説明

音声信号処理装置

【課題】 、風雑音と音声とのバランスを考慮しながら、風雑音の低減と音量の調整を行うことができる音声信号処理装置を提供する目的とする。
【解決手段】 前記検出手段により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出手段により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記調整手段の減衰率を変更する

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声信号処理装置に関し、特に、いわゆる風雑音を低減することができる音声信号処理装置に関する。
【背景技術】
【0002】
従来、音声信号処理装置として、動画撮影を行うとともに、音声を集音し、動画データと音声データを記録することができる撮像装置が登場してきている。
【0003】
このような撮像装置において、動画撮影時に、風がマイク孔などに当たり、いわゆる風雑音、ウィンドノイズと呼ばれる雑音が発生してしまい、その音が音声データとして記録されてしまう問題が知られている。
【0004】
従来、このような問題に対し、撮像装置においては、例えば、100Hz以下の周波数帯の音声を低減させるハイパスフィルタ(HPF)を用いて、風雑音を低減させる技術が用いられてきた。例えば、特許文献1においては、複数のマイクにより得られた音声の差分値にハイパスフィルタをかけ、差分値に基づいて風雑音の発生量を推定し、その後、音量を調整するためにオートレベルコントローラ(ALC)の増幅率を制御するものが知られている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2011−2652号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1においては、ALCの動作において、音量の小さい場合の増幅率を風雑音の発生量が多いときには小さくし、風雑音の発生量が少ないときには大きくするような制御を行っていた。逆に、音量の大きい場合には、風雑音の発生量にかかわらず増幅率を通常時と変更させないようにしていた。そのため、音量が大きいときには、風雑音が低減しきれずに音量が大きくなった場合であっても、風雑音以外の通常の音声の音量が大きい場合であっても、同じ割合で音声信号を増幅してしまうことになる。
【0007】
そうすると、例えば風雑音が低減しきれずに音量が大きくなった場合には、ある程度低減された風雑音が結局、ALCで増幅されてしまい、結果としてユーザに耳障りな音声となってしまう可能性があるといった課題があった。
【0008】
本発明は、このような課題に鑑みてなされたものであって、風雑音と音声とのバランスを考慮しながら、風雑音の低減と音量の調整を行うことができる音声信号処理装置を提供する目的とする。
【課題を解決するための手段】
【0009】
本発明の音声信号処理装置は、複数の音声信号を取得する取得手段と、前記複数の音声信号に基づいて風雑音が発生しているか否かを検出する検出手段と、前記複数の音声信号のレベルを目標レベルに近づくように制御するレベル制御手段と、前記レベル制御手段により出力された複数の音声信号のレベルを調整する調整手段と、前記検出手段により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出手段により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記調整手段の減衰率を変更する変更手段とを有することを特徴とする。
【発明の効果】
【0010】
本発明によれば、風雑音と音声とのバランスを考慮しながら、風雑音の低減と音量の調整を行うことができる。
【図面の簡単な説明】
【0011】
【図1】本実施形態における撮像装置の構成を示すブロック図である。
【図2】本実施形態における音声処理を説明するための図である。
【図3】本実施形態における音声処理の動作を示すフロー図である。
【図4】本実施形態における音声レベルの調整結果を示す図である。
【図5】本実施形態における音声処理を説明するための図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施例を詳細に説明するが、この発明は以下の実施の形態に限定されない。
【0013】
[第1の実施形態]
本実施例においては、音声信号処理装置の一例として撮像装置100について説明する。本実施例の撮像装置100は、複数のマイクユニットにより得られた音声信号に基づいて、風雑音の発生を検出し、風雑音の発生の検出前の音声レベルと風雑音の発生の検出中の音声レベルとに応じて、風雑音の発生の検出中の音声信号の音声レベルを制御することができる。
【0014】
このような機能により、本実施例の撮像装置100は、風雑音と音声とのバランスを考慮しながら、風雑音の低減と音量の調整を行うことができる。
【0015】
以下、このような撮像装置について説明する。
【0016】
図1は、本実施例の撮像装置100の構成を示すブロック図である。
【0017】
撮像装置100は、CPU101、RAM102、FlashROM103、操作部104を有する。また、撮像装置100は、撮像部110、画像処理部111、音声入力部120、音声処理部121、表示部130、表示制御部131、音声出力部132、記録媒体140、記録再生部141、通信部150を有する。また、撮像装置100は、符号化復号化処理部160を有する。
【0018】
図1において、CPU101は、FlashROM103に記録された撮像装置100の制御プログラムをRAM102に展開し、RAM102をワークメモリとして使用しながら、撮像装置100の各ブロックを制御するものである。操作部104は、例えば、電源ボタン、記録ボタン、ズーム調整ボタン、オートフォーカスボタンなどの撮影に関連する各種操作を入力するスイッチ類を有する。また、メニュー表示ボタン、決定ボタン、その他カーソルキー、ポインティングデバイス、タッチパネル等を備え、ユーザによりこれらのキーやボタン、タッチパネルが操作されるとCPU101に操作信号を送信する。
【0019】
撮像部110は、レンズにより取り込まれた被写体の光学像を、絞りにより光量を制御して、CCDセンサやCMOSセンサ等の撮像素子により画像信号に変換し、得られたアナログ画像信号をデジタル画像信号に変換して一時的にRAM102に記憶するものである。RAM102に記憶されたデジタル画像信号は、その後、画像処理部111に送信される。画像処理部111は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。画像処理部111は、デジタル画像信号のホワイトバランスや色、明るさなどをユーザに設定された設定値や画像の特性から自動的に判定した設定値に基づいて調整する画質調整処理を行い、処理をしたデジタル画像信号を再びRAM102に記憶させるものである。なお、画像処理部111の処理は、CPU101がFlashROM103に記録された前述の処理を実行する為のプログラムをRAM102に展開して実行するようにしてもよい。
【0020】
音声入力部120は、たとえば、内蔵された無指向性のマイクまたは音声入力端子を介して接続された外部マイク等により、撮像装置100の周囲の音声を集音(収音)するものである。そして、音声入力部120で取得されたアナログ音声信号は、音声処理部121に送信される。音声処理部121は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。音声処理部121では、記録時においては、音声入力部120により取得されたアナログ音声信号をデジタル音声信号に変換し、レベルの適正化処理や雑音低減処理等の処理を行い、処理をしたデジタル音声信号をRAM102に記憶させるものである。また、必要に応じて、音声信号を圧縮する処理を行う。音声圧縮方式については、AC3、AAC等の公知の一般的な音声圧縮方式を用いており、本発明の特徴とは関係ないので説明を省略する。また、再生時においては、記録媒体140から記録再生部141によって読出された音声ファイルや動画ファイルに含まれる圧縮音声データ復号する処理も行う。なお、音声処理部121の処理は、CPU101がFlashROM103に記録された前述の処理を実行する為のプログラムをRAM102に展開して実行するようにしてもよい。
【0021】
なお、本実施例の音声処理部121は、後述するように、風雑音を検出する機能、風雑音を低減する機能、音声レベルを調整する機能などが搭載されている。
【0022】
また、表示制御部131は、表示部130に画像を表示するための表示制御を行うマイクロコンピュータであって、メモリ104に一時的に記憶されたデジタル画像信号を読み出して、表示部130に表示させる処理を行う。また、記録媒体140から記録再生部141によって読出された動画ファイルや静止画ファイルに含まれる画像データの画像を表示部130に表示させる処理も行う。表示部130は、たとえば撮像装置100に搭載された液晶パネルや有機ELパネル等であっても良いし、撮像装置100とは別の表示装置(たとえば、テレビ、モニタ、プロジェクタ)であってもよい。なお、表示制御部131の処理は、CPU101がFlashROM103に記録された前述の処理を実行する為のプログラムをRAM102に展開して実行するようにしてもよい。
【0023】
符号化復号化処理部160は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。符号化復号化処理部160では、記録時においては、画像処理部111により処理されRAM102に記憶されたデジタル画像信号に基づいて、画像圧縮処理を行い、圧縮された動画データや静止画データを生成し、RAM102に一時的に記憶する処理を行う。また、再生時においては、記録媒体140から読出された画像ファイルの圧縮された動画データや静止画データを復号してデジタル画像信号を抽出し、RAM102に記憶していく処理を行う。なお、CPU101がFlashROM103に記録された前述の処理を実行する為のプログラムをRAM102に展開して実行するようにしてもよい。
【0024】
次に、記録再生部141は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。記録再生部141では、動画記録時においては、RAM102に記憶されている、符号化復号化処理部160により生成された圧縮動画データ、音声処理部121で生成された音声データ、撮影日等の各種情報とともに、動画ファイルとして記録媒体140に書き込む。また静止画記録時においては、ROM102に記憶されている静止画データを撮影日等の各種情報とともに静止画ファイルとして記録媒体140に記録する。動画ファイルを記録媒体140に記録する際は、圧縮動画データと音声データとからなるデータストリームを形成し、順次記録媒体140に記録していき、ファイルヘッダ等を付加してFATやexFAT等のファイルフォーマットに適合した形で動画ファイルを記録媒体に記録する。また、再生時においては、記録媒体140に記録された動画ファイルや静止画ファイルを前述のファイルフォーマットに従って読出す。読出された動画ファイルや静止画ファイルは、CPU101によりヘッダが解析され、圧縮された動画データ、静止画データが抽出される。抽出された圧縮動画データ、静止画データは、RAM102に記憶されて、符号化復号化処理部160により復号される。なお、記録再生部141の処理は、CPU101がFlashROM103に記録された前述の処理を実行する為のプログラムをRAM102に展開して実行するようにしてもよい。
【0025】
また、記録媒体140は、撮像装置に内蔵された記録媒体でも、取外し可能な記録媒体でもよい。例えば、ハードディスク、光ディスク、光磁気ディスク、CD−R、DVD−R、磁気テープ、不揮発性の半導体メモリ、フラッシュメモリ、などのあらゆる方式の記録媒体を含む。取り外し可能な記録媒体を用いる場合には、記録再生部141は、それらの取り外し可能な記録媒体を受け入れるためのインタフェースを含む。
【0026】
次に音声出力部132は、例えばスピーカや音声出力端子(アナログ端子/デジタル端子)である。例えばスピーカであれば、CPU101によりflashROM103に記録されている所定のデジタル音声信号の出力が指示されたときにデジタル音声信号をアナログ音声外部に変換し、外部に音声として出力する。また、動画ファイルに格納された音声データの示すデジタル音声信号をアナログ音声信号に変換し、外部に音声として出力する。また、音声出力端子であれば、動画ファイルに格納された音声データの示すデジタル音声信号をアナログ音声信号に変換して外部装置(外付けスピーカなど)に出力するか、デジタル音声信号をそのまま外部装置(光デジタル端子搭載のオーディオコンポなど)に出力する。
【0027】
また、通信部150は、撮像装置100とは異なる外部装置との間で、制御信号や動画ファイル、静止画ファイル、各種データ等を送受信するものであり、有線接続、無線接続を問わず接続可能である。なお、通信方式はどのような方式であっても良い。
【0028】
ここで、本実施例の撮像装置100の通常の動作について説明する。
【0029】
本実施例の撮像装置100は、ユーザが操作部102の電源ボタンを操作すると、操作部102から制御部101に起動の指示が出される。この指示を受けて、制御部101は、不図示の電源供給部を制御して、撮像装置100の各ブロックに対して電源を供給させる。
【0030】
電源が供給されると、制御部101は、例えば、操作部102のモード切り換えスイッチが、例えば、「動画撮影モード」、「再生モード」等のどのモードであるかを操作部102からの指示信号により確認する。
【0031】
本実施例の撮像装置100は、特に「動画撮影モード」において、動画データを「MPEG−4 AVC/H.264」の圧縮方式で圧縮する例について説明するが、他の圧縮方式を用いても構わない。
【0032】
(「動画撮影モード」)
まず、「動画撮影モード」であれば、CPU101は、撮像装置100の各ブロックに、動画撮影の準備をさせる。操作部104から撮影開始の指示が入力されるまでは、CPU101は、撮像部110により得られたデジタル画像信号をRAM102に記憶させ、RAM102に記憶されたデジタル画像信号を読出させて表示部130に画像を表示させように表示制御部131を制御する。なお、画像処理部111により処理され、RAM102に記憶されたデジタル画像信号を読出させて表示部130に画像を表示させるように表示制御部131を制御しても良い。なお、本実施形態では、撮像部110から出力されるデジタル画像信号のフレームレートは、30フレーム/秒であるとする。また、本実施形態では、記録する動画のサイズ(画素数)を複数のサイズから選択した一つのサイズに設定することができる。
【0033】
この状態で、CPU101は、操作部104により撮影開始の指示が入力されたか否かを判定する。撮影開始の指示があると、CPU101は、撮像部110により得られたデジタル画像信号をRAM102に記憶させ、RAM102に記憶されたデジタル画像信号に対して設定値に基づいて画質調整処理を施すように画像処理部111を制御する。CPU101は動画撮影を継続している間、30フレーム/秒で撮像部110により出力されるデジタル画像信号を順次、画像処理部111に処理させる。そして、CPU101は、画像処理部111で処理されたデジタル画像信号を、順次RAM102に記憶させる。
【0034】
次に、CPU101は、RAM102に記憶された複数フレームのデジタル画像信号を順次符号化して動画データを生成するように符号化復号化処理部160を制御する。CPU101は、このとき、各フレーム画像をフレーム内予測符号化フレーム、フレーム間予測符号化フレームとして圧縮符号化をするように符号化復号化処理部160を制御する。そして、CPU101は、符号化復号化処理部160で符号化された各フレーム画像を順次RAM102に記憶させていく。
【0035】
一方、撮影開始の指示があると、CPU101は、音声に関する処理をするようにも各ブロックを制御する。CPU101は、音声入力部120から出力されるアナログ音声信号を順次音声処理部121に転送し、デジタル信号への変換、音質調整処理等を施すように音声処理部121を制御する。また、音声圧縮の設定がされている場合には、CPU101は設定に従って、例えばAC3、AACの音声圧縮方式で音声信号を圧縮するように音声処理部121を制御する。そして、CPU101は、音声処理部121で処理した音声データをRAM102に順次記憶させていく。また、音声処理部121は、風雑音の検出、風雑音の低減、音声レベルの調整なども行う。この処理については後述する。
【0036】
次にCPU101は、RAM102に記憶された動画データ、音声データを順次、記録媒体140に記録するように、記録再生部141を制御する。このとき例えば、15フレーム分(0.5秒分)の動画データと、0.5秒分の音声データとを一組にし、必要な各種情報を付加したデータストリームを形成し、ファイルシステムに従って記録媒体140に記録するように、記録再生部141を制御する。なお、30フレーム分(1秒分)の動画データと、1秒分の音声データを一組としても良い。CPU101は、これらの動作を動画撮影の停止の指示があるまで継続する。
【0037】
そして、操作部104により撮影停止の指示が入力されると、CPU101は、画像処理部111の処理を停止させ、RAM102に記憶されたデジタル画像信号の符号化が終了した時点で符号化復号化処理部160の符号化処理を停止させる。そして、CPU101は、RAM102に記憶されている符号化済みの動画データ、音声データを最後まで記録媒体140に記録してから動作を停止するように記録再生部141を制御する。なお、必要に応じて、記録終了後に、動画ファイルの動画データの先頭のフレームや先頭から数フレームの画像データを符号化復号化処理部160に送信して復号させ、復号されたデジタル画像信号の画素数を間引いたサムネイル画像データを生成して、動画ファイルに関連づけて記録するようにしても良い。
【0038】
この処理が終了すると、CPU101は、再び動画撮影の準備状態に各ブロックを戻す。
【0039】
(「再生モード」)
「再生モード」であれば、CPU101は、記録媒体140に記録されている動画ファイル、静止画ファイルのうち指定されたファイルに関連づけられたサムネイル画像データを読出すように記録再生部141を制御する。そして、CPU101は、これらのサムネイル画像データを示す画像を表示部130に表示するよう表示制御部131を制御する。
【0040】
そして、操作部104から指定されたサムネイルに対応するファイルを再生する指示が入力されると、CPU101は、指定された動画ファイルや静止画ファイルを記録媒体140から読出すように記録再生部141を制御する。そして、CPU101は、読出した動画ファイルや静止画ファイルに含まれる各種情報、動画データ、音声データ、静止画データを抽出してRAM102に記憶させる。
【0041】
静止画ファイルを再生する場合は、CPU101は、RAM102に記憶された静止画データを復号するように符号化復号化処理部160を制御し、復号されたデジタル画像信号をRAM102に記憶させる。そして、RAM102に記憶させた復号されたデジタル画像信号を表示部130に表示するように表示制御部131を制御する。
【0042】
また、動画ファイルを再生する場合は、CPU101は、RAM102に記憶された動画データを復号するように符号化復号化処理部160を制御し、復号された各フレームのデジタル画像信号を順次、RAM102に記憶させる。そして、RAM102に記憶させた復号された各フレームのデジタル画像信号を表示部130に、順次表示するように表示制御部131を制御する。また、CPU101は、RAM102に記憶された音声データを動画の復号、表示のタイミングに合わせて、音声出力部132に送信し、音声を出力させる。なお、音声データが圧縮されたものである場合には、RAM102に記憶された音声データを復号するように音声処理部121を制御し、復号された音声データを音声出力部132に送信する。
【0043】
次に本実施例の撮像装置100の音声入力部120及び音声処理部121の動作について図2、3、4を用いて説明する。図2は、本実施例の音声入力部120及び音声処理部121の動作を説明するためのブロック図である。本実施例の音声処理部121の動作は、動画撮影開始に伴い動作を開始するが、動画撮影開始前から動作を開始しても良い。
【0044】
本実施例の音声入力部120は、内蔵された複数の無指向性のマイクを有し、複数の音声信号を取得することができる。本実施例においては、マイク210a、マイク210bを示すが、マイクの個数は2個に限られない。また、音声信号処理部121は、AD変換部220a、220b、風雑音検出部230、ハイパスフィルタ231a、231b、オートレベルコントローラ(以後ALC)240を有する。またALC240のゲインを制御するALC制御部250を有する。ALC制御部250は、平均化部251、切替部252、レベル検出部253a、253b、変更部254を有する。
【0045】
マイク210a、210bは、周囲の音声を集音し、アナログ音声信号を出力する。AD変換部220a、220bは、それぞれマイク210a、210bから出力されたアナログ音声信号をデジタル音声信号に変換する。
【0046】
風雑音検出部230は、AD変換部220a、220bから出力された複数のデジタル音声信号に基づいて、風雑音の有無を検出する。風雑音の検出方法は様々な手法が存在し、本実施例においても公知のどのような手段を用いても良い。例えば、複数のデジタル音声信号の1kHz以下の信号同士の和と差を算出し、それぞれの絶対値を比較して、差を示す信号の方が大きいときには風雑音が発生していると判定する。これは、通常の音声成分については、各マイクに対して入力される音声がほぼ同じ音声となり、相関がとれているため、和を示す信号は大きくなるが、差を示す信号は小さくなる。逆に、風雑音については、各マイクに発生する雑音の相関が全くとれていないため、差成分が大きくなるという性質を利用している。また、差を示す信号のレベルが大きいほど、風雑音のレベルが大きいと判定し、差を示す信号が小さいほど、風雑音のレベルが小さいと判定することもできる。このような手法に代表されるように、複数のマイクにより得られた音声信号を演算、比較することで、風雑音の発生を検出することができるのである。なお、差を示す信号に対して、所定の係数を乗算して前述の比較や演算を行う方法もある。
【0047】
ハイパスフィルタ231a、231bは、風雑音を低減させるためのものであって、風雑音検出部により検出された風の成分が大きいほど、カットオフ周波数を上げることができる。例えば、風雑音が発生していないときは、カットオフ周波数を20Hzとし、風雑音が発生しているが、発生レベルが低いときは、カットオフ周波数を500Hzとし、発生レベルが中程度である場合にはカットオフ周波数を1kHzとする。そして、風雑音の発生レベルが最大である場合には、カットオフ周波数を2kHzにする。このようにハイパスフィルタ231a、231bは、設定された所定の周波数成分を減衰させることで、風雑音を低減させるものである。
【0048】
オートレベルコントローラ(ALC)240は、ハイパスフィルタ231a、231bから出力された音声信号のレベルを適正レベルに制御するレベル制御を行うものである。ALC240は、ハイパスフィルタ231a、231bから出力されたそれぞれの音声信号のうち、レベルの大きい方の音声信号のレベルに応じて、それぞれの音声信号に与えるゲインを変更して、目標の音量の音声信号を出力するものである。
【0049】
例えば、風雑音が入力されていない場合には、ALC240は、図4(a)に示すようなレベルの音声信号が入力されると、図4(b)のような音声信号を出力する。図4において、縦軸は音声信号のレベル、横軸は時間を示している。つまり、図4(a)においては、期間AからBにおいては、a[dB]、期間BからCにおいては、b[dB]、期間CからDにおいては、c[dB]の音声信号が入力されている例を示している。
【0050】
ALC240は、入力された音声信号のレベル大きい方の音声信号のレベルを目標レベル「Limit」に近づけるように制御を行っている。具体的には、目標レベル「Limit」よりも大きい音声信号については、目標レベル「Limit」に近づけるように音声レベルを低減させるようにゲインを与える。また、目標レベル「Limit」よりも小さい音声信号については、目標レベル「Limit」に近づけるように音声レベルを増幅させるようにゲインを与える。ただし、与えるゲインの最大値は所定のゲイン(Gmax)である。なお、ALC240に入力されたハイパスフィルタ231a、231bから出力された音声信号に与えるゲインは、共通のゲインである。
【0051】
ALC240で前述の処理が実行されることで、図4(b)に示すように、期間AからBにおいては、目標レベル「Limit」[dB]、期間BからCにおいても、目標レベル「Limit」[dB]、期間CからDにおいては、c+所定のゲイン(Gmax)[dB]となる。
【0052】
次に、ALC制御部250について説明する。ALC制御部250は、AD変換部220a、220bから出力された複数のデジタル音声信号と、風雑音検出得230の出力とに基づいて、ALC240の目標レベルを制御するものである。本実施例の撮像装置100は、この制御を動画撮影中に行うものとするが、動画撮影を行っていないときであってもこの制御を行っても良い。
【0053】
平均化部251は、AD変換部220a、220bから出力された複数のデジタル音声信号の平均化した信号を生成する。そして、切替部252は、平均化部251から出力された平均化信号を、レベル検出部253a、253bのいずれに入力するかを切り替えるものである。切替部252は、風雑音が発生していない場合、平均化部251から出力された平均化信号を、レベル検出部253aに送信し、風雑音が発生している場合、平均化部251から出力された平均化信号を、レベル検出部253bに送信する。
【0054】
レベル検出部253aは、平均化信号が入力されている間、例えば、16秒分の平均化信号の絶対値を加算して、加算値から平均値を算出している。すなわち、レベル検出部253aは、風雑音が発生していないときの平均化信号のレベルの平均値を示す。また、レベル検出部253bは、平均化信号が入力されている間、例えば、0.5秒分の信号の絶対値を加算して、加算値から平均値を算出している。すなわち、レベル検出部253bは、風雑音が発生しているときの平均化信号のレベルの平均値を示す。これら、レベル検出部253a、bの出力値の比率は、風雑音が発生していないときの音声信号の平均レベルと、風雑音が発生しているときの音声信号の平均レベルとの比率を示すことと同等である。
【0055】
変更部254は、レベル検出部253a、レベル検出部253bに保持された平均値に基づいて、風雑音の発生が検出されている間、ALC240の目標レベル「Limit」を変更するものである。
【0056】
具体的には、風雑音の発生が検出されると、変更部254は、レベル検出部253aより、風雑音が発生していないときの平均化信号のレベルの平均値(Xとする)、レベル検出部253bより、風雑音が発生しているときの平均化信号のレベルの平均値(Yとする)をそれぞれ読出す。
【0057】
本実施形態においては、風雑音が発生していないと検出されたときの平均化信号の平均値(X)から、風雑音が発生したと検出されたときの平均化信号に含まれる風雑音以外の音声の成分のレベルを推定する。そのため、風雑音が発生したと検出された場合の平均化信号のレベルの平均値(Y)と、風雑音が発生していないと検出されたときの平均化信号のレベルの平均値(X)とを比較する。Xに対するYの比率αは以下の数式1で表される。
α=Y/X (数式1)
【0058】
前述したように、これら、レベル検出部253a、bの出力値の比率は、風雑音が発生していないときの音声信号の平均レベルと、風雑音が発生しているときの音声信号の平均レベルとを示すことになる。すなわち、この比率αは、風雑音の発生により、風雑音を低減する前の音声レベルがどの程度増幅されたかを示す。
【0059】
次に変更部254は、ALC240の目標レベル「Limit」を低減させる。例えば、ALC240の目標レベルを(Limit−20・logα)[dB]に設定する。
【0060】
このような制御により、図4(c)に示すように、風雑音検出時には、ALC240の目標レベルが(Limit−20・logα)に低減される。
【0061】
このように変更部254は、風雑音が発生したと検出されたときの平均化信号のレベルの平均値(Y)と、風雑音が発生していないと検出されたときの平均化信号のレベルの平均値(X)とを比較する。そして、風雑音が発生したと検出されたときの平均化信号のレベルの平均値(Y)の値が、風雑音が発生していないと検出されたときの平均化信号のレベルの平均値(X)よりも大きいほど、ALC240の目標レベルを低減する。
【0062】
なお、本実施例においては、ALC240の目標レベル「Limit」を、20・logα(Xに対するYの比率)だけ低減させるものとしたが、低減する値は、例えば、一定の係数kを乗算したk・20・logαとしてもよい。また、低減する値は、α(Xに対するYの比率)と必ずしも比例関係になくてもよく、Xに対するYの比率が大きくなるほど、ALC240の目標レベル「Limit」を低減する割合が大きくなればよい。また、Xに対するYの比率が所定の比率を上回る毎に段階的に低減する割合を大きくしても良い。
【0063】
このような制御を行うことで、風雑音以外の音声信号の音声レベルと、風雑音を含む音声信号の音声レベルとを考慮しながら、ALC240の目標レベルを設定することができる。そのため、風雑音成分の多い音声信号の音声レベルをむやみに増幅させてしまうよう可能性を低減し、風雑音成分の少ない音声信号の音声レベルは聞きやすいレベルまで増幅させることができる。そのため、ユーザに耳障りな音声となってしまう可能性を低減することができる。
【0064】
次に、図3を用いて、本実施形態の音声処理の動作を説明する。図3のフロー図は、前述した動画撮影開始から終了までの間に、ALC制御部250で実行される処理を示すものである。なお、音声処理部121は、CPU101により制御されている。
【0065】
(S310)
まず、動画撮影が開始されると、切替部252は、風雑音検出部230により得られた風雑音の発生を示す信号に基づいて、平均化部251により得られた平均化信号をレベル検出部253a、253bのいずれかに入力させる。
切替部252は、風雑音が発生していない場合、平均化部251から出力された平均化信号を、レベル検出部253aに送信し、風雑音が発生している場合、平均化部251から出力された平均化信号を、レベル検出部253bに送信する。
【0066】
(S320)
S310で、風雑音の発生が検出されていない場合、レベル検出部253aは、平均化部251から出力された平均化信号の絶対値を16秒分加算して、加算値の平均値を算出する。
なお、S310で、風雑音の発生が検出されていない場合、変更部254は、ALC240の目標レベルを変更するような処理は行わない。
【0067】
(S330)
S310で、風雑音の発生が検出されている場合、レベル検出部253bは、平均化部251から出力された平均化信号の絶対値を0.5秒分加算して、加算値の平均値を算出する。
【0068】
(S331)
S310で、風雑音の発生が検出されている場合、変更部254は、レベル検出部253a、レベル検出部253bに保持されたカウント値を比較する。すなわち、風雑音が発生していないときの平均化信号のレベルの平均値(Xとする)と、レベル検出部253bより、風雑音が発生しているときの平均化信号のレベルの平均値(Yとする)とを比較する。本実施形態においては、特に、風雑音が発生していないときの音声信号のレベルの加算値は、風雑音の発生を検知する直前の音声信号の音声レベルの加算値を用いるものとするが、風雑音の発生を検知する前の所定時間以内のものを用いても良い。
【0069】
(S340)
次に、変更部254は、Xに対するYの比率αが1より大きいか否かを判定する。すなわち、風雑音を含む音声信号の音声レベルが、風雑音の含まれていないそれまでの音声信号の音声レベルよりも小さいか、大きいかを判定する。
そして、αが1以下、すなわち、風雑音を含む音声信号の音声レベルが、風雑音の含まれていないそれまでの音声信号の音声レベルよりも小さい場合には、変更部254は、ALC240の目標レベルを変更するような処理は行わない(S340でNo)。αが1より大きい、すなわち、風雑音を含む音声信号の音声レベルが、風雑音の含まれていないそれまでの音声信号の音声レベルよりも大きい場合には(S340でYes)、変更部254は、S350の処理を行う。
【0070】
(S350)
変更部254は、ALC240の目標レベル「Limit」を変更する。
具体的には、前述したように、目標レベルを(Limit−20・logα)[dB]に設定する。
【0071】
(S360)
CPU101は、これらの動作を、操作部104により撮影停止の指示が入力されるまで継続させる。
【0072】
このような制御を行うことで、風雑音以外の音声信号の音声レベルと、風雑音を含む音声信号の音声レベルとを考慮しながら、ALC240の目標レベルを設定することができる。そのため、風雑音成分の多い音声信号の音声レベルをむやみに増幅させてしまうよう可能性を低減し、風雑音成分の少ない音声信号の音声レベルは聞きやすいレベルまで増幅させることができる。そのため、ユーザに耳障りな音声となってしまう可能性を低減することができる。
【0073】
なお、本実施例において、動画記録開始時に、風雑音検出部230により、最初から風雑音が発生していると判定されていた場合には、変更部254は、ALC240の目標レベルを変更しないように制御する。このような制御により、ALC240の目標レベルが低くなりすぎてしまい、かえって聞きづらい音声になってしまう等の不具合を未然に防止することができる。
【0074】
また、本実施例においては、動画記録開始時に、図3のフロー図に示す処理を実行するものとしたが、電源投入時から常に動作させても良い。このようにすることで、記録開始時に、風雑音が発生していると検出されたとしても、予め16秒分の平均化信号のレベルの平均値を算出することができるので、記録開始時からALC240の制御を適切に行うことができる。
【0075】
また、本実施例において、レベル検出部253aに16秒分の平均化信号のレベルが蓄積されていない場合であっても、蓄積した秒数で平均化を行っても良い。
【0076】
また、レベル検出部253aに16秒分の平均化信号のレベルが蓄積されていない場合であっても、平均化信号の絶対値の加算値を16秒分のものとして平均化を行う。このようにすることで、このような制御により、ALC240の目標レベルが低くなりすぎてしまい、かえって聞きづらい音声になってしまう等の不具合を未然に防止することができる。
【0077】
また、本実施例においては、ALC240において与えるゲインを変更するように制御を行ったが、例えばALC240の後に、音量調整部(ボリューム)を設け、変更部254により、減衰量が設定されても良い。減衰量は、本実施形態のALC240における減衰量と同様の値を設定すればよい。
【0078】
また、本実施例においては、ALC制御部250は、図2に示すようにAD変換部220a、220bから出力される音声信号のレベルに基づいて、風雑音が発生しているときの音声信号のレベルと風雑音が発生していないときの音声信号のレベルとを比較していた。しかし、たとえば、HPF231a、231bの出力信号やALC240の出力信号に基づいて、風雑音が発生しているときの音声信号のレベルと風雑音が発生していないときの音声信号のレベルを比較しても良い。
【0079】
このような制御を行うことで、風雑音以外の音声信号の音声レベルと、風雑音を含む音声信号の音声レベルとを考慮しながら、調整部260の減衰量を設定することができる。そのため、風雑音成分の多い音声信号の音声レベルをむやみに増幅させてしまうよう可能性を低減し、風雑音成分の少ない音声信号の音声レベルは聞きやすいレベルまで増幅させることができる。そのため、ユーザに耳障りな音声となってしまう可能性を低減することができる。
【0080】
なお、本実施形態の撮像装置100は、例えば、デジタルカメラ、携帯電話、スマートフォン、ICレコーダ、携帯型ゲーム機など音声を記録することができる装置であればどのような装置にも適用することができる。
【0081】
[第2の実施形態]
次に、第2の実施形態について説明する。第1の実施形態においては、図2に示すように、本実施例においては、ALC制御部250は、図2に示すようにAD変換部220a、220bから出力される音声信号のレベルに基づいて、ALC240を制御した。
【0082】
第2の実施形態においては、音声処理部121は、第1の実施形態とは異なる音声処理制御を行う。
【0083】
本実施形態における撮像装置100の構成は、第1の実施形態と同様な構成であるため、説明を省略する。第2の実施形態においては、音声処理部121の構成が第1の実施形態と異なるため、この点を説明する。
【0084】
図5は、本実施形態の音声入力部120及び音声処理部121の動作を説明するためのブロック図である。本実施例の音声処理部121の動作は、動画撮影開始に伴い動作を開始するが、動画撮影開始前から動作を開始しても良い。
【0085】
本実施例の音声入力部120は、内蔵された複数の無指向性のマイクを有し、複数の音声信号を取得する。本実施例においては、マイク510a、マイク510bを示すが、マイクの個数は2個に限られない。また、音声信号処理部121は、AD変換部520a、520b、風雑音検出部530、ハイパスフィルタ531a、531b、オートレベルコントローラ(以後ALC)540、音量調整部560を有する。また音量調整部560を制御する音量制御部550を有する。音量制御部550は、平均化部551、切替部552、レベル検出部553a、553b、変更部554を有する。
【0086】
マイク510a、510bは、周囲の音声を集音し、アナログ音声信号を出力する。AD変換部520a、520bは、それぞれマイク510a、510bから出力されたアナログ音声信号をデジタル音声信号に変換する。
【0087】
風雑音検出部530は、AD変換部520a、520bから出力された複数のデジタル音声信号に基づいて、風雑音の有無を検出する。風雑音の検出方法は様々な手法が存在し、本実施例においても公知のどのような手段を用いても良い。例えば、複数のデジタル音声信号の1kHz以下の信号同士の和と差を算出し、それぞれの絶対値を比較して、差を示す信号の方が大きいときには風雑音が発生していると判定する。これは、通常の音声成分については、各マイクに対して入力される音声がほぼ同じ音声となり、相関がとれているため、和を示す信号は大きくなるが、差を示す信号は小さくなる。逆に、風雑音については、各マイクに発生する雑音の相関が全くとれていないため、差成分が大きくなるという性質を利用している。また、差を示す信号のレベルが大きいほど、風雑音のレベルが大きいと判定し、差を示す信号が小さいほど、風雑音のレベルが小さいと判定することもできる。このような手法に代表されるように、複数のマイクにより得られた音声信号を演算、比較することで、風雑音の発生を検出することができるのである。なお、差を示す信号に対して、所定の係数を乗算して前述の比較や演算を行う方法もある。
【0088】
ハイパスフィルタ531a、531bは、風雑音を低減させるためのものであって、風雑音検出部により検出された風の成分が大きいほど、カットオフ周波数を上げることができる。例えば、風雑音が発生していないときは、カットオフ周波数を20Hzとし、風雑音が発生しているが、発生レベルが低いときは、カットオフ周波数を500Hzとし、発生レベルが中程度である場合にはカットオフ周波数を1kHzとする。そして、風雑音の発生レベルが最大である場合には、カットオフ周波数を2kHzにする。
【0089】
オートレベルコントローラ(ALC)540は、ハイパスフィルタ531a、531bから出力された音声信号のレベルを適正レベルに制御するものである。ALC540は、ハイパスフィルタ531a、531bから出力されたそれぞれの音声信号のうち、レベルの大きい方の音声信号のレベルに応じて、それぞれの音声信号に与えるゲインを変更して、目標の音量の音声信号を出力するものである。
【0090】
例えば、風雑音が入力されていない場合には、ALC540は、図4(a)に示すようなレベルの音声信号が入力されると、図4(b)のような音声信号を出力する。図4において、縦軸は音声信号のレベル、横軸は時間を示している。つまり、図4(a)においては、期間AからBにおいては、a[dB]、期間BからCにおいては、b[dB]、期間CからDにおいては、c[dB]の音声信号が入力されている例を示している。
【0091】
ALC540は、入力された音声信号のレベル大きい方の音声信号のレベルを目標レベル「Limit」に近づけるように制御を行っている。具体的には、目標レベル「Limit」よりも大きい音声信号については、目標レベル「Limit」に近づけるように音声レベルを低減させるようにゲインを与える。また、目標レベル「Limit」よりも小さい音声信号については、目標レベル「Limit」に近づけるように音声レベルを増幅させるようにゲインを与える。ただし、与えるゲインの最大値は所定のゲイン(Gmax)である。なお、ALC540に入力されたハイパスフィルタ531a、531bから出力された音声信号に与えるゲインは、共通のゲインである。
【0092】
ALC540で前述の処理が実行されることで、図4(b)に示すように、期間AからBにおいては、目標レベル「Limit」[dB]、期間BからCにおいても、目標レベル「Limit」[dB]、期間CからDにおいては、c+所定のゲイン(Gmax)[dB]となる。
【0093】
調整部560は、ALC540から出力された音声信号のレベルを後述の音量制御部550により設定された値に応じて、減衰または増幅させるものである。
【0094】
次に、音量制御部550について説明する。音量制御部550は、ハイパスフィルタ531a、531bから出力された複数の音声信号と、風雑音検出得530の出力とに基づいて、音量調整部560の減衰量または増幅量を制御するものである。本実施例の撮像装置100は、この制御を動画撮影中に行うものとするが、動画撮影を行っていないときであってもこの制御を行っても良い。
【0095】
平均化部551は、ハイパスフィルタ531a、531bから出力された複数の音声信号の平均化した信号を生成する。そして、切替部552は、平均化部551から出力された平均化信号を、レベル検出部553a、553bのいずれに入力するかを切り替えるものである。切替部552は、風雑音が発生していない場合、平均化部551から出力された平均化信号を、レベル検出部553aに送信し、風雑音が発生している場合、平均化部551から出力された平均化信号を、レベル検出部553bに送信する。
【0096】
レベル検出部553aは、平均化信号が入力されている間、例えば、16秒分の平均化信号の絶対値を加算して、加算値から平均値を算出している。すなわち、レベル検出部553aは、風雑音が発生していないときの平均化信号のレベルの平均値を示す。また、レベル検出部553bは、平均化信号が入力されている間、例えば、0.5秒分の信号の絶対値を加算して、加算値から平均値を算出している。すなわち、レベル検出部553bは、風雑音が発生しているときの平均化信号のレベルの平均値を示す。これら、レベル検出部553a、bの出力値の比率は、風雑音が発生していないときのハイパスフィルタ531a、531bから出力された複数の音声信号の平均レベルと、風雑音が発生しているときの複数の音声信号の平均レベルとの比率を示すことと同等である。
【0097】
変更部554は、レベル検出部553a、レベル検出部553bに保持された平均値に基づいて、風雑音の発生が検出されている間、調整部560における減衰量または増幅量を変更するものである。
【0098】
具体的には、風雑音の発生が検出されると、変更部554は、レベル検出部553aより、風雑音が発生していないときの平均化信号のレベルの平均値(X’とする)、レベル検出部553bより、風雑音が発生しているときの平均化信号のレベルの平均値(Y’とする)をそれぞれ読出す。
【0099】
本実施形態においては、風雑音が発生していないと検出されたときの平均化信号の平均値(X’)から、風雑音が発生したと検出されたときの平均化信号に含まれる風雑音以外の音声の成分のレベルを推定する。そのため、風雑音が発生したと検出された場合の平均化信号のレベルの平均値(Y’)と、風雑音が発生していないと検出されたときの平均化信号のレベルの平均値(X’)とを比較する。X’に対するY’の比率α’は以下の数式1で表される。
α’=Y’/X’ (数式2)
【0100】
前述したように、これら、レベル検出部553a、bの出力値の比率は、風雑音が発生していないときのハイパスフィルタ531a、531bの出力信号の平均レベルと、風雑音が発生しているときのハイパスフィルタ531a、531bの出力信号の平均レベルとを示すことになる。すなわち、この比率α’は、風雑音の発生により、風雑音を低減する前のハイパスフィルタ531a、531bの出力信号のレベルがどの程度増幅されたかを示す。
【0101】
次に変更部554は、音量調整部560の減衰量を20・logα’[dB]に設定する。なお、ここで設定される減衰量は、例えば、一定の係数kを乗算したk・20・logα’としてもよい。また、低減する値は、α’(X’に対するY’の比率)と必ずしも比例関係になくてもよく、X’に対するY’の比率が大きくなるほど、減衰量を大きくすればよい。また、X’に対するY’の比率が所定の比率を上回る毎に段階的に低減する割合を大きくしても良い。
【0102】
このような制御を行うことで、風雑音以外の音声信号の音声レベルと、風雑音を含む音声信号の音声レベルとを考慮しながら、音量調整部560の目標レベルを設定することができる。そのため、風雑音成分の多い音声信号の音声レベルをむやみに増幅させてしまうよう可能性を低減し、風雑音成分の少ない音声信号の音声レベルは聞きやすいレベルまで増幅させることができる。そのため、ユーザに耳障りな音声となってしまう可能性を低減することができる。
【0103】
なお、本実施例において、動画記録開始時に、風雑音検出部530により、最初から風雑音が発生していると判定されていた場合には、変更部554は、音量調整部560の減衰率を変更しないように制御する。このような制御により、音量調整部560の減衰率が大きくなりすぎてしまい、かえって聞きづらい音声になってしまう等の不具合を未然に防止することができる。
【0104】
また、本実施例においては、動画記録開始時に処理を実行するものとしたが、電源投入時から常に動作させても良い。このようにすることで、記録開始時に、風雑音が発生していると検出されたとしても、予め16秒分の平均化信号のレベルの平均値を算出することができるので、記録開始時から音量調整部560の減衰率の制御を適切に行うことができる。
【0105】
また、本実施例において、レベル検出部553aに16秒分の平均化信号のレベルが蓄積されていない場合であっても、蓄積した秒数で平均化を行っても良い。
【0106】
また、レベル検出部553aに16秒分の平均化信号のレベルが蓄積されていない場合であっても、平均化信号の絶対値の加算値を16秒分のものとして平均化を行う。このようにすることで、このような制御により、音量調整部560の減衰率が大きくなりすぎてしまい、かえって聞きづらい音声になってしまう等の不具合を未然に防止することができる。
【0107】
また、本実施例において、ALC540の出力信号のレベルに基づいて、音量調整部560の減衰率を変更するものとしたが、AD変換部220a、220bの出力信号に基づいて、音量調整部560の減衰率を変更してもよい。また、ハイパスフィルタ531a、531bの出力信号のレベルに基づいて、音量調整部560の減衰率を変更してもよい。
【0108】
このような制御を行うことでも、風雑音以外の音声信号の音声レベルと、風雑音を含む音声信号の音声レベルとを考慮しながら、調整部560の減衰量を設定することができる。そのため、風雑音成分の多い音声信号の音声レベルをむやみに増幅させてしまうよう可能性を低減し、風雑音成分の少ない音声信号の音声レベルは聞きやすいレベルまで増幅させることができる。そのため、ユーザに耳障りな音声となってしまう可能性を低減することができる。
【0109】
なお、本実施形態の撮像装置100は、例えば、デジタルカメラ、携帯電話、スマートフォン、ICレコーダ、携帯型ゲーム機など音声を記録することができる装置であればどのような装置にも適用することができる。
【0110】
[その他の実施形態]
以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。
【0111】
また、上述の実施形態の機能を実現するソフトウェアのプログラムを、記録媒体から直接、或いは有線/無線通信を用いてプログラムを実行可能なコンピュータを有するシステム又は装置に供給し、そのプログラムを実行する場合も本発明に含む。従って、本発明の機能処理をコンピュータで実現するために、該コンピュータに供給、インストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の機能処理を実現するためのコンピュータプログラム自体も本発明に含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。

【特許請求の範囲】
【請求項1】
複数の音声信号を取得する取得手段と、
前記複数の音声信号に基づいて風雑音が発生しているか否かを検出する検出手段と、
前記複数の音声信号のレベルを目標レベルに近づくように制御するレベル制御手段と、
前記レベル制御手段により出力された複数の音声信号のレベルを調整する調整手段と、
前記検出手段により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出手段により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記調整手段の減衰率を変更する変更手段とを有することを特徴とする音声信号処理装置。
【請求項2】
複数の音声信号を取得する取得手段と、
前記複数の音声信号に基づいて風雑音が発生しているか否かを検出する検出手段と、
前記複数の音声信号のレベルを目標レベルに近づくように制御するレベル制御手段と、
前記検出手段により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出手段により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記レベル制御手段の前記目標レベルを変更する変更手段とを有することを特徴とする音声信号処理装置。
【請求項3】
前記検出手段により前記風雑音が発生していると検出されたときに、前記複数の音声信号の所定の周波数成分を減衰させることを特徴とする請求項1または2記載の音声信号処理装置。
【請求項4】
前記変更手段は、前記検出手段により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと前記検出手段により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルとの差が大きいほど、前記減衰率を大きくするかまたは前記目標レベルを低くすることを特徴とする請求項1から3のいずれか1項記載の音声信号処理装置。
【請求項5】
複数の音声信号を取得する取得工程と、
前記複数の音声信号に基づいて風雑音が発生しているか否かを検出する検出工程と、
前記複数の音声信号のレベルを目標レベルに近づくように制御するレベル制御工程と、
前記レベル制御工程で出力された複数の音声信号のレベルを調整する調整工程と、
前記検出工程により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出工程により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記調整手段の減衰率を変更する変更工程とを有することを特徴とする音声信号処理方法。
【請求項6】
複数の音声信号を取得する取得工程と、
前記複数の音声信号に基づいて風雑音が発生しているか否かを検出する検出工程と、
前記複数の音声信号のレベルを目標レベルに近づくように制御するレベル制御工程と、
前記検出工程により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出工程により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記レベル制御工程の前記目標レベルを変更する変更工程とを有することを特徴とする音声信号処理方法。
【請求項7】
請求項1から4のいずれか1項記載の各手段としてコンピュータを動作させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate