説明

音声信号処理装置、音声信号処理方法及びプログラム

【課題】 風雑音を低減する効果を保ちつつ、ステレオ感、多チャンネル感を保つことができる音声信号処理装置を提供する目的とする。
【解決手段】 第1の周波数帯における前記差信号と前記和信号のレベルの比較結果と前記第1の周波数よりも高い第2の周波数帯における前記差信号と前記和信号のレベルの比較結果とに基づいて、前記第1の所定の周波数を制御する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声信号処理装置に関し、特に、いわゆる風雑音を低減することができる音声信号処理装置に関する。
【背景技術】
【0002】
従来、音声信号処理装置として、動画撮影を行うとともに、音声を集音し、動画データと音声データを記録することができる撮像装置が登場してきている。
【0003】
このような撮像装置において、動画撮影時に、風がマイク孔などに当たり、いわゆる風雑音、ウィンドノイズと呼ばれる雑音が発生してしまい、その音が音声データとして記録されてしまう問題が知られている。
【0004】
従来、このような問題に対し、撮像装置においては、例えば、100Hz以下の周波数帯の音声を低減させるハイパスフィルタ(HPF)を用いて、風雑音を低減させる技術が用いられてきた。また、特許文献1においては、LチャンネルとRチャンネルの音声信号の和と差の信号を生成し、差信号に対してハイパスフィルタ(HPF)を用いて所定の周波数よりも低い周波数帯のレベルを低減させている。特に特許文献1では、LチャンネルとRチャンネルの音声信号の和と差の低域成分(100Hz以下)に基づいて風雑音の発生量を推定し、発生量によって、差信号に対するハイパスフィルタのカットオフ周波数を変更するようにしている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2011−2652号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1においては、複数のチャンネルの音声信号の和と差の低域成分に基づいて風雑音の発生量を推定していた。そのため、この低域成分に含まれない帯域の風雑音は考慮されていなかった。
【0007】
近年、風雑音は風が吹く方向や撮像装置の形状などの様々な要因により、低域(100Hz以下)の風雑音量が同じでも中域(100Hz〜1kHz)の風雑音量が異なる場合があることが知られている。にもかかわらず、従来の方式を用いると、低域の風雑音が大きい場合には、風雑音が大きいと見なして、ハイパスフィルタのカットオフ周波数を大きくしてしまうことになる。
【0008】
しかし、低域の風雑音が大きく、中域の風雑音の大きさが小さい場合には、ハイパスフィルタのカットオフ周波数を大きくすると必要以上に中域の音声が低減されてしまうことになる。差成分の信号が低減されるということは、後に和信号と合成した後に、Lチャンネルと、Rチャンネルの差成分が低減されてしまうことを示す。そのため、ユーザにはステレオ感が薄れた音声を提供することになってしまう場合があるという課題があった。
【0009】
本発明は、このような課題に鑑みてなされたものであって、複数チャンネルの音声信号の低域と中域との少なくとも2つの周波数帯における成分に基づいて、風雑音低減処理を実行することで、風雑音を低減する効果を保ちつつ、ステレオ感、多チャンネル感を保つことができる音声信号処理装置を提供する目的とする。
【課題を解決するための手段】
【0010】
本発明の音声信号処理装置は、第1のチャンネルの音声信号及び第2のチャンネルの音声信号を取得する取得手段と、前記第1のチャンネルの音声信号と前記第2のチャンネルの音声信号の差を示す差信号の第1の所定の周波数以上の信号を抽出する第1の抽出手段と、前記第1の抽出手段により抽出された前記差信号の第1の所定の周波数以上の信号と前記第1のチャンネルの音声信号と前記第2のチャンネルの音声信号の和を示す和信号とを加算する加算手段と、前記第1の抽出手段により抽出された前記差信号の所定の周波数以上の信号と前記第1のチャンネルの音声信号と前記第2のチャンネルの音声信号の和を示す和信号とを減算する減算手段と、第1の周波数帯における前記差信号と前記和信号のレベルの比較結果と前記第1の周波数よりも高い第2の周波数帯における前記差信号と前記和信号のレベルの比較結果とに基づいて、前記第1の所定の周波数を制御する制御手段とを有することを特徴とする。
【発明の効果】
【0011】
本発明によれば、風雑音を低減する効果を保ちつつ、ステレオ感、多チャンネル感を保つことができる。
【図面の簡単な説明】
【0012】
【図1】本実施形態における撮像装置の構成を示すブロック図である。
【図2】本実施形態における音声処理を説明するための図である。
【図3】本実施形態におけるカットオフ周波数の決定方法を説明するための図である。
【図4】本実施形態におけるカットオフ周波数の決定方法を説明するための図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本発明の実施例を詳細に説明するが、この発明は以下の実施の形態に限定されない。
【0014】
[第1の実施形態]
本実施例においては、音声信号処理装置の一例として撮像装置100について説明する。本実施例の撮像装置100は、複数のマイクユニットにより得られた音声信号に基づいて、2チャンネル、2.1チャンネル、5.1チャンネル等の複数チャンネルの音声信号を生成、取得することができる。そして、本実施例の撮像装置100は、これらの複数チャンネルの音声信号に基づいて、風雑音の発生を検出し、風雑音の低減を行うことができる。風雑音の低減においては、複数チャンネルの音声信号の低域周波数帯(第1の周波数帯)における比較結果と、中域周波数帯(第2の周波数帯)における比較結果とに基づいて、複数チャンネルの音声信号の差成分に対するハイパスフィルタのカットオフ周波数を制御する。なお、後述するように、本実施例の撮像装置100は、記録媒体に記録された動画ファイルを再生する際に、再生された複数チャンネルの音声信号に対して風雑音の低減処理を行うこともできる。なお、本実施例においては、2チャンネルの音声信号を処理する例について説明するが、前述のような、2.1チャンネル、5.1チャンネルの音声信号についても同様の処理を行うことができる。
【0015】
このような音声信号処理により、本実施例の撮像装置100は、風雑音を低減する効果を保ちつつ、ステレオ感、多チャンネル感を保つことができる。
【0016】
以下、このような撮像装置について説明する。
【0017】
図1は、本実施例の撮像装置100の構成を示すブロック図である。
【0018】
撮像装置100は、CPU101、RAM102、FlashROM103、操作部104を有する。また、撮像装置100は、撮像部110、画像処理部111、音声入力部120、音声処理部121、表示部130、表示制御部131、音声出力部132、記録媒体140、記録再生部141、通信部150を有する。また、撮像装置100は、符号化復号化処理部160を有する。
【0019】
図1において、CPU101は、FlashROM103に記録された撮像装置100の制御プログラムをRAM102に展開し、RAM102をワークメモリとして使用しながら、撮像装置100の各ブロックを制御するものである。操作部104は、例えば、電源ボタン、記録ボタン、ズーム調整ボタン、オートフォーカスボタンなどの撮影に関連する各種操作を入力するスイッチ類を有する。また、メニュー表示ボタン、決定ボタン、その他カーソルキー、ポインティングデバイス、タッチパネル等を備え、ユーザによりこれらのキーやボタン、タッチパネルが操作されるとCPU101に操作信号を送信する。
【0020】
撮像部110は、レンズにより取り込まれた被写体の光学像を、絞りにより光量を制御して、CCDセンサやCMOSセンサ等の撮像素子により画像信号に変換し、得られたアナログ画像信号をデジタル画像信号に変換して一時的にRAM102に記憶するものである。RAM102に記憶されたデジタル画像信号は、その後、画像処理部111に送信される。画像処理部111は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。画像処理部111は、デジタル画像信号のホワイトバランスや色、明るさなどをユーザに設定された設定値や画像の特性から自動的に判定した設定値に基づいて調整する画質調整処理を行い、処理をしたデジタル画像信号を再びRAM102に記憶させるものである。なお、画像処理部111の処理は、CPU101がFlashROM103に記録された前述の処理を実行する為のプログラムをRAM102に展開して実行するようにしてもよい。
【0021】
音声入力部120は、たとえば、内蔵された無指向性のマイクまたは音声入力端子を介して接続された外部マイク等により、撮像装置100の周囲の音声を集音(収音)するものである。そして、音声入力部120で取得されたアナログ音声信号は、音声処理部121に送信される。音声処理部121は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。音声処理部121では、記録時においては、音声入力部120により取得されたアナログ音声信号をデジタル音声信号に変換し、レベルの適正化処理や雑音低減処理等の処理を行い、処理をしたデジタル音声信号をRAM102に記憶させるものである。また、必要に応じて、音声信号を圧縮する処理を行う。音声圧縮方式については、AC3、AAC等の公知の一般的な音声圧縮方式を用いており、本発明の特徴とは関係ないので説明を省略する。また、再生時においては、記録媒体140から記録再生部141によって読出された音声ファイルや動画ファイルに含まれる圧縮音声データ復号する処理も行う。なお、音声処理部121の処理は、CPU101がFlashROM103に記録された前述の処理を実行する為のプログラムをRAM102に展開して実行するようにしてもよい。
【0022】
なお、本実施例の音声処理部121は、後述するように、風雑音を検出する処理、風雑音を低減する処理、音声レベルを調整する処理などを実行することができる。
【0023】
また、表示制御部131は、表示部130に画像を表示するための表示制御を行うマイクロコンピュータであって、メモリ104に一時的に記憶されたデジタル画像信号を読み出して、表示部130に表示させる処理を行う。また、記録媒体140から記録再生部141によって読出された動画ファイルや静止画ファイルに含まれる画像データの画像を表示部130に表示させる処理も行う。表示部130は、たとえば撮像装置100に搭載された液晶パネルや有機ELパネル等であっても良いし、撮像装置100とは別の表示装置(たとえば、テレビ、モニタ、プロジェクタ)であってもよい。なお、表示制御部131の処理は、CPU101がFlashROM103に記録された前述の処理を実行する為のプログラムをRAM102に展開して実行するようにしてもよい。
【0024】
符号化復号化処理部160は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。符号化復号化処理部160では、記録時においては、画像処理部111により処理されRAM102に記憶されたデジタル画像信号に基づいて、画像圧縮処理を行い、圧縮された動画データや静止画データを生成し、RAM102に一時的に記憶する処理を行う。また、再生時においては、記録媒体140から読出された画像ファイルの圧縮された動画データや静止画データを復号してデジタル画像信号を抽出し、RAM102に記憶していく処理を行う。なお、CPU101がFlashROM103に記録された前述の処理を実行する為のプログラムをRAM102に展開して実行するようにしてもよい。
【0025】
次に、記録再生部141は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。記録再生部141では、動画記録時においては、RAM102に記憶されている、符号化復号化処理部160により生成された圧縮動画データ、音声処理部121で生成された音声データ、撮影日等の各種情報とともに、動画ファイルとして記録媒体140に書き込む。また静止画記録時においては、ROM102に記憶されている静止画データを撮影日等の各種情報とともに静止画ファイルとして記録媒体140に記録する。動画ファイルを記録媒体140に記録する際は、圧縮動画データと音声データとからなるデータストリームを形成し、順次記録媒体140に記録していき、ファイルヘッダ等を付加してFATやexFAT等のファイルフォーマットに適合した形で動画ファイルを記録媒体に記録する。また、再生時においては、記録媒体140に記録された動画ファイルや静止画ファイルを前述のファイルフォーマットに従って読出す。読出された動画ファイルや静止画ファイルは、CPU101によりヘッダが解析され、圧縮された動画データ、静止画データが抽出される。抽出された圧縮動画データ、静止画データは、RAM102に記憶されて、符号化復号化処理部160により復号される。なお、記録再生部141の処理は、CPU101がFlashROM103に記録された前述の処理を実行する為のプログラムをRAM102に展開して実行するようにしてもよい。
【0026】
また、記録媒体140は、撮像装置に内蔵された記録媒体でも、取外し可能な記録媒体でもよい。例えば、ハードディスク、光ディスク、光磁気ディスク、CD−R、DVD−R、磁気テープ、不揮発性の半導体メモリ、フラッシュメモリ、などのあらゆる方式の記録媒体を含む。取り外し可能な記録媒体を用いる場合には、記録再生部141は、それらの取り外し可能な記録媒体を受け入れるためのインタフェースを含む。
【0027】
次に音声出力部132は、例えばスピーカや音声出力端子(アナログ端子/デジタル端子)である。例えばスピーカであれば、CPU101によりflashROM103に記録されている所定のデジタル音声信号の出力が指示されたときにデジタル音声信号をアナログ音声外部に変換し、外部に音声として出力する。また、動画ファイルに格納された音声データの示すデジタル音声信号をアナログ音声信号に変換し、外部に音声として出力する。また、音声出力端子であれば、動画ファイルに格納された音声データの示すデジタル音声信号をアナログ音声信号に変換して外部装置(外付けスピーカなど)に出力するか、デジタル音声信号をそのまま外部装置(光デジタル端子搭載のオーディオコンポなど)に出力する。
【0028】
また、通信部150は、撮像装置100とは異なる外部装置との間で、制御信号や動画ファイル、静止画ファイル、各種データ等を送受信するものであり、有線接続、無線接続を問わず接続可能である。なお、通信方式はどのような方式であっても良い。
【0029】
ここで、本実施例の撮像装置100の通常の動作について説明する。
【0030】
本実施例の撮像装置100は、ユーザが操作部102の電源ボタンを操作すると、操作部102から制御部101に起動の指示が出される。この指示を受けて、制御部101は、不図示の電源供給部を制御して、撮像装置100の各ブロックに対して電源を供給させる。
【0031】
電源が供給されると、制御部101は、例えば、操作部102のモード切り換えスイッチが、例えば、「動画撮影モード」、「再生モード」等のどのモードであるかを操作部102からの指示信号により確認する。
【0032】
本実施例の撮像装置100は、特に「動画撮影モード」において、動画データを「MPEG−4 AVC/H.264」の圧縮方式で圧縮する例について説明するが、他の圧縮方式を用いても構わない。
【0033】
(「動画撮影モード」)
まず、「動画撮影モード」であれば、CPU101は、撮像装置100の各ブロックに、動画撮影の準備をさせる。操作部104から撮影開始の指示が入力されるまでは、CPU101は、撮像部110により得られたデジタル画像信号をRAM102に記憶させ、RAM102に記憶されたデジタル画像信号を読出させて表示部130に画像を表示させように表示制御部131を制御する。なお、画像処理部111により処理され、RAM102に記憶されたデジタル画像信号を読出させて表示部130に画像を表示させるように表示制御部131を制御しても良い。なお、本実施形態では、撮像部110から出力されるデジタル画像信号のフレームレートは、30フレーム/秒であるとする。また、本実施形態では、記録する動画のサイズ(画素数)を複数のサイズから選択した一つのサイズに設定することができる。
【0034】
この状態で、CPU101は、操作部104により撮影開始の指示が入力されたか否かを判定する。撮影開始の指示があると、CPU101は、撮像部110により得られたデジタル画像信号をRAM102に記憶させ、RAM102に記憶されたデジタル画像信号に対して設定値に基づいて画質調整処理を施すように画像処理部111を制御する。CPU101は動画撮影を継続している間、30フレーム/秒で撮像部110により出力されるデジタル画像信号を順次、画像処理部111に処理させる。そして、CPU101は、画像処理部111で処理されたデジタル画像信号を、順次RAM102に記憶させる。
【0035】
次に、CPU101は、RAM102に記憶された複数フレームのデジタル画像信号を順次符号化して動画データを生成するように符号化復号化処理部160を制御する。CPU101は、このとき、各フレーム画像をフレーム内予測符号化フレーム、フレーム間予測符号化フレームとして圧縮符号化をするように符号化復号化処理部160を制御する。そして、CPU101は、符号化復号化処理部160で符号化された各フレーム画像を順次RAM102に記憶させていく。
【0036】
一方、撮影開始の指示があると、CPU101は、音声に関する処理をするようにも各ブロックを制御する。CPU101は、音声入力部120から出力されるアナログ音声信号を順次音声処理部121に転送し、デジタル信号への変換、音質調整処理等を施すように音声処理部121を制御する。また、音声圧縮の設定がされている場合には、CPU101は設定に従って、例えばAC3、AACの音声圧縮方式で音声信号を圧縮するように音声処理部121を制御する。そして、CPU101は、音声処理部121で処理した音声データをRAM102に順次記憶させていく。また、音声処理部121は、風雑音の検出、風雑音の低減、音声レベルの調整なども行う。この処理については後述する。
【0037】
次にCPU101は、RAM102に記憶された動画データ、音声データを順次、記録媒体140に記録するように、記録再生部141を制御する。このとき例えば、15フレーム分(0.5秒分)の動画データと、0.5秒分の音声データとを一組にし、必要な各種情報を付加したデータストリームを形成し、ファイルシステムに従って記録媒体140に記録するように、記録再生部141を制御する。なお、30フレーム分(1秒分)の動画データと、1秒分の音声データを一組としても良い。CPU101は、これらの動作を動画撮影の停止の指示があるまで継続する。
【0038】
そして、操作部104により撮影停止の指示が入力されると、CPU101は、画像処理部111の処理を停止させ、RAM102に記憶されたデジタル画像信号の符号化が終了した時点で符号化復号化処理部160の符号化処理を停止させる。そして、CPU101は、RAM102に記憶されている符号化済みの動画データ、音声データを最後まで記録媒体140に記録してから動作を停止するように記録再生部141を制御する。なお、必要に応じて、記録終了後に、動画ファイルの動画データの先頭のフレームや先頭から数フレームの画像データを符号化復号化処理部160に送信して復号させ、復号されたデジタル画像信号の画素数を間引いたサムネイル画像データを生成して、動画ファイルに関連づけて記録するようにしても良い。
【0039】
この処理が終了すると、CPU101は、再び動画撮影の準備状態に各ブロックを戻す。
【0040】
(「再生モード」)
「再生モード」であれば、CPU101は、記録媒体140に記録されている動画ファイル、静止画ファイルのうち指定されたファイルに関連づけられたサムネイル画像データを読出すように記録再生部141を制御する。そして、CPU101は、これらのサムネイル画像データを示す画像を表示部130に表示するよう表示制御部131を制御する。
【0041】
そして、操作部104から指定されたサムネイルに対応するファイルを再生する指示が入力されると、CPU101は、指定された動画ファイルや静止画ファイルを記録媒体140から読出すように記録再生部141を制御する。そして、CPU101は、読出した動画ファイルや静止画ファイルに含まれる各種情報、動画データ、音声データ、静止画データを抽出してRAM102に記憶させる。
【0042】
静止画ファイルを再生する場合は、CPU101は、RAM102に記憶された静止画データを復号するように符号化復号化処理部160を制御し、復号されたデジタル画像信号をRAM102に記憶させる。そして、RAM102に記憶させた復号されたデジタル画像信号を表示部130に表示するように表示制御部131を制御する。
【0043】
また、動画ファイルを再生する場合は、CPU101は、RAM102に記憶された動画データを復号するように符号化復号化処理部160を制御し、復号された各フレームのデジタル画像信号を順次、RAM102に記憶させる。そして、RAM102に記憶させた復号された各フレームのデジタル画像信号を表示部130に、順次表示するように表示制御部131を制御する。また、CPU101は、RAM102に記憶された音声データを動画の復号、表示のタイミングに合わせて、音声出力部132に送信し、音声を出力させる。なお、音声データが圧縮されたものである場合には、RAM102に記憶された音声データを復号するように音声処理部121を制御し、復号された音声データを音声出力部132に送信する。
【0044】
<音声信号処理>
次に本実施例の撮像装置100の音声入力部120及び音声処理部121の動画記録中の動作について図2、3、4を用いて説明する。図2は、本実施例の音声入力部120及び音声処理部121の動作を説明するためのブロック図である。
【0045】
本実施例の音声入力部120は、内蔵された複数の無指向性のマイクを有する。本実施例においては、マイク210a、マイク210bを示すが、マイクの個数は2個に限られない。また、音声信号処理部121は、AD変換部220a、220b、ローパスフィルタ(LPF)230a、230b、減算器231a、231b、加算器232a、減算器232bを有する。また、第1ハイパスフィルタ(第1HPF)233、加算器234a、減算器234b、第2ハイパスフィルタ(第2HPF)235a、235b、オートレベルコントローラ(ALC)236を有する。また、第1HPF233、第2HPF235a、235bを制御するためのユニットとして、以下を有する。ローパスフィルタ(LPF)240a、240b、絶対値変換部241a、241b、バンドパスフィルタ(BPF)242a、242b、絶対値変換部243a、243b、減算器244、245、設定部246。
【0046】
図2において、マイク210a、210bは、周囲の音声を集音し、音声信号を取得する。AD変換部220a、220bは、マイク210a、210bから送信されたアナログ音声信号をデジタル音声信号に変換するもので、本実施例においては、サンプリング周波数を48kHz、量子化ビット数を16bitとするが、これ以外であっても良い。
【0047】
ローパスフィルタ(LPF)230a、230bは、それぞれ、AD変換部220a、220bから出力された音声信号の所定の周波数よりも低い周波数の信号を抽出し、減算器231a、231bに送信するものである。LPF230a、230bは、所定の周波数よりも低い周波数の信号を抽出するフィルタであるとともに、信号を遅延させる遅延器でもある。本実施例では例えば、1200Hzをカットオフ周波数として、1200Hzより低い周波数帯の信号を抽出して減算器231a、231bに送信するものとするが、LPF230a、230bのカットオフ周波数は、20Hzから20kHzの間であればいくつであっても良い。LPF230a、230bのカットオフ周波数は、ステレオ感を強調したい周波数帯に応じて、適宜変更されてよい。
【0048】
次に、減算器231aは、AD変換部220aから出力された音声信号よりLPF230bから出力された音声信号を減算するものであり、減算器231bは、AD変換部220bから出力された音声信号よりLPF230aから出力された音声信号を減算するものである。この減算器231a、231bの出力は、本実施形態においては、それぞれLチャンネル(第1のチャンネル)の音声信号、Rチャンネル(第2のチャンネル)の音声信号となる。このように、複数のマイクそれぞれに入力される音声信号の特定の周波数を遅延させ、減算処理を行うことで、ステレオ感を強調した複数チャンネルの音声信号を取得することができるのである。本実施例では、前述したように、一方のマイクにより得られた音声信号から、他のマイクにより得られた音声信号の遅延信号を加算することで、ステレオ感を強調した複数チャンネルの音声信号を取得した。しかし、ステレオ感の強調の方法は、この方法に限られないし、マイク自体が特定の方向に指向性を有するマイクを採用しても良い。
【0049】
加算器232aは、取得されたLチャンネルの音声信号とRチャンネルの音声信号とを加算して和信号を生成するものであり、減算器232bは、取得されたLチャンネルの音声信号とRチャンネルの音声信号とを減算して差信号を生成するものである。本実施例では、和信号は、Lチャンネル+Rチャンネルであり、差信号は、Lチャンネル−Rチャンネルである。
【0050】
第1ハイパスフィルタ(第1HPF)233は、減算器232bにより得られた差信号の設定されたカットオフ周波数(第1の所定の周波数)以上の周波数成分を抽出するものであり、カットオフ周波数は、後述の設定部246により設定される。この第1HPF233は、差信号に表れているLチャンネルとRチャンネルとで相関のとれていない成分のカットオフ周波数(第1の所定の周波数)以下の周波数成分を減衰させることができる。すなわち、LチャンネルとRチャンネルとで相関のとれていない成分には風雑音の成分が多く含まれており、設定部246により設定されたカットオフ周波数(第1の所定の周波数)以下の風雑音を減衰させることができるのである。一方で、ここで差成分を減衰させすぎると、後に和信号と合成して、再びLチャンネルとRチャンネルを生成した場合に、それぞれのチャンネルの差成分が少なくなってしまい、ステレオ感が薄れてしまうことになる。
【0051】
加算器234aは、加算器232aにより得られた和信号と第1HPF233から出力される差信号の第1の所定の周波数以上の周波数成分の信号とを加算し、風雑音を低減したLチャンネル(L’チャンネル)の音声信号を生成するものである。減算器234bは、加算器232aにより得られた和信号から第1HPF233から出力される差信号の第1の所定の周波数以上の周波数成分の信号を減算し、風雑音を低減したRチャンネル(R’チャンネル)の音声信号を生成するものである。第2ハイパスフィルタ(第2HPF)235a、235bは、それぞれ、加算器234a、減算器234bからの出力信号であるL’チャンネル、R’チャンネルの音声信号の設定されたカットオフ周波数(第2の所定の周波数)以上の周波数成分を抽出するものである。第2HPF235a、235bにおける、カットオフ周波数(第2の所定の周波数)は、後述の設定部246により設定される。第2HPF235a、235bは、和成分に含まれている可能性のある各チャンネルで位相のあってしまった風雑音(差成分には含まれない風雑音)を低減することができる。
【0052】
オートレベルコントローラ(ALC)236は、第2HPF235a、235bから出力された各チャンネルの音声信号のレベルを目標レベルに制御するためのものである。ALC236は、各チャンネルの音声信号のうち最大レベルの音声信号を目標レベルに制御するために増幅または減衰させるゲインを、入力された各チャンネルの音声信号に共通に与える。
【0053】
次に、第1HPF233、第2HPF235a、235bを制御するためのユニットについて説明する。なお、第1HPF233、第2HPF235a、235bを区別するとすれば、第1HPF233は、設定されたカットオフ周波数(第1の所定の周波数)よりも高い周波数の信号を抽出する第1の抽出部である。第2HPF235a、235bは、それぞれ、設定されたカットオフ周波数(第2の所定の周波数)よりも高い周波数の信号を抽出する第2の抽出部、第3の抽出部である。
【0054】
ローパスフィルタ(LPF)240a、240bは、加算器232aにより得られた和信号Lチャンネル+Rチャンネル、減算器232bにより得られた差信号Lチャンネル−Rチャンネルそれぞれの低周波数成分(例えば100Hz以下)を抽出するものである。また、絶対値変換部241a、241bは、ローパスフィルタ(LPF)240a、240bから出力された、和信号、差信号の低周波数成分の信号の絶対値に変換するものである。一方バンドパスフィルタ(BPF)242a、242bは、加算器232aにより得られた和信号、減算器232bにより得られた差信号それぞれの中域周波数成分(例えば200Hzから600Hz以下)を抽出するものである。また、絶対値変換部243a、243bは、バンドパスフィルタ(BPF)242a、242bから出力された、和信号、差信号の中域周波数成分の信号の絶対値に変換するものである。
【0055】
次に、減算器244は、絶対値変換部241bの出力から、絶対値変換部241aの出力を減算するものであり、減算器245は、絶対値変換部243bの出力から絶対値変換部243aの出力を減算するものである。これらは、差信号の値が大きい場合に大きい値を示すことになる。差信号の値が大きい場合というのは、Lチャンネル、Rチャンネルで位相のあわない信号が多いということを示し、前述したように風雑音が多いことを示すと見なすことができる。そのため、本実施例においては、減算器244の出力を「低域風雑音検出量」とし、減算器245の出力を「中域風雑音検出量」とする。
【0056】
なお、本実施例では、低周波数成分を100Hz以下、中域周波数成分を200Hzから600Hzとしたが、周波数はこれに限られない。一般的には、風雑音の発生する可能性の高い例えば2kHz以下の周波数を用いればよい。本実施形態においては、この周波数以下の範囲で、実験により複数の周波数帯を設定できればよい。
【0057】
設定部246は、減算器244の出力である「低域風雑音検出量」と、減算器245の出力である「中域風雑音検出量」とに基づいて、第1HPF233のカットオフ周波数(第1の所定の周波数)、第2HPF235a、235bのカットオフ周波数(第2の所定の周波数)を設定する。すなわち、設定部246は、複数チャンネルの音声信号の和を示す和信号と差を示す差信号の絶対値を、第1の周波数帯(低域周波数帯)と、第2の周波数帯(中域周波数帯)において比較した結果を用いて、前述のカットオフ周波数を設定している。第1HPF233のカットオフ周波数(第1の所定の周波数)、第2HPF235a、235bのカットオフ周波数(第2の所定の周波数)の設定動作については後述する。
【0058】
ここで、図2,図3、図4を用いて、動画記録中の音声入力部120及び音声処理部121の音声信号の処理(風雑音低減処理)について説明する。
【0059】
動画記録が開始されると、マイク210a、210bは、それぞれ周囲の音声を順次集音し、音声信号を出力する。AD変換部220a、220bは、それぞれマイク210a、210bにより得られたアナログ音声信号をデジタル音声信号に変換する。そして、LPF230a、230bは、AD変換部220a、220bから出力されたそれぞれの音声信号を遅延させ、減算器231a、231bに出力する。減算器231a、231bは、AD変換部220a、220bから出力されたそれぞれの音声信号より、LPF230a、230bから出力された音声信号を減算し、Lチャンネル、Rチャンネルの音声信号を取得する。
【0060】
次に、加算器232a、減算器232bは、それぞれ、和信号Lチャンネル+Rチャンネル、差信号はLチャンネル−Rチャンネルを生成する。
【0061】
次に、第1HPF233、第2HPF235a、235bのカットオフ周波数(第1の所定の周波数、第2の所定の周波数)を制御するためのユニットには、LPF240a、240b、BPF242a、242bにそれぞれ和信号、差信号が供給される。LPF240a、240b、BPF242a、242bでは、それぞれ、あらかじめ決められた複数種類(本実施例では2種類であるが、それ以上であっても良い。)の周波数帯の信号成分が抽出される。そして、抽出された信号は、それぞれ、絶対値変換部241a、241b、絶対値変換部243a、243bに供給され、絶対値変換される。減算器244、245は、絶対値変換部241a、241b、絶対値変換部243a、243bにより絶対値変換された信号同士を減算し、「低域風雑音検出量」と、「中域風雑音検出量」とを示す信号を出力する。
【0062】
そして、設定部246は、減算器244の出力である「低域風雑音検出量」と、減算器245の出力である「中域風雑音検出量」とに基づいて、第1HPF233、第2HPF235a、235bのカットオフ周波数(第1の所定の周波数、第2の所定の周波数)を設定する。
【0063】
そして、第1ハイパスフィルタ(第1HPF)233は、減算器232bにより得られた差信号の設定部246により設定されたカットオフ周波数(第1の所定の周波数)以上の周波数成分を抽出する。次に、加算器234aは、加算器232aにより得られた和信号と第1HPF233から出力される差信号のカットオフ周波数(第1の所定の周波数)以上の周波数成分の信号とを加算し、風雑音を低減したLチャンネル(L’チャンネル)の音声信号を生成する。減算器234bは、加算器232aにより得られた和信号から第1HPF233から出力される差信号のカットオフ周波数(第1の所定の周波数)以上の周波数成分の信号を減算し、風雑音を低減したRチャンネル(R’チャンネル)の音声信号を生成する。
【0064】
第2ハイパスフィルタ(第2HPF)235a、235bは、それぞれ、加算器234a、減算器234bにより得られたL’チャンネル、R’チャンネルの音声信号の設定部246により設定されたカットオフ周波数(第2の所定の周波数)以上の周波数成分を抽出する。
【0065】
最後に、ALC236は、第2HPF235a、235bから出力された各チャンネルの音声信号のレベルを目標レベルに制御する。
【0066】
本実施例の撮像装置100においては、以上の動作が動画の記録中に繰り返される。
【0067】
ここで、設定部246の動作について図3を用いて説明する。
【0068】
図3は、設定部246における、「低域風雑音検出量」と、「中域風雑音検出量」に応じて設定される、第1HPF233、第2HPF235a、235bのカットオフ周波数(第1の所定の周波数、第2の所定の周波数)を示す図である。
【0069】
図3において、「低域風雑音検出量」については、風速5m程度の強風下における「低域風雑音検出量」を10として、正規化した値で扱う。そうすると、正規化された「低域風雑音検出量」が0〜3未満では、風速1m未満程度の微風に対応し、3〜7未満では、風速1〜3m未満程度の弱風に対応し、7〜10未満では風速3〜5m未満程度の中風に対応し、10以上では、風速5m程度以上の強風に対応する。本実施例における、正規化された「低域風雑音検出量」と、風速との関係は一例であり、例えばさらに細かく分類してもよい。また、「中域風雑音検出量」については、また、低域風雑音量と中域風雑音量を比較するため、風速5m程度の強風下における「低域風雑音検出量」を10として、正規化した値で扱う。
【0070】
ところで、前述したように風雑音の特性としては、同じ風速であっても、例えば風が吹く方向や撮像装置の外装の形状などによって、「中域風雑音量」が異なる場合がある。逆に、「低域風雑音量」は、同じ風速であれば、風が吹く方向や撮像装置の外装の形状によってほぼ同一の値を示す。そこで、各風速に対して最も大きいと想定される「中域風雑音検出量」を、たとえば、風速5m程度の強風時における「低域風雑音検出量」を10として正規化した値を、図3の中域風雑音基準量とする。図3においては、風速1m未満程度の微風においては中域風雑音基準量は0、風速1〜3m未満程度の弱風においては中域風雑音基準量は2、風速3〜5m未満程度の中風においては中域風雑音基準量は5、風速5m程度以上の強風においては中域風雑音基準量は8である。
【0071】
ここで、設定部246による第1HPF233におけるカットオフ周波数(第1の所定の周波数)の制御手順を説明する。本実施例においては、第1HPF233におけるカットオフ周波数(第1の所定の周波数)は、「低域風雑音検出量」及び「中域雑音検出量」に基づいて制御される。具体的には、正規化された「低域風雑音検出量」、及び、正規化された「中域雑音検出量」と中域風雑音基準量との比率によって、第1の所定の周波数を制御する。すなわち、正規化された「低域風雑音検出量」により、中域風雑音基準量を決定し、正規化された「中域雑音検出量」と中域風雑音基準量との比率に応じて、カットオフ周波数(第1の所定の周波数)を制御する。
【0072】
本実施例においては、たとえば、BPF242a、242bで抽出する帯域の中心周波数である400Hzにおける信号減衰量が、正規化した「中域風雑音検出量」と中域風雑音基準量との比率とほぼ同じ比率で減少するように、第1HPF233の第1の所定の周波数の設定値を定める。
【0073】
具体的には、図3に示すように、まず、正規化された「低域風雑音検出量」が4である場合には、第1HPF233のカットオフ周波数(第1の所定の周波数)の標準値が1kHzである。そして、400Hzにおける信号減衰量を−18dBであるとすると、図4のように、400Hzにおける信号減衰量が以下のようになるようにカットオフ周波数(第1の所定の周波数)が設定される。すなわち、正規化した「中域風雑音検出量」と中域風雑音基準量との比率が0.7〜1のとき−18dB、0.3〜0.7未満のとき−12dB、0〜0.3未満のとき−6dBとなるように、カットオフ周波数(第1の所定の周波数)を設定する。すなわち、第1HPF233のカットオフ周波数(第1の所定の周波数)の設定値を正規化した「中域風雑音検出量」と中域風雑音基準量との比率が0.7〜1のときは1kHz、0.3〜0.7未満のときは750Hz、0〜0.3未満のときは500Hzに制御する。
【0074】
例えば、正規化した「低域風雑音検出量」が5、正規化した「中域風雑音量」が1であったとすると、図3に従い、中域風雑音基準量が2、第1HPF233ののカットオフ周波数の標準値が1kHzと定まる。そして、正規化した「中域風雑音検出量」と中域風雑音基準量との比率が1/2=0.5であるから、図3に従い、第1HPF233のカットオフ周波数(第1の所定の周波数)を750Hzに設定する。
【0075】
なお、前述の通り中域風雑音基準量は「中域風雑音検出量」の最大値をあらかじめ測定して定めている。しかし、正規化した「中域風雑音検出量」が中域風雑音基準量を超えた場合は(正規化した「中域風雑音検出量」と中域風雑音基準量との比率が1以上)、第1HPF233のカットオフ周波数の標準値を第1HPF233のカットオフ周波数(第1の所定の周波数)として設定する。
【0076】
また、正規化された「低域風雑音検出量」が2である場合には、第1HPF233のカットオフ周波数(第1の所定の周波数)の標準値が100Hzである。しかし、この場合、400Hzにおける信号減衰量は0dBであるため、正規化した「中域風雑音検出量」と中域風雑音基準量との比率によらず、第1HPF233の第1の所定の周波数の設定値は標準値と同じ100Hzとする。
【0077】
このように、設定部246は、正規化された「低域風雑音検出量」と、正規化した「中域風雑音検出量」と中域風雑音基準量との比率に応じて、第1HPF233のカットオフ周波数(第1の所定の周波数)を制御している。
【0078】
次に、設定部246による第2HPF235a、235bのカットオフ周波数(第2の所定の周波数)の制御手順を説明する。本実施例においては、第2HPF235a、235bのカットオフ周波数(第2の所定の周波数)は、「低域風雑音検出量」に基づいて制御される。具体的には、図3に示すように、正規化された「低域風雑音検出量」によって、第2の所定の周波数を制御する。
【0079】
たとえば、正規化された「低域風雑音検出量」が0〜3未満では10Hzに、3〜7未満では100Hzに、7〜10未満では200Hzに、10以上では、400Hzにそれぞれカットオフ周波数(第2の所定の周波数)を制御する。
【0080】
このように、本実施例の撮像装置100は、複数チャンネルの音声信号に含まれる風雑音を低減する際に、複数チャンネルの音声信号の差成分の第1の所定の周波数以下の信号を低減させる処理を行い、風雑音を低減することができる。この際、第1の所定の周波数については、「低域風雑音検出量」及び「中域風雑音検出量」に基づいて制御される。具体的には、正規化された「低域風雑音検出量」と、正規化した「中域風雑音検出量」と中域風雑音基準量との比率に応じて、制御されている。すなわち、複数チャンネルの音声信号の「低域風雑音検出量」と「中域風雑音検出量」とを検出し、各周波数帯における雑音検出量に応じて、複数チャンネルの音声信号の差成分に対するハイパスフィルタのカットオフ周波数(第1の所定の周波数)を制御する。なお、前述したように、「低域風雑音検出量」、「中域風雑音検出量」は、それぞれ、複数チャンネルの音声信号の低域周波数領域、中域周波数領域における和成分と差成分の絶対値を比較することで検出される。
【0081】
本実施例の撮像装置100は、以上のような音声信号処理を行うことによって、風雑音を低減する効果を保ちつつ、ステレオ感、多チャンネル感を保つことができる。
【0082】
なお、本実施例においては、動画記録中に前述の風雑音低減処理を行うものとしたが、動画記録中には、これらの動作を行わず、動画再生中に風雑音低減処理を行うようにしてもよい。再生中に処理を行う場合には、再生されたLチャンネル、Rチャンネルの音声信号を、加算器232a、減算器232bにそれぞれ入力するようにすればよい。すなわち、本実施例の風雑音低減処理は、記録時、再生時のいずれの場合であっても実行することができる。
【0083】
なお、本実施例におけるローパスフィルタおよびハイパスフィルタは、バンドパスフィルタなどの他のフィルタで構成してもよい。
【0084】
なお、本実施形態の撮像装置100は、例えば、デジタルカメラ、携帯電話、スマートフォン、ICレコーダ、携帯型ゲーム機、コンピュータ、など音声を記録または再生することができる装置であればどのような装置にも適用することができる。
【0085】
[その他の実施形態]
以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。
【0086】
また、上述の実施形態の機能を実現するソフトウェアのプログラムを、記録媒体から直接、或いは有線/無線通信を用いてプログラムを実行可能なコンピュータを有するシステム又は装置に供給し、そのプログラムを実行する場合も本発明に含む。従って、本発明の機能処理をコンピュータで実現するために、該コンピュータに供給、インストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の機能処理を実現するためのコンピュータプログラム自体も本発明に含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。

【特許請求の範囲】
【請求項1】
第1のチャンネルの音声信号及び第2のチャンネルの音声信号を取得する取得手段と、
前記第1のチャンネルの音声信号と前記第2のチャンネルの音声信号の差を示す差信号の第1の所定の周波数以上の信号を抽出する第1の抽出手段と、
前記第1の抽出手段により抽出された前記差信号の第1の所定の周波数以上の信号と前記第1のチャンネルの音声信号と前記第2のチャンネルの音声信号の和を示す和信号とを加算する加算手段と、
前記第1の抽出手段により抽出された前記差信号の所定の周波数以上の信号と前記第1のチャンネルの音声信号と前記第2のチャンネルの音声信号の和を示す和信号とを減算する減算手段と、
第1の周波数帯における前記差信号と前記和信号のレベルの比較結果と前記第1の周波数よりも高い第2の周波数帯における前記差信号と前記和信号のレベルの比較結果とに基づいて、前記第1の所定の周波数を制御する制御手段とを有することを特徴とする音声信号処理装置。
【請求項2】
前記加算手段の出力信号の第2の所定の周波数以上の信号を抽出する第2の抽出手段と、
前記減算手段の出力信号の第2の所定の周波数以上の信号を抽出する第3の抽出手段と、
を有することを特徴とする請求項1記載の音声信号処理装置。
【請求項3】
前記制御手段は、前記第1の周波数帯における前記差信号と前記和信号のレベルの比較結果に応じて、前記第2の抽出手段と、前記第3の抽出手段における前記第2の所定の周波数を決定することを特徴とする請求項2記載の音声信号処理装置。
【請求項4】
前記第2の抽出手段により抽出された信号と、前記第3の抽出手段により抽出された信号を記録する記録手段を有することを特徴とする請求項2または3記載の音声信号処理装置。
【請求項5】
前記取得手段は、記録媒体から再生された前記第1のチャンネルの音声信号及び前記第2のチャンネルの音声信号を取得することを特徴とする請求項1から3のいずれか1項記載の音声信号処理装置。
【請求項6】
前記取得手段は、複数の集音手段により得られた音声信号に基づいて生成された前記第1のチャンネルの音声信号及び前記第2のチャンネルの音声信号を取得することを特徴とする請求項1から3のいずれか1項記載の音声信号処理装置。
【請求項7】
前記請求項1から6の音声信号処理装置の各手段としてコンピュータを動作させるためのプログラム。
【請求項8】
第1のチャンネルの音声信号及び第2のチャンネルの音声信号を取得する取得工程と、
前記第1のチャンネルの音声信号と前記第2のチャンネルの音声信号の差を示す差信号の第1の所定の周波数以上の信号を抽出する第1の抽出工程と、
前記第1の抽出工程により抽出された前記差信号の第1の所定の周波数以上の信号と前記第1のチャンネルの音声信号と前記第2のチャンネルの音声信号の和を示す和信号とを加算する加算工程と、
前記第1の抽出工程により抽出された前記差信号の所定の周波数以上の信号と前記第1のチャンネルの音声信号と前記第2のチャンネルの音声信号の和を示す和信号とを減算する減算工程と、
第1の周波数帯における前記差信号と前記和信号のレベルの比較結果と前記第1の周波数よりも高い第2の周波数帯における前記差信号と前記和信号のレベルの比較結果とに基づいて、前記第1の所定の周波数を制御する制御工程とを有することを特徴とする音声信号処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2013−90047(P2013−90047A)
【公開日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願番号】特願2011−226994(P2011−226994)
【出願日】平成23年10月14日(2011.10.14)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】