音声信号処理装置

【課題】、風雑音と音声とのバランスを考慮しながら、風雑音の低減と音量の調整を行うことができる音声信号処理装置を提供する目的とする。
【解決手段】前記検出手段により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出手段により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記調整手段の減衰率を変更する

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は音声信号処理装置に関し、特に、いわゆる風雑音を低減することができる音声信号処理装置に関する。
【背景技術】
【０００２】
従来、音声信号処理装置として、動画撮影を行うとともに、音声を集音し、動画データと音声データを記録することができる撮像装置が登場してきている。
【０００３】
このような撮像装置において、動画撮影時に、風がマイク孔などに当たり、いわゆる風雑音、ウィンドノイズと呼ばれる雑音が発生してしまい、その音が音声データとして記録されてしまう問題が知られている。
【０００４】
従来、このような問題に対し、撮像装置においては、例えば、１００Ｈｚ以下の周波数帯の音声を低減させるハイパスフィルタ（ＨＰＦ）を用いて、風雑音を低減させる技術が用いられてきた。例えば、特許文献１においては、複数のマイクにより得られた音声の差分値にハイパスフィルタをかけ、差分値に基づいて風雑音の発生量を推定し、その後、音量を調整するためにオートレベルコントローラ（ＡＬＣ）の増幅率を制御するものが知られている。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２０１１−２６５２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかし、特許文献１においては、ＡＬＣの動作において、音量の小さい場合の増幅率を風雑音の発生量が多いときには小さくし、風雑音の発生量が少ないときには大きくするような制御を行っていた。逆に、音量の大きい場合には、風雑音の発生量にかかわらず増幅率を通常時と変更させないようにしていた。そのため、音量が大きいときには、風雑音が低減しきれずに音量が大きくなった場合であっても、風雑音以外の通常の音声の音量が大きい場合であっても、同じ割合で音声信号を増幅してしまうことになる。
【０００７】
そうすると、例えば風雑音が低減しきれずに音量が大きくなった場合には、ある程度低減された風雑音が結局、ＡＬＣで増幅されてしまい、結果としてユーザに耳障りな音声となってしまう可能性があるといった課題があった。
【０００８】
本発明は、このような課題に鑑みてなされたものであって、風雑音と音声とのバランスを考慮しながら、風雑音の低減と音量の調整を行うことができる音声信号処理装置を提供する目的とする。
【課題を解決するための手段】
【０００９】
本発明の音声信号処理装置は、複数の音声信号を取得する取得手段と、前記複数の音声信号に基づいて風雑音が発生しているか否かを検出する検出手段と、前記複数の音声信号のレベルを目標レベルに近づくように制御するレベル制御手段と、前記レベル制御手段により出力された複数の音声信号のレベルを調整する調整手段と、前記検出手段により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出手段により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記調整手段の減衰率を変更する変更手段とを有することを特徴とする。
【発明の効果】
【００１０】
本発明によれば、風雑音と音声とのバランスを考慮しながら、風雑音の低減と音量の調整を行うことができる。
【図面の簡単な説明】
【００１１】
【図１】本実施形態における撮像装置の構成を示すブロック図である。
【図２】本実施形態における音声処理を説明するための図である。
【図３】本実施形態における音声処理の動作を示すフロー図である。
【図４】本実施形態における音声レベルの調整結果を示す図である。
【図５】本実施形態における音声処理を説明するための図である。
【発明を実施するための形態】
【００１２】
以下、図面を参照して本発明の実施例を詳細に説明するが、この発明は以下の実施の形態に限定されない。
【００１３】
［第１の実施形態］
本実施例においては、音声信号処理装置の一例として撮像装置１００について説明する。本実施例の撮像装置１００は、複数のマイクユニットにより得られた音声信号に基づいて、風雑音の発生を検出し、風雑音の発生の検出前の音声レベルと風雑音の発生の検出中の音声レベルとに応じて、風雑音の発生の検出中の音声信号の音声レベルを制御することができる。
【００１４】
このような機能により、本実施例の撮像装置１００は、風雑音と音声とのバランスを考慮しながら、風雑音の低減と音量の調整を行うことができる。
【００１５】
以下、このような撮像装置について説明する。
【００１６】
図１は、本実施例の撮像装置１００の構成を示すブロック図である。
【００１７】
撮像装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＦｌａｓｈＲＯＭ１０３、操作部１０４を有する。また、撮像装置１００は、撮像部１１０、画像処理部１１１、音声入力部１２０、音声処理部１２１、表示部１３０、表示制御部１３１、音声出力部１３２、記録媒体１４０、記録再生部１４１、通信部１５０を有する。また、撮像装置１００は、符号化復号化処理部１６０を有する。
【００１８】
図１において、ＣＰＵ１０１は、ＦｌａｓｈＲＯＭ１０３に記録された撮像装置１００の制御プログラムをＲＡＭ１０２に展開し、ＲＡＭ１０２をワークメモリとして使用しながら、撮像装置１００の各ブロックを制御するものである。操作部１０４は、例えば、電源ボタン、記録ボタン、ズーム調整ボタン、オートフォーカスボタンなどの撮影に関連する各種操作を入力するスイッチ類を有する。また、メニュー表示ボタン、決定ボタン、その他カーソルキー、ポインティングデバイス、タッチパネル等を備え、ユーザによりこれらのキーやボタン、タッチパネルが操作されるとＣＰＵ１０１に操作信号を送信する。
【００１９】
撮像部１１０は、レンズにより取り込まれた被写体の光学像を、絞りにより光量を制御して、ＣＣＤセンサやＣＭＯＳセンサ等の撮像素子により画像信号に変換し、得られたアナログ画像信号をデジタル画像信号に変換して一時的にＲＡＭ１０２に記憶するものである。ＲＡＭ１０２に記憶されたデジタル画像信号は、その後、画像処理部１１１に送信される。画像処理部１１１は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。画像処理部１１１は、デジタル画像信号のホワイトバランスや色、明るさなどをユーザに設定された設定値や画像の特性から自動的に判定した設定値に基づいて調整する画質調整処理を行い、処理をしたデジタル画像信号を再びＲＡＭ１０２に記憶させるものである。なお、画像処理部１１１の処理は、ＣＰＵ１０１がＦｌａｓｈＲＯＭ１０３に記録された前述の処理を実行する為のプログラムをＲＡＭ１０２に展開して実行するようにしてもよい。
【００２０】
音声入力部１２０は、たとえば、内蔵された無指向性のマイクまたは音声入力端子を介して接続された外部マイク等により、撮像装置１００の周囲の音声を集音（収音）するものである。そして、音声入力部１２０で取得されたアナログ音声信号は、音声処理部１２１に送信される。音声処理部１２１は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。音声処理部１２１では、記録時においては、音声入力部１２０により取得されたアナログ音声信号をデジタル音声信号に変換し、レベルの適正化処理や雑音低減処理等の処理を行い、処理をしたデジタル音声信号をＲＡＭ１０２に記憶させるものである。また、必要に応じて、音声信号を圧縮する処理を行う。音声圧縮方式については、ＡＣ３、ＡＡＣ等の公知の一般的な音声圧縮方式を用いており、本発明の特徴とは関係ないので説明を省略する。また、再生時においては、記録媒体１４０から記録再生部１４１によって読出された音声ファイルや動画ファイルに含まれる圧縮音声データ復号する処理も行う。なお、音声処理部１２１の処理は、ＣＰＵ１０１がＦｌａｓｈＲＯＭ１０３に記録された前述の処理を実行する為のプログラムをＲＡＭ１０２に展開して実行するようにしてもよい。
【００２１】
なお、本実施例の音声処理部１２１は、後述するように、風雑音を検出する機能、風雑音を低減する機能、音声レベルを調整する機能などが搭載されている。
【００２２】
また、表示制御部１３１は、表示部１３０に画像を表示するための表示制御を行うマイクロコンピュータであって、メモリ１０４に一時的に記憶されたデジタル画像信号を読み出して、表示部１３０に表示させる処理を行う。また、記録媒体１４０から記録再生部１４１によって読出された動画ファイルや静止画ファイルに含まれる画像データの画像を表示部１３０に表示させる処理も行う。表示部１３０は、たとえば撮像装置１００に搭載された液晶パネルや有機ＥＬパネル等であっても良いし、撮像装置１００とは別の表示装置（たとえば、テレビ、モニタ、プロジェクタ）であってもよい。なお、表示制御部１３１の処理は、ＣＰＵ１０１がＦｌａｓｈＲＯＭ１０３に記録された前述の処理を実行する為のプログラムをＲＡＭ１０２に展開して実行するようにしてもよい。
【００２３】
符号化復号化処理部１６０は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。符号化復号化処理部１６０では、記録時においては、画像処理部１１１により処理されＲＡＭ１０２に記憶されたデジタル画像信号に基づいて、画像圧縮処理を行い、圧縮された動画データや静止画データを生成し、ＲＡＭ１０２に一時的に記憶する処理を行う。また、再生時においては、記録媒体１４０から読出された画像ファイルの圧縮された動画データや静止画データを復号してデジタル画像信号を抽出し、ＲＡＭ１０２に記憶していく処理を行う。なお、ＣＰＵ１０１がＦｌａｓｈＲＯＭ１０３に記録された前述の処理を実行する為のプログラムをＲＡＭ１０２に展開して実行するようにしてもよい。
【００２４】
次に、記録再生部１４１は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。記録再生部１４１では、動画記録時においては、ＲＡＭ１０２に記憶されている、符号化復号化処理部１６０により生成された圧縮動画データ、音声処理部１２１で生成された音声データ、撮影日等の各種情報とともに、動画ファイルとして記録媒体１４０に書き込む。また静止画記録時においては、ＲＯＭ１０２に記憶されている静止画データを撮影日等の各種情報とともに静止画ファイルとして記録媒体１４０に記録する。動画ファイルを記録媒体１４０に記録する際は、圧縮動画データと音声データとからなるデータストリームを形成し、順次記録媒体１４０に記録していき、ファイルヘッダ等を付加してＦＡＴやｅｘＦＡＴ等のファイルフォーマットに適合した形で動画ファイルを記録媒体に記録する。また、再生時においては、記録媒体１４０に記録された動画ファイルや静止画ファイルを前述のファイルフォーマットに従って読出す。読出された動画ファイルや静止画ファイルは、ＣＰＵ１０１によりヘッダが解析され、圧縮された動画データ、静止画データが抽出される。抽出された圧縮動画データ、静止画データは、ＲＡＭ１０２に記憶されて、符号化復号化処理部１６０により復号される。なお、記録再生部１４１の処理は、ＣＰＵ１０１がＦｌａｓｈＲＯＭ１０３に記録された前述の処理を実行する為のプログラムをＲＡＭ１０２に展開して実行するようにしてもよい。
【００２５】
また、記録媒体１４０は、撮像装置に内蔵された記録媒体でも、取外し可能な記録媒体でもよい。例えば、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、ＤＶＤ−Ｒ、磁気テープ、不揮発性の半導体メモリ、フラッシュメモリ、などのあらゆる方式の記録媒体を含む。取り外し可能な記録媒体を用いる場合には、記録再生部１４１は、それらの取り外し可能な記録媒体を受け入れるためのインタフェースを含む。
【００２６】
次に音声出力部１３２は、例えばスピーカや音声出力端子（アナログ端子／デジタル端子）である。例えばスピーカであれば、ＣＰＵ１０１によりｆｌａｓｈＲＯＭ１０３に記録されている所定のデジタル音声信号の出力が指示されたときにデジタル音声信号をアナログ音声外部に変換し、外部に音声として出力する。また、動画ファイルに格納された音声データの示すデジタル音声信号をアナログ音声信号に変換し、外部に音声として出力する。また、音声出力端子であれば、動画ファイルに格納された音声データの示すデジタル音声信号をアナログ音声信号に変換して外部装置（外付けスピーカなど）に出力するか、デジタル音声信号をそのまま外部装置（光デジタル端子搭載のオーディオコンポなど）に出力する。
【００２７】
また、通信部１５０は、撮像装置１００とは異なる外部装置との間で、制御信号や動画ファイル、静止画ファイル、各種データ等を送受信するものであり、有線接続、無線接続を問わず接続可能である。なお、通信方式はどのような方式であっても良い。
【００２８】
ここで、本実施例の撮像装置１００の通常の動作について説明する。
【００２９】
本実施例の撮像装置１００は、ユーザが操作部１０２の電源ボタンを操作すると、操作部１０２から制御部１０１に起動の指示が出される。この指示を受けて、制御部１０１は、不図示の電源供給部を制御して、撮像装置１００の各ブロックに対して電源を供給させる。
【００３０】
電源が供給されると、制御部１０１は、例えば、操作部１０２のモード切り換えスイッチが、例えば、「動画撮影モード」、「再生モード」等のどのモードであるかを操作部１０２からの指示信号により確認する。
【００３１】
本実施例の撮像装置１００は、特に「動画撮影モード」において、動画データを「ＭＰＥＧ−４ＡＶＣ／Ｈ．２６４」の圧縮方式で圧縮する例について説明するが、他の圧縮方式を用いても構わない。
【００３２】
（「動画撮影モード」）
まず、「動画撮影モード」であれば、ＣＰＵ１０１は、撮像装置１００の各ブロックに、動画撮影の準備をさせる。操作部１０４から撮影開始の指示が入力されるまでは、ＣＰＵ１０１は、撮像部１１０により得られたデジタル画像信号をＲＡＭ１０２に記憶させ、ＲＡＭ１０２に記憶されたデジタル画像信号を読出させて表示部１３０に画像を表示させように表示制御部１３１を制御する。なお、画像処理部１１１により処理され、ＲＡＭ１０２に記憶されたデジタル画像信号を読出させて表示部１３０に画像を表示させるように表示制御部１３１を制御しても良い。なお、本実施形態では、撮像部１１０から出力されるデジタル画像信号のフレームレートは、３０フレーム／秒であるとする。また、本実施形態では、記録する動画のサイズ（画素数）を複数のサイズから選択した一つのサイズに設定することができる。
【００３３】
この状態で、ＣＰＵ１０１は、操作部１０４により撮影開始の指示が入力されたか否かを判定する。撮影開始の指示があると、ＣＰＵ１０１は、撮像部１１０により得られたデジタル画像信号をＲＡＭ１０２に記憶させ、ＲＡＭ１０２に記憶されたデジタル画像信号に対して設定値に基づいて画質調整処理を施すように画像処理部１１１を制御する。ＣＰＵ１０１は動画撮影を継続している間、３０フレーム／秒で撮像部１１０により出力されるデジタル画像信号を順次、画像処理部１１１に処理させる。そして、ＣＰＵ１０１は、画像処理部１１１で処理されたデジタル画像信号を、順次ＲＡＭ１０２に記憶させる。
【００３４】
次に、ＣＰＵ１０１は、ＲＡＭ１０２に記憶された複数フレームのデジタル画像信号を順次符号化して動画データを生成するように符号化復号化処理部１６０を制御する。ＣＰＵ１０１は、このとき、各フレーム画像をフレーム内予測符号化フレーム、フレーム間予測符号化フレームとして圧縮符号化をするように符号化復号化処理部１６０を制御する。そして、ＣＰＵ１０１は、符号化復号化処理部１６０で符号化された各フレーム画像を順次ＲＡＭ１０２に記憶させていく。
【００３５】
一方、撮影開始の指示があると、ＣＰＵ１０１は、音声に関する処理をするようにも各ブロックを制御する。ＣＰＵ１０１は、音声入力部１２０から出力されるアナログ音声信号を順次音声処理部１２１に転送し、デジタル信号への変換、音質調整処理等を施すように音声処理部１２１を制御する。また、音声圧縮の設定がされている場合には、ＣＰＵ１０１は設定に従って、例えばＡＣ３、ＡＡＣの音声圧縮方式で音声信号を圧縮するように音声処理部１２１を制御する。そして、ＣＰＵ１０１は、音声処理部１２１で処理した音声データをＲＡＭ１０２に順次記憶させていく。また、音声処理部１２１は、風雑音の検出、風雑音の低減、音声レベルの調整なども行う。この処理については後述する。
【００３６】
次にＣＰＵ１０１は、ＲＡＭ１０２に記憶された動画データ、音声データを順次、記録媒体１４０に記録するように、記録再生部１４１を制御する。このとき例えば、１５フレーム分（０．５秒分）の動画データと、０．５秒分の音声データとを一組にし、必要な各種情報を付加したデータストリームを形成し、ファイルシステムに従って記録媒体１４０に記録するように、記録再生部１４１を制御する。なお、３０フレーム分（１秒分）の動画データと、１秒分の音声データを一組としても良い。ＣＰＵ１０１は、これらの動作を動画撮影の停止の指示があるまで継続する。
【００３７】
そして、操作部１０４により撮影停止の指示が入力されると、ＣＰＵ１０１は、画像処理部１１１の処理を停止させ、ＲＡＭ１０２に記憶されたデジタル画像信号の符号化が終了した時点で符号化復号化処理部１６０の符号化処理を停止させる。そして、ＣＰＵ１０１は、ＲＡＭ１０２に記憶されている符号化済みの動画データ、音声データを最後まで記録媒体１４０に記録してから動作を停止するように記録再生部１４１を制御する。なお、必要に応じて、記録終了後に、動画ファイルの動画データの先頭のフレームや先頭から数フレームの画像データを符号化復号化処理部１６０に送信して復号させ、復号されたデジタル画像信号の画素数を間引いたサムネイル画像データを生成して、動画ファイルに関連づけて記録するようにしても良い。
【００３８】
この処理が終了すると、ＣＰＵ１０１は、再び動画撮影の準備状態に各ブロックを戻す。
【００３９】
（「再生モード」）
「再生モード」であれば、ＣＰＵ１０１は、記録媒体１４０に記録されている動画ファイル、静止画ファイルのうち指定されたファイルに関連づけられたサムネイル画像データを読出すように記録再生部１４１を制御する。そして、ＣＰＵ１０１は、これらのサムネイル画像データを示す画像を表示部１３０に表示するよう表示制御部１３１を制御する。
【００４０】
そして、操作部１０４から指定されたサムネイルに対応するファイルを再生する指示が入力されると、ＣＰＵ１０１は、指定された動画ファイルや静止画ファイルを記録媒体１４０から読出すように記録再生部１４１を制御する。そして、ＣＰＵ１０１は、読出した動画ファイルや静止画ファイルに含まれる各種情報、動画データ、音声データ、静止画データを抽出してＲＡＭ１０２に記憶させる。
【００４１】
静止画ファイルを再生する場合は、ＣＰＵ１０１は、ＲＡＭ１０２に記憶された静止画データを復号するように符号化復号化処理部１６０を制御し、復号されたデジタル画像信号をＲＡＭ１０２に記憶させる。そして、ＲＡＭ１０２に記憶させた復号されたデジタル画像信号を表示部１３０に表示するように表示制御部１３１を制御する。
【００４２】
また、動画ファイルを再生する場合は、ＣＰＵ１０１は、ＲＡＭ１０２に記憶された動画データを復号するように符号化復号化処理部１６０を制御し、復号された各フレームのデジタル画像信号を順次、ＲＡＭ１０２に記憶させる。そして、ＲＡＭ１０２に記憶させた復号された各フレームのデジタル画像信号を表示部１３０に、順次表示するように表示制御部１３１を制御する。また、ＣＰＵ１０１は、ＲＡＭ１０２に記憶された音声データを動画の復号、表示のタイミングに合わせて、音声出力部１３２に送信し、音声を出力させる。なお、音声データが圧縮されたものである場合には、ＲＡＭ１０２に記憶された音声データを復号するように音声処理部１２１を制御し、復号された音声データを音声出力部１３２に送信する。
【００４３】
次に本実施例の撮像装置１００の音声入力部１２０及び音声処理部１２１の動作について図２、３、４を用いて説明する。図２は、本実施例の音声入力部１２０及び音声処理部１２１の動作を説明するためのブロック図である。本実施例の音声処理部１２１の動作は、動画撮影開始に伴い動作を開始するが、動画撮影開始前から動作を開始しても良い。
【００４４】
本実施例の音声入力部１２０は、内蔵された複数の無指向性のマイクを有し、複数の音声信号を取得することができる。本実施例においては、マイク２１０ａ、マイク２１０ｂを示すが、マイクの個数は２個に限られない。また、音声信号処理部１２１は、ＡＤ変換部２２０ａ、２２０ｂ、風雑音検出部２３０、ハイパスフィルタ２３１ａ、２３１ｂ、オートレベルコントローラ（以後ＡＬＣ）２４０を有する。またＡＬＣ２４０のゲインを制御するＡＬＣ制御部２５０を有する。ＡＬＣ制御部２５０は、平均化部２５１、切替部２５２、レベル検出部２５３ａ、２５３ｂ、変更部２５４を有する。
【００４５】
マイク２１０ａ、２１０ｂは、周囲の音声を集音し、アナログ音声信号を出力する。ＡＤ変換部２２０ａ、２２０ｂは、それぞれマイク２１０ａ、２１０ｂから出力されたアナログ音声信号をデジタル音声信号に変換する。
【００４６】
風雑音検出部２３０は、ＡＤ変換部２２０ａ、２２０ｂから出力された複数のデジタル音声信号に基づいて、風雑音の有無を検出する。風雑音の検出方法は様々な手法が存在し、本実施例においても公知のどのような手段を用いても良い。例えば、複数のデジタル音声信号の１ｋＨｚ以下の信号同士の和と差を算出し、それぞれの絶対値を比較して、差を示す信号の方が大きいときには風雑音が発生していると判定する。これは、通常の音声成分については、各マイクに対して入力される音声がほぼ同じ音声となり、相関がとれているため、和を示す信号は大きくなるが、差を示す信号は小さくなる。逆に、風雑音については、各マイクに発生する雑音の相関が全くとれていないため、差成分が大きくなるという性質を利用している。また、差を示す信号のレベルが大きいほど、風雑音のレベルが大きいと判定し、差を示す信号が小さいほど、風雑音のレベルが小さいと判定することもできる。このような手法に代表されるように、複数のマイクにより得られた音声信号を演算、比較することで、風雑音の発生を検出することができるのである。なお、差を示す信号に対して、所定の係数を乗算して前述の比較や演算を行う方法もある。
【００４７】
ハイパスフィルタ２３１ａ、２３１ｂは、風雑音を低減させるためのものであって、風雑音検出部により検出された風の成分が大きいほど、カットオフ周波数を上げることができる。例えば、風雑音が発生していないときは、カットオフ周波数を２０Ｈｚとし、風雑音が発生しているが、発生レベルが低いときは、カットオフ周波数を５００Ｈｚとし、発生レベルが中程度である場合にはカットオフ周波数を１ｋＨｚとする。そして、風雑音の発生レベルが最大である場合には、カットオフ周波数を２ｋＨｚにする。このようにハイパスフィルタ２３１ａ、２３１ｂは、設定された所定の周波数成分を減衰させることで、風雑音を低減させるものである。
【００４８】
オートレベルコントローラ（ＡＬＣ）２４０は、ハイパスフィルタ２３１ａ、２３１ｂから出力された音声信号のレベルを適正レベルに制御するレベル制御を行うものである。ＡＬＣ２４０は、ハイパスフィルタ２３１ａ、２３１ｂから出力されたそれぞれの音声信号のうち、レベルの大きい方の音声信号のレベルに応じて、それぞれの音声信号に与えるゲインを変更して、目標の音量の音声信号を出力するものである。
【００４９】
例えば、風雑音が入力されていない場合には、ＡＬＣ２４０は、図４（ａ）に示すようなレベルの音声信号が入力されると、図４（ｂ）のような音声信号を出力する。図４において、縦軸は音声信号のレベル、横軸は時間を示している。つまり、図４（ａ）においては、期間ＡからＢにおいては、ａ［ｄＢ］、期間ＢからＣにおいては、ｂ［ｄＢ］、期間ＣからＤにおいては、ｃ［ｄＢ］の音声信号が入力されている例を示している。
【００５０】
ＡＬＣ２４０は、入力された音声信号のレベル大きい方の音声信号のレベルを目標レベル「Ｌｉｍｉｔ」に近づけるように制御を行っている。具体的には、目標レベル「Ｌｉｍｉｔ」よりも大きい音声信号については、目標レベル「Ｌｉｍｉｔ」に近づけるように音声レベルを低減させるようにゲインを与える。また、目標レベル「Ｌｉｍｉｔ」よりも小さい音声信号については、目標レベル「Ｌｉｍｉｔ」に近づけるように音声レベルを増幅させるようにゲインを与える。ただし、与えるゲインの最大値は所定のゲイン（Ｇｍａｘ）である。なお、ＡＬＣ２４０に入力されたハイパスフィルタ２３１ａ、２３１ｂから出力された音声信号に与えるゲインは、共通のゲインである。
【００５１】
ＡＬＣ２４０で前述の処理が実行されることで、図４（ｂ）に示すように、期間ＡからＢにおいては、目標レベル「Ｌｉｍｉｔ」［ｄＢ］、期間ＢからＣにおいても、目標レベル「Ｌｉｍｉｔ」［ｄＢ］、期間ＣからＤにおいては、ｃ＋所定のゲイン（Ｇｍａｘ）［ｄＢ］となる。
【００５２】
次に、ＡＬＣ制御部２５０について説明する。ＡＬＣ制御部２５０は、ＡＤ変換部２２０ａ、２２０ｂから出力された複数のデジタル音声信号と、風雑音検出得２３０の出力とに基づいて、ＡＬＣ２４０の目標レベルを制御するものである。本実施例の撮像装置１００は、この制御を動画撮影中に行うものとするが、動画撮影を行っていないときであってもこの制御を行っても良い。
【００５３】
平均化部２５１は、ＡＤ変換部２２０ａ、２２０ｂから出力された複数のデジタル音声信号の平均化した信号を生成する。そして、切替部２５２は、平均化部２５１から出力された平均化信号を、レベル検出部２５３ａ、２５３ｂのいずれに入力するかを切り替えるものである。切替部２５２は、風雑音が発生していない場合、平均化部２５１から出力された平均化信号を、レベル検出部２５３ａに送信し、風雑音が発生している場合、平均化部２５１から出力された平均化信号を、レベル検出部２５３ｂに送信する。
【００５４】
レベル検出部２５３ａは、平均化信号が入力されている間、例えば、１６秒分の平均化信号の絶対値を加算して、加算値から平均値を算出している。すなわち、レベル検出部２５３ａは、風雑音が発生していないときの平均化信号のレベルの平均値を示す。また、レベル検出部２５３ｂは、平均化信号が入力されている間、例えば、０．５秒分の信号の絶対値を加算して、加算値から平均値を算出している。すなわち、レベル検出部２５３ｂは、風雑音が発生しているときの平均化信号のレベルの平均値を示す。これら、レベル検出部２５３ａ、ｂの出力値の比率は、風雑音が発生していないときの音声信号の平均レベルと、風雑音が発生しているときの音声信号の平均レベルとの比率を示すことと同等である。
【００５５】
変更部２５４は、レベル検出部２５３ａ、レベル検出部２５３ｂに保持された平均値に基づいて、風雑音の発生が検出されている間、ＡＬＣ２４０の目標レベル「Ｌｉｍｉｔ」を変更するものである。
【００５６】
具体的には、風雑音の発生が検出されると、変更部２５４は、レベル検出部２５３ａより、風雑音が発生していないときの平均化信号のレベルの平均値（Ｘとする）、レベル検出部２５３ｂより、風雑音が発生しているときの平均化信号のレベルの平均値（Ｙとする）をそれぞれ読出す。
【００５７】
本実施形態においては、風雑音が発生していないと検出されたときの平均化信号の平均値（Ｘ）から、風雑音が発生したと検出されたときの平均化信号に含まれる風雑音以外の音声の成分のレベルを推定する。そのため、風雑音が発生したと検出された場合の平均化信号のレベルの平均値（Ｙ）と、風雑音が発生していないと検出されたときの平均化信号のレベルの平均値（Ｘ）とを比較する。Ｘに対するＹの比率αは以下の数式１で表される。
α＝Ｙ／Ｘ（数式１）
【００５８】
前述したように、これら、レベル検出部２５３ａ、ｂの出力値の比率は、風雑音が発生していないときの音声信号の平均レベルと、風雑音が発生しているときの音声信号の平均レベルとを示すことになる。すなわち、この比率αは、風雑音の発生により、風雑音を低減する前の音声レベルがどの程度増幅されたかを示す。
【００５９】
次に変更部２５４は、ＡＬＣ２４０の目標レベル「Ｌｉｍｉｔ」を低減させる。例えば、ＡＬＣ２４０の目標レベルを（Ｌｉｍｉｔ−２０・ｌｏｇα）［ｄＢ］に設定する。
【００６０】
このような制御により、図４（ｃ）に示すように、風雑音検出時には、ＡＬＣ２４０の目標レベルが（Ｌｉｍｉｔ−２０・ｌｏｇα）に低減される。
【００６１】
このように変更部２５４は、風雑音が発生したと検出されたときの平均化信号のレベルの平均値（Ｙ）と、風雑音が発生していないと検出されたときの平均化信号のレベルの平均値（Ｘ）とを比較する。そして、風雑音が発生したと検出されたときの平均化信号のレベルの平均値（Ｙ）の値が、風雑音が発生していないと検出されたときの平均化信号のレベルの平均値（Ｘ）よりも大きいほど、ＡＬＣ２４０の目標レベルを低減する。
【００６２】
なお、本実施例においては、ＡＬＣ２４０の目標レベル「Ｌｉｍｉｔ」を、２０・ｌｏｇα（Ｘに対するＹの比率）だけ低減させるものとしたが、低減する値は、例えば、一定の係数ｋを乗算したｋ・２０・ｌｏｇαとしてもよい。また、低減する値は、α（Ｘに対するＹの比率）と必ずしも比例関係になくてもよく、Ｘに対するＹの比率が大きくなるほど、ＡＬＣ２４０の目標レベル「Ｌｉｍｉｔ」を低減する割合が大きくなればよい。また、Ｘに対するＹの比率が所定の比率を上回る毎に段階的に低減する割合を大きくしても良い。
【００６３】
このような制御を行うことで、風雑音以外の音声信号の音声レベルと、風雑音を含む音声信号の音声レベルとを考慮しながら、ＡＬＣ２４０の目標レベルを設定することができる。そのため、風雑音成分の多い音声信号の音声レベルをむやみに増幅させてしまうよう可能性を低減し、風雑音成分の少ない音声信号の音声レベルは聞きやすいレベルまで増幅させることができる。そのため、ユーザに耳障りな音声となってしまう可能性を低減することができる。
【００６４】
次に、図３を用いて、本実施形態の音声処理の動作を説明する。図３のフロー図は、前述した動画撮影開始から終了までの間に、ＡＬＣ制御部２５０で実行される処理を示すものである。なお、音声処理部１２１は、ＣＰＵ１０１により制御されている。
【００６５】
（Ｓ３１０）
まず、動画撮影が開始されると、切替部２５２は、風雑音検出部２３０により得られた風雑音の発生を示す信号に基づいて、平均化部２５１により得られた平均化信号をレベル検出部２５３ａ、２５３ｂのいずれかに入力させる。
切替部２５２は、風雑音が発生していない場合、平均化部２５１から出力された平均化信号を、レベル検出部２５３ａに送信し、風雑音が発生している場合、平均化部２５１から出力された平均化信号を、レベル検出部２５３ｂに送信する。
【００６６】
（Ｓ３２０）
Ｓ３１０で、風雑音の発生が検出されていない場合、レベル検出部２５３ａは、平均化部２５１から出力された平均化信号の絶対値を１６秒分加算して、加算値の平均値を算出する。
なお、Ｓ３１０で、風雑音の発生が検出されていない場合、変更部２５４は、ＡＬＣ２４０の目標レベルを変更するような処理は行わない。
【００６７】
（Ｓ３３０）
Ｓ３１０で、風雑音の発生が検出されている場合、レベル検出部２５３ｂは、平均化部２５１から出力された平均化信号の絶対値を０．５秒分加算して、加算値の平均値を算出する。
【００６８】
（Ｓ３３１）
Ｓ３１０で、風雑音の発生が検出されている場合、変更部２５４は、レベル検出部２５３ａ、レベル検出部２５３ｂに保持されたカウント値を比較する。すなわち、風雑音が発生していないときの平均化信号のレベルの平均値（Ｘとする）と、レベル検出部２５３ｂより、風雑音が発生しているときの平均化信号のレベルの平均値（Ｙとする）とを比較する。本実施形態においては、特に、風雑音が発生していないときの音声信号のレベルの加算値は、風雑音の発生を検知する直前の音声信号の音声レベルの加算値を用いるものとするが、風雑音の発生を検知する前の所定時間以内のものを用いても良い。
【００６９】
（Ｓ３４０）
次に、変更部２５４は、Ｘに対するＹの比率αが１より大きいか否かを判定する。すなわち、風雑音を含む音声信号の音声レベルが、風雑音の含まれていないそれまでの音声信号の音声レベルよりも小さいか、大きいかを判定する。
そして、αが１以下、すなわち、風雑音を含む音声信号の音声レベルが、風雑音の含まれていないそれまでの音声信号の音声レベルよりも小さい場合には、変更部２５４は、ＡＬＣ２４０の目標レベルを変更するような処理は行わない（Ｓ３４０でＮｏ）。αが１より大きい、すなわち、風雑音を含む音声信号の音声レベルが、風雑音の含まれていないそれまでの音声信号の音声レベルよりも大きい場合には（Ｓ３４０でＹｅｓ）、変更部２５４は、Ｓ３５０の処理を行う。
【００７０】
（Ｓ３５０）
変更部２５４は、ＡＬＣ２４０の目標レベル「Ｌｉｍｉｔ」を変更する。
具体的には、前述したように、目標レベルを（Ｌｉｍｉｔ−２０・ｌｏｇα）［ｄＢ］に設定する。
【００７１】
（Ｓ３６０）
ＣＰＵ１０１は、これらの動作を、操作部１０４により撮影停止の指示が入力されるまで継続させる。
【００７２】
このような制御を行うことで、風雑音以外の音声信号の音声レベルと、風雑音を含む音声信号の音声レベルとを考慮しながら、ＡＬＣ２４０の目標レベルを設定することができる。そのため、風雑音成分の多い音声信号の音声レベルをむやみに増幅させてしまうよう可能性を低減し、風雑音成分の少ない音声信号の音声レベルは聞きやすいレベルまで増幅させることができる。そのため、ユーザに耳障りな音声となってしまう可能性を低減することができる。
【００７３】
なお、本実施例において、動画記録開始時に、風雑音検出部２３０により、最初から風雑音が発生していると判定されていた場合には、変更部２５４は、ＡＬＣ２４０の目標レベルを変更しないように制御する。このような制御により、ＡＬＣ２４０の目標レベルが低くなりすぎてしまい、かえって聞きづらい音声になってしまう等の不具合を未然に防止することができる。
【００７４】
また、本実施例においては、動画記録開始時に、図３のフロー図に示す処理を実行するものとしたが、電源投入時から常に動作させても良い。このようにすることで、記録開始時に、風雑音が発生していると検出されたとしても、予め１６秒分の平均化信号のレベルの平均値を算出することができるので、記録開始時からＡＬＣ２４０の制御を適切に行うことができる。
【００７５】
また、本実施例において、レベル検出部２５３ａに１６秒分の平均化信号のレベルが蓄積されていない場合であっても、蓄積した秒数で平均化を行っても良い。
【００７６】
また、レベル検出部２５３ａに１６秒分の平均化信号のレベルが蓄積されていない場合であっても、平均化信号の絶対値の加算値を１６秒分のものとして平均化を行う。このようにすることで、このような制御により、ＡＬＣ２４０の目標レベルが低くなりすぎてしまい、かえって聞きづらい音声になってしまう等の不具合を未然に防止することができる。
【００７７】
また、本実施例においては、ＡＬＣ２４０において与えるゲインを変更するように制御を行ったが、例えばＡＬＣ２４０の後に、音量調整部（ボリューム）を設け、変更部２５４により、減衰量が設定されても良い。減衰量は、本実施形態のＡＬＣ２４０における減衰量と同様の値を設定すればよい。
【００７８】
また、本実施例においては、ＡＬＣ制御部２５０は、図２に示すようにＡＤ変換部２２０ａ、２２０ｂから出力される音声信号のレベルに基づいて、風雑音が発生しているときの音声信号のレベルと風雑音が発生していないときの音声信号のレベルとを比較していた。しかし、たとえば、ＨＰＦ２３１ａ、２３１ｂの出力信号やＡＬＣ２４０の出力信号に基づいて、風雑音が発生しているときの音声信号のレベルと風雑音が発生していないときの音声信号のレベルを比較しても良い。
【００７９】
このような制御を行うことで、風雑音以外の音声信号の音声レベルと、風雑音を含む音声信号の音声レベルとを考慮しながら、調整部２６０の減衰量を設定することができる。そのため、風雑音成分の多い音声信号の音声レベルをむやみに増幅させてしまうよう可能性を低減し、風雑音成分の少ない音声信号の音声レベルは聞きやすいレベルまで増幅させることができる。そのため、ユーザに耳障りな音声となってしまう可能性を低減することができる。
【００８０】
なお、本実施形態の撮像装置１００は、例えば、デジタルカメラ、携帯電話、スマートフォン、ＩＣレコーダ、携帯型ゲーム機など音声を記録することができる装置であればどのような装置にも適用することができる。
【００８１】
［第２の実施形態］
次に、第２の実施形態について説明する。第１の実施形態においては、図２に示すように、本実施例においては、ＡＬＣ制御部２５０は、図２に示すようにＡＤ変換部２２０ａ、２２０ｂから出力される音声信号のレベルに基づいて、ＡＬＣ２４０を制御した。
【００８２】
第２の実施形態においては、音声処理部１２１は、第１の実施形態とは異なる音声処理制御を行う。
【００８３】
本実施形態における撮像装置１００の構成は、第１の実施形態と同様な構成であるため、説明を省略する。第２の実施形態においては、音声処理部１２１の構成が第１の実施形態と異なるため、この点を説明する。
【００８４】
図５は、本実施形態の音声入力部１２０及び音声処理部１２１の動作を説明するためのブロック図である。本実施例の音声処理部１２１の動作は、動画撮影開始に伴い動作を開始するが、動画撮影開始前から動作を開始しても良い。
【００８５】
本実施例の音声入力部１２０は、内蔵された複数の無指向性のマイクを有し、複数の音声信号を取得する。本実施例においては、マイク５１０ａ、マイク５１０ｂを示すが、マイクの個数は２個に限られない。また、音声信号処理部１２１は、ＡＤ変換部５２０ａ、５２０ｂ、風雑音検出部５３０、ハイパスフィルタ５３１ａ、５３１ｂ、オートレベルコントローラ（以後ＡＬＣ）５４０、音量調整部５６０を有する。また音量調整部５６０を制御する音量制御部５５０を有する。音量制御部５５０は、平均化部５５１、切替部５５２、レベル検出部５５３ａ、５５３ｂ、変更部５５４を有する。
【００８６】
マイク５１０ａ、５１０ｂは、周囲の音声を集音し、アナログ音声信号を出力する。ＡＤ変換部５２０ａ、５２０ｂは、それぞれマイク５１０ａ、５１０ｂから出力されたアナログ音声信号をデジタル音声信号に変換する。
【００８７】
風雑音検出部５３０は、ＡＤ変換部５２０ａ、５２０ｂから出力された複数のデジタル音声信号に基づいて、風雑音の有無を検出する。風雑音の検出方法は様々な手法が存在し、本実施例においても公知のどのような手段を用いても良い。例えば、複数のデジタル音声信号の１ｋＨｚ以下の信号同士の和と差を算出し、それぞれの絶対値を比較して、差を示す信号の方が大きいときには風雑音が発生していると判定する。これは、通常の音声成分については、各マイクに対して入力される音声がほぼ同じ音声となり、相関がとれているため、和を示す信号は大きくなるが、差を示す信号は小さくなる。逆に、風雑音については、各マイクに発生する雑音の相関が全くとれていないため、差成分が大きくなるという性質を利用している。また、差を示す信号のレベルが大きいほど、風雑音のレベルが大きいと判定し、差を示す信号が小さいほど、風雑音のレベルが小さいと判定することもできる。このような手法に代表されるように、複数のマイクにより得られた音声信号を演算、比較することで、風雑音の発生を検出することができるのである。なお、差を示す信号に対して、所定の係数を乗算して前述の比較や演算を行う方法もある。
【００８８】
ハイパスフィルタ５３１ａ、５３１ｂは、風雑音を低減させるためのものであって、風雑音検出部により検出された風の成分が大きいほど、カットオフ周波数を上げることができる。例えば、風雑音が発生していないときは、カットオフ周波数を２０Ｈｚとし、風雑音が発生しているが、発生レベルが低いときは、カットオフ周波数を５００Ｈｚとし、発生レベルが中程度である場合にはカットオフ周波数を１ｋＨｚとする。そして、風雑音の発生レベルが最大である場合には、カットオフ周波数を２ｋＨｚにする。
【００８９】
オートレベルコントローラ（ＡＬＣ）５４０は、ハイパスフィルタ５３１ａ、５３１ｂから出力された音声信号のレベルを適正レベルに制御するものである。ＡＬＣ５４０は、ハイパスフィルタ５３１ａ、５３１ｂから出力されたそれぞれの音声信号のうち、レベルの大きい方の音声信号のレベルに応じて、それぞれの音声信号に与えるゲインを変更して、目標の音量の音声信号を出力するものである。
【００９０】
例えば、風雑音が入力されていない場合には、ＡＬＣ５４０は、図４（ａ）に示すようなレベルの音声信号が入力されると、図４（ｂ）のような音声信号を出力する。図４において、縦軸は音声信号のレベル、横軸は時間を示している。つまり、図４（ａ）においては、期間ＡからＢにおいては、ａ［ｄＢ］、期間ＢからＣにおいては、ｂ［ｄＢ］、期間ＣからＤにおいては、ｃ［ｄＢ］の音声信号が入力されている例を示している。
【００９１】
ＡＬＣ５４０は、入力された音声信号のレベル大きい方の音声信号のレベルを目標レベル「Ｌｉｍｉｔ」に近づけるように制御を行っている。具体的には、目標レベル「Ｌｉｍｉｔ」よりも大きい音声信号については、目標レベル「Ｌｉｍｉｔ」に近づけるように音声レベルを低減させるようにゲインを与える。また、目標レベル「Ｌｉｍｉｔ」よりも小さい音声信号については、目標レベル「Ｌｉｍｉｔ」に近づけるように音声レベルを増幅させるようにゲインを与える。ただし、与えるゲインの最大値は所定のゲイン（Ｇｍａｘ）である。なお、ＡＬＣ５４０に入力されたハイパスフィルタ５３１ａ、５３１ｂから出力された音声信号に与えるゲインは、共通のゲインである。
【００９２】
ＡＬＣ５４０で前述の処理が実行されることで、図４（ｂ）に示すように、期間ＡからＢにおいては、目標レベル「Ｌｉｍｉｔ」［ｄＢ］、期間ＢからＣにおいても、目標レベル「Ｌｉｍｉｔ」［ｄＢ］、期間ＣからＤにおいては、ｃ＋所定のゲイン（Ｇｍａｘ）［ｄＢ］となる。
【００９３】
調整部５６０は、ＡＬＣ５４０から出力された音声信号のレベルを後述の音量制御部５５０により設定された値に応じて、減衰または増幅させるものである。
【００９４】
次に、音量制御部５５０について説明する。音量制御部５５０は、ハイパスフィルタ５３１ａ、５３１ｂから出力された複数の音声信号と、風雑音検出得５３０の出力とに基づいて、音量調整部５６０の減衰量または増幅量を制御するものである。本実施例の撮像装置１００は、この制御を動画撮影中に行うものとするが、動画撮影を行っていないときであってもこの制御を行っても良い。
【００９５】
平均化部５５１は、ハイパスフィルタ５３１ａ、５３１ｂから出力された複数の音声信号の平均化した信号を生成する。そして、切替部５５２は、平均化部５５１から出力された平均化信号を、レベル検出部５５３ａ、５５３ｂのいずれに入力するかを切り替えるものである。切替部５５２は、風雑音が発生していない場合、平均化部５５１から出力された平均化信号を、レベル検出部５５３ａに送信し、風雑音が発生している場合、平均化部５５１から出力された平均化信号を、レベル検出部５５３ｂに送信する。
【００９６】
レベル検出部５５３ａは、平均化信号が入力されている間、例えば、１６秒分の平均化信号の絶対値を加算して、加算値から平均値を算出している。すなわち、レベル検出部５５３ａは、風雑音が発生していないときの平均化信号のレベルの平均値を示す。また、レベル検出部５５３ｂは、平均化信号が入力されている間、例えば、０．５秒分の信号の絶対値を加算して、加算値から平均値を算出している。すなわち、レベル検出部５５３ｂは、風雑音が発生しているときの平均化信号のレベルの平均値を示す。これら、レベル検出部５５３ａ、ｂの出力値の比率は、風雑音が発生していないときのハイパスフィルタ５３１ａ、５３１ｂから出力された複数の音声信号の平均レベルと、風雑音が発生しているときの複数の音声信号の平均レベルとの比率を示すことと同等である。
【００９７】
変更部５５４は、レベル検出部５５３ａ、レベル検出部５５３ｂに保持された平均値に基づいて、風雑音の発生が検出されている間、調整部５６０における減衰量または増幅量を変更するものである。
【００９８】
具体的には、風雑音の発生が検出されると、変更部５５４は、レベル検出部５５３ａより、風雑音が発生していないときの平均化信号のレベルの平均値（Ｘ’とする）、レベル検出部５５３ｂより、風雑音が発生しているときの平均化信号のレベルの平均値（Ｙ’とする）をそれぞれ読出す。
【００９９】
本実施形態においては、風雑音が発生していないと検出されたときの平均化信号の平均値（Ｘ’）から、風雑音が発生したと検出されたときの平均化信号に含まれる風雑音以外の音声の成分のレベルを推定する。そのため、風雑音が発生したと検出された場合の平均化信号のレベルの平均値（Ｙ’）と、風雑音が発生していないと検出されたときの平均化信号のレベルの平均値（Ｘ’）とを比較する。Ｘ’に対するＹ’の比率α’は以下の数式１で表される。
α’＝Ｙ’／Ｘ’ （数式２）
【０１００】
前述したように、これら、レベル検出部５５３ａ、ｂの出力値の比率は、風雑音が発生していないときのハイパスフィルタ５３１ａ、５３１ｂの出力信号の平均レベルと、風雑音が発生しているときのハイパスフィルタ５３１ａ、５３１ｂの出力信号の平均レベルとを示すことになる。すなわち、この比率α’は、風雑音の発生により、風雑音を低減する前のハイパスフィルタ５３１ａ、５３１ｂの出力信号のレベルがどの程度増幅されたかを示す。
【０１０１】
次に変更部５５４は、音量調整部５６０の減衰量を２０・ｌｏｇα’［ｄＢ］に設定する。なお、ここで設定される減衰量は、例えば、一定の係数ｋを乗算したｋ・２０・ｌｏｇα’としてもよい。また、低減する値は、α’（Ｘ’に対するＹ’の比率）と必ずしも比例関係になくてもよく、Ｘ’に対するＹ’の比率が大きくなるほど、減衰量を大きくすればよい。また、Ｘ’に対するＹ’の比率が所定の比率を上回る毎に段階的に低減する割合を大きくしても良い。
【０１０２】
このような制御を行うことで、風雑音以外の音声信号の音声レベルと、風雑音を含む音声信号の音声レベルとを考慮しながら、音量調整部５６０の目標レベルを設定することができる。そのため、風雑音成分の多い音声信号の音声レベルをむやみに増幅させてしまうよう可能性を低減し、風雑音成分の少ない音声信号の音声レベルは聞きやすいレベルまで増幅させることができる。そのため、ユーザに耳障りな音声となってしまう可能性を低減することができる。
【０１０３】
なお、本実施例において、動画記録開始時に、風雑音検出部５３０により、最初から風雑音が発生していると判定されていた場合には、変更部５５４は、音量調整部５６０の減衰率を変更しないように制御する。このような制御により、音量調整部５６０の減衰率が大きくなりすぎてしまい、かえって聞きづらい音声になってしまう等の不具合を未然に防止することができる。
【０１０４】
また、本実施例においては、動画記録開始時に処理を実行するものとしたが、電源投入時から常に動作させても良い。このようにすることで、記録開始時に、風雑音が発生していると検出されたとしても、予め１６秒分の平均化信号のレベルの平均値を算出することができるので、記録開始時から音量調整部５６０の減衰率の制御を適切に行うことができる。
【０１０５】
また、本実施例において、レベル検出部５５３ａに１６秒分の平均化信号のレベルが蓄積されていない場合であっても、蓄積した秒数で平均化を行っても良い。
【０１０６】
また、レベル検出部５５３ａに１６秒分の平均化信号のレベルが蓄積されていない場合であっても、平均化信号の絶対値の加算値を１６秒分のものとして平均化を行う。このようにすることで、このような制御により、音量調整部５６０の減衰率が大きくなりすぎてしまい、かえって聞きづらい音声になってしまう等の不具合を未然に防止することができる。
【０１０７】
また、本実施例において、ＡＬＣ５４０の出力信号のレベルに基づいて、音量調整部５６０の減衰率を変更するものとしたが、ＡＤ変換部２２０ａ、２２０ｂの出力信号に基づいて、音量調整部５６０の減衰率を変更してもよい。また、ハイパスフィルタ５３１ａ、５３１ｂの出力信号のレベルに基づいて、音量調整部５６０の減衰率を変更してもよい。
【０１０８】
このような制御を行うことでも、風雑音以外の音声信号の音声レベルと、風雑音を含む音声信号の音声レベルとを考慮しながら、調整部５６０の減衰量を設定することができる。そのため、風雑音成分の多い音声信号の音声レベルをむやみに増幅させてしまうよう可能性を低減し、風雑音成分の少ない音声信号の音声レベルは聞きやすいレベルまで増幅させることができる。そのため、ユーザに耳障りな音声となってしまう可能性を低減することができる。
【０１０９】
なお、本実施形態の撮像装置１００は、例えば、デジタルカメラ、携帯電話、スマートフォン、ＩＣレコーダ、携帯型ゲーム機など音声を記録することができる装置であればどのような装置にも適用することができる。
【０１１０】
［その他の実施形態］
以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。
【０１１１】
また、上述の実施形態の機能を実現するソフトウェアのプログラムを、記録媒体から直接、或いは有線／無線通信を用いてプログラムを実行可能なコンピュータを有するシステム又は装置に供給し、そのプログラムを実行する場合も本発明に含む。従って、本発明の機能処理をコンピュータで実現するために、該コンピュータに供給、インストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の機能処理を実現するためのコンピュータプログラム自体も本発明に含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

【特許請求の範囲】
【請求項１】
複数の音声信号を取得する取得手段と、
前記複数の音声信号に基づいて風雑音が発生しているか否かを検出する検出手段と、
前記複数の音声信号のレベルを目標レベルに近づくように制御するレベル制御手段と、
前記レベル制御手段により出力された複数の音声信号のレベルを調整する調整手段と、
前記検出手段により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出手段により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記調整手段の減衰率を変更する変更手段とを有することを特徴とする音声信号処理装置。
【請求項２】
複数の音声信号を取得する取得手段と、
前記複数の音声信号に基づいて風雑音が発生しているか否かを検出する検出手段と、
前記複数の音声信号のレベルを目標レベルに近づくように制御するレベル制御手段と、
前記検出手段により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出手段により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記レベル制御手段の前記目標レベルを変更する変更手段とを有することを特徴とする音声信号処理装置。
【請求項３】
前記検出手段により前記風雑音が発生していると検出されたときに、前記複数の音声信号の所定の周波数成分を減衰させることを特徴とする請求項１または２記載の音声信号処理装置。
【請求項４】
前記変更手段は、前記検出手段により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと前記検出手段により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルとの差が大きいほど、前記減衰率を大きくするかまたは前記目標レベルを低くすることを特徴とする請求項１から３のいずれか１項記載の音声信号処理装置。
【請求項５】
複数の音声信号を取得する取得工程と、
前記複数の音声信号に基づいて風雑音が発生しているか否かを検出する検出工程と、
前記複数の音声信号のレベルを目標レベルに近づくように制御するレベル制御工程と、
前記レベル制御工程で出力された複数の音声信号のレベルを調整する調整工程と、
前記検出工程により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出工程により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記調整手段の減衰率を変更する変更工程とを有することを特徴とする音声信号処理方法。
【請求項６】
複数の音声信号を取得する取得工程と、
前記複数の音声信号に基づいて風雑音が発生しているか否かを検出する検出工程と、
前記複数の音声信号のレベルを目標レベルに近づくように制御するレベル制御工程と、
前記検出工程により前記風雑音が発生していると検出されたときの前記複数の音声信号のレベルと、前記検出工程により前記風雑音が発生していると検出されていないときの前記複数の音声信号のレベルと、に基づいて前記レベル制御工程の前記目標レベルを変更する変更工程とを有することを特徴とする音声信号処理方法。
【請求項７】
請求項１から４のいずれか１項記載の各手段としてコンピュータを動作させるためのプログラム。

【図１】