説明

音響信号処理装置、及び撮像装置

【課題】画像信号と音響信号を互いに関連付けて記録する際、又は互いに関連付けて記録された画像信号と音響信号を再生する際、当該音響信号中にスピーカから発せられる音の音響信号を検出した場合には、当該スピーカ音の音像方向を適切に制御して記録する又は再生することができる音響信号処理装置、或いは当該スピーカ音の音像方向を適切に制御して記録する撮像装置を提供する。
【解決手段】スピーカ音制御部10は、マイク5L及び5Rによって集音された複数の音源からの音を音源毎に分離抽出し、分離抽出された各音源からの音がスピーカ音であるか否かを判定する。スピーカ音と判定した場合には、当該音源からの音像が撮像装置1による撮影方向とほぼ一致するように音像方向の制御を行なう。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号を処理する音響信号処理装置に関し、特に、スピーカから発せられる音響信号の音像方向を制御する音響信号処理装置又は撮像装置に関する。
【背景技術】
【0002】
講演会や各種イベント等、人が大勢集まる場所では、話し手はマイクロフォンを使用して話すことが多い。マイクロフォンに入力された話し手の声は、マイクロフォンが接続されている増幅器によって増幅され、増幅器に接続されているスピーカから大音量となって出力される。したがって、話し手の声のほとんどは、スピーカから聴こえて来ることになる。
【0003】
そして、複数のスピーカが増幅器に接続されており、これらスピーカが話し手の位置を中心に非対称に配置されている、或いは、スピーカは1つだけであるがこのスピーカが話し手の位置とは全く別の位置に配置されているような場合、話し手の声は、話し手の存在する位置とは異なる位置から聴こえて来ることになる。
【0004】
このようなシーンの画像と音を、例えば、2つのステレオマイクを備えたビデオカメラで話し手が撮影領域の真ん中付近に位置するように記録し、記録した画像信号と音響信号を再生して視聴する場合を考える。再生装置が、例えば、Lチャネル及びRチャネル用の2つのスピーカによるステレオ再生を行なう場合、再生装置のモニタの真ん中付近には、話し手が話をしているシーンが写し出されているにもかかわらず、話し手の声はいずれか一方のスピーカからしか聴こえない、或いはいずれか一方に偏って聴こえることになる。このような画像と音の再生は、これを視聴している視聴者に非常に違和感を感じさせるものであり、問題である。
【0005】
また、運動会などでは、BGMが1つのスピーカからしか流れてこないことがあり、このようなシーンの画像及び音を記録して視聴する場合も、BGMがいずれか一方のスピーカからしか聴こえず、或いはいずれか一方に偏って聴こえるため、迫力感に欠けてしまい、問題である。
【0006】
尚、画像に合わせて音像全体を制御する従来技術として下記特許文献1がある。下記特許文献1では、撮影時に取得した画像信号及び音響信号を再生する際に、再生する画像信号の画角に応じ、同時に再生する音声信号の指向性を制御し再生音場を補正する技術であり、上記問題を解決するものではない。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2006-287544
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、上記問題に鑑みてなされたものであり、画像信号と音響信号を互いに関連付けて記録する際、又は互いに関連付けて記録された画像信号と音響信号を再生する際、当該音響信号中にスピーカから発せられる音の音響信号を検出した場合には、当該スピーカ音の音像方向を適切に制御して記録する又は再生することができる音響信号処理装置、或いは当該スピーカ音の音像方向を適切に制御して記録する撮像装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明に係る第1の音響信号処理装置は、撮影の際に到来する音を集音することにより該音の音響信号を取得する集音手段と、前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、前記スピーカ音信号が検出された場合、該スピーカ音信号の音像方向が撮影方向と一致するように、前記音響信号に音響信号処理を施す音像方向制御手段と、前記音響信号処理を施された前記音響信号を記録する音響信号記録手段と、を備えたことを特徴とする。
【0010】
本発明に係る第2の音響信号処理装置は、撮影の際に到来する音を集音することにより該音の音響信号を取得する集音手段と、前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、前記スピーカ音信号が検出された場合、前記音響信号の音像方向が撮影方向と一致するように、前記音響信号に音響信号処理を施す音像方向制御手段と、前記音響信号処理を施された前記音響信号を記録する音響信号記録手段と、を備えたことを特徴とする。
【0011】
本発明に係る撮像装置は、上記第1又は第2の音響信号処理装置を備え、撮影対象を撮影することにより該撮影対象の画像信号を取得する撮像手段と、前記撮像手段により取得された前記画像信号を、前記音響信号処理装置が備える音像方向制御手段により音響信号処理が施された音響信号と関連付けて記録する画像信号記録手段と、をさらに備えたことを特徴とする。
【0012】
本発明に係る撮像装置は、さらに前記画像信号から人物の顔画像信号を検出する顔検出手段と、前記画像信号からマイクロフォンの画像信号を検出するマイクロフォン検出手段と、を備え、前記音響信号処理装置が備える前記スピーカ音検出手段は、前記顔検出手段により人物の顔画像信号が検出され、且つ、前記マイクロフォン検出手段によりマイクロフォンの画像信号が検出された場合に、前記音響信号処理装置が備える集音手段によって取得された音響信号からスピーカ音信号を検出することを特徴とする。
【0013】
また、本発明に係る撮像装置は、撮影対象を撮影することにより該撮影対象の画像信号を取得する撮像手段と、前記撮影の際に到来する音を集音することにより該音の第1音響信号を取得する集音手段と、前記第1音響信号を前記撮像手段により取得された画像信号と関連付けて記録する第1記録手段と、前記第1音響信号に基づく第2音響信号を生成するとともに、該第2音響信号を前記撮像手段により取得された画像信号と関連付けて記録する第2記録手段と、前記第1記録手段と前記第2記録手段とを切り替える切換え手段と、を備え、前記第2記録手段は、前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、前記スピーカ音信号が検出された場合、該スピーカ音信号の音像方向が撮影方向と一致するように、前記スピーカ音信号に音響信号処理を施すことにより前記第2音響信号を生成する音像方向制御手段と、
を備えたことを特徴とする。
【0014】
さらにまた、本発明に係る撮像装置は、撮影対象を撮影することにより該撮影対象の画像信号を取得する撮像手段と、前記撮影の際に到来する音を集音することにより該音の第1音響信号を取得する集音手段と、前記第1音響信号を前記撮像手段により取得された画像信号と関連付けて記録する第1記録手段と、前記第1音響信号に基づく第2音響信号を生成するとともに、該第2音響信号を前記撮像手段により取得された画像信号と関連付けて記録する第2記録手段と、前記第1記録手段と前記第2記録手段とを切り替える切換え手段と、を備え、
前記第2記録手段は、前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、前記スピーカ音信号が検出された場合、前記音響信号の音像方向が撮影方向と一致するように、前記音響信号に音響信号処理を施すことにより前記第2音響信号を生成する音像方向制御手段と、を備えたことを特徴とする。
【0015】
本発明に係る第3の音響信号処理装置は、撮影手段による撮影により取得された画像信号と集音手段により取得された前記撮影の際に到来する音の音響信号とが互いに関連づけて記録されている記録手段から、前記音響信号を取得する取得手段と、前記取得手段によって取得された前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、前記スピーカ音信号が検出された場合、前記スピーカ音信号の音像方向が前記撮影手段による撮影方向と一致するように、前記音響信号に音響信号処理を施す音像方向制御手段と、前記音響信号処理を施された前記音響信号を再生する再生手段と、を備えたことを特徴とする。
【0016】
本発明に係る第4の音響信号処理装置は、撮影手段による撮影により取得された画像信号と集音手段により取得された前記撮影の際に到来する音の音響信号とが互いに関連づけて記録されている記録手段から、前記音響信号を取得する取得手段と、前記取得手段によって取得された前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、前記スピーカ音信号が検出された場合、前記音響信号の音像方向が前記撮影手段による撮影方向と一致するように、前記音響信号に音響信号処理を施す音像方向制御手段と、前記音響信号処理を施された前記音響信号を再生する再生手段と、を備えたことを特徴とする。
【発明の効果】
【0017】
本発明によると、画像信号と音響信号を互いに関連付けて記録する際、又は互いに関連付けて記録された画像信号と音響信号を再生する際、当該音響信号中にスピーカから発せられる音の音響信号を検出した場合には、当該スピーカ音の音像方向を適切に制御して記録する又は再生する音響信号処理装置、或いは当該スピーカ音の音像方向を適切に制御して記録する又は再生する撮像装置を提供することができる。
【0018】
本発明の意義ないし効果は、以下に示す実施の形態の説明により更に明らかとなろう。ただし、以下の実施の形態は、あくまでも、本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義は、以下の実施の形態に記載されたものに制限されるものではない。
【図面の簡単な説明】
【0019】
【図1】本発明の実施の形態に係る撮像装置の全体構成図である。
【図2】スピーカ音制御部100の処理内容の概要を説明する図である。
【図3】スピーカ音制御部100の内部構成の概略を示すブロック図である。
【図4】方向判定部102が音響信号の到来する方向を算出する方法を説明するための図である。
【図5】音響処理部7が備えるスピーカ音制御部200の内部構成の概略を示すブロック図である。
【図6】第nフレームの音響信号が周期性を有するか否かを判定する方法を説明するための図である。
【図7】第nフレームの音響信号の自己相関値S(P)と変数Pの関係を示す図である。
【発明を実施するための最良の形態】
【0020】
以下、本発明に係る音響信号処理装置を撮像装置に実施した形態につき、図面を参照して説明する。
【0021】
図1は、本発明の実施形態に係る撮像装置の内部構成の概略を示すブロック図である。図1に示すように、撮像装置1は、入射される光学像を電気信号に変換するCCD(Charge Coupled Device)またはCMOS(Complimentary Metal Oxide Semiconductor)センサなどの固体撮像素子から成るイメージセンサ2と、被写体の光学像をイメージセンサ2に結像させるとともに光量などの調整を行うレンズ部3と、を備える。レンズ部3とイメージセンサ2とで撮像部が構成され、この撮像部によってアナログ信号の画像信号が生成される。なお、レンズ部3は、ズームレンズやフォーカスレンズなどの各種レンズ(不図示)や、イメージセンサ2に入力される光量を調整する絞り(不図示)などを備える。
【0022】
さらに、撮像装置1は、イメージセンサ2から出力されるアナログ信号である画像信号をデジタル画像信号(以下、デジタル画像信号を単に画像信号と記載する場合もある。)に変換するとともにゲインの調整を行うAFE(Analog Front End)4と、入力される音を電気信号に変換し集音するマイクロフォン(以下、単にマイクと記載する。)5L及び5Rと、マイク5L及び5Rから出力されるアナログの音響信号をデジタル音響信号(以下、デジタル音響信号を単に音響信号と記載する場合もある。)に変換するADC(Analog to Digital Converter)6L及び6Rと、ADC6L及び6Rから出力される音響信号に対して各種音響信号処理を施して出力する音響処理部7と、AFE4から出力される画像信号に対して各種画像信号処理を施して出力する画像処理部8を備える。
【0023】
ここで、音響処理部7は、マイク5L及び5Rによって集音された音にスピーカから発せられる音(以下、スピーカから発せられる音をスピーカ音と、スピーカ音の音響信号をスピーカ音信号と記載する。)が含まれているか否かを検出し、スピーカ音を検出した場合には当該スピーカ音の音像方向を制御する、或いはマイク5L及び5Rによって集音された音全体の音像方向を制御するスピーカ音制御部を備える。このスピーカ音制御部の詳細については、後述する。
【0024】
また、撮像装置1は、画像処理部8から出力される画像信号と音響処理部7から出力される音響信号とに対してMPEG(Moving Picture Experts Group)圧縮方式などの圧縮符号化処理を施す圧縮処理部9と、圧縮処理部9で圧縮符号化された圧縮符号化信号を記録する外部メモリ11と、圧縮符号化信号を外部メモリ11に記録したり読み出したりするドライバ部10と、ドライバ部10によって外部メモリ11から読み出された圧縮符号化信号を伸長して復号する伸長処理部12と、を備える。
【0025】
また、撮像装置1は、伸長処理部12で復号された画像信号をモニタなどの表示部21で表示可能な形式の信号に変換する画像信号出力部13と、伸長処理部12で復号された音響信号をスピーカ部22で出力可能な形式の信号に変換する音響信号出力部14と、を備える。
【0026】
また、撮像装置1は、撮像装置1内全体の動作を制御するCPU(Central Processing Unit)15と、各処理を行うための各プログラムを記憶するとともにプログラム実行時の信号の一時保管を行うメモリ16と、撮影を開始するボタンや各種設定の決定を行うボタンなどの撮影者からの指示が入力される操作部17と、各部の動作タイミングを一致させるためのタイミング制御信号を出力するタイミングジェネレータ(TG)部18と、CPU15と各部との間で信号のやりとりを行うためのバス19と、メモリ16と各部との間で信号のやりとりを行うためのバス20と、を備える。
【0027】
なお、外部メモリ11は画像信号や音響信号を記録することができればどのようなものでも構わない。例えば、SD(Secure Digital)カードのような半導体メモリ、DVDなどの光ディスク、ハードディスクなどの磁気ディスクなどをこの外部メモリ11として使用することができる。また、外部メモリ11を撮像装置1から着脱自在としても構わない。
【0028】
次に、撮像装置1の基本動作について図1を参照して説明する。まず、撮像装置1は、レンズ部3より入射される光をイメージセンサ2において光電変換することによって、電気信号であるアナログ画像信号を生成する。イメージセンサ2は、TG部18から入力されるタイミング制御信号に同期して、所定のフレーム周期(例えば、1/30秒)で順次AFE4に生成したアナログ画像信号を出力する。そして、AFE4によってアナログ信号からデジタル信号へと変換された画像信号は、画像処理部8に入力される。画像処理部8では、画像信号がYUVを用いた信号に変換されるとともに、階調補正や輪郭強調等の各種画像信号処理が施される。また、メモリ16はフレームメモリとして動作し、画像処理部8が処理を行なう際に画像信号を一時的に保持する。
【0029】
また、マイク5L及び5Rは、音を集音して電気信号であるアナログ音響信号に変換し、出力する。マイク5L及び5Rから出力されるアナログ音響信号はADC6L及び6Rに入力されて、デジタル音響信号へと変換される。さらに、ADC6L及び6Rからの音響信号は音響処理部7に入力され、ノイズ除去やスピーカ音制御部によるスピーカ音制御などの各種音響信号処理が施される。
【0030】
画像処理部8から出力される画像信号と、音響処理部7から出力される音響信号とはともに圧縮処理部9に入力され、圧縮処理部9において所定の圧縮方式で圧縮される。このとき、画像信号と音響信号とは時間的に関連付けられて(対になって)おり、再生時に画像と音とがずれないように構成される。そして、圧縮された画像信号及び音響信号はドライバ部10を介して外部メモリ11に記録される。
【0031】
外部メモリ11に記録された圧縮後の画像信号及び音響信号は、操作部17を介して入力される撮影者の再生指示に基づいて伸長処理部12に読み出される。伸長処理部12は、再生するために読み出される圧縮された画像信号及び音響信号を伸長し、この再生用の画像信号を画像信号出力部13、再生用の音響信号を音響信号出力部14にそれぞれ出力する。そして、画像信号出力部13が、再生用の画像信号を表示部21で表示可能な形式の信号に変換するとともに、音響信号出力部14が、再生用の音響信号をスピーカ部22で出力可能な形式の信号に変換して、それぞれ出力する。これにより、再生用の画像が表示部21で表示され、再生用の音がスピーカ部22から出力される。
【0032】
また、本実施形態の撮像装置1は、撮影した画像の記録を開始する前や、動画の記録時などに、撮影した画像を表示部21に表示する。このとき、画像処理部8は、表示用の画像信号を生成するとともに、バス20を介して画像信号出力部13に出力する。そして、画像信号出力部13が、表示用の画像信号を表示部21で表示可能な形式の信号に変換して、出力する。撮影者は、表示部21に表示される画像を確認することで、これから記録するまたは現在記録している画像の画角を認識することができる。
【0033】
なお、表示部21やスピーカ部22は、撮像装置1と一体となっているものでも構わないし、別体となっており、撮像装置1に備えられる端子とケーブル等を用いて接続されるようなものでも構わない。また、マイク5L及び5Rが、デジタル音響信号を出力するデジタルマイクを備えるものとして、ADC6を備えない構成としても構わない。
【0034】
<<第1実施例>>
以下、撮像装置1の音響処理部7が備えるスピーカ音制御部の第1実施例について説明する。尚、以下の第1実施例の説明では、スピーカ音制御部に番号100を付すこととする。
【0035】
図2は、スピーカ音制御部100の処理内容の概要を説明する図である。図2では、撮影者が、撮像装置1を用いてマイクを持った話し手を撮影している。話し手がマイクに向って声を発すると、その声は、話し手とは異なる位置に配置されたスピーカから発せられることとなる。即ち、図2では、話し手の声を発するスピーカが音源Pである。他方、スピーカ音以外の音を発する音源Qも存在しているものとする。
【0036】
スピーカ音制御部100は、マイク5L及び5Rによって集音された複数の音源(図2では、音源P及び音源Qの2つの音源)からの音を音源毎に分離抽出する。そして、分離抽出された各音源からの音がスピーカ音であるか否かを判定する。スピーカ音と判定した場合には、当該音源からの音像が撮像装置1による撮影方向とほぼ一致するように音像方向の制御を行なう。ここで、撮影方向とは、撮像装置1による撮影の際に、撮像装置1のレンズ部3が向いている方向をいう。図2では、撮影方向にはマイクを持った話し手が存在するものの、音源P(スピーカ)及び音源Qは存在しない。
【0037】
スピーカ音制御部100は、音源P及び音源Qからの音のうち、音源Pからの音がスピーカ音であると判定すると、当該スピーカ音が撮像装置1の撮影方向から到来しているかのように、当該スピーカ音の音響信号に音響信号処理を施す。かかる処理の結果、撮影により取得された画像信号及び音響信号を再生して視聴すると、視聴者は、話し手の声が撮影方向、即ち、話し手の存在する方向から聴こえることになるため、上述した違和感を感じなくなる。
【0038】
図3は、スピーカ音制御部100の内部構成の概略を示すブロック図である。図3において、ADC6L及び6Rから出力される音響信号は、時間領域上の信号であり、或る基準時刻からの経過時間をt(tは整数)とすると、当該音響信号はtの関数として表現できる。以下、ADC6L及び6Rから出力される音響信号をそれぞれ原信号Li(t)及び原信号Ri(t)と記載する。
【0039】
FFT(Fast Fourier Transform)部101L及び101Rぞれぞれは、原信号Li(t)及びRi(t)それぞれに対して離散フーリエ変換を施し、周波数スペクトルを生成する。FFT部101L及び101Rそれぞれから出力される周波数スペクトルは、ADC6L及び6Rそれぞれから時間領域上の信号として出力される音響信号を周波数領域上の信号に変換したものである。従って、当該周波数スペクトルは、周波数f(fは正の整数)の関数として表現できる。以下、FFT部101L及び101Rから出力される周波数スペクトルを、それぞれ周波数スペクトルL(f)及びR(f)と記載する。
【0040】
本実施形態にかかる撮像装置1では、ADC6L及び6Rそれぞれがアナログ音響信号を、例えば、サンプリング周波数48kHz(キロヘルツ)でデジタル音響信号に変換する。そして、撮像装置1は、生成された音響信号1024サンプル、即ち、約21.3msec(1024×1/48kHz)を1つのフレームとし、このフレーム単位で該音響信号に音響信号処理を施す。
【0041】
FFT部101L及び101Rは、音響信号に対し1フレーム単位で離散フーリエ変換を施す。この際、音響信号の周波数帯域をΔfの標本間隔でM(Mは2以上の整数)個に細分化するとともに、細分化された周波数帯域毎に周波数スペクトルを算出する。以下、細分化された周波数帯域を細分化帯域と記載する。例えば、音響信号の全周波数帯域がΔFであるとすると、細分化帯域の個数Mは、M=ΔF/Δfとなる。ここで、理想的には、標本間隔Δfを狭くすることにより、細分化帯域のそれぞれが1つの音源からの音響信号の成分しか含まないようにすることができる。即ち、各細分化帯域に含まれる音響信号は、複数ある音源のうちのいずれか一つの音源から発せられた音の音響信号の成分であると考えることができる。
【0042】
複数の細分化帯域をそれぞれ、f0,f1,f2,・・・,fm-1(mは1以上の整数)とすると、周波数スペクトルL(f)及びR(f)は、細分化帯域f0,f1,f2,・・・,fm-1(mは1以上の整数)の周波数スペクトルから構成されることになる。以下、周波数スペクトルL(f)及びR(f)を構成する細分化帯域の周波数スペクトルを、それぞれL(f0),L(f1),L(f2),・・・L(fm-1)、及びR(f0),R(f1),R(f2),・・・R(fm-1)と記載する。
【0043】
方向判定部102は、FFT部101L及び101Rそれぞれから出力される各細分化帯域の周波数スペクトルから、各細分化帯域に含まれる音響信号がマイク5L及び5Rへ到達した時の位相差を算出し、この位相差に基づいて各細分化帯域に含まれる音響信号の到来方向を判定する。
【0044】
図4は、方向判定部102が音響信号の到来する方向を算出する方法を説明するための図である。今、互いに直行するX軸及びY軸を座標軸とする2次元の座標面を想定する。X軸とY軸は原点Oで直交する。原点Oを基準としてX軸正方向を右側、負方向を左側、Y軸正方向を前方、負方向を後方とする。マイク5L及び5RがそれぞれX軸上の互いに異なる位置であって、Y軸を基準に対称となるように配置され、2つのマイクの間隔がDであるとする。間隔Dは、例えば数mm程度である。
【0045】
今、例えば、f0Hzの細分化帯域に含まれる音響信号が音源Pから発せられたものであり、当該音響信号が原点Oへ到来する時の入射角を原点を中心に反時計周りを正としてθ(rad)(ラジアン)であるとする。このときマイク5L及び5Rへの入射角もθ(rad)と近似することができる。当該音響信号がマイク5L及び5Rに到達する際の位相差をΔφ(rad)とすると、Δφは、FFT部101L及び101Rそれぞれから出力される周波数スペクトルL(f0)及びR(f0)から算出することができる。
【0046】
具体的には、離散フーリエ変換によって算出された周波数スペクトルL(f0)の実部をL_r(f0)、虚部をL_i(f0)とするとL(f0)の位相φlは
【0047】
【数1】

【0048】
と算出することができる。
【0049】
同様に、周波数スペクトルR(f0)の実部をR_r(f0)、虚部をR_i(f0)とするとR(f0)の位相φrは、
【0050】
【数2】

【0051】
と算出することができる。
【0052】
ここで、位相差Δφは、Δφ=φr-φlと算出できるため、下記式(1)により算出することができる。
【0053】
【数3】

【0054】
また、音速をC(mm/sec)、マイク5Lと5Rとの間隔をD(mm)とすると、Δφは下記式(2)からも算出することができる。
【0055】
【数4】

【0056】
よって、上記式(1)と(2)より入射角θは、下記式(3)から算出することができる。
【0057】
【数5】

【0058】
以上より、細分化帯域f0Hzに含まれる音響信号が到来する方向である、入射角θを算出することができる。このようにして方向判定部102は、全ての細分化帯域に含まれる音響信号の入射角を算出する。以下、細分化帯域に含まれる音響信号の入射角を単に細分化帯域の入射角と記載する。
【0059】
本実施例では、方向判定部102は、周波数スペクトルL(f)の細分化帯域の周波数スペクトルと当該細分化帯域の入射角とを一組として全ての組をスピーカ音判定部103へ出力する。尚、周波数スペクトルR(f)の細分化帯域の周波数スペクトルと当該細分化帯域の入射角とを一組として出力してもかまわない。
【0060】
例えば、細分化帯域f0、f1、f2、f3、f4、f5、f6、f7、f8、及びf9の入射角がそれぞれθ0、θ1、θ0、θ0、θ1、θ1、θ1、θ2、θ2、及びθ2(rad)であるとすると、方向判定部102は、(L(f0),θ0)、(L(f1),θ1)、(L(f2),θ0)、(L(f3),θ0)、(L(f4),θ1)、(L(f5),θ1)、(L(f6),θ1)、(L(f7),θ2)、(L(f8),θ2)、(L(f9),θ2)をスピーカ音判定部103へ出力する。
【0061】
スピーカ音判定部103は、方向判定部102から出力される細分化帯域の周波数スペクトルと当該細分化帯域の入射角の組から、入射角毎に細分化帯域の周波数スペクトルを抽出するとともにこれらを合成し、合成周波数スペクトルを生成する。即ち、音響信号の到来方向毎の合成周波数スペクトルを生成する。以下、入射角θから到来する細分化帯域の周波数スペクトルを合成して生成した合成周波数スペクトルをL(θ)と記載する。
【0062】
例えば、スピーカ音判定部103は、方向判定部102から、(L(f0),θ0)、(L(f1),θ1)、(L(f2),θ0)、(L(f3),θ0)、(L(f4),θ1)、(L(f5),θ1)、(L(f6),θ1)、(L(f7),θ2)、(L(f8),θ2)、(L(f9),θ2)を取得すると、入射角θ0の細分化帯域の周波数スペクトルL(f0)、L(f2)、L(f3)を抽出し、これらを合成し、合成周波数スペクトルL(θ0)を生成する。
【0063】
同様に、L(f1)、L(f4)、L(f5)、L(f6)を抽出して合成し、入射角θ1からの合成周波数スペクトルL(θ1)とする。また、L(f7)、L(f8)、L(f9)を抽出して合成し、入射角θ2からの合成周波数スペクトルL(θ2)とする。
【0064】
スピーカ音判定部103は、このようにして算出した各到来方向の合成周波数スペクトルの特性から、各到来方向からのデジタル音響信号がスピーカ音信号であるか否かを判定する。
【0065】
一般的に、講習会や運動会といったイベントで使用されるスピーカが再生できる音響信号の周波数帯域は、300Hz〜6kHz程度の範囲であることが多い。従って、各到来方向の音響信号の周波数スペクトルが概ね300Hz〜6kHz程度の範囲に収まっていれば、スピーカ音の可能性が高いと判断する。
【0066】
また、人の声の周波数スペクトルは概ね100Hz〜4kHz程度の範囲にスペクトルが集中している。そして、有声音は、比較的低周波数帯域にピッチ周波数が存在するとともに、その倍音成分から成る調波構造を有している。ここで、ピッチ周波数とは、声帯振動により発せられる人の声の基本周波数であり、通常、100Hz〜300Hz程度の範囲に存在する。従って、ピッチ周波数をfpとすると、人の声の周波数スペクトルは、fp、2fp、3fp、・・・nfpHz(nは正の整数)で極大値を取る特性を示す。
【0067】
一方、上記したように講習会や運動会といったイベントで使用されるスピーカの再生可能な周波数帯域が300Hz〜6kHz程度であるから、スピーカ音に人の声が含まれている場合には、その周波数スペクトルはピッチ周波数のスペクトルを含まず、かつ、調波構造を有する周波数特性を示すこととなる。
【0068】
スピーカ音判定部103は、例えば、合成周波数スペクトルに対し自己相関を施し、ピッチ周波数のスペクトルを含むか否か、及び調波構造を備えるか否かを判定することにより、合成周波数スペクトルが人の声のスピーカ音信号によるものを含むか否かを判定する。
【0069】
具体的には、スピーカ音判定部103は、まず、合成周波数スペクトルL(θ)に対して自己相関を施し、複数の極大値を検出する。合成周波数スペクトルL(θ)に、100Hz〜300Hz程度の範囲のスペクトルが含まれず、極大値を取る周波数が、例えば、fm1=300Hz,fm2=450Hz、fm3=600Hz・・・であったとする。
【0070】
ここで、極大値を取る最初の周波数fm1がピッチ周波数fpの2倍の周波数、即ち、300Hz=2fpであると仮定すると、ピッチ周波数fpはfp=150Hzとなる。さらに、合成周波数スペクトルL(θ)が、ピッチ周波数fp=150Hzの音声信号の周波数スペクトルを含むのであれば、L(θ)は2fp=300Hz、3fp=450Hz、4fp=600Hzで極大値を取るはずである。
【0071】
今、fm1=2fp、fm2=3fp、fm3=4fpという関係を満たしていることから、この場合、スピーカ音判定部103は、L(θ)は、ピッチ周波数が150Hzである音声信号のスピーカ音信号の周波数スペクトルを含むと判断する。
【0072】
このようにして、スピーカ音判定部103は、すべての合成周波数スペクトルL(θ)に対して、それらが音声信号のスピーカ音信号の周波数スペクトルを含むか否かを判定する。
【0073】
本実施例では、到来方向毎の音響信号の周波数帯域が、講習会や運動会といったイベントで使用されるスピーカ音の再生可能帯域(300Hz〜6kHz程度の範囲)に含まれており、かつ、音声信号が含まれている場合に、スピーカ音信号であると判定し、それ以外の場合は、たとえ、周波数帯域が300Hz〜6kHzであったとしてもスピーカ音信号とは判断しないこととする。これにより、人の声を含むスピーカ音を精度よく検出して音像方向の制御を行なうことができる。
【0074】
スピーカ音判定部103は、スピーカ音信号を含む細分化帯域の周波数をゲイン調整部104へ通知する。
【0075】
ゲイン調整部104は、スピーカ音判定部103から通知されたスピーカ音信号を含む細分化帯域の周波数に対応する周波数スペクトルをL(f)とR(f)で等しいレベルとなるように調整する。
【0076】
具体的には、例えば、細分化帯域f0Hzがスピーカ音信号を含むと通知された場合、L(f0)=VL、R(f0)=VRであって、VL>VRであったとすると、ゲイン調整部104は、L(f0)=VL、R(f0)=VLとなるようにゲインを調整する。すなわち、L(f0)及びR(f0)の周波数スペクトルのレベルを両者のうちのレベルが高い方に一致させるように調整する。
【0077】
IFFT(Inverse Fast Fourier Transform)部105L及び105Rは、それぞれゲイン調整後の周波数スペクトルL(f)及びR(f)に対し逆フーリエ変換を行い、時間領域上の信号に変換し、それぞれLo(t)及びRo(t)として出力する。
【0078】
以上説明したように、本実施例に係るスピーカ音制御部100は、複数の音源から到来する音の中に人の声のスピーカ音が含まれているか否かを検出する。人の声のスピーカ音を検出した場合には、当該スピーカ音に対してのみ、その音像が撮像装置1による撮影方向とほぼ一致するように制御する。
【0079】
<<第2実施例>>
以下、撮像装置1の音響処理部7が備えるスピーカ音制御部の第2実施例について説明する。尚、以下の第2実施例の説明では、スピーカ音制御部に番号200を付すこととする。
【0080】
一般的に、マイクから入力され、増幅器による増幅処理が施された後にスピーカから発せられる人の声は、直接発せられる人の声よりも大きくなる。直接発せられる人の声がスピーカから発せられる人の声よりも大きい場合もあるが、直接発せられる人の声とスピーカから発せられる人の声とでは、同一人物であったとしても、反響が相違する。通常、スピーカから発せられる人の声は、直接発せられる人の声よりも反響が大きくなる。人がマイクを介して声を発する場合、マイクは、当該人が直接発する声に加えてスピーカから発せられる当該人の声をも集音するため、これら2種類の同一人物の声がスピーカから発せられることになるからである。
【0081】
このようなことから、音量が大きく、かつ、反響が大きい人の声は、人の声のスピーカ音であると考えられる。ここで、反響が大きいとは、一定の周期性があるということである。
【0082】
また、一般的に、音楽による音響信号は広帯域信号であって、かつ、一定の周期性を有している。上記したように、講習会や運動会といったイベントで通常使用されるスピーカについては、再生できる音響信号の周波数帯域が300Hz〜6kHz程度の範囲のものが多い。したがって、音楽による音響信号がこのようなスピーカから発せられる場合には、直接の音楽による音響信号よりも周波数帯域の幅が狭くなるものの、増幅処理が施されているため音量が大きく、かつ、一定の周期性を有することとなる。
【0083】
以上のことから、(A)周波数帯域が300Hz〜6kHz程度の範囲に含まれること、(B)音量が大きいこと、及び(C)一定の周期性を有すること、の要件を全て満たす音響信号は、スピーカ音信号であると判断することができる。換言すると、上記(A)乃至(C)の要件のうちいずれか一つでも満たさない場合には、スピーカ音信号でないと判断することができる。
【0084】
図5は、音響処理部7が備えるスピーカ音制御部200の内部構成の概略を示すブロック図である。スピーカ音判定部201は、ADC6Rから出力されるRi(t)がスピーカ音信号を含んでいるか否かを判断し、スピーカ音信号を含んでいると判断した場合には、後述の切り替え部202へ切り替え信号を出力する。
【0085】
切り替え部202は、スピーカ音判定部201から切り替え信号が出力されると、ADC6L及び6Rそれぞれから出力されるLi(t)及びRi(t)に対してモノラル化処理を施し、Lo(t)及びRo(t)として出力する。ここで、モノラル化処理とは、Lo(t)=Ro(t)とする処理である。スピーカ音判定部201から切り替え信号が出力されない場合は、Li(t)及びRi(t)をそれぞれLo(t)及びRo(t)として出力する。尚、スピーカ音判定部201は、Ri(t)についてスピーカ音信号か否かの判定を行なっているが、Li(t)について判定を行なうこととしてもよい。
【0086】
以下、スピーカ音判定部201の具体的な処理について説明する。
<ステップ1:周波数帯域が300Hz〜6kHz程度の範囲に含まれるか否か>
まず、スピーカ音判定部201は、ADC6Rから出力される音響信号Ri(t)の各フレーム(1024サンプル)に対し、FFTを施し周波数スペクトルを算出する。算出した周波数スペクトルが、周波数帯域300Hz〜6kHz程度の範囲に含まれるか否かを判断する。
<ステップ2:音量が大きいか否か>
次に、スピーカ音判定部201は、音響信号Ri(t)の周波数スペクトルが周波数帯域300Hz〜6kHz程度の範囲に含まれていると判断した場合には、Ri(t)の音響信号のレベル(パワー値)が所定の閾値以上であるかどうかを判断する。
【0087】
具体的には、スピーカ音判定部201は、下記式(4)によりRi(t)について算出した各フレームの音響信号のパワーの平均値PRi(n)が所定の閾値以上かどうかを判定する。ここで、時間領域上で連なるフレームを時刻の早い方から順に、第1、第2、第3・・・第nフレームと記載する。nはフレーム番号を示す正の整数である。
【0088】
【数6】

【0089】
<ステップ3:一定の周期性を有するか否か>
次に、スピーカ音判定部201は、第nフレーム(1024サンプル)の音響信号のパワーの平均値PRi(n)が所定の閾値以上であると判断されると、第nフレームの音響信号が周期性を有するか否かを判定する。
【0090】
図6は、第nフレームの音響信号が周期性を有するか否かを判定する方法を説明するための図である。図6において、第nフレームの音響信号Ri(t)のうち、例えば、t=1〜t0番目のRi(t)を基準ブロックとして用いた上で、自己相関を計算する(t0は2以上の整数)。即ち、t0番目以降のRi(t)に対して、t0個の連続するRi(t)から成る評価ブロックを定義し、評価ブロックの位置を時間方向に順次ずらしながら基準ブロックと評価ブロックとの間の相関を求めていく。図6では、Pがずらし幅、換言すると評価ブロックの位置表わす変数であり、P>t0である。具体的には、下記式(5)に従って自己相関値S(P)を算出する。自己相関値S(P)は、評価ブロックの位置を決める変数Pの関数となる。
【0091】
【数7】

【0092】
図7に、算出された自己相関値S(P)と変数Pの関係を示す。図7において、横軸及び縦軸はそれぞれ変数P及び自己相関値S(P)を表す。図7によると、変数Pの変化に対して自己相関値S(P)が周期的に所定の閾値以上となる極大値を取っている。この場合、スピーカ音判定部201は、第nフレームの音響信号Ri(t)が周期性を有しており、スピーカ音信号を含むと判断し、切り替え部202へ切り替え信号を出力する。尚、上記ステップ1乃至3の実行順序については、変更してもかまわない。
【0093】
切り替え部202は、スピーカ音判定部201から、切り替え信号が出力されると、ステレオ方式からモノラル方式へ切り替える
。即ち、切り替え部202は、Li(t)又はRi(t)いずれか一方の音響信号をLo(t)及びRo(t)として出力する。これにより、集音した音にスピーカ音が含まれる場合には、モノラル方式で記録されることとなる。
【0094】
以上説明したように、本実施例に係るスピーカ音制御部200は、マイク5L及び5Rが集音する音にスピーカ音が含まれているか否かを検出する。スピーカ音を検出した場合には、マイク5L及び5Rによって集音された音全体の音像を撮像装置1による撮影方向とほぼ一致するように制御する。
【0095】
<<変形例1>>
上記実施例1のスピーカ音制御部100と実施例2のスピーカ音制御部200を組み合わせることも可能である。
【0096】
例えば、マイク5L及び5Rによって集音された音に人の声のスピーカ音が含まれる場合には、スピーカ音制御部100によって音像方向の制御を行ない、人の声のスピーカ音が含まれないものの、音楽のスピーカ音が含まれる場合には、スピーカ音制御部200による音像制御をなすように組み合わせることができる。
【0097】
<<変形例2>>
撮像装置1に通常記録モードとスピーカ音制御記録モードの切り替えスイッチを設けることもできる。
【0098】
ユーザが撮像装置1で撮影する際に通常記録モードに設定すると、撮像装置1は、音を記録する際に、スピーカ音制御部100又は200による音像方向の制御を行なわない。一方、スピーカ音制御記録モードに設定すると撮像装置1は、マイク5L及び5Rによって集音された音に対しスピーカ音制御部100又は200による音像方向の制御を行う。
【0099】
かかる撮像装置1によると、ユーザがスピーカ音制御部100又は200による音像方向の制御の要否を自由に決定することができる。
【0100】
<<変形例3>>
上記実施例1及び2では、撮像装置1によって画像及び音を記録する際にスピーカ音制御部100或いは200による音像方向の制御を施す場合について説明したが、例えば、撮像装置1又は再生装置が、外部記録媒体(撮像装置1の場合は外部メモリ11)に記録されている画像信号及び音響信号を再生する場合に、スピーカ音制御部100又は200による音像方向の制御を行なうこととしてもよい。このような撮像装置1又は再生装置によると、撮影の際には、なんら音像方向の制御のための音響信号処理を施していない、いわゆる生の画像信号及び音響信号を取得することができる。従って、撮影者の意図しない音像方向の制御が施されて記録される事態を回避することができる。
【0101】
<<変形例4>>
撮影時に取得した画像信号から人の顔の画像信号を検出する公知の技術(顔画像検出)を利用して、当該画像信号からマイクの画像信号を検出すること(マイク画像検出)が可能である。人の顔の画像信号を検出する公知の技術としては、例えば、特開2007−257358号に記載の技術がある。当該技術において顔の画像信号を検出する際に参照する人の顔に関する重みテーブルをマイクに関する重みテーブルに置き換えることにより、画像信号からマイクの画像信号を検出することが可能である。
【0102】
図1の撮像装置1において、画像処理部8に画像信号から人の顔の画像信号を検出する顔画像検出部とマイクの画像信号を検出するマイク画像検出部を設けることができる。そして、CPU15は、AFE4から出力される画像信号に対し当該顔画像検出部に顔検出処理を行なわせ、人の顔の画像信号が検出された場合には、マイク画像検出部にマイク画像検出処理を行なわせることができる。マイク画像検出部は、人の顔の近辺にマイクがあるかどうかを検出するために、AFE4から出力される画像信号のうち、人の顔の画像信号が検出された領域を含み、当該領域よりも大きい所定領域について、マイクの画像信号の検出を行なう。
【0103】
上記顔画像検出及びマイク画像検出により、AFE4から出力される画像信号中に人の顔及びマイクの画像信号が検出された場合には、撮影領域に人が存在し、さらに当該人がマイクを使用して声を発しているシーンであると判断できる。
【0104】
このような場合に、CPU15は、マイク5L及び5Rが集音する音にはスピーカ音が含まれる可能性があると判断し、スピーカ音制御部100又は200に音像方向の制御を行なわせることができる。一方、CPU15は、AFE4から出力される画像信号中に顔の画像信号が検出されない場合、或いは顔の画像信号は検出されたものの、マイクの画像信号が検出されない場合には、スピーカ音制御部100又は200に音像方向の制御を行なわせない。
【0105】
また、上記顔画像検出処理及びマイク画像検出処理、並びに顔の画像信号とマイクの画像信号が検出された場合のスピーカ音制御部100又は200による音像方向の制御は、外部メモリ11に記録されている画像信号及び音響信号を再生する場合に実行させることとしてもよい。これにより音像方向の制御が必要なシーンを適切に判断し、スピーカ音制御部100又は200による音像方向の制御を施すことが可能となる。
【0106】
<<変形例5>>
上記実施例1及び2では、ステレオ録音ためにLRチャンネル用の2つのマイクを備えた撮像装置1、ステレオ再生を行なうためにLRチャンネル用の2つのスピーカを備えた撮像装置1又は再生装置について説明したが、マイク及びスピーカの数や音響信号の録音及び再生方式はこれらに限られるものではない。例えば、6つのマイク及びスピーカを用いた5.1チャンネルによる録音及び再生方式であっても本発明を実現することができる。
【符号の説明】
【0107】
5L マイクロフォン
5R マイクロフォン
6L ADC
6R ADC
100 スピーカ音制御部
101L FFT部
101R FFT部
102 方向判定部
103 スピーカ音判定部
104 ゲイン調整部
105L IFFT部
105R IFFT部
200 スピーカ音制御部
201 スピーカ音判定部
202 切り替え部



【特許請求の範囲】
【請求項1】
撮影の際に到来する音を集音することにより該音の音響信号を取得する集音手段と、
前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、
前記スピーカ音信号が検出された場合、該スピーカ音信号の音像方向が撮影方向と一致するように、前記音響信号に音響信号処理を施す音像方向制御手段と、
前記音響信号処理を施された前記音響信号を記録する音響信号記録手段と、
を備えたことを特徴とする音響信号処理装置。
【請求項2】
撮影の際に到来する音を集音することにより該音の音響信号を取得する集音手段と、
前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、
前記スピーカ音信号が検出された場合、前記音響信号の音像方向が撮影方向と一致するように、前記音響信号に音響信号処理を施す音像方向制御手段と、
前記音響信号処理を施された前記音響信号を記録する音響信号記録手段と、
を備えたことを特徴とする音響信号処理装置。
【請求項3】
請求項1又は2に記載の音響信号処理装置を備え、
撮影対象を撮影することにより該撮影対象の画像信号を取得する撮像手段と、
前記撮像手段により取得された前記画像信号を、前記音響信号処理装置が備える音像方向制御手段により音響信号処理が施された音響信号と関連付けて記録する画像信号記録手段と、
をさらに備えたことを特徴とする撮像装置。
【請求項4】
前記画像信号から人物の顔画像信号を検出する顔検出手段と、
前記画像信号からマイクロフォンの画像信号を検出するマイクロフォン検出手段と、を備え、
前記音響信号処理装置が備える前記スピーカ音検出手段は、前記顔検出手段により人物の顔画像信号が検出され、且つ、前記マイクロフォン検出手段によりマイクロフォンの画像信号が検出された場合に、前記音響信号処理装置が備える集音手段によって取得された音響信号からスピーカ音信号を検出することを特徴とする請求項3に記載の撮像装置。
【請求項5】
撮影対象を撮影することにより該撮影対象の画像信号を取得する撮像手段と、
前記撮影の際に到来する音を集音することにより該音の第1音響信号を取得する集音手段と、
前記第1音響信号を前記撮像手段により取得された画像信号と関連付けて記録する第1記録手段と、
前記第1音響信号に基づく第2音響信号を生成するとともに、該第2音響信号を前記撮像手段により取得された画像信号と関連付けて記録する第2記録手段と、
前記第1記録手段と前記第2記録手段とを切り替える切換え手段と、
を備え、
前記第2記録手段は、
前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、
前記スピーカ音信号が検出された場合、該スピーカ音信号の音像方向が撮影方向と一致するように、前記スピーカ音信号に音響信号処理を施すことにより前記第2音響信号を生成する音像方向制御手段と、
を備えたことを特徴とする撮像装置。
【請求項6】
撮影対象を撮影することにより該撮影対象の画像信号を取得する撮像手段と、
前記撮影の際に到来する音を集音することにより該音の第1音響信号を取得する集音手段と、
前記第1音響信号を前記撮像手段により取得された画像信号と関連付けて記録する第1記録手段と、
前記第1音響信号に基づく第2音響信号を生成するとともに、該第2音響信号を前記撮像手段により取得された画像信号と関連付けて記録する第2記録手段と、
前記第1記録手段と前記第2記録手段とを切り替える切換え手段と、
を備え、
前記第2記録手段は、
前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、
前記スピーカ音信号が検出された場合、前記音響信号の音像方向が撮影方向と一致するように、前記音響信号に音響信号処理を施すことにより前記第2音響信号を生成する音像方向制御手段と、
を備えたことを特徴とする撮像装置。
【請求項7】
撮影手段による撮影により取得された画像信号と集音手段により取得された前記撮影の際に到来する音の音響信号とが互いに関連づけて記録されている記録手段から、前記音響信号を取得する取得手段と、
前記取得手段によって取得された前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、
前記スピーカ音信号が検出された場合、前記スピーカ音信号の音像方向が前記撮影手段による撮影方向と一致するように、前記音響信号に音響信号処理を施す音像方向制御手段と、
前記音響信号処理を施された前記音響信号を再生する再生手段と、
を備えたことを特徴とする音響信号処理装置。
【請求項8】
撮影手段による撮影により取得された画像信号と集音手段により取得された前記撮影の際に到来する音の音響信号とが互いに関連づけて記録されている記録手段から、前記音響信号を取得する取得手段と、
前記取得手段によって取得された前記音響信号からスピーカ音信号を検出するスピーカ音検出手段と、
前記スピーカ音信号が検出された場合、前記音響信号の音像方向が前記撮影手段による撮影方向と一致するように、前記音響信号に音響信号処理を施す音像方向制御手段と、
前記音響信号処理を施された前記音響信号を再生する再生手段と、
を備えたことを特徴とする音響信号処理装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−35708(P2011−35708A)
【公開日】平成23年2月17日(2011.2.17)
【国際特許分類】
【出願番号】特願2009−180616(P2009−180616)
【出願日】平成21年8月3日(2009.8.3)
【出願人】(000001889)三洋電機株式会社 (18,308)
【Fターム(参考)】