説明

音源推定方法

【課題】音源の方向が映像採取手段の映像領域を外れている場合でも、音源の位置を容易に推定できる音源推定方法を提供する。
【解決手段】取付台13の三脚13aに設置されたカメラ取付台13bを設置し、このカメラ取付台13bの上部にマイクロフォンM1〜M5を固定したマイク固定台11Dを設置し、カメラ取付台13bに、回転手段14を介して、映像採取手段12を回転可能に取付けて、マイクロフォンM1〜M5の出力する音圧信号を用いて音源方向を推定するとともに、推定された音源方向の水平角θの大きさと映像採取手段12の水平角方向の最大視野θMax及び最小視野θminとを比較し、水平角θの大きさがθMax−γを超えた場合、もしくは、θmin+γよりも小さい場合には、映像採取手段12を回転させて、音源位置を撮影するようにした。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のマイクロフォンで採取した音の情報と、映像採取手段で撮影した映像の情報とを用いて、音源を推定する方法に関するものである。
【背景技術】
【0002】
従来、音の到来方向を推定する方法としては、多数のマイクロフォンを等間隔に配置したマイクロフォンアレーを構築し、基準となるマイクロフォンに対する各マイクロフォンの位相差から音波の到来方向である音源の方向を推定する、いわゆる音響学的手法が考案されている(例えば、非特許文献1参照)。
一方、計測点に配置された複数のマイクロフォンの出力信号の位相差からではなく、複数のマイクロフォンから互いに交わる直線状に配置された複数のマイクロフォン対を構成し、対となる2つのマイクロフォン間の位相差に相当する到達時間差と、他の対となる2つのマイクロフォン間の到達時間差との比から音源の方向を推定する方法が提案されている(例えば、特許文献1〜3参照)。
【0003】
具体的には、図4に示すように、4個のマイクロフォンM1〜M4を、互いに直交する2直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3)及びマイクロフォン対(M2,M4)を構成するように配置し、前記マイクロフォン対(M1,M3)を構成するマイクロフォンM1,M3に入力する音圧信号の到達時間差と、前記マイクロフォン対(M2,M4)を構成するマイクロフォンM2,M4に入力する音圧信号の到達時間差との比から、計測点と音源の位置との水平角θを推定するとともに、第5のマイクロフォンM5を前記マイクロフォンM1〜M4の作る平面上にない位置に配置して、更に4組のマイクロフォン対(M5, M1),(M5, M2),(M5, M3),(M5, M4)を構成し、各マイクロフォン対を構成するマイクロフォン間の到達時間差から、計測点と音源の位置との成す仰角φを推定する。
【0004】
これにより、マイクロフォンアレーを用いて音源方向を推定する場合に比較して、少ないマイクロフォン数で音源の方向を正確に推定することができる。
このとき、CCDカメラ等の映像採取手段により推定された音源の方向の映像を撮影し、この映像のデータと音源の方向のデータとを合成して、映像中に推定した音源の方向と音圧レベルとを図形で表示するようにすれば、音源を視覚的に把握することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−181913号公報
【特許文献2】特開2006−324895号公報
【特許文献3】特開2008−224259号公報
【非特許文献】
【0006】
【非特許文献1】大賀寿郎,山崎芳男,金田豊;音響システムとディジタル処理,コロナ社,1995
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、前記従来の方法では、撮影された映像の画像データと音源の方向のデータとを合成した画像データを作成し、この画像データを表示画面上に表示して音源を推定するようにしているため、カメラの視野が狭い場合には、撮影された映像中に推定された音源方向を表示できない場合があった。
このような場合、従来は、マイクロフォンとカメラとをこの推定された音源方向に向けて回転させた後、音源と推定される方向から伝播される音と前記音源と推定される方向の映像の採取と音源方向の推定とをやり直していたため、作業性が悪かった。
また、360°カメラなどの観測点の周りの360°の映像を採取する映像採取手段を用いれば、観測点の周りの全ての方向の音源を映像中に表示することは可能であるが、この場合には、撮影された画像の歪みが大きいことから、逆に音源の特定が難しくなるといった問題点が生じてしまう。
【0008】
本発明は、従来の問題点に鑑みてなされたもので、音源の方向が映像採取手段の映像領域を外れている場合でも、音源の位置を容易に推定できる音源推定方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
本願発明は、複数のマイクロフォンで採取した音の情報と映像採取手段とにより撮影した映像の情報とを用いて音源を推定する方法であって、複数のマイクロフォンにより、音源と推定される方向から伝播される音の情報を採取するステップと、複数のマイクロフォンで採取した音の音圧信号の位相差から音源の方向(マイクロフォンの中心である観測点と音源の位置との成す水平角θと仰角φ)を推定するステップと、映像採取手段の撮影視野である映像領域と推定された音源の方向とを比較するステップと、推定された音源の方向が映像領域内にある場合に、映像採取手段の位置を動かさずに推定された音源の方向の映像を撮影するステップと、推定された音源の方向が映像領域内にない場合に、推定された音源の方向が映像採取手段の映像領域内に入るように、映像採取手段を回転させて、推定された音源の方向の映像を撮影するステップと、推定された音源の方向のデータと撮影された映像の画像データとを合成して、推定された音源の方向を示す図形が描画された映像を作成するステップと、前記図形が描画された映像から音源を推定するステップとを有することを特徴とする。
これにより、音源方向の水平角θや仰角φが大きな場合でも、再度音の情報の採取と音源方向の推定とを行うことなく、音源推定方向の鮮明な映像を撮影することができる。
【0010】
また、本願発明は、前記複数のマイクロフォンを、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対を構成する第1〜第4のマイクロフォンと、前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとから構成するとともに、前記2組のマイクロフォン対を構成するマイクロフォン間の位相差の比と、前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォンのそれぞれとで構成される4組のマイクロフォン対を構成するマイクロフォン間の位相差とを用いて前記音源方向(水平角θと仰角φ)を推定することを特徴とする。
これにより、音源方向の水平角θや仰角φを、少ないマイクロフォン数で、効率よくかつ正確に推定することができる。
【0011】
なお、前記発明の概要は、本発明の必要な全ての特徴を列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となり得る。
【図面の簡単な説明】
【0012】
【図1】本実施の形態に係る音源推定装置の構成を示す機能ブロック図である。
【図2】映像採取手段で撮影した映像の一例を示す図である。
【図3】本発明による音源推定方法を示すフローチャートである。
【図4】従来の音源推定方法におけるマイクロフォンの配列を示す図である。
【発明を実施するための形態】
【0013】
以下、実施の形態を通じて本発明を詳説するが、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また、実施の形態の中で説明される特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0014】
以下、本発明の実施の形態について、図面に基づき説明する。
図1は本実施の形態に係る音源推定装置10の構成を示す機能ブロック図である。
同図において、11は音圧レベル測定手段、12は映像採取手段、13は取付台、14は回転手段、15は増幅器、16はA/D変換器、17は音源方向推定手段、18は映像入出力手段、19は回転判定手段、20は撮影方向制御手段、21はデータ合成手段、22は音源位置表示手段である。
音圧レベル測定手段11は、5本のマイクロフォンM1〜M5と、これらのマイクロフォンM1〜M5を以下のように配置して固定するマイク固定台11Dとを備える。
マイクロフォンM1〜M5は、図4に示すように、マイクロフォンM1,M3と、マイクロフォンM2,M4とが、互いに直交する2直線(同図のx軸とy軸)上にそれぞれ所定の間隔Lで配置されて、2組のマイクロフォン対(M1,M3)及びマイクロフォン対(M2,M4)を構成するように配置されている。マイクロフォンM5は、マイクロフォンM1〜M4の中心を通る、上記平面に垂直な直線(z軸)上に上記平面からの距離がL/2の位置に配置されている。
【0015】
映像採取手段12は、マイクロフォンM1〜M5が設置された位置(以下、観測点という)を中心にした所定の枠(映像視野)内の映像を採取するもので、CCDカメラ等が用いられる。本例では、前記映像視野を、水平角θ=±60°、仰角φ=±60°とした。すなわち、映像採取手段12の水平方向の映像視野の最大値θMaxは+60°であり、最小値θminは−60°である。前記映像視野が、撮影された映像の映像領域となる。
取付台13は、基台である三脚13aと、この三脚13a上に設置されたカメラ取付台13bと、このカメラ取付台13bに立設されてマイク固定台11Dを下側から支持する4本の支持棒13cとを備えている。
マイクロフォンM1〜M5は、映像採取手段12の上側に、マイク固定台11Dに固定された状態で設置される。
一方、映像採取手段12は、回転手段14を介して、カメラ取付台13bに回転可能に取付けられる。
回転手段14は、例えば、ステッピングモーターなどの、撮影方向制御手段20からの制御信号(ステッピングモーターの場合には、制御パルス信号)により駆動される。
このとき、映像採取手段12の焦点位置が回転手段14の回転軸上にあり、かつ、回転手段14の回転軸とマイクロフォンM1〜M5の中心線とが一致するように、音圧レベル測定手段11と映像採取手段12とを取付台13に取付けることが好ましい。また、本例では、映像採取手段12の初期位置として、図1の一点鎖線Dで示す映像採取手段12のレンズ光軸の方向を、マイクロフォンM3からマイクロフォンM1に向かう方向(図1及び図4のx方向)とした。
【0016】
増幅器15はローパスフィルタを備え、マイクロフォンM1〜M5で採取した各音の音圧信号から高周波ノイズ成分を除去するとともに、各音圧信号をそれぞれ増幅してA/D変換器16に出力する。A/D変換器16は、各音圧信号をA/D変換した音圧波形データを作成し、これを、音源方向推定手段17に出力する。
音源方向推定手段17は、記憶部17aと演算部17bとを備える。記憶部17aは、A/D変換器16でA/D変換された音圧波形データを記憶して保存する。演算部17bは、予め設定した複数の周波数fk(k=1〜n)それぞれについて、上記2組のマイクロフォン対(M1,M3),(M2,M4)における音の到達時間差D13及びD24をそれぞれ求めて、到達時間差の比(D13/D24)から観測点と音源との成す水平角θを周波数fk毎に推定するとともに、到達時間差D13及びD24とマイクロフォンM1〜M4とマイクロフォンM5とのマイクロフォン間の到達時間差D5j(j=1〜4)とから仰角φを推定し、上記水平角θと上記仰角φとを音源方向の座標データ(θ,φ)としてデータ合成手段21に出力するとともに、上記水平角θを回転判定手段19に送る。このとき、音源の音圧レベルのデータと周波数データも同時にデータ合成手段21に送る。なお、音圧データとしては、マイクロフォンM1〜M5の出力電圧の平均値、もしくは、マイクロフォンM5の出力電圧を用いればよい。
水平角θと仰角φの計算方法については後述する。
【0017】
映像入出力手段18は、映像採取手段12で撮影された水平角θが−60°≦θ≦+60°、仰角φが−60°≦φ≦+60°であるような映像領域の画像データをデータ合成手段21に送る。なお、本例では、映像採取手段12をマイクロフォンM1〜M5の下側に配置しているが、マイクロフォンM1〜M4の中心と映像採取手段12の焦点位置との距離は小さいので、撮影される仰角は、音源方向推定手段17で推定された仰角φにほぼ等しい。
回転判定手段19は、音源方向推定手段17で推定された水平角θと映像採取手段12の水平角方向の最大視野θMax及び最小視野θminとを比較し、水平角θの大きさがθMax−γ(γは10°程度)を超えた場合、及び、θmin+γよりも小さい場合には、水平角θを指定回転角Θとして撮影方向制御手段20とデータ合成手段21に出力する。
水平角θの大きさがθmin+γ≦θ≦θMax−γの場合には、指定回転角Θを出力しない。
【0018】
撮影方向制御手段20は、回転判定手段19から指定回転角Θが入力された場合に、回転手段14を制御して、映像採取手段12を指定回転角Θだけ回転させる。
データ合成手段21は、映像入出力手段18から送られてきた画像データに音源方向推定手段17で推定された音源方向の座標(θ,φ)と音圧レベルと周波数とから成る音源情報を示す画像データを付加した画像データを生成する。
音源位置表示手段22は、データ合成手段21から送られてきた画像データを表示画面22mに表示する。
音源情報を示す画像データとしては、図2(a)に示すような、音源の方向を示す座標データ(θ,φ)上に、例えば、座標(θ,φ)を中心とした網目模様の丸印Rなどのような、音源方向を示す図形とすればよい。このとき、各マイクロフォンM1〜M5で採取した音圧信号の大きさを丸の半径により表わせばよい。なお、予め設定した周波数帯域の音源方向を表示する場合や、周波数帯域毎の音源方向を表示する場合には、周波数帯域により丸印Rの色をそれぞれ設定すればよい。
これにより、映像採取手段12により撮影された映像に音源50が映っている場合には、音源50は網目模様の丸印Rがついて撮影される。
なお、水平角θの大きさがθ<θmin+γ、または、θ>θMax−γの場合には、図2(b)に示すように、表示画面22mの中心位置は、(θ=0,φ=0)から(θ=Θ,φ=0)に変更される。
【0019】
水平角θ及び仰角φの計算方法は以下の通りである。
各マイクロフォン対(Mi, Mj)のマイクロフォンMiとマイクロフォンMjとの間の到達時間差をDijとすると、音の入射方向である水平角θと仰角φとは以下の式(1),(2)で表わせるので、各マイクロフォンM1〜M5の出力信号をFFTを用いて周波数分析し、対象となる周波数fにおける各マイクロフォンM,M間の到達時間差Dijを算出することにより、前記水平角θ及び仰角φを求めることができる。
【数1】

すなわち、互いに直交する2直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3)及びマイクロフォン対(M2,M4)を構成するマイクロフォンM1,M3に入力する音圧信号の到達時間差D13と、前記マイクロフォン対(M2,M4)を構成するマイクロフォンM2,M4に入力する音圧信号の到達時間差D24との比から、計測点と音源位置との水平角θを推定し、前記到達時間差D13,D24と、前記第5のマイクロフォンM5と他のマイクロフォンM1〜M4との到達時間差D5j(j=1〜4)とから計測点と音源位置との成す仰角φを推定する。
【0020】
なお、前記到達時間差Dijは、2つのマイクロフォン対(M,M)に入力される信号のクロススペクトルPij(f)を求め、更に、対象とする前記周波数fの位相角情報Ψ(rad)を用いて、以下の式(3)を用いて算出される。
【数2】

水平角θ及び仰角φとは、fを中心周波数とする所定の帯域幅を有する周波数帯域毎に求めることができる。
【0021】
本発明による音源の推定方法について、図3のフローチャートを用いて説明する。
なお、映像採取手段12は、レンズ光軸が初期位置マイクロフォンM1とマイクロフォンM3とを結ぶ線と平行になるようにセットされているものとする。
まず、マイクロフォンM1〜M5にて音の情報を採取するとともに、映像採取手段12により映像の情報を採取する(ステップS10)。そして、この音の情報を増幅器15で増幅した後、A/D変換器16によりA/D変換して、音圧波形データとして音源方向推定手段17の記憶部17aに保存する(ステップS11)。なお、映像の情報は映像入出力手段18に送られる。
次に、音源方向推定手段17の演算部17bにて、記憶手段17aに保存された音圧波形データから各マイクロフォンM1〜M5間の位相差を求め、この求められた位相差から音源方向である水平角θと仰角φとを推定する(ステップS12)。
【0022】
そして、回転判定手段19にて、音源方向推定手段17で推定された水平角θと水平角方向の最大視野θMax及び最小視野θminとを比較する(ステップS13)。水平角θの大きさがθmin+γ≦θ≦θMax−γの場合には、データ合成手段21にて、映像入出力手段18から送られてきた画像データに音源方向推定手段17で推定された音源方向の座標(θ,φ)と音圧レベルと周波数とから成る音源情報を示す画像データを付加した画像データを生成し(ステップS14)、この画像データを音源位置表示手段22の表示画面22mに、中心が座標(θ,φ)で半径が各マイクロフォンで採取した音圧信号の大きさである網目状の丸印Rが映った映像を表示する(ステップS15)。
ステップS13において、水平角θの大きさがθMax−γを超えた場合、もしくは、θmin+γよりも小さい場合には、ステップS16に進んで、水平角θと仰角φとをデータ合成手段21に出力するとともに、水平角θを指定回転角Θとして撮影方向制御手段20に出力して、回転手段14を回転させ、映像採取手段12を指定回転角Θだけ回転させる。
そして、指定回転角Θだけ回転した位置における映像を映像採取手段12にて撮影した後(ステップS17)、この撮影された画像データと音源方向推定手段17で推定された音源方向の座標(θ,φ)と音圧レベルと周波数とから成る音源情報を示す画像データを付加した画像データを生成し(ステップS18)、この画像データを音源位置表示手段22の表示画面22mに網目状の丸印Rが映った映像を表示する(ステップS19)。
【0023】
これにより、音源位置表示手段22の表示画面22mには、常に、音源の推定位置が映った画像を表示することができる。なお、音が聞こえなくなった場合には、そのまま計測を続けてもよいし、回転手段14を逆回転させて、映像採取手段12を初期位置に戻してもよい。また、更に大きな音が発生した場合には、映像採取手段12を回転させて、映像採取手段12のレンズ光軸が新たな音源方向を向くように回転させるようにしてもよいし、そのまま測定中の音の方向を撮影してもよい。
【0024】
このように、本実施の形態では、取付台13の三脚13aに設置されたカメラ取付台13bを設置し、このカメラ取付台13bの上部にマイクロフォンM1〜M5を固定したマイク固定台11Dを設置し、カメラ取付台13bに、回転手段14を介して、映像採取手段12を回転可能に取付けて、マイクロフォンM1〜M5の出力する音圧信号を用いて音源方向を推定するとともに、推定された音源方向の水平角θの大きさと映像採取手段12の水平角方向の最大視野θMax及び最小視野θminとを比較し、水平角θの大きさがθMax−γを超えた場合、もしくは、θmin+γよりも小さい場合には、映像採取手段12を回転させて、音源位置を撮影するようにしたので、音源方向の水平角θや仰角φが大きな場合でも、音の情報の採取と音源方向の推定とを再度行うことなく、音源推定方向の鮮明な映像を撮影することができる。
【0025】
なお、前記実施の形態では、映像採取手段12を水平角方向のみに回転させたが、ステッピングモーターなどの回転手段を追加して、映像採取手段12を水平角方向と仰角方向の両方に回転させてもよい。これにより、音源方向の更に鮮明な映像を撮影することができる。
また、上記例では、音源方向推定手段17で推定された水平角θと映像採取手段12の水平角方向の最大視野θMax及び最小視野θminとを比較する際に、水平角θの大きさとθMax−γ、もしくは、θmin+γとを比較したが、γ=0としてもよい。この場合には、映像採取手段12を回転させる回数は減るが、音源を示す網目状の丸印Rが表示画面22mの端部側に表示されるので、実施の形態よりも音源の推定精度は若干低下する恐れがある。したがって、本実施の形態のようにγを10°程度に設定することが好ましい。
【0026】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は前記実施の形態に記載の範囲には限定されない。前記実施の形態に、多様な変更または改良を加えることが可能であることが当業者にも明らかである。そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲から明らかである。
【産業上の利用可能性】
【0027】
以上説明したように、本発明によれば、音源の方向が表示された鮮明な映像を撮影することのできるので、音源を確実に推定することができる。
【符号の説明】
【0028】
10 音源推定装置、11 音圧レベル測定手段、11D マイク固定台、
12 映像採取手段、13 取付台、14 回転手段、15 増幅器、
16 A/D変換器、17 音源方向推定手段、18 映像入出力手段、
19 回転判定手段、20 撮影方向制御手段、21 データ合成手段、
22 音源位置表示手段、50 音源、M1〜M5 マイクロフォン。

【特許請求の範囲】
【請求項1】
複数のマイクロフォンで採取した音の情報と映像採取手段とにより撮影した映像の情報とを用いて音源を推定する方法であって、
前記複数のマイクロフォンにより、音源と推定される方向から伝播される音の情報を採取するステップと、
前記複数のマイクロフォンで採取した音の音圧信号の位相差から音源の方向を推定するステップと、
前記映像採取手段の撮影視野である映像領域と前記推定された音源の方向とを比較するステップと、
前記推定された音源の方向が前記映像領域内にある場合に、前記映像採取手段の位置を動かさずに前記推定された音源の方向の映像を撮影するステップと、
前記推定された音源の方向が前記映像領域内にない場合に、前記推定された音源の方向が前記映像採取手段の映像領域内に入るように、前記映像採取手段を回転させて、前記推定された音源の方向の映像を撮影するステップと、
前記推定された音源の方向のデータと前記撮影された映像の画像データとを合成して、前記推定された音源の方向を示す図形が描画された映像を作成するステップと、
前記図形が描画された映像から音源を推定するステップとを有することを特徴とする音源推定方法。
【請求項2】
前記複数のマイクロフォンは、
互いに交わる2つの直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対を構成する第1〜第4のマイクロフォンと、前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを有し、
前記2組のマイクロフォン対を構成するマイクロフォン間の位相差の比と、前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォンのそれぞれとで構成される4組のマイクロフォン対を構成するマイクロフォン間の位相差とを用いて前記音源の方向を推定することを特徴とする請求項1に記載の音源推定方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−188025(P2011−188025A)
【公開日】平成23年9月22日(2011.9.22)
【国際特許分類】
【出願番号】特願2010−48102(P2010−48102)
【出願日】平成22年3月4日(2010.3.4)
【出願人】(000213297)中部電力株式会社 (811)
【出願人】(000001317)株式会社熊谷組 (551)
【Fターム(参考)】