説明

音源方向推定方法、音源方向推定装置、及び、音源推定用画像の作成装置

【課題】反射音の大きい場であっても直接音の音源方向を容易にかつ精度よく推定できるとともに、衝撃音についても的確に抽出できる方法とその装置を提供する。
【解決手段】互いに交わる2つの直線上に配置された第1及び第2のマイクロフォン対(M1,M3)及び(M2,M4)を用いて採取した音圧信号からマイクロフォンM1,M3間の音の到達時間差D13とマイクロフォンM2,M4間の音の到達時間差D24とを算出して音源方向を推定する際に、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換をN回行うとともに、M1,M3間及びM2,M4間のクロススペクトルpn13,pn24とその振幅値wn13,wn24とを求め、これらクロススペクトルpn13,pn24を振幅値wn13,wn24により加重平均して得られた加重平均クロススペクトルP13,P24から到達時間差D13,D24を算出するようにした。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のマイクロフォンで採取した音の情報から音源方向を推定する方法とその装置、及び、マイクロフォンで採取した音の情報と撮影手段で撮影した映像の情報とを用いて、音源を推定するための画像を作成する装置に関するものである。
【背景技術】
【0002】
従来、音の到来方向である音源方向を推定する方法としては、多数のマイクロフォンを等間隔に配置したマイクロフォンアレーを構成し、基準となるマイクロフォンで採取された音圧信号と各マイクロフォンで採取された音圧信号との位相差から音源方向を推定する、いわゆる音響学的手法が考案されている(例えば、非特許文献1参照)。
一方、マイクロフォンアレーを構成する複数のマイクロフォンの出力信号の位相差からではなく、複数のマイクロフォンにより互いに交わる直線状に配置された複数のマイクロフォン対を構成し、対となる2つのマイクロフォン間の位相差に相当する到達時間差と、他の対となる2つのマイクロフォン間の到達時間差との比から音源の方向を推定する方法が提案されている(例えば、特許文献1〜3参照)。
【0003】
具体的には、図6に示すように、4個のマイクロフォンM1〜M4を、互いに直交する2直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3)及びマイクロフォン対(M2,M4)を構成するように配置し、前記マイクロフォン対(M1,M3)を構成するマイクロフォンM1,M3に入力する音の到達時間差D13と、前記マイクロフォン対(M2,M4)を構成するマイクロフォンM2,M4に入力する音の到達時間差D24との比から、計測点と音源の位置との水平角θを推定するとともに、前記マイクロフォンM1〜M4の作る平面上にない位置に第5のマイクロフォンM5を配置して4組のマイクロフォン対(M5, M1),(M5, M2),(M5, M3),(M5, M4)を構成し、前記各マイクロフォン対を構成するマイクロフォンで採取した音の到達時間差D13,D24及びD5j(j=1〜4)から、計測点と音源の位置との成す仰角φを推定する。
なお、前記到達時間差Dijは、2つのマイクロフォン対(M,M)に入力される信号をA/D変換した音圧波形データをそれぞれ高速フーリエ変換し、この高速フーリエ変換された音圧波形データのクロススペクトルを求め、更に、対象とする周波数fの位相角情報を用いて算出される。
また、計測点から測った音源方向は、前記水平角θと前記仰角φとにより表わせる。
【0004】
これにより、マイクロフォンアレーを用いて音源方向を推定する場合に比較して、少ないマイクロフォン数で音源方向を正確に推定することができる。
また、このとき、CCDカメラ等の映像採取手段を設けて前記推定された音源方向の画像を撮影し、この画像データと音源方向のデータとを合成して、画像中に前記推定した音源方向(θ,φ)と音圧レベルとを図形で表示した音源推定用画像をディスプレイ等の表示画面に表示するようにすれば、音源を視覚的に把握することができる。
また、音の採取と同時に映像採取手段にて映像を連続的に撮影し、音の情報である音圧波形データと映像の情報である画像データとをコンピュータのハードディスクに保存しておき、音の情報と映像の情報との採取後に、ハードディスクから音圧波形データを取出して音源方向を推定するとともに、この音源方向の推定計算に使用した音圧波形データに対応する画像データをハードディスクから取出し、この画像データと音源方向のデータとを合成して音源推定用画像を表示する方法も行われている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−181913号公報
【特許文献2】特開2006−324895号公報
【特許文献3】特開2008−224259号公報
【非特許文献】
【0006】
【非特許文献1】大賀寿郎,山崎芳男,金田豊;音響システムとディジタル処理,コロナ社,1995
【発明の概要】
【発明が解決しようとする課題】
【0007】
前記従来の方法では、音源の方向と到来した音の大きさを周波数毎に計測できるので、音源の情報を確実に把握することができるものの、反射音の大きい場においては、直接音と反射音とを区別するための演算処理が必要であった。
また、音源方向の解析区間が0.1〜1.0sec.と長いため、周期の短い衝撃音を的確に捉えることが困難であった。
【0008】
本発明は、従来の問題点に鑑みてなされたもので、反射音の大きい場であっても直接音の音源方向を容易にかつ精度よく推定することができるとともに、衝撃音についても的確に抽出することのできる方法とその装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本願発明者らは、鋭意検討の結果、クロススペクトルを求める際に、解析区間の長さ(入力信号に掛けられる窓関数の窓の幅)を短くして周波数分解能を低くした極短時間高速フーリエ変換を多数回行ってそれぞれクロススペクトルを求め、これら求められた多数回のクロススペクトルを加重平均した加重平均クロススペクトルから重心的な位相差(到達時間差)を算出するようにすれば、直接音の音源方向を精度良く推定することができることを見出し、本発明に到ったものである。
すなわち、本願の請求項1に記載の発明は、複数のマイクロフォンで採取した音の音圧信号から音源の方向を推定する方法であって、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対を用いて到来した音の音圧信号を採取するステップと、前記第1のマイクロフォン対を構成するマイクロフォンM1,M3で採取された音圧信号と第2のマイクロフォン対を構成するマイクロフォンM2,M4で採取された音圧信号とをそれぞれA/D変換して前記4つのマイクロフォンM1〜M4で採取された音の音圧波形データをそれぞれ求めるステップと、前記各音圧波形データを高速フーリエ変換するステップと、前記高速フーリエ変換された前記マイクロフォンM1,M3の音圧波形データのクロススペクトルと前記マイクロフォンM2,M4の音圧波形データのクロススペクトルとを求めてマイクロフォンM1,M3間の音の到達時間差D13と前記マイクロフォンM2,M4間の音の到達時間差D24をそれぞれ算出するステップと、前記算出された第1のマイクロフォン対における到達時間差D13と第2のマイクロフォン対における到達時間差D24とから前記到来した音の音源方向を推定するステップと、を備え、前記高速フーリエ変換するステップでは、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、前記到達時間差を算出するステップは、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるステップと、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求めるステップと、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24を算出するステップと、を備えることを特徴とする。
このように、極短時間解析を多数回行い、これら多数回のクロススペクトルの平均を振幅値による加重平均により求めて到達時間差を算出することにより、反射音やノイズ成分を低減するようにしたので、反射が大きい場においても、衝撃音などの直接音を確実に捉えることができるとともに、連続音についても音源方向を精度よく推定することができる。
【0010】
請求項2に記載の発明は、請求項1に記載の音源方向推定方法であって、前記4つのマイクロフォンM1〜M4に加えて、前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンM5を設けて到来した音の音圧信号を採取するとともに、前記到達時間差を算出するステップは、前記2組のマイクロフォン対を構成するマイクロフォンM1,M3間及びマイクロフォンM2,M4間の到達時間差D13,D24と、前記第5のマイクロフォンM5と前記4つのマイクロフォンM1〜M4のそれぞれとで構成される4組のマイクロフォン対を構成するマイクロフォン間の到達時間差D51〜D54を算出し、前記音源方向を推定するステップでは、前記算出された到達時間差D13,D24,D51〜D54を用いて前記到来した音の音源方向を推定することを特徴とする。
これにより、計測点から見た音源方向の水平角θに加えて、仰角φについても推定できるので、音源方向の推定精度を向上させることができる。
【0011】
請求項3に記載の発明は、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対と前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを有する音採取手段を備え、前記音採取手段で採取した音の音圧信号から、音源の方向を推定する音源方向推定装置であって、前記各マイクロフォンで採取した音圧信号をそれぞれデジタル信号に変換するA/D変換器と、前記デジタル信号に変換された音圧信号である音圧波形データを高速フーリエ変換する高速フーリエ変換器と、
前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段とを備え、前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする。
このような構成を採ることにより、短時間高速フーリエ変換した音圧波形データの加重平均クロススペクトルを確実に求めることができるので、直接音の音源方向を精度良く推定することができる音源方向推定装置を得ることができる。
【0012】
また、請求項4に記載の発明は、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対と前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを備えた音採取手段と音源方向の映像を撮影する撮影手段とを備え、前記音採取手段で採取した音源から伝播される音の音圧信号と前記音圧信号と前記撮影手段で撮影された音源の方向の映像信号とから、音源の方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像の作成装置であって、前記各マイクロフォンで採取した音圧信号と撮影手段で撮影した映像信号とをそれぞれデジタル信号に変換するA/D変換器と、前記デジタル信号に変換された音圧信号である音圧波形データをそれぞれ高速フーリエ変換する高速フーリエ変換器と、前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段と、前記推定された音源方向のデータと前記デジタル信号に変換された映像信号である画像データとを合成して、前記推定された音源方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像作成手段とを備え、前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする。
このような構成を採ることにより、直接音の音源方向を精度良く推定することができるとともに、音源を推定するための音源推定用画像を容易に作成することができる。
また、請求項5に記載の発明は、請求項4に記載の音源推定用画像の作成装置において、前記作成された音源推定用画像を表示する表示画面を有する表示手段を備えたことを特徴とする。
これにより、表示手段の表示画面状に音源推定用画像を表示できるので、作業者が音源を容易に視認することができる。
【0013】
なお、前記発明の概要は、本発明の必要な全ての特徴を列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となり得る。
【図面の簡単な説明】
【0014】
【図1】本発明の実施の形態に係る音源推定用画像表示システムの構成を示す機能ブロック図である。
【図2】本実施の形態に係る音源推定用画像表示システムを用いた音源推定用画像の表示方法を示すフローチャートである。
【図3】極短時間高速フーリエ変換を説明するための図である。
【図4】本発明による音源推定用画像の一例を示す図である。
【図5】従来の音源推定用画像の一例を示す図である。
【図6】従来のマイクロフォン対を用いた音源探査方法におけるマイクロフォンの配列を示す図である。
【発明を実施するための形態】
【0015】
以下、実施の形態を通じて本発明を詳説するが、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また、実施の形態の中で説明される特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0016】
図1は音源推定用画像表示システムの構成を示す機能ブロック図である。
音源推定用画像表示システムは、音・映像採取ユニット10とデータ処理装置20と演算置30と表示装置40と記憶装置50とを備える。
データ処理装置20は、増幅器21と、A/D変換器22と、映像入出力手段23とを備える。
演算装置30は、バッファ31と、音圧波形データ抽出手段32と、クロススペクトル演算手段33と、到達時間差算出手段34と、音源方向推定手段35と、画像データ抽出手段36と、音源推定用画像作成手段37とを備える。この演算装置30は、例えば、パーソナルコンピュータのソフトウェアにより構成される。
表示装置40は、後述する音源位置を推定するための画像である音源位置推定画像を表示する表示画面40Mを備える。
記憶装置50は、例えば、パーソナルコンピュータのハードディスクなどから構成されるメモリーである。
【0017】
音・映像採取ユニット10は、音採取手段11と、映像採取手段としてのCCDカメラ(以下、カメラという)12と、マイクロフォン固定部13と、カメラ支持台14と、支柱15と、基台16とを備える。
音採取手段11は複数のマイクロフォンM1〜M5を備える。
マイクロフォンM1〜M5の配置は、図6に示したものと同様で、4個のマイクロフォンM1〜M4を、互いに直交する2直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3)及びマイクロフォン対(M2,M4)を構成するように配置するとともに、第5のマイクロフォンM5を前記マイクロフォンM1〜M4の作る平面上にない位置、詳細には、マイクロフォンM1〜M4の作る正方形を底面とする四角錐の頂点の位置に配置する。これにより、更に4組のマイクロフォン対(M5, M1)〜(M5, M4)が構成される。
本例では、カメラ12の撮影方向を、前記直交する2直線の交点を通り前記2直線とほぼ45°をなす方向に設定している。したがって、音・映像採取ユニット10の向きは、図1の白抜きの矢印Dの方向となる。カメラ12は、音・映像採取ユニット10の向きに応じた映像を採取する。
【0018】
マイクロフォン固定部13にはマイクロフォンM1〜M5が設置され、カメラ支持台14にはカメラ12が設置され、マイクロフォン固定部13とカメラ支持台14とは、3本の支柱15によって連結されている。つまり、音採取手段11とカメラ12とは一体化されている。なお、マイクロフォンM1〜M5は、カメラ12の上部に配置される。
基台16は、回転支柱16aとこの回転支柱16aを回転させる図示しない回転機構を備えた支持台16bとを備えており、カメラ支持台14は回転支柱16a上に搭載されている。したがって、回転支柱16aを回転させることにより、音採取手段11とカメラ12とを一体に回転させることができる。なお、回転機構を省略し、作業者が基台16を回転させることで、音・映像採取ユニット10の向きを変更するようにしてもよい。
マイクロフォンM1〜M5は、図示しない音源から到来する音の音圧信号の大きさである音圧レベルをそれぞれ測定する。
【0019】
増幅器21はローパスフィルタを備え、マイクロフォンM1〜M5で採取した音の音圧信号から高周波ノイズ成分を除去するとともに、前記各音圧信号を増幅してA/D変換器22に出力する。
A/D変換器22は、前記音圧信号をA/D変換した音圧波形データを作成し、これを、バッファ31の音圧波形データ保存領域31aに送る。この音圧波形データ保存領域31aは小領域311〜315に区切られ、各小領域311〜315にそれぞれマイクロフォンM1〜M5の音圧波形データが保存される。
映像入出力手段23は、カメラ12で連続的に撮影された映像信号を入力し、予め設定された画面切換時間Tp(例えば、Tp=1/30秒)毎に撮影方向の画像データをバッファ31の画像データ保存領域31bに送る。
前記所定時間Tp毎に出力される画像データは、表示装置40の表示画面40Mに表示される一つの画面、いわゆる動画の「一コマ」分の画像を構成する画像データである。
【0020】
音圧波形データ抽出手段32は、バッファ31の音圧波形データ保存領域31aから、予め設定された高速フーリエ変換(以下、FFTという)の解析区間の長さTFの音圧波形データを順次取出して、クロススペクトル演算手段33の高速フーリエ変換器331〜335に順次出力する。詳細には、小領域311〜315から取出されたマイクロフォンM1〜M5の音圧波形データは、高速フーリエ変換器33kに出力される。
なお、音圧波形データをA/D変換器22から直接高速フーリエ変換器33kに出力してもよい。また、音圧波形データをA/D変換器22から記憶装置50に保存して、記憶装置50から高速フーリエ変換器33kに出力してもよいが、処理速度を考慮すると、音圧波形データは、A/D変換器22から直接、もしくは、バッファ31を介して高速フーリエ変換器33kに出力することが好ましい。
【0021】
クロススペクトル演算手段33は、高速フーリエ変換器33kと、クロススペクトル演算器33mと、加重平均クロススペクトル生成器33Mとを備える。
高速フーリエ変換器33kは、5台の高速フーリエ変換器331〜335を備え、それぞれ、マイクロフォンMk(k=1〜5)の音圧波形データに対して、解析区間の長さTFが、例えば、2msec.と極端に短い極短時間高速フーリエ変換を予め設定された計測時間Tc内にN回行ない、その結果を、順次、クロススペクトル演算器33mに出力する。
なお、極短時間高速フーリエ変換は、長さが解析区間の長さに等しい窓関数を用いて連続して行うが、本例では、解析区間の長さが短いことから、時間的に前後する解析区間の一部を重複させることが好ましい。
【0022】
クロススペクトル演算器33mは、6台のクロススペクトル演算器33x,33y,33a〜33dを備え、極短時間FFTの処理毎に、高速フーリエ変換器331〜335から出力される予め設定された6組のマイクロフォン対のクロススペクトルpn(f)とその振幅wn(f)とを順次求める(n=1〜N)。
具体的には、クロススペクトル演算器33xは、高速フーリエ変換器331,333から出力されるマイクロフォン対(M1,M3)を構成するマイクロフォンM1,M3の音圧波形データであるXn1(f)とXn3(f)とのクロススペクトルpn13(f)とその振幅wn13(f)とを、極短時間FFTの処理毎に順次求める。
クロススペクトル演算器33yは、高速フーリエ変換器332,334から出力されるマイクロフォン対(M2,M4)を構成するマイクロフォンM2,M4の音圧波形データであるXn2(f)とXn4(f)とのクロススペクトルpn24(f)とその振幅wn24(f)とを求める。
クロススペクトル演算器33a〜33dは、それぞれ、高速フーリエ変換器335から出力されるマイクロフォンM5の音圧波形データであるXn5(f)と高速フーリエ変換器331〜334から出力されるマイクロフォンM1〜M4の音圧波形データであるXni(f)とのクロススペクトルpn5j(f)とその振幅wn5j(f)(j=1〜4)とをそれぞれ求める。
なお、クロススペクトルpn(f)は周波数f毎に演算する。
【0023】
加重平均クロススペクトル生成器33Mは、6台の加重平均クロススペクトル生成器33X,33Y,33A〜33Dを備え、各クロススペクトル演算器33x,33y,33a〜33dでそれぞれ求めたN個のクロススペクトルpn(f)の加重平均クロススペクトルを求める。
加重平均クロススペクトル生成器33Xは、クロススペクトル演算器33xから順次出力されるn=1〜N個のクロススペクトルpn13(f)とその振幅wn13(f)を図示しないメモリーに一時記憶するとともに、クロススペクトルpn13(f)をその振幅wn13(f)によって加重平均して、マイクロフォンM1で採取した音圧信号とマイクロフォンM3で採取した音圧信号との加重平均クロススペクトルP13(f)を求める。
加重平均クロススペクトル生成器33Yは、クロススペクトル演算器33yで求めたクロススペクトルpn24(f)をその振幅wn24(f)とを用いてマイクロフォンM2で採取した音圧信号とマイクロフォンM4で採取した音圧信号との加重平均クロススペクトルP24(f)を求める。
加重平均クロススペクトル生成器33A〜33Dは、クロススペクトル演算器33a〜33dでそれぞれ求めたクロススペクトルpn5j(f)をその振幅wn5j(f)によって加重平均して、マイクロフォンM5で採取した音圧信号とマイクロフォンMjで採取した音圧信号との加重平均クロススペクトルP5j(f)をそれぞれ求める(j=1〜4)。
【0024】
到達時間差算出手段34は、加重平均クロススペクトル生成器33Mで求められた加重平均クロススペクトルPij(f)から、以下の式(1)を用いて各マイクロフォン対(Mi,Mj)を構成するマイクロフォンMi,Mj間の音の到達時間差Dijを算出する。
【数1】

13はマイクロフォン対(M1,M3)を構成するマイクロフォンM1,M3に入力する音の到達時間差、D24はマイクロフォン対(M2,M4)を構成するマイクロフォンM2,M4に入力する音の到達時間差、D5j(j=1〜4)は第5のマイクロフォンM5に入力する音圧信号とマイクロフォンM1〜M4のそれぞれに入力する音圧信号との到達時間差である。
到達時間差Dijは周波数f毎に算出する。
音源方向推定手段35では、前記求められた到達時間差D13,D24及び到達時間差D5j(j=1〜4)から、下記の式(2),(3)を用いて、計測点から見た到来した音の方向である水平角θと仰角φとを算出することで、音源方向を推定する。
【数2】

【0025】
画像データ抽出手段36は、バッファ31の画像データ保存領域31bから、N/2回目極短時間FFTの処理を行った時間、すなわち、前述した計測時間Tcの中心に相当する時間に最も近い時間に撮影した画像データを抽出し、これを音源推定用画像作成手段37に出力する。
音源推定用画像作成手段37は、音源方向推定手段35で推定された水平角θと仰角φのデータと画像データ抽出手段36で抽出された画像データとを合成し、画像中に音源の方向と大きさとを示す図形が描画された音源方向推定画像を作成して表示装置40に出力する。
記憶装置50は、水平角θと仰角φのデータと音源方向推定画像に使用した画像データとを計測時刻とともに記憶する。なお、計測時刻は音源方向推定画像に使用した画像データの撮影時刻である。
【0026】
次に、本例の音源推定用画像表示システムを用いた音源方向の推定方法と、音源推定用画像の表示方法について、図2のフローチャートを参照して説明する。
まず、音・映像採取ユニット10とデータ処理装置20と演算装置30と表示装置40とを接続した後、音・映像採取ユニット10を計測点にセットする(ステップS10)。
作業者は、カメラ12の撮影方向を測定予定場所に向け、表示画面40Mを見てカメラ12が計測予定場所を撮影していることを確認した後、マイクロフォンM1〜M5にて音を採取すると同時に、カメラ12にて計測予定場所の映像を採取する(ステップS11)。
次に、マイクロフォンM1〜M5で採取した音の音圧信号を増幅してA/D変換しこのA/D変換したデジタル信号(以下、音圧波形データという)をバッファ31の音ファイル保存領域31aに保存するととともに、カメラ12の映像信号をA/D変換、このA/D変換したデジタル信号(以下、画像データという)をバッファ31の動画ファイル保存領域31bに保存する(ステップS12)。
【0027】
次に、バッファ31の音圧波形データ保存領域31aから、予め設定された長さTFの音圧波形データを順次取出して極短時間高速フーリエ変換を行い(ステップS13)、しかる後に、これら極短時間高速フーリエ変換した音圧波形データから、予め設定しておいたマイクロフォン対(Mi,Mj)を構成するマイクロフォンMiの音圧波形データとマイクロフォンMjの音圧波形データとを取出してクロススペクトルpnij求めるとともにクロススペクトルの振幅の大きさ(振幅値)wnijを算出する(ステップS14)。なお、pnijは、n回目(n=1〜N)に極短時間高速フーリエ変換したマイクロフォンMiの音圧波形デーとマイクロフォンMjの音圧波形デーとのクロススペクトルである。
クロススペクトルpnijとその振幅値wnijの算出は、解析区間の長さTFとサンプリング周期と応じて決定される周波数帯域毎に行う。本例では、周波数帯域が10〜500Hz,500〜1000Hz,1000〜7500Hzの3つの周波数帯域に分けてそれぞれクロススペクトルpij(f)を求めた。
極短時間高速フーリエ変換は、前述したように、解析区間の長さTFが、例えば、2msec.と極端に短い高速フーリエ変換で、本例では、この極短時間高速フーリエ変換を予め設定された計測時間Tc内に多数回行なう。
具体的には、図3(a)に示すように、従来のFFTの解析区間T0の長さ(約1.0sec.)に対して、本例では、図3(b)に示すように、FFTの解析区間の長さTFを極端に短くするとともに、極短時間高速フーリエ変換を解析区間T0の長さに亘って連続してN回(N≧100)行っている。なお、解析区間の長さTFとしては、0.1msec.〜10msec.の範囲とすることが好ましく、1msec.〜2msec.とすると更に好ましい。
なお、極短時間高速フーリエ変換は、長さが解析区間の長さに等しい窓関数を用いて連続して行ってもよいが、解析区間の長さが短いことから、図3(b)に示すように、時間的に前後する解析区間の一部を重複させて行うことが好ましい。
【0028】
ステップS15では、クロススペクトルの演算が終了したか否かを判定する。
クロススペクトルの演算が終了していない場合には、前記ステップS13に戻って、音圧波形データ保存領域31aから、次に解析する音圧波形データを取出して極短時間高速フーリエ変換を行いクロススペクトルを演算するという操作を繰り返す。クロススペクトルの演算が終了した場合には、ステップS16に進んで、N回の操作で得られたN個のクロススペクトルpn(f)とその振幅wn(n=1〜N)から、加重平均クロススペクトルP(f)を求める。
加重平均クロススペクトルP13(f)は以下の式で表わせる。
13(f)={Σwn13(f)・pn13(f)}/{Σwn13}……Σはn=1〜Nの和。
次に、加重平均クロススペクトルPij(f)から、マイクロフォンMi,Mj間の音の到達時間差Dijを算出し(ステップS17)、これら到達時間差Dijから前述した式(2),(3)を用いて水平角θと仰角φとを算出して、到来した音の音源方向を推定する(ステップS18)。
加重平均クロススペクトルPij(f)は、クロススペクトルpn(f)をその振幅wnで加重平均しているので、直接音よりも振幅が小さくかつ振幅のバラつきの大きな反射音の成分は従来のクロススペクトルPij(f)から求めた反射音の成分よりもかなり小さくなるので、前述の式(1)を用いてマイクロフォンMi,Mj間の音の到達時間差Dijを算出することで、直接音の到達時間差Dijのみを抽出することができる。
また、従来のFFTにおいては、衝撃音が発生した場合には、衝撃音が周期的な音でなくかつ持続時間が短いため、衝撃音の音源を精度よく把握することができなかったが、本例では、極短時間高速フーリエ変換した音圧波形データのクロススペクトルpn(f)をその振幅wnで加重平均しているので、衝撃音の継続時間が短い場合でも、衝撃音を的確に把握することができる。
【0029】
音源方向の推定が終了した後には、音源方向を撮影した画像データと推定された水平角θと仰角φのデータとを合成し、画像中に、例えば、半径が到達音の大きさを示し模様が周波数を示す円などの、音源の方向と音の大きさを示す図形が描画された音源方向推定画像を作成し、これを表示手段40の表示画面40Mに表示する(ステップS18)。
図4は、音源方向推定画像の一例としての車室内における音源方向推定画像を示す図、図5は従来の音源推定方法を用いて作成した音源方向推定画像を示す図で、横軸は水平角θ、縦軸は仰角φである。
図4において、左下がりの斜線を施した円が周波数帯域が10〜500Hzの音源、右下がりの斜線を施した円が周波数帯域が500〜1000Hzの音源、網目を施した円が周波数帯域が1000〜1500Hzの音源である。
一方、図5においては、音源方向を、図3(a)に示す方法で高速フーリエ変換して求めたものである。比較のため、31.5〜500Hzのバンドを全て左下がりの斜線を施した円とし、500〜1000Hzのバンドを全て右下がりの斜線を施した円とし、1000〜7500Hzのバンドを全て網目を施した円とした。
図4と図5とを比較して明らかなように、従来の方法では、反射音が大きいだけなく、直接音も反射音も周波数でばらついているのに対し、本実施の形態の方法では、周波数帯域についての情報については精度が低いものの、反射音もなく、音源の位置のバラツキも少ない。したがって、本実施の形態の方法を用いることにより、反射音の大きい場であっても直接音の音源方向を容易にかつ精度よく推定することができることが確認された。
【0030】
なお、前記実施の形態では、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対で採取した音圧信号から到来した音の音源方向を推定したが、本発明はこれに限るものではなく、従来、マイクロフォンアレーを用いた音源推定方向にも適用可能である。
また、前記例では、N個のクロススペクトルを振幅値により加重平均して加重平均クロススペクトルを求めたが、振幅値の二乗で加重平均してもよい。
また、前記例では、5本のマイクロフォンM1〜M5を用いて、計測点と音源位置とのなす水平角θと仰角φとを推定したが、音源位置が水平角θだけで十分な場合には、マイクロフォンM5を省略して、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3),(M2,M4)のみを用いればよい。
【0031】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は前記実施の形態に記載の範囲には限定されない。前記実施の形態に、多様な変更または改良を加えることが可能であることが当業者にも明らかである。そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲から明らかである。
【産業上の利用可能性】
【0032】
以上説明したように、本発明によれば、反射音がある場合にも直接音の音源方向のみを容易にかつ精度よく推定できるとともに、衝撃音についても的確に抽出できるので、簡単な構成で推定精度の高い音源方向推定装置を提供することができる。
【符号の説明】
【0033】
10 音・映像採取ユニット、11 音採取手段、12 CCDカメラ、
13 マイクロフォン固定部、14 カメラ支持台、15 支柱、16 基台、
20 データ処理装置、21 増幅器、22 A/D変換器、23 映像入出力手段、
30 演算装置、31、バッファ、31a 音データ保存領域、
31b 画像データ保存領域、32 音圧波形データ抽出手段、
33 クロススペクトル演算手段、33k 高速フーリエ変換器、
33m クロススペクトル演算器、33M 加重平均クロススペクトル生成器、
34 到達時間差算出手段、35 音源方向推定手段、36 画像データ抽出手段、
37 音源推定用画像作成手段、
40 表示装置、40M 表示画面、50 記憶装置、
M1〜M5 マイクロフォン。

【特許請求の範囲】
【請求項1】
複数のマイクロフォンで採取した音の音圧信号から音源の方向を推定する方法であって、
互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対を用いて到来した音の音圧信号を採取するステップと、
前記第1のマイクロフォン対を構成するマイクロフォンM1,M3で採取された音圧信号と第2のマイクロフォン対を構成するマイクロフォンM2,M4で採取された音圧信号とをそれぞれA/D変換して前記4つのマイクロフォンM1〜M4で採取された音の音圧波形データをそれぞれ求めるステップと、
前記各音圧波形データを高速フーリエ変換するステップと、
前記高速フーリエ変換された前記マイクロフォンM1,M3の音圧波形データのクロススペクトルと前記マイクロフォンM2,M4の音圧波形データのクロススペクトルとを求めてマイクロフォンM1,M3間の音の到達時間差D13と前記マイクロフォンM2,M4間の音の到達時間差D24をそれぞれ算出するステップと、
前記算出された第1のマイクロフォン対における到達時間差D13と第2のマイクロフォン対における到達時間差D24とから前記到来した音の音源方向を推定するステップと、
を備え、
前記高速フーリエ変換するステップでは、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、
前記到達時間差を算出するステップは、
前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるステップと、
前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求めるステップと、
前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24を算出するステップと、
を備えることを特徴とする音源方向推定方法。
【請求項2】
前記4つのマイクロフォンM1〜M4に加えて、前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンM5を設けて到来した音の音圧信号を採取するとともに、前記到達時間差を算出するステップでは、
前記2組のマイクロフォン対を構成するマイクロフォンM1,M3間及びマイクロフォンM2,M4間の到達時間差D13,D24と、前記第5のマイクロフォンM5と前記4つのマイクロフォンM1〜M4のそれぞれとで構成される4組のマイクロフォン対を構成するマイクロフォン間の到達時間差D51〜D54を算出し、
前記音源方向を推定するステップでは、
前記算出された到達時間差D13,D24,D51〜D54を用いて前記到来した音の音源方向を推定することを特徴とする請求項1に記載の音源方向推定方法。
【請求項3】
互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対と前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを有する音採取手段を備え、前記音採取手段で採取した音の音圧信号から、音源の方向を推定する音源方向推定装置であって、
前記各マイクロフォンで採取した音圧信号をそれぞれデジタル信号に変換するA/D変換器と、
前記デジタル信号に変換された音圧信号である音圧波形データを高速フーリエ変換する高速フーリエ変換器と、
前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、
前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、
前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段とを備え、
前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、
前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、
前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする音源方向推定装置。
【請求項4】
互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対と前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを備えた音採取手段と音源方向の映像を撮影する撮影手段とを備え、前記音採取手段で採取した音源から伝播される音の音圧信号と前記音圧信号と前記撮影手段で撮影された音源の方向の映像信号とから、音源の方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像の作成装置であって、
前記各マイクロフォンで採取した音圧信号と撮影手段で撮影した映像信号とをそれぞれデジタル信号に変換するA/D変換器と、
前記デジタル信号に変換された音圧信号である音圧波形データをそれぞれ高速フーリエ変換する高速フーリエ変換器と、
前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、
前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、
前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段と、
前記推定された音源方向のデータと前記デジタル信号に変換された映像信号である画像データとを合成して、前記推定された音源方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像作成手段とを備え、
前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、
前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、
前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする音源推定用画像の作成装置。
【請求項5】
前記作成された音源推定用画像を表示する表示画面を有する表示手段を備えたことを特徴とする請求項4に記載の音源推定用画像の作成装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−88141(P2013−88141A)
【公開日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願番号】特願2011−226020(P2011−226020)
【出願日】平成23年10月13日(2011.10.13)
【出願人】(000001317)株式会社熊谷組 (551)
【Fターム(参考)】