反射音情報推定装置、反射音情報推定方法、プログラム
【課題】基準となる反射音に対する他の反射音の相対的な到来時刻差を推定する技術を提供する。
【解決手段】Qを2以上の予め定められた整数として、Q個の反射音(反射音は、所定の周波数帯域に含まれる周波数ごとに空間中の任意の位置と複数のマイクロホンとの間の伝達特性を模擬した関数(伝達特性関数)に複素振幅を乗じて表される)それぞれの複素振幅(到来振幅)を用いて、基準反射音以外の反射音(対象反射音)それぞれについて、基準反射音の到来振幅に対する対象反射音の到来振幅の偏角を周波数で除したものに対する周波数についての相加平均を、基準反射音に対する対象反射音の相対的な到来時刻差とする。
【解決手段】Qを2以上の予め定められた整数として、Q個の反射音(反射音は、所定の周波数帯域に含まれる周波数ごとに空間中の任意の位置と複数のマイクロホンとの間の伝達特性を模擬した関数(伝達特性関数)に複素振幅を乗じて表される)それぞれの複素振幅(到来振幅)を用いて、基準反射音以外の反射音(対象反射音)それぞれについて、基準反射音の到来振幅に対する対象反射音の到来振幅の偏角を周波数で除したものに対する周波数についての相加平均を、基準反射音に対する対象反射音の相対的な到来時刻差とする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、反射音に関する情報、特に基準となる反射音に対する他の反射音の相対的な到来時刻差を推定する技術に関する。
【背景技術】
【0002】
電話や音声会議といった音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。音声通信システムにおいて、反射音に関する情報(到来振幅、到来方向など)を得ることは非常に重要なことである。会議室のような残響環境下において、マイクロホンを通して収音される収音信号の中には発話者のような音源から直接到来する直接音だけではなく、床、壁や天井に反射して到来する反射音が混在する。したがって、このような残響環境下で或る話者の発言を収録すると、直接音から遅延して反射音が混入するため、聞き取りづらくなってしまう。収音信号から各反射音の到来情報を推定して、反射音を除去することができれば、聞き取りやすい音声に回復することができる。ここで、反射音情報を推定する従来研究として、非特許文献1が挙げられる。
【0003】
非特許文献1に開示される技術を実現する機能構成を図1に示す。この技術における処理手順は次のとおりである。
【0004】
1.インパルス音源100から放射された音源信号を4chのマイクロホン110−1,110−2,110−3,110−4を用いて収音する。AD変換部120は、収音されたアナログ信号をデジタル信号x→(t)=[x1(t),x2(t),x3(t),x4(t)]Tへ変換する。ここで、[・]Tは転置を表す。tは離散時間のインデックスを表す。4本のマイクロホンは正四面体の頂点に配置されていることとする。
【0005】
2.インパルス応答算出部130は、デジタル信号x→(t)=[x1(t),x2(t),x3(t),x4(t)]Tを入力とし、各マイクロホンのインパルス応答h→(t)=[h1(t),h2(t),h3(t),h4(t)]Tを算出する。インパルス応答の算出方法には、TSP法やM系列法等があり、いかなる方法を用いてインパルス応答を算出してもよい。
【0006】
3.仮想音源算出部140は、4chのインパルス応答h→(t)=[h1(t),h2(t),h3(t),h4(t)]Tを入力とし、仮想音源情報v→=[v→1,…,v→D]Tを出力する。Dは仮想音源の数を表す。仮想音源とは、各反射音の到来振幅、到来方向、到来時間を表現するために仮想的に存在するとされる音源である。図2を参照して、仮想音源について説明する。図2には、右側の壁で反射した音源信号をマイクロホンで受音する経路が書かれている。右側の壁で反射して到来する音源信号(反射音)は、「仮想音源」と書かれた位置から直接到来する信号と等価である(ただし、壁での反射による減衰や距離減衰の影響は受ける)。
【0007】
この従来技術の詳細について説明する。インパルス応答を近接した4つの受音点(マイクロホンの位置)で測定すると反射音の到来時刻にわずかな差が生じる。インパルス応答の短い区間の相互相関を利用して、各マイクロホンにおける反射音の対応付けを行うことで、図3のように、n番目の反射波に関するそれぞれの受音点での到来時刻t1n,t2n,t3n,t4n(1≦n≦D)が求まる。正四面体マイクロホンアレーの辺の長さをd、音速をcとすると、各仮想音源情報vn→=[Xn,Yn,Zn,Sn]Tが求まる。ここで、Xn,Yn,Znはn番目の仮想音源の位置を表し(式(1)−(3)参照)、これは各反射音の到来方向と到来時間に対応する情報を持つ。また、Snはn番目の仮想音源の強さを表し、4chのインパルスで対応付けされたn番目の反射音の振幅の平均で求まる。
【数1】
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】山崎芳男ら、「近接する4点のインパルス応答により求めたホールの空間情報」、日本音響学会講演論文集、1981年5年、pp.759-760.
【発明の概要】
【発明が解決しようとする課題】
【0009】
従来技術によると、仮想音源情報と呼んでいた反射音の「到来振幅」、「到来方向」、「到来時刻」を推定するためには、インパルス応答をあらかじめ用意することが必要であった。しかし、インパルス応答を用意するためには特殊な信号を用いて観測する必要があるため、あらゆる位置でのインパルス応答が事前に用意されているという条件は現実的ではない。
【0010】
そこで本発明は、特殊な信号を用いることなく、反射音情報、特に基準となる反射音に対する他の反射音の相対的な到来時刻差を推定する技術を提供することを目的とする。
【課題を解決するための手段】
【0011】
反射音を、所定の周波数帯域に含まれる周波数ごとに空間中の任意の位置と複数のマイクロホンとの間の伝達特性を模擬した関数(伝達特性関数)に複素振幅を乗じて表されるとする。Qを2以上の予め定められた整数として、Q個の反射音それぞれの複素振幅(到来振幅)を用いて、基準反射音以外の反射音(対象反射音)それぞれについて、基準反射音の到来振幅に対する対象反射音の到来振幅の偏角を周波数で除したものに対する周波数についての相加平均を、基準反射音に対する対象反射音の相対的な到来時刻差とする。
【0012】
基準反射音として、Q個の反射音の中から各対象反射音に共通の基準反射音を決定してもよいし、対象反射音ごとにQ個の反射音の中から基準反射音を決定してもよい。
【0013】
Q個の反射音の到来振幅はそれぞれ、音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(観測信号)を用いて、qを1以上Q以下の各整数として、各qについて、伝達特性関数に複素振幅を乗じたものをq番目の最小の残差信号(ただし、1番目の最小の残差信号は観測信号とする)から減じて得られるq+1番目の残差信号のパワーが最小になるように当該伝達特性関数および当該複素振幅を推定し、推定された当該複素振幅をq番目の反射音の到来振幅とすることによって得られたものであるとしてもよい。
【0014】
あるいは、Q個の反射音の到来振幅は、相異なるQ個の位置に対応するQ個の反射音を観測信号から減じて得られる残差信号のパワーが最小になるようにQ個の伝達特性関数およびQ個の複素振幅を一括して推定することによって得られたQ個の複素振幅であるとしてもよい。
【発明の効果】
【0015】
本発明に拠ると、基準反射音の到来振幅に対する対象反射音の到来振幅の偏角を周波数で除したものに対する周波数についての相加平均を、基準反射音に対する対象反射音の相対的な到来時刻差とすることから、インパルス応答を求めるために音源信号に特殊な信号を用いることなく、反射音情報(基準反射音に対する他の反射音の相対的な到来時刻差)を推定することが可能である。反射音情報が得られると、従来の音声情報処理技術では実現できなかった音源距離の推定や、音声強調(遠方音の収音や距離別の収音)といった用途に応用できる。
【図面の簡単な説明】
【0016】
【図1】従来技術における反射音情報推定技術の機能構成を示す図。
【図2】仮想音源を説明するための図。
【図3】従来技術における反射音の対応付けを説明するための図。
【図4】第1実施形態に係る反射音情報推定装置の機能構成を示す図。
【図5】第1実施形態に係る反射音情報推定方法の処理手順を示す図。
【図6】2次元マイクロホンアレーの構成例を示す図。
【図7】p番目の点[xp,yp,zp]とm番目の受音点[um,vm,wm]との間の伝達特性を説明するための図。
【図8】図6に示すマイクロホンアレーを用いて観測した或る平面での音圧分布が例えば直接音と反射音1と反射音2との重畳で得られていることを説明するための図。
【図9】本発明の原理を説明するための図。
【図10】実験例においてテンプレート情報作成のための区間座標とマイクロホンアレーとの位置関係を示す図。
【図11】実験結果を示す図。
【図12】実験例により本発明の有効性を説明するための図。
【図13】第2実施形態に係る反射音情報推定方法の処理手順を示す図。
【図14】(a)理想的には、推定到来方向に関する情報だけが抽出されるべきことを説明するための図。(b)実際には、推定到来方向以外の方向に関する情報も混在してしまうことを説明するための図。
【図15】残差信号のパワーを全周波数に亘って総括することにより、推定到来方向以外の方向の影響を減らすことを説明するための図。
【図16】実用レベルの2次元マトリクスマイクロホンアレーを用いた場合における音圧分布とその分解を示す図。
【発明を実施するための形態】
【0017】
《第1実施形態》
本発明は、発話信号のような音源から放射された音声信号(音源信号)を複数のマイクロホンで構成されるマイクロホンアレーで収音した信号(収音信号)から反射音の「到来振幅」と「到来方向」の少なくともいずれか一つを推定する。第1実施形態の機能構成および処理フローを図4と図5に示す。
【0018】
音源200から放射された音源信号をMchのマイクロホン210−1,…,210−Mを用いて収音する(ステップS1)。Mは、4より大きい値が望ましい。AD変換部220が、収音されたアナログ信号をデジタル信号xx→(t)=[xx1(t),…,xxM(t)]Tへ変換する(ステップS2)。ここで、[・]Tは転置を表す。tは離散時間のインデックスを表す。
【0019】
M本のマイクロホンの並べ方は、2次元または3次元的に等間隔で配置することが望ましい。これは、反射音の到来方向とテンプレート(後で説明するが、反射音の伝達特性を模擬したものである)の対応を一意に定めるためである。なお、原理的に、1次元的にマイクロホンを配置しても、あるいは等間隔に配置しなくても、本発明を実施できるが、反射音の伝達特性と反射音の到来方向が一対一の関係とならないため、2次元または3次元的に等間隔で配置することが望ましい。2次元平面上に等間隔にマイクロホンを並べた場合の一例を図6に示す。マイクロホン間隔dは、空間サンプリング定理を満たすように設定されていることが望ましい。空間サンプリング定理を満たす場合、マイクロホン間隔dは、式(4)を満たす数値となる。cは音速であり、fは解析対象とする周波数である。例えば、4kHzの周波数を解析する場合、マイクロホン間隔を4cm程度に設定するのがよい。
【数2】
【0020】
フレーム分割部230は、AD変換部200が出力したデジタル信号xx→(t)=[xx1(t),…,xxM(t)]Tを入力とし、チャネルごとに複数サンプルから成るデジタル信号の組(フレーム)に分割された信号x→(k)=[x1(k),…,xM(k)]Tを出力する(ステップS3)。kはフレーム番号を表すインデックスである。フレーム分割は、各チャネルのデジタル信号xxi(t)(1≦i≦M)ごとにW点分をバッファリングして出力する処理である。Wはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0021】
周波数領域変換部240は、各フレームのデジタル信号x→(k)を入力として、周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する(ステップS4)。この信号X→(ω,k)を観測信号と呼ぶことにする。ここで、ωは離散周波数のインデックスを指し(周波数fと角周波数ωとの間にはω=2πfの関係があるから、周波数のインデックスωをこの角周波数ωと同一視してもかまわない。以下、ωに関して「周波数のインデックス」を単に「周波数」ともいう)、kはフレームのインデックスを指す。周波数領域に変換する方法の一つに、離散フーリエ変換があるが、周波数領域に変換するのであれば、他の方法を用いてもよい。周波数領域の観測信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
【0022】
テンプレート生成部250は、P個のテンプレートSp→(ω)の集合(ただし、計算の都合、ベクトル表記している)であるテンプレート情報S→(ω)=[S1→(ω),…,SP→(ω)](∀ω∈Ω;Ωは周波数のインデックスωの集合)を周波数ωごとに生成する(ステップSp)。この処理は通常、ステップS1−S4の各処理に先立ち実施される。Pはテンプレートの総数を表し、予め2以上の整数値に設定されている。テンプレート総数Pは多ければ多いほど高精度な反射音情報の推定に繋がるが、計算量が多くなるので、例えばP=1000くらいに設定するのが良い。この処理は、マイクロホンで信号を観測する以前にあらかじめ行う処理である。また、マイクロホンの位置(例えばマイクロホンの間隔d)を変更したり、テンプレート総数Pを変更したりしない限り、通常、テンプレートを毎回作り直す必要はない。ここで言う“テンプレート”とは、反射音の到来方向に対応する伝達特性(音響伝播特性)を模擬したものである。p番目(1≦p≦P)のテンプレートSp→(ω)=[Sp1(ω),…,SpM(ω)]T(ω∈Ω)は、予め定められたp番目の点[xp,yp,zp]とM個の受音点(ここで受音点はマイクロホンが配置される位置であり、m番目(1≦m≦M)の受音点を[um,vm,wm]とする)の間の周波数ごとの伝達特性を表す(図7を参照)。p番目のテンプレートSp→(ω)の各要素Spm(ω)の算出式の一例を式(5)に示す。記号iは虚数単位を表す。
【数3】
【0023】
p番目のテンプレートSp→(ω)には方向情報θp→(ω)が対応付けられている。方向情報θp→(ω)は、p番目の点[xp,yp,zp]および受音点[um,vm,wm]の位置座標の基準となる3次元直交座標系の原点からp番目の点[xp,yp,zp]を見た方向であり、例えば(当該3次元直交座標系の原点と共通の原点を持つ)球座標系における二つの偏角(極角θp,polと方位角θp,azi)として表される。つまり、θp→(ω)=[θp,pol(ω),θp,azi(ω)]である。なお、p番目のテンプレートSp→(ω)にp番目の点[xp,yp,zp]が関連付けられていれば方向情報θp→(ω)は位置[xp,yp,zp]から計算可能であるから、p番目のテンプレートSp→(ω)に方向情報θp→(ω)が対応付けられていることは必須要件ではない。なお、3次元直交座標系と球座標系とは相互に転換可能であるから(座標変換)、式(5)の右辺は位置[x,y,z]でなく方向情報θp→(ω)=[θp,pol(ω),θp,azi(ω)]を用いて、例えば式(5a)のように表すこともできる。ここで、dはマイクロホン間隔であり、マイクロホンアレーをΦ行Ξ列(Φ×Ξ=M)の2次元マイクロホンアレーとし、m番目のマイクロホンの位置をφ行ξ列(1≦φ≦Φ,1≦ξ≦Ξ)にあるとする。
【数4】
【0024】
また、第1実施形態のようにテンプレートが方向に対応している場合、P個の点[xp,yp,zp](1≦p≦P)の位置は互いに方向の異なる位置であることが好ましく、例えば各点[xp,yp,zp]が原点から十分に離れた等距離にあるとして、上記原点を中心とする球面上の異なるP個の点とすればよい。各点[xp,yp,zp]を原点から十分に離れた位置とする理由は、音源ないし仮想音源から放射された信号は球面的に伝達するが音源ないし仮想音源から十分に離れた位置(原点)での局所領域では直接音ないし反射音を平面波として模擬できるからである。ただし、テンプレート情報が同じ方向の位置に対応するテンプレートを含むことを排除する趣旨ではない。なお、マイクロホンアレーは上記座標系の原点の近傍(局所領域)に配置されているとする。
【0025】
テンプレート記憶部260は、テンプレート生成部250が出力したテンプレート情報S→(ω)を記憶し、解析時に反射音情報推定部270にテンプレート情報S→(ω)を提供する役割を果たす。
【0026】
反射音情報推定部270は、周波数領域の観測信号X→(ω,k)とテンプレート情報S→(ω)を入力として、Q個の反射音情報成分rsq→(ω,k)の集合(ただし、計算の都合、ベクトル表記している)である反射音情報rs→(ω,k)=[rs1→(ω,k),…,rsQ→(ω,k)]Tを各フレームkについて周波数ωごとに出力する(ステップS5)。ここで、Qは推定される反射音の総数を表し、予め1以上の整数値に設定されている。q番目(1≦q≦Q)の反射音情報成分rsq→(ω,k)は、rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]の2要素から成り、rsAq(ω,k)はq番目の反射音の到来振幅であり、rsBq(ω,k)はq番目の反射音の到来方向である。
【0027】
反射音情報を推定する原理について説明する。図6に示すような2次元マイクロホンアレーを用いて観測した或る平面での音圧分布の一例を図8の左端の濃淡図として示す。濃淡図として示された音圧分布の見方について、黒い部分は音圧が小さく、白い部分は音圧が大きいことを示す。観測した音圧分布には直接音の音圧分布だけではなく、反射音の音圧分布も混入している。直接音や反射音が十分に遠方より到来する場合において、2次元平面上でのそれぞれの音圧分布は、図8の右側の3つの濃淡図のように縞模様となる。縞模様の「濃淡」が直接音ないし反射音の到来振幅、「回転・周期」が直接音ないし反射音の到来方向にそれぞれ対応する。図8の例では、到来振幅や到来方向が異なる直接音、反射音1、反射音2の各音圧分布の重畳で観測信号の音圧分布が構成されることを示している。周波数領域で考えると、直接音や各反射音は到来方向に応じて周波数の変化する複素正弦波で表され、観測信号は直接音と各反射音に対応する複数の複素正弦波が重畳したものとして表される。ところで、本発明で解決する問題は、観測信号のみを用いて、反射音の到来振幅および/または到来方向を推定することである。この課題解決は、図8の左端に描かれた音圧分布から図8の右側の3つの濃淡図の直接音や各反射音に対応する縞模様の「濃淡」および/または「回転・周期」を推定することに対応する。
【0028】
図9を参照して、反射音情報rs→(ω,k)を推定する手法の概略について説明する。ある2次元平面で観測した観測信号に含まれているパワーの最も強い反射音0(q=1に相当し、最も強いパワーを持つことから、通常、この反射音0は「直接音」として理解される)を推定し、観測信号から当該反射音0を減算して残差信号E2を得る。次に当該残差信号E2に含まれているパワーの最も強い反射音1(q=2に相当する)を推定し、当該残差信号E2から当該反射音1を減算して新たな残差信号E3を得る。次に、当該残差信号E3に含まれているパワーの最も強い反射音2(q=Q=3に相当する)を推定する。ここでは、Q=3の場合を説明したが、一般的に、q番目の残差信号Eq(ただし1番目の残差信号は観測信号とする)に含まれているパワーの最も強いq番目の反射音q-1(ただし反射音0は直接音である)を減算する操作をq=Qまで逐次実行することでQ個の反射音情報成分(rs1→(ω,k),…,rsQ→(ω,k))を得る。1番目の反射音情報成分rs1→(ω,k)は反射音0(直接音)に対応し、2番目の反射音情報成分rs2→(ω,k)は反射音1に対応し、3番目の反射音情報成分rs3→(ω,k)は反射音2に対応し、・・・、Q番目の反射音情報成分rsQ→(ω,k)は反射音Q-1に対応する。Qは、計算パワーや反射音情報を用いるアプリケーションにも依存するが、30くらいに設定するのが良い。
【0029】
なお、図8および図9の音圧分布はそれぞれ高解像度の濃淡図として示されているが、このような高解像度の濃淡図として音圧分布を示すためには極めて多くのマイクロホンを必要とし、実用的ではない。他方、実用レベルの2次元マトリクスマイクロホンアレーとして例えば100個のマイクロホンを10×10の2次元マトリクスマイクロホンアレーとして用いた場合でさえ、粗い(低解像度)濃淡図(図16参照)として示される音圧分布しか得られない。そこで、実用の観点から、低解像度の音圧分布しか得られないような状況の下で、精度良く反射音の到来振幅や到来方向を推定することが求められる。本発明では、空間分解能の向上のために任意の位置から到来する平面波を具体的に表現することとし(定式化)、パワーが大きな反射音の影響を受けてパワーの小さいな反射音を推定できなくなることを防止するために、既に推定された反射音を観測信号から除去して次の反射音を推定する(分解)。定式化についてはテンプレート情報として説明したとおりであり、分解については反射音情報rs→(ω,k)の推定手法の概略で説明したとおりである。
【0030】
上で述べた反射音情報rs→(ω,k)を推定する手法について詳細を述べる。説明に先立ち、記号の定義を行う。q番目の残差信号をEq→(ω,k)=[Eq1(ω,k),…,EqM(ω,k)]T、推定されたq番目の反射音(q=1の場合は直接音を表す)をAq(ω,k,g(q,k))Sg(q,k)→(ω)とする。ここで、g(q,k)は、フレームkにおけるq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(q,k))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(q,k)→(ω)と反射音との相違を表す。qの昇順に残差信号から反射音を減算する上述の方法を式で表すと式(6)のようになる。ただし、1≦q≦Qであり、E1→(ω,k)=X→(ω,k)である。
【数5】
【0031】
このとき、q番目の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(7)、式(8)で与えられる。方向情報θg(q,k)→(ω,k)はテンプレートSg(q,k)→(ω)に対応する方向情報である。
【数6】
【0032】
次に、q番目の反射音Aq(ω,k,g(q,k))Sg(q,k)→(ω)を推定する手法について述べる。q番目の反射音Aq(ω,k,g(q,k))Sg(q,k)→(ω)は、q+1番目の残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とするものとして推定される。記号Hは共役転置を表す。推定方法は様々あるが、そのうちの一つの方法について述べる。反射音は、Aq(ω,k,g(q,k))とSg(q,k)→(ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。後述の<処理1>と<処理2>はqの昇順に各qについて行われる。
【0033】
<処理1>
記号Λはインデックスpの全体の集合{1,…,p,…,P}から後述する式(10)により決定されたインデックスの集合を除いた集合である。つまり、Λ={1,…,p,…,P}-{g(1,k),…,g(q-1,k)}とする。ただし、初めて<処理1>を行うときはΛ={1,…,p,…,P}である。
p番目のテンプレートSp→(ω)が残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(9)により求められる。なお、この段階では、式(9)左辺のqは意味を持たないことに留意されたい。
【数7】
【0034】
<処理2>
集合Λの要素の個数(濃度)を|Λ|とすると、式(9)に基づき得られた|Λ|個の係数Aq(ω,k,p)(p∈Λ)を用いて、テンプレートSg(q,k)→(ω)のインデックスを表すg(q,k)は、残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とするインデックスとして式(10)により得られる。
【数8】
【0035】
q番目の反射音を構成する係数Aq(ω,k,g(q,k))は、式(10)で得られたg(q,k)を式(9)のpに代入して得られる。式(10)の計算の際に係数Aq(ω,k,g(q,k))は計算されているので、メモリに余裕がある場合には、式(10)の際に得られた係数Aq(ω,k,g(q,k))をメモリに格納しておき、式(10)でg(q,k)が得られた後に、メモリからp=g(q,k)に対応する係数Aq(ω,k,g(q,k))を呼び出せばよい。
【0036】
以上の過程により、Q個の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)](q=1,…,Q)が求められる。
【0037】
到来時刻差推定部280は、反射音情報rs→(ω,k)=[rs1→(ω,k),…,rsQ→(ω,k)]Tを入力として(正確には、複素振幅{rsA1(ω,k),…,rsAQ(ω,k)}のみで十分である)、基準となる反射音(基準反射音)に対する各反射音の相対的な到来時刻差rsDq(k)(1≦q≦Q)の集合である到来時刻差情報rsD→(k)=[rsD1(k),…,rsDQ(k)]T(ただし、到来時刻差を用いる任意のアプリケーションの便宜上、ベクトル表記している)を、各フレームkについて出力する(ステップS6)。具体的には、後述の((処理1))と((処理2))を各q(1≦q≦Q)について行うことにより、rsDq(k)(1≦q≦Q)が求められる。ここでは処理対象のqを特にqcと記す。
【0038】
((処理1))
推定されたQ個の反射音から基準反射音のインデックスNを決める。((処理1))を各q(1≦q≦Q)について行う場合、N=qcならば基準反射音に対するqc番目の反射音の到来時刻差が0であることは自明であるから、インデックスNは反射音を識別するインデックスの差集合{1,…,Q}−{qc}の中から選択されることが好ましい。基準反射音の決定方法は種々考えられるが、例えば、差集合{1,…,Q}−{qc}に対応する反射音のうちパワーが強い反射音を選択することが好適である。この際、解析する周波数帯域に含まれる周波数のインデックスωに関して到来振幅の大きさの総和を計算することにより、周波数による影響をキャンセルすることができる。この場合、Nは式(10a)により決定される。なお、解析する周波数帯域に含まれる周波数のインデックスωの集合をΩとし、例えば音声信号を扱うのであれば、1.0〜3.0kHz帯域に対応するインデックスの集合をΩとすればよい。
【数9】
【0039】
((処理2))
N番目の反射音の到来振幅rsAN(ω,k)とqc番目(qc≠N)の反射音の到来振幅rsAqc(ω,k)との位相差を用いて相対的な到来時刻差rsDqc(k)を算出する。一般に、到来振幅rsAq(ω,k)は複素振幅であるから振幅λq(ω,k)と時刻τq(ω,k)を用いてrsAq(ω,k)=λq(ω,k)exp[iωτq(ω,k)]と表すことができる。従って、N番目の反射音に対するq番目(q≠N)の反射音の位相差は、N番目の反射音の到来振幅rsAN(ω,k)に対するq番目(q≠N)の反射音の到来振幅rsAq(ω,k)の偏角arg(rsAq(ω,k)/rsAN(ω,k))として与えられる。偏角arg(rsAq(ω,k)/rsAN(ω,k))を周波数のインデックスωで除することによりN番目の反射音とq番目(q≠N)の反射音との時刻差λq(ω,k)-λN(ω,k)を求めることができる。つまり、λq(ω,k)-λN(ω,k)=arg(rsAq(ω,k)/rsAN(ω,k))/ωである。時刻λN(ω,k)に対する時刻λq(ω,k)が「早い」か「遅い」かの区別を行うため負号を導入する。つまり、-arg(rsAq(ω,k)/rsAN(ω,k))/ω<0であれば時刻λN(ω,k)に対する時刻λq(ω,k)が「早い」ことを表し、-arg(rsAq(ω,k)/rsAN(ω,k))/ω>0であれば時刻λN(ω,k)に対する時刻λq(ω,k)が「遅い」ことを表す。-arg(rsAq(ω,k)/rsAN(ω,k))/ω=0の場合、時刻差が無いことを表す。この際、解析する周波数帯域に含まれる周波数のインデックスωに関して-arg(rsAq(ω,k)/rsAN(ω,k))/ωの総和を計算することにより、周波数による影響をキャンセルすることができる。即ち、相対的な到来時刻差rsDqc(k)は、式(10b)によって与えられる。集合Ωの要素の個数(濃度)を|Ω|とする。
【数10】
【0040】
なお、((処理1))にて基準反射音のインデックスを決定するが、基準反射音を各qについて共通とする場合には、((処理1))はひとたび行われれば十分である。この場合、先ず((処理1a))を行い、次いで差集合{1,…,Q}−{N}の各要素qcについて上述の((処理2))を行えばよい。
【0041】
((処理1a))
推定されたQ個の反射音から基準反射音のインデックスNを決める。基準反射音の決定方法は種々考えられるが、例えば、Q個の反射音のうちパワーが強い反射音(直接音)を選択することが好適である。この際、解析する周波数帯域に含まれる周波数のインデックスωに関して到来振幅の大きさの総和を計算することにより、周波数による影響をキャンセルすることができる。この場合、Nは式(10c)により決定される。
【数11】
【0042】
なお、マイクロホンアレーから音源ないし仮想音源までの音源距離disq(ω,k)は、相対的な到来時刻差を定数倍した量であるから、式(10d)によって与えられる。cは音速である。
【数12】
【0043】
以下、相対的な到来時刻差を求めるに必要な反射音情報rs→(ω,k)=[rs1→(ω,k),…,rsQ→(ω,k)]Tを求めるいくつかの実施形態を説明する。いずれの実施形態であっても、第1実施形態のステップS6の処理を行うことで、相対的な到来時刻差rsDq(k)(1≦q≦Q)を求めることができる。
【0044】
《第2実施形態》
第1実施形態ではテンプレート情報S→(ω)を用いて反射音情報rs→(ω,k)を求めたが、P個のテンプレートSp→(ω)の集合であるテンプレート情報S→(ω)を事前に求めておくことは必ずしも必須ではない。テンプレート情報S→(ω)を事前に求めておかない実施形態を第2実施形態として説明する。
【0045】
第2実施形態では、第1実施形態におけるステップS1−S4の各処理が実施されるが、第1実施形態におけるステップSpの処理が不要であり、さらに第1実施形態のステップS5の処理に替えてステップS5aの処理が行われる(図13参照)。そこで、第1実施形態と同じ事項については重複説明を省略し、第1実施形態と異なる事項について説明する。
【0046】
記号の定義を行う。q番目の残差信号をEq→(ω,k)=[Eq1(ω,k),…,EqM(ω,k)]T、q番目の反射音(q=1の場合は直接音を表す)をAq(ω,k)Rq→(ω,θq→(ω,k))とする。反射音を構成するRq→(ω,θq→(ω,k))=[R1(ω,θq→(ω,k)),…,RM(ω,θq→(ω,k))]Tは、空間中の任意の位置[x,y,z]と各マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)であり、各マイクロホンに対する伝達特性を模擬した関数であれば何でもよい。通常、伝達特性関数を構成する各伝達特性Rm(ω,θq→(ω,k))とテンプレートの各要素Spm(ω)の算出式とは同じである。この場合、方向情報θq→(ω,k)で表される方向に在る位置[x,y,z]とm番目の受音点[um,vm,wm]との間の周波数ごとの伝達特性Rm(ω,θq→(ω,k))は式(11)で表される。なお、方向情報θq→(ω,k)で表される方向に在る位置[x,y,z]は、例えば、上記座標系原点から十分に離れた球面上の位置とすればよい。位置[x,y,z]を原点から十分に離れた位置とする理由は既述のとおりであり、詳しくは位置[x,y,z]はマイクロホンアレーが配置されている局所領域にて音源ないし仮想音源からの直接音ないし反射音を平面波として模擬できる距離にある空間中の任意の位置であることが好ましい。なお、3次元直交座標系と球座標系とは相互に転換可能であるから(座標変換)、式(11)の右辺は位置[x,y,z]でなく方向情報θq→(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]を用いて、例えば式(11a)のように表すこともできる。ここで、dはマイクロホン間隔であり、マイクロホンアレーをΦ行Ξ列(Φ×Ξ=M)の2次元マイクロホンアレーとし、m番目のマイクロホンの位置をφ行ξ列(1≦φ≦Φ,1≦ξ≦Ξ)にあるとする。
【数13】
【0047】
反射音を構成するAq(ω,k)は、音源200自身が持つ位相や壁での反射、距離による減衰といったテンプレートRq→(ω,θq→(ω,k))と反射音との相違を表し、到来振幅に相当する。qの昇順に残差信号から反射音を減算する上述の方法を式で表すと式(12)のようになる。ただし、1≦q≦Qであり、E1→(ω,k)=X→(ω,k)である。
【数14】
【0048】
次に、反射音Aq(ω,k)Rq→(ω,θq→(ω,k))を最適化する方法について説明する。
q番目の最適化された反射音Aq(ω,k)Rq→(ω,θq→(ω,k))は、式(12)で表されるq+1番目の残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とする基準に従って決定される。具体的には、伝達特性関数Rq→(ω,θq→(ω,k))が方向情報θq→(ω,k)で決定されることに注意すると、q番目の反射音Aq(ω,k)Rq→(ω,θq→(ω,k))を表現するパラメータAq(ω,k),θq→(ω,k)の最適値Aq,opt(ω,k),θq,opt→(ω,k)は式(13)によって得られる。なお、記号Hは共役転置を表す。
【数15】
【0049】
このとき、q番目の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(14)、式(15)で与えられる。
【数16】
【0050】
式(13)の具体的な計算方法は種々考えられるが、ここではその一例を示す。方向情報θq→(ω,k)を、例えばビームフォーマ法などの到来方位推定方法によって定める。ビームフォーマ法は、指向性ビームを空間走査し、得られた電力スペクトルから電力が大きくなる方向を探索する方法である。ここでは、ビームフォーマ法によりP個の到来方向が推定できたとする。
【0051】
実際には、ビームフォーマ法によって得られる電力スペクトルは到来方向に対して急峻でないことがあり、このような場合、例えば、予め定めたスペクトル強度以上のスペクトル強度を示す電力スペクトルに対応する方向の範囲にて予め定めた間隔で到来方向を定めればよい。具体例として、極角5°、方位角10°から20°の範囲で予め定めたスペクトル強度以上のスペクトル強度を示す電力スペクトルが得られたとすると、予め定めた間隔2°ごとに到来方向を定めるとして、(極角5°,方位角10°),(極角5°,方位角12°),(極角5°,方位角14°),(極角5°,方位角16°),(極角5°,方位角18°),(極角5°,方位角20°)を到来方向とすればよい。
【0052】
また、電力スペクトルが或る方向にて急峻なピークを示したとしても、単純に当該方向を到来方向の一つとして定めるのではなく、当該方向の所定の範囲で到来方向を定めてもよい。具体例として、極角30°、方位角50°で急峻なピークを示す電力スペクトルが得られたとすると、所定の範囲(極角±4°,方位角±4°,間隔2°)で到来方向を定めるとして、(極角26°,方位角46°),(極角28°,方位角46°),(極角30°,方位角46°),(極角32°,方位角46°),(極角34°,方位角46°),(極角26°,方位角48°),(極角28°,方位角48°),(極角30°,方位角48°),(極角32°,方位角48°),(極角34°,方位角48°),(極角26°,方位角50°),(極角28°,方位角50°),(極角30°,方位角50°),(極角32°,方位角50°),(極角34°,方位角50°),(極角26°,方位角52°),(極角28°,方位角52°),(極角30°,方位角52°),(極角32°,方位角52°),(極角34°,方位角52°),(極角26°,方位角54°),(極角28°,方位角54°),(極角30°,方位角54°),(極角32°,方位角54°),(極角34°,方位角54°)を到来方向とすればよい。なお、第1実施形態ではPは固定値であったが、第2実施形態ではPはビームフォーマ法などの到来方位推定方法による推定成果に依存する値であることに留意されたい。
【0053】
ビームフォーマ法によって得られたP個の到来方向についてテンプレートを生成する。テンプレートの各要素の算出式は例えば式(6)である。このP個のテンプレート(テンプレート情報S→(ω))を用いて第1実施形態で説明した処理を行えばよい。
【0054】
《第3実施形態》
第3実施形態は、第2実施形態と異なり、テンプレート情報を利活用して反射音Aq(ω,k)Rq→(ω,θq→(ω,k))を最適化する。式(13)の具体的な計算方法の一例を示す。下記に説明する最適化方法はqの昇順に各qに対して適用される。
【0055】
§1 方向情報の初期値設定
最初に、方向情報θq→(ω,k)の初期値θini,q→(ω,k)をテンプレート情報S→(ω)を用いて決定する。このために、推定されるべき到来方向に最も近いと考えられる方向に対応するテンプレートを決定し、この決定されたテンプレートに対応する方向情報を方向情報θq→(ω,k)の初期値θini,q→(ω,k)とすればよい。
【0056】
そこで、テンプレート情報の中から上述のようなテンプレートを決定するために、便宜上、反射音をAq(ω,k,g(ω,q))Sg(ω,q)→(ω)と表すことにする。ここで、g(ω,q)は、テンプレート情報の中でq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(ω,q))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(ω,q)→(ω)と反射音との相違を表す。この場合、q+1番目の残差信号Eq+1→(ω,k)は式(16)のように表される。ただしE1→(ω,k)=X→(ω,k)である。
【数17】
【0057】
反射音Aq(ω,k,g(ω,q))Sg(ω,q)→(ω)は、式(16)に基づくq+1番目の残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とする基準に従って推定される。推定方法は様々あるが、そのうちの一つの方法について述べる。反射音は、Aq(ω,k,g(ω,q))とSg(ω,q)→(ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。後述の=処理1=と=処理2=はqの昇順に各qについて行われる。
【0058】
=処理1=
記号Λはインデックスpの全体の集合{1,…,p,…,P}から後述する式(18)により決定されたインデックスの集合を除いた集合である。つまり、Λ={1,…,p,…,P}-{g(ω,1),…,g(ω,q-1)}とする。ただし、初めて<処理1>を行うときはΛ={1,…,p,…,P}である。
p番目のテンプレートSp→(ω)が残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(17)により求められる。なお、この段階では、式(17)左辺のqは意味を持たないことに留意されたい。
【数18】
【0059】
=処理2=
集合Λの要素の個数(濃度)を|Λ|とすると、式(17)に基づき得られた|Λ|個の係数Aq(ω,k,p)(p∈Λ)を用いて、テンプレートSg(ω,q)→(ω)のインデックスを表すg(ω,q)は、残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とするインデックスとして式(18)により得られる。
【数19】
【0060】
従って、方向情報θq→(ω,k)の初期値θini,q→(ω,k)は、式(18)により得られるg(ω,q)をインデックスに持つテンプレートSg(ω,q)→(ω)に対応する方向情報θg(ω,q)→(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)]として与えられる。すなわち、θini,q→(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)]である。初期値θini,q→(ω,k)はフレームインデックスkに依存しないことに留意されたい。
【0061】
§2 反射音の最適化
次に、方向情報θq→(ω,k)の初期値θini,q→(ω,k)を起点として、式(12)で表されるq+1番目の残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とするように、反射音Aq(ω,k)Rq→(ω,θq→(ω,k))を最適化する。反射音は、係数Aq(ω,k)とRq→(ω,θq→(ω,k))の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。この最適化方法は様々あるが、そのうちの一つの方法(勾配法)について述べる。例示する方法では、方向情報θq→(ω,k)の補正と係数Aq(ω,k)の補正が交互に所定回数(δ回)反復して行われることにより反射音Aq(ω,k)Rq→(ω,θq→(ω,k))が最適化される。δは例えば50程度の値とされるが1でもよい。
【0062】
§2.1 方向情報の補正
方向情報θq→(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]の補正は、式(19)による更新によって行われる。初めて§2.1の処理を行う場合、式(19)右辺の方向情報θq→(ω,k)は§1の処理で得られた初期値θini,q→(ω,k)であり、§2.1の処理が初めてではない場合、式(19)右辺の方向情報θq→(ω,k)は直前の§2.1の処理で得られた方向情報とする。また、初めて§2.1の処理を行う場合、パワー(Eq+1→(ω,k))HEq+1→(ω,k)の計算に用いられる係数Aq(ω,k)は式(17)で得られたAq(ω,k,p)とし、§2.1の処理が初めてではない場合、パワー(Eq+1→(ω,k))HEq+1→(ω,k)の計算に用いられる係数Aq(ω,k)は直前の§2.2の処理(後述する)で得られた係数Aq(ω,k)とする。ステップ幅α1およびα2は小さい正の定数であり、収束速度などを考慮して決定されるが、例えばそれぞれ0.1程度の値とされる。
【数20】
【0063】
§2.2 係数の補正
係数Aq(ω,k)の補正は、最小二乗法に基づき、式(20)に従って新たな係数Aq(ω,k)を求めることにより行われる。式(20)で用いるRq→(ω,θq→(ω,k))は§2.1の処理で得られた方向情報θq→(ω,k)と式(6)から得られる。
【数21】
【0064】
δ回の反復処理が終了した時点で得られている係数Aq(ω,k)と方向情報θq→(ω,k)がAq,opt(ω,k)とθq,opt→(ω,k)であり、q番目の反射音情報成分rsq→(ω,k)となる。すなわち、q番目の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(21)、式(22)で与えられる。
【数22】
【0065】
以上の過程により、Q個の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)](q=1,…,Q)が求められる。なお、δ=1に設定されている場合、係数の補正を行わないことにより、反射音情報として到来方向のみを求めることができる。
【0066】
《第4実施形態》
次に、第1、第2、第3実施形態と異なり、Q個の反射音Aq(ω,k)Rq→(ω,θq→(ω,k))を一括して最適化する方法について説明する。
【0067】
Q個の最適化された反射音Aq(ω,k)Rq→(ω,θq→(ω,k))は、観測信号からQ個の反射音を除去して得られる残差信号E→(ω,k)のパワー(E→(ω,k))HE→(ω,k)(式(23a)参照)を最小とする基準に従って決定される。具体的には、伝達特性関数Rq→(ω,θq→(ω,k))が方向情報θq→(ω,k)で決定されることに注意すると、Q個の反射音Aq(ω,k)Rq→(ω,θq→(ω,k))(1≦q≦Q)を表現する各パラメータAq(ω,k),θq→(ω,k)(1≦q≦Q)の最適値Aq,opt(ω,k),θq,opt→(ω,k)(1≦q≦Q)は式(23b)によって得られる。なお、記号Hは共役転置を表す。式(23b)にて、{(Aq,opt(ω,k),θq,opt→(ω,k))}q∈{1,…,Q}は、{(A1,opt(ω,k),θ1,opt→(ω,k)),…,(Aq,opt(ω,k),θq,opt→(ω,k)),…,(AQ,opt(ω,k),θQ,opt→(ω,k))}を表し、{(Aq(ω,k),θq→(ω,k))}q∈{1,…,Q}は、{(A1(ω,k),θ1→(ω,k)),…,(Aq(ω,k),θq→(ω,k)),…,(AQ(ω,k),θQ→(ω,k))}を表す。
【数23】
【0068】
このとき、q番目の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(24)、式(25)で与えられる。
【数24】
【0069】
式(23b)の具体的な計算方法は種々考えられるが、ここではその一例を示す。
【0070】
§1.1 方向情報の初期値設定
最初に、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)を設定する。Q個の初期値θini,q→(ω,k)(1≦q≦Q)の決定方法として、この実施形態では、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)を、観測信号X→(ω,k)とテンプレート情報S→(ω)を用いて決定するビーム探索的決定方法を説明する。この方法によると、Q個の推定されるべき到来方向それぞれに最も近いと考えられるQ個の方向に対応するQ個のテンプレートを決定し、この決定されたQ個のテンプレートに対応する方向情報をQ個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)とすればよい。なお、この場合、PとQとの間にQ<Pなる関係がある。
【0071】
そこで、テンプレート情報の中から上述のようなテンプレートを決定するために、便宜上、q番目の反射音をAq(ω,k,g(ω,q))Sg(ω,q)→(ω)と表すことにする。ここで、g(ω,q)は、テンプレート情報の中でq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(ω,q))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(ω,q)→(ω)と反射音との相違を表す。この場合、観測信号X→(ω,k)からq番目の反射音Aq(ω,k,g(ω,q))Sg(ω,q)→(ω)を除去して得られる残差信号Eq→(ω,k)は式(26)のように表される。
【数25】
【0072】
q番目の反射音Aq(ω,k,g(ω,q))Sg(ω,q)→(ω)は、式(26)に基づく残差信号Eq→(ω,k)のパワー(Eq→(ω,k))HEq→(ω,k)を最小とする基準に従って推定される。推定方法は様々あるが、そのうちの一つの方法について述べる。
【0073】
反射音は、Aq(ω,k,g(ω,q))とSg(ω,q)→(ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。まず、p番目のテンプレートSp→(ω)が残差信号Eq→(ω,k)のパワー(Eq→(ω,k))HEq→(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(27)により求められる。なお、この段階では、式(27)左辺のqは意味を持たないことに留意されたい。
【数26】
【0074】
次に、式(27)に基づき得られたP個の係数Aq(ω,k,p)(1≦p≦P)の中から、その絶対値の大きい方から順にQ個の係数Aq(ω,k,p)のインデックスq(1≦q≦Q)を決定する(式(28)参照)。記号Λは、インデックスpの全体の集合{1,…,p,…,P}から式(28)により決定されたインデックスの集合を除いた集合であり、Λ={1,…,p,…,P}-{g(ω,1),…,g(ω,q-1)}である。
【数27】
【0075】
従って、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)は、式(28)により得られるQ個のg(ω,q)(1≦q≦Q)をインデックスに持つテンプレートSg(ω,q)→(ω)(1≦q≦Q)に対応する方向情報θg(ω,q)→(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)として与えられる。すなわち、θini,q→(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)である。初期値θini,q→(ω,k)はフレームインデックスkに依存しないことに留意されたい。
【0076】
§1.2 係数Aq(ω,k)の初期値設定
次に、Q個の係数Aq(ω,k)の初期値Aini,q(ω,k)を設定する。Q個の初期値Aini,q(ω,k)(1≦q≦Q)の決定方法として種々のものが考えられるが、ここでは一例として、パワー最小化基準でQ個の初期値Aini,q(ω,k)(1≦q≦Q)を決定する方法を説明する。まず、Aq(ω,k,p)=0(1≦p≦P)とする。そして、初期値Aini,q(ω,k)(1≦q≦Q)は、残差信号E→(ω,k)のパワー(E→(ω,k))HE→(ω,k)を最小化するように、最小二乗法に基づき、式(29)により求められる。式(29)にてFq→(ω,k)は式(30)で与えられる。式(30)にてΥ={1,…,q-1,q+1,…,Q}であり、Fq→(ω,k)は観測信号からq番目の反射音を除去した残差信号である。なお、Q個の方向情報θq→(ω,k)として§1.1で決定されたQ個の初期値θini,q→(ω,k)を用いる。式(29)で用いるRq→(ω,θq→(ω,k))は方向情報の初期値θini,q→(ω,k)と式(6)から得られる。
【数28】
【0077】
§2 反射音の最適化
次に、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)を起点として、式(23a)で表される残差信号E→(ω,k)のパワー(E→(ω,k))HE→(ω,k)を最小とするように、Q個の反射音Aq(ω,k)Rq→(ω,θq→(ω,k))(1≦q≦Q)を一括して最適化する。各反射音は、係数Aq(ω,k)とRq→(ω,θq→(ω,k))の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。この最適化方法は様々あるが、そのうちの一つの方法(勾配法)について述べる。例示する方法では、方向情報θq→(ω,k)の補正と係数Aq(ω,k)の補正が交互に所定回数(δ回)反復して行われることによりQ個の反射音Aq(ω,k)Rq→(ω,θq→(ω,k))(1≦q≦Q)が最適化される。δは例えば100程度の値とされるが1でもよい。
【0078】
§2.1 方向情報の補正
Q個の方向情報θq→(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)](1≦q≦Q)の補正は、式(31)による更新によって行われる。各q(1≦q≦Q)について、初めて§2.1の処理を行う場合、式(31)右辺の方向情報θq→(ω,k)は§1.1の処理で得られた初期値θini,q→(ω,k)であり、§2.1の処理が初めてではない場合、式(31)右辺の方向情報θq→(ω,k)は直前の§2.1の処理で得られた方向情報とする。また、初めて§2.1の処理を行う場合、パワー(Fq→(ω,k))HFq→(ω,k)の計算に用いられる係数Aq(ω,k)(q∈Υ)として式(29)で得られたAini,q(ω,k)(1≦q≦Q)を用い、§2.1の処理が初めてではない場合、パワー(Fq→(ω,k))HFq→(ω,k)の計算に用いられる係数Aq(ω,k)(q∈Υ)として直前の§2.2の処理(後述する)で得られた係数Aq(ω,k)(1≦q≦Q)を用いる。ステップ幅α1およびα2は小さい正の定数であり、収束速度などを考慮して決定されるが、例えばそれぞれ0.1程度の値とされる。
【数29】
【0079】
§2.2 係数の補正
Q個の係数Aq(ω,k)(1≦q≦Q)の補正は、最小二乗法に基づき、式(32)に従って新たな係数Aq(ω,k)(1≦q≦Q)を求めることにより行われる。式(32)で用いるRq→(ω,θq→(ω,k))は§2.1の処理で得られた方向情報θq→(ω,k)と式(6)から得られる。式(32)にてFq→(ω,k)の計算に用いられる係数Aq(ω,k)(q∈Υ)として、初めて§2.2の処理を行う場合、§1.1の処理で得られた初期値Aini,q(ω,k)を用い、§2.2の処理が初めてではない場合、直前の§2.2の処理で得られた係数Aq(ω,k)(1≦q≦Q)を用いる。
【数30】
【0080】
δ回の反復処理が終了した時点で得られている係数Aq(ω,k)と方向情報θq→(ω,k)のQ個の組み合わせ(Aq(ω,k),θq→(ω,k))(1≦q≦Q)が{(Aq,opt(ω,k),θq,opt→(ω,k))}q∈{1,…,Q}であり、Q個の反射音情報成分rsq→(ω,k)(1≦q≦Q)となる。すなわち、q番目の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(33)、式(34)で与えられる。
【数31】
【0081】
以上の過程により、Q個の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)](q=1,…,Q)が求められる。なお、δ=1に設定されている場合、係数の補正を行わないことにより、反射音情報として到来方向のみを求めることができる。
【0082】
《第5実施形態》
第5実施形態は、「§1.1 方向情報の初期値設定」が第4実施形態と異なる。そこで、第4実施形態と同じ事項については重複説明を省略し、第4実施形態と異なる事項について説明する。
【0083】
§1.1 方向情報の初期値設定
最初に、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)を設定する。Q個の初期値θini,q→(ω,k)(1≦q≦Q)の決定方法として、この実施形態では、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)を、観測信号X→(ω,k)とテンプレート情報S→(ω)を用いて決定する一般化調和解析的決定方法を説明する。この方法によると、Q個の推定されるべき到来方向それぞれに最も近いと考えられるQ個の方向に対応するQ個のテンプレートを決定し、この決定されたQ個のテンプレートに対応する方向情報をQ個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)とすればよい。なお、この場合、PとQとの間にQ<Pなる関係がある。
【0084】
そこで、テンプレート情報の中から上述のようなテンプレートを決定するために、便宜上、q番目の反射音をAq(ω,k,g(ω,q))Sg(ω,q)→(ω)と表すことにする。ここで、g(ω,q)は、テンプレート情報の中でq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(ω,q))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(ω,q)→(ω)と反射音との相違を表す。この場合、観測信号から1番目からq番目までのq個の反射音を除去して得られる残差信号Eq+1→(ω,k)は式(35)のように表される。ただし、1≦q≦Qであり、E1→(ω,k)=X→(ω,k)である。
【数32】
【0085】
q番目の反射音Aq(ω,k,g(ω,q))Sg(ω,q)→(ω)は、式(35)に基づく残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とする基準に従って推定される。推定方法は様々あるが、そのうちの一つの方法について述べる。反射音は、Aq(ω,k,g(ω,q))とSg(ω,q)→(ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。後述の<処理1>と<処理2>はqの昇順に各qについて行われる。
【0086】
<処理1>
記号Λはインデックスpの全体の集合{1,…,p,…,P}から後述する式(37)により決定されたインデックスの集合を除いた集合である。つまり、Λ={1,…,p,…,P}-{g(ω,1),…,g(ω,q-1)}とする。ただし、初めて<処理1>を行うときはΛ={1,…,p,…,P}である。
p番目(p∈Λ)のテンプレートSp→(ω)が式(35)に基づく残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(36)により求められる。なお、この段階では、式(36)左辺のqは意味を持たないことに留意されたい。
【数33】
【0087】
<処理2>
集合Λの要素の個数(濃度)を|Λ|とすると、式(36)に基づき得られた|Λ|個の係数Aq(ω,k,p)(p∈Λ)の中から、その絶対値が最大の係数Aq(ω,k,p)のインデックスq(1≦q≦Q)を決定する(式(37)参照)。
【数34】
【0088】
従って、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)は、式(37)により得られるQ個のg(ω,q)(1≦q≦Q)をインデックスに持つテンプレートSg(ω,q)→(ω)(1≦q≦Q)に対応する方向情報θg(ω,q)→(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)として与えられる。すなわち、θini,q→(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)である。初期値θini,q→(ω,k)はフレームインデックスkに依存しないことに留意されたい。
【0089】
第5実施形態では、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)の決定に一般化調和解析的決定方法を用いた。一般化調和解析的決定方法によると、初期値計算量がビーム探索的決定方法に比べて増大するが、推定されるべき反射音(正解)に近い初期値を設定できる可能性が高く、この場合、推定精度の向上を望めるだけでなく、反復処理の回数を減らすことができる。
【0090】
《第6実施形態》
第6実施形態では、「§1.1 方向情報の初期値設定」が第4実施形態と異なる。そこで、第4実施形態と同じ事項については重複説明を省略し、第4実施形態と異なる事項について説明する。第6実施形態のコンセプトは、第4実施形態よりも簡便でありながら、上述の初期値の偏りを防止することにある。
【0091】
§1.1 方向情報の初期値設定
まず、方向情報を構成するθpol(ω)とθazi(ω)のいずれか一方について、偏りが無いように複数の方向を決定する。この例では、極角θpol(ω)について偏りが無いようにβ個(β≧2)の方向{θ1,pol(ω),…,θβ,pol(ω)}を決定する。通常、極角は0°≦θpol(ω)≦180°を満たすから、例えば等間隔10°ごとに方向を定めることにより{θ1,pol(ω),…,θβ,pol(ω)}={0,10,20,…,180}となる(β=19)。テンプレート情報に含まれるテンプレートのうち集合{θ1,pol(ω),…,θβ,pol(ω)}の要素のいずれかを極角θpol(ω)として持つ方向情報(位置)に対応するテンプレートのインデックスの集合をΨとする。この際、集合Ψの要素の個数(濃度)|Ψ|が、Q≦|Ψ|<Pを満たすようになることが好ましい。集合Ψは、テンプレート情報に含まれるテンプレートに対応する方向情報(位置)の集合の真部分集合である。
【0092】
そして、p番目のテンプレートSp→(ω)が残差信号Eq→(ω,k)のパワー(Eq→(ω,k))HEq→(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)を、最小二乗法に基づき、式(38a)により求める。ただし、式(38a)の右辺で用いるテンプレートのインデックスpはp∈Ψである。なお、この段階では、式(38a)左辺のqは意味を持たないことに留意されたい。
【数35】
【0093】
次に、p∈Ψなる条件の下で式(38a)に基づき得られた|Ψ|個の係数Aq(ω,k,p)(1≦p≦|Ψ|)の中から、その絶対値の大きい方から順にQ個の係数Aq(ω,k,p)のインデックスq(1≦q≦Q)を決定する(式(38b)参照)。記号Γは、集合Ψから式(38b)により決定されたインデックスの集合を除いた集合であり、Γ=Ψ-{g(ω,1),…,g(ω,q-1)}である。
【数36】
【0094】
従って、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)は、式(38)により得られるQ個のg(ω,q)(1≦q≦Q)をインデックスに持つテンプレートSg(ω,q)→(ω)(1≦q≦Q)に対応する方向情報θg(ω,q)→(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)として与えられる。すなわち、θini,q→(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)である。初期値θini,q→(ω,k)はフレームインデックスkに依存しないことに留意されたい。
【0095】
これらの実施形態のほか、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)をランダムに設定する実施形態も許容される。
【0096】
<変形例>
上述の実施形態では周波数ごとに観測信号X→(ω,k)を用いて反射音情報rs→(ω,k)を推定したが、周波数ごとに反射音情報を推定すると、一意に推定されるべき仮想音源の方向(推定到来方向)以外の方向に関する情報も含んでしまうことがあり、この結果、反射音情報に誤差が生じることがありうる。例えば、図14(a)に示すように推定到来方向に関する情報だけを抽出できることが望ましいが、実際には図14(b)に示すように推定到来方向以外の方向に関する情報が混在してしまうことがありえる。
【0097】
そこで変形例では、全周波数に亘り一括してパワーを算出することで、反射音情報の推定誤差を小さくする。つまり、図15に示すように、残差信号のパワーを全周波数に亘り統括することによって、推定到来方向以外の方向の影響を極力減らすことができる。一般的に推定到来方向以外の方向では各周波数でのパワーにバラつきが生じるので、残差信号のパワーを全周波数に亘り統括することにより、推定到来方向のパワーに比してそれ以外の方向のパワーの相対的な影響を低減することができる。なお、図15では、縦軸のパワーは相対値を示しているので各グラフのスケールが同じであるわけではないことに留意されたい。
【0098】
この変形例での処理は次のとおりである。解析する周波数帯域に含まれる周波数のインデックスωの集合をΩとする。例えば、音声信号を扱うのであれば、1.0〜3.0kHz帯域に対応するインデックスの集合をΩとすればよい。そして、テンプレートSg(q,k)→(ω)のインデックスg(q,k)を式(10)の替わりに式(39)によって求める。
【数37】
【0099】
テンプレートSg(ω,q)→(ω)のインデックスg(ω,q)を式(18)の替わりに式(40)によって求める。また、方向情報θq→(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]の補正は、式(19)の替わりに式(41)による更新によって行われる。
【数38】
【0100】
テンプレートSg(ω,q)→(ω)のインデックスg(ω,q)を式(28)や式(37)の替わりに式(42)によって求める。同様に、式(38)の替わりに式(43)によって求める。また、方向情報θq→(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]の補正は、式(31)の替わりに式(44)による更新によって行われる。
【数39】
【実施例】
【0101】
本発明を用いて相対的な到来時刻差を推定した実験結果を示す。直方体の部屋で100本のマイクロホンを10行10列に等間隔に2次元的に並べ、壁際に配置した環境をシミュレートした。マイクロホン間隔dは4cmである。詳細な実験条件は図11に示してある。テンプレートの座標として、図10に示したように、マイクロホンアレーを取り囲む半球上に等間隔となるように配置した。1.0-3.0kHz帯域を解析した場合の実験結果を図12に示す。基準反射音として直接音を選択した。図が煩雑になることを避けるため、ここでは反射音1−3についてのみ図示している。反射音1について、直接音からの到来時刻差は周波数平均で1.4msecであり、反射音2について、直接音からの到来時刻差は周波数平均で2.5msecであり、反射音3について、直接音からの到来時刻差は周波数平均で4.7msecであった。低周波数帯域では距離に対する位相の変化が小さいために到来時刻差の推定値の誤差が大きくなる傾向があるため、周波数帯域全体に亘って平均をとることによって到来時刻差を求めることがよい。
【0102】
<応用例>
反射音情報は人間が生活する上で、非常に重要な音声情報である。例えば、視覚障害者は、タッピングによって発した音源信号が壁や天井等で反射して耳で観測することにより、環境を把握している。また、日常会話でも、適度な反射が生じる部屋で会話することと、反射音が比較的少ない環境で会話することでは会話のしやすさに相違が生じる。以下、本発明により推定された反射音情報を用いたサービス例について述べる。
1つ目は、会議システムに本発明を組み込んだ例である。指向性音源の向きに応じて反射音の振幅は変化するので、反射音情報が分かると、どの方向に音源が向いているのかを推定することができる。会議システムに音源向きの推定装置を組み込めば、誰に向かって発言したのかを提示することに応用できる。
2つ目は、自由な位置で映像や音声を鑑賞できるシステムである。遠方にある音は直接到来する音源のパワーが小さいので収音することが困難である。反射音情報が分かると、直接音だけでなく、反射音も強調収音できるので、遠方の音を強調することが可能となる。また、音声処理の分野では、方向別に音源の強調収音は可能であるが、距離別に音声を強調収音することは非常に難しいとされている。反射音情報が分かると、距離に対応する物理的な特徴量が得られるので、距離別に収音することが可能となる。遠方の音を収音したり、方向別、距離別に収音することができれば、視聴者の選択した位置に対応した音場を擬似的に生成することが可能となる。
【0103】
音声通信システムにおいて、反射音情報を推定することは、直接音だけでは得られなかった音場の情報を得ることにつながる。反射音情報が分かれば、これまでの音声強調技術ではできなかったような遠方音の収音や距離別の収音に結びついたり、従来の収音技術では推定できなかった音場の情報(例えば音源の向き)を推定できる。こういった音場の情報の推定は、これまでの技術では実現できなかった音声処理装置の開発に繋がる。反射音情報の推定に関する従来技術は、インパルス応答を求めるために特殊な信号を観測する必要があったが、本発明は音声信号のような一般的な観測信号で反射音情報を得られるという利点を持つ。
【0104】
<反射音情報推定装置のハードウェア構成例>
上述の実施形態に関わる反射音情報推定装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、反射音情報推定装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0105】
反射音情報推定装置の外部記憶装置には、反射音情報を推定するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
【0106】
反射音情報推定装置の記憶部には、アナログ信号に対してAD変換を行うためのプログラム、フレーム分割処理を行うためのプログラム、フレームごとのデジタル信号を周波数領域の観測信号に変換するためのプログラム、テンプレート情報を生成するためのプログラム、周波数領域の観測信号とテンプレート情報を用いて反射音情報を推定するためのプログラムが記憶されている。
【0107】
反射音情報推定装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(AD変換部、フレーム分割部、周波数領域変換部、テンプレート生成部、反射音情報推定部、到来時刻差推定部)を実現することで反射音情報の推定が実現される。
【0108】
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0109】
また、上記実施形態において説明したハードウェアエンティティ(反射音情報推定装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0110】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0111】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0112】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0113】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【技術分野】
【0001】
本発明は、反射音に関する情報、特に基準となる反射音に対する他の反射音の相対的な到来時刻差を推定する技術に関する。
【背景技術】
【0002】
電話や音声会議といった音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。音声通信システムにおいて、反射音に関する情報(到来振幅、到来方向など)を得ることは非常に重要なことである。会議室のような残響環境下において、マイクロホンを通して収音される収音信号の中には発話者のような音源から直接到来する直接音だけではなく、床、壁や天井に反射して到来する反射音が混在する。したがって、このような残響環境下で或る話者の発言を収録すると、直接音から遅延して反射音が混入するため、聞き取りづらくなってしまう。収音信号から各反射音の到来情報を推定して、反射音を除去することができれば、聞き取りやすい音声に回復することができる。ここで、反射音情報を推定する従来研究として、非特許文献1が挙げられる。
【0003】
非特許文献1に開示される技術を実現する機能構成を図1に示す。この技術における処理手順は次のとおりである。
【0004】
1.インパルス音源100から放射された音源信号を4chのマイクロホン110−1,110−2,110−3,110−4を用いて収音する。AD変換部120は、収音されたアナログ信号をデジタル信号x→(t)=[x1(t),x2(t),x3(t),x4(t)]Tへ変換する。ここで、[・]Tは転置を表す。tは離散時間のインデックスを表す。4本のマイクロホンは正四面体の頂点に配置されていることとする。
【0005】
2.インパルス応答算出部130は、デジタル信号x→(t)=[x1(t),x2(t),x3(t),x4(t)]Tを入力とし、各マイクロホンのインパルス応答h→(t)=[h1(t),h2(t),h3(t),h4(t)]Tを算出する。インパルス応答の算出方法には、TSP法やM系列法等があり、いかなる方法を用いてインパルス応答を算出してもよい。
【0006】
3.仮想音源算出部140は、4chのインパルス応答h→(t)=[h1(t),h2(t),h3(t),h4(t)]Tを入力とし、仮想音源情報v→=[v→1,…,v→D]Tを出力する。Dは仮想音源の数を表す。仮想音源とは、各反射音の到来振幅、到来方向、到来時間を表現するために仮想的に存在するとされる音源である。図2を参照して、仮想音源について説明する。図2には、右側の壁で反射した音源信号をマイクロホンで受音する経路が書かれている。右側の壁で反射して到来する音源信号(反射音)は、「仮想音源」と書かれた位置から直接到来する信号と等価である(ただし、壁での反射による減衰や距離減衰の影響は受ける)。
【0007】
この従来技術の詳細について説明する。インパルス応答を近接した4つの受音点(マイクロホンの位置)で測定すると反射音の到来時刻にわずかな差が生じる。インパルス応答の短い区間の相互相関を利用して、各マイクロホンにおける反射音の対応付けを行うことで、図3のように、n番目の反射波に関するそれぞれの受音点での到来時刻t1n,t2n,t3n,t4n(1≦n≦D)が求まる。正四面体マイクロホンアレーの辺の長さをd、音速をcとすると、各仮想音源情報vn→=[Xn,Yn,Zn,Sn]Tが求まる。ここで、Xn,Yn,Znはn番目の仮想音源の位置を表し(式(1)−(3)参照)、これは各反射音の到来方向と到来時間に対応する情報を持つ。また、Snはn番目の仮想音源の強さを表し、4chのインパルスで対応付けされたn番目の反射音の振幅の平均で求まる。
【数1】
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】山崎芳男ら、「近接する4点のインパルス応答により求めたホールの空間情報」、日本音響学会講演論文集、1981年5年、pp.759-760.
【発明の概要】
【発明が解決しようとする課題】
【0009】
従来技術によると、仮想音源情報と呼んでいた反射音の「到来振幅」、「到来方向」、「到来時刻」を推定するためには、インパルス応答をあらかじめ用意することが必要であった。しかし、インパルス応答を用意するためには特殊な信号を用いて観測する必要があるため、あらゆる位置でのインパルス応答が事前に用意されているという条件は現実的ではない。
【0010】
そこで本発明は、特殊な信号を用いることなく、反射音情報、特に基準となる反射音に対する他の反射音の相対的な到来時刻差を推定する技術を提供することを目的とする。
【課題を解決するための手段】
【0011】
反射音を、所定の周波数帯域に含まれる周波数ごとに空間中の任意の位置と複数のマイクロホンとの間の伝達特性を模擬した関数(伝達特性関数)に複素振幅を乗じて表されるとする。Qを2以上の予め定められた整数として、Q個の反射音それぞれの複素振幅(到来振幅)を用いて、基準反射音以外の反射音(対象反射音)それぞれについて、基準反射音の到来振幅に対する対象反射音の到来振幅の偏角を周波数で除したものに対する周波数についての相加平均を、基準反射音に対する対象反射音の相対的な到来時刻差とする。
【0012】
基準反射音として、Q個の反射音の中から各対象反射音に共通の基準反射音を決定してもよいし、対象反射音ごとにQ個の反射音の中から基準反射音を決定してもよい。
【0013】
Q個の反射音の到来振幅はそれぞれ、音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(観測信号)を用いて、qを1以上Q以下の各整数として、各qについて、伝達特性関数に複素振幅を乗じたものをq番目の最小の残差信号(ただし、1番目の最小の残差信号は観測信号とする)から減じて得られるq+1番目の残差信号のパワーが最小になるように当該伝達特性関数および当該複素振幅を推定し、推定された当該複素振幅をq番目の反射音の到来振幅とすることによって得られたものであるとしてもよい。
【0014】
あるいは、Q個の反射音の到来振幅は、相異なるQ個の位置に対応するQ個の反射音を観測信号から減じて得られる残差信号のパワーが最小になるようにQ個の伝達特性関数およびQ個の複素振幅を一括して推定することによって得られたQ個の複素振幅であるとしてもよい。
【発明の効果】
【0015】
本発明に拠ると、基準反射音の到来振幅に対する対象反射音の到来振幅の偏角を周波数で除したものに対する周波数についての相加平均を、基準反射音に対する対象反射音の相対的な到来時刻差とすることから、インパルス応答を求めるために音源信号に特殊な信号を用いることなく、反射音情報(基準反射音に対する他の反射音の相対的な到来時刻差)を推定することが可能である。反射音情報が得られると、従来の音声情報処理技術では実現できなかった音源距離の推定や、音声強調(遠方音の収音や距離別の収音)といった用途に応用できる。
【図面の簡単な説明】
【0016】
【図1】従来技術における反射音情報推定技術の機能構成を示す図。
【図2】仮想音源を説明するための図。
【図3】従来技術における反射音の対応付けを説明するための図。
【図4】第1実施形態に係る反射音情報推定装置の機能構成を示す図。
【図5】第1実施形態に係る反射音情報推定方法の処理手順を示す図。
【図6】2次元マイクロホンアレーの構成例を示す図。
【図7】p番目の点[xp,yp,zp]とm番目の受音点[um,vm,wm]との間の伝達特性を説明するための図。
【図8】図6に示すマイクロホンアレーを用いて観測した或る平面での音圧分布が例えば直接音と反射音1と反射音2との重畳で得られていることを説明するための図。
【図9】本発明の原理を説明するための図。
【図10】実験例においてテンプレート情報作成のための区間座標とマイクロホンアレーとの位置関係を示す図。
【図11】実験結果を示す図。
【図12】実験例により本発明の有効性を説明するための図。
【図13】第2実施形態に係る反射音情報推定方法の処理手順を示す図。
【図14】(a)理想的には、推定到来方向に関する情報だけが抽出されるべきことを説明するための図。(b)実際には、推定到来方向以外の方向に関する情報も混在してしまうことを説明するための図。
【図15】残差信号のパワーを全周波数に亘って総括することにより、推定到来方向以外の方向の影響を減らすことを説明するための図。
【図16】実用レベルの2次元マトリクスマイクロホンアレーを用いた場合における音圧分布とその分解を示す図。
【発明を実施するための形態】
【0017】
《第1実施形態》
本発明は、発話信号のような音源から放射された音声信号(音源信号)を複数のマイクロホンで構成されるマイクロホンアレーで収音した信号(収音信号)から反射音の「到来振幅」と「到来方向」の少なくともいずれか一つを推定する。第1実施形態の機能構成および処理フローを図4と図5に示す。
【0018】
音源200から放射された音源信号をMchのマイクロホン210−1,…,210−Mを用いて収音する(ステップS1)。Mは、4より大きい値が望ましい。AD変換部220が、収音されたアナログ信号をデジタル信号xx→(t)=[xx1(t),…,xxM(t)]Tへ変換する(ステップS2)。ここで、[・]Tは転置を表す。tは離散時間のインデックスを表す。
【0019】
M本のマイクロホンの並べ方は、2次元または3次元的に等間隔で配置することが望ましい。これは、反射音の到来方向とテンプレート(後で説明するが、反射音の伝達特性を模擬したものである)の対応を一意に定めるためである。なお、原理的に、1次元的にマイクロホンを配置しても、あるいは等間隔に配置しなくても、本発明を実施できるが、反射音の伝達特性と反射音の到来方向が一対一の関係とならないため、2次元または3次元的に等間隔で配置することが望ましい。2次元平面上に等間隔にマイクロホンを並べた場合の一例を図6に示す。マイクロホン間隔dは、空間サンプリング定理を満たすように設定されていることが望ましい。空間サンプリング定理を満たす場合、マイクロホン間隔dは、式(4)を満たす数値となる。cは音速であり、fは解析対象とする周波数である。例えば、4kHzの周波数を解析する場合、マイクロホン間隔を4cm程度に設定するのがよい。
【数2】
【0020】
フレーム分割部230は、AD変換部200が出力したデジタル信号xx→(t)=[xx1(t),…,xxM(t)]Tを入力とし、チャネルごとに複数サンプルから成るデジタル信号の組(フレーム)に分割された信号x→(k)=[x1(k),…,xM(k)]Tを出力する(ステップS3)。kはフレーム番号を表すインデックスである。フレーム分割は、各チャネルのデジタル信号xxi(t)(1≦i≦M)ごとにW点分をバッファリングして出力する処理である。Wはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0021】
周波数領域変換部240は、各フレームのデジタル信号x→(k)を入力として、周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する(ステップS4)。この信号X→(ω,k)を観測信号と呼ぶことにする。ここで、ωは離散周波数のインデックスを指し(周波数fと角周波数ωとの間にはω=2πfの関係があるから、周波数のインデックスωをこの角周波数ωと同一視してもかまわない。以下、ωに関して「周波数のインデックス」を単に「周波数」ともいう)、kはフレームのインデックスを指す。周波数領域に変換する方法の一つに、離散フーリエ変換があるが、周波数領域に変換するのであれば、他の方法を用いてもよい。周波数領域の観測信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
【0022】
テンプレート生成部250は、P個のテンプレートSp→(ω)の集合(ただし、計算の都合、ベクトル表記している)であるテンプレート情報S→(ω)=[S1→(ω),…,SP→(ω)](∀ω∈Ω;Ωは周波数のインデックスωの集合)を周波数ωごとに生成する(ステップSp)。この処理は通常、ステップS1−S4の各処理に先立ち実施される。Pはテンプレートの総数を表し、予め2以上の整数値に設定されている。テンプレート総数Pは多ければ多いほど高精度な反射音情報の推定に繋がるが、計算量が多くなるので、例えばP=1000くらいに設定するのが良い。この処理は、マイクロホンで信号を観測する以前にあらかじめ行う処理である。また、マイクロホンの位置(例えばマイクロホンの間隔d)を変更したり、テンプレート総数Pを変更したりしない限り、通常、テンプレートを毎回作り直す必要はない。ここで言う“テンプレート”とは、反射音の到来方向に対応する伝達特性(音響伝播特性)を模擬したものである。p番目(1≦p≦P)のテンプレートSp→(ω)=[Sp1(ω),…,SpM(ω)]T(ω∈Ω)は、予め定められたp番目の点[xp,yp,zp]とM個の受音点(ここで受音点はマイクロホンが配置される位置であり、m番目(1≦m≦M)の受音点を[um,vm,wm]とする)の間の周波数ごとの伝達特性を表す(図7を参照)。p番目のテンプレートSp→(ω)の各要素Spm(ω)の算出式の一例を式(5)に示す。記号iは虚数単位を表す。
【数3】
【0023】
p番目のテンプレートSp→(ω)には方向情報θp→(ω)が対応付けられている。方向情報θp→(ω)は、p番目の点[xp,yp,zp]および受音点[um,vm,wm]の位置座標の基準となる3次元直交座標系の原点からp番目の点[xp,yp,zp]を見た方向であり、例えば(当該3次元直交座標系の原点と共通の原点を持つ)球座標系における二つの偏角(極角θp,polと方位角θp,azi)として表される。つまり、θp→(ω)=[θp,pol(ω),θp,azi(ω)]である。なお、p番目のテンプレートSp→(ω)にp番目の点[xp,yp,zp]が関連付けられていれば方向情報θp→(ω)は位置[xp,yp,zp]から計算可能であるから、p番目のテンプレートSp→(ω)に方向情報θp→(ω)が対応付けられていることは必須要件ではない。なお、3次元直交座標系と球座標系とは相互に転換可能であるから(座標変換)、式(5)の右辺は位置[x,y,z]でなく方向情報θp→(ω)=[θp,pol(ω),θp,azi(ω)]を用いて、例えば式(5a)のように表すこともできる。ここで、dはマイクロホン間隔であり、マイクロホンアレーをΦ行Ξ列(Φ×Ξ=M)の2次元マイクロホンアレーとし、m番目のマイクロホンの位置をφ行ξ列(1≦φ≦Φ,1≦ξ≦Ξ)にあるとする。
【数4】
【0024】
また、第1実施形態のようにテンプレートが方向に対応している場合、P個の点[xp,yp,zp](1≦p≦P)の位置は互いに方向の異なる位置であることが好ましく、例えば各点[xp,yp,zp]が原点から十分に離れた等距離にあるとして、上記原点を中心とする球面上の異なるP個の点とすればよい。各点[xp,yp,zp]を原点から十分に離れた位置とする理由は、音源ないし仮想音源から放射された信号は球面的に伝達するが音源ないし仮想音源から十分に離れた位置(原点)での局所領域では直接音ないし反射音を平面波として模擬できるからである。ただし、テンプレート情報が同じ方向の位置に対応するテンプレートを含むことを排除する趣旨ではない。なお、マイクロホンアレーは上記座標系の原点の近傍(局所領域)に配置されているとする。
【0025】
テンプレート記憶部260は、テンプレート生成部250が出力したテンプレート情報S→(ω)を記憶し、解析時に反射音情報推定部270にテンプレート情報S→(ω)を提供する役割を果たす。
【0026】
反射音情報推定部270は、周波数領域の観測信号X→(ω,k)とテンプレート情報S→(ω)を入力として、Q個の反射音情報成分rsq→(ω,k)の集合(ただし、計算の都合、ベクトル表記している)である反射音情報rs→(ω,k)=[rs1→(ω,k),…,rsQ→(ω,k)]Tを各フレームkについて周波数ωごとに出力する(ステップS5)。ここで、Qは推定される反射音の総数を表し、予め1以上の整数値に設定されている。q番目(1≦q≦Q)の反射音情報成分rsq→(ω,k)は、rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]の2要素から成り、rsAq(ω,k)はq番目の反射音の到来振幅であり、rsBq(ω,k)はq番目の反射音の到来方向である。
【0027】
反射音情報を推定する原理について説明する。図6に示すような2次元マイクロホンアレーを用いて観測した或る平面での音圧分布の一例を図8の左端の濃淡図として示す。濃淡図として示された音圧分布の見方について、黒い部分は音圧が小さく、白い部分は音圧が大きいことを示す。観測した音圧分布には直接音の音圧分布だけではなく、反射音の音圧分布も混入している。直接音や反射音が十分に遠方より到来する場合において、2次元平面上でのそれぞれの音圧分布は、図8の右側の3つの濃淡図のように縞模様となる。縞模様の「濃淡」が直接音ないし反射音の到来振幅、「回転・周期」が直接音ないし反射音の到来方向にそれぞれ対応する。図8の例では、到来振幅や到来方向が異なる直接音、反射音1、反射音2の各音圧分布の重畳で観測信号の音圧分布が構成されることを示している。周波数領域で考えると、直接音や各反射音は到来方向に応じて周波数の変化する複素正弦波で表され、観測信号は直接音と各反射音に対応する複数の複素正弦波が重畳したものとして表される。ところで、本発明で解決する問題は、観測信号のみを用いて、反射音の到来振幅および/または到来方向を推定することである。この課題解決は、図8の左端に描かれた音圧分布から図8の右側の3つの濃淡図の直接音や各反射音に対応する縞模様の「濃淡」および/または「回転・周期」を推定することに対応する。
【0028】
図9を参照して、反射音情報rs→(ω,k)を推定する手法の概略について説明する。ある2次元平面で観測した観測信号に含まれているパワーの最も強い反射音0(q=1に相当し、最も強いパワーを持つことから、通常、この反射音0は「直接音」として理解される)を推定し、観測信号から当該反射音0を減算して残差信号E2を得る。次に当該残差信号E2に含まれているパワーの最も強い反射音1(q=2に相当する)を推定し、当該残差信号E2から当該反射音1を減算して新たな残差信号E3を得る。次に、当該残差信号E3に含まれているパワーの最も強い反射音2(q=Q=3に相当する)を推定する。ここでは、Q=3の場合を説明したが、一般的に、q番目の残差信号Eq(ただし1番目の残差信号は観測信号とする)に含まれているパワーの最も強いq番目の反射音q-1(ただし反射音0は直接音である)を減算する操作をq=Qまで逐次実行することでQ個の反射音情報成分(rs1→(ω,k),…,rsQ→(ω,k))を得る。1番目の反射音情報成分rs1→(ω,k)は反射音0(直接音)に対応し、2番目の反射音情報成分rs2→(ω,k)は反射音1に対応し、3番目の反射音情報成分rs3→(ω,k)は反射音2に対応し、・・・、Q番目の反射音情報成分rsQ→(ω,k)は反射音Q-1に対応する。Qは、計算パワーや反射音情報を用いるアプリケーションにも依存するが、30くらいに設定するのが良い。
【0029】
なお、図8および図9の音圧分布はそれぞれ高解像度の濃淡図として示されているが、このような高解像度の濃淡図として音圧分布を示すためには極めて多くのマイクロホンを必要とし、実用的ではない。他方、実用レベルの2次元マトリクスマイクロホンアレーとして例えば100個のマイクロホンを10×10の2次元マトリクスマイクロホンアレーとして用いた場合でさえ、粗い(低解像度)濃淡図(図16参照)として示される音圧分布しか得られない。そこで、実用の観点から、低解像度の音圧分布しか得られないような状況の下で、精度良く反射音の到来振幅や到来方向を推定することが求められる。本発明では、空間分解能の向上のために任意の位置から到来する平面波を具体的に表現することとし(定式化)、パワーが大きな反射音の影響を受けてパワーの小さいな反射音を推定できなくなることを防止するために、既に推定された反射音を観測信号から除去して次の反射音を推定する(分解)。定式化についてはテンプレート情報として説明したとおりであり、分解については反射音情報rs→(ω,k)の推定手法の概略で説明したとおりである。
【0030】
上で述べた反射音情報rs→(ω,k)を推定する手法について詳細を述べる。説明に先立ち、記号の定義を行う。q番目の残差信号をEq→(ω,k)=[Eq1(ω,k),…,EqM(ω,k)]T、推定されたq番目の反射音(q=1の場合は直接音を表す)をAq(ω,k,g(q,k))Sg(q,k)→(ω)とする。ここで、g(q,k)は、フレームkにおけるq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(q,k))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(q,k)→(ω)と反射音との相違を表す。qの昇順に残差信号から反射音を減算する上述の方法を式で表すと式(6)のようになる。ただし、1≦q≦Qであり、E1→(ω,k)=X→(ω,k)である。
【数5】
【0031】
このとき、q番目の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(7)、式(8)で与えられる。方向情報θg(q,k)→(ω,k)はテンプレートSg(q,k)→(ω)に対応する方向情報である。
【数6】
【0032】
次に、q番目の反射音Aq(ω,k,g(q,k))Sg(q,k)→(ω)を推定する手法について述べる。q番目の反射音Aq(ω,k,g(q,k))Sg(q,k)→(ω)は、q+1番目の残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とするものとして推定される。記号Hは共役転置を表す。推定方法は様々あるが、そのうちの一つの方法について述べる。反射音は、Aq(ω,k,g(q,k))とSg(q,k)→(ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。後述の<処理1>と<処理2>はqの昇順に各qについて行われる。
【0033】
<処理1>
記号Λはインデックスpの全体の集合{1,…,p,…,P}から後述する式(10)により決定されたインデックスの集合を除いた集合である。つまり、Λ={1,…,p,…,P}-{g(1,k),…,g(q-1,k)}とする。ただし、初めて<処理1>を行うときはΛ={1,…,p,…,P}である。
p番目のテンプレートSp→(ω)が残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(9)により求められる。なお、この段階では、式(9)左辺のqは意味を持たないことに留意されたい。
【数7】
【0034】
<処理2>
集合Λの要素の個数(濃度)を|Λ|とすると、式(9)に基づき得られた|Λ|個の係数Aq(ω,k,p)(p∈Λ)を用いて、テンプレートSg(q,k)→(ω)のインデックスを表すg(q,k)は、残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とするインデックスとして式(10)により得られる。
【数8】
【0035】
q番目の反射音を構成する係数Aq(ω,k,g(q,k))は、式(10)で得られたg(q,k)を式(9)のpに代入して得られる。式(10)の計算の際に係数Aq(ω,k,g(q,k))は計算されているので、メモリに余裕がある場合には、式(10)の際に得られた係数Aq(ω,k,g(q,k))をメモリに格納しておき、式(10)でg(q,k)が得られた後に、メモリからp=g(q,k)に対応する係数Aq(ω,k,g(q,k))を呼び出せばよい。
【0036】
以上の過程により、Q個の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)](q=1,…,Q)が求められる。
【0037】
到来時刻差推定部280は、反射音情報rs→(ω,k)=[rs1→(ω,k),…,rsQ→(ω,k)]Tを入力として(正確には、複素振幅{rsA1(ω,k),…,rsAQ(ω,k)}のみで十分である)、基準となる反射音(基準反射音)に対する各反射音の相対的な到来時刻差rsDq(k)(1≦q≦Q)の集合である到来時刻差情報rsD→(k)=[rsD1(k),…,rsDQ(k)]T(ただし、到来時刻差を用いる任意のアプリケーションの便宜上、ベクトル表記している)を、各フレームkについて出力する(ステップS6)。具体的には、後述の((処理1))と((処理2))を各q(1≦q≦Q)について行うことにより、rsDq(k)(1≦q≦Q)が求められる。ここでは処理対象のqを特にqcと記す。
【0038】
((処理1))
推定されたQ個の反射音から基準反射音のインデックスNを決める。((処理1))を各q(1≦q≦Q)について行う場合、N=qcならば基準反射音に対するqc番目の反射音の到来時刻差が0であることは自明であるから、インデックスNは反射音を識別するインデックスの差集合{1,…,Q}−{qc}の中から選択されることが好ましい。基準反射音の決定方法は種々考えられるが、例えば、差集合{1,…,Q}−{qc}に対応する反射音のうちパワーが強い反射音を選択することが好適である。この際、解析する周波数帯域に含まれる周波数のインデックスωに関して到来振幅の大きさの総和を計算することにより、周波数による影響をキャンセルすることができる。この場合、Nは式(10a)により決定される。なお、解析する周波数帯域に含まれる周波数のインデックスωの集合をΩとし、例えば音声信号を扱うのであれば、1.0〜3.0kHz帯域に対応するインデックスの集合をΩとすればよい。
【数9】
【0039】
((処理2))
N番目の反射音の到来振幅rsAN(ω,k)とqc番目(qc≠N)の反射音の到来振幅rsAqc(ω,k)との位相差を用いて相対的な到来時刻差rsDqc(k)を算出する。一般に、到来振幅rsAq(ω,k)は複素振幅であるから振幅λq(ω,k)と時刻τq(ω,k)を用いてrsAq(ω,k)=λq(ω,k)exp[iωτq(ω,k)]と表すことができる。従って、N番目の反射音に対するq番目(q≠N)の反射音の位相差は、N番目の反射音の到来振幅rsAN(ω,k)に対するq番目(q≠N)の反射音の到来振幅rsAq(ω,k)の偏角arg(rsAq(ω,k)/rsAN(ω,k))として与えられる。偏角arg(rsAq(ω,k)/rsAN(ω,k))を周波数のインデックスωで除することによりN番目の反射音とq番目(q≠N)の反射音との時刻差λq(ω,k)-λN(ω,k)を求めることができる。つまり、λq(ω,k)-λN(ω,k)=arg(rsAq(ω,k)/rsAN(ω,k))/ωである。時刻λN(ω,k)に対する時刻λq(ω,k)が「早い」か「遅い」かの区別を行うため負号を導入する。つまり、-arg(rsAq(ω,k)/rsAN(ω,k))/ω<0であれば時刻λN(ω,k)に対する時刻λq(ω,k)が「早い」ことを表し、-arg(rsAq(ω,k)/rsAN(ω,k))/ω>0であれば時刻λN(ω,k)に対する時刻λq(ω,k)が「遅い」ことを表す。-arg(rsAq(ω,k)/rsAN(ω,k))/ω=0の場合、時刻差が無いことを表す。この際、解析する周波数帯域に含まれる周波数のインデックスωに関して-arg(rsAq(ω,k)/rsAN(ω,k))/ωの総和を計算することにより、周波数による影響をキャンセルすることができる。即ち、相対的な到来時刻差rsDqc(k)は、式(10b)によって与えられる。集合Ωの要素の個数(濃度)を|Ω|とする。
【数10】
【0040】
なお、((処理1))にて基準反射音のインデックスを決定するが、基準反射音を各qについて共通とする場合には、((処理1))はひとたび行われれば十分である。この場合、先ず((処理1a))を行い、次いで差集合{1,…,Q}−{N}の各要素qcについて上述の((処理2))を行えばよい。
【0041】
((処理1a))
推定されたQ個の反射音から基準反射音のインデックスNを決める。基準反射音の決定方法は種々考えられるが、例えば、Q個の反射音のうちパワーが強い反射音(直接音)を選択することが好適である。この際、解析する周波数帯域に含まれる周波数のインデックスωに関して到来振幅の大きさの総和を計算することにより、周波数による影響をキャンセルすることができる。この場合、Nは式(10c)により決定される。
【数11】
【0042】
なお、マイクロホンアレーから音源ないし仮想音源までの音源距離disq(ω,k)は、相対的な到来時刻差を定数倍した量であるから、式(10d)によって与えられる。cは音速である。
【数12】
【0043】
以下、相対的な到来時刻差を求めるに必要な反射音情報rs→(ω,k)=[rs1→(ω,k),…,rsQ→(ω,k)]Tを求めるいくつかの実施形態を説明する。いずれの実施形態であっても、第1実施形態のステップS6の処理を行うことで、相対的な到来時刻差rsDq(k)(1≦q≦Q)を求めることができる。
【0044】
《第2実施形態》
第1実施形態ではテンプレート情報S→(ω)を用いて反射音情報rs→(ω,k)を求めたが、P個のテンプレートSp→(ω)の集合であるテンプレート情報S→(ω)を事前に求めておくことは必ずしも必須ではない。テンプレート情報S→(ω)を事前に求めておかない実施形態を第2実施形態として説明する。
【0045】
第2実施形態では、第1実施形態におけるステップS1−S4の各処理が実施されるが、第1実施形態におけるステップSpの処理が不要であり、さらに第1実施形態のステップS5の処理に替えてステップS5aの処理が行われる(図13参照)。そこで、第1実施形態と同じ事項については重複説明を省略し、第1実施形態と異なる事項について説明する。
【0046】
記号の定義を行う。q番目の残差信号をEq→(ω,k)=[Eq1(ω,k),…,EqM(ω,k)]T、q番目の反射音(q=1の場合は直接音を表す)をAq(ω,k)Rq→(ω,θq→(ω,k))とする。反射音を構成するRq→(ω,θq→(ω,k))=[R1(ω,θq→(ω,k)),…,RM(ω,θq→(ω,k))]Tは、空間中の任意の位置[x,y,z]と各マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)であり、各マイクロホンに対する伝達特性を模擬した関数であれば何でもよい。通常、伝達特性関数を構成する各伝達特性Rm(ω,θq→(ω,k))とテンプレートの各要素Spm(ω)の算出式とは同じである。この場合、方向情報θq→(ω,k)で表される方向に在る位置[x,y,z]とm番目の受音点[um,vm,wm]との間の周波数ごとの伝達特性Rm(ω,θq→(ω,k))は式(11)で表される。なお、方向情報θq→(ω,k)で表される方向に在る位置[x,y,z]は、例えば、上記座標系原点から十分に離れた球面上の位置とすればよい。位置[x,y,z]を原点から十分に離れた位置とする理由は既述のとおりであり、詳しくは位置[x,y,z]はマイクロホンアレーが配置されている局所領域にて音源ないし仮想音源からの直接音ないし反射音を平面波として模擬できる距離にある空間中の任意の位置であることが好ましい。なお、3次元直交座標系と球座標系とは相互に転換可能であるから(座標変換)、式(11)の右辺は位置[x,y,z]でなく方向情報θq→(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]を用いて、例えば式(11a)のように表すこともできる。ここで、dはマイクロホン間隔であり、マイクロホンアレーをΦ行Ξ列(Φ×Ξ=M)の2次元マイクロホンアレーとし、m番目のマイクロホンの位置をφ行ξ列(1≦φ≦Φ,1≦ξ≦Ξ)にあるとする。
【数13】
【0047】
反射音を構成するAq(ω,k)は、音源200自身が持つ位相や壁での反射、距離による減衰といったテンプレートRq→(ω,θq→(ω,k))と反射音との相違を表し、到来振幅に相当する。qの昇順に残差信号から反射音を減算する上述の方法を式で表すと式(12)のようになる。ただし、1≦q≦Qであり、E1→(ω,k)=X→(ω,k)である。
【数14】
【0048】
次に、反射音Aq(ω,k)Rq→(ω,θq→(ω,k))を最適化する方法について説明する。
q番目の最適化された反射音Aq(ω,k)Rq→(ω,θq→(ω,k))は、式(12)で表されるq+1番目の残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とする基準に従って決定される。具体的には、伝達特性関数Rq→(ω,θq→(ω,k))が方向情報θq→(ω,k)で決定されることに注意すると、q番目の反射音Aq(ω,k)Rq→(ω,θq→(ω,k))を表現するパラメータAq(ω,k),θq→(ω,k)の最適値Aq,opt(ω,k),θq,opt→(ω,k)は式(13)によって得られる。なお、記号Hは共役転置を表す。
【数15】
【0049】
このとき、q番目の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(14)、式(15)で与えられる。
【数16】
【0050】
式(13)の具体的な計算方法は種々考えられるが、ここではその一例を示す。方向情報θq→(ω,k)を、例えばビームフォーマ法などの到来方位推定方法によって定める。ビームフォーマ法は、指向性ビームを空間走査し、得られた電力スペクトルから電力が大きくなる方向を探索する方法である。ここでは、ビームフォーマ法によりP個の到来方向が推定できたとする。
【0051】
実際には、ビームフォーマ法によって得られる電力スペクトルは到来方向に対して急峻でないことがあり、このような場合、例えば、予め定めたスペクトル強度以上のスペクトル強度を示す電力スペクトルに対応する方向の範囲にて予め定めた間隔で到来方向を定めればよい。具体例として、極角5°、方位角10°から20°の範囲で予め定めたスペクトル強度以上のスペクトル強度を示す電力スペクトルが得られたとすると、予め定めた間隔2°ごとに到来方向を定めるとして、(極角5°,方位角10°),(極角5°,方位角12°),(極角5°,方位角14°),(極角5°,方位角16°),(極角5°,方位角18°),(極角5°,方位角20°)を到来方向とすればよい。
【0052】
また、電力スペクトルが或る方向にて急峻なピークを示したとしても、単純に当該方向を到来方向の一つとして定めるのではなく、当該方向の所定の範囲で到来方向を定めてもよい。具体例として、極角30°、方位角50°で急峻なピークを示す電力スペクトルが得られたとすると、所定の範囲(極角±4°,方位角±4°,間隔2°)で到来方向を定めるとして、(極角26°,方位角46°),(極角28°,方位角46°),(極角30°,方位角46°),(極角32°,方位角46°),(極角34°,方位角46°),(極角26°,方位角48°),(極角28°,方位角48°),(極角30°,方位角48°),(極角32°,方位角48°),(極角34°,方位角48°),(極角26°,方位角50°),(極角28°,方位角50°),(極角30°,方位角50°),(極角32°,方位角50°),(極角34°,方位角50°),(極角26°,方位角52°),(極角28°,方位角52°),(極角30°,方位角52°),(極角32°,方位角52°),(極角34°,方位角52°),(極角26°,方位角54°),(極角28°,方位角54°),(極角30°,方位角54°),(極角32°,方位角54°),(極角34°,方位角54°)を到来方向とすればよい。なお、第1実施形態ではPは固定値であったが、第2実施形態ではPはビームフォーマ法などの到来方位推定方法による推定成果に依存する値であることに留意されたい。
【0053】
ビームフォーマ法によって得られたP個の到来方向についてテンプレートを生成する。テンプレートの各要素の算出式は例えば式(6)である。このP個のテンプレート(テンプレート情報S→(ω))を用いて第1実施形態で説明した処理を行えばよい。
【0054】
《第3実施形態》
第3実施形態は、第2実施形態と異なり、テンプレート情報を利活用して反射音Aq(ω,k)Rq→(ω,θq→(ω,k))を最適化する。式(13)の具体的な計算方法の一例を示す。下記に説明する最適化方法はqの昇順に各qに対して適用される。
【0055】
§1 方向情報の初期値設定
最初に、方向情報θq→(ω,k)の初期値θini,q→(ω,k)をテンプレート情報S→(ω)を用いて決定する。このために、推定されるべき到来方向に最も近いと考えられる方向に対応するテンプレートを決定し、この決定されたテンプレートに対応する方向情報を方向情報θq→(ω,k)の初期値θini,q→(ω,k)とすればよい。
【0056】
そこで、テンプレート情報の中から上述のようなテンプレートを決定するために、便宜上、反射音をAq(ω,k,g(ω,q))Sg(ω,q)→(ω)と表すことにする。ここで、g(ω,q)は、テンプレート情報の中でq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(ω,q))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(ω,q)→(ω)と反射音との相違を表す。この場合、q+1番目の残差信号Eq+1→(ω,k)は式(16)のように表される。ただしE1→(ω,k)=X→(ω,k)である。
【数17】
【0057】
反射音Aq(ω,k,g(ω,q))Sg(ω,q)→(ω)は、式(16)に基づくq+1番目の残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とする基準に従って推定される。推定方法は様々あるが、そのうちの一つの方法について述べる。反射音は、Aq(ω,k,g(ω,q))とSg(ω,q)→(ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。後述の=処理1=と=処理2=はqの昇順に各qについて行われる。
【0058】
=処理1=
記号Λはインデックスpの全体の集合{1,…,p,…,P}から後述する式(18)により決定されたインデックスの集合を除いた集合である。つまり、Λ={1,…,p,…,P}-{g(ω,1),…,g(ω,q-1)}とする。ただし、初めて<処理1>を行うときはΛ={1,…,p,…,P}である。
p番目のテンプレートSp→(ω)が残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(17)により求められる。なお、この段階では、式(17)左辺のqは意味を持たないことに留意されたい。
【数18】
【0059】
=処理2=
集合Λの要素の個数(濃度)を|Λ|とすると、式(17)に基づき得られた|Λ|個の係数Aq(ω,k,p)(p∈Λ)を用いて、テンプレートSg(ω,q)→(ω)のインデックスを表すg(ω,q)は、残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とするインデックスとして式(18)により得られる。
【数19】
【0060】
従って、方向情報θq→(ω,k)の初期値θini,q→(ω,k)は、式(18)により得られるg(ω,q)をインデックスに持つテンプレートSg(ω,q)→(ω)に対応する方向情報θg(ω,q)→(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)]として与えられる。すなわち、θini,q→(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)]である。初期値θini,q→(ω,k)はフレームインデックスkに依存しないことに留意されたい。
【0061】
§2 反射音の最適化
次に、方向情報θq→(ω,k)の初期値θini,q→(ω,k)を起点として、式(12)で表されるq+1番目の残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とするように、反射音Aq(ω,k)Rq→(ω,θq→(ω,k))を最適化する。反射音は、係数Aq(ω,k)とRq→(ω,θq→(ω,k))の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。この最適化方法は様々あるが、そのうちの一つの方法(勾配法)について述べる。例示する方法では、方向情報θq→(ω,k)の補正と係数Aq(ω,k)の補正が交互に所定回数(δ回)反復して行われることにより反射音Aq(ω,k)Rq→(ω,θq→(ω,k))が最適化される。δは例えば50程度の値とされるが1でもよい。
【0062】
§2.1 方向情報の補正
方向情報θq→(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]の補正は、式(19)による更新によって行われる。初めて§2.1の処理を行う場合、式(19)右辺の方向情報θq→(ω,k)は§1の処理で得られた初期値θini,q→(ω,k)であり、§2.1の処理が初めてではない場合、式(19)右辺の方向情報θq→(ω,k)は直前の§2.1の処理で得られた方向情報とする。また、初めて§2.1の処理を行う場合、パワー(Eq+1→(ω,k))HEq+1→(ω,k)の計算に用いられる係数Aq(ω,k)は式(17)で得られたAq(ω,k,p)とし、§2.1の処理が初めてではない場合、パワー(Eq+1→(ω,k))HEq+1→(ω,k)の計算に用いられる係数Aq(ω,k)は直前の§2.2の処理(後述する)で得られた係数Aq(ω,k)とする。ステップ幅α1およびα2は小さい正の定数であり、収束速度などを考慮して決定されるが、例えばそれぞれ0.1程度の値とされる。
【数20】
【0063】
§2.2 係数の補正
係数Aq(ω,k)の補正は、最小二乗法に基づき、式(20)に従って新たな係数Aq(ω,k)を求めることにより行われる。式(20)で用いるRq→(ω,θq→(ω,k))は§2.1の処理で得られた方向情報θq→(ω,k)と式(6)から得られる。
【数21】
【0064】
δ回の反復処理が終了した時点で得られている係数Aq(ω,k)と方向情報θq→(ω,k)がAq,opt(ω,k)とθq,opt→(ω,k)であり、q番目の反射音情報成分rsq→(ω,k)となる。すなわち、q番目の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(21)、式(22)で与えられる。
【数22】
【0065】
以上の過程により、Q個の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)](q=1,…,Q)が求められる。なお、δ=1に設定されている場合、係数の補正を行わないことにより、反射音情報として到来方向のみを求めることができる。
【0066】
《第4実施形態》
次に、第1、第2、第3実施形態と異なり、Q個の反射音Aq(ω,k)Rq→(ω,θq→(ω,k))を一括して最適化する方法について説明する。
【0067】
Q個の最適化された反射音Aq(ω,k)Rq→(ω,θq→(ω,k))は、観測信号からQ個の反射音を除去して得られる残差信号E→(ω,k)のパワー(E→(ω,k))HE→(ω,k)(式(23a)参照)を最小とする基準に従って決定される。具体的には、伝達特性関数Rq→(ω,θq→(ω,k))が方向情報θq→(ω,k)で決定されることに注意すると、Q個の反射音Aq(ω,k)Rq→(ω,θq→(ω,k))(1≦q≦Q)を表現する各パラメータAq(ω,k),θq→(ω,k)(1≦q≦Q)の最適値Aq,opt(ω,k),θq,opt→(ω,k)(1≦q≦Q)は式(23b)によって得られる。なお、記号Hは共役転置を表す。式(23b)にて、{(Aq,opt(ω,k),θq,opt→(ω,k))}q∈{1,…,Q}は、{(A1,opt(ω,k),θ1,opt→(ω,k)),…,(Aq,opt(ω,k),θq,opt→(ω,k)),…,(AQ,opt(ω,k),θQ,opt→(ω,k))}を表し、{(Aq(ω,k),θq→(ω,k))}q∈{1,…,Q}は、{(A1(ω,k),θ1→(ω,k)),…,(Aq(ω,k),θq→(ω,k)),…,(AQ(ω,k),θQ→(ω,k))}を表す。
【数23】
【0068】
このとき、q番目の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(24)、式(25)で与えられる。
【数24】
【0069】
式(23b)の具体的な計算方法は種々考えられるが、ここではその一例を示す。
【0070】
§1.1 方向情報の初期値設定
最初に、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)を設定する。Q個の初期値θini,q→(ω,k)(1≦q≦Q)の決定方法として、この実施形態では、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)を、観測信号X→(ω,k)とテンプレート情報S→(ω)を用いて決定するビーム探索的決定方法を説明する。この方法によると、Q個の推定されるべき到来方向それぞれに最も近いと考えられるQ個の方向に対応するQ個のテンプレートを決定し、この決定されたQ個のテンプレートに対応する方向情報をQ個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)とすればよい。なお、この場合、PとQとの間にQ<Pなる関係がある。
【0071】
そこで、テンプレート情報の中から上述のようなテンプレートを決定するために、便宜上、q番目の反射音をAq(ω,k,g(ω,q))Sg(ω,q)→(ω)と表すことにする。ここで、g(ω,q)は、テンプレート情報の中でq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(ω,q))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(ω,q)→(ω)と反射音との相違を表す。この場合、観測信号X→(ω,k)からq番目の反射音Aq(ω,k,g(ω,q))Sg(ω,q)→(ω)を除去して得られる残差信号Eq→(ω,k)は式(26)のように表される。
【数25】
【0072】
q番目の反射音Aq(ω,k,g(ω,q))Sg(ω,q)→(ω)は、式(26)に基づく残差信号Eq→(ω,k)のパワー(Eq→(ω,k))HEq→(ω,k)を最小とする基準に従って推定される。推定方法は様々あるが、そのうちの一つの方法について述べる。
【0073】
反射音は、Aq(ω,k,g(ω,q))とSg(ω,q)→(ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。まず、p番目のテンプレートSp→(ω)が残差信号Eq→(ω,k)のパワー(Eq→(ω,k))HEq→(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(27)により求められる。なお、この段階では、式(27)左辺のqは意味を持たないことに留意されたい。
【数26】
【0074】
次に、式(27)に基づき得られたP個の係数Aq(ω,k,p)(1≦p≦P)の中から、その絶対値の大きい方から順にQ個の係数Aq(ω,k,p)のインデックスq(1≦q≦Q)を決定する(式(28)参照)。記号Λは、インデックスpの全体の集合{1,…,p,…,P}から式(28)により決定されたインデックスの集合を除いた集合であり、Λ={1,…,p,…,P}-{g(ω,1),…,g(ω,q-1)}である。
【数27】
【0075】
従って、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)は、式(28)により得られるQ個のg(ω,q)(1≦q≦Q)をインデックスに持つテンプレートSg(ω,q)→(ω)(1≦q≦Q)に対応する方向情報θg(ω,q)→(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)として与えられる。すなわち、θini,q→(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)である。初期値θini,q→(ω,k)はフレームインデックスkに依存しないことに留意されたい。
【0076】
§1.2 係数Aq(ω,k)の初期値設定
次に、Q個の係数Aq(ω,k)の初期値Aini,q(ω,k)を設定する。Q個の初期値Aini,q(ω,k)(1≦q≦Q)の決定方法として種々のものが考えられるが、ここでは一例として、パワー最小化基準でQ個の初期値Aini,q(ω,k)(1≦q≦Q)を決定する方法を説明する。まず、Aq(ω,k,p)=0(1≦p≦P)とする。そして、初期値Aini,q(ω,k)(1≦q≦Q)は、残差信号E→(ω,k)のパワー(E→(ω,k))HE→(ω,k)を最小化するように、最小二乗法に基づき、式(29)により求められる。式(29)にてFq→(ω,k)は式(30)で与えられる。式(30)にてΥ={1,…,q-1,q+1,…,Q}であり、Fq→(ω,k)は観測信号からq番目の反射音を除去した残差信号である。なお、Q個の方向情報θq→(ω,k)として§1.1で決定されたQ個の初期値θini,q→(ω,k)を用いる。式(29)で用いるRq→(ω,θq→(ω,k))は方向情報の初期値θini,q→(ω,k)と式(6)から得られる。
【数28】
【0077】
§2 反射音の最適化
次に、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)を起点として、式(23a)で表される残差信号E→(ω,k)のパワー(E→(ω,k))HE→(ω,k)を最小とするように、Q個の反射音Aq(ω,k)Rq→(ω,θq→(ω,k))(1≦q≦Q)を一括して最適化する。各反射音は、係数Aq(ω,k)とRq→(ω,θq→(ω,k))の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。この最適化方法は様々あるが、そのうちの一つの方法(勾配法)について述べる。例示する方法では、方向情報θq→(ω,k)の補正と係数Aq(ω,k)の補正が交互に所定回数(δ回)反復して行われることによりQ個の反射音Aq(ω,k)Rq→(ω,θq→(ω,k))(1≦q≦Q)が最適化される。δは例えば100程度の値とされるが1でもよい。
【0078】
§2.1 方向情報の補正
Q個の方向情報θq→(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)](1≦q≦Q)の補正は、式(31)による更新によって行われる。各q(1≦q≦Q)について、初めて§2.1の処理を行う場合、式(31)右辺の方向情報θq→(ω,k)は§1.1の処理で得られた初期値θini,q→(ω,k)であり、§2.1の処理が初めてではない場合、式(31)右辺の方向情報θq→(ω,k)は直前の§2.1の処理で得られた方向情報とする。また、初めて§2.1の処理を行う場合、パワー(Fq→(ω,k))HFq→(ω,k)の計算に用いられる係数Aq(ω,k)(q∈Υ)として式(29)で得られたAini,q(ω,k)(1≦q≦Q)を用い、§2.1の処理が初めてではない場合、パワー(Fq→(ω,k))HFq→(ω,k)の計算に用いられる係数Aq(ω,k)(q∈Υ)として直前の§2.2の処理(後述する)で得られた係数Aq(ω,k)(1≦q≦Q)を用いる。ステップ幅α1およびα2は小さい正の定数であり、収束速度などを考慮して決定されるが、例えばそれぞれ0.1程度の値とされる。
【数29】
【0079】
§2.2 係数の補正
Q個の係数Aq(ω,k)(1≦q≦Q)の補正は、最小二乗法に基づき、式(32)に従って新たな係数Aq(ω,k)(1≦q≦Q)を求めることにより行われる。式(32)で用いるRq→(ω,θq→(ω,k))は§2.1の処理で得られた方向情報θq→(ω,k)と式(6)から得られる。式(32)にてFq→(ω,k)の計算に用いられる係数Aq(ω,k)(q∈Υ)として、初めて§2.2の処理を行う場合、§1.1の処理で得られた初期値Aini,q(ω,k)を用い、§2.2の処理が初めてではない場合、直前の§2.2の処理で得られた係数Aq(ω,k)(1≦q≦Q)を用いる。
【数30】
【0080】
δ回の反復処理が終了した時点で得られている係数Aq(ω,k)と方向情報θq→(ω,k)のQ個の組み合わせ(Aq(ω,k),θq→(ω,k))(1≦q≦Q)が{(Aq,opt(ω,k),θq,opt→(ω,k))}q∈{1,…,Q}であり、Q個の反射音情報成分rsq→(ω,k)(1≦q≦Q)となる。すなわち、q番目の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(33)、式(34)で与えられる。
【数31】
【0081】
以上の過程により、Q個の反射音情報成分rsq→(ω,k)=[rsAq(ω,k),rsBq(ω,k)](q=1,…,Q)が求められる。なお、δ=1に設定されている場合、係数の補正を行わないことにより、反射音情報として到来方向のみを求めることができる。
【0082】
《第5実施形態》
第5実施形態は、「§1.1 方向情報の初期値設定」が第4実施形態と異なる。そこで、第4実施形態と同じ事項については重複説明を省略し、第4実施形態と異なる事項について説明する。
【0083】
§1.1 方向情報の初期値設定
最初に、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)を設定する。Q個の初期値θini,q→(ω,k)(1≦q≦Q)の決定方法として、この実施形態では、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)を、観測信号X→(ω,k)とテンプレート情報S→(ω)を用いて決定する一般化調和解析的決定方法を説明する。この方法によると、Q個の推定されるべき到来方向それぞれに最も近いと考えられるQ個の方向に対応するQ個のテンプレートを決定し、この決定されたQ個のテンプレートに対応する方向情報をQ個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)とすればよい。なお、この場合、PとQとの間にQ<Pなる関係がある。
【0084】
そこで、テンプレート情報の中から上述のようなテンプレートを決定するために、便宜上、q番目の反射音をAq(ω,k,g(ω,q))Sg(ω,q)→(ω)と表すことにする。ここで、g(ω,q)は、テンプレート情報の中でq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(ω,q))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(ω,q)→(ω)と反射音との相違を表す。この場合、観測信号から1番目からq番目までのq個の反射音を除去して得られる残差信号Eq+1→(ω,k)は式(35)のように表される。ただし、1≦q≦Qであり、E1→(ω,k)=X→(ω,k)である。
【数32】
【0085】
q番目の反射音Aq(ω,k,g(ω,q))Sg(ω,q)→(ω)は、式(35)に基づく残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小とする基準に従って推定される。推定方法は様々あるが、そのうちの一つの方法について述べる。反射音は、Aq(ω,k,g(ω,q))とSg(ω,q)→(ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。後述の<処理1>と<処理2>はqの昇順に各qについて行われる。
【0086】
<処理1>
記号Λはインデックスpの全体の集合{1,…,p,…,P}から後述する式(37)により決定されたインデックスの集合を除いた集合である。つまり、Λ={1,…,p,…,P}-{g(ω,1),…,g(ω,q-1)}とする。ただし、初めて<処理1>を行うときはΛ={1,…,p,…,P}である。
p番目(p∈Λ)のテンプレートSp→(ω)が式(35)に基づく残差信号Eq+1→(ω,k)のパワー(Eq+1→(ω,k))HEq+1→(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(36)により求められる。なお、この段階では、式(36)左辺のqは意味を持たないことに留意されたい。
【数33】
【0087】
<処理2>
集合Λの要素の個数(濃度)を|Λ|とすると、式(36)に基づき得られた|Λ|個の係数Aq(ω,k,p)(p∈Λ)の中から、その絶対値が最大の係数Aq(ω,k,p)のインデックスq(1≦q≦Q)を決定する(式(37)参照)。
【数34】
【0088】
従って、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)は、式(37)により得られるQ個のg(ω,q)(1≦q≦Q)をインデックスに持つテンプレートSg(ω,q)→(ω)(1≦q≦Q)に対応する方向情報θg(ω,q)→(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)として与えられる。すなわち、θini,q→(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)である。初期値θini,q→(ω,k)はフレームインデックスkに依存しないことに留意されたい。
【0089】
第5実施形態では、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)の決定に一般化調和解析的決定方法を用いた。一般化調和解析的決定方法によると、初期値計算量がビーム探索的決定方法に比べて増大するが、推定されるべき反射音(正解)に近い初期値を設定できる可能性が高く、この場合、推定精度の向上を望めるだけでなく、反復処理の回数を減らすことができる。
【0090】
《第6実施形態》
第6実施形態では、「§1.1 方向情報の初期値設定」が第4実施形態と異なる。そこで、第4実施形態と同じ事項については重複説明を省略し、第4実施形態と異なる事項について説明する。第6実施形態のコンセプトは、第4実施形態よりも簡便でありながら、上述の初期値の偏りを防止することにある。
【0091】
§1.1 方向情報の初期値設定
まず、方向情報を構成するθpol(ω)とθazi(ω)のいずれか一方について、偏りが無いように複数の方向を決定する。この例では、極角θpol(ω)について偏りが無いようにβ個(β≧2)の方向{θ1,pol(ω),…,θβ,pol(ω)}を決定する。通常、極角は0°≦θpol(ω)≦180°を満たすから、例えば等間隔10°ごとに方向を定めることにより{θ1,pol(ω),…,θβ,pol(ω)}={0,10,20,…,180}となる(β=19)。テンプレート情報に含まれるテンプレートのうち集合{θ1,pol(ω),…,θβ,pol(ω)}の要素のいずれかを極角θpol(ω)として持つ方向情報(位置)に対応するテンプレートのインデックスの集合をΨとする。この際、集合Ψの要素の個数(濃度)|Ψ|が、Q≦|Ψ|<Pを満たすようになることが好ましい。集合Ψは、テンプレート情報に含まれるテンプレートに対応する方向情報(位置)の集合の真部分集合である。
【0092】
そして、p番目のテンプレートSp→(ω)が残差信号Eq→(ω,k)のパワー(Eq→(ω,k))HEq→(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)を、最小二乗法に基づき、式(38a)により求める。ただし、式(38a)の右辺で用いるテンプレートのインデックスpはp∈Ψである。なお、この段階では、式(38a)左辺のqは意味を持たないことに留意されたい。
【数35】
【0093】
次に、p∈Ψなる条件の下で式(38a)に基づき得られた|Ψ|個の係数Aq(ω,k,p)(1≦p≦|Ψ|)の中から、その絶対値の大きい方から順にQ個の係数Aq(ω,k,p)のインデックスq(1≦q≦Q)を決定する(式(38b)参照)。記号Γは、集合Ψから式(38b)により決定されたインデックスの集合を除いた集合であり、Γ=Ψ-{g(ω,1),…,g(ω,q-1)}である。
【数36】
【0094】
従って、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)は、式(38)により得られるQ個のg(ω,q)(1≦q≦Q)をインデックスに持つテンプレートSg(ω,q)→(ω)(1≦q≦Q)に対応する方向情報θg(ω,q)→(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)として与えられる。すなわち、θini,q→(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)である。初期値θini,q→(ω,k)はフレームインデックスkに依存しないことに留意されたい。
【0095】
これらの実施形態のほか、Q個の方向情報θq→(ω,k)の初期値θini,q→(ω,k)(1≦q≦Q)をランダムに設定する実施形態も許容される。
【0096】
<変形例>
上述の実施形態では周波数ごとに観測信号X→(ω,k)を用いて反射音情報rs→(ω,k)を推定したが、周波数ごとに反射音情報を推定すると、一意に推定されるべき仮想音源の方向(推定到来方向)以外の方向に関する情報も含んでしまうことがあり、この結果、反射音情報に誤差が生じることがありうる。例えば、図14(a)に示すように推定到来方向に関する情報だけを抽出できることが望ましいが、実際には図14(b)に示すように推定到来方向以外の方向に関する情報が混在してしまうことがありえる。
【0097】
そこで変形例では、全周波数に亘り一括してパワーを算出することで、反射音情報の推定誤差を小さくする。つまり、図15に示すように、残差信号のパワーを全周波数に亘り統括することによって、推定到来方向以外の方向の影響を極力減らすことができる。一般的に推定到来方向以外の方向では各周波数でのパワーにバラつきが生じるので、残差信号のパワーを全周波数に亘り統括することにより、推定到来方向のパワーに比してそれ以外の方向のパワーの相対的な影響を低減することができる。なお、図15では、縦軸のパワーは相対値を示しているので各グラフのスケールが同じであるわけではないことに留意されたい。
【0098】
この変形例での処理は次のとおりである。解析する周波数帯域に含まれる周波数のインデックスωの集合をΩとする。例えば、音声信号を扱うのであれば、1.0〜3.0kHz帯域に対応するインデックスの集合をΩとすればよい。そして、テンプレートSg(q,k)→(ω)のインデックスg(q,k)を式(10)の替わりに式(39)によって求める。
【数37】
【0099】
テンプレートSg(ω,q)→(ω)のインデックスg(ω,q)を式(18)の替わりに式(40)によって求める。また、方向情報θq→(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]の補正は、式(19)の替わりに式(41)による更新によって行われる。
【数38】
【0100】
テンプレートSg(ω,q)→(ω)のインデックスg(ω,q)を式(28)や式(37)の替わりに式(42)によって求める。同様に、式(38)の替わりに式(43)によって求める。また、方向情報θq→(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]の補正は、式(31)の替わりに式(44)による更新によって行われる。
【数39】
【実施例】
【0101】
本発明を用いて相対的な到来時刻差を推定した実験結果を示す。直方体の部屋で100本のマイクロホンを10行10列に等間隔に2次元的に並べ、壁際に配置した環境をシミュレートした。マイクロホン間隔dは4cmである。詳細な実験条件は図11に示してある。テンプレートの座標として、図10に示したように、マイクロホンアレーを取り囲む半球上に等間隔となるように配置した。1.0-3.0kHz帯域を解析した場合の実験結果を図12に示す。基準反射音として直接音を選択した。図が煩雑になることを避けるため、ここでは反射音1−3についてのみ図示している。反射音1について、直接音からの到来時刻差は周波数平均で1.4msecであり、反射音2について、直接音からの到来時刻差は周波数平均で2.5msecであり、反射音3について、直接音からの到来時刻差は周波数平均で4.7msecであった。低周波数帯域では距離に対する位相の変化が小さいために到来時刻差の推定値の誤差が大きくなる傾向があるため、周波数帯域全体に亘って平均をとることによって到来時刻差を求めることがよい。
【0102】
<応用例>
反射音情報は人間が生活する上で、非常に重要な音声情報である。例えば、視覚障害者は、タッピングによって発した音源信号が壁や天井等で反射して耳で観測することにより、環境を把握している。また、日常会話でも、適度な反射が生じる部屋で会話することと、反射音が比較的少ない環境で会話することでは会話のしやすさに相違が生じる。以下、本発明により推定された反射音情報を用いたサービス例について述べる。
1つ目は、会議システムに本発明を組み込んだ例である。指向性音源の向きに応じて反射音の振幅は変化するので、反射音情報が分かると、どの方向に音源が向いているのかを推定することができる。会議システムに音源向きの推定装置を組み込めば、誰に向かって発言したのかを提示することに応用できる。
2つ目は、自由な位置で映像や音声を鑑賞できるシステムである。遠方にある音は直接到来する音源のパワーが小さいので収音することが困難である。反射音情報が分かると、直接音だけでなく、反射音も強調収音できるので、遠方の音を強調することが可能となる。また、音声処理の分野では、方向別に音源の強調収音は可能であるが、距離別に音声を強調収音することは非常に難しいとされている。反射音情報が分かると、距離に対応する物理的な特徴量が得られるので、距離別に収音することが可能となる。遠方の音を収音したり、方向別、距離別に収音することができれば、視聴者の選択した位置に対応した音場を擬似的に生成することが可能となる。
【0103】
音声通信システムにおいて、反射音情報を推定することは、直接音だけでは得られなかった音場の情報を得ることにつながる。反射音情報が分かれば、これまでの音声強調技術ではできなかったような遠方音の収音や距離別の収音に結びついたり、従来の収音技術では推定できなかった音場の情報(例えば音源の向き)を推定できる。こういった音場の情報の推定は、これまでの技術では実現できなかった音声処理装置の開発に繋がる。反射音情報の推定に関する従来技術は、インパルス応答を求めるために特殊な信号を観測する必要があったが、本発明は音声信号のような一般的な観測信号で反射音情報を得られるという利点を持つ。
【0104】
<反射音情報推定装置のハードウェア構成例>
上述の実施形態に関わる反射音情報推定装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、反射音情報推定装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0105】
反射音情報推定装置の外部記憶装置には、反射音情報を推定するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
【0106】
反射音情報推定装置の記憶部には、アナログ信号に対してAD変換を行うためのプログラム、フレーム分割処理を行うためのプログラム、フレームごとのデジタル信号を周波数領域の観測信号に変換するためのプログラム、テンプレート情報を生成するためのプログラム、周波数領域の観測信号とテンプレート情報を用いて反射音情報を推定するためのプログラムが記憶されている。
【0107】
反射音情報推定装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(AD変換部、フレーム分割部、周波数領域変換部、テンプレート生成部、反射音情報推定部、到来時刻差推定部)を実現することで反射音情報の推定が実現される。
【0108】
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0109】
また、上記実施形態において説明したハードウェアエンティティ(反射音情報推定装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0110】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0111】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0112】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0113】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【特許請求の範囲】
【請求項1】
所定の周波数帯域に含まれる周波数ごとに空間中の任意の位置と複数のマイクロホンとの間の伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じて表される複数の反射音について、基準となる反射音に対する他の反射音の相対的な到来時刻差を推定する反射音情報推定装置であって、
Qを2以上の予め定められた整数として、Q個の上記反射音それぞれの複素振幅(以下、到来振幅という)を入力とし、上記基準反射音以外の反射音(以下、対象反射音という)それぞれについて、上記基準反射音の到来振幅に対する対象反射音の到来振幅の偏角を周波数で除したものに対する周波数についての相加平均を、上記基準反射音に対する対象反射音の相対的な到来時刻差とする到来時刻差推定部
を含む反射音情報推定装置。
【請求項2】
請求項1に記載の反射音情報推定装置において、
上記到来時刻差推定部は、
Q個の上記反射音の中から各上記対象反射音に共通の上記基準反射音を決定する
ことを特徴とする反射音情報推定装置。
【請求項3】
請求項1に記載の反射音情報推定装置において、
上記到来時刻差推定部は、
上記対象反射音ごとにQ個の上記反射音の中から上記基準反射音を決定する
ことを特徴とする反射音情報推定装置。
【請求項4】
請求項1から請求項3のいずれかに記載の反射音情報推定装置において、
Q個の上記反射音の到来振幅はそれぞれ、
音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)を用いて、qを1以上Q以下の各整数として、各qについて、伝達特性関数に複素振幅を乗じたものをq番目の最小の残差信号(ただし、1番目の最小の残差信号は上記観測信号とする)から減じて得られるq+1番目の残差信号のパワーが最小になるように当該伝達特性関数および当該複素振幅を推定し、推定された当該複素振幅をq番目の反射音の到来振幅とすることによって得られたものである
ことを特徴とする反射音情報推定装置。
【請求項5】
請求項1から請求項3のいずれかに記載の反射音情報推定装置において、
Q個の上記反射音の到来振幅は、
音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)から相異なるQ個の上記位置に対応するQ個の反射音を減じて得られる残差信号のパワーが最小になるようにQ個の伝達特性関数およびQ個の複素振幅を一括して推定することによって得られたQ個の複素振幅である
ことを特徴とする反射音情報推定装置。
【請求項6】
所定の周波数帯域に含まれる周波数ごとに空間中の任意の位置と複数のマイクロホンとの間の伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じて表される複数の反射音について、基準となる反射音に対する他の反射音の相対的な到来時刻差を推定する反射音情報推定方法であって、
Qを2以上の予め定められた整数として、Q個の上記反射音それぞれの複素振幅(以下、到来振幅という)を用いて、上記基準反射音以外の反射音(以下、対象反射音という)それぞれについて、上記基準反射音の到来振幅に対する対象反射音の到来振幅の偏角を周波数で除したものに対する周波数についての相加平均を、上記基準反射音に対する対象反射音の相対的な到来時刻差とする到来時刻差推定過程
を有する反射音情報推定方法。
【請求項7】
請求項6に記載の反射音情報推定方法において、
上記到来時刻差推定過程では、
Q個の上記反射音の中から各上記対象反射音に共通の上記基準反射音を決定する
ことを特徴とする反射音情報推定方法。
【請求項8】
請求項6に記載の反射音情報推定方法において、
上記到来時刻差推定過程では、
上記対象反射音ごとにQ個の上記反射音の中から上記基準反射音を決定する
ことを特徴とする反射音情報推定方法。
【請求項9】
請求項6から請求項8のいずれかに記載の反射音情報推定方法において、
Q個の上記反射音の到来振幅はそれぞれ、
音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)を用いて、qを1以上Q以下の各整数として、各qについて、伝達特性関数に複素振幅を乗じたものをq番目の最小の残差信号(ただし、1番目の最小の残差信号は上記観測信号とする)から減じて得られるq+1番目の残差信号のパワーが最小になるように当該伝達特性関数および当該複素振幅を推定し、推定された当該複素振幅をq番目の反射音の到来振幅とすることによって得られたものである
ことを特徴とする反射音情報推定方法。
【請求項10】
請求項6から請求項8のいずれかに記載の反射音情報推定方法において、
Q個の上記反射音の到来振幅は、
音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)から相異なるQ個の上記位置に対応するQ個の反射音を減じて得られる残差信号のパワーが最小になるようにQ個の伝達特性関数およびQ個の複素振幅を一括して推定することによって得られたQ個の複素振幅である
ことを特徴とする反射音情報推定方法。
【請求項11】
コンピュータに、請求項6から請求項10のいずれかに記載の反射音情報推定方法の処理を実行させるためのプログラム。
【請求項1】
所定の周波数帯域に含まれる周波数ごとに空間中の任意の位置と複数のマイクロホンとの間の伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じて表される複数の反射音について、基準となる反射音に対する他の反射音の相対的な到来時刻差を推定する反射音情報推定装置であって、
Qを2以上の予め定められた整数として、Q個の上記反射音それぞれの複素振幅(以下、到来振幅という)を入力とし、上記基準反射音以外の反射音(以下、対象反射音という)それぞれについて、上記基準反射音の到来振幅に対する対象反射音の到来振幅の偏角を周波数で除したものに対する周波数についての相加平均を、上記基準反射音に対する対象反射音の相対的な到来時刻差とする到来時刻差推定部
を含む反射音情報推定装置。
【請求項2】
請求項1に記載の反射音情報推定装置において、
上記到来時刻差推定部は、
Q個の上記反射音の中から各上記対象反射音に共通の上記基準反射音を決定する
ことを特徴とする反射音情報推定装置。
【請求項3】
請求項1に記載の反射音情報推定装置において、
上記到来時刻差推定部は、
上記対象反射音ごとにQ個の上記反射音の中から上記基準反射音を決定する
ことを特徴とする反射音情報推定装置。
【請求項4】
請求項1から請求項3のいずれかに記載の反射音情報推定装置において、
Q個の上記反射音の到来振幅はそれぞれ、
音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)を用いて、qを1以上Q以下の各整数として、各qについて、伝達特性関数に複素振幅を乗じたものをq番目の最小の残差信号(ただし、1番目の最小の残差信号は上記観測信号とする)から減じて得られるq+1番目の残差信号のパワーが最小になるように当該伝達特性関数および当該複素振幅を推定し、推定された当該複素振幅をq番目の反射音の到来振幅とすることによって得られたものである
ことを特徴とする反射音情報推定装置。
【請求項5】
請求項1から請求項3のいずれかに記載の反射音情報推定装置において、
Q個の上記反射音の到来振幅は、
音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)から相異なるQ個の上記位置に対応するQ個の反射音を減じて得られる残差信号のパワーが最小になるようにQ個の伝達特性関数およびQ個の複素振幅を一括して推定することによって得られたQ個の複素振幅である
ことを特徴とする反射音情報推定装置。
【請求項6】
所定の周波数帯域に含まれる周波数ごとに空間中の任意の位置と複数のマイクロホンとの間の伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じて表される複数の反射音について、基準となる反射音に対する他の反射音の相対的な到来時刻差を推定する反射音情報推定方法であって、
Qを2以上の予め定められた整数として、Q個の上記反射音それぞれの複素振幅(以下、到来振幅という)を用いて、上記基準反射音以外の反射音(以下、対象反射音という)それぞれについて、上記基準反射音の到来振幅に対する対象反射音の到来振幅の偏角を周波数で除したものに対する周波数についての相加平均を、上記基準反射音に対する対象反射音の相対的な到来時刻差とする到来時刻差推定過程
を有する反射音情報推定方法。
【請求項7】
請求項6に記載の反射音情報推定方法において、
上記到来時刻差推定過程では、
Q個の上記反射音の中から各上記対象反射音に共通の上記基準反射音を決定する
ことを特徴とする反射音情報推定方法。
【請求項8】
請求項6に記載の反射音情報推定方法において、
上記到来時刻差推定過程では、
上記対象反射音ごとにQ個の上記反射音の中から上記基準反射音を決定する
ことを特徴とする反射音情報推定方法。
【請求項9】
請求項6から請求項8のいずれかに記載の反射音情報推定方法において、
Q個の上記反射音の到来振幅はそれぞれ、
音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)を用いて、qを1以上Q以下の各整数として、各qについて、伝達特性関数に複素振幅を乗じたものをq番目の最小の残差信号(ただし、1番目の最小の残差信号は上記観測信号とする)から減じて得られるq+1番目の残差信号のパワーが最小になるように当該伝達特性関数および当該複素振幅を推定し、推定された当該複素振幅をq番目の反射音の到来振幅とすることによって得られたものである
ことを特徴とする反射音情報推定方法。
【請求項10】
請求項6から請求項8のいずれかに記載の反射音情報推定方法において、
Q個の上記反射音の到来振幅は、
音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)から相異なるQ個の上記位置に対応するQ個の反射音を減じて得られる残差信号のパワーが最小になるようにQ個の伝達特性関数およびQ個の複素振幅を一括して推定することによって得られたQ個の複素振幅である
ことを特徴とする反射音情報推定方法。
【請求項11】
コンピュータに、請求項6から請求項10のいずれかに記載の反射音情報推定方法の処理を実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図8】
【図9】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図8】
【図9】
【図16】
【公開番号】特開2012−39276(P2012−39276A)
【公開日】平成24年2月23日(2012.2.23)
【国際特許分類】
【出願番号】特願2010−176019(P2010−176019)
【出願日】平成22年8月5日(2010.8.5)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り ・発行者名 社団法人日本音響学会 ・刊行物名 日本音響学会2010年春季研究発表会 〔講演論文集〕 講演要旨・講演論文CD−ROM ・発行年月日 2010年3月1日
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成24年2月23日(2012.2.23)
【国際特許分類】
【出願日】平成22年8月5日(2010.8.5)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り ・発行者名 社団法人日本音響学会 ・刊行物名 日本音響学会2010年春季研究発表会 〔講演論文集〕 講演要旨・講演論文CD−ROM ・発行年月日 2010年3月1日
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]