フィルタ設計における反射物の配置決定方法、装置、プログラム
【課題】音声に基づく情報に対して適用されるフィルタの設計において音声を反射する反射物の配置を決定する技術を提供する。
【解決手段】音声に基づく情報に対して適用されるフィルタが、空間中における複数の方向の伝達特性によって表される空間相関行列を用いて所定の評価関数に基づいて設計される場合であって、各伝達特性は、直接音の伝達特性と反射物で反射する一つの反射音の各伝達特性との和で表されており、評価関数は少なくとも目的方向の音声が強調されるほど小さな値をとる関数である。記憶部にはマイクロホンアレーまたはスピーカアレーに対する反射物の配置の候補が記憶されており、配置決定部が、反射物の各候補について、当該候補に基づいて特定される伝達特性によって表される空間相関行列を用いて評価関数の値を求め、当該値のうち最小のものに対応する候補を反射物の配置として決定する。
【解決手段】音声に基づく情報に対して適用されるフィルタが、空間中における複数の方向の伝達特性によって表される空間相関行列を用いて所定の評価関数に基づいて設計される場合であって、各伝達特性は、直接音の伝達特性と反射物で反射する一つの反射音の各伝達特性との和で表されており、評価関数は少なくとも目的方向の音声が強調されるほど小さな値をとる関数である。記憶部にはマイクロホンアレーまたはスピーカアレーに対する反射物の配置の候補が記憶されており、配置決定部が、反射物の各候補について、当該候補に基づいて特定される伝達特性によって表される空間相関行列を用いて評価関数の値を求め、当該値のうち最小のものに対応する候補を反射物の配置として決定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声に基づく情報に対して適用されるフィルタの設計において音声を反射する反射物の配置を決定する技術に関する。
【背景技術】
【0002】
例えばマイクロホンを備えた動画撮影装置(ビデオカメラやカムコーダ)で被写体をズームイン撮影する場合を考えると、ズームイン撮影に連動して被写体近傍のみからの音声が強調されることが動画撮影にとって好ましい。このような、所望の方向(目的方向)を含む狭い範囲の音声を強調する技術(音声強調技術)は、従来から研究・開発されている。なお、マイクロホンの周囲の方向とマイクロホンの感度との関係は指向性と呼ばれ、或る方向への指向性が鋭いほど、当該方向を含む狭い範囲の音声を強調し、当該範囲以外の範囲の音声を抑圧することができる。なお、この明細書では、「音声」は、人の発する声に限定されるものではなく、人や動物の声はもとより楽音や環境雑音など「音」一般を指す。
【0003】
反射音を選択収音することによる音声強調技術として、例えばマルチビームフォーミング法がある(非特許文献1参照)。マルチビームフォーミング法は、直接音や反射音という個々の音を寄せ集めることで、高SN比で目的方向の音声を収音することができる音声強調技術であり、音声分野よりも無線分野でよく研究されている。
【0004】
以下、周波数領域でのマルチビームフォーミング法の処理内容を説明する。説明に先立ち、記号を定義する。周波数のインデックスをω、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、方向θsにある強調したい音源からの直接音の到来方向をθs1、反射音の到来方向をθs2,…,θsRとする。Tは転置を表し、R-1は反射音の総数である。方向θsrの音声を強調するフィルタをW→(ω,θsr)とする。ここで、rは1≦r≦Rを満たす各整数である。
【0005】
マルチビームフォーミング法では、直接音および反射音の到来方向や到来時間が既知であることが前提である。つまり、音の反射が明らかに予想できる壁、床、反射板といった物体の数がR-1に等しい。また、反射音数R-1は3あるいは4という比較的小さな値に設定されることが多い。これは、直接音と低次の反射音との間に高い相関性が認められることに基づく。マルチビームフォーミング法は、各々の音声を個別に強調して同期加算する方式なので、出力信号Y(ω,k,θs)は式(1)で与えられる。Hはエルミート転置を表す。
【数1】
【0006】
フィルタW→(ω,θsr)の設計法として遅延合成法を説明する。直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θsr)は式(2)で与えられる。h→(ω,θsr)=[h1(ω,θsr),…,hM(ω,θsr)]Tは、方向θsrから到来する音声の伝搬ベクトルである。
【数2】
【0007】
線形マイクロホンアレー(M個のマイクロホンが直線状に並べられたマイクロホンアレー)に平面波が到来することを仮定すると、h→(ω,θsr)を構成する要素hm(ω,θsr)は式(3)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。τ(θsr)は、方向θsrから到来する反射音の直接音に対する時間遅延を表す。
【数3】
【0008】
最後に、出力信号Y(ω,k,θs)を時間領域に変換することによって、目的方向θsにある音源の音声を強調した信号が得られる。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】J.L.Flanagan, A.C.Surendran, E.E.Jan, "Spatially selective sound capture for speech and audio processing," Speech Communication, Volume 13, Issue 1-2, pp.207-222, October 1993.
【発明の概要】
【発明が解決しようとする課題】
【0010】
マルチビームフォーミング法では、直接音および反射音の到来方向や到来時間が既知であることが前提である。また、或る方向θsrからの音声を強調するフィルタW→(ω,θsr)を設計する際、式(2)で表されるように、当該方向θsrの音声だけを単独で考慮していた。
【0011】
しかし、詳しくは本発明の実施形態で後述するが、フィルタ設計の段階にて、或る方向に関する音声を直接音と反射音の混合音声として考慮することが好ましい場合があり、この場合、マイクロホンアレーまたはスピーカアレーとの関係で、音声を反射する反射物の適切な配置を決定することが求められる場合がある。
【0012】
そこで本発明は、音声に基づく情報に対して適用されるフィルタの設計において音声を反射する反射物のマイクロホンアレーまたはスピーカアレーに対する配置を決定する技術を提供することを目的とする。
【課題を解決するための手段】
【0013】
音声に基づく情報に対して適用されるフィルタが、空間中における複数の方向の伝達特性によって表される空間相関行列を用いて所定の評価関数に基づいて設計される場合であって、各伝達特性は、直接音の伝達特性と反射物で反射する一つの反射音の各伝達特性との和で表されており、評価関数は少なくとも目的方向の音声が強調されるほど小さな値をとる関数である。記憶部にはマイクロホンアレーまたはスピーカアレーに対する反射物の配置関係を表す情報(以下、配置情報という)が記憶されており、配置決定部が、配置情報に基づく反射物の各候補について、当該候補に基づいて特定される伝達特性によって表される空間相関行列を用いて評価関数の値を求め、当該値のうち最小のものに対応する候補を反射物の配置として決定する。
【発明の効果】
【0014】
本発明に拠ると、音声に基づく情報に対して適用されるフィルタの設計において音声を反射する反射物のマイクロホンアレーまたはスピーカアレーに対する配置を決定することができる。
【図面の簡単な説明】
【0015】
【図1】実施形態に係る反射物配置決定装置の機能構成を示す図。
【図2】適用形態1の音声処理装置の機能構成を示す図。
【図3】適用形態1の音声処理方法の処理手順を示す図。
【図4】適用形態2の音声処理装置の機能構成を示す図。
【図5】適用形態2の音声処理方法の処理手順を示す図。
【図6】適用形態3の音声処理装置の機能構成を示す図。
【図7】適用形態3の音声処理方法の処理手順を示す図。
【図8】適用形態4の音声処理装置の機能構成を示す図。
【図9】適用形態4の音声処理方法の処理手順を示す図。
【図10】マイクロホンアレーと反射板との位置関係等を示す図(その1)。
【図11】マイクロホンアレーと反射板との位置関係等を示す図(その2)。
【図12】スピーカアレーと反射板との位置関係等を示す図(その1)。
【図13】スピーカアレーと反射板との位置関係等を示す図(その2)。
【発明を実施するための形態】
【0016】
本発明の実施形態を、図1を参照して説明する。予め概略を述べると、本発明は、或る方向に関する音声を直接音と反射音の混合音声として考慮する場合に、音声に基づく情報(実施形態の例では、音声信号が周波数領域に変換された周波数領域信号)に対して適用されるフィルタの設計において音声を反射する反射物のマイクロホンアレーまたはスピーカアレーに対する配置を決定する技術であり、フィルタの設計コンセプト自体には影響を与えない。従って、本発明が適用されるフィルタ設計手法として格別の限定はない。フィルタの設計コンセプトは、統計的最適化規範であり、例えば、入力サンプル列にフィルタを適用して得られる出力と希望応答との差(推定誤差)について、推定誤差の平均2乗値、推定誤差の絶対値の期待値、推定誤差の絶対値に関する3次以上のべき乗の期待値、などを評価関数として挙げることができ、この評価関数を最小化(評価関数やその表現によっては最大化)することによりフィルタを設計する。ここでは説明を一貫させるため、評価関数は、少なくともマイクロホンアレーまたはスピーカアレーから見た目的方向の音声が強調されるほど絶対値の小さい値を出力する関数とする。「少なくとも・・・目的方向」とした理由は、後の<距離の導入>で説明するように、いずれの設計法においても、目的方向のみならず、マイクロホンアレーまたはスピーカアレーから音源までの距離も考慮してフィルタを設計することも可能であるからである。ここでは、フィルタ設計手法として、最小分散無歪応答法(MVDR method;minimum variance distortion response method)、SN比最大化規準によるフィルタ設計法、パワーインバージョン(Power Inversion)に基づくフィルタ設計法の3種類を例示する。最小分散無歪応答法については参考文献1を、SN比最大化規準によるフィルタ設計法とパワーインバージョンに基づくフィルタ設計法については参考文献2を参照されたい。
(参考文献1)大賀寿郎、山崎芳男、金田豊 著、「音響システムとディジタル処理」、社団法人電子情報通信学会、1995、pp.203-209
(参考文献2)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35-90
【0017】
本発明の実施形態である反射物配置決定装置100は、それ単体で独立に存在するよりは、例えば後述する音声処理装置1,2,3,4を構成するエンティティとして存在するのが一般的である。さらに云えば、反射物配置決定装置100は、音声処理装置1,2,3,4とは容易に分離可能に音声処理装置1,2,3,4を構成するエンティティではなく、音声処理装置1,2,3,4自体の一部の機能に着眼して片面的に評価したものと云うこともできる。要するに、反射物配置決定装置100は、音声処理装置1,2,3,4そのものであることが一般的である。具体的には、反射物配置決定装置100の機能を中央演算装置や専用LSIに実装して、反射物配置決定装置100を実現することができる。
ただし、反射物配置決定装置100が、単体独立のエンティティとして存在すること、音声処理装置1,2,3,4とは容易に分離可能に音声処理装置1,2,3,4を構成するエンティティであることを排除する趣旨ではない。例えば反射物の配置決定それ自体を目的とするならば、反射物配置決定装置100を単体独立のエンティティとして実現することに何らの妨げは無い。
ここで音声処理装置1,2,3,4は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、単体独立のエンティティとして反射物配置決定装置100を実現する場合も同様である。
【0018】
<1>最小分散無歪応答法によるフィルタ設計法
説明に先立ち、改めて記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の第kフレームの周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、マイクロホンアレーの中心から見て目的方向θsの音声の周波数領域表現を周波数ωで強調するフィルタをW→(ω,θs)とする。Mは2以上の整数とする。Tは転置を表す。このとき、目的方向θsの音声の周波数領域表現が周波数ωで強調された周波数領域信号(以下、出力信号と呼ぶ)Y(ω,k,θs)は式(4)で与えられる。Hはエルミート転置を表す。
【数4】
【0019】
「マイクロホンアレーの中心」は任意に定めることができるが、一般的にはM個のマイクロホンの配置の幾何学的中心が「マイクロホンアレーの中心」とされ、例えば線形マイクロホンアレーであれば両端のマイクロホンの中間点が「マイクロホンアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面マイクロホンアレーであれば、四隅のマイクロホンの対角線が交わる位置が「マイクロホンアレーの中心」とされる。
【0020】
フィルタW→(ω,θs)の設計法として最小分散無歪応答法に拠る場合、フィルタW→(ω,θs)は、式(6)の拘束条件の下、空間相関行列Q(ω)を用いて目的方向θs以外の方向の音声(以下、「目的方向θs以外の方向の音声」を「雑音」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(5)参照)。a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、方向θsに音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性である。換言すれば、a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、マイクロホンアレーに含まれる各マイクロホンへの方向θsの音声の周波数ωでの伝達特性である。
【数5】
【0021】
式(5)の最適解であるフィルタW→(ω,θs)は式(7)で与えられることが知られている(参考文献1参照)。
【数6】
【0022】
式(5)から、雑音のパワーは空間相関行列Q(ω)の構造に依存することがわかる。そこで、空間相関行列Q(ω)の構造について説明する。雑音の到来方向のインデックスpが属する集合を{1,2,…,P-1}とする。目的方向θsのインデックスsは集合{1,2,…,P-1}に属さないとする。P-1個の雑音が任意の方向から到来すると仮定すると、空間相関行列Q(ω)は式(8a)で与えられる。多くの雑音が存在する中でも十分に機能するフィルタを作る観点から、Pはある程度大きい値であることが好ましく、M程度の整数であるとする。なお、ここでは発明の原理を分かり易く説明する観点から目的方向θsがあたかも特定の方向の如く説明しているが(それ故、目的方向θs以外の方向を「雑音」の方向としている)、実際には、目的方向θsは音声強調の対象となりえる任意の方向であり、目的方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、目的方向θsと雑音の方向との区別は凡そ主観的なものであり、目的音か雑音かの区別なく音声の到来方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が目的方向であり、それ以外の方向が雑音の方向であると理解することがより正確である。そこで、集合{1,2,…,P-1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω)は、音声の到来方向として想定される複数の方向に含まれる各方向θφの音声の各マイクロホンへの伝達特性a→(ω,θφ)=[a1(ω,θφ),…,aM(ω,θφ)]T(φ∈Φ)によって表される空間相関行列であり、式(8b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
【数7】
【0023】
マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物で反射した反射音との二種類の音波(ここでは説明の便宜で平面波と仮定するが、球面波であってもよい)が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、音声強調の対象となりえる方向の音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(9a)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tは方向θの直接音のステアリングベクトルを、h→rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θの直接音に対応する反射音のステアリングベクトルを表す。なお、ステアリングベクトルは、マイクロホンアレーの中心から見て方向θの音波について、基準点に対する各マイクロホンの周波数ωでの位相応答特性を並べた複素ベクトルである。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
【数8】
【0024】
M個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射物との位置関係は、当該音源からの音が少なくとも一つの反射物で反射してマイクロホンアレーに届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはマイクロホンアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えばマイクロホンアレーを設置している支持体に対して可動に組み合わされた反射板)であっても移動不能な物体(例えばマイクロホンアレーを設置している支持体に固定された反射板)であってもよい。反射物の配置関係の決定については後述する。
【0025】
線形マイクロホンアレーに音声が平面波として到来すると仮定すると、直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(10a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。基準点は線形マイクロホンアレーの全長の半分の位置(線形マイクロホンアレーの中心)である。方向θは線形マイクロホンアレーの中心から見て直接音の到来方向と線形マイクロホンアレーに含まれるマイクロホンの配列方向とがなす角度として定義した(図10、図11参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形マイクロホンアレーの一端にあるマイクロホンの位置とすれば、直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(10b)で与えられる。以下、直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(10a)で与えられるとして説明する。
【数9】
【0026】
反射音のステアリングベクトルh→r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(10a)参照)、式(11a)で表される。関数Ψ(θ)は反射音の到来方向を出力する。なお、直接音のステアリングベクトルを式(10b)で表す場合には、反射音のステアリングベクトルh→r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(11b)で表される。一般的に、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(11c)や式(11d)で表される。関数Ψξ(θ)はξ番目(1≦ξ≦Ξ)の反射音の到来方向を出力する。
【数10】
【0027】
さて、到来時間差τξ(θ)と関数Ψξ(θ)は、マイクロホンアレーに対する反射物の配置関係によって定まる。到来時間差τξ(θ)と関数Ψξ(θ)が定まると、直接音のステアリングベクトルh→d(ω,θ)と反射音のステアリングベクトルh→rξ(ω,θ)が定まる。直接音のステアリングベクトルh→d(ω,θ)と反射音のステアリングベクトルh→rξ(ω,θ)が定まると、伝達特性a→(ω,θ)が定まる。伝達特性a→(ω,θ)が定まると、空間相関行列Q(ω)が定まる。そして、既述のとおり、雑音のパワーは空間相関行列Q(ω)の構造に依存する。よって、マイクロホンアレーに対する反射物の配置関係を決定することが重要である。ここでは、具体例として、マイクロホンアレーに対する角度(線形マイクロホンアレーに含まれるマイクロホンの配列方向と反射物とがなす角度)とマイクロホンアレーの中心からの距離をもって、マイクロホンアレーに対する反射物の配置関係を特定することとする(図10、図11、図12、図13参照)。
【0028】
以下、具体的に説明する観点から、Ξ=1とし、反射音の反射回数は1回であって、マイクロホンアレーの中心から離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体平板とする。以下、反射物を反射板と呼称する。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(9a)は式(9b)のように表すことができる。
【数11】
【0029】
反射物配置決定装置の記憶部101には、マイクロホンアレーに対する反射板の配置関係を表す情報がデータとして記憶されている(後述するように実施形態によっては、「スピーカアレーに対する反射板の配置関係を表す情報」であるが、ここではマイクロホンアレーの場合を代表して説明する)。マイクロホンアレーに対する反射板の配置関係を表す情報の一例は、マイクロホンアレーに対する反射板の配置に関する予め定められた候補の集合であり、この集合をUとする。集合Uに含まれる候補は、例えば、マイクロホンアレーに対する反射板の角度の候補の数をJとし、マイクロホンアレーの中心から反射板までの距離の候補の数をKとすると、角度の候補と距離の候補との組み合わせによって表され、集合Uに含まれる候補の総数はJ×K(以下、JKと略記する)となる。
【0030】
マイクロホンアレーに対する反射板の配置関係を表す情報の他の例として、関数を表す情報でもよい。例えば、マイクロホンアレーに対する反射板の角度の候補CAngle,j=j×Δθ[j=1,2,…,J]を与える離散関数と、マイクロホンアレーの中心から反射板までの距離の候補Cdistance,k=k×ΔL[k=1,2,…,K]を与える離散関数を、マイクロホンアレーに対する反射板の配置関係を表す情報として反射物配置決定装置の記憶部101が記憶する構成でもよい。ここで、Δθは予め定められた角度、ΔLは予め定められた長さである。ここでは、等間隔に角度と距離の候補を与える離散関数を例示したが、非等間隔に角度と距離の候補を与える離散関数や、あるいは連続関数であってもよいことはもちろんである(連続関数の場合は例えば入力値を離散的に設定すればよい)。
【0031】
反射物配置決定装置100の配置決定部110は、記憶部101から取得したJK個の候補、あるいは記憶部101に記憶された関数に従って配置決定部110が計算して得たJK個の候補、のそれぞれ(候補インデックスをnとする)について、式(12)によるパワー(評価関数)pnを計算する。Ωは周波数ωの集合である。空間相関行列Qn(ω)は、候補インデックスnに対応する反射板の配置関係に基づく空間相関行列であり(式(8a)または式(8b)参照)、フィルタWn→(ω,θs)は、候補インデックスnに対応する反射板の配置関係に基づくフィルタである(式(7)参照)。
【数12】
【0032】
目的方向θsが一つの場合は式(12)に拠るが、目的方向が複数である場合は、配置決定部110は、式(13)によるパワー(評価関数)pnを計算する。複数の目的方向をθs1,…,θsAとする。ただし、その総数|{θs1,…,θsA}|=AはPを超えない。この処理は、複数の目的方向について、これらの目的方向のうちいずれかに特化して良好な音声強調を実現するフィルタを設計する観点ではなく、これらの目的方向のうちのどの方向であってもバランス良く良好な音声強調を実現するフィルタを設計する観点によるものである。
【数13】
【0033】
次に、配置決定部110は、JK個の候補の対応するパワーp1,…,pJKのうち最小のパワーを探索する。例えば、最小のパワーがpgであれば、そのインデックスgで特定される「マイクロホンアレーに対する反射板の角度とマイクロホンアレーの中心から反射板までの距離」がマイクロホンアレーに対する最適な反射板の配置条件として決定される。
【0034】
<2>SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、目的方向θsでのSN比(SNR)を最大化する規準でフィルタW→(ω,θs)を決定する。目的方向θsの音声の空間相関行列をRss(ω)、目的方向θs以外の方向の音声の空間相関行列をRnn(ω)とする。このとき、評価関数であるSNRは式(14)で表される。なお、Rss(ω)は式(15)、Rnn(ω)は式(16)で表される。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(9a)で表される(正確には、式(9a)のθをθsとしたものである)。
【数14】
【0035】
式(14)のSNRを最大にするフィルタW→(ω,θs)は、フィルタW→(ω,θs)に関する勾配をゼロとすること、つまり式(17)によって求めることができる。
【数15】
【0036】
これにより、式(14)のSNRを最大にするフィルタW→(ω,θs)は式(18)で与えられる。
【数16】
【0037】
式(18)には目的方向θs以外の方向の音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、目的方向θsの音声と目的方向θs以外の方向の音声を含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)=Q(ω)である。つまり、式(14)のSNRを最大にするフィルタW→(ω,θs)を式(19)で求めてもよい。
【数17】
【0038】
反射物配置決定装置の記憶部101には、マイクロホンアレーに対する反射板の配置関係を表す情報がデータとして記憶されている(後述するように実施形態によっては、「スピーカアレーに対する反射板の配置関係を表す情報」であるが、ここではマイクロホンアレーの場合を代表して説明する)。マイクロホンアレーに対する反射板の配置関係を表す情報の一例は、マイクロホンアレーに対する反射板の配置に関する予め定められた候補の集合であり、この集合をUとする。集合Uに含まれる候補は、例えば、マイクロホンアレーに対する反射板の角度の候補の数をJとし、マイクロホンアレーの中心から反射板までの距離の候補の数をKとすると、角度の候補と距離の候補との組み合わせによって表され、集合Uに含まれる候補の総数はJKとなる。
【0039】
マイクロホンアレーに対する反射板の配置関係を表す情報の他の例として、関数を表す情報でもよい。例えば、マイクロホンアレーに対する反射板の角度の候補CAngle,j=j×Δθ[j=1,2,…,J]を与える離散関数と、マイクロホンアレーの中心から反射板までの距離の候補Cdistance,k=k×ΔL[k=1,2,…,K]を与える離散関数を、マイクロホンアレーに対する反射板の配置関係を表す情報として反射物配置決定装置の記憶部101が記憶する構成でもよい。ここで、Δθは予め定められた角度、ΔLは予め定められた長さである。ここでは、等間隔に角度と距離の候補を与える離散関数を例示したが、非等間隔に角度と距離の候補を与える離散関数や、あるいは連続関数であってもよいことはもちろんである(連続関数の場合は例えば入力値を離散的に設定すればよい)。
【0040】
反射物配置決定装置100の配置決定部110は、記憶部101から取得したJK個の候補、あるいは記憶部101に記憶された関数に従って配置決定部110が計算して得たJK個の候補、のそれぞれ(候補インデックスをnとする)について、式(20)によるSN比(評価関数)pnを計算する。Ωは周波数ωの集合である。空間相関行列Rss(n)(ω),Rnn(n)(ω)は、候補インデックスnに対応する反射板の配置関係に基づく空間相関行列であり(式(15)、式(16)参照)、フィルタWn→(ω,θs)は、候補インデックスnに対応する反射板の配置関係に基づくフィルタである(式(18)または式(19)参照)。
【数18】
【0041】
目的方向θsが一つの場合は式(20)に拠るが、目的方向が複数である場合は、配置決定部110は、式(21)によるSN比(評価関数)pnを計算する。複数の目的方向をθs1,…,θsAとする。ただし、その総数|{θs1,…,θsA}|=AはPを超えない。この処理は、複数の目的方向について、これらの目的方向のうちいずれかに特化して良好な音声強調を実現するフィルタを設計する観点ではなく、これらの目的方向のうちのどの方向であってもバランス良く良好な音声強調を実現するフィルタを設計する観点によるものである。
【数19】
【0042】
次に、配置決定部110は、JK個の候補の対応するSN比p1,…,pJKのうち最小のSN比を探索する。例えば、最小のSN比がpgであれば、そのインデックスgで特定される「マイクロホンアレーに対する反射板の角度とマイクロホンアレーの中心から反射板までの距離」がマイクロホンアレーに対する最適な反射板の配置条件として決定される。
【0043】
<3>パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で出力のパワーを最小化する基準でフィルタW→(ω,θs)を決定する。ここでは、一例として、M個のマイクロホンのうち1番目のマイクロホンに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs)は、式(23)の拘束条件の下、空間相関行列Rxx(ω)を用いて全方向(音声の到来方向として想定される全ての方向)の音声のパワーが最小となるように設計される(式(22)参照)。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(9a)で表される(正確には、式(9a)のθをθsとしたものである)。なお、Rxx(ω)=Q(ω)である。
【数20】
【0044】
式(22)の最適解であるフィルタW→(ω,θs)は式(24)で与えられることが知られている(参考文献2参照)。
【数21】
【0045】
反射物配置決定装置の記憶部101には、マイクロホンアレーに対する反射板の配置関係を表す情報がデータとして記憶されている(後述するように実施形態によっては、「スピーカアレーに対する反射板の配置関係を表す情報」であるが、ここではマイクロホンアレーの場合を代表して説明する)。マイクロホンアレーに対する反射板の配置関係を表す情報の一例は、マイクロホンアレーに対する反射板の配置に関する予め定められた候補の集合であり、この集合をUとする。集合Uに含まれる候補は、例えば、マイクロホンアレーに対する反射板の角度の候補の数をJとし、マイクロホンアレーの中心から反射板までの距離の候補の数をKとすると、角度の候補と距離の候補との組み合わせによって表され、集合Uに含まれる候補の総数はJKとなる。
【0046】
マイクロホンアレーに対する反射板の配置関係を表す情報の他の例として、関数を表す情報でもよい。例えば、マイクロホンアレーに対する反射板の角度の候補CAngle,j=j×Δθ[j=1,2,…,J]を与える離散関数と、マイクロホンアレーの中心から反射板までの距離の候補Cdistance,k=k×ΔL[k=1,2,…,K]を与える離散関数を、マイクロホンアレーに対する反射板の配置関係を表す情報として反射物配置決定装置の記憶部101が記憶する構成でもよい。ここで、Δθは予め定められた角度、ΔLは予め定められた長さである。ここでは、等間隔に角度と距離の候補を与える離散関数を例示したが、非等間隔に角度と距離の候補を与える離散関数や、あるいは連続関数であってもよいことはもちろんである(連続関数の場合は例えば入力値を離散的に設定すればよい)。
【0047】
反射物配置決定装置100の配置決定部110は、記憶部101から取得したJK個の候補、あるいは記憶部101に記憶された関数に従って配置決定部110が計算して得たJK個の候補、のそれぞれ(候補インデックスをnとする)について、式(25)によるパワー(評価関数)pnを計算する。Ωは周波数ωの集合である。空間相関行列Qn(ω)=Rxx(ω)は、候補インデックスnに対応する反射板の配置関係に基づく空間相関行列であり(式(8a)または式(8b)参照)、フィルタWn→(ω,θs)は、候補インデックスnに対応する反射板の配置関係に基づくフィルタである(式(24)参照)。
【数22】
【0048】
目的方向θsが一つの場合は式(25)に拠るが、目的方向が複数である場合は、配置決定部110は、式(26)によるパワー(評価関数)pnを計算する。複数の目的方向をθs1,…,θsAとする。ただし、その総数|{θs1,…,θsA}|=AはPを超えない。この処理は、複数の目的方向について、これらの目的方向のうちいずれかに特化して良好な音声強調を実現するフィルタを設計する観点ではなく、これらの目的方向のうちのどの方向であってもバランス良く良好な音声強調を実現するフィルタを設計する観点によるものである。
【数23】
【0049】
次に、配置決定部110は、JK個の候補の対応するパワーp1,…,pJKのうち最小のパワーを探索する。例えば、最小のパワーがpgであれば、そのインデックスgで特定される「マイクロホンアレーに対する反射板の角度とマイクロホンアレーの中心から反射板までの距離」がマイクロホンアレーに対する最適な反射板の配置条件として決定される。
【0050】
<距離の導入>
上述の説明では、いずれの設計法においても、目的方向のみを考慮していたが、音源までの距離(後述するようにスピーカアレーによる音声再生の場合では、スポット再生までの距離)も考慮してフィルタを設計することも可能である。この場合、各設計法において、マイクロホンアレーの中心からの距離をDと表す(特に目的方向への距離をDhと表す)と、上記各式は下記のように修正される。
【0051】
<1>最小分散無歪応答法によるフィルタ設計法の場合
式(4):
【数24】
【0052】
式(5)、式(6):
【数25】
【0053】
式(7):
【数26】
【0054】
式(8a)、式(8b):雑音の到来距離のインデックスzが属する集合を{1,2,…,Z-1}とする。目的距離Dhのインデックスhは集合{1,2,…,Z-1}に属さないとする。また、集合{1,2,…,Z-1}と集合{h}との和集合をΓとすると、|Γ|=Zである。|Γ|は集合Γの要素数を表す。
【数27】
【0055】
式(9a)、式(9b):
【数28】
【0056】
式(10a)、式(10b):ただし、音波が球面波として到来する場合の例である。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。適宜に設定した空間座標系において、v→θ,D(d)は位置(θ,D)の位置ベクトルを、u→mはm番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→θ,D(d)-u→m‖)は音波の距離減衰を表す関数である。例えばf(‖v→θ,D(d)-u→m‖)=1/‖v→θ,D(d)-u→m‖である(置換後の式(10b)参照)。
【数29】
【0057】
式(11c)、式(11d):ただし、音波が球面波として到来する場合の例である。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。上記空間座標系において、v→θ,D(ξ)は位置(θ,D)がξ番目の反射物の反射面で鏡像対象に移された位置の位置ベクトルを、u→mはm番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→θ,D(ξ)-u→m‖)は音波の距離減衰を表す関数である。例えばf(‖v→θ,D(ξ)-u→m‖)=1/‖v→θ,D(ξ)-u→m‖である(置換後の式(11d)参照)。
【数30】
【0058】
式(12):
【数31】
【0059】
式(13):目的距離が複数である場合は、複数の目的距離をDh1,…,θhBとする。その総数|{Dh1,…,θhB}|=Bとする。ただし、その総数|{Dh1,…,θhB}|=BはZを超えない。
【数32】
【0060】
式(14)、式(15)、式(16):
【数33】
【0061】
式(17):
【数34】
【0062】
式(18):
【数35】
【0063】
式(19):
【数36】
【0064】
式(20):
【数37】
【0065】
式(21):
【数38】
【0066】
式(22)、式(23):
【数39】
【0067】
式(24):
【数40】
【0068】
式(25):
【数41】
【0069】
式(26):
【数42】
【0070】
上述の説明では、いずれの設計法においても、マイクロホンアレーによる収音を前提としていたが、スピーカアレーによって音声を再生する場合であっても全く同じ議論が成立する。なお、音声再生の場合の反射音を考慮するため、「双対音」を定義する。(1)スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射して、反射音の進行方向が目的方向となる、という条件を満たす音声を「双対音」と呼ぶ(図12、図13参照)。マイクロホンアレーによる収音を前提として上述の説明において、マイクロホンアレーをスピーカアレー、雑音を漏れ音声、反射音を双対音と読み替えればよい。
【0071】
以下、本発明の適用形態を説明する。適用形態の概要は下記のとおりである。
適用形態1:
マイクロホンアレーで収音した音声について所望の方向についての音声を狭指向で強調する。
適用形態2:
マイクロホンアレーで収音した音声について所望の方向および距離の音声を狭指向で強調する。
適用形態3:
スピーカアレーで所望の方向に音声を狭指向で再生する。
適用形態4:
スピーカアレーで所望の方向と距離の場所に音声を狭指向でスポット再生する。
【0072】
《適用形態1》
適用形態1の機能構成および処理フローを図2と図3に示す。この適用形態1の音声処理装置1は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
【0073】
まず、反射板の位置は、上述の本発明の実施形態によって決定される。続いて、下記の処理が続行する(図10、図11も参照のこと)。
【0074】
ステップS1
予め、フィルタ設計部260が音声強調の対象となりえる離散的な方向ごとに、周波数ごとのフィルタW→(ω,θi)を計算しておく。音声強調の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)とすると、W→(ω,θ1),…,W→(ω,θi),…,W→(ω,θI)(1≦i≦I, ω∈Ω; iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。このためには、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T(1≦i≦I, ω∈Ω)を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板のマイクロホンアレーに対する位置関係(これは既に決定されている)、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(9a)によって具体的に計算できる(正確には、式(9a)のθをθiとしたものである)。反射音の数Ξは1≦Ξを満たす整数に設定されるが、上述の実施形態によるとΞ=1であり、一つの反射板300をマイクロホンアレーの近傍に設置するので、伝達特性a→(ω,θi)は式(9b)によって具体的に計算できる(正確には、式(9b)のθをθiとしたものである)。ステアリングベクトルの計算には、例えば式(10a)、式(10b)、式(11a)、式(11b)、式(11c)、式(11d)を用いることができる。なお、式(9a)や式(9b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。そして、伝達特性a→(ω,θi)を用いて、例えば式(7)、式(18)、式(19)、式(24)のいずれかによってW→(ω,θi)(1≦i≦I)を求める。なお、式(7)または式(19)または式(24)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(8b)で計算できる。式(18)を用いる場合には空間相関行列Rnn(ω)は式(16)で計算できる。I×|Ω|個のフィルタW→(ω,θi)(1≦i≦I,ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
【0075】
ステップS2
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。
【0076】
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θsになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
【0077】
ステップS3
AD変換部210が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
【0078】
ステップS4
フレーム生成部220は、AD変換部210が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→1(k),…,x→M(k)]Tを出力する。kはフレーム番号のインデックスである。x→m(k)=[xm((k-1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0079】
ステップS5
周波数領域変換部230は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
【0080】
ステップS6
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs)を適用して、出力信号Y(ω,k,θs)を出力する(式(27)参照)。目的方向θsのインデックスsは、s∈{1,…,I}であり、フィルタW→(ω,θs)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、強調したい目的方向θsに対応するフィルタW→(ω,θs)を記憶部290から取得すればよい。目的方向θsのインデックスsが集合{1,…,I}に属さない場合、つまり、目的方向θsに対応するフィルタW→(ω,θs)がステップS1の処理で計算されていない場合、臨時に目的方向θsに対応するフィルタW→(ω,θs)をフィルタ設計部260に計算させてもよいし、あるいは目的方向θsに近い方向θs'に対応するフィルタW→(ω,θs')を用いてよい。
【数43】
【0081】
ステップS7
時間領域変換部250は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して目的方向θsの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
【0082】
ここでは、ステップS1の処理で予めフィルタW→(ω,θi)を計算しておく実施形態を説明したが、狭指向音声強調装置1の計算処理能力などに応じて、目的方向θsが定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs)を計算する実施形態を採用することもできる。
【0083】
《適用形態2》
適用形態2の機能構成および処理フローを図4と図5に示す。この適用形態2の音声処理装置2は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
【0084】
まず、反射板の位置は、上述の本発明の実施形態によって決定される。続いて、下記の処理が続行する(図10、図11も参照のこと)。なお、適用形態2において引用する式は<距離の導入>欄の式とする。
【0085】
ステップS1
予め、フィルタ設計部260が音声強調の対象となりえる離散的な位置(θi,Dg)ごとに、周波数ごとのフィルタW→(ω,θi,Dg)を計算しておく。音声強調の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)、離散的な距離の総数をG(Gは1以上の予め定められた整数であり、G≦Zを満たす)とすると、W→(ω,θ1,D1),…,W→(ω,θi,D1),…,W→(ω,θI,D1),W→(ω,θ1,D2),…,W→(ω,θi,D2),…,W→(ω,θI,D2),…,W→(ω,θ1,Dg),…,W→(ω,θi,Dg),…,W→(ω,θI,Dg),…,W→(ω,θ1,DG),…,W→(ω,θi,DG),…,W→(ω,θI,DG)(1≦i≦I, 1≦g≦G, ω∈Ω; iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。このためには、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T(1≦i≦I, 1≦g≦G, ω∈Ω)を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板のマイクロホンアレーに対する位置関係(これは既に決定されている)、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(9a)によって具体的に計算できる(正確には、式(9a)のθをθi、DをDgとしたものである)。反射音の数Ξは1≦Ξを満たす整数に設定されるが、上述の実施形態によるとΞ=1であり、一つの反射板300をマイクロホンアレーの近傍に設置するので、伝達特性a→(ω,θi)は式(9b)によって具体的に計算できる(正確には、式(9b)のθをθiとしたものである)。ステアリングベクトルの計算には、例えば式(10a)、式(10b)、式(11a)、式(11b)、式(11c)、式(11d)を用いることができる。なお、式(9a)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。そして、伝達特性a→(ω,θi,Dg)を用いて、例えば式(7)、式(18)、式(19)、式(24)のいずれかによってW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G)を求める。なお、式(7)または式(19)または式(24)を用いる場合には空間相関行列Q(ω,Dg)(あるいはRxx(ω,Dg))は式(8b)で計算できる(正確には、式(8b)のDをDgとしたものである)。式(18)を用いる場合には空間相関行列Rnn(ω,Dg)は式(16)で計算できる(正確には、式(16)のDをDgとしたものである)。I×G×|Ω|個のフィルタW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G, ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
【0086】
ステップS2
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。
【0087】
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θsになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
【0088】
ステップS3
AD変換部210が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
【0089】
ステップS4
フレーム生成部220は、AD変換部210が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→1(k),…,x→M(k)]Tを出力する。kはフレーム番号のインデックスである。x→m(k)=[xm((k-1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0090】
ステップS5
周波数領域変換部230は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
【0091】
ステップS6
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を適用して、出力信号Y(ω,k,θs,Dh)を出力する(式(28)参照)。位置(θs,Dh)のインデックスs, hは、s∈{1,…,I}, h∈{1,…,G}であり、フィルタW→(ω,θs,Dh)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、強調したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を記憶部290から取得すればよい。方向θsのインデックスsが集合{1,…,I}に属さない場合あるいは距離Dhのインデックスhが集合{1,…,G}に属さない場合、つまり、位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)がステップS1の処理で計算されていない場合、臨時に位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)をフィルタ設計部260に計算させてもよいし、あるいは方向θsに近い方向θs'や距離Dhに近い距離Dh'に対応するフィルタW→(ω,θs',Dh)やW→(ω,θs,Dh')やW→(ω,θs',Dh')を用いてよい。
【数44】
【0092】
ステップS7
時間領域変換部250は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs,Dh)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して位置(θs,Dh)からの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
【0093】
ここでは、ステップS1の処理で予めフィルタW→(ω,θi,Dg)を計算しておく実施形態を説明したが、音声処理装置2の計算処理能力などに応じて、位置(θs,Dh)が定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs,Dh)を計算する実施形態を採用することもできる。
【0094】
《適用形態3》
適用形態3の機能構成および処理フローを図6と図7に示す。この適用形態3の音声処理装置3は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
【0095】
まず、反射板の位置は、上述の本発明の実施形態によって決定される。続いて、下記の処理が続行する(図12、図13も参照のこと)。
【0096】
ステップS1
予め、フィルタ設計部260が音声再生の対象となりえる離散的な方向ごとに、周波数ごとのフィルタW→(ω,θi)を計算しておく。音声再生の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)とすると、W→(ω,θ1),…,W→(ω,θi),…,W→(ω,θI)(1≦i≦I, ω∈Ω; iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。このためには、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T(1≦i≦I, ω∈Ω)を求める必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板のスピーカアレーに対する位置関係(これは既に決定されている)、直接音とξ番目(1≦ξ≦Ξ)の双対音との時間差、反射物の音の反射率などの環境情報を基に式(9a)によって具体的に計算できる(正確には、式(9a)のθをθiとしたものである)。双対音の数Ξは1≦Ξを満たす整数に設定されるが、上述の実施形態によるとΞ=1であり、一つの反射板300をマイクロホンアレーの近傍に設置するので、伝達特性a→(ω,θi)は式(9b)によって具体的に計算できる(正確には、式(9b)のθをθiとしたものである)。ステアリングベクトルの計算には、例えば式(10a)、式(10b)、式(11a)、式(11b)、式(11c)、式(11d)を用いることができる。なお、式(10a)や式(10b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。そして、伝達特性a→(ω,θi)を用いて、例えば式(7)、式(18)、式(19)、式(24)のいずれかによってW→(ω,θi)(1≦i≦I)を求める。なお、式(7)または式(19)または式(24)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(8b)で計算できる。式(18)を用いる場合には空間相関行列Rnn(ω)は式(16)で計算できる。I×|Ω|個のフィルタW→(ω,θi)(1≦i≦I,ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
【0097】
ステップS2
音源200が音源信号ss(t)を出力する。この実施形態では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
【0098】
ステップS3
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS3の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
【0099】
ステップS4
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0100】
ステップS5
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
【0101】
ステップS6
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい目的方向θsに対応するフィルタW→(ω,θs)を適用して、再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを出力する(式(29)参照)。目的方向θsのインデックスsは、s∈{1,…,I}であり、フィルタW→(ω,θs)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、再生したい目的方向θsに対応するフィルタW→(ω,θs)を記憶部290から取得すればよい。目的方向θsのインデックスsが集合{1,…,I}に属さない場合、つまり、目的方向θsに対応するフィルタW→(ω,θs)がステップS1の処理で計算されていない場合、臨時に目的方向θsに対応するフィルタW→(ω,θs)をフィルタ設計部260に計算させてもよいし、あるいは目的方向θsに近い方向θs'に対応するフィルタW→(ω,θs')を用いてよい。
【数45】
【0102】
ステップS7
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを時間領域に変換して第kフレームのフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]Tを得て、さらに、得られたフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]Tをフレーム番号のインデックスの順番に連結して再生方向である目的方向θsに向けて音声が強調された時間領域信号x→(t)=[x1(t),…,xM(t)]Tを出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
【0103】
ステップS8
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
【0104】
なお、M個のスピーカの並べ方に制限は無い。線形スピーカアレーのように直線状にスピーカを配置するアレー構成でもよいし、2次元または3次元的にM個のスピーカを配置するアレー構成でもよい。また、再生方向として設定できる方向を広くとるためには、各スピーカの指向性は、再生方向である目的方向θsになり得る方向に或る程度の音圧で音声を再生可能な指向性を持っていたほうがよい。したがって、無指向性スピーカや単一指向性スピーカといった指向性が比較的緩やかなスピーカが好適である。
【0105】
ここでは、ステップS1の処理で予めフィルタW→(ω,θi)を計算しておく実施形態を説明したが、音声処理装置3の計算処理能力などに応じて、再生方向である目的方向θsが定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs)を計算する実施形態を採用することもできる。
【0106】
《適用形態4》
適用形態4の機能構成および処理フローを図8と図9に示す。この適用形態4の音声処理装置4は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
【0107】
まず、反射板の位置は、上述の本発明の実施形態によって決定される。続いて、下記の処理が続行する(図12、図13も参照のこと)。なお、適用形態4において引用する式は<距離の導入>欄の式とする。
【0108】
ステップS1
予め、フィルタ設計部260が音声スポット再生の対象となりえる離散的な位置(θi,Dg)ごとに、周波数ごとのフィルタW→(ω,θi,Dg)を計算しておく。音声スポット再生の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)、離散的な距離の総数をG(Gは1以上の予め定められた整数であり、G≦Zを満たす)とすると、W→(ω,θ1,D1),…,W→(ω,θi,D1),…,W→(ω,θI,D1),W→(ω,θ1,D2),…,W→(ω,θi,D2),…,W→(ω,θI,D2),…,W→(ω,θ1,Dg),…,W→(ω,θi,Dg),…,W→(ω,θI,Dg),…,W→(ω,θ1,DG),…,W→(ω,θi,DG),…,W→(ω,θI,DG)(1≦i≦I, 1≦g≦G, ω∈Ω; iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。このためには、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T(1≦i≦I, 1≦g≦G, ω∈Ω)を求める必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板のスピーカアレーに対する位置関係(これは既に決定されている)、直接音とξ番目(1≦ξ≦Ξ)の双対音との時間差、反射物の音の反射率などの環境情報を基に式(9a)によって具体的に計算できる(正確には、式(9a)のθをθi、DをDgとしたものである)。双対音の数Ξは1≦Ξを満たす整数に設定されるが、上述の実施形態によるとΞ=1であり、一つの反射板300をマイクロホンアレーの近傍に設置するので、伝達特性a→(ω,θi)は式(9b)によって具体的に計算できる(正確には、式(9b)のθをθiとしたものである)。ステアリングベクトルの計算には、例えば式(10a)、式(10b)、式(11a)、式(11b)、式(11c)、式(11d)を用いることができる。なお、式(10a)、式(10b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。そして、伝達特性a→(ω,θi,Dg)を用いて、例えば式(7)、式(18)、式(19)、式(24)のいずれかによってW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G)を求める。なお、式(7)または式(19)または式(24)を用いる場合には空間相関行列Q(ω,Dg)(あるいはRxx(ω,Dg))は式(8b)で計算できる(正確には、式(8b)のDをDgとしたものである)。式(18)を用いる場合には空間相関行列Rnn(ω,Dg)は式(16)で計算できる(正確には、式(16)のDをDgとしたものである)。I×G×|Ω|個のフィルタW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G, ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
【0109】
ステップS2
音源200が音源信号ss(t)を出力する。この実施形態では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
【0110】
ステップS3
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS3の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
【0111】
ステップS4
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0112】
ステップS5
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
【0113】
ステップS6
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、スポット再生したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を適用して、再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを出力する(式(30)参照)。位置(θs,Dh)のインデックスs, hは、s∈{1,…,I}, h∈{1,…,G}であり、フィルタW→(ω,θs,Dh)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、スポット再生したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を記憶部290から取得すればよい。方向θsのインデックスsが集合{1,…,I}に属さない場合あるいは距離Dhのインデックスhが集合{1,…,G}に属さない場合、つまり、位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)がステップS1の処理で計算されていない場合、臨時に位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)をフィルタ設計部260に計算させてもよいし、あるいは方向θsに近い方向θs'や距離Dhに近い距離Dh'に対応するフィルタW→(ω,θs',Dh)やW→(ω,θs,Dh')やW→(ω,θs',Dh')を用いてよい。
【数46】
【0114】
ステップS7
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを時間領域に変換して第kフレームのフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]Tを得て、さらに、得られたフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]Tをフレーム番号のインデックスの順番に連結してスポット再生したい位置(θs,Dh)に向けて音声が強調された時間領域信号x→(t)=[x1(t),…,xM(t)]Tを出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
ステップS8
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
【0115】
なお、M個のスピーカの並べ方に制限は無い。線形スピーカアレーのように直線状にスピーカを配置するアレー構成でもよいし、2次元または3次元的にM個のスピーカを配置するアレー構成でもよい。また、収音方向として設定できる方向を広くとるためには、各スピーカの指向性は、再生方向である目的方向θsになり得る方向に或る程度の音圧で音声を再生可能な指向性を持っていたほうがよい。したがって、無指向性スピーカや単一指向性スピーカといった指向性が比較的緩やかなスピーカが好適である。
【0116】
ここでは、ステップS1の処理で予めフィルタW→(ω,θi,Dg)を計算しておく実施形態を説明したが、音声処理装置4の計算処理能力などに応じて、位置(θs,Dh)が定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs,Dh)を計算する実施形態を採用することもできる。
【0117】
<反射物配置決定装置のハードウェア構成例>
上述の実施形態に関わる反射物配置決定装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、反射物配置決定装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0118】
反射物配置決定装置の外部記憶装置には、反射物の配置を決定するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
【0119】
反射物配置決定装置の記憶部には、反射板の配置に関する候補(JK個)、式(12)や式(13)などに基づいて反射板の配置を決定するためのプログラムが記憶されている。
【0120】
反射物配置決定装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(配置決定部)を実現することで反射物の配置決定が実現される。
【0121】
また、音声処理装置についても同様のハードウェア構成とすることができ、音声処理装置の記憶部には、空間相関行列を用いて周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してAD変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、所望方向(および所望距離)に対応するフィルタを周波数ごとに周波数領域信号に適用して出力信号を得るためのプログラムと、出力信号を時間領域信号に変換するためのプログラムが記憶されている。
【0122】
音声処理装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(フィルタ設計部、AD変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部)を実現することで上述の音声処理が実現される。
【0123】
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0124】
また、上記実施形態において説明したハードウェアエンティティ(反射物配置決定装置/音声処理装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0125】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0126】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0127】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0128】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【技術分野】
【0001】
本発明は、音声に基づく情報に対して適用されるフィルタの設計において音声を反射する反射物の配置を決定する技術に関する。
【背景技術】
【0002】
例えばマイクロホンを備えた動画撮影装置(ビデオカメラやカムコーダ)で被写体をズームイン撮影する場合を考えると、ズームイン撮影に連動して被写体近傍のみからの音声が強調されることが動画撮影にとって好ましい。このような、所望の方向(目的方向)を含む狭い範囲の音声を強調する技術(音声強調技術)は、従来から研究・開発されている。なお、マイクロホンの周囲の方向とマイクロホンの感度との関係は指向性と呼ばれ、或る方向への指向性が鋭いほど、当該方向を含む狭い範囲の音声を強調し、当該範囲以外の範囲の音声を抑圧することができる。なお、この明細書では、「音声」は、人の発する声に限定されるものではなく、人や動物の声はもとより楽音や環境雑音など「音」一般を指す。
【0003】
反射音を選択収音することによる音声強調技術として、例えばマルチビームフォーミング法がある(非特許文献1参照)。マルチビームフォーミング法は、直接音や反射音という個々の音を寄せ集めることで、高SN比で目的方向の音声を収音することができる音声強調技術であり、音声分野よりも無線分野でよく研究されている。
【0004】
以下、周波数領域でのマルチビームフォーミング法の処理内容を説明する。説明に先立ち、記号を定義する。周波数のインデックスをω、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、方向θsにある強調したい音源からの直接音の到来方向をθs1、反射音の到来方向をθs2,…,θsRとする。Tは転置を表し、R-1は反射音の総数である。方向θsrの音声を強調するフィルタをW→(ω,θsr)とする。ここで、rは1≦r≦Rを満たす各整数である。
【0005】
マルチビームフォーミング法では、直接音および反射音の到来方向や到来時間が既知であることが前提である。つまり、音の反射が明らかに予想できる壁、床、反射板といった物体の数がR-1に等しい。また、反射音数R-1は3あるいは4という比較的小さな値に設定されることが多い。これは、直接音と低次の反射音との間に高い相関性が認められることに基づく。マルチビームフォーミング法は、各々の音声を個別に強調して同期加算する方式なので、出力信号Y(ω,k,θs)は式(1)で与えられる。Hはエルミート転置を表す。
【数1】
【0006】
フィルタW→(ω,θsr)の設計法として遅延合成法を説明する。直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θsr)は式(2)で与えられる。h→(ω,θsr)=[h1(ω,θsr),…,hM(ω,θsr)]Tは、方向θsrから到来する音声の伝搬ベクトルである。
【数2】
【0007】
線形マイクロホンアレー(M個のマイクロホンが直線状に並べられたマイクロホンアレー)に平面波が到来することを仮定すると、h→(ω,θsr)を構成する要素hm(ω,θsr)は式(3)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。τ(θsr)は、方向θsrから到来する反射音の直接音に対する時間遅延を表す。
【数3】
【0008】
最後に、出力信号Y(ω,k,θs)を時間領域に変換することによって、目的方向θsにある音源の音声を強調した信号が得られる。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】J.L.Flanagan, A.C.Surendran, E.E.Jan, "Spatially selective sound capture for speech and audio processing," Speech Communication, Volume 13, Issue 1-2, pp.207-222, October 1993.
【発明の概要】
【発明が解決しようとする課題】
【0010】
マルチビームフォーミング法では、直接音および反射音の到来方向や到来時間が既知であることが前提である。また、或る方向θsrからの音声を強調するフィルタW→(ω,θsr)を設計する際、式(2)で表されるように、当該方向θsrの音声だけを単独で考慮していた。
【0011】
しかし、詳しくは本発明の実施形態で後述するが、フィルタ設計の段階にて、或る方向に関する音声を直接音と反射音の混合音声として考慮することが好ましい場合があり、この場合、マイクロホンアレーまたはスピーカアレーとの関係で、音声を反射する反射物の適切な配置を決定することが求められる場合がある。
【0012】
そこで本発明は、音声に基づく情報に対して適用されるフィルタの設計において音声を反射する反射物のマイクロホンアレーまたはスピーカアレーに対する配置を決定する技術を提供することを目的とする。
【課題を解決するための手段】
【0013】
音声に基づく情報に対して適用されるフィルタが、空間中における複数の方向の伝達特性によって表される空間相関行列を用いて所定の評価関数に基づいて設計される場合であって、各伝達特性は、直接音の伝達特性と反射物で反射する一つの反射音の各伝達特性との和で表されており、評価関数は少なくとも目的方向の音声が強調されるほど小さな値をとる関数である。記憶部にはマイクロホンアレーまたはスピーカアレーに対する反射物の配置関係を表す情報(以下、配置情報という)が記憶されており、配置決定部が、配置情報に基づく反射物の各候補について、当該候補に基づいて特定される伝達特性によって表される空間相関行列を用いて評価関数の値を求め、当該値のうち最小のものに対応する候補を反射物の配置として決定する。
【発明の効果】
【0014】
本発明に拠ると、音声に基づく情報に対して適用されるフィルタの設計において音声を反射する反射物のマイクロホンアレーまたはスピーカアレーに対する配置を決定することができる。
【図面の簡単な説明】
【0015】
【図1】実施形態に係る反射物配置決定装置の機能構成を示す図。
【図2】適用形態1の音声処理装置の機能構成を示す図。
【図3】適用形態1の音声処理方法の処理手順を示す図。
【図4】適用形態2の音声処理装置の機能構成を示す図。
【図5】適用形態2の音声処理方法の処理手順を示す図。
【図6】適用形態3の音声処理装置の機能構成を示す図。
【図7】適用形態3の音声処理方法の処理手順を示す図。
【図8】適用形態4の音声処理装置の機能構成を示す図。
【図9】適用形態4の音声処理方法の処理手順を示す図。
【図10】マイクロホンアレーと反射板との位置関係等を示す図(その1)。
【図11】マイクロホンアレーと反射板との位置関係等を示す図(その2)。
【図12】スピーカアレーと反射板との位置関係等を示す図(その1)。
【図13】スピーカアレーと反射板との位置関係等を示す図(その2)。
【発明を実施するための形態】
【0016】
本発明の実施形態を、図1を参照して説明する。予め概略を述べると、本発明は、或る方向に関する音声を直接音と反射音の混合音声として考慮する場合に、音声に基づく情報(実施形態の例では、音声信号が周波数領域に変換された周波数領域信号)に対して適用されるフィルタの設計において音声を反射する反射物のマイクロホンアレーまたはスピーカアレーに対する配置を決定する技術であり、フィルタの設計コンセプト自体には影響を与えない。従って、本発明が適用されるフィルタ設計手法として格別の限定はない。フィルタの設計コンセプトは、統計的最適化規範であり、例えば、入力サンプル列にフィルタを適用して得られる出力と希望応答との差(推定誤差)について、推定誤差の平均2乗値、推定誤差の絶対値の期待値、推定誤差の絶対値に関する3次以上のべき乗の期待値、などを評価関数として挙げることができ、この評価関数を最小化(評価関数やその表現によっては最大化)することによりフィルタを設計する。ここでは説明を一貫させるため、評価関数は、少なくともマイクロホンアレーまたはスピーカアレーから見た目的方向の音声が強調されるほど絶対値の小さい値を出力する関数とする。「少なくとも・・・目的方向」とした理由は、後の<距離の導入>で説明するように、いずれの設計法においても、目的方向のみならず、マイクロホンアレーまたはスピーカアレーから音源までの距離も考慮してフィルタを設計することも可能であるからである。ここでは、フィルタ設計手法として、最小分散無歪応答法(MVDR method;minimum variance distortion response method)、SN比最大化規準によるフィルタ設計法、パワーインバージョン(Power Inversion)に基づくフィルタ設計法の3種類を例示する。最小分散無歪応答法については参考文献1を、SN比最大化規準によるフィルタ設計法とパワーインバージョンに基づくフィルタ設計法については参考文献2を参照されたい。
(参考文献1)大賀寿郎、山崎芳男、金田豊 著、「音響システムとディジタル処理」、社団法人電子情報通信学会、1995、pp.203-209
(参考文献2)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35-90
【0017】
本発明の実施形態である反射物配置決定装置100は、それ単体で独立に存在するよりは、例えば後述する音声処理装置1,2,3,4を構成するエンティティとして存在するのが一般的である。さらに云えば、反射物配置決定装置100は、音声処理装置1,2,3,4とは容易に分離可能に音声処理装置1,2,3,4を構成するエンティティではなく、音声処理装置1,2,3,4自体の一部の機能に着眼して片面的に評価したものと云うこともできる。要するに、反射物配置決定装置100は、音声処理装置1,2,3,4そのものであることが一般的である。具体的には、反射物配置決定装置100の機能を中央演算装置や専用LSIに実装して、反射物配置決定装置100を実現することができる。
ただし、反射物配置決定装置100が、単体独立のエンティティとして存在すること、音声処理装置1,2,3,4とは容易に分離可能に音声処理装置1,2,3,4を構成するエンティティであることを排除する趣旨ではない。例えば反射物の配置決定それ自体を目的とするならば、反射物配置決定装置100を単体独立のエンティティとして実現することに何らの妨げは無い。
ここで音声処理装置1,2,3,4は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、単体独立のエンティティとして反射物配置決定装置100を実現する場合も同様である。
【0018】
<1>最小分散無歪応答法によるフィルタ設計法
説明に先立ち、改めて記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の第kフレームの周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、マイクロホンアレーの中心から見て目的方向θsの音声の周波数領域表現を周波数ωで強調するフィルタをW→(ω,θs)とする。Mは2以上の整数とする。Tは転置を表す。このとき、目的方向θsの音声の周波数領域表現が周波数ωで強調された周波数領域信号(以下、出力信号と呼ぶ)Y(ω,k,θs)は式(4)で与えられる。Hはエルミート転置を表す。
【数4】
【0019】
「マイクロホンアレーの中心」は任意に定めることができるが、一般的にはM個のマイクロホンの配置の幾何学的中心が「マイクロホンアレーの中心」とされ、例えば線形マイクロホンアレーであれば両端のマイクロホンの中間点が「マイクロホンアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面マイクロホンアレーであれば、四隅のマイクロホンの対角線が交わる位置が「マイクロホンアレーの中心」とされる。
【0020】
フィルタW→(ω,θs)の設計法として最小分散無歪応答法に拠る場合、フィルタW→(ω,θs)は、式(6)の拘束条件の下、空間相関行列Q(ω)を用いて目的方向θs以外の方向の音声(以下、「目的方向θs以外の方向の音声」を「雑音」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(5)参照)。a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、方向θsに音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性である。換言すれば、a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、マイクロホンアレーに含まれる各マイクロホンへの方向θsの音声の周波数ωでの伝達特性である。
【数5】
【0021】
式(5)の最適解であるフィルタW→(ω,θs)は式(7)で与えられることが知られている(参考文献1参照)。
【数6】
【0022】
式(5)から、雑音のパワーは空間相関行列Q(ω)の構造に依存することがわかる。そこで、空間相関行列Q(ω)の構造について説明する。雑音の到来方向のインデックスpが属する集合を{1,2,…,P-1}とする。目的方向θsのインデックスsは集合{1,2,…,P-1}に属さないとする。P-1個の雑音が任意の方向から到来すると仮定すると、空間相関行列Q(ω)は式(8a)で与えられる。多くの雑音が存在する中でも十分に機能するフィルタを作る観点から、Pはある程度大きい値であることが好ましく、M程度の整数であるとする。なお、ここでは発明の原理を分かり易く説明する観点から目的方向θsがあたかも特定の方向の如く説明しているが(それ故、目的方向θs以外の方向を「雑音」の方向としている)、実際には、目的方向θsは音声強調の対象となりえる任意の方向であり、目的方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、目的方向θsと雑音の方向との区別は凡そ主観的なものであり、目的音か雑音かの区別なく音声の到来方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が目的方向であり、それ以外の方向が雑音の方向であると理解することがより正確である。そこで、集合{1,2,…,P-1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω)は、音声の到来方向として想定される複数の方向に含まれる各方向θφの音声の各マイクロホンへの伝達特性a→(ω,θφ)=[a1(ω,θφ),…,aM(ω,θφ)]T(φ∈Φ)によって表される空間相関行列であり、式(8b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
【数7】
【0023】
マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物で反射した反射音との二種類の音波(ここでは説明の便宜で平面波と仮定するが、球面波であってもよい)が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、音声強調の対象となりえる方向の音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(9a)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tは方向θの直接音のステアリングベクトルを、h→rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θの直接音に対応する反射音のステアリングベクトルを表す。なお、ステアリングベクトルは、マイクロホンアレーの中心から見て方向θの音波について、基準点に対する各マイクロホンの周波数ωでの位相応答特性を並べた複素ベクトルである。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
【数8】
【0024】
M個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射物との位置関係は、当該音源からの音が少なくとも一つの反射物で反射してマイクロホンアレーに届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはマイクロホンアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えばマイクロホンアレーを設置している支持体に対して可動に組み合わされた反射板)であっても移動不能な物体(例えばマイクロホンアレーを設置している支持体に固定された反射板)であってもよい。反射物の配置関係の決定については後述する。
【0025】
線形マイクロホンアレーに音声が平面波として到来すると仮定すると、直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(10a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。基準点は線形マイクロホンアレーの全長の半分の位置(線形マイクロホンアレーの中心)である。方向θは線形マイクロホンアレーの中心から見て直接音の到来方向と線形マイクロホンアレーに含まれるマイクロホンの配列方向とがなす角度として定義した(図10、図11参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形マイクロホンアレーの一端にあるマイクロホンの位置とすれば、直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(10b)で与えられる。以下、直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(10a)で与えられるとして説明する。
【数9】
【0026】
反射音のステアリングベクトルh→r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(10a)参照)、式(11a)で表される。関数Ψ(θ)は反射音の到来方向を出力する。なお、直接音のステアリングベクトルを式(10b)で表す場合には、反射音のステアリングベクトルh→r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(11b)で表される。一般的に、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(11c)や式(11d)で表される。関数Ψξ(θ)はξ番目(1≦ξ≦Ξ)の反射音の到来方向を出力する。
【数10】
【0027】
さて、到来時間差τξ(θ)と関数Ψξ(θ)は、マイクロホンアレーに対する反射物の配置関係によって定まる。到来時間差τξ(θ)と関数Ψξ(θ)が定まると、直接音のステアリングベクトルh→d(ω,θ)と反射音のステアリングベクトルh→rξ(ω,θ)が定まる。直接音のステアリングベクトルh→d(ω,θ)と反射音のステアリングベクトルh→rξ(ω,θ)が定まると、伝達特性a→(ω,θ)が定まる。伝達特性a→(ω,θ)が定まると、空間相関行列Q(ω)が定まる。そして、既述のとおり、雑音のパワーは空間相関行列Q(ω)の構造に依存する。よって、マイクロホンアレーに対する反射物の配置関係を決定することが重要である。ここでは、具体例として、マイクロホンアレーに対する角度(線形マイクロホンアレーに含まれるマイクロホンの配列方向と反射物とがなす角度)とマイクロホンアレーの中心からの距離をもって、マイクロホンアレーに対する反射物の配置関係を特定することとする(図10、図11、図12、図13参照)。
【0028】
以下、具体的に説明する観点から、Ξ=1とし、反射音の反射回数は1回であって、マイクロホンアレーの中心から離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体平板とする。以下、反射物を反射板と呼称する。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(9a)は式(9b)のように表すことができる。
【数11】
【0029】
反射物配置決定装置の記憶部101には、マイクロホンアレーに対する反射板の配置関係を表す情報がデータとして記憶されている(後述するように実施形態によっては、「スピーカアレーに対する反射板の配置関係を表す情報」であるが、ここではマイクロホンアレーの場合を代表して説明する)。マイクロホンアレーに対する反射板の配置関係を表す情報の一例は、マイクロホンアレーに対する反射板の配置に関する予め定められた候補の集合であり、この集合をUとする。集合Uに含まれる候補は、例えば、マイクロホンアレーに対する反射板の角度の候補の数をJとし、マイクロホンアレーの中心から反射板までの距離の候補の数をKとすると、角度の候補と距離の候補との組み合わせによって表され、集合Uに含まれる候補の総数はJ×K(以下、JKと略記する)となる。
【0030】
マイクロホンアレーに対する反射板の配置関係を表す情報の他の例として、関数を表す情報でもよい。例えば、マイクロホンアレーに対する反射板の角度の候補CAngle,j=j×Δθ[j=1,2,…,J]を与える離散関数と、マイクロホンアレーの中心から反射板までの距離の候補Cdistance,k=k×ΔL[k=1,2,…,K]を与える離散関数を、マイクロホンアレーに対する反射板の配置関係を表す情報として反射物配置決定装置の記憶部101が記憶する構成でもよい。ここで、Δθは予め定められた角度、ΔLは予め定められた長さである。ここでは、等間隔に角度と距離の候補を与える離散関数を例示したが、非等間隔に角度と距離の候補を与える離散関数や、あるいは連続関数であってもよいことはもちろんである(連続関数の場合は例えば入力値を離散的に設定すればよい)。
【0031】
反射物配置決定装置100の配置決定部110は、記憶部101から取得したJK個の候補、あるいは記憶部101に記憶された関数に従って配置決定部110が計算して得たJK個の候補、のそれぞれ(候補インデックスをnとする)について、式(12)によるパワー(評価関数)pnを計算する。Ωは周波数ωの集合である。空間相関行列Qn(ω)は、候補インデックスnに対応する反射板の配置関係に基づく空間相関行列であり(式(8a)または式(8b)参照)、フィルタWn→(ω,θs)は、候補インデックスnに対応する反射板の配置関係に基づくフィルタである(式(7)参照)。
【数12】
【0032】
目的方向θsが一つの場合は式(12)に拠るが、目的方向が複数である場合は、配置決定部110は、式(13)によるパワー(評価関数)pnを計算する。複数の目的方向をθs1,…,θsAとする。ただし、その総数|{θs1,…,θsA}|=AはPを超えない。この処理は、複数の目的方向について、これらの目的方向のうちいずれかに特化して良好な音声強調を実現するフィルタを設計する観点ではなく、これらの目的方向のうちのどの方向であってもバランス良く良好な音声強調を実現するフィルタを設計する観点によるものである。
【数13】
【0033】
次に、配置決定部110は、JK個の候補の対応するパワーp1,…,pJKのうち最小のパワーを探索する。例えば、最小のパワーがpgであれば、そのインデックスgで特定される「マイクロホンアレーに対する反射板の角度とマイクロホンアレーの中心から反射板までの距離」がマイクロホンアレーに対する最適な反射板の配置条件として決定される。
【0034】
<2>SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、目的方向θsでのSN比(SNR)を最大化する規準でフィルタW→(ω,θs)を決定する。目的方向θsの音声の空間相関行列をRss(ω)、目的方向θs以外の方向の音声の空間相関行列をRnn(ω)とする。このとき、評価関数であるSNRは式(14)で表される。なお、Rss(ω)は式(15)、Rnn(ω)は式(16)で表される。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(9a)で表される(正確には、式(9a)のθをθsとしたものである)。
【数14】
【0035】
式(14)のSNRを最大にするフィルタW→(ω,θs)は、フィルタW→(ω,θs)に関する勾配をゼロとすること、つまり式(17)によって求めることができる。
【数15】
【0036】
これにより、式(14)のSNRを最大にするフィルタW→(ω,θs)は式(18)で与えられる。
【数16】
【0037】
式(18)には目的方向θs以外の方向の音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、目的方向θsの音声と目的方向θs以外の方向の音声を含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)=Q(ω)である。つまり、式(14)のSNRを最大にするフィルタW→(ω,θs)を式(19)で求めてもよい。
【数17】
【0038】
反射物配置決定装置の記憶部101には、マイクロホンアレーに対する反射板の配置関係を表す情報がデータとして記憶されている(後述するように実施形態によっては、「スピーカアレーに対する反射板の配置関係を表す情報」であるが、ここではマイクロホンアレーの場合を代表して説明する)。マイクロホンアレーに対する反射板の配置関係を表す情報の一例は、マイクロホンアレーに対する反射板の配置に関する予め定められた候補の集合であり、この集合をUとする。集合Uに含まれる候補は、例えば、マイクロホンアレーに対する反射板の角度の候補の数をJとし、マイクロホンアレーの中心から反射板までの距離の候補の数をKとすると、角度の候補と距離の候補との組み合わせによって表され、集合Uに含まれる候補の総数はJKとなる。
【0039】
マイクロホンアレーに対する反射板の配置関係を表す情報の他の例として、関数を表す情報でもよい。例えば、マイクロホンアレーに対する反射板の角度の候補CAngle,j=j×Δθ[j=1,2,…,J]を与える離散関数と、マイクロホンアレーの中心から反射板までの距離の候補Cdistance,k=k×ΔL[k=1,2,…,K]を与える離散関数を、マイクロホンアレーに対する反射板の配置関係を表す情報として反射物配置決定装置の記憶部101が記憶する構成でもよい。ここで、Δθは予め定められた角度、ΔLは予め定められた長さである。ここでは、等間隔に角度と距離の候補を与える離散関数を例示したが、非等間隔に角度と距離の候補を与える離散関数や、あるいは連続関数であってもよいことはもちろんである(連続関数の場合は例えば入力値を離散的に設定すればよい)。
【0040】
反射物配置決定装置100の配置決定部110は、記憶部101から取得したJK個の候補、あるいは記憶部101に記憶された関数に従って配置決定部110が計算して得たJK個の候補、のそれぞれ(候補インデックスをnとする)について、式(20)によるSN比(評価関数)pnを計算する。Ωは周波数ωの集合である。空間相関行列Rss(n)(ω),Rnn(n)(ω)は、候補インデックスnに対応する反射板の配置関係に基づく空間相関行列であり(式(15)、式(16)参照)、フィルタWn→(ω,θs)は、候補インデックスnに対応する反射板の配置関係に基づくフィルタである(式(18)または式(19)参照)。
【数18】
【0041】
目的方向θsが一つの場合は式(20)に拠るが、目的方向が複数である場合は、配置決定部110は、式(21)によるSN比(評価関数)pnを計算する。複数の目的方向をθs1,…,θsAとする。ただし、その総数|{θs1,…,θsA}|=AはPを超えない。この処理は、複数の目的方向について、これらの目的方向のうちいずれかに特化して良好な音声強調を実現するフィルタを設計する観点ではなく、これらの目的方向のうちのどの方向であってもバランス良く良好な音声強調を実現するフィルタを設計する観点によるものである。
【数19】
【0042】
次に、配置決定部110は、JK個の候補の対応するSN比p1,…,pJKのうち最小のSN比を探索する。例えば、最小のSN比がpgであれば、そのインデックスgで特定される「マイクロホンアレーに対する反射板の角度とマイクロホンアレーの中心から反射板までの距離」がマイクロホンアレーに対する最適な反射板の配置条件として決定される。
【0043】
<3>パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で出力のパワーを最小化する基準でフィルタW→(ω,θs)を決定する。ここでは、一例として、M個のマイクロホンのうち1番目のマイクロホンに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs)は、式(23)の拘束条件の下、空間相関行列Rxx(ω)を用いて全方向(音声の到来方向として想定される全ての方向)の音声のパワーが最小となるように設計される(式(22)参照)。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(9a)で表される(正確には、式(9a)のθをθsとしたものである)。なお、Rxx(ω)=Q(ω)である。
【数20】
【0044】
式(22)の最適解であるフィルタW→(ω,θs)は式(24)で与えられることが知られている(参考文献2参照)。
【数21】
【0045】
反射物配置決定装置の記憶部101には、マイクロホンアレーに対する反射板の配置関係を表す情報がデータとして記憶されている(後述するように実施形態によっては、「スピーカアレーに対する反射板の配置関係を表す情報」であるが、ここではマイクロホンアレーの場合を代表して説明する)。マイクロホンアレーに対する反射板の配置関係を表す情報の一例は、マイクロホンアレーに対する反射板の配置に関する予め定められた候補の集合であり、この集合をUとする。集合Uに含まれる候補は、例えば、マイクロホンアレーに対する反射板の角度の候補の数をJとし、マイクロホンアレーの中心から反射板までの距離の候補の数をKとすると、角度の候補と距離の候補との組み合わせによって表され、集合Uに含まれる候補の総数はJKとなる。
【0046】
マイクロホンアレーに対する反射板の配置関係を表す情報の他の例として、関数を表す情報でもよい。例えば、マイクロホンアレーに対する反射板の角度の候補CAngle,j=j×Δθ[j=1,2,…,J]を与える離散関数と、マイクロホンアレーの中心から反射板までの距離の候補Cdistance,k=k×ΔL[k=1,2,…,K]を与える離散関数を、マイクロホンアレーに対する反射板の配置関係を表す情報として反射物配置決定装置の記憶部101が記憶する構成でもよい。ここで、Δθは予め定められた角度、ΔLは予め定められた長さである。ここでは、等間隔に角度と距離の候補を与える離散関数を例示したが、非等間隔に角度と距離の候補を与える離散関数や、あるいは連続関数であってもよいことはもちろんである(連続関数の場合は例えば入力値を離散的に設定すればよい)。
【0047】
反射物配置決定装置100の配置決定部110は、記憶部101から取得したJK個の候補、あるいは記憶部101に記憶された関数に従って配置決定部110が計算して得たJK個の候補、のそれぞれ(候補インデックスをnとする)について、式(25)によるパワー(評価関数)pnを計算する。Ωは周波数ωの集合である。空間相関行列Qn(ω)=Rxx(ω)は、候補インデックスnに対応する反射板の配置関係に基づく空間相関行列であり(式(8a)または式(8b)参照)、フィルタWn→(ω,θs)は、候補インデックスnに対応する反射板の配置関係に基づくフィルタである(式(24)参照)。
【数22】
【0048】
目的方向θsが一つの場合は式(25)に拠るが、目的方向が複数である場合は、配置決定部110は、式(26)によるパワー(評価関数)pnを計算する。複数の目的方向をθs1,…,θsAとする。ただし、その総数|{θs1,…,θsA}|=AはPを超えない。この処理は、複数の目的方向について、これらの目的方向のうちいずれかに特化して良好な音声強調を実現するフィルタを設計する観点ではなく、これらの目的方向のうちのどの方向であってもバランス良く良好な音声強調を実現するフィルタを設計する観点によるものである。
【数23】
【0049】
次に、配置決定部110は、JK個の候補の対応するパワーp1,…,pJKのうち最小のパワーを探索する。例えば、最小のパワーがpgであれば、そのインデックスgで特定される「マイクロホンアレーに対する反射板の角度とマイクロホンアレーの中心から反射板までの距離」がマイクロホンアレーに対する最適な反射板の配置条件として決定される。
【0050】
<距離の導入>
上述の説明では、いずれの設計法においても、目的方向のみを考慮していたが、音源までの距離(後述するようにスピーカアレーによる音声再生の場合では、スポット再生までの距離)も考慮してフィルタを設計することも可能である。この場合、各設計法において、マイクロホンアレーの中心からの距離をDと表す(特に目的方向への距離をDhと表す)と、上記各式は下記のように修正される。
【0051】
<1>最小分散無歪応答法によるフィルタ設計法の場合
式(4):
【数24】
【0052】
式(5)、式(6):
【数25】
【0053】
式(7):
【数26】
【0054】
式(8a)、式(8b):雑音の到来距離のインデックスzが属する集合を{1,2,…,Z-1}とする。目的距離Dhのインデックスhは集合{1,2,…,Z-1}に属さないとする。また、集合{1,2,…,Z-1}と集合{h}との和集合をΓとすると、|Γ|=Zである。|Γ|は集合Γの要素数を表す。
【数27】
【0055】
式(9a)、式(9b):
【数28】
【0056】
式(10a)、式(10b):ただし、音波が球面波として到来する場合の例である。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。適宜に設定した空間座標系において、v→θ,D(d)は位置(θ,D)の位置ベクトルを、u→mはm番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→θ,D(d)-u→m‖)は音波の距離減衰を表す関数である。例えばf(‖v→θ,D(d)-u→m‖)=1/‖v→θ,D(d)-u→m‖である(置換後の式(10b)参照)。
【数29】
【0057】
式(11c)、式(11d):ただし、音波が球面波として到来する場合の例である。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。上記空間座標系において、v→θ,D(ξ)は位置(θ,D)がξ番目の反射物の反射面で鏡像対象に移された位置の位置ベクトルを、u→mはm番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→θ,D(ξ)-u→m‖)は音波の距離減衰を表す関数である。例えばf(‖v→θ,D(ξ)-u→m‖)=1/‖v→θ,D(ξ)-u→m‖である(置換後の式(11d)参照)。
【数30】
【0058】
式(12):
【数31】
【0059】
式(13):目的距離が複数である場合は、複数の目的距離をDh1,…,θhBとする。その総数|{Dh1,…,θhB}|=Bとする。ただし、その総数|{Dh1,…,θhB}|=BはZを超えない。
【数32】
【0060】
式(14)、式(15)、式(16):
【数33】
【0061】
式(17):
【数34】
【0062】
式(18):
【数35】
【0063】
式(19):
【数36】
【0064】
式(20):
【数37】
【0065】
式(21):
【数38】
【0066】
式(22)、式(23):
【数39】
【0067】
式(24):
【数40】
【0068】
式(25):
【数41】
【0069】
式(26):
【数42】
【0070】
上述の説明では、いずれの設計法においても、マイクロホンアレーによる収音を前提としていたが、スピーカアレーによって音声を再生する場合であっても全く同じ議論が成立する。なお、音声再生の場合の反射音を考慮するため、「双対音」を定義する。(1)スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射して、反射音の進行方向が目的方向となる、という条件を満たす音声を「双対音」と呼ぶ(図12、図13参照)。マイクロホンアレーによる収音を前提として上述の説明において、マイクロホンアレーをスピーカアレー、雑音を漏れ音声、反射音を双対音と読み替えればよい。
【0071】
以下、本発明の適用形態を説明する。適用形態の概要は下記のとおりである。
適用形態1:
マイクロホンアレーで収音した音声について所望の方向についての音声を狭指向で強調する。
適用形態2:
マイクロホンアレーで収音した音声について所望の方向および距離の音声を狭指向で強調する。
適用形態3:
スピーカアレーで所望の方向に音声を狭指向で再生する。
適用形態4:
スピーカアレーで所望の方向と距離の場所に音声を狭指向でスポット再生する。
【0072】
《適用形態1》
適用形態1の機能構成および処理フローを図2と図3に示す。この適用形態1の音声処理装置1は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
【0073】
まず、反射板の位置は、上述の本発明の実施形態によって決定される。続いて、下記の処理が続行する(図10、図11も参照のこと)。
【0074】
ステップS1
予め、フィルタ設計部260が音声強調の対象となりえる離散的な方向ごとに、周波数ごとのフィルタW→(ω,θi)を計算しておく。音声強調の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)とすると、W→(ω,θ1),…,W→(ω,θi),…,W→(ω,θI)(1≦i≦I, ω∈Ω; iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。このためには、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T(1≦i≦I, ω∈Ω)を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板のマイクロホンアレーに対する位置関係(これは既に決定されている)、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(9a)によって具体的に計算できる(正確には、式(9a)のθをθiとしたものである)。反射音の数Ξは1≦Ξを満たす整数に設定されるが、上述の実施形態によるとΞ=1であり、一つの反射板300をマイクロホンアレーの近傍に設置するので、伝達特性a→(ω,θi)は式(9b)によって具体的に計算できる(正確には、式(9b)のθをθiとしたものである)。ステアリングベクトルの計算には、例えば式(10a)、式(10b)、式(11a)、式(11b)、式(11c)、式(11d)を用いることができる。なお、式(9a)や式(9b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。そして、伝達特性a→(ω,θi)を用いて、例えば式(7)、式(18)、式(19)、式(24)のいずれかによってW→(ω,θi)(1≦i≦I)を求める。なお、式(7)または式(19)または式(24)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(8b)で計算できる。式(18)を用いる場合には空間相関行列Rnn(ω)は式(16)で計算できる。I×|Ω|個のフィルタW→(ω,θi)(1≦i≦I,ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
【0075】
ステップS2
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。
【0076】
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θsになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
【0077】
ステップS3
AD変換部210が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
【0078】
ステップS4
フレーム生成部220は、AD変換部210が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→1(k),…,x→M(k)]Tを出力する。kはフレーム番号のインデックスである。x→m(k)=[xm((k-1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0079】
ステップS5
周波数領域変換部230は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
【0080】
ステップS6
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs)を適用して、出力信号Y(ω,k,θs)を出力する(式(27)参照)。目的方向θsのインデックスsは、s∈{1,…,I}であり、フィルタW→(ω,θs)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、強調したい目的方向θsに対応するフィルタW→(ω,θs)を記憶部290から取得すればよい。目的方向θsのインデックスsが集合{1,…,I}に属さない場合、つまり、目的方向θsに対応するフィルタW→(ω,θs)がステップS1の処理で計算されていない場合、臨時に目的方向θsに対応するフィルタW→(ω,θs)をフィルタ設計部260に計算させてもよいし、あるいは目的方向θsに近い方向θs'に対応するフィルタW→(ω,θs')を用いてよい。
【数43】
【0081】
ステップS7
時間領域変換部250は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して目的方向θsの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
【0082】
ここでは、ステップS1の処理で予めフィルタW→(ω,θi)を計算しておく実施形態を説明したが、狭指向音声強調装置1の計算処理能力などに応じて、目的方向θsが定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs)を計算する実施形態を採用することもできる。
【0083】
《適用形態2》
適用形態2の機能構成および処理フローを図4と図5に示す。この適用形態2の音声処理装置2は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
【0084】
まず、反射板の位置は、上述の本発明の実施形態によって決定される。続いて、下記の処理が続行する(図10、図11も参照のこと)。なお、適用形態2において引用する式は<距離の導入>欄の式とする。
【0085】
ステップS1
予め、フィルタ設計部260が音声強調の対象となりえる離散的な位置(θi,Dg)ごとに、周波数ごとのフィルタW→(ω,θi,Dg)を計算しておく。音声強調の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)、離散的な距離の総数をG(Gは1以上の予め定められた整数であり、G≦Zを満たす)とすると、W→(ω,θ1,D1),…,W→(ω,θi,D1),…,W→(ω,θI,D1),W→(ω,θ1,D2),…,W→(ω,θi,D2),…,W→(ω,θI,D2),…,W→(ω,θ1,Dg),…,W→(ω,θi,Dg),…,W→(ω,θI,Dg),…,W→(ω,θ1,DG),…,W→(ω,θi,DG),…,W→(ω,θI,DG)(1≦i≦I, 1≦g≦G, ω∈Ω; iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。このためには、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T(1≦i≦I, 1≦g≦G, ω∈Ω)を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板のマイクロホンアレーに対する位置関係(これは既に決定されている)、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(9a)によって具体的に計算できる(正確には、式(9a)のθをθi、DをDgとしたものである)。反射音の数Ξは1≦Ξを満たす整数に設定されるが、上述の実施形態によるとΞ=1であり、一つの反射板300をマイクロホンアレーの近傍に設置するので、伝達特性a→(ω,θi)は式(9b)によって具体的に計算できる(正確には、式(9b)のθをθiとしたものである)。ステアリングベクトルの計算には、例えば式(10a)、式(10b)、式(11a)、式(11b)、式(11c)、式(11d)を用いることができる。なお、式(9a)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。そして、伝達特性a→(ω,θi,Dg)を用いて、例えば式(7)、式(18)、式(19)、式(24)のいずれかによってW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G)を求める。なお、式(7)または式(19)または式(24)を用いる場合には空間相関行列Q(ω,Dg)(あるいはRxx(ω,Dg))は式(8b)で計算できる(正確には、式(8b)のDをDgとしたものである)。式(18)を用いる場合には空間相関行列Rnn(ω,Dg)は式(16)で計算できる(正確には、式(16)のDをDgとしたものである)。I×G×|Ω|個のフィルタW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G, ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
【0086】
ステップS2
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。
【0087】
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θsになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
【0088】
ステップS3
AD変換部210が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
【0089】
ステップS4
フレーム生成部220は、AD変換部210が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→1(k),…,x→M(k)]Tを出力する。kはフレーム番号のインデックスである。x→m(k)=[xm((k-1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0090】
ステップS5
周波数領域変換部230は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
【0091】
ステップS6
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を適用して、出力信号Y(ω,k,θs,Dh)を出力する(式(28)参照)。位置(θs,Dh)のインデックスs, hは、s∈{1,…,I}, h∈{1,…,G}であり、フィルタW→(ω,θs,Dh)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、強調したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を記憶部290から取得すればよい。方向θsのインデックスsが集合{1,…,I}に属さない場合あるいは距離Dhのインデックスhが集合{1,…,G}に属さない場合、つまり、位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)がステップS1の処理で計算されていない場合、臨時に位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)をフィルタ設計部260に計算させてもよいし、あるいは方向θsに近い方向θs'や距離Dhに近い距離Dh'に対応するフィルタW→(ω,θs',Dh)やW→(ω,θs,Dh')やW→(ω,θs',Dh')を用いてよい。
【数44】
【0092】
ステップS7
時間領域変換部250は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs,Dh)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して位置(θs,Dh)からの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
【0093】
ここでは、ステップS1の処理で予めフィルタW→(ω,θi,Dg)を計算しておく実施形態を説明したが、音声処理装置2の計算処理能力などに応じて、位置(θs,Dh)が定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs,Dh)を計算する実施形態を採用することもできる。
【0094】
《適用形態3》
適用形態3の機能構成および処理フローを図6と図7に示す。この適用形態3の音声処理装置3は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
【0095】
まず、反射板の位置は、上述の本発明の実施形態によって決定される。続いて、下記の処理が続行する(図12、図13も参照のこと)。
【0096】
ステップS1
予め、フィルタ設計部260が音声再生の対象となりえる離散的な方向ごとに、周波数ごとのフィルタW→(ω,θi)を計算しておく。音声再生の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)とすると、W→(ω,θ1),…,W→(ω,θi),…,W→(ω,θI)(1≦i≦I, ω∈Ω; iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。このためには、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T(1≦i≦I, ω∈Ω)を求める必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板のスピーカアレーに対する位置関係(これは既に決定されている)、直接音とξ番目(1≦ξ≦Ξ)の双対音との時間差、反射物の音の反射率などの環境情報を基に式(9a)によって具体的に計算できる(正確には、式(9a)のθをθiとしたものである)。双対音の数Ξは1≦Ξを満たす整数に設定されるが、上述の実施形態によるとΞ=1であり、一つの反射板300をマイクロホンアレーの近傍に設置するので、伝達特性a→(ω,θi)は式(9b)によって具体的に計算できる(正確には、式(9b)のθをθiとしたものである)。ステアリングベクトルの計算には、例えば式(10a)、式(10b)、式(11a)、式(11b)、式(11c)、式(11d)を用いることができる。なお、式(10a)や式(10b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。そして、伝達特性a→(ω,θi)を用いて、例えば式(7)、式(18)、式(19)、式(24)のいずれかによってW→(ω,θi)(1≦i≦I)を求める。なお、式(7)または式(19)または式(24)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(8b)で計算できる。式(18)を用いる場合には空間相関行列Rnn(ω)は式(16)で計算できる。I×|Ω|個のフィルタW→(ω,θi)(1≦i≦I,ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
【0097】
ステップS2
音源200が音源信号ss(t)を出力する。この実施形態では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
【0098】
ステップS3
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS3の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
【0099】
ステップS4
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0100】
ステップS5
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
【0101】
ステップS6
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい目的方向θsに対応するフィルタW→(ω,θs)を適用して、再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを出力する(式(29)参照)。目的方向θsのインデックスsは、s∈{1,…,I}であり、フィルタW→(ω,θs)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、再生したい目的方向θsに対応するフィルタW→(ω,θs)を記憶部290から取得すればよい。目的方向θsのインデックスsが集合{1,…,I}に属さない場合、つまり、目的方向θsに対応するフィルタW→(ω,θs)がステップS1の処理で計算されていない場合、臨時に目的方向θsに対応するフィルタW→(ω,θs)をフィルタ設計部260に計算させてもよいし、あるいは目的方向θsに近い方向θs'に対応するフィルタW→(ω,θs')を用いてよい。
【数45】
【0102】
ステップS7
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを時間領域に変換して第kフレームのフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]Tを得て、さらに、得られたフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]Tをフレーム番号のインデックスの順番に連結して再生方向である目的方向θsに向けて音声が強調された時間領域信号x→(t)=[x1(t),…,xM(t)]Tを出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
【0103】
ステップS8
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
【0104】
なお、M個のスピーカの並べ方に制限は無い。線形スピーカアレーのように直線状にスピーカを配置するアレー構成でもよいし、2次元または3次元的にM個のスピーカを配置するアレー構成でもよい。また、再生方向として設定できる方向を広くとるためには、各スピーカの指向性は、再生方向である目的方向θsになり得る方向に或る程度の音圧で音声を再生可能な指向性を持っていたほうがよい。したがって、無指向性スピーカや単一指向性スピーカといった指向性が比較的緩やかなスピーカが好適である。
【0105】
ここでは、ステップS1の処理で予めフィルタW→(ω,θi)を計算しておく実施形態を説明したが、音声処理装置3の計算処理能力などに応じて、再生方向である目的方向θsが定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs)を計算する実施形態を採用することもできる。
【0106】
《適用形態4》
適用形態4の機能構成および処理フローを図8と図9に示す。この適用形態4の音声処理装置4は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
【0107】
まず、反射板の位置は、上述の本発明の実施形態によって決定される。続いて、下記の処理が続行する(図12、図13も参照のこと)。なお、適用形態4において引用する式は<距離の導入>欄の式とする。
【0108】
ステップS1
予め、フィルタ設計部260が音声スポット再生の対象となりえる離散的な位置(θi,Dg)ごとに、周波数ごとのフィルタW→(ω,θi,Dg)を計算しておく。音声スポット再生の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)、離散的な距離の総数をG(Gは1以上の予め定められた整数であり、G≦Zを満たす)とすると、W→(ω,θ1,D1),…,W→(ω,θi,D1),…,W→(ω,θI,D1),W→(ω,θ1,D2),…,W→(ω,θi,D2),…,W→(ω,θI,D2),…,W→(ω,θ1,Dg),…,W→(ω,θi,Dg),…,W→(ω,θI,Dg),…,W→(ω,θ1,DG),…,W→(ω,θi,DG),…,W→(ω,θI,DG)(1≦i≦I, 1≦g≦G, ω∈Ω; iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。このためには、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T(1≦i≦I, 1≦g≦G, ω∈Ω)を求める必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板のスピーカアレーに対する位置関係(これは既に決定されている)、直接音とξ番目(1≦ξ≦Ξ)の双対音との時間差、反射物の音の反射率などの環境情報を基に式(9a)によって具体的に計算できる(正確には、式(9a)のθをθi、DをDgとしたものである)。双対音の数Ξは1≦Ξを満たす整数に設定されるが、上述の実施形態によるとΞ=1であり、一つの反射板300をマイクロホンアレーの近傍に設置するので、伝達特性a→(ω,θi)は式(9b)によって具体的に計算できる(正確には、式(9b)のθをθiとしたものである)。ステアリングベクトルの計算には、例えば式(10a)、式(10b)、式(11a)、式(11b)、式(11c)、式(11d)を用いることができる。なお、式(10a)、式(10b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。そして、伝達特性a→(ω,θi,Dg)を用いて、例えば式(7)、式(18)、式(19)、式(24)のいずれかによってW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G)を求める。なお、式(7)または式(19)または式(24)を用いる場合には空間相関行列Q(ω,Dg)(あるいはRxx(ω,Dg))は式(8b)で計算できる(正確には、式(8b)のDをDgとしたものである)。式(18)を用いる場合には空間相関行列Rnn(ω,Dg)は式(16)で計算できる(正確には、式(16)のDをDgとしたものである)。I×G×|Ω|個のフィルタW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G, ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
【0109】
ステップS2
音源200が音源信号ss(t)を出力する。この実施形態では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
【0110】
ステップS3
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS3の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
【0111】
ステップS4
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0112】
ステップS5
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
【0113】
ステップS6
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、スポット再生したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を適用して、再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを出力する(式(30)参照)。位置(θs,Dh)のインデックスs, hは、s∈{1,…,I}, h∈{1,…,G}であり、フィルタW→(ω,θs,Dh)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、スポット再生したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を記憶部290から取得すればよい。方向θsのインデックスsが集合{1,…,I}に属さない場合あるいは距離Dhのインデックスhが集合{1,…,G}に属さない場合、つまり、位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)がステップS1の処理で計算されていない場合、臨時に位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)をフィルタ設計部260に計算させてもよいし、あるいは方向θsに近い方向θs'や距離Dhに近い距離Dh'に対応するフィルタW→(ω,θs',Dh)やW→(ω,θs,Dh')やW→(ω,θs',Dh')を用いてよい。
【数46】
【0114】
ステップS7
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを時間領域に変換して第kフレームのフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]Tを得て、さらに、得られたフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]Tをフレーム番号のインデックスの順番に連結してスポット再生したい位置(θs,Dh)に向けて音声が強調された時間領域信号x→(t)=[x1(t),…,xM(t)]Tを出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
ステップS8
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
【0115】
なお、M個のスピーカの並べ方に制限は無い。線形スピーカアレーのように直線状にスピーカを配置するアレー構成でもよいし、2次元または3次元的にM個のスピーカを配置するアレー構成でもよい。また、収音方向として設定できる方向を広くとるためには、各スピーカの指向性は、再生方向である目的方向θsになり得る方向に或る程度の音圧で音声を再生可能な指向性を持っていたほうがよい。したがって、無指向性スピーカや単一指向性スピーカといった指向性が比較的緩やかなスピーカが好適である。
【0116】
ここでは、ステップS1の処理で予めフィルタW→(ω,θi,Dg)を計算しておく実施形態を説明したが、音声処理装置4の計算処理能力などに応じて、位置(θs,Dh)が定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs,Dh)を計算する実施形態を採用することもできる。
【0117】
<反射物配置決定装置のハードウェア構成例>
上述の実施形態に関わる反射物配置決定装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、反射物配置決定装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0118】
反射物配置決定装置の外部記憶装置には、反射物の配置を決定するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
【0119】
反射物配置決定装置の記憶部には、反射板の配置に関する候補(JK個)、式(12)や式(13)などに基づいて反射板の配置を決定するためのプログラムが記憶されている。
【0120】
反射物配置決定装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(配置決定部)を実現することで反射物の配置決定が実現される。
【0121】
また、音声処理装置についても同様のハードウェア構成とすることができ、音声処理装置の記憶部には、空間相関行列を用いて周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してAD変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、所望方向(および所望距離)に対応するフィルタを周波数ごとに周波数領域信号に適用して出力信号を得るためのプログラムと、出力信号を時間領域信号に変換するためのプログラムが記憶されている。
【0122】
音声処理装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(フィルタ設計部、AD変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部)を実現することで上述の音声処理が実現される。
【0123】
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0124】
また、上記実施形態において説明したハードウェアエンティティ(反射物配置決定装置/音声処理装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0125】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0126】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0127】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0128】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【特許請求の範囲】
【請求項1】
音声に基づく情報に対して適用されるフィルタが、空間中における複数の方向の伝達特性によって表される空間相関行列を用いて所定の評価関数に基づいて設計される場合であって、
各上記伝達特性は、直接音の伝達特性と反射物で反射する一つの反射音の各伝達特性との和で表されており、
上記評価関数は少なくとも目的方向の音声が強調されるほど小さな値をとる関数であり、
記憶部には、マイクロホンアレーまたはスピーカアレーに対する上記反射物の配置関係を表す情報(以下、配置情報という)が記憶されており、
配置決定部が、上記配置情報に基づく上記反射物の各候補について、当該候補に基づいて特定される上記伝達特性によって表される上記空間相関行列を用いて上記評価関数の値を求め、当該値のうち最小のものに対応する候補を上記反射物の配置として決定する配置決定ステップ
を有する反射物の配置決定方法。
【請求項2】
請求項1に記載の配置決定方法において、
上記評価関数は最小分散無歪応答法に基づく評価関数である
ことを特徴とする反射物の配置決定方法。
【請求項3】
請求項1に記載の配置決定方法において、
上記評価関数はSN比最大化規準に基づく評価関数である
ことを特徴とする反射物の配置決定方法。
【請求項4】
請求項1に記載の配置決定方法において、
上記評価関数はパワーインバージョンに基づく評価関数である
ことを特徴とする反射物の配置決定方法。
【請求項5】
音声に基づく情報に対して適用されるフィルタが、空間中における複数の方向の伝達特性によって表される空間相関行列を用いて所定の評価関数に基づいて設計される場合であって、
各上記伝達特性は、直接音の伝達特性と反射物で反射する一つの反射音の各伝達特性との和で表されており、
上記評価関数は少なくとも目的方向の音声が強調されるほど小さな値をとる関数であり、
マイクロホンアレーまたはスピーカアレーに対する上記反射物の配置関係を表す情報(以下、配置情報という)を記憶する記憶部と、
上記配置情報に基づく上記反射物の各候補について、当該候補に基づいて特定される上記伝達特性によって表される上記空間相関行列を用いて上記評価関数の値を求め、当該値のうち最小のものに対応する候補を上記反射物の配置として決定する配置決定部と
を含む反射物の配置決定装置。
【請求項6】
コンピュータに、請求項1から請求項4のいずれかに記載の反射物の配置決定方法の処理を実行させるためのプログラム。
【請求項1】
音声に基づく情報に対して適用されるフィルタが、空間中における複数の方向の伝達特性によって表される空間相関行列を用いて所定の評価関数に基づいて設計される場合であって、
各上記伝達特性は、直接音の伝達特性と反射物で反射する一つの反射音の各伝達特性との和で表されており、
上記評価関数は少なくとも目的方向の音声が強調されるほど小さな値をとる関数であり、
記憶部には、マイクロホンアレーまたはスピーカアレーに対する上記反射物の配置関係を表す情報(以下、配置情報という)が記憶されており、
配置決定部が、上記配置情報に基づく上記反射物の各候補について、当該候補に基づいて特定される上記伝達特性によって表される上記空間相関行列を用いて上記評価関数の値を求め、当該値のうち最小のものに対応する候補を上記反射物の配置として決定する配置決定ステップ
を有する反射物の配置決定方法。
【請求項2】
請求項1に記載の配置決定方法において、
上記評価関数は最小分散無歪応答法に基づく評価関数である
ことを特徴とする反射物の配置決定方法。
【請求項3】
請求項1に記載の配置決定方法において、
上記評価関数はSN比最大化規準に基づく評価関数である
ことを特徴とする反射物の配置決定方法。
【請求項4】
請求項1に記載の配置決定方法において、
上記評価関数はパワーインバージョンに基づく評価関数である
ことを特徴とする反射物の配置決定方法。
【請求項5】
音声に基づく情報に対して適用されるフィルタが、空間中における複数の方向の伝達特性によって表される空間相関行列を用いて所定の評価関数に基づいて設計される場合であって、
各上記伝達特性は、直接音の伝達特性と反射物で反射する一つの反射音の各伝達特性との和で表されており、
上記評価関数は少なくとも目的方向の音声が強調されるほど小さな値をとる関数であり、
マイクロホンアレーまたはスピーカアレーに対する上記反射物の配置関係を表す情報(以下、配置情報という)を記憶する記憶部と、
上記配置情報に基づく上記反射物の各候補について、当該候補に基づいて特定される上記伝達特性によって表される上記空間相関行列を用いて上記評価関数の値を求め、当該値のうち最小のものに対応する候補を上記反射物の配置として決定する配置決定部と
を含む反射物の配置決定装置。
【請求項6】
コンピュータに、請求項1から請求項4のいずれかに記載の反射物の配置決定方法の処理を実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2012−222518(P2012−222518A)
【公開日】平成24年11月12日(2012.11.12)
【国際特許分類】
【出願番号】特願2011−84728(P2011−84728)
【出願日】平成23年4月6日(2011.4.6)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成24年11月12日(2012.11.12)
【国際特許分類】
【出願日】平成23年4月6日(2011.4.6)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]