音声スポット再生処理方法、装置、プログラム
【課題】十分なSN比で音声を再生し、任意の方向に向けて音声を再生可能でもありながら、所望の位置を含む狭い領域(スポット)に音声を再生可能な音声スポット再生処理技術を提供する。
【解決手段】音声再生の対象となる位置について、音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)への各スピーカからの音声の伝達特性ai,gを用いて、音声再生の対象となる位置について、周波数ごとのフィルタを求める。スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各伝達特性ai,gは、方向iと距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される。フィルタを、周波数ごとに周波数領域信号Sに適用してMチャネルの周波数領域信号Xを得る。
【解決手段】音声再生の対象となる位置について、音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)への各スピーカからの音声の伝達特性ai,gを用いて、音声再生の対象となる位置について、周波数ごとのフィルタを求める。スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各伝達特性ai,gは、方向iと距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される。フィルタを、周波数ごとに周波数領域信号Sに適用してMチャネルの周波数領域信号Xを得る。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、所望の位置を含む狭い領域(スポット)に音声を再生するための信号処理技術(音声スポット再生処理技術)に関する。
【背景技術】
【0002】
スピーカを利用した音声再生の状況として、特定の方向に十分な音量で音声を再生することが望まれる状況がある。例えば、展示場で展示物の前方の限られたエリアのみに当該展示物を説明する音声を再生する場合や、階段の手前や駅のプラットホームの縁などの限られたエリアで注意喚起を促す音声を再生する場合である。このような、スピーカから見て所望の方向(目的方向)を含む狭い範囲に音声を再生するための信号処理技術(狭指向音声再生処理技術)は、従来から研究・開発されている。なお、スピーカの周囲とスピーカから発せられた音声の音圧との関係(音圧分布)は指向性と呼ばれ、或る方向への指向性が鋭いほど、当該方向を含む狭い範囲に音声を再生し、当該範囲以外の範囲で当該音声の音圧を抑圧することができる。ここでは、狭指向音声再生処理技術に関する3つの従来技術を例示する。なお、この明細書では、「音声」は、人の発する声に限定されるものではなく、人や動物の声はもとより楽音や環境雑音など「音」一般を指す。
【0003】
[1]物理特性を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、ホーンスピーカとパラボラスピーカが挙げられる。ホーンスピーカは、例えば、スピーカの前方に、開口端に向けて断面面積が徐々に広くなるような喇叭状ホーンが取り付けられたスピーカである。ホーン長が長ければ長いほど、ホーンスピーカの指向性は鋭くなる。パラボラスピーカは、パラボラ板(放物面)の焦点にスピーカが配置された構成を持ち、スピーカからパラボラ板に向かって音声を放射することによって、パラボラ板の頂点とパラボラ板の焦点とを結ぶ直線の方向に音声が伝達する。
【0004】
[2]超音波を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、パラメトリックスピーカが挙げられる(例えば特許文献1参照)。パラメトリックスピーカは、直進性の強い超音波を搬送波として、例えば超音波が音源信号で振幅変調された変調波を大音圧で放射する。変調波が空気中を伝播する過程で空気の非線形特性によって歪み成分が生じ、この歪み成分と人間の聴覚特性に起因して可聴帯域の音声が出現する。
【0005】
[3]信号処理を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、フェーズドスピーカアレーが挙げられる(例えば非特許文献1参照)。フェーズドスピーカアレーは、複数のスピーカで構成されたスピーカアレーであり、音源信号に時間差やレベル差の情報が含まれているフィルタを掛けて重畳する信号処理を行うことで得られた信号を各スピーカに入力して音声を空間放射し、この結果、目的方向に音声が再生される。
【0006】
ところで、或る方向に対してだけでなく、特定の狭い領域に居る聴取者にのみ音声を伝えるスポット再生が可能となれば、拡声による通信を行った場合などに再生音声が聴取者以外の人々にとって騒音とならないだけでなく、通信内容が周囲に漏れにくいというプライバシーの保護もより一層高まる。
【0007】
このような、所望の位置を含む狭い領域(スポット)に音声を再生するための信号処理技術(音声スポット再生処理技術)として、特定の領域の境界上の音圧を制御すると、当該領域の外側の音場も制御可能であるという境界音場制御理論に基づき、境界上の音圧がゼロとなるように制御することでスポット再生を実現しようという従来技術がある(特許技術文献2参照)。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2010−258938号公報
【特許文献2】特開2006−74442号公報
【非特許文献】
【0009】
【非特許文献1】羽田陽一、片岡章俊、「自由空間伝達関数を用いた多点制御に基づく小型スピーカアレーの実空間性能」、日本音響学会春季講演論文集、pp.631-632,2008.
【発明の概要】
【発明が解決しようとする課題】
【0010】
従来技術は、優れた点がある他方で、例えば下記(1)〜(5)の一つまたは複数の課題も持っていた。
(1)目的方向にスピーカ自体を向けないと、目的方向に音声を再生することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、ホーンスピーカやパラボラスピーカそのものの向きを変更するための駆動制御手段が必要になってしまう。
(2)指向性はスポットの広狭に係るから、できるだけ狭いスポットに音声を再生しようとするならば狭指向性の実現が望まれる。しかし、見込み角5°〜10°程度の狭指向性(目的方向に対して±5°〜±10°程度の鋭い指向性)を実現することが困難である。
(3)狭指向性を実現するために、スピーカ数を増やし、アレーサイズ(アレーの全長)を大きくすることが必要となる。これはコストや配線の複雑さなどの観点から不利益である。
(4)スポット再生の音場の形成のために、スピーカを様々な場所に配置する必要がある。これはスピーカアレーを設置する空間の制約やコストなどの観点から不利益である。
(5)目的方向以外の方向の音声に埋もれないように目的方向に向けて音声を高SN比で再生することが難しい。
【0011】
このような現状に鑑みて、本発明は、十分なSN比で音声を再生し、スピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもありながら、所望の位置を含む狭い領域(スポット)に音声を再生可能な音声スポット再生処理技術を提供することを目的とする。
【課題を解決するための手段】
【0012】
音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)への各スピーカからの音声の伝達特性ai,gを用いて、音声再生の対象となる位置について、周波数ごとのフィルタを求める[フィルタ設計処理]。Mは2以上の整数であり、M個のスピーカはスピーカアレーを構成する。スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各伝達特性ai,gは、方向iと距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される。フィルタは、周波数ごとに、音源信号が周波数領域に変換された周波数領域信号SをMチャネルの周波数領域信号Xに変換するものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号Sに適用してMチャネルの周波数領域信号Xを得る[フィルタ適用処理]。Mチャネルの周波数領域信号Xを時間領域に変換して得られるMチャネルの時間領域信号xは、通常、スピーカアレーで再生されることとなる。
【0013】
各伝達特性ai,gは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正された一つ以上の双対音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
【0014】
フィルタ設計処理では、音声再生の対象となる位置以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置での音声のSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、M個のスピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態でスポット再生位置として想定される一つまたは複数の位置以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
【0015】
あるいは、フィルタ設計処理では、(1)音声再生の対象となる位置への音声の全帯域通過、および(2)一つ以上の抑圧点への音声の全帯域抑制、の条件の下、音声再生の対象となる位置と各抑圧点以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置i=s,g=hの伝達特性as,hを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置以外の各位置に対応する伝達特性ai,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる位置以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、スポット再生位置として想定される一つまたは複数の位置に含まれる各位置に対応する伝達特性ai,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。
【発明の効果】
【0016】
本発明に拠ると、音声再生対象方向への直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で再生可能であるとともに、信号処理によって当該方向への音声再生を行うことからスピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもある。さらに、詳しくは後述の《原理》の項目で説明するが、各伝達特性ai,gを、方向iと距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、音声再生対象方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、音声再生対象方向に対して従来よりも鋭い指向性を有することになる。さらに、詳しくは後述の《原理》の項目で説明するが、反射音を利用することによって、スピーカアレーから見てほぼ同じ方向だが距離が異なる受聴位置への音声について、異なる受聴位置に対応する伝達特性間に有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で再現することによってスピーカアレーからの距離に応じて音声をスポット再生できる。
【図面の簡単な説明】
【0017】
【図1】(a)直接音だけを考慮した場合に狭指向性が十分に実現できないことを模式的に示す図、(b)直接音と反射音を考慮した場合に狭指向性が十分に実現できることを模式的に示す図。
【図2】従来技術による場合と本発明の原理による場合のコヒーレンスの方向依存性を示す図。
【図3】実施形態1に係る音声スポット再生処理装置の機能構成を示す図。
【図4】実施形態1に係る音声スポット再生処理方法の処理手順を示す図。
【図5】第1の実施例の構成を示す図。
【図6】(a)スピーカアレーから二つの受聴位置A,Bへ直接音が届く様子を示す図。(b)スピーカアレーから二つの受聴位置A,Bへ直接音が届く様子と、反射板によってスピーカアレーから二つの仮想受聴位置A(ξ),B(ξ)へ双対音が届く様子を示す図。
【図7】(a)反射板を設置しなかった場合の最小分散ビームフォーマの指向性(2次元領域)。(b)反射板を設置した場合の最小分散ビームフォーマの指向性(2次元領域)。
【図8】本発明の実施構成例を示す図。(a)平面図。(b)正面図。(c)側面図。
【図9】(a)本発明の別の実施構成例を示す側面図。(b)本発明の別の実施構成例を示す側面図。
【図10】図9(b)に示す実施構成例における使用形態を示す図。
【図11】本発明の実施構成例を示す図。(a)平面図。(b)正面図。(c)側面図。
【図12】本発明の実施構成例を示す側面図。
【図13】実施形態2に係る音声スポット再生処理装置の機能構成を示す図。
【図14】実施形態2に係る音声スポット再生処理方法の処理手順を示す図。
【発明を実施するための形態】
【0018】
《原理》
本発明の原理について説明する。本発明は、信号処理に基づいて任意の方向に向けて音声を再生できるというスピーカアレー技術の本質と、反射音を積極的に利用することによって高SN比で音声を再生することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。特に、スピーカアレーから見た方向がほぼ同じで距離だけが異なる受聴位置とスピーカアレーとの間の伝達特性はかなり類似していることに鑑みて、反射物を利用することによって、異なる受聴位置とスピーカアレーとの間の伝達特性の差分を大きくすることが本発明の顕著な特徴の一つと言える。伝達特性の差分を信号処理によって再現することによって、スピーカアレーからの距離に応じて音声をスポット再生可能な音声スポット再生処理技術が実現する。
【0019】
周波数領域における信号処理を主に説明するので、説明に先立ち、記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。1チャネルの音源信号の第kフレームの周波数領域表現をS(ω,k)、スピーカアレーの中心から見て方向θs且つスピーカアレーの中心から見て距離Dhだけ離れた位置を受聴位置(スポット再生位置ともいう)として設計されたフィルタであって周波数ωで音源信号の周波数領域信号S(ω,k)をMチャネルの周波数領域信号に変換するフィルタをW→(ω,θs,Dh)、音源信号の周波数領域信号S(ω,k)にフィルタW→(ω,θs,Dh)を適用して得られるMチャネルの周波数領域信号(以下、再生信号と呼ぶ)をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]とする。Mは2以上の整数とする。以下、しばらくの間、距離Dhを固定して考える。
【0020】
「スピーカアレーの中心」は任意に定めることができるが、一般的にはM個のスピーカの配置の幾何学的中心が「スピーカアレーの中心」とされ、例えば線形スピーカアレー(M個のスピーカが直線状に並べられたスピーカアレー)であれば両端のスピーカの中間点が「スピーカアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面スピーカアレーであれば、四隅のスピーカの対角線が交わる位置が「スピーカアレーの中心」とされる。
【0021】
このような下では、第kフレームの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]は式(1)で与えられる。Hはエルミート転置を表す。なお、第kフレームの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]はMチャネルの時間領域信号に変換され、これらMチャネルの時間領域信号はそれぞれチャネルに対応するスピーカで再生される(詳細は後述する)。スピーカの個数はMである。
【数1】
【0022】
フィルタW→(ω,θs,Dh)の設計法としては種々あるが、ここでは最小分散無歪応答法(MVDR method;minimum variance distortion response method)に拠る場合を説明する。最小分散無歪応答法では、フィルタW→(ω,θs,Dh)は、式(3)の拘束条件の下、空間相関行列Q(ω)を用いて方向θs以外の方向への音声(以下、「方向θs以外の方向への音声」を「漏れ音声」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(2)参照。ここでは距離Dhを固定して考えているので、空間相関行列Q(ω)をQ(ω,Dh)と明記していることに留意すること)。a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは、スピーカアレーの中心から見て(方向θs,距離Dh)の位置(以下、特に断りの無い限り「位置(θs,Dh)」と呼称する)に受聴位置が在るとして、当該受聴位置とM本のスピーカとの間の周波数ωでの伝達特性である。Tは転置を表す。換言すれば、a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは、スピーカアレーに含まれる各スピーカから位置(θs,Dh)への音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、M個のマイクロホンで構成されたマイクロホンアレー(好ましくは、スピーカアレーに含まるスピーカをそれぞれマイクロホンに置換した構成のマイクロホンアレー)によって観測して得られた収音信号を周波数領域に変換して得られる周波数領域信号を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。
【数2】
【0023】
式(2)の最適解であるフィルタW→(ω,θs,Dh)は式(4)で与えられることが知られている。
(参考文献1)Simon Haykin著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、2001.pp.66-73,248-255
【数3】
【0024】
空間相関行列Q(ω,Dh)の逆行列が式(4)に含まれることから察せられるように、空間相関行列Q(ω,Dh)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式(2)から、漏れ音声のパワーは空間相関行列Q(ω,Dh)の構造に依存することもわかる。
【0025】
漏れ音声の進行方向(伝搬方向)のインデックスpが属する集合を{1,2,…,P-1}とする。方向θsのインデックスsは集合{1,2,…,P-1}に属さないとする。このとき、空間相関行列Q(ω,Dh)は式(5a)で与えられる。狭指向性を実現するフィルタを作る観点から、Pはある程度大きい値であることが好ましいが、P≦Mを満たす整数であるとする。なお、ここでは発明の原理を分かり易く説明する観点から方向θsがあたかも特定の方向の如く説明しているが(それ故、方向θs以外の方向を「漏れ音声」の方向としている)、後述の実施形態で明らかになるように、実際には、方向θsは音声再生の対象となりえる任意の方向であり、このため方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、方向θsと漏れ音声の方向との区別は凡そ主観的なものであり、再生音声か漏れ音声かの区別なく音声の進行方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が音声再生の対象となる位置(受聴位置)に対応する方向であり、それ以外の方向が漏れ音声の方向であると理解することがより正確である。そこで、集合{1,2,…,P-1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω,Dh)は、スピーカアレーの中心からの距離がDhであって音声の進行方向として想定される複数の方向に含まれる各方向θφに対応する各位置への各スピーカからの音声の伝達特性a→(ω,θφ,Dh)=[a1(ω,θφ,Dh),…,aM(ω,θφ,Dh)]T(φ∈Φ)によって表される空間相関行列であり、式(5b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
【数4】
【0026】
ここで、方向θsへの音声の伝達特性a→(ω,θs,Dh)と、方向p∈{1,2,…,P-1}への音声の伝達特性a→(ω,θp,Dh)=[a1(ω,θp,Dh),…,aM(ω,θp,Dh)]Tがお互いに直交すると仮定する。つまり、式(6)で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A→⊥B→である場合、ベクトルA→とベクトルB→の内積値はゼロである。ここではP≦Mを満たすとする。なお、式(11)で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。
【数5】
【0027】
このとき、空間相関行列Q(ω,Dh)は式(7)のように展開できる。式(7)は、直交性を満たすP個の伝達特性で構成された行列V(ω,Dh)=[a→(ω,θs,Dh),a→(ω,θ1,Dh),…,a→(ω,θP-1,Dh)]Tと単位行列Λ(ω,Dh)によって空間相関行列Q(ω,Dh)を分解できることを意味している。ρは空間相関行列Q(ω,Dh)による式(6)を満たす伝達特性a→(ω,θφ,Dh)の固有値であり実数である。
【数6】
【0028】
このとき、空間相関行列Q(ω,Dh)の逆行列は式(8)で与えられる。
【数7】
【0029】
式(8)を式(2)に代入すると、漏れ音声のパワーが最小となることがわかる。漏れ音声のパワーが最小となれば方向θsに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、方向θsに対する指向性を実現する上で、重要な条件となる。
【0030】
以下、従来技術において方向θsに対して鋭い指向性を実現することが困難な理由について考察する。
【0031】
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実にはスピーカから発せられた音声が壁や天井等で反射するため、反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。線形スピーカアレーから音声が平面波として伝搬すると仮定し、方向θへの直接音のみのステアリングベクトルをh→d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tとすると、従来では、伝達特性a→conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tをa→conv(ω,θ)=h→d(ω,θ)としていた(音波を平面波と考えるのでステアリングベクトルは距離Dに依存しない)。なお、ステアリングベクトルは、スピーカアレーの中心から見て方向θの音波について、基準点に対する各スピーカの周波数ωでの位相応答特性を並べた複素ベクトルである。
【0032】
以下、しばらくの間、線形スピーカアレーから音声が平面波として放射されると仮定する。直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)が例えば式(9c)で与えられるとする。uは隣り合うスピーカ間の距離を表す。jは虚数単位である。この場合、基準点は線形スピーカアレーの全長の半分の位置(線形スピーカアレーの中心)である。方向θは線形スピーカアレーの中心から見て直接音の進行方向と線形スピーカアレーに含まれるスピーカの配列方向とがなす角度として定義した(図5参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形スピーカアレーの一端にあるスピーカの位置とすれば、直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(9d)で与えられる。以下、直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(9c)で与えられるとして説明する。
【数8】
【0033】
方向θの伝達特性と方向θsの伝達特性との内積値γconv(ω,θ)は式(10)で表される。なお、θ≠θsとする。
【数9】
【0034】
以後、γconv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγconv(ω,θ)が0となる方向θは式(11)で与えられる。qは0を除く任意の整数である。また、0<θ<π/2であるから、qの範囲は周波数帯域ごとに制限されることになる。
【数10】
【0035】
式(11)にて、変更可能なパラメータはスピーカアレーのサイズに関わるパラメータ(Mとu)のみであるから、方向の差(角度差)|θ-θs|が小さい場合には、スピーカアレーのサイズに関わるパラメータを変更することなくコヒーレンスγconv(ω,θ)を小さくすることは困難である。この場合、漏れ音声のパワーは十分に小さくならず、図1(a)に模式的に示すように、方向θsに対して広いビーム幅を持った指向性となってしまう。
【0036】
他方、本発明は、このような考察に基づき、方向θsに対して鋭い指向性を持つためのフィルタ設計には、方向の差(角度差)|θ-θs|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
【0037】
ここで「双対音」を定義する。(1)スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する、という条件を満たす音声を受聴位置への「双対音」と呼ぶ。
【0038】
音波を平面波と仮定すると、或る方向θには、スピーカアレーの各スピーカからの音声であって何にも反射せずに進む音声(直接音)と、双対音が反射物300で反射した反射音との二種類の平面波が向かうことになる。反射音(あるいは双対音)の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、スピーカアレーから方向θへの直接音の伝達特性と当該直接音に対応する一つ以上の双対音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(12a)のように、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正されたΞ個の双対音のステアリングベクトルの和で表現できる。h→rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θへの直接音に対応する双対音のステアリングベクトルを表す。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、スピーカアレーからの音声(双対音)が反射物で反射する回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の双対音が反射した物体の音の反射率を表していると考えて差し支えない。
【数11】
【0039】
M個のスピーカで構成されるスピーカアレーについて一つ以上の反射音が存在することが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に受聴位置が在るとして、当該受聴位置とスピーカアレーと一つ以上の反射物との位置関係は、スピーカアレーからの音声(双対音)が少なくとも一つの反射物で反射して受聴位置に届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはスピーカアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、受聴位置に届く反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。なお、移動不能な物体を反射物として設定するとスピーカアレーの設置位置の変更などに伴って、双対音のステアリングベクトルの変更を要することとなり(後述する関数Ψ(θ)やΨξ(θ)を参照のこと)、ひいてはフィルタ計算のやり直し(再設定)が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はスピーカアレーの従物であることが好ましい(この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる)。ここで「スピーカアレーの従物」とは、「スピーカアレーに対する配置関係(幾何学的関係)を維持したままスピーカアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、スピーカアレーに各反射物が固定されている構成が挙げられる。
【0040】
以下、本発明の利点を具体的に説明する観点から、Ξ=1とし、双対音の反射回数は1回であって、スピーカアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(12a)は式(12b)のように表すことができる。
【数12】
【0041】
双対音のステアリングベクトルh→r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(9c)参照)、式(13a)で表される。関数Ψ(θ)はスピーカアレーの中心から見た双対音の進行方向を出力する。なお、直接音のステアリングベクトルを式(9d)で表す場合には、双対音のステアリングベクトルh→r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(13b)で表される。また、Ξ≧2ならば、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(13c)や式(13d)で表される。関数Ψξ(θ)はξ番目(1≦ξ≦Ξ)の双対音の進行方向を出力する。
【数13】
【0042】
反射物の位置は適宜に設定可能であるから、双対音の進行方向は変更可能なパラメータとして扱うことができる。
【0043】
平板状の反射物がスピーカアレーの近傍にある(距離Lがスピーカアレーのサイズに比して極端に大きくない)と仮定すると、コヒーレンスγ(ω,θ)は式(14)で表される。なお、θ≠θsとする。
【数14】
【0044】
式(14)から、式(11)の従来のコヒーレンスγconv(ω,θ)よりも式(14)のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ(Ψ(θ)やL)が式(14)の第2〜4項目の中に存在するので第1項目のh→dH(ω,θ)h→d(ω,θ)を除去できる可能性がある。
【0045】
例えば、線形スピーカアレーに対して、スピーカの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π-θが成立し、直接音と反射音との時間差τ(θ)について式(15)が成立するので、式(14)を構成する要素に式(16)(17)の各条件が生成される。記号*は複素共役を表す演算子である。
【数15】
【0046】
h→dH(ω,θ)h→r(ω,θ)の絶対値はh→dH(ω,θ)h→d(ω,θ)よりも十分に小さいので、式(14)の第2項、第3項を無視すると、コヒーレンスγ(ω,θ)は式(18)のように近似できる。
【数16】
【0047】
仮にh→dH(ω,θ)h→d(ω,θ)≠0であるとしても、近似コヒーレンスγ~(ω,θ)は式(19)の極小解θを持つ。qは任意の正整数である。また、qの範囲は周波数帯域ごとに制限される。
【数17】
【0048】
つまり、式(11)で与えられる方向だけではなく、式(19)で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、漏れ音声のパワーをより小さくできるので、図1(b)に模式的に示すように、鋭い指向性の実現が可能になる。
【0049】
なお、図1では本発明の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図2に、式(11)で与えられるθと式(19)で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]である。図2では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式(11)で与えられるθであり、記号+で示された方向が式(19)で与えられるθである。図2から明らかなように、従来技術に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の原理に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号+で示される多数の方向に存在し、特に、記号○で示された方向よりもθs=π/4[rad]にはるかに近い方向に記号+で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
【0050】
これまで本発明の原理を分かりやすく説明する観点から音波が平面波として進行すると仮定してきたが、上述の説明から明らかなように、本発明の特徴の要点は、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tを、例えば式(12a)のように、直接音のステアリングベクトルとΞ個の双対音のステアリングベクトルの和で表現することにある。従って、音波が平面波として進行する場合に限定されず球面波として進行する場合にも従来よりも狭指向性の音声再生が可能であることが理解される。
【0051】
音波が球面波として進行する場合についての伝達特性a→(ω,θ,D)を説明する。この場合、スピーカアレーの各スピーカからの音声であって何にも反射せずに進む音声(直接音)と、双対音が反射物300で反射した反射音との二種類の球面波が位置(θ,D)に向かうことになる。反射音(あるいは双対音)の数をΞとする。このとき、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tは、スピーカアレーから位置(θ,D)への直接音の伝達特性と当該直接音に対応する一つ以上の双対音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(20)のように、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正されたΞ個の双対音のステアリングベクトルの和で表現できる。h→d(ω,θ,Dh)=[hd1(ω,θ,Dh),…,hdM(ω,θ,Dh)]Tは位置(θs,D)への音声の直接音のステアリングベクトルを表す。h→rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは位置(θ,D)への直接音に対応する双対音のステアリングベクトルを表す。ここで「ステアリングベクトル」という呼称について注意を加えておく。一般的に、「ステアリングベクトル」は「方向ベクトル」とも呼ばれるように「方向」に依存する複素ベクトルを表し、この観点から、位置(θs,D)に依存する複素ベクトルの呼称としては例えば「拡張されたステアリングベクトル」と呼ぶほうがより正確である。しかし、本明細書では、表現の簡略化のため、位置(θs,D)に依存する複素ベクトルの呼称としても単に「ステアリングベクトル」を用いることにする。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、スピーカアレーからの音声(双対音)が反射物で反射する回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の双対音が反射した物体の音の反射率を表していると考えて差し支えない。
【数18】
【0052】
式(20)において、直接音のステアリングベクトルh→d(ω,θ,Dh)を構成するm番目の要素hdm(ω,θ,Dh)は例えば式(20a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。適宜に設定した空間座標系において、v→θ,D(d)は位置(θ,D)の位置ベクトルを、u→mはm番目のスピーカの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→θ,D(d)-u→m‖)は音波の距離減衰を表す関数である。例えばf(‖v→θ,D(d)-u→m‖)=1/‖v→θ,D(d)-u→m‖であり、この場合、式(20a)は式(20b)で表される。
【数19】
【0053】
式(20)において、双対音のステアリングベクトルh→rξ(ω,θ,D)=[hr1ξ(ω,θ,D),…,hrMξ(ω,θ,D)]Tのm番目の要素hrmξ(ω,θ,D)は、直接音のステアリングベクトルの表し方と同様に(式(20a)参照)、式(21a)で表される。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。上記空間座標系において、v→θ,D(ξ)は位置(θ,D)がξ番目の反射物の反射面で鏡像対象に移された位置の位置ベクトルを、u→mはm番目のスピーカの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→θ,D(ξ)-u→m‖)は音波の距離減衰を表す関数である。例えばf(‖v→θ,D(ξ)-u→m‖)=1/‖v→θ,D(ξ)-u→m‖であり、この場合、式(21a)は式(21b)で表される。
【数20】
【0054】
なお、ξ番目の時間差τξ(θ,D)と位置ベクトルv→θ,D(ξ)は、位置(θ,D)とスピーカアレーとξ番目の反射物との位置関係が決まると、その位置関係に基づいて理論的に計算可能である。
【0055】
これまでは、音声のスポット再生の要の一つとして、距離Dを固定して主に方向に関する狭指向性の観点から説明してきたが、ここでは、そのもう一つの要である、スピーカアレーからの距離に応じて再生される音声の音圧を制御可能であることを説明する。本発明は従来技術と異なり反射音を積極的に考慮することによって、距離別の音声再生を可能としている。以下、このことを二つの受聴位置を例に挙げて説明する。図6(a)に示すように、スピーカアレーから見て距離が異なるがほぼ同じ方向に在る二つの受聴位置AとBそれぞれの近傍で、両者への直接音のみに基づいて音声をスポット再生することは難しい。この理由は、受聴位置Aの位置(θ[A],D[A])に対応する直接音のステアリングベクトルh→d(ω,θ[A],D[A])に現れる減衰関数の値f(‖v→θ[A],D[A](d)-u→m‖)と受聴位置Bの位置(θ[B],D[B])に対応する直接音のステアリングベクトルh→d(ω,θ[B],D[B])に現れる減衰関数の値f(‖v→θ[B],D[B](d)-u→m‖)との間には、θ[A]≒θ[B]、D[A]≠D[B]に注意すると、距離に応じた差異が認められるが、現実には、音源信号の大きさ(音量)と減衰関数の値とを区別できないためである。つまり、従来技術の如くa→conv(ω,θ,D)=h→d(ω,θ,D)とするならば、直接音の伝達特性はほぼ同じ方向に在る受聴位置の距離に関する識別力として十分でなく、式(4)、式(5a)、式(5b)を参照して分かるように距離別に音声を再生可能なフィルタの設計が困難になるのである。
【0056】
他方、本発明では積極的に反射音を考慮するところ、図6(b)に示すように、ξ番目の双対音に対する仮想受聴位置A(ξ),B(ξ)は、スピーカアレーの立場から恰も、受聴位置A,Bの位置がξ番目の反射物300の反射面で鏡像対象に移された位置に存在することになる。仮想受聴位置A(ξ)へのξ番目の双対音と仮想受聴位置B(ξ)へのξ番目の双対音との間では、各仮想受聴位置A(ξ),B(ξ)の位置ベクトルv→θ[A(ξ)],D[A(ξ)](ξ)とv→θ[B(ξ)],D[B(ξ)](ξ)、各時間差τξ(θ[A],D[A])とτξ(θ[B],D[B])について、大きな差異がある。従って、位置(θ[A],D[A])と位置(θ[B],D[B])に対応する伝達特性a→(ω,θ[A],D[A])とa→(ω,θ[B],D[B])は式(22a)と式(22b)で表され、式(22a)と式(22b)のそれぞれの第2項の存在によって、θ[A]≒θ[B]であっても、異なる位置に対応する伝達特性間には有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で再現することによって、受聴位置への音声の距離別音声再生が可能となるのである。
【数21】
【0057】
これまでは、狭指向性の実現を説明するために、距離Dhを固定して考えてきた。このため、空間相関行列Q(ω)を式(5a)や式(5b)で表した。しかし、距離Dδ(δ=1,2,…,G)ごとのMチャネルの伝達特性の相互相関も考慮することによって音場の情報量が増え、より精度の良いフィルタを与える空間相関行列を構成できる。この空間相関行列Q(ω)は式(5c)で表される。方向θφのインデックスφが属する集合をΦ(|Φ|=P)、距離Dδのインデックスδが属する集合をΔ(|Δ|=G)とする。
【数22】
【0058】
このとき、式(5c)で表される空間相関行列Q(ω)を用いると、最小分散無歪応答法によるフィルタW→(ω,θs,Dh)は式(4)に替えて式(4a)で表される。
【数23】
【0059】
ところで、既述のとおり、本発明の特徴の要点は、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tを、直接音のステアリングベクトルとΞ個の双対音のステアリングベクトルの和で表現することにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW→(ω,θs,Dh)を設計することができる。
【0060】
上述の最小分散無歪応答法以外の手法として、<1>SN比最大化規準によるフィルタ設計法、<2>パワーインバージョン(Power Inversion)に基づくフィルタ設計法、<3>一つ以上の抑圧点(漏れ音声のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、<4>遅延合成(Delay-and-Sum Beam Forming)法によるフィルタ設計法、<5>最尤法によるフィルタ設計法、<6>AMNOR(Adaptive Microphone-array for noise reduction)法によるフィルタ設計法を説明する。<1>SN比最大化規準によるフィルタ設計法と<2>パワーインバージョンに基づくフィルタ設計法については参考文献2を参照のこと。<3>一つ以上の抑圧点(漏れ音声のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については参考文献3を参照のこと。<6>AMNOR(Adaptive Microphone-array for noise reduction)法によるフィルタ設計法については参考文献4を参照のこと。
(参考文献2)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35-90
(参考文献3)浅野太著、「日本音響学会編 音響テクノシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-」、初版、株式会社コロナ社、pp.88-89, 259-261
(参考文献4)金田豊著、「適応形雑音抑圧マイクロホンアレー(AMNOR)の指向特性」、日本音響学会誌44巻1号(1988)、pp.23-30
【0061】
<1>SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、位置(θs,Dh)でのSN比(SNR)を最大化する規準でフィルタW→(ω,θs,Dh)を決定する。位置(θs,Dh)への音声の空間相関行列をRss(ω)、位置(θs,Dh)以外の位置への音声の空間相関行列をRnn(ω)とする。このとき、SNRは式(23)で表される。なお、Rss(ω)は式(24)、Rnn(ω)は式(25)で表される。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは例えば式(20)で表される(正確には、式(20)のθをθs、DをDhとしたものである)。式(25)で、方向θφのインデックスφが属する集合をΦ(|Φ|=P)、距離Dδのインデックスδが属する集合をΔ(|Δ|=G)とする。
【数24】
【0062】
式(23)のSNRを最大にするフィルタW→(ω,θs,Dh)は、フィルタW→(ω,θs,Dh)に関する勾配をゼロとすること、つまり式(26)によって求めることができる。
【数25】
【0063】
これにより、式(23)のSNRを最大にするフィルタW→(ω,θs,Dh)は式(27)で与えられる。
【数26】
【0064】
式(27)には位置(θs,Dh)以外の位置への音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、(1)位置(θs,Dh)への音声と(2)位置(θs,Dh)以外の位置への音声とを含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)である。つまり、式(23)のSNRを最大にするフィルタW→(ω,θs,Dh)を式(28)で求めてもよい。
【数27】
【0065】
<2>パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのスピーカに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW→(ω,θs,Dh)を決定する。ここでは、一例として、M個のスピーカのうち1番目のスピーカに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs,Dh)は、式(30)の拘束条件の下、空間相関行列Rxx(ω)を用いて全位置(受聴位置として想定される全ての位置)への音声のパワーが最小となるように設計される(式(29)参照)。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは例えば式(20)で表される(正確には、式(20)のθをθs、DをDhとしたものである)。
【数28】
【0066】
式(29)の最適解であるフィルタW→(ω,θs,Dh)は式(31)で与えられることが知られている(参考文献2参照)。
【数29】
【0067】
<3>一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式(3)で表されるように位置(θs,Dh)への音声の全帯域通過を拘束条件とし、式(2)で表されるビームフォーマの平均出力パワーが最小となる(つまり、位置(θs,Dh)以外の位置への音声である漏れ音声のパワーが最小となる)フィルタを求める、という単一拘束条件の下の規準でフィルタW→(ω,θs,Dh)を設計した。この方法によると、全体的に漏れ音声のパワーを抑圧することはできるが、特定の一つまたは複数の位置への音声伝搬を強く抑圧したい場合には必ずしも好適な方法とは言えない。このような場合、既知の一つまたは複数の特定位置(つまり、抑圧点)への音声伝搬を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、(1)位置(θs,Dh)への音声の全帯域通過、および(2)既知のB個(Bは1以上の予め定められた整数)の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)への音声の全帯域抑制、を拘束条件として、式(2)で表されるビームフォーマの平均出力パワーが最小となる(つまり、位置(θs,Dh)と各抑圧点とを除く位置への音声のパワーが最小となる)フィルタを求める。既述のように、受聴位置の方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}(ただし、j∈{1,2,…,B}),B≦P-1である。また、受聴位置までの距離のインデックスδが属する集合を{1,2,…,G}とすると、Gj∈{1,2,…,G}(ただし、j∈{1,2,…,B}),B≦G-1である。
【0068】
このとき、a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tを、位置(θi,Dg)に受聴位置が在ると仮定した場合の、当該受聴位置とM本のスピーカとの間の周波数ωでの伝達特性、換言すれば、a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tは、スピーカアレーに含まれる各スピーカから位置(θi,Dg)への音声の周波数ωでの伝達特性とすると、拘束条件は式(32)で表される。ただし、インデックスi,gについて、(i,g)∈{(s,h),(N1,G1),(N2,G2),…,(NB,GB)}であり、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tは式(20)で表される(正確には、式(20)のθをθi、DをDgとしたものである)。fi,g(ω)は、位置(θi,Dg)に関する周波数ωでの通過特性を表す。
【数30】
【0069】
式(32)を行列形式で表現すると、例えば式(33)のように表すことができる。ただし、A→(ω,θs,Dh)=[a→(ω,θs,Dh),a→(ω,θN1,DG1),…,a→(ω,θNB,DGB)]である。
【数31】
【0070】
(1)位置(θs,Dh)への音声の全帯域通過、および(2)既知のB個の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)への音声の全帯域抑制、という拘束条件を考慮すると、理想的には、fs,h(ω)=1.0、fi,g(ω)=0.0((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})とされるべきである。これは、位置(θs,Dh)の音声の全帯域完全通過と、既知のB個の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、fs,h(ω)の絶対値を1.0に近い値、fi,g(ω)((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})の絶対値を0.0に近い値に設定すればよい。もちろん、fi,g_i(ω)とfj,g_j(ω)(i≠j、i,j∈{N1,N2,…,NB})は等しくても異なってもよい。
【0071】
ここで説明したフィルタ設計法によると、拘束条件を表す式(33)の下での式(2)の最適解であるフィルタW→(ω,θs,Dh)は式(34)で与えられる(参考文献3参照)。ただし、空間相関行列Q(ω)として式(5c)で表されるものを用いたが、式(5a)ないし式(5b)で表される空間相関行列を用いてもよい。
【数32】
【0072】
<4>遅延合成法によるフィルタ設計法
遅延合成法によると、直接音や反射音が平面波伝搬すると仮定すると、フィルタW→(ω,θs,Dh)は式(35)で与えられる。つまり、フィルタW→(ω,θs,Dh)は伝達特性a→(ω,θs,Dh)を正規化して得られる。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは式(20)で表される(正確には、式(20)のθをθs、DをDhとしたものである)。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
【数33】
【0073】
<5>最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω,Dh)内に位置(θs,Dh)への音声の空間情報を含めないことによって、漏れ音声を抑圧する自由度が向上し、漏れ音声のパワーをよりいっそう抑圧できる。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω,Dh)を、式(5a)の右辺第二項、つまり、式(5d)で表す。フィルタW→(ω,θs,Dh)は式(4)や式(34)で与えられる。このとき、式(4)や式(34)に含まれる空間相関行列は、式(5d)で表される空間相関行列である。
【数34】
【0074】
あるいは、空間相関行列Q(ω)内に位置(θs,Dh)への音声の空間情報を含めないようにしてもよい。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式(5e)で表す。フィルタW→(ω,θs,Dh)は式(4)や式(34)で与えられる。このとき、式(4)や式(34)に含まれる空間相関行列は、式(5e)で表される空間相関行列である。
【数35】
【0075】
<6>AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]目的方向の仮想的な信号(以下、仮想目的信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想目的信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める方式である。
【0076】
ここで説明するフィルタ設計法は、フィルタの入出力を逆にする以外はAMNOR法と同様に考えることができる。すなわち、位置(θs,Dh)への音声の劣化量Dとフィルタ出力信号に残留する漏れ音声のパワーとのトレードオフ関係を踏まえて、位置(θs,Dh)への音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、音源信号の周波数領域信号S(ω,k)を入力としたときのフィルタ出力信号が最小2乗誤差の観点から周波数領域信号S(ω,k)を最も良く再現する(つまり、フィルタ出力信号に含まれる漏れ音声のパワーが最小となる)フィルタを求める。フィルタ出力信号は、[a]スピーカアレーに含まれる各スピーカから位置(θs,Dh)への音声の周波数ωでの伝達特性を周波数領域信号S(ω,k)に作用させた信号(以下、受聴信号という)と[b](例えば雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号である。
【0077】
ここで説明するフィルタ設計法によると、AMNOR法と同様に、フィルタW→(ω,θs,Dh)は式(36)で与えられる(参考文献4参照)。なお、Rss(ω)は式(24)、Rnn(ω)は式(25)で表される。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは式(20)で表される(正確には、式(20)のθをθs、DをDhとしたものである)。
【数36】
【0078】
Psは、受聴信号のレベルを重み付けする係数であり、受聴信号レベルと呼称される。受聴信号レベルPsは、周波数に依存しない定数である。受聴信号レベルPsは、経験則に基づいて決められてもよく、あるいは、位置(θs,Dh)への音声の劣化量Dと閾値D^との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、フィルタW→(ω,θs,Dh)の位置(θs,Dh)への音声の周波数応答F(ω)は、式(37)で表される。式(36)で与えられるフィルタW→(ω,θs,Dh)を用いたときの劣化量DをD(Ps)と表記すると、劣化量D(Ps)は式(38)で定義される。ω0は、対象となる周波数ωの上限(通常は、離散的な周波数ωに隣接する高域側周波数である)を表す。劣化量D(Ps)はPsの単調減少関数である。従って、D(Ps)の単調性によって、Psを変化させながら劣化量D(Ps)を求めることを繰り返すことで、劣化量D(Ps)と閾値D^との差が任意に定められた誤差範囲内となる受聴信号レベルPsを求めることができる。
【数37】
【0079】
<変形例>
上述の説明では、空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を、伝達特性を用いて表現した。しかし、上述のように、マイクロホンアレーによって観測して得られたアナログ信号を周波数領域に変換して得られる周波数領域信号を用いて空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、Rss(ω)、Rnn(ω)についても同様である(Q(ω)をRss(ω)あるいはRnn(ω)に読み替えればよい)。なお、空間相関行列Rss(ω)は位置(θs,Dh)への音声のみが存在する環境でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Rnn(ω)は位置(θs,Dh)への音声が無い環境(つまり雑音環境)でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られる。
【0080】
周波数領域信号U→(ω,k)=[U1(ω,k),…,UM(ω,k)]Tを用いた空間相関行列Q(ω)は式(39)で表される。演算子E[・]は、統計的平均操作を表す演算子である。M個のマイクロホンで受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし2次定常である場合、演算子E[・]は算術平均値(期待値)演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号U→(ω,k-i)(i=0,1,…,ζ-1)を用いて式(40)で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式(39)ないし式(40)による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい(特に、フィルタ設計にRss(ω)あるいはRnn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である)。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式(39a)や式(40a)のように明示的に空間相関行列をQ(ω,k)と表すことにする。
【数38】
【0081】
式(39a)や式(40a)で表される空間相関行列Q(ω,k)を用いるとフィルタW→(ω,θs)も現在と過去のフレームに依存するから、明示的にこれをW→(ω,θs,Dh,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式(4)、式(4a)、式(27)、式(28)、式(31)、式(34)、式(36)のいずれかで表されるフィルタW→(ω,θs,Dh)は、表記上、式(4m)、式(4am)、式(27m)、式(28m)、式(31m)、式(34m)、式(36m)に修正される。
【数39】
【0082】
《実施形態1》
本発明の実施形態1の機能構成および処理フローを図3と図4に示す。この実施形態1の音声スポット再生処理装置1は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
【0083】
[ステップS1]
予め、フィルタ設計部260が音声スポット再生の対象となりえる離散的な位置(θi,Dg)ごとに、周波数ごとのフィルタW→(ω,θi,Dg)を計算しておく。音声スポット再生の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)、離散的な距離の総数をG(Gは1以上の予め定められた整数である)とすると、W→(ω,θ1,D1),…,W→(ω,θi,D1),…,W→(ω,θI,D1),W→(ω,θ1,D2),…,W→(ω,θi,D2),…,W→(ω,θI,D2),…,W→(ω,θ1,Dg),…,W→(ω,θi,Dg),…,W→(ω,θI,Dg),…,W→(ω,θ1,DG),…,W→(ω,θi,DG),…,W→(ω,θI,DG)(1≦i≦I, 1≦g≦G, ω∈Ω; iとgは整数、Ωは周波数ωの集合)を事前に計算しておくのである。
【0084】
このためには、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T(1≦i≦I, 1≦g≦G, ω∈Ω)を求める必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(20)によって具体的に計算できる(正確には、式(20)のθをθi、DをDgとしたものである)。なお、上述の<3>一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θi,Dg)(1≦i≦I, 1≦g≦G,ω∈Ω)を求める際の位置のインデックス(i,g)は、少なくともB個の抑圧点の方向のインデックス(N1,G1),(N2,G2),…,(NB,GB)の全てを亘ることが望ましい。換言すれば、B個のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定され、B個のインデックスG1,G2,…,GBは、1以上G以下のいずれかの異なる整数として設定される。
【0085】
反射音(あるいは双対音)の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
【0086】
ステアリングベクトルの計算には、例えば式(20a)、式(20b)、式(21a)、式(21b)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(20)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
【0087】
そして、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi,Dg)を用いて、例えば式(4)、式(4a)、式(27)、式(28)、式(31)、式(34)、式(35)、式(36)のいずれかによってW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G)を求める。なお、上述の<5>最尤法によるフィルタ設計法で説明した場合を除き、式(4)または式(4a)または式(28)または式(31)または式(34)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(5b)で計算できる。上述の<5>最尤法によるフィルタ設計法に拠って、式(4)または式(4a)または式(28)または式(31)または式(34)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(5d)あるいは式(5e)で計算できる。式(27)を用いる場合には空間相関行列Rnn(ω)は式(25)で計算できる。I×G×|Ω|個のフィルタW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G, ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
【0088】
[ステップS2]
音源200が音源信号ss(t)を出力する。この実施形態では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
【0089】
[ステップS3]
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS3の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
【0090】
[ステップS4]
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0091】
[ステップS5]
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
【0092】
[ステップS6]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、スポット再生したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を適用して、再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを出力する(式(41)参照)。位置(θs,Dh)のインデックスs, hは、s∈{1,…,I}, h∈{1,…,G}であり、フィルタW→(ω,θs,Dh)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、スポット再生したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を記憶部290から取得すればよい。方向θsのインデックスsが集合{1,…,I}に属さない場合あるいは距離Dhのインデックスhが集合{1,…,G}に属さない場合、つまり、位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)がステップS1の処理で計算されていない場合、臨時に位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)をフィルタ設計部260に計算させてもよいし、あるいは方向θsに近い方向θs'や距離Dhに近い距離Dh'に対応するフィルタW→(ω,θs',Dh)やW→(ω,θs,Dh')やW→(ω,θs',Dh')を用いてよい。
【数40】
【0093】
[ステップS7]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]を得て、さらに、得られたフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]をフレーム番号のインデックスの順番に連結してスポット再生したい位置(θs,Dh)に向けて音声が強調された時間領域信号x→(t)=[x1(t),…,xM(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
【0094】
[ステップS8]
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
【0095】
なお、M個のスピーカの並べ方に制限は無い。線形スピーカアレーのように直線状にスピーカを配置するアレー構成でもよいし、2次元または3次元的にM個のスピーカを配置するアレー構成でもよい。また、収音方向として設定できる方向を広くとるためには、各スピーカの指向性は、再生方向である目的方向θsになり得る方向に或る程度の音圧で音声を再生可能な指向性を持っていたほうがよい。したがって、無指向性スピーカや単一指向性スピーカといった指向性が比較的緩やかなスピーカが好適である。
【0096】
ここでは、ステップS1の処理で予めフィルタW→(ω,θi,Dg)を計算しておく実施形態1を説明したが、音声スポット再生処理装置1の計算処理能力などに応じて、位置(θs,Dh)が定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs,Dh)を計算する実施形態を採用することもできる。
【0097】
《実施形態2》
本発明の実施形態2の機能構成および処理フローを図13と図14に示す。この実施形態2の音声スポット再生処理装置2は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ計算部261、記憶部290、AD変換部310、フレーム生成部320、周波数領域変換部330を含む。
【0098】
[ステップS11]
音源200が音源信号ss(t)を出力する。この実施形態2では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
【0099】
[ステップS12]
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS12の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
【0100】
[ステップS13]
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0101】
[ステップS14]
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
【0102】
[ステップS15]
フィルタ計算部261が、現在の第kフレームで用いられる、位置(θs,Dh)に対応する周波数毎のフィルタW→(ω,θs,Dh,k)(ω∈Ω; Ωは周波数ωの集合)を計算する。
【0103】
このためには、伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T(ω∈Ω)を用意する必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(20)によって具体的に計算できる(正確には、式(20)のθをθs、DをDhとしたものである)。なお、上述の<3>一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θNj,DGj)(1≦j≦B, ω∈Ω)も求める必要があるが、これらはスピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(20)によって具体的に計算できる(正確には、式(20)のθをθNj、DをDGjとしたものである)。
【0104】
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
【0105】
ステアリングベクトルの計算には、例えば式(20a)、式(20b)、式(21a)、式(21b)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(20)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
【0106】
そして、フィルタ計算部261は、伝達特性a→(ω,θs,Dh)(ω∈Ω)や必要に応じて伝達特性a→(ω,θNj,DGj)(1≦j≦B, ω∈Ω)を用いて、フィルタW→(ω,θs,Dh,k)(ω∈Ω)を、式(4m)、式(4am)、式(27m)、式(28m)、式(31m)、式(34m)、式(36m)のいずれかに従って求める。なお、空間相関行列Q(ω)(あるいはRxx(ω))は例えば式(39a)や式(40a)で計算できる。空間相関行列Q(ω)の計算には、記憶部290に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k-i)(i=0,1,…,ζ-1)が用いられる。
【0107】
周波数領域信号X→(ω,k)は、下記のようにして記憶部290に蓄積される。
マイクロホンアレーを構成するM個のマイクロホン300−1,…,300−Mを用いて収音する。M個のマイクロホンの並べ方等はスピーカアレーと同じとすることが好ましい。
AD変換部310が、M個のマイクロホン300−1,…,300−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]へ変換する。tは離散時間のインデックスを表す。
フレーム生成部320は、AD変換部310が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]を入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→1(k),…,x→M(k)]を出力する。kはフレーム番号のインデックスである。x→m(k)=[xm((k-1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
周波数領域変換部330は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力され、記憶部290に蓄積される。
【0108】
[ステップS16]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh,k)を適用して、再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]を出力する(式(42)参照)。
【数41】
【0109】
[ステップS17]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]を得て、さらに、得られたフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]をフレーム番号のインデックスの順番に連結して位置(θs,Dh)に向けて音声が強調された時間領域信号x→(t)=[x1(t),…,xM(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS14の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
【0110】
[ステップS18]
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
【実施例1】
【0111】
本発明の実施形態1(単一拘束条件の最小分散無歪応答法)による音声のスポット再生についての実験結果を説明する。図5に示すように、24本のスピーカを直線的に配置し、この線形スピーカアレーに含まれるスピーカの配列方向が反射板300の法線となるように反射板300を配置した。反射板300の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うスピーカの間隔を4cm、反射板300の反射率αを0.8とした。受聴位置は方向θsを45度、距離Dhを1.13mに設定した。実験結果として、図7(a)に反射板300を設置しなかった場合の最小分散ビームフォーマの指向性(2次元領域)、図7(b)に反射板300を設置した場合の最小分散ビームフォーマの指向性(2次元領域)を示す。音圧[単位:dB]は濃淡表示されており、白い領域ほど高い音圧で収音できていることを表している。従って、理想的には、方向45度、距離1.13mの位置のみ白くなっており、他の領域が黒に近くなるほど、音声のスポット再生が実現できているといえる。図7(a)と図7(b)に示す実験結果の比較から、反射板300を設置しなかった場合は音声のスポット再生が十分にできておらず、反射板300を設置した場合は音声のスポット再生ができていることがわかる。
【0112】
次に、本発明の実施構成の例を図8〜図12を参照して説明する。これらの例ではスピーカアレーの構成は線形スピーカアレーとして図示されているが、線形スピーカアレーの構成に限定されない。
【0113】
図8に示す実施構成例では、線形スピーカアレーを構成するM個のスピーカ280−1,…,280−Mは矩形平板状の支持部材400に固定されており、この状態で各スピーカの拡声孔は支持部材400の或る一つの平面(以下、開口面と呼ぶ)に配置されているいる(図示の例ではM=13)。なお、各スピーカ280−1,…,280−Mに接続される配線は図示していない。そして、各スピーカ280−1,…,280−Mの配列方向が矩形平板状の反射板300の法線となるように反射板300が支持部材400の端部に固定されている。支持部材400の開口面は、反射板300と90度をなす面である。図8に示す実施構成例では、反射板300の好ましいとされる性状は既述の反射物の性状と同じであり、支持部材400の性状については特に限定はなく各スピーカ280−1,…,280−Mをしっかりと固定できる剛性を持っていれば十分である。
【0114】
図9(a)に示す実施構成例では、支持部材400の端部に軸部410が固定されており、反射板300は軸部410に回動自在に取り付けられている。この実施構成例によると、スピーカアレーに対する反射板300の幾何学的配置を変更することが可能である。
【0115】
図9(b)に示す実施構成例では、図8に示す実施構成例において、さらに二つの反射板310,320が追加されている。追加された二つの反射板310,320の性状は反射板300の性状と同じでも異なってもよい。また、反射板310の性状は反射板320の性状と同じでも異なってもよい。以下、反射板300を固定反射板300と呼称する。固定反射板300の端部(支持部材400に固定されている固定反射板300の端部とは反対側の端部)に軸部510が固定されており、反射板310は軸部510に回動自在に取り付けられている。また、支持部材400の端部(固定反射板300が固定されている支持部材400の端部とは反対側の端部)に軸部520が固定されており、反射板320は軸部520に回動自在に取り付けられている。以下、反射板310,320を可動反射板310,320と呼称する。図9(b)に示す実施構成例によると、例えば固定反射板300の反射面と可動反射板310の反射面が一致するように可動反射板310の位置を設定すると、固定反射板300と可動反射板310の組み合わせを、固定反射板300よりも大きい反射面を持つ反射板として機能させることができる。また、図9(b)に示す実施構成例によると、可動反射板310,320を適切な位置に設定することによって、例えば図10に示すように支持部材400、固定反射板300、可動反射板310,320で囲まれた空間内で何度も音声を反射させることができるので、反射音の数Ξを制御することができる。なお、図9(b)に示す実施構成例の場合、支持部材400は反射物としての役割を果たすことになるので、既述の反射物の性状と同じ性状を持つことが好ましい。
【0116】
図11に示す実施構成例は、反射板300にもスピーカアレー(図示の例では線形スピーカアレー)が設けられていることが図8に示す実施構成例と異なる。図11に示す実施構成例では、支持部材400に固定されたM個のスピーカの配列方向と反射板300に固定されたM’個のスピーカの配列方向が同一平面上にあるが、このような配置構成に限定されない(図示の例ではM’=13)。例えば、支持部材400に固定されたM個のスピーカの配列方向と直交するような配列方向を持つように反射板300にM’個のスピーカが固定されていてもよい。図11に示す実施構成例によると、支持部材400に設けられたスピーカアレーと反射板300(反射板300に設けられたスピーカアレーを使用せず、反射板300を反射物として使用する)との組み合わせで本発明を実施したり、支持部材400(支持部材400に設けられたスピーカアレーを使用せず、支持部材400を反射物として使用する)と反射板300に設けられたスピーカアレーとの組み合わせで本発明を実施したりすることができる。
【0117】
また、図11に示す実施構成例の拡張実施構成例として、図9(b)に示す実施構成例と同様に、図11に示す実施構成例においてさらに二つの反射板310,320を追加した構成としてもよい(図12参照)。また、図示していないが、可動反射板310,320の少なくとも一つにスピーカアレーを設けてもよい。可動反射板310に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材400の開口面と対向可能な可動反射板310の平面(開口面)に配置される。可動反射板320に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面(開口面)に配置される。このような実施構成例であっても図9(b)に示す実施構成例と同様の使用形態が可能である。また、この実施構成例によると、例えば支持部材400の開口面と可動反射板320の開口面が一致するように可動反射板320の位置を設定すると、支持部材400と可動反射板320の組み合わせを、支持部材400に設けられたスピーカアレーよりも大きいスピーカアレーとして機能させることができる。図12に示す実施構成例においても、可動反射板310,320の少なくとも一つにスピーカアレーを設けた実施構成例においても、図10に示す実施構成例と同様の使用形態が可能である。また、図12に示す実施構成例においても、可動反射板310,320の少なくとも一つにスピーカアレーを設けた実施構成例においても、例えば、可動反射板310,320を通常の反射物として用い、支持部材400に設けられたスピーカアレーと固定反射板300に設けられたスピーカアレーとを一体のスピーカアレーとして用いる使用形態も可能である。この場合、(M+M’)個のスピーカで構成されたスピーカアレーと二つの反射物を使用する実施構成例と等価となる。
【0118】
可動反射板310にスピーカアレーを設ける場合、可動反射板310に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材400の開口面と対向可能な可動反射板310の平面の反対側の平面(開口面)に配置されるように、可動反射板310にスピーカアレーを設けてもよい。また、可動反射板320にスピーカアレーを設ける場合、可動反射板320に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面の反対側の平面(開口面)に配置されるように、可動反射板320にスピーカアレーを設けてもよい。もちろん、可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けてもよい。
【0119】
[A]スピーカアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面とした場合、図10に示す使用形態では、視線方向に対して可動反射板310および/または可動反射板320の開口面が見えないように可動反射板310および/または可動反射板320が配置されることによって視線方向の見かけ上のアレーサイズは小さくなるものの、可動反射板310および/または可動反射板320に設けられたスピーカアレーを利用することによって、アレーサイズを大きくした場合と同じ効果を得ることができる。
【0120】
[B]スピーカアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面の反対側の平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面の反対側の平面とした場合、図10に示す使用形態では、視線方向に対して見かけ上のアレーサイズを保ったまま、アレーサイズを大きくした場合と同じ効果を得ることができる。
【0121】
可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けた場合には、[A]と[B]の双方の効果を得ることも可能である。
【0122】
<応用例>
以下、本発明である音声スポット再生処理技術が有用なサービス例について述べる。
【0123】
第1の例として、ディジタルサイネージでの音声再生が挙げられる。本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、当該範囲に居る人にのみ広告を伝えることができる。
【0124】
第2の例として、TV会議システム(音声会議システムでもよい)への応用が挙げられる。TV会議専用の部屋が用意できないような状況の下で会議を行うときに、本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、会議を行うことができる。
【0125】
<音声スポット再生処理装置のハードウェア構成例>
上述の実施形態に関わる音声スポット再生処理装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声スポット再生処理装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0126】
音声スポット再生処理装置の外部記憶装置には、狭い範囲の音声を強調するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
【0127】
音声スポット再生処理装置の記憶部には、スポット再生の対象となる位置について式(5a)ないし式(5b)で表される空間相関行列を用いて、周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してAD変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、スポット再生の対象となる位置に対応するフィルタを周波数ごとに周波数領域信号に適用して再生信号を得るためのプログラムと、再生信号を時間領域信号に変換するためのプログラムが記憶されている。
【0128】
音声スポット再生処理装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(フィルタ設計部、AD変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部)を実現することで音声スポット再生処理が実現される。
【0129】
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0130】
また、上記実施形態において説明したハードウェアエンティティ(音声スポット再生処理装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0131】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0132】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0133】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0134】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【技術分野】
【0001】
本発明は、所望の位置を含む狭い領域(スポット)に音声を再生するための信号処理技術(音声スポット再生処理技術)に関する。
【背景技術】
【0002】
スピーカを利用した音声再生の状況として、特定の方向に十分な音量で音声を再生することが望まれる状況がある。例えば、展示場で展示物の前方の限られたエリアのみに当該展示物を説明する音声を再生する場合や、階段の手前や駅のプラットホームの縁などの限られたエリアで注意喚起を促す音声を再生する場合である。このような、スピーカから見て所望の方向(目的方向)を含む狭い範囲に音声を再生するための信号処理技術(狭指向音声再生処理技術)は、従来から研究・開発されている。なお、スピーカの周囲とスピーカから発せられた音声の音圧との関係(音圧分布)は指向性と呼ばれ、或る方向への指向性が鋭いほど、当該方向を含む狭い範囲に音声を再生し、当該範囲以外の範囲で当該音声の音圧を抑圧することができる。ここでは、狭指向音声再生処理技術に関する3つの従来技術を例示する。なお、この明細書では、「音声」は、人の発する声に限定されるものではなく、人や動物の声はもとより楽音や環境雑音など「音」一般を指す。
【0003】
[1]物理特性を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、ホーンスピーカとパラボラスピーカが挙げられる。ホーンスピーカは、例えば、スピーカの前方に、開口端に向けて断面面積が徐々に広くなるような喇叭状ホーンが取り付けられたスピーカである。ホーン長が長ければ長いほど、ホーンスピーカの指向性は鋭くなる。パラボラスピーカは、パラボラ板(放物面)の焦点にスピーカが配置された構成を持ち、スピーカからパラボラ板に向かって音声を放射することによって、パラボラ板の頂点とパラボラ板の焦点とを結ぶ直線の方向に音声が伝達する。
【0004】
[2]超音波を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、パラメトリックスピーカが挙げられる(例えば特許文献1参照)。パラメトリックスピーカは、直進性の強い超音波を搬送波として、例えば超音波が音源信号で振幅変調された変調波を大音圧で放射する。変調波が空気中を伝播する過程で空気の非線形特性によって歪み成分が生じ、この歪み成分と人間の聴覚特性に起因して可聴帯域の音声が出現する。
【0005】
[3]信号処理を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、フェーズドスピーカアレーが挙げられる(例えば非特許文献1参照)。フェーズドスピーカアレーは、複数のスピーカで構成されたスピーカアレーであり、音源信号に時間差やレベル差の情報が含まれているフィルタを掛けて重畳する信号処理を行うことで得られた信号を各スピーカに入力して音声を空間放射し、この結果、目的方向に音声が再生される。
【0006】
ところで、或る方向に対してだけでなく、特定の狭い領域に居る聴取者にのみ音声を伝えるスポット再生が可能となれば、拡声による通信を行った場合などに再生音声が聴取者以外の人々にとって騒音とならないだけでなく、通信内容が周囲に漏れにくいというプライバシーの保護もより一層高まる。
【0007】
このような、所望の位置を含む狭い領域(スポット)に音声を再生するための信号処理技術(音声スポット再生処理技術)として、特定の領域の境界上の音圧を制御すると、当該領域の外側の音場も制御可能であるという境界音場制御理論に基づき、境界上の音圧がゼロとなるように制御することでスポット再生を実現しようという従来技術がある(特許技術文献2参照)。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2010−258938号公報
【特許文献2】特開2006−74442号公報
【非特許文献】
【0009】
【非特許文献1】羽田陽一、片岡章俊、「自由空間伝達関数を用いた多点制御に基づく小型スピーカアレーの実空間性能」、日本音響学会春季講演論文集、pp.631-632,2008.
【発明の概要】
【発明が解決しようとする課題】
【0010】
従来技術は、優れた点がある他方で、例えば下記(1)〜(5)の一つまたは複数の課題も持っていた。
(1)目的方向にスピーカ自体を向けないと、目的方向に音声を再生することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、ホーンスピーカやパラボラスピーカそのものの向きを変更するための駆動制御手段が必要になってしまう。
(2)指向性はスポットの広狭に係るから、できるだけ狭いスポットに音声を再生しようとするならば狭指向性の実現が望まれる。しかし、見込み角5°〜10°程度の狭指向性(目的方向に対して±5°〜±10°程度の鋭い指向性)を実現することが困難である。
(3)狭指向性を実現するために、スピーカ数を増やし、アレーサイズ(アレーの全長)を大きくすることが必要となる。これはコストや配線の複雑さなどの観点から不利益である。
(4)スポット再生の音場の形成のために、スピーカを様々な場所に配置する必要がある。これはスピーカアレーを設置する空間の制約やコストなどの観点から不利益である。
(5)目的方向以外の方向の音声に埋もれないように目的方向に向けて音声を高SN比で再生することが難しい。
【0011】
このような現状に鑑みて、本発明は、十分なSN比で音声を再生し、スピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもありながら、所望の位置を含む狭い領域(スポット)に音声を再生可能な音声スポット再生処理技術を提供することを目的とする。
【課題を解決するための手段】
【0012】
音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)への各スピーカからの音声の伝達特性ai,gを用いて、音声再生の対象となる位置について、周波数ごとのフィルタを求める[フィルタ設計処理]。Mは2以上の整数であり、M個のスピーカはスピーカアレーを構成する。スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各伝達特性ai,gは、方向iと距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される。フィルタは、周波数ごとに、音源信号が周波数領域に変換された周波数領域信号SをMチャネルの周波数領域信号Xに変換するものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号Sに適用してMチャネルの周波数領域信号Xを得る[フィルタ適用処理]。Mチャネルの周波数領域信号Xを時間領域に変換して得られるMチャネルの時間領域信号xは、通常、スピーカアレーで再生されることとなる。
【0013】
各伝達特性ai,gは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正された一つ以上の双対音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
【0014】
フィルタ設計処理では、音声再生の対象となる位置以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置での音声のSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、M個のスピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態でスポット再生位置として想定される一つまたは複数の位置以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
【0015】
あるいは、フィルタ設計処理では、(1)音声再生の対象となる位置への音声の全帯域通過、および(2)一つ以上の抑圧点への音声の全帯域抑制、の条件の下、音声再生の対象となる位置と各抑圧点以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置i=s,g=hの伝達特性as,hを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置以外の各位置に対応する伝達特性ai,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる位置以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、スポット再生位置として想定される一つまたは複数の位置に含まれる各位置に対応する伝達特性ai,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。
【発明の効果】
【0016】
本発明に拠ると、音声再生対象方向への直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で再生可能であるとともに、信号処理によって当該方向への音声再生を行うことからスピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもある。さらに、詳しくは後述の《原理》の項目で説明するが、各伝達特性ai,gを、方向iと距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、音声再生対象方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、音声再生対象方向に対して従来よりも鋭い指向性を有することになる。さらに、詳しくは後述の《原理》の項目で説明するが、反射音を利用することによって、スピーカアレーから見てほぼ同じ方向だが距離が異なる受聴位置への音声について、異なる受聴位置に対応する伝達特性間に有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で再現することによってスピーカアレーからの距離に応じて音声をスポット再生できる。
【図面の簡単な説明】
【0017】
【図1】(a)直接音だけを考慮した場合に狭指向性が十分に実現できないことを模式的に示す図、(b)直接音と反射音を考慮した場合に狭指向性が十分に実現できることを模式的に示す図。
【図2】従来技術による場合と本発明の原理による場合のコヒーレンスの方向依存性を示す図。
【図3】実施形態1に係る音声スポット再生処理装置の機能構成を示す図。
【図4】実施形態1に係る音声スポット再生処理方法の処理手順を示す図。
【図5】第1の実施例の構成を示す図。
【図6】(a)スピーカアレーから二つの受聴位置A,Bへ直接音が届く様子を示す図。(b)スピーカアレーから二つの受聴位置A,Bへ直接音が届く様子と、反射板によってスピーカアレーから二つの仮想受聴位置A(ξ),B(ξ)へ双対音が届く様子を示す図。
【図7】(a)反射板を設置しなかった場合の最小分散ビームフォーマの指向性(2次元領域)。(b)反射板を設置した場合の最小分散ビームフォーマの指向性(2次元領域)。
【図8】本発明の実施構成例を示す図。(a)平面図。(b)正面図。(c)側面図。
【図9】(a)本発明の別の実施構成例を示す側面図。(b)本発明の別の実施構成例を示す側面図。
【図10】図9(b)に示す実施構成例における使用形態を示す図。
【図11】本発明の実施構成例を示す図。(a)平面図。(b)正面図。(c)側面図。
【図12】本発明の実施構成例を示す側面図。
【図13】実施形態2に係る音声スポット再生処理装置の機能構成を示す図。
【図14】実施形態2に係る音声スポット再生処理方法の処理手順を示す図。
【発明を実施するための形態】
【0018】
《原理》
本発明の原理について説明する。本発明は、信号処理に基づいて任意の方向に向けて音声を再生できるというスピーカアレー技術の本質と、反射音を積極的に利用することによって高SN比で音声を再生することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。特に、スピーカアレーから見た方向がほぼ同じで距離だけが異なる受聴位置とスピーカアレーとの間の伝達特性はかなり類似していることに鑑みて、反射物を利用することによって、異なる受聴位置とスピーカアレーとの間の伝達特性の差分を大きくすることが本発明の顕著な特徴の一つと言える。伝達特性の差分を信号処理によって再現することによって、スピーカアレーからの距離に応じて音声をスポット再生可能な音声スポット再生処理技術が実現する。
【0019】
周波数領域における信号処理を主に説明するので、説明に先立ち、記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。1チャネルの音源信号の第kフレームの周波数領域表現をS(ω,k)、スピーカアレーの中心から見て方向θs且つスピーカアレーの中心から見て距離Dhだけ離れた位置を受聴位置(スポット再生位置ともいう)として設計されたフィルタであって周波数ωで音源信号の周波数領域信号S(ω,k)をMチャネルの周波数領域信号に変換するフィルタをW→(ω,θs,Dh)、音源信号の周波数領域信号S(ω,k)にフィルタW→(ω,θs,Dh)を適用して得られるMチャネルの周波数領域信号(以下、再生信号と呼ぶ)をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]とする。Mは2以上の整数とする。以下、しばらくの間、距離Dhを固定して考える。
【0020】
「スピーカアレーの中心」は任意に定めることができるが、一般的にはM個のスピーカの配置の幾何学的中心が「スピーカアレーの中心」とされ、例えば線形スピーカアレー(M個のスピーカが直線状に並べられたスピーカアレー)であれば両端のスピーカの中間点が「スピーカアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面スピーカアレーであれば、四隅のスピーカの対角線が交わる位置が「スピーカアレーの中心」とされる。
【0021】
このような下では、第kフレームの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]は式(1)で与えられる。Hはエルミート転置を表す。なお、第kフレームの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]はMチャネルの時間領域信号に変換され、これらMチャネルの時間領域信号はそれぞれチャネルに対応するスピーカで再生される(詳細は後述する)。スピーカの個数はMである。
【数1】
【0022】
フィルタW→(ω,θs,Dh)の設計法としては種々あるが、ここでは最小分散無歪応答法(MVDR method;minimum variance distortion response method)に拠る場合を説明する。最小分散無歪応答法では、フィルタW→(ω,θs,Dh)は、式(3)の拘束条件の下、空間相関行列Q(ω)を用いて方向θs以外の方向への音声(以下、「方向θs以外の方向への音声」を「漏れ音声」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(2)参照。ここでは距離Dhを固定して考えているので、空間相関行列Q(ω)をQ(ω,Dh)と明記していることに留意すること)。a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは、スピーカアレーの中心から見て(方向θs,距離Dh)の位置(以下、特に断りの無い限り「位置(θs,Dh)」と呼称する)に受聴位置が在るとして、当該受聴位置とM本のスピーカとの間の周波数ωでの伝達特性である。Tは転置を表す。換言すれば、a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは、スピーカアレーに含まれる各スピーカから位置(θs,Dh)への音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、M個のマイクロホンで構成されたマイクロホンアレー(好ましくは、スピーカアレーに含まるスピーカをそれぞれマイクロホンに置換した構成のマイクロホンアレー)によって観測して得られた収音信号を周波数領域に変換して得られる周波数領域信号を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。
【数2】
【0023】
式(2)の最適解であるフィルタW→(ω,θs,Dh)は式(4)で与えられることが知られている。
(参考文献1)Simon Haykin著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、2001.pp.66-73,248-255
【数3】
【0024】
空間相関行列Q(ω,Dh)の逆行列が式(4)に含まれることから察せられるように、空間相関行列Q(ω,Dh)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式(2)から、漏れ音声のパワーは空間相関行列Q(ω,Dh)の構造に依存することもわかる。
【0025】
漏れ音声の進行方向(伝搬方向)のインデックスpが属する集合を{1,2,…,P-1}とする。方向θsのインデックスsは集合{1,2,…,P-1}に属さないとする。このとき、空間相関行列Q(ω,Dh)は式(5a)で与えられる。狭指向性を実現するフィルタを作る観点から、Pはある程度大きい値であることが好ましいが、P≦Mを満たす整数であるとする。なお、ここでは発明の原理を分かり易く説明する観点から方向θsがあたかも特定の方向の如く説明しているが(それ故、方向θs以外の方向を「漏れ音声」の方向としている)、後述の実施形態で明らかになるように、実際には、方向θsは音声再生の対象となりえる任意の方向であり、このため方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、方向θsと漏れ音声の方向との区別は凡そ主観的なものであり、再生音声か漏れ音声かの区別なく音声の進行方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が音声再生の対象となる位置(受聴位置)に対応する方向であり、それ以外の方向が漏れ音声の方向であると理解することがより正確である。そこで、集合{1,2,…,P-1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω,Dh)は、スピーカアレーの中心からの距離がDhであって音声の進行方向として想定される複数の方向に含まれる各方向θφに対応する各位置への各スピーカからの音声の伝達特性a→(ω,θφ,Dh)=[a1(ω,θφ,Dh),…,aM(ω,θφ,Dh)]T(φ∈Φ)によって表される空間相関行列であり、式(5b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
【数4】
【0026】
ここで、方向θsへの音声の伝達特性a→(ω,θs,Dh)と、方向p∈{1,2,…,P-1}への音声の伝達特性a→(ω,θp,Dh)=[a1(ω,θp,Dh),…,aM(ω,θp,Dh)]Tがお互いに直交すると仮定する。つまり、式(6)で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A→⊥B→である場合、ベクトルA→とベクトルB→の内積値はゼロである。ここではP≦Mを満たすとする。なお、式(11)で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。
【数5】
【0027】
このとき、空間相関行列Q(ω,Dh)は式(7)のように展開できる。式(7)は、直交性を満たすP個の伝達特性で構成された行列V(ω,Dh)=[a→(ω,θs,Dh),a→(ω,θ1,Dh),…,a→(ω,θP-1,Dh)]Tと単位行列Λ(ω,Dh)によって空間相関行列Q(ω,Dh)を分解できることを意味している。ρは空間相関行列Q(ω,Dh)による式(6)を満たす伝達特性a→(ω,θφ,Dh)の固有値であり実数である。
【数6】
【0028】
このとき、空間相関行列Q(ω,Dh)の逆行列は式(8)で与えられる。
【数7】
【0029】
式(8)を式(2)に代入すると、漏れ音声のパワーが最小となることがわかる。漏れ音声のパワーが最小となれば方向θsに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、方向θsに対する指向性を実現する上で、重要な条件となる。
【0030】
以下、従来技術において方向θsに対して鋭い指向性を実現することが困難な理由について考察する。
【0031】
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実にはスピーカから発せられた音声が壁や天井等で反射するため、反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。線形スピーカアレーから音声が平面波として伝搬すると仮定し、方向θへの直接音のみのステアリングベクトルをh→d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tとすると、従来では、伝達特性a→conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tをa→conv(ω,θ)=h→d(ω,θ)としていた(音波を平面波と考えるのでステアリングベクトルは距離Dに依存しない)。なお、ステアリングベクトルは、スピーカアレーの中心から見て方向θの音波について、基準点に対する各スピーカの周波数ωでの位相応答特性を並べた複素ベクトルである。
【0032】
以下、しばらくの間、線形スピーカアレーから音声が平面波として放射されると仮定する。直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)が例えば式(9c)で与えられるとする。uは隣り合うスピーカ間の距離を表す。jは虚数単位である。この場合、基準点は線形スピーカアレーの全長の半分の位置(線形スピーカアレーの中心)である。方向θは線形スピーカアレーの中心から見て直接音の進行方向と線形スピーカアレーに含まれるスピーカの配列方向とがなす角度として定義した(図5参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形スピーカアレーの一端にあるスピーカの位置とすれば、直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(9d)で与えられる。以下、直接音のステアリングベクトルh→d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(9c)で与えられるとして説明する。
【数8】
【0033】
方向θの伝達特性と方向θsの伝達特性との内積値γconv(ω,θ)は式(10)で表される。なお、θ≠θsとする。
【数9】
【0034】
以後、γconv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγconv(ω,θ)が0となる方向θは式(11)で与えられる。qは0を除く任意の整数である。また、0<θ<π/2であるから、qの範囲は周波数帯域ごとに制限されることになる。
【数10】
【0035】
式(11)にて、変更可能なパラメータはスピーカアレーのサイズに関わるパラメータ(Mとu)のみであるから、方向の差(角度差)|θ-θs|が小さい場合には、スピーカアレーのサイズに関わるパラメータを変更することなくコヒーレンスγconv(ω,θ)を小さくすることは困難である。この場合、漏れ音声のパワーは十分に小さくならず、図1(a)に模式的に示すように、方向θsに対して広いビーム幅を持った指向性となってしまう。
【0036】
他方、本発明は、このような考察に基づき、方向θsに対して鋭い指向性を持つためのフィルタ設計には、方向の差(角度差)|θ-θs|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
【0037】
ここで「双対音」を定義する。(1)スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する、という条件を満たす音声を受聴位置への「双対音」と呼ぶ。
【0038】
音波を平面波と仮定すると、或る方向θには、スピーカアレーの各スピーカからの音声であって何にも反射せずに進む音声(直接音)と、双対音が反射物300で反射した反射音との二種類の平面波が向かうことになる。反射音(あるいは双対音)の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、スピーカアレーから方向θへの直接音の伝達特性と当該直接音に対応する一つ以上の双対音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(12a)のように、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正されたΞ個の双対音のステアリングベクトルの和で表現できる。h→rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θへの直接音に対応する双対音のステアリングベクトルを表す。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、スピーカアレーからの音声(双対音)が反射物で反射する回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の双対音が反射した物体の音の反射率を表していると考えて差し支えない。
【数11】
【0039】
M個のスピーカで構成されるスピーカアレーについて一つ以上の反射音が存在することが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に受聴位置が在るとして、当該受聴位置とスピーカアレーと一つ以上の反射物との位置関係は、スピーカアレーからの音声(双対音)が少なくとも一つの反射物で反射して受聴位置に届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはスピーカアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、受聴位置に届く反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。なお、移動不能な物体を反射物として設定するとスピーカアレーの設置位置の変更などに伴って、双対音のステアリングベクトルの変更を要することとなり(後述する関数Ψ(θ)やΨξ(θ)を参照のこと)、ひいてはフィルタ計算のやり直し(再設定)が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はスピーカアレーの従物であることが好ましい(この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる)。ここで「スピーカアレーの従物」とは、「スピーカアレーに対する配置関係(幾何学的関係)を維持したままスピーカアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、スピーカアレーに各反射物が固定されている構成が挙げられる。
【0040】
以下、本発明の利点を具体的に説明する観点から、Ξ=1とし、双対音の反射回数は1回であって、スピーカアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(12a)は式(12b)のように表すことができる。
【数12】
【0041】
双対音のステアリングベクトルh→r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(9c)参照)、式(13a)で表される。関数Ψ(θ)はスピーカアレーの中心から見た双対音の進行方向を出力する。なお、直接音のステアリングベクトルを式(9d)で表す場合には、双対音のステアリングベクトルh→r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(13b)で表される。また、Ξ≧2ならば、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(13c)や式(13d)で表される。関数Ψξ(θ)はξ番目(1≦ξ≦Ξ)の双対音の進行方向を出力する。
【数13】
【0042】
反射物の位置は適宜に設定可能であるから、双対音の進行方向は変更可能なパラメータとして扱うことができる。
【0043】
平板状の反射物がスピーカアレーの近傍にある(距離Lがスピーカアレーのサイズに比して極端に大きくない)と仮定すると、コヒーレンスγ(ω,θ)は式(14)で表される。なお、θ≠θsとする。
【数14】
【0044】
式(14)から、式(11)の従来のコヒーレンスγconv(ω,θ)よりも式(14)のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ(Ψ(θ)やL)が式(14)の第2〜4項目の中に存在するので第1項目のh→dH(ω,θ)h→d(ω,θ)を除去できる可能性がある。
【0045】
例えば、線形スピーカアレーに対して、スピーカの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π-θが成立し、直接音と反射音との時間差τ(θ)について式(15)が成立するので、式(14)を構成する要素に式(16)(17)の各条件が生成される。記号*は複素共役を表す演算子である。
【数15】
【0046】
h→dH(ω,θ)h→r(ω,θ)の絶対値はh→dH(ω,θ)h→d(ω,θ)よりも十分に小さいので、式(14)の第2項、第3項を無視すると、コヒーレンスγ(ω,θ)は式(18)のように近似できる。
【数16】
【0047】
仮にh→dH(ω,θ)h→d(ω,θ)≠0であるとしても、近似コヒーレンスγ~(ω,θ)は式(19)の極小解θを持つ。qは任意の正整数である。また、qの範囲は周波数帯域ごとに制限される。
【数17】
【0048】
つまり、式(11)で与えられる方向だけではなく、式(19)で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、漏れ音声のパワーをより小さくできるので、図1(b)に模式的に示すように、鋭い指向性の実現が可能になる。
【0049】
なお、図1では本発明の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図2に、式(11)で与えられるθと式(19)で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]である。図2では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式(11)で与えられるθであり、記号+で示された方向が式(19)で与えられるθである。図2から明らかなように、従来技術に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の原理に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号+で示される多数の方向に存在し、特に、記号○で示された方向よりもθs=π/4[rad]にはるかに近い方向に記号+で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
【0050】
これまで本発明の原理を分かりやすく説明する観点から音波が平面波として進行すると仮定してきたが、上述の説明から明らかなように、本発明の特徴の要点は、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tを、例えば式(12a)のように、直接音のステアリングベクトルとΞ個の双対音のステアリングベクトルの和で表現することにある。従って、音波が平面波として進行する場合に限定されず球面波として進行する場合にも従来よりも狭指向性の音声再生が可能であることが理解される。
【0051】
音波が球面波として進行する場合についての伝達特性a→(ω,θ,D)を説明する。この場合、スピーカアレーの各スピーカからの音声であって何にも反射せずに進む音声(直接音)と、双対音が反射物300で反射した反射音との二種類の球面波が位置(θ,D)に向かうことになる。反射音(あるいは双対音)の数をΞとする。このとき、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tは、スピーカアレーから位置(θ,D)への直接音の伝達特性と当該直接音に対応する一つ以上の双対音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(20)のように、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正されたΞ個の双対音のステアリングベクトルの和で表現できる。h→d(ω,θ,Dh)=[hd1(ω,θ,Dh),…,hdM(ω,θ,Dh)]Tは位置(θs,D)への音声の直接音のステアリングベクトルを表す。h→rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは位置(θ,D)への直接音に対応する双対音のステアリングベクトルを表す。ここで「ステアリングベクトル」という呼称について注意を加えておく。一般的に、「ステアリングベクトル」は「方向ベクトル」とも呼ばれるように「方向」に依存する複素ベクトルを表し、この観点から、位置(θs,D)に依存する複素ベクトルの呼称としては例えば「拡張されたステアリングベクトル」と呼ぶほうがより正確である。しかし、本明細書では、表現の簡略化のため、位置(θs,D)に依存する複素ベクトルの呼称としても単に「ステアリングベクトル」を用いることにする。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、スピーカアレーからの音声(双対音)が反射物で反射する回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の双対音が反射した物体の音の反射率を表していると考えて差し支えない。
【数18】
【0052】
式(20)において、直接音のステアリングベクトルh→d(ω,θ,Dh)を構成するm番目の要素hdm(ω,θ,Dh)は例えば式(20a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。適宜に設定した空間座標系において、v→θ,D(d)は位置(θ,D)の位置ベクトルを、u→mはm番目のスピーカの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→θ,D(d)-u→m‖)は音波の距離減衰を表す関数である。例えばf(‖v→θ,D(d)-u→m‖)=1/‖v→θ,D(d)-u→m‖であり、この場合、式(20a)は式(20b)で表される。
【数19】
【0053】
式(20)において、双対音のステアリングベクトルh→rξ(ω,θ,D)=[hr1ξ(ω,θ,D),…,hrMξ(ω,θ,D)]Tのm番目の要素hrmξ(ω,θ,D)は、直接音のステアリングベクトルの表し方と同様に(式(20a)参照)、式(21a)で表される。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。上記空間座標系において、v→θ,D(ξ)は位置(θ,D)がξ番目の反射物の反射面で鏡像対象に移された位置の位置ベクトルを、u→mはm番目のスピーカの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→θ,D(ξ)-u→m‖)は音波の距離減衰を表す関数である。例えばf(‖v→θ,D(ξ)-u→m‖)=1/‖v→θ,D(ξ)-u→m‖であり、この場合、式(21a)は式(21b)で表される。
【数20】
【0054】
なお、ξ番目の時間差τξ(θ,D)と位置ベクトルv→θ,D(ξ)は、位置(θ,D)とスピーカアレーとξ番目の反射物との位置関係が決まると、その位置関係に基づいて理論的に計算可能である。
【0055】
これまでは、音声のスポット再生の要の一つとして、距離Dを固定して主に方向に関する狭指向性の観点から説明してきたが、ここでは、そのもう一つの要である、スピーカアレーからの距離に応じて再生される音声の音圧を制御可能であることを説明する。本発明は従来技術と異なり反射音を積極的に考慮することによって、距離別の音声再生を可能としている。以下、このことを二つの受聴位置を例に挙げて説明する。図6(a)に示すように、スピーカアレーから見て距離が異なるがほぼ同じ方向に在る二つの受聴位置AとBそれぞれの近傍で、両者への直接音のみに基づいて音声をスポット再生することは難しい。この理由は、受聴位置Aの位置(θ[A],D[A])に対応する直接音のステアリングベクトルh→d(ω,θ[A],D[A])に現れる減衰関数の値f(‖v→θ[A],D[A](d)-u→m‖)と受聴位置Bの位置(θ[B],D[B])に対応する直接音のステアリングベクトルh→d(ω,θ[B],D[B])に現れる減衰関数の値f(‖v→θ[B],D[B](d)-u→m‖)との間には、θ[A]≒θ[B]、D[A]≠D[B]に注意すると、距離に応じた差異が認められるが、現実には、音源信号の大きさ(音量)と減衰関数の値とを区別できないためである。つまり、従来技術の如くa→conv(ω,θ,D)=h→d(ω,θ,D)とするならば、直接音の伝達特性はほぼ同じ方向に在る受聴位置の距離に関する識別力として十分でなく、式(4)、式(5a)、式(5b)を参照して分かるように距離別に音声を再生可能なフィルタの設計が困難になるのである。
【0056】
他方、本発明では積極的に反射音を考慮するところ、図6(b)に示すように、ξ番目の双対音に対する仮想受聴位置A(ξ),B(ξ)は、スピーカアレーの立場から恰も、受聴位置A,Bの位置がξ番目の反射物300の反射面で鏡像対象に移された位置に存在することになる。仮想受聴位置A(ξ)へのξ番目の双対音と仮想受聴位置B(ξ)へのξ番目の双対音との間では、各仮想受聴位置A(ξ),B(ξ)の位置ベクトルv→θ[A(ξ)],D[A(ξ)](ξ)とv→θ[B(ξ)],D[B(ξ)](ξ)、各時間差τξ(θ[A],D[A])とτξ(θ[B],D[B])について、大きな差異がある。従って、位置(θ[A],D[A])と位置(θ[B],D[B])に対応する伝達特性a→(ω,θ[A],D[A])とa→(ω,θ[B],D[B])は式(22a)と式(22b)で表され、式(22a)と式(22b)のそれぞれの第2項の存在によって、θ[A]≒θ[B]であっても、異なる位置に対応する伝達特性間には有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で再現することによって、受聴位置への音声の距離別音声再生が可能となるのである。
【数21】
【0057】
これまでは、狭指向性の実現を説明するために、距離Dhを固定して考えてきた。このため、空間相関行列Q(ω)を式(5a)や式(5b)で表した。しかし、距離Dδ(δ=1,2,…,G)ごとのMチャネルの伝達特性の相互相関も考慮することによって音場の情報量が増え、より精度の良いフィルタを与える空間相関行列を構成できる。この空間相関行列Q(ω)は式(5c)で表される。方向θφのインデックスφが属する集合をΦ(|Φ|=P)、距離Dδのインデックスδが属する集合をΔ(|Δ|=G)とする。
【数22】
【0058】
このとき、式(5c)で表される空間相関行列Q(ω)を用いると、最小分散無歪応答法によるフィルタW→(ω,θs,Dh)は式(4)に替えて式(4a)で表される。
【数23】
【0059】
ところで、既述のとおり、本発明の特徴の要点は、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tを、直接音のステアリングベクトルとΞ個の双対音のステアリングベクトルの和で表現することにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW→(ω,θs,Dh)を設計することができる。
【0060】
上述の最小分散無歪応答法以外の手法として、<1>SN比最大化規準によるフィルタ設計法、<2>パワーインバージョン(Power Inversion)に基づくフィルタ設計法、<3>一つ以上の抑圧点(漏れ音声のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、<4>遅延合成(Delay-and-Sum Beam Forming)法によるフィルタ設計法、<5>最尤法によるフィルタ設計法、<6>AMNOR(Adaptive Microphone-array for noise reduction)法によるフィルタ設計法を説明する。<1>SN比最大化規準によるフィルタ設計法と<2>パワーインバージョンに基づくフィルタ設計法については参考文献2を参照のこと。<3>一つ以上の抑圧点(漏れ音声のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については参考文献3を参照のこと。<6>AMNOR(Adaptive Microphone-array for noise reduction)法によるフィルタ設計法については参考文献4を参照のこと。
(参考文献2)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35-90
(参考文献3)浅野太著、「日本音響学会編 音響テクノシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-」、初版、株式会社コロナ社、pp.88-89, 259-261
(参考文献4)金田豊著、「適応形雑音抑圧マイクロホンアレー(AMNOR)の指向特性」、日本音響学会誌44巻1号(1988)、pp.23-30
【0061】
<1>SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、位置(θs,Dh)でのSN比(SNR)を最大化する規準でフィルタW→(ω,θs,Dh)を決定する。位置(θs,Dh)への音声の空間相関行列をRss(ω)、位置(θs,Dh)以外の位置への音声の空間相関行列をRnn(ω)とする。このとき、SNRは式(23)で表される。なお、Rss(ω)は式(24)、Rnn(ω)は式(25)で表される。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは例えば式(20)で表される(正確には、式(20)のθをθs、DをDhとしたものである)。式(25)で、方向θφのインデックスφが属する集合をΦ(|Φ|=P)、距離Dδのインデックスδが属する集合をΔ(|Δ|=G)とする。
【数24】
【0062】
式(23)のSNRを最大にするフィルタW→(ω,θs,Dh)は、フィルタW→(ω,θs,Dh)に関する勾配をゼロとすること、つまり式(26)によって求めることができる。
【数25】
【0063】
これにより、式(23)のSNRを最大にするフィルタW→(ω,θs,Dh)は式(27)で与えられる。
【数26】
【0064】
式(27)には位置(θs,Dh)以外の位置への音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、(1)位置(θs,Dh)への音声と(2)位置(θs,Dh)以外の位置への音声とを含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)である。つまり、式(23)のSNRを最大にするフィルタW→(ω,θs,Dh)を式(28)で求めてもよい。
【数27】
【0065】
<2>パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのスピーカに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW→(ω,θs,Dh)を決定する。ここでは、一例として、M個のスピーカのうち1番目のスピーカに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs,Dh)は、式(30)の拘束条件の下、空間相関行列Rxx(ω)を用いて全位置(受聴位置として想定される全ての位置)への音声のパワーが最小となるように設計される(式(29)参照)。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは例えば式(20)で表される(正確には、式(20)のθをθs、DをDhとしたものである)。
【数28】
【0066】
式(29)の最適解であるフィルタW→(ω,θs,Dh)は式(31)で与えられることが知られている(参考文献2参照)。
【数29】
【0067】
<3>一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式(3)で表されるように位置(θs,Dh)への音声の全帯域通過を拘束条件とし、式(2)で表されるビームフォーマの平均出力パワーが最小となる(つまり、位置(θs,Dh)以外の位置への音声である漏れ音声のパワーが最小となる)フィルタを求める、という単一拘束条件の下の規準でフィルタW→(ω,θs,Dh)を設計した。この方法によると、全体的に漏れ音声のパワーを抑圧することはできるが、特定の一つまたは複数の位置への音声伝搬を強く抑圧したい場合には必ずしも好適な方法とは言えない。このような場合、既知の一つまたは複数の特定位置(つまり、抑圧点)への音声伝搬を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、(1)位置(θs,Dh)への音声の全帯域通過、および(2)既知のB個(Bは1以上の予め定められた整数)の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)への音声の全帯域抑制、を拘束条件として、式(2)で表されるビームフォーマの平均出力パワーが最小となる(つまり、位置(θs,Dh)と各抑圧点とを除く位置への音声のパワーが最小となる)フィルタを求める。既述のように、受聴位置の方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}(ただし、j∈{1,2,…,B}),B≦P-1である。また、受聴位置までの距離のインデックスδが属する集合を{1,2,…,G}とすると、Gj∈{1,2,…,G}(ただし、j∈{1,2,…,B}),B≦G-1である。
【0068】
このとき、a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tを、位置(θi,Dg)に受聴位置が在ると仮定した場合の、当該受聴位置とM本のスピーカとの間の周波数ωでの伝達特性、換言すれば、a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tは、スピーカアレーに含まれる各スピーカから位置(θi,Dg)への音声の周波数ωでの伝達特性とすると、拘束条件は式(32)で表される。ただし、インデックスi,gについて、(i,g)∈{(s,h),(N1,G1),(N2,G2),…,(NB,GB)}であり、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tは式(20)で表される(正確には、式(20)のθをθi、DをDgとしたものである)。fi,g(ω)は、位置(θi,Dg)に関する周波数ωでの通過特性を表す。
【数30】
【0069】
式(32)を行列形式で表現すると、例えば式(33)のように表すことができる。ただし、A→(ω,θs,Dh)=[a→(ω,θs,Dh),a→(ω,θN1,DG1),…,a→(ω,θNB,DGB)]である。
【数31】
【0070】
(1)位置(θs,Dh)への音声の全帯域通過、および(2)既知のB個の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)への音声の全帯域抑制、という拘束条件を考慮すると、理想的には、fs,h(ω)=1.0、fi,g(ω)=0.0((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})とされるべきである。これは、位置(θs,Dh)の音声の全帯域完全通過と、既知のB個の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、fs,h(ω)の絶対値を1.0に近い値、fi,g(ω)((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})の絶対値を0.0に近い値に設定すればよい。もちろん、fi,g_i(ω)とfj,g_j(ω)(i≠j、i,j∈{N1,N2,…,NB})は等しくても異なってもよい。
【0071】
ここで説明したフィルタ設計法によると、拘束条件を表す式(33)の下での式(2)の最適解であるフィルタW→(ω,θs,Dh)は式(34)で与えられる(参考文献3参照)。ただし、空間相関行列Q(ω)として式(5c)で表されるものを用いたが、式(5a)ないし式(5b)で表される空間相関行列を用いてもよい。
【数32】
【0072】
<4>遅延合成法によるフィルタ設計法
遅延合成法によると、直接音や反射音が平面波伝搬すると仮定すると、フィルタW→(ω,θs,Dh)は式(35)で与えられる。つまり、フィルタW→(ω,θs,Dh)は伝達特性a→(ω,θs,Dh)を正規化して得られる。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは式(20)で表される(正確には、式(20)のθをθs、DをDhとしたものである)。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
【数33】
【0073】
<5>最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω,Dh)内に位置(θs,Dh)への音声の空間情報を含めないことによって、漏れ音声を抑圧する自由度が向上し、漏れ音声のパワーをよりいっそう抑圧できる。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω,Dh)を、式(5a)の右辺第二項、つまり、式(5d)で表す。フィルタW→(ω,θs,Dh)は式(4)や式(34)で与えられる。このとき、式(4)や式(34)に含まれる空間相関行列は、式(5d)で表される空間相関行列である。
【数34】
【0074】
あるいは、空間相関行列Q(ω)内に位置(θs,Dh)への音声の空間情報を含めないようにしてもよい。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式(5e)で表す。フィルタW→(ω,θs,Dh)は式(4)や式(34)で与えられる。このとき、式(4)や式(34)に含まれる空間相関行列は、式(5e)で表される空間相関行列である。
【数35】
【0075】
<6>AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]目的方向の仮想的な信号(以下、仮想目的信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想目的信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める方式である。
【0076】
ここで説明するフィルタ設計法は、フィルタの入出力を逆にする以外はAMNOR法と同様に考えることができる。すなわち、位置(θs,Dh)への音声の劣化量Dとフィルタ出力信号に残留する漏れ音声のパワーとのトレードオフ関係を踏まえて、位置(θs,Dh)への音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、音源信号の周波数領域信号S(ω,k)を入力としたときのフィルタ出力信号が最小2乗誤差の観点から周波数領域信号S(ω,k)を最も良く再現する(つまり、フィルタ出力信号に含まれる漏れ音声のパワーが最小となる)フィルタを求める。フィルタ出力信号は、[a]スピーカアレーに含まれる各スピーカから位置(θs,Dh)への音声の周波数ωでの伝達特性を周波数領域信号S(ω,k)に作用させた信号(以下、受聴信号という)と[b](例えば雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号である。
【0077】
ここで説明するフィルタ設計法によると、AMNOR法と同様に、フィルタW→(ω,θs,Dh)は式(36)で与えられる(参考文献4参照)。なお、Rss(ω)は式(24)、Rnn(ω)は式(25)で表される。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは式(20)で表される(正確には、式(20)のθをθs、DをDhとしたものである)。
【数36】
【0078】
Psは、受聴信号のレベルを重み付けする係数であり、受聴信号レベルと呼称される。受聴信号レベルPsは、周波数に依存しない定数である。受聴信号レベルPsは、経験則に基づいて決められてもよく、あるいは、位置(θs,Dh)への音声の劣化量Dと閾値D^との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、フィルタW→(ω,θs,Dh)の位置(θs,Dh)への音声の周波数応答F(ω)は、式(37)で表される。式(36)で与えられるフィルタW→(ω,θs,Dh)を用いたときの劣化量DをD(Ps)と表記すると、劣化量D(Ps)は式(38)で定義される。ω0は、対象となる周波数ωの上限(通常は、離散的な周波数ωに隣接する高域側周波数である)を表す。劣化量D(Ps)はPsの単調減少関数である。従って、D(Ps)の単調性によって、Psを変化させながら劣化量D(Ps)を求めることを繰り返すことで、劣化量D(Ps)と閾値D^との差が任意に定められた誤差範囲内となる受聴信号レベルPsを求めることができる。
【数37】
【0079】
<変形例>
上述の説明では、空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を、伝達特性を用いて表現した。しかし、上述のように、マイクロホンアレーによって観測して得られたアナログ信号を周波数領域に変換して得られる周波数領域信号を用いて空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、Rss(ω)、Rnn(ω)についても同様である(Q(ω)をRss(ω)あるいはRnn(ω)に読み替えればよい)。なお、空間相関行列Rss(ω)は位置(θs,Dh)への音声のみが存在する環境でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Rnn(ω)は位置(θs,Dh)への音声が無い環境(つまり雑音環境)でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られる。
【0080】
周波数領域信号U→(ω,k)=[U1(ω,k),…,UM(ω,k)]Tを用いた空間相関行列Q(ω)は式(39)で表される。演算子E[・]は、統計的平均操作を表す演算子である。M個のマイクロホンで受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし2次定常である場合、演算子E[・]は算術平均値(期待値)演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号U→(ω,k-i)(i=0,1,…,ζ-1)を用いて式(40)で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式(39)ないし式(40)による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい(特に、フィルタ設計にRss(ω)あるいはRnn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である)。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式(39a)や式(40a)のように明示的に空間相関行列をQ(ω,k)と表すことにする。
【数38】
【0081】
式(39a)や式(40a)で表される空間相関行列Q(ω,k)を用いるとフィルタW→(ω,θs)も現在と過去のフレームに依存するから、明示的にこれをW→(ω,θs,Dh,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式(4)、式(4a)、式(27)、式(28)、式(31)、式(34)、式(36)のいずれかで表されるフィルタW→(ω,θs,Dh)は、表記上、式(4m)、式(4am)、式(27m)、式(28m)、式(31m)、式(34m)、式(36m)に修正される。
【数39】
【0082】
《実施形態1》
本発明の実施形態1の機能構成および処理フローを図3と図4に示す。この実施形態1の音声スポット再生処理装置1は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
【0083】
[ステップS1]
予め、フィルタ設計部260が音声スポット再生の対象となりえる離散的な位置(θi,Dg)ごとに、周波数ごとのフィルタW→(ω,θi,Dg)を計算しておく。音声スポット再生の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)、離散的な距離の総数をG(Gは1以上の予め定められた整数である)とすると、W→(ω,θ1,D1),…,W→(ω,θi,D1),…,W→(ω,θI,D1),W→(ω,θ1,D2),…,W→(ω,θi,D2),…,W→(ω,θI,D2),…,W→(ω,θ1,Dg),…,W→(ω,θi,Dg),…,W→(ω,θI,Dg),…,W→(ω,θ1,DG),…,W→(ω,θi,DG),…,W→(ω,θI,DG)(1≦i≦I, 1≦g≦G, ω∈Ω; iとgは整数、Ωは周波数ωの集合)を事前に計算しておくのである。
【0084】
このためには、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T(1≦i≦I, 1≦g≦G, ω∈Ω)を求める必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(20)によって具体的に計算できる(正確には、式(20)のθをθi、DをDgとしたものである)。なお、上述の<3>一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θi,Dg)(1≦i≦I, 1≦g≦G,ω∈Ω)を求める際の位置のインデックス(i,g)は、少なくともB個の抑圧点の方向のインデックス(N1,G1),(N2,G2),…,(NB,GB)の全てを亘ることが望ましい。換言すれば、B個のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定され、B個のインデックスG1,G2,…,GBは、1以上G以下のいずれかの異なる整数として設定される。
【0085】
反射音(あるいは双対音)の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
【0086】
ステアリングベクトルの計算には、例えば式(20a)、式(20b)、式(21a)、式(21b)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(20)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
【0087】
そして、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi,Dg)を用いて、例えば式(4)、式(4a)、式(27)、式(28)、式(31)、式(34)、式(35)、式(36)のいずれかによってW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G)を求める。なお、上述の<5>最尤法によるフィルタ設計法で説明した場合を除き、式(4)または式(4a)または式(28)または式(31)または式(34)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(5b)で計算できる。上述の<5>最尤法によるフィルタ設計法に拠って、式(4)または式(4a)または式(28)または式(31)または式(34)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(5d)あるいは式(5e)で計算できる。式(27)を用いる場合には空間相関行列Rnn(ω)は式(25)で計算できる。I×G×|Ω|個のフィルタW→(ω,θi,Dg)(1≦i≦I, 1≦g≦G, ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
【0088】
[ステップS2]
音源200が音源信号ss(t)を出力する。この実施形態では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
【0089】
[ステップS3]
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS3の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
【0090】
[ステップS4]
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0091】
[ステップS5]
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
【0092】
[ステップS6]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、スポット再生したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を適用して、再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを出力する(式(41)参照)。位置(θs,Dh)のインデックスs, hは、s∈{1,…,I}, h∈{1,…,G}であり、フィルタW→(ω,θs,Dh)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、スポット再生したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を記憶部290から取得すればよい。方向θsのインデックスsが集合{1,…,I}に属さない場合あるいは距離Dhのインデックスhが集合{1,…,G}に属さない場合、つまり、位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)がステップS1の処理で計算されていない場合、臨時に位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)をフィルタ設計部260に計算させてもよいし、あるいは方向θsに近い方向θs'や距離Dhに近い距離Dh'に対応するフィルタW→(ω,θs',Dh)やW→(ω,θs,Dh')やW→(ω,θs',Dh')を用いてよい。
【数40】
【0093】
[ステップS7]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]を得て、さらに、得られたフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]をフレーム番号のインデックスの順番に連結してスポット再生したい位置(θs,Dh)に向けて音声が強調された時間領域信号x→(t)=[x1(t),…,xM(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
【0094】
[ステップS8]
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
【0095】
なお、M個のスピーカの並べ方に制限は無い。線形スピーカアレーのように直線状にスピーカを配置するアレー構成でもよいし、2次元または3次元的にM個のスピーカを配置するアレー構成でもよい。また、収音方向として設定できる方向を広くとるためには、各スピーカの指向性は、再生方向である目的方向θsになり得る方向に或る程度の音圧で音声を再生可能な指向性を持っていたほうがよい。したがって、無指向性スピーカや単一指向性スピーカといった指向性が比較的緩やかなスピーカが好適である。
【0096】
ここでは、ステップS1の処理で予めフィルタW→(ω,θi,Dg)を計算しておく実施形態1を説明したが、音声スポット再生処理装置1の計算処理能力などに応じて、位置(θs,Dh)が定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs,Dh)を計算する実施形態を採用することもできる。
【0097】
《実施形態2》
本発明の実施形態2の機能構成および処理フローを図13と図14に示す。この実施形態2の音声スポット再生処理装置2は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ計算部261、記憶部290、AD変換部310、フレーム生成部320、周波数領域変換部330を含む。
【0098】
[ステップS11]
音源200が音源信号ss(t)を出力する。この実施形態2では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
【0099】
[ステップS12]
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS12の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
【0100】
[ステップS13]
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
【0101】
[ステップS14]
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
【0102】
[ステップS15]
フィルタ計算部261が、現在の第kフレームで用いられる、位置(θs,Dh)に対応する周波数毎のフィルタW→(ω,θs,Dh,k)(ω∈Ω; Ωは周波数ωの集合)を計算する。
【0103】
このためには、伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T(ω∈Ω)を用意する必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(20)によって具体的に計算できる(正確には、式(20)のθをθs、DをDhとしたものである)。なお、上述の<3>一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θNj,DGj)(1≦j≦B, ω∈Ω)も求める必要があるが、これらはスピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(20)によって具体的に計算できる(正確には、式(20)のθをθNj、DをDGjとしたものである)。
【0104】
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
【0105】
ステアリングベクトルの計算には、例えば式(20a)、式(20b)、式(21a)、式(21b)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(20)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
【0106】
そして、フィルタ計算部261は、伝達特性a→(ω,θs,Dh)(ω∈Ω)や必要に応じて伝達特性a→(ω,θNj,DGj)(1≦j≦B, ω∈Ω)を用いて、フィルタW→(ω,θs,Dh,k)(ω∈Ω)を、式(4m)、式(4am)、式(27m)、式(28m)、式(31m)、式(34m)、式(36m)のいずれかに従って求める。なお、空間相関行列Q(ω)(あるいはRxx(ω))は例えば式(39a)や式(40a)で計算できる。空間相関行列Q(ω)の計算には、記憶部290に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k-i)(i=0,1,…,ζ-1)が用いられる。
【0107】
周波数領域信号X→(ω,k)は、下記のようにして記憶部290に蓄積される。
マイクロホンアレーを構成するM個のマイクロホン300−1,…,300−Mを用いて収音する。M個のマイクロホンの並べ方等はスピーカアレーと同じとすることが好ましい。
AD変換部310が、M個のマイクロホン300−1,…,300−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]へ変換する。tは離散時間のインデックスを表す。
フレーム生成部320は、AD変換部310が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]を入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→1(k),…,x→M(k)]を出力する。kはフレーム番号のインデックスである。x→m(k)=[xm((k-1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
周波数領域変換部330は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力され、記憶部290に蓄積される。
【0108】
[ステップS16]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh,k)を適用して、再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]を出力する(式(42)参照)。
【数41】
【0109】
[ステップS17]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]を得て、さらに、得られたフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]をフレーム番号のインデックスの順番に連結して位置(θs,Dh)に向けて音声が強調された時間領域信号x→(t)=[x1(t),…,xM(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS14の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
【0110】
[ステップS18]
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
【実施例1】
【0111】
本発明の実施形態1(単一拘束条件の最小分散無歪応答法)による音声のスポット再生についての実験結果を説明する。図5に示すように、24本のスピーカを直線的に配置し、この線形スピーカアレーに含まれるスピーカの配列方向が反射板300の法線となるように反射板300を配置した。反射板300の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うスピーカの間隔を4cm、反射板300の反射率αを0.8とした。受聴位置は方向θsを45度、距離Dhを1.13mに設定した。実験結果として、図7(a)に反射板300を設置しなかった場合の最小分散ビームフォーマの指向性(2次元領域)、図7(b)に反射板300を設置した場合の最小分散ビームフォーマの指向性(2次元領域)を示す。音圧[単位:dB]は濃淡表示されており、白い領域ほど高い音圧で収音できていることを表している。従って、理想的には、方向45度、距離1.13mの位置のみ白くなっており、他の領域が黒に近くなるほど、音声のスポット再生が実現できているといえる。図7(a)と図7(b)に示す実験結果の比較から、反射板300を設置しなかった場合は音声のスポット再生が十分にできておらず、反射板300を設置した場合は音声のスポット再生ができていることがわかる。
【0112】
次に、本発明の実施構成の例を図8〜図12を参照して説明する。これらの例ではスピーカアレーの構成は線形スピーカアレーとして図示されているが、線形スピーカアレーの構成に限定されない。
【0113】
図8に示す実施構成例では、線形スピーカアレーを構成するM個のスピーカ280−1,…,280−Mは矩形平板状の支持部材400に固定されており、この状態で各スピーカの拡声孔は支持部材400の或る一つの平面(以下、開口面と呼ぶ)に配置されているいる(図示の例ではM=13)。なお、各スピーカ280−1,…,280−Mに接続される配線は図示していない。そして、各スピーカ280−1,…,280−Mの配列方向が矩形平板状の反射板300の法線となるように反射板300が支持部材400の端部に固定されている。支持部材400の開口面は、反射板300と90度をなす面である。図8に示す実施構成例では、反射板300の好ましいとされる性状は既述の反射物の性状と同じであり、支持部材400の性状については特に限定はなく各スピーカ280−1,…,280−Mをしっかりと固定できる剛性を持っていれば十分である。
【0114】
図9(a)に示す実施構成例では、支持部材400の端部に軸部410が固定されており、反射板300は軸部410に回動自在に取り付けられている。この実施構成例によると、スピーカアレーに対する反射板300の幾何学的配置を変更することが可能である。
【0115】
図9(b)に示す実施構成例では、図8に示す実施構成例において、さらに二つの反射板310,320が追加されている。追加された二つの反射板310,320の性状は反射板300の性状と同じでも異なってもよい。また、反射板310の性状は反射板320の性状と同じでも異なってもよい。以下、反射板300を固定反射板300と呼称する。固定反射板300の端部(支持部材400に固定されている固定反射板300の端部とは反対側の端部)に軸部510が固定されており、反射板310は軸部510に回動自在に取り付けられている。また、支持部材400の端部(固定反射板300が固定されている支持部材400の端部とは反対側の端部)に軸部520が固定されており、反射板320は軸部520に回動自在に取り付けられている。以下、反射板310,320を可動反射板310,320と呼称する。図9(b)に示す実施構成例によると、例えば固定反射板300の反射面と可動反射板310の反射面が一致するように可動反射板310の位置を設定すると、固定反射板300と可動反射板310の組み合わせを、固定反射板300よりも大きい反射面を持つ反射板として機能させることができる。また、図9(b)に示す実施構成例によると、可動反射板310,320を適切な位置に設定することによって、例えば図10に示すように支持部材400、固定反射板300、可動反射板310,320で囲まれた空間内で何度も音声を反射させることができるので、反射音の数Ξを制御することができる。なお、図9(b)に示す実施構成例の場合、支持部材400は反射物としての役割を果たすことになるので、既述の反射物の性状と同じ性状を持つことが好ましい。
【0116】
図11に示す実施構成例は、反射板300にもスピーカアレー(図示の例では線形スピーカアレー)が設けられていることが図8に示す実施構成例と異なる。図11に示す実施構成例では、支持部材400に固定されたM個のスピーカの配列方向と反射板300に固定されたM’個のスピーカの配列方向が同一平面上にあるが、このような配置構成に限定されない(図示の例ではM’=13)。例えば、支持部材400に固定されたM個のスピーカの配列方向と直交するような配列方向を持つように反射板300にM’個のスピーカが固定されていてもよい。図11に示す実施構成例によると、支持部材400に設けられたスピーカアレーと反射板300(反射板300に設けられたスピーカアレーを使用せず、反射板300を反射物として使用する)との組み合わせで本発明を実施したり、支持部材400(支持部材400に設けられたスピーカアレーを使用せず、支持部材400を反射物として使用する)と反射板300に設けられたスピーカアレーとの組み合わせで本発明を実施したりすることができる。
【0117】
また、図11に示す実施構成例の拡張実施構成例として、図9(b)に示す実施構成例と同様に、図11に示す実施構成例においてさらに二つの反射板310,320を追加した構成としてもよい(図12参照)。また、図示していないが、可動反射板310,320の少なくとも一つにスピーカアレーを設けてもよい。可動反射板310に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材400の開口面と対向可能な可動反射板310の平面(開口面)に配置される。可動反射板320に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面(開口面)に配置される。このような実施構成例であっても図9(b)に示す実施構成例と同様の使用形態が可能である。また、この実施構成例によると、例えば支持部材400の開口面と可動反射板320の開口面が一致するように可動反射板320の位置を設定すると、支持部材400と可動反射板320の組み合わせを、支持部材400に設けられたスピーカアレーよりも大きいスピーカアレーとして機能させることができる。図12に示す実施構成例においても、可動反射板310,320の少なくとも一つにスピーカアレーを設けた実施構成例においても、図10に示す実施構成例と同様の使用形態が可能である。また、図12に示す実施構成例においても、可動反射板310,320の少なくとも一つにスピーカアレーを設けた実施構成例においても、例えば、可動反射板310,320を通常の反射物として用い、支持部材400に設けられたスピーカアレーと固定反射板300に設けられたスピーカアレーとを一体のスピーカアレーとして用いる使用形態も可能である。この場合、(M+M’)個のスピーカで構成されたスピーカアレーと二つの反射物を使用する実施構成例と等価となる。
【0118】
可動反射板310にスピーカアレーを設ける場合、可動反射板310に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材400の開口面と対向可能な可動反射板310の平面の反対側の平面(開口面)に配置されるように、可動反射板310にスピーカアレーを設けてもよい。また、可動反射板320にスピーカアレーを設ける場合、可動反射板320に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面の反対側の平面(開口面)に配置されるように、可動反射板320にスピーカアレーを設けてもよい。もちろん、可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けてもよい。
【0119】
[A]スピーカアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面とした場合、図10に示す使用形態では、視線方向に対して可動反射板310および/または可動反射板320の開口面が見えないように可動反射板310および/または可動反射板320が配置されることによって視線方向の見かけ上のアレーサイズは小さくなるものの、可動反射板310および/または可動反射板320に設けられたスピーカアレーを利用することによって、アレーサイズを大きくした場合と同じ効果を得ることができる。
【0120】
[B]スピーカアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面の反対側の平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面の反対側の平面とした場合、図10に示す使用形態では、視線方向に対して見かけ上のアレーサイズを保ったまま、アレーサイズを大きくした場合と同じ効果を得ることができる。
【0121】
可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けた場合には、[A]と[B]の双方の効果を得ることも可能である。
【0122】
<応用例>
以下、本発明である音声スポット再生処理技術が有用なサービス例について述べる。
【0123】
第1の例として、ディジタルサイネージでの音声再生が挙げられる。本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、当該範囲に居る人にのみ広告を伝えることができる。
【0124】
第2の例として、TV会議システム(音声会議システムでもよい)への応用が挙げられる。TV会議専用の部屋が用意できないような状況の下で会議を行うときに、本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、会議を行うことができる。
【0125】
<音声スポット再生処理装置のハードウェア構成例>
上述の実施形態に関わる音声スポット再生処理装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声スポット再生処理装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0126】
音声スポット再生処理装置の外部記憶装置には、狭い範囲の音声を強調するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
【0127】
音声スポット再生処理装置の記憶部には、スポット再生の対象となる位置について式(5a)ないし式(5b)で表される空間相関行列を用いて、周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してAD変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、スポット再生の対象となる位置に対応するフィルタを周波数ごとに周波数領域信号に適用して再生信号を得るためのプログラムと、再生信号を時間領域信号に変換するためのプログラムが記憶されている。
【0128】
音声スポット再生処理装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(フィルタ設計部、AD変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部)を実現することで音声スポット再生処理が実現される。
【0129】
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0130】
また、上記実施形態において説明したハードウェアエンティティ(音声スポット再生処理装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0131】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0132】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0133】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0134】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【特許請求の範囲】
【請求項1】
Mを2以上の整数として、方向と距離で定まる所望の位置(スポット再生位置)に対してM個のスピーカで構成されるスピーカアレーで再生されるMチャネルの時間領域信号xを、音源信号が周波数領域に変換された周波数領域信号Sに、当該周波数領域信号SをMチャネルの周波数領域信号Xに変換するフィルタを周波数ごとに適用して得られた当該Mチャネルの周波数領域信号Xを時間領域に変換して得る音声スポット再生処理方法であって、
音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)への各スピーカからの音声の伝達特性ai,gを用いて、音声再生の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Sに適用して上記Mチャネルの周波数領域信号Xを得るフィルタ適用ステップと
を有し、
上記スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各上記伝達特性ai,gは、上記方向iと上記距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
ことを特徴とする音声スポット再生処理方法。
【請求項2】
請求項1に記載の音声スポット再生処理方法において、
各上記伝達特性ai,gは、上記直接音のステアリングベクトルと、反射による音の減衰および上記反射音の上記直接音に対する時間差が補正された一つ以上の上記双対音の各ステアリングベクトルとの和である
ことを特徴とする音声スポット再生処理方法。
【請求項3】
請求項1に記載の音声スポット再生処理方法において、
各上記伝達特性ai,gは、実環境下において実測で得られたものである
ことを特徴とする音声スポット再生処理方法。
【請求項4】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項5】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置でのSN比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項6】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、M個の上記スピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態でスポット再生位置として想定される上記一つまたは複数の位置以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項7】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、(1)音声再生の対象となる上記位置への音声の全帯域通過、および(2)一つ以上の抑圧点への音声の全帯域抑制、の条件の下、音声再生の対象となる上記位置と各上記抑圧点以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項8】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置i=s,g=hの伝達特性as,hを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項9】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置以外の各位置に対応する上記伝達特性ai,gによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項10】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる上記位置以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項11】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項12】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、スポット再生位置として想定される一つまたは複数の位置に含まれる各位置に対応する上記伝達特性ai,gによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項13】
Mを2以上の整数として、方向と距離で定まる所望の位置(スポット再生位置)に対してM個のスピーカで構成されるスピーカアレーで再生されるMチャネルの時間領域信号xを、音源信号が周波数領域に変換された周波数領域信号Sに、当該周波数領域信号SをMチャネルの周波数領域信号Xに変換するフィルタを周波数ごとに適用して得られた当該Mチャネルの周波数領域信号Xを時間領域に変換して得る音声スポット再生処理装置であって、
音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)への各スピーカからの音声の伝達特性ai,gを用いて、音声再生の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Sに適用して上記Mチャネルの周波数領域信号Xを得るフィルタ適用部と
を含み、
上記スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各上記伝達特性ai,gは、上記方向iと上記距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
ことを特徴とする音声スポット再生処理装置。
【請求項14】
請求項13に記載の音声スポット再生処理装置において、
上記双対音に対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする音声スポット再生処理装置。
【請求項15】
コンピュータに、請求項1から請求項12のいずれかに記載の音声スポット再生処理方法の処理を実行させるためのプログラム。
【請求項1】
Mを2以上の整数として、方向と距離で定まる所望の位置(スポット再生位置)に対してM個のスピーカで構成されるスピーカアレーで再生されるMチャネルの時間領域信号xを、音源信号が周波数領域に変換された周波数領域信号Sに、当該周波数領域信号SをMチャネルの周波数領域信号Xに変換するフィルタを周波数ごとに適用して得られた当該Mチャネルの周波数領域信号Xを時間領域に変換して得る音声スポット再生処理方法であって、
音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)への各スピーカからの音声の伝達特性ai,gを用いて、音声再生の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Sに適用して上記Mチャネルの周波数領域信号Xを得るフィルタ適用ステップと
を有し、
上記スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各上記伝達特性ai,gは、上記方向iと上記距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
ことを特徴とする音声スポット再生処理方法。
【請求項2】
請求項1に記載の音声スポット再生処理方法において、
各上記伝達特性ai,gは、上記直接音のステアリングベクトルと、反射による音の減衰および上記反射音の上記直接音に対する時間差が補正された一つ以上の上記双対音の各ステアリングベクトルとの和である
ことを特徴とする音声スポット再生処理方法。
【請求項3】
請求項1に記載の音声スポット再生処理方法において、
各上記伝達特性ai,gは、実環境下において実測で得られたものである
ことを特徴とする音声スポット再生処理方法。
【請求項4】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項5】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置でのSN比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項6】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、M個の上記スピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態でスポット再生位置として想定される上記一つまたは複数の位置以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項7】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、(1)音声再生の対象となる上記位置への音声の全帯域通過、および(2)一つ以上の抑圧点への音声の全帯域抑制、の条件の下、音声再生の対象となる上記位置と各上記抑圧点以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項8】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置i=s,g=hの伝達特性as,hを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項9】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置以外の各位置に対応する上記伝達特性ai,gによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項10】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる上記位置以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項11】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項12】
請求項1から請求項3のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、スポット再生位置として想定される一つまたは複数の位置に含まれる各位置に対応する上記伝達特性ai,gによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
【請求項13】
Mを2以上の整数として、方向と距離で定まる所望の位置(スポット再生位置)に対してM個のスピーカで構成されるスピーカアレーで再生されるMチャネルの時間領域信号xを、音源信号が周波数領域に変換された周波数領域信号Sに、当該周波数領域信号SをMチャネルの周波数領域信号Xに変換するフィルタを周波数ごとに適用して得られた当該Mチャネルの周波数領域信号Xを時間領域に変換して得る音声スポット再生処理装置であって、
音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)への各スピーカからの音声の伝達特性ai,gを用いて、音声再生の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Sに適用して上記Mチャネルの周波数領域信号Xを得るフィルタ適用部と
を含み、
上記スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各上記伝達特性ai,gは、上記方向iと上記距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
ことを特徴とする音声スポット再生処理装置。
【請求項14】
請求項13に記載の音声スポット再生処理装置において、
上記双対音に対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする音声スポット再生処理装置。
【請求項15】
コンピュータに、請求項1から請求項12のいずれかに記載の音声スポット再生処理方法の処理を実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図7】
【図2】
【図3】
【図4】
【図5】
【図6】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図7】
【公開番号】特開2012−147414(P2012−147414A)
【公開日】平成24年8月2日(2012.8.2)
【国際特許分類】
【出願番号】特願2011−190803(P2011−190803)
【出願日】平成23年9月1日(2011.9.1)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 発行者名 社団法人日本音響学会 刊行物名 日本音響学会2011年春季研究発表会講演論文集 講演要旨・講演論文 CD−ROM 発行年月日 平成23年3月2日
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成24年8月2日(2012.8.2)
【国際特許分類】
【出願日】平成23年9月1日(2011.9.1)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 発行者名 社団法人日本音響学会 刊行物名 日本音響学会2011年春季研究発表会講演論文集 講演要旨・講演論文 CD−ROM 発行年月日 平成23年3月2日
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]