説明

音源定位方法、音源定位装置、及びプログラム

【課題】受聴者の受聴方法をヘッドホンに限定したり、受聴位置を厳しく制限したりすることなく、受聴者に適切に音源定位させる。
【解決手段】n番目の音源から第1受聴位置までの間のインパルス応答に対応する立体音響特性をhnL(t)とし、n番目の音源から第2受聴位置までの間のインパルス応答に対応する立体音響特性をhnR(t)とした場合におけるN組の立体音響特性{hnL(t), hnR(t)}を入力とし、立体音響特性hnL(t)と立体音響特性hnR(t)との間の平均的な特性を表す平均化立体音響特性hn(t)を各nに対して生成し、平均化立体音響特性hn(t)をn番目の音源から発せられた音源信号sn(t)に畳み込んだ第1音源位置操作信号xn(t)を各nに対して生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源の位置や方向を受聴者に知覚させるための音源定位技術に関する。
【背景技術】
【0002】
遠隔地同士で音声・映像といった情報をやりとりするシステムを会議システムと呼ぶ。人間は、音源が放射された位置や方向を知覚すること(音源定位)ができる。会議システムにおいて、複数のスピーカを用いて受聴者に音源定位させる従来技術の一つにトランスオーラル再生がある(例えば、非特許文献1参照)。トランスオーラル再生は、ある位置にいる人間の両耳に対し、あらかじめ定めた音響特性が付加された信号を伝送する技術である。ここで、家庭用のオーディオ再生でよく使用されるステレオ再生とトランスオーラル再生との違いについて説明する。
【0003】
図1は、ステレオ再生を行う構成を説明するための図である。
【0004】
ステレオ再生は、2つのスピーカからレベル差や時間差等の立体音響効果が付加された2チャネルの音源信号(例えば可聴音信号)を再生することで、受聴者に音源定位させる方式である。この場合、ヘッドホンで再生した場合とは異なり、それぞれのスピーカから放射された音源信号は、受聴者300の右/左の両耳301,302に到来する(クロストークの発生、図1の破線を参照)。そのため、スピーカを用いたステレオ再生の場合、ヘッドホン再生の場合に比べると、音源定位効果が薄れてしまうことが多い。トランスオーラル再生は、このクロストークを除去する特性を立体音響特性に組み込むことにより、適正な音源定位効果を受聴者300に与えることができる技術である。適正な音源定位効果を得ることは、会議の臨場感の向上や高理解へとつながる。
【0005】
図2は、トランスオーラル再生を行う従来のトランスオーラル再生装置100を説明するための図である。以下、図2を用いて、従来のトランスオーラル再生方式を説明する。
【0006】
まず、N(N≧1)個の音源信号s1(t),...,sN(t)(tは離散時間)とそれらの音源位置情報r1(t),...,rN(t)とを用意する。音源位置情報r1(t),...,rN(t)は、音源信号s1(t),...,sN(t)をそれぞれ出力する1〜N番目の各音源の位置や方向を表す情報であり、立体音響特性を立体音響特性記憶部102から得るために使用される。
【0007】
立体音響特性記憶部102は、N個の音源位置情報r1(t),...,rN(t)を入力とし、N個の音源位置情報r1(t),...,rN(t)に対応するN組の立体音響特性{h1L(t), h1R(t)},...,{hNL(t), hNR(t)}を出力する。立体音響特性hnL(t), hnR(t)は、それぞれD(D≧1)タップのFIRフィルタを構成する時系列データであり、サンプリング周波数44.1kHzの場合でD=512程度に設定されることが多い。ここで言う立体音響特性は、受聴者300が音源定位する音源の位置や方向などを操作可能な特性であればどのようなものでも良い。一般的には、事前に収録された頭部伝達特性、あるいは頭部伝達特性を簡易化した特性(頭部伝達特性を平滑化したものや近似したものなど)を使うことが多い。
【0008】
立体音響特性付加部101−n(n=1,...,N)は、それぞれ、音源位置情報rn(t)と音源信号sn(t)とを入力とし、音源位置情報rn(t)を立体音響特性記憶部102に入力することで得られる立体音響特性{hnL(t), hnR(t)}を取得する。さらに立体音響特性付加部101−n(n=1,...,N)は、それぞれ、音源位置情報rn(t)と立体音響特性{hnL(t), hnR(t)}とを用い、立体特性付加信号xnL(t), xnR(t)を生成して出力する。立体特性付加信号xnL(t), xnR(t)は以下を計算することによって得られる。
【0009】
【数1】

ただし、「*」は畳み込み演算子を表し「・」は乗算演算子を表す。
【0010】
信号加算部103は、立体特性付加信号{x1L(t), x1R(t)},...,{xNL(t), xNR(t)}を入力として、混合信号yL(t), yR(t)を生成して出力する。混合信号yL(t), yR(t)は、以下を計算することで得られる。
【0011】
【数2】

伝達特性記憶部104は、M個の音再生部201−m(m=1,...,M)と受聴者300の左耳301との間の伝達特性
gL(t)=[g1L(t),...,gML(t)] …(5)
と、M個の音再生部201−m(m=1,...,M)と受聴者300の右耳302との間の伝達特性
gR(t)=[g1R(t),...,gMR(t)] …(6)
を出力する。なお、音再生部201−mはスピーカなどからなる。伝達特性gL(t), gR(t)は事前に用意する値で、実測で計測したり、両耳の位置と音再生部の位置とからシミュレーションで算出したりすることで得られる。
【0012】
逆特性付加部105は、混合信号yL(t), yR(t)と伝達特性gL(t), gR(t)とを入力として、逆特性付加信号z1(t),...,zM(t)を生成して出力する。以下に逆特性付加信号を生成する手順を述べる。まず、GmL,GmR(m=1,...,M)を以下のように定義する。
【0013】
【数3】

【数4】

ここで、GL=[G1L,...,GML], GR=[G1R,...,GMR]とする。左耳301に対応する逆特性ベクトル
aL=[a1L(0),...,a1L(D-1), a2L(0),...,a2L(D-1),..., aML(0),...,aML(D-1)]T
と右耳302に対応する逆特性ベクトル
aR=[a1R(0),...,a1R(D-1), a2R(0),...,a2R(D-1),..., aMR(0),...,aMR(D-1)]T
は、以下の計算で得られる。
【0014】
aL=GL-1[1,0,...,0]T …(9)
aR=GR-1[1,0,...,0]T …(10)
ただし、[・]Tは[・]の転置を表す。
【0015】
逆特性付加部105は、逆特性ベクトルaL, aRと混合信号yL(t),yR(t)とを以下のように畳み込むことで、逆特性付加信号zm(t)(m=1,...,M)を得る。
【0016】
【数5】

DA変換部106は、逆特性付加信号zm(t) (m=1,...,M)を入力とし、チャネルmごとに特性付加信号zm(t) (m=1,...,M)をアナログ信号osm(t) (m=1,...,M)に変換して音再生部201−m (m=1,...,M)から出力する。
【先行技術文献】
【非特許文献】
【0017】
【非特許文献1】M.Miyoshi and Y.Kaneda, "Inverse Filtering of Room Acoustic," IEEE Trans. Acoust. Speech Signal Process., vol. ASSP-36, no.2, pp.145-152, 1988.
【発明の概要】
【発明が解決しようとする課題】
【0018】
従来方式では、受聴者と音再生部との位置関係をあらかじめ定め、それに応じた伝達特性gL(t), gR(t)をあらかじめ用意する必要があった。この場合、受聴者と音再生部との位置関係があらかじめ定められた以外のものとなった場合、受聴者に適切に音源定位させることができなくなる。例えば、従来方式を会議システムに組み込んだ事例を想定すると、このような会議システムを用いた会議の参加者があらかじめ定められた位置以外に移動した場合、このような参加者は適切に音源定位することができなくなる。そのため、従来方式で適正な音源定位感をためには、受聴者の受聴位置を厳しく制限したり、受聴者の受聴方法をヘッドホンでの受聴に限定したりしなければならない。
【0019】
本発明はこのような点に鑑みてなされたものであり、受聴者の受聴方法をヘッドホンに限定したり、受聴位置を厳しく制限したりすることなく、受聴者に適切に音源定位させることが可能な技術を提供することを目的とする。
【課題を解決するための手段】
【0020】
本発明では上記の課題を解決するために、tを離散時間とし、n(n=1,...,N, N≧1)番目の音源から第1受聴位置までの間のインパルス応答に対応する立体音響特性をhnL(t)とし、n番目の音源から第2受聴位置までの間のインパルス応答に対応する立体音響特性をhnR(t)とした場合におけるN組の立体音響特性{hnL(t), hnR(t)}(n=1,...,N)を入力とし、立体音響特性hnL(t)と立体音響特性hnR(t)との間の平均的な特性を表す平均化立体音響特性hn(t)を各nに対して生成し、平均化立体音響特性hn(t)をn番目の音源から発せられた音源信号sn(t)に畳み込んだ第1音源位置操作信号xn(t)を各nに対して生成する。なお、立体音響特性は全受聴者で同じであり受聴者ごとに異なるものではない。
【0021】
ここで、第1音源位置操作信号xn(t)からは、受聴者に定位させるn番目の音源の方向成分のうち、第1受聴位置と第2受聴位置とを含む或る平面に沿った方位成分が抑圧されている。すなわち、第1音源位置操作信号xn(t)は、当該受聴者に定位させるn番目の音源の当該平面に対する仰俯成分と、受聴者に定位させるn番目の音源までの距離の当該平面への射影成分とを定位させる信号である。第1音源位置操作信号xn(t)は、あらかじめ定められた受聴者と音再生部との位置関係に対応する伝達特性gL(t), gR(t)を用いて特定されたものではなく、受聴者と音再生部との位置関係が或る範囲にある限り、上記の仰俯成分と距離の射影成分とを受聴者に定位させることができる。
【0022】
また、本発明において好ましくは、第1音源位置操作信号xn(t)を用い、受聴者に定位させるn番目の音源の方向成分のうち上記平面に沿った方位成分を受聴者に知覚させるためのM(M≧2)個の第2音源位置操作信号ynm(t)(m=1,...,M)を各nに対して生成する。第2音源位置操作信号ynm(t)は、あらかじめ定められた受聴者と音再生部との位置関係に対応する伝達特性gL(t), gR(t)を用いて特定されたものではない。よって、受聴者と音再生部との位置関係が或る範囲にある限り、上記の方位成分と仰俯成分と距離の射影成分とを受聴者に定位させることができる。
【発明の効果】
【0023】
本発明では、受聴者と音再生部との位置関係がある範囲にある限り、受聴者に音源定位させることができるため、受聴者の受聴方法をヘッドホンに限定したり、受聴位置を厳しく制限したりすることなく、受聴者に適切に音源定位させることができる。
【図面の簡単な説明】
【0024】
【図1】図1は、ステレオ再生を行う構成を説明するための図である。
【図2】図2は、トランスオーラル再生を行う従来のトランスオーラル再生装置を説明するための図である。
【図3】図3は、実施形態の音源定位装置の機能構成を例示するための図である。
【図4】図4は、実施形態の音源定位方法を例示するための図である。
【図5】図5は、平均化部の処理を例示するための図である。
【図6】図6は、上下・前後を表現する座標系を説明するための図である。
【図7】図7Aは、本形態に対する主観評価実験条件を説明するための図である。図7Bは、実験で立体音響特性として用いた頭部伝達関数(HRTF: Head-Related Transfer Function)の収録条件を説明するための図である。
【図8】図8Aは、収録した頭部伝達特性をそのまま付加した音に対する音源定位実験結果を表す図である。図8Bは、両耳平均化処理を施した頭部伝達特性を付加した音に対する音源定位実験結果を表す図である。
【図9】図9Aは、本形態の音源定位装置を用いて受聴者に音源定位(上下・前後方向)させる様子を説明するための図である。図9Bは、本形態の音源定位装置を用いて受聴者に音源定位(水平方向)させる様子を説明するための図である。
【図10】図10は、本形態の効果を説明するための図である。
【発明を実施するための形態】
【0025】
以下、図面を参照して本発明の実施形態を説明する。
【0026】
<構成>
図3に例示するように、本形態の音源定位装置1は、音源数N(N≧1)分の上下・前後音源定位操作部11−n(n=1,...,N)(第1音源位置操作信号生成部)と、立体音響特性記憶部102と、平均化部13と、水平音源定位操作部14−n(n=1,...,N)(第2音源位置操作信号生成部)と、信号加算部15と、DA変換部16とを有し、複数の音再生部201−m(m=1,...,M、M≧2)(スピーカアレーなど)に接続され、受聴者300に音源定位させるための信号を出力する。
【0027】
また、本形態の音源定位装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)、ROM(read-only memory)などを有する公知又は専用コンピュータと特別なプログラムとから構成される。すなわち、立体音響特性記憶部102は、例えば、RAM、レジスタ、キャッシュメモリ、ハードディスクやそれらを結合した記憶領域である。また、上下・前後音源定位操作部11−n(n=1,...,N)と立体音響特性記憶部102と平均化部13と水平音源定位操作部14−n(n=1,...,N)と信号加算部15とDA変換部16は、例えば、特別なプログラムが読み込まれたCPUやメモリからなる処理部や集積回路などである。なお、上記の特別なプログラムは、単一のプログラム列として構成されていてもよく、また、特別なプログラムの少なくとも一部が別個のモジュールとしてライブラリに格納されていてもよい。また、上記の特別なプログラム単体で本形態の機能を実現できるものでもよいし、上記の特別なプログラムがさらに他のライブラリ(記載していない)を読み出して各機能を実現してもよい。また、音源定位装置1は、図示しない制御部の制御のもと各処理を実行する。また、以下では説明を省略するが、各処理部が生成した各データは必要に応じて図示しない記憶部に格納され、必要に応じてそれを必要とする処理部に読み出されて利用される。
【0028】
<処理>
次に、図4を用いて本形態の音源定位処理を説明する。
【0029】
前処理として、N(N≧1)個の音源信号s1(t),...,sN(t)(tは離散時間)とそれらの音源位置情報r1(t),...,rN(t)とを用意する。音源位置情報r1(t),...,rN(t)は、音源信号s1(t),...,sN(t)をそれぞれ出力する1〜N番目の各音源の位置や方向を表す情報であり、立体音響特性を立体音響特性記憶部102から得るために使用される。
【0030】
[ステップS11]
本形態の音源定位処理では、まず、上下・前後音源定位操作部11−n(n=1,...,N)のそれぞれに、n番目の音源から放出された音源信号sn(t)とn番目の音源の音源位置情報rnとが入力される。なお、音源位置情報rnは、n番目の音源の位置や方向を表す情報(例えば、座標や相対座標など)であり、立体音響特性を立体音響特性記憶部102から得るために使用される。上下・前後音源定位操作部11−n(n=1,...,N)のそれぞれは、各音源位置情報rnを平均化部13に入力する。平均化部13は、N個の音源位置情報rn(n=1,...,N)を立体音響特性記憶部102に入力する。立体音響特性記憶部102は、N個の音源位置情報r1(t),...,rN(t)の入力に対し、N個の音源位置情報r1(t),...,rN(t)に対応するN組の立体音響特性{h1L(t), h1R(t)},...,{hNL(t), hNR(t)}を出力する。立体音響特性hnL(t), hnR(t)は、それぞれD(D≧1)タップのFIRフィルタを構成する時系列データであり、サンプリング周波数44.1kHzの場合でD=512程度に設定されることが多い。ここで言う立体音響特性は、受聴者300が音源定位する音源の位置や方向などを操作可能な特性であればどのようなものでも良い。言い換えると、n番目の音源から第1受聴位置までの間のインパルス応答に対応する立体音響特性をhnL(t)とし、n番目の音源から第2受聴位置までの間のインパルス応答に対応する立体音響特性をhnR(t)とする。一般的には、事前に収録された頭部伝達特性(時間領域では「頭部インパルス応答」と呼ぶ)、あるいは頭部伝達特性を簡易化した特性(頭部伝達特性を平滑化したものや近似したものなど)を使うことが多い。なお、第1受聴位置と第2受聴位置とは互いに異なる位置である。第1受聴位置は、例えば、1〜N番目の音源が配置された実空間に存在する仮想的な受聴者の左耳の位置であり、第2受聴位置は、例えば、1〜N番目の音源が配置された実空間に存在する仮想的な受聴者の右耳の位置である。
【0031】
平均化部13は、N組の立体音響特性{h1L(t), h1R(t)},...,{hNL(t), hNR(t)}を入力とし、立体音響特性hnL(t)と立体音響特性hnR(t)との間の平均的な特性を表す平均化立体音響特性hn(t)を各n(n=1,...,N)に対して生成する。平均化立体音響特性hn(t)は、立体音響特性hnL(t)と立体音響特性hnR(t)との間の平均的な特性が表れていればよく、その生成方法に特に限定はない。図5を用いて平均化立体音響特性hn(t)を算出するための一つの処理方法を例示する。
【0032】
一般的に、左耳に対応する立体音響特性hnL(t)と右耳に対応する立体音響特性hnR(t)との間には到来時間差ρn(t)が存在する。到来時間差ρn(t)は、立体音響特性hnL(t), hnR(t)の相互相関関数が最大となる時間インデックスから計算することができる。この例の平均化部13は、まず、各n(n=1,...,N)に対してhnL(t-κ)とhnR(t)との間の相互相関関数値を最大化するκを到来時間差ρn(t)として生成する。すなわち、この例では、式(12)のように到来時間差ρn(t)が生成される。
【0033】
【数6】

ここで、n番目の音源から放出された音声信号が第2受聴位置よりも第1受聴位置に早く到達する場合をρn(t)>0とし、第1受聴位置よりも第2受聴位置に早く到達する場合をρn(t)<0とすると、この例平均化部13は、ρn(t)<の場合に
hn(t)=C1・{hnL(t)+hnR(t+ρn(t))}(C1は定数) …(13)
とし、ρn(t)≧の場合に
hn(t)=C2・{hnL(t-ρn(t))+hnR(t)}(C2は定数) …(14)
とし、平均化立体音響特性hn(t)を生成する。なお、定数C1,C2の例はC1=C2=1やC1=C2=1/2などである。
【0034】
[ステップS12]
次に、上下・前後音源定位操作部11−n(n=1,...,N)のそれぞれが、入力された音源信号sn(t)と平均化立体音響特性hn(t)とを用い、平均化立体音響特性hn(t)をn番目の音源から発せられた音源信号sn(t)に畳み込んで上下・前後音源位置操作信号xn(t)(第1音源位置操作信号)を生成し、上下・前後音源位置操作信号xn(t)と音源位置情報rnとを出力する。例えば、上下・前後音源定位操作部11−nは、以下の式(15)のように上下・前後音源位置操作信号xn(t)を生成する。
【0035】
【数7】

ただし、「*」は畳み込み演算子を表し「・」は乗算演算子を表す。
【0036】
[ステップS13]
次に、水平音源定位操作部14−n(n=1,...,N)のそれぞれが、上下・前後音源位置操作信号xn(t)と音源位置情報rnとを入力とし、受聴する受聴者300に定位させるn番目の音源の方向成分のうち、第1受聴位置と第2受聴位置とを含む或る平面に沿った方位成分を、受聴者に知覚させるためのM(M≧2)個の水平音源定位操作信号ynm(t)(m=1,...,M)(第2音源位置操作信号)を各n(n=1,...,N)に対して生成して出力する。上下・前後音源位置操作信号xn(t)からnごとにM個(Mチャネル)の水平音源定位操作信号ynm(t)を生成する方法には様々なものが存在する。例えば、上下・前後音源位置操作信号xn(t)のレベルを変更したり、上下・前後音源位置操作信号xn(t)に遅延を与えたりし、チャネル間でレベル差や時間差を加えたものを各チャネルm=1,...,Mの水平音源定位操作信号ynm(t)としてもよい。以下に時間差を加えることによる水平音源定位操作信号ynm(t)の一例を表す。
【0037】
ynm(t)=xn(t-ψnm(t)) …(16)
ただし、ψnm(t)の例は、
ψnm(t)=DIS(vrn,bm)/c …(17)
である。なお、この例では、1〜N番目の各音源(話者など)を表示するモニターがM個の音再生部201−m(m=1,...,M)のそばに配置されるものとする。vrn(n=1,...,N)のそれぞれは当該モニター上に表示されるn番目の音源の位置を表し、bm(m=1,...,M)のそれぞれは音再生部201−m(m=1,...,M)の位置を表す。また、DIS(vrn,bm)はvrnとbmとの距離を表す。例えば、vrn及びbmがvrn=(vrnx, vrny, vrnz)及びbm=(bm x, bm y, bm z)のように座標表現(x座標,y座標,z座標)され、距離尺度としてユークリッド距離が用いられる場合、
【0038】
【数8】

となる。またcは音速を表す。
【0039】
[ステップS14]
次に、信号加算部15が、N組の水平音源定位操作信号{y11(t),...y1M(t)},...,{yN1(t),...yNM(t)}を入力とし、m (m=1,...,M)ごとに水平音源定位操作信号y1m(t),...yNm(t)を加算して加算信号z1(t),...,zM(t)を生成して出力する。加算信号zm(t)(m=1,...,M)は、以下の計算によって得られる。
【0040】
【数9】

[ステップS15]
次に、DA変換部16が、加算信号zm(t)(m=1,...,M)を入力とし、チャネルmごとに加算信号zm(t)(m=1,...,M)をアナログ信号osm(t)(m=1,...,M)に変換して音再生部201−m(m=1,...,M)に出力する。音再生部201−m(m=1,...,M)のそれぞれは、アナログ信号osm(t)(m=1,...,M)のそれぞれに対応する音声信号を出力する。
【0041】
<実験>
本方式の有用性を検証するために音源定位実験を行った。本実験は、主に両耳平均化立体音響特性を用いた上下・前後定位操作の効果を主観評価実験にて検証することが主な目的である。
【0042】
まず、主観評価実験に用いた音について説明する。図6は、上下・前後を表現する座標系である。側方角は、両耳に到達する時間差が一定の平面を制御する量で、上昇角は、上下・前後を制御する量である。側方角30°の面において、計7方向(上昇角を正面(0°)から背面(180°)まで30°間隔にとる)に対応する受聴音を生成した。
【0043】
受聴音に付加した立体音響特性には、事前に受聴者毎に収録した頭部伝達特性を用い、
1)収録した頭部伝達特性をそのまま付加した音、
2)両耳平均化処理を施した頭部伝達特性(平均化立体音響特性)を付加した音の2種類の音に側方角30°に対応する時間差を付加した音
を生成した。なお、1)の音は、理想的な条件での音源定位性能を把握するために生成した。
【0044】
そして、これらを被験者にランダムに聴かせ、それぞれどの方向の音と知覚したかを回答用紙に記入させた。被験者には回答用紙への記入を終えるまで1つの提示音を繰り返しヘッドホンで聴取させた。この試行を6試行実施し、各被験者から2方向あたり6回の回答を得た。
【0045】
実験条件、及び立体音響特性として用いた頭部伝達関数の収録条件を図7A及び図7Bに示す。図8Aに、1)収録した頭部伝達特性をそのまま付加した音を用いた場合の音源定位実験、図8Bに、2)両耳平均化処理を施した頭部伝達特性を付加した音を用いた場合の音源定位実験における全被験者の回答分布を示した。これらの図では、横軸が提示音の方向、縦軸が被験者の回答した知覚方向を示しており、円の半径は回答数に比例する。提示方向と知覚方向がすべて一致する理想的な場合には、右上がりの対角線上に分布する。
【0046】
これらの図を見ると両耳平均化処理された頭部伝達関数を用いた場合には、加工していない頭部伝達関数を用いた場合に比べ、分布に若干の広がりがあるものの、概ね対角線上に分布しており、上下・前後方向の音源定位が生じていると考えられる。
【0047】
また、式(19)で定義される平均定位誤差を用い、音源定位精度を定量的に評価する。ここでSは提示した方向、Rは知覚した方向であり、
【0048】
【数10】

は、αの平均を表す。
【0049】
【数11】

以下に平均定位誤差を示す。
【0050】
【表1】

加工処理をしていない頭部伝達関数を用いた場合と両耳平均化処理された頭部伝達関数を用いた場合を比較すると、6.9°の差があった。両者の音源定位誤差の平均についてt検定を行ったところ、有意水準5%で有意な差は見られなかった。従って上下・前後方向の音源定位操作は有用な方式であることが示された。
【0051】
[具体例]
以下に、本形態の方式を用いたサービス例を挙げる。
【0052】
1つ目は、本形態のTV会議システムへの組み込みである。会議の参加者の人数に関わらず、映像に対応した任意の音場を生成することができるので、遠隔地同士の会議でもあたかも同じ場所にいるかのような効果が得られたり、誰が話しているのかを特定することが容易になったりする。
【0053】
2つ目は、オーディオシステムへの組み込みである。通常のオーディオシステムで用いる複数のスピーカは、ある同一の高さで配置されることが多い。例えば、ステレオスピーカだと受聴者から見て左右にスピーカが配置され、5.1chサラウンドシステムでは受聴者の周りを囲むように5つのスピーカ(+1つのサブウーファー)が配置される。この場合、各スピーカの音のレベル差や時間差といった効果で水平方向の音源定位を捜査することは容易であるが、上下・前後方向の音源定位操作することは難しい。本処理の両耳平均化処理を用いることによって、オーディオシステムにおける上下・前後方向の音源定位操作を容易に行うことができる。
【0054】
<本形態の効果>
本形態では、受聴者の両耳の立体音響特性hnL(t),hnR(t)の間の平均的な特性を表す平均化立体音響特性hn(t)によって上下・前後の音源定位操作を行い、平均化立体音響特性hn(t)を用いて得られる上下・前後音源位置操作信号xn(t)にチャネルごとのレベル差や時間差などを加えることで水平方向の音源定位操作を行った水平音源定位操作信号ynm(t)を生成する。
【0055】
ここで、上下・前後音源位置操作信号xn(t)からは、受聴者に定位させるn番目の音源の方向成分のうち水平面に沿った方位成分が抑圧されている。すなわち、上下・前後音源位置操作信号xn(t)は、n番目の音源の上下成分と前後成分とを受聴者に定位させるための信号である。上下・前後音源位置操作信号xn(t)は、あらかじめ定められた受聴者と音再生部との位置関係に対応する伝達特性gL(t), gR(t)を用いて特定されたものではない。また、水平音源定位操作信号ynm(t)は、上下・前後音源位置操作信号xn(t)に対してチャネルごとのレベル差や時間差などを加えることで得られるものであり、あらかじめ定められた受聴者と音再生部との位置関係に対応する伝達特性gL(t), gR(t)を用いて特定されたものではない。よって、受聴者が或る制御エリアA内にいる限り、受聴者は各音源の上下成分と前後成分とを適切に定位することができ(図9A)、各音源の水平方向成分を適切に定位することができる(図9B)。
【0056】
すなわち、図10に例示するように、従来方式では、あらかじめ定められた受聴者の位置(右耳B-R,B1-R,B2-Rや左耳B-L,B1-L,B2-L)と音再生部との位置関係に対応する伝達特性gL(t), gR(t)を用い、受聴者による音源定位を制御していたため、受聴者の位置がわずかにずれただけでも適切な音源定位が困難となった。特に受聴者が複数である場合、それぞれの受聴者が適切に音源定位することは困難であった。これに対し、本形態では、単数又は複数の受聴者が或る制御エリアA内にいる限り、各受聴者は各音源の上下成分と前後成分とを適切に定位することができる。
【0057】
以上のように、従来の複数スピーカを用いた音源定位操作では受聴位置が限られていた。本形態の方式を用いることによって、あるエリア内に存在する単数又は複数の受聴者に対して、水平方向、上下・前後方向の音源定位操作を適切に行うことができる。これにより、TV会議システムの映像に対応した音場の生成、5.1chサラウンドシステム等のオーディオシステムにおける上下・前後方向の音源定位操作を可能とする。また、これまで音源定位を付与するスピーカシステムに比べて、システムを小型化することができる。また、平均化立体音響特性hn(t)を用いた制御が可能となるため、従来のオーディオスピーカシステムでは困難であった上下・前後方向の音源定位操作を容易に行うことができる。
【0058】
<変形例等>
本発明は上述の実施の形態に限定されるものではなく、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0059】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0060】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0061】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0062】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0063】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0064】
1 音源定位装置

【特許請求の範囲】
【請求項1】
(A) tを離散時間とし、n(n=1,...,N, N≧1)番目の音源から第1受聴位置までの間のインパルス応答に対応する立体音響特性をhnL(t)とし、n番目の音源から第2受聴位置までの間のインパルス応答に対応する立体音響特性をhnR(t)とした場合におけるN組の立体音響特性{hnL(t), hnR(t)}(n=1,...,N)を入力とし、前記立体音響特性hnL(t)と前記立体音響特性hnR(t)との間の平均的な特性を表す平均化立体音響特性hn(t)を各nに対して生成するステップと、
(B) 前記平均化立体音響特性hn(t)を前記n番目の音源から発せられた音源信号sn(t)に畳み込んだ第1音源位置操作信号xn(t)を各nに対して生成するステップと、
を有する音源定位方法。
【請求項2】
請求項1の音源定位方法であって、
前記ステップ(A)は、
(A-1) 各nに対してhnL(t-κ)とhnR(t)との間の相互相関関数値を最大化するκを到来時間差ρn(t)として生成するステップと、
(A-2) ρn(t)<の場合にhn(t)=C1・{hnL(t)+hnR(t+ρn(t))}(C1は定数)とし、ρn(t)≧の場合にhn(t)=C2・{hnL(t-ρn(t))+hnR(t)}(C2は定数)とし、前記平均化立体音響特性hn(t)を生成するステップと、を含む、
ことを特徴とする音源定位方法。
【請求項3】
請求項1又は2の音源定位方法であって、
(C) 前記第1音源位置操作信号xn(t)を用い、受聴者に定位させるn番目の前記音源の方向成分のうち前記第1受聴位置と前記第2受聴位置とを含む或る平面に沿った方位成分を前記受聴者に知覚させるためのM(M≧2)個の第2音源位置操作信号ynm(t)(m=1,...,M)を、各nに対して生成するステップをさらに有する、
ことを特徴とする音源定位方法。
【請求項4】
tを離散時間とし、n(n=1,...,N, N≧1)番目の音源から第1受聴位置までの間のインパルス応答に対応する立体音響特性をhnL(t)とし、n番目の音源から第2受聴位置までの間のインパルス応答に対応する立体音響特性をhnR(t)とした場合におけるN組の立体音響特性{hnL(t), hnR(t)}(n=1,...,N)を入力とし、前記立体音響特性hnL(t)と前記立体音響特性hnR(t)との間の平均的な特性を表す平均化立体音響特性hn(t)を各nに対して生成する平均化部と、
前記平均化立体音響特性hn(t)を前記n番目の音源から発せられた音源信号sn(t)に畳み込んだ第1音源位置操作信号xn(t)を各nに対して生成する第1音源位置操作信号生成部と、
を有する音源定位装置。
【請求項5】
請求項4の音源定位装置であって、
前記平均化部は、
各nに対してhnL(t-κ)とhnR(t)との間の相互相関関数値を最大化するκを到来時間差ρn(t)として生成し、ρn(t)<の場合にhn(t)=C1・{hnL(t)+hnR(t+ρn(t))}(C1は定数)とし、ρn(t)≧の場合にhn(t)=C2・{hnL(t-ρn(t))+hnR(t)}(C2は定数)とし、前記平均化立体音響特性hn(t)を生成する、
ことを特徴とする音源定位装置。
【請求項6】
請求項4又は5の音源定位装置であって、
前記第1音源位置操作信号xn(t)を用い、受聴者に定位させるn番目の前記音源の方向成分のうち前記第1受聴位置と前記第2受聴位置とを含む或る平面に沿った方位成分を前記受聴者に知覚させるためのM(M≧2)個の第2音源位置操作信号ynm(t)(m=1,...,M)を、各nに対して生成する第2音源位置操作信号生成部をさらに有する、
ことを特徴とする音源定位装置。
【請求項7】
請求項1から3の何れかの音源定位方法の各ステップの処理をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−4816(P2012−4816A)
【公開日】平成24年1月5日(2012.1.5)
【国際特許分類】
【出願番号】特願2010−137499(P2010−137499)
【出願日】平成22年6月16日(2010.6.16)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(504139662)国立大学法人名古屋大学 (996)
【Fターム(参考)】