説明

音響再生装置

【課題】複数のチャネルが同時に再生されたときの聞き分けを容易にする音響再生装置を提供する。
【解決手段】既知の並びで直線状に配置された2個以上のマイクロホンと既知の並びで直線状に配置された2個以上のスピーカを一つのセットとして、複数のセットと、各マイクロホンからの出力信号から適応フィルタを求め、求められた適応フィルタを受話信号に適用する音響処理部とを含む。音響処理部は、各マイクロホンからの出力信号のレベルを比較するレベル比較器と、各マイクロホンからの出力信号のレベルに基づいて、セットごとに、各スピーカからの再生音声の指向性の死角が発話者に対して形成されるようにフィルタ係数を算出する適応フィルタ計算部と、セットごとに、受話信号にフィルタ係数を適用するフィルタ適応部とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響再生装置に関し、複数のチャネルが同時に再生されたときの聞き分けを容易にする技術に関する。
【背景技術】
【0002】
従来から、電話会議装置としてモノラル再生またはステレオ再生の電話会議装置が存在する(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−98826号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の音響再生装置によると、複数のチャネルとして例えばモノラルまたはステレオのLチャネルとRチャネルが同時に再生されたとき、聞き分けが難しい場合があった。
そこで、本発明は、複数のチャネルが同時に再生されたときの聞き分けを容易にする音響再生装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明の音響再生装置は、既知の並びで直線状に配置された2個以上のマイクロホンと既知の並びで直線状に配置された2個以上のスピーカを一つのセットとして、複数のセットと、各マイクロホンからの出力信号から適応フィルタを求め、求められた適応フィルタを受話信号に適用する音響処理部とを含む。音響処理部は、各マイクロホンからの出力信号のレベルを比較するレベル比較器と、各マイクロホンからの出力信号のレベルに基づいて、セットごとに、各スピーカからの再生音声の指向性の死角が発話者に対して形成されるようにフィルタ係数を算出する適応フィルタ計算部と、セットごとに、受話信号にフィルタ係数を適用するフィルタ適応部とを含む。
【0006】
あるいは本発明の音響再生装置は、既知の並びで直線状に配置された2個以上のマイクロホンと既知の並びで直線状に配置された2個以上のスピーカを一つのセットとして、複数のセットと、各マイクロホンからの出力信号から適応フィルタを求め、求められた適応フィルタを受話信号に適用する音響処理部とを含む。音響処理部は、発話者の発話音声が各マイクロホンに到達する順序を、基準となるマイクロホンの出力信号と他の各マイクロホンの出力信号との相互相関によって求める相関計算部と、発話者の発話音声が各マイクロホンに到達する順序に基づいて、セットごとに、各スピーカからの再生音声の指向性の死角が発話者に対して形成されるようにフィルタ係数を算出する適応フィルタ計算部と、セットごとに、受話信号にフィルタ係数を適用するフィルタ適応部とを含む。
【発明の効果】
【0007】
本発明に拠ると、スピーカからの再生音声の指向性に発話者に対する死角が形成されるので、複数のチャネルが同時に再生されたときの聞き分けが容易になる。
【図面の簡単な説明】
【0008】
【図1】実施形態に係る音響再生装置の機能構成を示す図。
【図2】実施形態の変形例に係る音響再生装置の機能構成を示す図。
【図3】発話者から見て遠方のスピーカの指向性の死角が当該発話者に向けて形成されることを示す図。
【図4】発話者の位置がRチャネルとLチャネルの2セットの中央付近であると推定された場合において、当該発話者に向けて死角を持つ指向性が形成されることを示す図。
【発明を実施するための形態】
【0009】
本発明の実施の形態を、図面を参照して説明する。
ここで説明する実施形態の音響再生装置1は、音響処理部100と、2個以上のマイクロホンと2個以上のスピーカをセットとして2セットとを含む。以下の説明では、音響再生装置1が、2個のマイクロホン201,202と2個のスピーカ301,302をRチャネルのセット23R、2個のマイクロホン203,204と2個のスピーカ303,304をLチャネルのセット23Lとして、計2セットを含む場合の例を説明する。
【0010】
音響処理部100は、レベル比較器110、Rチャネル用の白色雑音源116、Lチャネル用の白色雑音源118、Rチャネル用の遅延器112、Lチャネル用の遅延器114、Rチャネル用の適応フィルタ計算部122、Lチャネル用の適応フィルタ計算部124、Rチャネル用のフィルタ適用部132,134、Lチャネル用のフィルタ適用部136,138を含む。
【0011】
[Lチャネル]
レベル比較器110によるマイクロホン201,202,203,204の出力信号のレベルの比較処理に基づき、発話者の発声音声のレベルが高い方から、マイクロホン201,202,203,204の出力信号をs1(t),s2(t),s3(t),s4(t)とする。つまり、発話者が図1に示すマイクロホン201の右側(マイクロホン202,203,204から遠い位置)に居る状況を想定している。発話音声はほぼ球面上に広がって距離減衰するので、発話環境にもよるが通常は発話者に最も近いマイクロホンの出力信号のレベルが最も大きく、発話者から最も遠いマイクロホンの出力信号のレベルが最も小さくなる。なお、tは時刻を表すインデックスである。このとき出力信号s3(t),s4(t)それぞれがA/D変換された信号をuN3(n),uN4(n)とし、uN=[uN3(n),uN4(n)]Tとする。記号Tは転置を表す。なお、nはサンプリング時刻を表すインデックスである。また、マイクロホン203とマイクロホン204との距離をd、音速をcとして、白色雑音源118からの白色雑音を出力信号s3(t)に加えた信号がA/D変換された信号をus3(n)、白色雑音源118からの白色雑音を遅延器114によってd/cだけ遅延させて出力信号s4(t)に加えた信号がA/D変換された信号をus4(n)とし、us=[us3(n),us4(n)]Tとする。なお、図面では入力された信号に対してA/D変換を行うA/D変換部の図示を省略している。
【0012】
適応フィルタ計算部124は、UN=uN+usを算出し、学習同定法を用いてサンプリング時刻n+1におけるフィルタ係数hn+1を式(1)に従って計算する。式(1)にて、記号Tは転置行列を表す。
【数1】

【0013】
また、式(1)にてe(n)は、UNをフィルタ係数に持つフィルタを通過した信号y’(n)に対して式(2)で得られた信号である。
【数2】

【0014】
適応フィルタ計算部124は、式(2)が収束するまで式(1)のサンプリング時刻nについて反復計算することにより、サンプリング時刻n+1におけるフィルタ係数hn+1を求める。
【0015】
[Rチャネル]
反対側の発話者についても同様の処理を行う。この場合、発話者は図1に示すマイクロホン204の左側(マイクロホン201,202,203から遠い位置)に居る状況を想定することになる。従って、レベル比較器110によるマイクロホン201,202,203,204の出力信号のレベルの比較処理に基づき、発話者の発声音声のレベルが低い方から、マイクロホン201,202,203,204の出力信号はs1(t),s2(t),s3(t),s4(t)となる。tは時刻を表すインデックスである。このとき出力信号s1(t),s2(t)それぞれがA/D変換された信号をuN1(n),uN2(n)とし、uN=[uN1(n),uN2(n)]Tとする。nはサンプリング時刻を表すインデックスである。また、マイクロホン201とマイクロホン202との距離をd、音速をcとして、白色雑音源116からの白色雑音を出力信号s2(t)に加えた信号がA/D変換された信号をus2(n)、白色雑音源116からの白色雑音を遅延器112によってd/cだけ遅延させて出力信号s1(t)に加えた信号がA/D変換された信号をus1(n)とし、us=[us1(n),us2(n)]Tとする。なお、図面では入力された信号に対してA/D変換を行うA/D変換部の図示を省略している。ここでは、記号の節約から[Lチャネル]の説明で用いた記号と同じ記号を用いているが(例えばuNやus)、[Lチャネル]と[Rチャネル]での各処理は独立に行われるから混乱はないであろう。
【0016】
適応フィルタ計算部122は、UN=uN+usを算出し、学習同定法を用いてサンプリング時刻n+1におけるフィルタ係数hn+1を式(3)に従って計算する。式(3)にて、記号Tは転置行列を表す。
【数3】

【0017】
また、式(3)にてe(n)は、UNをフィルタ係数に持つフィルタを通過した信号y’(n)に対して式(4)で得られた信号である。
【数4】

【0018】
適応フィルタ計算部122は、式(4)が収束するまで式(3)のサンプリング時刻nについて反復計算することにより、サンプリング時刻n+1におけるフィルタ係数hn+1を求める。
【0019】
受話信号Lに対して、上述の如く算出されたLチャネルのフィルタ係数hn+1がフィルタ適用部136,138によって適用される。この適用処理で得られた信号はスピーカ303,304に入力され、スピーカ303,304から音声が再生されることになる。同様に、受話信号Rに対して、上述の如く算出されたRチャネルのフィルタ係数hn+1がフィルタ適用部132,134によって適用される。この適用処理で得られた信号はスピーカ301,302に入力され、スピーカ301,302から音声が再生されることになる。この結果、発話者から見て遠方のスピーカの指向性の死角が当該発話者に向けて形成される。つまり、発話者が図1に示すマイクロホン201の右側に居る場合には、スピーカ303,304によって形成される指向性400の死角が当該発話者に向くように当該指向性400が形成されるのである(図3参照)。逆に、発話者が図1に示すマイクロホン204の左側に居る場合には、スピーカ301,302によって形成される指向性の死角が当該発話者に向くように当該指向性が形成されるのである。このとき、死角の反対側にはスピーカ信号が十分な音圧で再生されるから、受聴者は、例えば室内環境であれば壁による反射によって遠方からの再生音声を聞くことになる。また、受聴者の面前のスピーカからは受聴者に向かってスピーカ信号が再生されるので、スピーカ再生音声に遠近感が生まれることになる。このため、この実施形態であれば二つのチャネルが同時に再生されたとしても受聴者は容易に各チャネルのスピーカ再生音声を聞き分けることができる。また、レベル比較器110によるレベル比較処理に基づいて発話者の位置を推定するため、発話者が移動しても自動的に発話者に追随可能である。
【0020】
なお、上述の実施形態では学習同定法を採用したが、この方式に限定されるものではなく、例えば射影アルゴリズムや再帰最小2乗(RLS)アルゴリズムなど他の適応フィルタアルゴリズムを用いてフィルタを算出することもできる。
【0021】
例えば、2次の射影アルゴリズムによるフィルタの更新式は、μ(ただし、0<μ≦1を満たす)をステップサイズとして式(5)、式(6)で表される。
【数5】

【0022】
RLS法では、相関行列の逆行列としての意味を持つ正方行列P(n)を中間変数として、式(7)(8)(9)に従ってフィルタ係数を更新する。λは忘却係数(ただし、0<λ≦1を満たす)である。P(n)の初期値は通常P(n)=cIで与えられる。cは大きな正の定数であり、Iは単位行列である。定数cは例えば、入力信号UN(n)の2乗期待値Pxに対し、c=104/Pxで与えられる。
【数6】

【0023】
適応フィルタに関しては、例えば参考文献1が詳しい。
(参考文献1)Simon Haykin著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、2001.pp.66-73,248-255
【0024】
次に、図2を参照して、上述の実施形態の変形例を説明する。この変形例の音響再生装置1aは、上記音響処理部100に替えて音響処理部100aを含む。音響処理部100aは、レベル比較器110に替えて相関計算部111を含む。
【0025】
この変形例では、発話者の発話音声がマイクロホン201,202,203,204に到達した順に、マイクロホンの出力信号をs1(t),s2(t),s3(t),s4(t)とする。到達の順序は、相関計算部111が例えばマイクロホン201の出力信号と他の各マイクロホンの出力信号との相互相関を求めることで決定する。爾後の処理は、[Lチャネル]と[Rチャネル]ともに上記実施形態と同じであるから、重複説明を省略する。
【0026】
各マイクロホンの出力信号のレベルや到達時刻によって発話者の位置がRチャネルとLチャネルの2セット23R,23Lの中央付近であると推定された場合(図4参照)には、各マイクロホンのうち、各セットのマイクロホンの出力信号を用いてフィルタを生成する。例えば、各マイクロホンの出力信号のレベルの大きい順に図4の各マイクロホンの出力信号をs1(t),s2(t),s3(t),s4(t)とすると、左からs3(t),s1(t),s2(t),s4(t)となる場合、s1(t)とs3(t)の組み合わせによりLチャネルのフィルタを生成し、s2(t)とs4(t)の組み合わせによりRチャネルのフィルタを生成する。発話者の位置がRチャネルとLチャネルの2セットの中央付近であると推定された場合、図4に示すように、当該発話者に向けて死角を持つ指向性が形成されることになる。
【0027】
上述の実施形態並びにその変形例では白色雑音を用いたが有色雑音でもよい。また、このような雑音を生成する手段として上述の実施形態並びにその変形例では白色雑音源116,118を用いているが、例えば記憶手段に記憶されたデータとしての白色雑音ないし有色雑音を用いることができる。また、複数のチャネルで一つの白色雑音源(或いは有色雑音源)を用いる構成であってもよい。
【0028】
上述の実施形態並びにその変形例では、チャネルごとに、マイクロホン間距離が同一の記号dで与えられているが、チャネルごとにマイクロホン間距離が異なっていてもよい。
【0029】
チャネルに対応するセットは、2個以上のマイクロホンと2個以上のスピーカを含むが、各マイクロホンは既知の同一直線上に配置されており、同様に、各スピーカは既知の同一直線上に配置されている。なお、各マイクロホンが配置された直線と各スピーカが配置された直線は一致することは必須ではなく、平行であればよい。また、1セットにつき、少なくともマイクロホンの総数はスピーカの総数と同じかそれ以上であることが望ましい。
【0030】
上述の実施形態並びにその変形例では、各スピーカは、セット毎に同一の方向に向いているが、各スピーカの向きは上述の如く指向性を形成することができればよいのであって特に限定はない。また、各マイクロホンの向きは発話者からの発話音声の直接音が収音されない向きが望ましい。
【0031】
上述の実施形態並びにその変形例では、音響再生装置から見た発話者の方向を推定するために無指向性マイクロホンを使用している。しかし、このような特性のマイクロホンに限定されるものではなく、発話者の方向を推定できれば無指向性マイクロホンでなくてもよい。
【0032】
<音響再生装置のハードウェア構成例>
上述の実施形態に関わる音響再生装置は、CPU(Central Processing Unit)やDSP(Digital Sygnal Processor)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらのCPUやDSP、RAMやROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音響再生装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
【0033】
音響再生装置の外部記憶装置には、上述の音響再生のためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される場合がある。データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
【0034】
音響再生装置の記憶部には、各マイクロホンからの出力信号のレベルを比較するためのプログラム、各マイクロホンからの出力信号の相互相関を計算するためのプログラム、適応フィルタを計算するためのプログラム、適応フィルタを受話信号に適用するためのプログラムなどが記憶されている。
【0035】
音響再生装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(レベル比較器、相関計算部、適応フィルタ計算部、フィルタ適用部など)を実現することで上述の音響再生が実現される。
【0036】
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0037】
また、上記実施形態において説明したハードウェアエンティティ(音響再生装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0038】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0039】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0040】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0041】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
既知の並びで直線状に配置された2個以上のマイクロホンと既知の並びで直線状に配置された2個以上のスピーカを一つのセットとして、複数のセットと、
各上記マイクロホンからの出力信号から適応フィルタを求め、求められた適応フィルタを受話信号に適用する音響処理部と
を含み、
上記音響処理部は、
各上記マイクロホンからの出力信号のレベルを比較するレベル比較器と、
各上記マイクロホンからの出力信号のレベルに基づいて、上記セットごとに、各上記スピーカからの再生音声の指向性の死角が発話者に対して形成されるようにフィルタ係数を算出する適応フィルタ計算部と、
上記セットごとに、上記受話信号に上記フィルタ係数を適用するフィルタ適応部と
を備えた音響再生装置。
【請求項2】
既知の並びで直線状に配置された2個以上のマイクロホンと既知の並びで直線状に配置された2個以上のスピーカを一つのセットとして、複数のセットと、
各上記マイクロホンからの出力信号から適応フィルタを求め、求められた適応フィルタを受話信号に適用する音響処理部と
を含み、
上記音響処理部は、
発話者の発話音声が各上記マイクロホンに到達する順序を、基準となるマイクロホンの出力信号と他の各上記マイクロホンの出力信号との相互相関によって求める相関計算部と、
発話者の発話音声が各上記マイクロホンに到達する上記順序に基づいて、上記セットごとに、各上記スピーカからの再生音声の指向性の死角が発話者に対して形成されるようにフィルタ係数を算出する適応フィルタ計算部と、
上記セットごとに、上記受話信号に上記フィルタ係数を適用するフィルタ適応部と
を備えた音響再生装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate