音声出力装置

【課題】カクテルパーティ効果を適切に抑制することができる音声出力装置を提供する。
【解決手段】マイクアレイ１は、話者Ｈ１の音声を収音し、音声処理装置３に出力する。音声処理装置３は、マイクアレイ１の各マイクで収音した話者Ｈ１の音声に基づいて話者Ｈ１の位置を検出する。また、音声処理装置３は、マイクアレイ１の各マイクで収音した話者Ｈ１の音声に基づいて、当該話者Ｈ１の音声をマスクするためのマスカ音を生成し、スピーカアレイ２に出力する。このとき、音声処理装置３は、スピーカアレイ２の各スピーカに供給する音声信号の遅延量を制御することで、第三者Ｈ３が知覚する音源の位置（仮想音源位置）を話者Ｈ１の位置に設定する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、マスカ音を出力する音声出力装置に関するものである。
【背景技術】
【０００２】
従来、オフィス等において、パーティションにスピーカを取り付け、話者の音声と関連性の低い音声をマスカ音として出力することにより、近接する他の空間に存在する人に話者の音声を聞き取り難くしたものが提案されている（例えば、特許文献１参照）。これにより、話者の発言内容を理解し難くなくなるため、話者のプライバシーを保つことができる。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開平０６−１７５６６６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかし、特許文献１の方式では、マスカ音と話者の音声が別の位置から聞こえてくるため、いわゆるカクテルパーティ効果により、聴取者が話者の音声を聞き分けて発言内容を理解してしまうおそれがある。
【０００５】
そこで、本発明は、カクテルパーティ効果を適切に抑制することができる音声出力装置を提供することを目的とする。
【課題を解決するための手段】
【０００６】
この発明の音声出力装置は、話者の位置を検出する話者位置検出手段と、マスカ音を生成するマスカ音生成部と、マスカ音を出力する複数のスピーカと、話者位置検出部が検出した話者がマスカ音の仮想音源位置となるように定位位置を制御し、複数のスピーカの少なくとも一つにマスカ音に係る音声信号を供給する定位制御部と、を備えたことを特徴とする。
【０００７】
具体的には、定位制御部は、第三者からみて話者と同じ方向からマスカ音が到来するように、マスカ音の定位位置を設定する。より好ましくは、定位制御部は、話者位置検出部が検出した話者の位置とマスカ音の定位位置を同じ位置に設定する。これにより、マスカ音と話者の音声が別の位置から聞こえることがなくなり、カクテルパーティ効果を適切に抑制することができる。
【０００８】
なお、話者位置の検出手法はどの様なものであってもよいが、例えば音声を収音する複数のマイクが配列されたマイクアレイを備え、各マイクで収音した音声の位相差を検出すれば高精度に話者の位置を検出することが考えられる。
【０００９】
この場合、定位制御部は、スピーカアレイとマイクアレイの位置関係を考慮してマスカ音の定位位置を制御することが望ましい。位置関係は、ユーザによる手動入力であってもよいし、例えば各スピーカから出力した音声をマイクで収音し、到達時間を測定することで求めることも可能である。
【００１０】
なお、スピーカアレイとマイクアレイを一体型とした筐体であれば、スピーカアレイとマイクアレイの位置関係は固定されるため、予め測定した位置関係を記憶しておけば、都度位置関係を入力したり測定したりする必要はない。
【００１１】
また、マスカ音生成部は、話者位置検出部が検出した話者の位置が変化した場合、マスカ音のレベルを高く設定することが望ましい。話者位置が変化すると、瞬時的に話者位置とマスカ音の定位位置が異なる位置になることが考えられる。この場合、カクテルパーティ効果が発生し、マスク効果が低下する可能性もあるため、一時的にマスカ音の音量を増大させ、マスク効果の低下を防止する態様とする。
【００１２】
なお、話者位置検出手段で最も収音音声の大きなマイクの位置を話者位置に設定し、定位制御部で該最も収音音声の大きなマイクに最も近いスピーカへマスカ音に係る音声信号を供給するようにしてもよい。
【００１３】
また、この発明の音声出力装置は、音声を収音する複数のマイクと、マスカ音を生成するマスカ音生成部と、マスカ音に係る音声信号が供給され、マスカ音を放音する複数のスピーカと、複数のスピーカに供給する前記マスカ音に係る音声信号のゲインを制御する定位制御部と、を備える。定位制御部は、複数のマイクの収音信号のレベルに対して複数のマイクと複数のスピーカとの距離が遠くなるほど値が小さくなるゲイン設定係数を乗算することで、複数のスピーカに供給するマスカ音に係る音声信号のゲインを調整する。
【００１４】
このような構成とすることで、話者位置を検出しなくても、複数のマイクと複数のスピーカの位置関係と各マイクの収音信号のレベルのみで話者位置方向からマスカ音が聞こえるようにマスカ音を放音することができる。
【発明の効果】
【００１５】
この発明によれば、マスカ音と話者の音声が同じ方向から聞こえるため、カクテルパーティ効果を適切に抑制することができる。
【図面の簡単な説明】
【００１６】
【図１】マスキングシステムの構成を示すブロック図である。
【図２】マイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【図３】マイクアレイによる話者位置検出手法を示す図である。
【図４】スピーカアレイによる仮想音源定位手法を示す図である。
【図５】スピーカアレイとマイクアレイの位置関係を示す図である。
【図６】音声処理装置の動作を示すフローチャートである。
【図７】別の実施形態からなるマスキングシステムの構成を示す図である。
【図８】図７に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【図９】図７に示すマスキングシステムでの音声処理装置の動作を示すフローチャートである。
【図１０】また別の実施形態からなるマスキングシステムの構成を示す図である。
【図１１】図１０に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【発明を実施するための形態】
【００１７】
図１は、本発明の音声出力装置を備えたマスキングシステムの構成を示すブロック図である。マスキングシステムは、例えば銀行や調剤薬局等の対話カウンターに設置され、カウンターを挟んで会話を行う者の発言内容を第三者に理解できないようにするマスカ音を当該第三者に対して放音するものである。
【００１８】
図１においては、カウンターを挟んで話者Ｈ１と聴取者Ｈ２が存在し、カウンターから離れた位置に複数の第三者Ｈ３が存在する。ただし、Ｈ１とＨ２は会話を行うので、Ｈ１が聴取者となり、Ｈ２が話者となることもある。話者Ｈ１は、例えば薬の説明を行う薬剤師であり、聴取者Ｈ２は薬の説明を聞く患者であり、第三者Ｈ３は順番待ちの患者である。
【００１９】
カウンターの上面にはマイクアレイ１が設置されている。マイクアレイ１は、複数のマイクが配列され、それぞれのマイクは、カウンター周囲の音声を収音する。カウンターの第三者の存在する方向（紙面下方向）には、この第三者に向かって音声を出力するスピーカアレイ２が設置されている。なお、スピーカアレイ２は、机の下等、聴取者Ｈ２にスピーカアレイの出力した音声が聞こえにくいように設置されている。
【００２０】
マイクアレイ１とスピーカアレイ２は、音声処理装置３に接続されている。マイクアレイ１は、配列されている各マイクで話者Ｈ１の音声を収音し、音声処理装置３に出力する。音声処理装置３は、マイクアレイ１の各マイクで収音した話者Ｈ１の音声に基づいて話者Ｈ１の位置を検出する。また、音声処理装置３は、マイクアレイ１の各マイクで収音した話者Ｈ１の音声に基づいて、当該話者Ｈ１の音声をマスクするためのマスカ音を生成し、スピーカアレイ２に出力する。このとき、音声処理装置３は、スピーカアレイ２の各スピーカに供給する音声信号の遅延量を制御することで、第三者Ｈ３が知覚する音源の位置（仮想音源位置）を話者Ｈ１の位置に設定する。これにより、第三者Ｈ３には、話者Ｈ１の音声と、マスカ音が同じ位置から聞こえることになり、カクテルパーティ効果を適切に抑制する。
【００２１】
以下、上記のマスキングシステムを実現するための具体的な構成、動作について説明する。図２は、マイクアレイ１、スピーカアレイ２、および音声処理装置３の構成を示すブロック図である。マイクアレイ１は、７つのマイク１１〜マイク１７を備えている。音声処理装置３は、Ａ／Ｄコンバータ５１〜Ａ／Ｄコンバータ５７、収音信号処理部７１、制御部７２、マスカ音生成部７３、遅延処理部８、Ｄ／Ａコンバータ６１〜Ｄ／Ａコンバータ６８を備えている。スピーカアレイ２は、８つのスピーカ２１〜スピーカ２８を備えている。マイクアレイのマイクの数およびスピーカアレイのスピーカの数は、この例に限るものではない。
【００２２】
Ａ／Ｄコンバータ５１〜Ａ／Ｄコンバータ５７は、それぞれマイク１１〜マイク１７で収音した音声を入力し、デジタル音声信号に変換する。Ａ／Ｄコンバータ５１〜Ａ／Ｄコンバータ５７で変換された各デジタル音声信号は、収音信号処理部７１に入力される。
【００２３】
収音信号処理部７１は、各デジタル音声信号の位相差を検出することで、話者の位置を検出する。図３は、話者位置検出手法の一例を示す図である。同図に示すように、話者Ｈ１が音声を発すると、まず話者Ｈ１に最も近いマイク（同図ではマイク１７）に音声が到達し、時間経過とともにマイク１６から順にマイク１１まで音声が到達する。収音信号処理部７１は、各マイクが収音した音声どうしの相関を求め、同じ音源からの音声が到達したタイミングの差（位相差）を求める。そして、収音信号処理部７１は、この位相差を考慮した仮想的な位置（図中点線で示す丸の位置）にマイクが存在すると仮定し、これら仮想的なマイクの位置から等距離となる位置に音源（話者Ｈ１)が存在するとして話者位置を検出する。検出した音源位置の情報は、制御部７２に出力される。音源位置の情報は、例えばマイクアレイ１の中心位置からの距離および方向（正面方向を０度としたときのずれ角）を示す情報である。
【００２４】
また、収音信号処理部７１は、検出した話者位置から収音した話者音声に係るデジタル音声信号をマスカ音生成部７３に出力する。収音信号処理部７１は、マイクアレイ１のいずれか１つのマイクで収音した音声を出力する態様であってもよいが、上述の位相差を考慮して各マイクが収音したデジタル音声信号を遅延させ、位相をそろえてから合成することで、音源の位置に強い感度（指向性）を有した特性を実現し、この合成後のデジタル音声信号を出力する態様であってもよい。これにより、主として話者音声が高いＳＮ比で収音されることになり、不要ノイズ音やスピーカアレイから出力されたマスカ音の回り込み音が収音されにくくなる。
【００２５】
次に、マスカ音生成部７３は、収音信号処理部７１から入力された話者音声に基づいて、この話者音声をマスクするためのマスカ音を生成する。マスカ音は、どの様な音であってもよいが、聴取者の不快感を抑えたものであることが好ましい。例えば、話者Ｈ１の発話音声を所定時間保持し、時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない（会話内容が理解できない）ようにしたものを用いる。あるいは、男性および女性を含む複数人の音声で、かつ語彙的に何ら意味をなさない汎用的な発話音声を内蔵記憶部（不図示）に記憶しておき、この汎用的な音声のフォルマント等の周波数特性を話者Ｈ１の音声に近似させたものとしてもよい。また、マスカ音には、環境音（川のせせらぎ音等）や演出音（鳥の鳴き声等）が付加されていてもよい。生成されたマスカ音は、遅延処理部８の各ディレイ８１〜ディレイ８８に出力される。
【００２６】
遅延処理部８のディレイ８１〜ディレイ８８は、それぞれスピーカアレイ２のスピーカ２１〜スピーカ２８に対応して設けられており、各スピーカに供給する音声信号の遅延量を個別に変更するものである。ディレイ８１〜ディレイ８８の遅延量は、制御部７２によって制御される。
【００２７】
制御部７２は、ディレイ８１〜ディレイ８８の遅延量を制御することで、所定の位置に仮想音源を設定することができる。図４は、スピーカアレイによる仮想音源定位手法を示す図である。
【００２８】
同図に示すように、制御部７２は、収音信号処理部７１から入力された話者Ｈ１の位置に仮想音源Ｖ１を設定する。仮想音源Ｖ１からスピーカアレイ２の各スピーカまでの距離は、それぞれ異なるが、最も仮想音源Ｖ１に近いスピーカ（同図ではスピーカ２１）から順にマスカ音を出力し、時間経過とともにスピーカ２２から順にスピーカ２８まで音声を出力することで、第三者（聴取者）Ｈ３には、焦点となる仮想音源位置から等距離の位置（図中点線で示すスピーカの位置）にスピーカが存在し、これら仮想的なスピーカの位置から同時にマスカ音が放音されるように知覚させることができる。よって、第三者Ｈ３は、仮想的に話者Ｈ１の位置からマスカ音が発せられたように知覚することになる。なお、同図に示すように話者Ｈ１の位置と仮想音源Ｖ１の位置は、完全に同一とする必要はなく、例えば音の到来方向だけを同一とするようにしてもよい。
【００２９】
なお、制御部７２は、マイクアレイとスピーカアレイが同じ位置に設置されているものと仮定して各スピーカに供給する音声信号の遅延量の設定を行ってもよいが、マイクアレイとスピーカアレイの位置関係を考慮して遅延量の設定を行う方が望ましい。例えば、マイクアレイとスピーカアレイが平行に設置されている場合、制御部２７は、マイクアレイとスピーカアレイの中心位置どうしの距離を入力し、各スピーカアレイのスピーカの位置のずれを補正し、遅延量の計算を行う。
【００３０】
なお、マイクアレイとスピーカアレイの位置関係は、ユーザが操作を行う操作部（不図示）を設け、ユーザからの手動入力を受け付ける態様であってもよいが、例えば、スピーカアレイ２の各スピーカから音声を出力し、マイクアレイ１の各マイクで収音し、到達時間を測定することで求めることもマイクアレイとスピーカアレイの位置関係を検出することが可能である。この場合、例えば図５に示すように、スピーカアレイ２の端部スピーカ２１およびスピーカ２８からそれぞれ測定用音声（インパルス音等）を出力し、マイクアレイ１の端部マイク１１およびマイク１７に測定用音声が収音されるタイミングを測定する態様とする。この場合、マイクアレイ１およびスピーカアレイ２の端部同士の距離を測定することができ、マイクアレイ１およびスピーカアレイ２の設置角度を検出することができる。
【００３１】
なお、スピーカアレイとマイクアレイを一体型とした筐体であれば、スピーカアレイとマイクアレイの位置関係は固定されるため、予め位置関係を記憶しておけば、都度位置関係を入力したり測定したりする必要はない。
【００３２】
次に、図６は、音声処理装置３の動作を示すフローチャートである。音声処理装置３は、初回起動時（電源オン時）にこの動作を開始する。まず、音声処理装置３は、上述のマイクアレイおよびスピーカアレイの位置関係の測定（キャリブレーション）を行う（ｓ１１）。マイクアレイとスピーカアレイが一体型となった筐体である場合、この処理は不要である。
【００３３】
その後、音声処理装置３は、話者音声が収音されるまで待機する（ｓ１２）。例えば、有音と判定できる程度の所定レベル以上の音声が収音されたとき、話者音声が収音されたと判断する。話者音声が収音されず、会話を行っていない場合、マスカ音は不要であるため、マスカ音の生成、定位処理を待機する態様とする。ただし、この処理を省略し、常にマスカ音の生成、定位処理を行う態様としてもよい。
【００３４】
音声処理装置３は、話者音声が収音された場合、収音信号処理部７１によって話者位置の検出を行う（ｓ１３）。話者位置は、上述のようにマイクアレイの各マイクの収音した音声の位相差を検出することで行う。
【００３５】
そして、音声処理装置３は、マスカ音生成部７３によってマスカ音の生成を行う（ｓ１４）。このとき、収音信号処理部７１からマスカ音生成部７３に対し、各マイクの位相をそろえて合成した音声信号（話者位置に指向性を向けたもの）を入力し、話者音声に応じたマスカ音を生成することが望ましい。
【００３６】
なお、マスカ音は、収音した話者音声のレベルに応じて音量が変化する態様であることが望ましい。収音した話者音声のレベルが低い場合、第三者Ｈ３に低いレベルで話者音声が到達し、会話内容を把握し難いため、マスカ音のレベルも低くすることができる。一方で、収音した話者音声のレベルが高い場合、第三者Ｈ３には話者音声が高いレベルで到達し、会話内容を把握しやすいため、マスカ音のレベルも高くするほうが好ましい。
【００３７】
最後に、音声処理装置３は、マスカ音が話者位置に定位するように制御部７２で遅延量の設定を行う（ｓ１５）。
【００３８】
なお、マスカ音生成部７３は、収音信号処理部７１で検出した話者位置が変化したとき、マスカ音のレベルを高くする処理を行うことが望ましい。この場合、収音信号処理部７１は、話者位置が変化したと判断したとき、マスカ音生成部７３にトリガ信号を出力し、マスカ音生成部７３は、トリガ信号を入力したときに一時的にマスカ音のレベルを高く設定する。
【００３９】
話者位置が変化すると、制御部７２による遅延量の計算が終了するまでは、瞬時的に話者位置とマスカ音の仮想音源位置が異なる位置になることが考えられる。この場合、カクテルパーティ効果が発生し、マスク効果が低下する可能性もあるため、一時的にマスカ音の音量を増大させ、マスク効果の低下を防止する態様とする。
【００４０】
以上のようにして、音声処理装置３は、検出した話者位置にマスカ音の仮想音源位置を定位させることにより、第三者Ｈ３には、話者Ｈ１の音声とマスカ音が同じ位置から聞こえることになり、カクテルパーティ効果を適切に抑制することができる。
【００４１】
なお、本実施形態では、マイクアレイの各マイクの位相差を検出することで話者位置を検出する例を示したが、話者位置検出手法はこの例に限るものではない。例えば、話者がＧＰＳ機能付のリモコンを所有し、位置情報を音声処理装置に送信する例であってもよいし、リモコンにマイクを設け、スピーカアレイの複数のスピーカから測定用音声を出力し、音声処理装置が到達時間を測定することで話者位置を検出することも可能である。
【００４２】

ところで、上述の説明では、複数のスピーカを配列してなるスピーカアレイと、複数のマイクを配列してなるマイクアレイを用いた例を示したが、個別のスピーカ及びマイクをそれぞれ所定位置に配置し、マスカ音を生成してもよい。
【００４３】
図７は別の実施形態からなるマスキングシステムの構成を示す図である。図８は図７に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【００４４】
図７に示すように、この態様のマスキングシステムでは、話者Ｈ１Ａ，Ｈ１Ｂ，Ｈ１Ｃが在席する領域に、それぞれが独立の個体からなるマイク１Ａ，１Ｂ，１Ｃが配設されている。マイク１Ａは話者Ｈ１Ａの近傍に配置され、マイク１Ｂは話者Ｈ１Ｂの近傍に配置され、マイク１Ｃは話者Ｈ１Ｃの近傍に配置されている。
【００４５】
スピーカ２Ａはマイク１Ａの近傍に配置され、スピーカ２Ｂはマイク１Ｂの近傍に配置され、スピーカ２Ｃはマイク１Ｃの近傍に配置されている。これらスピーカ２Ａ，２Ｂ，２Ｃは、第三者Ｈ３の在席する領域に向かって放音するように設置されている。
【００４６】
各マイク１Ａ，１Ｂ，１Ｃの収音信号は、上述の実施形態と同様に、Ａ／Ｄコンバータ５１〜Ａ／Ｄコンバータ５３でアナログデジタル変換され、収音信号処理部７１Ａへ入力される。収音信号処理部７１Ａは、各収音信号の音量レベルから発音中の話者に近いマイクを検出し、検出情報を制御部７２Ａへ出力する。
【００４７】
また、収音信号は、マスカ音生成部７３Ａへ与えられ、マスカ音生成部７３Ａは、当該収音収音信号を用いて上述の実施形態に示したようにマスカ音を生成し、音声信号処理部８０１，８０２，８０３へ出力する。
【００４８】
制御部７２Ａには、互いに近接するマイクとスピーカとの対応関係が記憶されている。制御部７２Ａは、収音信号処理部７１Ａで検出されたマイクに対応するスピーカを選択して当該スピーカのみから放音するように、音声信号処理部８０１，８０２，８０３を制御する。具体的には、制御部７２Ａは、話者Ｈ１Ａが発音してマイク１Ａが検出されれば、このマイクに近接するスピーカ２Ａのみからマスカ音が放音されるように、音声信号処理部８０１のみからマスカ音を出力させる。制御部７２Ｂは、話者Ｈ１Ｂが発音してマイク１Ｂが検出されれば、このマイクに近接するスピーカ２Ｂのみからマスカ音が放音されるように音声信号処理部８０２のみからマスカ音を出力させる。制御部７２Ｂは、話者Ｈ１Ｃが発音してマイク１Ｃが検出されれば、このマイクに近接するスピーカ２Ｃのみからマスカ音が放音されるように音声信号処理部８０３のみからマスカ音を出力させる。
【００４９】
図９は図７に示すマスキングシステムでの音声処理装置の動作を示すフローチャートである。
音声処理装置３Ａは、話者音声が収音されるまで待機する（ｓ１０１：Ｎｏ）。なお、収音音声の検出方法は上述の図６に示すフローチャートと同様である。音声処理装置３Ａは、話者音声が検出されると（ｓ１０１：Ｙｅｓ）、各マイク１Ａ，１Ｂ，１Ｃの収音信号を解析して、話者音声を収音したマイクを特定する（ｓ１０２）。
【００５０】
次に、音声処理装置３Ａは、特定したマイクに対応するスピーカを検出する（ｓ１０３）。そして、音声処理装置３Ａは、検出したスピーカのみからマスカ音を放音する（ｓ１０４）。
【００５１】
このような構成および処理を行っても、発音した話者位置の極近傍からマスカ音が放音され、カクテルパーティ効果を適切に抑制することができる。
【００５２】
また、次に示すような構成からなるマスキングシステムを用いてもよい。図１０は、上述の各マスキングシステムとは別の実施形態からなるマスキングシステムの構成を示す図である。図１１は、図１０に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【００５３】
図１１に示すマスキングシステムでは、話者Ｈ１Ａ，Ｈ１Ｂ，Ｈ１Ｃが在席する領域に、マイク１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆが載置されたテーブルが配置されている。
【００５４】
マイク１Ａ，１Ｂ，１Ｃと、マイク１Ｄ，１Ｅ，１Ｆは、それぞれ反対方向を収音方向とするように配置されている。具体的に図１１の例であれば、マイク１Ａ，１Ｂ，１Ｃは話者Ｈ１Ａ，Ｈ１Ｂが在席する側を収音し、マイク１Ｄ，１Ｅ，１Ｆは話者Ｈ１Ｃが在席する側を収音する。
【００５５】
スピーカ２Ａ，２Ｂ，２Ｃ，２Ｄは、話者Ｈ１Ａ，Ｈ１Ｂ，Ｈ１Ｃの在席する領域と、第三者Ｈ３が在席する領域との間に配置されており、配置間隔および位置関係は一定でなくてもよい。
【００５６】
各マイク１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆの収音信号は、上述の実施形態と同様に、Ａ／Ｄコンバータ５１〜Ａ／Ｄコンバータ５６でアナログデジタル変換され、収音信号処理部７１Ｂへ入力される。収音信号処理部７１Ｂは、各収音信号の音量レベルから発音中の話者に近いマイクを検出し、検出情報を制御部７２Ｂへ出力する。
【００５７】
また、収音信号は、マスカ音生成部７３Ｂへ与えられ、マスカ音生成部７３Ｂは、当該収音信号を用いて上述の実施形態に示したようにマスカ音を生成し、音声信号処理部８０１−８０４へ出力する。
【００５８】
制御部７２Ｂには、各マイク１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆと各スピーカ２Ａ，２Ｂ，２Ｃ，２Ｄとの位置関係が記憶されている。この位置関係は、上述の実施形態におけるキャリブレーションを称する処理により実現することができる。
【００５９】
制御部７２Ｂは、収音信号処理部７１Ｂで検出されたマイクに最も近接するスピーカを選択して当該スピーカのみから放音するように、音声信号処理部８０１−８０４を制御する。
【００６０】
このような構成及び処理を行っても、第三者Ｈ３にとって、マスカ音が話者方向から聞こえるようにすることができ、カクテルパーティ効果を適切に抑制することができる。
【００６１】
なお、制御部７２Ｂは、各スピーカ２Ａ，２Ｂ，２Ｃ，２Ｄからの放音レベルを、各スピーカ２Ａ，２Ｂ，２Ｃ，２Ｄと各マイク１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆとの距離を用いて決定し、音声信号処理部８０１−８０４のゲインを調整する制御を行ってもよい。
【００６２】
この場合、収音信号処理部７１Ｂは、各マイク１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆの収音信号のレベルを検出し、制御部７２Ｂへ出力する。
【００６３】
制御部７２Ｂは、各マイク１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆと各スピーカ２Ａ，２Ｂ，２Ｃ，２Ｄとのそれぞれの距離を予め計測しておく。これは、上述のキャリブレーションの処理で実現できる。
【００６４】
次に、制御部７２Ｂは、各マイク１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆと各スピーカ２Ａ，２Ｂ，２Ｃ，２Ｄと個別の組合せ毎に、距離の逆数からなる係数を算出し、マイクとスピーカとの組毎に記憶しておく。例えば、スピーカ２Ａとマイク１Ａとの組であれば係数Ａ１１とし、スピーカ２Ｄとマイク１Ｅとの組であれば係数Ａ４５として記憶しておく。これにより、次に示す５×４の係数行列Ａを設定する。なお、係数は、距離の自乗の逆数等から算出してもよく、距離が遠くなるほど係数値が低くなるように設定すればよい。
【００６５】
【数１】

【００６６】
そして、制御部７２Ｂは、各マイク１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆの収音信号レベルを、Ｓｓ＝（Ｓｓ１，Ｓｓ２，Ｓｓ３，Ｓｓ４，Ｓｓ５）^Ｔの収音信号レベル列として取得する。ここで、Ｓｓ１はマイク１Ａの収音信号レベルであり、Ｓｓ２はマイク１Ｂの収音信号レベルであり、Ｓｓ３はマイク１Ｃの収音信号レベルであり、Ｓｓ４はマイク１Ｄの収音信号レベルであり、Ｓｓ５はマイク１Ｅの収音信号レベルである。
【００６７】
制御部７２Ｂは、収音信号レベル列Ｓｓに対して、次式のように係数行列Ａに乗算することで、ゲイン列Ｇ＝（Ｇａ，Ｇｂ，Ｇｃ，Ｇｄ）を算出する。ここで、Ｇａはスピーカ２Ａに対するゲインであり、Ｇｂはスピーカ２Ｂに対するゲインであり、Ｇｃはスピーカ２Ｃに対するゲインであり、Ｇｄはスピーカ２Ｄに対するゲインである。
【００６８】
【数２】

【００６９】
このような処理を行うことで、各スピーカ２Ａ，２Ｂ，２Ｃ，２Ｄから放音されたマスカ音は、第三者Ｈ３にとって、話者位置方向から到来したように聞こえる。これにより、カクテルパーティ効果を適切に抑制することができる。
【００７０】
なお、上述の各音声処理装置は、本実施形態に示したマスキングシステムに専用の装置でなくとも、一般的なパーソナルコンピュータ等の情報処理装置のハードウェアおよびソフトウェアを用いて実現可能である。
【符号の説明】
【００７１】
Ｈ１…話者
Ｈ２…聴取者
Ｈ３…第三者
１…マイクアレイ、１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆ…マイク
２…スピーカアレイ、２Ａ，２Ｂ，２Ｃ，２Ｄ…スピーカ
３，３Ａ，３Ｂ…音声処理装置

【特許請求の範囲】
【請求項１】
話者の位置を検出する話者位置検出手段と、
マスカ音を生成するマスカ音生成部と
前記マスカ音を出力する複数のスピーカと、
前記話者位置検出部が検出した話者の位置が前記マスカ音の仮想音源位置となるように定位位置を制御し、前記複数のスピーカの少なくとも一つにマスカ音に係る音声信号を供給する定位制御部と、
を備えた音声出力装置。
【請求項２】
前記定位制御部は、前記話者位置検出部が検出した話者の位置に前記マスカ音の定位位置を設定する請求項１に記載の音声出力装置。
【請求項３】
音声を収音する複数のマイクが配列されたマイクアレイを備え、
前記話者位置検出部は、前記複数のマイクで収音した音声の位相差から話者の位置を検出する請求項１または請求項２に記載の音声出力装置。
【請求項４】
前記マスカ音生成部は、前記話者位置検出部が検出した話者の位置が変化した場合、前記マスカ音のレベルを高く設定する請求項１〜３のいずれかに記載の音声出力装置。
【請求項５】
前記話者位置検出手段は、最も収音音声の大きなマイクの位置を話者位置に設定し、
前記定位制御部は、該最も収音音声の大きなマイクに最も近いスピーカへ前記マスカ音に係る音声信号を供給する、請求項１に記載の音声出力装置。
【請求項６】
音声を収音する複数のマイクと、
マスカ音を生成するマスカ音生成部と、
前記マスカ音に係る音声信号が供給され、前記マスカ音を放音する複数のスピーカと、
前記複数のスピーカに供給する前記マスカ音に係る音声信号のゲインを制御する定位制御部と、を備え、
該定位制御部は、前記複数のマイクの収音信号のレベルに対して、前記複数のマイクと前記複数のスピーカとの距離が遠くなるほど値が小さくなるゲイン設定係数を乗算することで、前記複数のスピーカに供給する前記マスカ音に係る音声信号のゲインを調整する、音声出力装置。

【図１】