音声出力装置
【課題】カクテルパーティ効果を適切に抑制することができる音声出力装置を提供する。
【解決手段】マイクアレイ1は、話者H1の音声を収音し、音声処理装置3に出力する。音声処理装置3は、マイクアレイ1の各マイクで収音した話者H1の音声に基づいて話者H1の位置を検出する。また、音声処理装置3は、マイクアレイ1の各マイクで収音した話者H1の音声に基づいて、当該話者H1の音声をマスクするためのマスカ音を生成し、スピーカアレイ2に出力する。このとき、音声処理装置3は、スピーカアレイ2の各スピーカに供給する音声信号の遅延量を制御することで、第三者H3が知覚する音源の位置(仮想音源位置)を話者H1の位置に設定する。
【解決手段】マイクアレイ1は、話者H1の音声を収音し、音声処理装置3に出力する。音声処理装置3は、マイクアレイ1の各マイクで収音した話者H1の音声に基づいて話者H1の位置を検出する。また、音声処理装置3は、マイクアレイ1の各マイクで収音した話者H1の音声に基づいて、当該話者H1の音声をマスクするためのマスカ音を生成し、スピーカアレイ2に出力する。このとき、音声処理装置3は、スピーカアレイ2の各スピーカに供給する音声信号の遅延量を制御することで、第三者H3が知覚する音源の位置(仮想音源位置)を話者H1の位置に設定する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、マスカ音を出力する音声出力装置に関するものである。
【背景技術】
【0002】
従来、オフィス等において、パーティションにスピーカを取り付け、話者の音声と関連性の低い音声をマスカ音として出力することにより、近接する他の空間に存在する人に話者の音声を聞き取り難くしたものが提案されている(例えば、特許文献1参照)。これにより、話者の発言内容を理解し難くなくなるため、話者のプライバシーを保つことができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平06−175666号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1の方式では、マスカ音と話者の音声が別の位置から聞こえてくるため、いわゆるカクテルパーティ効果により、聴取者が話者の音声を聞き分けて発言内容を理解してしまうおそれがある。
【0005】
そこで、本発明は、カクテルパーティ効果を適切に抑制することができる音声出力装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
この発明の音声出力装置は、話者の位置を検出する話者位置検出手段と、マスカ音を生成するマスカ音生成部と、マスカ音を出力する複数のスピーカと、話者位置検出部が検出した話者がマスカ音の仮想音源位置となるように定位位置を制御し、複数のスピーカの少なくとも一つにマスカ音に係る音声信号を供給する定位制御部と、を備えたことを特徴とする。
【0007】
具体的には、定位制御部は、第三者からみて話者と同じ方向からマスカ音が到来するように、マスカ音の定位位置を設定する。より好ましくは、定位制御部は、話者位置検出部が検出した話者の位置とマスカ音の定位位置を同じ位置に設定する。これにより、マスカ音と話者の音声が別の位置から聞こえることがなくなり、カクテルパーティ効果を適切に抑制することができる。
【0008】
なお、話者位置の検出手法はどの様なものであってもよいが、例えば音声を収音する複数のマイクが配列されたマイクアレイを備え、各マイクで収音した音声の位相差を検出すれば高精度に話者の位置を検出することが考えられる。
【0009】
この場合、定位制御部は、スピーカアレイとマイクアレイの位置関係を考慮してマスカ音の定位位置を制御することが望ましい。位置関係は、ユーザによる手動入力であってもよいし、例えば各スピーカから出力した音声をマイクで収音し、到達時間を測定することで求めることも可能である。
【0010】
なお、スピーカアレイとマイクアレイを一体型とした筐体であれば、スピーカアレイとマイクアレイの位置関係は固定されるため、予め測定した位置関係を記憶しておけば、都度位置関係を入力したり測定したりする必要はない。
【0011】
また、マスカ音生成部は、話者位置検出部が検出した話者の位置が変化した場合、マスカ音のレベルを高く設定することが望ましい。話者位置が変化すると、瞬時的に話者位置とマスカ音の定位位置が異なる位置になることが考えられる。この場合、カクテルパーティ効果が発生し、マスク効果が低下する可能性もあるため、一時的にマスカ音の音量を増大させ、マスク効果の低下を防止する態様とする。
【0012】
なお、話者位置検出手段で最も収音音声の大きなマイクの位置を話者位置に設定し、定位制御部で該最も収音音声の大きなマイクに最も近いスピーカへマスカ音に係る音声信号を供給するようにしてもよい。
【0013】
また、この発明の音声出力装置は、音声を収音する複数のマイクと、マスカ音を生成するマスカ音生成部と、マスカ音に係る音声信号が供給され、マスカ音を放音する複数のスピーカと、複数のスピーカに供給する前記マスカ音に係る音声信号のゲインを制御する定位制御部と、を備える。定位制御部は、複数のマイクの収音信号のレベルに対して複数のマイクと複数のスピーカとの距離が遠くなるほど値が小さくなるゲイン設定係数を乗算することで、複数のスピーカに供給するマスカ音に係る音声信号のゲインを調整する。
【0014】
このような構成とすることで、話者位置を検出しなくても、複数のマイクと複数のスピーカの位置関係と各マイクの収音信号のレベルのみで話者位置方向からマスカ音が聞こえるようにマスカ音を放音することができる。
【発明の効果】
【0015】
この発明によれば、マスカ音と話者の音声が同じ方向から聞こえるため、カクテルパーティ効果を適切に抑制することができる。
【図面の簡単な説明】
【0016】
【図1】マスキングシステムの構成を示すブロック図である。
【図2】マイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【図3】マイクアレイによる話者位置検出手法を示す図である。
【図4】スピーカアレイによる仮想音源定位手法を示す図である。
【図5】スピーカアレイとマイクアレイの位置関係を示す図である。
【図6】音声処理装置の動作を示すフローチャートである。
【図7】別の実施形態からなるマスキングシステムの構成を示す図である。
【図8】図7に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【図9】図7に示すマスキングシステムでの音声処理装置の動作を示すフローチャートである。
【図10】また別の実施形態からなるマスキングシステムの構成を示す図である。
【図11】図10に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【発明を実施するための形態】
【0017】
図1は、本発明の音声出力装置を備えたマスキングシステムの構成を示すブロック図である。マスキングシステムは、例えば銀行や調剤薬局等の対話カウンターに設置され、カウンターを挟んで会話を行う者の発言内容を第三者に理解できないようにするマスカ音を当該第三者に対して放音するものである。
【0018】
図1においては、カウンターを挟んで話者H1と聴取者H2が存在し、カウンターから離れた位置に複数の第三者H3が存在する。ただし、H1とH2は会話を行うので、H1が聴取者となり、H2が話者となることもある。話者H1は、例えば薬の説明を行う薬剤師であり、聴取者H2は薬の説明を聞く患者であり、第三者H3は順番待ちの患者である。
【0019】
カウンターの上面にはマイクアレイ1が設置されている。マイクアレイ1は、複数のマイクが配列され、それぞれのマイクは、カウンター周囲の音声を収音する。カウンターの第三者の存在する方向(紙面下方向)には、この第三者に向かって音声を出力するスピーカアレイ2が設置されている。なお、スピーカアレイ2は、机の下等、聴取者H2にスピーカアレイの出力した音声が聞こえにくいように設置されている。
【0020】
マイクアレイ1とスピーカアレイ2は、音声処理装置3に接続されている。マイクアレイ1は、配列されている各マイクで話者H1の音声を収音し、音声処理装置3に出力する。音声処理装置3は、マイクアレイ1の各マイクで収音した話者H1の音声に基づいて話者H1の位置を検出する。また、音声処理装置3は、マイクアレイ1の各マイクで収音した話者H1の音声に基づいて、当該話者H1の音声をマスクするためのマスカ音を生成し、スピーカアレイ2に出力する。このとき、音声処理装置3は、スピーカアレイ2の各スピーカに供給する音声信号の遅延量を制御することで、第三者H3が知覚する音源の位置(仮想音源位置)を話者H1の位置に設定する。これにより、第三者H3には、話者H1の音声と、マスカ音が同じ位置から聞こえることになり、カクテルパーティ効果を適切に抑制する。
【0021】
以下、上記のマスキングシステムを実現するための具体的な構成、動作について説明する。図2は、マイクアレイ1、スピーカアレイ2、および音声処理装置3の構成を示すブロック図である。マイクアレイ1は、7つのマイク11〜マイク17を備えている。音声処理装置3は、A/Dコンバータ51〜A/Dコンバータ57、収音信号処理部71、制御部72、マスカ音生成部73、遅延処理部8、D/Aコンバータ61〜D/Aコンバータ68を備えている。スピーカアレイ2は、8つのスピーカ21〜スピーカ28を備えている。マイクアレイのマイクの数およびスピーカアレイのスピーカの数は、この例に限るものではない。
【0022】
A/Dコンバータ51〜A/Dコンバータ57は、それぞれマイク11〜マイク17で収音した音声を入力し、デジタル音声信号に変換する。A/Dコンバータ51〜A/Dコンバータ57で変換された各デジタル音声信号は、収音信号処理部71に入力される。
【0023】
収音信号処理部71は、各デジタル音声信号の位相差を検出することで、話者の位置を検出する。図3は、話者位置検出手法の一例を示す図である。同図に示すように、話者H1が音声を発すると、まず話者H1に最も近いマイク(同図ではマイク17)に音声が到達し、時間経過とともにマイク16から順にマイク11まで音声が到達する。収音信号処理部71は、各マイクが収音した音声どうしの相関を求め、同じ音源からの音声が到達したタイミングの差(位相差)を求める。そして、収音信号処理部71は、この位相差を考慮した仮想的な位置(図中点線で示す丸の位置)にマイクが存在すると仮定し、これら仮想的なマイクの位置から等距離となる位置に音源(話者H1)が存在するとして話者位置を検出する。検出した音源位置の情報は、制御部72に出力される。音源位置の情報は、例えばマイクアレイ1の中心位置からの距離および方向(正面方向を0度としたときのずれ角)を示す情報である。
【0024】
また、収音信号処理部71は、検出した話者位置から収音した話者音声に係るデジタル音声信号をマスカ音生成部73に出力する。収音信号処理部71は、マイクアレイ1のいずれか1つのマイクで収音した音声を出力する態様であってもよいが、上述の位相差を考慮して各マイクが収音したデジタル音声信号を遅延させ、位相をそろえてから合成することで、音源の位置に強い感度(指向性)を有した特性を実現し、この合成後のデジタル音声信号を出力する態様であってもよい。これにより、主として話者音声が高いSN比で収音されることになり、不要ノイズ音やスピーカアレイから出力されたマスカ音の回り込み音が収音されにくくなる。
【0025】
次に、マスカ音生成部73は、収音信号処理部71から入力された話者音声に基づいて、この話者音声をマスクするためのマスカ音を生成する。マスカ音は、どの様な音であってもよいが、聴取者の不快感を抑えたものであることが好ましい。例えば、話者H1の発話音声を所定時間保持し、時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない(会話内容が理解できない)ようにしたものを用いる。あるいは、男性および女性を含む複数人の音声で、かつ語彙的に何ら意味をなさない汎用的な発話音声を内蔵記憶部(不図示)に記憶しておき、この汎用的な音声のフォルマント等の周波数特性を話者H1の音声に近似させたものとしてもよい。また、マスカ音には、環境音(川のせせらぎ音等)や演出音(鳥の鳴き声等)が付加されていてもよい。生成されたマスカ音は、遅延処理部8の各ディレイ81〜ディレイ88に出力される。
【0026】
遅延処理部8のディレイ81〜ディレイ88は、それぞれスピーカアレイ2のスピーカ21〜スピーカ28に対応して設けられており、各スピーカに供給する音声信号の遅延量を個別に変更するものである。ディレイ81〜ディレイ88の遅延量は、制御部72によって制御される。
【0027】
制御部72は、ディレイ81〜ディレイ88の遅延量を制御することで、所定の位置に仮想音源を設定することができる。図4は、スピーカアレイによる仮想音源定位手法を示す図である。
【0028】
同図に示すように、制御部72は、収音信号処理部71から入力された話者H1の位置に仮想音源V1を設定する。仮想音源V1からスピーカアレイ2の各スピーカまでの距離は、それぞれ異なるが、最も仮想音源V1に近いスピーカ(同図ではスピーカ21)から順にマスカ音を出力し、時間経過とともにスピーカ22から順にスピーカ28まで音声を出力することで、第三者(聴取者)H3には、焦点となる仮想音源位置から等距離の位置(図中点線で示すスピーカの位置)にスピーカが存在し、これら仮想的なスピーカの位置から同時にマスカ音が放音されるように知覚させることができる。よって、第三者H3は、仮想的に話者H1の位置からマスカ音が発せられたように知覚することになる。なお、同図に示すように話者H1の位置と仮想音源V1の位置は、完全に同一とする必要はなく、例えば音の到来方向だけを同一とするようにしてもよい。
【0029】
なお、制御部72は、マイクアレイとスピーカアレイが同じ位置に設置されているものと仮定して各スピーカに供給する音声信号の遅延量の設定を行ってもよいが、マイクアレイとスピーカアレイの位置関係を考慮して遅延量の設定を行う方が望ましい。例えば、マイクアレイとスピーカアレイが平行に設置されている場合、制御部27は、マイクアレイとスピーカアレイの中心位置どうしの距離を入力し、各スピーカアレイのスピーカの位置のずれを補正し、遅延量の計算を行う。
【0030】
なお、マイクアレイとスピーカアレイの位置関係は、ユーザが操作を行う操作部(不図示)を設け、ユーザからの手動入力を受け付ける態様であってもよいが、例えば、スピーカアレイ2の各スピーカから音声を出力し、マイクアレイ1の各マイクで収音し、到達時間を測定することで求めることもマイクアレイとスピーカアレイの位置関係を検出することが可能である。この場合、例えば図5に示すように、スピーカアレイ2の端部スピーカ21およびスピーカ28からそれぞれ測定用音声(インパルス音等)を出力し、マイクアレイ1の端部マイク11およびマイク17に測定用音声が収音されるタイミングを測定する態様とする。この場合、マイクアレイ1およびスピーカアレイ2の端部同士の距離を測定することができ、マイクアレイ1およびスピーカアレイ2の設置角度を検出することができる。
【0031】
なお、スピーカアレイとマイクアレイを一体型とした筐体であれば、スピーカアレイとマイクアレイの位置関係は固定されるため、予め位置関係を記憶しておけば、都度位置関係を入力したり測定したりする必要はない。
【0032】
次に、図6は、音声処理装置3の動作を示すフローチャートである。音声処理装置3は、初回起動時(電源オン時)にこの動作を開始する。まず、音声処理装置3は、上述のマイクアレイおよびスピーカアレイの位置関係の測定(キャリブレーション)を行う(s11)。マイクアレイとスピーカアレイが一体型となった筐体である場合、この処理は不要である。
【0033】
その後、音声処理装置3は、話者音声が収音されるまで待機する(s12)。例えば、有音と判定できる程度の所定レベル以上の音声が収音されたとき、話者音声が収音されたと判断する。話者音声が収音されず、会話を行っていない場合、マスカ音は不要であるため、マスカ音の生成、定位処理を待機する態様とする。ただし、この処理を省略し、常にマスカ音の生成、定位処理を行う態様としてもよい。
【0034】
音声処理装置3は、話者音声が収音された場合、収音信号処理部71によって話者位置の検出を行う(s13)。話者位置は、上述のようにマイクアレイの各マイクの収音した音声の位相差を検出することで行う。
【0035】
そして、音声処理装置3は、マスカ音生成部73によってマスカ音の生成を行う(s14)。このとき、収音信号処理部71からマスカ音生成部73に対し、各マイクの位相をそろえて合成した音声信号(話者位置に指向性を向けたもの)を入力し、話者音声に応じたマスカ音を生成することが望ましい。
【0036】
なお、マスカ音は、収音した話者音声のレベルに応じて音量が変化する態様であることが望ましい。収音した話者音声のレベルが低い場合、第三者H3に低いレベルで話者音声が到達し、会話内容を把握し難いため、マスカ音のレベルも低くすることができる。一方で、収音した話者音声のレベルが高い場合、第三者H3には話者音声が高いレベルで到達し、会話内容を把握しやすいため、マスカ音のレベルも高くするほうが好ましい。
【0037】
最後に、音声処理装置3は、マスカ音が話者位置に定位するように制御部72で遅延量の設定を行う(s15)。
【0038】
なお、マスカ音生成部73は、収音信号処理部71で検出した話者位置が変化したとき、マスカ音のレベルを高くする処理を行うことが望ましい。この場合、収音信号処理部71は、話者位置が変化したと判断したとき、マスカ音生成部73にトリガ信号を出力し、マスカ音生成部73は、トリガ信号を入力したときに一時的にマスカ音のレベルを高く設定する。
【0039】
話者位置が変化すると、制御部72による遅延量の計算が終了するまでは、瞬時的に話者位置とマスカ音の仮想音源位置が異なる位置になることが考えられる。この場合、カクテルパーティ効果が発生し、マスク効果が低下する可能性もあるため、一時的にマスカ音の音量を増大させ、マスク効果の低下を防止する態様とする。
【0040】
以上のようにして、音声処理装置3は、検出した話者位置にマスカ音の仮想音源位置を定位させることにより、第三者H3には、話者H1の音声とマスカ音が同じ位置から聞こえることになり、カクテルパーティ効果を適切に抑制することができる。
【0041】
なお、本実施形態では、マイクアレイの各マイクの位相差を検出することで話者位置を検出する例を示したが、話者位置検出手法はこの例に限るものではない。例えば、話者がGPS機能付のリモコンを所有し、位置情報を音声処理装置に送信する例であってもよいし、リモコンにマイクを設け、スピーカアレイの複数のスピーカから測定用音声を出力し、音声処理装置が到達時間を測定することで話者位置を検出することも可能である。
【0042】
ところで、上述の説明では、複数のスピーカを配列してなるスピーカアレイと、複数のマイクを配列してなるマイクアレイを用いた例を示したが、個別のスピーカ及びマイクをそれぞれ所定位置に配置し、マスカ音を生成してもよい。
【0043】
図7は別の実施形態からなるマスキングシステムの構成を示す図である。図8は図7に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【0044】
図7に示すように、この態様のマスキングシステムでは、話者H1A,H1B,H1Cが在席する領域に、それぞれが独立の個体からなるマイク1A,1B,1Cが配設されている。マイク1Aは話者H1Aの近傍に配置され、マイク1Bは話者H1Bの近傍に配置され、マイク1Cは話者H1Cの近傍に配置されている。
【0045】
スピーカ2Aはマイク1Aの近傍に配置され、スピーカ2Bはマイク1Bの近傍に配置され、スピーカ2Cはマイク1Cの近傍に配置されている。これらスピーカ2A,2B,2Cは、第三者H3の在席する領域に向かって放音するように設置されている。
【0046】
各マイク1A,1B,1Cの収音信号は、上述の実施形態と同様に、A/Dコンバータ51〜A/Dコンバータ53でアナログデジタル変換され、収音信号処理部71Aへ入力される。収音信号処理部71Aは、各収音信号の音量レベルから発音中の話者に近いマイクを検出し、検出情報を制御部72Aへ出力する。
【0047】
また、収音信号は、マスカ音生成部73Aへ与えられ、マスカ音生成部73Aは、当該収音収音信号を用いて上述の実施形態に示したようにマスカ音を生成し、音声信号処理部801,802,803へ出力する。
【0048】
制御部72Aには、互いに近接するマイクとスピーカとの対応関係が記憶されている。制御部72Aは、収音信号処理部71Aで検出されたマイクに対応するスピーカを選択して当該スピーカのみから放音するように、音声信号処理部801,802,803を制御する。具体的には、制御部72Aは、話者H1Aが発音してマイク1Aが検出されれば、このマイクに近接するスピーカ2Aのみからマスカ音が放音されるように、音声信号処理部801のみからマスカ音を出力させる。制御部72Bは、話者H1Bが発音してマイク1Bが検出されれば、このマイクに近接するスピーカ2Bのみからマスカ音が放音されるように音声信号処理部802のみからマスカ音を出力させる。制御部72Bは、話者H1Cが発音してマイク1Cが検出されれば、このマイクに近接するスピーカ2Cのみからマスカ音が放音されるように音声信号処理部803のみからマスカ音を出力させる。
【0049】
図9は図7に示すマスキングシステムでの音声処理装置の動作を示すフローチャートである。
音声処理装置3Aは、話者音声が収音されるまで待機する(s101:No)。なお、収音音声の検出方法は上述の図6に示すフローチャートと同様である。音声処理装置3Aは、話者音声が検出されると(s101:Yes)、各マイク1A,1B,1Cの収音信号を解析して、話者音声を収音したマイクを特定する(s102)。
【0050】
次に、音声処理装置3Aは、特定したマイクに対応するスピーカを検出する(s103)。そして、音声処理装置3Aは、検出したスピーカのみからマスカ音を放音する(s104)。
【0051】
このような構成および処理を行っても、発音した話者位置の極近傍からマスカ音が放音され、カクテルパーティ効果を適切に抑制することができる。
【0052】
また、次に示すような構成からなるマスキングシステムを用いてもよい。図10は、上述の各マスキングシステムとは別の実施形態からなるマスキングシステムの構成を示す図である。図11は、図10に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【0053】
図11に示すマスキングシステムでは、話者H1A,H1B,H1Cが在席する領域に、マイク1A,1B,1C,1D,1E,1Fが載置されたテーブルが配置されている。
【0054】
マイク1A,1B,1Cと、マイク1D,1E,1Fは、それぞれ反対方向を収音方向とするように配置されている。具体的に図11の例であれば、マイク1A,1B,1Cは話者H1A,H1Bが在席する側を収音し、マイク1D,1E,1Fは話者H1Cが在席する側を収音する。
【0055】
スピーカ2A,2B,2C,2Dは、話者H1A,H1B,H1Cの在席する領域と、第三者H3が在席する領域との間に配置されており、配置間隔および位置関係は一定でなくてもよい。
【0056】
各マイク1A,1B,1C,1D,1E,1Fの収音信号は、上述の実施形態と同様に、A/Dコンバータ51〜A/Dコンバータ56でアナログデジタル変換され、収音信号処理部71Bへ入力される。収音信号処理部71Bは、各収音信号の音量レベルから発音中の話者に近いマイクを検出し、検出情報を制御部72Bへ出力する。
【0057】
また、収音信号は、マスカ音生成部73Bへ与えられ、マスカ音生成部73Bは、当該収音信号を用いて上述の実施形態に示したようにマスカ音を生成し、音声信号処理部801−804へ出力する。
【0058】
制御部72Bには、各マイク1A,1B,1C,1D,1E,1Fと各スピーカ2A,2B,2C,2Dとの位置関係が記憶されている。この位置関係は、上述の実施形態におけるキャリブレーションを称する処理により実現することができる。
【0059】
制御部72Bは、収音信号処理部71Bで検出されたマイクに最も近接するスピーカを選択して当該スピーカのみから放音するように、音声信号処理部801−804を制御する。
【0060】
このような構成及び処理を行っても、第三者H3にとって、マスカ音が話者方向から聞こえるようにすることができ、カクテルパーティ効果を適切に抑制することができる。
【0061】
なお、制御部72Bは、各スピーカ2A,2B,2C,2Dからの放音レベルを、各スピーカ2A,2B,2C,2Dと各マイク1A,1B,1C,1D,1E,1Fとの距離を用いて決定し、音声信号処理部801−804のゲインを調整する制御を行ってもよい。
【0062】
この場合、収音信号処理部71Bは、各マイク1A,1B,1C,1D,1E,1Fの収音信号のレベルを検出し、制御部72Bへ出力する。
【0063】
制御部72Bは、各マイク1A,1B,1C,1D,1E,1Fと各スピーカ2A,2B,2C,2Dとのそれぞれの距離を予め計測しておく。これは、上述のキャリブレーションの処理で実現できる。
【0064】
次に、制御部72Bは、各マイク1A,1B,1C,1D,1E,1Fと各スピーカ2A,2B,2C,2Dと個別の組合せ毎に、距離の逆数からなる係数を算出し、マイクとスピーカとの組毎に記憶しておく。例えば、スピーカ2Aとマイク1Aとの組であれば係数A11とし、スピーカ2Dとマイク1Eとの組であれば係数A45として記憶しておく。これにより、次に示す5×4の係数行列Aを設定する。なお、係数は、距離の自乗の逆数等から算出してもよく、距離が遠くなるほど係数値が低くなるように設定すればよい。
【0065】
【数1】
【0066】
そして、制御部72Bは、各マイク1A,1B,1C,1D,1E,1Fの収音信号レベルを、Ss=(Ss1,Ss2,Ss3,Ss4,Ss5)Tの収音信号レベル列として取得する。ここで、Ss1はマイク1Aの収音信号レベルであり、Ss2はマイク1Bの収音信号レベルであり、Ss3はマイク1Cの収音信号レベルであり、Ss4はマイク1Dの収音信号レベルであり、Ss5はマイク1Eの収音信号レベルである。
【0067】
制御部72Bは、収音信号レベル列Ssに対して、次式のように係数行列Aに乗算することで、ゲイン列G=(Ga,Gb,Gc,Gd)を算出する。ここで、Gaはスピーカ2Aに対するゲインであり、Gbはスピーカ2Bに対するゲインであり、Gcはスピーカ2Cに対するゲインであり、Gdはスピーカ2Dに対するゲインである。
【0068】
【数2】
【0069】
このような処理を行うことで、各スピーカ2A,2B,2C,2Dから放音されたマスカ音は、第三者H3にとって、話者位置方向から到来したように聞こえる。これにより、カクテルパーティ効果を適切に抑制することができる。
【0070】
なお、上述の各音声処理装置は、本実施形態に示したマスキングシステムに専用の装置でなくとも、一般的なパーソナルコンピュータ等の情報処理装置のハードウェアおよびソフトウェアを用いて実現可能である。
【符号の説明】
【0071】
H1…話者
H2…聴取者
H3…第三者
1…マイクアレイ、1A,1B,1C,1D,1E,1F…マイク
2…スピーカアレイ、2A,2B,2C,2D…スピーカ
3,3A,3B…音声処理装置
【技術分野】
【0001】
この発明は、マスカ音を出力する音声出力装置に関するものである。
【背景技術】
【0002】
従来、オフィス等において、パーティションにスピーカを取り付け、話者の音声と関連性の低い音声をマスカ音として出力することにより、近接する他の空間に存在する人に話者の音声を聞き取り難くしたものが提案されている(例えば、特許文献1参照)。これにより、話者の発言内容を理解し難くなくなるため、話者のプライバシーを保つことができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平06−175666号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1の方式では、マスカ音と話者の音声が別の位置から聞こえてくるため、いわゆるカクテルパーティ効果により、聴取者が話者の音声を聞き分けて発言内容を理解してしまうおそれがある。
【0005】
そこで、本発明は、カクテルパーティ効果を適切に抑制することができる音声出力装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
この発明の音声出力装置は、話者の位置を検出する話者位置検出手段と、マスカ音を生成するマスカ音生成部と、マスカ音を出力する複数のスピーカと、話者位置検出部が検出した話者がマスカ音の仮想音源位置となるように定位位置を制御し、複数のスピーカの少なくとも一つにマスカ音に係る音声信号を供給する定位制御部と、を備えたことを特徴とする。
【0007】
具体的には、定位制御部は、第三者からみて話者と同じ方向からマスカ音が到来するように、マスカ音の定位位置を設定する。より好ましくは、定位制御部は、話者位置検出部が検出した話者の位置とマスカ音の定位位置を同じ位置に設定する。これにより、マスカ音と話者の音声が別の位置から聞こえることがなくなり、カクテルパーティ効果を適切に抑制することができる。
【0008】
なお、話者位置の検出手法はどの様なものであってもよいが、例えば音声を収音する複数のマイクが配列されたマイクアレイを備え、各マイクで収音した音声の位相差を検出すれば高精度に話者の位置を検出することが考えられる。
【0009】
この場合、定位制御部は、スピーカアレイとマイクアレイの位置関係を考慮してマスカ音の定位位置を制御することが望ましい。位置関係は、ユーザによる手動入力であってもよいし、例えば各スピーカから出力した音声をマイクで収音し、到達時間を測定することで求めることも可能である。
【0010】
なお、スピーカアレイとマイクアレイを一体型とした筐体であれば、スピーカアレイとマイクアレイの位置関係は固定されるため、予め測定した位置関係を記憶しておけば、都度位置関係を入力したり測定したりする必要はない。
【0011】
また、マスカ音生成部は、話者位置検出部が検出した話者の位置が変化した場合、マスカ音のレベルを高く設定することが望ましい。話者位置が変化すると、瞬時的に話者位置とマスカ音の定位位置が異なる位置になることが考えられる。この場合、カクテルパーティ効果が発生し、マスク効果が低下する可能性もあるため、一時的にマスカ音の音量を増大させ、マスク効果の低下を防止する態様とする。
【0012】
なお、話者位置検出手段で最も収音音声の大きなマイクの位置を話者位置に設定し、定位制御部で該最も収音音声の大きなマイクに最も近いスピーカへマスカ音に係る音声信号を供給するようにしてもよい。
【0013】
また、この発明の音声出力装置は、音声を収音する複数のマイクと、マスカ音を生成するマスカ音生成部と、マスカ音に係る音声信号が供給され、マスカ音を放音する複数のスピーカと、複数のスピーカに供給する前記マスカ音に係る音声信号のゲインを制御する定位制御部と、を備える。定位制御部は、複数のマイクの収音信号のレベルに対して複数のマイクと複数のスピーカとの距離が遠くなるほど値が小さくなるゲイン設定係数を乗算することで、複数のスピーカに供給するマスカ音に係る音声信号のゲインを調整する。
【0014】
このような構成とすることで、話者位置を検出しなくても、複数のマイクと複数のスピーカの位置関係と各マイクの収音信号のレベルのみで話者位置方向からマスカ音が聞こえるようにマスカ音を放音することができる。
【発明の効果】
【0015】
この発明によれば、マスカ音と話者の音声が同じ方向から聞こえるため、カクテルパーティ効果を適切に抑制することができる。
【図面の簡単な説明】
【0016】
【図1】マスキングシステムの構成を示すブロック図である。
【図2】マイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【図3】マイクアレイによる話者位置検出手法を示す図である。
【図4】スピーカアレイによる仮想音源定位手法を示す図である。
【図5】スピーカアレイとマイクアレイの位置関係を示す図である。
【図6】音声処理装置の動作を示すフローチャートである。
【図7】別の実施形態からなるマスキングシステムの構成を示す図である。
【図8】図7に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【図9】図7に示すマスキングシステムでの音声処理装置の動作を示すフローチャートである。
【図10】また別の実施形態からなるマスキングシステムの構成を示す図である。
【図11】図10に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【発明を実施するための形態】
【0017】
図1は、本発明の音声出力装置を備えたマスキングシステムの構成を示すブロック図である。マスキングシステムは、例えば銀行や調剤薬局等の対話カウンターに設置され、カウンターを挟んで会話を行う者の発言内容を第三者に理解できないようにするマスカ音を当該第三者に対して放音するものである。
【0018】
図1においては、カウンターを挟んで話者H1と聴取者H2が存在し、カウンターから離れた位置に複数の第三者H3が存在する。ただし、H1とH2は会話を行うので、H1が聴取者となり、H2が話者となることもある。話者H1は、例えば薬の説明を行う薬剤師であり、聴取者H2は薬の説明を聞く患者であり、第三者H3は順番待ちの患者である。
【0019】
カウンターの上面にはマイクアレイ1が設置されている。マイクアレイ1は、複数のマイクが配列され、それぞれのマイクは、カウンター周囲の音声を収音する。カウンターの第三者の存在する方向(紙面下方向)には、この第三者に向かって音声を出力するスピーカアレイ2が設置されている。なお、スピーカアレイ2は、机の下等、聴取者H2にスピーカアレイの出力した音声が聞こえにくいように設置されている。
【0020】
マイクアレイ1とスピーカアレイ2は、音声処理装置3に接続されている。マイクアレイ1は、配列されている各マイクで話者H1の音声を収音し、音声処理装置3に出力する。音声処理装置3は、マイクアレイ1の各マイクで収音した話者H1の音声に基づいて話者H1の位置を検出する。また、音声処理装置3は、マイクアレイ1の各マイクで収音した話者H1の音声に基づいて、当該話者H1の音声をマスクするためのマスカ音を生成し、スピーカアレイ2に出力する。このとき、音声処理装置3は、スピーカアレイ2の各スピーカに供給する音声信号の遅延量を制御することで、第三者H3が知覚する音源の位置(仮想音源位置)を話者H1の位置に設定する。これにより、第三者H3には、話者H1の音声と、マスカ音が同じ位置から聞こえることになり、カクテルパーティ効果を適切に抑制する。
【0021】
以下、上記のマスキングシステムを実現するための具体的な構成、動作について説明する。図2は、マイクアレイ1、スピーカアレイ2、および音声処理装置3の構成を示すブロック図である。マイクアレイ1は、7つのマイク11〜マイク17を備えている。音声処理装置3は、A/Dコンバータ51〜A/Dコンバータ57、収音信号処理部71、制御部72、マスカ音生成部73、遅延処理部8、D/Aコンバータ61〜D/Aコンバータ68を備えている。スピーカアレイ2は、8つのスピーカ21〜スピーカ28を備えている。マイクアレイのマイクの数およびスピーカアレイのスピーカの数は、この例に限るものではない。
【0022】
A/Dコンバータ51〜A/Dコンバータ57は、それぞれマイク11〜マイク17で収音した音声を入力し、デジタル音声信号に変換する。A/Dコンバータ51〜A/Dコンバータ57で変換された各デジタル音声信号は、収音信号処理部71に入力される。
【0023】
収音信号処理部71は、各デジタル音声信号の位相差を検出することで、話者の位置を検出する。図3は、話者位置検出手法の一例を示す図である。同図に示すように、話者H1が音声を発すると、まず話者H1に最も近いマイク(同図ではマイク17)に音声が到達し、時間経過とともにマイク16から順にマイク11まで音声が到達する。収音信号処理部71は、各マイクが収音した音声どうしの相関を求め、同じ音源からの音声が到達したタイミングの差(位相差)を求める。そして、収音信号処理部71は、この位相差を考慮した仮想的な位置(図中点線で示す丸の位置)にマイクが存在すると仮定し、これら仮想的なマイクの位置から等距離となる位置に音源(話者H1)が存在するとして話者位置を検出する。検出した音源位置の情報は、制御部72に出力される。音源位置の情報は、例えばマイクアレイ1の中心位置からの距離および方向(正面方向を0度としたときのずれ角)を示す情報である。
【0024】
また、収音信号処理部71は、検出した話者位置から収音した話者音声に係るデジタル音声信号をマスカ音生成部73に出力する。収音信号処理部71は、マイクアレイ1のいずれか1つのマイクで収音した音声を出力する態様であってもよいが、上述の位相差を考慮して各マイクが収音したデジタル音声信号を遅延させ、位相をそろえてから合成することで、音源の位置に強い感度(指向性)を有した特性を実現し、この合成後のデジタル音声信号を出力する態様であってもよい。これにより、主として話者音声が高いSN比で収音されることになり、不要ノイズ音やスピーカアレイから出力されたマスカ音の回り込み音が収音されにくくなる。
【0025】
次に、マスカ音生成部73は、収音信号処理部71から入力された話者音声に基づいて、この話者音声をマスクするためのマスカ音を生成する。マスカ音は、どの様な音であってもよいが、聴取者の不快感を抑えたものであることが好ましい。例えば、話者H1の発話音声を所定時間保持し、時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない(会話内容が理解できない)ようにしたものを用いる。あるいは、男性および女性を含む複数人の音声で、かつ語彙的に何ら意味をなさない汎用的な発話音声を内蔵記憶部(不図示)に記憶しておき、この汎用的な音声のフォルマント等の周波数特性を話者H1の音声に近似させたものとしてもよい。また、マスカ音には、環境音(川のせせらぎ音等)や演出音(鳥の鳴き声等)が付加されていてもよい。生成されたマスカ音は、遅延処理部8の各ディレイ81〜ディレイ88に出力される。
【0026】
遅延処理部8のディレイ81〜ディレイ88は、それぞれスピーカアレイ2のスピーカ21〜スピーカ28に対応して設けられており、各スピーカに供給する音声信号の遅延量を個別に変更するものである。ディレイ81〜ディレイ88の遅延量は、制御部72によって制御される。
【0027】
制御部72は、ディレイ81〜ディレイ88の遅延量を制御することで、所定の位置に仮想音源を設定することができる。図4は、スピーカアレイによる仮想音源定位手法を示す図である。
【0028】
同図に示すように、制御部72は、収音信号処理部71から入力された話者H1の位置に仮想音源V1を設定する。仮想音源V1からスピーカアレイ2の各スピーカまでの距離は、それぞれ異なるが、最も仮想音源V1に近いスピーカ(同図ではスピーカ21)から順にマスカ音を出力し、時間経過とともにスピーカ22から順にスピーカ28まで音声を出力することで、第三者(聴取者)H3には、焦点となる仮想音源位置から等距離の位置(図中点線で示すスピーカの位置)にスピーカが存在し、これら仮想的なスピーカの位置から同時にマスカ音が放音されるように知覚させることができる。よって、第三者H3は、仮想的に話者H1の位置からマスカ音が発せられたように知覚することになる。なお、同図に示すように話者H1の位置と仮想音源V1の位置は、完全に同一とする必要はなく、例えば音の到来方向だけを同一とするようにしてもよい。
【0029】
なお、制御部72は、マイクアレイとスピーカアレイが同じ位置に設置されているものと仮定して各スピーカに供給する音声信号の遅延量の設定を行ってもよいが、マイクアレイとスピーカアレイの位置関係を考慮して遅延量の設定を行う方が望ましい。例えば、マイクアレイとスピーカアレイが平行に設置されている場合、制御部27は、マイクアレイとスピーカアレイの中心位置どうしの距離を入力し、各スピーカアレイのスピーカの位置のずれを補正し、遅延量の計算を行う。
【0030】
なお、マイクアレイとスピーカアレイの位置関係は、ユーザが操作を行う操作部(不図示)を設け、ユーザからの手動入力を受け付ける態様であってもよいが、例えば、スピーカアレイ2の各スピーカから音声を出力し、マイクアレイ1の各マイクで収音し、到達時間を測定することで求めることもマイクアレイとスピーカアレイの位置関係を検出することが可能である。この場合、例えば図5に示すように、スピーカアレイ2の端部スピーカ21およびスピーカ28からそれぞれ測定用音声(インパルス音等)を出力し、マイクアレイ1の端部マイク11およびマイク17に測定用音声が収音されるタイミングを測定する態様とする。この場合、マイクアレイ1およびスピーカアレイ2の端部同士の距離を測定することができ、マイクアレイ1およびスピーカアレイ2の設置角度を検出することができる。
【0031】
なお、スピーカアレイとマイクアレイを一体型とした筐体であれば、スピーカアレイとマイクアレイの位置関係は固定されるため、予め位置関係を記憶しておけば、都度位置関係を入力したり測定したりする必要はない。
【0032】
次に、図6は、音声処理装置3の動作を示すフローチャートである。音声処理装置3は、初回起動時(電源オン時)にこの動作を開始する。まず、音声処理装置3は、上述のマイクアレイおよびスピーカアレイの位置関係の測定(キャリブレーション)を行う(s11)。マイクアレイとスピーカアレイが一体型となった筐体である場合、この処理は不要である。
【0033】
その後、音声処理装置3は、話者音声が収音されるまで待機する(s12)。例えば、有音と判定できる程度の所定レベル以上の音声が収音されたとき、話者音声が収音されたと判断する。話者音声が収音されず、会話を行っていない場合、マスカ音は不要であるため、マスカ音の生成、定位処理を待機する態様とする。ただし、この処理を省略し、常にマスカ音の生成、定位処理を行う態様としてもよい。
【0034】
音声処理装置3は、話者音声が収音された場合、収音信号処理部71によって話者位置の検出を行う(s13)。話者位置は、上述のようにマイクアレイの各マイクの収音した音声の位相差を検出することで行う。
【0035】
そして、音声処理装置3は、マスカ音生成部73によってマスカ音の生成を行う(s14)。このとき、収音信号処理部71からマスカ音生成部73に対し、各マイクの位相をそろえて合成した音声信号(話者位置に指向性を向けたもの)を入力し、話者音声に応じたマスカ音を生成することが望ましい。
【0036】
なお、マスカ音は、収音した話者音声のレベルに応じて音量が変化する態様であることが望ましい。収音した話者音声のレベルが低い場合、第三者H3に低いレベルで話者音声が到達し、会話内容を把握し難いため、マスカ音のレベルも低くすることができる。一方で、収音した話者音声のレベルが高い場合、第三者H3には話者音声が高いレベルで到達し、会話内容を把握しやすいため、マスカ音のレベルも高くするほうが好ましい。
【0037】
最後に、音声処理装置3は、マスカ音が話者位置に定位するように制御部72で遅延量の設定を行う(s15)。
【0038】
なお、マスカ音生成部73は、収音信号処理部71で検出した話者位置が変化したとき、マスカ音のレベルを高くする処理を行うことが望ましい。この場合、収音信号処理部71は、話者位置が変化したと判断したとき、マスカ音生成部73にトリガ信号を出力し、マスカ音生成部73は、トリガ信号を入力したときに一時的にマスカ音のレベルを高く設定する。
【0039】
話者位置が変化すると、制御部72による遅延量の計算が終了するまでは、瞬時的に話者位置とマスカ音の仮想音源位置が異なる位置になることが考えられる。この場合、カクテルパーティ効果が発生し、マスク効果が低下する可能性もあるため、一時的にマスカ音の音量を増大させ、マスク効果の低下を防止する態様とする。
【0040】
以上のようにして、音声処理装置3は、検出した話者位置にマスカ音の仮想音源位置を定位させることにより、第三者H3には、話者H1の音声とマスカ音が同じ位置から聞こえることになり、カクテルパーティ効果を適切に抑制することができる。
【0041】
なお、本実施形態では、マイクアレイの各マイクの位相差を検出することで話者位置を検出する例を示したが、話者位置検出手法はこの例に限るものではない。例えば、話者がGPS機能付のリモコンを所有し、位置情報を音声処理装置に送信する例であってもよいし、リモコンにマイクを設け、スピーカアレイの複数のスピーカから測定用音声を出力し、音声処理装置が到達時間を測定することで話者位置を検出することも可能である。
【0042】
ところで、上述の説明では、複数のスピーカを配列してなるスピーカアレイと、複数のマイクを配列してなるマイクアレイを用いた例を示したが、個別のスピーカ及びマイクをそれぞれ所定位置に配置し、マスカ音を生成してもよい。
【0043】
図7は別の実施形態からなるマスキングシステムの構成を示す図である。図8は図7に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【0044】
図7に示すように、この態様のマスキングシステムでは、話者H1A,H1B,H1Cが在席する領域に、それぞれが独立の個体からなるマイク1A,1B,1Cが配設されている。マイク1Aは話者H1Aの近傍に配置され、マイク1Bは話者H1Bの近傍に配置され、マイク1Cは話者H1Cの近傍に配置されている。
【0045】
スピーカ2Aはマイク1Aの近傍に配置され、スピーカ2Bはマイク1Bの近傍に配置され、スピーカ2Cはマイク1Cの近傍に配置されている。これらスピーカ2A,2B,2Cは、第三者H3の在席する領域に向かって放音するように設置されている。
【0046】
各マイク1A,1B,1Cの収音信号は、上述の実施形態と同様に、A/Dコンバータ51〜A/Dコンバータ53でアナログデジタル変換され、収音信号処理部71Aへ入力される。収音信号処理部71Aは、各収音信号の音量レベルから発音中の話者に近いマイクを検出し、検出情報を制御部72Aへ出力する。
【0047】
また、収音信号は、マスカ音生成部73Aへ与えられ、マスカ音生成部73Aは、当該収音収音信号を用いて上述の実施形態に示したようにマスカ音を生成し、音声信号処理部801,802,803へ出力する。
【0048】
制御部72Aには、互いに近接するマイクとスピーカとの対応関係が記憶されている。制御部72Aは、収音信号処理部71Aで検出されたマイクに対応するスピーカを選択して当該スピーカのみから放音するように、音声信号処理部801,802,803を制御する。具体的には、制御部72Aは、話者H1Aが発音してマイク1Aが検出されれば、このマイクに近接するスピーカ2Aのみからマスカ音が放音されるように、音声信号処理部801のみからマスカ音を出力させる。制御部72Bは、話者H1Bが発音してマイク1Bが検出されれば、このマイクに近接するスピーカ2Bのみからマスカ音が放音されるように音声信号処理部802のみからマスカ音を出力させる。制御部72Bは、話者H1Cが発音してマイク1Cが検出されれば、このマイクに近接するスピーカ2Cのみからマスカ音が放音されるように音声信号処理部803のみからマスカ音を出力させる。
【0049】
図9は図7に示すマスキングシステムでの音声処理装置の動作を示すフローチャートである。
音声処理装置3Aは、話者音声が収音されるまで待機する(s101:No)。なお、収音音声の検出方法は上述の図6に示すフローチャートと同様である。音声処理装置3Aは、話者音声が検出されると(s101:Yes)、各マイク1A,1B,1Cの収音信号を解析して、話者音声を収音したマイクを特定する(s102)。
【0050】
次に、音声処理装置3Aは、特定したマイクに対応するスピーカを検出する(s103)。そして、音声処理装置3Aは、検出したスピーカのみからマスカ音を放音する(s104)。
【0051】
このような構成および処理を行っても、発音した話者位置の極近傍からマスカ音が放音され、カクテルパーティ効果を適切に抑制することができる。
【0052】
また、次に示すような構成からなるマスキングシステムを用いてもよい。図10は、上述の各マスキングシステムとは別の実施形態からなるマスキングシステムの構成を示す図である。図11は、図10に示すマスキングシステムのマイクアレイ、スピーカアレイ、および音声処理装置の構成を示すブロック図である。
【0053】
図11に示すマスキングシステムでは、話者H1A,H1B,H1Cが在席する領域に、マイク1A,1B,1C,1D,1E,1Fが載置されたテーブルが配置されている。
【0054】
マイク1A,1B,1Cと、マイク1D,1E,1Fは、それぞれ反対方向を収音方向とするように配置されている。具体的に図11の例であれば、マイク1A,1B,1Cは話者H1A,H1Bが在席する側を収音し、マイク1D,1E,1Fは話者H1Cが在席する側を収音する。
【0055】
スピーカ2A,2B,2C,2Dは、話者H1A,H1B,H1Cの在席する領域と、第三者H3が在席する領域との間に配置されており、配置間隔および位置関係は一定でなくてもよい。
【0056】
各マイク1A,1B,1C,1D,1E,1Fの収音信号は、上述の実施形態と同様に、A/Dコンバータ51〜A/Dコンバータ56でアナログデジタル変換され、収音信号処理部71Bへ入力される。収音信号処理部71Bは、各収音信号の音量レベルから発音中の話者に近いマイクを検出し、検出情報を制御部72Bへ出力する。
【0057】
また、収音信号は、マスカ音生成部73Bへ与えられ、マスカ音生成部73Bは、当該収音信号を用いて上述の実施形態に示したようにマスカ音を生成し、音声信号処理部801−804へ出力する。
【0058】
制御部72Bには、各マイク1A,1B,1C,1D,1E,1Fと各スピーカ2A,2B,2C,2Dとの位置関係が記憶されている。この位置関係は、上述の実施形態におけるキャリブレーションを称する処理により実現することができる。
【0059】
制御部72Bは、収音信号処理部71Bで検出されたマイクに最も近接するスピーカを選択して当該スピーカのみから放音するように、音声信号処理部801−804を制御する。
【0060】
このような構成及び処理を行っても、第三者H3にとって、マスカ音が話者方向から聞こえるようにすることができ、カクテルパーティ効果を適切に抑制することができる。
【0061】
なお、制御部72Bは、各スピーカ2A,2B,2C,2Dからの放音レベルを、各スピーカ2A,2B,2C,2Dと各マイク1A,1B,1C,1D,1E,1Fとの距離を用いて決定し、音声信号処理部801−804のゲインを調整する制御を行ってもよい。
【0062】
この場合、収音信号処理部71Bは、各マイク1A,1B,1C,1D,1E,1Fの収音信号のレベルを検出し、制御部72Bへ出力する。
【0063】
制御部72Bは、各マイク1A,1B,1C,1D,1E,1Fと各スピーカ2A,2B,2C,2Dとのそれぞれの距離を予め計測しておく。これは、上述のキャリブレーションの処理で実現できる。
【0064】
次に、制御部72Bは、各マイク1A,1B,1C,1D,1E,1Fと各スピーカ2A,2B,2C,2Dと個別の組合せ毎に、距離の逆数からなる係数を算出し、マイクとスピーカとの組毎に記憶しておく。例えば、スピーカ2Aとマイク1Aとの組であれば係数A11とし、スピーカ2Dとマイク1Eとの組であれば係数A45として記憶しておく。これにより、次に示す5×4の係数行列Aを設定する。なお、係数は、距離の自乗の逆数等から算出してもよく、距離が遠くなるほど係数値が低くなるように設定すればよい。
【0065】
【数1】
【0066】
そして、制御部72Bは、各マイク1A,1B,1C,1D,1E,1Fの収音信号レベルを、Ss=(Ss1,Ss2,Ss3,Ss4,Ss5)Tの収音信号レベル列として取得する。ここで、Ss1はマイク1Aの収音信号レベルであり、Ss2はマイク1Bの収音信号レベルであり、Ss3はマイク1Cの収音信号レベルであり、Ss4はマイク1Dの収音信号レベルであり、Ss5はマイク1Eの収音信号レベルである。
【0067】
制御部72Bは、収音信号レベル列Ssに対して、次式のように係数行列Aに乗算することで、ゲイン列G=(Ga,Gb,Gc,Gd)を算出する。ここで、Gaはスピーカ2Aに対するゲインであり、Gbはスピーカ2Bに対するゲインであり、Gcはスピーカ2Cに対するゲインであり、Gdはスピーカ2Dに対するゲインである。
【0068】
【数2】
【0069】
このような処理を行うことで、各スピーカ2A,2B,2C,2Dから放音されたマスカ音は、第三者H3にとって、話者位置方向から到来したように聞こえる。これにより、カクテルパーティ効果を適切に抑制することができる。
【0070】
なお、上述の各音声処理装置は、本実施形態に示したマスキングシステムに専用の装置でなくとも、一般的なパーソナルコンピュータ等の情報処理装置のハードウェアおよびソフトウェアを用いて実現可能である。
【符号の説明】
【0071】
H1…話者
H2…聴取者
H3…第三者
1…マイクアレイ、1A,1B,1C,1D,1E,1F…マイク
2…スピーカアレイ、2A,2B,2C,2D…スピーカ
3,3A,3B…音声処理装置
【特許請求の範囲】
【請求項1】
話者の位置を検出する話者位置検出手段と、
マスカ音を生成するマスカ音生成部と
前記マスカ音を出力する複数のスピーカと、
前記話者位置検出部が検出した話者の位置が前記マスカ音の仮想音源位置となるように定位位置を制御し、前記複数のスピーカの少なくとも一つにマスカ音に係る音声信号を供給する定位制御部と、
を備えた音声出力装置。
【請求項2】
前記定位制御部は、前記話者位置検出部が検出した話者の位置に前記マスカ音の定位位置を設定する請求項1に記載の音声出力装置。
【請求項3】
音声を収音する複数のマイクが配列されたマイクアレイを備え、
前記話者位置検出部は、前記複数のマイクで収音した音声の位相差から話者の位置を検出する請求項1または請求項2に記載の音声出力装置。
【請求項4】
前記マスカ音生成部は、前記話者位置検出部が検出した話者の位置が変化した場合、前記マスカ音のレベルを高く設定する請求項1〜3のいずれかに記載の音声出力装置。
【請求項5】
前記話者位置検出手段は、最も収音音声の大きなマイクの位置を話者位置に設定し、
前記定位制御部は、該最も収音音声の大きなマイクに最も近いスピーカへ前記マスカ音に係る音声信号を供給する、請求項1に記載の音声出力装置。
【請求項6】
音声を収音する複数のマイクと、
マスカ音を生成するマスカ音生成部と、
前記マスカ音に係る音声信号が供給され、前記マスカ音を放音する複数のスピーカと、
前記複数のスピーカに供給する前記マスカ音に係る音声信号のゲインを制御する定位制御部と、を備え、
該定位制御部は、前記複数のマイクの収音信号のレベルに対して、前記複数のマイクと前記複数のスピーカとの距離が遠くなるほど値が小さくなるゲイン設定係数を乗算することで、前記複数のスピーカに供給する前記マスカ音に係る音声信号のゲインを調整する、音声出力装置。
【請求項1】
話者の位置を検出する話者位置検出手段と、
マスカ音を生成するマスカ音生成部と
前記マスカ音を出力する複数のスピーカと、
前記話者位置検出部が検出した話者の位置が前記マスカ音の仮想音源位置となるように定位位置を制御し、前記複数のスピーカの少なくとも一つにマスカ音に係る音声信号を供給する定位制御部と、
を備えた音声出力装置。
【請求項2】
前記定位制御部は、前記話者位置検出部が検出した話者の位置に前記マスカ音の定位位置を設定する請求項1に記載の音声出力装置。
【請求項3】
音声を収音する複数のマイクが配列されたマイクアレイを備え、
前記話者位置検出部は、前記複数のマイクで収音した音声の位相差から話者の位置を検出する請求項1または請求項2に記載の音声出力装置。
【請求項4】
前記マスカ音生成部は、前記話者位置検出部が検出した話者の位置が変化した場合、前記マスカ音のレベルを高く設定する請求項1〜3のいずれかに記載の音声出力装置。
【請求項5】
前記話者位置検出手段は、最も収音音声の大きなマイクの位置を話者位置に設定し、
前記定位制御部は、該最も収音音声の大きなマイクに最も近いスピーカへ前記マスカ音に係る音声信号を供給する、請求項1に記載の音声出力装置。
【請求項6】
音声を収音する複数のマイクと、
マスカ音を生成するマスカ音生成部と、
前記マスカ音に係る音声信号が供給され、前記マスカ音を放音する複数のスピーカと、
前記複数のスピーカに供給する前記マスカ音に係る音声信号のゲインを制御する定位制御部と、を備え、
該定位制御部は、前記複数のマイクの収音信号のレベルに対して、前記複数のマイクと前記複数のスピーカとの距離が遠くなるほど値が小さくなるゲイン設定係数を乗算することで、前記複数のスピーカに供給する前記マスカ音に係る音声信号のゲインを調整する、音声出力装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2012−93705(P2012−93705A)
【公開日】平成24年5月17日(2012.5.17)
【国際特許分類】
【出願番号】特願2011−63438(P2011−63438)
【出願日】平成23年3月23日(2011.3.23)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
【公開日】平成24年5月17日(2012.5.17)
【国際特許分類】
【出願日】平成23年3月23日(2011.3.23)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
[ Back to top ]