説明

音声取得装置

【課題】学習を必要とせず、高いハウリング抑圧性能を実現する。
【解決手段】音声取得装置は、スピーカと複数のマイクロホンとを搭載し、複数のマイクロホンは、音声取得装置の中心からみてそれぞれ異なる方向に配置されており、マイクロホンのそれぞれに対応して音声取得装置の中心からみてマイクロホンの方向と同一方向に配置される、音声取得装置のマイクロホンで収音した音を再生するスピーカを含む装置の配線接続用の端子と、スピーカを含む装置の配線が接続された配線接続用の端子を検出して、検出された端子の方向を収音の死角形成方向とする死角形成方向決定部と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は音声通話や機器の操作などハンズフリー方式で音声を取得する音声取得装置に関するものであり、特に同じ室内で拡声される場合のハウリングを抑圧する音声取得装置に関する。
【背景技術】
【0002】
場内拡声はマイクロホンで収音した音を同一空間内に置かれたスピーカによって再生することで実現されるが、この際にスピーカによって再生された音は再びマイクロホンに入力されるため、回り込みによる閉ループが生じてしまう。この閉ループ系のゲインが1を超えた場合には、ハウリングが発生し、拡声機能は破たんしてしまう。
【0003】
このような問題を解決するための技術として、ハウリングキャンセラがある。ハウリングキャンセラではスピーカから発せられる音とマイクロホンで収音した音の相関性からスピーカ−マイクロホン間の室内伝達関数を逐次的に推定し、擬似的に回り込み音を生成する。そして、生成された擬似回り込み音をマイクロホンで収音した信号から減算することで、スピーカからマイクロホンへの音の回り込み量を抑圧し、閉ループ系のゲインが1を上回らないようにすることでハウリングを防止する(非特許文献1参照)。
【0004】
また、マイクロホンアレーにより指向性の死角制御を用いたハウリングキャンセラもある。この方法ではアダプティブアレーを用いて、拡声スピーカ方向に死角を形成するようにマイクロホンアレーの指向性を逐次的に学習する(特許文献1参照)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】大賀寿郎、山崎芳男、金田豊共著、「音響システムとディジタル処理」、電子情報通信学会、1995年、p.214−215
【特許文献】
【0006】
【特許文献1】特許第3765567号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
上述したような従来のハウリングキャンセラではいずれも出力信号をフィードバックして逐次的に計算する適応信号処理が行われている。適応信号処理は入力された信号に合わせて最適な処理を探索する技術であり、学習が十分に行われた場合には高い性能の実現が期待できる。
【0008】
しかしながら、適応信号処理は環境の変化、即ちハウリングキャンセラの場合、話者の位置やスピーカとマイクロホンの位置が変化する場合には、その学習が変化に追随できず、結果として十分なハウリング抑圧効果が得られないといった問題がある。
【0009】
この発明の目的はこのような問題に鑑み、学習を必要とせず、かつ高いハウリング抑圧性能を実現することができる音声取得装置を提供することにある。
【課題を解決するための手段】
【0010】
この発明の第1の観点によれば、音声取得装置は、スピーカと複数のマイクロホンとを搭載している。複数のマイクロホンは、音声取得装置の中心からみてそれぞれ異なる方向に配置されている。音声取得装置は、音声取得装置のマイクロホンで収音した音を再生するスピーカを含む装置の配線接続用の端子と死角形成方向決定部とを備える。配線接続用の端子は、マイクロホンのそれぞれに対応して音声取得装置の中心からみてマイクロホンの方向と同一方向に配置される。死角形成方向決定部は、スピーカを含む装置の配線が接続された配線接続用の端子を検出して、検出された端子の方向を収音の死角形成方向とする。
【発明の効果】
【0011】
この発明による音声取得装置によれば、収束に一定の時間を必要とし、つまり十分なハウリング抑圧効果を得るために時間を要する学習過程を必要とせず、かつ高いハウリング抑圧性能を実現することができる。
【図面の簡単な説明】
【0012】
【図1】音声取得装置の第1実施形態の全体構成例を示す図。
【図2】図1に示した音声取得装置の処理フローを示す図。
【図3】ビームフォーマー部の指向特性を説明するための図。
【図4】マイクロホンアレーの配置例を示す図。
【図5】死角形成方向を自動的に決定する方法を説明するための図。
【図6】重み係数決定部の構成を示す図。
【図7】重み付き加算部の構成を示す図。
【図8】ビームフォーマー部の構成を示す図。
【図9】信号量推定部の構成を示す図。
【図10】ビームフォーマー部の指向特性の一例を説明するための図。
【図11】利得係数算出部の構成を示す図。
【図12】音声取得装置の接続及び死角形成方向の第1の例を説明するための図。
【図13】音声取得装置の死角形成方向の第2,第3の例を説明するための図。
【図14】音声取得装置の接続及び死角形成方向の第4の例を説明するための図。
【図15】音声取得装置の第2実施形態の全体構成例を示す図。
【図16】特定方向選択部の構成を示す図。
【図17】音声取得装置の第3実施形態の全体構成例を示す図。
【図18】帯域分割部の構成を示す図。
【図19】帯域合成部の構成を示す図。
【発明を実施するための形態】
【0013】
以下、実施形態を図面を参照して説明する。
【0014】
[第1実施形態]
図1は音声取得装置の第1実施形態の全体構成例を示したものであり、図2は図1に示した音声取得装置の処理フローを示したものである。
【0015】
M個(M≧2)のマイクロホンから構成されるマイクロホンアレー11によって収音された信号x(n)(m=1,2,…,M)はそれぞれ第1の周波数領域変換部12−1〜12−Mに入力される。ここで、nは離散時間信号のサンプル番号を表す。周波数領域変換部12−1〜12−Mは入力された信号を短い時間長(例えばサンプリング周波数16000Hzの場合には256サンプル程度)のフレームに分解し、それぞれのフレームにおいて離散フーリエ変換を行って、得られたΩ個の周波数成分を出力信号X(ω,l),X(ω,l),…,X(ω,l)として出力する(ステップS1)。
【0016】
死角形成方向決定部13は死角を形成する方向を決定するもので、死角形成方向決定部13は決定した死角形成方向を重み係数決定部14に出力する(ステップS2)。なお、死角形成方向を決定する方法については後述する。
【0017】
重み係数決定部14は入力された死角形成方向から各マイクロホンに対する重み係数g(ω),g(ω),…,g(ω)を決定する(ステップS3)。
【0018】
第1の周波数領域変換部12−1〜12−Mの出力信号X(ω,l),X(ω,l),…,X(ω,l)及び重み係数決定部14で決定された重み係数g(ω),g(ω),…,g(ω)は重み付き加算部15に入力され、重み付き加算部15はマイクロホンごとの信号X(ω,l)に対応する重み係数g(ω)を乗算した後、全てを加算して特定方向周波数領域信号Y(ω,l)を求める(ステップS4)。
【0019】
一方、マイクロホンアレー11によって収音された信号x(n)はビームフォーマー部16−1からビームフォーマー部16−QまでのQ個のビームフォーマー部16−1〜16−Qに入力される。ビームフォーマー部16−1〜16−Qでは、例えば図3に示すような指向性のビームBMを、図4に示したような予め与えられたQ個の方向領域Θ〜Θのいずれかに向け、該当する方向領域で発せられる音を強調して収音する処理を行い、結果を出力する(ステップS5)。
【0020】
各ビームフォーマー部16−1〜16−Qの出力信号y(n),y(n),…,y(
n)はそれぞれ第2の周波数領域変換部17−1〜17−Qに入力される。第2の周波数
領域変換部17−1〜17−Qは入力された信号を短い時間長(例えばサンプリング周波数16000Hzの場合には256サンプル程度)のフレームに分解し、それぞれのフレームにおいて離散フーリエ変換を行って、得られたΩ個の周波数成分を出力信号Y
,l),Y(ω,l),…,Y(ω,l)として出力する(ステップS6)。周波数領域
変換された信号は信号量推定部18に入力される。
【0021】
信号量推定部18は入力されたビームフォーマー部16−1〜16−Qの出力信号パワーから各方向領域Θ〜Θにおける音源から発せられる音信号の総和のパワー成分を求め、これを1つのベクトルにまとめた信号パワーベクトルXest(ω,l)を出力する(ステップS7)。
【0022】
利得係数算出部19は入力された信号パワーベクトルXest(ω,l)から利得係数R(ω,l)を算出し、出力する(ステップS8)。利得係数R(ω,l)は乗算部20に入力される。乗算部20は入力された利得係数R(ω,l)と重み付き加算部15の出力Y(ω,l)を同じ周波数の成分ごとに乗算した結果を出力する(ステップS9)。乗算部20の出力信号YSR(ω,l)は逆周波数領域変換部21に入力され、逆離散フーリエ変換を行って時間信号に復元された信号y(n)が出力される(ステップS10)。この信号y(n)が音声取得装置によって所定の方向に死角が形成されて収音された信号となる。
【0023】
このように、この例では指向性の死角の形成方法として、事前に異なる方向に指向性を向けて方向ごとの音を収音し、それらを使用して方向ごとの音源のパワースペクトルを推定する。そして、推定したパワースペクトルを使ってハウリングの原因となる拡声スピーカ方向の音を抑圧する重み係数(ゲイン)を算出し、これを入力信号に乗ずることで適応処理を使わずに高いハウリング抑圧性能を実現する。
【0024】
以下、死角形成方向決定部13、重み係数決定部14、重み付き加算部15、ビームフォーマー部16−1〜16−Q、信号量推定部18、利得係数算出部19の詳細について説明する。
【0025】
(死角形成方向決定部)
例えば、音声取得装置が図5に示したように4つのマイクロホン11〜11からなるマイクロホンアレー11とスピーカ31とを具備するものとし、このような音声取得装置30が配線により接続されて室内で複数使用されるとする。
【0026】
マイクロホン11〜11は音声取得装置30の正方形をなす筐体32の各辺に、それぞれの辺に垂直かつ外向きに指向性を持つように設置されており、また各マイクロホン11〜11の位置に対応して配線接続用の端子33が4つ設置されているとする。つまり、指向性の死角を向けたい各方向に端子33が設置されているものとする。
【0027】
このような構成を有する音声取得装置30の場合、死角を向けたい方向の端子33に配線を接続すれば、死角を形成する方向を配線が接続された端子33を検出することで決定することができる。
【0028】
死角形成方向決定部13は一例として、上述したように配線が接続された端子33を検出することで、その端子側に死角を形成する方向を自動的に決定する。
【0029】
マイクロホンの個数は2以上であればよく、音声取得装置は図5に限定するものではない。死角を形成する方向についても、既定の方向としてもよいし、あらかじめ設定した複数の方向の中から選択し、決定するようにしてもよい。
【0030】
(重み係数決定部)
重み係数決定部14は図6に示したように抽出部14Aと記憶部14Bを有する。抽出部14Aは死角形成方向決定部13から入力される死角形成方向に対し、各マイクロホンに対する重み係数g(ω),g(ω),…,g(ω)を記憶部14Bから抽出し、その抽出した重み係数g(ω),g(ω),…,g(ω)を出力する。記憶部14Bには各死角形成方向と、その場合に設定すべき各マイクロホンの重み係数g(ω)とが対とされて格納されている。
【0031】
(重み付き加算部)
図7は重み付き加算部15の構成を示している。乗算部15A−1〜15A−Mは重み係数決定部14から入力された重み係数g(ω)を第1の周波数領域変換部12−1〜12−Mから入力された対応するマイクロホンの信号X(ω,l)にそれぞれ乗算する。乗算部15A−1〜15A−Mの出力は加算部15Bで全て加算され、特定方向周波数領域信号Y(ω,l)が加算部15Bから出力される。
【0032】
【数1】

【0033】
(ビームフォーマー部)
図8はビームフォーマー部16−1〜16−Qの中の一つの構成を示している。同様の処理がすべてのビームフォーマー部において行われる。入力された信号x(n)(m=1,2,…,M)はフィルタ処理部FC1〜FCMに入力される。フィルタ処理部FC1〜FCMではあらかじめ与えられた(決定方法は後述する)フィルタ係数Wqm(n)を、式(2)に示す畳み込み演算に代入して得られる信号x′qm(n)を出力する。
【0034】
【数2】


各フィルタ処理部FC1〜FCMの出力信号は加算部ADDに入力される。加算部ADDでは入力信号を式(3)のように加算し、ビームフォーマー部の出力信号y(n)(q=1…Q)を得る。
【0035】
【数3】


ここでフィルタ係数Wqm(n)は、それぞれのビームフォーマー部16−1〜16−Qの指向特性D(ω,θ)が、図4に示すあらかじめ与えられた第Q方向領域Θで発せられる音を強調して受音し、それ以外の方向で発せられる音を抑圧するように設計される。
【0036】
(信号量推定部)
図9は信号量推定部14の構成を示している。信号量推定部18に入力される周波数成分Y(ω,l),Y(ω,l),…,Y(ω,l)はそれぞれパワー演算部PW−1〜PW−Qに入力され、信号のパワー値|Y(ω,l)|,|Y(ω,l)|,…,|Y(ω,l)|が出力され、領域集約部18Aに入力される(図2のステップS7A)。領域集約部18Aは、あらかじめ決められた収音したい領域の集合Sから発せられる信号のパワー値の平均と、抑圧したい領域の集合Nから発せられる信号のパワー平均を求め、その結果からなる集約パワーベクトルY(ω,l)を出力する(図2のステップS7B)。
【0037】
【数4】


ただし、Nは集合Sに含まれる領域の数、Nは集合Nに含まれる領域の数を示している。また、すべての方向領域(1〜Q)を集合Sまたは集合Nに所属するようにあらかじめ定めておく。例えば、Q=4のとき、集合Sと集合NをS={1,2}、N={3,4}のように決めればよい。
【0038】
ビームフォーマー部出力パワーベクトルY(ω,l)は乗算部18Bに入力される。乗算部18Bのもう一方の入力であるパワー推定行列T−1(ω)は、逆行列演算部18Cの出力信号である。逆行列演算部18Cには式(5)により定義される集約ゲイン行列T(ω)が入力され、その逆行列T−1(ω)を出力する(図2のステップS7C)。
【0039】
【数5】


集約ゲイン行列Tの各要素は、図10に示すように各ビームフォーマー部の各方向領域に対する指向特性の平均値から求められるパラメータであり、例えば、式(6)に示すよう指向特性の方向に関する平均値を用いる。
【0040】
【数6】


αpqはビームフォーマー部16−pの第q方向領域に対する指向特性の平均値である。なお、指向特性は、例えば非特許文献1に記載されている技術を用いてフィルタ係数W(n)より求めることができる。
【0041】
乗算部18Bは式(7)に示すように、入力されたビームフォーマー部出力パワーベクトルY(ω,l)とパワー推定行列T−1(ω)の乗算を周波数成分ごとに行い、推定信号パワーベクトルXest(ω,l)を出力する(図2のステップS7D)。
【0042】
est(ω,l)=T−1(ω)Y(ω,l) (7)
このように、方向領域の集約を行って信号のパワー(信号量)を推定するのが、信号量推定部18である。
【0043】
(利得係数算出部)
図11は利得係数算出部19の構成を示している。信号量推定部18より入力された推定信号パワーベクトルXest(ω,l)はベクトル要素抽出部19Aに入力される。推定信号パワーベクトルXest(ω,l)は、式(8)に示すように、入力された推定信号パワーベクトルの収音領域信号推定パワー|S(ω,l)|を第1成分、入力された推定信号パワーベクトルの抑圧領域信号推定パワー|N(ω,l)|を第2成分とする。
【0044】
est(ω,l)=[|S(ω,l)||N(ω,l)| (8)
ベクトル要素抽出部19Aは、収音領域信号推定パワー|S(ω,l)|と抑圧領域信号推定パワー|N(ω,l)|を出力し、それらをSN比推定部19Bに入力する。SN比推定部19Bでは式(9)を用いて所望方向領域の信号を強調する利得係数R(ω,l)を計算し出力する。
【0045】
【数7】


ここで、αは利得係数R(ω,l)によって所望方向領域の信号の強調を調整するパラメータであって、例えばα=1/2とすればよい。
【0046】
次に、音声取得装置が前述の図5に示した音声取得装置30である場合を例として、複数の音声取得装置30の接続状態と各マイクロホン11〜11に対して設定する重み係数g(ω)〜g(ω)を具体的に説明する。
【0047】
図12は2台の音声取得装置30,30が配線35により接続されている状態を示したものであり、図中、網かけ部分はハウリング抑圧のために形成すべき指向性の死角を示す。この時、左側の音声取得装置30のようにマイクロホン11の方向に死角を形成したい場合には、マイクロホン11に対応する重み係数g(ω)を例えば0や0.1のような絶対値が十分小さい値とし、他のマイクロホン11〜11の重み係数g(
ω)〜g(ω)は例えば1のようなマイクロホン11の重み係数g(ω)と符号は同じ
で絶対値が十分大きい値を与える。このように重み係数g(ω)〜g(ω)を決定することで、死角を向けたい方向からの音を抑圧し、ハウリング抑圧効果を高めることができる。
【0048】
同様に、図13(a)に示した音声取得装置30や図13(b)に示した音声取得装置30のように、より広範囲に死角を向けたい場合にも符号は同じで絶対値が十分異なる重み係数g(ω)を設定すれば、ハウリングを抑圧することができる。なお、図13(a),(b)では配線35のみを示し、接続された音声取得装置30の図示は省略している。
【0049】
図13(a)の場合、例えばマイクロホン11,11の重み係数g(ω),g(
ω)は0とし、マイクロホン11,11の重み係数g(ω),g(ω)は1とする。
また、図13(b)の場合、例えばマイクロホン11,11,11の重み係数g(ω),g(ω),g(ω)は0とし、マイクロホン11の重み係数g(ω)は1とする。
【0050】
一方、図14は3台の音声取得装置30〜30が直列に接続された状態を示したものであり、中央の音声取得装置30のように、マイクロホン11と11の方向に死角を向けたい場合には、例えばg(ω)=1,g(ω)=g(ω)=0,g(ω)=−1のように、死角を向けたい方向のマイクロホン11,11の重み係数g(ω),g(ω)には同じ符号で絶対値が十分小さい値を与える一方で、収音したい方向のマイクロホン11,11の重み係数g(ω),g(ω)には絶対値が十分大きく、かつ絶対値が互いに等しく、符号は互いに異なる値を与える。これにより、音声取得装置30及び30の方向に死角を形成することができ、ハウリング抑圧効果を高めることができる。
【0051】
[第2実施形態]
図15は音声取得装置の第2実施形態の全体構成例を示したものであり、この例では図1に示した第1実施形態における重み係数決定部14及び重み付き加算部15に替えて、選択信号生成部22及び特定方向選択部23を具備するものとなっている。
【0052】
選択信号生成部22は死角形成方向決定部13から入力される死角形成方向に基づき、その方向に死角を形成するための各マイクロホンに対する選択信号を生成し、出力する。選択信号生成部22は重み係数決定部14と同様、抽出部と記憶部を有している。記憶部には各死角形成方向と、その場合に選択すべきマイクロホンの情報が格納されており、抽出部はその情報を抽出し、選択信号として出力する。
【0053】
図16は特定方向選択部23の構成を示したものである。スイッチ23Aは第1の周波数領域変換部12−1〜12−Mから入力された各マイクロホンの周波数成分X(ω,
l)〜X(ω,l)を選択信号生成部22から入力された選択信号に基づき、選択する。
スイッチ23Aによって選択された信号は加算部23Bで全て加算され、特定方向周波数領域信号Y(ω,l)が加算部23Bから出力される。
【0054】
この第2実施形態では各マイクロホンの周波数領域信号X(ω,l)に重み係数g(
ω)を乗算する第1実施形態と異なり、所要の周波数領域信号X(ω,l)のみを選択す
るものとなっており、このような構成によっても高いハウリング抑圧性能を実現することができる。
【0055】
[第3実施形態]
図17は音声取得装置の第3実施形態の全体構成例を示したものである。第1実施形態との相違点は、第1の周波数領域変換部12〜1〜12−Mの後段及び第2の周波数領域変換部17−1〜17−Qの後段にそれぞれ帯域分割部24−1〜24−M及び25−1〜25−Qを備え、重み付き加算部15、信号量推定部18、利得係数算出部19、乗算部20の各処理が、Ω個の周波数帯域ごとに行われる点、及び各周波数帯域での乗算部20の後段に帯域合成部27を備え、各帯域の乗算部20からの出力を合成する点である。図18に帯域分割部25−1〜25−Qの構成を、図19に帯域合成部27の構成を示す。
【0056】
本実施形態の同一帯域成分収集部26−x(但し、xは1,…,Ω)の信号量推定部18の集約ゲイン行列T(ω)は式(10)のように定めればよい。
【0057】
【数8】


但し、Nは集約されたx番目の帯域に含まれる周波数ビンの数である。その他の部分は第1実施形態と同じである。
【0058】
このような構成であるから、第3実施形態の音声取得装置も第1実施形態の音声取得装置と同じ効果を得ることができる。なお、このようなΩ個の周波数帯域ごとに演算を行う構成は第2実施形態の音声取得装置に対しても適用することができる。
【0059】
以上説明した音声取得装置、音声取得方法はコンピュータと、コンピュータにインストールされたプログラムによって実現することができる。コンピュータにインストールされたプログラムはコンピュータを音声取得装置として動作させる。

【特許請求の範囲】
【請求項1】
スピーカと複数のマイクロホンとを搭載した音声取得装置であって、
前記複数のマイクロホンは、前記音声取得装置の中心からみてそれぞれ異なる方向に配置されており、
前記マイクロホンのそれぞれに対応して前記音声取得装置の中心からみてマイクロホンの方向と同一方向に配置される、前記音声取得装置のマイクロホンで収音した音を再生するスピーカを含む装置の配線接続用の端子と、
前記スピーカを含む装置の配線が接続された配線接続用の端子を検出して、検出された端子の方向を収音の死角形成方向とする死角形成方向決定部と、
を備えることを特徴とする音声取得装置。
【請求項2】
請求項1記載の音声取得装置であって、
前記複数のマイクロホンを搭載して構成されるマイクロホンアレーの各マイクロホンの出力信号のそれぞれを複数の帯域成分に分割した周波数領域信号に変換する複数の第1周波数領域変換部と、
前記死角形成方向からの音を抑圧するように、前記各マイクロホンに対する重み係数を決定する重み係数決定部と、
前記各第1周波数領域変換部が出力する各マイクロホンの周波数領域信号に、対応する前記重み係数をそれぞれ乗算した後、全てを加算して特定方向周波数領域信号を求める重み付き加算部と、
前記各マイクロホンの出力信号を利用してそれぞれが異なる方向の角度領域から到来する音を強調して収音する複数のビームフォーマー部と、
前記複数のビームフォーマー部が収音した角度領域信号のそれぞれを複数の帯域成分に分割した周波数領域信号に変換する複数の第2周波数領域変換部と、
前記第2周波数領域変換部が出力する周波数領域信号から周波数領域信号の総和量の推定値を求める信号量推定部と、
前記特定方向周波数領域信号の信号量と前記周波数領域信号の前記総和量との比により周波数帯域毎の利得係数を算出する利得係数算出部と、
前記利得係数算出部が算出した利得係数を前記特定方向周波数領域信号の各対応する周波数帯域の信号量に乗算する乗算部と、
をさらに備え、
前記複数のマイクロホンの内、少なくとも二つのマイクロホンが、その二つのマイクロホンを結ぶ開線分の方向かつ外向きに指向性を持つものとし、
前記重み係数決定部は、その二つのマイクロホンに対する重み係数を、絶対値が互いに等しく、かつ、符号が互いに異なる値となるように、決定する、
音声取得装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2012−178869(P2012−178869A)
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願番号】特願2012−112981(P2012−112981)
【出願日】平成24年5月17日(2012.5.17)
【分割の表示】特願2009−274411(P2009−274411)の分割
【原出願日】平成21年12月2日(2009.12.2)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】