説明

信号分離装置及び信号分離方法

【課題】パーミュテーション問題を解決し、抽出すべきユーザ音声を分離可能な信号分離装置及び信号分離方法を提供すること。
【解決手段】本発明にかかる信号分離装置10は、入力された音信号から特定の音声信号とノイズ信号を分離するものである。パーミュテーション解決部24の結合確率密度分布推定部241は、まず、分離信号のそれぞれの結合確率密度分布を算出する。次に、パーミュテーション解決部24のクラスタリング決定部242は、算出された結合確率密度分布の形状に基づいて、クラスタリングを決定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の信号が空間内で混合された状態において、特定の信号を抽出する信号分離装置及び信号分離方法に関し、特に、パーミュテーション解決技術に関する。
【背景技術】
【0002】
現在、マイクロフォンアレイを用いて、ハンズフリーでユーザ音声のみ抽出する技術の開発が進んでいる。このような音声抽出技術を適用したシステムにおいては、抽出しようとするユーザ音声以外の発話音声(干渉音)や環境騒音と呼ばれる拡散性のノイズ(雑音)が、通常、当該ユーザ音声に混入しているため、正確に音声認識するためには、かかるノイズを抑圧することが必要である。
【0003】
ノイズを抑圧するための処理手法としては、音源の独立性を仮定して周波数領域でフィルタを学習、分離する周波数領域独立成分分析が有効である。この手法は、各周波数帯域においてフィルタを設計するため、最終的にフィルタが、抽出すべきユーザ音声か、ノイズのいずれの音源に対して設計されたものであるかをクラスタリングする必要がある。このようなクラスタリングは、「パーミュテーション(入れ替わり)問題の解決」と呼ばれる。かかる解決に失敗した場合には、仮に独立成分分析で各周波数帯域において抽出すべきユーザ音声とノイズの分離が正しく行われていても、最終的にはユーザ音声とノイズが混合された音が出力されてしまう。
【0004】
例えば、特許文献1にパーミュテーション問題の解決に関する技術が提案されている。この文献に開示されたシステムでは、観測信号を短時間フーリエ変換し、独立成分分析により各周波数での分離行列を求め、各周波数での分離行列の各行により取り出される信号の到来方向を推定し、その推定値が十分に信頼できるかどうかを判定している。さらに、周波数間で分離信号の類似度を計算し、各周波数で分離行列を求めた後にパーミュテーションを解決している。
【0005】
図6にパーミュテーション解決部の構成例を示す。パーミュテーション解決部24は、音源方位推定部243と、クラスタリング決定部242を備えている。音源方位推定部243は、各周波数での分離行列の各行により取り出される信号の到来方向を推定する。クラスタリング決定部242は、音源方位推定部243によって実行された、信号の到来方向の推定が十分に信頼できると判定された周波数ではそれらの方向を揃えることにより、パーミュテーションを決定し、その他の周波数では近傍の周波数との分離信号の類似度を高めるようにパーミュテーションを決定している。
【0006】
【特許文献1】特開2004−145172号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
特許文献1に開示されたパーミュテーション問題の解決技術では、ノイズが1点から放射される点音源であると仮定されており、各周波数帯域で推定された音源角度に基づいてクラスタリングしている。しかしながら、拡散性ノイズの場合には、ノイズの方位を特定することができないため、クラスタリング時の推定誤りが大きくなり、後段の類似度計算を行っても所望の動作を行うことができない。
【0008】
本発明は、かかる課題を解決するためになされたものであり、パーミュテーション問題を正しく解決し、抽出すべきユーザ音声を分離可能な信号分離装置及び信号分離方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明にかかる信号分離装置は、入力された音信号から特定の音声信号とノイズ信号を分離する信号分離装置であって、前記音信号において少なくとも第1の信号と第2の信号を分離する信号分離手段と、前記信号分離手段によって分離された第1の信号と第2の信号のそれぞれの結合確率密度分布を算出する結合確率密度分布算出手段と、前記結合確率密度分布算出手段によって算出された結合確率密度分布の形状に基づいて、前記第1の信号と前記第2の信号のいずれが前記特定の音声信号かノイズ信号かを決定するクラスタリング決定手段とを備えたものである。
【0010】
ここで、前記クラスタリング決定手段は、当該結合確率密度分布の形状が非ガウス形状である信号を特定の音声信号と判定し、ガウス形状である信号をノイズ信号と判定することが望ましい。
【0011】
また、前記クラスタリング決定手段は、当該結合確率密度分布の形状における分布幅に基づいて特定の音声信号とノイズ信号を判別するが望ましい。
【0012】
さらに、前記クラスタリング決定手段は、前記結合確率密度分布の形状において最大となる頻度値に基づいて決定された頻度値における分布幅に基づいて、特定の音声信号とノイズ信号を判別することが好ましい。
【0013】
また、前記信号分離手段は、入力した音信号に含まれる複数の周波数のそれぞれについて第1の信号と第2の信号を分離することが好ましい。
【0014】
本発明にかかるロボットは、上述の信号分離装置と、前記信号分離装置に対して音信号を供給する複数のマイクロフォンからなるマイクロフォンアレイとを備えている。
【0015】
本発明にかかる信号分離方法は、入力された音信号から特定の音声信号とノイズ信号を分離する信号分離方法であって、前記音信号において少なくとも第1の信号と第2の信号を分離するステップと、前記第1の信号と第2の信号のそれぞれの結合確率密度分布を算出するステップと、算出された結合確率密度分布の形状に基づいて、前記第1の信号と前記第2の信号のいずれが前記特定の音声信号かノイズ信号かを決定するステップとを備えたものである。
【0016】
ここで、当該結合確率密度分布の形状が非ガウス形状である信号を特定の音声信号と判定し、ガウス形状である信号をノイズ信号と判定することが望ましい。
【0017】
また、前記結合確率密度分布の形状における分布幅に基づいて特定の音声信号とノイズ信号を判別することが望ましい。
【0018】
さらに、前記結合確率密度分布の形状において最大となる頻度値に基づいて決定された頻度値における分布幅に基づいて、特定の音声信号とノイズ信号を判別することが好ましい。
【0019】
また、入力した音信号に含まれる複数の周波数のそれぞれについて第1の信号と第2の信号を分離することが望ましい。
【発明の効果】
【0020】
本発明によれば、パーミュテーション問題を正しく解決し、抽出すべきユーザ音声を分離可能な信号分離装置及び信号分離方法を提供することができる。
【発明を実施するための最良の形態】
【0021】
まず、図1のブロック図を用いて、発明の実施の形態にかかる信号分離装置の全体構成及びその処理について説明する。
【0022】
図に示されるように、信号分離装置10は、アナログ/デジタル(A/D)変換部1と、雑音抑圧処理部2と、音声認識部3を備えている。信号分離装置10には、複数のマイクロフォンからなるマイクロフォンアレイM1〜Mkが接続され、各マイクロフォンによって検出された音信号が入力される。信号分離装置10は、例えば、ショールームやイベント会場に配置された案内ロボットやその他のロボットに搭載される。
【0023】
A/D変換部1は、マイクロフォンアレイM1〜Mkから入力されたそれぞれの音信号を、デジタル信号、即ち音データに変換して雑音抑圧処理部2に出力する。
【0024】
雑音抑圧処理部2は、入力された音データに含まれるノイズを抑圧する処理を実行する。当該雑音抑圧処理部2は、図に示されるように、離散フーリエ変換部21、独立成分分析部22、利得補正部23、パーミュテーション解決部24、逆離散フーリエ変換部25を備えている。
【0025】
離散フーリエ変換部21は、各マイクロフォンに対応した音データのそれぞれについて、離散フーリエ変換を実行し、周波数スペクトルの時系列を特定する。
【0026】
独立成分分析部22は、離散フーリエ変換部21より入力された周波数スペクトルに基づいて独立成分分析(ICA:Independent Component Analysis)を行い、各周波数での分離行列を算出する。独立成分分析の具体的な処理については、例えば、特許文献1に詳細に開示されている。
【0027】
利得補正部23は、独立成分分析部22によって算出された各周波数での分離行列に対して利得補正処理を実行する。
【0028】
パーミュテーション解決部24は、パーミュテーション問題を解決するための処理を実行する。具体的な処理については後に詳述する。
【0029】
逆離散フーリエ変換部25は、逆離散フーリエ変換を実行し、周波数領域のデータを時間領域のデータに変換する。
【0030】
音声認識部3は、雑音抑圧処理部2によってノイズが抑圧された音データに基づいて音声認識処理を実行する。
【0031】
続いて、パーミュテーション解決部24の構成及び処理について、図2のブロック図を用いて説明する。図2に示されるように、パーミュテーション解決部24は、結合確率密度分布推定部241と、クラスタリング決定部242を備えている。
【0032】
結合確率密度分布推定部241は、各周波数での分離信号について結合確率密度分布を計算し、その結合確率密度分布を計算する。
【0033】
クラスタリング決定部242は、結合確率密度分布推定部241において推定された結合確率密度分布形状よりクラスタリングを決定する。具体的には、かかるクラスタリング決定部242は、結合確率密度分布形状がユーザ音声に特有の非ガウス信号か、広範な範囲にわたるガウス信号であるノイズかを判定する。
【0034】
図4に結合確率密度分布形状の例を示す。図において、Vがユーザ音声であり、Nがノイズである。ユーザ音声Vは、通常、非ガウス信号であり、特定の振幅をピークとする急峻な形状を有している。これに対してノイズは、ユーザ音声Vと比較して広範囲にわたって分布している。従って、ユーザ音声VとノイズNを比較すると、最大値や平均値等に基づいて決定される頻度における振幅の分布幅がユーザ音声Vの方がノイズNよりも狭い。
【0035】
このとき、実際の処理において、当該クラスタリング決定部242は、結合確率密度分布において、最大値から一定割合分、頻度の値を下げたときの分布幅の値をそれぞれの分離信号について算出する。そして、それらの分布幅を比較し、分布幅が小さいと判定された分離信号をユーザ音声と判定し、分布幅が大きい方をノイズと判定する。
【0036】
続いて、図3のフローチャートを用いて、パーミュテーション問題の解決処理について具体的に説明する。
【0037】
まず、独立成分分析部22等によって、複数の分離信号からなる分離信号群Y(f,m)を作成する(S101)。ここで、lは群番号、fは周波数ビン、mはフレーム番号である。次に、パーミュテーション解決部24の結合確率密度分布推定部241は、未決定の周波数ビンがあるかどうかを判定する(S102)。結合確率密度分布推定部241は、判定の結果、未決定の周波数ビンがあると判定した場合には、未決定の周波数ビンからfを選択する(S103)。
【0038】
そして、結合確率密度分布推定部241は、周波数fの分離信号群Y(f,m)の結合確率密度分布を計算する(S104)。次に、クラスタリング決定部242は、計算された周波数fの分離信号群Y(f,m)の結合確率密度分布の形状より特徴量(非ガウス性)を抽出する(S105)。
【0039】
クラスタリング決定部242は、抽出された特徴量に基づいて、非ガウス性が最も高い信号を音声Y(f,m)とし、それ以外の信号をノイズY(f,m)と決定する(S106)。その後、ステップS102の処理に戻る。
【0040】
ステップS102において、未決定の周波数ビンがないと判定された場合には、各周波数において、ユーザ音声かノイズかをクラスタリングされた結果を示す、音声Y(f,m)、ノイズY(f,m)を出力する。
【0041】
図5を用いて、本実施の形態にかかる信号分離方法について検証した結果につき説明する。図において白抜き部分が信号が存在することを示す。図5(a)は、分離信号Y(f,m)と、分離信号Y(f,m)のそれぞれに音声とノイズが混入している場合、即ち、音声とノイズが独立でない場合を示している。この場合には、Y軸、Y軸ともに同様の信号波形が得られた。
【0042】
図5(b)は、分離信号Y(f,m)が音声、分離信号Y(f,m)がノイズである場合を示している。この場合には、Y軸上では非ガウス分布が観察され、Y軸上ではガウス分布が観察された。
【0043】
図5(c)は、分離信号Y1がノイズ、分離信号Y2が音声である場合を示している。この場合には、Y軸上ではガウス分布が観察され、Y軸上では非ガウス分布が観察された。図5(b)(c)で示されるように音声がY、Yで入れ替わっていることが図のような分析結果をみればわかる。
【0044】
以上、説明したように、本実施の形態にかかる信号分離装置では、分離信号の結合確率密度分布の形状に基づいて、クラスタリング決定したため、どのクラスタがユーザ音声かを正確に判別することができる。
【図面の簡単な説明】
【0045】
【図1】本発明にかかる信号分離装置の全体構成を示すブロック図である。
【図2】本発明にかかるパーミュテーション解決部の構成を示すブロック図である。
【図3】本発明にかかる信号分離処理の流れを示すフローチャートである。
【図4】分離信号の結合確率密度分布の例を示すグラフである。
【図5】本発明にかかる信号分離方法について検証した結果を説明するための図である。
【図6】従来のパーミュテーション解決部の構成を示すブロック図である。
【符号の説明】
【0046】
1 A/D変換部
2 雑音抑圧処理部2
3 音声認識部
21 離散フーリエ変換部
22 独立成分分析部
23 利得補正部
24 パーミュテーション解決部
25 逆離散フーリエ変換部
241 結合確率密度分布推定部
242 クラスタリング決定部
243 音源方位推定部

【特許請求の範囲】
【請求項1】
入力された音信号から特定の音声信号とノイズ信号を分離する信号分離装置であって、
前記音信号において少なくとも第1の信号と第2の信号を分離する信号分離手段と、
前記信号分離手段によって分離された第1の信号と第2の信号のそれぞれの結合確率密度分布を算出する結合確率密度分布算出手段と、
前記結合確率密度分布算出手段によって算出された結合確率密度分布の形状に基づいて、前記第1の信号と前記第2の信号のいずれが前記特定の音声信号かノイズ信号かを決定するクラスタリング決定手段とを備えた信号分離装置。
【請求項2】
前記クラスタリング決定手段は、当該結合確率密度分布の形状が非ガウス形状である信号を特定の音声信号と判定し、ガウス形状である信号をノイズ信号と判定することを特徴とする請求項1記載の信号分離装置。
【請求項3】
前記クラスタリング決定手段は、当該結合確率密度分布の形状における分布幅に基づいて特定の音声信号とノイズ信号を判別することを特徴とする請求項1記載の信号分離装置。
【請求項4】
前記クラスタリング決定手段は、前記結合確率密度分布の形状において最大となる頻度値に基づいて決定された頻度値における分布幅に基づいて、特定の音声信号とノイズ信号を判別することを特徴とする請求項3記載の信号分離装置。
【請求項5】
前記信号分離手段は、入力した音信号に含まれる複数の周波数のそれぞれについて第1の信号と第2の信号を分離することを特徴とする請求項1〜4いずれかに記載の信号分離装置。
【請求項6】
請求項1〜5いずれかに記載の信号分離装置と、前記信号分離装置に対して音信号を供給する複数のマイクロフォンからなるマイクロフォンアレイとを備えたロボット。
【請求項7】
入力された音信号から特定の音声信号とノイズ信号を分離する信号分離方法であって、
前記音信号において少なくとも第1の信号と第2の信号を分離するステップと、
前記第1の信号と第2の信号のそれぞれの結合確率密度分布を算出するステップと、
算出された結合確率密度分布の形状に基づいて、前記第1の信号と前記第2の信号のいずれが前記特定の音声信号かノイズ信号かを決定するステップとを備えた信号分離方法。
【請求項8】
当該結合確率密度分布の形状が非ガウス形状である信号を特定の音声信号と判定し、ガウス形状である信号をノイズ信号と判定することを特徴とする請求項7記載の信号分離方法。
【請求項9】
前記結合確率密度分布の形状における分布幅に基づいて特定の音声信号とノイズ信号を判別することを特徴とする請求項7記載の信号分離方法。
【請求項10】
前記結合確率密度分布の形状において最大となる頻度値に基づいて決定された頻度値における分布幅に基づいて、特定の音声信号とノイズ信号を判別することを特徴とする請求項9記載の信号分離方法。
【請求項11】
入力した音信号に含まれる複数の周波数のそれぞれについて第1の信号と第2の信号を分離することを特徴とする請求項7〜10いずれかに記載の信号分離方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2009−217063(P2009−217063A)
【公開日】平成21年9月24日(2009.9.24)
【国際特許分類】
【出願番号】特願2008−61727(P2008−61727)
【出願日】平成20年3月11日(2008.3.11)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成19年9月12日発行の社団法人日本音響学会が主催する研究集会の予稿集「日本音響学会2007年秋季研究発表会〔講演論文集〕講演要旨・講演論文CD−ROM」に掲載
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【出願人】(504143441)国立大学法人 奈良先端科学技術大学院大学 (226)
【Fターム(参考)】