説明

雑音及び残響抑圧装置及びその方法

【課題】環境の変化に適応して、雑音及び残響の両方を自動的に抑圧する。
【解決手段】周波数領域に変換された入力信号を用いて、各周波数での分離フィルタ行列を作成するフィルタ作成部と、推定雑音を算出する雑音推定部と、分離フィルタ行列の逆行列の各要素を時間領域に変換して推定空間伝達特性として取得し、推定空間伝達特性から音声の直接音声及び初期反射に相当する区間を切出し、当該切出した区間を周波数領域に変換して各周波数での直接音声及び初期反射フィルタ行列を作成し、推定直接音声及び初期反射音声を算出する直接音声・初期反射音声推定部と、与えられる空間の残響時間と、直接音声・初期反射音声推定部により切出した区間のパワー量と、から、各周波数での後期残響特性のフィルタ係数を算出し、擬似後期残響を算出する後期残響生成部と、を備え、混合観測信号中の雑音及び後期残響を抑圧する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は雑音及び残響抑圧装置及びその方法に関する。
【背景技術】
【0002】
ロボットに対してユーザが音声コマンド入力を行うハンズフリー音声コマンド認識システム(以下、単に音声認識システムと称する。)が開発されている。ここで、図7に示すように、実環境においてロボットRにより収音される音は、ユーザPの音声(以下、ユーザ音声と称する。)の直接音と、ユーザ音声の後期残響音と、雑音とを含んでいる。なお、図では、ユーザ音声の直接音を実線で示し、ユーザ音声の後期残響音を破線で示し、雑音を一転鎖線で示している。
【0003】
音声認識システでは、ロボットは、マイクロホンによる観測信号からユーザの音声を認識するが、音声認識性能を劣化させる要因として、(1)ユーザ音声以外の混入雑音、(2)ユーザ音声の後期残響成分の影響、などが挙げられる。
【0004】
なお、ユーザ音声の残響は音声認識性能の劣化要因となるが、後述する従来技術に示されるように、初期残響成分については、音声認識システム内の音響モデルにおいて「残響モデル」を用いることで、その影響が除去可能であることが知られている。
【0005】
従来、雑音や残響が発生する環境下において、雑音のみ、或いは、残響のみのいずれかの抑圧を目的とする技術が開発されている。
例えば、非特許文献1、2には、後期残響成分の抑圧を目的とする技術が開示されている。図8に、非特許文献1、2に開示された音声認識システムの機能構成を示す。尚、図では、通常の太さの線は信号を伝送していることを意味しており、それよりも太い線はフィルタを伝送していることを意味している。
【0006】
図8に示すように、後期残響推定部501は、マイクロホン1からの観測信号を受けて、予め測定しておいた環境の残響特性から後期残響成分を推定する。また、予め測定しておいた環境の残響特性から補正係数が求められており、ゲイン補正部502は、与えられる補正係数を用いて、推定した後期残響成分の振幅を補正する。残響抑圧処理部503は、振幅が補正された後期残響成分を用いて、マイクロホン1からの観測信号に含まれる後期残響を抑圧する。このように、観測された信号から後期残響成分を推定して、その推定した後期残響成分を減算することで、ユーザ音声の後期残響成分を抑圧する。
【0007】
また、例えば、非特許文献3には、雑音の抑圧を目的とする技術が開示されている。図9に、非特許文献3に開示された音声認識システムの機能構成を示す。尚、図9においても、各太さの線は図8と同様のことを意味している。
【0008】
図9において、ブラインド音原分離(BSS)601、音声・雑音選択部602、及び多チャンネル雑音推定部603では、複数のマイクロホン素子からなるマイクロホンアレイ2からの観測信号を受けて、混合音を分離して雑音成分を推定する。マスク生成部604及び雑音抑圧処理部605では、推定した雑音成分からマスクを作成して、この作成したマスクを用いて観測信号に含まれる雑音を抑圧する。さらに、直接音声強調部606では、雑音抑圧後の観測信号に含まれるユーザ音声の直接音を強調する。このように、ブラインド音源分離(BSS)(もしくは、ブラインド音源抽出(BSE))アルゴリズムを用いて混入した雑音成分を推定し、観測信号と雑音推定量を入力としたWiner Filter処理を行ってユーザ音声を抽出することで、ハンズフリーのための音声強調処理を行う。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2003−066986号公報
【特許文献2】特開2009−509673号公報
【特許文献3】特開2003−334785号公報
【特許文献4】特開2003−305670号公報
【特許文献5】特開2004−098252号公報
【非特許文献】
【0010】
【非特許文献1】Randy Gomez, Jani Even, Hiroshi Saruwatari, Kiyohiro Shikano, "Robustness in Microphone-speaker Location under Reverberant Conditions for Speech Recognition," 日本音響学会講演論文集, pp. 159-160, 2008年3月.
【非特許文献2】Randy Gomez, Jani Even, Hiroshi Saruwatari, Kiyohiro Shikano, "DISTANT-TALKING ROBUST SPEECH RECOGNITION USING LATE REFLECTION COMPONENTS OF ROOM IMPULSE RESPONSE," ICASS, pp. 4581-4584, 2008.
【非特許文献3】Jani Even, Hiroshi Saruwatari, Kiyohiro Shikano, Tomoya Takatani, "Speech enhancement in presence of diffuse background noise using sparsity based blind signal extraction," 日本音響学会講演論文集, pp. 765-768, 2009年9月.
【非特許文献4】Jani Even, Randy Gomez, Hiroshi Saruwatari, Kiyohiro Shikano, "Combining blind signal separation and spectral subtraction of late impulse response effect for dereverberation in noisy and highly reverberant environment," 日本音響学会講演論文集, pp. 839-842, 2008年9月.
【非特許文献5】吉岡拓也、中谷智広、奥乃博、"重みつき予測誤差法におけるMIMO残響除去フィルタの効率的最適化法"、日本音響学会講演論文集、pp.651−654、2009年9月。
【非特許文献6】Takuya Yoshioka, Tomohiro Nakatani, and Masato Miyoshi, "FAST SLGORITHM FOR CONDITIONAL SEPARATION AND DEREVERBERATION," EURASIP, pp. 1432-1436, 2009.
【発明の概要】
【発明が解決しようとする課題】
【0011】
一方で、本願発明者は、雑音及び残響の両方を抑圧可能とするために、図10に示す技術を創作した。
図10に示す技術では、まず、ブラインド音源分離(BSS)701、音声・雑音選択部702、多チャンネル雑音推定部703、マスク生成部704、雑音抑圧処理部705、直接音声強調部706では、図9に示した技術と同様にして雑音を抑圧した後に直接音声を強調する。そして、後期残響推定部707、ゲイン補正部708、及び残響抑圧処理部709では、図8に示した技術と同様に、予め測定しておいた環境の残響特性を用いて後期残響を抑圧する。これにより、雑音及び残響の両方を抑圧可能とするものである。
【0012】
図11は、図8、9、10に示した各技術が備える機能を示す表である。図に示すように、図8に示した技術では雑音を抑圧することができず、図9に示した技術では後期残響を抑圧することができず、図10に示した技術では、雑音及び後期残響の両方を抑圧できるが、ゲイン補正係数を求めるために事前に運用環境データの収集を行っておく必要があり、環境が変化した場合には、再度、運用環境データの収集が必要となる。なお、ゲイン補正係数は後期残響成分を抑圧するために用いるものであるため、図9に示した技術ではゲイン補正係数は不要である。
【0013】
しかしながら、図10に示した雑音及び残響の両方を抑圧可能とする技術においても、依然として、部屋などの空間の残響特性を示す空間伝達特性については、各空間において予め残響特性を測定しておき、空間に応じた残響特性をユーザがロボットに与える必要があった。
【0014】
ロボットが音声認識に用いるモデルは、響のない理想的な環境下において作成したものであるため、響によりユーザ音声の直接音以外の他の音が混入すると、モデルとの間でミスマッチを引き起こしてしまう。
【0015】
響のある環境下で予め必要なデータを取得しておいた上でモデルを作成すれば、このようなミスマッチを回避することが可能であるが、様々な環境に対して予めこのような準備を行うのは、経済的・時間的にもコストがかかり現実的ではない。このため、事前に運用環境データの収集を必要とせずに、環境の変化に適応して、雑音及び残響の両方を自動的に抑圧可能な技術が強く求められている。
【0016】
なお、雑音及び残響の両方を抑圧することを目的とする技術としては、他にも非特許文献4乃至6に開示された技術があるが、いずれの技術においても、事前に運用環境データの収集を必要とするものであり、空間の残響特性を自動的に作成する点については開示されていない。
【0017】
また、その他の雑音抑圧技術として特許文献1乃至5などに開示される技術があるが、例えば特許文献1や特許文献2に開示された技術では、雑音の抑圧のみを可能とするものにすぎない。
【0018】
従って、本発明は、上述した課題を解決して、環境の変化に適応して、雑音及び残響の両方を自動的に抑圧可能な雑音及び残響抑圧装置及びその方法を提供することを目的とする。
【課題を解決するための手段】
【0019】
本発明の第一の態様に係る雑音及び残響抑圧装置は、音声及び雑音を含む混合観測信号が周波数領域に変換された入力信号を用いて、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するフィルタ作成部と、前記入力信号と、前記分離フィルタ行列と、前記分離フィルタ行列の逆行列と、を用いて、推定雑音を算出する雑音推定部と、前記分離フィルタ行列の逆行列の各要素を時間領域に変換して推定空間伝達特性として取得し、前記推定空間伝達特性から前記音声の直接音声及び初期反射に相当する区間を切出し、当該切出した区間を周波数領域に変換して各周波数での直接音声及び初期反射フィルタ行列を作成し、前記入力信号と、前記分離フィルタ行列と、前記直接音声及び初期反射フィルタ行列と、を用いて、推定直接音声及び初期反射音声を算出する直接音声・初期反射音声推定部と、与えられる空間の残響時間と、前記直接音声・初期反射音声推定部により切出した区間のパワー量と、から、各周波数での後期残響特性のフィルタ係数を算出し、前記推定直接音声及び初期反射音声と、前記分離フィルタ行列と、前記後期残響特性のフィルタ係数と、を用いて、擬似後期残響を算出する後期残響生成部と、を備え、前記雑音推定部により算出した前記推定雑音と、前記後期残響生成部により算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響を抑圧するものである。
【0020】
これにより、環境が変化した場合においても、新たな空間の観測信号に基づいて推定直接音声及び初期反射音声を算出し、後期残響特性を自動的に作成して、算出した推定直接音声及び初期反射音声と、作成した後期残響特性と、から後期残響を算出することができるため、環境の変化に適応して、雑音及び残響の両方を自動的に抑圧することができる。
【0021】
また、前記入力信号と、前記雑音推定部により算出した前記推定雑音と、を用いて、雑音抑圧マスクを算出する雑音抑圧マスク生成部と、前記雑音抑圧マスクを用いて、前記混合観測信号中の雑音を抑圧する雑音抑圧処理部と、前記雑音抑圧マスク生成部により算出した前記雑音抑圧マスクを用いて、前記後期残響生成部により算出した前記擬似後期残響の振幅を補正するゲイン補正部と、を更に備え、前記ゲイン補正部により振幅が補正された後の擬似後期残響を用いて、前記混合観測信号中の後期残響を抑圧するようにしてもよい。
【0022】
さらにまた、前記入力信号と、前記ゲイン補正部により振幅が補正された後の擬似後期残響と、を用いて、後期残響音抑圧マスクを算出する後期残響音抑圧マスク生成部と、前記後期残響音抑圧マスクを用いて、前記混合観測信号中の残響を抑圧する後期残響音抑圧処理部と、を更に備えるようにしてもよい。
【0023】
また、前記フィルタ作成部は、前記入力信号を用いて適応学習処理を行い、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するブラインド音源分離と、前記ブラインド音源分離により作成した前記分離フィルタ行列の第一要素が前記音声となるように入れ替えを行う音声・雑音選択部と、前記音声雑音・選択部により入れ替えを行った後の分離フィルタ行列の逆行列を算出する逆行列演算部と、を備えるようにしてもよい。
【0024】
また、前記雑音推定部により算出した前記推定雑音と、前記後期残響生成部により算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響が抑圧された後の信号について、直接音声を強調する直接音声強調部を更に備えるようにしてもよい。
【0025】
本発明の第二の態様に係る雑音及び残響の抑圧方法は、音声及び雑音を含む混合観測信号を周波数領域に変換して入力信号とするステップと、前記入力信号を用いて、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するステップと、作成した前記分離フィルタ行列の逆行列を算出するステップと、前記入力信号と、作成した前記分離フィルタ行列と、作成した前記分離フィルタ行列の逆行列と、を用いて、推定雑音を算出するステップと、作成した前記分離フィルタ行列の逆行列の各要素を時間領域に変換して推定空間伝達特性として取得するステップと、取得した前記推定空間伝達特性から前記音声の直接音声及び初期反射に相当する区間を切出すステップと、切出した前記区間を周波数領域に変換して各周波数での直接音声及び初期反射フィルタ行列を作成するステップと、前記入力信号と、作成した前記分離フィルタ行列と、作成した前記直接音声及び初期反射フィルタ行列と、を用いて、推定直接音声及び初期反射音声を算出するステップと、与えられる空間の残響時間と、切出した前記区間のパワー量と、から、各周波数での後期残響特性のフィルタ係数を算出するステップと、算出した前記推定直接音声及び初期反射音声と、作成した前記分離フィルタ行列と、算出した前記後期残響特性のフィルタ係数と、を用いて、擬似後期残響を算出するステップと、算出した前記推定雑音と、算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響を抑圧するステップと、を有するものである。
【発明の効果】
【0026】
本発明によれば、環境の変化に適応して、雑音及び残響の両方を自動的に抑圧可能な雑音及び残響抑圧装置及びその方法を提供することができる。
【図面の簡単な説明】
【0027】
【図1】実施の形態1にかかる雑音及び残響抑圧装置の機能構成図である。
【図2】実施の形態1にかかるフィルタ作成部の機能構成図である。
【図3】実施の形態1にかかる切出し処理を説明するための図である。
【図4】その他の実施の形態にかかる雑音及び残響抑圧装置の機能構成図である。
【図5】その他の実施の形態にかかる雑音及び残響抑圧装置の機能構成図である。
【図6】その他の実施の形態にかかる雑音及び残響抑圧装置の機能構成図である。
【図7】実環境において収音される音を示す図である。
【図8】本発明に関連する残響抑圧技術の機能構成図である。
【図9】本発明に関連する雑音抑圧技術の機能構成図である。
【図10】本発明に関連する雑音及び残響抑圧技術の機能構成図である。
【図11】本発明に関連する各技術の課題を示す表である。
【図12】本発明において用いる行列を例示する図である。
【図13】本発明において用いる行列を例示する図である。
【発明を実施するための形態】
【0028】
実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。図1及び図2は、本発明の一実施形態に係る雑音及び残響抑圧装置のシステム構成を示すブロック図である。尚、図では、通常の太さの線は信号を伝送していることを意味しており、それよりも太い線はフィルタを伝送していることを意味している。
【0029】
本実施の形態に係る雑音及び残響抑圧装置100は、マイクロホンアレイ2と、フィルタ作成部10と、雑音推定部21と、雑音抑圧マスク生成部22と、雑音抑圧処理部23と、直接音声・初期反射音声推定部24と、後期残響生成部25と、ゲイン補正部26と、後期残響音抑圧マスク生成部27と、後期残響音抑圧処理部28と、直接音声強調部29と、を備えている。
【0030】
なお、雑音及び残響抑圧装置100は、主要なハードウェア構成として、制御処理、演算処理等を行うCPU(Central Processing Unit)と、CPUによって実行される制御プログラム、演算プログラム等が記憶されたROM(Read Only Memory)と、処理データ等を一時的に記憶するRAM(Random Access Memory)と、を有するマイクロコンピュータにより構成されている。また、フィルタ作成部10と、雑音推定部21と、雑音抑圧マスク生成部22と、雑音抑圧処理部23と、直接音声・初期反射音声推定部24と、後期残響生成部25と、ゲイン補正部26と、後期残響音抑圧マスク生成部27と、後期残響音抑圧処理部28と、直接音声強調部29と、は、例えば、上記ROMに格納され、上記CPUによって実行されるプログラムにより実現されていてもよい。
【0031】
雑音及び残響抑圧装置100は、フィルタ作成部10と、雑音推定部21と、雑音抑圧マスク生成部22と、雑音抑圧処理部23と、を含む部分において、雑音抑圧に関する処理を行う。また、フィルタ作成部10と、直接音声・初期反射音声推定部24と、後期残響生成部25と、ゲイン補正部26と、後期残響音抑圧マスク生成部27と、後期残響音抑圧処理部28と、を含む部分において、後期残響音抑圧に関する処理を行う。また、直接音声強調部29を含む部分において、直接音の強調に関する処理を行う。さらに、直接音声強調29から出力される信号に基づいて、音声認識処理が行われる。
【0032】
また、フィルタ作成部10では、バッチ処理を行い、所定量の観測信号(音声データ)を蓄積した上で、蓄積した音声データを用いてフィルタ作成処理を行う。フィルタ作成部10を除く雑音推定部21などでは、フィルタ作成部10で作成されたフィルタを利用して、リアルタイム処理を行う。
【0033】
雑音及び残響抑圧装置10による処理の概要を説明する。まず、マイクロホンアレイ2により観測される観測信号には、ユーザ音声と雑音が含まれている。そして、ユーザ音声には、直接音声と、初期反射音と、後期残響音と、が含まれている。フィルタ作成部10では、観測信号からユーザ音声と雑音とを分離し、この際、分離フィルタを作成する。この分離フィルタにより分離される推定雑音を利用して、観測信号の雑音が抑圧される。一方で、直接音声・初期反射音声推定部24では、この分離フィルタを利用して、観測信号から、ユーザ音声の直接音声及び初期反射音を推定する。そして、後期残響生成部25では、人工的な後期残響特性を作成して、推定されたユーザ音声の直接音声及び初期反射音と作成した後期残響特性とから擬似後期残響を作成する。そして、この作成された擬似後期残響を利用して、観測信号のユーザ音声の後期残響が抑圧される。
【0034】
マイクロホンアレイ2は、複数のマイクロホン素子から構成され、ユーザ音声及び雑音が混合された混合音を観測する。これら複数のマイクロホンは、例えばロボットRの頭部に設けられており、水平方向に複数配置されている。各マイクロホンの観測信号が各チャネルiに対応する。
【0035】
各マイクロホンによる観測信号が、図示しないADコンバータによりデジタルデータ(以下、音声データと称する。)に変換される。さらに、各マイクロホンの音声データは所定の時間分蓄積され、フレーム単位に分割される。そして、フレーム単位の音声データに対して離散フーリエ変換処理が行われ、時間・周波数領域の入力信号ベクトルX(f,t)に変換される。
【0036】
フィルタ作成部10は、図2に示すように、ブラインド音源分離(BSS)11と、音声・雑音選択部12と、逆行列演算部13と、を備えている。フィルタ作成部10は、入力信号ベクトルX(f,t)を用いて、入力信号ベクトルX(f,t)からユーザ音声を分離するための、各周波数での分離フィルタ行列を作成する。以下、図2を参照して、ブラインド音源分離(BSS)11などについて説明する。
【0037】
ブラインド音源分離(BSS)11は、入力信号ベクトルX(f,t)を用いて適応学習処理を行い、各周波数での分離フィルタ行列W(f)を作成する。また、ブラインド音源分離(BSS)11は、作成した分離フィルタ行列W(f)を用いて、出力信号ベクトルY(f,t)=W(f)X(f,t)を出力する。
なお、ブラインド音源分離(BSS)11は、ここでは、従来提案されている独立成分分析や主成分分析を用いて、事前情報を用いることなく適応学習が可能な処理を行う。
【0038】
音声・雑音選択部12は、出力信号ベクトルY(f,t)の第1要素(Y(1)(f,t))が音声データとなるように、分離フィルタ行列W(f,t)の要素を入れ替える。
これは、ブラインド音源分離(BSS)11の出力信号は、ユーザ音声又は雑音というようにクラスタリングされており、これは周波数ビンごとのクラスタリング結果になっているが、ユーザ音声と雑音とが入れ替わっている可能性があるためである。
【0039】
なお、音声・雑音選択部12による処理は、入れ替わり(permuation)解法とも呼ばれ、例えば、従来提案されている解法(出力信号ベクトルY(f,t)間の結合密度確率分布を求め、この結合確率密度分布の形状に基づいて、ユーザ音声と雑音を振り分ける手法)を利用すればよい。また、ここで利用する解法は多数存在するため、その他の解法を用いてもよい。例えば、(1)周辺確率密度分布の尖度を利用する解法、(2)音源信号の分離信号の包絡線を利用する解法、(3)位相情報の連続性を利用する解法、(4)空間スペクトルを利用する解法、などを利用してもよい。
【0040】
逆行列演算部13は、出力信号ベクトルY(f,t)の算出に用いた分離フィルタ行列W(f)について、その逆行列H(f)=W−1(f)を算出する。求めた逆行列H(f)は、空間伝達特性行列の推定値であり、部屋などの空間の残響特性を意味している。
【0041】
ユーザ音声と雑音とが混合された観測信号が得られる関係は、ユーザ音声及び雑音の各音源から観測信号への写像に相当し、これに対して、雑音が混入された観測信号をユーザ音声と雑音とに分離することは、観測信号から各音源への写像に相当する。ブラインド音源分離(BSS)11において作成する分離行列フィルタ行列W(f)が観測信号から各音源への写像を意味するため、分離行列フィルタ行列W(f)の逆行列H(f)を求めることは、ユーザ音声及び雑音の各音源から観測信号への写像を求めることを意味している。
【0042】
図1に戻って説明を続ける。
雑音推定部21は、以下の計算式を用いて、入力信号ベクトルX(f,t)と、分離フィルタ行列W(f,t)と、空間伝達特性行列の推定値H(f)とから、観測信号(入力信号ベクトルX(f,t))に含まれる雑音信号ベクトルX(f,t)を算出する。すなわち、雑音推定部21は、観測信号(入力信号)に含まれる雑音成分を推定する。
(f,t)=H(f)D(f)W(f)X(f,t)
ただし、D(f)はi行i列(1<i)目の要素が1である対角行列を示す。なお、一般的な対角行列では全ての対角要素が1であるが、ここで用いるD(f)は、ユーザ音声を求めないようにするため、1行1列目の要素を0とし、残りの対角要素は全て1とする。このため、例えば3行3列の場合には図12(a)に示す行列となり、4行4列の場合には、図12(b)に示す行列となる。
【0043】
直接音声・初期反射音声推定部24は、逆行列演算部13により求めた行列H(f)の各要素について逆高速フーリエ変換処理を行い、時間領域に変換後の空間伝達特性の推定値を得る。そして、この推定値の中から、各マイクロホンへの直接音声・初期反射音声に相当する区間を窓関数により切り出し、切り出した区間についてフーリエ変換処理を行って周波数領域へと変換することで、各周波数での直接音声・初期反射音声推定フィルタ行列を作成する。ここで得たフーリエ変換処理後の行列をH(f)とする。なお、切り出しの際に用いる窓の長さhはパラメータとして与えられ、例えば、非特許文献1のFig.3で求められたhの値(70[taps])を用いればよい。直接音声・初期反射音声推定部24による切り出し処理は、例えば、空間伝達特性の推定値を時間領域に変換後の波形を図3の左図に示した場合に、これをhの長さの窓により、図3の右図に示すように切り出すことである。
【0044】
さらに、直接音声・初期反射音声推定部24は、以下の計算式を用いて、フーリエ変換後の直接音声・初期反射音声推定フィルタ行列H(f)と、分離行列フィルタ行列W(f)と、観測信号(入力信号ベクトルX(f,t))とから、観測信号に含まれるユーザ音声の直接音・初期反射音信号ベクトルX(f,t)を算出する。すなわち、直接音声・初期反射音声推定部24は、観測信号に含まれるユーザ音声の直接音・初期反射音成分を推定する。
(f,t)=H(f)D(f)W(f)X(f,t)
ただし、D(f)はi行i列(1<i)目の要素のみが1で、他の要素は全て0である行列を示す。ここで用いるD(f)は、雑音を求めないようにするため、1行1列目の要素のみを1とし、残りの要素は全て0とする。このため、例えば3行3列の場合には図13(a)に示す行列となり、4行4列の場合には、図13(b)に示す行列となる。
【0045】
後期残響生成部25は、以下の計算式を用いて、ユーザ音声の直接音・初期反射音信号ベクトルX(f,t)と、後述するH(f)とから、後期残響推定信号ベクトルX(f,t)を算出する。すなわち、後期残響生成部25は、擬似的な後期残響成分を生成する。なお、X(i)(f,t)は、ベクトルX(f,t)のi番目の要素を示す。また、各マイクロホンに対して同じH(f)を用いる。
(i)(f,t)=X(i)(f,t)H(f)
ここで、H(f)は後期残響特性のフィルタ係数を示し、ユーザにより与えられる部屋の残響時間(T60)と、直接音声・初期反射音声推定部25でカットしたパワー量(すなわち、切出した区間のパワー量)と、から決定される。より具体的には、直接音声及び初期反射音声のパワー量と後期残響のパワー量との比は、直接音声・初期反射音声推定部25において切出した区間のパワー量とその他の切出されなかった区間のパワー量との比に相当するため、この比率に基づいて残響時間から求める後期残響の振幅を補正することで、後期残響特性のフィルタ係数を算出することができる。なお、H(f)の算出は、従来知られた公知の計算式を用いて行えばよいため、ここでは、その詳細な説明を省略する。
【0046】
雑音抑圧マスク生成部22は、以下の計算式を用いて、入力信号ベクトルX(f,t)と雑音信号ベクトルX(f,t)とから、雑音抑圧マスクベクトルM(f,t)を算出する。なお、M(i)(f,t)は、ベクトルM(f,t)のi番目の要素を示す。また、係数αは、雑音抑圧の程度を調整するパラメータであり、ユーザにより適切な値が与えられる。
(i)(f,t)=sqrt(|X(i)(f,t)|/(|X(i)(f,t)|+α|X(i)(f,t)|))
【0047】
雑音抑圧処理部23は、以下の計算式を用いて、観測信号(入力信号ベクトルX(f,t))と、雑音抑圧マスクベクトルM(f,t)と、から雑音抑圧後の中間出力信号ベクトルV(f,t)を算出する。すなわち、雑音抑圧処理部23は、観測信号に含まれる環境の雑音を抑圧する。なお、V(i)(f,t)は、ベクトルV(f,t)のi番目の要素を示す。
(i)(f,t)=M(i)(f,t)X(i)(f,t)
【0048】
ゲイン補正部26は、以下の計算式を用いて、後期残響推定信号ベクトルX(f,t)と、雑音抑圧マスクベクトルM(f,t)とから、中間出力信号ベクトルV(i)(f,t)を算出する。すなわち、ゲイン補正部26は、雑音抑圧マスクを用いて、後期残響推定成分の振幅を補正する。雑音抑圧マスク生成部22により求められた雑音抑圧マスクベクトルM(f,t)を、雑音抑圧処理部23と、ゲイン補正部26とで共通して用いることで、雑音抑圧処理部23での抑圧に応じて、ゲイン補正部26において後期残響推定成分の振幅を補正することができる。なお、V(i)(f,t)は、ベクトルV(f,t)のi番目の要素を示す。
(i)(f,t)=M(i)(f,t)X(i)(f,t)
【0049】
後期残響音抑圧マスク生成部27は、以下の計算式を用いて、雑音抑圧後の中間出力信号ベクトルV(f,t)と、中間出力信号ベクトルV(f,t)とから、残響抑圧マスクベクトルM(f,t)を算出する。なお、M(i)(f,t)は、ベクトルM(f,t)のi番目の要素を示す。また、係数αは、後期残響音抑圧の程度を調整するパラメータであり、ユーザにより適切な値が与えられる。
(i)(f,t)=sqrt(|V(i)(f,t)|/(|V(i)(f,t)|+α|V(i)(f,t)|))
【0050】
後期残響抑圧処理部28は、以下の計算式を用いて、雑音抑圧後の中間出力信号ベクトルV(f,t)と、残響抑圧マスクベクトルM(f,t)と、から、後期残響抑圧後の出力信号ベクトルY(f,t)を算出する。すなわち、後期残響抑圧処理部28は、残響抑圧マスクを用いて、雑音抑圧後の中間出力に含まれる後期残響を抑圧する。なお、Y(i)(f,t)は、ベクトルY(f,t)のi番目の要素を示す。
(i)(f,t)=M(i)(f,t)V(i)(f,t)
【0051】
直接音声強調部29は、以下の算出式を用いて、出力信号ベクトルY(f,t)から、直接音声強調後の出力信号ベクトルO(f,t)を算出する。すなわち、直接音声強調部29は、ユーザ方位θにビームを向け、直接音声を強調する。なお、ユーザ方位θは、音声・雑音選択部12で雑音成分を推定する際に得られる。
O(f,t)=Σ(i)(f,t)HDS(i)(f,t)
なお、HDS(i)(f,t)は、Delay and Sumのフィルタ係数であり、Σは全てのチャネルi(全てのマイクロホン素子)についての平均化処理を行うことを示す。また、Delay and Sumは、出力信号ベクトルY(f,t)から推定されたユーザ方位θを用いてマイクロホン素子間の到来時間差を補正し、ユーザ方位にビームを形成する手法である。
【0052】
以上説明したように、本実施の形態にかかる雑音及び残響抑圧装置100によれば、新たな空間の観測信号に基づいて推定直接音声及び初期反射音声を算出し、後期残響特性を空間の残響特性から自動的に作成して、算出した推定直接音声及び初期反射音声と、作成した後期残響特性と、から後期残響を算出することができるため、環境が変化した場合においても、環境の変化に適応して、雑音及び残響の両方を自動的に抑圧することができる。
【0053】
その他の実施の形態.
上述した実施の形態では、フィルタ作成部10がブラインド音源分離(BSS)を行う例を説明したが、本発明はこれに限定されない。例えば、図4に示すように、ブラインド音源分離(BSS)に代えて、ブラインド信号抽出(BSE)を適用するものとしてもよい。すなわち、図4に示すように、雑音及び残響抑圧装置200は、マイクロホンアレイ2と、ブラインド信号抽出(BSE)201と、射影ベクトル推定部202と、雑音推定部203と、雑音抑圧マスク生成部204と、雑音抑圧処理部205と、直接音声・初期反射音声推定部206と、後期残響生成部207と、ゲイン補正部208と、後期残響音抑圧マスク生成部209と、後期残響音抑圧処理部210と、直接音声強調部211と、を備える構成としてもよい。
【0054】
図4に示したブラインド信号抽出(BSE)201では、観測信号からユーザ音声を抽出して出力し、射影ベクトル推定部202では、これに基づいて、空間伝達特性行列の推定値を出力する。また、雑音推定部203で推定したユーザ方位θが、音声強調部211に出力される。なお、ブラインド信号抽出(BSE)201や射影ベクトル推定部202で行う処理は公知であるため、ここではその詳細な説明を省略する。
【0055】
また、上述した実施の形態では、雑音抑圧マスクと後期残響抑圧マスクとを別々のマスク生成部で生成する例を説明したが、本発明はこれに限定されない。例えば、図5に示すように、雑音抑圧マスクと後期残響抑圧マスクとを一つのマスク生成部で生成し、雑音抑圧処理と後期残響抑圧処理とを一つの抑圧処理部で行うものとしてもよい。すなわち、図5に示すように、雑音及び残響抑圧装置300は、マイクロホンアレイ2と、ブラインド音源分離(BSS)301と、音声・雑音選択部302と、逆行列演算部303と、雑音推定部304と、直接音声・初期反射音声推定部305と、後期残響生成部306と、雑音・後期残響音抑圧マスク生成部307と、雑音・後期残響音抑圧処理部308と、直接音声強調部309と、を備える構成としてもよい。
【0056】
また、例えば、図6に示すように、ブラインド音源分離(BSS)に代えて、ブラインド信号抽出(BSE)を適用すると共に、雑音抑圧マスクと後期残響抑圧マスクとを一つのマスク生成部で生成し、雑音抑圧処理と後期残響抑圧処理とを一つの抑圧処理部で行うものとしてもよい。すなわち、図6に示すように、雑音及び残響抑圧装置400は、マイクロホンアレイ2と、ブラインド信号抽出(BSE)401と、射影ベクトル推定部402と、雑音推定部403と、直接音声・初期反射音声推定部404と、後期残響生成部405と、雑音・後期残響音抑圧マスク生成部406と、雑音・後期残響音抑圧処理部407と、直接音声強調部408と、を備える構成としてもよい。
【0057】
ここで、図10やなどに示した本発明に関連する技術と比較した場合に、本発明と相違する点及び有利な効果についてさらに説明する。
(1)後期残響特性について
図10に示した技術では、空間の残響特性を予め与える必要がある。
これに対して本発明では、部屋などの残響時間から、自動的にその残響特性を作成することができる。
(2)残響音の推定方法について
図10に示した技術では、ユーザ音声の直接音と、初期反射音と、後期残響音とが含まれた信号を対象として、残響音の推定を行っている。
これに対して本発明では、ユーザ音声の直接音と、初期反射音と、が含まれた信号を対象として残響音の推定を行っている。これは、直接音及び初期反射音の推定機能を更に備えたことで実現している。
(3)後期残響抑圧処理前のゲイン補正について
図10に示した技術では、ゲイン補正係数は予め与えられ、補正係数を自動的に推定することができないため、予め部屋の特性を計測し、補正係数を求めておく必要がある。
これに対して本発明では、生成された後期残響は、自動的に補正される。本発明では、直接音声・初期反射音声を推定する際にカットされた伝達特性のパワー量(すなわち、切出されなかった区間のパワー量)と、作成する後期残響特性のパワー量とが、同量となるように補正する。
(4)直接音声強調処理による処理歪みの緩和について
図10に示した技術及び本発明ともに、直接音声強調処理ではDelay and Sum(DS)処理を採用している。DS処理には平均化処理が含まれており、その処理により各チャネルで生じていた抑圧処理歪みが緩和されるという副作用がある。
図10に示した技術では、直接音声強調処理後に残響抑圧処理を行うため、各チャネルの残響抑圧処理の歪みは緩和されない。
これに対して本発明では、雑音及び残響の両方を抑圧した後に直接音声強調処理を実施するため、各チャネルの残響除去処理の歪みを緩和することができる。
【0058】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0059】
100、200、300、400 雑音及び残響抑圧装置、
1 マイクロホン、 2 マイクロホンアレイ、 10 フィルタ作成部、
11 ブラインド音源分離(BSS)、 12 音声・雑音選択部、
13 逆行列演算部、 21 雑音推定部、 22 雑音抑圧マスク生成部、
23 雑音抑圧処理部、 24 直接音声・初期反射音声推定部、
25 後期残響生成部、 26 ゲイン補正部、 27 後期残響音抑圧マスク生成部、
28 後期残響音抑圧処理部、 29 直接音声強調部、

201 ブラインド信号抽出(BSE)、 202 射影ベクトル推定部、
203 雑音推定部、 204 雑音抑圧マスク生成部、
205 雑音抑圧処理部、 206 直接音声・初期反射音声推定部、
207 後期残響生成部、 208 ゲイン補正部、
209 後期残響音抑圧マスク生成部、 210 後期残響音抑圧処理部、
211 直接音声強調部、

301 ブラインド音源分離(BSS)、 302 音声・雑音選択部、
303 逆行列演算部、 304 雑音推定部、
305 直接音声・初期反射音声推定部、 306 後期残響生成部、
307 雑音・後期残響音抑圧マスク生成部、 308 雑音・後期残響音抑圧処理部、
309 直接音声強調部、

401 ブラインド信号抽出(BSE)、 402 射影ベクトル推定部、
403 雑音推定部、 404 直接音声・初期反射音声推定部、
405 後期残響生成部、 406 雑音・後期残響音抑圧マスク生成部、
407 雑音・後期残響音抑圧処理部、 408 直接音声強調部、

501 後期残響推定部、 502 ゲイン補正部、 503 残響抑圧処理部、

601 ブラインド音原分離(BSS)、 602 音声・雑音選択部、
603 多チャンネル雑音推定部、 604 マスク生成部、
605 雑音抑圧処理部、 606 直接音声強調部、

701 ブラインド音源分離(BSS)、 702 音声・雑音選択部、
703 多チャンネル雑音推定部、 704 マスク生成部、
705 雑音抑圧処理部、 706 直接音声強調部、 707 後期残響推定部、
708 ゲイン補正部、 709 残響抑圧処理部、

P ユーザ、R ロボット

【特許請求の範囲】
【請求項1】
音声及び雑音を含む混合観測信号が周波数領域に変換された入力信号を用いて、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するフィルタ作成部と、
前記入力信号と、前記分離フィルタ行列と、前記分離フィルタ行列の逆行列と、を用いて、推定雑音を算出する雑音推定部と、
前記分離フィルタ行列の逆行列の各要素を時間領域に変換して推定空間伝達特性として取得し、前記推定空間伝達特性から前記音声の直接音声及び初期反射に相当する区間を切出し、当該切出した区間を周波数領域に変換して各周波数での直接音声及び初期反射フィルタ行列を作成し、前記入力信号と、前記分離フィルタ行列と、前記直接音声及び初期反射フィルタ行列と、を用いて、推定直接音声及び初期反射音声を算出する直接音声・初期反射音声推定部と、
与えられる空間の残響時間と、前記直接音声・初期反射音声推定部により切出した区間のパワー量と、から、各周波数での後期残響特性のフィルタ係数を算出し、前記推定直接音声及び初期反射音声と、前記分離フィルタ行列と、前記後期残響特性のフィルタ係数と、を用いて、擬似後期残響を算出する後期残響生成部と、を備え、
前記雑音推定部により算出した前記推定雑音と、前記後期残響生成部により算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響を抑圧する
ことを特徴とする雑音及び残響抑圧装置。
【請求項2】
前記入力信号と、前記雑音推定部により算出した前記推定雑音と、を用いて、雑音抑圧マスクを算出する雑音抑圧マスク生成部と、
前記雑音抑圧マスクを用いて、前記混合観測信号中の雑音を抑圧する雑音抑圧処理部と、
前記雑音抑圧マスク生成部により算出した前記雑音抑圧マスクを用いて、前記後期残響生成部により算出した前記擬似後期残響の振幅を補正するゲイン補正部と、を更に備え、
前記ゲイン補正部により振幅が補正された後の擬似後期残響を用いて、前記混合観測信号中の後期残響を抑圧する
ことを特徴とする請求項1に記載の雑音及び残響抑圧装置。
【請求項3】
前記入力信号と、前記ゲイン補正部により振幅が補正された後の擬似後期残響と、を用いて、後期残響音抑圧マスクを算出する後期残響音抑圧マスク生成部と、
前記後期残響音抑圧マスクを用いて、前記混合観測信号中の残響を抑圧する後期残響音抑圧処理部と、を更に備える
ことを特徴とする請求項2に記載の雑音及び残響抑圧装置。
【請求項4】
前記フィルタ作成部は、
前記入力信号を用いて適応学習処理を行い、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するブラインド音源分離と、
前記ブラインド音源分離により作成した前記分離フィルタ行列の第一要素が前記音声となるように入れ替えを行う音声・雑音選択部と、
前記音声雑音・選択部により入れ替えを行った後の分離フィルタ行列の逆行列を算出する逆行列演算部と、を備える
ことを特徴とする請求項1乃至3いずれか1項に記載の雑音及び残響抑圧装置。
【請求項5】
前記雑音推定部により算出した前記推定雑音と、前記後期残響生成部により算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響が抑圧された後の信号について、直接音声を強調する直接音声強調部を更に備える
ことを特徴とする請求項1乃至4いずれか1項に記載の雑音及び残響抑圧装置。
【請求項6】
音声及び雑音を含む混合観測信号を周波数領域に変換して入力信号とするステップと、
前記入力信号を用いて、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するステップと、
作成した前記分離フィルタ行列の逆行列を算出するステップと、
前記入力信号と、作成した前記分離フィルタ行列と、作成した前記分離フィルタ行列の逆行列と、を用いて、推定雑音を算出するステップと、
作成した前記分離フィルタ行列の逆行列の各要素を時間領域に変換して推定空間伝達特性として取得するステップと、
取得した前記推定空間伝達特性から前記音声の直接音声及び初期反射に相当する区間を切出すステップと、
切出した前記区間を周波数領域に変換して各周波数での直接音声及び初期反射フィルタ行列を作成するステップと、
前記入力信号と、作成した前記分離フィルタ行列と、作成した前記直接音声及び初期反射フィルタ行列と、を用いて、推定直接音声及び初期反射音声を算出するステップと、
与えられる空間の残響時間と、切出した前記区間のパワー量と、から、各周波数での後期残響特性のフィルタ係数を算出するステップと、
算出した前記推定直接音声及び初期反射音声と、作成した前記分離フィルタ行列と、算出した前記後期残響特性のフィルタ係数と、を用いて、擬似後期残響を算出するステップと、
算出した前記推定雑音と、算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響を抑圧するステップと、を有する
ことを特徴とする雑音及び残響の抑圧方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2011−203414(P2011−203414A)
【公開日】平成23年10月13日(2011.10.13)
【国際特許分類】
【出願番号】特願2010−69531(P2010−69531)
【出願日】平成22年3月25日(2010.3.25)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【出願人】(504143441)国立大学法人 奈良先端科学技術大学院大学 (226)