音信号処理方法および音信号処理装置

【課題】雑音が抑圧されたより高い音声品質を実現する。
【解決手段】音信号処理方法200は、時間期間において第１の入力音信号の音声区間と雑音区間を判定し(222)、雑音区間における第１の入力音信号の電力の大きさが第１の閾値より大きいかどうかを判定する(230)。雑音区間における第１の入力音信号の電力の大きさが第１の閾値より大きくないと判定された場合には、第１の抑圧部226により、雑音区間における判定された電力の大きさに基づいて、第１の入力音信号の音声区間および雑音区間における雑音を抑圧する。雑音区間における第１の入力音信号の電力の大きさが第１の閾値より大きいと判定された場合には、第２の抑圧部２７０により、第１と第２の入力音信号の間の位相差に応じて第１の入力音信号を抑圧する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音信号の雑音抑圧処理に関し、特に、雑音の大きさに応じた音信号の雑音抑圧処理に関する。
【背景技術】
【０００２】
ノイズ抑圧装置は、入力音信号における音声を含む区間と背景雑音のみを含む区間とを判別し（ＶＡＤ判定し）、その背景雑音区間における背景雑音電力を検出し、その音区間においてその検出された背景雑音電力に対応する電力分を抑圧することができる。
【０００３】
マイクロホン・アレイは、少なくとも２つのマイクロホンのアレイを用い、受音して変換された音信号を処理することによって、所望の目的音の音源方向に受音範囲を限定しまたは指向性を制御し、雑音抑圧または目的音強調を行うことができる。
【０００４】
既知の或る音声信号送出装置では、送話位置Ｍからの通話音声及び雑音源からの雑音が各経路を通じて各マイクロホンに入力され、さらに各遅延器に入力する。この場合、それら遅延器から出力される音声信号のそれぞれの遅延量が等しくなるようにし、加算器では、それらの遅延量のそれぞれの音声信号及び雑音を加え合わせて出力する。雑音は時間相関が小さいので、この白色雑音の振幅は３倍にならず、音声信号の振幅は３倍の値になり、音声の明瞭度が向上する。
【０００５】
既知の或る会議用拡聴器では、マイクロホン・アレイの両端のマイクロホンに入力する音波の到来時間差を利用して音源方向検出手段で音源方向を検出し、各可変遅延素子の遅延量を調整して各マイクロホンの出力が同相になるようにして指向性を高め、また、入力する音源が変わった時はその都度ＡＧＣ手段により増幅手段の利得を自動調整する。それによって、背景雑音を抑制し、目的音声のみを適切な音量で歪みなく受聴できる。
【０００６】
既知の或る音源分離システムは、目的音到来方向に並べて配置された２個のマイクロフォンと、これらの受音信号を用いて目的音強調用の線形結合処理を行って目的音優勢の信号を生成する目的音優勢信号生成手段と、マイクロフォンの受音信号を用いて目的音抑制用の線形結合処理を行って目的音劣勢の信号を生成する目的音劣勢信号生成手段と、目的音優勢の信号のスペクトルと目的音劣勢の信号のスペクトルとを用いて目的音と妨害音とを分離する分離手段とを含む。それによって、目的音と任意の方向から到来する妨害音とを精度よく分離することができ、装置を小型化できる。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開平０７−３８９８４号公報
【特許文献２】特開平０９−１４００００号公報
【特許文献３】特開２００６−１９７５５２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
上述のノイズ抑圧装置では、音声成分が雑音成分に埋もれてしまうほど雑音電力が相対的に大きいとき、ＶＡＤ判定の精度が低くなる傾向がある。一方、上述のマイクロホン・アレイでは、個々のマイクロホン間に出荷時におけるおよび経年変化による特性の差が存在することがあり、例えばマイクロホン感度がばらつくので、マイクロホン間の位相差が理論通りに求まらないことがある。
【０００９】
発明者は、入力音信号の雑音の大きさに応じて、異なる抑圧法を適用すると、雑音が抑圧されたより高い音声品質を実現することができる、と認識した。
【００１０】
本発明の実施形態の目的は、雑音が抑圧されたより高い音声品質を実現することである。
【課題を解決するための手段】
【００１１】
本発明の実施形態の一観点によれば、情報処理装置における音信号処理方法は、或る時間期間において第１と第２の入力音信号の中のその第１の入力音信号の音声区間と雑音区間を判定する工程と、その雑音区間におけるその第１の入力音信号の電力の大きさを判定する工程と、その雑音区間におけるその第１の入力音信号の電力の大きさが第１の閾値より大きいかどうかを判定する工程と、その雑音区間におけるその第１の入力音信号の電力の大きさがその第１の閾値より大きくないと判定された場合には、その雑音区間におけるその判定された電力の大きさに基づいて、第１の抑圧部により、その第１の入力音信号のその音声区間およびその雑音区間における雑音を抑圧する工程と、その雑音区間におけるその第１の入力音信号の電力の大きさがその第１の閾値より大きいと判定された場合には、第２の抑圧部により、その第１の入力音信号とその第２の入力音信号の間の位相差に応じてその第１の入力音信号の雑音を抑圧する工程と、を含んでいる。
【発明の効果】
【００１２】
本発明の実施形態によれば、音信号の雑音抑圧後の音声品質を高くすることができる。
【図面の簡単な説明】
【００１３】
【図１】図１は、本発明の実施形態による音声情報装置の概略的構成の例を示している。
【図２】図２は、ディジタル信号プロセッサの概略的構成の例を示している。
【図３】図３は、音声区間のパワースペクトルと雑音区間のパワースペクトルの例を示している。
【図４】図４は、目的音源に対するそれぞれ２つのマイクロホンの空間的な配置の例を示している。
【図５】図５は、図４におけるマイクロホンの抑圧角度範囲の例を表している。
【図６】図６および７は、音源からの受音の角度方向に対する或る周波数に関する入力信号の位相差および誤差位相差の例を示している。
【図７】(図6で説明)
【図８Ａ】図８Ａ〜８Ｃは、２つのノイズ・サプレッサおよび制御部によって実行される、雑音抑圧のためのフローチャートの例を示している。
【図８Ｂ】(図8Aで説明)
【図８Ｃ】(図8Aで説明)
【発明を実施するための最良の形態】
【００１４】
発明の目的および利点は、請求の範囲に具体的に記載された構成要素および組み合わせによって実現され達成される。
【００１５】
前述の一般的な説明および以下の詳細な説明は、典型例および説明のためのものであって、本発明を限定するためのものではない。
【００１６】
本発明の非限定的な実施形態を、図面を参照して説明する。図面において、同様の構成要素には同じ参照番号が付されている。
【００１７】
図１は、本発明の実施形態による音声情報装置１０の概略的構成（configuration）の例を示している。
【００１８】
音声情報装置１０は、少なくとも２つのマイクロホンＭＩＣ１、ＭＩＣ２を含むマイクロホン・アレイ装置１００、ディジタル信号プロセッサ（ＤＳＰ）２００、および利用アプリケーション部４００を含んでいる。音声情報装置１０は、例えば音声認識機能を有する車載装置またはカー・ナビゲーション装置、ハンズフリー電話機、または携帯電話機のような情報機器であってもよい。
【００１９】
マイクロホン・アレイ装置１００は、受音部または音信号入力部としてのマイクロホンＭＩＣ１、ＭＩＣ２、増幅器（ＡＭＰ）１２２、１２４、低域通過フィルタ（ＬＰＦ）１４２、１４４、およびアナログ−ディジタル変換器（Ａ／Ｄ）１６２、１６４を具えている。ディジタル信号プロセッサ（ＤＳＰ）２００は、例えばＲＡＭ等を含むメモリ２０２に結合されている。
【００２０】
マイクロホンＭＩＣ１、ＭＩＣ２によって音波から変換されたアナログ入力信号ｉｎａ１、ｉｎａ２は、増幅器（ＡＭＰ）１２２、１２４にそれぞれ供給されて、増幅器１２２、１２４によって増幅される。増幅器１２２、１２４の出力の増幅されたアナログ音信号ＩＮａ１、ＩＮａ２は、例えば遮断周波数ｆｃ（例えば、３．９ｋＨｚ）の低域通過フィルタ（Low Pass Filter）１４２、１４４の入力にそれぞれ結合されて、低域通過濾波される。低域通過フィルタの代わりに、例えば通過周波数帯域０．４〜３．９ｋＨｚの帯域通過フィルタを用いてもよい。
【００２１】
低域通過フィルタ１４２、１４４の出力の濾波済みのアナログ信号ＩＮｐ１、ＩＮｐ２は、サンプリング周波数ｆｓ（例えば、８ｋＨｚ）（ｆｓ＞２ｆｃ）のアナログ−ディジタル変換器１６２、１６４の入力にそれぞれ結合されて、ディジタル入力信号に変換される。アナログ−ディジタル変換器１６２、１６４からの時間領域のディジタル入力信号ＩＮ１（ｔ）、ＩＮ２（ｔ）は、ディジタル信号プロセッサ（ＤＳＰ）２００の、音信号入力部としての入力端子ｉｔ１およびｉｔ２にそれぞれ結合される。
【００２２】
図２は、ディジタル信号プロセッサ２００の概略的構成（configuration）の例を示している。
【００２３】
ディジタル信号プロセッサ２００は、入力端子ｉｔ１およびｉｔ２にそれぞれ結合された入力バッファ・メモリ２１２および２１４、１マイクＭＩＣ１用のノイズ・サプレッサ（抑圧部）（ＮＳ）２２０、制御部またはモード切替部２３０、および２マイクＭＩＣ１およびＭＩＣ２用のノイズ・サプレッサ（抑圧部）（ＮＳ）２６０を含んでいる。入力バッファ・メモリ２１２および２１４は、マイクロホン・アレイ装置１００（マイクロホンＭＩＣ１、ＭＩＣ２）に結合されていて、そのディジタル入力信号ＩＮ１（ｔ）、ＩＮ２（ｔ）を受け取って、雑音抑圧処理のためにバッファリングする。入力バッファ・メモリ２１２および２１４は、メモリ２０２のメモリ領域であってもよい。
【００２４】
ノイズ・サプレッサ２２０は、ディジタル入力信号ＩＮ１（ｔ）をバッファリングする入力バッファ・メモリ２１２に結合され、また、制御部２３０、ノイズ・サプレッサ２６０および出力側スイッチＳＷ＿Ｏに結合されている。ノイズ・サプレッサ２２０は、音声区間検出部（ＶＡＤ）２２２、電力判定部または電力検出および推定部２２４、入力側スイッチＳＷ＿Ｉ１、および雑音電力を抑圧する抑圧部２２６を含んでいる。音声区間検出部（ＶＡＤ）２２２は、既知のＶＡＤ（Voice Activity Detection、音声活動検出）法により、例えば２０ｍｓの時間期間について入力音信号における音声区間かまたは非音声区間（雑音区間）かを識別する。
【００２５】
ノイズ・サプレッサ２６０は、ディジタル入力信号ＩＮ１（ｔ）およびＩＮ２（ｔ）をそれぞれバッファリングする入力バッファ・メモリ２１２および２１４に結合され、制御部２３０の制御信号ＣＴＬ、および出力側スイッチＳＷ＿Ｏに結合されている。ノイズ・サプレッサ２６０は、位相差決定部２６２、誤差位相差決定部２６４、入力側スイッチＳＷ＿Ｉ２、位相差補正部２６６、方向判定部２６８、および雑音角度方向の雑音電力を抑圧する抑圧部２７０を含んでいる。
【００２６】
ノイズ・サプレッサ２２０の電力判定部２２４は、音声区間検出部２２２からの非音声区間におけるディジタル入力信号ＩＮ１（ｔ）の雑音の平均電力の大きさを検出し、その検出した雑音平均電力の大きさを制御部２３０に供給する。電力の大きさを表すものとして、電力に限定されることなく、平均振幅を用いてもよい。
【００２７】
制御部２３０は、音声区間および非音声区間の各時間区間毎に、また非音声区間における雑音（Ｎ）電力の大きさに応じて、雑音電力抑圧モードと雑音方向抑圧モードの間の切替えを行うための制御信号ＣＴＬを生成する。制御部２３０は、制御信号ＣＴＬを、電力判定部（または電力検出および推定部）２２４、位相差決定部２６２、誤差位相差決定部２６４、入力側のスイッチＳＷ＿Ｉ１、ＳＷ＿Ｉ２、および出力側のスイッチＳＷ＿Ｏに供給する。制御部２３０は、さらに、制御信号ＣＴＬを、抑圧部２２６および２７０、位相差補正部２６６、および方向判定部２６８に供給してもよい。
【００２８】
ノイズ・サプレッサ２２０において、音声区間検出部（ＶＡＤ）２２２は、時間領域のディジタル入力信号ＩＮ１（ｔ）を、例えばフーリエ変換などによって周波数領域のディジタル入力信号または複素スペクトルＩＮ１（ｆ）に変換する。音声区間検出部２２２は、その電力分布の特徴に基づいて、音声区間と非音声区間（雑音区間、無音区間）とを識別し、音声区間と非音声区間の識別情報を、電力判定部２２４、制御部２３０、位相差決定部２６２および誤差位相差決定部２６４に供給する。
【００２９】
図３は、音声区間のパワースペクトルと雑音区間のパワースペクトルの例を示している。音声区間のパワースペクトルは、分布が不均一であり、相対的に規則性が高い（エントロピが小さい）。雑音区間のパワースペクトルは、周波数全体に対して分布が概ね均一であり、相対的に規則性が低い（エントロピが大きい）。このような分布差を利用して音声区間と非音声区間を識別する。さらに、例えば音声特有のピッチ(ハーモニクス)特性やフォルマンの分布特性を求めて識別してもよい。
【００３０】
電力判定部２２４は、雑音電力抑圧モードにおいて、通過周波数帯域に対するその検出した雑音電力の分布に基づいて雑音電力の分布を推定し、推定の雑音電力の分布を抑圧部２２６に供給する。図３における雑音区間のパワースペクトルを周波数に対する雑音電力成分の分布と推定してもよい。抑圧部２２６は、雑音電力抑圧モードにおいて、入力信号ＩＮ１（ｔ）からその推定の雑音電力成分を減算し、それによって雑音成分を抑圧し、その雑音を除去した音声信号ＩＮｎｓ（ｔ）をスイッチＳＷ＿Ｏに供給する。
【００３１】
図４は、目的音源ＳＳに対するそれぞれ２つのマイクロホンＭＩＣ１およびＭＩＣ２の空間的な配置の例を示している。
図５は、図４におけるマイクロホンＭＩＣ１およびＭＩＣ２の抑圧角度範囲＋α〜π〜（２π−α）の例を示している。
【００３２】
図４において、一般的には、複数のマイクロホンＭＩＣ１、ＭＩＣ２、．．．のアレイが、直線上に互いに既知の距離ｄだけ離して配置される。ここでは、典型例として、隣接する２つのマイクロホンＭＩＣ１およびＭＩＣ２が直線上に互いに距離ｄだけ離して配置されているものとする。隣接マイクロホン間の距離ｄは、サンプリング定理を満たすものであればよい。
【００３３】
図４において、目的音源ＳＳは、マイクロホンＭＩＣ１とＭＩＣ２を結ぶ直線上にあり、目的音源はマイクロホンＭＩＣ１の左側正面にあり、目的音源ＳＳの方向をマイクロホン・アレイＭＩＣ１、ＭＩＣ２の受音方向または目的方向とする。典型的には、受音目的の音源ＳＳは話者の口であり、受音方向は話者の口の方向である。受音角度方向（０）付近に受音角度範囲（−α〜０〜＋α）が設けられる。受音角度範囲（−α〜０〜＋α）以外の範囲（＋α〜π〜（２π−α））を雑音の抑圧角度範囲としてもよい。
【００３４】
マイクロホンＭＩＣ１とＭＩＣ２の間の距離ｄは、サンプリング定理を満たすように、距離ｄ＜音速ｃ／サンプリング周波数ｆｓの条件を満たすように設定されることが好ましい。マイクロホン・アレイＭＩＣ１、ＭＩＣ２によって受音され処理される入力音信号は、マイクロホン・アレイＭＩＣ１、ＭＩＣ２を通る直線に対する音波の入射角度θ（＝−α〜０〜＋α）に依存し、その直線に垂直な平面上の半径方向の入射方向（０〜２π）には依存しない。
【００３５】
目的音源ＳＳの音は、右側のマイクロホンＭＩＣ２において、その左側のマイクロホンＭＩＣ１よりも遅延時間τ＝ｄ／ｃだけ遅延して検出される。左側正面の角度θ方向の音源からの音声は、右側のマイクロホンＭＩＣ２において、その左側のマイクロホンＭＩＣ１よりも遅延時間τ＝ｄ・sin（π／２−θ）／ｃだけ遅延して検出される（−π／２≦θ≦＋π／２）。一方、抑圧角度範囲の雑音Ｎは、左側のマイクロホンＭＩＣ１において、その右側のマイクロホンＭＩＣ２よりも遅延時間τ＝ｄ／ｃだけ遅延して検出される。右側背面の角度θ方向の音源からの雑音は、左側のマイクロホンＭＩＣ１において、その右側のマイクロホンＭＩＣ２よりも遅延時間τ＝ｄ・sin（θ−π／２）／ｃだけ遅延して検出される（＋π／２≦θ≦＋π）。
【００３６】
ノイズ・サプレッサ２６０において、位相差決定部２６２は、時間領域のディジタル入力信号ＩＮ１（ｔ）とＩＮ２（ｔ）の間の位相差ＰＤを求める。位相差ＰＤは、周波数ｆ毎に２つのディジタル入力信号ＩＮ１（ｔ）とＩＮ２（ｔ）の時間的な電力または振幅の変化の時間差に基づいて求めてもよい。代替形態として、位相差ＰＤは、周波数ｆ毎に周波数領域における２つのディジタル入力信号ＩＮ１（ｔ）とＩＮ２（ｔ）の位相に基づいて求めてもよい。
【００３７】
位相差ＰＤを求めるために、時間領域のディジタル入力信号ＩＮ１（ｔ）、ＩＮ２（ｔ）を、例えばフーリエ変換などによって周波数領域のディジタル入力信号または複素スペクトルＩＮ１（ｆ）、ＩＮ２（ｆ）に変換してもよい。
【００３８】
周波数領域で入力信号を処理するために、入力バッファ・メモリ２１２および２１４中の時間領域のディジタル入力信号ＩＮ１（ｔ）、ＩＮ２（ｔ）は、ディジタル信号プロセッサ２００の高速フーリエ変換器（ＦＦＴ）にそれぞれ供給される。高速フーリエ変換器は、既知の形態で、ディジタル入力信号ＩＮ１（ｔ）、ＩＮ２（ｔ）の各信号区間に、オーバラップ窓関数を乗算してその積をフーリエ変換または直交変換して、周波数領域の複素スペクトルＩＮ１（ｆ）、ＩＮ２（ｆ）を生成する。ここで、ＩＮ１（ｆ）＝Ａ_１ｅ^{ｊ（２πｆｔ＋φ１（ｆ））}、ＩＮ２（ｆ）＝Ａ_２ｅ^{ｊ（２πｆｔ＋φ２（ｆ））}、ｆは周波数、Ａ_１およびＡ_２は振幅、ｊは単位虚数、φ１（ｆ）およびφ２（ｆ）は周波数ｆの関数である遅延位相である。オーバラップ窓関数として、例えば、ハミング窓関数、ハニング窓関数、ブラックマン窓関数、３シグマガウス窓関数、または三角窓関数を用いることができる。
【００３９】
位相差決定部２６２は、距離ｄだけ離れた隣接の２つのマイクロホンＭＩＣ１とＭＩＣ２の間での周波数ｆ（０＜ｆ＜ｆｓ／２）毎の音源方向を示す位相スペクトル成分の位相差ＰＤ（ｆ）（ラジアン、ｒａｄ）を次の式で求める。
ＰＤ（ｆ）＝ｔａｎ^−１（ＩＮ１（ｆ）／ＩＮ２（ｆ））
＝ｔａｎ^−１（Ｊ｛ＩＮ１（ｆ）／ＩＮ２（ｆ）｝／Ｒ｛ＩＮ１（ｆ）／ＩＮ２（ｆ）｝）
ここで、特定の周波数ｆの音声または雑音の音源は１つの音源しかないものと近似する。Ｊ｛ｘ｝は複素数ｘの虚数成分を表し、Ｒ｛ｘ｝は複素数ｘの実数成分を表す。
【００４０】
この位相差ＰＤ（ｆ）をディジタル入力信号ＩＮ１（ｔ）、ＩＮ２（ｔ）の遅延位相（φ１（ｆ）、φ２（ｆ））で表現すると、次のようになる。
ＰＤ（ｆ）＝ｔａｎ^−１（Ｊ｛（Ａ_１ｅ^{ｊ（２πｆｔ＋φ１（ｆ））}／Ａ_２ｅ^{ｊ（２πｆｔ＋φ２（ｆ））}｝／Ｒ｛（Ａ_１ｅ^{ｊ（２πｆｔ＋φ１（ｆ））}／Ａ_２ｅ^{ｊ（２πｆｔ＋φ２（ｆ））}｝）
＝ｔａｎ^−１（Ｊ｛（Ａ_１／Ａ_２）ｅ^{ｊ（φ１（ｆ）−φ２（ｆ））}｝／Ｒ｛（Ａ_１／Ａ_２）ｅ^{ｊ（φ１（ｆ）−φ２（ｆ））}｝）
＝ｔａｎ^−１（Ｊ｛ｅ^{ｊ（φ１（ｆ）−φ２（ｆ））}｝／Ｒ｛ｅ^{ｊ（φ１（ｆ）−φ２（ｆ））}｝）
＝ｔａｎ^−１（ｓｉｎ（φ１（ｆ）−φ２（ｆ））／ｃｏｓ（φ１（ｆ）−φ２（ｆ）））
＝ｔａｎ^−１（ｔａｎ（φ１（ｆ）−φ２（ｆ））
＝φ１（ｆ）−φ２（ｆ）
【００４１】
図６および７は、音源からの受音の角度方向θに対する或る周波数ｆに関する入力信号の位相差ＰＤおよび誤差位相差ΔＰＤの例を示している。図６、７において、理論上の位相差は実線で例示され、実測した位相差は破線で例示されている。
【００４２】
図６および７において、音源の角度方向θ＝０〜＋π／２および＋３π／２〜２πにおいて、位相差ＰＤは正の値を有し、即ち進み位相を示す。音源の角度方向θ＝＋π／２〜＋３π／２において、位相差ＰＤは負の値を有し、即ち遅れ位相を示す。音源の角度方向θ＝＋π／２および＋３π／２において、位相差ＰＤは０を有し、即ち同相を示す。
【００４３】
図６において、実測の入力信号ＩＮ１（ｔ）とＩＮ２（ｔ）の位相差ＰＤは、マイクロホンＭＩＣ１、ＭＩＣ２の感度のばらつきのせいで、抑圧角度範囲の角度境界αに対応する望ましい位相差の閾値Ｄｔｈよりも低い位相差を有することがある。この場合、その閾値Ｄｔｈより低い位相差ＰＤを有する入力信号ＩＮ１（ｔ）は望ましくなく全てが抑圧される。
【００４４】
図７において、実測の入力信号ＩＮ１（ｔ）とＩＮ２（ｔ）の位相差ＰＤは、マイクロホンＭＩＣ１、ＭＩＣ２の感度のばらつきのせいで、抑圧角度範囲の角度境界αに対応する位相差の閾値Ｄｔｈよりも高い位相差を有することがある。この場合、抑圧角度範囲が望ましくなく狭くなり、即ちその閾値Ｄｔｈより高い位相差ＰＤを有する入力信号ＩＮ１（ｔ）は抑圧角度範囲が狭く、雑音抑圧が不充分になる。
【００４５】
一方、音声区間検出部２２２によって判定された音声区間では、目的音源ＳＳの方向から受音されると期待され、従って位相差ＰＤは理論的な最大の正の値を有すると考えられる。従って、この実測の位相差ＰＤと理論的な位相差ＰＤの間の差が誤差位相差ΔＰＤであると考えられる。
【００４６】
位相差決定部２６２は、隣接する２つの入力信号ＩＮ１（ｔ）、ＩＮ２（ｔ）の間の周波数ｆ毎の位相差ＰＤまたは最大電力の周波数の位相差ＰＤ若しくは上限周波数（例えば、３．８ｋＨｚ）での位相差ＰＤの値を、誤差位相差決定部２６４および位相差補正部２６６に供給する。
【００４７】
誤差位相差決定部２６４は、雑音電力抑圧モードにおいて、音声区間検出部２２２によって判定された音声区間において、理論的な位相差ＰＤと位相差決定部２６２からの実測の位相差ＰＤの間の差を、誤差位相差ΔＰＤとして求める。誤差位相差決定部２６４は、雑音電力抑圧モードにおいてその求めた誤差位相差ΔＰＤを保持して、その後の雑音方向抑圧モードにおいて位相差補正部２６６に供給する。位相差補正部２６６は、雑音方向抑圧モードにおいて、誤差位相差決定部２６４からの誤差位相差ΔＰＤだけ、位相差決定部２６２からの位相差ＰＤを補正または補償して、補正された位相差ＰＤｃを生成する。
【００４８】
方向判定部２６８は、雑音方向抑圧モードにおいて、閾値Ｄｔｈに基づいてその補正された位相差ＰＤｃを判定し、抑圧角度範囲の角度境界αに対応する望ましい閾値Ｄｔｈ以下の位相差ＰＤｃを有する入力信号の時間区間を雑音区間と判定する。また、方向判定部２６８は、抑圧角度範囲の角度境界αに対応する望ましい閾値Ｄｔｈより大きい位相差ＰＤｃを有する入力信号の時間区間を音声区間と判定する。方向判定部２６８は、雑音方向抑圧モードにおいて、音声区間または雑音区間の識別情報を抑圧部２７０に供給する。抑圧部２７０は、雑音方向抑圧モードにおいて、雑音区間における入力信号ＩＮ１（ｔ）またはＩＮ１（ｆ）を減衰させることによって抑圧する。抑圧部２７０は、雑音方向抑圧モードにおいて、音声区間における入力信号ＩＮ１（ｔ）またはＩＮ１（ｆ）を通過させる。抑圧部２７０は、雑音方向抑圧モードにおいて、その雑音が除去された音声信号ＩＮｎｓ（ｔ）をスイッチＳＷ＿Ｏ（Ｔ１）に供給する。
【００４９】
ノイズ・サプレッサ２２０および２６０は、これらの雑音抑圧のための処理を周波数領域で周波数毎に行ってもよい。この場合、ノイズ・サプレッサ２２０および２６０の抑圧部２２６および２７０は、さらに、処理済みの周波数領域のディジタル入力信号ＩＮｎｓ（ｆ）を、例えば逆フーリエ変換などによって時間領域のディジタル音信号ＩＮｎｓ（ｔ）に逆変換して、雑音抑圧済みのディジタル音信号ＩＮｎｓ（ｔ）をスイッチＳＷ＿Ｏに供給する。
【００５０】
ディジタル音信号ＩＮｎｓ（ｔ）の出力は、例えば、音声認識または携帯電話機の通話に用いられる。ディジタル音信号ＩＮｎｓ（ｔ）は、後続の利用アプリケーション４００に供給され、そこで、例えば、ディジタル−アナログ変換器４０４でディジタル−アナログ変換され低域通過フィルタ４０６で低域通過濾波されてアナログ信号が生成され、またはメモリ４１４に格納されて音声認識部４１６で音声認識に使用される。音声認識部４１６は、ハードウェアとして実装されたプロセッサであっても、またはソフトウェアとして実装された例えばＲＯＭおよびＲＡＭを含むメモリ４１４に格納されたプログラムに従って動作するプロセッサであってもよい。
【００５１】
ディジタル信号プロセッサ２００は、ハードウェアとして実装された信号処理回路であっても、またはソフトウェアとして実装された例えばＲＯＭおよびＲＡＭを含むメモリ２０２に格納されたプログラムに従って動作する信号処理回路であってもよい。
【００５２】
図８Ａ〜８Ｃは、２つのノイズ・サプレッサ２２０および２６０および制御部２３０によって実行される、雑音抑圧のためのフローチャートの例を示している。
【００５３】
図８Ａを参照すると、ステップ８０２において、音声区間検出部２２２は、入力バッファ・メモリ２１２から、マイクロホンＭＩＣ１から取り出された現在の時間区間のディジタル入力信号ＩＮ１（ｔ）を受け取る。
【００５４】
ステップ８０４において、音声区間検出部２２２は、その時間区間のディジタル入力信号ＩＮ１（ｔ）についてＶＡＤ（Voice Activity Detection、音声活動検出）法により音声区間か非音声区間または雑音区間かを判定する。音声区間検出部２２２は、ディジタル入力信号ＩＮ１（ｔ）のその時間区間について音声区間および／または非音声区間（雑音区間）の識別情報を制御部２３０および電力判定部２２４に供給する。
【００５５】
ステップ８０６において、電力判定部２２４は、入力バッファ・メモリ２１２からディジタル入力信号ＩＮ１（ｔ）を取りだして、その判定された雑音区間におけるディジタル入力信号ＩＮ１（ｔ）の雑音の電力（または振幅）の大きさを検出する。電力判定部２２４は、その検出した雑音電力の大きさを制御部２３０に供給する。
【００５６】
ステップ８０８において、制御部２３０は、雑音電力の大きさが、雑音抑制のための閾値Ｐｔｈより大きいかどうかを判定する。雑音電力の大きさとして、例えば電力または振幅の平均値を用いてもよい。閾値Ｐｔｈは、望ましい音声電力の大きさより充分小さい値、または予期される一般的な背景雑音より高い値に設定してもよい。雑音電力の大きさが閾値Ｐｔｈより大きいと判定された場合は、手順は図８Ｃのステップ８３２に進む。雑音電力の大きさが閾値Ｐｔｈ以下であると判定された場合は、手順は図８Ｂのステップ８１２に進む。
【００５７】
雑音区間における入力信号ＩＮ１（ｔ）の雑音電力の大きさが閾値Ｐｔｈより大きくない場合には、雑音区間における入力信号を抑圧し、音声電力成分を含む入力信号電力から雑音電力成分を減算することによって、入力信号の音声品質を向上させることができる。雑音区間における入力信号ＩＮ１（ｔ）の雑音電力の大きさが、閾値Ｐｔｈより大きい、または音声成分より充分小さくない場合には、音声と雑音が電力の大きさで区別することは難しい。この場合、音声電力成分を含む入力信号電力から雑音電力成分を減算すると、音声電力成分が小さ過ぎて、入力信号の音声品質が低下する可能性がある。従って、２つの入力信号の間の位相差または音源方向に基づいて雑音を抑制するとよい。
【００５８】
図８Ｂを参照すると、ステップ８１２において、制御部２３０は、少なくとも現在の雑音区間、または現在の雑音区間および後続の音声区間を含む時間期間において、ノイズ・サプレッサ２２０を雑音電力抑圧モードに設定する。そのために、制御部２３０は、ノイズ・サプレッサ２２０のスイッチＳＷ＿Ｉ１をオン状態（Ｔ１）に設定し、ノイズ・サプレッサ２６０のスイッチＳＷ＿Ｉ２をオフ状態（Ｔ１）に設定する。
【００５９】
ステップ８１４において、電力判定部２２４は、その判定された雑音区間における検出した雑音の電力に基づいて、雑音電力を推定し、その推定の雑音電力を抑圧部２２６に供給する。その推定の雑音電力は、例えば、その検出した雑音の電力の平均値であってもよい。
【００６０】
ステップ８１６において、抑圧部２２６は、ディジタル入力信号ＩＮ１（ｔ）の電力をゼロ（０）に減衰させることによってその雑音区間における雑音電力（成分）を抑圧する。代替形態として、入力信号ＩＮ１（ｔ）の電力を或る割合で、例えば１／１０に減衰させてもよい。それによって、雑音電力中に音声が埋もれていた場合に音声を消去してしまう危険性を減らすことができる。また、抑圧部２２６は、ディジタル入力信号ＩＮ１（ｔ）から各周波数について推定の雑音電力（成分）を減算することによってその音声区間における雑音成分を抑圧する。
【００６１】
ステップ８１８において、位相差決定部２６２は、音声区間検出部２２２から音声区間（Ｖ）と非音声区間（Ｎ）の識別情報を受け取って、音声区間（Ｖ）が検出されたかどうかを判定する。音声区間が検出されたと判定された場合は、手順はステップ８２０に進む。音声区間が検出されなかったと判定された場合は、手順はステップ８２４に進む。
【００６２】
ステップ８２０において、位相差決定部２６２は、入力バッファ・メモリ２１２および２１４からその音声区間のディジタル入力信号ＩＮ１（ｔ）およびＩＮ２（ｔ）を取り出して、音声区間における音声ディジタル入力信号ＩＮ１（ｔ）およびＩＮ２（ｔ）の間の位相差を求める。音声区間では、方向θ＝０における目的音源ＳＳからの音がマイクロホンＭＩＣ１、ＭＩＣ２によって拾われると考えられる。
【００６３】
ステップ８２２において、誤差位相差決定部２６４は、音声ディジタル入力信号ＩＮ１（ｔ）およびＩＮ２（ｔ）の間の決定された位相差ＰＤと、目的音源方向からの音声についてそれに対応する理論的位相差ＰＤとを比較してその間の誤差（差）を求める。例えば、誤差位相差ΔＰＤは、その決定された位相差ＰＤから理論的位相差ＰＤを減算して求めてもよい。誤差位相差決定部２６４は、その決定された誤差を誤差位相差ΔＰＤとして位相差補正部２６６に供給する。この誤差位相差ΔＰＤは、後で、ステップ８３６において用いることができる。
【００６４】
ステップ８２４において、制御部２３０は、出力側スイッチＳＷ＿Ｏをノイズ・サブレッサ２２０の抑圧部２２６の出力に接続して、抑圧部２２６からの（ステップ８１６における）雑音抑圧された出力音声信号ＩＮｎｓ（ｔ）を出力する。
【００６５】
ステップ８５２において、音声区間検出部２２２は、入力バッファ・メモリ２１２に現在処理すべき時間区間のディジタル入力信号ＩＮ１（ｔ）があるかどうかを判定する。そのような時間区間のディジタル入力信号ＩＮ１（ｔ）があると判定された場合は、手順はステップ８１４に戻る。そのような時間区間のディジタル入力信号がないと判定された場合は、手順は図８Ａ〜８Ｃのルーチンを出る。新しい時間区間のディジタル入力信号に対して図８Ａ〜８Ｃのフローチャートが再び実行される。
【００６６】
図８Ｂのステップ８１４〜８２４および８５２は、次に図８Ａのステップ８０８の判定が行われてその後で図８Ｃのステップ８３２が実行されるまで繰り返してもよい。
【００６７】
このようにして、雑音区間におけるディジタル入力信号の雑音電力の大きさが閾値Ｐｔｈより大きくない場合には、ノイズ・サプレッサ２２０によって雑音電力に基づいて雑音が抑制される。
【００６８】
図８Ｃを参照すると、ステップ８３２において、制御部２３０は、少なくとも現在の雑音区間、または現在の雑音区間および後続の音声区間を含む時間期間において、ノイズ・サプレッサ２６０を雑音方向抑圧モードに設定する。そのために、制御部２３０は、ノイズ・サプレッサ２６０のスイッチＳＷ＿Ｉ２をオン状態（Ｔ２）に設定し、ノイズ・サプレッサ２２０のスイッチＳＷ＿Ｉ１をオフ状態（Ｔ２）に設定する。
【００６９】
ステップ８３４において、位相差決定部２６２は、入力バッファ・メモリ２１２および２１４からディジタル入力信号ＩＮ１（ｔ）およびＩＮ２（ｔ）を取り出して、雑音区間または音声区間の時間区間における音声ディジタル入力信号ＩＮ１（ｔ）およびＩＮ２（ｔ）の間の位相差ＰＤを求める。
【００７０】
ステップ８３６において、位相誤差補正部２６４は、位相差決定部２６２によって求めた位相差ＰＤを、ステップ８２２において誤差位相差決定部２６４から受け取った誤差位相差ΔＰＤを用いて補正または補償して、補正された位相差ＰＤｃを生成する（図６、７）。そのために、その求めた位相差ＰＤから、誤差位相差ΔＰＤまたは誤差位相差ΔＰＤの或る割合α（例えば、α＝１または０．８）を減算してもよい（ＰＤ−ΔＰＤ×α）。それによって位相差の誤差補正の可能性ある誤差を小さくすることができる。
【００７１】
ステップ８３８において、方向判定部２６８は、その補正された位相差ＰＤｃに基づいてその時間区間における音源の方向が空間的に受音角度範囲（−α〜０〜＋α）かどうかを判定し、または補正された位相差ＰＤｃが閾値Ｄｔｈを超えるかどうかを判定する。この場合、各時間区間は、１つの音声区間または雑音区間であっても、それより短い時間区間であってもよい。方向判定部２６８は、位相差ＰＤｃが閾値Ｄｔｈを超える場合には、音源の方向が空間的に受音角度範囲（−α〜０〜＋α）であると判定する。方向判定部２６８は、位相差ＰＤｃが閾値Ｄｔｈを超えない場合には、音源の方向が空間的に抑圧角度範囲（＋α〜π〜（２π−α））であると判定する。
【００７２】
ステップ８４０〜８４４において、抑圧部２７０は、音源の方向が受音角度範囲（−α〜０〜＋α）か、または受音角度範囲（−α〜０〜＋α）の位相差を有するディジタル入力信号ＩＮ１（ｔ）を通過させる。また、抑圧部２７０は、音源の方向が抑圧角度範囲（＋α〜π〜（２π−α））であるか、または位相差ＰＤｃが抑圧角度範囲（＋α〜π〜（２π−α））の位相差を有するとき、ディジタル入力信号ＩＮ１（ｔ）の電力をゼロ（０）に減衰させる。このようにして、音源の方向が抑圧角度範囲（＋α〜π〜（２π−α））にある時間区間におけるディジタル入力信号ＩＮ１（ｔ）の電力を抑圧する。
【００７３】
ステップ８４０において、抑圧部２７０は、判定された音源の方向が、受音角度範囲（−α〜０〜＋α）かどうか、または位相差ＰＤｃが抑圧角度範囲（＋α〜π〜（２π−α））の位相差を有するかどうかを判定する。それが受音角度範囲（−α〜０〜＋α）であると判定された場合は、手順はステップ８４２に進む。それが受音角度範囲（−α〜０〜＋α）でないと判定された場合は、手順はステップ８４４に進む。
【００７４】
ステップ８４２において、抑圧部２７０は、ディジタル入力信号ＩＮ１（ｔ）を通過させる。その後、手順はステップ８５０に進む。
【００７５】
ステップ８４４において、抑圧部２７０は、ディジタル入力信号ＩＮ１（ｔ）をゼロ（０）に減衰させて抑圧する。代替形態として、入力信号ＩＮ１（ｔ）の電力を或る割合で、例えば１／１０に減衰させてもよい。それによって、雑音電力中に音声が埋もれていた場合に音声を消去してしまう危険性を減らすことができる。その後、手順はステップ８５０に進む。
【００７６】
ステップ８５０において、制御部２３０は、出力側スイッチＳＷ＿Ｏをノイズ・サブレッサ２６０の抑圧部２７０に接続して、抑圧部２７０からの雑音抑圧された出力音声信号ＩＮｎｓ（ｔ）を出力する。その後、手順はステップ８４２に進む。
【００７７】
ステップ８５２は、図８Ｂのものと同様である。現在処理すべき時間区間のディジタル入力信号ＩＮ１（ｔ）があると判定された場合は、手順は図８Ａのステップ８３４に戻る。新しい時間区間のディジタル入力信号に対して図８Ａ〜８Ｃのフローチャートが再び実行される。
【００７８】
図８Ｃのステップ８３４〜８５０および８５２は、次に図８Ａのステップ８０８の判定が行われてその後で図８Ｂのステップ８１２が実行されるまで繰り返してもよい。
【００７９】
このように、雑音区間におけるディジタル入力信号の雑音電力の大きさが閾値Ｐｔｈより大きい場合には、ノイズ・サプレッサ２６０によって２つのディジタル入力信号の間の位相差または音源方向に基づいて雑音を抑制する。
【００８０】
このようにして、抑圧部２２６または抑圧部２７０からの雑音抑圧された出力音声信号ＩＮｎｓ（ｔ）が、出力され、さらに利用アプリケーション部４００に供給される。
【００８１】
ここで挙げた全ての例および条件的表現は、発明者が技術促進に貢献した発明および概念を読者が理解するのを助けるためのものであり、ここで具体的に挙げたそのような例および条件に限定することなく解釈できる。また、明細書におけるそのような例の編成は本発明の優劣を示すこととは関係ない。本発明の実施形態を詳細に説明したが、本発明の精神および範囲から逸脱することなく、それに対して種々の変更、置換および変形を施すことができる。
【符号の説明】
【００８２】
２００ディジタル信号プロセッサ
２２０１マイク用のノイズ・サプレッサ
２２２音声区間検出部（ＶＡＤ）
２２４電力判定部
２２６抑圧部
２３０制御部
２６０２マイク用のノイズ・サプレッサ
２６２位相差決定部
２６４誤差位相差決定部
２６６位相差補正部
２６８方向判定部
２７０抑圧部
ＳＷ＿Ｉ１、ＳＷ＿Ｉ２入力側のスイッチ
ＳＷ＿Ｏ出力側のスイッチ

【特許請求の範囲】
【請求項１】
情報処理装置における音信号処理方法であって、
或る時間期間において第１と第２の入力音信号の中の前記第１の入力音信号の音声区間と雑音区間を判定する工程と、
前記雑音区間における前記第１の入力音信号の電力の大きさを判定する工程と、
前記雑音区間における前記第１の入力音信号の電力の大きさが第１の閾値より大きいかどうかを判定する工程と、
前記雑音区間における前記第１の入力音信号の電力の大きさが前記第１の閾値より大きくないと判定された場合には、前記雑音区間における前記判定された電力の大きさに基づいて、第１の抑圧部により、前記第１の入力音信号の前記音声区間および前記雑音区間における雑音を抑圧する工程と、
前記雑音区間における前記第１の入力音信号の電力の大きさが前記第１の閾値より大きいと判定された場合には、第２の抑圧部により、前記第１の入力音信号と前記第２の入力音信号の間の位相差に応じて前記第１の入力音信号の雑音を抑圧する工程と、
を含む音信号処理方法。
【請求項２】
さらに、前記雑音区間における前記第１の入力音信号の電力の大きさが前記第１の閾値より大きくないと判定された場合に、前記音声区間において、前記第１の入力音信号と前記第２の入力音信号の間の位相差を求め、前記第１の入力音信号と前記第２の入力音信号の間の理論的位相差と前記求めた位相差との間の誤差を求める工程を含み、
前記第１の入力音信号と前記第２の入力音信号の間の位相差に応じて前記第１の入力音信号の雑音を抑圧する前記工程は、前記求めた誤差に応じて前記位相差を補正することを含むものである、請求項１に記載の音信号処理方法。
【請求項３】
前記第１の入力音信号と前記第２の入力音信号の間の位相差に応じて前記第１の入力音信号の雑音を抑圧する前記工程は、
前記第１の入力音信号と前記第２の入力音信号の間の前記位相差が第２の閾値より大きいかどうかを判定し、
前記の位相差が前記第２の閾値より大きいと判定されたときに、前記第１の入力音信号を出力部に供給し、前記位相差が前記第２の閾値より大きくないと判定された場合には、前記第２の抑圧部により、前記第１の入力音信号の雑音を抑圧すること
を含むものである、請求項１に記載の音信号処理方法。
【請求項４】
第１と第２の入力音信号をそれぞれ受け取る第１と第２の音信号入力部と、
受け取った或る時間期間において前記第１の音信号入力部から受け取った前記第１の入力音信号の音声区間と雑音区間を判定する区間判定部と、
前記雑音区間における前記第１の入力音信号の電力の大きさを判定する電力判定部と、
前記雑音区間における前記第１の入力音信号の電力の大きさが第１の閾値より大きいかどうかを判定する制御部と、
前記雑音区間における前記第１の入力音信号の電力の大きさが前記第１の閾値より大きくないと判定された場合には、前記雑音区間における前記判定された電力の大きさに基づいて、前記第１の入力音信号の前記音声区間および前記雑音区間における雑音を抑圧する第１の抑圧部と、
前記雑音区間における前記第１の入力音信号の電力の大きさが前記第１の閾値より大きいと判定された場合には、前記第１の入力音信号と前記第２の入力音信号の間の位相差に応じて前記第１の入力音信号の雑音を抑圧する第２の抑圧部と、
を具える音信号処理装置。
【請求項５】
さらに、前記雑音区間における前記第１の入力音信号の電力の大きさが前記第１の閾値より大きくないと判定された場合に、前記音声区間において、前記第１の入力音信号と前記第２の入力音信号の間の位相差を求め、前記第１の入力音信号と前記第２の入力音信号の間の理論的位相差と前記求めた位相差との間の誤差を求める誤差位相差決定部を含み、
前記第２の抑圧部は、前記求めた誤差に応じて前記位相差を補正するものである、請求項４に記載の音信号処理装置。
【請求項６】
前記第２の抑圧部は、
前記第１の入力音信号と前記第２の入力音信号の間の前記位相差が第２の閾値より大きいかどうかを判定し、
前記の位相差が前記第２の閾値より大きいと判定されたときに、前記第１の入力音信号を出力部に供給し、前記位相差が前記第２の閾値より大きくないと判定された場合には、前記第２の抑圧部により、前記第１の入力音信号の雑音を抑圧するものである、
請求項４に記載の音信号処理装置。

【図１】