説明

音信号処理方法および音信号処理装置

【課題】雑音が抑圧されたより高い音声品質を実現する。
【解決手段】音信号処理方法200は、時間期間において第1の入力音信号の音声区間と雑音区間を判定し(222)、雑音区間における第1の入力音信号の電力の大きさが第1の閾値より大きいかどうかを判定する(230)。雑音区間における第1の入力音信号の電力の大きさが第1の閾値より大きくないと判定された場合には、第1の抑圧部226により、雑音区間における判定された電力の大きさに基づいて、第1の入力音信号の音声区間および雑音区間における雑音を抑圧する。雑音区間における第1の入力音信号の電力の大きさが第1の閾値より大きいと判定された場合には、第2の抑圧部270により、第1と第2の入力音信号の間の位相差に応じて第1の入力音信号を抑圧する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音信号の雑音抑圧処理に関し、特に、雑音の大きさに応じた音信号の雑音抑圧処理に関する。
【背景技術】
【0002】
ノイズ抑圧装置は、入力音信号における音声を含む区間と背景雑音のみを含む区間とを判別し(VAD判定し)、その背景雑音区間における背景雑音電力を検出し、その音区間においてその検出された背景雑音電力に対応する電力分を抑圧することができる。
【0003】
マイクロホン・アレイは、少なくとも2つのマイクロホンのアレイを用い、受音して変換された音信号を処理することによって、所望の目的音の音源方向に受音範囲を限定しまたは指向性を制御し、雑音抑圧または目的音強調を行うことができる。
【0004】
既知の或る音声信号送出装置では、送話位置Mからの通話音声及び雑音源からの雑音が各経路を通じて各マイクロホンに入力され、さらに各遅延器に入力する。この場合、それら遅延器から出力される音声信号のそれぞれの遅延量が等しくなるようにし、加算器では、それらの遅延量のそれぞれの音声信号及び雑音を加え合わせて出力する。雑音は時間相関が小さいので、この白色雑音の振幅は3倍にならず、音声信号の振幅は3倍の値になり、音声の明瞭度が向上する。
【0005】
既知の或る会議用拡聴器では、マイクロホン・アレイの両端のマイクロホンに入力する音波の到来時間差を利用して音源方向検出手段で音源方向を検出し、各可変遅延素子の遅延量を調整して各マイクロホンの出力が同相になるようにして指向性を高め、また、入力する音源が変わった時はその都度AGC手段により増幅手段の利得を自動調整する。それによって、背景雑音を抑制し、目的音声のみを適切な音量で歪みなく受聴できる。
【0006】
既知の或る音源分離システムは、目的音到来方向に並べて配置された2個のマイクロフォンと、これらの受音信号を用いて目的音強調用の線形結合処理を行って目的音優勢の信号を生成する目的音優勢信号生成手段と、マイクロフォンの受音信号を用いて目的音抑制用の線形結合処理を行って目的音劣勢の信号を生成する目的音劣勢信号生成手段と、目的音優勢の信号のスペクトルと目的音劣勢の信号のスペクトルとを用いて目的音と妨害音とを分離する分離手段とを含む。それによって、目的音と任意の方向から到来する妨害音とを精度よく分離することができ、装置を小型化できる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平07−38984号公報
【特許文献2】特開平09−140000号公報
【特許文献3】特開2006−197552号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述のノイズ抑圧装置では、音声成分が雑音成分に埋もれてしまうほど雑音電力が相対的に大きいとき、VAD判定の精度が低くなる傾向がある。一方、上述のマイクロホン・アレイでは、個々のマイクロホン間に出荷時におけるおよび経年変化による特性の差が存在することがあり、例えばマイクロホン感度がばらつくので、マイクロホン間の位相差が理論通りに求まらないことがある。
【0009】
発明者は、入力音信号の雑音の大きさに応じて、異なる抑圧法を適用すると、雑音が抑圧されたより高い音声品質を実現することができる、と認識した。
【0010】
本発明の実施形態の目的は、雑音が抑圧されたより高い音声品質を実現することである。
【課題を解決するための手段】
【0011】
本発明の実施形態の一観点によれば、情報処理装置における音信号処理方法は、或る時間期間において第1と第2の入力音信号の中のその第1の入力音信号の音声区間と雑音区間を判定する工程と、その雑音区間におけるその第1の入力音信号の電力の大きさを判定する工程と、その雑音区間におけるその第1の入力音信号の電力の大きさが第1の閾値より大きいかどうかを判定する工程と、その雑音区間におけるその第1の入力音信号の電力の大きさがその第1の閾値より大きくないと判定された場合には、その雑音区間におけるその判定された電力の大きさに基づいて、第1の抑圧部により、その第1の入力音信号のその音声区間およびその雑音区間における雑音を抑圧する工程と、その雑音区間におけるその第1の入力音信号の電力の大きさがその第1の閾値より大きいと判定された場合には、第2の抑圧部により、その第1の入力音信号とその第2の入力音信号の間の位相差に応じてその第1の入力音信号の雑音を抑圧する工程と、を含んでいる。
【発明の効果】
【0012】
本発明の実施形態によれば、音信号の雑音抑圧後の音声品質を高くすることができる。
【図面の簡単な説明】
【0013】
【図1】図1は、本発明の実施形態による音声情報装置の概略的構成の例を示している。
【図2】図2は、ディジタル信号プロセッサの概略的構成の例を示している。
【図3】図3は、音声区間のパワースペクトルと雑音区間のパワースペクトルの例を示している。
【図4】図4は、目的音源に対するそれぞれ2つのマイクロホンの空間的な配置の例を示している。
【図5】図5は、図4におけるマイクロホンの抑圧角度範囲の例を表している。
【図6】図6および7は、音源からの受音の角度方向に対する或る周波数に関する入力信号の位相差および誤差位相差の例を示している。
【図7】(図6で説明)
【図8A】図8A〜8Cは、2つのノイズ・サプレッサおよび制御部によって実行される、雑音抑圧のためのフローチャートの例を示している。
【図8B】(図8Aで説明)
【図8C】(図8Aで説明)
【発明を実施するための最良の形態】
【0014】
発明の目的および利点は、請求の範囲に具体的に記載された構成要素および組み合わせによって実現され達成される。
【0015】
前述の一般的な説明および以下の詳細な説明は、典型例および説明のためのものであって、本発明を限定するためのものではない。
【0016】
本発明の非限定的な実施形態を、図面を参照して説明する。図面において、同様の構成要素には同じ参照番号が付されている。
【0017】
図1は、本発明の実施形態による音声情報装置10の概略的構成(configuration)の例を示している。
【0018】
音声情報装置10は、少なくとも2つのマイクロホンMIC1、MIC2を含むマイクロホン・アレイ装置100、ディジタル信号プロセッサ(DSP)200、および利用アプリケーション部400を含んでいる。音声情報装置10は、例えば音声認識機能を有する車載装置またはカー・ナビゲーション装置、ハンズフリー電話機、または携帯電話機のような情報機器であってもよい。
【0019】
マイクロホン・アレイ装置100は、受音部または音信号入力部としてのマイクロホンMIC1、MIC2、増幅器(AMP)122、124、低域通過フィルタ(LPF)142、144、およびアナログ−ディジタル変換器(A/D)162、164を具えている。ディジタル信号プロセッサ(DSP)200は、例えばRAM等を含むメモリ202に結合されている。
【0020】
マイクロホンMIC1、MIC2によって音波から変換されたアナログ入力信号ina1、ina2は、増幅器(AMP)122、124にそれぞれ供給されて、増幅器122、124によって増幅される。増幅器122、124の出力の増幅されたアナログ音信号INa1、INa2は、例えば遮断周波数fc(例えば、3.9kHz)の低域通過フィルタ(Low Pass Filter)142、144の入力にそれぞれ結合されて、低域通過濾波される。低域通過フィルタの代わりに、例えば通過周波数帯域0.4〜3.9kHzの帯域通過フィルタを用いてもよい。
【0021】
低域通過フィルタ142、144の出力の濾波済みのアナログ信号INp1、INp2は、サンプリング周波数fs(例えば、8kHz)(fs>2fc)のアナログ−ディジタル変換器162、164の入力にそれぞれ結合されて、ディジタル入力信号に変換される。アナログ−ディジタル変換器162、164からの時間領域のディジタル入力信号IN1(t)、IN2(t)は、ディジタル信号プロセッサ(DSP)200の、音信号入力部としての入力端子it1およびit2にそれぞれ結合される。
【0022】
図2は、ディジタル信号プロセッサ200の概略的構成(configuration)の例を示している。
【0023】
ディジタル信号プロセッサ200は、入力端子it1およびit2にそれぞれ結合された入力バッファ・メモリ212および214、1マイクMIC1用のノイズ・サプレッサ(抑圧部)(NS)220、制御部またはモード切替部230、および2マイクMIC1およびMIC2用のノイズ・サプレッサ(抑圧部)(NS)260を含んでいる。入力バッファ・メモリ212および214は、マイクロホン・アレイ装置100(マイクロホンMIC1、MIC2)に結合されていて、そのディジタル入力信号IN1(t)、IN2(t)を受け取って、雑音抑圧処理のためにバッファリングする。入力バッファ・メモリ212および214は、メモリ202のメモリ領域であってもよい。
【0024】
ノイズ・サプレッサ220は、ディジタル入力信号IN1(t)をバッファリングする入力バッファ・メモリ212に結合され、また、制御部230、ノイズ・サプレッサ260および出力側スイッチSW_Oに結合されている。ノイズ・サプレッサ220は、音声区間検出部(VAD)222、電力判定部または電力検出および推定部224、入力側スイッチSW_I1、および雑音電力を抑圧する抑圧部226を含んでいる。音声区間検出部(VAD)222は、既知のVAD(Voice Activity Detection、音声活動検出)法により、例えば20msの時間期間について入力音信号における音声区間かまたは非音声区間(雑音区間)かを識別する。
【0025】
ノイズ・サプレッサ260は、ディジタル入力信号IN1(t)およびIN2(t)をそれぞれバッファリングする入力バッファ・メモリ212および214に結合され、制御部230の制御信号CTL、および出力側スイッチSW_Oに結合されている。ノイズ・サプレッサ260は、位相差決定部262、誤差位相差決定部264、入力側スイッチSW_I2、位相差補正部266、方向判定部268、および雑音角度方向の雑音電力を抑圧する抑圧部270を含んでいる。
【0026】
ノイズ・サプレッサ220の電力判定部224は、音声区間検出部222からの非音声区間におけるディジタル入力信号IN1(t)の雑音の平均電力の大きさを検出し、その検出した雑音平均電力の大きさを制御部230に供給する。電力の大きさを表すものとして、電力に限定されることなく、平均振幅を用いてもよい。
【0027】
制御部230は、音声区間および非音声区間の各時間区間毎に、また非音声区間における雑音(N)電力の大きさに応じて、雑音電力抑圧モードと雑音方向抑圧モードの間の切替えを行うための制御信号CTLを生成する。制御部230は、制御信号CTLを、電力判定部(または電力検出および推定部)224、位相差決定部262、誤差位相差決定部264、入力側のスイッチSW_I1、SW_I2、および出力側のスイッチSW_Oに供給する。制御部230は、さらに、制御信号CTLを、抑圧部226および270、位相差補正部266、および方向判定部268に供給してもよい。
【0028】
ノイズ・サプレッサ220において、音声区間検出部(VAD)222は、時間領域のディジタル入力信号IN1(t)を、例えばフーリエ変換などによって周波数領域のディジタル入力信号または複素スペクトルIN1(f)に変換する。音声区間検出部222は、その電力分布の特徴に基づいて、音声区間と非音声区間(雑音区間、無音区間)とを識別し、音声区間と非音声区間の識別情報を、電力判定部224、制御部230、位相差決定部262および誤差位相差決定部264に供給する。
【0029】
図3は、音声区間のパワースペクトルと雑音区間のパワースペクトルの例を示している。音声区間のパワースペクトルは、分布が不均一であり、相対的に規則性が高い(エントロピが小さい)。雑音区間のパワースペクトルは、周波数全体に対して分布が概ね均一であり、相対的に規則性が低い(エントロピが大きい)。このような分布差を利用して音声区間と非音声区間を識別する。さらに、例えば音声特有のピッチ(ハーモニクス)特性やフォルマンの分布特性を求めて識別してもよい。
【0030】
電力判定部224は、雑音電力抑圧モードにおいて、通過周波数帯域に対するその検出した雑音電力の分布に基づいて雑音電力の分布を推定し、推定の雑音電力の分布を抑圧部226に供給する。図3における雑音区間のパワースペクトルを周波数に対する雑音電力成分の分布と推定してもよい。抑圧部226は、雑音電力抑圧モードにおいて、入力信号IN1(t)からその推定の雑音電力成分を減算し、それによって雑音成分を抑圧し、その雑音を除去した音声信号INns(t)をスイッチSW_Oに供給する。
【0031】
図4は、目的音源SSに対するそれぞれ2つのマイクロホンMIC1およびMIC2の空間的な配置の例を示している。
図5は、図4におけるマイクロホンMIC1およびMIC2の抑圧角度範囲+α〜π〜(2π−α)の例を示している。
【0032】
図4において、一般的には、複数のマイクロホンMIC1、MIC2、...のアレイが、直線上に互いに既知の距離dだけ離して配置される。ここでは、典型例として、隣接する2つのマイクロホンMIC1およびMIC2が直線上に互いに距離dだけ離して配置されているものとする。隣接マイクロホン間の距離dは、サンプリング定理を満たすものであればよい。
【0033】
図4において、目的音源SSは、マイクロホンMIC1とMIC2を結ぶ直線上にあり、目的音源はマイクロホンMIC1の左側正面にあり、目的音源SSの方向をマイクロホン・アレイMIC1、MIC2の受音方向または目的方向とする。典型的には、受音目的の音源SSは話者の口であり、受音方向は話者の口の方向である。受音角度方向(0)付近に受音角度範囲(−α〜0〜+α)が設けられる。受音角度範囲(−α〜0〜+α)以外の範囲(+α〜π〜(2π−α))を雑音の抑圧角度範囲としてもよい。
【0034】
マイクロホンMIC1とMIC2の間の距離dは、サンプリング定理を満たすように、距離d<音速c/サンプリング周波数fsの条件を満たすように設定されることが好ましい。マイクロホン・アレイMIC1、MIC2によって受音され処理される入力音信号は、マイクロホン・アレイMIC1、MIC2を通る直線に対する音波の入射角度θ(=−α〜0〜+α)に依存し、その直線に垂直な平面上の半径方向の入射方向(0〜2π)には依存しない。
【0035】
目的音源SSの音は、右側のマイクロホンMIC2において、その左側のマイクロホンMIC1よりも遅延時間τ=d/cだけ遅延して検出される。左側正面の角度θ方向の音源からの音声は、右側のマイクロホンMIC2において、その左側のマイクロホンMIC1よりも遅延時間τ=d・sin(π/2−θ)/cだけ遅延して検出される(−π/2≦θ≦+π/2)。一方、抑圧角度範囲の雑音Nは、左側のマイクロホンMIC1において、その右側のマイクロホンMIC2よりも遅延時間τ=d/cだけ遅延して検出される。右側背面の角度θ方向の音源からの雑音は、左側のマイクロホンMIC1において、その右側のマイクロホンMIC2よりも遅延時間τ=d・sin(θ−π/2)/cだけ遅延して検出される(+π/2≦θ≦+π)。
【0036】
ノイズ・サプレッサ260において、位相差決定部262は、時間領域のディジタル入力信号IN1(t)とIN2(t)の間の位相差PDを求める。位相差PDは、周波数f毎に2つのディジタル入力信号IN1(t)とIN2(t)の時間的な電力または振幅の変化の時間差に基づいて求めてもよい。代替形態として、位相差PDは、周波数f毎に周波数領域における2つのディジタル入力信号IN1(t)とIN2(t)の位相に基づいて求めてもよい。
【0037】
位相差PDを求めるために、時間領域のディジタル入力信号IN1(t)、IN2(t)を、例えばフーリエ変換などによって周波数領域のディジタル入力信号または複素スペクトルIN1(f)、IN2(f)に変換してもよい。
【0038】
周波数領域で入力信号を処理するために、入力バッファ・メモリ212および214中の時間領域のディジタル入力信号IN1(t)、IN2(t)は、ディジタル信号プロセッサ200の高速フーリエ変換器(FFT)にそれぞれ供給される。高速フーリエ変換器は、既知の形態で、ディジタル入力信号IN1(t)、IN2(t)の各信号区間に、オーバラップ窓関数を乗算してその積をフーリエ変換または直交変換して、周波数領域の複素スペクトルIN1(f)、IN2(f)を生成する。ここで、IN1(f)=Aj(2πft+φ1(f))、IN2(f)=Aj(2πft+φ2(f))、fは周波数、AおよびAは振幅、jは単位虚数、φ1(f)およびφ2(f)は周波数fの関数である遅延位相である。オーバラップ窓関数として、例えば、ハミング窓関数、ハニング窓関数、ブラックマン窓関数、3シグマガウス窓関数、または三角窓関数を用いることができる。
【0039】
位相差決定部262は、距離dだけ離れた隣接の2つのマイクロホンMIC1とMIC2の間での周波数f(0<f<fs/2)毎の音源方向を示す位相スペクトル成分の位相差PD(f)(ラジアン、rad)を次の式で求める。
PD(f)=tan−1(IN1(f)/IN2(f))
=tan−1(J{IN1(f)/IN2(f)}/R{IN1(f)/IN2(f)})
ここで、特定の周波数fの音声または雑音の音源は1つの音源しかないものと近似する。J{x}は複素数xの虚数成分を表し、R{x}は複素数xの実数成分を表す。
【0040】
この位相差PD(f)をディジタル入力信号IN1(t)、IN2(t)の遅延位相(φ1(f)、φ2(f))で表現すると、次のようになる。
PD(f)=tan−1(J{(Aj(2πft+φ1(f))/Aj(2πft+φ2(f))}/R{(Aj(2πft+φ1(f))/Aj(2πft+φ2(f))})
=tan−1(J{(A/A)ej(φ1(f)−φ2(f))}/R{(A/A)ej(φ1(f)−φ2(f))})
=tan−1(J{ej(φ1(f)−φ2(f))}/R{ej(φ1(f)−φ2(f))})
=tan−1(sin(φ1(f)−φ2(f))/cos(φ1(f)−φ2(f)))
=tan−1(tan(φ1(f)−φ2(f))
=φ1(f)−φ2(f)
【0041】
図6および7は、音源からの受音の角度方向θに対する或る周波数fに関する入力信号の位相差PDおよび誤差位相差ΔPDの例を示している。図6、7において、理論上の位相差は実線で例示され、実測した位相差は破線で例示されている。
【0042】
図6および7において、音源の角度方向θ=0〜+π/2および+3π/2〜2πにおいて、位相差PDは正の値を有し、即ち進み位相を示す。音源の角度方向θ=+π/2〜+3π/2において、位相差PDは負の値を有し、即ち遅れ位相を示す。音源の角度方向θ=+π/2および+3π/2において、位相差PDは0を有し、即ち同相を示す。
【0043】
図6において、実測の入力信号IN1(t)とIN2(t)の位相差PDは、マイクロホンMIC1、MIC2の感度のばらつきのせいで、抑圧角度範囲の角度境界αに対応する望ましい位相差の閾値Dthよりも低い位相差を有することがある。この場合、その閾値Dthより低い位相差PDを有する入力信号IN1(t)は望ましくなく全てが抑圧される。
【0044】
図7において、実測の入力信号IN1(t)とIN2(t)の位相差PDは、マイクロホンMIC1、MIC2の感度のばらつきのせいで、抑圧角度範囲の角度境界αに対応する位相差の閾値Dthよりも高い位相差を有することがある。この場合、抑圧角度範囲が望ましくなく狭くなり、即ちその閾値Dthより高い位相差PDを有する入力信号IN1(t)は抑圧角度範囲が狭く、雑音抑圧が不充分になる。
【0045】
一方、音声区間検出部222によって判定された音声区間では、目的音源SSの方向から受音されると期待され、従って位相差PDは理論的な最大の正の値を有すると考えられる。従って、この実測の位相差PDと理論的な位相差PDの間の差が誤差位相差ΔPDであると考えられる。
【0046】
位相差決定部262は、隣接する2つの入力信号IN1(t)、IN2(t)の間の周波数f毎の位相差PDまたは最大電力の周波数の位相差PD若しくは上限周波数(例えば、3.8kHz)での位相差PDの値を、誤差位相差決定部264および位相差補正部266に供給する。
【0047】
誤差位相差決定部264は、雑音電力抑圧モードにおいて、音声区間検出部222によって判定された音声区間において、理論的な位相差PDと位相差決定部262からの実測の位相差PDの間の差を、誤差位相差ΔPDとして求める。誤差位相差決定部264は、雑音電力抑圧モードにおいてその求めた誤差位相差ΔPDを保持して、その後の雑音方向抑圧モードにおいて位相差補正部266に供給する。位相差補正部266は、雑音方向抑圧モードにおいて、誤差位相差決定部264からの誤差位相差ΔPDだけ、位相差決定部262からの位相差PDを補正または補償して、補正された位相差PDcを生成する。
【0048】
方向判定部268は、雑音方向抑圧モードにおいて、閾値Dthに基づいてその補正された位相差PDcを判定し、抑圧角度範囲の角度境界αに対応する望ましい閾値Dth以下の位相差PDcを有する入力信号の時間区間を雑音区間と判定する。また、方向判定部268は、抑圧角度範囲の角度境界αに対応する望ましい閾値Dthより大きい位相差PDcを有する入力信号の時間区間を音声区間と判定する。方向判定部268は、雑音方向抑圧モードにおいて、音声区間または雑音区間の識別情報を抑圧部270に供給する。抑圧部270は、雑音方向抑圧モードにおいて、雑音区間における入力信号IN1(t)またはIN1(f)を減衰させることによって抑圧する。抑圧部270は、雑音方向抑圧モードにおいて、音声区間における入力信号IN1(t)またはIN1(f)を通過させる。抑圧部270は、雑音方向抑圧モードにおいて、その雑音が除去された音声信号INns(t)をスイッチSW_O(T1)に供給する。
【0049】
ノイズ・サプレッサ220および260は、これらの雑音抑圧のための処理を周波数領域で周波数毎に行ってもよい。この場合、ノイズ・サプレッサ220および260の抑圧部226および270は、さらに、処理済みの周波数領域のディジタル入力信号INns(f)を、例えば逆フーリエ変換などによって時間領域のディジタル音信号INns(t)に逆変換して、雑音抑圧済みのディジタル音信号INns(t)をスイッチSW_Oに供給する。
【0050】
ディジタル音信号INns(t)の出力は、例えば、音声認識または携帯電話機の通話に用いられる。ディジタル音信号INns(t)は、後続の利用アプリケーション400に供給され、そこで、例えば、ディジタル−アナログ変換器404でディジタル−アナログ変換され低域通過フィルタ406で低域通過濾波されてアナログ信号が生成され、またはメモリ414に格納されて音声認識部416で音声認識に使用される。音声認識部416は、ハードウェアとして実装されたプロセッサであっても、またはソフトウェアとして実装された例えばROMおよびRAMを含むメモリ414に格納されたプログラムに従って動作するプロセッサであってもよい。
【0051】
ディジタル信号プロセッサ200は、ハードウェアとして実装された信号処理回路であっても、またはソフトウェアとして実装された例えばROMおよびRAMを含むメモリ202に格納されたプログラムに従って動作する信号処理回路であってもよい。
【0052】
図8A〜8Cは、2つのノイズ・サプレッサ220および260および制御部230によって実行される、雑音抑圧のためのフローチャートの例を示している。
【0053】
図8Aを参照すると、ステップ802において、音声区間検出部222は、入力バッファ・メモリ212から、マイクロホンMIC1から取り出された現在の時間区間のディジタル入力信号IN1(t)を受け取る。
【0054】
ステップ804において、音声区間検出部222は、その時間区間のディジタル入力信号IN1(t)についてVAD(Voice Activity Detection、音声活動検出)法により音声区間か非音声区間または雑音区間かを判定する。音声区間検出部222は、ディジタル入力信号IN1(t)のその時間区間について音声区間および/または非音声区間(雑音区間)の識別情報を制御部230および電力判定部224に供給する。
【0055】
ステップ806において、電力判定部224は、入力バッファ・メモリ212からディジタル入力信号IN1(t)を取りだして、その判定された雑音区間におけるディジタル入力信号IN1(t)の雑音の電力(または振幅)の大きさを検出する。電力判定部224は、その検出した雑音電力の大きさを制御部230に供給する。
【0056】
ステップ808において、制御部230は、雑音電力の大きさが、雑音抑制のための閾値Pthより大きいかどうかを判定する。雑音電力の大きさとして、例えば電力または振幅の平均値を用いてもよい。閾値Pthは、望ましい音声電力の大きさより充分小さい値、または予期される一般的な背景雑音より高い値に設定してもよい。雑音電力の大きさが閾値Pthより大きいと判定された場合は、手順は図8Cのステップ832に進む。雑音電力の大きさが閾値Pth以下であると判定された場合は、手順は図8Bのステップ812に進む。
【0057】
雑音区間における入力信号IN1(t)の雑音電力の大きさが閾値Pthより大きくない場合には、雑音区間における入力信号を抑圧し、音声電力成分を含む入力信号電力から雑音電力成分を減算することによって、入力信号の音声品質を向上させることができる。雑音区間における入力信号IN1(t)の雑音電力の大きさが、閾値Pthより大きい、または音声成分より充分小さくない場合には、音声と雑音が電力の大きさで区別することは難しい。この場合、音声電力成分を含む入力信号電力から雑音電力成分を減算すると、音声電力成分が小さ過ぎて、入力信号の音声品質が低下する可能性がある。従って、2つの入力信号の間の位相差または音源方向に基づいて雑音を抑制するとよい。
【0058】
図8Bを参照すると、ステップ812において、制御部230は、少なくとも現在の雑音区間、または現在の雑音区間および後続の音声区間を含む時間期間において、ノイズ・サプレッサ220を雑音電力抑圧モードに設定する。そのために、制御部230は、ノイズ・サプレッサ220のスイッチSW_I1をオン状態(T1)に設定し、ノイズ・サプレッサ260のスイッチSW_I2をオフ状態(T1)に設定する。
【0059】
ステップ814において、電力判定部224は、その判定された雑音区間における検出した雑音の電力に基づいて、雑音電力を推定し、その推定の雑音電力を抑圧部226に供給する。その推定の雑音電力は、例えば、その検出した雑音の電力の平均値であってもよい。
【0060】
ステップ816において、抑圧部226は、ディジタル入力信号IN1(t)の電力をゼロ(0)に減衰させることによってその雑音区間における雑音電力(成分)を抑圧する。代替形態として、入力信号IN1(t)の電力を或る割合で、例えば1/10に減衰させてもよい。それによって、雑音電力中に音声が埋もれていた場合に音声を消去してしまう危険性を減らすことができる。また、抑圧部226は、ディジタル入力信号IN1(t)から各周波数について推定の雑音電力(成分)を減算することによってその音声区間における雑音成分を抑圧する。
【0061】
ステップ818において、位相差決定部262は、音声区間検出部222から音声区間(V)と非音声区間(N)の識別情報を受け取って、音声区間(V)が検出されたかどうかを判定する。音声区間が検出されたと判定された場合は、手順はステップ820に進む。音声区間が検出されなかったと判定された場合は、手順はステップ824に進む。
【0062】
ステップ820において、位相差決定部262は、入力バッファ・メモリ212および214からその音声区間のディジタル入力信号IN1(t)およびIN2(t)を取り出して、音声区間における音声ディジタル入力信号IN1(t)およびIN2(t)の間の位相差を求める。音声区間では、方向θ=0における目的音源SSからの音がマイクロホンMIC1、MIC2によって拾われると考えられる。
【0063】
ステップ822において、誤差位相差決定部264は、音声ディジタル入力信号IN1(t)およびIN2(t)の間の決定された位相差PDと、目的音源方向からの音声についてそれに対応する理論的位相差PDとを比較してその間の誤差(差)を求める。例えば、誤差位相差ΔPDは、その決定された位相差PDから理論的位相差PDを減算して求めてもよい。誤差位相差決定部264は、その決定された誤差を誤差位相差ΔPDとして位相差補正部266に供給する。この誤差位相差ΔPDは、後で、ステップ836において用いることができる。
【0064】
ステップ824において、制御部230は、出力側スイッチSW_Oをノイズ・サブレッサ220の抑圧部226の出力に接続して、抑圧部226からの(ステップ816における)雑音抑圧された出力音声信号INns(t)を出力する。
【0065】
ステップ852において、音声区間検出部222は、入力バッファ・メモリ212に現在処理すべき時間区間のディジタル入力信号IN1(t)があるかどうかを判定する。そのような時間区間のディジタル入力信号IN1(t)があると判定された場合は、手順はステップ814に戻る。そのような時間区間のディジタル入力信号がないと判定された場合は、手順は図8A〜8Cのルーチンを出る。新しい時間区間のディジタル入力信号に対して図8A〜8Cのフローチャートが再び実行される。
【0066】
図8Bのステップ814〜824および852は、次に図8Aのステップ808の判定が行われてその後で図8Cのステップ832が実行されるまで繰り返してもよい。
【0067】
このようにして、雑音区間におけるディジタル入力信号の雑音電力の大きさが閾値Pthより大きくない場合には、ノイズ・サプレッサ220によって雑音電力に基づいて雑音が抑制される。
【0068】
図8Cを参照すると、ステップ832において、制御部230は、少なくとも現在の雑音区間、または現在の雑音区間および後続の音声区間を含む時間期間において、ノイズ・サプレッサ260を雑音方向抑圧モードに設定する。そのために、制御部230は、ノイズ・サプレッサ260のスイッチSW_I2をオン状態(T2)に設定し、ノイズ・サプレッサ220のスイッチSW_I1をオフ状態(T2)に設定する。
【0069】
ステップ834において、位相差決定部262は、入力バッファ・メモリ212および214からディジタル入力信号IN1(t)およびIN2(t)を取り出して、雑音区間または音声区間の時間区間における音声ディジタル入力信号IN1(t)およびIN2(t)の間の位相差PDを求める。
【0070】
ステップ836において、位相誤差補正部264は、位相差決定部262によって求めた位相差PDを、ステップ822において誤差位相差決定部264から受け取った誤差位相差ΔPDを用いて補正または補償して、補正された位相差PDcを生成する(図6、7)。そのために、その求めた位相差PDから、誤差位相差ΔPDまたは誤差位相差ΔPDの或る割合α(例えば、α=1または0.8)を減算してもよい(PD−ΔPD×α)。それによって位相差の誤差補正の可能性ある誤差を小さくすることができる。
【0071】
ステップ838において、方向判定部268は、その補正された位相差PDcに基づいてその時間区間における音源の方向が空間的に受音角度範囲(−α〜0〜+α)かどうかを判定し、または補正された位相差PDcが閾値Dthを超えるかどうかを判定する。この場合、各時間区間は、1つの音声区間または雑音区間であっても、それより短い時間区間であってもよい。方向判定部268は、位相差PDcが閾値Dthを超える場合には、音源の方向が空間的に受音角度範囲(−α〜0〜+α)であると判定する。方向判定部268は、位相差PDcが閾値Dthを超えない場合には、音源の方向が空間的に抑圧角度範囲(+α〜π〜(2π−α))であると判定する。
【0072】
ステップ840〜844において、抑圧部270は、音源の方向が受音角度範囲(−α〜0〜+α)か、または受音角度範囲(−α〜0〜+α)の位相差を有するディジタル入力信号IN1(t)を通過させる。また、抑圧部270は、音源の方向が抑圧角度範囲(+α〜π〜(2π−α))であるか、または位相差PDcが抑圧角度範囲(+α〜π〜(2π−α))の位相差を有するとき、ディジタル入力信号IN1(t)の電力をゼロ(0)に減衰させる。このようにして、音源の方向が抑圧角度範囲(+α〜π〜(2π−α))にある時間区間におけるディジタル入力信号IN1(t)の電力を抑圧する。
【0073】
ステップ840において、抑圧部270は、判定された音源の方向が、受音角度範囲(−α〜0〜+α)かどうか、または位相差PDcが抑圧角度範囲(+α〜π〜(2π−α))の位相差を有するかどうかを判定する。それが受音角度範囲(−α〜0〜+α)であると判定された場合は、手順はステップ842に進む。それが受音角度範囲(−α〜0〜+α)でないと判定された場合は、手順はステップ844に進む。
【0074】
ステップ842において、抑圧部270は、ディジタル入力信号IN1(t)を通過させる。その後、手順はステップ850に進む。
【0075】
ステップ844において、抑圧部270は、ディジタル入力信号IN1(t)をゼロ(0)に減衰させて抑圧する。代替形態として、入力信号IN1(t)の電力を或る割合で、例えば1/10に減衰させてもよい。それによって、雑音電力中に音声が埋もれていた場合に音声を消去してしまう危険性を減らすことができる。その後、手順はステップ850に進む。
【0076】
ステップ850において、制御部230は、出力側スイッチSW_Oをノイズ・サブレッサ260の抑圧部270に接続して、抑圧部270からの雑音抑圧された出力音声信号INns(t)を出力する。その後、手順はステップ842に進む。
【0077】
ステップ852は、図8Bのものと同様である。現在処理すべき時間区間のディジタル入力信号IN1(t)があると判定された場合は、手順は図8Aのステップ834に戻る。新しい時間区間のディジタル入力信号に対して図8A〜8Cのフローチャートが再び実行される。
【0078】
図8Cのステップ834〜850および852は、次に図8Aのステップ808の判定が行われてその後で図8Bのステップ812が実行されるまで繰り返してもよい。
【0079】
このように、雑音区間におけるディジタル入力信号の雑音電力の大きさが閾値Pthより大きい場合には、ノイズ・サプレッサ260によって2つのディジタル入力信号の間の位相差または音源方向に基づいて雑音を抑制する。
【0080】
このようにして、抑圧部226または抑圧部270からの雑音抑圧された出力音声信号INns(t)が、出力され、さらに利用アプリケーション部400に供給される。
【0081】
ここで挙げた全ての例および条件的表現は、発明者が技術促進に貢献した発明および概念を読者が理解するのを助けるためのものであり、ここで具体的に挙げたそのような例および条件に限定することなく解釈できる。また、明細書におけるそのような例の編成は本発明の優劣を示すこととは関係ない。本発明の実施形態を詳細に説明したが、本発明の精神および範囲から逸脱することなく、それに対して種々の変更、置換および変形を施すことができる。
【符号の説明】
【0082】
200 ディジタル信号プロセッサ
220 1マイク用のノイズ・サプレッサ
222 音声区間検出部(VAD)
224 電力判定部
226 抑圧部
230 制御部
260 2マイク用のノイズ・サプレッサ
262 位相差決定部
264 誤差位相差決定部
266 位相差補正部
268 方向判定部
270 抑圧部
SW_I1、SW_I2 入力側のスイッチ
SW_O 出力側のスイッチ

【特許請求の範囲】
【請求項1】
情報処理装置における音信号処理方法であって、
或る時間期間において第1と第2の入力音信号の中の前記第1の入力音信号の音声区間と雑音区間を判定する工程と、
前記雑音区間における前記第1の入力音信号の電力の大きさを判定する工程と、
前記雑音区間における前記第1の入力音信号の電力の大きさが第1の閾値より大きいかどうかを判定する工程と、
前記雑音区間における前記第1の入力音信号の電力の大きさが前記第1の閾値より大きくないと判定された場合には、前記雑音区間における前記判定された電力の大きさに基づいて、第1の抑圧部により、前記第1の入力音信号の前記音声区間および前記雑音区間における雑音を抑圧する工程と、
前記雑音区間における前記第1の入力音信号の電力の大きさが前記第1の閾値より大きいと判定された場合には、第2の抑圧部により、前記第1の入力音信号と前記第2の入力音信号の間の位相差に応じて前記第1の入力音信号の雑音を抑圧する工程と、
を含む音信号処理方法。
【請求項2】
さらに、前記雑音区間における前記第1の入力音信号の電力の大きさが前記第1の閾値より大きくないと判定された場合に、前記音声区間において、前記第1の入力音信号と前記第2の入力音信号の間の位相差を求め、前記第1の入力音信号と前記第2の入力音信号の間の理論的位相差と前記求めた位相差との間の誤差を求める工程を含み、
前記第1の入力音信号と前記第2の入力音信号の間の位相差に応じて前記第1の入力音信号の雑音を抑圧する前記工程は、前記求めた誤差に応じて前記位相差を補正することを含むものである、請求項1に記載の音信号処理方法。
【請求項3】
前記第1の入力音信号と前記第2の入力音信号の間の位相差に応じて前記第1の入力音信号の雑音を抑圧する前記工程は、
前記第1の入力音信号と前記第2の入力音信号の間の前記位相差が第2の閾値より大きいかどうかを判定し、
前記の位相差が前記第2の閾値より大きいと判定されたときに、前記第1の入力音信号を出力部に供給し、前記位相差が前記第2の閾値より大きくないと判定された場合には、前記第2の抑圧部により、前記第1の入力音信号の雑音を抑圧すること
を含むものである、請求項1に記載の音信号処理方法。
【請求項4】
第1と第2の入力音信号をそれぞれ受け取る第1と第2の音信号入力部と、
受け取った或る時間期間において前記第1の音信号入力部から受け取った前記第1の入力音信号の音声区間と雑音区間を判定する区間判定部と、
前記雑音区間における前記第1の入力音信号の電力の大きさを判定する電力判定部と、
前記雑音区間における前記第1の入力音信号の電力の大きさが第1の閾値より大きいかどうかを判定する制御部と、
前記雑音区間における前記第1の入力音信号の電力の大きさが前記第1の閾値より大きくないと判定された場合には、前記雑音区間における前記判定された電力の大きさに基づいて、前記第1の入力音信号の前記音声区間および前記雑音区間における雑音を抑圧する第1の抑圧部と、
前記雑音区間における前記第1の入力音信号の電力の大きさが前記第1の閾値より大きいと判定された場合には、前記第1の入力音信号と前記第2の入力音信号の間の位相差に応じて前記第1の入力音信号の雑音を抑圧する第2の抑圧部と、
を具える音信号処理装置。
【請求項5】
さらに、前記雑音区間における前記第1の入力音信号の電力の大きさが前記第1の閾値より大きくないと判定された場合に、前記音声区間において、前記第1の入力音信号と前記第2の入力音信号の間の位相差を求め、前記第1の入力音信号と前記第2の入力音信号の間の理論的位相差と前記求めた位相差との間の誤差を求める誤差位相差決定部を含み、
前記第2の抑圧部は、前記求めた誤差に応じて前記位相差を補正するものである、請求項4に記載の音信号処理装置。
【請求項6】
前記第2の抑圧部は、
前記第1の入力音信号と前記第2の入力音信号の間の前記位相差が第2の閾値より大きいかどうかを判定し、
前記の位相差が前記第2の閾値より大きいと判定されたときに、前記第1の入力音信号を出力部に供給し、前記位相差が前記第2の閾値より大きくないと判定された場合には、前記第2の抑圧部により、前記第1の入力音信号の雑音を抑圧するものである、
請求項4に記載の音信号処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8A】
image rotate

【図8B】
image rotate

【図8C】
image rotate


【公開番号】特開2011−99967(P2011−99967A)
【公開日】平成23年5月19日(2011.5.19)
【国際特許分類】
【出願番号】特願2009−253963(P2009−253963)
【出願日】平成21年11月5日(2009.11.5)
【出願人】(000005223)富士通株式会社 (25,993)