説明

音声判別装置

【課題】特徴量に含まれる残留エコー成分を抑制する。
【解決手段】音声判別装置100は、第1音響信号の周波数スペクトルを解析する第1音響信号解析部103と、前記第1音響信号のエコー成分を第2音響信号から抑圧した第3音響信号から、前記第1音響信号の周波数スペクトルを除外して、前記第3音響信号の周波数スペクトルの特徴量を抽出する特徴抽出部101と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、バージイン機能を有する音声認識に用いられる音声判別装置に関する。
【背景技術】
【0002】
カーナビゲーションなどに搭載される音声認識システムでは、ガイダンス音声再生中でも利用者の発声を認識できるバージイン機能の開発が進められている(特許文献1〜特許文献6を参照)。特許文献1〜特許文献4では、ガイダンス音声のパワーに応じて、特徴量に対する閾値を制御することにより、残留エコーに対する誤判別の防止を図っている。
【0003】
また、特許文献7〜特許文献9は、ガイダンス音声の周波数スペクトルを利用したエコー抑圧技術を開示している。特許文献7〜特許文献9では、エコーキャンセル部が出力する音響信号の生成過程で周波数帯域別に残留エコーを抑圧している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−84253号公報
【特許文献2】特許第3597671号公報
【特許文献3】特表平11−500277号公報
【特許文献4】米国特許出願公開第2009/0254342号明細書
【特許文献5】特開2009−251134号公報
【特許文献6】特許第4282704号公報
【特許文献7】特開2008−5094号公報
【特許文献8】特開2006−340189号公報
【特許文献9】国際公開第2005/046076号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1〜特許文献4の技術では、エコーキャンセル部の性能が不十分で、残留エコーに対する特徴量が利用者の発声に対する特徴量と同程度に大きくなった場合、利用者の発声を正しく検出することはできない。
【0006】
また、特許文献7〜特許文献9の技術では、特徴抽出の過程において残留エコー成分が特徴量に含まれる蓋然性が高くなり、音声/非音声の誤判別が生じる。
【0007】
本発明は、上記の課題に鑑みてなされたものであり、特徴量に含まれる残留エコー成分を抑制すること目的とする。
【課題を解決するための手段】
【0008】
音声判別装置は、第1音響信号の周波数スペクトルを解析する第1音響信号解析部と、前記第1音響信号のエコー成分を第2音響信号から抑圧した第3音響信号から、前記第1音響信号の周波数スペクトルを除外して、前記第3音響信号の周波数スペクトルの特徴量を抽出する特徴抽出部と、を備える。
【発明の効果】
【0009】
本発明によれば、特徴量に含まれる残留エコー成分を抑制することができる。
【図面の簡単な説明】
【0010】
【図1】第1の実施形態に係る音声判別装置を備えた音声認識システムを示す図。
【図2】エコーキャンセル部の構成を示す図。
【図3】音声判別装置の構成を示す図。
【図4】音声認識システムの動作のフローチャートを示す図。
【図5】特徴量の変化を示す図。
【図6】音声判別装置を備えた音声認識システムを示す図。
【図7】音声判別装置の構成を示す図。
【図8】音声認識システムの動作のフローチャートを示す図。
【発明を実施するための形態】
【0011】
以下、本発明に係る音声判別装置の実施の形態について、添付図面を参照しながら説明する。
【0012】
(第1の実施形態)
図1は、第1の実施形態に係る音声判別装置100を備えた音声認識システムを示す図である。この音声認識システムは、ガイダンス音声再生中にも利用者の発声を認識するバージイン機能を備えている。音声認識システムは、音声判別装置100と、音声認識部110と、エコーキャンセル部120と、マイクロホン130と、スピーカ140と、を備える。ガイダンス音声として予め生成された第1音響信号がスピーカ140から再生されると、第1音響信号と利用者の発声とを含む第2音響信号がマイクロホン130で取得される。エコーキャンセル部120は、第2音響信号から第1音響信号のエコー成分を除外(キャンセル)する。音声判別装置100は、エコーキャンセル部120が出力する第3音響信号の音声/非音声を判別する。音声認識部110は、音声判別装置100の結果から第3音響信号に含まれる利用者の発声区間を特定し、当該区間について音声認識処理を行う。以下、音声認識システムの処理を詳細に述べる。
【0013】
まず、音声認識システムは、第1音響信号として利用者に音声入力を促すようなガイダンス音声をスピーカ140から再生する。ガイダンス音声としては、例えば、「ピッとなったらお話ください。ピッ」のようなものがある。そして、マイクロホン130は、例えば、「今日の天気」のような利用者の発声を第2音響信号として取得する。このとき、第2音響信号には、スピーカ140から再生された第1音響信号がエコー成分として混入しうる。
【0014】
次に、エコーキャンセル部120について説明する。図2は、エコーキャンセル部120の構成を示す図である。エコーキャンセル部120は、マイクロホン130で取得した第2音響信号に含まれる第1音響信号のエコー成分をキャンセルする。このためにエコーキャンセル部120は、スピーカ140からマイクロホン130までのエコー経路の特性をFIR型の適応フィルタで推定する。例えば、16000Hzのサンプリング周波数でディジタル化された第1音響信号をx(t)、第2音響信号をd(t)、フィルタ長Lの適応フィルタ係数をw(t)とすると、エコー成分をキャンセルした後の第3音響信号e(t)は、数式1で計算できる。
【数1】

【0015】
また、適応フィルタ係数w(t)は、例えば、NLMSアルゴリズムを用いて、数式2で更新される。
【数2】

【0016】
ここで、αは更新速度を調整するステップサイズ、γは分母項が零になることを防ぐための小さな正の値である。
【0017】
適応フィルタがエコー経路の特性を正確に推定できれば、第2音響信号に含まれる第1音響信号のエコー成分は完全にキャンセルされる。ところが、通常は適応フィルタ係数の更新不足やエコー経路特性の急激な変動により推定誤差が生じ、第3音響信号に第1音響信号のエコー成分が残留する。したがって、バージイン機能を有した音声認識システムでは、残留エコーに対して頑健に動作する音声判別装置が必要になる。
【0018】
次に、音声判別装置100の動作について説明する。音声判別装置100は、残留エコーを含んだ第3音響信号から利用者の音声を検出するように構成されている。図3は、音声判別装置100の構成を示す図である。音声判別装置100は、特徴抽出部101と、閾値処理部102と、第1音響信号解析部103と、を備える。特徴抽出部101は、第3音響信号から特徴量を抽出する。閾値処理部102は、特徴量と第1閾値とを比較して第3音響信号の音声/非音声を判別する。第1音響信号解析部103は、第1音響信号の周波数スペクトルを解析する。音声判別装置100は、第1音響信号の周波数スペクトルを解析して、残留エコーが含まれる蓋然性が高い周波数を検出する。特徴抽出部101は、残留エコーが含まれる蓋然性が高い周波数の情報を除外して、残留エコーの影響を低減した特徴量を抽出する。以下に、第1の実施形態に係る音声認識システムの動作のフローを示す。
【0019】
図4は、第1の実施形態に係る音声認識システムの動作のフローチャートを示す図である。
【0020】
ステップ401では、第1音響信号解析部103が、第1音響信号の周波数スペクトルを解析し、残留エコーが生じる蓋然性が高い周波数を検出する。まず、第1音響信号解析部103は、ガイダンス音声として再生される第1音響信号x(t)を、例えば、フレーム長25ms(400サンプル)、間隔8ms(128サンプル)のフレームに分割する。フレーム分割には、ハミング窓を使用できる。次に、第1音響信号解析部103は、各フレームに対して、例えば、112点の零詰めを行った後、512点の離散フーリエ変換を適用する。そして、第1音響信号解析部103は、得られた周波数スペクトルX(k)(パワースペクトル)を数式3の再帰式で時間方向にスムージングする。
【数3】

【0021】
ここで、X´(k)は、周波数インデックスfにおけるスムージング後の周波数スペクトル、μはスムージングの度合いを調整する忘却係数である。μは0.3〜0.5程度に設定することができる。第1音響信号は、スピーカ140からマイクロホン130までのエコー経路を伝達するため、第1音響信号と第3音響信号中に含まれる残留エコーには時間的なずれが生じうる。上述したスムージング処理は、この時間的なずれを補正するものである。スムージングにより、現フレームの周波数スペクトルの成分が後続するフレームの周波数スペクトルに混入する。したがって、スムージング後の周波数スペクトルを解析することで、解析結果と第3音響信号中のエコー成分との時間的なずれを補正できる。
【0022】
次いで、第1音響信号解析部103は、音響信号の周波数スペクトルを解析する。第1の実施形態では、第1音響信号を構成する主要な周波数(以下「主要周波数」という。)の検出を行う。具体的には、第1音響信号の周波数スペクトルを解析して、パワーが大きな周波数を主要周波数として検出する。主要周波数では、スピーカ140から出力された第1音響信号のパワーが大きくなる。したがって、この周波数では残留エコーが含まれる蓋然性が高い。主要周波数を検出するために、第1音響信号解析部103は、スムージング後の周波数スペクトルX´(k)と第2閾値TH(k)とを比較する。解析結果R(k)は、数式4で表される。
【数4】

【0023】
(k)=0となる周波数が、第1音響信号を構成する主要周波数である。第2閾値TH(k)は、残留エコーが含まれる蓋然性が高い周波数の検出に適した大きさが必要である。第2閾値を第1音響信号の無音区間(ガイダンス音声が含まれていない区間)のパワーより大きな値に設定すれば、残留エコーが生じない周波数が主要周波数として検出されることを防止できる。また、数式5のように各フレームにおける周波数スペクトルの平均値を第2閾値とすることもできる。この場合、第2閾値はフレームごとに動的に変化する。
【数5】

【0024】
この他にも、閾値処理部102が、各フレームにおける周波数スペクトルのパワーを昇順にソートし、ソートした結果、上位X%(例えば、50%)に入る周波数を主要周波数として検出することもできる。また、第2閾値より大きく、かつ、昇順にソートした結果、上位X%(例えば、50%)に該当する周波数を主要周波数として検出してもよい。
【0025】
ステップ402では、特徴抽出部101が、第1音響信号解析部103で得られた解析結果(主要周波数)を用いて、第3音響信号から利用者の発声らしさを表す特徴量を抽出する。まず、特徴抽出部101は、エコーキャンセル部120が出力した第3音響信号e(t)を、フレーム長25ms(400サンプル)、間隔8ms(128サンプル)のフレームに分割する。フレーム分割には、ハミング窓を使用できる。次に、特徴抽出部101は、各フレームに対して112点の零詰めを行った後、512点の離散フーリエ変換を適用する。そして、特徴抽出部101は、得られた周波数スペクトルE(k)と第1音響信号解析部103からの解析結果R(k)とを用いて、特徴量を抽出する。本実施形態では、特徴量として周波数別SNRの平均値(以下「平均SNR」という。)を抽出する。
【数6】

【0026】
ここで、SNRavrg(k)は平均SNR、M(k)はk番目のフレームで主要周波数と判定された周波数インデックスの数を表している。また、N(k)は背景雑音の周波数スペクトルの推定値であり、例えば、第3音響信号の先頭20フレームにおける周波数スペクトルの平均値から計算する。特徴抽出部101は、解析結果で主要周波数と検出された周波数(R(k)=0)の情報を除外して、特徴量を抽出している。主要周波数は、第1音響信号のパワーが大きな周波数であり、当該周波数に残留エコーが含まれる蓋然性は高くなる。したがって、特徴量を抽出する際に主要周波数を除外することで、残留エコーの影響を取り除いた特徴量の抽出が可能になる。
【0027】
図5は、主要周波数成分を除外する前後における特徴量の変化を示す図である。図5により、主要周波数成分を除外することで残留エコー区間における特徴量の値が低くなることが分かる。これにより、利用者の発声区間と残留エコー区間における特徴量の違いが明確になり、固定閾値を用いても正確に音声/非音声を判別できる。なお、従来技術(特許文献2、3、4を参照)では、第1音響信号のパワーに応じた閾値制御しか行っておらず、本願発明に見られるような特徴量そのものの改善効果を得ることはできない。なお、特徴抽出部101で抽出される特徴量は、第3音響信号の周波数スペクトルを利用するものであれば何でもよい。例えば、特許文献5に開示されたような正規化スペクトルエントロピーを用いることもできる。
【0028】
ステップ403では、閾値処理部102は、特徴抽出部101で抽出された特徴量と第1閾値を比較することで、フレーム単位の音声/非音声を判別する。第1閾値がTHVA(k)である場合、フレーム単位の判別結果は数式7のようになる。
【数7】

【0029】
ステップ404では、音声認識部110が、閾値処理部102から出力されるフレーム単位の音声判別結果を使って利用者の発声区間を特定し、当該区間について音声認識処理を実行する。フレーム単位の音声判別結果から利用者の発声区間(始終端位置)を特定する方法が特許文献6に開示されている。特許文献6では、フレーム単位の判別結果とその継続フレーム数を用いて利用者の発話区間を決定している。例えば、音声と判別されたフレームが10フレーム連続した場合、当該継続区間で最初に音声と判別されたフレームを始端位置とする。非音声と判別されたフレームが15フレーム継続した場合、当該継続区間で最初に非音声と判別されたフレームを終端位置とする。利用者の発声区間を特定した後、音声認識部110は、当該区間からMFCCなどの静的特徴量とΔ・ΔΔで表される動的特徴量を結合させた音声認識のための特徴ベクトルを抽出する。そして、音声認識部110は、予め学習した認識対象語彙の音響モデル(HMM)と特徴ベクトル系列を照合し、最尤のスコアを出す語彙を認識結果として出力する。
【0030】
以上のように、本実施形態では、第1音響信号の周波数スペクトルを用いて、音声判別の特徴量から残留エコーの影響を除外している。これにより、残留エコーに対する特徴量を抑えることができ、従来技術(特許文献2、3、4を参照)にみられるような閾値制御を用いることなく正確に音声/非音声を判別できる。また、従来技術(特許文献5を参照)の閾値制御では、残留エコーが大きくなると、残留エコー区間における特徴量(パワー)が利用者の発声区間の特徴量(パワー)と同程度に大きくなり、残留エコーに対する誤判別を回避できなかった。一方、本願発明では、残留エコー区間における特徴量の値が抑えられることから、残留エコーに対する誤判別を低減することが出来る。さらに、従来技術(特許文献7、8、9を参照)では、第3音響信号から抽出した特徴量に残留エコー成分が含まれる蓋然性が高かった。一方、本願発明は、特徴抽出の過程で残留エコーが含まれる蓋然性が高い周波数の情報を除外するため、残留エコー成分の影響を除外した特徴量を第3音響信号から抽出できる。
【0031】
(第2の実施形態)
図6は、第2の実施形態に係る音声判別装置600を備えた音声認識システムを示す図である。本実施形態に係る音声認識システムは、音声判別装置600がエコーキャンセル部120で更新された適応フィルタ係数を参照している点で、第1の実施形態と相違する。第1の実施形態と同様の構成については、適宜説明を省略する。
【0032】
図7は、音声判別装置600の構成を示す図である。音声判別装置は、特徴抽出部601と、閾値処理部602と、第1音響信号解析部603と、を備える。特徴抽出部601は、第3音響信号から特徴量を抽出する。閾値処理部602は、特徴量と第1閾値を比較して第3音響信号の音声/非音声を判別する。第1音響信号解析部603は、第1音響信号の周波数スペクトルを解析する。以下に、第2の実施形態に係る音声認識システムの動作のフローを示す。
【0033】
図8は、第2の実施形態に係る音声認識システムの動作のフローチャートを示す図である。
【0034】
ステップS801では、第1音響信号解析部603が、第1音響信号の周波数スペクトルの大きさに応じた重み付けを行う。より具体的には、パワーが大きな周波数には小さな重みを、パワーが小さな周波数には大きな重みを付与する。パワーが大きな周波数では、スピーカ140から出力される第1音響信号のパワーも大きくなり、残留エコーが含まれる蓋然性が高くなる。したがって、特徴抽出部601は、パワーが大きな周波数における情報に小さな重みを付与することで、残留エコーの影響を低減した特徴抽出が可能になる。各周波数に対する重みR(k)は、第1音響信号の周波数スペクトルX(k)から数式8で計算される。
【数8】

【0035】
重みR(k)の総和は1であり、周波数スペクトルの値が大きいほど小さくなる。
【0036】
第2の実施形態では、エコー経路により生じる第1音響信号と第3音響信号中のエコー成分の時間的なずれをエコーキャンセル部120で更新された適応フィルタ係数から推定する。適応フィルタ係数w(t)は、第1音響信号がスピーカ140から出力されて音響空間を伝達しマイクロホン130で第2音響信号として取得されるまでのエコー経路のインパルス応答を表している。したがって、更新されたフィルタ係数w(t)について、絶対値が所定閾値より小さな係数が先頭から継続する数をカウントすることにより、当該エコー経路の伝達に要する時間長Dtime(以下「伝達時間長」という。)を推定できる。例えば、更新後のフィルタ係数w(t)が数式9のような系列であった場合を考える。
【数9】

【0037】
フィルタ係数の絶対値の閾値を、例えば0.5に設定した場合、先頭からカウントして10個の係数の絶対値が連続して閾値を下回っている。この場合、エコー経路の伝達に10サンプル分の時間を要していることになる。サンプリング周波数が、例えば16000Hzの場合、Dtimeは、10÷16000×1000=0.0625msとなる。
【0038】
ステップS802では、第1音響信号解析部603は、伝達時間長に応じた補正を解析結果R(k)に加え、数式10のような補正後の解析結果R´(k)を得る。
【数10】

【0039】
ここで、8はシフト幅(単位はms)、Dframeは伝達時間長をフレーム数に変換した値である。補正後の解析結果R´(k)が、第1音響信号解析部603が特徴抽出部601に出力する最終的な解析結果となる。以上のように、エコーキャンセル部120が、解析結果に伝達時間長分の遅延を加えることで、解析結果と第3音響信号の間の時間同期が確保される。
【0040】
ステップS802では、特徴抽出部601は、第1音響信号解析部603で得られた解析結果R´(k)を用いて、第3音響信号から特徴量を抽出する。第3音響信号の周波数スペクトルE(k)と解析結果R´(k)から平均SNRは数式11で計算される。
【数11】

【0041】
ステップS803及びステップS804は、ステップS403及びステップS404と同様であるため、説明は省略する。
【0042】
本実施形態では、各周波数から抽出したSNR(snr(k))に重みR´(k)をかけて特徴量を抽出している。第1音響信号のパワーが大きな周波数に対して小さな重みを付与することにより、残留エコーの影響を低減した特徴量の抽出が可能になる。
【0043】
以上のように、本実施形態では第1音響信号の周波数スペクトルを用いて、特徴量から残留エコーの影響を低減した特徴量を抽出している。これにより、残留エコーに対する特徴量を抑えられ、正確に音声/非音声を判別できる。
【0044】
なお、本発明の実施形態に係る音声判別装置は、例えば、汎用のコンピュータをハードウェアとして用いることでも実現することができる。すなわち、音声判別装置の各部は、上記のコンピュータに搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声判別装置は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、コンピュータ読み取り可能な記憶媒体に記憶するか或いはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。
【0045】
なお、本発明は、上記実施形態に限定されず、その要旨を逸脱しない範囲内で構成要素を変形したりすることができる。また、上記実施形態に開示された複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【符号の説明】
【0046】
100、600 音声判別装置
101、601 特徴抽出部
102、602 閾値処理部
103、603 第1音響信号解析部
120 エコーキャンセル部

【特許請求の範囲】
【請求項1】
第1音響信号の周波数スペクトルを解析する第1音響信号解析部と、
前記第1音響信号のエコー成分を第2音響信号から抑圧した第3音響信号から、前記第1音響信号の周波数スペクトルを除外して、前記第3音響信号の周波数スペクトルの特徴量を抽出する特徴抽出部と、
を備えることを特徴とする音声判別装置。
【請求項2】
前記第1音響信号解析部は、前記第1音響信号の周波数スペクトルにおける各周波数のパワーと閾値を比較し、
前記特徴抽出部は、前記第1音響信号解析部の解析により前記閾値より大きいと判定された周波数における周波数スペクトルを除外して、前記第3音響信号の周波数スペクトルの特徴量を抽出することを特徴とする請求項1に記載の音声判別装置。
【請求項3】
前記第1音響信号解析部は、前記第1音響信号の周波数スペクトルにおける各周波数が周波数スペクトルのパワーを昇順に並び替えた際に大きい順から上位X%に含まれるか否かを判定し、
前記特徴抽出部は、前記第1音響信号解析部の解析により上位X%に含まれると判定された周波数における周波数スペクトルを除外して、前記第3音響信号の周波数スペクトルの特徴量を抽出することを特徴とする請求項1に記載の音声判別装置。
【請求項4】
前記第1音響信号解析部は、前記第1音響信号の各周波数に周波数スペクトルのパワーの大きさに応じた重みを付与し、
前記特徴抽出部は、前記第1音響信号部の解析により付与された重みを用いて、前記第3音響信号の周波数スペクトルの特徴量を抽出することを特徴とする請求項1に記載の音声判別装置。
【請求項5】
前記第1音響信号解析部は、前記第1音響信号の周波数スペクトルを時間方向にスムージングした周波数スペクトルを解析することを特徴とする請求項1乃至請求項4の何れか1項に記載の音声判別装置。
【請求項6】
前記第1音響信号解析部は、前記第1音響信号がエコー経路の伝達に必要な時間長を推定するエコーキャンセル部を備え、前記エコーキャンセル部で推定された伝達時間長に応じた遅延を付与して前記第1音響信号の解析結果を出力することを特徴とする請求項1乃至請求項4のいずれか1項に記載の音声判別装置。
【請求項7】
前記エコーキャンセル部は、適応アルゴリズムによりフィルタ係数を更新し、
前記第1音響信号解析部は、前記エコーキャンセル部で更新されたフィルタ係数を用いて前記第1音響信号がエコー経路の伝達に必要な時間長を推定することを特徴とする請求項6に記載の音声判別装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−203700(P2011−203700A)
【公開日】平成23年10月13日(2011.10.13)
【国際特許分類】
【出願番号】特願2010−73700(P2010−73700)
【出願日】平成22年3月26日(2010.3.26)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】