説明

音声認識方法、その装置およびプログラム、その記録媒体

【課題】 音声応答装置の音声認識においてガイダンス音(音声)がエコーとして混入しても高い認識率とする。
【解決手段】 システム音声生成部32からのガイダンス音を用いてスピーカ31からマイクロホン34に回り込むエコー信号を、マイクロホン34よりの入力信号に対し抑圧処理し、更に背景雑音の抑圧処理を行い、その後、残留エコーを抑圧する。エコー及び雑音抑圧された入力信号の特徴ベクトルを抽出し、特徴ベクトルより、入力信号が音声区間か雑音区間かの判定を行い、雑音区間であれば、その特徴ベクトルについて雑音モデルを学習し、雑音モデルとクリーン音声モデルとを合成して雑音重畳音声モデルとする。入力信号が音声区間と判定された特徴ベクトルに対し、雑音重畳音声モデルの尤度を計算し、尤度が最も高いモデルの認識カテゴリを認識結果として出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、例えば音声応答装置のように、マイクロホンに収音された音声信号に対し音声認識を行い、この認識結果に対応した音声合成信号をスピーカから放音する装置に用いられ、マイクロホンからの入力音声信号の特徴ベクトル系列に対して、各認識カテゴリごとの特徴ベクトルからモデル化した確率モデルの尤度を求めて、入力音声信号の認識を行う音声認識方法、その装置およびプログラム、その記録媒体に関する。
【背景技術】
【0002】
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位の認識カテゴリ毎に隠れマルコフモデル(Hidden Markov Model、以下ではHMMと記す)などの確率モデルを用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。従来のHMMを用いた音声認識装置を図1を参照して簡単に説明する。入力端子11から入力された音声信号は、A/D変換部12においてディジタル信号に変換される。そのディジタル信号から特徴ベクトル抽出部13において音声特徴ベクトルを抽出する。予め、認識カテゴリごとに、音声単位について作成したHMMを、モデルメモリ14から読み出し、尤度計算部15において、抽出された音声特徴ベクトルに対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位(認識カテゴリ)を認識結果とし出力部16より出力する。なおこの明細書及び図面中で対応する部分は同一参照番号を付けて重複説明は省略する。
【0003】
背景雑音などの加法性雑音が重畳した音声の認識方法を2つ説明する。その1つ目は、入力音声に重畳した雑音を抑圧した後に認識する方法である。雑音抑圧方法はいろいろと提案されているが、ここではスペクトルサブトラクション法(以下、SS法と記す)について説明する(例えば非特許文献1参照)。時間領域で加法性の2つの信号は、線形パワースペクトル上でも加法性であることから、SS法では、雑音重畳音声信号から、推定雑音成分を線形パワースペクトル上で減算して音声成分を抽出する。
【0004】
SS法を用いた音声認識装置を図2を参照して簡単に説明する。ディジタル信号とされた入力音声信号は、雑音であるか、雑音重畳音声であるかを音声/雑音判定部21で判定される。この判定部21は、その判定が雑音であるならば、音声/雑音スイッチ22を雑音端子22a側に接続して、A/D変換部12の出力側を平均雑音パワースペクトル計算部23に接続して入力音声信号中の雑音区間における平均パワースペクトルを計算する。判定部21で認識対象である雑音重畳音声区間であると判定された場合は、音声/雑音スイッチ22を音声端子22b側に切り替えて、A/D変換部12の出力側を雑音重畳音声パワースペクトル計算部24に接続し、入力音声信号中の雑音重畳音声のパワースペクトルを計算する。抑圧処理部25において、各時刻の雑音重畳音声のパワースペクトルから、平均雑音パワースペクトルを減算する。時刻tのパワースペクトルの周波数fの雑音抑圧後のパワースペクトルY(t,f)は、以下のように計算される。
【0005】
D(Y(t,f))=Y(t,f)−αN^(f)
(t,f)=D(Y(t,f)):D(Y(t,f))>βY(t,f)の場合
(t,f)=βY(t,f) その他の場合 (1)
ここで、Y(t,f)は、入力雑音重畳音声の時刻t、周波数fのパワースペクトル、
N^(f)は推定された周波数fの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常1より大きい。
βはフロアリング係数であり、1より小さい。
【0006】
抑圧処理部25から出力されるパワースペクトルから、音声認識の特徴パラメータ(例えば、12次元のメル周波数・ケプストラム係数(Mel-Frequency Cepstrum Coefficient:MFCC))を特徴ベクトル抽出部13で計算する。これ以後の処理は、図1で説明した通りである。
2つ目の例としてHMM合成法による雑音重畳音声の認識について説明する。認識対象音声信号に重畳されていると予想される雑音データを、雑音を含まないクリーンな音声の学習データセットに重畳し、HMMを作成し、得られたHMMを用いて、雑音重畳音声信号に対し音声認識をすれば高い認識性能が得られる。
【0007】
しかし、音声認識が利用される周囲環境の雑音は様々であり、予め予想することは難しい。さらに、HMMを作成するためのクリーン音声学習データセットのデータ量は膨大であり、従って重畳されていると思われる雑音データを重畳して、雑音重畳音声モデルを作成するために例えば、100時間という長い計算時間がかかる。よって、音声認識が利用される周囲環境の雑音を認識時に収録し、HMMを作成して利用することは、HMM作成に長い処理時間がかかるため現実的ではない。
そこで、例えば特許文献1に示すように、雑音のない大量のクリーン音声学習データセットをもとに予めクリーン音声HMMを作成しておき、認識時には背景雑音を観測して雑音HMMを作成し、クリーン音声HMMと合成する。得られた雑音重畳音声HMMは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。雑音モデルの作成、モデルの合成にかかる処理時間は数秒から数十秒である。確率モデルであるHMMを用いるので、音声の変動、雑音の変動を考慮することもできる。
【特許文献1】特許第3247746号公報
【非特許文献1】Steven F.Boll:“Suppression of Acoustic Noise in Speech Using Spectral Subtraction,”IEEE Transactions on Acoustics,Speech and Signal Processing,Vol.ASSP-27,No.2,pp.113-120,April 1979
【発明の開示】
【発明が解決しようとする課題】
【0008】
例えば、音声認識方法を利用した人間と機械との音声応答装置においては、装置に設置されたスピーカから、ユーザに対するガイダンスのための音声や音を発することが多い。このような装置構成においては、装置に設置された音声認識用のマイクからは、周囲の背景雑音だけでなく、音声応答装置が自らが発するガイダンス音声も回り込んでエコーとして入力されてしまうことが多く、これも周囲雑音と同様に音声認識装置にとっての雑音となる。これらの雑音は、音声認識性能を劣化させる要因となる。
本発明は、上記に鑑みてなされたもので、その目的とするところは、周囲雑音のみならず、音声応答装置のように音声認識装置と共に用いられる音声合成装置が発する音声や音の回り込みエコーの存在に拘らず、認識性能が高い音声認識方法、その装置、プログラムおよび記録媒体を提供することにある。
【課題を解決するための手段】
【0009】
この発明はマイクロホンにより音響信号を収音し、スピーカより音響信号を放音する装置における上記マイクロホンにより収音した音声信号を確率モデルを用いて音声認識を行う音声認識方法であって、
マイクロホンよりの入力信号中の、上記スピーカからの放音信号成分(以下エコー信号という)を、上記スピーカへの供給信号を用いて抑圧し、かつ入力信号中の雑音信号成分を抑圧し、これらの抑圧がなされた信号を特徴ベクトル系列に変換し、この特徴ベクトル系列が認識対象の音声信号を含む音声区間か否かを判定し、その判定が音声区間でなければその特徴ベクトル系列を用いて雑音モデルを学習し、その雑音モデルと、雑音がないクリーンな音声データを用いて予め作成されたクリーン音声モデルとを合成して雑音重畳音声モデルを生成し、上記判定が音声区間であればその特徴ベクトル系列と上記雑音重畳音声モデルとを用いて認識カテゴリに対する尤度を計算し、これら計算された尤度に基づき、認識結果を出力する。
【発明の効果】
【0010】
この発明によれば、マイクロホンよりの入力信号中の雑音信号成分を抑圧するだけでなく、スピーカへの供給信号を用いてエコー信号をも抑圧し、これら両抑圧がなされた信号から雑音モデルを生成し、クリーン音声モデルと合成し、かつエコーおよび雑音抑圧され、S/N(信号対雑音比)が改善された雑音重畳音声信号に対し、前記合成モデルを用いて音声認識を行っているため、環境雑音のみならずエコーの影響を受け難く、高い認識率を得ることができる。しかも雑音モデルと、クリーン音声モデルを合成して雑音重畳音声モデルとしているため、雑音重畳音声モデルを短時間で作ることができる。
【発明を実施するための最良の形態】
【0011】
[第1実施形態]
この発明の第1実施形態機能構成例を図3にその処理手順の例を図4にそれぞれ示す。この発明は例えば音声応答装置における音声認識に適用される。つまりこの音声応答装置の利用者に対し発話を誘導するためのガイダンス音声や利用者の発声を促す“ピッ”という音などのガイダンス音がスピーカ31から放音される。このガイダンス音声やガイダンス音など(以下システム音声という)を放音するために、出力用システム音声生成部32でディジタルシステム音声信号が音声合成され、このディジタルシステム音声信号が音声再生部33でアナログのシステム音声信号に変換されてスピーカ31へ供給される。
【0012】
利用者より発声された音声はマイクロホン34により収音され、その収音された音声信号は、入力端子11を通じてA/D変換部12へ入力される。マイクロホン34には周囲雑音が収音されると共に、スピーカ31から放音されたシステム音声の回り込みエコーが収音される。つまりマイクロホン34から入力端子11へ供給される入力信号は利用者の認識対象音声信号に周囲雑音信号およびエコー信号が重畳されたものである。
第1実施形態ではエコー・雑音抑圧部35にA/D変換部12よりのディジタル入力信号および出力用システム音声生成部32からのディジタルシステム音声信号が入力され、エコー・雑音抑圧部35で入力信号はこれに重畳している周囲雑音信号とエコー信号とが抑圧される(ステップS1)。この例ではエコー部35aにおいて、システム音声信号によりまずエコー信号が抑圧される(ステップS1a)。このエコー抑圧は、例えば電話会議システムやテレビ会議システムなどに利用されている反響消去装置(エコーキャンセラ)の方法を用いることができる。例えばスピーカ31からマイクロホン34を通じてエコー部35aに到る伝達特性を適応的に推定し、推定した伝達特性をシステム音声信号に対し畳み込み、疑似エコー信号を生成し、この疑似エコー信号を入力信号から差し引いてエコー抑圧された入力信号を得る。
【0013】
次にこのエコー抑圧された入力信号が雑音部35bに入力されて、入力信号に重畳している周囲(背景)雑音成分が抑圧される(ステップS1b)。この雑音抑圧は例えば入力信号中の平均的な最低レベルを背景雑音レベルとみなし、このレベル以下の信号を除去する。
更にこの例ではこのエコー抑圧及び雑音抑圧処理された信号およびディジタルのシステム音声信号が残留エコー部35cに入力され、背景雑音レベル以外のエコー信号など、背景雑音に影響されてエコー部S1aにより除去できなかった残留エコー信号が、エコーおよび雑音抑圧された入力信号から除去される(ステップS1c)。この残留エコー抑圧も、例えばテレビ会議システムに利用されているものと同様の手法を用いることができる。例えば特許第3420705号公報、特許第3507020号公報、特開2003−284183号公報に示されているように、入力信号とシステム音声信号とから音響(エコー経路)結合量を求め、これに応じて、エコーおよび雑音抑圧された入力信号に対し抑圧、つまり損失を与えればよい。
【0014】
エコー・雑音抑圧部35よりのエコーおよび雑音抑圧処理された入力信号は特徴ベクトル抽出部36に入力され、特徴ベクトルは確率モデル、この例ではHMMの学習に必要な特徴ベクトル系列に変換される(ステップS2)。この特徴ベクトル系列は区間判定部37に入力され、その特徴ベクトル系列より、現在の入力信号が雑音信号成分のみ、つまり周囲雑音信号又はこれとエコー信号のみの雑音区間であるか、あるいは雑音信号成分と音声信号とが重畳された雑音重畳音声信号の音声区間のいずれであるかの判定がなされる(ステップS3)。
【0015】
区間判定部37より判定結果出力が音声/雑音スイッチ38に入力され、判定結果出力が雑音区間に対するものであれば、スイッチ38は端子38側に切り替えられ、特徴ベクトル抽出部36よりの特徴ベクトル系列が雑音モデル学習部39へ入力される。雑音モデル学習部39は入力された特徴ベクトルの複数の分析フレーム分を学習して雑音HMMが生成される(ステップS4)。この雑音HMMはエコーおよび雑音抑圧処理された周囲雑音信号又はこれとエコー信号と対応している。
クリーン音声モデルメモリ41には、雑音がないクリーンな多数の音声データを基に、認識する音声単位で各認識カテゴリごとに学習されたクリーン音声HMMが格納されている。このクリーン音声HMMと雑音HMMがモデル合成部42に入力され、これらHMMが合成され、雑音重畳音声HMMとして、雑音重畳音声モデルメモリ43に格納される(ステップS5)。
【0016】
区間判定部32よりの判定結果出力が音声区間に対するものであれば、音声/雑音スイッチ38は端子38側に切り替えられ、特徴ベクトル抽出部36よりの、エコーおよび雑音抑圧処理された雑音重畳音声信号の特徴ベクトル系列は尤度計算部44に入力される。尤度計算部44は、入力された特徴ベクトル系列に対する雑音重畳音声モデルメモリ43内の各雑音重畳音声モデルの尤度を計算する(ステップS6)。各認識カテゴリについて計算された尤度が出力部16へ入力され、入力された尤度中の最大のモデルの認識カテゴリが認識結果として出力される(ステップS7)。
【0017】
雑音HMMの生成は、音声応答装置を動作させるための準備期間(アドリング中)に、システム音声を放音させて行ってもよいし、利用者が発声する前の区間に行ってもよい。後者においては、利用者の発声ごとの各直前に常に行うようにしてもよく、この場合は、モデル合成部43で合成された雑音重畳音声モデルにより、雑音重畳音声モデルメモリ43内の雑音重畳音声モデルが更新される(ステップS5)。このようにすると、利用者の音声応答装置に対する位置が変化してもS/N(信号対雑音比)の影響が少なく、かつ、エコー経路の推定により良好になり、認識率が向上する。
【0018】
以上のようにこの第1実施形態によれば、エコー・雑音抑圧部35により、エコー信号が抑圧され、しかも雑音区間においてエコーおよび雑音抑圧された入力信号の特徴ベクトル系列から雑音モデルを生成し、かつ音声区間においてエコーおよび雑音抑圧され、S/N(信号対雑音比)が改善された雑音重畳音声信号の特徴ベクトル系列に対し雑音重畳音声HMMの尤度を計算しているため、雑音モデルを学習しているため、予め使用される環境の雑音を予測して生成することなく、常にその場所での周囲(背景)雑音と対応した雑音モデルが生成でき、また周囲雑音の状態が変化してもこれに応じた雑音モデルが得られ、認識率が向上する。更に雑音モデルとクリーン音声モデルとを合成して雑音重畳音声モデルを生成しているため処理時間が短かい。
【0019】
[第2実施形態]
この発明の第2実施形態の機能構成例を図5に、処理手順例を図6にそれぞれ示す。第1実施形態と異なる点を説明する。
特徴ベクトル抽出部36よりの特徴ベクトル系列は区間判定部51に入力され、この区間判定部51には、出力用システム音声生成部32からシステム音声を放音中であるか否かを示すエコー有無信号も入力される。区間判定部51は入力された特徴ベクトル系列およびエコー有無信号により現在の入力信号が周囲(背景)雑音信号のみの雑音区間または周囲(背景)雑音信号およびエコー信号を含む雑音・エコー区間かあるいは周囲雑音信号もしくはこれとエコー信号とが重畳された雑音重畳音声信号の音声区間のいずれであるかが判定される。例えばステップS2の後、区間判定結果が音声区間であるか否かが判定され(ステップS11)、音声区間でなければ雑音区間か否かが判定される(ステップS12)。
【0020】
雑音区間と判定された判定結果出力によりスイッチ52が端子52に切り替えられ、特徴ベクトル抽出部36よりの特徴ベクトル系列が雑音モデル学習部53に入力され、雑音モデル学習部53は入力された特徴ベクトル系列に基づき雑音およびエコー抑圧処理された周囲雑音信号と対応する雑音HMMを学習する(ステップS13)。
雑音・エコー区間と判定された判定結果出力によりスイッチ52が端子52に切り替えられ、特徴ベクトル抽出部36よりの特徴ベクトル系列が雑音・エコーモデル学習部54に入力され、雑音・エコー学習部54は入力された特徴ベクトル系列に基づき雑音およびエコー抑圧処理された周囲雑音信号とエコー信号の重畳信号と対応する雑音・エコーHMMを学習する(ステップS14)。
【0021】
雑音モデル学習部53よりの雑音HMMと、雑音・エコーモデル学習部54よりの雑音・エコーモデルとがモデル合成部55に入力され、これらとクリーン音声モデルメモリ41よりのクリーン音声HMMとがそれぞれ合成されて雑音重畳音声HMMが生成され、雑音重畳音声モデルメモリ43へ格納され、またはその記憶内容の更新が行われる(ステップS15)。
音声区間と判定された判定結果出力によりスイッチ52が端子52に切り替えられ、特徴ベクトル抽出部36からの特徴ベクトル系列が尤度計算部44へ入力される。その他は第1実施形態と同一である。
【0022】
この構成によれば、利用者がシステム音声が放音されていない状態で発声した場合は、雑音HMMとクリーン音声HMMとを合成した雑音重畳音声HMMを用いた尤度が高くなり、利用者がシステム音声が放音されている状態で発声した場合は、雑音・エコーHMMとクリーン音声HMMとを合成した雑音重畳音声HMMを用いた尤度が高くなり、入力信号と認識用のモデルとがより合致するため、より高い認識率が得られる。
[変形例]
第1実施形態および第2実施形態では入力信号をエコー抑圧処理した後、雑音抑圧処理を行い、更に残留エコー抑圧処理を行ったが、図3〜図6中に破線で示すように、残留エコー抑圧は省略してもよい。この場合はこれら図中に括弧書きで示すように、雑音抑圧処理を先に行い、その後、エコー抑圧処理を行ってもよい。
【0023】
雑音抑圧法としては、例えば特許第3309895号公報、特許第3454402号公報、特許第3459363号公報などに示すように、入力信号を周波数領域信号に変換し、複数の周波数帯域に分割し、これら分割された周波数帯域ごとに雑音成分を推定しながら入力信号の対応周波数帯域の信号に対し雑音抑圧を行うようにしてもよい。このようにすれば、ある帯域について認識対象音声信号を必要以上に抑圧したり、逆に雑音抑圧が不十分であったりするおそれが少なくなり、S/Nが改善され、それだけ高い認識率が得られることになる。
【0024】
エコー抑圧法および残留エコー抑圧法も周波数領域に変換して行うとより有効である。またモデルとしてはHMMに限らず他の確率モデルでもよい。
図3及び図5に示した装置をコンピュータにより機能させてもよい。この場合は図4又は図6に示した処理手順の各過程をコンピュータに実行させるための音声認識プログラムを、コンピュータにCD−ROM、磁気ディスク装置、半導体記憶装置などの記録媒体からインストールし、あるいは通信回線を介してダウンロードして、このプログラムをコンピュータに実行させればよい。
【図面の簡単な説明】
【0025】
【図1】従来の音声認識装置の機能構成を示すブロック図。
【図2】従来のスペクトルサブトラクション法を用いた音声認識装置の機能構成を示すブロック図。
【図3】この発明装置の第1実施形態の機能構成例を示すブロック図。
【図4】この発明方法の第1実施形態の処理手順例を示す流れ図。
【図5】この発明装置の第2実施形態の機能構成例を示すブロック図。
【図6】この発明方法の第2実施形態の処理手順例を示す流れ図。

【特許請求の範囲】
【請求項1】
マイクロホンにより音響信号を収音し、スピーカより音響信号を放音する装置における上記マイクロホンにより収音した音声信号を確率モデルを用いて音声認識を行う音声認識方法であって、
上記マイクロホンよりの入力信号中の、上記スピーカからの放音信号成分(以下エコー信号という)を、上記スピーカへの供給信号を用いて抑圧し、かつ上記入力信号中の周囲雑音信号を抑圧する雑音・エコー抑圧ステップと、
上記エコー信号および周囲雑音信号が抑圧された信号を特徴ベクトル系列に変換する特徴ベクトル抽出ステップと、
上記特徴ベクトル系列が認識対象の音声信号を含む音声区間のものか、それ以外の雑音区間のものかを判定する区間判定ステップと、
上記区間判定ステップで雑音区間と判定した上記特徴ベクトル系列を用いて雑音モデルを学習する雑音モデル学習ステップと、
上記雑音モデルと、雑音がないクリーンな音声データを用いて予め作成されたクリーン音声モデルとを合成して雑音重畳音声モデルを生成する雑音重畳音声モデル合成ステップと、
上記区間判定ステップで音声区間と判定された上記特徴ベクトル系列と上記雑音重畳音声モデルとを用いて認識カテゴリに対する尤度を計算する尤度計算ステップと、
上記計算された尤度に基づき、認識結果を出力する出力ステップと
を有することを特徴とする音声認識方法。
【請求項2】
マイクロホンにより音響信号を収音し、スピーカより音響信号を放音する装置における上記マイクロホンにより収音した音声信号を確率モデルを用いて音声認識を行う音声認識方法であって、
上記マイクロホンよりの入力信号中の、上記スピーカからの放音信号成分(以下エコー信号という)を、上記スピーカへの供給信号を用いて抑圧し、かつ上記入力信号中の周囲雑音信号を抑圧する雑音・エコー抑圧ステップと、
上記エコー信号および周囲雑音信号が抑圧された信号を特徴ベクトル系列に変換する特徴ベクトル抽出ステップと、
上記特徴ベクトル系列が認識対象の音声信号を含む音声区間のものか、周囲雑音信号のみの雑音区間のものか、上記周囲雑音信号及び上記エコー信号とが存在する雑音・エコー区間のものかのいずれであるかを判定する区間判定ステップと、
上記区間判定ステップで雑音区間であると判定した上記特徴ベクトル系列を用いて雑音モデルを学習する雑音モデル学習ステップと、
上記区間判定ステップで雑音・エコー区間であると判定された上記特徴ベクトル系列を用いて雑音・エコーモデルを学習する雑音エコーモデル学習ステップと、
上記雑音モデルおよび上記雑音・エコーモデルと、雑音信号やエコー信号がないクリーンな音声データを用いて予め作成されたクリーン音声モデルとをそれぞれ合成して雑音重畳音声モデルを生成する雑音重畳音声モデル合成ステップと、
上記区間判定ステップで音声区間と判定された上記特徴ベクトル系列と上記雑音重畳音声モデルとを用いて認識カテゴリに対する尤度を計算する尤度計算ステップと、
上記計算された尤度に基づき、認識結果を出力する出力ステップと
を有することを特徴とする音声認識方法。
【請求項3】
上記雑音・エコー抑圧ステップは、上記スピーカへの供給信号により入力信号中のエコー信号を抑圧するステップと、エコー信号が抑圧された入力信号中の周囲雑音信号を抑圧するステップと、上記エコー信号および周囲雑音信号が抑圧された入力信号中の残留しているエコー信号を抑圧するステップとを有することを特徴とする請求項1又は2記載の音声認識方法。
【請求項4】
マイクロホンにより音響信号を収音し、スピーカより音響信号を放音する装置に用いられ、上記マイクロホンにより収音した音声信号を確率モデルを用いて音声認識を行う音声認識装置であって、
上記マイクロホンよりの入力信号および上記スピーカへの供給信号が入力され、上記入力信号中の上記放音信号成分(以下エコー信号という)を抑圧し、かつ上記入力信号中の周囲雑音信号を抑圧する雑音・エコー抑圧部と、
上記エコー信号および上記周囲雑音信号が抑圧された入力信号が入力され、その信号を特徴ベクトル系列に変換する特徴ベクトル抽出部と、
上記特徴ベクトル系列が入力され、その特徴ベクトル系列が認識対象音声信号を含む音声区間のものであるか、それ以外の雑音区間のものであるかを判定する区間判定部と、
上記特徴ベクトル系列および上記判定結果出力が入力され、その判定結果出力に応じて上記特徴ベクトル系列を分離出力する音声/雑音スイッチと、
上記音声/雑音スイッチにより分離された上記雑音区間の特徴ベクトル系列が入力され、この特徴ベクトル系列について雑音モデルを学習する雑音モデル学習部と、
雑音のないクリーンな音声データを基に作成されたクリーン音声モデルを記憶するクリーン音声モデルメモリと、
上記雑音モデルおよび上記クリーン音声モデルが入力され、雑音重畳音声モデルを合成するモデル合成部と、
上記雑音重畳音声モデルが記憶される雑音重畳音声モデルメモリと、
上記音声/雑音スイッチにより分離された音声区間の特徴ベクトル系列および上記雑音重畳音声モデルが入力され、その特徴ベクトル系列の各認識カテゴリに対する尤度をその雑音重畳音声モデルに基づき計算する尤度計算部と、
上記各認識カテゴリごとの尤度が入力され、認識結果を出力する認識結果出力部と
を具備することを特徴とする音声認識装置。
【請求項5】
マイクロホンにより音響信号を収音し、スピーカより音響信号を放音する装置に用いられ、上記マイクロホンにより収音した音声信号を確率モデルを用いて音声認識を行う音声認識装置であって、
上記マイクロホンよりの入力信号および上記スピーカへの供給信号が入力され、上記入力信号中の上記放音信号成分(以下エコー信号という)を抑圧し、かつ上記入力信号中の周囲雑音信号を抑圧する雑音・エコー抑圧部と、
上記エコー信号および上記周囲雑音信号が抑圧された入力信号が入力され、その信号を特徴ベクトル系列に変換する特徴ベクトル抽出部と、
上記特徴ベクトル系列および上記スピーカへ放音信号を供給しているか否かを示す信号が入力され、その特徴ベクトル系列が認識対象音声信号を含む音声区間のものか、周囲雑音信号のみの雑音区間のものか、上記エコー信号および上記周囲雑音を含む雑音・エコー区間のもののいずれであるかを判定する区間判定部と、
上記特徴ベクトル系列および上記判定結果出力が入力され、その判定結果出力に応じて上記特徴ベクトル系列を3系列に分離出力するスイッチと、
上記スイッチにより分離された上記雑音区間の特徴ベクトル系列が入力され、この特徴ベクトル系列について雑音モデルを学習する雑音モデル学習部と、
上記スイッチにより分離された上記雑音・エコー区間の特徴ベクトル系列が入力され、この特徴ベクトルについて、雑音・エコーモデルを学習する雑音・エコーモデル学習部と、
雑音のないクリーンな音声データを基に作成されたクリーン音声モデルを記憶するクリーン音声モデルメモリと、
上記雑音モデル、上記雑音エコーモデルおよび上記クリーン音声モデルが入力され、雑音モデルおよび雑音エコーモデルとクリーン音声モデルとをそれぞれ合成して雑音重畳音声モデルを生成するモデル合成部と、
上記雑音重畳音声モデルが記憶される雑音重畳音声モデルメモリと、
上記スイッチにより分離された音声区間の特徴ベクトル系列および上記雑音重畳音声モデルが入力され、その特徴ベクトル系列の各認識カテゴリに対する尤度をその雑音重畳音声モデルに基づき計算する尤度計算部と、
上記各認識カテゴリごとの尤度が入力され、認識結果を出力する認識結果出力部と
を具備することを特徴とする音声認識装置。
【請求項6】
上記雑音・エコー抑圧部は、上記入力信号および上記スピーカへの供給信号が入力され、その入力信号中のエコー信号を抑圧するエコー部と、
上記エコー部の出力信号が入力され、上記エコー信号が抑圧された入力信号中の周囲雑音信号を抑圧する雑音部と、
上記雑音部の出力信号および上記スピーカへの供給信号が入力され、上記エコー信号および周囲雑音信号が抑圧された入力信号中の残留している上記エコー信号を抑圧する残留エコー部とを備えることを特徴とする請求項4又は5記載の音声認識装置。
【請求項7】
請求項1〜3のいずれかに記載した音声認識方法の各ステップをコンピュータに実行させるための音声認識プログラム。
【請求項8】
請求項7に記載した音声認識プログラムが記録されたコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2006−3617(P2006−3617A)
【公開日】平成18年1月5日(2006.1.5)
【国際特許分類】
【出願番号】特願2004−179723(P2004−179723)
【出願日】平成16年6月17日(2004.6.17)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】