説明

ノイズの低減に関連する不確実性を判定する方法

発話音声の歪みのパラメトリックモデルに基づいてノイズ低減における不確実性を判定する方法および装置が提供される。この方法を使用して、まず、雑音のある信号内のノイズを低減する。特に、音響環境モデル(418)を使用することによって、雑音のある信号の一部の表現からノイズが低減され(304)て、浄化された信号の表現が生成される。次いでノイズ低減プロセスに関連する不確実性が算出される。一実施形態では、ノイズ低減信号とともにノイズ低減プロセスの不確実性を使用して、パターン状態がデコードされる(306)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はパターン認識に関する。より詳細には、本発明はノイズ低減後のパターン認識の実行に関する。
【背景技術】
【0002】
発話音声(speech)認識システムなど、パターン認識システムは、入力信号を取得し、その信号をデコードして、信号によって表されるパターンを見つけようと試みる。例えば、発話音声認識システムでは、発話音声信号(しばしばテスト信号と呼ばれる)が認識システムによって受信され、デコードされて発話音声信号によって表される一連の単語を識別する。
【0003】
入力テスト信号をデコードするために、ほとんどの認識システムは、テスト信号の一部が特定のパターンを表す尤度を示す1つまたは複数のモデルを使用する。こうしたモデルの例には、ニューラルネット、動的時間軸収縮法(Dynamic Time Warping)、セグメントモデル、および隠れマルコフモデルなどがある。
【0004】
モデルは、入力信号のデコードに使用する前にトレーニングする必要がある。これは一般に、既知のトレーニングパターンから生成された入力トレーニング信号を測定することによって行われる。例えば、発話音声認識では、既知のテキストを読む話者によって発話音声信号の集まりが生成される。次いでこうした発話音声信号がモデルのトレーニングに使用される。
【0005】
モデルが最適に動作するには、モデルのトレーニングに使用される信号は、デコードされる最終的なテスト信号に類似している必要がある。特に、トレーニング信号は、デコードされるテスト信号と同じノイズ量およびノイズタイプを含んでいることが望ましい。
【0006】
一般にトレーニング信号は、「クリーン」な状態で集められ、比較的ノイズがないと考えられる。テスト信号においてこの同じ低レベルのノイズを得るために、従来技術の多くのシステムは、ノイズ低減技術をテストデータに適用している。こうしたノイズ低減技術の結果、浄化されたテスト信号が得られ、次いでこのテスト信号がパターン認識中に使用される。ほとんどのシステムでは、ノイズ低減技術は、各特徴ベクトルがノイズ低減済み信号のフレームを表す、一連の多次元特徴ベクトルを生成する。
【0007】
残念ながら、ノイズ低減技術は、完璧に動作するわけではなく、その結果、浄化された信号に何らかの固有の不確実性がある。従来、こうした不確実性を扱う一般的な技術が2つある。第1の技術は、不確実性を無視し、ノイズ認識プロセスを完全なものとしてみなすことであった。これは、認識システムの真の状態を無視するため、回避し得た認識誤差をもたらす。
【0008】
ノイズ低減における不確実性を扱うもう一方の従来技術は、ノイズ低減技術が不十分に行われたと思われる入力信号のフレームを識別することである。こうしたフレームでは、誤っている可能性のある特徴ベクトルの次元が認識中に使用されないように、ノイズ低減システムによってマークされる。したがって、事前に判定された量を超える不確実性を有する特徴ベクトル成分は、デコード中に完全に無視される。こうしたシステムは、ノイズ低減における不確実性は認めているが、ある成分を完全に無視する技術は、その成分を、認識中に役立つ情報を提供しないものとしてみなす。この可能性は極めて低い。というのは、かなりの量の不確実性があっても、ノイズ低減済み成分は、依然として認識中に役立つ何らかの情報を提供するからである。
【0009】
さらに、従来技術は、一部のノイズ削除プロセスの不確実性を判定する手段を提供していない。その結果、こうしたプロセスに関連する不確実性を判定することができなかった。
【発明の開示】
【発明が解決しようとする課題】
【0010】
これを考慮に入れて、ノイズ低減における不確実性を識別し、パターン認識中にその不確実性を使用するための技術が必要である。
【課題を解決するための手段】
【0011】
雑音のある信号内のノイズを低減する方法および装置を提供する。特に、音響環境モデルを使用することによって、雑音のある信号の一部の表現からノイズが低減されて、浄化された信号の表現が生成される。次いでノイズ低減プロセスに関連する不確実性が算出される。一実施形態では、ノイズ低減プロセスの不確実性は、浄化された信号からパターン状態をデコードするために使用される。
【発明を実施するための最良の形態】
【0012】
図1は、本発明を実施できる好適なコンピューティングシステム環境100の例を示している。コンピューティングシステム環境100は、好適なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関する限定を示唆するものではない。また、コンピューティングシステム環境100を、動作環境としてコンピューティングシステム環境100の例に示した構成要素のいずれか1つ、またはその組合せに関連する依存性または必要条件を有しているものと解釈すべきではない。
【0013】
本発明は、他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明との使用に好適な周知のコンピューティングシステム、環境、および/または構成の例には、それだけには限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークPC(personal computer)、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記の任意のシステムまたは装置を含む分散コンピューティング環境などがある。
【0014】
本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な状況で説明することができる。一般にプログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。また、本発明は、タスクが通信ネットワークによってリンクされているリモート処理装置によって実行される分散コンピューティング環境でも実施することができる。分散コンピューティング環境では、プログラムモジュールを、メモリ記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に置くことができる。
【0015】
図1を参照すると、本発明を実施するシステムの例は、汎用コンピューティング装置をコンピュータ110の形で含んでいる。コンピュータ110の構成要素は、それだけには限定されないが、プロセッサ120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素をプロセッサ120に結合するシステムバス121を含む。システムバス121は、様々なバスアーキテクチャのうちの任意のものを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のうちどんなものでもよい。こうしたアーキテクチャには、それだけには限定されないが一例として、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとしても知られているPCI(Peripheral Component Interconnects)バスなどがある。
【0016】
コンピュータ110は、一般に様々なコンピュータ可読メディアを含む。コンピュータ可読メディアは、コンピュータ110からアクセスできる使用可能な任意の媒体とすることができ、揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ可読メディアは、それだけには限定されないが一例として、コンピュータ記憶媒体および通信媒体を含み得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性および不揮発性のリムーバブルおよび非リムーバブル媒体がある。コンピュータ記憶媒体には、それだけには限定されないが、RAM(random access memory)、ROM(read only memory)、EEPROM(electrically erasable programmable read-only memory)、フラッシュメモリまたは他のメモリ技術、CD(compact disc)−ROM、DVD(Digital Versatile Disc)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報の格納に使用でき、コンピュータ110からアクセスできる他の任意の媒体などがある。通信媒体は一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを搬送波または他の移送機構などの変調されたデータ信号に組み込む。これには任意の情報配送媒体がある。「変調されたデータ信号」という用語は、信号に情報を符号化するように1つまたは複数のその特性が設定または変更された信号を意味する。通信媒体には、それだけには限定されないが一例として、有線ネットワーク、直接配線接続などの有線媒体、および音響、RF(radio frequency)、赤外線、その他の無線媒体などの無線媒体がある。また、上記のどんな組合せでもコンピュータ可読メディアの範囲内に含まれるものとする。
【0017】
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。BIOS(Basic Input/Output System)133は、例えば起動中など、コンピュータ110内の要素間での情報の転送を助ける基本ルーチンを含み、一般にROM131に格納されている。RAM132は一般に、プロセッサ120から直接アクセス可能な、かつ/またはプロセッサ120が現在処理しているデータおよび/またはプログラムモジュールを含む。図1は、それだけには限定されないが一例として、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示している。
【0018】
コンピュータ110は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。一例にすぎないが、図1は、非リムーバブル不揮発性磁気媒体から読み取り、あるいはそこに書き込むハードディスクドライブ141、リムーバブル不揮発性磁気ディスク152から読み取り、あるいはそこに書き込む磁気ディスクドライブ151、およびCD−ROMや他の光媒体など、リムーバブル不揮発性光ディスク156から読み取り、あるいはそこに書き込む光ディスクドライブ155を示している。動作環境の例で使用できる他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体には、それだけには限定されないが、磁気テープカセット、フラッシュメモリカード、DVD、デジタルビデオテープ、半導体RAM、半導体ROMなどがある。ハードディスクドライブ141は一般に、インタフェース140などの非リムーバブルメモリインタフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は一般に、インタフェース150などのリムーバブルメモリインタフェースによってシステムバス121に接続される。
【0019】
上述し、図1に示したドライブおよびその関連のコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ110の他のデータの記憶域を提供する。図1では例えば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであっても、異なっていてもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は少なくとも異なるコピーであることを示すために、ここではそれらに異なる番号を付している。
【0020】
ユーザは、キーボード162、マイクロフォン163、およびマウス、トラックボール、タッチパッドなどのポインティングデバイス161などの入力装置を介してコマンドおよび情報をコンピュータ110に入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどがある。これらおよび他の入力装置は、しばしばシステムバスに結合されているユーザ入力インタフェース160を介してプロセッサ120に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など他のインタフェースおよびバス構造で接続してもよい。モニタ191または他のタイプの表示装置もまた、ビデオインタフェース190などのインタフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、出力周辺インタフェース190などを介して接続できるスピーカ197、プリンタ196などの他の周辺出力装置を含むこともできる。
【0021】
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク型環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般のネットワークノードでよく、一般にコンピュータ110に関連して上述した多くまたはすべての要素を含む。図1に示した論理接続は、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173を含むが、他のネットワークを含んでいてもよい。こうしたネットワーキング環境は、オフィス、全社規模のコンピュータネットワーク、イントラネット、およびインターネットではごく一般的である。
【0022】
LANネットワーキング環境で使用する場合、コンピュータ110は、ネットワークインタフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用する場合、コンピュータ110は一般に、モデム172、またはインターネットなどWAN173を介して通信を確立する他の手段を含む。モデム172は、内蔵のものでも外付けのものでもよく、ユーザ入力インタフェース160または他の適切な機構を介してシステムバス121に接続することができる。ネットワーク型環境では、コンピュータ110に関連して示したプログラムモジュール、またはその一部をリモートメモリ記憶装置に格納することができる。図1は、それだけには限定されないが一例として、リモートアプリケーションプログラム185をメモリコンピュータ180上に存在するものとして示している。図示したネットワーク接続は例であり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことは理解されよう。
【0023】
図2は、コンピューティング環境の例であるモバイル装置200のブロック図である。モバイル装置200は、マイクロプロセッサ202、メモリ204、入力/出力(I/O)構成要素206、およびリモート構成要素または他のモバイル装置と通信する通信インタフェース208を含む。一例では、上述の構成要素は結合されて、好適なバス210を介して互いに通信する。
【0024】
メモリ204は、モバイル装置200への一般の電力がシャットダウンしたときにメモリ204に格納されている情報が失われないようにバッテリバックアップモジュール(図示せず)を備えるランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実装される。メモリ204の一部は、プログラムの実行のためにアドレス指定可能なメモリとして割り振られることが好ましく、メモリ204の他の一部は、ディスクドライブ上の記憶域に似せたものなど、記憶域に使用されることが好ましい。
【0025】
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、およびオブジェクトストア216を含む。動作中、オペレーティングシステム212は、メモリ204からプロセッサ202によって実行されることが好ましい。オペレーティングシステム212は、好適一実施形態では、Microsoft社による市販のWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、モバイル装置用に設計されており、公開されている1組のアプリケーションプログラミングインタフェースおよびメソッドを介してアプリケーション214によって使用できるデータベース機能を実装することが好ましい。オブジェクトストア216内のオブジェクトは、少なくとも一部、公開されているアプリケーションプログラミングインタフェースおよびメソッドへの呼出に応答してアプリケーション214およびオペレーティングシステム212によって維持される。
【0026】
通信インタフェース208は、モバイル装置200が情報を送受信できるようにする多数の装置および技術を表す。こうした装置には、一例を挙げると、有線および無線のモデム、衛星放送受信機、および放送チューナなどがある。モバイル装置200は、コンピュータに直接接続してそれとデータを交換することもできる。こうした場合、通信インタフェース208は、赤外線受信機、または直列または並列の通信接続とすることができる。そのいずれでもストリーミング情報を送信することができる。
【0027】
入力/出力構成要素206は、タッチセンシティブ画面、ボタン、ローラ、マイクロフォンなどの様々な入力装置、および音声生成器、振動装置、ディスプレイなどの様々な出力装置を含む。上に列挙した装置は一例であり、モバイル装置200にすべてが存在している必要はない。さらに、本発明の範囲以内で、他の入力/出力装置をモバイル装置200に接続したり、モバイル装置で検出したりすることもできる。
【0028】
以下の説明では、本発明を理解しやすくするために、発話音声認識を参照して本発明を説明する。しかし、本発明は、発話音声認識に限定されるものではなく、任意のパターン認識システムで使用できることを当業者であれば理解されよう。
【0029】
発話音声認識の目的は、発話音声信号を一連の単語に変換することである。このために、発話音声信号は一般に、重なり合う発話音声のフレームに分割され、各フレームは、フレームの内容を示す特徴ベクトルyに変換される。デコーディングとも呼ばれる認識の間に、音響モデルを使用して、特徴ベクトルによって表すことができる最も可能性の高い音声状態のシーケンスが識別される。結果として得られた一連の音声状態は、デコードされた一連の単語を表す。
【0030】
多くの音響モデルは、ガウス混合分布を評価して、どれか1つの音声状態の確率を判定する。したがって各フレームで、音声状態ごとにガウス混合分布が評価されて、そのフレームについて最も可能性の高い音声状態が識別される。各ガウスの評価は、音声状態の混合成分mが与えられている場合の特徴ベクトルyの確率であるp(y|m)を決定するものと考えることができる。
【0031】
発話音声認識とともにノイズ低減を使用するとき、雑音のある入力特徴ベクトルyがノイズ低減システムによって浄化された特徴ベクトル
【0032】
【数1】



【0033】
に変換される。浄化された特徴ベクトルは、実際のクリーンな特徴ベクトルxの推定値を表す。浄化された特徴ベクトル
【0034】
【数2】



【0035】
は、次いで入力信号として発話音声認識システムに適用され、発話音声認識システムは、浄化された特徴ベクトルが与えられている場合の最も可能性の高い音声状態を識別するよう試みる。
【0036】
ノイズ破損がなければ、観測ベクトルyは、クリーンなベクトルxと同じである。したがって、クリーンな観測ベクトルの混合成分についてのガウスの評価p(y|m)は、混合成分mが与えられている場合のクリーンなベクトルxの確率の評価p(x|m)と同じである。
【0037】
しかし、観測ベクトルがノイズによって破損されており、ノイズ低減システムが使用されている場合、認識器への入力は、もはや理想的なクリーンなベクトルxではなく、浄化された特徴ベクトル
【0038】
【数3】



【0039】
である。これは、xの推定値にすぎない。従来は、浄化された特徴ベクトル
【0040】
【数4】



【0041】
を単にまるで理想のクリーンな特徴ベクトルxと等しいかのように扱うことが一般的であった。こうした場合、確率
【0042】
【数5】



【0043】
を判定することによって混合成分についてのガウスの評価p(y|m)に近似させていた。
【0044】
本発明によれば、結合条件付き確率密度関数(joint conditional probability density function)p(y,x|m)をあり得る未認識のすべてのクリーンな発話音声ベクトルより過小評価することによって確率p(y|m)を判定する、より厳密な手法が使用される。式については次のとおりである。
【0045】
【数6】



【0046】
式1の右辺は、式1が
【0047】
【数7】



【0048】
となるように展開することができる。
【0049】
式2に関連する計算をより実施しやすくするために、確率p(y|x,m)は、mと無関係であり、したがってp(y|x)になると仮定される。次いでこの確率は、ノイズ低減プロセスの確実性を示すガウス分布としてモデル化される。特に、
【0050】
【数8】



【0051】
となり、この場合、分布は、浄化された特徴ベクトル
【0052】
【数9】



【0053】
にわたって定義され、理想のクリーンな特徴ベクトルxに等しい平均、およびノイズ低減プロセスに関連する分散を表す分散
【0054】
【数10】



【0055】
を有する。式3では、簡略化された表記を使用して、ガウス分布をベクトル全体にわたる単一のガウスとして表していることに留意されたい。実際には、特徴ベクトルの次元ごとにそれ自体の平均および分散を備える個別のガウスがある。例えば、
【0056】
【数11】



【0057】
であり、式中、yは雑音のある特徴ベクトルの成分1、xはクリーンな特徴ベクトルの成分1、
【0058】
【数12】



【0059】
は浄化された特徴ベクトルの成分1、
【0060】
【数13】



【0061】
は特徴ベクトルの成分1についてのノイズ低減プロセスに関連する分散(不確実性とも呼ぶ)である。
【0062】
事前確率p(x|m)も、ベクトルの成分ごとに1つのガウス分散の集まりとしてモデル化され、したがって次のようになる。
【0063】
【数14】



【0064】
式中μm,1は特徴ベクトルの成分1についての事前分布の平均、
【0065】
【数15】



【0066】
はその分布の分散である。
【0067】
式2、4、および5を結合し、積分を評価することによって、次の式が得られる。
【0068】
【数16】



【0069】
したがって、本発明の枠組みによれば、音響モデルに使用される分布の分散は、事前モデルに関連する分散
【0070】
【数17】



【0071】
およびノイズ低減プロセスに関連する分散または不確実性
【0072】
【数18】



【0073】
の組合せである。その結果、ある成分についてのノイズ低減プロセスに関連する不確実性が高い場合、音声状態ごとに生成される確率間の差はわずかとなる。その結果、この成分は、音声状態シーケンスのデコーディングにほとんど影響を及ぼさない。しかし、ノイズ低減プロセスの不確実性が小さい場合、様々な音声状態の音響モデルは、その成分について特有の確率を生成し、したがってその成分は、音声状態の選択に強い影響を与える。
【0074】
本発明の一実施形態によれば、ノイズ低減プロセスは、クリーンな発話音声の動的アスペクトの事前モデル、クリーンな発話音声の静的アスペクトの事前モデル、およびクリーンな発話音声、雑音のある発話音声、およびノイズの間の関係を示す音響歪みまたは音響環境モデルを使用する。したがって本発明は、このパラメトリックベースのノイズ低減プロセスにおける不確実性を判定する技術を提供する。
【0075】
以下の説明では、ノイズ低減方法は、ケプストラム領域で行われる。特に、クリーンな発話音声、雑音のある発話音声、およびノイズの各フレームは、対数を取ることによって形成されるケプストラム特徴ベクトル、およびフレーム内の信号の周波数領域表現の離散コサイン変換で表される。したがって、以下の説明では、この方法は、雑音のある発話音声特徴ベクトルからノイズ低減済み特徴ベクトルを識別しようと試みる。上記の式3と同様に、以下では、各ベクトルを単一の分布によって表されるものとして扱う簡略化された表記が使用されている。実装では、ベクトルの成分ごとに個別の分布がある。
【0076】
雑音のあるベクトルからノイズを低減するために、条件付き期待値を使用してノイズ低減済みベクトルの最小平均2乗推定値が判定される。
【0077】
【数19】



【0078】
式中、
【0079】
【数20】



【0080】
は現在のフレームのノイズ低減済み特徴ベクトルの推定値、
【0081】
【数21】



【0082】
は前のフレームについて判定されたノイズ低減済み特徴ベクトルの推定値、yは現在のフレームの雑音のある発話音声特徴ベクトル、xは現在のフレームのクリーンな発話音声特徴ベクトルである。
【0083】
ベイズルールを使用すると、式1での推定値は、
【0084】
【数22】



【0085】
として再開することができる。式中、
【0086】
【数23】



【0087】
は、直前のフレームでのクリーンな発話音声ベクトルの推定値
【0088】
【数24】



【0089】
が与えられている場合のクリーンな発話音声ベクトルxの条件付き確率、p(y|x)は、クリーンな発話音声ベクトルxが与えられている場合の雑音のある発話音声ベクトルyの条件付き確率、p(y)は雑音のある発話音声ベクトルyの確率である。
【0090】
本発明の一実施形態によれば、混合分布モデルを使用して条件付き確率
【0091】
【数25】



【0092】
を表す。式については次のとおりである。
【0093】
【数26】



【0094】
式中、条件付き事前確率
【0095】
【数27】



【0096】
はm番目の混合成分によって提供された確率、cはm番目の混合成分についての重み係数である。
【0097】
一実施形態によれば、雑音のある発話音声は、ノイズがクリーンな発話音声に追加された結果であるとみなされる。これによって雑音のある発話音声の音響環境モデル、そうでない場合は歪みモデルとして知られるモデルが提供される。時間領域では、この追加は線形である。しかし、ケプストラム特徴領域では、この追加は非線形となり、その結果次の特徴ベクトル関係が得られる。
【0098】
=x+g(n−x)+r 式10
式中、
【0099】
【数28】



【0100】
rは残差である。
【0101】
式10の式をより使いやすくするために、切り捨てたテーラー級数近似値を使用して非線形を線形にする。特に、x=xでのg(n−x)に対するゼロ次テーラー級数展開が使用されて近似値が形成される。
【0102】
【数29】



【0103】
式中、
【0104】
【数30】



【0105】
は展開点Xでのゼロ次テーラー級数展開、
【0106】
【数31】



【0107】
は現在のフレームでのノイズの推定値である。ほとんどの実施形態において、展開点Xは、ノイズ低減プロセスの前の反復中に判定されたクリーンな発話音声信号の推定値として選択され、
【0108】
【数32】



【0109】
は、再帰的技術を使用して判定される。ノイズ推定の再帰的技術は、本発明で使用できるいくつかの様々なノイズ推定技術のうちの一例であることを当業者であれば理解されよう。
【0110】
式12に示した関係に基づいて、式8の条件付き確率p(y|x)は、音響環境確率
【0111】
【数33】



【0112】
となる。この音響環境確率および上記の式9を使用して、式8を次のように書き換えることができる。
【0113】
【数34】



【0114】
式13の積分を算出するために、最初に条件付き事前確率
【0115】
【数35】



【0116】
が評価される。この評価をより簡単にするために、次が認識される。
【0117】
【数36】



【0118】
式中、
【0119】
【数37】



【0120】
である。
【0121】
したがって式14では、xはクリーンな発話音声の静的アスペクトを表し、Δxはクリーンな発話音声の動的アスペクトを表す。
【0122】
条件付き事前確率の評価をさらに簡略化するために、クリーンな発話音声の静的アスペクトは、クリーンな発話音声の動的アスペクトとは無相関であると仮定する。その結果、次のようになる。
【0123】
p(x,Δx|m)=p(x|m)p(Δx|m) 式16
一実施形態によれば、クリーンな発話音声の静的アスペクトについての事前確率、およびクリーンな発話音声の動的アスペクトについての事前確率はそれぞれ、ガウス分布としてモデル化され、したがって次のようになる。
【0124】
【数38】



【0125】
式中、
【0126】
【数39】



【0127】
および
【0128】
【数40】



【0129】
はクリーンな発話音声の静的アスペクトについての事前モデルの平均および分散であり、
【0130】
【数41】



【0131】
および
【0132】
【数42】



【0133】
はクリーンな発話音声の動的アスペクトについての事前モデルの平均および分散である。
【0134】
上記の2つのガウス分布の積の指数をxでの標準の二次方程式の形式に当てはめ、上記の式14を使用すると、次の式が得られる。
【0135】
【数43】



【0136】
式中、
【0137】
【数44】



【0138】
および
【0139】
【数45】



【0140】
である。
【0141】
多くの実施形態では、音響環境確率
【0142】
【数46】



【0143】
も、次の形式の音響モデルを生成するガウス分布としてモデル化される。
【0144】
【数47】



【0145】
式中、Ψは、残差rの場合の共分散行列の近似値である固定対角共分散行列(fixed diagonal covariance matrix)である。
【0146】
したがって式13の分子での積分は次のようになる。
【0147】
【数48】



【0148】
積分の評価によって次の式が得られる。
【0149】
【数49】



【0150】
式中、
【0151】
【数50】



【0152】
である。
【0153】
式25のガウス分布は、式15によるゼロ次の近似値に基づいてクリーンな発話音声モデルでのm番目の成分が与えられている場合、観測yの尤度となると示すことができる。すなわち、次のようになる。
【0154】
【数51】



【0155】
その結果、式13の分母は、次のように判定することができる。
【0156】
【数52】



【0157】
式13、23、および29の結合によってxの推定量が得られる。
【0158】
【数53】



【0159】
式中、
【0160】
【数54】



【0161】
である。
【0162】
式30での各被加数は、最終的なノイズ低減済みベクトルに対する混合成分の寄与率である。各被加数は、3項の重み付き和に、混合成分が与えられるときに起こる雑音のある特徴ベクトルyの相対的確率を掛けることによって形成される。第1の項は、事前のクリーンな発話音声モデルの静的アスペクトの平均から取得したノイズ低減済みベクトルの予測
【0163】
【数55】



【0164】
である。第2の項は、前のフレームについてのノイズ低減済みベクトルの推定値、および事前のクリーンな発話音声モデルの動的アスペクトの平均に基づいたノイズ低減済みベクトルの予測
【0165】
【数56】



【0166】
である。最後の項
【0167】
【数57】



【0168】
は、事前情報がない場合の音響歪みモデルに基づいたノイズ低減済みのクリーンな発話音声ベクトルの予測である。
【0169】
したがって、式30の推定量は、クリーンな発話音声の静的アスペクトの事前モデル、クリーンな発話音声の動的アスペクトの事前モデル、および音響歪みモデルを使用する。その結果、式30の推定量を使用して生成されたノイズ低減済みベクトルのシーケンスでは、不連続性がほとんどなく、より自然なように思われる。
【0170】
さらに、各被加数の各項に適用された重み付け値は、したがって項のうちの1つの分散が増加するにつれて、その相対的な重み付けは下がる。したがって、項がノイズ低減済み値のその記述がより正確になるにつれて、その重み付けは他の項の重み付けに対して上がる。
【0171】
例えば、クリーンな発話音声の静的アスペクトについての事前モデルによって予測された値に適用された重み付け値は、クリーンな発話音声の動的アスペクトについての事前モデルの分散によって決まる。その結果、クリーンな発話音声の動的アスペクトについてのそのモデルの分散がクリーンな発話音声の静的アスペクトについてのそのモデルの分散に対して増加すると、静的アスペクトについての事前モデルによって予測された値の相対的な重み付けは上がる。
【0172】
クリーンな発話音声の動的アスペクトについての事前モデルによって予測された値の重み付けの場合でも、同様の結果が生じる。というのは、この重み付け値は、クリーンな発話音声の静的アスペクトについての事前モデルの分散によって決まるからである。
【0173】
式31の推定量を使用する前に、様々なモデルのパラメータをトレーニングする必要がある。一実施形態によれば、EMアルゴリズムを使用して、ケプストラム領域において平均および共分散のパラメータ
【0174】
【数58】



【0175】
【数59】



【0176】
【数60】



【0177】
をトレーニングする。このトレーニングプロセス中、混合成文の重みCもトレーニングされる。こうしたトレーニングを行う技術は、当分野では周知である。固定共分散行列Ψは、すべての使用可能な信号対雑音比を備えるトレーニングデータをプールすることによって推定される。
【0178】
一実施形態によれば、ノイズ低減済みベクトルxは、現在の反復におけるノイズ低減済みベクトルの値が次の反復におけるテ―ラー級数近似値
【0179】
【数61】



【0180】
の展開点Xとして使用されるような反復法で判定される。第1の反復では、テーラー級数近似値の展開点は、混合成分の平均
【0181】
【数62】



【0182】
であり、これによって正規分布を使用した雑音のあるベクトルの最も高い確率が得られる。
【0183】
【数63】



【0184】
次いで各反復で、ノイズ低減済みベクトルが次のように計算される。
【0185】
【数64】



【0186】
式中、jは反復カウンタであり、
【0187】
【数65】



【0188】
である。
【0189】
したがって、ノイズ低減済みベクトルの期待値
【0190】
【数66】



【0191】
は次のようになる。
【0192】
【数67】



【0193】
式中、Jは反復の合計回数である。
【0194】
本発明によれば、式33の反復によって表されるノイズ低減プロセスに関連する不確実性も、認識中に使用できるように算出される。不確実性は、
【0195】
【数68】



【0196】
での分散
【0197】
【数69】



【0198】
であり、これは
【0199】
【数70】



【0200】
として定義される。式中、
【0201】
【数71】



【0202】
である。
【0203】
上記の式14〜21の近似値およびモデルを使用して、積分Iは次のようになる。
【0204】
【数72】



【0205】
式中
【0206】
【数73】



【0207】
である。
【0208】
式37に式38の結果を代入すると、次が得られる。
【0209】
【数74】



【0210】
式中、
【0211】
【数75】



【0212】
である。
【0213】
次いで式43で算出された値を、式33〜35で算出されたノイズ低減済みベクトルの期待値の2乗とともに使用して、上記の式36を使用してノイズ低減プロセスの不確実性を判定する。式36で、
【0214】
【数76】



【0215】
は不確実性のベクトル表現であり、静的なノイズ低減済みベクトル
【0216】
【数77】



【0217】
の成分ごとの個別の不確実性
【0218】
【数78】



【0219】
を表すことに留意されたい。
【0220】
上記の式33〜35は、ノイズ低減済みベクトルの静的成分を判定する。本発明の実施形態によれば、成分がフレーム間でどのように変化するかを示すこうした静的成分の差を判定することもできる。こうした差は、総称して動的特徴と呼ばれる。本発明によれば、2つのタイプの動的特徴が判定される。一方はフレーム間の変化を示すデルタ特徴、もう一方は、デルタ特徴の変化の割合を示す加速特徴(acceleration feature)である。一実施形態によれば、デルタ特徴は、次のように算出される。
【0221】
【数79】



【0222】
式中、
【0223】
【数80】



【0224】
はノイズ低減済みベクトルの動的特徴、Kは動的特徴の判定に使用すべき隣接するフレーム数、ωτは隣接するフレームに相対的な重みを提供する固定の重みである。式45では、個別の計算がノイズ低減済み特徴ベクトルの成分ごとに行われることを示すためにベクトル表記を使用していることに留意されたい。
【0225】
加速特徴もまた、式45で算出されたデルタ特徴に基づいて判定することができる。具体的には、
【0226】
【数81】



【0227】
であり、式中、
【0228】
【数82】



【0229】
はノイズ低減済みベクトルの加速特徴、Kは動的特徴の判定に使用すべき隣接するフレーム数、υτは隣接するフレームに相対的な重みを提供する固定の重みである。
【0230】
デルタ特徴および加速特徴は、静的ノイズ低減済み特徴とともにデコーダに提供される。さらに、デルタ特徴および加速特徴の不確実性が算出されてデコーダに提供される。具体的には、デルタ特徴および加速特徴の不確実性は、次のように算出される。
【0231】
【数83】



【0232】
式中、
【0233】
【数84】



【0234】
は上記の式36で算出された不確実性、
【0235】
【数85】



【0236】
はデルタ特徴での不確実性、
【0237】
【数86】



【0238】
は加速特徴での不確実性、およびωτおよびυτは式45および46で使用された同じ重みである。
【0239】
静的特徴、デルタ特徴、および加速特徴の不確実性はそれぞれ、式6で、デコード中に雑音のある特徴ベクトルの対応する特徴の確率を判定するために使用される。特に、式45および式46で算出されたデルタ特徴および加速特徴の各成分は、ノイズ低減済みベクトルの個別成分、およびデルタベクトルの各成分に関連する対応する不確実性として扱われ、各加速ベクトルは、式6で不確実性
【0240】
【数87】



【0241】
として使用される。
【0242】
発話音声認識において本発明を使用する方法およびシステムを、図3のフロー図、および図4のブロック図に示している。方法は、図3のステップ300で始まる。ここで雑音のある発話音声信号が特徴ベクトルのシーケンスに変換される。このために、図4のマイクロフォン404は、スピーカ400および1つまたは複数の付加的なノイズソース402からの音声波を電気的信号に変換する。次いで電気的信号がアナログデジタル変換器406によってサンプリングされて、デジタル値のシーケンスが生成される。デジタル値は、フレームコンストラクタ408によって値のフレームに分類される。一実施形態では、A/D変換器406は、16kHz、16ビット/サンプルでアナログ信号をサンプリングし、それによって毎秒32キロバイトの発話音声データが作成され、フレームコンストラクタ408は、25ミリ秒相当のデータを含む新しいフレームを10ミリ秒ごとに作成する。
【0243】
フレームコンストラクタ408によって提供されるデータの各フレームは、特徴抽出器410によって特徴ベクトルに変換される。こうした特徴ベクトルを識別する方法は、当分野では周知であり、13次元メルケプストラム係数(MFCC;Mel-Frequency Cepstrum Coefficients)抽出を含む。
【0244】
図3のステップ302で、雑音のある発話音声信号の特徴ベクトルは、図4のノイズ推定モジュール411に提供される。ノイズ推定モジュール411は、現在のフレーム内のノイズを推定し、雑音のある発話音声信号とともに、ノイズ推定値を表す特徴ベクトルをノイズ低減モジュール412に提供する。
【0245】
図3のステップ304で、ノイズ低減モジュール412は、上記の式33〜35、45、および46、およびノイズ低減パラメータ記憶域413に格納されているこうした式のモデルパラメータを使用して、雑音のある特徴ベクトルのシーケンスからノイズ低減済み特徴ベクトルのシーケンスを生成する。特に、ノイズ低減モジュール412は、上述した音響歪みモデルを使用する。さらに、ノイズ低減モジュール412は、式36〜44、47、および48を使用して、ノイズ低減済み特徴ベクトルの形成に関連する不確実性を判定する。
【0246】
ノイズ低減モジュール412の出力は、一連のノイズ低減済み特徴ベクトル、およびこうしたノイズ低減済み特徴ベクトルに関連する、対応する一連の不確実性である。入力信号がトレーニング信号の場合、一連のノイズ低減済み特徴ベクトルは、トレーナ424に提供される。トレーナは、ノイズ低減済み特徴ベクトルおよびトレーニングテキスト426を使用して、音響モデル418をトレーニングする。こうしたモデルをトレーニングする技術は当分野では周知であり、本発明を理解するのにそれらの説明は必要ではない。
【0247】
入力信号がテスト信号である場合、ノイズ低減済み特徴ベクトルおよび対応する不確実性がデコーダ414に提供され、デコーダ414は、図3のステップ306に示すように、特徴ベクトルのストリーム、不確実性のストリーム、レキシコン415、言語モデル416、および音響モデル418に基づいて最も可能性のある一連の単語を識別する。具体的には、デコーディングは、上記の式6を使用する。
【0248】
最も考えられる一連の仮説の単語が信頼度モジュール(confidence measure module)420に提供される。信頼度モジュール420は、2次音響モデル(図示せず)に一部基づいて、どの単語が発話音声認識器によって誤って識別された可能性が最も高いかを識別する。次いで信頼度モジュール420は、誤って識別された単語を示す識別子とともに、一連の仮説の単語を出力モジュール422に提供する。信頼度モジュール420は、本発明の実施に必須ではないことを当業者であれば理解されよう。
【0249】
図4は、発話音声認識システムを表しているが、本発明は、任意のパターン認識システムで使用することができ、発話音声に限定されるものではない。
【0250】
本発明は、特定の実施形態を参照して説明してきたが、本発明の意図および範囲から逸脱することなく形態および詳細に変更を加えることができることを当業者であれば理解されよう。
【図面の簡単な説明】
【0251】
【図1】本発明を実施できる1つのコンピューティング環境を示すブロック図である。
【図2】本発明を実施できる代替のコンピューティング環境を示すブロック図である。
【図3】本発明の一実施形態のノイズ低減システムを使用する方法を示すフロー図である。
【図4】本発明の実施形態を使用できるパターン認識システムを示すブロック図である。

【特許請求の範囲】
【請求項1】
雑音のある信号内のノイズを低減する方法であって、
音響環境モデルを使用することによって前記雑音のある信号の一部の表現におけるノイズを低減してノイズ低減済み信号の一部の表現を生成するステップと、
前記ノイズの低減に関連する不確実性を識別するステップと
を備えることを特徴とする方法。
【請求項2】
前記不確実性を使用して確率分布を調整して、変更された確率分布を形成するステップと、
前記ノイズ低減済み信号の一部の前記表現および前記変更された確率分布を使用してパターン状態をデコードするステップと
をさらに備えることを特徴とする請求項1に記載の方法。
【請求項3】
ノイズ低減済み信号の一部の前記表現は前記ノイズ低減済み信号のデルタ特徴の表現を含むことを特徴とする請求項1に記載の方法。
【請求項4】
不確実性を識別するステップは、前記ノイズ低減済み信号のデルタ特徴に関連する不確実性を識別するステップを含むことを特徴とする請求項3に記載の方法。
【請求項5】
ノイズ低減済み信号の一部の前記表現は前記ノイズ低減済み信号の加速特徴の表現を含むことを特徴とする請求項1に記載の方法。
【請求項6】
不確実性を識別するステップは、前記ノイズ低減済み信号の加速特徴に関連する不確実性を識別するステップを含むことを特徴とする請求項5に記載の方法。
【請求項7】
ノイズを低減するステップは、クリーンな信号の動的アスペクトの事前モデルを使用するステップを含むことを特徴とする請求項1に記載の方法。
【請求項8】
コンピュータ実行可能命令を有するコンピュータ読み取り可能な記録媒体であって、前記コンピュータ実行可能命令は、
雑音のある信号のフレームを少なくとも2つの成分を含む特徴ベクトルに変換するステップと、
音響歪みモデルを使用することによって、前記雑音のある信号の前記特徴ベクトルの成分内のノイズを低減して、浄化された信号の特徴ベクトルの成分を生成するステップと、
前記成分からの前記ノイズの低減に関連する不確実性を識別するステップと
を実行することを特徴とするコンピュータ読み取り可能な記録媒体。
【請求項9】
前記コンピュータ実行可能命令は、
前記浄化された信号の前記成分、および前記成分からの前記ノイズの低減に関連する前記不確実性に一部基づいて音声状態の確率の確率成分を判定するステップと、
前記確率成分を使用して前記不確実性の値に関係なく前記音声状態の前記確率を判定するステップと
をさらに実行することを特徴とする請求項8に記載のコンピュータ読み取り可能な記録媒体。
【請求項10】
確率成分を判定するステップは、前記不確実性に一部基づいて確率分布を定義するステップを含むことを特徴とする請求項9に記載のコンピュータ読み取り可能な記録媒体。
【請求項11】
確率分布を定義するステップは前記不確実性を確率分布の分散に追加するステップを含むことを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体。
【請求項12】
前記コンピュータ実行可能命令は、前記浄化された信号のデルタ特徴を判定するステップをさらに実行することを特徴とする請求項8に記載のコンピュータ読み取り可能な記録媒体。
【請求項13】
前記コンピュータ実行可能命令は、前記浄化された信号の前記デルタ特徴の不確実性を判定するステップをさらに実行することを特徴とする請求項12に記載のコンピュータ読み取り可能な記録媒体。
【請求項14】
前記コンピュータ実行可能命令は、前記浄化された信号の加速特徴を判定するステップをさらに実行することを特徴とする請求項8に記載のコンピュータ読み取り可能な記録媒体。
【請求項15】
前記コンピュータ実行可能命令は、前記浄化された信号の前記加速特徴の不確実性を判定するステップをさらに実行することを特徴とする請求項14に記載のコンピュータ読み取り可能な記録媒体。
【請求項16】
ある成分からノイズを低減するステップは、クリーンな信号の動的アスペクトの事前モデルを使用するステップをさらに含むことを特徴とする請求項8に記載のコンピュータ読み取り可能な記録媒体。

【図1】
image rotate



【図2】
image rotate



【図3】
image rotate



【図4】
image rotate


【公表番号】特表2005−527002(P2005−527002A)
【公表日】平成17年9月8日(2005.9.8)
【国際特許分類】
【出願番号】特願2004−508336(P2004−508336)
【出願日】平成15年5月20日(2003.5.20)
【国際出願番号】PCT/US2003/016032
【国際公開番号】WO2003/100769
【国際公開日】平成15年12月4日(2003.12.4)
【出願人】(500046438)マイクロソフト コーポレーション (3,165)
【Fターム(参考)】