説明

音声状態モデルを使用したマルチセンサ音声高品質化

方法および装置が、代替センサ信号および気導マイクロホン信号に基づいて音声状態の尤度を決定する。音声状態の尤度は、クリーン音声信号のクリーン音声値を推定するために、代替センサ信号および気導マイクロホン信号と共に使用される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声状態モデルを使用したマルチセンサ音声高品質化に関する。
【背景技術】
【0002】
音声認識と音声伝送の共通の問題は、付加雑音による音声信号の破損である。具体的には、別の話者の音声による破損は、検出および/または訂正することが困難であることが分かっている。
【0003】
最近、骨伝導マイクロホンなどの代替センサと気導マイクロホンとの組合せを使用することによって雑音を取り除こうとするシステムが開発されてきた。気導マイクロホン信号より少ない雑音を有する、高品質化された音声信号を形成するために、代替のセンサ信号および気導マイクロホン信号を使用する様々な技術が開発されてきた。
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかし、完全に高品質化された音声は達成されておらず、高品質化された音声信号の形成のさらなる向上が求められている。
【課題を解決するための手段】
【0005】
方法および装置が、代替センサ信号および気導マイクロホン信号に基づいて音声状態の尤度を決定する。この音声状態の尤度を使用して、クリーン音声信号のクリーン音声値を推定する。
【発明を実施するための最良の形態】
【0006】
図1は、本発明の実施形態が実施されることができる適切なコンピューティングシステム環境100の一例を示している。コンピューティングシステム環境100は、適切なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関するいかなる限定も示唆するものではない。コンピューティング環境100は、例示的な動作環境100に示された構成要素のいずれか1つまたはその組合せに関する依存性または要件を有するものと解釈すべきでない。
【0007】
本発明の実施形態は、他の複数の汎用または特別目的コンピューティングシステム環境または構成で動作することができる。本発明の実施形態で使用するのに適し得るよく知られているコンピューティングシステム、環境および/または構成の例には、それだけに限らないが、パーソナルコンピュータ、サーバコンピュータ、携帯型またはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記システムまたは装置のいずれかを含む分散コンピューティング環境などが含まれる。
【0008】
本発明の実施形態は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で述べることができる。一般に、プログラムモジュールは、特定のタスクを実施し、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造体などを含む。本発明は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実施される分散コンピューティング環境内で実施されることが意図されている。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含めて、ローカルとリモートの両方のコンピュータ記憶媒体に置かれる。
【0009】
図1を参照すると、本発明を実施するための例示的なシステムが、コンピュータ110の形の汎用コンピューティング装置を含んでいる。コンピュータ110の構成要素は、それだけに限らないが、処理装置120と、システムメモリ130と、システムメモリを含めて様々なシステム構成要素を処理装置120に結合するシステムバス121とを含んでもよい。システムバス121は、メモリバスまたはメモリコントローラ、周辺バスおよび様々なバスアーキテクチュアのいずれかを使用したローカルバスを含めて、複数のタイプのバス構造のいずれかであってもよい。限定するためではなく、例を挙げると、こうしたアーキテクチュアには、業界標準アーキテクチャ(ISA:Industry Standard Architecture)バス、マイクロチャネルアーキテクチャー(MCA:Micro Channel Architecture)バス、拡張ISA(EISA:Enhanced ISA)バス、ビデオ電子規格協会(VESA:Video Electronics Standards Association)ローカルバス、およびメザニンバスとしても知られている周辺コンポーネント相互接続(PCI:Peripheral Component Interconnect)バスが含まれる。
【0010】
コンピュータ110は一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセス可能な任意の使用可能な媒体を含むことができ、揮発性と不揮発性媒体、取外し可能と取外し不可能媒体の両方を含む。限定するためではなく、例を挙げると、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含んでもよい。コンピュータ記憶媒体は、コンピュータ読取り可能命令、データ構造体、プログラムモジュールまたは他のデータなどの情報を格納するための任意の方法または技術で実装された揮発性と不揮発性、取外し可能と取外し不可能の両方の媒体を含む。コンピュータ記憶媒体には、それだけに限らないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD:digital versatile disk)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは所望の情報を格納するために使用することができ、またコンピュータ110によってアクセスすることができる他の任意の媒体が含まれる。通信媒体は一般に、コンピュータ読取り可能命令、データ構造体、プログラムモジュールまたは他のデータを搬送波や他の移送機構などの変調されたデータ信号として実施し、また任意の情報送達媒体を含む。用語「変調されたデータ信号」は、信号内の情報を符号化するようなやり方でその特性の1つまたは複数が設定されまたは変更された信号を意味する。限定のためではなく、例を挙げると、通信媒体には、有線ネットワークや直接有線接続などの有線媒体、ならびに音響、RF、赤外線などの無線媒体、および他の無線媒体が含まれる。上記内容のいずれかの組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
【0011】
システムメモリ130は、読出し専用メモリ(ROM:read only memory)131およびランダムアクセスメモリ(RAM:random access memory)132などの揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。起動時などにコンピュータ110内の要素間で情報を転送するのに役立つ基本ルーチンを含む基本入出力システム(BIOS:basic input/output system)133は一般に、ROM131に格納される。RAM132は一般に、処理装置120に即時にアクセス可能であり、かつ/またはそれによって現在動作しているデータおよび/またはプログラムモジュールを含む。限定するためではなく、例示するために、図1に、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136およびプログラムデータ137を示す。
【0012】
コンピュータ110は、他の取外し可能/取外し不可能、揮発性/不揮発性のコンピュータ記憶媒体をも含み得る。例示するためだけに、図1に、取外し不可能な不揮発性の磁気媒体から読み出しまたはそこに書き込むハードディスクドライブ141、取外し可能な不揮発性の磁気ディスク152から読み出しまたはそこに書き込む磁気ディスクドライブ151、およびCD−ROMや他の光媒体などの取外し可能な不揮発性の光ディスク156から読み出しまたはそこに書き込む光ディスクドライブ155を示す。例示的な動作環境内で使用することができる他の取外し可能/取外し不可能、揮発性/不揮発性のコンピュータ記憶媒体には、それだけに限らないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ141は一般に、インターフェース140などの取外し不可能メモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は一般に、インターフェース150などの取外し可能メモリインターフェースによってシステムバス121に接続される。
【0013】
上記で論じ、また図1に示したドライブおよびその関連のコンピュータ記憶媒体によって、コンピュータ読取り可能命令、データ構造体、プログラムモジュール、およびコンピュータ110のための他のデータの記憶域が提供される。図1では、たとえば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146およびプログラムデータ147を格納するものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136およびプログラムデータ137と同じであっても、それとは異なっていてもよいことに留意されたい。少なくともそれらがそれぞれ異なるコピーであることを示すために、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147には異なる番号がここでは付与されている。
【0014】
ユーザは、キーボード162、マイクロホン163、およびマウス、トラックボールまたはタッチパッドなどのポインティング装置161などの入力装置を用いて、コンピュータ110にコマンドおよび情報を入力することができる。他の入力装置(図示せず)は、ジョイスティック、ゲームパッド、パラボラアンテナ、スキャナなどを含んでもよい。これらのおよび他の入力装置はしばしば、システムバスに結合されたユーザ入力インターフェース160を介して処理装置120に接続されるが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB:universal serial bus)などの他のインターフェースおよびバス構造によって接続されてもよい。モニタ191または他のタイプの表示装置も、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース195によって接続されてもよいスピーカ197およびプリンタ196などの他の周辺出力装置を含むこともできる。
【0015】
コンピュータ110は、リモートコンピュータ180などの1つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化された環境内で動作する。リモートコンピュータ180は、パーソナルコンピュータ、携帯型装置、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般的なネットワークノードとすることができ、コンピュータ110に関して上記で述べた要素の多くまたはすべてを一般に含む。図1に示された論理接続は、ローカルエリアネットワーク(LAN:local area network)171と、広域ネットワーク(WAN:wide area network)173とを含むが、他のネットワークを含むこともできる。こうしたネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットでは一般的である。
【0016】
LANネットワーキング環境内で使用される場合は、コンピュータ110は、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境内で使用される場合は、コンピュータ110は一般に、モデム172、またはインターネットなどのWAN173を介して通信を確立する他の手段を含む。内部にあることも、外部にあることもあるモデム172は、ユーザ入力インターフェース160または他の適切な機構を介してシステムバス121に接続されてもよい。ネットワーク化された環境内では、コンピュータ110に関して示されたプログラムモジュール、またはその一部は、リモートメモリ記憶装置内に格納してもよい。限定のためではなく、例示するために、図1に、リモートコンピュータ180内に常駐するリモートアプリケーションプログラム185を示す。示されたネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことが理解されよう。
【0017】
図2は、例示的なコンピューティング環境であるモバイル装置200のブロック図である。モバイル装置200は、マイクロプロセッサ202と、メモリ204と、入出力(I/O:input/output)コンポーネント206と、リモートコンピュータまたは他のモバイル装置と通信するための通信インターフェース208とを含む。一実施形態では、上記で言及されたコンポーネントは、適切なバス210を介して互いに通信するために結合される。
【0018】
メモリ204は、モバイル装置200への全体的な電力が遮断されるときにメモリ204内に格納された情報が失われないように、バッテリバックアップモジュール(図示せず)を備えたランダムアクセスメモリ(RAM:random access memory)などの不揮発性電子メモリとして実装される。メモリ204の一部は好ましくは、プログラム実行のためのアドレス指定可能メモリとして割り当てられ、メモリ204の別の部分は好ましくは、ディスクドライブ上の記憶域をシミュレートするなどの記憶のために使用される。
【0019】
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214ならびにオブジェクトストア216を含む。動作中、オペレーティングシステム212は好ましくは、プロセッサ202によってメモリ204から実行される。好ましい一実施形態では、オペレーティングシステム212は、Microsoft Corporation社から市販されているWINDOWS(登録商標)CEブランドオペレーティングシステムである。オペレーティングシステム212は好ましくは、モバイル装置用に設計され、アプリケーション214によって、公開された1組のアプリケーションプログラミングインターフェースおよび方法を介して使用することができるデータベース機能を実施する。オブジェクトストア216内のオブジェクトは、アプリケーション214およびオペレーティングシステム212によって、少なくとも部分的には公開されたアプリケーションプログラミングインターフェースおよびメソッドへの呼出しに応答して維持される。
【0020】
通信インターフェース208は、モバイル装置200が情報を送受信することを可能にする複数の装置および技術を表す。いくつか例を挙げると、装置には、有線および無線モデム、衛星受信機、ならびに放送チューナが含まれる。モバイル装置200は、コンピュータとのデータ交換のために、コンピュータに直接接続されることもできる。こうした場合、通信インターフェース208は、赤外線トランシーバ、あるいはシリアルまたはパラレル通信接続とすることができ、それらすべてが、ストリーミング情報を送信することができる。
【0021】
入出力コンポーネント206は、タッチセンサ画面、ボタン、ローラおよびマイクロホンなどの様々な入力装置、ならびにオーディオジェネレータ、振動装置およびディスプレイを含めて様々な出力装置を含む。上記にリストされた装置は、例示するためのものであり、すべてがモバイル装置200上に存在する必要があるとは限らない。さらに、他の入出力装置が、本発明の範囲内で、モバイル装置200に接続されることも、それと共に見られることもある。
【0022】
図3は、本発明の実施形態の基本ブロック図を示している。図3では、スピーカ300は、気導マイクロホン304および代替センサ306によって検出される音声信号302(X)を生成する。代替センサの例には、ユーザの喉の振動を測定する喉マイクロホン、(顎骨など)ユーザの顔の骨または頭蓋骨にまたはその近くに、あるいはユーザの耳に置かれており、ユーザによって生成された音声に対応する頭蓋骨および顎の振動を感知する骨伝導センサである。気導マイクロホン304は、音声空気波(audio air−wave)を電気信号に変換するために一般的に使用されるタイプのマイクロホンである。
【0023】
気導マイクロホン304は、1つまたは複数の雑音源310によって生成された周囲雑音308(V)を受信し、それ自体のセンサ雑音305(U)を生成する。周囲雑音のタイプおよび周囲雑音のレベルによって、周囲雑音308を代替センサ306によって検出することもできる。しかし、本発明の実施形態では、代替センサ306は一般に、気導マイクロホン304より周囲雑音への感度が低い。したがって一般的に、代替センサ306によって生成された代替センサ信号316(B)は、気導マイクロホン304によって生成された気導マイクロホン信号318(Y)より少ない雑音を含む。代替センサ306は、周囲雑音にそれほど敏感ではないが、いくらかのセンサ雑音320(W)を生成する。
【0024】
スピーカ300から代替センサ信号316までの経路は、チャネル応答Hを有するチャネルとしてモデル化することができる。周囲雑音308から代替センサ信号316への経路は、チャネル応答Gを有するチャネルとしてモデル化することができる。
【0025】
代替センサ信号316(B)および気導マイクロホン信号318(Y)は、クリーン信号324を推定するクリーン信号推定器322に供給される。クリーン信号推定値324は、音声プロセス328に供給される。クリーン信号推定値324は、時間領域信号であっても、フーリエ変換ベクトルであってもよい。クリーン信号推定値324が時間領域信号である場合は、音声プロセス328は、リスナ、音声符号化システムまたは音声認識システムの形を取ってもよい。クリーン信号推定値324がフーリエ変換ベクトルである場合は、音声プロセス328は一般に、音声認識システムであり、またはフーリエ変換ベクトルを波形に変換するための逆フーリエ変換を含む。
【0026】
クリーン信号推定器322内では、代替センサ信号316およびマイクロホン信号318は、クリーン音声の推定のために使用される周波数領域に変換される。図4に示されるように、代替センサ信号316および気導マイクロホン信号318は、それぞれアナログデジタル変換器404および414に供給され、デジタル値のシーケンスを生成し、このデジタル値のシーケンスは、それぞれフレーム構成器406および416によって値のフレームにグループ化される。一実施形態では、AD変換器404および414は、サンプル当たり16kHz、16ビットのアナログ信号をサンプリングし、それによって毎秒32キロバイトの音声データを作成し、フレーム構成器406および416は、10ミリ秒毎に、20ミリ秒相当のデータを含むそれぞれの新しいフレームを作成する。
【0027】
フレーム構成器406および416によって提供されるデータのそれぞれの各フレームは、それぞれ高速フーリエ変換(FFT:Fast Fourier Transform)408および418を使用して周波数領域に変換される。
【0028】
代替センサ信号および気導マイクロホン信号の周波数領域値は、クリーン信号推定器420に供給され、このクリーン信号推定器420は、クリーン音声信号324を推定するために周波数領域値を使用する。
【0029】
一部の実施形態では、クリーン音声信号324は、逆高速フーリエ変換422を使用して時間領域に変換し戻される。これによって、クリーン音声信号324の時間領域バージョンが作成される。
【0030】
本発明は、高品質化された音声信号を生成するために、クリーン音声の音声状態を含む図3のシステムのモデルを使用する。図5は、そのモデルを図で表したものである。
【0031】
図5のモデルでは、クリーン音声500は、音声状態502に依存する。気導マイクロホン信号504は、センサ雑音506、周囲雑音508およびクリーン音声信号500に依存する。代替センサ信号510は、センサ雑音512、チャネル応答514を通過するときはクリーン音声信号500、チャネル応答516を通過するときは周囲雑音508に依存する。
【0032】
図5のモデルは、本発明では、雑音の入った観察値YおよびBからクリーン音声信号Xを推定するために使用され、複数の音声状態Sの尤度を識別する。
【0033】
本発明の一実施形態では、クリーン音声信号推定値、およびクリーン音声信号推定値についての状態の尤度が、このシステムモデルで、雑音成分のガウス分布をまず仮定することによって形成される。したがって、
【0034】
【数1】

【0035】
であり、ここで、各雑音成分は、それぞれの分散値
【0036】
【数2】

【0037】
を有するゼロ平均ガウシアンとしてモデル化され、Vは周囲雑音であり、Uは気導マイクロホン内のセンサ雑音であり、Wは代替センサ内のセンサ雑音である。式1で、gは、周囲雑音の分散値の調整を可能にする調整パラメータである。
【0038】
さらに、本発明のこの実施形態は、
【0039】
【数3】

であるように分散値
【0040】
【数4】

【0041】
を有するゼロ平均ガウシアンとして状態が与えられるとして、クリーン音声信号の確率をモデル化する。
【0042】
本発明の一実施形態では、所与の状態の事前確率は、すべての状態が等しい可能性を有するように一様確率であると仮定される。具体的には、事前確率は、
【0043】
【数5】

【0044】
ように定義され、ここでNは、モデルで使用可能な音声状態の数である。
【0045】
クリーン音声信号の推定値および音声状態の尤度を決定するための以下の式についての説明では、すべての変数は、複素スペクトル領域でモデル化される。それぞれの周波数成分(Bin)は、他の周波数成分と独立に処理される。表記を容易にするために、この方法は、単一の周波数成分について以下に述べられる。計算は、入力信号のスペクトルバージョンの各周波数成分について実施されることが当業者には認識されよう。時間と共に変化する変数については、添字tが変数に添えられている。
【0046】
雑音の入った観察値YおよびBからクリーン音声信号Xを推定するために、本発明は、条件付き確率p(X|Y,B)を最大にし、この条件付き確率は、雑音の入った気導マイクロホン信号、および雑音の入った代替センサ信号が与えられたときのクリーン音声信号の確率である。クリーン音声信号の推定値がこのモデルでの音声状態Sに依存するので、この条件付き確率は、
【0047】
【数6】

【0048】
のように決定され、ここで{S}は、すべての音声状態のセットを表し、p(X|Yt,t,=s)は、雑音の入った現在の観察値および音声状態sが与えられたときのXの尤度であり、p(S=s|Yt,)は、雑音の入った観察値が与えられたときの音声状態sの尤度である。本発明では、有声音、摩擦音、鼻音および後舌母音音の音声状態を含めて、任意の数の可能な音声状態が使用されてもよい。一部の実施形態では、音素など、1組の音声単位のそれぞれについて別個の音声状態が提供される。しかし、一実施形態では、音声用に1つ、非音声用に1つの2つの音声状態だけが提供される。
【0049】
一部の実施形態の下では、周波数成分のすべてについて単一の状態が使用される。したがって、それぞれのフレームは、単一の音声状態変数を有する。
【0050】
式6の右側の項は、
【0051】
【数7】

【0052】
のように計算することができ、それは、観察値が与えられたときのクリーン音声信号の条件付き確率が、クリーン音声信号の結合確率、観察値および状態によって推定することができ、観察値が与えられたときの状態の条件付き確率は、すべての可能なクリーン音声値にわたってクリーン音声信号の結合確率、観察値および状態を積分することによって近似できることを示している。
【0053】
式1〜3で上記で論じた雑音の分布についてのガウシアン仮定を使用して、クリーン音声信号の結合確率、観察値および状態は、
【0054】
【数8】

【0055】
のように計算することができ、ここで、
【0056】
【数9】

【0057】
は、式5の一様確率分布によって与えられる状態の事前確率であり、Gは、周囲雑音への代替センサのチャネル応答であり、Hは、クリーン音声信号への代替センサ信号のチャネル応答であり、|G|などの縦棒間の複素項は、複素数値の大きさを示す。
【0058】
背景音声についての代替センサのチャネル応答Gは、ユーザが話していない最後のDフレームにわたって空気マイクロホンYおよび代替センサBの信号から推定される。具体的には、Gは、
【0059】
【数10】

【0060】
のように決定され、ここでDは、ユーザが話していないが、背景音声は存在するフレームの数である。ここでは、Gがすべての時間フレームDにわたって一定であると仮定する。他の実施形態では、すべてのDフレームを等しく使用するのではなく、最新のフレームが古いフレームよりもGの推定により寄与するように、「指数エージング(exponential aging)」として知られている技術を使用する。
【0061】
クリーン音声信号への代替センサのチャネル応答Hは、ユーザが話している最後のTフレームにわたって空気マイクロホンYおよび代替センサBの信号から推定される。具体的には、Hは、
【0062】
【数11】

【0063】
のように決定され、ここでTは、ユーザが話しているフレームの数である。ここでは、Hがすべての時間フレームTにわたって一定であると仮定する。他の実施形態では、すべてのTフレームを等しく使用するのではなく、最新のフレームが古いフレームよりもHの推定により寄与するように、「指数エージング」として知られている技術を使用する。
【0064】
状態p(S=s|Yt,)の条件付き尤度は、式8の近似、および式9の結合確率計算を使用して、
【0065】
【数12】

式12
【0066】
ように計算され、それは、
【0067】
【数13】

【0068】
のように簡略化することができる。
【0069】
式13を詳しく見ると、第1の項は、代替センサチャネルと気導マイクロホンチャネルの間の相関性をある意味でモデル化しており、また第2の項は、空気マイクロホンチャネルにおける観察について説明するために状態モデルおよび雑音モデルを利用していることが明らかである。第3の項は単に、一実施形態では一様分布である、状態についての事前値(the prior)である。
【0070】
式13で計算された観察値が与えられたときの状態の尤度には、2つの可能な応用例がある。第1に、それは、音声状態の分類子を構築するために使用することができ、この分類子は、音声を含まないフレームから雑音源の分散値を決定することができるように、観察値を、音声を含むもの、または音声を含まないものに分類するために使用することができる。それは、以下にさらに示されるように、クリーン音声信号を推定する場合に「ソフト」重みを提供するために使用することもできる。
【0071】
上述したように、上記の諸式内の変数はそれぞれ、複素スペクトル領域の特定の周波数成分について定義される。したがって、式13の尤度は、特定の周波数成分に関連する状態についてのものである。しかし、それぞれのフレームについて単一の状態変数しかないので、フレームの状態の尤度は、以下のように、周波数成分にわたって尤度を総計することによって形成される。
【0072】
【数14】

【0073】
ここで、L(S(f))=p(S(f)|Y(f),B(f))は、式13に定義された周波数成分fの尤度である。この積は、DCおよびナイキスト周波数以外のすべての周波数成分にわたって決定される。尤度計算が対数尤度領域で実施される場合、上記の式内の積は、和で置き換えられることに留意されたい。
【0074】
上記尤度は、
【0075】
【数15】

【0076】
となるように、尤度比テストに基づいて音声/非音声分類子を構築するために使用することができ、式15では、フレームは、比rが0より大きい場合は音声を含むものと見なされ、そうでない場合は音声を含まないものと見なされる。
【0077】
音声状態の尤度を使用して、クリーン音声信号の推定を形成することができる。一実施形態では、この推定は、
【0078】
【数16】

【0079】
となるように、上記の式6に基づく最小平均二乗推定(MMSE:minimum mean square estimate)を使用して形成され、ここで、E(X|Yt,)は、観察値が与えられたときのクリーン音声信号の期待値であり、E(X|Yt,t,=s)は、観察値および音声状態が与えられたときのクリーン音声信号の期待値である。
【0080】
式7および9を使用して、期待値E(X|Yt,t,=s)をそこから計算することができる条件付き確率p(X|Yt,t,=s)は、以下のように決定することができる。
【0081】
【数17】

【0082】
これによって、
【0083】
【数18】

式18
【0084】
ここで、
【0085】
【数19】

【0086】
【数20】

【0087】
の期待値がもたらされ、Mは、Mの複素共役である。
【0088】
したがって、クリーン音声信号XのMMSE推定値は、
【0089】
【数21】

【0090】
によって与えられ、ここで、πは、状態についての事後値(the posterior)であり、
【0091】
【数22】

【0092】
によって与えられ、ここで、L(S=s)は、式14によって与えられる。したがって、クリーン音声信号の推定は、特定の音声状態の相対尤度に部分的に基づいており、この相対尤度によって、クリーン音声信号の推定のためのソフト重みが提供される。
【0093】
上記計算では、Hは、高い精度で知られていると仮定されていた。しかし、実際には、Hは、単に制限された精度で知られている。本発明の追加の一実施形態では、Hは、ガウスランダム変数
【0094】
【数23】

【0095】
としてモデル化される。こうした一実施形態では、上記計算はすべて、Hのすべての可能な値にわたって周辺化される(marginalize)。しかし、これによって、数学が扱い難いものになる。一実施形態では、この扱い難さを克服するために、反復プロセスが使用される。各反復の間、Hは、式13および20において、Hで置き換えられ、
【0096】
【数24】

【0097】
は、
【0098】
【数25】

【0099】
で置き換えられ、ここで、
【0100】
【数26】

【0101】
は、前の反復から決定されたクリーン音声信号の推定値である。次いで、クリーン音声信号は、式21を使用して推定される。次いで、クリーン音声信号のこの新しい推定値は、
【0102】
【数27】

【0103】
の新しい値として設定され、次の反復が実施される。反復は、クリーン音声信号の推定が安定したときに終了する。
【0104】
図6は、上記の諸式を使用してクリーン音声信号を推定する方法を提供する。ステップ600で、ユーザが話していないところの入力発語のフレームが識別される。次いで、これらのフレームは、周囲雑音の分散値
【0105】
【数28】

【0106】
、代替センサ雑音の分散値
【0107】
【数29】

【0108】
および気導マイクロホン雑音の分散値
【0109】
【数30】

【0110】
を決定するために使用される。
【0111】
ユーザが話していないところのフレームを識別するために、代替センサ信号を検査することができる。代替センサ信号のエネルギーが低い場合、代替センサ信号は雑音の信号値よりも遥かに小さい背景音声の信号値を生成するので、それは、話者が話し中でないと最初に仮定することができる。音声を含まないフレームの気導マイクロホン信号および代替センサ信号の値は、バッファに格納され、
【0112】
【数31】

【0113】
【数32】

【0114】
のように、雑音の分散値を計算するために使用される。ここで、Nは、分散値を形成するために使用されている発語中の雑音フレームの数であり、Vは、ユーザが話していない場合の1組の雑音フレームであり、
【0115】
【数33】

【0116】
は、漏洩が明らかにされた後の代替センサ信号を指し、それは、
【0117】
【数34】

【0118】
のように計算され、それは、一部の実施形態では別法として、
【0119】
【数35】

【0120】
のように計算される。
【0121】
一部の実施形態では、代替センサ信号の低いエネルギーレベルに基づいて非音声フレームを識別する技術は単に、トレーニングの初期フレーム中に実施される。雑音分散値について初期値が形成された後、それは、式15の尤度比を使用して、どのフレームが音声を含み、どのフレームが音声を含んでいないか決定するために使用されてもよい。
【0122】
特定の一実施形態では、推定された分散値
【0123】
【数36】

【0124】
を増加または減少させるために使用することができる調整パラメータであるgの値は、1に設定される。これは、雑音推定手順における完全な信頼性を示唆するものである。本発明の異なる実施形態では、異なるgの値が使用されてもよい。
【0125】
気導マイクロホンの雑音の分散値
【0126】
【数37】

【0127】
は、気導マイクロホンの方が代替センサよりもセンサ雑音が生じる傾向が小さいという観察に基づいて推定される。したがって、気導マイクロホンの分散値は、
【0128】
【数38】

【0129】
のように計算することができる。
【0130】
ステップ602で、音声分散値
【0131】
【数39】

【0132】
は、時間平滑化を伴う雑音抑圧フィルタを使用して推定される。抑圧フィルタは、スペクトル減算法を一般化したものである。具体的には、音声分散値は、
【0133】
【数40】

【0134】
ただし、
【0135】
【数41】

ここで、
【0136】
【数42】

【0137】
のように計算され、ここで、
【0138】
【数42】

【0139】
は前のフレームからのクリーン音声推定値であり、一部の実施形態では、τは、.2に設定される平滑化係数であり、αは、α>1である場合には、音声のひずみの増加を犠牲にしてより多く雑音が低減されるように雑音低減の範囲を制御し、βは、最小騒音フロアを与え、知覚された残余音楽雑音をマスクする背景雑音を加える手段を提供する。一部の実施形態では、γ1=2、かつγ2=1/2である。一部の実施形態では、βは、純粋な雑音フレームの20dBの雑音低減のために0.01に等しく設定される。
【0140】
したがって、式28では、分散値は、前のフレームの推定されたクリーン音声信号の重み付けされた和、および雑音抑圧フィルタKによってフィルタリングされた気導マイクロホン信号のエネルギーとして求められる。
【0141】
一部の実施形態では、αは、信号対雑音比およびマスキング原理に従って選択され、このマスキング原理は、同じ量の雑音が高音声エネルギー帯にあると、低音声エネルギー帯にあるよりも、認識への影響が小さくなり、またある周波数に高音声エネルギーが存在すると、隣接周波数帯内の雑音の認識が小さくなることを明らかにしている。この実施形態では、αは、
【0142】
【数43】

【0143】
のように選択され、ここで、SNRはデシベル(dB)単位の信号対雑音比であり、Bは、それを超えた雑音低減を実施すべきでない所望の信号対雑音比レベルであり、αは、0の信号対雑音比値で取り除くべき雑音量である。一部の実施形態では、Bは、20dBに等しく設定される。
【0144】
以下の信号対雑音比の定義
【0145】
【数44】

【0146】
を使用すると、式29の雑音抑圧フィルタは、
【0147】
【数45】

【0148】
になる。
【0149】
この雑音抑圧フィルタは、正の信号対雑音比については弱い雑音抑圧を提供し、負の信号対雑音比についてはより強い雑音抑圧を提供する。実際、十分に負の信号対雑音比の場合、観察された信号および雑音はすべて取り除かれ、存在する唯一の信号は雑音フロアであり、この雑音フロアは、式33の雑音抑圧フィルタの「そうでない場合」の分岐によって追加し戻されている。
【0150】
一部の実施形態では、αは、異なる周波数について異なる量の雑音が取り除かれるように、周波数依存のものにされる。一実施形態では、この周波数依存性は、
α(k)=α0min+(α0max−α0min)k/225 式34
となるように、30Hzのαと8KHzのαとの間の線形補間を使用して形成され、ここで、kは、周波数成分の数であり、α0minは30Hzで望まれるαの値であり、α0maxは8KHzで望まれるαの値であり、また256個の周波数成分があると仮定されている。
【0151】
ステップ602で音声分散値が決定された後、この分散値は、上記の式13および14を使用して、ステップ604で各音声状態の尤度を決定するため使用される。次いで、音声状態の尤度は、現在のフレームのクリーン音声推定を決定するためにステップ606で使用される。上述されたように、Hを表すためにガウス分布が使用される実施形態では、ステップ604および606は、各反復においてクリーン音声信号の最新の推定値を使用して、またHのガウスモデルに対処するために上記で論じられた式への変更を使用して反復される。
【0152】
本発明について、特定の実施形態を参照して述べたが、本発明の精神および範囲から逸脱せずに、形および詳細の変更を加えてもよいことが当業者には認識されよう。
【図面の簡単な説明】
【0153】
【図1】本発明の実施形態が実施されることができる、コンピューティング環境のブロック図である。
【図2】本発明の実施形態が実施されることができる、代替コンピューティング環境のブロック図である。
【図3】本発明の一般的な音声処理システムのブロック図である。
【図4】本発明の一実施形態による音声高品質化のためのシステムのブロック図である。
【図5】本発明の一実施形態による音声高品質化が基づくモデルを示す図である。
【図6】本発明の一実施形態による音声高品質化のためのフローチャートである。

【特許請求の範囲】
【請求項1】
雑音低減音声信号の一部を表す雑音低減値の推定値を決定する方法であって、
代替センサを使用して代替センサ信号を生成するステップと、
気導マイクロホン信号を生成するステップと、
前記代替センサ信号および前記気導マイクロホン信号を使用して音声状態の尤度を推定するステップと、
前記音声状態の前記尤度を使用して前記雑音低減値を推定するステップと
を備えることを特徴とする方法。
【請求項2】
前記音声状態の前記尤度を使用して前記雑音低減値を推定するステップは、前記音声状態の前記尤度および前記雑音低減値の期待値を使用して前記雑音低減値を推定するステップを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記雑音低減値の前記期待値は、前記代替センサ信号および前記気導マイクロホン信号に基づくことを特徴とする請求項2に記載の方法。
【請求項4】
音声状態の尤度を推定するステップは、複数の音声状態のそれぞれについて別個の尤度を推定するステップを含み、前記音声状態の前記尤度を使用して前記雑音低減値を推定するステップは、前記複数の音声状態の各音声状態の前記尤度を使用するステップを含むことを特徴とする請求項1に記載の方法。
【請求項5】
前記複数の音声状態の各音声状態の前記尤度を使用するステップは、各音声状態の前記尤度を使用して前記雑音低減値の期待値に重み付けをするステップを含むことを特徴とする請求項4に記載の方法。
【請求項6】
音声状態の尤度を推定するステップは、1組の周波数成分のそれぞれについて別個の尤度成分を推定し、前記別個の尤度成分を組み合わせて前記音声状態の前記尤度の推定値を形成するステップを含むことを特徴とする請求項1に記載の方法。
【請求項7】
音声状態の前記尤度の前記推定値を使用して、前記気導マイクロホン信号のフレームが音声を含むかどうか判断するステップをさらに備えることを特徴とする請求項1に記載の方法。
【請求項8】
音声を含まないと判断される前記気導マイクロホン信号のフレームを使用して雑音源の分散値を決定し、前記雑音源の前記分散値を使用して前記低減値を推定するステップをさらに備えることを特徴とする請求項7に記載の方法。
【請求項9】
分散値を有する分布としてある状態が与えられるとして、雑音低減値の確率をモデル化するステップをさらに備えることを特徴とする請求項1に記載の方法。
【請求項10】
前のフレームの雑音低減値の推定値と現在のフレームの前記気導マイクロホン信号のフィルタリング済みバージョンとの線形結合として前記分布の前記分散値を推定するステップをさらに含むことを特徴とする請求項9に記載の方法。
【請求項11】
前記気導マイクロホン信号の前記フィルタリング済みバージョンは、周波数に依存するフィルタを使用して形成されることを特徴とする請求項10に記載の方法。
【請求項12】
前記気導マイクロホン信号の前記フィルタリング済みバージョンは、信号対雑音比に依存するフィルタを使用して形成されることを特徴とする請求項10に記載の方法。
【請求項13】
前記雑音低減値の前記推定値を使用することによって反復を実施して、前記雑音低減値の新しい推定を形成するステップをさらに備えることを特徴とする請求項1に記載の方法。
【請求項14】
代替センサ信号および気導マイクロホン信号に基づいて音声状態の尤度を決定するステップと、
前記音声状態の前記尤度を使用してクリーン音声値を推定するステップと
を備えるステップを実施するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
【請求項15】
前記音声状態の前記尤度を使用してクリーン音声値を推定するステップは、期待値に重み付けをするステップを含むことを特徴とする請求項14に記載のコンピュータ可読媒体。
【請求項16】
前記音声状態の前記尤度を使用してクリーン音声値を推定するステップは、
前記音声状態の前記尤度を使用して、信号のフレームを非音声フレームとして識別するステップと、
前記非音声フレームを使用して雑音の分散値を推定するステップと、
前記雑音の前記分散値を使用して前記クリーン音声値を推定するステップと
を含むことを特徴とする請求項14に記載コンピュータ可読媒体。
【請求項17】
音声状態の尤度を推定するステップは、複数の周波数成分のそれぞれについて別個の尤度を推定し、前記別個の尤度を組み合わせて前記音声状態の前記尤度を形成するステップを含むことを特徴とする請求項14に記載コンピュータ可読媒体。
【請求項18】
クリーン音声信号のクリーン音声値を識別する方法であって、
前記クリーン音声信号が音声状態に依存し、代替センサ信号が前記クリーン音声信号に依存し、気導マイクロホン信号が前記クリーン音声信号に依存するモデルを形成するステップと、
前記モデルに基づく前記クリーン音声値の推定値、前記代替センサ信号の値、および前記気導マイクロホン信号の値を決定するステップと
を備えることを特徴とする方法。
【請求項19】
ある状態の尤度を決定するステップをさらに備え、前記クリーン音声値の推定値を決定するステップは、前記状態の前記尤度を使用するステップをさらに含むことを特徴とする請求項18に記載の方法。
【請求項20】
前記モデルを形成するステップは、前記代替センサ信号および前記気導マイクロホン信号が雑音源に依存するモデルを形成するステップを含むことを特徴とする請求項18に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公表番号】特表2009−501940(P2009−501940A)
【公表日】平成21年1月22日(2009.1.22)
【国際特許分類】
【出願番号】特願2008−519337(P2008−519337)
【出願日】平成18年6月13日(2006.6.13)
【国際出願番号】PCT/US2006/022863
【国際公開番号】WO2007/001821
【国際公開日】平成19年1月4日(2007.1.4)
【出願人】(500046438)マイクロソフト コーポレーション (3,165)