説明

クリーン音声の事前分布を使用した多感覚応用の音声強調

方法および装置は、代替センサ信号、気導マイクロフォン信号を使用して代替センサについてのチャネル応答を決定する。次いで、このチャネル応答、およびクリーン音声値の事前確率分布を使用して、クリーン音声値を推定する。

【発明の詳細な説明】
【技術分野】
【0001】
音声認識および音声伝達における共通の問題は、付加雑音による音声信号の乱れである。特に、別の話者の音声による乱れは、検出し、かつ/または補正するのが難しいことが実証されている。
【背景技術】
【0002】
最近、骨伝導マイクロフォン(bone conduction microphone)などの代替センサと気導マイクロフォン(air conduction microphone)との組合せを使用することによって雑音を除去しようと試みるシステムが開発されている。このシステムは、3つのトレーニングチャンネル、すなわち、雑音のある代替センサトレーニング信号、雑音のある気導マイクロフォントレーニング信号、およびクリーンな気導マイクロフォントレーニング信号を使用してトレーニングされる。各信号は、特徴領域に変換される。雑音のある代替センサ信号および雑音のある気導マイクロフォン信号の特徴は、雑音のある信号を表す単一のベクトルに結合される。クリーンな気導マイクロフォン信号の特徴は、単一のクリーンなベクトルを形成する。次いで、これらのベクトルは、雑音のあるベクトルとクリーンなベクトルとの間のマッピングをトレーニングするために使用される。マッピングは、トレーニングされると、雑音のある代替センサテスト信号と雑音のある気導マイクロフォンテスト信号との組合せから形成された雑音のあるベクトルに適用される。このマッピングは、クリーンな信号ベクトルを生成する。
【発明の開示】
【発明が解決しようとする課題】
【0003】
このシステムは、テスト信号の雑音条件がトレーニング信号の雑音条件と一致しないとき、最適とは言えない。というのは、マッピングは、トレーニング信号の雑音条件に合わせて設計されるからである。
【課題を解決するための手段】
【0004】
方法および装置は、代替センサ信号、気導マイクロフォン信号を使用して代替センサについてのチャネル応答を決定する。次いで、このチャネル応答、およびクリーン音声値の事前確率分布(prior probability distribution)を使用して、クリーン音声値を推定する。
【発明を実施するための最良の形態】
【0005】
図1は、本発明の実施形態を実施することができる好適なコンピューティングシステム環境100の一例を示す。コンピューティングシステム環境100は、好適なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関する限定を示唆するものではない。また、コンピューティング環境100を、動作環境100の例に示した構成要素のいずれか1つ、またはその組合せに関する任意の依存性または必要条件を有しているものと解釈すべきではない。
【0006】
本発明は、他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明との使用に適したよく知られているコンピューティングシステム、環境、および/または構成の例には、それだけには限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記の任意のシステムまたは装置を含む分散コンピューティング環境などがある。
【0007】
本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明することができる。一般にプログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。本発明は、通信ネットワークを介してリンクされているリモート処理装置によってタスクが実行される分散コンピューティング環境で実施されるように設計されている。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に配置される。
【0008】
図1を参照すると、本発明の実施形態を実施するシステムの例は、汎用コンピューティング装置をコンピュータ110の形で含んでいる。コンピュータ110の構成要素は、それだけには限定されないが、処理ユニット120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理ユニット120に結合するシステムバス121を含み得る。システムバス121は、メモリバスまたはメモリコントローラ、周辺バス、および様々なバスアーキテクチャのうちの任意のものを使用するローカルバスを含むいくつかのタイプのバス構造のうちどんなものでもよい。こうしたアーキテクチャには、それだけには限定されないが一例として、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ電子装置規格化協会(VESA)ローカルバス、およびメザニンバスとしても知られている周辺部品相互接続(PCI)バスなどがある。
【0009】
コンピュータ110は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110からアクセスできる使用可能な任意の媒体とすることができ、揮発性および不揮発性媒体、取外式および固定式媒体を含む。コンピュータ可読媒体は、それだけには限定されないが一例として、コンピュータ記憶媒体および通信媒体を含み得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性および不揮発性の取外式および固定式媒体がある。コンピュータ記憶媒体には、それだけには限定されないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報の格納に使用でき、コンピュータ110からアクセスできる他の任意の媒体などがある。通信媒体は一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを搬送波または他の移送機構などの変調されたデータ信号に組み込む。これには任意の情報配送媒体がある。「変調されたデータ信号」という用語は、情報を信号に符号化するように1つまたは複数のその特性が設定または変更された信号を意味する。通信媒体には、それだけには限定されないが一例として、有線ネットワーク、直接配線された接続などの有線媒体、および音響、RF、赤外線、その他の無線媒体などの無線媒体がある。また、上記のどんな組合せでもコンピュータ可読媒体の範囲内に含まれるものとする。
【0010】
システムメモリ130は、読み取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。基本入出力システム133(BIOS)は、例えば起動中など、コンピュータ110内の要素間での情報の転送を助ける基本ルーチンを含み、一般にROM131に格納されている。RAM132は一般に、処理ユニット120から直接アクセス可能な、かつ/または処理ユニット120が現在処理しているデータおよび/またはプログラムモジュールを含む。図1は、それだけには限定されないが一例として、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示している。
【0011】
コンピュータ110は、他の取外式/固定式、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。一例にすぎないが、図1は、固定式不揮発性磁気媒体から読み取り、あるいはそこに書き込むハードディスクドライブ141、取外式不揮発性磁気ディスク152から読み取り、あるいはそこに書き込む磁気ディスクドライブ151、およびCD−ROMや他の光媒体など、取外式不揮発性光ディスク156から読み取り、あるいはそこに書き込む光ディスクドライブ155を示している。動作環境の例で使用できる他の取外式/固定式、揮発性/不揮発性コンピュータ記憶媒体には、それだけには限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、半導体RAM、半導体ROMなどがある。ハードディスクドライブ141は一般に、インターフェイス140などの固定式メモリインターフェイスを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は一般に、インターフェイス150などの取外式メモリインターフェイスによってシステムバス121に接続される。
【0012】
上述し、図1に示したドライブおよびその関連のコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ110の他のデータの記憶域を提供する。例えば、図1では、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであっても、異なっていてもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は少なくとも異なるコピーであることを示すために、ここではそれらに異なる番号を付している。
【0013】
ユーザは、キーボード162、マイクロフォン163、およびマウス、トラックボール、タッチパッドなどのポインティング装置161などの入力装置を介してコマンドおよび情報をコンピュータ110に入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどを含むことができる。これらおよび他の入力装置は、しばしばシステムバスに結合されているユーザ入力インターフェイス160を介して処理ユニット120に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など他のインターフェイスおよびバス構造で接続してもよい。モニタ191または他のタイプの表示装置もまた、ビデオインターフェイス190などのインターフェイスを介してシステムバス121に接続される。コンピュータは、モニタに加えて、出力周辺インターフェイス195を介して接続できるスピーカ197、プリンタ196などの他の周辺出力装置を含むこともできる。
【0014】
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク式環境で動作する。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピア装置、または他の一般のネットワークノードでよく、一般にコンピュータ110に関連して上述した多くまたはすべての要素を含む。図1に示した論理接続は、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173を含むが、他のネットワークを含んでいてもよい。こうしたネットワーキング環境は、オフィス、全社規模のコンピュータネットワーク、イントラネット、およびインターネットではごく一般的である。
【0015】
LANネットワーキング環境で使用する場合、コンピュータ110は、ネットワークインターフェイスまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用する場合、コンピュータ110は一般に、モデム172、またはインターネットなどWAN173を介して通信を確立する他の手段を含む。モデム172は、内蔵のものでも外付けのものでもよく、ユーザ入力インターフェイス160または他の適切な機構を介してシステムバス121に接続することができる。ネットワーク式環境では、コンピュータ110に関連して示したプログラムモジュール、またはその一部分をリモートメモリ記憶装置に格納することができる。図1は、それだけには限定されないが一例として、リモートアプリケーションプログラム185をリモートコンピュータ180上に存在するものとして示している。図示したネットワーク接続は例であり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことは理解されよう。
【0016】
図2は、コンピューティング環境例である、モバイル装置200のブロック図である。モバイル装置200は、マイクロプロセッサ202、メモリ204、入力/出力(I/O)構成要素206、およびリモートコンピュータや他のモバイル装置と通信する通信インターフェイス208を含む。一実施形態では、上述した構成要素は、好適なバス210を介して互いに通信するために結合される。
【0017】
メモリ204は、モバイル装置200への一般電源がシャットダウンされたときにメモリ204に格納された情報が失われないように、バッテリバックアップモジュール(図示せず)を備えるランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実装される。メモリ204の一部分は、プログラム実行のためのアドレス指定可能なメモリとして割り振られることが好ましく、メモリ204の別の部分は、ディスクドライブ上のストレージをシミュレートするためなど、格納用に使用されることが好ましい。
【0018】
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、およびオブジェクトストア216を含む。動作中、オペレーティングシステム212は、プロセッサ202によってメモリ204から実行されることが好ましい。好ましい一実施形態では、オペレーティングシステム212は、Microsoft社から市販されているWINDOWS(登録商標)CEブランドオペレーティングシステムである。オペレーティングシステム212は、モバイル装置用に設計されていることが好ましく、1組の公表されているアプリケーションプログラミングインターフェイスおよびメソッド(a set of exposed application programming interfaces and methods)を介して、アプリケーション214が使用することができるデータベース機能を実装する。オブジェクトストア216内のオブジェクトは、少なくとも一部には、公表されているアプリケーションプログラミングインターフェイスおよびメソッドに対する呼出しに応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
【0019】
通信インターフェイス208は、モバイル装置200が情報を送受信できるようになる多数の装置および技術を表す。2〜3例を挙げると、装置には、有線および無線のモデム、衛星受信機、および放送チューナなどがある。モバイル装置200は、コンピュータに直接接続されて、コンピュータとデータを交換することもできる。こうした場合、通信インターフェイス208は、赤外線送受信装置や、シリアルまたはパラレルの通信接続とすることができ、これらはすべて、ストリーミング情報を送信することができる。
【0020】
入力/出力構成要素206は、タッチセンシティブスクリーン、ボタン、ローラ、およびマイクロフォンなどの様々な入力装置、およびオーディオジェネレータ、振動装置、およびディスプレイを含む様々な出力装置を含む。上記に列挙した装置は、一例であって、すべてがモバイル装置200に存在している必要はない。さらに、本発明の範囲内で、他の入力/出力装置がモバイル装置200に取り付けられていてもよく、またはモバイル装置200に備え付けられていてもよい。
【0021】
図3は、本発明の諸実施形態の基本的なブロック図を示している。図3において、話者300は、気導マイクロフォン304および代替センサ306によって検出される音声信号302(X)を生成する。代替センサの例には、ユーザの喉の振動を測定する喉当てマイクロフォン、ユーザの(顎の骨など)顔の骨や頭蓋骨に、またはそれに隣接して、あるいはユーザの耳の中に配置し、ユーザによって生成される音声に対応する頭蓋骨および顎の振動を感知する骨伝導センサなどがある。気導マイクロフォン304は、一般に可聴周波の空気波(audio air−wave)を電気信号に変換するために使用されるタイプのマイクロフォンである。
【0022】
また、気導マイクロフォン304は、1つまたは複数の雑音源310によって生成される周囲雑音308(Z)も受信する。周囲雑音のタイプ、および周囲雑音のレベルに応じて、周囲雑音308を代替センサ306によって検出することもできる。しかし、本発明の諸実施形態によれば、代替センサ306は、一般に、気導マイクロフォン304より周囲雑音に影響されにくい。したがって、代替センサ306によって生成された代替センサ信号316(B)は、一般に、気導マイクロフォン304によって生成された気導マイクロフォン信号318(Y)より雑音が少ない。代替センサ306は、周囲雑音に影響されにくいが、何らかのセンサ雑音320(W)を生成する。
【0023】
話者300から代替センサ信号316への経路は、チャネル応答Hを有するチャネルとしてモデル化することができる。周囲雑音308から代替センサ信号316への経路は、チャネル応答Gを有するチャネルとしてモデル化することができる。
【0024】
代替センサ信号316(B)および気導マイクロフォン信号318(Y)は、クリーン信号324を推定するクリーン信号推定器322に提供される。クリーン信号推定値324は、音声処理328に提供される。クリーン信号推定値324は、フィルタ処理された時間領域信号またはフーリエ変換ベクトルのいずれかとすることができる。クリーン信号推定値324が時間領域信号である場合、音声処理328は、聞き手、音声符号化システム、または音声認識システムの形を取り得る。クリーン信号推定値324がフーリエ変換ベクトルである場合、音声処理328は、一般に音声認識システムであるか、フーリエ変換ベクトルを波形に変換するための逆フーリエ変換を含む。
【0025】
直接フィルタリング強調(direct filtering enhancement)322内で、代替センサ信号316およびマイクロフォン信号318は、クリーン音声を推定するために使用される周波数領域に変換される。図4に示されるように、代替センサ信号316および気導マイクロフォン信号318は、それぞれアナログ−デジタル変換器404および414に提供されて、それぞれフレームコンストラクタ406および416によって値のフレームにグループ分けされる、一連のデジタル値を生成する。一実施形態では、A−D変換器404および414は、アナログ信号をサンプル当たり16kHz、16ビットでサンプリングし、それによって1秒当たり32キロバイトの音声データを作成し、フレームコンストラクタ406および416は、20ミリ秒相当のデータを含む新しいそれぞれのフレームを10ミリ秒ごとに作成する。
【0026】
フレームコンストラクタ406および416によって提供されたデータのそれぞれのフレームは、それぞれ高速フーリエ変換(FFT)408および418を使用して周波数領域に変換される。
【0027】
代替センサ信号および気導マイクロフォン信号の周波数領域値は、クリーン信号推定器420に提供され、クリーン信号推定器420は、周波数領域値を使用して、クリーン音声信号324を推定する。
【0028】
いくつかの実施形態によれば、クリーン音声信号324は、逆高速フーリエ変換422を使用して、時間領域に逆変換される。これは、時間領域バージョンのクリーン音声信号324を作成する。
【0029】
本発明の諸実施形態は、クリーン音声信号324を推定するための直接フィルタリング技術を提供する。直接フィルタリングによれば、代替センサ306のチャネル応答の最尤推定値は、チャネル応答に対して関数を最小化することによって決定される。次いでこれらの推定値は、クリーン音声信号に対して関数を最小化することによって、クリーン音声信号の最尤推定値を決定するために使用される。
【0030】
本発明の一実施形態によれば、代替センサによって検出される背景音声に対応するチャネル応答Gは、ゼロであると考えられる。これによって、クリーン音声信号と、気導マイクロフォン信号および代替センサ信号との間のモデルが次のようになる。
【0031】
y(t)=x(t)+z(t) 式1
b(t)=h(t)*x(t)+w(t) 式2
式中、y(t)は気導マイクロフォン信号、b(t)は代替センサ信号、x(t)はクリーン音声信号、z(t)は周囲雑音、w(t)は代替センサ雑音、およびh(t)は代替センサに関連付けられているクリーン音声信号に対するチャネル応答である。したがって、式2では、代替センサ信号は、フィルタ処理されたバージョンのクリーン音声としてモデル化され、フィルタは、h(t)のインパルス応答を有する。
【0032】
周波数領域において、式1および式2は、次のように表すことができる。
【0033】
(k)=X(k)+Z(k) 式3
(k)=H(k)X(k)+W(k) 式4
式中、表記Y(k)は、時刻tを中心とした信号のフレームのk番目の周波数成分を表す。この表記は、X(k)、Z(k)、H(k)、W(k)、およびB(k)に適用される。以下の説明では、わかりやすくするために、周波数成分kに対する参照が省略される。しかし、以下で行われる計算は、周波数成分ごとに行われることを当業者であれば理解されよう。
【0034】
この実施形態によれば、雑音ZおよびWの実数部分および虚数部分は、以下のように、独立ゼロ平均ガウス(independent zero−mean Gaussians)としてモデル化される。
【0035】
【数1】

【0036】
式中、
【0037】
【数2】

【0038】
は、雑音Zの分散、
【0039】
【数3】

【0040】
は、Wの分散である。
【0041】
も、以下のようにガウスとしてモデル化される。
【0042】
【数4】

【0043】
式中、Hは、チャネル応答の平均、
【0044】
【数5】

【0045】
は、チャネル応答の分散である。
【0046】
これらのモデルパラメータが与えられると、クリーン音声値Xおよびチャネル応答値Hの確率は、条件付き確率、
【0047】
【数6】

【0048】
によって記述され、これは、以下に比例し、
【0049】
【数7】

【0050】
これは、以下に等しい。
【0051】
【数8】

【0052】
一実施形態では、チャネル応答の事前確率、
【0053】
【数9】

【0054】
は、無視され、残りの確率のそれぞれは、クリーン音声の事前確率であるp(X)で、ガウス分布として処理され、これは、
【0055】
【数10】

【0056】
の分散で、ゼロ平均ガウスとして処理され、したがって
【0057】
【数11】

【0058】
となる。
【0059】
この簡略化および式10を使用して、tのフレームのXの最尤推定値は、以下を最小化することによって決定される。
【0060】
【数12】

【0061】
式12は、Xに関して最小化されつつあるため、Xに関する偏導関数を取り、その関数を最小化するXの値を決定することができる。具体的には、
【0062】
【数13】

【0063】
によって、
【0064】
【数14】

【0065】
が得られ、式中、
【0066】
【数15】

【0067】
は、Hの複素共役を表し、|H|は、複素値Hの大きさを表す。
【0068】
チャネル応答Hは、以下を最小化することによって、発話全体から推定される。
【0069】
【数16】

【0070】
式13で計算されたXの式を式14に代入し、偏導関数
【0071】
【数17】

【0072】
を設定し、Hがすべての時間フレームTにわたって一定であると仮定すると、以下のようなHの解が得られる。
【0073】
【数18】

【0074】
式15で、Hの推定は、以下の形で、最後のTフレームにわたっていくつかの総和を計算する必要がある。
【0075】
【数19】

【0076】
式中、sは、
【0077】
【数20】

【0078】
である。
【0079】
この式では、最初のフレーム(t=1)は、最後のフレーム(t=T)と同じぐらい重要である。しかし、他の実施形態では、最新のフレームが古いフレームよりHの推定に貢献していることが好ましい。これを達成する1つの技術は、「指数エージング(exponential aging)」であり、式16の総和は、
【0080】
【数21】

【0081】
で置き換えられる。式中、c≦1である。c=1の場合、式17は、式16に等しい。c<1の場合、最後のフレームは、1だけ加重され、最後の直前のフレームは、cだけ加重され(すなわち、最後のフレームより貢献が少ない)、最初のフレームは、cT−1だけ加重される(すなわち、最後のフレームより著しく貢献が少ない)。一例を挙げる。c=0.99、T=100とすると、最初のフレームに対する重みは、0.9999=0.37のみとなる。
【0082】
一実施形態によれば、式17は、
S(T)=cS(T−1)+s 式18
として帰納的に推定される。
【0083】
式18は、古いデータの加重を自動的に少なくするため、固定されたウィンドウ長を使用する必要がなく、最後のT個のフレームのデータをメモリに格納する必要がない。代わりに、前のフレームでのS(T−1)についての値を格納するだけでよい。
【0084】
式18を使用すると、式15は、
【0085】
【数22】

【0086】
となる。式中、
【0087】
【数23】

【0088】
である。
【0089】
式20および式21におけるcの値は、J(T)およびK(T)の現在の値を計算するために使用される過去のフレームの数の有効長を提供する。具体的には、有効長は、
【0090】
【数24】

【0091】
によって得られる。
【0092】
漸近有効長(asymptotic effective length)は、
【0093】
【数25】

【0094】
すなわち、同等に
【0095】
【数26】

【0096】
によって得られる。
【0097】
したがって、式24を使用して、式19における様々な有効長を達成するために、cを設定することができる。例えば、200フレームの有効長を達成するために、cは、
【0098】
【数27】

【0099】
として設定される。
【0100】
式15を使用してHが推定されると、式13のすべてのHの代わりにそれを使用して、各時間フレームtでXの別々の値を決定することができる。あるいは、式19を使用して、各時間フレームtでHを推定することができる。次いで、各フレームのHの値を式13で使用して、Xを決定する。
【0101】
図5は、式13および式15を使用して、発話についてのクリーン音声値を推定する本発明の方法のフロー図を提供する。
【0102】
ステップ500で、気導マイクロフォン信号および代替センサ信号のフレームの周波数成分が、発話全体にわたって捕捉される。
【0103】
ステップ502で、周囲雑音の分散
【0104】
【数28】

【0105】
および代替センサ雑音の分散
【0106】
【数29】

【0107】
が、話者が話をしていない間に、発話の初期にそれぞれ捕捉される、気導マイクロフォン信号および代替センサ信号のフレームから決定される。
【0108】
この方法は、代替センサ信号の低エネルギー部分を識別することによって、話者が話をしていないときを判定する。というのは、代替センサ雑音のエネルギーは、代替センサ信号によって捕捉される音声信号よりはるかに小さいからである。他の諸実施形態では、既知の音声検出技術を気導音声信号に適用して、話者が話をしているときを識別することができる。話者が話をしていないと考えられる間、Xはゼロであると仮定され、気導マイクロフォンまたは代替センサからの任意の信号は、雑音であると考えられる。これらの雑音値のサンプルは、非音声のフレームから収集され、気導信号および代替センサ信号における雑音の分散を推定するために使用される。
【0109】
ステップ504で、クリーン音声の事前確率分布の分散、
【0110】
【数30】

【0111】
が決定される。一実施形態によれば、この分散は、以下のように計算される。
【0112】
【数31】

【0113】
式中、|Yμは、気導マイクロフォン信号のエネルギーであり、現在の音声フレームの前にk個の音声フレーム、および現在の音声フレームの後にm個の音声フレームを含む1組の音声フレームにわたる合計が行われる。負の値またはゼロの値の分散、
【0114】
【数32】

【0115】
を回避するために、本発明のいくつかの実施形態では、
【0116】
【数33】

【0117】

【0118】
【数34】

【0119】
の最低可能値として使用する。
【0120】
代替実施形態では、以下のような音声の前のフレームにおけるクリーン音声信号の分散のみに依存する平滑化技術を使用して、リアルタイムの実施が実現される。
【0121】
【数35】

【0122】
式中、
【0123】
【数36】

【0124】
は、音声を含んだ最後のフレームからのクリーン音声の事前確率分布の分散、pは、0から1までの範囲の平滑化係数、αは、小さい定数、
【0125】
【数37】

【0126】
は、
【0127】
【数38】

【0128】
とα|Yとの大きい方が
【0129】
【数39】

【0130】
の正の値を保証するために選択されることを示す。特定の一実施形態によれば、平滑化係数は、0.08の値を有し、α=0.01である。
【0131】
ステップ506で、発話の全フレームにわたる代替センサ信号および気導マイクロフォン信号の値を使用して、上記の式15を使用してHの値を決定する。ステップ508で、Hのこの値を、各時間フレームでの気導マイクロフォン信号および代替センサ信号の個々の値と共に使用して、上記の式13を使用して、時間フレームごとに、強調された、または雑音が低減された音声値を決定する。
【0132】
他の諸実施形態では、式15を使用してHの単一の値を決定するために発話の全フレームを使用する代わりに、式19を使用して、フレームごとに、Hが決定される。次いで、Hの値を使用し、上記の式13を使用して、そのフレームについてXを計算する。
【0133】
本発明の第2の実施形態では、周囲雑音に対する代替センサのチャネル応答が非ゼロであると考えられる。この実施形態では、気導マイクロフォン信号および代替センサ信号は、以下のようにモデル化される。
【0134】
(k)=X(k)+Z(k) 式28
(k)=H(k)X(k)+G(k)Z(k)+W(k) 式29
式中、周囲雑音に対する代替センサチャネル応答は、G(k)の非ゼロ値である。
【0135】
クリーン音声Xについての最尤度は、結果的に以下のクリーン音声の式をもたらす目的関数を最小化することによって得られる。
【0136】
【数40】

【0137】
式30を解くために、分散
【0138】
【数41】

【0139】
【数42】

【0140】
および
【0141】
【数43】

【0142】
ならびにチャネル応答値HおよびGは既知でなければならない。図6は、これらの値を識別するための、また、フレームごとに強調された音声値を決定するためのフロー図を提供する。
【0143】
ステップ600で、ユーザが話をしていない発話のフレームが識別される。次いで、これらのフレームを使用して、代替センサおよび周囲雑音の分散
【0144】
【数44】

【0145】
および
【0146】
【数45】

【0147】
をそれぞれ決定する。
【0148】
ユーザが話をしていないフレームを識別するために、代替センサ信号を調べることができる。代替センサ信号は、背景音声について、雑音よりはるかに小さい信号値を生成するため、代替センサ信号のエネルギーが低い場合、話者が話をしていないと仮定することができる。
【0149】
周囲雑音および代替センサの雑音についての分散が決定された後、図6の方法はステップ602で続行し、上記の式26または式27を使用して、クリーン音声の事前確率の分散、
【0150】
【数46】

【0151】
を決定する。上述したように、音声を含むフレームのみを使用して、クリーン音声の事前の分散を決定する。
【0152】
ステップ604で、識別された、ユーザが話をしていないフレームを使用して、周囲雑音についての代替センサのチャネル応答Gを推定する。具体的には、Gは、以下のように決定される。
【0153】
【数47】

【0154】
式中、Dは、ユーザが話をしていないフレームの数である。式31で、Gは、発話の全フレームにわたって一定のままであり、したがって、もはや時間フレームtに依存しないと仮定される。式31で、tにわたる総和を、式16〜25に関連して上述した指数減衰計算(exponential decay calculation)と置き換えることができる。
【0155】
ステップ606で、背景音声に対する代替センサのチャネル応答Gの値を使用して、クリーン音声信号に対する代替センサのチャネル応答を決定する。具体的には、Hは、以下のように計算される。
【0156】
【数48】

【0157】
式32で、Tにわたる総和を、式16〜25に関連して上述した帰納的指数減衰計算と置き換えることができる。
【0158】
ステップ606でHが決定された後、式30を使用して、全フレームについてクリーン音声値を決定することができる。式30を使用する際に、いくつかの実施形態によれば、項B−GYは、
【0159】
【数49】

【0160】
と置き換えられる。というのは、背景音声と、代替センサ内へのその漏れとの間の位相差を正確に決定することは難しいことがわかっているからである。
【0161】
式32における総和の代わりに帰納的指数減衰計算が使用される場合、時間フレームごとにHの別々の値を決定することができ、式30においてHとして使用することができる。
【0162】
本発明は、特定の実施形態を参照して説明してきたが、本発明の意図および範囲から逸脱することなく形態および詳細に変更を加えることができることを当分野の技術者であれば理解されよう。
【図面の簡単な説明】
【0163】
【図1】本発明の実施形態を実施することができる1つのコンピューティング環境を示すブロック図である。
【図2】本発明の実施形態を実施することができる代替のコンピューティング環境を示すブロック図である。
【図3】本発明の一実施形態の全体的な音声処理システムを示すブロック図である。
【図4】本発明の一実施形態による音声を強調するシステムを示すブロック図である。
【図5】本発明の一実施形態による音声を強調するためのフロー図である。
【図6】本発明の別の実施形態による音声を強調するためのフロー図である。

【特許請求の範囲】
【請求項1】
雑音が低減された音声信号の一部分を表す雑音低減値(noise−reduced value)についての推定値を決定する方法であって、
気導マイクロフォン以外の代替センサを使用して、代替センサ信号を生成するステップと、
気導マイクロフォン信号を生成するステップと、
前記代替センサ信号のチャネル応答についての値を推定するために、前記代替センサ信号、および前記気導マイクロフォン信号を使用するステップと、
前記雑音低減値を推定するために、前記チャネル応答、および前記雑音低減値の事前確率を使用するステップとを備えることを特徴とする方法。
【請求項2】
前記雑音低減値の前記事前確率は、分散によって定義される分布を有することを特徴とする請求項1に記載の方法。
【請求項3】
前記気導マイクロフォン信号に基づいて、前記分布の前記分散を決定するステップをさらに備えることを特徴とする請求項2に記載の方法。
【請求項4】
前記気導マイクロフォン信号に基づいて前記分散を決定するステップは、前記気導マイクロフォン信号のフレームについてのエネルギー値の総和を形成するステップを含むことを特徴とする請求項3に記載の方法。
【請求項5】
前記気導マイクロフォン信号の前記フレームはすべて、音声を含むことを特徴とする請求項4に記載の方法。
【請求項6】
前記分布の前記分散を決定するステップは、周囲雑音の分散に基づいて前記分散を決定するステップをさらに含むことを特徴とする請求項3に記載の方法。
【請求項7】
前記分布の前記分散を決定するステップは、前記気導マイクロフォン信号の現在のフレームに基づく前記雑音低減音声信号の現在のフレームに関連付けられている分散、および前記雑音低減音声信号の前のフレームに関連付けられている前記分布の分散を決定するステップをさらに含むことを特徴とする請求項6に記載の方法。
【請求項8】
前記分布の前記分散を決定するステップは、前記分散がある最低値を常に超えるように前記分散の前記値を制限するステップをさらに含むことを特徴とする請求項7に記載の方法。
【請求項9】
前記最低値は、前記周囲雑音の前記分散に対する百分率(パーセンテージ)で示されることを特徴とする請求項8に記載の方法。
【請求項10】
代替センサ信号および気導マイクロフォン信号を使用して、代替センサについてのチャネル応答を決定するステップと、
クリーン音声値を推定するために、前記チャネル応答、およびクリーン音声値の事前確率分布を使用するステップと
を含むステップを実施するためのコンピュータ実行可能命令を備えることを特徴とするコンピュータ可読媒体。
【請求項11】
事前確率分布を使用するステップは、前記事前確率分布の分散を使用するステップを含むことを特徴とする請求項10に記載のコンピュータ可読媒体。
【請求項12】
前記ステップは、前記気導マイクロフォン信号に基づいて、前記事前確率分布の前記分散を決定するステップをさらに含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
【請求項13】
前記事前確率の前記分散を決定するステップは、周囲雑音の分布に基づいて前記事前確率の前記分散を決定するステップをさらに含むことを特徴とする請求項12に記載のコンピュータ可読媒体。
【請求項14】
前記気導マイクロフォン信号に基づいて前記事前確率の前記分散を決定するステップは、前記気導マイクロフォン信号のフレームについてのエネルギー値の総和を形成するステップを含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
【請求項15】
前記事前確率分布の前記分散を決定するステップは、前のクリーン音声値に関連付けられている事前確率分布の分散に基づいて、現在のクリーン音声値に関連付けられている前記事前確率分布の分散を決定するステップをさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
【請求項16】
前記事前確率分布の前記分散を決定するステップは、前のクリーン音声値に関連付けられている事前確率分布の前記分散、および前記気導マイクロフォン信号のフレームの前記エネルギーと周囲雑音の前記分布の前記分散との差の加重総和を取るステップをさらに含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
【請求項17】
前記事前確率分布の前記分散を決定するステップは、前記事前確率分布の前記分散の最低値を設定するステップをさらに含むことを特徴とする請求項12に記載のコンピュータ可読媒体。
【請求項18】
前記分散の前記最低値は、周囲雑音の分布の分散に応じて決まることを特徴とする請求項17に記載のコンピュータ可読媒体。
【請求項19】
クリーン音声信号のクリーン音声値を識別する方法であって、
周囲雑音に対する代替センサのチャネル応答を決定するステップと、
クリーン音声値を決定するために、前記チャネル応答、およびクリーン音声値の事前確率分布を使用するステップとを備えることを特徴とする方法。
【請求項20】
前記事前確率分布のパラメータは、気導マイクロフォン信号の値から決定されることを特徴とする請求項19に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公表番号】特表2008−544328(P2008−544328A)
【公表日】平成20年12月4日(2008.12.4)
【国際特許分類】
【出願番号】特願2008−518201(P2008−518201)
【出願日】平成18年6月6日(2006.6.6)
【国際出願番号】PCT/US2006/022058
【国際公開番号】WO2007/001768
【国際公開日】平成19年1月4日(2007.1.4)
【出願人】(500046438)マイクロソフト コーポレーション (3,165)
【Fターム(参考)】