説明

多感覚音声強調のための方法および装置

【課題】 別の話者の話声など、付加雑音による話声信号の汚れ(corruption)を検出し、かつ/または補正する方法および装置を提供する。
【解決手段】 本発明にかかる方法および装置は、代替センサ信号と気導マイクロフォン信号を使用して、代替センサについてチャネル応答を決定する。次いで、このチャネル応答を使用し、代替センサ信号の少なくとも一部分を使用して雑音のない話声値を推定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、雑音低減に関する。詳細には、本発明は、話声信号から雑音を除去することに関する。
【背景技術】
【0002】
音声認識(speech recognition)と音声伝達(speech transmission)における共通問題は、付加雑音による話声信号の汚れ(corruption)である。具体的には、別の話者の話声による汚れは、検出し、かつ/または補正するのが困難であることが実証されている。
【0003】
最近、骨伝導マイクロフォン(bone conduction microphone)など代替センサと気導マイクロフォン(air conduction microphone)の組合せを使用することによって雑音を除去しようと試みるシステムが開発されている。このシステムは、3つのトレーニングチャネル、すなわち、雑音の多い代替センサトレーニング信号、雑音の多い気導マイクロフォントレーニング信号、雑音のない(clean)気導マイクロフォントレーニング信号を使用してトレーニングされる。それぞれの信号は、特徴領域(feature domain)に変換される。雑音の多い代替センサ信号と、雑音の多い気導マイクロフォン信号についての特徴は、雑音の多い信号を表す単一のベクトルに組み合わされる。雑音のない気導マイクロフォン信号についての特徴は、単一の雑音のないベクトルを形成する。次いで、これらのベクトルは、雑音の多いベクトルと雑音のないベクトルの間のマッピングをトレーニングするために使用される。マッピングは、トレーニングされた後で、雑音の多い代替センサテスト信号と雑音の多い気導マイクロフォンテスト信号の組合せから形成された雑音の多いベクトルに適用される。このマッピングは、雑音のないベクトルを生成する。
【発明の開示】
【発明が解決しようとする課題】
【0004】
このシステムは、テスト信号の雑音条件がトレーニング信号の雑音条件と合致しないとき最適に及ばない。というのは、マッピングが、トレーニング信号の雑音条件に合わせて設計されるからである。
【課題を解決するための手段】
【0005】
本方法および装置は、代替センサ信号と気導マイクロフォン信号を使用して、代替センサについてチャネル応答を決定する。次いで、このチャネル応答を使用し、代替センサ信号の少なくとも一部分を使用して雑音のない話声値を推定する。
【発明を実施するための最良の形態】
【0006】
図1は、本発明を実施することができる好適なコンピューティングシステム環境100の一例を示す。コンピューティングシステム環境100は、好適なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についてどんな制限も暗示しないものとする。また、コンピューティング環境100は、例示的な動作環境100に示されている構成要素のいずれか1つ、またはその組合せに関してどんな依存性も要件も有すると解釈すべきでない。
【0007】
本発明は、多数の他の汎用または専用コンピューティングシステム環境または構成と共に動作可能である。本発明と共に使用するのに適している可能性のある周知のコンピューティングシステム、環境、および/または構成の例には、それだけには限らないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサをベースとするシステム、セットトップボックス、プログラム可能な家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、テレフォニシステム、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
【0008】
本発明について、コンピュータによって実行される、プログラムモジュールなどコンピュータ実行可能命令の一般的な状況で述べる。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明はまた、通信ネットワークを介してリンクされた遠隔処理デバイスによってタスクが実行される分散コンピューティング環境内で実施されるように設計される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルと遠隔双方のコンピュータ記憶媒体内に位置する。
【0009】
図1を参照すると、本発明を実施するための例示的なシステムが、コンピュータ110の形態で汎用コンピューティングデバイスを含んでいる。コンピュータ110の構成要素には、それだけには限らないが、処理装置120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理装置120に結合するシステムバス121が含まれる。システムバス121は、メモリバスまたはメモリコントローラ、周辺機器バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例を挙げると、そのようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、および、メザニンバスとしても知られるPCI(Peripheral Component Interconnect)バスが含まれる。
【0010】
コンピュータ110は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスすることができる任意の入手可能な媒体とすることができ、揮発性媒体と不揮発性媒体、取外し式媒体と非取外し式媒体を共に含む。限定ではなく例を挙げると、コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体を含む。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性と不揮発性、取外し式と非取外し式の媒体が共に含まれる。コンピュータ記憶媒体には、それだけには限らないが、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気記憶装置、または、所望の情報を記憶するために使用することができ、コンピュータ110によってアクセスすることができる他の任意の媒体が含まれる。通信媒体は、一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の移送機構など変調データ信号に統合し、任意の情報送達媒体を含む。「変調データ信号」という用語は、情報を信号に符号化するようにその特性の1つまたは複数が設定された、または変化した信号を意味する。限定ではなく例を挙げると、通信媒体は、有線ネットワークまたは直接配線接続など有線媒体と、音響、RF、赤外線および他の無線媒体など無線媒体とを含む。上記のいずれかの組合せもまた、コンピュータ可読媒体の範囲内に含むべきである。
【0011】
システムメモリ130は、読出し専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132など揮発性および/または不揮発性メモリの形態でコンピュータ記憶媒体を含む。起動中などにコンピュータ110内の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム(BIOS)133は、一般にROM131内に記憶される。一般にRAM132は、処理装置120によって直ちにアクセス可能な、かつ/または現在働きかけられているデータおよび/またはプログラムモジュールを含む。限定ではなく例を挙げると、図1は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、プログラムデータ137を示す。
【0012】
コンピュータ110はまた、他の取外し式/非取外し式、揮発性/不揮発性コンピュータ記憶媒体を含むことができる。例示にすぎないが、図1は、非取外し式の不揮発性磁気媒体との間で読出しまたは書込みをするハードディスクドライブ141、取外し式の不揮発性磁気ディスク152との間で読出しまたは書込みをする磁気ディスクドライブ151、CD ROMまたは他の光媒体など取外し式の不揮発性光ディスク156との間で読出しまたは書込みをする光ディスクドライブ155を示す。例示的な動作環境内で使用することができる他の取外し式/非取外し式、揮発性/不揮発性コンピュータ記憶媒体には、それだけには限らないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体RAM、固体ROMなどが含まれる。一般にハードディスクドライブ141は、インターフェース140など非取外し式メモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、一般に、インターフェース150など取外し式メモリインターフェースによってシステムバス121に接続される。
【0013】
上記で論じ、図1に示されているドライブとその関連コンピュータ記憶媒体は、コンピュータ110のために、コンピュータ可読命令、データ構造、プログラムモジュール、および他のデータを記憶する。たとえば、図1では、ハードディスクドライブ141が、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、プログラムデータ147を記憶して示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、プログラムデータ137と同じとすることも異なるものとすることもできることに留意されたい。ここでは、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、プログラムデータ147は、これらが最低でも異なるコピーであることを示すために異なる番号が与えられている。
【0014】
ユーザは、キーボード162、マイクロフォン163、および、マウス、トラックボール、またはタッチパッドなどポインティングデバイス161など、入力デバイスを介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどが含まれる。これらの、また他の入力デバイスは、しばしば、システムバスに結合されるユーザ入力インターフェース160を介して処理装置120に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)など、他のインターフェースおよびバス構造によって接続することができる。モニタ191または他のタイプのディスプレイデバイスもまた、ビデオインターフェース190など、インターフェースを介してシステムバス121に接続される。コンピュータはまた、モニタに加えて、スピーカ197やプリンタ196など他の周辺出力デバイスをも含むことができ、これらは、出力周辺機器インターフェース195を介して接続することができる。
【0015】
コンピュータ110は、遠隔コンピュータ180など、1つまたは複数の遠隔コンピュータに対する論理接続を使用してネットワーク環境内で動作する。遠隔コンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイスまたは他の共通ネットワークノードとすることができ、一般に、コンピュータ110に関して上述した要素の多数または全部を含む。図1に示されている論理接続は、ローカルエリアネットワーク(LAN)171と広域ネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。そのようなネットワーク環境は、事務所、全社コンピュータネットワーク、イントラネット、インターネットで普通である。
【0016】
コンピュータ110は、LANネットワーク環境内で使用されるとき、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。コンピュータ110は一般に、WANネットワーク環境内で使用されるとき、インターネットなどWAN173を介して通信を確立するためのモデム172または他の手段を含む。モデム172は、内部にあっても外部にあってもよく、ユーザ入力インターフェース160または他の適切な機構を介してシステムバス121に接続することができる。ネットワーク環境では、コンピュータ110に関して示されているプログラムモジュール、またはその一部分を、遠隔メモリ記憶装置内に記憶することができる。限定ではなく例を挙げると、図1は、遠隔コンピュータ180に常駐する遠隔アプリケーションプログラム185を示す。図のネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立する他の手段を使用することができることを理解されたい。
【0017】
図2は、例示的なコンピューティング環境であるモバイルデバイス200のブロック図である。モバイルデバイス200は、マイクロプロセッサ202と、メモリ204と、入出力(I/O)構成要素206と、遠隔コンピュータまたは他のモバイルデバイスと通信するための通信インターフェース208とを含む。一実施形態では、前述の構成要素は、好適なバス210を介して互いに通信するために結合される。
【0018】
メモリ204は、モバイルデバイス200に対する一般電源がシャットダウンされたときメモリ204内に記憶された情報が失われないように、バッテリバックアップモジュール(図示せず)を有するランダムアクセスメモリ(RAM)など不揮発性電子メモリとして実施される。メモリ204の一部分は、プログラム実行のためにアドレス可能なメモリとして割り振られることが好ましく、一方、メモリ204の別の部分は、ディスクドライブ上のストレージをシミュレーションするためなど、記憶のために使用されることが好ましい。
【0019】
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含む。動作中には、オペレーティングシステム212は、プロセッサ202によってメモリ204から実行されることが好ましい。好ましい一実施形態では、オペレーティングシステム212は、Microsoft Corporationより市販されているWINDOWS(登録商標) CEブランドのオペレーティングシステムである。オペレーティングシステム212は、モバイルデバイス用に設計されていることが好ましく、エクスポーズされた1組のアプリケーションプログラミングインターフェースおよびメソッドを介してアプリケーション214に使用させることができるデータベース機能を実装する。オブジェクトストア216内のオブジェクトは、少なくとも一部には、エクスポーズされたアプリケーションプログラミングインターフェースおよびメソッドに対する呼出しに応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
【0020】
通信インターフェース208は、モバイルデバイス200で情報を送受信することが可能になる多数のデバイスおよび技術を表す。このデバイスは、少し例を挙げると、有線モデムおよび無線モデム、衛星受信機、ならびに放送チューナを含む。モバイルデバイス200はまた、コンピュータに直接接続し、コンピュータとデータを交換することができる。そのような場合には、通信インターフェース208は、赤外線トランシーバ、またはシリアルもしくはパラレル通信接続とすることができ、それらはすべて、ストリーミング情報を送信することが可能である。
【0021】
入出力構成要素206は、タッチスクリーン、ボタン、ローラ、マイクロフォンなど様々な入力デバイスと、オーディオジェネレータ、振動デバイス、ディスプレイなど様々な出力デバイスとを含む。上記のデバイスは例としてのものであり、全部がモバイルデバイス200上にあるには及ばない。さらに、本発明の範囲内で、他の入出力デバイスをモバイルデバイス200に取り付ける、あるいはモバイルデバイス200と共に見出すことができる。
【0022】
図3は、本発明の諸実施形態の基本的なブロック図を提供する。図3では、話者300は、気導マイクロフォン304および代替センサ306によって検出される話声信号302(X)を生成する。代替センサの例には、ユーザの咽喉振動を測定する咽喉マイクロフォン、ユーザの(下顎骨など)顔面骨もしくは頭蓋骨上に、またはそれらに隣接して、あるいはユーザの耳内に位置し、ユーザによって生成される話声に対応する頭骨および顎の振動を検知する骨伝導センサが含まれる。気導マイクロフォン304は、可聴周波の空気波(audio air−wave)を電気信号に変換するために一般に使用されるタイプのマイクロフォンである。
【0023】
気導マイクロフォン304はまた、1つまたは複数の雑音源310によって生成される周囲雑音(ambient noise)308(U)と、背景話者314によって生成される背景話声(background speech)312(V)とを受け取る。代替センサのタイプと背景話声のレベルに応じて、背景話声312をも代替センサ306によって検出することができる。しかし、本発明の諸実施形態によれば、代替センサ306は一般に、気導マイクロフォン304より周囲雑音および背景話声に対して感度が低い。したがって、代替センサ306によって生成された代替センサ信号316(B)は、気導マイクロフォン304によって生成された気導マイクロフォン信号318(Y)より少ない雑音を含む。代替センサ306は、周囲雑音に対して感度が低いが、何らかのセンサ雑音320(W)を生成する。
【0024】
話者300から代替センサ信号316への経路は、チャネル応答Hを有するチャネルとしてモデル化することができる。背景話者314から代替センサ信号316への経路は、チャネル応答Gを有するチャネルとしてモデル化することができる。
【0025】
代替センサ信号316(B)と気導マイクロフォン信号318(Y)は、雑音のない信号推定器322に送られ、雑音のない信号推定器322は、雑音のない信号324を推定し、いくつかの実施形態では、背景話声信号326を推定する。雑音のない信号推定値324は、音声処理328に送られる。雑音のない信号推定値324は、フィルタされた時間領域信号またはフーリエ変換ベクトルとすることができる。雑音のない信号推定値324が時間領域信号である場合、音声処理328は、聞き手、音声符号化システム、または音声認識システムの形態をとることができる。雑音のない信号推定値324がフーリエ変換ベクトルである場合、音声処理328は、典型的には音声認識システムとなり、フーリエ変換ベクトルを波形に変換するために逆フーリエ変換を含む。
【0026】
直接フィルタリング強調322内で、代替センサ信号316とマイクロフォン信号318は、雑音のない話声を推定するために使用される周波数領域に変換される。図4に示されているように、代替センサ信号316と気導マイクロフォン信号318は、一連のデジタル値を生成するために、それぞれアナログ−デジタル変換器404および414に送られ、一連のデジタル値は、それぞれフレームコンストラクタ406および416によって、値のフレームの形にグループ化される。一実施形態では、アナログ−デジタル変換器404および414は、アナログ信号を1サンプル当たり16kHz、16ビットでサンプリングし、それによって、1秒当たり話声データ32キロバイトを生み出し、フレームコンストラクタ406および416は、20ミリ秒相当のデータを含む新しいそれぞれのフレームを10ミリ秒ごとに生み出す。
【0027】
フレームコンストラクタ406および416によって提供されたデータの各それぞれのフレームは、それぞれ高速フーリエ変換(FFT)408および418を使用して、周波数領域に変換される。
【0028】
代替センサ信号および気導マイクロフォン信号についての周波数領域値は、雑音のない信号推定器420に送られ、雑音のない信号推定器420は、この周波数領域値を使用し、雑音のない話声信号324を、またいくつかの実施形態では背景話声信号326を推定する。
【0029】
いくつかの実施形態によれば、雑音のない話声信号324と背景話声信号326は、逆高速フーリエ変換422および424を使用して、時間領域に変換される。これにより、雑音のない話声信号324と背景話声信号326の時間領域バージョンが生み出される。
【0030】
本発明は、雑音のない話声信号324を推定するための直接フィルタリング技法を提供する。直接フィルタリングによれば、代替センサ306についてのチャネル応答の最尤推定値が、関数をチャネル応答に対して最小化することによって決定される。次いで、これらの推定値は、関数を雑音のない話声信号に対して最小化することによって、雑音のない話声信号の最尤推定値を決定するために使用される。
【0031】
本発明の一実施形態によれば、代替センサによって検出される背景話声に対応するチャネル応答Gは、ゼロであると考えられ、背景話声と周囲雑音が組み合わされ、単一の雑音項を形成する。これは、
y(t)=x(t)+z(t) 式1
b(t)=h(t)・x(t)+w(t) 式2
という雑音のない話声信号と、気導マイクロフォン信号および代替センサ信号との間のモデルとなり、上式で、y(t)は気導マイクロフォン信号であり、b(t)は代替センサ信号であり、x(t)は雑音のない話声信号であり、z(t)は背景話声と周囲雑音を含む組合せ雑音信号であり、w(t)は代替センサ雑音であり、h(t)は、代替センサに関連する雑音のない話声信号に対するチャネル応答である。したがって、式2では、代替センサ信号は、雑音のない話声信号のフィルタされたバージョンとしてモデル化され、フィルタは、h(t)のインパルス応答を有する。
【0032】
周波数領域では、式1および式2は、
(k)=X(k)+Z(k) 式3
(k)=H(k)X(k)+W(k) 式4
として表すことができ、上式で、Y(k)は、時間tを中心とする信号のフレームのk番目の周波数成分を表す。この表記法は、X(k)、Z(k)、H(k)、W(k)、B(k)にも適用される。以下の考察では、見やすくするために、周波数成分kに対する参照が省略される。しかし、以下で実施される計算は周波数成分ごとに実施されることを、当業者なら理解するであろう。
【0033】
この実施形態によれば、雑音ZおよびWの実数部および虚数部は、
【0034】
【数1】

【0035】
【数2】

【0036】
のような独立ゼロ平均ガウス分布としてモデル化され、上式で、
【0037】
【数3】

【0038】
は、雑音Zについての分散であり、
【0039】
【数4】

【0040】
は、雑音Wについての分散である。
【0041】
もまた、
【0042】
【数5】

【0043】
のようなガウス分布としてモデル化され、上式で、Hはチャネル応答の平均であり、
【0044】
【数6】

【0045】
は、チャネル応答の分散である。
【0046】
これらのモデルパラメータが与えられると、雑音のない話声値X、およびチャネル応答値Hの確率は、条件付き確率、すなわち
【0047】
【数7】

【0048】
によって説明され、上式は、
【0049】
【数8】

【0050】
に比例し、上式は、
【0051】
【数9】

【0052】
に等しい。
【0053】
一実施形態では、チャネル応答についての従来の(prior)確率
【0054】
【数10】

【0055】
および、雑音のない話声信号についての従来の確率、p(X)は無視され、残りの確率がガウス分布として処理される。これらの簡約を使用して、式10は、
【0056】
【数11】

【0057】
になる。
【0058】
したがって、発話についてのH、Xの最尤推定値は、その発話内の時間フレームTすべてにわたって式11の指数項を最小化することによって決定される。したがって、最尤推定値は、
【0059】
【数12】

【0060】
を最小化することによって与えられる。
【0061】
式12は、2つの変数X、Hに関して最小化されつつあるため、各変数に関する偏微分を取り、その関数を最小化するその変数の値を決定することができる。具体的には、
【0062】
【数13】

【0063】
により、
【0064】
【数14】

【0065】
が得られ、上式で、
【0066】
【数15】

【0067】
は、Hの複素共役を表し、|H|は、複素値Hの大きさを表す。Xのこの値を式12に代入し、偏微分
【0068】
【数16】

【0069】
を設定し、次いで、Hは時間フレームTすべてにわたって一定であると仮定すると、
【0070】
【数17】

【0071】
というHの解が得られる。
【0072】
式14では、Hの推定は、
【0073】
【数18】

【0074】
の形態で、最後のTフレーム全体にわたっていくつかの総和を計算することを必要とする。ただし、上式でs
【0075】
【数19】

【0076】
または
【0077】
【数20】

【0078】
である。
【0079】
この式の場合、最初のフレーム(t=1)は、最後のフレーム(t=T)と同じくらい重要である。しかし、他の実施形態では、古いフレームより最新のフレームの方がHの推定に、より多く貢献することが好ましい。これを達成するための1つの技法は、「指数エージング(exponential aging)」であり、式15の総和は、
【0080】
【数21】

【0081】
で置き換えられる。ただし、上式ではc≦1である。c=1の場合には、式16は式15と等しい。c<1の場合には、最後のフレームが1だけ加重され、最後の直前のフレームがcだけ加重され(すなわち、最後のフレームより貢献が少なくなる)、最初のフレームは、cT−1だけ加重される(すなわち、最後のフレームより著しく貢献が少なくなる)。一例を挙げてみる。c=0.99、T=100とすると、最初のフレームに対する重みは、0.9999=0.37だけになる。
【0082】
一実施形態によれば、式16は、
S(T)=cS’(T−1)+s 式17
として帰納的に推定される。
【0083】
式17は、自動的に古いデータの加重を少なくするため、固定されたウィンドウ長を使用することが必要とされず、最後のTフレームのデータをメモリに記憶することが必要とされない。その代わりに、先のフレーム部でのS(T−1)についての値だけ記憶することが必要とされる。
【0084】
式17を使用して、式14は、
【0085】
【数22】

【0086】
となる。ただし、
【0087】
【数23】

【0088】
式19および式20におけるcの値は、J(T)およびK(T)の現在の値を計算するために使用される過去のフレームの数について有効長を提供する。具体的には、この有効長は、
【0089】
【数24】

【0090】
によって得られる。
【0091】
漸近有効長は、
【0092】
【数25】

【0093】
または、等価的には、
【0094】
【数26】

【0095】
によって得られる。
【0096】
したがって、式23を使用して、式18における様々な有効長を達成するためにcを設定することができる。たとえば、200フレームの有効長を達成するために、
【0097】
【数27】

【0098】
としてcが設定される。
【0099】
式14を使用してHが推定された後で、式13のすべてのHの代わりにそれを使用し、各時間フレームtでXの別個の値を決定することができる。別法として、式18を使用し、各時間フレームtでHを推定することができる。次いで、各フレームのHの値は、Xを決定するために式13で使用される。
【0100】
図5は、式13および式14を使用し、発話について雑音のない話声値を推定する本発明の方法の流れ図を提供する。
【0101】
ステップ500で、気導マイクロフォン信号および代替センサ信号のフレームの周波数成分が、発話全体にわたって取り込まれる。
【0102】
ステップ502で、気導マイクロフォン雑音についての分散
【0103】
【数28】

【0104】
および、代替センサ雑音についての分散
【0105】
【数29】

【0106】
が、それぞれ、話者が話をしていない間に、発話の所期に取り込まれる気導マイクロフォン信号と代替センサ信号のフレームから決定される。
【0107】
この方法は、代替センサ信号の低エネルギー部分を識別することによって、いつ話者が話をしていないか判定する。というのは、代替センサ雑音のエネルギーは、代替センサ信号によって取り込まれる話声信号よりはるかに小さいからである。他の諸実施形態では、既知の話声検出技法を気導話声信号に適用し、話者がいつ話をしているか識別することができる。話者が話をしていると考えられない間、Xはゼロであると仮定され、気導マイクロフォンまたは代替センサからのどの信号も雑音であると考えられる。これらの雑音値のサンプルが非話声のフレームから収集され、気導信号および代替センサ信号内の雑音の分散を推定するために使用される。
【0108】
ステップ504で、発話のフレームすべてにわたる代替センサ信号および気導マイクロフォン信号についての値を使用し、上記の式14を使用してHの値を決定する。ステップ506で、Hのこの値を、各時間フレームでの気導マイクロフォン信号および代替センサ信号の個々の値と共に使用し、上記の式13を使用して、各時間フレームについて強調された、または雑音低減された話声値を決定する。
【0109】
他の諸実施形態では、式14を使用してHの単一の値を決定するために発話のフレームすべてを使用するのではなく、式18を使用して、各フレームについてHが決定される。次いで、Hの値を使用し、上記の式13を使用して、そのフレームについてXを計算する。
【0110】
本発明の第2の実施形態では、背景話声に対する代替センサのチャネル応答が非ゼロであると考えられる。この実施形態では、気導マイクロフォン信号と代替センサ信号は、
(k)=X(k)+V(k)+U(k) 式25
(k)=H(k)X(k)+G(k)V(k)+W(k) 式26
としてモデル化され、上式で、雑音Z(k)は、背景話声V(k)と周囲雑音U(k)に分離されており、背景話声に対する代替センサチャネル応答は、G(k)の非ゼロ値である。
【0111】
この実施形態によれば、雑音のない話声Xの従来の知識は、引き続き無視される。このように仮定して、雑音のない話声Xについての最尤度は、目的関数、すなわち
【0112】
【数30】

【0113】
を最小化することによって見出すことができる。
【0114】
これは、
【0115】
【数31】

【0116】
という雑音のない話声についての式となる。
【0117】
式28を解くために、分散
【0118】
【数32】

【0119】
および
【0120】
【数33】

【0121】
ならびにチャネル応答値HおよびGが既知でなければならない。図6は、これらの値を識別するための、また、各フレームについて、強調された話声値を決定するための流れ図を提供する。
【0122】
ステップ600で、ユーザが話をしておらず、背景話声のない発話のフレームが識別される。次いで、これらのフレームを使用し、代替センサと気導マイクロフォンについて、それぞれ分散
【0123】
【数34】

【0124】
および
【0125】
【数35】

【0126】
を決定する。
【0127】
ユーザが話をしていないフレームを識別するために、代替センサ信号を調べることができる。代替センサ信号は、背景話声について、雑音についてよりはるかに小さい信号値を生成することになるため、代替センサ信号のエネルギーが低い場合、話者が話をしていないと仮定することができる。代替信号に基づいて識別されたフレーム内で、話声検出アルゴリズムを気導マイクロフォン信号に適用することができる。この話声検出システムは、ユーザが話をしていないとき気導マイクロフォン信号内に背景話声があるかどうか検出することになる。そのような話声検出アルゴリズムは当技術分野で周知であり、ピッチ追跡システムなど諸システムを含む。
【0128】
気導マイクロフォンおよび代替センサに関連する雑音についての分散が決定された後で、図6の方法はステップ602で続行し、ユーザは話をしていないが背景話声が存在するフレームを識別する。これらのフレームは、上述した同じ技法を使用して、しかしユーザが話をしていないとき背景話声を含むフレームを選択して識別される。ユーザが話をしていないとき背景話声を含むフレームの場合、背景話声が周囲雑音よりはるかに大きいと仮定される。したがって、それらのフレーム中の気導マイクロフォン信号におけるどの分散も、背景話声からのものであると考えられる。その結果、分散
【0129】
【数36】

【0130】
は、ユーザは話をしていないが背景話声が存在するフレーム中の気導マイクロフォン信号の値から、直接設定することができる。
【0131】
ステップ604で、識別された、ユーザは話をしていないが背景話声が存在するフレームを使用し、背景話声について代替センサのチャネル応答Gを推定する。具体的には、Gは、
【0132】
【数37】

【0133】
として決定される。
【0134】
上式で、Dは、ユーザは話をしていないが背景話声が存在するフレームの数である。式29では、Gは、発話のフレームすべてにわたって一定のままであり、したがって、もはや時間フレームtに依存しないと仮定される。
【0135】
ステップ606で、背景話声に対する代替センサのチャネル応答Gの値を使用し、雑音のない話声信号に対する代替センサのチャネル応答を決定する。具体的には、Hは、
【0136】
【数38】

【0137】
として計算される。
【0138】
式30では、T全体にわたる総和を、式15〜24に関連して上記で論じた帰納的指数減衰計算(recursive exponential decay calculation)と置き換えることができる。
【0139】
ステップ606でHが決定された後で、式28を使用し、フレームすべてについて雑音のない話声値を決定することができる。式28を使用する際に、HおよびGが、それぞれ時間非依存性の値HおよびGと置き換えられる。さらに、いくつかの実施形態によれば、式28における項B−GYは、
【0140】
【数39】

【0141】
と置き換えられる。というのは、背景話声と、代替センサ内へのその漏れとの位相差を正確に決定することは困難であることが判明しているからである。
【0142】
式30における総和の代わりに帰納的指数減衰計算が使用される場合、各時間フレームについてHの別々の値を決定することができ、式28においてHとして使用することができる。
【0143】
上記の実施形態のさらなる延長では、各時間フレームで背景話声信号の推定値を提供することが可能である。具体的には、雑音のない話声値が決定された後で、各フレームでの背景話声値を、
【0144】
【数40】

【0145】
として決定することができる。
【0146】
この任意選択のステップは、図6ではステップ610として示されている。
【0147】
上記の諸実施形態では、雑音のない話声信号に対する代替センサのチャネル応答の従来の知識は無視されている。他の実施形態では、この従来の知識が提供されている場合には、それを使用し、各時間フレームでのチャネル応答の推定値Hを生成する、また、雑音のない話声値Xを決定することができる。
【0148】
この実施形態では、この場合も、背景話声雑音に対するチャネル応答がゼロと仮定される。したがって、気導信号および代替センサ信号のモデルは、上記の式3および式4に示されているモデルと同じである。各時間フレームで雑音のない話声値およびチャネル応答Hを推定するための式は、目的関数、すなわち
【0149】
【数41】

【0150】
を最小化することによって決定される。この目的関数は、XおよびHに関して、これら2つの変数に対して別々に偏微分を取り、その結果をゼロに設定することによって最小化される。これにより、XおよびHについて以下の式、すなわち
【0151】
【数42】

【0152】
が得られる。ただし、上式でHおよび
【0153】
【数43】

【0154】
は、それぞれ、雑音のない話声信号に対する代替センサのチャネル応答のための従来のモデルの平均および分散である。Xについての式はHを含み、Hについての式はXを含むため、式33および式34は、反復する形で解かなければならない。式7は、そのような反復を行うための流れ図を提供する。
【0155】
図7のステップ700では、チャネル応答用の従来のモデルのためのパラメータが決定される。ステップ702で、Xの推定値が決定される。この推定値は、チャネル応答の従来のモデルが無視された、上述の以前の実施形態のいずれかを使用して決定することができる。ステップ704で、従来のモデルのパラメータと、Xの初期推定値とを使用し、式34を使用してHを決定する。次いで、ステップ706で、Hを使用し、式33を使用して雑音のない話声値を更新する。ステップ708で、プロセスは、より多くの反復が望ましいかどうか決定する。より多くの反復が望ましい場合、プロセスはステップ704に戻り、ステップ706で決定された、更新済みのXの値を使用して、Hの値を更新する。ステップ704とステップ706は、ステップ708で、それ以上反復が望まれなくなるまで繰り返され、この時点で、プロセスは、ステップ710で終了する。
【0156】
本発明について、特定の実施形態を参照しながら述べたが、本発明の要旨および範囲から逸脱することなしに形態および詳細に変更を加えることができることを、当業者なら理解するであろう。
【図面の簡単な説明】
【0157】
【図1】本発明を実施することができるコンピューティング環境の1つのブロック図である。
【図2】本発明を実施することができる代替のコンピューティング環境のブロック図である。
【図3】本発明の全体的な音声処理システムのブロック図である。
【図4】本発明の一実施形態による、話声を強調するためのシステムのブロック図である。
【図5】本発明の一実施形態による、話声を強調するための流れ図である。
【図6】本発明の他の実施形態による、話声を強調するための流れ図である。
【図7】本発明の他の実施形態による、話声を強調するための流れ図である。
【符号の説明】
【0158】
300 話者
304 気導マイクロフォン
306 代替センサ
310 周囲雑音U
314 背景話者
320 センサ雑音W
322 直接フィルタリング強調
328 音声処理

【特許請求の範囲】
【請求項1】
雑音が低減された話声信号の一部分を表す雑音低減値についての推定値を決定する方法であって、
気導マイクロフォン以外の代替センサを使用して、代替センサ信号を生成するステップと、
気導マイクロフォン信号を生成するステップと、
前記代替センサ信号と前記気導マイクロフォン信号を使用し、前記代替センサ信号のチャネル応答についての値を推定するステップと、
前記チャネル応答を使用し、前記雑音低減値を推定するステップとを含むことを特徴とする方法。
【請求項2】
チャネル応答についての値を推定するステップは、目的関数の末端を見つけるステップを含むことを特徴とする請求項1に記載の方法。
【請求項3】
チャネル応答を推定するステップは、前記チャネル応答と重畳され、その結果が雑音項と合計された、雑音のない話声信号として前記代替センサ信号をモデル化するステップを含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記チャネル応答は、雑音のない話声信号に対するチャネル応答を含むことを特徴とする請求項1に記載の方法。
【請求項5】
背景話声信号に対する代替センサのチャネル応答を決定するステップをさらに含むことを特徴とする請求項4に記載の方法。
【請求項6】
前記チャネル応答を使用し、前記雑音低減値を推定するステップは、前記雑音のない話声信号に対する前記チャネル応答と、前記背景話声信号に対する前記チャネル応答とを使用し、前記雑音低減値を推定するステップを含むことを特徴とする請求項5に記載の方法。
【請求項7】
前記雑音低減値の前記推定値を使用し、背景話声信号についての値を推定するステップをさらに含むことを特徴とする請求項1に記載の方法。
【請求項8】
チャネル応答についての値を推定するステップは、前記代替センサ信号および前記気導マイクロフォン信号の一連のフレームを使用し、前記一連のフレーム内の前記フレームについて単一のチャネル応答値を推定するステップを含むことを特徴とする請求項1に記載の方法。
【請求項9】
前記チャネル応答を使用し、雑音低減値を推定するステップは、前記一連のフレーム内の各フレームについて別々の雑音低減値を推定するステップを含むことを特徴とする請求項8に記載の方法。
【請求項10】
チャネル応答についての値を推定するステップは、現在のフレーム内の前記代替センサ信号および前記気導マイクロフォン信号についての値を、先のフレーム内の前記代替センサ信号および前記気導マイクロフォン信号についての値より重く加重することによって、前記現在のフレームについての前記値を推定するステップを含むことを特徴とする請求項1に記載の方法。
【請求項11】
代替センサ信号と気導マイクロフォン信号を使用して、代替センサについてのチャネル応答を決定するステップと、
前記チャネル応答を使用し、前記代替センサ信号の少なくとも一部分を使用して雑音のない話声値を推定するステップと
を含むステップを実施するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
【請求項12】
チャネル応答を決定するステップは、前記代替センサ信号および前記気導マイクロフォン信号の一連のフレームについて単一のチャネル応答を決定するステップを含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
【請求項13】
前記チャネル応答は、雑音のない話声信号に対するチャネル応答を含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
【請求項14】
背景話声信号に対するチャネル応答を決定するステップをさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
【請求項15】
前記雑音のない話声信号に対する前記チャネル応答と共に前記背景話声信号に対する前記チャネル応答を使用し、前記雑音のない話声値を推定するステップをさらに含むことを特徴とする請求項14に記載のコンピュータ可読媒体。
【請求項16】
前記雑音のない話声値を使用し、背景話声値を推定するステップをさらに含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
【請求項17】
雑音のない話声信号を識別する方法であって、
代替センサ信号内の雑音を説明する雑音パラメータを推定するステップと、
前記雑音パラメータを使用し、代替センサについてチャネル応答を推定するステップと、
前記チャネル応答を使用し、前記雑音のない話声信号についての値を推定するステップとを含むことを特徴とする方法。
【請求項18】
雑音パラメータを推定するステップは、前記代替センサ信号を使用し、ユーザが話をしていない期間を識別するステップを含むことを特徴とする請求項17に記載の方法。
【請求項19】
前記ユーザが話をしていない前記期間に関連する気導マイクロフォン信号の一部分に対して話声検出を実施し、非話声期間および背景話声期間を識別するステップをさらに含むことを特徴とする請求項18に記載の方法。
【請求項20】
前記非話声期間に関連する前記代替センサ信号の一部分を使用し、前記雑音パラメータを推定するステップをさらに含むことを特徴とする請求項19に記載の方法。
【請求項21】
前記非話声期間を使用し、前記気導マイクロフォン信号内の雑音を説明する雑音パラメータを推定するステップをさらに含むことを特徴とする請求項20に記載の方法。
【請求項22】
前記背景話声期間に関連する前記代替センサ信号の前記一部分を使用し、背景話声に対するチャネル応答を推定するステップをさらに含むことを特徴とする請求項20に記載の方法。
【請求項23】
背景話声に対する前記チャネル応答を使用し、雑音のない話声を推定するステップをさらに含むことを特徴とする請求項22に記載の方法。
【請求項24】
背景話声値の推定値を決定するステップをさらに含むことを特徴とする請求項17に記載の方法。
【請求項25】
背景話声値の推定値を決定するステップは、前記雑音のない話声値の前記推定値を使用し、前記背景話声値を推定するステップを含むことを特徴とする請求項24に記載の方法。
【請求項26】
前記チャネル応答の従来のモデルを使用し、前記雑音のない話声値を推定するステップをさらに含むことを特徴とする請求項17に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2006−87082(P2006−87082A)
【公開日】平成18年3月30日(2006.3.30)
【国際特許分類】
【出願番号】特願2005−231246(P2005−231246)
【出願日】平成17年8月9日(2005.8.9)
【出願人】(500046438)マイクロソフト コーポレーション (3,165)
【Fターム(参考)】