説明

オーディオ信号の分解および修正のためのシステムおよび方法

【課題】オーディオ入力信号の修正のためのシステムおよび方法が提供される。
【解決手段】例示的な実施形態では、適応的複数モデル最適化器が、分解された信号の修正を容易にするために少なくとも一つの源モデル・パラメータを生成するよう構成される。前記適応的複数モデル最適化器は、セグメント・グループ化エンジンおよび源グループ化エンジンを有する。前記セグメント・グループ化エンジンは、同時の諸特徴セグメントをグループ化して、少なくとも一つのセグメント・モデルを生成するよう構成される。前記少なくとも一つのセグメント・モデルは、少なくとも一つの源モデルを生成するために源グループ化エンジンによって使用される。前記少なくとも一つの源モデルは、前記少なくとも一つの源モデル・パラメータを有する。次いで、前記少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の修正のための制御信号が生成されうる。

【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本出願は、2005年5月27日に出願された“Sound Analysis and Modification Using Hierarchical Adaptive Multiple-Module Optimizer”という名称の米国仮出願第60/685,750号の優先権の恩恵を主張するものである。該文献はここに参照によって組み込まれる。
【0002】
発明の分野
本発明の実施形態は、オーディオ処理に、より詳細にはオーディオ信号の分解および修正に関する。
【背景技術】
【0003】
典型的には、一つまたは一組のマイクロホンは音の混合を検出する。適正な再生、伝送、編集、分解または音声認識のためには、構成音を互いから単離することが望ましい。オーディオ信号をそれらのオーディオ源に基づいて分離することによって、たとえばノイズを軽減でき、複数話者環境における声を単離でき、音声認識において単語精度を向上させられる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
不都合なことに、音を単離するための既存の技法は、オーディオ信号を発生する複数のオーディオ源の存在またはノイズや干渉の存在といった複雑な状況に対処するのは不十分である。これは、高い単語誤り率に、あるいは現行技術によって得られる発話向上の度合いに対する制限につながりうる。
【0005】
したがって、オーディオの分解および修正のためのシステムおよび方法が必要とされている。さらに、複数のオーディオ源を含むオーディオ信号を扱うためのシステムおよび方法が必要とされている。
【課題を解決するための手段】
【0006】
本発明の諸実施形態は、オーディオ入力信号の修正のためのシステムおよび方法を提供する。例示的な実施形態では、適応的複数モデル最適化器が、分解された信号の修正を容易にするために少なくとも一つの源モデル・パラメータを生成するよう構成される。前記適応的複数モデル最適化器は、セグメント・グループ化エンジンおよび源グループ化エンジンを有する。
【0007】
前記セグメント・グループ化エンジンは、同時の諸特徴セグメントをグループ化して、少なくとも一つのセグメント・モデルを生成するよう構成される。ある実施形態では、前記セグメント・グループ化エンジンは、特徴抽出器から特徴セグメントを受け取る。これらの特徴セグメントは、トーン、過渡音およびノイズ特徴セグメントを表しうる。特徴セグメントは、その特徴についての前記少なくとも一つのセグメント・モデルを生成するために、それらのそれぞれの特徴に基づいてグループ化される。
前記少なくとも一つのセグメント・モデルは、次いで、少なくとも一つの源モデルを生成するために源グループ化エンジンによって使用される。前記少なくとも一つの源モデルは、前記少なくとも一つの源モデル・パラメータを有する。次いで、前記少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の修正のための制御信号が生成されうる。
【図面の簡単な説明】
【0008】
【図1】本発明の実施形態を用いるオーディオ処理エンジンの例示的なブロック図である。
【図2】セグメント分離器の例示的なブロック図である。
【図3】適応的複数モデル最適化器の例示的なブロック図である。
【図4】オーディオの分解および修正のための例示的な方法のフローチャートである。
【図5】モデルあてはめのための例示的な方法のフローチャートである。
【図6】最良あてはめを決定するための例示的な方法のフローチャートである。
【発明を実施するための形態】
【0009】
本発明の諸実施形態は、オーディオ信号の分解(analysis)および修正のためのシステムおよび方法を提供する。例示的な諸実施形態では、所望の音を向上させるためおよび/またはノイズを抑制もしくは解消するために、オーディオ信号が分解され、相異なるオーディオ源からの別個の音が一緒にグループ化される。いくつかの例では、このオーディオ的分解は、単語精度を改善するための音声認識のためのフロントエンドとして、主観的な品質を改善するための発話向上のために、あるいは音楽転写に使用されることができる。
【0010】
図1を参照すると、本発明の実施形態が実施されうる例示的なシステム100が示されている。システム100はいかなるデバイスでもよく、これに限られないが、携帯電話、補聴器、スピーカーホン、電話、コンピュータまたはオーディオ信号を処理できる他のいかなるデバイスでもよい。システム100は、これらのデバイスのいずれかのオーディオ経路を表していてもよい。
【0011】
システム100はオーディオ処理エンジン102を有する。該オーディオ処理エンジン102は、オーディオ入力104を通じてオーディオ入力信号を受け取って処理する。オーディオ入力信号は、一つまたは複数のオーディオ入力デバイス(図示せず)から受け取られてよい。ある実施形態では、オーディオ入力デバイスは、アナログ‐デジタル(A/D)コンバーターに結合された一つまたは複数のマイクロホンであってもよい。マイクロホンはアナログのオーディオ入力信号を受け取るよう構成され、一方、A/Dコンバーターはアナログのオーディオ入力信号をサンプリングして、該アナログ・オーディオ入力信号をさらなる処理に好適なデジタル・オーディオ入力信号に変換する。代替的な諸実施形態では、オーディオ入力デバイスは、デジタル・オーディオ入力信号を受け取るよう構成される。たとえば、オーディオ入力デバイスは、ハードディスクまたは他の形のメディアに記憶されたオーディオ入力信号データを読むことができるディスク・デバイスであってもよい。さらなる諸実施形態は、他の形のオーディオ入力信号検知/取り込みデバイスを利用してもよい。
【0012】
例示的なオーディオ処理エンジン102は、分解モジュール106、特徴抽出器108、適応的複数モデル最適化器(AMMO: adaptive multiple-model optimizer)110、関心選択器112、調節器114および時間領域変換モジュール116を有する。本発明の諸実施形態に基づくオーディオ入力信号の分解および修正に関係しないさらなる構成要素が、オーディオ処理エンジン102内に設けられていてもよい。さらに、オーディオ処理エンジン102は、オーディオ処理エンジン102の各構成要素から次の構成要素へのデータの論理的な進行を記述しているものの、代替的な諸実施形態は、オーディオ処理エンジン102の、一つまたは複数のバスまたはその他の構成要素を介して結合されたさまざまな構成要素を有していてもよい。ある実施形態では、オーディオ処理エンジン102は、一般的なプロセッサによる作用を受けるデバイス上に記憶されているソフトウェアを有する。
【0013】
分解モジュール106は、受け取ったオーディオ入力信号を、複数の周波数領域サブバンド信号(すなわち、時間周波数データまたはスペクトル‐時間分解されたデータ)に分ける。例示的な諸実施形態では、各サブバンドまたは分解された信号は、周波数成分を表す。いくつかの実施形態では、分解モジュール106は、フィルタ・バンクまたは蝸牛モデルである。フィルタ・バンクは、いくつのフィルタを有していてもよく、それらのフィルタはいかなる次数でもよい(たとえば、一次、二次など)。さらに、それらのフィルタは、カスケード編成に位置されていてもよい。あるいはまた、前記分解は、他の分解方法を使って実行されてもよい。他の分解方法には、これに限られないが、短時間フーリエ変換、高速フーリエ変換、ウェーブレット、ガンマトーン・フィルタ・バンク、ガボール・フィルタおよび変調複素重複変換(modulated complex lapped transform)が含まれる。
【0014】
例示的な特徴抽出器108は、分解された信号を特徴に従って抽出または分離して特徴セグメントを生成する。これらの特徴は、トーン、過渡音およびノイズ(パッチ)特性を含みうる。分解された信号のある部分のトーンとは、特定の、通例は安定したピッチをいう。過渡音とは、分解された信号の非周期的または非反復的な部分である。ノイズまたは流転(flux)は、トーン様でも過渡音様でもない、とりとめのない信号エネルギーである。いくつかの実施例では、ノイズまたは流転は、分解された信号の所望の部分に付随する望まれない部分であるゆがみをいう。たとえば、発話における「s」の音はノイズ様である(すなわち、トーン的でも過渡音的でもない)が、望まれる声の一部である。さらなる例として、いくつかのトーン(たとえば、背景における携帯電話の着信音)はノイズ様ではないが、それでもこの流転は除去することが望ましい。
【0015】
分離された特徴セグメントはAMMO110に渡される。これらの特徴セグメントは、モデルが、その時間周波数データを最もよく記述するために適することを許容するパラメータを含む。特徴抽出器108は、のちに図2との関連でより詳細に論じる。
【0016】
AMMO110は、源モデル〔ソース・モデル〕のインスタンスを生成するよう構成される。源モデルとは、オーディオ入力信号の少なくとも一部分を生成するオーディオ源に関連するモデルである。例示的な諸実施形態では、AMMO110は、階層的な適応的複数モデル最適化器である。AMMO110は、図3との関連でより詳細に論じることになる。
【0017】
ひとたびAMMO110によって最良のあてはめを有する源モデルが決定されると、源モデルは関心選択器112に与えられる。関心選択器112は主要なオーディオ・ストリーム(単数または複数)を選択する。これらの主要なオーディオ・ストリームは、所望のオーディオ源に対応する時間変動するスペクトルの一部である。
【0018】
関心選択器112は、主要オーディオ・ストリームを向上させるよう、分解された信号を修正する調節器114を制御する。例示的な諸実施形態では、関心選択器112は、分解モジュール106からの分解された信号を修正するために、調節器114に制御信号を送る。該修正とは、分解された信号の打ち消し、抑制および充填(filling-in)を含む。
【0019】
時間領域変換モジュール116は、修正されたオーディオ信号を、オーディオ出力信号118として出力するために周波数領域から時間領域に変換するいかなる構成要素を有していてもよい。ある実施形態では、時間領域変換モジュール116は、処理された信号を再構成して再構成オーディオ信号にする再構成モジュールを有する。再構成オーディオ信号は次いで、伝送され、記憶され、編集され、転写され、あるいは個人によって聴取される。別の実施形態では、時間領域変換モジュール116は、自動的に発話を認識して音声を分析して単語を決定できる音声認識モジュールを有していてもよい。オーディオ処理エンジン102内には、いかなる型の時間領域変換モジュール116がいくつ具現されていてもよい。
【0020】
ここで図2を参照すると、特徴抽出器108がより詳細に示されている。特徴抽出器108は、分解された信号内のエネルギーを、ある種のスペクトル形(たとえば、トーン、過渡音およびノイズ)のサブユニットに分離する。これらのサブユニットは、特徴セグメントとも称される。
【0021】
例示的な諸実施形態では、特徴抽出器108は、時間周波数領域の分解された信号を取り、該分解された信号の種々の部分をスペクトル形モデルにあてはめることまたはトラッカー(trackers)によって、該分解された信号の種々の部分を種々のセグメントに割り当てる。ある実施形態では、スペクトル・ピーク・トラッカー202は、時間周波数データ(すなわち、分解された信号)のスペクトル・ピーク(エネルギー・ピーク)を位置特定する。ある代替的な実施形態では、スペクトル・トラッカー202は、時間周波数データの山および山ピークを決定する。ピーク・データは次いでスペクトル形トラッカーに入力される。
【0022】
もう一つの実施形態では、2006年5月25日に出願された、“System and Method for Processing an Audio Signal”という名称の、参照によってここに組み込まれる米国特許出願第______号に記載されているような分解フィルタ・バンク・モジュールが、時間周波数データのエネルギー・ピークまたはスペクトル・ピークを決定するために使用されてもよい。この例示的な分解フィルタ・バンク・モジュールは、複素数値のフィルタのフィルタ・カスケードを有する。あるさらなる実施形態では、分解フィルタ・バンク・モジュールは、分解モジュール106に組み込まれてもよいし、あるいは分解モジュール106を含んでいてもよい。さらなる代替的な諸実施形態では、エネルギーまたはスペクトル・ピーク・データを決定するために、他のモジュールおよびシステムが利用されてもよい。
【0023】
ある実施形態によれば、スペクトル形トラッカーは、トーン・トラッカー204、過渡音トラッカー206およびノイズ・トラッカー208を有する。代替的な諸実施形態は、他のスペクトル形トラッカーをさまざまな組み合わせで含んでいてもよい。スペクトル形トラッカーの出力は、モデルが、時間周波数データを最もよく記述するのに適することを許容する特徴セグメントである。
【0024】
トーン・トラッカー204は、時間周波数領域またはスペクトル時間領域において、振幅および周波数の面でトーンにあてはまる、いくらかの連続性を有する諸スペクトル・ピークを追跡する。トーンは、たとえば、一定であるかなめらかに変化する周波数信号を伴う一定振幅によって識別されうる。例示的な諸実施形態では、トーン・トラッカー204は、振幅、振幅傾き、振幅ピーク、周波数、周波数傾き、トーンの開始時間および終了時間ならびにトーンの顕著性といった複数の信号出力を発生させる。
【0025】
過渡音トラッカー206は、振幅および周波数の面で過渡的である何らかの連続性を有するスペクトル・ピークを追跡する。過渡的信号は、たとえば、短時間すべての周波数が励起された一定振幅によって識別されうる。例示的な諸実施形態では、過渡音トラッカー206は、これに限られないが、振幅、振幅ピーク、周波数、過渡音の開始時間および終了時間ならびに全過渡音エネルギーを含む複数の出力信号を発生させる。
【0026】
ノイズ・トラッカー208は、ある時間にわたって現れるモデル広帯域信号を追跡する。ノイズは、長い時間にわたってすべての周波数が励起された一定振幅によって識別されうる。例示的な諸実施形態では、ノイズ・トラッカー208は、スペクトル‐時間位置の関数としての振幅、時間的広がり、周波数広がりおよび全ノイズ・エネルギーといった複数の出力信号を発生させる。
【0027】
ひとたび音エネルギーがさまざまな特徴セグメント(たとえば、トーン、過渡音およびノイズ)に分離されたら、AMMO110は、音エネルギーをその成分ストリームにグループ分けし、源モデルを生成する。ここで図3を参照すると、例示的なAMMO110が、二層階層構造を有してより詳細に示されている。AMMO110は、セグメント・グループ化エンジン302および逐次グループ化エンジン304を有している。第一層はセグメント・グループ化エンジン302によって実行され、一方、第二層は逐次グループ化エンジン304によって実行される。
【0028】
セグメント・グループ化エンジン302は、新規性検出モジュール310、モデル生成モジュール312、取り込み決定モジュール314、モデル適応モジュール316、失敗検出モジュール318ならびにモデル破棄モジュール320を有している。モデル適応モジュール316、モデル生成モジュール312およびモデル破棄モジュール320はそれぞれ一つまたは複数のセグメント・モデル306に結合されている。逐次グループ化エンジン304は、新規性検出モジュール322、モデル生成モジュール324、取り込み決定モジュール326、モデル適応モジュール328、失敗検出モジュール330およびモデル破棄モジュール332を有する。モデル適応モジュール328、モデル生成モジュール324およびモデル破棄モジュール332はそれぞれ一つまたは複数のセグメント・モデル306に結合されている。
【0029】
セグメント・グループ化エンジン302は、同時の諸特徴を時間的にローカルなセグメントにグループ化する。グループ化プロセスは、はいってくる特徴の組において証拠があるさまざまな特徴セグメントについての仮設(すなわち、推定モデル)を生成し、追跡し、破棄することを含む。これらの特徴セグメントは変化し、時間とともに現れたり消えたりしうる。ある実施形態では、モデル追跡は、所与のデータ・セットを説明するために複数のモデルが競合するコンテキストにおけるカルマン様のコスト最小化戦略を使って実行される。
【0030】
例示的な諸実施形態では、セグメント・グループ化エンジン302は、特徴セグメントの同時グループ化を実行して、セグメント・モデル306のインスタンスとしてオーディオ的セグメントを生成する。これらのオーディオ的セグメントは、似通った特徴セグメントのグループ化をなす。一例では、オーディオ的セグメントは、特定のトーンによって関連付けられる諸特徴セグメントの同時グループ化を含む。別の例では、オーディオ的セグメントは、過渡音によって関連付けられる諸特徴セグメントの同時グループ化を含む。
【0031】
例示的な諸実施形態では、セグメント・グループ化エンジン302が特徴セグメントを受け取る。新規性検出モジュール310が、該特徴セグメントが以前に受け取られていない、あるいはセグメント・モデル306にあてはまらないと判定する場合、新規性検出モジュール310は、モデル生成モジュール312に、新しいセグメント・モデル306を生成するよう指令できる。いくつかの実施形態では、該新しいセグメント・モデル306が新しいセグメント・モデル306は、前記特徴セグメントと比較されてもよいし、あるいは新しい特徴セグメントと比較されてもよい。これは、(たとえば、取り込み決定モジュール314内で)適応されて該モデルを微調整する必要があるか、(たとえば、失敗検出モジュール318内で)破棄される必要があるかを判定するためである。
【0032】
取り込み決定モジュール314が、その特徴セグメントが不完全にある既存のセグメント・モデル316にあてはまると判定する場合、取り込み決定モジュール314は、モデル適応モジュール316に、既存のセグメント・モデル306を適応させるよう指令する。いくつかの実施形態では、適応されたセグメント・モデル306は、その適応されたセグメント・モデル306がさらなる適応を必要とするかどうかを判定するために、前記特徴セグメントまたは新しい特徴セグメントと比較される。ひとたび、適応されたセグメント・モデル306の最良あてはめが見出されたら、適応されたセグメント・モデル306の諸パラメータは、逐次グループ化エンジン304に伝送されうる。
【0033】
失敗検出モジュール318が、セグメント・モデル306が不十分に前記特徴セグメントにあてはまると判定する場合、失敗検出モジュール318は、モデル破棄モジュール320に、そのセグメント・モデル306を破棄するよう指令する。一例では、その特徴セグメントはあるセグメント・モデル306に比較される。残差が大きければ、失敗検出モジュール318は、そのセグメント・モデル306を破棄することを決定しうる。残差とは、セグメント・モデル306によって説明されない観測された信号エネルギーである。その後、新規性検出モジュール310は、モデル生成モジュール312に、前記特徴セグメントにもっとよくあてはまる新しいセグメント・モデル306を生成するよう指令しうる。
【0034】
その後、諸セグメント・モデル306の諸インスタンスが、逐次グループ化エンジン304に与えられる。いくつかの実施形態では、諸セグメント・モデル306の諸インスタンスは、諸セグメント・モデル306または諸オーディオ的セグメントの諸パラメータを含む。諸オーディオ的オブジェクトは、前記諸特徴セグメントから逐次的に集められる。逐次グループ化エンジン304は、源モデル308を生成するために、最も確からしい特徴セグメントの逐次グループあるいは源グループについての仮設を生成、トラックおよび破棄する。ある実施形態では、逐次グループ化エンジン304の出力(すなわち、源モデル308のインスタンス)は、セグメント・グループ化エンジン302にフィードバックしてもよい。
【0035】
オーディオ源は、音を発生させる実際のエンティティまたはプロセスを表す。たとえば、オーディオ源は、電話会議における参加者またはオーケストラにおける楽器でありうる。これらのオーディオ源は、源モデル308の複数のインスタンスによって表される。本発明の諸実施形態では、源モデル308のインスタンスは、セグメント・グループ化エンジン302から特徴セグメント(セグメント・モデル306)を逐次的に集めることによって生成される。たとえば、一人の話者からの逐次的な音素(特徴セグメント)がグループ化されて、他のオーディオ源とは別個のある声(オーディオ源)を生成してもよい。
【0036】
一例では、逐次グループ化エンジン304は諸セグメント・モデル306のパラメータを受け取る。新規性検出モジュール322が、セグメント・モデル306の該パラメータが以前に受け取られていない、あるいは源モデル308にあてはまらないと判定する場合、新規性検出モジュール322は、モデル生成モジュール324に、新しい源モデル308を生成するよう指令できる。いくつかの実施形態では、該新しい源モデル308が、(たとえば、取り込み決定モジュール326内で)適応されて該モデルを微調整する必要があるか、(たとえば、失敗検出モジュール330内で)破棄される必要があるかを判定するために、新しい源モデル308は、セグメント・モデル306の前記パラメータと比較されてもよいし、あるいはセグメント・モデル306の新しいパラメータと比較されてもよい。
【0037】
取り込み決定モジュール326が、諸セグメント・モデル306の前記パラメータが不完全にある既存の源モデル308にあてはまると判定する場合、取り込み決定モジュール326は、モデル適応モジュール328に、既存の源モデル308を適応させるよう指令する。いくつかの実施形態では、適応された源モデル308は、その適応された源モデル308がさらなる適応を必要とするかどうかを判定するために、諸セグメント・モデル306の前記パラメータまたは諸セグメント・モデル306の新しいパラメータと比較される。ひとたび、適応された源モデル308の最良あてはめが見出されたら、適応された源モデル308のパラメータは、関心選択器112(図1)に伝送されうる。
【0038】
一例では、源モデル308は、あるセグメント・モデル306の予測されるパラメータを生成するために使われる。そのセグメント・モデル306の予測されたパラメータとそのセグメント・モデル306の受け取られたパラメータとの間の分散/変化(variance)が測定される。次いで、その分散に基づいて源モデル308が設定(適応)されることができ、それにより、その後、より低い比較的分散をもってより精確な予測パラメータを生成することができる、よりよい源モデル308が形成される。
【0039】
失敗検出モジュール330が、源モデル308が不十分にセグメント・モデル306の前記パラメータにあてはまると判定する場合、失敗検出モジュール330は、前記モデル破棄モジュール332に、その源モデル308を破棄するよう指令する。一例では、諸セグメント・モデル306の前記パラメータはある源モデル308に比較される。残差とは、源モデル308によって説明されない観測された信号エネルギーである。残差が大きければ、失敗検出モジュール330は、その源モデル308を破棄することを決定しうる。その後、新規性検出モジュール322は、モデル生成モジュール324に、諸セグメント・モデル306の前記パラメータによりよくあてはまる新しい源モデル308を生成するよう指令しうる。
【0040】
一例では、源モデル308は、セグメント・モデル306の予測されるパラメータを生成するために使われる。セグメント・モデル306の予測されたパラメータとセグメント・モデル306の受け取られたパラメータとの間の分散が測定される。いくつかの実施形態では、前記分散は前記残差である。源モデル308は次いで、前記分散に基づいて破棄されうる。
【0041】
例示的な諸実施形態では、諸セグメント・モデル306のためのパラメータあてはめが確率論的な諸方法を使って達成できる。ある実施形態では、確率論的な方法は、ベイズ法である。ある実施形態では、AMMO110は、事後確率を計算し、最大化することによって、トーン観察(効果)を周期的なセグメント・パラメータ(原因)に変換する。これは著しい遅延なしにリアルタイムで起こることができる。AMMO110は、諸セグメント・モデルの組の同時事後確率に適用される最大事後(MAP: Maximum A Posteriori)基準を使った平均および分散によってモデル・パラメータを推定することに依拠しうる。
【0042】
観察Oiが与えられたときのモデルMiの確率は、ベイズの定理によって:
P(Mi|Oi)=P(Oi|Mi)×P(Mi)/P(Oi)
として与えられ、ここで、全モデルをN個として、i=1からNまでiについて和を取る。
【0043】
目的は、諸モデルの確率を最大化することである。確率のこの最大化は、コストを最小することによっても得られる。ここで、コストとは、−log(P)として定義され、Pは任意の確率である。こうして、P(Mi|Oi)の最大化は、コストc(Mi|Oi)を最小化することによって達成されうる。ここで、
c(Mi|Oi)=c(Oi|Mi)+c(Mi)−c(Oi)
である。
【0044】
事後コストは、観察コストおよび事前コストの和となる。c(Oi)は最小化プロセスには参加しないので、c(Oi)は無視してもよい。c(Oi|Mi)が観察コストと称され(たとえば、モデル・スペクトル・ピークと観察されたスペクトル・ピークとの間の差)、c(Mi)がそのモデル自身に関連付けられた事前コストと称される。観察コストc(Oi|Mi)は、スペクトル時間領域におけるピークの、所与のモデルと観察された信号との間の差を使って計算される。一例では、分類器(classifier)が、単一モデルの諸パラメータを推定する。分類器は、一組のモデル・インスタンスの諸パラメータをあてはめるために使われうる(たとえば、あるモデル・インスタンスが観察のある部分集合にあてはまる)。これをするために、諸観察を諸モデルに割り当てる割り当てが、制約条件を考慮する(たとえばコストを最小化する)ことを通じて形成できる。
【0045】
たとえば、所与の組のパラメータについてのあるモデルが、スペクトル時間領域におけるあるピークを予測する。そのピークは、観察されたピークと比較されることができる。観察されたピークと予測されたピークとの差が一つまたは複数の変数において測定できる。その一つまたは複数の変数に基づいて、前記モデルにおいて補正がなされうる。トーン・モデルについてのコスト計算において使われうる変数は、振幅、振幅傾き、振幅ピーク、周波数、周波数傾き、開始時間および終了時間ならびに積分されたトーン・エネルギーからの顕著性を含む。過渡音モデルについては、コスト計算のために使うことのできる変数は、振幅、振幅ピーク、周波数、過渡音の開始時間および終了時間ならびに全過渡音エネルギーを含む。ノイズ・モデルは、スペクトル時間位置の関数としての振幅、時間的広がり、周波数広がりおよび全ノイズ・エネルギーといった変数をコスト計算のために利用しうる。
【0046】
複数の入力デバイス(たとえば複数のマイクロホン)を含む実施形態では、マイクロホン間の類似性および相違が計算されうる。次いでこれらの類似性および相違は上記のコスト計算において使用されうる。ある実施形態では、両耳間時間差(ITD: inter-aural time difference)および両耳間レベル差(ILD: inter-aural level difference)は、“Computation of Multi-Sensor Time Delays”という名称の米国特許第6,792,118号に記載される技法を使って計算されてもよい。該文献はここに参照によって組み込まれる。あるいはまた、スペクトル領域における相互相関関数が利用されてもよい。
【0047】
ここで図4を参照すると、オーディオ分解および修正のための例示的な方法のフローチャート400が示されている。ステップ402では、オーディオ入力104(図104)が分解のために周波数領域に変換される。この変換は、分解モジュール106(図1)によって実行される。ある実施形態では、分解モジュール106はフィルタ・バンクまたは蝸牛モデルを含む。あるいはまた、前記変換は、他の分解方法を使って実行されてもよい。他の分解方法とは、短時間フーリエ変換、高速フーリエ変換、ウェーブレット、ガンマトーン・フィルタ・バンク、ガボール・フィルタおよび変調複素重複変換(modulated complex lapped transform)といったものである。
【0048】
次いで、ステップ404で、特徴抽出器によって特徴が抽出される。該特徴は、トーン、過渡音およびノイズを含みうる。これらの特徴の代わりに、あるいはそれに加えて代替的な特徴が判別されてもよい。例示的な諸実施形態では、分解された信号のスペクトル・ピークを分解することによって特徴が判別される。次いで、さまざまな特徴は、トラッカー(たとえばトーン、過渡音またはノイズ・トラッカー)によってトラックされ、抽出されることができる。
【0049】
ひとたび抽出されたら、ステップ406で、特徴は成分ストリームにグループ化されうる。ある実施形態によれば、特徴は、時間周波数データを最もよく記述するモデルにあてはめるために適応的複数モデル最適化器110(図1)に与えられる。AMMO110は二層階層構造であってもよい。たとえば、第一層は同時の諸特徴を時間的にローカルなセグメント・モデルにグループ化してもよい。次いで第二層が、逐次的な時間的にローカルなセグメント・モデルを一緒にグループ化して一つまたは複数の源モデルを形成する。この源モデルは、グループ化された音エネルギーの成分ストリームを含む。
【0050】
ステップ408では、ある所望のオーディオ源に対応する(主要な)諸成分ストリームが選択される。ある実施形態では、関心選択器112は、分解モジュール106からの(時間変動するスペクトルにおける)分解された信号を選択および修正する(ステップ410)よう、調節器114に制御信号を送る。ひとたび修正されたら、信号(すなわち、修正されたスペクトル)は、ステップ412で、時間領域に変換される。ある実施形態では、前記変換は、修正された信号を再構成して再構成オーディオ信号にする再構成モジュールによって実行される。代替的な実施形態では、前記変換は、音声を分解して単語を判別する音声認識モジュールによって実行される。代替的な諸実施形態では、時間領域変換の他の形を利用してもよい。
【0051】
ここで図5を参照すると、(ステップ606における)モデルあてはめ〔モデル・フィッティング〕のための例示的な方法のフローチャート500が与えられている。ステップ502では、入力された諸観察へのモデルの最良あてはめ〔ベスト・フィット〕を見出すために、諸観察および諸源モデルが使用される。あてはめは、観察とモデル予測との間のコストを減らすための標準的な勾配法によって達成される。ステップ504では、残差が見出される。残差とは、最良あてはめモデルの予測によって説明されない、観察された信号エネルギーである。ステップ506では、AMMO110(図1)が、追加的なモデルがアクティブにされるべきかどうか、あるいは現行のモデルのいずれかが消去されるべきかどうかを判定するために、残差および観察を使う。たとえば、トーン・モデルの追加によって説明できる著しい残差エネルギーがあれば、トーン・モデルがモデル・リストに追加される。また、トーン・モデルの追加に関して追加的な情報が観察から導かれる。たとえば、ハーモニクスは異なるトーン・モデルによって説明されることもありうるが、異なる基本周波数をもつ新しいトーン・モデルによるほうがよりよく説明されることもありうる。ステップ508では、元の入力オーディオ信号からの諸セグメントを識別するために最良あてはめモデルが使用される。
【0052】
ここで図6を参照すると、最良あてはめを見出すための方法が示されている。ステップ602では、モデルおよび事前モデル情報を使って事前コストが計算される。ステップ604では、モデルおよび観察情報を使って観察コストが計算される。ステップ606では、事前コストと観察コストが組み合わされる。ステップ608では、コストを最小化するようモデル・パラメータが調節される。ステップ610では、コストが最小化されているかどうかを判定するために、コストが分解される。コストが最小化されていなかった場合、ステップ602で、新たなコスト情報を用いて再び事前コストが計算される。コストが最小化されている場合には、最良あてはめパラメータをもつモデルがステップ612で利用可能にされる。
【0053】
本発明の実施形態について例示的な実施形態を参照しつつ述べてきた。当業者には、本発明の広義の範囲から外れることなく、さまざまな修正がなされてもよく、他の実施形態を使うこともできることが明らかであろう。したがって、例示的な実施形態についてのこれらの変形およびその他の変形は、本発明によってカバーされることが意図されている。
【0054】
いくつかの態様を記載しておく。
〔態様1〕
オーディオ入力信号の修正のための方法であって:
少なくとも一つの観察されたセグメント・モデル・パラメータを少なくとも一つの予測されたセグメント・モデル・パラメータと比較する段階と;
前記比較に基づいて源モデルを構成する段階と;
前記構成された源モデルに基づいて、分解された信号の修正を容易にする少なくとも一つの源モデル・パラメータを生成する段階とを有する方法。
〔態様2〕
前記源モデルが最良あてはめ源モデルであるかどうかを判定する段階をさらに有する、態様1記載の方法。
〔態様3〕
前記判定がコスト解析に基づいている、態様2記載の方法。
〔態様4〕
源モデルを構成する段階が、該源モデルを生成することを含む、態様1記載の方法。
〔態様5〕
源モデルを構成する段階が、該源モデルが最良あてはめ源モデルでない場合、該源モデルを調整することを含む、態様1記載の方法。
〔態様6〕
前記少なくとも一つの観察されたセグメント・モデル・パラメータを、構成されたセグメント・モデルに基づいて生成する段階をさらに有する、態様1記載の方法。
〔態様7〕
観察された特徴セグメントを予測された特徴セグメントと比較する段階をさらに有しており、前記構成されたセグメント・モデルが前記比較に基づく、態様6記載の方法。
〔態様8〕
前記観察された特徴セグメントを、スペクトル形トラッカーを利用して生成する段階をさらに有する、態様7記載の方法。
〔態様9〕
前記分解された信号を、前記オーディオ入力信号を周波数領域に変換することによって生成する段階をさらに有する、態様1記載の方法。
〔態様10〕
前記少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の前記修正を制御する少なくとも一つの制御信号を生成する段階をさらに有する、態様1記載の方法。
〔態様11〕
オーディオ入力信号の修正のためのシステムであって:
分解された信号の修正を容易にするために少なくとも一つの源モデル・パラメータを生成するよう構成された適応的複数モデル最適化器を有しており、該適応的複数モデル最適化器はさらに、
同時の諸特徴セグメントをグループ化して、少なくとも一つのセグメント・モデルを生成するよう構成されたセグメント・グループ化エンジンと;
前記少なくとも一つのセグメント・モデルに基づいて少なくとも一つの源モデルを生成するよう構成された源グループ化エンジンとを有しており、前記少なくとも一つの源モデルが、前記少なくとも一つの源モデル・パラメータを与える、システム。
〔態様12〕
前記セグメント・グループ化エンジンによって利用される前記諸特徴セグメントを抽出するよう構成された特徴抽出器をさらに有する、態様11記載のシステム。
〔態様13〕
前記特徴抽出器が、前記分解された信号のスペクトル・ピークを追跡するスペクトル・ピーク・トラッカーを有する、態様12記載のシステム。
〔態様14〕
前記特徴抽出器が、トーンに関連する諸特徴セグメントを決定するよう構成されたトーン・トラッカーを有する、態様12記載のシステム。
〔態様15〕
前記特徴抽出器が、過渡音に関連する諸特徴セグメントを決定するよう構成された過渡音トラッカーを有する、態様12記載のシステム。
〔態様16〕
前記特徴抽出器が、ノイズに関連する諸特徴セグメントを決定するよう構成されたノイズ・トラッカーを有する、態様12記載のシステム。
〔態様17〕
前記オーディオ入力信号を、周波数領域の前記分解された信号に変換するよう構成された分解モジュールをさらに有する、態様11記載のシステム。
〔態様18〕
前記少なくとも一つのセグメント・モデルから得られる少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の前記修正のための制御信号を生成するよう構成された関心選択器をさらに有する、態様11記載のシステム。
〔態様19〕
前記少なくとも一つのセグメント・モデルから得られる少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号を修正するよう構成された調節器をさらに有する、態様11記載のシステム。
〔態様20〕
オーディオ入力信号の修正のための方法を実行するために機械によって実行可能なプログラムが具現されている機械可読媒体であって、該方法が:
少なくとも一つの観察されたセグメント・モデル・パラメータを少なくとも一つの予測されたセグメント・モデル・パラメータと比較する段階と;
前記比較に基づいて源モデルを構成する段階と;
前記構成された源モデルに基づいて、分解された信号の修正を容易にする少なくとも一つの源モデル・パラメータを生成する段階とを有する、機械可読媒体。

【特許請求の範囲】
【請求項1】
デジタル通信装置によるオーディオ入力信号の修正のための方法であって:
前記オーディオ入力信号および設定されたセグメント・モデルに基づいて少なくとも一つの観察されたセグメント・モデル・パラメータを生成し、前記少なくとも一つの観察されたセグメント・モデル・パラメータを前記デジタル通信装置内に記憶する段階であって、前記オーディオ入力信号はノイズ・セグメントを含む、段階と;
前記デジタル通信装置内に記憶された前記少なくとも一つの観察されたセグメント・モデル・パラメータを、前記デジタル通信装置内に記憶された少なくとも一つの予測されたセグメント・モデル・パラメータと比較する段階と;
前記比較に基づいて前記デジタル通信装置内に記憶されている源モデルを設定する段階と;
前記設定された源モデルに基づいて、前記デジタル通信装置による分解された信号の修正を容易にする少なくとも一つの源モデル・パラメータを生成する段階とを有する方法。
【請求項2】
前記源モデルがベスト・フィット源モデルであるかどうかを判定する段階をさらに有する、請求項1記載の方法。
【請求項3】
前記判定がコスト解析に基づいている、請求項2記載の方法。
【請求項4】
源モデルを設定する段階が、該源モデルを生成することを含む、請求項1記載の方法。
【請求項5】
源モデルを設定する段階が、該源モデルがベスト・フィット源モデルでない場合、該源モデルを調整することを含む、請求項1記載の方法。
【請求項6】
観察された特徴セグメントを予測された特徴セグメントと比較する段階をさらに有しており、前記設定されたセグメント・モデルが前記比較に基づく、請求項1記載の方法。
【請求項7】
前記観察された特徴セグメントを、スペクトル形トラッカーを利用して生成する段階をさらに有する、請求項6記載の方法。
【請求項8】
前記分解された信号を、前記オーディオ入力信号を周波数領域に変換することによって生成する段階をさらに有する、請求項1記載の方法。
【請求項9】
前記少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の前記修正を制御する少なくとも一つの制御信号を生成する段階をさらに有する、請求項1記載の方法。
【請求項10】
オーディオ入力信号の修正のためのシステムであって:
分解された信号の修正を容易にするために少なくとも一つの源モデル・パラメータを生成するよう構成された適応的複数モデル最適化器を有しており、該適応的複数モデル最適化器はさらに、
同時の諸特徴セグメントをグループ化して、少なくとも一つのセグメント・モデルを生成し、ノイズ・セグメントを含む前記オーディオ入力信号およびセグメント・モデルに基づいて少なくとも一つの観察されたセグメント・モデル・パラメータを生成するよう構成されたセグメント・グループ化エンジンと;
前記少なくとも一つのセグメント・モデルに基づいて少なくとも一つの源モデルを生成するよう構成された源グループ化エンジンとを有しており、前記少なくとも一つの源モデルが、前記少なくとも一つの源モデル・パラメータを与える、システム。
【請求項11】
前記セグメント・グループ化エンジンによって利用される前記諸特徴セグメントを抽出するよう構成された特徴抽出器をさらに有する、請求項10記載のシステム。
【請求項12】
前記特徴抽出器が、前記分解された信号のスペクトル・ピークを追跡するスペクトル・ピーク・トラッカーを有する、請求項11記載のシステム。
【請求項13】
前記特徴抽出器が、トーンに関連する諸特徴セグメントを決定するよう構成されたトーン・トラッカーを有する、請求項11記載のシステム。
【請求項14】
前記特徴抽出器が、過渡音に関連する諸特徴セグメントを決定するよう構成された過渡音トラッカーを有する、請求項11記載のシステム。
【請求項15】
前記特徴抽出器が、ノイズに関連する諸特徴セグメントを決定するよう構成されたノイズ・トラッカーを有する、請求項11記載のシステム。
【請求項16】
前記オーディオ入力信号を、周波数領域の前記分解された信号に変換するよう構成された分解モジュールをさらに有する、請求項10記載のシステム。
【請求項17】
前記少なくとも一つのセグメント・モデルから得られる少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号の前記修正のための制御信号を生成するよう構成された関心選択器をさらに有する、請求項10記載のシステム。
【請求項18】
前記少なくとも一つのセグメント・モデルから得られる少なくとも一つの源モデル・パラメータに基づいて、前記分解された信号を修正するよう構成された調節器をさらに有する、請求項10記載のシステム。
【請求項19】
オーディオ入力信号の修正のための方法を実行するために機械によって実行可能なプログラムを記録したコンピュータ読み取り可能な記録媒体であって、該方法が:
前記オーディオ入力信号および設定されたセグメント・モデルに基づいて少なくとも一つの観察されたセグメント・モデル・パラメータを生成し、前記少なくとも一つの観察されたセグメント・モデル・パラメータを前記デジタル通信装置内に記憶する段階であって、前記オーディオ入力信号はノイズ・セグメントを含む、段階と;
前記少なくとも一つの観察されたセグメント・モデル・パラメータを少なくとも一つの予測されたセグメント・モデル・パラメータと比較する段階と;
前記比較に基づいて源モデルを設定する段階と;
前記設定された源モデルに基づいて、分解された信号の修正を容易にする少なくとも一つの源モデル・パラメータを生成する段階とを有する、記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−177949(P2012−177949A)
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願番号】特願2012−137938(P2012−137938)
【出願日】平成24年6月19日(2012.6.19)
【分割の表示】特願2008−513807(P2008−513807)の分割
【原出願日】平成18年5月30日(2006.5.30)
【出願人】(507388638)オーディエンス,インコーポレイテッド (5)