説明

ダイアログ増幅技術

複数のチャネルのオーディオ信号(例えば、ステレオオーディオ)は、周辺成分信号(反射または屈折される音)または他の成分信号と関連した音声成分信号(例えば、映画で俳優が話すダイアログ)のゲイン(例えば、ボリュームまたは騷音程度)を調節するように処理される。一実施例において、前記音声成分信号は識別及び修正される。一実施例において、前記音声成分信号は、前記音声ソース(例えば、前記俳優の現在のダイアログ)が複数のチャネルオーディオ信号のステレオ音像の中心に位置すると仮定し、音声成分信号のスペクトル成分を考慮して識別される。
本発明の直接的な具現方法、システム及びコンピュータで判読可能な記録媒体を含む他の具現例が開示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、現在係留中の下記の米国仮出願を優先権として主張する。
【0002】
2006年9月14日に出願された発明の名称“Method of Separately Controlling Dialogue Volume”、米国仮出願番号60/844,806、代理人管理番号19819−047P01; 2007年1月11日に出願された発明の名称“Separate Dialogue Volume(SDV)”、米国仮出願番号60/884,594、代理人管理番号19819−120P01; 及び2007年6月11日に出願された発明の名称“Enhancing Stereo Audio with Remix Capability and Separate Dialogue”、米国仮出願番号60/943,268、代理人管理番号19819−160P01の前記各仮出願は、全体が参照として本明細書に統合される。
【0003】
本発明は、一般的な信号処理に関するものである。
【背景技術】
【0004】
オーディオ増幅技術は、しばしば家庭内の娯楽システム、立体音響及びその他の消費者の電子機器で低周波信号を増幅させ、多様な聴取環境(例えば、コンサートホール)を具現化するために使用される。例えば、一部の技術は、高周波信号を挿入することで、映画ダイアログをより明確にするために使用されることもある。しかしながら、如何なる技術においても、ダイアログを周辺環境や他の成分の信号と比較して相対的に増幅させる技術は開示されていない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、ダイアログを周辺環境や他の成分の信号と比較して相対的に増幅させる技術を提供することにある。
【課題を解決するための手段】
【0006】
上記のような目的を達成するための本発明に係るダイアログ増幅技術は、音声成分信号と他の成分信号が含まれた複数のチャネルオーディオ信号を獲得する段階と、オーディオ信号の音像内での前記音声成分信号の位置に基づいて前記音声成分信号を修正する段階とを含むことを特徴とする。
【発明の効果】
【0007】
本発明によると、ダイアログを周辺環境や他の成分の信号と比較して相対的に増幅させる技術を提供することができる。
【図面の簡単な説明】
【0008】
【図1】ダイアログ増幅技術のためのミキシングモデルを示したブロック図である。
【図2】時間−周波数タイルを用いたステレオ信号の分解を示したグラフである。
【図3A】音像の中心に位置する分解ゲインファクタの関数としてゲインを計算する関数のグラフである。
【図3B】音像の中心に位置しない分解ゲインファクタの関数としてゲインを計算する関数のグラフである。
【図4】ダイアログ増幅システムを例示するブロック図である。
【図5】ダイアログ増幅プロセスを例示する順序図である。
【図6】図1乃至図5を参照して説明された機能とプロセスが行われるデジタルテレビジョンシステムの例を示したブロック図である。
【発明を実施するための形態】
【0009】
ダイアログ増幅技術
【0010】
図1は、ダイアログ増幅技術のためのミキシングモデル100を示した図である。前記ミキシングモデル100において、聴取者は、左右のチャネルからオーディオ信号を受信する。オーディオ信号sは、ファクターaによって決定される方向から局地化された音に対応する。以後に斜めに反射または反響される音に対応する独立的なオーディオ信号n1とn2は、しばしば背景音または背景を意味する。ステレオ信号は、与えられたオーディオソースに対して前記ソースオーディオ信号が特定方向の情報(例えば、レベル差、時間差)を用いて前記左右のオーディオ信号チャネルと連関して入力され、前記以後に反射または反響された独立的な信号n1及びn2が聴覚的イベント幅及び聴取者包格キュー(envelopment cues)を決定するチャネルに入力されるように記録またはミックスされる。前記ミキシングモデル100は、ステレオ信号の知覚的に動機付けられた分解として数学的に表現されるが、これは、前記オーディオ信号の局地化及び背景音を含む一つのオーディオソースを用いる。
【0011】
1(n)=s(n)+n1(n)
2(n)=as(n)+n2(n) (1)
【0012】
同時に活性化する複数のオーディオソースを含む非線形的なシナリオで効率的な分解を得るために、数学式1の前記分解は、複数の周波数領域で独立的であり、時間に順応的に行われる。
【0013】
1(i,k)=S(i,k)+N1(i,k)
2(i,k)=A(i,k)S(i,k)+N2(i,k) (2)
【0014】
ここで、iは、サブバンドインデックスを表し、kは、サブバンドの時間インデックスを表している。
【0015】
図2は、時間−周波数タイルを用いたステレオ信号の分解を示したグラフである。索引iとkを有する各時間−周波数タイル200、前記信号S,N1,N2及び分解ゲインファクタAは独立的に推定される。簡潔な表記のために、前記サブバンド及び時間のインデックスiとkは下記の説明で省略される。
【0016】
知覚的に誘発されたサブバンドのバンド幅を用いたサブバンドの分解を使用するとき、サブバンドの前記バンド幅は主要バンドと同一に選択される。S、N1、N2及びAは、各サブバンド別に略毎tミリセカンド(例えば、20ms)ごとに推定される。より低い演算複雑度のために、STFT(short time Fourier transform)がFFT(fast Fourier transform)を行うのに使用される。ステレオサブバンド信号であるX1及びX2が与えられるとき、S、A、N1、N2の推定が決定される。X1の累乗数の短期推定は下記のように表現される。
【0017】
x1(i,k)=E{X12(i,k)} (3)
【0018】
ここで、E{.}は、短期平均(short−time averaging)演算である。他の信号において、前記同一の規則が利用可能であり、換言すると、Px2、Psを用いることができる。そして、PN=PN1=PN2は、前記対応する短期パワー推定である。前記N1及びN2の累乗数は同一に仮定され、換言すると、側面の独立的な音の量は左右のチャネルにおいて同一であると仮定される。
【0019】
s、A及びPNの推定
【0020】
前記ステレオ信号のサブバンド表現が与えられる場合、前記パワー(Px1,Px2)及び標準化された相互相関が決定される。左右のチャネルの間の前記標準化された相互相関は下記の通りである。
【0021】
【数1】

【0022】
A、Ps、PNは、推定されたPx1、Px2、及びΦの関数として計算される。知られた変数及び知られていない変数と関連した三つの方程式は下記の通りである。
【0023】
【数2】

【0024】
数学式5は、A、Ps、及びPNに対して計算される。
【0025】
【数3】

【0026】
これと一緒に、下記の式が成立される。
【0027】
【数4】

【0028】
S、N1、及びN2の最小二乗推定
【0029】
次に、S、N1、及びN2の最小二乗推定がA、Ps、及びPN関数として演算される。それぞれのiとk、前記信号Sは、下記のように推定される。
【0030】
【数5】

【0031】
ここで、w1とw2は、実際の加重値である。前記推定エラーは下記の通りである。
【0032】
E=(1−w1−w2A)S−w11−w22 (9)
【0033】
エラーEが下記のようにX1及びX2と直交する場合、前記加重値w1及びw2は、最小二乗規範で最適化される。
【0034】
E{EX1}=0
E{EX2}=0 (10)
【0035】
この式から二つの方程式が誘導される。
【0036】
(1−w1−w2A)Ps−w1N=0
A(1−w1−w2A)Ps−w2N=0 (11)
【0037】
この式から、前記加重値は下記のように計算される。
【0038】
【数6】

【0039】
前記N1の推定値は下記の通りである。
【0040】
【数7】

【0041】
前記推定エラーは下記の通りである。
【0042】
E=(−w3−w4A)S−(1−w3)N1−w22 (14)
【0043】
前記推定エラーがX1及びX2と直交するように前記加重値が再び計算され、下記のような結果が導出される。
【0044】
【数8】

【0045】
前記N2(下記の数学式16)の最小二乗推定値を計算するための前記加重値は、
【0046】
【数9】

【0047】
ポストスケーリング(post−scaling)
【0048】
【数10】

【0049】
【数11】

【0050】
これと同一の理由で、N1及びN2も下記のように調節される。
【0051】
【数12】

【0052】
ステレオ信号合成
【0053】
以前に説明された信号分解において、オリジナルステレオ信号と類似した信号は、各時間及び各サブバンド別に数学式2を適用し、前記各サブバンドを時間ドメインに変換することで得られる。
【0054】
修正されたダイアログゲインを用いて前記信号を生成するために、前記各サブバンドは下記のように計算される。
【0055】
【数13】

【0056】
ここで、g(i,k)は、前記ダイアログゲインが所望の値に修正されたdB単位のゲインファクタである。
【0057】
g(i,k)をどのように計算するか動機づける幾つかの注目すべき点がある。
・一般的に、ダイアログは音像のセンターに位置する。すなわち、ダイアログに属した時間k及び周波数iである成分信号は、1(0dB)に近い分解ゲインファクタA(i,k)を有することができる。
・各音声信号は、最大4kHzまでのエネルギーを含む。8kHz以上で、音声は実質的にエネルギーを含まない。
・音声は、一般的に非常に低い周波数帯域(例えば、約70Hz以下)を含まない。
【0058】
このような観察は、g(i,k)が非常に低い周波数帯域と8kHz以上の帯域で0dBに決定され、ステレオ信号の修正可能性が非常に低いことを暗示する。他の周波数帯域で、g(i,k)は、下記の数学式22のように所定のダイアログゲインGdとA(i,k)の関数として調節される。
【0059】
g(i,k)=f(Gd,A(i,k)) (22)
【0060】
適切な関数fの例が図3Aに示された。図3Aを参照すると、fとA(i,k)の関係がログスケール(dB)に表示され、他の領域で、fとA(i,k)は線形スケールに定義される。fの特定例は下記の通りである。
【0061】
【数14】

【0062】
ここで、Wは、図3Aに示すように、前記関数fのゲイン領域の広さを決定する。前記常数Wは、前記ダイアログゲインの方向的な感度に関係する。例えば、W=6dBの値を有するとき、ほとんどの信号で良い結果が生成される。しかし、他の信号では、Wが異なる値を有するときに最適化される。
【0063】
放送または受信装置の劣悪な測定(例えば、左右チャネルのゲインが互いに異なること)によって、ダイアログが正確にセンターに位置しないことがある。この場合、関数fは、前記ダイアログの位置によってセンターの位置を移動することができる。移動された関数fの例を図3Bに示した。
【0064】
選択的遂行及び一般化
【0065】
センター仮定(または、一般的な位置仮定)及び音声信号のスペクトル領域に基づいた前記ダイアログ成分信号の確認法は簡単であり、多くの場合によく一致する。しかし、前記ダイアログ確認法は、修正されるか、潜在的に向上される。フォルマント、ハーモニック構造、ダイアログ成分信号を探知するための転移のような音声信号の多くの特徴は調査される可能性がある。
【0066】
上述したように、互いに異なるオーディオに対しては、互いに異なるゲイン関数の形状(例えば、図3A及び図3B)が最適である。したがって、信号適応的ゲイン関数が使用される。
【0067】
ダイアログゲイン調節は、サラウンド音響のホームシネマシステムで行われる。ダイアログゲイン調節の重要な特徴は、センターチャネルにダイアログが存在するかどうかを探知することにある。これを行う一つの方法は、センターチャネルが充分に大きい信号エネルギーを有している場合、ダイアログがセンターチャネルに位置していると探知することである。ダイアログがセンターチャネルに含まれた場合、ダイアログボリュームを調節するためにゲインがセンターチャネルに含まれる。そして、ダイアログがセンターチャネルに存在しない場合(例えば、サラウンドシステムがステレオコンテンツを再生する場合)、図1〜図3を参照して説明したように、二つのチャネルダイアログゲイン調節が適用される。
【0068】
一部の実施例において、前記開示されたダイアログ増幅技術は、音声成分信号以外の信号を減少することで行われる。例えば、複数のチャネルオーディオ信号は、音声成分信号(例えば、ダイアログ信号)と他の成分信号(例えば、反響音)を含むことができる。前記他の成分信号は、複数のチャネルオーディオ信号の音像に含まれた音声成分信号の位置に基づいて変更され(例えば、減衰され)、音声成分信号は変化しない状態で残存しうる。
【0069】
ダイアログ増幅システム
【0070】
図4は、ダイアログ増幅システム400を例示するブロック図である。一部の実施例において、前記システム400は、分析フィルターバンク402、パワー推定器404、信号推定器406、ポストスケーリングモジュール408、信号合成モジュール410、及び合成フィルターバンク412を含む。ダイアログ増幅システム400の前記各成分402〜412は、分離されたプロセスとして表現されたが、二つまたはそれ以上の成分のプロセスが一つの成分に結合されることもある。
【0071】
【数15】

【0072】
ダイアログ増幅プロセス
【0073】
図5は、ダイアログ増幅プロセス500を例示する順序図である。一部の実施例において、前記プロセス500は、複数のチャネルオーディオ信号を周波数サブバンド信号502に分解しながら開始される(502)。前記分解は、多相のフィルタバンク(polyphase filterbank)、QMF(quadrature mirror filterbank)、ハイブリッドフィルタバンク(hybrid filterbank)、DFT(discrete Fourier transform)及びMDCT(modified discrete cosine transform)を含むことができるが、これに限定されることなく、多様な公知の変換技術を用いてフィルタバンクによって行われる。
【0074】
前記オーディオ信号の二つまたはそれ以上のチャネルのパワーの第1セットは、前記サブバンド信号を用いて推定される(504)。相互相関(cross―correlation)は、パワーの第1セットを用いて決定される(506)。分解ゲインファクタは、前記パワーの第1セットと前記相互相関を用いて推定される(508)。前記分解ゲインファクタは、音像においてダイアログソースのロケーションキューを提供する。音声成分信号及び背景音成分信号のパワーの第2セットは、前記パワーの第1セットと前記相互相関を用いて推定される(510)。音声及び背景音成分信号は、前記パワーの第2セットと前記分解ゲインファクタを用いて推定される(512)。前記推定された音声と背景音成分信号は後調節される(514)。サブバンド信号は、後調節された音声と背景音成分信号及び所定のダイアログゲインを用いて修正されたダイアログゲインと合成される(516)。前記所定のダイアログゲインは、自動的に設定されるか、使用者によって決定される。前記合成された各サブバンド信号は、例えば、合成フィルタバンクを用いて修正されたダイアログゲイン512を適用することで時間ドメインオーディオ信号に変換される。
【0075】
背景音減衰のための出力標準化
【0076】
【数16】

【0077】
【数17】

【0078】
【数18】

【0079】
知覚的な品質を最大化するために、gnormが修正される。前記標準化は、周波数ドメインと時間ドメイン上で全て行われる。前記標準化が周波数ドメインで行われるとき、例えば、70Hz乃至8kHzのダイアログゲインが適用される周波数領域で前記標準化が行われる。
【0080】
選択的に、これと類似した結果は、S(i,k)にゲインが適用されない間にN1(i,k)及びN2(i,k)を減衰することで達成される。このような概念を下記の方程式を通して説明した。
【0081】
【数19】

【0082】
モノ探索に基づく別個のダイアログボリューム利用
【0083】
入力信号X1(i,k)及びX2(i,k)が実質的に類似している場合(例えば、入力信号がモノ類似信号で、入力信号のほぼ全ての部分がSと見なされる場合)、使用者が所定のダイアログゲインを入力すると、前記所定のダイアログゲインは、前記信号の全体ボリュームを増加させる。これを防止するために、前記入力信号の特性を観測可能な別個のダイアログボリューム(SDV)技術を用いることが使用者にとって好ましい。
【0084】
数学式4において、前記ステレオ信号の標準化された相互相関が計算された。前記標準化された相互相関は、モノ信号探索で測定の基準として使用される。数学式4でファイ(phi)が与えられた臨界値を超える場合、前記入力信号はモノ信号と見なされ、分離されたダイアログボリュームは自動的にオフになる。これと対照的に、ファイが与えられた臨界値より小さい場合、前記入力信号はステレオ信号と見なされ、分離されたダイアログボリュームは自動的に動作する。前記ダイアログゲインは、下記の数学式26のように別個のダイアログボリュームでアルゴリズム的なスイッチとして動作することができる。
【0085】
【数20】

【0086】
【数21】

【0087】
【数22】

【0088】
【数23】

【0089】
デジタルテレビジョンシステムの例
【0090】
図6は、図1〜図5を参照して説明された機能とプロセスが行われる例示的なデジタルテレビジョンシステム600のブロック図である。デジタルテレビジョン(DTV)は、デジタル信号による動映像及び音を受信して放送する遠隔通信システムである。デジタルテレビジョンは、デジタル的に圧縮され、特別にデザインされたテレビセット、セットトップボックスが備わった標準受信機、またはテレビジョンカードが備わったPCによって復号化されることが要求されるデジタル変調データを使用する。図6のシステムがデジタルテレビジョンシステムに関するものであるが、前記ダイアログ増幅のために開示された実施例は、ダイアログ増幅が必要なアナログテレビジョンシステムまたはその他のシステムに適用される。
【0091】
一部の実施例において、前記システム600は、インターフェース602、デモジュレータ604、デコーダ606、オーディオ/ビデオ出力部608、使用者入力インターフェース610、一つまたはそれ以上のプロセッサ612(例えば、Intel(登録商標) processors)、一つまたはそれ以上のコンピュータで判読可能な媒体614(例えば、RAM、ROM、SDRAM、ハードディスク、光ディスク、フラッシュメモリ、SANなど)を含むことができる。このような各要素は、一つまたはそれ以上の通信チャネル616(例えば、バス)と結合される。一部の実施例において、前記インターフェース602は、オーディオ信号または結合されたオーディオ/ビデオ信号を獲得するための多様な回路を含む。例えば、アナログテレビジョンシステムで、インターフェースは、アンテナ装置、チューナまたはミキサ、ラジオ周波数(RF)増幅器、ローカルオシレータ、IF(intermediate frequency)増幅器、一つまたはそれ以上のフィルタ、デモジュレータ、オーディオ増幅器などを含むことができる。これに付加または限定される構成要素を有する実施例を含むシステムの他の実施例が具現可能である。
【0092】
前記チューナ602は、ビデオとオーディオコンテンツを含むデジタルテレビジョン信号を受信するデジタルテレビジョンチューナである。前記デモジュレータ604は、前記デジタルテレビジョン信号からビデオ及びオーディオ信号を抽出する。ビデオとオーディオ信号が符号化された場合(例えば、MPEG符号化)、前記デコーダ606は、その信号を復号化する。前記オーディオ/ビデオ出力はビデオを出力し、オーディオを再生可能な如何なる装置(例えば、テレビジョンディスプレイ、コンピュータモニター、LCD、スピーカ、オーディオ・システム)でも出力される。
【0093】
一部の実施例において、ダイアログボリュームレベルは、例えば、リモコンのディスプレイ装置またはOSD(On Screen Display)を用いて前記使用者に出力される。前記ダイアログボリュームレベルは、主音量レベルと相対的な関係にある。一つまたはそれ以上の図式的な客体は、ダイアログボリュームレベルと主音量に対して相対的なダイアログボリュームレベルを出力するのに使用される。例えば、第1図式的な客体(例えば、バー形態)は、主音量を表すように出力され、第2図式的な客体(例えば、線形態)は、第1図式的な客体と一緒にまたは合成されてダイアログボリュームレベルを表すように出力される。
【0094】
一部の実施例において、前記使用者入力インターフェースは、リモコンから生成された赤外線通信または無線通信信号を受信して復号化する回路素子(例えば、無線または赤外線通信受信機)及び/またはソフトウェアを含むことができる。リモコンは、分離されたダイアログボリューム調節キーまたはボタン、主音量調節キーまたはボタンの状態を転換する分離されたダイアログボリューム調節選択キーを含むことができる。したがって、前記主音量調節方法としては、主音量を調節するか、分離されたダイアログボリュームを調節する方法が選択的に使用される。一部の実施例において、前記ダイアログボリュームまたは主音量キーは、作動状態を表すために視覚的に変化される。
【0095】
調節器と使用者インターフェースの例は、2007年9月14日に出願された、米国特許出願番号、"Dialogue Enhancement Technique(ダイアログ増幅技術)"、代理人管理番号19819−160001に開示されており、本特許は、全体が参照として本明細書に統合される。
【0096】
一部の実施例において、前記一つまたはそれ以上のプロセッサは、図1〜図5を参照して示すように、前記特性と機能618,620,622,626,628,630及び632を行う前記コンピュータで判読可能な媒体614に保存されているコードを行うことができる。
【0097】
前記コンピュータで判読可能な媒体は、運営体制618、分析/合成フィルタバンク620、パワー推定器622、信号推定器624、ポストスケーリングモジュール626及び信号合成器628をさらに含む。前記"コンピュータで判読可能な媒体"は、非揮発性媒体(例えば、光学または磁気ディスク)、揮発性媒体(例えば、メモリ)及び伝送媒体を含むが、これに限定されることなく、実行のためにプロセッサ612に命令を提供するっことに関係する何れの媒体を意味する。伝送媒体は、同軸ケーブル、銅線及び光繊維を含むが、これに限定されることはない。伝送媒体は、前記音響、光線またはラジオ周波数波動の形態を受信することができる。
【0098】
前記運営体制618は、多重使用者(multi−user)、マルチプロセッシング、マルチタスキング、マルチスレッディング(multithreading)、実時間などが可能である。前記運営体制618は、前記使用者入力インターフェース610からの入力信号認識と、トラック維持、及びコンピュータで判読可能な媒体614(例えば、メモリまたは保存装置)でのファイルまたはディレクトリ管理と、周辺装置の制御と、前記一つまたはそれ以上の通信チャネル616の疎通管理とを含むが、これに限定されることなく、上記のような基本的な機能を行う。
【0099】
上記のように説明された特性は、少なくとも一つ以上の入力装置と出力装置を有するデータ保存システムからデータ及び命令を受信し、データ及び命令を伝送する少なくとも一つ以上のプログラム化可能なプロセッサを含むプログラミングシステムで実行される一つまたはそれ以上のコンピュータプログラムで有利に行われる。コンピュータプログラムは、特定の行為を行うか、特定の結果をもたらすコンピュータで直接または間接的に使用される命令の集合である。コンピュータプログラムは、コンパイルまたは機械語(interpreted languages)を含む如何なるプログラミング言語(例えば、Objective−C、Java(登録商標))の形態でも書き込まれ、独立したプログラムのような形態、モジュール、成分及びサブルーチンの形態、またはコンピュータ環境下で使用者に適した他のユニットを含む如何なる形態にも構成される。
【0100】
前記命令のプログラム遂行のための適正なプロセッサは、例えば、何らかの種類のコンピュータの一般的または特別な目的のマイクロプロセッサのみならず、単独プロセッサ、マルチプルプロセッサまたはコアを含む。一般的に、プロセッサは、ROM(read−only memory)、RAM(random access memory)またはこれら二つから命令及びデータを受信する。前記コンピュータの必須要素は、命令を行うプロセッサと、命令及びデータを保存するための一つまたはそれ以上のメモリである。一般的に、コンピュータは、データファイルを保存するための一つまたはそれ以上の大容量保存装置を含むか、通信して動作可能に連結される。このような保存装置は、内部ハードディスクとデータ削除可能なディスクのような磁気ディスク、磁気光ディスク及び光ディスクを含む。コンピュータプログラム命令及びデータを実体的に具体化するのに適した保存装置は、非揮発性メモリの全ての形態、例えば、EPROM、EEPROM、フラッシュメモリ装置のような半導体メモリ装置、内部ハードディスクとデータ削除可能なディスクのような磁気ディスク、磁気光ディスク及びCD−ROM、DVD−ROMディスクを含む。前記プロセッサとメモリは、ASICS(application−specific integrated circuits)によって、またはASICSと一体化して補強される。
【0101】
使用者との相互作用を提供するために、前記特性は、前記使用者に情報を出力するCRT(cathode ray tube)またはLCD(liquid crystal display)モニタのようなディスプレイ装置と、使用者がコンピュータに命令を入力できるキーボード及びマウスまたはトラックボールのようなポインティング装置が備わったコンピュータで実行される。
【0102】
前記各特性は、データサーバのようなバックエンドコンポーネント(back−end component)を含むか、アプリケーションサーバまたはインターネットサーバのようなミドルウェアーコンポーネントを含むか、図式的な使用者インターフェース、インターネットブラウザまたはこれらの結合を備えるクライアントコンピュータのようなフロントエンドコンポーネント(front−end component)を含むコンピュータシステムで実行される。前記システムの各成分は、通信ネットワークのようなデジタルデータ通信の何らかの形態または媒体と連結される。通信ネットワークとしてはLAN、WANなどを含み、前記コンピュータとネットワークはインターネットを構成する。
【0103】
前記コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般的に互いに遠く離れており、概してネットワークを通して互いに通信する。前記クライアントとサーバの関係は、それぞれのコンピュータで動作し、互いにクライアントサーバ関係を有するコンピュータプログラムの影響によって生じる。
【0104】
以上、多くの実施例が説明されたが、これに限定されず、多様な変形例が可能であることを理解すべきである。例えば、一つまたはそれ以上の実施例を構成する構成要素は、他の実施例を形成するために結合、省略、変形または追加される。他の例として、図面に描写された論理フローは、所望の結果を得るために示された特別な順序や順次的な順序が要求されない。さらに、説明されたフローで他の段階が追加または省略されることもあり、説明されたシステムで他の成分が追加または省略されることもある。したがって、他の実施例も、下記の請求項の権利範囲内に含まれる。

【特許請求の範囲】
【請求項1】
音声成分信号と他の成分信号が含まれた複数のチャネルオーディオ信号を獲得し、
オーディオ信号の音像内での前記音声成分信号の位置に基づいて前記音声成分信号を修正し、
を有することを特徴とする方法。
【請求項2】
前記修正する段階は、
前記音声成分信号のスペクトル成分に基づいて前記音声成分信号を修正することをさらに有する請求項1に記載の方法。
【請求項3】
前記修正する段階は、
前記音像内の前記音声成分信号の位置を決定し、
ゲインファクターを前記音声成分信号に適用すること、をさらに有する請求項1または2に記載の方法。
【請求項4】
前記ゲインファクタは、前記音声成分信号の位置の関数で、前記音声成分信号に対するゲインである、請求項3に記載の方法。
【請求項5】
前記関数は、前記ゲインファクタの方向的な感度と連関したゲイン領域を有する信号適応的ゲイン関数である、請求項4に記載の方法。
【請求項6】
前記修正する段階は、
時間ドメインまたは周波数ドメインで前記複数のチャネルオーディオ信号を標準化ファクタで標準化することをさらに有する請求項1乃至5の何れか1項に記載の方法。
【請求項7】
前記オーディオ信号が実質的にモノであるかを決定し、
前記オーディオ信号が実質的にモノでない場合、前記音声成分信号を自動的に修正することをさらに有する請求項1乃至6の何れか1項に記載の方法。
【請求項8】
前記オーディオ信号が実質的にモノであるかを決定する段階は、
前記オーディオ信号の二つ以上のチャネルの間の相互相関を決定し、
一つ以上の臨界値を用いて前記相互相関を比較し、
前記比較の結果に基づいて前記オーディオ信号が実質的にモノであるかを決定することをさらに有する請求項7に記載の方法。
【請求項9】
前記修正する段階は、
前記オーディオ信号を複数の周波数サブバンド信号に分解し、
前記サブバンド信号を用いて前記複数のチャネルオーディオ信号の二つ以上のチャネルの第1パワーセットを推定し、
前記第1パワーセットを用いて相互相関を決定し、
前記第1パワーセットと前記相互相関を用いて分解ゲインファクタを推定することをさらに有する請求項1乃至8の何れか1項に記載の方法。
【請求項10】
前記少なくとも一つのサブバンドのバンド幅は、人間聴覚システムの主要バンドと同一になるように選択される、請求項9に記載の方法。
【請求項11】
前記第1パワーセットと前記相互相関から前記音声成分信号と背景音成分信号の第2パワーセットを推定することをさらに有する請求項8に記載の方法。
【請求項12】
前記第2パワーセットと分解ゲインファクタを用いて前記音声成分信号及び前記背景音成分信号を推定することをさらに有する請求項11に記載の方法。
【請求項13】
前記推定された音声及び背景音成分信号は、最小二乗推定を用いて決定される、請求項12に記載の方法。
【請求項14】
前記相互相関は標準化される、請求項12に記載の方法。
【請求項15】
前記推定された音声成分信号及び前記推定された背景音成分信号はポストスケールされる、請求項13または14に記載の方法。
【請求項16】
前記第2パワーセットと使用者設定ゲインを用いてサブバンド信号を合成することをさらに有する請求項11乃至15の何れか1項に記載の方法。
【請求項17】
前記合成されたサブバンド信号を前記使用者設定ゲインによって修正された音声成分信号を含む時間ドメインオーディオ信号に変換することをさらに有する請求項16に記載の方法。
【請求項18】
オーディオ信号を獲得し、
前記オーディオ信号の第1成分信号の修正を表す使用者入力を獲得し、
前記オーディオ信号の音像で前記第1成分信号の位置情報及び前記入力に基づいて前記第1成分信号を修正することを有することを特徴とする方法。
【請求項19】
前記修正する段階は、
ゲインファクタを前記第1成分信号に適用する段階をさらに有する請求項18に記載の方法。
【請求項20】
前記ゲインファクタは、位置情報の関数で、前記第1成分信号に対するゲインである、請求項19に記載の方法。
【請求項21】
前記関数は、前記ゲインファクタの方向的な感度と連関したゲイン領域を有する、請求項20に記載の方法。
【請求項22】
前記修正する段階は、
時間ドメインまたは周波数ドメインで前記オーディオ信号を標準化ファクタで標準化することをさらに有する請求項18乃至21の何れか1項に記載の方法。
【請求項23】
前記修正する段階は、
前記オーディオ信号を複数の周波数サブバンド信号に分解し、
前記サブバンド信号を用いて前記オーディオ信号の二つ以上のチャネルの第1パワーセットを推定し、
前記第1パワーセットを用いて相互相関を決定し、
前記第1パワーセットと前記相互相関を用いて分解ゲインファクタを推定し、
前記第1パワーセットと前記相互相関から前記第1成分信号及び第2成分信号の第2パワーセットを推定し、
前記第2パワーセットと前記分解ゲインファクタを用いて前記第1成分信号と前記第2成分信号を推定し、
前記推定された第1及び第2成分信号及び前記入力を用いてサブバンド信号を合成し、
前記合成されたサブバンド信号を修正された第1成分信号を有する時間ドメインのオーディオ信号に変換すること、
を有する請求項18乃至22の何れか1項に記載の方法。
【請求項24】
音声成分信号及び他の成分信号を含む複数のチャネルオーディオ信号を獲得するように構成されるインターフェースと、
前記インターフェースと連結され、前記オーディオ信号の音像で前記音声成分信号の位置に基づいて前記音声成分信号を修正するように構成されるプロセッサと、
を有することを特徴とするシステム。
【請求項25】
音声成分信号及び他の成分信号を含む複数のチャネルオーディオ信号を獲得し、
前記複数のチャネルオーディオ信号の音像での前記音声成分信号の位置に基づいて前記他の成分信号を修正する、
ことを有することを特徴とする方法。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公表番号】特表2010−504008(P2010−504008A)
【公表日】平成22年2月4日(2010.2.4)
【国際特許分類】
【出願番号】特願2009−527747(P2009−527747)
【出願日】平成19年9月14日(2007.9.14)
【国際出願番号】PCT/EP2007/008028
【国際公開番号】WO2008/031611
【国際公開日】平成20年3月20日(2008.3.20)
【出願人】(502032105)エルジー エレクトロニクス インコーポレイティド (2,269)
【Fターム(参考)】