ダイアログ増幅技術
複数のチャネルのオーディオ信号(例えば、ステレオオーディオ)は、他の信号(反射または屈折される音)と比較して推定されるダイアログ(例えば、映画で俳優が話すダイアログ)のゲイン(例えば、ボリュームレベルまたは騷音程度)を調節する手順を進行する。一部の実施例において、分類器は、複数のチャネル信号で成分信号または推定されるダイアログを分類するのに使用される。一部の実施例において、ダイアログは、複数のチャネルのオーディオ信号または他の成分信号と比較して理想的に維持されるべきである。
本発明の直接的な実現方法、システム及びコンピュータ読取可能記録媒体を含む他の具体例が開示される。
本発明の直接的な実現方法、システム及びコンピュータ読取可能記録媒体を含む他の具体例が開示される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、現在係属中の下記の米国仮出願を優先権として主張する。
【0002】
−2006年9月14日に出願された発明の名称“Method of Separately Controlling Dialogue Volume”、米国仮出願番号60/844,806、代理人管理番号19819−047P01
【0003】
−2007年1月11日に出願された発明の名称“Separate Dialogue Volume(SDV)”、米国仮出願番号60/884,594、代理人管理番号19819−120P01、及び
【0004】
−2007年6月11日に出願された発明の名称“Enhancing Stereo Audio with Remix Capability and Separate Dialogue”、米国仮出願番号60/943,268、代理人管理番号19819−160P01
【0005】
前記各仮出願は、全体が参照により本明細書に統合される。
【0006】
本発明は、一般的な信号処理に関するものである。
【背景技術】
【0007】
オーディオ増幅技術は、しばしば家庭内の娯楽システム、立体音響及びその他の消費者の電子機器で低周波信号を増幅させ、多様な聴取環境(例えば、コンサートホール)を具現化するために使用される。例えば、一部の技術は、高周波信号を挿入することで、映画ダイアログ(せりふ)をより明確にするために使用される。しかしながら、如何なる技術においても、ダイアログを周辺環境や他の成分の信号と比較して相対的に増幅させる技術を開示していない。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、ダイアログを周辺環境や他の成分の信号と比較して相対的に増幅させる技術を提供することにある。
【課題を解決するための手段】
【0009】
上記の目的を達成するための本発明に係るダイアログ増幅技術は、第1の複数チャネルオーディオ信号を獲得する段階と、ゲインを獲得する段階と、前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含む場合、前記ゲインによって前記センターチャネル信号の現在のゲインを修正する段階と、前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含まない場合、仮想センターチャネル信号を推定し、前記ゲインによって前記仮想センターチャネル信号にゲインを適用する段階を含むことを特徴とする。
【発明の効果】
【0010】
本発明によると、ダイアログを周辺環境や他の成分の信号と比較して相対的に増幅させる技術を提供することができる。
【図面の簡単な説明】
【0011】
【図1】二つのスピーカを使用して仮想音源の位置の関数としてチャネルゲインを表すモデルを示した図である。
【図2】入力信号のダイアログを増幅するためのダイアログ推定器とオーディオコントローラの例を示したブロック図である。
【図3】フィルタバンク及び逆変換を含み、入力信号のダイアログを強化するダイアログ推定器とオーディオコントローラの例を示したブロック図である。
【図4】オーディオ信号または推定されたダイアログに含まれたコンポーネント信号を分類する分類器を含み、入力信号のダイアログを強化するダイアログ推定器とオーディオコントローラの例を示したブロック図である。
【図5A】ダイアログ増幅プロセス内の分類器の多様な配置可能性を示したブロック図である。
【図5B】ダイアログ増幅プロセス内の分類器の多様な配置可能性を示したブロック図である。
【図5C】ダイアログ増幅プロセス内の分類器の多様な配置可能性を示したブロック図である。
【図6】時間軸で適用される分類器を含むダイアログ増幅システムを例示するブロック図である。
【図7】ダイアログボリュームを調整するための個別的な入力信号調整部を含み、ダイアログボリュームを処理可能な一般的なテレビジョン受信機または他の装置との通信を行うリモコンを示した例示図である。
【図8】オーディオ信号の主音量とダイアログボリュームを調節するシステムを示したブロック図である。
【図9】ダイアログボリュームをターンオンまたはターンオフすることができるリモコンの例を示した図である。
【図10】ダイアログボリューム調節情報を出力する一般的なテレビジョン受信機のOSDを例示する図である。
【図11】ダイアログの図式的な客体をディスプレイする方法を例示する図である。
【図12】ディスプレイ装置にダイアログボリュームレベルとダイアログボリューム調節のオン/オフ状態を例示する図である。
【図13】調節されるボリュームのタイプとダイアログボリューム調節のオン/オフ状態を指示する分離指示器を示した図である。
【図14】図1〜図13を参照して説明した機能とプロセスが行われるデジタルテレビジョンシステムの例を示したブロック図である。
【発明を実施するための形態】
【0012】
<ダイアログ増幅技術>
図1は、二つのスピーカを使用して仮想音源の位置の関数としてチャネルゲインを表すモデルを示した図である。一部の実施例において、オーディオ/ビデオ信号に含まれているダイアログのボリュームのみを調節する方法によると、テレビジョン受信機、デジタルマルチメディア放送(DMB)プレーヤ、またはパーソナルマルチメディアプレーヤ(PMP)を含むオーディオ信号を再生する多様な装置でユーザの要求に応じてダイアログを効率的に調節することができる。
【0013】
背景雑音または伝送雑音が発生しない環境で対話体信号のみが伝送される場合、聴取者は、伝送されたダイアログを容易に聴取することができる。伝送されるダイアログのボリュームが小さい場合、聴取者は、ボリュームを増加させることでダイアログを聴取することができる。ダイアログが映画、ドラマ、またはスポーツを再生する劇場またはテレビジョン受信機で多様な音響効果と一緒に再生されるとき、音楽、音響効果及び/または背景または伝送雑音によって、聴取者は、ダイアログを聴取するのに困難さを経験することがある。このとき、ダイアログのボリュームを増加させるために全体のボリュームを増加させる場合、背景雑音、音楽、音響効果のボリュームも大きくなるので、耳障りな音が発生する。
【0014】
一部の実施例において、伝送される複数のチャネルのオーディオ信号がステレオ信号である場合、センターチャネルは仮想的に生成され、仮想センターチャネルにゲインが適用され、仮想センターチャネルは、複数のチャネルのオーディオ信号の左右(L/R)のチャネルに加えられる。前記仮想センターチャネルは、左チャネルと右チャネルとの結合によって生成される。
【0015】
【数1】
【0016】
ここで、LinとRinは左右のチャネルの入力信号を意味し、LoutとRoutは左右のチャネルの出力信号を意味し、CvirtualとCoutは、中間過程で使用される値として、それぞれ仮想センターチャネル及び加工された仮想センターチャネルの出力信号を意味し、Gcenterは、仮想センターチャネルのレベル決定に使用されるゲイン値を意味し、GLとGRは、左右のチャネルの入力値に適用されるゲイン値を意味する。本例において、GLとGRは1と仮定する。
【0017】
さらに、仮想センターチャネルにゲインを適用する方法のみならず、特定の周波数を増幅または減衰させるために一つまたはそれ以上のフィルタ(例えば、バンドパスフィルタ)を適用する方法が使用される。この場合、関数fcenterを用いてフィルタを適用することができる。Gcenterを用いて仮想センターチャネルのボリュームを増加させる場合、ダイアログ信号が増幅されると同時に、左右のチャネルに含まれた音楽または音響効果のような他の成分が増幅されるという限界がある。fcenterを用いたバンドパスフィルタが使用される場合、ダイアログの発音が明瞭になるが、ダイアログ、音楽及び背景音のような信号が耳障りな音に歪曲される。
【0018】
以下で説明するように、一部の実施例において、上記のように説明された問題点は、伝送されるオーディオ信号に含まれたダイアログのボリュームを調節することで効率的に解消される。
【0019】
<ダイアログのボリュームを調節する方法>
一般的に、ダイアログは、マルチチャネル信号環境下でセンターチャネルに集中されている。例えば、5.1、6.1または7.1チャネルサラウンドシステムで、ダイアログは、一般的にセンターチャネルに割り当てられる。受信されるオーディオ信号が複数のチャネルの信号である場合、センターチャネルのゲインのみを調節することで充分な効果を得ることができる。オーディオ信号にセンターチャネルが含まれていない場合(例えば、ステレオ信号)、複数のチャネルのオーディオ信号のチャネルのうちダイアログが集中すると推定されるセンター領域(以下、ダイアログ領域とも呼ばれる。)に所定のゲインを適用するための方法が要求される。
【0020】
(センターチャネルを含むマルチチャネル入力信号)
前記5.1、6.1または7.1チャネルサラウンドシステムはセンターチャネルを含む。このようなシステムのもとでは、センターチャネルのゲインのみを調整することで所望の効果を充分に得ることができる。この場合、前記センターチャネルは、ダイアログが割り当てられるチャネルを示す。しかし、本明細書で開示されたダイアログ増幅技術はセンターチャネルに制限されない。
【0021】
<出力チャネルがセンターチャネルを含む場合>
この場合、センターチャネルがC_outで、入力センターチャネルがC_inであり、下記の式2が得られる。
【0022】
【数2】
【0023】
ここで、G_centerは所定のゲインを表し、f_centerはセンターチャネルに適用されるフィルタ(関数)を表し、これは用途によって構成される。場合によって、G_centerは、f_centerが適用された後で適用される。
【0024】
【数3】
【0025】
<出力チャネルがセンターチャネルを含まない場合>
出力チャネルがセンターチャネルを含まない場合、C_out(ゲインが上述した方法によって調節された)は左右のチャネルに適用される。これは、下記の式によって得られる。
【0026】
【数4】
【0027】
信号パワーを得るために、C_outは所定のゲイン(例えば、1/sqrt(2))を用いて計算される。
【0028】
(センターチャネルを含まない複数のチャネルの入力信号)
複数のチャネルのオーディオ信号が前記センターチャネルを含まない場合、ダイアログが集中されると推定されるダイアログ信号(これも、仮想センターのチャネル信号と呼ばれる。)が複数のチャネルのオーディオ信号から獲得され、前記推定されるダイアログ領域に所定のゲインが適用される。例えば、2007年9月14日に出願された米国特許出願番号、"Dialogue Enhancement Technique(ダイアログ増幅技術)"、代理人管理番号19819−120001に開示されたように、オーディオ信号特性(例えば、レベル、左右のチャネル信号の間の連関関係、スペクトル成分)がダイアログを推測するのに使用され、上記の特許出願は、全体が参照により本出願に統合される。
【0029】
図1を再び参照すると、正弦法則によって、音源(例えば、図1での仮想ソース)が音像の如何なるポジションに位置するとしても、前記チャネルのゲインは、二つのスピーカを用いる音像内での音源の位置を表示するために調節される。
【0030】
【数5】
【0031】
サイン関数の他に、タンジェント関数も使用可能であることを明らかにする。
【0032】
これと対照的に、二つのスピーカに入力される信号のレベル、すなわち、g1及びg2が既知の場合、信号入力の音源位置を知ることができる。センタースピーカが含まれていない場合、センタースピーカに含まれる音の再生を前面の左スピーカ及び右スピーカに許容することで仮想センターチャネルを獲得することができる。この場合、音のセンター領域に類似したゲイン、すなわち、g1、g2を与える二つのスピーカを許容することで、仮想ソースが音像のセンター領域に存在する効果を得ることができる。正弦法則方程式で、g1、g2が類似した値を有する場合、右辺の値はほぼ0になる。したがって、sinφ値は0に近い値を有する必要があり、φは0に近い値を有し、これによって、仮想音源はセンターに位置するようになる。仮想音源がセンター領域に位置する場合、仮想センターチャネルを構成する二つのチャネル(例えば、左右のチャネル)は類似したゲインを有し、センター領域(すなわち、ダイアログ領域)のゲインは、仮想センターチャネルの推定される信号のゲイン値を調節することで調節される。
【0033】
チャネルのレベル情報と各チャネルの間の相関関係は、ダイアログを含むと仮定される仮想センターチャネル信号の推定に使用される。例えば、左右のチャネルの相関関係が低い場合(例えば、入力信号が音像の何れかの地点に集中されておらずに広がっている場合)、前記信号がダイアログでない可能性が高い。その逆に、前記左右のチャネルの相関関係が高い場合(例えば、入力信号が空間の一点に集中されている場合)、前記信号がダイアログまたは音響効果(例えば、ドアを閉める音)である可能性が高い。
【0034】
上記のように、前記チャネルのレベル情報と前記各チャネルの間の相関関係を一緒に使用すると、ダイアログを効果的に推定することができる。ダイアログの周波数帯域は、100Hz乃至8kHzが一般的であるので、この周波数帯域で追加的な情報を用いてダイアログを推定することができる。
【0035】
一般的な複数のチャネルのオーディオ信号は、ダイアログ、音楽、音響効果のような多様な信号を含むことができる。これによって、ダイアログを推定する前に伝送された信号がダイアログであるか、音楽であるか、それとも他の信号であるかを決定する分類器を配置し、ダイアログの推定効率を向上させることができる。前記分類器は、参照された図5A乃至図5Cに示すように、ダイアログの推定が行われた後で適用されることもある。
【0036】
<時間ドメインでの調節>
図2は、ダイアログ推定器200とオーディオコントローラ202の例を示したブロック図である。図2に示すように、ダイアログは、入力信号を用いてダイアログ推定器200で推定される。所定のゲイン(例えば、ユーザによって設定された)は、前記オーディオコントローラ202を用いて推定されるダイアログに適用されることで出力を獲得する。ゲインを調節するための追加的な情報は、ダイアログ推定器200で生成される。ユーザ調節情報は、ダイアログボリューム調節情報を含むことができる。オーディオ信号は、音楽、ダイアログ、反響音及び背景雑音を確認するために分析され、このような信号のレベルと特性は前記オーディオコントローラ202によって調節される。
【0037】
<サブバンド基盤処理>
図3は、入力信号のダイアログを強化するダイアログ推定器302とオーディオコントローラ304、オーディオ信号でサブバンドを生成する分析フィルタバンク300、及びサブバンドからオーディオ信号を合成する合成フィルタバンク306を含む例を示したブロック図である。入力オーディオ信号の全体帯域に対してダイアログを推定または調節することより、一部の例で、入力オーディオ信号を前記分析フィルタバンク300を通して複数のサブバンドに分割し、各サブバンド別に前記ダイアログ推定器302を通してダイアログを推定することがより効率的である。いくつかの場合において、ダイアログが、入力されるオーディオ信号の特定の周波数帯域に集中されることもあり、特定の周波数帯域に存在しないこともある。この場合、ダイアログを含む入力オーディオ信号の周波数帯域のみがダイアログ領域を推定するのに使用される。サブバンド信号を獲得するためには、多相のフィルタバンク、QMF(quadrature mirror filterbank)、ハイブリッドフィルタバンク、DFT(discrete Fourier transform)、及びMDCT(modified discrete cosine transform)を含むが、これらに限定されず、多様な公知の方法が使用可能である。
【0038】
一部の実施例において、ダイアログは、第1の複数チャネルのオーディオ信号をフィルタリングして左右のチャネル信号を提供し、前記左右のチャネル信号を周波数ドメインに変換し、変換された左右のチャネル信号を用いてダイアログを推定することで推定される。
【0039】
<分類器の利用>
図4は、オーディオ信号に含まれたオーディオコンテンツを分類する分類器を含み、入力信号のダイアログを強化するダイアログ推定器402及びオーディオコントローラ404の例を示したブロック図である。一部の実施例において、前記分類器400は、入力オーディオの統計的または知覚的特性を分析し、入力されるオーディオ信号をカテゴリー別に分類するのに使用される。例えば、前記分類器400は、入力オーディオ信号がダイアログ、音楽、音響効果または消音であるかを決定することができ、決定された結果を出力することができる。他の例として、前記分類器400は、2007年9月14日に出願された米国特許出願番号、"Dialogue Enhancement Technique(ダイアログ増幅技術)"、代理人管理番号19819−120001に開示されたように、交差相互関係を用いてモノまたはモノ類似オーディオ信号を実質的に検出するのに使用される。この技術を用いて、ダイアログ増幅技術は、入力オーディオ信号が実質的に前記分類器400の出力に基づいたモノでない場合、入力オーディオ信号に適用される。
【0040】
前記分類器400の出力は、ダイアログまたは音楽のような硬判定出力、あるいは、入力オーディオ信号にダイアログが含まれる可能性またはパーセンテージのような軟判定出力である。分類器の例として、ナイーブベイズ分類器、ベイジアンネットワーク、線形分類器、ベイジアンインタフェース、ファジー理論、ロジスティック回帰、神経ネットワーク、予測分析学、パーセプトロン、SVMs(support vector machines)などが含まれるが、これらに限定されない。
【0041】
図5A乃至図5Cは、ダイアログ増幅プロセス内の分類器502の多様な構造可能性を示したブロック図である。図5Aにおいて、分類器502によって信号にダイアログが含まれたと決定される場合、504、506、508及び510の後続プロセス段階が行われ、信号にダイアログが含まれていないと決定される場合、前記後続プロセス段階は省略される。前記ユーザ調節情報が前記ダイアログよりもオーディオ信号のボリュームと関連している場合(例えば、前記ダイアログボリュームが維持される間、前記音楽ボリュームが大きくなる場合)、前記分類器502は、前記信号が音楽信号であると決定し、前記音楽ボリュームは、504、506、508、510の後続プロセス段階を通して調節される。
【0042】
図5Bにおいて、前記分類器502は、前記分析フィルタバンク504の後に適用される。前記分類器502は、何れかの時点で周波数帯域(各サブバンド)によって分類された互いに異なる出力を有することができる。ユーザ調節情報によって再生される前記オーディオ信号の前記各特性(例えば、前記ダイアログボリュームの増幅、反響音の減衰など)が調節される。
【0043】
図5Cにおいて、前記分類器502は、前記ダイアログ推定器506の後に適用される。この構造は、前記音楽信号が音像のセンターに集中されており、ダイアログ領域が認識されない場合に効果的である。例えば、前記分類器502は、前記推定される仮想センターチャネル信号が音声成分信号を含むか否かを決定することができる。前記仮想センターチャネル信号が音声成分信号を含む場合、ゲインは推定される仮想センターチャネル信号に適用される。一方、前記推定される仮想センターチャネル信号が音楽または他の非音性成分に分類される場合、ゲインは適用されない。その他に、分類器と関連した他の構造も可能である。
【0044】
<自動ダイアログボリューム調節機能>
図6は、自動調節情報生成器608を含むダイアログ増幅システムを例示するブロック図である。図6において、説明の便宜のために、前記分類器のブロックは示していない。しかし、図4〜図5と同様に、図6に分類器が含まれることは自明である。前記分析フィルタバンク600と合成フィルタバンク606(逆変換)は、サブバンドが使用されない場合には含まれない。
【0045】
一部の実施例において、前記自動調節情報生成器608は、仮想センターチャネル信号と複数のチャネルオーディオ信号の比率を比較する。前記比率が第1臨界値より低い場合、前記仮想センターチャネル信号は増幅される。そして、前記比率が第2臨界値より高い場合、前記仮想センターチャネル信号は減衰される。例えば、前記P_dialogueが前記ダイアログ領域信号の前記レベルを表示し、P_inputが前記入力信号の前記レベルを表示する場合、前記ゲインは下記の方程式によって自動的に補正される。
【0046】
【数6】
【0047】
ここで、前記P_ratioはP_dialogue/P_inputと定義され、P_thresholdは既に決定された値であり、G_dialogueは、前記ダイアログ領域(以前に説明されたG_centerと同じ概念である。)に適用されるゲイン値である。P_thresholdは、ユーザ(男性/女性)の趣向によって前記ユーザによって設定される。
【0048】
他の実施例において、前記相対的なレベルは、下記の方程式を用いて既に決定された値より小さく維持される。
【0049】
【数7】
【0050】
前記自動調節情報の生成は、再生されたオーディオ信号によってユーザが望む相対的な値のダイアログボリュームのみならず、前記背景音楽のボリューム、反響音のボリューム及び空間のキューを持続させる。例えば、前記ユーザは、騒々しい環境下では、前記伝送された信号より高いボリュームのダイアログを聴取することができ、静かな環境下では、前記伝送された信号と同じかそれより小さいボリュームでダイアログを聴取することができる。
【0051】
<前記ダイアログのボリュームを効率的に調節する方法>
一部の実施例において、ユーザによって調節される情報を前記ユーザにフィードバックするコントローラ及び方法を説明する。例えば、説明の便宜のために、テレビジョン受信機のリモコンが記述される。しかし、前記開示された実施例は、オーディオ装置のリモコン、デジタルマルチメディア放送(DMB)プレーヤ、ポータブルメディアプレーヤ(PMP)、DVDプレーヤ、自動車オーディオプレーヤ、テレビジョン受信機及びオーディオ装置を調節する方法に適用されることが自明である。
【0052】
(独立的な調節装置の構造#1)
図7は、ダイアログボリュームを調整するための個別的な入力信号調整部(例えば、キー、ボタン)を含み、ダイアログボリュームを処理可能な一般的なテレビジョン受信機または他の装置との通信を行うリモコンを示した例示図である。
【0053】
図7に示すように、前記リモコン700は、チャネルを制御(例えば、情報探索)可能なチャネル調節キー702と、主音量(例えば、全体信号のボリューム)を増加または減少させる主音量調節キー704とを含む。また、例えば、図4乃至図5を参照して説明したように、ダイアログ推定器を通して計算されるダイアログ信号のような特定のオーディオ信号のボリュームを増加または減少させるダイアログボリューム調節キー706を含む。
【0054】
一部の実施例において、前記リモコン700は、2007年9月14日に出願された米国特許出願番号、"Dialogue Enhancement Technique"、代理人管理番号19819−120001に説明されたダイアログ増幅技術と共に使用される。この場合、前記リモコン700は、所定のゲインGd及び/またはゲインファクターg(i,k)を提供することができる。ダイアログボリュームを調節するのに個別的なダイアログボリューム調節キー706を使用することで、ユーザは、リモコン700を用いてダイアログのボリュームのみを便利かつ効率的に調節することができる。
【0055】
図8は、オーディオ信号の主音量とダイアログボリュームを調節するプロセスを示したブロック図である。説明の便宜のために、図2〜図10を参照して説明したダイアログ増幅プロセス段階は省略され、必要な構成要素のみが図8に開示されている。例えば、図8の構造で、ダイアログ推定器800は、オーディオ信号を受信し、センター、左右のチャネル信号を推定する。前記センターチャネル(例えば、推定されたダイアログ領域)は増幅器810に入力され、左右のチャネルは合成器812,814を用いて増幅器810の出力信号にそれぞれ加えられる。前記合成器812,814の出力信号は、左右のチャネル(主音量)のボリュームをそれぞれ調節するために増幅器816,818にそれぞれ入力される。
【0056】
一部の実施例において、前記ダイアログボリュームは、ダイアログゲインファクターG_Dialogueを出力するゲイン生成器806と結合されるダイアログボリューム調節キー802によって調節される。前記左右のボリュームは、マスターゲインG_Masterを提供するゲイン生成器808と結合される主音量調節キー804によって調節される。前記ゲインファクターG_DialogueとG_Masterは、ダイアログと主音量のゲインを調整するために増幅器810,816,818で使用される。
【0057】
(独立的な調節装置の構造#2)
図9は、チャネル調節キー902、ボリューム調節キー904及びダイアログボリューム調節選択キー906を含むリモコン900を示した例示図である。前記ダイアログボリューム調節選択キー906は、ダイアログボリューム調節機能をターンオンまたはターンオフするときに使用される。前記ダイアログボリューム調節選択機能がターンオンされた場合、ダイアログ領域の信号ボリュームは、ボリューム調節キー904を用いて段階的な方法(例えば、漸進的に)で増加または減少する。例えば、ダイアログボリューム調節選択キー906が押されたり、他の方法で作動して前記ダイアログボリューム調節機能が動作した場合、前記ダイアログ領域信号は、既に設定されたゲイン値(例えば、6dB)に増加することができる。前記ダイアログボリューム調節選択キー906が再び押された場合、前記ボリューム調節キー904は主音量を調節するのに使用される。
【0058】
選択的に、前記ダイアログボリューム調節選択キー906がターンオンされた場合、図6を参照して説明したように、自動ダイアログ調節機能(例えば、自動調節情報生成器608)が動作する。前記ボリューム調節キー904が押されたり、他の方法で作動するとき、前記ダイアログゲインは、例えば、0、3dB、6dB、12dB、0の順に一定の単位毎に連続的に増加しながら循環するように作動することができる。このような調節方法によって、ユーザはダイアログボリュームを直観的に調節することができる。
【0059】
前記リモコン900は、ダイアログボリュームを調節する装置の一例である。他の装置としてタッチ方式のディスプレイ装置を含むことができるが、これに限定されない。前記リモコン900は、ダイアログゲインを調節するために公知の通信チャネル(例えば、赤外線、ラジオ周波数、ケーブル)を用いて如何なるメディア装置(例えば、テレビジョンメディアプレーヤ、コンピュータ、携帯電話、セットトップボックス、DVDプレーヤ)とも通信することができる。
【0060】
一部の実施例において、前記ダイアログボリューム調節選択キー906がターンオンされるとき、前記選択事項がスクリーンに出力されるか、ダイアログボリューム調節選択キー906の色相やシンボルが変化するか、ボリューム調節キー904の色相やシンボルが変化するか、及び/またはダイアログボリューム調節選択キー906の高さが変化するといった方法でボリューム調節キー904の機能変化をユーザに通知することができる。音または力フィードバック、あるいは、リモコン画面またはテレビジョンスクリーン、モニターなどにテキストメッセージや絵を表示するなどのリモコンでの選択をユーザに知らせる他の多様な方法も実現可能である。
【0061】
上記のような調節方法の利点は、ユーザがボリュームを直観的に調節することができ、ダイアログ、背景音楽、反響音などのようなオーディオ信号の多様な特性を調節するために前記リモコンでボタンとキーとが増加するのを防止できるという点にある。多様なオーディオ信号が制御されるとき、調節されるべきオーディオ信号の特別な成分信号は前記ダイアログボリューム調節選択キー906を用いて選択される。このような成分信号は、ダイアログ信号、背景音楽、音響効果などを含むことができるが、これに限定されない。
【0062】
<ユーザに調節情報を通知する方法>
(OSDを用いた方法#1)
下記の例で、テレビジョン受信機のOSD(On Screen Display)を説明する。しかし、本発明は、増幅器のOSD、PMPのOSD、増幅器/PMPのLCD表示窓などのように、装置の状態を出力可能なメディアの他の形態に適用されることは自明である。
【0063】
図10は、一般的なテレビジョン受信機1002のOSD1000を示す。ダイアログボリューム内の変化は、数字で表現されるか、図12に示すようにバー1004の形態で表現される。一部の実施例において、ダイアログボリュームは、相対的なレベル(図10)や、図11に示すように主音量または他の成分信号との割合で出力される。
【0064】
図11は、主音量とダイアログボリュームの図式的な客体(例えば、バー、ライン)をディスプレイする方法を例示する。図11の例において、前記バーは主音量を示し、バーの中間領域に描かれたラインの長さは、ダイアログボリュームのレベルを示す。例えば、バー1100内のライン1106は、ユーザにダイアログボリュームが調節されていないことを知らせる。ボリュームが調節されていない場合、前記ダイアログボリュームは主音源と同一の値を有するようになる。バー1102内の前記ライン1108は、ユーザに前記ダイアログボリュームが増加したことを知らせ、バー1104内の前記ライン1110は、ユーザに前記ダイアログボリュームが減少したことを知らせる。
【0065】
図11を参照して記述された出力方法は、ユーザが前記ダイアログボリュームの相対的な値を知ることができるので、前記ダイアログボリュームをより効率的に調節できるという長所を有する。さらに、ダイアログボリュームバーが主音量バーと一緒に出力されるので、OSD1000を効率的かつ一貫的に実現することができる。
【0066】
前記開示された実施例は、図11に示すようにバー形式の出力に制限されない。むしろ、主音量と調節されるべき特定のボリューム(例えば、前記ダイアログボリューム)を同時に出力するか、調節されるべきボリュームと主音量との間の相対的な対比を提供する何らかの図式的な客体が使用される。例えば、二つのバーが個別的にディスプレイされるか、互いに異なる色相及び/または広さを有するオーバーラップされたバーが一緒に出力される。
【0067】
調節されるボリュームの形式の数が二つ以上である場合、前記ボリュームは、上記で直接説明した方法によって出力される。しかし、調節されるボリュームの形式の数が三つ以上である場合、ユーザの混同を防止するために、現在調節されるボリューム情報のみを出力する方法が使用される。例えば、反響音ボリューム及びダイアログボリュームが調節されるが、ダイアログが現在の大きさに維持される間に反響音のボリュームのみが調節される場合には、例えば、上述した方法を用いて主音量と反響音のボリュームのみが表示される。本例において、前記主音量と反響音のボリュームは、互いに異なる色相または形状を有し、直観的に確認されることがより好ましい。
【0068】
(OSDを用いた方法#2)
図12は、装置1200(例えば、テレビジョン受信機)のOSD1202にダイアログボリュームを表示する方法の例を示した図である。一部の実施例において、ダイアログレベル情報1206は、ボリュームバー1204と別個に出力される。前記ダイアログレベル情報1206は、多様なサイズ、フォント、色相、明るさレベル、フラッシングまたは他の視覚的装飾または標識で出力される。このような出力方法は、図9を参照して説明したように、前記ボリュームが段階的に循環されるように調節されるとき、より効果的に使用される。一部の実施例において、ダイアログボリュームは、相対的なレベルや、前記主音量または他の成分信号との比として出力される。
【0069】
図13に示すように、ダイアログボリュームの分離指示器1306は、装置1300のOSD1302で調節されるボリュームの形態を出力する代わりに、またはこれに加えて使用される。このような出力方式の長所は、スクリーンで見られるコンテンツが、ディスプレイされるボリューム情報によって受ける影響(例えば、不明瞭な)が比較的少ないことにある。
【0070】
<調節装置の出力>
一部の実施例において、前記ダイアログボリューム調節選択キー906(図9)が選択されるとき、ボリュームキーの機能変化をユーザに通知するために、前記ダイアログボリューム調節選択キー906の色相が変化する。選択的に、前記ダイアログボリューム調節選択キー906が活性化されるとき、前記ボリューム調節キー904の色相や高さを変化させることが利用される。
【0071】
<デジタルテレビジョンシステムの例>
図14は、図1〜図13を参照して記述した機能とプロセスが行われるデジタルテレビジョンシステム1400の例を示したブロック図である。デジタルテレビジョン(DTV)は、デジタル信号の手段によって動画像及び音を受信して放送する遠隔通信システムである。デジタルテレビジョンは、デジタル的に圧縮され、特別にデザインされたテレビジョンセット、セットトップボックスが備わった標準受信機、またはテレビジョンカードが備わったPCによって復号化されることが要求されるデジタル変調データを使用する。図14のシステムがデジタルテレビジョンシステムに関するものであるが、前記ダイアログ増幅のために開示された各実施例は、ダイアログ増幅が必要なアナログテレビジョンシステムまたはその他のシステムに適用される。
【0072】
一部の実施例において、前記システム1400は、インタフェース1402、デモジュレータ1404、デコーダ1406、オーディオ/ビデオ出力部1408、ユーザ入力インタフェース1410、一つまたはそれ以上のプロセッサ1412(例えば、Intel(登録商標) processors)、一つまたはそれ以上のコンピュータ読取可能媒体1414(例えば、RAM、ROM、SDRAM、ハードディスク、光ディスク、フラッシュメモリ、SANなど)を含むことができる。このような各要素は、一つまたはそれ以上の通信チャネル1416(例えば、バス)と結合される。一部の実施例において、前記インタフェース1402は、オーディオ信号または結合されたオーディオ/ビデオ信号を獲得するための多様な回路を含む。例えば、アナログテレビジョンシステムで、インタフェースは、アンテナ装置、チューナ、ミキサー、ラジオ周波数(RF)増幅器、ローカルオシレーター、IF(intermediate frequency)増幅器、一つまたはそれ以上のフィルタ、デモジュレータ、オーディオ増幅器などを含むことができる。これに付加または限定される構成要素を有する実施例を含むシステム1400の他の実施例が実現可能である。
【0073】
前記チューナ1402は、ビデオとオーディオコンテンツを含むデジタルテレビジョン信号を受信するデジタルテレビジョンチューナである。前記デモジュレータ1404は、前記デジタルテレビジョン信号からビデオ及びオーディオ信号を抽出する。ビデオとオーディオ信号が符号化された場合(例えば、MPEG符号化)、前記デコーダ1406は、その信号を復号化する。前記オーディオ/ビデオ出力はビデオを出力し、オーディオを再生可能な如何なる装置(例えば、テレビジョンディスプレイ、コンピュータモニタ、LCD、スピーカ、オーディオ・システム)でも出力される。
【0074】
一部の実施例において、前記ユーザ入力インタフェースは、リモコン(例えば、図9のリモコン900)から生成された赤外線通信または無線通信信号を受信して復号化する回路素子及び/またはソフトウェアを含むことができる。
【0075】
一部の実施例において、前記一つまたはそれ以上のプロセッサは、図1〜図13を参照して説明したように、前記特性と機能1418,1420,1422及び1426を行う前記コンピュータ読取可能媒体1414に保存されているコードを実行することができる。
【0076】
前記コンピュータ読取可能媒体は、オペレーティングシステム1418、分析/合成フィルタバンク1420、ダイアログ推定器1422、分類器1424及び自動情報生成器1426をさらに含む。前記"コンピュータ読取可能媒体"は、不揮発性媒体(例えば、光学または磁気ディスク)、揮発性媒体(例えば、メモリ)及び伝送媒体を含むが、これに限定されることなく、実行のためにプロセッサ1412に命令を提供するのに関係する媒体を意味する。伝送媒体は、同軸ケーブル、銅線及び光ファイバを含むが、これに限定されることはない。伝送媒体は、前記音波、光波または高周波の形態を受信することができる。
【0077】
前記オペレーティングシステム1418は、マルチユーザ、マルチプロセッシング、マルチタスキング、マルチスレッディング、リアルタイムなどが可能である。前記オペレーティングシステム1418は、前記ユーザ入力インタフェース1410からの入力信号認識と、トラック維持、及びコンピュータ読取可能媒体1414(例えば、メモリまたは保存装置)でのファイルまたはディレクトリ管理と、周辺装置の制御と、前記一つまたはそれ以上の通信チャネル1416の疎通管理とを含むが、これに限定されることなく、上記のような基本的な機能を行う。
【0078】
上記のように説明した特徴は、少なくとも一つ以上の入力装置と出力装置とを有するデータ保存システムからデータ及び命令を受信し、データ及び命令を伝送する少なくとも一つ以上のプログラム化可能なプロセッサを含むプログラミングシステムで実行される一つまたはそれ以上のコンピュータプログラムで好適に実施される。コンピュータプログラムは、特定の行為を行うか、特定の結果をもたらすコンピュータで直接または間接的に使用される命令の集合である。コンピュータプログラムは、コンパイルまたは機械語を含む如何なるプログラミング言語(例えば、Objective−C、Java(登録商標))の形態でも書き込まれ、独立したプログラムと同一の形態、モジュール、コンポーネント及びサブルーチンの形態、またはコンピュータ環境下でユーザに適した他のユニットを含む如何なる形態にも構成される。
【0079】
前記命令のプログラムの遂行のための適正なプロセッサは、例えば、何らかの種類のコンピュータの一般的または特別な目的のマイクロプロセッサのみならず、単独プロセッサ、マルチプルプロセッサまたはコアを含む。一般的に、プロセッサは、ROM、RAMまたはこれら二つから命令及びデータを受信する。前記コンピュータの必須要素は、命令を行うプロセッサと、命令及びデータを保存するための一つまたはそれ以上のメモリである。一般的に、コンピュータは、データファイルを保存するための一つまたはそれ以上の大容量保存装置を含むか、通信して動作可能に連結される。このような保存装置は、内部ハードディスクとデータ削除可能なディスクのような磁気ディスク、磁気光ディスク及び光ディスクを含む。コンピュータプログラム命令及びデータを実体的に具体化するのに適した保存装置は、不揮発性メモリの全ての形態、例えば、EPROM、EEPROM、フラッシュメモリ装置のような半導体メモリ装置、内部ハードディスクとデータ削除可能なディスクのような磁気ディスク、磁気光ディスク、及びCD−ROM、DVD−ROMディスクを含む。前記プロセッサとメモリは、ASIC(application−specific integrated circuits)によってまたはASICと一体化して補強される。
【0080】
ユーザとの相互作用を提供するために、前記各特性は、前記ユーザに情報を出力するCRTまたはLCDモニターのようなディスプレイ装置と、ユーザがコンピュータに命令を入力できるキーボード及びマウスまたはトラックボールのようなポインティング装置とが備わったコンピュータで実行される。
【0081】
前記各特性は、データサーバのようなバックエンドコンポーネントを含むか、アプリケーションサーバまたはインターネットサーバのようなミドルウェアーコンポーネントを含むか、グラフィックユーザインタフェース、インターネットブラウザまたはこれらの結合を備えるクライアントコンピュータのようなフロントエンドコンポーネントを含むコンピュータシステムで実行される。前記システムの各成分は、通信ネットワークのようなデジタルデータ通信の如何なる形態または媒体とも連結される。通信ネットワークの例として、LAN、WANなどを含み、前記コンピュータとネットワークはインターネットを構成する。
【0082】
前記コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般的に互いに遠く離れており、概してネットワークを通して互いに通信する。前記クライアントとサーバの関係は、それぞれのコンピュータで動作し、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生じる。
【0083】
以上、多数の実施例を説明したが、これに限定されることなく、多様な変形例が可能であることを理解すべきである。例えば、一つまたはそれ以上の実施例を構成する構成要素は、他の実施例を形成するために結合、省略、変形または追加される。他の例として、図面に描写された論理フローは、所望の結果を得るために示された特別な順序や順次的な順序が要求されない。さらに、説明されたフローで他の段階が追加または省略されることもあり、説明されたシステムで他の成分が追加または省略されることもある。したがって、他の実施例も、下記の請求項の権利範囲内に含まれる。
【技術分野】
【0001】
本発明は、現在係属中の下記の米国仮出願を優先権として主張する。
【0002】
−2006年9月14日に出願された発明の名称“Method of Separately Controlling Dialogue Volume”、米国仮出願番号60/844,806、代理人管理番号19819−047P01
【0003】
−2007年1月11日に出願された発明の名称“Separate Dialogue Volume(SDV)”、米国仮出願番号60/884,594、代理人管理番号19819−120P01、及び
【0004】
−2007年6月11日に出願された発明の名称“Enhancing Stereo Audio with Remix Capability and Separate Dialogue”、米国仮出願番号60/943,268、代理人管理番号19819−160P01
【0005】
前記各仮出願は、全体が参照により本明細書に統合される。
【0006】
本発明は、一般的な信号処理に関するものである。
【背景技術】
【0007】
オーディオ増幅技術は、しばしば家庭内の娯楽システム、立体音響及びその他の消費者の電子機器で低周波信号を増幅させ、多様な聴取環境(例えば、コンサートホール)を具現化するために使用される。例えば、一部の技術は、高周波信号を挿入することで、映画ダイアログ(せりふ)をより明確にするために使用される。しかしながら、如何なる技術においても、ダイアログを周辺環境や他の成分の信号と比較して相対的に増幅させる技術を開示していない。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、ダイアログを周辺環境や他の成分の信号と比較して相対的に増幅させる技術を提供することにある。
【課題を解決するための手段】
【0009】
上記の目的を達成するための本発明に係るダイアログ増幅技術は、第1の複数チャネルオーディオ信号を獲得する段階と、ゲインを獲得する段階と、前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含む場合、前記ゲインによって前記センターチャネル信号の現在のゲインを修正する段階と、前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含まない場合、仮想センターチャネル信号を推定し、前記ゲインによって前記仮想センターチャネル信号にゲインを適用する段階を含むことを特徴とする。
【発明の効果】
【0010】
本発明によると、ダイアログを周辺環境や他の成分の信号と比較して相対的に増幅させる技術を提供することができる。
【図面の簡単な説明】
【0011】
【図1】二つのスピーカを使用して仮想音源の位置の関数としてチャネルゲインを表すモデルを示した図である。
【図2】入力信号のダイアログを増幅するためのダイアログ推定器とオーディオコントローラの例を示したブロック図である。
【図3】フィルタバンク及び逆変換を含み、入力信号のダイアログを強化するダイアログ推定器とオーディオコントローラの例を示したブロック図である。
【図4】オーディオ信号または推定されたダイアログに含まれたコンポーネント信号を分類する分類器を含み、入力信号のダイアログを強化するダイアログ推定器とオーディオコントローラの例を示したブロック図である。
【図5A】ダイアログ増幅プロセス内の分類器の多様な配置可能性を示したブロック図である。
【図5B】ダイアログ増幅プロセス内の分類器の多様な配置可能性を示したブロック図である。
【図5C】ダイアログ増幅プロセス内の分類器の多様な配置可能性を示したブロック図である。
【図6】時間軸で適用される分類器を含むダイアログ増幅システムを例示するブロック図である。
【図7】ダイアログボリュームを調整するための個別的な入力信号調整部を含み、ダイアログボリュームを処理可能な一般的なテレビジョン受信機または他の装置との通信を行うリモコンを示した例示図である。
【図8】オーディオ信号の主音量とダイアログボリュームを調節するシステムを示したブロック図である。
【図9】ダイアログボリュームをターンオンまたはターンオフすることができるリモコンの例を示した図である。
【図10】ダイアログボリューム調節情報を出力する一般的なテレビジョン受信機のOSDを例示する図である。
【図11】ダイアログの図式的な客体をディスプレイする方法を例示する図である。
【図12】ディスプレイ装置にダイアログボリュームレベルとダイアログボリューム調節のオン/オフ状態を例示する図である。
【図13】調節されるボリュームのタイプとダイアログボリューム調節のオン/オフ状態を指示する分離指示器を示した図である。
【図14】図1〜図13を参照して説明した機能とプロセスが行われるデジタルテレビジョンシステムの例を示したブロック図である。
【発明を実施するための形態】
【0012】
<ダイアログ増幅技術>
図1は、二つのスピーカを使用して仮想音源の位置の関数としてチャネルゲインを表すモデルを示した図である。一部の実施例において、オーディオ/ビデオ信号に含まれているダイアログのボリュームのみを調節する方法によると、テレビジョン受信機、デジタルマルチメディア放送(DMB)プレーヤ、またはパーソナルマルチメディアプレーヤ(PMP)を含むオーディオ信号を再生する多様な装置でユーザの要求に応じてダイアログを効率的に調節することができる。
【0013】
背景雑音または伝送雑音が発生しない環境で対話体信号のみが伝送される場合、聴取者は、伝送されたダイアログを容易に聴取することができる。伝送されるダイアログのボリュームが小さい場合、聴取者は、ボリュームを増加させることでダイアログを聴取することができる。ダイアログが映画、ドラマ、またはスポーツを再生する劇場またはテレビジョン受信機で多様な音響効果と一緒に再生されるとき、音楽、音響効果及び/または背景または伝送雑音によって、聴取者は、ダイアログを聴取するのに困難さを経験することがある。このとき、ダイアログのボリュームを増加させるために全体のボリュームを増加させる場合、背景雑音、音楽、音響効果のボリュームも大きくなるので、耳障りな音が発生する。
【0014】
一部の実施例において、伝送される複数のチャネルのオーディオ信号がステレオ信号である場合、センターチャネルは仮想的に生成され、仮想センターチャネルにゲインが適用され、仮想センターチャネルは、複数のチャネルのオーディオ信号の左右(L/R)のチャネルに加えられる。前記仮想センターチャネルは、左チャネルと右チャネルとの結合によって生成される。
【0015】
【数1】
【0016】
ここで、LinとRinは左右のチャネルの入力信号を意味し、LoutとRoutは左右のチャネルの出力信号を意味し、CvirtualとCoutは、中間過程で使用される値として、それぞれ仮想センターチャネル及び加工された仮想センターチャネルの出力信号を意味し、Gcenterは、仮想センターチャネルのレベル決定に使用されるゲイン値を意味し、GLとGRは、左右のチャネルの入力値に適用されるゲイン値を意味する。本例において、GLとGRは1と仮定する。
【0017】
さらに、仮想センターチャネルにゲインを適用する方法のみならず、特定の周波数を増幅または減衰させるために一つまたはそれ以上のフィルタ(例えば、バンドパスフィルタ)を適用する方法が使用される。この場合、関数fcenterを用いてフィルタを適用することができる。Gcenterを用いて仮想センターチャネルのボリュームを増加させる場合、ダイアログ信号が増幅されると同時に、左右のチャネルに含まれた音楽または音響効果のような他の成分が増幅されるという限界がある。fcenterを用いたバンドパスフィルタが使用される場合、ダイアログの発音が明瞭になるが、ダイアログ、音楽及び背景音のような信号が耳障りな音に歪曲される。
【0018】
以下で説明するように、一部の実施例において、上記のように説明された問題点は、伝送されるオーディオ信号に含まれたダイアログのボリュームを調節することで効率的に解消される。
【0019】
<ダイアログのボリュームを調節する方法>
一般的に、ダイアログは、マルチチャネル信号環境下でセンターチャネルに集中されている。例えば、5.1、6.1または7.1チャネルサラウンドシステムで、ダイアログは、一般的にセンターチャネルに割り当てられる。受信されるオーディオ信号が複数のチャネルの信号である場合、センターチャネルのゲインのみを調節することで充分な効果を得ることができる。オーディオ信号にセンターチャネルが含まれていない場合(例えば、ステレオ信号)、複数のチャネルのオーディオ信号のチャネルのうちダイアログが集中すると推定されるセンター領域(以下、ダイアログ領域とも呼ばれる。)に所定のゲインを適用するための方法が要求される。
【0020】
(センターチャネルを含むマルチチャネル入力信号)
前記5.1、6.1または7.1チャネルサラウンドシステムはセンターチャネルを含む。このようなシステムのもとでは、センターチャネルのゲインのみを調整することで所望の効果を充分に得ることができる。この場合、前記センターチャネルは、ダイアログが割り当てられるチャネルを示す。しかし、本明細書で開示されたダイアログ増幅技術はセンターチャネルに制限されない。
【0021】
<出力チャネルがセンターチャネルを含む場合>
この場合、センターチャネルがC_outで、入力センターチャネルがC_inであり、下記の式2が得られる。
【0022】
【数2】
【0023】
ここで、G_centerは所定のゲインを表し、f_centerはセンターチャネルに適用されるフィルタ(関数)を表し、これは用途によって構成される。場合によって、G_centerは、f_centerが適用された後で適用される。
【0024】
【数3】
【0025】
<出力チャネルがセンターチャネルを含まない場合>
出力チャネルがセンターチャネルを含まない場合、C_out(ゲインが上述した方法によって調節された)は左右のチャネルに適用される。これは、下記の式によって得られる。
【0026】
【数4】
【0027】
信号パワーを得るために、C_outは所定のゲイン(例えば、1/sqrt(2))を用いて計算される。
【0028】
(センターチャネルを含まない複数のチャネルの入力信号)
複数のチャネルのオーディオ信号が前記センターチャネルを含まない場合、ダイアログが集中されると推定されるダイアログ信号(これも、仮想センターのチャネル信号と呼ばれる。)が複数のチャネルのオーディオ信号から獲得され、前記推定されるダイアログ領域に所定のゲインが適用される。例えば、2007年9月14日に出願された米国特許出願番号、"Dialogue Enhancement Technique(ダイアログ増幅技術)"、代理人管理番号19819−120001に開示されたように、オーディオ信号特性(例えば、レベル、左右のチャネル信号の間の連関関係、スペクトル成分)がダイアログを推測するのに使用され、上記の特許出願は、全体が参照により本出願に統合される。
【0029】
図1を再び参照すると、正弦法則によって、音源(例えば、図1での仮想ソース)が音像の如何なるポジションに位置するとしても、前記チャネルのゲインは、二つのスピーカを用いる音像内での音源の位置を表示するために調節される。
【0030】
【数5】
【0031】
サイン関数の他に、タンジェント関数も使用可能であることを明らかにする。
【0032】
これと対照的に、二つのスピーカに入力される信号のレベル、すなわち、g1及びg2が既知の場合、信号入力の音源位置を知ることができる。センタースピーカが含まれていない場合、センタースピーカに含まれる音の再生を前面の左スピーカ及び右スピーカに許容することで仮想センターチャネルを獲得することができる。この場合、音のセンター領域に類似したゲイン、すなわち、g1、g2を与える二つのスピーカを許容することで、仮想ソースが音像のセンター領域に存在する効果を得ることができる。正弦法則方程式で、g1、g2が類似した値を有する場合、右辺の値はほぼ0になる。したがって、sinφ値は0に近い値を有する必要があり、φは0に近い値を有し、これによって、仮想音源はセンターに位置するようになる。仮想音源がセンター領域に位置する場合、仮想センターチャネルを構成する二つのチャネル(例えば、左右のチャネル)は類似したゲインを有し、センター領域(すなわち、ダイアログ領域)のゲインは、仮想センターチャネルの推定される信号のゲイン値を調節することで調節される。
【0033】
チャネルのレベル情報と各チャネルの間の相関関係は、ダイアログを含むと仮定される仮想センターチャネル信号の推定に使用される。例えば、左右のチャネルの相関関係が低い場合(例えば、入力信号が音像の何れかの地点に集中されておらずに広がっている場合)、前記信号がダイアログでない可能性が高い。その逆に、前記左右のチャネルの相関関係が高い場合(例えば、入力信号が空間の一点に集中されている場合)、前記信号がダイアログまたは音響効果(例えば、ドアを閉める音)である可能性が高い。
【0034】
上記のように、前記チャネルのレベル情報と前記各チャネルの間の相関関係を一緒に使用すると、ダイアログを効果的に推定することができる。ダイアログの周波数帯域は、100Hz乃至8kHzが一般的であるので、この周波数帯域で追加的な情報を用いてダイアログを推定することができる。
【0035】
一般的な複数のチャネルのオーディオ信号は、ダイアログ、音楽、音響効果のような多様な信号を含むことができる。これによって、ダイアログを推定する前に伝送された信号がダイアログであるか、音楽であるか、それとも他の信号であるかを決定する分類器を配置し、ダイアログの推定効率を向上させることができる。前記分類器は、参照された図5A乃至図5Cに示すように、ダイアログの推定が行われた後で適用されることもある。
【0036】
<時間ドメインでの調節>
図2は、ダイアログ推定器200とオーディオコントローラ202の例を示したブロック図である。図2に示すように、ダイアログは、入力信号を用いてダイアログ推定器200で推定される。所定のゲイン(例えば、ユーザによって設定された)は、前記オーディオコントローラ202を用いて推定されるダイアログに適用されることで出力を獲得する。ゲインを調節するための追加的な情報は、ダイアログ推定器200で生成される。ユーザ調節情報は、ダイアログボリューム調節情報を含むことができる。オーディオ信号は、音楽、ダイアログ、反響音及び背景雑音を確認するために分析され、このような信号のレベルと特性は前記オーディオコントローラ202によって調節される。
【0037】
<サブバンド基盤処理>
図3は、入力信号のダイアログを強化するダイアログ推定器302とオーディオコントローラ304、オーディオ信号でサブバンドを生成する分析フィルタバンク300、及びサブバンドからオーディオ信号を合成する合成フィルタバンク306を含む例を示したブロック図である。入力オーディオ信号の全体帯域に対してダイアログを推定または調節することより、一部の例で、入力オーディオ信号を前記分析フィルタバンク300を通して複数のサブバンドに分割し、各サブバンド別に前記ダイアログ推定器302を通してダイアログを推定することがより効率的である。いくつかの場合において、ダイアログが、入力されるオーディオ信号の特定の周波数帯域に集中されることもあり、特定の周波数帯域に存在しないこともある。この場合、ダイアログを含む入力オーディオ信号の周波数帯域のみがダイアログ領域を推定するのに使用される。サブバンド信号を獲得するためには、多相のフィルタバンク、QMF(quadrature mirror filterbank)、ハイブリッドフィルタバンク、DFT(discrete Fourier transform)、及びMDCT(modified discrete cosine transform)を含むが、これらに限定されず、多様な公知の方法が使用可能である。
【0038】
一部の実施例において、ダイアログは、第1の複数チャネルのオーディオ信号をフィルタリングして左右のチャネル信号を提供し、前記左右のチャネル信号を周波数ドメインに変換し、変換された左右のチャネル信号を用いてダイアログを推定することで推定される。
【0039】
<分類器の利用>
図4は、オーディオ信号に含まれたオーディオコンテンツを分類する分類器を含み、入力信号のダイアログを強化するダイアログ推定器402及びオーディオコントローラ404の例を示したブロック図である。一部の実施例において、前記分類器400は、入力オーディオの統計的または知覚的特性を分析し、入力されるオーディオ信号をカテゴリー別に分類するのに使用される。例えば、前記分類器400は、入力オーディオ信号がダイアログ、音楽、音響効果または消音であるかを決定することができ、決定された結果を出力することができる。他の例として、前記分類器400は、2007年9月14日に出願された米国特許出願番号、"Dialogue Enhancement Technique(ダイアログ増幅技術)"、代理人管理番号19819−120001に開示されたように、交差相互関係を用いてモノまたはモノ類似オーディオ信号を実質的に検出するのに使用される。この技術を用いて、ダイアログ増幅技術は、入力オーディオ信号が実質的に前記分類器400の出力に基づいたモノでない場合、入力オーディオ信号に適用される。
【0040】
前記分類器400の出力は、ダイアログまたは音楽のような硬判定出力、あるいは、入力オーディオ信号にダイアログが含まれる可能性またはパーセンテージのような軟判定出力である。分類器の例として、ナイーブベイズ分類器、ベイジアンネットワーク、線形分類器、ベイジアンインタフェース、ファジー理論、ロジスティック回帰、神経ネットワーク、予測分析学、パーセプトロン、SVMs(support vector machines)などが含まれるが、これらに限定されない。
【0041】
図5A乃至図5Cは、ダイアログ増幅プロセス内の分類器502の多様な構造可能性を示したブロック図である。図5Aにおいて、分類器502によって信号にダイアログが含まれたと決定される場合、504、506、508及び510の後続プロセス段階が行われ、信号にダイアログが含まれていないと決定される場合、前記後続プロセス段階は省略される。前記ユーザ調節情報が前記ダイアログよりもオーディオ信号のボリュームと関連している場合(例えば、前記ダイアログボリュームが維持される間、前記音楽ボリュームが大きくなる場合)、前記分類器502は、前記信号が音楽信号であると決定し、前記音楽ボリュームは、504、506、508、510の後続プロセス段階を通して調節される。
【0042】
図5Bにおいて、前記分類器502は、前記分析フィルタバンク504の後に適用される。前記分類器502は、何れかの時点で周波数帯域(各サブバンド)によって分類された互いに異なる出力を有することができる。ユーザ調節情報によって再生される前記オーディオ信号の前記各特性(例えば、前記ダイアログボリュームの増幅、反響音の減衰など)が調節される。
【0043】
図5Cにおいて、前記分類器502は、前記ダイアログ推定器506の後に適用される。この構造は、前記音楽信号が音像のセンターに集中されており、ダイアログ領域が認識されない場合に効果的である。例えば、前記分類器502は、前記推定される仮想センターチャネル信号が音声成分信号を含むか否かを決定することができる。前記仮想センターチャネル信号が音声成分信号を含む場合、ゲインは推定される仮想センターチャネル信号に適用される。一方、前記推定される仮想センターチャネル信号が音楽または他の非音性成分に分類される場合、ゲインは適用されない。その他に、分類器と関連した他の構造も可能である。
【0044】
<自動ダイアログボリューム調節機能>
図6は、自動調節情報生成器608を含むダイアログ増幅システムを例示するブロック図である。図6において、説明の便宜のために、前記分類器のブロックは示していない。しかし、図4〜図5と同様に、図6に分類器が含まれることは自明である。前記分析フィルタバンク600と合成フィルタバンク606(逆変換)は、サブバンドが使用されない場合には含まれない。
【0045】
一部の実施例において、前記自動調節情報生成器608は、仮想センターチャネル信号と複数のチャネルオーディオ信号の比率を比較する。前記比率が第1臨界値より低い場合、前記仮想センターチャネル信号は増幅される。そして、前記比率が第2臨界値より高い場合、前記仮想センターチャネル信号は減衰される。例えば、前記P_dialogueが前記ダイアログ領域信号の前記レベルを表示し、P_inputが前記入力信号の前記レベルを表示する場合、前記ゲインは下記の方程式によって自動的に補正される。
【0046】
【数6】
【0047】
ここで、前記P_ratioはP_dialogue/P_inputと定義され、P_thresholdは既に決定された値であり、G_dialogueは、前記ダイアログ領域(以前に説明されたG_centerと同じ概念である。)に適用されるゲイン値である。P_thresholdは、ユーザ(男性/女性)の趣向によって前記ユーザによって設定される。
【0048】
他の実施例において、前記相対的なレベルは、下記の方程式を用いて既に決定された値より小さく維持される。
【0049】
【数7】
【0050】
前記自動調節情報の生成は、再生されたオーディオ信号によってユーザが望む相対的な値のダイアログボリュームのみならず、前記背景音楽のボリューム、反響音のボリューム及び空間のキューを持続させる。例えば、前記ユーザは、騒々しい環境下では、前記伝送された信号より高いボリュームのダイアログを聴取することができ、静かな環境下では、前記伝送された信号と同じかそれより小さいボリュームでダイアログを聴取することができる。
【0051】
<前記ダイアログのボリュームを効率的に調節する方法>
一部の実施例において、ユーザによって調節される情報を前記ユーザにフィードバックするコントローラ及び方法を説明する。例えば、説明の便宜のために、テレビジョン受信機のリモコンが記述される。しかし、前記開示された実施例は、オーディオ装置のリモコン、デジタルマルチメディア放送(DMB)プレーヤ、ポータブルメディアプレーヤ(PMP)、DVDプレーヤ、自動車オーディオプレーヤ、テレビジョン受信機及びオーディオ装置を調節する方法に適用されることが自明である。
【0052】
(独立的な調節装置の構造#1)
図7は、ダイアログボリュームを調整するための個別的な入力信号調整部(例えば、キー、ボタン)を含み、ダイアログボリュームを処理可能な一般的なテレビジョン受信機または他の装置との通信を行うリモコンを示した例示図である。
【0053】
図7に示すように、前記リモコン700は、チャネルを制御(例えば、情報探索)可能なチャネル調節キー702と、主音量(例えば、全体信号のボリューム)を増加または減少させる主音量調節キー704とを含む。また、例えば、図4乃至図5を参照して説明したように、ダイアログ推定器を通して計算されるダイアログ信号のような特定のオーディオ信号のボリュームを増加または減少させるダイアログボリューム調節キー706を含む。
【0054】
一部の実施例において、前記リモコン700は、2007年9月14日に出願された米国特許出願番号、"Dialogue Enhancement Technique"、代理人管理番号19819−120001に説明されたダイアログ増幅技術と共に使用される。この場合、前記リモコン700は、所定のゲインGd及び/またはゲインファクターg(i,k)を提供することができる。ダイアログボリュームを調節するのに個別的なダイアログボリューム調節キー706を使用することで、ユーザは、リモコン700を用いてダイアログのボリュームのみを便利かつ効率的に調節することができる。
【0055】
図8は、オーディオ信号の主音量とダイアログボリュームを調節するプロセスを示したブロック図である。説明の便宜のために、図2〜図10を参照して説明したダイアログ増幅プロセス段階は省略され、必要な構成要素のみが図8に開示されている。例えば、図8の構造で、ダイアログ推定器800は、オーディオ信号を受信し、センター、左右のチャネル信号を推定する。前記センターチャネル(例えば、推定されたダイアログ領域)は増幅器810に入力され、左右のチャネルは合成器812,814を用いて増幅器810の出力信号にそれぞれ加えられる。前記合成器812,814の出力信号は、左右のチャネル(主音量)のボリュームをそれぞれ調節するために増幅器816,818にそれぞれ入力される。
【0056】
一部の実施例において、前記ダイアログボリュームは、ダイアログゲインファクターG_Dialogueを出力するゲイン生成器806と結合されるダイアログボリューム調節キー802によって調節される。前記左右のボリュームは、マスターゲインG_Masterを提供するゲイン生成器808と結合される主音量調節キー804によって調節される。前記ゲインファクターG_DialogueとG_Masterは、ダイアログと主音量のゲインを調整するために増幅器810,816,818で使用される。
【0057】
(独立的な調節装置の構造#2)
図9は、チャネル調節キー902、ボリューム調節キー904及びダイアログボリューム調節選択キー906を含むリモコン900を示した例示図である。前記ダイアログボリューム調節選択キー906は、ダイアログボリューム調節機能をターンオンまたはターンオフするときに使用される。前記ダイアログボリューム調節選択機能がターンオンされた場合、ダイアログ領域の信号ボリュームは、ボリューム調節キー904を用いて段階的な方法(例えば、漸進的に)で増加または減少する。例えば、ダイアログボリューム調節選択キー906が押されたり、他の方法で作動して前記ダイアログボリューム調節機能が動作した場合、前記ダイアログ領域信号は、既に設定されたゲイン値(例えば、6dB)に増加することができる。前記ダイアログボリューム調節選択キー906が再び押された場合、前記ボリューム調節キー904は主音量を調節するのに使用される。
【0058】
選択的に、前記ダイアログボリューム調節選択キー906がターンオンされた場合、図6を参照して説明したように、自動ダイアログ調節機能(例えば、自動調節情報生成器608)が動作する。前記ボリューム調節キー904が押されたり、他の方法で作動するとき、前記ダイアログゲインは、例えば、0、3dB、6dB、12dB、0の順に一定の単位毎に連続的に増加しながら循環するように作動することができる。このような調節方法によって、ユーザはダイアログボリュームを直観的に調節することができる。
【0059】
前記リモコン900は、ダイアログボリュームを調節する装置の一例である。他の装置としてタッチ方式のディスプレイ装置を含むことができるが、これに限定されない。前記リモコン900は、ダイアログゲインを調節するために公知の通信チャネル(例えば、赤外線、ラジオ周波数、ケーブル)を用いて如何なるメディア装置(例えば、テレビジョンメディアプレーヤ、コンピュータ、携帯電話、セットトップボックス、DVDプレーヤ)とも通信することができる。
【0060】
一部の実施例において、前記ダイアログボリューム調節選択キー906がターンオンされるとき、前記選択事項がスクリーンに出力されるか、ダイアログボリューム調節選択キー906の色相やシンボルが変化するか、ボリューム調節キー904の色相やシンボルが変化するか、及び/またはダイアログボリューム調節選択キー906の高さが変化するといった方法でボリューム調節キー904の機能変化をユーザに通知することができる。音または力フィードバック、あるいは、リモコン画面またはテレビジョンスクリーン、モニターなどにテキストメッセージや絵を表示するなどのリモコンでの選択をユーザに知らせる他の多様な方法も実現可能である。
【0061】
上記のような調節方法の利点は、ユーザがボリュームを直観的に調節することができ、ダイアログ、背景音楽、反響音などのようなオーディオ信号の多様な特性を調節するために前記リモコンでボタンとキーとが増加するのを防止できるという点にある。多様なオーディオ信号が制御されるとき、調節されるべきオーディオ信号の特別な成分信号は前記ダイアログボリューム調節選択キー906を用いて選択される。このような成分信号は、ダイアログ信号、背景音楽、音響効果などを含むことができるが、これに限定されない。
【0062】
<ユーザに調節情報を通知する方法>
(OSDを用いた方法#1)
下記の例で、テレビジョン受信機のOSD(On Screen Display)を説明する。しかし、本発明は、増幅器のOSD、PMPのOSD、増幅器/PMPのLCD表示窓などのように、装置の状態を出力可能なメディアの他の形態に適用されることは自明である。
【0063】
図10は、一般的なテレビジョン受信機1002のOSD1000を示す。ダイアログボリューム内の変化は、数字で表現されるか、図12に示すようにバー1004の形態で表現される。一部の実施例において、ダイアログボリュームは、相対的なレベル(図10)や、図11に示すように主音量または他の成分信号との割合で出力される。
【0064】
図11は、主音量とダイアログボリュームの図式的な客体(例えば、バー、ライン)をディスプレイする方法を例示する。図11の例において、前記バーは主音量を示し、バーの中間領域に描かれたラインの長さは、ダイアログボリュームのレベルを示す。例えば、バー1100内のライン1106は、ユーザにダイアログボリュームが調節されていないことを知らせる。ボリュームが調節されていない場合、前記ダイアログボリュームは主音源と同一の値を有するようになる。バー1102内の前記ライン1108は、ユーザに前記ダイアログボリュームが増加したことを知らせ、バー1104内の前記ライン1110は、ユーザに前記ダイアログボリュームが減少したことを知らせる。
【0065】
図11を参照して記述された出力方法は、ユーザが前記ダイアログボリュームの相対的な値を知ることができるので、前記ダイアログボリュームをより効率的に調節できるという長所を有する。さらに、ダイアログボリュームバーが主音量バーと一緒に出力されるので、OSD1000を効率的かつ一貫的に実現することができる。
【0066】
前記開示された実施例は、図11に示すようにバー形式の出力に制限されない。むしろ、主音量と調節されるべき特定のボリューム(例えば、前記ダイアログボリューム)を同時に出力するか、調節されるべきボリュームと主音量との間の相対的な対比を提供する何らかの図式的な客体が使用される。例えば、二つのバーが個別的にディスプレイされるか、互いに異なる色相及び/または広さを有するオーバーラップされたバーが一緒に出力される。
【0067】
調節されるボリュームの形式の数が二つ以上である場合、前記ボリュームは、上記で直接説明した方法によって出力される。しかし、調節されるボリュームの形式の数が三つ以上である場合、ユーザの混同を防止するために、現在調節されるボリューム情報のみを出力する方法が使用される。例えば、反響音ボリューム及びダイアログボリュームが調節されるが、ダイアログが現在の大きさに維持される間に反響音のボリュームのみが調節される場合には、例えば、上述した方法を用いて主音量と反響音のボリュームのみが表示される。本例において、前記主音量と反響音のボリュームは、互いに異なる色相または形状を有し、直観的に確認されることがより好ましい。
【0068】
(OSDを用いた方法#2)
図12は、装置1200(例えば、テレビジョン受信機)のOSD1202にダイアログボリュームを表示する方法の例を示した図である。一部の実施例において、ダイアログレベル情報1206は、ボリュームバー1204と別個に出力される。前記ダイアログレベル情報1206は、多様なサイズ、フォント、色相、明るさレベル、フラッシングまたは他の視覚的装飾または標識で出力される。このような出力方法は、図9を参照して説明したように、前記ボリュームが段階的に循環されるように調節されるとき、より効果的に使用される。一部の実施例において、ダイアログボリュームは、相対的なレベルや、前記主音量または他の成分信号との比として出力される。
【0069】
図13に示すように、ダイアログボリュームの分離指示器1306は、装置1300のOSD1302で調節されるボリュームの形態を出力する代わりに、またはこれに加えて使用される。このような出力方式の長所は、スクリーンで見られるコンテンツが、ディスプレイされるボリューム情報によって受ける影響(例えば、不明瞭な)が比較的少ないことにある。
【0070】
<調節装置の出力>
一部の実施例において、前記ダイアログボリューム調節選択キー906(図9)が選択されるとき、ボリュームキーの機能変化をユーザに通知するために、前記ダイアログボリューム調節選択キー906の色相が変化する。選択的に、前記ダイアログボリューム調節選択キー906が活性化されるとき、前記ボリューム調節キー904の色相や高さを変化させることが利用される。
【0071】
<デジタルテレビジョンシステムの例>
図14は、図1〜図13を参照して記述した機能とプロセスが行われるデジタルテレビジョンシステム1400の例を示したブロック図である。デジタルテレビジョン(DTV)は、デジタル信号の手段によって動画像及び音を受信して放送する遠隔通信システムである。デジタルテレビジョンは、デジタル的に圧縮され、特別にデザインされたテレビジョンセット、セットトップボックスが備わった標準受信機、またはテレビジョンカードが備わったPCによって復号化されることが要求されるデジタル変調データを使用する。図14のシステムがデジタルテレビジョンシステムに関するものであるが、前記ダイアログ増幅のために開示された各実施例は、ダイアログ増幅が必要なアナログテレビジョンシステムまたはその他のシステムに適用される。
【0072】
一部の実施例において、前記システム1400は、インタフェース1402、デモジュレータ1404、デコーダ1406、オーディオ/ビデオ出力部1408、ユーザ入力インタフェース1410、一つまたはそれ以上のプロセッサ1412(例えば、Intel(登録商標) processors)、一つまたはそれ以上のコンピュータ読取可能媒体1414(例えば、RAM、ROM、SDRAM、ハードディスク、光ディスク、フラッシュメモリ、SANなど)を含むことができる。このような各要素は、一つまたはそれ以上の通信チャネル1416(例えば、バス)と結合される。一部の実施例において、前記インタフェース1402は、オーディオ信号または結合されたオーディオ/ビデオ信号を獲得するための多様な回路を含む。例えば、アナログテレビジョンシステムで、インタフェースは、アンテナ装置、チューナ、ミキサー、ラジオ周波数(RF)増幅器、ローカルオシレーター、IF(intermediate frequency)増幅器、一つまたはそれ以上のフィルタ、デモジュレータ、オーディオ増幅器などを含むことができる。これに付加または限定される構成要素を有する実施例を含むシステム1400の他の実施例が実現可能である。
【0073】
前記チューナ1402は、ビデオとオーディオコンテンツを含むデジタルテレビジョン信号を受信するデジタルテレビジョンチューナである。前記デモジュレータ1404は、前記デジタルテレビジョン信号からビデオ及びオーディオ信号を抽出する。ビデオとオーディオ信号が符号化された場合(例えば、MPEG符号化)、前記デコーダ1406は、その信号を復号化する。前記オーディオ/ビデオ出力はビデオを出力し、オーディオを再生可能な如何なる装置(例えば、テレビジョンディスプレイ、コンピュータモニタ、LCD、スピーカ、オーディオ・システム)でも出力される。
【0074】
一部の実施例において、前記ユーザ入力インタフェースは、リモコン(例えば、図9のリモコン900)から生成された赤外線通信または無線通信信号を受信して復号化する回路素子及び/またはソフトウェアを含むことができる。
【0075】
一部の実施例において、前記一つまたはそれ以上のプロセッサは、図1〜図13を参照して説明したように、前記特性と機能1418,1420,1422及び1426を行う前記コンピュータ読取可能媒体1414に保存されているコードを実行することができる。
【0076】
前記コンピュータ読取可能媒体は、オペレーティングシステム1418、分析/合成フィルタバンク1420、ダイアログ推定器1422、分類器1424及び自動情報生成器1426をさらに含む。前記"コンピュータ読取可能媒体"は、不揮発性媒体(例えば、光学または磁気ディスク)、揮発性媒体(例えば、メモリ)及び伝送媒体を含むが、これに限定されることなく、実行のためにプロセッサ1412に命令を提供するのに関係する媒体を意味する。伝送媒体は、同軸ケーブル、銅線及び光ファイバを含むが、これに限定されることはない。伝送媒体は、前記音波、光波または高周波の形態を受信することができる。
【0077】
前記オペレーティングシステム1418は、マルチユーザ、マルチプロセッシング、マルチタスキング、マルチスレッディング、リアルタイムなどが可能である。前記オペレーティングシステム1418は、前記ユーザ入力インタフェース1410からの入力信号認識と、トラック維持、及びコンピュータ読取可能媒体1414(例えば、メモリまたは保存装置)でのファイルまたはディレクトリ管理と、周辺装置の制御と、前記一つまたはそれ以上の通信チャネル1416の疎通管理とを含むが、これに限定されることなく、上記のような基本的な機能を行う。
【0078】
上記のように説明した特徴は、少なくとも一つ以上の入力装置と出力装置とを有するデータ保存システムからデータ及び命令を受信し、データ及び命令を伝送する少なくとも一つ以上のプログラム化可能なプロセッサを含むプログラミングシステムで実行される一つまたはそれ以上のコンピュータプログラムで好適に実施される。コンピュータプログラムは、特定の行為を行うか、特定の結果をもたらすコンピュータで直接または間接的に使用される命令の集合である。コンピュータプログラムは、コンパイルまたは機械語を含む如何なるプログラミング言語(例えば、Objective−C、Java(登録商標))の形態でも書き込まれ、独立したプログラムと同一の形態、モジュール、コンポーネント及びサブルーチンの形態、またはコンピュータ環境下でユーザに適した他のユニットを含む如何なる形態にも構成される。
【0079】
前記命令のプログラムの遂行のための適正なプロセッサは、例えば、何らかの種類のコンピュータの一般的または特別な目的のマイクロプロセッサのみならず、単独プロセッサ、マルチプルプロセッサまたはコアを含む。一般的に、プロセッサは、ROM、RAMまたはこれら二つから命令及びデータを受信する。前記コンピュータの必須要素は、命令を行うプロセッサと、命令及びデータを保存するための一つまたはそれ以上のメモリである。一般的に、コンピュータは、データファイルを保存するための一つまたはそれ以上の大容量保存装置を含むか、通信して動作可能に連結される。このような保存装置は、内部ハードディスクとデータ削除可能なディスクのような磁気ディスク、磁気光ディスク及び光ディスクを含む。コンピュータプログラム命令及びデータを実体的に具体化するのに適した保存装置は、不揮発性メモリの全ての形態、例えば、EPROM、EEPROM、フラッシュメモリ装置のような半導体メモリ装置、内部ハードディスクとデータ削除可能なディスクのような磁気ディスク、磁気光ディスク、及びCD−ROM、DVD−ROMディスクを含む。前記プロセッサとメモリは、ASIC(application−specific integrated circuits)によってまたはASICと一体化して補強される。
【0080】
ユーザとの相互作用を提供するために、前記各特性は、前記ユーザに情報を出力するCRTまたはLCDモニターのようなディスプレイ装置と、ユーザがコンピュータに命令を入力できるキーボード及びマウスまたはトラックボールのようなポインティング装置とが備わったコンピュータで実行される。
【0081】
前記各特性は、データサーバのようなバックエンドコンポーネントを含むか、アプリケーションサーバまたはインターネットサーバのようなミドルウェアーコンポーネントを含むか、グラフィックユーザインタフェース、インターネットブラウザまたはこれらの結合を備えるクライアントコンピュータのようなフロントエンドコンポーネントを含むコンピュータシステムで実行される。前記システムの各成分は、通信ネットワークのようなデジタルデータ通信の如何なる形態または媒体とも連結される。通信ネットワークの例として、LAN、WANなどを含み、前記コンピュータとネットワークはインターネットを構成する。
【0082】
前記コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般的に互いに遠く離れており、概してネットワークを通して互いに通信する。前記クライアントとサーバの関係は、それぞれのコンピュータで動作し、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生じる。
【0083】
以上、多数の実施例を説明したが、これに限定されることなく、多様な変形例が可能であることを理解すべきである。例えば、一つまたはそれ以上の実施例を構成する構成要素は、他の実施例を形成するために結合、省略、変形または追加される。他の例として、図面に描写された論理フローは、所望の結果を得るために示された特別な順序や順次的な順序が要求されない。さらに、説明されたフローで他の段階が追加または省略されることもあり、説明されたシステムで他の成分が追加または省略されることもある。したがって、他の実施例も、下記の請求項の権利範囲内に含まれる。
【特許請求の範囲】
【請求項1】
第1の複数チャネルオーディオ信号を獲得する段階と、
ゲインを獲得する段階と、
前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含む場合、前記ゲインによって前記センターチャネル信号の現在のゲインを修正する段階と、
前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含まない場合、仮想センターチャネル信号を推定し、前記ゲインによって前記仮想センターチャネル信号にゲインを適用する段階と、
を含むことを特徴とする方法。
【請求項2】
前記仮想センターチャネル信号を推定する段階は、
前記第1の複数チャネルオーディオ信号の左右のチャネルの間の相関度、前記第1の複数チャネルオーディオ信号のレベル及び前記第1の複数チャネルオーディオ信号のスペクトル成分のうち少なくとも何れか一つを用いる、請求項1に記載の方法。
【請求項3】
前記仮想センターチャネル信号を推定し、前記仮想センターチャネル信号にゲインを適用する段階は、
前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合する段階と、
前記結合された左右のチャネル信号をフィルタリングする段階と、
前記フィルタリングされ、結合された左右のチャネル信号の現在のゲインを前記ゲインによって修正する段階と、
をさらに含む、請求項1または2に記載の方法。
【請求項4】
前記仮想センターチャネル信号を推定し、前記仮想センターチャネル信号にゲインを適用する段階は、
前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合する段階と、
前記ゲインによって前記結合された左右のチャネル信号の現在のゲインを修正する段階と、
前記修正され、結合された左右のチャネル信号をフィルタリングする段階と、
をさらに含む、請求項1または2に記載の方法。
【請求項5】
仮想センターチャネル信号を推定する段階は、
前記第1の複数チャネルオーディオ信号をフィルタリングし、左右のチャネル信号を提供する段階と、
前記左右のチャネル信号を周波数ドメインに変換する段階と、
前記変換された左右のチャネル信号を用いて仮想センターチャネル信号を推定する段階と、
をさらに含む、請求項1または2に記載の方法。
【請求項6】
前記修正されたチャネル信号または前記修正された仮想センターチャネル信号と前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合し、第2オーディオ信号を提供する段階をさらに含む、請求項1乃至5のうち何れか1項に記載の方法。
【請求項7】
前記第1の複数チャネルオーディオ信号は、5.1、6.1及び7.1チャネル信号のうちの一つである、請求項1乃至6のうち何れか1項に記載の方法。
【請求項8】
前記第1の複数チャネルオーディオ信号を周波数サブバンド別に分割する段階と、
前記サブバンドによって前記仮想センターチャネル信号を推定する段階と、
をさらに含む、請求項1乃至7のうち何れか1項に記載の方法。
【請求項9】
前記仮想センターチャネル信号を推定する段階は、
前記第1の複数チャネルオーディオ信号の一つ以上の成分信号を分類する段階と、
前記分類に基づいて前記仮想センターチャネル信号にゲインを適用する段階と、
をさらに含む、請求項1乃至8のうち何れか1項に記載の方法。
【請求項10】
前記推定された仮想センターチャネル信号の一つ以上の成分信号を分類し、前記推定された仮想センターチャネル信号が音声成分信号を含むか否かを決定する段階と、
前記推定された仮想センターチャネル信号が音声成分信号を含む場合、前記仮想センターチャネル信号を修正する段階と、
をさらに含む、請求項1乃至9のうち何れか1項に記載の方法。
【請求項11】
前記仮想センターチャネル信号と前記複数のチャネルオーディオ信号の比率を比較する段階と、
前記比率が第1臨界値より低い場合、前記仮想センターチャネル信号を増幅する段階と、
をさらに含む、請求項1乃至10のうち何れか1項に記載の方法。
【請求項12】
第1の複数チャネルオーディオ信号及びゲインを獲得するために構成される少なくとも一つ以上のインタフェースと、
前記インタフェースと連結され、仮想センターチャネル信号を推定し、前記ゲインによって前記仮想センターチャネル信号にゲインを適用するように構成されるプロセッサと、
を含むことを特徴とする装置。
【請求項13】
前記仮想センターチャネル信号を推定する場合において、
前記第1の複数チャネルオーディオ信号の左右のチャネルの間の相関度、前記第1の複数チャネルオーディオ信号のレベル及び前記第1の複数チャネルオーディオ信号のスペクトル成分のうち少なくとも何れか一つをさらに用いる、請求項12に記載の装置。
【請求項14】
前記仮想センターチャネル信号を推定し、前記仮想センターチャネル信号にゲインを適用する場合において、さらに、
前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合し、
結合された前記左右のチャネル信号をフィルタリングし、
前記ゲインによって前記フィルタリングされ、結合された左右のチャネル信号の現在のゲインを修正する、請求項12または13に記載の装置。
【請求項15】
前記仮想センターチャネル信号を推定し、前記仮想センターチャネル信号にゲインを適用する場合において、さらに、
前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合し、
前記ゲインによって前記結合された左右のチャネル信号の現在のゲインを修正し、
前記修正され、結合された左右のチャネル信号をフィルタリングする、請求項12または13に記載の装置。
【請求項16】
前記プロセッサは、
前記第1の複数チャネルオーディオ信号をフィルタリングして左右のチャネル信号を提供し、
前記左右のチャネル信号を周波数ドメインに変換し、
前記変換された左右のチャネル信号を用いて仮想センターチャネル信号を推定するように形成される、請求項12または13に記載の装置。
【請求項17】
前記プロセッサは、
前記修正されたチャネル信号または前記修正された仮想センターチャネル信号と前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合し、第2オーディオ信号を提供するようにさらに形成される、請求項12乃至16のうち何れか1項に記載の装置。
【請求項18】
前記第1の複数チャネルオーディオ信号は、5.1、6.1及び7.1チャネル信号のうち一つである、請求項12乃至17のうち何れか1項に記載の装置。
【請求項19】
前記第1の複数チャネルオーディオ信号を周波数サブバンド別に分割するように形成されるフィルタバンクをさらに含み、
前記プロセッサは、前記サブバンドによって前記仮想センターチャネル信号を推定する、請求項12乃至18のうち何れか1項に記載の装置。
【請求項20】
前記第1の複数チャネルオーディオ信号の一つ以上の成分信号を分類するように形成される分類器をさらに含み、
前記プロセッサは、前記分類に基づいて前記仮想センター信号にゲインを適用する、請求項12乃至19のうち何れか1項に記載の装置。
【請求項21】
前記仮想センターチャネル信号の一つ以上の成分信号を分類し、前記仮想センターチャネル信号が正確に推定されたか否かを決定する分類器をさらに含む、請求項12乃至20のうち何れか1項に記載の装置。
【請求項22】
前記仮想センターチャネル信号と前記複数のチャネルオーディオ信号の比率を自動的に比較し、
前記比率が第1臨界値より低い場合、前記仮想センターチャネル信号を増幅するように形成される自動コントロール情報生成器をさらに含む、請求項12乃至21のうち何れか1項に記載の装置。
【請求項23】
第1の複数チャネルオーディオ信号を獲得する段階と、
ゲインを表す入力を獲得する段階と、
前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含む場合、前記ゲインによって前記センターチャネル信号の現在のゲインを修正する段階と、
前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含まない場合、仮想センターチャネル信号を推定し、前記ゲインによって前記仮想センターチャネル信号にゲインを適用する段階と、
を行うようにプロセッサを制御する命令を含むコンピュータ読取可能媒体。
【請求項24】
前記修正されたチャネル信号または前記修正された仮想センターチャネル信号と前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合し、第2オーディオ信号を提供する段階をさらに含んで行われる、請求項23に記載のコンピュータ読取可能媒体。
【請求項25】
複数のチャネルオーディオ信号を獲得する手段と、
ゲインを表す入力信号を獲得する手段と、
前記複数のチャネルオーディオ信号がセンターチャネル信号を含む場合、前記ゲインによって前記センターチャネル信号のゲインを修正する手段と、
前記複数のチャネルオーディオ信号がセンターチャネル信号を含まない場合、仮想センターチャネル信号を推定する手段と、
前記ゲインによって前記仮想センターチャネル信号のゲインを修正する手段と、
を含むことを特徴とするシステム。
【請求項1】
第1の複数チャネルオーディオ信号を獲得する段階と、
ゲインを獲得する段階と、
前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含む場合、前記ゲインによって前記センターチャネル信号の現在のゲインを修正する段階と、
前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含まない場合、仮想センターチャネル信号を推定し、前記ゲインによって前記仮想センターチャネル信号にゲインを適用する段階と、
を含むことを特徴とする方法。
【請求項2】
前記仮想センターチャネル信号を推定する段階は、
前記第1の複数チャネルオーディオ信号の左右のチャネルの間の相関度、前記第1の複数チャネルオーディオ信号のレベル及び前記第1の複数チャネルオーディオ信号のスペクトル成分のうち少なくとも何れか一つを用いる、請求項1に記載の方法。
【請求項3】
前記仮想センターチャネル信号を推定し、前記仮想センターチャネル信号にゲインを適用する段階は、
前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合する段階と、
前記結合された左右のチャネル信号をフィルタリングする段階と、
前記フィルタリングされ、結合された左右のチャネル信号の現在のゲインを前記ゲインによって修正する段階と、
をさらに含む、請求項1または2に記載の方法。
【請求項4】
前記仮想センターチャネル信号を推定し、前記仮想センターチャネル信号にゲインを適用する段階は、
前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合する段階と、
前記ゲインによって前記結合された左右のチャネル信号の現在のゲインを修正する段階と、
前記修正され、結合された左右のチャネル信号をフィルタリングする段階と、
をさらに含む、請求項1または2に記載の方法。
【請求項5】
仮想センターチャネル信号を推定する段階は、
前記第1の複数チャネルオーディオ信号をフィルタリングし、左右のチャネル信号を提供する段階と、
前記左右のチャネル信号を周波数ドメインに変換する段階と、
前記変換された左右のチャネル信号を用いて仮想センターチャネル信号を推定する段階と、
をさらに含む、請求項1または2に記載の方法。
【請求項6】
前記修正されたチャネル信号または前記修正された仮想センターチャネル信号と前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合し、第2オーディオ信号を提供する段階をさらに含む、請求項1乃至5のうち何れか1項に記載の方法。
【請求項7】
前記第1の複数チャネルオーディオ信号は、5.1、6.1及び7.1チャネル信号のうちの一つである、請求項1乃至6のうち何れか1項に記載の方法。
【請求項8】
前記第1の複数チャネルオーディオ信号を周波数サブバンド別に分割する段階と、
前記サブバンドによって前記仮想センターチャネル信号を推定する段階と、
をさらに含む、請求項1乃至7のうち何れか1項に記載の方法。
【請求項9】
前記仮想センターチャネル信号を推定する段階は、
前記第1の複数チャネルオーディオ信号の一つ以上の成分信号を分類する段階と、
前記分類に基づいて前記仮想センターチャネル信号にゲインを適用する段階と、
をさらに含む、請求項1乃至8のうち何れか1項に記載の方法。
【請求項10】
前記推定された仮想センターチャネル信号の一つ以上の成分信号を分類し、前記推定された仮想センターチャネル信号が音声成分信号を含むか否かを決定する段階と、
前記推定された仮想センターチャネル信号が音声成分信号を含む場合、前記仮想センターチャネル信号を修正する段階と、
をさらに含む、請求項1乃至9のうち何れか1項に記載の方法。
【請求項11】
前記仮想センターチャネル信号と前記複数のチャネルオーディオ信号の比率を比較する段階と、
前記比率が第1臨界値より低い場合、前記仮想センターチャネル信号を増幅する段階と、
をさらに含む、請求項1乃至10のうち何れか1項に記載の方法。
【請求項12】
第1の複数チャネルオーディオ信号及びゲインを獲得するために構成される少なくとも一つ以上のインタフェースと、
前記インタフェースと連結され、仮想センターチャネル信号を推定し、前記ゲインによって前記仮想センターチャネル信号にゲインを適用するように構成されるプロセッサと、
を含むことを特徴とする装置。
【請求項13】
前記仮想センターチャネル信号を推定する場合において、
前記第1の複数チャネルオーディオ信号の左右のチャネルの間の相関度、前記第1の複数チャネルオーディオ信号のレベル及び前記第1の複数チャネルオーディオ信号のスペクトル成分のうち少なくとも何れか一つをさらに用いる、請求項12に記載の装置。
【請求項14】
前記仮想センターチャネル信号を推定し、前記仮想センターチャネル信号にゲインを適用する場合において、さらに、
前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合し、
結合された前記左右のチャネル信号をフィルタリングし、
前記ゲインによって前記フィルタリングされ、結合された左右のチャネル信号の現在のゲインを修正する、請求項12または13に記載の装置。
【請求項15】
前記仮想センターチャネル信号を推定し、前記仮想センターチャネル信号にゲインを適用する場合において、さらに、
前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合し、
前記ゲインによって前記結合された左右のチャネル信号の現在のゲインを修正し、
前記修正され、結合された左右のチャネル信号をフィルタリングする、請求項12または13に記載の装置。
【請求項16】
前記プロセッサは、
前記第1の複数チャネルオーディオ信号をフィルタリングして左右のチャネル信号を提供し、
前記左右のチャネル信号を周波数ドメインに変換し、
前記変換された左右のチャネル信号を用いて仮想センターチャネル信号を推定するように形成される、請求項12または13に記載の装置。
【請求項17】
前記プロセッサは、
前記修正されたチャネル信号または前記修正された仮想センターチャネル信号と前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合し、第2オーディオ信号を提供するようにさらに形成される、請求項12乃至16のうち何れか1項に記載の装置。
【請求項18】
前記第1の複数チャネルオーディオ信号は、5.1、6.1及び7.1チャネル信号のうち一つである、請求項12乃至17のうち何れか1項に記載の装置。
【請求項19】
前記第1の複数チャネルオーディオ信号を周波数サブバンド別に分割するように形成されるフィルタバンクをさらに含み、
前記プロセッサは、前記サブバンドによって前記仮想センターチャネル信号を推定する、請求項12乃至18のうち何れか1項に記載の装置。
【請求項20】
前記第1の複数チャネルオーディオ信号の一つ以上の成分信号を分類するように形成される分類器をさらに含み、
前記プロセッサは、前記分類に基づいて前記仮想センター信号にゲインを適用する、請求項12乃至19のうち何れか1項に記載の装置。
【請求項21】
前記仮想センターチャネル信号の一つ以上の成分信号を分類し、前記仮想センターチャネル信号が正確に推定されたか否かを決定する分類器をさらに含む、請求項12乃至20のうち何れか1項に記載の装置。
【請求項22】
前記仮想センターチャネル信号と前記複数のチャネルオーディオ信号の比率を自動的に比較し、
前記比率が第1臨界値より低い場合、前記仮想センターチャネル信号を増幅するように形成される自動コントロール情報生成器をさらに含む、請求項12乃至21のうち何れか1項に記載の装置。
【請求項23】
第1の複数チャネルオーディオ信号を獲得する段階と、
ゲインを表す入力を獲得する段階と、
前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含む場合、前記ゲインによって前記センターチャネル信号の現在のゲインを修正する段階と、
前記第1の複数チャネルオーディオ信号がセンターチャネル信号を含まない場合、仮想センターチャネル信号を推定し、前記ゲインによって前記仮想センターチャネル信号にゲインを適用する段階と、
を行うようにプロセッサを制御する命令を含むコンピュータ読取可能媒体。
【請求項24】
前記修正されたチャネル信号または前記修正された仮想センターチャネル信号と前記第1の複数チャネルオーディオ信号の左右のチャネル信号を結合し、第2オーディオ信号を提供する段階をさらに含んで行われる、請求項23に記載のコンピュータ読取可能媒体。
【請求項25】
複数のチャネルオーディオ信号を獲得する手段と、
ゲインを表す入力信号を獲得する手段と、
前記複数のチャネルオーディオ信号がセンターチャネル信号を含む場合、前記ゲインによって前記センターチャネル信号のゲインを修正する手段と、
前記複数のチャネルオーディオ信号がセンターチャネル信号を含まない場合、仮想センターチャネル信号を推定する手段と、
前記ゲインによって前記仮想センターチャネル信号のゲインを修正する手段と、
を含むことを特徴とするシステム。
【図1】
【図2】
【図3】
【図4】
【図5A】
【図5B】
【図5C】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5A】
【図5B】
【図5C】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公表番号】特表2010−518655(P2010−518655A)
【公表日】平成22年5月27日(2010.5.27)
【国際特許分類】
【出願番号】特願2009−527925(P2009−527925)
【出願日】平成19年9月14日(2007.9.14)
【国際出願番号】PCT/IB2007/003789
【国際公開番号】WO2008/035227
【国際公開日】平成20年3月27日(2008.3.27)
【出願人】(502032105)エルジー エレクトロニクス インコーポレイティド (2,269)
【Fターム(参考)】
【公表日】平成22年5月27日(2010.5.27)
【国際特許分類】
【出願日】平成19年9月14日(2007.9.14)
【国際出願番号】PCT/IB2007/003789
【国際公開番号】WO2008/035227
【国際公開日】平成20年3月27日(2008.3.27)
【出願人】(502032105)エルジー エレクトロニクス インコーポレイティド (2,269)
【Fターム(参考)】
[ Back to top ]