リミキシング能力を有する向上したオーディオ
【課題】リミックス能力を向上したオーディオ信号処理を実現する。
【解決手段】ステレオまたはマルチ−チャネルオーディオ信号の一つまたはそれ以上のオブジェクト(例えば、楽器)と関連した一つまたはそれ以上の属性(例えば、パン、ゲインなど)は変形されて、リミックス能力を提供することができる。
【解決手段】ステレオまたはマルチ−チャネルオーディオ信号の一つまたはそれ以上のオブジェクト(例えば、楽器)と関連した一つまたはそれ以上の属性(例えば、パン、ゲインなど)は変形されて、リミックス能力を提供することができる。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は、2007年8月13日付米国仮出願第60/955,394号の「ステレオオーディオリミキシング能力の向上(Enhancing Stereo Audio Remix Capability)」に対する優先権の利益を主張する。該出願の全ての内容は参考文献として本特許出願に援用される。
【0002】
本出願の主な技術的内容は、一般的に、オーディオ信号処理に関するものである。
【背景技術】
【0003】
多数の消費者オーディオ装置(例えば、ステレオ(stereos)、メディアプレーヤ、モバイルフォン、ゲームコンソール等)は、イコライゼーション(equalization)(例えば、ベース(bass)、トレブル(treble))、ボリューム、室内音響効果(acoustic room effects)などのためのコントロール(control)を用いて、ユーザがステレオオーディオ信号を変形できるようにする。しかし、これらの変形は、オーディオ信号を形成する個別のオーディオオブジェクト(例えば、楽器)ではなく全体オーディオ信号に適用される。例えば、ユーザは、全体の歌に影響を与えることなく歌中のそのギター、ドラムまたはボーカルのステレオパニングまたはゲインを個別に変形することはできない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
デコーダでミキシング柔軟性(flexibility)を提供する技術が提案されてきている。この種の技術は、ミックスされたデコーダ出力信号を生成するためにバイノーラルキューコーディング(BCC)、パラメトリック(parametric)または空間オーディオデコーダを必要とする。しかし、いかなる技術も、音質損傷無しで下位互換性(backwards compatibility)を許容するようにステレオミックス(例えば、専門的にミックスされた音楽)を直接的にエンコーディングすることはできない。
【0005】
空間オーディオコーディング技術は、チャネル間(inter-channel)キュー(cue)(例えば、レベル差、時間差、位相差、相関度(coherence))を用いてステレオまたはマルチ−チャネルオーディオチャネルを表現するために提案されてきた。チャネル間キューは、マルチ−チャネル出力信号を生成するのに用いるために「付加情報「としてデコーダに伝送される。しかし、かかる従来の空間オーディオコーディング技術は、多くの欠陥を有する。例えば、オーディオオブジェクトがデコーダで変形されない場合であっても、この技術のうち少なくとも一部は、デコーダに伝送されるそれぞれのオーディオオブジェクトに対する分離された信号を要求する。このような要求はエンコーダ及びデコーダで余分の過程を生じさせる。他の欠陥は、ステレオ(または、マルチ−チャネル)オーディオ信号またはオーディオソース信号に対するエンコーダ入力の制限である。その結果、デコーダでのリミキシング柔軟性が減少する。最後に、従来技術の少なくとも一部は、デコーダで複雑なデコリレーションズ(de-correlation)過程を要求するので、一部アプリケーションまたは装置でこのような技術が不適合になる。
【課題を解決するための手段】
【0006】
ステレオまたはマルチ−チャネルオーディオ信号の一つまたはそれ以上のオブジェクト(例えば、楽器)と関連した、一つまたはそれ以上の属性(例えば、パン、ゲインなど)を、リミックス能力を提供するように変形することができる。
【0007】
本発明の一実施例で、ステレオアカペラ信号は、ステレオオーディオ信号から非音声(non−vocal)ソースを減衰させることによって誘導される。統計的なフィルタは、アカペラステレオ信号モデルからの期待値を用いて計算することができる。統計的なフィルタは、減衰ファクタと結合して非音声信号を減衰させるために用いられることができる。
【0008】
本発明の一実施例で、自動ゲイン/パニング調節は、ステレオオーディオ信号に適用されることができ、これは、ユーザがゲイン及びパニングコントロールの極端なセッティングをすることを防止する。ゲインスライダ間の平均距離は、ゲインスライダの範囲を制限するために平均距離の関数として調節ファクタと一緒に使用されることができる。
【0009】
他の実施例は、システム、方法、装置、コンピュータ読み取り可能媒体及びユーザインタフェースに対する実装を含むリミキシング能力を有する向上したオーディオのために開示される。
【図面の簡単な説明】
【0010】
【図1A】ステレオ信号及びデコーダでリミックスされるオブジェクトに対応するMソース信号をエンコーディングするエンコーディングシステムの一実施例を示すブロック図である。
【図1B】ステレオ信号及びデコーダでリミックスされるオブジェクトに対応するMソース信号をエンコーディングする過程の一実施例示すフローチャートである。
【図2】ステレオ信号及びMソース信号の分析及び処理のための時間−周波数グラフ表現である。
【図3A】原(original)ステレオ信号及び付加情報を用いてリミックスされたステレオ信号を推定するためのリミキシングシステムの一実施例を示すブロック図である。
【図3B】図3Aのリミックスシステムを用いてリミックスされたステレオ信号を推定するための過程の一実施例を示すフローチャートである。
【図4】インデックスbの部分に属する短時間フーリエ変換(STFT: short-time Fourier transform)係数のインデックスiを示す図である。
【図5】人間聴覚システムの非均等(non−uniform)周波数解像度(frequency resolution)を摸倣するための均等STSFスペクトラル係数の分類(grouping)を示す図である。
【図6A】図1Aに従来のステレオオーディオエンコーダが結合されたエンコーディングシステムの一実施例を示すブロック図である。
【図6B】図1Aに従来のステレオオーディオエンコーダが結合されたエンコーディングシステムを用いたエンコーディング過程の一実施例を示すフローチャートである。
【図7A】図3Aに従来のステレオオーディオデコーダが結合されたリミキシングシステムの一実施例を示すブロック図である。
【図7B】図7Aにステレオオーディオデコーダが結合されたリミキシングシステムを用いたリミックス過程の一実施例を示すフローチャートである。
【図8A】完全なブラインド(blind)付加情報生成を実装するエンコーディングシステムの一実施例を示すブロック図である。
【図8B】図8Aのエンコーディングシステムを用いたエンコーディング過程の一実施例を示すフローチャートである。
【図9】所望のソースレベル差Li=LdBに対するゲイン関数f(M)の一例を示す図である。
【図10】部分的なブラインド生成技術を用いた付加情報生成過程の一実施例を示すフローチャートである。
【図11】ステレオ信号だけでなく、Mソース信号及び/または付加情報をリミキシング能力を備えたオーディオ装置に提供するためのサーバ/クライアントシステム構成の一実施例を示すブロック図である。
【図12】リミックス能力を備えたメディアプレーヤのためのユーザインタフェースの一実施例を示す図である。
【図13】空間オーディオオブジェクト(SAOC)デコーディング及びリミックスデコーディングを結合したデコーディングシステムの一実施例を示す図である。
【図14A】分離されたダイアログボリューム(SDV: Separate Dialogue Volume)のための一般的なミキシングモデルを示す図である。
【図14B】SDV及びリミックス技術を結合したシステムの一実施例を示す図である。
【図15】図14Bに示すイコライザ・ミックスレンダラ(eq-mix renderer)の一実施例を示す図である。
【図16】図1〜図15を参照して説明されたリミックス技術のための分散システムの一実施例を示す図である。
【図17A】リミックス情報を提供するための様々なビットストリーム実装形態の要素を示す図である。
【図17B】図17Aに示すビットストリームを生成するためのリミックスエンコーダインタフェースの一実施例を示す図である。
【図17C】図17Bに示すエンコーダインタフェースにより生成されたビットストリームを受信するためのリミックスデコーダインタフェースの一実施例を示す図である。
【図18】向上したリミックス性能を提供するために、あるオブジェクト信号のための追加的な付加情報を生成するための拡張を含むシステムの一実施例を示すブロック図である。
【図19】図18に示すリミックスレンダラ(renderer)の一実施例を示すブロック図である。
【発明を実施するための形態】
【0011】
I.ステレオ信号のリミキシング
図1Aは、ステレオ信号の他に、デコーダでリミックスされるオブジェクトに対応するMソース信号もエンコーディングするエンコーディングシステム100の一実施例を示すブロック図である。実施例によっては、エンコーディングシステム100は、一般的に、フィルタバンクアレイ(filterbank array)102、付加情報生成部104及びエンコーダ106を含む。
A.原(original)信号及び所望のリミックスされた信号
【0012】
【数1】
【0013】
一部の実施例では、エンコーディングシステム100は、原ステレオオーディオ信号(以下、「ステレオ信号「という。)を変形するための情報(以下、「付加情報「という。)を提供したり生成して、Mソース信号が他のゲインファクタとともにステレオ信号内に「リミックス「される。所望の変形されたステレオ信号は、下記のように表現することができる。
【数2】
ここで、ci及びdiは、リミックスされるMソース信号(すなわち、インデックス1,2,…,Mのソース信号)のための新しいゲインファクタ(以下、「ミキシングゲイン「または「ミックスパラメータ「という。)である。
【0014】
エンコーディングシステム100の目的は、原ステレオ信号及び少ない量(例えば、ステレオ信号波形に含まれた情報と比較して少ない量)の付加情報のみ与えられると、ステレオ信号をリミキシングするための情報を提供または生成することである。エンコーディングシステム100により提供されたり生成された付加情報は、与えられた上記式(1)の原ステレオ信号を上記式(2)の所望の変形された信号を知覚的に摸倣するデコーダで用いることができる。エンコーディングシステム100で、付加情報生成部104は、原ステレオ信号をリミキシングするための付加情報を生成し、デコーダシステム(図3Aの300)は、付加情報及び原ステレオ信号を用いて所望のリミックスされたステレオオーディオ信号を生成する。
B.エンコーダ過程
【0015】
再び図1Aを参照すると、原ステレオ信号及びMソース信号は、フィルタバンクアレイ102に入力として提供される。また、原ステレオ信号は、エンコーダ102から直接出力される。一部の実施例では、エンコーダ102から直接出力されたステレオ信号は、付加情報ビットストリームとの同期化のために遅延されることができる。他の実施形態では、ステレオ信号出力はデコーダで付加情報と同期化することができる。一部の実施例では、エンコーディングシステム100は、時間及び周波数の関数として信号統計に合わせる。したがって、分析(analysis)及び合成(synthesis)のために、ステレオ信号及びMソース信号は、図4及び5に基づく説明のおけるように、時間−周波数表現で処理される。
【0016】
図1Bは、ステレオ信号及びデコーダでリミックスされるオブジェクトに対応するMソース信号をエンコーディングする過程108の一実施例を示すフローチャートである。入力ステレオ信号及びMソース信号はサブバンドに分解される(110)。一部の実施例では、この分解はフィルタバンクアレイを用いて行うことができる。より詳細に後述するが、それぞれのサブバンドに対するゲインファクタは、Mソース信号に関して推定される(112)。後述するように、それぞれのサブバンドに対して、短時間パワー推定値がMソース信号に対して計算される(114)。これら推定されたゲインファクタ及びサブバンドパワーを、付加情報を生成するために量子化及びエンコーディングすることができる(116)。
【0017】
図2は、ステレオ信号及びMソース信号の分析及び処理のための時間−周波数グラフ表現である。グラフのy−軸は周波数を表し、複数の非均等的なサブバンド202に分けられている。x−軸は時間を表し、時間スロット204に分けられる。図2で、それぞれの点線ボックスは、それぞれのサブバンド及び時間スロット対を示す。したがって、与えられた時間スロット204で、時間スロット204に対応する一つまたはそれ以上のサブバンド202はグループ206として処理することができる。一部の実施例では、図4及び5に基づく説明におけるように、サブバンド202の幅が、人間聴覚システムと関連した知覚的限界に基づいて選択される。
【0018】
一部の実施例では、入力ステレオ信号及びM入力ソース信号は、フィルタバンクアレイ102で多数のサブバンド202に分解される。各中心周波数でサブバンド202は略同様に処理されることができる。特定周波数でステレオオーディオ入力信号のサブバンド対はx1(k)及びx2(k)で表し、kは、サブバンド信号のダウンサンプルされた時間インデックスである。これと略同様に、M入力ソース信号の対応するサブバンド信号は、s1(k),s2(k),…,SM(k)で表示される。表記の単純化のために、サブバンドのインデックスはこの例では省略されていることに注目されたい。ダウンサンプリングに対して、低いサンプリング率のサブバンド信号を効率性の側面で用いることができる。普通、フィルタバンク及びSTFTは、サブ−サンプリングされた信号(またはスペクトラル係数)を效率的に有する。
【0019】
本発明の一実施例で、インデックスiのソース信号をリミキシングするために必要な付加情報は、ゲインファクタaiとbi及びそれぞれのサブバンドで時間の関数としてサブバンド信号のパワー推定値E{si2(k)}を含む。ゲインファクタai及びbiは、(ステレオ信号のこのような情報が知られた場合)与えられたり推定されることができる。多くのステレオ信号の場合、ai及びbiは静的(static)である。もし、aiまたはbiが時間kの関数として変化するとすれば、これらのゲインファクタは、時間の関数として推定されることができる。付加情報を生成するためにサブバンドパワーの平均値または推定値を必ずしも用いる必要はない。むしろ一部の実施例では、実際のサブバンドパワーSi2をパワー推定値とすることができる。
【0020】
【数3】
【0021】
一部の実施例では、付加情報ai、bi及びE{si2(k)}の一部あるいは全部を、ステレオ信号として同一媒体に提供することができる。例えば、音楽出版社、レコーディングスタジオ、レコーディングアーティストなどは、対応するステレオ信号と一緒に付加情報をコンパクトディスク(CD)、デジタルビデオディスク(DVD)、フラッシュドライブなどに提供するはずである。一部の実施例では、付加情報をステレオ信号のビットストリームに組み込み(embedding)したり付加情報を別個のビットストリームで伝送することによって、付加情報の一部または全部をネットワーク(例えば、インターネット、イーサネット(登録商標)、無線ネットワーク)を通じて提供することができる。
【0022】
【数4】
【0023】
一部の実施例では、それぞれのサブバンドに対して短時間パワー推定値及びゲインファクタが、付加情報(例えば、低いビット率のビットストリーム)を構成するためにエンコーダ106により量子化及びエンコーディングされる。これらの値は直接的に量子化及びエンコーディングされることはできないが、図4及び図5を参照して説明するように、まず、量子化及びコード化のためにより適合した他の値に変換されうることに注目されたい。一部の実施例では、図6及び図7を参照して説明するように、E{si2(k)}は、入力ステレオオーディオ信号のサブバンドパワーに関して量子化されることができ、従来のオーディオコーダが效率的にステレオオーディオ信号をコーディングする場合、変化と関連してエンコーディングシステム100をロバスト(robust)にさせる。
C.デコーダ過程
【0024】
図3Aは、原ステレオ信号及び付加情報を用いてリミックスされたステレオ信号を推定するためのリミキシングシステム300の一実施例を示すブロック図である。一部の実施例では、リミキシングシステム300は、一般的に、フィルタバンクアレイ302、デコーダ304、リミックスモジュール306及び逆フィルタバンクアレイ308を含む。
【0025】
リミックスされたステレオオーディオ信号の推定は、多くのサブバンドで独立して行うことができる。付加情報は、ステレオ信号に含まれているMソース信号に対するサブバンドパワーE{ si2(k)}及びゲインファクタaiとbiを含む。所望のリミックスされたステレオ信号の新しいゲインファクタまたはミキシングゲインは、ci及びdiで表す。図12を参照して説明するように、ミキシングゲインci及びdiは、オーディオ装置のユーザインタフェースを通じてユーザにより定められることができる。
【0026】
一部の実施例では、入力ステレオ信号は、フィルタバンクアレイ302によりサブバンドに分解され、特定の周波数のサブバンド対はx1(k)及びx2(k)で表示される。図3Aに示すように、付加情報はデコーダ304によりデコーディングされ、リミックスされる各Mソース信号に対して、入力ステレオ信号に含まれたゲインファクタaiとbi、及び各サブバンドに対するパワー推定値E{si2(k)}が算出される。付加情報のデコーディングは、図4及び5を参照してより詳細に説明する。
【0027】
付加情報が与えられると、リミックスされたステレオオーディオ信号の対応サブバンド対を、リミックスされたステレオ信号のミキシングゲインの関数としてリミックスモジュール306により推定することができる。逆フィルタバンクアレイ308は、リミックスされた時間領域ステレオ信号を提供するために、推定されたサブバンド対に適用される。
【0028】
図3Bは、図3Aのリミックスシステムを用いてリミックスされたステレオ信号を推定するためのリミックス過程310の一実施例を示すフローチャートである。入力ステレオ信号は、サブバンド対に分解される(312)。付加情報は、これらサブバンド対に対してデコーディングされる(314)。これらサブバンド対は付加情報とミキシングゲインを用いてリミックスされる(318)。一部の実施例では、図12を参照して説明するように、これらミキシングゲインがユーザにより提供される。選択的に、ミキシングゲインを、アプリケーション、運営体制(operating system)等を通じてプログラム的に提供することができる。図11を参照して説明するように、ミキシングゲインをまた、ネットワーク(インターネット、イーサネット(登録商標)、無線ネットワーク)を通じて提供することができる。
D.リミキシング過程
【0029】
一部の実施例では、リミックスされたステレオ信号は、最小2乗推定(least squares estimation)を用いて数学的に近似値を求めることができる。選択的に、知覚的な考慮は、推定値を変形するために用いることができる。
【0030】
上記式(1)及び式(2)はまた、サブバンド対 x1(k)と x2(k)、y1(k)とy2(k)にそれぞれ適用される。この場合、ソース信号はソースサブバンド信号si(k)に置き換えられる。
【0031】
ステレオ信号のサブバンド対は、次のように与えられる。
【数5】
また、リミックスされたステレオオーディオ信号のサブバンド対は、次の通りである。
【数6】
【0032】
原ステレオ信号のサブバンド対、x1(k)及びx2(k)が与えられると、異なるゲインを有するステレオ信号のサブバンド対は、元の左側及び右側のステレオサブバンド対の線形組合せとして推定される。
【数7】
ここで、w11(k)、w12(k)、w21(k)及びw22(k)は、実数重みファクタである。
【0033】
予測誤差は下記式(10)のように定義される。
【数8】
【0034】
各時間kで、重み値w11(k)、w12(k)、w21(k)及びw22(k)を、各周波数のサブバンドに対して、最小2乗エラーE{e12(k)}及びE{e22(k)}が最小化するように計算することができる。w11(k)及びw12(k)の計算のために、誤差e1(k)がx1(k)及びx2(k)に直交(orthogonal)する時にE{e12(k)}が最小値になるということに注目する。すなわち、下記式(11)のように表すことができる。
【数9】
記載の便宜のために時間インデックスkは省略したことに留意されたい。
【0035】
この式を次のように書き直すことができる。
【数10】
【0036】
ゲインファクタは、この線形方程式システムの解である。
【数11】
【0037】
デコーダ入力ステレオ信号サブバンド対が与えられると、E{x12}、E{x22}及びE{x1x2}は直接的に推定できる反面、E{x1y1}及びE{x2y2}は、付加情報(E{s12}、ai、bi)及び所望のリミックスされたステレオ信号のミキシングゲインciとdiを用いて推定することができる。
【数12】
【0038】
同様に、w21及びw22は、下記式(15)のように計算される。
【数13】
ここで、
【数14】
である。
【0039】
左側及び右側のサブバンド信号が相関(coherent)したりほとんど相関したりする場合、すなわち、下記式(17)が1に近い時、重み値に対する解は、非唯一であるか不良条件(ill-conditioned)である。
【数15】
したがって、もし、Φがある臨界値(例えば、0.95)よりも大きいと、重み値は、例えば、下記式(18)で計算される。
【数16】
【0040】
Φ=1の仮定の下に、式(18)は、式(12)及び他の二つの重み値に対する類似の直交方程式システム(orthogonality equation system)を満たす唯一でない(non-unique)解のうちの一つである。式(17)の相関度は、x1及びx2が互いにどれくらい類似しているかを判断するのに用いられることに注目されたい。もし、相関度が0であれば、x1とx2は独立的である。もし、相関度が1であれば、x1とx2は類似している(ただし、異なるレベルを有することができる)。もし、x1とx2が非常に似ていると(相関度が1に近い場合)、二つのチャネルウィーナー(Wiener)計算(4つの重み値計算)は不良条件である。臨界値範囲の一例は、約0.4〜約1.0である。
【0041】
計算されたサブバンド信号を時間領域に変換して獲得した、結果的にリミックスされたステレオ信号は、異なるミキシングゲインci及びdiと実際にミックスされたステレオ信号(以下この信号を「所望の信号「という。)と同様に聞こえる。一方、これは、計算されたサブバンド信号が、実際に異なってミックスされたサブバンド信号と数学的に類似することを要求する。これは、ある程度までの場合である。推定は、知覚的に動機付けられたサブバンド領域で行われるため、類似性に対する必要条件は相対的に厳格でない。知覚的に関連を有する定位(localization)キュー(例えば、レベル差及び相関度キュー)が十分に類似していると、計算されたリミックスされたステレオ信号は所望の信号と類似に聞こえる。
E.選択事項:レベル差キューの調節
【0042】
実施形態によっては、本明細書で説明した過程を用いる場合、良い結果を得ることができる。にも拘わらず、重要なレベル差定位キューが所望の信号のレベル差キューに近似されるということを確実にするために、サブバンドのポストスケーリングにはレベル差キューを「調節「して、それらが所望する信号のレベル差キューとマッチングされることを確実にすることができる。
【0043】
上記式(9)の最小2乗サブバンド信号予測値の変形のために、サブバンドパワーが考慮される。もし、サブバンドパワーが正確であるとすれば、重要な空間キューレベル差も正確でありうる。上記式(8)の所望の信号の左側サブバンドパワーは、下記式(19)の通りである。
【数17】
そして、式(9)からのサブバンドパワー推定値は、下記式(20)の通りである。
【数18】
【0044】
【数19】
【0045】
【数20】
II.付加情報の量子化及びコーディング
A.エンコーディング
【0046】
以前セクションで説明した通り、インデックスiのソース信号をリミックスするのに必要な付加情報は、ファクタaiとbi、そしてそれぞれのサブバンドで時間の関数としてのパワーE{s12(k)}である。本発明の一実施例で、ゲインファクタaiとbiに対して、対応するゲイン及びレベル差値を下記のようにdBで計算することができる。
【数21】
【0047】
一部の実施例では、ゲイン及びレベル差値は量子化されハフマンコーディングされる。例えば、2dB量子化ステップ大きさを有する均一の量子化部及び一次元ハフマンコーダはそれぞれ量子化及びコーディングに利用することができる。他の知られた量子化器及びコーダを利用することもできる(例えば、ベクトル量子化器)。
【0048】
もし、ai及びbiが時間によって変わらずに、付加情報がデコーダに信頼可能に到着するとすれば、対応するコード値は単に1回のみ伝送されればよい。そうでないとすれば、ai及びbiは一定の時間間隔ごとにあるいはトリガーイベントに(例えば、コード値が変わる度に)応答して伝送されることができる。
【0049】
ステレオ信号のスケーリング及びステレオ信号のコーディングによるパワー損失/利益に対してロバスト(robust)にさせるために、一部の実施例では、サブバンドパワーE{si2(k)}は付加情報として直接コーディングされない。むしろ、ステレオ信号と関連して定義された尺度を利用することができる。
【数22】
【0050】
様々な信号に対するE{.}を計算するために同一の推定ウィンドウ/時定数を使用することは利点となりうる。式(24)の相対的なパワー値として付加情報を定義する場合の利点は、所望の場合、デコーダでエンコーダとは異なる推定ウィンドウ/時定数を利用できるということである。また、ソースパワーが絶対値として伝送される場合に比べて、付加情報及びステレオ信号間の時間不一致(misalignment)の影響が減る。Ai(k)の量子化及びコーディングのために、一部の実施例では、例えば、2dBのステップサイズを有する均一の量子化器及び1次元ハフマンコーダを利用する。結果ビット率は、リミックスされるオーディオオブジェクト当たり約3kb/s(秒当たりキロビット)と小さくなりうる。
【0051】
一部の実施例では、デコーダでリミックスされるオブジェクトに対応する入力ソース信号が無音の時、ビット率が減ることができる。エンコーダのコーディングモードは無音のオブジェクトを発見でき、そのオブジェクトが無音であるということを表すためのデコーダ情報(例えば、フレーム当たり1ビット)を伝送することができる。
B.デコーディング
【0052】
ハフマンデコーディングされた(量子化された)値、上記式(23)及び式(24)が与えられると、リミキシングのために必要な値は次のように計算できる。
【数23】
III .実装の詳細
A.時間−周波数過程
【0053】
本発明の一実施例で、STFT(短時間フーリエトランスフォーム)ベース過程は、図1〜図3を参照して説明されるエンコーディング/デコーディングのためのシステムに利用される。所望の結果を得るためにQMFフィルタバンク、MDCT、ウェーブレット(wavelet)フィルタバンクなどを含め、他の時間−周波数変換を用いることができるが、本発明がこれに限定されるわけではない。
【0054】
一部の実施例では、分析過程で(例えば、フォワード(forward)フィルタバンク演算)N−ポイント離散フーリエ変換(DFT)または高速フーリエ変換(FFT)を適用する前に、Nサンプルのフレームをウィンドウを用いて乗じることができる。一部の実施例では、下記のサイン(sine)ウィンドウを用いることができる。
【数24】
【0055】
もし、プロセシングブロック大きさがDFT/FFT大きさと異なると、一部の実施例では、效率的にNよりも小さいウィンドウを有するために、ゼロパディング(zero padding)を利用することができる。例えば、説明された分析過程は、(ウィンドウホップ(hop)大きさと同一の)N/2サンプルごとに反復されることができ、その結果、50パーセントウィンドウオーバーラップ(overlap)になる。他のウィンドウ関数及びパーセントオーバーラップも所望の結果を得るために用いることができる。
【0056】
STFTスペクトラル(spectral)領域から時間領域への変形のために、逆DFTまたはFFTがスペクトル(spectra)に適用されることができる。結果信号は、式(26)に説明されたウィンドウを用いて再び乗じ、ウィンドウを用いた乗算結果としての隣接した信号ブロックは、連続した時間領域信号を得るために加算されたオーバーラップと結合される。
【0057】
場合によっては、STFTの均一なスペクトラル解像度が人間知覚に適合しないこともある。こういう場合に、各STFT周波数係数を個別的に処理することとは対照的に、STFT係数は「グループ化「されることができ、一つのグループは空間的オーディオプロセシングのための適切な周波数解像度である等価矩形帯域幅 (ERB: equivalent rectangular bandwidth)の約2倍の帯域幅を有する。
【0058】
図4は、インデックスbの部分に属するSTFT係数のインデックスiを示す図である。一部の実施例では、スペクトラムは対称的(symmetric)であるから、スペクトラムの始めのN/2+1スペクトラル係数のみ考慮される。図4に示すように、インデックスb(1≦b≦B)の部分に属したSTFT係数のインデックスは、A0=0の時、i∈{Ab-1,Ab-1+1,…,Ab}である。パーティションのスペクトラル係数で表現された信号は、エンコーディングシステムで利用される知覚的に動機付けられたサブバンド分割に符合する。したがって、このような各パーティション内で説明された過程は、パーティション内のSTFT係数にも共通して適用されることができる。
【0059】
図5には、人間聴覚システムの非均等周波数解像度(frequency resolution)を摸倣するための均等STSFスペクトラル係数の分類を例示する。図5で、44.1kHzのサンプリング率に対してN=1024であり、パーティションの数B=20であり、各パーティションは略2ERBの帯域幅を有する。最後のパーティションは、ナイキスト(Nyquist)周波数におけるカットオフのゆえに2ERBよりも小さいことに注目されたい。
B.統計的データの推定
【0060】
2つのSTFT係数xi(k)及びxj(k)が与えられると、リミックスされたステレオオーディオ信号を計算するため必要な値E{xi(k)xj(k)}は、反復的に推定できる。この場合に、サブバンドサンプリング周波数fsは、STFTスペクトルが計算される時間的周波数である。各知覚的パーティション(各STFT係数でない)に対する推定値を得るために、推定された値を、後に利用される前にパーティション内で平均化することができる。
【0061】
前のセクションで説明された過程は、それが一つのサブバンドのようにそれぞれのパーティションに適用されることができる。例えば、周波数で突然のプロセシング変化を防ぐために、パーティション間のスムージングは、オーバーラッピングされたスペクトラルウィンドウを用いて行うことができ、これにより、人工音(artifacts)を減らす。
C.従来のオーディオコーダとの結合
【0062】
図6Aは、図1に従来のステレオオーディオエンコーダが結合されたエンコーディングシステムの一実施例を示すブロック図である。一部の実施例では、結合されたエンコーディングシステム600は、従来のオーディオエンコーダ602、提案されたエンコーダ604(例えば、エンコーディングシステム100)、及びビットストリーム結合部606を含む。この例において、ステレオオーディオ入力信号は、従来のオーディオエンコーダ602(例えばMP3、AAC、MPEGサラウンド等)によりエンコーディングされ、図1〜図5を参照して前述したように、付加情報を提供するために提案されたエンコーダ604によって分析される。両結果ビットストリームは、下位互換性のあるビットストリームを提供するようにビットストリーム結合部606で結合される。一部の実施例では、結果ビットストリームの結合は、低いビット率の付加情報(例えば、ゲインファクタai、bi及びサブバンドパワーE{si2(k)})を下位互換性のあるビットストリーム内に組み込むことを含む。
【0063】
図6Bは、従来のステレオオーディオエンコーダが結合された図1Aのエンコーディングシステム100を用いたエンコーディング過程608の一実施例を示すフローチャートである。入力ステレオ信号は、従来のステレオオーディオエンコーダによりエンコーディングされる(610)。付加情報は、ステレオ信号及びMソース信号から、図1Aのエンコーディングシステム100を用いて生成される(612)。エンコーディングされたステレオ信号及び付加情報を含む一つまたはそれ以上の下位互換性のあるビットストリームが生成される(614)。
【0064】
図7Aは、結合されたシステム700を提供するために従来のステレオオーディオデコーダが結合された図3Aのリミキシングシステム300の一実施例を示すブロック図である。一部の実施例では、結合されたシステム700は、一般的に、ビットストリームパーサー702、従来のオーディオデコーダ704(例えば、MP3、AAC)、及び提案されたデコーダ706を含む。一部の実施例では、提案されたデコーダ706が図3Aのリミキシングシステム300である。
【0065】
本例で、ビットストリームは、ステレオオーディオビットストリーム及びリミキシング能力を提供するために提案されたデコーダ706により必要な付加情報を含むビットストリームに分離される。ステレオ信号は、従来のオーディオデコーダ704によりデコーディングされ、提案されたデコーダ706に送られる。提案されたデコーダ706は、ステレオ信号を、ビットストリーム及びユーザ入力(例えば、ミキシングゲインci及びdi)から獲得された付加情報の関数として変換する。
【0066】
図7Bは、図7Aの結合システム700を用いたリミックス方法708の一実施例を示すフローチャートである。エンコーダから受信したビットストリームは、エンコーダステレオ信号ビットストリーム及び付加情報ビットストリームを提供するためにパーシングされる(710)。エンコーディングされたステレオ信号は、従来のオーディオデコーダによりデコーディングされる(712)。デコーダの例には、MP3、AAC(AACの様々な標準化されたプロファイルを含む。)、パラメトリック(parametric)ステレオ、スペクトラルバンドレプリケーション(SBR)、MPEGサラウンドまたはこれらの組合せを含む。デコーディングされたステレオ信号は、付加情報及びユーザ入力(例えば、ci及びdi)を用いてリミックスする。
IV.マルチ−チャネルオーディオ信号のリミキシング
【0067】
本発明の一実施例で、上のセクションで説明されたエンコーディング及びリミキシングシステム100,300は、リミキシングマルチ−チャネルオーディオ信号(例えば、5.1サラウンド信号)に拡張可能である。以下では、ステレオ信号及びマルチ−チャネル信号を「複数−チャネル「信号とも呼ぶ。当該技術分野における通常の知識を有する者には、マルチ−チャネルエンコーディング/デコーディング方式に対して、すなわち、Cがミックスされた信号のオーディオチャネルの数を表す時、2つよりも多い信号x1(k),x2(k),x3(k),…,xC(k)に対して、上記式(7)〜式(22)をどのように書き直せるかが理解される。
【0068】
マルチ−チャネル場合に対して式(9)は、次のようになる。
【数25】
上に説明したように、Cを有する式(11)のように数学式が誘導され、重み値を決定するために解くことができる。
【0069】
一部の実施例では、あるチャネルは処理されずに残っていることができる。例えば、5.1サラウンドに対して2個の後方のチャネルは処理されずに残っていることができる。そして、リミキシングは、単に前方の左側、右側及び中央チャネルにのみ適用される。このような場合に、3チャネルリミキシングアルゴリズムが前方チャネルに適用されることができる。
【0070】
本明細書に開示されたリミキシング方式(scheme)で得られたオーディオ質は、行われた変形の本質(nature)に依存する。比較的弱い変形、例えば、0dBから15dBへのパニング変形または10dBのゲイン変形に対して結果オーディオ質は、従来の技術を用いて得るそれよりも高くなりうる。また、本明細書に開示された提案されたリミキシング方式の質は、従来のリミキシング方式のそれよりも高くなりうる。なぜなら、ステレオ信号は所望のリミキシングを得るために必要な分のみ変形されるためである。
【0071】
本明細書に開示されたリミキシング方式は、従来の技術らに比べて多くの長所を提供する。第一に、与えられたステレオまたはマルチ−チャネルオーディオ信号におけるオブジェクトの全体個数よりも少ないリミキシングを許容する。これは、与えられたステレオオーディオ信号に加えて、デコーダでリミキシングのために利用されうるステレオオーディオ信号中のMオブジェクトを表すMソース信号の関数として付加情報を推定することによって達成される。実際に異なってミックスされたステレオ信号と知覚的に類似するステレオ信号を生成するために、開示されたリミキシングシステムは、与えられたステレオ信号を付加情報の関数及びユーザ入力(所望のリミキシング)の関数として処理する。
V.基本リミキシング方式の改善
A.付加情報の前処理
【0072】
サブバンドが隣のサブバンドに比べて過多に減衰される時、オーディオ人工音(artifacts)が発生することがある。したがって、最大減衰を制限することが好ましい。しかも、ステレオ信号及びオブジェクトソース信号統計は、エンコーダ及びデコーダからそれぞれ独立的に計算されるため、測定されたステレオ信号サブバンドパワーとオブジェクト信号サブバンドパワー(付加情報で表現される。)間の比率は実際から外れることがある。このため、付加情報は物理的には不可能なものになりうる。例えば、式(19)でのリミックスされた信号の信号パワーが負数になりうる。上に言及したイシューについては以下に説明する。
【0073】
左側及び右側のリミックスされた信号のサブバンドパワーは、次の通りである。
【数26】
ここで、PSiは、式(25)で与えられた量子化及びコーディングされたサブバンドパワー推定値と同一であり、これは付加情報の関数として計算される。リミックスされた信号のサブバンドパワーは制限され、原ステレオ信号のサブバンドパワーE{x12}以下であるLdBより小さくなることができない。同様に、E{y22}は、E{x22}以下であるLdBより小さくならないように制限される。この結果は、次のような動作で達成できる:
1.式(28)によって左側及び右側リミックスされた信号サブバンドパワーを計算する。
2.E{y12}<QE{x12}の場合、E{y12}=QE{x12}になるように付加情報計算値PSiを調節する。E{y12}のパワーをE{x12}のパワー以下であるAdBより小さくならないように制限するために、QはQ=10-A/10に設定できる。すると、PSiは、下記式(29)のようにそれを乗じて調節することができる。
【数27】
3.E{y22}<QE{x22}の場合、E{y22}=QE{x22}になるように付加情報計算値PSiを調節する。これは、下記式(30)のようにPSiを乗じることによって達成できる。
【数28】
【数29】
B.4個または2個の重み値利用の決定
【0074】
多くの場合において、上記式(18)の2個重み値は左側と右側のリミックスされた信号サブバンドを計算するのに充分である。場合によっては、上記式(13)及び式(15)の4個重み値を用いる方が良好な結果をもたらすこともある。2個重み値を用いることは、左側の出力信号を生成するのに単に左側原信号が利用され、右側出力も同様であることを意味する。したがって、4個重み値が好ましいシナリオは、一方のあるオブジェクトが他方のものとリミックスされる時である。このような場合に、4個重み値利用が有利になると期待される。なぜなら、元来は一方のみに存在していた信号(例えば左側チャネル)は、リミキシング後に主に他方(例えば右側チャネル)に存在するからである。したがって、4個重み値は、原左側チャネルからリミックスされた右側チャネル、そしてその反対の信号の流れを可能にするために利用される。
【0075】
4個重み値計算の最小2乗問題が不良条件である時、重み値の大きさは大きくなりうる。同様に、上記した一側から他側へのリミキシングが利用される時に、単に2個の重み値が利用される時に重み値の大きさは大きくなることができる。このような観測により同期付けられ、一部の実施例では2個の重み値を用いるかまたは4個の重み値を用いるかを決定するために以下の基準が用いることができる。
【0076】
もし、A<Bであれば、4個の重み値を用い、そうでないと2個の重み値を用いる。A及びBはそれぞれ4個及び2個の重み値に対して重み値の大きさの測定値である。本発明の一実施例で、A及びBは次のように計算される。Aを計算するために、まず、式(13)及び式(15)によって4個の重み値を計算し、A=w112+w122+w212+w222にする。Bを計算するために、重み値は式(18)によって計算し、B=w112+w222と計算される。
【0077】
【数30】
【0078】
オブジェクトの位置を変更する要求は、原パニング情報を所望のパニング情報と比較することによって容易にチェックできる。しかし、予測誤りにより、決定の敏感度を調節できる一部マージン(margin)を与えることが好ましい。決定の敏感度は好ましい値としてα、βをセッティングすることによって容易に調節できる。
C.希望時の減衰度の改善
【0079】
【数31】
【0080】
【数32】
【0081】
本明細書で説明されたリミックス技術は、ミキシングゲインci及びdiに対してユーザコントロールを提供する。ゲイン及びパニングがci及びdiにより完全に決定される場合、これは各オブジェクトに対してゲインGi及び振幅パニングLi(方向)を決定するのに符合する。
【数33】
【0082】
一部の実施例では、ソース信号のゲイン及び振幅パニングに加えて、ステレオミックスの他の特徴を調節することが好ましい。以下では、ステレオオーディオ信号の背景音(ambience)程度を変形するための技術を説明する。このデコーダ作業には付加情報を必要としない。
【0083】
一部の実施例では、式(44)で与えられる信号モデルを、ステレオ信号の背景音の程度を変形するのに利用することができる。前記n1及びn2のサブバンドパワーは同じであるとする。すなわち、下記式(34)のようである。
【数34】
【0084】
再び、s、n1及びn2は相互独立していると仮定できる。このような仮定が与えられると、式(17)の相関度は、下記式(35)のようである。
【数35】
これは、変数PN(k)に対する2次方程式、
【数36】
に対応する。
上記2次方程式の解は、次の通りである。
【数37】
物理的に可能な解は、平方根前に負号を有するものである。
【数38】
なぜなら、PN(k)は、E{x12(k)}+E{x22(k)}より小さいまたは等しいべきからである。
【0085】
本発明の一実施例で、左側及び右側背景音を制御するために、リミックス技術は、2オブジェクトに対して適用されることができる。一つのオブジェクトは、インデックスi1に対して左側でサブバンドパワーE{si12(k)}=PN(k)である、すなわち、ai1=1で、bi1=0のソースである。他のオブジェクトは、インデックスi2に対して右側でサブバンドパワーE{si22(k)}=PN(k)である、すなわち、ai2=0で、bi2=1のソースである。背景音の量を変えるために、ユーザは、gaがdBで表された背景音ゲインである場合、ci1=di1=10ga/20及びci2=di1=0を選択できる。
F.他の付加情報
【0086】
一部の実施例では、変形されたり異なる付加情報は、ビット率観点でより効率的な開示されたリミキシング方式に利用されることができる。例えば、式(24)でAi(k)は任意の値を有することができる。原ソース信号si(n)のレベル依存性も存在する。したがって、所望の範囲での付加情報を得るために、原ソース信号のレベルは調節される必要がある。このような調節を避け、且つ原ソース信号レベルの付加情報依存性を除去するために、一部の実施例では、ソースサブバンドパワーを、式(24)のようにステレオ信号サブバンドパワーに関してだけでなくミキシングゲインが考慮されて正規化できる。
【数39】
【0087】
これは、(直接的なソースパワーではなく)ステレオ信号に含まれ、ステレオ信号で正規化された、ソースパワーを付加情報として使用することに符合する。選択的に、次のような正規化を利用できる。
【数40】
【0088】
この付加情報はより効率的である。なぜならAi(k)が0dBより小さいまたは等しい値のみを有するためである。式(39)及び式(40)は、サブバンドパワーE{si2(k)}に対して解くことができる。
G.ステレオソース信号/オブジェクト
【0089】
本明細書で説明されたリミックス方式は、ステレオソース信号を扱うことに容易に拡張されることができる。付加情報観点で、ステレオソース信号は二つのモノソース信号のように扱われる。すなわち、一つは単に左にのみミックスされ、他の一つは右にのみミックスされる。すなわち、左側ソースチャネルiは、0でない左側ゲインファクタaiと0である右側ゲインファクタbi+1を有する。ゲインファクタai及びbi+1は、式(6)のように推定されることができる。付加情報は、二つのモノソースであるステレオソースのように伝送されることができる。いくつかの情報は、デコーダにどのソースがモノソースか、どれがステレオソースかを指示するためにデコーダに伝送される必要がある。
【0090】
デコーダ過程及びグラフィックユーザインタフェース(GUI)に対して、一つの可能性はデコーダでステレオソース信号をモノソース信号と同様に表現することである。すなわち、ステレオソース信号は、モノソース信号と類似のゲイン及びパニングコントロールを有する。一部の実施例では、リミックスされていないステレオ信号及びゲインファクタのGUIのゲイン及びパニングコードロール間の関係を、次のように選択することができる。
【数41】
【0091】
すなわち、最初はこれらの値にGUIが設定される。ユーザにより選択されたGAINとPAN及び新しいゲインファクタ間の関係は、次のように選択することができる。
【数42】
【0092】
式(42)はci及びdi+1に対して解くことができ、ci及びdi+1は、リミキシングゲインとして用いることができる(ci+1=0及びdi=0の時)。説明された機能はステレオアンプの「均衡(balance)「コントロールに似ている。ソース信号の左側及び右側チャネルのゲインは、クロストーク(cross-talk)を取り込むことなく変形される。
VI.付加情報のブラインド生成
A.付加情報の完全なブラインド生成
【0093】
本明細書に開示されたリミキシング方式で、エンコーダは、ステレオ信号及びデコーダでリミックスされるオブジェクトを表現する多くのソース信号を受信する。デコーダでインデックスiのソース信号をリミックスするために必要な付加情報はゲインファクタaiとbi及びサブバンドパワーE{si2(k)}から決定される。ソース信号が与えられた場合の付加情報の決定は、上のセクションで説明した通りである。
【0094】
(これは現在する製品に符合するから)ステレオ信号は容易に獲得される反面、デコーダでリミックスされるオブジェクトに対応するソース信号を獲得することは困難である。したがって、オブジェクトのソース信号を利用できないとしても、リミキシングのための付加情報を生成することが好ましい。以下では、単にステレオ信号から付加情報を生成するための完全なブラインド生成技術について説明する。
【0095】
図8Aは、完全なブラインド付加情報生成を実装するエンコーディングシステム800の一実施例を示すブロック図である。エンコーディングシステム800は、一般的に、フィルタバンクアレイ802、付加情報生成部804及びエンコーダ806を含む。ステレオ信号は、フィルタバンクアレイ802から受信される。フィルタバンクアレイは、ステレオ信号(例えば左側及び右側チャネル)をサブバンド対に分解する。これらのサブバンド対は付加情報プロセッサ804に受信され、付加情報プロセッサ804は、所望のソースレベル差Li及びゲイン関数F(M)を用いてサブバンド対から付加情報を生成する。フィルタバンクアレイ802、付加情報プロセッサ804両方ともソース信号に対して動作しないことに注目されたい。付加情報は全的に入力ステレオ信号、所望のソースレベル差Li及びゲイン関数f(M)から誘導される。
【0096】
図8Bは、図8Aのエンコーディングシステム800を用いたエンコーディング過程808の一実施例を示すフローチャートである。入力ステレオ信号はサブバンド対に分解される(810)。それぞれのサブバンドに対して、ゲインファクタai及びbiは、それぞれの所望のソース信号に対して所望のソースレベル差値Liを用いて決定される(812)。直接音(direct sound)ソース信号(例えば、サウンドステージ内の中心−パニングされたソース信号)に対して、所望の信号レベル差は、Li=0dBである。Liが与えられると、A=10Li/10の時、ゲインファクタは次のように計算される。
【数43】
ここで、ai及びbiは、ai2+bi2=1となるように計算されたことに注目されたい。この条件が必須のものではない。むしろ、これはLiの大きさが大きい時、aiまたはbiが大きくなることを防止するための任意の選択である。
【0097】
次いで、直接音のサブバンド信号がサブバンド対及びミキシングゲインを用いて推定される(814)。直接音サブバンドパワーを計算するために、各時間で各入力信号の左側及び右側サブバンドが次のように表現されると仮定することができる。
【数44】
ここで、a及びbはミキシングゲイン、sは全てのソース信号の直接音を表し、n1及びn2は独立した周辺音響(ambient sound)を表す。
B=E{x22(k)}/E{x12(k)}の時、a及びbを次のように仮定することができる。
【数45】
aとbは、x2及びx1にsが含まれている場合のレベル差がx2とx1間のレベル差と同一となるように計算されることができる。直接音のレベル差はdBでM=log10Bである。
【0098】
上記式(44)に与えられた信号モデルによって、直接音サブバンドパワーE{s2(k)}を計算できる。一部の実施例では、下記の方程式システムが利用される。
【数46】
【0099】
上記式(46)では、上記式(34)のs、n1及びn2が相互独立しており、上記式(46)の左辺量が測定でき、a及びbは利用可能であると仮定する。したがって、上記式(46)の3つの未知数はE{s2(k)}、E{n12(k)}及びE{n22(k)}である。直接音サブバンドパワーE{s2(k)}は、次のように与えることができる。
【数47】
【0100】
直接音サブバンドパワーはさらに式(17)の相関度の関数として書くこともできる。
【数48】
【0101】
本発明の一実施例で、所望のソースサブバンドパワーE{si2(k)}の計算は、二つのステップで行うことができる。第一に、直接音サブバンドパワーE{s2(k)}を計算する。sは、上記式(44)の全てのソースの直接音(例えば、中心−パニングされた(center-panned))を表す。そして、所望のソースサブバンドパワーE{si2(k)}は、直接音サブバンドパワーE{s2(k)}を(Mで表現される)直接音方向及び(所望のソースレベル差Lで表現される)所望の音響方向の関数として変形して計算する(816)。
【数49】
ここで、f(.)はゲイン関数、方向の関数として、単に所望のソースの方向に対して1に近いゲインファクタをリターンする。最後のステップとして、ゲインファクタ及びサブバンドパワーE{si2(k)}を、付加情報を生成するために量子化及びエンコーディングすることができる(818)。
【0102】
図9は、所望のソースレベル差Li=LdBに対する例示的なゲイン関数f(M)を示す。方向性程度は、所望の方向Lo周辺でより多いまたは少ない狭いピークを有するf(M)を選択することによって調節できる。所望のソースに対して中央において、Lo=6dBのピーク幅を用いることができる。
【0103】
上に説明した完全なブラインド技術と共に、与えられたソース信号siに対して付加情報(ai、bi、E{si2(k)})を決定することができるということに注目されたい。
B.付加情報のブラインド及び非ブラインド生成間の結合
【0104】
上に説明した完全なブラインド生成技術は、ある環境の下では制約がありうる。例えば、もし、二つのオブジェクトがステレオサウンドステージの同一位置(方向)を有するとすれば、一側または両側オブジェクトに関する付加情報をブラインドに(blindly)生成することは不可能であろう。
【0105】
付加情報の完全なブラインド生成の代案として付加情報の部分的なブラインド生成がある。部分的なブラインド技術は、原オブジェクト波形に概略的に対応するオブジェクト波形を生成する。例えば、これは、特定のオブジェクト信号を歌手またはミュージシャンに演奏/再生産(reproduce)させることによってなる。または、このような目的のためにMIDIデータを配置し、シンセサイザー(synthesizer)でオブジェクト信号を生成する。一部の実施例で、「ラフ(rough)「オブジェクト波形は、生成される付加情報と関連したステレオ信号に合わせて時間整列される。その後、付加情報を、ブラインド及び非ブラインド付加情報生成を結合した過程を用いて生成することができる。
【0106】
図10は、部分的なブラインド生成技術を用いた付加情報生成過程1000の一実施施を示すフローチャートである。この過程1000は、入力ステレオ信号及びM「ラフ(rough)「ソース信号を獲得することから始まる(1002)。次に、ゲインファクタai及びbiを、「ラフ(rough)「ソース信号のために決定する(1004)。各サブバンドの各時間スロットで、サブバンドパワーの第1短期推定値E{si2(k)}をそれぞれ「ラフ(rough)「ソース信号に対して決定する(1006)。サブバンドパワーの第2短期推定値Ehat{si2(k)}を、入力ステレオ信号に適用される完全なブラインド技術を用いて各「ラフ(rough)「ソース信号に対して決定する(1008)。
【0107】
最後に、この関数を、推定されたサブバンドパワーに適用する。これは、第1及び第2サブバンドパワー推定値を結合して最終推定値をリターンし、效率的に付加情報計算に用いることができる(1010)。実施形態によっては、関数F()が次のように与えられる。
【数50】
VII .システム構成、ユーザインタフェース、ビットストリームシンタックス
A.クライアント/サーバシステム構成
【0108】
図11は、ステレオ信号だけでなくMソース信号及び/または付加情報を、リミキシング能力を備えたオーディオ装置1110に提供するためのクライアント/サーバシステム構成1100の一実施例を示すブロック図である。このシステム構成1100は単に一例にすぎない。他のシステム構成は、より多いまたは少ないコンポーネントを含むことができる。
【0109】
このシステム構成1100は、一般的に、レポジトリ1104(例えばMySQLTM)及びサーバ1106(例えばウィンドTM NT、Linux(登録商標)サーバ)を有するダウンロードサービス1102を含む。レポジトリ1104は、専門的にミックスされたステレオ信号、ステレオ信号内のオブジェクトに対応する関連したソース信号及び様々な効果(例えば、残響(reverberation))を含む様々なタイプのコンテンツを保存することができる。ステレオ信号は、様々な標準化されたフォーマット、例えばMP3、PCM、AACなどで保存されることができる。
【0110】
一部の実施例では、ソース信号は、レポジトリ1104に保存され、オーディオ装置1110にダウンロード可能になる。一部の実施例では、前処理された付加情報は、レポジトリ1104に保存され、オーディオ装置1110にダウンロード可能になる。前処理された付加情報は、図1A、図6A及び図8Aを参照して説明された一つまたはそれ以上のエンコーディング方式を用いてサーバ1106により生成されることができる。
【0111】
一部の実施例では、ダウンロードサービス1102(例えば、ウェブサイト、音楽ストア)は、ネットワーク1108(例えば、インターネット、イントラネット、イーサネット(登録商標)、無線ネットワーク、ピアツウピアネットワーク)を通じてオーディオ装置1110と通信する。オーディオ装置1110は、本明細書に開示されたリミックス方式を実装できるいずれの装置にしても良い(例えば、メディアプレーヤ/レコーダ、モバイルフォン、PDA、ゲームコンソール、セットトップボックス、テレビ受信機、メディアセンター等)。
B.オーディオデバイスシステム構成
【0112】
一部の実施例では、オーディオ装置1110は、一つまたはそれ以上のプロセッサまたはプロセッサコア1112、入力装置1114(例えば、クリックホイール、マウス、ジョイスチック、タッチスクリーン)、出力装置1120(例えば、LCD)、ネットワークインタフェース1118(例えば、USB、ファイアワイヤー、イーサネット(登録商標)、ネットワークインタフェースカード、無線送受信機(wireless transceiver)及びコンピュータ読み取り可能媒体1116(例えば、メモリ、ハードディスク、フラッシュドライブ)を含む。これらのコンポーネントの一部または全部は通信チャネル1122(例えば、バス、ブリッジ)を通じて情報送信及び/または受信ができる。
【0113】
一部の実施例では、コンピュータ読み取り可能媒体1116は、オペレーティングシステム、音楽マネジャー、オーディオプロセッサ、リミックスモジュール及び音楽ライブラリを含む。オペレーティングシステムは、ファイル管理、メモリアクセス(access)、バスコンテンション(bus contention)、周辺装置制御、ユーザインタフェース管理、電源管理などを含むオーディオ装置1110の基本的な管理及び通信業務(task)を担当する。音楽マネジャーは、音楽ライブラリを管理するアプリケーションでありうる。オーディオプロセッサは、音楽ファイルを再生する従来のオーディオプロセッサでありうる(例えば、MP3、CDオーディオ等)。リミックスモジュールは、図1〜図10を参照して説明したリミキシング方式の機能を実装する一つまたはそれ以上のソフトウェアコンポーネントでありうる。
【0114】
一部の実施例では、図1A、図6A及び図8Aを参照して説明したように、サーバ1106は、ステレオ信号をエンコーディングし付加情報を生成する。ステレオ信号及び付加情報は、ネットワーク1108を通じてオーディオ装置1110にダウンロードされる。リミックスモジュールは、信号及び付加情報をデコーディングし、入力装置1114(例えば、キーボード、クリックホイール、タッチディスプレイ)を通じて受信したユーザ入力に基づいてリミックス能力を提供する。
C.ユーザ入力を受信するためのユーザインタフェース
【0115】
図12は、リミックス能力を備えたメディアプレーヤ1200のためのユーザインタフェース1202の一実施例である。ユーザインタフェース1202は他の装置(例えば、モバイルフォン、コンピュータ等)にも適用可能である。ユーザインタフェースは、図示の環境設定またはフォーマットに制限されず、他の種類のユーザインタフェース要素(例えば、ナビゲーションコントロール、タッチ表面等)を含むこともできる。
【0116】
ユーザは、ユーザインタフェース1202の適切なアイテムにハイライティングすることで、装置1200に対して「リミックス「モードに入ることができる。例えば、ユーザが音楽ライブラリから音楽を選択し、リードボーカルトラックのパンセッティングを変えたがっているとする。例えば、ユーザは左側オーディオチャネルでリードボーカルをさらに聞くことを希望することもできる。
【0117】
所望のパンコントロールに対する接近を得るために、ユーザは一連のサブメニュー1204,1206,1208を探索することができる。例えば、ユーザは、ホイール1210を用いてサブメニュー1204,1206,1208のアイテムをスクロールすることができる。ユーザはボタン1212を押して、ハイライトされたメニューアイテムを選択できる。サブメニュー1208は、リードボーカルトラックに対する所望のパンコントロールの接近を提供する。ユーザは、歌が再生される間に、所望通りにリードボーカルのパンを調節するために(例えば、ホイール1210を用いて)スライダを操作することができる。
D.ビットストリームシンタックス
【0118】
一部の実施例では、図1〜図10を参照して説明したリミキシング方式が、現在または未来のオーディオコーディング標準(例えば、MPEG−4)を含むことができる。現在または未来のコーディング標準に対するビットストリームシンタックスは、ユーザによるリミキシングを許容するためにビットストリームをどのように処理するかを決定するように、リミキシング能力を有するデコーダにより用いられうるような情報を含むことができる。このようなシンタックスは、従来のコーディング方式を用いて下位互換性(backwards compatibility)を提供するように設計されることができる。例えば、ビットストリームに含まれたデータ構造(例えば、パケットヘッダ)は、リミキシングのための付加情報(例えば、ゲインファクタ、サブバンドパワー)の有効性を表す情報(例えば、一つまたはそれ以上のビットまたはフラグ)を含むことができる。
VII .アカペラモード及び自動ゲイン/パニング調節
A.アカペラモードの改善
【0119】
ステレオアカペラ信号は、単にボーカルのみを含むステレオ信号に対応する。一般性を失うことなく、第1Mソースs1,s2,…,sMを式(1)のボーカルソースとしよう。原ステレオ信号からステレオアカペラ信号を得るために、ボーカルでないソースは減衰することができる。所望のステレオ信号は次の通りである。
【数51】
ここで、Kは、非ボーカルソースのための減衰ファクタである。パニングが用いられないため、新しい二つの重み値ウィナーフィルタ(Wiener filter)は、式(50)のアカペラ信号定義から得られた期待値を用いて計算できる。
【数52】
【0120】
Kを10-A/10に設定することによって、非ボーカルソースはAdBに減衰され、結果ステレオアカペラ信号の感じを与えることができる。
B.自動ゲイン/パニング調節
【0121】
ソースのゲイン及びパニング設定が変化する時、損傷されたレンダリングされたクォリティー(rendered quality)をもたらす極端な値を選択することができる。例えば、0dBを維持する一つを除いて全てのソースを最小ゲインで動かしたり、右に向かう一つを除いて全てのソースを左に動かすことは、独立したソースに対して低音質を招くことがある。このような状況は、人工音(artifacts)無しできれいにレンダリングされたステレオ信号を維持するためには避けるべきことである。このような状況を避けるための一つの手段は、ゲイン及びパニングコントロールの極端な設定を防ぐことである。
【0122】
それぞれのコントロールk、ゲイン及びパニングスライダgk及びpkのそれぞれは、グラフィックユーザインタフェース(GUI)内で[−1,1]範囲の内部値を有することができる。極端な設定を制限するために、ゲインスライダ間の平均距離は、Kがコントロールの個数である時、次のように計算できる。
【数53】
μGが1に近づくほど、より極端なセッティングになる。
【0123】
この場合、調節因子GadjustはGUIでゲインスライダの範囲を制限するために、μGの平均距離の関数として計算される。
【数54】
ここで、ηGは極端なセッティング、例えば、μG=1、に対する自動スケーリング程度Gadjustを定義する。一般的に、極端なセッティングの場合、ゲインを半分に減らすために、ηGは約0.5程度と選択される。
【0124】
同様の過程によって、Padjustが計算され、パニングスライダに適用されて、効率的なゲイン及びパニングは下記式(55)のようにスケールされる。
【数55】
【0125】
本明細書で開示され説明された他の実施形態及び機能的な動作は、本明細書に開示された構造及びその構造的な均等物またはそれらの一つまたはそれ以上の組合せを含む、デジタル電子回路網で実装されたり、コンピュータソフトウェア、ファームウェア、またはハードウェアで実装されることができる。本明細書に開示された実施例及び他の実施例は、一つまたはそれ以上のコンピュータプログラムプロダクトで実装されることができる。例えば、コンピュータ読み取り可能媒体にエンコーディングされた、データプロセシング装置により実行されたりそれら装置の動作をコントロールするための、一つまたはそれ以上のコンピュータプログラム命令のモジュールのようなもので実装されることができる。コンピュータ読み取り可能媒体は、機械が読み取り可能な記憶装置、機械が読み取り可能な記憶基板(substrate)、メモリ装置、機械が読み取り可能な伝達された信号に影響を与えうる物質の組合せ、またはそれらの一つまたはそれ以上の組合せでありうる。「データプロセシング装置「という用語は、あらゆる機構、装置、及びデータ処理のための機械を含む。例えば、プログラム可能なプロセッサ、コンピュータまたは多数のプロセッサまたはコンピュータを含む。これらの装置はハードウェアとともに、問題のコンピュータプログラムのための実行環境を作るコードを含むことができる。例えば、コードは、プロセッサファームウェア、プロトコルスタック、データベース管理システム(DBMS)、オペレーティングシステム(OS)、またはそれらの一つまたはそれ以上の組合せを構成する。伝達された信号は、例えば、機械が生成した電気的、光学的または電磁気的信号のような人為的に生成された信号である。これは、適合な受信装置に伝送するための情報をエンコーディングするために生成される。
【0126】
(また、プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプトまたはコードとして知られた)コンピュータプログラムは、コンパイラまたはインタープリタ言語を含むプログラミング言語のいかなる形態でも使用されることができ、スタンドアロンプログラムとしての形態、またはモジュール、コンポーネント、サブルーチンまたは他のユーザに適合したユニットなどとしての形態などを含むいかなる形態にも開発可能である。コンピュータプログラムがファイルシステムのファイルに必ずしも対応するわけではない。プログラムは、他のプログラムまたはデータを有するファイル(例えば、マークアップ言語ドキュメント内に記憶された一つまたはそれ以上のスクリプト)、論議されるプログラム専用の一つのファイル、または多数の組織化(coordinated)されたファイル(例えば、一つまたはそれ以上のモジュール、サブプログラム、またはコードの一定部分を格納したファイル)の一部に格納されることができる。コンピュータプログラムは、一つのコンピュータまたは一つのサイトまたは全体に分散された多数のサイトに位置して通信ネットワークにより互いに連結された多数のコンピュータで実行されるために配布されることができる。
【0127】
本明細書で説明されたプロセス及び論理流れは、入力データを演算し、出力を生成することによって、機能を行う一つまたはそれ以上のコンピュータプログラムを実行させる一つまたはそれ以上のプログラム可能なプロセッサにより行われることができる。例えば、FPGA(field programmable gate array)またはASIC(application specific integrated circuit)のような特別な目的の論理回路によりこのプロセス及び論理流れが行われることができ、装置も実装されることができる。
【0128】
例えば、コンピュータプログラムの実行に適合したプロセッサは、一般的で且つ特別な目的のマイクロプロセッサ、デジタルコンピューターのいずれかの一つまたはそれ以上のプロセッサを含む。一般的に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から命令及びデータを受信する。コンピュータの必須な要素は、演算を行うためのプロセッサ及び命令とデータを記憶するための一つまたはそれ以上のメモリ装置である。一般的に、コンピュータは、例えば、磁気(magnetic)、光磁気(magneto-optical)ディスク、または光学ディスクのような一つあるいはそれ以上の大容量のデータ記憶装置を含む、その記憶装置からデータを受信する、その記憶装置にデータを送る、または、それら全てと機能的に関連する。しかし、コンピュータがそのような装置を有する必要はない。コンピュータプログラム命令及びデータを保存するのに適合するコンピュータ読み取り可能媒体は、あらゆる形態の不揮発性メモリ、メディア及びメモリ装置を含む。例えば、EPROM、EEPROMのような半導体メモリ装置、フラッシュメモリ装置、内蔵ハードディスクまたはリムーバブルディスク(removable disks)のような磁気ディスク、光磁気ディスク、CD−ROM及びDVD−ROMディスクなどが含まれる。プロセッサ及びメモリは特別な目的の論理回路により補充されたりその中に含まれることができる。
【0129】
ユーザとの相互作用を提供するために、本明細書に開示された発明は、ユーザに情報を表示するためのCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタのようなディスプレイ装置及びユーザがコンピュータに入力を提供できるマウスまたはトラックボールのようなポインティング装置及びキーボードを有するコンピュータで実現されることができる。他の種類の装置もユーザとの相互作用のために提供されることができる。例えば、ユーザに提供されるフィードバックはいずれの形態の感覚フィードバックであっても良い。例えば、視覚フィードバック、聴覚フィードバックまたは触覚フィードバックなどがある。そして、ユーザからの入力は音響、音声または触覚入力を含め、いかなる形態で受けることもできる。
【0130】
本明細書に開示された実施例は、コンピュータシステムで実現されることができるが、このコンピュータシステムは、データサーバのようなバックアンド(back-end)コンポーネントを含む、アプリケーションサーバのようなミドルウェアコンポーネントを含む、グラフィックユーザインタフェースまたはユーザがこれを通じて本明細書で説明した実施例と相互作用できるウェブブラウザーを有するクライアントコンピュータのようなフロントアンド(front-end)コンポーネントを含む、または、一つまたはそれ以上のこのようなバックアンド、ミドルウェア、またはフロントアンドコンポーネントの組合せを含むことができる。システムのコンポーネントは、例えば、コミュニケーションネットワークのようなデジタルデータ通信のある類型や媒体で互いに連結されることができる。通信ネットワークの例には、ローカル領域ネックワーク(「LAN「)及び広域ネットワーク(「WAN「)、例えばインターネットを含む。
【0131】
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般的に互いに離れており、普通、コミュニケーションネットワークを通じて相互作用する。クライアントとサーバとの関係は各コンピュータで行われ、互いにクライアント−サーバ関係を有するコンピュータプログラムによって発生する。
VIII.リミックス技術を用いたシステムの例
【0132】
図13は、空間オーディオオブジェクト(SAOC)デコーディング及びリミックスデコーディングを結合したデコーディングシステム1300の一実施例を表す。SAOCは、マルチ−チャネルオーディオを扱うオーディオ技術で、エンコーディングされたサウンドオブジェクトの相互操作(interactive manipulation)を可能にする。
【0133】
一部の実施例では、システム1300は、ミックス信号デコーダ1301、パラメータ生成部1302及びリミックスレンダラ1304を含む。パラメータ生成部1302は、ブラインド推定部1308、ユーザ−ミックスパラメータ生成部1310及びリミックスパラメータ生成部1306を含む。リミックスパラメータ生成部1306は、イコライザ(eq)−ミックスパラメータ生成部1312及びアップ(up)−ミックスパラメータ生成部1314を含む。
【0134】
一部の実施例では、システム1300は、2つのオーディオプロセスを提供する。第1のプロセスでは、エンコーディングシステムから提供された付加情報を、リミックスパラメータ生成部1306でリミックスパラメータを生成するのに用いる。第2のプロセスでは、ブラインドパラメータをブラインド推定部1308で生成し、リミックスパラメータ生成部1306でリミックスパラメータを生成するのに用いる。図8A及び8Bを参照して説明したように、ブラインドパラメータと完全あるいは部分的なブラインド生成プロセスは、ブラインド推定部1308で行うことができる。
【0135】
一部の実施例では、リミックスパラメータ生成部1306は、付加情報またはブラインドパラメータ、そしてユーザ−ミックスパラメータ生成部1310からのユーザミックスパラメータの集合を受信する。ユーザ−ミックスパラメータ生成部1310は、エンドユーザが特定のミックスパラメータ(例えば、GAIN、PAN)を受信し、それらのミックスパラメータをリミックスパラメータ生成部1306によってリミックスプロセシングに適合したフォーマット(format)に変換する(例えば、ゲインci、di+1への変更)。一部の実施例では、図12を参照して説明したように、ユーザ−ミックスパラメータ生成部1310は、ユーザが所望のミックスパラメータを特定できるようにするために、例えば、メディアプレーヤユーザインタフェース1200のようなユーザインタフェースを提供する。
【0136】
一部の実施例では、リミックスパラメータ生成部1306は、ステレオとマルチ−チャネルオーディオ信号の両方をプロセスできる。例えば、イコライザ(eq)−ミックスパラメータ生成部1312は、ステレオチャネルターゲットのためのリミックスパラメータを生成でき、アップ(up)−ミックスパラメータ生成部1314は、マルチ−チャネルターゲットのためのリミックスパラメータを生成できる。マルチ−チャネルオーディオ信号に基づくリミックスパラメータ生成は、セクションIVで説明した。
【0137】
一部の実施例では、リミックスレンダラ1304は、ステレオターゲット信号またはマルチ−チャネルターゲット信号のためのリミックスパラメータを受信する。イコライザ(eq)−ミックスレンダラ1316は、ステレオリミックスパラメータを、ミックス信号デコーダ1301から直接受信した原ステレオ信号に適用して、ユーザ−ミックスパラメータ生成部1310から提供された定形化したユーザ指定ステレオミックスパラメータに基づいて、所望のリミックスされたステレオ信号を提供する。一部の実施例では、ステレオリミックスパラメータを、ステレオリミックスパラメータのn×n行列(例えば、2×2行列)を用いる原ステレオ信号に適用することができる。アップ(up)−ミックスレンダラ1318は、マルチ−チャネルリミックスパラメータを、ミックス信号デコーダ1301から直接受信した原マルチ−チャネル信号に適用することによって、ユーザ−ミックスパラメータ生成部1310から提供された定形化したユーザ指定マルチ−チャネルミックスパラメータに基づいて、所望のリミックスされたマルチ−チャネル信号を提供する。一部の実施例では、エフェクト生成部1320は、イコライザ(eq)−ミックスレンダラ1316またはアップ(up)−ミックスレンダラのそれぞれにより原ステレオまたはマルチ−チャネル信号に適用される、エフェクト信号(例えば、反響音(reverb))を生成する。一部の実施例では、アップ(up)−ミックスレンダラ1319は、原ステレオ信号を受信し、リミックスされたマルチ−チャネル信号を生成するためにリミックスパラメータを適用する他にも、ステレオ信号をマルチ−チャネル信号に変換する(または、アップ(up)−ミックスする。)。
【0138】
システム1300は、そのようなオーディオコーディング方式に下位互換性(backwards compatibility)を維持すると同時に、存在するオーディオコーディング方式(例えば、SAOC、MPEG AAC、パラメトリックステレオ(parametric stereo))に統合することを許容し、様々なチャネル環境設定(configurations)を有するオーディオ信号を処理できる。
【0139】
図14Aは、分離されたダイアログボリューム(SDV: Separate Dialogue Volume)のための一般的なミキシングモデルを示す図である。SDVは、米国仮出願番号第60/884,594号、「分離されたダイアログボリューム(Separate Dialogue Volume)「に記述された改善されたダイアログエンハンスメント(enhancements)技術である。SDVの一実施例では、ステレオ信号は記録されミックスされて、各ソースに対する信号が一貫して左側及び右側信号チャネルに特定の方向キュー(例えば、レベル差、時間差)をもって進行する。反射された/反響された独立信号は、聴覚イベント幅及び聴取者環境キューを定めるチャネルに進行する。図14Aを参照すると、sは直接音であり、n1とn2は側面の反射であり、a因子は、聴覚イベントが発生した場合に方向を定める。この信号sは、a因子により定められた方向からローカライズされた音を摸倣する。独立した信号n1とn2は、反射された/反響された音に対応し、たびたび周辺音響や雰囲気(ambience)を表す。説明されたシナリオは、一つのオーディオソースを有するステレオ信号に対してオーディオソース及びアンビエンス(ambience)の定位(localization)を獲得しながら知覚的に動機付けられた分解である。
【数56】
【0140】
図14Bは、SDVをリミックス技術と結合したシステム1400の一実施例を示す図である。一部の実施例では、システム1400は、フィルタバンク1402(例えば、STFT)、ブラインド推定部1404、イコライザ(eq)−ミックスレンダラ1406、パラメータ生成部1408及び逆フィルタバンク1410(例えば、逆STFT)を含む。
【0141】
一部の実施例では、SDVダウンミックス信号は受信されて、フィルタバンク1402によりサブバンド信号に分解される。ダウンミックス信号は、式(51)で与えられたステレオ信号x1、x2でありうる。サブバンド信号X1(i,k)、X2(i,k)は、イコライザ(eq)−ミックスレンダラ1406またはブラインド推定部1404への直接的な入力であり、ブラインドパラメータであるA、PS、PNを出力する。これらのパラメータの計算は、米国仮出願番号第60/884,594号の「分離されたダイアログボリューム(Separate Dialogue Volume)「に記述されている。ブラインドパラメータは、パラメータ生成部1408の入力であり、これはブラインドパラメータ及びユーザ特定のミックスパラメータg(i,k)(例えば、中央ゲイン、中央幅、遮断周波数、乾燥度(dryness))からイコライザ(eq)−ミックスパラメータw11〜w22を生成する。イコライザ(eq)−ミックスパラメータの計算は、セクションIに記述されている。イコライザ(eq)−ミックスパラメータは、イコライザ(eq)−ミックスレンダラ1406によりサブバンド信号に適用され、レンダリングされた出力信号y1、y2を生成する。イコライザ(eq)−ミックスレンダラ1406のレンダリングされた出力信号は、逆フィルタバンク1410の入力であり、これは、レンダリングされた出力信号をユーザ特定のミックスパラメータに基づいて所望のSDVステレオ信号に変換する。
【0142】
一部の実施例では、図1〜図12を参照して説明したように、システム1400も、リミックス技術を用いてオーディオ信号を処理できる。リミックスモードでは、フィルタバンク1402は、式(1)及び式(27)に記述された信号のようなステレオまたはマルチ−チャネル信号を受信する。これらの信号は、フィルタバンク1402によってサブ信号X1(i,k)、X2(i,k)に分解され、イコライザ(eq)−レンダラ1406及びブラインド推定部1404に直接入力されて、ブラインドパラメータを推定する。ブラインドパラメータは、ビットストリームで受信された付加情報ai、bi、Psiと共にパラメータ生成部1408への入力である。パラメータ生成部1408は、レンダリングされた出力信号を生成するためにブラインドパラメータ及び付加情報をサブバンド信号に適用する。レンダリングされた出力信号は、逆フィルタバンク1410への入力であり、これは、所望のリミックス信号を生成する。
【0143】
図15は、図14Bに示すイコライザ(eq)−ミックスレンダラ1406の一実施例示す図である。本発明の一実施例で、ダウンミックス信号X1は、スケールモジュール1502及び1504)によりスケーリングされ、ダウンミックス信号X2はスケールモジュール(1506及び1508でスケーリングされる。スケールモジュール1502はダウンミックス信号X1をイコライザ(eq)−ミックスパラメータw11でスケーリングし、スケールモジュール1504はダウンミックス信号X1をイコライザ(eq)−ミックスパラメータw21でスケーリングし、スケールモジュール1506はダウンミックス信号X2をイコライザ(eq)−ミックスパラメータw12でスケーリングし、スケールモジュール1508はダウンミックス信号X2をイコライザ(eq)−ミックスパラメータw22でスケーリングする。スケールモジュール1502及び1506の出力は合算されて、第1レンダリングされた出力信号であるy1を提供し、スケールモジュール1504及び1508の出力は合算されて、第2レンダリングされた出力信号であるy2を提供する。
【0144】
図16は、図1〜図15を参照して説明されたリミックス技術のための分散システム1600を示す図である。一部の実施例では、図1を参照して説明したように、コンデンツプロバイダ1602は、付加情報を生成するために、リミックスエンコーダ1606を含む許可ツール(authoring tool)1604を用いる。付加情報は、一つのビットストリミングサービスのための一つまたはそれ以上のファイルの一部となり及び/または一つのビットストリームに含まれることができる。リミックスファイルは、固有のファイル拡張子を有することができる(例えば、filename.rmx)。一つのファイルは、原ミックスされたオーディオ信号及び付加情報を含むことができる。選択的に、原ミックスされたオーディオ信号及び付加情報は、パケット、バンドル、パッケージまたは他の適当なコンテナの別個ファイルとして分散されることができる。一部の実施例では、リミックスファイルは、ユーザが技術を学ぶように支援し及び/またはマーケティングの目的でプリセットミックスパラメータとともに分散されることができる。
【0145】
一部の実施例では、原コンデンツ(例えば、原ミックスされたオーディオファイル)、付加情報及び選択的なプリセットミックスパラメータ(「リミックス情報「)は、サービスプロバイダ1608(例えば、ミュージックポータル)に提供されたり物理的媒体(例えば、CD−ROM、DVD、メディアプレーヤ、フラッシュドライブ)に位置することができる。サービスプロバイダ1608は、リミックス情報及び/またはリミックス情報の全部分を含むビットストリームの全部または一部を提供するために、一つまたはそれ以上のサーバ1610を提供することができる。リミックス情報は、レポジトリ1612に保管することができる。サービスプロバイダ1608はさらに、ユーザの作ったミックスパラメータを共有するための仮想の環境(例えば、ソーシャルコミュニティ、ポータル、掲示板)を提供することができる。例えば、リミックス−レディ装置(例えば、メディアプレーヤ、モバイルフォン)1616でユーザが生成したミックスパラメータは、他のユーザと共有するためにサービスプロバイダ1608にアップロードできるミックスパラメータファイルに保存することができる。ミックスパラメータファイルは、固有の拡張子(例えば、filename.rmx)を有することができる。例示したように、ユーザは、リミックスプレーヤAを用いてミックスパラメータファイルを生成し、ミックスパラメータファイルをサービスプロバイダ1608にアップロードする。ファイルは後にリミックスプレーヤBを操作するユーザによってダウンロードされる。
【0146】
システム1600は、原コンデンツとリミックス情報を保護するために任意の知られたデジタル権利管理方式及び/または知られた他の保安方法を用いて実現されることができる。例えば、ユーザがリミックスプレーヤBにより提供されたリミックス特性に接近したりそれを用いる前に、リミックスプレーヤBを操作するユーザは、原コンテンツを別途にダウンロードし、ライセンスを保護する必要がありうる。
【0147】
図17Aは、リミックス情報を提供するためのビットストリームの基本要素を示す図である。一部の実施例では、単数の、統合された(integrated)ビットストリーム1702を、ミックスされたオーディオ信号(Mixed_Obj BS)、ゲインファクタ、サブバンドパワー(Ref_Mix_Para BS)及びユーザ特定のミックスパラメータ(User_Mix_Para BS)を含むリミックス可能な(remix-enabled)装置に伝送することができる。一部の実施例では、リミックス情報に対する多数のビットストリームを、リミックス可能な装置に独立して伝送することもできる。例えば、ミックスされたオーディオ信号は、第1ビットストリーム1704で伝送することができ、ゲインファクタ、サブバンドパワー及びユーザ特定のミックスパラメータは、第2ビットストリーム1706で伝送することができる。一部の実施例では、ミックスされたオーディオ信号、ゲインファクタ、サブバンドパワー及びユーザ特定のミックスパラメータは、3つの異なるビットストリーム1707、1710及び1712で伝送することができる。これらのそれぞれ異なるビットストリームは、同一または異なるビット率で伝送されることができる。これらのビットストリームは、帯域幅(bandwith)を保存し且つロバスト性(robustness)を保障するために、ビット挿入(bit interleaving)、エントロピーコーディング(例えば、ハフマンコーディング)、エラー修正などを含む様々に知られた技術を必要に応じて用いて処理されることができる。
【0148】
図17Bは、リミックスエンコーダ1714のビットストリームインタフェースを示す図である。一部の実施例では、リミックスエンコーダインタフェース1714の入力は、ミックスされたオブジェクト信号、それぞれのオブジェクトまたはソース信号及びエンコーダオプションを含むことができる。エンコーダインタフェース1714の出力は、ミックスされたオーディオ信号ビットストリーム、ゲインファクタとサブバンドパワーを含むビットストリーム、及びプリセット(preset)ミックスパラメータを含むビットストリームを含むことができる。
【0149】
図17Cは、リミックスデコーダ1716のインタフェースを示す図である。一部の実施例では、リミックスデコーダインタフェース1716の入力は、ミックスされたオーディオ信号ビットストリーム、ゲインファクタとサブバンドパワーを含むビットストリーム、及びプリセットミックスパラメータを含むビットストリームを含むことができる。デコーダインタフェース1716の出力は、リミックスされたオーディオ信号、アップミックスレンダラビットストリーム(例えば、マルチャネル信号)、ブラインドリミックスパラメータ及びユーザリミックスパラメータを含むことができる。
【0150】
エンコーダ及びデコーダのインタフェースの他の環境設定も可能である。図17B及び図17Cに示すインタフェース環境設定は、リミックス可能な装置にリミックス情報処理を許容するアプリケーションプログラミングインタフェース(API)を定義するために用いることができる。図17B及び図17Cに示すインタフェースは例示的なもので、装置の部分に基づくことのできる入力及び出力の他の数字及び種類に対する環境設定を含む他の環境設定も可能である。
【0151】
図18は、向上したリミックス信号の向上した知覚された品質を提供するために、あるオブジェクト信号のための追加的な付加情報を生成する拡張を含むシステム1800の一実施例を示すブロック図である。本発明の一実施例で、システム1800は、(エンコーディング側で)リミックスエンコーダ1804及び信号エンコーダ1806を含むエンハンスドリミックスエンコーダ1802、及びミックス信号エンコーダ1808を含む。本発明の一実施例で、システム1800は、(デコーディング側で)ミックス信号デコーダ1810、リミックスレンダラ1814及びパラメータ生成部1816を含む。
【0152】
エンコーダ側で、ミックスされたオーディオ信号は、ミックス信号エンコーダ1808(例えば、mp3エンコーダ)によりエンコーディングされ、デコーディング側に送られる。オブジェクト信号(例えば、リードボーカル、ギター、ドラムまたは他の楽器)は、リミックスエンコーダ1804の入力であり、例えば、図1A及び図3Aを参照して説明したように、付加情報(例えば、ゲインファクタ及びサブバンドパワー)を生成する。追加的に、インタレスト(interest)の一つまたはそれ以上のオブジェクト信号は、追加的な付加情報を生成するための信号エンコーダ1806(例えば、mp3エンコーダ)の入力である。一部の実施例では、整列(aligning)情報は、ミックス信号エンコーダ1808及び信号エンコーダ1806の出力信号をそれぞれ整列するための信号エンコーダ1806の入力である。整列情報は、時間整列情報、使用されたコーデックス(codex)の種類、ターゲットビット率、ビット−割当情報またはストラテジー(strategy)などを含むことができる。
【0153】
デコーダ側では、ミックス信号エンコーダの出力は、ミックス信号デコーダ1810(例えば、mp3デコーダ)の入力である。ミックス信号デコーダ1810の出力及びエンコーダ付加情報(例えば、エンコーダが生成したゲインファクタ、サブバンドパワー及び追加的な付加情報)は、パラメータ生成部1816の入力であり、これは、これらのパラメータをコントロールパラメータ(例えば、ユーザ特定のミックスパラメータ)と共に用いてリミックスパラメータ及び追加的なリミックスデータを生成する。リミックスパラメータ及び追加的なリミックスデータは、リミックスレンダラ1814によりリミックスされたオーディオ信号をレンダリングするために用いることができる。
【0154】
追加的なリミックスデータ(例えば、オブジェクト信号)は、リミックスレンダラ1814により原ミックスオーディオ信号内の特定オブジェクトをリミックスするために用いられる。例えば、カラオケアプリケーションで、リードボーカルを表現する原信号は、エンハンスドリミックスエンコーダ1802により追加的な付加情報(例えば、エンコーディングされたオブジェクト信号)を生成するために用いることができる。この信号は、パラメータ生成部1816により追加的なリミックスデータを生成するために用いることができ、これは、リミックスレンダラ1814により原ミックスオーディオ信号内のリードボーカルをリミックス(例えば、リードボーカルを抑制したり(suppressing)減衰化(attenuating)すること)するために用いることができる。
【0155】
図19は、図18に示すリミックスレンダラ1814の一実施例を示すブロック図である。一部の実施例では、ダウンミックス信号X1及びX2はそれぞれ、結合部1904及び1906の入力である。例えば、ダウンミックス信号X1及びX2は、原ミックスオーディオ信号の左側または右側チャネルになりうる。結合部1904及び1906は、ダウンミックス信号X1及びX2を、パラメータ生成部1816が提供した追加的なリミックスデータと結合する。カラオケの例で、結合(combining)は、リミックスされたオーディオ信号のリードボーカルを抑制したり(suppressing)減衰(attenuating)するようにリミックスする前に、ダウンミックス信号X1及びX2からリードボーカルオブジェクトを除外することを含むことができる。
【0156】
本発明の一実施例で、ダウンミックス信号X1(例えば、原ミックスオーディオ信号の左側チャネル)は、追加的なリミックスデータ(例えば、リードボーカルオブジェクト信号の左側チャネル)と結合され、スケールモジュール1906a及び1906bによってスケーリングされる。ダウンミックス信号X2(例えば、原ミックスオーディオ信号の右側チャネル)は、追加的なリミックスデータ(例えば、リードボーカルオブジェクト信号の右側チャネル)と結合され、スケールモジュール1906c及び1906dによってスケーリングされる。スケールモジュール1906aは、イコライザ(eq)−ミックスパラメータw11によってダウンミックス信号X1をスケーリングし、スケールモジュール1906bは、イコライザ(eq)−ミックスパラメータw21によってダウンミックス信号X1をスケーリングし、スケールモジュール1906cは、イコライザ(eq)−ミックスパラメータw12によってダウンミックス信号X2をスケーリングし、スケールモジュール1906dは、イコライザ(eq)−ミックスパラメータw22によってダウンミックス信号X2をスケーリングする。スケーリングは、n by n(例えば、2x2)行列を用いることのように、線形代数を用いて具現されることができる。スケールモジュール1906a及び1906cの出力は、第1レンダリングされた出力信号Y2を提供するために合算され、スケールモジュール1906b及び1906dの出力は、第2レンダリングされた出力信号Y2を提供するために合算される。
【0157】
一部の実施例では、原ステレオミックスと「カラオケ「モード及び/または「アカペラ「モード間の移動のためにユーザインタフェースのコントロール(例えば、スイッチ、スライダ、ボタン)を実現できる。このコントロール位置の関数として、結合部1902は、原ステレオ信号及び追加的な付加情報により獲得された信号間の線形組合せを調節する。例えば、カラオケモードで、追加的な付加情報から得られた信号はステレオ信号から除外することができる。(ステレオ及び/または他の信号が損失的にコーディングされた場合)リミックスプロセシングは後に量子化ノイズを除去するために適用されることができる。ボーカルを部分的に除去するためには、追加的な付加情報から得られた信号の部分のみを除去しなければならない。ボーカルのみをプレイするために、結合部1902は、追加的な付加情報から得られた信号を選択する。若干の背景音楽と共にボーカルを再生するために、結合部1902は、追加的な付加情報から得られた信号にステレオ信号のスケーリングされたバージョンを加える。
【0158】
本明細書では多数のものを特定しているが、これらは、請求したり請求される範囲に対する限定を構成するものではなく、むしろ特定の実施例に対する特別な説明として解釈されなければならない。本明細書の別途の実施施の脈絡で説明されたいかなる特徴も、一つの実施例に結合して実現することができる。一方、一つの実施施の様々な特徴は、同じ脈絡で多数の実施例としてそれぞれまたはある適切なサブコンビネーションとして実現することができる。なお、それらの特徴が特定コンビネーションで動作するものとして記載されたり、最初からそのように請求されたとしても、請求されたコンビネーションからの一つあるいはそれ以上の特徴は、場合によってはコンビネーションから削除することができ、請求されたコンビネーションは、サブコンビネーションやサブコンビネーションの変形にすることができる。
【0159】
同様に、動作が図面で特定の順序で図示されていても、これは、開示された特定順序あるいは順番で行なわれることを要求するものとして解釈されてはならず、また、所望の結果を得るために動作全体が行われるものとして解釈してもならない。ある特定の環境の下では、マルチタスキング及び併行プロセシングが有利になることもある。なお、以上述べられた全ての実施例の様々なシステムコンポーネントの分離は、全ての実施例でそのような分離が要求されるものとして解釈してはならず、記述されたプログラムコンポーネント及びシステムは、一般的に、一つのソフトウェア商品に統合されたりまたは多数のソフトウェア商品にパッケージされうると理解すべきである。
【0160】
本明細書では本発明の特定の実施例が記述された。その他の実施例は、添付の請求項の範囲に含まれる。例えば、請求項に述べられた行為は、他の順序で実行されても同様の所望の結果が得られる。一例として、添付の図面に示すプロセスは、所望の結果を得るために特定順序または順次的な順序を必ずしも必要とするわけではない。
【0161】
他の例として、セクション5Aに記述された付加情報の前処理は、式(2)に与えられた信号モデルと矛盾する負の値を防止するために、リミックスされた信号のサブバンドパワーに下限を提供する。しかし、この信号モデルは、リミックスされた信号の量のパワーを意味するだけでなく、原ステレオ信号とリミックスされたステレオ信号間の正のクロスプロダクト(cross−products)、すなわち、E{x1y1}、E{x1y2}、E{x2y1}及びE{x2y2}を暗示する。
【0162】
二つの重み値の場合から、クロスプロダクトE{x1y1}及びE{x2y2}が負の値を有することを防止するために、式(18)に定義されている重み値は特定臨界値に制限されるため、それらの重み値は絶対にAdBよりも小さくなることがない。
【0163】
そのとき、クロスプロダクトは次の条件を考慮して制限される。ここで、sqrtは平方根を表し、Qは、Q=10^−A/10Qと定義される。
・ E{x1y1}<Q*E{x12}であれば、クロスプロダクトは、E{x1y1}=Q*E{x12}に制限される。
・ E{x1,y2}<Q*sqrt(E{x12}E{x22})であれば、クロスプロダクトは、E{x1y2}=Q*sqrt(E{x12}E{x22})に制限される。
・ E{x2,y1}<Q*sqrt(E{x12}E{x22})であれば、クロスプロダクトはE{x2y1}=Q*sqrt(E{x12}E{x22})に制限される。
・ E{x2y2}<Q*E{x22}であれば、クロスプロダクトはE{x2y2}=Q*E{x22}に制限される。
【技術分野】
【0001】
関連出願
本出願は、2007年8月13日付米国仮出願第60/955,394号の「ステレオオーディオリミキシング能力の向上(Enhancing Stereo Audio Remix Capability)」に対する優先権の利益を主張する。該出願の全ての内容は参考文献として本特許出願に援用される。
【0002】
本出願の主な技術的内容は、一般的に、オーディオ信号処理に関するものである。
【背景技術】
【0003】
多数の消費者オーディオ装置(例えば、ステレオ(stereos)、メディアプレーヤ、モバイルフォン、ゲームコンソール等)は、イコライゼーション(equalization)(例えば、ベース(bass)、トレブル(treble))、ボリューム、室内音響効果(acoustic room effects)などのためのコントロール(control)を用いて、ユーザがステレオオーディオ信号を変形できるようにする。しかし、これらの変形は、オーディオ信号を形成する個別のオーディオオブジェクト(例えば、楽器)ではなく全体オーディオ信号に適用される。例えば、ユーザは、全体の歌に影響を与えることなく歌中のそのギター、ドラムまたはボーカルのステレオパニングまたはゲインを個別に変形することはできない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
デコーダでミキシング柔軟性(flexibility)を提供する技術が提案されてきている。この種の技術は、ミックスされたデコーダ出力信号を生成するためにバイノーラルキューコーディング(BCC)、パラメトリック(parametric)または空間オーディオデコーダを必要とする。しかし、いかなる技術も、音質損傷無しで下位互換性(backwards compatibility)を許容するようにステレオミックス(例えば、専門的にミックスされた音楽)を直接的にエンコーディングすることはできない。
【0005】
空間オーディオコーディング技術は、チャネル間(inter-channel)キュー(cue)(例えば、レベル差、時間差、位相差、相関度(coherence))を用いてステレオまたはマルチ−チャネルオーディオチャネルを表現するために提案されてきた。チャネル間キューは、マルチ−チャネル出力信号を生成するのに用いるために「付加情報「としてデコーダに伝送される。しかし、かかる従来の空間オーディオコーディング技術は、多くの欠陥を有する。例えば、オーディオオブジェクトがデコーダで変形されない場合であっても、この技術のうち少なくとも一部は、デコーダに伝送されるそれぞれのオーディオオブジェクトに対する分離された信号を要求する。このような要求はエンコーダ及びデコーダで余分の過程を生じさせる。他の欠陥は、ステレオ(または、マルチ−チャネル)オーディオ信号またはオーディオソース信号に対するエンコーダ入力の制限である。その結果、デコーダでのリミキシング柔軟性が減少する。最後に、従来技術の少なくとも一部は、デコーダで複雑なデコリレーションズ(de-correlation)過程を要求するので、一部アプリケーションまたは装置でこのような技術が不適合になる。
【課題を解決するための手段】
【0006】
ステレオまたはマルチ−チャネルオーディオ信号の一つまたはそれ以上のオブジェクト(例えば、楽器)と関連した、一つまたはそれ以上の属性(例えば、パン、ゲインなど)を、リミックス能力を提供するように変形することができる。
【0007】
本発明の一実施例で、ステレオアカペラ信号は、ステレオオーディオ信号から非音声(non−vocal)ソースを減衰させることによって誘導される。統計的なフィルタは、アカペラステレオ信号モデルからの期待値を用いて計算することができる。統計的なフィルタは、減衰ファクタと結合して非音声信号を減衰させるために用いられることができる。
【0008】
本発明の一実施例で、自動ゲイン/パニング調節は、ステレオオーディオ信号に適用されることができ、これは、ユーザがゲイン及びパニングコントロールの極端なセッティングをすることを防止する。ゲインスライダ間の平均距離は、ゲインスライダの範囲を制限するために平均距離の関数として調節ファクタと一緒に使用されることができる。
【0009】
他の実施例は、システム、方法、装置、コンピュータ読み取り可能媒体及びユーザインタフェースに対する実装を含むリミキシング能力を有する向上したオーディオのために開示される。
【図面の簡単な説明】
【0010】
【図1A】ステレオ信号及びデコーダでリミックスされるオブジェクトに対応するMソース信号をエンコーディングするエンコーディングシステムの一実施例を示すブロック図である。
【図1B】ステレオ信号及びデコーダでリミックスされるオブジェクトに対応するMソース信号をエンコーディングする過程の一実施例示すフローチャートである。
【図2】ステレオ信号及びMソース信号の分析及び処理のための時間−周波数グラフ表現である。
【図3A】原(original)ステレオ信号及び付加情報を用いてリミックスされたステレオ信号を推定するためのリミキシングシステムの一実施例を示すブロック図である。
【図3B】図3Aのリミックスシステムを用いてリミックスされたステレオ信号を推定するための過程の一実施例を示すフローチャートである。
【図4】インデックスbの部分に属する短時間フーリエ変換(STFT: short-time Fourier transform)係数のインデックスiを示す図である。
【図5】人間聴覚システムの非均等(non−uniform)周波数解像度(frequency resolution)を摸倣するための均等STSFスペクトラル係数の分類(grouping)を示す図である。
【図6A】図1Aに従来のステレオオーディオエンコーダが結合されたエンコーディングシステムの一実施例を示すブロック図である。
【図6B】図1Aに従来のステレオオーディオエンコーダが結合されたエンコーディングシステムを用いたエンコーディング過程の一実施例を示すフローチャートである。
【図7A】図3Aに従来のステレオオーディオデコーダが結合されたリミキシングシステムの一実施例を示すブロック図である。
【図7B】図7Aにステレオオーディオデコーダが結合されたリミキシングシステムを用いたリミックス過程の一実施例を示すフローチャートである。
【図8A】完全なブラインド(blind)付加情報生成を実装するエンコーディングシステムの一実施例を示すブロック図である。
【図8B】図8Aのエンコーディングシステムを用いたエンコーディング過程の一実施例を示すフローチャートである。
【図9】所望のソースレベル差Li=LdBに対するゲイン関数f(M)の一例を示す図である。
【図10】部分的なブラインド生成技術を用いた付加情報生成過程の一実施例を示すフローチャートである。
【図11】ステレオ信号だけでなく、Mソース信号及び/または付加情報をリミキシング能力を備えたオーディオ装置に提供するためのサーバ/クライアントシステム構成の一実施例を示すブロック図である。
【図12】リミックス能力を備えたメディアプレーヤのためのユーザインタフェースの一実施例を示す図である。
【図13】空間オーディオオブジェクト(SAOC)デコーディング及びリミックスデコーディングを結合したデコーディングシステムの一実施例を示す図である。
【図14A】分離されたダイアログボリューム(SDV: Separate Dialogue Volume)のための一般的なミキシングモデルを示す図である。
【図14B】SDV及びリミックス技術を結合したシステムの一実施例を示す図である。
【図15】図14Bに示すイコライザ・ミックスレンダラ(eq-mix renderer)の一実施例を示す図である。
【図16】図1〜図15を参照して説明されたリミックス技術のための分散システムの一実施例を示す図である。
【図17A】リミックス情報を提供するための様々なビットストリーム実装形態の要素を示す図である。
【図17B】図17Aに示すビットストリームを生成するためのリミックスエンコーダインタフェースの一実施例を示す図である。
【図17C】図17Bに示すエンコーダインタフェースにより生成されたビットストリームを受信するためのリミックスデコーダインタフェースの一実施例を示す図である。
【図18】向上したリミックス性能を提供するために、あるオブジェクト信号のための追加的な付加情報を生成するための拡張を含むシステムの一実施例を示すブロック図である。
【図19】図18に示すリミックスレンダラ(renderer)の一実施例を示すブロック図である。
【発明を実施するための形態】
【0011】
I.ステレオ信号のリミキシング
図1Aは、ステレオ信号の他に、デコーダでリミックスされるオブジェクトに対応するMソース信号もエンコーディングするエンコーディングシステム100の一実施例を示すブロック図である。実施例によっては、エンコーディングシステム100は、一般的に、フィルタバンクアレイ(filterbank array)102、付加情報生成部104及びエンコーダ106を含む。
A.原(original)信号及び所望のリミックスされた信号
【0012】
【数1】
【0013】
一部の実施例では、エンコーディングシステム100は、原ステレオオーディオ信号(以下、「ステレオ信号「という。)を変形するための情報(以下、「付加情報「という。)を提供したり生成して、Mソース信号が他のゲインファクタとともにステレオ信号内に「リミックス「される。所望の変形されたステレオ信号は、下記のように表現することができる。
【数2】
ここで、ci及びdiは、リミックスされるMソース信号(すなわち、インデックス1,2,…,Mのソース信号)のための新しいゲインファクタ(以下、「ミキシングゲイン「または「ミックスパラメータ「という。)である。
【0014】
エンコーディングシステム100の目的は、原ステレオ信号及び少ない量(例えば、ステレオ信号波形に含まれた情報と比較して少ない量)の付加情報のみ与えられると、ステレオ信号をリミキシングするための情報を提供または生成することである。エンコーディングシステム100により提供されたり生成された付加情報は、与えられた上記式(1)の原ステレオ信号を上記式(2)の所望の変形された信号を知覚的に摸倣するデコーダで用いることができる。エンコーディングシステム100で、付加情報生成部104は、原ステレオ信号をリミキシングするための付加情報を生成し、デコーダシステム(図3Aの300)は、付加情報及び原ステレオ信号を用いて所望のリミックスされたステレオオーディオ信号を生成する。
B.エンコーダ過程
【0015】
再び図1Aを参照すると、原ステレオ信号及びMソース信号は、フィルタバンクアレイ102に入力として提供される。また、原ステレオ信号は、エンコーダ102から直接出力される。一部の実施例では、エンコーダ102から直接出力されたステレオ信号は、付加情報ビットストリームとの同期化のために遅延されることができる。他の実施形態では、ステレオ信号出力はデコーダで付加情報と同期化することができる。一部の実施例では、エンコーディングシステム100は、時間及び周波数の関数として信号統計に合わせる。したがって、分析(analysis)及び合成(synthesis)のために、ステレオ信号及びMソース信号は、図4及び5に基づく説明のおけるように、時間−周波数表現で処理される。
【0016】
図1Bは、ステレオ信号及びデコーダでリミックスされるオブジェクトに対応するMソース信号をエンコーディングする過程108の一実施例を示すフローチャートである。入力ステレオ信号及びMソース信号はサブバンドに分解される(110)。一部の実施例では、この分解はフィルタバンクアレイを用いて行うことができる。より詳細に後述するが、それぞれのサブバンドに対するゲインファクタは、Mソース信号に関して推定される(112)。後述するように、それぞれのサブバンドに対して、短時間パワー推定値がMソース信号に対して計算される(114)。これら推定されたゲインファクタ及びサブバンドパワーを、付加情報を生成するために量子化及びエンコーディングすることができる(116)。
【0017】
図2は、ステレオ信号及びMソース信号の分析及び処理のための時間−周波数グラフ表現である。グラフのy−軸は周波数を表し、複数の非均等的なサブバンド202に分けられている。x−軸は時間を表し、時間スロット204に分けられる。図2で、それぞれの点線ボックスは、それぞれのサブバンド及び時間スロット対を示す。したがって、与えられた時間スロット204で、時間スロット204に対応する一つまたはそれ以上のサブバンド202はグループ206として処理することができる。一部の実施例では、図4及び5に基づく説明におけるように、サブバンド202の幅が、人間聴覚システムと関連した知覚的限界に基づいて選択される。
【0018】
一部の実施例では、入力ステレオ信号及びM入力ソース信号は、フィルタバンクアレイ102で多数のサブバンド202に分解される。各中心周波数でサブバンド202は略同様に処理されることができる。特定周波数でステレオオーディオ入力信号のサブバンド対はx1(k)及びx2(k)で表し、kは、サブバンド信号のダウンサンプルされた時間インデックスである。これと略同様に、M入力ソース信号の対応するサブバンド信号は、s1(k),s2(k),…,SM(k)で表示される。表記の単純化のために、サブバンドのインデックスはこの例では省略されていることに注目されたい。ダウンサンプリングに対して、低いサンプリング率のサブバンド信号を効率性の側面で用いることができる。普通、フィルタバンク及びSTFTは、サブ−サンプリングされた信号(またはスペクトラル係数)を效率的に有する。
【0019】
本発明の一実施例で、インデックスiのソース信号をリミキシングするために必要な付加情報は、ゲインファクタaiとbi及びそれぞれのサブバンドで時間の関数としてサブバンド信号のパワー推定値E{si2(k)}を含む。ゲインファクタai及びbiは、(ステレオ信号のこのような情報が知られた場合)与えられたり推定されることができる。多くのステレオ信号の場合、ai及びbiは静的(static)である。もし、aiまたはbiが時間kの関数として変化するとすれば、これらのゲインファクタは、時間の関数として推定されることができる。付加情報を生成するためにサブバンドパワーの平均値または推定値を必ずしも用いる必要はない。むしろ一部の実施例では、実際のサブバンドパワーSi2をパワー推定値とすることができる。
【0020】
【数3】
【0021】
一部の実施例では、付加情報ai、bi及びE{si2(k)}の一部あるいは全部を、ステレオ信号として同一媒体に提供することができる。例えば、音楽出版社、レコーディングスタジオ、レコーディングアーティストなどは、対応するステレオ信号と一緒に付加情報をコンパクトディスク(CD)、デジタルビデオディスク(DVD)、フラッシュドライブなどに提供するはずである。一部の実施例では、付加情報をステレオ信号のビットストリームに組み込み(embedding)したり付加情報を別個のビットストリームで伝送することによって、付加情報の一部または全部をネットワーク(例えば、インターネット、イーサネット(登録商標)、無線ネットワーク)を通じて提供することができる。
【0022】
【数4】
【0023】
一部の実施例では、それぞれのサブバンドに対して短時間パワー推定値及びゲインファクタが、付加情報(例えば、低いビット率のビットストリーム)を構成するためにエンコーダ106により量子化及びエンコーディングされる。これらの値は直接的に量子化及びエンコーディングされることはできないが、図4及び図5を参照して説明するように、まず、量子化及びコード化のためにより適合した他の値に変換されうることに注目されたい。一部の実施例では、図6及び図7を参照して説明するように、E{si2(k)}は、入力ステレオオーディオ信号のサブバンドパワーに関して量子化されることができ、従来のオーディオコーダが效率的にステレオオーディオ信号をコーディングする場合、変化と関連してエンコーディングシステム100をロバスト(robust)にさせる。
C.デコーダ過程
【0024】
図3Aは、原ステレオ信号及び付加情報を用いてリミックスされたステレオ信号を推定するためのリミキシングシステム300の一実施例を示すブロック図である。一部の実施例では、リミキシングシステム300は、一般的に、フィルタバンクアレイ302、デコーダ304、リミックスモジュール306及び逆フィルタバンクアレイ308を含む。
【0025】
リミックスされたステレオオーディオ信号の推定は、多くのサブバンドで独立して行うことができる。付加情報は、ステレオ信号に含まれているMソース信号に対するサブバンドパワーE{ si2(k)}及びゲインファクタaiとbiを含む。所望のリミックスされたステレオ信号の新しいゲインファクタまたはミキシングゲインは、ci及びdiで表す。図12を参照して説明するように、ミキシングゲインci及びdiは、オーディオ装置のユーザインタフェースを通じてユーザにより定められることができる。
【0026】
一部の実施例では、入力ステレオ信号は、フィルタバンクアレイ302によりサブバンドに分解され、特定の周波数のサブバンド対はx1(k)及びx2(k)で表示される。図3Aに示すように、付加情報はデコーダ304によりデコーディングされ、リミックスされる各Mソース信号に対して、入力ステレオ信号に含まれたゲインファクタaiとbi、及び各サブバンドに対するパワー推定値E{si2(k)}が算出される。付加情報のデコーディングは、図4及び5を参照してより詳細に説明する。
【0027】
付加情報が与えられると、リミックスされたステレオオーディオ信号の対応サブバンド対を、リミックスされたステレオ信号のミキシングゲインの関数としてリミックスモジュール306により推定することができる。逆フィルタバンクアレイ308は、リミックスされた時間領域ステレオ信号を提供するために、推定されたサブバンド対に適用される。
【0028】
図3Bは、図3Aのリミックスシステムを用いてリミックスされたステレオ信号を推定するためのリミックス過程310の一実施例を示すフローチャートである。入力ステレオ信号は、サブバンド対に分解される(312)。付加情報は、これらサブバンド対に対してデコーディングされる(314)。これらサブバンド対は付加情報とミキシングゲインを用いてリミックスされる(318)。一部の実施例では、図12を参照して説明するように、これらミキシングゲインがユーザにより提供される。選択的に、ミキシングゲインを、アプリケーション、運営体制(operating system)等を通じてプログラム的に提供することができる。図11を参照して説明するように、ミキシングゲインをまた、ネットワーク(インターネット、イーサネット(登録商標)、無線ネットワーク)を通じて提供することができる。
D.リミキシング過程
【0029】
一部の実施例では、リミックスされたステレオ信号は、最小2乗推定(least squares estimation)を用いて数学的に近似値を求めることができる。選択的に、知覚的な考慮は、推定値を変形するために用いることができる。
【0030】
上記式(1)及び式(2)はまた、サブバンド対 x1(k)と x2(k)、y1(k)とy2(k)にそれぞれ適用される。この場合、ソース信号はソースサブバンド信号si(k)に置き換えられる。
【0031】
ステレオ信号のサブバンド対は、次のように与えられる。
【数5】
また、リミックスされたステレオオーディオ信号のサブバンド対は、次の通りである。
【数6】
【0032】
原ステレオ信号のサブバンド対、x1(k)及びx2(k)が与えられると、異なるゲインを有するステレオ信号のサブバンド対は、元の左側及び右側のステレオサブバンド対の線形組合せとして推定される。
【数7】
ここで、w11(k)、w12(k)、w21(k)及びw22(k)は、実数重みファクタである。
【0033】
予測誤差は下記式(10)のように定義される。
【数8】
【0034】
各時間kで、重み値w11(k)、w12(k)、w21(k)及びw22(k)を、各周波数のサブバンドに対して、最小2乗エラーE{e12(k)}及びE{e22(k)}が最小化するように計算することができる。w11(k)及びw12(k)の計算のために、誤差e1(k)がx1(k)及びx2(k)に直交(orthogonal)する時にE{e12(k)}が最小値になるということに注目する。すなわち、下記式(11)のように表すことができる。
【数9】
記載の便宜のために時間インデックスkは省略したことに留意されたい。
【0035】
この式を次のように書き直すことができる。
【数10】
【0036】
ゲインファクタは、この線形方程式システムの解である。
【数11】
【0037】
デコーダ入力ステレオ信号サブバンド対が与えられると、E{x12}、E{x22}及びE{x1x2}は直接的に推定できる反面、E{x1y1}及びE{x2y2}は、付加情報(E{s12}、ai、bi)及び所望のリミックスされたステレオ信号のミキシングゲインciとdiを用いて推定することができる。
【数12】
【0038】
同様に、w21及びw22は、下記式(15)のように計算される。
【数13】
ここで、
【数14】
である。
【0039】
左側及び右側のサブバンド信号が相関(coherent)したりほとんど相関したりする場合、すなわち、下記式(17)が1に近い時、重み値に対する解は、非唯一であるか不良条件(ill-conditioned)である。
【数15】
したがって、もし、Φがある臨界値(例えば、0.95)よりも大きいと、重み値は、例えば、下記式(18)で計算される。
【数16】
【0040】
Φ=1の仮定の下に、式(18)は、式(12)及び他の二つの重み値に対する類似の直交方程式システム(orthogonality equation system)を満たす唯一でない(non-unique)解のうちの一つである。式(17)の相関度は、x1及びx2が互いにどれくらい類似しているかを判断するのに用いられることに注目されたい。もし、相関度が0であれば、x1とx2は独立的である。もし、相関度が1であれば、x1とx2は類似している(ただし、異なるレベルを有することができる)。もし、x1とx2が非常に似ていると(相関度が1に近い場合)、二つのチャネルウィーナー(Wiener)計算(4つの重み値計算)は不良条件である。臨界値範囲の一例は、約0.4〜約1.0である。
【0041】
計算されたサブバンド信号を時間領域に変換して獲得した、結果的にリミックスされたステレオ信号は、異なるミキシングゲインci及びdiと実際にミックスされたステレオ信号(以下この信号を「所望の信号「という。)と同様に聞こえる。一方、これは、計算されたサブバンド信号が、実際に異なってミックスされたサブバンド信号と数学的に類似することを要求する。これは、ある程度までの場合である。推定は、知覚的に動機付けられたサブバンド領域で行われるため、類似性に対する必要条件は相対的に厳格でない。知覚的に関連を有する定位(localization)キュー(例えば、レベル差及び相関度キュー)が十分に類似していると、計算されたリミックスされたステレオ信号は所望の信号と類似に聞こえる。
E.選択事項:レベル差キューの調節
【0042】
実施形態によっては、本明細書で説明した過程を用いる場合、良い結果を得ることができる。にも拘わらず、重要なレベル差定位キューが所望の信号のレベル差キューに近似されるということを確実にするために、サブバンドのポストスケーリングにはレベル差キューを「調節「して、それらが所望する信号のレベル差キューとマッチングされることを確実にすることができる。
【0043】
上記式(9)の最小2乗サブバンド信号予測値の変形のために、サブバンドパワーが考慮される。もし、サブバンドパワーが正確であるとすれば、重要な空間キューレベル差も正確でありうる。上記式(8)の所望の信号の左側サブバンドパワーは、下記式(19)の通りである。
【数17】
そして、式(9)からのサブバンドパワー推定値は、下記式(20)の通りである。
【数18】
【0044】
【数19】
【0045】
【数20】
II.付加情報の量子化及びコーディング
A.エンコーディング
【0046】
以前セクションで説明した通り、インデックスiのソース信号をリミックスするのに必要な付加情報は、ファクタaiとbi、そしてそれぞれのサブバンドで時間の関数としてのパワーE{s12(k)}である。本発明の一実施例で、ゲインファクタaiとbiに対して、対応するゲイン及びレベル差値を下記のようにdBで計算することができる。
【数21】
【0047】
一部の実施例では、ゲイン及びレベル差値は量子化されハフマンコーディングされる。例えば、2dB量子化ステップ大きさを有する均一の量子化部及び一次元ハフマンコーダはそれぞれ量子化及びコーディングに利用することができる。他の知られた量子化器及びコーダを利用することもできる(例えば、ベクトル量子化器)。
【0048】
もし、ai及びbiが時間によって変わらずに、付加情報がデコーダに信頼可能に到着するとすれば、対応するコード値は単に1回のみ伝送されればよい。そうでないとすれば、ai及びbiは一定の時間間隔ごとにあるいはトリガーイベントに(例えば、コード値が変わる度に)応答して伝送されることができる。
【0049】
ステレオ信号のスケーリング及びステレオ信号のコーディングによるパワー損失/利益に対してロバスト(robust)にさせるために、一部の実施例では、サブバンドパワーE{si2(k)}は付加情報として直接コーディングされない。むしろ、ステレオ信号と関連して定義された尺度を利用することができる。
【数22】
【0050】
様々な信号に対するE{.}を計算するために同一の推定ウィンドウ/時定数を使用することは利点となりうる。式(24)の相対的なパワー値として付加情報を定義する場合の利点は、所望の場合、デコーダでエンコーダとは異なる推定ウィンドウ/時定数を利用できるということである。また、ソースパワーが絶対値として伝送される場合に比べて、付加情報及びステレオ信号間の時間不一致(misalignment)の影響が減る。Ai(k)の量子化及びコーディングのために、一部の実施例では、例えば、2dBのステップサイズを有する均一の量子化器及び1次元ハフマンコーダを利用する。結果ビット率は、リミックスされるオーディオオブジェクト当たり約3kb/s(秒当たりキロビット)と小さくなりうる。
【0051】
一部の実施例では、デコーダでリミックスされるオブジェクトに対応する入力ソース信号が無音の時、ビット率が減ることができる。エンコーダのコーディングモードは無音のオブジェクトを発見でき、そのオブジェクトが無音であるということを表すためのデコーダ情報(例えば、フレーム当たり1ビット)を伝送することができる。
B.デコーディング
【0052】
ハフマンデコーディングされた(量子化された)値、上記式(23)及び式(24)が与えられると、リミキシングのために必要な値は次のように計算できる。
【数23】
III .実装の詳細
A.時間−周波数過程
【0053】
本発明の一実施例で、STFT(短時間フーリエトランスフォーム)ベース過程は、図1〜図3を参照して説明されるエンコーディング/デコーディングのためのシステムに利用される。所望の結果を得るためにQMFフィルタバンク、MDCT、ウェーブレット(wavelet)フィルタバンクなどを含め、他の時間−周波数変換を用いることができるが、本発明がこれに限定されるわけではない。
【0054】
一部の実施例では、分析過程で(例えば、フォワード(forward)フィルタバンク演算)N−ポイント離散フーリエ変換(DFT)または高速フーリエ変換(FFT)を適用する前に、Nサンプルのフレームをウィンドウを用いて乗じることができる。一部の実施例では、下記のサイン(sine)ウィンドウを用いることができる。
【数24】
【0055】
もし、プロセシングブロック大きさがDFT/FFT大きさと異なると、一部の実施例では、效率的にNよりも小さいウィンドウを有するために、ゼロパディング(zero padding)を利用することができる。例えば、説明された分析過程は、(ウィンドウホップ(hop)大きさと同一の)N/2サンプルごとに反復されることができ、その結果、50パーセントウィンドウオーバーラップ(overlap)になる。他のウィンドウ関数及びパーセントオーバーラップも所望の結果を得るために用いることができる。
【0056】
STFTスペクトラル(spectral)領域から時間領域への変形のために、逆DFTまたはFFTがスペクトル(spectra)に適用されることができる。結果信号は、式(26)に説明されたウィンドウを用いて再び乗じ、ウィンドウを用いた乗算結果としての隣接した信号ブロックは、連続した時間領域信号を得るために加算されたオーバーラップと結合される。
【0057】
場合によっては、STFTの均一なスペクトラル解像度が人間知覚に適合しないこともある。こういう場合に、各STFT周波数係数を個別的に処理することとは対照的に、STFT係数は「グループ化「されることができ、一つのグループは空間的オーディオプロセシングのための適切な周波数解像度である等価矩形帯域幅 (ERB: equivalent rectangular bandwidth)の約2倍の帯域幅を有する。
【0058】
図4は、インデックスbの部分に属するSTFT係数のインデックスiを示す図である。一部の実施例では、スペクトラムは対称的(symmetric)であるから、スペクトラムの始めのN/2+1スペクトラル係数のみ考慮される。図4に示すように、インデックスb(1≦b≦B)の部分に属したSTFT係数のインデックスは、A0=0の時、i∈{Ab-1,Ab-1+1,…,Ab}である。パーティションのスペクトラル係数で表現された信号は、エンコーディングシステムで利用される知覚的に動機付けられたサブバンド分割に符合する。したがって、このような各パーティション内で説明された過程は、パーティション内のSTFT係数にも共通して適用されることができる。
【0059】
図5には、人間聴覚システムの非均等周波数解像度(frequency resolution)を摸倣するための均等STSFスペクトラル係数の分類を例示する。図5で、44.1kHzのサンプリング率に対してN=1024であり、パーティションの数B=20であり、各パーティションは略2ERBの帯域幅を有する。最後のパーティションは、ナイキスト(Nyquist)周波数におけるカットオフのゆえに2ERBよりも小さいことに注目されたい。
B.統計的データの推定
【0060】
2つのSTFT係数xi(k)及びxj(k)が与えられると、リミックスされたステレオオーディオ信号を計算するため必要な値E{xi(k)xj(k)}は、反復的に推定できる。この場合に、サブバンドサンプリング周波数fsは、STFTスペクトルが計算される時間的周波数である。各知覚的パーティション(各STFT係数でない)に対する推定値を得るために、推定された値を、後に利用される前にパーティション内で平均化することができる。
【0061】
前のセクションで説明された過程は、それが一つのサブバンドのようにそれぞれのパーティションに適用されることができる。例えば、周波数で突然のプロセシング変化を防ぐために、パーティション間のスムージングは、オーバーラッピングされたスペクトラルウィンドウを用いて行うことができ、これにより、人工音(artifacts)を減らす。
C.従来のオーディオコーダとの結合
【0062】
図6Aは、図1に従来のステレオオーディオエンコーダが結合されたエンコーディングシステムの一実施例を示すブロック図である。一部の実施例では、結合されたエンコーディングシステム600は、従来のオーディオエンコーダ602、提案されたエンコーダ604(例えば、エンコーディングシステム100)、及びビットストリーム結合部606を含む。この例において、ステレオオーディオ入力信号は、従来のオーディオエンコーダ602(例えばMP3、AAC、MPEGサラウンド等)によりエンコーディングされ、図1〜図5を参照して前述したように、付加情報を提供するために提案されたエンコーダ604によって分析される。両結果ビットストリームは、下位互換性のあるビットストリームを提供するようにビットストリーム結合部606で結合される。一部の実施例では、結果ビットストリームの結合は、低いビット率の付加情報(例えば、ゲインファクタai、bi及びサブバンドパワーE{si2(k)})を下位互換性のあるビットストリーム内に組み込むことを含む。
【0063】
図6Bは、従来のステレオオーディオエンコーダが結合された図1Aのエンコーディングシステム100を用いたエンコーディング過程608の一実施例を示すフローチャートである。入力ステレオ信号は、従来のステレオオーディオエンコーダによりエンコーディングされる(610)。付加情報は、ステレオ信号及びMソース信号から、図1Aのエンコーディングシステム100を用いて生成される(612)。エンコーディングされたステレオ信号及び付加情報を含む一つまたはそれ以上の下位互換性のあるビットストリームが生成される(614)。
【0064】
図7Aは、結合されたシステム700を提供するために従来のステレオオーディオデコーダが結合された図3Aのリミキシングシステム300の一実施例を示すブロック図である。一部の実施例では、結合されたシステム700は、一般的に、ビットストリームパーサー702、従来のオーディオデコーダ704(例えば、MP3、AAC)、及び提案されたデコーダ706を含む。一部の実施例では、提案されたデコーダ706が図3Aのリミキシングシステム300である。
【0065】
本例で、ビットストリームは、ステレオオーディオビットストリーム及びリミキシング能力を提供するために提案されたデコーダ706により必要な付加情報を含むビットストリームに分離される。ステレオ信号は、従来のオーディオデコーダ704によりデコーディングされ、提案されたデコーダ706に送られる。提案されたデコーダ706は、ステレオ信号を、ビットストリーム及びユーザ入力(例えば、ミキシングゲインci及びdi)から獲得された付加情報の関数として変換する。
【0066】
図7Bは、図7Aの結合システム700を用いたリミックス方法708の一実施例を示すフローチャートである。エンコーダから受信したビットストリームは、エンコーダステレオ信号ビットストリーム及び付加情報ビットストリームを提供するためにパーシングされる(710)。エンコーディングされたステレオ信号は、従来のオーディオデコーダによりデコーディングされる(712)。デコーダの例には、MP3、AAC(AACの様々な標準化されたプロファイルを含む。)、パラメトリック(parametric)ステレオ、スペクトラルバンドレプリケーション(SBR)、MPEGサラウンドまたはこれらの組合せを含む。デコーディングされたステレオ信号は、付加情報及びユーザ入力(例えば、ci及びdi)を用いてリミックスする。
IV.マルチ−チャネルオーディオ信号のリミキシング
【0067】
本発明の一実施例で、上のセクションで説明されたエンコーディング及びリミキシングシステム100,300は、リミキシングマルチ−チャネルオーディオ信号(例えば、5.1サラウンド信号)に拡張可能である。以下では、ステレオ信号及びマルチ−チャネル信号を「複数−チャネル「信号とも呼ぶ。当該技術分野における通常の知識を有する者には、マルチ−チャネルエンコーディング/デコーディング方式に対して、すなわち、Cがミックスされた信号のオーディオチャネルの数を表す時、2つよりも多い信号x1(k),x2(k),x3(k),…,xC(k)に対して、上記式(7)〜式(22)をどのように書き直せるかが理解される。
【0068】
マルチ−チャネル場合に対して式(9)は、次のようになる。
【数25】
上に説明したように、Cを有する式(11)のように数学式が誘導され、重み値を決定するために解くことができる。
【0069】
一部の実施例では、あるチャネルは処理されずに残っていることができる。例えば、5.1サラウンドに対して2個の後方のチャネルは処理されずに残っていることができる。そして、リミキシングは、単に前方の左側、右側及び中央チャネルにのみ適用される。このような場合に、3チャネルリミキシングアルゴリズムが前方チャネルに適用されることができる。
【0070】
本明細書に開示されたリミキシング方式(scheme)で得られたオーディオ質は、行われた変形の本質(nature)に依存する。比較的弱い変形、例えば、0dBから15dBへのパニング変形または10dBのゲイン変形に対して結果オーディオ質は、従来の技術を用いて得るそれよりも高くなりうる。また、本明細書に開示された提案されたリミキシング方式の質は、従来のリミキシング方式のそれよりも高くなりうる。なぜなら、ステレオ信号は所望のリミキシングを得るために必要な分のみ変形されるためである。
【0071】
本明細書に開示されたリミキシング方式は、従来の技術らに比べて多くの長所を提供する。第一に、与えられたステレオまたはマルチ−チャネルオーディオ信号におけるオブジェクトの全体個数よりも少ないリミキシングを許容する。これは、与えられたステレオオーディオ信号に加えて、デコーダでリミキシングのために利用されうるステレオオーディオ信号中のMオブジェクトを表すMソース信号の関数として付加情報を推定することによって達成される。実際に異なってミックスされたステレオ信号と知覚的に類似するステレオ信号を生成するために、開示されたリミキシングシステムは、与えられたステレオ信号を付加情報の関数及びユーザ入力(所望のリミキシング)の関数として処理する。
V.基本リミキシング方式の改善
A.付加情報の前処理
【0072】
サブバンドが隣のサブバンドに比べて過多に減衰される時、オーディオ人工音(artifacts)が発生することがある。したがって、最大減衰を制限することが好ましい。しかも、ステレオ信号及びオブジェクトソース信号統計は、エンコーダ及びデコーダからそれぞれ独立的に計算されるため、測定されたステレオ信号サブバンドパワーとオブジェクト信号サブバンドパワー(付加情報で表現される。)間の比率は実際から外れることがある。このため、付加情報は物理的には不可能なものになりうる。例えば、式(19)でのリミックスされた信号の信号パワーが負数になりうる。上に言及したイシューについては以下に説明する。
【0073】
左側及び右側のリミックスされた信号のサブバンドパワーは、次の通りである。
【数26】
ここで、PSiは、式(25)で与えられた量子化及びコーディングされたサブバンドパワー推定値と同一であり、これは付加情報の関数として計算される。リミックスされた信号のサブバンドパワーは制限され、原ステレオ信号のサブバンドパワーE{x12}以下であるLdBより小さくなることができない。同様に、E{y22}は、E{x22}以下であるLdBより小さくならないように制限される。この結果は、次のような動作で達成できる:
1.式(28)によって左側及び右側リミックスされた信号サブバンドパワーを計算する。
2.E{y12}<QE{x12}の場合、E{y12}=QE{x12}になるように付加情報計算値PSiを調節する。E{y12}のパワーをE{x12}のパワー以下であるAdBより小さくならないように制限するために、QはQ=10-A/10に設定できる。すると、PSiは、下記式(29)のようにそれを乗じて調節することができる。
【数27】
3.E{y22}<QE{x22}の場合、E{y22}=QE{x22}になるように付加情報計算値PSiを調節する。これは、下記式(30)のようにPSiを乗じることによって達成できる。
【数28】
【数29】
B.4個または2個の重み値利用の決定
【0074】
多くの場合において、上記式(18)の2個重み値は左側と右側のリミックスされた信号サブバンドを計算するのに充分である。場合によっては、上記式(13)及び式(15)の4個重み値を用いる方が良好な結果をもたらすこともある。2個重み値を用いることは、左側の出力信号を生成するのに単に左側原信号が利用され、右側出力も同様であることを意味する。したがって、4個重み値が好ましいシナリオは、一方のあるオブジェクトが他方のものとリミックスされる時である。このような場合に、4個重み値利用が有利になると期待される。なぜなら、元来は一方のみに存在していた信号(例えば左側チャネル)は、リミキシング後に主に他方(例えば右側チャネル)に存在するからである。したがって、4個重み値は、原左側チャネルからリミックスされた右側チャネル、そしてその反対の信号の流れを可能にするために利用される。
【0075】
4個重み値計算の最小2乗問題が不良条件である時、重み値の大きさは大きくなりうる。同様に、上記した一側から他側へのリミキシングが利用される時に、単に2個の重み値が利用される時に重み値の大きさは大きくなることができる。このような観測により同期付けられ、一部の実施例では2個の重み値を用いるかまたは4個の重み値を用いるかを決定するために以下の基準が用いることができる。
【0076】
もし、A<Bであれば、4個の重み値を用い、そうでないと2個の重み値を用いる。A及びBはそれぞれ4個及び2個の重み値に対して重み値の大きさの測定値である。本発明の一実施例で、A及びBは次のように計算される。Aを計算するために、まず、式(13)及び式(15)によって4個の重み値を計算し、A=w112+w122+w212+w222にする。Bを計算するために、重み値は式(18)によって計算し、B=w112+w222と計算される。
【0077】
【数30】
【0078】
オブジェクトの位置を変更する要求は、原パニング情報を所望のパニング情報と比較することによって容易にチェックできる。しかし、予測誤りにより、決定の敏感度を調節できる一部マージン(margin)を与えることが好ましい。決定の敏感度は好ましい値としてα、βをセッティングすることによって容易に調節できる。
C.希望時の減衰度の改善
【0079】
【数31】
【0080】
【数32】
【0081】
本明細書で説明されたリミックス技術は、ミキシングゲインci及びdiに対してユーザコントロールを提供する。ゲイン及びパニングがci及びdiにより完全に決定される場合、これは各オブジェクトに対してゲインGi及び振幅パニングLi(方向)を決定するのに符合する。
【数33】
【0082】
一部の実施例では、ソース信号のゲイン及び振幅パニングに加えて、ステレオミックスの他の特徴を調節することが好ましい。以下では、ステレオオーディオ信号の背景音(ambience)程度を変形するための技術を説明する。このデコーダ作業には付加情報を必要としない。
【0083】
一部の実施例では、式(44)で与えられる信号モデルを、ステレオ信号の背景音の程度を変形するのに利用することができる。前記n1及びn2のサブバンドパワーは同じであるとする。すなわち、下記式(34)のようである。
【数34】
【0084】
再び、s、n1及びn2は相互独立していると仮定できる。このような仮定が与えられると、式(17)の相関度は、下記式(35)のようである。
【数35】
これは、変数PN(k)に対する2次方程式、
【数36】
に対応する。
上記2次方程式の解は、次の通りである。
【数37】
物理的に可能な解は、平方根前に負号を有するものである。
【数38】
なぜなら、PN(k)は、E{x12(k)}+E{x22(k)}より小さいまたは等しいべきからである。
【0085】
本発明の一実施例で、左側及び右側背景音を制御するために、リミックス技術は、2オブジェクトに対して適用されることができる。一つのオブジェクトは、インデックスi1に対して左側でサブバンドパワーE{si12(k)}=PN(k)である、すなわち、ai1=1で、bi1=0のソースである。他のオブジェクトは、インデックスi2に対して右側でサブバンドパワーE{si22(k)}=PN(k)である、すなわち、ai2=0で、bi2=1のソースである。背景音の量を変えるために、ユーザは、gaがdBで表された背景音ゲインである場合、ci1=di1=10ga/20及びci2=di1=0を選択できる。
F.他の付加情報
【0086】
一部の実施例では、変形されたり異なる付加情報は、ビット率観点でより効率的な開示されたリミキシング方式に利用されることができる。例えば、式(24)でAi(k)は任意の値を有することができる。原ソース信号si(n)のレベル依存性も存在する。したがって、所望の範囲での付加情報を得るために、原ソース信号のレベルは調節される必要がある。このような調節を避け、且つ原ソース信号レベルの付加情報依存性を除去するために、一部の実施例では、ソースサブバンドパワーを、式(24)のようにステレオ信号サブバンドパワーに関してだけでなくミキシングゲインが考慮されて正規化できる。
【数39】
【0087】
これは、(直接的なソースパワーではなく)ステレオ信号に含まれ、ステレオ信号で正規化された、ソースパワーを付加情報として使用することに符合する。選択的に、次のような正規化を利用できる。
【数40】
【0088】
この付加情報はより効率的である。なぜならAi(k)が0dBより小さいまたは等しい値のみを有するためである。式(39)及び式(40)は、サブバンドパワーE{si2(k)}に対して解くことができる。
G.ステレオソース信号/オブジェクト
【0089】
本明細書で説明されたリミックス方式は、ステレオソース信号を扱うことに容易に拡張されることができる。付加情報観点で、ステレオソース信号は二つのモノソース信号のように扱われる。すなわち、一つは単に左にのみミックスされ、他の一つは右にのみミックスされる。すなわち、左側ソースチャネルiは、0でない左側ゲインファクタaiと0である右側ゲインファクタbi+1を有する。ゲインファクタai及びbi+1は、式(6)のように推定されることができる。付加情報は、二つのモノソースであるステレオソースのように伝送されることができる。いくつかの情報は、デコーダにどのソースがモノソースか、どれがステレオソースかを指示するためにデコーダに伝送される必要がある。
【0090】
デコーダ過程及びグラフィックユーザインタフェース(GUI)に対して、一つの可能性はデコーダでステレオソース信号をモノソース信号と同様に表現することである。すなわち、ステレオソース信号は、モノソース信号と類似のゲイン及びパニングコントロールを有する。一部の実施例では、リミックスされていないステレオ信号及びゲインファクタのGUIのゲイン及びパニングコードロール間の関係を、次のように選択することができる。
【数41】
【0091】
すなわち、最初はこれらの値にGUIが設定される。ユーザにより選択されたGAINとPAN及び新しいゲインファクタ間の関係は、次のように選択することができる。
【数42】
【0092】
式(42)はci及びdi+1に対して解くことができ、ci及びdi+1は、リミキシングゲインとして用いることができる(ci+1=0及びdi=0の時)。説明された機能はステレオアンプの「均衡(balance)「コントロールに似ている。ソース信号の左側及び右側チャネルのゲインは、クロストーク(cross-talk)を取り込むことなく変形される。
VI.付加情報のブラインド生成
A.付加情報の完全なブラインド生成
【0093】
本明細書に開示されたリミキシング方式で、エンコーダは、ステレオ信号及びデコーダでリミックスされるオブジェクトを表現する多くのソース信号を受信する。デコーダでインデックスiのソース信号をリミックスするために必要な付加情報はゲインファクタaiとbi及びサブバンドパワーE{si2(k)}から決定される。ソース信号が与えられた場合の付加情報の決定は、上のセクションで説明した通りである。
【0094】
(これは現在する製品に符合するから)ステレオ信号は容易に獲得される反面、デコーダでリミックスされるオブジェクトに対応するソース信号を獲得することは困難である。したがって、オブジェクトのソース信号を利用できないとしても、リミキシングのための付加情報を生成することが好ましい。以下では、単にステレオ信号から付加情報を生成するための完全なブラインド生成技術について説明する。
【0095】
図8Aは、完全なブラインド付加情報生成を実装するエンコーディングシステム800の一実施例を示すブロック図である。エンコーディングシステム800は、一般的に、フィルタバンクアレイ802、付加情報生成部804及びエンコーダ806を含む。ステレオ信号は、フィルタバンクアレイ802から受信される。フィルタバンクアレイは、ステレオ信号(例えば左側及び右側チャネル)をサブバンド対に分解する。これらのサブバンド対は付加情報プロセッサ804に受信され、付加情報プロセッサ804は、所望のソースレベル差Li及びゲイン関数F(M)を用いてサブバンド対から付加情報を生成する。フィルタバンクアレイ802、付加情報プロセッサ804両方ともソース信号に対して動作しないことに注目されたい。付加情報は全的に入力ステレオ信号、所望のソースレベル差Li及びゲイン関数f(M)から誘導される。
【0096】
図8Bは、図8Aのエンコーディングシステム800を用いたエンコーディング過程808の一実施例を示すフローチャートである。入力ステレオ信号はサブバンド対に分解される(810)。それぞれのサブバンドに対して、ゲインファクタai及びbiは、それぞれの所望のソース信号に対して所望のソースレベル差値Liを用いて決定される(812)。直接音(direct sound)ソース信号(例えば、サウンドステージ内の中心−パニングされたソース信号)に対して、所望の信号レベル差は、Li=0dBである。Liが与えられると、A=10Li/10の時、ゲインファクタは次のように計算される。
【数43】
ここで、ai及びbiは、ai2+bi2=1となるように計算されたことに注目されたい。この条件が必須のものではない。むしろ、これはLiの大きさが大きい時、aiまたはbiが大きくなることを防止するための任意の選択である。
【0097】
次いで、直接音のサブバンド信号がサブバンド対及びミキシングゲインを用いて推定される(814)。直接音サブバンドパワーを計算するために、各時間で各入力信号の左側及び右側サブバンドが次のように表現されると仮定することができる。
【数44】
ここで、a及びbはミキシングゲイン、sは全てのソース信号の直接音を表し、n1及びn2は独立した周辺音響(ambient sound)を表す。
B=E{x22(k)}/E{x12(k)}の時、a及びbを次のように仮定することができる。
【数45】
aとbは、x2及びx1にsが含まれている場合のレベル差がx2とx1間のレベル差と同一となるように計算されることができる。直接音のレベル差はdBでM=log10Bである。
【0098】
上記式(44)に与えられた信号モデルによって、直接音サブバンドパワーE{s2(k)}を計算できる。一部の実施例では、下記の方程式システムが利用される。
【数46】
【0099】
上記式(46)では、上記式(34)のs、n1及びn2が相互独立しており、上記式(46)の左辺量が測定でき、a及びbは利用可能であると仮定する。したがって、上記式(46)の3つの未知数はE{s2(k)}、E{n12(k)}及びE{n22(k)}である。直接音サブバンドパワーE{s2(k)}は、次のように与えることができる。
【数47】
【0100】
直接音サブバンドパワーはさらに式(17)の相関度の関数として書くこともできる。
【数48】
【0101】
本発明の一実施例で、所望のソースサブバンドパワーE{si2(k)}の計算は、二つのステップで行うことができる。第一に、直接音サブバンドパワーE{s2(k)}を計算する。sは、上記式(44)の全てのソースの直接音(例えば、中心−パニングされた(center-panned))を表す。そして、所望のソースサブバンドパワーE{si2(k)}は、直接音サブバンドパワーE{s2(k)}を(Mで表現される)直接音方向及び(所望のソースレベル差Lで表現される)所望の音響方向の関数として変形して計算する(816)。
【数49】
ここで、f(.)はゲイン関数、方向の関数として、単に所望のソースの方向に対して1に近いゲインファクタをリターンする。最後のステップとして、ゲインファクタ及びサブバンドパワーE{si2(k)}を、付加情報を生成するために量子化及びエンコーディングすることができる(818)。
【0102】
図9は、所望のソースレベル差Li=LdBに対する例示的なゲイン関数f(M)を示す。方向性程度は、所望の方向Lo周辺でより多いまたは少ない狭いピークを有するf(M)を選択することによって調節できる。所望のソースに対して中央において、Lo=6dBのピーク幅を用いることができる。
【0103】
上に説明した完全なブラインド技術と共に、与えられたソース信号siに対して付加情報(ai、bi、E{si2(k)})を決定することができるということに注目されたい。
B.付加情報のブラインド及び非ブラインド生成間の結合
【0104】
上に説明した完全なブラインド生成技術は、ある環境の下では制約がありうる。例えば、もし、二つのオブジェクトがステレオサウンドステージの同一位置(方向)を有するとすれば、一側または両側オブジェクトに関する付加情報をブラインドに(blindly)生成することは不可能であろう。
【0105】
付加情報の完全なブラインド生成の代案として付加情報の部分的なブラインド生成がある。部分的なブラインド技術は、原オブジェクト波形に概略的に対応するオブジェクト波形を生成する。例えば、これは、特定のオブジェクト信号を歌手またはミュージシャンに演奏/再生産(reproduce)させることによってなる。または、このような目的のためにMIDIデータを配置し、シンセサイザー(synthesizer)でオブジェクト信号を生成する。一部の実施例で、「ラフ(rough)「オブジェクト波形は、生成される付加情報と関連したステレオ信号に合わせて時間整列される。その後、付加情報を、ブラインド及び非ブラインド付加情報生成を結合した過程を用いて生成することができる。
【0106】
図10は、部分的なブラインド生成技術を用いた付加情報生成過程1000の一実施施を示すフローチャートである。この過程1000は、入力ステレオ信号及びM「ラフ(rough)「ソース信号を獲得することから始まる(1002)。次に、ゲインファクタai及びbiを、「ラフ(rough)「ソース信号のために決定する(1004)。各サブバンドの各時間スロットで、サブバンドパワーの第1短期推定値E{si2(k)}をそれぞれ「ラフ(rough)「ソース信号に対して決定する(1006)。サブバンドパワーの第2短期推定値Ehat{si2(k)}を、入力ステレオ信号に適用される完全なブラインド技術を用いて各「ラフ(rough)「ソース信号に対して決定する(1008)。
【0107】
最後に、この関数を、推定されたサブバンドパワーに適用する。これは、第1及び第2サブバンドパワー推定値を結合して最終推定値をリターンし、效率的に付加情報計算に用いることができる(1010)。実施形態によっては、関数F()が次のように与えられる。
【数50】
VII .システム構成、ユーザインタフェース、ビットストリームシンタックス
A.クライアント/サーバシステム構成
【0108】
図11は、ステレオ信号だけでなくMソース信号及び/または付加情報を、リミキシング能力を備えたオーディオ装置1110に提供するためのクライアント/サーバシステム構成1100の一実施例を示すブロック図である。このシステム構成1100は単に一例にすぎない。他のシステム構成は、より多いまたは少ないコンポーネントを含むことができる。
【0109】
このシステム構成1100は、一般的に、レポジトリ1104(例えばMySQLTM)及びサーバ1106(例えばウィンドTM NT、Linux(登録商標)サーバ)を有するダウンロードサービス1102を含む。レポジトリ1104は、専門的にミックスされたステレオ信号、ステレオ信号内のオブジェクトに対応する関連したソース信号及び様々な効果(例えば、残響(reverberation))を含む様々なタイプのコンテンツを保存することができる。ステレオ信号は、様々な標準化されたフォーマット、例えばMP3、PCM、AACなどで保存されることができる。
【0110】
一部の実施例では、ソース信号は、レポジトリ1104に保存され、オーディオ装置1110にダウンロード可能になる。一部の実施例では、前処理された付加情報は、レポジトリ1104に保存され、オーディオ装置1110にダウンロード可能になる。前処理された付加情報は、図1A、図6A及び図8Aを参照して説明された一つまたはそれ以上のエンコーディング方式を用いてサーバ1106により生成されることができる。
【0111】
一部の実施例では、ダウンロードサービス1102(例えば、ウェブサイト、音楽ストア)は、ネットワーク1108(例えば、インターネット、イントラネット、イーサネット(登録商標)、無線ネットワーク、ピアツウピアネットワーク)を通じてオーディオ装置1110と通信する。オーディオ装置1110は、本明細書に開示されたリミックス方式を実装できるいずれの装置にしても良い(例えば、メディアプレーヤ/レコーダ、モバイルフォン、PDA、ゲームコンソール、セットトップボックス、テレビ受信機、メディアセンター等)。
B.オーディオデバイスシステム構成
【0112】
一部の実施例では、オーディオ装置1110は、一つまたはそれ以上のプロセッサまたはプロセッサコア1112、入力装置1114(例えば、クリックホイール、マウス、ジョイスチック、タッチスクリーン)、出力装置1120(例えば、LCD)、ネットワークインタフェース1118(例えば、USB、ファイアワイヤー、イーサネット(登録商標)、ネットワークインタフェースカード、無線送受信機(wireless transceiver)及びコンピュータ読み取り可能媒体1116(例えば、メモリ、ハードディスク、フラッシュドライブ)を含む。これらのコンポーネントの一部または全部は通信チャネル1122(例えば、バス、ブリッジ)を通じて情報送信及び/または受信ができる。
【0113】
一部の実施例では、コンピュータ読み取り可能媒体1116は、オペレーティングシステム、音楽マネジャー、オーディオプロセッサ、リミックスモジュール及び音楽ライブラリを含む。オペレーティングシステムは、ファイル管理、メモリアクセス(access)、バスコンテンション(bus contention)、周辺装置制御、ユーザインタフェース管理、電源管理などを含むオーディオ装置1110の基本的な管理及び通信業務(task)を担当する。音楽マネジャーは、音楽ライブラリを管理するアプリケーションでありうる。オーディオプロセッサは、音楽ファイルを再生する従来のオーディオプロセッサでありうる(例えば、MP3、CDオーディオ等)。リミックスモジュールは、図1〜図10を参照して説明したリミキシング方式の機能を実装する一つまたはそれ以上のソフトウェアコンポーネントでありうる。
【0114】
一部の実施例では、図1A、図6A及び図8Aを参照して説明したように、サーバ1106は、ステレオ信号をエンコーディングし付加情報を生成する。ステレオ信号及び付加情報は、ネットワーク1108を通じてオーディオ装置1110にダウンロードされる。リミックスモジュールは、信号及び付加情報をデコーディングし、入力装置1114(例えば、キーボード、クリックホイール、タッチディスプレイ)を通じて受信したユーザ入力に基づいてリミックス能力を提供する。
C.ユーザ入力を受信するためのユーザインタフェース
【0115】
図12は、リミックス能力を備えたメディアプレーヤ1200のためのユーザインタフェース1202の一実施例である。ユーザインタフェース1202は他の装置(例えば、モバイルフォン、コンピュータ等)にも適用可能である。ユーザインタフェースは、図示の環境設定またはフォーマットに制限されず、他の種類のユーザインタフェース要素(例えば、ナビゲーションコントロール、タッチ表面等)を含むこともできる。
【0116】
ユーザは、ユーザインタフェース1202の適切なアイテムにハイライティングすることで、装置1200に対して「リミックス「モードに入ることができる。例えば、ユーザが音楽ライブラリから音楽を選択し、リードボーカルトラックのパンセッティングを変えたがっているとする。例えば、ユーザは左側オーディオチャネルでリードボーカルをさらに聞くことを希望することもできる。
【0117】
所望のパンコントロールに対する接近を得るために、ユーザは一連のサブメニュー1204,1206,1208を探索することができる。例えば、ユーザは、ホイール1210を用いてサブメニュー1204,1206,1208のアイテムをスクロールすることができる。ユーザはボタン1212を押して、ハイライトされたメニューアイテムを選択できる。サブメニュー1208は、リードボーカルトラックに対する所望のパンコントロールの接近を提供する。ユーザは、歌が再生される間に、所望通りにリードボーカルのパンを調節するために(例えば、ホイール1210を用いて)スライダを操作することができる。
D.ビットストリームシンタックス
【0118】
一部の実施例では、図1〜図10を参照して説明したリミキシング方式が、現在または未来のオーディオコーディング標準(例えば、MPEG−4)を含むことができる。現在または未来のコーディング標準に対するビットストリームシンタックスは、ユーザによるリミキシングを許容するためにビットストリームをどのように処理するかを決定するように、リミキシング能力を有するデコーダにより用いられうるような情報を含むことができる。このようなシンタックスは、従来のコーディング方式を用いて下位互換性(backwards compatibility)を提供するように設計されることができる。例えば、ビットストリームに含まれたデータ構造(例えば、パケットヘッダ)は、リミキシングのための付加情報(例えば、ゲインファクタ、サブバンドパワー)の有効性を表す情報(例えば、一つまたはそれ以上のビットまたはフラグ)を含むことができる。
VII .アカペラモード及び自動ゲイン/パニング調節
A.アカペラモードの改善
【0119】
ステレオアカペラ信号は、単にボーカルのみを含むステレオ信号に対応する。一般性を失うことなく、第1Mソースs1,s2,…,sMを式(1)のボーカルソースとしよう。原ステレオ信号からステレオアカペラ信号を得るために、ボーカルでないソースは減衰することができる。所望のステレオ信号は次の通りである。
【数51】
ここで、Kは、非ボーカルソースのための減衰ファクタである。パニングが用いられないため、新しい二つの重み値ウィナーフィルタ(Wiener filter)は、式(50)のアカペラ信号定義から得られた期待値を用いて計算できる。
【数52】
【0120】
Kを10-A/10に設定することによって、非ボーカルソースはAdBに減衰され、結果ステレオアカペラ信号の感じを与えることができる。
B.自動ゲイン/パニング調節
【0121】
ソースのゲイン及びパニング設定が変化する時、損傷されたレンダリングされたクォリティー(rendered quality)をもたらす極端な値を選択することができる。例えば、0dBを維持する一つを除いて全てのソースを最小ゲインで動かしたり、右に向かう一つを除いて全てのソースを左に動かすことは、独立したソースに対して低音質を招くことがある。このような状況は、人工音(artifacts)無しできれいにレンダリングされたステレオ信号を維持するためには避けるべきことである。このような状況を避けるための一つの手段は、ゲイン及びパニングコントロールの極端な設定を防ぐことである。
【0122】
それぞれのコントロールk、ゲイン及びパニングスライダgk及びpkのそれぞれは、グラフィックユーザインタフェース(GUI)内で[−1,1]範囲の内部値を有することができる。極端な設定を制限するために、ゲインスライダ間の平均距離は、Kがコントロールの個数である時、次のように計算できる。
【数53】
μGが1に近づくほど、より極端なセッティングになる。
【0123】
この場合、調節因子GadjustはGUIでゲインスライダの範囲を制限するために、μGの平均距離の関数として計算される。
【数54】
ここで、ηGは極端なセッティング、例えば、μG=1、に対する自動スケーリング程度Gadjustを定義する。一般的に、極端なセッティングの場合、ゲインを半分に減らすために、ηGは約0.5程度と選択される。
【0124】
同様の過程によって、Padjustが計算され、パニングスライダに適用されて、効率的なゲイン及びパニングは下記式(55)のようにスケールされる。
【数55】
【0125】
本明細書で開示され説明された他の実施形態及び機能的な動作は、本明細書に開示された構造及びその構造的な均等物またはそれらの一つまたはそれ以上の組合せを含む、デジタル電子回路網で実装されたり、コンピュータソフトウェア、ファームウェア、またはハードウェアで実装されることができる。本明細書に開示された実施例及び他の実施例は、一つまたはそれ以上のコンピュータプログラムプロダクトで実装されることができる。例えば、コンピュータ読み取り可能媒体にエンコーディングされた、データプロセシング装置により実行されたりそれら装置の動作をコントロールするための、一つまたはそれ以上のコンピュータプログラム命令のモジュールのようなもので実装されることができる。コンピュータ読み取り可能媒体は、機械が読み取り可能な記憶装置、機械が読み取り可能な記憶基板(substrate)、メモリ装置、機械が読み取り可能な伝達された信号に影響を与えうる物質の組合せ、またはそれらの一つまたはそれ以上の組合せでありうる。「データプロセシング装置「という用語は、あらゆる機構、装置、及びデータ処理のための機械を含む。例えば、プログラム可能なプロセッサ、コンピュータまたは多数のプロセッサまたはコンピュータを含む。これらの装置はハードウェアとともに、問題のコンピュータプログラムのための実行環境を作るコードを含むことができる。例えば、コードは、プロセッサファームウェア、プロトコルスタック、データベース管理システム(DBMS)、オペレーティングシステム(OS)、またはそれらの一つまたはそれ以上の組合せを構成する。伝達された信号は、例えば、機械が生成した電気的、光学的または電磁気的信号のような人為的に生成された信号である。これは、適合な受信装置に伝送するための情報をエンコーディングするために生成される。
【0126】
(また、プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプトまたはコードとして知られた)コンピュータプログラムは、コンパイラまたはインタープリタ言語を含むプログラミング言語のいかなる形態でも使用されることができ、スタンドアロンプログラムとしての形態、またはモジュール、コンポーネント、サブルーチンまたは他のユーザに適合したユニットなどとしての形態などを含むいかなる形態にも開発可能である。コンピュータプログラムがファイルシステムのファイルに必ずしも対応するわけではない。プログラムは、他のプログラムまたはデータを有するファイル(例えば、マークアップ言語ドキュメント内に記憶された一つまたはそれ以上のスクリプト)、論議されるプログラム専用の一つのファイル、または多数の組織化(coordinated)されたファイル(例えば、一つまたはそれ以上のモジュール、サブプログラム、またはコードの一定部分を格納したファイル)の一部に格納されることができる。コンピュータプログラムは、一つのコンピュータまたは一つのサイトまたは全体に分散された多数のサイトに位置して通信ネットワークにより互いに連結された多数のコンピュータで実行されるために配布されることができる。
【0127】
本明細書で説明されたプロセス及び論理流れは、入力データを演算し、出力を生成することによって、機能を行う一つまたはそれ以上のコンピュータプログラムを実行させる一つまたはそれ以上のプログラム可能なプロセッサにより行われることができる。例えば、FPGA(field programmable gate array)またはASIC(application specific integrated circuit)のような特別な目的の論理回路によりこのプロセス及び論理流れが行われることができ、装置も実装されることができる。
【0128】
例えば、コンピュータプログラムの実行に適合したプロセッサは、一般的で且つ特別な目的のマイクロプロセッサ、デジタルコンピューターのいずれかの一つまたはそれ以上のプロセッサを含む。一般的に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から命令及びデータを受信する。コンピュータの必須な要素は、演算を行うためのプロセッサ及び命令とデータを記憶するための一つまたはそれ以上のメモリ装置である。一般的に、コンピュータは、例えば、磁気(magnetic)、光磁気(magneto-optical)ディスク、または光学ディスクのような一つあるいはそれ以上の大容量のデータ記憶装置を含む、その記憶装置からデータを受信する、その記憶装置にデータを送る、または、それら全てと機能的に関連する。しかし、コンピュータがそのような装置を有する必要はない。コンピュータプログラム命令及びデータを保存するのに適合するコンピュータ読み取り可能媒体は、あらゆる形態の不揮発性メモリ、メディア及びメモリ装置を含む。例えば、EPROM、EEPROMのような半導体メモリ装置、フラッシュメモリ装置、内蔵ハードディスクまたはリムーバブルディスク(removable disks)のような磁気ディスク、光磁気ディスク、CD−ROM及びDVD−ROMディスクなどが含まれる。プロセッサ及びメモリは特別な目的の論理回路により補充されたりその中に含まれることができる。
【0129】
ユーザとの相互作用を提供するために、本明細書に開示された発明は、ユーザに情報を表示するためのCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタのようなディスプレイ装置及びユーザがコンピュータに入力を提供できるマウスまたはトラックボールのようなポインティング装置及びキーボードを有するコンピュータで実現されることができる。他の種類の装置もユーザとの相互作用のために提供されることができる。例えば、ユーザに提供されるフィードバックはいずれの形態の感覚フィードバックであっても良い。例えば、視覚フィードバック、聴覚フィードバックまたは触覚フィードバックなどがある。そして、ユーザからの入力は音響、音声または触覚入力を含め、いかなる形態で受けることもできる。
【0130】
本明細書に開示された実施例は、コンピュータシステムで実現されることができるが、このコンピュータシステムは、データサーバのようなバックアンド(back-end)コンポーネントを含む、アプリケーションサーバのようなミドルウェアコンポーネントを含む、グラフィックユーザインタフェースまたはユーザがこれを通じて本明細書で説明した実施例と相互作用できるウェブブラウザーを有するクライアントコンピュータのようなフロントアンド(front-end)コンポーネントを含む、または、一つまたはそれ以上のこのようなバックアンド、ミドルウェア、またはフロントアンドコンポーネントの組合せを含むことができる。システムのコンポーネントは、例えば、コミュニケーションネットワークのようなデジタルデータ通信のある類型や媒体で互いに連結されることができる。通信ネットワークの例には、ローカル領域ネックワーク(「LAN「)及び広域ネットワーク(「WAN「)、例えばインターネットを含む。
【0131】
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般的に互いに離れており、普通、コミュニケーションネットワークを通じて相互作用する。クライアントとサーバとの関係は各コンピュータで行われ、互いにクライアント−サーバ関係を有するコンピュータプログラムによって発生する。
VIII.リミックス技術を用いたシステムの例
【0132】
図13は、空間オーディオオブジェクト(SAOC)デコーディング及びリミックスデコーディングを結合したデコーディングシステム1300の一実施例を表す。SAOCは、マルチ−チャネルオーディオを扱うオーディオ技術で、エンコーディングされたサウンドオブジェクトの相互操作(interactive manipulation)を可能にする。
【0133】
一部の実施例では、システム1300は、ミックス信号デコーダ1301、パラメータ生成部1302及びリミックスレンダラ1304を含む。パラメータ生成部1302は、ブラインド推定部1308、ユーザ−ミックスパラメータ生成部1310及びリミックスパラメータ生成部1306を含む。リミックスパラメータ生成部1306は、イコライザ(eq)−ミックスパラメータ生成部1312及びアップ(up)−ミックスパラメータ生成部1314を含む。
【0134】
一部の実施例では、システム1300は、2つのオーディオプロセスを提供する。第1のプロセスでは、エンコーディングシステムから提供された付加情報を、リミックスパラメータ生成部1306でリミックスパラメータを生成するのに用いる。第2のプロセスでは、ブラインドパラメータをブラインド推定部1308で生成し、リミックスパラメータ生成部1306でリミックスパラメータを生成するのに用いる。図8A及び8Bを参照して説明したように、ブラインドパラメータと完全あるいは部分的なブラインド生成プロセスは、ブラインド推定部1308で行うことができる。
【0135】
一部の実施例では、リミックスパラメータ生成部1306は、付加情報またはブラインドパラメータ、そしてユーザ−ミックスパラメータ生成部1310からのユーザミックスパラメータの集合を受信する。ユーザ−ミックスパラメータ生成部1310は、エンドユーザが特定のミックスパラメータ(例えば、GAIN、PAN)を受信し、それらのミックスパラメータをリミックスパラメータ生成部1306によってリミックスプロセシングに適合したフォーマット(format)に変換する(例えば、ゲインci、di+1への変更)。一部の実施例では、図12を参照して説明したように、ユーザ−ミックスパラメータ生成部1310は、ユーザが所望のミックスパラメータを特定できるようにするために、例えば、メディアプレーヤユーザインタフェース1200のようなユーザインタフェースを提供する。
【0136】
一部の実施例では、リミックスパラメータ生成部1306は、ステレオとマルチ−チャネルオーディオ信号の両方をプロセスできる。例えば、イコライザ(eq)−ミックスパラメータ生成部1312は、ステレオチャネルターゲットのためのリミックスパラメータを生成でき、アップ(up)−ミックスパラメータ生成部1314は、マルチ−チャネルターゲットのためのリミックスパラメータを生成できる。マルチ−チャネルオーディオ信号に基づくリミックスパラメータ生成は、セクションIVで説明した。
【0137】
一部の実施例では、リミックスレンダラ1304は、ステレオターゲット信号またはマルチ−チャネルターゲット信号のためのリミックスパラメータを受信する。イコライザ(eq)−ミックスレンダラ1316は、ステレオリミックスパラメータを、ミックス信号デコーダ1301から直接受信した原ステレオ信号に適用して、ユーザ−ミックスパラメータ生成部1310から提供された定形化したユーザ指定ステレオミックスパラメータに基づいて、所望のリミックスされたステレオ信号を提供する。一部の実施例では、ステレオリミックスパラメータを、ステレオリミックスパラメータのn×n行列(例えば、2×2行列)を用いる原ステレオ信号に適用することができる。アップ(up)−ミックスレンダラ1318は、マルチ−チャネルリミックスパラメータを、ミックス信号デコーダ1301から直接受信した原マルチ−チャネル信号に適用することによって、ユーザ−ミックスパラメータ生成部1310から提供された定形化したユーザ指定マルチ−チャネルミックスパラメータに基づいて、所望のリミックスされたマルチ−チャネル信号を提供する。一部の実施例では、エフェクト生成部1320は、イコライザ(eq)−ミックスレンダラ1316またはアップ(up)−ミックスレンダラのそれぞれにより原ステレオまたはマルチ−チャネル信号に適用される、エフェクト信号(例えば、反響音(reverb))を生成する。一部の実施例では、アップ(up)−ミックスレンダラ1319は、原ステレオ信号を受信し、リミックスされたマルチ−チャネル信号を生成するためにリミックスパラメータを適用する他にも、ステレオ信号をマルチ−チャネル信号に変換する(または、アップ(up)−ミックスする。)。
【0138】
システム1300は、そのようなオーディオコーディング方式に下位互換性(backwards compatibility)を維持すると同時に、存在するオーディオコーディング方式(例えば、SAOC、MPEG AAC、パラメトリックステレオ(parametric stereo))に統合することを許容し、様々なチャネル環境設定(configurations)を有するオーディオ信号を処理できる。
【0139】
図14Aは、分離されたダイアログボリューム(SDV: Separate Dialogue Volume)のための一般的なミキシングモデルを示す図である。SDVは、米国仮出願番号第60/884,594号、「分離されたダイアログボリューム(Separate Dialogue Volume)「に記述された改善されたダイアログエンハンスメント(enhancements)技術である。SDVの一実施例では、ステレオ信号は記録されミックスされて、各ソースに対する信号が一貫して左側及び右側信号チャネルに特定の方向キュー(例えば、レベル差、時間差)をもって進行する。反射された/反響された独立信号は、聴覚イベント幅及び聴取者環境キューを定めるチャネルに進行する。図14Aを参照すると、sは直接音であり、n1とn2は側面の反射であり、a因子は、聴覚イベントが発生した場合に方向を定める。この信号sは、a因子により定められた方向からローカライズされた音を摸倣する。独立した信号n1とn2は、反射された/反響された音に対応し、たびたび周辺音響や雰囲気(ambience)を表す。説明されたシナリオは、一つのオーディオソースを有するステレオ信号に対してオーディオソース及びアンビエンス(ambience)の定位(localization)を獲得しながら知覚的に動機付けられた分解である。
【数56】
【0140】
図14Bは、SDVをリミックス技術と結合したシステム1400の一実施例を示す図である。一部の実施例では、システム1400は、フィルタバンク1402(例えば、STFT)、ブラインド推定部1404、イコライザ(eq)−ミックスレンダラ1406、パラメータ生成部1408及び逆フィルタバンク1410(例えば、逆STFT)を含む。
【0141】
一部の実施例では、SDVダウンミックス信号は受信されて、フィルタバンク1402によりサブバンド信号に分解される。ダウンミックス信号は、式(51)で与えられたステレオ信号x1、x2でありうる。サブバンド信号X1(i,k)、X2(i,k)は、イコライザ(eq)−ミックスレンダラ1406またはブラインド推定部1404への直接的な入力であり、ブラインドパラメータであるA、PS、PNを出力する。これらのパラメータの計算は、米国仮出願番号第60/884,594号の「分離されたダイアログボリューム(Separate Dialogue Volume)「に記述されている。ブラインドパラメータは、パラメータ生成部1408の入力であり、これはブラインドパラメータ及びユーザ特定のミックスパラメータg(i,k)(例えば、中央ゲイン、中央幅、遮断周波数、乾燥度(dryness))からイコライザ(eq)−ミックスパラメータw11〜w22を生成する。イコライザ(eq)−ミックスパラメータの計算は、セクションIに記述されている。イコライザ(eq)−ミックスパラメータは、イコライザ(eq)−ミックスレンダラ1406によりサブバンド信号に適用され、レンダリングされた出力信号y1、y2を生成する。イコライザ(eq)−ミックスレンダラ1406のレンダリングされた出力信号は、逆フィルタバンク1410の入力であり、これは、レンダリングされた出力信号をユーザ特定のミックスパラメータに基づいて所望のSDVステレオ信号に変換する。
【0142】
一部の実施例では、図1〜図12を参照して説明したように、システム1400も、リミックス技術を用いてオーディオ信号を処理できる。リミックスモードでは、フィルタバンク1402は、式(1)及び式(27)に記述された信号のようなステレオまたはマルチ−チャネル信号を受信する。これらの信号は、フィルタバンク1402によってサブ信号X1(i,k)、X2(i,k)に分解され、イコライザ(eq)−レンダラ1406及びブラインド推定部1404に直接入力されて、ブラインドパラメータを推定する。ブラインドパラメータは、ビットストリームで受信された付加情報ai、bi、Psiと共にパラメータ生成部1408への入力である。パラメータ生成部1408は、レンダリングされた出力信号を生成するためにブラインドパラメータ及び付加情報をサブバンド信号に適用する。レンダリングされた出力信号は、逆フィルタバンク1410への入力であり、これは、所望のリミックス信号を生成する。
【0143】
図15は、図14Bに示すイコライザ(eq)−ミックスレンダラ1406の一実施例示す図である。本発明の一実施例で、ダウンミックス信号X1は、スケールモジュール1502及び1504)によりスケーリングされ、ダウンミックス信号X2はスケールモジュール(1506及び1508でスケーリングされる。スケールモジュール1502はダウンミックス信号X1をイコライザ(eq)−ミックスパラメータw11でスケーリングし、スケールモジュール1504はダウンミックス信号X1をイコライザ(eq)−ミックスパラメータw21でスケーリングし、スケールモジュール1506はダウンミックス信号X2をイコライザ(eq)−ミックスパラメータw12でスケーリングし、スケールモジュール1508はダウンミックス信号X2をイコライザ(eq)−ミックスパラメータw22でスケーリングする。スケールモジュール1502及び1506の出力は合算されて、第1レンダリングされた出力信号であるy1を提供し、スケールモジュール1504及び1508の出力は合算されて、第2レンダリングされた出力信号であるy2を提供する。
【0144】
図16は、図1〜図15を参照して説明されたリミックス技術のための分散システム1600を示す図である。一部の実施例では、図1を参照して説明したように、コンデンツプロバイダ1602は、付加情報を生成するために、リミックスエンコーダ1606を含む許可ツール(authoring tool)1604を用いる。付加情報は、一つのビットストリミングサービスのための一つまたはそれ以上のファイルの一部となり及び/または一つのビットストリームに含まれることができる。リミックスファイルは、固有のファイル拡張子を有することができる(例えば、filename.rmx)。一つのファイルは、原ミックスされたオーディオ信号及び付加情報を含むことができる。選択的に、原ミックスされたオーディオ信号及び付加情報は、パケット、バンドル、パッケージまたは他の適当なコンテナの別個ファイルとして分散されることができる。一部の実施例では、リミックスファイルは、ユーザが技術を学ぶように支援し及び/またはマーケティングの目的でプリセットミックスパラメータとともに分散されることができる。
【0145】
一部の実施例では、原コンデンツ(例えば、原ミックスされたオーディオファイル)、付加情報及び選択的なプリセットミックスパラメータ(「リミックス情報「)は、サービスプロバイダ1608(例えば、ミュージックポータル)に提供されたり物理的媒体(例えば、CD−ROM、DVD、メディアプレーヤ、フラッシュドライブ)に位置することができる。サービスプロバイダ1608は、リミックス情報及び/またはリミックス情報の全部分を含むビットストリームの全部または一部を提供するために、一つまたはそれ以上のサーバ1610を提供することができる。リミックス情報は、レポジトリ1612に保管することができる。サービスプロバイダ1608はさらに、ユーザの作ったミックスパラメータを共有するための仮想の環境(例えば、ソーシャルコミュニティ、ポータル、掲示板)を提供することができる。例えば、リミックス−レディ装置(例えば、メディアプレーヤ、モバイルフォン)1616でユーザが生成したミックスパラメータは、他のユーザと共有するためにサービスプロバイダ1608にアップロードできるミックスパラメータファイルに保存することができる。ミックスパラメータファイルは、固有の拡張子(例えば、filename.rmx)を有することができる。例示したように、ユーザは、リミックスプレーヤAを用いてミックスパラメータファイルを生成し、ミックスパラメータファイルをサービスプロバイダ1608にアップロードする。ファイルは後にリミックスプレーヤBを操作するユーザによってダウンロードされる。
【0146】
システム1600は、原コンデンツとリミックス情報を保護するために任意の知られたデジタル権利管理方式及び/または知られた他の保安方法を用いて実現されることができる。例えば、ユーザがリミックスプレーヤBにより提供されたリミックス特性に接近したりそれを用いる前に、リミックスプレーヤBを操作するユーザは、原コンテンツを別途にダウンロードし、ライセンスを保護する必要がありうる。
【0147】
図17Aは、リミックス情報を提供するためのビットストリームの基本要素を示す図である。一部の実施例では、単数の、統合された(integrated)ビットストリーム1702を、ミックスされたオーディオ信号(Mixed_Obj BS)、ゲインファクタ、サブバンドパワー(Ref_Mix_Para BS)及びユーザ特定のミックスパラメータ(User_Mix_Para BS)を含むリミックス可能な(remix-enabled)装置に伝送することができる。一部の実施例では、リミックス情報に対する多数のビットストリームを、リミックス可能な装置に独立して伝送することもできる。例えば、ミックスされたオーディオ信号は、第1ビットストリーム1704で伝送することができ、ゲインファクタ、サブバンドパワー及びユーザ特定のミックスパラメータは、第2ビットストリーム1706で伝送することができる。一部の実施例では、ミックスされたオーディオ信号、ゲインファクタ、サブバンドパワー及びユーザ特定のミックスパラメータは、3つの異なるビットストリーム1707、1710及び1712で伝送することができる。これらのそれぞれ異なるビットストリームは、同一または異なるビット率で伝送されることができる。これらのビットストリームは、帯域幅(bandwith)を保存し且つロバスト性(robustness)を保障するために、ビット挿入(bit interleaving)、エントロピーコーディング(例えば、ハフマンコーディング)、エラー修正などを含む様々に知られた技術を必要に応じて用いて処理されることができる。
【0148】
図17Bは、リミックスエンコーダ1714のビットストリームインタフェースを示す図である。一部の実施例では、リミックスエンコーダインタフェース1714の入力は、ミックスされたオブジェクト信号、それぞれのオブジェクトまたはソース信号及びエンコーダオプションを含むことができる。エンコーダインタフェース1714の出力は、ミックスされたオーディオ信号ビットストリーム、ゲインファクタとサブバンドパワーを含むビットストリーム、及びプリセット(preset)ミックスパラメータを含むビットストリームを含むことができる。
【0149】
図17Cは、リミックスデコーダ1716のインタフェースを示す図である。一部の実施例では、リミックスデコーダインタフェース1716の入力は、ミックスされたオーディオ信号ビットストリーム、ゲインファクタとサブバンドパワーを含むビットストリーム、及びプリセットミックスパラメータを含むビットストリームを含むことができる。デコーダインタフェース1716の出力は、リミックスされたオーディオ信号、アップミックスレンダラビットストリーム(例えば、マルチャネル信号)、ブラインドリミックスパラメータ及びユーザリミックスパラメータを含むことができる。
【0150】
エンコーダ及びデコーダのインタフェースの他の環境設定も可能である。図17B及び図17Cに示すインタフェース環境設定は、リミックス可能な装置にリミックス情報処理を許容するアプリケーションプログラミングインタフェース(API)を定義するために用いることができる。図17B及び図17Cに示すインタフェースは例示的なもので、装置の部分に基づくことのできる入力及び出力の他の数字及び種類に対する環境設定を含む他の環境設定も可能である。
【0151】
図18は、向上したリミックス信号の向上した知覚された品質を提供するために、あるオブジェクト信号のための追加的な付加情報を生成する拡張を含むシステム1800の一実施例を示すブロック図である。本発明の一実施例で、システム1800は、(エンコーディング側で)リミックスエンコーダ1804及び信号エンコーダ1806を含むエンハンスドリミックスエンコーダ1802、及びミックス信号エンコーダ1808を含む。本発明の一実施例で、システム1800は、(デコーディング側で)ミックス信号デコーダ1810、リミックスレンダラ1814及びパラメータ生成部1816を含む。
【0152】
エンコーダ側で、ミックスされたオーディオ信号は、ミックス信号エンコーダ1808(例えば、mp3エンコーダ)によりエンコーディングされ、デコーディング側に送られる。オブジェクト信号(例えば、リードボーカル、ギター、ドラムまたは他の楽器)は、リミックスエンコーダ1804の入力であり、例えば、図1A及び図3Aを参照して説明したように、付加情報(例えば、ゲインファクタ及びサブバンドパワー)を生成する。追加的に、インタレスト(interest)の一つまたはそれ以上のオブジェクト信号は、追加的な付加情報を生成するための信号エンコーダ1806(例えば、mp3エンコーダ)の入力である。一部の実施例では、整列(aligning)情報は、ミックス信号エンコーダ1808及び信号エンコーダ1806の出力信号をそれぞれ整列するための信号エンコーダ1806の入力である。整列情報は、時間整列情報、使用されたコーデックス(codex)の種類、ターゲットビット率、ビット−割当情報またはストラテジー(strategy)などを含むことができる。
【0153】
デコーダ側では、ミックス信号エンコーダの出力は、ミックス信号デコーダ1810(例えば、mp3デコーダ)の入力である。ミックス信号デコーダ1810の出力及びエンコーダ付加情報(例えば、エンコーダが生成したゲインファクタ、サブバンドパワー及び追加的な付加情報)は、パラメータ生成部1816の入力であり、これは、これらのパラメータをコントロールパラメータ(例えば、ユーザ特定のミックスパラメータ)と共に用いてリミックスパラメータ及び追加的なリミックスデータを生成する。リミックスパラメータ及び追加的なリミックスデータは、リミックスレンダラ1814によりリミックスされたオーディオ信号をレンダリングするために用いることができる。
【0154】
追加的なリミックスデータ(例えば、オブジェクト信号)は、リミックスレンダラ1814により原ミックスオーディオ信号内の特定オブジェクトをリミックスするために用いられる。例えば、カラオケアプリケーションで、リードボーカルを表現する原信号は、エンハンスドリミックスエンコーダ1802により追加的な付加情報(例えば、エンコーディングされたオブジェクト信号)を生成するために用いることができる。この信号は、パラメータ生成部1816により追加的なリミックスデータを生成するために用いることができ、これは、リミックスレンダラ1814により原ミックスオーディオ信号内のリードボーカルをリミックス(例えば、リードボーカルを抑制したり(suppressing)減衰化(attenuating)すること)するために用いることができる。
【0155】
図19は、図18に示すリミックスレンダラ1814の一実施例を示すブロック図である。一部の実施例では、ダウンミックス信号X1及びX2はそれぞれ、結合部1904及び1906の入力である。例えば、ダウンミックス信号X1及びX2は、原ミックスオーディオ信号の左側または右側チャネルになりうる。結合部1904及び1906は、ダウンミックス信号X1及びX2を、パラメータ生成部1816が提供した追加的なリミックスデータと結合する。カラオケの例で、結合(combining)は、リミックスされたオーディオ信号のリードボーカルを抑制したり(suppressing)減衰(attenuating)するようにリミックスする前に、ダウンミックス信号X1及びX2からリードボーカルオブジェクトを除外することを含むことができる。
【0156】
本発明の一実施例で、ダウンミックス信号X1(例えば、原ミックスオーディオ信号の左側チャネル)は、追加的なリミックスデータ(例えば、リードボーカルオブジェクト信号の左側チャネル)と結合され、スケールモジュール1906a及び1906bによってスケーリングされる。ダウンミックス信号X2(例えば、原ミックスオーディオ信号の右側チャネル)は、追加的なリミックスデータ(例えば、リードボーカルオブジェクト信号の右側チャネル)と結合され、スケールモジュール1906c及び1906dによってスケーリングされる。スケールモジュール1906aは、イコライザ(eq)−ミックスパラメータw11によってダウンミックス信号X1をスケーリングし、スケールモジュール1906bは、イコライザ(eq)−ミックスパラメータw21によってダウンミックス信号X1をスケーリングし、スケールモジュール1906cは、イコライザ(eq)−ミックスパラメータw12によってダウンミックス信号X2をスケーリングし、スケールモジュール1906dは、イコライザ(eq)−ミックスパラメータw22によってダウンミックス信号X2をスケーリングする。スケーリングは、n by n(例えば、2x2)行列を用いることのように、線形代数を用いて具現されることができる。スケールモジュール1906a及び1906cの出力は、第1レンダリングされた出力信号Y2を提供するために合算され、スケールモジュール1906b及び1906dの出力は、第2レンダリングされた出力信号Y2を提供するために合算される。
【0157】
一部の実施例では、原ステレオミックスと「カラオケ「モード及び/または「アカペラ「モード間の移動のためにユーザインタフェースのコントロール(例えば、スイッチ、スライダ、ボタン)を実現できる。このコントロール位置の関数として、結合部1902は、原ステレオ信号及び追加的な付加情報により獲得された信号間の線形組合せを調節する。例えば、カラオケモードで、追加的な付加情報から得られた信号はステレオ信号から除外することができる。(ステレオ及び/または他の信号が損失的にコーディングされた場合)リミックスプロセシングは後に量子化ノイズを除去するために適用されることができる。ボーカルを部分的に除去するためには、追加的な付加情報から得られた信号の部分のみを除去しなければならない。ボーカルのみをプレイするために、結合部1902は、追加的な付加情報から得られた信号を選択する。若干の背景音楽と共にボーカルを再生するために、結合部1902は、追加的な付加情報から得られた信号にステレオ信号のスケーリングされたバージョンを加える。
【0158】
本明細書では多数のものを特定しているが、これらは、請求したり請求される範囲に対する限定を構成するものではなく、むしろ特定の実施例に対する特別な説明として解釈されなければならない。本明細書の別途の実施施の脈絡で説明されたいかなる特徴も、一つの実施例に結合して実現することができる。一方、一つの実施施の様々な特徴は、同じ脈絡で多数の実施例としてそれぞれまたはある適切なサブコンビネーションとして実現することができる。なお、それらの特徴が特定コンビネーションで動作するものとして記載されたり、最初からそのように請求されたとしても、請求されたコンビネーションからの一つあるいはそれ以上の特徴は、場合によってはコンビネーションから削除することができ、請求されたコンビネーションは、サブコンビネーションやサブコンビネーションの変形にすることができる。
【0159】
同様に、動作が図面で特定の順序で図示されていても、これは、開示された特定順序あるいは順番で行なわれることを要求するものとして解釈されてはならず、また、所望の結果を得るために動作全体が行われるものとして解釈してもならない。ある特定の環境の下では、マルチタスキング及び併行プロセシングが有利になることもある。なお、以上述べられた全ての実施例の様々なシステムコンポーネントの分離は、全ての実施例でそのような分離が要求されるものとして解釈してはならず、記述されたプログラムコンポーネント及びシステムは、一般的に、一つのソフトウェア商品に統合されたりまたは多数のソフトウェア商品にパッケージされうると理解すべきである。
【0160】
本明細書では本発明の特定の実施例が記述された。その他の実施例は、添付の請求項の範囲に含まれる。例えば、請求項に述べられた行為は、他の順序で実行されても同様の所望の結果が得られる。一例として、添付の図面に示すプロセスは、所望の結果を得るために特定順序または順次的な順序を必ずしも必要とするわけではない。
【0161】
他の例として、セクション5Aに記述された付加情報の前処理は、式(2)に与えられた信号モデルと矛盾する負の値を防止するために、リミックスされた信号のサブバンドパワーに下限を提供する。しかし、この信号モデルは、リミックスされた信号の量のパワーを意味するだけでなく、原ステレオ信号とリミックスされたステレオ信号間の正のクロスプロダクト(cross−products)、すなわち、E{x1y1}、E{x1y2}、E{x2y1}及びE{x2y2}を暗示する。
【0162】
二つの重み値の場合から、クロスプロダクトE{x1y1}及びE{x2y2}が負の値を有することを防止するために、式(18)に定義されている重み値は特定臨界値に制限されるため、それらの重み値は絶対にAdBよりも小さくなることがない。
【0163】
そのとき、クロスプロダクトは次の条件を考慮して制限される。ここで、sqrtは平方根を表し、Qは、Q=10^−A/10Qと定義される。
・ E{x1y1}<Q*E{x12}であれば、クロスプロダクトは、E{x1y1}=Q*E{x12}に制限される。
・ E{x1,y2}<Q*sqrt(E{x12}E{x22})であれば、クロスプロダクトは、E{x1y2}=Q*sqrt(E{x12}E{x22})に制限される。
・ E{x2,y1}<Q*sqrt(E{x12}E{x22})であれば、クロスプロダクトはE{x2y1}=Q*sqrt(E{x12}E{x22})に制限される。
・ E{x2y2}<Q*E{x22}であれば、クロスプロダクトはE{x2y2}=Q*E{x22}に制限される。
【特許請求の範囲】
【請求項1】
オブジェクトの集合を有する第1複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第1複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
ミックスパラメータ集合を獲得する段階と、
減衰ファクタを獲得する段階と、
前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いて第2複数−チャネルオーディオ信号を生成する段階と、
を含むことを特徴とする、コンピュータ実装方法。
【請求項2】
前記ミックスパラメータ集合を獲得する段階において、前記ミックスパラメータ集合を特定するユーザ入力を受信する段階をさらに含むことを特徴とする、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記第2複数−チャネルオーディオ信号を生成する段階は、
前記第1複数−チャネルオーディオ信号を第1サブバンド信号集合に分割する段階と、
前記付加情報及び前記ミックスパラメータ集合を用いて、前記第2複数−チャネルオーディオ信号に対応する第2サブバンド信号集合を推定する段階と、
前記第2サブバンド信号集合を前記第2複数−チャネルオーディオ信号に変換する段階と、
を含むことを特徴とする、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記第2サブバンド信号集合を推定する段階は、
リミックスされるオブジェクトと関連した、ゲインファクタ及びサブバンドパワー推定値を提供するために付加情報をデコーディングする段階と、
前記ゲインファクタ、前記サブバンドパワー推定値及び前記ミックスパラメータ集合に基づいて一つまたはそれ以上の重み値集合を決定する段階と、
少なくとも一つの重み値集合を用いて前記第2サブバンド信号集合を推定する段階と、
をさらに含むことを特徴とする、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記一つまたはそれ以上の重み値集合を決定する段階は、
第1重み値集合の大きさを決定する段階と、
第2重み値集合の大きさを決定する段階と、
をさらに含み、
前記第2重み値集合は、前記第1重み値集合と異なる個数の重み値を含むことを特徴とする、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記第1及び第2重み値集合の大きさを比較する段階と、
前記比較結果に基づいて前記第2サブバンド信号の集合を推定するために前記第1及び第2重み値集合のうちいずれか一つを選択する段階をさらに含むことを特徴とする、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記一つまたはそれ以上の重み値集合を決定する段階は、
第1複数−チャネルオーディオ信号及び第2複数−チャネルオーディオ信号間の差を最小化する重み値集合を決定する段階をさらに含むことを特徴とする、請求項4に記載のコンピュータ実装方法。
【請求項8】
前記一つまたはそれ以上の重み値集合を決定する段階は、
線形方程式システムを構成する段階と、
前記線形方程式システムを分析することによって重み値を決定する段階と、
をさらに含み、
前記システムの各方程式は積の和であり、各前記積は、重み値とサブバンド信号との積で構成されたことを特徴とする、請求項4に記載のコンピュータ実装方法。
【請求項9】
前記線形方程式システムは、最小2乗推定を用いて分析することを特徴とする、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記線形方程式システムの解は、
【数1】
で与えられる第1重み値w11を提供し、前記E{.}は、短期平均、x1及びx2は前記第1複数−チャネルオーディオ信号のチャネル、y1は前記第2複数−チャネルオーディオ信号のチャネルであることを特徴とする、請求項9に記載のコンピュータ実装方法。
【請求項11】
前記線形方程式システムの解は、
【数2】
で与えられる第2重み値w22を提供し、前記E{.}は短期平均、x1及びx2は前記第1複数−チャネルオーディオ信号チャネル、y1は前記第2複数−チャネルオーディオ信号チャネルであることを特徴とする、請求項9に記載のコンピュータ実装方法。
【請求項12】
前記E{x2y2}及び前記E{x1y1}は、
【数3】
であり、前記Kは非ボーカルソース減衰のための減衰ファクタ、前記ai及びbiはゲインファクタであることを特徴とする、請求項10または11に記載のコンピュータ実装方法。
【請求項13】
K=10-A/10であり、非ボーカルソースはAdBで減衰されることを特徴とする、請求項12に記載のコンピュータ実装方法。
【請求項14】
第2複数−チャネルオーディオ信号は、
【数4】
のように与えられることを特徴とする、請求項12に記載のコンピュータ実装方法。
【請求項15】
付加情報を受信し、前記付加情報からリミックスパラメータを獲得するデコーダと、
ミックスパラメータの集合及び減衰ファクタを獲得するインタフェースと、
前記デコーダ及び前記インタフェースに連結されたリミックスモジュールと、
を含み、
前記付加情報の少なくとも一部は、前記第1複数−チャネルオーディオ信号及び前記第1複数−チャネルオーディオ信号を生成するのに用いられる一つまたはそれ以上のソース信号間の関係を表現し、
前記リミックスモジュールは、非ボーカルソースの減衰された第2複数−チャネルオーディオ信号を生成するために前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いてソース信号をリミックスすることを特徴とする、装置。
【請求項16】
少なくとも一つの前記ミックスパラメータ集合は、前記インタフェースを通じてユーザにより特定されることを特徴とする、請求項15に記載の装置。
【請求項17】
前記第1複数−チャネルオーディオ信号を第1サブバンド信号集合に分割する少なくとも一つのフィルタバンクをさらに含むことを特徴とする、請求項15に記載の装置。
【請求項18】
前記リミックスモジュールは、前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いて前記第2複数−チャネルオーディオ信号に対応する第2サブバンド信号集合を推定し、前記第2サブバンド信号集合を前記第2複数−チャネルオーディオ信号に変換することを特徴とする、請求項17に記載の装置。
【請求項19】
前記デコーダは、前記リミックスされるソース信号と関連したゲインファクタ及びサブバンドパワー推定値を提供する前記付加情報をデコーディングし、前記リミックスモジュールは、前記ゲインファクタ、サブバンドパワー推定値、減衰ファクタ及びミックスパラメータの集合に基づいて一つまたはそれ以上の重み値集合を決定し、少なくとも一つの重み値集合を用いて前記第2サブバンド信号集合を推定することを特徴とする、請求項18に記載の装置。
【請求項20】
前記リミックスモジュールは、前記第1複数−チャネルオーディオ信号及び前記第2複数−チャネルオーディオ信号間の差を最小化する重み値の集合を決定することによって一つまたはそれ以上の重み値集合を決定すること特徴とする、請求項19に記載の装置。
【請求項21】
前記リミックスモジュールは、線形方程式システムを分析することによって一つまたはそれ以上の重み値集合を決定し、前記システムの各方程式は積の和であり、各前記積は、重み値とサブバンド信号との積で構成されたことを特徴とする、請求項19に記載の装置。
【請求項22】
前記線形方程式システムは、最小2乗推定を用いて分析することを特徴とする、請求項21に記載の装置。
【請求項23】
前記線形方程式システムの解は、
【数5】
で与えられる第1重み値w11を提供し、前記E{.}は短期平均、x1及びx2は前記第1複数−チャネルオーディオ信号のチャネル、y1は前記第2複数−チャネルオーディオ信号のチャネルであることを特徴とする、請求項22に記載の装置。
【請求項24】
前記線形方程式システムの解は、
【数6】
で与えられる第2重み値w22を提供し、前記E{.}は短期平均、x1及びx2は前記第1複数−チャネルオーディオ信号チャネル、y1は前記第2複数−チャネルオーディオ信号チャネルであることを特徴とする、請求項22に記載の装置。
【請求項25】
前記E{x2y2}及び前記E{x1y1}は、
【数7】
であり、前記Kは非ボーカルソース減衰のための減衰ファクタ、前記ai及びbiはゲインファクタであることを特徴とする、請求項23または24に記載のコンピュータ実装方法。
【請求項26】
前記K=10-A/10であり、非ボーカルソースはAdbで減衰されることを特徴とする、請求項25に記載のコンピュータ実装方法 。
【請求項27】
前記第2複数−チャネルオーディオ信号は、
【数8】
で与えられることを特徴とする、請求項25に記載のコンピュータ実装方法。
【請求項28】
オブジェクトの集合を有する第1複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第1複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
ミックスパラメータ集合を獲得する段階と、
減衰ファクタを獲得する段階と、
前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いて第2複数−チャネルオーディオ信号を生成する段階と、を含む動作を、プロセッサにより実行する時、前記プロセッサが行うようにする命令が記憶されている、コンピュータ読取り可能記憶媒体。
【請求項29】
オブジェクトの集合を有する第1複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第1複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
グラフィックユーザインタフェースを通じてゲインパラメータgkまたはパニングパラメータpkを獲得する段階と、
ゲイン調節因子Gadjustまたはパニング調節因子Padjustを獲得する段階と、
スケールされたゲインパラメータまたはスケールされたパニングパラメータを得るために、前記ゲインパラメータgkまたは前記パニングパラメータpkをそれぞれ前記ゲイン調節ファクタGadjustまたは前記パニング調節ファクタPadjustと乗算する段階と、
前記スケールされたゲインパラメータと前記スケールされたパニングパラメータのうちいずれか一つ及び前記付加情報を用いて第2複数−チャネルオーディオ信号を生成する段階と、
を含むコンピュータ実装方法。
【請求項30】
【数9】
【請求項31】
【数10】
【請求項32】
オブジェクトの集合を有する第1複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第1複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
グラフィックユーザインタフェースを通じてゲインパラメータまたはパニングパラメータを獲得する段階と、
前記第1複数−チャネルオーディオ信号のチャネルを線形結合することによって、第2複数−チャネルオーディオ信号を生成する段階と、
を含み、
前記特定線形結合は、前記ゲインパラメータまたは前記パニングパラメータのうちいずれか一つ及び前記付加情報を用いて決定されることを特徴とする、コンピュータ実装方法。
【請求項33】
第2複数−チャネルオーディオ信号を生成する段階は、
前記第1複数−チャネルオーディオ信号を第1サブバンド信号の集合に分割する段階と、
前記ゲインパラメータと前記パニングパラメータのうちいずれか一つ及び前記付加情報を用いて、前記第2複数−チャネルオーディオ信号と対応する第2サブバンド信号の集合を推定する段階と、
前記第2サブバンド信号の集合を前記第2複数−チャネルオーディオ信号に変換する段階と、
を含むことを特徴とする、請求項32に記載のコンピュータ実装方法。
【請求項1】
オブジェクトの集合を有する第1複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第1複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
ミックスパラメータ集合を獲得する段階と、
減衰ファクタを獲得する段階と、
前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いて第2複数−チャネルオーディオ信号を生成する段階と、
を含むことを特徴とする、コンピュータ実装方法。
【請求項2】
前記ミックスパラメータ集合を獲得する段階において、前記ミックスパラメータ集合を特定するユーザ入力を受信する段階をさらに含むことを特徴とする、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記第2複数−チャネルオーディオ信号を生成する段階は、
前記第1複数−チャネルオーディオ信号を第1サブバンド信号集合に分割する段階と、
前記付加情報及び前記ミックスパラメータ集合を用いて、前記第2複数−チャネルオーディオ信号に対応する第2サブバンド信号集合を推定する段階と、
前記第2サブバンド信号集合を前記第2複数−チャネルオーディオ信号に変換する段階と、
を含むことを特徴とする、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記第2サブバンド信号集合を推定する段階は、
リミックスされるオブジェクトと関連した、ゲインファクタ及びサブバンドパワー推定値を提供するために付加情報をデコーディングする段階と、
前記ゲインファクタ、前記サブバンドパワー推定値及び前記ミックスパラメータ集合に基づいて一つまたはそれ以上の重み値集合を決定する段階と、
少なくとも一つの重み値集合を用いて前記第2サブバンド信号集合を推定する段階と、
をさらに含むことを特徴とする、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記一つまたはそれ以上の重み値集合を決定する段階は、
第1重み値集合の大きさを決定する段階と、
第2重み値集合の大きさを決定する段階と、
をさらに含み、
前記第2重み値集合は、前記第1重み値集合と異なる個数の重み値を含むことを特徴とする、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記第1及び第2重み値集合の大きさを比較する段階と、
前記比較結果に基づいて前記第2サブバンド信号の集合を推定するために前記第1及び第2重み値集合のうちいずれか一つを選択する段階をさらに含むことを特徴とする、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記一つまたはそれ以上の重み値集合を決定する段階は、
第1複数−チャネルオーディオ信号及び第2複数−チャネルオーディオ信号間の差を最小化する重み値集合を決定する段階をさらに含むことを特徴とする、請求項4に記載のコンピュータ実装方法。
【請求項8】
前記一つまたはそれ以上の重み値集合を決定する段階は、
線形方程式システムを構成する段階と、
前記線形方程式システムを分析することによって重み値を決定する段階と、
をさらに含み、
前記システムの各方程式は積の和であり、各前記積は、重み値とサブバンド信号との積で構成されたことを特徴とする、請求項4に記載のコンピュータ実装方法。
【請求項9】
前記線形方程式システムは、最小2乗推定を用いて分析することを特徴とする、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記線形方程式システムの解は、
【数1】
で与えられる第1重み値w11を提供し、前記E{.}は、短期平均、x1及びx2は前記第1複数−チャネルオーディオ信号のチャネル、y1は前記第2複数−チャネルオーディオ信号のチャネルであることを特徴とする、請求項9に記載のコンピュータ実装方法。
【請求項11】
前記線形方程式システムの解は、
【数2】
で与えられる第2重み値w22を提供し、前記E{.}は短期平均、x1及びx2は前記第1複数−チャネルオーディオ信号チャネル、y1は前記第2複数−チャネルオーディオ信号チャネルであることを特徴とする、請求項9に記載のコンピュータ実装方法。
【請求項12】
前記E{x2y2}及び前記E{x1y1}は、
【数3】
であり、前記Kは非ボーカルソース減衰のための減衰ファクタ、前記ai及びbiはゲインファクタであることを特徴とする、請求項10または11に記載のコンピュータ実装方法。
【請求項13】
K=10-A/10であり、非ボーカルソースはAdBで減衰されることを特徴とする、請求項12に記載のコンピュータ実装方法。
【請求項14】
第2複数−チャネルオーディオ信号は、
【数4】
のように与えられることを特徴とする、請求項12に記載のコンピュータ実装方法。
【請求項15】
付加情報を受信し、前記付加情報からリミックスパラメータを獲得するデコーダと、
ミックスパラメータの集合及び減衰ファクタを獲得するインタフェースと、
前記デコーダ及び前記インタフェースに連結されたリミックスモジュールと、
を含み、
前記付加情報の少なくとも一部は、前記第1複数−チャネルオーディオ信号及び前記第1複数−チャネルオーディオ信号を生成するのに用いられる一つまたはそれ以上のソース信号間の関係を表現し、
前記リミックスモジュールは、非ボーカルソースの減衰された第2複数−チャネルオーディオ信号を生成するために前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いてソース信号をリミックスすることを特徴とする、装置。
【請求項16】
少なくとも一つの前記ミックスパラメータ集合は、前記インタフェースを通じてユーザにより特定されることを特徴とする、請求項15に記載の装置。
【請求項17】
前記第1複数−チャネルオーディオ信号を第1サブバンド信号集合に分割する少なくとも一つのフィルタバンクをさらに含むことを特徴とする、請求項15に記載の装置。
【請求項18】
前記リミックスモジュールは、前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いて前記第2複数−チャネルオーディオ信号に対応する第2サブバンド信号集合を推定し、前記第2サブバンド信号集合を前記第2複数−チャネルオーディオ信号に変換することを特徴とする、請求項17に記載の装置。
【請求項19】
前記デコーダは、前記リミックスされるソース信号と関連したゲインファクタ及びサブバンドパワー推定値を提供する前記付加情報をデコーディングし、前記リミックスモジュールは、前記ゲインファクタ、サブバンドパワー推定値、減衰ファクタ及びミックスパラメータの集合に基づいて一つまたはそれ以上の重み値集合を決定し、少なくとも一つの重み値集合を用いて前記第2サブバンド信号集合を推定することを特徴とする、請求項18に記載の装置。
【請求項20】
前記リミックスモジュールは、前記第1複数−チャネルオーディオ信号及び前記第2複数−チャネルオーディオ信号間の差を最小化する重み値の集合を決定することによって一つまたはそれ以上の重み値集合を決定すること特徴とする、請求項19に記載の装置。
【請求項21】
前記リミックスモジュールは、線形方程式システムを分析することによって一つまたはそれ以上の重み値集合を決定し、前記システムの各方程式は積の和であり、各前記積は、重み値とサブバンド信号との積で構成されたことを特徴とする、請求項19に記載の装置。
【請求項22】
前記線形方程式システムは、最小2乗推定を用いて分析することを特徴とする、請求項21に記載の装置。
【請求項23】
前記線形方程式システムの解は、
【数5】
で与えられる第1重み値w11を提供し、前記E{.}は短期平均、x1及びx2は前記第1複数−チャネルオーディオ信号のチャネル、y1は前記第2複数−チャネルオーディオ信号のチャネルであることを特徴とする、請求項22に記載の装置。
【請求項24】
前記線形方程式システムの解は、
【数6】
で与えられる第2重み値w22を提供し、前記E{.}は短期平均、x1及びx2は前記第1複数−チャネルオーディオ信号チャネル、y1は前記第2複数−チャネルオーディオ信号チャネルであることを特徴とする、請求項22に記載の装置。
【請求項25】
前記E{x2y2}及び前記E{x1y1}は、
【数7】
であり、前記Kは非ボーカルソース減衰のための減衰ファクタ、前記ai及びbiはゲインファクタであることを特徴とする、請求項23または24に記載のコンピュータ実装方法。
【請求項26】
前記K=10-A/10であり、非ボーカルソースはAdbで減衰されることを特徴とする、請求項25に記載のコンピュータ実装方法 。
【請求項27】
前記第2複数−チャネルオーディオ信号は、
【数8】
で与えられることを特徴とする、請求項25に記載のコンピュータ実装方法。
【請求項28】
オブジェクトの集合を有する第1複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第1複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
ミックスパラメータ集合を獲得する段階と、
減衰ファクタを獲得する段階と、
前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いて第2複数−チャネルオーディオ信号を生成する段階と、を含む動作を、プロセッサにより実行する時、前記プロセッサが行うようにする命令が記憶されている、コンピュータ読取り可能記憶媒体。
【請求項29】
オブジェクトの集合を有する第1複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第1複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
グラフィックユーザインタフェースを通じてゲインパラメータgkまたはパニングパラメータpkを獲得する段階と、
ゲイン調節因子Gadjustまたはパニング調節因子Padjustを獲得する段階と、
スケールされたゲインパラメータまたはスケールされたパニングパラメータを得るために、前記ゲインパラメータgkまたは前記パニングパラメータpkをそれぞれ前記ゲイン調節ファクタGadjustまたは前記パニング調節ファクタPadjustと乗算する段階と、
前記スケールされたゲインパラメータと前記スケールされたパニングパラメータのうちいずれか一つ及び前記付加情報を用いて第2複数−チャネルオーディオ信号を生成する段階と、
を含むコンピュータ実装方法。
【請求項30】
【数9】
【請求項31】
【数10】
【請求項32】
オブジェクトの集合を有する第1複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第1複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
グラフィックユーザインタフェースを通じてゲインパラメータまたはパニングパラメータを獲得する段階と、
前記第1複数−チャネルオーディオ信号のチャネルを線形結合することによって、第2複数−チャネルオーディオ信号を生成する段階と、
を含み、
前記特定線形結合は、前記ゲインパラメータまたは前記パニングパラメータのうちいずれか一つ及び前記付加情報を用いて決定されることを特徴とする、コンピュータ実装方法。
【請求項33】
第2複数−チャネルオーディオ信号を生成する段階は、
前記第1複数−チャネルオーディオ信号を第1サブバンド信号の集合に分割する段階と、
前記ゲインパラメータと前記パニングパラメータのうちいずれか一つ及び前記付加情報を用いて、前記第2複数−チャネルオーディオ信号と対応する第2サブバンド信号の集合を推定する段階と、
前記第2サブバンド信号の集合を前記第2複数−チャネルオーディオ信号に変換する段階と、
を含むことを特徴とする、請求項32に記載のコンピュータ実装方法。
【図1A】
【図1B】
【図2】
【図3A】
【図3B】
【図4】
【図5】
【図6A】
【図6B】
【図7A】
【図7B】
【図8A】
【図8B】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14A】
【図14B】
【図15】
【図16】
【図17A】
【図17B】
【図17C】
【図18】
【図19】
【図1B】
【図2】
【図3A】
【図3B】
【図4】
【図5】
【図6A】
【図6B】
【図7A】
【図7B】
【図8A】
【図8B】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14A】
【図14B】
【図15】
【図16】
【図17A】
【図17B】
【図17C】
【図18】
【図19】
【公表番号】特表2010−536299(P2010−536299A)
【公表日】平成22年11月25日(2010.11.25)
【国際特許分類】
【出願番号】特願2010−520569(P2010−520569)
【出願日】平成20年8月13日(2008.8.13)
【国際出願番号】PCT/EP2008/060624
【国際公開番号】WO2009/021966
【国際公開日】平成21年2月19日(2009.2.19)
【出願人】(502032105)エルジー エレクトロニクス インコーポレイティド (2,269)
【Fターム(参考)】
【公表日】平成22年11月25日(2010.11.25)
【国際特許分類】
【出願日】平成20年8月13日(2008.8.13)
【国際出願番号】PCT/EP2008/060624
【国際公開番号】WO2009/021966
【国際公開日】平成21年2月19日(2009.2.19)
【出願人】(502032105)エルジー エレクトロニクス インコーポレイティド (2,269)
【Fターム(参考)】
[ Back to top ]