リミキシング能力を有する向上したオーディオ

【課題】リミックス能力を向上したオーディオ信号処理を実現する。
【解決手段】ステレオまたはマルチ−チャネルオーディオ信号の一つまたはそれ以上のオブジェクト（例えば、楽器）と関連した一つまたはそれ以上の属性（例えば、パン、ゲインなど）は変形されて、リミックス能力を提供することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
関連出願
本出願は、２００７年８月１３日付米国仮出願第６０／９５５,３９４号の「ステレオオーディオリミキシング能力の向上（Enhancing Stereo Audio Remix Capability）」に対する優先権の利益を主張する。該出願の全ての内容は参考文献として本特許出願に援用される。
【０００２】
本出願の主な技術的内容は、一般的に、オーディオ信号処理に関するものである。
【背景技術】
【０００３】
多数の消費者オーディオ装置（例えば、ステレオ（stereos)、メディアプレーヤ、モバイルフォン、ゲームコンソール等）は、イコライゼーション（equalization）（例えば、ベース（bass）、トレブル（treble））、ボリューム、室内音響効果（acoustic room effects）などのためのコントロール（control）を用いて、ユーザがステレオオーディオ信号を変形できるようにする。しかし、これらの変形は、オーディオ信号を形成する個別のオーディオオブジェクト（例えば、楽器）ではなく全体オーディオ信号に適用される。例えば、ユーザは、全体の歌に影響を与えることなく歌中のそのギター、ドラムまたはボーカルのステレオパニングまたはゲインを個別に変形することはできない。
【発明の概要】
【発明が解決しようとする課題】
【０００４】
デコーダでミキシング柔軟性（flexibility）を提供する技術が提案されてきている。この種の技術は、ミックスされたデコーダ出力信号を生成するためにバイノーラルキューコーディング（ＢＣＣ）、パラメトリック（parametric）または空間オーディオデコーダを必要とする。しかし、いかなる技術も、音質損傷無しで下位互換性（backwards compatibility）を許容するようにステレオミックス（例えば、専門的にミックスされた音楽）を直接的にエンコーディングすることはできない。
【０００５】
空間オーディオコーディング技術は、チャネル間（inter-channel）キュー（cue）（例えば、レベル差、時間差、位相差、相関度（coherence））を用いてステレオまたはマルチ−チャネルオーディオチャネルを表現するために提案されてきた。チャネル間キューは、マルチ−チャネル出力信号を生成するのに用いるために「付加情報「としてデコーダに伝送される。しかし、かかる従来の空間オーディオコーディング技術は、多くの欠陥を有する。例えば、オーディオオブジェクトがデコーダで変形されない場合であっても、この技術のうち少なくとも一部は、デコーダに伝送されるそれぞれのオーディオオブジェクトに対する分離された信号を要求する。このような要求はエンコーダ及びデコーダで余分の過程を生じさせる。他の欠陥は、ステレオ（または、マルチ−チャネル）オーディオ信号またはオーディオソース信号に対するエンコーダ入力の制限である。その結果、デコーダでのリミキシング柔軟性が減少する。最後に、従来技術の少なくとも一部は、デコーダで複雑なデコリレーションズ（de-correlation）過程を要求するので、一部アプリケーションまたは装置でこのような技術が不適合になる。
【課題を解決するための手段】
【０００６】
ステレオまたはマルチ−チャネルオーディオ信号の一つまたはそれ以上のオブジェクト（例えば、楽器）と関連した、一つまたはそれ以上の属性（例えば、パン、ゲインなど）を、リミックス能力を提供するように変形することができる。
【０００７】
本発明の一実施例で、ステレオアカペラ信号は、ステレオオーディオ信号から非音声（non−vocal）ソースを減衰させることによって誘導される。統計的なフィルタは、アカペラステレオ信号モデルからの期待値を用いて計算することができる。統計的なフィルタは、減衰ファクタと結合して非音声信号を減衰させるために用いられることができる。
【０００８】
本発明の一実施例で、自動ゲイン／パニング調節は、ステレオオーディオ信号に適用されることができ、これは、ユーザがゲイン及びパニングコントロールの極端なセッティングをすることを防止する。ゲインスライダ間の平均距離は、ゲインスライダの範囲を制限するために平均距離の関数として調節ファクタと一緒に使用されることができる。
【０００９】
他の実施例は、システム、方法、装置、コンピュータ読み取り可能媒体及びユーザインタフェースに対する実装を含むリミキシング能力を有する向上したオーディオのために開示される。
【図面の簡単な説明】
【００１０】
【図１Ａ】ステレオ信号及びデコーダでリミックスされるオブジェクトに対応するＭソース信号をエンコーディングするエンコーディングシステムの一実施例を示すブロック図である。
【図１Ｂ】ステレオ信号及びデコーダでリミックスされるオブジェクトに対応するＭソース信号をエンコーディングする過程の一実施例示すフローチャートである。
【図２】ステレオ信号及びＭソース信号の分析及び処理のための時間−周波数グラフ表現である。
【図３Ａ】原（original）ステレオ信号及び付加情報を用いてリミックスされたステレオ信号を推定するためのリミキシングシステムの一実施例を示すブロック図である。
【図３Ｂ】図３Ａのリミックスシステムを用いてリミックスされたステレオ信号を推定するための過程の一実施例を示すフローチャートである。
【図４】インデックスｂの部分に属する短時間フーリエ変換（STFT: short-time Fourier transform）係数のインデックスｉを示す図である。
【図５】人間聴覚システムの非均等（non−uniform）周波数解像度（frequency resolution）を摸倣するための均等ＳＴＳＦスペクトラル係数の分類（grouping）を示す図である。
【図６Ａ】図１Ａに従来のステレオオーディオエンコーダが結合されたエンコーディングシステムの一実施例を示すブロック図である。
【図６Ｂ】図１Ａに従来のステレオオーディオエンコーダが結合されたエンコーディングシステムを用いたエンコーディング過程の一実施例を示すフローチャートである。
【図７Ａ】図３Ａに従来のステレオオーディオデコーダが結合されたリミキシングシステムの一実施例を示すブロック図である。
【図７Ｂ】図７Ａにステレオオーディオデコーダが結合されたリミキシングシステムを用いたリミックス過程の一実施例を示すフローチャートである。
【図８Ａ】完全なブラインド（blind）付加情報生成を実装するエンコーディングシステムの一実施例を示すブロック図である。
【図８Ｂ】図８Ａのエンコーディングシステムを用いたエンコーディング過程の一実施例を示すフローチャートである。
【図９】所望のソースレベル差Ｌ_i＝ＬｄＢに対するゲイン関数ｆ(Ｍ)の一例を示す図である。
【図１０】部分的なブラインド生成技術を用いた付加情報生成過程の一実施例を示すフローチャートである。
【図１１】ステレオ信号だけでなく、Ｍソース信号及び／または付加情報をリミキシング能力を備えたオーディオ装置に提供するためのサーバ／クライアントシステム構成の一実施例を示すブロック図である。
【図１２】リミックス能力を備えたメディアプレーヤのためのユーザインタフェースの一実施例を示す図である。
【図１３】空間オーディオオブジェクト（ＳＡＯＣ）デコーディング及びリミックスデコーディングを結合したデコーディングシステムの一実施例を示す図である。
【図１４Ａ】分離されたダイアログボリューム（SDV: Separate Dialogue Volume）のための一般的なミキシングモデルを示す図である。
【図１４Ｂ】ＳＤＶ及びリミックス技術を結合したシステムの一実施例を示す図である。
【図１５】図１４Ｂに示すイコライザ・ミックスレンダラ（eq-mix renderer）の一実施例を示す図である。
【図１６】図１〜図１５を参照して説明されたリミックス技術のための分散システムの一実施例を示す図である。
【図１７Ａ】リミックス情報を提供するための様々なビットストリーム実装形態の要素を示す図である。
【図１７Ｂ】図１７Ａに示すビットストリームを生成するためのリミックスエンコーダインタフェースの一実施例を示す図である。
【図１７Ｃ】図１７Ｂに示すエンコーダインタフェースにより生成されたビットストリームを受信するためのリミックスデコーダインタフェースの一実施例を示す図である。
【図１８】向上したリミックス性能を提供するために、あるオブジェクト信号のための追加的な付加情報を生成するための拡張を含むシステムの一実施例を示すブロック図である。
【図１９】図１８に示すリミックスレンダラ（renderer）の一実施例を示すブロック図である。
【発明を実施するための形態】
【００１１】
Ｉ．ステレオ信号のリミキシング
図１Ａは、ステレオ信号の他に、デコーダでリミックスされるオブジェクトに対応するＭソース信号もエンコーディングするエンコーディングシステム１００の一実施例を示すブロック図である。実施例によっては、エンコーディングシステム１００は、一般的に、フィルタバンクアレイ（filterbank array）１０２、付加情報生成部１０４及びエンコーダ１０６を含む。
Ａ．原（original）信号及び所望のリミックスされた信号
【００１２】
【数１】

【００１３】
一部の実施例では、エンコーディングシステム１００は、原ステレオオーディオ信号（以下、「ステレオ信号「という。）を変形するための情報（以下、「付加情報「という。）を提供したり生成して、Ｍソース信号が他のゲインファクタとともにステレオ信号内に「リミックス「される。所望の変形されたステレオ信号は、下記のように表現することができる。
【数２】

ここで、ｃ_i及びｄ_iは、リミックスされるＭソース信号（すなわち、インデックス１，２，…，Ｍのソース信号）のための新しいゲインファクタ（以下、「ミキシングゲイン「または「ミックスパラメータ「という。）である。
【００１４】
エンコーディングシステム１００の目的は、原ステレオ信号及び少ない量（例えば、ステレオ信号波形に含まれた情報と比較して少ない量）の付加情報のみ与えられると、ステレオ信号をリミキシングするための情報を提供または生成することである。エンコーディングシステム１００により提供されたり生成された付加情報は、与えられた上記式（１）の原ステレオ信号を上記式（２）の所望の変形された信号を知覚的に摸倣するデコーダで用いることができる。エンコーディングシステム１００で、付加情報生成部１０４は、原ステレオ信号をリミキシングするための付加情報を生成し、デコーダシステム（図３Ａの３００）は、付加情報及び原ステレオ信号を用いて所望のリミックスされたステレオオーディオ信号を生成する。
Ｂ．エンコーダ過程
【００１５】
再び図１Ａを参照すると、原ステレオ信号及びＭソース信号は、フィルタバンクアレイ１０２に入力として提供される。また、原ステレオ信号は、エンコーダ１０２から直接出力される。一部の実施例では、エンコーダ１０２から直接出力されたステレオ信号は、付加情報ビットストリームとの同期化のために遅延されることができる。他の実施形態では、ステレオ信号出力はデコーダで付加情報と同期化することができる。一部の実施例では、エンコーディングシステム１００は、時間及び周波数の関数として信号統計に合わせる。したがって、分析（analysis）及び合成（synthesis）のために、ステレオ信号及びＭソース信号は、図４及び５に基づく説明のおけるように、時間−周波数表現で処理される。
【００１６】
図１Ｂは、ステレオ信号及びデコーダでリミックスされるオブジェクトに対応するＭソース信号をエンコーディングする過程１０８の一実施例を示すフローチャートである。入力ステレオ信号及びＭソース信号はサブバンドに分解される（１１０）。一部の実施例では、この分解はフィルタバンクアレイを用いて行うことができる。より詳細に後述するが、それぞれのサブバンドに対するゲインファクタは、Ｍソース信号に関して推定される（１１２）。後述するように、それぞれのサブバンドに対して、短時間パワー推定値がＭソース信号に対して計算される（１１４）。これら推定されたゲインファクタ及びサブバンドパワーを、付加情報を生成するために量子化及びエンコーディングすることができる（１１６）。
【００１７】
図２は、ステレオ信号及びＭソース信号の分析及び処理のための時間−周波数グラフ表現である。グラフのｙ−軸は周波数を表し、複数の非均等的なサブバンド２０２に分けられている。ｘ−軸は時間を表し、時間スロット２０４に分けられる。図２で、それぞれの点線ボックスは、それぞれのサブバンド及び時間スロット対を示す。したがって、与えられた時間スロット２０４で、時間スロット２０４に対応する一つまたはそれ以上のサブバンド２０２はグループ２０６として処理することができる。一部の実施例では、図４及び５に基づく説明におけるように、サブバンド２０２の幅が、人間聴覚システムと関連した知覚的限界に基づいて選択される。
【００１８】
一部の実施例では、入力ステレオ信号及びＭ入力ソース信号は、フィルタバンクアレイ１０２で多数のサブバンド２０２に分解される。各中心周波数でサブバンド２０２は略同様に処理されることができる。特定周波数でステレオオーディオ入力信号のサブバンド対はｘ₁(ｋ)及びｘ₂(ｋ)で表し、ｋは、サブバンド信号のダウンサンプルされた時間インデックスである。これと略同様に、Ｍ入力ソース信号の対応するサブバンド信号は、ｓ₁(ｋ)，ｓ₂(ｋ)，…，Ｓ_M(ｋ)で表示される。表記の単純化のために、サブバンドのインデックスはこの例では省略されていることに注目されたい。ダウンサンプリングに対して、低いサンプリング率のサブバンド信号を効率性の側面で用いることができる。普通、フィルタバンク及びＳＴＦＴは、サブ−サンプリングされた信号（またはスペクトラル係数）を效率的に有する。
【００１９】
本発明の一実施例で、インデックスiのソース信号をリミキシングするために必要な付加情報は、ゲインファクタａ_iとｂ_i及びそれぞれのサブバンドで時間の関数としてサブバンド信号のパワー推定値Ｅ｛ｓ_i²(ｋ)｝を含む。ゲインファクタａ_i及びｂ_iは、（ステレオ信号のこのような情報が知られた場合）与えられたり推定されることができる。多くのステレオ信号の場合、ａ_i及びｂ_iは静的（static）である。もし、ａ_iまたはｂ_iが時間ｋの関数として変化するとすれば、これらのゲインファクタは、時間の関数として推定されることができる。付加情報を生成するためにサブバンドパワーの平均値または推定値を必ずしも用いる必要はない。むしろ一部の実施例では、実際のサブバンドパワーＳ_i²をパワー推定値とすることができる。
【００２０】
【数３】

【００２１】
一部の実施例では、付加情報ａ_i、ｂ_i及びＥ｛ｓ_i²(ｋ)｝の一部あるいは全部を、ステレオ信号として同一媒体に提供することができる。例えば、音楽出版社、レコーディングスタジオ、レコーディングアーティストなどは、対応するステレオ信号と一緒に付加情報をコンパクトディスク（ＣＤ）、デジタルビデオディスク（ＤＶＤ）、フラッシュドライブなどに提供するはずである。一部の実施例では、付加情報をステレオ信号のビットストリームに組み込み（embedding）したり付加情報を別個のビットストリームで伝送することによって、付加情報の一部または全部をネットワーク（例えば、インターネット、イーサネット（登録商標）、無線ネットワーク）を通じて提供することができる。
【００２２】
【数４】

【００２３】
一部の実施例では、それぞれのサブバンドに対して短時間パワー推定値及びゲインファクタが、付加情報（例えば、低いビット率のビットストリーム）を構成するためにエンコーダ１０６により量子化及びエンコーディングされる。これらの値は直接的に量子化及びエンコーディングされることはできないが、図４及び図５を参照して説明するように、まず、量子化及びコード化のためにより適合した他の値に変換されうることに注目されたい。一部の実施例では、図６及び図７を参照して説明するように、Ｅ｛ｓ_i²(ｋ)｝は、入力ステレオオーディオ信号のサブバンドパワーに関して量子化されることができ、従来のオーディオコーダが效率的にステレオオーディオ信号をコーディングする場合、変化と関連してエンコーディングシステム１００をロバスト（robust）にさせる。
Ｃ．デコーダ過程
【００２４】
図３Ａは、原ステレオ信号及び付加情報を用いてリミックスされたステレオ信号を推定するためのリミキシングシステム３００の一実施例を示すブロック図である。一部の実施例では、リミキシングシステム３００は、一般的に、フィルタバンクアレイ３０２、デコーダ３０４、リミックスモジュール３０６及び逆フィルタバンクアレイ３０８を含む。
【００２５】
リミックスされたステレオオーディオ信号の推定は、多くのサブバンドで独立して行うことができる。付加情報は、ステレオ信号に含まれているＭソース信号に対するサブバンドパワーＥ｛ｓ_i²(ｋ)｝及びゲインファクタａ_iとｂ_iを含む。所望のリミックスされたステレオ信号の新しいゲインファクタまたはミキシングゲインは、ｃ_i及びｄ_iで表す。図１２を参照して説明するように、ミキシングゲインｃ_i及びｄ_iは、オーディオ装置のユーザインタフェースを通じてユーザにより定められることができる。
【００２６】
一部の実施例では、入力ステレオ信号は、フィルタバンクアレイ３０２によりサブバンドに分解され、特定の周波数のサブバンド対はｘ₁(ｋ)及びｘ₂(ｋ)で表示される。図３Ａに示すように、付加情報はデコーダ３０４によりデコーディングされ、リミックスされる各Ｍソース信号に対して、入力ステレオ信号に含まれたゲインファクタａ_iとｂ_i、及び各サブバンドに対するパワー推定値Ｅ｛ｓ_i²(ｋ)｝が算出される。付加情報のデコーディングは、図４及び５を参照してより詳細に説明する。
【００２７】
付加情報が与えられると、リミックスされたステレオオーディオ信号の対応サブバンド対を、リミックスされたステレオ信号のミキシングゲインの関数としてリミックスモジュール３０６により推定することができる。逆フィルタバンクアレイ３０８は、リミックスされた時間領域ステレオ信号を提供するために、推定されたサブバンド対に適用される。
【００２８】
図３Ｂは、図３Ａのリミックスシステムを用いてリミックスされたステレオ信号を推定するためのリミックス過程３１０の一実施例を示すフローチャートである。入力ステレオ信号は、サブバンド対に分解される（３１２）。付加情報は、これらサブバンド対に対してデコーディングされる（３１４）。これらサブバンド対は付加情報とミキシングゲインを用いてリミックスされる（３１８）。一部の実施例では、図１２を参照して説明するように、これらミキシングゲインがユーザにより提供される。選択的に、ミキシングゲインを、アプリケーション、運営体制（operating system）等を通じてプログラム的に提供することができる。図１１を参照して説明するように、ミキシングゲインをまた、ネットワーク（インターネット、イーサネット（登録商標）、無線ネットワーク）を通じて提供することができる。
Ｄ．リミキシング過程
【００２９】
一部の実施例では、リミックスされたステレオ信号は、最小２乗推定（least squares estimation）を用いて数学的に近似値を求めることができる。選択的に、知覚的な考慮は、推定値を変形するために用いることができる。
【００３０】
上記式（１）及び式（２）はまた、サブバンド対ｘ₁(ｋ)とｘ₂(ｋ)、ｙ₁(ｋ)とｙ₂(ｋ)にそれぞれ適用される。この場合、ソース信号はソースサブバンド信号ｓ_i(ｋ)に置き換えられる。
【００３１】
ステレオ信号のサブバンド対は、次のように与えられる。
【数５】

また、リミックスされたステレオオーディオ信号のサブバンド対は、次の通りである。
【数６】

【００３２】
原ステレオ信号のサブバンド対、ｘ₁(ｋ)及びｘ₂(ｋ)が与えられると、異なるゲインを有するステレオ信号のサブバンド対は、元の左側及び右側のステレオサブバンド対の線形組合せとして推定される。
【数７】

ここで、ｗ₁₁(ｋ)、ｗ₁₂(ｋ)、ｗ₂₁(ｋ)及びｗ₂₂(ｋ)は、実数重みファクタである。
【００３３】
予測誤差は下記式（１０）のように定義される。
【数８】

【００３４】
各時間ｋで、重み値ｗ₁₁(ｋ)、ｗ₁₂(ｋ)、ｗ₂₁(ｋ)及びｗ₂₂(ｋ)を、各周波数のサブバンドに対して、最小２乗エラーＥ｛ｅ₁²(ｋ)｝及びＥ｛ｅ₂²(ｋ)｝が最小化するように計算することができる。ｗ₁₁(ｋ)及びｗ₁₂(ｋ)の計算のために、誤差ｅ₁(ｋ)がｘ₁(ｋ)及びｘ₂(ｋ)に直交（orthogonal）する時にＥ｛ｅ₁²(ｋ)｝が最小値になるということに注目する。すなわち、下記式（１１）のように表すことができる。
【数９】

記載の便宜のために時間インデックスｋは省略したことに留意されたい。
【００３５】
この式を次のように書き直すことができる。
【数１０】

【００３６】
ゲインファクタは、この線形方程式システムの解である。
【数１１】

【００３７】
デコーダ入力ステレオ信号サブバンド対が与えられると、Ｅ｛ｘ₁²｝、Ｅ｛ｘ₂²｝及びＥ｛ｘ₁ｘ₂｝は直接的に推定できる反面、Ｅ｛ｘ₁ｙ₁｝及びＥ｛ｘ₂ｙ₂｝は、付加情報（Ｅ｛ｓ₁²｝、ａ_i、ｂ_i）及び所望のリミックスされたステレオ信号のミキシングゲインｃ_iとｄ_iを用いて推定することができる。
【数１２】

【００３８】
同様に、ｗ₂₁及びｗ₂₂は、下記式（１５）のように計算される。
【数１３】

ここで、
【数１４】

である。
【００３９】
左側及び右側のサブバンド信号が相関（coherent）したりほとんど相関したりする場合、すなわち、下記式（１７）が１に近い時、重み値に対する解は、非唯一であるか不良条件（ill-conditioned）である。
【数１５】

したがって、もし、Φがある臨界値（例えば、０．９５）よりも大きいと、重み値は、例えば、下記式（１８）で計算される。
【数１６】

【００４０】
Φ＝１の仮定の下に、式（１８）は、式（１２）及び他の二つの重み値に対する類似の直交方程式システム（orthogonality equation system）を満たす唯一でない（non-unique）解のうちの一つである。式（１７）の相関度は、ｘ₁及びｘ₂が互いにどれくらい類似しているかを判断するのに用いられることに注目されたい。もし、相関度が０であれば、ｘ₁とｘ₂は独立的である。もし、相関度が１であれば、ｘ₁とｘ₂は類似している（ただし、異なるレベルを有することができる）。もし、ｘ₁とｘ₂が非常に似ていると（相関度が１に近い場合）、二つのチャネルウィーナー（Wiener）計算（４つの重み値計算）は不良条件である。臨界値範囲の一例は、約０．４〜約１．０である。
【００４１】
計算されたサブバンド信号を時間領域に変換して獲得した、結果的にリミックスされたステレオ信号は、異なるミキシングゲインｃ_i及びｄ_iと実際にミックスされたステレオ信号（以下この信号を「所望の信号「という。）と同様に聞こえる。一方、これは、計算されたサブバンド信号が、実際に異なってミックスされたサブバンド信号と数学的に類似することを要求する。これは、ある程度までの場合である。推定は、知覚的に動機付けられたサブバンド領域で行われるため、類似性に対する必要条件は相対的に厳格でない。知覚的に関連を有する定位（localization）キュー（例えば、レベル差及び相関度キュー）が十分に類似していると、計算されたリミックスされたステレオ信号は所望の信号と類似に聞こえる。
Ｅ．選択事項：レベル差キューの調節
【００４２】
実施形態によっては、本明細書で説明した過程を用いる場合、良い結果を得ることができる。にも拘わらず、重要なレベル差定位キューが所望の信号のレベル差キューに近似されるということを確実にするために、サブバンドのポストスケーリングにはレベル差キューを「調節「して、それらが所望する信号のレベル差キューとマッチングされることを確実にすることができる。
【００４３】
上記式（９）の最小２乗サブバンド信号予測値の変形のために、サブバンドパワーが考慮される。もし、サブバンドパワーが正確であるとすれば、重要な空間キューレベル差も正確でありうる。上記式（８）の所望の信号の左側サブバンドパワーは、下記式（１９）の通りである。
【数１７】

そして、式（９）からのサブバンドパワー推定値は、下記式（２０）の通りである。
【数１８】

【００４４】
【数１９】

【００４５】
【数２０】

II．付加情報の量子化及びコーディング
Ａ．エンコーディング
【００４６】
以前セクションで説明した通り、インデックスｉのソース信号をリミックスするのに必要な付加情報は、ファクタａ_iとｂ_i、そしてそれぞれのサブバンドで時間の関数としてのパワーＥ｛ｓ₁²(ｋ)｝である。本発明の一実施例で、ゲインファクタａ_iとｂ_iに対して、対応するゲイン及びレベル差値を下記のようにｄＢで計算することができる。
【数２１】

【００４７】
一部の実施例では、ゲイン及びレベル差値は量子化されハフマンコーディングされる。例えば、２ｄＢ量子化ステップ大きさを有する均一の量子化部及び一次元ハフマンコーダはそれぞれ量子化及びコーディングに利用することができる。他の知られた量子化器及びコーダを利用することもできる（例えば、ベクトル量子化器）。
【００４８】
もし、ａ_i及びｂ_iが時間によって変わらずに、付加情報がデコーダに信頼可能に到着するとすれば、対応するコード値は単に１回のみ伝送されればよい。そうでないとすれば、ａ_i及びｂ_iは一定の時間間隔ごとにあるいはトリガーイベントに（例えば、コード値が変わる度に）応答して伝送されることができる。
【００４９】
ステレオ信号のスケーリング及びステレオ信号のコーディングによるパワー損失／利益に対してロバスト（robust）にさせるために、一部の実施例では、サブバンドパワーＥ｛ｓ_i²(ｋ)｝は付加情報として直接コーディングされない。むしろ、ステレオ信号と関連して定義された尺度を利用することができる。
【数２２】

【００５０】
様々な信号に対するＥ｛．｝を計算するために同一の推定ウィンドウ／時定数を使用することは利点となりうる。式（２４）の相対的なパワー値として付加情報を定義する場合の利点は、所望の場合、デコーダでエンコーダとは異なる推定ウィンドウ／時定数を利用できるということである。また、ソースパワーが絶対値として伝送される場合に比べて、付加情報及びステレオ信号間の時間不一致（misalignment）の影響が減る。Ａ_i(ｋ)の量子化及びコーディングのために、一部の実施例では、例えば、２ｄＢのステップサイズを有する均一の量子化器及び１次元ハフマンコーダを利用する。結果ビット率は、リミックスされるオーディオオブジェクト当たり約３ｋｂ／ｓ（秒当たりキロビット）と小さくなりうる。
【００５１】
一部の実施例では、デコーダでリミックスされるオブジェクトに対応する入力ソース信号が無音の時、ビット率が減ることができる。エンコーダのコーディングモードは無音のオブジェクトを発見でき、そのオブジェクトが無音であるということを表すためのデコーダ情報（例えば、フレーム当たり１ビット）を伝送することができる。
Ｂ．デコーディング
【００５２】
ハフマンデコーディングされた（量子化された）値、上記式（２３）及び式（２４）が与えられると、リミキシングのために必要な値は次のように計算できる。
【数２３】

III ．実装の詳細
Ａ．時間−周波数過程
【００５３】
本発明の一実施例で、ＳＴＦＴ（短時間フーリエトランスフォーム）ベース過程は、図１〜図３を参照して説明されるエンコーディング／デコーディングのためのシステムに利用される。所望の結果を得るためにＱＭＦフィルタバンク、ＭＤＣＴ、ウェーブレット（wavelet）フィルタバンクなどを含め、他の時間−周波数変換を用いることができるが、本発明がこれに限定されるわけではない。
【００５４】
一部の実施例では、分析過程で（例えば、フォワード（forward）フィルタバンク演算）Ｎ−ポイント離散フーリエ変換（ＤＦＴ）または高速フーリエ変換（ＦＦＴ）を適用する前に、Ｎサンプルのフレームをウィンドウを用いて乗じることができる。一部の実施例では、下記のサイン（sine）ウィンドウを用いることができる。
【数２４】

【００５５】
もし、プロセシングブロック大きさがＤＦＴ／ＦＦＴ大きさと異なると、一部の実施例では、效率的にＮよりも小さいウィンドウを有するために、ゼロパディング（zero padding）を利用することができる。例えば、説明された分析過程は、（ウィンドウホップ（hop）大きさと同一の）Ｎ／２サンプルごとに反復されることができ、その結果、５０パーセントウィンドウオーバーラップ（overlap）になる。他のウィンドウ関数及びパーセントオーバーラップも所望の結果を得るために用いることができる。
【００５６】
ＳＴＦＴスペクトラル（spectral）領域から時間領域への変形のために、逆ＤＦＴまたはＦＦＴがスペクトル（spectra）に適用されることができる。結果信号は、式（２６）に説明されたウィンドウを用いて再び乗じ、ウィンドウを用いた乗算結果としての隣接した信号ブロックは、連続した時間領域信号を得るために加算されたオーバーラップと結合される。
【００５７】
場合によっては、ＳＴＦＴの均一なスペクトラル解像度が人間知覚に適合しないこともある。こういう場合に、各ＳＴＦＴ周波数係数を個別的に処理することとは対照的に、ＳＴＦＴ係数は「グループ化「されることができ、一つのグループは空間的オーディオプロセシングのための適切な周波数解像度である等価矩形帯域幅（ERB: equivalent rectangular bandwidth）の約２倍の帯域幅を有する。
【００５８】
図４は、インデックスｂの部分に属するＳＴＦＴ係数のインデックスiを示す図である。一部の実施例では、スペクトラムは対称的（symmetric）であるから、スペクトラムの始めのＮ／２＋１スペクトラル係数のみ考慮される。図４に示すように、インデックスｂ（１≦ｂ≦Ｂ）の部分に属したＳＴＦＴ係数のインデックスは、Ａ０＝０の時、ｉ∈｛Ａ_b-1，Ａ_b-1＋１，…，Ａ_b｝である。パーティションのスペクトラル係数で表現された信号は、エンコーディングシステムで利用される知覚的に動機付けられたサブバンド分割に符合する。したがって、このような各パーティション内で説明された過程は、パーティション内のＳＴＦＴ係数にも共通して適用されることができる。
【００５９】
図５には、人間聴覚システムの非均等周波数解像度（frequency resolution）を摸倣するための均等ＳＴＳＦスペクトラル係数の分類を例示する。図５で、４４．１ｋＨｚのサンプリング率に対してＮ＝１０２４であり、パーティションの数Ｂ＝２０であり、各パーティションは略２ＥＲＢの帯域幅を有する。最後のパーティションは、ナイキスト（Nyquist）周波数におけるカットオフのゆえに２ＥＲＢよりも小さいことに注目されたい。
Ｂ．統計的データの推定
【００６０】
２つのＳＴＦＴ係数ｘ_i(ｋ)及びｘ_j(ｋ)が与えられると、リミックスされたステレオオーディオ信号を計算するため必要な値Ｅ｛ｘ_i(ｋ)ｘ_j(ｋ)｝は、反復的に推定できる。この場合に、サブバンドサンプリング周波数ｆ_sは、ＳＴＦＴスペクトルが計算される時間的周波数である。各知覚的パーティション（各ＳＴＦＴ係数でない）に対する推定値を得るために、推定された値を、後に利用される前にパーティション内で平均化することができる。
【００６１】
前のセクションで説明された過程は、それが一つのサブバンドのようにそれぞれのパーティションに適用されることができる。例えば、周波数で突然のプロセシング変化を防ぐために、パーティション間のスムージングは、オーバーラッピングされたスペクトラルウィンドウを用いて行うことができ、これにより、人工音（artifacts）を減らす。
Ｃ．従来のオーディオコーダとの結合
【００６２】
図６Ａは、図１に従来のステレオオーディオエンコーダが結合されたエンコーディングシステムの一実施例を示すブロック図である。一部の実施例では、結合されたエンコーディングシステム６００は、従来のオーディオエンコーダ６０２、提案されたエンコーダ６０４（例えば、エンコーディングシステム１００）、及びビットストリーム結合部６０６を含む。この例において、ステレオオーディオ入力信号は、従来のオーディオエンコーダ６０２（例えばＭＰ３、ＡＡＣ、ＭＰＥＧサラウンド等）によりエンコーディングされ、図１〜図５を参照して前述したように、付加情報を提供するために提案されたエンコーダ６０４によって分析される。両結果ビットストリームは、下位互換性のあるビットストリームを提供するようにビットストリーム結合部６０６で結合される。一部の実施例では、結果ビットストリームの結合は、低いビット率の付加情報（例えば、ゲインファクタａ_i、ｂ_i及びサブバンドパワーＥ｛ｓ_i²(ｋ)｝）を下位互換性のあるビットストリーム内に組み込むことを含む。
【００６３】
図６Ｂは、従来のステレオオーディオエンコーダが結合された図１Ａのエンコーディングシステム１００を用いたエンコーディング過程６０８の一実施例を示すフローチャートである。入力ステレオ信号は、従来のステレオオーディオエンコーダによりエンコーディングされる（６１０）。付加情報は、ステレオ信号及びＭソース信号から、図１Ａのエンコーディングシステム１００を用いて生成される（６１２）。エンコーディングされたステレオ信号及び付加情報を含む一つまたはそれ以上の下位互換性のあるビットストリームが生成される（６１４）。
【００６４】
図７Ａは、結合されたシステム７００を提供するために従来のステレオオーディオデコーダが結合された図３Ａのリミキシングシステム３００の一実施例を示すブロック図である。一部の実施例では、結合されたシステム７００は、一般的に、ビットストリームパーサー７０２、従来のオーディオデコーダ７０４（例えば、ＭＰ３、ＡＡＣ）、及び提案されたデコーダ７０６を含む。一部の実施例では、提案されたデコーダ７０６が図３Ａのリミキシングシステム３００である。
【００６５】
本例で、ビットストリームは、ステレオオーディオビットストリーム及びリミキシング能力を提供するために提案されたデコーダ７０６により必要な付加情報を含むビットストリームに分離される。ステレオ信号は、従来のオーディオデコーダ７０４によりデコーディングされ、提案されたデコーダ７０６に送られる。提案されたデコーダ７０６は、ステレオ信号を、ビットストリーム及びユーザ入力（例えば、ミキシングゲインｃ_i及びｄ_i）から獲得された付加情報の関数として変換する。
【００６６】
図７Ｂは、図７Ａの結合システム７００を用いたリミックス方法７０８の一実施例を示すフローチャートである。エンコーダから受信したビットストリームは、エンコーダステレオ信号ビットストリーム及び付加情報ビットストリームを提供するためにパーシングされる（７１０）。エンコーディングされたステレオ信号は、従来のオーディオデコーダによりデコーディングされる（７１２）。デコーダの例には、ＭＰ３、ＡＡＣ（ＡＡＣの様々な標準化されたプロファイルを含む。）、パラメトリック（parametric）ステレオ、スペクトラルバンドレプリケーション（ＳＢＲ）、ＭＰＥＧサラウンドまたはこれらの組合せを含む。デコーディングされたステレオ信号は、付加情報及びユーザ入力（例えば、ｃ_i及びｄ_i）を用いてリミックスする。
IV．マルチ−チャネルオーディオ信号のリミキシング
【００６７】
本発明の一実施例で、上のセクションで説明されたエンコーディング及びリミキシングシステム１００，３００は、リミキシングマルチ−チャネルオーディオ信号（例えば、５．１サラウンド信号）に拡張可能である。以下では、ステレオ信号及びマルチ−チャネル信号を「複数−チャネル「信号とも呼ぶ。当該技術分野における通常の知識を有する者には、マルチ−チャネルエンコーディング／デコーディング方式に対して、すなわち、Ｃがミックスされた信号のオーディオチャネルの数を表す時、２つよりも多い信号ｘ₁(ｋ)，ｘ₂(ｋ)，x₃(ｋ)，…，ｘ_C(ｋ)に対して、上記式（７）〜式（２２）をどのように書き直せるかが理解される。
【００６８】
マルチ−チャネル場合に対して式（９）は、次のようになる。
【数２５】

上に説明したように、Ｃを有する式（１１）のように数学式が誘導され、重み値を決定するために解くことができる。
【００６９】
一部の実施例では、あるチャネルは処理されずに残っていることができる。例えば、５．１サラウンドに対して２個の後方のチャネルは処理されずに残っていることができる。そして、リミキシングは、単に前方の左側、右側及び中央チャネルにのみ適用される。このような場合に、３チャネルリミキシングアルゴリズムが前方チャネルに適用されることができる。
【００７０】
本明細書に開示されたリミキシング方式（scheme）で得られたオーディオ質は、行われた変形の本質（nature）に依存する。比較的弱い変形、例えば、０ｄＢから１５ｄＢへのパニング変形または１０ｄＢのゲイン変形に対して結果オーディオ質は、従来の技術を用いて得るそれよりも高くなりうる。また、本明細書に開示された提案されたリミキシング方式の質は、従来のリミキシング方式のそれよりも高くなりうる。なぜなら、ステレオ信号は所望のリミキシングを得るために必要な分のみ変形されるためである。
【００７１】
本明細書に開示されたリミキシング方式は、従来の技術らに比べて多くの長所を提供する。第一に、与えられたステレオまたはマルチ−チャネルオーディオ信号におけるオブジェクトの全体個数よりも少ないリミキシングを許容する。これは、与えられたステレオオーディオ信号に加えて、デコーダでリミキシングのために利用されうるステレオオーディオ信号中のＭオブジェクトを表すＭソース信号の関数として付加情報を推定することによって達成される。実際に異なってミックスされたステレオ信号と知覚的に類似するステレオ信号を生成するために、開示されたリミキシングシステムは、与えられたステレオ信号を付加情報の関数及びユーザ入力（所望のリミキシング）の関数として処理する。
Ｖ．基本リミキシング方式の改善
Ａ．付加情報の前処理
【００７２】
サブバンドが隣のサブバンドに比べて過多に減衰される時、オーディオ人工音（artifacts）が発生することがある。したがって、最大減衰を制限することが好ましい。しかも、ステレオ信号及びオブジェクトソース信号統計は、エンコーダ及びデコーダからそれぞれ独立的に計算されるため、測定されたステレオ信号サブバンドパワーとオブジェクト信号サブバンドパワー（付加情報で表現される。）間の比率は実際から外れることがある。このため、付加情報は物理的には不可能なものになりうる。例えば、式（１９）でのリミックスされた信号の信号パワーが負数になりうる。上に言及したイシューについては以下に説明する。
【００７３】
左側及び右側のリミックスされた信号のサブバンドパワーは、次の通りである。
【数２６】

ここで、Ｐ_Siは、式（２５）で与えられた量子化及びコーディングされたサブバンドパワー推定値と同一であり、これは付加情報の関数として計算される。リミックスされた信号のサブバンドパワーは制限され、原ステレオ信号のサブバンドパワーＥ｛ｘ₁²｝以下であるＬｄＢより小さくなることができない。同様に、Ｅ｛ｙ₂²｝は、Ｅ｛ｘ₂²｝以下であるＬｄＢより小さくならないように制限される。この結果は、次のような動作で達成できる：
１．式（２８）によって左側及び右側リミックスされた信号サブバンドパワーを計算する。
２．Ｅ｛ｙ₁²｝＜ＱＥ｛ｘ₁²｝の場合、Ｅ｛ｙ₁²｝＝ＱＥ｛ｘ₁²｝になるように付加情報計算値Ｐ_Siを調節する。Ｅ｛ｙ₁²｝のパワーをＥ｛ｘ₁²｝のパワー以下であるＡｄＢより小さくならないように制限するために、ＱはＱ＝１０^-A/10に設定できる。すると、Ｐ_Siは、下記式（２９）のようにそれを乗じて調節することができる。
【数２７】

３．Ｅ｛ｙ₂²｝＜ＱＥ｛ｘ₂²｝の場合、Ｅ｛ｙ₂²｝＝ＱＥ｛ｘ₂²｝になるように付加情報計算値Ｐ_Siを調節する。これは、下記式（３０）のようにＰ_Siを乗じることによって達成できる。
【数２８】

【数２９】

Ｂ．４個または２個の重み値利用の決定
【００７４】
多くの場合において、上記式（１８）の２個重み値は左側と右側のリミックスされた信号サブバンドを計算するのに充分である。場合によっては、上記式（１３）及び式（１５）の４個重み値を用いる方が良好な結果をもたらすこともある。２個重み値を用いることは、左側の出力信号を生成するのに単に左側原信号が利用され、右側出力も同様であることを意味する。したがって、４個重み値が好ましいシナリオは、一方のあるオブジェクトが他方のものとリミックスされる時である。このような場合に、４個重み値利用が有利になると期待される。なぜなら、元来は一方のみに存在していた信号（例えば左側チャネル）は、リミキシング後に主に他方（例えば右側チャネル）に存在するからである。したがって、４個重み値は、原左側チャネルからリミックスされた右側チャネル、そしてその反対の信号の流れを可能にするために利用される。
【００７５】
４個重み値計算の最小２乗問題が不良条件である時、重み値の大きさは大きくなりうる。同様に、上記した一側から他側へのリミキシングが利用される時に、単に２個の重み値が利用される時に重み値の大きさは大きくなることができる。このような観測により同期付けられ、一部の実施例では２個の重み値を用いるかまたは４個の重み値を用いるかを決定するために以下の基準が用いることができる。
【００７６】
もし、Ａ＜Ｂであれば、４個の重み値を用い、そうでないと２個の重み値を用いる。Ａ及びＢはそれぞれ４個及び２個の重み値に対して重み値の大きさの測定値である。本発明の一実施例で、Ａ及びＢは次のように計算される。Ａを計算するために、まず、式（１３）及び式（１５）によって４個の重み値を計算し、Ａ＝ｗ₁₁²＋ｗ₁₂²＋ｗ₂₁²＋ｗ₂₂²にする。Ｂを計算するために、重み値は式（１８）によって計算し、Ｂ＝ｗ₁₁²＋ｗ₂₂²と計算される。
【００７７】
【数３０】

【００７８】
オブジェクトの位置を変更する要求は、原パニング情報を所望のパニング情報と比較することによって容易にチェックできる。しかし、予測誤りにより、決定の敏感度を調節できる一部マージン（margin）を与えることが好ましい。決定の敏感度は好ましい値としてα、βをセッティングすることによって容易に調節できる。
Ｃ．希望時の減衰度の改善
【００７９】
【数３１】

【００８０】
【数３２】

【００８１】
本明細書で説明されたリミックス技術は、ミキシングゲインｃ_i及びｄ_iに対してユーザコントロールを提供する。ゲイン及びパニングがｃ_i及びｄ_iにより完全に決定される場合、これは各オブジェクトに対してゲインＧ_i及び振幅パニングＬ_i（方向）を決定するのに符合する。
【数３３】

【００８２】
一部の実施例では、ソース信号のゲイン及び振幅パニングに加えて、ステレオミックスの他の特徴を調節することが好ましい。以下では、ステレオオーディオ信号の背景音（ambience）程度を変形するための技術を説明する。このデコーダ作業には付加情報を必要としない。
【００８３】
一部の実施例では、式（４４）で与えられる信号モデルを、ステレオ信号の背景音の程度を変形するのに利用することができる。前記ｎ１及びｎ２のサブバンドパワーは同じであるとする。すなわち、下記式（３４）のようである。
【数３４】

【００８４】
再び、ｓ、ｎ１及びｎ２は相互独立していると仮定できる。このような仮定が与えられると、式（１７）の相関度は、下記式（３５）のようである。
【数３５】

これは、変数Ｐ_N(ｋ)に対する２次方程式、
【数３６】

に対応する。
上記２次方程式の解は、次の通りである。
【数３７】

物理的に可能な解は、平方根前に負号を有するものである。
【数３８】

なぜなら、Ｐ_N(ｋ)は、Ｅ｛ｘ₁²(ｋ)｝＋Ｅ｛ｘ₂²(ｋ)｝より小さいまたは等しいべきからである。
【００８５】
本発明の一実施例で、左側及び右側背景音を制御するために、リミックス技術は、２オブジェクトに対して適用されることができる。一つのオブジェクトは、インデックスｉ₁に対して左側でサブバンドパワーＥ｛ｓ_i1²(ｋ)｝＝Ｐ_N(ｋ)である、すなわち、ａ_i1＝１で、ｂ_i1＝０のソースである。他のオブジェクトは、インデックスｉ₂に対して右側でサブバンドパワーＥ｛ｓ_i2²(ｋ)｝＝Ｐ_N(ｋ)である、すなわち、ａ_i2＝０で、ｂ_i2＝１のソースである。背景音の量を変えるために、ユーザは、ｇ_aがｄＢで表された背景音ゲインである場合、ｃ_i1＝ｄ_i1＝１０^ga/20及びｃ_i2＝ｄ_i1＝０を選択できる。
Ｆ．他の付加情報
【００８６】
一部の実施例では、変形されたり異なる付加情報は、ビット率観点でより効率的な開示されたリミキシング方式に利用されることができる。例えば、式（２４）でＡ_i(ｋ)は任意の値を有することができる。原ソース信号ｓ_i(ｎ)のレベル依存性も存在する。したがって、所望の範囲での付加情報を得るために、原ソース信号のレベルは調節される必要がある。このような調節を避け、且つ原ソース信号レベルの付加情報依存性を除去するために、一部の実施例では、ソースサブバンドパワーを、式（２４）のようにステレオ信号サブバンドパワーに関してだけでなくミキシングゲインが考慮されて正規化できる。
【数３９】

【００８７】
これは、（直接的なソースパワーではなく）ステレオ信号に含まれ、ステレオ信号で正規化された、ソースパワーを付加情報として使用することに符合する。選択的に、次のような正規化を利用できる。
【数４０】

【００８８】
この付加情報はより効率的である。なぜならＡ_i(ｋ)が０ｄＢより小さいまたは等しい値のみを有するためである。式（３９）及び式（４０）は、サブバンドパワーＥ｛ｓ_i²(ｋ)｝に対して解くことができる。
Ｇ．ステレオソース信号／オブジェクト
【００８９】
本明細書で説明されたリミックス方式は、ステレオソース信号を扱うことに容易に拡張されることができる。付加情報観点で、ステレオソース信号は二つのモノソース信号のように扱われる。すなわち、一つは単に左にのみミックスされ、他の一つは右にのみミックスされる。すなわち、左側ソースチャネルiは、０でない左側ゲインファクタａ_iと０である右側ゲインファクタｂ_i+1を有する。ゲインファクタａ_i及びｂ_i+1は、式（６）のように推定されることができる。付加情報は、二つのモノソースであるステレオソースのように伝送されることができる。いくつかの情報は、デコーダにどのソースがモノソースか、どれがステレオソースかを指示するためにデコーダに伝送される必要がある。
【００９０】
デコーダ過程及びグラフィックユーザインタフェース（ＧＵＩ）に対して、一つの可能性はデコーダでステレオソース信号をモノソース信号と同様に表現することである。すなわち、ステレオソース信号は、モノソース信号と類似のゲイン及びパニングコントロールを有する。一部の実施例では、リミックスされていないステレオ信号及びゲインファクタのＧＵＩのゲイン及びパニングコードロール間の関係を、次のように選択することができる。
【数４１】

【００９１】
すなわち、最初はこれらの値にＧＵＩが設定される。ユーザにより選択されたＧＡＩＮとＰＡＮ及び新しいゲインファクタ間の関係は、次のように選択することができる。
【数４２】

【００９２】
式（４２）はｃ_i及びｄ_i+1に対して解くことができ、ｃ_i及びｄ_i+1は、リミキシングゲインとして用いることができる（ｃ_i+1＝０及びｄ_i=０の時）。説明された機能はステレオアンプの「均衡（balance）「コントロールに似ている。ソース信号の左側及び右側チャネルのゲインは、クロストーク（cross-talk）を取り込むことなく変形される。
VI．付加情報のブラインド生成
Ａ．付加情報の完全なブラインド生成
【００９３】
本明細書に開示されたリミキシング方式で、エンコーダは、ステレオ信号及びデコーダでリミックスされるオブジェクトを表現する多くのソース信号を受信する。デコーダでインデックスiのソース信号をリミックスするために必要な付加情報はゲインファクタａ_iとｂ_i及びサブバンドパワーＥ｛ｓ_i²(ｋ)｝から決定される。ソース信号が与えられた場合の付加情報の決定は、上のセクションで説明した通りである。
【００９４】
（これは現在する製品に符合するから）ステレオ信号は容易に獲得される反面、デコーダでリミックスされるオブジェクトに対応するソース信号を獲得することは困難である。したがって、オブジェクトのソース信号を利用できないとしても、リミキシングのための付加情報を生成することが好ましい。以下では、単にステレオ信号から付加情報を生成するための完全なブラインド生成技術について説明する。
【００９５】
図８Ａは、完全なブラインド付加情報生成を実装するエンコーディングシステム８００の一実施例を示すブロック図である。エンコーディングシステム８００は、一般的に、フィルタバンクアレイ８０２、付加情報生成部８０４及びエンコーダ８０６を含む。ステレオ信号は、フィルタバンクアレイ８０２から受信される。フィルタバンクアレイは、ステレオ信号（例えば左側及び右側チャネル）をサブバンド対に分解する。これらのサブバンド対は付加情報プロセッサ８０４に受信され、付加情報プロセッサ８０４は、所望のソースレベル差Ｌ_i及びゲイン関数Ｆ(Ｍ）を用いてサブバンド対から付加情報を生成する。フィルタバンクアレイ８０２、付加情報プロセッサ８０４両方ともソース信号に対して動作しないことに注目されたい。付加情報は全的に入力ステレオ信号、所望のソースレベル差Ｌ_i及びゲイン関数ｆ(Ｍ）から誘導される。
【００９６】
図８Ｂは、図８Ａのエンコーディングシステム８００を用いたエンコーディング過程８０８の一実施例を示すフローチャートである。入力ステレオ信号はサブバンド対に分解される（８１０）。それぞれのサブバンドに対して、ゲインファクタａ_i及びｂ_iは、それぞれの所望のソース信号に対して所望のソースレベル差値Ｌ_iを用いて決定される（８１２）。直接音（direct sound）ソース信号（例えば、サウンドステージ内の中心−パニングされたソース信号）に対して、所望の信号レベル差は、Ｌ_i＝０ｄＢである。Ｌｉが与えられると、Ａ＝１０^Li/10の時、ゲインファクタは次のように計算される。
【数４３】

ここで、ａ_i及びｂ_iは、ａ_i²＋ｂ_i²＝１となるように計算されたことに注目されたい。この条件が必須のものではない。むしろ、これはＬ_iの大きさが大きい時、ａ_iまたはｂ_iが大きくなることを防止するための任意の選択である。
【００９７】
次いで、直接音のサブバンド信号がサブバンド対及びミキシングゲインを用いて推定される（８１４）。直接音サブバンドパワーを計算するために、各時間で各入力信号の左側及び右側サブバンドが次のように表現されると仮定することができる。
【数４４】

ここで、ａ及びｂはミキシングゲイン、ｓは全てのソース信号の直接音を表し、ｎ₁及びｎ₂は独立した周辺音響（ambient sound）を表す。
Ｂ＝Ｅ｛ｘ₂²(ｋ)｝／Ｅ｛ｘ₁²(ｋ)｝の時、ａ及びｂを次のように仮定することができる。
【数４５】

ａとｂは、ｘ₂及びｘ₁にｓが含まれている場合のレベル差がｘ₂とｘ₁間のレベル差と同一となるように計算されることができる。直接音のレベル差はｄＢでＭ＝ｌｏｇ₁₀Ｂである。
【００９８】
上記式（４４）に与えられた信号モデルによって、直接音サブバンドパワーＥ｛ｓ₂(ｋ)｝を計算できる。一部の実施例では、下記の方程式システムが利用される。
【数４６】

【００９９】
上記式（４６）では、上記式（３４）のｓ、ｎ₁及びｎ₂が相互独立しており、上記式（４６）の左辺量が測定でき、ａ及びｂは利用可能であると仮定する。したがって、上記式（４６）の３つの未知数はＥ｛ｓ²(ｋ)｝、Ｅ｛ｎ₁²(ｋ)｝及びＥ｛ｎ₂²(ｋ)｝である。直接音サブバンドパワーＥ｛ｓ²(ｋ)｝は、次のように与えることができる。
【数４７】

【０１００】
直接音サブバンドパワーはさらに式（１７）の相関度の関数として書くこともできる。
【数４８】

【０１０１】
本発明の一実施例で、所望のソースサブバンドパワーＥ｛ｓ_i²(ｋ)｝の計算は、二つのステップで行うことができる。第一に、直接音サブバンドパワーＥ｛ｓ²(ｋ)｝を計算する。ｓは、上記式（４４）の全てのソースの直接音（例えば、中心−パニングされた（center-panned））を表す。そして、所望のソースサブバンドパワーＥ｛ｓ_i²(ｋ)｝は、直接音サブバンドパワーＥ｛ｓ²(ｋ)｝を（Ｍで表現される）直接音方向及び（所望のソースレベル差Ｌで表現される）所望の音響方向の関数として変形して計算する（８１６）。
【数４９】

ここで、ｆ(.)はゲイン関数、方向の関数として、単に所望のソースの方向に対して１に近いゲインファクタをリターンする。最後のステップとして、ゲインファクタ及びサブバンドパワーＥ｛ｓ_i²(ｋ)｝を、付加情報を生成するために量子化及びエンコーディングすることができる（８１８）。
【０１０２】
図９は、所望のソースレベル差Ｌ_i＝ＬｄＢに対する例示的なゲイン関数ｆ(Ｍ)を示す。方向性程度は、所望の方向Ｌ_o周辺でより多いまたは少ない狭いピークを有するｆ(Ｍ)を選択することによって調節できる。所望のソースに対して中央において、Ｌ_o＝６ｄＢのピーク幅を用いることができる。
【０１０３】
上に説明した完全なブラインド技術と共に、与えられたソース信号ｓ_iに対して付加情報（ａ_i、ｂ_i、Ｅ｛ｓ_i²(ｋ)｝）を決定することができるということに注目されたい。
Ｂ．付加情報のブラインド及び非ブラインド生成間の結合
【０１０４】
上に説明した完全なブラインド生成技術は、ある環境の下では制約がありうる。例えば、もし、二つのオブジェクトがステレオサウンドステージの同一位置（方向）を有するとすれば、一側または両側オブジェクトに関する付加情報をブラインドに（blindly）生成することは不可能であろう。
【０１０５】
付加情報の完全なブラインド生成の代案として付加情報の部分的なブラインド生成がある。部分的なブラインド技術は、原オブジェクト波形に概略的に対応するオブジェクト波形を生成する。例えば、これは、特定のオブジェクト信号を歌手またはミュージシャンに演奏／再生産（reproduce）させることによってなる。または、このような目的のためにＭＩＤＩデータを配置し、シンセサイザー（synthesizer）でオブジェクト信号を生成する。一部の実施例で、「ラフ（rough）「オブジェクト波形は、生成される付加情報と関連したステレオ信号に合わせて時間整列される。その後、付加情報を、ブラインド及び非ブラインド付加情報生成を結合した過程を用いて生成することができる。
【０１０６】
図１０は、部分的なブラインド生成技術を用いた付加情報生成過程１０００の一実施施を示すフローチャートである。この過程１０００は、入力ステレオ信号及びＭ「ラフ（rough）「ソース信号を獲得することから始まる（１００２）。次に、ゲインファクタａ_i及びｂ_iを、「ラフ（rough）「ソース信号のために決定する（１００４）。各サブバンドの各時間スロットで、サブバンドパワーの第１短期推定値Ｅ｛ｓ_i²(ｋ)｝をそれぞれ「ラフ（rough）「ソース信号に対して決定する（１００６）。サブバンドパワーの第２短期推定値Ｅｈａｔ｛ｓ_i²(ｋ)｝を、入力ステレオ信号に適用される完全なブラインド技術を用いて各「ラフ（rough）「ソース信号に対して決定する（１００８）。
【０１０７】
最後に、この関数を、推定されたサブバンドパワーに適用する。これは、第１及び第２サブバンドパワー推定値を結合して最終推定値をリターンし、效率的に付加情報計算に用いることができる（１０１０）。実施形態によっては、関数Ｆ()が次のように与えられる。
【数５０】

VII ．システム構成、ユーザインタフェース、ビットストリームシンタックス
Ａ．クライアント／サーバシステム構成
【０１０８】
図１１は、ステレオ信号だけでなくＭソース信号及び／または付加情報を、リミキシング能力を備えたオーディオ装置１１１０に提供するためのクライアント／サーバシステム構成１１００の一実施例を示すブロック図である。このシステム構成１１００は単に一例にすぎない。他のシステム構成は、より多いまたは少ないコンポーネントを含むことができる。
【０１０９】
このシステム構成１１００は、一般的に、レポジトリ１１０４（例えばＭｙＳＱＬ^TM）及びサーバ１１０６（例えばウィンド^TM ＮＴ、Ｌｉｎｕｘ（登録商標）サーバ）を有するダウンロードサービス１１０２を含む。レポジトリ１１０４は、専門的にミックスされたステレオ信号、ステレオ信号内のオブジェクトに対応する関連したソース信号及び様々な効果（例えば、残響（reverberation））を含む様々なタイプのコンテンツを保存することができる。ステレオ信号は、様々な標準化されたフォーマット、例えばＭＰ３、ＰＣＭ、ＡＡＣなどで保存されることができる。
【０１１０】
一部の実施例では、ソース信号は、レポジトリ１１０４に保存され、オーディオ装置１１１０にダウンロード可能になる。一部の実施例では、前処理された付加情報は、レポジトリ１１０４に保存され、オーディオ装置１１１０にダウンロード可能になる。前処理された付加情報は、図１Ａ、図６Ａ及び図８Ａを参照して説明された一つまたはそれ以上のエンコーディング方式を用いてサーバ１１０６により生成されることができる。
【０１１１】
一部の実施例では、ダウンロードサービス１１０２（例えば、ウェブサイト、音楽ストア）は、ネットワーク１１０８（例えば、インターネット、イントラネット、イーサネット（登録商標）、無線ネットワーク、ピアツウピアネットワーク）を通じてオーディオ装置１１１０と通信する。オーディオ装置１１１０は、本明細書に開示されたリミックス方式を実装できるいずれの装置にしても良い（例えば、メディアプレーヤ／レコーダ、モバイルフォン、ＰＤＡ、ゲームコンソール、セットトップボックス、テレビ受信機、メディアセンター等）。
Ｂ．オーディオデバイスシステム構成
【０１１２】
一部の実施例では、オーディオ装置１１１０は、一つまたはそれ以上のプロセッサまたはプロセッサコア１１１２、入力装置１１１４（例えば、クリックホイール、マウス、ジョイスチック、タッチスクリーン）、出力装置１１２０（例えば、ＬＣＤ）、ネットワークインタフェース１１１８（例えば、ＵＳＢ、ファイアワイヤー、イーサネット（登録商標）、ネットワークインタフェースカード、無線送受信機（wireless transceiver）及びコンピュータ読み取り可能媒体１１１６（例えば、メモリ、ハードディスク、フラッシュドライブ）を含む。これらのコンポーネントの一部または全部は通信チャネル１１２２（例えば、バス、ブリッジ）を通じて情報送信及び／または受信ができる。
【０１１３】
一部の実施例では、コンピュータ読み取り可能媒体１１１６は、オペレーティングシステム、音楽マネジャー、オーディオプロセッサ、リミックスモジュール及び音楽ライブラリを含む。オペレーティングシステムは、ファイル管理、メモリアクセス（access）、バスコンテンション（bus contention）、周辺装置制御、ユーザインタフェース管理、電源管理などを含むオーディオ装置１１１０の基本的な管理及び通信業務（task）を担当する。音楽マネジャーは、音楽ライブラリを管理するアプリケーションでありうる。オーディオプロセッサは、音楽ファイルを再生する従来のオーディオプロセッサでありうる（例えば、ＭＰ３、ＣＤオーディオ等）。リミックスモジュールは、図１〜図１０を参照して説明したリミキシング方式の機能を実装する一つまたはそれ以上のソフトウェアコンポーネントでありうる。
【０１１４】
一部の実施例では、図１Ａ、図６Ａ及び図８Ａを参照して説明したように、サーバ１１０６は、ステレオ信号をエンコーディングし付加情報を生成する。ステレオ信号及び付加情報は、ネットワーク１１０８を通じてオーディオ装置１１１０にダウンロードされる。リミックスモジュールは、信号及び付加情報をデコーディングし、入力装置１１１４（例えば、キーボード、クリックホイール、タッチディスプレイ）を通じて受信したユーザ入力に基づいてリミックス能力を提供する。
Ｃ．ユーザ入力を受信するためのユーザインタフェース
【０１１５】
図１２は、リミックス能力を備えたメディアプレーヤ１２００のためのユーザインタフェース１２０２の一実施例である。ユーザインタフェース１２０２は他の装置（例えば、モバイルフォン、コンピュータ等）にも適用可能である。ユーザインタフェースは、図示の環境設定またはフォーマットに制限されず、他の種類のユーザインタフェース要素（例えば、ナビゲーションコントロール、タッチ表面等）を含むこともできる。
【０１１６】
ユーザは、ユーザインタフェース１２０２の適切なアイテムにハイライティングすることで、装置１２００に対して「リミックス「モードに入ることができる。例えば、ユーザが音楽ライブラリから音楽を選択し、リードボーカルトラックのパンセッティングを変えたがっているとする。例えば、ユーザは左側オーディオチャネルでリードボーカルをさらに聞くことを希望することもできる。
【０１１７】
所望のパンコントロールに対する接近を得るために、ユーザは一連のサブメニュー１２０４，１２０６，１２０８を探索することができる。例えば、ユーザは、ホイール１２１０を用いてサブメニュー１２０４，１２０６，１２０８のアイテムをスクロールすることができる。ユーザはボタン１２１２を押して、ハイライトされたメニューアイテムを選択できる。サブメニュー１２０８は、リードボーカルトラックに対する所望のパンコントロールの接近を提供する。ユーザは、歌が再生される間に、所望通りにリードボーカルのパンを調節するために（例えば、ホイール１２１０を用いて）スライダを操作することができる。
Ｄ．ビットストリームシンタックス
【０１１８】
一部の実施例では、図１〜図１０を参照して説明したリミキシング方式が、現在または未来のオーディオコーディング標準（例えば、ＭＰＥＧ−４）を含むことができる。現在または未来のコーディング標準に対するビットストリームシンタックスは、ユーザによるリミキシングを許容するためにビットストリームをどのように処理するかを決定するように、リミキシング能力を有するデコーダにより用いられうるような情報を含むことができる。このようなシンタックスは、従来のコーディング方式を用いて下位互換性（backwards compatibility）を提供するように設計されることができる。例えば、ビットストリームに含まれたデータ構造（例えば、パケットヘッダ）は、リミキシングのための付加情報（例えば、ゲインファクタ、サブバンドパワー）の有効性を表す情報（例えば、一つまたはそれ以上のビットまたはフラグ）を含むことができる。
VII ．アカペラモード及び自動ゲイン／パニング調節
Ａ．アカペラモードの改善
【０１１９】
ステレオアカペラ信号は、単にボーカルのみを含むステレオ信号に対応する。一般性を失うことなく、第１Ｍソースｓ₁，ｓ₂，…，ｓ_Mを式（１）のボーカルソースとしよう。原ステレオ信号からステレオアカペラ信号を得るために、ボーカルでないソースは減衰することができる。所望のステレオ信号は次の通りである。
【数５１】

ここで、Ｋは、非ボーカルソースのための減衰ファクタである。パニングが用いられないため、新しい二つの重み値ウィナーフィルタ（Wiener filter）は、式（５０）のアカペラ信号定義から得られた期待値を用いて計算できる。
【数５２】

【０１２０】
Ｋを１０^-A/10に設定することによって、非ボーカルソースはＡｄＢに減衰され、結果ステレオアカペラ信号の感じを与えることができる。
Ｂ．自動ゲイン／パニング調節
【０１２１】
ソースのゲイン及びパニング設定が変化する時、損傷されたレンダリングされたクォリティー（rendered quality）をもたらす極端な値を選択することができる。例えば、０ｄＢを維持する一つを除いて全てのソースを最小ゲインで動かしたり、右に向かう一つを除いて全てのソースを左に動かすことは、独立したソースに対して低音質を招くことがある。このような状況は、人工音（artifacts）無しできれいにレンダリングされたステレオ信号を維持するためには避けるべきことである。このような状況を避けるための一つの手段は、ゲイン及びパニングコントロールの極端な設定を防ぐことである。
【０１２２】
それぞれのコントロールｋ、ゲイン及びパニングスライダｇ_k及びｐ_kのそれぞれは、グラフィックユーザインタフェース（ＧＵＩ）内で［−１，１］範囲の内部値を有することができる。極端な設定を制限するために、ゲインスライダ間の平均距離は、Ｋがコントロールの個数である時、次のように計算できる。
【数５３】

μ_Gが１に近づくほど、より極端なセッティングになる。
【０１２３】
この場合、調節因子Ｇ_adjustはＧＵＩでゲインスライダの範囲を制限するために、μ_Gの平均距離の関数として計算される。
【数５４】

ここで、η_Gは極端なセッティング、例えば、μ_G＝１、に対する自動スケーリング程度Ｇ_adjustを定義する。一般的に、極端なセッティングの場合、ゲインを半分に減らすために、η_Gは約０．５程度と選択される。
【０１２４】
同様の過程によって、Ｐ_adjustが計算され、パニングスライダに適用されて、効率的なゲイン及びパニングは下記式（５５）のようにスケールされる。
【数５５】

【０１２５】
本明細書で開示され説明された他の実施形態及び機能的な動作は、本明細書に開示された構造及びその構造的な均等物またはそれらの一つまたはそれ以上の組合せを含む、デジタル電子回路網で実装されたり、コンピュータソフトウェア、ファームウェア、またはハードウェアで実装されることができる。本明細書に開示された実施例及び他の実施例は、一つまたはそれ以上のコンピュータプログラムプロダクトで実装されることができる。例えば、コンピュータ読み取り可能媒体にエンコーディングされた、データプロセシング装置により実行されたりそれら装置の動作をコントロールするための、一つまたはそれ以上のコンピュータプログラム命令のモジュールのようなもので実装されることができる。コンピュータ読み取り可能媒体は、機械が読み取り可能な記憶装置、機械が読み取り可能な記憶基板（substrate）、メモリ装置、機械が読み取り可能な伝達された信号に影響を与えうる物質の組合せ、またはそれらの一つまたはそれ以上の組合せでありうる。「データプロセシング装置「という用語は、あらゆる機構、装置、及びデータ処理のための機械を含む。例えば、プログラム可能なプロセッサ、コンピュータまたは多数のプロセッサまたはコンピュータを含む。これらの装置はハードウェアとともに、問題のコンピュータプログラムのための実行環境を作るコードを含むことができる。例えば、コードは、プロセッサファームウェア、プロトコルスタック、データベース管理システム（ＤＢＭＳ）、オペレーティングシステム（ＯＳ）、またはそれらの一つまたはそれ以上の組合せを構成する。伝達された信号は、例えば、機械が生成した電気的、光学的または電磁気的信号のような人為的に生成された信号である。これは、適合な受信装置に伝送するための情報をエンコーディングするために生成される。
【０１２６】
（また、プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプトまたはコードとして知られた）コンピュータプログラムは、コンパイラまたはインタープリタ言語を含むプログラミング言語のいかなる形態でも使用されることができ、スタンドアロンプログラムとしての形態、またはモジュール、コンポーネント、サブルーチンまたは他のユーザに適合したユニットなどとしての形態などを含むいかなる形態にも開発可能である。コンピュータプログラムがファイルシステムのファイルに必ずしも対応するわけではない。プログラムは、他のプログラムまたはデータを有するファイル（例えば、マークアップ言語ドキュメント内に記憶された一つまたはそれ以上のスクリプト）、論議されるプログラム専用の一つのファイル、または多数の組織化（coordinated）されたファイル（例えば、一つまたはそれ以上のモジュール、サブプログラム、またはコードの一定部分を格納したファイル）の一部に格納されることができる。コンピュータプログラムは、一つのコンピュータまたは一つのサイトまたは全体に分散された多数のサイトに位置して通信ネットワークにより互いに連結された多数のコンピュータで実行されるために配布されることができる。
【０１２７】
本明細書で説明されたプロセス及び論理流れは、入力データを演算し、出力を生成することによって、機能を行う一つまたはそれ以上のコンピュータプログラムを実行させる一つまたはそれ以上のプログラム可能なプロセッサにより行われることができる。例えば、ＦＰＧＡ（field programmable gate array）またはＡＳＩＣ（application specific integrated circuit）のような特別な目的の論理回路によりこのプロセス及び論理流れが行われることができ、装置も実装されることができる。
【０１２８】
例えば、コンピュータプログラムの実行に適合したプロセッサは、一般的で且つ特別な目的のマイクロプロセッサ、デジタルコンピューターのいずれかの一つまたはそれ以上のプロセッサを含む。一般的に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から命令及びデータを受信する。コンピュータの必須な要素は、演算を行うためのプロセッサ及び命令とデータを記憶するための一つまたはそれ以上のメモリ装置である。一般的に、コンピュータは、例えば、磁気（magnetic）、光磁気（magneto-optical）ディスク、または光学ディスクのような一つあるいはそれ以上の大容量のデータ記憶装置を含む、その記憶装置からデータを受信する、その記憶装置にデータを送る、または、それら全てと機能的に関連する。しかし、コンピュータがそのような装置を有する必要はない。コンピュータプログラム命令及びデータを保存するのに適合するコンピュータ読み取り可能媒体は、あらゆる形態の不揮発性メモリ、メディア及びメモリ装置を含む。例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭのような半導体メモリ装置、フラッシュメモリ装置、内蔵ハードディスクまたはリムーバブルディスク（removable disks）のような磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ及びＤＶＤ−ＲＯＭディスクなどが含まれる。プロセッサ及びメモリは特別な目的の論理回路により補充されたりその中に含まれることができる。
【０１２９】
ユーザとの相互作用を提供するために、本明細書に開示された発明は、ユーザに情報を表示するためのＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタのようなディスプレイ装置及びユーザがコンピュータに入力を提供できるマウスまたはトラックボールのようなポインティング装置及びキーボードを有するコンピュータで実現されることができる。他の種類の装置もユーザとの相互作用のために提供されることができる。例えば、ユーザに提供されるフィードバックはいずれの形態の感覚フィードバックであっても良い。例えば、視覚フィードバック、聴覚フィードバックまたは触覚フィードバックなどがある。そして、ユーザからの入力は音響、音声または触覚入力を含め、いかなる形態で受けることもできる。
【０１３０】
本明細書に開示された実施例は、コンピュータシステムで実現されることができるが、このコンピュータシステムは、データサーバのようなバックアンド（back-end）コンポーネントを含む、アプリケーションサーバのようなミドルウェアコンポーネントを含む、グラフィックユーザインタフェースまたはユーザがこれを通じて本明細書で説明した実施例と相互作用できるウェブブラウザーを有するクライアントコンピュータのようなフロントアンド（front-end）コンポーネントを含む、または、一つまたはそれ以上のこのようなバックアンド、ミドルウェア、またはフロントアンドコンポーネントの組合せを含むことができる。システムのコンポーネントは、例えば、コミュニケーションネットワークのようなデジタルデータ通信のある類型や媒体で互いに連結されることができる。通信ネットワークの例には、ローカル領域ネックワーク（「ＬＡＮ「）及び広域ネットワーク（「ＷＡＮ「）、例えばインターネットを含む。
【０１３１】
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般的に互いに離れており、普通、コミュニケーションネットワークを通じて相互作用する。クライアントとサーバとの関係は各コンピュータで行われ、互いにクライアント−サーバ関係を有するコンピュータプログラムによって発生する。
VIII．リミックス技術を用いたシステムの例
【０１３２】
図１３は、空間オーディオオブジェクト（ＳＡＯＣ）デコーディング及びリミックスデコーディングを結合したデコーディングシステム１３００の一実施例を表す。ＳＡＯＣは、マルチ−チャネルオーディオを扱うオーディオ技術で、エンコーディングされたサウンドオブジェクトの相互操作（interactive manipulation）を可能にする。
【０１３３】
一部の実施例では、システム１３００は、ミックス信号デコーダ１３０１、パラメータ生成部１３０２及びリミックスレンダラ１３０４を含む。パラメータ生成部１３０２は、ブラインド推定部１３０８、ユーザ−ミックスパラメータ生成部１３１０及びリミックスパラメータ生成部１３０６を含む。リミックスパラメータ生成部１３０６は、イコライザ（ｅｑ）−ミックスパラメータ生成部１３１２及びアップ（ｕｐ）−ミックスパラメータ生成部１３１４を含む。
【０１３４】
一部の実施例では、システム１３００は、２つのオーディオプロセスを提供する。第１のプロセスでは、エンコーディングシステムから提供された付加情報を、リミックスパラメータ生成部１３０６でリミックスパラメータを生成するのに用いる。第２のプロセスでは、ブラインドパラメータをブラインド推定部１３０８で生成し、リミックスパラメータ生成部１３０６でリミックスパラメータを生成するのに用いる。図８Ａ及び８Ｂを参照して説明したように、ブラインドパラメータと完全あるいは部分的なブラインド生成プロセスは、ブラインド推定部１３０８で行うことができる。
【０１３５】
一部の実施例では、リミックスパラメータ生成部１３０６は、付加情報またはブラインドパラメータ、そしてユーザ−ミックスパラメータ生成部１３１０からのユーザミックスパラメータの集合を受信する。ユーザ−ミックスパラメータ生成部１３１０は、エンドユーザが特定のミックスパラメータ（例えば、ＧＡＩＮ、ＰＡＮ）を受信し、それらのミックスパラメータをリミックスパラメータ生成部１３０６によってリミックスプロセシングに適合したフォーマット（format）に変換する（例えば、ゲインｃ_i、ｄ_i+1への変更）。一部の実施例では、図１２を参照して説明したように、ユーザ−ミックスパラメータ生成部１３１０は、ユーザが所望のミックスパラメータを特定できるようにするために、例えば、メディアプレーヤユーザインタフェース１２００のようなユーザインタフェースを提供する。
【０１３６】
一部の実施例では、リミックスパラメータ生成部１３０６は、ステレオとマルチ−チャネルオーディオ信号の両方をプロセスできる。例えば、イコライザ（ｅｑ）−ミックスパラメータ生成部１３１２は、ステレオチャネルターゲットのためのリミックスパラメータを生成でき、アップ（up）−ミックスパラメータ生成部１３１４は、マルチ−チャネルターゲットのためのリミックスパラメータを生成できる。マルチ−チャネルオーディオ信号に基づくリミックスパラメータ生成は、セクションIVで説明した。
【０１３７】
一部の実施例では、リミックスレンダラ１３０４は、ステレオターゲット信号またはマルチ−チャネルターゲット信号のためのリミックスパラメータを受信する。イコライザ（ｅｑ）−ミックスレンダラ１３１６は、ステレオリミックスパラメータを、ミックス信号デコーダ１３０１から直接受信した原ステレオ信号に適用して、ユーザ−ミックスパラメータ生成部１３１０から提供された定形化したユーザ指定ステレオミックスパラメータに基づいて、所望のリミックスされたステレオ信号を提供する。一部の実施例では、ステレオリミックスパラメータを、ステレオリミックスパラメータのｎ×ｎ行列（例えば、２×２行列）を用いる原ステレオ信号に適用することができる。アップ（up）−ミックスレンダラ１３１８は、マルチ−チャネルリミックスパラメータを、ミックス信号デコーダ１３０１から直接受信した原マルチ−チャネル信号に適用することによって、ユーザ−ミックスパラメータ生成部１３１０から提供された定形化したユーザ指定マルチ−チャネルミックスパラメータに基づいて、所望のリミックスされたマルチ−チャネル信号を提供する。一部の実施例では、エフェクト生成部１３２０は、イコライザ（eq）−ミックスレンダラ１３１６またはアップ（up）−ミックスレンダラのそれぞれにより原ステレオまたはマルチ−チャネル信号に適用される、エフェクト信号（例えば、反響音（reverb））を生成する。一部の実施例では、アップ（up）−ミックスレンダラ１３１９は、原ステレオ信号を受信し、リミックスされたマルチ−チャネル信号を生成するためにリミックスパラメータを適用する他にも、ステレオ信号をマルチ−チャネル信号に変換する（または、アップ（up）−ミックスする。）。
【０１３８】
システム１３００は、そのようなオーディオコーディング方式に下位互換性（backwards compatibility）を維持すると同時に、存在するオーディオコーディング方式（例えば、ＳＡＯＣ、ＭＰＥＧＡＡＣ、パラメトリックステレオ（parametric stereo））に統合することを許容し、様々なチャネル環境設定（configurations）を有するオーディオ信号を処理できる。
【０１３９】
図１４Ａは、分離されたダイアログボリューム（SDV: Separate Dialogue Volume）のための一般的なミキシングモデルを示す図である。ＳＤＶは、米国仮出願番号第６０／８８４,５９４号、「分離されたダイアログボリューム（Separate Dialogue Volume）「に記述された改善されたダイアログエンハンスメント（enhancements）技術である。ＳＤＶの一実施例では、ステレオ信号は記録されミックスされて、各ソースに対する信号が一貫して左側及び右側信号チャネルに特定の方向キュー（例えば、レベル差、時間差）をもって進行する。反射された／反響された独立信号は、聴覚イベント幅及び聴取者環境キューを定めるチャネルに進行する。図１４Ａを参照すると、ｓは直接音であり、ｎ₁とｎ₂は側面の反射であり、ａ因子は、聴覚イベントが発生した場合に方向を定める。この信号ｓは、a因子により定められた方向からローカライズされた音を摸倣する。独立した信号ｎ₁とｎ₂は、反射された／反響された音に対応し、たびたび周辺音響や雰囲気（ambience）を表す。説明されたシナリオは、一つのオーディオソースを有するステレオ信号に対してオーディオソース及びアンビエンス（ambience）の定位（localization）を獲得しながら知覚的に動機付けられた分解である。
【数５６】

【０１４０】
図１４Ｂは、ＳＤＶをリミックス技術と結合したシステム１４００の一実施例を示す図である。一部の実施例では、システム１４００は、フィルタバンク１４０２（例えば、ＳＴＦＴ）、ブラインド推定部１４０４、イコライザ（ｅｑ）−ミックスレンダラ１４０６、パラメータ生成部１４０８及び逆フィルタバンク１４１０（例えば、逆ＳＴＦＴ）を含む。
【０１４１】
一部の実施例では、ＳＤＶダウンミックス信号は受信されて、フィルタバンク１４０２によりサブバンド信号に分解される。ダウンミックス信号は、式（５１）で与えられたステレオ信号ｘ₁、ｘ₂でありうる。サブバンド信号Ｘ₁(ｉ,ｋ)、Ｘ₂(ｉ,ｋ)は、イコライザ（ｅｑ）−ミックスレンダラ１４０６またはブラインド推定部１４０４への直接的な入力であり、ブラインドパラメータであるＡ、ＰＳ、ＰＮを出力する。これらのパラメータの計算は、米国仮出願番号第６０／８８４,５９４号の「分離されたダイアログボリューム（Separate Dialogue Volume）「に記述されている。ブラインドパラメータは、パラメータ生成部１４０８の入力であり、これはブラインドパラメータ及びユーザ特定のミックスパラメータｇ(ｉ,ｋ)（例えば、中央ゲイン、中央幅、遮断周波数、乾燥度（dryness））からイコライザ（ｅｑ）−ミックスパラメータｗ₁₁〜ｗ₂₂を生成する。イコライザ（ｅｑ）−ミックスパラメータの計算は、セクションＩに記述されている。イコライザ（ｅｑ）−ミックスパラメータは、イコライザ（ｅｑ）−ミックスレンダラ１４０６によりサブバンド信号に適用され、レンダリングされた出力信号ｙ₁、ｙ₂を生成する。イコライザ（ｅｑ）−ミックスレンダラ１４０６のレンダリングされた出力信号は、逆フィルタバンク１４１０の入力であり、これは、レンダリングされた出力信号をユーザ特定のミックスパラメータに基づいて所望のＳＤＶステレオ信号に変換する。
【０１４２】
一部の実施例では、図１〜図１２を参照して説明したように、システム１４００も、リミックス技術を用いてオーディオ信号を処理できる。リミックスモードでは、フィルタバンク１４０２は、式（１）及び式（２７）に記述された信号のようなステレオまたはマルチ−チャネル信号を受信する。これらの信号は、フィルタバンク１４０２によってサブ信号Ｘ₁(ｉ,ｋ)、Ｘ₂(ｉ,ｋ)に分解され、イコライザ（ｅｑ）−レンダラ１４０６及びブラインド推定部１４０４に直接入力されて、ブラインドパラメータを推定する。ブラインドパラメータは、ビットストリームで受信された付加情報ａ_i、ｂ_i、Ｐ_siと共にパラメータ生成部１４０８への入力である。パラメータ生成部１４０８は、レンダリングされた出力信号を生成するためにブラインドパラメータ及び付加情報をサブバンド信号に適用する。レンダリングされた出力信号は、逆フィルタバンク１４１０への入力であり、これは、所望のリミックス信号を生成する。
【０１４３】
図１５は、図１４Ｂに示すイコライザ（ｅｑ）−ミックスレンダラ１４０６の一実施例示す図である。本発明の一実施例で、ダウンミックス信号Ｘ１は、スケールモジュール１５０２及び１５０４）によりスケーリングされ、ダウンミックス信号Ｘ２はスケールモジュール（１５０６及び１５０８でスケーリングされる。スケールモジュール１５０２はダウンミックス信号Ｘ１をイコライザ（ｅｑ）−ミックスパラメータｗ１１でスケーリングし、スケールモジュール１５０４はダウンミックス信号Ｘ１をイコライザ（ｅｑ）−ミックスパラメータｗ₂₁でスケーリングし、スケールモジュール１５０６はダウンミックス信号Ｘ２をイコライザ（ｅｑ）−ミックスパラメータｗ１２でスケーリングし、スケールモジュール１５０８はダウンミックス信号Ｘ２をイコライザ（ｅｑ）−ミックスパラメータｗ₂₂でスケーリングする。スケールモジュール１５０２及び１５０６の出力は合算されて、第１レンダリングされた出力信号であるｙ₁を提供し、スケールモジュール１５０４及び１５０８の出力は合算されて、第２レンダリングされた出力信号であるｙ₂を提供する。
【０１４４】
図１６は、図１〜図１５を参照して説明されたリミックス技術のための分散システム１６００を示す図である。一部の実施例では、図１を参照して説明したように、コンデンツプロバイダ１６０２は、付加情報を生成するために、リミックスエンコーダ１６０６を含む許可ツール（authoring tool）１６０４を用いる。付加情報は、一つのビットストリミングサービスのための一つまたはそれ以上のファイルの一部となり及び／または一つのビットストリームに含まれることができる。リミックスファイルは、固有のファイル拡張子を有することができる（例えば、filename.rmx）。一つのファイルは、原ミックスされたオーディオ信号及び付加情報を含むことができる。選択的に、原ミックスされたオーディオ信号及び付加情報は、パケット、バンドル、パッケージまたは他の適当なコンテナの別個ファイルとして分散されることができる。一部の実施例では、リミックスファイルは、ユーザが技術を学ぶように支援し及び／またはマーケティングの目的でプリセットミックスパラメータとともに分散されることができる。
【０１４５】
一部の実施例では、原コンデンツ（例えば、原ミックスされたオーディオファイル）、付加情報及び選択的なプリセットミックスパラメータ（「リミックス情報「）は、サービスプロバイダ１６０８（例えば、ミュージックポータル）に提供されたり物理的媒体（例えば、ＣＤ−ＲＯＭ、ＤＶＤ、メディアプレーヤ、フラッシュドライブ）に位置することができる。サービスプロバイダ１６０８は、リミックス情報及び／またはリミックス情報の全部分を含むビットストリームの全部または一部を提供するために、一つまたはそれ以上のサーバ１６１０を提供することができる。リミックス情報は、レポジトリ１６１２に保管することができる。サービスプロバイダ１６０８はさらに、ユーザの作ったミックスパラメータを共有するための仮想の環境（例えば、ソーシャルコミュニティ、ポータル、掲示板）を提供することができる。例えば、リミックス−レディ装置（例えば、メディアプレーヤ、モバイルフォン）１６１６でユーザが生成したミックスパラメータは、他のユーザと共有するためにサービスプロバイダ１６０８にアップロードできるミックスパラメータファイルに保存することができる。ミックスパラメータファイルは、固有の拡張子（例えば、filename.rmx）を有することができる。例示したように、ユーザは、リミックスプレーヤＡを用いてミックスパラメータファイルを生成し、ミックスパラメータファイルをサービスプロバイダ１６０８にアップロードする。ファイルは後にリミックスプレーヤＢを操作するユーザによってダウンロードされる。
【０１４６】
システム１６００は、原コンデンツとリミックス情報を保護するために任意の知られたデジタル権利管理方式及び／または知られた他の保安方法を用いて実現されることができる。例えば、ユーザがリミックスプレーヤＢにより提供されたリミックス特性に接近したりそれを用いる前に、リミックスプレーヤＢを操作するユーザは、原コンテンツを別途にダウンロードし、ライセンスを保護する必要がありうる。
【０１４７】
図１７Ａは、リミックス情報を提供するためのビットストリームの基本要素を示す図である。一部の実施例では、単数の、統合された（integrated）ビットストリーム１７０２を、ミックスされたオーディオ信号（Mixed_Obj BS）、ゲインファクタ、サブバンドパワー（Ref_Mix_Para BS）及びユーザ特定のミックスパラメータ（User_Mix_Para BS）を含むリミックス可能な（remix-enabled）装置に伝送することができる。一部の実施例では、リミックス情報に対する多数のビットストリームを、リミックス可能な装置に独立して伝送することもできる。例えば、ミックスされたオーディオ信号は、第１ビットストリーム１７０４で伝送することができ、ゲインファクタ、サブバンドパワー及びユーザ特定のミックスパラメータは、第２ビットストリーム１７０６で伝送することができる。一部の実施例では、ミックスされたオーディオ信号、ゲインファクタ、サブバンドパワー及びユーザ特定のミックスパラメータは、３つの異なるビットストリーム１７０７、１７１０及び１７１２で伝送することができる。これらのそれぞれ異なるビットストリームは、同一または異なるビット率で伝送されることができる。これらのビットストリームは、帯域幅（bandwith）を保存し且つロバスト性（robustness）を保障するために、ビット挿入（bit interleaving）、エントロピーコーディング（例えば、ハフマンコーディング）、エラー修正などを含む様々に知られた技術を必要に応じて用いて処理されることができる。
【０１４８】
図１７Ｂは、リミックスエンコーダ１７１４のビットストリームインタフェースを示す図である。一部の実施例では、リミックスエンコーダインタフェース１７１４の入力は、ミックスされたオブジェクト信号、それぞれのオブジェクトまたはソース信号及びエンコーダオプションを含むことができる。エンコーダインタフェース１７１４の出力は、ミックスされたオーディオ信号ビットストリーム、ゲインファクタとサブバンドパワーを含むビットストリーム、及びプリセット（preset）ミックスパラメータを含むビットストリームを含むことができる。
【０１４９】
図１７Ｃは、リミックスデコーダ１７１６のインタフェースを示す図である。一部の実施例では、リミックスデコーダインタフェース１７１６の入力は、ミックスされたオーディオ信号ビットストリーム、ゲインファクタとサブバンドパワーを含むビットストリーム、及びプリセットミックスパラメータを含むビットストリームを含むことができる。デコーダインタフェース１７１６の出力は、リミックスされたオーディオ信号、アップミックスレンダラビットストリーム（例えば、マルチャネル信号）、ブラインドリミックスパラメータ及びユーザリミックスパラメータを含むことができる。
【０１５０】
エンコーダ及びデコーダのインタフェースの他の環境設定も可能である。図１７Ｂ及び図１７Ｃに示すインタフェース環境設定は、リミックス可能な装置にリミックス情報処理を許容するアプリケーションプログラミングインタフェース（ＡＰＩ）を定義するために用いることができる。図１７Ｂ及び図１７Ｃに示すインタフェースは例示的なもので、装置の部分に基づくことのできる入力及び出力の他の数字及び種類に対する環境設定を含む他の環境設定も可能である。
【０１５１】
図１８は、向上したリミックス信号の向上した知覚された品質を提供するために、あるオブジェクト信号のための追加的な付加情報を生成する拡張を含むシステム１８００の一実施例を示すブロック図である。本発明の一実施例で、システム１８００は、（エンコーディング側で）リミックスエンコーダ１８０４及び信号エンコーダ１８０６を含むエンハンスドリミックスエンコーダ１８０２、及びミックス信号エンコーダ１８０８を含む。本発明の一実施例で、システム１８００は、（デコーディング側で）ミックス信号デコーダ１８１０、リミックスレンダラ１８１４及びパラメータ生成部１８１６を含む。
【０１５２】
エンコーダ側で、ミックスされたオーディオ信号は、ミックス信号エンコーダ１８０８（例えば、ｍｐ３エンコーダ）によりエンコーディングされ、デコーディング側に送られる。オブジェクト信号（例えば、リードボーカル、ギター、ドラムまたは他の楽器）は、リミックスエンコーダ１８０４の入力であり、例えば、図１Ａ及び図３Ａを参照して説明したように、付加情報（例えば、ゲインファクタ及びサブバンドパワー）を生成する。追加的に、インタレスト（interest）の一つまたはそれ以上のオブジェクト信号は、追加的な付加情報を生成するための信号エンコーダ１８０６（例えば、ｍｐ３エンコーダ）の入力である。一部の実施例では、整列（aligning）情報は、ミックス信号エンコーダ１８０８及び信号エンコーダ１８０６の出力信号をそれぞれ整列するための信号エンコーダ１８０６の入力である。整列情報は、時間整列情報、使用されたコーデックス（codex）の種類、ターゲットビット率、ビット−割当情報またはストラテジー（strategy）などを含むことができる。
【０１５３】
デコーダ側では、ミックス信号エンコーダの出力は、ミックス信号デコーダ１８１０（例えば、ｍｐ３デコーダ）の入力である。ミックス信号デコーダ１８１０の出力及びエンコーダ付加情報（例えば、エンコーダが生成したゲインファクタ、サブバンドパワー及び追加的な付加情報）は、パラメータ生成部１８１６の入力であり、これは、これらのパラメータをコントロールパラメータ（例えば、ユーザ特定のミックスパラメータ）と共に用いてリミックスパラメータ及び追加的なリミックスデータを生成する。リミックスパラメータ及び追加的なリミックスデータは、リミックスレンダラ１８１４によりリミックスされたオーディオ信号をレンダリングするために用いることができる。
【０１５４】
追加的なリミックスデータ（例えば、オブジェクト信号）は、リミックスレンダラ１８１４により原ミックスオーディオ信号内の特定オブジェクトをリミックスするために用いられる。例えば、カラオケアプリケーションで、リードボーカルを表現する原信号は、エンハンスドリミックスエンコーダ１８０２により追加的な付加情報（例えば、エンコーディングされたオブジェクト信号）を生成するために用いることができる。この信号は、パラメータ生成部１８１６により追加的なリミックスデータを生成するために用いることができ、これは、リミックスレンダラ１８１４により原ミックスオーディオ信号内のリードボーカルをリミックス（例えば、リードボーカルを抑制したり（suppressing）減衰化（attenuating）すること）するために用いることができる。
【０１５５】
図１９は、図１８に示すリミックスレンダラ１８１４の一実施例を示すブロック図である。一部の実施例では、ダウンミックス信号Ｘ１及びＸ２はそれぞれ、結合部１９０４及び１９０６の入力である。例えば、ダウンミックス信号Ｘ１及びＸ２は、原ミックスオーディオ信号の左側または右側チャネルになりうる。結合部１９０４及び１９０６は、ダウンミックス信号Ｘ１及びＸ２を、パラメータ生成部１８１６が提供した追加的なリミックスデータと結合する。カラオケの例で、結合（combining）は、リミックスされたオーディオ信号のリードボーカルを抑制したり（suppressing）減衰（attenuating）するようにリミックスする前に、ダウンミックス信号Ｘ１及びＸ２からリードボーカルオブジェクトを除外することを含むことができる。
【０１５６】
本発明の一実施例で、ダウンミックス信号Ｘ１（例えば、原ミックスオーディオ信号の左側チャネル）は、追加的なリミックスデータ（例えば、リードボーカルオブジェクト信号の左側チャネル）と結合され、スケールモジュール１９０６ａ及び１９０６ｂによってスケーリングされる。ダウンミックス信号Ｘ２（例えば、原ミックスオーディオ信号の右側チャネル）は、追加的なリミックスデータ（例えば、リードボーカルオブジェクト信号の右側チャネル）と結合され、スケールモジュール１９０６ｃ及び１９０６ｄによってスケーリングされる。スケールモジュール１９０６ａは、イコライザ（ｅｑ）−ミックスパラメータｗ₁₁によってダウンミックス信号Ｘ１をスケーリングし、スケールモジュール１９０６ｂは、イコライザ（ｅｑ）−ミックスパラメータｗ₂₁によってダウンミックス信号Ｘ１をスケーリングし、スケールモジュール１９０６ｃは、イコライザ（ｅｑ）−ミックスパラメータｗ₁₂によってダウンミックス信号Ｘ２をスケーリングし、スケールモジュール１９０６ｄは、イコライザ（ｅｑ）−ミックスパラメータｗ₂₂によってダウンミックス信号Ｘ２をスケーリングする。スケーリングは、ｎｂｙｎ（例えば、２ｘ２）行列を用いることのように、線形代数を用いて具現されることができる。スケールモジュール１９０６ａ及び１９０６ｃの出力は、第１レンダリングされた出力信号Ｙ２を提供するために合算され、スケールモジュール１９０６ｂ及び１９０６ｄの出力は、第２レンダリングされた出力信号Ｙ２を提供するために合算される。
【０１５７】
一部の実施例では、原ステレオミックスと「カラオケ「モード及び／または「アカペラ「モード間の移動のためにユーザインタフェースのコントロール（例えば、スイッチ、スライダ、ボタン）を実現できる。このコントロール位置の関数として、結合部１９０２は、原ステレオ信号及び追加的な付加情報により獲得された信号間の線形組合せを調節する。例えば、カラオケモードで、追加的な付加情報から得られた信号はステレオ信号から除外することができる。（ステレオ及び／または他の信号が損失的にコーディングされた場合）リミックスプロセシングは後に量子化ノイズを除去するために適用されることができる。ボーカルを部分的に除去するためには、追加的な付加情報から得られた信号の部分のみを除去しなければならない。ボーカルのみをプレイするために、結合部１９０２は、追加的な付加情報から得られた信号を選択する。若干の背景音楽と共にボーカルを再生するために、結合部１９０２は、追加的な付加情報から得られた信号にステレオ信号のスケーリングされたバージョンを加える。
【０１５８】
本明細書では多数のものを特定しているが、これらは、請求したり請求される範囲に対する限定を構成するものではなく、むしろ特定の実施例に対する特別な説明として解釈されなければならない。本明細書の別途の実施施の脈絡で説明されたいかなる特徴も、一つの実施例に結合して実現することができる。一方、一つの実施施の様々な特徴は、同じ脈絡で多数の実施例としてそれぞれまたはある適切なサブコンビネーションとして実現することができる。なお、それらの特徴が特定コンビネーションで動作するものとして記載されたり、最初からそのように請求されたとしても、請求されたコンビネーションからの一つあるいはそれ以上の特徴は、場合によってはコンビネーションから削除することができ、請求されたコンビネーションは、サブコンビネーションやサブコンビネーションの変形にすることができる。
【０１５９】
同様に、動作が図面で特定の順序で図示されていても、これは、開示された特定順序あるいは順番で行なわれることを要求するものとして解釈されてはならず、また、所望の結果を得るために動作全体が行われるものとして解釈してもならない。ある特定の環境の下では、マルチタスキング及び併行プロセシングが有利になることもある。なお、以上述べられた全ての実施例の様々なシステムコンポーネントの分離は、全ての実施例でそのような分離が要求されるものとして解釈してはならず、記述されたプログラムコンポーネント及びシステムは、一般的に、一つのソフトウェア商品に統合されたりまたは多数のソフトウェア商品にパッケージされうると理解すべきである。
【０１６０】
本明細書では本発明の特定の実施例が記述された。その他の実施例は、添付の請求項の範囲に含まれる。例えば、請求項に述べられた行為は、他の順序で実行されても同様の所望の結果が得られる。一例として、添付の図面に示すプロセスは、所望の結果を得るために特定順序または順次的な順序を必ずしも必要とするわけではない。
【０１６１】
他の例として、セクション５Ａに記述された付加情報の前処理は、式（２）に与えられた信号モデルと矛盾する負の値を防止するために、リミックスされた信号のサブバンドパワーに下限を提供する。しかし、この信号モデルは、リミックスされた信号の量のパワーを意味するだけでなく、原ステレオ信号とリミックスされたステレオ信号間の正のクロスプロダクト（cross−products）、すなわち、Ｅ｛ｘ₁ｙ₁｝、Ｅ｛ｘ₁ｙ₂｝、Ｅ｛ｘ₂ｙ₁｝及びＥ｛ｘ₂ｙ₂｝を暗示する。
【０１６２】
二つの重み値の場合から、クロスプロダクトＥ｛ｘ₁ｙ₁｝及びＥ｛ｘ₂ｙ₂｝が負の値を有することを防止するために、式（１８）に定義されている重み値は特定臨界値に制限されるため、それらの重み値は絶対にＡｄＢよりも小さくなることがない。
【０１６３】
そのとき、クロスプロダクトは次の条件を考慮して制限される。ここで、ｓｑｒｔは平方根を表し、Ｑは、Ｑ＝１０＾−Ａ／１０Ｑと定義される。
・Ｅ｛ｘ₁ｙ₁｝＜Ｑ＊Ｅ｛ｘ₁²｝であれば、クロスプロダクトは、Ｅ｛ｘ₁ｙ₁｝＝Ｑ＊Ｅ｛ｘ₁²｝に制限される。
・Ｅ｛ｘ₁,ｙ₂｝＜Ｑ＊ｓｑｒｔ(Ｅ｛ｘ₁²｝Ｅ｛ｘ₂²｝)であれば、クロスプロダクトは、Ｅ｛ｘ₁ｙ₂｝＝Ｑ＊ｓｑｒｔ(Ｅ｛ｘ₁²｝Ｅ｛ｘ₂²｝)に制限される。
・Ｅ｛ｘ₂,ｙ₁｝＜Ｑ＊ｓｑｒｔ(Ｅ｛ｘ₁²｝Ｅ｛ｘ₂²｝）であれば、クロスプロダクトはＥ｛ｘ₂ｙ₁｝＝Ｑ＊ｓｑｒｔ(Ｅ｛ｘ₁²｝Ｅ｛ｘ₂²｝）に制限される。
・Ｅ｛ｘ₂ｙ₂｝<Ｑ＊Ｅ｛ｘ₂²｝であれば、クロスプロダクトはＥ｛ｘ₂ｙ₂｝＝Ｑ＊Ｅ｛ｘ₂²｝に制限される。

【特許請求の範囲】
【請求項１】
オブジェクトの集合を有する第１複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第１複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
ミックスパラメータ集合を獲得する段階と、
減衰ファクタを獲得する段階と、
前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いて第２複数−チャネルオーディオ信号を生成する段階と、
を含むことを特徴とする、コンピュータ実装方法。
【請求項２】
前記ミックスパラメータ集合を獲得する段階において、前記ミックスパラメータ集合を特定するユーザ入力を受信する段階をさらに含むことを特徴とする、請求項１に記載のコンピュータ実装方法。
【請求項３】
前記第２複数−チャネルオーディオ信号を生成する段階は、
前記第１複数−チャネルオーディオ信号を第１サブバンド信号集合に分割する段階と、
前記付加情報及び前記ミックスパラメータ集合を用いて、前記第２複数−チャネルオーディオ信号に対応する第２サブバンド信号集合を推定する段階と、
前記第２サブバンド信号集合を前記第２複数−チャネルオーディオ信号に変換する段階と、
を含むことを特徴とする、請求項１に記載のコンピュータ実装方法。
【請求項４】
前記第２サブバンド信号集合を推定する段階は、
リミックスされるオブジェクトと関連した、ゲインファクタ及びサブバンドパワー推定値を提供するために付加情報をデコーディングする段階と、
前記ゲインファクタ、前記サブバンドパワー推定値及び前記ミックスパラメータ集合に基づいて一つまたはそれ以上の重み値集合を決定する段階と、
少なくとも一つの重み値集合を用いて前記第２サブバンド信号集合を推定する段階と、
をさらに含むことを特徴とする、請求項３に記載のコンピュータ実装方法。
【請求項５】
前記一つまたはそれ以上の重み値集合を決定する段階は、
第１重み値集合の大きさを決定する段階と、
第２重み値集合の大きさを決定する段階と、
をさらに含み、
前記第２重み値集合は、前記第１重み値集合と異なる個数の重み値を含むことを特徴とする、請求項４に記載のコンピュータ実装方法。
【請求項６】
前記第１及び第２重み値集合の大きさを比較する段階と、
前記比較結果に基づいて前記第２サブバンド信号の集合を推定するために前記第１及び第２重み値集合のうちいずれか一つを選択する段階をさらに含むことを特徴とする、請求項５に記載のコンピュータ実装方法。
【請求項７】
前記一つまたはそれ以上の重み値集合を決定する段階は、
第１複数−チャネルオーディオ信号及び第２複数−チャネルオーディオ信号間の差を最小化する重み値集合を決定する段階をさらに含むことを特徴とする、請求項４に記載のコンピュータ実装方法。
【請求項８】
前記一つまたはそれ以上の重み値集合を決定する段階は、
線形方程式システムを構成する段階と、
前記線形方程式システムを分析することによって重み値を決定する段階と、
をさらに含み、
前記システムの各方程式は積の和であり、各前記積は、重み値とサブバンド信号との積で構成されたことを特徴とする、請求項４に記載のコンピュータ実装方法。
【請求項９】
前記線形方程式システムは、最小２乗推定を用いて分析することを特徴とする、請求項８に記載のコンピュータ実装方法。
【請求項１０】
前記線形方程式システムの解は、
【数１】

で与えられる第１重み値ｗ₁₁を提供し、前記Ｅ｛.｝は、短期平均、ｘ₁及びｘ₂は前記第１複数−チャネルオーディオ信号のチャネル、ｙ₁は前記第２複数−チャネルオーディオ信号のチャネルであることを特徴とする、請求項９に記載のコンピュータ実装方法。
【請求項１１】
前記線形方程式システムの解は、
【数２】

で与えられる第２重み値ｗ₂₂を提供し、前記Ｅ｛.｝は短期平均、ｘ₁及びｘ₂は前記第１複数−チャネルオーディオ信号チャネル、ｙ₁は前記第２複数−チャネルオーディオ信号チャネルであることを特徴とする、請求項９に記載のコンピュータ実装方法。
【請求項１２】
前記Ｅ｛ｘ₂ｙ₂｝及び前記Ｅ｛ｘ₁ｙ₁｝は、
【数３】

であり、前記Ｋは非ボーカルソース減衰のための減衰ファクタ、前記ａ_i及びｂ_iはゲインファクタであることを特徴とする、請求項１０または１１に記載のコンピュータ実装方法。
【請求項１３】
Ｋ＝１０^-A/10であり、非ボーカルソースはＡｄＢで減衰されることを特徴とする、請求項１２に記載のコンピュータ実装方法。
【請求項１４】
第２複数−チャネルオーディオ信号は、
【数４】

のように与えられることを特徴とする、請求項１２に記載のコンピュータ実装方法。
【請求項１５】
付加情報を受信し、前記付加情報からリミックスパラメータを獲得するデコーダと、
ミックスパラメータの集合及び減衰ファクタを獲得するインタフェースと、
前記デコーダ及び前記インタフェースに連結されたリミックスモジュールと、
を含み、
前記付加情報の少なくとも一部は、前記第１複数−チャネルオーディオ信号及び前記第１複数−チャネルオーディオ信号を生成するのに用いられる一つまたはそれ以上のソース信号間の関係を表現し、
前記リミックスモジュールは、非ボーカルソースの減衰された第２複数−チャネルオーディオ信号を生成するために前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いてソース信号をリミックスすることを特徴とする、装置。
【請求項１６】
少なくとも一つの前記ミックスパラメータ集合は、前記インタフェースを通じてユーザにより特定されることを特徴とする、請求項１５に記載の装置。
【請求項１７】
前記第１複数−チャネルオーディオ信号を第１サブバンド信号集合に分割する少なくとも一つのフィルタバンクをさらに含むことを特徴とする、請求項１５に記載の装置。
【請求項１８】
前記リミックスモジュールは、前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いて前記第２複数−チャネルオーディオ信号に対応する第２サブバンド信号集合を推定し、前記第２サブバンド信号集合を前記第２複数−チャネルオーディオ信号に変換することを特徴とする、請求項１７に記載の装置。
【請求項１９】
前記デコーダは、前記リミックスされるソース信号と関連したゲインファクタ及びサブバンドパワー推定値を提供する前記付加情報をデコーディングし、前記リミックスモジュールは、前記ゲインファクタ、サブバンドパワー推定値、減衰ファクタ及びミックスパラメータの集合に基づいて一つまたはそれ以上の重み値集合を決定し、少なくとも一つの重み値集合を用いて前記第２サブバンド信号集合を推定することを特徴とする、請求項１８に記載の装置。
【請求項２０】
前記リミックスモジュールは、前記第１複数−チャネルオーディオ信号及び前記第２複数−チャネルオーディオ信号間の差を最小化する重み値の集合を決定することによって一つまたはそれ以上の重み値集合を決定すること特徴とする、請求項１９に記載の装置。
【請求項２１】
前記リミックスモジュールは、線形方程式システムを分析することによって一つまたはそれ以上の重み値集合を決定し、前記システムの各方程式は積の和であり、各前記積は、重み値とサブバンド信号との積で構成されたことを特徴とする、請求項１９に記載の装置。
【請求項２２】
前記線形方程式システムは、最小２乗推定を用いて分析することを特徴とする、請求項２１に記載の装置。
【請求項２３】
前記線形方程式システムの解は、
【数５】

で与えられる第１重み値ｗ₁₁を提供し、前記Ｅ｛.｝は短期平均、ｘ₁及びｘ₂は前記第１複数−チャネルオーディオ信号のチャネル、ｙ₁は前記第２複数−チャネルオーディオ信号のチャネルであることを特徴とする、請求項２２に記載の装置。
【請求項２４】
前記線形方程式システムの解は、
【数６】

で与えられる第２重み値ｗ₂₂を提供し、前記Ｅ｛.｝は短期平均、ｘ₁及びｘ²は前記第１複数−チャネルオーディオ信号チャネル、ｙ₁は前記第２複数−チャネルオーディオ信号チャネルであることを特徴とする、請求項２２に記載の装置。
【請求項２５】
前記Ｅ｛ｘ₂ｙ₂｝及び前記Ｅ｛ｘ₁ｙ₁｝は、
【数７】

であり、前記Ｋは非ボーカルソース減衰のための減衰ファクタ、前記ａ_i及びｂ_iはゲインファクタであることを特徴とする、請求項２３または２４に記載のコンピュータ実装方法。
【請求項２６】
前記Ｋ＝１０^-A/10であり、非ボーカルソースはＡｄｂで減衰されることを特徴とする、請求項２５に記載のコンピュータ実装方法。
【請求項２７】
前記第２複数−チャネルオーディオ信号は、
【数８】

で与えられることを特徴とする、請求項２５に記載のコンピュータ実装方法。
【請求項２８】
オブジェクトの集合を有する第１複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第１複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
ミックスパラメータ集合を獲得する段階と、
減衰ファクタを獲得する段階と、
前記付加情報、前記減衰ファクタ及び前記ミックスパラメータ集合を用いて第２複数−チャネルオーディオ信号を生成する段階と、を含む動作を、プロセッサにより実行する時、前記プロセッサが行うようにする命令が記憶されている、コンピュータ読取り可能記憶媒体。
【請求項２９】
オブジェクトの集合を有する第１複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第１複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
グラフィックユーザインタフェースを通じてゲインパラメータｇ_kまたはパニングパラメータｐ_kを獲得する段階と、
ゲイン調節因子Ｇ_adjustまたはパニング調節因子Ｐ_adjustを獲得する段階と、
スケールされたゲインパラメータまたはスケールされたパニングパラメータを得るために、前記ゲインパラメータｇ_kまたは前記パニングパラメータｐ_kをそれぞれ前記ゲイン調節ファクタＧ_adjustまたは前記パニング調節ファクタＰ_adjustと乗算する段階と、
前記スケールされたゲインパラメータと前記スケールされたパニングパラメータのうちいずれか一つ及び前記付加情報を用いて第２複数−チャネルオーディオ信号を生成する段階と、
を含むコンピュータ実装方法。
【請求項３０】
【数９】

【請求項３１】
【数１０】

【請求項３２】
オブジェクトの集合を有する第１複数−チャネルオーディオ信号を獲得する段階と、
少なくとも一部は前記第１複数−チャネルオーディオ信号及びリミックスされるオブジェクトを表す一つまたはそれ以上のソース信号間の関係を表す、付加情報を獲得する段階と、
グラフィックユーザインタフェースを通じてゲインパラメータまたはパニングパラメータを獲得する段階と、
前記第１複数−チャネルオーディオ信号のチャネルを線形結合することによって、第２複数−チャネルオーディオ信号を生成する段階と、
を含み、
前記特定線形結合は、前記ゲインパラメータまたは前記パニングパラメータのうちいずれか一つ及び前記付加情報を用いて決定されることを特徴とする、コンピュータ実装方法。
【請求項３３】
第２複数−チャネルオーディオ信号を生成する段階は、
前記第１複数−チャネルオーディオ信号を第１サブバンド信号の集合に分割する段階と、
前記ゲインパラメータと前記パニングパラメータのうちいずれか一つ及び前記付加情報を用いて、前記第２複数−チャネルオーディオ信号と対応する第２サブバンド信号の集合を推定する段階と、
前記第２サブバンド信号の集合を前記第２複数−チャネルオーディオ信号に変換する段階と、
を含むことを特徴とする、請求項３２に記載のコンピュータ実装方法。

【図１Ａ】

【図１Ｂ】

【図２】

【図３Ａ】

【図３Ｂ】

【図４】

【図５】

【図６Ａ】

【図６Ｂ】

【図７Ａ】

【図７Ｂ】

【図８Ａ】

【図８Ｂ】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４Ａ】

【図１４Ｂ】

【図１５】

【図１６】

【図１７Ａ】

【図１７Ｂ】

【図１７Ｃ】

【図１８】

【図１９】

【公表番号】特表２０１０−５３６２９９（Ｐ２０１０−５３６２９９Ａ）
【公表日】平成２２年１１月２５日（２０１０．１１．２５）
【国際特許分類】

【出願番号】特願２０１０−５２０５６９（Ｐ２０１０−５２０５６９）
【出願日】平成２０年８月１３日（２００８．８．１３）
【国際出願番号】ＰＣＴ／ＥＰ２００８／０６０６２４
【国際公開番号】ＷＯ２００９／０２１９６６
【国際公開日】平成２１年２月１９日（２００９．２．１９）
【出願人】（５０２０３２１０５）エルジー　エレクトロニクス　インコーポレイティド (2,269)
【Ｆターム（参考）】

[ Back to top ]

リミキシング能力を有する向上したオーディオ

メニュー

スポンサーリンク

次の公報 »

« 前の公報

リミキシング能力を有する向上したオーディオ

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク