ダウンミックスを用いたオーディオコーディング

第１タイプのオーディオ信号とエンコードされた第２のタイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードするオーディオデコーダが記載される。マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号（５６）と副情報（５８）とから成り、副情報は、第１の所定の時間／周波数分解能（４２）における第１タイプのオーディオ信号と第２タイプのオーディオ信号のレベル情報（６０）と、第２の所定の時間／周波数分解能における残余レベル値を特定する残余信号（６２）とを含む。オーディオデコーダは、レベル情報（６０）に基づいて予測係数（６４）を演算する手段（５２）と、第１タイプのオーディオ信号を近似する第１のアップミックスオーディオ信号、および／または、第２タイプのオーディオ信号を近似する第２のアップミックスオーディオ信号を取得するために、予測係数（６４）と残余信号（６２）に基づいてダウンミックス信号（５６）をアップミックスする手段とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本願は、信号のダウンミックスを用いたオーディオコーディングに関する。
【背景技術】
【０００２】
多くのオーディオコーディングアルゴリズムは、１つのチャンネルのオーディオデータ、すなわちモノラルのオーディオデータを効果的にエンコードまたは圧縮するために提案されていた。音響心理学を用いて、オーディオサンプルは、適切に基準化され、量子化され、または、例えばＰＣＭコード化されたオーディオ信号から不適切なものを除去するために、零に設定されることさえある。冗長性の除去も実行される。
【０００３】
更なるステップとして、ステレオオーディオ信号の左右のチャンネル間の類似性は、ステレオオーディオ信号を効果的にエンコード／圧縮するために利用されていた。
【発明の概要】
【０００４】
しかしながら、来るべきアプリケーションは、オーディオコーディングアルゴリズムに関して更なる要求を提起する。例えば、遠隔会議、コンピュータゲーム、音楽パフォーマンス、その他において、部分的にまたはさらには完全に無相関であるいくつかのオーディオ信号は、並列に送信されなければならない。低ビットレートの伝送アプリケーションに対して互換性を持つように、これらのオーディオ信号をエンコードするのに必要なビットレートを十分に低く保つため、近年、多重の入力オーディオ信号を、ステレオまたはさらにはモノラルのダウンミックス信号のようなダウンミックス信号にダウンミックスするオーディオコーデックが提案されている。例えば、ＭＰＥＧサラウンドスタンダードは、当該スタンダードによって規定された方法で、入力チャンネルをダウンミックス信号にダウンミックスする。ダウンミックスは、２つの信号を１つにおよび３つの信号を２つに、それぞれダウンミックスするためのいわゆるＯＴＴ^-1およびＴＴＴ^-1ボックスを用いて実行される。３つを超える信号をダウンミックスするためには、これらのボックスの階層構造が用いられる。各ＯＴＴ^-1ボックスは、モノラルのダウンミックス信号の他に、２つの入力チャンネルの間のチャンネルレベル差、並びに、２つの入力チャンネルの間の干渉性または相互相関を表現するチャンネル間干渉性／相互相関パラメータを出力する。前記パラメータは、ＭＰＥＧサラウンドデータストリーム内で、ＭＰＥＧサラウンドコーダのダウンミックス信号と一緒に出力される。同様に、各ＴＴＴ^-1ボックスは、結果として生じたステレオダウンミックス信号から３つの入力チャンネルを復元することを可能にするチャンネル予測係数を送信する。チャンネル予測係数は、また、ＭＰＥＧサラウンドデータストリーム内の副情報として送信される。ＭＰＥＧサラウンドデコーダは、送信された副情報を用いてダウンミックス信号をアップミックスし、ＭＰＥＧサラウンドエンコーダに入力されるオリジナルチャンネルを復元する。
【０００５】
しかしながら、ＭＰＥＧサラウンドは、残念なことに、多くのアプリケーションによって提起されるすべての要求を満たさない。例えば、ＭＰＥＧサラウンドデコーダは、ＭＰＥＧサラウンドエンコーダの入力チャンネルが以前のように復元されるように、ＭＰＥＧサラウンドエンコーダのダウンミックス信号をアップミックスするために専用される。言い換えれば、ＭＰＥＧサラウンドデータストリームは、エンコードに用いられたスピーカ構成を用いて再生されるために専用される。
【０００６】
しかしながら、いくつかの意味合いによって、スピーカ構成をデコーダ側で変えることができるならば好都合であろう。
【０００７】
後者の要求に対処するため、空間オーディオオブジェクトコーディング（ＳＡＯＣ）スタンダードが、現在設計されている。各チャンネルは、個々のオブジェクトとみなされ、すべてのオブジェクトがダウンミックス信号にダウンミックスされる。しかしながら、加えて、個々のオブジェクトは、例えば楽器またはボーカルトラックのような、個々の音源をも備えることができる。しかしながら、ＭＰＥＧサラウンドデコーダと異なり、ＳＡＯＣデコーダは、任意のスピーカ構成上に個々のオブジェクトを再生するために、ダウンミックス信号を自由に個別にアップミックスする。ＳＡＯＣデコーダがＳＡＯＣデータストリームにエンコードされた個々のオブジェクトを復元することを可能とするために、オブジェクトレベル差と、一緒にステレオ信号（またはマルチチャンネル信号）を形成しているオブジェクトに対するオブジェクト間相互相関パラメータが、ＳＡＯＣビットストリーム内の副情報として送信される。この他に、ＳＡＯＣデコーダ／トランスコーダは、どのように個々のオブジェクトがダウンミックス信号にダウンミックスされたかを明らかにする情報を備えている。このように、デコーダ側において、個々のＳＡＯＣチャンネルを復元し、ユーザ制御された再現情報を利用することによって、これらの信号を任意のスピーカ構成上に再現することが可能である。
【０００８】
しかしながら、ＳＡＯＣコーデックは、オーディオオブジェクトを個別に取り扱うために設計されているが、いくつかのアプリケーションは、さらに要求が厳しい。例えば、カラオケアプリケーションは、バックグラウンドオーディオ信号を、フォアグラウンドオーディオ信号または複数のフォアグラウンドオーディオ信号から完全に分離することを必要とする。その逆も同じであり、ソロモードでは、フォアグラウンドオブジェクトは、バックグラウンドオブジェクトから分離されなければならない。しかしながら、個々のオーディオオブジェクトの等しい取り扱いのために、バックグラウンドオブジェクトまたはフォアグラウンドオブジェクトをそれぞれダウンミックス信号から完全に取り除くことは可能でなかった。
【０００９】
このように、本発明の目的は、オーディオ信号のダウンミックス用いて、例えば、カラオケ／ソロモードアプリケーションにおいて、個々のオブジェクトのより良好な分離が達成されるようなオーディオコーデックを提供することである。
【００１０】
この目的は、請求項１に記載のオーディオデコーダ、請求項１８に記載のオーディオエンコーダ、請求項２０に記載のデコード方法、請求項２１に記載のエンコード方法、および請求項２３に記載のマルチ‐オーディオ‐オブジェクト信号によって達成される。
【図面の簡単な説明】
【００１１】
本願の好ましい実施形態は、以下の図面を参照して更に詳細に記載される。
【図１】本発明の実施形態が実装することのできるＳＡＯＣエンコーダ／デコーダ装置のブロック図を示す。
【図２】モノラルオーディオ信号のスペクトル表現の図解および例示した図を示す。
【図３】本発明の一実施形態によるオーディオデコーダのブロック図を示す。
【図４】本発明の一実施形態によるオーディオエンコーダのブロック図を示す。
【図５】一比較実施形態として、カラオケ／ソロモードアプリケーションのためのオーディオエンコーダ／デコーダ装置のブロック図を示す。
【図６】一実施形態によるカラオケ／ソロモードアプリケーションのためのオーディオエンコーダ／デコーダ装置のブロック図を示す。
【図７ａ】一比較実施形態によるカラオケ／ソロモードアプリケーションのためのオーディオエンコーダのブロック図を示す。
【図７ｂ】一実施形態によるカラオケ／ソロモードアプリケーションのためのオーディオエンコーダのブロック図を示す。
【図８ａ】品質測定結果のプロットを示す。
【図８ｂ】品質測定結果のプロットを示す。
【図９】比較の目的のため、カラオケ／ソロモードアプリケーションのためのオーディオエンコーダ／デコーダ装置のブロック図を示す。
【図１０】一実施形態によるカラオケ／ソロモードアプリケーションのためのオーディオエンコーダ／デコーダ装置のブロック図を示す。
【図１１】更なる実施形態によるカラオケ／ソロモードアプリケーションのためのオーディオエンコーダ／デコーダ装置のブロック図を示す。
【図１２】更なる実施形態によるカラオケ／ソロモードアプリケーションのためのオーディオエンコーダ／デコーダ装置のブロック図を示す。
【図１３ａ】本発明の一実施形態によるＳＯＡＣビットストリームのための可能な構文を反映したテーブルを示す。
【図１３ｂ】本発明の一実施形態によるＳＯＡＣビットストリームのための可能な構文を反映したテーブルを示す。
【図１３ｃ】本発明の一実施形態によるＳＯＡＣビットストリームのための可能な構文を反映したテーブルを示す。
【図１３ｄ】本発明の一実施形態によるＳＯＡＣビットストリームのための可能な構文を反映したテーブルを示す。
【図１３ｅ】本発明の一実施形態によるＳＯＡＣビットストリームのための可能な構文を反映したテーブルを示す。
【図１３ｆ】本発明の一実施形態によるＳＯＡＣビットストリームのための可能な構文を反映したテーブルを示す。
【図１３ｇ】本発明の一実施形態によるＳＯＡＣビットストリームのための可能な構文を反映したテーブルを示す。
【図１３ｈ】本発明の一実施形態によるＳＯＡＣビットストリームのための可能な構文を反映したテーブルを示す。
【図１４】一実施形態によるカラオケ／ソロモードアプリケーションのためのオーディオデコーダのブロック図を示す。
【図１５】残余信号を送信するために費やされるデータ量を信号送信するための可能な構文を反映したテーブルを示す。
【発明を実施するための形態】
【００１２】
本発明の実施形態が以下においてより詳細に記載される前に、ＳＡＯＣコーデックと、ＳＡＯＣビットストリームにおいて送信されるＳＡＯＣパラメータが、以下の更なる詳細において概説される特定の実施形態の理解を容易にするために、提示される。
【００１３】
図１は、ＳＡＯＣエンコーダ１０とＳＡＯＣデコーダ１２の一般的装置を示す。ＳＡＯＣエンコーダ１０は、入力としてＮ個のオブジェクト、すなわちオーディオ信号１４₁〜１４_Nを受信する。特に、エンコーダ１０は、オーディオ信号１４₁〜１４_Nを受信するダウンミックス装置１６を備え、それをダウンミックス信号１８にダウンミックスする。図１において、ダウンミックス信号は、ステレオダウンミックス信号として例示される。しかしながら、モノラルダウンミックス信号も、同様に可能である。ステレオダウンミックス信号１８のチャンネルは、Ｌ０とＲ０で示され、モノラルダウンミックス信号の場合は、単にＬ０で示される。ＳＡＯＣデコーダ１２が個々のオブジェクト１４₁〜１４_Nを復元することを可能とするため、ダウンミックス装置１６は、オブジェクトレベル差（ＯＬＤ）、オブジェクト間相互相関パラメータ（ＩＯＣ）、ダウンミックスゲイン値（ＤＭＧ）、およびダウンミックスチャンネルレベル差（ＤＣＬＤ）を含むＳＡＯＣパラメータを含んだ副情報を、ＳＡＯＣデコーダ１２に提供する。ＳＡＯＣパラメータを含む副情報２０は、ダウンミックス信号１８とともに、ＳＡＯＣデコーダ１２によって受信されるＳＡＯＣ出力データストリームを形成する。
【００１４】
ＳＡＯＣデコーダ１２は、オーディオ信号１４₁〜１４_Nを復元し、ＳＡＯＣデコーダ１２に入力された再現情報２６によって規定された再現によって任意のユーザ選択されたチャンネルのセット２４₁〜２４_M上に再現するために、ダウンミックス信号１８ならび副情報２０を受信するアップミックス装置２２を備える。
【００１５】
オーディオ信号１４₁〜１４_Nは、例えば時間またはスペクトル領域のような任意のコーディング領域において、ダウンミックス装置１６に入力することができる。ＰＣＭコード化されたように、オーディオ信号１４₁〜１４_Nが時間領域でダウンミックス装置１６に供給されるケースでは、ダウンミックス装置１６は、信号を、特定のフィルタバンクの分解能で、オーディオ信号が異なるスペクトル部分に関連するいくつかのサブバンドで表現されるスペクトル領域に転送させるために、ハイブリッドＱＭＦバンク、すなわち最低周波数バンドに対するナイキストフィルタ拡張を有し、周波数分解能を増大させる複合指数変調されたフィルタのバンクのような、フィルタバンクを用いる。オーディオ信号１４₁〜１４_Nが既にダウンミックス装置１６によって期待される表現である場合は、スペクトル分解を実行する必要はない。
【００１６】
図２は、ちょうど言及されたスペクトル領域のオーディオ信号を示す。ここで判るように、オーディオ信号は、複数のサブバンド信号として表現される。各サブバンド信号３０₁〜３０_Pは、小さなボックス３２によって示される一連のサブバンド値から成る。ここで判るように、サブバンド信号３０₁〜３０_Pのサブバンド値３２は、時間においてお互いに同期しているので、連続的なフィルタバンクタイムスロット３４の各々に対して、各サブバンド３０₁〜３０_Pは厳密な１つのサブバンド値３２を備える。周波数軸３６で図示されるように、サブバンド信号３０₁〜３０_Pは、異なる周波数領域に関連しており、時間軸３８で図示されるように、フィルタバンクのタイムスロット３４は時間において連続的に配列される。
【００１７】
上記概説されたように、ダウンミックス装置１６は、入力オーディオ信号１４₁〜１４_Nから、ＳＡＯＣパラメータを演算する。ダウンミックス装置１６は、この演算を、フィルタバンクタイムスロット３４とサブバンド分解によって定義されるオリジナルの時間／周波数分解能と比較して特定の量だけ減少することができる時間／周波数分解能において実行し、この特定の量は、それぞれの構文要素bsFrameLengthおよびbsFreqResによって副情報２０の中でデコーダ側に信号送信される。例えば、一群の連続するフィルタバンクタイムスロット３４は、フレーム４０を形成することができる。言い換えれば、オーディオ信号は、例えば、時間においてオーバーラップする、または、時間において直に隣接するフレームに分割することができる。このケースでは、bsFrameLengthは、パラメータタイムスロット４１の数、すなわち、ＳＯＡＣフレーム４０においてＯＬＤとＩＯＣのようなＳＡＯＣパラメータが演算される時間単位を定義することができ、bsFreqResは、ＳＡＯＣパラメータが演算される処理周波数バンドの数を定義することができる。この尺度によって、各フレームは、図２において破線４２で例示される時間／周波数タイルに分割される。
【００１８】
ダウンミックス装置１６は、以下の数式によってＳＡＯＣパラメータを算出する。特に、ダウンミックス装置１６は、次のように各オブジェクトｉに対するオブジェクトレベル差を演算する。

ここで、合計および指標ｎとｋは、それぞれ、すべてのフィルタバンクタイムスロット３４と、特定の時間／周波数タイル４２に属するすべてのフィルタバンクサブバンド３０とを通過する。これにより、オーディオ信号またはオブジェクトｉのすべてのサブバンド値ｘ_iのエネルギーは合計され、すべてのオブジェクトまたはオーディオ信号の中のそのタイルの最高エネルギーに正規化される。
【００１９】
更に、ＳＡＯＣダウンミックス装置１６は、異なる入力オブジェクト１４₁〜１４_Nのペアの対応する時間／周波数タイルの類似性尺度を演算することができる。ＳＡＯＣダウンミックス装置１６は、入力オブジェクト１４₁〜１４_Nのすべてのペアの間の類似性尺度を演算することができるが、ダウンミックス装置１６は、類似性尺度の信号送信を抑制するか、または、類似性尺度の演算を一般的なステレオチャンネルの左右のチャンネルを形成するオーディオオブジェクト１４₁〜１４_Nに限定することもできる。いずれのケースも、類似性尺度は、オブジェクト間相互相関パラメータＩＯＣ_i,jと呼ばれる。その演算は次の通りである。

ここで、再び、指標ｎとｋは、特定の時間／周波数タイル４２に属するすべてのサブバンド値を通り、ｉとｊは、オーディオオブジェクト１４₁〜１４_Nの特定のペアを表す。
【００２０】
ダウンミックス装置１６は、各オブジェクト１４₁〜１４_Nに適用されるゲイン係数を用いて、オブジェクト１４₁〜１４_Nをダウンミックスする。すなわち、ゲイン係数Ｄ_iは、オブジェクトｉに適用され、そしてそれにより重み付けられたすべてのオブジェクト１４₁〜１４_Nは、モノラルのダウンミックス信号を取得するために合計される。図１に例示されるステレオダウンミックス信号のケースでは、ゲイン係数Ｄ_1,iは、オブジェクトｉに適用され、そしてそのようなゲインで増幅されたすべてのオブジェクトは、左のダウンミックスチャンネルＬ０を取得するために合計され、ゲイン係数Ｄ_2,iは、オブジェクトｉに適用され、そしてそれによりゲイン増幅されたオブジェクトは、右のダウンミックスチャンネルＲ０を取得するために合計される。
【００２１】
このダウンミックス処方は、ダウンミックスゲインＤＭＧ_iと、ステレオダウンミックス信号のケースではダウンミックスチャンネルレベル差ＤＣＬＤ_iとによって、デコーダ側に信号送信される。
【００２２】
ダウンミックスゲインは、次式によって算出される。

ここで、εは１０―⁹のような小さな数である。
【００２３】
ＤＣＬＤに対しては、次式を適用する。

【００２４】
通常モードにおいて、ダウンミックス装置１６は、それぞれ次式によってダウンミックス信号を生成する。

【００２５】
このように、上述した計算式において、パラメータＯＬＤとＩＯＣはオーディオ信号の関数であり、パラメータＤＭＧとＤＣＬＤはＤの関数である。ところで、Ｄは時間において変化することができることに注意されたい。
【００２６】
このように、通常モードにおいて、ダウンミックス装置１６は、すべてのオブジェクト１４₁〜１４_Nを、優先的取扱いなしで、すなわちすべてのオブジェクト１４₁〜１４_Nを等しく取り扱って混合する。
【００２７】
アップミックス装置２２は、ダウンミックス処理の逆変換と、１つの演算ステップにおいてマトリクスＡによって表現される再現情報の実施態様を実行する。すなわち、

ここで、マトリクスＥは、パラメータＯＬＤとＩＯＣの関数である。
【００２８】
言い換えれば、通常モードにおいて、オブジェクト１４₁〜１４_Nの、ＢＧＯすなわちバックグラウンドオブジェクト、またはＦＧＯすなわちフォアグラウンドオブジェクトへのいかなる分類も実行されない。どのオブジェクトがアップミックス装置２２の出力で提供されるかの情報は、再現マトリクスＡによって提供される。例えば、指標１のオブジェクトがステレオバックグラウンドオブジェクトの左チャンネル、指標２のオブジェクトがその右チャンネル、指標３のオブジェクトがフォアグラウンドオブジェクトであったとき、再現マトリクスＡは、

となり、カラオケタイプの出力信号を生成する。
【００２９】
しかしながら、すでに上記で示されたように、ＳＡＯＣコーデックのこの通常モードを用いたＢＧＯとＦＧＯの送信は、受け入れ可能な結果を達成できない。
【００３０】
図３と図４は、まさに記載された欠陥を克服する本発明の実施形態を記載する。これらの図に記載されたデコーダとエンコーダ、およびそれらに関連する機能は、図１のＳＡＯＣコーデックを切換可能とすることができる「強化モード」のような追加モードを表現することができる。後者の可能性のための実施形態は、以下に示される。
【００３１】
図３は、デコーダ５０を示す。デコーダ５０は、予測係数を演算する手段５２と、ダウンミックス信号をアップミックスする手段５４とを備える。
【００３２】
図３のオーディオデコーダ５０は、第１タイプのオーディオ信号とエンコードされた第２タイプのオーディオ信号を有するマルチ‐オーディオ‐オブジェクト信号をデコードするための専用である。第１タイプのオーディオ信号と第２タイプのオーディオ信号は、それぞれモノラルまたはステレオのオーディオ信号とすることができる。第１タイプのオーディオ信号は、例えば、バックグラウンドオブジェクトであるのに対して、第２タイプのオーディオ信号は、フォアグラウンドオブジェクトである。すなわち、図３と図４の実施形態は、カラオケ／ソロモードアプリケーションに必ずしも限定されない。むしろ、図３のデコーダと図４のエンコーダは、他のところで都合よく用いることができる。
【００３３】
マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号５６と副情報５８から成る。副情報５８は、例えば、時間／周波数分解能４２のような第１の所定の時間／周波数分解能における、第１タイプのオーディオ信号と第２タイプのオーディオ信号のスペクトルエネルギーを記述するレベル情報６０を備える。特に、レベル情報６０は、オブジェクトと時間／周波数タイル当りの正規化されたスペクトルエネルギーのスカラー値を備えることができる。正規化は、それぞれの時間／周波数タイルで、第１と第２タイプのオーディオ信号の中の最も高いスペクトルエネルギー値に関係することができる。後者の可能性は、レベル情報を表現するＯＬＤに結果としてなり、本願明細書においてレベル差情報とも呼ばれる。以下の実施形態はＯＬＤを用いているが、それらはそこでは明示的に述べられておらず、他のところで正規化されたスペクトルエネルギー表現を用いることができる。
【００３４】
副情報５８は、また、第１の所定の時間／周波数分解能に等しいかまたは異なることができる第２の所定の時間／周波数分解能における残余レベル値を特定する残余信号６２をも備える。
【００３５】
予測係数を演算する手段５２は、レベル情報６０に基づいて予測係数を演算するように構成される。加えて、手段５２は、副情報５８にも備えられる相互相関情報に更に基づいて、予測係数を演算することができる。さらには、手段５２は、予測係数を演算するために、副情報５８に備えられる時間変化するダウンミックス処方情報を用いることができる。手段５２によって演算される予測係数は、ダウンミックス信号５６から、オリジナルのオーディオオブジェクトまたはオーディオ信号を読み出すかまたはアップミックスするために必要である。
【００３６】
したがって、アップミックスする手段５４は、手段５２から受信された予測係数６４と残余信号６２に基づいて、ダウンミックス信号５６をアップミックスするように構成される。残余信号６２を用いることによって、デコーダ５０は、１つのタイプのオーディオ信号から他のタイプのオーディオ信号へのクロストークをより良く抑制することが可能である。残余信号６２に加えて、手段５４は、ダウンミックス信号をアップミックスするため、時間変化するダウンミックス処方を用いることができる。更に、アップミックスする手段５４は、ダウンミックス信号５６から復元されたオーディオ信号のうちどちらを、またはどの範囲まで、実際に出力６８に出力するかを決定するために、ユーザ入力６６を用いることができる。第１の極端な行為として、ユーザ入力６６は、単に第１タイプのオーディオ信号を近似する第１のアップミックス信号を出力するように、手段５４に指示することができる。その反対は、それに従って手段５４が単に第２のタイプのオーディオ信号を近似する第２のアップミックス信号を出力する第２の極端な行為にあてはまる。中間のオプションは、それに従って両方のアップミックス信号の混合が出力６８の出力に再現されることが同様に可能である。
【００３７】
図４は、図３のデコーダによってデコードされたマルチオーディオオブジェクト信号を生成することに適するオーディオエンコーダの実施形態を示す。参照符号８０で示される図４のエンコーダは、エンコードされるオーディオ信号８４がスペクトル領域にない場合に、スペクトルで分解する手段８２を備えることができる。オーディオ信号８４の中には、順番に、少なくとも１つの第１タイプのオーディオ信号と少なくとも１つの第２のタイプのオーディオ信号がある。スペクトルで分解する手段８２は、これらの信号８４の各々を、例えば、図２で示されたような表現にスペクトルで分解するように構成される。すなわち、スペクトルで分解する手段８２は、オーディオ信号８４を所定の時間／周波数分解能でスペクトルで分解する。手段８２は、ハイブリッドＱＭＦバンクのようなフィルタバンクを備えることができる。
【００３８】
オーディオエンコーダ８０は、レベル情報を演算する手段８６と、ダウンミックスする手段８８と、予測係数を演算する手段９０と、残余信号を設定する手段９２を、更に備える。加えて、オーディオエンコーダ８０は、相互相関情報を演算する手段、すなわち手段９４を備えることができる。手段８６は、オプションとして手段８２によって出力されたオーディオ信号から、第１タイプのオーディオ信号と第２のタイプのオーディオ信号のレベルを、第１の所定の時間／周波数分解能で記述するレベル情報を演算する。同様に、手段８８は、オーディオ信号をダウンミックスする。手段８８は、このようにダウンミックス信号５６を出力する。手段８６も、レベル情報６０を出力する。予測係数を演算する手段９０は、手段５２と同様に振舞う。すなわち、手段９０は、レベル情報６０から予測係数を演算し、予測係数６４を手段９２に出力する。手段９２は、順番に、ダウンミックス信号５６を予測係数６４と残余信号６２の両方に基づいてアップミックスすることが、第１タイプのオーディオ信号を近似する第１のアップミックスオーディオ信号と、第２のタイプのオーディオ信号を近似する第２のアップミックスオーディオ信号に結果としてなり、その近似が残余信号６２の欠如と比べて良いと認められるように、ダウンミックス信号と予測係数６４とオリジナルのオーディオとに基づいて、第２の所定の時間／周波数分解能で、残余信号６２を設定する。
【００３９】
残余信号６２とレベル情報６０は、ダウンミックス信号５６とともに、図３のデコーダによってデコードされるマルチ‐オーディオ‐オブジェクト信号を形成する副情報５８に備えられる。
【００４０】
図４に示すように、図３の説明と類似して、手段９０は、予測係数６４を演算するために、手段９４によって出力される相互相関情報および／または手段８８によって出力される時間変化するダウンミックス処方を付加的に用いることができる。更に、残余信号６２を設定する手段９２によって残余信号６２を適切に設定するために、手段８８によって出力される時間変化するダウンミックス処方を付加的に用いることができる。
【００４１】
再び、第１タイプのオーディオ信号はモノラルまたはステレオのオーディオ信号でよいことに注意されたい。同じことは第２タイプのオーディオ信号に適用される。残余信号６２は、副情報内で、例えばレベル情報を演算するために用いられるパラメータ時間／周波数分解能と同じ時間／周波数分解能において信号送信することができ、または異なる時間／周波数分解能を用いることもできる。更に、残余信号の信号送信は、レベル情報が信号送信されるための時間／周波数タイル４２によって占有されるスペクトル範囲のサブ部分に限定することも可能である。例えば、残余信号が信号送信される時間／周波数分解能は、構文要素bsResidualBandsおよびbsResidualFramesPerSAOCFrameを用いて、副情報５８内で示すことができる。これらの２つの構文要素は、時間／周波数タイル内に、タイル４２を先導するサブ区画よりも他のフレームのサブ区画を定義することができる。
【００４２】
ところで、残余信号６２は、オーディオエンコーダ８０によってダウンミックス信号５６をエンコードするためにオプションとして潜在的に使用されるコアエンコーダ９６から結果として生じる情報損失を反映でき、または、できないことに注意されたい。図４に示すように、手段９２は、ダウンミックス信号のバージョンに基づいて、コアエンコーダ９６の出力から、または、コアコーダ９６´に入力されるバージョンから、復元可能に残余信号６２を設定することを実行することができる。同様に、オーディオデコーダ５０は、ダウンミックス信号５６をデコードまたは伸張するコアデコーダ９８を備えることができる。
【００４３】
複数のオーディオオブジェクト信号内で、残余信号６２に用いられる時間／周波数分解能を、レベル情報６０を演算するために用いられる時間／周波数分解能と異なって設定する能力は、一方のオーディオ品質と他方の複数のオーディオオブジェクト信号の圧縮比の間の良好な歩み寄りを得ることを可能とする。いずれにせよ、残余信号６２は、ユーザ入力６６に従って出力６８に出力される第１と第２のアップミックス信号内で、１つのオーディオ信号から他へのクロストークをより良く抑制することを可能にする。
【００４４】
以下の実施形態から明らかになるように、１つ以上のフォアグラウンドオブジェクトまたは第２タイプのオーディオ信号がエンコードされる場合に、１つ以上の残余信号６２を副情報内で送信することができる。副情報は、残余信号６２が特定の第２タイプのオーディオ信号のために送信されるかどうかの個々の決定を考慮に入れることができる。このように、残余信号６２の数は、１つから第２タイプのオーディオ信号の数まで変わることができる。
【００４５】
図３のオーディオデコーダにおいて、演算する手段５４は、レベル情報（ＯＬＤ）に基づいて、予測係数から構成される予測係数マトリックスＣを演算するように構成し、手段５６は、ダウンミックス信号ｄから、次式によって表現できる演算によって、第１のアップミックス信号Ｓ₁および／または第２のアップミックス信号Ｓ₂を産出するように構成することができる。

ここで、「１」は、チャンネル数ｄに従属するスカラーまたは単位行列を表し、Ｄ^-1は、それに従って第１タイプのオーディオ信号と第２のタイプのオーディオ信号がダウンミックス信号にダウンミックスされる、副情報にも備えられるダウンミックス処方によって一意に決定されるマトリックスであり、Ｈは、ｄから独立しているが残余信号に従属する項である。
【００４６】
上述され、更に以下に記載されるように、ダウンミックス処方は、副情報内で、時間において変化することができ、および／または、スペクトルで変化することができる。第１タイプのオーディオ信号が第１入力チャンネル（Ｌ）と第２入力チャンネル（Ｒ）を有するステレオオーディオ信号である場合に、レベル情報は、例えば、第１入力チャンネル（Ｌ）、第２入力チャンネル（Ｒ）、および第２タイプのオーディオ信号のそれぞれの正規化されたスペクトルエネルギーを、時間／周波数分解能４２で記述する。
【００４７】
それに従ってアップミックスする手段５６がアップミックスを実行する上述の演算は、次式によって表現することさえできる。

【００４８】
項Ｈが残余信号ｒｅｓに従属している限り、それに従ってアップミックスする手段５６がアップミックスを実行する演算は、次式によって表現することができる。

【００４９】
マルチ‐オーディオ‐オブジェクト信号は、第２タイプの複数のオーディオ信号を備えることさえでき、副情報は、第２タイプのオーディオ信号当り１つの残余信号を備えることができる。残余分解能パラメータは、残余信号が副情報内で送信されるスペクトル範囲を定義する副情報において提供することができる。それは、スペクトル範囲の下側と上側の制限を定義することさえできる。
【００５０】
更に、マルチ‐オーディオ‐オブジェクト信号は、第１タイプのオーディオ信号を、予め定められたスピーカ構成上に空間的に再現するための空間再現情報を備えることもできる。言い換えれば、第１タイプのオーディオ信号は、ステレオにダウンミックスされたマルチチャンネル（２つ以上のチャンネル）のＭＰＥＧサラウンド信号とすることができる。
【００５１】
以下に、上記残余信号の信号送信に用いることができる実施形態が記載される。しかしながら、用語「オブジェクト」は、２重の意味でしばしば用いられることに注意されたい。時には、オブジェクトは、個々のモノラルオーディオ信号を表す。このように、ステレオオブジェクトは、ステレオ信号の１つのチャンネルを形成するモノラルオーディオ信号を有することができる。しかしながら、他の状況では、ステレオオブジェクトは、事実、２つのオブジェクト、すなわち、ステレオオブジェクトの右チャンネルに関するオブジェクトおよび左チャンネルに関する更なるオブジェクトを表すことができる。実際の意味は、文脈から明らかになる。
【００５２】
次の実施形態を記載する前に、同じことは、２００７年に基準モデル０（ＲＭ０）として選択されたＳＡＯＣスタンダードのベースライン技術で認められた不具合によって動機づけられる。ＲＭ０は、パニング位置と増幅／減衰に関する多数のサウンドオブジェクトの個々の操作を可能にした。特別なシナリオは、「カラオケ」タイプのアプリケーションの文脈において提示される。このケースでは、
●モノラル、ステレオ、またはサラウンドバックグラウンドシーン（以下においてバックグラウンドオブジェクトＢＧＯと呼ばれる）は、一組の特定のＳＡＯＣオブジェクトから導かれ、それは変更なく再生される。すなわち、あらゆる入力チャンネル信号が変更のないレベルで同じ出力チャンネルで再生される。
●関心のある特定のオブジェクト（以下においてフォアグラウンドオブジェクトＦＧＯと呼ばれる）（典型的にはリードボーカル）は、変更（ＦＧＯは、典型的にサウンドステージの中央に配置され、ミュートすることができる、すなわち、伴って歌うことを可能とするため強く減衰される）して再生される。
【００５３】
主観評価処理から判るように、そして基礎をなす技術原理から期待できるように、オブジェクト位置の操作は高品質の結果に導き、一方オブジェクトレベルの操作は一般的によりチャレンジングである。典型的に、追加信号の増幅／減衰がより高いほど、より潜在的なアーティファクトが生じる。この意味で、極端な（理想的には全体の）ＦＧＯの減衰が要求されるので、カラオケシナリオは、極めて要求が厳しい。
【００５４】
二重使用のケースは、バックグラウンド／ＭＢＯなしでＦＧＯだけを再生する能力であって、以下においてソロモードと称される。
【００５５】
しかしながら、サラウンドバックグラウンドシーンが含まれる場合、それがマルチチャンネルバックグラウンドオブジェクト（ＭＢＯ）と称される点に注意されたい。ＭＢＯの取り扱いは以下の通りであり、図５において示される。
●ＭＢＯは、標準の５―２―５ＭＰＥＧサラウンドツリー１０２を用いてエンコードされる。これは、ステレオＭＢＯダウンミックス信号１０４とＭＢＯ‐ＭＰＳ副情報ストリーム１０６に結果としてなる。
●ＭＢＯダウンミックスは、次に、引き続くＳＡＯＣエンコーダ１０８によって、ステレオオブジェクト（すなわち、２つのオブジェクトレベル差、プラス相互相関）として、その（またはいくつかの）ＦＧＯ１１０と一緒にエンコードされる。これは、一般的なダウンミックス信号１１２とＳＡＯＣ副情報ストリーム１１４に結果としてなる。
【００５６】
トランスコーダ１１６において、ダウンミックス信号１１２は前処理され、ＳＡＯＣとＭＰＳ副情報ストリーム１０６、１１４は、単一のＭＰＳ出力副情報ストリーム１１８にトランスコードされる。これは、一般に不連続な方法で起こる。すなわち、ＦＧＯの完全な抑制のみか、または、ＭＢＯの完全な抑制のいずれかがサポートされる。
【００５７】
最後に、結果として生じたダウンミックス１２０とＭＰＳ副情報１１８は、ＭＰＥＧサラウンドデコーダ１２２によって再現される。
【００５８】
図５において、ＭＢＯダウンミックス１０４と制御可能なオブジェクト信号１１０の両方は、単一のステレオダウンミックス１１２に結合される。この制御可能なオブジェクト１１０によるダウンミックスの「汚染」は、制御可能なオブジェクト１１０が取り除かれ、十分に高いオーディオ品質である、カラオケバージョンを復元することの難しさの理由である。以下の提案は、この課題を回避することを目的とする。
【００５９】
１つのＦＧＯ（例えば１つのリードボーカル）を仮定すると、以下の図６の実施形態によって用いられる重要な知見は、ＳＡＯＣダウンミックス信号がＢＧＯとＦＧＯ信号の結合である、すなわち、３つのオーディオ信号がダウンミックスされ、２つのダウンミックスチャンネルを介して送信されることである。理想的には、これらの信号は、クリーンなカラオケ信号を生成する（すなわち、ＦＧＯ信号を取り除く）か、またはクリーンなソロ信号を生成する（すなわち、ＢＧＯ信号を取り除く）ために、トランスコーダにおいて再び分離されなければならない。これは、図６の実施形態に従って、ＳＡＯＣエンコーダにおいて、ＢＧＯとＦＧＯを単一のＳＡＯＣダウンミックス信号に結合するため、ＳＡＯＣエンコーダ１０８内で、「２から３への」（ＴＴＴ）エンコーダ要素１２４（ＴＴＴ―¹は、ＭＰＥＧサラウンド仕様から知られる）を用いることで達成される。ここで、ＦＧＯはＴＴＴ^-1ボックス１２４の「中心の」信号入力に供給され、ＢＧＯ１０４は「左右の」ＴＴＴ^-1入力Ｌ，Ｒに供給される。トランスコーダ１１６は、次に、ＴＴＴデコーダ要素１２６（ＴＴＴは、ＭＰＥＧサラウンドから知られる）を用いて、ＢＧＯ１０４の近似を生成することができる。すなわち、「左右の」ＴＴＴ出力Ｌ，Ｒは、ＢＧＯの近似をもたらすのに対して、「中心の」ＴＴＴ出力Ｃは、ＦＧＯ１１０の近似をもたらす。
【００６０】
図６の実施形態を、図３と図４のエンコーダとデコーダの実施形態と比較するとき、参照符号１０４は、オーディオ信号８４の中の第１タイプのオーディオ信号に対応し、手段８２は、ＭＰＳエンコーダ１０２に備えられ、参照符号１１０は、オーディオ信号８４の中の第２タイプのオーディオ信号に対応し、ＴＴＴ^-1ボックス１２４は、手段８８〜９２の機能に対する役割を、ＳＡＯＣエンコーダ１０８において実装される手段８６と９４の機能によって引き継ぎ、参照符号１１２は、参照符号５６に対応し、参照符号１１４は、残余信号６２よりも少ない副情報５８に対応し、ＴＴＴボックス１２６は、手段５２と５４の機能に対する役割を、手段５４でも備えられている混合ボックス１２８の機能によって引き継ぐ。最後に、信号１２０は、出力６８で出力される信号に対応する。更に、図６は、ＳＡＯＣエンコーダ１０８からＳＡＯＣトランスコーダ１１６へのダウンミックス１１２の移送のためのコアコーダ／デコーダ・パス１３１をも示すことに注意されたい。このコアコーダ／デコーダ・パス１３１は、オプションのコアコーダ９６とコアデコーダ９８に対応する。図６に示すように、このコアコーダ／デコーダ・パス１３１は、エンコーダ１０８からトランスコーダ１１６まで移送された副情報の移送された信号をエンコード／圧縮することもできる。
【００６１】
図６のＴＴＴボックスの導入から生じる効果は、以下の説明によって明らかになる。例えば、
●「左右の」ＴＴＴ出力Ｌ，ＲをＭＰＳダウンミックス１２０に単純に供給する（そして、ストリーム１１８において、送信されたＭＢＯ‐ＭＰＳビットストリーム１０６を順送りする）ことによって、ＭＢＯのみが最終的なＭＰＳデコーダによって再生される。これは、カラオケモードに対応する。
●「中心の」ＴＴＴ出力Ｃを左右のＭＰＳダウンミックス１２０に単純に供給する（そして、ＦＧＯ１１０を所望の位置とレベルに再現する些細なＭＰＳビットストリーム１１８を生成する）ことによって、ＦＧＯ１１０のみが最終的なＭＰＳデコーダ１２２によって再生される。これは、ソロモードに対応する。
【００６２】
３つのＴＴＴ出力信号Ｌ，Ｒ，Ｃの取り扱いは、ＳＡＯＣトランスコーダ１１６の「混合」ボックス１２８において実行される。
【００６３】
図６の処理構成は、図５に対して多くの明瞭な利点を提供する。
●フレームワークは、バックグラウンド（ＭＢＯ）１００とＦＧＯ信号１１０のクリーンな構成上の分離を提供する。
●ＴＴＴ要素１２６の構成は、波形ベースで、３つの信号Ｌ，Ｒ，Ｃの最高の復元を試みる。このように、最終的なＭＰＳ出力信号１３０は、ダウンミックス信号のエネルギー重み付け（および無相関化）によって形成されるだけでなく、ＴＴＴ処理のため波形に関しても近い。
●ＭＰＥＧサラウンドＴＴＴボックス１２６とともに、残余コーディングを用いることによって復元精度を強化する可能性がある。このように、復元品質における有意な強化は、ＴＴＴ^-1１２４により出力され、アップミックスのためのＴＴＴボックスによって用いられる残余信号１３２の残余バンド幅と残余ビットレートが増加するにつれて、達成することができる。理想的には（すなわち、残余コーディングとダウンミックス信号のコーディングにおける無限に微細な量子化に対して）、バックグラウンド（ＭＢＯ）とＦＧＯ信号の間の干渉はキャンセルされる。
【００６４】
図６の処理構成は、多くの特性を備えている。
●カラオケ／ソロモードの二重性：図６のアプローチは、同じ技術手段を用いてカラオケとソロの両方の機能を提供する。すなわち、例えば、ＳＡＯＣパラメータは再利用される。
●洗練化可能性：カラオケ／ソロ信号の品質は、ＴＴＴボックスにおいて用いられる残余コーディング情報の量を制御することによって、必要に応じて洗練させることができる。例えば、パラメータbsResidualSamplingFrequencyIndex、bsResidualBands、およびbsResidualFramesPerSAOCFrameを用いることができる。
●ダウンミックスにおけるＦＧＯの位置決め：ＭＰＥＧサラウンド仕様において指定されるＴＴＴボックスを用いるとき、ＦＧＯは、左右のダウンミックスチャンネルの間の中心位置に常に混合される。位置決めにおいてより柔軟性を可能とするため、「中心」の入力／出力に関連する信号の非対称位置決めを可能としながら同じ原理に従う一般化されたＴＴＴエンコーダボックスが使用される。
●多重ＦＧＯ：記載された構成において、１つのＦＧＯのみの使用が記載されていた（これは、最も重要なアプリケーションのケースに対応するかも知れない）。しかしながら、提案されたコンセプトは、以下の尺度の１つまたは組み合わせを用いて、いくつかのＦＧＯに適応することも可能である。
◆グループ化されたＦＧＯ：図６に示されたように、ＴＴＴボックスの中心の入力／出力に接続された信号は、実際に、単一のもののみよりもむしろ、いくつかのＦＧＯ信号の合計とすることができる。これらのＦＧＯは、マルチチャンネル出力信号１３０において、独立に位置決め／制御することができる（しかしながら、それらが同様にスケールされ配置されたときに、最良の品質効果が達成される）。それらは、ステレオダウンミックス信号１１２において一般的な位置を共有し、１つの残余信号１３２のみがある。いずれにせよ、バックグラウンド（ＭＢＯ）と制御可能なオブジェクトの間の干渉は（制御可能なオブジェクト間ではされないが）キャンセルされる。
◆カスケード接続されたＦＧＯ：ダウンミックス１１２における一般的なＦＧＯ位置に関する制限は、図６のアプローチを拡張することによって克服することができる。多重ＦＧＯは、記載されたＴＴＴ構成のいくつかのステージをカスケード接続し、各ステージが１つのＦＧＯに対応し、残余コーディングストリームを生成することによって、適応することができる。このように、干渉は、理想的には、各ＦＧＯ間においてもキャンセルされる。もちろん、このオプションは、グループ化されたＦＧＯアプローチを用いるよりも高いビットレートを必要とする。実施形態は後述する。
●ＳＡＯＣ副情報：ＭＰＥＧサラウンドにおいて、ＴＴＴボックスに関連する副情報は、一対のチャンネル予測係数（ＣＰＣ）である。対照的に、ＳＡＯＣパラメータ表示とＭＢＯ／カラオケシナリオは、各オブジェクト信号のオブジェクトエネルギーと、ＭＢＯダウンミックスの２つのチャンネル間の信号間相関（すなわち、「ステレオオブジェクト」のパラメータ表示）を送信する。強化されたカラオケ／ソロモードのないケースに関係するパラメータ表示、およびビットストリームフォーマットにおける変化の数を最小化するために、ＣＰＣは、ダウンミックスされた信号（ＭＢＯダウンミックスとＦＧＯ）のエネルギーとＭＢＯダウンミックスステレオオブジェクトの信号間相関とから算出することができる。それ故、送信されたパラメータ表示を変更または増大する必要がなく、ＣＰＣは、ＳＡＯＣトランスコーダ１１６において送信されたＳＡＯＣパラメータ表示から算出することができる。このように、強化されたカラオケ／ソロモードを用いたビットストリームは、残余データを無視するとき、標準モードのデコーダ（残余コーディングのない）によってデコードすることもできる。
【００６５】
要約すると、図６の実施形態は、特定の選択されたオブジェクト（またはそれらのオブジェクトのないシーン）の強化された再生を目的とし、ステレオダウンミックスを用いた現行のＳＡＯＣエンコードアプローチを以下のように拡張する。
●通常モードにおいて、各オブジェクト信号は、ダウンミックスマトリクスにおけるそのエントリーによって（左右のダウンミックスチャンネルのそれぞれに対する寄与に対して）重み付けされる。次に、左右のダウンミックスチャンネルに対するすべての重み付けられた分担は、左右のダウンミックスチャンネルを形成するために合計される。
●強化されたカラオケ／ソロ演奏のために、すなわち強化モードにおいて、すべてのオブジェクト分担は、フォアグラウンドオブジェクト分担（ＦＧＯ）と残りのオブジェクト分担（ＢＧＯ）を形成する一組のオブジェクト分担に分割される。ＦＧＯ分担は、モノラルのダウンミックス信号に合計され、残りのバックグラウンド分担は、ステレオダウンミックスに合計され、両方とも、一般的なＳＡＯＣステレオダウンミックスを形成するために、一般化されたＴＴＴエンコーダ要素を用いて合計される。
【００６６】
このように、標準の合計は、「ＴＴＴ総和」（必要なときはカスケード接続することができる）によって置き換えられる。
【００６７】
ＳＡＯＣエンコーダの通常モードと強化モードのちょうど言及された相違を強調するために、図７ａと図７ｂが参照される。ここで、図７ａは通常モードに関するのに対して、図７ｂは強化モードに関する。これから判るように、通常モードにおいて、ＳＡＯＣエンコーダ１０８は、オブジェクトｊを重み付けし、このように重み付けられたオブジェクトｊをＳＡＯＣチャンネルｉ、すなわちＬ０またはＲ０に加算するため、前述のＤＭＸパラメータＤ_ijを用いる。図６の強化モードの場合は、単にＤＭＸパラメータＤ_iのベクトルが必要である。すなわち、ＤＭＸパラメータＤ_iは、ＦＧＯ１１０の重み付けられた合計をどのように形成するかを示し、それによりＴＴＴ^-1ボックス１２４のための中心チャンネルＣを取得し、ＤＭＸパラメータＤ_iは、ＴＴＴ^-1ボックスに中心信号Ｃを左ＭＢＯチャンネルと右ＭＢＯチャンネルのそれぞれに対してどのように分配するかを指示し、それによりＬ_DMXまたはＲ_DMXをそれぞれ取得する。
【００６８】
問題として、図６による処理は、非波形で保存するコーデック（ＨＥ―ＡＡＣ／ＳＢＲ）では、あまりうまく動作しない。その問題の解決策は、ＨＥ‐ＡＡＣおよび高周波のためのエネルギーベースで一般化されたＴＴＴモードとすることができる。問題に対処する実施形態は、後述される。
【００６９】
カスケード接続されたＴＴＴによるもののための可能なビットストリームフォーマットは、以下の通りとすることができる。
【００７０】
スキップできるようにするために必要なＳＡＯＣビットストリームへの追加は、「標準のデコードモード」において簡約すると次の通りである。

【００７１】
複雑度および所要メモリ量に関しては、以下のように述べることができる。前の説明から判るように、図６の強化されたカラオケ／ソロモードは、エンコーダとデコーダ／トランスコーダのそれぞれ、すなわち一般化されたＴＴＴ^-1／ＴＴＴエンコーダ要素において、１つのコンセプト上の要素のステージを付加することによって実現される。両方の要素は、標準の「中央化された」ＴＴＴ相当品（係数値の変化は複雑度に影響しない）に対して、その複雑度において同一である。想定される主要なアプリケーション（リードボーカルとしての１つのＦＧＯ）のためには、単一のＴＴＴで充分である。
【００７２】
ＭＰＥＧサラウンドシステムの複雑度に対するこの追加構成の関係は、関連するステレオダウンミックスケース（５‐２‐５型）に対して１つのＴＴＴ要素と２つのＯＴＴ要素から構成される全てのＭＰＥＧサラウンドデコーダの構成に注目することによって理解することができる。これは、付加された機能が計算複雑度とメモリ消費に関して廉価になることを、すでに示している（残余コーディングを用いたコンセプト上の要素は、それに代わる無相関化を含むそれらの相当品よりも、平均して複雑でないことに注意されたい）。
【００７３】
ＭＰＥＧ‐ＳＡＯＣ基準モデルの図６のこの拡張は、特別なソロまたはミュート／カラオケタイプのアプリケーションに対して、オーディオ品質の改善を提供する。再び、図５、６、７に対応する説明が、バックグラウンドシーンまたはＢＧＯとしてＭＢＯを参照し、それは、一般にこのタイプのオブジェクトに限定されず、むしろモノラルまたはステレオのオブジェクトでもあり得ることに注意されたい。
【００７４】
主観評価処理は、カラオケまたはソロアプリケーションのための出力信号のオーディオ品質に関する改善を明らかにする。評価された条件は、以下の通りである：
●ＲＭ０
●強化モード（res 0）（残余コーディングを有しない）
●強化モード（res 6）（最も低い６つのハイブリッドＱＭＦバンドに残余コーディングを有する）
●強化モード（res 12）（最も低い１２のハイブリッドＱＭＦバンドに残余コーディングを有する）
●強化モード（res 24）（最も低い２４のハイブリッドＱＭＦバンドに残余コーディングを有する）
●隠れた基準
●下側アンカー（３．５ｋＨｚバンド制限されたバージョンの基準）
【００７５】
提案された強化モードのためのビットレートは、残余コーディングなしで用いられる場合に、ＲＭ０に類似している。他の全ての強化モードは、残余コーディングの６バンド毎に約１０ｋｂｉｔ／ｓを必要とする。
【００７６】
図８ａは、１０人のリスニング被検者によるミュート／カラオケテストの結果を示す。提案された解決策は、ＲＭ０より常に高く、追加の残余コーディングの各ステップとともに増加する平均ＭＵＳＨＲＡスコアがある。ＲＭ０のパフォーマンス上の統計学的に有意な改善は、６以上のバンドの残余コーディングを有するモードに対して、明らかに認めることができる。
【００７７】
図８ｂにおける９人の被検者によるソロテストの結果は、提案された解決策の類似の利点を示す。平均ＭＵＳＨＲＡスコアは、より多くの残余コーディングを加えるときに明らかに増加する。２４バンドの残余コーディングを有する強化モードと有さない強化モード間のゲインは、ほぼ５０ＭＵＳＨＲＡポイントである。
【００７８】
全体として、カラオケアプリケーションのために、ＲＭ０より約１０ｋｂｉｔ／ｓ高いビットレートの代償で良い品質が達成される。ＲＭ０のビットレートのトップに約４０ｋｂｉｔ／ｓを加えるとき、優れた品質が可能である。最大固定ビットレートが与えられた現実的なアプリケーションシナリオにおいては、提案された強化モードは、「使用していないビットレート」を、許容される最大レートに達するまで、残余コーディングにうまく費やすことを可能にする。それ故、最高の総合オーディオ品質が達成される。提示された実験結果を超える更なる改善は、残余ビットレートのより知的な使用により可能である。提示されたセットアップは、ＤＣから特定の上側境界周波数までの残余コーディングを常に用いるが、強化された実施態様では、ＦＧＯとバックグラウンドオブジェクトを分離するために関連する周波数範囲のビットのみを費やす。
【００７９】
前の説明において、カラオケ型アプリケーションのためのＳＡＯＣ技術の強化が記載されていた。ＭＰＥＧ‐ＳＡＯＣのためのマルチチャンネルＦＧＯオーディオシーン処理に対する強化されたカラオケ／ソロモードのアプリケーションの追加の詳細な実施形態が提示される。
【００８０】
変更によって再生されるＦＧＯとは対照的に、ＭＢＯ信号は、変更なしで再生されなければならない。すなわち、あらゆる入力チャンネル信号は、同じ出力チャンネルを通して不変のレベルで再生される。その結果として、ＳＡＯＣエンコーダ、ＭＢＯトランスコーダおよびＭＰＳデコーダを備える次のカラオケ／ソロモード処理ステージに入力される（ステレオの）バックグラウンドオブジェクト（ＢＧＯ）の役割をするステレオダウンミックス信号を産出するＭＰＥＧサラウンドエンコーダによるＭＢＯ信号の前処理が提案された。図９は、再び、全体構成のダイアグラムを示す。
【００８１】
ここで判るように、入力オブジェクトは、カラオケ／ソロモードのコーダ構成に従って、ステレオバックグラウンドオブジェクト（ＢＧＯ）１０４とフォアグラウンドオブジェクト（ＦＧＯ）１１０に分類される。
【００８２】
ＲＭ０において、これらのアプリケーションシナリオの取り扱いは、ＳＡＯＣエンコーダ／トランスコーダシステムによって実行されるが、図６の強化は、付加的にＭＰＥＧサラウンド構成の基本的ビルディングブロックを利用する。エンコーダでの３から２への（ＴＴＴ^-1）ブロックとトランスコーダでの対応する２から３への（ＴＴＴ）補体を組み込むことは、特別なオーディオオブジェクトの強い増強／減衰が必要なときに、パフォーマンスを改善する。拡張構成の２つの主要な特性は、以下の通りである。
・残余信号の利用による、より良好な信号分離（ＲＭ０と比較して）
・その混合仕様を一般化することによる、ＴＴＴ^-1ボックスの中心入力（すなわちＦＧＯ）として表される信号の柔軟な位置決め
【００８３】
ＴＴＴビルディングブロックの直接の実施態様は、エンコーダ側で３つの入力信号を含むので、図６は、図１０に描かれるように（ダウンミックスされた）モノラル信号として、ＦＧＯの処理に重点が置かれた。マルチチャンネルＦＧＯ信号の取り扱いがまた述べられたが、次の章において更に詳細に説明される。
【００８４】
図１０から判るように、図６の強化モードにおいて、すべてのＦＧＯの結合は、ＴＴＴ^-1ボックスの中心チャンネルに供給される。
【００８５】
図６と図１０によるケースのような、ＦＧＯモノラルダウンミックスの場合は、エンコーダでのＴＴＴ^-1ボックスの構成は、中心入力に供給されるＦＧＯと、左右の入力を提供するＢＧＯを備える。基礎をなす対称行列は、次式で与えられる。

【００８６】
この線形システムを通して取得された第３の信号は、破棄されるが、２つの予測係数ｃ₁およびｃ₂（ＣＰＣ）を組み込んだトランスコーダ側で、次式によって復元することができる。

【００８７】
トランスコーダでの逆変換処理は、次式で与えられる。

【００８８】
変数Ｐ_L0、Ｐ_R0、Ｐ_L0R0、Ｐ_L0F0およびＰ_R0F0は、以下のように推定することができる。ここで、パラメータＯＬＤ_L、ＯＬＤ_RおよびＩＯＣ_LRはＢＧＯに対応し、ＯＬＤ_FはＦＧＯパラメータである。

【００８９】
加えて、ＣＰＣの内包によってもたらされるエラーは、次のように、ビットストリーム内で送信することができる残余信号１３２によって表現される。

【００９０】
いくつかのアプリケーションシナリオにおいて、すべてのＦＧＯの単一のモノラルダウンミックスの限定は不適当であり、それゆえに克服される必要がある。例えば、ＦＧＯは、送信されたステレオダウンミックスおよび／または個々の減衰において異なる位置を有する２つ以上の独立グループに分割することができる。それ故、図１１に示されるカスケード接続された構成は、エンコーダ側で所望のステレオダウンミックス１１２が取得されるまで、すべてのＦＧＯグループＦ１、Ｆ２のステップバイステップのダウンミックスを産出する２つ以上の連続するＴＴＴ^-1要素１２４ａ、１２４ｂを意味する。各々の −あるいは少なくともいくつかの− ＴＴＴ^-1ボックス１２４ａ、１２４ｂ（それぞれ図１１の）は、それぞれのステージまたはＴＴＴ^-1ボックス１２４ａ、１２４ｂにそれぞれ対応する残余信号１３２ａ、１３２ｂを設定する。逆にいえば、トランスコーダは、利用可能である場合に、対応するＣＰＣと残余信号を組み込んでいるそれぞれの逐次適用されるＴＴＴボックス１２６ａ、１２６ｂを用いて、逐次アップミックスを実行する。ＦＧＯ処理の順序は、エンコーダで指定され、トランスコーダ側で考慮されなければならない。
【００９１】
図１１に示された２段カスケードに含まれる詳細な数学的計算は、以下に記載される。
【００９２】
一般論における損失なしで、簡略化された具体例として、図１１に示されるように、以下の説明は、２つのＴＴＴ要素から構成されるカスケードに基づいている。２つの対称行列は、ＦＧＯモノラルダウンミックスと類似しているが、次のそれぞれの信号に対して適切に適用されなければならない。

【００９３】
ここで、２セットのＣＰＣは、以下の信号復元に結果としてなる。

【００９４】
逆変換処理は、次式によって表現される。

【００９５】
２段カスケードの特殊ケースは、その左右のチャンネルが対応するＢＧＯのチャンネルに適切に合計され、μ₁＝０とμ₂＝π／２を産出する、１つのステレオのＦＧＯを備える。

【００９６】
この特別なパニングスタイルのために、およびオブジェクト間相関を無視するために、ＯＬＤ_LR＝０であり、２セットのＣＰＣの推定は次のように減縮する。

ここで、ＯＬＤ_FLとＯＬＤ_FRは、それぞれ左右のＦＧＯ信号のＯＬＤを表す。
【００９７】
一般的なＮ段カスケード接続のケースは、次式によってマルチチャンネルＦＧＯダウンミックスを参照する。

ここで、各ステージは、それ自身のＣＰＣと残余信号を特徴づける。
【００９８】
トランスコーダ側で、逆カスケードステップは、次式で与えられる。

【００９９】
ＴＴＴ要素の順序を保存する必要性を廃止するために、カスケード構成は、Ｎマトリクスを１つの単一の対称ＴＴＮマトリクスに再編成することによって、等価な並列回路に容易に変換することができ、これにより次の一般的ＴＴＮスタイルをもたらす。

ここで、マトリクスの最初の２行は、送信されるステレオダウンミックスを表す。一方、用語ＴＴＮ（２からＮ）は、トランスコーダ側でアップミックスする処理に関する。
【０１００】
この記述を用いて、特別にパンされたステレオＦＧＯの特殊ケースは、マトリクスを次のように減縮する。

【０１０１】
したがって、この装置は、２から４要素またはＴＴＦと称することができる。
【０１０２】
ＳＡＯＣステレオ前処理モジュールを再利用するＴＴＦ構成をもたらすことも可能である。
【０１０３】
Ｎ＝４の制限に対して、既存のＳＡＯＣシステムの部分を再利用する２から４（ＴＴＦ）構成の実施態様が実行可能となる。処理は、以下の段落に記載される。
【０１０４】
ＳＡＯＣスタンダードのテキストは、「ステレオからステレオへのトランスコードモード」のためのステレオダウンミックス前処理を記述する。正確には、出力ステレオ信号Ｙは、入力されたステレオ信号Ｘから、非相関化された信号Ｘ_dとともに、以下のように算出される。

【０１０５】
非相関化された成分Ｘ_dは、エンコード処理で既に破棄されたオリジナルの再現された信号の部分の合成表現である。図１２によれば、非相関化された信号は、特定の周波数範囲のための適切なエンコーダで生成された残余信号１３２と置き換えられる。名称は、次のように定義される。
●Ｄは、２×Ｎダウンミックスマトリクス
●Ａは、２×Ｎ再現マトリクス
●Ｅは、入力オブジェクトＳのＮ×Ｎ共分散モデル
●Ｇ_Mod（図１２のＧに対応する）は、予測の２×２アップミックスマトリクス
Ｇ_Modは、Ｄ、ＡおよびＥの関数であることに注意されたい。
【０１０６】
残余信号Ｘ_Resを算出するために、エンコーダにおけるデコーダ処理を模倣する、すなわちＧ_Modを決定することが必要である。
一般的なシナリオにおいて、Ａは知られていないが、カラオケシナリオの特殊ケース（例えば、１つのステレオバックグラウンドと１つのステレオフォアグラウンドオブジェクト（Ｎ＝４）を有する）では、次のように仮定される。

これは、ＢＧＯのみが再生されることを意味する。
【０１０７】
フォアグラウンドオブジェクトの推定のために、復元されたバックグラウンドオブジェクトは、ダウンミックス信号Ｘから減算される。これと最終の再現は、「混合」処理ブロックにおいて実行される。詳細は以下において示される。
【０１０８】
再現マトリクスＡは、次のように設定される。

ここで、最初の２列はＦＧＯの２つのチャンネルを表現し、２番目の２列はＢＧＯの２つのチャンネルを表現する。
【０１０９】
ＢＧＯとＦＧＯのステレオ出力は、以下の数式によって算出される。

【０１１０】
ダウンミックス重み付けマトリクスとして、Ｄは次式のように定義される。

【０１１１】

【０１１２】
Ｘ_Resは、上述のように取得された残余信号である。いかなる非相関化された信号も加算されないことに、是非注意されたい。
【０１１３】
最終出力Ｙは、次式によって与えられる。

【０１１４】
上記実施形態は、また、ステレオＦＧＯの代わりにモノラルＦＧＯが用いられる場合に適用することができる。処理は、次に以下によって変更される。
【０１１５】
再現マトリクスＡは、次のように設定される。

ここで、最初の列はモノラルのＦＧＯを表現し、次の列はＢＧＯの２つのチャンネルを表現する。
【０１１６】
ＢＧＯとＦＧＯのステレオ出力は、以下の数式によって算出される。

【０１１７】
ダウンミックス重み付けマトリクスとして、Ｄは次のように定義される。

【０１１８】

【０１１９】
Ｘ_Resは、上述のように取得された残余信号である。いかなる非相関化された信号も加算されないことに、是非注意されたい。
【０１２０】
最終出力Ｙは、次式によって与えられる。

【０１２１】
４以上のＦＧＯオブジェクトの取り扱いのために、上記実施形態は、ちょうど記載された処理ステップの並列ステージを組み込むことによって拡張することができる。
【０１２２】
上記ちょうど記載された実施形態は、マルチチャンネルＦＧＯオーディオシーンのケースの強化カラオケ／ソロモードの詳細な説明を提供した。この一般化は、ＭＰＥＧ‐ＳＡＯＣ基準モデルのサウンド品質を強化カラオケ／ソロモードのアプリケーションによって更に改善することができる、カラオケアプリケーションシナリオのクラスを拡大することを目的とする。改善は、一般的ＮＴＴ構成をＳＡＯＣエンコーダのダウンミックス部分に、対応する相当品をＳＡＯＣｔｏＭＰＳトランスコーダに、導入することによって達成される。残余信号の使用は、品質結果を強化した。
【０１２３】
図１３ａ〜図１３ｈは、本発明の一実施形態によるＳＡＯＣ副情報ビットストリームの可能な構文を示す。
【０１２４】
ＳＡＯＣコーデックの強化モードに関するいくつかの実施形態を記載した後に、いくつかの実施形態は、ＳＡＯＣエンコーダへのオーディオ入力が標準のモノラルまたはステレオ音源だけでなくマルチチャンネルオブジェクトを含むアプリケーションシナリオに関係していることに留意すべきである。これは、図５〜図７ｂに関して明示的に記載されていた。このようなマルチチャンネルバックグラウンドオブジェクトＭＢＯは、いかなる制御可能な再現機能も必要とされない、大きなそしてしばしば未知の数の音源を含んでいる複合サウンドシーンと考えることができる。個々別々に、これらのオーディオ源は、ＳＡＯＣエンコーダ／デコーダ・アーキテクチャによって効率的に取り扱うことができない。ＳＡＯＣアーキテクチャのコンセプトは、それ故に、これらの複合入力信号、すなわちＭＢＯチャンネルを、典型的なＳＡＯＣオーディオオブジェクトとともに取り扱うために、拡張されると考えることができる。それ故、図５〜図７ｂのちょうど言及された実施形態において、ＳＡＯＣエンコーダ１０８とＭＰＳエンコーダ１００を取り囲む点線によって示されるように、ＭＰＥＧサラウンドエンコーダはＳＡＯＣエンコーダに組み込まれると考えられる。結果として生じるダウンミックス１０４は、トランスコーダ側に送信される複合ステレオダウンミックス１１２を生成する制御可能なＳＡＯＣオブジェクト１１０とともに、ＳＡＯＣエンコーダ１０８へのステレオ入力オブジェクトとして役立つ。パラメータ領域において、ＭＰＳビットストリーム１０６とＳＡＯＣビットストリーム１１４は、特別なＭＢＯアプリケーションシナリオに従って適当なＭＰＳビットストリーム１１８をＭＰＥＧサラウンドデコーダ１２２に提供するＳＡＯＣトランスコーダ１１６に供給される。このタスクは、再現情報または再現マトリクスを用い、ＭＰＳデコーダ１２２のためにダウンミックス信号１１２をダウンミックス信号１２０に変換するため、いくつかのダウンミックス前処理を使用して実行される。
【０１２５】
強化カラオケ／ソロモードの更なる実施形態について、以下に説明する。それは、それらのレベルの増幅／減衰に関して、結果として生じる音質の有意な低下なしで、多くのオーディオオブジェクトの個々の操作を可能にする。特別な「カラオケ‐タイプ」のアプリケーションシナリオは、バックグラウンドサウンドシーンの知覚品質を無傷に保持しつつ、特定のオブジェクト、典型的にはリードボーカル（以下においてフォアグラウンドオブジェクトＦＧＯと呼ばれる）の完全な抑制を必要とする。それは、また、パニングに関してユーザ制御可能性を必要としない静的バックグラウンドオーディオシーン（以下においてバックグラウンドオブジェクトＢＧＯと呼ばれる）なしに、特定のＦＧＯ信号を個別に再生する能力を伴う。このシナリオは「ソロ」モードと称される。典型的なアプリケーションのケースは、ステレオＢＧＯと４つまでのＦＧＯ信号を含み、例えば、２つの独立なステレオオブジェクトを表現することができる。
【０１２６】
この実施形態と図１４によれば、強化カラオケ／ソロ・トランスコーダ１５０は、いずれもＭＰＥＧサラウンド仕様から知られるＴＴＴボックスの一般化され、強化された修正を表現する「２からＮ」（ＴＴＮ）または「１からＮ」（ＯＴＮ）要素１５２のいずれかを組み込む。適当な要素の選択は、送信されるダウンミックスチャンネルの数に従う。すなわち、ＴＴＮボックスは、ステレオダウンミックス信号に専用であり、モノラルのダウンミックス信号のためには、ＯＴＮボックスが適用される。ＳＡＯＣエンコーダの対応するＴＴＮ^-1またはＯＴＮ^-1ボックスは、ＢＧＯとＦＧＯ信号を一般的なＳＡＯＣステレオまたはモノラルダウンミックス１１２に結合し、ビットストリーム１１４を生成する。ダウンミックス信号１１２におけるすべての個々のＦＧＯの任意に定義済みの位置決めは、いずれかの要素、すなわちＴＴＮまたはＯＴＮ１５２によってサポートされる。トランスコーダ側で、ＢＧＯ１５４またはＦＧＯ信号１５６の任意の組み合わせ（外部的に適用される動作モード１５８に従う）は、ＴＴＮまたはＯＴＮボックス１５２によって、ＳＡＯＣ副情報１１４とオプションとして組み込まれた残余信号のみを用いて、ダウンミックス１１２から復元される。復元されたオーディオオブジェクト１５４／１５６と再現情報１６０は、ＭＰＥＧサラウンドビットストリーム１６２と、対応する前処理されたダウンミックス信号１６４を生成するために用いられる。混合ユニット１６６は、ＭＰＳ入力ダウンミックス１６４を取得するためにダウンミックス信号１１２の処理を実行し、ＭＰＳトランスコーダ１６８は、ＳＡＯＣパラメータ１１４のＭＰＳパラメータ１６２へのトランスコードの役割を果たす。ＴＴＮ／ＯＴＮボックス１５２と混合ユニット１６６は、図３の手段５２と５４に対応する強化カラオケ／ソロモード処理１７０を、手段５４に備えられている混合ユニットの機能によって一緒に実行する。
【０１２７】
ＭＢＯは、上記説明されたのと同じように取り扱うことができる。すなわち、それは、次の強化ＳＡＯＣエンコーダに入力されるＢＧＯとして役立つモノラルまたはステレオダウンミックス信号を産出するＭＰＥＧサラウンドエンコーダによって前処理される。このケースでは、トランスコーダは、ＳＡＯＣビットストリームの次に、追加のＭＰＥＧサラウンドビットストリームを提供しなければならない。
【０１２８】
次に、ＴＴＮ（ＯＴＮ）要素によって実行される計算が説明される。第１の所定の時間／周波数分解能４２において表されるＴＴＮ／ＯＴＮマトリクスＭは、次のように２つのマトリクスの積である。

【０１２９】
ＣＰＣは、送信されたＳＡＯＣパラメータ、すなわちＯＬＤ、ＩＯＣ、ＤＭＧ、およびＤＣＬＤから導き出される。
１つの特定のＦＧＯチャンネルｊに対して、ＣＰＣは次によって推定することができる。

【０１３０】
パラメータＯＬＤ_L、ＯＬＤ_RおよびＩＯＣ_LRは、ＢＧＯに対応し、残りはＦＧＯ値である。
【０１３１】
係数ｍ_jとｎ_jは、左右のダウンミックスチャンネルに対するＦＧＯｊのダウンミックス値を表し、ダウンミックスゲインＤＭＧとダウンミックスチャンネルレベル差ＤＣＬＤから導き出される。

【０１３２】
ＯＴＮ要素に関して、第２のＣＰＣ値ｃ_j2の演算は冗長になる。
【０１３３】
２つのオブジェクトグループＢＧＯとＦＧＯを復元するため、ダウンミックス情報は、信号Ｆ０₁からＦ０_Nの線形結合を更に処方するために拡張されたダウンミックスマトリクスＤの逆変換に利用される。すなわち、

【０１３４】
以下に、エンコーダ側のダウンミックスが詳述される。ＴＴＮ‐¹要素内で、拡張ダウンミックスマトリクスは、次の通りである。

また、ＯＴＮ‐¹要素については、次の通りである。

【０１３５】
ＴＴＮ／ＯＴＮ要素の出力は、ステレオＢＧＯとステレオダウンミックスに対して、次を産出する。

ＢＧＯおよび／またはダウンミックスがモノラルの信号である場合は、線形システムはそれに応じて変化する。
【０１３６】

【０１３７】
実施形態によれば、以下のＴＴＮマトリクスが、エネルギーモードにおいて用いられる。
【０１３８】
エネルギーベースのエンコード／デコード処理は、ダウンミックス信号の非波形保存コーディングに向けて設計される。このように、対応するエネルギーモードのためのＴＴＮアップミックスマトリクスは、特定の波形に依存せず、入力オーディオオブジェクトの相対エネルギー分布を記述するだけである。このマトリクスＭ_Energyの要素は、対応するＯＬＤから次式によって取得される。

【０１３９】
従って、モノラルダウンミックスのために、エネルギーベースのアップミックスマトリクスＭ_Energyは、次のようになる。
ステレオＢＧＯに対しては、

【０１４０】

【０１４１】
再び、信号（Ｆ０₁…Ｆ０_N）^Tは、デコーダ／トランスコーダに送信されない。むしろ、同上はデコーダ側で上述したＣＰＣによって予測される。
【０１４２】
この点に関して、残余信号ｒｅｓは、デコーダによって無視することさえできることに、再び注意されたい。このケースでは、デコーダ −例えば手段５２− は、単にＣＰＣに基礎をおいた疑似信号を次によって予測する。

【０１４３】
次に、ＢＧＯおよび／またはＦＧＯは、−例えば手段５４によって− エンコーダの４つの可能な線形結合のうちの１つの逆変換によって取得される。

ここで、Ｄ^-1は、再びパラメータＤＭＧとＤＣＬＤの関数である。
【０１４４】
このように、全体として、残余の無視できるＴＴＮ（ＯＴＮ）ボックス１５２は、両方ともちょうど言及された次の演算ステップを演算する。

【０１４５】
Ｄの逆変換は、Ｄが正方である場合は、直接取得できることに注意されたい。非正方マトリクスＤの場合は、Ｄの逆変換は、疑似逆変換しなければならない。すなわち、

いずれにせよ、Ｄの逆変換が存在する。
【０１４６】
最後に、図１５は、副情報内で、残余データを転送するために費やされるデータ量をどのように設定するかの更なる可能性を示す。この構文によれば、副情報は、bsResidualSamplingFrequencyIndex、すなわち、例えば指標に対する周波数分解能に関連するテーブルの指標を備える。あるいは、分解能は、フィルタバンクの分解能またはパラメータ分解能のような予め定められた分解能であると推測することができる。更に、副情報は、残余信号が転送される際の時間分解能を定義するbsResidualFramesPerSAOCFrameを備える。また副情報に備えられるBsNumGroupsFGOは、ＦＧＯの数を示す。各ＦＧＯに対して、それぞれのＦＧＯに対して残余信号が送信されるか否かを示す構文要素bsResidualPresentが送信される。存在する場合は、bsResidualBandsは、残余信号が送信されるためのスペクトルバンドの数を示す。
【０１４７】
実際の実施態様に従って、発明のエンコード／デコード方法は、ハードウェアで、または、ソフトウェアで実現することができる。それ故、本発明は、ＣＤ、ディスクまたはその他のデータキャリアのようなコンピュータ読取可能な媒体に保存することができるコンピュータプログラムにも関する。本発明は、それ故、コンピュータ上で実行されるときに、上記図面に関連して記載された発明のエンコード方法または発明のデコード方法を実行するプログラムコードを有するコンピュータプログラムでもある。

【特許請求の範囲】
【請求項１】
第１タイプのオーディオ信号とエンコードされた第２タイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードするオーディオデコーダであって、
前記マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号（５６）と副情報（５８）とから成り、前記副情報は、第１の所定の時間／周波数分解能（４２）における前記第１タイプのオーディオ信号と前記第２タイプのオーディオ信号のレベル情報（６０）と、第２の所定の時間／周波数分解能における残余レベル値を特定する残余信号（６２）とを備えるものであって、
前記レベル情報（６０）に基づいて予測係数（６４）を演算する手段（５２）と、
前記第１タイプのオーディオ信号を近似する第１のアップミックスオーディオ信号、および／または、前記第２タイプのオーディオ信号を近似する第２のアップミックスオーディオ信号を取得するために、前記予測係数（６４）と前記残余信号（６２）に基づいて前記ダウンミックス信号（５６）をアップミックスする手段とを備える、
オーディオデコーダ。
【請求項２】
前記副情報（５８）は、それに従って前記第１タイプのオーディオ信号と前記第２タイプのオーディオ信号が前記ダウンミックス信号（５６）にダウンミックスされるダウンミックス処方を更に備え、前記アップミックスする手段は、前記ダウンミックス処方に更に基づいて、前記アップミックスを実行するように構成された、請求項１に記載のオーディオデコーダ。
【請求項３】
前記ダウンミックス処方は、前記副情報内で時間変化する、請求項２に記載のオーディオデコーダ。
【請求項４】
前記ダウンミックス処方は、前記副情報内でフレームサイズよりも粗い分解能で時間変化する、請求項２または３に記載のオーディオデコーダ。
【請求項５】
前記ダウンミックス処方は、それによって前記ダウンミックス信号が第１タイプのオーディオ信号と前記第２タイプのオーディオ信号に基づいて混合される重み付けを示す、請求項２〜４のいずれかに記載のオーディオデコーダ。
【請求項６】
前記第１タイプのオーディオ信号は、第１と第２入力チャンネルを有するステレオオーディオ信号、または、第１入力チャンネルのみを有するモノラルオーディオ信号であり、前記ダウンミックス信号は、第１と第２出力チャンネルを有するステレオオーディオ信号、または、第１出力チャンネルのみを有するモノラルオーディオ信号であり、前記レベル情報は、前記第１入力チャンネル、前記第２入力チャンネルおよび前記第２タイプのオーディオ信号のそれぞれの間の、前記第１の所定の時間／周波数分解能でのレベル差を記述し、前記副情報は、前記第１と第２入力チャンネル間の、第３の所定の時間／周波数分解能におけるレベル類似性を定義する相互相関情報を更に備え、前記演算する手段は、前記相互相関情報に更に基づいて前記演算を実行するように構成された、請求項１〜５のいずれかに記載のオーディオデコーダ。
【請求項７】
前記第１と第３の時間／周波数分解能は、前記副情報内で一般的な文法要素によって決定される、請求項６に記載のオーディオデコーダ。
【請求項８】
前記演算する手段と前記アップミックスする手段は、前記アップミックスが、前記ダウンミックス信号と前記残余信号から成るベクトルのアプライアンスによって一連の第１と第２のマトリクスに表現することができ、前記第１のマトリクス（Ｃ）は、前記予測係数から成り、前記第２のマトリクス（Ｄ）は、それにより前記第１タイプのオーディオ信号と前記第２タイプのオーディオ信号が前記ダウンミックス信号にダウンミックスされるダウンミックス処方によって定義され、これも前記副情報に備えられるように構成された、請求項６または７に記載のオーディオデコーダ。
【請求項９】
前記演算する手段と前記アップミックスする手段は、前記第１のマトリクスが、前記ベクトルを、前記第１タイプのオーディオ信号のための第１の成分および／または前記第２タイプのオーディオ信号のための第２の成分を有する中間ベクトルにマップするように構成され、前記ダウンミックス信号が、前記第１の成分上に１対１でマップされるように定義され、前記残余信号と前記ダウンミックス信号の線形結合が、前記第２の成分上にマップされるように構成された、請求項８に記載のオーディオデコーダ。
【請求項１０】
前記マルチ‐オーディオ‐オブジェクト信号は、複数の前記第２タイプのオーディオ信号を備え、前記副情報は、前記第２タイプのオーディオ信号当り１つの残余信号を備える、請求項１から９のいずれかに記載のオーディオデコーダ。
【請求項１１】
前記第２の所定の時間／周波数分解能は、前記副情報に含まれる残余分解能パラメータによって前記第１の所定の時間／周波数分解能と関係し、前記オーディオデコーダは、前記副情報から前記残余分解能パラメータを導き出す手段を備えた、請求項１から１０のいずれかに記載のオーディオデコーダ。
【請求項１２】
前記残余分解能パラメータは、前記副情報内で前記残余信号が送信されるスペクトル範囲を定義する、請求項１１に記載のオーディオデコーダ。
【請求項１３】
前記残余分解能パラメータは、前記スペクトル範囲の下側と上側の制限を定める、請求項１２に記載のオーディオデコーダ。
【請求項１４】

ここで、

ここで、‐前記第１タイプのオーディオ信号がステレオの場合は‐、ＯＬＤ_Lは、前記それぞれの時間／周波数タイルにおける前記第１タイプのオーディオ信号の第１入力チャンネルの正規化されたスペクトルエネルギーを示し、ＯＬＤ_Rは、前記それぞれの時間／周波数タイルにおける前記第１タイプのオーディオ信号の第２入力チャンネルの正規化されたスペクトルエネルギーを示し、ＩＯＣ_LRは、前記それぞれの時間／周波数タイル内の前記第１と第２入力チャンネルの間のスペクトルエネルギーの類似性を定義する相互相関情報を示し、または、‐前記第１タイプのオーディオ信号がモノラルの場合は‐、ＯＬＤ_Lは、前記それぞれの時間／周波数タイルにおける前記第１タイプのオーディオ信号の正規化されたスペクトルエネルギーを示し、ＯＬＤ_RおよびＩＯＣ_LRは零となり、
また、ＯＬＤ_jは、前記それぞれの時間／周波数タイルにおける前記第２タイプのオーディオ信号のチャンネルｊの正規化されたスペクトルエネルギーを示し、ＩＯＣ_ijは、前記それぞれの時間／周波数タイル内での前記第２タイプのオーディオ信号のチャンネルｉとｊの間のスペクトルエネルギーの類似性を定義する相互相関情報を示し、
ここで、

ここで、ＤＣＬＤとＤＭＧは、ダウンミックス処方であり、
前記アップミックスする手段は、第２のアップミックス信号Ｓ_2,i当りの前記ダウンミックス信号ｄと前記残余信号ｒｅｓ_iから、前記第１のアップミックス信号Ｓ₁および／または前記第２のアップミックス信号Ｓ_2,iを、次式によって産出するように構成され、

ここで、上左角の「１」は、‐ｄ^n,kのチャンネル数に依存する‐ スカラーまたは単位行列であることを示し、下右側角の「１」は、サイズＮの単位行列であり、「０」は、零ベクトルまたは‐ｄ^n,kのチャンネル数に依存する‐ マトリクスを示し、Ｄ‐¹は、それに従って前記第１タイプのオーディオ信号と前記第２タイプのオーディオ信号が前記ダウンミックス信号にダウンミックスされるダウンミックス処方によって一意に決定されるマトリックスであり、これも前記副情報に備えられ、ｄ^n,kとｒｅｓ_i^n,kは、それぞれ、時間／周波数タイル（ｎ，ｋ）での前記ダウンミックス信号と前記残余信号であり、前記副情報に備えられないｒｅｓ_i^n,kは、零に設定される、
請求項１から１３のいずれかに記載のオーディオデコーダ。
【請求項１５】
Ｄ^-1は、
前記ダウンミックス信号がステレオであって、Ｓ₁がステレオである場合は、次の逆行列であり、

前記ダウンミックス信号がステレオであって、Ｓ₁がモノラルである場合は、次の逆行列であり、

前記ダウンミックス信号がモノラルであって、Ｓ１がステレオである場合は、次の逆行列であり、

前記ダウンミックス信号がモノラルであって、Ｓ１がモノラルである場合は、次の逆行列である、

請求項１４に記載のオーディオデコーダ。
【請求項１６】
前記マルチ‐オーディオ‐オブジェクト信号は、前記第１タイプのオーディオ信号を所定のスピーカ構成上に空間的に再現する空間再現情報を備える、請求項１から１５のいずれかに記載のオーディオデコーダ。
【請求項１７】
前記アップミックする手段は、前記第２のアップミックスオーディオ信号から分離された前記第１のアップミックスオーディオ信号を空間的に再現し、前記第１のアップミックスオーディオ信号から分離された前記第２のアップミックスオーディオ信号を空間的に再現し、または前記第１のアップミックスオーディオ信号と前記第２のアップミックスオーディオ信号を混合し、それによる混合バージョンを所定のスピーカ構成上に空間的に再現するように構成された、請求項１から１６のいずれかに記載のオーディオデコーダ。
【請求項１８】
第１の所定の時間／周波数分解能で、第１タイプのオーディオ信号と第２タイプのオーディオ信号のレベル情報を演算する手段と、
前記レベル情報に基づいて、予測係数を演算する手段と、
ダウンミックス信号を取得するために、前記第１タイプのオーディオ信号と前記第２タイプのオーディオ信号をダウンミックスする手段と、
第２の所定の時間／周波数分解能で、残余レベル値を特定する残余信号を設定する手段であって、前記予測係数と前記残余信号の両方に基づいて前記ダウンミックス信号をアップミックスすることが、前記第１タイプのオーディオ信号を近似する第１のアップミックスオーディオ信号と、前記第２タイプのオーディオ信号を近似する第２のアップミックスオーディオ信号とに結果としてなるようにし、前記近似が前記残余信号がない場合に比較して改善される、残余信号を設定する手段と、
を備え、
前記レベル情報と前記残余信号は、前記ダウンミックス信号とともに、マルチ‐オーディオ‐オブジェクト信号を形成する副情報に備えられている、
オーディオオブジェクトエンコーダ。
【請求項１９】
第１タイプのオーディオ信号と第２タイプのオーディオ信号をスペクトルで分解する手段を更に備えた、請求項１８に記載のオーディオオブジェクトエンコーダ。
【請求項２０】
第１タイプのオーディオ信号とエンコードされた第２タイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードする方法であって、
前記マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号（５６）と副情報（５８）とから成り、前記副情報は、第１の所定の時間／周波数分解能（４２）における前記第１タイプのオーディオ信号と前記第２タイプのオーディオ信号のレベル情報（６０）と、第２の所定の時間／周波数分解能における残余レベル値を特定する残余信号（６２）とを含むものであって、
前記レベル情報（６０）に基づいて予測係数（６４）を演算するステップと、
前記第１タイプのオーディオ信号を近似する第１のアップミックスオーディオ信号、および／または、前記第２タイプのオーディオ信号を近似する第２のアップミックスオーディオ信号を取得するために、前記予測係数（６４）と前記残余信号（６２）に基づいて前記ダウンミックス信号（５６）をアップミックスするステップとを備える、
マルチ‐オーディオ‐オブジェクト信号をデコードする方法。
【請求項２１】
第１の所定の時間／周波数分解能で、第１タイプのオーディオ信号と第２タイプのオーディオ信号のレベル情報を演算するステップと、
前記レベル情報に基づいて、予測係数を演算するステップと、
ダウンミックス信号を取得するために、前記第１タイプのオーディオ信号と前記第２タイプのオーディオ信号をダウンミックスするステップと、
第２の所定の時間／周波数分解能で、残余レベル値を特定する残余信号を設定するステップであって、前記予測係数と前記残余信号に基づいて前記ダウンミックス信号をアップミックスすることが、前記第１タイプのオーディオ信号を近似する第１のアップミックスオーディオ信号と、前記第２タイプのオーディオ信号を近似する第２のアップミックスオーディオ信号とに結果としてなるようにし、前記近似が前記残余信号のない場合に比較して改善される、残余信号を設定するステップと、
を備え、
前記レベル情報と前記残余信号は、前記ダウンミックス信号とともに、マルチ‐オーディオ‐オブジェクト信号を形成する副情報に備えられている、
マルチ‐オーディオ‐オブジェクトをエンコードする方法。
【請求項２２】
処理装置上で動作するときに、請求項２０または２１に記載された方法を実行するプログラムコードを有する、コンピュータプログラム。
【請求項２３】
第１タイプのオーディオ信号とエンコードされた第２のタイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号であって、
ダウンミックス信号と副情報とから成り、前記副情報は、第１の所定の時間／周波数分解能における前記第１タイプのオーディオ信号と前記第２タイプのオーディオ信号のレベル情報と、第２の所定の時間／周波数分解能における残余レベル値を特定する残余信号とを含み、
前記レベル情報に基づいて予測係数を演算し、前記予測係数に基づいて前記ダウンミックス信号をアップミックスし、前記残余信号が、前記第１タイプのオーディオ信号を近似する第１のアップミックスオーディオ信号と、前記第２タイプのオーディオ信号を近似する第２のアップミックスオーディオ信号とに結果としてなるように、前記残余信号が設定される、
マルチ‐オーディオ‐オブジェクト信号。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７ａ】

【図７ｂ】

【図８ａ】

【図８ｂ】

【図９】

【図１０】

【図１１】

【図１２】

【図１３ａ】

【図１３ｂ】

【図１３ｃ】

【図１３ｄ】

【図１３ｅ】

【図１３ｆ】

【図１３ｇ】

【図１３ｈ】

【図１４】

【図１５】

【公表番号】特表２０１１−５０１５４４（Ｐ２０１１−５０１５４４Ａ）
【公表日】平成２３年１月６日（２０１１．１．６）
【国際特許分類】

【出願番号】特願２０１０−５２９２９２（Ｐ２０１０−５２９２９２）
【出願日】平成２０年１０月１７日（２００８．１０．１７）
【国際出願番号】ＰＣＴ／ＥＰ２００８／００８７９９
【国際公開番号】ＷＯ２００９／０４９８９５
【国際公開日】平成２１年４月２３日（２００９．４．２３）
【出願人】（５９１０３７２１４）フラウンホッファー−ゲゼルシャフト　ツァ　フェルダールング　デァ　アンゲヴァンテン　フォアシュンク　エー．ファオ (259)

[ Back to top ]

ダウンミックスを用いたオーディオコーディング

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ダウンミックスを用いたオーディオコーディング

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク