ダウンミックスを用いたオーディオコーディング
第1タイプのオーディオ信号とエンコードされた第2のタイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードするオーディオデコーダが記載される。マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号(56)と副情報(58)とから成り、副情報は、第1の所定の時間/周波数分解能(42)における第1タイプのオーディオ信号と第2タイプのオーディオ信号のレベル情報(60)と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号(62)とを含む。オーディオデコーダは、レベル情報(60)に基づいて予測係数(64)を演算する手段(52)と、第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号、および/または、第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号を取得するために、予測係数(64)と残余信号(62)に基づいてダウンミックス信号(56)をアップミックスする手段とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、信号のダウンミックスを用いたオーディオコーディングに関する。
【背景技術】
【0002】
多くのオーディオコーディングアルゴリズムは、1つのチャンネルのオーディオデータ、すなわちモノラルのオーディオデータを効果的にエンコードまたは圧縮するために提案されていた。音響心理学を用いて、オーディオサンプルは、適切に基準化され、量子化され、または、例えばPCMコード化されたオーディオ信号から不適切なものを除去するために、零に設定されることさえある。冗長性の除去も実行される。
【0003】
更なるステップとして、ステレオオーディオ信号の左右のチャンネル間の類似性は、ステレオオーディオ信号を効果的にエンコード/圧縮するために利用されていた。
【発明の概要】
【0004】
しかしながら、来るべきアプリケーションは、オーディオコーディングアルゴリズムに関して更なる要求を提起する。例えば、遠隔会議、コンピュータゲーム、音楽パフォーマンス、その他において、部分的にまたはさらには完全に無相関であるいくつかのオーディオ信号は、並列に送信されなければならない。低ビットレートの伝送アプリケーションに対して互換性を持つように、これらのオーディオ信号をエンコードするのに必要なビットレートを十分に低く保つため、近年、多重の入力オーディオ信号を、ステレオまたはさらにはモノラルのダウンミックス信号のようなダウンミックス信号にダウンミックスするオーディオコーデックが提案されている。例えば、MPEGサラウンドスタンダードは、当該スタンダードによって規定された方法で、入力チャンネルをダウンミックス信号にダウンミックスする。ダウンミックスは、2つの信号を1つにおよび3つの信号を2つに、それぞれダウンミックスするためのいわゆるOTT-1およびTTT-1ボックスを用いて実行される。3つを超える信号をダウンミックスするためには、これらのボックスの階層構造が用いられる。各OTT-1ボックスは、モノラルのダウンミックス信号の他に、2つの入力チャンネルの間のチャンネルレベル差、並びに、2つの入力チャンネルの間の干渉性または相互相関を表現するチャンネル間干渉性/相互相関パラメータを出力する。前記パラメータは、MPEGサラウンドデータストリーム内で、MPEGサラウンドコーダのダウンミックス信号と一緒に出力される。同様に、各TTT-1ボックスは、結果として生じたステレオダウンミックス信号から3つの入力チャンネルを復元することを可能にするチャンネル予測係数を送信する。チャンネル予測係数は、また、MPEGサラウンドデータストリーム内の副情報として送信される。MPEGサラウンドデコーダは、送信された副情報を用いてダウンミックス信号をアップミックスし、MPEGサラウンドエンコーダに入力されるオリジナルチャンネルを復元する。
【0005】
しかしながら、MPEGサラウンドは、残念なことに、多くのアプリケーションによって提起されるすべての要求を満たさない。例えば、MPEGサラウンドデコーダは、MPEGサラウンドエンコーダの入力チャンネルが以前のように復元されるように、MPEGサラウンドエンコーダのダウンミックス信号をアップミックスするために専用される。言い換えれば、MPEGサラウンドデータストリームは、エンコードに用いられたスピーカ構成を用いて再生されるために専用される。
【0006】
しかしながら、いくつかの意味合いによって、スピーカ構成をデコーダ側で変えることができるならば好都合であろう。
【0007】
後者の要求に対処するため、空間オーディオオブジェクトコーディング(SAOC)スタンダードが、現在設計されている。各チャンネルは、個々のオブジェクトとみなされ、すべてのオブジェクトがダウンミックス信号にダウンミックスされる。しかしながら、加えて、個々のオブジェクトは、例えば楽器またはボーカルトラックのような、個々の音源をも備えることができる。しかしながら、MPEGサラウンドデコーダと異なり、SAOCデコーダは、任意のスピーカ構成上に個々のオブジェクトを再生するために、ダウンミックス信号を自由に個別にアップミックスする。SAOCデコーダがSAOCデータストリームにエンコードされた個々のオブジェクトを復元することを可能とするために、オブジェクトレベル差と、一緒にステレオ信号(またはマルチチャンネル信号)を形成しているオブジェクトに対するオブジェクト間相互相関パラメータが、SAOCビットストリーム内の副情報として送信される。この他に、SAOCデコーダ/トランスコーダは、どのように個々のオブジェクトがダウンミックス信号にダウンミックスされたかを明らかにする情報を備えている。このように、デコーダ側において、個々のSAOCチャンネルを復元し、ユーザ制御された再現情報を利用することによって、これらの信号を任意のスピーカ構成上に再現することが可能である。
【0008】
しかしながら、SAOCコーデックは、オーディオオブジェクトを個別に取り扱うために設計されているが、いくつかのアプリケーションは、さらに要求が厳しい。例えば、カラオケアプリケーションは、バックグラウンドオーディオ信号を、フォアグラウンドオーディオ信号または複数のフォアグラウンドオーディオ信号から完全に分離することを必要とする。その逆も同じであり、ソロモードでは、フォアグラウンドオブジェクトは、バックグラウンドオブジェクトから分離されなければならない。しかしながら、個々のオーディオオブジェクトの等しい取り扱いのために、バックグラウンドオブジェクトまたはフォアグラウンドオブジェクトをそれぞれダウンミックス信号から完全に取り除くことは可能でなかった。
【0009】
このように、本発明の目的は、オーディオ信号のダウンミックス用いて、例えば、カラオケ/ソロモードアプリケーションにおいて、個々のオブジェクトのより良好な分離が達成されるようなオーディオコーデックを提供することである。
【0010】
この目的は、請求項1に記載のオーディオデコーダ、請求項18に記載のオーディオエンコーダ、請求項20に記載のデコード方法、請求項21に記載のエンコード方法、および請求項23に記載のマルチ‐オーディオ‐オブジェクト信号によって達成される。
【図面の簡単な説明】
【0011】
本願の好ましい実施形態は、以下の図面を参照して更に詳細に記載される。
【図1】本発明の実施形態が実装することのできるSAOCエンコーダ/デコーダ装置のブロック図を示す。
【図2】モノラルオーディオ信号のスペクトル表現の図解および例示した図を示す。
【図3】本発明の一実施形態によるオーディオデコーダのブロック図を示す。
【図4】本発明の一実施形態によるオーディオエンコーダのブロック図を示す。
【図5】一比較実施形態として、カラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図6】一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図7a】一比較実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダのブロック図を示す。
【図7b】一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダのブロック図を示す。
【図8a】品質測定結果のプロットを示す。
【図8b】品質測定結果のプロットを示す。
【図9】比較の目的のため、カラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図10】一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図11】更なる実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図12】更なる実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図13a】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13b】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13c】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13d】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13e】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13f】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13g】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13h】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図14】一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオデコーダのブロック図を示す。
【図15】残余信号を送信するために費やされるデータ量を信号送信するための可能な構文を反映したテーブルを示す。
【発明を実施するための形態】
【0012】
本発明の実施形態が以下においてより詳細に記載される前に、SAOCコーデックと、SAOCビットストリームにおいて送信されるSAOCパラメータが、以下の更なる詳細において概説される特定の実施形態の理解を容易にするために、提示される。
【0013】
図1は、SAOCエンコーダ10とSAOCデコーダ12の一般的装置を示す。SAOCエンコーダ10は、入力としてN個のオブジェクト、すなわちオーディオ信号141〜14Nを受信する。特に、エンコーダ10は、オーディオ信号141〜14Nを受信するダウンミックス装置16を備え、それをダウンミックス信号18にダウンミックスする。図1において、ダウンミックス信号は、ステレオダウンミックス信号として例示される。しかしながら、モノラルダウンミックス信号も、同様に可能である。ステレオダウンミックス信号18のチャンネルは、L0とR0で示され、モノラルダウンミックス信号の場合は、単にL0で示される。SAOCデコーダ12が個々のオブジェクト141〜14Nを復元することを可能とするため、ダウンミックス装置16は、オブジェクトレベル差(OLD)、オブジェクト間相互相関パラメータ(IOC)、ダウンミックスゲイン値(DMG)、およびダウンミックスチャンネルレベル差(DCLD)を含むSAOCパラメータを含んだ副情報を、SAOCデコーダ12に提供する。SAOCパラメータを含む副情報20は、ダウンミックス信号18とともに、SAOCデコーダ12によって受信されるSAOC出力データストリームを形成する。
【0014】
SAOCデコーダ12は、オーディオ信号141〜14Nを復元し、SAOCデコーダ12に入力された再現情報26によって規定された再現によって任意のユーザ選択されたチャンネルのセット241〜24M上に再現するために、ダウンミックス信号18ならび副情報20を受信するアップミックス装置22を備える。
【0015】
オーディオ信号141〜14Nは、例えば時間またはスペクトル領域のような任意のコーディング領域において、ダウンミックス装置16に入力することができる。PCMコード化されたように、オーディオ信号141〜14Nが時間領域でダウンミックス装置16に供給されるケースでは、ダウンミックス装置16は、信号を、特定のフィルタバンクの分解能で、オーディオ信号が異なるスペクトル部分に関連するいくつかのサブバンドで表現されるスペクトル領域に転送させるために、ハイブリッドQMFバンク、すなわち最低周波数バンドに対するナイキストフィルタ拡張を有し、周波数分解能を増大させる複合指数変調されたフィルタのバンクのような、フィルタバンクを用いる。オーディオ信号141〜14Nが既にダウンミックス装置16によって期待される表現である場合は、スペクトル分解を実行する必要はない。
【0016】
図2は、ちょうど言及されたスペクトル領域のオーディオ信号を示す。ここで判るように、オーディオ信号は、複数のサブバンド信号として表現される。各サブバンド信号301〜30Pは、小さなボックス32によって示される一連のサブバンド値から成る。ここで判るように、サブバンド信号301〜30Pのサブバンド値32は、時間においてお互いに同期しているので、連続的なフィルタバンクタイムスロット34の各々に対して、各サブバンド301〜30Pは厳密な1つのサブバンド値32を備える。周波数軸36で図示されるように、サブバンド信号301〜30Pは、異なる周波数領域に関連しており、時間軸38で図示されるように、フィルタバンクのタイムスロット34は時間において連続的に配列される。
【0017】
上記概説されたように、ダウンミックス装置16は、入力オーディオ信号141〜14Nから、SAOCパラメータを演算する。ダウンミックス装置16は、この演算を、フィルタバンクタイムスロット34とサブバンド分解によって定義されるオリジナルの時間/周波数分解能と比較して特定の量だけ減少することができる時間/周波数分解能において実行し、この特定の量は、それぞれの構文要素bsFrameLengthおよびbsFreqResによって副情報20の中でデコーダ側に信号送信される。例えば、一群の連続するフィルタバンクタイムスロット34は、フレーム40を形成することができる。言い換えれば、オーディオ信号は、例えば、時間においてオーバーラップする、または、時間において直に隣接するフレームに分割することができる。このケースでは、bsFrameLengthは、パラメータタイムスロット41の数、すなわち、SOACフレーム40においてOLDとIOCのようなSAOCパラメータが演算される時間単位を定義することができ、bsFreqResは、SAOCパラメータが演算される処理周波数バンドの数を定義することができる。この尺度によって、各フレームは、図2において破線42で例示される時間/周波数タイルに分割される。
【0018】
ダウンミックス装置16は、以下の数式によってSAOCパラメータを算出する。特に、ダウンミックス装置16は、次のように各オブジェクトiに対するオブジェクトレベル差を演算する。
ここで、合計および指標nとkは、それぞれ、すべてのフィルタバンクタイムスロット34と、特定の時間/周波数タイル42に属するすべてのフィルタバンクサブバンド30とを通過する。これにより、オーディオ信号またはオブジェクトiのすべてのサブバンド値xiのエネルギーは合計され、すべてのオブジェクトまたはオーディオ信号の中のそのタイルの最高エネルギーに正規化される。
【0019】
更に、SAOCダウンミックス装置16は、異なる入力オブジェクト141〜14Nのペアの対応する時間/周波数タイルの類似性尺度を演算することができる。SAOCダウンミックス装置16は、入力オブジェクト141〜14Nのすべてのペアの間の類似性尺度を演算することができるが、ダウンミックス装置16は、類似性尺度の信号送信を抑制するか、または、類似性尺度の演算を一般的なステレオチャンネルの左右のチャンネルを形成するオーディオオブジェクト141〜14Nに限定することもできる。いずれのケースも、類似性尺度は、オブジェクト間相互相関パラメータIOCi,jと呼ばれる。その演算は次の通りである。
ここで、再び、指標nとkは、特定の時間/周波数タイル42に属するすべてのサブバンド値を通り、iとjは、オーディオオブジェクト141〜14Nの特定のペアを表す。
【0020】
ダウンミックス装置16は、各オブジェクト141〜14Nに適用されるゲイン係数を用いて、オブジェクト141〜14Nをダウンミックスする。すなわち、ゲイン係数Diは、オブジェクトiに適用され、そしてそれにより重み付けられたすべてのオブジェクト141〜14Nは、モノラルのダウンミックス信号を取得するために合計される。図1に例示されるステレオダウンミックス信号のケースでは、ゲイン係数D1,iは、オブジェクトiに適用され、そしてそのようなゲインで増幅されたすべてのオブジェクトは、左のダウンミックスチャンネルL0を取得するために合計され、ゲイン係数D2,iは、オブジェクトiに適用され、そしてそれによりゲイン増幅されたオブジェクトは、右のダウンミックスチャンネルR0を取得するために合計される。
【0021】
このダウンミックス処方は、ダウンミックスゲインDMGiと、ステレオダウンミックス信号のケースではダウンミックスチャンネルレベル差DCLDiとによって、デコーダ側に信号送信される。
【0022】
ダウンミックスゲインは、次式によって算出される。
ここで、εは10―9のような小さな数である。
【0023】
DCLDに対しては、次式を適用する。
【0024】
通常モードにおいて、ダウンミックス装置16は、それぞれ次式によってダウンミックス信号を生成する。
【0025】
このように、上述した計算式において、パラメータOLDとIOCはオーディオ信号の関数であり、パラメータDMGとDCLDはDの関数である。ところで、Dは時間において変化することができることに注意されたい。
【0026】
このように、通常モードにおいて、ダウンミックス装置16は、すべてのオブジェクト141〜14Nを、優先的取扱いなしで、すなわちすべてのオブジェクト141〜14Nを等しく取り扱って混合する。
【0027】
アップミックス装置22は、ダウンミックス処理の逆変換と、1つの演算ステップにおいてマトリクスAによって表現される再現情報の実施態様を実行する。すなわち、
ここで、マトリクスEは、パラメータOLDとIOCの関数である。
【0028】
言い換えれば、通常モードにおいて、オブジェクト141〜14Nの、BGOすなわちバックグラウンドオブジェクト、またはFGOすなわちフォアグラウンドオブジェクトへのいかなる分類も実行されない。どのオブジェクトがアップミックス装置22の出力で提供されるかの情報は、再現マトリクスAによって提供される。例えば、指標1のオブジェクトがステレオバックグラウンドオブジェクトの左チャンネル、指標2のオブジェクトがその右チャンネル、指標3のオブジェクトがフォアグラウンドオブジェクトであったとき、再現マトリクスAは、
となり、カラオケタイプの出力信号を生成する。
【0029】
しかしながら、すでに上記で示されたように、SAOCコーデックのこの通常モードを用いたBGOとFGOの送信は、受け入れ可能な結果を達成できない。
【0030】
図3と図4は、まさに記載された欠陥を克服する本発明の実施形態を記載する。これらの図に記載されたデコーダとエンコーダ、およびそれらに関連する機能は、図1のSAOCコーデックを切換可能とすることができる「強化モード」のような追加モードを表現することができる。後者の可能性のための実施形態は、以下に示される。
【0031】
図3は、デコーダ50を示す。デコーダ50は、予測係数を演算する手段52と、ダウンミックス信号をアップミックスする手段54とを備える。
【0032】
図3のオーディオデコーダ50は、第1タイプのオーディオ信号とエンコードされた第2タイプのオーディオ信号を有するマルチ‐オーディオ‐オブジェクト信号をデコードするための専用である。第1タイプのオーディオ信号と第2タイプのオーディオ信号は、それぞれモノラルまたはステレオのオーディオ信号とすることができる。第1タイプのオーディオ信号は、例えば、バックグラウンドオブジェクトであるのに対して、第2タイプのオーディオ信号は、フォアグラウンドオブジェクトである。すなわち、図3と図4の実施形態は、カラオケ/ソロモードアプリケーションに必ずしも限定されない。むしろ、図3のデコーダと図4のエンコーダは、他のところで都合よく用いることができる。
【0033】
マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号56と副情報58から成る。副情報58は、例えば、時間/周波数分解能42のような第1の所定の時間/周波数分解能における、第1タイプのオーディオ信号と第2タイプのオーディオ信号のスペクトルエネルギーを記述するレベル情報60を備える。特に、レベル情報60は、オブジェクトと時間/周波数タイル当りの正規化されたスペクトルエネルギーのスカラー値を備えることができる。正規化は、それぞれの時間/周波数タイルで、第1と第2タイプのオーディオ信号の中の最も高いスペクトルエネルギー値に関係することができる。後者の可能性は、レベル情報を表現するOLDに結果としてなり、本願明細書においてレベル差情報とも呼ばれる。以下の実施形態はOLDを用いているが、それらはそこでは明示的に述べられておらず、他のところで正規化されたスペクトルエネルギー表現を用いることができる。
【0034】
副情報58は、また、第1の所定の時間/周波数分解能に等しいかまたは異なることができる第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号62をも備える。
【0035】
予測係数を演算する手段52は、レベル情報60に基づいて予測係数を演算するように構成される。加えて、手段52は、副情報58にも備えられる相互相関情報に更に基づいて、予測係数を演算することができる。さらには、手段52は、予測係数を演算するために、副情報58に備えられる時間変化するダウンミックス処方情報を用いることができる。手段52によって演算される予測係数は、ダウンミックス信号56から、オリジナルのオーディオオブジェクトまたはオーディオ信号を読み出すかまたはアップミックスするために必要である。
【0036】
したがって、アップミックスする手段54は、手段52から受信された予測係数64と残余信号62に基づいて、ダウンミックス信号56をアップミックスするように構成される。残余信号62を用いることによって、デコーダ50は、1つのタイプのオーディオ信号から他のタイプのオーディオ信号へのクロストークをより良く抑制することが可能である。残余信号62に加えて、手段54は、ダウンミックス信号をアップミックスするため、時間変化するダウンミックス処方を用いることができる。更に、アップミックスする手段54は、ダウンミックス信号56から復元されたオーディオ信号のうちどちらを、またはどの範囲まで、実際に出力68に出力するかを決定するために、ユーザ入力66を用いることができる。第1の極端な行為として、ユーザ入力66は、単に第1タイプのオーディオ信号を近似する第1のアップミックス信号を出力するように、手段54に指示することができる。その反対は、それに従って手段54が単に第2のタイプのオーディオ信号を近似する第2のアップミックス信号を出力する第2の極端な行為にあてはまる。中間のオプションは、それに従って両方のアップミックス信号の混合が出力68の出力に再現されることが同様に可能である。
【0037】
図4は、図3のデコーダによってデコードされたマルチオーディオオブジェクト信号を生成することに適するオーディオエンコーダの実施形態を示す。参照符号80で示される図4のエンコーダは、エンコードされるオーディオ信号84がスペクトル領域にない場合に、スペクトルで分解する手段82を備えることができる。オーディオ信号84の中には、順番に、少なくとも1つの第1タイプのオーディオ信号と少なくとも1つの第2のタイプのオーディオ信号がある。スペクトルで分解する手段82は、これらの信号84の各々を、例えば、図2で示されたような表現にスペクトルで分解するように構成される。すなわち、スペクトルで分解する手段82は、オーディオ信号84を所定の時間/周波数分解能でスペクトルで分解する。手段82は、ハイブリッドQMFバンクのようなフィルタバンクを備えることができる。
【0038】
オーディオエンコーダ80は、レベル情報を演算する手段86と、ダウンミックスする手段88と、予測係数を演算する手段90と、残余信号を設定する手段92を、更に備える。加えて、オーディオエンコーダ80は、相互相関情報を演算する手段、すなわち手段94を備えることができる。手段86は、オプションとして手段82によって出力されたオーディオ信号から、第1タイプのオーディオ信号と第2のタイプのオーディオ信号のレベルを、第1の所定の時間/周波数分解能で記述するレベル情報を演算する。同様に、手段88は、オーディオ信号をダウンミックスする。手段88は、このようにダウンミックス信号56を出力する。手段86も、レベル情報60を出力する。予測係数を演算する手段90は、手段52と同様に振舞う。すなわち、手段90は、レベル情報60から予測係数を演算し、予測係数64を手段92に出力する。手段92は、順番に、ダウンミックス信号56を予測係数64と残余信号62の両方に基づいてアップミックスすることが、第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、第2のタイプのオーディオ信号を近似する第2のアップミックスオーディオ信号に結果としてなり、その近似が残余信号62の欠如と比べて良いと認められるように、ダウンミックス信号と予測係数64とオリジナルのオーディオとに基づいて、第2の所定の時間/周波数分解能で、残余信号62を設定する。
【0039】
残余信号62とレベル情報60は、ダウンミックス信号56とともに、図3のデコーダによってデコードされるマルチ‐オーディオ‐オブジェクト信号を形成する副情報58に備えられる。
【0040】
図4に示すように、図3の説明と類似して、手段90は、予測係数64を演算するために、手段94によって出力される相互相関情報および/または手段88によって出力される時間変化するダウンミックス処方を付加的に用いることができる。更に、残余信号62を設定する手段92によって残余信号62を適切に設定するために、手段88によって出力される時間変化するダウンミックス処方を付加的に用いることができる。
【0041】
再び、第1タイプのオーディオ信号はモノラルまたはステレオのオーディオ信号でよいことに注意されたい。同じことは第2タイプのオーディオ信号に適用される。残余信号62は、副情報内で、例えばレベル情報を演算するために用いられるパラメータ時間/周波数分解能と同じ時間/周波数分解能において信号送信することができ、または異なる時間/周波数分解能を用いることもできる。更に、残余信号の信号送信は、レベル情報が信号送信されるための時間/周波数タイル42によって占有されるスペクトル範囲のサブ部分に限定することも可能である。例えば、残余信号が信号送信される時間/周波数分解能は、構文要素bsResidualBandsおよびbsResidualFramesPerSAOCFrameを用いて、副情報58内で示すことができる。これらの2つの構文要素は、時間/周波数タイル内に、タイル42を先導するサブ区画よりも他のフレームのサブ区画を定義することができる。
【0042】
ところで、残余信号62は、オーディオエンコーダ80によってダウンミックス信号56をエンコードするためにオプションとして潜在的に使用されるコアエンコーダ96から結果として生じる情報損失を反映でき、または、できないことに注意されたい。図4に示すように、手段92は、ダウンミックス信号のバージョンに基づいて、コアエンコーダ96の出力から、または、コアコーダ96´に入力されるバージョンから、復元可能に残余信号62を設定することを実行することができる。同様に、オーディオデコーダ50は、ダウンミックス信号56をデコードまたは伸張するコアデコーダ98を備えることができる。
【0043】
複数のオーディオオブジェクト信号内で、残余信号62に用いられる時間/周波数分解能を、レベル情報60を演算するために用いられる時間/周波数分解能と異なって設定する能力は、一方のオーディオ品質と他方の複数のオーディオオブジェクト信号の圧縮比の間の良好な歩み寄りを得ることを可能とする。いずれにせよ、残余信号62は、ユーザ入力66に従って出力68に出力される第1と第2のアップミックス信号内で、1つのオーディオ信号から他へのクロストークをより良く抑制することを可能にする。
【0044】
以下の実施形態から明らかになるように、1つ以上のフォアグラウンドオブジェクトまたは第2タイプのオーディオ信号がエンコードされる場合に、1つ以上の残余信号62を副情報内で送信することができる。副情報は、残余信号62が特定の第2タイプのオーディオ信号のために送信されるかどうかの個々の決定を考慮に入れることができる。このように、残余信号62の数は、1つから第2タイプのオーディオ信号の数まで変わることができる。
【0045】
図3のオーディオデコーダにおいて、演算する手段54は、レベル情報(OLD)に基づいて、予測係数から構成される予測係数マトリックスCを演算するように構成し、手段56は、ダウンミックス信号dから、次式によって表現できる演算によって、第1のアップミックス信号S1および/または第2のアップミックス信号S2を産出するように構成することができる。
ここで、「1」は、チャンネル数dに従属するスカラーまたは単位行列を表し、D-1は、それに従って第1タイプのオーディオ信号と第2のタイプのオーディオ信号がダウンミックス信号にダウンミックスされる、副情報にも備えられるダウンミックス処方によって一意に決定されるマトリックスであり、Hは、dから独立しているが残余信号に従属する項である。
【0046】
上述され、更に以下に記載されるように、ダウンミックス処方は、副情報内で、時間において変化することができ、および/または、スペクトルで変化することができる。第1タイプのオーディオ信号が第1入力チャンネル(L)と第2入力チャンネル(R)を有するステレオオーディオ信号である場合に、レベル情報は、例えば、第1入力チャンネル(L)、第2入力チャンネル(R)、および第2タイプのオーディオ信号のそれぞれの正規化されたスペクトルエネルギーを、時間/周波数分解能42で記述する。
【0047】
それに従ってアップミックスする手段56がアップミックスを実行する上述の演算は、次式によって表現することさえできる。
【0048】
項Hが残余信号resに従属している限り、それに従ってアップミックスする手段56がアップミックスを実行する演算は、次式によって表現することができる。
【0049】
マルチ‐オーディオ‐オブジェクト信号は、第2タイプの複数のオーディオ信号を備えることさえでき、副情報は、第2タイプのオーディオ信号当り1つの残余信号を備えることができる。残余分解能パラメータは、残余信号が副情報内で送信されるスペクトル範囲を定義する副情報において提供することができる。それは、スペクトル範囲の下側と上側の制限を定義することさえできる。
【0050】
更に、マルチ‐オーディオ‐オブジェクト信号は、第1タイプのオーディオ信号を、予め定められたスピーカ構成上に空間的に再現するための空間再現情報を備えることもできる。言い換えれば、第1タイプのオーディオ信号は、ステレオにダウンミックスされたマルチチャンネル(2つ以上のチャンネル)のMPEGサラウンド信号とすることができる。
【0051】
以下に、上記残余信号の信号送信に用いることができる実施形態が記載される。しかしながら、用語「オブジェクト」は、2重の意味でしばしば用いられることに注意されたい。時には、オブジェクトは、個々のモノラルオーディオ信号を表す。このように、ステレオオブジェクトは、ステレオ信号の1つのチャンネルを形成するモノラルオーディオ信号を有することができる。しかしながら、他の状況では、ステレオオブジェクトは、事実、2つのオブジェクト、すなわち、ステレオオブジェクトの右チャンネルに関するオブジェクトおよび左チャンネルに関する更なるオブジェクトを表すことができる。実際の意味は、文脈から明らかになる。
【0052】
次の実施形態を記載する前に、同じことは、2007年に基準モデル0(RM0)として選択されたSAOCスタンダードのベースライン技術で認められた不具合によって動機づけられる。RM0は、パニング位置と増幅/減衰に関する多数のサウンドオブジェクトの個々の操作を可能にした。特別なシナリオは、「カラオケ」タイプのアプリケーションの文脈において提示される。このケースでは、
●モノラル、ステレオ、またはサラウンドバックグラウンドシーン(以下においてバック グラウンドオブジェクトBGOと呼ばれる)は、一組の特定のSAOCオブジェクトか ら導かれ、それは変更なく再生される。すなわち、あらゆる入力チャンネル信号が変更 のないレベルで同じ出力チャンネルで再生される。
●関心のある特定のオブジェクト(以下においてフォアグラウンドオブジェクトFGOと 呼ばれる)(典型的にはリードボーカル)は、変更(FGOは、典型的にサウンドステ ージの中央に配置され、ミュートすることができる、すなわち、伴って歌うことを可能 とするため強く減衰される)して再生される。
【0053】
主観評価処理から判るように、そして基礎をなす技術原理から期待できるように、オブジェクト位置の操作は高品質の結果に導き、一方オブジェクトレベルの操作は一般的によりチャレンジングである。典型的に、追加信号の増幅/減衰がより高いほど、より潜在的なアーティファクトが生じる。この意味で、極端な(理想的には全体の)FGOの減衰が要求されるので、カラオケシナリオは、極めて要求が厳しい。
【0054】
二重使用のケースは、バックグラウンド/MBOなしでFGOだけを再生する能力であって、以下においてソロモードと称される。
【0055】
しかしながら、サラウンドバックグラウンドシーンが含まれる場合、それがマルチチャンネルバックグラウンドオブジェクト(MBO)と称される点に注意されたい。MBOの取り扱いは以下の通りであり、図5において示される。
●MBOは、標準の5―2―5MPEGサラウンドツリー102を用いてエンコードされ る。これは、ステレオMBOダウンミックス信号104とMBO‐MPS副情報ストリ ーム106に結果としてなる。
●MBOダウンミックスは、次に、引き続くSAOCエンコーダ108によって、ステレ オオブジェクト(すなわち、2つのオブジェクトレベル差、プラス相互相関)として、 その(またはいくつかの)FGO110と一緒にエンコードされる。これは、一般的な ダウンミックス信号112とSAOC副情報ストリーム114に結果としてなる。
【0056】
トランスコーダ116において、ダウンミックス信号112は前処理され、SAOCとMPS副情報ストリーム106、114は、単一のMPS出力副情報ストリーム118にトランスコードされる。これは、一般に不連続な方法で起こる。すなわち、FGOの完全な抑制のみか、または、MBOの完全な抑制のいずれかがサポートされる。
【0057】
最後に、結果として生じたダウンミックス120とMPS副情報118は、MPEGサラウンドデコーダ122によって再現される。
【0058】
図5において、MBOダウンミックス104と制御可能なオブジェクト信号110の両方は、単一のステレオダウンミックス112に結合される。この制御可能なオブジェクト110によるダウンミックスの「汚染」は、制御可能なオブジェクト110が取り除かれ、十分に高いオーディオ品質である、カラオケバージョンを復元することの難しさの理由である。以下の提案は、この課題を回避することを目的とする。
【0059】
1つのFGO(例えば1つのリードボーカル)を仮定すると、以下の図6の実施形態によって用いられる重要な知見は、SAOCダウンミックス信号がBGOとFGO信号の結合である、すなわち、3つのオーディオ信号がダウンミックスされ、2つのダウンミックスチャンネルを介して送信されることである。理想的には、これらの信号は、クリーンなカラオケ信号を生成する(すなわち、FGO信号を取り除く)か、またはクリーンなソロ信号を生成する(すなわち、BGO信号を取り除く)ために、トランスコーダにおいて再び分離されなければならない。これは、図6の実施形態に従って、SAOCエンコーダにおいて、BGOとFGOを単一のSAOCダウンミックス信号に結合するため、SAOCエンコーダ108内で、「2から3への」(TTT)エンコーダ要素124(TTT―1は、MPEGサラウンド仕様から知られる)を用いることで達成される。ここで、FGOはTTT-1ボックス124の「中心の」信号入力に供給され、BGO104は「左右の」TTT-1入力L,Rに供給される。トランスコーダ116は、次に、TTTデコーダ要素126(TTTは、MPEGサラウンドから知られる)を用いて、BGO104の近似を生成することができる。すなわち、「左右の」TTT出力L,Rは、BGOの近似をもたらすのに対して、「中心の」TTT出力Cは、FGO110の近似をもたらす。
【0060】
図6の実施形態を、図3と図4のエンコーダとデコーダの実施形態と比較するとき、参照符号104は、オーディオ信号84の中の第1タイプのオーディオ信号に対応し、手段82は、MPSエンコーダ102に備えられ、参照符号110は、オーディオ信号84の中の第2タイプのオーディオ信号に対応し、TTT-1ボックス124は、手段88〜92の機能に対する役割を、SAOCエンコーダ108において実装される手段86と94の機能によって引き継ぎ、参照符号112は、参照符号56に対応し、参照符号114は、残余信号62よりも少ない副情報58に対応し、TTTボックス126は、手段52と54の機能に対する役割を、手段54でも備えられている混合ボックス128の機能によって引き継ぐ。最後に、信号120は、出力68で出力される信号に対応する。更に、図6は、SAOCエンコーダ108からSAOCトランスコーダ116へのダウンミックス112の移送のためのコアコーダ/デコーダ・パス131をも示すことに注意されたい。このコアコーダ/デコーダ・パス131は、オプションのコアコーダ96とコアデコーダ98に対応する。図6に示すように、このコアコーダ/デコーダ・パス131は、エンコーダ108からトランスコーダ116まで移送された副情報の移送された信号をエンコード/圧縮することもできる。
【0061】
図6のTTTボックスの導入から生じる効果は、以下の説明によって明らかになる。例えば、
●「左右の」TTT出力L,RをMPSダウンミックス120に単純に供給する(そして 、ストリーム118において、送信されたMBO‐MPSビットストリーム106を順 送りする)ことによって、MBOのみが最終的なMPSデコーダによって再生される。 これは、カラオケモードに対応する。
●「中心の」TTT出力Cを左右のMPSダウンミックス120に単純に供給する(そし て、FGO110を所望の位置とレベルに再現する些細なMPSビットストリーム11 8を生成する)ことによって、FGO110のみが最終的なMPSデコーダ122によ って再生される。これは、ソロモードに対応する。
【0062】
3つのTTT出力信号L,R,Cの取り扱いは、SAOCトランスコーダ116の「混合」ボックス128において実行される。
【0063】
図6の処理構成は、図5に対して多くの明瞭な利点を提供する。
●フレームワークは、バックグラウンド(MBO)100とFGO信号110のクリーン な構成上の分離を提供する。
●TTT要素126の構成は、波形ベースで、3つの信号L,R,Cの最高の復元を試み る。このように、最終的なMPS出力信号130は、ダウンミックス信号のエネルギー 重み付け(および無相関化)によって形成されるだけでなく、TTT処理のため波形に 関しても近い。
●MPEGサラウンドTTTボックス126とともに、残余コーディングを用いることに よって復元精度を強化する可能性がある。このように、復元品質における有意な強化は 、TTT-1124により出力され、アップミックスのためのTTTボックスによって用 いられる残余信号132の残余バンド幅と残余ビットレートが増加するにつれて、達成 することができる。理想的には(すなわち、残余コーディングとダウンミックス信号の コーディングにおける無限に微細な量子化に対して)、バックグラウンド(MBO)と FGO信号の間の干渉はキャンセルされる。
【0064】
図6の処理構成は、多くの特性を備えている。
●カラオケ/ソロモードの二重性 : 図6のアプローチは、同じ技術手段を用いてカラ オケとソロの両方の機能を提供する。すなわち、例えば、SAOCパラメータは再利用 される。
●洗練化可能性 : カラオケ/ソロ信号の品質は、TTTボックスにおいて用いられる 残余コーディング情報の量を制御することによって、必要に応じて洗練させることがで きる。例えば、パラメータbsResidualSamplingFrequencyIndex、bsResidualBands、お よびbsResidualFramesPerSAOCFrameを用いることができる。
●ダウンミックスにおけるFGOの位置決め : MPEGサラウンド仕様において指定 されるTTTボックスを用いるとき、FGOは、左右のダウンミックスチャンネルの間 の中心位置に常に混合される。位置決めにおいてより柔軟性を可能とするため、「中心 」の入力/出力に関連する信号の非対称位置決めを可能としながら同じ原理に従う一般 化されたTTTエンコーダボックスが使用される。
●多重FGO : 記載された構成において、1つのFGOのみの使用が記載されていた (これは、最も重要なアプリケーションのケースに対応するかも知れない)。しかしな がら、提案されたコンセプトは、以下の尺度の1つまたは組み合わせを用いて、いくつ かのFGOに適応することも可能である。
◆グループ化されたFGO : 図6に示されたように、TTTボックスの中心の入力 /出力に接続された信号は、実際に、単一のもののみよりもむしろ、いくつかのF GO信号の合計とすることができる。これらのFGOは、マルチチャンネル出力信 号130において、独立に位置決め/制御することができる(しかしながら、それ らが同様にスケールされ配置されたときに、最良の品質効果が達成される)。それ らは、ステレオダウンミックス信号112において一般的な位置を共有し、1つの 残余信号132のみがある。いずれにせよ、バックグラウンド(MBO)と制御可 能なオブジェクトの間の干渉は(制御可能なオブジェクト間ではされないが)キャ ンセルされる。
◆カスケード接続されたFGO : ダウンミックス112における一般的なFGO位 置に関する制限は、図6のアプローチを拡張することによって克服することができ る。多重FGOは、記載されたTTT構成のいくつかのステージをカスケード接続 し、各ステージが1つのFGOに対応し、残余コーディングストリームを生成する ことによって、適応することができる。このように、干渉は、理想的には、各FG O間においてもキャンセルされる。もちろん、このオプションは、グループ化され たFGOアプローチを用いるよりも高いビットレートを必要とする。実施形態は後 述する。
●SAOC副情報 : MPEGサラウンドにおいて、TTTボックスに関連する副情報 は、一対のチャンネル予測係数(CPC)である。対照的に、SAOCパラメータ表示 とMBO/カラオケシナリオは、各オブジェクト信号のオブジェクトエネルギーと、M BOダウンミックスの2つのチャンネル間の信号間相関(すなわち、「ステレオオブジ ェクト」のパラメータ表示)を送信する。強化されたカラオケ/ソロモードのないケー スに関係するパラメータ表示、およびビットストリームフォーマットにおける変化の数 を最小化するために、CPCは、ダウンミックスされた信号(MBOダウンミックスと FGO)のエネルギーとMBOダウンミックスステレオオブジェクトの信号間相関とか ら算出することができる。それ故、送信されたパラメータ表示を変更または増大する必 要がなく、CPCは、SAOCトランスコーダ116において送信されたSAOCパラ メータ表示から算出することができる。このように、強化されたカラオケ/ソロモード を用いたビットストリームは、残余データを無視するとき、標準モードのデコーダ(残 余コーディングのない)によってデコードすることもできる。
【0065】
要約すると、図6の実施形態は、特定の選択されたオブジェクト(またはそれらのオブジェクトのないシーン)の強化された再生を目的とし、ステレオダウンミックスを用いた現行のSAOCエンコードアプローチを以下のように拡張する。
●通常モードにおいて、各オブジェクト信号は、ダウンミックスマトリクスにおけるその エントリーによって(左右のダウンミックスチャンネルのそれぞれに対する寄与に対し て)重み付けされる。次に、左右のダウンミックスチャンネルに対するすべての重み付 けられた分担は、左右のダウンミックスチャンネルを形成するために合計される。
●強化されたカラオケ/ソロ演奏のために、すなわち強化モードにおいて、すべてのオブ ジェクト分担は、フォアグラウンドオブジェクト分担(FGO)と残りのオブジェクト 分担(BGO)を形成する一組のオブジェクト分担に分割される。FGO分担は、モノ ラルのダウンミックス信号に合計され、残りのバックグラウンド分担は、ステレオダウ ンミックスに合計され、両方とも、一般的なSAOCステレオダウンミックスを形成す るために、一般化されたTTTエンコーダ要素を用いて合計される。
【0066】
このように、標準の合計は、「TTT総和」(必要なときはカスケード接続することができる)によって置き換えられる。
【0067】
SAOCエンコーダの通常モードと強化モードのちょうど言及された相違を強調するために、図7aと図7bが参照される。ここで、図7aは通常モードに関するのに対して、図7bは強化モードに関する。これから判るように、通常モードにおいて、SAOCエンコーダ108は、オブジェクトjを重み付けし、このように重み付けられたオブジェクトjをSAOCチャンネルi、すなわちL0またはR0に加算するため、前述のDMXパラメータDijを用いる。図6の強化モードの場合は、単にDMXパラメータDiのベクトルが必要である。すなわち、DMXパラメータDiは、FGO110の重み付けられた合計をどのように形成するかを示し、それによりTTT-1ボックス124のための中心チャンネルCを取得し、DMXパラメータDiは、TTT-1ボックスに中心信号Cを左MBOチャンネルと右MBOチャンネルのそれぞれに対してどのように分配するかを指示し、それによりLDMXまたはRDMXをそれぞれ取得する。
【0068】
問題として、図6による処理は、非波形で保存するコーデック(HE―AAC/SBR)では、あまりうまく動作しない。その問題の解決策は、HE‐AACおよび高周波のためのエネルギーベースで一般化されたTTTモードとすることができる。問題に対処する実施形態は、後述される。
【0069】
カスケード接続されたTTTによるもののための可能なビットストリームフォーマットは、以下の通りとすることができる。
【0070】
スキップできるようにするために必要なSAOCビットストリームへの追加は、「標準のデコードモード」において簡約すると次の通りである。
【0071】
複雑度および所要メモリ量に関しては、以下のように述べることができる。前の説明から判るように、図6の強化されたカラオケ/ソロモードは、エンコーダとデコーダ/トランスコーダのそれぞれ、すなわち一般化されたTTT-1/TTTエンコーダ要素において、1つのコンセプト上の要素のステージを付加することによって実現される。両方の要素は、標準の「中央化された」TTT相当品(係数値の変化は複雑度に影響しない)に対して、その複雑度において同一である。想定される主要なアプリケーション(リードボーカルとしての1つのFGO)のためには、単一のTTTで充分である。
【0072】
MPEGサラウンドシステムの複雑度に対するこの追加構成の関係は、関連するステレオダウンミックスケース(5‐2‐5型)に対して1つのTTT要素と2つのOTT要素から構成される全てのMPEGサラウンドデコーダの構成に注目することによって理解することができる。これは、付加された機能が計算複雑度とメモリ消費に関して廉価になることを、すでに示している(残余コーディングを用いたコンセプト上の要素は、それに代わる無相関化を含むそれらの相当品よりも、平均して複雑でないことに注意されたい)。
【0073】
MPEG‐SAOC基準モデルの図6のこの拡張は、特別なソロまたはミュート/カラオケタイプのアプリケーションに対して、オーディオ品質の改善を提供する。再び、図5、6、7に対応する説明が、バックグラウンドシーンまたはBGOとしてMBOを参照し、それは、一般にこのタイプのオブジェクトに限定されず、むしろモノラルまたはステレオのオブジェクトでもあり得ることに注意されたい。
【0074】
主観評価処理は、カラオケまたはソロアプリケーションのための出力信号のオーディオ品質に関する改善を明らかにする。評価された条件は、以下の通りである:
●RM0
●強化モード(res 0)(残余コーディングを有しない)
●強化モード(res 6)(最も低い6つのハイブリッドQMFバンドに残余コーディング を有する)
●強化モード(res 12)(最も低い12のハイブリッドQMFバンドに残余コーディング を有する)
●強化モード(res 24)(最も低い24のハイブリッドQMFバンドに残余コーディング を有する)
●隠れた基準
●下側アンカー(3.5kHzバンド制限されたバージョンの基準)
【0075】
提案された強化モードのためのビットレートは、残余コーディングなしで用いられる場合に、RM0に類似している。他の全ての強化モードは、残余コーディングの6バンド毎に約10kbit/sを必要とする。
【0076】
図8aは、10人のリスニング被検者によるミュート/カラオケテストの結果を示す。提案された解決策は、RM0より常に高く、追加の残余コーディングの各ステップとともに増加する平均MUSHRAスコアがある。RM0のパフォーマンス上の統計学的に有意な改善は、6以上のバンドの残余コーディングを有するモードに対して、明らかに認めることができる。
【0077】
図8bにおける9人の被検者によるソロテストの結果は、提案された解決策の類似の利点を示す。平均MUSHRAスコアは、より多くの残余コーディングを加えるときに明らかに増加する。24バンドの残余コーディングを有する強化モードと有さない強化モード間のゲインは、ほぼ50MUSHRAポイントである。
【0078】
全体として、カラオケアプリケーションのために、RM0より約10kbit/s高いビットレートの代償で良い品質が達成される。RM0のビットレートのトップに約40kbit/sを加えるとき、優れた品質が可能である。最大固定ビットレートが与えられた現実的なアプリケーションシナリオにおいては、提案された強化モードは、「使用していないビットレート」を、許容される最大レートに達するまで、残余コーディングにうまく費やすことを可能にする。それ故、最高の総合オーディオ品質が達成される。提示された実験結果を超える更なる改善は、残余ビットレートのより知的な使用により可能である。提示されたセットアップは、DCから特定の上側境界周波数までの残余コーディングを常に用いるが、強化された実施態様では、FGOとバックグラウンドオブジェクトを分離するために関連する周波数範囲のビットのみを費やす。
【0079】
前の説明において、カラオケ型アプリケーションのためのSAOC技術の強化が記載されていた。MPEG‐SAOCのためのマルチチャンネルFGOオーディオシーン処理に対する強化されたカラオケ/ソロモードのアプリケーションの追加の詳細な実施形態が提示される。
【0080】
変更によって再生されるFGOとは対照的に、MBO信号は、変更なしで再生されなければならない。すなわち、あらゆる入力チャンネル信号は、同じ出力チャンネルを通して不変のレベルで再生される。その結果として、SAOCエンコーダ、MBOトランスコーダおよびMPSデコーダを備える次のカラオケ/ソロモード処理ステージに入力される(ステレオの)バックグラウンドオブジェクト(BGO)の役割をするステレオダウンミックス信号を産出するMPEGサラウンドエンコーダによるMBO信号の前処理が提案された。図9は、再び、全体構成のダイアグラムを示す。
【0081】
ここで判るように、入力オブジェクトは、カラオケ/ソロモードのコーダ構成に従って、ステレオバックグラウンドオブジェクト(BGO)104とフォアグラウンドオブジェクト(FGO)110に分類される。
【0082】
RM0において、これらのアプリケーションシナリオの取り扱いは、SAOCエンコーダ/トランスコーダシステムによって実行されるが、図6の強化は、付加的にMPEGサラウンド構成の基本的ビルディングブロックを利用する。エンコーダでの3から2への(TTT-1)ブロックとトランスコーダでの対応する2から3への(TTT)補体を組み込むことは、特別なオーディオオブジェクトの強い増強/減衰が必要なときに、パフォーマンスを改善する。拡張構成の2つの主要な特性は、以下の通りである。
・残余信号の利用による、より良好な信号分離(RM0と比較して)
・その混合仕様を一般化することによる、TTT-1ボックスの中心入力(すなわちFGO )として表される信号の柔軟な位置決め
【0083】
TTTビルディングブロックの直接の実施態様は、エンコーダ側で3つの入力信号を含むので、図6は、図10に描かれるように(ダウンミックスされた)モノラル信号として、FGOの処理に重点が置かれた。マルチチャンネルFGO信号の取り扱いがまた述べられたが、次の章において更に詳細に説明される。
【0084】
図10から判るように、図6の強化モードにおいて、すべてのFGOの結合は、TTT-1ボックスの中心チャンネルに供給される。
【0085】
図6と図10によるケースのような、FGOモノラルダウンミックスの場合は、エンコーダでのTTT-1ボックスの構成は、中心入力に供給されるFGOと、左右の入力を提供するBGOを備える。基礎をなす対称行列は、次式で与えられる。
【0086】
この線形システムを通して取得された第3の信号は、破棄されるが、2つの予測係数c1およびc2(CPC)を組み込んだトランスコーダ側で、次式によって復元することができる。
【0087】
トランスコーダでの逆変換処理は、次式で与えられる。
【0088】
変数PL0、PR0、PL0R0、PL0F0およびPR0F0は、以下のように推定することができる。ここで、パラメータOLDL、OLDRおよびIOCLRはBGOに対応し、OLDFはFGOパラメータである。
【0089】
加えて、CPCの内包によってもたらされるエラーは、次のように、ビットストリーム内で送信することができる残余信号132によって表現される。
【0090】
いくつかのアプリケーションシナリオにおいて、すべてのFGOの単一のモノラルダウンミックスの限定は不適当であり、それゆえに克服される必要がある。例えば、FGOは、送信されたステレオダウンミックスおよび/または個々の減衰において異なる位置を有する2つ以上の独立グループに分割することができる。それ故、図11に示されるカスケード接続された構成は、エンコーダ側で所望のステレオダウンミックス112が取得されるまで、すべてのFGOグループF1、F2のステップバイステップのダウンミックスを産出する2つ以上の連続するTTT-1要素124a、124bを意味する。各々の −あるいは少なくともいくつかの− TTT-1ボックス124a、124b(それぞれ図11の)は、それぞれのステージまたはTTT-1ボックス124a、124bにそれぞれ対応する残余信号132a、132bを設定する。逆にいえば、トランスコーダは、利用可能である場合に、対応するCPCと残余信号を組み込んでいるそれぞれの逐次適用されるTTTボックス126a、126bを用いて、逐次アップミックスを実行する。FGO処理の順序は、エンコーダで指定され、トランスコーダ側で考慮されなければならない。
【0091】
図11に示された2段カスケードに含まれる詳細な数学的計算は、以下に記載される。
【0092】
一般論における損失なしで、簡略化された具体例として、図11に示されるように、以下の説明は、2つのTTT要素から構成されるカスケードに基づいている。2つの対称行列は、FGOモノラルダウンミックスと類似しているが、次のそれぞれの信号に対して適切に適用されなければならない。
【0093】
ここで、2セットのCPCは、以下の信号復元に結果としてなる。
【0094】
逆変換処理は、次式によって表現される。
【0095】
2段カスケードの特殊ケースは、その左右のチャンネルが対応するBGOのチャンネルに適切に合計され、μ1=0とμ2=π/2を産出する、1つのステレオのFGOを備える。
【0096】
この特別なパニングスタイルのために、およびオブジェクト間相関を無視するために、OLDLR=0であり、2セットのCPCの推定は次のように減縮する。
ここで、OLDFLとOLDFRは、それぞれ左右のFGO信号のOLDを表す。
【0097】
一般的なN段カスケード接続のケースは、次式によってマルチチャンネルFGOダウンミックスを参照する。
ここで、各ステージは、それ自身のCPCと残余信号を特徴づける。
【0098】
トランスコーダ側で、逆カスケードステップは、次式で与えられる。
【0099】
TTT要素の順序を保存する必要性を廃止するために、カスケード構成は、Nマトリクスを1つの単一の対称TTNマトリクスに再編成することによって、等価な並列回路に容易に変換することができ、これにより次の一般的TTNスタイルをもたらす。
ここで、マトリクスの最初の2行は、送信されるステレオダウンミックスを表す。一方、用語TTN(2からN)は、トランスコーダ側でアップミックスする処理に関する。
【0100】
この記述を用いて、特別にパンされたステレオFGOの特殊ケースは、マトリクスを次のように減縮する。
【0101】
したがって、この装置は、2から4要素またはTTFと称することができる。
【0102】
SAOCステレオ前処理モジュールを再利用するTTF構成をもたらすことも可能である。
【0103】
N=4の制限に対して、既存のSAOCシステムの部分を再利用する2から4(TTF)構成の実施態様が実行可能となる。処理は、以下の段落に記載される。
【0104】
SAOCスタンダードのテキストは、「ステレオからステレオへのトランスコードモード」のためのステレオダウンミックス前処理を記述する。正確には、出力ステレオ信号Yは、入力されたステレオ信号Xから、非相関化された信号Xdとともに、以下のように算出される。
【0105】
非相関化された成分Xdは、エンコード処理で既に破棄されたオリジナルの再現された信号の部分の合成表現である。図12によれば、非相関化された信号は、特定の周波数範囲のための適切なエンコーダで生成された残余信号132と置き換えられる。名称は、次のように定義される。
●Dは、2×Nダウンミックスマトリクス
●Aは、2×N再現マトリクス
●Eは、入力オブジェクトSのN×N共分散モデル
●GMod(図12のGに対応する)は、予測の2×2アップミックスマトリクス
GModは、D、AおよびEの関数であることに注意されたい。
【0106】
残余信号XResを算出するために、エンコーダにおけるデコーダ処理を模倣する、すなわちGModを決定することが必要である。
一般的なシナリオにおいて、Aは知られていないが、カラオケシナリオの特殊ケース(例えば、1つのステレオバックグラウンドと1つのステレオフォアグラウンドオブジェクト(N=4)を有する)では、次のように仮定される。
これは、BGOのみが再生されることを意味する。
【0107】
フォアグラウンドオブジェクトの推定のために、復元されたバックグラウンドオブジェクトは、ダウンミックス信号Xから減算される。これと最終の再現は、「混合」処理ブロックにおいて実行される。詳細は以下において示される。
【0108】
再現マトリクスAは、次のように設定される。
ここで、最初の2列はFGOの2つのチャンネルを表現し、2番目の2列はBGOの2つのチャンネルを表現する。
【0109】
BGOとFGOのステレオ出力は、以下の数式によって算出される。
【0110】
ダウンミックス重み付けマトリクスとして、Dは次式のように定義される。
【0111】
【0112】
XResは、上述のように取得された残余信号である。いかなる非相関化された信号も加算されないことに、是非注意されたい。
【0113】
最終出力Yは、次式によって与えられる。
【0114】
上記実施形態は、また、ステレオFGOの代わりにモノラルFGOが用いられる場合に適用することができる。処理は、次に以下によって変更される。
【0115】
再現マトリクスAは、次のように設定される。
ここで、最初の列はモノラルのFGOを表現し、次の列はBGOの2つのチャンネルを表現する。
【0116】
BGOとFGOのステレオ出力は、以下の数式によって算出される。
【0117】
ダウンミックス重み付けマトリクスとして、Dは次のように定義される。
【0118】
【0119】
XResは、上述のように取得された残余信号である。いかなる非相関化された信号も加算されないことに、是非注意されたい。
【0120】
最終出力Yは、次式によって与えられる。
【0121】
4以上のFGOオブジェクトの取り扱いのために、上記実施形態は、ちょうど記載された処理ステップの並列ステージを組み込むことによって拡張することができる。
【0122】
上記ちょうど記載された実施形態は、マルチチャンネルFGOオーディオシーンのケースの強化カラオケ/ソロモードの詳細な説明を提供した。この一般化は、MPEG‐SAOC基準モデルのサウンド品質を強化カラオケ/ソロモードのアプリケーションによって更に改善することができる、カラオケアプリケーションシナリオのクラスを拡大することを目的とする。改善は、一般的NTT構成をSAOCエンコーダのダウンミックス部分に、対応する相当品をSAOCtoMPSトランスコーダに、導入することによって達成される。残余信号の使用は、品質結果を強化した。
【0123】
図13a〜図13hは、本発明の一実施形態によるSAOC副情報ビットストリームの可能な構文を示す。
【0124】
SAOCコーデックの強化モードに関するいくつかの実施形態を記載した後に、いくつかの実施形態は、SAOCエンコーダへのオーディオ入力が標準のモノラルまたはステレオ音源だけでなくマルチチャンネルオブジェクトを含むアプリケーションシナリオに関係していることに留意すべきである。これは、図5〜図7bに関して明示的に記載されていた。このようなマルチチャンネルバックグラウンドオブジェクトMBOは、いかなる制御可能な再現機能も必要とされない、大きなそしてしばしば未知の数の音源を含んでいる複合サウンドシーンと考えることができる。個々別々に、これらのオーディオ源は、SAOCエンコーダ/デコーダ・アーキテクチャによって効率的に取り扱うことができない。SAOCアーキテクチャのコンセプトは、それ故に、これらの複合入力信号、すなわちMBOチャンネルを、典型的なSAOCオーディオオブジェクトとともに取り扱うために、拡張されると考えることができる。それ故、図5〜図7bのちょうど言及された実施形態において、SAOCエンコーダ108とMPSエンコーダ100を取り囲む点線によって示されるように、MPEGサラウンドエンコーダはSAOCエンコーダに組み込まれると考えられる。結果として生じるダウンミックス104は、トランスコーダ側に送信される複合ステレオダウンミックス112を生成する制御可能なSAOCオブジェクト110とともに、SAOCエンコーダ108へのステレオ入力オブジェクトとして役立つ。パラメータ領域において、MPSビットストリーム106とSAOCビットストリーム114は、特別なMBOアプリケーションシナリオに従って適当なMPSビットストリーム118をMPEGサラウンドデコーダ122に提供するSAOCトランスコーダ116に供給される。このタスクは、再現情報または再現マトリクスを用い、MPSデコーダ122のためにダウンミックス信号112をダウンミックス信号120に変換するため、いくつかのダウンミックス前処理を使用して実行される。
【0125】
強化カラオケ/ソロモードの更なる実施形態について、以下に説明する。それは、それらのレベルの増幅/減衰に関して、結果として生じる音質の有意な低下なしで、多くのオーディオオブジェクトの個々の操作を可能にする。特別な「カラオケ‐タイプ」のアプリケーションシナリオは、バックグラウンドサウンドシーンの知覚品質を無傷に保持しつつ、特定のオブジェクト、典型的にはリードボーカル(以下においてフォアグラウンドオブジェクトFGOと呼ばれる)の完全な抑制を必要とする。それは、また、パニングに関してユーザ制御可能性を必要としない静的バックグラウンドオーディオシーン(以下においてバックグラウンドオブジェクトBGOと呼ばれる)なしに、特定のFGO信号を個別に再生する能力を伴う。このシナリオは「ソロ」モードと称される。典型的なアプリケーションのケースは、ステレオBGOと4つまでのFGO信号を含み、例えば、2つの独立なステレオオブジェクトを表現することができる。
【0126】
この実施形態と図14によれば、強化カラオケ/ソロ・トランスコーダ150は、いずれもMPEGサラウンド仕様から知られるTTTボックスの一般化され、強化された修正を表現する「2からN」(TTN)または「1からN」(OTN)要素152のいずれかを組み込む。適当な要素の選択は、送信されるダウンミックスチャンネルの数に従う。すなわち、TTNボックスは、ステレオダウンミックス信号に専用であり、モノラルのダウンミックス信号のためには、OTNボックスが適用される。SAOCエンコーダの対応するTTN-1またはOTN-1ボックスは、BGOとFGO信号を一般的なSAOCステレオまたはモノラルダウンミックス112に結合し、ビットストリーム114を生成する。ダウンミックス信号112におけるすべての個々のFGOの任意に定義済みの位置決めは、いずれかの要素、すなわちTTNまたはOTN152によってサポートされる。トランスコーダ側で、BGO154またはFGO信号156の任意の組み合わせ(外部的に適用される動作モード158に従う)は、TTNまたはOTNボックス152によって、SAOC副情報114とオプションとして組み込まれた残余信号のみを用いて、ダウンミックス112から復元される。復元されたオーディオオブジェクト154/156と再現情報160は、MPEGサラウンドビットストリーム162と、対応する前処理されたダウンミックス信号164を生成するために用いられる。混合ユニット166は、MPS入力ダウンミックス164を取得するためにダウンミックス信号112の処理を実行し、MPSトランスコーダ168は、SAOCパラメータ114のMPSパラメータ162へのトランスコードの役割を果たす。TTN/OTNボックス152と混合ユニット166は、図3の手段52と54に対応する強化カラオケ/ソロモード処理170を、手段54に備えられている混合ユニットの機能によって一緒に実行する。
【0127】
MBOは、上記説明されたのと同じように取り扱うことができる。すなわち、それは、次の強化SAOCエンコーダに入力されるBGOとして役立つモノラルまたはステレオダウンミックス信号を産出するMPEGサラウンドエンコーダによって前処理される。このケースでは、トランスコーダは、SAOCビットストリームの次に、追加のMPEGサラウンドビットストリームを提供しなければならない。
【0128】
次に、TTN(OTN)要素によって実行される計算が説明される。第1の所定の時間/周波数分解能42において表されるTTN/OTNマトリクスMは、次のように2つのマトリクスの積である。
【0129】
CPCは、送信されたSAOCパラメータ、すなわちOLD、IOC、DMG、およびDCLDから導き出される。
1つの特定のFGOチャンネルjに対して、CPCは次によって推定することができる。
【0130】
パラメータOLDL、OLDRおよびIOCLRは、BGOに対応し、残りはFGO値である。
【0131】
係数mjとnjは、左右のダウンミックスチャンネルに対するFGO jのダウンミックス値を表し、ダウンミックスゲインDMGとダウンミックスチャンネルレベル差DCLDから導き出される。
【0132】
OTN要素に関して、第2のCPC値cj2の演算は冗長になる。
【0133】
2つのオブジェクトグループBGOとFGOを復元するため、ダウンミックス情報は、信号F01からF0Nの線形結合を更に処方するために拡張されたダウンミックスマトリクスDの逆変換に利用される。すなわち、
【0134】
以下に、エンコーダ側のダウンミックスが詳述される。TTN‐1要素内で、拡張ダウンミックスマトリクスは、次の通りである。
また、OTN‐1要素については、次の通りである。
【0135】
TTN/OTN要素の出力は、ステレオBGOとステレオダウンミックスに対して、次を産出する。
BGOおよび/またはダウンミックスがモノラルの信号である場合は、線形システムはそれに応じて変化する。
【0136】
【0137】
実施形態によれば、以下のTTNマトリクスが、エネルギーモードにおいて用いられる。
【0138】
エネルギーベースのエンコード/デコード処理は、ダウンミックス信号の非波形保存コーディングに向けて設計される。このように、対応するエネルギーモードのためのTTNアップミックスマトリクスは、特定の波形に依存せず、入力オーディオオブジェクトの相対エネルギー分布を記述するだけである。このマトリクスMEnergyの要素は、対応するOLDから次式によって取得される。
【0139】
従って、モノラルダウンミックスのために、エネルギーベースのアップミックスマトリクスMEnergyは、次のようになる。
ステレオBGOに対しては、
【0140】
【0141】
再び、信号(F01…F0N)Tは、デコーダ/トランスコーダに送信されない。むしろ、同上はデコーダ側で上述したCPCによって予測される。
【0142】
この点に関して、残余信号resは、デコーダによって無視することさえできることに、再び注意されたい。このケースでは、デコーダ −例えば 手段52− は、単にCPCに基礎をおいた疑似信号を次によって予測する。
【0143】
次に、BGOおよび/またはFGOは、−例えば手段54によって− エンコーダの4つの可能な線形結合のうちの1つの逆変換によって取得される。
ここで、D-1は、再びパラメータDMGとDCLDの関数である。
【0144】
このように、全体として、残余の無視できるTTN(OTN)ボックス152は、両方ともちょうど言及された次の演算ステップを演算する。
【0145】
Dの逆変換は、Dが正方である場合は、直接取得できることに注意されたい。非正方マトリクスDの場合は、Dの逆変換は、疑似逆変換しなければならない。すなわち、
いずれにせよ、Dの逆変換が存在する。
【0146】
最後に、図15は、副情報内で、残余データを転送するために費やされるデータ量をどのように設定するかの更なる可能性を示す。この構文によれば、副情報は、bsResidualSamplingFrequencyIndex、すなわち、例えば指標に対する周波数分解能に関連するテーブルの指標を備える。あるいは、分解能は、フィルタバンクの分解能またはパラメータ分解能のような予め定められた分解能であると推測することができる。更に、副情報は、残余信号が転送される際の時間分解能を定義するbsResidualFramesPerSAOCFrameを備える。また副情報に備えられるBsNumGroupsFGOは、FGOの数を示す。各FGOに対して、それぞれのFGOに対して残余信号が送信されるか否かを示す構文要素bsResidualPresentが送信される。存在する場合は、bsResidualBandsは、残余信号が送信されるためのスペクトルバンドの数を示す。
【0147】
実際の実施態様に従って、発明のエンコード/デコード方法は、ハードウェアで、または、ソフトウェアで実現することができる。それ故、本発明は、CD、ディスクまたはその他のデータキャリアのようなコンピュータ読取可能な媒体に保存することができるコンピュータプログラムにも関する。本発明は、それ故、コンピュータ上で実行されるときに、上記図面に関連して記載された発明のエンコード方法または発明のデコード方法を実行するプログラムコードを有するコンピュータプログラムでもある。
【技術分野】
【0001】
本願は、信号のダウンミックスを用いたオーディオコーディングに関する。
【背景技術】
【0002】
多くのオーディオコーディングアルゴリズムは、1つのチャンネルのオーディオデータ、すなわちモノラルのオーディオデータを効果的にエンコードまたは圧縮するために提案されていた。音響心理学を用いて、オーディオサンプルは、適切に基準化され、量子化され、または、例えばPCMコード化されたオーディオ信号から不適切なものを除去するために、零に設定されることさえある。冗長性の除去も実行される。
【0003】
更なるステップとして、ステレオオーディオ信号の左右のチャンネル間の類似性は、ステレオオーディオ信号を効果的にエンコード/圧縮するために利用されていた。
【発明の概要】
【0004】
しかしながら、来るべきアプリケーションは、オーディオコーディングアルゴリズムに関して更なる要求を提起する。例えば、遠隔会議、コンピュータゲーム、音楽パフォーマンス、その他において、部分的にまたはさらには完全に無相関であるいくつかのオーディオ信号は、並列に送信されなければならない。低ビットレートの伝送アプリケーションに対して互換性を持つように、これらのオーディオ信号をエンコードするのに必要なビットレートを十分に低く保つため、近年、多重の入力オーディオ信号を、ステレオまたはさらにはモノラルのダウンミックス信号のようなダウンミックス信号にダウンミックスするオーディオコーデックが提案されている。例えば、MPEGサラウンドスタンダードは、当該スタンダードによって規定された方法で、入力チャンネルをダウンミックス信号にダウンミックスする。ダウンミックスは、2つの信号を1つにおよび3つの信号を2つに、それぞれダウンミックスするためのいわゆるOTT-1およびTTT-1ボックスを用いて実行される。3つを超える信号をダウンミックスするためには、これらのボックスの階層構造が用いられる。各OTT-1ボックスは、モノラルのダウンミックス信号の他に、2つの入力チャンネルの間のチャンネルレベル差、並びに、2つの入力チャンネルの間の干渉性または相互相関を表現するチャンネル間干渉性/相互相関パラメータを出力する。前記パラメータは、MPEGサラウンドデータストリーム内で、MPEGサラウンドコーダのダウンミックス信号と一緒に出力される。同様に、各TTT-1ボックスは、結果として生じたステレオダウンミックス信号から3つの入力チャンネルを復元することを可能にするチャンネル予測係数を送信する。チャンネル予測係数は、また、MPEGサラウンドデータストリーム内の副情報として送信される。MPEGサラウンドデコーダは、送信された副情報を用いてダウンミックス信号をアップミックスし、MPEGサラウンドエンコーダに入力されるオリジナルチャンネルを復元する。
【0005】
しかしながら、MPEGサラウンドは、残念なことに、多くのアプリケーションによって提起されるすべての要求を満たさない。例えば、MPEGサラウンドデコーダは、MPEGサラウンドエンコーダの入力チャンネルが以前のように復元されるように、MPEGサラウンドエンコーダのダウンミックス信号をアップミックスするために専用される。言い換えれば、MPEGサラウンドデータストリームは、エンコードに用いられたスピーカ構成を用いて再生されるために専用される。
【0006】
しかしながら、いくつかの意味合いによって、スピーカ構成をデコーダ側で変えることができるならば好都合であろう。
【0007】
後者の要求に対処するため、空間オーディオオブジェクトコーディング(SAOC)スタンダードが、現在設計されている。各チャンネルは、個々のオブジェクトとみなされ、すべてのオブジェクトがダウンミックス信号にダウンミックスされる。しかしながら、加えて、個々のオブジェクトは、例えば楽器またはボーカルトラックのような、個々の音源をも備えることができる。しかしながら、MPEGサラウンドデコーダと異なり、SAOCデコーダは、任意のスピーカ構成上に個々のオブジェクトを再生するために、ダウンミックス信号を自由に個別にアップミックスする。SAOCデコーダがSAOCデータストリームにエンコードされた個々のオブジェクトを復元することを可能とするために、オブジェクトレベル差と、一緒にステレオ信号(またはマルチチャンネル信号)を形成しているオブジェクトに対するオブジェクト間相互相関パラメータが、SAOCビットストリーム内の副情報として送信される。この他に、SAOCデコーダ/トランスコーダは、どのように個々のオブジェクトがダウンミックス信号にダウンミックスされたかを明らかにする情報を備えている。このように、デコーダ側において、個々のSAOCチャンネルを復元し、ユーザ制御された再現情報を利用することによって、これらの信号を任意のスピーカ構成上に再現することが可能である。
【0008】
しかしながら、SAOCコーデックは、オーディオオブジェクトを個別に取り扱うために設計されているが、いくつかのアプリケーションは、さらに要求が厳しい。例えば、カラオケアプリケーションは、バックグラウンドオーディオ信号を、フォアグラウンドオーディオ信号または複数のフォアグラウンドオーディオ信号から完全に分離することを必要とする。その逆も同じであり、ソロモードでは、フォアグラウンドオブジェクトは、バックグラウンドオブジェクトから分離されなければならない。しかしながら、個々のオーディオオブジェクトの等しい取り扱いのために、バックグラウンドオブジェクトまたはフォアグラウンドオブジェクトをそれぞれダウンミックス信号から完全に取り除くことは可能でなかった。
【0009】
このように、本発明の目的は、オーディオ信号のダウンミックス用いて、例えば、カラオケ/ソロモードアプリケーションにおいて、個々のオブジェクトのより良好な分離が達成されるようなオーディオコーデックを提供することである。
【0010】
この目的は、請求項1に記載のオーディオデコーダ、請求項18に記載のオーディオエンコーダ、請求項20に記載のデコード方法、請求項21に記載のエンコード方法、および請求項23に記載のマルチ‐オーディオ‐オブジェクト信号によって達成される。
【図面の簡単な説明】
【0011】
本願の好ましい実施形態は、以下の図面を参照して更に詳細に記載される。
【図1】本発明の実施形態が実装することのできるSAOCエンコーダ/デコーダ装置のブロック図を示す。
【図2】モノラルオーディオ信号のスペクトル表現の図解および例示した図を示す。
【図3】本発明の一実施形態によるオーディオデコーダのブロック図を示す。
【図4】本発明の一実施形態によるオーディオエンコーダのブロック図を示す。
【図5】一比較実施形態として、カラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図6】一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図7a】一比較実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダのブロック図を示す。
【図7b】一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダのブロック図を示す。
【図8a】品質測定結果のプロットを示す。
【図8b】品質測定結果のプロットを示す。
【図9】比較の目的のため、カラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図10】一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図11】更なる実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図12】更なる実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。
【図13a】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13b】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13c】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13d】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13e】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13f】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13g】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図13h】本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。
【図14】一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオデコーダのブロック図を示す。
【図15】残余信号を送信するために費やされるデータ量を信号送信するための可能な構文を反映したテーブルを示す。
【発明を実施するための形態】
【0012】
本発明の実施形態が以下においてより詳細に記載される前に、SAOCコーデックと、SAOCビットストリームにおいて送信されるSAOCパラメータが、以下の更なる詳細において概説される特定の実施形態の理解を容易にするために、提示される。
【0013】
図1は、SAOCエンコーダ10とSAOCデコーダ12の一般的装置を示す。SAOCエンコーダ10は、入力としてN個のオブジェクト、すなわちオーディオ信号141〜14Nを受信する。特に、エンコーダ10は、オーディオ信号141〜14Nを受信するダウンミックス装置16を備え、それをダウンミックス信号18にダウンミックスする。図1において、ダウンミックス信号は、ステレオダウンミックス信号として例示される。しかしながら、モノラルダウンミックス信号も、同様に可能である。ステレオダウンミックス信号18のチャンネルは、L0とR0で示され、モノラルダウンミックス信号の場合は、単にL0で示される。SAOCデコーダ12が個々のオブジェクト141〜14Nを復元することを可能とするため、ダウンミックス装置16は、オブジェクトレベル差(OLD)、オブジェクト間相互相関パラメータ(IOC)、ダウンミックスゲイン値(DMG)、およびダウンミックスチャンネルレベル差(DCLD)を含むSAOCパラメータを含んだ副情報を、SAOCデコーダ12に提供する。SAOCパラメータを含む副情報20は、ダウンミックス信号18とともに、SAOCデコーダ12によって受信されるSAOC出力データストリームを形成する。
【0014】
SAOCデコーダ12は、オーディオ信号141〜14Nを復元し、SAOCデコーダ12に入力された再現情報26によって規定された再現によって任意のユーザ選択されたチャンネルのセット241〜24M上に再現するために、ダウンミックス信号18ならび副情報20を受信するアップミックス装置22を備える。
【0015】
オーディオ信号141〜14Nは、例えば時間またはスペクトル領域のような任意のコーディング領域において、ダウンミックス装置16に入力することができる。PCMコード化されたように、オーディオ信号141〜14Nが時間領域でダウンミックス装置16に供給されるケースでは、ダウンミックス装置16は、信号を、特定のフィルタバンクの分解能で、オーディオ信号が異なるスペクトル部分に関連するいくつかのサブバンドで表現されるスペクトル領域に転送させるために、ハイブリッドQMFバンク、すなわち最低周波数バンドに対するナイキストフィルタ拡張を有し、周波数分解能を増大させる複合指数変調されたフィルタのバンクのような、フィルタバンクを用いる。オーディオ信号141〜14Nが既にダウンミックス装置16によって期待される表現である場合は、スペクトル分解を実行する必要はない。
【0016】
図2は、ちょうど言及されたスペクトル領域のオーディオ信号を示す。ここで判るように、オーディオ信号は、複数のサブバンド信号として表現される。各サブバンド信号301〜30Pは、小さなボックス32によって示される一連のサブバンド値から成る。ここで判るように、サブバンド信号301〜30Pのサブバンド値32は、時間においてお互いに同期しているので、連続的なフィルタバンクタイムスロット34の各々に対して、各サブバンド301〜30Pは厳密な1つのサブバンド値32を備える。周波数軸36で図示されるように、サブバンド信号301〜30Pは、異なる周波数領域に関連しており、時間軸38で図示されるように、フィルタバンクのタイムスロット34は時間において連続的に配列される。
【0017】
上記概説されたように、ダウンミックス装置16は、入力オーディオ信号141〜14Nから、SAOCパラメータを演算する。ダウンミックス装置16は、この演算を、フィルタバンクタイムスロット34とサブバンド分解によって定義されるオリジナルの時間/周波数分解能と比較して特定の量だけ減少することができる時間/周波数分解能において実行し、この特定の量は、それぞれの構文要素bsFrameLengthおよびbsFreqResによって副情報20の中でデコーダ側に信号送信される。例えば、一群の連続するフィルタバンクタイムスロット34は、フレーム40を形成することができる。言い換えれば、オーディオ信号は、例えば、時間においてオーバーラップする、または、時間において直に隣接するフレームに分割することができる。このケースでは、bsFrameLengthは、パラメータタイムスロット41の数、すなわち、SOACフレーム40においてOLDとIOCのようなSAOCパラメータが演算される時間単位を定義することができ、bsFreqResは、SAOCパラメータが演算される処理周波数バンドの数を定義することができる。この尺度によって、各フレームは、図2において破線42で例示される時間/周波数タイルに分割される。
【0018】
ダウンミックス装置16は、以下の数式によってSAOCパラメータを算出する。特に、ダウンミックス装置16は、次のように各オブジェクトiに対するオブジェクトレベル差を演算する。
ここで、合計および指標nとkは、それぞれ、すべてのフィルタバンクタイムスロット34と、特定の時間/周波数タイル42に属するすべてのフィルタバンクサブバンド30とを通過する。これにより、オーディオ信号またはオブジェクトiのすべてのサブバンド値xiのエネルギーは合計され、すべてのオブジェクトまたはオーディオ信号の中のそのタイルの最高エネルギーに正規化される。
【0019】
更に、SAOCダウンミックス装置16は、異なる入力オブジェクト141〜14Nのペアの対応する時間/周波数タイルの類似性尺度を演算することができる。SAOCダウンミックス装置16は、入力オブジェクト141〜14Nのすべてのペアの間の類似性尺度を演算することができるが、ダウンミックス装置16は、類似性尺度の信号送信を抑制するか、または、類似性尺度の演算を一般的なステレオチャンネルの左右のチャンネルを形成するオーディオオブジェクト141〜14Nに限定することもできる。いずれのケースも、類似性尺度は、オブジェクト間相互相関パラメータIOCi,jと呼ばれる。その演算は次の通りである。
ここで、再び、指標nとkは、特定の時間/周波数タイル42に属するすべてのサブバンド値を通り、iとjは、オーディオオブジェクト141〜14Nの特定のペアを表す。
【0020】
ダウンミックス装置16は、各オブジェクト141〜14Nに適用されるゲイン係数を用いて、オブジェクト141〜14Nをダウンミックスする。すなわち、ゲイン係数Diは、オブジェクトiに適用され、そしてそれにより重み付けられたすべてのオブジェクト141〜14Nは、モノラルのダウンミックス信号を取得するために合計される。図1に例示されるステレオダウンミックス信号のケースでは、ゲイン係数D1,iは、オブジェクトiに適用され、そしてそのようなゲインで増幅されたすべてのオブジェクトは、左のダウンミックスチャンネルL0を取得するために合計され、ゲイン係数D2,iは、オブジェクトiに適用され、そしてそれによりゲイン増幅されたオブジェクトは、右のダウンミックスチャンネルR0を取得するために合計される。
【0021】
このダウンミックス処方は、ダウンミックスゲインDMGiと、ステレオダウンミックス信号のケースではダウンミックスチャンネルレベル差DCLDiとによって、デコーダ側に信号送信される。
【0022】
ダウンミックスゲインは、次式によって算出される。
ここで、εは10―9のような小さな数である。
【0023】
DCLDに対しては、次式を適用する。
【0024】
通常モードにおいて、ダウンミックス装置16は、それぞれ次式によってダウンミックス信号を生成する。
【0025】
このように、上述した計算式において、パラメータOLDとIOCはオーディオ信号の関数であり、パラメータDMGとDCLDはDの関数である。ところで、Dは時間において変化することができることに注意されたい。
【0026】
このように、通常モードにおいて、ダウンミックス装置16は、すべてのオブジェクト141〜14Nを、優先的取扱いなしで、すなわちすべてのオブジェクト141〜14Nを等しく取り扱って混合する。
【0027】
アップミックス装置22は、ダウンミックス処理の逆変換と、1つの演算ステップにおいてマトリクスAによって表現される再現情報の実施態様を実行する。すなわち、
ここで、マトリクスEは、パラメータOLDとIOCの関数である。
【0028】
言い換えれば、通常モードにおいて、オブジェクト141〜14Nの、BGOすなわちバックグラウンドオブジェクト、またはFGOすなわちフォアグラウンドオブジェクトへのいかなる分類も実行されない。どのオブジェクトがアップミックス装置22の出力で提供されるかの情報は、再現マトリクスAによって提供される。例えば、指標1のオブジェクトがステレオバックグラウンドオブジェクトの左チャンネル、指標2のオブジェクトがその右チャンネル、指標3のオブジェクトがフォアグラウンドオブジェクトであったとき、再現マトリクスAは、
となり、カラオケタイプの出力信号を生成する。
【0029】
しかしながら、すでに上記で示されたように、SAOCコーデックのこの通常モードを用いたBGOとFGOの送信は、受け入れ可能な結果を達成できない。
【0030】
図3と図4は、まさに記載された欠陥を克服する本発明の実施形態を記載する。これらの図に記載されたデコーダとエンコーダ、およびそれらに関連する機能は、図1のSAOCコーデックを切換可能とすることができる「強化モード」のような追加モードを表現することができる。後者の可能性のための実施形態は、以下に示される。
【0031】
図3は、デコーダ50を示す。デコーダ50は、予測係数を演算する手段52と、ダウンミックス信号をアップミックスする手段54とを備える。
【0032】
図3のオーディオデコーダ50は、第1タイプのオーディオ信号とエンコードされた第2タイプのオーディオ信号を有するマルチ‐オーディオ‐オブジェクト信号をデコードするための専用である。第1タイプのオーディオ信号と第2タイプのオーディオ信号は、それぞれモノラルまたはステレオのオーディオ信号とすることができる。第1タイプのオーディオ信号は、例えば、バックグラウンドオブジェクトであるのに対して、第2タイプのオーディオ信号は、フォアグラウンドオブジェクトである。すなわち、図3と図4の実施形態は、カラオケ/ソロモードアプリケーションに必ずしも限定されない。むしろ、図3のデコーダと図4のエンコーダは、他のところで都合よく用いることができる。
【0033】
マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号56と副情報58から成る。副情報58は、例えば、時間/周波数分解能42のような第1の所定の時間/周波数分解能における、第1タイプのオーディオ信号と第2タイプのオーディオ信号のスペクトルエネルギーを記述するレベル情報60を備える。特に、レベル情報60は、オブジェクトと時間/周波数タイル当りの正規化されたスペクトルエネルギーのスカラー値を備えることができる。正規化は、それぞれの時間/周波数タイルで、第1と第2タイプのオーディオ信号の中の最も高いスペクトルエネルギー値に関係することができる。後者の可能性は、レベル情報を表現するOLDに結果としてなり、本願明細書においてレベル差情報とも呼ばれる。以下の実施形態はOLDを用いているが、それらはそこでは明示的に述べられておらず、他のところで正規化されたスペクトルエネルギー表現を用いることができる。
【0034】
副情報58は、また、第1の所定の時間/周波数分解能に等しいかまたは異なることができる第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号62をも備える。
【0035】
予測係数を演算する手段52は、レベル情報60に基づいて予測係数を演算するように構成される。加えて、手段52は、副情報58にも備えられる相互相関情報に更に基づいて、予測係数を演算することができる。さらには、手段52は、予測係数を演算するために、副情報58に備えられる時間変化するダウンミックス処方情報を用いることができる。手段52によって演算される予測係数は、ダウンミックス信号56から、オリジナルのオーディオオブジェクトまたはオーディオ信号を読み出すかまたはアップミックスするために必要である。
【0036】
したがって、アップミックスする手段54は、手段52から受信された予測係数64と残余信号62に基づいて、ダウンミックス信号56をアップミックスするように構成される。残余信号62を用いることによって、デコーダ50は、1つのタイプのオーディオ信号から他のタイプのオーディオ信号へのクロストークをより良く抑制することが可能である。残余信号62に加えて、手段54は、ダウンミックス信号をアップミックスするため、時間変化するダウンミックス処方を用いることができる。更に、アップミックスする手段54は、ダウンミックス信号56から復元されたオーディオ信号のうちどちらを、またはどの範囲まで、実際に出力68に出力するかを決定するために、ユーザ入力66を用いることができる。第1の極端な行為として、ユーザ入力66は、単に第1タイプのオーディオ信号を近似する第1のアップミックス信号を出力するように、手段54に指示することができる。その反対は、それに従って手段54が単に第2のタイプのオーディオ信号を近似する第2のアップミックス信号を出力する第2の極端な行為にあてはまる。中間のオプションは、それに従って両方のアップミックス信号の混合が出力68の出力に再現されることが同様に可能である。
【0037】
図4は、図3のデコーダによってデコードされたマルチオーディオオブジェクト信号を生成することに適するオーディオエンコーダの実施形態を示す。参照符号80で示される図4のエンコーダは、エンコードされるオーディオ信号84がスペクトル領域にない場合に、スペクトルで分解する手段82を備えることができる。オーディオ信号84の中には、順番に、少なくとも1つの第1タイプのオーディオ信号と少なくとも1つの第2のタイプのオーディオ信号がある。スペクトルで分解する手段82は、これらの信号84の各々を、例えば、図2で示されたような表現にスペクトルで分解するように構成される。すなわち、スペクトルで分解する手段82は、オーディオ信号84を所定の時間/周波数分解能でスペクトルで分解する。手段82は、ハイブリッドQMFバンクのようなフィルタバンクを備えることができる。
【0038】
オーディオエンコーダ80は、レベル情報を演算する手段86と、ダウンミックスする手段88と、予測係数を演算する手段90と、残余信号を設定する手段92を、更に備える。加えて、オーディオエンコーダ80は、相互相関情報を演算する手段、すなわち手段94を備えることができる。手段86は、オプションとして手段82によって出力されたオーディオ信号から、第1タイプのオーディオ信号と第2のタイプのオーディオ信号のレベルを、第1の所定の時間/周波数分解能で記述するレベル情報を演算する。同様に、手段88は、オーディオ信号をダウンミックスする。手段88は、このようにダウンミックス信号56を出力する。手段86も、レベル情報60を出力する。予測係数を演算する手段90は、手段52と同様に振舞う。すなわち、手段90は、レベル情報60から予測係数を演算し、予測係数64を手段92に出力する。手段92は、順番に、ダウンミックス信号56を予測係数64と残余信号62の両方に基づいてアップミックスすることが、第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、第2のタイプのオーディオ信号を近似する第2のアップミックスオーディオ信号に結果としてなり、その近似が残余信号62の欠如と比べて良いと認められるように、ダウンミックス信号と予測係数64とオリジナルのオーディオとに基づいて、第2の所定の時間/周波数分解能で、残余信号62を設定する。
【0039】
残余信号62とレベル情報60は、ダウンミックス信号56とともに、図3のデコーダによってデコードされるマルチ‐オーディオ‐オブジェクト信号を形成する副情報58に備えられる。
【0040】
図4に示すように、図3の説明と類似して、手段90は、予測係数64を演算するために、手段94によって出力される相互相関情報および/または手段88によって出力される時間変化するダウンミックス処方を付加的に用いることができる。更に、残余信号62を設定する手段92によって残余信号62を適切に設定するために、手段88によって出力される時間変化するダウンミックス処方を付加的に用いることができる。
【0041】
再び、第1タイプのオーディオ信号はモノラルまたはステレオのオーディオ信号でよいことに注意されたい。同じことは第2タイプのオーディオ信号に適用される。残余信号62は、副情報内で、例えばレベル情報を演算するために用いられるパラメータ時間/周波数分解能と同じ時間/周波数分解能において信号送信することができ、または異なる時間/周波数分解能を用いることもできる。更に、残余信号の信号送信は、レベル情報が信号送信されるための時間/周波数タイル42によって占有されるスペクトル範囲のサブ部分に限定することも可能である。例えば、残余信号が信号送信される時間/周波数分解能は、構文要素bsResidualBandsおよびbsResidualFramesPerSAOCFrameを用いて、副情報58内で示すことができる。これらの2つの構文要素は、時間/周波数タイル内に、タイル42を先導するサブ区画よりも他のフレームのサブ区画を定義することができる。
【0042】
ところで、残余信号62は、オーディオエンコーダ80によってダウンミックス信号56をエンコードするためにオプションとして潜在的に使用されるコアエンコーダ96から結果として生じる情報損失を反映でき、または、できないことに注意されたい。図4に示すように、手段92は、ダウンミックス信号のバージョンに基づいて、コアエンコーダ96の出力から、または、コアコーダ96´に入力されるバージョンから、復元可能に残余信号62を設定することを実行することができる。同様に、オーディオデコーダ50は、ダウンミックス信号56をデコードまたは伸張するコアデコーダ98を備えることができる。
【0043】
複数のオーディオオブジェクト信号内で、残余信号62に用いられる時間/周波数分解能を、レベル情報60を演算するために用いられる時間/周波数分解能と異なって設定する能力は、一方のオーディオ品質と他方の複数のオーディオオブジェクト信号の圧縮比の間の良好な歩み寄りを得ることを可能とする。いずれにせよ、残余信号62は、ユーザ入力66に従って出力68に出力される第1と第2のアップミックス信号内で、1つのオーディオ信号から他へのクロストークをより良く抑制することを可能にする。
【0044】
以下の実施形態から明らかになるように、1つ以上のフォアグラウンドオブジェクトまたは第2タイプのオーディオ信号がエンコードされる場合に、1つ以上の残余信号62を副情報内で送信することができる。副情報は、残余信号62が特定の第2タイプのオーディオ信号のために送信されるかどうかの個々の決定を考慮に入れることができる。このように、残余信号62の数は、1つから第2タイプのオーディオ信号の数まで変わることができる。
【0045】
図3のオーディオデコーダにおいて、演算する手段54は、レベル情報(OLD)に基づいて、予測係数から構成される予測係数マトリックスCを演算するように構成し、手段56は、ダウンミックス信号dから、次式によって表現できる演算によって、第1のアップミックス信号S1および/または第2のアップミックス信号S2を産出するように構成することができる。
ここで、「1」は、チャンネル数dに従属するスカラーまたは単位行列を表し、D-1は、それに従って第1タイプのオーディオ信号と第2のタイプのオーディオ信号がダウンミックス信号にダウンミックスされる、副情報にも備えられるダウンミックス処方によって一意に決定されるマトリックスであり、Hは、dから独立しているが残余信号に従属する項である。
【0046】
上述され、更に以下に記載されるように、ダウンミックス処方は、副情報内で、時間において変化することができ、および/または、スペクトルで変化することができる。第1タイプのオーディオ信号が第1入力チャンネル(L)と第2入力チャンネル(R)を有するステレオオーディオ信号である場合に、レベル情報は、例えば、第1入力チャンネル(L)、第2入力チャンネル(R)、および第2タイプのオーディオ信号のそれぞれの正規化されたスペクトルエネルギーを、時間/周波数分解能42で記述する。
【0047】
それに従ってアップミックスする手段56がアップミックスを実行する上述の演算は、次式によって表現することさえできる。
【0048】
項Hが残余信号resに従属している限り、それに従ってアップミックスする手段56がアップミックスを実行する演算は、次式によって表現することができる。
【0049】
マルチ‐オーディオ‐オブジェクト信号は、第2タイプの複数のオーディオ信号を備えることさえでき、副情報は、第2タイプのオーディオ信号当り1つの残余信号を備えることができる。残余分解能パラメータは、残余信号が副情報内で送信されるスペクトル範囲を定義する副情報において提供することができる。それは、スペクトル範囲の下側と上側の制限を定義することさえできる。
【0050】
更に、マルチ‐オーディオ‐オブジェクト信号は、第1タイプのオーディオ信号を、予め定められたスピーカ構成上に空間的に再現するための空間再現情報を備えることもできる。言い換えれば、第1タイプのオーディオ信号は、ステレオにダウンミックスされたマルチチャンネル(2つ以上のチャンネル)のMPEGサラウンド信号とすることができる。
【0051】
以下に、上記残余信号の信号送信に用いることができる実施形態が記載される。しかしながら、用語「オブジェクト」は、2重の意味でしばしば用いられることに注意されたい。時には、オブジェクトは、個々のモノラルオーディオ信号を表す。このように、ステレオオブジェクトは、ステレオ信号の1つのチャンネルを形成するモノラルオーディオ信号を有することができる。しかしながら、他の状況では、ステレオオブジェクトは、事実、2つのオブジェクト、すなわち、ステレオオブジェクトの右チャンネルに関するオブジェクトおよび左チャンネルに関する更なるオブジェクトを表すことができる。実際の意味は、文脈から明らかになる。
【0052】
次の実施形態を記載する前に、同じことは、2007年に基準モデル0(RM0)として選択されたSAOCスタンダードのベースライン技術で認められた不具合によって動機づけられる。RM0は、パニング位置と増幅/減衰に関する多数のサウンドオブジェクトの個々の操作を可能にした。特別なシナリオは、「カラオケ」タイプのアプリケーションの文脈において提示される。このケースでは、
●モノラル、ステレオ、またはサラウンドバックグラウンドシーン(以下においてバック グラウンドオブジェクトBGOと呼ばれる)は、一組の特定のSAOCオブジェクトか ら導かれ、それは変更なく再生される。すなわち、あらゆる入力チャンネル信号が変更 のないレベルで同じ出力チャンネルで再生される。
●関心のある特定のオブジェクト(以下においてフォアグラウンドオブジェクトFGOと 呼ばれる)(典型的にはリードボーカル)は、変更(FGOは、典型的にサウンドステ ージの中央に配置され、ミュートすることができる、すなわち、伴って歌うことを可能 とするため強く減衰される)して再生される。
【0053】
主観評価処理から判るように、そして基礎をなす技術原理から期待できるように、オブジェクト位置の操作は高品質の結果に導き、一方オブジェクトレベルの操作は一般的によりチャレンジングである。典型的に、追加信号の増幅/減衰がより高いほど、より潜在的なアーティファクトが生じる。この意味で、極端な(理想的には全体の)FGOの減衰が要求されるので、カラオケシナリオは、極めて要求が厳しい。
【0054】
二重使用のケースは、バックグラウンド/MBOなしでFGOだけを再生する能力であって、以下においてソロモードと称される。
【0055】
しかしながら、サラウンドバックグラウンドシーンが含まれる場合、それがマルチチャンネルバックグラウンドオブジェクト(MBO)と称される点に注意されたい。MBOの取り扱いは以下の通りであり、図5において示される。
●MBOは、標準の5―2―5MPEGサラウンドツリー102を用いてエンコードされ る。これは、ステレオMBOダウンミックス信号104とMBO‐MPS副情報ストリ ーム106に結果としてなる。
●MBOダウンミックスは、次に、引き続くSAOCエンコーダ108によって、ステレ オオブジェクト(すなわち、2つのオブジェクトレベル差、プラス相互相関)として、 その(またはいくつかの)FGO110と一緒にエンコードされる。これは、一般的な ダウンミックス信号112とSAOC副情報ストリーム114に結果としてなる。
【0056】
トランスコーダ116において、ダウンミックス信号112は前処理され、SAOCとMPS副情報ストリーム106、114は、単一のMPS出力副情報ストリーム118にトランスコードされる。これは、一般に不連続な方法で起こる。すなわち、FGOの完全な抑制のみか、または、MBOの完全な抑制のいずれかがサポートされる。
【0057】
最後に、結果として生じたダウンミックス120とMPS副情報118は、MPEGサラウンドデコーダ122によって再現される。
【0058】
図5において、MBOダウンミックス104と制御可能なオブジェクト信号110の両方は、単一のステレオダウンミックス112に結合される。この制御可能なオブジェクト110によるダウンミックスの「汚染」は、制御可能なオブジェクト110が取り除かれ、十分に高いオーディオ品質である、カラオケバージョンを復元することの難しさの理由である。以下の提案は、この課題を回避することを目的とする。
【0059】
1つのFGO(例えば1つのリードボーカル)を仮定すると、以下の図6の実施形態によって用いられる重要な知見は、SAOCダウンミックス信号がBGOとFGO信号の結合である、すなわち、3つのオーディオ信号がダウンミックスされ、2つのダウンミックスチャンネルを介して送信されることである。理想的には、これらの信号は、クリーンなカラオケ信号を生成する(すなわち、FGO信号を取り除く)か、またはクリーンなソロ信号を生成する(すなわち、BGO信号を取り除く)ために、トランスコーダにおいて再び分離されなければならない。これは、図6の実施形態に従って、SAOCエンコーダにおいて、BGOとFGOを単一のSAOCダウンミックス信号に結合するため、SAOCエンコーダ108内で、「2から3への」(TTT)エンコーダ要素124(TTT―1は、MPEGサラウンド仕様から知られる)を用いることで達成される。ここで、FGOはTTT-1ボックス124の「中心の」信号入力に供給され、BGO104は「左右の」TTT-1入力L,Rに供給される。トランスコーダ116は、次に、TTTデコーダ要素126(TTTは、MPEGサラウンドから知られる)を用いて、BGO104の近似を生成することができる。すなわち、「左右の」TTT出力L,Rは、BGOの近似をもたらすのに対して、「中心の」TTT出力Cは、FGO110の近似をもたらす。
【0060】
図6の実施形態を、図3と図4のエンコーダとデコーダの実施形態と比較するとき、参照符号104は、オーディオ信号84の中の第1タイプのオーディオ信号に対応し、手段82は、MPSエンコーダ102に備えられ、参照符号110は、オーディオ信号84の中の第2タイプのオーディオ信号に対応し、TTT-1ボックス124は、手段88〜92の機能に対する役割を、SAOCエンコーダ108において実装される手段86と94の機能によって引き継ぎ、参照符号112は、参照符号56に対応し、参照符号114は、残余信号62よりも少ない副情報58に対応し、TTTボックス126は、手段52と54の機能に対する役割を、手段54でも備えられている混合ボックス128の機能によって引き継ぐ。最後に、信号120は、出力68で出力される信号に対応する。更に、図6は、SAOCエンコーダ108からSAOCトランスコーダ116へのダウンミックス112の移送のためのコアコーダ/デコーダ・パス131をも示すことに注意されたい。このコアコーダ/デコーダ・パス131は、オプションのコアコーダ96とコアデコーダ98に対応する。図6に示すように、このコアコーダ/デコーダ・パス131は、エンコーダ108からトランスコーダ116まで移送された副情報の移送された信号をエンコード/圧縮することもできる。
【0061】
図6のTTTボックスの導入から生じる効果は、以下の説明によって明らかになる。例えば、
●「左右の」TTT出力L,RをMPSダウンミックス120に単純に供給する(そして 、ストリーム118において、送信されたMBO‐MPSビットストリーム106を順 送りする)ことによって、MBOのみが最終的なMPSデコーダによって再生される。 これは、カラオケモードに対応する。
●「中心の」TTT出力Cを左右のMPSダウンミックス120に単純に供給する(そし て、FGO110を所望の位置とレベルに再現する些細なMPSビットストリーム11 8を生成する)ことによって、FGO110のみが最終的なMPSデコーダ122によ って再生される。これは、ソロモードに対応する。
【0062】
3つのTTT出力信号L,R,Cの取り扱いは、SAOCトランスコーダ116の「混合」ボックス128において実行される。
【0063】
図6の処理構成は、図5に対して多くの明瞭な利点を提供する。
●フレームワークは、バックグラウンド(MBO)100とFGO信号110のクリーン な構成上の分離を提供する。
●TTT要素126の構成は、波形ベースで、3つの信号L,R,Cの最高の復元を試み る。このように、最終的なMPS出力信号130は、ダウンミックス信号のエネルギー 重み付け(および無相関化)によって形成されるだけでなく、TTT処理のため波形に 関しても近い。
●MPEGサラウンドTTTボックス126とともに、残余コーディングを用いることに よって復元精度を強化する可能性がある。このように、復元品質における有意な強化は 、TTT-1124により出力され、アップミックスのためのTTTボックスによって用 いられる残余信号132の残余バンド幅と残余ビットレートが増加するにつれて、達成 することができる。理想的には(すなわち、残余コーディングとダウンミックス信号の コーディングにおける無限に微細な量子化に対して)、バックグラウンド(MBO)と FGO信号の間の干渉はキャンセルされる。
【0064】
図6の処理構成は、多くの特性を備えている。
●カラオケ/ソロモードの二重性 : 図6のアプローチは、同じ技術手段を用いてカラ オケとソロの両方の機能を提供する。すなわち、例えば、SAOCパラメータは再利用 される。
●洗練化可能性 : カラオケ/ソロ信号の品質は、TTTボックスにおいて用いられる 残余コーディング情報の量を制御することによって、必要に応じて洗練させることがで きる。例えば、パラメータbsResidualSamplingFrequencyIndex、bsResidualBands、お よびbsResidualFramesPerSAOCFrameを用いることができる。
●ダウンミックスにおけるFGOの位置決め : MPEGサラウンド仕様において指定 されるTTTボックスを用いるとき、FGOは、左右のダウンミックスチャンネルの間 の中心位置に常に混合される。位置決めにおいてより柔軟性を可能とするため、「中心 」の入力/出力に関連する信号の非対称位置決めを可能としながら同じ原理に従う一般 化されたTTTエンコーダボックスが使用される。
●多重FGO : 記載された構成において、1つのFGOのみの使用が記載されていた (これは、最も重要なアプリケーションのケースに対応するかも知れない)。しかしな がら、提案されたコンセプトは、以下の尺度の1つまたは組み合わせを用いて、いくつ かのFGOに適応することも可能である。
◆グループ化されたFGO : 図6に示されたように、TTTボックスの中心の入力 /出力に接続された信号は、実際に、単一のもののみよりもむしろ、いくつかのF GO信号の合計とすることができる。これらのFGOは、マルチチャンネル出力信 号130において、独立に位置決め/制御することができる(しかしながら、それ らが同様にスケールされ配置されたときに、最良の品質効果が達成される)。それ らは、ステレオダウンミックス信号112において一般的な位置を共有し、1つの 残余信号132のみがある。いずれにせよ、バックグラウンド(MBO)と制御可 能なオブジェクトの間の干渉は(制御可能なオブジェクト間ではされないが)キャ ンセルされる。
◆カスケード接続されたFGO : ダウンミックス112における一般的なFGO位 置に関する制限は、図6のアプローチを拡張することによって克服することができ る。多重FGOは、記載されたTTT構成のいくつかのステージをカスケード接続 し、各ステージが1つのFGOに対応し、残余コーディングストリームを生成する ことによって、適応することができる。このように、干渉は、理想的には、各FG O間においてもキャンセルされる。もちろん、このオプションは、グループ化され たFGOアプローチを用いるよりも高いビットレートを必要とする。実施形態は後 述する。
●SAOC副情報 : MPEGサラウンドにおいて、TTTボックスに関連する副情報 は、一対のチャンネル予測係数(CPC)である。対照的に、SAOCパラメータ表示 とMBO/カラオケシナリオは、各オブジェクト信号のオブジェクトエネルギーと、M BOダウンミックスの2つのチャンネル間の信号間相関(すなわち、「ステレオオブジ ェクト」のパラメータ表示)を送信する。強化されたカラオケ/ソロモードのないケー スに関係するパラメータ表示、およびビットストリームフォーマットにおける変化の数 を最小化するために、CPCは、ダウンミックスされた信号(MBOダウンミックスと FGO)のエネルギーとMBOダウンミックスステレオオブジェクトの信号間相関とか ら算出することができる。それ故、送信されたパラメータ表示を変更または増大する必 要がなく、CPCは、SAOCトランスコーダ116において送信されたSAOCパラ メータ表示から算出することができる。このように、強化されたカラオケ/ソロモード を用いたビットストリームは、残余データを無視するとき、標準モードのデコーダ(残 余コーディングのない)によってデコードすることもできる。
【0065】
要約すると、図6の実施形態は、特定の選択されたオブジェクト(またはそれらのオブジェクトのないシーン)の強化された再生を目的とし、ステレオダウンミックスを用いた現行のSAOCエンコードアプローチを以下のように拡張する。
●通常モードにおいて、各オブジェクト信号は、ダウンミックスマトリクスにおけるその エントリーによって(左右のダウンミックスチャンネルのそれぞれに対する寄与に対し て)重み付けされる。次に、左右のダウンミックスチャンネルに対するすべての重み付 けられた分担は、左右のダウンミックスチャンネルを形成するために合計される。
●強化されたカラオケ/ソロ演奏のために、すなわち強化モードにおいて、すべてのオブ ジェクト分担は、フォアグラウンドオブジェクト分担(FGO)と残りのオブジェクト 分担(BGO)を形成する一組のオブジェクト分担に分割される。FGO分担は、モノ ラルのダウンミックス信号に合計され、残りのバックグラウンド分担は、ステレオダウ ンミックスに合計され、両方とも、一般的なSAOCステレオダウンミックスを形成す るために、一般化されたTTTエンコーダ要素を用いて合計される。
【0066】
このように、標準の合計は、「TTT総和」(必要なときはカスケード接続することができる)によって置き換えられる。
【0067】
SAOCエンコーダの通常モードと強化モードのちょうど言及された相違を強調するために、図7aと図7bが参照される。ここで、図7aは通常モードに関するのに対して、図7bは強化モードに関する。これから判るように、通常モードにおいて、SAOCエンコーダ108は、オブジェクトjを重み付けし、このように重み付けられたオブジェクトjをSAOCチャンネルi、すなわちL0またはR0に加算するため、前述のDMXパラメータDijを用いる。図6の強化モードの場合は、単にDMXパラメータDiのベクトルが必要である。すなわち、DMXパラメータDiは、FGO110の重み付けられた合計をどのように形成するかを示し、それによりTTT-1ボックス124のための中心チャンネルCを取得し、DMXパラメータDiは、TTT-1ボックスに中心信号Cを左MBOチャンネルと右MBOチャンネルのそれぞれに対してどのように分配するかを指示し、それによりLDMXまたはRDMXをそれぞれ取得する。
【0068】
問題として、図6による処理は、非波形で保存するコーデック(HE―AAC/SBR)では、あまりうまく動作しない。その問題の解決策は、HE‐AACおよび高周波のためのエネルギーベースで一般化されたTTTモードとすることができる。問題に対処する実施形態は、後述される。
【0069】
カスケード接続されたTTTによるもののための可能なビットストリームフォーマットは、以下の通りとすることができる。
【0070】
スキップできるようにするために必要なSAOCビットストリームへの追加は、「標準のデコードモード」において簡約すると次の通りである。
【0071】
複雑度および所要メモリ量に関しては、以下のように述べることができる。前の説明から判るように、図6の強化されたカラオケ/ソロモードは、エンコーダとデコーダ/トランスコーダのそれぞれ、すなわち一般化されたTTT-1/TTTエンコーダ要素において、1つのコンセプト上の要素のステージを付加することによって実現される。両方の要素は、標準の「中央化された」TTT相当品(係数値の変化は複雑度に影響しない)に対して、その複雑度において同一である。想定される主要なアプリケーション(リードボーカルとしての1つのFGO)のためには、単一のTTTで充分である。
【0072】
MPEGサラウンドシステムの複雑度に対するこの追加構成の関係は、関連するステレオダウンミックスケース(5‐2‐5型)に対して1つのTTT要素と2つのOTT要素から構成される全てのMPEGサラウンドデコーダの構成に注目することによって理解することができる。これは、付加された機能が計算複雑度とメモリ消費に関して廉価になることを、すでに示している(残余コーディングを用いたコンセプト上の要素は、それに代わる無相関化を含むそれらの相当品よりも、平均して複雑でないことに注意されたい)。
【0073】
MPEG‐SAOC基準モデルの図6のこの拡張は、特別なソロまたはミュート/カラオケタイプのアプリケーションに対して、オーディオ品質の改善を提供する。再び、図5、6、7に対応する説明が、バックグラウンドシーンまたはBGOとしてMBOを参照し、それは、一般にこのタイプのオブジェクトに限定されず、むしろモノラルまたはステレオのオブジェクトでもあり得ることに注意されたい。
【0074】
主観評価処理は、カラオケまたはソロアプリケーションのための出力信号のオーディオ品質に関する改善を明らかにする。評価された条件は、以下の通りである:
●RM0
●強化モード(res 0)(残余コーディングを有しない)
●強化モード(res 6)(最も低い6つのハイブリッドQMFバンドに残余コーディング を有する)
●強化モード(res 12)(最も低い12のハイブリッドQMFバンドに残余コーディング を有する)
●強化モード(res 24)(最も低い24のハイブリッドQMFバンドに残余コーディング を有する)
●隠れた基準
●下側アンカー(3.5kHzバンド制限されたバージョンの基準)
【0075】
提案された強化モードのためのビットレートは、残余コーディングなしで用いられる場合に、RM0に類似している。他の全ての強化モードは、残余コーディングの6バンド毎に約10kbit/sを必要とする。
【0076】
図8aは、10人のリスニング被検者によるミュート/カラオケテストの結果を示す。提案された解決策は、RM0より常に高く、追加の残余コーディングの各ステップとともに増加する平均MUSHRAスコアがある。RM0のパフォーマンス上の統計学的に有意な改善は、6以上のバンドの残余コーディングを有するモードに対して、明らかに認めることができる。
【0077】
図8bにおける9人の被検者によるソロテストの結果は、提案された解決策の類似の利点を示す。平均MUSHRAスコアは、より多くの残余コーディングを加えるときに明らかに増加する。24バンドの残余コーディングを有する強化モードと有さない強化モード間のゲインは、ほぼ50MUSHRAポイントである。
【0078】
全体として、カラオケアプリケーションのために、RM0より約10kbit/s高いビットレートの代償で良い品質が達成される。RM0のビットレートのトップに約40kbit/sを加えるとき、優れた品質が可能である。最大固定ビットレートが与えられた現実的なアプリケーションシナリオにおいては、提案された強化モードは、「使用していないビットレート」を、許容される最大レートに達するまで、残余コーディングにうまく費やすことを可能にする。それ故、最高の総合オーディオ品質が達成される。提示された実験結果を超える更なる改善は、残余ビットレートのより知的な使用により可能である。提示されたセットアップは、DCから特定の上側境界周波数までの残余コーディングを常に用いるが、強化された実施態様では、FGOとバックグラウンドオブジェクトを分離するために関連する周波数範囲のビットのみを費やす。
【0079】
前の説明において、カラオケ型アプリケーションのためのSAOC技術の強化が記載されていた。MPEG‐SAOCのためのマルチチャンネルFGOオーディオシーン処理に対する強化されたカラオケ/ソロモードのアプリケーションの追加の詳細な実施形態が提示される。
【0080】
変更によって再生されるFGOとは対照的に、MBO信号は、変更なしで再生されなければならない。すなわち、あらゆる入力チャンネル信号は、同じ出力チャンネルを通して不変のレベルで再生される。その結果として、SAOCエンコーダ、MBOトランスコーダおよびMPSデコーダを備える次のカラオケ/ソロモード処理ステージに入力される(ステレオの)バックグラウンドオブジェクト(BGO)の役割をするステレオダウンミックス信号を産出するMPEGサラウンドエンコーダによるMBO信号の前処理が提案された。図9は、再び、全体構成のダイアグラムを示す。
【0081】
ここで判るように、入力オブジェクトは、カラオケ/ソロモードのコーダ構成に従って、ステレオバックグラウンドオブジェクト(BGO)104とフォアグラウンドオブジェクト(FGO)110に分類される。
【0082】
RM0において、これらのアプリケーションシナリオの取り扱いは、SAOCエンコーダ/トランスコーダシステムによって実行されるが、図6の強化は、付加的にMPEGサラウンド構成の基本的ビルディングブロックを利用する。エンコーダでの3から2への(TTT-1)ブロックとトランスコーダでの対応する2から3への(TTT)補体を組み込むことは、特別なオーディオオブジェクトの強い増強/減衰が必要なときに、パフォーマンスを改善する。拡張構成の2つの主要な特性は、以下の通りである。
・残余信号の利用による、より良好な信号分離(RM0と比較して)
・その混合仕様を一般化することによる、TTT-1ボックスの中心入力(すなわちFGO )として表される信号の柔軟な位置決め
【0083】
TTTビルディングブロックの直接の実施態様は、エンコーダ側で3つの入力信号を含むので、図6は、図10に描かれるように(ダウンミックスされた)モノラル信号として、FGOの処理に重点が置かれた。マルチチャンネルFGO信号の取り扱いがまた述べられたが、次の章において更に詳細に説明される。
【0084】
図10から判るように、図6の強化モードにおいて、すべてのFGOの結合は、TTT-1ボックスの中心チャンネルに供給される。
【0085】
図6と図10によるケースのような、FGOモノラルダウンミックスの場合は、エンコーダでのTTT-1ボックスの構成は、中心入力に供給されるFGOと、左右の入力を提供するBGOを備える。基礎をなす対称行列は、次式で与えられる。
【0086】
この線形システムを通して取得された第3の信号は、破棄されるが、2つの予測係数c1およびc2(CPC)を組み込んだトランスコーダ側で、次式によって復元することができる。
【0087】
トランスコーダでの逆変換処理は、次式で与えられる。
【0088】
変数PL0、PR0、PL0R0、PL0F0およびPR0F0は、以下のように推定することができる。ここで、パラメータOLDL、OLDRおよびIOCLRはBGOに対応し、OLDFはFGOパラメータである。
【0089】
加えて、CPCの内包によってもたらされるエラーは、次のように、ビットストリーム内で送信することができる残余信号132によって表現される。
【0090】
いくつかのアプリケーションシナリオにおいて、すべてのFGOの単一のモノラルダウンミックスの限定は不適当であり、それゆえに克服される必要がある。例えば、FGOは、送信されたステレオダウンミックスおよび/または個々の減衰において異なる位置を有する2つ以上の独立グループに分割することができる。それ故、図11に示されるカスケード接続された構成は、エンコーダ側で所望のステレオダウンミックス112が取得されるまで、すべてのFGOグループF1、F2のステップバイステップのダウンミックスを産出する2つ以上の連続するTTT-1要素124a、124bを意味する。各々の −あるいは少なくともいくつかの− TTT-1ボックス124a、124b(それぞれ図11の)は、それぞれのステージまたはTTT-1ボックス124a、124bにそれぞれ対応する残余信号132a、132bを設定する。逆にいえば、トランスコーダは、利用可能である場合に、対応するCPCと残余信号を組み込んでいるそれぞれの逐次適用されるTTTボックス126a、126bを用いて、逐次アップミックスを実行する。FGO処理の順序は、エンコーダで指定され、トランスコーダ側で考慮されなければならない。
【0091】
図11に示された2段カスケードに含まれる詳細な数学的計算は、以下に記載される。
【0092】
一般論における損失なしで、簡略化された具体例として、図11に示されるように、以下の説明は、2つのTTT要素から構成されるカスケードに基づいている。2つの対称行列は、FGOモノラルダウンミックスと類似しているが、次のそれぞれの信号に対して適切に適用されなければならない。
【0093】
ここで、2セットのCPCは、以下の信号復元に結果としてなる。
【0094】
逆変換処理は、次式によって表現される。
【0095】
2段カスケードの特殊ケースは、その左右のチャンネルが対応するBGOのチャンネルに適切に合計され、μ1=0とμ2=π/2を産出する、1つのステレオのFGOを備える。
【0096】
この特別なパニングスタイルのために、およびオブジェクト間相関を無視するために、OLDLR=0であり、2セットのCPCの推定は次のように減縮する。
ここで、OLDFLとOLDFRは、それぞれ左右のFGO信号のOLDを表す。
【0097】
一般的なN段カスケード接続のケースは、次式によってマルチチャンネルFGOダウンミックスを参照する。
ここで、各ステージは、それ自身のCPCと残余信号を特徴づける。
【0098】
トランスコーダ側で、逆カスケードステップは、次式で与えられる。
【0099】
TTT要素の順序を保存する必要性を廃止するために、カスケード構成は、Nマトリクスを1つの単一の対称TTNマトリクスに再編成することによって、等価な並列回路に容易に変換することができ、これにより次の一般的TTNスタイルをもたらす。
ここで、マトリクスの最初の2行は、送信されるステレオダウンミックスを表す。一方、用語TTN(2からN)は、トランスコーダ側でアップミックスする処理に関する。
【0100】
この記述を用いて、特別にパンされたステレオFGOの特殊ケースは、マトリクスを次のように減縮する。
【0101】
したがって、この装置は、2から4要素またはTTFと称することができる。
【0102】
SAOCステレオ前処理モジュールを再利用するTTF構成をもたらすことも可能である。
【0103】
N=4の制限に対して、既存のSAOCシステムの部分を再利用する2から4(TTF)構成の実施態様が実行可能となる。処理は、以下の段落に記載される。
【0104】
SAOCスタンダードのテキストは、「ステレオからステレオへのトランスコードモード」のためのステレオダウンミックス前処理を記述する。正確には、出力ステレオ信号Yは、入力されたステレオ信号Xから、非相関化された信号Xdとともに、以下のように算出される。
【0105】
非相関化された成分Xdは、エンコード処理で既に破棄されたオリジナルの再現された信号の部分の合成表現である。図12によれば、非相関化された信号は、特定の周波数範囲のための適切なエンコーダで生成された残余信号132と置き換えられる。名称は、次のように定義される。
●Dは、2×Nダウンミックスマトリクス
●Aは、2×N再現マトリクス
●Eは、入力オブジェクトSのN×N共分散モデル
●GMod(図12のGに対応する)は、予測の2×2アップミックスマトリクス
GModは、D、AおよびEの関数であることに注意されたい。
【0106】
残余信号XResを算出するために、エンコーダにおけるデコーダ処理を模倣する、すなわちGModを決定することが必要である。
一般的なシナリオにおいて、Aは知られていないが、カラオケシナリオの特殊ケース(例えば、1つのステレオバックグラウンドと1つのステレオフォアグラウンドオブジェクト(N=4)を有する)では、次のように仮定される。
これは、BGOのみが再生されることを意味する。
【0107】
フォアグラウンドオブジェクトの推定のために、復元されたバックグラウンドオブジェクトは、ダウンミックス信号Xから減算される。これと最終の再現は、「混合」処理ブロックにおいて実行される。詳細は以下において示される。
【0108】
再現マトリクスAは、次のように設定される。
ここで、最初の2列はFGOの2つのチャンネルを表現し、2番目の2列はBGOの2つのチャンネルを表現する。
【0109】
BGOとFGOのステレオ出力は、以下の数式によって算出される。
【0110】
ダウンミックス重み付けマトリクスとして、Dは次式のように定義される。
【0111】
【0112】
XResは、上述のように取得された残余信号である。いかなる非相関化された信号も加算されないことに、是非注意されたい。
【0113】
最終出力Yは、次式によって与えられる。
【0114】
上記実施形態は、また、ステレオFGOの代わりにモノラルFGOが用いられる場合に適用することができる。処理は、次に以下によって変更される。
【0115】
再現マトリクスAは、次のように設定される。
ここで、最初の列はモノラルのFGOを表現し、次の列はBGOの2つのチャンネルを表現する。
【0116】
BGOとFGOのステレオ出力は、以下の数式によって算出される。
【0117】
ダウンミックス重み付けマトリクスとして、Dは次のように定義される。
【0118】
【0119】
XResは、上述のように取得された残余信号である。いかなる非相関化された信号も加算されないことに、是非注意されたい。
【0120】
最終出力Yは、次式によって与えられる。
【0121】
4以上のFGOオブジェクトの取り扱いのために、上記実施形態は、ちょうど記載された処理ステップの並列ステージを組み込むことによって拡張することができる。
【0122】
上記ちょうど記載された実施形態は、マルチチャンネルFGOオーディオシーンのケースの強化カラオケ/ソロモードの詳細な説明を提供した。この一般化は、MPEG‐SAOC基準モデルのサウンド品質を強化カラオケ/ソロモードのアプリケーションによって更に改善することができる、カラオケアプリケーションシナリオのクラスを拡大することを目的とする。改善は、一般的NTT構成をSAOCエンコーダのダウンミックス部分に、対応する相当品をSAOCtoMPSトランスコーダに、導入することによって達成される。残余信号の使用は、品質結果を強化した。
【0123】
図13a〜図13hは、本発明の一実施形態によるSAOC副情報ビットストリームの可能な構文を示す。
【0124】
SAOCコーデックの強化モードに関するいくつかの実施形態を記載した後に、いくつかの実施形態は、SAOCエンコーダへのオーディオ入力が標準のモノラルまたはステレオ音源だけでなくマルチチャンネルオブジェクトを含むアプリケーションシナリオに関係していることに留意すべきである。これは、図5〜図7bに関して明示的に記載されていた。このようなマルチチャンネルバックグラウンドオブジェクトMBOは、いかなる制御可能な再現機能も必要とされない、大きなそしてしばしば未知の数の音源を含んでいる複合サウンドシーンと考えることができる。個々別々に、これらのオーディオ源は、SAOCエンコーダ/デコーダ・アーキテクチャによって効率的に取り扱うことができない。SAOCアーキテクチャのコンセプトは、それ故に、これらの複合入力信号、すなわちMBOチャンネルを、典型的なSAOCオーディオオブジェクトとともに取り扱うために、拡張されると考えることができる。それ故、図5〜図7bのちょうど言及された実施形態において、SAOCエンコーダ108とMPSエンコーダ100を取り囲む点線によって示されるように、MPEGサラウンドエンコーダはSAOCエンコーダに組み込まれると考えられる。結果として生じるダウンミックス104は、トランスコーダ側に送信される複合ステレオダウンミックス112を生成する制御可能なSAOCオブジェクト110とともに、SAOCエンコーダ108へのステレオ入力オブジェクトとして役立つ。パラメータ領域において、MPSビットストリーム106とSAOCビットストリーム114は、特別なMBOアプリケーションシナリオに従って適当なMPSビットストリーム118をMPEGサラウンドデコーダ122に提供するSAOCトランスコーダ116に供給される。このタスクは、再現情報または再現マトリクスを用い、MPSデコーダ122のためにダウンミックス信号112をダウンミックス信号120に変換するため、いくつかのダウンミックス前処理を使用して実行される。
【0125】
強化カラオケ/ソロモードの更なる実施形態について、以下に説明する。それは、それらのレベルの増幅/減衰に関して、結果として生じる音質の有意な低下なしで、多くのオーディオオブジェクトの個々の操作を可能にする。特別な「カラオケ‐タイプ」のアプリケーションシナリオは、バックグラウンドサウンドシーンの知覚品質を無傷に保持しつつ、特定のオブジェクト、典型的にはリードボーカル(以下においてフォアグラウンドオブジェクトFGOと呼ばれる)の完全な抑制を必要とする。それは、また、パニングに関してユーザ制御可能性を必要としない静的バックグラウンドオーディオシーン(以下においてバックグラウンドオブジェクトBGOと呼ばれる)なしに、特定のFGO信号を個別に再生する能力を伴う。このシナリオは「ソロ」モードと称される。典型的なアプリケーションのケースは、ステレオBGOと4つまでのFGO信号を含み、例えば、2つの独立なステレオオブジェクトを表現することができる。
【0126】
この実施形態と図14によれば、強化カラオケ/ソロ・トランスコーダ150は、いずれもMPEGサラウンド仕様から知られるTTTボックスの一般化され、強化された修正を表現する「2からN」(TTN)または「1からN」(OTN)要素152のいずれかを組み込む。適当な要素の選択は、送信されるダウンミックスチャンネルの数に従う。すなわち、TTNボックスは、ステレオダウンミックス信号に専用であり、モノラルのダウンミックス信号のためには、OTNボックスが適用される。SAOCエンコーダの対応するTTN-1またはOTN-1ボックスは、BGOとFGO信号を一般的なSAOCステレオまたはモノラルダウンミックス112に結合し、ビットストリーム114を生成する。ダウンミックス信号112におけるすべての個々のFGOの任意に定義済みの位置決めは、いずれかの要素、すなわちTTNまたはOTN152によってサポートされる。トランスコーダ側で、BGO154またはFGO信号156の任意の組み合わせ(外部的に適用される動作モード158に従う)は、TTNまたはOTNボックス152によって、SAOC副情報114とオプションとして組み込まれた残余信号のみを用いて、ダウンミックス112から復元される。復元されたオーディオオブジェクト154/156と再現情報160は、MPEGサラウンドビットストリーム162と、対応する前処理されたダウンミックス信号164を生成するために用いられる。混合ユニット166は、MPS入力ダウンミックス164を取得するためにダウンミックス信号112の処理を実行し、MPSトランスコーダ168は、SAOCパラメータ114のMPSパラメータ162へのトランスコードの役割を果たす。TTN/OTNボックス152と混合ユニット166は、図3の手段52と54に対応する強化カラオケ/ソロモード処理170を、手段54に備えられている混合ユニットの機能によって一緒に実行する。
【0127】
MBOは、上記説明されたのと同じように取り扱うことができる。すなわち、それは、次の強化SAOCエンコーダに入力されるBGOとして役立つモノラルまたはステレオダウンミックス信号を産出するMPEGサラウンドエンコーダによって前処理される。このケースでは、トランスコーダは、SAOCビットストリームの次に、追加のMPEGサラウンドビットストリームを提供しなければならない。
【0128】
次に、TTN(OTN)要素によって実行される計算が説明される。第1の所定の時間/周波数分解能42において表されるTTN/OTNマトリクスMは、次のように2つのマトリクスの積である。
【0129】
CPCは、送信されたSAOCパラメータ、すなわちOLD、IOC、DMG、およびDCLDから導き出される。
1つの特定のFGOチャンネルjに対して、CPCは次によって推定することができる。
【0130】
パラメータOLDL、OLDRおよびIOCLRは、BGOに対応し、残りはFGO値である。
【0131】
係数mjとnjは、左右のダウンミックスチャンネルに対するFGO jのダウンミックス値を表し、ダウンミックスゲインDMGとダウンミックスチャンネルレベル差DCLDから導き出される。
【0132】
OTN要素に関して、第2のCPC値cj2の演算は冗長になる。
【0133】
2つのオブジェクトグループBGOとFGOを復元するため、ダウンミックス情報は、信号F01からF0Nの線形結合を更に処方するために拡張されたダウンミックスマトリクスDの逆変換に利用される。すなわち、
【0134】
以下に、エンコーダ側のダウンミックスが詳述される。TTN‐1要素内で、拡張ダウンミックスマトリクスは、次の通りである。
また、OTN‐1要素については、次の通りである。
【0135】
TTN/OTN要素の出力は、ステレオBGOとステレオダウンミックスに対して、次を産出する。
BGOおよび/またはダウンミックスがモノラルの信号である場合は、線形システムはそれに応じて変化する。
【0136】
【0137】
実施形態によれば、以下のTTNマトリクスが、エネルギーモードにおいて用いられる。
【0138】
エネルギーベースのエンコード/デコード処理は、ダウンミックス信号の非波形保存コーディングに向けて設計される。このように、対応するエネルギーモードのためのTTNアップミックスマトリクスは、特定の波形に依存せず、入力オーディオオブジェクトの相対エネルギー分布を記述するだけである。このマトリクスMEnergyの要素は、対応するOLDから次式によって取得される。
【0139】
従って、モノラルダウンミックスのために、エネルギーベースのアップミックスマトリクスMEnergyは、次のようになる。
ステレオBGOに対しては、
【0140】
【0141】
再び、信号(F01…F0N)Tは、デコーダ/トランスコーダに送信されない。むしろ、同上はデコーダ側で上述したCPCによって予測される。
【0142】
この点に関して、残余信号resは、デコーダによって無視することさえできることに、再び注意されたい。このケースでは、デコーダ −例えば 手段52− は、単にCPCに基礎をおいた疑似信号を次によって予測する。
【0143】
次に、BGOおよび/またはFGOは、−例えば手段54によって− エンコーダの4つの可能な線形結合のうちの1つの逆変換によって取得される。
ここで、D-1は、再びパラメータDMGとDCLDの関数である。
【0144】
このように、全体として、残余の無視できるTTN(OTN)ボックス152は、両方ともちょうど言及された次の演算ステップを演算する。
【0145】
Dの逆変換は、Dが正方である場合は、直接取得できることに注意されたい。非正方マトリクスDの場合は、Dの逆変換は、疑似逆変換しなければならない。すなわち、
いずれにせよ、Dの逆変換が存在する。
【0146】
最後に、図15は、副情報内で、残余データを転送するために費やされるデータ量をどのように設定するかの更なる可能性を示す。この構文によれば、副情報は、bsResidualSamplingFrequencyIndex、すなわち、例えば指標に対する周波数分解能に関連するテーブルの指標を備える。あるいは、分解能は、フィルタバンクの分解能またはパラメータ分解能のような予め定められた分解能であると推測することができる。更に、副情報は、残余信号が転送される際の時間分解能を定義するbsResidualFramesPerSAOCFrameを備える。また副情報に備えられるBsNumGroupsFGOは、FGOの数を示す。各FGOに対して、それぞれのFGOに対して残余信号が送信されるか否かを示す構文要素bsResidualPresentが送信される。存在する場合は、bsResidualBandsは、残余信号が送信されるためのスペクトルバンドの数を示す。
【0147】
実際の実施態様に従って、発明のエンコード/デコード方法は、ハードウェアで、または、ソフトウェアで実現することができる。それ故、本発明は、CD、ディスクまたはその他のデータキャリアのようなコンピュータ読取可能な媒体に保存することができるコンピュータプログラムにも関する。本発明は、それ故、コンピュータ上で実行されるときに、上記図面に関連して記載された発明のエンコード方法または発明のデコード方法を実行するプログラムコードを有するコンピュータプログラムでもある。
【特許請求の範囲】
【請求項1】
第1タイプのオーディオ信号とエンコードされた第2タイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードするオーディオデコーダであって、
前記マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号(56)と副情報(58)とから成り、前記副情報は、第1の所定の時間/周波数分解能(42)における前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号のレベル情報(60)と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号(62)とを備えるものであって、
前記レベル情報(60)に基づいて予測係数(64)を演算する手段(52)と、
前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号、および/または、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号を取得するために、前記予測係数(64)と前記残余信号(62)に基づいて前記ダウンミックス信号(56)をアップミックスする手段とを備える、
オーディオデコーダ。
【請求項2】
前記副情報(58)は、それに従って前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号が前記ダウンミックス信号(56)にダウンミックスされるダウンミックス処方を更に備え、前記アップミックスする手段は、前記ダウンミックス処方に更に基づいて、前記アップミックスを実行するように構成された、請求項1に記載のオーディオデコーダ。
【請求項3】
前記ダウンミックス処方は、前記副情報内で時間変化する、請求項2に記載のオーディオデコーダ。
【請求項4】
前記ダウンミックス処方は、前記副情報内でフレームサイズよりも粗い分解能で時間変化する、請求項2または3に記載のオーディオデコーダ。
【請求項5】
前記ダウンミックス処方は、それによって前記ダウンミックス信号が第1タイプのオーディオ信号と前記第2タイプのオーディオ信号に基づいて混合される重み付けを示す、請求項2〜4のいずれかに記載のオーディオデコーダ。
【請求項6】
前記第1タイプのオーディオ信号は、第1と第2入力チャンネルを有するステレオオーディオ信号、または、第1入力チャンネルのみを有するモノラルオーディオ信号であり、前記ダウンミックス信号は、第1と第2出力チャンネルを有するステレオオーディオ信号、または、第1出力チャンネルのみを有するモノラルオーディオ信号であり、前記レベル情報は、前記第1入力チャンネル、前記第2入力チャンネルおよび前記第2タイプのオーディオ信号のそれぞれの間の、前記第1の所定の時間/周波数分解能でのレベル差を記述し、前記副情報は、前記第1と第2入力チャンネル間の、第3の所定の時間/周波数分解能におけるレベル類似性を定義する相互相関情報を更に備え、前記演算する手段は、前記相互相関情報に更に基づいて前記演算を実行するように構成された、請求項1〜5のいずれかに記載のオーディオデコーダ。
【請求項7】
前記第1と第3の時間/周波数分解能は、前記副情報内で一般的な文法要素によって決定される、請求項6に記載のオーディオデコーダ。
【請求項8】
前記演算する手段と前記アップミックスする手段は、前記アップミックスが、前記ダウンミックス信号と前記残余信号から成るベクトルのアプライアンスによって一連の第1と第2のマトリクスに表現することができ、前記第1のマトリクス(C)は、前記予測係数から成り、前記第2のマトリクス(D)は、それにより前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号が前記ダウンミックス信号にダウンミックスされるダウンミックス処方によって定義され、これも前記副情報に備えられるように構成された、請求項6または7に記載のオーディオデコーダ。
【請求項9】
前記演算する手段と前記アップミックスする手段は、前記第1のマトリクスが、前記ベクトルを、前記第1タイプのオーディオ信号のための第1の成分および/または前記第2タイプのオーディオ信号のための第2の成分を有する中間ベクトルにマップするように構成され、前記ダウンミックス信号が、前記第1の成分上に1対1でマップされるように定義され、前記残余信号と前記ダウンミックス信号の線形結合が、前記第2の成分上にマップされるように構成された、請求項8に記載のオーディオデコーダ。
【請求項10】
前記マルチ‐オーディオ‐オブジェクト信号は、複数の前記第2タイプのオーディオ信号を備え、前記副情報は、前記第2タイプのオーディオ信号当り1つの残余信号を備える、請求項1から9のいずれかに記載のオーディオデコーダ。
【請求項11】
前記第2の所定の時間/周波数分解能は、前記副情報に含まれる残余分解能パラメータによって前記第1の所定の時間/周波数分解能と関係し、前記オーディオデコーダは、前記副情報から前記残余分解能パラメータを導き出す手段を備えた、請求項1から10のいずれかに記載のオーディオデコーダ。
【請求項12】
前記残余分解能パラメータは、前記副情報内で前記残余信号が送信されるスペクトル範囲を定義する、請求項11に記載のオーディオデコーダ。
【請求項13】
前記残余分解能パラメータは、前記スペクトル範囲の下側と上側の制限を定める、請求項12に記載のオーディオデコーダ。
【請求項14】
ここで、
ここで、‐前記第1タイプのオーディオ信号がステレオの場合は‐、OLDLは、前記それぞれの時間/周波数タイルにおける前記第1タイプのオーディオ信号の第1入力チャンネルの正規化されたスペクトルエネルギーを示し、OLDRは、前記それぞれの時間/周波数タイルにおける前記第1タイプのオーディオ信号の第2入力チャンネルの正規化されたスペクトルエネルギーを示し、IOCLRは、前記それぞれの時間/周波数タイル内の前記第1と第2入力チャンネルの間のスペクトルエネルギーの類似性を定義する相互相関情報を示し、または、‐前記第1タイプのオーディオ信号がモノラルの場合は‐、OLDLは、前記それぞれの時間/周波数タイルにおける前記第1タイプのオーディオ信号の正規化されたスペクトルエネルギーを示し、OLDRおよびIOCLRは零となり、
また、OLDjは、前記それぞれの時間/周波数タイルにおける前記第2タイプのオーディオ信号のチャンネルjの正規化されたスペクトルエネルギーを示し、IOCijは、前記それぞれの時間/周波数タイル内での前記第2タイプのオーディオ信号のチャンネルiとjの間のスペクトルエネルギーの類似性を定義する相互相関情報を示し、
ここで、
ここで、DCLDとDMGは、ダウンミックス処方であり、
前記アップミックスする手段は、第2のアップミックス信号S2,i当りの前記ダウンミックス信号dと前記残余信号resiから、前記第1のアップミックス信号S1および/または前記第2のアップミックス信号S2,iを、次式によって産出するように構成され、
ここで、上左角の「1」は、‐dn,kのチャンネル数に依存する‐ スカラーまたは単位行列であることを示し、下右側角の「1」は、サイズNの単位行列であり、「0」は、零ベクトルまたは‐dn,kのチャンネル数に依存する‐ マトリクスを示し、D‐1は、それに従って前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号が前記ダウンミックス信号にダウンミックスされるダウンミックス処方によって一意に決定されるマトリックスであり、これも前記副情報に備えられ、dn,kとresin,kは、それぞれ、時間/周波数タイル(n,k)での前記ダウンミックス信号と前記残余信号であり、前記副情報に備えられないresin,kは、零に設定される、
請求項1から13のいずれかに記載のオーディオデコーダ。
【請求項15】
D-1は、
前記ダウンミックス信号がステレオであって、S1がステレオである場合は、次の逆行列であり、
前記ダウンミックス信号がステレオであって、S1がモノラルである場合は、次の逆行列であり、
前記ダウンミックス信号がモノラルであって、S1がステレオである場合は、次の逆行列であり、
前記ダウンミックス信号がモノラルであって、S1がモノラルである場合は、次の逆行列である、
請求項14に記載のオーディオデコーダ。
【請求項16】
前記マルチ‐オーディオ‐オブジェクト信号は、前記第1タイプのオーディオ信号を所定のスピーカ構成上に空間的に再現する空間再現情報を備える、請求項1から15のいずれかに記載のオーディオデコーダ。
【請求項17】
前記アップミックする手段は、前記第2のアップミックスオーディオ信号から分離された前記第1のアップミックスオーディオ信号を空間的に再現し、前記第1のアップミックスオーディオ信号から分離された前記第2のアップミックスオーディオ信号を空間的に再現し、または前記第1のアップミックスオーディオ信号と前記第2のアップミックスオーディオ信号を混合し、それによる混合バージョンを所定のスピーカ構成上に空間的に再現するように構成された、請求項1から16のいずれかに記載のオーディオデコーダ。
【請求項18】
第1の所定の時間/周波数分解能で、第1タイプのオーディオ信号と第2タイプのオーディオ信号のレベル情報を演算する手段と、
前記レベル情報に基づいて、予測係数を演算する手段と、
ダウンミックス信号を取得するために、前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号をダウンミックスする手段と、
第2の所定の時間/周波数分解能で、残余レベル値を特定する残余信号を設定する手段であって、前記予測係数と前記残余信号の両方に基づいて前記ダウンミックス信号をアップミックスすることが、前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号とに結果としてなるようにし、前記近似が前記残余信号がない場合に比較して改善される、残余信号を設定する手段と、
を備え、
前記レベル情報と前記残余信号は、前記ダウンミックス信号とともに、マルチ‐オーディオ‐オブジェクト信号を形成する副情報に備えられている、
オーディオオブジェクトエンコーダ。
【請求項19】
第1タイプのオーディオ信号と第2タイプのオーディオ信号をスペクトルで分解する手段を更に備えた、請求項18に記載のオーディオオブジェクトエンコーダ。
【請求項20】
第1タイプのオーディオ信号とエンコードされた第2タイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードする方法であって、
前記マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号(56)と副情報(58)とから成り、前記副情報は、第1の所定の時間/周波数分解能(42)における前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号のレベル情報(60)と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号(62)とを含むものであって、
前記レベル情報(60)に基づいて予測係数(64)を演算するステップと、
前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号、および/または、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号を取得するために、前記予測係数(64)と前記残余信号(62)に基づいて前記ダウンミックス信号(56)をアップミックスするステップとを備える、
マルチ‐オーディオ‐オブジェクト信号をデコードする方法。
【請求項21】
第1の所定の時間/周波数分解能で、第1タイプのオーディオ信号と第2タイプのオーディオ信号のレベル情報を演算するステップと、
前記レベル情報に基づいて、予測係数を演算するステップと、
ダウンミックス信号を取得するために、前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号をダウンミックスするステップと、
第2の所定の時間/周波数分解能で、残余レベル値を特定する残余信号を設定するステップであって、前記予測係数と前記残余信号に基づいて前記ダウンミックス信号をアップミックスすることが、前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号とに結果としてなるようにし、前記近似が前記残余信号のない場合に比較して改善される、残余信号を設定するステップと、
を備え、
前記レベル情報と前記残余信号は、前記ダウンミックス信号とともに、マルチ‐オーディオ‐オブジェクト信号を形成する副情報に備えられている、
マルチ‐オーディオ‐オブジェクトをエンコードする方法。
【請求項22】
処理装置上で動作するときに、請求項20または21に記載された方法を実行するプログラムコードを有する、コンピュータプログラム。
【請求項23】
第1タイプのオーディオ信号とエンコードされた第2のタイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号であって、
ダウンミックス信号と副情報とから成り、前記副情報は、第1の所定の時間/周波数分解能における前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号のレベル情報と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号とを含み、
前記レベル情報に基づいて予測係数を演算し、前記予測係数に基づいて前記ダウンミックス信号をアップミックスし、前記残余信号が、前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号とに結果としてなるように、前記残余信号が設定される、
マルチ‐オーディオ‐オブジェクト信号。
【請求項1】
第1タイプのオーディオ信号とエンコードされた第2タイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードするオーディオデコーダであって、
前記マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号(56)と副情報(58)とから成り、前記副情報は、第1の所定の時間/周波数分解能(42)における前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号のレベル情報(60)と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号(62)とを備えるものであって、
前記レベル情報(60)に基づいて予測係数(64)を演算する手段(52)と、
前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号、および/または、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号を取得するために、前記予測係数(64)と前記残余信号(62)に基づいて前記ダウンミックス信号(56)をアップミックスする手段とを備える、
オーディオデコーダ。
【請求項2】
前記副情報(58)は、それに従って前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号が前記ダウンミックス信号(56)にダウンミックスされるダウンミックス処方を更に備え、前記アップミックスする手段は、前記ダウンミックス処方に更に基づいて、前記アップミックスを実行するように構成された、請求項1に記載のオーディオデコーダ。
【請求項3】
前記ダウンミックス処方は、前記副情報内で時間変化する、請求項2に記載のオーディオデコーダ。
【請求項4】
前記ダウンミックス処方は、前記副情報内でフレームサイズよりも粗い分解能で時間変化する、請求項2または3に記載のオーディオデコーダ。
【請求項5】
前記ダウンミックス処方は、それによって前記ダウンミックス信号が第1タイプのオーディオ信号と前記第2タイプのオーディオ信号に基づいて混合される重み付けを示す、請求項2〜4のいずれかに記載のオーディオデコーダ。
【請求項6】
前記第1タイプのオーディオ信号は、第1と第2入力チャンネルを有するステレオオーディオ信号、または、第1入力チャンネルのみを有するモノラルオーディオ信号であり、前記ダウンミックス信号は、第1と第2出力チャンネルを有するステレオオーディオ信号、または、第1出力チャンネルのみを有するモノラルオーディオ信号であり、前記レベル情報は、前記第1入力チャンネル、前記第2入力チャンネルおよび前記第2タイプのオーディオ信号のそれぞれの間の、前記第1の所定の時間/周波数分解能でのレベル差を記述し、前記副情報は、前記第1と第2入力チャンネル間の、第3の所定の時間/周波数分解能におけるレベル類似性を定義する相互相関情報を更に備え、前記演算する手段は、前記相互相関情報に更に基づいて前記演算を実行するように構成された、請求項1〜5のいずれかに記載のオーディオデコーダ。
【請求項7】
前記第1と第3の時間/周波数分解能は、前記副情報内で一般的な文法要素によって決定される、請求項6に記載のオーディオデコーダ。
【請求項8】
前記演算する手段と前記アップミックスする手段は、前記アップミックスが、前記ダウンミックス信号と前記残余信号から成るベクトルのアプライアンスによって一連の第1と第2のマトリクスに表現することができ、前記第1のマトリクス(C)は、前記予測係数から成り、前記第2のマトリクス(D)は、それにより前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号が前記ダウンミックス信号にダウンミックスされるダウンミックス処方によって定義され、これも前記副情報に備えられるように構成された、請求項6または7に記載のオーディオデコーダ。
【請求項9】
前記演算する手段と前記アップミックスする手段は、前記第1のマトリクスが、前記ベクトルを、前記第1タイプのオーディオ信号のための第1の成分および/または前記第2タイプのオーディオ信号のための第2の成分を有する中間ベクトルにマップするように構成され、前記ダウンミックス信号が、前記第1の成分上に1対1でマップされるように定義され、前記残余信号と前記ダウンミックス信号の線形結合が、前記第2の成分上にマップされるように構成された、請求項8に記載のオーディオデコーダ。
【請求項10】
前記マルチ‐オーディオ‐オブジェクト信号は、複数の前記第2タイプのオーディオ信号を備え、前記副情報は、前記第2タイプのオーディオ信号当り1つの残余信号を備える、請求項1から9のいずれかに記載のオーディオデコーダ。
【請求項11】
前記第2の所定の時間/周波数分解能は、前記副情報に含まれる残余分解能パラメータによって前記第1の所定の時間/周波数分解能と関係し、前記オーディオデコーダは、前記副情報から前記残余分解能パラメータを導き出す手段を備えた、請求項1から10のいずれかに記載のオーディオデコーダ。
【請求項12】
前記残余分解能パラメータは、前記副情報内で前記残余信号が送信されるスペクトル範囲を定義する、請求項11に記載のオーディオデコーダ。
【請求項13】
前記残余分解能パラメータは、前記スペクトル範囲の下側と上側の制限を定める、請求項12に記載のオーディオデコーダ。
【請求項14】
ここで、
ここで、‐前記第1タイプのオーディオ信号がステレオの場合は‐、OLDLは、前記それぞれの時間/周波数タイルにおける前記第1タイプのオーディオ信号の第1入力チャンネルの正規化されたスペクトルエネルギーを示し、OLDRは、前記それぞれの時間/周波数タイルにおける前記第1タイプのオーディオ信号の第2入力チャンネルの正規化されたスペクトルエネルギーを示し、IOCLRは、前記それぞれの時間/周波数タイル内の前記第1と第2入力チャンネルの間のスペクトルエネルギーの類似性を定義する相互相関情報を示し、または、‐前記第1タイプのオーディオ信号がモノラルの場合は‐、OLDLは、前記それぞれの時間/周波数タイルにおける前記第1タイプのオーディオ信号の正規化されたスペクトルエネルギーを示し、OLDRおよびIOCLRは零となり、
また、OLDjは、前記それぞれの時間/周波数タイルにおける前記第2タイプのオーディオ信号のチャンネルjの正規化されたスペクトルエネルギーを示し、IOCijは、前記それぞれの時間/周波数タイル内での前記第2タイプのオーディオ信号のチャンネルiとjの間のスペクトルエネルギーの類似性を定義する相互相関情報を示し、
ここで、
ここで、DCLDとDMGは、ダウンミックス処方であり、
前記アップミックスする手段は、第2のアップミックス信号S2,i当りの前記ダウンミックス信号dと前記残余信号resiから、前記第1のアップミックス信号S1および/または前記第2のアップミックス信号S2,iを、次式によって産出するように構成され、
ここで、上左角の「1」は、‐dn,kのチャンネル数に依存する‐ スカラーまたは単位行列であることを示し、下右側角の「1」は、サイズNの単位行列であり、「0」は、零ベクトルまたは‐dn,kのチャンネル数に依存する‐ マトリクスを示し、D‐1は、それに従って前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号が前記ダウンミックス信号にダウンミックスされるダウンミックス処方によって一意に決定されるマトリックスであり、これも前記副情報に備えられ、dn,kとresin,kは、それぞれ、時間/周波数タイル(n,k)での前記ダウンミックス信号と前記残余信号であり、前記副情報に備えられないresin,kは、零に設定される、
請求項1から13のいずれかに記載のオーディオデコーダ。
【請求項15】
D-1は、
前記ダウンミックス信号がステレオであって、S1がステレオである場合は、次の逆行列であり、
前記ダウンミックス信号がステレオであって、S1がモノラルである場合は、次の逆行列であり、
前記ダウンミックス信号がモノラルであって、S1がステレオである場合は、次の逆行列であり、
前記ダウンミックス信号がモノラルであって、S1がモノラルである場合は、次の逆行列である、
請求項14に記載のオーディオデコーダ。
【請求項16】
前記マルチ‐オーディオ‐オブジェクト信号は、前記第1タイプのオーディオ信号を所定のスピーカ構成上に空間的に再現する空間再現情報を備える、請求項1から15のいずれかに記載のオーディオデコーダ。
【請求項17】
前記アップミックする手段は、前記第2のアップミックスオーディオ信号から分離された前記第1のアップミックスオーディオ信号を空間的に再現し、前記第1のアップミックスオーディオ信号から分離された前記第2のアップミックスオーディオ信号を空間的に再現し、または前記第1のアップミックスオーディオ信号と前記第2のアップミックスオーディオ信号を混合し、それによる混合バージョンを所定のスピーカ構成上に空間的に再現するように構成された、請求項1から16のいずれかに記載のオーディオデコーダ。
【請求項18】
第1の所定の時間/周波数分解能で、第1タイプのオーディオ信号と第2タイプのオーディオ信号のレベル情報を演算する手段と、
前記レベル情報に基づいて、予測係数を演算する手段と、
ダウンミックス信号を取得するために、前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号をダウンミックスする手段と、
第2の所定の時間/周波数分解能で、残余レベル値を特定する残余信号を設定する手段であって、前記予測係数と前記残余信号の両方に基づいて前記ダウンミックス信号をアップミックスすることが、前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号とに結果としてなるようにし、前記近似が前記残余信号がない場合に比較して改善される、残余信号を設定する手段と、
を備え、
前記レベル情報と前記残余信号は、前記ダウンミックス信号とともに、マルチ‐オーディオ‐オブジェクト信号を形成する副情報に備えられている、
オーディオオブジェクトエンコーダ。
【請求項19】
第1タイプのオーディオ信号と第2タイプのオーディオ信号をスペクトルで分解する手段を更に備えた、請求項18に記載のオーディオオブジェクトエンコーダ。
【請求項20】
第1タイプのオーディオ信号とエンコードされた第2タイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードする方法であって、
前記マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号(56)と副情報(58)とから成り、前記副情報は、第1の所定の時間/周波数分解能(42)における前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号のレベル情報(60)と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号(62)とを含むものであって、
前記レベル情報(60)に基づいて予測係数(64)を演算するステップと、
前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号、および/または、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号を取得するために、前記予測係数(64)と前記残余信号(62)に基づいて前記ダウンミックス信号(56)をアップミックスするステップとを備える、
マルチ‐オーディオ‐オブジェクト信号をデコードする方法。
【請求項21】
第1の所定の時間/周波数分解能で、第1タイプのオーディオ信号と第2タイプのオーディオ信号のレベル情報を演算するステップと、
前記レベル情報に基づいて、予測係数を演算するステップと、
ダウンミックス信号を取得するために、前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号をダウンミックスするステップと、
第2の所定の時間/周波数分解能で、残余レベル値を特定する残余信号を設定するステップであって、前記予測係数と前記残余信号に基づいて前記ダウンミックス信号をアップミックスすることが、前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号とに結果としてなるようにし、前記近似が前記残余信号のない場合に比較して改善される、残余信号を設定するステップと、
を備え、
前記レベル情報と前記残余信号は、前記ダウンミックス信号とともに、マルチ‐オーディオ‐オブジェクト信号を形成する副情報に備えられている、
マルチ‐オーディオ‐オブジェクトをエンコードする方法。
【請求項22】
処理装置上で動作するときに、請求項20または21に記載された方法を実行するプログラムコードを有する、コンピュータプログラム。
【請求項23】
第1タイプのオーディオ信号とエンコードされた第2のタイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号であって、
ダウンミックス信号と副情報とから成り、前記副情報は、第1の所定の時間/周波数分解能における前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号のレベル情報と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号とを含み、
前記レベル情報に基づいて予測係数を演算し、前記予測係数に基づいて前記ダウンミックス信号をアップミックスし、前記残余信号が、前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号とに結果としてなるように、前記残余信号が設定される、
マルチ‐オーディオ‐オブジェクト信号。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7a】
【図7b】
【図8a】
【図8b】
【図9】
【図10】
【図11】
【図12】
【図13a】
【図13b】
【図13c】
【図13d】
【図13e】
【図13f】
【図13g】
【図13h】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7a】
【図7b】
【図8a】
【図8b】
【図9】
【図10】
【図11】
【図12】
【図13a】
【図13b】
【図13c】
【図13d】
【図13e】
【図13f】
【図13g】
【図13h】
【図14】
【図15】
【公表番号】特表2011−501544(P2011−501544A)
【公表日】平成23年1月6日(2011.1.6)
【国際特許分類】
【出願番号】特願2010−529292(P2010−529292)
【出願日】平成20年10月17日(2008.10.17)
【国際出願番号】PCT/EP2008/008799
【国際公開番号】WO2009/049895
【国際公開日】平成21年4月23日(2009.4.23)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【公表日】平成23年1月6日(2011.1.6)
【国際特許分類】
【出願日】平成20年10月17日(2008.10.17)
【国際出願番号】PCT/EP2008/008799
【国際公開番号】WO2009/049895
【国際公開日】平成21年4月23日(2009.4.23)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
[ Back to top ]