多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
【課題】オブジェクト符号化の方法として、複数のチャネルを備えるダウンミックスを合同的に復号化するための方法を提供する。
【解決手段】符号化されたオーディオオブジェクト信号を使用して出力データを生成するオーディオ合成器であって、所定のオーディオ出力形態を持ちかつ複数のオーディオオブジェクトを表す複数の出力チャネルを再現するために、使用可能な出力データを生成する出力データ合成器を含み、当該出力データ合成器は、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードする。
【解決手段】符号化されたオーディオオブジェクト信号を使用して出力データを生成するオーディオ合成器であって、所定のオーディオ出力形態を持ちかつ複数のオーディオオブジェクトを表す複数の出力チャネルを再現するために、使用可能な出力データを生成する出力データ合成器を含み、当該出力データ合成器は、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、有効な多チャネルダウンミックスと追加的制御データとに基づく、符号化された多オブジェクト信号からの多オブジェクトの復号化に関する。
【背景技術】
【0002】
オーディオ技術における近年の発展により、ステレオ(又はモノラル)信号及び対応する制御データに基づいて、オーディオ信号の多チャネル表現を再生することが可能となった。これらパラメトリックサラウンド符号化の方法は、通常はパラメータ化を含んでいる。パラメトリック多チャネルオーディオ復号器(例えばISO/IEC23003-1の非特許文献1及び非特許文献2に定義されるようなMPEGサラウンド復号器)は、伝送されたK個のチャネルに基づいてM個のチャネルを再生する。ここで、M>Kであり、追加の制御データが使用される。この制御データは、IID(チャネル間強度差)及びICC(チャネル間コヒーレンス)に基づく多チャネル信号のパラメータ化からなる。これらのパラメータは、通常、符号化の段階で抽出され、アップミックスの過程におけるチャネル・ペア間のパワー比及び相関関係を表わしている。このような復号化の枠組みを使用することで、符号化において、M個の全てのチャネルを伝送する場合に比べてかなり低いデータレートを達成できるため、符号化をきわめて効率的にすると同時に、Kチャネルの装置とMチャネルの装置との両方への互換性を保証している。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, and K. Kjorling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding," in 28th International AES Conference, The Future of Audio Technology Surround and Beyond, Pitea, Sweden, June 30-July 2, 2006.
【非特許文献2】J. Breebaart, J. Herre, L. Villemoes, C. Jin, , K. Kjorling, J. Plogsties, and J. Koppens, "Multi-Channels goes Mobile: MPEG Surround Binaural Rendering," in 29th International AES Conference, Audio for Mobile and Handheld Devices, Seoul, Sept 2-4, 2006.
【非特許文献3】C. Faller, “Parametric Joint-Coding of Audio Sources,” Convention Paper 6752 presented at the 120th AES Convention, Paris, France, May 20-23, 2006.
【非特許文献4】E. Schuijers, J. Breebart, and H. Purnhagen “Low complexity parametric stereo coding” Proc 116th AES convention Berlin, Germany 2004, Preprint 6073
【特許文献】
【0004】
【特許文献1】C. Faller, “Parametric Joint-Coding of Audio Sources,” Patent application PCT/EP2006/050904, 2006.
【発明の概要】
【発明が解決しようとする課題】
【0005】
非常に関連する符号化システムとして、非特許文献3と特許文献1に開示された対応するオーディオオブジェクト符号器が挙げられる。この中では、複数のオーディオオブジェクトが符号器でダウンミックスされ、その後、制御データに従ってアップミックスされる。このアップミックスの過程は、ダウンミックスにおいてミキシングされたオブジェクトの分離過程としても見ることができる。その結果として得るアップミックスされた信号は、1つ又は複数の再生チャネルへと再現される。さらに詳しく言えば、非特許文献3及び特許文献1は、(合計信号と呼ばれる)ダウンミックスからのオーディオチャネルと、ソースオブジェクトに関する統計的な情報と、好ましい出力フォーマットを表すデータとを統合する方法を提供している。複数のダウンミックス信号が使用される場合には、これらのダウンミックス信号はオブジェクトの様々なサブセットから成り、かつアップミックスは各ダウンミックスチャネルについて個別に実行される。本発明が提供する新たな方法においては、アップミックスが全てのダウンミックスチャネルについて合同的(jointly)に実行される。オブジェクト符号化の方法として、本発明の以前には、複数のチャネルを備えるダウンミックスを合同的に復号化するための解決方法を提供するものが存在しなかった。
【課題を解決するための手段】
【0006】
本発明の第1の実施形態は、符号化されたオーディオオブジェクト信号を使用して出力データを生成するオーディオ合成器であって、所定のオーディオ出力形態を持ちかつ複数のオーディオオブジェクトを表す複数の出力チャネルを再現するために、使用可能な出力データを生成する出力データ合成器を含み、当該出力データ合成器は、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードすることを特徴とする、オーディオ合成器である。
【0007】
本発明の第2の実施形態は、符号化されたオーディオオブジェクト信号を用いて出力データを生成するためのオーディオ合成方法において、複数のオーディオオブジェクトを表す所定のオーディオ出力形態の複数の出力チャネルを作り出すために用いられる前記出力データを生成する工程を含み、その工程は、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードすることを特徴とする、オーディオ合成方法である。
【0008】
本発明の第3の実施形態は、複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号器であって、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するためのダウンミックス情報生成器であって、前記少なくとも2つのダウンミックスチャネルのパワー特性と相関関係特性とをそれぞれ示すパワー情報と相関関係情報とを生成する、ダウンミックス情報生成器と、前記オーディオオブジェクトのためのオブジェクトパラメータを生成するためのオブジェクトパラメータ生成器と、前記ダウンミックス情報と前記パワー情報と前記相関関係情報と前記オブジェクトパラメータとを含む前記符号化されたオーディオオブジェクト信号を生成するための出力インターフェースと、を備えたことを特徴とするオーディオオブジェクト符号器である。
【0009】
本発明の第4の実施形態は、複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号化方法であって、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するステップと、前記少なくとも2つのダウンミックスチャネルのパワー特性と相関関係特性とをそれぞれ示すパワー情報と相関関係情報とを生成するステップと、前記オーディオオブジェクトのためのオブジェクトパラメータを生成するステップと、前記パワー情報と前記相関関係情報と前記ダウンミックス情報と前記オブジェクトパラメータとを含む、前記符号化されたオーディオオブジェクト信号を生成するステップと、を備えたことを特徴とするオーディオオブジェクト符号化方法である。
【0010】
本発明の第5の実施形態は、複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記少なくとも2つのダウンミックスチャネルのパワー特性及び相関関係特性をそれぞれ示すパワー情報及び相関関係情報と、オブジェクトパラメータとを含む符号化されたオーディオオブジェクト信号を記憶した、コンピュータにより読み出し可能な記憶媒体であって、前記オブジェクトパラメータと前記少なくとも2つのダウンミックスチャネルとを使用して前記オーディオオブジェクトの再構成が可能となるように、前記オブジェクトパラメータが設定されている記憶媒体である。
【0011】
本発明の実施例を添付の図面を参照しながら以下に説明するが、これらの図面は本発明の範囲や思想を限定するものではない。
【図面の簡単な説明】
【0012】
【図1A】符号化と復号化とを含む空間オーディオオブジェクト符号化の動作を示した図である。
【図1B】MPEGサラウンド復号器を再使用する空間オーディオオブジェクト符号化の動作を示した図である。
【図2】空間オーディオオブジェクト符号化の動作を示した図である。
【図3】オーディオオブジェクトパラメータ抽出器のエネルギーベースのモードにおける動作を示した図である。
【図4】オーディオオブジェクトパラメータ抽出器の予測ベースのモードにおける動作を示した図である。
【図5】SAOC(空間オーディオオブジェクト符号化)からMPEGサラウンドへのトランスコーダの構造を示した図である。
【図6】ダウンミックス変換器の様々な作動モードを示した図である。
【図7】ステレオダウンミックスのためのMPEGサラウンド復号器の構造を示した図である。
【図8】SAOC符号器を含む現実の使用状況を示した図である。
【図9】符号器の実施例を示した図である。
【図10】復号器の実施例を示した図である。
【図11】様々な好ましい復号器/合成器のモードを示すための表である。
【図12】所定の空間アップミックスパラメータを計算するための方法を示した図である。
【図13A】追加的な空間アップミックスパラメータを計算するための方法を示した図である。
【図13B】予測パラメータを使用した計算方法を示した図である。
【図14】符号器/復号器システムの概略図である。
【図15】オブジェクト予測パラメータを計算するための方法を示した図である。
【図16】ステレオ再現の方法を示した図である。
【発明を実施するための形態】
【0013】
後述する実施例は、本発明が提供する多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現の原理を説明するための、単に例示的な実施例である。ここに示す形態及び詳細の修正あるいは変形が可能であることは、当業者には明らかである。従って、本発明の趣旨は特許請求の範囲の記載によってのみ限定されるものであり、以下の明細書に記載する具体的な詳細説明によって限定されるものではない。
【0014】
本発明の好ましい実施の形態は、オブジェクト符号化の枠組みの機能性と多チャネル復号器の再現能力とを組み合わせた、符号化の枠組みを提供する。伝送された制御データは個々のオブジェクトに関連するものであり、従って空間的な位置やレベルに関しては、復元する際には手動操作が可能となる。そのため、制御データは所謂、場面描写に直接的に関連し、各オブジェクトの位置決めに関する情報を与える。場面描写は、復号器側でリスナーによって相互作用的に制御されても良いし、あるいは符号器側で製作者によって制御されても良い。
【0015】
本発明が示すトランスコーダの段階は、オブジェクトに関連する制御データとダウンミックス信号とを変換し、復元システム、例えばMPEGサラウンド復号器に関連する制御データとダウンミックス信号とを得るために使用される。
【0016】
本発明の符号化の枠組の中では、符号器において利用可能なダウンミックスチャネルの中に、オブジェクトを任意の方法で分配することができる。トランスコーダは多チャネルダウンミックス情報をそのまま使用し、トランスコードされたダウンミックス信号とオブジェクトに関連する制御データとを供給する。この手段により、復号器におけるアップミキシングは、非特許文献3に開示されたように全てのチャネルについて個々に実行されるのではなく、全てのダウンミックスチャネルが1つの単一アップミキシング工程において同時に処理される。本発明の新たな枠組みの中では、多チャネルダウンミックス情報は制御データの一部分であり、オブジェクト符号器によって符号化される。
【0017】
オブジェクトをダウンミックスチャネルへと分配する際には、自動的に分配されても良いし、符号器側の設計に合わせて分配されても良い。後者の場合には、ダウンミックスが既存の多チャネル復元の枠組み(例えばステレオ復元システム)に対しても適合するように設計することができる。即ち、復元を主眼とし、トランスコード化及び多チャネル復号化段階を省略するような枠組みにも適合するよう設計することができる。この適合性は、単一のダウンミックスチャネルから構成されるかあるいはソースオブジェクトのサブセットを有する複数のダウンミックスチャネルから構成される従来技術による符号化の枠組みと比較して、さらに有利といえる。
【0018】
従来技術によるオブジェクト符号化の枠組みにおける復号化の過程では、単一のダウンミックスチャネルを使用していたが、本発明にかかる方法においてはこのような制限を受けることはない。なぜなら、本発明の方法では、複数チャネルのダウンミックスを含むダウンミックスを合同して復号化するからである。オブジェクトを分離する際に取得可能となる品質は、ダウンミックスチャネルの数が増大するにつれて高くなる。ゆえに、本発明は、単一のモノラルダウンミックスチャネルを有するオブジェクト符号化の枠組みと、多チャネル符号化の枠組みであって各オブジェクトが別々のチャネルによって伝送される枠組みとの間のギャップを埋める役割を果たす。従って本発明が提案する枠組みでは、個々のオブジェクトの品質について、適用条件と伝送システムの特性(例えばチャネル容量等)とに基づいて、柔軟なスケーリングが可能となる。
【0019】
さらに、従来のオブジェクト符号化の枠組みのように、場面描写を強度の違いに限定することなく、複数のダウンミックスを使用することで、個々のオブジェクト間の相関関係を追加的に考慮することが可能となるので、有利である。従来技術の枠組みは、全てのオブジェクトが独立しており、互いに相関関係がない(クロス相関ゼロ)であるという仮定の上に成り立っている。しかし、現実には、例えばステレオ信号の左と右のチャネルのように、オブジェクト間に相関関係がないという可能性は少ない。本発明のように、描写(制御データ)の中に相関関係を組み入れることで、描写がより完全なものとなり、その結果、オブジェクトを分離する能力をさらに高めることになる。
【0020】
本発明の好ましい実施の形態は、以下の特徴のうちの少なくとも1つを含む。多チャネルダウンミックスとオブジェクトを表す追加的制御データとを使用して、複数の個々のオーディオオブジェクトを伝送しかつ作り出すシステムであって、複数のオーディオオブジェクトを、多チャネルダウンミックス、その多チャネルダウンミックスについての情報、及びオブジェクトパラメ―タへと符号化するための空間オーディオオブジェクト符号器を備えるか、又は、多チャネルダウンミックス、その多チャネルダウンミックスについての情報、オブジェクトパラメ―タ、及びオブジェクト再現行列をオーディオ復元に適した第2の多チャネルオーディオ信号へと復号化するための空間オーディオオブジェクト復号器と、を備える。
【0021】
図1Aは空間オーディオオブジェクト符号化(SAOC)の作動を示す図であり、SAOC符号器101とSAOC復号器104とが含まれる。SAOC符号器101は、符号化パラメータに従って、N個のオブジェクトを、K個(K>1)のオーディオチャネルから成る1つのオブジェクトダウンミックスへと符号化する。ダウンミックスのパワーと相関関係に関する任意のデータと共に、適用されたダウンミックス重み行列Dに関する情報がこのSAOC符号器から出力される。この行列Dは、必ずしも常にというわけではないが、多くの場合には時間と周波数とに関して一定である。従って、比較的少量の情報を表している。最後に、SAOC符号器は各オブジェクトについて、時間及び周波数の両方の関数としてのオブジェクトパラメータを、知覚を考慮して定義された解像度で抽出する。SAOC復号器104は、(符号器によって生成された)オブジェクトダウンミックスチャネルと、ダウンミックス情報と、オブジェクトパラメータとを入力として取り入れ、M個のオーディオチャネルを有する出力を、ユーザーに対する表示のために生成する。N個のオブジェクトからM個のオーディオチャネルへの再現は、SAOC復号器へのユーザー入力として与えられる再現行列(rendering matrix)を利用している。
【0022】
図1BはMPEGサラウンド復号器を使用する空間オーディオオブジェクト符号化の作動を示した図である。本発明に従うSAOC復号器104は、SAOCからMPEGサラウンドへのトランスコーダ102と、ステレオダウンミックスに基づくMPEGサラウンド復号器103として実現できる。M×Nの大きさを持つユーザーにより制御される再現行列Aが、N個のオブジェクトからM個のオーディオチャネルへの目標再現を定義する。この行列は時間と周波数との両方に依存することが可能であり、この行列は、オーディオオブジェクト操作(外部から与えられる場面描写も利用可能である)のためのユーザーにとってより好ましいインターフェースの最終的な出力となる。5.1スピーカのセットアップの場合には、出力オーディオチャネルの数はM=6である。SAOC復号器の役割は、元のオーディオオブジェクトの目標再現を知覚的に再現することである。SAOCからMPEGサラウンドへのトランスコーダ102は、再現行列Aと、オブジェクトダウンミックスと、ダウンミックス重み行列Dを含むダウンミックス・サイド情報と、オブジェクト・サイド情報とを入力として取り込み、ステレオダウンミックスとMPEGサラウンド・サイド情報とを生成する。このトランスコーダを本発明に従って構成した場合には、これらのデータを与えられた後続のMPEGサラウンド復号器103はMチャネルのオーディオ出力を好適な特性とともに生成するであろう。
【0023】
図2は本発明に従う空間オーディオオブジェクト(SAOC)符号器101の作動を示す。N個のオーディオオブジェクトが、ダウンミキサ201とオーディオオブジェクトパラメータ抽出器202との両方に入力される。ダウンミキサ201は、符号器パラメータに従って、入力されたオブジェクトをミキシングし、K個(K>1)のオーディオチャネルから成る一つのオブジェクトダウンミックスを出力するとともに、ダウンミックス情報をも出力する。このダウンミックス情報は、適用されたダウンミックス重み行列Dに関する記述を含み、さらに、後続のオーディオオブジェクトパラメータ抽出器が予測モードで動作する場合には、オブジェクトダウンミックスのパワーと相関関係とを示すパラメータを含んでも良い。後述するように、このような追加的なパラメータの役割は、オブジェクトパラメータの表現がダウンミックスに対する相対的な表現だけである場合、即ち5.1スピーカのセットアップのための前/後のキューが第1の例として挙げられるような場合に、再現されるオーディオチャネルのサブセットのエネルギー及び相関関係に対してアクセスを提供することである。オーディオオブジェクトパラメータ抽出器202は、符号器パラメータに従ってオブジェクトパラメータを抽出する。この符号器制御は、時間と周波数とで変化する基準に基づいて、2つの符号器モードのうちの1つ、即ちエネルギーに基づくモードかあるいは予測に基づくモードのうちのいずれを適用するかを決定する。エネルギーに基づくモードにおいては、符号器パラメータは、N個のオーディオオブジェクトからP個のステレオオブジェクト及び(N−2P)個のモノラルオブジェクトへのグループ化に関する情報をさらに含む。各モードについては図3及び図4を用いてさらに詳細に説明する。
【0024】
図3はエネルギーに基づくモードで作動しているオーディオオブジェクトパラメータ抽出器202を示す。符号器パラメータに含まれるグループ化情報に従い、P個のステレオオブジェクト及び(N−2P)個のモノラルオブジェクトへのグループ化301が実行される。次に、対象となる各時間周波数区間に対し、以下の操作が実行される。即ち、ステレオパラメータ抽出器302により、P個のステレオオブジェクトの各個について、2つのオブジェクトパワーと1つの正規化された相関関係とが抽出される。また、モノラルパラメータ抽出器303により、(N−2P)個のモノラルオブジェクトの各個について、1つのパワーパラメータが抽出される。N個のパワーパラメータとP個の正規化された相関関係パラメータとからなる全体のセットは、グループ化データとともに次の符号化304において、オブジェクトパラメータを形成する。この符号化304は、最大のオブジェクトパワー又は抽出されたオブジェクトパワーの合計に関し、正規化ステップを含んでも良い。
【0025】
図4は予測に基づくモードで作動しているオーディオオブジェクトパラメータ抽出器202を示す。対象となる各時間周波数区間に対し、以下の操作が実行される。即ち、N個のオブジェクトの各個について、K個のオブジェクトダウンミックスチャネルの一次結合(linear combination)であって、最小自乗法(least squares sense)において所与のオブジェクトに適合するものが導出される。この一次結合のこれらK個の重みはオブジェクト予測係数(OPC)と呼ばれ、OPC抽出器401で算出される。N・K個のOPCからなる全体のセットは、次の符号化402においてオブジェクトパラメータを形成する。この符号化402は、一次相互依存性(linear interdependencies)に基づいて、OPCの全体数の減少を含んでも良い。本発明が教示するように、ダウンミックス重み行列Dが完全な階数(full rank)を有する場合には、この全体数をmax{K・(N-K), 0}まで削減することができる。
【0026】
図5は本発明が開示するSAOCからMPEGサラウンドへのトランスコーダ102の構成を示す。パラメータ計算器502により、時間周波数区間のそれぞれについて、ダウンミックス・サイド情報及びオブジェクトパラメータが再現行列と組み合わされ、タイプCLD,CPC,ICCのMPEGサラウンドパラメータと、2×Kのサイズを持つダウンミックス変換行列Gとが形成される。ダウンミックス変換器501は、行列Gに従う行列動作を適用することで、オブジェクトダウンミックスをステレオダウンミックスへと変換する。K=2である簡素なモードを有する変換器においては、この行列は恒等行列であり、オブジェクトダウンミックスはステレオダウンミックスとしてそのまま送られる。図5においては、このモードは選択切替器503がAの位置にある場合として示され、他方、通常の作動モードは切替器がBの位置にある場合として示される。本発明のトランスコーダのさらなる利点は、独立形適用(stand alone application)として、即ちMPEGサラウンドパラメータが無視されかつダウンミックス変換器の出力がステレオ再現に直接的に使用される場合であっても、このトランスコーダが使用できる点である。
【0027】
図6は本発明が開示するダウンミックス変換器501の様々な作動モードを示す。Kチャネルのオーディオ符号器から出力されたビットストリーム形式のオブジェクトダウンミックスが送信されたと仮定する。この場合、このビットストリームは、まずオーディオ復号器601によりK個の時間ドメインオーディオ信号へと復号化される。これらの信号は次に、T/Fユニット602内のMPEGサラウンドハイブリッドQMFフィルタにより、全て周波数ドメインへと変換される。その結果生成されるハイブリッドQMFドメイン信号に対し、変換器行列データで定義され時間及び周波数で変化する行列操作が、行列化ユニット603により実行され、行列化ユニット603はハイブリッドQMFドメインで1つのステレオ信号を出力する。ハイブリッド合成ユニット604は、このステレオハイブリッドQMFドメイン信号を、1つのステレオQMFドメイン信号へと変換する。ハイブリッドQMFドメインは、後続のQMFサブバンドのフィルタリングを用い、低周波に向かうより良好な周波数解像度を達成するために定義されている。この後続のフィルタリングがナイキストフィルタのバンクによって定義される場合には、ハイブリッドから標準QMFドメインへの変換は、単にハイブリッドサブバンド信号のグループを合計することから構成される(非特許文献4を参照)。この信号は、選択切替器607が位置Aにある場合の、ダウンミックス変換器の可能性のある第1の出力フォーマットを構成する。このようなQMFドメイン信号は、MPEGサラウンド復号器の対応するQMFドメインインターフェースへと、直接的に入力することができる。これは、遅延,複雑性,及び品質の観点から、最も有利な作動モードである。第2の可能性は、ステレオ時間ドメイン信号を得るために、QMFフィルタバンク合成605を実行することで達成される。選択切替器607が位置Bにある場合、変換器はデジタルオーディオステレオ信号を出力するが、この信号は後続のMPEGサラウンド復号器の時間ドメインインターフェースへと入力することができるか、あるいはステレオ再生装置によって直接的に再現することができる。第3の可能性は、選択切替器607が位置Cにある場合であり、時間ドメインステレオ信号をステレオオーディオ符号器606により符号化することで達成される。ダウンミックス変換器の出力フォーマットは、この場合はステレオオーディオビットストリームであり、MPEG復号器に含まれる中核の復号器に対して互換性を持つ。この第3の作動モードは、SAOCからMPEGサラウンドへのトランスコーダが、MPEG復号器とビットレートに関して制限を加えるような接続を介して分離されている場合か、又はユーザーが将来の再生のために特別なオブジェクト再現を記憶させたいと希望する場合にとって、好適である。
【0028】
図7はステレオダウンミックスのためのMPEGサラウンド復号器の構造を示す。ステレオダウンミックスは「2→3(TTT)」ボックスにより3つの中間チャネルへと変換される。これらの各中間チャネルは、「1→2(OTT)」ボックスにより2つに分かれ、5.1チャネル形式の6つのチャネルを生み出す。
【0029】
図8はSAOC符号器を含む現実的な使用例を示す。オーディオミキサ802は、ステレオ信号(L及びR)を出力するが、これらのステレオ信号は、典型的にはミキサの入力信号(ここでは入力チャネル1−6)と、例えば残響等の影響反射からの選択的な追加の入力との組合せにより構成される。ミキサは、さらにこのミキサからの個別チャネル(ここではチャネル5)をも出力する。この出力は、例えば「直接出力」又は「補助送信」等のように一般的に使用されるミキサ機能を用いて実行されても良く、何らかの挿入プロセス(例えばダイナミックプロセス及びEQ)に続いて個別チャネルが出力されても良い。前記ステレオ信号(L及びR)と個別チャネル出力(obj5)とは、SAOC符号器801へと入力されるが、この符号器は図1に示したSAOC符号器101の特別型に過ぎない。しかし、図8は、例えば会話等を含むオーディオオブジェクト(obj5)が、ステレオミックス(L及びR)の一部である一方で、復号器側においてユーザーによりレベル修正が制御可能であることを明確に示す。本発明の概念から、2つ以上のオーディオオブジェクトを符号器801内の「オブジェクト入力」パネルへと接続しても良いことは自明である。さらに、ステレオミックスは例えば5.1ミックスのような多チャネルミックスにより拡張されても良い。
【0030】
以下に、本発明を数学的に説明する。離散複素信号x,yについて、複素内積と自乗ノルム(エネルギー)は次の式で定義される。
ここで、
はy(k)の複素共役信号である。ここで考慮する全ての信号は、1つの修正フィルタバンクか、又は離散時間信号のウインドウ化されたFFT(高速フーリエ変換)分析からのサブバンドサンプルである。これらのサブバンドは、対応する合成フィルタバンク操作によって離散時間ドメインへと逆変換されなければならないことが知られている。L個のサンプルを持つ1つの信号ブロックは、時間及び周波数の1つの区間内における信号を表し、この区間は、信号特性を説明するために用いられた時間―周波数平面の知覚的動機に基づくタイル張りの一部である。この設定において、所与のオーディオオブジェクトは、1つの行列内の長さLを有するN行として次の式で表すことができる。
【0031】
K×Nの大きさを有しK>1であるダウンミクス重み行列Dが、次の行列の掛け算を通してK行を有する行列の形式でKチャネルダウンミックス信号を決定する。
【0032】
M×Nの大きさを有し、ユーザーにより制御されるオブジェクト再現行列Aが、次の行列の掛け算を通してM行を有する行列の形式でオーディオオブジェクトのMチャネル目標再現を決定する。
【0033】
ここで暫く中核のオーディオ符号化の影響を考慮せずにおくと、SAOC復号器の役割は、再現行列A、ダウンミックスX、ダウンミックス行列D及びオブジェクトパラメータを与えられたとして、原オーディオオブジェクトの目標再現Yの知覚的意味における近似を生成することである。
【0034】
本発明が教示するエネルギーモードにおけるオブジェクトパラメータは、原オブジェクトの共分散に関する情報を有する。後続の導出のために便利でありかつ典型的な符号器操作を説明できる決定版においては、この共分散は、行列の積SS*により非正規化された形式で与えられる。このとき星印は複素共役転位行列操作を示す。このようにして、エネルギーモードのオブジェクトパラメータは、できればあるスケールファクタまでは、次式(5)を満たすような半正定値(positive semi-definite)のN×Nの行列Eを供給する。
【0035】
従来技術によるオーディオオブジェクト符号化では、全てのオブジェクトに相互関係がないオブジェクトモデルを考慮して来た。この場合には、行列Eは対角行列であり、オブジェクトエネルギー
に対する近似だけを含む。図3に示すオブジェクトパラメータ抽出器は、このアイデアを具体化することに役立ち、相関関係がないとする仮定が成り立たないようなステレオ信号としてオブジェクトが供給される場合に、特に重要となる。オブジェクトのP個の選択されたステレオペアのグループ化は、インデックスのセット{(np,mp),p=1,2,...,P}で表現される。これらのステレオペアのために、相関関係<sn,sm>が計算され、次式(6)に示す正規化された相関関係(ICC)の複素数、実数、又は絶対値がステレオパラメータ抽出器302により抽出される。
復号器では、2Pの非対角エントリを有する行列Eを形成するために、ICCデータはエネルギーと組み合わされても良い。例えば、全体でN=3のオブジェクトであり、この内最初の2つが単一のペア(1,2)を構成するオブジェクトについては、送信されるエネルギー及び相関関係データはS1,S2,S3 及びρ1,2である。この場合、行列Eへの組合せにより、次の結果となる。
【0036】
本発明が教示する予測モードにおけるオブジェクトパラメータは、次式(7)で表すように、復号器にとって有効であるN×Kオブジェクト予測係数(OPC)行列Cを作り出すことを目的とする。
【0037】
換言すれば、各オブジェクトについて、そのオブジェクトが次式(8)により近似的に回復できるようなダウンミックスチャネルの一次結合が存在する。
【0038】
ある好ましい実施の形態においては、OPC抽出器401が次の正規方程式を解くか、
あるいは、より好ましい実数値のOPCの場合には、次式を解く。
【0039】
前記両方の場合において、実数値のダウンミックス重み行列Dと正則ダウンミックス共分散とを用いたと仮定すると、Dを左側から掛け算することにより、次式(11)となる。
ここで、Iは大きさKの恒等行列である。もしDが完全な階数を有する場合には、初歩的な線形代数により、式(9)の解のセットは、max{K・(N-K), 0}パラメータによりパラメータ化できることになる。この点は、OPCデータの結合符号化(joint encoding) 402の中で活用されている。復号器においては、完全な予測行列Cが、パラメータの減数されたセットとダウンミックス行列とから再形成可能となる。
【0040】
例えば、1つのステレオダウンミックス(K=2)について、1つのステレオ音楽トラック(S1,S2)と中央にパンされた単一楽器又は音声トラックS3とを備える3つのオブジェクト(N=3)がある場合を考える。このときダウンミックス行列は次式で与えられる。
【0041】
つまり、ダウンミックス左チャネルと右チャネルはそれぞれ
となる。単一トラックのためのOPCは、
を近似することを目的としており、上述の式(11)は、この場合、次式を達成するように解くことができる。
よって、満足するOPCの数はK(N-K)=2・(3-2)=2となる。
【0042】
オブジェクト予測係数(OPC)のC31,C32は次の正規方程式から導くことができる。
【0043】
SAOCからMPEGサラウンドへのトランスコーダ
【0044】
図7を参照すれば、5.1形式のM=6出力チャネルは、(y1,y2,...,y6)=(lf,ls,rf,rs,c,lfe)である。トランスコーダは、1つのステレオダウンミックス(l0,r0)と、TTT及びOTTボックスのためのパラメータとを出力しなければならない。ここではステレオダウンミックスに焦点を当てているので、以下の説明ではK=2と仮定する。オブジェクトパラメータとMPSのTTTパラメータとの両方が、エネルギーモードと予測モードとの両方で存在するので、4つの全ての組合せを考慮すべきである。エネルギーモードは、例えばダウンミックスオーディオ符号器が当該の周波数区間において波形符号器ではない場合に、適切な選択といえる。後述する説明から導出されるMPEGサラウンドパラメータが、伝送される前に適切に量子化されかつ符号化されなければならないことは公知である。
【0045】
前記4つの組合せをさらに明確に記載すれば、以下のようになる。
1.オブジェクトパラメータはエネルギーモードであり、トランスコーダは予測モードである。
2.オブジェクトパラメータはエネルギーモードであり、トランスコーダもエネルギーモードである。
3.オブジェクトパラメータは予測モード(OPC)であり、トランスコーダも予測モードである。
4.オブジェクトパラメータは予測モード(OPC)であり、トランスコーダはエネルギーモードである。
【0046】
ダウンミックスオーディオ符号器が当該の周波数区間において波形符号器である場合には、オブジェクトパラメータはエネルギーモードでも予測モードでも良いが、トランスコーダは好ましくは予測モードで作動すべきである。反対に、ダウンミックスオーディオ符号器が当該の周波数区間において波形符号器ではない場合には、オブジェクト符号器とトランスコーダとはエネルギーモードで作動すべきである。4番目の組合せはあまり適切ではないので、以下の説明では最初の3つの組合せについてだけ述べる。
【0047】
エネルギーモードで与えられたオブジェクトパラメータ
【0048】
エネルギーモードにおいては、トランスコーダに使用されるデータは3つのマトリクス(D,E,A)の組により記述される。MPEGサラウンドOTTパラメータは、伝送されたパラメータと6×Nの再現マトリクスAとから導出される仮想再現について、エネルギー及び相関関係の推定を実施することで取得できる。6つのチャネルの目標共分散は、次の式で与えられる。
【0049】
ここで、式(5)を式(13)に代入すると、次の近似が得られる。
この近似式は、使用可能なデータにより完全に定義される。fktがFの要素を表すものとすると、CLD及びICCは以下の式から読み取ることができる。
ここで、φは絶対値φ(z)=|z|又は実数値演算子φ(z)=Re{z}である。
【0050】
具体例として、前記式(12)に関連して前に説明した3つのオブジェクトの場合を考える。このとき、再現行列を次のように仮定する。
【0051】
このとき再現目標は、オブジェクト1を右前と右サラウンドとの間に配置し、オブジェクト2を左前と左サラウンドとの間に配置し、オブジェクト3を右前、中央、低周波強化の中に配置するものとする。さらに、簡素にするために、これら3つのオブジェクトは互いに相関関係がなく、全て同一のエネルギーを有するものとし、次のように仮定する。
【0052】
この場合、式(14)の右側は次のようになる。
【0053】
前記式(15)−(19)に対して適切な値を挿入すると、次の結果が得られる。
【0054】
その結果、MPEGサラウンド復号器は、右前と右サラウンドとの間ではある非相関化処理を使用し、左前と左サラウンドとの間では非相関化処理を使用しないように指示を受けるであろう。
【0055】
予測モードのMPEGサラウンドTTTパラメータにとって、第1のステップは、
である結合されたチャネル(l,r,qc)について、3×Nの大きさを持つ減数された再現行列A3を形成することである。このとき、A3=D36Aであり、6から3への部分ダウンミックス行列は次式で定義される。
【0056】
前記部分ダウンミックスの重みwp(p=1,2,3)は、wp(y2p-1+y2p)のエネルギーがある限度ファクタまではエネルギー||y2p-1||2+||y2||2の合計に等しくなるように調整される。部分ダウンミックス行列D36を導出するために必要な全てのデータは、Fにおいて使用可能である。
【0057】
次に、3×2の大きさを持つ予測行列C3が以下のように生成される。
【0058】
このような行列は、好ましくはまず次の正規方程式を考慮することで導出される。
C3(DED*)=A3ED*
【0059】
前記正規方程式の解は、オブジェクト共分散モデルEを与えられた場合、前記式(21)について可能な最良の波形適合を生成する。全体又は個別チャネル単位の予測損失補償のための行要素を含む、行列C3の後処理を行うことが好ましい。
【0060】
上述のステップを明確に理解するためには、上述した具体的な6チャネル再現例の続きを考慮すべきである。Fの行列要素に関して言えば、ダウンミックスの重みは次式の解であり、
上述の具体例においては次式となり、
次の結果となる。
これを上述の式(20)に代入すると、次式が得られる。
【0061】
次に(有限精度に切り換えると)、上述の式C3(DED*)=A3ED*のシステムを解くことで次式が得られる。
【0062】
この行列C3は、オブジェクトダウンミックスから結合チャネル(l,r,qc)への望ましいオブジェクト再現に対する近似を得るための最良の重みを包含する。しかし、行列操作のこの一般的なタイプは、MPEGサラウンド復号器により実行されることは不可能である。なぜなら、MPEGサラウンド復号器はたった2つのパラメータしか使用しないので、TTT行列のための大きさが制限されているからである。本発明のダウンミックス変換器の目的は、オブジェクトダウンミックスを前処理し、この前処理とMPEGサラウンドTTT行列との組合せ効果が、行列C3により示される望ましいアップミックスと同一となるようにすることである。
【0063】
MPEGサラウンドにおいては、(l0,r0) から(l,r,qc)を予測するためのTTT行列は、次式を介して3つのパラメータ(α,β,γ)によりパラメータ化される。
【0064】
本発明が教示するダウンミックス変換行列Gは、γ=1を選択し、次式のシステムを解くことで取得される。
【0065】
容易に証明できるように、上の式からDTTTCTTT=Iとなり、Iは2×2の恒等行列であり、次式が成り立つ。
【0066】
従って、式(23)の両側にDTTTを左側から行列掛け算を行うと、次式の結果となる。
【0067】
一般的な場合では、Gは反転可能であり、式(23)はDTTTCTTT=Iに従うCTTTについて唯一の解を持つ。TTTパラメータ(α,β)は、この解により決定される。
【0068】
前述した具体例について、その解が次のように得られることは容易に証明できる。
【0069】
ここで注意すべきは、ステレオダウンミックスの主要部分は、この変換行列のために右と左の間で入れ替わることである。これは、前記再現例では、左のオブジェクトダウンミックスチャネル内にあるオブジェクトが右の音声場面に位置するように再現され、その逆もまた然りとなるという事実を反映したものである。このような現象は、ステレオモードのMPEGサラウンド復号器からは得られない現象である。
【0070】
もしダウンミックス変換器を適用できない場合には、以下のような次善策をとることができる。エネルギーモードのMPEGサラウンドTTTパラメータに対しては、結合されたチャネル(l,r,c)のエネルギー配分が必要となる。ゆえに、関連するCLDパラメータはFの要素から次式を通じて直接導出することができる。
【0071】
この場合には、ダウンミックス変換器のため正のエントリを持つ対角行列Gだけを使用するのが良い。TTTアップミックスの前に、ダウンミックスチャネルの正確なエネルギー配分を達成することが可能になる。6から2へのチャネルダウンミックス行列D26=DTTTD36と、次式からの定義とを基にして、
次の行列を単純に選択できる。
【0072】
さらに、上述のような対角形式のダウンミックス変換器は、オブジェクトからMPEGサラウンドへのトランスコーダから省略することもでき、MPEGサラウンド復号器の任意のダウンミックスゲイン(ADG)パラメータを活性化することで実現できると考えられる。これらゲインは、ADGi=10log10(wii/zii) (i=1,2)によって、対数ドメインにおいて与えられるであろう。
【0073】
予測モード(OPC)で与えられたオブジェクトパラメータ
【0074】
オブジェクト予測モードにおいては、利用できるデータは行列の3つの組(D,C,A)によって表され、ここで、CはOPCのN個のペアを有するN×2の行列である。予測係数の相対的な特性により、エネルギーベースのMPEGサラウンドパラメータの推定にとっては、次式のようにオブジェクトダウンミックスの2×2の共分散行列への近似に対してアクセスを有することがさらに必要となる。
【0075】
この情報は、オブジェクト符号器からダウンミックス・サイド情報の一部として伝送されることが好ましいが、トランスコーダにおいて、受信されたダウンミックスについて測定された結果から推定することも可能であるし、近似オブジェクトモデルを考慮することにより(D,C)から間接的に導出することも可能であろう。Zが与えられた場合、オブジェクト共分散は予測モデルY=CXを挿入することで推定可能であり、次式が得られる。
E=CZC*
そして、全てのMPEGサラウンドOTTとエネルギーモードTTTのパラメータは、エネルギーベースのオブジェクトパラメータの場合と同様に、Eから推定可能である。しかし、OPCを使用する大きな利点は、予測モードのMPEGサラウンドTTTパラメータとの組合せにおいて発生する。この場合、波形近似
は、直ちに減数された予測行列
をもたらし、この予測行列からTTTパラメータ(α,β)とダウンミックス変換器とに到達するまでの残りのステップは、エネルギーモードで与えられたオブジェクトパラメータの場合と同様である。現実に、上述の式(22)から(25)までのステップは、完全に同一である。結果として生まれる行列Gはダウンミックス変換器へと入力され、TTTパラメータ(α,β)はMPEGサラウンド復号器へと伝送される。
【0076】
ステレオ再現のためのダウンミックス変換器の独立型適用
【0077】
上述した全ての場合において、ステレオダウンミックス変換器501へのオブジェクトは、オーディオオブジェクトの5.1チャネル再現のステレオダウンミックスに対する近似を出力する。このステレオ再現は、A2=D26Aにより定義される2×Nの行列A2により表現できる。多くの適用例において、このダウンミックスはそのもの自身の特性から興味深いるものであるし、ステレオ再現A2の直接的な操作も魅力的である。図解的な例として、ステレオトラックと、それに重畳され中央にパンされたモノラル音声トラックとが、図8に示しかつ式(12)で説明した特別な方法の場合に従って符号化された場合について考察する。音声音量のユーザーによる制御は、次式の再現により実現することができる。
ここで、νは音声と演奏曲との制御比率である。ダウンミックス変換行列の設計は、次式に基づく。
【0078】
予測ベースのオブジェクトパラメータについては、次の近似式
を単に挿入し、次の変換行列を得る。
エネルギーベースのオブジェクトパラメータについては、次の正規方程式を解けばよい。
【0079】
図9は本発明の1つの実施態様に従うオーディオオブジェクト符号器の好ましい一実施例を示す。このオーディオオブジェクト符号器101は、図8までの図面に関連して既に概略を説明したものと同様である。符号化されたオブジェクト信号を生成するためのオーディオオブジェクト符号器は、図9では、ダウンミキサ92とオブジェクトパラメータ生成器94とへの入力として示される、複数のオーディオオブジェクト90を使用する。オーディオオブジェクト符号器101は、ダウンミックス情報97を生成するためのダウンミックス情報生成器96をさらに備え、ダウンミックス情報97は、ダウンミキサ92からの出力として示される少なくとも2つのダウンミックスチャネル93に対する、前記複数のオーディオオブジェクトの配分を示している。
【0080】
オブジェクトパラメータ生成器は、オーディオオブジェクトのためのオブジェクトパラメータ95を生成する。このとき、オブジェクトパラメータは、これらのオブジェクトパラメータと少なくとも2つのダウンミックスチャネル93とを使用して、オーディオオブジェクトの再構成が可能となるように計算される。しかし重要なことは、この再構成は符号器側において実行されるのではなく、復号器側において実行されることである。とはいえ、符号器側のオブジェクトパラメータ生成器94は、復号器側でこの完全な再構成が可能となるように、オブジェクトのためのオブジェクトパラメータ95を計算する。
【0081】
オーディオブジェクト符号器101は、ダウンミックス情報97とオブジェクトパラメータ95とを使用して符号化されたオーディオオブジェクト信号99を生成するための、出力インターフェース98をさらに備えている。適用方法にも依るが、ダウンミックスチャネル93もまた使用され、符号化されたオーディオオブジェクト信号へと符号化されても良い。しかし、出力インターフェース98が、ダウンミックスチャネルを含まない符号化されたオーディオオブジェクト信号99を生成する場合もありうる。このような状況は、復号器側で使用されるべきあらゆるダウンミックスチャネルも既に復号器側に存在しており、オーディオオブジェクトのためのダウンミックス情報とオブジェクトパラメータとが、ダウンミックスチャネルから分離して伝送されるような場合に起こりうる。このような状況は、復号器側のユーザーが、オブジェクトパラメータ及びダウンミックス情報とは別に、オブジェクトダウンミックスチャネル93を安価で購入することができ、さらに、オブジェクトパラメータ及びダウンミックス情報を追加的な価格で購入することで、追加的な価値を得ることができる場合に有利となる。
【0082】
オブジェクトパラメータ及びダウンミックス情報がない場合には、ユーザーは、ダウンミックスに含まれるチャネルの数に依存して、ダウンミックスチャネルをステレオ又は多チャネルの信号として再現することができる。当然ながら、前記少なくとも2つの伝送されたオブジェクトダウンミックスチャネルを単に加算することで、ユーザーはモノラル信号を再現することも可能である。再現の柔軟性とリスニングの品質と使用性とを高めるために、オブジェクトパラメータ及びダウンミックス情報はユーザーに対し、例えばステレオシステム、多チャネルシステム、あるいは波面合成システムさえ含むような、どのように意図されたオーディオ復元設定においても、オーディオオブジェクトの柔軟な再現を可能にする。波面合成システムはまだ一般的に普及してはいないが、5.1システム又は7.1システムのような多チャネルシステムは、消費者市場に日増しに普及しつつある。
【0083】
図10は出力データを生成するためのオーディオ合成器(audio synthesizer)を示し、このオーディオ合成器は出力データ合成器100を含む。出力データ合成器は、入力として、ダウンミックス情報97と、オーディオオブジェクトパラメータ95とを受け取り、さらにおそらくは、符号105で示すように、例えばソースが再現された時にあるべきオーディオソースの位置又はユーザーから特定された特定ソースの音量等のような、目標オーディオソースデータを受け取る。
【0084】
出力データ合成器100は、複数のオーディオオブジェクトを表現する、所定のオーディオ出力形態(audio output configuration)の複数の出力チャネルを再現するために使用できる出力データを生成する。特に、出力データ合成器100は、ダウンミックス情報97とオーディオオブジェクトパラメータ95とを使用して作動する。後で図11を参照しながら説明するが、この出力データは様々に異なる適用方法を有するデータであって良い。即ち、出力チャネルの特定の再現を含む適用方法や、ソース信号の再構成だけを含む適用方法や、あるいは、出力チャネルの特定の再現はないが、例えば空間パラメータを記憶又は伝送するための空間アップミキサ設定用の空間再現パラメータへと、パラメータを符号変換することを含む適用方法を有するデータであっても良い。
【0085】
図14は本発明の一般的な適用のシナリオを示す。符号器側140はオーディオオブジェクト符号器101を含み、入力としてN個のオーディオオブジェクトを受け取る。この好ましいオーディオオブジェクト符号器の出力には、図14には示されていないダウンミックス情報とオブジェクトパラメータとに加えて、K個のダウンミックスチャネルが含まれる。本発明に係るダウンミックスチャネルの数は、2以上である。
【0086】
ダウンミックスチャネルは、空間アップミキサ143を含む復号器側142に伝送される。空間アップミキサ143は、本発明のオーディオ合成器を備えても良く、このときオーディオ合成器はトランスコーダモードで作動される。しかし、図10に示すようなオーディオ合成器が空間アップミキサモードで作動する時には、空間アップミキサ143とオーディオ合成器とは、この実施例において同一の装置である。空間アップミキサは、M個のスピーカを介して再生されるべきM個の出力チャネルを生成する。これらのスピーカは、所定の空間位置に配置されたものであり、一体として所定のオーディオ出力形態を形成する。この所定のオーディオ出力形態を構成する1つの出力チャネルは、空間アップミキサ143の出力から、前記所定のオーディオ出力形態における複数の所定位置のうち1つの所定位置にある1つのスピーカの入力へと送られるべき、デジタル又はアナログのスピーカ信号であっても良い。状況に応じ、ステレオ再現が実行される場合には、出力チャネルの数Mは2個であって良い。しかし、多チャネル再現が実行される場合には、出力チャネルの数Mは2よりも大きな数字となる。典型的には、伝送リンクの条件により、ダウンミックスチャネルの数が出力チャネルの数よりも小さい状況が起こるであろう。この場合には、MはKよりも大きいか、あるいは2倍以上になるようなKよりもはるかに大きな数字であっても良い。
【0087】
図14は、本発明の符号器側と復号器側との機能を示すため、複数の行列表記をさらに含む。一般的には、サンプリング値のブロックが処理される。ゆえに、式(2)に示すように、1つのオーディオオブジェクトはL個のサンプリング値からなる1つの行として表現できる。行列Sは、オブジェクト数に対応するN個の行と、サンプル数に対応するL個の列とを持つ。行列Eは、式(5)に従って計算され、N個の行とN個の列とを持つ。オブジェクトパラメータがエネルギーモードで与えられた時、行列Eはオブジェクトパラメータを含む。相関関係がないオブジェクトについては、式(6)に関して上述したように、行列Eは、1つの主対角要素が1つのオーディオオブジェクトのエネルギーを与える主対角要素だけを備える。上述のように、全ての非対角要素は、2つのオーディオオブジェクトの相関関係を表しており、あるオブジェクトがステレオ信号の2つのチャネルである場合に特に有用である。
【0088】
ある実施例においては、式(2)は時間ドメイン信号である。このとき、オーディオオブジェクトの全帯域のための単一のエネルギー値が生成される。しかし好ましくは、オーディオオブジェクトは、例えば変換の1つのタイプ又は1つのフィルタバンクを含む、時間/周波数変換器により処理される。後者の場合(1つのフィルタバンクを含む場合)には、式(2)は各サブバンドについて有効であり、その結果、各サブバンド及び各時間フレームについて行列Eを得ることになる。
【0089】
ダウンミックスチャネル行列XはK個の行とL個の列とを備え、式(3)に従って計算される。式(4)に示すように、M個の出力チャネルは、N個のオブジェクトを使用して、これらN個のオブジェクトに対しいわゆる再現行列Aを適用することで計算される。状況によるが、これらN個のオブジェクトは復号器側においてダウンミックスとオブジェクトパラメータとを使用して再生成可能であるし、この再現行列は、再構成されたオブジェクト信号に対して直接的に適用できる。
【0090】
他の方法として、ダウンミックスは、ソース信号の格別な計算なしに出力チャネルへと直接的に変換されても良い。一般的に再現行列Aは、所定のオーディオ出力形態に対する個別のソースの配置を示す。仮に6個のオブジェクトと6個の出力チャネルとを有する場合を想定する。この場合には、各オブジェクトを各出力チャネルに配置することができ、再現行列もこの枠組みを反映することになるだろう。しかし、もし全てのオブジェクトを2つの出力スピーカ位置の間に配置したい場合には、再現行列Aは異なる形となるであろうし、かつこの異なる状況を反映することになるだろう。
【0091】
再現行列、又はさらに一般的にはオーディオオブジェクトの目標配置ともオーディオソースの目標相対的音量とも呼ばれるものは、一般的には符号器により計算され、復号器に対し、いわゆる場面描写として伝送される。しかし他の実施例においては、この場面描写は、ユーザー特定オーディオ出力形態のためのユーザー特定アップミックスを生成するために、ユーザー自身によって生成されても良い。従って、場面描写の伝送は必ずしも必要というわけではなく、反対に、ユーザーの要望を叶えるために、ユーザー自身によって場面描写が生成されても良い。例えば、ユーザーは、あるオーディオオブジェクトを生成する際に、これらのオブジェクトがあった位置とは異なる位置に、これらのオブジェクトを配置させたいと希望するかもしれない。さらには、オーディオオブジェクトがそれら自身でデザインされ、他のオブジェクトに対する「元の」配置を持たない場合も有りうる。このような場合には、オーディオソースの相対的な配置は、ユーザーによって初めて生成されることになる。
【0092】
図9にダウンミキサ92を示す。このダウンミキサは、複数のオーディオオブジェクトを複数のダウンミックスチャネルへとダウンミキシングするためのものであり、オーディオオブジェクトの数はダウンミックスチャネルの数よりも多く、かつダウンミキサはダウンミックス情報生成器と一体となり、複数のオーディオオブジェクトから複数のダウンミックスチャネルへの配分はダウンミックス情報に示されるように実行される。図9のダウンミックス情報生成器96により生成されるダウンミックス情報は、自動的に生成可能か、あるいは手動的に調整可能である。このダウンミックス情報には、オブジェクトパラメータの解像度よりも小さな解像度を与えるのが好ましい。この場合、サイド情報ビットは大きな品質損失なしに削減できる。なぜなら、ある種のオーディオ曲のための固定のダウンミックス情報、又は低速でしか変化せず必ずしも周波数選択的である必要のないダウンミックス状況で十分だからである。1つの実施例においては、ダウンミックス情報は、K個の行とN個の列とを有するダウンミックス行列を表す。
【0093】
ダウンミックス行列の1つの行内の値は、このダウンミックス行列内のこの値に対応するオーディオオブジェクトが、このダウンミックス行列の行により表されるダウンミックスチャネル内にある時、1つの所定値を持つ。1つのオーディオオブジェクトが2つ以上のダウンミックスチャネルに含まれる時、ダウンミックス行列の2つ以上の行の値は、1つの所定値を持つ。しかし、単一のオーディオオブジェクトについて平方値が合算された時、1.0になるのが好ましい。とは言え、他の値でも可能である。さらに、オーディオオブジェクトは、レベルが変化する1以上のダウンミックスチャネルへと入力されても良く、かつこれらのレベルは、所定のオーディオオブジェクトについて、1とは異なり、合算しても1.0にはならないダウンミックス行列内の重みにより示されても良い。
【0094】
ダウンミックスチャネルは、出力インターフェース98により生成された符号化されたオーディオオブジェクト信号の中に包含されており、この符号化されたオーディオオブジェクト信号は、例えば所定の形式を持つ時分割多重信号(time-multiplex signal)であっても良い。代わりに、この符号化されたオーディオオブジェクト信号は、復号器側においてオーディオオブジェクトパラメータ95と、ダウンミックス情報97と、ダウンミックスチャネル93との分割を可能にする、いかなる信号であっても良い。さらには、出力インターフェース98は、オブジェクトパラメータ、ダウンミックス情報、あるいはダウンミックスチャネルのための符号器を備えていても良い。オブジェクトパラメータとダウンミックス情報のための符号器は、差分符号器及び/又はエントロピー符号器であっても良く、ダウンミックスチャネルのための符号器は、MPEG符号器又はAAC符号器のような、モノラル又はステレオオーディオ符号器であっても良い。これら全ての符号化操作は、符号化されたオーディオオブジェクト信号99のために必要なデータレートをさらに減少させ、さらなるデータ圧縮をもたらす。
【0095】
ある実施例においては、ダウンミキサ92は所定の比率で、前記少なくとも2つのダウンミックスチャネルの中へ背景音楽のステレオ表現を包含させ、さらに、これら少なくとも2つのダウンミックスチャネルの中へ音声トラックを導入させることができる。この実施例においては、背景音楽の第1のチャネルは第1のダウンミックスチャネルの中に含まれ、背景音楽の第2のチャネルは第2のダウンミックスチャネルの中に含まれる。その結果、ステレオ再現装置におけるステレオ背景音楽の最適な再生が可能になる。しかし、ユーザーは、左ステレオスピーカと右ステレオスピーカとの間の音声トラックの位置を、さらに修正することができる。他の方法としては、第1及び第2の背景音楽チャネルは1つのダウンミックスチャネル内に含まれ、音声トラックは他のダウンミックスチャネル内に含まれても良い。このようにして、1つのダウンミックスチャネルを排除することで、背景音楽から音声トラックを完全に分割することができ、カラオケには特に適した適用方法を作り出せる。しかしこの場合、当然ながら損失を伴う圧縮方法であるオブジェクトパラメータ化のために、背景音楽チャネルのステレオ再生品質は劣化する恐れがある。
【0096】
ダウンミキサ92は、時間ドメインにおいてサンプル単位での足し算を実行する。この足し算は、単一のダウンミックスチャネルへとダウンミックスされるべきオーディオオブジェクトからのサンプルを使用する。1つのオーディオオブジェクトがある所定の割合で1つのダウンミックスチャネルへと導入される時、サンプル単位での足し算処理の前に、ある事前の重み付けが実行される。他の方法としては、前記足し算はまた、周波数ドメインあるいはサブバンドドメインすなわち時間/周波数変換に続くドメインにおいて実行されても良い。さらに、前記ダウンミックスは、前記時間/周波数変換がフィルタバンクである場合にはフィルタバンクドメインにおいて実行しても良く、前記時間/周波数変換がFFT,MDCT又は他のいずれかの変換タイプである場合には、変換ドメインにおいて実行しても良い。
【0097】
本発明の1つの実施形態によれば、オブジェクトパラメータ生成器94はエネルギーパラメータを生成し、また、式(6)から分かるように、2つのオーディオオブジェクトが一体となってステレオ信号を表現する場合には、2つのオブジェクト間の相関関係パラメータを追加的に生成する。他の方法として、オブジェクトパラメータが予測モードのパラメータであっても良い。図15はこれらのオブジェクト予測パラメータを計算するための計算装置のアルゴリズムステップ又は手段を示す。式(7)〜(12)に関して上述したように、行列X内のダウンミックスチャネルと行列S内のオーディオオブジェクトとに関するある統計的な情報が計算されなければならない。特に、ブロック150はS・X*の実数部分とX・X*の実数部分とを計算する第1のステップを示す。これらの実数部分は、単に数値であるだけではなく、行列である。また、これらの行列は、ある実施例においては式(1)の表記を通して決定されるが、それは式(12)に続く実施例が考慮される時である。一般的に、ステップ150の値は、オーディオオブジェクト符号器101内で使用できるデータを用いて計算することができる。その後、ステップ152に示すように予測行列Cが計算される。特に、N個の行とK個の列とを備えた予測行列Cの全ての値が得られるように、この方程式のシステムが従来技術から公知の方法で解かれる。一般的には、全てのダウンミックスチャネルの重み付けられた線形加算が対応するオーディオオブジェクトを最良の状態で再構成するように、式(8)に示す重みファクタCn,iが計算される。この予測行列は、ダウンミックスチャネルの数が増える時、オーディオオブジェクトのより良い再構成を可能にする。
【0098】
次に、図11についてさらに詳細に説明する。図11は、ある所定のオーディオ出力形態の複数の出力チャネルを作り出すために使用できるいくつかの種類の出力データを示す。行111は、出力データ合成器100の出力データが再構成されたオーディオソースである場合を示す。この再構成されたオーディオソースを再現するために出力データ合成器100に必要となる入力データは、ダウンミックス情報と、ダウンミックスチャネルと、オーディオオブジェクトパラメータである。しかし、この再構成されたオーディオソースを再現するためには、空間オーディオ出力形態内におけるオーディオソース自身の出力形態及び目標配置は、必ずしも必要ではない。図11内にモード番号1により示された第1のモードにおいては、出力データ合成器100は再構成されたオーディオソースを出力するであろう。オーディオオブジェクトパラメータのような予測パラメータの場合には、出力データ合成器100は、式(7)に定義されるような役割を果たす。オブジェクトパラメータがエネルギーモードである場合は、ソース信号を再構成するために、出力データ合成器はダウンミックス行列とエネルギー行列との逆を使用する。
【0099】
他の方法では、出力データ合成器100は、例えば図1Bのブロック102で示すように、トランスコーダとして作動する。この出力データ合成器が空間ミキサパラメータを生成するためのトランスコーダの一種である時には、ダウンミックス情報と、オーディオオブジェクトパラメータと、出力形態と、ソースの目標配置とが必要となる。特に、出力形態と目標配置とが再現行列Aを介して与えられる。しかし、図12に関して後述するように、ダウンミックスチャネルは、空間ミキサパラメータを生成するために必要ではない。状況によるが、出力データ合成器100により生成される空間ミキサパラメータは、この場合、ダウンミックスチャネルをアップミックスためのMPEGサラウンドミキサ等のような単純な空間ミキサにより使用することができる。この実施例では、オブジェクトダウンミックスチャネルを必ずしも修正する必要がなく、式(13)に示すように対角要素だけを持つ単純な変換行列があれば良い。図11の行112で示すモード番号2においては、出力データ合成器100は空間ミキサパラメータを出力し、かつ好ましくは、MPEGサラウンド復号器の任意のダウンミックスゲインパラメータ(ADG)として使用できるゲインを含む、式(13)に示す変換行列Gを出力する。
【0100】
図11の行113で示すモード番号3においては、出力データは、式(25)に関連して示した変換行列等のような1つの変換行列及び空間ミキサパラメータを含む。この場合、出力データ合成器100は、オブジェクトダウンミックスをステレオダウンミックスへと変換する現実のダウンミックス変換を、必ずしも実行する必要はない。
【0101】
図11の行114で示すモード番号4は、図10における出力データ合成器100を示す。この場合、トランスコーダは図1Bの102で示すように操作され、空間ミキサパラメータを出力するだけではなく、変換されたダウンミックスをも追加的に出力する。しかし、この変換されたダウンミックスに加えて変換行列Gを出力する必要はない。図1Bで示すように、変換されたダウンミックスと空間ミキサパラメータとを出力することで十分である。
【0102】
モード番号5は、図10における出力データ合成器100の他の適用例を示す。図11の行115で示す場合においては、出力データ合成器により生成された出力データは、いかなる空間ミキサパラメータも含んではいないが、例えば式(35)により示される変換行列Gだけを含むか、あるいは行115に示すようにステレオ信号そのものの出力を現実に含む。この実施例においては、ステレオ再現だけを目的としており、いかなる空間ミキサパラメータも必要ではない。しかし、ステレオ出力を生成するためには、図11に示す利用可能な全ての入力情報が必要とされる。
【0103】
出力データ合成器モードのさらに他の例を、モード番号6を付した行116で示す。この場合、出力データ合成器100は1つの多チャネル出力を生成し、かつ出力データ合成器100は、図1Bの要素104に類似している。つまり、出力データ合成器100は利用可能な全ての入力情報を必要とし、かつ1つの多チャネル出力信号する。この多チャネル出力信号は、2よりも大きい数の出力チャネルを備え、所定のオーディオ出力形態に従って目標スピーカ位置に配置された、出力チャネル数に対応する数のスピーカにより再現されるべきものである。このような多チャネル出力とは、5.1出力か、7.1出力か、あるいは左スピーカと中央スピーカと右スピーカとを備えた3.0出力である。
【0104】
次に図11を参照し、MPEGサラウンド復号器において公知である図7のパラメータ化の概念から、いくつかのパラメータを計算するための1つの例を説明する。図示するように、図7は、左ダウンミックスチャネルl0と右ダウンミックスチャネルr0とを有するステレオダウンミックス70から始まる、MPEGサラウンド復号器側のパラメータ化を示す。概念的には、両方のダウンミックスチャネルは所謂2→3のボックス71に入力される。この2→3のボックス71は複数の入力パラメータ72により制御される。ボックス71は3つの出力チャネル73a,73b,73cを生成する。各出力チャネルは1→2のボックスへと入力される。即ち、チャネル73aはボックス74aに入力され、チャネル73bはボックス74bに入力され、チャネル73cはボックス74cに入力される。各ボックスは2つの出力チャネルを出力する。即ち、ボックス74aは左前チャネルlfと左サラウンドチャネルlsとを出力し、ボックス74bは右前チャネルrfと右サラウンドチャネルrsとを出力し、ボックス74cは中央チャネルcと低周波強化チャネルlfeとを出力する。重要な点は、ダウンミックスチャネル70から出力チャネルへの全体のアップミックスがある行列演算を用いて実行される点であり、また、図7に示すツリー構造が、必ずしもステップ毎に実行される必要がなく、単一又は複数の行列演算によって実行されても良い点である。さらには、73a,73b,73cで示す中間信号は所定の具体例を用いて格別に計算されている訳ではなく、図7において、単に例示的な目的で示されているに過ぎない点である。さらには、ボックス74aと74bとは、出力信号に対して所定の無作為性を導入するために使用できる複数の残余信号res1OTTとres2OTTとを受信する。
【0105】
MPEGサラウンド復号器から公知であるように、ボックス71は予測パラメータCPC又はエネルギーパラメータCLDTTTにより制御される。2チャネルから3チャネルへのアップミックスのために、少なくとも2つの予測パラメータCPC1及びCPC2か、又は少なくとも2つのエネルギーパラメータCLD1TTT及びCLD2TTTが必要となる。さらに、相関関係を示すICCTTTがボックス71へと入力されても良いが、これは単に選択的な特徴であり、本発明の1つの実施例においては使用されてはいない。図12と図13とは、図9のオブジェクトパラメータ95と、図9のダウンミックス情報97と、例えば図10に示す場面描写のようなオーディオソースの目標配置105とを基にして、全てのパラメータCPC/CLDTTT,CLD0,CLD1,ICC1,CLD2,ICC2を計算するために必要なステップ及び/又は手段を示す。これらのパラメータは、5.1サラウンドシステムの所定のオーディオ出力フォーマットに合わせたものである。
【0106】
当然ながら、この具体例のために記載したパラメータの具体的な計算方法は、本発明にかかる他の出力形式又はパラメータ化にも適用できる。さらに、図12及び図13Bに記載の一連のステップあるいは手段の配列は、単に例示的なものであって、数学的方程式の論理上の意味の範囲内で変更可能である。
【0107】
ステップ120では、ある再現行列Aが与えられる。この再現行列は、複数ソースの中のあるソースが、所定の出力形態のコンテキストの中でどこに位置すべきかを示す。ステップ121は、式(20)に示すような部分ダウンミックス行列D36の導出を示す。この行列は、6個の出力チャネルから3個のチャネルへのダウンミックス状況を反映し、3×Nの大きさを持つ。例えば8チャネル出力形態7.1等のような、5.1構成よりも多い出力チャネルを生成したい場合には、ブロック121で決定される行列はD38行列となる。ステップ122では、減数された再現行列A3が、掛け算行列D36とステップ120で定義された完全な再現行列とにより生成される。ステップ123では、ダウンミックス行列Dが導入される。このダウンミックス行列Dは、符号化されたオーディオオブジェクト信号の中にこの行列Dが完全に含まれている時、このオーディオオブジェクト信号から復活させることが可能である。代わりに、このダウンミックス行列Dは、例えば特定のダウンミックス情報とダウンミックス行列Gに関してパラメータ化されても良い。
【0108】
さらに、ステップ124ではオブジェクトエネルギー行列が与えられる。このオブジェクトエネルギー行列は、N個のオブジェクトのためのオブジェクトパラメータにより反映され、かつ取り込まれたオーディオオブジェクトから抽出されるか、所定の再構成規則を用いて再構成されることができる。この再構成規則は、エントロピー復号化を含んでも良い。
【0109】
ステップ125では、「減数された」予測行列C3が定義される。この行列の値は、ステップ125に示す線形方程式のシステムを解くことで計算できる。具体的には、行列C3の要素は、方程式の両側に(DED*)の逆を掛け算することで計算できる。
【0110】
ステップ126では、変換行列Gが計算される。変換行列Gは、K×Kの大きさを持ち、かつ式(25)に定義するように生成される。ステップ126の方程式を解くために、ステップ127で示したように特定の行列DTTTが与えられる。この行列の例として式(24)が挙げられ、式(22)に定義されたようなCTTTに対応する式から、その定義を導くことができる。よって、式(22)は、ステップ128において何を準備すべきかを定義している。ステップ129は、行列CTTTを計算するための方程式を定義する。ブロック129内の方程式に従って行列CTTTが決定されるとすぐに、CPCパラメータであるパラメータα,β,γが出力可能となる。好ましくは、γは1に設定され、ブロック71に入力される残りのCPCパラメータはα,βだけとなる。
【0111】
図7に示す枠組みにとって必要となる残りのパラメータは、ブロック74a,74b,74cに入力されるパラメータである。これらのパラメータの計算については、図13Aを参照しながら説明する。ステップ130では、再現行列Aが与えられる。この再現行列Aの大きさは、オーディオオブジェクト数のN個の行と、出力チャネル数のM個の列である。この再現行列は、ある場面ベクトルが使用された場合、この場面ベクトルからの情報を含む。一般的には、再現行列は、1つのオーディオソースを1つの出力設定の中である所定の位置に配置するための情報を含む。例えば式(19)の下方に記載した再現行列Aを考える時、オーディオオブジェクトの所定の配置が、この再現行列の内部でどのように符号化されるかが明らかになる。当然ながら、1とは異なる値によって示す等、ある所定の配置を示す他の方法も使用可能である。さらには、一方では1よりも小さな値を使用し、他方では1よりも大きな値を使用する場合には、所定のオーディオオブジェクトのラウドネスは相応の影響を受けることがある。
【0112】
ある実施例においては、再現行列は復号器側で、符号器側からの情報が全くない状態で生成される。この場合、ユーザーは、オーディオオブジェクトの符号器設定内での空間的関係を何ら考慮せずに、ユーザーの好みの位置にオーディオオブジェクトを配置できる。他の実施例においては、オーディオソースの相対的又は絶対的な配置が符号器側で符号化され、復号器に対して一種の場面ベクトルとして伝送される。その後、好ましくは目標オーディオ再現設定から独立したオーディオソースの配置に係るこの情報は、復号器側において処理され、その結果、特定のオーディオ出力形態に対してカスタマイズされたオーディオソースの配置を反映する、ある再現行列を作り出す。
【0113】
ステップ131では、図12のステップ124に関連して上述したオブジェクトエネルギー行列Eが供給される。この行列はN×Mの大きさを持ち、オーディオオブジェクトパラメータを含む。ある実施例においては、このようなオブジェクトエネルギー行列が、各サブバンドと時間ドメインサンプル又はサブバンドドメインサンプルの各ブロックとに対して供給される。
【0114】
ステップ132では、出力エネルギー行列Fが計算される。Fは出力チャネルの共分散行列である。しかし、出力チャネルは未知の状態であるため、出力エネルギー行列Fは再現行列とエネルギー行列とを用いて計算される。これらの行列はステップ130と131において供給され、復号器側においていつでも利用可能である。その後、上述の(15)、(16)、(17)、(18)、(19)で具体的に示した式を用いてチャネルレベル差パラメータCLD0, CLD1, CLD2 とチャネル間コヒーレンスパラメータICC1, ICC2とが計算され、ボックス74a,74b,74cのためのパラメータが利用可能となる。重要な点は、空間パラメータは出力エネルギー行列Fの特定の要素を結合することで計算される点である。
【0115】
ステップ133の後では、図7に概略的に示す空間アップミキサのようなある空間アップミキサのために、全てのパラメータが利用可能となる。
【0116】
上述の実施例においては、オブジェクトパラメータはエネルギーパラメータとして与えられていた。しかし、オブジェクトパラメータが予測パラメータとした場合、即ち、図12内の項目124aで示すオブジェクト予測行列Cとして与えられる場合には、減数された予測行列C3の計算は、ブロック125a内に示されかつ式(32)に関連して説明したような行列の掛け算に過ぎない。ブロック125a内で使用される行列A3は、図12のブロック122で説明した行列A3と同じである。
【0117】
オブジェクト予測行列Cがオーディオオブジェクト符号器により生成され、復号器へと伝送される時、ボックス74a,74b,74cのためのパラメータを生成するための追加的な計算が必要となる。これらの追加的なステップは図13Bに示す。図13B内の124aで示すようにオブジェクト予測行列Cが供給されるが、この行列は図12のブロック124aに関連して説明した行列と同じである。その後、式(31)に関連して説明したように、オブジェクトダウンミックスの共分散行列Zが、伝送されたダウンミックスを用いて計算されるか又は生成され、追加のサイド情報として伝送される。行列Zの情報が伝送された時、ある種の遅延処理を内在的に導入しかつ復号器側の処理の負担を増大させるようないかなるエネルギー計算をも、復号器は必ずしも実行する必要がない。しかし、これらのエネルギー計算は、ある適用例においては決定的な問題とはならず、その場合には伝送帯域幅を節減することができ、かつオブジェクトダウンミックスの共分散行列Zもまた、当然ながら復号器側で有効であるダウンミックスサンプルを用いて計算することができる。ステップ134が完了し、オブジェクトダウンミックスの共分散行列が準備されると直ぐに、ステップ135に示すように、予測行列Cとダウンミックス共分散行列又は「ダウンミックスエネルギー」行列Zとを用いて、オブジェクトエネルギー行列Eが計算できる。このステップ135が完了すると直ぐに、図13Aに関連して説明したステップ132、133等の全てのステップが、図7のブロック74a,74b,74cのための全てのパラメータを生成するために実行可能となる。
【0118】
図16は、ステレオ再現だけを必要とする、さらなる実施例を示す。このステレオ再現は、図11のモード番号5又は行115により供給された出力である。この例では、図10の出力データ合成器100にとっては、いかなる空間アップミックスパラメータも目的ではなく、オブジェクトダウンミックスを、活用性に優れかつ当然ながら感応性にも制御性にも優れたステレオダウンミックスへと変換するための、ある特定の変換行列Gを得ることが主目的である。
【0119】
図16のステップ160においては、M→2の部分ダウンミックス行列が計算される。6個の出力チャネルの場合には、部分ダウンミックス行列は6→2チャネルのダウンミックス行列になるであろうが、他のダウンミックス行列も同様に利用可能である。この部分ダウンミックス行列の計算は、例えば図12のステップ121で生成された部分ダウンミックス行列D36及びステップ127で使用された行列DTTTから導出されても良い。
【0120】
さらに、ステップ161に示されるように、ステレオ再現行列A2がステップ160の結果と「大きな」再現行列Aとを用いて生成される。この再現行列Aは、図12のブロック120に関連して説明した行列と同じである。
【0121】
その後、ステップ162において、ステレオ再現行列は配置パラメータμとκとによりパラメータ化されても良い。μが1に設定されκも1に設定された場合、式(33)が得られ、式(33)の関連で説明した例における音声の音量を変えることが可能になる。しかし、μとκ以外のパラメータが使用される場合にも、ソースの配置を同様に変えることができる。
【0122】
このように、ステップ163において、式(35)を用いて変換行列Gが計算される。特に、行列(DED*)が計算されて逆転され、その逆行列はブロック163の式の右側に対して掛け算することができる。当然ながら、ブロック163の式を解くための他の方法も適用できる。その後、変換行列Gが生成され、ブロック164に示すように、変換行列とオブジェクトダウンミックスとを掛け算することで、オブジェクトダウンミックスXを変換することができる。その後、変換されたダウンミックスX’は、2つのステレオスピーカを用いてステレオ再現できる。実施形態によるが、変換行列Gを計算するために、μ,ν,κのための所定の値を設定することができる。代わりに、変換行列Gは、これら3つの全てのパラメータを変数として用いることで計算することができ、この場合、これらのパラメータは、ステップ163の後でユーザーが自由に設定することができる。
【0123】
好ましい実施例では、複数の独立したオーディオオブジェクトを(多チャネルダウンミックスとこのオブジェクトを表現する追加的な制御データとを用いて)伝送し、さらに、オブジェクトを準備された再構成システム(スピーカ構成)へと再現するという課題を解決する。オブジェクトに関連する制御データを、再構成システムに対して互換性のある制御データへと修正する方法についての技術が導入される。この技術は、さらにMPEGサラウンド符号化の枠組みに基づく適切な符号化方法も提案している。
【0124】
本発明の方法のいくつかの実施条件にもよるが、本発明の方法及び信号は、ハードウエアにおいてもソフトウエアにおいても実現可能である。この実施の形態は、本発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働するデジタル記憶媒体、特にディスクやCDを用いて実行でき、その中に電子的に読出し可能な制御信号が格納される。したがって、一般に本発明は、機械読出し可能なキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法の少なくとも1つを実行するように動作する。換言すれば、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法を実行するためのプログラムコードを有するコンピュータプログラムである。
【0125】
本発明のある実施例によれば、複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号器は、複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するためのダウンミックス情報生成器と、オーディオオブジェクトのためのオブジェクトパラメータを生成するためのオブジェクトパラメータ生成器と、ダウンミックス情報とオブジェクトパラメータとを使用して符号化されたオーディオオブジェクト信号を生成するための出力インターフェースと、を備える。
【0126】
必要に応じて、前記出力インターフェースは、複数のダウンミックスチャネルを更に使用することで、符号化されたオーディオオブジェクト信号を生成しても良い。
【0127】
さらに、あるいは他の方法として、前記パラメータ生成器は、第1の時間及び周波数解像度を用いてオブジェクトパラメータを生成し、前記ダウンミックス情報生成器は、第2の時間及び周波数解像度を用いてダウンミックス情報を生成しても良い。このとき、第2の時間及び周波数解像度は、第1の時間及び周波数解像度より小さい。
【0128】
さらに、前記ダウンミックス情報生成器は、ダウンミックス情報がオーディオオブジェクトの全周波数帯域について同一であるように、ダウンミックス情報を生成しても良い。
【0129】
さらに、前記ダウンミックス情報生成器は、ダウンミックス情報が次式で定義されるダウンミックス行列を表現するように、ダウンミックス情報を生成しても良い。
X=DS
ここで、Sはオーディオオブジェクトを表現する行列であり、オーディオオブジェクトの数に等しい行数を持ち、Dはダウンミックス行列であり、Xは複数のダウンミックスチャネルを表現する行列であり、ダウンミックスチャネルの数に等しい行数を持つ。
【0130】
さらに、オーディオオブジェクトの一つの部分についての情報は、1よりも小さく0よりも大きい係数であっても良い。
【0131】
さらに、前記ダウンミキサは、背景音楽のステレオ表現を少なくとも2つのダウンミックスチャネルの中へと含めても良く、かつ音声トラックをこれら少なくとも2つのダウンミックスチャネルの中へ所定の比率で導入しても良い。
【0132】
さらに、前記ダウンミキサは、前記ダウンミックス情報に従って1つのダウンミックスチャネル内へと入力されるべき信号の追加を、サンプル単位で実行しても良い。
【0133】
さらに、前記出力インターフェースは、ダウンミックス情報とオブジェクトパラメータとのデータ圧縮を、符号化されたオーディオオブジェクト信号を生成する前に実行しても良い。
【0134】
さらに、前記複数のオーディオオブジェクトは、ある所定の非ゼロの相関関係を持つ2つのオーディオオブジェクトにより表現されるステレオオブジェクトを含んでいても良く、このとき、ダウンミックス情報生成器は、このステレオオブジェクトを形成する2つのオブジェクトを示すグループ化情報を生成しても良い。
【0135】
さらに、前記オブジェクトパラメータ生成器は、オーディオオブジェクトのためのオブジェクト予測パラメータを生成しても良く、この予測パラメータの計算は、予測パラメータにより制御されたあるソースオブジェクト又はそのソースオブジェクトのための重み付けされたダウンミックスチャネルの合計が、そのソースオブジェクトの近似となるように実行されても良い。
【0136】
さらに、前記予測パラメータは周波数帯域毎に生成されても良く、オーディオオブジェクトは複数の周波数帯域をカバーしても良い。
【0137】
さらに、オーディオオブジェクトの数はNに等しく、ダウンミックスチャネルの数はKに等しく、オブジェクトパラメータ生成器により計算されるオブジェクト予測パラメータの数はN・K以下であっても良い。
【0138】
さらに、オブジェクトパラメータ生成器は、最大でK・(N−K)個のオブジェクト予測パラメータを計算可能であっても良い。
【0139】
さらに、オブジェクトパラメータ生成器は、試験オブジェクト予測パラメータの様々なセットを用いて複数のダウンミックスチャネルをアップミックスするためのアップミキサを含んでいても良い。
【0140】
さらに、オーディオオブジェクト符号器は、試験オブジェクト予測パラメータの様々なセットの中から、アップミキサによって再構成されたソース信号と対応するオリジナルソース信号との間の偏差が最小となるような試験オブジェクト予測パラメータを発見するための、反復コントローラをさらに含んでもよい。
【0141】
さらに、出力データ合成器は、ダウンミックス情報を使用して変換行列を決定してもよく、この変換行列は、ステレオ面の第1半分を表す第1のダウンミックスチャネルに含まれるあるオーディオオブジェクトが、ステレオ面の第2半分において演奏されるべき時には、ダウンミックスチャネルの少なくとも一部が交換されるように計算される。
【0142】
さらに、オーディオ合成器は、空間パラメータと少なくとも2つのダウンミックスチャネル又は変換されたダウンミックスチャネルとを使用して、所定のオーディオ出力形態のためのオーディオ出力チャネルを再現するためのチャネル再現器(channel renderer)をさらに含んでいても良い。
【0143】
さらに、出力データ合成器は、少なくとも2つのダウンミックスチャネルを追加的に使用して、所定のオーディオ出力形態の出力チャネルを出力しても良い。
【0144】
さらに、出力データ合成器は、2つのチャネルの重み付けされた合計のエネルギーが限度ファクタ内でチャネルのエネルギーに等しくなるように、部分ダウンミックス行列の実際のダウンミックス重みを計算しても良い。
【0145】
さらに、出力データ合成器は、部分ダウンミックス行列のためのダウンミックス重みを次式により決定しても良く、
ここで、wpはダウンミックス重みであり、pは整数のインデックス変数、fj,iは所定の出力形態の出力チャネルの共分散行列の近似を表すエネルギー行列の行列要素である。
【0146】
さらに、出力データ合成器は、ある線形方程式のシステムを解くことで、予測行列の個々の係数を計算しても良い。
【0147】
さらに、出力データ合成器は、次式に基づいて前記線形方程式のシステムを解法しても良く、
C3(DED*)=A3ED*,
ここで、C3は2→3の予測行列、Dはダウンミックス情報から導出されたダウンミックス行列、Eはオーディオソースオブジェクトから導出されたエネルギー行列、A3は減数された再現行列、記号* は複素共役演算子である。
【0148】
さらに、2→3のアップミックスのための予測パラメータは、予測行列が2つのパラメータだけを用いて定義されるように、この予測行列のパラメータ化から導出されても良く、出力データ合成器は、少なくとも2つのダウンミックスチャネルを前処理し、この前処理とパラメータ化された予測行列の結果が、所望のアップミックス行列へと一致するようにしても良い。
【0149】
さらに、予測行列のパラメータ化は次式の通りであっても良く、
このとき、TTTはパラメータ化された予測行列のインデックス、α、β、γは係数である。
【0150】
さらに、ダウンミックス変換行列Gは次式のように計算されても良く、
G=DTTTC3
ここで、C3は2→3の予測行列であり、DTTTとCTTTの積はIに等しく、Iは2×2の恒等行列であり、CTTTは次式に基づくものであり、
ここで、α、β、γは定数ファクタである。
【0151】
さらに、2→3のアップミックスのための予測パラメータはαとβと1に設定されたγとから決定されても良い。
【0152】
さらに、出力データ合成器は、3→6のアップミックスのためのエネルギーパラメータを、エネルギー行列Fを使用して次式に基づいて計算しても良く、
ここで、Aは再現行列、Eはオーディオソースオブジェクトから導出されたエネルギー行列、Yは出力チャネル行列、記号* は複素共役演算子である。
【0153】
さらに、出力データ合成器は、エネルギー行列の要素同士を組み合わせることで、エネルギーパラメータを計算しても良い。
【0154】
さらに、出力データ合成器は、次式に基づいてエネルギーパラメータを計算しても良く、
ここで、φは絶対値φ(z)=|z|又は実数値演算子φ(z)=Re{z}であり、CLD0は第1のチャネルレベル差エネルギーパラメータ、CLD1は第2のチャネルレベル差エネルギーパラメータ、CLD2は第3のチャネルレベル差エネルギーパラメータ、ICC1は第1のチャネル間コヒーレンスエネルギーパラメータ、ICC2は第2のチャネル間コヒーレンスエネルギーパラメータ、fijはエネルギー行列Fの位置i,jにおける要素を示す。
【0155】
さらに、パラメータの第1のグループはエネルギーパラメータを含んでいても良く、出力データ合成器はエネルギー行列Fの要素を組み合わせることで、このエネルギーパラメータを導出しても良い。
【0156】
さらに、エネルギーパラメータは次式に基づいて導出されても良く、
ここで、CLD0TTTはパラメータの第1グループの第1エネルギーパラメータであり、CLD1TTTはパラメータの第1グループの第2のエネルギーパラメータである。
【0157】
さらに、出力データ合成器は、ダウンミックスチャネルを重み付けするための重み付けファクタを計算しても良く、この重み付けファクタは、空間復号器の任意のダウンミックスゲインファクタを制御するために使用される。
【0158】
さらに、出力データ合成器は、重みファクタを次式に基づいて計算しても良く、
このとき、Dはダウンミックス行列、Eはオーディオソースオブジェクトから導出されたエネルギー行列、Wは中間行列、D26は所定の出力形態の6→2チャネルのダウンミキシングのための部分ダウンミックス行列、Gは空間復号器の任意のダウンミックスゲインファクタを含む変換行列である。
【0159】
さらに、出力データ合成器は、エネルギー行列を次式に基づいて計算しても良く、
E=CZC*
このときEはエネルギー行列であり、Cは予測パラメータ行列であり、Zは少なくとも2つのダウンミックスチャネルの1つの共分散行列である。
【0160】
さらに、出力データ合成器は、変換行列を次式に基づいて計算しても良く、
G=A2・C
ここで、Gは変換行列であり、A2は部分再現行列であり、Cは予測パラメータ行列である。
【0161】
さらに、出力データ合成器は、変換行列を次式に基づいて計算しても良く、
G(DED*)=A2ED*
ここで、Gはトラックのオーディオソースから導出されたエネルギー行列であり、Dはダウンミックス情報から導出されたダウンミックス行列であり、A2は減数された再現行列であり、記号* は複素共役演算子である。
【0162】
さらに、パラメータ化されたステレオ再現行列A2は次式に基づいて計算されても良く、
ここで、μ、ν、κは1つ以上のオーディオソースオブジェクトの位置と音量とに従う実数値パラメータである。
【符号の説明】
【0163】
90 オーディオオブジェクト
92 ダウンミキサ
93 ダウンミックスチャネル
94 オブジェクトパラメータ生成器
95 オブジェクトパラメータ
96 ダウンミックス情報生成器
97 ダウンミックス情報
98 出力インターフェース
99 符号化されたオーディオオブジェクト信号
100 出力データ合成器
101 オーディオオブジェクト符号器
【技術分野】
【0001】
本発明は、有効な多チャネルダウンミックスと追加的制御データとに基づく、符号化された多オブジェクト信号からの多オブジェクトの復号化に関する。
【背景技術】
【0002】
オーディオ技術における近年の発展により、ステレオ(又はモノラル)信号及び対応する制御データに基づいて、オーディオ信号の多チャネル表現を再生することが可能となった。これらパラメトリックサラウンド符号化の方法は、通常はパラメータ化を含んでいる。パラメトリック多チャネルオーディオ復号器(例えばISO/IEC23003-1の非特許文献1及び非特許文献2に定義されるようなMPEGサラウンド復号器)は、伝送されたK個のチャネルに基づいてM個のチャネルを再生する。ここで、M>Kであり、追加の制御データが使用される。この制御データは、IID(チャネル間強度差)及びICC(チャネル間コヒーレンス)に基づく多チャネル信号のパラメータ化からなる。これらのパラメータは、通常、符号化の段階で抽出され、アップミックスの過程におけるチャネル・ペア間のパワー比及び相関関係を表わしている。このような復号化の枠組みを使用することで、符号化において、M個の全てのチャネルを伝送する場合に比べてかなり低いデータレートを達成できるため、符号化をきわめて効率的にすると同時に、Kチャネルの装置とMチャネルの装置との両方への互換性を保証している。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, and K. Kjorling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding," in 28th International AES Conference, The Future of Audio Technology Surround and Beyond, Pitea, Sweden, June 30-July 2, 2006.
【非特許文献2】J. Breebaart, J. Herre, L. Villemoes, C. Jin, , K. Kjorling, J. Plogsties, and J. Koppens, "Multi-Channels goes Mobile: MPEG Surround Binaural Rendering," in 29th International AES Conference, Audio for Mobile and Handheld Devices, Seoul, Sept 2-4, 2006.
【非特許文献3】C. Faller, “Parametric Joint-Coding of Audio Sources,” Convention Paper 6752 presented at the 120th AES Convention, Paris, France, May 20-23, 2006.
【非特許文献4】E. Schuijers, J. Breebart, and H. Purnhagen “Low complexity parametric stereo coding” Proc 116th AES convention Berlin, Germany 2004, Preprint 6073
【特許文献】
【0004】
【特許文献1】C. Faller, “Parametric Joint-Coding of Audio Sources,” Patent application PCT/EP2006/050904, 2006.
【発明の概要】
【発明が解決しようとする課題】
【0005】
非常に関連する符号化システムとして、非特許文献3と特許文献1に開示された対応するオーディオオブジェクト符号器が挙げられる。この中では、複数のオーディオオブジェクトが符号器でダウンミックスされ、その後、制御データに従ってアップミックスされる。このアップミックスの過程は、ダウンミックスにおいてミキシングされたオブジェクトの分離過程としても見ることができる。その結果として得るアップミックスされた信号は、1つ又は複数の再生チャネルへと再現される。さらに詳しく言えば、非特許文献3及び特許文献1は、(合計信号と呼ばれる)ダウンミックスからのオーディオチャネルと、ソースオブジェクトに関する統計的な情報と、好ましい出力フォーマットを表すデータとを統合する方法を提供している。複数のダウンミックス信号が使用される場合には、これらのダウンミックス信号はオブジェクトの様々なサブセットから成り、かつアップミックスは各ダウンミックスチャネルについて個別に実行される。本発明が提供する新たな方法においては、アップミックスが全てのダウンミックスチャネルについて合同的(jointly)に実行される。オブジェクト符号化の方法として、本発明の以前には、複数のチャネルを備えるダウンミックスを合同的に復号化するための解決方法を提供するものが存在しなかった。
【課題を解決するための手段】
【0006】
本発明の第1の実施形態は、符号化されたオーディオオブジェクト信号を使用して出力データを生成するオーディオ合成器であって、所定のオーディオ出力形態を持ちかつ複数のオーディオオブジェクトを表す複数の出力チャネルを再現するために、使用可能な出力データを生成する出力データ合成器を含み、当該出力データ合成器は、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードすることを特徴とする、オーディオ合成器である。
【0007】
本発明の第2の実施形態は、符号化されたオーディオオブジェクト信号を用いて出力データを生成するためのオーディオ合成方法において、複数のオーディオオブジェクトを表す所定のオーディオ出力形態の複数の出力チャネルを作り出すために用いられる前記出力データを生成する工程を含み、その工程は、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードすることを特徴とする、オーディオ合成方法である。
【0008】
本発明の第3の実施形態は、複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号器であって、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するためのダウンミックス情報生成器であって、前記少なくとも2つのダウンミックスチャネルのパワー特性と相関関係特性とをそれぞれ示すパワー情報と相関関係情報とを生成する、ダウンミックス情報生成器と、前記オーディオオブジェクトのためのオブジェクトパラメータを生成するためのオブジェクトパラメータ生成器と、前記ダウンミックス情報と前記パワー情報と前記相関関係情報と前記オブジェクトパラメータとを含む前記符号化されたオーディオオブジェクト信号を生成するための出力インターフェースと、を備えたことを特徴とするオーディオオブジェクト符号器である。
【0009】
本発明の第4の実施形態は、複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号化方法であって、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するステップと、前記少なくとも2つのダウンミックスチャネルのパワー特性と相関関係特性とをそれぞれ示すパワー情報と相関関係情報とを生成するステップと、前記オーディオオブジェクトのためのオブジェクトパラメータを生成するステップと、前記パワー情報と前記相関関係情報と前記ダウンミックス情報と前記オブジェクトパラメータとを含む、前記符号化されたオーディオオブジェクト信号を生成するステップと、を備えたことを特徴とするオーディオオブジェクト符号化方法である。
【0010】
本発明の第5の実施形態は、複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記少なくとも2つのダウンミックスチャネルのパワー特性及び相関関係特性をそれぞれ示すパワー情報及び相関関係情報と、オブジェクトパラメータとを含む符号化されたオーディオオブジェクト信号を記憶した、コンピュータにより読み出し可能な記憶媒体であって、前記オブジェクトパラメータと前記少なくとも2つのダウンミックスチャネルとを使用して前記オーディオオブジェクトの再構成が可能となるように、前記オブジェクトパラメータが設定されている記憶媒体である。
【0011】
本発明の実施例を添付の図面を参照しながら以下に説明するが、これらの図面は本発明の範囲や思想を限定するものではない。
【図面の簡単な説明】
【0012】
【図1A】符号化と復号化とを含む空間オーディオオブジェクト符号化の動作を示した図である。
【図1B】MPEGサラウンド復号器を再使用する空間オーディオオブジェクト符号化の動作を示した図である。
【図2】空間オーディオオブジェクト符号化の動作を示した図である。
【図3】オーディオオブジェクトパラメータ抽出器のエネルギーベースのモードにおける動作を示した図である。
【図4】オーディオオブジェクトパラメータ抽出器の予測ベースのモードにおける動作を示した図である。
【図5】SAOC(空間オーディオオブジェクト符号化)からMPEGサラウンドへのトランスコーダの構造を示した図である。
【図6】ダウンミックス変換器の様々な作動モードを示した図である。
【図7】ステレオダウンミックスのためのMPEGサラウンド復号器の構造を示した図である。
【図8】SAOC符号器を含む現実の使用状況を示した図である。
【図9】符号器の実施例を示した図である。
【図10】復号器の実施例を示した図である。
【図11】様々な好ましい復号器/合成器のモードを示すための表である。
【図12】所定の空間アップミックスパラメータを計算するための方法を示した図である。
【図13A】追加的な空間アップミックスパラメータを計算するための方法を示した図である。
【図13B】予測パラメータを使用した計算方法を示した図である。
【図14】符号器/復号器システムの概略図である。
【図15】オブジェクト予測パラメータを計算するための方法を示した図である。
【図16】ステレオ再現の方法を示した図である。
【発明を実施するための形態】
【0013】
後述する実施例は、本発明が提供する多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現の原理を説明するための、単に例示的な実施例である。ここに示す形態及び詳細の修正あるいは変形が可能であることは、当業者には明らかである。従って、本発明の趣旨は特許請求の範囲の記載によってのみ限定されるものであり、以下の明細書に記載する具体的な詳細説明によって限定されるものではない。
【0014】
本発明の好ましい実施の形態は、オブジェクト符号化の枠組みの機能性と多チャネル復号器の再現能力とを組み合わせた、符号化の枠組みを提供する。伝送された制御データは個々のオブジェクトに関連するものであり、従って空間的な位置やレベルに関しては、復元する際には手動操作が可能となる。そのため、制御データは所謂、場面描写に直接的に関連し、各オブジェクトの位置決めに関する情報を与える。場面描写は、復号器側でリスナーによって相互作用的に制御されても良いし、あるいは符号器側で製作者によって制御されても良い。
【0015】
本発明が示すトランスコーダの段階は、オブジェクトに関連する制御データとダウンミックス信号とを変換し、復元システム、例えばMPEGサラウンド復号器に関連する制御データとダウンミックス信号とを得るために使用される。
【0016】
本発明の符号化の枠組の中では、符号器において利用可能なダウンミックスチャネルの中に、オブジェクトを任意の方法で分配することができる。トランスコーダは多チャネルダウンミックス情報をそのまま使用し、トランスコードされたダウンミックス信号とオブジェクトに関連する制御データとを供給する。この手段により、復号器におけるアップミキシングは、非特許文献3に開示されたように全てのチャネルについて個々に実行されるのではなく、全てのダウンミックスチャネルが1つの単一アップミキシング工程において同時に処理される。本発明の新たな枠組みの中では、多チャネルダウンミックス情報は制御データの一部分であり、オブジェクト符号器によって符号化される。
【0017】
オブジェクトをダウンミックスチャネルへと分配する際には、自動的に分配されても良いし、符号器側の設計に合わせて分配されても良い。後者の場合には、ダウンミックスが既存の多チャネル復元の枠組み(例えばステレオ復元システム)に対しても適合するように設計することができる。即ち、復元を主眼とし、トランスコード化及び多チャネル復号化段階を省略するような枠組みにも適合するよう設計することができる。この適合性は、単一のダウンミックスチャネルから構成されるかあるいはソースオブジェクトのサブセットを有する複数のダウンミックスチャネルから構成される従来技術による符号化の枠組みと比較して、さらに有利といえる。
【0018】
従来技術によるオブジェクト符号化の枠組みにおける復号化の過程では、単一のダウンミックスチャネルを使用していたが、本発明にかかる方法においてはこのような制限を受けることはない。なぜなら、本発明の方法では、複数チャネルのダウンミックスを含むダウンミックスを合同して復号化するからである。オブジェクトを分離する際に取得可能となる品質は、ダウンミックスチャネルの数が増大するにつれて高くなる。ゆえに、本発明は、単一のモノラルダウンミックスチャネルを有するオブジェクト符号化の枠組みと、多チャネル符号化の枠組みであって各オブジェクトが別々のチャネルによって伝送される枠組みとの間のギャップを埋める役割を果たす。従って本発明が提案する枠組みでは、個々のオブジェクトの品質について、適用条件と伝送システムの特性(例えばチャネル容量等)とに基づいて、柔軟なスケーリングが可能となる。
【0019】
さらに、従来のオブジェクト符号化の枠組みのように、場面描写を強度の違いに限定することなく、複数のダウンミックスを使用することで、個々のオブジェクト間の相関関係を追加的に考慮することが可能となるので、有利である。従来技術の枠組みは、全てのオブジェクトが独立しており、互いに相関関係がない(クロス相関ゼロ)であるという仮定の上に成り立っている。しかし、現実には、例えばステレオ信号の左と右のチャネルのように、オブジェクト間に相関関係がないという可能性は少ない。本発明のように、描写(制御データ)の中に相関関係を組み入れることで、描写がより完全なものとなり、その結果、オブジェクトを分離する能力をさらに高めることになる。
【0020】
本発明の好ましい実施の形態は、以下の特徴のうちの少なくとも1つを含む。多チャネルダウンミックスとオブジェクトを表す追加的制御データとを使用して、複数の個々のオーディオオブジェクトを伝送しかつ作り出すシステムであって、複数のオーディオオブジェクトを、多チャネルダウンミックス、その多チャネルダウンミックスについての情報、及びオブジェクトパラメ―タへと符号化するための空間オーディオオブジェクト符号器を備えるか、又は、多チャネルダウンミックス、その多チャネルダウンミックスについての情報、オブジェクトパラメ―タ、及びオブジェクト再現行列をオーディオ復元に適した第2の多チャネルオーディオ信号へと復号化するための空間オーディオオブジェクト復号器と、を備える。
【0021】
図1Aは空間オーディオオブジェクト符号化(SAOC)の作動を示す図であり、SAOC符号器101とSAOC復号器104とが含まれる。SAOC符号器101は、符号化パラメータに従って、N個のオブジェクトを、K個(K>1)のオーディオチャネルから成る1つのオブジェクトダウンミックスへと符号化する。ダウンミックスのパワーと相関関係に関する任意のデータと共に、適用されたダウンミックス重み行列Dに関する情報がこのSAOC符号器から出力される。この行列Dは、必ずしも常にというわけではないが、多くの場合には時間と周波数とに関して一定である。従って、比較的少量の情報を表している。最後に、SAOC符号器は各オブジェクトについて、時間及び周波数の両方の関数としてのオブジェクトパラメータを、知覚を考慮して定義された解像度で抽出する。SAOC復号器104は、(符号器によって生成された)オブジェクトダウンミックスチャネルと、ダウンミックス情報と、オブジェクトパラメータとを入力として取り入れ、M個のオーディオチャネルを有する出力を、ユーザーに対する表示のために生成する。N個のオブジェクトからM個のオーディオチャネルへの再現は、SAOC復号器へのユーザー入力として与えられる再現行列(rendering matrix)を利用している。
【0022】
図1BはMPEGサラウンド復号器を使用する空間オーディオオブジェクト符号化の作動を示した図である。本発明に従うSAOC復号器104は、SAOCからMPEGサラウンドへのトランスコーダ102と、ステレオダウンミックスに基づくMPEGサラウンド復号器103として実現できる。M×Nの大きさを持つユーザーにより制御される再現行列Aが、N個のオブジェクトからM個のオーディオチャネルへの目標再現を定義する。この行列は時間と周波数との両方に依存することが可能であり、この行列は、オーディオオブジェクト操作(外部から与えられる場面描写も利用可能である)のためのユーザーにとってより好ましいインターフェースの最終的な出力となる。5.1スピーカのセットアップの場合には、出力オーディオチャネルの数はM=6である。SAOC復号器の役割は、元のオーディオオブジェクトの目標再現を知覚的に再現することである。SAOCからMPEGサラウンドへのトランスコーダ102は、再現行列Aと、オブジェクトダウンミックスと、ダウンミックス重み行列Dを含むダウンミックス・サイド情報と、オブジェクト・サイド情報とを入力として取り込み、ステレオダウンミックスとMPEGサラウンド・サイド情報とを生成する。このトランスコーダを本発明に従って構成した場合には、これらのデータを与えられた後続のMPEGサラウンド復号器103はMチャネルのオーディオ出力を好適な特性とともに生成するであろう。
【0023】
図2は本発明に従う空間オーディオオブジェクト(SAOC)符号器101の作動を示す。N個のオーディオオブジェクトが、ダウンミキサ201とオーディオオブジェクトパラメータ抽出器202との両方に入力される。ダウンミキサ201は、符号器パラメータに従って、入力されたオブジェクトをミキシングし、K個(K>1)のオーディオチャネルから成る一つのオブジェクトダウンミックスを出力するとともに、ダウンミックス情報をも出力する。このダウンミックス情報は、適用されたダウンミックス重み行列Dに関する記述を含み、さらに、後続のオーディオオブジェクトパラメータ抽出器が予測モードで動作する場合には、オブジェクトダウンミックスのパワーと相関関係とを示すパラメータを含んでも良い。後述するように、このような追加的なパラメータの役割は、オブジェクトパラメータの表現がダウンミックスに対する相対的な表現だけである場合、即ち5.1スピーカのセットアップのための前/後のキューが第1の例として挙げられるような場合に、再現されるオーディオチャネルのサブセットのエネルギー及び相関関係に対してアクセスを提供することである。オーディオオブジェクトパラメータ抽出器202は、符号器パラメータに従ってオブジェクトパラメータを抽出する。この符号器制御は、時間と周波数とで変化する基準に基づいて、2つの符号器モードのうちの1つ、即ちエネルギーに基づくモードかあるいは予測に基づくモードのうちのいずれを適用するかを決定する。エネルギーに基づくモードにおいては、符号器パラメータは、N個のオーディオオブジェクトからP個のステレオオブジェクト及び(N−2P)個のモノラルオブジェクトへのグループ化に関する情報をさらに含む。各モードについては図3及び図4を用いてさらに詳細に説明する。
【0024】
図3はエネルギーに基づくモードで作動しているオーディオオブジェクトパラメータ抽出器202を示す。符号器パラメータに含まれるグループ化情報に従い、P個のステレオオブジェクト及び(N−2P)個のモノラルオブジェクトへのグループ化301が実行される。次に、対象となる各時間周波数区間に対し、以下の操作が実行される。即ち、ステレオパラメータ抽出器302により、P個のステレオオブジェクトの各個について、2つのオブジェクトパワーと1つの正規化された相関関係とが抽出される。また、モノラルパラメータ抽出器303により、(N−2P)個のモノラルオブジェクトの各個について、1つのパワーパラメータが抽出される。N個のパワーパラメータとP個の正規化された相関関係パラメータとからなる全体のセットは、グループ化データとともに次の符号化304において、オブジェクトパラメータを形成する。この符号化304は、最大のオブジェクトパワー又は抽出されたオブジェクトパワーの合計に関し、正規化ステップを含んでも良い。
【0025】
図4は予測に基づくモードで作動しているオーディオオブジェクトパラメータ抽出器202を示す。対象となる各時間周波数区間に対し、以下の操作が実行される。即ち、N個のオブジェクトの各個について、K個のオブジェクトダウンミックスチャネルの一次結合(linear combination)であって、最小自乗法(least squares sense)において所与のオブジェクトに適合するものが導出される。この一次結合のこれらK個の重みはオブジェクト予測係数(OPC)と呼ばれ、OPC抽出器401で算出される。N・K個のOPCからなる全体のセットは、次の符号化402においてオブジェクトパラメータを形成する。この符号化402は、一次相互依存性(linear interdependencies)に基づいて、OPCの全体数の減少を含んでも良い。本発明が教示するように、ダウンミックス重み行列Dが完全な階数(full rank)を有する場合には、この全体数をmax{K・(N-K), 0}まで削減することができる。
【0026】
図5は本発明が開示するSAOCからMPEGサラウンドへのトランスコーダ102の構成を示す。パラメータ計算器502により、時間周波数区間のそれぞれについて、ダウンミックス・サイド情報及びオブジェクトパラメータが再現行列と組み合わされ、タイプCLD,CPC,ICCのMPEGサラウンドパラメータと、2×Kのサイズを持つダウンミックス変換行列Gとが形成される。ダウンミックス変換器501は、行列Gに従う行列動作を適用することで、オブジェクトダウンミックスをステレオダウンミックスへと変換する。K=2である簡素なモードを有する変換器においては、この行列は恒等行列であり、オブジェクトダウンミックスはステレオダウンミックスとしてそのまま送られる。図5においては、このモードは選択切替器503がAの位置にある場合として示され、他方、通常の作動モードは切替器がBの位置にある場合として示される。本発明のトランスコーダのさらなる利点は、独立形適用(stand alone application)として、即ちMPEGサラウンドパラメータが無視されかつダウンミックス変換器の出力がステレオ再現に直接的に使用される場合であっても、このトランスコーダが使用できる点である。
【0027】
図6は本発明が開示するダウンミックス変換器501の様々な作動モードを示す。Kチャネルのオーディオ符号器から出力されたビットストリーム形式のオブジェクトダウンミックスが送信されたと仮定する。この場合、このビットストリームは、まずオーディオ復号器601によりK個の時間ドメインオーディオ信号へと復号化される。これらの信号は次に、T/Fユニット602内のMPEGサラウンドハイブリッドQMFフィルタにより、全て周波数ドメインへと変換される。その結果生成されるハイブリッドQMFドメイン信号に対し、変換器行列データで定義され時間及び周波数で変化する行列操作が、行列化ユニット603により実行され、行列化ユニット603はハイブリッドQMFドメインで1つのステレオ信号を出力する。ハイブリッド合成ユニット604は、このステレオハイブリッドQMFドメイン信号を、1つのステレオQMFドメイン信号へと変換する。ハイブリッドQMFドメインは、後続のQMFサブバンドのフィルタリングを用い、低周波に向かうより良好な周波数解像度を達成するために定義されている。この後続のフィルタリングがナイキストフィルタのバンクによって定義される場合には、ハイブリッドから標準QMFドメインへの変換は、単にハイブリッドサブバンド信号のグループを合計することから構成される(非特許文献4を参照)。この信号は、選択切替器607が位置Aにある場合の、ダウンミックス変換器の可能性のある第1の出力フォーマットを構成する。このようなQMFドメイン信号は、MPEGサラウンド復号器の対応するQMFドメインインターフェースへと、直接的に入力することができる。これは、遅延,複雑性,及び品質の観点から、最も有利な作動モードである。第2の可能性は、ステレオ時間ドメイン信号を得るために、QMFフィルタバンク合成605を実行することで達成される。選択切替器607が位置Bにある場合、変換器はデジタルオーディオステレオ信号を出力するが、この信号は後続のMPEGサラウンド復号器の時間ドメインインターフェースへと入力することができるか、あるいはステレオ再生装置によって直接的に再現することができる。第3の可能性は、選択切替器607が位置Cにある場合であり、時間ドメインステレオ信号をステレオオーディオ符号器606により符号化することで達成される。ダウンミックス変換器の出力フォーマットは、この場合はステレオオーディオビットストリームであり、MPEG復号器に含まれる中核の復号器に対して互換性を持つ。この第3の作動モードは、SAOCからMPEGサラウンドへのトランスコーダが、MPEG復号器とビットレートに関して制限を加えるような接続を介して分離されている場合か、又はユーザーが将来の再生のために特別なオブジェクト再現を記憶させたいと希望する場合にとって、好適である。
【0028】
図7はステレオダウンミックスのためのMPEGサラウンド復号器の構造を示す。ステレオダウンミックスは「2→3(TTT)」ボックスにより3つの中間チャネルへと変換される。これらの各中間チャネルは、「1→2(OTT)」ボックスにより2つに分かれ、5.1チャネル形式の6つのチャネルを生み出す。
【0029】
図8はSAOC符号器を含む現実的な使用例を示す。オーディオミキサ802は、ステレオ信号(L及びR)を出力するが、これらのステレオ信号は、典型的にはミキサの入力信号(ここでは入力チャネル1−6)と、例えば残響等の影響反射からの選択的な追加の入力との組合せにより構成される。ミキサは、さらにこのミキサからの個別チャネル(ここではチャネル5)をも出力する。この出力は、例えば「直接出力」又は「補助送信」等のように一般的に使用されるミキサ機能を用いて実行されても良く、何らかの挿入プロセス(例えばダイナミックプロセス及びEQ)に続いて個別チャネルが出力されても良い。前記ステレオ信号(L及びR)と個別チャネル出力(obj5)とは、SAOC符号器801へと入力されるが、この符号器は図1に示したSAOC符号器101の特別型に過ぎない。しかし、図8は、例えば会話等を含むオーディオオブジェクト(obj5)が、ステレオミックス(L及びR)の一部である一方で、復号器側においてユーザーによりレベル修正が制御可能であることを明確に示す。本発明の概念から、2つ以上のオーディオオブジェクトを符号器801内の「オブジェクト入力」パネルへと接続しても良いことは自明である。さらに、ステレオミックスは例えば5.1ミックスのような多チャネルミックスにより拡張されても良い。
【0030】
以下に、本発明を数学的に説明する。離散複素信号x,yについて、複素内積と自乗ノルム(エネルギー)は次の式で定義される。
ここで、
はy(k)の複素共役信号である。ここで考慮する全ての信号は、1つの修正フィルタバンクか、又は離散時間信号のウインドウ化されたFFT(高速フーリエ変換)分析からのサブバンドサンプルである。これらのサブバンドは、対応する合成フィルタバンク操作によって離散時間ドメインへと逆変換されなければならないことが知られている。L個のサンプルを持つ1つの信号ブロックは、時間及び周波数の1つの区間内における信号を表し、この区間は、信号特性を説明するために用いられた時間―周波数平面の知覚的動機に基づくタイル張りの一部である。この設定において、所与のオーディオオブジェクトは、1つの行列内の長さLを有するN行として次の式で表すことができる。
【0031】
K×Nの大きさを有しK>1であるダウンミクス重み行列Dが、次の行列の掛け算を通してK行を有する行列の形式でKチャネルダウンミックス信号を決定する。
【0032】
M×Nの大きさを有し、ユーザーにより制御されるオブジェクト再現行列Aが、次の行列の掛け算を通してM行を有する行列の形式でオーディオオブジェクトのMチャネル目標再現を決定する。
【0033】
ここで暫く中核のオーディオ符号化の影響を考慮せずにおくと、SAOC復号器の役割は、再現行列A、ダウンミックスX、ダウンミックス行列D及びオブジェクトパラメータを与えられたとして、原オーディオオブジェクトの目標再現Yの知覚的意味における近似を生成することである。
【0034】
本発明が教示するエネルギーモードにおけるオブジェクトパラメータは、原オブジェクトの共分散に関する情報を有する。後続の導出のために便利でありかつ典型的な符号器操作を説明できる決定版においては、この共分散は、行列の積SS*により非正規化された形式で与えられる。このとき星印は複素共役転位行列操作を示す。このようにして、エネルギーモードのオブジェクトパラメータは、できればあるスケールファクタまでは、次式(5)を満たすような半正定値(positive semi-definite)のN×Nの行列Eを供給する。
【0035】
従来技術によるオーディオオブジェクト符号化では、全てのオブジェクトに相互関係がないオブジェクトモデルを考慮して来た。この場合には、行列Eは対角行列であり、オブジェクトエネルギー
に対する近似だけを含む。図3に示すオブジェクトパラメータ抽出器は、このアイデアを具体化することに役立ち、相関関係がないとする仮定が成り立たないようなステレオ信号としてオブジェクトが供給される場合に、特に重要となる。オブジェクトのP個の選択されたステレオペアのグループ化は、インデックスのセット{(np,mp),p=1,2,...,P}で表現される。これらのステレオペアのために、相関関係<sn,sm>が計算され、次式(6)に示す正規化された相関関係(ICC)の複素数、実数、又は絶対値がステレオパラメータ抽出器302により抽出される。
復号器では、2Pの非対角エントリを有する行列Eを形成するために、ICCデータはエネルギーと組み合わされても良い。例えば、全体でN=3のオブジェクトであり、この内最初の2つが単一のペア(1,2)を構成するオブジェクトについては、送信されるエネルギー及び相関関係データはS1,S2,S3 及びρ1,2である。この場合、行列Eへの組合せにより、次の結果となる。
【0036】
本発明が教示する予測モードにおけるオブジェクトパラメータは、次式(7)で表すように、復号器にとって有効であるN×Kオブジェクト予測係数(OPC)行列Cを作り出すことを目的とする。
【0037】
換言すれば、各オブジェクトについて、そのオブジェクトが次式(8)により近似的に回復できるようなダウンミックスチャネルの一次結合が存在する。
【0038】
ある好ましい実施の形態においては、OPC抽出器401が次の正規方程式を解くか、
あるいは、より好ましい実数値のOPCの場合には、次式を解く。
【0039】
前記両方の場合において、実数値のダウンミックス重み行列Dと正則ダウンミックス共分散とを用いたと仮定すると、Dを左側から掛け算することにより、次式(11)となる。
ここで、Iは大きさKの恒等行列である。もしDが完全な階数を有する場合には、初歩的な線形代数により、式(9)の解のセットは、max{K・(N-K), 0}パラメータによりパラメータ化できることになる。この点は、OPCデータの結合符号化(joint encoding) 402の中で活用されている。復号器においては、完全な予測行列Cが、パラメータの減数されたセットとダウンミックス行列とから再形成可能となる。
【0040】
例えば、1つのステレオダウンミックス(K=2)について、1つのステレオ音楽トラック(S1,S2)と中央にパンされた単一楽器又は音声トラックS3とを備える3つのオブジェクト(N=3)がある場合を考える。このときダウンミックス行列は次式で与えられる。
【0041】
つまり、ダウンミックス左チャネルと右チャネルはそれぞれ
となる。単一トラックのためのOPCは、
を近似することを目的としており、上述の式(11)は、この場合、次式を達成するように解くことができる。
よって、満足するOPCの数はK(N-K)=2・(3-2)=2となる。
【0042】
オブジェクト予測係数(OPC)のC31,C32は次の正規方程式から導くことができる。
【0043】
SAOCからMPEGサラウンドへのトランスコーダ
【0044】
図7を参照すれば、5.1形式のM=6出力チャネルは、(y1,y2,...,y6)=(lf,ls,rf,rs,c,lfe)である。トランスコーダは、1つのステレオダウンミックス(l0,r0)と、TTT及びOTTボックスのためのパラメータとを出力しなければならない。ここではステレオダウンミックスに焦点を当てているので、以下の説明ではK=2と仮定する。オブジェクトパラメータとMPSのTTTパラメータとの両方が、エネルギーモードと予測モードとの両方で存在するので、4つの全ての組合せを考慮すべきである。エネルギーモードは、例えばダウンミックスオーディオ符号器が当該の周波数区間において波形符号器ではない場合に、適切な選択といえる。後述する説明から導出されるMPEGサラウンドパラメータが、伝送される前に適切に量子化されかつ符号化されなければならないことは公知である。
【0045】
前記4つの組合せをさらに明確に記載すれば、以下のようになる。
1.オブジェクトパラメータはエネルギーモードであり、トランスコーダは予測モードである。
2.オブジェクトパラメータはエネルギーモードであり、トランスコーダもエネルギーモードである。
3.オブジェクトパラメータは予測モード(OPC)であり、トランスコーダも予測モードである。
4.オブジェクトパラメータは予測モード(OPC)であり、トランスコーダはエネルギーモードである。
【0046】
ダウンミックスオーディオ符号器が当該の周波数区間において波形符号器である場合には、オブジェクトパラメータはエネルギーモードでも予測モードでも良いが、トランスコーダは好ましくは予測モードで作動すべきである。反対に、ダウンミックスオーディオ符号器が当該の周波数区間において波形符号器ではない場合には、オブジェクト符号器とトランスコーダとはエネルギーモードで作動すべきである。4番目の組合せはあまり適切ではないので、以下の説明では最初の3つの組合せについてだけ述べる。
【0047】
エネルギーモードで与えられたオブジェクトパラメータ
【0048】
エネルギーモードにおいては、トランスコーダに使用されるデータは3つのマトリクス(D,E,A)の組により記述される。MPEGサラウンドOTTパラメータは、伝送されたパラメータと6×Nの再現マトリクスAとから導出される仮想再現について、エネルギー及び相関関係の推定を実施することで取得できる。6つのチャネルの目標共分散は、次の式で与えられる。
【0049】
ここで、式(5)を式(13)に代入すると、次の近似が得られる。
この近似式は、使用可能なデータにより完全に定義される。fktがFの要素を表すものとすると、CLD及びICCは以下の式から読み取ることができる。
ここで、φは絶対値φ(z)=|z|又は実数値演算子φ(z)=Re{z}である。
【0050】
具体例として、前記式(12)に関連して前に説明した3つのオブジェクトの場合を考える。このとき、再現行列を次のように仮定する。
【0051】
このとき再現目標は、オブジェクト1を右前と右サラウンドとの間に配置し、オブジェクト2を左前と左サラウンドとの間に配置し、オブジェクト3を右前、中央、低周波強化の中に配置するものとする。さらに、簡素にするために、これら3つのオブジェクトは互いに相関関係がなく、全て同一のエネルギーを有するものとし、次のように仮定する。
【0052】
この場合、式(14)の右側は次のようになる。
【0053】
前記式(15)−(19)に対して適切な値を挿入すると、次の結果が得られる。
【0054】
その結果、MPEGサラウンド復号器は、右前と右サラウンドとの間ではある非相関化処理を使用し、左前と左サラウンドとの間では非相関化処理を使用しないように指示を受けるであろう。
【0055】
予測モードのMPEGサラウンドTTTパラメータにとって、第1のステップは、
である結合されたチャネル(l,r,qc)について、3×Nの大きさを持つ減数された再現行列A3を形成することである。このとき、A3=D36Aであり、6から3への部分ダウンミックス行列は次式で定義される。
【0056】
前記部分ダウンミックスの重みwp(p=1,2,3)は、wp(y2p-1+y2p)のエネルギーがある限度ファクタまではエネルギー||y2p-1||2+||y2||2の合計に等しくなるように調整される。部分ダウンミックス行列D36を導出するために必要な全てのデータは、Fにおいて使用可能である。
【0057】
次に、3×2の大きさを持つ予測行列C3が以下のように生成される。
【0058】
このような行列は、好ましくはまず次の正規方程式を考慮することで導出される。
C3(DED*)=A3ED*
【0059】
前記正規方程式の解は、オブジェクト共分散モデルEを与えられた場合、前記式(21)について可能な最良の波形適合を生成する。全体又は個別チャネル単位の予測損失補償のための行要素を含む、行列C3の後処理を行うことが好ましい。
【0060】
上述のステップを明確に理解するためには、上述した具体的な6チャネル再現例の続きを考慮すべきである。Fの行列要素に関して言えば、ダウンミックスの重みは次式の解であり、
上述の具体例においては次式となり、
次の結果となる。
これを上述の式(20)に代入すると、次式が得られる。
【0061】
次に(有限精度に切り換えると)、上述の式C3(DED*)=A3ED*のシステムを解くことで次式が得られる。
【0062】
この行列C3は、オブジェクトダウンミックスから結合チャネル(l,r,qc)への望ましいオブジェクト再現に対する近似を得るための最良の重みを包含する。しかし、行列操作のこの一般的なタイプは、MPEGサラウンド復号器により実行されることは不可能である。なぜなら、MPEGサラウンド復号器はたった2つのパラメータしか使用しないので、TTT行列のための大きさが制限されているからである。本発明のダウンミックス変換器の目的は、オブジェクトダウンミックスを前処理し、この前処理とMPEGサラウンドTTT行列との組合せ効果が、行列C3により示される望ましいアップミックスと同一となるようにすることである。
【0063】
MPEGサラウンドにおいては、(l0,r0) から(l,r,qc)を予測するためのTTT行列は、次式を介して3つのパラメータ(α,β,γ)によりパラメータ化される。
【0064】
本発明が教示するダウンミックス変換行列Gは、γ=1を選択し、次式のシステムを解くことで取得される。
【0065】
容易に証明できるように、上の式からDTTTCTTT=Iとなり、Iは2×2の恒等行列であり、次式が成り立つ。
【0066】
従って、式(23)の両側にDTTTを左側から行列掛け算を行うと、次式の結果となる。
【0067】
一般的な場合では、Gは反転可能であり、式(23)はDTTTCTTT=Iに従うCTTTについて唯一の解を持つ。TTTパラメータ(α,β)は、この解により決定される。
【0068】
前述した具体例について、その解が次のように得られることは容易に証明できる。
【0069】
ここで注意すべきは、ステレオダウンミックスの主要部分は、この変換行列のために右と左の間で入れ替わることである。これは、前記再現例では、左のオブジェクトダウンミックスチャネル内にあるオブジェクトが右の音声場面に位置するように再現され、その逆もまた然りとなるという事実を反映したものである。このような現象は、ステレオモードのMPEGサラウンド復号器からは得られない現象である。
【0070】
もしダウンミックス変換器を適用できない場合には、以下のような次善策をとることができる。エネルギーモードのMPEGサラウンドTTTパラメータに対しては、結合されたチャネル(l,r,c)のエネルギー配分が必要となる。ゆえに、関連するCLDパラメータはFの要素から次式を通じて直接導出することができる。
【0071】
この場合には、ダウンミックス変換器のため正のエントリを持つ対角行列Gだけを使用するのが良い。TTTアップミックスの前に、ダウンミックスチャネルの正確なエネルギー配分を達成することが可能になる。6から2へのチャネルダウンミックス行列D26=DTTTD36と、次式からの定義とを基にして、
次の行列を単純に選択できる。
【0072】
さらに、上述のような対角形式のダウンミックス変換器は、オブジェクトからMPEGサラウンドへのトランスコーダから省略することもでき、MPEGサラウンド復号器の任意のダウンミックスゲイン(ADG)パラメータを活性化することで実現できると考えられる。これらゲインは、ADGi=10log10(wii/zii) (i=1,2)によって、対数ドメインにおいて与えられるであろう。
【0073】
予測モード(OPC)で与えられたオブジェクトパラメータ
【0074】
オブジェクト予測モードにおいては、利用できるデータは行列の3つの組(D,C,A)によって表され、ここで、CはOPCのN個のペアを有するN×2の行列である。予測係数の相対的な特性により、エネルギーベースのMPEGサラウンドパラメータの推定にとっては、次式のようにオブジェクトダウンミックスの2×2の共分散行列への近似に対してアクセスを有することがさらに必要となる。
【0075】
この情報は、オブジェクト符号器からダウンミックス・サイド情報の一部として伝送されることが好ましいが、トランスコーダにおいて、受信されたダウンミックスについて測定された結果から推定することも可能であるし、近似オブジェクトモデルを考慮することにより(D,C)から間接的に導出することも可能であろう。Zが与えられた場合、オブジェクト共分散は予測モデルY=CXを挿入することで推定可能であり、次式が得られる。
E=CZC*
そして、全てのMPEGサラウンドOTTとエネルギーモードTTTのパラメータは、エネルギーベースのオブジェクトパラメータの場合と同様に、Eから推定可能である。しかし、OPCを使用する大きな利点は、予測モードのMPEGサラウンドTTTパラメータとの組合せにおいて発生する。この場合、波形近似
は、直ちに減数された予測行列
をもたらし、この予測行列からTTTパラメータ(α,β)とダウンミックス変換器とに到達するまでの残りのステップは、エネルギーモードで与えられたオブジェクトパラメータの場合と同様である。現実に、上述の式(22)から(25)までのステップは、完全に同一である。結果として生まれる行列Gはダウンミックス変換器へと入力され、TTTパラメータ(α,β)はMPEGサラウンド復号器へと伝送される。
【0076】
ステレオ再現のためのダウンミックス変換器の独立型適用
【0077】
上述した全ての場合において、ステレオダウンミックス変換器501へのオブジェクトは、オーディオオブジェクトの5.1チャネル再現のステレオダウンミックスに対する近似を出力する。このステレオ再現は、A2=D26Aにより定義される2×Nの行列A2により表現できる。多くの適用例において、このダウンミックスはそのもの自身の特性から興味深いるものであるし、ステレオ再現A2の直接的な操作も魅力的である。図解的な例として、ステレオトラックと、それに重畳され中央にパンされたモノラル音声トラックとが、図8に示しかつ式(12)で説明した特別な方法の場合に従って符号化された場合について考察する。音声音量のユーザーによる制御は、次式の再現により実現することができる。
ここで、νは音声と演奏曲との制御比率である。ダウンミックス変換行列の設計は、次式に基づく。
【0078】
予測ベースのオブジェクトパラメータについては、次の近似式
を単に挿入し、次の変換行列を得る。
エネルギーベースのオブジェクトパラメータについては、次の正規方程式を解けばよい。
【0079】
図9は本発明の1つの実施態様に従うオーディオオブジェクト符号器の好ましい一実施例を示す。このオーディオオブジェクト符号器101は、図8までの図面に関連して既に概略を説明したものと同様である。符号化されたオブジェクト信号を生成するためのオーディオオブジェクト符号器は、図9では、ダウンミキサ92とオブジェクトパラメータ生成器94とへの入力として示される、複数のオーディオオブジェクト90を使用する。オーディオオブジェクト符号器101は、ダウンミックス情報97を生成するためのダウンミックス情報生成器96をさらに備え、ダウンミックス情報97は、ダウンミキサ92からの出力として示される少なくとも2つのダウンミックスチャネル93に対する、前記複数のオーディオオブジェクトの配分を示している。
【0080】
オブジェクトパラメータ生成器は、オーディオオブジェクトのためのオブジェクトパラメータ95を生成する。このとき、オブジェクトパラメータは、これらのオブジェクトパラメータと少なくとも2つのダウンミックスチャネル93とを使用して、オーディオオブジェクトの再構成が可能となるように計算される。しかし重要なことは、この再構成は符号器側において実行されるのではなく、復号器側において実行されることである。とはいえ、符号器側のオブジェクトパラメータ生成器94は、復号器側でこの完全な再構成が可能となるように、オブジェクトのためのオブジェクトパラメータ95を計算する。
【0081】
オーディオブジェクト符号器101は、ダウンミックス情報97とオブジェクトパラメータ95とを使用して符号化されたオーディオオブジェクト信号99を生成するための、出力インターフェース98をさらに備えている。適用方法にも依るが、ダウンミックスチャネル93もまた使用され、符号化されたオーディオオブジェクト信号へと符号化されても良い。しかし、出力インターフェース98が、ダウンミックスチャネルを含まない符号化されたオーディオオブジェクト信号99を生成する場合もありうる。このような状況は、復号器側で使用されるべきあらゆるダウンミックスチャネルも既に復号器側に存在しており、オーディオオブジェクトのためのダウンミックス情報とオブジェクトパラメータとが、ダウンミックスチャネルから分離して伝送されるような場合に起こりうる。このような状況は、復号器側のユーザーが、オブジェクトパラメータ及びダウンミックス情報とは別に、オブジェクトダウンミックスチャネル93を安価で購入することができ、さらに、オブジェクトパラメータ及びダウンミックス情報を追加的な価格で購入することで、追加的な価値を得ることができる場合に有利となる。
【0082】
オブジェクトパラメータ及びダウンミックス情報がない場合には、ユーザーは、ダウンミックスに含まれるチャネルの数に依存して、ダウンミックスチャネルをステレオ又は多チャネルの信号として再現することができる。当然ながら、前記少なくとも2つの伝送されたオブジェクトダウンミックスチャネルを単に加算することで、ユーザーはモノラル信号を再現することも可能である。再現の柔軟性とリスニングの品質と使用性とを高めるために、オブジェクトパラメータ及びダウンミックス情報はユーザーに対し、例えばステレオシステム、多チャネルシステム、あるいは波面合成システムさえ含むような、どのように意図されたオーディオ復元設定においても、オーディオオブジェクトの柔軟な再現を可能にする。波面合成システムはまだ一般的に普及してはいないが、5.1システム又は7.1システムのような多チャネルシステムは、消費者市場に日増しに普及しつつある。
【0083】
図10は出力データを生成するためのオーディオ合成器(audio synthesizer)を示し、このオーディオ合成器は出力データ合成器100を含む。出力データ合成器は、入力として、ダウンミックス情報97と、オーディオオブジェクトパラメータ95とを受け取り、さらにおそらくは、符号105で示すように、例えばソースが再現された時にあるべきオーディオソースの位置又はユーザーから特定された特定ソースの音量等のような、目標オーディオソースデータを受け取る。
【0084】
出力データ合成器100は、複数のオーディオオブジェクトを表現する、所定のオーディオ出力形態(audio output configuration)の複数の出力チャネルを再現するために使用できる出力データを生成する。特に、出力データ合成器100は、ダウンミックス情報97とオーディオオブジェクトパラメータ95とを使用して作動する。後で図11を参照しながら説明するが、この出力データは様々に異なる適用方法を有するデータであって良い。即ち、出力チャネルの特定の再現を含む適用方法や、ソース信号の再構成だけを含む適用方法や、あるいは、出力チャネルの特定の再現はないが、例えば空間パラメータを記憶又は伝送するための空間アップミキサ設定用の空間再現パラメータへと、パラメータを符号変換することを含む適用方法を有するデータであっても良い。
【0085】
図14は本発明の一般的な適用のシナリオを示す。符号器側140はオーディオオブジェクト符号器101を含み、入力としてN個のオーディオオブジェクトを受け取る。この好ましいオーディオオブジェクト符号器の出力には、図14には示されていないダウンミックス情報とオブジェクトパラメータとに加えて、K個のダウンミックスチャネルが含まれる。本発明に係るダウンミックスチャネルの数は、2以上である。
【0086】
ダウンミックスチャネルは、空間アップミキサ143を含む復号器側142に伝送される。空間アップミキサ143は、本発明のオーディオ合成器を備えても良く、このときオーディオ合成器はトランスコーダモードで作動される。しかし、図10に示すようなオーディオ合成器が空間アップミキサモードで作動する時には、空間アップミキサ143とオーディオ合成器とは、この実施例において同一の装置である。空間アップミキサは、M個のスピーカを介して再生されるべきM個の出力チャネルを生成する。これらのスピーカは、所定の空間位置に配置されたものであり、一体として所定のオーディオ出力形態を形成する。この所定のオーディオ出力形態を構成する1つの出力チャネルは、空間アップミキサ143の出力から、前記所定のオーディオ出力形態における複数の所定位置のうち1つの所定位置にある1つのスピーカの入力へと送られるべき、デジタル又はアナログのスピーカ信号であっても良い。状況に応じ、ステレオ再現が実行される場合には、出力チャネルの数Mは2個であって良い。しかし、多チャネル再現が実行される場合には、出力チャネルの数Mは2よりも大きな数字となる。典型的には、伝送リンクの条件により、ダウンミックスチャネルの数が出力チャネルの数よりも小さい状況が起こるであろう。この場合には、MはKよりも大きいか、あるいは2倍以上になるようなKよりもはるかに大きな数字であっても良い。
【0087】
図14は、本発明の符号器側と復号器側との機能を示すため、複数の行列表記をさらに含む。一般的には、サンプリング値のブロックが処理される。ゆえに、式(2)に示すように、1つのオーディオオブジェクトはL個のサンプリング値からなる1つの行として表現できる。行列Sは、オブジェクト数に対応するN個の行と、サンプル数に対応するL個の列とを持つ。行列Eは、式(5)に従って計算され、N個の行とN個の列とを持つ。オブジェクトパラメータがエネルギーモードで与えられた時、行列Eはオブジェクトパラメータを含む。相関関係がないオブジェクトについては、式(6)に関して上述したように、行列Eは、1つの主対角要素が1つのオーディオオブジェクトのエネルギーを与える主対角要素だけを備える。上述のように、全ての非対角要素は、2つのオーディオオブジェクトの相関関係を表しており、あるオブジェクトがステレオ信号の2つのチャネルである場合に特に有用である。
【0088】
ある実施例においては、式(2)は時間ドメイン信号である。このとき、オーディオオブジェクトの全帯域のための単一のエネルギー値が生成される。しかし好ましくは、オーディオオブジェクトは、例えば変換の1つのタイプ又は1つのフィルタバンクを含む、時間/周波数変換器により処理される。後者の場合(1つのフィルタバンクを含む場合)には、式(2)は各サブバンドについて有効であり、その結果、各サブバンド及び各時間フレームについて行列Eを得ることになる。
【0089】
ダウンミックスチャネル行列XはK個の行とL個の列とを備え、式(3)に従って計算される。式(4)に示すように、M個の出力チャネルは、N個のオブジェクトを使用して、これらN個のオブジェクトに対しいわゆる再現行列Aを適用することで計算される。状況によるが、これらN個のオブジェクトは復号器側においてダウンミックスとオブジェクトパラメータとを使用して再生成可能であるし、この再現行列は、再構成されたオブジェクト信号に対して直接的に適用できる。
【0090】
他の方法として、ダウンミックスは、ソース信号の格別な計算なしに出力チャネルへと直接的に変換されても良い。一般的に再現行列Aは、所定のオーディオ出力形態に対する個別のソースの配置を示す。仮に6個のオブジェクトと6個の出力チャネルとを有する場合を想定する。この場合には、各オブジェクトを各出力チャネルに配置することができ、再現行列もこの枠組みを反映することになるだろう。しかし、もし全てのオブジェクトを2つの出力スピーカ位置の間に配置したい場合には、再現行列Aは異なる形となるであろうし、かつこの異なる状況を反映することになるだろう。
【0091】
再現行列、又はさらに一般的にはオーディオオブジェクトの目標配置ともオーディオソースの目標相対的音量とも呼ばれるものは、一般的には符号器により計算され、復号器に対し、いわゆる場面描写として伝送される。しかし他の実施例においては、この場面描写は、ユーザー特定オーディオ出力形態のためのユーザー特定アップミックスを生成するために、ユーザー自身によって生成されても良い。従って、場面描写の伝送は必ずしも必要というわけではなく、反対に、ユーザーの要望を叶えるために、ユーザー自身によって場面描写が生成されても良い。例えば、ユーザーは、あるオーディオオブジェクトを生成する際に、これらのオブジェクトがあった位置とは異なる位置に、これらのオブジェクトを配置させたいと希望するかもしれない。さらには、オーディオオブジェクトがそれら自身でデザインされ、他のオブジェクトに対する「元の」配置を持たない場合も有りうる。このような場合には、オーディオソースの相対的な配置は、ユーザーによって初めて生成されることになる。
【0092】
図9にダウンミキサ92を示す。このダウンミキサは、複数のオーディオオブジェクトを複数のダウンミックスチャネルへとダウンミキシングするためのものであり、オーディオオブジェクトの数はダウンミックスチャネルの数よりも多く、かつダウンミキサはダウンミックス情報生成器と一体となり、複数のオーディオオブジェクトから複数のダウンミックスチャネルへの配分はダウンミックス情報に示されるように実行される。図9のダウンミックス情報生成器96により生成されるダウンミックス情報は、自動的に生成可能か、あるいは手動的に調整可能である。このダウンミックス情報には、オブジェクトパラメータの解像度よりも小さな解像度を与えるのが好ましい。この場合、サイド情報ビットは大きな品質損失なしに削減できる。なぜなら、ある種のオーディオ曲のための固定のダウンミックス情報、又は低速でしか変化せず必ずしも周波数選択的である必要のないダウンミックス状況で十分だからである。1つの実施例においては、ダウンミックス情報は、K個の行とN個の列とを有するダウンミックス行列を表す。
【0093】
ダウンミックス行列の1つの行内の値は、このダウンミックス行列内のこの値に対応するオーディオオブジェクトが、このダウンミックス行列の行により表されるダウンミックスチャネル内にある時、1つの所定値を持つ。1つのオーディオオブジェクトが2つ以上のダウンミックスチャネルに含まれる時、ダウンミックス行列の2つ以上の行の値は、1つの所定値を持つ。しかし、単一のオーディオオブジェクトについて平方値が合算された時、1.0になるのが好ましい。とは言え、他の値でも可能である。さらに、オーディオオブジェクトは、レベルが変化する1以上のダウンミックスチャネルへと入力されても良く、かつこれらのレベルは、所定のオーディオオブジェクトについて、1とは異なり、合算しても1.0にはならないダウンミックス行列内の重みにより示されても良い。
【0094】
ダウンミックスチャネルは、出力インターフェース98により生成された符号化されたオーディオオブジェクト信号の中に包含されており、この符号化されたオーディオオブジェクト信号は、例えば所定の形式を持つ時分割多重信号(time-multiplex signal)であっても良い。代わりに、この符号化されたオーディオオブジェクト信号は、復号器側においてオーディオオブジェクトパラメータ95と、ダウンミックス情報97と、ダウンミックスチャネル93との分割を可能にする、いかなる信号であっても良い。さらには、出力インターフェース98は、オブジェクトパラメータ、ダウンミックス情報、あるいはダウンミックスチャネルのための符号器を備えていても良い。オブジェクトパラメータとダウンミックス情報のための符号器は、差分符号器及び/又はエントロピー符号器であっても良く、ダウンミックスチャネルのための符号器は、MPEG符号器又はAAC符号器のような、モノラル又はステレオオーディオ符号器であっても良い。これら全ての符号化操作は、符号化されたオーディオオブジェクト信号99のために必要なデータレートをさらに減少させ、さらなるデータ圧縮をもたらす。
【0095】
ある実施例においては、ダウンミキサ92は所定の比率で、前記少なくとも2つのダウンミックスチャネルの中へ背景音楽のステレオ表現を包含させ、さらに、これら少なくとも2つのダウンミックスチャネルの中へ音声トラックを導入させることができる。この実施例においては、背景音楽の第1のチャネルは第1のダウンミックスチャネルの中に含まれ、背景音楽の第2のチャネルは第2のダウンミックスチャネルの中に含まれる。その結果、ステレオ再現装置におけるステレオ背景音楽の最適な再生が可能になる。しかし、ユーザーは、左ステレオスピーカと右ステレオスピーカとの間の音声トラックの位置を、さらに修正することができる。他の方法としては、第1及び第2の背景音楽チャネルは1つのダウンミックスチャネル内に含まれ、音声トラックは他のダウンミックスチャネル内に含まれても良い。このようにして、1つのダウンミックスチャネルを排除することで、背景音楽から音声トラックを完全に分割することができ、カラオケには特に適した適用方法を作り出せる。しかしこの場合、当然ながら損失を伴う圧縮方法であるオブジェクトパラメータ化のために、背景音楽チャネルのステレオ再生品質は劣化する恐れがある。
【0096】
ダウンミキサ92は、時間ドメインにおいてサンプル単位での足し算を実行する。この足し算は、単一のダウンミックスチャネルへとダウンミックスされるべきオーディオオブジェクトからのサンプルを使用する。1つのオーディオオブジェクトがある所定の割合で1つのダウンミックスチャネルへと導入される時、サンプル単位での足し算処理の前に、ある事前の重み付けが実行される。他の方法としては、前記足し算はまた、周波数ドメインあるいはサブバンドドメインすなわち時間/周波数変換に続くドメインにおいて実行されても良い。さらに、前記ダウンミックスは、前記時間/周波数変換がフィルタバンクである場合にはフィルタバンクドメインにおいて実行しても良く、前記時間/周波数変換がFFT,MDCT又は他のいずれかの変換タイプである場合には、変換ドメインにおいて実行しても良い。
【0097】
本発明の1つの実施形態によれば、オブジェクトパラメータ生成器94はエネルギーパラメータを生成し、また、式(6)から分かるように、2つのオーディオオブジェクトが一体となってステレオ信号を表現する場合には、2つのオブジェクト間の相関関係パラメータを追加的に生成する。他の方法として、オブジェクトパラメータが予測モードのパラメータであっても良い。図15はこれらのオブジェクト予測パラメータを計算するための計算装置のアルゴリズムステップ又は手段を示す。式(7)〜(12)に関して上述したように、行列X内のダウンミックスチャネルと行列S内のオーディオオブジェクトとに関するある統計的な情報が計算されなければならない。特に、ブロック150はS・X*の実数部分とX・X*の実数部分とを計算する第1のステップを示す。これらの実数部分は、単に数値であるだけではなく、行列である。また、これらの行列は、ある実施例においては式(1)の表記を通して決定されるが、それは式(12)に続く実施例が考慮される時である。一般的に、ステップ150の値は、オーディオオブジェクト符号器101内で使用できるデータを用いて計算することができる。その後、ステップ152に示すように予測行列Cが計算される。特に、N個の行とK個の列とを備えた予測行列Cの全ての値が得られるように、この方程式のシステムが従来技術から公知の方法で解かれる。一般的には、全てのダウンミックスチャネルの重み付けられた線形加算が対応するオーディオオブジェクトを最良の状態で再構成するように、式(8)に示す重みファクタCn,iが計算される。この予測行列は、ダウンミックスチャネルの数が増える時、オーディオオブジェクトのより良い再構成を可能にする。
【0098】
次に、図11についてさらに詳細に説明する。図11は、ある所定のオーディオ出力形態の複数の出力チャネルを作り出すために使用できるいくつかの種類の出力データを示す。行111は、出力データ合成器100の出力データが再構成されたオーディオソースである場合を示す。この再構成されたオーディオソースを再現するために出力データ合成器100に必要となる入力データは、ダウンミックス情報と、ダウンミックスチャネルと、オーディオオブジェクトパラメータである。しかし、この再構成されたオーディオソースを再現するためには、空間オーディオ出力形態内におけるオーディオソース自身の出力形態及び目標配置は、必ずしも必要ではない。図11内にモード番号1により示された第1のモードにおいては、出力データ合成器100は再構成されたオーディオソースを出力するであろう。オーディオオブジェクトパラメータのような予測パラメータの場合には、出力データ合成器100は、式(7)に定義されるような役割を果たす。オブジェクトパラメータがエネルギーモードである場合は、ソース信号を再構成するために、出力データ合成器はダウンミックス行列とエネルギー行列との逆を使用する。
【0099】
他の方法では、出力データ合成器100は、例えば図1Bのブロック102で示すように、トランスコーダとして作動する。この出力データ合成器が空間ミキサパラメータを生成するためのトランスコーダの一種である時には、ダウンミックス情報と、オーディオオブジェクトパラメータと、出力形態と、ソースの目標配置とが必要となる。特に、出力形態と目標配置とが再現行列Aを介して与えられる。しかし、図12に関して後述するように、ダウンミックスチャネルは、空間ミキサパラメータを生成するために必要ではない。状況によるが、出力データ合成器100により生成される空間ミキサパラメータは、この場合、ダウンミックスチャネルをアップミックスためのMPEGサラウンドミキサ等のような単純な空間ミキサにより使用することができる。この実施例では、オブジェクトダウンミックスチャネルを必ずしも修正する必要がなく、式(13)に示すように対角要素だけを持つ単純な変換行列があれば良い。図11の行112で示すモード番号2においては、出力データ合成器100は空間ミキサパラメータを出力し、かつ好ましくは、MPEGサラウンド復号器の任意のダウンミックスゲインパラメータ(ADG)として使用できるゲインを含む、式(13)に示す変換行列Gを出力する。
【0100】
図11の行113で示すモード番号3においては、出力データは、式(25)に関連して示した変換行列等のような1つの変換行列及び空間ミキサパラメータを含む。この場合、出力データ合成器100は、オブジェクトダウンミックスをステレオダウンミックスへと変換する現実のダウンミックス変換を、必ずしも実行する必要はない。
【0101】
図11の行114で示すモード番号4は、図10における出力データ合成器100を示す。この場合、トランスコーダは図1Bの102で示すように操作され、空間ミキサパラメータを出力するだけではなく、変換されたダウンミックスをも追加的に出力する。しかし、この変換されたダウンミックスに加えて変換行列Gを出力する必要はない。図1Bで示すように、変換されたダウンミックスと空間ミキサパラメータとを出力することで十分である。
【0102】
モード番号5は、図10における出力データ合成器100の他の適用例を示す。図11の行115で示す場合においては、出力データ合成器により生成された出力データは、いかなる空間ミキサパラメータも含んではいないが、例えば式(35)により示される変換行列Gだけを含むか、あるいは行115に示すようにステレオ信号そのものの出力を現実に含む。この実施例においては、ステレオ再現だけを目的としており、いかなる空間ミキサパラメータも必要ではない。しかし、ステレオ出力を生成するためには、図11に示す利用可能な全ての入力情報が必要とされる。
【0103】
出力データ合成器モードのさらに他の例を、モード番号6を付した行116で示す。この場合、出力データ合成器100は1つの多チャネル出力を生成し、かつ出力データ合成器100は、図1Bの要素104に類似している。つまり、出力データ合成器100は利用可能な全ての入力情報を必要とし、かつ1つの多チャネル出力信号する。この多チャネル出力信号は、2よりも大きい数の出力チャネルを備え、所定のオーディオ出力形態に従って目標スピーカ位置に配置された、出力チャネル数に対応する数のスピーカにより再現されるべきものである。このような多チャネル出力とは、5.1出力か、7.1出力か、あるいは左スピーカと中央スピーカと右スピーカとを備えた3.0出力である。
【0104】
次に図11を参照し、MPEGサラウンド復号器において公知である図7のパラメータ化の概念から、いくつかのパラメータを計算するための1つの例を説明する。図示するように、図7は、左ダウンミックスチャネルl0と右ダウンミックスチャネルr0とを有するステレオダウンミックス70から始まる、MPEGサラウンド復号器側のパラメータ化を示す。概念的には、両方のダウンミックスチャネルは所謂2→3のボックス71に入力される。この2→3のボックス71は複数の入力パラメータ72により制御される。ボックス71は3つの出力チャネル73a,73b,73cを生成する。各出力チャネルは1→2のボックスへと入力される。即ち、チャネル73aはボックス74aに入力され、チャネル73bはボックス74bに入力され、チャネル73cはボックス74cに入力される。各ボックスは2つの出力チャネルを出力する。即ち、ボックス74aは左前チャネルlfと左サラウンドチャネルlsとを出力し、ボックス74bは右前チャネルrfと右サラウンドチャネルrsとを出力し、ボックス74cは中央チャネルcと低周波強化チャネルlfeとを出力する。重要な点は、ダウンミックスチャネル70から出力チャネルへの全体のアップミックスがある行列演算を用いて実行される点であり、また、図7に示すツリー構造が、必ずしもステップ毎に実行される必要がなく、単一又は複数の行列演算によって実行されても良い点である。さらには、73a,73b,73cで示す中間信号は所定の具体例を用いて格別に計算されている訳ではなく、図7において、単に例示的な目的で示されているに過ぎない点である。さらには、ボックス74aと74bとは、出力信号に対して所定の無作為性を導入するために使用できる複数の残余信号res1OTTとres2OTTとを受信する。
【0105】
MPEGサラウンド復号器から公知であるように、ボックス71は予測パラメータCPC又はエネルギーパラメータCLDTTTにより制御される。2チャネルから3チャネルへのアップミックスのために、少なくとも2つの予測パラメータCPC1及びCPC2か、又は少なくとも2つのエネルギーパラメータCLD1TTT及びCLD2TTTが必要となる。さらに、相関関係を示すICCTTTがボックス71へと入力されても良いが、これは単に選択的な特徴であり、本発明の1つの実施例においては使用されてはいない。図12と図13とは、図9のオブジェクトパラメータ95と、図9のダウンミックス情報97と、例えば図10に示す場面描写のようなオーディオソースの目標配置105とを基にして、全てのパラメータCPC/CLDTTT,CLD0,CLD1,ICC1,CLD2,ICC2を計算するために必要なステップ及び/又は手段を示す。これらのパラメータは、5.1サラウンドシステムの所定のオーディオ出力フォーマットに合わせたものである。
【0106】
当然ながら、この具体例のために記載したパラメータの具体的な計算方法は、本発明にかかる他の出力形式又はパラメータ化にも適用できる。さらに、図12及び図13Bに記載の一連のステップあるいは手段の配列は、単に例示的なものであって、数学的方程式の論理上の意味の範囲内で変更可能である。
【0107】
ステップ120では、ある再現行列Aが与えられる。この再現行列は、複数ソースの中のあるソースが、所定の出力形態のコンテキストの中でどこに位置すべきかを示す。ステップ121は、式(20)に示すような部分ダウンミックス行列D36の導出を示す。この行列は、6個の出力チャネルから3個のチャネルへのダウンミックス状況を反映し、3×Nの大きさを持つ。例えば8チャネル出力形態7.1等のような、5.1構成よりも多い出力チャネルを生成したい場合には、ブロック121で決定される行列はD38行列となる。ステップ122では、減数された再現行列A3が、掛け算行列D36とステップ120で定義された完全な再現行列とにより生成される。ステップ123では、ダウンミックス行列Dが導入される。このダウンミックス行列Dは、符号化されたオーディオオブジェクト信号の中にこの行列Dが完全に含まれている時、このオーディオオブジェクト信号から復活させることが可能である。代わりに、このダウンミックス行列Dは、例えば特定のダウンミックス情報とダウンミックス行列Gに関してパラメータ化されても良い。
【0108】
さらに、ステップ124ではオブジェクトエネルギー行列が与えられる。このオブジェクトエネルギー行列は、N個のオブジェクトのためのオブジェクトパラメータにより反映され、かつ取り込まれたオーディオオブジェクトから抽出されるか、所定の再構成規則を用いて再構成されることができる。この再構成規則は、エントロピー復号化を含んでも良い。
【0109】
ステップ125では、「減数された」予測行列C3が定義される。この行列の値は、ステップ125に示す線形方程式のシステムを解くことで計算できる。具体的には、行列C3の要素は、方程式の両側に(DED*)の逆を掛け算することで計算できる。
【0110】
ステップ126では、変換行列Gが計算される。変換行列Gは、K×Kの大きさを持ち、かつ式(25)に定義するように生成される。ステップ126の方程式を解くために、ステップ127で示したように特定の行列DTTTが与えられる。この行列の例として式(24)が挙げられ、式(22)に定義されたようなCTTTに対応する式から、その定義を導くことができる。よって、式(22)は、ステップ128において何を準備すべきかを定義している。ステップ129は、行列CTTTを計算するための方程式を定義する。ブロック129内の方程式に従って行列CTTTが決定されるとすぐに、CPCパラメータであるパラメータα,β,γが出力可能となる。好ましくは、γは1に設定され、ブロック71に入力される残りのCPCパラメータはα,βだけとなる。
【0111】
図7に示す枠組みにとって必要となる残りのパラメータは、ブロック74a,74b,74cに入力されるパラメータである。これらのパラメータの計算については、図13Aを参照しながら説明する。ステップ130では、再現行列Aが与えられる。この再現行列Aの大きさは、オーディオオブジェクト数のN個の行と、出力チャネル数のM個の列である。この再現行列は、ある場面ベクトルが使用された場合、この場面ベクトルからの情報を含む。一般的には、再現行列は、1つのオーディオソースを1つの出力設定の中である所定の位置に配置するための情報を含む。例えば式(19)の下方に記載した再現行列Aを考える時、オーディオオブジェクトの所定の配置が、この再現行列の内部でどのように符号化されるかが明らかになる。当然ながら、1とは異なる値によって示す等、ある所定の配置を示す他の方法も使用可能である。さらには、一方では1よりも小さな値を使用し、他方では1よりも大きな値を使用する場合には、所定のオーディオオブジェクトのラウドネスは相応の影響を受けることがある。
【0112】
ある実施例においては、再現行列は復号器側で、符号器側からの情報が全くない状態で生成される。この場合、ユーザーは、オーディオオブジェクトの符号器設定内での空間的関係を何ら考慮せずに、ユーザーの好みの位置にオーディオオブジェクトを配置できる。他の実施例においては、オーディオソースの相対的又は絶対的な配置が符号器側で符号化され、復号器に対して一種の場面ベクトルとして伝送される。その後、好ましくは目標オーディオ再現設定から独立したオーディオソースの配置に係るこの情報は、復号器側において処理され、その結果、特定のオーディオ出力形態に対してカスタマイズされたオーディオソースの配置を反映する、ある再現行列を作り出す。
【0113】
ステップ131では、図12のステップ124に関連して上述したオブジェクトエネルギー行列Eが供給される。この行列はN×Mの大きさを持ち、オーディオオブジェクトパラメータを含む。ある実施例においては、このようなオブジェクトエネルギー行列が、各サブバンドと時間ドメインサンプル又はサブバンドドメインサンプルの各ブロックとに対して供給される。
【0114】
ステップ132では、出力エネルギー行列Fが計算される。Fは出力チャネルの共分散行列である。しかし、出力チャネルは未知の状態であるため、出力エネルギー行列Fは再現行列とエネルギー行列とを用いて計算される。これらの行列はステップ130と131において供給され、復号器側においていつでも利用可能である。その後、上述の(15)、(16)、(17)、(18)、(19)で具体的に示した式を用いてチャネルレベル差パラメータCLD0, CLD1, CLD2 とチャネル間コヒーレンスパラメータICC1, ICC2とが計算され、ボックス74a,74b,74cのためのパラメータが利用可能となる。重要な点は、空間パラメータは出力エネルギー行列Fの特定の要素を結合することで計算される点である。
【0115】
ステップ133の後では、図7に概略的に示す空間アップミキサのようなある空間アップミキサのために、全てのパラメータが利用可能となる。
【0116】
上述の実施例においては、オブジェクトパラメータはエネルギーパラメータとして与えられていた。しかし、オブジェクトパラメータが予測パラメータとした場合、即ち、図12内の項目124aで示すオブジェクト予測行列Cとして与えられる場合には、減数された予測行列C3の計算は、ブロック125a内に示されかつ式(32)に関連して説明したような行列の掛け算に過ぎない。ブロック125a内で使用される行列A3は、図12のブロック122で説明した行列A3と同じである。
【0117】
オブジェクト予測行列Cがオーディオオブジェクト符号器により生成され、復号器へと伝送される時、ボックス74a,74b,74cのためのパラメータを生成するための追加的な計算が必要となる。これらの追加的なステップは図13Bに示す。図13B内の124aで示すようにオブジェクト予測行列Cが供給されるが、この行列は図12のブロック124aに関連して説明した行列と同じである。その後、式(31)に関連して説明したように、オブジェクトダウンミックスの共分散行列Zが、伝送されたダウンミックスを用いて計算されるか又は生成され、追加のサイド情報として伝送される。行列Zの情報が伝送された時、ある種の遅延処理を内在的に導入しかつ復号器側の処理の負担を増大させるようないかなるエネルギー計算をも、復号器は必ずしも実行する必要がない。しかし、これらのエネルギー計算は、ある適用例においては決定的な問題とはならず、その場合には伝送帯域幅を節減することができ、かつオブジェクトダウンミックスの共分散行列Zもまた、当然ながら復号器側で有効であるダウンミックスサンプルを用いて計算することができる。ステップ134が完了し、オブジェクトダウンミックスの共分散行列が準備されると直ぐに、ステップ135に示すように、予測行列Cとダウンミックス共分散行列又は「ダウンミックスエネルギー」行列Zとを用いて、オブジェクトエネルギー行列Eが計算できる。このステップ135が完了すると直ぐに、図13Aに関連して説明したステップ132、133等の全てのステップが、図7のブロック74a,74b,74cのための全てのパラメータを生成するために実行可能となる。
【0118】
図16は、ステレオ再現だけを必要とする、さらなる実施例を示す。このステレオ再現は、図11のモード番号5又は行115により供給された出力である。この例では、図10の出力データ合成器100にとっては、いかなる空間アップミックスパラメータも目的ではなく、オブジェクトダウンミックスを、活用性に優れかつ当然ながら感応性にも制御性にも優れたステレオダウンミックスへと変換するための、ある特定の変換行列Gを得ることが主目的である。
【0119】
図16のステップ160においては、M→2の部分ダウンミックス行列が計算される。6個の出力チャネルの場合には、部分ダウンミックス行列は6→2チャネルのダウンミックス行列になるであろうが、他のダウンミックス行列も同様に利用可能である。この部分ダウンミックス行列の計算は、例えば図12のステップ121で生成された部分ダウンミックス行列D36及びステップ127で使用された行列DTTTから導出されても良い。
【0120】
さらに、ステップ161に示されるように、ステレオ再現行列A2がステップ160の結果と「大きな」再現行列Aとを用いて生成される。この再現行列Aは、図12のブロック120に関連して説明した行列と同じである。
【0121】
その後、ステップ162において、ステレオ再現行列は配置パラメータμとκとによりパラメータ化されても良い。μが1に設定されκも1に設定された場合、式(33)が得られ、式(33)の関連で説明した例における音声の音量を変えることが可能になる。しかし、μとκ以外のパラメータが使用される場合にも、ソースの配置を同様に変えることができる。
【0122】
このように、ステップ163において、式(35)を用いて変換行列Gが計算される。特に、行列(DED*)が計算されて逆転され、その逆行列はブロック163の式の右側に対して掛け算することができる。当然ながら、ブロック163の式を解くための他の方法も適用できる。その後、変換行列Gが生成され、ブロック164に示すように、変換行列とオブジェクトダウンミックスとを掛け算することで、オブジェクトダウンミックスXを変換することができる。その後、変換されたダウンミックスX’は、2つのステレオスピーカを用いてステレオ再現できる。実施形態によるが、変換行列Gを計算するために、μ,ν,κのための所定の値を設定することができる。代わりに、変換行列Gは、これら3つの全てのパラメータを変数として用いることで計算することができ、この場合、これらのパラメータは、ステップ163の後でユーザーが自由に設定することができる。
【0123】
好ましい実施例では、複数の独立したオーディオオブジェクトを(多チャネルダウンミックスとこのオブジェクトを表現する追加的な制御データとを用いて)伝送し、さらに、オブジェクトを準備された再構成システム(スピーカ構成)へと再現するという課題を解決する。オブジェクトに関連する制御データを、再構成システムに対して互換性のある制御データへと修正する方法についての技術が導入される。この技術は、さらにMPEGサラウンド符号化の枠組みに基づく適切な符号化方法も提案している。
【0124】
本発明の方法のいくつかの実施条件にもよるが、本発明の方法及び信号は、ハードウエアにおいてもソフトウエアにおいても実現可能である。この実施の形態は、本発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働するデジタル記憶媒体、特にディスクやCDを用いて実行でき、その中に電子的に読出し可能な制御信号が格納される。したがって、一般に本発明は、機械読出し可能なキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法の少なくとも1つを実行するように動作する。換言すれば、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法を実行するためのプログラムコードを有するコンピュータプログラムである。
【0125】
本発明のある実施例によれば、複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号器は、複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するためのダウンミックス情報生成器と、オーディオオブジェクトのためのオブジェクトパラメータを生成するためのオブジェクトパラメータ生成器と、ダウンミックス情報とオブジェクトパラメータとを使用して符号化されたオーディオオブジェクト信号を生成するための出力インターフェースと、を備える。
【0126】
必要に応じて、前記出力インターフェースは、複数のダウンミックスチャネルを更に使用することで、符号化されたオーディオオブジェクト信号を生成しても良い。
【0127】
さらに、あるいは他の方法として、前記パラメータ生成器は、第1の時間及び周波数解像度を用いてオブジェクトパラメータを生成し、前記ダウンミックス情報生成器は、第2の時間及び周波数解像度を用いてダウンミックス情報を生成しても良い。このとき、第2の時間及び周波数解像度は、第1の時間及び周波数解像度より小さい。
【0128】
さらに、前記ダウンミックス情報生成器は、ダウンミックス情報がオーディオオブジェクトの全周波数帯域について同一であるように、ダウンミックス情報を生成しても良い。
【0129】
さらに、前記ダウンミックス情報生成器は、ダウンミックス情報が次式で定義されるダウンミックス行列を表現するように、ダウンミックス情報を生成しても良い。
X=DS
ここで、Sはオーディオオブジェクトを表現する行列であり、オーディオオブジェクトの数に等しい行数を持ち、Dはダウンミックス行列であり、Xは複数のダウンミックスチャネルを表現する行列であり、ダウンミックスチャネルの数に等しい行数を持つ。
【0130】
さらに、オーディオオブジェクトの一つの部分についての情報は、1よりも小さく0よりも大きい係数であっても良い。
【0131】
さらに、前記ダウンミキサは、背景音楽のステレオ表現を少なくとも2つのダウンミックスチャネルの中へと含めても良く、かつ音声トラックをこれら少なくとも2つのダウンミックスチャネルの中へ所定の比率で導入しても良い。
【0132】
さらに、前記ダウンミキサは、前記ダウンミックス情報に従って1つのダウンミックスチャネル内へと入力されるべき信号の追加を、サンプル単位で実行しても良い。
【0133】
さらに、前記出力インターフェースは、ダウンミックス情報とオブジェクトパラメータとのデータ圧縮を、符号化されたオーディオオブジェクト信号を生成する前に実行しても良い。
【0134】
さらに、前記複数のオーディオオブジェクトは、ある所定の非ゼロの相関関係を持つ2つのオーディオオブジェクトにより表現されるステレオオブジェクトを含んでいても良く、このとき、ダウンミックス情報生成器は、このステレオオブジェクトを形成する2つのオブジェクトを示すグループ化情報を生成しても良い。
【0135】
さらに、前記オブジェクトパラメータ生成器は、オーディオオブジェクトのためのオブジェクト予測パラメータを生成しても良く、この予測パラメータの計算は、予測パラメータにより制御されたあるソースオブジェクト又はそのソースオブジェクトのための重み付けされたダウンミックスチャネルの合計が、そのソースオブジェクトの近似となるように実行されても良い。
【0136】
さらに、前記予測パラメータは周波数帯域毎に生成されても良く、オーディオオブジェクトは複数の周波数帯域をカバーしても良い。
【0137】
さらに、オーディオオブジェクトの数はNに等しく、ダウンミックスチャネルの数はKに等しく、オブジェクトパラメータ生成器により計算されるオブジェクト予測パラメータの数はN・K以下であっても良い。
【0138】
さらに、オブジェクトパラメータ生成器は、最大でK・(N−K)個のオブジェクト予測パラメータを計算可能であっても良い。
【0139】
さらに、オブジェクトパラメータ生成器は、試験オブジェクト予測パラメータの様々なセットを用いて複数のダウンミックスチャネルをアップミックスするためのアップミキサを含んでいても良い。
【0140】
さらに、オーディオオブジェクト符号器は、試験オブジェクト予測パラメータの様々なセットの中から、アップミキサによって再構成されたソース信号と対応するオリジナルソース信号との間の偏差が最小となるような試験オブジェクト予測パラメータを発見するための、反復コントローラをさらに含んでもよい。
【0141】
さらに、出力データ合成器は、ダウンミックス情報を使用して変換行列を決定してもよく、この変換行列は、ステレオ面の第1半分を表す第1のダウンミックスチャネルに含まれるあるオーディオオブジェクトが、ステレオ面の第2半分において演奏されるべき時には、ダウンミックスチャネルの少なくとも一部が交換されるように計算される。
【0142】
さらに、オーディオ合成器は、空間パラメータと少なくとも2つのダウンミックスチャネル又は変換されたダウンミックスチャネルとを使用して、所定のオーディオ出力形態のためのオーディオ出力チャネルを再現するためのチャネル再現器(channel renderer)をさらに含んでいても良い。
【0143】
さらに、出力データ合成器は、少なくとも2つのダウンミックスチャネルを追加的に使用して、所定のオーディオ出力形態の出力チャネルを出力しても良い。
【0144】
さらに、出力データ合成器は、2つのチャネルの重み付けされた合計のエネルギーが限度ファクタ内でチャネルのエネルギーに等しくなるように、部分ダウンミックス行列の実際のダウンミックス重みを計算しても良い。
【0145】
さらに、出力データ合成器は、部分ダウンミックス行列のためのダウンミックス重みを次式により決定しても良く、
ここで、wpはダウンミックス重みであり、pは整数のインデックス変数、fj,iは所定の出力形態の出力チャネルの共分散行列の近似を表すエネルギー行列の行列要素である。
【0146】
さらに、出力データ合成器は、ある線形方程式のシステムを解くことで、予測行列の個々の係数を計算しても良い。
【0147】
さらに、出力データ合成器は、次式に基づいて前記線形方程式のシステムを解法しても良く、
C3(DED*)=A3ED*,
ここで、C3は2→3の予測行列、Dはダウンミックス情報から導出されたダウンミックス行列、Eはオーディオソースオブジェクトから導出されたエネルギー行列、A3は減数された再現行列、記号* は複素共役演算子である。
【0148】
さらに、2→3のアップミックスのための予測パラメータは、予測行列が2つのパラメータだけを用いて定義されるように、この予測行列のパラメータ化から導出されても良く、出力データ合成器は、少なくとも2つのダウンミックスチャネルを前処理し、この前処理とパラメータ化された予測行列の結果が、所望のアップミックス行列へと一致するようにしても良い。
【0149】
さらに、予測行列のパラメータ化は次式の通りであっても良く、
このとき、TTTはパラメータ化された予測行列のインデックス、α、β、γは係数である。
【0150】
さらに、ダウンミックス変換行列Gは次式のように計算されても良く、
G=DTTTC3
ここで、C3は2→3の予測行列であり、DTTTとCTTTの積はIに等しく、Iは2×2の恒等行列であり、CTTTは次式に基づくものであり、
ここで、α、β、γは定数ファクタである。
【0151】
さらに、2→3のアップミックスのための予測パラメータはαとβと1に設定されたγとから決定されても良い。
【0152】
さらに、出力データ合成器は、3→6のアップミックスのためのエネルギーパラメータを、エネルギー行列Fを使用して次式に基づいて計算しても良く、
ここで、Aは再現行列、Eはオーディオソースオブジェクトから導出されたエネルギー行列、Yは出力チャネル行列、記号* は複素共役演算子である。
【0153】
さらに、出力データ合成器は、エネルギー行列の要素同士を組み合わせることで、エネルギーパラメータを計算しても良い。
【0154】
さらに、出力データ合成器は、次式に基づいてエネルギーパラメータを計算しても良く、
ここで、φは絶対値φ(z)=|z|又は実数値演算子φ(z)=Re{z}であり、CLD0は第1のチャネルレベル差エネルギーパラメータ、CLD1は第2のチャネルレベル差エネルギーパラメータ、CLD2は第3のチャネルレベル差エネルギーパラメータ、ICC1は第1のチャネル間コヒーレンスエネルギーパラメータ、ICC2は第2のチャネル間コヒーレンスエネルギーパラメータ、fijはエネルギー行列Fの位置i,jにおける要素を示す。
【0155】
さらに、パラメータの第1のグループはエネルギーパラメータを含んでいても良く、出力データ合成器はエネルギー行列Fの要素を組み合わせることで、このエネルギーパラメータを導出しても良い。
【0156】
さらに、エネルギーパラメータは次式に基づいて導出されても良く、
ここで、CLD0TTTはパラメータの第1グループの第1エネルギーパラメータであり、CLD1TTTはパラメータの第1グループの第2のエネルギーパラメータである。
【0157】
さらに、出力データ合成器は、ダウンミックスチャネルを重み付けするための重み付けファクタを計算しても良く、この重み付けファクタは、空間復号器の任意のダウンミックスゲインファクタを制御するために使用される。
【0158】
さらに、出力データ合成器は、重みファクタを次式に基づいて計算しても良く、
このとき、Dはダウンミックス行列、Eはオーディオソースオブジェクトから導出されたエネルギー行列、Wは中間行列、D26は所定の出力形態の6→2チャネルのダウンミキシングのための部分ダウンミックス行列、Gは空間復号器の任意のダウンミックスゲインファクタを含む変換行列である。
【0159】
さらに、出力データ合成器は、エネルギー行列を次式に基づいて計算しても良く、
E=CZC*
このときEはエネルギー行列であり、Cは予測パラメータ行列であり、Zは少なくとも2つのダウンミックスチャネルの1つの共分散行列である。
【0160】
さらに、出力データ合成器は、変換行列を次式に基づいて計算しても良く、
G=A2・C
ここで、Gは変換行列であり、A2は部分再現行列であり、Cは予測パラメータ行列である。
【0161】
さらに、出力データ合成器は、変換行列を次式に基づいて計算しても良く、
G(DED*)=A2ED*
ここで、Gはトラックのオーディオソースから導出されたエネルギー行列であり、Dはダウンミックス情報から導出されたダウンミックス行列であり、A2は減数された再現行列であり、記号* は複素共役演算子である。
【0162】
さらに、パラメータ化されたステレオ再現行列A2は次式に基づいて計算されても良く、
ここで、μ、ν、κは1つ以上のオーディオソースオブジェクトの位置と音量とに従う実数値パラメータである。
【符号の説明】
【0163】
90 オーディオオブジェクト
92 ダウンミキサ
93 ダウンミックスチャネル
94 オブジェクトパラメータ生成器
95 オブジェクトパラメータ
96 ダウンミックス情報生成器
97 ダウンミックス情報
98 出力インターフェース
99 符号化されたオーディオオブジェクト信号
100 出力データ合成器
101 オーディオオブジェクト符号器
【特許請求の範囲】
【請求項1】
符号化されたオーディオオブジェクト信号を使用して出力データを生成するオーディオ合成器であって、
所定のオーディオ出力形態を持ちかつ複数のオーディオオブジェクトを表す複数の出力チャネルを再現するために、使用可能な出力データを生成する出力データ合成器を含み、
当該出力データ合成器は、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードすることを特徴とする、オーディオ合成器。
【請求項2】
請求項1に記載のオーディオ合成器において、
前記出力データ合成器は、前記オーディオオブジェクトの目標位置から導出される変換行列Gを用いて、複数のダウンミックスチャネルを前記所定のオーディオ出力形態のためのステレオダウンミックスへと変換することを特徴とする、オーディオ合成器。
【請求項3】
請求項1に記載のオーディオ合成器において、
前記空間パラメータは、2→3のアップミックスのためのパラメータからなる第1グループと、3→6のアップミックスのためのエネルギーパラメータからなる第2グループとを含み、
前記出力データ合成器は、オーディオオブジェクトの目標位置によって決定される再現行列Aと、仮想の2→3のアップミックス処理によって生成される3チャネルへの出力チャネルのダウンミックス化を表す部分ダウンミックス行列D36と、前記ダウンミックス行列Dと、を使用して2→3の予測行列のための予測パラメータを計算することを特徴とする、オーディオ合成器。
【請求項4】
請求項3に記載のオーディオ合成器において、
前記オブジェクトパラメータはオブジェクト予測パラメータであり、前記出力データ合成器は、前記オブジェクト予測パラメータCと前記ダウンミックス情報Dと前記ダウンミックスチャネルに対応するエネルギー情報Zとに基づいて、エネルギー行列Eを予め計算することを特徴とする、オーディオ合成器。
【請求項5】
請求項1に記載のオーディオ合成器において、
前記出力データ合成器は、パラメータ化されたステレオ再現行列A2と、このパラメータ化されたステレオ再現行列A2に基づく変換行列Gとを計算することによって、ステレオ出力形態のための2つのステレオチャネルを生成することを特徴とする、オーディオ合成器。
【請求項6】
符号化されたオーディオオブジェクト信号を用いて出力データを生成するためのオーディオ合成方法において、
複数のオーディオオブジェクトを表す所定のオーディオ出力形態の複数の出力チャネルを作り出すために用いられる前記出力データを生成する工程を含み、
その工程は、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードすることを特徴とする、オーディオ合成方法。
【請求項7】
複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号器であって、
前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するためのダウンミックス情報生成器であって、前記少なくとも2つのダウンミックスチャネルのパワー特性と相関関係特性とをそれぞれ示すパワー情報と相関関係情報とを生成する、ダウンミックス情報生成器と、
前記オーディオオブジェクトのためのオブジェクトパラメータを生成するためのオブジェクトパラメータ生成器と、
前記ダウンミックス情報と前記パワー情報と前記相関関係情報と前記オブジェクトパラメータとを含む前記符号化されたオーディオオブジェクト信号を生成するための出力インターフェースと、
を備えたことを特徴とするオーディオオブジェクト符号器。
【請求項8】
請求項7に記載のオーディオオブジェクト符号器において、
前記複数のオーディオオブジェクトを複数のダウンミックスチャネルへとダウンミックスするためのダウンミキサをさらに含み、オーディオオブジェクトの数はダウンミックスチャネルの数より多く、前記ダウンミキサは、前記複数のオーディオオブジェクトの複数のダウンミックスチャネルへの配分が前記ダウンミックス情報に示される通りに実行されるように、前記ダウンミックス情報生成器に接続されていることを特徴とする、オーディオオブジェクト符号器。
【請求項9】
請求項7に記載のオーディオオブジェクト符号器において、
前記ダウンミックス情報は、どのオーディオオブジェクトが全体又は部分的に前記複数のダウンミックスチャネルの内の1つ又はそれ以上のダウンミックスチャネルに含まれるかを示し、
かつ、1つのオーディオオブジェクトが2つ以上のダウンミックスチャネルに含まれる場合には、前記2つ以上のダウンミックスチャネルの1つのダウンミックスチャネルに含まれる、前記オーディオオブジェクトの一つの部分についての情報を示すように、
前記ダウンミックス情報生成器は前記ダウンミックス情報を計算することを特徴とする、オーディオオブジェクト符号器。
【請求項10】
複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号化方法であって、
前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するステップと、
前記少なくとも2つのダウンミックスチャネルのパワー特性と相関関係特性とをそれぞれ示すパワー情報と相関関係情報とを生成するステップと、
前記オーディオオブジェクトのためのオブジェクトパラメータを生成するステップと、
前記パワー情報と前記相関関係情報と前記ダウンミックス情報と前記オブジェクトパラメータとを含む、前記符号化されたオーディオオブジェクト信号を生成するステップと、
を備えたことを特徴とするオーディオオブジェクト符号化方法。
【請求項11】
複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記少なくとも2つのダウンミックスチャネルのパワー特性及び相関関係特性をそれぞれ示すパワー情報及び相関関係情報と、オブジェクトパラメータとを含む符号化されたオーディオオブジェクト信号を記憶した、コンピュータにより読み出し可能な記憶媒体であって、
前記オブジェクトパラメータと前記少なくとも2つのダウンミックスチャネルとを使用して前記オーディオオブジェクトの再構成が可能となるように、前記オブジェクトパラメータが設定されている記憶媒体。
【請求項12】
コンピュータに請求項6又は10に記載の方法を実行させるためのコンピュータプログラム。
【請求項1】
符号化されたオーディオオブジェクト信号を使用して出力データを生成するオーディオ合成器であって、
所定のオーディオ出力形態を持ちかつ複数のオーディオオブジェクトを表す複数の出力チャネルを再現するために、使用可能な出力データを生成する出力データ合成器を含み、
当該出力データ合成器は、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードすることを特徴とする、オーディオ合成器。
【請求項2】
請求項1に記載のオーディオ合成器において、
前記出力データ合成器は、前記オーディオオブジェクトの目標位置から導出される変換行列Gを用いて、複数のダウンミックスチャネルを前記所定のオーディオ出力形態のためのステレオダウンミックスへと変換することを特徴とする、オーディオ合成器。
【請求項3】
請求項1に記載のオーディオ合成器において、
前記空間パラメータは、2→3のアップミックスのためのパラメータからなる第1グループと、3→6のアップミックスのためのエネルギーパラメータからなる第2グループとを含み、
前記出力データ合成器は、オーディオオブジェクトの目標位置によって決定される再現行列Aと、仮想の2→3のアップミックス処理によって生成される3チャネルへの出力チャネルのダウンミックス化を表す部分ダウンミックス行列D36と、前記ダウンミックス行列Dと、を使用して2→3の予測行列のための予測パラメータを計算することを特徴とする、オーディオ合成器。
【請求項4】
請求項3に記載のオーディオ合成器において、
前記オブジェクトパラメータはオブジェクト予測パラメータであり、前記出力データ合成器は、前記オブジェクト予測パラメータCと前記ダウンミックス情報Dと前記ダウンミックスチャネルに対応するエネルギー情報Zとに基づいて、エネルギー行列Eを予め計算することを特徴とする、オーディオ合成器。
【請求項5】
請求項1に記載のオーディオ合成器において、
前記出力データ合成器は、パラメータ化されたステレオ再現行列A2と、このパラメータ化されたステレオ再現行列A2に基づく変換行列Gとを計算することによって、ステレオ出力形態のための2つのステレオチャネルを生成することを特徴とする、オーディオ合成器。
【請求項6】
符号化されたオーディオオブジェクト信号を用いて出力データを生成するためのオーディオ合成方法において、
複数のオーディオオブジェクトを表す所定のオーディオ出力形態の複数の出力チャネルを作り出すために用いられる前記出力データを生成する工程を含み、
その工程は、前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記オーディオオブジェクトのためのオーディオオブジェクトパラメータとを使用し、前記オーディオ出力形態の中の前記オーディオオブジェクトの目標位置を追加的に使用することで、前記オーディオオブジェクトパラメータを前記所定のオーディオ出力形態のための空間パラメータへとトランスコードすることを特徴とする、オーディオ合成方法。
【請求項7】
複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号器であって、
前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するためのダウンミックス情報生成器であって、前記少なくとも2つのダウンミックスチャネルのパワー特性と相関関係特性とをそれぞれ示すパワー情報と相関関係情報とを生成する、ダウンミックス情報生成器と、
前記オーディオオブジェクトのためのオブジェクトパラメータを生成するためのオブジェクトパラメータ生成器と、
前記ダウンミックス情報と前記パワー情報と前記相関関係情報と前記オブジェクトパラメータとを含む前記符号化されたオーディオオブジェクト信号を生成するための出力インターフェースと、
を備えたことを特徴とするオーディオオブジェクト符号器。
【請求項8】
請求項7に記載のオーディオオブジェクト符号器において、
前記複数のオーディオオブジェクトを複数のダウンミックスチャネルへとダウンミックスするためのダウンミキサをさらに含み、オーディオオブジェクトの数はダウンミックスチャネルの数より多く、前記ダウンミキサは、前記複数のオーディオオブジェクトの複数のダウンミックスチャネルへの配分が前記ダウンミックス情報に示される通りに実行されるように、前記ダウンミックス情報生成器に接続されていることを特徴とする、オーディオオブジェクト符号器。
【請求項9】
請求項7に記載のオーディオオブジェクト符号器において、
前記ダウンミックス情報は、どのオーディオオブジェクトが全体又は部分的に前記複数のダウンミックスチャネルの内の1つ又はそれ以上のダウンミックスチャネルに含まれるかを示し、
かつ、1つのオーディオオブジェクトが2つ以上のダウンミックスチャネルに含まれる場合には、前記2つ以上のダウンミックスチャネルの1つのダウンミックスチャネルに含まれる、前記オーディオオブジェクトの一つの部分についての情報を示すように、
前記ダウンミックス情報生成器は前記ダウンミックス情報を計算することを特徴とする、オーディオオブジェクト符号器。
【請求項10】
複数のオーディオオブジェクトを用いて符号化されたオーディオオブジェクト信号を生成するためのオーディオオブジェクト符号化方法であって、
前記複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報を生成するステップと、
前記少なくとも2つのダウンミックスチャネルのパワー特性と相関関係特性とをそれぞれ示すパワー情報と相関関係情報とを生成するステップと、
前記オーディオオブジェクトのためのオブジェクトパラメータを生成するステップと、
前記パワー情報と前記相関関係情報と前記ダウンミックス情報と前記オブジェクトパラメータとを含む、前記符号化されたオーディオオブジェクト信号を生成するステップと、
を備えたことを特徴とするオーディオオブジェクト符号化方法。
【請求項11】
複数のオーディオオブジェクトの少なくとも2つのダウンミックスチャネルへの配分を示すダウンミックス情報と、前記少なくとも2つのダウンミックスチャネルのパワー特性及び相関関係特性をそれぞれ示すパワー情報及び相関関係情報と、オブジェクトパラメータとを含む符号化されたオーディオオブジェクト信号を記憶した、コンピュータにより読み出し可能な記憶媒体であって、
前記オブジェクトパラメータと前記少なくとも2つのダウンミックスチャネルとを使用して前記オーディオオブジェクトの再構成が可能となるように、前記オブジェクトパラメータが設定されている記憶媒体。
【請求項12】
コンピュータに請求項6又は10に記載の方法を実行させるためのコンピュータプログラム。
【図1A】
【図1B】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13A】
【図13B】
【図14】
【図15】
【図16】
【図1B】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13A】
【図13B】
【図14】
【図15】
【図16】
【公開番号】特開2012−141633(P2012−141633A)
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2012−64886(P2012−64886)
【出願日】平成24年3月22日(2012.3.22)
【分割の表示】特願2009−532703(P2009−532703)の分割
【原出願日】平成19年10月5日(2007.10.5)
【出願人】(506427990)ドルビー・インターナショナル・アクチボラゲット (24)
【氏名又は名称原語表記】DOLBY INTERNATIONAL AB
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願日】平成24年3月22日(2012.3.22)
【分割の表示】特願2009−532703(P2009−532703)の分割
【原出願日】平成19年10月5日(2007.10.5)
【出願人】(506427990)ドルビー・インターナショナル・アクチボラゲット (24)
【氏名又は名称原語表記】DOLBY INTERNATIONAL AB
[ Back to top ]