オーディオ信号デコーダ、オーディオ信号エンコーダ、アップミックス信号表現の生成方法、ダウンミックス信号表現の生成方法、コンピュータプログラム、及び共通するオブジェクト間相関パラメータ値を用いるビットストリーム
ダウンミックス信号表現及びオブジェクト関連パラメータ情報に基づき、かつレンダリング情報に依存してアップミックス信号表現を生成するためのオーディオ信号デコーダは、オブジェクトパラメータ決定器を備えている。オブジェクトパラメータ決定器は、複数のオーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するように構成されている。オブジェクトパラメータ決定器は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、ビットストリーム・シグナリング・パラメータを評価するように構成されている。オーディオ信号デコーダは、ダウンミックス信号表現を基礎とし、かつ複数の関連オブジェクトペアのオブジェクト間相関値及びレンダリング情報を用いてアップミックス信号表現を取得するように構成されている信号プロセッサも備えている。
【発明の詳細な説明】
【技術分野】
【0001】
本発明による実施形態は、ダウンミックス信号表現及びオブジェクト関連パラメータ情報に基づき、かつレンダリング情報に依存してアップミックス信号表現を生成するためのオーディオ信号デコーダに関する。
【0002】
本発明による他の実施形態は、複数のオーディオオブジェクト信号に基づきビットストリーム表現を生成するためのオーディオ信号エンコーダに関する。
【0003】
本発明による他の実施形態は、ダウンミックス信号表現及びオブジェクト関連パラメータ情報に基づき、かつレンダリング情報に依存してアップミックス信号表現を生成するための方法に関する。
【0004】
本発明による他の実施形態は、複数のオーディオオブジェクト信号に基づきビットストリーム表現を生成するための方法に関する。
【0005】
本発明による他の実施形態は、前記方法を実行するためのコンピュータプログラムに関する。
【0006】
本発明による他の実施形態は、マルチチャネルオーディオ信号を表現するビットストリームに関する。
【背景技術】
【0007】
オーディオ処理、オーディオ伝送及びオーディオ蓄積の技術分野では、聴感を良くするためにマルチチャネルコンテンツを取り扱おうという要望が高まりつつある。マルチチャネル・オーディオ・コンテンツの使用は、ユーザに著しい改善をもたらすものである。例えば、3次元聴感を得ることも可能であって、娯楽に適用すればユーザの満足度が高まる。その一方で、マルチチャネル・オーディオ・コンテンツは、マルチチャネルオーディオ再生の使用によってスピーカの了解度が向上され得ることから、職場環境において、例えば電話会議への適用においても有益である。
【0008】
しかしながら、マルチチャネルアプリケーションによって生じる資源の過剰な負荷を回避するために、オーディオ品質とビットレート要件との間に良好な得失評価を有することもまた望ましい。
【0009】
最近では、複数のオーディオオブジェクトを含むオーディオ場面のビットレート効率のよい伝送及び/又は蓄積を行なうためのパラメトリック手法、例えばバイノーラルキュー符号化(Binaural Cue Coding:BCC)(タイプI)(例えば、非特許文献1参照)、情報源符号化(Joint Source Coding:JSC)(例えば、非特許文献2参照)及びMPEG空間オーディオオブジェクト符号化(Spatial Audio Object Coding:SAOC)(例えば、非特許文献3、非特許文献4及び未公開非特許文献5参考)が提案されている。
【0010】
これらの手法の目的は、波形一致ではなく、所望される出力オーディオ場面を知覚的に再構成することにある。
【0011】
図8は、このようなシステム(ここでは、MPEG SAOC)のシステム概観を示す。また、図9Aも、このようなシステム(ここでは、MPEG SAOC)のシステム概観を示す。
【0012】
図8に示されているMPEG SAOCシステム800は、SAOCエンコーダ810と、SAOCデコーダ820とを備えている。SAOCエンコーダ810は、例えば時間領域信号として、又は時間周波数領域信号として(例えば、フーリエ型変換の変換係数セットの形式又はQMFサブバンド信号の形式で)表現される場合がある複数のオブジェクト信号x1〜xNを受信する。SAOCエンコーダ810は、典型的には、オブジェクト信号x1〜xNに関連づけられるダウンミックス係数d1〜dNも受信する。ダウンミックス係数は、ダウンミックス信号のチャネル毎に別々のセットが利用可能である場合がある。SAOCエンコーダ810は、典型的には、関連づけられるダウンミックス係数d1〜dNに従ってオブジェクト信号x1〜xNを結合することにより、ダウンミックス信号のチャネルを取得するように構成されている。典型的には、存在するダウンミックスチャネルの数はオブジェクト信号x1〜xNより少ない。SAOCデコーダ820側におけるオブジェクト信号の分離(又は分離処理)を(少なくとも概略的に)可能にするために、SAOCエンコーダ810は、サイド情報814と1つ以上のダウンミックス信号(ダウンミックスチャネルとして示される)812の双方を生成する。サイド情報814は、デコーダ側のオブジェクト指定処理を可能にするために、オブジェクト信号x1〜xNの特徴を記述する。
【0013】
SAOCデコーダ820は、サイド情報814と1つ以上のダウンミックス信号812の双方を受信するように構成されている。また、SAOCデコーダ820は、典型的には、ユーザ相互作用情報及び/又はユーザ制御情報822を受信するように構成されている。ユーザ相互作用情報及び/又はユーザ制御情報822は、所望されるレンダリング設定を記述するものであり、例えば、スピーカの設定及びオブジェクトの所望される空間配置について記述することができ、これらはオブジェクト信号x1〜xNを与える。
【0014】
SAOCデコーダ820は、例えば、複数の復号されたアップミックスチャネル信号?1〜?Mを生成するように構成されている。アップミックスチャネル信号は、例えばマルチスピーカレンダリング配置の個々のスピーカに関連づけることができる。SAOCデコーダ820は、例えば、オブジェクト分離器820aを備えることができ、オブジェクト分離器820aは、1つ以上のダウンミックス信号812及びサイド情報814に基づきオブジェクト信号x1〜xNを少なくとも概略的に再構成し、これにより再構成されたオブジェクト信号820bを得るように構成されている。しかしながら、再構成されたオブジェクト信号820bは元のオブジェクト信号x1〜xNから幾分かずれていることがある。それは、例えば、ビットレート制約のために、サイド情報814が完全な再構成にとってまったく十分であるとはいえないからである。SAOCデコーダ820はさらにミキサ820cを備えることができる。ミキサ820cは、再構成されたオブジェクト信号820bとユーザ相互作用情報/ユーザ制御情報822を受信し、これらに基づいてアップミックスチャネル信号?1〜?Mを生成するように構成できる。ミキサ820は、ユーザ相互作用情報/ユーザ制御情報822を用いて、アップミックスチャネル信号?1〜?Mに対する個々の再構成されたオブジェクト信号820bの寄与を決定するように構成できる。ユーザ相互作用情報/ユーザ制御情報822は、例えば、レンダリングパラメータ(レンダリング係数とも明記される)を含むことができる。レンダリングパラメータはアップミックスチャネル信号?1〜?Mに対する個々の再構成されたオブジェクト信号822の寄与を決定する。
【0015】
図8ではオブジェクト分離はオブジェクト分離器820aにより示され、ミキシングはミキサ820cにより示されているが、多くの実施形態ではこれらは単一のステップで実行されることに留意されるべきである。その目的のために、1つ以上のダウンミックス信号812をアップミックスチャネル信号?1〜?Mへ直接写し変えることを記述する全体的パラメータが計算される場合がある。これらのパラメータは、サイド情報及びユーザ相互作用情報/ユーザ制御情報820に基づいて計算できる。
【0016】
図9A、図9Bと図9Cを参照して、ダウンミックス信号表現及びオブジェクト関連サイド情報に基づきアップミックス信号表現を取得するための異なる装置について述べる。図9Aは、SAOCデコーダ920を備えているMPEG SAOCシステム900の概略ブロック図を示す。SAOCデコーダ920は、オブジェクトデコーダ922とミキサ/レンダラ926を別々の機能ブロックとして備えている。オブジェクトデコーダ922は、ダウンミックス信号表現(例えば、時間領域又は時間周波数領域において表現される1つ以上のダウンミックス信号の形式)及びオブジェクト関連サイド情報(例えば、オブジェクトメタデータの形式)に依存して複数の再構成されたオブジェクト信号924を生成する。ミキサ/レンダラ924は、複数のN個のオブジェクトに関連づけられる再構成されたオブジェクト信号924を受信し、これらに基づき1つ以上のアップミックスチャネル信号928を生成する。SAOCデコーダ920において、オブジェクト信号924の抽出はミキシング/レンダリングとは別に実行される。このことは、オブジェクト復号機能をミキシング/レンダリング機能から分離することを可能にするが、計算の複雑さは比較的高くなる。
【0017】
図9Bを参照して別のMPEG SAOCシステム930について簡単に論じる。そのMPEG SAOCシステム930はSAOCデコーダ950を備えている。SAOCデコーダ950は、ダウンミックス信号表現(例えば、1つ以上のダウンミックス信号の形式)及びオブジェクト関連サイド情報(例えば、オブジェクトメタデータの形式)に依存して複数のアップミックスチャネル信号958を生成する。SAOCデコーダ950は結合されたオブジェクトデコーダ及びミキサ/レンダラを備えており、結合されたオブジェクトデコーダ及びミキサ/レンダラはオブジェクト復号とミキシング/レンダリングとを分離することなく合同ミキシングプロセスにおいてアップミックスチャネル信号958を取得するように構成されている。その合同ミキシングプロセスのパラメータは、オブジェクト関連サイド情報及びレンダリング情報の双方に依存する。合同ミキシングプロセスはダウンミックス情報にも依存し、この場合、ダウンミックス情報はオブジェクト関連サイド情報の一部と考えられる。
【0018】
上記を要約すると、アップミックスチャネル信号928、958の生成は、1ステッププロセス又は2ステッププロセスで実行できる。
【0019】
図9Cを参照して、MPEG SAOCシステム960について述べる。SAOCシステム960は、SAOCデコーダではなくSAOC−MPEGサラウンドトランスコーダ980を備えている。
【0020】
SAOC−MPEGサラウンドトランスコーダはサイド情報トランスコーダ982を備えている。サイド情報トランスコーダ982はオブジェクト関連サイド情報(例えば、オブジェクトメタデータの形式)とレンダリング情報、さらに場合により1つ以上のダウンミックス信号に関する情報を受信するように構成されている。サイド情報トランスコーダは、受信されたデータに基づきMPEGサラウンドサイド情報(例えば、MPEGサラウンドビットストリームの形式)を生成するようにも構成されている。したがって、サイド情報トランスコーダ982は、レンダリング情報及び場合により1つ以上のダウンミックス信号のコンテンツに関する情報を考慮して、オブジェクトエンコーダから出されるオブジェクト関連の(パラメトリックな)サイド情報をチャネル関連の(パラメトリックな)サイド情報へ変換するように構成されている。
【0021】
場合により、SAOC−MPEGサラウンドトランスコーダ980は、例えばダウンミックス信号表現により記述された1つ以上のダウンミックス信号を操作して、操作されたダウンミックス信号表現988を取得するように構成することができる。しかしながら、ダウンミックス信号マニピュレータ986は省略される場合があり、その場合はSAOC−MPEGサラウンドトランスコーダ980から出力されるダウンミックス信号表現988と、SAOC−MPEGサラウンドトランスコーダへ入力されるダウンミックス信号表現は同一になる。ダウンミックス信号マニピュレータ986は、例えば、チャネル関連MPEGサラウンドサイド情報984がSAOC−MPEGサラウンドトランスコーダ980への入力ダウンミックス信号表現に基づいて所望される聴感を生成できないようであれば使用されることがあり、この状況は、レンダリングの配列によっては発生し得る。
【0022】
したがって、SAOC−MPEGサラウンドトランスコーダ980は、MPEGサラウンドビットストリーム984及びダウンミックス信号表現988を受信するMPEGサラウンドデコーダが、SAOC−MPEGサラウンドトランスコーダ980への入力レンダリング情報に従ってオーディオオブジェクトを表現する複数のアップミックスチャネル信号を発生し得るように、ダウンミックス信号表現988及びMPEGサラウンドビットストリーム984を生成する。
【0023】
上記を要約すると、SAOCで符号化されたオーディオ信号を復号するためには、異なる概念を用いることが可能である。事例によっては、ダウンミックス信号表現及びオブジェクト関連のパラメトリックなサイド情報に依存してアップミックスチャネル信号(例えば、アップミックスチャネル信号928、958)を生成するSAOCデコーダが使用される。図9A及び図9Bはこの概念の例を示している。あるいは、SAOCで符号化されたオーディオ情報は、ダウンミックス信号表現(例えば、ダウンミックス信号表現988)及びチャネル関連サイド情報(例えば、チャネル関連MPEGサラウンドビットストリーム984)を取得するためにトランスコードされる場合もある。それらのダウンミックス信号表現とチャネル関連サイド情報は所望されるアップミックスチャネル信号を生成するためにMPEGサラウンドデコーダによって使用することができる。
【0024】
図8にシステムの概観が示されているMPEG SAOCシステム800においても、図9にシステムの概観が示されているMPEG SAOCシステム900においても、一般処理は周波数選択方式で実行され、かつ各周波数バンド内部は下記のように記述することができる。
【0025】
入力されるN個のオーディオオブジェクト信号x1〜xNは、SAOCエンコーダ処理の一部としてダウンミックスされる。モノダウンミックスの場合、ダウンミックス係数はd1〜dNによって示される。さらに、SAOCエンコーダ810、910は、入力されるオーディオオブジェクトの特徴を記述するサイド情報814を抽出する。このサイド情報の重要な部分は、オブジェクト電力の関係性及び互いに対する相関性、即ちオブジェクト間相関(Inter-Object-Correlations:IOC)のオブジェクトレベル差(object-level differences:OLD)から成る。
【0026】
(1又は複数の)ダウンミックス信号812、912及びサイド情報814、914は伝送され、かつ/又は格納される。この目的のために、ダウンミックスオーディオ信号は、MPEG−1レイヤII又はIII(「.mp3」としても知られる)、MPEGアドバンスト・オーディオ・コーディング(Advanced Audio Coding:AAC)又は他の任意のオーディオコーダ等の周知の知覚オーディオコーダを用いて圧縮される場合がある。
【0027】
受信側では、SAOCデコーダ820、920は、概念的には、伝送されたサイド情報814、914(及び当然ながら、1又は複数のダウンミックス信号812、912)を用いて、元のオブジェクト信号を復元するように試行する(「オブジェクト分離」)。これらの近似されたオブジェクト信号(再構成されたオブジェクト信号820b、924としても示される)は、次に、レンダリングマトリクスを用いて、M個のオーディオ出力チャネル(例えば、アップミックスチャネル信号?1〜?M928により表現される場合がある)によって表現される標的場面へとミキシングされる。モノ出力の場合、レンダリングマトリクス係数はr1〜rNによって与えられる。
【0028】
効果的には、オブジェクト信号の分離はほとんど行われない(又は、絶対に行われない)。それは、分離ステップ(オブジェクト分離器820a、922により示される)及びミキシングステップ(ミキサ820c、926により示される)の双方が単一のトランスコーディングステップに結合され、これにより計算の複雑さが大幅に低減される結果となる場合が多いからである。
【0029】
このようなスキームは、伝送ビットレートの面(N個のオブジェクトオーディオ信号ではなく幾つかのダウンミックスチャネルに何らかのサイド情報を加えて伝送するだけでよい。)及び計算の複雑さの面(処理の複雑さはオーディオオブジェクトの数ではなく、主として出力チャネルの数に関連する)の双方で極めて効率的であることが見出されている。受信側ユーザにとってのさらなる優位点としては、ユーザ選択のレンダリング設定(モノ、ステレオ、サラウンド、仮想化ヘッドホン再生、等)を選ぶ自由、及びユーザ相互作用性機能、即ちユーザは意志、個人的嗜好又は他の基準にしたがってレンダリングマトリクスひいては出力される場面を相互作用的に設定しかつ変更できること、が含まれる。例えば、1つのグループからの話者を纏めて1つの空間エリアに位置決めし、他の話者との区別化を最大化することが可能である。この相互作用性は、デコーダのユーザインタフェースを提供することによって達成される。
【0030】
即ち、伝送されるサウンドオブジェクトについては各々、その相対レベル及び(非モノレンダリングでは)レンダリングの空間位置を調整することができる。これは、ユーザが関連のグラフィカル・ユーザ・インタフェース(Graphical User Interface:GUI)スライダ(例えば、オブジェクトレベル=+5dB、オブジェクトの位置=−30度)の位置を変更するにつれてリアルタイムで発生する場合がある。
【0031】
以下、チャネルベースのオーディオコーディングの分野においてこれまでに適用されている技術を簡単に参照する。
【0032】
米国特許出願第11/032,689号明細書(特許文献1)は、サイド情報を保存するために、幾つかのキュー値を、伝送される1つの値に結合するためのプロセスについて記述している。
【0033】
この技術は、米国特許出願開第60/671,544号明細書(特許文献2)において、「コンパクトなサイド情報を用いるマルチチャネル階層型オーディオコーディング」へも適用されている。
【先行技術文献】
【特許文献】
【0034】
【特許文献1】米国特許出願第11/032,689号明細書
【特許文献2】米国特許出願第60/671,544号明細書
【非特許文献】
【0035】
【非特許文献1】[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and application," IEEE Trans. On Speech and Audio Proc., vol. 11, no. 6, Nov. 2003
【非特許文献2】[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752
【非特許文献3】[SAOC1] J.Herres, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK April 2007
【非特許文献4】[SAOC2] J Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Heilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Prametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377
【非特許文献5】[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.
【発明の概要】
【発明が解決しようとする課題】
【0036】
しかしながら、マルチチャネル・オーディオ・コンテンツの符号化に用いられるオブジェクト関連パラメータ情報は、事例によっては比較的高いビットレートを含むことが見出されている。
【0037】
したがって、本発明の目的は、コンパクトなサイド情報を用いるマルチチャネル・オーディオ・コンテンツの生成、蓄積又は伝送を可能にする概念を作り上げることにある。
【課題を解決するための手段】
【0038】
この目的は、独立請求項によって規定されるオーディオ信号デコーダ、オーディオ信号エンコーダ、アップミックス信号表現を生成するための方法、ビットストリーム表現を生成するための方法、コンピュータプログラム及びビットストリームによって達成される。
【0039】
本発明による一実施形態は、ダウンミックス信号表現及びオブジェクト関連パラメータ情報に基づき、かつレンダリング情報に依存してアップミックス信号表現を生成するためのオーディオ信号デコーダを創出する。この装置は、複数のオーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するように構成されているオブジェクト−パラメータ決定器を備えている。オブジェクト−パラメータ決定器は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、又は共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、ビットストリーム・シグナリング・パラメータを評価するように構成されている。オーディオ信号デコーダは、ダウンミックス信号表現に基づき、かつ複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値及びレンダリング情報を用いてアップミックス信号表現を取得するように構成されている信号プロセッサも備えている。
【0040】
このオーディオ信号デコーダの基礎は、優れた聴感を達成するために多くのオーディオ・オブジェクト・ペア間の相関性を考慮する必要がある事例によっては、オブジェクト間相関値の符号化に必要とされるビットレートが過度に高い可能性があり、かつこのような場合、オブジェクト間相関値の符号化に必要とされるビットレートは、個々のオブジェクト間相関ビットストリームパラメータ値ではなく共通のオブジェクト間相関ビットストリームパラメータ値を用いることによって、聴感を著しく劣らせることなく、大幅に低減されることが可能である、という主たる考案にある。
【0041】
多くのオーディオ・オブジェクト・ペア間に、優れた聴感を達成するために考慮されるべき顕著なオブジェクト間相関が存在する状況においては、オブジェクト間相関の考慮が通常はオブジェクト間相関ビットストリームパラメータ値の高いビットレート要件に繋がることが見出されている。しかし、多くのオーディオ・オブジェクト・ペア間に無視できないオブジェクト間相関が存在するこのような状況では、共通する単一のオブジェクト間相関ビットストリームパラメータ値を符号化し、かつこのような共通のオブジェクト間相関ビットストリームパラメータ値から複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を導出するだけで、優れた聴感を達成できることが見出されている。したがって、多くの場合、多くのオーディオオブジェクト間の相関性は、オブジェクト間相関ビットストリームパラメータ値の伝送についての努力を十分に少なく抑えながら、十分な精度で考慮することができる。
【0042】
したがって、多くの異なるオーディオオブジェクト信号間に無視できないオブジェクト間相関が存在する音響環境によっては、上述の概念はオブジェクト関連サイド情報に対するビットレート要求を小さくし、それでも十分に優れた聴感を達成する。
【0043】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、全ての異なる関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を、共通のオブジェクト間相関ビットストリームパラメータ値によって規定される共通値に設定するように構成されている。この単純な解決策は、多くの関連状況において十分に優れた聴感をもたらすことが見出されている。
【0044】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、2つのオブジェクトが互いに関連するものであるか否かを記述するオブジェクト関係性情報を評価するように構成されている。オブジェクト−パラメータ決定器は、さらに、オブジェクト関係性情報が関係性を示すオーディオ・オブジェクト・ペアに対しては共通のオブジェクト間相関ビットストリームパラメータ値を用いてオブジェクト間相関値を選択的に取得し、かつオブジェクト関係性情報が関連性のないことを示すオーディオ・オブジェクト・ペアのオブジェクト間相関値は既定値(例えば、ゼロ)に設定するように構成されている。したがって、オーディオオブジェクト間の関係性の有無は、高いビットレート効率で区別できる。故に、(ほぼ)関連のないオーディオ・オブジェクト・ペアへの非ゼロのオブジェクト間相関値の割り付けは回避される。したがって、聴感の劣化は回避され、かつこのようなほぼ関連のないオーディオオブジェクト間の分離が可能である。さらに、オーディオオブジェクトの関連性が典型的には1つのオーディオに渡って時間的に不変であることから、関連オーディオオブジェクト及び非関連オーディオオブジェクトを非常に高いビットレート効率で信号にすることができ、したがって、この信号化に必要とされるビットレートは典型的には極めて低い。このように、記述されている概念は、ビットレート効率と聴感との間の極めて良好な得失評価をもたらす。
【0045】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、異なるオーディオオブジェクトの組合せ毎に1ビットフラグを備えているオブジェクト関係性情報を評価するように構成され、この場合、異なるオーディオオブジェクトの所定の組合せに関連づけられる1ビットフラグは、所定の組合せのオーディオオブジェクト同士に関連性があるか否かを示す。このような情報は極めて効率的に伝送することができ、優れた聴感を達成するために必要とされるビットレートの著しい低減をもたらす。
【0046】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、全ての異なる関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を共通のオブジェクト間相関ビットストリームパラメータ値によって規定される共通値に設定するように構成されている。
【0047】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、ビットストリーム・シグナリング・パラメータを個々のオブジェクト間相関ビットストリームパラメータ又は共通するオブジェクト間相関ビットストリームパラメータとともに取得するために、オーディオコンテンツのビットストリーム表現を構文解析するように構成されているビットストリームパーサを備えている。ビットストリームパーサを用いることにより、ビットストリーム・シグナリング・パラメータを個々のオブジェクト間相関ビットストリームパラメータ又は共通するオブジェクト間相関ビットストリームパラメータとともに優れた実装効率で取得することができる。
【0048】
ある好適な実施形態において、オーディオ信号デコーダは、関連オーディオ・オブジェクト・ペアに関連づけられる共分散値を取得するために、関連オーディオ・オブジェクト・ペアに関連づけられるオブジェクト間相関値を、前記関連オーディオ・オブジェクト・ペアの第1のオーディオオブジェクトのオブジェクトレベルを記述するオブジェクトレベル差パラメータ値と、前記関連オーディオ・オブジェクト・ペアの第2のオーディオオブジェクトのオブジェクトレベルを記述するオブジェクトレベル差パラメータ値とに結合するように構成されている。したがって、共通するオブジェクト間相関パラメータが用いられても、関連オーディオ・オブジェクト・ペアに関連づけられる共分散値を、共分散値がオーディオ・オブジェクト・ペアに適応されるように導出することができる。したがって、異なるオーディオ・オブジェクト・ペア毎に異なる共分散値を取得することができる。特に、共通のオブジェクト間相関ビットストリームパラメータ値を用いて多数の異なる共分散値を取得することができる。
【0049】
ある好適な実施形態において、オーディオ信号デコーダは、3つ以上のオーディオオブジェクトを処理するように構成されている。この場合、オブジェクト−パラメータ決定器は、あらゆる異なるオーディオ・オブジェクト・ペアのオブジェクト間相関値を生成するように構成されている。本発明概念を使用すれば、全てが互いに関連のあるオーディオオブジェクトが比較的多数存在するとしても、有意義な値を取得できることが見出されている。オーディオオブジェクトの多くの組合せからオブジェクト間相関値を取得することは、オブジェクト関連のパラメトリックなサイド情報を用いてオーディオオブジェクト信号を符号化しかつ復号する場合に特に有用である。
【0050】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、コンフィギュレーション(configuration)ビットストリーム部分に含まれるビットストリーム・シグナリング・パラメータを評価するように構成されている。この実施形態では、オブジェクト−パラメータ決定器は、そのオーディオオブジェクトが関連のあるものであるかどうかを決定するために、コンフィギュレーションビットストリーム部分に含まれるオブジェクト関係性情報を評価するように構成されている。さらに、オブジェクト−パラメータ決定器は、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得することが決定されれば、あらゆるオーディオ・コンテンツ・フレームについて、フレーム・データ・ビットストリーム部分に含まれる共通のオブジェクト間相関ビットストリームパラメータ値を評価するように構成されている。したがって、高いビットレート効率が達成される。それは、比較的大きいオブジェクト関係性情報の評価はオーディオピース(コンフィギュレーションビットストリーム部分の存在により規定される。)毎に一度しか行われず、一方でオーディオピースのあらゆるフレームに関して評価される、即ち1つのオーディオピースにつき複数回評価される共通のオブジェクト間相関ビットストリームパラメータ値は比較的小値であるからである。これは、オーディオオブジェクト間の関係性は、典型的には1つのオーディオピース内では変わらないか、極めてまれにしか変わらない、という発見を反映している。したがって、適度に低いビットレートで優れた聴感を達成できる。
【0051】
しかしながら、また、共通のオブジェクト間相関ビットストリームパラメータ値の使用は、フレーム・データ・ビットストリーム部分において信号として表わすこともでき、これは、例えば変化するオーディオコンテンツへの柔軟な適応を可能にする。
【0052】
本発明による一実施形態は、複数のオーディオオブジェクト信号に基づきビットストリーム表現を生成するためのオーディオ信号エンコーダを創出する。オーディオ信号エンコーダは、オーディオオブジェクト信号に基づき、かつダウンミックス信号の1つ以上のチャネルとしてのオーディオオブジェクト信号の寄与について記述するダウンミックスパラメータに依存して、ダウンミックス信号を生成するように構成されているダウンミキサを備えている。オーディオ信号エンコーダは、複数の関連オーディオ・オブジェクト・ペア信号に関連づけられる共通のオブジェクト間相関ビットストリームパラメータ値を生成するように、かつこの共通のオブジェクト間相関ビットストリームパラメータ値が複数の個々のオブジェクト間相関ビットストリームパラメータの代わりに生成されることを示すビットストリーム・シグナリング・パラメータを生成するようにも構成されているパラメータプロバイダも備えている。オーディオ信号エンコーダは、ダウンミックス信号の表現、共通のオブジェクト間相関ビットストリームパラメータ値の表現及びビットストリーム・シグナリング・パラメータを含むビットストリームを生成するように構成されているビットストリームフォーマッタも備えている。
【0053】
本発明によれば、この実施形態は、コンパクトなサイド情報を有するマルチチャネル・オーディオ・コンテンツを表現するビットストリームの生成を可能にする。共通のオブジェクト間相関ビットストリームパラメータ値を生成することにより、オブジェクト関連サイド情報はコンパクトに保たれ、同時になおもマルチチャネル・オーディオ・コンテンツを優れた聴感で再生するための効率的な情報が与えられる。さらに、本明細書に記述されるオーディオ信号エンコーダが、オーディオ信号デコーダに関してこれまでに述べたものと同じ優位点を与えることは留意されるべきである。
【0054】
ある好適な実施形態において、パラメータプロバイダは、クロスパワー項の和と平均パワー項の和との割合に依存して共通のオブジェクト間相関ビットストリームパラメータ値を生成するように構成されている。このようなオブジェクト間相関ビットストリームパラメータ値は適度の計算量で計算することができ、同時になお、ほとんどの場合、精確な聴感も与えることが見出されている。
【0055】
本発明による別の実施形態において、パラメータプロバイダは、共通のオブジェクト間相関ビットストリームパラメータ値として既定の定値を生成するように構成されている。事例によっては、定値の生成は理に適うことが見出されている。例えば、所定のタイプの会議室における所定の標準的なマイクロホン装置の場合、定値は所望される聴感の表現に極めて良く適合し得る。したがって、本発明概念による多くの標準的適用において、計算量は優れた聴感を与えつつ最小限に抑えることができる。
【0056】
別の好適な実施形態において、パラメータプロバイダは、2つのオーディオオブジェクトが互いに関連しているかどうかを記述するオブジェクト関係性情報も生成するように構成されている。このようなオブジェクト関係性情報は、先に論じたように、オーディオデコーダによって活用することができる。したがって、共通のオブジェクト間相関ビットストリームパラメータ値は、実際に互いに関連しているオーディオオブジェクトにのみ適用され、全く関連のないオーディオオブジェクトには適用されないことを保証することができる。
【0057】
ある好適な実施形態において、パラメータプロバイダは、共通のオブジェクト間相関ビットストリームパラメータ値の計算に関してオブジェクト関係性情報が関係性を示しているオーディオオブジェクトのオブジェクト間相関を選択的に評価するように構成されている。これは、特に有意義なオブジェクト間相関ビットストリームパラメータ値を得ることを可能にする。
【0058】
本発明によるさらなる実施形態は、アップミックス信号表現を生成するための方法、及びビットストリーム表現を生成するための方法を生み出す。これらの方法は、先に論じたオーディオデコーダ及びオーディオエンコーダと同じ考案を基礎とする。
【0059】
本発明による別の実施形態は、マルチチャネルオーディオ信号を表すビットストリームを創出する。ビットストリームは、複数のオーディオオブジェクトのオーディオ信号を結合するダウンミックス信号の表現を含む。ビットストリームは、オーディオオブジェクトの特徴を記述するオブジェクト関連パラメトリックなサイド情報も含む。オブジェクト関連のパラメトリックなサイド情報は、ビットストリームが個々のオブジェクト間相関ビットストリームパラメータ値を含むか、共通のオブジェクト間相関ビットストリームパラメータ値を含むかを示すビットストリーム・シグナリング・パラメータを含む。したがって、ビットストリームは、異なるタイプのオーディオチャネルコンテンツの伝送に関して柔軟な使用を可能にする。特に、ビットストリームは、個々のオブジェクト間相関ビットストリームパラメータ値又は共通のオブジェクト間相関ビットストリームパラメータ値の双方の、聴覚場面により適する何れかの伝送を可能にする。したがって、ビットストリームは、詳細な(オブジェクト個別)オブジェクト間相関情報が伝送されるべきである比較的少数の関連するオーディオオブジェクトが存在する場合と、比較的多数の関連するオーディオオブジェクトが存在して、個々のオブジェクト間相関ビットストリームパラメータ値を伝送すれば過度に高いビットレート要求に繋がる可能性があり、かつ共通のオブジェクト間相関ビットストリームパラメータ値がなおも優れた聴感の再生を可能にする場合の双方の処理によく適する。
【0060】
続いて、添付の図面を参照して本発明による実施形態について述べる。
【図面の簡単な説明】
【0061】
【図1】本発明の一実施形態によるオーディオ信号デコーダを示す概略ブロック図である。
【図2】本発明の一実施形態によるオーディオ信号エンコーダを示す概略ブロック図である。
【図3】本発明の一実施形態によるビットストリームを示す概略表示である。
【図4】単一のオブジェクト間相関パラメータ計算を用いるMPEG SAOCシステムを示す概略ブロック図である。
【図5】ビットストリームの一部であることのできるSAOC固有コンフィギュレーション情報の構文表現を示す。
【図6】ビットストリームの一部であることのできるSAOCフレーム情報の構文表現を示す。
【図7】オブジェクト間相関パラメータのパラメータ量子化を表す表を示す。
【図8】基準MPEG SAOCシステムを示す概略ブロック図である。
【図9A】別々のデコーダ及びミキサを用いる基準SAOCシステムを示す概略ブロック図である。
【図9B】統合されたデコーダ及びミキサを用いる基準SAOCシステムを示す概略ブロック図である。
【図9C】SAOC−MPEGトランスコーダを用いる基準SAOCシステムを示す概略ブロック図である。
【発明を実施するための形態】
【0062】
1.図1によるオーディオ信号デコーダ
以下、オーディオ信号デコーダ100について、このようなオーディオ信号デコーダ100の概略ブロック図を示す図1を参照して述べる。
【0063】
まず、オーディオ信号デコーダ100の入力信号及び出力信号について述べる。続いて、オーディオ信号デコーダ100の構造を説明し、最後にオーディオ信号デコーダ100の機能について論じる。
【0064】
オーディオ信号デコーダ100は、典型的には複数のオーディオオブジェクト信号を例えば1チャネルオーディオ信号表現又は2チャネルオーディオ信号表現の形式で表すダウンミックス信号表現110を受信するように構成されている。
【0065】
オーディオ信号デコーダ100は、典型的にはダウンミックス信号表現110に含まれるオーディオオブジェクトを記述するオブジェクト関連パラメータ情報112も受信する。
【0066】
例えば、オブジェクト関連パラメータ情報112は、ダウンミックス信号表現110により表されるオーディオオブジェクトのオブジェクトレベルを、オブジェクトレベル差の値(OLD)を用いて記述する。
【0067】
さらに、オブジェクト関連パラメータ情報112は、典型的には、ダウンミックス信号表現110によって表されるオーディオオブジェクトのオブジェクト間相関特性を表す。オブジェクト関連パラメータ情報は、典型的には、オブジェクト関連パラメータ情報が個々のオーディオ・オブジェクト・ペアに関連づけられる個々のオブジェクト間相関ビットストリームパラメータ値を含むか、又は複数のオーディオ・オブジェクト・ペアに関連づけられる共通のオブジェクト間相関ビットストリームパラメータ値を含むかを信号で表わすビットストリーム・シグナリング・パラメータ(本明細書では「bsOneIOC」としても明示される)を含む。したがって、オブジェクト関連パラメータ情報は、ビットストリーム・シグナリング・パラメータ「bsOneIOC」に従って個々のオブジェクト間相関ビットストリームパラメータ値又は共通のオブジェクト間相関ビットストリームパラメータ値を含む。
【0068】
オブジェクト関連パラメータ情報112は、ダウンミックス信号表現への個々のオーディオオブジェクトのダウンミックスを記述するダウンミックス情報も含むことができる。例えば、オブジェクト関連パラメータ情報は、ダウンミックス信号表現110に対するオーディオオブジェクト信号の寄与を記述するダウンミックス利得情報(Downmix Gain Information)DMGを含む。さらに、オブジェクト関連パラメータ情報は、場合により、異なるダウンミックスチャネル間のダウンミックス利得差を記述するダウンミックス・チャネル・レベル差情報(Downmix-Channel-Level-Difference Information)DCLDを含むことができる。
【0069】
信号デコーダ100は、レンダリング情報120を、例えばそのレンダリング情報を入力するためのユーザインタフェースから受信するようにも構成されている。レンダリング情報は、オーディオオブジェクトの信号のアップミックスチャネルへの割り付けを記述する。例えば、レンダリング情報120はレンダリングマトリクス(又はそのエントリ)の形式をとることができる。あるいは、レンダリング情報120は、オーディオオブジェクトの所望される再現位置(例えば、空間座標による)及びオーディオオブジェクトの所望される強度(又は音量)についての記述を含むことができる。
【0070】
オーディオ信号デコーダ100はアップミックス信号表現130を生成する。アップミックス信号表現130は、ダウンミックス信号表現により記述されるオーディオオブジェクト信号のレンダリングされた表現と、オブジェクト関連パラメータ情報を構成する。例えば、アップミックス信号表現は、個々のオーディオチャネル信号の形式をとってもよく、チャネル関連パラメトリックサイド情報(例えば、MPEGサラウンドサイド情報)と組み合わされたダウンミックス信号表現の形式をとってもよい。
【0071】
オーディオ信号デコーダ100は、ダウンミックス信号表現110及びオブジェクト関連パラメータ情報112に基づき、かつレンダリング情報120に依存してアップミックス信号表現130を生成するように構成されている。装置100はオブジェクト−パラメータ決定器140を備えており、オブジェクト−パラメータ決定器140はオブジェクト関連パラメータ情報112に基づき(少なくとも)複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するように構成されている。この目的のために、オブジェクト−パラメータ決定器140は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、又は共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、ビットストリーム・シグナリング・パラメータ(「bsOneIOC」)を評価するように構成されている。したがって、オブジェクト−パラメータ決定器140は、ビットストリーム・シグナリング・パラメータが共通のオブジェクト間相関ビットストリームパラメータ値は利用できないことを示していれば、個々のオブジェクト間相関ビットストリームパラメータ値に基づき複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値142を生成するように構成されている。同様に、オブジェクト−パラメータ決定器は、ビットストリーム・シグナリング・パラメータがこのような共通のオブジェクト間相関ビットストリームパラメータ値は利用できることを示していれば、共通のオブジェクト間相関ビットストリームパラメータ値に基づき複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値142を決定する。
【0072】
また、オブジェクト−パラメータ決定器は、典型的には、オブジェクト関連パラメータ情報112に基づき、例えばオブジェクトレベル差値OLD、ダウンミックス利得値DMG及び(場合により)ダウンミックス・チャネル・レベル差値DCLDのような他のオブジェクト関連値も生成する。
【0073】
オーディオ信号デコーダ100は信号プロセッサ150も備えており、信号プロセッサ150は、ダウンミックス信号表現110に基づき、かつ複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値142及びレンダリング情報120を用いて、アップミックス信号表現130を得るように構成されている。信号プロセッサ150は、オブジェクトレベル差値、ダウンミックス利得値及びダウンミックス・チャネル・レベル差値のような他のオブジェクト関連値も用いる。
【0074】
信号プロセッサ150は、例えば、所望されるアップミックス信号表現130の統計的特徴を推定し、ダウンミックス信号表現から導出されるアップミックス信号表現130が所望される統計的特徴を備えるようにダウンミックス信号表現を処理することができる。あるいは、信号プロセッサ150は、ダウンミックス信号表現110内では結合されている複数のオーディオオブジェクトのオーディオオブジェクト信号を、オブジェクトの特徴に関する情報及びダウンミックスプロセスを用いて分離することを試行することができる。したがって、信号プロセッサは処理規則(例えば、スケーリング規則又は線形結合規則)を計算でき、その処理規則は個々のオーディオオブジェクト信号、又は少なくとも個々のオーディオオブジェクト信号に類似する統計的特徴を有するオーディオ信号の再構成を可能にするであろう。信号プロセッサ150は次に、アップミックス信号表現を得るために所望されるレンダリングを適用することができる。当然ながら、元の個々のオーディオオブジェクト信号に近い再構成されたオーディオオブジェクト信号の計算と再現は、計算の複雑さを減らすために単一の処理ステップに結合することができる。
【0075】
上記を要約すると、オーディオ信号デコーダは、ダウンミックス信号表現110及びオブジェクト関連パラメータ情報112を基礎とし、レンダリング情報120を用いてアップミックス信号表現130を生成するように構成されている。オブジェクト関連パラメータ情報112は個々のオーディオオブジェクト信号の統計的特徴及び個々のオーディオオブジェクト信号間の関係性についての情報を得るために評価され、個々のオーディオオブジェクト信号間の関係性は信号プロセッサ150で必要とされる。例えば、オブジェクト関連パラメータ情報112は、個々のオーディオオブジェクト信号の推定された共分散値を記述する推定された分散行列を取得するために用いられる。推定された共分散行列は、その後、信号プロセッサ150によって、ダウンミックス信号表現110からアップミックス信号表現130を導出するための(例えば、先に論じたような)処理規則を決定するために適用される。ただし、当然ながら、他のオブジェクト関連情報も活用できる。
【0076】
オブジェクト−パラメータ決定器140は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するための異なるモードを含む。オブジェクト間相関値は信号プロセッサ150の重要な入力情報を構成する。第1のモードでは、個々のオブジェクト間相関ビットストリームパラメータ値を用いてオブジェクト間相関値が決定される。例えば、個々のオブジェクト間相関ビットストリームパラメータ値が関連オーディオ・オブジェクト・ペア毎に1つが存在することもあるので、その場合はオブジェクト−パラメータ決定器140は単に、このような個々のオブジェクト間相関ビットストリームパラメータ値を所定の関連オーディオ・オブジェクト・ペアに関連づけられる1つ又は2つのオブジェクト間相関値へ移すだけでよい。一方、第2の動作モードも存在する。第2の動作モードでは、オブジェクト−パラメータ決定器140は単にビットストリームから1つの共通のオブジェクト間相関ビットストリームパラメータ値を読み取り、かつこの1つの共通のオブジェクト間相関ビットストリームパラメータ値に基づき複数の異なる関連オーディオ・オブジェクト・ペアの複数のオブジェクト間相関値を生成する。したがって、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値は、例えば、1つの共通のオブジェクト間相関ビットストリームパラメータ値によって表される値と同一とするか、又はこの同一の共通のオブジェクト間相関ビットストリームパラメータ値から導出することができる。オブジェクト−パラメータ決定器140は、ビットストリーム・シグナリング・パラメータ(「bsOneIOC」)に依存して前記第1のモードと前記第2のモードとの間で切り換えることができる。
【0077】
したがって、オブジェクト間相関値を生成するためにオブジェクト−パラメータ決定器140が適用できる異なるモードが存在する。存在する関連オーディオ・オブジェクト・ペアが比較的少数であれば、前記関連オーディオ・オブジェクト・ペアのオブジェクト間相関値は、典型的には(ビットストリーム・シグナリング・パラメータに依存して)オブジェクト−パラメータ決定器によって個々に決定され、これにより、前記関連オーディオ・オブジェクト・ペアの特徴の特に正確な表現が可能にされ、かつ結果的に、信号プロセッサ150において個々のオーディオオブジェクト信号を高精度で再構成する可能性がもたらされる。したがって典型的には、比較的少数の関連オーディオ・オブジェクト・ペア間の相関性だけが関係している場合には、優れた聴感を与えることができる。
【0078】
複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために共通のオブジェクト間相関ビットストリームパラメータ値が用いられるオブジェクト−パラメータ決定器の第2の動作モードは、典型的には、複数のオーディオ・オブジェクト・ペア間に無視できない相関性が存在する事例に用いられる。このような事例は、従来、ダウンミックス信号表現110及びオブジェクト関連パラメータ情報112の双方を表すビットストリームのビットレートを過度に上げることなしには処理され得なかった。共通のオブジェクト間相関ビットストリームパラメータ値の使用は、比較的多数のオーディオ・オブジェクト・ペア間に無視できない相関性が存在する場合に固有の優位点をもたらすが、この相関性は、音響的に重大な変動を含まない。この場合、ビットレート要件と聴感品質との間に適度な妥協をもたらす適度なビットレート量による相関性を考慮することができる。
【0079】
したがって、オーディオ信号デコーダ100は、異なる状況、すなわち関連オーディオ・オブジェクト・ペアが少数しか存在せず、そのオブジェクト間相関は高精度で考慮されるべきである状況、及び関連オーディオ・オブジェクト・ペアが多数存在し、そのオブジェクト間相関は完全には無視すべきではなく幾分かの類似性を有する状況、を効率的に処理することができる。オーディオ信号デコーダ100は、双方の状況を高品質の聴感で処理することができる。
【0080】
2.図2によるオーディオ信号エンコーダ
以下、オーディオ信号エンコーダ200について、このようなオーディオ信号エンコーダ200の概略ブロック図を示す図2を参照して述べる。
【0081】
オーディオ信号エンコーダ200は、複数のオーディオオブジェクト信号210a〜210Nを受信するように構成されている。オーディオオブジェクト信号210a〜210Nは、例えば、異なるオーディオオブジェクトを表す1チャネル信号又は2チャネル信号とすることができる。
【0082】
オーディオ信号エンコーダ200は、オーディオオブジェクト信号210a〜210Nによって表される聴覚場面をコンパクトかつビットレート効率的に記述するビットストリーム表現220を生成するようにも構成されている。
【0083】
オーディオ信号エンコーダ200はダウンミキサ220を備えており、ダウンミキサ220はオーディオオブジェクト信号210a〜210Nを受信し、オーディオオブジェクト信号210a〜210Nに基づきダウンミックス信号232を生成するように構成されている。ダウンミキサ230は、ダウンミックス信号の1つ以上のチャネルへのオーディオオブジェクト信号210a〜210Nの寄与を記述するダウンミックスパラメータに依存してダウンミックス信号232を生成するように構成されている。
【0084】
オーディオ信号エンコーダはパラメータプロバイダ240も備えており、パラメータプロバイダ240は、関連するオーディオオブジェクト信号210a〜210Nの複数のペアに関連づけられる共通のオブジェクト間相関ビットストリームパラメータ値242を生成するように構成されている。パラメータプロバイダ240は、(異なるオーディオ・オブジェクト・ペアに個々に関連づけられる)複数の個々のオブジェクト間相関ビットストリームパラメータの代わりに共通のオブジェクト間相関ビットストリームパラメータ値242が生成されることを示すビットストリーム・シグナリング・パラメータ244を生成するようにも構成されている。
【0085】
オーディオ信号エンコーダ200はビットストリームフォーマッタ250も備えており、ビットストリームフォーマッタ250はダウンミックス信号232の表現(例えば、ダウンミックス信号232の符号化された表現)と、共通のオブジェクト間相関ビットストリームパラメータ値242の表現(例えば、その量子化されて符号化された表現)と、ビットストリーム・シグナリング・パラメータ244(例えば、1ビットパラメータ値の形式)とを含むビットストリーム表現250を生成するように構成されている。
【0086】
オーディオ信号エンコーダ200は、結果的に、オーディオオブジェクト信号210a〜210Nによって高精度で記述されるオーディオ場面を表すビットストリーム表現220を生成する。具体的には、オーディオオブジェクト信号210a〜210Nのうちの多くが互いに関連していれば、即ち無視できないオブジェクト間相関を含んでいれば、ビットストリーム表現220はコンパクトなサイド情報を含む。この場合、オーディオ・オブジェクト・ペアに個々に関連づけられる個々のオブジェクト間相関ビットストリームパラメータ値の代わりに、共通のオブジェクト間相関ビットストリームパラメータ値242が生成される。したがって、オーディオ信号エンコーダは、何れにしても、関連するオーディオオブジェクト信号210a〜210Nのペアが多く存在する場合、及び関連するオーディオオブジェクト信号210a〜210Nのペアが少ししか存在しない場合の双方で、コンパクトなビットストリーム表現220を生成することができる。特に、コンパクトなビットストリーム表現220は、オーディオ信号デコーダ100により入力情報として必要とされる情報、即ちダウンミックス信号表現110及びオブジェクト関連パラメータ情報112を含むことができる。したがって、パラメータプロバイダ240は、オーディオオブジェクト信号210a〜210Nをダウンミキサ230により実行されるダウンミックスプロセスとともに記述する追加的なオブジェクト関連パラメータ情報を生成するように構成することができる。例えば、パラメータプロバイダ240は、オーディオオブジェクト信号210a〜210Nのオブジェクトレベル(又はオブジェクトレベル差)を記述するオブジェクトレベル差情報OLDを追加的に生成することができる。さらに、パラメータプロバイダ240は、ダウンミックス信号232の1つ以上のチャネルを形成する際に個々のオーディオオブジェクト信号210a〜210Nへ適用されるダウンミックス利得を記述するダウンミックス利得情報DMGを生成することができる。ダウンミックス信号232の異なるチャネル間のダウンミックス利得差を記述するダウンミックス・チャネル・レベル差値DCLDもまた、ビットストリーム表現220へ包含するために、パラメータプロバイダ240が場合により生成することができる。
【0087】
上記を要約すると、オーディオ信号エンコーダは、オーディオオブジェクト信号210a〜210Nによって記述されるオーディオ場面を優れた聴感で再構成するために必要とされるオブジェクト関連パラメータ情報を効率的に生成する。その場合、多数の関連オーディオ・オブジェクト・ペアが存在すれば、コンパクトな共通のオブジェクト間相関ビットストリームパラメータ値が用いられる。これは、ビットストリーム・シグナリング・パラメータ244を用いて信号として与えられる。したがって、このような場合、過度のビットストリーム負荷が回避される。
【0088】
以下、ビットストリーム表現の生成に関する詳細についてさらに述べる。
【0089】
3.図3によるビットストリーム
図3は、本発明の一実施形態によるビットストリーム300を概略的な表現を示したものである。
【0090】
ビットストリーム300は、例えば、オーディオ信号デコーダ100の入力ビットストリームであって、ダウンミックス信号表現110及びオブジェクト関連パラメータ情報112をもっているものとすることができる。ビットストリーム300は、オーディオ信号エンコーダ200により出力ビットストリーム220として生成することができる。
【0091】
ビットストリーム300はダウンミックス信号表現310を含み、ダウンミックス信号表現310は複数のオーディオオブジェクトのオーディオ信号を結合する1チャネル又は多チャネルのダウンミックス信号(例えば、ダウンミックス信号232)の表現である。ビットストリーム300は、オーディオオブジェクトの特徴を記述するオブジェクト関連のパラメトリックなサイド情報320も含み、オーディオオブジェクトのオーディオオブジェクト信号はダウンミックス信号表現310によって結合された形式で表される。オブジェクト関連のパラメトリックなサイド情報320はビットストリーム・シグナリング・パラメータ322を含み、ビットストリーム・シグナリング・パラメータ322はビットストリームが(異なるオーディオ・オブジェクト・ペアに個々に関連づけられる)個々のオブジェクト間相関ビットストリームパラメータを含むか、(複数の異なるオーディオ・オブジェクト・ペアに関連づけられる)共通のオブジェクト間相関ビットストリームパラメータ値を含むかを示す。オブジェクト関連のパラメトリックなサイド情報は、ビットストリーム・シグナリング・パラメータ322の第1の状態によって示される複数の個々のオブジェクト間相関ビットストリームパラメータ値324a、又はビットストリーム・シグナリング・パラメータ322の第2の状態によって示される共通のオブジェクト間相関ビットストリームパラメータ値も含む。
【0092】
したがって、ビットストリーム300は、ビットストリーム300のフォーマットを個々のオブジェクト間相関ビットストリームパラメータ値の表現又は共通のオブジェクト間相関ビットストリームパラメータ値の表現を包含するように適応させることにより、オーディオオブジェクト信号210a〜210Nの関係性特性に適応させることができる。
【0093】
ビットストリーム300は、結果的に、コンパクトなサイド情報を有する異なるタイプのオーディオ場面を効率的に符号化する機会を与えると同時に、関連性の強いオーディオオブジェクトが少数しか存在しない場合に優れた聴感を達成する機会も保持する。
【0094】
続いて、ビットストリームに関する詳細についてさらに論じる。
【0095】
4.図4によるMPEG SAOCシステム
以下、図4を参照して、単一のIOCパラメータ計算を用いるMPEG SAOCシステムについて述べる。
【0096】
図4によるMPEG SAOCシステム400は、SAOCエンコーダ410と、SAOCデコーダ420とを備えている。
【0097】
SAOCエンコーダ410は、複数の、例えばL個のオーディオオブジェクト信号420a〜420Nを受信するように構成されている。SAOCエンコーダ410はダウンミックス信号表現430とサイド情報432とを生成するように構成されており、ダウンミックス信号表現430とサイド情報432は必ずしもビットストリームに包含されなければならないということはないが、好ましくはビットストリームに包含される。
【0098】
SAOCエンコーダ410はSAOCダウンミックス処理440を含み、SAOCダウンミックス処理440はオーディオオブジェクト信号420a〜420Nを受信し、これらに基づきダウンミックス信号表現430を生成する。SAOCエンコーダ410はパラメータ抽出器444も備えており、パラメータ抽出器444はオブジェクト信号420a〜420Nを受信することができ、場合によりSAOCダウンミックス処理440に関する情報(例えば、1つ以上のダウンミックスパラメータ)も受信することができる。パラメータ抽出器444は単一オブジェクト間相関計算器448を備えており、単一オブジェクト間相関計算器448は複数のオーディオ・オブジェクト・ペアに関連づけられる単一(共通)のオブジェクト間相関値を計算するように構成されている。また、単一オブジェクト間相関計算器448は、オブジェクトペア個別的なオブジェクト間相関値の代わりに単一のオブジェクト間相関値が使用されるかどうかを指示する単一オブジェクト間相関信号452を生成するようにも構成されている。単一オブジェクト間相関計算器448は、共通する単一のオブジェクト間相関値(又はそれに代わって、オーディオオブジェクト信号のペア毎に関連づけられる複数の個々のオブジェクト間相関パラメータ値)が生成されるかどうかを、例えば、オーディオオブジェクト信号420a〜420Nの分析に基づいて決定することができる。しかしながら、単一オブジェクト間相関計算器448は、共通のオブジェクト間相関値(例えば、1つのビットストリームパラメータ値)が計算されるべきか、個々のオブジェクト間相関値(例えば、複数のビットストリームパラメータ値)が計算されるべきかを決定する外部制御情報も受信することができる。
【0099】
パラメータ抽出器444は、例えばオブジェクトレベル差パラメータのようなオーディオオブジェクト信号420a〜420Nを記述する複数のパラメータを生成するようにも構成されている。またパラメータ抽出器444は、好適には、例えばダウンミックス利得パラメータDMGのセット及びダウンミックス・チャネル・レベル差パラメータDCLDのセットのようにダウンミックスを記述するパラメータを生成するようにも構成されている。
【0100】
SAOCエンコーダ410は、パラメータ抽出器444により生成されるパラメータを量子化する量子化456を含む。例えば、共通するオブジェクト間相関パラメータは量子化456によって量子化することができる。さらに、オブジェクトレベル差パラメータ、ダウンミックス利得パラメータ及びダウンミックス・チャネル・レベル差パラメータも量子化456によって量子化することができる。したがって、量子化456により、量子化されたパラメータが得られる。
【0101】
SAOCエンコーダ410は、量子化456により生成される量子化されたパラメータを符号化するように構成されている雑音のないコーディング460も含む。例えば、雑音のないコーディングは、量子化された共通するオブジェクト間相関パラメータ及び他の量子化されたパラメータ(例えば、OLD、DMG及びDCLD)も雑音なしに符号化することができる。
【0102】
したがって、SAOCエンコーダ410は、サイド情報432が単一IOC信号452(これはビットストリーム・シグナリング・パラメータと考えてよい。)と、雑音のないコーディング480により生成される雑音なしにコーディングされたパラメータ(これはビットストリームパラメータ値と考えてもよい。)とを含むように、サイド情報を生成する。
【0103】
SAOCデコーダ420は、SAOCエンコーダ410によって生成されるサイド情報432と、SAOCエンコーダ410によって生成されるダウンミックス信号表現430とを受信するように構成されている。
【0104】
SAOCデコーダ420は雑音のない復号464を含み、雑音のない復号464はエンコーダ410において実行されたサイド情報432の雑音のないコーディング460を逆転するように構成されている。SAOCデコーダ420は脱量子化468も含む。脱量子化468は逆量子化と考えてもよく(それでも、厳密に言えば、量子化を完璧な精度で逆転することはできない。)、脱量子化468は復号されたサイド情報466を雑音のない復号464から受信するように構成されている。脱量子化468は脱量子化されたパラメータ470、例えば単一オブジェクト間相関計算器448によって生成され、復号及び脱量子化された共通のオブジェクト間相関値を生成し、かつ復号及び脱量子化されたオブジェクトレベル差値OLD、復号及び脱量子化されたダウンミックス利得値DMG、並びに復号及び脱量子化されたダウンミックス・チャネル・レベル差値DCLDも生成する。SAOCデコーダ420は単一オブジェクト間相関エキスパンダ474も備えており、単一オブジェクト間相関エキスパンダ474は複数の関連オーディオ・オブジェクト・ペアに関連づけられる複数のオブジェクト間相関値を共通のオブジェクト間相関値に基づいて生成するように構成されている。しかしながら、実施形態によっては、単一オブジェクト間相関エキスパンダ474が雑音のない復号464及び脱量子化468より前に配置されてもよいことに留意されるべきである。例えば、単一オブジェクト間相関エキスパンダ474は、ダウンミックス信号表現430及びサイド情報432の双方を含むビットストリームを受信するビットストリームパーサに統合されてもよい。
【0105】
SAOCデコーダ420はSAOCデコーダ処理及びミキシング480も含み、SAOCデコーダ処理及びミキシング480はダウンミックス信号表現430と、サイド情報432に(符号化された形式で)含まれていて復号されたパラメータとを受信するように構成されている。したがって、SAOCデコーダ処理及びミキシング480は、例えば(異なる)オーディオ・オブジェクト・ペア毎に1つ又は2つのオブジェクト間相関値を受信することができ、この場合、その1つ又は2つのオブジェクト間相関値は、関連のないオーディオオブジェクトではゼロ、関連のあるオーディオオブジェクトでは非ゼロとすることができる。さらに、SAOCデコーダ処理及びミキシング480は、あらゆるオーディオオブジェクトのオブジェクトレベル差値を受信することができる。さらに、SAOCデコーダ処理及びミキシング480は、SAOCダウンミックス処理440において実行されたダウンミックスを記述するダウンミックス利得値及び(場合により)ダウンミックス・チャネル・レベル差値を受信することができる。したがって、SAOCデコーダ処理及びミキシング480は、ダウンミックス信号表現430、サイド情報432に含まれるサイド情報パラメータ及びオーディオオブジェクトの所望されるレンダリングを記述する相互作用情報482に依存して、複数のチャネル信号484a〜484Nを生成することができる。しかしながら、チャネル484a〜484Nは、個々のオーディオチャネル信号の形式、又は、例えばMPEGサラウンド規格に従ったマルチチャネル表現(例えば、MPEGサラウンドダウンミックス信号及びチャネル関連MPEGサラウンドサイド情報を含む。)のようなパラメトリック表現の形式の何れで表現されてもよいことに留意されるべきである。換言すれば、本明細書本文においては、個々のチャネルオーディオ信号表現及びパラメトリックなマルチチャネルオーディオ信号表現の双方がアップミックス信号表現として考慮される。
【0106】
以下、SAOCエンコーダ410及びSAOCデコーダ420の機能に関する幾つかの詳細について述べる。
【0107】
以下で論じるSAOCサイド情報は、SAOC符号化及びSAOC復号化において重要な役割を果たす。SAOCサイド情報は、入力されるオブジェクト(オーディオオブジェクト)をその時間/周波数可変共分散行列によって記述する。N個のオブジェクト信号420a〜420N(単に「オブジェクト」と示される場合もある。)は、行列:
における列(rows)として記すことができる。ここで、エントリsi(l)は、時間指数lを有する複数の時間部分に関するオーディオオブジェクト指数iを有するオーディオオブジェクトのスペクトル値を示す。L個のサンプルによる信号ブロックは、信号特性の記述に適用される時間−周波数平面の知覚的に動機付けされるタイリング(tiling)の一部である1つの時間及び周波数間隔内の信号を表す。
【0108】
ゆえに、共分散行列は、
但し、
として与えられる。
【0109】
この共分散行列は、典型的には、SAOCデコーダ処理及びミキシング480によってチャネル信号484a〜484Nを取得するために用いられる。
【0110】
対角要素は、SAOCデコーダ側においてOLDデータによって直接に再構成されることができ、非対角要素は、オブジェクト間相関(IOC)により、
として与えられる。オブジェクトレベル差値がsm及びsnを表していることに留意されるべきである。
【0111】
共分散行列全体を表わすために必要とされるオブジェクト間相関値の数は、N*N/2−N/2である。この数は膨大になって(例えば、オブジェクト信号の数が多い場合)、高いビット要求に繋がる可能性があることから、SAOCエンコーダ410(ならびにオーディオ信号エンコーダ200)は、場合により、互いに信号で「関連あり」と表されるオブジェクトペアに関して選択されたオブジェクト間相関値のみを伝送することができる。この任意の「関連あり」情報は、例えばビットストリームのSAOC固有のコンフィギュレーション構文要素において静的に表され、例えば「SAOCSpecificConfig()」で示すことができる。互いに関連していないオブジェクトは、例えば無相関であると想定され、即ちそのオブジェクト間相関はゼロに等しい。
【0112】
しかしながら、全てのオブジェクト(又は、略全てのオブジェクト)が互いに関連している適用の筋書きが存在する。このような適用の筋書きの一例は、マイクロホンの設備を用い室内音響が高度のマイクロホン間クロストークを伴う電話会議である。これらの事例では、(上述の従来的機構が使用されれば)全てのIOC値の伝送が必要になり、通常は、所望されるビット割当量を超過するであろう。別の方法として、全てのオブジェクトが無相関であると想定することは、多大なモデルエラーを誘発し、そのために、再現される場面は準最適なオーディオ品質となるであろう。
【0113】
提案アプローチの基礎は、所定のSAOC適用の筋書きの場合、無相関の音源は、それらが位置決めされる音響環境に起因して、かつ適用される録音技術に起因して相関するSAOC入力オブジェクトをもたらすという想定にある。
【0114】
例えば、電話会議の装備について考察すると、室内残響音及び個々のスピーカの不完全な隔離による影響は、個々の対象者の発話が無相関であっても相関されたSAOCオブジェクトに繋がる。これらの音響的状況及び結果としての相関性は、単一の周波数及び時間可変値によってほぼ記述することができる。
【0115】
したがって、本提案方法は、所望されるオブジェクト相関性を全て表わす高ビットレート要求をうまく回避する。これは、SAOCエンコーダにおける専用の「単一IOC計算器」モジュール448(図4)において単一の時間/周波数依存単一IOC値を計算することによって行われる。「単一IOC」機能の使用は、信号としてSAOC情報(例えば、ビットストリーム・シグナリング・パラメータ「bsOneIOC」を用いて)で表わされる。その後、時間/周波数タイルごとに単一のIOC値が、別々の全てのIOC値の代わりに(例えば、共通のオブジェクト間相関ビットストリームパラメータ値を用いて)伝送される。
【0116】
ある典型的な適用において、ビットストリームヘッダ(例えば、未公開のSAOC規格[SAOC](非特許文献5)に従った「SAOCSpecificConfig()」要素)は、「単一IOC」信号が使用されるか、「標準的な」IOC信号が使用されるかを示す1ビットを含む。以下、この問題に関する幾つかの詳細について論じる。
【0117】
ペイロード・フレーム・データ(例えば、未公開のSAOC規格[SAOC](非特許文献5)における「SAOCFrame()」要素)は、次に、「単一IOC」モード又は「標準」モードに依存して全てのオブジェクト又は幾つかのIOCに共通するIOCを含む。
【0118】
ゆえに、デコーダ内のペイロードデータのためのビットストリームパーサ(SAOCデコーダの一部であってもよい)は、下記の例(擬似Cコードで定式化されている)に従って設計することができる。
if (iocMode == SINGLE_IOC)
{
readIocDataFromBitstream(1);
}
else
{
readIocDataFromBitstream (numberOfTransmittedIocs);
}
【0119】
上記の例によれば、ビットストリームパーサは、フラグ「iocMode」(以下、「bsOneIOC」でも示される)が唯一のオブジェクト間相関ビットストリームパラメータ値(パラメータ値「SINGLE_IOC」によって信号として表わされる)の存在を示しているかどうかをチェックする。ビットストリームパーサは、唯一のオブジェクト間相関値が存在していることを発見すると、ビットストリームから、演算「readIocDataFromBitstream(1)」により示される1つのオブジェクト間相関データユニット(即ち、1つのオブジェクト間相関ビットストリームパラメータ値)を読み取る。これに対して、フラグ「iocMode」が単一(共通)のオブジェクト間相関値の使用を示していないことを発見すると、ビットストリームパーサは、ビットストリームから、関数「readIocDataFromBitstream(numberOfTransmittedIocs)」により示される異なる数のオブジェクト間相関データユニット(即ち、複数のオブジェクト間相関ビットストリームパラメータ値)を読み取る。この場合に読み取られるオブジェクト間相関データユニットの数(「numberOfTransmittedIocs」)は、典型的には、関連オーディオ・オブジェクト・ペアの数によって決定される。
【0120】
あるいは、「単一IOC」信号は、単一IOCモードと標準IOCモードとの間のフレーム毎の動的切換を有効化するために、ペイロードフレーム内(例えば、未公開のSAOC規格における所謂「SAOCFrame()」要素内)に存在することもできる。
【0121】
5.共通するオブジェクト間相関ビットストリームパラメータのエンコーダ側での計算の実施
以下、単一IOC(IOCsingle)計算の幾つかの好適な実施について述べる。
【0122】
5.1 クロスパワー項を用いる計算
SAOCエンコーダ410の好適な一実施形態において、共通のオブジェクト間相関ビットストリームパラメータ値IOCsingleは、次式にしたがって計算することができる。
但し、クロスパワー項は、
である。ここで、n及びkは、SAOCパラメータが適用される時間及び周波数インスタンス(又は時間及び周波数指数)である。
【0123】
換言すれば、共通のオブジェクト間相関ビットストリームパラメータ値IOCsingleは、クロスパワー項nrgij(この場合、オブジェクト指数iは、典型的にはオブジェクト指数jとは異なる)の和と、平均エネルギー値
(この平均エネルギー値は、例えば、エネルギー値nrgiiとnrgjjとの幾何学的平均を表す)の和との割合に依存して計算することができる。
【0124】
この加算は、例えば全ての異なるオーディオ・オブジェクト・ペアについて実行してもよく、関連オーディオ・オブジェクト・ペアのみについて実行してもよい。
【0125】
クロスパワー項nrgijは、例えば、複数の時間インスタンス(時間指数nを有する)及び/又は複数の周波数インスタンス(周波数指数kを有する)について考慮されるオーディオ・オブジェクト・ペアのオーディオオブジェクト信号に関連づけられるスペクトル係数sin,k、sjn,kの複素共役積(因数のうちの1つが複素共役される)の和として形成することができる。
【0126】
上述の方程式に示されているように、実数値の共通のオブジェクト間相関ビットストリームパラメータ値IOCsingleを有するために、前記割合の実数部を(例えば、演算Re{}によって)形成することができる。
【0127】
5.2 定値の使用
別の好適な実施形態において、共通のオブジェクト間相関ビットストリームパラメータ値IOCsingleを取得するために、
IOCsingle=c
に従って定値cを選ぶことができる。但し、cは定数である。
【0128】
この定数cは、例えば、電話会議が行われる固有の音響(残響量)を有する部屋の時間及び周波数非依存クロストークを記述できるかも知れない。
【0129】
定数cは、例えば、室内音響の推定に従って設定することができ、SAOCエンコーダによって実行することができる。あるいは、定数cは、ユーザインタフェースを介して入力しても、又はSAOCエンコーダ410において予め定めてもよい。
【0130】
6.全てのオブジェクトペアに関するデコーダ側のオブジェクト間相関値の決定
以下、全てのオブジェクトペアについてオブジェクト間相関値を如何にして取得できるかについて述べる。
【0131】
デコーダ側では(例えば、SAOCデコーダ420において)、単一のオブジェクト間相関(ビットストリーム)パラメータ(IOCsingle)を用いて全てのオブジェクトペアのオブジェクト間相関値が決定される。これは、例えば、「単一IOCエキスパンダ」モジュール474(図4参照)において行われる。
【0132】
ある好適な方法は、単純なコピー動作である。コピーは、例えば、SAOCビットストリームヘッダにおいて(例えば、「SAOCSpecificConfiguration()」部分において)伝達される「関連あり」情報を考慮して、又は考慮せずに適用することができる。
【0133】
ある好適な実施形態において、「関連あり」情報のない(即ち、「関連あり」情報を転送又は考慮しない)コピーは、下記の方式で実行することができる。
IOCmn=IOCsingle
(m≠nである全てのm、nについて。)
【0134】
したがって、異なるオーディオ・オブジェクト・ペアに関するオブジェクト間相関値は全て、共通するオブジェクト間相関(ビットストリーム)パラメータ値に設定される。
【0135】
別の好適な実施形態において、「関連あり」情報を有する(即ち、「関連あり」情報を考慮する)コピーは、例えば下記の方式で実行される。
IOCmn=IOCsingle
(m≠nかつrelatedTo(m,n)=1である全てのm、nについて。)
IOCmn=0
(m≠nかつrelatedTo(m,n)=0である全てのm、nについて。)
【0136】
したがって、オブジェクト関連情報「relatedTo(m,n)」がそのオーディオオブジェクトは互いに関連していることを示していれば、(オーディオオブジェクト指数m及びnを有する)オーディオオブジェクトのペアに関連づけられる1つの、又は2つでさえあるオブジェクト間相関値は、例えば共通のオブジェクト間相関ビットストリームパラメータ値によって指定される値IOCsingleに設定される。そうでなければ、即ち、オブジェクト関連情報「relatedTo(m,n)」があるオーディオ・オブジェクト・ペアのオーディオオブジェクトは関連していないことを示していれば、そのオーディオオブジェクトのペアに関連づけられる1つの、又は2つでさえあるオブジェクト間相関値は、既定の値、例えばゼロに設定される。
【0137】
しかしながら、例えば、オブジェクトの電力を考慮した異なる分配方法も可能である。例えば、比較的低い電力を有するオブジェクトに関するオブジェクト間相関値は、SAOCデコーダにおける脱相関フィルタの影響を最小限に抑えるために、1(完全相関)等の高値に設定することができる。
【0138】
7.図5及び図6によるビットストリーム要素を用いるデコーダ概念
以下、図5及び図6によるビットストリーム構文要素を用いるオーディオ信号デコーダのデコーダ概念について述べる。ここで、図5及び図6を参照して述べるビットストリーム構文及びビットストリーム評価概念が、例えば図1によるオーディオ信号デコーダ100においても、図4によるオーディオ信号デコーダ420においても適用され得ることに留意されるべきである。さらに、図2によるオーディオ信号エンコーダ200及び図4によるオーディオ信号デコーダ410は、図5及び図6に関連して論じられるようなビットストリーム構文要素を生成するように適合化され得ることにも留意されるべきである。
【0139】
したがって、ダウンミックス信号表現110及びオブジェクト関連パラメータ情報112を備えているビットストリーム、及び/又はビットストリーム表現220、及び/又はビットストリーム300、及び/又はダウンミックス情報430及びサイド情報432を含むビットストリームは、以下の説明に従って生成することができる。
【0140】
上述のSAOCエンコーダにより生成することができ、かつ上述のSAOCデコーダにより評価することのできるSAOCビットストリームは、以下で図5を参照して述べるSAOC固有のコンフィギュレーション部分を含むことができる。図5はこのようなSAOC固有のコンフィギュレーション部分「SAOCSpecificConfig()」の構文表現を示している。
【0141】
SAOC固有のコンフィギュレーション情報は、例えば、サンプリング周波数コンフィギュレーション(sampling frequency configuration)情報を含み、サンプリング周波数コンフィギュレーション情報は、オーディオ信号エンコーダにより使用され、かつ/又はオーディオ信号デコーダにより使用されるべきサンプリング周波数を記述する。また、SAOC固有のコンフィギュレーション情報は低遅延モードコンフィギュレーション(low delay mode configuration)情報も含み、低遅延モードコンフィギュレーション情報は、低遅延モードがオーディオ信号エンコーダにより使用されてきているかどうか、かつ/又はオーディオ信号デコーダにより使用されるべきかどうかを記述する。またSAOC固有のコンフィギュレーション情報は周波数分解能コンフィギュレーション(frequency resolution configuration)情報も含み、周波数分解能コンフィギュレーション情報は、オーディオ信号エンコーダにより使用され、かつ/又はオーディオ信号デコーダにより使用されるべき周波数分解能を記述する。またSAOC固有のコンフィギュレーション情報はフレーム長さコンフィギュレーション(frame length configuration)情報も含み、フレーム長さコンフィギュレーション情報は、SAOCエンコーダにより使用され、かつ/又はSAOCデコーダにより使用されるべきオーディオフレームのフレーム長さを記述する。またSAOC固有のコンフィギュレーション情報は、オーディオオブジェクトの数を記述するオブジェクト数コンフィギュレーション(object number configuration)情報も含む。「bsNumObjects」でも示されるこのオブジェクト数コンフィギュレーション情報は、例えば、これまでの説明で使用された値Nを記述する。
【0142】
SAOC固有のコンフィギュレーション情報は、オブジェクト関係性コンフィギュレーション(object relationship configuration)情報も含む。例えば、異なるオーディオ・オブジェクトのペアに悉く1ビットストリームビットを存在させることができる。しかしながら、オーディオオブジェクトの関係性は、例えば、オーディオオブジェクトの組合せ毎に1ビットのエントリを有するN×N正方行列によって表すことができる。前記行列でオブジェクトとそのオブジェクト自体との関係性を記述するエントリ、すなわち対角要素は1に設定することができ、それはあるオブジェクトがそれ自体に関連づけられることを示す。2つのエントリ、すなわち第1の指数iと第2の指数jとを有する第1のエントリ及び第1の指数jと第2の指数iとを有する第2のエントリは、オーディオオブジェクト指数i及びjを有する異なるオーディオ・オブジェクト・ペアの各々に関連づけることができる。したがって、単一のビットストリームビットは、オブジェクト関連性行列の2エントリの値を決定し、それらの2つのエントリの値は同一値に設定される。
【0143】
図5から分かるように、第1のオーディオオブジェクト指数iは、i=0からi=bsNumObjectsへと進む(外側のforループ)。対角エントリ「bsRelatedTo[i][i]」は、全てのi値に対して1に設定される。第1のオーディオオブジェクト指数iに関して、オーディオオブジェクトiとオーディオオブジェクトj(オーディオオブジェクト指数jを有する)との関係性を記述するビットは、j=i+1からj=bsNumObjectsまでのビットストリームに含まれる。したがって、オーディオオブジェクト指数i及びjを有するオーディオオブジェクト間の関係性を記述する関係性行列のエントリ「bsRelatedTo[i][j]」は、ビットストリーム内に与えられる値に設定される。さらに、オブジェクト関連性行列のエントリ「bsRelatedTo[j][i]」は同じ値に、即ち行列エントリ「bsRelatedTo[i][j]」の値に設定される。詳細については、図5の構文表現を参照されたい。
【0144】
SAOC固有のコンフィギュレーション情報は絶対エネルギー伝送コンフィギュレーション情報(absolute energy transmission configuration)も含み、絶対エネルギー伝送コンフィギュレーション情報はオーディオエンコーダが絶対エネルギー情報をビットストリーム内へ包含しているかどうか、かつ/又はオーディオデコーダがそのビットストリームに含まれる絶対エネルギー伝送コンフィギュレーション情報を評価すべきかどうかを記述する。
【0145】
SAOC固有のコンフィギュレーション情報はダウンミックスチャネル数コンフィギュレーション(downmix-channel-number configuration)情報も含み、ダウンミックスチャネル数コンフィギュレーション情報は、オーディオエンコーダにより使用され、かつ/又はオーディオデコーダにより使用されるべきダウンミックスチャネルの数を記述する。また、SAOC固有のコンフィギュレーション情報は追加的コンフィギュレーション(additional configuration)情報も含むことができ、追加的コンフィギュレーション情報は本出願に関連せず、したがって場合により省略することができる。
【0146】
SAOC固有のコンフィギュレーション情報は共通のオブジェクト間相関コンフィギュレーション(common inter-object-correlation configuration)情報(本明細書では、「ビットストリーム・シグナリング・パラメータ」としても示される。)も含み、共通のオブジェクト間相関コンフィギュレーション情報は、共通のオブジェクト間相関ビットストリームパラメータ値がSAOCビットストリームに含まれるかどうか、又はオブジェクトペア毎のオブジェクト間相関ビットストリームパラメータ値がSAOCビットストリームに含まれるかどうかを記述する。その共通のオブジェクト間相関コンフィギュレーション情報は、例えば「bsOneIOC」で示すことができ、また1ビット値とすることができる。
【0147】
SAOC固有のコンフィギュレーション情報は、歪制御ユニットコンフィギュレーション(distortion control unit configuration)情報も含むことができる。
【0148】
さらに、SAOC固有のコンフィギュレーション情報は1つ以上の充填ビット(fill bit)を含んでもよい。充填ビットは「ByteAlign()」で示され、かつSAOC固有のコンフィギュレーション情報の長さを調整するために使用することができる。さらに、SAOC固有のコンフィギュレーション情報は任意の追加的なコンフィギュレーション情報「SAOCExtensionConfig()」を含んでもよいが、これは本出願には関連がなく、そのため本明細書では論じない。
【0149】
ここで、SAOC固有のコンフィギュレーション情報に含まれるコンフィギュレーション情報が上述のコンフィギュレーション情報より多くてもよく又は少なくてもよいことに留意されるべきである。換言すれば、実施形態によっては上述のコンフィギュレーション情報のうちの幾つかを省略することができ、また実施形態によっては更なるコンフィギュレーション情報を包含することができる。
【0150】
しかしながら、SAOC固有のコンフィギュレーション情報は、例えばSAOCビットストリームにおけるオーディオの一定量ごとに1回包含されてもよいことに留意されるべきである。しかしながら、SAOC固有のコンフィギュレーション情報は、場合によりビットストリームにそれより多く包含することができる。しかし、SAOC固有のコンフィギュレーション情報がかなりのビット負荷を与えることから、SAOC固有のコンフィギュレーション情報は、典型的には、複数のSAOCフレームに対して与えられる。
【0151】
以下、SAOCフレームの構文について、このようなSAOCフレームの構文表現を示す図6を参照して述べる。SAOCフレームは符号化されたオブジェクトレベル差値OLDを含み、符号化されたオブジェクトレベル差値OLDはバンド関連で、オーディオオブジェクト毎に包含することができる。
【0152】
SAOCフレームは符号化された絶対エネルギー値(absolute energy value)NRGも含み、符号化された絶対エネルギー値NRGは任意であると考えてもよく、バンド関連で包含されてもよい。
【0153】
SAOCフレームは符号化されたオブジェクト間相関値IOCも含み、符号化されたオブジェクト間相関値IOCは、バンド関連で、即ち複数の周波数バンドで別々に与えられてもよく、オーディオオブジェクトの複数の組合せに対して与えられてもよい。
【0154】
以下、ビットストリームについて、ビットストリームを構文解析するビットストリームパーサにより実行することのできる演算について述べる。
【0155】
ビットストリームパーサは、例えば、最初の準備段階において変数k、iocldx1、iocldx2を値ゼロに初期化することができる。
【0156】
続いて、ビットストリームパーサは、i=0からi=bsNumObjectsまでの第1のオーディオオブジェクト指数iの複数の値について構文解析を実行することができる(外側のforループ)。ビットストリームパーサは、例えば、オーディオオブジェクト指数iを有するオーディオオブジェクトとこのオーディオオブジェクト自体との関係性を記述するオブジェクト間相関指数値idxIoc[i][i]を、完全相関を示すゼロに設定することができる。
【0157】
続いて、ビットストリームパーサは、i+1からbsNumObjectsまでの第2のオーディオオブジェクト指数の値jについてビットストリームを評価することができる。オーディオオブジェクト指数i及びjを有するオーディオオブジェクトに関連があって、これがオブジェクト関連性行列のエントリ「bsRelatedTo[i][j]」の非ゼロ値によって示されておれば、ビットストリームパーサはアルゴリズム610を実行し、そうでなければ、ビットストリームパーサは、オーディオオブジェクト指数i及びjを有するオーディオオブジェクトに関連づけられるオブジェクト間相関指数を5(演算「idxIOC[i][j]=5」)に設定する。オブジェクト間相関指数の5はゼロ相関を記述する。このように、オブジェクト関連性行列が関係性のないことを示しているオーディオ・オブジェクト・ペアに対しては、オブジェクト間相関値がゼロに設定される。しかしながら、オーディオ・オブジェクト・ペアに関連があれば、SAOC固有のコンフィギュレーションに含まれるビットストリーム・シグナリング・パラメータ「bsOneIOC」が進め方を決定するために評価される。ビットストリーム・シグナリング・パラメータ「bsOneIOC」が、オブジェクトペア毎のオブジェクト間相関ビットストリームパラメータ値の存在を示していれば、関数「EcDataSaoc」を用いて、「numBands」周波数バンドのビットストリームから複数のidxIoc[i][j](オブジェクト間関係性ビットストリームパラメータ値と考えることができる。)が抽出される。この場合、その関数「EcDataSaoc」はオブジェクト間関係性指数を復号するために使用することができる。
【0158】
しかしながら、ビットストリーム・シグナリング・パラメータ「bsOneIOC」が、複数のオーディオ・オブジェクト・ペアに対して共通のオブジェクト間相関ビットストリームパラメータ値が使用されることを示し、かつビットストリームパラメータ「bsRelatedTo[i][j]」がオーディオオブジェクト指数i及びjを有するオーディオオブジェクトは関連していることを示していれば、複数のnumBands周波数バンドに対して、関数「EcDataSaoc」を用いてビットストリームから複数のオブジェクト間相関指数「idxIOC[i][j]」からなる単一セットが読み取られる。その場合、どの周波数バンドに対しても、単一のオブジェクト間相関指数のみが読み取られる。しかしながら、アルゴリズム610を再実行した時点で、先に読み取られたオブジェクト間相関指数idxIOC[iocldx1][iocldx2]はビットストリームを評価することなくコピーされる。これは変数kの使用によって保証され、変数kはゼロに初期化されかつオブジェクト間相関指数idxIOC[i][j]の最初のセットが評価された時点で増分される。
【0159】
要約すると、2つのオーディオオブジェクトによる各組合せについて、このような組合せの2つのオーディオオブジェクトが互いに関連しているとして信号で表わされているかどうかが、まず評価される(例えば、値「bsRelatedTo[i][j]」が値ゼロをとるか否かをチェックすることによって。)。そのオーディオ・オブジェクト・ペアのオーディオオブジェクトが関連していれば、さらなる処理610が実行される。そうでなければ、この(実質上関連のない)オーディオ・オブジェクト・ペアに関連づけられる値「idxIOC[i][j]」は既定値に、例えばゼロオブジェクト間相関を示す既定値に設定される。
【0160】
処理610において、信号「bsOneIOC」が不活性であれば、あらゆるオーディオ・オブジェクト・ペア(関連するオーディオオブジェクトを含むことが信号で表わされている。)についてビットストリームから1つのビットストリーム値が読み取られる。そうでなければ、即ち信号「bsOneIOC」が活性であれば、1つのオーディオ・オブジェクト・ペアにつきビットストリーム値が1つだけ読み取られ、かつ指数値iocldx1及びiocldx2をこの読取り値におけるポイントに設定することにより、前記単一のペアの参照が保持される。信号「bsOneIOC」が活性であれば、読み取られたこの単一の値は他のオーディオ・オブジェクト・ペア(互いに関連ありとして信号で表わされている。)用に再使用される。
【0161】
最後に、所定の2つのオーディオオブジェクトのどちらが第1のオーディオオブジェクトであって、所定の2つのオーディオオブジェクトのどちらが第2のオーディオオブジェクトであるかに関わらず、2つの異なる所定のオーディオオブジェクトの双方の組合せに同一のオブジェクト間相関指数値が関連づけられることも保証される。
【0162】
さらに、SAOCフレームは、典型的には、オーディオオブジェクト毎に符号化されたダウンミックス利得値(DMG)を含むことに留意されるべきである。
【0163】
さらに、SAOCフレームは、典型的には、符号化されたダウンミックス・チャネル・レベル差(DCLD)を含み、符号化されたダウンミックス・チャネル・レベル差は場合によりオーディオオブジェクト毎に含むことができる。
【0164】
SAOCフレームはさらに、場合により、符号化された処理後ダウンミックス利得値(PDG)を含み、符号化された処理後ダウンミックス利得値はバンド関連方式で、かつダウンミックスチャネル毎に含むことができる。
【0165】
さらに、SAOCフレームは符号化された歪制御ユニットパラメータ(distortion-control-unit parameters)を含むことができ、符号化された歪制御ユニットパラメータは歪制御尺度の適用を決定する。
【0166】
その上、SAOCフレームは、1つ以上の充填ビット「ByteAlign()」を含むことができる。
【0167】
さらに、SAOCフレームは、拡張データ「SAOCExtensionFrame()」を含んでもよいが、これは本出願には関連がなく、そのため本明細書では詳述しない。
【0168】
次に、図7を参照して、オブジェクト間相関パラメータの効果的な量子化の一例について述べる。
【0169】
図7から分かるように、図7の表の最初の行710は量子化指数idxを表し、量子化指数idxはゼロから7までの範囲内にある。この量子化指数は、変数「idxIOC[i][j]」へ割り付けることができる。図7の表の第2の行720は、関連するオブジェクト間相関値を−0.99から1までの範囲で示している。したがって、パラメータ「idxIOC[i][j]」の値は、図7の表のマッピングを用いて逆量子化されたオブジェクト間相関値へ移すことができる。
【0170】
結論を言えば、SAOCコンフィギュレーション部分「SAOCSpecificConfig()」は好適にはビットストリームパラメータ「bsOneIOC」を含み、ビットストリームパラメータ「bsOneIOC」は、互いに関連性を有する全てのオブジェクトに共通する単一のIOCパラメータのみが表わされているかどうかを示し、「bsRelatedTo[i][j]=1」により信号で表わされる。オブジェクト間相関値は、ビットストリーム内に符号化された形式「EcDataSaoc(IOC,k,numBands)」で含まれる。アレイ「idxIOC[i][j]」は、1つ以上の符号化されたオブジェクト間相関値に基づき埋められる。アレイ「idxIOC[i][j]」のエントリは、逆量子化されたオブジェクト間相関値を取得するために、図7のマッピング表を用いて逆量子化された値へ移される。IOCi,jで示される逆量子化されたオブジェクト間相関値は、共分散行列のエントリを取得するために用いられる。この目的に沿って、OLDiで示される逆量子化されたオブジェクトレベル差パラメータも適用される。
【0171】
複数の要素ei,jを有するサイズN×Nの共分散行列Eは、元の信号の共分散行列
の近似値を表し、かつ、
としてOLD及びIOCパラメータから取得される。
【0172】
7.実施の変形例
以上、幾つかの態様を装置の文脈で説明したが、これらの態様は対応する方法を記述するものでもあることは明らかでああり、その場合、ブロック又はデバイスが方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様も、対応するブロックもしくは項目、又は対応する装置の特徴の説明を表す。これらの方法ステップのうちの幾つか又は全ては、例えばマイクロプロセッサ、プログラマブルコンピュータ又は電子回路のようなハードウェア装置によって(又はこれを使用して)実行することができる。実施形態によっては、最も重要な方法ステップのうちのどれか1つ又は複数の方法ステップがこのような装置によって実行することができる。
【0173】
本発明による符号化されたオーディオ信号は、デジタル記憶媒体に蓄積されることが可能であり、又は無線伝送媒体等の伝送媒体上又はインターネット等の有線伝送媒体上で伝送されることが可能である。
【0174】
所定の実施要請に依存して、本発明の実施形態はハードウェア又はソフトウェアで実施されることが可能である。実施は電子的に読取り可能な制御信号を蓄積しているデジタル記憶媒体、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリ、を用いて実行されることが可能であり、それらのデジタル記憶媒体は個々の方法が実行されるようにプログラム可能コンピュータシステムと協働する(又は協働することができる)。したがって、デジタル記憶媒体はコンピュータ読取り可能とすることができる。
【0175】
本発明による幾つかの実施形態は、本明細書に記載されている方法のうちの1つが実行されるようにプログラム可能コンピュータシステムと協働できる電子的に読取り可能な制御信号を有するデータキャリアを含んでいる。
【0176】
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム製品として実施されることが可能であり、前記プログラムコードは、このコンピュータ・プログラム製品がコンピュータ上で実行されると本発明の方法のうちの1つを実行するように作動する。プログラムコードは、例えば機械読取り可能キャリアに蓄積することができる。
【0177】
他の実施形態は、機械読取り可能キャリアに蓄積された、本明細書に記載されている本発明方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0178】
したがって、換言すれば、本発明方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されると本明細書に記載されている本発明方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0179】
したがって、本発明方法のさらなる実施形態は、本明細書に記述されている本発明方法のうちの1つを実行するためのコンピュータプログラムを記録して備えているデータキャリア(又はデジタル記憶媒体又はコンピュータ読取り可能媒体)である。データキャリア、デジタル記憶媒体又は記録媒体は、典型的には有形及び/又は非遷移性(non-transitionary)である。
【0180】
したがって、本発明方法のさらなる実施形態は、本明細書に記載されている本発明方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
【0181】
さらなる実施形態は、本明細書に記載されている本発明方法のうちの1つを実行するように構成されているか又は適合化される、例えばコンピュータである処理手段又はプログラマブル論理デバイスを含む。
【0182】
さらなる実施形態は、本明細書に記載されている本発明方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
【0183】
実施形態によっては、本明細書に記載されている本発明方法の機能の幾つか又は全てを実行するために、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲートアレイ)を用いることができる。実施形態によっては、フィールド・プログラマブル・ゲートアレイは、本明細書に記載されている本発明方法のうちの1つを実行するためにマイクロプロセッサと協働することができる。概して、これらの方法は、好適には任意のハードウェア装置によって実行される。
【0184】
これまでに述べた実施形態は、単に本発明の原理を例示するものである。当業者には、本明細書に記載されている装置及び詳細の修正及び変形が明らかであることは理解される。したがって、本発明は、本明細書における実施形態の記述及び説明によって提示された特定の詳細ではなく、添付の特許請求の範囲によってのみ限定されるべきものである。
【技術分野】
【0001】
本発明による実施形態は、ダウンミックス信号表現及びオブジェクト関連パラメータ情報に基づき、かつレンダリング情報に依存してアップミックス信号表現を生成するためのオーディオ信号デコーダに関する。
【0002】
本発明による他の実施形態は、複数のオーディオオブジェクト信号に基づきビットストリーム表現を生成するためのオーディオ信号エンコーダに関する。
【0003】
本発明による他の実施形態は、ダウンミックス信号表現及びオブジェクト関連パラメータ情報に基づき、かつレンダリング情報に依存してアップミックス信号表現を生成するための方法に関する。
【0004】
本発明による他の実施形態は、複数のオーディオオブジェクト信号に基づきビットストリーム表現を生成するための方法に関する。
【0005】
本発明による他の実施形態は、前記方法を実行するためのコンピュータプログラムに関する。
【0006】
本発明による他の実施形態は、マルチチャネルオーディオ信号を表現するビットストリームに関する。
【背景技術】
【0007】
オーディオ処理、オーディオ伝送及びオーディオ蓄積の技術分野では、聴感を良くするためにマルチチャネルコンテンツを取り扱おうという要望が高まりつつある。マルチチャネル・オーディオ・コンテンツの使用は、ユーザに著しい改善をもたらすものである。例えば、3次元聴感を得ることも可能であって、娯楽に適用すればユーザの満足度が高まる。その一方で、マルチチャネル・オーディオ・コンテンツは、マルチチャネルオーディオ再生の使用によってスピーカの了解度が向上され得ることから、職場環境において、例えば電話会議への適用においても有益である。
【0008】
しかしながら、マルチチャネルアプリケーションによって生じる資源の過剰な負荷を回避するために、オーディオ品質とビットレート要件との間に良好な得失評価を有することもまた望ましい。
【0009】
最近では、複数のオーディオオブジェクトを含むオーディオ場面のビットレート効率のよい伝送及び/又は蓄積を行なうためのパラメトリック手法、例えばバイノーラルキュー符号化(Binaural Cue Coding:BCC)(タイプI)(例えば、非特許文献1参照)、情報源符号化(Joint Source Coding:JSC)(例えば、非特許文献2参照)及びMPEG空間オーディオオブジェクト符号化(Spatial Audio Object Coding:SAOC)(例えば、非特許文献3、非特許文献4及び未公開非特許文献5参考)が提案されている。
【0010】
これらの手法の目的は、波形一致ではなく、所望される出力オーディオ場面を知覚的に再構成することにある。
【0011】
図8は、このようなシステム(ここでは、MPEG SAOC)のシステム概観を示す。また、図9Aも、このようなシステム(ここでは、MPEG SAOC)のシステム概観を示す。
【0012】
図8に示されているMPEG SAOCシステム800は、SAOCエンコーダ810と、SAOCデコーダ820とを備えている。SAOCエンコーダ810は、例えば時間領域信号として、又は時間周波数領域信号として(例えば、フーリエ型変換の変換係数セットの形式又はQMFサブバンド信号の形式で)表現される場合がある複数のオブジェクト信号x1〜xNを受信する。SAOCエンコーダ810は、典型的には、オブジェクト信号x1〜xNに関連づけられるダウンミックス係数d1〜dNも受信する。ダウンミックス係数は、ダウンミックス信号のチャネル毎に別々のセットが利用可能である場合がある。SAOCエンコーダ810は、典型的には、関連づけられるダウンミックス係数d1〜dNに従ってオブジェクト信号x1〜xNを結合することにより、ダウンミックス信号のチャネルを取得するように構成されている。典型的には、存在するダウンミックスチャネルの数はオブジェクト信号x1〜xNより少ない。SAOCデコーダ820側におけるオブジェクト信号の分離(又は分離処理)を(少なくとも概略的に)可能にするために、SAOCエンコーダ810は、サイド情報814と1つ以上のダウンミックス信号(ダウンミックスチャネルとして示される)812の双方を生成する。サイド情報814は、デコーダ側のオブジェクト指定処理を可能にするために、オブジェクト信号x1〜xNの特徴を記述する。
【0013】
SAOCデコーダ820は、サイド情報814と1つ以上のダウンミックス信号812の双方を受信するように構成されている。また、SAOCデコーダ820は、典型的には、ユーザ相互作用情報及び/又はユーザ制御情報822を受信するように構成されている。ユーザ相互作用情報及び/又はユーザ制御情報822は、所望されるレンダリング設定を記述するものであり、例えば、スピーカの設定及びオブジェクトの所望される空間配置について記述することができ、これらはオブジェクト信号x1〜xNを与える。
【0014】
SAOCデコーダ820は、例えば、複数の復号されたアップミックスチャネル信号?1〜?Mを生成するように構成されている。アップミックスチャネル信号は、例えばマルチスピーカレンダリング配置の個々のスピーカに関連づけることができる。SAOCデコーダ820は、例えば、オブジェクト分離器820aを備えることができ、オブジェクト分離器820aは、1つ以上のダウンミックス信号812及びサイド情報814に基づきオブジェクト信号x1〜xNを少なくとも概略的に再構成し、これにより再構成されたオブジェクト信号820bを得るように構成されている。しかしながら、再構成されたオブジェクト信号820bは元のオブジェクト信号x1〜xNから幾分かずれていることがある。それは、例えば、ビットレート制約のために、サイド情報814が完全な再構成にとってまったく十分であるとはいえないからである。SAOCデコーダ820はさらにミキサ820cを備えることができる。ミキサ820cは、再構成されたオブジェクト信号820bとユーザ相互作用情報/ユーザ制御情報822を受信し、これらに基づいてアップミックスチャネル信号?1〜?Mを生成するように構成できる。ミキサ820は、ユーザ相互作用情報/ユーザ制御情報822を用いて、アップミックスチャネル信号?1〜?Mに対する個々の再構成されたオブジェクト信号820bの寄与を決定するように構成できる。ユーザ相互作用情報/ユーザ制御情報822は、例えば、レンダリングパラメータ(レンダリング係数とも明記される)を含むことができる。レンダリングパラメータはアップミックスチャネル信号?1〜?Mに対する個々の再構成されたオブジェクト信号822の寄与を決定する。
【0015】
図8ではオブジェクト分離はオブジェクト分離器820aにより示され、ミキシングはミキサ820cにより示されているが、多くの実施形態ではこれらは単一のステップで実行されることに留意されるべきである。その目的のために、1つ以上のダウンミックス信号812をアップミックスチャネル信号?1〜?Mへ直接写し変えることを記述する全体的パラメータが計算される場合がある。これらのパラメータは、サイド情報及びユーザ相互作用情報/ユーザ制御情報820に基づいて計算できる。
【0016】
図9A、図9Bと図9Cを参照して、ダウンミックス信号表現及びオブジェクト関連サイド情報に基づきアップミックス信号表現を取得するための異なる装置について述べる。図9Aは、SAOCデコーダ920を備えているMPEG SAOCシステム900の概略ブロック図を示す。SAOCデコーダ920は、オブジェクトデコーダ922とミキサ/レンダラ926を別々の機能ブロックとして備えている。オブジェクトデコーダ922は、ダウンミックス信号表現(例えば、時間領域又は時間周波数領域において表現される1つ以上のダウンミックス信号の形式)及びオブジェクト関連サイド情報(例えば、オブジェクトメタデータの形式)に依存して複数の再構成されたオブジェクト信号924を生成する。ミキサ/レンダラ924は、複数のN個のオブジェクトに関連づけられる再構成されたオブジェクト信号924を受信し、これらに基づき1つ以上のアップミックスチャネル信号928を生成する。SAOCデコーダ920において、オブジェクト信号924の抽出はミキシング/レンダリングとは別に実行される。このことは、オブジェクト復号機能をミキシング/レンダリング機能から分離することを可能にするが、計算の複雑さは比較的高くなる。
【0017】
図9Bを参照して別のMPEG SAOCシステム930について簡単に論じる。そのMPEG SAOCシステム930はSAOCデコーダ950を備えている。SAOCデコーダ950は、ダウンミックス信号表現(例えば、1つ以上のダウンミックス信号の形式)及びオブジェクト関連サイド情報(例えば、オブジェクトメタデータの形式)に依存して複数のアップミックスチャネル信号958を生成する。SAOCデコーダ950は結合されたオブジェクトデコーダ及びミキサ/レンダラを備えており、結合されたオブジェクトデコーダ及びミキサ/レンダラはオブジェクト復号とミキシング/レンダリングとを分離することなく合同ミキシングプロセスにおいてアップミックスチャネル信号958を取得するように構成されている。その合同ミキシングプロセスのパラメータは、オブジェクト関連サイド情報及びレンダリング情報の双方に依存する。合同ミキシングプロセスはダウンミックス情報にも依存し、この場合、ダウンミックス情報はオブジェクト関連サイド情報の一部と考えられる。
【0018】
上記を要約すると、アップミックスチャネル信号928、958の生成は、1ステッププロセス又は2ステッププロセスで実行できる。
【0019】
図9Cを参照して、MPEG SAOCシステム960について述べる。SAOCシステム960は、SAOCデコーダではなくSAOC−MPEGサラウンドトランスコーダ980を備えている。
【0020】
SAOC−MPEGサラウンドトランスコーダはサイド情報トランスコーダ982を備えている。サイド情報トランスコーダ982はオブジェクト関連サイド情報(例えば、オブジェクトメタデータの形式)とレンダリング情報、さらに場合により1つ以上のダウンミックス信号に関する情報を受信するように構成されている。サイド情報トランスコーダは、受信されたデータに基づきMPEGサラウンドサイド情報(例えば、MPEGサラウンドビットストリームの形式)を生成するようにも構成されている。したがって、サイド情報トランスコーダ982は、レンダリング情報及び場合により1つ以上のダウンミックス信号のコンテンツに関する情報を考慮して、オブジェクトエンコーダから出されるオブジェクト関連の(パラメトリックな)サイド情報をチャネル関連の(パラメトリックな)サイド情報へ変換するように構成されている。
【0021】
場合により、SAOC−MPEGサラウンドトランスコーダ980は、例えばダウンミックス信号表現により記述された1つ以上のダウンミックス信号を操作して、操作されたダウンミックス信号表現988を取得するように構成することができる。しかしながら、ダウンミックス信号マニピュレータ986は省略される場合があり、その場合はSAOC−MPEGサラウンドトランスコーダ980から出力されるダウンミックス信号表現988と、SAOC−MPEGサラウンドトランスコーダへ入力されるダウンミックス信号表現は同一になる。ダウンミックス信号マニピュレータ986は、例えば、チャネル関連MPEGサラウンドサイド情報984がSAOC−MPEGサラウンドトランスコーダ980への入力ダウンミックス信号表現に基づいて所望される聴感を生成できないようであれば使用されることがあり、この状況は、レンダリングの配列によっては発生し得る。
【0022】
したがって、SAOC−MPEGサラウンドトランスコーダ980は、MPEGサラウンドビットストリーム984及びダウンミックス信号表現988を受信するMPEGサラウンドデコーダが、SAOC−MPEGサラウンドトランスコーダ980への入力レンダリング情報に従ってオーディオオブジェクトを表現する複数のアップミックスチャネル信号を発生し得るように、ダウンミックス信号表現988及びMPEGサラウンドビットストリーム984を生成する。
【0023】
上記を要約すると、SAOCで符号化されたオーディオ信号を復号するためには、異なる概念を用いることが可能である。事例によっては、ダウンミックス信号表現及びオブジェクト関連のパラメトリックなサイド情報に依存してアップミックスチャネル信号(例えば、アップミックスチャネル信号928、958)を生成するSAOCデコーダが使用される。図9A及び図9Bはこの概念の例を示している。あるいは、SAOCで符号化されたオーディオ情報は、ダウンミックス信号表現(例えば、ダウンミックス信号表現988)及びチャネル関連サイド情報(例えば、チャネル関連MPEGサラウンドビットストリーム984)を取得するためにトランスコードされる場合もある。それらのダウンミックス信号表現とチャネル関連サイド情報は所望されるアップミックスチャネル信号を生成するためにMPEGサラウンドデコーダによって使用することができる。
【0024】
図8にシステムの概観が示されているMPEG SAOCシステム800においても、図9にシステムの概観が示されているMPEG SAOCシステム900においても、一般処理は周波数選択方式で実行され、かつ各周波数バンド内部は下記のように記述することができる。
【0025】
入力されるN個のオーディオオブジェクト信号x1〜xNは、SAOCエンコーダ処理の一部としてダウンミックスされる。モノダウンミックスの場合、ダウンミックス係数はd1〜dNによって示される。さらに、SAOCエンコーダ810、910は、入力されるオーディオオブジェクトの特徴を記述するサイド情報814を抽出する。このサイド情報の重要な部分は、オブジェクト電力の関係性及び互いに対する相関性、即ちオブジェクト間相関(Inter-Object-Correlations:IOC)のオブジェクトレベル差(object-level differences:OLD)から成る。
【0026】
(1又は複数の)ダウンミックス信号812、912及びサイド情報814、914は伝送され、かつ/又は格納される。この目的のために、ダウンミックスオーディオ信号は、MPEG−1レイヤII又はIII(「.mp3」としても知られる)、MPEGアドバンスト・オーディオ・コーディング(Advanced Audio Coding:AAC)又は他の任意のオーディオコーダ等の周知の知覚オーディオコーダを用いて圧縮される場合がある。
【0027】
受信側では、SAOCデコーダ820、920は、概念的には、伝送されたサイド情報814、914(及び当然ながら、1又は複数のダウンミックス信号812、912)を用いて、元のオブジェクト信号を復元するように試行する(「オブジェクト分離」)。これらの近似されたオブジェクト信号(再構成されたオブジェクト信号820b、924としても示される)は、次に、レンダリングマトリクスを用いて、M個のオーディオ出力チャネル(例えば、アップミックスチャネル信号?1〜?M928により表現される場合がある)によって表現される標的場面へとミキシングされる。モノ出力の場合、レンダリングマトリクス係数はr1〜rNによって与えられる。
【0028】
効果的には、オブジェクト信号の分離はほとんど行われない(又は、絶対に行われない)。それは、分離ステップ(オブジェクト分離器820a、922により示される)及びミキシングステップ(ミキサ820c、926により示される)の双方が単一のトランスコーディングステップに結合され、これにより計算の複雑さが大幅に低減される結果となる場合が多いからである。
【0029】
このようなスキームは、伝送ビットレートの面(N個のオブジェクトオーディオ信号ではなく幾つかのダウンミックスチャネルに何らかのサイド情報を加えて伝送するだけでよい。)及び計算の複雑さの面(処理の複雑さはオーディオオブジェクトの数ではなく、主として出力チャネルの数に関連する)の双方で極めて効率的であることが見出されている。受信側ユーザにとってのさらなる優位点としては、ユーザ選択のレンダリング設定(モノ、ステレオ、サラウンド、仮想化ヘッドホン再生、等)を選ぶ自由、及びユーザ相互作用性機能、即ちユーザは意志、個人的嗜好又は他の基準にしたがってレンダリングマトリクスひいては出力される場面を相互作用的に設定しかつ変更できること、が含まれる。例えば、1つのグループからの話者を纏めて1つの空間エリアに位置決めし、他の話者との区別化を最大化することが可能である。この相互作用性は、デコーダのユーザインタフェースを提供することによって達成される。
【0030】
即ち、伝送されるサウンドオブジェクトについては各々、その相対レベル及び(非モノレンダリングでは)レンダリングの空間位置を調整することができる。これは、ユーザが関連のグラフィカル・ユーザ・インタフェース(Graphical User Interface:GUI)スライダ(例えば、オブジェクトレベル=+5dB、オブジェクトの位置=−30度)の位置を変更するにつれてリアルタイムで発生する場合がある。
【0031】
以下、チャネルベースのオーディオコーディングの分野においてこれまでに適用されている技術を簡単に参照する。
【0032】
米国特許出願第11/032,689号明細書(特許文献1)は、サイド情報を保存するために、幾つかのキュー値を、伝送される1つの値に結合するためのプロセスについて記述している。
【0033】
この技術は、米国特許出願開第60/671,544号明細書(特許文献2)において、「コンパクトなサイド情報を用いるマルチチャネル階層型オーディオコーディング」へも適用されている。
【先行技術文献】
【特許文献】
【0034】
【特許文献1】米国特許出願第11/032,689号明細書
【特許文献2】米国特許出願第60/671,544号明細書
【非特許文献】
【0035】
【非特許文献1】[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and application," IEEE Trans. On Speech and Audio Proc., vol. 11, no. 6, Nov. 2003
【非特許文献2】[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752
【非特許文献3】[SAOC1] J.Herres, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK April 2007
【非特許文献4】[SAOC2] J Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Heilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Prametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377
【非特許文献5】[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.
【発明の概要】
【発明が解決しようとする課題】
【0036】
しかしながら、マルチチャネル・オーディオ・コンテンツの符号化に用いられるオブジェクト関連パラメータ情報は、事例によっては比較的高いビットレートを含むことが見出されている。
【0037】
したがって、本発明の目的は、コンパクトなサイド情報を用いるマルチチャネル・オーディオ・コンテンツの生成、蓄積又は伝送を可能にする概念を作り上げることにある。
【課題を解決するための手段】
【0038】
この目的は、独立請求項によって規定されるオーディオ信号デコーダ、オーディオ信号エンコーダ、アップミックス信号表現を生成するための方法、ビットストリーム表現を生成するための方法、コンピュータプログラム及びビットストリームによって達成される。
【0039】
本発明による一実施形態は、ダウンミックス信号表現及びオブジェクト関連パラメータ情報に基づき、かつレンダリング情報に依存してアップミックス信号表現を生成するためのオーディオ信号デコーダを創出する。この装置は、複数のオーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するように構成されているオブジェクト−パラメータ決定器を備えている。オブジェクト−パラメータ決定器は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、又は共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、ビットストリーム・シグナリング・パラメータを評価するように構成されている。オーディオ信号デコーダは、ダウンミックス信号表現に基づき、かつ複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値及びレンダリング情報を用いてアップミックス信号表現を取得するように構成されている信号プロセッサも備えている。
【0040】
このオーディオ信号デコーダの基礎は、優れた聴感を達成するために多くのオーディオ・オブジェクト・ペア間の相関性を考慮する必要がある事例によっては、オブジェクト間相関値の符号化に必要とされるビットレートが過度に高い可能性があり、かつこのような場合、オブジェクト間相関値の符号化に必要とされるビットレートは、個々のオブジェクト間相関ビットストリームパラメータ値ではなく共通のオブジェクト間相関ビットストリームパラメータ値を用いることによって、聴感を著しく劣らせることなく、大幅に低減されることが可能である、という主たる考案にある。
【0041】
多くのオーディオ・オブジェクト・ペア間に、優れた聴感を達成するために考慮されるべき顕著なオブジェクト間相関が存在する状況においては、オブジェクト間相関の考慮が通常はオブジェクト間相関ビットストリームパラメータ値の高いビットレート要件に繋がることが見出されている。しかし、多くのオーディオ・オブジェクト・ペア間に無視できないオブジェクト間相関が存在するこのような状況では、共通する単一のオブジェクト間相関ビットストリームパラメータ値を符号化し、かつこのような共通のオブジェクト間相関ビットストリームパラメータ値から複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を導出するだけで、優れた聴感を達成できることが見出されている。したがって、多くの場合、多くのオーディオオブジェクト間の相関性は、オブジェクト間相関ビットストリームパラメータ値の伝送についての努力を十分に少なく抑えながら、十分な精度で考慮することができる。
【0042】
したがって、多くの異なるオーディオオブジェクト信号間に無視できないオブジェクト間相関が存在する音響環境によっては、上述の概念はオブジェクト関連サイド情報に対するビットレート要求を小さくし、それでも十分に優れた聴感を達成する。
【0043】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、全ての異なる関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を、共通のオブジェクト間相関ビットストリームパラメータ値によって規定される共通値に設定するように構成されている。この単純な解決策は、多くの関連状況において十分に優れた聴感をもたらすことが見出されている。
【0044】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、2つのオブジェクトが互いに関連するものであるか否かを記述するオブジェクト関係性情報を評価するように構成されている。オブジェクト−パラメータ決定器は、さらに、オブジェクト関係性情報が関係性を示すオーディオ・オブジェクト・ペアに対しては共通のオブジェクト間相関ビットストリームパラメータ値を用いてオブジェクト間相関値を選択的に取得し、かつオブジェクト関係性情報が関連性のないことを示すオーディオ・オブジェクト・ペアのオブジェクト間相関値は既定値(例えば、ゼロ)に設定するように構成されている。したがって、オーディオオブジェクト間の関係性の有無は、高いビットレート効率で区別できる。故に、(ほぼ)関連のないオーディオ・オブジェクト・ペアへの非ゼロのオブジェクト間相関値の割り付けは回避される。したがって、聴感の劣化は回避され、かつこのようなほぼ関連のないオーディオオブジェクト間の分離が可能である。さらに、オーディオオブジェクトの関連性が典型的には1つのオーディオに渡って時間的に不変であることから、関連オーディオオブジェクト及び非関連オーディオオブジェクトを非常に高いビットレート効率で信号にすることができ、したがって、この信号化に必要とされるビットレートは典型的には極めて低い。このように、記述されている概念は、ビットレート効率と聴感との間の極めて良好な得失評価をもたらす。
【0045】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、異なるオーディオオブジェクトの組合せ毎に1ビットフラグを備えているオブジェクト関係性情報を評価するように構成され、この場合、異なるオーディオオブジェクトの所定の組合せに関連づけられる1ビットフラグは、所定の組合せのオーディオオブジェクト同士に関連性があるか否かを示す。このような情報は極めて効率的に伝送することができ、優れた聴感を達成するために必要とされるビットレートの著しい低減をもたらす。
【0046】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、全ての異なる関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を共通のオブジェクト間相関ビットストリームパラメータ値によって規定される共通値に設定するように構成されている。
【0047】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、ビットストリーム・シグナリング・パラメータを個々のオブジェクト間相関ビットストリームパラメータ又は共通するオブジェクト間相関ビットストリームパラメータとともに取得するために、オーディオコンテンツのビットストリーム表現を構文解析するように構成されているビットストリームパーサを備えている。ビットストリームパーサを用いることにより、ビットストリーム・シグナリング・パラメータを個々のオブジェクト間相関ビットストリームパラメータ又は共通するオブジェクト間相関ビットストリームパラメータとともに優れた実装効率で取得することができる。
【0048】
ある好適な実施形態において、オーディオ信号デコーダは、関連オーディオ・オブジェクト・ペアに関連づけられる共分散値を取得するために、関連オーディオ・オブジェクト・ペアに関連づけられるオブジェクト間相関値を、前記関連オーディオ・オブジェクト・ペアの第1のオーディオオブジェクトのオブジェクトレベルを記述するオブジェクトレベル差パラメータ値と、前記関連オーディオ・オブジェクト・ペアの第2のオーディオオブジェクトのオブジェクトレベルを記述するオブジェクトレベル差パラメータ値とに結合するように構成されている。したがって、共通するオブジェクト間相関パラメータが用いられても、関連オーディオ・オブジェクト・ペアに関連づけられる共分散値を、共分散値がオーディオ・オブジェクト・ペアに適応されるように導出することができる。したがって、異なるオーディオ・オブジェクト・ペア毎に異なる共分散値を取得することができる。特に、共通のオブジェクト間相関ビットストリームパラメータ値を用いて多数の異なる共分散値を取得することができる。
【0049】
ある好適な実施形態において、オーディオ信号デコーダは、3つ以上のオーディオオブジェクトを処理するように構成されている。この場合、オブジェクト−パラメータ決定器は、あらゆる異なるオーディオ・オブジェクト・ペアのオブジェクト間相関値を生成するように構成されている。本発明概念を使用すれば、全てが互いに関連のあるオーディオオブジェクトが比較的多数存在するとしても、有意義な値を取得できることが見出されている。オーディオオブジェクトの多くの組合せからオブジェクト間相関値を取得することは、オブジェクト関連のパラメトリックなサイド情報を用いてオーディオオブジェクト信号を符号化しかつ復号する場合に特に有用である。
【0050】
ある好適な実施形態において、オブジェクト−パラメータ決定器は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、コンフィギュレーション(configuration)ビットストリーム部分に含まれるビットストリーム・シグナリング・パラメータを評価するように構成されている。この実施形態では、オブジェクト−パラメータ決定器は、そのオーディオオブジェクトが関連のあるものであるかどうかを決定するために、コンフィギュレーションビットストリーム部分に含まれるオブジェクト関係性情報を評価するように構成されている。さらに、オブジェクト−パラメータ決定器は、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得することが決定されれば、あらゆるオーディオ・コンテンツ・フレームについて、フレーム・データ・ビットストリーム部分に含まれる共通のオブジェクト間相関ビットストリームパラメータ値を評価するように構成されている。したがって、高いビットレート効率が達成される。それは、比較的大きいオブジェクト関係性情報の評価はオーディオピース(コンフィギュレーションビットストリーム部分の存在により規定される。)毎に一度しか行われず、一方でオーディオピースのあらゆるフレームに関して評価される、即ち1つのオーディオピースにつき複数回評価される共通のオブジェクト間相関ビットストリームパラメータ値は比較的小値であるからである。これは、オーディオオブジェクト間の関係性は、典型的には1つのオーディオピース内では変わらないか、極めてまれにしか変わらない、という発見を反映している。したがって、適度に低いビットレートで優れた聴感を達成できる。
【0051】
しかしながら、また、共通のオブジェクト間相関ビットストリームパラメータ値の使用は、フレーム・データ・ビットストリーム部分において信号として表わすこともでき、これは、例えば変化するオーディオコンテンツへの柔軟な適応を可能にする。
【0052】
本発明による一実施形態は、複数のオーディオオブジェクト信号に基づきビットストリーム表現を生成するためのオーディオ信号エンコーダを創出する。オーディオ信号エンコーダは、オーディオオブジェクト信号に基づき、かつダウンミックス信号の1つ以上のチャネルとしてのオーディオオブジェクト信号の寄与について記述するダウンミックスパラメータに依存して、ダウンミックス信号を生成するように構成されているダウンミキサを備えている。オーディオ信号エンコーダは、複数の関連オーディオ・オブジェクト・ペア信号に関連づけられる共通のオブジェクト間相関ビットストリームパラメータ値を生成するように、かつこの共通のオブジェクト間相関ビットストリームパラメータ値が複数の個々のオブジェクト間相関ビットストリームパラメータの代わりに生成されることを示すビットストリーム・シグナリング・パラメータを生成するようにも構成されているパラメータプロバイダも備えている。オーディオ信号エンコーダは、ダウンミックス信号の表現、共通のオブジェクト間相関ビットストリームパラメータ値の表現及びビットストリーム・シグナリング・パラメータを含むビットストリームを生成するように構成されているビットストリームフォーマッタも備えている。
【0053】
本発明によれば、この実施形態は、コンパクトなサイド情報を有するマルチチャネル・オーディオ・コンテンツを表現するビットストリームの生成を可能にする。共通のオブジェクト間相関ビットストリームパラメータ値を生成することにより、オブジェクト関連サイド情報はコンパクトに保たれ、同時になおもマルチチャネル・オーディオ・コンテンツを優れた聴感で再生するための効率的な情報が与えられる。さらに、本明細書に記述されるオーディオ信号エンコーダが、オーディオ信号デコーダに関してこれまでに述べたものと同じ優位点を与えることは留意されるべきである。
【0054】
ある好適な実施形態において、パラメータプロバイダは、クロスパワー項の和と平均パワー項の和との割合に依存して共通のオブジェクト間相関ビットストリームパラメータ値を生成するように構成されている。このようなオブジェクト間相関ビットストリームパラメータ値は適度の計算量で計算することができ、同時になお、ほとんどの場合、精確な聴感も与えることが見出されている。
【0055】
本発明による別の実施形態において、パラメータプロバイダは、共通のオブジェクト間相関ビットストリームパラメータ値として既定の定値を生成するように構成されている。事例によっては、定値の生成は理に適うことが見出されている。例えば、所定のタイプの会議室における所定の標準的なマイクロホン装置の場合、定値は所望される聴感の表現に極めて良く適合し得る。したがって、本発明概念による多くの標準的適用において、計算量は優れた聴感を与えつつ最小限に抑えることができる。
【0056】
別の好適な実施形態において、パラメータプロバイダは、2つのオーディオオブジェクトが互いに関連しているかどうかを記述するオブジェクト関係性情報も生成するように構成されている。このようなオブジェクト関係性情報は、先に論じたように、オーディオデコーダによって活用することができる。したがって、共通のオブジェクト間相関ビットストリームパラメータ値は、実際に互いに関連しているオーディオオブジェクトにのみ適用され、全く関連のないオーディオオブジェクトには適用されないことを保証することができる。
【0057】
ある好適な実施形態において、パラメータプロバイダは、共通のオブジェクト間相関ビットストリームパラメータ値の計算に関してオブジェクト関係性情報が関係性を示しているオーディオオブジェクトのオブジェクト間相関を選択的に評価するように構成されている。これは、特に有意義なオブジェクト間相関ビットストリームパラメータ値を得ることを可能にする。
【0058】
本発明によるさらなる実施形態は、アップミックス信号表現を生成するための方法、及びビットストリーム表現を生成するための方法を生み出す。これらの方法は、先に論じたオーディオデコーダ及びオーディオエンコーダと同じ考案を基礎とする。
【0059】
本発明による別の実施形態は、マルチチャネルオーディオ信号を表すビットストリームを創出する。ビットストリームは、複数のオーディオオブジェクトのオーディオ信号を結合するダウンミックス信号の表現を含む。ビットストリームは、オーディオオブジェクトの特徴を記述するオブジェクト関連パラメトリックなサイド情報も含む。オブジェクト関連のパラメトリックなサイド情報は、ビットストリームが個々のオブジェクト間相関ビットストリームパラメータ値を含むか、共通のオブジェクト間相関ビットストリームパラメータ値を含むかを示すビットストリーム・シグナリング・パラメータを含む。したがって、ビットストリームは、異なるタイプのオーディオチャネルコンテンツの伝送に関して柔軟な使用を可能にする。特に、ビットストリームは、個々のオブジェクト間相関ビットストリームパラメータ値又は共通のオブジェクト間相関ビットストリームパラメータ値の双方の、聴覚場面により適する何れかの伝送を可能にする。したがって、ビットストリームは、詳細な(オブジェクト個別)オブジェクト間相関情報が伝送されるべきである比較的少数の関連するオーディオオブジェクトが存在する場合と、比較的多数の関連するオーディオオブジェクトが存在して、個々のオブジェクト間相関ビットストリームパラメータ値を伝送すれば過度に高いビットレート要求に繋がる可能性があり、かつ共通のオブジェクト間相関ビットストリームパラメータ値がなおも優れた聴感の再生を可能にする場合の双方の処理によく適する。
【0060】
続いて、添付の図面を参照して本発明による実施形態について述べる。
【図面の簡単な説明】
【0061】
【図1】本発明の一実施形態によるオーディオ信号デコーダを示す概略ブロック図である。
【図2】本発明の一実施形態によるオーディオ信号エンコーダを示す概略ブロック図である。
【図3】本発明の一実施形態によるビットストリームを示す概略表示である。
【図4】単一のオブジェクト間相関パラメータ計算を用いるMPEG SAOCシステムを示す概略ブロック図である。
【図5】ビットストリームの一部であることのできるSAOC固有コンフィギュレーション情報の構文表現を示す。
【図6】ビットストリームの一部であることのできるSAOCフレーム情報の構文表現を示す。
【図7】オブジェクト間相関パラメータのパラメータ量子化を表す表を示す。
【図8】基準MPEG SAOCシステムを示す概略ブロック図である。
【図9A】別々のデコーダ及びミキサを用いる基準SAOCシステムを示す概略ブロック図である。
【図9B】統合されたデコーダ及びミキサを用いる基準SAOCシステムを示す概略ブロック図である。
【図9C】SAOC−MPEGトランスコーダを用いる基準SAOCシステムを示す概略ブロック図である。
【発明を実施するための形態】
【0062】
1.図1によるオーディオ信号デコーダ
以下、オーディオ信号デコーダ100について、このようなオーディオ信号デコーダ100の概略ブロック図を示す図1を参照して述べる。
【0063】
まず、オーディオ信号デコーダ100の入力信号及び出力信号について述べる。続いて、オーディオ信号デコーダ100の構造を説明し、最後にオーディオ信号デコーダ100の機能について論じる。
【0064】
オーディオ信号デコーダ100は、典型的には複数のオーディオオブジェクト信号を例えば1チャネルオーディオ信号表現又は2チャネルオーディオ信号表現の形式で表すダウンミックス信号表現110を受信するように構成されている。
【0065】
オーディオ信号デコーダ100は、典型的にはダウンミックス信号表現110に含まれるオーディオオブジェクトを記述するオブジェクト関連パラメータ情報112も受信する。
【0066】
例えば、オブジェクト関連パラメータ情報112は、ダウンミックス信号表現110により表されるオーディオオブジェクトのオブジェクトレベルを、オブジェクトレベル差の値(OLD)を用いて記述する。
【0067】
さらに、オブジェクト関連パラメータ情報112は、典型的には、ダウンミックス信号表現110によって表されるオーディオオブジェクトのオブジェクト間相関特性を表す。オブジェクト関連パラメータ情報は、典型的には、オブジェクト関連パラメータ情報が個々のオーディオ・オブジェクト・ペアに関連づけられる個々のオブジェクト間相関ビットストリームパラメータ値を含むか、又は複数のオーディオ・オブジェクト・ペアに関連づけられる共通のオブジェクト間相関ビットストリームパラメータ値を含むかを信号で表わすビットストリーム・シグナリング・パラメータ(本明細書では「bsOneIOC」としても明示される)を含む。したがって、オブジェクト関連パラメータ情報は、ビットストリーム・シグナリング・パラメータ「bsOneIOC」に従って個々のオブジェクト間相関ビットストリームパラメータ値又は共通のオブジェクト間相関ビットストリームパラメータ値を含む。
【0068】
オブジェクト関連パラメータ情報112は、ダウンミックス信号表現への個々のオーディオオブジェクトのダウンミックスを記述するダウンミックス情報も含むことができる。例えば、オブジェクト関連パラメータ情報は、ダウンミックス信号表現110に対するオーディオオブジェクト信号の寄与を記述するダウンミックス利得情報(Downmix Gain Information)DMGを含む。さらに、オブジェクト関連パラメータ情報は、場合により、異なるダウンミックスチャネル間のダウンミックス利得差を記述するダウンミックス・チャネル・レベル差情報(Downmix-Channel-Level-Difference Information)DCLDを含むことができる。
【0069】
信号デコーダ100は、レンダリング情報120を、例えばそのレンダリング情報を入力するためのユーザインタフェースから受信するようにも構成されている。レンダリング情報は、オーディオオブジェクトの信号のアップミックスチャネルへの割り付けを記述する。例えば、レンダリング情報120はレンダリングマトリクス(又はそのエントリ)の形式をとることができる。あるいは、レンダリング情報120は、オーディオオブジェクトの所望される再現位置(例えば、空間座標による)及びオーディオオブジェクトの所望される強度(又は音量)についての記述を含むことができる。
【0070】
オーディオ信号デコーダ100はアップミックス信号表現130を生成する。アップミックス信号表現130は、ダウンミックス信号表現により記述されるオーディオオブジェクト信号のレンダリングされた表現と、オブジェクト関連パラメータ情報を構成する。例えば、アップミックス信号表現は、個々のオーディオチャネル信号の形式をとってもよく、チャネル関連パラメトリックサイド情報(例えば、MPEGサラウンドサイド情報)と組み合わされたダウンミックス信号表現の形式をとってもよい。
【0071】
オーディオ信号デコーダ100は、ダウンミックス信号表現110及びオブジェクト関連パラメータ情報112に基づき、かつレンダリング情報120に依存してアップミックス信号表現130を生成するように構成されている。装置100はオブジェクト−パラメータ決定器140を備えており、オブジェクト−パラメータ決定器140はオブジェクト関連パラメータ情報112に基づき(少なくとも)複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するように構成されている。この目的のために、オブジェクト−パラメータ決定器140は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、又は共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、ビットストリーム・シグナリング・パラメータ(「bsOneIOC」)を評価するように構成されている。したがって、オブジェクト−パラメータ決定器140は、ビットストリーム・シグナリング・パラメータが共通のオブジェクト間相関ビットストリームパラメータ値は利用できないことを示していれば、個々のオブジェクト間相関ビットストリームパラメータ値に基づき複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値142を生成するように構成されている。同様に、オブジェクト−パラメータ決定器は、ビットストリーム・シグナリング・パラメータがこのような共通のオブジェクト間相関ビットストリームパラメータ値は利用できることを示していれば、共通のオブジェクト間相関ビットストリームパラメータ値に基づき複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値142を決定する。
【0072】
また、オブジェクト−パラメータ決定器は、典型的には、オブジェクト関連パラメータ情報112に基づき、例えばオブジェクトレベル差値OLD、ダウンミックス利得値DMG及び(場合により)ダウンミックス・チャネル・レベル差値DCLDのような他のオブジェクト関連値も生成する。
【0073】
オーディオ信号デコーダ100は信号プロセッサ150も備えており、信号プロセッサ150は、ダウンミックス信号表現110に基づき、かつ複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値142及びレンダリング情報120を用いて、アップミックス信号表現130を得るように構成されている。信号プロセッサ150は、オブジェクトレベル差値、ダウンミックス利得値及びダウンミックス・チャネル・レベル差値のような他のオブジェクト関連値も用いる。
【0074】
信号プロセッサ150は、例えば、所望されるアップミックス信号表現130の統計的特徴を推定し、ダウンミックス信号表現から導出されるアップミックス信号表現130が所望される統計的特徴を備えるようにダウンミックス信号表現を処理することができる。あるいは、信号プロセッサ150は、ダウンミックス信号表現110内では結合されている複数のオーディオオブジェクトのオーディオオブジェクト信号を、オブジェクトの特徴に関する情報及びダウンミックスプロセスを用いて分離することを試行することができる。したがって、信号プロセッサは処理規則(例えば、スケーリング規則又は線形結合規則)を計算でき、その処理規則は個々のオーディオオブジェクト信号、又は少なくとも個々のオーディオオブジェクト信号に類似する統計的特徴を有するオーディオ信号の再構成を可能にするであろう。信号プロセッサ150は次に、アップミックス信号表現を得るために所望されるレンダリングを適用することができる。当然ながら、元の個々のオーディオオブジェクト信号に近い再構成されたオーディオオブジェクト信号の計算と再現は、計算の複雑さを減らすために単一の処理ステップに結合することができる。
【0075】
上記を要約すると、オーディオ信号デコーダは、ダウンミックス信号表現110及びオブジェクト関連パラメータ情報112を基礎とし、レンダリング情報120を用いてアップミックス信号表現130を生成するように構成されている。オブジェクト関連パラメータ情報112は個々のオーディオオブジェクト信号の統計的特徴及び個々のオーディオオブジェクト信号間の関係性についての情報を得るために評価され、個々のオーディオオブジェクト信号間の関係性は信号プロセッサ150で必要とされる。例えば、オブジェクト関連パラメータ情報112は、個々のオーディオオブジェクト信号の推定された共分散値を記述する推定された分散行列を取得するために用いられる。推定された共分散行列は、その後、信号プロセッサ150によって、ダウンミックス信号表現110からアップミックス信号表現130を導出するための(例えば、先に論じたような)処理規則を決定するために適用される。ただし、当然ながら、他のオブジェクト関連情報も活用できる。
【0076】
オブジェクト−パラメータ決定器140は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するための異なるモードを含む。オブジェクト間相関値は信号プロセッサ150の重要な入力情報を構成する。第1のモードでは、個々のオブジェクト間相関ビットストリームパラメータ値を用いてオブジェクト間相関値が決定される。例えば、個々のオブジェクト間相関ビットストリームパラメータ値が関連オーディオ・オブジェクト・ペア毎に1つが存在することもあるので、その場合はオブジェクト−パラメータ決定器140は単に、このような個々のオブジェクト間相関ビットストリームパラメータ値を所定の関連オーディオ・オブジェクト・ペアに関連づけられる1つ又は2つのオブジェクト間相関値へ移すだけでよい。一方、第2の動作モードも存在する。第2の動作モードでは、オブジェクト−パラメータ決定器140は単にビットストリームから1つの共通のオブジェクト間相関ビットストリームパラメータ値を読み取り、かつこの1つの共通のオブジェクト間相関ビットストリームパラメータ値に基づき複数の異なる関連オーディオ・オブジェクト・ペアの複数のオブジェクト間相関値を生成する。したがって、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値は、例えば、1つの共通のオブジェクト間相関ビットストリームパラメータ値によって表される値と同一とするか、又はこの同一の共通のオブジェクト間相関ビットストリームパラメータ値から導出することができる。オブジェクト−パラメータ決定器140は、ビットストリーム・シグナリング・パラメータ(「bsOneIOC」)に依存して前記第1のモードと前記第2のモードとの間で切り換えることができる。
【0077】
したがって、オブジェクト間相関値を生成するためにオブジェクト−パラメータ決定器140が適用できる異なるモードが存在する。存在する関連オーディオ・オブジェクト・ペアが比較的少数であれば、前記関連オーディオ・オブジェクト・ペアのオブジェクト間相関値は、典型的には(ビットストリーム・シグナリング・パラメータに依存して)オブジェクト−パラメータ決定器によって個々に決定され、これにより、前記関連オーディオ・オブジェクト・ペアの特徴の特に正確な表現が可能にされ、かつ結果的に、信号プロセッサ150において個々のオーディオオブジェクト信号を高精度で再構成する可能性がもたらされる。したがって典型的には、比較的少数の関連オーディオ・オブジェクト・ペア間の相関性だけが関係している場合には、優れた聴感を与えることができる。
【0078】
複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために共通のオブジェクト間相関ビットストリームパラメータ値が用いられるオブジェクト−パラメータ決定器の第2の動作モードは、典型的には、複数のオーディオ・オブジェクト・ペア間に無視できない相関性が存在する事例に用いられる。このような事例は、従来、ダウンミックス信号表現110及びオブジェクト関連パラメータ情報112の双方を表すビットストリームのビットレートを過度に上げることなしには処理され得なかった。共通のオブジェクト間相関ビットストリームパラメータ値の使用は、比較的多数のオーディオ・オブジェクト・ペア間に無視できない相関性が存在する場合に固有の優位点をもたらすが、この相関性は、音響的に重大な変動を含まない。この場合、ビットレート要件と聴感品質との間に適度な妥協をもたらす適度なビットレート量による相関性を考慮することができる。
【0079】
したがって、オーディオ信号デコーダ100は、異なる状況、すなわち関連オーディオ・オブジェクト・ペアが少数しか存在せず、そのオブジェクト間相関は高精度で考慮されるべきである状況、及び関連オーディオ・オブジェクト・ペアが多数存在し、そのオブジェクト間相関は完全には無視すべきではなく幾分かの類似性を有する状況、を効率的に処理することができる。オーディオ信号デコーダ100は、双方の状況を高品質の聴感で処理することができる。
【0080】
2.図2によるオーディオ信号エンコーダ
以下、オーディオ信号エンコーダ200について、このようなオーディオ信号エンコーダ200の概略ブロック図を示す図2を参照して述べる。
【0081】
オーディオ信号エンコーダ200は、複数のオーディオオブジェクト信号210a〜210Nを受信するように構成されている。オーディオオブジェクト信号210a〜210Nは、例えば、異なるオーディオオブジェクトを表す1チャネル信号又は2チャネル信号とすることができる。
【0082】
オーディオ信号エンコーダ200は、オーディオオブジェクト信号210a〜210Nによって表される聴覚場面をコンパクトかつビットレート効率的に記述するビットストリーム表現220を生成するようにも構成されている。
【0083】
オーディオ信号エンコーダ200はダウンミキサ220を備えており、ダウンミキサ220はオーディオオブジェクト信号210a〜210Nを受信し、オーディオオブジェクト信号210a〜210Nに基づきダウンミックス信号232を生成するように構成されている。ダウンミキサ230は、ダウンミックス信号の1つ以上のチャネルへのオーディオオブジェクト信号210a〜210Nの寄与を記述するダウンミックスパラメータに依存してダウンミックス信号232を生成するように構成されている。
【0084】
オーディオ信号エンコーダはパラメータプロバイダ240も備えており、パラメータプロバイダ240は、関連するオーディオオブジェクト信号210a〜210Nの複数のペアに関連づけられる共通のオブジェクト間相関ビットストリームパラメータ値242を生成するように構成されている。パラメータプロバイダ240は、(異なるオーディオ・オブジェクト・ペアに個々に関連づけられる)複数の個々のオブジェクト間相関ビットストリームパラメータの代わりに共通のオブジェクト間相関ビットストリームパラメータ値242が生成されることを示すビットストリーム・シグナリング・パラメータ244を生成するようにも構成されている。
【0085】
オーディオ信号エンコーダ200はビットストリームフォーマッタ250も備えており、ビットストリームフォーマッタ250はダウンミックス信号232の表現(例えば、ダウンミックス信号232の符号化された表現)と、共通のオブジェクト間相関ビットストリームパラメータ値242の表現(例えば、その量子化されて符号化された表現)と、ビットストリーム・シグナリング・パラメータ244(例えば、1ビットパラメータ値の形式)とを含むビットストリーム表現250を生成するように構成されている。
【0086】
オーディオ信号エンコーダ200は、結果的に、オーディオオブジェクト信号210a〜210Nによって高精度で記述されるオーディオ場面を表すビットストリーム表現220を生成する。具体的には、オーディオオブジェクト信号210a〜210Nのうちの多くが互いに関連していれば、即ち無視できないオブジェクト間相関を含んでいれば、ビットストリーム表現220はコンパクトなサイド情報を含む。この場合、オーディオ・オブジェクト・ペアに個々に関連づけられる個々のオブジェクト間相関ビットストリームパラメータ値の代わりに、共通のオブジェクト間相関ビットストリームパラメータ値242が生成される。したがって、オーディオ信号エンコーダは、何れにしても、関連するオーディオオブジェクト信号210a〜210Nのペアが多く存在する場合、及び関連するオーディオオブジェクト信号210a〜210Nのペアが少ししか存在しない場合の双方で、コンパクトなビットストリーム表現220を生成することができる。特に、コンパクトなビットストリーム表現220は、オーディオ信号デコーダ100により入力情報として必要とされる情報、即ちダウンミックス信号表現110及びオブジェクト関連パラメータ情報112を含むことができる。したがって、パラメータプロバイダ240は、オーディオオブジェクト信号210a〜210Nをダウンミキサ230により実行されるダウンミックスプロセスとともに記述する追加的なオブジェクト関連パラメータ情報を生成するように構成することができる。例えば、パラメータプロバイダ240は、オーディオオブジェクト信号210a〜210Nのオブジェクトレベル(又はオブジェクトレベル差)を記述するオブジェクトレベル差情報OLDを追加的に生成することができる。さらに、パラメータプロバイダ240は、ダウンミックス信号232の1つ以上のチャネルを形成する際に個々のオーディオオブジェクト信号210a〜210Nへ適用されるダウンミックス利得を記述するダウンミックス利得情報DMGを生成することができる。ダウンミックス信号232の異なるチャネル間のダウンミックス利得差を記述するダウンミックス・チャネル・レベル差値DCLDもまた、ビットストリーム表現220へ包含するために、パラメータプロバイダ240が場合により生成することができる。
【0087】
上記を要約すると、オーディオ信号エンコーダは、オーディオオブジェクト信号210a〜210Nによって記述されるオーディオ場面を優れた聴感で再構成するために必要とされるオブジェクト関連パラメータ情報を効率的に生成する。その場合、多数の関連オーディオ・オブジェクト・ペアが存在すれば、コンパクトな共通のオブジェクト間相関ビットストリームパラメータ値が用いられる。これは、ビットストリーム・シグナリング・パラメータ244を用いて信号として与えられる。したがって、このような場合、過度のビットストリーム負荷が回避される。
【0088】
以下、ビットストリーム表現の生成に関する詳細についてさらに述べる。
【0089】
3.図3によるビットストリーム
図3は、本発明の一実施形態によるビットストリーム300を概略的な表現を示したものである。
【0090】
ビットストリーム300は、例えば、オーディオ信号デコーダ100の入力ビットストリームであって、ダウンミックス信号表現110及びオブジェクト関連パラメータ情報112をもっているものとすることができる。ビットストリーム300は、オーディオ信号エンコーダ200により出力ビットストリーム220として生成することができる。
【0091】
ビットストリーム300はダウンミックス信号表現310を含み、ダウンミックス信号表現310は複数のオーディオオブジェクトのオーディオ信号を結合する1チャネル又は多チャネルのダウンミックス信号(例えば、ダウンミックス信号232)の表現である。ビットストリーム300は、オーディオオブジェクトの特徴を記述するオブジェクト関連のパラメトリックなサイド情報320も含み、オーディオオブジェクトのオーディオオブジェクト信号はダウンミックス信号表現310によって結合された形式で表される。オブジェクト関連のパラメトリックなサイド情報320はビットストリーム・シグナリング・パラメータ322を含み、ビットストリーム・シグナリング・パラメータ322はビットストリームが(異なるオーディオ・オブジェクト・ペアに個々に関連づけられる)個々のオブジェクト間相関ビットストリームパラメータを含むか、(複数の異なるオーディオ・オブジェクト・ペアに関連づけられる)共通のオブジェクト間相関ビットストリームパラメータ値を含むかを示す。オブジェクト関連のパラメトリックなサイド情報は、ビットストリーム・シグナリング・パラメータ322の第1の状態によって示される複数の個々のオブジェクト間相関ビットストリームパラメータ値324a、又はビットストリーム・シグナリング・パラメータ322の第2の状態によって示される共通のオブジェクト間相関ビットストリームパラメータ値も含む。
【0092】
したがって、ビットストリーム300は、ビットストリーム300のフォーマットを個々のオブジェクト間相関ビットストリームパラメータ値の表現又は共通のオブジェクト間相関ビットストリームパラメータ値の表現を包含するように適応させることにより、オーディオオブジェクト信号210a〜210Nの関係性特性に適応させることができる。
【0093】
ビットストリーム300は、結果的に、コンパクトなサイド情報を有する異なるタイプのオーディオ場面を効率的に符号化する機会を与えると同時に、関連性の強いオーディオオブジェクトが少数しか存在しない場合に優れた聴感を達成する機会も保持する。
【0094】
続いて、ビットストリームに関する詳細についてさらに論じる。
【0095】
4.図4によるMPEG SAOCシステム
以下、図4を参照して、単一のIOCパラメータ計算を用いるMPEG SAOCシステムについて述べる。
【0096】
図4によるMPEG SAOCシステム400は、SAOCエンコーダ410と、SAOCデコーダ420とを備えている。
【0097】
SAOCエンコーダ410は、複数の、例えばL個のオーディオオブジェクト信号420a〜420Nを受信するように構成されている。SAOCエンコーダ410はダウンミックス信号表現430とサイド情報432とを生成するように構成されており、ダウンミックス信号表現430とサイド情報432は必ずしもビットストリームに包含されなければならないということはないが、好ましくはビットストリームに包含される。
【0098】
SAOCエンコーダ410はSAOCダウンミックス処理440を含み、SAOCダウンミックス処理440はオーディオオブジェクト信号420a〜420Nを受信し、これらに基づきダウンミックス信号表現430を生成する。SAOCエンコーダ410はパラメータ抽出器444も備えており、パラメータ抽出器444はオブジェクト信号420a〜420Nを受信することができ、場合によりSAOCダウンミックス処理440に関する情報(例えば、1つ以上のダウンミックスパラメータ)も受信することができる。パラメータ抽出器444は単一オブジェクト間相関計算器448を備えており、単一オブジェクト間相関計算器448は複数のオーディオ・オブジェクト・ペアに関連づけられる単一(共通)のオブジェクト間相関値を計算するように構成されている。また、単一オブジェクト間相関計算器448は、オブジェクトペア個別的なオブジェクト間相関値の代わりに単一のオブジェクト間相関値が使用されるかどうかを指示する単一オブジェクト間相関信号452を生成するようにも構成されている。単一オブジェクト間相関計算器448は、共通する単一のオブジェクト間相関値(又はそれに代わって、オーディオオブジェクト信号のペア毎に関連づけられる複数の個々のオブジェクト間相関パラメータ値)が生成されるかどうかを、例えば、オーディオオブジェクト信号420a〜420Nの分析に基づいて決定することができる。しかしながら、単一オブジェクト間相関計算器448は、共通のオブジェクト間相関値(例えば、1つのビットストリームパラメータ値)が計算されるべきか、個々のオブジェクト間相関値(例えば、複数のビットストリームパラメータ値)が計算されるべきかを決定する外部制御情報も受信することができる。
【0099】
パラメータ抽出器444は、例えばオブジェクトレベル差パラメータのようなオーディオオブジェクト信号420a〜420Nを記述する複数のパラメータを生成するようにも構成されている。またパラメータ抽出器444は、好適には、例えばダウンミックス利得パラメータDMGのセット及びダウンミックス・チャネル・レベル差パラメータDCLDのセットのようにダウンミックスを記述するパラメータを生成するようにも構成されている。
【0100】
SAOCエンコーダ410は、パラメータ抽出器444により生成されるパラメータを量子化する量子化456を含む。例えば、共通するオブジェクト間相関パラメータは量子化456によって量子化することができる。さらに、オブジェクトレベル差パラメータ、ダウンミックス利得パラメータ及びダウンミックス・チャネル・レベル差パラメータも量子化456によって量子化することができる。したがって、量子化456により、量子化されたパラメータが得られる。
【0101】
SAOCエンコーダ410は、量子化456により生成される量子化されたパラメータを符号化するように構成されている雑音のないコーディング460も含む。例えば、雑音のないコーディングは、量子化された共通するオブジェクト間相関パラメータ及び他の量子化されたパラメータ(例えば、OLD、DMG及びDCLD)も雑音なしに符号化することができる。
【0102】
したがって、SAOCエンコーダ410は、サイド情報432が単一IOC信号452(これはビットストリーム・シグナリング・パラメータと考えてよい。)と、雑音のないコーディング480により生成される雑音なしにコーディングされたパラメータ(これはビットストリームパラメータ値と考えてもよい。)とを含むように、サイド情報を生成する。
【0103】
SAOCデコーダ420は、SAOCエンコーダ410によって生成されるサイド情報432と、SAOCエンコーダ410によって生成されるダウンミックス信号表現430とを受信するように構成されている。
【0104】
SAOCデコーダ420は雑音のない復号464を含み、雑音のない復号464はエンコーダ410において実行されたサイド情報432の雑音のないコーディング460を逆転するように構成されている。SAOCデコーダ420は脱量子化468も含む。脱量子化468は逆量子化と考えてもよく(それでも、厳密に言えば、量子化を完璧な精度で逆転することはできない。)、脱量子化468は復号されたサイド情報466を雑音のない復号464から受信するように構成されている。脱量子化468は脱量子化されたパラメータ470、例えば単一オブジェクト間相関計算器448によって生成され、復号及び脱量子化された共通のオブジェクト間相関値を生成し、かつ復号及び脱量子化されたオブジェクトレベル差値OLD、復号及び脱量子化されたダウンミックス利得値DMG、並びに復号及び脱量子化されたダウンミックス・チャネル・レベル差値DCLDも生成する。SAOCデコーダ420は単一オブジェクト間相関エキスパンダ474も備えており、単一オブジェクト間相関エキスパンダ474は複数の関連オーディオ・オブジェクト・ペアに関連づけられる複数のオブジェクト間相関値を共通のオブジェクト間相関値に基づいて生成するように構成されている。しかしながら、実施形態によっては、単一オブジェクト間相関エキスパンダ474が雑音のない復号464及び脱量子化468より前に配置されてもよいことに留意されるべきである。例えば、単一オブジェクト間相関エキスパンダ474は、ダウンミックス信号表現430及びサイド情報432の双方を含むビットストリームを受信するビットストリームパーサに統合されてもよい。
【0105】
SAOCデコーダ420はSAOCデコーダ処理及びミキシング480も含み、SAOCデコーダ処理及びミキシング480はダウンミックス信号表現430と、サイド情報432に(符号化された形式で)含まれていて復号されたパラメータとを受信するように構成されている。したがって、SAOCデコーダ処理及びミキシング480は、例えば(異なる)オーディオ・オブジェクト・ペア毎に1つ又は2つのオブジェクト間相関値を受信することができ、この場合、その1つ又は2つのオブジェクト間相関値は、関連のないオーディオオブジェクトではゼロ、関連のあるオーディオオブジェクトでは非ゼロとすることができる。さらに、SAOCデコーダ処理及びミキシング480は、あらゆるオーディオオブジェクトのオブジェクトレベル差値を受信することができる。さらに、SAOCデコーダ処理及びミキシング480は、SAOCダウンミックス処理440において実行されたダウンミックスを記述するダウンミックス利得値及び(場合により)ダウンミックス・チャネル・レベル差値を受信することができる。したがって、SAOCデコーダ処理及びミキシング480は、ダウンミックス信号表現430、サイド情報432に含まれるサイド情報パラメータ及びオーディオオブジェクトの所望されるレンダリングを記述する相互作用情報482に依存して、複数のチャネル信号484a〜484Nを生成することができる。しかしながら、チャネル484a〜484Nは、個々のオーディオチャネル信号の形式、又は、例えばMPEGサラウンド規格に従ったマルチチャネル表現(例えば、MPEGサラウンドダウンミックス信号及びチャネル関連MPEGサラウンドサイド情報を含む。)のようなパラメトリック表現の形式の何れで表現されてもよいことに留意されるべきである。換言すれば、本明細書本文においては、個々のチャネルオーディオ信号表現及びパラメトリックなマルチチャネルオーディオ信号表現の双方がアップミックス信号表現として考慮される。
【0106】
以下、SAOCエンコーダ410及びSAOCデコーダ420の機能に関する幾つかの詳細について述べる。
【0107】
以下で論じるSAOCサイド情報は、SAOC符号化及びSAOC復号化において重要な役割を果たす。SAOCサイド情報は、入力されるオブジェクト(オーディオオブジェクト)をその時間/周波数可変共分散行列によって記述する。N個のオブジェクト信号420a〜420N(単に「オブジェクト」と示される場合もある。)は、行列:
における列(rows)として記すことができる。ここで、エントリsi(l)は、時間指数lを有する複数の時間部分に関するオーディオオブジェクト指数iを有するオーディオオブジェクトのスペクトル値を示す。L個のサンプルによる信号ブロックは、信号特性の記述に適用される時間−周波数平面の知覚的に動機付けされるタイリング(tiling)の一部である1つの時間及び周波数間隔内の信号を表す。
【0108】
ゆえに、共分散行列は、
但し、
として与えられる。
【0109】
この共分散行列は、典型的には、SAOCデコーダ処理及びミキシング480によってチャネル信号484a〜484Nを取得するために用いられる。
【0110】
対角要素は、SAOCデコーダ側においてOLDデータによって直接に再構成されることができ、非対角要素は、オブジェクト間相関(IOC)により、
として与えられる。オブジェクトレベル差値がsm及びsnを表していることに留意されるべきである。
【0111】
共分散行列全体を表わすために必要とされるオブジェクト間相関値の数は、N*N/2−N/2である。この数は膨大になって(例えば、オブジェクト信号の数が多い場合)、高いビット要求に繋がる可能性があることから、SAOCエンコーダ410(ならびにオーディオ信号エンコーダ200)は、場合により、互いに信号で「関連あり」と表されるオブジェクトペアに関して選択されたオブジェクト間相関値のみを伝送することができる。この任意の「関連あり」情報は、例えばビットストリームのSAOC固有のコンフィギュレーション構文要素において静的に表され、例えば「SAOCSpecificConfig()」で示すことができる。互いに関連していないオブジェクトは、例えば無相関であると想定され、即ちそのオブジェクト間相関はゼロに等しい。
【0112】
しかしながら、全てのオブジェクト(又は、略全てのオブジェクト)が互いに関連している適用の筋書きが存在する。このような適用の筋書きの一例は、マイクロホンの設備を用い室内音響が高度のマイクロホン間クロストークを伴う電話会議である。これらの事例では、(上述の従来的機構が使用されれば)全てのIOC値の伝送が必要になり、通常は、所望されるビット割当量を超過するであろう。別の方法として、全てのオブジェクトが無相関であると想定することは、多大なモデルエラーを誘発し、そのために、再現される場面は準最適なオーディオ品質となるであろう。
【0113】
提案アプローチの基礎は、所定のSAOC適用の筋書きの場合、無相関の音源は、それらが位置決めされる音響環境に起因して、かつ適用される録音技術に起因して相関するSAOC入力オブジェクトをもたらすという想定にある。
【0114】
例えば、電話会議の装備について考察すると、室内残響音及び個々のスピーカの不完全な隔離による影響は、個々の対象者の発話が無相関であっても相関されたSAOCオブジェクトに繋がる。これらの音響的状況及び結果としての相関性は、単一の周波数及び時間可変値によってほぼ記述することができる。
【0115】
したがって、本提案方法は、所望されるオブジェクト相関性を全て表わす高ビットレート要求をうまく回避する。これは、SAOCエンコーダにおける専用の「単一IOC計算器」モジュール448(図4)において単一の時間/周波数依存単一IOC値を計算することによって行われる。「単一IOC」機能の使用は、信号としてSAOC情報(例えば、ビットストリーム・シグナリング・パラメータ「bsOneIOC」を用いて)で表わされる。その後、時間/周波数タイルごとに単一のIOC値が、別々の全てのIOC値の代わりに(例えば、共通のオブジェクト間相関ビットストリームパラメータ値を用いて)伝送される。
【0116】
ある典型的な適用において、ビットストリームヘッダ(例えば、未公開のSAOC規格[SAOC](非特許文献5)に従った「SAOCSpecificConfig()」要素)は、「単一IOC」信号が使用されるか、「標準的な」IOC信号が使用されるかを示す1ビットを含む。以下、この問題に関する幾つかの詳細について論じる。
【0117】
ペイロード・フレーム・データ(例えば、未公開のSAOC規格[SAOC](非特許文献5)における「SAOCFrame()」要素)は、次に、「単一IOC」モード又は「標準」モードに依存して全てのオブジェクト又は幾つかのIOCに共通するIOCを含む。
【0118】
ゆえに、デコーダ内のペイロードデータのためのビットストリームパーサ(SAOCデコーダの一部であってもよい)は、下記の例(擬似Cコードで定式化されている)に従って設計することができる。
if (iocMode == SINGLE_IOC)
{
readIocDataFromBitstream(1);
}
else
{
readIocDataFromBitstream (numberOfTransmittedIocs);
}
【0119】
上記の例によれば、ビットストリームパーサは、フラグ「iocMode」(以下、「bsOneIOC」でも示される)が唯一のオブジェクト間相関ビットストリームパラメータ値(パラメータ値「SINGLE_IOC」によって信号として表わされる)の存在を示しているかどうかをチェックする。ビットストリームパーサは、唯一のオブジェクト間相関値が存在していることを発見すると、ビットストリームから、演算「readIocDataFromBitstream(1)」により示される1つのオブジェクト間相関データユニット(即ち、1つのオブジェクト間相関ビットストリームパラメータ値)を読み取る。これに対して、フラグ「iocMode」が単一(共通)のオブジェクト間相関値の使用を示していないことを発見すると、ビットストリームパーサは、ビットストリームから、関数「readIocDataFromBitstream(numberOfTransmittedIocs)」により示される異なる数のオブジェクト間相関データユニット(即ち、複数のオブジェクト間相関ビットストリームパラメータ値)を読み取る。この場合に読み取られるオブジェクト間相関データユニットの数(「numberOfTransmittedIocs」)は、典型的には、関連オーディオ・オブジェクト・ペアの数によって決定される。
【0120】
あるいは、「単一IOC」信号は、単一IOCモードと標準IOCモードとの間のフレーム毎の動的切換を有効化するために、ペイロードフレーム内(例えば、未公開のSAOC規格における所謂「SAOCFrame()」要素内)に存在することもできる。
【0121】
5.共通するオブジェクト間相関ビットストリームパラメータのエンコーダ側での計算の実施
以下、単一IOC(IOCsingle)計算の幾つかの好適な実施について述べる。
【0122】
5.1 クロスパワー項を用いる計算
SAOCエンコーダ410の好適な一実施形態において、共通のオブジェクト間相関ビットストリームパラメータ値IOCsingleは、次式にしたがって計算することができる。
但し、クロスパワー項は、
である。ここで、n及びkは、SAOCパラメータが適用される時間及び周波数インスタンス(又は時間及び周波数指数)である。
【0123】
換言すれば、共通のオブジェクト間相関ビットストリームパラメータ値IOCsingleは、クロスパワー項nrgij(この場合、オブジェクト指数iは、典型的にはオブジェクト指数jとは異なる)の和と、平均エネルギー値
(この平均エネルギー値は、例えば、エネルギー値nrgiiとnrgjjとの幾何学的平均を表す)の和との割合に依存して計算することができる。
【0124】
この加算は、例えば全ての異なるオーディオ・オブジェクト・ペアについて実行してもよく、関連オーディオ・オブジェクト・ペアのみについて実行してもよい。
【0125】
クロスパワー項nrgijは、例えば、複数の時間インスタンス(時間指数nを有する)及び/又は複数の周波数インスタンス(周波数指数kを有する)について考慮されるオーディオ・オブジェクト・ペアのオーディオオブジェクト信号に関連づけられるスペクトル係数sin,k、sjn,kの複素共役積(因数のうちの1つが複素共役される)の和として形成することができる。
【0126】
上述の方程式に示されているように、実数値の共通のオブジェクト間相関ビットストリームパラメータ値IOCsingleを有するために、前記割合の実数部を(例えば、演算Re{}によって)形成することができる。
【0127】
5.2 定値の使用
別の好適な実施形態において、共通のオブジェクト間相関ビットストリームパラメータ値IOCsingleを取得するために、
IOCsingle=c
に従って定値cを選ぶことができる。但し、cは定数である。
【0128】
この定数cは、例えば、電話会議が行われる固有の音響(残響量)を有する部屋の時間及び周波数非依存クロストークを記述できるかも知れない。
【0129】
定数cは、例えば、室内音響の推定に従って設定することができ、SAOCエンコーダによって実行することができる。あるいは、定数cは、ユーザインタフェースを介して入力しても、又はSAOCエンコーダ410において予め定めてもよい。
【0130】
6.全てのオブジェクトペアに関するデコーダ側のオブジェクト間相関値の決定
以下、全てのオブジェクトペアについてオブジェクト間相関値を如何にして取得できるかについて述べる。
【0131】
デコーダ側では(例えば、SAOCデコーダ420において)、単一のオブジェクト間相関(ビットストリーム)パラメータ(IOCsingle)を用いて全てのオブジェクトペアのオブジェクト間相関値が決定される。これは、例えば、「単一IOCエキスパンダ」モジュール474(図4参照)において行われる。
【0132】
ある好適な方法は、単純なコピー動作である。コピーは、例えば、SAOCビットストリームヘッダにおいて(例えば、「SAOCSpecificConfiguration()」部分において)伝達される「関連あり」情報を考慮して、又は考慮せずに適用することができる。
【0133】
ある好適な実施形態において、「関連あり」情報のない(即ち、「関連あり」情報を転送又は考慮しない)コピーは、下記の方式で実行することができる。
IOCmn=IOCsingle
(m≠nである全てのm、nについて。)
【0134】
したがって、異なるオーディオ・オブジェクト・ペアに関するオブジェクト間相関値は全て、共通するオブジェクト間相関(ビットストリーム)パラメータ値に設定される。
【0135】
別の好適な実施形態において、「関連あり」情報を有する(即ち、「関連あり」情報を考慮する)コピーは、例えば下記の方式で実行される。
IOCmn=IOCsingle
(m≠nかつrelatedTo(m,n)=1である全てのm、nについて。)
IOCmn=0
(m≠nかつrelatedTo(m,n)=0である全てのm、nについて。)
【0136】
したがって、オブジェクト関連情報「relatedTo(m,n)」がそのオーディオオブジェクトは互いに関連していることを示していれば、(オーディオオブジェクト指数m及びnを有する)オーディオオブジェクトのペアに関連づけられる1つの、又は2つでさえあるオブジェクト間相関値は、例えば共通のオブジェクト間相関ビットストリームパラメータ値によって指定される値IOCsingleに設定される。そうでなければ、即ち、オブジェクト関連情報「relatedTo(m,n)」があるオーディオ・オブジェクト・ペアのオーディオオブジェクトは関連していないことを示していれば、そのオーディオオブジェクトのペアに関連づけられる1つの、又は2つでさえあるオブジェクト間相関値は、既定の値、例えばゼロに設定される。
【0137】
しかしながら、例えば、オブジェクトの電力を考慮した異なる分配方法も可能である。例えば、比較的低い電力を有するオブジェクトに関するオブジェクト間相関値は、SAOCデコーダにおける脱相関フィルタの影響を最小限に抑えるために、1(完全相関)等の高値に設定することができる。
【0138】
7.図5及び図6によるビットストリーム要素を用いるデコーダ概念
以下、図5及び図6によるビットストリーム構文要素を用いるオーディオ信号デコーダのデコーダ概念について述べる。ここで、図5及び図6を参照して述べるビットストリーム構文及びビットストリーム評価概念が、例えば図1によるオーディオ信号デコーダ100においても、図4によるオーディオ信号デコーダ420においても適用され得ることに留意されるべきである。さらに、図2によるオーディオ信号エンコーダ200及び図4によるオーディオ信号デコーダ410は、図5及び図6に関連して論じられるようなビットストリーム構文要素を生成するように適合化され得ることにも留意されるべきである。
【0139】
したがって、ダウンミックス信号表現110及びオブジェクト関連パラメータ情報112を備えているビットストリーム、及び/又はビットストリーム表現220、及び/又はビットストリーム300、及び/又はダウンミックス情報430及びサイド情報432を含むビットストリームは、以下の説明に従って生成することができる。
【0140】
上述のSAOCエンコーダにより生成することができ、かつ上述のSAOCデコーダにより評価することのできるSAOCビットストリームは、以下で図5を参照して述べるSAOC固有のコンフィギュレーション部分を含むことができる。図5はこのようなSAOC固有のコンフィギュレーション部分「SAOCSpecificConfig()」の構文表現を示している。
【0141】
SAOC固有のコンフィギュレーション情報は、例えば、サンプリング周波数コンフィギュレーション(sampling frequency configuration)情報を含み、サンプリング周波数コンフィギュレーション情報は、オーディオ信号エンコーダにより使用され、かつ/又はオーディオ信号デコーダにより使用されるべきサンプリング周波数を記述する。また、SAOC固有のコンフィギュレーション情報は低遅延モードコンフィギュレーション(low delay mode configuration)情報も含み、低遅延モードコンフィギュレーション情報は、低遅延モードがオーディオ信号エンコーダにより使用されてきているかどうか、かつ/又はオーディオ信号デコーダにより使用されるべきかどうかを記述する。またSAOC固有のコンフィギュレーション情報は周波数分解能コンフィギュレーション(frequency resolution configuration)情報も含み、周波数分解能コンフィギュレーション情報は、オーディオ信号エンコーダにより使用され、かつ/又はオーディオ信号デコーダにより使用されるべき周波数分解能を記述する。またSAOC固有のコンフィギュレーション情報はフレーム長さコンフィギュレーション(frame length configuration)情報も含み、フレーム長さコンフィギュレーション情報は、SAOCエンコーダにより使用され、かつ/又はSAOCデコーダにより使用されるべきオーディオフレームのフレーム長さを記述する。またSAOC固有のコンフィギュレーション情報は、オーディオオブジェクトの数を記述するオブジェクト数コンフィギュレーション(object number configuration)情報も含む。「bsNumObjects」でも示されるこのオブジェクト数コンフィギュレーション情報は、例えば、これまでの説明で使用された値Nを記述する。
【0142】
SAOC固有のコンフィギュレーション情報は、オブジェクト関係性コンフィギュレーション(object relationship configuration)情報も含む。例えば、異なるオーディオ・オブジェクトのペアに悉く1ビットストリームビットを存在させることができる。しかしながら、オーディオオブジェクトの関係性は、例えば、オーディオオブジェクトの組合せ毎に1ビットのエントリを有するN×N正方行列によって表すことができる。前記行列でオブジェクトとそのオブジェクト自体との関係性を記述するエントリ、すなわち対角要素は1に設定することができ、それはあるオブジェクトがそれ自体に関連づけられることを示す。2つのエントリ、すなわち第1の指数iと第2の指数jとを有する第1のエントリ及び第1の指数jと第2の指数iとを有する第2のエントリは、オーディオオブジェクト指数i及びjを有する異なるオーディオ・オブジェクト・ペアの各々に関連づけることができる。したがって、単一のビットストリームビットは、オブジェクト関連性行列の2エントリの値を決定し、それらの2つのエントリの値は同一値に設定される。
【0143】
図5から分かるように、第1のオーディオオブジェクト指数iは、i=0からi=bsNumObjectsへと進む(外側のforループ)。対角エントリ「bsRelatedTo[i][i]」は、全てのi値に対して1に設定される。第1のオーディオオブジェクト指数iに関して、オーディオオブジェクトiとオーディオオブジェクトj(オーディオオブジェクト指数jを有する)との関係性を記述するビットは、j=i+1からj=bsNumObjectsまでのビットストリームに含まれる。したがって、オーディオオブジェクト指数i及びjを有するオーディオオブジェクト間の関係性を記述する関係性行列のエントリ「bsRelatedTo[i][j]」は、ビットストリーム内に与えられる値に設定される。さらに、オブジェクト関連性行列のエントリ「bsRelatedTo[j][i]」は同じ値に、即ち行列エントリ「bsRelatedTo[i][j]」の値に設定される。詳細については、図5の構文表現を参照されたい。
【0144】
SAOC固有のコンフィギュレーション情報は絶対エネルギー伝送コンフィギュレーション情報(absolute energy transmission configuration)も含み、絶対エネルギー伝送コンフィギュレーション情報はオーディオエンコーダが絶対エネルギー情報をビットストリーム内へ包含しているかどうか、かつ/又はオーディオデコーダがそのビットストリームに含まれる絶対エネルギー伝送コンフィギュレーション情報を評価すべきかどうかを記述する。
【0145】
SAOC固有のコンフィギュレーション情報はダウンミックスチャネル数コンフィギュレーション(downmix-channel-number configuration)情報も含み、ダウンミックスチャネル数コンフィギュレーション情報は、オーディオエンコーダにより使用され、かつ/又はオーディオデコーダにより使用されるべきダウンミックスチャネルの数を記述する。また、SAOC固有のコンフィギュレーション情報は追加的コンフィギュレーション(additional configuration)情報も含むことができ、追加的コンフィギュレーション情報は本出願に関連せず、したがって場合により省略することができる。
【0146】
SAOC固有のコンフィギュレーション情報は共通のオブジェクト間相関コンフィギュレーション(common inter-object-correlation configuration)情報(本明細書では、「ビットストリーム・シグナリング・パラメータ」としても示される。)も含み、共通のオブジェクト間相関コンフィギュレーション情報は、共通のオブジェクト間相関ビットストリームパラメータ値がSAOCビットストリームに含まれるかどうか、又はオブジェクトペア毎のオブジェクト間相関ビットストリームパラメータ値がSAOCビットストリームに含まれるかどうかを記述する。その共通のオブジェクト間相関コンフィギュレーション情報は、例えば「bsOneIOC」で示すことができ、また1ビット値とすることができる。
【0147】
SAOC固有のコンフィギュレーション情報は、歪制御ユニットコンフィギュレーション(distortion control unit configuration)情報も含むことができる。
【0148】
さらに、SAOC固有のコンフィギュレーション情報は1つ以上の充填ビット(fill bit)を含んでもよい。充填ビットは「ByteAlign()」で示され、かつSAOC固有のコンフィギュレーション情報の長さを調整するために使用することができる。さらに、SAOC固有のコンフィギュレーション情報は任意の追加的なコンフィギュレーション情報「SAOCExtensionConfig()」を含んでもよいが、これは本出願には関連がなく、そのため本明細書では論じない。
【0149】
ここで、SAOC固有のコンフィギュレーション情報に含まれるコンフィギュレーション情報が上述のコンフィギュレーション情報より多くてもよく又は少なくてもよいことに留意されるべきである。換言すれば、実施形態によっては上述のコンフィギュレーション情報のうちの幾つかを省略することができ、また実施形態によっては更なるコンフィギュレーション情報を包含することができる。
【0150】
しかしながら、SAOC固有のコンフィギュレーション情報は、例えばSAOCビットストリームにおけるオーディオの一定量ごとに1回包含されてもよいことに留意されるべきである。しかしながら、SAOC固有のコンフィギュレーション情報は、場合によりビットストリームにそれより多く包含することができる。しかし、SAOC固有のコンフィギュレーション情報がかなりのビット負荷を与えることから、SAOC固有のコンフィギュレーション情報は、典型的には、複数のSAOCフレームに対して与えられる。
【0151】
以下、SAOCフレームの構文について、このようなSAOCフレームの構文表現を示す図6を参照して述べる。SAOCフレームは符号化されたオブジェクトレベル差値OLDを含み、符号化されたオブジェクトレベル差値OLDはバンド関連で、オーディオオブジェクト毎に包含することができる。
【0152】
SAOCフレームは符号化された絶対エネルギー値(absolute energy value)NRGも含み、符号化された絶対エネルギー値NRGは任意であると考えてもよく、バンド関連で包含されてもよい。
【0153】
SAOCフレームは符号化されたオブジェクト間相関値IOCも含み、符号化されたオブジェクト間相関値IOCは、バンド関連で、即ち複数の周波数バンドで別々に与えられてもよく、オーディオオブジェクトの複数の組合せに対して与えられてもよい。
【0154】
以下、ビットストリームについて、ビットストリームを構文解析するビットストリームパーサにより実行することのできる演算について述べる。
【0155】
ビットストリームパーサは、例えば、最初の準備段階において変数k、iocldx1、iocldx2を値ゼロに初期化することができる。
【0156】
続いて、ビットストリームパーサは、i=0からi=bsNumObjectsまでの第1のオーディオオブジェクト指数iの複数の値について構文解析を実行することができる(外側のforループ)。ビットストリームパーサは、例えば、オーディオオブジェクト指数iを有するオーディオオブジェクトとこのオーディオオブジェクト自体との関係性を記述するオブジェクト間相関指数値idxIoc[i][i]を、完全相関を示すゼロに設定することができる。
【0157】
続いて、ビットストリームパーサは、i+1からbsNumObjectsまでの第2のオーディオオブジェクト指数の値jについてビットストリームを評価することができる。オーディオオブジェクト指数i及びjを有するオーディオオブジェクトに関連があって、これがオブジェクト関連性行列のエントリ「bsRelatedTo[i][j]」の非ゼロ値によって示されておれば、ビットストリームパーサはアルゴリズム610を実行し、そうでなければ、ビットストリームパーサは、オーディオオブジェクト指数i及びjを有するオーディオオブジェクトに関連づけられるオブジェクト間相関指数を5(演算「idxIOC[i][j]=5」)に設定する。オブジェクト間相関指数の5はゼロ相関を記述する。このように、オブジェクト関連性行列が関係性のないことを示しているオーディオ・オブジェクト・ペアに対しては、オブジェクト間相関値がゼロに設定される。しかしながら、オーディオ・オブジェクト・ペアに関連があれば、SAOC固有のコンフィギュレーションに含まれるビットストリーム・シグナリング・パラメータ「bsOneIOC」が進め方を決定するために評価される。ビットストリーム・シグナリング・パラメータ「bsOneIOC」が、オブジェクトペア毎のオブジェクト間相関ビットストリームパラメータ値の存在を示していれば、関数「EcDataSaoc」を用いて、「numBands」周波数バンドのビットストリームから複数のidxIoc[i][j](オブジェクト間関係性ビットストリームパラメータ値と考えることができる。)が抽出される。この場合、その関数「EcDataSaoc」はオブジェクト間関係性指数を復号するために使用することができる。
【0158】
しかしながら、ビットストリーム・シグナリング・パラメータ「bsOneIOC」が、複数のオーディオ・オブジェクト・ペアに対して共通のオブジェクト間相関ビットストリームパラメータ値が使用されることを示し、かつビットストリームパラメータ「bsRelatedTo[i][j]」がオーディオオブジェクト指数i及びjを有するオーディオオブジェクトは関連していることを示していれば、複数のnumBands周波数バンドに対して、関数「EcDataSaoc」を用いてビットストリームから複数のオブジェクト間相関指数「idxIOC[i][j]」からなる単一セットが読み取られる。その場合、どの周波数バンドに対しても、単一のオブジェクト間相関指数のみが読み取られる。しかしながら、アルゴリズム610を再実行した時点で、先に読み取られたオブジェクト間相関指数idxIOC[iocldx1][iocldx2]はビットストリームを評価することなくコピーされる。これは変数kの使用によって保証され、変数kはゼロに初期化されかつオブジェクト間相関指数idxIOC[i][j]の最初のセットが評価された時点で増分される。
【0159】
要約すると、2つのオーディオオブジェクトによる各組合せについて、このような組合せの2つのオーディオオブジェクトが互いに関連しているとして信号で表わされているかどうかが、まず評価される(例えば、値「bsRelatedTo[i][j]」が値ゼロをとるか否かをチェックすることによって。)。そのオーディオ・オブジェクト・ペアのオーディオオブジェクトが関連していれば、さらなる処理610が実行される。そうでなければ、この(実質上関連のない)オーディオ・オブジェクト・ペアに関連づけられる値「idxIOC[i][j]」は既定値に、例えばゼロオブジェクト間相関を示す既定値に設定される。
【0160】
処理610において、信号「bsOneIOC」が不活性であれば、あらゆるオーディオ・オブジェクト・ペア(関連するオーディオオブジェクトを含むことが信号で表わされている。)についてビットストリームから1つのビットストリーム値が読み取られる。そうでなければ、即ち信号「bsOneIOC」が活性であれば、1つのオーディオ・オブジェクト・ペアにつきビットストリーム値が1つだけ読み取られ、かつ指数値iocldx1及びiocldx2をこの読取り値におけるポイントに設定することにより、前記単一のペアの参照が保持される。信号「bsOneIOC」が活性であれば、読み取られたこの単一の値は他のオーディオ・オブジェクト・ペア(互いに関連ありとして信号で表わされている。)用に再使用される。
【0161】
最後に、所定の2つのオーディオオブジェクトのどちらが第1のオーディオオブジェクトであって、所定の2つのオーディオオブジェクトのどちらが第2のオーディオオブジェクトであるかに関わらず、2つの異なる所定のオーディオオブジェクトの双方の組合せに同一のオブジェクト間相関指数値が関連づけられることも保証される。
【0162】
さらに、SAOCフレームは、典型的には、オーディオオブジェクト毎に符号化されたダウンミックス利得値(DMG)を含むことに留意されるべきである。
【0163】
さらに、SAOCフレームは、典型的には、符号化されたダウンミックス・チャネル・レベル差(DCLD)を含み、符号化されたダウンミックス・チャネル・レベル差は場合によりオーディオオブジェクト毎に含むことができる。
【0164】
SAOCフレームはさらに、場合により、符号化された処理後ダウンミックス利得値(PDG)を含み、符号化された処理後ダウンミックス利得値はバンド関連方式で、かつダウンミックスチャネル毎に含むことができる。
【0165】
さらに、SAOCフレームは符号化された歪制御ユニットパラメータ(distortion-control-unit parameters)を含むことができ、符号化された歪制御ユニットパラメータは歪制御尺度の適用を決定する。
【0166】
その上、SAOCフレームは、1つ以上の充填ビット「ByteAlign()」を含むことができる。
【0167】
さらに、SAOCフレームは、拡張データ「SAOCExtensionFrame()」を含んでもよいが、これは本出願には関連がなく、そのため本明細書では詳述しない。
【0168】
次に、図7を参照して、オブジェクト間相関パラメータの効果的な量子化の一例について述べる。
【0169】
図7から分かるように、図7の表の最初の行710は量子化指数idxを表し、量子化指数idxはゼロから7までの範囲内にある。この量子化指数は、変数「idxIOC[i][j]」へ割り付けることができる。図7の表の第2の行720は、関連するオブジェクト間相関値を−0.99から1までの範囲で示している。したがって、パラメータ「idxIOC[i][j]」の値は、図7の表のマッピングを用いて逆量子化されたオブジェクト間相関値へ移すことができる。
【0170】
結論を言えば、SAOCコンフィギュレーション部分「SAOCSpecificConfig()」は好適にはビットストリームパラメータ「bsOneIOC」を含み、ビットストリームパラメータ「bsOneIOC」は、互いに関連性を有する全てのオブジェクトに共通する単一のIOCパラメータのみが表わされているかどうかを示し、「bsRelatedTo[i][j]=1」により信号で表わされる。オブジェクト間相関値は、ビットストリーム内に符号化された形式「EcDataSaoc(IOC,k,numBands)」で含まれる。アレイ「idxIOC[i][j]」は、1つ以上の符号化されたオブジェクト間相関値に基づき埋められる。アレイ「idxIOC[i][j]」のエントリは、逆量子化されたオブジェクト間相関値を取得するために、図7のマッピング表を用いて逆量子化された値へ移される。IOCi,jで示される逆量子化されたオブジェクト間相関値は、共分散行列のエントリを取得するために用いられる。この目的に沿って、OLDiで示される逆量子化されたオブジェクトレベル差パラメータも適用される。
【0171】
複数の要素ei,jを有するサイズN×Nの共分散行列Eは、元の信号の共分散行列
の近似値を表し、かつ、
としてOLD及びIOCパラメータから取得される。
【0172】
7.実施の変形例
以上、幾つかの態様を装置の文脈で説明したが、これらの態様は対応する方法を記述するものでもあることは明らかでああり、その場合、ブロック又はデバイスが方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様も、対応するブロックもしくは項目、又は対応する装置の特徴の説明を表す。これらの方法ステップのうちの幾つか又は全ては、例えばマイクロプロセッサ、プログラマブルコンピュータ又は電子回路のようなハードウェア装置によって(又はこれを使用して)実行することができる。実施形態によっては、最も重要な方法ステップのうちのどれか1つ又は複数の方法ステップがこのような装置によって実行することができる。
【0173】
本発明による符号化されたオーディオ信号は、デジタル記憶媒体に蓄積されることが可能であり、又は無線伝送媒体等の伝送媒体上又はインターネット等の有線伝送媒体上で伝送されることが可能である。
【0174】
所定の実施要請に依存して、本発明の実施形態はハードウェア又はソフトウェアで実施されることが可能である。実施は電子的に読取り可能な制御信号を蓄積しているデジタル記憶媒体、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリ、を用いて実行されることが可能であり、それらのデジタル記憶媒体は個々の方法が実行されるようにプログラム可能コンピュータシステムと協働する(又は協働することができる)。したがって、デジタル記憶媒体はコンピュータ読取り可能とすることができる。
【0175】
本発明による幾つかの実施形態は、本明細書に記載されている方法のうちの1つが実行されるようにプログラム可能コンピュータシステムと協働できる電子的に読取り可能な制御信号を有するデータキャリアを含んでいる。
【0176】
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム製品として実施されることが可能であり、前記プログラムコードは、このコンピュータ・プログラム製品がコンピュータ上で実行されると本発明の方法のうちの1つを実行するように作動する。プログラムコードは、例えば機械読取り可能キャリアに蓄積することができる。
【0177】
他の実施形態は、機械読取り可能キャリアに蓄積された、本明細書に記載されている本発明方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0178】
したがって、換言すれば、本発明方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されると本明細書に記載されている本発明方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0179】
したがって、本発明方法のさらなる実施形態は、本明細書に記述されている本発明方法のうちの1つを実行するためのコンピュータプログラムを記録して備えているデータキャリア(又はデジタル記憶媒体又はコンピュータ読取り可能媒体)である。データキャリア、デジタル記憶媒体又は記録媒体は、典型的には有形及び/又は非遷移性(non-transitionary)である。
【0180】
したがって、本発明方法のさらなる実施形態は、本明細書に記載されている本発明方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
【0181】
さらなる実施形態は、本明細書に記載されている本発明方法のうちの1つを実行するように構成されているか又は適合化される、例えばコンピュータである処理手段又はプログラマブル論理デバイスを含む。
【0182】
さらなる実施形態は、本明細書に記載されている本発明方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
【0183】
実施形態によっては、本明細書に記載されている本発明方法の機能の幾つか又は全てを実行するために、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲートアレイ)を用いることができる。実施形態によっては、フィールド・プログラマブル・ゲートアレイは、本明細書に記載されている本発明方法のうちの1つを実行するためにマイクロプロセッサと協働することができる。概して、これらの方法は、好適には任意のハードウェア装置によって実行される。
【0184】
これまでに述べた実施形態は、単に本発明の原理を例示するものである。当業者には、本明細書に記載されている装置及び詳細の修正及び変形が明らかであることは理解される。したがって、本発明は、本明細書における実施形態の記述及び説明によって提示された特定の詳細ではなく、添付の特許請求の範囲によってのみ限定されるべきものである。
【特許請求の範囲】
【請求項1】
ダウンミックス信号表現(110;430)及びオブジェクト関連パラメータ情報(112;432)に基づき、かつレンダリング情報(120;482)に依存してアップミックス信号表現(130;484a〜484M)を生成するためのオーディオ信号デコーダ(100;420)であって、
複数のオーディオ・オブジェクト・ペアのオブジェクト間相関値(142;IOCij)を取得するように構成されているオブジェクトパラメータ決定器であって、該オブジェクト−パラメータ決定器は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、又は共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、ビットストリーム・シグナリング・パラメータ(bsOneIOC)を評価するように構成されているオブジェクトパラメータ決定器(140;464,468,474)と、
前記ダウンミックス信号表現に基づき、かつ複数の関連オーディオ・オブジェクト・ペアの前記オブジェクト間相関値及び前記レンダリング情報を用いて前記アップミックス信号表現を取得するように構成されている信号プロセッサ(150;480)と、を備えたオーディオ信号デコーダ。
【請求項2】
前記オブジェクトパラメータ決定器(140;464,468,474)は、2つのオーディオオブジェクトが互いに関連しているかどうかを記述するオブジェクト関係性情報(bsRelatedTo)を評価するように構成され、
前記オブジェクトパラメータ決定器は、前記オブジェクト関係性情報が関係性を示すオーディオ・オブジェクト・ペアに対しては前記共通のオブジェクト間相関ビットストリームパラメータ値を用いてオブジェクト間相関値を選択的に取得し、かつ前記オブジェクト関係性情報が関連性のないことを示すオーディオ・オブジェクト・ペアのオブジェクト間相関値を既定値に設定するように構成されている請求項1に記載のオーディオ信号デコーダ。
【請求項3】
前記オブジェクトパラメータ決定器(140;464,468,474)は、異なるオーディオオブジェクトの組合せ毎に1ビットフラグを備えているオブジェクト関係性情報を評価するように構成され、異なるオーディオオブジェクトの所定の組合せに関連づけられる前記1ビットフラグは、前記所定の組合せのオーディオオブジェクト同士に関連性があるか否かを示す請求項1又は2に記載のオーディオ信号デコーダ。
【請求項4】
前記オブジェクトパラメータ決定器(140;464,468,474)は、全ての異なる関連オーディオ・オブジェクト・ペアの前記オブジェクト間相関値を前記共通のオブジェクト間相関ビットストリームパラメータ値によって規定される共通値に、又は前記共通のオブジェクト間相関ビットストリームパラメータ値により規定される前記共通値から導出される値に設定するように構成されている請求項1から3までのいずれか一項に記載のオーディオ信号デコーダ。
【請求項5】
前記オブジェクトパラメータ決定器(140;464,468,474)は、前記ビットストリーム・シグナリング・パラメータ(bsOneIOC)、及び前記個々のオブジェクト間相関ビットストリームパラメータ値又は前記共通のオブジェクト間相関ビットストリームパラメータ値を取得するためにオーディオコンテンツのビットストリーム表現を構文解析するように構成されているビットストリームパーサを備えている請求項1から4までのいずれか一項に記載のオーディオ信号デコーダ。
【請求項6】
前記オーディオ信号デコーダは、関連オーディオ・オブジェクト・ペアに関連づけられる共分散値(ei,j)を取得するために、関連オーディオ・オブジェクト・ペアに関連づけられるオブジェクト間相関値(IOCi,j)を、前記関連オーディオ・オブジェクト・ペアの第1のオーディオオブジェクトのオブジェクトレベルを記述するオブジェクトレベル差値(OLDi)と、前記関連オーディオ・オブジェクト・ペアの第2のオーディオオブジェクトのオブジェクトレベルを記述するオブジェクトレベル差値(OLDj)とに結合するように構成されている請求項1から5までのいずれか一項に記載のオーディオ信号デコーダ。
【請求項7】
該オーディオ信号デコーダは、3つ以上のオーディオオブジェクトを処理するように構成され、
前記オブジェクトパラメータ決定器(140;464,468,474)は、あらゆる異なるオーディオ・オブジェクト・ペアのオブジェクト間相関値を生成するように構成されている請求項1から6までのいずれか一項に記載のオーディオ信号デコーダ。
【請求項8】
前記オブジェクトパラメータ決定器(140;464,468,474)は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、コンフィギュレーションビットストリーム部分(SAOCSpecificConfig)に含まれるビットストリーム・シグナリング・パラメータを評価するように構成され、
前記オブジェクト−パラメータ決定器は、2つのオーディオオブジェクトが関連のあるものであるかどうかを決定するために、前記コンフィギュレーションビットストリーム部分に含まれるオブジェクト関係性情報(bsRelatedTo[i][j])を評価するように構成され、
前記オブジェクトパラメータ決定器は、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得することが決定されれば、あらゆるオーディオ・コンテンツ・フレームについて、フレーム・データ・ビットストリーム部分(SAOCFrame)に含まれる共通のオブジェクト間相関ビットストリームパラメータ値を評価するように構成されている請求項1から7までのいずれか一項に記載のオーディオ信号デコーダ。
【請求項9】
複数のオーディオオブジェクト信号(210a〜210N、420a〜420N)に基づきビットストリーム表現を生成するためのオーディオ信号エンコーダ(200;410)であって、
前記オーディオオブジェクト信号に基づき、かつダウンミックス信号の1つ以上のチャネルへの前記オーディオオブジェクト信号の寄与について記述するダウンミックスパラメータ(DMG,DCLD)に依存してダウンミックス信号(232;430)を生成するように構成されているダウンミキサ(230;440)と、
複数の関連オーディオオブジェクト信号ペアに関連づけられる共通のオブジェクト間相関ビットストリームパラメータ値(242)を生成するように、かつ前記共通のオブジェクト間相関ビットストリームパラメータ値が複数の個々のオブジェクト間相関ビットストリームパラメータ値の代わりに生成されることを示すビットストリーム・シグナリング・パラメータ(bsOneIOC;244;452)を生成するようにも構成されているパラメータプロバイダ(240;444,450,460)と、
前記ダウンミックス信号の表現と、前記共通のオブジェクト間相関ビットストリームパラメータ値の表現と、前記ビットストリーム・シグナリング・パラメータとを含むビットストリームを生成するように構成されているビットストリームフォーマッタ(250)と、を備えているオーディオ信号エンコーダ。
【請求項10】
前記パラメータプロバイダは、クロスパワー項の和と平均パワー項の和との割合に依存して前記共通のオブジェクト間相関ビットストリームパラメータ値を生成するように構成されている請求項9に記載のオーディオ信号エンコーダ。
【請求項11】
前記パラメータプロバイダは、所定のオーディオ・オブジェクト・ペアのオーディオオブジェクトに関連づけられるスペクトル係数の積和を複数の時間インスタンスに渡って、又は複数の周波数インスタンスに渡って評価することにより、所定のオーディオ・オブジェクト・ペアのクロスパワー項を計算するように構成され、
前記パラメータプロバイダは、複数の時間インスタンスに渡って、又は複数の周波数インスタンスに渡って第1のオーディオオブジェクトのパワーを表すパワー値の幾何学的平均、及び複数の時間インスタンスに渡って、又は複数の周波数インスタンスに渡って第2のオーディオオブジェクトのパワーを表すパワー値の幾何学的平均を評価することにより、所定のオーディオ・オブジェクト・ペアの前記平均パワー項を計算するように構成されている請求項10に記載のオーディオ信号エンコーダ。
【請求項12】
前記パラメータプロバイダは、共通のオブジェクト間相関ビットストリームパラメータ値IOCsingleを、次式、
に従って生成するように構成され、但し、
であり、
nとkは、SAOCパラメータが適用される時間及び周波数インスタンスを記述し、
sin,kは、オーディオオブジェクト指数iを有するオーディオオブジェクトの時間インスタンスn及び周波数インスタンスkに関連づけられるスペクトル値であり、
sjn,kは、オーディオオブジェクト指数jを有するオーディオオブジェクトの時間インスタンスn及び周波数インスタンスkに関連づけられるスペクトル値であり、
Nはオーディオオブジェクトの総数を示す請求項10又は11に記載のオーディオ信号エンコーダ。
【請求項13】
前記パラメータプロバイダは、前記共通のオブジェクト間相関ビットストリームパラメータ値として既定の定値を生成するように構成されている請求項9に記載のオーディオ信号エンコーダ。
【請求項14】
前記パラメータプロバイダは、2つのオーディオオブジェクトが互いに関連しているかどうかを記述するオブジェクト関係性情報(bsRelatedTo)を生成するようにも構成されている請求項9から13までのいずれか一項に記載のオーディオ信号エンコーダ。
【請求項15】
前記パラメータプロバイダは、前記共通のオブジェクト間相関ビットストリームパラメータ値の計算に関して前記オブジェクト関係性情報が関係性を示しているオーディオオブジェクトのオブジェクト間相関を選択的に評価するように構成されている請求項14に記載のオーディオ信号エンコーダ。
【請求項16】
ダウンミックス信号表現及びオブジェクト関連パラメータ情報に基づき、かつレンダリング情報に依存してアップミックス信号表現を生成するための方法であって、
複数のオーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するステップであって、該ステップは、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、ビットストリーム・シグナリング・パラメータを評価するステップと、
前記ダウンミックス信号表現に基づき、かつ複数の関連オーディオ・オブジェクト・ペアの前記オブジェクト間相関値及び前記レンダリング情報を用いて前記アップミックス信号表現を取得するステップと、を含むアップミックス信号表現生成方法。
【請求項17】
複数のオーディオオブジェクト信号に基づきビットストリーム表現を生成するための方法であって、
前記オーディオオブジェクト信号に基づき、かつダウンミックス信号の1つ以上のチャネルへの前記オーディオオブジェクト信号の寄与について記述するダウンミックスパラメータに依存して前記ダウンミックス信号を生成するステップと、
複数の関連オーディオオブジェクト信号ペアに関連づけられる共通のオブジェクト間相関ビットストリームパラメータ値を生成するステップと、
前記共通のオブジェクト間相関ビットストリームパラメータ値が複数の個々のオブジェクト間相関ビットストリームパラメータ値の代わりに生成されることを示すビットストリーム・シグナリング・パラメータを生成するステップと、
前記ダウンミックス信号の表現と、前記共通のオブジェクト間相関ビットストリームパラメータ値の表現と、前記ビットストリーム・シグナリング・パラメータとを含むビットストリームを生成するステップとを含むビットストリーム表現生成方法。
【請求項18】
コンピュータ上でコンピュータプログラムが実行されると、請求項16又は請求項17に記載の方法を実行するためのコンピュータプログラム。
【請求項19】
マルチチャネルオーディオ信号を表すビットストリームであって、
複数のオーディオオブジェクトのオーディオ信号を結合するダウンミックス信号の表現と、
前記オーディオオブジェクトの特徴を記述するオブジェクト関連パラメトリックなサイド情報と、を含み、
前記オブジェクト関連パラメトリックなサイド情報は、該ビットストリームが個々のオブジェクト間相関ビットストリームパラメータ値を含むか共通のオブジェクト間相関ビットストリームパラメータ値を含むかを示すビットストリーム・シグナリング・パラメータを含むビットストリーム。
【請求項1】
ダウンミックス信号表現(110;430)及びオブジェクト関連パラメータ情報(112;432)に基づき、かつレンダリング情報(120;482)に依存してアップミックス信号表現(130;484a〜484M)を生成するためのオーディオ信号デコーダ(100;420)であって、
複数のオーディオ・オブジェクト・ペアのオブジェクト間相関値(142;IOCij)を取得するように構成されているオブジェクトパラメータ決定器であって、該オブジェクト−パラメータ決定器は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、又は共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、ビットストリーム・シグナリング・パラメータ(bsOneIOC)を評価するように構成されているオブジェクトパラメータ決定器(140;464,468,474)と、
前記ダウンミックス信号表現に基づき、かつ複数の関連オーディオ・オブジェクト・ペアの前記オブジェクト間相関値及び前記レンダリング情報を用いて前記アップミックス信号表現を取得するように構成されている信号プロセッサ(150;480)と、を備えたオーディオ信号デコーダ。
【請求項2】
前記オブジェクトパラメータ決定器(140;464,468,474)は、2つのオーディオオブジェクトが互いに関連しているかどうかを記述するオブジェクト関係性情報(bsRelatedTo)を評価するように構成され、
前記オブジェクトパラメータ決定器は、前記オブジェクト関係性情報が関係性を示すオーディオ・オブジェクト・ペアに対しては前記共通のオブジェクト間相関ビットストリームパラメータ値を用いてオブジェクト間相関値を選択的に取得し、かつ前記オブジェクト関係性情報が関連性のないことを示すオーディオ・オブジェクト・ペアのオブジェクト間相関値を既定値に設定するように構成されている請求項1に記載のオーディオ信号デコーダ。
【請求項3】
前記オブジェクトパラメータ決定器(140;464,468,474)は、異なるオーディオオブジェクトの組合せ毎に1ビットフラグを備えているオブジェクト関係性情報を評価するように構成され、異なるオーディオオブジェクトの所定の組合せに関連づけられる前記1ビットフラグは、前記所定の組合せのオーディオオブジェクト同士に関連性があるか否かを示す請求項1又は2に記載のオーディオ信号デコーダ。
【請求項4】
前記オブジェクトパラメータ決定器(140;464,468,474)は、全ての異なる関連オーディオ・オブジェクト・ペアの前記オブジェクト間相関値を前記共通のオブジェクト間相関ビットストリームパラメータ値によって規定される共通値に、又は前記共通のオブジェクト間相関ビットストリームパラメータ値により規定される前記共通値から導出される値に設定するように構成されている請求項1から3までのいずれか一項に記載のオーディオ信号デコーダ。
【請求項5】
前記オブジェクトパラメータ決定器(140;464,468,474)は、前記ビットストリーム・シグナリング・パラメータ(bsOneIOC)、及び前記個々のオブジェクト間相関ビットストリームパラメータ値又は前記共通のオブジェクト間相関ビットストリームパラメータ値を取得するためにオーディオコンテンツのビットストリーム表現を構文解析するように構成されているビットストリームパーサを備えている請求項1から4までのいずれか一項に記載のオーディオ信号デコーダ。
【請求項6】
前記オーディオ信号デコーダは、関連オーディオ・オブジェクト・ペアに関連づけられる共分散値(ei,j)を取得するために、関連オーディオ・オブジェクト・ペアに関連づけられるオブジェクト間相関値(IOCi,j)を、前記関連オーディオ・オブジェクト・ペアの第1のオーディオオブジェクトのオブジェクトレベルを記述するオブジェクトレベル差値(OLDi)と、前記関連オーディオ・オブジェクト・ペアの第2のオーディオオブジェクトのオブジェクトレベルを記述するオブジェクトレベル差値(OLDj)とに結合するように構成されている請求項1から5までのいずれか一項に記載のオーディオ信号デコーダ。
【請求項7】
該オーディオ信号デコーダは、3つ以上のオーディオオブジェクトを処理するように構成され、
前記オブジェクトパラメータ決定器(140;464,468,474)は、あらゆる異なるオーディオ・オブジェクト・ペアのオブジェクト間相関値を生成するように構成されている請求項1から6までのいずれか一項に記載のオーディオ信号デコーダ。
【請求項8】
前記オブジェクトパラメータ決定器(140;464,468,474)は、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、コンフィギュレーションビットストリーム部分(SAOCSpecificConfig)に含まれるビットストリーム・シグナリング・パラメータを評価するように構成され、
前記オブジェクト−パラメータ決定器は、2つのオーディオオブジェクトが関連のあるものであるかどうかを決定するために、前記コンフィギュレーションビットストリーム部分に含まれるオブジェクト関係性情報(bsRelatedTo[i][j])を評価するように構成され、
前記オブジェクトパラメータ決定器は、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得することが決定されれば、あらゆるオーディオ・コンテンツ・フレームについて、フレーム・データ・ビットストリーム部分(SAOCFrame)に含まれる共通のオブジェクト間相関ビットストリームパラメータ値を評価するように構成されている請求項1から7までのいずれか一項に記載のオーディオ信号デコーダ。
【請求項9】
複数のオーディオオブジェクト信号(210a〜210N、420a〜420N)に基づきビットストリーム表現を生成するためのオーディオ信号エンコーダ(200;410)であって、
前記オーディオオブジェクト信号に基づき、かつダウンミックス信号の1つ以上のチャネルへの前記オーディオオブジェクト信号の寄与について記述するダウンミックスパラメータ(DMG,DCLD)に依存してダウンミックス信号(232;430)を生成するように構成されているダウンミキサ(230;440)と、
複数の関連オーディオオブジェクト信号ペアに関連づけられる共通のオブジェクト間相関ビットストリームパラメータ値(242)を生成するように、かつ前記共通のオブジェクト間相関ビットストリームパラメータ値が複数の個々のオブジェクト間相関ビットストリームパラメータ値の代わりに生成されることを示すビットストリーム・シグナリング・パラメータ(bsOneIOC;244;452)を生成するようにも構成されているパラメータプロバイダ(240;444,450,460)と、
前記ダウンミックス信号の表現と、前記共通のオブジェクト間相関ビットストリームパラメータ値の表現と、前記ビットストリーム・シグナリング・パラメータとを含むビットストリームを生成するように構成されているビットストリームフォーマッタ(250)と、を備えているオーディオ信号エンコーダ。
【請求項10】
前記パラメータプロバイダは、クロスパワー項の和と平均パワー項の和との割合に依存して前記共通のオブジェクト間相関ビットストリームパラメータ値を生成するように構成されている請求項9に記載のオーディオ信号エンコーダ。
【請求項11】
前記パラメータプロバイダは、所定のオーディオ・オブジェクト・ペアのオーディオオブジェクトに関連づけられるスペクトル係数の積和を複数の時間インスタンスに渡って、又は複数の周波数インスタンスに渡って評価することにより、所定のオーディオ・オブジェクト・ペアのクロスパワー項を計算するように構成され、
前記パラメータプロバイダは、複数の時間インスタンスに渡って、又は複数の周波数インスタンスに渡って第1のオーディオオブジェクトのパワーを表すパワー値の幾何学的平均、及び複数の時間インスタンスに渡って、又は複数の周波数インスタンスに渡って第2のオーディオオブジェクトのパワーを表すパワー値の幾何学的平均を評価することにより、所定のオーディオ・オブジェクト・ペアの前記平均パワー項を計算するように構成されている請求項10に記載のオーディオ信号エンコーダ。
【請求項12】
前記パラメータプロバイダは、共通のオブジェクト間相関ビットストリームパラメータ値IOCsingleを、次式、
に従って生成するように構成され、但し、
であり、
nとkは、SAOCパラメータが適用される時間及び周波数インスタンスを記述し、
sin,kは、オーディオオブジェクト指数iを有するオーディオオブジェクトの時間インスタンスn及び周波数インスタンスkに関連づけられるスペクトル値であり、
sjn,kは、オーディオオブジェクト指数jを有するオーディオオブジェクトの時間インスタンスn及び周波数インスタンスkに関連づけられるスペクトル値であり、
Nはオーディオオブジェクトの総数を示す請求項10又は11に記載のオーディオ信号エンコーダ。
【請求項13】
前記パラメータプロバイダは、前記共通のオブジェクト間相関ビットストリームパラメータ値として既定の定値を生成するように構成されている請求項9に記載のオーディオ信号エンコーダ。
【請求項14】
前記パラメータプロバイダは、2つのオーディオオブジェクトが互いに関連しているかどうかを記述するオブジェクト関係性情報(bsRelatedTo)を生成するようにも構成されている請求項9から13までのいずれか一項に記載のオーディオ信号エンコーダ。
【請求項15】
前記パラメータプロバイダは、前記共通のオブジェクト間相関ビットストリームパラメータ値の計算に関して前記オブジェクト関係性情報が関係性を示しているオーディオオブジェクトのオブジェクト間相関を選択的に評価するように構成されている請求項14に記載のオーディオ信号エンコーダ。
【請求項16】
ダウンミックス信号表現及びオブジェクト関連パラメータ情報に基づき、かつレンダリング情報に依存してアップミックス信号表現を生成するための方法であって、
複数のオーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するステップであって、該ステップは、複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するために個々のオブジェクト間相関ビットストリームパラメータ値を評価するか、共通のオブジェクト間相関ビットストリームパラメータ値を用いて複数の関連オーディオ・オブジェクト・ペアのオブジェクト間相関値を取得するかを決定するために、ビットストリーム・シグナリング・パラメータを評価するステップと、
前記ダウンミックス信号表現に基づき、かつ複数の関連オーディオ・オブジェクト・ペアの前記オブジェクト間相関値及び前記レンダリング情報を用いて前記アップミックス信号表現を取得するステップと、を含むアップミックス信号表現生成方法。
【請求項17】
複数のオーディオオブジェクト信号に基づきビットストリーム表現を生成するための方法であって、
前記オーディオオブジェクト信号に基づき、かつダウンミックス信号の1つ以上のチャネルへの前記オーディオオブジェクト信号の寄与について記述するダウンミックスパラメータに依存して前記ダウンミックス信号を生成するステップと、
複数の関連オーディオオブジェクト信号ペアに関連づけられる共通のオブジェクト間相関ビットストリームパラメータ値を生成するステップと、
前記共通のオブジェクト間相関ビットストリームパラメータ値が複数の個々のオブジェクト間相関ビットストリームパラメータ値の代わりに生成されることを示すビットストリーム・シグナリング・パラメータを生成するステップと、
前記ダウンミックス信号の表現と、前記共通のオブジェクト間相関ビットストリームパラメータ値の表現と、前記ビットストリーム・シグナリング・パラメータとを含むビットストリームを生成するステップとを含むビットストリーム表現生成方法。
【請求項18】
コンピュータ上でコンピュータプログラムが実行されると、請求項16又は請求項17に記載の方法を実行するためのコンピュータプログラム。
【請求項19】
マルチチャネルオーディオ信号を表すビットストリームであって、
複数のオーディオオブジェクトのオーディオ信号を結合するダウンミックス信号の表現と、
前記オーディオオブジェクトの特徴を記述するオブジェクト関連パラメトリックなサイド情報と、を含み、
前記オブジェクト関連パラメトリックなサイド情報は、該ビットストリームが個々のオブジェクト間相関ビットストリームパラメータ値を含むか共通のオブジェクト間相関ビットストリームパラメータ値を含むかを示すビットストリーム・シグナリング・パラメータを含むビットストリーム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9A】
【図9B】
【図9C】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9A】
【図9B】
【図9C】
【公表番号】特表2013−506164(P2013−506164A)
【公表日】平成25年2月21日(2013.2.21)
【国際特許分類】
【出願番号】特願2012−531366(P2012−531366)
【出願日】平成22年9月28日(2010.9.28)
【国際出願番号】PCT/EP2010/064379
【国際公開番号】WO2011/039195
【国際公開日】平成23年4月7日(2011.4.7)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(500341779)フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン (75)
【出願人】(506427990)ドルビー・インターナショナル・アクチボラゲット (24)
【氏名又は名称原語表記】DOLBY INTERNATIONAL AB
【公表日】平成25年2月21日(2013.2.21)
【国際特許分類】
【出願日】平成22年9月28日(2010.9.28)
【国際出願番号】PCT/EP2010/064379
【国際公開番号】WO2011/039195
【国際公開日】平成23年4月7日(2011.4.7)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(500341779)フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン (75)
【出願人】(506427990)ドルビー・インターナショナル・アクチボラゲット (24)
【氏名又は名称原語表記】DOLBY INTERNATIONAL AB
[ Back to top ]