説明

ダウンミックス信号表現に基づいてアップミックス信号表現を生成するための装置、マルチチャネルオーディオ信号を表現するビットストリームを生成するための装置、歪制御信号化を用いる方法、コンピュータプログラム及びビットストリーム

オーディオコンテンツのビットストリーム表現に含まれているダウンミックス信号表現及び同ビットストリーム表現に含まれているオブジェクト関連パラメータ情報に基づいて、かつレンダリング情報に依存してアップミックス信号表現を生成するための装置は、レンダリングパラメータの不適切な選定により生じる可聴歪を回避するか又は制限するために、歪制御スキームを用いてアップミックスパラメータを調整するように構成された歪制限器を備えている。歪制限器は、オーディオコンテンツのビットストリーム表現に含まれている歪制限制御パラメータを得るように、かつこの歪制限制御パラメータに依存して歪制御スキームを調整するように構成されている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明による実施形態は、オーディオコンテンツのビットストリーム表現に含まれているダウンミックス信号表現、同ビットストリーム表現に含まれているオブジェクト関連パラメータ情報、及びレンダリング情報に基づいてアップミックス信号表現を生成するための装置に関する。
【0002】
本発明による他の実施形態は、マルチチャネルオーディオ信号を表現するビットストリームを生成するための装置に関する。
【0003】
本発明による他の実施形態は、オーディオコンテンツのビットストリーム表現に含まれているダウンミックス信号表現、同ビットストリーム表現に含まれているオブジェクト関連パラメータ情報、及びレンダリング情報に基づいてアップミックス信号表現を生成するための方法に関する。
【0004】
本発明による他の実施形態は、マルチチャネルオーディオ信号を表現するビットストリームを生成するための方法に関する。
【0005】
本発明による他の実施形態は、これらの方法の1つを実行するコンピュータプログラムに関する。
【0006】
本発明による他の実施形態は、マルチチャネルオーディオ信号を表現するビットストリームに関する。
【背景技術】
【0007】
オーディオ処理、オーディオ伝送及びオーディオ蓄積の技術分野では、聴感を良くするためにマルチチャネルコンテンツを取り扱おうという要望が高まりつつある。マルチチャネル・オーディオ・コンテンツの使用は、ユーザに著しい改善をもたらすものである。例えば、3次元聴感を得ることも可能であって、娯楽に適用すればユーザの満足度が高まる。その一方で、マルチチャネル・オーディオ・コンテンツは、マルチチャネルオーディオ再生の使用によってスピーカの了解度が向上され得ることから、職場環境において、例えば電話会議への適用においても有益である。
【0008】
しかしながら、マルチチャネルアプリケーションによって生じる資源の過剰な負荷を回避するために、オーディオ品質とビットレート要件との間に良好な得失評価を有することもまた望ましい。
【0009】
最近では、複数のオーディオオブジェクトを含むオーディオ場面のビットレート効率のよい伝送及び/又は蓄積を行なうためのパラメトリック手法、例えばバイノーラルキュー符号化(Binaural Cue Coding:BCC)(タイプI)(例えば、非特許文献1参照)、情報源符号化(Joint Source Coding:JSC)(例えば、非特許文献2参照)及びMPEG空間オーディオオブジェクト符号化(Spatial Audio Object Coding:SAOC)(例えば、非特許文献3、非特許文献4及び未公開非特許文献5参考)が提案されている。
【0010】
これらの手法の目的は、波形一致ではなく、所望される出力オーディオ場面を知覚的に再構成することにある。
【0011】
図8は、このようなシステム(ここでは、MPEG SAOC)のシステム概観を示す。
【0012】
図8に示されているMPEG SAOCシステム800は、SAOCエンコーダ810と、SAOCデコーダ820とを備えている。SAOCエンコーダ810は複数のオブジェクト信号x1〜xNを受けとる。オブジェクト信号x1〜xNは、例えば時間領域信号として又は時間周波数領域信号として(例えば、フーリエ型変換の変換係数セットの形式又はQMFサブバンド信号の形式で)表現することができる。SAOCエンコーダ810は、典型的にはダウンミックス係数d1〜dNも受けとる。ダウンミックス係数d1〜dNはオブジェクト信号x1〜xNに関連づけられている。ダウンミックス係数は、ダウンミックス信号のチャネル毎に別々のセットが利用できる。SAOCエンコーダ810は、典型的には、関連づけられるダウンミックス係数d1〜dNに従ってオブジェクト信号x1〜xNを結合することにより、ダウンミックス信号のチャネルを得るように構成されている。典型的には、存在するダウンミックスチャネルの数はオブジェクト信号x1〜xNより少ない。SAOCデコーダ820側におけるオブジェクト信号の分離(又は分離処理)を(少なくとも概略的に)可能にするために、SAOCエンコーダ810は、サイド情報814と1つ以上のダウンミックス信号(ダウンミックスチャネルとして示される)812の双方を生成する。サイド情報814は、デコーダ側のオブジェクト指定処理を可能にするために、オブジェクト信号x1〜xNの特徴を記述する。
【0013】
SAOCデコーダ820は、サイド情報814と1つ以上のダウンミックス信号812の双方を受けとるように構成されている。また、SAOCデコーダ820は、典型的には、ユーザ相互作用情報及び/又はユーザ制御情報822を受けとるように構成されている。ユーザ相互作用情報及び/又はユーザ制御情報822は、所望されるレンダリング設定を記述するものであり、例えば、スピーカの設定及びオブジェクトの所望される空間配置について記述することができ、これらはオブジェクト信号x1〜xNを与える。
【0014】
SAOCデコーダ820は、例えば、複数の復号されたアップミックスチャネル信号

を生成するように構成されている。アップミックスチャネル信号は、例えばマルチスピーカレンダリング配置の個々のスピーカに関連づけることができる。SAOCデコーダ820は、例えば、オブジェクト分離器820aを備えることができ、オブジェクト分離器820aは、サイド情報814及び1つ以上のダウンミックス信号812に基づきオブジェクト信号x1〜xNを少なくとも概略的に再構成し、これにより再構成されたオブジェクト信号820bを得るように構成されている。しかしながら、再構成されたオブジェクト信号820bは元のオブジェクト信号x1〜xNから幾分かずれていることがある。それは、例えば、ビットレート制約のために、サイド情報814が完全な再構成にとってまったく十分であるとはいえないからである。SAOCデコーダ820はさらにミキサ820cを備えることができる。ミキサ820cは、再構成されたオブジェクト信号820bとユーザ相互作用情報/ユーザ制御情報822を受けとり、これらに基づいてアップミックスチャネル信号

を生成するように構成できる。ミキサ820は、ユーザ相互作用情報/ユーザ制御情報822を用いて、アップミックスチャネル信号

に対する個々の再構成されたオブジェクト信号820bの寄与を決定するように構成できる。ユーザ相互作用情報/ユーザ制御情報822は、例えば、レンダリングパラメータ(レンダリング係数とも明記される)を含むことができる。レンダリングパラメータはアップミックスチャネル信号

に対する個々の再構成されたオブジェクト信号822の寄与を決定する。
【0015】
図8ではオブジェクト分離はオブジェクト分離器820aにより示され、ミキシングはミキサ820cにより示されているが、多くの実施形態ではこれらは単一のステップで実行されることに留意されるべきである。その目的のために、1つ以上のダウンミックス信号812をアップミックスチャネル信号

へ直接写し変えることを記述する全体的パラメータが計算される場合がある。これらのパラメータは、サイド情報及びユーザ相互作用情報/ユーザ制御情報820に基づいて計算できる。
【0016】
次に、図9A、図9B及び図9Cを参照して、ダウンミックス信号表現及びオブジェクト関連サイド情報に基づいてアップミックス信号表現を得るための異なる装置について述べる。図9Aは、SAOCデコーダ920を備えているMPEG SAOCシステム900の概略ブロック図を示す。SAOCデコーダ920は、別々の機能ブロックとして、オブジェクトデコーダ922及びミキサ/レンダラ926を備えている。オブジェクトデコーダ922は、ダウンミックス信号表現(例えば、時間領域又は時間−周波数領域において表現される1つ以上のダウンミックス信号の形式)及びオブジェクト関連サイド情報(例えば、オブジェクト・メタ・データの形式)に依存して複数の再構成されたオブジェクト信号924を生成する。ミキサ/レンダラ926は、複数であるN個のオブジェクトに関連づけられた再構成されたオブジェクト信号924を受けとり、これらに基づいて1つ以上のアップミックスチャネル信号928を生成する。SAOCデコーダ920において、オブジェクト信号924の抽出はミキシング/レンダリングとは別に実行され、これは、ミキシング/レンダリング機能からのオブジェクト復号機能の分離を可能にするが、計算の複雑さは比較的高くなる。
【0017】
図9Bを参照して別のMPEG SAOCシステム930について簡単に論じる。そのMPEG SAOCシステム930はSAOCデコーダ950を備えている。SAOCデコーダ950は、ダウンミックス信号表現(例えば、1つ以上のダウンミックス信号の形式)及びオブジェクト関連サイド情報(例えば、オブジェクトメタデータの形式)に依存して複数のアップミックスチャネル信号958を生成する。SAOCデコーダ950は結合されたオブジェクトデコーダ及びミキサ/レンダラを備えており、結合されたオブジェクトデコーダ及びミキサ/レンダラはオブジェクト復号とミキシング/レンダリングとを分離することなく合同ミキシングプロセスにおいてアップミックスチャネル信号958を得るように構成されている。その合同ミキシングプロセスのパラメータは、オブジェクト関連サイド情報及びレンダリング情報の双方に依存する。合同ミキシングプロセスはダウンミックス情報にも依存し、この場合、ダウンミックス情報はオブジェクト関連サイド情報の一部と考えられる。
【0018】
上記を要約すると、アップミックスチャネル信号928、958の生成は、1ステッププロセス又は2ステッププロセスで実行できる。
【0019】
図9Cを参照して、MPEG SAOCシステム960について述べる。SAOCシステム960は、SAOCデコーダではなくSAOC−MPEGサラウンドトランスコーダ980を備えている。
【0020】
SAOC−MPEGサラウンドトランスコーダはサイド情報トランスコーダ982を備えている。サイド情報トランスコーダ982はオブジェクト関連サイド情報(例えば、オブジェクトメタデータの形式)とレンダリング情報、さらに場合により1つ以上のダウンミックス信号に関する情報を受けとるように構成されている。サイド情報トランスコーダは、受けとったデータに基づきMPEGサラウンドサイド情報(例えば、MPEGサラウンドビットストリームの形式)を生成するようにも構成されている。したがって、サイド情報トランスコーダ982は、レンダリング情報及び場合により1つ以上のダウンミックス信号のコンテンツに関する情報を考慮して、オブジェクトエンコーダから出されるオブジェクト関連の(パラメトリックな)サイド情報をチャネル関連の(パラメトリックな)サイド情報へ変換するように構成されている。
【0021】
場合により、SAOC−MPEGサラウンドトランスコーダ980は、例えばダウンミックス信号表現により記述された1つ以上のダウンミックス信号を操作して、操作されたダウンミックス信号表現988を得るように構成することができる。しかしながら、ダウンミックス信号マニピュレータ986は省略される場合があり、その場合はSAOC−MPEGサラウンドトランスコーダ980から出力されるダウンミックス信号表現988と、SAOC−MPEGサラウンドトランスコーダへ入力されるダウンミックス信号表現は同一になる。ダウンミックス信号マニピュレータ986は、例えば、チャネル関連MPEGサラウンドサイド情報984がSAOC−MPEGサラウンドトランスコーダ980への入力ダウンミックス信号表現に基づいて所望される聴感を生成できないようであれば使用されることがあり、この状況は、再現されるものの配列によっては発生し得る。
【0022】
したがって、SAOC−MPEGサラウンドトランスコーダ980は、MPEGサラウンドビットストリーム984及びダウンミックス信号表現988を受けとるMPEGサラウンドデコーダを使用して、SAOC−MPEGサラウンドトランスコーダ980へ入力されるレンダリング情報に従ってオーディオオブジェクトを表現する複数のアップミックスチャネル信号を発生し得るように、ダウンミックス信号表現988及びMPEGサラウンドビットストリーム984を生成する。
【0023】
上記を要約すると、SAOCで符号化されたオーディオ信号を復号するためには、異なる概念を用いることが可能である。事例によってはSAOCデコーダが使用される。SAOCデコーダは、ダウンミックス信号表現及びオブジェクト関連のパラメトリックなサイド情報に依存してアップミックスチャネル信号(例えば、アップミックスチャネル信号928、958)を生成する。図9A及び図9Bはこの概念の例を示している。あるいは、SAOCで符号化されたオーディオ情報は、ダウンミックス信号表現(例えば、ダウンミックス信号表現988)及びチャネル関連サイド情報(例えば、チャネル関連MPEGサラウンドビットストリーム984)を得るためにトランスコードされる場合もある。それらのダウンミックス信号表現とチャネル関連サイド情報は所望されるアップミックスチャネル信号を生成するためにMPEGサラウンドデコーダによって使用することができる。
【0024】
図8にシステムの概観が示されているMPEG SAOCシステム800において、一般処理は周波数選択方式で実行され、各周波数バンド内部では下記のように記述することができる。
【0025】
入力されるN個のオーディオオブジェクト信号x1〜xNは、SAOCエンコーダの処理の一部としてダウンミックスされる。モノダウンミックスの場合、ダウンミックス係数はd1〜dNによって示される。さらに、SAOCエンコーダ810は、入力されたオーディオオブジェクトの特徴を記述するサイド情報814を抽出する。MPEG SAOCの場合、このようなサイド情報の最も基本的な形式は、オブジェクト電力の互いに対する関係性である。
【0026】
サイド情報814及び(1つ以上の)ダウンミックス信号812は、伝送され、かつ/又は格納される。この目的に沿って、ダウンミックスオーディオ信号は、MPEG−1レイヤII又はIII(「.mp3」としても知られる)、MPEGアドバンスト・オーディオ・コーディング(AAC)又は他の任意のオーディオコーダ等の周知の知覚オーディオコーダを用いて圧縮される場合がある。
【0027】
受信側では、SAOCデコーダ820は、概念的には、伝送されたサイド情報814(及び当然ながら、1つ以上のダウンミックス信号812)を用いて、元のオブジェクト信号を復元するように試行する(「オブジェクト分離」)。これらの近似されたオブジェクト信号(再構成されたオブジェクト信号820bとしても示される)は、次に、レンダリングマトリクスを用いて、M個のオーディオ出力チャネル(例えば、アップミックスチャネル信号

により表現される場合がある)によって表現される標的場面へミキシングされる。モノ出力の場合、レンダリングマトリクス係数はr1〜rNによって与えられる。
【0028】
効率的には、オブジェクト信号の分離はほとんど行われない(又は、絶対に行われない)。それは、分離ステップ(オブジェクト分離器820aにより示される)及びミキシングステップ(ミキサ820cにより示される)の双方が単一のトランスコーディングステップに結合され、これにより計算の複雑さが大幅に低減される結果となる場合が多いからである。
【0029】
このようなスキームは、伝送ビットレート及び計算の複雑さの双方の面で極めて効率的であることがわかっている。すなわち、伝送ビットレートの面では、N個の(典型的には不連続の)オブジェクトオーディオ信号に場合によりレンダリング情報又は不連続システムを加えて伝送するのではなく、幾つかのダウンミックスチャネルに何らかのサイド情報を加えて伝送するだけでよいからである。また、計算の複雑さの面では、処理の複雑さはオーディオオブジェクトの数ではなく、主として出力チャネルの数に関係するからである。受信側ユーザにとってのさらなる優位点としては、ユーザ選択のレンダリング設定(モノ、ステレオ、サラウンド、仮想化ヘッドホン再生、等々)及びユーザ相互作用性の特徴を選ぶ自由が含まれる。すなわち、ユーザはレンダリングマトリクス及びひいては出力される場面を、意志、個人的嗜好又は他の基準に従って相互作用的に設定しかつ変更することができる。例えば、1つのグループからの話者を纏めて1つの空間エリアに位置決めし、他の話者との区別を最大にすることができる。この相互作用性は、デコーダのユーザインタフェースを与えることによって達成される。
【0030】
伝送される各サウンドオブジェクトについて、その相対レベル及び(モノレンダリングでないものについては)レンダリングの空間位置を調整することができる。このことは、ユーザが関連のグラフィカル・ユーザ・インタフェース(Graphical User Interface:GUI)スライダ(例えば、オブジェクトレベル=+5dB、オブジェクトの位置=−30度)の位置を変更するにつれてリアルタイムで発生する場合がある。
【0031】
しかし、場合によっては、アップミックス信号表現を生成するためのパラメータをデコーダ側で選択すれば(例えば、アップミックスチャネル信号?1〜?M)、可聴性の劣化を招くことがわかっている。
【0032】
ダウンミックス/分離/ミキシングに基づくパラメトリック手法に起因して、オーディオ出力の主観的品質はレンダリングパラメータの設定に依存することがわかっている。相対的オブジェクトレベルの変化は、空間的な再現位置の変化(「リパニング(re-panning)」)よりも最終的なオーディオ品質に多く影響することがわかった。相対レベルパラメータの極値設定(例えば、+20dB)は、容認し難い出力品質をもたらす可能性すらある。
【0033】
これは単に、このスキームの根底にある知覚的想定のうちの幾つかを破った結果ではあるが、それでも、ユーザインタフェースでの設定に依存して不良な音及びアーティファクトを生成することは市販の製品としては受け入れられない。
【0034】
「歪を回避するオーディオ信号処理のための方法、装置及びコンピュータプログラム」と題する米国特許出願第61/173,456号(特許文献1)、及び「ダウンミックス信号表現に基づいてアップミックス信号表現を生成するための1つ以上の調整されたパラメータを生成する装置、オブジェクト関連パラメータ情報を用いるオーディオ信号デコーダ、オーディオ信号トランスコーダ、オーディオ信号エンコーダ、オーディオビットストリーム、方法及びコンピュータプログラム」と題する国際特許出願PCT/EP2010/055717号(特許文献2)(以後、「歪制御の例」と称する)は、SAOCシステムにおけるオブジェクト利得修正から歪を軽減するためのプロセスを記述している。これらの文献は、歪制御及び歪低減について本発明とは異なる概念を記述しているが、これらの概念は、本発明による実施形態において、又は本発明による実施形態と組み合わせて適用することができる。
【先行技術文献】
【特許文献】
【0035】
【特許文献1】米国特許出願第61/173,456号
【特許文献2】国際特許出願PCT/EP2010/055717号
【非特許文献】
【0036】
【非特許文献1】[BCC]C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications”, IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
【非特許文献2】[JSC]C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006, Preprint 6752.
【非特許文献3】[SAOC1]J. Herre, S. Disch, J. Hilpert, O. Hellmuth: “From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio”, 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
【非特許文献4】[SAOC2]J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: “Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding”, 124th AES Convention, Amsterdam 2008, Preprint 7377.
【非特許文献5】[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)”, ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.
【非特許文献6】[SBR1]ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)”, ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.
【非特許文献7】[SBR2]M. Dietz, L. Liljeryd, K. Kjoerling, and O. Kunz, “Spectral band replication, a novel approach in audio coding”, in AES 112th Convention, Munich, Germany, May 2002, Preprint 5553.
【非特許文献8】[PS]“Low Complexity Parametric Stereo Coding in MPEG-4”, Heiko Purnhagen, Proc. Digital Audio Effects Workshop (DAFx), pp. 163-168, Naples, IT, Oct. 2004.
【発明の概要】
【発明が解決しようとする課題】
【0037】
上述の論考に鑑みて、本発明の目的は、ダウンミックス信号表現に基づいてアップミックス信号表現を生成する際の改善された歪低減又は歪回避を可能にする概念を作り上げることにある。
【課題を解決するための手段】
【0038】
本発明による一実施形態は、オーディオコンテンツのビットストリーム表現に含まれているダウンミックス信号表現及び同ビットストリーム表現に含まれているオブジェクト関連パラメータ情報に基づいて、かつレンダリング情報に依存してアップミックス信号表現を生成するための装置を創出する。本装置は、レンダリングパラメータ(例えば、ユーザ指定レンダリングマトリクスのエントリ)の不適切な選定の結果として引き起こされる可聴歪を回避するか又は制限するために、歪制御スキームを用いてアップミックスパラメータ(例えば、レンダリングマトリクスの利得係数又はエントリ)を調整するように構成された歪制限器を備えている。歪制限器は、オーディオコンテンツのビットストリーム表現に含まれている歪制限制御パラメータを得るように、かつこの歪制限制御パラメータに依存して歪制御スキームを調整するように構成されている。
【0039】
本発明によるこの実施形態は、歪制限制御パラメータに依存して歪制御スキームを調整すれば著しい効果を達成することができるという問題解決の着想に基づいている。歪制限制御パラメータは歪制御スキームの制御を可能にするのでオーディオコンテンツのビットストリーム表現に含まれている。歪制御スキームは制御情報(例えば、歪制限制御パラメータ)を用いてオーディオデコーダ(例えば、アップミックス信号表現を生成するための装置)側で適用され、制御情報はオーディオエンコーダ(例えば、マルチチャネルオーディオ信号を表すビットストリームを生成するための装置)により与えられる。したがって、オーディオ信号エンコーダがデコーダ側の歪制御スキームを制御する機会を有し、ついで歪制御スキームにおいてそのレンダリングパラメータの調整に関する多少の自由度がエンコーダからデコーダのユーザへ移る可能性がある。したがって、典型的にはダウンミックス信号表現によって表されるオーディオ信号オブジェクトに関してより良い情報をもつオーディオ信号エンコーダは、オーディオオブジェクト信号に関するその情報を用いて歪制御スキームを適切に調整すべく寄与することができる。このことは、アップミックス信号表現を生成する際の結果の向上を可能にする。また、オーディオ信号エンコーダは、ダウンミックス信号表現によって表されるオーディオオブジェクト信号を与えるコンテンツプロバイダの要請に従って適切な歪制限制御パラメータを生成することができる、その結果、レンダリングパラメータの不適切な設定によるアップミックス信号表現の過度の劣化を、例えばコンテンツプロバイダの要請に従って、オーディオ信号エンコーダ側から防止することができる。
【0040】
要約すると、デコーダ側で適用される歪制御スキームの例えば1つ以上のパラメータを調整するために、オーディオコンテンツのビットストリーム表現からデコーダ側で抽出される歪制限制御パラメータを評価する本発明手法により、多数の優位点を達成することができる。
【0041】
ある好適な実施形態において、アップミックス信号表現を生成するための装置は、入力インタフェースから所望されるレンダリングマトリクスを受けとるように構成されている。この場合、歪制限器は、所望されるレンダリングマトリクス及び1つ以上の歪制限制御パラメータに依存して修正されたレンダリングマトリクスを得るように構成されている。アップミックス信号表現を生成するための本装置は、修正されたレンダリングマトリクスに依存してアップミックス信号表現を生成するように構成されている。したがって、オーディオ信号デコーダ(例えば、アップミックス信号表現を生成するための装置)によりオーディオコンテンツのビットストリーム表現から抽出される歪制限制御パラメータは、修正されたレンダリングマトリクスを生成するために使用することができ、その修正されたレンダリングマトリクスがアップミックス信号表現内の過度の可聴歪を回避する。可聴歪の低減は、(例えば、ユーザにより)入力インタフェースを介して入力される所望のレンダリングマトリクスが不適切である(しかも、アップミックス信号表現に重大な可聴歪を生じさせる)場合でも達成することができる。このように、歪制限器は、修正されたレンダリングマトリクスが入力インタフェースからの所望のレンダリングマトリクスに依存してどのように取得されているのかを決定するために、歪制限制御パラメータを評価することができ、これにより、オーディオ信号エンコーダに対するある程度の制御ができる。
【0042】
ある好適な実施形態において、歪制限器は1つ以上のレンダリングマトリクス限界値を得るように構成されている。レンダリングマトリクス限界値はオーディオコンテンツのビットストリーム表現に含まれており、かつレンダリングマトリクス要素(エントリとしても示される)の最小値及び最大値を記述する。この場合、歪制限器はさらに、所望のレンダリングマトリクスに依存する修正されたレンダリングマトリクスの取得に際して、1つ以上のレンダリングマトリクス限界値に従って修正されたレンダリングマトリクスの1つ以上のエントリを制限するように構成されている。したがって、レンダリングマトリクス限界値を含む歪制限制御パラメータは過度なレンダリング設定を回避するために使用することができ、過度なレンダリング設定はオーディオコンテンツのビットストリーム表現を生成するオーディオ信号エンコーダにより望ましくないとして識別される。このように、レンダリングパラメータの不適切な設定の結果として引き起こされると思われる可聴歪は回避し、又は少なくとも制限することができる。
【0043】
ある好適な実施形態において、歪制限器は、所望のレンダリングマトリクス、基準レンダリングマトリクス及び1つ以上の歪制限制御パラメータに依存して修正されたレンダリングマトリクスを得るように構成されている。基準レンダリングマトリクスの使用は特別な優位点をもたらす。というのは、基準レンダリングマトリクスは、十分に良質な又は最適でさえある品質のアップミックス信号表現を生成するレンダリング設定を指定できるからである。したがって、基準レンダリングマトリクスに対してレンダリングパラメータをどれだけ変化させることができるかは歪制限制御パラメータによって決めることができ、歪制限制御パラメータは修正されたレンダリングパラメータが存在すべき領域を効率的に指定することができる。
【0044】
ある好適な実施形態において、歪制限器は、基準レンダリングマトリクスに対して(又は、基準レンダリングマトリクスのエントリに対して)修正されたレンダリングマトリクスの1つ以上のエントリを、歪制限制御パラメータによって記述される1つ以上のレンダリングマトリクス限界値に従って制限するように構成されている。したがって、レンダリングマトリクスの制限は、基準レンダリングマトリクスに従って効率的に行うことができる。
【0045】
また、歪制限制御パラメータのうちの1つ以上は、基準レンダリングマトリクスが如何にして取得されるかを決定することができる。例えば、歪制限制御パラメータのうちの1つ以上は、基準レンダリングマトリクスのエントリを導出するためのフィルタ時定数を指定することができる。しかし、基準レンダリングマトリクスが如何にして取得されるかを記述する他の設定情報を歪制限制御パラメータのうちの1つ以上によって示すこともできる。
【0046】
ある好適な実施形態において、歪制限器は、所望の(例えば、ユーザ指定の)レンダリングマトリクスに依存して修正されたレンダリングマトリクスを得るために、オブジェクト別の歪制限制御パラメータを適用するように構成されている。したがって、歪制御スキームは、オーディオコンテンツのビットストリーム表現から抽出されるオブジェクト別の歪制限制御パラメータを活用することによって、オーディオコンテンツのビットストリーム表現を生成するオーディオ信号エンコーダにはよくわかっているオーディオオブジェクト信号の差を考慮することができる。
【0047】
ある好適な実施形態において、アップミックス信号を生成するための装置は、修正された利得係数に依存してアップミックス信号表現を生成するために、1つ以上の修正された利得係数をダウンミックス信号表現のオーディオサンプルへ、又はダウンミックス信号により記述されるオーディオオブジェクトに関連づけられるオブジェクト関連サイド情報へ適用するように構成されている。この場合、歪制限器は、前記の1つ以上の修正された利得係数を、1つ以上の所望の利得係数及び1つ以上の歪制限制御パラメータに依存して得るように構成されている。したがって、オーディオコンテンツのビットストリーム表現から抽出される歪制限制御パラメータは利得係数の適切な調整に使用され、オーディオコンテンツのビットストリーム表現を生成するオーディオ信号エンコーダ側からの利得係数の(適切な)選定の制御が可能になる。
【0048】
ある好適な実施形態において、歪制限器は、時定数を有する平滑化フィルタを用いて、制限されるべき利得パラメータの基準レベルを導出するように構成されている。この場合、歪制限器は、その導出された基準レベルを用いて所定のパラメータを制限するように構成されている。また、歪制限器は、オーディオコンテンツのビットストリーム表現に含まれている時定数パラメータを(例えば、オーディオコンテンツのビットストリーム表現から時定数パラメータを抽出することによって)取得し、かつその取得した時定数パラメータに依存して平滑化フィルタの時定数を調整するようにも構成されている。したがって、オーディオ信号デコーダ(アップミックス信号表現を生成するための装置)よりもオーディオオブジェクト信号の時間特性を良く認識しているオーディオ信号エンコーダは、オーディオ信号デコーダによる適用のために、オーディオコンテンツのビットストリーム表現内に基準レベルの有意義な導出を可能にする適切な時定数パラメータを包含することができる。故に、オーディオ信号エンコーダに既知であるオーディオ信号の特有の特性は、歪制御スキームによって活用することができる。
【0049】
ある好適な実施形態において、パラメータ制限器は、オーディオコンテンツのビットストリーム表現に含まれている歪制御起動パラメータを得るように、かつこの歪制御起動パラメータに依存して歪制御スキームを有効化又は無効化するように構成されている。したがって、オーディオコンテンツのビットストリーム表現を生成するオーディオ信号エンコーダは、歪制御スキームの起動を強制することも、歪制御スキームを非活性化することもできる。したがって、オーディオコンテンツのビットストリーム表現を生成するオーディオ信号エンコーダは、適切な歪制御スキームがオーディオ信号デコーダにより適用されることを、オーディオエンコーダ又はコンテンツプロバイダの判断に従って選択的に実行することができ、適切な歪制御スキームは極めて重要なオーディオコンテンツに対するユーザの不満足を回避する手助けをする。この場合、オーディオ信号エンコーダは、レンダリングパラメータの設定の適切な制限を与えることができる。一方で、レンダリングパラメータ設定の最大の柔軟性が歪制御スキームの適用よりもユーザのより高い満足を引き出すオーディオコンテンツについては、オーディオデコーダはユーザに最大の柔軟性を与えるために歪制御スキームを選択的に無効化することができる。
【0050】
ある好適な実施形態において、パラメータ制限器は予め設定されたレンダリングマトリクス起動パラメータを得るように構成されており、その予め設定されたレンダリングマトリクス起動パラメータはオーディオコンテンツのビットストリーム表現に含まれている。この場合、パラメータ制限器は、予め設定されたレンダリングマトリクス起動パラメータの活性状態に応答して、ダウンミックス信号表現に基づいてアップミックス信号表現を生成するために、ユーザ指定のレンダリングマトリクス情報ではなく、オーディオコンテンツのビットストリーム表現に含まれている予め設定されたレンダリングマトリクス情報が使用されるように構成されている。したがって、オーディオ信号デコーダは、状況によっては、アップミックス信号表現が、ユーザによってではなくオーディオ信号エンコーダによって示されたレンダリングマトリクス情報を用いて取得されることを達成することができる。したがって、オーディオ信号エンコーダは、予め設定されたレンダリングマトリクス情報をビットストリーム内に包含し、かつ予め設定されたレンダリングマトリクス情報がオーディオ信号デコーダによって使用されるべきであることを示す予め設定されたレンダリングマトリクス起動パラメータ(又はフラグ)を起動する機会をもっている。したがって、オーディオ信号デコーダはオーディオコンテンツの芸術的価値がユーザにとって明白となることを確保することができ、その芸術的価値は予め設定されたレンダリングマトリクス情報に従ってレンダリングマトリクスを適切に設定することにより与えることができる。したがって、レンダリングパラメータの適切な設定しか良好な聴感を与えないような場合に発生する可能性のあるユーザの不満を回避することができる。
【0051】
ある好適な実施形態において、パラメータ制限器は、オーディオコンテンツのビットストリーム表現に含まれている音響心理学的歪制限パラメータを得るように構成されている。この場合、歪制限器は、音響心理学的歪モデルに依存して1つ以上のアップミックスパラメータを調整するように構成されており、その結果、ダウンミックス信号表現からのアップミックス信号表現の導出によって生じる歪の大きさ(例えば、推定値であってもよい)が制限される。この場合、歪制限器は、1つ以上のアップミックスパラメータを調整するために使用される1つ以上のパラメータを、音響心理学的歪モデル(例えば、音響心理学的歪モデルの出力値に依存して1つ以上のアップミックスパラメータを如何に調整するかを記述するパラメータ)又は音響心理学的歪モデルの1つ以上のパラメータに依存し、音響心理学的歪制限パラメータに依存して設定するように構成されている。したがって、アップミックスパラメータ(例えば、レンダリングパラメータ)の適切な制限のための音響心理学的歪モデルの使用はオーディオエンコーダ側から制御することができ、これもやはり、オーディオエンコーダにアップミックス信号表現の重大な歪の回避に寄与する可能性を与える。
【0052】
ある好適な実施形態において、歪制限器は、時変性の歪制御スキームを達成するために、オーディオフレーム毎に一度、更新された歪制限制御パラメータを得るように構成されている。この概念によれば、オーディオコンテンツのビットストリーム表現内に1つ以上の歪制限制御パラメータを生成するオーディオ信号エンコーダの制御下で歪制御スキームを動的に調整することができ、その結果、厳密な歪制御スキームとするか又は緩やかな歪制御スキームとするかをオーディオエンコーダによって選択することができるという優位点がもたらされる。このようにして、オーディオ信号エンコーダは、オーディオコンテンツのさほど重要でない一節に関しては、オーディオコンテンツのビットストリーム表現内に適切な歪制限制御パラメータを与えて歪制御スキームが緩められるように調整してユーザに可能な限り最大の柔軟性を与え、かつより重大なオーディオフレームに関しては、適切な歪制限制御パラメータを与えて歪制御スキームを厳密であるように調整してより少ない柔軟性を与えることができる。したがって、ユーザの柔軟性と聴感との間の優れた相対関係を適切な制御によって達成することができ、そのような制御は本明細書において論じるオーディオデコーダの使用によってオーディオエンコーダ側から実行することができる。
【0053】
ある好適な実施形態において、歪制限器は、オーディオコンテンツのビットストリーム表現のコンフィギュレーション部分内の動的な更新フラグを評価するように構成されている。この場合、歪制限器は、動的な更新フラグが不活性であれば、歪制限制御パラメータを取得するようにオーディオコンテンツのビットストリーム表現のコンフィギュレーション部分を評価し、動的な更新フラグが活性であれば、歪制限制御パラメータの更新を繰り返し取得するようにオーディオコンテンツのビットストリーム表現のフレーム部分を評価するように構成されている。したがって、オーディオデコーダは、1つ以上の歪制限制御パラメータがオーディオフレームのシーケンス毎に一度だけ伝達される静的モード(シーケンスには、例えば単一の共通するコンフィギュレーション部分が関連づけられる)と、1つ以上の歪制限制御パラメータがより頻繁に又はオーディオフレーム毎に一度さえも伝送される動的な動作モードとの間で切り換えることができる。これは、歪制限制御パラメータの時間的変動が不必要であれば歪制限制御パラメータの低いビットレートを達成し、かつ歪制限制御パラメータの良好な時間分解能が望ましければそれを達成するという歪制限制御パラメータの伝送の適合化を、例えばオーディオオブジェクト信号の特性によって可能にする。
【0054】
ある好適な実施形態において、歪制限器は、オーディオコンテンツのフレーム部分における歪制限制御パラメータの存在を示すフラグに依存して歪制限制御パラメータを選択的に更新するように構成されており、その結果、歪制限制御パラメータの更新間隔(例えば、オーディオフレーム数で測定されたもの)がオーディオコンテンツのビットストリーム表現により動的に決定される。したがって、複数のオーディオフレームを含む一片のオーディオ情報において、歪制限制御パラメータの更新を不規則な段階又は時間に(例えば、不規則な数のオーディオフレームを間に置いて)実行でき、オーディオオブジェクト信号の時間的に不規則な変動によく適合できる。
【0055】
本発明による一実施形態はマルチチャネルオーディオ信号のビットストリーム表現を生成するための装置を創出する。本装置は、複数のオーディオオブジェクト信号に基づいてダウンミックス信号を生成するように構成されたダウンミキサを備えている。また、本装置は、オーディオオブジェクト信号及びダウンミックスパラメータの特性を記述するオブジェクト関連パラメトリックなサイド情報、及びアップミックス信号表現を生成する装置側で歪制御スキームの適用を制御するための1つ以上の歪制限制御パラメータを生成するように構成されたサイド情報生成器も備えている。ビットストリームを生成するための本装置は、ダウンミックス信号の表現、オブジェクト関連パラメトリックなサイド情報及び1つ以上の歪制限制御パラメータを含むビットストリームを生成するように構成されたビットストリームフォーマッタも備えている。
【0056】
マルチチャネルオーディオ信号を表すビットストリームを生成するための前記装置はオーディオコンテンツのビットストリーム表現を生成するのに適しており、そのビットストリーム表現は上述の装置によってアップミックス信号表現を生成するのに使用できる。ビットストリームを生成するための装置は歪制限制御パラメータをビットストリームに包含することができるので、デコーダ側の歪制御スキームは、エンコーダ側で決められた要請に従って調整できる。
【0057】
さらなる詳細及び優位点に関しては、アップミックス信号表現を生成するための装置に関する先の論考を参照されたい。
【0058】
本発明による他の実施形態は、オーディオコンテンツのビットストリーム表現に含まれているダウンミックス信号表現、及び同ビットストリーム表現に含まれているオブジェクト関連パラメータ情報に基づいて、さらにレンダリング情報に依存してアップミックス信号表現を生成するための方法を創出する。
【0059】
本発明による他の実施形態は、マルチチャネルオーディオ信号を表現するビットストリームを生成するための方法を創出する。
【0060】
本発明による他の実施形態は、これらの方法のうちの1つを実行するためのコンピュータプログラムを創出する。
【0061】
これらの方法及びコンピュータプログラムは、先に論じた装置と同じ問題着想解決を基礎としている。
【0062】
本発明による他の実施形態は、マルチチャネルオーディオ信号を表現するビットストリームを創出する。そのビットストリームは、複数のオーディオオブジェクトのオーディオ信号を結合しているダウンミックス信号の表現と、オーディオオブジェクトの特性を記述しているオブジェクト関連パラメトリックなサイド情報とを含む。そのビットストリームは、アップミックス信号表現を生成する装置側で歪制御スキームの適用を制御するための1つ以上の歪制限制御パラメータも含む。そのビットストリームは、典型的には、マルチチャネルオーディオ信号を表すビットストリームを生成するための先に論じた装置によって生成され、かつ典型的には、アップミックス信号表現を生成するための先に論じた装置によって評価できる。そのビットストリームは、歪制御スキームの効率的な調整を可能にする。
【0063】
続いて、添付の図面を参照して本発明による実施形態について述べる。
【図面の簡単な説明】
【0064】
【図1】本発明の一実施形態による、アップミックス信号表現を生成するための装置を示す概略ブロック図である。
【図2】本発明の他の実施形態による、アップミックス信号表現を生成するための装置を示す概略ブロック図である。
【図3】本発明のさらに他の実施形態による、アップミックス信号表現を生成するための装置を示す概略ブロック図である。
【図4】本発明によるビットストリーム信号化を伴うSAOC歪制御を示す概略ブロック図である。
【図5】本発明の一実施形態による、マルチチャネルオーディオ信号を表すビットストリームを生成するための装置を示す概略ブロック図である。
【図6】本発明の一実施形態による、マルチチャネルオーディオ信号を表すビットストリームを示す概略図である。
【図7】SAOC歪制御の一例を示す概略ブロック図である。
【図8】参考MPEG SAOCシステムを示す概略ブロック図である。
【図9A】分離したデコーダ及びミキサを用いる参考SAOCシステムを示す概略ブロック図である。
【図9B】一体式のデコーダ及びミキサを用いる参考SAOCシステムを示す概略ブロック図である。
【図9C】SAOC−MPEGトランスコーダを用いる参考SAOCシステムを示す概略ブロック図である。
【発明を実施するための形態】
【0065】
1.図1によるアップミックス信号表現を生成するための装置
【0066】
図1は、ダウンミックス信号表現110とオブジェクト関連パラメータ情報112(パラメトリックサイド情報と考えてもよい。)に基づいてアップミックス信号表現120を生成するための装置100を示す概略ブロック図である。ダウンミックス信号表現110とオブジェクト関連パラメータ情報112は、ともに、オーディオコンテンツのビットストリーム表現に含むことができる。装置100はレンダリング情報114に依存してアップミックス信号表現を生成するように構成することができる。レンダリング情報114は、例えばユーザインタフェースを用いて入力できる。装置100は1つ以上の歪制限制御パラメータ116を受けとることができる。歪制限制御パラメータ116も典型的にはオーディオコンテンツのビットストリーム表現に含まれている。
【0067】
装置100は信号プロセッサ130を備えている。信号プロセッサ130は、ダウンミックス信号表現110とオブジェクト関連パラメータ情報112に依存し、調整されたアップミックスパラメータ132を考慮してアップミックス信号表現120を生成するように構成されている。装置100は、レンダリング情報114のレンダリングパラメータの不適切な選定により生じる可聴歪を回避又は制限するために、その調整されたアップミックスパラメータ132を、歪制御スキーム142を用いて得るように構成された歪制限器140を備えている。歪制限器140は、オーディオコンテンツのビットストリーム表現に含まれている1つ以上の歪制限制御パラメータ116を取得し、この1つ以上の歪制限制御パラメータ116に依存して歪制御スキームを調整するように構成されている。
【0068】
以下、装置100の機能についてさらに詳しく論じる。信号プロセッサ130は、アップミックス信号表現120を生成する。この目的に沿って、ダウンミックス信号表現110とオブジェクト関連パラメータ情報112が考慮される。また、ほとんどの場合(但し、必ずしも全ての場合ではない)、レンダリング情報114に従ってアップミックス信号表現120を生成しようとする試みがなされる。レンダリング情報114は例えばユーザによりユーザインタフェースを介して与えられる。しかし、レンダリング情報114を歪制御スキームなしで使用しようとして、例えばユーザが極端なレンダリング設定を選ぶならば、これは、アップミックス信号表現120の可聴歪に繋がることがあろう。過度の可聴歪を回避するために、歪制限器140により、レンダリング情報114を基礎としかつ歪制御スキーム142を用いて、調整されたアップミックスパラメータ132(レンダリングパラメータ又は他のアップミックスパラメータであってもよい。)が生成される。
【0069】
歪制御スキーム142は、レンダリング情報114から、調整可能なマッピングルールを用いて、調整されたアップミックスパラメータ132を導出するように使用される。その調整可能なマッピングルールは、例えば線形、区分線形又は非線形なマッピングを含むことができる。歪制御スキーム142は、1つ以上の歪制御スキーム調整パラメータに依存して歪制限器140により調整することができる。そのために、歪制限器140は1つ以上の歪制限制御パラメータ116を考慮することができる。歪制限制御パラメータ116はオーディオコンテンツのビットストリーム表現に含まれており、また好ましくは図1に示されていないビットストリームパーサ(但し、実施形態によっては装置100の一部である場合もある。)を用いてオーディオコンテンツのビットストリーム表現から抽出される。歪制御スキーム142(又は、歪制御スキームを明示するマッピングルール)は、実施形態によっては、調整されたアップミックスパラメータ132をレンダリング情報114に依存して得るために、ダウンミックス信号表現110及び/又はオブジェクト関連パラメータ情報112の情報を考慮することができる。歪制御スキーム調整パラメータは、好ましくは歪制御スキームを調整するために用いられるものであり、例えば、調整されたアップミックスパラメータ132上へのレンダリング情報114のマッピングを示す制限パラメータ、線形結合パラメータ又は他の機能パラメータを含むことができる。
【0070】
要約すると、歪制限器140は、レンダリング情報114が適切に選定されて歪制御スキーム142が適用されなければアップミックス信号表現120の過度の歪が招来されるような場合でも、アップミックス信号表現120の過度の可聴歪が回避されるように、調整されたアップミックスパラメータ132を生成する。このように、歪制御スキーム142を使用しこれを調整する歪制限器は、聴感の向上に役立つ。オーディオコンテンツのビットストリーム表現に含まれている1つ以上の歪制限制御パラメータ116に依存して歪制御スキーム142の調整を行うことにより、歪低減の制御は、オーディオコンテンツのビットストリーム表現を生成するオーディオ信号エンコーダ側から実行することができる。
【0071】
2.図2による、アップミックス信号表現を生成するための装置
【0072】
以下、オーディオコンテンツのビットストリーム表現に含まれているダウンミックス信号表現及び同ビットストリーム表現に含まれているオブジェクト関連パラメータ情報に基づき、かつレンダリング情報に依存してアップミックス信号表現を生成するための装置200について図2を参照して説明する。図2はこのような装置200の概略ブロック図を示す。
【0073】
ここで、図2の装置200により受けとられる情報と生成される情報は、装置100により受けとられる情報と生成される情報に類似するものであり、よって同一の情報を識別するために同一の参照数字が使用されている点は留意されたい。また、装置200の手段の中には装置100の手段と同一のものがあり、よって、このような同一又は同等の手段に関しては明細書本文全体を通じて同一の参照数字が使用される。
【0074】
装置200は、ダウンミックス信号表現110、オブジェクト関連パラメータ情報112、レンダリング情報114及び1つ以上の歪制限制御パラメータ116を受けとるように構成されている。また、装置200は、例えば信号プロセッサ130を用いてアップミックス信号表現120を生成するように構成されている。
【0075】
装置200は歪制限器240を備えており、歪制限器240は歪制御スキーム242を用いる。歪制御スキーム242は、歪計算器/推定器242aと、レンダリング情報修正器242bとを備えている。歪計算器/推定器242aは、例えば、ダウンミックス信号表現110の少なくとも一部、オブジェクト関連パラメータ情報112の少なくとも一部及びレンダリング情報114を受けとるように構成されている。歪計算器/推定器242aは、レンダリング情報114をダウンミックス信号表現110へ適用し、オブジェクト関連パラメータ情報112を考慮することにより、アップミックス信号表現120へ導入されるであろう歪の大きさを計算又は推定するように構成されている。レンダリング情報修正器242bは、レンダリング情報114に基づき、歪計算器/推定器242aによる計算又は推定された歪情報を考慮して、調整されたレンダリングパラメータ132を生成するように構成されており、その結果、調整されたレンダリングパラメータ132は、アップミックス信号表現120を取得すべく信号プロセッサ130により使用される際に、元のレンダリング情報パラメータ114よりも歪を低減させる。
【0076】
しかし、レンダリング情報修正器242bは歪制御スキーム調整パラメータを考慮することができる。歪制御スキーム調整パラメータは、歪制限制御パラメータ116に依存して歪制限器240により生成され、かつ調整されたレンダリングパラメータ132の生成に影響を与える
【0077】
例えば、歪制御スキーム調整パラメータ(歪制限制御パラメータ116に基づいて取得されるか、又は歪制限制御パラメータ116と同一でもある。)は、例えば、歪の大きさが歪計算器/推定器242aによってどのように計算又は推定されるかを示すことができる。例えば、歪制御スキーム調整パラメータは、歪の計算値又は推定値を得るために、異なる歪が如何にして遊離的に、又は互いに対して加重されるかを示すことができる。さらに、もしくは代替として、歪制御スキーム調整パラメータは、歪計算器/推定器242aにより取得される歪の大きさが、調整されたレンダリングパラメータ132をレンダリング情報114に基づいて生成するのにどのように影響するかを決めることができる。
【0078】
実施形態によっては、歪計算器/推定器242aとレンダリング情報修正器242bが結合されて、調整されたレンダリングパラメータ132がアップミックス信号表現120にある程度(限定された程度)の歪をもたらすようにその調整されたレンダリングパラメータ132が生成されることもあるが、アップミックス信号表現120のその歪の程度は、歪制御スキーム調整パラメータによって左右(又は調整)することができる。
【0079】
3.図3による、アップミックス信号表現を生成するための装置
【0080】
以下、オーディオコンテンツのビットストリーム表現に含まれているダウンミックス信号表現110及び同ビットストリーム表現に含まれているオブジェクト関連パラメータ情報112に基づいて、かつレンダリング情報114に依存してアップミックス信号表現120を生成するための装置300について、図3を参照して説明する。ここで、同一の参照数字が本明細書における実施形態の説明における同一又は同等の情報、手段及び機能を指すことに留意されたい。
【0081】
装置300は歪制限器340を備えている。歪制限器340は、歪制御スキーム342を使用するように構成され、そして、レンダリング情報114に依存して、かつ歪制限制御パラメータ116にも依存して調整されたアップミックスパラメータ132を生成するように構成されている。
【0082】
歪制御スキーム342は、調整されたレンダリングパラメータ132を得るためにレンダリング情報114の値の数値範囲を制限するように構成されたレンダリング情報制限器342aを備えている。レンダリング情報114の値の制限は歪制御スキーム調整パラメータに依存して実行することができる。歪制御スキーム調整パラメータは、歪制限器340により歪制限制御パラメータ116に依存して取得されるか、又は歪制限制御パラメータ116と同一でさえある。歪制御スキーム342は、場合により、基準値計算器342bを備えることができる。基準値計算器342bは、オブジェクト関連パラメータ情報112に依存して、かつ歪制限制御パラメータ116から導出されるか又は歪制限制御パラメータ116と同一である歪制御スキーム調整パラメータにも依存して制限基準値を生成するように構成することができる。ただし、歪制御スキーム調整パラメータにも依存することは、好ましいことではあるが、必須ではない。したがって、レンダリング情報制限器342は、場合により、調整されたレンダリングパラメータ132を得るプロセスにおいてレンダリング情報の値の数値範囲を限定するに当たって、基準値計算器342bにより生成される制限基準値を考慮することができる。
【0083】
したがって、歪制限器340は、ユーザ指定のレンダリング情報であり得るレンダリング情報114の値から調整されたレンダリングパラメータ132を導出するように、レンダリング情報114の値の数値範囲の調整可能な制限を実施することができる。調整可能な制限は1つ以上の歪制限制御パラメータ116に依存して調整することができる。この場合、歪制限制御パラメータ116は、調整可能な制限の1つ以上の異なるパラメータ(最小値、最大値、基準値からの許容偏差、基準値計算モード、等)を決定することができる。
【0084】
4.図4による、本発明によるビットストリーム信号化を用いるSAOC歪制御
【0085】
4.1 アーキテクチャ概要
【0086】
以下、図4を参照して、本発明によるビットストリーム信号化を用いるSAOC歪制御の概念について論じる。図4はSAOC歪制御システム400の概略ブロック図を示す。
【0087】
SAOC歪制御システム400は、SAOCエンコーダ410と、SAOCデコーダ/トランスコーダ420とを備えている。
【0088】
SAOCエンコーダ410は、複数のオーディオオブジェクト信号412a〜412Nを受けとり、かつこれらに基づいてダウンミックス信号414を生成するように構成されている。ダウンミックス信号414は、例えばダウンミックス信号表現110と同一であってもよく、また1チャネル信号又は例えば2チャネル信号等のマルチチャネル信号であってもよい。
【0089】
SAOCエンコーダ410は、例えばSAOCパラメータを含むオブジェクト関連パラメータ情報416を生成するようにも構成されている。SAOCパラメータは、例えば、オーディオオブジェクト信号412a〜412Nの特性を記述することができる。例えば、SAOCパラメータは、オーディオオブジェクト信号412a〜412Nによって表されるオーディオオブジェクトのオブジェクトレベル差(OLD)を記述することができる。SAOCパラメータは、オーディオオブジェクト信号412a〜412Nによって表されるオーディオオブジェクトのオブジェクト間相関IOCを記述することもできる。SAOCパラメータはダウンミックスを特徴づけることもできる。ダウンミックスはオーディオオブジェクト信号412a〜412Nを線形結合してダウンミックス信号414を導出するために実行されるものである。例えば、SAOCパラメータは、ダウンミックス利得DMG及びダウンミックス・チャネル・レベル差DCLDを記述することができる。SAOCパラメータ416は、例えば、オブジェクト関連パラメータ情報112と同一であってもよい。
【0090】
SAOCエンコーダ410は1つ以上の歪制限器パラメータ418を生成することもできる。歪制限器パラメータ418は1つ以上の歪制限制御パラメータと考えることができ、また歪制限制御パラメータ116と同一であってもよい。
【0091】
ダウンミックス信号表現414、SAOCパラメータ416及び歪制限器パラメータ418は、SAOCエンコーダ410からSAOCデコーダ及び/又はトランスコーダ420へ伝送される。
【0092】
典型的には、ダウンミックス信号表現414(好ましくは符号化された形式)、SAOCパラメータ416(典型的には符号化された形式)及び歪制限器パラメータ418(典型的には符号化された形式)は全て、オーディオコンテンツのビットストリーム表現に含まれている。言い替えれば、SAOCエンコーダ410は、パラメータ414、416、418を含むビットストリームを生成する。
【0093】
SAOCデコーダ、SAOCトランスコーダ又はSAOCデコーダ/トランスコーダ420は、ダウンミックス信号表現414、SAOCパラメータ416及び1つ以上の歪制限器パラメータ418を受けとる。SAOCデコーダ/トランスコーダ420は、例えば、図8によるSAOCデコーダ820の機能、図9AによるSAOCデコーダ920の機能、図9Bによる統合されたデコーダ及びミキサ950の機能、又は図9CのSAOC−MPEGサラウンドトランスコーダ980の機能を実行することができる。
【0094】
しかし、SAOCデコーダ/トランスコーダ420は、前記SAOCデコーダ又はトランスコーダに加えて、歪制限器422を備えている。歪制限器422は、1つ以上の歪制限器パラメータ418を受けとりかつ評価するように構成されている。さらに、SAOCデコーダ/トランスコーダ420は相互作用/制御情報424も受けとるように構成することができる。相互作用/制御情報424は、例えば希望するレンダリングパラメータのユーザによる選定を表す。SAOCデコーダ/トランスコーダ420は、結果的に、アップミックス信号表現を、例えば複数の復号されたオーディオ信号チャネル428a〜428Mの形式で生成するように構成されている。
【0095】
SAOCデコーダ/トランスコーダ420は、ダウンミックス信号414からアップミックス信号表現428a〜428Mを導出するために利得係数又はレンダリングパラメータを適用するように構成されている。例えば、SAOCデコーダ/トランスコーダ420は、ダウンミックス信号414(1チャネルダウンミックス信号であっても、2チャネルダウンミックス信号であってもよい)を表す信号成分(例えば、スペクトル領域値)を複数の対応する利得値(例えば、利得値の行列)で乗算して、ダウンミックス信号表現からオーディオチャネル信号428a〜428Mを導出するように構成することができる。例えば、オーディオチャネル信号428a〜428Mのうちの1つの表現を得るために、ダウンミックス信号表現414の2つ以上のチャネルの線形結合を形成することができる。さらに、もしくは代替として、1つ以上のダウンミックス信号414の表現をオーディオチャネル信号428a〜428Mへ移すために、レンダリングパラメータ・セットを応用することができる。この場合、レンダリングパラメータは、1つ以上のダウンミックス信号414の表現をオーディオチャネル信号428a〜428Mへ移すためのマッピングルールを計算するように使用することができる。例えば、レンダリングパラメータは、このようなマッピングルールを決定する際に線形係数として機能することができる。しかし、実施形態によっては、レンダリングパラメータの異なる応用も可能である。
【0096】
4.2 歪制限手法
【0097】
以下に、歪を制限するための幾つかの手法について説明する。それらの手法は、SAOCデコーダ/トランスコーダ420に適用することができ、またSAOCデコーダ又はトランスコーダ100、200、300にも適用することができる。
【0098】
歪制限は、SAOCデコーダ/トランスコーダシステムにおけるパラメータの幾つかの値範囲を制限することによって達成することができる。ここで、パラメータとはシステムにおける係数、利得係数又は行列要素を指し、オーディオサンプルを直接表すものではないが、SAOCにおいて数学的スキームによる出力オーディオサンプルに影響を与える。
【0099】
特に興味深い点として可能性のあるものは、トランスコーディングパラメータ(すなわち、トランスコーディングマトリクス内の個々の要素)に制限を適用することである。トランスコーディングマトリクスはオブジェクトの数に伴って増えないことから、これは、計算上、効率的である。トランスコーディングマトリクスは、ダウンミックス信号表現のオーディオチャネル信号からアップミックス信号表現のオーディオチャネル信号へのマッピングを記述することができる。
【0100】
例えば図2及び図7に示されているSAOCデコーダ/トランスコーダ内の歪制限器は、1つ以上の利得制限定数に基づいてそのパラメータ範囲の制限を実行する。制限を受けるパラメータは、オーディオサンプルへ適用されるべき利得係数とすることができる。そうすると、1つ以上の利得制限定数は、デシベル単位の利得レベル範囲として表すことができる。
【0101】
例えば、利得制限定数q=10dBは、

(otherwiseは「その他」の意味。)
に従って、パラメータpの範囲を限定するために使用することができる。
【0102】
ここで、p’は、(pに代わる)制限された新しいパラメータとして定義される。p、p’及びqは共に、ここでは対数(デシベル)値として表されている。
【0103】
ここで、値p’は、例えば調整されたアップミックスパラメータ132を表すことができること、及び値pはレンダリング情報に依存して得ることができることに留意されたい。値p’の範囲の制限は例えば歪制御スキームによって実行することができ、歪制限器140はパラメータq(歪制御スキーム調整パラメータと考えることができる。)を歪制限制御パラメータ116に依存して調整することができる。p’を得るための上述のルールは調整可能な歪制御スキームと考えることができ、歪制御スキーム調整パラメータqに依存して調整されるものである。
【0104】
より高度なアプローチは、利得制限定数qに、そのパラメータの別の基準レベルからの最大許容偏差を定義させることである。この基準レベルは、例えば、(パラメータシーケンスは例えばSAOCフレーム毎に一度又は数回更新されるので、)パラメータシーケンスの平滑化/フィルタリング/平均化されたバージョン(時間軸に沿って平滑化/フィルタリング/平均化されたもの)から導出できるかもしれない。そうすると、制限は、

に従って定義することができる。
【0105】
ここで、p”は(pに代わる)新しい、より高度な制限されたパラメータとして定義され、rはpのパラメータシーケンスの平滑化/フィルタリング/平均化されたバージョン(時間軸に沿って平滑化/フィルタリング/平均化されたもの)として定義される。p、p”及びqは共に、ここでは対数(デシベル)値として表されている。
【0106】
例えば、値p”は、1つ以上の調整されたパラメータ132(例えば、調整されたトランスコーディングパラメータ又は調整されたレンダリングパラメータ)を表すことができる。値pは、例えばレンダリング情報114、及び場合により例えばダウンミックス信号表現110からの情報又はオブジェクト関連パラメータ情報112からの情報等の他の情報に依存して得ることができる。
【0107】
p”を得るためのpの値の制限は歪制御スキームによって実行することができ、パラメータqは歪制限器140により歪制限制御パラメータ116に依存して調整することができる。さらに、pの値を平滑化してrを得るために使用される平滑化/フィルタリング/平均時定数もまた、歪制限器140により1つ以上の歪制限制御パラメータに依存して調整することができる。
【0108】
別の制限方法はレンダリングマトリクスのみに作用するものである。レンダリングマトリクスは、SAOCデコーダ/トランスコーダへの入力インタフェース(又は入力量)である。したがって、この方法は、SAOCデコーダ/トランスコーダシステム内部の修正を必要としない。
【0109】
1つの単純な制限方法は、レンダリングマトリクス要素の範囲を制限すること(最小値と最大値を設定すること)である。
【0110】
他の制限方法は、レンダリングマトリクス基準に対するレンダリングマトリクス要素の修正を制限することである。レンダリングマトリクス基準は、例えば、出力が不変のダウンミックスとなるレンダリングマトリクスとすることができる。例えば、制限パラメータq=10dBは、レンダリングマトリクス要素が所定の基準値から(又は、個々の基準値から)±10dB(すなわち、10(-10/20)以上で10(10/20)以下の範囲)を超えて偏向することを防止する。
【0111】
レンダリングマトリクス内のパラメータ(行列要素)の範囲は、個々のオブジェクトで容易に異ならせることができる。これは、これらのオブジェクトがレンダリングマトリクス内で十分に分離されているためである。例えば、下記の制限範囲が許容されるかもしれない。
ドラムオブジェクト:±3dB
バスオブジェクト:±10dB
メロトロンオブジェクト:±6dB
ギター1オブジェクト:±3dB
ギター2オブジェクト:±3dB
ボーカルオブジェクト:±0dB
フルートオブジェクト:±12dB
【0112】
言い替えれば、個々のレンダリングパラメータの調整範囲は個々に、すなわちオブジェクト別に調整(設定)することができる。オブジェクト別の変動範囲は複数の歪制限制御パラメータ116から得ることができ、歪制限制御パラメータ116はオーディオコンテンツのビットストリーム表現に含まれ、オーディオコンテンツのビットストリーム表現からビットストリームパーサによって抽出される。したがって、オーディオエンコーダはオーディオデコーダ(例えば、装置100、200、300、420)へ、オブジェクト別調整範囲に関する情報を効率的に転送することができる。オブジェクト別調整範囲のエンコーダ側での提供は、エンコーダ側でオブジェクトのタイプが高精度で認識されるという事実によって特別な優位点をもたらすので、エンコーダは、許容される調整範囲に関する高信頼情報の提供に最もよく適する。
【0113】
以下、本発明による柔軟な制限アプローチについて、さらに詳しく論じる。
【0114】
従来の概念による限界を克服するために、本発明は、歪制御スキームが状況毎に最適を実行するように導くデータを用いることを提案する。このデータ(すなわち、歪制御スキームを調整するためのデータ、例えば歪制限制御パラメータ)は、SAOCエンコーダ側で設定することができ、後にSAOCデコーダ/トランスコーダ内の歪制御スキームに利用できるようにSAOCビットストリームに含まれて搬送される。これは、図4に示されている(また、図1、図2及び図3からも分かる)。
【0115】
搬送されるデータ(図4において「歪制限器パラメータ」と表示され、かつ図1、図2及び図3では歪制限制御パラメータ116として示されている)は、下記に関する情報を含むことができる。
【0116】
パラメータ制限値:
例えば、上述の例で説明されている利得制限定数q、
例えば、レンダリングマトリクス要素の1つ又は複数の制限範囲(例えば、最小値と最大値)、
例えば、レンダリングマトリクス基準(例えば、出力が不変のダウンミックスとなるレンダリングマトリクス)に対するレンダリングマトリクス要素の1つ又は複数の制限範囲、
例えば、平滑化/フィルタリング/平均されたバージョンのパラメータから(制限されるべき)パラメータの基準レベルを導出するために使用される平滑化フィルタの時定数、
【0117】
特殊制限事例:
修正は全く許されない(SAOCのレンダリング機能を一時的に無効化する)、
(ビットストリームから読み出される)レンダリングマトリクス・プリセットのみ許容される、
制限なし(SAOCの歪制限器を一時的に無効化する)、
何らかの歪制御において論じられた音響心理学的歪の大きさモデルからの任意の歪制御制限パラメータ。
【0118】
上記を要約すると、1もしくは複数の利得係数又は1もしくは複数のレンダリングマトリクス要素の数値範囲を制限するために使用される利得制限定数qは、SAOCビットストリームから抽出することができる。
【0119】
さらに、もしくは代替として、1つのレンダリングマトリクス要素の範囲を制限するか、又は複数のレンダリングマトリクス要素の範囲を制限する(例えば、オブジェクト別に)1つ以上のパラメータは、SAOCビットストリームから抽出することが可能である。
【0120】
さらに、もしくは代替として、1つのレンダリングマトリクス要素の範囲をレンダリングマトリクス基準に対して制限するか、又は複数のレンダリングマトリクス要素の範囲をレンダリングマトリクス基準に対して制限する1つ以上のパラメータは、SAOCビットストリームから抽出することが可能である。
【0121】
さらに、もしくは代替として、制限されるべきパラメータの基準レベルを導出するために使用される平滑化フィルタの時定数は、SAOCビットストリームから抽出することが可能である。
【0122】
事例によっては、ビットストリームは、SAOCレンダリング機能が無効化されるべきであることを示すパラメータ又はフラグを含むことができる。
【0123】
さらに、もしくは代替として、SAOCビットストリームは、アップミックス信号表現を再現するために、ユーザインタフェースを介して入力されるユーザ提供のレンダリングマトリクスではなく、SAOCビットストリームにより記述される予め設定されたレンダリングマトリクス又はビットストリームにより記述される複数の予め設定されたレンダリングマトリクスのうちの1つが使用されるべきであることを示すパラメータ又はフラグを含むことができる。したがって、オーディオデコーダ/トランスコーダがビットストリームパラメータ又はビットストリームフラグに基づいてこの状態を識別すれば、ユーザ定義のレンダリングマトリクスを設定するユーザの自由はオーディオデコーダ/トランスコーダによって一時的に無効にすることができる。
【0124】
或いは、又は追加的に、SAOCビットストリームは、SAOC歪制限器が一時的に無効にされるべきであり、よって歪制限は存在しないことを示すフラグ又はパラメータを含むことができる。
【0125】
さらに、もしくは代替として、SAOCビットストリームは、音響心理学的歪大きさモデルに基づいて歪制限を調整するためのパラメータを含むことができる。したがって、歪制限器は、音響心理学的歪モデルを基礎とする歪制御スキームをSAOCビットストリームから抽出されるパラメータに依存して調整することができる。例えば、歪制限器は、国際出願EP2010/055717号明細書(特許文献2)(及び米国特許出願第61/173,456号明細書(特許文献1)も)に記述されている任意の歪制限スキームを、SAOCビットストリームから抽出される歪制限制御パラメータに依存して調整することができる。
【0126】
4.3 柔軟性のある制限アプローチの優位点
【0127】
上記で詳述したSAOC歪制御スキームデータの本発明による信号化は、潜在的に、従来の歪制御アプローチによる全ての制限を解決することができる。
【0128】
従来の歪制御アプローチには柔軟性がないことに起因する制限があるが、本発明による実施形態ではそれらの制限を克服できることに留意されたい。本発明の実施形態を用いて克服されることが可能なこれらの制限のうちの幾つかは、下記の(A)〜(C)の通りである。
【0129】
(A)従来の歪制御における歪制御パラメータは、あらゆる状況に対して最適となるようには適応しない。
(オーディオ音質/サービス品質の観点から)最適である歪制御パラメータの選定は、例えば下記に依存する場合が多いことがわかっている。
コンテンツタイプ:音声、音楽(ロック/クラシック)、映画オーディオトラック、他。
低レベル信号特性:トランジェント、調波対雑音構成、スペクトルスロープ、動的微細構造(高速/遅速時間パワーエンベロープ)、他。
SAOC特性:ダウンミックス内に存在する制御可能オブジェクトの数、時間/周波数/ダウンミックスチャネルにおけるオブジェクトの分離/オーバーラップの程度、他。
システム特性:ダウンミックスのコーデックタイプ(mp3、AAC、PCM、他)及びビットレート(ダウンミックスにおける全体的なオーディオ音質及び歪を示す)、ダウンミックスにおけるパラメトリック符号化部分の存在(例えば、HE−AACに包含されるようなSBR、参考文献[SBR1](非特許文献6参照。)、[SBR2](非特許文献7参照。)、又は参考文献[PS](非特許文献8参照。)に記述されているようなパラメトリックステレオ)、チャネル構成(モノ、ステレオ、マルチチャネル)、オーディオ帯域幅、サンプリング速度、他。
【0130】
(B)歪制御パラメータは、SAOCデコーダ側では通常元のオーディオオブジェクトを利用できないことに起因して不正確である。
元の(不連続)オーディオオブジェクトはクリーンで歪がなく、かつダウンミックスからパラメトリックに分解されていないことに起因して、歪制御パラメータの抽出は、元の(不連続)オーディオオブジェクトの分析によって恩恵を受け得ることがわかっている。しかし、これらの元のオブジェクトは、通常、SAOCデコーダ側では利用できない。
【0131】
(C)従来のオーディオエンコーダには、デコーダ側の再現品質を確保する可能性がない。
SAOCアプリケーションによっては、エンコーダ側から最低品質レベルを設定することが望ましいことがわかっている。よって、この最低品質レベルは、デコーダ側でのユーザ相互作用性(レンダリングマトリクス及び再生構造の選定)とは独立して達成されるように望まれることがわかっている。歪制御の中には、一定の品質レベルがSAOCデコーダ側へ設定されることを目的とするものがあるが、例えばアーティストの完全性、サービスプロバイダの評判/プロファイル、ユーザスキルに対する期待(ユーザインタフェース機能のレベルと使いやすさとの関係)に起因して、異なるサービス(例えば、テレビ会議、高品質音楽のダウンロード、放送の各アプリケーション)には異なる品質レベルを持たせることが望ましい可能性もある。
【0132】
本発明によるSAOC歪制御スキームデータの(例えば、オーディオエンコーダからビットストリームを介してオーディオデコーダへの)信号化は、潜在的に、先に論じた全ての制限を解決することができる。例えば、SAOCデコーダは、例えばテレビ会議アプリケーション、(オーディオブック又は放送における)対話制御アプリケーション、音楽リミックス(「ミュージック2.0」)アプリケーションに対して、異なる歪制限設定(例えば歪制限制御パラメータ116又は歪制限器パラメータ418によって記述される異なる品質/機能制限設定)を使用することができる。
【0133】
本発明は、歪制御プロセスを導くためにビットストリーム内の信号化を利用することにより、さらに強化された性能及び機能性の双方を提供する。
【0134】
5. 参考例
【0135】
以下、図7を参照してSAOC歪制御の参考例について説明するが、その参考例は本発明による全ての優位点をもたらすわけではない。図7によるシステム700はSAOCエンコーダ710とSAOCデコーダ/トランスコーダ720とを備えている。SAOCエンコーダ710は、複数のオーディオオブジェクト信号712a〜712Nを受けとり、これらに基づいてダウンミックス信号714とSAOCパラメータ718を生成する。SAOCデコーダ/トランスコーダ720は、SAOCエンコーダ710からダウンミックス信号714(1チャネル信号又はマルチチャネル信号となる。)と、SAOCパラメータ718とを受けとる。SAOCデコーダ/トランスコーダ720は、これらに基づいて、複数のオーディオ信号チャネル728a〜728Mを生成する。この目的に沿って、SAOCデコーダ/トランスコーダ720は、歪制限器722を使用し、例えばユーザインタフェースから受けとる相互作用情報又は制御情報724を考慮することができる。
【0136】
しかし、図7によるシステム700は、典型的には、事例によっては可聴歪を引き起こす。
【0137】
6. マルチチャネルオーディオ信号を表現するビットストリームを生成するための図5による装置
【0138】
以下、マルチチャネルオーディオ信号のビットストリーム表現を生成するための装置について図5を参照して説明する。図5はこのような装置500の概略ブロック図を示す。
【0139】
装置500は、複数のオーディオオブジェクト信号510a〜510Nを受けとるように構成されている。また、装置500は、マルチチャネルオーディオ信号を表すビットストリーム520を生成するようにも構成されている。
【0140】
装置500はダウンミキサ530を備えている。ダウンミキサ530は複数のオーディオオブジェクト信号510a〜510Nに基づいてダウンミックス信号532を生成するように構成されている。装置500はサイド情報生成器540も備えている。サイド情報生成器540は、オーディオオブジェクト信号510a〜510N及びダウンミキサ530により使用されるダウンミックスパラメータの特性を記述するオブジェクト関連パラメトリックなサイド情報542を生成するように構成されている。サイド情報生成器は、アップミックス信号表現を生成する装置側で歪制御スキームの適用を制御するための1つ以上の歪制限制御パラメータ544も生成するように構成されている。装置500はビットストリームフォーマッタ550も備えている。ビットストリームフォーマッタ550は、ダウンミックス信号532の表現、オブジェクト関連パラメトリックなサイド情報542及び1つ以上の歪制限制御パラメータ544を含むビットストリーム520を生成するように構成されている。
【0141】
したがって、装置500は、装置100、200、300における歪制御スキーム142、242、342及び装置420における歪制限器422を調整するために必要な情報を含むビットストリーム520を生成する。
【0142】
サイド情報生成器540は、オーディオオブジェクト信号510a〜510Nのオーディオオブジェクト特性に依存して歪制限制御パラメータ544を生成するように構成することができる。例えば、サイド情報生成器は、オーディオオブジェクト信号510a〜510Nに基づいて取得されるか、又は(例えば、ユーザインタフェースを介して入力される)サイド情報を用いて与えられるコンテンツタイプ情報に依存して歪制限制御パラメータ544を生成することができる。
【0143】
さらに、もしくは代替として、サイド情報生成器540は、1つ以上のオーディオオブジェクト信号510a〜510Nの低レベル特性に依存して歪制限制御パラメータを生成することができる。低レベル特性とは、例えばトランジェントに関する情報、調波対雑音構成に関する情報、スペクトルスロープに関する情報、動的微細構造に関する情報などである。
【0144】
さらに、もしくは代替として、サイド情報生成器540は歪制限制御パラメータを、ダウンミックス信号532内に存在する幾つかの制御可能オブジェクトのようなSAOC特性に依存して、又はダウンミックスにおけるパラメトリック符号化部分の存在に依存して、又はチャネル構成に依存して、又はオーディオ帯域幅に依存して、又はサンプリング速度に依存して生成することができる。
【0145】
サイド情報生成器540は、歪制限制御パラメータ544を生成するために元の(「不連続」な)オーディオオブジェクト(又はオーディオオブジェクト信号510a〜510N)を分析することから恩恵を受ける場合がある。サイド情報生成器540は、例えば、ビットストリーム520によって表されるオーディオ信号の再現の最低品質レベルを可変的に設定するように歪制限制御パラメータを調整することができる。
【0146】
要約すると、マルチチャネルオーディオ信号のビットストリーム表現を生成するための装置500は、ビットストリーム520が1つ以上の歪制限制御パラメータ544を含み、結果として再現の品質を調整できるように、ビットストリーム520を生成することができる。この目的に沿って、歪制限制御パラメータ544を設定するに当たって、オーディオオブジェクト信号510a〜510Nの特性を考慮することができ、かつ追加的なサイド情報又はユーザインタフェースからのユーザ入力も考慮することができる。
【0147】
7. ビットストリーム
【0148】
以下、マルチチャネルオーディオ信号を表すビットストリーム600について説明する。
【0149】
ビットストリーム600は、ダウンミックス信号の表現610(例えば、ダウンミックス信号532の表現、これは、ダウンミックス信号表現110、414と同一であってもよい)を含む。またビットストリーム600はオブジェクト関連パラメトリックなサイド情報620も含む。サイド情報620はSAOCサイド情報であってもよい。オブジェクト関連パラメトリックなサイド情報620は、例えば、オブジェクトレベル差情報622と、オブジェクト間相関情報624と、ダウンミックス利得情報626と、ダウンミックス・チャネル・レベル差情報628とを含むことができる。このサイド情報620は空間オーディオオブジェクト符号化(SAOC)の分野では周知である。ビットストリーム600は、先に述べたように、1つ以上の歪制限制御パラメータ630も含む。
【0150】
本発明による歪制御スキームデータ(すなわち、歪制限制御パラメータ630、116、418)は、SAOCビットストリームのヘッダ(例えば、「SAOCSpecificConfig()」と名付けられるSAOCビットストリームのSAOC固有の構成部分)において最小のデータレート負担で伝送できることに留意されたい。しかし、本発明による歪制御スキームデータは、時変信号化(例えば、信号適応制御)を有効にするために、ペイロードデータ(例えば、典型的には「SAOCFrame()」と呼ばれるSAOCフレームデータ)において伝送することも可能である。
【0151】
典型的には、但し必須ではないが、歪制御スキームデータを配置する適切な場所は、SAOCビットストリームにおいて拡張機構を使用していることが可能である。すなわち、実施形態によっては、歪制御スキームデータ(又は歪制御スキームデータの少なくとも一部)は、ヘッダの代わりに「SAOCExtensionConfig()」と呼ばれる構文セクションへ、ペイロードの代わりに「SAOCExtensionFrame()」と呼ばれる構文セクションへそれぞれ置くことが可能である。
【0152】
言い替えれば、実施形態によっては、歪制御スキームデータはSAOCヘッダに含むことが可能であって、SAOCヘッダは、典型的にはビットストリーム内でオーディオピース当たり一度包含される。さらに、もしくは代替として、歪制御スキームデータは、SAOCビットストリームのフレームデータ内に含むことが可能である。したがって、歪制御スキームデータは、オーディオフレーム当たり一度伝送してもよい。SAOCコンフィギュレーションを含むSAOCヘッダ内のフラグが、2つのソリューション(ヘッダ内に限定される歪制御スキームデータ、又はオーディオフレーム・データ内の歪制御スキームデータ)のどちらが適用されるかを示してもよい。
【0153】
また、実施形態によっては、歪制御スキームデータはオーディオフレームのうちの幾つかにのみ含まれてもよく、この場合、どのオーディオフレームが歪制御スキームデータを含むかをパラメータ又はフラグを用いて信号化してもよい。したがって、SAOC歪制御スキームデータは、(1つのSAOCコンフィギュレーション部分が関連づけられる)1つのオーディオピース内で不規則な時間間隔で転送されることが可能である。
【0154】
8.変形実施例
【0155】
以上、幾つかの態様を装置の文脈で説明したが、これらの態様は対応する方法を記述するものでもあることは明らかであり、その場合、ブロック又はデバイスが方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様も、対応するブロックもしくは項目、又は対応する装置の特徴の説明を表す。これらの方法ステップのうちの幾つか又は全ては、例えばマイクロプロセッサ、プログラマブルコンピュータ又は電子回路のようなハードウェア装置によって(又はこれを使用して)実行することができる。実施形態によっては、最も重要な方法ステップのうちのどれか1つ又は複数の方法ステップがこのような装置によって実行することができる。
【0156】
本発明による符号化されたオーディオ信号は、デジタル記憶媒体に蓄積することができ、又は無線伝送媒体等の伝送媒体もしくはインターネット等の有線伝送媒体で伝送することができる。
【0157】
所定の実施要請に依存して、本発明の実施形態はハードウェア又はソフトウェアで実施することができる。実施は電子的に読取り可能な制御信号を蓄積しているデジタル記憶媒体、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリ、を用いて実行することができ、それらのデジタル記憶媒体は個々の方法が実行されるようにプログラム可能コンピュータシステムと協働する(又は協働することができる)。したがって、デジタル記憶媒体はコンピュータ読取り可能とすることができる。
【0158】
本発明による幾つかの実施形態は、電子的に読取り可能な制御信号を有するデータキャリアを含んでいる。そのデータキャリアはプログラム可能コンピュータシステムと協働できるので、本明細書に記載されている方法のうちの1つが実行される。
【0159】
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム製品として実施することができ、前記プログラムコードは、このコンピュータ・プログラム製品がコンピュータ上で実行されると本発明の方法のうちの1つを実行するように作動する。プログラムコードは、例えば機械読取り可能キャリアに蓄積することができる。
【0160】
他の実施形態は、機械読取り可能キャリアに蓄積された、本明細書に記載されている本発明方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0161】
したがって、換言すれば、本発明方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されると本明細書に記載されている本発明方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0162】
したがって、本発明方法のさらなる実施形態は、本明細書に記述されている本発明方法のうちの1つを実行するためのコンピュータプログラムを記録して備えているデータキャリア(又はデジタル記憶媒体又はコンピュータ読取り可能媒体)である。データキャリア、デジタル記憶媒体又は記録媒体は、典型的には有形及び/又は非遷移性(non-transitionary)である。
【0163】
したがって、本発明方法のさらなる実施形態は、本明細書に記載されている本発明方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
【0164】
さらなる実施形態は、本明細書に記載されている本発明方法のうちの1つを実行するように構成されているか又は適合化される、例えばコンピュータである処理手段又はプログラマブル論理デバイスを含む。
【0165】
さらなる実施形態は、本明細書に記載されている本発明方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
【0166】
実施形態によっては、本明細書に記載されている本発明方法の機能の幾つか又は全てを実行するために、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲートアレイ)を用いることができる。実施形態によっては、フィールド・プログラマブル・ゲートアレイは、本明細書に記載されている本発明方法のうちの1つを実行するためにマイクロプロセッサと協働することができる。概して、これらの方法は、好ましくは任意のハードウェア装置によって実行される。
【0167】
これまでに述べた実施形態は、単に本発明の原理を例示するものである。当業者には、本明細書に記載されている装置及び詳細の修正及び変形が明らかであることは理解される。したがって、本発明は、本明細書における実施形態の記述及び説明によって提示された特定の詳細ではなく、添付の特許請求の範囲によってのみ限定されるべきものである。
【0168】
9. 結論
【0169】
以上を要約すると、本発明による実施形態は、MPEG空間オーディオオブジェクト符号化SAOCにおいて歪制御信号化を創出する。
【0170】
本発明による実施形態は、歪制御プロセスを導くためにビットストリーム内の信号化を利用することにより、さらに強化された性能及び機能性の双方を提供する。
【0171】
本発明による好適な実施形態は、これまでに論じたようなオーディオ信号を符号化又は復号するための方法、装置又はコンピュータプログラムを含む。本発明によるさらなる実施形態は、これまでに論じたように発生されるか、又はこれまでに論じたようにデコーダもしくは復号方法によって使用される符号化された信号を含む。

【特許請求の範囲】
【請求項1】
オーディオコンテンツのビットストリーム表現に含まれているダウンミックス信号表現(110、414)及び同ビットストリーム表現に含まれているオブジェクト関連パラメータ情報(112;416)に基づいて、かつレンダリング情報(114;424)に依存してアップミックス信号表現(120;428a〜428M)を生成するための装置(100;200;300;400)であって、
レンダリングパラメータ(114;424)の不適切な選定により生じる可聴歪を回避するか又は制限するために、歪制御スキーム(142)を用いてアップミックスパラメータを調整するように構成された歪制限器(140;240;340;422)を備え、
前記歪制限器は、前記オーディオコンテンツの前記ビットストリーム表現に含まれている歪制限制御パラメータ(116;418;q)を取得し、かつ前記歪制限制御パラメータに依存して前記歪制御スキームを調整するように構成されているアップミックス信号表現生成装置(100;200;300;400)。
【請求項2】
該アップミックス信号表現生成装置は、所望されるレンダリングマトリクス情報(114;424)を入力インタフェースから受けとるように構成され、
前記歪制限器(140;240;340;422)は、前記所望されるレンダリングマトリクス情報及び前記1つ以上の歪制限制御パラメータ(116;418;q)に依存して修正されたレンダリングマトリクス情報(132;p’;p”)を得るように構成され、
該アップミックス信号表現生成装置は、前記修正されたレンダリングマトリクス情報に依存して前記アップミックス信号表現(120;428a〜428M)を生成するように構成されている請求項1に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項3】
前記歪制限器は、前記オーディオコンテンツの前記ビットストリーム表現に含まれ、かつレンダリングマトリクス要素の最小値及び最大値を記述する1つ以上のレンダリングマトリクス限界値(r,q)を取得するように、かつ前記所望されるレンダリングマトリクス情報に依存して前記修正されたレンダリングマトリクス情報を得るに当たって、前記修正されたレンダリングマトリクス情報(132;p’;p”)の1つ以上のエントリを前記1つ以上のレンダリングマトリクス限界値(r,q)に従って制限するように構成されている請求項2に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項4】
前記歪制限器は、前記所望されるレンダリングマトリクス情報(114;424)、基準レンダリングマトリクス情報(r)及び前記1つ以上の歪制限制御パラメータ(q)に依存して前記修正されたレンダリングマトリクス情報(132;p’;p”)を得るように構成されている請求項2又は3に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項5】
前記歪制限器は、前記1つ以上のレンダリングマトリクス限界値(q)に従って、前記修正されたレンダリングマトリクス(132)の1つ以上のエントリ(p’,p”)を前記基準レンダリングマトリクス情報(r)に対して制限するように構成されている請求項4に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項6】
前記歪制限器は、前記所望されるレンダリングマトリクス情報に依存して前記修正されたレンダリングマトリクス情報を得るために、オブジェクト別の歪制限制御パラメータ(q)を適用するように構成されている請求項2から5までのいずれか一項に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項7】
該アップミックス信号表現生成装置は、利得係数に依存して前記アップミックス信号表現(120;428a〜428M)を生成するために、1つ以上の修正された利得係数(p’,p”)を前記ダウンミックス信号表現(110,414)のオーディオサンプルへ、又は前記ダウンミックス信号により記述されたオーディオオブジェクトに関連づけられたオブジェクト関連サイド情報へ適用するように構成され、
前記歪制限器は、1つ以上の所望される利得係数(p)及び前記1つ以上の歪制限制御パラメータ(116;418;q)に依存して前記1つ以上の修正された利得係数(p’,p”)を得るように構成されている請求項1から6までのいずれか一項に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項8】
前記歪制限器は、時定数を有する平滑化フィルタを用いて制限されるべき利得係数の基準レベル(r)を導出するように構成され、
前記歪制限器は、前記所定の係数を制限するために前記基準レベル(r)を用いるように構成され、
前記歪制限器は、前記オーディオコンテンツの前記ビットストリーム表現に含まれている時定数パラメータを取得し、かつ前記時定数パラメータに依存して前記平滑化フィルタの時定数を調整するように構成されている請求項1から7までのいずれか一項に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項9】
前記歪制限器は、前記オーディオコンテンツの前記ビットストリーム表現に含まれている歪制御起動パラメータを得るように、かつ前記歪制御起動パラメータに依存して前記歪制御スキームを有効化又は無効化するように構成されている請求項1から8までのいずれか一項に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項10】
前記歪制限器は、前記オーディオコンテンツの前記ビットストリーム表現に含まれている予め設定されたレンダリングマトリクス起動パラメータを得るように構成され、かつ、
前記歪制限器は、前記予め設定されたレンダリングマトリクス起動パラメータの活性状態に応答して、前記ダウンミックス信号表現に基づいて前記アップミックス信号表現を生成するために、ユーザ指定のレンダリングマトリクス情報ではなく、前記オーディオコンテンツの前記ビットストリーム表現に含まれている予め設定されたレンダリングマトリクス情報が使用されるように構成されている請求項1から9までのいずれか一項に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項11】
前記歪制限器は、前記オーディオコンテンツの前記ビットストリーム表現に含まれている音響心理学的歪制限パラメータを得るように構成され、
前記歪制限器は、音響心理学的歪モデルに依存して1つ以上のアップミックスパラメータを調整するように構成され、その結果、前記ダウンミックス信号表現から前記アップミックス信号表現を導出することによって生じる歪の大きさが制限され、
前記歪制限器は、前記1つ以上のアップミックスパラメータを調整するために使用される1つ以上のパラメータを前記音響心理学的歪モデルに依存して設定するように、又は前記音響心理学的歪モデルの1つ以上のパラメータを前記音響心理学的歪制限パラメータに依存して設定するように構成されている請求項1から10までのいずれか一項に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項12】
前記歪制限器は、時変性の歪制御スキームを達成するために、オーディオフレーム毎に一度、更新された歪制限制御パラメータを得るように構成されている請求項1から11までのいずれか一項に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項13】
前記歪制限器は、前記オーディオコンテンツの前記ビットストリーム表現のコンフィギュレーション部分内の動的な更新フラグを評価するように構成され、
前記歪制限器は、前記動的な更新フラグが不活性であれば、前記歪制限制御パラメータを取得するように前記オーディオコンテンツの前記ビットストリーム表現の前記コンフィギュレーション部分を評価し、前記動的な更新フラグが活性であれば、前記歪制限制御パラメータの更新を繰り返し取得するように前記オーディオコンテンツの前記ビットストリーム表現のフレーム部分を評価するように構成されている請求項1から11までのいずれか一項に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項14】
前記歪制限器は、前記オーディオコンテンツの前記ビットストリーム表現のフレーム部分における歪制限制御パラメータの存在を示すフラグに依存して前記歪制限制御パラメータを選択的に更新するように構成されており、その結果、前記歪制限制御パラメータの更新間隔が前記オーディオコンテンツの前記ビットストリーム表現により動的に決定される請求項13に記載のアップミックス信号表現生成装置(100;200;300;400)。
【請求項15】
マルチチャネルオーディオ信号を表現するビットストリーム(520)を生成するための装置(500)であって、
複数のオーディオオブジェクト信号(510a〜510N)に基づいてダウンミックス信号(532)を生成するように構成されているダウンミキサ(530)と、
前記オーディオオブジェクト信号(510a〜510N)及びダウンミックスパラメータの特性を記述するオブジェクト関連パラメトリックなサイド情報(542)、及びアップミックス信号表現を生成する装置(100;200;300;400)側で歪制御スキームの適用を制御するための1つ以上の歪制限制御パラメータ(544)を生成するように構成されているサイド情報生成器(540)と、
前記ダウンミックス信号(532)の表現、前記オブジェクト関連パラメトリックなサイド情報(542)及び前記1つ以上の歪制限制御パラメータ(544)を含むビットストリーム(520)を生成するように構成されているビットストリームフォーマッタ(550)と、
を備えているビットストリーム生成装置(500)。
【請求項16】
オーディオコンテンツのビットストリーム表現に含まれているダウンミックス信号表現及び同ビットストリーム表現に含まれているオブジェクト関連パラメータ情報に基づいて、及びレンダリング情報に依存してアップミックス信号表現を生成するための方法であって、
レンダリングパラメータの不適切な選定により生じる可聴歪を回避するか又は制限するために、歪制御スキームを用いてアップミックスパラメータを調整することを含み、
前記オーディオコンテンツの前記ビットストリーム表現に含まれている歪制限制御パラメータが取得され、前記歪制御スキームは前記歪制限制御パラメータに依存して調整されるアップミックス信号表現生成方法。
【請求項17】
マルチチャネルオーディオ信号を表すビットストリームを生成するための方法であって、
複数のオーディオオブジェクト信号に基づいてダウンミックス信号を導出することと、
前記オーディオオブジェクト信号及びダウンミックスパラメータの特性を記述するオブジェクト関連パラメトリックなサイド情報を生成することと、
アップミックス信号表現を生成する装置側で歪制御スキームの適用を制御するための1つ以上の歪制限制御パラメータを生成することと、
前記ダウンミックス信号の表現、前記オブジェクト関連パラメトリックなサイド情報及び前記1つ以上の歪制限制御パラメータを含むビットストリームを生成することと、
を含むビットストリーム生成方法。
【請求項18】
コンピュータ上でコンピュータプログラムが実行されると請求項16又は17に記載の方法を実行するためのコンピュータプログラム。
【請求項19】
マルチチャネルオーディオ信号を表すビットストリームであって、
複数のオーディオオブジェクトのオーディオ信号を結合するダウンミックス信号の表現と、
前記オーディオオブジェクトの特性を記述するオブジェクト関連パラメトリックなサイド情報と、
アップミックス信号表現を生成する装置側での歪制御スキームの適用を制御するための1つ以上の歪制限制御パラメータと、
を含むビットストリーム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9A】
image rotate

【図9B】
image rotate

【図9C】
image rotate


【公表番号】特表2013−511053(P2013−511053A)
【公表日】平成25年3月28日(2013.3.28)
【国際特許分類】
【出願番号】特願2012−534658(P2012−534658)
【出願日】平成22年10月19日(2010.10.19)
【国際出願番号】PCT/EP2010/065671
【国際公開番号】WO2011/048067
【国際公開日】平成23年4月28日(2011.4.28)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
2.EEPROM
【出願人】(500341779)フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン (75)
【出願人】(506427990)ドルビー・インターナショナル・アクチボラゲット (24)
【氏名又は名称原語表記】DOLBY INTERNATIONAL AB