説明

オーディオ信号の構成を記述する方法

本発明は別個のオーディオオブジェクトとして符号化されているオーディオ信号の構成を記述する方法に関する。サウンドシーンにおけるオーディオオブジェクトの配置および処理はシーン記述内に階層的に配置されているノードによって記述されている。2Dベクトルを使用する2Dスクリーンにおける空間化のためにのみ規定されているノードが、前述の2Dベクトルと、前述のオーディオオブジェクトの奥行きを記述する1D値とを使用して、オーディオオブジェクトの3Dポジションを記述する。別の実施形態では座標のマッピングが実施され、このマッピングによって、スクリーン平面におけるグラフィックオブジェクトの移動をこのスクリーン平面に垂直な奥行きでのオーディオオブジェクトの移動にマッピングすることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、殊にMPEG−4符号化されたオーディオ信号を3D領域に空間化するために、オーディオ信号のプレゼンテーション記述をコーディングおよびデコーディングするための方法と装置に関する。
【0002】
背景技術
MPEG−4オーディオ標準ISO/IEC 14496−3:2001およびMPEG−4システム標準14496−1:2001において定義されているようにMPEG−4オーディオ標準はオーディオオブジェクトの表現を支援することによって多種多様な用途を容易にする。オーディオオブジェクトに付加的な情報、いわゆるシーン記述を組み合わせるために、空間および時間における配置を求め、符号化されたオーディオオブジェクトと共に伝送される。
【0003】
再生に関しては単一のサウンドトラックを供給するために、オーディオオブジェクトがシーン記述を使用して別個にデコーディングされ、構成されて、聴取者に再生される。
【0004】
効率に関しては、MPEG−4システム標準ISO/IEC 14496−1:2001がバイナリ表現されたシーン記述、いわゆるBIFS(Binary Format for Scene)記述を符号化するやり方を定義している。したがってオーディオシーンはいわゆるオーディオBIFSを使用して記述される。
【0005】
シーン記述は階層的に構造化されており、またグラフとして表現することができる。ここでグラフの葉ノードは別個のオブジェクトを形成し、また他のノードは例えば位置決め、スケーリング、効果などの処理を記述する。別個のオブジェクトの外観および動作をシーン記述ノード内のパラメータを使用して制御することができる。
【0006】
本発明
本発明は以下の事実の認識に基づくものである。上述したMPEG−4オーディオ標準のバージョンは、オーディオ信号を3D領域に空間化することを可能にする「Sound」と称されるノードを定義している。「Sound2D」の名称を有する別のノードは2Dスクリーンにおける空間化のみを可能にする。2Dグラフィカルプレイヤにおける「Sound」ノードの使用は、2Dプレイヤと3Dプレイヤにおける特性の具体化が異なるために規定されていない。しかしながらゲーム、映画およびTVのアプリケーションからは、たとえビデオプレゼンテーションが前方における小さい平坦なスクリーンに制限されるとしても、完全に空間化された「3Dサウンド」をエンドユーザに提供することに意味があることが知られている。このことは、定義されている「Sound」ノードおよび「Sound2D」ノードを用いては不可能である。
【0007】
したがって、本発明によって解決されるべき課題は上述の欠点を克服することである。この課題は請求項1記載に記載されているコーディング方法および請求項5に記載されている相応のデコーディング方法によって解決される。
【0008】
原則として本発明によるコーディング方法は、2D座標系での空間化を可能にする情報を包含する音源のパラメータ的な記述の生成を含む。音源のパラメータ的な記述はこの音源のオーディオ信号とリンクされている。2Dビジュアルコンテクストにおいて前述の音源を3D領域に空間化することを可能にする付加的な1D値が前述のパラメータ的な記述に付加される。
【0009】
別個の音源を別個のオーディオオブジェクトとしてコーディングすることができ、またサウンドシーン内での音源の配置を、別個のオーディオオブジェクトに対応する第1のノードとオーディオオブジェクトのプレゼンテーションを記述する第2のノードとを有するシーン記述によって記述することができる。第2のノードのフィールドは音源の3D空間化を定義することができる。
【0010】
有利には、2D座標系はスクリーン平面に対応し、1D値はこのスクリーン平面に垂直な奥行き(深度)情報に対応する。
【0011】
さらには、前述の2D座標系の値を前述の3次元ポジションに変換することによって、スクリーン平面におけるグラフィカルオブジェクトの移動を、このスクリーン平面に垂直な奥行きでのオーディオオブジェクトの移動にマッピングすることができる。
【0012】
本発明によるデコーディング方法は、原則として、音源のパラメータ的な記述とリンクされているこの音源に対応するオーディオ信号の受信を含む。パラメータ的な記述は2D座標系での空間化を可能にする情報を含む。付加的な1D値が前述のパラメータ的な記述から分離される。音源は2Dビジュアルコンテクストにおいて前述の付加的な1D値を使用して3D領域に空間化される。
【0013】
別個の音源を表すオーディオオブジェクトを別個にデコーディングすることができ、また単一のサウンドトラックを、別個のオーディオオブジェクトに対応する第1のノードとオーディオオブジェクトの処理を記述する第2のノードとを有するシーン記述を使用することにより、デコーディングされたオーディオオブジェクトから構成することができる。第2のノードのフィールドは音源の3D空間化を定義することができる。
【0014】
有利には、2D座標系はスクリーン平面に対応し、前述の1D値は前述のスクリーン平面に垂直な奥行き情報に対応する。
【0015】
さらには、前述の2D座標系の値を前述の3次元ポジションに変換することによって、スクリーン平面におけるグラフィカルオブジェクトの移動を、このスクリーン平面に垂直な奥行きでのオーディオオブジェクトの移動にマッピングすることができる。
【0016】
実施例
Sound2Dノードは次のように定義されている:
【0017】
【表1】

【0018】
また3DノードであるSoundノードは次のように定義されている:
【0019】
【表2】

【0020】
以下では全てのサウンドノード(Sound2D、SoundおよびDirectiveSound)に対する総称的な述語を小文字で例えば「sound nodes」と表記する(※便宜上、以下ではこのsound nodesを「サウンドノード」と表記する)。
【0021】
最も単純なケースにおいては、SoundノードまたはSound2DノードはAudioSourceノードを介してデコーダ出力側に接続されている。サウンドノードは強度(intensity)情報およびロケーション(location)情報を包含する。
【0022】
オーディオの観点からすれば、サウンドノードはスピーカへのマッピング前の最終ノードである。サウンドノードが複数存在する場合には出力が合計される。システムの観点からすれば、サウンドノードをオーディオサブグラフに対する入口点とみなすことができる。サウンドノードは非オーディオノードと共に、オリジナルのロケーションにセットされるTransformノードにグループ化される。
【0023】
AudioSourceノードのphaseGroupフィールドを用いることにより、例えば「ステレオペア」、「マルチチャネル」などの場合のような重要な相関係を含んでいるチャネルをマークすることができる。相関係のあるチャネルと相関係のないチャネルとを組み合わせた動作が可能となる。サウンドノードにおけるspatializeフィールドはサウンドが空間化されるべきか否かを規定する。このことは相グループのメンバでないチャネルに対してのみ該当する。
【0024】
Sound2Dは2Dスクリーンにおいてサウンドを空間化することができる。前述の標準ではサウンドは1メートルの距離をおいて2m×1.5mのサイズのスクリーンに空間化されるとしている。しかしながらこの説明は効果がないと思われる。何故ならばlocationフィールドの値は制限されておらず、したがってサウンドをスクリーンサイズの外側に位置決めすることも可能だからである。
【0025】
SoundノードおよびDirectiveSoundノードは3D空間内のどこにでもロケーション(location)をセットすることができる。既存のスピーカ位置へのマッピングは単純な幅のパニングまたはより精巧な技術を使用して行うことができる。
【0026】
SoundおよびSound2Dはマルチチャネル入力を処理することができ、また基本的には同一の機能を有するが、Sound2Dノードはサウンドを前方以外には空間化することができない。
【0027】
SoundおよびSound2Dを全てのシーングラフプロファイルに付加することができる。すなわち、SoundノードをSF2DNodeグループに付加することができる。
【0028】
しかしながら「3D」サウンドノードが2Dシーングラフプロファイルに包含されない理由の1つは、典型的な2DプレイヤがSoundのdirectionフィールドおよびlocationフィールドに対して要求されるような3Dベクトル(SFVec3fタイプ)を処理できないからである。
【0029】
別の理由はSoundノードが、聴音地点が移動し、また遠距離のサウンドオブジェクトに対する減衰属性を有する仮想現実シーンのために特別に設計されているからである。これに関してはListening pointノードおよびSound maxBack、maxFront、minBackおよびminFrontフィールドが定義されている。
【0030】
1つの実施形態によれば、旧式のSound2Dノードが拡張されるか、新たなSound2Ddepthノードが定義されている。Sound2DdepthノードはSound2Dノードに類似するもので良いが、付加的なdepthフィールドを有する。
【0031】
【表3】

【0032】
intensityフィールドは音の大きさを調節する。その値は0.0から1.0の間で変化し、またこの値は音の再生の間に使用されるファクタを規定する。
【0033】
locationフィールドは2Dシーンでの音のロケーションを規定する。
【0034】
depthフィールドはlocationフィールドと同じ座標系を使用して2Dシーンでのサウンドの奥行きを規定する。デフォルト値は0.0であり、スクリーンポジションを参照する。
【0035】
spatializeフィールドはサウンドが空間化されるべきか否かを規定する。このフラグがセットされている場合には、サウンドは最大限の精巧度で空間化されるべきである。
【0036】
マルチチャネルオーディオの空間化に関する同一の規則がSound2DdepthノードにもSound(3D)ノードにも適用される。
【0037】
2DシーンにおけるSound2Dノードの使用は、作成者が記録した通りのサラウンドサウンドのプレゼンテーションを可能にする。サウンドを前方以外には空間化することはできない。空間化とはユーザとの相互作用またはシーンの更新に基づくモノラル信号のロケーションの移動を意味する。
【0038】
Sound2Ddepthノードを用いることにより、聴取者の後方または側方または上方においてサウンドを空間化することができる。想定されるオーディオプレゼンテーションシステムはこれを表現することができる。
【0039】
本発明は、付加的なdepthフィールドがSound2Dノードに導入されている上述の実施形態に制限されるものではない。付加的なdepthフィールドを、階層的にSound2Dノードよりも上に配置されているノードに挿入することもできる。
【0040】
別の実施形態によれば座標のマッピングが実施される。Sound2Ddepthノードにおける付加的なフィールドdimensionMappingは、例えば2行×3列ベクトルが2Dコンテクスト座標系(ccs)を先祖の変換階層からノードの原点にマッピングするために使用されるような変換を定義する。
【0041】
ノードの座標系(ncs)は以下のように計算される。
ncs = ccs × dimensionMapping
【0042】
ノードのロケーションは3次元ポジションであり、ncsに関して2D入力ベクトルのロケーションと奥行きが組み合わされている{location.x location.y depth}。
【0043】
例:ノードの座標系コンテクストを{x, y}とする。dimensionMappingを{1,0,0 0,0,1}とする。この場合ncs = {x, 0, y}が導かれ、このことはy次元でのオブジェクトの移動を奥行きでのオーディオの移動にマッピングすることを可能にする。
【0044】
フィールド「dimensionMapping」はMFFloatとして定義することができる。同一の機能は別のMPEG−4タイプであるフィールドデータタイプ「SFRotation」を使用して達成することもできる。
【0045】
本発明は、たとえ再生装置が2Dグラフィックに制限されているとしても、オーディオ信号を3D領域に空間化することができる。

【特許請求の範囲】
【請求項1】
オーディオ信号のプレゼンテーション記述をコーディングする方法であって、
2D座標系での空間化を可能にする情報を包含する、音源のパラメータ的な記述を生成し、
前記音源のパラメータ的な記述を該音源のオーディオ信号とリンクさせる、オーディオ信号のプレゼンテーション記述をコーディングする方法において、
2Dビジュアルコンテクストにおいて前記音源を3D領域に空間化する付加的な1D値を前記パラメータ的な記述に付加することを特徴とする、オーディオ信号のプレゼンテーション記述をコーディングする方法。
【請求項2】
別個の音源を別個のオーディオオブジェクトとしてコーディングし、サウンドシーンにおける前記音源の配置を、前記別個のオーディオオブジェクトに対応する第1のノードとオーディオオブジェクトのプレゼンテーションを記述する第2のノードとを有するシーン記述によって記述し、第2のノードのフィールドは音源の3D空間化を定義する、請求項1記載の方法。
【請求項3】
前記2D座標系はスクリーン平面に対応し、前記1D値は該スクリーン平面に垂直な奥行き情報に対応する、請求項1または2記載の方法。
【請求項4】
前記2D座標系の値を3次元ポジションに変換することにより、前記スクリーン平面におけるグラフィカルオブジェクトの移動を、該スクリーン平面に垂直な奥行きでのオーディオオブジェクトの移動にマッピングする、請求項3記載の方法。
【請求項5】
オーディオ信号のプレゼンテーション記述をデコーディングする方法であって、
音源のパラメータ的な記述とリンクされている、該音源に対応するオーディオ信号を受信し、該パラメータ的な記述は2D座標系での空間化を可能にする情報を包含する、オーディオ信号のプレゼンテーション記述をデコーディングする方法において、
付加的な1D値を前記パラメータ的な記述から分離し、
2Dビジュアルコンテクストにおいて、前記付加的な1D値を使用して前記音源を3D領域に空間化することを特徴とする、オーディオ信号のプレゼンテーション記述を復号化する方法。
【請求項6】
別個の音源を表すオーディオオブジェクトを別個にデコーディングし、別個のオーディオオブジェクトに対応する第1のノードとオーディオオブジェクトの処理を表す第2のノードとを有するシーン記述を使用して、デコーディングされたオーディオオブジェクトから単一のサウンドトラックを構成し、第2のノードのフィールドは音源の3D空間化を定義する、請求項5記載の方法。
【請求項7】
前記2D座標系はスクリーン平面に対応し、前記1D値は該スクリーン平面に垂直な奥行き情報に対応する、請求項5または6記載の方法。
【請求項8】
前記2D座標系の値を3次元ポジションに変換することにより、前記スクリーン平面におけるグラフィカルオブジェクトの移動を、該スクリーン平面に垂直な奥行きでのオーディオオブジェクトの移動にマッピングする、請求項7記載の方法。
【請求項9】
請求項1から8までのいずれか1項記載の方法を実施する装置。

【公表番号】特表2006−517356(P2006−517356A)
【公表日】平成18年7月20日(2006.7.20)
【国際特許分類】
【出願番号】特願2004−570680(P2004−570680)
【出願日】平成15年11月28日(2003.11.28)
【国際出願番号】PCT/EP2003/013394
【国際公開番号】WO2004/051624
【国際公開日】平成16年6月17日(2004.6.17)
【出願人】(501263810)トムソン ライセンシング (2,848)
【氏名又は名称原語表記】Thomson Licensing 
【住所又は居所原語表記】46 Quai A. Le Gallo, F−92100 Boulogne−Billancourt, France
【Fターム(参考)】