説明

空間オーディオストリームをマージするための装置

マージされたオーディオストリームを得るために第1の空間オーディオストリームに第2の空間オーディオストリームをマージするための装置(100)は、第1の空間オーディオストリームのための第1の波方向量および第1の波場量を含む第1の波表現を推定するための推定器(120)を含み、第1の空間オーディオストリームは、第1のオーディオ表現および第1の到来方向を有する。推定器(120)は、第2の空間オーディオストリームのための第2の波方向量および第2の波場量を含む第2の波表現を推定するために適応され、第2の空間オーディオストリームは、第2のオーディオ表現および第2の到来方向を有する。装置(100)は、マージされた波場量およびマージされた到来方向量を含むマージされた波表現を得るために、第1の波表現および第2の波表現を処理するため、およびマージされたオーディオ表現を得るために、第1のオーディオ表現および第2のオーディオ表現を処理するため、並びにマージされたオーディオ表現およびマージされた到来方向量を含むマージされたオーディオストリームを提供するためのプロセッサ(130)をさらに含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ処理、特に空間オーディオ処理および複数の空間オーディオストリームのマージの分野である。
【背景技術】
【0002】
DirAC(DirAC=Directional Audio Coding:方向オーディオコーディング)(V.プルッキ(V.Pulkki)およびC.ファーラー(C.Faller)著,「空間的な音再生およびステレオアップミキシングにおける方向オーディオコーディング(Directional audio coding in spatial sound reproduction and stereo upmixing),AES第28回国際会議,ピーティオ,スウェーデン,2006年6月」およびV.プルッキ(V.Pulkki)著,「マルチチャンネルリスニングにおける自然のまたは修正された空間印象を再生するための方法(A method for reproducing natural or modified spatial impression in Multichannel Listening)」,国際公開2004/077884 A1号公報),2004年9月を参照)は、空間的な音の分析および再生の効果的なアプローチである。DirACは、空間的な音(すなわち、到来方向(DOA=Direction Of Arrival)および周波数サブバンドにおける音場の拡散)の認識に対して関連する特徴に基づいて、音場のパラメータの表現を使用する。実際は、DirACは、音場のDOAが正確に再生される場合、両耳間時間差(ITD=Interaural Time Differences)および両耳間レベル差(ILD=Interaural Level Differences)が正確に知覚され、一方、拡散が正確に再生される場合、両耳間コヒーレンスが正確に知覚されると仮定する。
【0003】
これらのパラメータ(すなわち、DOAおよび拡散)は、モノラルDirACストリームと呼ばれるモノラル信号を伴うサイド情報を表す。DirACパラメータは、マイクロホン信号の時間−周波数表現から得られる。従って、パラメータは、時間および周波数に依存している。再生側において、この情報は、正確な空間レンダリングを許容する。所望のリスニング位置での空間的な音を再形成するために、複数のスピーカの設備が必要とされる。しかしながら、その配置は、任意である。実際は、DirACパラメータの関数として、スピーカのための信号が決定される。
【0004】
それらは良く似た処理構造をしているが(ラルス ヴィレモエス(Lars Villemoes)、ユールゲン ヘレ(Juergen Herre)、イェルーン ブレーバールト(Jeroen Breebaart)、ゲラルド ホトー(Gerard Hotho)、サッシャ ディスヒ(Sascha Disch)、ハイコ プルンハーゲン(Heiko Purnhagen)およびクリストファ クジュルリング(Kristofer Kjrlingm)著,「MPEGサラウンド:空間オーディオコーディングのための次回のISO標準(MPEG surround:The forthcoming ISO standard for spatial audio coding)」,AES第28回国際会議,ピーティオ,スウェーデン,2006年6月を参照)、DirACとMPEGサラウンドのようなパラメータのマルチチャネルオーディオコーディングとの間には、根本的な相違点がある。MPEGサラウンドが異なるスピーカチャンネルの時間−周波数分析に基づく一方、DirACは、あるポイントにおける音場を効果的に記載する同軸マイクのチャネルの入力として行う。このように、DirACは、空間オーディオに対する効率的な記録方法も表す。
【0005】
空間オーディオを取り扱う他の従来のシステムは、現在のISO/MPEGにおける標準化に基づくSAOC(SAOC=Spatial Audio Object Coding:空間オーディオオブジェクトコーディング)(ヨナス エングデガルド(Jonas Engdegard)、バーバラ レッシュ(Barbara Resch)、コーネリア ファルチ(Cornelia Falch)、オリバー ヘルムート(Oliver Hellmuth)、ジョーハン ヒルペアト(Johannes Hilpert)、アンドレーアス ヘルツァー(Andreas Hoelzer)、レオニード テレンチエフ(Leonid Terenetiev)、イェルーン ブレーバールト(Jeroen Breebaart)、イェルーン コッペン(Jeroen Koppens)、エリック シュイヤー(Erik Schijer)およびウェルナー オーメン(Werner Oomen)著,「空間オーディオオブジェクトコーディング(SAOC)オーディオコーディングに基づくパラメータオブジェクトにおける次回のMPEG標準」,第124回AES大会,2008年5月17−20日,アムステルダム,オランダ 2008を参照)である。
【0006】
それは、MPEGサラウンドのレンダリングエンジンを基にして、オブジェクトとして異なる音源を取り扱う。このオーディオコーディングは、ビットレートに関して非常に高い効率を提供し、再生側での相互作用の前例のない自由を与える。このアプローチは、他の新規なアプリケーションと同様に、レガシーシステムにおいて、新しい説得力のある特徴および機能性を約束する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】国際公開2004/077884 A1号公報
【非特許文献】
【0008】
【非特許文献1】V.プルッキ(V.Pulkki)及びC.ファーラー(C.Faller)著,「空間的な音声再生における方向オーディオコーディングおよびステレオアップミキシング(Directional audio coding in spatial sound reproduction and stereo upmixing),AES第28回国際会議,ピーティオ,スウェーデン,2006年6月
【非特許文献2】V.プルッキ(V.Pulkki)著,「マルチチャンネルリスニングにおける自然のまたは修正された空間印象を再生するための方法(A method for reproducing natural or modified spatial impression in Multichannel Listening)」,国際公開2004/077884 A1号公報),2004年9月
【非特許文献3】ラルス ヴィレモエス(Lars Villemoes)、ユールゲン ヘレ(Juergen Herre)、イェルーン ブレーバールト(Jeroen Breebaart)、ゲラルド ホトー(Gerard Hotho)、サッシャ ディスヒ(Sascha Disch)、ハイコ プルンハーゲン(Heiko Purnhagen)及びクリストファ クジュルリング(Kristofer Kjrlingm)著,「MPEGサラウンド:空間オーディオコーディングのための次回のISO標準(MPEG surround:The forthcoming ISO standard for spatial audio coding)」,AES第28回国際会議,ピーティオ,スウェーデン,2006年6月
【非特許文献4】ヨナス エングデガルド(Jonas Engdegard)、バーバラ レッシュ(Barbara Resch)、コーネリア ファルチ(Cornelia Falch)、オリバー ヘルムート(Oliver Hellmuth)、ジョーハン ヒルペアト(Johannes Hilpert)、アンドレーアス ヘルツァー(Andreas Hoelzer)、レオニード テレンチエフ(Leonid Terenetiev)、イェルーン ブレーバールト(Jeroen Breebaart)、イェルーン コッペン(Jeroen Koppens)、エリック シュイヤー(Erik Schijer)及びウェルナー オーメン(Werner Oomen)著,「空間オーディオオブジェクトコーディング(SAOC)オーディオコーディングに基づくパラメータオブジェクトにおける次回のMPEGサラウンド」,第124回AES大会 2008年5月17−20日
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明の目的は、空間オーディオ信号をマージするための適格な概念を提供することである。
【課題を解決するための手段】
【0010】
この目的は、請求項1または請求項14に記載のマージするための装置および請求項13または請求項15に記載のマージするための方法により達成される。
【0011】
マージすることは、マルチチャネルDirACストリームの場合、すなわち、4つのB−フォーマットのオーディオチャネルが利用された場合において些細なことである点に留意されたい。実際は、異なるソースからの信号が、マージされたストリームのB−フォーマット信号を得るために直接的に合計されうる。しかしながら、これらのチャネルが直接的に利用できない場合、マージすることは問題を含む。
【0012】
本発明は、空間オーディオ信号が、波表現(例えば、平面波表現)および拡散場表現の合計によって表現されうるという発見に基づく。前者に対しては、それは、方向を割り当てられうる。いくつかのオーディオストリームをマージしている場合、実施形態は、例えば、拡散および方向に関して、マージされたストリームのサイド情報を得ることを可能にする。実施形態は、入力されたオーディオストリームと同様に、波表現からこの情報を得ることができる。波のパートまたは表現および拡散のパートおよび表現によってモデル化されうる全てのいくつかのオーディオストリームをマージしている場合、波のパートまたは成分および拡散のパートまたは成分が別々にマージされうる。波のパートをマージすることは、マージされた波のパートを得る。そのために、マージされた方向は、波のパートの表現の方向に基づいて得られうる。さらに、拡散のパートも、別々にマージされることもでき、すべての拡散パラメータはマージされた拡散のパートから導出されうる。
【0013】
実施形態は、モノラルDirACストリームとして符号化される2以上の空間オーディオ信号をマージするための方法を提供することができる。結果として得るマージされた信号は、同様に、モノラルDirACストリームとして表現されうる。実施形態において、単一のオーディオチャネルのみが、サイド情報と共に送信されることを必要とする場合、モノラルDirACの符号化は、空間オーディオを記述する簡潔な方法である。
【0014】
実施形態において、可能なシナリオは、2人以上の関係者を伴う通信会議アプリケーションである。例えば、ユーザAは、2つの別々のモノラルDirACストリームを生成するユーザBおよびCとコンタクトを取る。Aの位置において、実施形態は、従来のDirAC合成技術によって再生されうる単一のモノラルDirACストリームにマージされうるユーザB及びCのストリームを許容する。多点制御装置(MCU=Multipoint Control Unit:多点制御装置)の存在がわかるネットワーク接続状態を利用している実施形態において、マージする操作は、MCUそれ自身によって実行される。その結果、ユーザAは、B及びCの両方からの音声を既に含んでいる単一のモノラルDirACストリームを受信する。明らかに、マージされたDirACストリームは、合成的に生成もされ、適切なサイド情報がモノラルオーディオ信号に追加されうることを意味する。今挙げられる実施例において、ユーザAは、いかなるサイド情報なしにBおよびCから2つのオーディオストリームを受信されるかもしれない。そして、特定の方向および拡散を各ストリームに割り当てることは可能であり、従って、サイド情報を追加することは、実施形態によってマージされうるDirACストリームを構成するために必要である。
【0015】
実施形態における他の可能なシナリオは、マルチプレーヤのオンラインゲームおよび仮想現実のアプリケーションにおいて発見することができる。これらの場合において、いくつかのストリームは、プレーヤまたは仮想オブジェクトのいずれか一方から生成される。各ストリームは、リスナーに関連して、特定の到来方向によって特徴づけられ、したがって、DirACストリームによって表現されうる。実施形態は、異なるストリームを、リスナーの位置において再生される単一のDirACにマージするために使用されうる。
【0016】
本発明の実施形態は、添付の図を使用して以下に詳述される。
【図面の簡単な説明】
【0017】
【図1a】図1aは、マージする装置の実施形態を示す。
【図1b】図1bは、平面波のためのガウス平面における圧力および粒子速度ベクトルの成分を示す。
【図2】図2は、DirACエンコーダの実施形態を示す。
【図3】図3は、オーディオストリームの理想的なマージを例示する。
【図4】図4は、一般的なDirACマージングの処理ブロックの実施形態の入力および出力を示す。
【図5】図5は、実施形態のブロック図を示す。
【図6】図6は、マージするための方法の実施形態のフローチャートを示す。
【発明を実施するための形態】
【0018】
図1aは、マージされたオーディオストリームを得るために、第1の空間オーディオストリームを第2の空間オーディオストリームにマージするための装置100の実施形態を例示する。図1aにおいて例示される実施形態は、2つのオーディオストリームのマージを例示しているが、2つのオーディオストリームに限られず、同様の方法で、複数の空間オーディオストリームがマージされうる。例えば、第1の空間オーディオストリームおよび第2の空間オーディオストリームは、モノラルDirACストリームに対応し、そして、マージされたオーディオストリームは、単一のモノラルDirACのオーディオストリームに対応する。その後、詳述されるように、モノラルDirACストリームは、例えば、全方向性マイクロホンおよびサイド情報によって得られる圧力信号を含みうる。後者は、音の拡散および到来方向の時間−周波数依存量を含みうる。
【0019】
図1aは、マージされたオーディオストリームを得るために、第1の空間オーディオストリームを第2の空間オーディオストリームにマージするための装置100の実施形態を示し、第1の空間オーディオストリームに対する第1の波方向量および第1の波場量を含む第1の波表現を推定するため、および第2の空間オーディオストリームに対する第2の波方向量および第2の波場量を含む第2の波表現を推定するための推定器120を含み、ここで、第1の空間オーディオストリームは、第1のオーディオ表現および第1の到来方向を有し、第2の空間オーディオストリームは、第2のオーディオ表現および第2の到来方向を有する。実施形態において、第1および/または第2の波表現は、平面波表現に対応しうる。
【0020】
図1aにおいて示される実施形態において、装置100は、マージされた場量(field measure)およびマージされた到来方向量を含むマージされた波表現を得るために、第1の波表現および第2の波表現を処理するため、およびマージされたオーディオ表現を得るために、第1のオーディオ表現および第2のオーディオ表現を処理するためのプロセッサ130をさらに含み、プロセッサ130は、マージされたオーディオ表現およびマージされた到来方向量を含むマージされたオーディオストリームを提供するために、さらに適応される。
【0021】
推定器120は、第1の波場振幅に関して第1の波場量を推定するため、第2の波場振幅に関して第2の波場量を推定するため、および第1の波場量と第2の波場量との位相差を推定するために適応されうる。実施形態において、推定器は、第1の波場位相および第2の波場位相を推定するために適応されうる。実施形態において、推定器120は、第1と第2との波表現、第1と第2との波場量それぞれの位相シフトまたは位相差のみを推定することができる。そして、プロセッサ130は、マージされた波場振幅、マージされた波場位相およびマージされた到来方向量を含みうるマージされた波場量を含むマージされた波表現を得るために、第1の波表現および第2の波表現を処理するため、およびマージされたオーディオ表現を得るために、第1のオーディオ表現および第2のオーディオ表現を処理するために適宜に適応されうる。
【0022】
実施形態において、プロセッサ130は、マージされた波場量、マージされた到来方向量およびマージされた拡散パラメータを含むマージされた波表現を得るために、第1の波表現および第2の波表現を処理するため、およびマージされたオーディオ表現、マージされた到来方向量およびマージされた拡散パラメータを含むマージされたオーディオストリームを提供するために、さらに適応されうる。
【0023】
換言すれば、実施形態において、拡散パラメータは、マージされたオーディオストリームのための波表現に基づいて決定されうる。拡散パラメータは、例えば、特定の方向のまわりの角度分布として、オーディオストリームの空間的な拡散の量、すなわち、空間的な分布の量を定める。実施形態において、可能なシナリオは、2つのモノラルの合成信号をまさに、方向情報にマージすることである。
【0024】
プロセッサ130は、マージされた波表現を得るために、第1の波表現および第2の波表現を処理するために適応されうる。ここで、マージされた拡散パラメータは、第1の波方向量および第2の波方向量に基づく。実施形態において、第1および第2の波表現は、到来方向の差を有し、そして、マージされた到来方向は、それらの間に位置されうる。この実施形態において、第1および第2の空間オーディオストリームは、少しも拡散パラメータを提供しえないが、マージされた拡散パラメータは、第1および第2の波表現から、すなわち、第1の波方向量に基づき、および第2の波方向に基づき決定されうる。例えば、2つの平面波が異なる方向から作用する場合、すなわち、第1の波方向量が、第2の波方向量と異なる場合、マージされたオーディオ表現は、第1の波方向量および第2の波方向量を明らかにするために、マージされた到来方向と決して消えないマージされた拡散パラメータとの結合を含みうる。換言すれば、第1および第2のオーディオストリームによって明らかにされる角度分布に基づくとき、2つの集束された空間オーディオストリームは、少しの拡散を有さずまたは提供しない一方、マージされたオーディオストリームは、決して消えない拡散を有する。
【0025】

【0026】
他の実施形態において、マージされたオーディオストリームを得るために、第1の空間オーディオストリームと第2の空間オーディオストリームとをマージするための装置100は、第1の空間オーディオストリームのための第1の波方向量および第1の波場量を含む第1の波表現を推定するための推定器120を含みうる。ここで、第1の空間オーディオストリームは、第1のオーディオ表現、第1の到来方向および第1の拡散パラメータを有する。換言すれば、第1のオーディオ表現は、特定の空間の幅を伴うオーディオ信号、または特定の広がりへ拡散することに対応しうる。1つの実施形態において、これは、コンピュータゲームにおけるシナリオに対応しうる。第1のプレイヤが、シナリオに存在し、ここで、第1のオーディオ表現は、例えば、特定の広がりへ拡散音場を生成することによる列車の通過のような音源を表す。そのような実施形態において、列車自身によって引き起こされる音は、拡散し、そして、列車のホーンによって生成された音、すなわち、対応する周波数成分は、拡散ではなくてもよい。
【0027】
推定器120は、さらに、第2の空間オーディオストリームのための第2の波方向量および第2の波場量を含む第2の波表現を推定するために適用されうる。ここで、第2の空間オーディオストリームは、第2のオーディオ表現、第2の到来方向および第2の拡散パラメータを有する。換言すれば、第2のオーディオ表現は、特定の空間の幅を伴うオーディオ信号、または特定の広がりへ拡散することに対応しうる。また、これは、コンピュータゲームにおけるシナリオに対応しうる。ここで、第2の音源は、例えば、他の鉄道路線による他の列車の通過の背景ノイズのような第2のオーディオストリームによって表される。コンピュータゲームにおける第1のプレイヤのために、両方の音源は、彼が列車の駅に位置する場合、拡散しうる。
【0028】
実施形態において、プロセッサ130は、マージされた波場量およびマージされた到来方向量を含むマージされた波表現を得るために、第1の波表現および第2の波表現を処理するため、およびマージされたオーディオ表現を得るために、第1のオーディオ表現および第2のオーディオ表現を処理するため、並びにマージされたオーディオ表現およびマージされた到来方向量を含むマージされたオーディオストリームを提供するために適応されうる。換言すれば、プロセッサ130は、マージされた拡散パラメータを決定しなくてもよい。これは、上述したコンピュータゲームにおける第2のプレイヤによって経験される音場に対応しうる。第2のプレイヤは、列車の駅から離れてより遠くに位置されうるので、2つの音源は、第2のプレイヤによって拡散されるように経験されないが、より大きい距離のため、むしろ、集束された音源を表すことができる。
【0029】
実施形態において、装置100は、さらに、第1の空間オーディオストリームのための第1のオーディオ表現および第1の到来方向を決定するため、および第2の空間オーディオストリームのための第2のオーディオ表現および第2の到来方向を決定するための手段110を含む。実施形態において、決定するための手段110は、直接的なオーディオストリームが提供されうる。すなわち、決定することは、例えば、圧力信号およびDOAに関してオーディオ表現を、そして、サイド情報に関して任意に拡散パラメータを読み込むことに言及する。
【0030】
推定器120は、第1の拡散パラメータをさらに有する第1のオーディオストリームから第1の波表現を推定するため、および/または第2の拡散パラメータをさらに有する第2の空間オーディオストリームから第2の波表現を推定するために適応され、プロセッサ130は、マージされたオーディオストリームのためのマージされた拡散パラメータを得るために、マージされた波場量、第1および第2のオーディオ表現、および第1および第2の拡散パラメータを処理するために適応され、そして、プロセッサ130は、マージされた拡散パラメータを含むオーディオストリームを提供するために、さらに適応されうる。決定するための手段110は、第1の空間オーディオストリームのための第1の拡散パラメータおよび第2の空間オーディオストリームのための第2の拡散パラメータを決定するために適応されうる。
【0031】
プロセッサ130は、すなわち、サンプルまたは値のセグメントに関して、空間オーディオストリーム、オーディオ表現、DOAおよび/または拡散パラメータのブロック単位を処理するために適応される。いくつかの実施形態において、セグメントは、空間オーディオストリームの特定の時間における特定の周波数帯の周波数表現に対応する所定の多数のサンプル数を含む。そのようなセグメントは、モノラル表現に対応し、DOAおよび拡散パラメータを関連付ける。
【0032】
実施形態において、決定するための手段110は、時間−周波数に依存する方法において、第1および第2のオーディオ表現、第1および第2の到来方向、および第1および第2の拡散パラメータを決定するために適応され、および/またはプロセッサ130は、第1および第2の波表現、拡散パラメータ、および/またはDOAを処理するため、および/または時間−周波数に依存する方法において、マージされたオーディオ表現、マージされた到来方向量、および/またはマージされた拡散パラメータを決定するために適応されうる。
【0033】
実施形態において、第1のオーディオ表現は第1のモノラル表現に対応し、第2のオーディオ表現は第2のモノラル表現に対応し、マージされたオーディオ表現はマージされたモノラル表現に対応しうる。換言すれば、オーディオ表現は単一のオーディオチャネルに対応しうる。
【0034】
実施形態において、決定するための手段110は、第1および第2のモノラル表現、第1および第2のDOA、および第1および第2の拡散パラメータを決定するために適応され、および/またはプロセッサは、第1および第2のモノラル表現、第1および第2のDOA、および第1および第2の拡散パラメータを処理するために適応され、そして、プロセッサ130は、時間−周波数に依存する方法において、マージされたモノラル表現、マージされたDOA量および/またはマージされた拡散パラメータを提供しうる。実施形態において、第1の空間オーディオストリームは、例えば、DirAC表現に関して、既に提供され、決定するための手段110は、第1および第2のオーディオストリームから、例えば、DirACのサイド情報から抽出されることによって、第1および第2のモノラル表現、第1および第2のDOA、および第1および第2の拡散パラメータをシンプルに決定するために適応されうる。
【0035】

【0036】
実施形態において、マージされた到来方向量と同様に第1および第2の波方向量は、例えば、ベクトル、角度、方向等のような、いかなる方向量にも対応し、例えば、強度ベクトル、粒子速度ベクトル等のような、オーディオ成分を表しているいかなる方向量からも導出しうる。マージされた波場量と同様に第1および第2の波場量は、実数値および複素数値であり、圧力信号、粒子速度振幅またはマグニチュード、音の大きさ等に対応するオーディオ成分を記述しているいかなる物理量にも対応しうる。さらに、量(measure)は、時間および/または周波数領域において、考慮されうる。
【0037】
実施形態は、入力されたストリームの波表現の波場量のための平面波表現の推定に基づいており、それは、図1aにおける推定器120によって実行されうる。換言すれば、波場量は、平面波表現を使用してモデル化されうる。一般に、平面波、または一般的な波のいくつかに対応する包括的な(すなわち、完全な)記述が存在する。以下において、数学的な記述が、異なる成分のための拡散パラメータおよび到来方向または方向量を算出するために導かれる。少量の記述は、例えば、圧力、粒子速度等のような物理量に直接的に関係するのみであるが、場合によっては、波表現を記述するために無限の数の異なる方法が存在するかもしれない。しかしながら、本発明における実施形態にいかなる方法においても制限することを意味しない。
【0038】

【0039】

【0040】

【0041】

【0042】
複数の音源が存在する場合でも、圧力および粒子速度は、個々の成分の合計として表現される。一般性の喪失なしに、2つの音源のケースが解明されうる。実際には、ソースのより多い数への拡張は、容易である。
【0043】

【0044】

【0045】

【0046】

【0047】

【0048】
波が同相であり、同一の方向へ進行する場合、それらは1つの波として明確に解釈されうる。
【0049】

【0050】

【0051】

【0052】

【0053】

【0054】

【0055】

【0056】
通常、平面波のエネルギー的な記述は、正確にマージすることを実行するのに十分でなくてもよい。マージすることは、直交する波を仮定することによって概算されうる。波(すなわち、波のすべての物理量は既知である)の包括的な記述は、マージするために十分である、一方、すべての実施形態において、必要というわけではない。正確なマージを実行する実施形態において、マージするために、各波の振幅、各波の伝播の方向および波の各組の相対的な位相差が考慮されうる。
【0057】

【0058】

【0059】

【0060】

【0061】

【0062】

【0063】

【0064】

【0065】

【0066】

【0067】

【0068】
実施形態において、モノラルDirACオーディオストリーム以外のオーディオストリームがマージされうる。換言すれば、実施形態において、決定するための手段110は、いくつかの他のオーディオストリームを、例えばステレオまたはサラウンドオーディオデータのような第1および第2のオーディオストリームに変換するために適応されうる。実施形態は、モノラル以外のDirACストリームをマージする場合に備えて、それらは、異なるケースと区別することができる。DirACストリームがオーディオ信号としてB−フォーマット信号を伝える場合、その後、粒子速度ベクトルは既知となり、そして、その後詳述されるように、マージすることは些細なこととなる。DirACストリームが、B−フォーマット信号、またはモノラル全方向信号以外のオーディオ信号を伝える場合、決定するための手段110は、最初に、2つのモノラルDirACストリームに変換するために適応され、そして、実施形態は、それに応じて、変換されたストリームをマージすることができる。従って、実施形態において、第1および第2の空間オーディオストリームは、変換されたモノラルDirACストリームを表すことができる。
【0069】
実施形態は、全方向性受信パターンを概算するために利用可能なオーディオチャネルを結合することができる。例えば、ステレオDirACストリームの場合において、これは、左チャネルLおよび右チャネルRを合計することによって達成されうる。
【0070】
以下において、複数の音源によって生成される場における物理的過程が解明される。複数の音源が存在する場合、個々の成分の合計として、圧力および粒子速度を表現することが可能である。
【0071】

【0072】

【0073】

【0074】

【0075】

【0076】

【0077】

【0078】
図5は、推定器120およびプロセッサ130を破線において示す。図5において示される実施形態において、第1の空間オーディオストリームおよび第2の空間オーディオストリームは、潜在的な他のオーディオストリームと同様に、モノラルDirAC表現において提供され、すなわち、モノラル表現、DOAおよび拡散パラメータが、ストリームからまさに分離されると仮定されたとき、決定するための手段110は存在しない。図5において示されるように、プロセッサ130は、推定に基づくマージされたDOAを決定するために適応されうる。
【0079】

【0080】

【0081】

【0082】

【0083】

【0084】

【0085】

【0086】

【0087】

【0088】

【0089】

【0090】

【0091】

【0092】
図6は、2つ以上のDirACストリームをマージするための方法の実施形態を例示する。実施形態は、マージされたオーディオストリームを得るために、第1の空間オーディオストリームを第2の空間オーディオストリームにマージするための方法を提供することができる。実施形態において、方法は、第1の空間オーディオストリームのための第1のオーディオ表現および第1のDOAを決定するため、同様に第2の空間オーディオストリームのための第2のオーディオ表現および第2のDOAを決定するためのステップを含むことができる。実施形態において、空間オーディオストリームのDirAC表現は、利用可能であり、そして、決定するステップは、シンプルに、オーディオストリームから一致した表現を読み込む。図6において、2以上のDirACストリームが、シンプルにステップ610に従ってオーディオストリームから得られうることが前提とされる。
【0093】
実施形態において、方法は、第1のオーディオ表現、第1のDOAおよび任意に第1の拡散パラメータに基づく第1の空間オーディオストリームのための第1の波方向量および第1の波場量を含んでいる第1の波表現を推定するステップを含むことができる。それに応じて、方法は、第2のオーディオ表現、第2のDOAおよび任意に第2の拡散パラメータに基づく第2の空間オーディオストリームのための第2の波方向量および第2の波場量を含んでいる第2の波表現を推定するステップを含むことができる。
【0094】

【0095】
第1および第2の平面波表現を結合するステップは、ステップ650において実行される。ここで、すべてのストリームの圧力および粒子速度ベクトルが合計されうる。
【0096】
図6のステップ660において、活動強度ベクトルを算出すること、およびDOAを推定することがマージされた平面波表現に基づいて実行される。
【0097】
実施形態は、マージされた拡散パラメータを得るために、マージされた場量、第1および第2のモノラル表現、および第1および第2の拡散パラメータを結合または処理するステップを含むことができる。図6において表される実施形態において、拡散を算出することは、例えば、式(29)に基づいて、ステップ670において実行される。
【0098】
実施形態は、空間オーディオストリームをマージすることが高品質および適度な複雑さによって実行されうるという利点を提供することができる。
【0099】
本発明に係る方法の特定の実施要求に依存して、本発明に係る方法は、ハードウェアまたはソフトウェアにおいて実現される。実現は、電磁気的に読み込み可能な制御信号を有するデジタル記憶媒体、特に、フラッシュメモリ、ディスク、DVD、CDで成される。デジタル記憶媒体は、発明の方法が実行されるように、プログラム可能コンピュータシステムと協働する。したがって、一般に、本発明は、コンピュータプログラム製品がコンピュータまたはプロセッサ上で稼動するとき、発明の方法を実行するために操作するプログラムコードを、機械読取可能な担持体に保存されたプログラムコードを伴うコンピュータプログラムコードである。換言すれば、本発明の方法は、コンピュータプログラムがコンピュータ上で稼動するとき、発明の方法を少なくとも1つ実行するためのプログラムコードを有しているコンピュータプログラムである。

【特許請求の範囲】
【請求項1】
マージされたオーディオストリームを得るために、第1の空間オーディオストリームに第2のオーディオストリームをマージするための装置(100)であって、前記装置(100)は、
前記第1の空間オーディオストリームのための第1の波方向量および第1の波場量を含む第1の波表現を推定するため、および前記第2の空間オーディオストリームのための第2の波方向量および第2の波場量を含む第2の波表現を推定するための推定器(120)であって、前記第1の空間オーディオストリームは、第1のオーディオ表現および第1の到来方向を有し、前記第2の空間オーディオストリームは、第2のオーディオ表現および第2の到来方向を有する、前記推定器(120)と、
マージされた波場量、マージされた到来方向量およびマージされた拡散パラメータを含むマージされた波表現を得るために、前記第1の波表現および前記第2の波表現を処理するため、および、マージされたオーディオ表現を得るために、前記第1のオーディオ表現および前記第2のオーディオ表現を処理するため、並びに前記マージされたオーディオ表現、前記マージされた到来方向量および前記マージされた拡散パラメータを含む前記マージされたオーディオストリームを提供するためのプロセッサ(130)であって、前記マージされた拡散パラメータは、前記第1の波方向量および前記第2の波方向量に基づく、前記プロセッサ(130)と、
を含む、装置(100)。
【請求項2】
前記推定器(120)は、第1の波場振幅に関して、前記第1の波場量を推定するため、および第2の波場振幅に関して、前記第2の波場量を推定するため、並びに、前記第1の波場量と前記第2の波場量との間の位相差を推定するため、および/または第1および第2の波場位相を推定するために適応される、請求項1に記載の装置(100)。
【請求項3】
前記推定器(120)は、第1の拡散パラメータをさらに有する前記第1の空間オーディオストリームから前記第1の波表現を推定するため、および/または第2の拡散パラメータをさらに有する前記第2の空間オーディオストリームから前記第2の波表現を推定するために適応され、前記プロセッサ(130)は、前記マージされたオーディオストリームのためのマージされた拡散パラメータを得るために、前記マージされた波場量、前記第1および前記第2のオーディオ表現、および前記第1および前記第2の拡散パラメータを処理するために適応され、ここで、前記プロセッサ(130)は、前記マージされた拡散パラメータを含む前記オーディオストリームを提供するためにさらに適応される、請求項1または請求項2に記載の装置(100)。
【請求項4】
前記第1の空間オーディオストリームのための前記第1のオーディオ表現、前記第1の到来方向量および前記第1の拡散パラメータを決定するため、および前記第2の空間オーディオストリームのための前記第2のオーディオ表現、前記第2の到来方向量、および前記第2の拡散パラメータを決定するための手段(110)を含む、請求項1ないし請求項3のいずれかに記載の装置。
【請求項5】
前記プロセッサ(130)は、時間−周波数に依存する方法において、前記マージされたオーディオ表現、前記マージされた到来方向量、および前記マージされた拡散パラメータを決定するために適応される、請求項1ないし請求項4のいずれかに記載の装置。
【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】
マージされたオーディオストリームを得るために、第1の空間オーディオストリームに第2の空間オーディオストリームをマージするための方法であって、前記方法は、
前記第1の空間オーディオストリームのための第1の波方向量および第1の波場量を含む第1の波表現を推定するステップであって、前記第1の空間オーディオストリームは、第1のオーディオ表現および第1の到来方向を有する、前記第1の波表現を推定するステップと、
前記第2の空間オーディオストリームのための第2の波方向量および第2の波場量を含む第2の波表現を推定するステップであって、前記第2の空間オーディオストリームは、第2のオーディオ表現および第2の到来方向を有する、前記第2の波表現を推定するステップと、
マージされた波場量、マージされた到来方向量およびマージされた拡散パラメータを有するマージされた波表現を得るために、前記第1の波表現および前記第2の波表現を処理するステップであって、前記マージされた拡散パラメータは、前記第1の波方向量および前記第2の波方向量に基づく、前記第1の波表現および前記第2の波表現を処理するステップと、
マージされたオーディオ表現を得るために、前記第1のオーディオ表現および前記第2のオーディオ表現を処理するステップと、
前記マージされたオーディオ表現、マージされた到来方向量および前記マージされた拡散パラメータを含む前記マージされたオーディオストリームを提供するステップと、
を含む、方法。
【請求項14】
マージされたオーディオストリームを得るために、第1の空間オーディオストリームに第2の空間オーディオストリームをマージするための装置(100)であって、前記装置(100)は、
前記第1の空間オーディオストリームのための第1の波方向量および第1の波場量を含む第1の波表現を推定するため、および前記第2の空間オーディオストリームのための第2の波方向量および第2の波場量を含む第2の波表現を推定するための推定器(120)であって、前記第1の空間オーディオストリームは、第1のオーディオ表現、第1の到来方向および第1の拡散パラメータを有し、前記第2の空間オーディオストリームは、第2のオーディオ表現および第2の到来方向を有する、前記推定器(120)と、
マージされた波場量およびマージされた到来方向量を含むマージされた波表現を得るために、前記第1の波表現および前記第2の波表現を処理するため、および、マージされたオーディオ表現を得るために、前記第1のオーディオ表現および前記第2のオーディオ表現を処理するため、並びに前記マージされたオーディオ表現および前記マージされた到来方向量を含む前記マージされたオーディオストリームを提供するためのプロセッサ(130)と、
を含む装置(100)。
【請求項15】
マージされたオーディオストリームを得るために、第1の空間オーディオストリームに第2のオーディオストリームをマージするための方法であって、前記方法は、
前記第1の空間オーディオストリームのための第1の波方向量および第1の波場量を含む第1の波表現を推定するためのステップであって、前記第1の空間オーディオストリームは、第1のオーディオ表現、第1の到来方向および第1の拡散パラメータを有する、前記第1の波表現を推定するためのステップと、
前記第2の空間オーディオストリームのための第2の波方向量および第2の波場量を含む第2の波表現を推定するためのステップであって、前記第2の空間オーディオストリームは、第2のオーディオ表現および第2の到来方向を有する、前記第2の波表現を推定するためのステップと、
マージされた波場量およびマージされた到来方向量を含むマージされた波表現を得るために、前記第1の波表現および前記第2の波表現を処理するステップと、
マージされたオーディオ表現を得るために、前記第1のオーディオ表現および前記第2のオーディオ表現を処理するステップと、
前記マージされたオーディオ表現および前記マージされた到来方向量を含む前記マージされたオーディオストリームを提供するステップと、
を含む、方法。
【請求項16】
コンピュータに、請求項13または請求項15に記載の方法を実行させるためのコンピュータプログラム。

【図1a】
image rotate

【図1b】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公表番号】特表2011−530720(P2011−530720A)
【公表日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願番号】特願2011−522430(P2011−522430)
【出願日】平成21年8月11日(2009.8.11)
【国際出願番号】PCT/EP2009/005827
【国際公開番号】WO2010/017966
【国際公開日】平成22年2月18日(2010.2.18)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【Fターム(参考)】