ダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置および方法
ダウンミックス信号と空間パラメータ情報からダイレクトおよび/またはアンビエンス信号を抽出する装置であって、ダウンミックス信号と空間パラメータ情報はダウンミックス信号よりも多くのチャンネルを有する多重チャンネルオーディオ信号を表し、空間パラメータ情報は多重チャンネルオーディオ信号のチャンネル間関係を含む装置が記載される。装置は、ダイレクト/アンビエンス推定器とダイレクト/アンビエンス抽出器を備える。ダイレクト/アンビエンス推定器は、空間パラメータ情報に基づいて多重チャンネルオーディオ信号のダイレクト部分および/またはアンビエント部分のレベル情報を推定するように構成される。ダイレクト/アンビエンス抽出器は、ダイレクト部分またはアンビエント部分の推定されたレベル情報に基づいてダウンミックス信号からダイレクト信号部分および/またはアンビエント信号部分を抽出するように構成される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理に関し、特に、ダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置および方法に関する。本発明の更なる実施形態は、オーディオ信号のバイノーラル再生を強化するためのダイレクト/アンビエンス分離の利用に関する。また更なる実施形態は、二つ以上のチャンネルを有する多重チャンネルサウンドのバイノーラル再生に関する。多重チャンネルサウンドを有する代表的なオーディオコンテンツは、映画のサウンドトラックと多重チャンネルの音楽レコーディングである。
【背景技術】
【0002】
人間の空間聴覚システムは、おおよそ2つの部分においてサウンドを処理する傾向がある。一方において、ローカライズ可能な部分、言い換えればダイレクト部分であり、他方において、ローカライズ不能な部分、言い換えればアンビエント部分である。これらの2つのオーディオ成分にアクセスすることが望ましいバイノーラルサウンド再生や多重チャンネルアップミックスのような多くのオーディオ処理アプリケーションが存在する。
【0003】
従来技術において、非特許文献1、非特許文献2、非特許文献3、特許文献1、特許文献2、および特許文献3において解説されたようなダイレクト/アンビエンス分解の方法が知られており、さまざまなアプリケーションに用いることができる。最新技術のダイレクト‐アンビエンス分離アルゴリズムは、周波数バンドにおけるステレオサウンドのチャンネル間信号比較に基づいている。
【0004】
さらに、非特許文献4において、アンビエンス抽出を備えたバイノーラル再生が言及されている。バイノーラル再生に関連するアンビエンス抽出は、非特許文献5においても言及されている。後者の論文は、各々のチャンネルにおけるダイレクト成分の適応な最小平均二乗クロスチャンネルフィルタリングを用いて、ステレオマイクロホン録音におけるアンビエンス抽出にフォーカスしている。空間オーディオコーデック、例えばMPEGサラウンドは、非特許文献6および非特許文献7に記載されているように、通常は、オーディオを多重チャンネルに拡張する空間サイド情報と組合せた1つまたは2つのチャンネルオーディオストリームから成る。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】「空間オーディオ符号化および強化のための主要アンビエンス信号分解とベクトルベースのローカライズ」、Goodwin、Jot、音響・音声および信号処理に関するIEEE国際会議、2007年4月
【非特許文献2】「ステレオ録音からの相関ベースのアンビエンス抽出」、Merimaa、Goodwin、Jot、AES第123回大会、ニューヨーク、2007年
【非特許文献3】「ステレオ信号の多重スピーカ再生」、C. Faller、AESジャーナル、2007年10月
【非特許文献4】「空間オーディオシーン符号化に基づくバイノーラル3次元オーディオレンダリング」、Goodwin、Jot、AES第123回大会、ニューヨーク2007年
【非特許文献5】J. UsherおよびJ. Benesty、「空間音響品質の強化:新規な反響抽出オーディオアップミックス装置」、IEEEオーディオ・音声・言語処理議事録、第15巻、2141‐2150頁、2007年9月
【非特許文献6】ISO/IEC23003‐1 MPEGサラウンド
【非特許文献7】Breebaart, J.、Herre, J.、Villemoes, L.、Jin, C.、Kjoerling, K.、Plogsties, J.、Koppens, J.、「多重チャンネルはモバイルに進む:MPEGサラウンド・バイノーラル・レンダリング」、第29回AES会議議事録、ソウル、韓国、2006年
【特許文献】
【0006】
【特許文献1】「複合類似度インデックスを用いたステレオオーディオ信号の主要アンビエンス分解」、Goodwin 他、米国特許公報第2009/0198356号公報、2009年8月
【特許文献2】「特許出願名称:ステレオ信号から多重チャンネルオーディオ信号を生成する方法」、発明者:Christof Faller、代理人:FISH & RICHARDSON P.C.、承継人:LG ELECTRONICS, INC.、出所:MINNEAPOLIS, MN US、IPC8クラス:AH04R500FI、USPCクラス:381 1
【特許文献3】「ステレオ信号のためのアンビエンス生成」、Avendano 他、発行日:2009年7月28日、出願番号:10/163,158、出願日:2002年6月4日
【発明の概要】
【0007】
しかしながら、MPEGサラウンド(MPS)およびパラメータステレオ(PS)のような最新のパラメータオーディオ符号化技術は、付加的な空間サイド情報に加えて、低減された数の‐いくつかのケースではただ1つの‐オーディオダウンミックスチャンネルを提供するだけである。「オリジナル」の入力チャンネル間の比較は、サウンドの意図された出力フォーマットへの最初の復号化の後で可能となるだけである。
【0008】
それ故、ダウンミックス信号および空間パラメータ情報からダイレクト信号部分またはアンビエント信号部分を抽出するコンセプトが必要である。しかしながら、パラメータサイド情報を用いたダイレクト/アンビエンス抽出に対する既存の解法はない。
【0009】
それ故に、本発明の目的は、空間パラメータ情報の使用によって、ダウンミックス信号からダイレクト信号部分またはアンビエント信号部分を抽出するコンセプトを提供することである。
【0010】
この目的は、請求項1に記載の装置、請求項15に記載の方法、または請求項16に記載のコンピュータプログラムによって達成される。
【0011】
本発明の根底にある基本概念は、空間パラメータ情報に基づいて多重チャンネルオーディオ信号のダイレクト部分またはアンビエント部分のレベル情報が推定され、推定されたレベル情報に基づいてダウンミックス信号からダイレクト信号部分またはアンビエント信号部分が抽出されるときに、上述のダイレクト/アンビエンス抽出を達成することができるということである。ここで、ダウンミックス信号と空間パラメータ情報は、ダウンミックス信号より多くのチャンネルを有する多重チャンネルオーディオ信号を表す。この尺度は、空間パラメータサイド情報を用いることによって、1つ以上の入力チャンネルを有するダウンミックス信号からダイレクトおよび/またはアンビエンス抽出を可能とする。
【0012】
本発明の一実施形態によれば、ダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置は、ダイレクト/アンビエンス推定器およびダイレクト/アンビエンス抽出器を備える。ダウンミックス信号と空間パラメータ情報は、ダウンミックス信号より多くのチャンネルを有する多重チャンネルオーディオ信号を表す。さらに、空間パラメータ情報は、多重チャンネルオーディオ信号のチャンネル間関係を備える。ダイレクト/アンビエンス推定器は、空間パラメータ情報に基づいて、多重チャンネルオーディオ信号のダイレクト部分またはアンビエント部分のレベル情報を推定するように構成される。ダイレクト/アンビエンス抽出器は、ダイレクト部分またはアンビエント部分の推定レベル情報に基づいて、ダウンミックス信号から、ダイレクト信号部分またはアンビエント信号部分を抽出するように構成される。
【0013】
本発明の他の実施形態によれば、ダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置は、バイノーラル・ダイレクトサウンド・レンダリングデバイス、バイノーラル・アンビエントサウンド・レンダリングデバイスおよび結合器を更に備える。バイノーラル・ダイレクトサウンド・レンダリングデバイスは、ダイレクト信号部分を処理し、第1のバイノーラル出力信号を取得するように構成される。バイノーラル・アンビエントサウンド・レンダリングデバイスは、アンビエント信号部分を処理し、第2のバイノーラル出力信号を取得するように構成される。結合器は、第1のバイノーラル出力信号と第2のバイノーラル出力信号を組合せ、複合バイノーラル出力信号を取得するように構成される。従って、オーディオ信号のダイレクト信号部分およびアンビエント信号部分が別々に処理されるオーディオ信号のバイノーラル再生を提供することができる。
【図面の簡単な説明】
【0014】
以下において、本発明の実施形態が、以下の添付図面を参照して説明される。
【図1】多重チャンネルオーディオ信号を表すダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置の一実施形態のブロック図を示す。
【図2】パラメータステレオオーディオ信号を表すモノラルダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置の一実施形態のブロック図を示す。
【図3a】本発明の一実施形態に係る多重チャンネルオーディオ信号のスペクトル分解の図解図を示す。
【図3b】図3aのスペクトル分解に基づく多重チャンネルオーディオ信号のチャンネル間関係を計算する図解図を示す。
【図4】推定レベル情報のダウンミックスを備えるダイレクト/アンビエンス抽出器の実施形態のブロック図を示す。
【図5】ゲインパラメータをダウンミックス信号に適用することによるダイレクト/アンビエンス抽出器の更なる実施形態のブロック図を示す。
【図6】チャンネルクロスミックスを備えたLMS解法に基づくダイレクト/アンビエンス抽出器の更なる実施形態のブロック図を示す。
【図7a】ステレオアンビエンス推定式を用いたダイレクト/アンビエンス推定器の実施形態のブロック図を示す。
【図7b】例示的なダイレクトからトータルへのエネルギーレシオ対チャンネル間コヒーレンスのグラフを示す。
【図8】本発明の実施形態に係るエンコーダ/デコーダシステムのブロック図を示す。
【図9a】本発明の実施形態に係るバイノーラル・ダイレクトサウンド・レンダリングの概観のブロック図を示す。
【図9b】図9aのバイノーラル・ダイレクトサウンド・レンダリングの詳細のブロック図を示す。
【図10a】本発明の実施形態に係るバイノーラル・アンビエントサウンド・レンダリングの概観のブロック図を示す。
【図10b】図10aのバイノーラル・アンビエントサウンド・レンダリングの詳細のブロック図を示す。
【図11】多重チャンネルオーディオ信号のバイノーラル再生の実施形態の概念的ブロック図を示す。
【図12】バイノーラル再生を含むダイレクト/アンビエンス抽出の実施形態の全体ブロック図を示す。
【図13a】フィルタバンクドメインにおいてモノラルダウンミックス信号からダイレクト/アンビエント信号を抽出する装置の実施形態のブロック図を示す。
【図13b】図13aのダイレクト/アンビエンス抽出の実施形態のブロック図を示す。
【図14】本発明の更なる実施形態に係る例示的なMPEGサラウンド復号化スキームの図解図を示す。
【発明を実施するための形態】
【0015】
図1は、ダウンミックス信号115と空間パラメータ情報105から、ダイレクト/アンビエンス信号125‐1、125‐2を抽出する装置100の実施形態のブロック図を示す。図1に示されるように、ダウンミックス信号115と空間パラメータ情報105は、ダウンミックス信号115より多いチャンネルCh1…ChNを有する多重チャンネルオーディオ信号101を表す。空間パラメータ情報105は、多重チャンネルオーディオ信号101のチャンネル間関係を備えることができる。特に、装置100は、ダイレクト/アンビエンス推定器110とダイレクト/アンビエンス抽出器120を備える。ダイレクト/アンビエンス推定器110は、空間パラメータ情報105に基づいて、多重チャンネルオーディオ信号101のダイレクト部分またはアンビエント部分のレベル情報113を推定するように構成することができる。ダイレクト/アンビエンス抽出器120は、ダイレクト部分またはアンビエント部分の推定レベル情報113に基づいて、ダウンミックス信号115からダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成することができる。
【0016】
図2は、パラメータステレオオーディオ信号201を表すモノラルダウンミックス信号215と空間パラメータ情報105からダイレクト/アンビエンス信号125‐1、125‐2を抽出する装置200の実施形態のブロック図を示す。図2の装置200は、図1の装置100と同じブロックを基本的に備える。それ故、同様の実施態様および/または機能を有する同一のブロックは、同じ符号で示される。さらに、図2のパラメータステレオオーディオ信号201は、図1の多重チャンネルオーディオ信号101に相当することができ、図2のモノラルダウンミックス信号215は、図1のダウンミックス信号115に相当することができる。図2の実施形態において、モノラルダウンミックス信号215と空間パラメータ情報105は、パラメータステレオオーディオ信号201を表す。パラメータステレオオーディオ信号は、『L』で示される左チャンネルと、『R』で示される右チャンネルを備えることができる。ここで、ダイレクト/アンビエンス抽出器120は、ダイレクト/アンビエンス推定器110を用いることによって空間パラメータ情報105から導き出すことができる推定レベル情報113に基づいて、モノラルダウンミックス信号215からダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成される。
【0017】
実際には、図1または図2の実施形態における空間パラメータ(空間パラメータ情報105)は、それぞれ、MPEGサラウンド(MPS)またはパラメータステレオ(PS)サイド情報に特に関連する。これらの2つの技術は、最新技術の低ビットレートステレオまたはサラウンドオーディオ符号化方法である。図2を参照すると、PSは、空間パラメータを備えた1つのダウンミックスオーディオチャンネルを提供し、図1を参照すると、MPSは、空間パラメータを備えた1つ、2つ、またはそれ以上のダウンミックスオーディオチャンネルを提供する。
【0018】
具体的には、図1と図2の実施形態は、空間パラメータサイド情報105を、1つ以上の入力チャンネルを有する信号(すなわち、ダウンミックス信号115;215)からのダイレクトおよび/またはアンビエンス抽出の分野において直ちに用いることができることを明らかに示している。
【0019】
【0020】
【0021】
ここで、Chiは検査チャンネルであり、Rは残りのチャンネルの線形結合であり、<…>は時間平均を示す。残りのチャンネルの線形結合Rの例は、それらのエネルギー正規化された合計である。なお、チャンネルレベル差(CLDi)は、通常はパラメータのデシベル値である。
【0022】
上記の式に関して、チャンネルレベル差(CLDi)またはパラメータσiは、残りのチャンネルの線形結合RのレベルPRに正規化されたチャンネルChiのレベルPiに相当することができる。ここで、レベルPiまたはPRは、チャンネルChiのチャンネル間レベル差パラメータICLDiと、残りのチャンネルのチャンネル間レベル差パラメータICLDj(j≠i)の線形結合ICLDRから導き出すことができる。
【0023】
ここで、ICLDiとICLDjは、それぞれ基準チャンネルChrefに関係づけることができる。更なる実施形態において、チャンネル間レベル差パラメータICLDiとICLDjは、基準チャンネルChrefである多重チャンネルオーディオ信号(Ch1…ChN)の他のいかなるチャンネルにも関係づけることができる。これは、結局、チャンネルレベル差(CLDi)またはパラメータσiに対して、同じ結果に導く。
【0024】
更なる実施形態によれば、図3bのチャンネル間関係335は、また、多重チャンネルオーディオ信号(Ch1…ChN)の入力チャンネルの異なるまたは全てのペアChi、Chjに関して演算することによって導き出すことができる。この場合、ペアに関して計算されたチャンネル間コヒーレンスパラメータICCi,jまたはチャンネルレベル差(CLDi,j)またはパラメータσi,j(またはICLDi,j)を取得することができ、インデックス(i、j)は、それぞれチャンネルChiとChjの特定のペアを示す。
【0025】
図4は、推定レベル情報113のダウンミックスを含むダイレクト/アンビエンス抽出器420の実施形態400のブロック図を示す。図4の実施形態は、図1の実施形態と同じブロックを基本的に備える。それ故、同様の実施態様および/または機能を有する同一のブロックは、同じ符号で示される。しかしながら、図1のダイレクト/アンビエンス抽出器120に相当することができる図4のダイレクト/アンビエンス抽出器420は、多重チャンネルオーディオ信号のダイレクト部分またはアンビエント部分の推定レベル情報113をダウンミックスし、ダイレクト部分またはアンビエント部分のダウンミックスされたレベル情報を取得し、ダウンミックスされたレベル情報に基づいてダウンミックス信号115からダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成される。図4に示されるように、空間パラメータ情報105は、例えば、図1の多重チャンネルオーディオ信号101(Ch1…ChN)から導き出すことができ、図3bにおいて導入されたCh1…ChNのチャンネル間関係335を備えることができる。図4の空間パラメータ情報105は、また、ダイレクト/アンビエンス抽出器420に供給されるダウンミックス情報410を備えることができる。実施形態において、ダウンミックス情報410は、オリジナルの多重チャンネルオーディオ信号(例えば図1の多重チャンネルオーディオ信号101)のダウンミックス信号115へのダウンミックスを特徴づけることができる。ダウンミックスは、例えば、時間ドメインまたはスペクトルドメインのようないかなる符号化ドメインにおいても動作するダウンミキサ(図示せず)を用いて実行することができる。
【0026】
更なる実施形態によれば、ダイレクト/アンビエンス抽出器420は、また、ダイレクト部分の推定レベル情報をコヒーレント和と結合し、アンビエント部分の推定レベル情報を非コヒーレント和と結合することによって、多重チャンネルオーディオ信号101のダイレクト部分またはアンビエント部分の推定レベル情報113のダウンミックスを実行するように構成することができる。
【0027】
推定レベル情報は、それぞれダイレクト部分またはアンビエント部分のエネルギーレベルまたはパワーレベルを表すことができることが指摘される。
【0028】
特に、推定されたダイレクト/アンビエント部分のエネルギー(すなわちレベル情報113)のダウンミックスは、チャンネル間の完全な非コヒーレンスまたは完全なコヒーレンスを仮定することによって実行することができる。非コヒーレント和またはコヒーレント和に基づくダウンミックスの場合に適用することができる2つの数式は、それぞれ以下の通りである。
【0029】
【0030】
【0031】
【0032】
図5は、ゲインパラメータgD、gAをダウンミックス信号115に適用することによるダイレクト/アンビエンス抽出器520の更なる実施形態を示す。図5のダイレクト/アンビエンス抽出器520は、図4のダイレクト/アンビエンス抽出器420に相当する。最初に、前に記載されているように、ダイレクト部分545‐1またはアンビエント部分545‐2の推定レベル情報は、ダイレクト/アンビエンス推定器から受信することができる。受信されたレベル情報545‐1、545‐2は、ステップ550において、それぞれ、結合され/ダウンミックスされ、ダイレクト部分555‐1またはアンビエント部分555‐2のダウンミックスされたレベル情報を取得することができる。次に、ステップ560において、ゲインパラメータgD 565‐1またはgA 565‐2は、それぞれ、ダイレクト部分またはアンビエント部分に対するダウンミックスされたレベル情報555‐1、555‐2から導き出すことができる。最後に、ダイレクト/アンビエンス抽出器520は、ダイレクト信号部分125‐1またはアンビエント信号部分125‐2が取得されるように、導き出されたゲインパラメータ565‐1、565‐2をダウンミックス信号115に適用するために用いることができる(ステップ570)。
【0033】
ここで、図1、4、5の実施形態において、ダウンミックス信号115は、それぞれ、ダイレクト/アンビエンス抽出器120;420;520の入力に存在する複数のダウンミックスチャンネル(Ch1…ChM)から構成できることに注意すべきである。
【0034】
更なる実施形態において、ダイレクト/アンビエンス抽出器520は、ダイレクト部分またはアンビエント部分のダウンミックスされたレベル情報555‐1、555‐2から、ダイレクトからトータルへの(DTT)またはアンビエントからトータルへの(ATT)エネルギーレシオを決定し、決定されたDTTまたはATTエネルギーレシオに基づいて、抽出パラメータを、ゲインパラメータ565‐1、565‐2として用いるように構成される。
【0035】
さらに他の実施形態において、ダイレクト/アンビエンス抽出器520は、ダウンミックス信号115に、第1の抽出パラメータsqrt(DTT)を乗算してダイレクト信号部分125‐1を取得し、第2の抽出パラメータsqrt(ATT)を乗算してアンビエント信号部分125‐2を取得するように構成される。ここで、ダウンミックス信号115は、図2の実施形態(モノラルダウンミックスケース)に示されるように、モノラルダウンミックス信号215に相当する。
【0036】
モノラルダウンミックスケースにおいて、アンビエンス抽出は、sqrt(ATT)とsqrt(DTT)を適用することによってなすことができる。しかしながら、同じアプローチは、特に、各チャンネルChiに対してsqrt(ATTi)とsqrt(DTTi)を適用することによって、多重チャンネルダウンミックス信号に対しても有効である。
【0037】
更なる実施形態によれば、ダウンミックス信号115が複数のチャンネルを備える場合(多重チャンネルダウンミックスケース)、ダイレクト/アンビエンス抽出器520は、第1の複数の抽出パラメータ、例えばsqrt(DTTi))をダウンミックス信号115に適用してダイレクト信号部分125‐1を取得し、第2の複数の抽出パラメータ、例えばsqrt(ATTi))をダウンミックス信号115に適用してアンビエント信号部分125‐2を取得するように構成することができる。ここで、第1と第2の複数の抽出パラメータは、対角行列を構成することができる。
【0038】
一般に、ダイレクト/アンビエンス抽出器120;420;520は、また、二次のM×M抽出マトリックスをダウンミックス信号115に適用することによってダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成することができ、二次のM×M抽出マトリックスのサイズ(M)はダウンミックスチャンネル(Ch1…ChM)の数(M)に相当する。
【0039】
アンビエンス抽出のアプリケーションは、それ故、二次のM×M抽出マトリックスを適用することによって記述することができ、ここで、Mはダウンミックスチャンネル(Ch1…ChM)の数である。これは、入力信号を操作してダイレクト/アンビエンス出力を得る全ての可能な方法を含むことができ、対角行列として構成される二次のM×M抽出マトリックスの主要要素を表すsqrt(ATTi)とsqrt(DTTi)パラメータに基づく比較的簡単な方法、または完全なマトリックスとして構成されるLMSクロスミックスアプローチを含む。後者は、以下に記載される。ここで、M×M抽出マトリックスを適用する上記のアプローチは、1つを含むいかなるチャンネル数もカバーすることに注意すべきである。
【0040】
更なる実施形態によれば、抽出マトリックスは、より少ない出力チャンネル数を有することができるので、必ずしもマトリックスサイズM×Mの二次マトリックスである必要はない。それ故、抽出マトリックスは、低減された行数を有することができる。この例は、Mの代わりに単一のダイレクト信号を抽出する。
【0041】
また、抽出マトリックスのM列を有することに対応する入力として、全てのM個のダウンミックスチャンネルを常にとる必要はない。これは、特に、入力として全てのチャンネルを有することを必要としないアプリケーションに関連することができる。
【0042】
図6は、チャンネルクロスミックスを備えるLMS(最小平均二乗)解法に基づくダイレクト/アンビエンス抽出器620の更なる実施形態600のブロック図を示す。図6のダイレクト/アンビエンス抽出器620は、図1のダイレクト/アンビエンス抽出器120に相当することができる。図6の実施形態において、図1の実施形態と同様の実施態様および/または機能を有する同一のブロックは、それ故、同じ符号で示される。しかしながら、図1のダウンミックス信号115に相当することができる図6のダウンミックス信号615は、複数のダウンミックスチャンネルCh1…ChM 617を備えることができ、ダウンミックスチャンネル数(M)は、多重チャンネルオーディオ信号101のチャンネルCh1…ChN(N)のそれより小さい(すなわちM<N)。具体的には、ダイレクト/アンビエンス抽出器620は、チャンネルクロスミックスを備える最小平均二乗(LMS)解法によってダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成され、LMS解法は等しいアンビエンスレベルを必要としない。等しいアンビエンスレベルを必要とせず、いかなるチャンネル数にも拡張可能であるLMS解法は、以下において提供される。ちょうど言及されたLMS解法は、必須ではないが、上記に対してより正確な変形例を表す。
【0043】
ダイレクト/アンビエンス抽出のためのクロスミックス重みに対して、LMS解法において使用されるシンボルは、以下の通りである。
【0044】
Chi: チャンネルi
ai: チャンネルiにおけるダイレクトサウンドのゲイン
DおよびD^: サウンドのダイレクト部分およびその推定
AiおよびAi^: チャンネルiのアンビエント部分およびその推定
Px=E[XX*]: Xの推定エネルギー
E[ ]: 期待値
Ex: Xの推定誤差
wDi: チャンネルiに対するダイレクト部分へのLMSクロスミックス重み
wAi,n: チャンネルnに対するチャンネルiのアンビエンスへのLMSクロスミックス重み
【0045】
この文脈において、LMS解法の導出は、多重チャンネルオーディオ信号のそれぞれのチャンネルのスペクトル表現に基づくことができ、それはすべてが周波数バンドにおいて機能することを意味することに注意すべきである。
【0046】
【0047】
導出は、最初に、a)ダイレクト部分を、次に、b)アンビエント部分を取扱う。最後に、重みに対する解法が導き出され、重みの正規化の方法が記述される。
【0048】
a)ダイレクト部分
【0049】
【0050】
【0051】
【0052】
【0053】
b)アンビエント部分
【0054】
【0055】
【0056】
【0057】
マトリックス形式において、上記の関係は次式のように読み取れる。
【0058】
重みに対する解法
【0059】
【0060】
【0061】
重みの正規化
【0062】
重みは、LMS解法に対するものであるが、エネルギーレベルは保存されなければならないので、重みは正規化される。これは、また、上記の式において不必要な項divによる除算をなす。正規化は、出力ダイレクトおよびアンビエントチャンネルのエネルギーがPDおよびPAi(ここで、iはチャンネルインデックス)であることを確保することによって生ずる。
【0063】
【0064】
【0065】
【0066】
【0067】
特に、上記を参照して、ダイレクト/アンビエンス抽出器620は、LMS解法がステレオチャンネルのダウンミックス信号に限定されないように、安定な多重チャンネル信号モデルとみなすことによってLMS解法を導出するように構成することができる。
【0068】
【0069】
チャンネルChiのチャンネルレベル差(CLDi)またはパラメータσiとチャンネル間コヒーレンスパラメータ(ICCi)の依存性を明確に示すことができる。図7において図示されるように、空間パラメータ情報105は、ダイレクト/アンビエンス推定器710に供給され、各チャンネルChiに対するチャンネル間関係パラメータICCiとσiを備えることができる。このステレオアンビエンス推定式を、ダイレクト/アンビエンス推定器710を用いて適用した後、ダイレクトからトータルへの(DTTi)またはアンビエントからトータルへの(ATTi)エネルギーレシオは、それぞれ、その出力715において取得される。それぞれのDTTまたはATTエネルギーレシオを推定するために用いられる上記のステレオアンビエンス推定式は、等しいアンビエンスの状態に基づいていないことに注意する必要がある。
【0070】
【0071】
【0072】
図7bは、例示的なDTT(ダイレクトからトータルへの)エネルギーレシオ760のグラフ750を、チャンネル間コヒーレンスパラメータICC 770の関数として示す。図7bの実施形態において、チャンネルChiのレベルP(Chi)と残りのチャンネルの線形結合RのレベルP(R)が等しくなるように、チャンネルレベル差(CLD)またはパラメータσは、例示的に1セットされている(σ=1)。この場合、DTTエネルギーレシオ760は、DTT〜ICCによってマークされた直線775によって示されるように、ICCパラメータに線形に比例する。図7bにおいて、完全に非コヒーレントなチャンネル間関係に相当することができるICC=0の場合には、完全にアンビエントな状況(ケース『R1』)に相当することができるDTTエネルギーレシオ760は0になることがわかる。しかしながら、完全にコヒーレントなチャンネル間関係に相当することができるICC=1の場合には、完全にダイレクトな状況(ケース『R2』)に相当することができるDTTエネルギーレシオ760は1とすることができる。それ故、R1のケースにおいて、基本的にチャンネル内にそのチャンネルのトータルエネルギーに関してダイレクトエネルギーがなく、一方R2のケースにおいて、アンビエントエネルギーがない。
【0073】
図8は、本発明の更なる実施形態に係るエンコーダ/デコーダシステム800のブロック図を示す。エンコーダ/デコーダシステム800のデコーダ側において、図1の装置100に相当することができるデコーダ820の実施形態が示される。図1と図8の実施形態の類似性のため、これらの実施形態において同様の実施態様および/または機能を有する同一のブロックは、同じ符号で示される。図8の実施形態に示されるように、ダイレクト/アンビエンス抽出器120は、複数のダウンミックスチャンネルCh1…ChMを有するダウンミックス信号115について動作することができる。図8のダイレクト/アンビエンス推定器110は、多重チャンネルオーディオ信号101のダイレクト部分またはアンビエント部分のレベル情報113が、空間パラメータ情報105に加えて、受信される少なくとも2つのダウンミックスチャンネル825に基づいて推定されるように、ダウンミックス信号815の少なくとも2つのダウンミックスチャンネル825を受信する(オプション)ように更に構成することができる。最後に、ダイレクト信号部分125‐1またはアンビエント信号部分125‐2は、ダイレクト/アンビエンス抽出器120による抽出の後に取得される。
【0074】
エンコーダ/デコーダシステム800のエンコーダ側において、多重チャンネルオーディオ信号(Ch1…ChN)を多数のダウンミックスチャンネルCh1…ChMを有するダウンミックス信号115にダウンミックスし、チャンネル数がNからMに低減されるダウンミキサー815を備えることができるエンコーダ810の実施形態が示される。ダウンミキサー815は、また、多重チャンネルオーディオ信号101からチャンネル間関係を計算することによって、空間パラメータ情報105を出力するように構成することができる。図8のエンコーダ/デコーダシステム800において、ダウンミックス信号115と空間パラメータ情報105は、エンコーダ810からデコーダ820に送信することができる。ここで、エンコーダ810は、エンコーダ側からデコーダ側への送信に対して、ダウンミックス信号115と空間パラメータ情報105に基づいて符号化信号を導き出すことができる。さらに、空間パラメータ情報105は、多重チャンネルオーディオ信号101のチャンネル情報に基づいている。
【0075】
一方では、チャンネル間関係パラメータσi(Chi、R)とICCi(Chi、R)は、エンコーダ810において、チャンネルChiと残りのチャンネルの線形結合Rの間で計算し、符号化信号の中で送信することができる。デコーダ820は、次に、符号化信号を受信し、送信されたチャンネル間関係パラメータσi(Chi、R)とICCi(Chi、R)について動作することができる。
【0076】
他方では、エンコーダ810は、また、送信される異なるチャンネルのペア(Chi、Chj)の間のチャンネル間コヒーレンスパラメータICCi,jを計算するように構成することができる。この場合、デコーダ810は、以前に記載されている対応する実施形態を実現することができるように、送信されたペアに関して計算されたICCi,j(Chi、Chj)パラメータから、チャンネルChiと残りのチャンネルの線形結合Rの間のパラメータICCi(Chi、R)を導き出すことが可能でなければならない。この文脈において、デコーダ820は、ダウンミックス信号115の知識だけからパラメータICCi(Chi、R)を復元することができない点に注意すべきである。
【0077】
実施形態において、送信された空間パラメータは、ペアに関するチャンネル比較についてだけではない。
【0078】
たとえば、最も代表的なMPSのケースは、2つのダウンミックスチャンネルがあるということである。MPS復号化における空間パラメータの第1のセットは、2つのチャンネルを3つ:センター、レフトおよびライトにする。このマッピングを導くパラメータのセットは、センター予測係数(CPC)と、この2から3への構成に特有のICCパラメータと呼ばれる。
【0079】
空間パラメータの第2のセットは、各々を次の2つに分ける。すなわち、サイドチャンネルを対応する前後のチャンネルに、センターチャンネルをセンターとLfeチャンネルに分ける。このマッピングは、前に導入されたICCとCLDパラメータに関する。
【0080】
すべての種類のダウンミックス構成とすべての種類の空間パラメータに対する計算ルールを作ることは、実際的でない。しかしながら、仮想的に、ダウンミックスステップに従うことは、実際的である。我々は、どのようにして2つのチャンネルが3つになり、3つが6つになるかを知っているので、結局は、どのように2つの入力チャンネルが6つの出力に割り振られるかの入出力関係を見つける。出力は、ダウンミックスチャンネルの線形結合に加えてそれらの非相関化バージョンの線形結合のみである。出力信号を実際に復号化し、それを測る必要はないが、我々は、この「復号化マトリックス」を知っているので、パラメータドメインにおいて、いかなるチャンネルまたはチャンネルの組合せの間のICCとCLDパラメータも演算処理上能率的に計算することができる。
【0081】
【0082】
【0083】
【0084】
【0085】
【0086】
また、上記の数式の全ての部分は入力の線形結合に加えて非相関化された信号であるので、解法は直接的に利用可能である。
【0087】
上記の例は2つの出力チャンネル比較を備えていたが、同様に、後述される例示的プロセスのような出力チャンネルの線形結合間の比較をすることができる。
【0088】
前の実施形態の概要において、提案された技術/コンセプトは、以下のステップを備えることができる。
1.ダウンミックスチャンネル数より多いことができる「オリジナル」のチャンネルセットのチャンネル間関係(コヒーレンス、レベル)を取り出す。
2.この「オリジナル」のチャンネルセットのアンビエンスエネルギーとダイレクトエネルギーを推定する。
3.この「オリジナル」のチャンネルセットのダイレクトエネルギーとアンビエンスエネルギーを、少ないチャンネル数にダウンミックスする。
4.ダウンミックスされたエネルギーを用い、ゲイン係数またはゲインマトリックスを適用することによって、提供されたダウンミックスチャンネルにおけるダイレクト信号とアンビエンス信号を抽出する。
【0089】
空間パラメータサイド情報の使用は、図2の実施形態によって最もよく説明され、要約されている。図2の実施形態において、単一のオーディオチャンネルとそれが表すステレオサウンドのチャンネル間差分(コヒーレンス、レベル)に関する空間サイド情報を含む、パラメータステレオストリームを持つ。ここで、我々は、チャンネル間差分を知っているので、上記のステレオアンビエンス推定式をそれらに適用し、オリジナルのステレオチャンネルのダイレクトエネルギーとアンビエンスエネルギーを得ることができる。次に、ダイレクトエネルギーを(コヒーレント和と)、アンビエンスエネルギーを(非コヒーレント和と)一緒に加算することによって、チャンネルエネルギーを「ダウンミックス」することができ、単一のダウンミックスチャンネルのダイレクトからトータルへのエネルギーレシオとアンビエントからトータルへのエネルギーレシオを抽出することができる。
【0090】
図2の実施形態を参照して、空間パラメータ情報は、それぞれパラメータステレオオーディオ信号の左チャンネル(L)と右チャンネル(R)に対応するチャンネル間コヒーレンスパラメータ(ICCL、ICCR)とチャンネルレベル差パラメータ(CLDL、CLDR)を基本的に備える。ここで、チャンネル間コヒーレンスパラメータICCLとICCRは、等しい(ICCL=ICCR)が、チャンネルレベル差パラメータCLDLとCLDRは、CLDL=−CLDRの関係にある点に注意すべきである。同様に、チャンネルレベル差パラメータCLDLとCLDRは、通常はそれぞれパラメータσLとσRのデシベル値であるので、左チャンネル(L)と右チャンネル(R)に対するパラメータσLとσRは、σL=1/σRの関係にある。これらのチャンネル間差分パラメータは、ステレオアンビエンス推定式に基づいて、両方のチャンネル(L、R)に対して、それぞれのダイレクトからトータルへのエネルギーレシオ(DTTL、DTTR)とアンビエントからトータルへのエネルギーレシオ(ATTL、ATTR)を計算するために直ちに用いることができる。ステレオアンビエンス推定式において、左チャンネル(L)のダイレクトからトータルへのエネルギーレシオとアンビエントからトータルへのエネルギーレシオ(DTTL、ATTL)は、左チャンネルLに対するチャンネル間差分パラメータ(CLDL、ICCL)に依存し、一方、右チャンネル(R)のダイレクトからトータルへのエネルギーレシオとアンビエントからトータルへのエネルギーレシオ(DTTR、ATTR)は、右チャンネルRに対するチャンネル間差分パラメータ(CLDR、ICCR)に依存する。さらに、パラメータステレオオーディオ信号の両方のチャンネルL、Rに対するエネルギー(EL、ER)は、それぞれ、左チャンネル(L)と右チャンネル(R)に対するチャンネルレベル差パラメータ(CLDL、CLDR)に基づいて導き出すことができる。ここで、左チャンネルLに対するエネルギー(EL)は、左チャンネルL対するチャンネルレベル差パラメータ(CLDL)をモノラルダウンミックス信号に適用することによって取得することができ、一方、右チャンネルRに対するエネルギー(ER)は、右チャンネルRに対するチャンネルレベル差パラメータ(CLDR)をモノラルダウンミックス信号に適用することによって取得することができる。次に、両チャンネル(L、R)に対するエネルギー(EL、ER)を対応するDTTL、DTTR、およびATTL、ATTRベースのパラメータと乗算することによって、両チャンネル(L、R)に対するダイレクトエネルギー(EDL、EDR)とアンビエンスエネルギー(EAL、EAR)が取得される。次に、両チャンネル(L、R)に対するダイレクトエネルギー(EDL、EDR)は、コヒーレントダウンミックスルールを用いることによって結合/加算し、モノラルダウンミックス信号のダイレクト部分に対するダウンミックスされたエネルギー(ED、mono)を取得することができ、一方、両チャンネル(L、R)に対するアンビエンスエネルギー(EAL、EAR)は、非コヒーレントダウンミックスルールを用いることによって結合/加算し、モノラルダウンミックス信号のダイレクト部分に対するダウンミックスされたエネルギー(EA、mono)を取得することができる。次に、ダイレクト信号部分およびアンビエント信号部分に対するダウンミックスされたエネルギー(ED、mono、EA、mono)を、モノラルダウンミックス信号のトータルエネルギー(Emono)に関連づけることによって、モノラルダウンミックス信号のダイレクトからトータルへのエネルギーレシオ(DTTmono)とアンビエントからトータルへのエネルギーレシオ(ATTmono)が取得される。最後に、これらのDTTmonoエネルギーレシオとATTmonoエネルギーレシオに基づいて、モノラルダウンミックス信号からダイレクト信号部分またはアンビエント信号部分を基本的に抽出することができる。
【0091】
オーディオの再生において、サウンドをヘッドホン上に再生するニーズがしばしば生ずる。ヘッドホンリスニングは、スピーカリスニングおよびあらゆる自然音響環境に対して大幅に異なる特別な特徴を有する。オーディオは、左右の耳に対して直接にセットされる。生成されるオーディオコンテンツは、通常はスピーカ再生に対して生成される。それ故、オーディオ信号は、我々の聴覚システムが空間音響知覚において用いる属性と頭出しを含まない。それは、バイノーラル処理がシステムに導入されない限り、当てはまる。
【0092】
バイノーラル処理は、基本的に、入力サウンドに取り入れ、それを修正し、それが(我々の聴覚システムが空間サウンドを処理する方法に関して)知覚的に正しい両耳間およびモノラルの属性のようなものだけを含むようにするプロセスであるということができる。バイノーラル処理は、直接的なタスクではなく、技術水準による存在する解法は、多くの副次的な最適性を有する。
【0093】
多重チャンネルオーディオ信号をヘッドホンに対するバイノーラル対応物に変換するように設計されたメディアプレーヤおよび処理デバイスのような、音楽と映画再生に対するバイノーラル処理が既に含まれた多数のアプリケーションがある。代表的なアプローチは、頭部関連伝達関数(HRTF)を用い、仮想スピーカを作成し、信号に対して空間効果を加える。これは、理論的に、特定の空間においてスピーカでリスニングすることと等価とすることができた。
【0094】
しかしながら、実際は、このアプローチが一貫してリスナーを満足させていないことを繰り返し示している。この直接的な方法を備えた良好な空間化が、音色または音質における好ましくない変化、空間効果の悩ましい知覚およびダイナミクスの損失を有するようなオーディオ品質を損失する代償がついてくるという妥協があるように思われる。更なる問題は、不正確なローカライゼーション(例えば頭部内のローカライゼーション、前後の混乱)、音源の空間距離の欠如、および両耳間のミスマッチ、すなわち間違った両耳の頭出しによる耳の近くの聴覚を含む。
【0095】
異なるリスナーは、非常に異なって問題を判断するかもしれない。感度は、また、音楽(音色に関する厳格な品質判定基準)、映画(より厳格でない)およびゲーム(さらに厳格でないがローカライゼーションが重要である)のような入力素材に依存して変化する。また、コンテンツに依存して通常は異なる設計目標が存在する。
【0096】
それ故、次の記述は、平均的な全体の認知品質を最大化するために上記の問題をできるだけうまく克服するアプローチを取扱う。
【0097】
図9aは、本発明の更なる実施形態に係るバイノーラル・ダイレクトサウンド・レンダリングデバイス910の概観900のブロック図を示す。図9aに示されるように、バイノーラル・ダイレクトサウンド・レンダリングデバイス910は、図1の実施形態のダイレクト/アンビエンス抽出器120の出力に存在することができるダイレクト信号部分125‐1を処理し、第1のバイノーラル出力信号915を取得するように構成される。第1のバイノーラル出力信号915は、Lで示される左チャンネルとRで示される右チャンネルを備えることができる。
【0098】
ここで、バイノーラル・ダイレクトサウンド・レンダリングデバイス910は、ダイレクト信号部分125‐1を、頭部関連伝達関数(HRTF)を通して供給し、変換されたダイレクト信号部分を取得するように構成することができる。バイノーラル・ダイレクトサウンド・レンダリングデバイス910は、更に、変換されたダイレクト信号部分に空間効果を適用し、最終的に第1のバイノーラル出力信号915を取得するように構成することができる。
【0099】
図9bは、図9aのバイノーラル・ダイレクトサウンド・レンダリングデバイス910の詳細905のブロック図を示す。バイノーラル・ダイレクトサウンド・レンダリングデバイス910は、ブロック912で示される「HRTF変換器」と、ブロック914で示される空間効果処理デバイス(並列リバーブあるいは初期反射のシミュレーション)を備えることができる。図9bに示されるように、HRTF変換器912と空間効果処理デバイス914は、頭部関連伝達関数(HRTF)と空間効果を並列に適用することによってダイレクト信号部分125‐1について動作することができ、第1のバイノーラル出力信号915が取得される。
【0100】
具体的には、図9bを参照して、この空間効果処理は、また、非コヒーレントな反響したダイレクト信号919を提供することができ、その信号919は、次のクロスミックスフィルタ920によって処理され、信号を拡散音場の両耳間コヒーレンスに適合させることができる。ここで、フィルタ920とHRTF変換器912の結合出力は、第1のバイノーラル出力信号915を構成する。更なる実施形態によれば、ダイレクトサウンドに関する空間効果処理は、初期反射のパラメータ表現とすることもできる。
【0101】
それ故、実施形態において、空間効果は、好ましくはHRTFに並列に適用することができ、直列(すなわち、信号をHRTFを通して供給した後に空間効果を適用することによって)には適用されない。具体的には、音源からダイレクトに伝搬するサウンドのみが通過するかまたは対応するHRTFによって変換される。間接的な/反響したサウンドは、至る所で耳に入るように、すなわち統計的方法で(HRTFの代わりにコヒーレンス制御を使用することによって)、近似することができる。直列の実施態様があってもよいが、並列の方法が好ましい。
【0102】
図10aは、本発明の更なる実施形態に係るバイノーラル・アンビエントサウンド・レンダリングデバイス1010の概観1000のブロック図を示す。図10aに示されるように、バイノーラル・アンビエントサウンド・レンダリングデバイス1010は、例えば、図1のダイレクト/アンビエンス抽出器120から出力されるアンビエント信号部分125‐2を処理し、第2のバイノーラル出力信号1015を取得するように構成することができる。第2のバイノーラル出力信号1015は、また、左チャンネル(L)と右チャンネル(R)を備えることができる。
【0103】
図10bは、図10aのバイノーラル・アンビエントサウンド・レンダリングデバイス1010の詳細1005のブロック図を示す。図10bにおいて、バイノーラル・アンビエントサウンド・レンダリングデバイス1010は、非コヒーレントな反響したアンビエント信号1013が取得されるように、アンビエント信号部分125‐2に、「空間効果処理」で表示されたブロック1012で示される空間効果を適用するように構成することができることがわかる。バイノーラル・アンビエントサウンド・レンダリングデバイス1010は、現実の拡散音場の両耳間コヒーレンスに適合する第2のバイノーラル出力信号1015が提供されるように、ブロック1014で示されるクロスミックスフィルタのようなフィルタを適用することによって、非コヒーレントな反響したアンビエント信号1013を処理するように更に構成することができる。「空間効果処理」で示されるブロック1012は、また、現実の拡散音場の両耳間コヒーレンスを直接生成するように構成することができる。この場合、ブロック1014は使用されない。
【0104】
更なる実施形態によれば、バイノーラル・アンビエントサウンド・レンダリングデバイス1010は、第2のバイノーラル出力信号1015の提供のために、アンビエント信号部分125‐2に対して空間効果および/またはフィルタを適用し、第2のバイノーラル出力信号1015が現実の拡散音場の両耳間コヒーレンスに適合するように構成される。
【0105】
上記実施形態において、非相関性とコヒーレンス制御は、2つの連続的なステップにおいて実行することができるが、これは必要条件でない。非コヒーレント信号の中間の数式化なしに、単一ステップのプロセスで同じ結果を得ることも可能である。両方法は等しく有効である。
【0106】
図11は、多重チャンネル入力オーディオ信号101のバイノーラル再生の実施形態1100の概念的なブロック図を示す。具体的には、図11の実施形態は、多重チャンネル入力オーディオ信号101のバイノーラル再生の装置を表し、第1の変換器1110(「周波数変換」)と、分離器1120(「ダイレクト‐アンビエンス分離)と、バイノーラル・ダイレクトサウンド・レンダリングデバイス910(「ダイレクト音源レンダリング)と、バイノーラル・アンビエントサウンド・レンダリングデバイス1010(「アンビエントサウンドレンダリング)と、『プラス』で示される結合器1130と、第2の変換器1140(「逆周波数変換」)を備える。特に、第1の変換器1110は、多重チャンネル入力オーディオ信号101をスペクトル表現1115に変換するように構成することができる。分離器1120は、スペクトル表現1115からダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成することができる。ここで、分離器1120は、特にダイレクト/アンビエンス推定器110とダイレクト/アンビエンス抽出器120を含む図1の装置100に相当することができる。前に説明されたように、バイノーラル・ダイレクトサウンド・レンダリングデバイス910は、ダイレクト信号部分125‐1について動作し、第1のバイノーラル出力信号915を取得することができる。同様に、バイノーラル・アンビエントサウンド・レンダリングデバイス1010は、アンビエント信号部分125‐2について動作し、第2のバイノーラル出力信号1015を取得することができる。結合器1130は、第1のバイノーラル出力信号915と第2のバイノーラル出力信号1015を結合し、結合信号1135を取得するように構成することができる。最後に、第2の変換器1140は、結合信号1135を時間ドメインに変換し、ステレオ出力オーディオ信号1150(「ヘッドホンに対するステレオ出力」)を取得するように構成することができる。
【0107】
図11の実施形態の周波数変換演算は、システムが、空間オーディオの知覚処理における固有のドメインである周波数変換ドメインにおいて機能することを示す。既に周波数変換ドメインにおいて機能しているシステムにおいてアドオンとして使用されている場合、システム自身は必ずしも周波数変換を有しない。
【0108】
上記のダイレクト/アンビエンス分離プロセスは、2つの異なる部分に細分化することができる。ダイレクト/アンビエンス推定部において、ダイレクトアンビエント部分のレベルおよび/またはレシオは、オーディオ信号の信号モデルと属性の組合せに基づいて推定される。ダイレクト/アンビエンス抽出部において、既知のレシオおよび入力信号は、出力ダイレクト/アンビエンス信号の生成に用いることができる。
【0109】
最後に、図12は、バイノーラル再生の使用のケースを含むダイレクト/アンビエンス推定/抽出の実施形態1200の全体ブロック図を示す。特に、図12の実施形態1200は、図11の実施形態1100に相当することができる。しかしながら、実施形態1200において、空間パラメータ情報105に基づく推定/抽出プロセスを含む、図1の実施形態のブロック110、120に対応する図11の分離器1120の詳細が示される。加えて、図11の実施形態1100とは対照的に、図12の実施形態1200においては、異なるドメイン間の変換プロセスが示されていない。実施形態1200のブロックは、また、多重チャンネルオーディオ信号101から導き出すことができるダウンミックス信号115について明らかに動作する。
【0110】
図13aは、フィルタバンクドメインにおいてモノラルダウンミックス信号からダイレクト/アンビエンス信号を抽出する装置1300の実施形態のブロック図を示す。図13aに示されるように、装置1300は、解析フィルタバンク1310と、ダイレクト部分に対する合成フィルタバンク1320と、アンビエント部分に対する合成フィルタバンク1322を備える。
【0111】
特に、装置1300の解析フィルタバンク1310は、短時間フーリエ変換(STFT)を実行するように実施することができるか、または、例えば、解析QMFフィルタバンクとして構成することができ、一方、装置1300の合成フィルタバンク1320、1322は、逆短時間フーリエ変換(ISTFT)を実行するように実施することができるか、または、例えば、合成QMFフィルタバンクとして構成することができる。
【0112】
解析フィルタバンク1310は、図2の実施形態に示されたようなモノラルダウンミックス信号215に相当することができるモノラルダウンミックス信号1315を受信し、モノラルダウンミックス信号1315を複数のフィルタバンクサブバンド1311に変換するように構成される。図13aに見られるように、複数のフィルタバンクサブバンド1311は、それぞれ複数のダイレクト/アンビエンス抽出ブロック1350、1352に接続され、複数のダイレクト/アンビエンス抽出ブロック1350、1352は、それぞれDTTmonoまたはATTmonoベースのパラメータ1333、1335をフィルタバンクサブバンドに適用するように構成される。
【0113】
DTTmono、ATTmonoベースのパラメータ1333、1335は、図13bに示されるように、DTTmono、ATTmono演算器1330から供給することができる。特に、図13bのDTTmono、ATTmono演算器1330は、DTTmono、ATTmonoエネルギーレシオを計算するか、または、前に同様に記載されたパラメータステレオオーディオ信号(例えば、図2のパラメータステレオオーディオ信号201)の左チャンネルと右チャンネル(L、R)に対応する提供されたチャンネル間コヒーレンスパラメータとチャンネルレベル差パラメータ(ICCL、CLDL、ICCR、CLDR)105からDTTmono、ATTmonoベースのパラメータを導き出すように構成することができる。ここで、単一のフィルタバンクサブバンドに対して、対応するパラメータ105と、DTTmono、ATTmonoベースのパラメータ1333、1335を用いることができる。この文脈において、それらのパラメータは周波数を通じて一定でないことが指摘される。
【0114】
DTTmonoまたはATTmonoベースのパラメータ1333、1335 のアプリケーションの結果として、それぞれ複数の修正されたフィルタバンクサブバンド1353、1355が取得される。引き続いて、複数の修正されたフィルタバンクサブバンド1353、1355は、それぞれ合成フィルタバンク1320、1322に供給され、それぞれモノラルダウンミックス信号1315のダイレクト信号部分1325‐1またはアンビエント信号部分1325‐2を取得するために複数の修正されたフィルタバンクサブバンド1353、1355を合成するように構成される。ここで、図13aのダイレクト信号部分1325‐1は、図2のダイレクト信号部分125‐1に相当することができ、一方、図13aのアンビエント信号部分1325‐2は、図2のアンビエント信号部分125‐2に相当することができる。
【0115】
図13bを参照して、図13aの複数のダイレクト/アンビエンス抽出ブロック1350、1352の1つのダイレクト/アンビエンス抽出ブロック1380は、特にDTTmono、ATTmono演算器1330と乗算器1360を備える。乗算器1360は、複数のフィルタバンクサブバンド1311の単一のフィルタバンク(FB)サブバンド1301を、対応するDTTmono/ATTmonoベースのパラメータ1333、1335と乗算するように構成することができ、複数のフィルタバンクサブバンド1353、1355の修正された単一のフィルタバンクサブバンド1365が取得される。特に、ダイレクト/アンビエンス抽出ブロック1380は、ブロック1380が複数のブロック1350に帰属する場合に、DTTmonoベースのパラメータを適用するように構成され、一方、ブロック1380が複数のブロック1352に帰属する場合に、ATTmonoベースのパラメータを適用するように構成される。修正された単一のフィルタバンクサブバンド1365は、ダイレクト部分またはアンビエント部分に対して、それぞれの合成フィルタバンク1320、1322に更に供給することができる。
【0116】
実施形態によれば、空間パラメータおよび導き出されたパラメータは、一般にフィルタバンクの分解能より低い人間の聴覚システム、例えば28バンドのクリチカルバンドによる周波数分解能において与えられる。
【0117】
それ故、図13aの実施形態に係るダイレクト/アンビエンス抽出は、図3bのチャンネル間関係パラメータ335に相当することができるサブバンドに関して計算されたチャンネル間コヒーレンスとチャンネルレベル差パラメータに基づいて、フィルタバンクドメインにおいて異なるサブバンドについて基本的に動作する。
【0118】
図14は、本発明の更なる実施形態に係る例示的なMPEGサラウンド復号化スキーム1400の図解図を示す。特に、図14の実施形態は、ステレオダウンミックス1410から6つの出力チャンネル1420への復号化を記述する。ここで、「res」で示される信号は残差信号であり、それは(「D」で示されるブロックからの)非相関化信号に対するオプションの置き換えである。図14の実施形態によれば、図8のエンコーダ810のようなエンコーダから図8のデコーダ820のようなデコーダに対して、MPSストリームの中で伝送される空間パラメータ情報またはチャンネル間関係パラメータ(ICC、CLD)は、それぞれ「前非相関化マトリックスM1」と「混合マトリックスM2」で示される復号化マトリックス1430、1440を生成するために用いることができる。図14の実施形態に特有のことは、混合マトリックスM2 1440を用いたサイドチャンネル(L、R)とセンターチャンネル(C)(L、R、C 1435)からの出力チャンネル1420(すなわちアップミックスチャンネルL、LS、R、RS、C、LFE)の生成が、MPSサラウンド標準による特定のチャンネル間関係パラメータ(ICC、CLD)を備える、図1の空間パラメータ情報105に相当することができる空間パラメータ情報1405によって、基本的に決定されるということである。
【0119】
ここで、左チャンネル(L)の対応する出力チャンネルL、LSへの分割と、右チャンネル(R)の対応する出力チャンネルR、RSへの分割と、センターチャンネル(C)の対応する出力チャンネルC、LFEへの分割は、それぞれ、対応するICC、CLDパラメータに対してそれぞれの入力を有する1から2への(OTT)構成によって表すことができる。
【0120】
特に「5‐2‐5構成」に相当する例示的なMPEGサラウンド復号化スキーム1400は、例えば、次のステップを備えることができる。第1ステップにおいて、空間パラメータまたはパラメータサイド情報は、既存のMPSサラウンド標準に従って、図14に示される復号化マトリックス1430、1440に数式化することができる。第2ステップにおいて、復号化マトリックス1430、1440は、パラメータドメインにおいて、アップミックスチャンネル1420のチャンネル間情報を提供するために用いることができる。第3ステップにおいて、このように提供されたチャンネル間情報によって、各アップミックスチャンネルのダイレクト/アンビエンスエネルギーを計算することができる。第4ステップにおいて、このように取得されたダイレクト/アンビエンスエネルギーは、ダウンミックスチャンネル1410の数にダウンミックスすることができる。第5ステップにおいて、ダウンミックスチャンネル1410に適用される重みを計算することができる。
【0121】
【0122】
中括弧で示される予測オペレータは、実用的なアプリケーションにおいて、再帰的または非再帰的な時間平均によって置き換えることができる。エネルギーとクロススペクトルは、ダウンミックス信号から直接的に測定可能である。
【0123】
また、2つのチャンネルの線形結合のエネルギーは、チャンネルのエネルギー、混合係数およびクロススペクトルから(すべて信号演算が必要でないパラメータドメインにおいて)数式化できる点に注意すべきである。
【0124】
【0125】
以下は、例示的プロセス(すなわち復号化スキーム)の個々のステップを記述する。
【0126】
第1ステップ(混合マトリックスに対する空間パラメータ)
【0127】
前述のように、M1マトリックスとM2マトリックスは、MPSサラウンド標準に従って作成される。M1の第a行、第b列の要素はM1(a,b)である。
【0128】
第2ステップ(アップミックスチャンネルのチャンネル間情報へのダウンミックスのエネルギーとクロススペクトルを備えた混合マトリックス)
【0129】
【0130】
上記は、アップミックスされた正面左チャンネルに対する例である。他のチャンネルは、同様に数式化することができる。D要素は、非相関化器であり、a‐eは、M1とM2のマトリックスエントリーから計算可能な重みである。
【0131】
【0132】
【0133】
【0134】
ここで「残りのチャンネル」に対して「R」を使用することは混乱させるかもしれないので、記号「X」を使用している。
【0135】
【0136】
【0137】
【0138】
【0139】
第3ステップ(アップミックスチャンネルにおけるアップミックスチャンネルのDTTパラメータに対するチャンネル間情報)
【0140】
【0141】
【0142】
第4ステップ(ダイレクト/アンビエントエネルギーをダウンミックスする)
【0143】
【0144】
第5ステップ(ダウンミックスチャンネルにおけるアンビエンス抽出に対する重みを計算する)
【0145】
【0146】
重み係数は、次に、図5の実施形態に記載されたように(すなわち、sqrt(DTT)またはsqrt(1‐DTT)アプローチを用いて)、または図6の実施形態のように(すなわち、クロスミックスマトリックス法を用いて)計算することができる。
【0147】
基本的に、上述した例示的プロセスは、MPSストリームにおけるCPC、ICCおよびCLDパラメータを、ダウンミックスチャンネルのアンビエンスレシオに関連づける。
【0148】
更なる実施形態によれば、通常は同様の目的を達成する他の手段があり、同様に他の条件がある。例えば、特定のチャンネルが残りのチャンネルと比較される前に記載されたものと比べて、ダウンミックスに対する他のルール、他のスピーカレイアウト、他の復号化方法および多重チャンネルアンビエンス推定をなす他の方法が存在することができる。
【0149】
本発明は、ブロックが実際のまたは論理的なハードウェアコンポーネントを表すブロック図の前後関係において記載されていたが、本発明は、また、コンピュータで実施される方法で実施することができる。後者の場合、ブロックは対応する方法ステップを表し、これらのステップは対応する論理的または物理的ハードウェアブロックによって実行される機能を表す。
【0150】
記載された実施形態は、単に本発明の原理に対して例証を示したものである。本願明細書に記載された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。本発明は、それ故に、特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述および説明によって提案された特定の詳細によって制限されないことを意図する。
【0151】
発明の方法の特定の実施要求に依存して、発明の方法はハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、格納された電子的に読込可能な制御信号を有し、発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働する、デジタル記録メディア、特に、ディスク、DVDまたはCD、を使用して実行することができる。一般に、本発明は、それ故に、機械読取可能なキャリアに格納されるプログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに、発明の方法を実行するように動作する。言い換えれば、発明の方法は、それ故、コンピュータプログラムがコンピュータ上で動作するときに、発明の方法の少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。発明の符号化されたオーディオ信号は、デジタル記憶媒体のようないかなる機械読取可能な記憶媒体上にも記憶することができる。
【0152】
新規なコンセプトおよび技術の効果は、上述の実施形態、すなわちこの出願に記載された装置、方法またはコンピュータプログラムが、パラメータ空間情報の助けによりオーディオ信号からダイレクトおよび/またはアンビエンス成分を推定および抽出することを可能とすることである。特に、本発明の新規な処理は、通常はアンビエンス抽出の分野において、周波数バンドにおいて機能する。提案されたコンセプトは、オーディオ信号からのダイレクトおよびアンビエンス成分の分離を必要とする多くのアプリケーションがあるので、オーディオ信号処理に関連する。
【0153】
先行技術のアンビエンス抽出方法に対立して、本発明のコンセプトは、ステレオ入力信号にだけ基づいているものではなく、モノラルダウンミックスにも適用することができる。単一のチャンネルダウンミックスに対しては、一般に、チャンネル間差分を演算することができない。しかしながら、アンビエンス抽出は、空間サイド情報を考慮に入れることによって、この場合においても可能になる。
【0154】
本発明は、「オリジナル」の信号のアンビエンスレベルを推定するために、空間パラメータを利用するという点で有利である。それは、空間パラメータが既に「オリジナル」のステレオまたは多重チャンネル信号のチャンネル間差分に関する情報を含んでいるというコンセプトに基づいている。
【0155】
一旦オリジナルのステレオまたは多重チャンネルのアンビエンスレベルが推定されると、提供されたダウンミックスチャンネルにおけるダイレクトおよびアンビエンスレベルも抽出することができる。これは、アンビエント部分に対するアンビエンスエネルギーとダイレクト部分に対するダイレクトエネルギーまたは振幅の線形結合(すなわち重み付き和)によってなすことができる。それ故、本発明の実施形態は、空間サイド情報の助けによりアンビエンス推定および抽出を提供する。
【0156】
このコンセプトのサイド情報ベースの処理から拡張して、次の有益な特性または効果が存在する。
【0157】
本発明の実施形態は、空間サイド情報と提供されたダウンミックスチャンネルの助けによりアンビエンス推定を提供する。このようなアンビエンス推定は、サイド情報とともに提供される1つ以上のダウンミックスチャンネルがある場合に重要である。サイド情報と、ダウンミックスチャンネルから測定される情報は、アンビエンス推定において一緒に用いることができる。ステレオダウンミックスを備えるMPEGサラウンドにおいて、これらの2つの情報源は、オリジナルの多重チャンネルサウンドのチャンネル間関係の全部の情報を一緒に提供し、アンビエンス推定はこれらの関係に基づいている。
【0158】
本発明の実施形態は、また、ダイレクトエネルギーとアンビエンスエネルギーのダウンミックスを提供する。サイド情報ベースのアンビエンス抽出の記述された状況において、提供されたダウンミックスチャンネルより多いチャンネル数でアンビエンスを推定する中間ステップがある。それ故、このアンビエンス情報は、ダウンミックスオーディオチャンネル数に有効な方法でマップされなければならない。このプロセスは、オーディオチャンネルダウンミックスへの一致によりダウンミックスと称することができる。これは、提供されたダウンミックスチャンネルがダウンミックスされたのと同じ方法で、ダイレクトエネルギーとアンビエンスエネルギーを結合することによって、最も直接的になすことができる。
【0159】
ダウンミックスルールは、1つの理想的な解を持たないが、アプリケーションに依存しそうである。例えば、MPEGサラウンドにおいて、チャンネル(センター、正面のスピーカ、後部スピーカ)を、それらの通常は異なる信号コンテンツにより異なって処理することは有益になり得る。
【0160】
さらに、実施形態は、他のチャンネルに関して、多重チャンネルアンビエンス推定を各チャンネルにおいて独立に提供する。この特性/アプローチは、提案されたステレオアンビエンス推定式を、全ての他のチャンネルに関連する各チャンネルに簡単に使用することを可能にする。この測定によって、全てのチャンネルにおいて等しいアンビエンスレベルを仮定する必要がない。提案された方法は、各チャンネルにおけるアンビエント成分が全ての他のチャンネルのいくつかにおいてコヒーレント相当物を持つ成分であるという空間知覚についての仮定に基づいている。この仮定の有効性を示唆する例は、ノイズ(アンビエンス)を放射する2つのチャンネルうちの1つが、認知されたサウンドシーンに有意に影響を及ぼさずに、各々半分のエネルギーで更に2つのチャンネルに分割することができることである。
【0161】
信号処理に関して、実際のダイレクト/アンビエンスレシオ推定が、提案されたアンビエンス推定式を各チャンネル対全ての他のチャンネルの線形結合に適用することによって生ずることは、有益である。
【0162】
最後に、実施形態は、実際の信号を抽出するために、推定されたダイレクトアンビエンスエネルギーのアプリケーションを提供する。一旦ダウンミックスチャンネルにおけるアンビエンスレベルが知られると、アンビエンス信号を取得するために2つの発明の方法を適用することができる。第1の方法は、簡単な乗算に基づいており、各ダウンミックスチャンネルに対するダイレクトおよびアンビエント部分は、信号をsqrt(ダイレクトからトータルへのエネルギーレシオ)およびsqrt(アンビエントからトータルへのエネルギーレシオ)で乗算することによって生成することができる。これは、各ダウンミックスチャンネルに対して、お互いにコヒーレントであるが、ダイレクトおよびアンビエント部分が持つと推定されたエネルギーを持つ2つの信号を提供する。
【0163】
第2の方法は、チャンネルのクロスミックスによる最小平均二乗解法に基づいており、チャンネルクロスミックス(負符号によっても可能な)は、上記の解法より良好なダイレクト/アンビエンス信号の推定を可能にする。非特許文献3および特許文献2において提供されるステレオ入力とチャンネルにおける等しいアンビエンスレベルに対する最小平均解法と対比して、本発明は、等しいアンビエンスレベルを必要としない最小平均二乗解法を提供し、またいかなるチャンネル数にも拡張可能である。
【0164】
新規な処理の付加的な特性は、以下の通りである。バイノーラルレンダリングに対するアンビエンス処理において、アンビエンスは、現実の拡散音場における両耳間のコヒーレンスと同様の周波数バンドにおける両耳間のコヒーレンスを提供する特性を有するフィルタによって処理することができ、当該フィルタは、空間効果をも含むことができる。バイノーラルレンダリングに対するダイレクト部分の処理において、ダイレクト部分は、初期の反射および/または反響のような追加可能な空間効果を備えた頭部関連伝達関数(HRTFs)を通して供給することができる。
【0165】
この他に、ドライ/ウェット制御に対応する「分離レベル」の制御は、更なる実施形態において実現することができる。特に、完全な分離は、急激な変化、変調効果、その他のような聞き取れる人工産物に導く可能性があるので、多くのアプリケーションにおいて好ましくない可能性がある。それ故、記載されたプロセスの全ての関連する部分は、所望の、有用な分離の量を制御する「分離レベル」の制御によって実施することができる。図11に関して、このような分離レベルの制御は、それぞれ、ダイレクト/アンビエンス分離1120および/またはバイノーラルレンダリングデバイス910、1010を制御する破線ボックスの制御入力1105によって示される。この制御は、オーディオエフェクト処理におけるドライ/ウェット制御と同様に働くことができる。
【0166】
提案された解法の主な利点は、以下の通りである。システムは、ダウンミックス情報のみに依存する前の解法と異なって、すべての状況において、パラメータステレオおよびモノラルダウンミックスを備えるMPEGサラウンドとも連動する。このシステムは、更に、ダウンミックスチャンネルの簡単なチャンネル間解析によるよりも正確にダイレクトおよびアンビエンスエネルギーを推定するために、空間オーディオビットストリームにおいてオーディオ信号とともに伝達される空間サイド情報を利用することが可能である。それ故、バイノーラル処理のような多くのアプリケーションは、サウンドのダイレクトおよびアンビエント部分に対して異なる処理を適用することによって利益を得ることができる。
【0167】
実施形態は、次のサウンド心理学的仮説に基づいている。人間の聴覚システムは、時間‐周波数タイル(特定の周波数と時間範囲に限定された領域)における両耳間のキューに基づいて音源をローカライズする。時間と周波数においてオーバーラップする2つ以上の非コヒーレントな共存する音源が異なる位置において同時に存在する場合、聴覚システムは音源の位置を認知することができない。これは、これらの音源の合計が、リスナー上に、信頼できる両耳間のキューを生成しないからである。聴覚システムは、このように、信頼できるローカライズ情報を提供するクローズした時間‐周波数タイルをピックアップし、残りをローカライズできないものとして取り扱うように記述することができる。これらの手段によって、聴覚システムは、複雑なサウンド環境において音源をローカライズすることができる。同時に起こるコヒーレント音源は、異なる効果を有し、コヒーレント音源の間に単一の音源を形成される同じ両耳間のキューを近似的に形成する。
【0168】
これは、また、実施形態が利用する特性である。ローカライズ可能な(ダイレクト)サウンドとローカライズ不能な(アンビエンス)サウンドのレベルは、推定することができ、次にこれらの成分が抽出される。空間化信号処理は、ローカライズ可能な/ダイレクト部分にのみ適用され、一方、拡散性/開放性/エンベロープ処理は、ローカライズ不能な/アンビエント部分に適用される。これは、多くのプロセスが必要とされるところでのみ適用され、残りの信号が影響されないままにすることができるので、バイノーラル処理システムの設計において有意の利益を与える。全ての処理は、人間の聴覚の周波数分解能を近似する周波数バンドにおいて起こる。
【0169】
実施形態は、知覚品質を最大にするが、認知される問題点を最小にする信号の分解に基づいている。このような分解によって、オーディオ信号のダイレクト成分とアンビエント成分を分離して取得することが可能である。2つの成分は、次に、所望の効果または表現を得るために、更に処理することができる。
【0170】
具体的には、本発明の実施形態は、符号化ドメインにおいて空間サイド情報の助けによってアンビエンス推定を可能にする。
【0171】
本発明は、また、オーディオ信号のヘッドホン再生の代表的な問題を、信号をダイレクト信号とアンビエント信号に分離することによって低減することができるという点で有益である。実施形態は、既存のダイレクト/アンビエンス抽出方法を改善し、ヘッドホン再生のためのバイノーラルサウンドレンダリングに適用されるようにすることを可能にする。
【0172】
空間サイド情報ベースの処理の主要な使用のケースは、当然MPEGサラウンドとパラメータステレオ(および同様のパラメータコーディング技術)である。アンビエンス抽出から利益を受ける代表的なアプリケーションは、異なる程度の空間効果を異なる部分のサウンドに適用する能力によるバイノーラル再生と、異なる成分のサウンドを異なって位置決めおよび処理する能力による高いチャンネル数へのアップミックスである。また、例えば、音声了解度を強化する目的のために、ユーザがダイレクト/アンビエンスレベルの修正を必要とするアプリケーションが存在することができる。
【技術分野】
【0001】
本発明は、オーディオ信号処理に関し、特に、ダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置および方法に関する。本発明の更なる実施形態は、オーディオ信号のバイノーラル再生を強化するためのダイレクト/アンビエンス分離の利用に関する。また更なる実施形態は、二つ以上のチャンネルを有する多重チャンネルサウンドのバイノーラル再生に関する。多重チャンネルサウンドを有する代表的なオーディオコンテンツは、映画のサウンドトラックと多重チャンネルの音楽レコーディングである。
【背景技術】
【0002】
人間の空間聴覚システムは、おおよそ2つの部分においてサウンドを処理する傾向がある。一方において、ローカライズ可能な部分、言い換えればダイレクト部分であり、他方において、ローカライズ不能な部分、言い換えればアンビエント部分である。これらの2つのオーディオ成分にアクセスすることが望ましいバイノーラルサウンド再生や多重チャンネルアップミックスのような多くのオーディオ処理アプリケーションが存在する。
【0003】
従来技術において、非特許文献1、非特許文献2、非特許文献3、特許文献1、特許文献2、および特許文献3において解説されたようなダイレクト/アンビエンス分解の方法が知られており、さまざまなアプリケーションに用いることができる。最新技術のダイレクト‐アンビエンス分離アルゴリズムは、周波数バンドにおけるステレオサウンドのチャンネル間信号比較に基づいている。
【0004】
さらに、非特許文献4において、アンビエンス抽出を備えたバイノーラル再生が言及されている。バイノーラル再生に関連するアンビエンス抽出は、非特許文献5においても言及されている。後者の論文は、各々のチャンネルにおけるダイレクト成分の適応な最小平均二乗クロスチャンネルフィルタリングを用いて、ステレオマイクロホン録音におけるアンビエンス抽出にフォーカスしている。空間オーディオコーデック、例えばMPEGサラウンドは、非特許文献6および非特許文献7に記載されているように、通常は、オーディオを多重チャンネルに拡張する空間サイド情報と組合せた1つまたは2つのチャンネルオーディオストリームから成る。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】「空間オーディオ符号化および強化のための主要アンビエンス信号分解とベクトルベースのローカライズ」、Goodwin、Jot、音響・音声および信号処理に関するIEEE国際会議、2007年4月
【非特許文献2】「ステレオ録音からの相関ベースのアンビエンス抽出」、Merimaa、Goodwin、Jot、AES第123回大会、ニューヨーク、2007年
【非特許文献3】「ステレオ信号の多重スピーカ再生」、C. Faller、AESジャーナル、2007年10月
【非特許文献4】「空間オーディオシーン符号化に基づくバイノーラル3次元オーディオレンダリング」、Goodwin、Jot、AES第123回大会、ニューヨーク2007年
【非特許文献5】J. UsherおよびJ. Benesty、「空間音響品質の強化:新規な反響抽出オーディオアップミックス装置」、IEEEオーディオ・音声・言語処理議事録、第15巻、2141‐2150頁、2007年9月
【非特許文献6】ISO/IEC23003‐1 MPEGサラウンド
【非特許文献7】Breebaart, J.、Herre, J.、Villemoes, L.、Jin, C.、Kjoerling, K.、Plogsties, J.、Koppens, J.、「多重チャンネルはモバイルに進む:MPEGサラウンド・バイノーラル・レンダリング」、第29回AES会議議事録、ソウル、韓国、2006年
【特許文献】
【0006】
【特許文献1】「複合類似度インデックスを用いたステレオオーディオ信号の主要アンビエンス分解」、Goodwin 他、米国特許公報第2009/0198356号公報、2009年8月
【特許文献2】「特許出願名称:ステレオ信号から多重チャンネルオーディオ信号を生成する方法」、発明者:Christof Faller、代理人:FISH & RICHARDSON P.C.、承継人:LG ELECTRONICS, INC.、出所:MINNEAPOLIS, MN US、IPC8クラス:AH04R500FI、USPCクラス:381 1
【特許文献3】「ステレオ信号のためのアンビエンス生成」、Avendano 他、発行日:2009年7月28日、出願番号:10/163,158、出願日:2002年6月4日
【発明の概要】
【0007】
しかしながら、MPEGサラウンド(MPS)およびパラメータステレオ(PS)のような最新のパラメータオーディオ符号化技術は、付加的な空間サイド情報に加えて、低減された数の‐いくつかのケースではただ1つの‐オーディオダウンミックスチャンネルを提供するだけである。「オリジナル」の入力チャンネル間の比較は、サウンドの意図された出力フォーマットへの最初の復号化の後で可能となるだけである。
【0008】
それ故、ダウンミックス信号および空間パラメータ情報からダイレクト信号部分またはアンビエント信号部分を抽出するコンセプトが必要である。しかしながら、パラメータサイド情報を用いたダイレクト/アンビエンス抽出に対する既存の解法はない。
【0009】
それ故に、本発明の目的は、空間パラメータ情報の使用によって、ダウンミックス信号からダイレクト信号部分またはアンビエント信号部分を抽出するコンセプトを提供することである。
【0010】
この目的は、請求項1に記載の装置、請求項15に記載の方法、または請求項16に記載のコンピュータプログラムによって達成される。
【0011】
本発明の根底にある基本概念は、空間パラメータ情報に基づいて多重チャンネルオーディオ信号のダイレクト部分またはアンビエント部分のレベル情報が推定され、推定されたレベル情報に基づいてダウンミックス信号からダイレクト信号部分またはアンビエント信号部分が抽出されるときに、上述のダイレクト/アンビエンス抽出を達成することができるということである。ここで、ダウンミックス信号と空間パラメータ情報は、ダウンミックス信号より多くのチャンネルを有する多重チャンネルオーディオ信号を表す。この尺度は、空間パラメータサイド情報を用いることによって、1つ以上の入力チャンネルを有するダウンミックス信号からダイレクトおよび/またはアンビエンス抽出を可能とする。
【0012】
本発明の一実施形態によれば、ダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置は、ダイレクト/アンビエンス推定器およびダイレクト/アンビエンス抽出器を備える。ダウンミックス信号と空間パラメータ情報は、ダウンミックス信号より多くのチャンネルを有する多重チャンネルオーディオ信号を表す。さらに、空間パラメータ情報は、多重チャンネルオーディオ信号のチャンネル間関係を備える。ダイレクト/アンビエンス推定器は、空間パラメータ情報に基づいて、多重チャンネルオーディオ信号のダイレクト部分またはアンビエント部分のレベル情報を推定するように構成される。ダイレクト/アンビエンス抽出器は、ダイレクト部分またはアンビエント部分の推定レベル情報に基づいて、ダウンミックス信号から、ダイレクト信号部分またはアンビエント信号部分を抽出するように構成される。
【0013】
本発明の他の実施形態によれば、ダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置は、バイノーラル・ダイレクトサウンド・レンダリングデバイス、バイノーラル・アンビエントサウンド・レンダリングデバイスおよび結合器を更に備える。バイノーラル・ダイレクトサウンド・レンダリングデバイスは、ダイレクト信号部分を処理し、第1のバイノーラル出力信号を取得するように構成される。バイノーラル・アンビエントサウンド・レンダリングデバイスは、アンビエント信号部分を処理し、第2のバイノーラル出力信号を取得するように構成される。結合器は、第1のバイノーラル出力信号と第2のバイノーラル出力信号を組合せ、複合バイノーラル出力信号を取得するように構成される。従って、オーディオ信号のダイレクト信号部分およびアンビエント信号部分が別々に処理されるオーディオ信号のバイノーラル再生を提供することができる。
【図面の簡単な説明】
【0014】
以下において、本発明の実施形態が、以下の添付図面を参照して説明される。
【図1】多重チャンネルオーディオ信号を表すダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置の一実施形態のブロック図を示す。
【図2】パラメータステレオオーディオ信号を表すモノラルダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置の一実施形態のブロック図を示す。
【図3a】本発明の一実施形態に係る多重チャンネルオーディオ信号のスペクトル分解の図解図を示す。
【図3b】図3aのスペクトル分解に基づく多重チャンネルオーディオ信号のチャンネル間関係を計算する図解図を示す。
【図4】推定レベル情報のダウンミックスを備えるダイレクト/アンビエンス抽出器の実施形態のブロック図を示す。
【図5】ゲインパラメータをダウンミックス信号に適用することによるダイレクト/アンビエンス抽出器の更なる実施形態のブロック図を示す。
【図6】チャンネルクロスミックスを備えたLMS解法に基づくダイレクト/アンビエンス抽出器の更なる実施形態のブロック図を示す。
【図7a】ステレオアンビエンス推定式を用いたダイレクト/アンビエンス推定器の実施形態のブロック図を示す。
【図7b】例示的なダイレクトからトータルへのエネルギーレシオ対チャンネル間コヒーレンスのグラフを示す。
【図8】本発明の実施形態に係るエンコーダ/デコーダシステムのブロック図を示す。
【図9a】本発明の実施形態に係るバイノーラル・ダイレクトサウンド・レンダリングの概観のブロック図を示す。
【図9b】図9aのバイノーラル・ダイレクトサウンド・レンダリングの詳細のブロック図を示す。
【図10a】本発明の実施形態に係るバイノーラル・アンビエントサウンド・レンダリングの概観のブロック図を示す。
【図10b】図10aのバイノーラル・アンビエントサウンド・レンダリングの詳細のブロック図を示す。
【図11】多重チャンネルオーディオ信号のバイノーラル再生の実施形態の概念的ブロック図を示す。
【図12】バイノーラル再生を含むダイレクト/アンビエンス抽出の実施形態の全体ブロック図を示す。
【図13a】フィルタバンクドメインにおいてモノラルダウンミックス信号からダイレクト/アンビエント信号を抽出する装置の実施形態のブロック図を示す。
【図13b】図13aのダイレクト/アンビエンス抽出の実施形態のブロック図を示す。
【図14】本発明の更なる実施形態に係る例示的なMPEGサラウンド復号化スキームの図解図を示す。
【発明を実施するための形態】
【0015】
図1は、ダウンミックス信号115と空間パラメータ情報105から、ダイレクト/アンビエンス信号125‐1、125‐2を抽出する装置100の実施形態のブロック図を示す。図1に示されるように、ダウンミックス信号115と空間パラメータ情報105は、ダウンミックス信号115より多いチャンネルCh1…ChNを有する多重チャンネルオーディオ信号101を表す。空間パラメータ情報105は、多重チャンネルオーディオ信号101のチャンネル間関係を備えることができる。特に、装置100は、ダイレクト/アンビエンス推定器110とダイレクト/アンビエンス抽出器120を備える。ダイレクト/アンビエンス推定器110は、空間パラメータ情報105に基づいて、多重チャンネルオーディオ信号101のダイレクト部分またはアンビエント部分のレベル情報113を推定するように構成することができる。ダイレクト/アンビエンス抽出器120は、ダイレクト部分またはアンビエント部分の推定レベル情報113に基づいて、ダウンミックス信号115からダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成することができる。
【0016】
図2は、パラメータステレオオーディオ信号201を表すモノラルダウンミックス信号215と空間パラメータ情報105からダイレクト/アンビエンス信号125‐1、125‐2を抽出する装置200の実施形態のブロック図を示す。図2の装置200は、図1の装置100と同じブロックを基本的に備える。それ故、同様の実施態様および/または機能を有する同一のブロックは、同じ符号で示される。さらに、図2のパラメータステレオオーディオ信号201は、図1の多重チャンネルオーディオ信号101に相当することができ、図2のモノラルダウンミックス信号215は、図1のダウンミックス信号115に相当することができる。図2の実施形態において、モノラルダウンミックス信号215と空間パラメータ情報105は、パラメータステレオオーディオ信号201を表す。パラメータステレオオーディオ信号は、『L』で示される左チャンネルと、『R』で示される右チャンネルを備えることができる。ここで、ダイレクト/アンビエンス抽出器120は、ダイレクト/アンビエンス推定器110を用いることによって空間パラメータ情報105から導き出すことができる推定レベル情報113に基づいて、モノラルダウンミックス信号215からダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成される。
【0017】
実際には、図1または図2の実施形態における空間パラメータ(空間パラメータ情報105)は、それぞれ、MPEGサラウンド(MPS)またはパラメータステレオ(PS)サイド情報に特に関連する。これらの2つの技術は、最新技術の低ビットレートステレオまたはサラウンドオーディオ符号化方法である。図2を参照すると、PSは、空間パラメータを備えた1つのダウンミックスオーディオチャンネルを提供し、図1を参照すると、MPSは、空間パラメータを備えた1つ、2つ、またはそれ以上のダウンミックスオーディオチャンネルを提供する。
【0018】
具体的には、図1と図2の実施形態は、空間パラメータサイド情報105を、1つ以上の入力チャンネルを有する信号(すなわち、ダウンミックス信号115;215)からのダイレクトおよび/またはアンビエンス抽出の分野において直ちに用いることができることを明らかに示している。
【0019】
【0020】
【0021】
ここで、Chiは検査チャンネルであり、Rは残りのチャンネルの線形結合であり、<…>は時間平均を示す。残りのチャンネルの線形結合Rの例は、それらのエネルギー正規化された合計である。なお、チャンネルレベル差(CLDi)は、通常はパラメータのデシベル値である。
【0022】
上記の式に関して、チャンネルレベル差(CLDi)またはパラメータσiは、残りのチャンネルの線形結合RのレベルPRに正規化されたチャンネルChiのレベルPiに相当することができる。ここで、レベルPiまたはPRは、チャンネルChiのチャンネル間レベル差パラメータICLDiと、残りのチャンネルのチャンネル間レベル差パラメータICLDj(j≠i)の線形結合ICLDRから導き出すことができる。
【0023】
ここで、ICLDiとICLDjは、それぞれ基準チャンネルChrefに関係づけることができる。更なる実施形態において、チャンネル間レベル差パラメータICLDiとICLDjは、基準チャンネルChrefである多重チャンネルオーディオ信号(Ch1…ChN)の他のいかなるチャンネルにも関係づけることができる。これは、結局、チャンネルレベル差(CLDi)またはパラメータσiに対して、同じ結果に導く。
【0024】
更なる実施形態によれば、図3bのチャンネル間関係335は、また、多重チャンネルオーディオ信号(Ch1…ChN)の入力チャンネルの異なるまたは全てのペアChi、Chjに関して演算することによって導き出すことができる。この場合、ペアに関して計算されたチャンネル間コヒーレンスパラメータICCi,jまたはチャンネルレベル差(CLDi,j)またはパラメータσi,j(またはICLDi,j)を取得することができ、インデックス(i、j)は、それぞれチャンネルChiとChjの特定のペアを示す。
【0025】
図4は、推定レベル情報113のダウンミックスを含むダイレクト/アンビエンス抽出器420の実施形態400のブロック図を示す。図4の実施形態は、図1の実施形態と同じブロックを基本的に備える。それ故、同様の実施態様および/または機能を有する同一のブロックは、同じ符号で示される。しかしながら、図1のダイレクト/アンビエンス抽出器120に相当することができる図4のダイレクト/アンビエンス抽出器420は、多重チャンネルオーディオ信号のダイレクト部分またはアンビエント部分の推定レベル情報113をダウンミックスし、ダイレクト部分またはアンビエント部分のダウンミックスされたレベル情報を取得し、ダウンミックスされたレベル情報に基づいてダウンミックス信号115からダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成される。図4に示されるように、空間パラメータ情報105は、例えば、図1の多重チャンネルオーディオ信号101(Ch1…ChN)から導き出すことができ、図3bにおいて導入されたCh1…ChNのチャンネル間関係335を備えることができる。図4の空間パラメータ情報105は、また、ダイレクト/アンビエンス抽出器420に供給されるダウンミックス情報410を備えることができる。実施形態において、ダウンミックス情報410は、オリジナルの多重チャンネルオーディオ信号(例えば図1の多重チャンネルオーディオ信号101)のダウンミックス信号115へのダウンミックスを特徴づけることができる。ダウンミックスは、例えば、時間ドメインまたはスペクトルドメインのようないかなる符号化ドメインにおいても動作するダウンミキサ(図示せず)を用いて実行することができる。
【0026】
更なる実施形態によれば、ダイレクト/アンビエンス抽出器420は、また、ダイレクト部分の推定レベル情報をコヒーレント和と結合し、アンビエント部分の推定レベル情報を非コヒーレント和と結合することによって、多重チャンネルオーディオ信号101のダイレクト部分またはアンビエント部分の推定レベル情報113のダウンミックスを実行するように構成することができる。
【0027】
推定レベル情報は、それぞれダイレクト部分またはアンビエント部分のエネルギーレベルまたはパワーレベルを表すことができることが指摘される。
【0028】
特に、推定されたダイレクト/アンビエント部分のエネルギー(すなわちレベル情報113)のダウンミックスは、チャンネル間の完全な非コヒーレンスまたは完全なコヒーレンスを仮定することによって実行することができる。非コヒーレント和またはコヒーレント和に基づくダウンミックスの場合に適用することができる2つの数式は、それぞれ以下の通りである。
【0029】
【0030】
【0031】
【0032】
図5は、ゲインパラメータgD、gAをダウンミックス信号115に適用することによるダイレクト/アンビエンス抽出器520の更なる実施形態を示す。図5のダイレクト/アンビエンス抽出器520は、図4のダイレクト/アンビエンス抽出器420に相当する。最初に、前に記載されているように、ダイレクト部分545‐1またはアンビエント部分545‐2の推定レベル情報は、ダイレクト/アンビエンス推定器から受信することができる。受信されたレベル情報545‐1、545‐2は、ステップ550において、それぞれ、結合され/ダウンミックスされ、ダイレクト部分555‐1またはアンビエント部分555‐2のダウンミックスされたレベル情報を取得することができる。次に、ステップ560において、ゲインパラメータgD 565‐1またはgA 565‐2は、それぞれ、ダイレクト部分またはアンビエント部分に対するダウンミックスされたレベル情報555‐1、555‐2から導き出すことができる。最後に、ダイレクト/アンビエンス抽出器520は、ダイレクト信号部分125‐1またはアンビエント信号部分125‐2が取得されるように、導き出されたゲインパラメータ565‐1、565‐2をダウンミックス信号115に適用するために用いることができる(ステップ570)。
【0033】
ここで、図1、4、5の実施形態において、ダウンミックス信号115は、それぞれ、ダイレクト/アンビエンス抽出器120;420;520の入力に存在する複数のダウンミックスチャンネル(Ch1…ChM)から構成できることに注意すべきである。
【0034】
更なる実施形態において、ダイレクト/アンビエンス抽出器520は、ダイレクト部分またはアンビエント部分のダウンミックスされたレベル情報555‐1、555‐2から、ダイレクトからトータルへの(DTT)またはアンビエントからトータルへの(ATT)エネルギーレシオを決定し、決定されたDTTまたはATTエネルギーレシオに基づいて、抽出パラメータを、ゲインパラメータ565‐1、565‐2として用いるように構成される。
【0035】
さらに他の実施形態において、ダイレクト/アンビエンス抽出器520は、ダウンミックス信号115に、第1の抽出パラメータsqrt(DTT)を乗算してダイレクト信号部分125‐1を取得し、第2の抽出パラメータsqrt(ATT)を乗算してアンビエント信号部分125‐2を取得するように構成される。ここで、ダウンミックス信号115は、図2の実施形態(モノラルダウンミックスケース)に示されるように、モノラルダウンミックス信号215に相当する。
【0036】
モノラルダウンミックスケースにおいて、アンビエンス抽出は、sqrt(ATT)とsqrt(DTT)を適用することによってなすことができる。しかしながら、同じアプローチは、特に、各チャンネルChiに対してsqrt(ATTi)とsqrt(DTTi)を適用することによって、多重チャンネルダウンミックス信号に対しても有効である。
【0037】
更なる実施形態によれば、ダウンミックス信号115が複数のチャンネルを備える場合(多重チャンネルダウンミックスケース)、ダイレクト/アンビエンス抽出器520は、第1の複数の抽出パラメータ、例えばsqrt(DTTi))をダウンミックス信号115に適用してダイレクト信号部分125‐1を取得し、第2の複数の抽出パラメータ、例えばsqrt(ATTi))をダウンミックス信号115に適用してアンビエント信号部分125‐2を取得するように構成することができる。ここで、第1と第2の複数の抽出パラメータは、対角行列を構成することができる。
【0038】
一般に、ダイレクト/アンビエンス抽出器120;420;520は、また、二次のM×M抽出マトリックスをダウンミックス信号115に適用することによってダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成することができ、二次のM×M抽出マトリックスのサイズ(M)はダウンミックスチャンネル(Ch1…ChM)の数(M)に相当する。
【0039】
アンビエンス抽出のアプリケーションは、それ故、二次のM×M抽出マトリックスを適用することによって記述することができ、ここで、Mはダウンミックスチャンネル(Ch1…ChM)の数である。これは、入力信号を操作してダイレクト/アンビエンス出力を得る全ての可能な方法を含むことができ、対角行列として構成される二次のM×M抽出マトリックスの主要要素を表すsqrt(ATTi)とsqrt(DTTi)パラメータに基づく比較的簡単な方法、または完全なマトリックスとして構成されるLMSクロスミックスアプローチを含む。後者は、以下に記載される。ここで、M×M抽出マトリックスを適用する上記のアプローチは、1つを含むいかなるチャンネル数もカバーすることに注意すべきである。
【0040】
更なる実施形態によれば、抽出マトリックスは、より少ない出力チャンネル数を有することができるので、必ずしもマトリックスサイズM×Mの二次マトリックスである必要はない。それ故、抽出マトリックスは、低減された行数を有することができる。この例は、Mの代わりに単一のダイレクト信号を抽出する。
【0041】
また、抽出マトリックスのM列を有することに対応する入力として、全てのM個のダウンミックスチャンネルを常にとる必要はない。これは、特に、入力として全てのチャンネルを有することを必要としないアプリケーションに関連することができる。
【0042】
図6は、チャンネルクロスミックスを備えるLMS(最小平均二乗)解法に基づくダイレクト/アンビエンス抽出器620の更なる実施形態600のブロック図を示す。図6のダイレクト/アンビエンス抽出器620は、図1のダイレクト/アンビエンス抽出器120に相当することができる。図6の実施形態において、図1の実施形態と同様の実施態様および/または機能を有する同一のブロックは、それ故、同じ符号で示される。しかしながら、図1のダウンミックス信号115に相当することができる図6のダウンミックス信号615は、複数のダウンミックスチャンネルCh1…ChM 617を備えることができ、ダウンミックスチャンネル数(M)は、多重チャンネルオーディオ信号101のチャンネルCh1…ChN(N)のそれより小さい(すなわちM<N)。具体的には、ダイレクト/アンビエンス抽出器620は、チャンネルクロスミックスを備える最小平均二乗(LMS)解法によってダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成され、LMS解法は等しいアンビエンスレベルを必要としない。等しいアンビエンスレベルを必要とせず、いかなるチャンネル数にも拡張可能であるLMS解法は、以下において提供される。ちょうど言及されたLMS解法は、必須ではないが、上記に対してより正確な変形例を表す。
【0043】
ダイレクト/アンビエンス抽出のためのクロスミックス重みに対して、LMS解法において使用されるシンボルは、以下の通りである。
【0044】
Chi: チャンネルi
ai: チャンネルiにおけるダイレクトサウンドのゲイン
DおよびD^: サウンドのダイレクト部分およびその推定
AiおよびAi^: チャンネルiのアンビエント部分およびその推定
Px=E[XX*]: Xの推定エネルギー
E[ ]: 期待値
Ex: Xの推定誤差
wDi: チャンネルiに対するダイレクト部分へのLMSクロスミックス重み
wAi,n: チャンネルnに対するチャンネルiのアンビエンスへのLMSクロスミックス重み
【0045】
この文脈において、LMS解法の導出は、多重チャンネルオーディオ信号のそれぞれのチャンネルのスペクトル表現に基づくことができ、それはすべてが周波数バンドにおいて機能することを意味することに注意すべきである。
【0046】
【0047】
導出は、最初に、a)ダイレクト部分を、次に、b)アンビエント部分を取扱う。最後に、重みに対する解法が導き出され、重みの正規化の方法が記述される。
【0048】
a)ダイレクト部分
【0049】
【0050】
【0051】
【0052】
【0053】
b)アンビエント部分
【0054】
【0055】
【0056】
【0057】
マトリックス形式において、上記の関係は次式のように読み取れる。
【0058】
重みに対する解法
【0059】
【0060】
【0061】
重みの正規化
【0062】
重みは、LMS解法に対するものであるが、エネルギーレベルは保存されなければならないので、重みは正規化される。これは、また、上記の式において不必要な項divによる除算をなす。正規化は、出力ダイレクトおよびアンビエントチャンネルのエネルギーがPDおよびPAi(ここで、iはチャンネルインデックス)であることを確保することによって生ずる。
【0063】
【0064】
【0065】
【0066】
【0067】
特に、上記を参照して、ダイレクト/アンビエンス抽出器620は、LMS解法がステレオチャンネルのダウンミックス信号に限定されないように、安定な多重チャンネル信号モデルとみなすことによってLMS解法を導出するように構成することができる。
【0068】
【0069】
チャンネルChiのチャンネルレベル差(CLDi)またはパラメータσiとチャンネル間コヒーレンスパラメータ(ICCi)の依存性を明確に示すことができる。図7において図示されるように、空間パラメータ情報105は、ダイレクト/アンビエンス推定器710に供給され、各チャンネルChiに対するチャンネル間関係パラメータICCiとσiを備えることができる。このステレオアンビエンス推定式を、ダイレクト/アンビエンス推定器710を用いて適用した後、ダイレクトからトータルへの(DTTi)またはアンビエントからトータルへの(ATTi)エネルギーレシオは、それぞれ、その出力715において取得される。それぞれのDTTまたはATTエネルギーレシオを推定するために用いられる上記のステレオアンビエンス推定式は、等しいアンビエンスの状態に基づいていないことに注意する必要がある。
【0070】
【0071】
【0072】
図7bは、例示的なDTT(ダイレクトからトータルへの)エネルギーレシオ760のグラフ750を、チャンネル間コヒーレンスパラメータICC 770の関数として示す。図7bの実施形態において、チャンネルChiのレベルP(Chi)と残りのチャンネルの線形結合RのレベルP(R)が等しくなるように、チャンネルレベル差(CLD)またはパラメータσは、例示的に1セットされている(σ=1)。この場合、DTTエネルギーレシオ760は、DTT〜ICCによってマークされた直線775によって示されるように、ICCパラメータに線形に比例する。図7bにおいて、完全に非コヒーレントなチャンネル間関係に相当することができるICC=0の場合には、完全にアンビエントな状況(ケース『R1』)に相当することができるDTTエネルギーレシオ760は0になることがわかる。しかしながら、完全にコヒーレントなチャンネル間関係に相当することができるICC=1の場合には、完全にダイレクトな状況(ケース『R2』)に相当することができるDTTエネルギーレシオ760は1とすることができる。それ故、R1のケースにおいて、基本的にチャンネル内にそのチャンネルのトータルエネルギーに関してダイレクトエネルギーがなく、一方R2のケースにおいて、アンビエントエネルギーがない。
【0073】
図8は、本発明の更なる実施形態に係るエンコーダ/デコーダシステム800のブロック図を示す。エンコーダ/デコーダシステム800のデコーダ側において、図1の装置100に相当することができるデコーダ820の実施形態が示される。図1と図8の実施形態の類似性のため、これらの実施形態において同様の実施態様および/または機能を有する同一のブロックは、同じ符号で示される。図8の実施形態に示されるように、ダイレクト/アンビエンス抽出器120は、複数のダウンミックスチャンネルCh1…ChMを有するダウンミックス信号115について動作することができる。図8のダイレクト/アンビエンス推定器110は、多重チャンネルオーディオ信号101のダイレクト部分またはアンビエント部分のレベル情報113が、空間パラメータ情報105に加えて、受信される少なくとも2つのダウンミックスチャンネル825に基づいて推定されるように、ダウンミックス信号815の少なくとも2つのダウンミックスチャンネル825を受信する(オプション)ように更に構成することができる。最後に、ダイレクト信号部分125‐1またはアンビエント信号部分125‐2は、ダイレクト/アンビエンス抽出器120による抽出の後に取得される。
【0074】
エンコーダ/デコーダシステム800のエンコーダ側において、多重チャンネルオーディオ信号(Ch1…ChN)を多数のダウンミックスチャンネルCh1…ChMを有するダウンミックス信号115にダウンミックスし、チャンネル数がNからMに低減されるダウンミキサー815を備えることができるエンコーダ810の実施形態が示される。ダウンミキサー815は、また、多重チャンネルオーディオ信号101からチャンネル間関係を計算することによって、空間パラメータ情報105を出力するように構成することができる。図8のエンコーダ/デコーダシステム800において、ダウンミックス信号115と空間パラメータ情報105は、エンコーダ810からデコーダ820に送信することができる。ここで、エンコーダ810は、エンコーダ側からデコーダ側への送信に対して、ダウンミックス信号115と空間パラメータ情報105に基づいて符号化信号を導き出すことができる。さらに、空間パラメータ情報105は、多重チャンネルオーディオ信号101のチャンネル情報に基づいている。
【0075】
一方では、チャンネル間関係パラメータσi(Chi、R)とICCi(Chi、R)は、エンコーダ810において、チャンネルChiと残りのチャンネルの線形結合Rの間で計算し、符号化信号の中で送信することができる。デコーダ820は、次に、符号化信号を受信し、送信されたチャンネル間関係パラメータσi(Chi、R)とICCi(Chi、R)について動作することができる。
【0076】
他方では、エンコーダ810は、また、送信される異なるチャンネルのペア(Chi、Chj)の間のチャンネル間コヒーレンスパラメータICCi,jを計算するように構成することができる。この場合、デコーダ810は、以前に記載されている対応する実施形態を実現することができるように、送信されたペアに関して計算されたICCi,j(Chi、Chj)パラメータから、チャンネルChiと残りのチャンネルの線形結合Rの間のパラメータICCi(Chi、R)を導き出すことが可能でなければならない。この文脈において、デコーダ820は、ダウンミックス信号115の知識だけからパラメータICCi(Chi、R)を復元することができない点に注意すべきである。
【0077】
実施形態において、送信された空間パラメータは、ペアに関するチャンネル比較についてだけではない。
【0078】
たとえば、最も代表的なMPSのケースは、2つのダウンミックスチャンネルがあるということである。MPS復号化における空間パラメータの第1のセットは、2つのチャンネルを3つ:センター、レフトおよびライトにする。このマッピングを導くパラメータのセットは、センター予測係数(CPC)と、この2から3への構成に特有のICCパラメータと呼ばれる。
【0079】
空間パラメータの第2のセットは、各々を次の2つに分ける。すなわち、サイドチャンネルを対応する前後のチャンネルに、センターチャンネルをセンターとLfeチャンネルに分ける。このマッピングは、前に導入されたICCとCLDパラメータに関する。
【0080】
すべての種類のダウンミックス構成とすべての種類の空間パラメータに対する計算ルールを作ることは、実際的でない。しかしながら、仮想的に、ダウンミックスステップに従うことは、実際的である。我々は、どのようにして2つのチャンネルが3つになり、3つが6つになるかを知っているので、結局は、どのように2つの入力チャンネルが6つの出力に割り振られるかの入出力関係を見つける。出力は、ダウンミックスチャンネルの線形結合に加えてそれらの非相関化バージョンの線形結合のみである。出力信号を実際に復号化し、それを測る必要はないが、我々は、この「復号化マトリックス」を知っているので、パラメータドメインにおいて、いかなるチャンネルまたはチャンネルの組合せの間のICCとCLDパラメータも演算処理上能率的に計算することができる。
【0081】
【0082】
【0083】
【0084】
【0085】
【0086】
また、上記の数式の全ての部分は入力の線形結合に加えて非相関化された信号であるので、解法は直接的に利用可能である。
【0087】
上記の例は2つの出力チャンネル比較を備えていたが、同様に、後述される例示的プロセスのような出力チャンネルの線形結合間の比較をすることができる。
【0088】
前の実施形態の概要において、提案された技術/コンセプトは、以下のステップを備えることができる。
1.ダウンミックスチャンネル数より多いことができる「オリジナル」のチャンネルセットのチャンネル間関係(コヒーレンス、レベル)を取り出す。
2.この「オリジナル」のチャンネルセットのアンビエンスエネルギーとダイレクトエネルギーを推定する。
3.この「オリジナル」のチャンネルセットのダイレクトエネルギーとアンビエンスエネルギーを、少ないチャンネル数にダウンミックスする。
4.ダウンミックスされたエネルギーを用い、ゲイン係数またはゲインマトリックスを適用することによって、提供されたダウンミックスチャンネルにおけるダイレクト信号とアンビエンス信号を抽出する。
【0089】
空間パラメータサイド情報の使用は、図2の実施形態によって最もよく説明され、要約されている。図2の実施形態において、単一のオーディオチャンネルとそれが表すステレオサウンドのチャンネル間差分(コヒーレンス、レベル)に関する空間サイド情報を含む、パラメータステレオストリームを持つ。ここで、我々は、チャンネル間差分を知っているので、上記のステレオアンビエンス推定式をそれらに適用し、オリジナルのステレオチャンネルのダイレクトエネルギーとアンビエンスエネルギーを得ることができる。次に、ダイレクトエネルギーを(コヒーレント和と)、アンビエンスエネルギーを(非コヒーレント和と)一緒に加算することによって、チャンネルエネルギーを「ダウンミックス」することができ、単一のダウンミックスチャンネルのダイレクトからトータルへのエネルギーレシオとアンビエントからトータルへのエネルギーレシオを抽出することができる。
【0090】
図2の実施形態を参照して、空間パラメータ情報は、それぞれパラメータステレオオーディオ信号の左チャンネル(L)と右チャンネル(R)に対応するチャンネル間コヒーレンスパラメータ(ICCL、ICCR)とチャンネルレベル差パラメータ(CLDL、CLDR)を基本的に備える。ここで、チャンネル間コヒーレンスパラメータICCLとICCRは、等しい(ICCL=ICCR)が、チャンネルレベル差パラメータCLDLとCLDRは、CLDL=−CLDRの関係にある点に注意すべきである。同様に、チャンネルレベル差パラメータCLDLとCLDRは、通常はそれぞれパラメータσLとσRのデシベル値であるので、左チャンネル(L)と右チャンネル(R)に対するパラメータσLとσRは、σL=1/σRの関係にある。これらのチャンネル間差分パラメータは、ステレオアンビエンス推定式に基づいて、両方のチャンネル(L、R)に対して、それぞれのダイレクトからトータルへのエネルギーレシオ(DTTL、DTTR)とアンビエントからトータルへのエネルギーレシオ(ATTL、ATTR)を計算するために直ちに用いることができる。ステレオアンビエンス推定式において、左チャンネル(L)のダイレクトからトータルへのエネルギーレシオとアンビエントからトータルへのエネルギーレシオ(DTTL、ATTL)は、左チャンネルLに対するチャンネル間差分パラメータ(CLDL、ICCL)に依存し、一方、右チャンネル(R)のダイレクトからトータルへのエネルギーレシオとアンビエントからトータルへのエネルギーレシオ(DTTR、ATTR)は、右チャンネルRに対するチャンネル間差分パラメータ(CLDR、ICCR)に依存する。さらに、パラメータステレオオーディオ信号の両方のチャンネルL、Rに対するエネルギー(EL、ER)は、それぞれ、左チャンネル(L)と右チャンネル(R)に対するチャンネルレベル差パラメータ(CLDL、CLDR)に基づいて導き出すことができる。ここで、左チャンネルLに対するエネルギー(EL)は、左チャンネルL対するチャンネルレベル差パラメータ(CLDL)をモノラルダウンミックス信号に適用することによって取得することができ、一方、右チャンネルRに対するエネルギー(ER)は、右チャンネルRに対するチャンネルレベル差パラメータ(CLDR)をモノラルダウンミックス信号に適用することによって取得することができる。次に、両チャンネル(L、R)に対するエネルギー(EL、ER)を対応するDTTL、DTTR、およびATTL、ATTRベースのパラメータと乗算することによって、両チャンネル(L、R)に対するダイレクトエネルギー(EDL、EDR)とアンビエンスエネルギー(EAL、EAR)が取得される。次に、両チャンネル(L、R)に対するダイレクトエネルギー(EDL、EDR)は、コヒーレントダウンミックスルールを用いることによって結合/加算し、モノラルダウンミックス信号のダイレクト部分に対するダウンミックスされたエネルギー(ED、mono)を取得することができ、一方、両チャンネル(L、R)に対するアンビエンスエネルギー(EAL、EAR)は、非コヒーレントダウンミックスルールを用いることによって結合/加算し、モノラルダウンミックス信号のダイレクト部分に対するダウンミックスされたエネルギー(EA、mono)を取得することができる。次に、ダイレクト信号部分およびアンビエント信号部分に対するダウンミックスされたエネルギー(ED、mono、EA、mono)を、モノラルダウンミックス信号のトータルエネルギー(Emono)に関連づけることによって、モノラルダウンミックス信号のダイレクトからトータルへのエネルギーレシオ(DTTmono)とアンビエントからトータルへのエネルギーレシオ(ATTmono)が取得される。最後に、これらのDTTmonoエネルギーレシオとATTmonoエネルギーレシオに基づいて、モノラルダウンミックス信号からダイレクト信号部分またはアンビエント信号部分を基本的に抽出することができる。
【0091】
オーディオの再生において、サウンドをヘッドホン上に再生するニーズがしばしば生ずる。ヘッドホンリスニングは、スピーカリスニングおよびあらゆる自然音響環境に対して大幅に異なる特別な特徴を有する。オーディオは、左右の耳に対して直接にセットされる。生成されるオーディオコンテンツは、通常はスピーカ再生に対して生成される。それ故、オーディオ信号は、我々の聴覚システムが空間音響知覚において用いる属性と頭出しを含まない。それは、バイノーラル処理がシステムに導入されない限り、当てはまる。
【0092】
バイノーラル処理は、基本的に、入力サウンドに取り入れ、それを修正し、それが(我々の聴覚システムが空間サウンドを処理する方法に関して)知覚的に正しい両耳間およびモノラルの属性のようなものだけを含むようにするプロセスであるということができる。バイノーラル処理は、直接的なタスクではなく、技術水準による存在する解法は、多くの副次的な最適性を有する。
【0093】
多重チャンネルオーディオ信号をヘッドホンに対するバイノーラル対応物に変換するように設計されたメディアプレーヤおよび処理デバイスのような、音楽と映画再生に対するバイノーラル処理が既に含まれた多数のアプリケーションがある。代表的なアプローチは、頭部関連伝達関数(HRTF)を用い、仮想スピーカを作成し、信号に対して空間効果を加える。これは、理論的に、特定の空間においてスピーカでリスニングすることと等価とすることができた。
【0094】
しかしながら、実際は、このアプローチが一貫してリスナーを満足させていないことを繰り返し示している。この直接的な方法を備えた良好な空間化が、音色または音質における好ましくない変化、空間効果の悩ましい知覚およびダイナミクスの損失を有するようなオーディオ品質を損失する代償がついてくるという妥協があるように思われる。更なる問題は、不正確なローカライゼーション(例えば頭部内のローカライゼーション、前後の混乱)、音源の空間距離の欠如、および両耳間のミスマッチ、すなわち間違った両耳の頭出しによる耳の近くの聴覚を含む。
【0095】
異なるリスナーは、非常に異なって問題を判断するかもしれない。感度は、また、音楽(音色に関する厳格な品質判定基準)、映画(より厳格でない)およびゲーム(さらに厳格でないがローカライゼーションが重要である)のような入力素材に依存して変化する。また、コンテンツに依存して通常は異なる設計目標が存在する。
【0096】
それ故、次の記述は、平均的な全体の認知品質を最大化するために上記の問題をできるだけうまく克服するアプローチを取扱う。
【0097】
図9aは、本発明の更なる実施形態に係るバイノーラル・ダイレクトサウンド・レンダリングデバイス910の概観900のブロック図を示す。図9aに示されるように、バイノーラル・ダイレクトサウンド・レンダリングデバイス910は、図1の実施形態のダイレクト/アンビエンス抽出器120の出力に存在することができるダイレクト信号部分125‐1を処理し、第1のバイノーラル出力信号915を取得するように構成される。第1のバイノーラル出力信号915は、Lで示される左チャンネルとRで示される右チャンネルを備えることができる。
【0098】
ここで、バイノーラル・ダイレクトサウンド・レンダリングデバイス910は、ダイレクト信号部分125‐1を、頭部関連伝達関数(HRTF)を通して供給し、変換されたダイレクト信号部分を取得するように構成することができる。バイノーラル・ダイレクトサウンド・レンダリングデバイス910は、更に、変換されたダイレクト信号部分に空間効果を適用し、最終的に第1のバイノーラル出力信号915を取得するように構成することができる。
【0099】
図9bは、図9aのバイノーラル・ダイレクトサウンド・レンダリングデバイス910の詳細905のブロック図を示す。バイノーラル・ダイレクトサウンド・レンダリングデバイス910は、ブロック912で示される「HRTF変換器」と、ブロック914で示される空間効果処理デバイス(並列リバーブあるいは初期反射のシミュレーション)を備えることができる。図9bに示されるように、HRTF変換器912と空間効果処理デバイス914は、頭部関連伝達関数(HRTF)と空間効果を並列に適用することによってダイレクト信号部分125‐1について動作することができ、第1のバイノーラル出力信号915が取得される。
【0100】
具体的には、図9bを参照して、この空間効果処理は、また、非コヒーレントな反響したダイレクト信号919を提供することができ、その信号919は、次のクロスミックスフィルタ920によって処理され、信号を拡散音場の両耳間コヒーレンスに適合させることができる。ここで、フィルタ920とHRTF変換器912の結合出力は、第1のバイノーラル出力信号915を構成する。更なる実施形態によれば、ダイレクトサウンドに関する空間効果処理は、初期反射のパラメータ表現とすることもできる。
【0101】
それ故、実施形態において、空間効果は、好ましくはHRTFに並列に適用することができ、直列(すなわち、信号をHRTFを通して供給した後に空間効果を適用することによって)には適用されない。具体的には、音源からダイレクトに伝搬するサウンドのみが通過するかまたは対応するHRTFによって変換される。間接的な/反響したサウンドは、至る所で耳に入るように、すなわち統計的方法で(HRTFの代わりにコヒーレンス制御を使用することによって)、近似することができる。直列の実施態様があってもよいが、並列の方法が好ましい。
【0102】
図10aは、本発明の更なる実施形態に係るバイノーラル・アンビエントサウンド・レンダリングデバイス1010の概観1000のブロック図を示す。図10aに示されるように、バイノーラル・アンビエントサウンド・レンダリングデバイス1010は、例えば、図1のダイレクト/アンビエンス抽出器120から出力されるアンビエント信号部分125‐2を処理し、第2のバイノーラル出力信号1015を取得するように構成することができる。第2のバイノーラル出力信号1015は、また、左チャンネル(L)と右チャンネル(R)を備えることができる。
【0103】
図10bは、図10aのバイノーラル・アンビエントサウンド・レンダリングデバイス1010の詳細1005のブロック図を示す。図10bにおいて、バイノーラル・アンビエントサウンド・レンダリングデバイス1010は、非コヒーレントな反響したアンビエント信号1013が取得されるように、アンビエント信号部分125‐2に、「空間効果処理」で表示されたブロック1012で示される空間効果を適用するように構成することができることがわかる。バイノーラル・アンビエントサウンド・レンダリングデバイス1010は、現実の拡散音場の両耳間コヒーレンスに適合する第2のバイノーラル出力信号1015が提供されるように、ブロック1014で示されるクロスミックスフィルタのようなフィルタを適用することによって、非コヒーレントな反響したアンビエント信号1013を処理するように更に構成することができる。「空間効果処理」で示されるブロック1012は、また、現実の拡散音場の両耳間コヒーレンスを直接生成するように構成することができる。この場合、ブロック1014は使用されない。
【0104】
更なる実施形態によれば、バイノーラル・アンビエントサウンド・レンダリングデバイス1010は、第2のバイノーラル出力信号1015の提供のために、アンビエント信号部分125‐2に対して空間効果および/またはフィルタを適用し、第2のバイノーラル出力信号1015が現実の拡散音場の両耳間コヒーレンスに適合するように構成される。
【0105】
上記実施形態において、非相関性とコヒーレンス制御は、2つの連続的なステップにおいて実行することができるが、これは必要条件でない。非コヒーレント信号の中間の数式化なしに、単一ステップのプロセスで同じ結果を得ることも可能である。両方法は等しく有効である。
【0106】
図11は、多重チャンネル入力オーディオ信号101のバイノーラル再生の実施形態1100の概念的なブロック図を示す。具体的には、図11の実施形態は、多重チャンネル入力オーディオ信号101のバイノーラル再生の装置を表し、第1の変換器1110(「周波数変換」)と、分離器1120(「ダイレクト‐アンビエンス分離)と、バイノーラル・ダイレクトサウンド・レンダリングデバイス910(「ダイレクト音源レンダリング)と、バイノーラル・アンビエントサウンド・レンダリングデバイス1010(「アンビエントサウンドレンダリング)と、『プラス』で示される結合器1130と、第2の変換器1140(「逆周波数変換」)を備える。特に、第1の変換器1110は、多重チャンネル入力オーディオ信号101をスペクトル表現1115に変換するように構成することができる。分離器1120は、スペクトル表現1115からダイレクト信号部分125‐1またはアンビエント信号部分125‐2を抽出するように構成することができる。ここで、分離器1120は、特にダイレクト/アンビエンス推定器110とダイレクト/アンビエンス抽出器120を含む図1の装置100に相当することができる。前に説明されたように、バイノーラル・ダイレクトサウンド・レンダリングデバイス910は、ダイレクト信号部分125‐1について動作し、第1のバイノーラル出力信号915を取得することができる。同様に、バイノーラル・アンビエントサウンド・レンダリングデバイス1010は、アンビエント信号部分125‐2について動作し、第2のバイノーラル出力信号1015を取得することができる。結合器1130は、第1のバイノーラル出力信号915と第2のバイノーラル出力信号1015を結合し、結合信号1135を取得するように構成することができる。最後に、第2の変換器1140は、結合信号1135を時間ドメインに変換し、ステレオ出力オーディオ信号1150(「ヘッドホンに対するステレオ出力」)を取得するように構成することができる。
【0107】
図11の実施形態の周波数変換演算は、システムが、空間オーディオの知覚処理における固有のドメインである周波数変換ドメインにおいて機能することを示す。既に周波数変換ドメインにおいて機能しているシステムにおいてアドオンとして使用されている場合、システム自身は必ずしも周波数変換を有しない。
【0108】
上記のダイレクト/アンビエンス分離プロセスは、2つの異なる部分に細分化することができる。ダイレクト/アンビエンス推定部において、ダイレクトアンビエント部分のレベルおよび/またはレシオは、オーディオ信号の信号モデルと属性の組合せに基づいて推定される。ダイレクト/アンビエンス抽出部において、既知のレシオおよび入力信号は、出力ダイレクト/アンビエンス信号の生成に用いることができる。
【0109】
最後に、図12は、バイノーラル再生の使用のケースを含むダイレクト/アンビエンス推定/抽出の実施形態1200の全体ブロック図を示す。特に、図12の実施形態1200は、図11の実施形態1100に相当することができる。しかしながら、実施形態1200において、空間パラメータ情報105に基づく推定/抽出プロセスを含む、図1の実施形態のブロック110、120に対応する図11の分離器1120の詳細が示される。加えて、図11の実施形態1100とは対照的に、図12の実施形態1200においては、異なるドメイン間の変換プロセスが示されていない。実施形態1200のブロックは、また、多重チャンネルオーディオ信号101から導き出すことができるダウンミックス信号115について明らかに動作する。
【0110】
図13aは、フィルタバンクドメインにおいてモノラルダウンミックス信号からダイレクト/アンビエンス信号を抽出する装置1300の実施形態のブロック図を示す。図13aに示されるように、装置1300は、解析フィルタバンク1310と、ダイレクト部分に対する合成フィルタバンク1320と、アンビエント部分に対する合成フィルタバンク1322を備える。
【0111】
特に、装置1300の解析フィルタバンク1310は、短時間フーリエ変換(STFT)を実行するように実施することができるか、または、例えば、解析QMFフィルタバンクとして構成することができ、一方、装置1300の合成フィルタバンク1320、1322は、逆短時間フーリエ変換(ISTFT)を実行するように実施することができるか、または、例えば、合成QMFフィルタバンクとして構成することができる。
【0112】
解析フィルタバンク1310は、図2の実施形態に示されたようなモノラルダウンミックス信号215に相当することができるモノラルダウンミックス信号1315を受信し、モノラルダウンミックス信号1315を複数のフィルタバンクサブバンド1311に変換するように構成される。図13aに見られるように、複数のフィルタバンクサブバンド1311は、それぞれ複数のダイレクト/アンビエンス抽出ブロック1350、1352に接続され、複数のダイレクト/アンビエンス抽出ブロック1350、1352は、それぞれDTTmonoまたはATTmonoベースのパラメータ1333、1335をフィルタバンクサブバンドに適用するように構成される。
【0113】
DTTmono、ATTmonoベースのパラメータ1333、1335は、図13bに示されるように、DTTmono、ATTmono演算器1330から供給することができる。特に、図13bのDTTmono、ATTmono演算器1330は、DTTmono、ATTmonoエネルギーレシオを計算するか、または、前に同様に記載されたパラメータステレオオーディオ信号(例えば、図2のパラメータステレオオーディオ信号201)の左チャンネルと右チャンネル(L、R)に対応する提供されたチャンネル間コヒーレンスパラメータとチャンネルレベル差パラメータ(ICCL、CLDL、ICCR、CLDR)105からDTTmono、ATTmonoベースのパラメータを導き出すように構成することができる。ここで、単一のフィルタバンクサブバンドに対して、対応するパラメータ105と、DTTmono、ATTmonoベースのパラメータ1333、1335を用いることができる。この文脈において、それらのパラメータは周波数を通じて一定でないことが指摘される。
【0114】
DTTmonoまたはATTmonoベースのパラメータ1333、1335 のアプリケーションの結果として、それぞれ複数の修正されたフィルタバンクサブバンド1353、1355が取得される。引き続いて、複数の修正されたフィルタバンクサブバンド1353、1355は、それぞれ合成フィルタバンク1320、1322に供給され、それぞれモノラルダウンミックス信号1315のダイレクト信号部分1325‐1またはアンビエント信号部分1325‐2を取得するために複数の修正されたフィルタバンクサブバンド1353、1355を合成するように構成される。ここで、図13aのダイレクト信号部分1325‐1は、図2のダイレクト信号部分125‐1に相当することができ、一方、図13aのアンビエント信号部分1325‐2は、図2のアンビエント信号部分125‐2に相当することができる。
【0115】
図13bを参照して、図13aの複数のダイレクト/アンビエンス抽出ブロック1350、1352の1つのダイレクト/アンビエンス抽出ブロック1380は、特にDTTmono、ATTmono演算器1330と乗算器1360を備える。乗算器1360は、複数のフィルタバンクサブバンド1311の単一のフィルタバンク(FB)サブバンド1301を、対応するDTTmono/ATTmonoベースのパラメータ1333、1335と乗算するように構成することができ、複数のフィルタバンクサブバンド1353、1355の修正された単一のフィルタバンクサブバンド1365が取得される。特に、ダイレクト/アンビエンス抽出ブロック1380は、ブロック1380が複数のブロック1350に帰属する場合に、DTTmonoベースのパラメータを適用するように構成され、一方、ブロック1380が複数のブロック1352に帰属する場合に、ATTmonoベースのパラメータを適用するように構成される。修正された単一のフィルタバンクサブバンド1365は、ダイレクト部分またはアンビエント部分に対して、それぞれの合成フィルタバンク1320、1322に更に供給することができる。
【0116】
実施形態によれば、空間パラメータおよび導き出されたパラメータは、一般にフィルタバンクの分解能より低い人間の聴覚システム、例えば28バンドのクリチカルバンドによる周波数分解能において与えられる。
【0117】
それ故、図13aの実施形態に係るダイレクト/アンビエンス抽出は、図3bのチャンネル間関係パラメータ335に相当することができるサブバンドに関して計算されたチャンネル間コヒーレンスとチャンネルレベル差パラメータに基づいて、フィルタバンクドメインにおいて異なるサブバンドについて基本的に動作する。
【0118】
図14は、本発明の更なる実施形態に係る例示的なMPEGサラウンド復号化スキーム1400の図解図を示す。特に、図14の実施形態は、ステレオダウンミックス1410から6つの出力チャンネル1420への復号化を記述する。ここで、「res」で示される信号は残差信号であり、それは(「D」で示されるブロックからの)非相関化信号に対するオプションの置き換えである。図14の実施形態によれば、図8のエンコーダ810のようなエンコーダから図8のデコーダ820のようなデコーダに対して、MPSストリームの中で伝送される空間パラメータ情報またはチャンネル間関係パラメータ(ICC、CLD)は、それぞれ「前非相関化マトリックスM1」と「混合マトリックスM2」で示される復号化マトリックス1430、1440を生成するために用いることができる。図14の実施形態に特有のことは、混合マトリックスM2 1440を用いたサイドチャンネル(L、R)とセンターチャンネル(C)(L、R、C 1435)からの出力チャンネル1420(すなわちアップミックスチャンネルL、LS、R、RS、C、LFE)の生成が、MPSサラウンド標準による特定のチャンネル間関係パラメータ(ICC、CLD)を備える、図1の空間パラメータ情報105に相当することができる空間パラメータ情報1405によって、基本的に決定されるということである。
【0119】
ここで、左チャンネル(L)の対応する出力チャンネルL、LSへの分割と、右チャンネル(R)の対応する出力チャンネルR、RSへの分割と、センターチャンネル(C)の対応する出力チャンネルC、LFEへの分割は、それぞれ、対応するICC、CLDパラメータに対してそれぞれの入力を有する1から2への(OTT)構成によって表すことができる。
【0120】
特に「5‐2‐5構成」に相当する例示的なMPEGサラウンド復号化スキーム1400は、例えば、次のステップを備えることができる。第1ステップにおいて、空間パラメータまたはパラメータサイド情報は、既存のMPSサラウンド標準に従って、図14に示される復号化マトリックス1430、1440に数式化することができる。第2ステップにおいて、復号化マトリックス1430、1440は、パラメータドメインにおいて、アップミックスチャンネル1420のチャンネル間情報を提供するために用いることができる。第3ステップにおいて、このように提供されたチャンネル間情報によって、各アップミックスチャンネルのダイレクト/アンビエンスエネルギーを計算することができる。第4ステップにおいて、このように取得されたダイレクト/アンビエンスエネルギーは、ダウンミックスチャンネル1410の数にダウンミックスすることができる。第5ステップにおいて、ダウンミックスチャンネル1410に適用される重みを計算することができる。
【0121】
【0122】
中括弧で示される予測オペレータは、実用的なアプリケーションにおいて、再帰的または非再帰的な時間平均によって置き換えることができる。エネルギーとクロススペクトルは、ダウンミックス信号から直接的に測定可能である。
【0123】
また、2つのチャンネルの線形結合のエネルギーは、チャンネルのエネルギー、混合係数およびクロススペクトルから(すべて信号演算が必要でないパラメータドメインにおいて)数式化できる点に注意すべきである。
【0124】
【0125】
以下は、例示的プロセス(すなわち復号化スキーム)の個々のステップを記述する。
【0126】
第1ステップ(混合マトリックスに対する空間パラメータ)
【0127】
前述のように、M1マトリックスとM2マトリックスは、MPSサラウンド標準に従って作成される。M1の第a行、第b列の要素はM1(a,b)である。
【0128】
第2ステップ(アップミックスチャンネルのチャンネル間情報へのダウンミックスのエネルギーとクロススペクトルを備えた混合マトリックス)
【0129】
【0130】
上記は、アップミックスされた正面左チャンネルに対する例である。他のチャンネルは、同様に数式化することができる。D要素は、非相関化器であり、a‐eは、M1とM2のマトリックスエントリーから計算可能な重みである。
【0131】
【0132】
【0133】
【0134】
ここで「残りのチャンネル」に対して「R」を使用することは混乱させるかもしれないので、記号「X」を使用している。
【0135】
【0136】
【0137】
【0138】
【0139】
第3ステップ(アップミックスチャンネルにおけるアップミックスチャンネルのDTTパラメータに対するチャンネル間情報)
【0140】
【0141】
【0142】
第4ステップ(ダイレクト/アンビエントエネルギーをダウンミックスする)
【0143】
【0144】
第5ステップ(ダウンミックスチャンネルにおけるアンビエンス抽出に対する重みを計算する)
【0145】
【0146】
重み係数は、次に、図5の実施形態に記載されたように(すなわち、sqrt(DTT)またはsqrt(1‐DTT)アプローチを用いて)、または図6の実施形態のように(すなわち、クロスミックスマトリックス法を用いて)計算することができる。
【0147】
基本的に、上述した例示的プロセスは、MPSストリームにおけるCPC、ICCおよびCLDパラメータを、ダウンミックスチャンネルのアンビエンスレシオに関連づける。
【0148】
更なる実施形態によれば、通常は同様の目的を達成する他の手段があり、同様に他の条件がある。例えば、特定のチャンネルが残りのチャンネルと比較される前に記載されたものと比べて、ダウンミックスに対する他のルール、他のスピーカレイアウト、他の復号化方法および多重チャンネルアンビエンス推定をなす他の方法が存在することができる。
【0149】
本発明は、ブロックが実際のまたは論理的なハードウェアコンポーネントを表すブロック図の前後関係において記載されていたが、本発明は、また、コンピュータで実施される方法で実施することができる。後者の場合、ブロックは対応する方法ステップを表し、これらのステップは対応する論理的または物理的ハードウェアブロックによって実行される機能を表す。
【0150】
記載された実施形態は、単に本発明の原理に対して例証を示したものである。本願明細書に記載された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。本発明は、それ故に、特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述および説明によって提案された特定の詳細によって制限されないことを意図する。
【0151】
発明の方法の特定の実施要求に依存して、発明の方法はハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、格納された電子的に読込可能な制御信号を有し、発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働する、デジタル記録メディア、特に、ディスク、DVDまたはCD、を使用して実行することができる。一般に、本発明は、それ故に、機械読取可能なキャリアに格納されるプログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに、発明の方法を実行するように動作する。言い換えれば、発明の方法は、それ故、コンピュータプログラムがコンピュータ上で動作するときに、発明の方法の少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。発明の符号化されたオーディオ信号は、デジタル記憶媒体のようないかなる機械読取可能な記憶媒体上にも記憶することができる。
【0152】
新規なコンセプトおよび技術の効果は、上述の実施形態、すなわちこの出願に記載された装置、方法またはコンピュータプログラムが、パラメータ空間情報の助けによりオーディオ信号からダイレクトおよび/またはアンビエンス成分を推定および抽出することを可能とすることである。特に、本発明の新規な処理は、通常はアンビエンス抽出の分野において、周波数バンドにおいて機能する。提案されたコンセプトは、オーディオ信号からのダイレクトおよびアンビエンス成分の分離を必要とする多くのアプリケーションがあるので、オーディオ信号処理に関連する。
【0153】
先行技術のアンビエンス抽出方法に対立して、本発明のコンセプトは、ステレオ入力信号にだけ基づいているものではなく、モノラルダウンミックスにも適用することができる。単一のチャンネルダウンミックスに対しては、一般に、チャンネル間差分を演算することができない。しかしながら、アンビエンス抽出は、空間サイド情報を考慮に入れることによって、この場合においても可能になる。
【0154】
本発明は、「オリジナル」の信号のアンビエンスレベルを推定するために、空間パラメータを利用するという点で有利である。それは、空間パラメータが既に「オリジナル」のステレオまたは多重チャンネル信号のチャンネル間差分に関する情報を含んでいるというコンセプトに基づいている。
【0155】
一旦オリジナルのステレオまたは多重チャンネルのアンビエンスレベルが推定されると、提供されたダウンミックスチャンネルにおけるダイレクトおよびアンビエンスレベルも抽出することができる。これは、アンビエント部分に対するアンビエンスエネルギーとダイレクト部分に対するダイレクトエネルギーまたは振幅の線形結合(すなわち重み付き和)によってなすことができる。それ故、本発明の実施形態は、空間サイド情報の助けによりアンビエンス推定および抽出を提供する。
【0156】
このコンセプトのサイド情報ベースの処理から拡張して、次の有益な特性または効果が存在する。
【0157】
本発明の実施形態は、空間サイド情報と提供されたダウンミックスチャンネルの助けによりアンビエンス推定を提供する。このようなアンビエンス推定は、サイド情報とともに提供される1つ以上のダウンミックスチャンネルがある場合に重要である。サイド情報と、ダウンミックスチャンネルから測定される情報は、アンビエンス推定において一緒に用いることができる。ステレオダウンミックスを備えるMPEGサラウンドにおいて、これらの2つの情報源は、オリジナルの多重チャンネルサウンドのチャンネル間関係の全部の情報を一緒に提供し、アンビエンス推定はこれらの関係に基づいている。
【0158】
本発明の実施形態は、また、ダイレクトエネルギーとアンビエンスエネルギーのダウンミックスを提供する。サイド情報ベースのアンビエンス抽出の記述された状況において、提供されたダウンミックスチャンネルより多いチャンネル数でアンビエンスを推定する中間ステップがある。それ故、このアンビエンス情報は、ダウンミックスオーディオチャンネル数に有効な方法でマップされなければならない。このプロセスは、オーディオチャンネルダウンミックスへの一致によりダウンミックスと称することができる。これは、提供されたダウンミックスチャンネルがダウンミックスされたのと同じ方法で、ダイレクトエネルギーとアンビエンスエネルギーを結合することによって、最も直接的になすことができる。
【0159】
ダウンミックスルールは、1つの理想的な解を持たないが、アプリケーションに依存しそうである。例えば、MPEGサラウンドにおいて、チャンネル(センター、正面のスピーカ、後部スピーカ)を、それらの通常は異なる信号コンテンツにより異なって処理することは有益になり得る。
【0160】
さらに、実施形態は、他のチャンネルに関して、多重チャンネルアンビエンス推定を各チャンネルにおいて独立に提供する。この特性/アプローチは、提案されたステレオアンビエンス推定式を、全ての他のチャンネルに関連する各チャンネルに簡単に使用することを可能にする。この測定によって、全てのチャンネルにおいて等しいアンビエンスレベルを仮定する必要がない。提案された方法は、各チャンネルにおけるアンビエント成分が全ての他のチャンネルのいくつかにおいてコヒーレント相当物を持つ成分であるという空間知覚についての仮定に基づいている。この仮定の有効性を示唆する例は、ノイズ(アンビエンス)を放射する2つのチャンネルうちの1つが、認知されたサウンドシーンに有意に影響を及ぼさずに、各々半分のエネルギーで更に2つのチャンネルに分割することができることである。
【0161】
信号処理に関して、実際のダイレクト/アンビエンスレシオ推定が、提案されたアンビエンス推定式を各チャンネル対全ての他のチャンネルの線形結合に適用することによって生ずることは、有益である。
【0162】
最後に、実施形態は、実際の信号を抽出するために、推定されたダイレクトアンビエンスエネルギーのアプリケーションを提供する。一旦ダウンミックスチャンネルにおけるアンビエンスレベルが知られると、アンビエンス信号を取得するために2つの発明の方法を適用することができる。第1の方法は、簡単な乗算に基づいており、各ダウンミックスチャンネルに対するダイレクトおよびアンビエント部分は、信号をsqrt(ダイレクトからトータルへのエネルギーレシオ)およびsqrt(アンビエントからトータルへのエネルギーレシオ)で乗算することによって生成することができる。これは、各ダウンミックスチャンネルに対して、お互いにコヒーレントであるが、ダイレクトおよびアンビエント部分が持つと推定されたエネルギーを持つ2つの信号を提供する。
【0163】
第2の方法は、チャンネルのクロスミックスによる最小平均二乗解法に基づいており、チャンネルクロスミックス(負符号によっても可能な)は、上記の解法より良好なダイレクト/アンビエンス信号の推定を可能にする。非特許文献3および特許文献2において提供されるステレオ入力とチャンネルにおける等しいアンビエンスレベルに対する最小平均解法と対比して、本発明は、等しいアンビエンスレベルを必要としない最小平均二乗解法を提供し、またいかなるチャンネル数にも拡張可能である。
【0164】
新規な処理の付加的な特性は、以下の通りである。バイノーラルレンダリングに対するアンビエンス処理において、アンビエンスは、現実の拡散音場における両耳間のコヒーレンスと同様の周波数バンドにおける両耳間のコヒーレンスを提供する特性を有するフィルタによって処理することができ、当該フィルタは、空間効果をも含むことができる。バイノーラルレンダリングに対するダイレクト部分の処理において、ダイレクト部分は、初期の反射および/または反響のような追加可能な空間効果を備えた頭部関連伝達関数(HRTFs)を通して供給することができる。
【0165】
この他に、ドライ/ウェット制御に対応する「分離レベル」の制御は、更なる実施形態において実現することができる。特に、完全な分離は、急激な変化、変調効果、その他のような聞き取れる人工産物に導く可能性があるので、多くのアプリケーションにおいて好ましくない可能性がある。それ故、記載されたプロセスの全ての関連する部分は、所望の、有用な分離の量を制御する「分離レベル」の制御によって実施することができる。図11に関して、このような分離レベルの制御は、それぞれ、ダイレクト/アンビエンス分離1120および/またはバイノーラルレンダリングデバイス910、1010を制御する破線ボックスの制御入力1105によって示される。この制御は、オーディオエフェクト処理におけるドライ/ウェット制御と同様に働くことができる。
【0166】
提案された解法の主な利点は、以下の通りである。システムは、ダウンミックス情報のみに依存する前の解法と異なって、すべての状況において、パラメータステレオおよびモノラルダウンミックスを備えるMPEGサラウンドとも連動する。このシステムは、更に、ダウンミックスチャンネルの簡単なチャンネル間解析によるよりも正確にダイレクトおよびアンビエンスエネルギーを推定するために、空間オーディオビットストリームにおいてオーディオ信号とともに伝達される空間サイド情報を利用することが可能である。それ故、バイノーラル処理のような多くのアプリケーションは、サウンドのダイレクトおよびアンビエント部分に対して異なる処理を適用することによって利益を得ることができる。
【0167】
実施形態は、次のサウンド心理学的仮説に基づいている。人間の聴覚システムは、時間‐周波数タイル(特定の周波数と時間範囲に限定された領域)における両耳間のキューに基づいて音源をローカライズする。時間と周波数においてオーバーラップする2つ以上の非コヒーレントな共存する音源が異なる位置において同時に存在する場合、聴覚システムは音源の位置を認知することができない。これは、これらの音源の合計が、リスナー上に、信頼できる両耳間のキューを生成しないからである。聴覚システムは、このように、信頼できるローカライズ情報を提供するクローズした時間‐周波数タイルをピックアップし、残りをローカライズできないものとして取り扱うように記述することができる。これらの手段によって、聴覚システムは、複雑なサウンド環境において音源をローカライズすることができる。同時に起こるコヒーレント音源は、異なる効果を有し、コヒーレント音源の間に単一の音源を形成される同じ両耳間のキューを近似的に形成する。
【0168】
これは、また、実施形態が利用する特性である。ローカライズ可能な(ダイレクト)サウンドとローカライズ不能な(アンビエンス)サウンドのレベルは、推定することができ、次にこれらの成分が抽出される。空間化信号処理は、ローカライズ可能な/ダイレクト部分にのみ適用され、一方、拡散性/開放性/エンベロープ処理は、ローカライズ不能な/アンビエント部分に適用される。これは、多くのプロセスが必要とされるところでのみ適用され、残りの信号が影響されないままにすることができるので、バイノーラル処理システムの設計において有意の利益を与える。全ての処理は、人間の聴覚の周波数分解能を近似する周波数バンドにおいて起こる。
【0169】
実施形態は、知覚品質を最大にするが、認知される問題点を最小にする信号の分解に基づいている。このような分解によって、オーディオ信号のダイレクト成分とアンビエント成分を分離して取得することが可能である。2つの成分は、次に、所望の効果または表現を得るために、更に処理することができる。
【0170】
具体的には、本発明の実施形態は、符号化ドメインにおいて空間サイド情報の助けによってアンビエンス推定を可能にする。
【0171】
本発明は、また、オーディオ信号のヘッドホン再生の代表的な問題を、信号をダイレクト信号とアンビエント信号に分離することによって低減することができるという点で有益である。実施形態は、既存のダイレクト/アンビエンス抽出方法を改善し、ヘッドホン再生のためのバイノーラルサウンドレンダリングに適用されるようにすることを可能にする。
【0172】
空間サイド情報ベースの処理の主要な使用のケースは、当然MPEGサラウンドとパラメータステレオ(および同様のパラメータコーディング技術)である。アンビエンス抽出から利益を受ける代表的なアプリケーションは、異なる程度の空間効果を異なる部分のサウンドに適用する能力によるバイノーラル再生と、異なる成分のサウンドを異なって位置決めおよび処理する能力による高いチャンネル数へのアップミックスである。また、例えば、音声了解度を強化する目的のために、ユーザがダイレクト/アンビエンスレベルの修正を必要とするアプリケーションが存在することができる。
【特許請求の範囲】
【請求項1】
ダウンミックス信号(115)と空間パラメータ情報(105)から、ダイレクトおよび/またはアンビエンス信号(125‐1、125‐2)を抽出する装置(100)であって、前記ダウンミックス信号(115)と前記空間パラメータ情報(105)は、前記ダウンミックス信号(115)よりも多くのチャンネル(Ch1…ChN)を有する多重チャンネルオーディオ信号(101)を表し、前記空間パラメータ情報(105)は、前記多重チャンネルオーディオ信号(101)のチャンネル間関係を含み、
前記空間パラメータ情報(105)に基づいて、前記多重チャンネルオーディオ信号(101)のダイレクト部分および/またはアンビエント部分のレベル情報(113)を推定する、ダイレクト/アンビエンス推定器(110)と、
前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報(113)に基づいて、前記ダウンミックス信号(115)から、ダイレクト信号部分(125‐1)および/またはアンビエント信号部分(125‐2)を抽出する、ダイレクト/アンビエンス抽出器(120)と、
を備えた、装置。
【請求項2】
前記ダイレクト/アンビエンス抽出器(420)は、前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報(113)をダウンミックスし、前記ダイレクト部分または前記アンビエント部分のダウンミックスされたレベル情報を取得し、前記ダウンミックスされたレベル情報に基づいて、前記ダウンミックス信号(115)から、前記ダイレクト信号部分(125‐1)または前記アンビエント信号部分(125‐2)を抽出するように構成された、請求項1に記載の装置。
【請求項3】
前記ダイレクト/アンビエンス抽出器(420)は、前記ダイレクト部分の前記推定されたレベル情報をコヒーレント和と結合し、前記アンビエント部分の前記推定されたレベル情報を非コヒーレント和と結合することによって、前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報(113)のダウンミックスを実行するように更に構成された、請求項2に記載の装置。
【請求項4】
前記ダイレクト/アンビエンス抽出器(520)は、前記ダイレクト部分または前記アンビエント部分の前記ダウンミックスされたレベル情報(555‐1、555‐2)からゲインパラメータ(565‐1、565‐2)を導き出し、前記導き出されたゲインパラメータ(565‐1、565‐2)を前記ダウンミックス信号(115)に適用し、前記ダイレクト信号部分(125‐1)または前記アンビエント信号部分(125‐2)を取得するように更に構成された、請求項2または3に記載の装置。
【請求項5】
前記ダイレクト/アンビエンス抽出器(520)は、前記ダイレクト部分または前記アンビエント部分の前記ダウンミックスされたレベル情報(555‐1、555‐2)から、ダイレクトからトータルへの(DTT)エネルギーレシオまたはアンビエントからトータルへの(ATT)エネルギーレシオを決定し、前記決定されたDTTエネルギーレシオまたはATTエネルギーレシオに基づいて、抽出パラメータを、前記ゲインパラメータ(565‐1、565‐2)として用いるように更に構成された、請求項4に記載の装置。
【請求項6】
前記ダイレクト/アンビエンス抽出器(520)は、二次のM×M抽出マトリックスを前記ダウンミックス信号(115)に適用することによって、前記ダイレクト信号部分(125‐1)または前記アンビエント信号部分(125‐2)を抽出するように構成され、前記二次のM×Mの抽出マトリックスのサイズ(M)は、ダウンミックスチャンネル(Ch1…ChM)の数(M)に相当する、請求項1〜5のいずれかに記載の装置。
【請求項7】
前記ダイレクト/アンビエンス抽出器(520)は、前記ダイレクト信号部分(125‐1)を取得するために、第1の複数の抽出パラメータを前記ダウンミックス信号(115)に適用し、前記アンビエント信号部分(125‐2)を取得するために、第2の複数の抽出パラメータを前記ダウンミックス信号(115)に適用するように更に構成され、前記第1の複数個の抽出パラメータと前記第2の複数個の抽出パラメータは、対角行列を構成している、請求項6に記載の装置。
【請求項8】
前記ダイレクト/アンビエンス推定器(110)は、前記ダイレクト/アンビエンス推定器(110)によって受信された前記空間パラメータ情報(113)と、前記ダウンミックス信号(115)の少なくとも2つのダウンミックスチャンネル(825)に基づいて、前記多重チャンネルオーディオ信号(101)の前記ダイレクト部分または前記アンビエント部分の前記レベル情報(113)を推定するように構成された、請求項1〜7のいずれかに記載の装置。
【請求項9】
【請求項10】
前記ダイレクト/アンビエンス抽出器(620)は、チャンネルクロスミックスによる最小平均二乗(LMS)解法によって、前記ダイレクト信号部分(125‐1)または前記アンビエント信号部分(125‐2)を抽出するように構成され、前記LMS解法は等しいアンビエンスレベルを必要としない、請求項1〜9のいずれかに記載の装置。
【請求項11】
前記ダイレクト/アンビエンス抽出器(620)は、前記LMS解法がステレオチャンネルダウンミックス信号に限定されないように、信号モデルを仮定することによって前記LMS解法を導き出すように構成された、請求項9に記載の装置。
【請求項12】
前記ダイレクト信号部分(125‐1)を処理し、第1のバイノーラル出力信号(915)を取得する、バイノーラル・ダイレクトサウンド・レンダリングデバイス(910)と、
前記アンビエント信号部分(125‐2)を処理し、第2のバイノーラル出力信号(1015)を取得する、バイノーラル・アンビエントサウンド・レンダリングデバイス(1010)と、
前記第1のバイノーラル出力信号(915)と前記第2のバイノーラル出力信号(1015)を結合し、結合されたバイノーラル出力信号(1135)を取得する、結合器(1130)と、
を更に備えた、請求項1〜11のいずれか1に記載の装置。
【請求項13】
前記バイノーラル・アンビエントサウンド・レンダリングデバイス(1010)は、前記第2のバイノーラル出力信号(1015)を提供するために、前記アンビエント信号部分(125‐2)に、空間効果および/またはフィルタを適用するように構成され、前記第2のバイノーラル出力信号(1015)は、現実の拡散音場の両耳間のコヒーレンスに適合する、請求項12に記載の装置。
【請求項14】
前記バイノーラル・ダイレクトサウンド・レンダリングデバイス(910)は、前記第1のバイノーラル出力信号(915)を取得するために、頭部関連伝達関数(HRTF)に基づいてフィルタを通して前記ダイレクト信号部分(125‐1)を供給するように構成された、請求項12または13に記載の装置。
【請求項15】
ダウンミックス信号(115)と空間パラメータ情報(105)から、ダイレクトおよび/またはアンビエンス信号(125‐1、125‐2)を抽出する方法(100)であって、前記ダウンミックス信号(115)と前記空間パラメータ情報(105)は、前記ダウンミックス信号(115)よりも多くのチャンネル(Ch1…ChN)を有する多重チャンネルオーディオ信号(101)を表し、前記空間パラメータ情報(105)は、前記多重チャンネルオーディオ信号(101)のチャンネル間関係を備え、
前記空間パラメータ情報(105)に基づいて、前記多重チャンネルオーディオ信号(101)のダイレクト部分および/またはアンビエント部分のレベル情報(113)を推定するステップ(110)と、
前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報(113)に基づいて、前記ダウンミックス信号(115)から、ダイレクト信号部分(125‐1)および/またはアンビエント信号部分(125‐2)を抽出するステップ(120)と、
を備えた、方法。
【請求項16】
コンピュータプログラムがコンピュータ上で実行されるとき、請求項15に記載の方法(100)を実行するプログラムコードを有する、コンピュータプログラム。
【請求項1】
ダウンミックス信号(115)と空間パラメータ情報(105)から、ダイレクトおよび/またはアンビエンス信号(125‐1、125‐2)を抽出する装置(100)であって、前記ダウンミックス信号(115)と前記空間パラメータ情報(105)は、前記ダウンミックス信号(115)よりも多くのチャンネル(Ch1…ChN)を有する多重チャンネルオーディオ信号(101)を表し、前記空間パラメータ情報(105)は、前記多重チャンネルオーディオ信号(101)のチャンネル間関係を含み、
前記空間パラメータ情報(105)に基づいて、前記多重チャンネルオーディオ信号(101)のダイレクト部分および/またはアンビエント部分のレベル情報(113)を推定する、ダイレクト/アンビエンス推定器(110)と、
前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報(113)に基づいて、前記ダウンミックス信号(115)から、ダイレクト信号部分(125‐1)および/またはアンビエント信号部分(125‐2)を抽出する、ダイレクト/アンビエンス抽出器(120)と、
を備えた、装置。
【請求項2】
前記ダイレクト/アンビエンス抽出器(420)は、前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報(113)をダウンミックスし、前記ダイレクト部分または前記アンビエント部分のダウンミックスされたレベル情報を取得し、前記ダウンミックスされたレベル情報に基づいて、前記ダウンミックス信号(115)から、前記ダイレクト信号部分(125‐1)または前記アンビエント信号部分(125‐2)を抽出するように構成された、請求項1に記載の装置。
【請求項3】
前記ダイレクト/アンビエンス抽出器(420)は、前記ダイレクト部分の前記推定されたレベル情報をコヒーレント和と結合し、前記アンビエント部分の前記推定されたレベル情報を非コヒーレント和と結合することによって、前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報(113)のダウンミックスを実行するように更に構成された、請求項2に記載の装置。
【請求項4】
前記ダイレクト/アンビエンス抽出器(520)は、前記ダイレクト部分または前記アンビエント部分の前記ダウンミックスされたレベル情報(555‐1、555‐2)からゲインパラメータ(565‐1、565‐2)を導き出し、前記導き出されたゲインパラメータ(565‐1、565‐2)を前記ダウンミックス信号(115)に適用し、前記ダイレクト信号部分(125‐1)または前記アンビエント信号部分(125‐2)を取得するように更に構成された、請求項2または3に記載の装置。
【請求項5】
前記ダイレクト/アンビエンス抽出器(520)は、前記ダイレクト部分または前記アンビエント部分の前記ダウンミックスされたレベル情報(555‐1、555‐2)から、ダイレクトからトータルへの(DTT)エネルギーレシオまたはアンビエントからトータルへの(ATT)エネルギーレシオを決定し、前記決定されたDTTエネルギーレシオまたはATTエネルギーレシオに基づいて、抽出パラメータを、前記ゲインパラメータ(565‐1、565‐2)として用いるように更に構成された、請求項4に記載の装置。
【請求項6】
前記ダイレクト/アンビエンス抽出器(520)は、二次のM×M抽出マトリックスを前記ダウンミックス信号(115)に適用することによって、前記ダイレクト信号部分(125‐1)または前記アンビエント信号部分(125‐2)を抽出するように構成され、前記二次のM×Mの抽出マトリックスのサイズ(M)は、ダウンミックスチャンネル(Ch1…ChM)の数(M)に相当する、請求項1〜5のいずれかに記載の装置。
【請求項7】
前記ダイレクト/アンビエンス抽出器(520)は、前記ダイレクト信号部分(125‐1)を取得するために、第1の複数の抽出パラメータを前記ダウンミックス信号(115)に適用し、前記アンビエント信号部分(125‐2)を取得するために、第2の複数の抽出パラメータを前記ダウンミックス信号(115)に適用するように更に構成され、前記第1の複数個の抽出パラメータと前記第2の複数個の抽出パラメータは、対角行列を構成している、請求項6に記載の装置。
【請求項8】
前記ダイレクト/アンビエンス推定器(110)は、前記ダイレクト/アンビエンス推定器(110)によって受信された前記空間パラメータ情報(113)と、前記ダウンミックス信号(115)の少なくとも2つのダウンミックスチャンネル(825)に基づいて、前記多重チャンネルオーディオ信号(101)の前記ダイレクト部分または前記アンビエント部分の前記レベル情報(113)を推定するように構成された、請求項1〜7のいずれかに記載の装置。
【請求項9】
【請求項10】
前記ダイレクト/アンビエンス抽出器(620)は、チャンネルクロスミックスによる最小平均二乗(LMS)解法によって、前記ダイレクト信号部分(125‐1)または前記アンビエント信号部分(125‐2)を抽出するように構成され、前記LMS解法は等しいアンビエンスレベルを必要としない、請求項1〜9のいずれかに記載の装置。
【請求項11】
前記ダイレクト/アンビエンス抽出器(620)は、前記LMS解法がステレオチャンネルダウンミックス信号に限定されないように、信号モデルを仮定することによって前記LMS解法を導き出すように構成された、請求項9に記載の装置。
【請求項12】
前記ダイレクト信号部分(125‐1)を処理し、第1のバイノーラル出力信号(915)を取得する、バイノーラル・ダイレクトサウンド・レンダリングデバイス(910)と、
前記アンビエント信号部分(125‐2)を処理し、第2のバイノーラル出力信号(1015)を取得する、バイノーラル・アンビエントサウンド・レンダリングデバイス(1010)と、
前記第1のバイノーラル出力信号(915)と前記第2のバイノーラル出力信号(1015)を結合し、結合されたバイノーラル出力信号(1135)を取得する、結合器(1130)と、
を更に備えた、請求項1〜11のいずれか1に記載の装置。
【請求項13】
前記バイノーラル・アンビエントサウンド・レンダリングデバイス(1010)は、前記第2のバイノーラル出力信号(1015)を提供するために、前記アンビエント信号部分(125‐2)に、空間効果および/またはフィルタを適用するように構成され、前記第2のバイノーラル出力信号(1015)は、現実の拡散音場の両耳間のコヒーレンスに適合する、請求項12に記載の装置。
【請求項14】
前記バイノーラル・ダイレクトサウンド・レンダリングデバイス(910)は、前記第1のバイノーラル出力信号(915)を取得するために、頭部関連伝達関数(HRTF)に基づいてフィルタを通して前記ダイレクト信号部分(125‐1)を供給するように構成された、請求項12または13に記載の装置。
【請求項15】
ダウンミックス信号(115)と空間パラメータ情報(105)から、ダイレクトおよび/またはアンビエンス信号(125‐1、125‐2)を抽出する方法(100)であって、前記ダウンミックス信号(115)と前記空間パラメータ情報(105)は、前記ダウンミックス信号(115)よりも多くのチャンネル(Ch1…ChN)を有する多重チャンネルオーディオ信号(101)を表し、前記空間パラメータ情報(105)は、前記多重チャンネルオーディオ信号(101)のチャンネル間関係を備え、
前記空間パラメータ情報(105)に基づいて、前記多重チャンネルオーディオ信号(101)のダイレクト部分および/またはアンビエント部分のレベル情報(113)を推定するステップ(110)と、
前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報(113)に基づいて、前記ダウンミックス信号(115)から、ダイレクト信号部分(125‐1)および/またはアンビエント信号部分(125‐2)を抽出するステップ(120)と、
を備えた、方法。
【請求項16】
コンピュータプログラムがコンピュータ上で実行されるとき、請求項15に記載の方法(100)を実行するプログラムコードを有する、コンピュータプログラム。
【図1】
【図2】
【図3a】
【図3b】
【図4】
【図5】
【図6】
【図7a】
【図7b】
【図8】
【図9a】
【図9b】
【図10a】
【図10b】
【図11】
【図12】
【図13a】
【図13b】
【図14】
【図2】
【図3a】
【図3b】
【図4】
【図5】
【図6】
【図7a】
【図7b】
【図8】
【図9a】
【図9b】
【図10a】
【図10b】
【図11】
【図12】
【図13a】
【図13b】
【図14】
【公表番号】特表2013−517518(P2013−517518A)
【公表日】平成25年5月16日(2013.5.16)
【国際特許分類】
【出願番号】特願2012−548400(P2012−548400)
【出願日】平成23年1月11日(2011.1.11)
【国際出願番号】PCT/EP2011/050265
【国際公開番号】WO2011/086060
【国際公開日】平成23年7月21日(2011.7.21)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【Fターム(参考)】
【公表日】平成25年5月16日(2013.5.16)
【国際特許分類】
【出願日】平成23年1月11日(2011.1.11)
【国際出願番号】PCT/EP2011/050265
【国際公開番号】WO2011/086060
【国際公開日】平成23年7月21日(2011.7.21)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【Fターム(参考)】
[ Back to top ]