ダウンミックス信号と空間パラメータ情報からダイレクト／アンビエンス信号を抽出する装置および方法

ダウンミックス信号と空間パラメータ情報からダイレクトおよび／またはアンビエンス信号を抽出する装置であって、ダウンミックス信号と空間パラメータ情報はダウンミックス信号よりも多くのチャンネルを有する多重チャンネルオーディオ信号を表し、空間パラメータ情報は多重チャンネルオーディオ信号のチャンネル間関係を含む装置が記載される。装置は、ダイレクト／アンビエンス推定器とダイレクト／アンビエンス抽出器を備える。ダイレクト／アンビエンス推定器は、空間パラメータ情報に基づいて多重チャンネルオーディオ信号のダイレクト部分および／またはアンビエント部分のレベル情報を推定するように構成される。ダイレクト／アンビエンス抽出器は、ダイレクト部分またはアンビエント部分の推定されたレベル情報に基づいてダウンミックス信号からダイレクト信号部分および／またはアンビエント信号部分を抽出するように構成される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、オーディオ信号処理に関し、特に、ダウンミックス信号と空間パラメータ情報からダイレクト／アンビエンス信号を抽出する装置および方法に関する。本発明の更なる実施形態は、オーディオ信号のバイノーラル再生を強化するためのダイレクト／アンビエンス分離の利用に関する。また更なる実施形態は、二つ以上のチャンネルを有する多重チャンネルサウンドのバイノーラル再生に関する。多重チャンネルサウンドを有する代表的なオーディオコンテンツは、映画のサウンドトラックと多重チャンネルの音楽レコーディングである。
【背景技術】
【０００２】
人間の空間聴覚システムは、おおよそ２つの部分においてサウンドを処理する傾向がある。一方において、ローカライズ可能な部分、言い換えればダイレクト部分であり、他方において、ローカライズ不能な部分、言い換えればアンビエント部分である。これらの２つのオーディオ成分にアクセスすることが望ましいバイノーラルサウンド再生や多重チャンネルアップミックスのような多くのオーディオ処理アプリケーションが存在する。
【０００３】
従来技術において、非特許文献１、非特許文献２、非特許文献３、特許文献１、特許文献２、および特許文献３において解説されたようなダイレクト／アンビエンス分解の方法が知られており、さまざまなアプリケーションに用いることができる。最新技術のダイレクト‐アンビエンス分離アルゴリズムは、周波数バンドにおけるステレオサウンドのチャンネル間信号比較に基づいている。
【０００４】
さらに、非特許文献４において、アンビエンス抽出を備えたバイノーラル再生が言及されている。バイノーラル再生に関連するアンビエンス抽出は、非特許文献５においても言及されている。後者の論文は、各々のチャンネルにおけるダイレクト成分の適応な最小平均二乗クロスチャンネルフィルタリングを用いて、ステレオマイクロホン録音におけるアンビエンス抽出にフォーカスしている。空間オーディオコーデック、例えばＭＰＥＧサラウンドは、非特許文献６および非特許文献７に記載されているように、通常は、オーディオを多重チャンネルに拡張する空間サイド情報と組合せた１つまたは２つのチャンネルオーディオストリームから成る。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】「空間オーディオ符号化および強化のための主要アンビエンス信号分解とベクトルベースのローカライズ」、Goodwin、Jot、音響・音声および信号処理に関するＩＥＥＥ国際会議、２００７年４月
【非特許文献２】「ステレオ録音からの相関ベースのアンビエンス抽出」、Merimaa、Goodwin、Jot、ＡＥＳ第１２３回大会、ニューヨーク、２００７年
【非特許文献３】「ステレオ信号の多重スピーカ再生」、C. Faller、ＡＥＳジャーナル、２００７年１０月
【非特許文献４】「空間オーディオシーン符号化に基づくバイノーラル３次元オーディオレンダリング」、Goodwin、Jot、ＡＥＳ第１２３回大会、ニューヨーク２００７年
【非特許文献５】J. UsherおよびJ. Benesty、「空間音響品質の強化：新規な反響抽出オーディオアップミックス装置」、ＩＥＥＥオーディオ・音声・言語処理議事録、第１５巻、２１４１‐２１５０頁、２００７年９月
【非特許文献６】ＩＳＯ／ＩＥＣ２３００３‐１ＭＰＥＧサラウンド
【非特許文献７】Breebaart, J.、Herre, J.、Villemoes, L.、Jin, C.、Kjoerling, K.、Plogsties, J.、Koppens, J.、「多重チャンネルはモバイルに進む：ＭＰＥＧサラウンド・バイノーラル・レンダリング」、第２９回ＡＥＳ会議議事録、ソウル、韓国、２００６年
【特許文献】
【０００６】
【特許文献１】「複合類似度インデックスを用いたステレオオーディオ信号の主要アンビエンス分解」、Goodwin 他、米国特許公報第２００９／０１９８３５６号公報、２００９年８月
【特許文献２】「特許出願名称：ステレオ信号から多重チャンネルオーディオ信号を生成する方法」、発明者：Christof Faller、代理人：FISH & RICHARDSON P.C.、承継人：LG ELECTRONICS, INC.、出所：MINNEAPOLIS, MN US、ＩＰＣ８クラス：AH04R500FI、ＵＳＰＣクラス：381 1
【特許文献３】「ステレオ信号のためのアンビエンス生成」、Avendano 他、発行日：２００９年７月２８日、出願番号：10/163,158、出願日：２００２年６月４日
【発明の概要】
【０００７】
しかしながら、ＭＰＥＧサラウンド（ＭＰＳ）およびパラメータステレオ（ＰＳ）のような最新のパラメータオーディオ符号化技術は、付加的な空間サイド情報に加えて、低減された数の‐いくつかのケースではただ１つの‐オーディオダウンミックスチャンネルを提供するだけである。「オリジナル」の入力チャンネル間の比較は、サウンドの意図された出力フォーマットへの最初の復号化の後で可能となるだけである。
【０００８】
それ故、ダウンミックス信号および空間パラメータ情報からダイレクト信号部分またはアンビエント信号部分を抽出するコンセプトが必要である。しかしながら、パラメータサイド情報を用いたダイレクト／アンビエンス抽出に対する既存の解法はない。
【０００９】
それ故に、本発明の目的は、空間パラメータ情報の使用によって、ダウンミックス信号からダイレクト信号部分またはアンビエント信号部分を抽出するコンセプトを提供することである。
【００１０】
この目的は、請求項１に記載の装置、請求項１５に記載の方法、または請求項１６に記載のコンピュータプログラムによって達成される。
【００１１】
本発明の根底にある基本概念は、空間パラメータ情報に基づいて多重チャンネルオーディオ信号のダイレクト部分またはアンビエント部分のレベル情報が推定され、推定されたレベル情報に基づいてダウンミックス信号からダイレクト信号部分またはアンビエント信号部分が抽出されるときに、上述のダイレクト／アンビエンス抽出を達成することができるということである。ここで、ダウンミックス信号と空間パラメータ情報は、ダウンミックス信号より多くのチャンネルを有する多重チャンネルオーディオ信号を表す。この尺度は、空間パラメータサイド情報を用いることによって、１つ以上の入力チャンネルを有するダウンミックス信号からダイレクトおよび／またはアンビエンス抽出を可能とする。
【００１２】
本発明の一実施形態によれば、ダウンミックス信号と空間パラメータ情報からダイレクト／アンビエンス信号を抽出する装置は、ダイレクト／アンビエンス推定器およびダイレクト／アンビエンス抽出器を備える。ダウンミックス信号と空間パラメータ情報は、ダウンミックス信号より多くのチャンネルを有する多重チャンネルオーディオ信号を表す。さらに、空間パラメータ情報は、多重チャンネルオーディオ信号のチャンネル間関係を備える。ダイレクト／アンビエンス推定器は、空間パラメータ情報に基づいて、多重チャンネルオーディオ信号のダイレクト部分またはアンビエント部分のレベル情報を推定するように構成される。ダイレクト／アンビエンス抽出器は、ダイレクト部分またはアンビエント部分の推定レベル情報に基づいて、ダウンミックス信号から、ダイレクト信号部分またはアンビエント信号部分を抽出するように構成される。
【００１３】
本発明の他の実施形態によれば、ダウンミックス信号と空間パラメータ情報からダイレクト／アンビエンス信号を抽出する装置は、バイノーラル・ダイレクトサウンド・レンダリングデバイス、バイノーラル・アンビエントサウンド・レンダリングデバイスおよび結合器を更に備える。バイノーラル・ダイレクトサウンド・レンダリングデバイスは、ダイレクト信号部分を処理し、第１のバイノーラル出力信号を取得するように構成される。バイノーラル・アンビエントサウンド・レンダリングデバイスは、アンビエント信号部分を処理し、第２のバイノーラル出力信号を取得するように構成される。結合器は、第１のバイノーラル出力信号と第２のバイノーラル出力信号を組合せ、複合バイノーラル出力信号を取得するように構成される。従って、オーディオ信号のダイレクト信号部分およびアンビエント信号部分が別々に処理されるオーディオ信号のバイノーラル再生を提供することができる。
【図面の簡単な説明】
【００１４】
以下において、本発明の実施形態が、以下の添付図面を参照して説明される。
【図１】多重チャンネルオーディオ信号を表すダウンミックス信号と空間パラメータ情報からダイレクト／アンビエンス信号を抽出する装置の一実施形態のブロック図を示す。
【図２】パラメータステレオオーディオ信号を表すモノラルダウンミックス信号と空間パラメータ情報からダイレクト／アンビエンス信号を抽出する装置の一実施形態のブロック図を示す。
【図３ａ】本発明の一実施形態に係る多重チャンネルオーディオ信号のスペクトル分解の図解図を示す。
【図３ｂ】図３ａのスペクトル分解に基づく多重チャンネルオーディオ信号のチャンネル間関係を計算する図解図を示す。
【図４】推定レベル情報のダウンミックスを備えるダイレクト／アンビエンス抽出器の実施形態のブロック図を示す。
【図５】ゲインパラメータをダウンミックス信号に適用することによるダイレクト／アンビエンス抽出器の更なる実施形態のブロック図を示す。
【図６】チャンネルクロスミックスを備えたＬＭＳ解法に基づくダイレクト／アンビエンス抽出器の更なる実施形態のブロック図を示す。
【図７ａ】ステレオアンビエンス推定式を用いたダイレクト／アンビエンス推定器の実施形態のブロック図を示す。
【図７ｂ】例示的なダイレクトからトータルへのエネルギーレシオ対チャンネル間コヒーレンスのグラフを示す。
【図８】本発明の実施形態に係るエンコーダ／デコーダシステムのブロック図を示す。
【図９ａ】本発明の実施形態に係るバイノーラル・ダイレクトサウンド・レンダリングの概観のブロック図を示す。
【図９ｂ】図９ａのバイノーラル・ダイレクトサウンド・レンダリングの詳細のブロック図を示す。
【図１０ａ】本発明の実施形態に係るバイノーラル・アンビエントサウンド・レンダリングの概観のブロック図を示す。
【図１０ｂ】図１０ａのバイノーラル・アンビエントサウンド・レンダリングの詳細のブロック図を示す。
【図１１】多重チャンネルオーディオ信号のバイノーラル再生の実施形態の概念的ブロック図を示す。
【図１２】バイノーラル再生を含むダイレクト／アンビエンス抽出の実施形態の全体ブロック図を示す。
【図１３ａ】フィルタバンクドメインにおいてモノラルダウンミックス信号からダイレクト／アンビエント信号を抽出する装置の実施形態のブロック図を示す。
【図１３ｂ】図１３ａのダイレクト／アンビエンス抽出の実施形態のブロック図を示す。
【図１４】本発明の更なる実施形態に係る例示的なＭＰＥＧサラウンド復号化スキームの図解図を示す。
【発明を実施するための形態】
【００１５】
図１は、ダウンミックス信号１１５と空間パラメータ情報１０５から、ダイレクト／アンビエンス信号１２５‐１、１２５‐２を抽出する装置１００の実施形態のブロック図を示す。図１に示されるように、ダウンミックス信号１１５と空間パラメータ情報１０５は、ダウンミックス信号１１５より多いチャンネルＣｈ1…ＣｈＮを有する多重チャンネルオーディオ信号１０１を表す。空間パラメータ情報１０５は、多重チャンネルオーディオ信号１０１のチャンネル間関係を備えることができる。特に、装置１００は、ダイレクト／アンビエンス推定器１１０とダイレクト／アンビエンス抽出器１２０を備える。ダイレクト／アンビエンス推定器１１０は、空間パラメータ情報１０５に基づいて、多重チャンネルオーディオ信号１０１のダイレクト部分またはアンビエント部分のレベル情報１１３を推定するように構成することができる。ダイレクト／アンビエンス抽出器１２０は、ダイレクト部分またはアンビエント部分の推定レベル情報１１３に基づいて、ダウンミックス信号１１５からダイレクト信号部分１２５‐１またはアンビエント信号部分１２５‐２を抽出するように構成することができる。
【００１６】
図２は、パラメータステレオオーディオ信号２０１を表すモノラルダウンミックス信号２１５と空間パラメータ情報１０５からダイレクト／アンビエンス信号１２５‐１、１２５‐２を抽出する装置２００の実施形態のブロック図を示す。図２の装置２００は、図１の装置１００と同じブロックを基本的に備える。それ故、同様の実施態様および／または機能を有する同一のブロックは、同じ符号で示される。さらに、図２のパラメータステレオオーディオ信号２０１は、図１の多重チャンネルオーディオ信号１０１に相当することができ、図２のモノラルダウンミックス信号２１５は、図１のダウンミックス信号１１５に相当することができる。図２の実施形態において、モノラルダウンミックス信号２１５と空間パラメータ情報１０５は、パラメータステレオオーディオ信号２０１を表す。パラメータステレオオーディオ信号は、『Ｌ』で示される左チャンネルと、『Ｒ』で示される右チャンネルを備えることができる。ここで、ダイレクト／アンビエンス抽出器１２０は、ダイレクト／アンビエンス推定器１１０を用いることによって空間パラメータ情報１０５から導き出すことができる推定レベル情報１１３に基づいて、モノラルダウンミックス信号２１５からダイレクト信号部分１２５‐１またはアンビエント信号部分１２５‐２を抽出するように構成される。
【００１７】
実際には、図１または図２の実施形態における空間パラメータ（空間パラメータ情報１０５）は、それぞれ、ＭＰＥＧサラウンド（ＭＰＳ）またはパラメータステレオ（ＰＳ）サイド情報に特に関連する。これらの２つの技術は、最新技術の低ビットレートステレオまたはサラウンドオーディオ符号化方法である。図２を参照すると、ＰＳは、空間パラメータを備えた１つのダウンミックスオーディオチャンネルを提供し、図１を参照すると、ＭＰＳは、空間パラメータを備えた１つ、２つ、またはそれ以上のダウンミックスオーディオチャンネルを提供する。
【００１８】
具体的には、図１と図２の実施形態は、空間パラメータサイド情報１０５を、１つ以上の入力チャンネルを有する信号（すなわち、ダウンミックス信号１１５；２１５）からのダイレクトおよび／またはアンビエンス抽出の分野において直ちに用いることができることを明らかに示している。
【００１９】

【００２０】

【００２１】
ここで、Ｃｈ_iは検査チャンネルであり、Ｒは残りのチャンネルの線形結合であり、＜…＞は時間平均を示す。残りのチャンネルの線形結合Ｒの例は、それらのエネルギー正規化された合計である。なお、チャンネルレベル差（ＣＬＤ_i）は、通常はパラメータのデシベル値である。
【００２２】
上記の式に関して、チャンネルレベル差（ＣＬＤ_i）またはパラメータσ_iは、残りのチャンネルの線形結合ＲのレベルＰ_Rに正規化されたチャンネルＣｈ_iのレベルＰ_iに相当することができる。ここで、レベルＰ_iまたはＰ_Rは、チャンネルＣｈ_iのチャンネル間レベル差パラメータＩＣＬＤ_iと、残りのチャンネルのチャンネル間レベル差パラメータＩＣＬＤ_j（ｊ≠ｉ）の線形結合ＩＣＬＤ_Rから導き出すことができる。
【００２３】
ここで、ＩＣＬＤ_iとＩＣＬＤ_jは、それぞれ基準チャンネルＣｈ_refに関係づけることができる。更なる実施形態において、チャンネル間レベル差パラメータＩＣＬＤ_iとＩＣＬＤ_jは、基準チャンネルＣｈ_refである多重チャンネルオーディオ信号（Ｃｈ₁…Ｃｈ_N）の他のいかなるチャンネルにも関係づけることができる。これは、結局、チャンネルレベル差（ＣＬＤ_i）またはパラメータσ_iに対して、同じ結果に導く。
【００２４】
更なる実施形態によれば、図３ｂのチャンネル間関係３３５は、また、多重チャンネルオーディオ信号（Ｃｈ₁…Ｃｈ_N）の入力チャンネルの異なるまたは全てのペアＣｈ_i、Ｃｈ_jに関して演算することによって導き出すことができる。この場合、ペアに関して計算されたチャンネル間コヒーレンスパラメータＩＣＣ_i,jまたはチャンネルレベル差（ＣＬＤ_i,j）またはパラメータσ_i,j（またはＩＣＬＤ_i,j）を取得することができ、インデックス（ｉ、ｊ）は、それぞれチャンネルＣｈ_iとＣｈ_jの特定のペアを示す。
【００２５】
図４は、推定レベル情報１１３のダウンミックスを含むダイレクト／アンビエンス抽出器４２０の実施形態４００のブロック図を示す。図４の実施形態は、図１の実施形態と同じブロックを基本的に備える。それ故、同様の実施態様および／または機能を有する同一のブロックは、同じ符号で示される。しかしながら、図１のダイレクト／アンビエンス抽出器１２０に相当することができる図４のダイレクト／アンビエンス抽出器４２０は、多重チャンネルオーディオ信号のダイレクト部分またはアンビエント部分の推定レベル情報１１３をダウンミックスし、ダイレクト部分またはアンビエント部分のダウンミックスされたレベル情報を取得し、ダウンミックスされたレベル情報に基づいてダウンミックス信号１１５からダイレクト信号部分１２５‐１またはアンビエント信号部分１２５‐２を抽出するように構成される。図４に示されるように、空間パラメータ情報１０５は、例えば、図１の多重チャンネルオーディオ信号１０１（Ｃｈ₁…Ｃｈ_N）から導き出すことができ、図３ｂにおいて導入されたＣｈ₁…Ｃｈ_Nのチャンネル間関係３３５を備えることができる。図４の空間パラメータ情報１０５は、また、ダイレクト／アンビエンス抽出器４２０に供給されるダウンミックス情報４１０を備えることができる。実施形態において、ダウンミックス情報４１０は、オリジナルの多重チャンネルオーディオ信号（例えば図１の多重チャンネルオーディオ信号１０１）のダウンミックス信号１１５へのダウンミックスを特徴づけることができる。ダウンミックスは、例えば、時間ドメインまたはスペクトルドメインのようないかなる符号化ドメインにおいても動作するダウンミキサ（図示せず）を用いて実行することができる。
【００２６】
更なる実施形態によれば、ダイレクト／アンビエンス抽出器４２０は、また、ダイレクト部分の推定レベル情報をコヒーレント和と結合し、アンビエント部分の推定レベル情報を非コヒーレント和と結合することによって、多重チャンネルオーディオ信号１０１のダイレクト部分またはアンビエント部分の推定レベル情報１１３のダウンミックスを実行するように構成することができる。
【００２７】
推定レベル情報は、それぞれダイレクト部分またはアンビエント部分のエネルギーレベルまたはパワーレベルを表すことができることが指摘される。
【００２８】
特に、推定されたダイレクト／アンビエント部分のエネルギー（すなわちレベル情報１１３）のダウンミックスは、チャンネル間の完全な非コヒーレンスまたは完全なコヒーレンスを仮定することによって実行することができる。非コヒーレント和またはコヒーレント和に基づくダウンミックスの場合に適用することができる２つの数式は、それぞれ以下の通りである。
【００２９】

【００３０】

【００３１】

【００３２】
図５は、ゲインパラメータｇ_D、ｇ_Aをダウンミックス信号１１５に適用することによるダイレクト／アンビエンス抽出器５２０の更なる実施形態を示す。図５のダイレクト／アンビエンス抽出器５２０は、図４のダイレクト／アンビエンス抽出器４２０に相当する。最初に、前に記載されているように、ダイレクト部分５４５‐１またはアンビエント部分５４５‐２の推定レベル情報は、ダイレクト／アンビエンス推定器から受信することができる。受信されたレベル情報５４５‐１、５４５‐２は、ステップ５５０において、それぞれ、結合され／ダウンミックスされ、ダイレクト部分５５５‐１またはアンビエント部分５５５‐２のダウンミックスされたレベル情報を取得することができる。次に、ステップ５６０において、ゲインパラメータｇ_D ５６５‐１またはｇ_A ５６５‐２は、それぞれ、ダイレクト部分またはアンビエント部分に対するダウンミックスされたレベル情報５５５‐１、５５５‐２から導き出すことができる。最後に、ダイレクト／アンビエンス抽出器５２０は、ダイレクト信号部分１２５‐１またはアンビエント信号部分１２５‐２が取得されるように、導き出されたゲインパラメータ５６５‐１、５６５‐２をダウンミックス信号１１５に適用するために用いることができる（ステップ５７０）。
【００３３】
ここで、図１、４、５の実施形態において、ダウンミックス信号１１５は、それぞれ、ダイレクト／アンビエンス抽出器１２０；４２０；５２０の入力に存在する複数のダウンミックスチャンネル（Ｃｈ₁…Ｃｈ_M）から構成できることに注意すべきである。
【００３４】
更なる実施形態において、ダイレクト／アンビエンス抽出器５２０は、ダイレクト部分またはアンビエント部分のダウンミックスされたレベル情報５５５‐１、５５５‐２から、ダイレクトからトータルへの（ＤＴＴ）またはアンビエントからトータルへの（ＡＴＴ）エネルギーレシオを決定し、決定されたＤＴＴまたはＡＴＴエネルギーレシオに基づいて、抽出パラメータを、ゲインパラメータ５６５‐１、５６５‐２として用いるように構成される。
【００３５】
さらに他の実施形態において、ダイレクト／アンビエンス抽出器５２０は、ダウンミックス信号１１５に、第１の抽出パラメータｓｑｒｔ（ＤＴＴ）を乗算してダイレクト信号部分１２５‐１を取得し、第２の抽出パラメータｓｑｒｔ（ＡＴＴ）を乗算してアンビエント信号部分１２５‐２を取得するように構成される。ここで、ダウンミックス信号１１５は、図２の実施形態（モノラルダウンミックスケース）に示されるように、モノラルダウンミックス信号２１５に相当する。
【００３６】
モノラルダウンミックスケースにおいて、アンビエンス抽出は、ｓｑｒｔ（ＡＴＴ）とｓｑｒｔ（ＤＴＴ）を適用することによってなすことができる。しかしながら、同じアプローチは、特に、各チャンネルＣｈ_iに対してｓｑｒｔ（ＡＴＴ_i）とｓｑｒｔ（ＤＴＴ_i）を適用することによって、多重チャンネルダウンミックス信号に対しても有効である。
【００３７】
更なる実施形態によれば、ダウンミックス信号１１５が複数のチャンネルを備える場合（多重チャンネルダウンミックスケース）、ダイレクト／アンビエンス抽出器５２０は、第１の複数の抽出パラメータ、例えばｓｑｒｔ（ＤＴＴ_i））をダウンミックス信号１１５に適用してダイレクト信号部分１２５‐１を取得し、第２の複数の抽出パラメータ、例えばｓｑｒｔ（ＡＴＴ_i））をダウンミックス信号１１５に適用してアンビエント信号部分１２５‐２を取得するように構成することができる。ここで、第１と第２の複数の抽出パラメータは、対角行列を構成することができる。
【００３８】
一般に、ダイレクト／アンビエンス抽出器１２０；４２０；５２０は、また、二次のＭ×Ｍ抽出マトリックスをダウンミックス信号１１５に適用することによってダイレクト信号部分１２５‐１またはアンビエント信号部分１２５‐２を抽出するように構成することができ、二次のＭ×Ｍ抽出マトリックスのサイズ（Ｍ）はダウンミックスチャンネル（Ｃｈ₁…Ｃｈ_M）の数（Ｍ）に相当する。
【００３９】
アンビエンス抽出のアプリケーションは、それ故、二次のＭ×Ｍ抽出マトリックスを適用することによって記述することができ、ここで、Ｍはダウンミックスチャンネル（Ｃｈ₁…Ｃｈ_M）の数である。これは、入力信号を操作してダイレクト／アンビエンス出力を得る全ての可能な方法を含むことができ、対角行列として構成される二次のＭ×Ｍ抽出マトリックスの主要要素を表すｓｑｒｔ（ＡＴＴ_i）とｓｑｒｔ（ＤＴＴ_i）パラメータに基づく比較的簡単な方法、または完全なマトリックスとして構成されるＬＭＳクロスミックスアプローチを含む。後者は、以下に記載される。ここで、Ｍ×Ｍ抽出マトリックスを適用する上記のアプローチは、１つを含むいかなるチャンネル数もカバーすることに注意すべきである。
【００４０】
更なる実施形態によれば、抽出マトリックスは、より少ない出力チャンネル数を有することができるので、必ずしもマトリックスサイズＭ×Ｍの二次マトリックスである必要はない。それ故、抽出マトリックスは、低減された行数を有することができる。この例は、Ｍの代わりに単一のダイレクト信号を抽出する。
【００４１】
また、抽出マトリックスのＭ列を有することに対応する入力として、全てのＭ個のダウンミックスチャンネルを常にとる必要はない。これは、特に、入力として全てのチャンネルを有することを必要としないアプリケーションに関連することができる。
【００４２】
図６は、チャンネルクロスミックスを備えるＬＭＳ（最小平均二乗）解法に基づくダイレクト／アンビエンス抽出器６２０の更なる実施形態６００のブロック図を示す。図６のダイレクト／アンビエンス抽出器６２０は、図１のダイレクト／アンビエンス抽出器１２０に相当することができる。図６の実施形態において、図１の実施形態と同様の実施態様および／または機能を有する同一のブロックは、それ故、同じ符号で示される。しかしながら、図１のダウンミックス信号１１５に相当することができる図６のダウンミックス信号６１５は、複数のダウンミックスチャンネルＣｈ₁…Ｃｈ_M ６１７を備えることができ、ダウンミックスチャンネル数（Ｍ）は、多重チャンネルオーディオ信号１０１のチャンネルＣｈ₁…Ｃｈ_N（Ｎ）のそれより小さい（すなわちＭ＜Ｎ）。具体的には、ダイレクト／アンビエンス抽出器６２０は、チャンネルクロスミックスを備える最小平均二乗（ＬＭＳ）解法によってダイレクト信号部分１２５‐１またはアンビエント信号部分１２５‐２を抽出するように構成され、ＬＭＳ解法は等しいアンビエンスレベルを必要としない。等しいアンビエンスレベルを必要とせず、いかなるチャンネル数にも拡張可能であるＬＭＳ解法は、以下において提供される。ちょうど言及されたＬＭＳ解法は、必須ではないが、上記に対してより正確な変形例を表す。
【００４３】
ダイレクト／アンビエンス抽出のためのクロスミックス重みに対して、ＬＭＳ解法において使用されるシンボルは、以下の通りである。
【００４４】
Ｃｈ_i：チャンネルｉ
ａ_i：チャンネルｉにおけるダイレクトサウンドのゲイン
ＤおよびＤ＾：サウンドのダイレクト部分およびその推定
Ａ_iおよびＡ_i＾：チャンネルｉのアンビエント部分およびその推定
Ｐ_x＝Ｅ［ＸＸ^*］：Ｘの推定エネルギー
Ｅ［］：期待値
Ｅ_x：Ｘの推定誤差
ｗ_Di：チャンネルｉに対するダイレクト部分へのＬＭＳクロスミックス重み
ｗ_Ai,n：チャンネルｎに対するチャンネルｉのアンビエンスへのＬＭＳクロスミックス重み
【００４５】
この文脈において、ＬＭＳ解法の導出は、多重チャンネルオーディオ信号のそれぞれのチャンネルのスペクトル表現に基づくことができ、それはすべてが周波数バンドにおいて機能することを意味することに注意すべきである。
【００４６】

【００４７】
導出は、最初に、ａ）ダイレクト部分を、次に、ｂ）アンビエント部分を取扱う。最後に、重みに対する解法が導き出され、重みの正規化の方法が記述される。
【００４８】
ａ）ダイレクト部分
【００４９】

【００５０】

【００５１】

【００５２】

【００５３】
ｂ）アンビエント部分
【００５４】

【００５５】

【００５６】

【００５７】
マトリックス形式において、上記の関係は次式のように読み取れる。

【００５８】
重みに対する解法
【００５９】

【００６０】

【００６１】
重みの正規化
【００６２】
重みは、ＬＭＳ解法に対するものであるが、エネルギーレベルは保存されなければならないので、重みは正規化される。これは、また、上記の式において不必要な項ｄｉｖによる除算をなす。正規化は、出力ダイレクトおよびアンビエントチャンネルのエネルギーがＰ_DおよびＰ_Ai（ここで、ｉはチャンネルインデックス）であることを確保することによって生ずる。
【００６３】

【００６４】

【００６５】

【００６６】

【００６７】
特に、上記を参照して、ダイレクト／アンビエンス抽出器６２０は、ＬＭＳ解法がステレオチャンネルのダウンミックス信号に限定されないように、安定な多重チャンネル信号モデルとみなすことによってＬＭＳ解法を導出するように構成することができる。
【００６８】

【００６９】
チャンネルＣｈｉのチャンネルレベル差（ＣＬＤ_i）またはパラメータσ_iとチャンネル間コヒーレンスパラメータ（ＩＣＣ_i）の依存性を明確に示すことができる。図７において図示されるように、空間パラメータ情報１０５は、ダイレクト／アンビエンス推定器７１０に供給され、各チャンネルＣｈ_iに対するチャンネル間関係パラメータＩＣＣ_iとσ_iを備えることができる。このステレオアンビエンス推定式を、ダイレクト／アンビエンス推定器７１０を用いて適用した後、ダイレクトからトータルへの（ＤＴＴ_i）またはアンビエントからトータルへの（ＡＴＴ_i）エネルギーレシオは、それぞれ、その出力７１５において取得される。それぞれのＤＴＴまたはＡＴＴエネルギーレシオを推定するために用いられる上記のステレオアンビエンス推定式は、等しいアンビエンスの状態に基づいていないことに注意する必要がある。
【００７０】

【００７１】

【００７２】
図７ｂは、例示的なＤＴＴ（ダイレクトからトータルへの）エネルギーレシオ７６０のグラフ７５０を、チャンネル間コヒーレンスパラメータＩＣＣ７７０の関数として示す。図７ｂの実施形態において、チャンネルＣｈ_iのレベルＰ（Ｃｈ_i）と残りのチャンネルの線形結合ＲのレベルＰ（Ｒ）が等しくなるように、チャンネルレベル差（ＣＬＤ）またはパラメータσは、例示的に１セットされている（σ＝１）。この場合、ＤＴＴエネルギーレシオ７６０は、ＤＴＴ〜ＩＣＣによってマークされた直線７７５によって示されるように、ＩＣＣパラメータに線形に比例する。図７ｂにおいて、完全に非コヒーレントなチャンネル間関係に相当することができるＩＣＣ＝０の場合には、完全にアンビエントな状況（ケース『Ｒ₁』）に相当することができるＤＴＴエネルギーレシオ７６０は０になることがわかる。しかしながら、完全にコヒーレントなチャンネル間関係に相当することができるＩＣＣ＝１の場合には、完全にダイレクトな状況（ケース『Ｒ₂』）に相当することができるＤＴＴエネルギーレシオ７６０は１とすることができる。それ故、Ｒ₁のケースにおいて、基本的にチャンネル内にそのチャンネルのトータルエネルギーに関してダイレクトエネルギーがなく、一方Ｒ₂のケースにおいて、アンビエントエネルギーがない。
【００７３】
図８は、本発明の更なる実施形態に係るエンコーダ／デコーダシステム８００のブロック図を示す。エンコーダ／デコーダシステム８００のデコーダ側において、図１の装置１００に相当することができるデコーダ８２０の実施形態が示される。図１と図８の実施形態の類似性のため、これらの実施形態において同様の実施態様および／または機能を有する同一のブロックは、同じ符号で示される。図８の実施形態に示されるように、ダイレクト／アンビエンス抽出器１２０は、複数のダウンミックスチャンネルＣｈ₁…Ｃｈ_Mを有するダウンミックス信号１１５について動作することができる。図８のダイレクト／アンビエンス推定器１１０は、多重チャンネルオーディオ信号１０１のダイレクト部分またはアンビエント部分のレベル情報１１３が、空間パラメータ情報１０５に加えて、受信される少なくとも２つのダウンミックスチャンネル８２５に基づいて推定されるように、ダウンミックス信号８１５の少なくとも２つのダウンミックスチャンネル８２５を受信する（オプション）ように更に構成することができる。最後に、ダイレクト信号部分１２５‐１またはアンビエント信号部分１２５‐２は、ダイレクト／アンビエンス抽出器１２０による抽出の後に取得される。
【００７４】
エンコーダ／デコーダシステム８００のエンコーダ側において、多重チャンネルオーディオ信号（Ｃｈ₁…Ｃｈ_N）を多数のダウンミックスチャンネルＣｈ₁…Ｃｈ_Mを有するダウンミックス信号１１５にダウンミックスし、チャンネル数がＮからＭに低減されるダウンミキサー８１５を備えることができるエンコーダ８１０の実施形態が示される。ダウンミキサー８１５は、また、多重チャンネルオーディオ信号１０１からチャンネル間関係を計算することによって、空間パラメータ情報１０５を出力するように構成することができる。図８のエンコーダ／デコーダシステム８００において、ダウンミックス信号１１５と空間パラメータ情報１０５は、エンコーダ８１０からデコーダ８２０に送信することができる。ここで、エンコーダ８１０は、エンコーダ側からデコーダ側への送信に対して、ダウンミックス信号１１５と空間パラメータ情報１０５に基づいて符号化信号を導き出すことができる。さらに、空間パラメータ情報１０５は、多重チャンネルオーディオ信号１０１のチャンネル情報に基づいている。
【００７５】
一方では、チャンネル間関係パラメータσ_i（Ｃｈ_i、Ｒ）とＩＣＣ_i（Ｃｈ_i、Ｒ）は、エンコーダ８１０において、チャンネルＣｈ_iと残りのチャンネルの線形結合Ｒの間で計算し、符号化信号の中で送信することができる。デコーダ８２０は、次に、符号化信号を受信し、送信されたチャンネル間関係パラメータσ_i（Ｃｈ_i、Ｒ）とＩＣＣ_i（Ｃｈ_i、Ｒ）について動作することができる。
【００７６】
他方では、エンコーダ８１０は、また、送信される異なるチャンネルのペア（Ｃｈ_i、Ｃｈ_j）の間のチャンネル間コヒーレンスパラメータＩＣＣ_i,jを計算するように構成することができる。この場合、デコーダ８１０は、以前に記載されている対応する実施形態を実現することができるように、送信されたペアに関して計算されたＩＣＣ_i,j（Ｃｈ_i、Ｃｈ_j）パラメータから、チャンネルＣｈ_iと残りのチャンネルの線形結合Ｒの間のパラメータＩＣＣ_i（Ｃｈ_i、Ｒ）を導き出すことが可能でなければならない。この文脈において、デコーダ８２０は、ダウンミックス信号１１５の知識だけからパラメータＩＣＣ_i（Ｃｈ_i、Ｒ）を復元することができない点に注意すべきである。
【００７７】
実施形態において、送信された空間パラメータは、ペアに関するチャンネル比較についてだけではない。
【００７８】
たとえば、最も代表的なＭＰＳのケースは、２つのダウンミックスチャンネルがあるということである。ＭＰＳ復号化における空間パラメータの第１のセットは、２つのチャンネルを３つ：センター、レフトおよびライトにする。このマッピングを導くパラメータのセットは、センター予測係数（ＣＰＣ）と、この２から３への構成に特有のＩＣＣパラメータと呼ばれる。
【００７９】
空間パラメータの第２のセットは、各々を次の２つに分ける。すなわち、サイドチャンネルを対応する前後のチャンネルに、センターチャンネルをセンターとＬｆｅチャンネルに分ける。このマッピングは、前に導入されたＩＣＣとＣＬＤパラメータに関する。
【００８０】
すべての種類のダウンミックス構成とすべての種類の空間パラメータに対する計算ルールを作ることは、実際的でない。しかしながら、仮想的に、ダウンミックスステップに従うことは、実際的である。我々は、どのようにして２つのチャンネルが３つになり、３つが６つになるかを知っているので、結局は、どのように２つの入力チャンネルが６つの出力に割り振られるかの入出力関係を見つける。出力は、ダウンミックスチャンネルの線形結合に加えてそれらの非相関化バージョンの線形結合のみである。出力信号を実際に復号化し、それを測る必要はないが、我々は、この「復号化マトリックス」を知っているので、パラメータドメインにおいて、いかなるチャンネルまたはチャンネルの組合せの間のＩＣＣとＣＬＤパラメータも演算処理上能率的に計算することができる。
【００８１】

【００８２】

【００８３】

【００８４】

【００８５】

【００８６】
また、上記の数式の全ての部分は入力の線形結合に加えて非相関化された信号であるので、解法は直接的に利用可能である。
【００８７】
上記の例は２つの出力チャンネル比較を備えていたが、同様に、後述される例示的プロセスのような出力チャンネルの線形結合間の比較をすることができる。
【００８８】
前の実施形態の概要において、提案された技術／コンセプトは、以下のステップを備えることができる。
１．ダウンミックスチャンネル数より多いことができる「オリジナル」のチャンネルセットのチャンネル間関係（コヒーレンス、レベル）を取り出す。
２．この「オリジナル」のチャンネルセットのアンビエンスエネルギーとダイレクトエネルギーを推定する。
３．この「オリジナル」のチャンネルセットのダイレクトエネルギーとアンビエンスエネルギーを、少ないチャンネル数にダウンミックスする。
４．ダウンミックスされたエネルギーを用い、ゲイン係数またはゲインマトリックスを適用することによって、提供されたダウンミックスチャンネルにおけるダイレクト信号とアンビエンス信号を抽出する。
【００８９】
空間パラメータサイド情報の使用は、図２の実施形態によって最もよく説明され、要約されている。図２の実施形態において、単一のオーディオチャンネルとそれが表すステレオサウンドのチャンネル間差分（コヒーレンス、レベル）に関する空間サイド情報を含む、パラメータステレオストリームを持つ。ここで、我々は、チャンネル間差分を知っているので、上記のステレオアンビエンス推定式をそれらに適用し、オリジナルのステレオチャンネルのダイレクトエネルギーとアンビエンスエネルギーを得ることができる。次に、ダイレクトエネルギーを（コヒーレント和と）、アンビエンスエネルギーを（非コヒーレント和と）一緒に加算することによって、チャンネルエネルギーを「ダウンミックス」することができ、単一のダウンミックスチャンネルのダイレクトからトータルへのエネルギーレシオとアンビエントからトータルへのエネルギーレシオを抽出することができる。
【００９０】
図２の実施形態を参照して、空間パラメータ情報は、それぞれパラメータステレオオーディオ信号の左チャンネル（Ｌ）と右チャンネル（Ｒ）に対応するチャンネル間コヒーレンスパラメータ（ＩＣＣ_L、ＩＣＣ_R）とチャンネルレベル差パラメータ（ＣＬＤ_L、ＣＬＤ_R）を基本的に備える。ここで、チャンネル間コヒーレンスパラメータＩＣＣ_LとＩＣＣ_Rは、等しい（ＩＣＣ_L＝ＩＣＣ_R）が、チャンネルレベル差パラメータＣＬＤ_LとＣＬＤ_Rは、ＣＬＤ_L＝−ＣＬＤ_Rの関係にある点に注意すべきである。同様に、チャンネルレベル差パラメータＣＬＤ_LとＣＬＤ_Rは、通常はそれぞれパラメータσ_Lとσ_Rのデシベル値であるので、左チャンネル（Ｌ）と右チャンネル（Ｒ）に対するパラメータσ_Lとσ_Rは、σ_L＝１／σ_Rの関係にある。これらのチャンネル間差分パラメータは、ステレオアンビエンス推定式に基づいて、両方のチャンネル（Ｌ、Ｒ）に対して、それぞれのダイレクトからトータルへのエネルギーレシオ（ＤＴＴ_L、ＤＴＴ_R）とアンビエントからトータルへのエネルギーレシオ（ＡＴＴ_L、ＡＴＴ_R）を計算するために直ちに用いることができる。ステレオアンビエンス推定式において、左チャンネル（Ｌ）のダイレクトからトータルへのエネルギーレシオとアンビエントからトータルへのエネルギーレシオ（ＤＴＴ_L、ＡＴＴ_L）は、左チャンネルＬに対するチャンネル間差分パラメータ（ＣＬＤ_L、ＩＣＣ_L）に依存し、一方、右チャンネル(Ｒ)のダイレクトからトータルへのエネルギーレシオとアンビエントからトータルへのエネルギーレシオ（ＤＴＴ_R、ＡＴＴ_R）は、右チャンネルＲに対するチャンネル間差分パラメータ（ＣＬＤ_R、ＩＣＣ_R）に依存する。さらに、パラメータステレオオーディオ信号の両方のチャンネルＬ、Ｒに対するエネルギー（Ｅ_L、Ｅ_R）は、それぞれ、左チャンネル（Ｌ）と右チャンネル（Ｒ）に対するチャンネルレベル差パラメータ（ＣＬＤ_L、ＣＬＤ_R）に基づいて導き出すことができる。ここで、左チャンネルＬに対するエネルギー（Ｅ_L）は、左チャンネルＬ対するチャンネルレベル差パラメータ（ＣＬＤ_L）をモノラルダウンミックス信号に適用することによって取得することができ、一方、右チャンネルＲに対するエネルギー（Ｅ_R）は、右チャンネルＲに対するチャンネルレベル差パラメータ（ＣＬＤ_R）をモノラルダウンミックス信号に適用することによって取得することができる。次に、両チャンネル（Ｌ、Ｒ）に対するエネルギー（Ｅ_L、Ｅ_R）を対応するＤＴＴ_L、ＤＴＴ_R、およびＡＴＴ_L、ＡＴＴ_Rベースのパラメータと乗算することによって、両チャンネル（Ｌ、Ｒ）に対するダイレクトエネルギー（Ｅ_DL、Ｅ_DR）とアンビエンスエネルギー（Ｅ_AL、Ｅ_AR）が取得される。次に、両チャンネル（Ｌ、Ｒ）に対するダイレクトエネルギー（Ｅ_DL、Ｅ_DR）は、コヒーレントダウンミックスルールを用いることによって結合／加算し、モノラルダウンミックス信号のダイレクト部分に対するダウンミックスされたエネルギー（Ｅ_D、_mono）を取得することができ、一方、両チャンネル（Ｌ、Ｒ）に対するアンビエンスエネルギー（Ｅ_AL、Ｅ_AR）は、非コヒーレントダウンミックスルールを用いることによって結合／加算し、モノラルダウンミックス信号のダイレクト部分に対するダウンミックスされたエネルギー（Ｅ_A、_mono）を取得することができる。次に、ダイレクト信号部分およびアンビエント信号部分に対するダウンミックスされたエネルギー（Ｅ_D、_mono、Ｅ_A、_mono）を、モノラルダウンミックス信号のトータルエネルギー（Ｅ_mono）に関連づけることによって、モノラルダウンミックス信号のダイレクトからトータルへのエネルギーレシオ（ＤＴＴ_mono）とアンビエントからトータルへのエネルギーレシオ（ＡＴＴ_mono）が取得される。最後に、これらのＤＴＴ_monoエネルギーレシオとＡＴＴ_monoエネルギーレシオに基づいて、モノラルダウンミックス信号からダイレクト信号部分またはアンビエント信号部分を基本的に抽出することができる。
【００９１】
オーディオの再生において、サウンドをヘッドホン上に再生するニーズがしばしば生ずる。ヘッドホンリスニングは、スピーカリスニングおよびあらゆる自然音響環境に対して大幅に異なる特別な特徴を有する。オーディオは、左右の耳に対して直接にセットされる。生成されるオーディオコンテンツは、通常はスピーカ再生に対して生成される。それ故、オーディオ信号は、我々の聴覚システムが空間音響知覚において用いる属性と頭出しを含まない。それは、バイノーラル処理がシステムに導入されない限り、当てはまる。
【００９２】
バイノーラル処理は、基本的に、入力サウンドに取り入れ、それを修正し、それが（我々の聴覚システムが空間サウンドを処理する方法に関して）知覚的に正しい両耳間およびモノラルの属性のようなものだけを含むようにするプロセスであるということができる。バイノーラル処理は、直接的なタスクではなく、技術水準による存在する解法は、多くの副次的な最適性を有する。
【００９３】
多重チャンネルオーディオ信号をヘッドホンに対するバイノーラル対応物に変換するように設計されたメディアプレーヤおよび処理デバイスのような、音楽と映画再生に対するバイノーラル処理が既に含まれた多数のアプリケーションがある。代表的なアプローチは、頭部関連伝達関数（ＨＲＴＦ）を用い、仮想スピーカを作成し、信号に対して空間効果を加える。これは、理論的に、特定の空間においてスピーカでリスニングすることと等価とすることができた。
【００９４】
しかしながら、実際は、このアプローチが一貫してリスナーを満足させていないことを繰り返し示している。この直接的な方法を備えた良好な空間化が、音色または音質における好ましくない変化、空間効果の悩ましい知覚およびダイナミクスの損失を有するようなオーディオ品質を損失する代償がついてくるという妥協があるように思われる。更なる問題は、不正確なローカライゼーション（例えば頭部内のローカライゼーション、前後の混乱）、音源の空間距離の欠如、および両耳間のミスマッチ、すなわち間違った両耳の頭出しによる耳の近くの聴覚を含む。
【００９５】
異なるリスナーは、非常に異なって問題を判断するかもしれない。感度は、また、音楽（音色に関する厳格な品質判定基準）、映画（より厳格でない）およびゲーム（さらに厳格でないがローカライゼーションが重要である）のような入力素材に依存して変化する。また、コンテンツに依存して通常は異なる設計目標が存在する。
【００９６】
それ故、次の記述は、平均的な全体の認知品質を最大化するために上記の問題をできるだけうまく克服するアプローチを取扱う。
【００９７】
図９ａは、本発明の更なる実施形態に係るバイノーラル・ダイレクトサウンド・レンダリングデバイス９１０の概観９００のブロック図を示す。図９ａに示されるように、バイノーラル・ダイレクトサウンド・レンダリングデバイス９１０は、図１の実施形態のダイレクト／アンビエンス抽出器１２０の出力に存在することができるダイレクト信号部分１２５‐１を処理し、第１のバイノーラル出力信号９１５を取得するように構成される。第１のバイノーラル出力信号９１５は、Ｌで示される左チャンネルとＲで示される右チャンネルを備えることができる。
【００９８】
ここで、バイノーラル・ダイレクトサウンド・レンダリングデバイス９１０は、ダイレクト信号部分１２５‐１を、頭部関連伝達関数（ＨＲＴＦ）を通して供給し、変換されたダイレクト信号部分を取得するように構成することができる。バイノーラル・ダイレクトサウンド・レンダリングデバイス９１０は、更に、変換されたダイレクト信号部分に空間効果を適用し、最終的に第１のバイノーラル出力信号９１５を取得するように構成することができる。
【００９９】
図９ｂは、図９ａのバイノーラル・ダイレクトサウンド・レンダリングデバイス９１０の詳細９０５のブロック図を示す。バイノーラル・ダイレクトサウンド・レンダリングデバイス９１０は、ブロック９１２で示される「ＨＲＴＦ変換器」と、ブロック９１４で示される空間効果処理デバイス（並列リバーブあるいは初期反射のシミュレーション）を備えることができる。図９ｂに示されるように、ＨＲＴＦ変換器９１２と空間効果処理デバイス９１４は、頭部関連伝達関数（ＨＲＴＦ）と空間効果を並列に適用することによってダイレクト信号部分１２５‐１について動作することができ、第１のバイノーラル出力信号９１５が取得される。
【０１００】
具体的には、図９ｂを参照して、この空間効果処理は、また、非コヒーレントな反響したダイレクト信号９１９を提供することができ、その信号９１９は、次のクロスミックスフィルタ９２０によって処理され、信号を拡散音場の両耳間コヒーレンスに適合させることができる。ここで、フィルタ９２０とＨＲＴＦ変換器９１２の結合出力は、第１のバイノーラル出力信号９１５を構成する。更なる実施形態によれば、ダイレクトサウンドに関する空間効果処理は、初期反射のパラメータ表現とすることもできる。
【０１０１】
それ故、実施形態において、空間効果は、好ましくはＨＲＴＦに並列に適用することができ、直列（すなわち、信号をＨＲＴＦを通して供給した後に空間効果を適用することによって）には適用されない。具体的には、音源からダイレクトに伝搬するサウンドのみが通過するかまたは対応するＨＲＴＦによって変換される。間接的な／反響したサウンドは、至る所で耳に入るように、すなわち統計的方法で（ＨＲＴＦの代わりにコヒーレンス制御を使用することによって）、近似することができる。直列の実施態様があってもよいが、並列の方法が好ましい。
【０１０２】
図１０ａは、本発明の更なる実施形態に係るバイノーラル・アンビエントサウンド・レンダリングデバイス１０１０の概観１０００のブロック図を示す。図１０ａに示されるように、バイノーラル・アンビエントサウンド・レンダリングデバイス１０１０は、例えば、図１のダイレクト／アンビエンス抽出器１２０から出力されるアンビエント信号部分１２５‐２を処理し、第２のバイノーラル出力信号１０１５を取得するように構成することができる。第２のバイノーラル出力信号１０１５は、また、左チャンネル（Ｌ）と右チャンネル(Ｒ)を備えることができる。
【０１０３】
図１０ｂは、図１０ａのバイノーラル・アンビエントサウンド・レンダリングデバイス１０１０の詳細１００５のブロック図を示す。図１０ｂにおいて、バイノーラル・アンビエントサウンド・レンダリングデバイス１０１０は、非コヒーレントな反響したアンビエント信号１０１３が取得されるように、アンビエント信号部分１２５‐２に、「空間効果処理」で表示されたブロック１０１２で示される空間効果を適用するように構成することができることがわかる。バイノーラル・アンビエントサウンド・レンダリングデバイス１０１０は、現実の拡散音場の両耳間コヒーレンスに適合する第２のバイノーラル出力信号１０１５が提供されるように、ブロック１０１４で示されるクロスミックスフィルタのようなフィルタを適用することによって、非コヒーレントな反響したアンビエント信号１０１３を処理するように更に構成することができる。「空間効果処理」で示されるブロック１０１２は、また、現実の拡散音場の両耳間コヒーレンスを直接生成するように構成することができる。この場合、ブロック１０１４は使用されない。
【０１０４】
更なる実施形態によれば、バイノーラル・アンビエントサウンド・レンダリングデバイス１０１０は、第２のバイノーラル出力信号１０１５の提供のために、アンビエント信号部分１２５‐２に対して空間効果および／またはフィルタを適用し、第２のバイノーラル出力信号１０１５が現実の拡散音場の両耳間コヒーレンスに適合するように構成される。
【０１０５】
上記実施形態において、非相関性とコヒーレンス制御は、２つの連続的なステップにおいて実行することができるが、これは必要条件でない。非コヒーレント信号の中間の数式化なしに、単一ステップのプロセスで同じ結果を得ることも可能である。両方法は等しく有効である。
【０１０６】
図１１は、多重チャンネル入力オーディオ信号１０１のバイノーラル再生の実施形態１１００の概念的なブロック図を示す。具体的には、図１１の実施形態は、多重チャンネル入力オーディオ信号１０１のバイノーラル再生の装置を表し、第１の変換器１１１０（「周波数変換」）と、分離器１１２０（「ダイレクト‐アンビエンス分離）と、バイノーラル・ダイレクトサウンド・レンダリングデバイス９１０（「ダイレクト音源レンダリング）と、バイノーラル・アンビエントサウンド・レンダリングデバイス１０１０（「アンビエントサウンドレンダリング）と、『プラス』で示される結合器１１３０と、第２の変換器１１４０（「逆周波数変換」）を備える。特に、第１の変換器１１１０は、多重チャンネル入力オーディオ信号１０１をスペクトル表現１１１５に変換するように構成することができる。分離器１１２０は、スペクトル表現１１１５からダイレクト信号部分１２５‐１またはアンビエント信号部分１２５‐２を抽出するように構成することができる。ここで、分離器１１２０は、特にダイレクト／アンビエンス推定器１１０とダイレクト／アンビエンス抽出器１２０を含む図１の装置１００に相当することができる。前に説明されたように、バイノーラル・ダイレクトサウンド・レンダリングデバイス９１０は、ダイレクト信号部分１２５‐１について動作し、第１のバイノーラル出力信号９１５を取得することができる。同様に、バイノーラル・アンビエントサウンド・レンダリングデバイス１０１０は、アンビエント信号部分１２５‐２について動作し、第２のバイノーラル出力信号１０１５を取得することができる。結合器１１３０は、第１のバイノーラル出力信号９１５と第２のバイノーラル出力信号１０１５を結合し、結合信号１１３５を取得するように構成することができる。最後に、第２の変換器１１４０は、結合信号１１３５を時間ドメインに変換し、ステレオ出力オーディオ信号１１５０（「ヘッドホンに対するステレオ出力」）を取得するように構成することができる。
【０１０７】
図１１の実施形態の周波数変換演算は、システムが、空間オーディオの知覚処理における固有のドメインである周波数変換ドメインにおいて機能することを示す。既に周波数変換ドメインにおいて機能しているシステムにおいてアドオンとして使用されている場合、システム自身は必ずしも周波数変換を有しない。
【０１０８】
上記のダイレクト／アンビエンス分離プロセスは、２つの異なる部分に細分化することができる。ダイレクト／アンビエンス推定部において、ダイレクトアンビエント部分のレベルおよび／またはレシオは、オーディオ信号の信号モデルと属性の組合せに基づいて推定される。ダイレクト／アンビエンス抽出部において、既知のレシオおよび入力信号は、出力ダイレクト／アンビエンス信号の生成に用いることができる。
【０１０９】
最後に、図１２は、バイノーラル再生の使用のケースを含むダイレクト／アンビエンス推定／抽出の実施形態１２００の全体ブロック図を示す。特に、図１２の実施形態１２００は、図１１の実施形態１１００に相当することができる。しかしながら、実施形態１２００において、空間パラメータ情報１０５に基づく推定／抽出プロセスを含む、図１の実施形態のブロック１１０、１２０に対応する図１１の分離器１１２０の詳細が示される。加えて、図１１の実施形態１１００とは対照的に、図１２の実施形態１２００においては、異なるドメイン間の変換プロセスが示されていない。実施形態１２００のブロックは、また、多重チャンネルオーディオ信号１０１から導き出すことができるダウンミックス信号１１５について明らかに動作する。
【０１１０】
図１３ａは、フィルタバンクドメインにおいてモノラルダウンミックス信号からダイレクト／アンビエンス信号を抽出する装置１３００の実施形態のブロック図を示す。図１３ａに示されるように、装置１３００は、解析フィルタバンク１３１０と、ダイレクト部分に対する合成フィルタバンク１３２０と、アンビエント部分に対する合成フィルタバンク１３２２を備える。
【０１１１】
特に、装置１３００の解析フィルタバンク１３１０は、短時間フーリエ変換（ＳＴＦＴ）を実行するように実施することができるか、または、例えば、解析ＱＭＦフィルタバンクとして構成することができ、一方、装置１３００の合成フィルタバンク１３２０、１３２２は、逆短時間フーリエ変換（ＩＳＴＦＴ）を実行するように実施することができるか、または、例えば、合成ＱＭＦフィルタバンクとして構成することができる。
【０１１２】
解析フィルタバンク１３１０は、図２の実施形態に示されたようなモノラルダウンミックス信号２１５に相当することができるモノラルダウンミックス信号１３１５を受信し、モノラルダウンミックス信号１３１５を複数のフィルタバンクサブバンド１３１１に変換するように構成される。図１３ａに見られるように、複数のフィルタバンクサブバンド１３１１は、それぞれ複数のダイレクト／アンビエンス抽出ブロック１３５０、１３５２に接続され、複数のダイレクト／アンビエンス抽出ブロック１３５０、１３５２は、それぞれＤＴＴ_monoまたはＡＴＴ_monoベースのパラメータ１３３３、１３３５をフィルタバンクサブバンドに適用するように構成される。
【０１１３】
ＤＴＴ_mono、ＡＴＴ_monoベースのパラメータ１３３３、１３３５は、図１３ｂに示されるように、ＤＴＴ_mono、ＡＴＴ_mono演算器１３３０から供給することができる。特に、図１３ｂのＤＴＴ_mono、ＡＴＴ_mono演算器１３３０は、ＤＴＴ_mono、ＡＴＴ_monoエネルギーレシオを計算するか、または、前に同様に記載されたパラメータステレオオーディオ信号（例えば、図２のパラメータステレオオーディオ信号２０１）の左チャンネルと右チャンネル（Ｌ、Ｒ）に対応する提供されたチャンネル間コヒーレンスパラメータとチャンネルレベル差パラメータ（ＩＣＣ_L、ＣＬＤ_L、ＩＣＣ_R、ＣＬＤ_R）１０５からＤＴＴ_mono、ＡＴＴ_monoベースのパラメータを導き出すように構成することができる。ここで、単一のフィルタバンクサブバンドに対して、対応するパラメータ１０５と、ＤＴＴ_mono、ＡＴＴ_monoベースのパラメータ１３３３、１３３５を用いることができる。この文脈において、それらのパラメータは周波数を通じて一定でないことが指摘される。
【０１１４】
ＤＴＴ_monoまたはＡＴＴ_monoベースのパラメータ１３３３、１３３５のアプリケーションの結果として、それぞれ複数の修正されたフィルタバンクサブバンド１３５３、１３５５が取得される。引き続いて、複数の修正されたフィルタバンクサブバンド１３５３、１３５５は、それぞれ合成フィルタバンク１３２０、１３２２に供給され、それぞれモノラルダウンミックス信号１３１５のダイレクト信号部分１３２５‐１またはアンビエント信号部分１３２５‐２を取得するために複数の修正されたフィルタバンクサブバンド１３５３、１３５５を合成するように構成される。ここで、図１３ａのダイレクト信号部分１３２５‐１は、図２のダイレクト信号部分１２５‐１に相当することができ、一方、図１３ａのアンビエント信号部分１３２５‐２は、図２のアンビエント信号部分１２５‐２に相当することができる。
【０１１５】
図１３ｂを参照して、図１３ａの複数のダイレクト／アンビエンス抽出ブロック１３５０、１３５２の１つのダイレクト／アンビエンス抽出ブロック１３８０は、特にＤＴＴ_mono、ＡＴＴ_mono演算器１３３０と乗算器１３６０を備える。乗算器１３６０は、複数のフィルタバンクサブバンド１３１１の単一のフィルタバンク（ＦＢ）サブバンド１３０１を、対応するＤＴＴ_mono／ＡＴＴ_monoベースのパラメータ１３３３、１３３５と乗算するように構成することができ、複数のフィルタバンクサブバンド１３５３、１３５５の修正された単一のフィルタバンクサブバンド１３６５が取得される。特に、ダイレクト／アンビエンス抽出ブロック１３８０は、ブロック１３８０が複数のブロック１３５０に帰属する場合に、ＤＴＴ_monoベースのパラメータを適用するように構成され、一方、ブロック１３８０が複数のブロック１３５２に帰属する場合に、ＡＴＴ_monoベースのパラメータを適用するように構成される。修正された単一のフィルタバンクサブバンド１３６５は、ダイレクト部分またはアンビエント部分に対して、それぞれの合成フィルタバンク１３２０、１３２２に更に供給することができる。
【０１１６】
実施形態によれば、空間パラメータおよび導き出されたパラメータは、一般にフィルタバンクの分解能より低い人間の聴覚システム、例えば２８バンドのクリチカルバンドによる周波数分解能において与えられる。
【０１１７】
それ故、図１３ａの実施形態に係るダイレクト／アンビエンス抽出は、図３ｂのチャンネル間関係パラメータ３３５に相当することができるサブバンドに関して計算されたチャンネル間コヒーレンスとチャンネルレベル差パラメータに基づいて、フィルタバンクドメインにおいて異なるサブバンドについて基本的に動作する。
【０１１８】
図１４は、本発明の更なる実施形態に係る例示的なＭＰＥＧサラウンド復号化スキーム１４００の図解図を示す。特に、図１４の実施形態は、ステレオダウンミックス１４１０から６つの出力チャンネル１４２０への復号化を記述する。ここで、「ｒｅｓ」で示される信号は残差信号であり、それは（「Ｄ」で示されるブロックからの）非相関化信号に対するオプションの置き換えである。図１４の実施形態によれば、図８のエンコーダ８１０のようなエンコーダから図８のデコーダ８２０のようなデコーダに対して、ＭＰＳストリームの中で伝送される空間パラメータ情報またはチャンネル間関係パラメータ（ＩＣＣ、ＣＬＤ）は、それぞれ「前非相関化マトリックスＭ１」と「混合マトリックスＭ２」で示される復号化マトリックス１４３０、１４４０を生成するために用いることができる。図１４の実施形態に特有のことは、混合マトリックスＭ２１４４０を用いたサイドチャンネル（Ｌ、Ｒ）とセンターチャンネル（Ｃ）（Ｌ、Ｒ、Ｃ１４３５）からの出力チャンネル１４２０（すなわちアップミックスチャンネルＬ、ＬＳ、Ｒ、ＲＳ、Ｃ、ＬＦＥ）の生成が、ＭＰＳサラウンド標準による特定のチャンネル間関係パラメータ（ＩＣＣ、ＣＬＤ）を備える、図１の空間パラメータ情報１０５に相当することができる空間パラメータ情報１４０５によって、基本的に決定されるということである。
【０１１９】
ここで、左チャンネル（Ｌ）の対応する出力チャンネルＬ、ＬＳへの分割と、右チャンネル（Ｒ）の対応する出力チャンネルＲ、ＲＳへの分割と、センターチャンネル（Ｃ）の対応する出力チャンネルＣ、ＬＦＥへの分割は、それぞれ、対応するＩＣＣ、ＣＬＤパラメータに対してそれぞれの入力を有する１から２への（ＯＴＴ）構成によって表すことができる。
【０１２０】
特に「５‐２‐５構成」に相当する例示的なＭＰＥＧサラウンド復号化スキーム１４００は、例えば、次のステップを備えることができる。第１ステップにおいて、空間パラメータまたはパラメータサイド情報は、既存のＭＰＳサラウンド標準に従って、図１４に示される復号化マトリックス１４３０、１４４０に数式化することができる。第２ステップにおいて、復号化マトリックス１４３０、１４４０は、パラメータドメインにおいて、アップミックスチャンネル１４２０のチャンネル間情報を提供するために用いることができる。第３ステップにおいて、このように提供されたチャンネル間情報によって、各アップミックスチャンネルのダイレクト／アンビエンスエネルギーを計算することができる。第４ステップにおいて、このように取得されたダイレクト／アンビエンスエネルギーは、ダウンミックスチャンネル１４１０の数にダウンミックスすることができる。第５ステップにおいて、ダウンミックスチャンネル１４１０に適用される重みを計算することができる。
【０１２１】

【０１２２】
中括弧で示される予測オペレータは、実用的なアプリケーションにおいて、再帰的または非再帰的な時間平均によって置き換えることができる。エネルギーとクロススペクトルは、ダウンミックス信号から直接的に測定可能である。
【０１２３】
また、２つのチャンネルの線形結合のエネルギーは、チャンネルのエネルギー、混合係数およびクロススペクトルから（すべて信号演算が必要でないパラメータドメインにおいて）数式化できる点に注意すべきである。
【０１２４】

【０１２５】
以下は、例示的プロセス（すなわち復号化スキーム）の個々のステップを記述する。
【０１２６】
第１ステップ（混合マトリックスに対する空間パラメータ）
【０１２７】
前述のように、Ｍ１マトリックスとＭ２マトリックスは、ＭＰＳサラウンド標準に従って作成される。Ｍ１の第ａ行、第ｂ列の要素はＭ１（ａ,ｂ）である。
【０１２８】
第２ステップ（アップミックスチャンネルのチャンネル間情報へのダウンミックスのエネルギーとクロススペクトルを備えた混合マトリックス）
【０１２９】

【０１３０】
上記は、アップミックスされた正面左チャンネルに対する例である。他のチャンネルは、同様に数式化することができる。Ｄ要素は、非相関化器であり、ａ‐ｅは、Ｍ１とＭ２のマトリックスエントリーから計算可能な重みである。
【０１３１】

【０１３２】

【０１３３】

【０１３４】
ここで「残りのチャンネル」に対して「Ｒ」を使用することは混乱させるかもしれないので、記号「Ｘ」を使用している。
【０１３５】

【０１３６】

【０１３７】

【０１３８】

【０１３９】
第３ステップ（アップミックスチャンネルにおけるアップミックスチャンネルのＤＴＴパラメータに対するチャンネル間情報）
【０１４０】

【０１４１】

【０１４２】
第４ステップ（ダイレクト／アンビエントエネルギーをダウンミックスする）
【０１４３】

【０１４４】
第５ステップ（ダウンミックスチャンネルにおけるアンビエンス抽出に対する重みを計算する）
【０１４５】

【０１４６】
重み係数は、次に、図５の実施形態に記載されたように（すなわち、ｓｑｒｔ（ＤＴＴ）またはｓｑｒｔ（１‐ＤＴＴ）アプローチを用いて）、または図６の実施形態のように（すなわち、クロスミックスマトリックス法を用いて）計算することができる。
【０１４７】
基本的に、上述した例示的プロセスは、ＭＰＳストリームにおけるＣＰＣ、ＩＣＣおよびＣＬＤパラメータを、ダウンミックスチャンネルのアンビエンスレシオに関連づける。
【０１４８】
更なる実施形態によれば、通常は同様の目的を達成する他の手段があり、同様に他の条件がある。例えば、特定のチャンネルが残りのチャンネルと比較される前に記載されたものと比べて、ダウンミックスに対する他のルール、他のスピーカレイアウト、他の復号化方法および多重チャンネルアンビエンス推定をなす他の方法が存在することができる。
【０１４９】
本発明は、ブロックが実際のまたは論理的なハードウェアコンポーネントを表すブロック図の前後関係において記載されていたが、本発明は、また、コンピュータで実施される方法で実施することができる。後者の場合、ブロックは対応する方法ステップを表し、これらのステップは対応する論理的または物理的ハードウェアブロックによって実行される機能を表す。
【０１５０】
記載された実施形態は、単に本発明の原理に対して例証を示したものである。本願明細書に記載された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。本発明は、それ故に、特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述および説明によって提案された特定の詳細によって制限されないことを意図する。
【０１５１】
発明の方法の特定の実施要求に依存して、発明の方法はハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、格納された電子的に読込可能な制御信号を有し、発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働する、デジタル記録メディア、特に、ディスク、ＤＶＤまたはＣＤ、を使用して実行することができる。一般に、本発明は、それ故に、機械読取可能なキャリアに格納されるプログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに、発明の方法を実行するように動作する。言い換えれば、発明の方法は、それ故、コンピュータプログラムがコンピュータ上で動作するときに、発明の方法の少なくとも１つを実行するためのプログラムコードを有するコンピュータプログラムである。発明の符号化されたオーディオ信号は、デジタル記憶媒体のようないかなる機械読取可能な記憶媒体上にも記憶することができる。
【０１５２】
新規なコンセプトおよび技術の効果は、上述の実施形態、すなわちこの出願に記載された装置、方法またはコンピュータプログラムが、パラメータ空間情報の助けによりオーディオ信号からダイレクトおよび／またはアンビエンス成分を推定および抽出することを可能とすることである。特に、本発明の新規な処理は、通常はアンビエンス抽出の分野において、周波数バンドにおいて機能する。提案されたコンセプトは、オーディオ信号からのダイレクトおよびアンビエンス成分の分離を必要とする多くのアプリケーションがあるので、オーディオ信号処理に関連する。
【０１５３】
先行技術のアンビエンス抽出方法に対立して、本発明のコンセプトは、ステレオ入力信号にだけ基づいているものではなく、モノラルダウンミックスにも適用することができる。単一のチャンネルダウンミックスに対しては、一般に、チャンネル間差分を演算することができない。しかしながら、アンビエンス抽出は、空間サイド情報を考慮に入れることによって、この場合においても可能になる。
【０１５４】
本発明は、「オリジナル」の信号のアンビエンスレベルを推定するために、空間パラメータを利用するという点で有利である。それは、空間パラメータが既に「オリジナル」のステレオまたは多重チャンネル信号のチャンネル間差分に関する情報を含んでいるというコンセプトに基づいている。
【０１５５】
一旦オリジナルのステレオまたは多重チャンネルのアンビエンスレベルが推定されると、提供されたダウンミックスチャンネルにおけるダイレクトおよびアンビエンスレベルも抽出することができる。これは、アンビエント部分に対するアンビエンスエネルギーとダイレクト部分に対するダイレクトエネルギーまたは振幅の線形結合（すなわち重み付き和）によってなすことができる。それ故、本発明の実施形態は、空間サイド情報の助けによりアンビエンス推定および抽出を提供する。
【０１５６】
このコンセプトのサイド情報ベースの処理から拡張して、次の有益な特性または効果が存在する。
【０１５７】
本発明の実施形態は、空間サイド情報と提供されたダウンミックスチャンネルの助けによりアンビエンス推定を提供する。このようなアンビエンス推定は、サイド情報とともに提供される１つ以上のダウンミックスチャンネルがある場合に重要である。サイド情報と、ダウンミックスチャンネルから測定される情報は、アンビエンス推定において一緒に用いることができる。ステレオダウンミックスを備えるＭＰＥＧサラウンドにおいて、これらの２つの情報源は、オリジナルの多重チャンネルサウンドのチャンネル間関係の全部の情報を一緒に提供し、アンビエンス推定はこれらの関係に基づいている。
【０１５８】
本発明の実施形態は、また、ダイレクトエネルギーとアンビエンスエネルギーのダウンミックスを提供する。サイド情報ベースのアンビエンス抽出の記述された状況において、提供されたダウンミックスチャンネルより多いチャンネル数でアンビエンスを推定する中間ステップがある。それ故、このアンビエンス情報は、ダウンミックスオーディオチャンネル数に有効な方法でマップされなければならない。このプロセスは、オーディオチャンネルダウンミックスへの一致によりダウンミックスと称することができる。これは、提供されたダウンミックスチャンネルがダウンミックスされたのと同じ方法で、ダイレクトエネルギーとアンビエンスエネルギーを結合することによって、最も直接的になすことができる。
【０１５９】
ダウンミックスルールは、１つの理想的な解を持たないが、アプリケーションに依存しそうである。例えば、ＭＰＥＧサラウンドにおいて、チャンネル（センター、正面のスピーカ、後部スピーカ）を、それらの通常は異なる信号コンテンツにより異なって処理することは有益になり得る。
【０１６０】
さらに、実施形態は、他のチャンネルに関して、多重チャンネルアンビエンス推定を各チャンネルにおいて独立に提供する。この特性／アプローチは、提案されたステレオアンビエンス推定式を、全ての他のチャンネルに関連する各チャンネルに簡単に使用することを可能にする。この測定によって、全てのチャンネルにおいて等しいアンビエンスレベルを仮定する必要がない。提案された方法は、各チャンネルにおけるアンビエント成分が全ての他のチャンネルのいくつかにおいてコヒーレント相当物を持つ成分であるという空間知覚についての仮定に基づいている。この仮定の有効性を示唆する例は、ノイズ（アンビエンス）を放射する２つのチャンネルうちの１つが、認知されたサウンドシーンに有意に影響を及ぼさずに、各々半分のエネルギーで更に２つのチャンネルに分割することができることである。
【０１６１】
信号処理に関して、実際のダイレクト／アンビエンスレシオ推定が、提案されたアンビエンス推定式を各チャンネル対全ての他のチャンネルの線形結合に適用することによって生ずることは、有益である。
【０１６２】
最後に、実施形態は、実際の信号を抽出するために、推定されたダイレクトアンビエンスエネルギーのアプリケーションを提供する。一旦ダウンミックスチャンネルにおけるアンビエンスレベルが知られると、アンビエンス信号を取得するために２つの発明の方法を適用することができる。第１の方法は、簡単な乗算に基づいており、各ダウンミックスチャンネルに対するダイレクトおよびアンビエント部分は、信号をｓｑｒｔ（ダイレクトからトータルへのエネルギーレシオ）およびｓｑｒｔ（アンビエントからトータルへのエネルギーレシオ）で乗算することによって生成することができる。これは、各ダウンミックスチャンネルに対して、お互いにコヒーレントであるが、ダイレクトおよびアンビエント部分が持つと推定されたエネルギーを持つ２つの信号を提供する。
【０１６３】
第２の方法は、チャンネルのクロスミックスによる最小平均二乗解法に基づいており、チャンネルクロスミックス（負符号によっても可能な）は、上記の解法より良好なダイレクト／アンビエンス信号の推定を可能にする。非特許文献３および特許文献２において提供されるステレオ入力とチャンネルにおける等しいアンビエンスレベルに対する最小平均解法と対比して、本発明は、等しいアンビエンスレベルを必要としない最小平均二乗解法を提供し、またいかなるチャンネル数にも拡張可能である。
【０１６４】
新規な処理の付加的な特性は、以下の通りである。バイノーラルレンダリングに対するアンビエンス処理において、アンビエンスは、現実の拡散音場における両耳間のコヒーレンスと同様の周波数バンドにおける両耳間のコヒーレンスを提供する特性を有するフィルタによって処理することができ、当該フィルタは、空間効果をも含むことができる。バイノーラルレンダリングに対するダイレクト部分の処理において、ダイレクト部分は、初期の反射および／または反響のような追加可能な空間効果を備えた頭部関連伝達関数（ＨＲＴＦｓ）を通して供給することができる。
【０１６５】
この他に、ドライ／ウェット制御に対応する「分離レベル」の制御は、更なる実施形態において実現することができる。特に、完全な分離は、急激な変化、変調効果、その他のような聞き取れる人工産物に導く可能性があるので、多くのアプリケーションにおいて好ましくない可能性がある。それ故、記載されたプロセスの全ての関連する部分は、所望の、有用な分離の量を制御する「分離レベル」の制御によって実施することができる。図１１に関して、このような分離レベルの制御は、それぞれ、ダイレクト／アンビエンス分離１１２０および／またはバイノーラルレンダリングデバイス９１０、１０１０を制御する破線ボックスの制御入力１１０５によって示される。この制御は、オーディオエフェクト処理におけるドライ／ウェット制御と同様に働くことができる。
【０１６６】
提案された解法の主な利点は、以下の通りである。システムは、ダウンミックス情報のみに依存する前の解法と異なって、すべての状況において、パラメータステレオおよびモノラルダウンミックスを備えるＭＰＥＧサラウンドとも連動する。このシステムは、更に、ダウンミックスチャンネルの簡単なチャンネル間解析によるよりも正確にダイレクトおよびアンビエンスエネルギーを推定するために、空間オーディオビットストリームにおいてオーディオ信号とともに伝達される空間サイド情報を利用することが可能である。それ故、バイノーラル処理のような多くのアプリケーションは、サウンドのダイレクトおよびアンビエント部分に対して異なる処理を適用することによって利益を得ることができる。
【０１６７】
実施形態は、次のサウンド心理学的仮説に基づいている。人間の聴覚システムは、時間‐周波数タイル（特定の周波数と時間範囲に限定された領域）における両耳間のキューに基づいて音源をローカライズする。時間と周波数においてオーバーラップする２つ以上の非コヒーレントな共存する音源が異なる位置において同時に存在する場合、聴覚システムは音源の位置を認知することができない。これは、これらの音源の合計が、リスナー上に、信頼できる両耳間のキューを生成しないからである。聴覚システムは、このように、信頼できるローカライズ情報を提供するクローズした時間‐周波数タイルをピックアップし、残りをローカライズできないものとして取り扱うように記述することができる。これらの手段によって、聴覚システムは、複雑なサウンド環境において音源をローカライズすることができる。同時に起こるコヒーレント音源は、異なる効果を有し、コヒーレント音源の間に単一の音源を形成される同じ両耳間のキューを近似的に形成する。
【０１６８】
これは、また、実施形態が利用する特性である。ローカライズ可能な（ダイレクト）サウンドとローカライズ不能な（アンビエンス）サウンドのレベルは、推定することができ、次にこれらの成分が抽出される。空間化信号処理は、ローカライズ可能な／ダイレクト部分にのみ適用され、一方、拡散性／開放性／エンベロープ処理は、ローカライズ不能な／アンビエント部分に適用される。これは、多くのプロセスが必要とされるところでのみ適用され、残りの信号が影響されないままにすることができるので、バイノーラル処理システムの設計において有意の利益を与える。全ての処理は、人間の聴覚の周波数分解能を近似する周波数バンドにおいて起こる。
【０１６９】
実施形態は、知覚品質を最大にするが、認知される問題点を最小にする信号の分解に基づいている。このような分解によって、オーディオ信号のダイレクト成分とアンビエント成分を分離して取得することが可能である。２つの成分は、次に、所望の効果または表現を得るために、更に処理することができる。
【０１７０】
具体的には、本発明の実施形態は、符号化ドメインにおいて空間サイド情報の助けによってアンビエンス推定を可能にする。
【０１７１】
本発明は、また、オーディオ信号のヘッドホン再生の代表的な問題を、信号をダイレクト信号とアンビエント信号に分離することによって低減することができるという点で有益である。実施形態は、既存のダイレクト／アンビエンス抽出方法を改善し、ヘッドホン再生のためのバイノーラルサウンドレンダリングに適用されるようにすることを可能にする。
【０１７２】
空間サイド情報ベースの処理の主要な使用のケースは、当然ＭＰＥＧサラウンドとパラメータステレオ（および同様のパラメータコーディング技術）である。アンビエンス抽出から利益を受ける代表的なアプリケーションは、異なる程度の空間効果を異なる部分のサウンドに適用する能力によるバイノーラル再生と、異なる成分のサウンドを異なって位置決めおよび処理する能力による高いチャンネル数へのアップミックスである。また、例えば、音声了解度を強化する目的のために、ユーザがダイレクト／アンビエンスレベルの修正を必要とするアプリケーションが存在することができる。

【特許請求の範囲】
【請求項１】
ダウンミックス信号（１１５）と空間パラメータ情報（１０５）から、ダイレクトおよび／またはアンビエンス信号（１２５‐１、１２５‐２）を抽出する装置（１００）であって、前記ダウンミックス信号（１１５）と前記空間パラメータ情報（１０５）は、前記ダウンミックス信号（１１５）よりも多くのチャンネル（Ｃｈ₁…Ｃｈ_N）を有する多重チャンネルオーディオ信号（１０１）を表し、前記空間パラメータ情報（１０５）は、前記多重チャンネルオーディオ信号（１０１）のチャンネル間関係を含み、
前記空間パラメータ情報（１０５）に基づいて、前記多重チャンネルオーディオ信号（１０１）のダイレクト部分および／またはアンビエント部分のレベル情報（１１３）を推定する、ダイレクト／アンビエンス推定器（１１０）と、
前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報（１１３）に基づいて、前記ダウンミックス信号（１１５）から、ダイレクト信号部分（１２５‐１）および／またはアンビエント信号部分（１２５‐２）を抽出する、ダイレクト／アンビエンス抽出器（１２０）と、
を備えた、装置。
【請求項２】
前記ダイレクト／アンビエンス抽出器（４２０）は、前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報（１１３）をダウンミックスし、前記ダイレクト部分または前記アンビエント部分のダウンミックスされたレベル情報を取得し、前記ダウンミックスされたレベル情報に基づいて、前記ダウンミックス信号（１１５）から、前記ダイレクト信号部分（１２５‐１）または前記アンビエント信号部分（１２５‐２）を抽出するように構成された、請求項１に記載の装置。
【請求項３】
前記ダイレクト／アンビエンス抽出器（４２０）は、前記ダイレクト部分の前記推定されたレベル情報をコヒーレント和と結合し、前記アンビエント部分の前記推定されたレベル情報を非コヒーレント和と結合することによって、前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報（１１３）のダウンミックスを実行するように更に構成された、請求項２に記載の装置。
【請求項４】
前記ダイレクト／アンビエンス抽出器（５２０）は、前記ダイレクト部分または前記アンビエント部分の前記ダウンミックスされたレベル情報（５５５‐１、５５５‐２）からゲインパラメータ（５６５‐１、５６５‐２）を導き出し、前記導き出されたゲインパラメータ（５６５‐１、５６５‐２）を前記ダウンミックス信号（１１５）に適用し、前記ダイレクト信号部分（１２５‐１）または前記アンビエント信号部分（１２５‐２）を取得するように更に構成された、請求項２または３に記載の装置。
【請求項５】
前記ダイレクト／アンビエンス抽出器（５２０）は、前記ダイレクト部分または前記アンビエント部分の前記ダウンミックスされたレベル情報（５５５‐１、５５５‐２）から、ダイレクトからトータルへの（ＤＴＴ）エネルギーレシオまたはアンビエントからトータルへの（ＡＴＴ）エネルギーレシオを決定し、前記決定されたＤＴＴエネルギーレシオまたはＡＴＴエネルギーレシオに基づいて、抽出パラメータを、前記ゲインパラメータ（５６５‐１、５６５‐２）として用いるように更に構成された、請求項４に記載の装置。
【請求項６】
前記ダイレクト／アンビエンス抽出器（５２０）は、二次のＭ×Ｍ抽出マトリックスを前記ダウンミックス信号（１１５）に適用することによって、前記ダイレクト信号部分（１２５‐１）または前記アンビエント信号部分（１２５‐２）を抽出するように構成され、前記二次のＭ×Ｍの抽出マトリックスのサイズ（Ｍ）は、ダウンミックスチャンネル（Ｃｈ₁…Ｃｈ_M）の数（Ｍ）に相当する、請求項１〜５のいずれかに記載の装置。
【請求項７】
前記ダイレクト／アンビエンス抽出器（５２０）は、前記ダイレクト信号部分（１２５‐１）を取得するために、第１の複数の抽出パラメータを前記ダウンミックス信号（１１５）に適用し、前記アンビエント信号部分（１２５‐２）を取得するために、第２の複数の抽出パラメータを前記ダウンミックス信号（１１５）に適用するように更に構成され、前記第１の複数個の抽出パラメータと前記第２の複数個の抽出パラメータは、対角行列を構成している、請求項６に記載の装置。
【請求項８】
前記ダイレクト／アンビエンス推定器（１１０）は、前記ダイレクト／アンビエンス推定器（１１０）によって受信された前記空間パラメータ情報（１１３）と、前記ダウンミックス信号（１１５）の少なくとも２つのダウンミックスチャンネル（８２５）に基づいて、前記多重チャンネルオーディオ信号（１０１）の前記ダイレクト部分または前記アンビエント部分の前記レベル情報（１１３）を推定するように構成された、請求項１〜７のいずれかに記載の装置。
【請求項９】

【請求項１０】
前記ダイレクト／アンビエンス抽出器（６２０）は、チャンネルクロスミックスによる最小平均二乗（ＬＭＳ）解法によって、前記ダイレクト信号部分（１２５‐１）または前記アンビエント信号部分（１２５‐２）を抽出するように構成され、前記ＬＭＳ解法は等しいアンビエンスレベルを必要としない、請求項１〜９のいずれかに記載の装置。
【請求項１１】
前記ダイレクト／アンビエンス抽出器（６２０）は、前記ＬＭＳ解法がステレオチャンネルダウンミックス信号に限定されないように、信号モデルを仮定することによって前記ＬＭＳ解法を導き出すように構成された、請求項９に記載の装置。
【請求項１２】
前記ダイレクト信号部分（１２５‐１）を処理し、第１のバイノーラル出力信号（９１５）を取得する、バイノーラル・ダイレクトサウンド・レンダリングデバイス（９１０）と、
前記アンビエント信号部分（１２５‐２）を処理し、第２のバイノーラル出力信号（１０１５）を取得する、バイノーラル・アンビエントサウンド・レンダリングデバイス（１０１０）と、
前記第１のバイノーラル出力信号（９１５）と前記第２のバイノーラル出力信号（１０１５）を結合し、結合されたバイノーラル出力信号（１１３５）を取得する、結合器（１１３０）と、
を更に備えた、請求項１〜１１のいずれか１に記載の装置。
【請求項１３】
前記バイノーラル・アンビエントサウンド・レンダリングデバイス（１０１０）は、前記第２のバイノーラル出力信号（１０１５）を提供するために、前記アンビエント信号部分（１２５‐２）に、空間効果および／またはフィルタを適用するように構成され、前記第２のバイノーラル出力信号（１０１５）は、現実の拡散音場の両耳間のコヒーレンスに適合する、請求項１２に記載の装置。
【請求項１４】
前記バイノーラル・ダイレクトサウンド・レンダリングデバイス（９１０）は、前記第１のバイノーラル出力信号（９１５）を取得するために、頭部関連伝達関数（ＨＲＴＦ）に基づいてフィルタを通して前記ダイレクト信号部分（１２５‐１）を供給するように構成された、請求項１２または１３に記載の装置。
【請求項１５】
ダウンミックス信号（１１５）と空間パラメータ情報（１０５）から、ダイレクトおよび／またはアンビエンス信号（１２５‐１、１２５‐２）を抽出する方法（１００）であって、前記ダウンミックス信号（１１５）と前記空間パラメータ情報（１０５）は、前記ダウンミックス信号（１１５）よりも多くのチャンネル（Ｃｈ₁…Ｃｈ_N）を有する多重チャンネルオーディオ信号（１０１）を表し、前記空間パラメータ情報（１０５）は、前記多重チャンネルオーディオ信号（１０１）のチャンネル間関係を備え、
前記空間パラメータ情報（１０５）に基づいて、前記多重チャンネルオーディオ信号（１０１）のダイレクト部分および／またはアンビエント部分のレベル情報（１１３）を推定するステップ（１１０）と、
前記ダイレクト部分または前記アンビエント部分の前記推定されたレベル情報（１１３）に基づいて、前記ダウンミックス信号（１１５）から、ダイレクト信号部分（１２５‐１）および／またはアンビエント信号部分（１２５‐２）を抽出するステップ（１２０）と、
を備えた、方法。
【請求項１６】
コンピュータプログラムがコンピュータ上で実行されるとき、請求項１５に記載の方法（１００）を実行するプログラムコードを有する、コンピュータプログラム。

【図１】

【図２】

【図３ａ】

【図３ｂ】

【図４】

【図５】

【図６】

【図７ａ】

【図７ｂ】

【図８】

【図９ａ】

【図９ｂ】

【図１０ａ】

【図１０ｂ】

【図１１】

【図１２】

【図１３ａ】

【図１３ｂ】

【図１４】

【公表番号】特表２０１３−５１７５１８（Ｐ２０１３−５１７５１８Ａ）
【公表日】平成２５年５月１６日（２０１３．５．１６）
【国際特許分類】

【出願番号】特願２０１２−５４８４００（Ｐ２０１２−５４８４００）
【出願日】平成２３年１月１１日（２０１１．１．１１）
【国際出願番号】ＰＣＴ／ＥＰ２０１１／０５０２６５
【国際公開番号】ＷＯ２０１１／０８６０６０
【国際公開日】平成２３年７月２１日（２０１１．７．２１）
【出願人】（５９１０３７２１４）フラウンホッファー−ゲゼルシャフト　ツァ　フェルダールング　デァ　アンゲヴァンテン　フォアシュンク　エー．ファオ (259)
【Ｆターム（参考）】

[ Back to top ]

ダウンミックス信号と空間パラメータ情報からダイレクト／アンビエンス信号を抽出する装置および方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ダウンミックス信号と空間パラメータ情報からダイレクト／アンビエンス信号を抽出する装置および方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク