説明

マルチチャンネル符号化における頭部伝達関数をサポートするための装置

【課題】「サラウンド音響」効果を有したステレオダウンミックスを生成するために必要な頭部伝達関数に基づいたダウンミキシングをサポート可能な、先行技術のマルチチャンネル符号化技術は存在しない。
【解決手段】本発明は、先行技術の符号化装置にプリプロセッシングモジュールを、先行技術の復号化装置にデコンボリューションモジュールを追加することによって、頭部伝達関数に基づいたダウンミックスをサポートする簡潔な方法を提供する。プリプロセッシングモジュールは、頭部伝達係数を伴うマルチチャンネル信号を処理し、ステレオダウンミックス信号がサラウンド効果を実現するために必要な信号要素を備えるように、先行技術の符号化装置へ中間入力信号を形成する。デコンボリューションモジュールは、所望のマルチチャンネル信号を復元するために、先行技術の復号化装置からの中間出力信号から頭部伝達関数を取り除く。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチチャンネル符号化技術において、「サラウンド音響」効果を有するステレオダウンミックスを生成する装置を提供する。この技術は、付加された情報でステレオダウンミックスを処理するだけで、ステレオ設備しか持っていないユーザに対して優れたサラウンド音響効果を配信し、(5.1チャンネルのような)マルチチャンネル設備を持ったユーザに対して真のサラウンド音響を回復することができる。本発明は、ホームシアターシステム、車載音響システム、携帯プレーヤ、携帯コミュニケーション装置及び電子ゲームシステム等の応用に適用可能である
【背景技術】
【0002】
図1は、ステレオ信号の組に対する空間音響符号化処理(マルチチャンネル符号化)の基本的原理を説明する図である。符号化処理において、音響信号はフレームごとに処理される。左右のチャンネルであるL及びRは、M=(L+R)/2Mを生成するために、(100)においてダウンミックスされる。L、R及びMは、バイノーラルキューの組を生成するために、バイノーラルキュー検出モジュール(102)によって処理される。あるいは、L及びRのスペクトル表現の平均をとることによって、スペクトル変換後のL及びRからMを生成することができる。バイノーラルキューは、L、R及びMの表現を比較することによって算出される。音響符号化装置(104)は、M信号を符号化して、圧縮されたビットストリームを生成する。この音響符号化装置の例としては、MP3やAACがある。バイノーラルキューは、完全な符号列を形成するために、(106)において、量子化され、圧縮されたMに多重化される。
【0003】
バイノーラルキューは、チャンネル間レベル/強度差(IID)及びチャンネル間コヒーレンス/相関性(ICC)である。ICCキューが二つの信号間(この場合、左右のチャンネル)の類似性を測るのに対し、IIDキューは相対的な信号強度を測る。一般に、レベル/強度キューは、音のバランス/定位を制御するが、コヒーレンス/相関性キューは音の幅/拡散性を制御する。これらは共に聴き手が聴覚的情景を頭の中で構成するのを助ける空間パラメータである。最新の先行技術方法において、音響スペクトルは、通常複数の「パラメータバンド」からなるグループに区分されており、バイノーラルキューの組はそれぞれのパラメータバンドにおいて算出される。先行技術において、「バイノーラルキュー」と「空間パラメータ」という用語はしばしば同義的に用いられる。
【0004】
復号化処理において、逆多重化装置(108)は、バイノーラルキュー情報から、Mのビットストリームを分離する。Mのビットストリームは、ダウンミックス信号Mを復元するために、音響復号化装置(110)によって復号化される。ダウンミックス信号と逆量子化バイノーラルキューは、ダウンミックス信号からステレオ信号を復元するために、マルチチャンネル合成モジュール(112)によって処理される。これらダウンミックス信号から元の2つの信号を復元する処理は、「チャンネル分離技術」を伴う。
【0005】
上記の例は、符号化装置においてどのように二つの信号を1つのダウンミックス信号と空間パラメータの組で表すことができ、空間パラメータとダウンミックス信号を処理することによって、復号化装置においてどのようにダウンミックス信号を2つの信号に分離することができるのかを説明するにすぎない。その技術は、2チャンネルより多いオーディオ信号(例えば、5.1チャンネル音源を構成する6つのチャンネル)を、符号化処理時に2つのダウンミックスチャンネルに圧縮し、復号化処理においてそのチャンネルを復元することができる。図2の6チャンネルの例を参照すると、ここで重要となるのは、最初に、(203)においてステレオの組{L0、R0}を3つの信号に分離するために、上記バイノーラルキューに基づいたチャンネル分離方法の変形を適用する。次に、(200)から(202)において、上記チャンネル分離方法を用いて3つの信号をさらに単一信号に分離する。図2において、Lf、Rf、Ls、Rs、C、及びLFEは、それぞれ左前、右前、左横、右横、中央、及び低周波数を示す。しかしながら、チャンネル分離技術の詳細は、本発明の範囲外である。このようにチャンネル分離の原理をマルチチャンネルに拡張することによって、図1に示されるコーデックは、図3に示されるようなマルチチャンネル処理に一般化することができる。
【0006】
先行技術において、(300)におけるステレオダウンミックスモジュールは、ITUダウンミックスのみをサポートする。つまり、ダウンミックス信号は入力信号の一定の倍数の和から導出される。例えば、
【数1】

【0007】
現在、先行技術には「任意のダウンミキシング」の形態を可能にするものもあるが、符号化処理は、パラメータバンドごとにダウンミックス後の信号を任意に増幅もしくは減衰することしかできない。増幅又は減衰ファクタはビットストリーム情報の一部となる。頭部伝達関数に基づいたような、より高度なダウンミキシングの形態をサポート可能な先行技術は存在していない。
【0008】
頭部伝達関数は、特定の個人の左もしくは右耳のファーフィールド周波数応答を表すものであり、自由音場における特定の1点から外耳道における特定の1点にかけて測定される。上記バイノーラルの差異に基づいたキューは、受聴者の身体、頭部及び耳からの音響散乱処理によって主に引き起こされる。身体構造上の散乱と時間及びレベルの差異の全ての効果は、頭部インパルス応答(もしくはそのフーリエ変換、頭部伝達関数)フィルタ処理によって説明される。結果として、ステレオダウンミックスから優れた「サラウンド音響」を生成するために、異なる方向からのいくつかの頭部伝達関数によって現実の音の散乱過程をシミュレートできることが期待される。具体的には、より多くの頭部伝達関数が探索されればされるほど、豊かなサラウンドコンテンツを認識することができる。
【0009】
頭部伝達関数に基づいたダウンミキシングは、以下のように、マルチチャンネル入力信号を加算する前に伝達関数を適用する。
【数2】

【0010】
図4は、さまざまな記号の定義を示す図である。(400)から(405)はスピーカを示し、(406)は受聴者を示す。(407)及び(408)はそれぞれ受聴者の左耳及び右耳を示している。HL0/Lfは、「LfチャンネルからL0耳への頭部伝達関数」等を表す。
【0011】
本発明の目的は、先行技術であるマルチチャンネル符号化技術に頭部伝達関数に基づいたダウンミキシング方法のサポートを追加することである。
【非特許文献1】J. Herre, et al, "The Reference Model Architecture for MPEG Spatial Audio Coding", May 28-31, 2005, Audio Engineering Society 118th Convention, Paper No. 6447.
【非特許文献2】飯田一博他、「Spectral cueと両耳間Cueに基づいたParametric‐HRTF」、2-8-2、pp.461-462、2005年9月27日~29日、日本音響学会秋季研究発表会。
【発明の開示】
【発明が解決しようとする課題】
【0012】
復号化装置において、追加的な後処理をおこなうことなく「サラウンド音響」効果を有するステレオ音響を配信するために、マルチチャンネル符号化技術は頭部伝達関数に基づいたダウンミキシング処理をサポートする必要がある。現在、マルチチャンネル符号化技術における先行技術では、それを達成することはできない。
【課題を解決するための手段】
【0013】
本発明のプリプロセッシングモジュールを先行技術の符号化装置に、デコンボリューションモジュールを先行技術の復号化装置に追加することによって、頭部伝達係数に基づいたダウンミキシングをサポートする簡略化方法を提案する。
【0014】
複数の中間入力信号に定数を乗じた後に加算することによって得られるステレオダウンミックス信号が「サラウンド音響」効果を実現するために必要な信号要素を備えるように、プリプロセッシングモジュールはマルチチャンネル信号を頭部伝達関数処理し、先行技術の符号化装置への中間入力信号を形成する。
【0015】
中間出力信号は先行技術の復号化装置において再構築される。デコンボリューションモジュールは、所望の出力信号を回復するために、出力信号から頭部伝達関数を取り除く。
【0016】
使用された頭部伝達関数に関する情報はビットストリーム内に移送される。
本発明は、マルチチャンネル音響符号化装置においてサラウンド音響効果のあるステレオ音響を実現するための装置であって、マルチチャンネル音響信号をステレオ信号に変換するダウンミックス装置と、前記ステレオ信号をステレオビットストリームに符号化するステレオ音響符号化装置と、再構築情報を生成するためにマルチチャンネル音響信号を分析するバイノーラルキュー装置とを備え、(a)前記マルチチャンネル音響信号に頭部伝達関数を適用し、プリプロセッシング装置において当該マルチチャンネル音響信号をプレミキシングして、プレミックスマルチチャンネル音響信号を形成し、(b)前記プレミックスマルチチャンネル音響信号を前記マルチチャンネル音響符号化装置へ入力し、(c)前記頭部伝達関数を付加された再構築情報に変換することを特徴とする。
【0017】
本発明は、マルチチャンネル音響復号化装置においてサラウンド音響効果のあるステレオ音響を実現するための装置であって、ステレオビットストリームを復号しステレオ音響信号を形成するステレオ音響復号化装置と、前記ステレオ音響信号に再構築情報を適用して中間マルチチャンネル音響信号を再構築するマルチチャンネル再構築装置を備え、(a)付加された再構築情報の頭部伝達関数をデコンボリューション情報に変換し、(b)前記デコンボリューション情報を中間マルチチャンネル音響信号に適用し、マルチチャンネル音響信号を復元することを特徴とする。
【0018】
本発明の実施の形態のひとつにおいて、前記ダウンミックス装置が生成するステレオ信号が所望の頭部伝達関数処理された信号を出力するように、前記プリプロセッシング装置は前記頭部伝達関数処理された信号をミキシングする。
【0019】
本発明の実施の形態のひとつにおいて、前記付加された再構築情報は、伝達関数係数や周波数応答特性のような、前記マルチチャンネル音響復号化装置が前記頭部伝達関数を再構築するためのデータを含む。
【0020】
本発明の別の実施の形態において、一連の逆行列演算によって中間マルチチャンネル信号から前記頭部伝達関数を同時分離および削除を行うことにより、前記デコンボリューション情報は前記プリプロセッシング装置によるプレミキシング効果を相殺する。
【0021】
本発明の別の実施の形態において、前記逆行列演算に対して安定度チェックが実行され、不安定な場合は、逆行列演算に関わる前記伝達関数は最小位相伝達関数によって近似値がとられる。
【0022】
本発明の別の実施の形態において、前記付加された再構築情報は、前記マルチチャンネル音響信号の特性に基づいて、符号化セッションごともしくは符号化処理を通して動的に生成可能である。
【0023】
なお、本発明は、上記記載の装置に含まれるそれぞれの手段をステップとして備える方法、コンピュータにそれらステップを実行させるプログラム、及びそのようなプログラムが格納される記録媒体としても実現することができる。
【発明の効果】
【0024】
本発明は、頭部伝達関数に基づいたステレオダウンミックスの先行技術であるマルチチャンネルコーデックにサポートを追加することによって、コーデックを変化させることなく「サラウンド音響」効果を達成する。これは、コーデックに掛かる開発時間及び演算量を削減する。本発明はまた先行技術であるマルチチャンネルコーデックによって対象となるマルチチャンネル信号を復元するために頭部伝達関数を取り除いている。
【発明を実施するための最良の形態】
【0025】
以下に示す実施の形態は、単に様々な進歩性の原理を説明しているにすぎない。ここに記載される詳細の変形は、当業者にとっては明らかであると理解される。よって、本発明は、特許請求項の範囲においてのみ限定されるのであって、以下の具体的、説明的な詳細に限定されるものではないとする。
【0026】
本発明の実施の形態1として、図5は、どのように典型的な先行技術を頭部伝達関数に基づいた処理をサポートするように拡張することができるのかを説明する図である。図5を図3と比較すると、本発明は、プリプロセッシングモジュール(507)及びデコンボリューションモジュール(508)を取り入れている。
【0027】
プリプロセッシングブロック(507)において、マルチチャンネル入力信号{Lf、Rf、C、LFE、Ls、Rs}は、中間入力{L´f、R´f、C´、LFE´、L´s、R´s}を生成するために、頭部伝達関数でもってプリプロセッシングが施される。ここで、
【数3】

【0028】
上記中間入力をもって、以下の頭部伝達関数間の線対称な関係が成り立たなければならない。
【数4】

【0029】
また、それは頭部伝達関数の数を12から10に削減する。この処理は以下のように簡潔に示すことができる。
【数5】

【0030】
上記処理は、「サラウンド音響」効果のあるステレオダウンミックスの組を音響符号化装置(501)によって処理することを可能にする。
【0031】
本発明の実施の形態2として、ビットストリームに詰め込まなければならない頭部伝達関数情報の量をさらに削減するため、図6はどのようにより多くの頭部伝達関数間の線対称な関係を探索することができるかを説明する図である。これらの仮定に従い、頭部伝達関数の数はさらに10から6に削減することができる。
【数6】

【0032】
ここで、
【数7】

【0033】
頭部伝達関数フィルタ係数は頭部伝達関数情報とすることができる。それらは多重化装置(503)において量子化され、ビットストリームに詰め込まれる。
【0034】
復号化装置において、音響復号化装置(505)は、サラウンド効果のあるステレオダウンミックス{L0、R0}を時間領域に戻すように復号する。ステレオダウンミックス信号はまた、中間出力{L´f、R´f、C´、LFE´、L´s、R´s}を再構築するために、マルチチャンネル再構築モジュール(506)に入力される。元の入力信号を復元するために、本発明は以下のような方法で元の入力信号を導出するためのデコンボリューションモジュール(508)を加える。
【数8】

【0035】
(508)において、対応する元の入力信号を導出するために、同様のデコンボリューション工程が残存する中間入力信号にも施される。
【数9】

【0036】
上記工程は、(FFTのような)スペクトル領域もしくは時間領域において実行することができる。また、上記工程は(QMF分析フィルタバンクの出力等の)ハイブリッド時間/周波数領域においても実行することができる。
【0037】
数学的見地から、物理的に実現可能なシステムに対応する頭部伝達関数(多項式z:H1(z)〜H6(z)の多項式形式での)全ての係数は常に実数であるため、頭部伝達関数に依存するデコンボリューション関数の1/(H12(z)‐H22(z))、1/H3(z)、1/H4(z)及び1/(H52(z)‐H62(z))のインパルス応答が収束し、安定である場合は、上記記載のデコンボリューション工程を実行することができる。
【0038】
これら逆関数の安定度は、デコンボリューション関数の極、例えば、(H12(z)‐H22(z))、H3(z)、H4(z)、(H52(z)‐H62(z))の極、を確認することによって決定することができる。全ての極がz面上の単位円内に位置する場合、これらの関数は逆数にすることができる。しかしながら、この方法は、特に上位頭部伝達関数において、多項式根を解くには実用的でない。計算の演算量を削減するために、先行技術として広く報告されているいくつかの周知の安定判別法を、根を解かずに、直接多項式係数に適用することができる。例えば、2次多項式において、
【数10】

【0039】
広く採用されている実数の係数だけをもつ多項式のための低演算量安定判別法であるJuryの安定判別法[3]によれば、安定度の条件は以下である。
【数11】

【0040】
本発明の第3の実施の形態として、逆関数の安定度条件をより簡単に満たすために、頭部伝達係数はさらに簡略化される。単方向の頭部伝達関数(例えばH2やH6)とそれに付随する頭部伝達関数(例えばH1やH5)との間のスペクトルの類似性は、(αによって)振幅が変調され、(τによって)時間がシフトした単方向の頭部伝達関数に対して付随する頭部伝達係数の近似をとることによって導き出すことができる。
【数12】

【0041】
ここで、α0とα1は、付随する頭部伝達関数によってとられる長い経路によって引き起こされる大きな減衰のために、1より小さい値となる。
【0042】
この簡略化に伴い、(H12(z)−H22(z))及び(H52(z)−H62(z))は、以下のように表すことができる。
【数13】

【0043】
(1‐α02-2τ0)及び(1‐α12-2τ1)の根は、z面上の単位円内にあり、よって、その安定度条件は満たされる。H1(z)、H3(z)、H4(z)及びH5(z)の根も単位円内にある場合は、全体の安定度は保証される。上記簡略化はまた、多重化装置(503)において量子化されビットストリームに詰め込まれなければならない頭部伝達関数情報を削減するという第2の利点をもたらす。
【0044】
本発明の第4の実施の形態として、デコンボリューション関数が安定度テストを満たさない場合は、位相情報を犠牲にして、逆関数が最小位相関数に置換される。
【0045】
ここでは説明のために、z面上の単位円外の単一根をもった不安定な頭部伝達関数を考慮する。不安定な頭部伝達関数を安定させるためには、まず単一の非最小位相系の0値が、以下のように関数から除外される。
【数14】

【0046】
ここで、Q1(z)は安定(最小位相)多項式であり、λは|λ|>1であるQ(z)の単一の非最小位相系の0値である。
【0047】
次に、
【数15】

で上記数式を乗算することによって、
【数16】

を求める。
【0048】
2(z)は安定関数である。なぜなら、非最小位相系の0値は単位円内に反映され、最小位相(z=λからz=1/λへ)になるためである。Q2(z)はQ(z)と同一の振幅応答を有するが、位相応答は異なる。
【0049】
本発明の実施の形態5として、本発明に必要なサイド情報をさらに削減するために、頭部伝達関数は、ピークフィルタ及びノッチフィルタの組み合わせとして表すことができる。それぞれのフィルタにおいて、中央周波数、信号レベル及びQファクタ等の特性が決められる[2]。
【数17】

【0050】
これらの特性情報は(それらの伝達関数係数の代わりに)頭部伝達関数情報としてパラメータで表示され量子化される。復号化装置において、中央周波数、信号レベル及びQファクタは逆量子化され、対象となるピーク及びノッチフィルタを合成するために用いられる。次にデコンボリューションのために(508)、フィルタは上記のように組み合わされ、対象となる頭部伝達関数を形成する。
【0051】
本発明の実施の形態6として、頭部伝達関数情報を音響フレームごとに変える必要がない場合は、符号化装置は、(503)においてそれらをビットストリームの開始時だけに多重化するという選択肢を提供する。頭部伝達関数情報が信号特性に依存しており、最適な効果を達成するために音響フレームごとに変える必要がある場合は、符号化装置はまた多重化装置(503)において全ての音響フレームに情報を埋め込むという選択肢を提供する。
【図面の簡単な説明】
【0052】
【図1】2つのチャンネルのマルチチャンネル音響符号化の原理を示す図である。
【図2】2つ以上のダウンミックスを個々の信号に分離するマルチステージチャンネル分離を示す図である。
【図3】マルチチャンネル音響符号化のマルチチャンネルへの拡張を示す図である。
【図4】12の頭部伝達関数の定義を示す図である。
【図5】本発明によるプリプロセッシングモジュール及びデコンボレーションモジュールの追加を示す図である。
【図6】線対称によって頭部伝達関数の数を12から6へ削減することを示す図である。

【特許請求の範囲】
【請求項1】
マルチチャンネル音響符号化装置においてサラウンド音響効果のあるステレオ音響を実現するための装置であって、マルチチャンネル音響信号をステレオ信号に変換するダウンミックス装置と、前記ステレオ信号をステレオビットストリームに符号化するステレオ音響符号化装置と、再構築情報を生成するためにマルチチャンネル音響信号を分析するバイノーラルキュー装置とを備え、
(a)前記マルチチャンネル音響信号に頭部伝達関数を適用し、プリプロセッシング装置において当該マルチチャンネル音響信号をプレミキシングして、プレミックスマルチチャンネル音響信号を形成し、
(b)前記プレミックスマルチチャンネル音響信号を前記マルチチャンネル音響符号化装置へ入力し、
(c)前記頭部伝達関数を付加された再構築情報に変換する
ことを特徴とする。
【請求項2】
マルチチャンネル音響復号化装置においてサラウンド音響効果のあるステレオ音響を実現するための装置であって、ステレオビットストリームを復号しステレオ音響信号を形成するステレオ音響復号化装置と、前記ステレオ音響信号に再構築情報を適用して中間マルチチャンネル音響信号を再構築するマルチチャンネル再構築装置を備え、
(a)付加された再構築情報の頭部伝達関数をデコンボリューション情報に変換し、
(b)前記デコンボリューション情報を中間マルチチャンネル音響信号に適用し、マルチチャンネル音響信号を復元する
ことを特徴とする。
【請求項3】
前記ダウンミックス装置が生成するステレオ信号が所望の頭部伝達関数処理された信号を出力するように、前記プリプロセッシング装置は前記頭部伝達関数処理された信号をミキシングする
ことを特徴とする請求項1に記載の装置。
【請求項4】
前記付加された再構築情報は、伝達関数係数や周波数応答特性のような、前記マルチチャンネル音響復号化装置が前記頭部伝達関数を再構築するためのデータを含む
ことを特徴とする請求項1または2に記載の装置。
【請求項5】
一連の逆行列演算によって中間マルチチャンネル信号から前記頭部伝達関数を同時分離および削除を行うことにより、前記デコンボリューション情報は前記プリプロセッシング装置におけるプレミキシング効果を相殺する
ことを特徴とする請求項2に記載の装置。
【請求項6】
前記逆行列演算に対して安定度チェックが実行され、不安定な場合は、逆行列演算に関わる前記伝達関数は最小位相伝達関数によって近似値がとられる
ことを特徴とする請求項2または5に記載の装置。
【請求項7】
前記付加された再構築情報は、前記マルチチャンネル音響信号の特性に基づいて、符号化セッションごともしくは符号化処理を通して動的に生成可能である
ことを特徴とする請求項1または2に記載の装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2007−104601(P2007−104601A)
【公開日】平成19年4月19日(2007.4.19)
【国際特許分類】
【外国語出願】
【出願番号】特願2005−295576(P2005−295576)
【出願日】平成17年10月7日(2005.10.7)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】