説明

オーディオ符号化

【課題】1以上のオーディオ入力チャネルにより表現されるダウンミックスされたオーディオチャネルのセットと、関連する空間パラメータのセットとから、両耳出力チャネルの対を生成することが可能であり、且つ増大された効率を持つ空間デコーダユニットを提供する。
【解決手段】空間デコーダユニット23は、1以上のオーディオチャネルs;l、rを、両耳出力チャネルlb、rbの対へと変換するように構成される。本装置は、空間パラメータspを両耳情報を含む両耳パラメータbpへと変換するパラメータ変換ユニット234を有する。本装置は更に、両耳パラメータbpを利用して、オーディオチャネルL、Rを両耳信号Lb、Rbの対に変換する空間合成ユニット232を有する。空間合成ユニット232は好ましくは、QMFドメインのような変換ドメインで動作する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ符号化に関する。更に詳細には、本発明は、オーディオ入力信号を両耳出力信号へと変換する装置及び方法であって、前記入力信号は少なくとも1つのオーディオチャネルと付加的なチャネルを表すパラメータとを有する装置及び方法に関する。
【背景技術】
【0002】
両耳(binaural)オーディオ信号、即ち、人間の耳が敏感な特定の方向情報を含むオーディオ信号を、録音及び再生することは良く知られている。両耳録音は一般に、ダミーの人間頭部に装着された2つのマイクロフォンを利用して、録音される音声が、人間の耳により捕捉される音声に対応し且つ頭部及び耳の形状によるいずれの影響をも含むように為される。両耳録音の再生はヘッドセットを必要とするが、それに対してステレオ録音はラウドスピーカによる再生のために為される点において、両耳録音はステレオ(stereophonic)録音とは異なる。両耳録音は2つのチャネルのみを利用して全ての空間情報の再生を可能とするが、ステレオ録音は同一の空間的な知覚を提供しない。
【0003】
通常の2チャネル(stereophonic)又は多チャネル(例えば5.1チャネル)録音は、各通常の信号を、知覚伝達関数のセットにより畳み込むことにより、両耳録音に変換され得る。斯かる知覚伝達関数は、信号における人間の頭部及びことによると他のオブジェクトの影響をモデル化する。良く知られたタイプの知覚伝達関数は、所謂頭部伝達関数(Head-Related Transfer Function、HRTF)である。部屋の壁、天井及び床により引き起こされる反射をも考慮に入れた、代替のタイプの知覚伝達関数は、両耳室内インパルス応答(Binaural Room Impulse Response、BRIR)である。
【0004】
多チャネル信号の場合において、知覚関数のセットにより信号を両耳録音信号に変換することは一般に、全てのチャネルの信号による知覚関数の畳み込みを意味する。典型的な畳み込みは計算的に要求が厳しいため、信号及びHRTFは一般に周波数(フーリエ)ドメインへと変換され、ここでは計算的に要求がはるかに少ない乗算に畳み込みが置き換えられる。
【0005】
元の数のチャネルを、より少ない数のチャネルと、元のチャネル間の関係を示すパラメータとにより表現することにより、送信又は保存されるべきオーディオチャネルの数を低減することも、良く知られている。ステレオ信号のセットはかくして、単一の(モノラルの)チャネルと幾つかの関連する空間パラメータとにより表現され得る。一方、5.1信号のセットは、2つのチャネルと関連する空間パラメータのセットとによって、又は単一のチャネルと関連する空間パラメータとによって、表現され得る。空間エンコーダにおける多オーディオチャネルの斯かる「ダウンミックス」、及び空間デコーダにおけるオーディオ信号の対応する「アップミックス」は一般に、例えば直交ミラーフィルタ(Quadrature Mirror Filter、QMF)ドメインのような、変換ドメイン又はサブバンドドメインにおいて実行される。
【発明の概要】
【発明が解決しようとする課題】
【0006】
ダウンミックスされた入力チャネルが両耳出力チャネルへと変換されるべき場合、先行技術の手法は、最初に空間デコーダを利用して該入力チャネルをアップミックスしてアップミックスされた中間チャネルを生成し、次いでこれらのアップミックスされた中間チャネルを両耳チャネルへと変換することであった。この手順は典型的に、5又は6個の中間チャネルを生成し、これらは次いで2つの両耳チャネルへと減少させされる必要がある。チャネルの数を最初に増大させ次いで減少させることは明らかに効率的ではなく、計算の複雑さを増大させる。加えて、多チャネルのラウドスピーカ再生のための5又は6個の中間チャネルを、両耳再生のための2つのみのチャネルへと減少させることは、不可避的にアーティファクトを引き起こし、それ故音質を低下させる。
【0007】
上述のQMFドメインは、周波数(フーリエ変換)ドメインと類似するが、同一ではない。空間デコーダが両耳出力信号を生成すべき場合、ダウンミックスされたオーディオ信号は、最初にアップミックスのためQMFドメインへと変換され、次いで逆QMF変換されて時間ドメインの中間信号を生成し、続いて(フーリエ変換された)HRTFを用いた乗算のために周波数ドメインへと変換され、最後に逆変換されて時間ドメインの出力信号を生成する必要がある。この手順は、幾つかの変換が連続して実行される必要があるため、効率的ではないことは明らかである。
【0008】
該先行技術の手法に含まれる計算の数は、ダウンミックスされたオーディオ信号から両耳出力信号を生成することが可能な、携帯型MP3プレイヤのようなハンドヘルド型消費者向け装置を設計することを、非常に困難にする。斯かる装置が実装され得るとしても、必要とされる計算負荷のため、その電池寿命は非常に短くなる。
【0009】
本発明の目的は、先行技術のこれらの及び他の問題を克服し、1以上のオーディオ入力チャネルにより表現されるダウンミックスされたオーディオチャネルのセットと、関連する空間パラメータのセットとから、両耳出力チャネルの対を生成することが可能であり、且つ増大された効率を持つ空間デコーダユニットを提供することにある。
【課題を解決するための手段】
【0010】
従って、本発明は、空間パラメータ及び1以上のオーディオ入力チャネルを利用して両耳出力チャネルの対を生成するための空間デコーダユニットであって、パラメータ化された知覚伝達関数を利用して、前記空間パラメータを両耳パラメータへと変換するためのパラメータ変換ユニットと、前記両耳パラメータ及びオーディオチャネルを利用して、両耳チャネルの対を合成するための空間合成ユニットと、を有する空間デコーダユニットを提供する。
【0011】
空間パラメータを両耳パラメータに変換することにより、空間合成ユニットは、付加的な両耳合成ユニットを必要とすることなく、両耳チャネルの対を直接に合成することができる。余分な中間信号が生成されないため、計算的な要件は低減され、一方でアーティファクトの生成は略除去される。
【0012】
本発明の空間デコーダユニットにおいては、両耳チャネルの合成は、周波数ドメインへの変換及び次いで時間ドメインへの逆変換といった付加的なステップを必要とすることなく、例えばQMFドメインのような変換ドメインにおいて実行されることができる。2つの変換ステップが省略されることができるので、計算の数及びメモリ要件が共に著しく低減される。本発明の空間デコーダユニットはそれ故、携帯型消費者向け装置において比較的容易に実装されることができる。
【0013】
更に、本発明の空間デコーダユニットにおいては、両耳チャネルがダウンミックスされたチャネルから直接に生成され、各両耳チャネルが、ヘッドセット又は同様の装置を用いた両耳再生のための両耳信号を有する。パラメータ変換ユニットは、空間(即ちアップミックス)パラメータから、両耳チャネルを生成するために利用される両耳パラメータを導出する。両耳パラメータの該導出は、HRTF(頭部伝達関数)及び/又は両耳室内インパルス応答のような、パラメータ化された知覚伝達関数を含む。それ故本発明によれば、知覚伝達関数の処理はパラメータドメインで実行される。先行技術においては、該処理は時間ドメイン又は周波数ドメインで実行されていた。パラメータドメインにおける解像度は一般に時間ドメイン又は周波数ドメインにおける解像度よりも低いため、このことは計算の複雑さの更なる低減に帰着し得る。
【0014】
前記パラメータ変換ユニットは、前記両耳パラメータを決定するために、パラメータドメインで、前記入力(ダウンミックス)オーディオチャネルが与える全ての知覚伝達関数の寄与を前記両耳チャネルへと結合するように構成されることが好適である。換言すれば、空間パラメータとパラメータ化された知覚伝達関数とは、組み合わせられたパラメータが、アップミックスされた中間信号を含む先行技術の方法において得られるものと同様の統計的な特性を持つ両耳出力信号に帰着するような態様で、組み合わせられる。
【0015】
好適な実施例においては、本発明の空間デコーダユニットは更に、前記オーディオ入力チャネルを変換されたオーディオ入力チャネルに変換するための1以上の変換ユニットと、合成された両耳チャネルを前記両耳出力チャネルへと逆変換するための一対の逆変換ユニットと、を更に有し、前記空間合成ユニットは、好ましくは直交ミラーフィルタドメインのような変換ドメイン又はサブバンドドメインにおいて動作するように構成される。
【0016】
本発明の空間デコーダユニットは2つの変換ユニットを有しても良く、パラメータ変換ユニットが3つのチャネルのみを含む知覚伝達関数パラメータを利用するように構成され、ここでこれら3つのチャネルのうち2つが、合成前及び後チャネルの寄与を含んでも良い。斯かる実施例においては、パラメータ変換ユニットは、チャネルレベル(例えばCLD)、チャネルコヒーレンス(例えばICC)、チャネル予測(例えばCPC)及び/又は位相(例えばIPD)パラメータを処理するように構成されても良い。
【0017】
代替実施例においては、本発明の空間デコーダユニットは、単一の変換ユニットのみを有し、前記単一の変換ユニットにより出力される変換された単一のチャネルを非相関化するための非相関ユニットを更に有しても良い。斯かる実施例においては、前記パラメータ変換ユニットは、チャネルレベル(例えばCLD)、チャネルコヒーレンス(例えばICC)及び/又は位相パラメータ(例えばIPD)を処理するように構成されても良い。
【0018】
本発明の空間デコーダユニットは更に、ステレオ反響ユニットを有しても良い。斯かるステレオ反響ユニットは、時間ドメイン又は変換ドメイン若しくはサブバンドドメイン(例えばQMF)ドメインで動作するように構成されても良い。
【0019】
本発明はまた、入力ビットストリームから両耳出力チャネルの対を生成するための空間デコーダ装置であって、前記入力ビットストリームを少なくとも1つのダウンミックスチャネルと信号パラメータとに多重分離するための多重分離ユニットと、前記少なくとも1つのダウンミックスチャネルをデコードするためのダウンミックスデコーダユニットと、空間パラメータ及び前記少なくとも1つのダウンミックスチャネルを利用して、両耳出力チャネルの対を生成するための空間デコーダユニットと、を有し、前記空間デコーダユニットは、パラメータ化された知覚伝達関数を利用して、前記空間パラメータを両耳パラメータへと変換するためのパラメータ変換ユニットと、前記両耳パラメータ及び前記少なくとも1つのダウンミックスチャネルを利用して、両耳チャネルの対を合成するための空間合成ユニットと、を有する装置を提供する。
【0020】
加えて本発明は、上述したような空間デコーダユニット及び/又は空間デコーダ装置を有する、消費者向け装置及びオーディオシステムを提供する。本発明は更に、空間パラメータ及び1以上のオーディオ入力チャネルを利用して両耳出力チャネルの対を生成する方法であって、パラメータ化された知覚伝達関数を利用して、前記空間パラメータを両耳パラメータへと変換するステップと、前記両耳パラメータ及びオーディオチャネルを利用して、両耳チャネルの対を合成するステップと、を有する方法を提供する。本発明による方法の更なる態様は、以下の説明から明らかとなるであろう。
【0021】
本発明は更に、以上に定義された方法を実行するためのコンピュータプログラムを提供する。コンピュータプログラムは、CD又はDVDのようなデータ担体に保存された、コンピュータ実行可能な命令のセットを有しても良い。プログラム可能なコンピュータが以上に定義された方法を実行することを可能とする該コンピュータ実行可能な命令のセットは、例えばインターネットを介してのように、リモートのサーバからのダウンロードのために利用可能であっても良い。
【図面の簡単な説明】
【0022】
【図1】先行技術による頭部伝達関数の適用を模式的に示す。
【図2】先行技術による空間オーディオエンコーダ装置を模式的に示す。
【図3】両耳合成装置に結合された、先行技術による空間オーディオデコーダ装置を模式的に示す。
【図4】先行技術による空間オーディオデコーダユニットを模式的に示す。
【図5】本発明による空間オーディオデコーダユニットを模式的に示す。
【図6】本発明による空間オーディオデコーダ装置を模式的に示す。
【図7】変換ドメイン反響ユニットを備えた、図5の空間オーディオデコーダユニットを模式的に示す。
【図8】時間ドメイン反響ユニットを備えた、図5の空間オーディオデコーダユニットを模式的に示す。
【図9】本発明による空間オーディオデコーダ装置を備えた消費者向け装置を模式的に示す。
【発明を実施するための形態】
【0023】
本発明は、添付図面に示された実施例を参照しながら、以下に更に説明される。
【0024】
先行技術による頭部伝達関数(HRTF)のような知覚伝達関数の適用が、図1に模式的に示される。両耳合成装置3は、それぞれが入力チャネルと出力チャネルとの特定の組み合わせのための伝達関数を含む、6つのHRTFユニット31を有するように示されている。図示された本例においては、チャネルl(左)、c(中央)及びr(右)に対応し得る、3つのオーディオ入力チャネルch1、ch2及びch3がある。第1のチャネルch1は、それぞれHRTF(1,L)及びHRTF(1,R)を含む2つのHRTFユニット31に供給される。本例においては、HRTF(1,L)は、左両耳信号に対する第1のチャネルの寄与を決定する頭部伝達関数である。
【0025】
当業者は、HRTFは、通常の(ステレオ)録音及び両耳録音の両方を作成し、通常の録音に対する両耳録音の整形を表す伝達関数を導出することにより決定され得ることを知っているであろう。両耳録音は、ダミーの人間頭部に装着された2つのマイクロフォンを利用して、録音される音声が、人間の耳により捕捉される音声に対応し且つ頭部及び耳の形状、更には髪及び肩の存在によるいずれの影響をも含むように為される。
【0026】
HRTF処理が時間ドメインで実行される場合には、HRTFは、チャネルの(時間ドメイン)オーディオ信号により畳み込まれる。しかしながら一般に、HRTFは周波数ドメインへと変換され、結果の伝達関数及びオーディオ信号の周波数スペクトルが、次いで乗算される(フーリエ変換ユニット及び逆フーリエ変換ユニットは図1には示されていない)。時間フレームのオーバラップを含む適切なオーバラップ加算(Overlap-and-add、OLA)手法が、高速フーリエ変換(FFT)フレームよりも長い長さを持つHRTFに対応するために利用されても良い。
【0027】
適切なHRTFユニット31によるHRTF処理の後、結果の左及び右信号はそれぞれの加算器32により加算され、(時間ドメイン)左両耳信号lb及び右両耳信号rbを導出する。
【0028】
図1の先行技術の両耳合成装置の例3は、3つの入力チャネルを持つ。今日のオーディオシステムはしばしば、所謂5.1システムの場合におけるように、5又は6個のチャネルを持つ。しかしながら、伝送及び/又は保存されるべきデータの量を低減するために、複数のオーディオは一般に1又は2個のチャネルへと減少させられる(「ダウンミックスされる」)。元のチャネルの特性及び相互の関係を示す幾つかの信号パラメータが、該1又は2個のチャネルの、元の数のチャネルへの伸張(「アップミックス」)を可能とする。先行技術による空間エンコーダ装置の例1が、図2に模式的に示される。
【0029】
空間エンコーダ装置1は、空間エンコード(SE)ユニット11、ダウンミックスエンコード(DE)ユニット12及び多重化器(Mux)13を有する。空間エンコードユニット11は、5つの入力チャネルlf(左前)、lr(左後)、rf(右前)、rr(右後)及びc(中央)を受信する。空間エンコードユニット11は、該5つの入力チャネルをダウンミックスして2つのチャネルl(左)及びr(右)、並びに信号パラメータspを生成する(空間エンコードユニット11は2つのチャネルl及びrの代わりに単一のチャネルを生成しても良いことに留意されたい)。5つのチャネルが2つのチャネルにダウンミックスされる(所謂5−2−5構成)図示された本実施例においては、信号パラメータspは例えば、以下を有する:
【表1】

【0030】
「lfe」は、任意の低周波(サブウーファ)チャネルであり、「後(rear)」チャネルは「サランウド」チャネルとしても知られることは留意されたい。
【0031】
空間エンコードユニット11により生成された2つのダウンミックスチャネルl及びrは、ダウンミックスエンコード(DE)ユニット12に供給され、ダウンミックスエンコード(DE)ユニット12は典型的に、データの量を低減させることを目的としたタイプの符号化を利用する。かくしてエンコードされたダウンミックスチャネルl及びr並びにパラメータspは、多重化ユニット13により多重化され、出力ビットストリームbsが生成される。
【0032】
代替の実施例(図示されていない)においては、5(又は6)個のチャネルが単一の(モノラル)チャネルへとダウンミックスされ(所謂5−1−5構成)、信号パラメータspは例えば以下を有する:
【表2】

【0033】
該代替実施例においても、エンコードされたダウンミックスチャネルs及び信号パラメータspは、多重化ユニット13により多重化され、出力ビットストリームbsが生成される。
【0034】
該ビットストリームbsが両耳チャネルの対を生成するために利用されるべきであれば、先行技術の手法は、最初に2つのダウンミックスチャネルl及びr(又は代替としては単一のダウンミックスチャネル)をアップミックスして5又は6個の元のチャネルを生成し、次いでこれら5又は6個のチャネルを2つの両耳チャネルに変換する。該先行技術の手法の例は、図3に示されている。
【0035】
先行技術による空間デコーダ装置2'は、多重分離(Demux)ユニット21'、ダウンミックスデコードユニット22'及び空間デコーダユニット23'を有する。両耳合成装置3は、空間デコーダ装置2'の空間デコーダユニット23'に結合される。
【0036】
多重分離ユニット21'は、図2のビットストリームbsと同一であっても良いビットストリームbsを受信し、信号パラメータsp及び2つのエンコードされたダウンミックスチャネルを出力する。信号パラメータspは空間デコーダユニット23'に送信され、一方エンコードされたダウンミックスチャネルは最初に、ダウンミックスデコードユニット22'によりデコードされ、デコードされたダウンミックスチャネルl及びrが生成される。空間デコーダユニット23'は基本的に、図2における空間エンコードユニット11の逆演算を実行し、5個のオーディオチャネルを出力する。これら5個のオーディオチャネルは、両耳合成装置3に供給される。両耳合成装置3は図1の装置3と類似の構成を持っても良いが、5個のチャネル全てに対応するため付加的なHRTFユニット31を備える。図1の例におけるように、両耳合成装置3は、2つの両耳チャネルlb(左両耳)及びrb(右両耳)を出力する。
【0037】
先行技術の空間デコーダユニット23'の構造の例が、図4に示される。図4のユニット23'は、2から3への(2−3)アップミックスユニット230'、3つの空間合成(SS)ユニット232'及び3つの非相関(D)ユニット239'を有する。2−3アップミックスユニット230'は、ダウンミックスチャネルl及びr並びに信号パラメータspを受信し、3つのチャネルl、r及びceを生成する。これらチャネルの各々は、それぞれのチャネルの非相関化されたバージョンを生成する非相関ユニット239'に供給される。各チャネルl、r及びce、それぞれの非相関化されたバージョン、並びに関連する信号パラメータspは、それぞれの空間合成(又はアップミックス)ユニット232'へと供給される。例えばチャネルlを受信する空間合成ユニット232'は、出力チャネルlf(左前)及びlr(左後)を出力する。空間合成ユニット232'は典型的に行列乗算を実行し、該行列のパラメータは信号パラメータspにより決定される。
【0038】
図4の例において、6つの出力チャネルが生成されることに留意されたい。幾つかの実施例においては、第3の非相関ユニット239'及び第3の空間合成ユニット232'が省略されても良く、従って5つの出力チャネルのみを生成しても良い。しかしながら全ての実施例において、先行技術の空間合成ユニット23'は、2つよりも多い出力チャネルを生成する。単に説明の明確さのため、いずれの(QMF)変換ユニット及び逆(QMF)変換ユニットもが、図4の例から省略されていることにも留意されたい。実際の実施例においては、空間デコードは、QMFドメインのような変換ドメインにおいて実行され得る。
【0039】
図3の構成は、効率的ではない。空間デコーダ装置2'は2個のダウンミックスチャネル(l及びr)を5個のアップミックスされた(中間)チャネルへと変換し、両耳合成装置3が次いで該5個のアップミックスされたチャネルを2個の両耳チャネルへと減少させる。加えて、空間デコーダユニット23'におけるアップミックスは典型的に、QMF(Quadrature Mirror Filter)ドメインのようなサブバンドドメインにおいて実行される。しかしながら、両耳合成装置3は典型的に、周波数(即ちフーリエ変換)ドメインで信号を処理する。これら2つのドメインは同一ではないため、空間デコーダ装置2'は、最初にダウンミックスチャネルの信号をQMFドメインに変換し、該変換された信号を処理し、次いでアップミックスされた信号を時間ドメインへと戻す変換をする。続いて、両耳合成装置3が、全ての(本例においては5個)これらアップミックスされた信号を周波数ドメインへと変換し、該変換された信号を処理し、次いで両耳信号を時間ドメインへと戻す変換をする。含まれる計算の労力は著しく、特に該処理がハンドヘルド型装置において実行されるべき場合には、より効率的な信号処理が望ましいことは明らかであろう。
【0040】
本発明は、空間デコーダ装置における両耳合成装置を統合し、パラメータにおける両耳処理を効果的に実行することにより、はるかに効率的な処理を提供する。本発明による空間デコーダユニットの単なる実施例が、図5に模式的に示される。本発明による結合された空間及び両耳デコーダ装置(簡潔さのため空間デコーダ装置と呼ぶ)が、図6に示される。
【0041】
図5において単に限定的でない例として示される本発明の空間デコーダユニット23は、変換ユニット231、空間合成(SS)ユニット232、逆変換ユニット233、パラメータ変換(PC)ユニット234及びメモリ(Mem)ユニット235を有する。図5の実施例においては、空間デコーダユニット23は、2つの変換ユニット231を有するが、代替実施例においては、ダウンミックスチャネルの数に依存して、単一の変換ユニット231のみが(図6に示されるように)、又は2つよりも多い変換ユニット231が存在しても良い。
【0042】
変換ユニット231はそれぞれ、ダウンミックスチャネルl及びrを受信する(図3も参照されたい)。各変換ユニット231は、それぞれのチャネル(の信号)を適切な変換又はサブバンドドメイン(本例においてはQMFドメイン)へと変換するように構成される。QMF変換されたチャネルL及びRは、空間合成ユニット232へと供給される。空間合成ユニット232は好ましくは、チャネルL及びRの信号に対して行列演算を実行し、変換ドメイン両耳チャネルLb及びRbを生成する。逆変換ユニット233は逆変換(本例においては逆QMF変換)を実行し、両耳時間ドメインチャネルlb及びrbを生成する。
【0043】
空間合成ユニット232は、図4の先行技術の空間合成ユニット232'に類似していても良いし、又は同一であっても良い。しかしながら、該ユニットにおいて利用されるパラメータは、先行技術において利用されるパラメータとは異なる。更に詳細には、パラメータ変換ユニット234は、メモリユニット235に保存されたHRTFパラメータhpを利用して、従来の空間パラメータspを両耳パラメータbpに変換する。これらHRTFパラメータhpは、以下を有しても良い:
−方位角(水平面における角度)、仰角(垂直面における角度)及び距離の関数としての、左伝達関数についての周波数帯域毎の平均レベル、
−方位角、仰角及び距離の関数としての、右伝達関数についての周波数帯域毎の平均レベル、及び
−方位角、仰角及び距離の関数としての、周波数帯域毎の平均位相又は時間差。
【0044】
加えて、以下のパラメータが含まれても良い:
−方位角、仰角及び距離の関数としての、HRTF周波数帯域毎の左及び右伝達関数のコヒーレンス度、及び/又は
−方位角、仰角及び距離の関数としての、左及び右伝達関数についての、絶対位相及び/又は時間パラメータ。
【0045】
利用される実際のHRTFパラメータは、個々の実施例に依存しても良い。
【0046】
空間合成ユニット232は、以下の式を利用して、両耳チャネルLb及びRbを決定しても良い:
【数1】

ここで添え字kはQMFハイブリッド(周波数)帯域インデクスを示し、添え字mはQMFスロット(時間)インデクスを示す。行列Hのパラメータhijは、両耳パラメータ(図5におけるbp)により決定される。添え字kにより示されるように、行列HはQMFハイブリッド帯域に依存し得る。第1の実施例においては、パラメータ変換ユニット(図5における234)が両耳パラメータを生成し、該両耳パラメータが次いで空間合成ユニット232により行列パラメータhijへと変換される。第2の実施例においては、行列パラメータhijは、パラメータ変換ユニット(図5における234)により生成される両耳パラメータと同一であり、変換されることなく、空間合成ユニット232により直接に利用されることができる。
【0047】
2個のダウンミックスチャネル(5−2−5構成)の場合、行列Hのパラメータhijは、以下の方法により決定されても良い。図4の先行技術の空間デコーダユニットにおいては、2−3デコーダユニット230'が2個の(入力)ダウンミックスチャネルl及びrを3個の(出力)チャネルl、r及びceに変換する(出力チャネルl及びrは一般に入力チャネルl及びrとは同一ではなく、この理由のため以下の議論では入力チャネルはl及びrと呼ばれることは理解されるであろう)。
【0048】
本発明の更なる態様によれば、パラメータ変換ユニット(図5及び6における234)は、知覚伝達関数を利用するように構成される。ここでは、3個のチャネル(例えばl、r及びc)の寄与のみが考慮され、これら3個のチャネルのうち2個(例えばl及びr)が、それぞれの合成の前(lf、rf)及び後(lr、rr)チャネルを有する。即ち、それぞれの前及び後チャネルは、効率を改善するためにグループ化される。
【0049】
2−3アップミックスユニット230'の演算は、以下の行列演算により記述されることができる:
【数2】

ここで行列のエントリmijは、空間パラメータに依存する。空間パラメータと行列エントリとの関係は、5.1MPEGサラウンドデコーダのものと同一である。3個の結果信号l、r及びcのそれぞれについて、これら音源の所望の(知覚される)位置に対応する、知覚伝達関数(本例においてはHRTF)パラメータの効果が決定される。中央チャネル(c)については、音源位置の空間パラメータは直接に適用されることができ、中央についての2個の出力信号l(c)及びr(c)に帰着する:
【数3】

【0050】
式(3)から分かるように、HRTFパラメータ処理は、中央チャネルの音源位置に対応する平均パワーレベルP及びPによる信号の乗算から成り、ここで位相差は対称的に分散される。該処理は、一方ではHRTFパラメータからQMFフィルタバンクへのマッピングを利用して、また他方では空間パラメータからQMF帯域へのマッピングを利用して、各QMF帯域について独立に実行される。
【0051】
左(l)チャネルについては、左前及び左後チャネルからのHRTFパラメータが、重みwlf及びwfrを用いて、単一の寄与へと結合される。結果の合成パラメータは、統計的な意味において、前チャネル及び後チャネルの両方の効果をシミュレートする。以下の式は、左チャネルについて両耳出力対(l,r)を生成するために利用される:
【数4】

ここで、
【数5】

【数6】

である。
【0052】
重みwlf及びwrfは、lf及びlrについての、1から2への(1−2)ユニットのCLDパラメータに依存する:
【数7】

【数8】

【0053】
同様に、右チャネルについての両耳出力は、以下に従って得られる:
【数9】

ここで、
【数10】

【数11】

【数12】

【数13】

【0054】
両方の場合において、位相修正項が反対側の耳に適用されることに留意されたい。更に、人間の聴覚システムは約2kHzを超える周波数についての両耳位相に対しては極めて鈍感であるため、位相修正項は、より低い周波数領域において適用される必要があるのみである。それ故、残りの周波数範囲については、実数の処理で十分である(実数mijを仮定する)。
【0055】
更に、上述の式は、lf及びlrの(HRTF)フィルタリングされた信号のインコヒーレントな加算を仮定することに留意されたい。とり得る拡張の1つは、前/後相関を考慮するため、lf及びlrの(並びにrf及びrrの)、送信されるチャネル間コヒーレンス(ICC)パラメータをも、式に含めることである。
【0056】
上述した全ての処理ステップはパラメータドメインにおいて組み合わせられ、単一の信号ドメインの2x2行列:
【数14】

に帰着しても良い。ここで
【数15】

【0057】
以上から明らかであるように、本発明は基本的に、先行技術におけるように周波数又は時間ドメインにおいてではなく、パラメータドメインにおいて両耳(即ちHRTF)情報を処理する。このようにして、かなりの計算的な節約が得られる。
【0058】
図6において単に限定的でない例として示された本発明による空間デコーダ装置2は、多重分離(Demux)ユニット21、ダウンミックスデコードユニット22及び空間/両耳デコーダユニット23を有する。多重分離ユニット21及びダウンミックスデコードユニット22は、図3に示された先行技術の多重分離ユニット21'及びダウンミックスデコードユニット22'に類似するものであっても良い。図6の空間デコーダユニット23は、ダウンミックスチャネル及び関連する変換ユニットの数を除いて、図5の空間デコーダユニット23と同一である。図6の空間デコーダ装置は単一のダウンミックスチャネルsのために構成されるため、単一の変換ユニット231のみが備えられる一方、(変換ドメインの)ダウンミックス信号Sの非相関化されたバージョンDを生成するための非相関(D)ユニット239が追加されている。パラメータ変換ユニット234により生成される両耳パラメータbpは典型的に、図5の実施例におけるものとは異なる。なぜなら、単一のダウンミックスチャネルsに関連する信号パラメータspは典型的に、2つのダウンミックスチャネルと関連するものとは異なるからである。
【0059】
図6の構成においては、両耳デコーダの入力は、空間パラメータspにより付随されるモノラルの入力信号sを有する。両耳合成ユニットは、元の5.1入力のHRTF処理から得られるであろう特性を近似する統計的な特性を持つステレオ出力信号を生成する。該信号は、以下により記述され得る:
【数16】

【数17】

【0060】
チャネルlf、rf、lr、rr及びcの統計的特性及び相互関係を記述する空間パラメータと、HRTFインパルス応答のパラメータとが与えられると、両耳出力対l及びrの統計的特性(即ち両耳パラメータの近似)を推定することも可能である。より具体的には、平均エネルギー(各チャネルについての)、平均位相差及びコヒーレンスが推定され、続いてモノラル入力信号の非相関化及びマトリクシングにより再配置されることができる。
【0061】
両耳パラメータは、2個の両耳出力チャネルのそれぞれについての(相対的な)レベル変化(それ故チャネルレベル差パラメータを定義する)、(平均)位相差、及び(変換ドメインの時間/周波数タイル毎の)コヒーレンス度を有する。
【0062】
最初のステップとして、送信されたCLDパラメータを利用して、5(又は6)個のチャネル(5.1)信号の相対的なパワー(モノラル入力信号のパワーに対する)が計算される。左前チャネルの相対パワーは、以下により与えられる:
【数18】

ここで、
【数19】

【数20】

【0063】
同様に、他のチャネルの相対パワーは、以下により与えられる:
【数21】

【0064】
左両耳出力チャネルの(モノラル入力チャネルに対する)相対パワーσの期待値、右両耳出力チャネルの相対パワーσの期待値、及び外積Lの期待値が、対で算出される。両耳出力(ICC)のコヒーレンスは、
【数22】

により与えられ、平均位相角(IPD)は、
【数23】

により与えられる。
【0065】
両耳出力のチャネルレベル差(CLD)は、
【数24】

により与えられる。
【0066】
最後に、モノラル入力に比較した両耳出力の全体の(線形の)利得gは、
【数25】

により与えられる。
【0067】
両耳行列においてIPD、CLD、ICC及びgを再配置するために必要とされる行列係数は、全体の利得gにより拡張された従来のパラメトリックステレオデコーダから単純に得られる:
【数26】

ここで、
【数27】

【数28】

【数29】

【数30】

【0068】
本発明の空間デコーダユニットの更なる実施例は、反響ユニットを含んでも良い。反響を追加することが、両耳音声が再生されるときに知覚される距離を改善することが分かっている。この目的のため、図7の空間デコーダユニット23は、空間合成ユニット232と並列に接続されたステレオ反響ユニット237を備えられる。図7のステレオ反響ユニット237は、QMF変換ドメインの単一のダウンミックス信号Sを受信し、加算ユニット238により変換ドメイン両耳信号(図6におけるチャネルLb及びLr)に加算される2つの反響信号を出力する。結合された信号は次いで、出力される前に逆変換ユニット233により逆変換される。
【0069】
図8の実施例においては、ステレオ反響ユニット237は、時間ドメインで反響を生成するように構成され、時間ドメインの単一のダウンミックス信号sを受信する。ステレオ反響ユニット237は、加算ユニット238により両耳チャネルlb及びrbの時間ドメイン信号に加算される、時間ドメイン反響信号を出力する。いずれの実施例も、適切な反響を提供する。
【0070】
本発明は更に、以上に定義されたような空間デコーダユニット又は空間デコーダ装置を有する、ハンドヘルド型消費者向け装置のような消費者向け装置及びオーディオシステムを提供する。ハンドヘルド型消費者向け装置は、MP3プレイヤ又は同様の装置によって構成されても良い。消費者向け装置が、図9に模式的に示される。消費者向け装置50は、本発明による空間デコーダ装置2(図6を参照)を有するものとして示されている。
【0071】
本発明は、結合された空間デコーダ装置及び両耳合成装置の計算的な複雑さが、両耳情報に従って空間パラメータを変更することにより、かなり減少させられ得るという洞察に基づく。このことは、いずれのアーティファクトの生成をも回避しつつ、同一の信号処理演算において、空間デコード及び知覚伝達関数の処理を空間デコーダ装置が効率的に実行することを可能とする。
【0072】
本明細書において使用されたいずれの用語も、本発明の範囲を限定するものとして解釈されるべきでないことに留意されたい。特に、「有する(comprise)」なる語は、明確に言及されていない要素を除外することを意味するものではない。単一の(回路)要素は、複数の(回路)要素又はその同等物により代用されても良い。
【0073】
本発明は以上に説明された実施例に限定されるものではなく、添付された請求項において定義された本発明の範囲から逸脱することなく、多くの変更及び追加が為され得ることは、当業者により理解されるであろう。

【特許請求の範囲】
【請求項1】
空間パラメータ及び1以上のオーディオ入力チャネルを利用して両耳出力チャネルの対を生成するための空間デコーダユニットであって、
パラメータ化された知覚伝達関数を利用して、前記空間パラメータを両耳パラメータへと変換するためのパラメータ変換ユニットと、
前記両耳パラメータ及びオーディオチャネルを利用して、両耳チャネルの対を合成するための空間合成ユニットと、
を有する空間デコーダユニット。
【請求項2】
前記パラメータ変換ユニットは、前記両耳パラメータを決定するために、パラメータドメインで、前記オーディオ入力チャネルが与える全ての知覚伝達関数の寄与を前記両耳チャネルへと結合するように構成された、請求項1に記載の空間デコーダユニット。
【請求項3】
前記オーディオ入力チャネルを変換されたオーディオ入力チャネルに変換するための1以上の変換ユニットと、
合成された両耳チャネルを前記両耳出力チャネルへと逆変換するための一対の逆変換ユニットと、
を更に有し、前記空間合成ユニットは、好ましくは直交ミラーフィルタドメインのような変換ドメイン又はサブバンドドメインにおいて動作するように構成された、請求項1に記載の空間デコーダユニット。
【請求項4】
単一の変換ユニットを有し、前記単一の変換ユニットにより出力される変換された単一のチャネルを非相関化するための非相関ユニットを更に有する、請求項1に記載の空間デコーダユニット。
【請求項5】
前記パラメータ変換ユニットは、チャネルレベル、チャネルコヒーレンス及び/又は位相パラメータを処理するように構成された、請求項4に記載の空間デコーダユニット。
【請求項6】
2つの変換ユニットを有し、前記パラメータ変換ユニットは、3つのチャネルのみを含む知覚伝達関数パラメータを利用するように構成され、該3つのチャネルのうち2つが、前及び後合成チャネルの寄与を含む、請求項1に記載の空間デコーダユニット。
【請求項7】
前記パラメータ変換ユニットは、チャネルレベル、チャネルコヒーレンス、チャネル予測及び/又は位相パラメータを処理するように構成された、請求項6に記載の空間デコーダユニット。
【請求項8】
時間ドメインで動作するように構成されたステレオ反響ユニットを更に有する、請求項1に記載の空間デコーダユニット。
【請求項9】
直交ミラーフィルタドメインのような変換ドメイン又はサブバンドドメインにおいて動作するように構成されたステレオ反響ユニットを更に有する、請求項1に記載の空間デコーダユニット。
【請求項10】
入力ビットストリームから両耳出力チャネルの対を生成するための空間デコーダ装置であって、
前記入力ビットストリームを少なくとも1つのダウンミックスチャネルと信号パラメータとに多重分離するための多重分離ユニットと、
前記少なくとも1つのダウンミックスチャネルをデコードするためのダウンミックスデコーダユニットと、
空間パラメータ及び前記少なくとも1つのダウンミックスチャネルを利用して、両耳出力チャネルの対を生成するための空間デコーダユニットと、
を有し、前記空間デコーダユニットは、
パラメータ化された知覚伝達関数を利用して、前記空間パラメータを両耳パラメータへと変換するためのパラメータ変換ユニットと、
前記両耳パラメータ及び前記少なくとも1つのダウンミックスチャネルを利用して、両耳チャネルの対を合成するための空間合成ユニットと、
を有する装置。
【請求項11】
前記空間デコーダユニットは反響ユニットを有する、請求項10に記載の装置。
【請求項12】
請求項1に記載の空間デコーダユニット及び/又は請求項10に記載の空間デコーダ装置を有するオーディオシステム。
【請求項13】
請求項1に記載の空間デコーダユニット及び/又は請求項10に記載の空間デコーダ装置を有する消費者向け装置。
【請求項14】
空間パラメータ及び1以上のオーディオ入力チャネルを利用して両耳出力チャネルの対を生成する方法であって、
パラメータ化された知覚伝達関数を利用して、前記空間パラメータを両耳パラメータへと変換するステップと、
前記両耳パラメータ及びオーディオチャネルを利用して、両耳チャネルの対を合成するステップと、
を有する方法。
【請求項15】
請求項14に記載の方法を実行するためのコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−181556(P2012−181556A)
【公開日】平成24年9月20日(2012.9.20)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−139050(P2012−139050)
【出願日】平成24年6月20日(2012.6.20)
【分割の表示】特願2008−529733(P2008−529733)の分割
【原出願日】平成18年8月31日(2006.8.31)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】