変換ドメイン内で効率的なバイノーラルサウンド空間化を行う方法およびデバイス
本発明は、いくつかの周波数サブバンド(subband)(SBk)上で符号化された少なくとも1つのオーディオチャネルで構成される第1のセットのサウンド空間化を行う方法およびシステムに関する。第1のセットは、時間ドメイン内の少なくとも2つのサウンドチャネル(Bl、Br)で構成される第2のセットに変換ドメイン(Fl、C、Fr、Sr、Sl、lfe)内で復号化される。本方法には、変換ドメイン内で適用可能な利得と遅延に変換されるモデリングフィルタ(modelling filters)から、少なくとも1つの利得と1つの遅延を適用して前記符号化された各チャネルから、等化され、遅延されたコンポーネントを生成することによって、等化(equalization)を使用して信号のサブバンド遅延をフィルタリングするステップ(A)と、等化され、遅延された信号のサブセットを追加して少なくとも2つに対応するいくつかのフィルタリングされた信号を作成するステップ(B)と、前記フィルタリングされた信号のそれぞれを合成して時間ドメイン内の少なくとも2つの再生サウンドチャネルで構成される第2のセット(Bl、Br)取得するステップ(C)が含まれる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、圧縮されたオーディオ信号の3Dサウンドレンダリング(3D-rendered sound)と呼ばれる空間化に関する。
【背景技術】
【0002】
たとえば、このような操作は、たとえば圧縮された3Dオーディオ信号を解凍する間に実行される。たとえば、特定の数のチャネルを使用して表現される信号を異なる数(たとえば2つ)のチャネルに変換することによって、ヘッドフォンのペアへの3Dオーディオ効果(audio effects)の再生が可能になる。
【0003】
このように、「バイノーラル」という用語は、オーディオ信号のステレオ(stereophonic)ヘッドフォンペア上での再生を指しているが、さらに空間化効果を伴う。しかし、本発明を前述の技術に限定されず、「バイノーラル」技術から派生する技術、たとえばTRANSAURAL(登録商標)と呼ばれる再生技術(すなわちリモートスピーカー)に適用できることは明らかである。TRANSAURAL(登録商標)は、COOPER BAUCK CORPORATION社の商標(commercial trademark)である。このような技術は、さらに「クロストークキャンセル(cross-talk cancellation)」技術を使用して、このようにサウンドが処理されてから、スピーカーで拡声され、聞き手の2つの耳の片方でのみ聞くことができるように、交差した音響チャネル(crossed acoustic channels)を除去できる。
【0004】
したがって、本発明はさらにマルチチャネルオーディオ信号の送信と再生、およびユーザーの設備によって規定される再生デバイス、トランスデューサへのそうした信号の変換にも関連する。これは、たとえばオーディオヘッドフォンのペアまたはスピーカーのペアで5.1サウンドシーン(sound scene)を再生する場合である。
【0005】
本発明は、さらにゲームまたはビデオ録画、たとえばファイルに格納された1つまたは複数のサウンドサンプル(sound samples)のフレームワーク内でその空間化を視野に入れた再生にも関連する。
【0006】
バイノーラルサウンド(binaural sound)空間化という領域で知られている技術の中で、さまざまなアプローチが示されてきた。
【0007】
具体的に、デュアルチャネルバイノーラル合成(synthesis)は、図1aに関連して、再生時に極座標(θ1,φ1)で定義される適切な方向に対応する周波数ドメイン内の音響伝達関数(acoustic transfer functions)(左のHRTF-lと右のHRTF-r)を使用して、空間内の特定の位置に配置が望まれるさまざまな音源Siからの信号をフィルタリングするステップを備えている。前述の伝達関数HRTFは、「Head-Related Transfer Functions(頭部伝達関数)」の省略形で、空間内の位置から耳道(auditory canal)に至るまでの聞き手の頭部の音響伝達関数である。さらに、その時間的な形は「HRIR」(「Head-Related Impulse Response(頭部インパルス応答)」の省略形)と呼ばれている。このような関数は、さらにルーム効果(room effect)を備えていてもよい。
【0008】
個々の音源Siについて、2つの信号(左と右)が取得され、さらに他の音源の空間化から提供される左と右の信号に追加されることによって、最終的に聞き手の左と右の耳に送信される信号LとRを生成する。
【0009】
したがって、必要なフィルタまたは伝達関数の数は、静的バイノーラル合成では2N、動的バイノーラル合成では4Nである。ただし、Nは空間化の対象となる音源またはオーディオストリーム(audio streams)の数である。
【0010】
D. KistlerおよびF.L. Wightmanの研究「A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction」(J. Acoust. Soc. Am. 91(3): pp. 1637-1647 (1992年))、および1995年、A. Kulkamiによる「IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics」(IEEE catalog number: 95TH8144)によって、HRTFの位相が2つの項(1つは両耳間の遅延に対応し、もう1つはHRTFの絶対値(modulus)に関連付けられた最小の位相に等しい)の和の形に分解できることを確認することができた。
【0011】
したがって、HRTF伝達関数は次の式で表される。
H(f)=|H(f)|e-jφ(f)
φ(f)=φdelay(f)+φmin(f)
φdelay(f)=2πfτは両耳間の遅延に対応し、φmin(f)=H(log(|H(f)|))はフィルタHの絶対値に関連付けられた最小の位相である。
【0012】
バイノーラルフィルタの実装は、2つの最小位相フィルタと、音源から最も離れている耳に適用される左と右の遅延の差に対応する純粋遅延(pure delay)の形が一般的である。この遅延は、一般に遅延線によって導入される。
【0013】
最小位相フィルタは、有限パルス応答フィルタであり、時間ドメインまたは周波数ドメインに適用できる。無限パルス応答フィルタは、最小位相HRTFフィルタの絶対値を近似するために必要でありうる。
【0014】
バイノーラル化(binauralization)に関する限り、図1bに関連して、こうした状況は5.1モードで空間化が行われたサウンドシーンのフレームワークであり(限定はされない)、その(latter)人間HB(human being)のオーディオヘッドフォンによる再生を視野に入れている。
【0015】
5台のスピーカー、すなわちC: Center、Lf: Left front、Rf: Right front、Sl: Surround left、Sr: Surround rightのそれぞれは、人間HBがその2つのレシーバー(すなわち耳)で聞こえるサウンドを生成する。サウンドに対して行われる変換(undergone by the sound)は、このサウンドを再生するスピーカーから指定された耳までこのサウンドが伝搬する間にこのサウンドに対して行われる変更を表すフィルタリング関数によってモデル化される。
【0016】
具体的に、スピーカーLfから発生するサウンドはHRTFフィルタAを経由して左の耳(LE:left ear)に響くが、同じサウンドはHRTFフィルタBで変更されて右の耳(RE:right ear)に到達する。
【0017】
前述の個人HBに関するスピーカーの位置は、対称でもそうでなくてもよい。
【0018】
したがって、それぞれの耳は5台のスピーカーからの効果(contribution)を以下にモデル化された形で受信する。
左耳LE:Bl=ALf+CC+BRf+DSl+ESr
右耳RE:Br=ARf+CC+BLf+DSr+ESl
ただし、Blはバイノーラル化された左耳LE向けの信号であり、Brはバイノーラル化された右耳RE向けの信号である。
【0019】
フィルタA、B、C、D、およびEは、線形デジタルフィルタと図1bに示す構成で最も一般的にモデル化されており、したがって10個のフィルタリング関数を適用する必要がある(対称性を考慮すると5個に縮小できる)。
【0020】
本質的に周知であるが、前述のフィルタリング操作は、たとえばフーリエ(Fourier)ドメインで実行される高速コンボリューションによって、周波数ドメインで実行できる。ここで、バイノーラル化を効率的に実行するためにFFT(Fast Fourier Transform:高速フーリエ変換)が使用される。
【0021】
HRTFフィルタA、B、C、D、およびEは、周波数イコライザと遅延の形で簡素化することができる。HRTFフィルタAは直接パスであるため、シンプルなイコライザの形で具体化できるのに対して、HRTFフィルタBには追加の遅延が含まれる。慣例的に、HRTFフィルタは最小位相フィルタと純粋遅延に分解できる。音源に最も近い耳の遅延は、ゼロに等しく設定することができる。
【0022】
使用する送信チャネルの数を減らした3Dオーディオサウンドシーンの空間復号化による再構成(reconstruction)の操作(たとえば図1cに示すような)は、先行技術でも知られている。図1cに示す構成は、5.1空間化を行ったサウンドシーンを再構成するための、周波数ドメイン内のローカライズパラメータを備える符号化されたオーディオチャネルの復号化に関連するものである。
【0023】
前述の再構成は、たとえば図1cに示すように、周波数サブバンドによる空間復号器(spatial decoder)で実行される。符号化されたオーディオ信号mに対して空間化処理の5つのステップが行われる。こうしたステップは、複素数の空間化パラメータ、すなわちエンコーダで計算された係数CLDとICCによって制御され、非相関と利得訂正の操作によって、図1bに示される5つのチャネルに低周波数効果(low-frequency effect)のチャネルlfeを加えた6つのチャネルで構成されるサウンドシーンが実際的に再構成できるようになる。
【0024】
たとえば図1cに示すように空間復号器から提供されるオーディオチャネルのバイノーラル化を実行するのが望ましい場合は、現在のところ、実際には図1dに示すスキームに従った処理方法の実装に限定されている。
【0025】
前述のスキームに関連して、信号のバイノーラル化を実行する前に、時間ドメイン内で使用可能なオーディオチャネルの変換を実行する必要があると考えられる。こうした時間ドメインに戻すための操作は、シンセサイザブロック「Synth(synthesizer)」というシンボルで示されている。ここで、シンセサイザブロックは空間復号器(SD:spatial decoder)から提供されるチャネルのそれぞれについて、周波数-時間変換操作を実行する。これで、従来のフィルタリングに対応する等化スキーム(equalized scheme)が適用されたかどうかにかかわらず、フィルタA、B、C、D、EによってHRTFフィルタによるフィルタリングを実行できる。
【0026】
オーディオチャネルのバイノーラル化を実行する空間復号器からの1つの変形は、図1eに示すように、シンセサイザ「Synth」による時間ドメイン内のオーディオ復号器から提供された個々のオーディオチャネルを変換し、次にFFTによる変換の後にフーリエ周波数ドメインで空間復号化とバイノーラル化(すなわち空間化)の操作を実行するステップをさらに備えることができる。
【0027】
このシナリオでは、復号化の係数の行列に対応する各モジュールOTTは、こうした操作が同じドメイン内では実行されないため、近似を犠牲にしてフーリエドメインで変換する必要がある。さらに、合成操作「Synth」の後に3つのFFT変換が続くため、複雑性はさらに増大する。
【0028】
したがって、空間復号器から提供されるサウンドシーンをバイノーラル化するためには、以下のいずれかを実行する以外に考えられる方法はほとんどない。
- 6回の時間-周波数変換(空間復号器の外部でバイノーラル化を実行するのが望ましい場合)、または
- 合成操作の後に3回のFFTフーリエ変換(FFTドメインで操作を実行するのが望ましい場合)。
【0029】
図1fに示すように、サブバンドのドメイン内でHRTFフィルタリングを直接実行する必要がある場合は、これ以外の1つのソリューションを使用することもできる。
【0030】
しかし、このシナリオではHRTFフィルタリング操作を適用するのは複雑である。こうした操作によって最小の長さが固定されるサブバンドフィルタの使用を余儀なくされ、サブバンドのスペクトルエイリアシングの現象を考慮に入れる必要があるためである。
【0031】
変換操作の削減によって実現される節約は、PQMF(Pseudo-Quadrature Mirror Filter)ドメイン内でこうした操作を実行するためにフィルタリングに必要な操作の数が劇的に増加することによって相殺される。
【非特許文献1】D. KistlerおよびF.L. Wightmanの研究「A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction」(J. Acoust. Soc. Am. 91(3): pp. 1637-1647 (1992年))
【非特許文献2】1995年、A. Kulkamiによる「IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics」(IEEE catalog number: 95TH8144)
【非特許文献3】S. BussonがUniversite de la Mediterranee Est-Marseille IIにおける自らの博士論文「Individualization of acoustic indices for binaural synthesis」(2006年)
【発明の開示】
【発明が解決しようとする課題】
【0032】
本発明の目的は、3Dオーディオシーンのサウンド空間化、およびとりわけ3Dオーディオシーンのトランスオーラル化(transauralization)またはバイノーラル化のための前述の先行技術の多くの欠点を克服することである。
【0033】
特に、本発明の1つの目的は、空間復号化の周波数サブバンドのドメイン内で空間的に符号化されたオーディオ信号またはオーディオチャネルに対して固有のフィルタリングを実行することによって、変換ペアの数を制限すると同時に、フィルタリング操作を最小限まで削減しながら、とりわけトランスオーラル化またはバイノーラル化における音源空間化の品質を高く維持することである。
【0034】
本発明の特に注目に値する1つの態様により、前述の固有のフィルタリングの実行は、空間化、トランスオーラル、またはバイノーラルフィルタをサブバンドのドメイン内の、等化遅延によるフィルタリングの直接適用のためイコライザ遅延(equalizer-delay)の形でレンダリング(rendering)するステップに基づいている。
【0035】
本発明の別の目的は、変換ドメイン(transformed domain)内で従来の空間復号化の後に、複雑性がきわめて低いトランスオーラル空間処理を追加するだけで、オリジナルのHRTFフィルタのようなモデリングフィルタを使用して得られる品質に非常に近い3Dレンダリング品質を実現することである。
【0036】
本発明の最後の目的は、1つのモノフォニック(monophonic)サウンドのトランスオーラルまたはバイノーラルレンダリングだけでなく、複数のモノフォニックサウンドやとりわけ、5.1、6.1、7.1、8.1、またはそれより上のモードの複数チャネルのステレオサウンドにも適用できる新しい音源空間化技術である。
【課題を解決するための手段】
【0037】
本発明の1つの主題は、このように、指定された数の周波数サブバンドを使用して空間的に符号化されるいくつか(1つ(unity)以上)のオーディオチャネル備える第1のセットを備えており、変換ドメイン内でいくつか(2つ以上)のオーディオチャネル備える第2のセットに復号化され、第1のチャネルセットのオーディオ信号の音響伝搬(acoustic propagation)をモデル化するフィルタを使用して時間ドメイン内で再生されるオーディオシーンに対してサウンド空間化を行う方法である。
【0038】
本発明により、本方法は、変換ドメイン内に適用できる少なくとも1つの利得と1つの遅延の形に変換されるモデリングフィルタのそれぞれについて、変換ドメインの周波数サブバンドごとに、少なくとも以下を実行するステップを備えることで注目に値する。
- 利得と遅延をそれぞれサブバンド信号に適用することにより、サブバンド内の信号のイコライザ遅延(equalization-delay)によるフィルタリング。この結果、空間的に符号化されたチャネルから開始され、対象の周波数サブバンド内で、等化され、指定された値で遅延されたコンポーネントを生成する。
- 等化され、遅延されたコンポーネントのサブセットの追加。結果として、時間ドメイン内で再生される前記第2のセット内のオーディオチャネルの数(2つ以上)に対応するいくつかのフィルタリングされた信号を変換ドメイン内で作成する。
- 変換ドメイン内でフィルタリングされた各信号の合成フィルタ(synthesizing filter)による合成。結果として、時間ドメイン内で再生される2つ以上のオーディオ信号を備える第2のセットが得られる。
【0039】
本発明の主題である方法は、サブバンド信号のイコライザ遅延によるフィルタリングに、少なくとも1つの周波数サブバンドに対して少なくとも位相シフトの適用が含まれており、必要に応じてストレージによる純粋遅延の適用が含まれることでも注目に値する。
【0040】
本発明の主題である方法は、ハイブリッド(hybrid)変換ドメイン内でサブバンド信号のイコライザ遅延によるフィルタリングを実行するステップを含むことでも注目に値する。このステップは、デシメーション(decimation)が実行されたかどうかにかかわらず、追加のサブバンドへの周波数分割を実行する追加のステップを備えている。
【0041】
本発明の主題である方法は、最後に個々のモデリングフィルタをそれぞれ変換ドメイン内の利得の値と遅延の値に変換することでも注目に値する。これには、少なくとも利得の値としてサブバンドごとにこのサブバンド内のモデリングフィルタの絶対値の平均(the mean of the modulus)として定義された実数値を関連付け、遅延の値としてさまざまな位置について左耳と右耳の間の受信遅延に対応する遅延の値を関連付けるステップが含まれる。
【0042】
同様に(In a correlated manner)、本発明の別の主題は、指定された数の周波数サブバンドを使用して空間的に符号化されるいくつか(1つ以上)のオーディオチャネル備える第1のセットを備えており、変換ドメイン内でいくつか(2つ以上)のオーディオチャネル備える第2のセットに復号化され、第1のチャネルセットのオーディオ信号の音響伝搬をモデル化するフィルタを使用して時間ドメイン内で再生されるオーディオシーンに対してサウンド空間化を行うデバイスである。
【0043】
本発明により、本デバイスは、空間復号器の周波数サブバンドごとに、変換ドメイン内で、本デバイスがこの空間復号器だけでなく以下を備えていることで注目に値する。
- 利得と遅延をそれぞれサブバンド信号に適用することにより、サブバンド内の信号のイコライザ遅延によるフィルタリングを実行するモジュール。結果として、空間的に符号化された各オーディオチャネルから、対象の周波数サブバンド内で等化され、指定された値の遅延で遅延されたコンポーネントを生成する。
- 等化され、遅延されたコンポーネントのサブセットを追加するモジュール。結果として、時間ドメイン内で再生される第2のセット内のオーディオチャネルの数(2つ以上)に対応するいくつかのフィルタリングされた信号を変換ドメイン内で作成する。
- 変換ドメイン内でフィルタリングされた各信号を合成するモジュール。結果として、時間ドメイン内で再生される2つ以上のオーディオチャネルを備える第2のセットを取得する。
【0044】
本発明の主題である方法およびデバイスは、ハイファイ(hi-fi)オーディオおよび/またはビデオエレクトロニクス業界、およびローカルまたはオンラインで実行するオーディオ-ビデオゲームの業界に適用される。
【0045】
以下の説明を読み、添付の図面を(先行技術に関連する図1aから1fは別として)参照することにより、より深く理解されるであろう。
【発明を実施するための最良の形態】
【0046】
本発明の主題によるオーディオシーンのサウンド空間化の方法について、図2a以降の図面に関連付けながら、以下でより詳細に説明する。
【0047】
本発明の主題である方法は、指定された数の周波数サブバンドで空間的に符号化され、変換ドメイン内で復号化されるN(1以上、すなわちN≧1)個のオーディオチャネルを備える第1のセットで表される3Dオーディオシーンのようなオーディオシーンに適用できる。
【0048】
変換ドメインは、時間デシメーションのプロセスが実行されたかどうかにかかわらず、フーリエドメイン、PQMFドメイン、または追加の周波数サブバンドを作成することによってこれらから得られる任意のハイブリッドドメインのような変換周波数ドメインを意味すると理解される。
【0049】
したがって、第1のセットのN個のチャネルを構成する空間的に符号化されたオーディオチャネルは、限定的ではないが説明の中で前述したチャネルFl、Fr、Sr、Sl、C、lfeによって表され、説明の中で前述した対応する変換ドメインにおける3Dオーディオシーンの復号化モードに対応する。このモードは、前述の5.1モードにほかならない。
【0050】
さらに、こうした信号は復号化に固有の指定された数のサブバンドに従って前述の変換ドメイン内で復号化され、こうしたサブバンドのセットは、
【0051】
【数1】
【0052】
で表される(ただし、kは対象のサブバンドのランクを表す)。
【0053】
本発明の主題である方法により、前述の空間的に符号化されたオーディオチャネルのセットを、時間ドメイン内で再生されるいくつか(2つ以上)のオーディオチャネルを備える第2のセットに変換できる。ただし、再生オーディオチャネルは、左右のバイノーラルチャネルの場合はそれぞれBlおよびBrで表され、図2aのフレームワーク内に限定はされない。具体的に、本発明の主題である方法は、2つのバイノーラルチャネルの代わりに、2を超える任意の数のチャネルに適用でき、説明と図1bの組み合わせによって示されるように、たとえば3Dオーディオシーンのリアルタイムのサウンド再生が可能になることが理解されよう。
【0054】
本発明の主題である方法の1つの注目に値する態様により、本方法は空間的に符号化されたオーディオチャネルで交換される第1のセットのオーディオ信号の音響伝達をモデル化するフィルタを使用して実装され、説明の中で後述するように、変換ドメイン内に適用できる少なくとも1つの利得と1つの遅延の形の変換を考慮する。限定はしないが、モデリングフィルタは説明の以降の部分ではHRTFフィルタとして表されている。
【0055】
前述の変換は、個々のHRTFフィルタでランクkのサブバンドSBkについて考慮したものであり、利得の値gkと対応する遅延の値dkを指定すると、前述の変換は図2aに示すように、HRTF.≡(gk,dk)で表される。
【0056】
前述の変換について考察すると、本発明の主題である方法はランクkの変換ドメインの周波数サブバンドごとに、ステップAで利得gkと遅延dkをそれぞれサブバンド信号に適用することによってサブバンド信号のイコライザ遅延によるフィルタリングを実行し、前述の空間的に符号化されたチャネル(すなわち、チャネルFl、C、Fr、Sr、Sl、およびlfe)から、対象のランクkの周波数サブバンドSBk内で指定された値の遅延を導入して等化されたコンポーネントを生成する。
【0057】
図2aで、イコライザ遅延によるフィルタリング操作は、シンボルを使用してCEDkx={Fl,C,Fr,Sr,Sl,lfe}(gkx,dkx)と表される。
【0058】
前述のシンボルを使用した式で、FEBkxは空間的に符号化されたオーディオチャネル(すなわち、チャネルFl、C、Fr、Sr、Sl、およびlfe)のそれぞれに利得gkxと遅延dkxを適用することによって得られる等化され、遅延された各コンポーネントを表している。
【0059】
この結果として、また前述のシンボルを使用した式で、xは対応するランクkのサブバンドに関して、実際にFl、C、Fr、Sr、Sl、およびlfeの値をとることができる。
【0060】
ここで、変換ドメイン内でステップAに続いて、ステップBで等化され、遅延されたコンポーネントのサブセットが追加され、時間ドメイン内で再生される第2のセット内のオーディオチャネルの数N'(2以上)に対応するいくつかのフィルタリングされた信号が変換ドメイン内で作成される。
【0061】
図2aのステップBで、追加の操作はシンボルを使用した式で表される。
F{Fl,C,Fr,Sr,Sl,lfe}=ΣCEDkx
【0062】
前述のシンボルを使用した式で、F{Fl,C,Fr,Sr,Sl,lfe}は等化され、遅延されたコンポーネントCEDkxのサブセットを合計することによって得られる変換ドメイン内でフィルタリングされた信号のサブセットを表している。
【0063】
限定的ではない説明のための例として、空間的に符号化されたいくつかのオーディオチャネル(N=6、5.1モードに対応する)を備える第1のセットで、等化され、遅延されたコンポーネントのサブセットは、説明の中で以降に詳述するように、こうした等化され、遅延されたコンポーネントをそれぞれの耳に5個ずつ追加し、変換ドメイン内でフィルタリングされたN'個(2に等しい)の信号を取得する。
【0064】
前述の追加のステップBの後には、さらに変換ドメイン内で合成フィルタによってフィルタリングされた各信号を合成し、時間ドメイン内で再生されるN'(2以上)個のオーディオ信号を備える第2のセットを取得するステップCが続いている。
【0065】
図2aのステップCで、対応する合成の操作はシンボルを使用した式で次のように表される。
Bl,Br=Synth(F{Fl,C,Fr,Sr,Sl,lfe})
【0066】
一般的に、本発明の主題である方法は、N'(2から無限大まで変化する)個の再生オーディオチャネルとなる空間的に符号化されたN(1から無限大まで変化する)個のオーディオパスまたはチャネルで構成される任意の3Dオーディオシーンに適用できることが示されている。
【0067】
図2aのステップBで表される合計のステップに関する限り、より具体的に、このステップは異なる遅延を導入された、遅延の異なるコンポーネントのサブアセンブリ(sub-assembly)を加えることによって、サブバンドごとにN'個のコンポーネントを生成すると言われている。
【0068】
より具体的には、サブバンド信号のイコライザ遅延によるフィルタリングには、少なくとも位相シフトの適用完了が含まれ、場合によっては少なくとも1つの周波数サブバンドに対してストレージによる純粋遅延の適用が含まれると言われている。
【0069】
純粋遅延の適用の表記は、図2aのステップAに式gEx=1で示されている。これは、ランクk=Eのサブバンド内のインデックスxのオーディオチャネルのセットに対して等化が実行されていないことを示しており、値1は空間的に符号化されたオーディオチャネルのそれぞれを振幅の変更なしに送信することを示している。
【0070】
変換ドメインは、説明の中で前述したように、対応するサブバンドに周波数デシメーションが適用されない場合は、図2bに関連して説明するハイブリッド変換ドメインに対応することができる。
【0071】
前述の図2bに関連して、図2aのステップAとして示されるイコライザ遅延によるフィルタリングは、図2bに示される3つのサブステップA1、A2、A3で実行される。
【0072】
このような条件の下で、ステップAは追加のサブバンドへのデシメーションを伴わない周波数分割を実行することによって適用される利得の値、したがって周波数の精度を高めるための追加のステップと、これに続いて前述の利得の値が適用された追加のサブバンドを再結合するステップとを備えている。
【0073】
周波数分割とそれに続く再結合の操作は、図2bのサブステップA1とA2で示されている。
【0074】
周波数分割のステップは、サブステップA1に次の式で示されている。
【0075】
【数2】
【0076】
再結合のステップは、サブステップA2に次の式で示されている。
【0077】
【数3】
【0078】
サブステップA1で、対象のランクkのサブバンドの利得と遅延の値は対応する利得の値Z(追加の各サブバンドごとに1つの利得の値gkZ)に細分されることが理解されよう。また、サブステップA2で、当該追加のサブバンド内で利得の値gkZが適用された対応するインデックスxの対応する符号化されたオーディオチャネルを使用して、追加のサブバンドの再結合が実行されることが理解されよう。
【0079】
上の式で、
【0080】
【数4】
【0081】
は当該追加のサブバンド内で利得の値が適用された追加のサブバンドの再結合を示している。
【0082】
サブステップA2に続き、サブステップA3で、次に再結合された追加のサブバンドに遅延が適用され、特に対応するインデックスxの空間的に符号化されたオーディオチャネルに対して、図2aのステップAと同様にして遅延dkxが適用される。
【0083】
対応する操作は次の式で表される。
【0084】
【数5】
【0085】
さらに、本発明の主題である方法は、図2cに示すように、デシメーションを伴う追加のサブバンドへの周波数分割を行う追加のステップを備えるハイブリッド変換ドメイン内でサブバンド信号のイコライザ遅延によるフィルタリングを実行するステップを備えることもできる。
【0086】
このシナリオで、図2cのステップA'1は図2bのステップA1と同等であり、デシメーションを伴う追加のサブバンドの作成を実行する。
【0087】
このシナリオでは、図2cのステップA'1のデシメーション操作が時間ドメイン内で実行される。
【0088】
ここで、ステップA'1の後に、デシメーションを考慮して前述の利得の値が適用される追加のサブバンドの再結合に対応するステップA'2が続いている。
【0089】
再結合のステップA'2は、ステップA'2とA'3の交換を表す両側矢印で示されるように、それ自体が遅延dkxの適用の前または後に実行される。
【0090】
具体的には、再結合の前に遅延の適用が実行される場合は、再結合の前に追加のサブバンドの信号に直接遅延が適用されることが理解されよう。
【0091】
個々のHRTFフィルタから変換ドメイン内の利得の値と遅延の値への変換に関する限り、この操作は利得の値として、対応するHRTFフィルタの絶対値の平均(mean of the modulus)で定義される実数値をランクkの各サブバンドに関連付け、有利には、遅延の値として、さまざまな位置にいる聞き手の左耳と右耳との間の伝搬遅延に対応する遅延の値をランクkの各サブバンドに関連付ける。
【0092】
したがって、HRTFフィルタを使用すると、サブバンドに適用される利得と遅延時間を自動的に計算することができる。HRTFフィルタバンクの周波数分解能(frequency resolution)に基づいて、さまざまな場所にいる聞き手の左耳と右耳の間の伝搬遅延に対応する遅延の値が個々のサブバンドSBkに関連付けられる。
【0093】
このように、HRTFフィルタを使用すると、サブバンドに適用される利得と遅延時間を自動的に計算することができる。
【0094】
フィルタバンクの周波数分解能に基づいて、個々のバンドに実数値が関連付けられる。限定的でない例として、HRTFフィルタの絶対値から開始され、各サブバンドの前述のHRTFフィルタの絶対値の平均を計算することができる。こうした操作は、HRTFフィルタのオクターブ(octave)またはBark帯域分析と同様である。同様に、間接チャネルに適用される遅延が決定される。換言すると、遅延が最小でないチャネルに特に適用できる遅延の値である。両耳間の(interaural)遅延を自動的に決定するにはさまざまな方法がある。この遅延は、ITD(Interaural Time Difference)とも呼ばれ、さまざまな位置にいる聞き手の左耳と右耳の間の遅延に対応する。限定的でない例として、S. BussonがUniversite de la Mediterranee Est-Marseille IIにおける自らの博士論文「Individualization of acoustic indices for binaural synthesis」(2006年)で説明するしきい値法を使用してもよい。この方法で両耳間のしきい値型の遅延を推定する原理は、波の到着時間またはその代わりに最初の遅延(initial delay)(右耳でTd、左耳でTg)を確認することである。最初の両耳間の遅延は次の式で表される。
ITDしきい値=Td-Tg
【0095】
最もよく使用される方法では、HRIR時間フィルタが指定されたしきい値を超えた瞬間として到着時間を推定する。たとえば、到着時間はHRIRフィルタの応答がその最大値の10%に到達する時間に対応してもよい。
【0096】
ここで、PQMF変換ドメインにおける特定の実装の1つの例を以下に示す。
【0097】
一般的に、複素数のPQMFドメイン内で利得を適用するとは、複素数値で表現されるサブバンド信号の各サンプルの値に実数で表現される利得の値を乗じることであることが示されている。
【0098】
実際に、複素数のPQMF変換ドメインを使用すると、利得を適用するときに、フィルタのバンクに固有のアンダーサンプリング(under-sampling)によって生成されるスペクトルエイリアシング(aliasing)の問題を回避することができることがよく知られている。次いで、各チャネルの各サブバンドSBkの所定の利得が割り当てられる。
【0099】
さらに、PQMF変換ドメインにおける遅延の適用は、少なくとも、複素数値で表現されるサブバンド信号のサンプルごとに、対象のサブバンドのランク、対象のサブバンドのアンダーサンプリングレート、および聞き手の両耳間の遅延の差に関連する遅延パラメータの関数である複素数の指数値をこのサンプルに乗じることによって複素平面内の回転を導入する。
【0100】
複素平面内の回転に続いて、サンプルの純粋時間遅延が導入される。こうした純粋時間遅延は、聞き手の両耳間の遅延の差、および対象のサブバンドのアンダーサンプリングレートの関数である。
【0101】
事実上、前述の遅延は結果として得られた信号、すなわち等化された信号、特にこうした信号またはチャネルの直接パスから恩恵を受けないサブセットに適用されることが示されている。
【0102】
具体的には、回転は次の形の指数値による複素数の乗算の形で実行され、
exp(-j*pi*(k+0.5)*d/M)
さらに、遅延線によって純粋遅延が導入される。たとえば、次の操作を実行する。
y(k,n)=x(k,n-D)
【0103】
上の式で、
- expは指数関数
- jはj*j=-1
- kは対象のサブバンドSBkのランク
- Mは対象のサブバンドのアンダーサンプリングレート。たとえば、M=64とする。
- y(k,n)は、ランクkのサブバンドSBkのランクnの時間サンプルに純粋遅延を適用した後の出力サンプルの値、すなわちサンプルx(k,n)に遅延Bを適用した値である。
- 上の式で、dおよびDはアンダーサンプリングされない時間ドメインにおける遅延D*M+dの適用に対応する値である。遅延D*M+dは、前に計算された両耳間の遅延に対応する。dは負の値をとることができる。これによって遅延に代わる位相前進のシミュレーションが可能になる。
【0104】
このように、実行される操作によって、求められる効果に見合う近似が得られる。
【0105】
計算の観点では、実行された処理によって、複素数の指数と複素数値で構成されるサブバンドのサンプルとの間で複素数の乗算が実行される。
【0106】
適用される総合遅延(total delay)が値Mを超える場合は、遅延が導入される可能性があるが、こうした操作は算術演算を含まない。
【0107】
本発明の主題である方法は、ハイブリッド変換ドメインにも実装できる。こうしたハイブリッド変換ドメインは、デシメーションが実行されたかどうかにかかわらず、PQMFバンドがフィルタのバンクで再分割されるのが有利な周波数ドメインである。
【0108】
フィルタのバンクに対してデシメーションが実行される場合は(デシメーションは時間デシメーションと理解される)、純粋遅延と位相シフトを含む手順に続いて遅延の導入を実行するのが有利である。
【0109】
フィルタのバンクに対してデシメーションが実行されない場合は、合成の間に1度だけ遅延を適用できる。合成は線形の操作であるため、アンダーサンプリングがない場合は、分岐のそれぞれに同じ遅延を適用するのは全く無意味である。
【0110】
利得の適用は同等のままであり、たとえば図2bに関連してすでに説明したように、これは非常に数が多く、したがってその後に高精度の周波数分割が可能になる。ここで、追加のサブバンドあたり1つの実数の利得が適用される。
【0111】
最後に、1つの変形の実施形態により、本発明による方法は少なくとも2つのイコライザ遅延のペアについて反復され、取得された信号が合計されて時間ドメイン内でオーディオチャネルが取得される。
【0112】
ここで、本発明の目的により、指定された数の周波数サブバンドを使用して空間的に符号化されたいくつか(1つ以上)のオーディオチャネル備える第1のセットを備えており、変換ドメイン内でいくつか(2つ以上)のオーディオチャネル備える第2のセットに復号化され、時間ドメイン内で再生されるオーディオシーンに対してサウンド空間化を行うデバイスについてより詳細な説明を、図3aおよび3bに関連して説明する。
【0113】
前述のように、本発明の主題であるデバイスは、前述の第1のセットのチャネルのオーディオ信号の音響伝達をモデル化するフィルタの変換ドメイン内で適用できる少なくとも1つの利得と1つの遅延の形への変換の原理に基づいている。本発明の主題であるデバイスにより、3Dオーディオシーンのようなオーディオシーンに対して、時間ドメイン内で再生されるいくつか(2つ以上)のオーディオチャネルを備える第2のセットへのサウンド空間化が可能になる。
【0114】
図3aに示す本発明の主題であるデバイスは、変換ドメイン内で復号化するための本デバイスのステージに関連する。このステージは、ランクkの個々のサブバンドSBkに固有である。
【0115】
具体的に、図3aに示すランクkの個々のサブバンドのステージは、実際にサブバンドのそれぞれに複製され、最終的に本発明の主題によるサウンド空間化のデバイスを構成することが理解されよう。
【0116】
慣例により、図3aに示すステージをこれ以降は本発明の主題であるサウンド空間化デバイスと呼ぶものとする。
【0117】
前述の図に関連して、図3aに示すような本発明の主題であるデバイスは、図示される空間復号器はさておき、図1cに示すような先行技術による空間復号器SDに実質的に対応するモジュールOTT0からOTT4(ただし、先行技術においてそれ自体が周知であるように、加算器(summer)Sによって前面チャネルCと低周波数チャネルlfeの合計も適用される)と、利得と遅延をそれぞれサブバンド信号に適用することによるサブバンド信号のイコライザ遅延によってフィルタリングを行うモジュール1とを備えている。
【0118】
図3aで、利得の適用は空間的に符号化されたオーディオチャネルのそれぞれに対して図示されており(増幅器l0からl8で表される)、これで等化されたコンポーネントが生成され、遅延要素(l9からl12で表される)による遅延は適用されてもされなくてもよいが、空間的に符号化された個々のオーディオチャネルから、周波数サブバンドSBk内で等化され、指定された遅延の値で遅延されたコンポーネントが生成される。
【0119】
図3aを参照すると、増幅器l0からl8の利得は、それぞれ任意の値A、B、B、A、C、D、E、E、Dをとっている。さらに、遅延モジュールl9からl12によって適用される遅延の値は、値Df、Bf、Ds、Dsをとる。上の図で、導入される利得と遅延の構造は対称である。本発明の主題の範囲を逸脱することなく非対称の構造を実装することもできる。
【0120】
本発明の主題であるデバイスは、等化され、遅延されたコンポーネントのサブセットを追加するモジュール2をさらに備えており、変換ドメイン内で第2のセット内の時間ドメイン内で再生されるオーディオチャネルの数N'(2以上)に対応するいくつかのフィルタリングされた信号を作成する。
【0121】
最後に、本発明の主題であるデバイスは、変換ドメイン内でフィルタリングされた各信号を合成するモジュール3を備えており、時間ドメイン内で再生される特定の数N'(2以上)個のオーディオ信号を備える第2のセットを取得する。このように、合成モジュール3は、図3aに示す実施形態では、それぞれオーディオ信号を時間ドメイン内で再生できるシンセサイザ30および31を備えており、左のバイノーラル信号B1および右のバイノーラル信号Brが提供される。
【0122】
図3aに示す実施形態では、等化され、遅延されたコンポーネントは以下のようにして得られる。
- A[k]はランクkのサブバンドSBkの増幅器l0およびl3の利得
- B[k]は図3aに示す増幅器l1およびl2の利得
- C[k]は増幅器l4の利得
- D[k]は増幅器l5、l8の利得
- E[k]は増幅器l6、l7の利得
【0123】
空間的に符号化されたオーディオチャネル、また具体的にサブバンドSBkのこうしたチャネルFl、Fr、C、lfe、Sl、およびSrに関する限り、サブバンドSBkのn番目のサンプルは、Fl[k][n]、Fr[k][n]、Fc[k][n]、lfe[k][n]、Sl[k][n]、Sr[k][n]で表される。このようにして、各増幅器l0からl8は以下の等化されたコンポーネントを正常に提供する。
- A[k]*Fl[k][n]
- B[k]*Fl[k][n]
- B[k]*Fr[k][n]
- A[k]*Fr[k][n]
- C[k]*Fc[k][n]
- D[k]*Sl[k][n]
- E[k]*Sl[k][n]
- E[k]*Sr[k][n]
- D[k]*Sr[k][n]
【0124】
上の操作は、説明の中で前述したように、実数の乗算の形で実行されるが、この場合は複素数に対して実行される。
【0125】
遅延要素l9、l10、l11、およびl12で導入される遅延が前述の等化されたコンポーネントに適用され、等化され、遅延されたコンポーネントが生成される。
【0126】
図3aに示す例では、こうした遅延が直接パスから恩恵を受けないサブセットに適用される。図3aに関する説明では、これらは増幅器または乗算器l1、l2、l6、およびl7によって適用される利得B[k]およびE[k]を乗じられる信号である。
【0127】
たとえば乗算増幅器(multiplier amplifier)l1と遅延要素l9で構成されるイコライザ遅延によるフィルタまたはフィルタリング要素に関するより詳細な説明は、図3bに関連して以下に示されている。
【0128】
利得の適用に関する限り、図3bに示す対応するフィルタリング要素はデジタル乗算器、すなわち乗算増幅器l0からl8のいずれかを備えており(図3bでは利得の値gkxが示されている)、この乗算器によってチャネルFl、Fr、C、lfe、Sl、またはSrに対応するインデックスxの符号化された各オーディオチャネルの任意の複素数のサンプルを実数値すなわち説明の中で前述した利得の値に乗じることができることが示されている。
【0129】
さらに、図3bに示す対応するフィルタリング要素は少なくとも1つの複素デジタル乗算器(complex digital multiplier)を備えており、サブバンド信号の任意のサンプルの複素平面内に回転を導入でき、複素指数関数の値exp(-jφ(k, SSk))を乗じることができる。ただし、φ(k,SSk)は位相の値を表しており、対象のサブバンドのアンダーサンプリングレートおよび対象のサブバンドのランクkの関数である。
【0130】
1つの実施形態において、φ(k,SSk)=φ*(k+0.5)*d/Mである。
【0131】
複素デジタル乗算器に続いて、遅延線(D.L.で表される)によって回転後の各サンプルに純粋遅延が導入され、聞き手の両耳間の遅延の差、および対象のサブバンドSBkのアンダーサンプリングレートMの関数である純粋時間遅延を導入することができる。
【0132】
このようにして、遅延線D.L.によって回転後の複素数のサンプル(y(k,n) = x(k,n-D)の形)に対して遅延を導入することができる。
【0133】
最後に、dおよびDの値はサンプリングされない時間ドメイン内での遅延D*M+dの適用に対応する値であり、遅延D*M+dは前述の両耳間の遅延に対応することが示されている。
【0134】
本発明の主題であるデバイス(たとえば、図3aに示すようなデバイス)の実装では、信号Fr[k][n]に利得B[k]を乗じてから遅延を導入することを確認できる。これは、本発明の主題による1つの注目に値する態様により、この信号に複素数の利得を乗じた値になる。利得B[k]と複素指数関数の積は、すべてに対して一度実行できるので、連続するサンプルFr[k][n]ごとに補数演算を実行する必要はない。等化され、遅延されたコンポーネントは左がL0からL4、右がR0からR4で示されており、それぞれ加算器モジュール20および21と組み合わせて図示されている。ここで、以下の式を確認する。
【0135】
表T
LO[k][n]=A[k]Fl[k][n]
RO[k][n]=B[k]Fl[k][n] Dfサンプルによる遅延
R1[k][n]=A[k]Fr[k][n]
L1[k][n]=B[k]Fr[k][n] Dfサンプルによる遅延
L2[k][n]=R2[k][n]=C[k](Fc[k][n]+lfe[k][n])
L3[k][n]=D[k]Sl[k][n]
R3[k][n]=E[k]Sl[k][n] Dsサンプルによる遅延
R4[k][n]=D[k]Sr[k][n]
L4[k][n]=E[k]Sr[k][n] Dsサンプルによる遅延
【0136】
時間ドメイン内で再生するオーディオチャネル、すなわちそれぞれ図3aに示すチャネルB1(左)およびチャネルBr(右)、すなわち図3aに示す実施形態のバイノーラル信号を取得するために、ランクnの各サンプルについて等化され、遅延された空間コンポーネントが追加される。つまり、以下のコンポーネントが追加される。
LO[k][n]+L1[k][n]+L2[k][n]+L3[k][n]+L4[k][n](加算器モジュール20の場合)
RO[k][n]+R1[k][n]+R2[k][n]+R3[k][n]+R4[k][n](加算器モジュール21の場合)
【0137】
加算器モジュール20および21から得られる信号は、ここでそれぞれ合成フィルタバンク30および31を経由して、時間ドメイン内のバイノーラル信号それぞれB1およびBrが提供される。
【0138】
これで、前述の信号はデジタルアナログコンバータを提供でき、左のサウンドB1および右のサウンドBrをたとえばオーディオヘッドフォンのペアから聞くことができる。
【0139】
合成モジュール30および31で実行される合成操作には、必要に応じて説明の中で前述したようなハイブリッド合成操作が含まれる。
【0140】
本発明の主題である方法は、さまざまな数の周波数サブバンドに対して実行できる等化および遅延の操作を分離できるのが有利である。1つの変形として、たとえば、等化をハイブリッドドメインで実行し、遅延をPQMFドメインで実行してもよい。
【0141】
本発明の主題である方法およびデバイスは、6つのチャネルからヘッドフォンペアへのバイノーラル化に関して説明されているが、トランスオーラル化すなわちスピーカーのペア上での3Dサウンドフィールド(sound field)の再生を実行するため、またはあまり複雑でない方法で1つの空間復号器または複数のモノフォニック復号器から提供されるN個のオーディオチャネルまたは音源の表現を、再生に使用できるN'個のオーディオチャネルに変換するためにも使用できることは理解されよう。必要に応じて、フィルタリング操作を追加してもよい。
【0142】
非限定的な補足の例として、本発明の主題である方法およびデバイスは、さまざまな物体または音源から発生するサウンドを伴う3Dによる双方向型のゲーム(interactive game)の事例にも適用できる。これらは、聞き手に関する相対的な位置の関数として空間化することができる。サウンドサンプルは、圧縮してさまざまなファイルまたはさまざまなメモリ領域に格納される。サンプルは、再生され空間化されるために、部分的に復号化されることで符号ドメインにとどまり、符号ドメイン内で前述の本発明の主題による方法を使用して適切なバイノーラルフィルタでフィルタリングされるのが有利である。
【0143】
実際に、復号化と空間化の操作を結合することによって、全体的なプロセスの複雑性は大幅に低下するが、結果として品質が低下することはない。
【0144】
最後に、本発明は記憶媒体に格納され、コンピュータまたは専用のサウンド空間化デバイスによって実行される一連の命令を備えるコンピュータプログラムを対象とする。こうした実行の間に、図2aから2c、および3a、3bに関連して説明の中ですでに説明したように、フィルタリング、追加、合成のステップが実行される。
【0145】
具体的に、すでに説明した図面に示す操作は、中央処理装置、作業用メモリ、およびプログラムメモリ(図3aには示されていない)によって複素数のデジタルサンプルに対して実行できるのが有利であることは理解されよう。
【0146】
最後に、図4に関連して以下で説明するように、イコライザ遅延フィルタを構成する利得と遅延の計算は、本発明の主題であるデバイス(図3aおよび3bに示す)の外部で実行してもよい。
【0147】
前述の図4に関連して、空間符号化およびデータレート削減(data rate reduction)による符号化を行う第1のユニットI(図3aおよび3bに示すような本発明の主題であるデバイスを含む)について考察する。たとえば、5.1モードのオーディオシーンから開始して、前述の空間符号化を実行し、復号化および空間復号化ユニットIIに向けて、一方では符号化されたオーディオを送信し、他方では空間パラメータを送信することができる。
【0148】
ここで、イコライザ遅延フィルタの計算を個別のユニットIIIで実行できる。このユニットでは、モデリングフィルタ、HRTFフィルタを使用して利得等化(gain equalization)および遅延の値を計算し、こうした値を空間符号化ユニットIおよび空間復号化ユニットIIに送信する。
【0149】
したがって、空間符号化はHRTFを考慮に入れることができ、その空間パラメータを修正して3Dレンダリングを改善することができる。同様に、データレート削減による符号器でこうしたHRTFを使用できるので、周波数量子化(quantization)の可聴効果(audible effects)を評価することができる。
【0150】
復号化のステップで、空間符号器に適用され、必要に応じて再生されたチャネルを再構成できるようにするのは送信されたHRTFである。
【0151】
前述の例では5つのチャネルから開始して2つのチャネルが再生されるが、他の事例では上記のように3つのチャネルから開始した5つのチャネルの構成を含めてもよい。ここで、次のように空間復号化の方法を適用できる。
- 受信した3つのチャネルを仮想チャネルのセットに空間情報(upmix)を使用して射影(5つを超える出力チャネル)
- HRTFを使用して仮想チャネルを5つの出力チャネルに削減する。
【0152】
符号器にHRTFが適用された場合は、オプションでupmixの前にその効果を除去して以上のスキームを実行することもできる。
【0153】
変換後のHRTFは利得/遅延の形であり、以下の形に量子化されるのが好ましい。その値の差分モード(differential mode)で符号化してからその差分を量子化し、イコライザの利得の値がG[k]で表される場合に、量子化された値は次のようになる。
e[k]=G[k+l]-G[k]
これが線形または対数で送信される。
【0154】
より具体的には、前述の図4に関連して、本発明の主題であるデバイスおよび方法によって実装されるプロセスにより、第1のセットは指定された数の空間的に符号化されたオーディオチャネルを備えており、第2のセットは時間ドメイン内で再生されるより少ない数のオーディオチャネルを備えるオーディオシーンのサウンド空間化が可能になる。さらに、空間的に符号化されたいくつかのオーディオチャネルから時間ドメイン内で再生されるオーディオチャネルの数以上のオーディオチャネルを備えるセットへの逆変換も復号が実行できるようになる。
【図面の簡単な説明】
【0155】
【図1a】従来技術の図である。
【図1b】従来技術の図である。
【図1c】従来技術の図である。
【図1d】従来技術の図である。
【図1e】従来技術の図である。
【図1f】従来技術の図である。
【図2a】本発明の主題であるサウンド空間化の方法を実施する手順を説明のために示す流れ図である。
【図2b】図2aに示す本発明の主題である方法の1つの変形の実施形態であり、デシメーションを実行しない場合に追加のサブバンドを作成することによって得られる方法を説明のために示す図である。
【図2c】図2aに示す本発明の主題である方法の1つの変形の実施形態であり、デシメーションを実行する場合に追加のサブバンドを作成することによって得られる方法を説明のために示す図である。
【図3a】本発明の主題であるサウンド空間化のデバイスにおいて、空間復号器の1つの周波数サブバンドのステージを説明のために示す図である。
【図3b】図3aに示す本発明の主題であるデバイスを実装できるイコライザ遅延フィルタの詳細な実装を説明のために示す図である。
【図4】イコライザ遅延フィルタの計算が非局在化された(delocalized)本発明の主題であるデバイスの1つの例示的な実施形態を説明のために示す図である。
【符号の説明】
【0156】
HRTF-l 左の音響伝達関数
HRTF-r 右の音響伝達関数
Si 音源
L 聞き手の左の耳に送信される信号
R 聞き手の右の耳に送信される信号
HB 人間
C スピーカー(Center)
Lf スピーカー(Left front)
Rf スピーカー(Right front)
Sl スピーカー(Surround left)
Sr スピーカー(Surround right)
LE 左の耳
RE 右の耳
Bl バイノーラル化された左耳LE向けの信号
Br バイノーラル化された右耳RE向けの信号
A、B、C、D、E フィルタ
m 符号化されたオーディオ信号
CLD、ICC エンコーダで計算された係数
lfe 低周波数効果のチャネル
Synth シンセサイザブロック
SD 空間復号器
OTT 復号化の係数の行列に対応するモジュール
SBk HRTFフィルタでランクkのサブバンド
gk 利得の値
dk 遅延の値
A、B、C ステップ
A1、A2、A3 サブステップ
A1'、A2'、A3' ステップ
1 フィルタリングモジュール
l0からl8 増幅器
l9からl12 遅延モジュール
D.L. 遅延線
2 追加モジュール
20、21 加算器モジュール
Df、Bf、Ds、Ds 遅延の値
3 合成モジュール
30、31 合成フィルタバンク(シンセサイザ)
I 符号化および空間符号化ユニット
II 復号化および空間復号化ユニット
III イコライザ遅延フィルタ計算ユニット
【技術分野】
【0001】
本発明は、圧縮されたオーディオ信号の3Dサウンドレンダリング(3D-rendered sound)と呼ばれる空間化に関する。
【背景技術】
【0002】
たとえば、このような操作は、たとえば圧縮された3Dオーディオ信号を解凍する間に実行される。たとえば、特定の数のチャネルを使用して表現される信号を異なる数(たとえば2つ)のチャネルに変換することによって、ヘッドフォンのペアへの3Dオーディオ効果(audio effects)の再生が可能になる。
【0003】
このように、「バイノーラル」という用語は、オーディオ信号のステレオ(stereophonic)ヘッドフォンペア上での再生を指しているが、さらに空間化効果を伴う。しかし、本発明を前述の技術に限定されず、「バイノーラル」技術から派生する技術、たとえばTRANSAURAL(登録商標)と呼ばれる再生技術(すなわちリモートスピーカー)に適用できることは明らかである。TRANSAURAL(登録商標)は、COOPER BAUCK CORPORATION社の商標(commercial trademark)である。このような技術は、さらに「クロストークキャンセル(cross-talk cancellation)」技術を使用して、このようにサウンドが処理されてから、スピーカーで拡声され、聞き手の2つの耳の片方でのみ聞くことができるように、交差した音響チャネル(crossed acoustic channels)を除去できる。
【0004】
したがって、本発明はさらにマルチチャネルオーディオ信号の送信と再生、およびユーザーの設備によって規定される再生デバイス、トランスデューサへのそうした信号の変換にも関連する。これは、たとえばオーディオヘッドフォンのペアまたはスピーカーのペアで5.1サウンドシーン(sound scene)を再生する場合である。
【0005】
本発明は、さらにゲームまたはビデオ録画、たとえばファイルに格納された1つまたは複数のサウンドサンプル(sound samples)のフレームワーク内でその空間化を視野に入れた再生にも関連する。
【0006】
バイノーラルサウンド(binaural sound)空間化という領域で知られている技術の中で、さまざまなアプローチが示されてきた。
【0007】
具体的に、デュアルチャネルバイノーラル合成(synthesis)は、図1aに関連して、再生時に極座標(θ1,φ1)で定義される適切な方向に対応する周波数ドメイン内の音響伝達関数(acoustic transfer functions)(左のHRTF-lと右のHRTF-r)を使用して、空間内の特定の位置に配置が望まれるさまざまな音源Siからの信号をフィルタリングするステップを備えている。前述の伝達関数HRTFは、「Head-Related Transfer Functions(頭部伝達関数)」の省略形で、空間内の位置から耳道(auditory canal)に至るまでの聞き手の頭部の音響伝達関数である。さらに、その時間的な形は「HRIR」(「Head-Related Impulse Response(頭部インパルス応答)」の省略形)と呼ばれている。このような関数は、さらにルーム効果(room effect)を備えていてもよい。
【0008】
個々の音源Siについて、2つの信号(左と右)が取得され、さらに他の音源の空間化から提供される左と右の信号に追加されることによって、最終的に聞き手の左と右の耳に送信される信号LとRを生成する。
【0009】
したがって、必要なフィルタまたは伝達関数の数は、静的バイノーラル合成では2N、動的バイノーラル合成では4Nである。ただし、Nは空間化の対象となる音源またはオーディオストリーム(audio streams)の数である。
【0010】
D. KistlerおよびF.L. Wightmanの研究「A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction」(J. Acoust. Soc. Am. 91(3): pp. 1637-1647 (1992年))、および1995年、A. Kulkamiによる「IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics」(IEEE catalog number: 95TH8144)によって、HRTFの位相が2つの項(1つは両耳間の遅延に対応し、もう1つはHRTFの絶対値(modulus)に関連付けられた最小の位相に等しい)の和の形に分解できることを確認することができた。
【0011】
したがって、HRTF伝達関数は次の式で表される。
H(f)=|H(f)|e-jφ(f)
φ(f)=φdelay(f)+φmin(f)
φdelay(f)=2πfτは両耳間の遅延に対応し、φmin(f)=H(log(|H(f)|))はフィルタHの絶対値に関連付けられた最小の位相である。
【0012】
バイノーラルフィルタの実装は、2つの最小位相フィルタと、音源から最も離れている耳に適用される左と右の遅延の差に対応する純粋遅延(pure delay)の形が一般的である。この遅延は、一般に遅延線によって導入される。
【0013】
最小位相フィルタは、有限パルス応答フィルタであり、時間ドメインまたは周波数ドメインに適用できる。無限パルス応答フィルタは、最小位相HRTFフィルタの絶対値を近似するために必要でありうる。
【0014】
バイノーラル化(binauralization)に関する限り、図1bに関連して、こうした状況は5.1モードで空間化が行われたサウンドシーンのフレームワークであり(限定はされない)、その(latter)人間HB(human being)のオーディオヘッドフォンによる再生を視野に入れている。
【0015】
5台のスピーカー、すなわちC: Center、Lf: Left front、Rf: Right front、Sl: Surround left、Sr: Surround rightのそれぞれは、人間HBがその2つのレシーバー(すなわち耳)で聞こえるサウンドを生成する。サウンドに対して行われる変換(undergone by the sound)は、このサウンドを再生するスピーカーから指定された耳までこのサウンドが伝搬する間にこのサウンドに対して行われる変更を表すフィルタリング関数によってモデル化される。
【0016】
具体的に、スピーカーLfから発生するサウンドはHRTFフィルタAを経由して左の耳(LE:left ear)に響くが、同じサウンドはHRTFフィルタBで変更されて右の耳(RE:right ear)に到達する。
【0017】
前述の個人HBに関するスピーカーの位置は、対称でもそうでなくてもよい。
【0018】
したがって、それぞれの耳は5台のスピーカーからの効果(contribution)を以下にモデル化された形で受信する。
左耳LE:Bl=ALf+CC+BRf+DSl+ESr
右耳RE:Br=ARf+CC+BLf+DSr+ESl
ただし、Blはバイノーラル化された左耳LE向けの信号であり、Brはバイノーラル化された右耳RE向けの信号である。
【0019】
フィルタA、B、C、D、およびEは、線形デジタルフィルタと図1bに示す構成で最も一般的にモデル化されており、したがって10個のフィルタリング関数を適用する必要がある(対称性を考慮すると5個に縮小できる)。
【0020】
本質的に周知であるが、前述のフィルタリング操作は、たとえばフーリエ(Fourier)ドメインで実行される高速コンボリューションによって、周波数ドメインで実行できる。ここで、バイノーラル化を効率的に実行するためにFFT(Fast Fourier Transform:高速フーリエ変換)が使用される。
【0021】
HRTFフィルタA、B、C、D、およびEは、周波数イコライザと遅延の形で簡素化することができる。HRTFフィルタAは直接パスであるため、シンプルなイコライザの形で具体化できるのに対して、HRTFフィルタBには追加の遅延が含まれる。慣例的に、HRTFフィルタは最小位相フィルタと純粋遅延に分解できる。音源に最も近い耳の遅延は、ゼロに等しく設定することができる。
【0022】
使用する送信チャネルの数を減らした3Dオーディオサウンドシーンの空間復号化による再構成(reconstruction)の操作(たとえば図1cに示すような)は、先行技術でも知られている。図1cに示す構成は、5.1空間化を行ったサウンドシーンを再構成するための、周波数ドメイン内のローカライズパラメータを備える符号化されたオーディオチャネルの復号化に関連するものである。
【0023】
前述の再構成は、たとえば図1cに示すように、周波数サブバンドによる空間復号器(spatial decoder)で実行される。符号化されたオーディオ信号mに対して空間化処理の5つのステップが行われる。こうしたステップは、複素数の空間化パラメータ、すなわちエンコーダで計算された係数CLDとICCによって制御され、非相関と利得訂正の操作によって、図1bに示される5つのチャネルに低周波数効果(low-frequency effect)のチャネルlfeを加えた6つのチャネルで構成されるサウンドシーンが実際的に再構成できるようになる。
【0024】
たとえば図1cに示すように空間復号器から提供されるオーディオチャネルのバイノーラル化を実行するのが望ましい場合は、現在のところ、実際には図1dに示すスキームに従った処理方法の実装に限定されている。
【0025】
前述のスキームに関連して、信号のバイノーラル化を実行する前に、時間ドメイン内で使用可能なオーディオチャネルの変換を実行する必要があると考えられる。こうした時間ドメインに戻すための操作は、シンセサイザブロック「Synth(synthesizer)」というシンボルで示されている。ここで、シンセサイザブロックは空間復号器(SD:spatial decoder)から提供されるチャネルのそれぞれについて、周波数-時間変換操作を実行する。これで、従来のフィルタリングに対応する等化スキーム(equalized scheme)が適用されたかどうかにかかわらず、フィルタA、B、C、D、EによってHRTFフィルタによるフィルタリングを実行できる。
【0026】
オーディオチャネルのバイノーラル化を実行する空間復号器からの1つの変形は、図1eに示すように、シンセサイザ「Synth」による時間ドメイン内のオーディオ復号器から提供された個々のオーディオチャネルを変換し、次にFFTによる変換の後にフーリエ周波数ドメインで空間復号化とバイノーラル化(すなわち空間化)の操作を実行するステップをさらに備えることができる。
【0027】
このシナリオでは、復号化の係数の行列に対応する各モジュールOTTは、こうした操作が同じドメイン内では実行されないため、近似を犠牲にしてフーリエドメインで変換する必要がある。さらに、合成操作「Synth」の後に3つのFFT変換が続くため、複雑性はさらに増大する。
【0028】
したがって、空間復号器から提供されるサウンドシーンをバイノーラル化するためには、以下のいずれかを実行する以外に考えられる方法はほとんどない。
- 6回の時間-周波数変換(空間復号器の外部でバイノーラル化を実行するのが望ましい場合)、または
- 合成操作の後に3回のFFTフーリエ変換(FFTドメインで操作を実行するのが望ましい場合)。
【0029】
図1fに示すように、サブバンドのドメイン内でHRTFフィルタリングを直接実行する必要がある場合は、これ以外の1つのソリューションを使用することもできる。
【0030】
しかし、このシナリオではHRTFフィルタリング操作を適用するのは複雑である。こうした操作によって最小の長さが固定されるサブバンドフィルタの使用を余儀なくされ、サブバンドのスペクトルエイリアシングの現象を考慮に入れる必要があるためである。
【0031】
変換操作の削減によって実現される節約は、PQMF(Pseudo-Quadrature Mirror Filter)ドメイン内でこうした操作を実行するためにフィルタリングに必要な操作の数が劇的に増加することによって相殺される。
【非特許文献1】D. KistlerおよびF.L. Wightmanの研究「A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction」(J. Acoust. Soc. Am. 91(3): pp. 1637-1647 (1992年))
【非特許文献2】1995年、A. Kulkamiによる「IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics」(IEEE catalog number: 95TH8144)
【非特許文献3】S. BussonがUniversite de la Mediterranee Est-Marseille IIにおける自らの博士論文「Individualization of acoustic indices for binaural synthesis」(2006年)
【発明の開示】
【発明が解決しようとする課題】
【0032】
本発明の目的は、3Dオーディオシーンのサウンド空間化、およびとりわけ3Dオーディオシーンのトランスオーラル化(transauralization)またはバイノーラル化のための前述の先行技術の多くの欠点を克服することである。
【0033】
特に、本発明の1つの目的は、空間復号化の周波数サブバンドのドメイン内で空間的に符号化されたオーディオ信号またはオーディオチャネルに対して固有のフィルタリングを実行することによって、変換ペアの数を制限すると同時に、フィルタリング操作を最小限まで削減しながら、とりわけトランスオーラル化またはバイノーラル化における音源空間化の品質を高く維持することである。
【0034】
本発明の特に注目に値する1つの態様により、前述の固有のフィルタリングの実行は、空間化、トランスオーラル、またはバイノーラルフィルタをサブバンドのドメイン内の、等化遅延によるフィルタリングの直接適用のためイコライザ遅延(equalizer-delay)の形でレンダリング(rendering)するステップに基づいている。
【0035】
本発明の別の目的は、変換ドメイン(transformed domain)内で従来の空間復号化の後に、複雑性がきわめて低いトランスオーラル空間処理を追加するだけで、オリジナルのHRTFフィルタのようなモデリングフィルタを使用して得られる品質に非常に近い3Dレンダリング品質を実現することである。
【0036】
本発明の最後の目的は、1つのモノフォニック(monophonic)サウンドのトランスオーラルまたはバイノーラルレンダリングだけでなく、複数のモノフォニックサウンドやとりわけ、5.1、6.1、7.1、8.1、またはそれより上のモードの複数チャネルのステレオサウンドにも適用できる新しい音源空間化技術である。
【課題を解決するための手段】
【0037】
本発明の1つの主題は、このように、指定された数の周波数サブバンドを使用して空間的に符号化されるいくつか(1つ(unity)以上)のオーディオチャネル備える第1のセットを備えており、変換ドメイン内でいくつか(2つ以上)のオーディオチャネル備える第2のセットに復号化され、第1のチャネルセットのオーディオ信号の音響伝搬(acoustic propagation)をモデル化するフィルタを使用して時間ドメイン内で再生されるオーディオシーンに対してサウンド空間化を行う方法である。
【0038】
本発明により、本方法は、変換ドメイン内に適用できる少なくとも1つの利得と1つの遅延の形に変換されるモデリングフィルタのそれぞれについて、変換ドメインの周波数サブバンドごとに、少なくとも以下を実行するステップを備えることで注目に値する。
- 利得と遅延をそれぞれサブバンド信号に適用することにより、サブバンド内の信号のイコライザ遅延(equalization-delay)によるフィルタリング。この結果、空間的に符号化されたチャネルから開始され、対象の周波数サブバンド内で、等化され、指定された値で遅延されたコンポーネントを生成する。
- 等化され、遅延されたコンポーネントのサブセットの追加。結果として、時間ドメイン内で再生される前記第2のセット内のオーディオチャネルの数(2つ以上)に対応するいくつかのフィルタリングされた信号を変換ドメイン内で作成する。
- 変換ドメイン内でフィルタリングされた各信号の合成フィルタ(synthesizing filter)による合成。結果として、時間ドメイン内で再生される2つ以上のオーディオ信号を備える第2のセットが得られる。
【0039】
本発明の主題である方法は、サブバンド信号のイコライザ遅延によるフィルタリングに、少なくとも1つの周波数サブバンドに対して少なくとも位相シフトの適用が含まれており、必要に応じてストレージによる純粋遅延の適用が含まれることでも注目に値する。
【0040】
本発明の主題である方法は、ハイブリッド(hybrid)変換ドメイン内でサブバンド信号のイコライザ遅延によるフィルタリングを実行するステップを含むことでも注目に値する。このステップは、デシメーション(decimation)が実行されたかどうかにかかわらず、追加のサブバンドへの周波数分割を実行する追加のステップを備えている。
【0041】
本発明の主題である方法は、最後に個々のモデリングフィルタをそれぞれ変換ドメイン内の利得の値と遅延の値に変換することでも注目に値する。これには、少なくとも利得の値としてサブバンドごとにこのサブバンド内のモデリングフィルタの絶対値の平均(the mean of the modulus)として定義された実数値を関連付け、遅延の値としてさまざまな位置について左耳と右耳の間の受信遅延に対応する遅延の値を関連付けるステップが含まれる。
【0042】
同様に(In a correlated manner)、本発明の別の主題は、指定された数の周波数サブバンドを使用して空間的に符号化されるいくつか(1つ以上)のオーディオチャネル備える第1のセットを備えており、変換ドメイン内でいくつか(2つ以上)のオーディオチャネル備える第2のセットに復号化され、第1のチャネルセットのオーディオ信号の音響伝搬をモデル化するフィルタを使用して時間ドメイン内で再生されるオーディオシーンに対してサウンド空間化を行うデバイスである。
【0043】
本発明により、本デバイスは、空間復号器の周波数サブバンドごとに、変換ドメイン内で、本デバイスがこの空間復号器だけでなく以下を備えていることで注目に値する。
- 利得と遅延をそれぞれサブバンド信号に適用することにより、サブバンド内の信号のイコライザ遅延によるフィルタリングを実行するモジュール。結果として、空間的に符号化された各オーディオチャネルから、対象の周波数サブバンド内で等化され、指定された値の遅延で遅延されたコンポーネントを生成する。
- 等化され、遅延されたコンポーネントのサブセットを追加するモジュール。結果として、時間ドメイン内で再生される第2のセット内のオーディオチャネルの数(2つ以上)に対応するいくつかのフィルタリングされた信号を変換ドメイン内で作成する。
- 変換ドメイン内でフィルタリングされた各信号を合成するモジュール。結果として、時間ドメイン内で再生される2つ以上のオーディオチャネルを備える第2のセットを取得する。
【0044】
本発明の主題である方法およびデバイスは、ハイファイ(hi-fi)オーディオおよび/またはビデオエレクトロニクス業界、およびローカルまたはオンラインで実行するオーディオ-ビデオゲームの業界に適用される。
【0045】
以下の説明を読み、添付の図面を(先行技術に関連する図1aから1fは別として)参照することにより、より深く理解されるであろう。
【発明を実施するための最良の形態】
【0046】
本発明の主題によるオーディオシーンのサウンド空間化の方法について、図2a以降の図面に関連付けながら、以下でより詳細に説明する。
【0047】
本発明の主題である方法は、指定された数の周波数サブバンドで空間的に符号化され、変換ドメイン内で復号化されるN(1以上、すなわちN≧1)個のオーディオチャネルを備える第1のセットで表される3Dオーディオシーンのようなオーディオシーンに適用できる。
【0048】
変換ドメインは、時間デシメーションのプロセスが実行されたかどうかにかかわらず、フーリエドメイン、PQMFドメイン、または追加の周波数サブバンドを作成することによってこれらから得られる任意のハイブリッドドメインのような変換周波数ドメインを意味すると理解される。
【0049】
したがって、第1のセットのN個のチャネルを構成する空間的に符号化されたオーディオチャネルは、限定的ではないが説明の中で前述したチャネルFl、Fr、Sr、Sl、C、lfeによって表され、説明の中で前述した対応する変換ドメインにおける3Dオーディオシーンの復号化モードに対応する。このモードは、前述の5.1モードにほかならない。
【0050】
さらに、こうした信号は復号化に固有の指定された数のサブバンドに従って前述の変換ドメイン内で復号化され、こうしたサブバンドのセットは、
【0051】
【数1】
【0052】
で表される(ただし、kは対象のサブバンドのランクを表す)。
【0053】
本発明の主題である方法により、前述の空間的に符号化されたオーディオチャネルのセットを、時間ドメイン内で再生されるいくつか(2つ以上)のオーディオチャネルを備える第2のセットに変換できる。ただし、再生オーディオチャネルは、左右のバイノーラルチャネルの場合はそれぞれBlおよびBrで表され、図2aのフレームワーク内に限定はされない。具体的に、本発明の主題である方法は、2つのバイノーラルチャネルの代わりに、2を超える任意の数のチャネルに適用でき、説明と図1bの組み合わせによって示されるように、たとえば3Dオーディオシーンのリアルタイムのサウンド再生が可能になることが理解されよう。
【0054】
本発明の主題である方法の1つの注目に値する態様により、本方法は空間的に符号化されたオーディオチャネルで交換される第1のセットのオーディオ信号の音響伝達をモデル化するフィルタを使用して実装され、説明の中で後述するように、変換ドメイン内に適用できる少なくとも1つの利得と1つの遅延の形の変換を考慮する。限定はしないが、モデリングフィルタは説明の以降の部分ではHRTFフィルタとして表されている。
【0055】
前述の変換は、個々のHRTFフィルタでランクkのサブバンドSBkについて考慮したものであり、利得の値gkと対応する遅延の値dkを指定すると、前述の変換は図2aに示すように、HRTF.≡(gk,dk)で表される。
【0056】
前述の変換について考察すると、本発明の主題である方法はランクkの変換ドメインの周波数サブバンドごとに、ステップAで利得gkと遅延dkをそれぞれサブバンド信号に適用することによってサブバンド信号のイコライザ遅延によるフィルタリングを実行し、前述の空間的に符号化されたチャネル(すなわち、チャネルFl、C、Fr、Sr、Sl、およびlfe)から、対象のランクkの周波数サブバンドSBk内で指定された値の遅延を導入して等化されたコンポーネントを生成する。
【0057】
図2aで、イコライザ遅延によるフィルタリング操作は、シンボルを使用してCEDkx={Fl,C,Fr,Sr,Sl,lfe}(gkx,dkx)と表される。
【0058】
前述のシンボルを使用した式で、FEBkxは空間的に符号化されたオーディオチャネル(すなわち、チャネルFl、C、Fr、Sr、Sl、およびlfe)のそれぞれに利得gkxと遅延dkxを適用することによって得られる等化され、遅延された各コンポーネントを表している。
【0059】
この結果として、また前述のシンボルを使用した式で、xは対応するランクkのサブバンドに関して、実際にFl、C、Fr、Sr、Sl、およびlfeの値をとることができる。
【0060】
ここで、変換ドメイン内でステップAに続いて、ステップBで等化され、遅延されたコンポーネントのサブセットが追加され、時間ドメイン内で再生される第2のセット内のオーディオチャネルの数N'(2以上)に対応するいくつかのフィルタリングされた信号が変換ドメイン内で作成される。
【0061】
図2aのステップBで、追加の操作はシンボルを使用した式で表される。
F{Fl,C,Fr,Sr,Sl,lfe}=ΣCEDkx
【0062】
前述のシンボルを使用した式で、F{Fl,C,Fr,Sr,Sl,lfe}は等化され、遅延されたコンポーネントCEDkxのサブセットを合計することによって得られる変換ドメイン内でフィルタリングされた信号のサブセットを表している。
【0063】
限定的ではない説明のための例として、空間的に符号化されたいくつかのオーディオチャネル(N=6、5.1モードに対応する)を備える第1のセットで、等化され、遅延されたコンポーネントのサブセットは、説明の中で以降に詳述するように、こうした等化され、遅延されたコンポーネントをそれぞれの耳に5個ずつ追加し、変換ドメイン内でフィルタリングされたN'個(2に等しい)の信号を取得する。
【0064】
前述の追加のステップBの後には、さらに変換ドメイン内で合成フィルタによってフィルタリングされた各信号を合成し、時間ドメイン内で再生されるN'(2以上)個のオーディオ信号を備える第2のセットを取得するステップCが続いている。
【0065】
図2aのステップCで、対応する合成の操作はシンボルを使用した式で次のように表される。
Bl,Br=Synth(F{Fl,C,Fr,Sr,Sl,lfe})
【0066】
一般的に、本発明の主題である方法は、N'(2から無限大まで変化する)個の再生オーディオチャネルとなる空間的に符号化されたN(1から無限大まで変化する)個のオーディオパスまたはチャネルで構成される任意の3Dオーディオシーンに適用できることが示されている。
【0067】
図2aのステップBで表される合計のステップに関する限り、より具体的に、このステップは異なる遅延を導入された、遅延の異なるコンポーネントのサブアセンブリ(sub-assembly)を加えることによって、サブバンドごとにN'個のコンポーネントを生成すると言われている。
【0068】
より具体的には、サブバンド信号のイコライザ遅延によるフィルタリングには、少なくとも位相シフトの適用完了が含まれ、場合によっては少なくとも1つの周波数サブバンドに対してストレージによる純粋遅延の適用が含まれると言われている。
【0069】
純粋遅延の適用の表記は、図2aのステップAに式gEx=1で示されている。これは、ランクk=Eのサブバンド内のインデックスxのオーディオチャネルのセットに対して等化が実行されていないことを示しており、値1は空間的に符号化されたオーディオチャネルのそれぞれを振幅の変更なしに送信することを示している。
【0070】
変換ドメインは、説明の中で前述したように、対応するサブバンドに周波数デシメーションが適用されない場合は、図2bに関連して説明するハイブリッド変換ドメインに対応することができる。
【0071】
前述の図2bに関連して、図2aのステップAとして示されるイコライザ遅延によるフィルタリングは、図2bに示される3つのサブステップA1、A2、A3で実行される。
【0072】
このような条件の下で、ステップAは追加のサブバンドへのデシメーションを伴わない周波数分割を実行することによって適用される利得の値、したがって周波数の精度を高めるための追加のステップと、これに続いて前述の利得の値が適用された追加のサブバンドを再結合するステップとを備えている。
【0073】
周波数分割とそれに続く再結合の操作は、図2bのサブステップA1とA2で示されている。
【0074】
周波数分割のステップは、サブステップA1に次の式で示されている。
【0075】
【数2】
【0076】
再結合のステップは、サブステップA2に次の式で示されている。
【0077】
【数3】
【0078】
サブステップA1で、対象のランクkのサブバンドの利得と遅延の値は対応する利得の値Z(追加の各サブバンドごとに1つの利得の値gkZ)に細分されることが理解されよう。また、サブステップA2で、当該追加のサブバンド内で利得の値gkZが適用された対応するインデックスxの対応する符号化されたオーディオチャネルを使用して、追加のサブバンドの再結合が実行されることが理解されよう。
【0079】
上の式で、
【0080】
【数4】
【0081】
は当該追加のサブバンド内で利得の値が適用された追加のサブバンドの再結合を示している。
【0082】
サブステップA2に続き、サブステップA3で、次に再結合された追加のサブバンドに遅延が適用され、特に対応するインデックスxの空間的に符号化されたオーディオチャネルに対して、図2aのステップAと同様にして遅延dkxが適用される。
【0083】
対応する操作は次の式で表される。
【0084】
【数5】
【0085】
さらに、本発明の主題である方法は、図2cに示すように、デシメーションを伴う追加のサブバンドへの周波数分割を行う追加のステップを備えるハイブリッド変換ドメイン内でサブバンド信号のイコライザ遅延によるフィルタリングを実行するステップを備えることもできる。
【0086】
このシナリオで、図2cのステップA'1は図2bのステップA1と同等であり、デシメーションを伴う追加のサブバンドの作成を実行する。
【0087】
このシナリオでは、図2cのステップA'1のデシメーション操作が時間ドメイン内で実行される。
【0088】
ここで、ステップA'1の後に、デシメーションを考慮して前述の利得の値が適用される追加のサブバンドの再結合に対応するステップA'2が続いている。
【0089】
再結合のステップA'2は、ステップA'2とA'3の交換を表す両側矢印で示されるように、それ自体が遅延dkxの適用の前または後に実行される。
【0090】
具体的には、再結合の前に遅延の適用が実行される場合は、再結合の前に追加のサブバンドの信号に直接遅延が適用されることが理解されよう。
【0091】
個々のHRTFフィルタから変換ドメイン内の利得の値と遅延の値への変換に関する限り、この操作は利得の値として、対応するHRTFフィルタの絶対値の平均(mean of the modulus)で定義される実数値をランクkの各サブバンドに関連付け、有利には、遅延の値として、さまざまな位置にいる聞き手の左耳と右耳との間の伝搬遅延に対応する遅延の値をランクkの各サブバンドに関連付ける。
【0092】
したがって、HRTFフィルタを使用すると、サブバンドに適用される利得と遅延時間を自動的に計算することができる。HRTFフィルタバンクの周波数分解能(frequency resolution)に基づいて、さまざまな場所にいる聞き手の左耳と右耳の間の伝搬遅延に対応する遅延の値が個々のサブバンドSBkに関連付けられる。
【0093】
このように、HRTFフィルタを使用すると、サブバンドに適用される利得と遅延時間を自動的に計算することができる。
【0094】
フィルタバンクの周波数分解能に基づいて、個々のバンドに実数値が関連付けられる。限定的でない例として、HRTFフィルタの絶対値から開始され、各サブバンドの前述のHRTFフィルタの絶対値の平均を計算することができる。こうした操作は、HRTFフィルタのオクターブ(octave)またはBark帯域分析と同様である。同様に、間接チャネルに適用される遅延が決定される。換言すると、遅延が最小でないチャネルに特に適用できる遅延の値である。両耳間の(interaural)遅延を自動的に決定するにはさまざまな方法がある。この遅延は、ITD(Interaural Time Difference)とも呼ばれ、さまざまな位置にいる聞き手の左耳と右耳の間の遅延に対応する。限定的でない例として、S. BussonがUniversite de la Mediterranee Est-Marseille IIにおける自らの博士論文「Individualization of acoustic indices for binaural synthesis」(2006年)で説明するしきい値法を使用してもよい。この方法で両耳間のしきい値型の遅延を推定する原理は、波の到着時間またはその代わりに最初の遅延(initial delay)(右耳でTd、左耳でTg)を確認することである。最初の両耳間の遅延は次の式で表される。
ITDしきい値=Td-Tg
【0095】
最もよく使用される方法では、HRIR時間フィルタが指定されたしきい値を超えた瞬間として到着時間を推定する。たとえば、到着時間はHRIRフィルタの応答がその最大値の10%に到達する時間に対応してもよい。
【0096】
ここで、PQMF変換ドメインにおける特定の実装の1つの例を以下に示す。
【0097】
一般的に、複素数のPQMFドメイン内で利得を適用するとは、複素数値で表現されるサブバンド信号の各サンプルの値に実数で表現される利得の値を乗じることであることが示されている。
【0098】
実際に、複素数のPQMF変換ドメインを使用すると、利得を適用するときに、フィルタのバンクに固有のアンダーサンプリング(under-sampling)によって生成されるスペクトルエイリアシング(aliasing)の問題を回避することができることがよく知られている。次いで、各チャネルの各サブバンドSBkの所定の利得が割り当てられる。
【0099】
さらに、PQMF変換ドメインにおける遅延の適用は、少なくとも、複素数値で表現されるサブバンド信号のサンプルごとに、対象のサブバンドのランク、対象のサブバンドのアンダーサンプリングレート、および聞き手の両耳間の遅延の差に関連する遅延パラメータの関数である複素数の指数値をこのサンプルに乗じることによって複素平面内の回転を導入する。
【0100】
複素平面内の回転に続いて、サンプルの純粋時間遅延が導入される。こうした純粋時間遅延は、聞き手の両耳間の遅延の差、および対象のサブバンドのアンダーサンプリングレートの関数である。
【0101】
事実上、前述の遅延は結果として得られた信号、すなわち等化された信号、特にこうした信号またはチャネルの直接パスから恩恵を受けないサブセットに適用されることが示されている。
【0102】
具体的には、回転は次の形の指数値による複素数の乗算の形で実行され、
exp(-j*pi*(k+0.5)*d/M)
さらに、遅延線によって純粋遅延が導入される。たとえば、次の操作を実行する。
y(k,n)=x(k,n-D)
【0103】
上の式で、
- expは指数関数
- jはj*j=-1
- kは対象のサブバンドSBkのランク
- Mは対象のサブバンドのアンダーサンプリングレート。たとえば、M=64とする。
- y(k,n)は、ランクkのサブバンドSBkのランクnの時間サンプルに純粋遅延を適用した後の出力サンプルの値、すなわちサンプルx(k,n)に遅延Bを適用した値である。
- 上の式で、dおよびDはアンダーサンプリングされない時間ドメインにおける遅延D*M+dの適用に対応する値である。遅延D*M+dは、前に計算された両耳間の遅延に対応する。dは負の値をとることができる。これによって遅延に代わる位相前進のシミュレーションが可能になる。
【0104】
このように、実行される操作によって、求められる効果に見合う近似が得られる。
【0105】
計算の観点では、実行された処理によって、複素数の指数と複素数値で構成されるサブバンドのサンプルとの間で複素数の乗算が実行される。
【0106】
適用される総合遅延(total delay)が値Mを超える場合は、遅延が導入される可能性があるが、こうした操作は算術演算を含まない。
【0107】
本発明の主題である方法は、ハイブリッド変換ドメインにも実装できる。こうしたハイブリッド変換ドメインは、デシメーションが実行されたかどうかにかかわらず、PQMFバンドがフィルタのバンクで再分割されるのが有利な周波数ドメインである。
【0108】
フィルタのバンクに対してデシメーションが実行される場合は(デシメーションは時間デシメーションと理解される)、純粋遅延と位相シフトを含む手順に続いて遅延の導入を実行するのが有利である。
【0109】
フィルタのバンクに対してデシメーションが実行されない場合は、合成の間に1度だけ遅延を適用できる。合成は線形の操作であるため、アンダーサンプリングがない場合は、分岐のそれぞれに同じ遅延を適用するのは全く無意味である。
【0110】
利得の適用は同等のままであり、たとえば図2bに関連してすでに説明したように、これは非常に数が多く、したがってその後に高精度の周波数分割が可能になる。ここで、追加のサブバンドあたり1つの実数の利得が適用される。
【0111】
最後に、1つの変形の実施形態により、本発明による方法は少なくとも2つのイコライザ遅延のペアについて反復され、取得された信号が合計されて時間ドメイン内でオーディオチャネルが取得される。
【0112】
ここで、本発明の目的により、指定された数の周波数サブバンドを使用して空間的に符号化されたいくつか(1つ以上)のオーディオチャネル備える第1のセットを備えており、変換ドメイン内でいくつか(2つ以上)のオーディオチャネル備える第2のセットに復号化され、時間ドメイン内で再生されるオーディオシーンに対してサウンド空間化を行うデバイスについてより詳細な説明を、図3aおよび3bに関連して説明する。
【0113】
前述のように、本発明の主題であるデバイスは、前述の第1のセットのチャネルのオーディオ信号の音響伝達をモデル化するフィルタの変換ドメイン内で適用できる少なくとも1つの利得と1つの遅延の形への変換の原理に基づいている。本発明の主題であるデバイスにより、3Dオーディオシーンのようなオーディオシーンに対して、時間ドメイン内で再生されるいくつか(2つ以上)のオーディオチャネルを備える第2のセットへのサウンド空間化が可能になる。
【0114】
図3aに示す本発明の主題であるデバイスは、変換ドメイン内で復号化するための本デバイスのステージに関連する。このステージは、ランクkの個々のサブバンドSBkに固有である。
【0115】
具体的に、図3aに示すランクkの個々のサブバンドのステージは、実際にサブバンドのそれぞれに複製され、最終的に本発明の主題によるサウンド空間化のデバイスを構成することが理解されよう。
【0116】
慣例により、図3aに示すステージをこれ以降は本発明の主題であるサウンド空間化デバイスと呼ぶものとする。
【0117】
前述の図に関連して、図3aに示すような本発明の主題であるデバイスは、図示される空間復号器はさておき、図1cに示すような先行技術による空間復号器SDに実質的に対応するモジュールOTT0からOTT4(ただし、先行技術においてそれ自体が周知であるように、加算器(summer)Sによって前面チャネルCと低周波数チャネルlfeの合計も適用される)と、利得と遅延をそれぞれサブバンド信号に適用することによるサブバンド信号のイコライザ遅延によってフィルタリングを行うモジュール1とを備えている。
【0118】
図3aで、利得の適用は空間的に符号化されたオーディオチャネルのそれぞれに対して図示されており(増幅器l0からl8で表される)、これで等化されたコンポーネントが生成され、遅延要素(l9からl12で表される)による遅延は適用されてもされなくてもよいが、空間的に符号化された個々のオーディオチャネルから、周波数サブバンドSBk内で等化され、指定された遅延の値で遅延されたコンポーネントが生成される。
【0119】
図3aを参照すると、増幅器l0からl8の利得は、それぞれ任意の値A、B、B、A、C、D、E、E、Dをとっている。さらに、遅延モジュールl9からl12によって適用される遅延の値は、値Df、Bf、Ds、Dsをとる。上の図で、導入される利得と遅延の構造は対称である。本発明の主題の範囲を逸脱することなく非対称の構造を実装することもできる。
【0120】
本発明の主題であるデバイスは、等化され、遅延されたコンポーネントのサブセットを追加するモジュール2をさらに備えており、変換ドメイン内で第2のセット内の時間ドメイン内で再生されるオーディオチャネルの数N'(2以上)に対応するいくつかのフィルタリングされた信号を作成する。
【0121】
最後に、本発明の主題であるデバイスは、変換ドメイン内でフィルタリングされた各信号を合成するモジュール3を備えており、時間ドメイン内で再生される特定の数N'(2以上)個のオーディオ信号を備える第2のセットを取得する。このように、合成モジュール3は、図3aに示す実施形態では、それぞれオーディオ信号を時間ドメイン内で再生できるシンセサイザ30および31を備えており、左のバイノーラル信号B1および右のバイノーラル信号Brが提供される。
【0122】
図3aに示す実施形態では、等化され、遅延されたコンポーネントは以下のようにして得られる。
- A[k]はランクkのサブバンドSBkの増幅器l0およびl3の利得
- B[k]は図3aに示す増幅器l1およびl2の利得
- C[k]は増幅器l4の利得
- D[k]は増幅器l5、l8の利得
- E[k]は増幅器l6、l7の利得
【0123】
空間的に符号化されたオーディオチャネル、また具体的にサブバンドSBkのこうしたチャネルFl、Fr、C、lfe、Sl、およびSrに関する限り、サブバンドSBkのn番目のサンプルは、Fl[k][n]、Fr[k][n]、Fc[k][n]、lfe[k][n]、Sl[k][n]、Sr[k][n]で表される。このようにして、各増幅器l0からl8は以下の等化されたコンポーネントを正常に提供する。
- A[k]*Fl[k][n]
- B[k]*Fl[k][n]
- B[k]*Fr[k][n]
- A[k]*Fr[k][n]
- C[k]*Fc[k][n]
- D[k]*Sl[k][n]
- E[k]*Sl[k][n]
- E[k]*Sr[k][n]
- D[k]*Sr[k][n]
【0124】
上の操作は、説明の中で前述したように、実数の乗算の形で実行されるが、この場合は複素数に対して実行される。
【0125】
遅延要素l9、l10、l11、およびl12で導入される遅延が前述の等化されたコンポーネントに適用され、等化され、遅延されたコンポーネントが生成される。
【0126】
図3aに示す例では、こうした遅延が直接パスから恩恵を受けないサブセットに適用される。図3aに関する説明では、これらは増幅器または乗算器l1、l2、l6、およびl7によって適用される利得B[k]およびE[k]を乗じられる信号である。
【0127】
たとえば乗算増幅器(multiplier amplifier)l1と遅延要素l9で構成されるイコライザ遅延によるフィルタまたはフィルタリング要素に関するより詳細な説明は、図3bに関連して以下に示されている。
【0128】
利得の適用に関する限り、図3bに示す対応するフィルタリング要素はデジタル乗算器、すなわち乗算増幅器l0からl8のいずれかを備えており(図3bでは利得の値gkxが示されている)、この乗算器によってチャネルFl、Fr、C、lfe、Sl、またはSrに対応するインデックスxの符号化された各オーディオチャネルの任意の複素数のサンプルを実数値すなわち説明の中で前述した利得の値に乗じることができることが示されている。
【0129】
さらに、図3bに示す対応するフィルタリング要素は少なくとも1つの複素デジタル乗算器(complex digital multiplier)を備えており、サブバンド信号の任意のサンプルの複素平面内に回転を導入でき、複素指数関数の値exp(-jφ(k, SSk))を乗じることができる。ただし、φ(k,SSk)は位相の値を表しており、対象のサブバンドのアンダーサンプリングレートおよび対象のサブバンドのランクkの関数である。
【0130】
1つの実施形態において、φ(k,SSk)=φ*(k+0.5)*d/Mである。
【0131】
複素デジタル乗算器に続いて、遅延線(D.L.で表される)によって回転後の各サンプルに純粋遅延が導入され、聞き手の両耳間の遅延の差、および対象のサブバンドSBkのアンダーサンプリングレートMの関数である純粋時間遅延を導入することができる。
【0132】
このようにして、遅延線D.L.によって回転後の複素数のサンプル(y(k,n) = x(k,n-D)の形)に対して遅延を導入することができる。
【0133】
最後に、dおよびDの値はサンプリングされない時間ドメイン内での遅延D*M+dの適用に対応する値であり、遅延D*M+dは前述の両耳間の遅延に対応することが示されている。
【0134】
本発明の主題であるデバイス(たとえば、図3aに示すようなデバイス)の実装では、信号Fr[k][n]に利得B[k]を乗じてから遅延を導入することを確認できる。これは、本発明の主題による1つの注目に値する態様により、この信号に複素数の利得を乗じた値になる。利得B[k]と複素指数関数の積は、すべてに対して一度実行できるので、連続するサンプルFr[k][n]ごとに補数演算を実行する必要はない。等化され、遅延されたコンポーネントは左がL0からL4、右がR0からR4で示されており、それぞれ加算器モジュール20および21と組み合わせて図示されている。ここで、以下の式を確認する。
【0135】
表T
LO[k][n]=A[k]Fl[k][n]
RO[k][n]=B[k]Fl[k][n] Dfサンプルによる遅延
R1[k][n]=A[k]Fr[k][n]
L1[k][n]=B[k]Fr[k][n] Dfサンプルによる遅延
L2[k][n]=R2[k][n]=C[k](Fc[k][n]+lfe[k][n])
L3[k][n]=D[k]Sl[k][n]
R3[k][n]=E[k]Sl[k][n] Dsサンプルによる遅延
R4[k][n]=D[k]Sr[k][n]
L4[k][n]=E[k]Sr[k][n] Dsサンプルによる遅延
【0136】
時間ドメイン内で再生するオーディオチャネル、すなわちそれぞれ図3aに示すチャネルB1(左)およびチャネルBr(右)、すなわち図3aに示す実施形態のバイノーラル信号を取得するために、ランクnの各サンプルについて等化され、遅延された空間コンポーネントが追加される。つまり、以下のコンポーネントが追加される。
LO[k][n]+L1[k][n]+L2[k][n]+L3[k][n]+L4[k][n](加算器モジュール20の場合)
RO[k][n]+R1[k][n]+R2[k][n]+R3[k][n]+R4[k][n](加算器モジュール21の場合)
【0137】
加算器モジュール20および21から得られる信号は、ここでそれぞれ合成フィルタバンク30および31を経由して、時間ドメイン内のバイノーラル信号それぞれB1およびBrが提供される。
【0138】
これで、前述の信号はデジタルアナログコンバータを提供でき、左のサウンドB1および右のサウンドBrをたとえばオーディオヘッドフォンのペアから聞くことができる。
【0139】
合成モジュール30および31で実行される合成操作には、必要に応じて説明の中で前述したようなハイブリッド合成操作が含まれる。
【0140】
本発明の主題である方法は、さまざまな数の周波数サブバンドに対して実行できる等化および遅延の操作を分離できるのが有利である。1つの変形として、たとえば、等化をハイブリッドドメインで実行し、遅延をPQMFドメインで実行してもよい。
【0141】
本発明の主題である方法およびデバイスは、6つのチャネルからヘッドフォンペアへのバイノーラル化に関して説明されているが、トランスオーラル化すなわちスピーカーのペア上での3Dサウンドフィールド(sound field)の再生を実行するため、またはあまり複雑でない方法で1つの空間復号器または複数のモノフォニック復号器から提供されるN個のオーディオチャネルまたは音源の表現を、再生に使用できるN'個のオーディオチャネルに変換するためにも使用できることは理解されよう。必要に応じて、フィルタリング操作を追加してもよい。
【0142】
非限定的な補足の例として、本発明の主題である方法およびデバイスは、さまざまな物体または音源から発生するサウンドを伴う3Dによる双方向型のゲーム(interactive game)の事例にも適用できる。これらは、聞き手に関する相対的な位置の関数として空間化することができる。サウンドサンプルは、圧縮してさまざまなファイルまたはさまざまなメモリ領域に格納される。サンプルは、再生され空間化されるために、部分的に復号化されることで符号ドメインにとどまり、符号ドメイン内で前述の本発明の主題による方法を使用して適切なバイノーラルフィルタでフィルタリングされるのが有利である。
【0143】
実際に、復号化と空間化の操作を結合することによって、全体的なプロセスの複雑性は大幅に低下するが、結果として品質が低下することはない。
【0144】
最後に、本発明は記憶媒体に格納され、コンピュータまたは専用のサウンド空間化デバイスによって実行される一連の命令を備えるコンピュータプログラムを対象とする。こうした実行の間に、図2aから2c、および3a、3bに関連して説明の中ですでに説明したように、フィルタリング、追加、合成のステップが実行される。
【0145】
具体的に、すでに説明した図面に示す操作は、中央処理装置、作業用メモリ、およびプログラムメモリ(図3aには示されていない)によって複素数のデジタルサンプルに対して実行できるのが有利であることは理解されよう。
【0146】
最後に、図4に関連して以下で説明するように、イコライザ遅延フィルタを構成する利得と遅延の計算は、本発明の主題であるデバイス(図3aおよび3bに示す)の外部で実行してもよい。
【0147】
前述の図4に関連して、空間符号化およびデータレート削減(data rate reduction)による符号化を行う第1のユニットI(図3aおよび3bに示すような本発明の主題であるデバイスを含む)について考察する。たとえば、5.1モードのオーディオシーンから開始して、前述の空間符号化を実行し、復号化および空間復号化ユニットIIに向けて、一方では符号化されたオーディオを送信し、他方では空間パラメータを送信することができる。
【0148】
ここで、イコライザ遅延フィルタの計算を個別のユニットIIIで実行できる。このユニットでは、モデリングフィルタ、HRTFフィルタを使用して利得等化(gain equalization)および遅延の値を計算し、こうした値を空間符号化ユニットIおよび空間復号化ユニットIIに送信する。
【0149】
したがって、空間符号化はHRTFを考慮に入れることができ、その空間パラメータを修正して3Dレンダリングを改善することができる。同様に、データレート削減による符号器でこうしたHRTFを使用できるので、周波数量子化(quantization)の可聴効果(audible effects)を評価することができる。
【0150】
復号化のステップで、空間符号器に適用され、必要に応じて再生されたチャネルを再構成できるようにするのは送信されたHRTFである。
【0151】
前述の例では5つのチャネルから開始して2つのチャネルが再生されるが、他の事例では上記のように3つのチャネルから開始した5つのチャネルの構成を含めてもよい。ここで、次のように空間復号化の方法を適用できる。
- 受信した3つのチャネルを仮想チャネルのセットに空間情報(upmix)を使用して射影(5つを超える出力チャネル)
- HRTFを使用して仮想チャネルを5つの出力チャネルに削減する。
【0152】
符号器にHRTFが適用された場合は、オプションでupmixの前にその効果を除去して以上のスキームを実行することもできる。
【0153】
変換後のHRTFは利得/遅延の形であり、以下の形に量子化されるのが好ましい。その値の差分モード(differential mode)で符号化してからその差分を量子化し、イコライザの利得の値がG[k]で表される場合に、量子化された値は次のようになる。
e[k]=G[k+l]-G[k]
これが線形または対数で送信される。
【0154】
より具体的には、前述の図4に関連して、本発明の主題であるデバイスおよび方法によって実装されるプロセスにより、第1のセットは指定された数の空間的に符号化されたオーディオチャネルを備えており、第2のセットは時間ドメイン内で再生されるより少ない数のオーディオチャネルを備えるオーディオシーンのサウンド空間化が可能になる。さらに、空間的に符号化されたいくつかのオーディオチャネルから時間ドメイン内で再生されるオーディオチャネルの数以上のオーディオチャネルを備えるセットへの逆変換も復号が実行できるようになる。
【図面の簡単な説明】
【0155】
【図1a】従来技術の図である。
【図1b】従来技術の図である。
【図1c】従来技術の図である。
【図1d】従来技術の図である。
【図1e】従来技術の図である。
【図1f】従来技術の図である。
【図2a】本発明の主題であるサウンド空間化の方法を実施する手順を説明のために示す流れ図である。
【図2b】図2aに示す本発明の主題である方法の1つの変形の実施形態であり、デシメーションを実行しない場合に追加のサブバンドを作成することによって得られる方法を説明のために示す図である。
【図2c】図2aに示す本発明の主題である方法の1つの変形の実施形態であり、デシメーションを実行する場合に追加のサブバンドを作成することによって得られる方法を説明のために示す図である。
【図3a】本発明の主題であるサウンド空間化のデバイスにおいて、空間復号器の1つの周波数サブバンドのステージを説明のために示す図である。
【図3b】図3aに示す本発明の主題であるデバイスを実装できるイコライザ遅延フィルタの詳細な実装を説明のために示す図である。
【図4】イコライザ遅延フィルタの計算が非局在化された(delocalized)本発明の主題であるデバイスの1つの例示的な実施形態を説明のために示す図である。
【符号の説明】
【0156】
HRTF-l 左の音響伝達関数
HRTF-r 右の音響伝達関数
Si 音源
L 聞き手の左の耳に送信される信号
R 聞き手の右の耳に送信される信号
HB 人間
C スピーカー(Center)
Lf スピーカー(Left front)
Rf スピーカー(Right front)
Sl スピーカー(Surround left)
Sr スピーカー(Surround right)
LE 左の耳
RE 右の耳
Bl バイノーラル化された左耳LE向けの信号
Br バイノーラル化された右耳RE向けの信号
A、B、C、D、E フィルタ
m 符号化されたオーディオ信号
CLD、ICC エンコーダで計算された係数
lfe 低周波数効果のチャネル
Synth シンセサイザブロック
SD 空間復号器
OTT 復号化の係数の行列に対応するモジュール
SBk HRTFフィルタでランクkのサブバンド
gk 利得の値
dk 遅延の値
A、B、C ステップ
A1、A2、A3 サブステップ
A1'、A2'、A3' ステップ
1 フィルタリングモジュール
l0からl8 増幅器
l9からl12 遅延モジュール
D.L. 遅延線
2 追加モジュール
20、21 加算器モジュール
Df、Bf、Ds、Ds 遅延の値
3 合成モジュール
30、31 合成フィルタバンク(シンセサイザ)
I 符号化および空間符号化ユニット
II 復号化および空間復号化ユニット
III イコライザ遅延フィルタ計算ユニット
【特許請求の範囲】
【請求項1】
指定された数の周波数サブバンドを使用して空間的に符号化されたいくつか(1つ以上)のオーディオチャネルを備える第1のセットを備えるオーディオシーンの音声空間化の方法であって、前記第1のセットは変換ドメイン内でいくつか(2つ以上)のオーディオチャネルを備える第2のセットに復号化され、前記第2のセットは時間ドメイン内で前記第1のチャネルセットのオーディオ信号の音響伝達をモデル化するフィルタを使用して再生され、前記変換ドメイン内で適用可能な少なくとも1つの利得と1つの遅延に変換されるモデリングフィルタのそれぞれについて、前記方法は、前記変換ドメインの周波数サブバンドごとに、少なくとも、
前記空間的に符号化されたチャネルから開始して、前記対象の周波数サブバンド内で等化され、指定された遅延の値で遅延されたコンポーネントを生成するために、前記サブバンド信号に利得と遅延をそれぞれ適用することによって、前記サブバンド内の信号のイコライザ遅延によるフィルタリングを実行するステップと、
前記時間ドメイン内で再生する前記第2のセット内の2つ以上のオーディオチャネルの数に対応するフィルタリングされたいくつかの信号を前記変換ドメイン内で作成するために、等化され、遅延されたコンポーネントのサブセットの追加を実行するステップと、
前記時間ドメイン内で再生する2つ以上のオーディオチャネルを備える第2のセットを取得するために、前記変換ドメイン内で前記フィルタリングされた信号のそれぞれについて合成フィルタによる合成を実行するステップとを含むことを特徴とする方法。
【請求項2】
前記サブバンド信号の前記イコライザ遅延によるフィルタリングを実行するステップは、前記周波数サブバンドの少なくとも1つに対して少なくとも前記位相シフトの適用を実行するステップを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記イコライザ遅延によるフィルタリングを実行するステップは、前記周波数サブバンドの少なくとも1つに対するストレージによる純粋遅延をさらに含むことを特徴とする請求項2に記載の方法。
【請求項4】
ハイブリッド変換ドメイン内で前記イコライザ遅延によるフィルタリングを実行するステップは、前記適用される利得の値の数を増大するためにデシメーションを実行せずに追加のサブバンドへの周波数分割を実行する追加のステップと、これに続く前記利得の値が適用された前記追加のサブバンドを再結合してから前記遅延を適用するステップとを備えることを特徴とする請求項1から3のいずれか一項に記載の方法。
【請求項5】
ハイブリッド変換ドメイン内で前記イコライザ遅延によるフィルタリングを実行するステップは、前記適用される利得の値の数を増大するためにデシメーションを伴って追加のサブバンドへの周波数分割を実行する追加のステップと、その後に続く前記利得の値が適用された前記追加のサブバンドを再結合するステップとを備えており、前記再結合するステップはそれ自体が前記遅延の適用の前または後であることを特徴とする請求項1から3のいずれか一項に記載の方法。
【請求項6】
前記変換ドメイン内で個々のモデリングフィルタをそれぞれ利得の値と遅延の値に変換するために、少なくとも、
利得の値としてサブバンドごとに前記モデリングフィルタの絶対値の平均として定義された実数値を関連付けるステップと、
遅延の値としてサブバンドごとにさまざまな位置に関する左耳と右耳の間の伝搬遅延に対応する遅延の値を関連付けるステップとを含むことを特徴とする請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記PQMFドメイン内で利得を適用するステップは、複素数値で表現される前記サブバンド信号の各サンプルの値に、実数で構成される前記利得の値を乗じるステップを含むことを特徴とする請求項1から3または6(請求項4と5を除く)のいずれか一項に記載の方法。
【請求項8】
前記PQMFドメイン内で利得を適用するステップは、少なくとも、複素数値で表現される前記サブバンド信号のサンプルごとに、
前記対象のサブバンドの前記ランク、前記対象のサブバンドの前記アンダーサンプリングレート、および前記聞き手の両耳間の遅延の差に関連する遅延パラメータの関数である複素数の指数値を前記サンプルに乗じることによって前記複素平面内の回転を導入するステップと、
前記回転後のサンプルに純粋時間遅延を導入し、前記純粋時間遅延は聞き手の両耳間の前記遅延の差、および前記対象のサブバンドの前記アンダーサンプリングレートの関数であるステップを含むことを特徴とする請求項1から3または6または7(請求項4と5を除く)のいずれか一項に記載の方法。
【請求項9】
前記第1のセットは5.1モードで空間的に符号化されたN=6のオーディオチャネルを備えるオーディオシーンのバイノーラルサウンド空間化を実行するために、前記第2のセットは前記時間ドメイン内で再生され、オーディオヘッドフォンのペアで再生される2つのオーディオチャネルを備えることを特徴とする請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記方法は少なくとも2つのイコライザ遅延のペアについて反復され、前記取得された信号は前記時間ドメイン内で前記オーディオチャネルを取得するために合計されることを特徴とする請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記第1のセットは空間的に符号化された所定の数のオーディオチャネルを備えており、前記第2のセットは前記時間ドメイン内で再生されるより少ない数のオーディオチャネルを備えるオーディオシーンのサウンド空間化を実行するために、前記復号化において、空間的に符号化されたいくつかのオーディオチャネルから前記時間ドメイン内で再生されるオーディオチャネルの数以上のオーディオチャネルを備えるセットへの逆変換を実行するステップを含むことを特徴とする請求項1から9のいずれか一項に記載の方法。
【請求項12】
前記モデリングフィルタに関連付けられた前記利得と遅延の値は量子化された形で送信されることを特徴とする請求項1から11のいずれか一項に記載の方法。
【請求項13】
指定された数の周波数サブバンドを使用して空間的に符号化されたいくつか(1つ以上)のオーディオチャネルを備える第1のセットを備えるオーディオシーンの音声空間化のデバイスであって、前記第1のセットは変換ドメイン内でいくつか(2つ以上)のオーディオチャネルを備える第2のセットに復号化され、前記第2のセットは前記時間ドメイン内で前記第1のチャネルセットの前記オーディオ信号の音響伝達をモデル化するフィルタを使用して再生され、空間符号器の周波数サブバンドごとに、前記変換ドメイン内で、前記デバイスは、前記空間符号器だけでなく、
前記空間的に符号化されたオーディオチャネルから、前記対象の周波数サブバンド内で等化され、指定された遅延の値で遅延されたコンポーネントを生成するために、前記サブバンド信号に少なくとも1つの利得と遅延をそれぞれ適用することによって、前記サブバンド内の信号のイコライザ遅延によるフィルタリングを実行する手段と、
前記時間ドメイン内で再生する前記第2のセット内の2つ以上のオーディオチャネルの数に対応するフィルタリングされたいくつかの信号を前記変換ドメイン内で作成するために、等化され、遅延されたコンポーネントのサブセットの追加を実行する手段と、
前記時間ドメイン内で再生する2つ以上のオーディオ信号を備える前記第2のセットを取得するために、前記変換ドメイン内で前記フィルタリングされた信号のそれぞれについて合成フィルタによる合成を実行する手段とを含むことを特徴とするデバイス。
【請求項14】
前記利得の適用によってフィルタリングを実行する手段は、空間的に符号化された個々のオーディオチャネルの任意の複素数のサンプルに実数値を乗じるためのデジタル乗算器を備えることを特徴とする請求項13に記載のデバイス。
【請求項15】
前記遅延の適用によってフィルタリングを実行する手段は、前記サブバンド信号の任意のサンプルについて前記複素平面内の回転を導入できるようにする、前記対象のサブバンドの前記ランク、前記対象のサブバンドの前記アンダーサンプリングレート、および前記聞き手の両耳間の遅延の差に関連する遅延パラメータの関数である複素数の指数値を前記サブバンド信号の任意のサンプルに乗じるための少なくとも1つの複素デジタル乗算器を備えることを特徴とする請求項13または14のいずれか一項に記載のデバイス。
【請求項16】
前記フィルタリングを実行する手段は、前記聞き手の両耳間の前記遅延の差、および前記対象のサブバンドの前記アンダーサンプリングレートの関数である純粋時間遅延を導入できる、回転後の各サンプルに対する純粋遅延線をさらに備えることを特徴とする請求項15に記載のデバイス。
【請求項17】
記憶媒体に格納され、コンピュータまたは専用のデバイスによって実行される一連の命令を備えるコンピュータプログラムであって、こうした実行の間に前記プログラムは請求項1から12のいずれか一項に記載の、前記フィルタリング、追加、合成のステップが実行されることを特徴とするコンピュータプログラム。
【請求項1】
指定された数の周波数サブバンドを使用して空間的に符号化されたいくつか(1つ以上)のオーディオチャネルを備える第1のセットを備えるオーディオシーンの音声空間化の方法であって、前記第1のセットは変換ドメイン内でいくつか(2つ以上)のオーディオチャネルを備える第2のセットに復号化され、前記第2のセットは時間ドメイン内で前記第1のチャネルセットのオーディオ信号の音響伝達をモデル化するフィルタを使用して再生され、前記変換ドメイン内で適用可能な少なくとも1つの利得と1つの遅延に変換されるモデリングフィルタのそれぞれについて、前記方法は、前記変換ドメインの周波数サブバンドごとに、少なくとも、
前記空間的に符号化されたチャネルから開始して、前記対象の周波数サブバンド内で等化され、指定された遅延の値で遅延されたコンポーネントを生成するために、前記サブバンド信号に利得と遅延をそれぞれ適用することによって、前記サブバンド内の信号のイコライザ遅延によるフィルタリングを実行するステップと、
前記時間ドメイン内で再生する前記第2のセット内の2つ以上のオーディオチャネルの数に対応するフィルタリングされたいくつかの信号を前記変換ドメイン内で作成するために、等化され、遅延されたコンポーネントのサブセットの追加を実行するステップと、
前記時間ドメイン内で再生する2つ以上のオーディオチャネルを備える第2のセットを取得するために、前記変換ドメイン内で前記フィルタリングされた信号のそれぞれについて合成フィルタによる合成を実行するステップとを含むことを特徴とする方法。
【請求項2】
前記サブバンド信号の前記イコライザ遅延によるフィルタリングを実行するステップは、前記周波数サブバンドの少なくとも1つに対して少なくとも前記位相シフトの適用を実行するステップを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記イコライザ遅延によるフィルタリングを実行するステップは、前記周波数サブバンドの少なくとも1つに対するストレージによる純粋遅延をさらに含むことを特徴とする請求項2に記載の方法。
【請求項4】
ハイブリッド変換ドメイン内で前記イコライザ遅延によるフィルタリングを実行するステップは、前記適用される利得の値の数を増大するためにデシメーションを実行せずに追加のサブバンドへの周波数分割を実行する追加のステップと、これに続く前記利得の値が適用された前記追加のサブバンドを再結合してから前記遅延を適用するステップとを備えることを特徴とする請求項1から3のいずれか一項に記載の方法。
【請求項5】
ハイブリッド変換ドメイン内で前記イコライザ遅延によるフィルタリングを実行するステップは、前記適用される利得の値の数を増大するためにデシメーションを伴って追加のサブバンドへの周波数分割を実行する追加のステップと、その後に続く前記利得の値が適用された前記追加のサブバンドを再結合するステップとを備えており、前記再結合するステップはそれ自体が前記遅延の適用の前または後であることを特徴とする請求項1から3のいずれか一項に記載の方法。
【請求項6】
前記変換ドメイン内で個々のモデリングフィルタをそれぞれ利得の値と遅延の値に変換するために、少なくとも、
利得の値としてサブバンドごとに前記モデリングフィルタの絶対値の平均として定義された実数値を関連付けるステップと、
遅延の値としてサブバンドごとにさまざまな位置に関する左耳と右耳の間の伝搬遅延に対応する遅延の値を関連付けるステップとを含むことを特徴とする請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記PQMFドメイン内で利得を適用するステップは、複素数値で表現される前記サブバンド信号の各サンプルの値に、実数で構成される前記利得の値を乗じるステップを含むことを特徴とする請求項1から3または6(請求項4と5を除く)のいずれか一項に記載の方法。
【請求項8】
前記PQMFドメイン内で利得を適用するステップは、少なくとも、複素数値で表現される前記サブバンド信号のサンプルごとに、
前記対象のサブバンドの前記ランク、前記対象のサブバンドの前記アンダーサンプリングレート、および前記聞き手の両耳間の遅延の差に関連する遅延パラメータの関数である複素数の指数値を前記サンプルに乗じることによって前記複素平面内の回転を導入するステップと、
前記回転後のサンプルに純粋時間遅延を導入し、前記純粋時間遅延は聞き手の両耳間の前記遅延の差、および前記対象のサブバンドの前記アンダーサンプリングレートの関数であるステップを含むことを特徴とする請求項1から3または6または7(請求項4と5を除く)のいずれか一項に記載の方法。
【請求項9】
前記第1のセットは5.1モードで空間的に符号化されたN=6のオーディオチャネルを備えるオーディオシーンのバイノーラルサウンド空間化を実行するために、前記第2のセットは前記時間ドメイン内で再生され、オーディオヘッドフォンのペアで再生される2つのオーディオチャネルを備えることを特徴とする請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記方法は少なくとも2つのイコライザ遅延のペアについて反復され、前記取得された信号は前記時間ドメイン内で前記オーディオチャネルを取得するために合計されることを特徴とする請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記第1のセットは空間的に符号化された所定の数のオーディオチャネルを備えており、前記第2のセットは前記時間ドメイン内で再生されるより少ない数のオーディオチャネルを備えるオーディオシーンのサウンド空間化を実行するために、前記復号化において、空間的に符号化されたいくつかのオーディオチャネルから前記時間ドメイン内で再生されるオーディオチャネルの数以上のオーディオチャネルを備えるセットへの逆変換を実行するステップを含むことを特徴とする請求項1から9のいずれか一項に記載の方法。
【請求項12】
前記モデリングフィルタに関連付けられた前記利得と遅延の値は量子化された形で送信されることを特徴とする請求項1から11のいずれか一項に記載の方法。
【請求項13】
指定された数の周波数サブバンドを使用して空間的に符号化されたいくつか(1つ以上)のオーディオチャネルを備える第1のセットを備えるオーディオシーンの音声空間化のデバイスであって、前記第1のセットは変換ドメイン内でいくつか(2つ以上)のオーディオチャネルを備える第2のセットに復号化され、前記第2のセットは前記時間ドメイン内で前記第1のチャネルセットの前記オーディオ信号の音響伝達をモデル化するフィルタを使用して再生され、空間符号器の周波数サブバンドごとに、前記変換ドメイン内で、前記デバイスは、前記空間符号器だけでなく、
前記空間的に符号化されたオーディオチャネルから、前記対象の周波数サブバンド内で等化され、指定された遅延の値で遅延されたコンポーネントを生成するために、前記サブバンド信号に少なくとも1つの利得と遅延をそれぞれ適用することによって、前記サブバンド内の信号のイコライザ遅延によるフィルタリングを実行する手段と、
前記時間ドメイン内で再生する前記第2のセット内の2つ以上のオーディオチャネルの数に対応するフィルタリングされたいくつかの信号を前記変換ドメイン内で作成するために、等化され、遅延されたコンポーネントのサブセットの追加を実行する手段と、
前記時間ドメイン内で再生する2つ以上のオーディオ信号を備える前記第2のセットを取得するために、前記変換ドメイン内で前記フィルタリングされた信号のそれぞれについて合成フィルタによる合成を実行する手段とを含むことを特徴とするデバイス。
【請求項14】
前記利得の適用によってフィルタリングを実行する手段は、空間的に符号化された個々のオーディオチャネルの任意の複素数のサンプルに実数値を乗じるためのデジタル乗算器を備えることを特徴とする請求項13に記載のデバイス。
【請求項15】
前記遅延の適用によってフィルタリングを実行する手段は、前記サブバンド信号の任意のサンプルについて前記複素平面内の回転を導入できるようにする、前記対象のサブバンドの前記ランク、前記対象のサブバンドの前記アンダーサンプリングレート、および前記聞き手の両耳間の遅延の差に関連する遅延パラメータの関数である複素数の指数値を前記サブバンド信号の任意のサンプルに乗じるための少なくとも1つの複素デジタル乗算器を備えることを特徴とする請求項13または14のいずれか一項に記載のデバイス。
【請求項16】
前記フィルタリングを実行する手段は、前記聞き手の両耳間の前記遅延の差、および前記対象のサブバンドの前記アンダーサンプリングレートの関数である純粋時間遅延を導入できる、回転後の各サンプルに対する純粋遅延線をさらに備えることを特徴とする請求項15に記載のデバイス。
【請求項17】
記憶媒体に格納され、コンピュータまたは専用のデバイスによって実行される一連の命令を備えるコンピュータプログラムであって、こうした実行の間に前記プログラムは請求項1から12のいずれか一項に記載の、前記フィルタリング、追加、合成のステップが実行されることを特徴とするコンピュータプログラム。
【図1a】
【図1b】
【図1c】
【図1d】
【図1e】
【図1f】
【図2a】
【図2b】
【図2c】
【図3a】
【図3b】
【図4】
【図1b】
【図1c】
【図1d】
【図1e】
【図1f】
【図2a】
【図2b】
【図2c】
【図3a】
【図3b】
【図4】
【公表番号】特表2009−531905(P2009−531905A)
【公表日】平成21年9月3日(2009.9.3)
【国際特許分類】
【出願番号】特願2009−502159(P2009−502159)
【出願日】平成19年3月8日(2007.3.8)
【国際出願番号】PCT/FR2007/050894
【国際公開番号】WO2007/110519
【国際公開日】平成19年10月4日(2007.10.4)
【出願人】(591034154)フランス テレコム (290)
【公表日】平成21年9月3日(2009.9.3)
【国際特許分類】
【出願日】平成19年3月8日(2007.3.8)
【国際出願番号】PCT/FR2007/050894
【国際公開番号】WO2007/110519
【国際公開日】平成19年10月4日(2007.10.4)
【出願人】(591034154)フランス テレコム (290)
[ Back to top ]