説明

空間効果を考慮に入れたバイノーラル合成のための方法

本発明は、劇場効果を組み込むBRIRフィルタであるフィルタからのオーディオチャンネルの3次元空間化のための方法に関する。BRIRフィルタのパルス応答のサイズに相当する特定の数N個のサンプルに対して、本発明は、(A)反射の到着時間に関連した少なくとも1組の遅延と振幅値へBRIRフィルタを細分するステップと、(B)B個の数のサンプルに対して少なくとも1つのBRIRフィルタのスペクトルモジュラスを抽出するステップと、(C)個々の相継ぐ遅延、その関連した振幅およびスペクトルモジュラスから、時間領域、周波数領域、または変換された領域においてオーディオチャンネルに直接適用される基本BRIRフィルタ(BRIRe)を構成するステップとから成る。本発明はバイノーラルまたはマルチチャンネルの空間化に適用可能である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号の3D化された音(3D-rendered sound)として知られている音の空間化に関し、具体的には空間効果(room effect)を組み込むものであり、とりわけバイノーラル(binaural)技術分野に関する。
【0002】
したがって、用語「バイノーラル」は、一対のステレオヘッドホン上または一対のイヤホーン上での再生を意図したものであり、依然として空間化効果(spatialization effects)を伴ったオーディオ信号の再生を意図としたものである。しかし、本発明は、前述の技術に限定されるものではなく、とりわけ、「トランスオーラル(transaural)」再生技術(換言すれば遠方のスピーカ上での再生)などの「バイノーラル」技術から導出された技術に適用可能である。TRANSAURAL(登録商標)は、COOPER BAUCK社の営業用の商標である。
【背景技術】
【0003】
本発明の具体的用途の1つに、例えば、特に空間効果を含んで、聴き手を3Dの音場に浸すために、その頭部の音響伝達関数を効果的にモノ音響信号に適用することにより、オーディオコンテンツを豊かにすることがある。
【0004】
ヘッドホンまたはスピーカ上で「バイノーラル」技術を実施するために、音響信号に対して、空間(space)における音源の位置と聴き手の2つの耳との間の伝達関数またはフィルタが定義される。前述の頭部の音響伝達関数は、その周波数形式では「頭部に関する伝達関数(Head-Related Transfer Function)」HRTFで表され、その時間形式では「頭部に関するインパルス応答(Head-Related Impulse Response)」HRIRで表わされる。空間における一方向について、右耳に対して1つ、左耳に対して1つで、最終的に2つのHRTFが得られる。
【0005】
具体的には、バイノーラル技術は、ステレオ信号を得るために、頭部に関するそのような音響伝達関数をモノ音響オーディオ信号に適用することから成り、一対のヘッドホンでステレオ信号を聞くと、聴き手は、音源が空間内の特定の方向から生じるという感覚を持つ。モノラル信号を右耳のHRTFによってフィルタリングすることによって右耳用の信号が得られ、この同じモノラル信号を左耳のHRTFによってフィルタリングすることにより左耳用の信号が得られる。
【0006】
これらの伝達関数を特徴づけることができる重要な物理的パラメータには、次のものがある。
- 「両耳間時間差」ITDがあり、これは、同じ音源からの音波の、聴き手の左耳と右耳の間の両耳間到着時間差として定義される。ITDは、主としてHRTFの位相に関連づけられるものである。
- スペクトルモジュラス(spectral modulus)があり、これによって、左耳と右耳の間でのレベル差を周波数の関数として感知することがとりわけ可能になる。
- 聴き手の頭部のHRTFまたはHRIRを、自由音場の音響伝播(無響の条件)の条件に相当するものと考えなければ、前述の伝達関数は、これらの伝達関数が測定またはシミュレートされる空間の音響レスポンスに相当する、反射、散乱および回折現象を考慮に入れることができる。そういう訳で、前述の伝達関数は、時間形式では「バイノーラル空間インパルス応答(Binaural Room Impulse Response)」BRIRと呼ばれる。
【0007】
前述のバイノーラル技術は、例えば対のヘッドホン上で5.1タイプの3Dレンダリング(3D rendering)を模擬するのに利用されてよい。この技術では、マルチスピーカシステムまたは「サラウンド」システムの各スピーカ位置に、左耳についての1つのHRTFと、右耳についての1つのHRTFのHRTF対とを対応させる。5.1モードにおける信号の5つのチャンネルの合計が、聴き手の各耳用の5つのHRTFフィルタによって畳み込まれて、右と左の2つのバイノーラルチャンネルを得ることができ、これらは一対のオーディオヘッドホン上でのリスニング向けの5.1モードをシミュレートする。
【0008】
この状況では、マルチスピーカシステムをシミュレートするバイノーラル空間化は、「バイノーラル仮想サラウンド」と呼ばれる。
【0009】
3Dレンダリングでは、聴き手がその頭部から遠ざかる可変距離で音源を感知している事実、用語「外面化(externalization)」で知られる現象を考慮に入れると、音源の方向または起点とは無関係なように、バイノーラル3Dレンダリングでは、音源が聴き手の頭部の内部にあると感知されることがしばしば起こる。このように感知された音源は、「外面化されない(non-externalized)」と称される。
【0010】
様々な研究によって、バイノーラル3Dレンダリング法に空間効果を加えると、音源の外面化の相当な強化が可能になることが示されている。とりわけ、D. R. Begault and E. M. Wenzelによる「Direct comparison of the impact of head tracking, reverberation and individualized head-related transfer functions on the spatial perception of a virtual speech source」, J. Audio Eng. Soc., Vol.49, No.10, 2001 を参照されたい。
【0011】
現在、2つの主要な方法によって、空間効果をHRIRへ組み込むことが可能になっている。
- 第1の方法は、実際の空間効果に関して、非無響室でHRIRを測定することから構成され、したがって空間効果を含む。得られたHRIRは実際にはBRIRであり、1次の音波反射を組み込むために、44,100Hzのサンプリング周波数での500回サンプルより長い、十分な長時間でなければならないが、遅延残響効果を組み込むことが所望であるなら、この期間をさらに長く、換言すれば同じサンプリング周波数で20,000回サンプルより長くとる必要がある。しかし、空間のパルス応答によって表される、所望の空間効果と共に無響の環境で測定されたHRIRの畳込による等価なやり方で、前述のBRIRが取得され得ることが注目される。
- 第2の方法は、人工的空間効果に関して、仮想音響学に由来する、HRIRへ合成的に空間効果を組み込むことから構成される。この操作は、人工的な残響効果を導入する空間化器によって実行される。そのような方法には、現実的なレンダリングを得るには相当な処理パワーを必要とするという短所がある。
【0012】
「バイノーラル」音の空間化に関する限り、通常の方法は、HRTFまたはHRIRを、最小位相要素(HRTFのスペクトルモジュラス(spectral modulus)によって求められた最小位相フィルタ)と純粋な遅延に分解することにより、バイノーラルフィルタをモデル化することから成る。そのような方法のより詳細な説明については、D. J. Kistler and F. L. Wightmanによる「A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction」、J. Acoustic Soc. Am., 91(3), pp. 1637〜1647, 1992 と、Kulkarni A.らによる「On the minimum-phase approximation of head-related functions」, 1995 IEEE ASSP Workshop on Applications of Signal Processing Audio and Acoustics(IEEEカタログ番号: 95TH8144)等の論文を参照するのが有効であり得る。
【0013】
左耳と右耳のHRTF間またはHRIR間で観測される遅延の差は、次いでITDの定位インデックス(localization index)に相当する。HRIRまたはHRTFから遅延を抽出するための様々な方法が存在する。主な方法には、S. Bussonにより「Individualization of acoustic indices for binaural synthesis」, Doctoral thesis from the Universite de la Mediterranee Aix-Marseille II, 2006 で述べられたものがある。
【0014】
スペクトルモジュラスは、HRIRのフーリエ変換のモジュラス(modulus)をとることにより得られる。次いで、例えば、聴覚システムの積分特性に基づく周波数平滑化技術によれば、例えば、数を減らされた周波数帯のエネルギーにわたって平均をとることにより、係数の数を減らすことができる。
【0015】
HRTF、HRIR、または必要に応じてBRIRフィルタがモデル化されるやり方に関係なく、バイノーラル音の空間化を実施するための方法がいくつか存在する。
【0016】
後者の中で、最も簡単で最も直接的な方法は、図1に示されるバイノーラル技術のデュアルチャンネル実施である。
【0017】
この方法によれば、音源の空間化は互いから独立して実行される。1対のHRTFフィルタが各音源と関連づけられる。フィルタリングは、時間領域での畳み込み積の形式で、または周波数領域での複素乗法(complex multiplication)の形式で、あるいは、例えばPQMF(Pseudo-Quadrature Mirror Filter)領域のような、任意の他の変換された領域で実行することができる。
【0018】
バイノーラル技術のマルチチャンネル実施は、デュアルチャンネル実施の代替であって、方向(符号化ゲイン)の関数と基本フィルタ(復号フィルタ)の関数の積の和の形式でのHRTFの線形分解から成る、より効率的な実施を提供する。この分解によって、符号化ステップと復号ステップを分離することが可能になり、次いで、フィルタの数が、空間化されるべき音源の数に依存しなくなる。次に、基本フィルタは、実施を簡単にするために、最小位相フィルタおよび純粋な遅延によってモデル化されてよい。元のHRTFから遅延を抽出して、符号化ではそれらを別個に組み込むことも可能である。
【0019】
前述の従来技術の手法は、空間効果を考慮に入れると、BRIRフィルタを実施する場合に、特に、以下の重大な短所を示す。
- 複雑さ: 空間応答の時間が長いために、平均的なサイズの空間に対してBRIRに含まれる時間サンプルの数が20,000サンプル超と非常に大きくなり得、この数は、空間エコーの遅延につながり、したがって遅延の大きさに関連づけられる。したがって、対応するBRIRフィルタは、非常に大きな処理パワーおよびメモリ容量を必要とする。
- 外面化: 純粋な遅延に関連した最小位相フィルタの形式でのモデリングによって、フィルタサイズの縮小が可能になる。しかし、各BRIRフィルタ向けの単一の両耳間の遅延の抽出では、第1反射を考慮に入れることができない。この場合、音色(sound timber)は正確に堅持されるが、外面化効果はもはや再現されない。
【特許文献1】「Method and device for efficient binaural sound spatialization in the transformed domain」という名称のフランス特許出願
【非特許文献1】D.R.Begault and E.M.Wenzel、「Direct comparison of the impact of head tracking,reverberation and individualized head-related transfer functions on the spatial perception of a virtual speech source」、J.Audio Eng.Soc.、Vol.49、No.10、2001年
【非特許文献2】D.J.Kistler and F.L.Wightman、「A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction」、J.Acoustic Soc.Am.、91(3)、1637〜1647頁、1992年
【非特許文献3】Kulkarni A.et al.「On the minimum-phase approximation of head-related functions」、1995 IEEE ASSP Workshop on Applications of Signal Processing Audio and Acoustics(IEEEカタログ番号95TH8144)
【非特許文献4】S.Busson in「Individualization of acoustic indices for binaural synthesis」、Doctoral thesis from the Universite de la Mediterranee Aix-Marseille II、2006年
【発明の開示】
【発明が解決しようとする課題】
【0020】
本発明の目的は、従来技術の前述の短所を克服することである。
【課題を解決するための手段】
【0021】
具体的には、本発明の一対象は、従来技術からの空間効果を考慮に入れて、BRIRフィルタまたはHRIRフィルタ向けのモデル化パラメータを計算するための方法であり、これらのパラメータは、時間領域、周波数領域または変換された領域のいずれかにおける効果的な実施を可能にするために、ゲインおよび少なくとも1つの振幅スペクトルと関連づけられ得る1つまたは複数の遅延を含む。
【0022】
本発明の別の対象は、特定のBRIRフィルタを計算するための方法の実施であり、この方法は、質に関して従来のBRIRフィルタまたは元のBRIRフィルタと同等であるが、音源の十分な位置決めまたは外面化が可能であり、対応するフィルタリングの実施に必要とされる処理パワーおよびメモリ容量を大幅に低減する。
【0023】
本発明の対象である、空間効果を組み込む少なくとも1つのBRIRフィルタを使用するオーディオチャンネルの3D空間化の方法は、BRIRフィルタのパルス応答のサイズに相当する特定の数のサンプルに対して、少なくとも、このBRIRフィルタを反射の到着時間と関連した少なくとも1組の遅延および振幅値に分解するステップと、この数のサンプルにわたって少なくとも1つのスペクトルモジュラスを抽出するステップと、相継ぐ各遅延、その関連する振幅、およびその関連するスペクトルモジュラスから、時間領域、周波数領域、または変換された領域においてオーディオチャンネルに直接適用される基本BRIRフィルタを形成するステップとから成るという点で注目に値する。
【0024】
本発明の対象であるこの方法は、振幅ピークを検出することにより遅延を検出するためのプロセスによってBRIRフィルタの分解が行われ、直接音波の到着の瞬間に相当する遅延が第1の振幅ピークに関連づけられるという点でも注目に値する。
【0025】
本発明の対象であるこの方法は、個々のスペクトルモジュラスの抽出が、時間−周波数変換によって行われるという点でも注目に値する。
【0026】
本発明の対象であるこの方法は、所与のランクkの周波数サブバンドに分解されたBRIRフィルタのパルス応答に相当するいくつかのサンプルに対して、このBRIRフィルタのスペクトルモジュラスの値が、各サブバンド中のBRIRフィルタのエネルギーを表す実数のゲイン値として定義されるという点でも注目に値する。
【0027】
本発明の対象であるこの方法は、スペクトルモジュラスが各遅延と関連づけられ、BRIRフィルタのスペクトルモジュラスが、各サブバンドにおいて部分的BRIRフィルタの前記サブバンドにおけるエネルギーを表す実数のゲイン値と定義され、このゲイン値が、関連する遅延の関数であるという点でも注目に値する。
【0028】
この、与えられた遅延の関数としてスペクトルモジュラスを調整することによって、実施されるBRIRフィルタの、元のBRIRフィルタに非常によく似た再構成が可能になる。
【0029】
最後に、本発明の対象であるこの方法は、ランクkの各周波数サブバンドにおける各基本BRIRフィルタが、複素乗算によって形成され、純粋な遅延によって形成され、直接音波の到着時間に相当する第1のサンプルに割り付けられた遅延に関する遅延差によって増加され、前記複素乗算が、実数のゲイン値を含む各振幅ピークに関連する遅延の関数であってもなくてもよい、という点で注目に値する。
【0030】
このことは、以下の説明を読み、かつ図に注目することによって、いっそうよく理解されるであろう。
【発明を実施するための最良の形態】
【0031】
次に、図2およびそれに続く図とともに、本発明の対象による、空間効果を組み込む少なくとも1つのBRIRフィルタを使用するオーディオチャンネルの3D空間化の方法を説明する。
【0032】
本発明の対象である方法は、BRIRフィルタのパルス応答のサイズに相当する所与の特定の数N個のサンプルに対して、ステップAで、このBRIRフィルタを、一連の振幅ピークを記述する少なくとも1組の振幅値および遅延値に分解するステップから成る。
【0033】
図2のステップAでは、次式の分解操作が示される。
【0034】
【数1】

【0035】
この式で、Anはランクnのサンプルの振幅(amplitude)を示し、AMxは各振幅ピークの振幅を示し、Δxは、対応する振幅ピークの各々に関連した遅延を示す。
【0036】
この遅延は、直接波(direct wave)の到着時間に相当する遅延Δ0の関数であるが、これは本明細書において後で説明される。ステップAの後には、数N個のサンプルにわたって、BRIRフィルタの少なくとも1つの平均スペクトルモジュラス(mean spectral modurus)を抽出することから成るステップBが続き、各スペクトルモジュラスは次式で示される。
【0037】
【数2】

【0038】
次いで、ステップBの後には、ステップBで確立されたこの遅延に関連するスペクトルモジュラスから、各一連の遅延から、そして振幅から、時間領域、周波数領域、または変換された領域でオーディオチャンネルに直接的に適用されるBRIReで示される基本BRIRフィルタを形成するステップから成るステップCが続くが、これは本明細書において後で説明される。
【0039】
より詳細には、振幅ピークの検出により遅延を検出するプロセスによってステップAのBRIRフィルタの分解が実行され、遅延Δ0は、第1の振幅ピークに関連する直接音波の到着時間に相当することが理解されよう。
したがって、第1の振幅ピークは、パラメータAM00によって定義される。
【0040】
次いで、遅延Δ0とは別に、N個のサンプル中の振幅ピークの位置に依存する値δxが他の振幅ピークと相継いで関連づけられ、各振幅ピークAMxに割り付けられる遅延は、Δx=Δ0+δxによって与えられることも理解されよう。
【0041】
従来技術から知られているような、第1のピークを検出するための他の方法、具体的には、例えば両耳間の遅延に等しいものと解釈され得る遅延Δ0の値を求める方法も用いられてよい。
【0042】
N個のサンプルの期間を有するBRIRフィルタの少なくとも1つのスペクトルモジュラスを抽出するためのステップBによって、個々の元のBRIRフィルタと、基本フィルタBRIReを使用して再構成されたBRIRフィルタとの間で音色の一致が保証されることが可能になるが、これは本明細書において後で説明される。
【0043】
具体的には、これに限定するものではないが、スペクトルモジュラスの抽出は、フーリエ変換などの時間−周波数変換によって実行することができるが、これは本明細書において後で説明される。
【0044】
基本BRIRフィルタの実施であるBRIReは、それぞれ、BRIRフィルタの各スペクトルモジュラスの値から形成され、また、もちろん、対象となっている振幅および遅延Δxから形成され、処理コストの低減の実現を可能にする。
【0045】
最小位相フィルタなどに基づいてフィルタリングするための方法は、遅延を実施するためのすべての方法に関連し、提案された分解に適し得る。具体的には、本発明の対象である本方法は、例えばバイノーラル3D空間化のマルチチャンネル実施と組み合わせることができる。
【0046】
次に、本発明の対象である本方法の、特定の、限定的でない好ましい一実施形態が、図3aから図3dとともに説明される。
【0047】
前述の実施形態は、複素の時間的サブバンドの領域で、より詳細には複素のPQMF領域で(しかしこれに限定されない)の効率的な実施のために、BRIRフィルタの分解の枠組みの中で実施される。
【0048】
そのような実施は、5.1タイプのバイノーラル3Dレンダリングを得るために、MPEGサラウンド規格によって定義されたデコーダによって使用され得る。5.1モードは、MPEGの空間オーディオ符号化規格ISO/IEC 23003-1(文献N7947)によって定義されている。
【0049】
同じ日に本出願人の名で出願された「Method and device for efficient binaural sound spatialization in the transformed domain」と題されたフランス特許出願を参照すると、サブバンドの領域では、換言すれば符号化された領域では、この方法の実施を含む復号コストを低減するために、バイノーラルフィルタリングを直接的に実行することができると述べられている。
【0050】
前述の実施形態は、時間領域へ、換言すればサブバンドに変換されない領域へ、または変換された任意の他の領域へ置き換えることができる。
【0051】
本発明の対象である方法によって、一般的なやり方で、具体的にはその好ましい実施形態において、以下のものを得ることが可能になる。
- 直接音波の到着時間である遅延A0に相当する遅延、および空間からの第1の反射に相当する遅延。これらの遅延は、次いでサブバンドの領域で実施される。
- 実数値であるゲイン値。ゲインは例えば各サブバンドに割り当てられ、かつBRIRフィルタのスペクトルの内容に基づいて各反射に対して割り当てられるが、これは後で詳述される。
【0052】
したがって、複素の時間的サブバンド領域における限定的でない例により説明された実行のために、空間(space)内の位置に対応する任意のBRIRフィルタ向けに遅延の抽出が存立し、これは図3aに示され、かつBRIRフィルタのパルス応答のサイズに相当する数N個のサンプルにわたって確立されたフィルタの時間的包絡線に基づくものであり、この時間的包絡線は次式で示される。
【0053】
【数3】

【0054】
そして、A0で示される第1のサブステップの実行は、少なくとも、その振幅値が図3aのステップA01で、Vで示された閾値より高い時間サンプルのランクのインデックスを識別することから成る。具体的には、N個のサンプルにわたって相継いでサブステップA02経由でステップA01に戻ることにより、N個のサンプルからの各サンプルに対してA0>Vという比較が相継いで実行されることが理解されよう。
【0055】
この操作によって、Iiで示される第1のベクトルがサブステップA03で生成され、かつIi+1で示される第1のオフセットベクトルがサブステップA04で生成されることが可能になる。第1のベクトルIiは、閾値Vより振幅値が大きい時間サンプルのランクのインデックスに相当する。第1のオフセットベクトルIi+1は、一つのインデックスをオフセットさせることにより第1のベクトルから推定(deduce)される。第1のベクトルおよび第1のオフセットベクトルは、数N個のサンプルにおける振幅ピークの位置を表す。
【0056】
ステップA0の後には、第1のオフセットベクトルIi+1と第1のベクトルIiの間の差を示す差ベクトルI’を計算することによって、閾値Vより大きい振幅の時間サンプルが、単離した振幅ピークに相当するかどうかを判断するステップから成るステップA1が続く。
【0057】
実際、差ベクトルI’内に含まれる値が大きければ、このことは、先行のピークとは別のピークの存在を示すことが理解され、このことは後で説明されよう。
【0058】
次いで、ステップA1の後には、特定値Wによって定義される識別閾(difference threshold)について、N個のサンプルにわたって、単離した振幅ピークのインデックスをグループ化する第2のベクトルPを計算するステップから成るステップA2が続く。
【0059】
最後に、ステップA2の後には、第2のベクトルのサンプルから、各単離した識別されたピークについて、第2のベクトルによって識別されたサンプルに続く、所与の数のサンプル(前述の値Wと同等)の中の最大振幅のサンプルインデックスを識別するステップから成るステップA3が続く。この値Wは実験的に求めることができる。
【0060】
任意の新規な最大振幅サンプルのサンプルのインデックスおよび振幅は、遅延インデックスベクトルおよび振幅ベクトルの形式で保存される。
【0061】
したがって、ステップA3の最後に、前述の振幅ピークの遅延インデックスおよび振幅値のすべてが、例えばインデックスD’(i)のベクトルと振幅A’(i)のベクトルの形式で利用可能である。
【0062】
次に、図2に示されるステップA0、A1、A2およびA3の実施の具体的説明を、図3b、図3cおよび図3dとともに示す。
【0063】
図3bを参照すると、空間内の位置に対応するBRIRの時間的フィルタに関して、後者の時間的包絡線は次式で与えられる。
BRIRenv(t)=|BRIR(t)|
【0064】
ステップA0は、次いで包絡線の値が閾値Vより大きいサンプルのインデックスをすべて見つけるステップから成る。
【0065】
特に有利なやり方では、また本発明の対象である本方法の注目に値する一態様によれば、閾値Vは、それ自体がBRIRフィルタの時間的包絡線のエネルギーの関数である。
【0066】
したがって、有利には閾値Vは次式を検証する。
【0067】
【数4】

【0068】
この式で、時間サンプルの数を表すNとは別に、Cは、例えば1に固定される定数である。
【0069】
ステップA01およびA02で実行された比較に続いて、比較が成功すると直ちに、値はディメンジョンKのベクトルIiに保存される。Kは、第1のベクトルを形成するために、絶対振幅値が閾値Vを越えるサンプルの数である。
【0070】
限定的でない例として、図3bでは、閾値Vが実数の値0.037に固定される場合について、BRIRフィルタの時間的包絡線が示される。
【0071】
図3aのステップA03に示されるベクトルIiは、次のように書き表される。
Ii=[89 90 91 92 93 94 95 96 97 98 101 104 108 110 116 422 423 424 427 ...]
【0072】
ベクトルIiの保存から始まって、第1の振幅ピークのインデックス(インデックス89)をシフトすることによってオフセットベクトルIi+1も保存され、ベクトルIi+1は、例えば第1の振幅ピークが除去されたベクトルIiに相当する。
【0073】
したがって、ここでは第1のベクトルIiおよび第1のオフセットベクトルIi+1が利用可能である。
【0074】
次いで、ステップA1で、第1のオフセットベクトルIi+1と第1のベクトルIiの間の差として、差ベクトルであるベクトルI’が計算される。
【0075】
所与の例では、差ベクトルI’は次式を検証する。
I’=[1 1 1 1 1 1 1 1 1 3 3 4 2 6 306 1 1 3 ...]
【0076】
ベクトルI’中に含まれる大きい値は、先の振幅ピークとは別の振幅ピークの存在を示す。
【0077】
次いで、ステップA2は、個々のピークのインデックスをグループ化する第2のベクトルPを計算するステップから成る。
【0078】
所与の例では、第1のピークP(1)は、もちろん、P(1)=I(1)=89から与えられるが、換言すれば、前述の第1の振幅ピークによって与えられる。それ以降のピークのインデックスは、値Wによって定義された識別閾(difference threshold)を越えるI’の値を1だけ増加したインデックスに相当する。限定的でない例として、また実験的に、Wは値20に固定することができる。このシナリオでは、値I’(15)=306>Wは第2の単離したピークを決定する。次いで、この第2のピークP(2)のランクのインデックス値は、I(15+1)=422によって与えられる。
【0079】
したがって、第2のベクトルPは、次の形で書き表され得る。
P=[89 422 ...]
【0080】
図3cで示されるように、図3aのステップA3は、時間的包絡線を表す第2のベクトルのサンプルP(i)の各々から始まって、続くW=20のサンプル中の最大の振幅値を有するサンプルを見つけるステップから成ることができる。
【0081】
この新規のサンプルのインデックスはベクトルD’に保存され、また、その振幅はベクトルA’に保存されるが、これは次式によって図3aのステップA3とともに言及される。
D’(i)=index(max(BRIRenv([P(i);P(I+W)])))
A’(i)=BRIR(D’(i))*sign(BRIR(D’(1)))
【0082】
図3とともに与えられた例に対する限定的でないやり方では次のようになる。
D’=[92 423...]
A’=[0.1878 0.0924 ...]
【0083】
A(1)で示される第1の最大振幅サンプルの大きさがマイナスであると、後者の絶対値が用いられる。
【0084】
次いで、最大振幅の振幅Aは次式によってエネルギーで正規化され得る。
【0085】
【数5】

【0086】
この式で、LはD’およびAの要素数であり、換言すれば、各ピークを表すインデックスおよび振幅ベクトルである。この数は、もちろん閾値Vに依存すると共に、前述の定数Wの値に依存する。
【0087】
図3dに、遅延Δ0が割り当てられている第1の振幅ピークに関して、正規化された振幅の表現、振幅ピークの表現、およびそれらの相継ぐ遅延位置の表現が示されている。
【0088】
変換された領域(具体的にはサブバンドSBkに分解された複素のPQMF領域)におけるオーディオチャンネルに対して直接的に適用可能かつ適用される、基本BRIRフィルタの第1および第2の実施形態のより詳細な説明が、限定的でない例として本明細書において以下に示される。
【0089】
前述のMPEGサラウンド規格における用途向けに、前述の領域内のサブバンドへの分解によって、BRIRフィルタのパルス応答のN個のサンプルをM個の周波数サブバンド(例えばM=64)に分解することが可能になることが想起される。
【0090】
そのような変換の利点は、フィルタのバンクに本質的なアンダーサンプリングによって生じるスペクトルのエイリアシング問題を回避しつつ、各サブバンドに対して実数ゲイン(real gain)を適用することができることである。
【0091】
前述のサブバンドの領域では、複素数サンプル(complex samples)に対して遅延およびゲインが適用されるが、これは本明細書において後で説明される。
【0092】
第1の限定的でない実施形態によれば、BRIRフィルタの各スペクトルモジュラスの値が、各サブバンドにおいて、前記サブバンド中のBRIRフィルタのエネルギーを表す少なくとも1つの実数のゲイン値として定義される。
【0093】
この第1の実施形態では、対応するゲイン値は、各サブバンドにおいて各BRIRフィルタのスペクトル振幅のエネルギーの平均をとることにより得られ、G(k,n)で示され、ここで、kは対象となっているサブバンドのランクを示し、nはN個のサンプル中のサンプルのランクを示す。
【0094】
8192個のサンプルを得るために0によって完結した、8,192個のサンプルの時間フィルタBRIR(t)に対するフーリエ変換に相当するBRIRの周波数フィルタBRIR*(f)に関して、ゲインG(k,n)の値は次式によって与えられる。
【0095】
【数6】

【0096】
この式で、Hは重みづけウィンドウであり、例えばサブバンドSBkの幅以上の幅M’の矩形ウィンドウであるとされ、例えばM’=64である。重みづけウィンドウはサブバンドkの中央周波数に中心があり、周波数f1はサブバンドkの開始周波数以下である。
【0097】
本発明の対象である好ましい第2の実施形態の方法によれば、スペクトルモジュラスが各遅延と関連づけられる。各スペクトルモジュラスが、各サブバンドにおいて、前記サブバンド中の部分的BRIRフィルタのエネルギーを表す少なくとも1つのゲイン値として定義され、このゲイン値は、インデックスベクトルおよび振幅ベクトルに基づいて、各振幅ピークサンプルのインデックスの関数として与えられる遅延の関数である。
【0098】
したがって、この第2の実施形態では、ゲインG(k,n)が調整(modulate)され、したがって、適用された個々の新規の遅延Iで変化することができる。そこで、ゲイン値は次式で与えられる。
【0099】
【数7】

【0100】
この式で、BRIR*(f,1)は、サンプルD’(1)-ZとサンプルD’(1+1)の間でウィンドウを掛けられた時間フィルタBRIR(t)のフーリエ変換であり、計算されたスペクトルのエネルギーは、このようにウィンドウを掛けられ、かつ8192個のサンプルを得るために0で完結された部分的BRIRフィルタのフーリエ変換である。Zはサンプリング周波数に依存し、44.1kHzのサンプリング周波数に対してZ=10の値をとることができる。
【0101】
前述の第2の実施形態は、元の伝達関数またはBRIRフィルタ、具体的には、考慮に入れられるべき空間内の相継ぐ反射によってもたらされる遅延の各々に非常によく似た再構成が可能であるという点で注目に値し、これによって、特に効果的かつ現実的な空間効果のレンダリングを得ることが可能になる。
【0102】
そして、先に本明細書において説明されたように、選択された第1または第2の実施形態による各周波数サブバンドkにおける各基本BRIRフィルタは、実数のゲイン値を含む複素数の掛け算によって有利に形成され得るが、この各基本BRIRフィルタは、各振幅ピークサンプルのインデックスの関数として与えられる遅延の関数であってもなくてもよいことが理解されよう。
【0103】
複素数の掛け算操作は次式によって与えられる。
【0104】
【数8】

【0105】
また、基本BRIRフィルタは、第1の振幅ピークに割り付けられた遅延Δ0に関する遅延差だけ増加された純粋な遅延によっても形成される。そこで、この遅延は、複素数の掛け算の形式である前述の回転によって得られる積に適用される遅延ラインによって実施することができる。
【0106】
次いで、得られたサンプルは、次式を検証する。
S(k,n)=S’(k,n-D(l))
【0107】
この式で、E(k,n)は、対象となっているサブバンドkのn番目の複素数サンプルを示し、S(k,n)は、ゲインおよび遅延の適用後のサブバンドkのn番目の複素数サンプルを示し、Mは、サブバンドの番号であり、d(1)およびD(1)は、アンダーサンプリングのない時間領域における1番目の遅延D(1)M+d(1)のサンプルの適用に相当するものである。
【0108】
遅延D(1)M+d(1)は、図3aから図3dとともに前述された振幅ピーク検出プロセスに従って計算されたD’(1)の値に相当する。
【0109】
加えて、A(1)は、対応する遅延に関連したピークの振幅を示し、G(k,n)は、対象となっているランクkのサブバンドSBkのn番目の複素数サンプルに適用される実数のゲインを示す。
【0110】
最後に、本発明の対象である本方法によって、遅延された残響(delayed reverberation)の処理が可能になる。遅延された残響は、音場が拡散される空間(room)の応答の部分に相当し、結果として反射(reflections)は識別できることが想起される。しかし、本発明の対象である本方法によれば、空間効果(room effects)は、遅延された残響を含んで処理され得る。この目的のために、本発明による方法は、検出された振幅ピークの値に、離散的な反射が終了し遅延残響現象が始まると考えられるときから始まる時間内の任意の瞬間を越えて分配される複数の任意の振幅値(arbitrary amplitude)を加えることから成る。これらの振幅値は、BRIRパルス応答のサイズに相当するサンプル数から最後のサンプルまでの任意の期間(例えば200ミリ秒に等しくとられてよい)を越えて計算され分配される。
【0111】
したがって、本発明の対象である本方法によれば、図2および後続の図とともに前述されたように、第1の反射の振幅ピークが決定され、また、実験的に求められ、遅延された残響の開始に相当する200ミリ秒相当のサンプルt1から始まって、残響の最後、または場合によってはBRIRフィルタのパルス応答のN個のサンプルの最後に相当するサンプルt2まで、ベクトルD’およびA’に対して次式のようにR値が加えられる。
D’(L+r)=t1+(t2-t1)/(R-1)
A(L+r)=1
【0112】
この式で、Lは、検出されたピークの数であり、rは1とRの間の整数である。
【0113】
次いで、各振幅ピークの遅延の関数としてゲイン値が調整された前述の第2の実施形態を用いると、遅延された残響がサブバンドの領域へ効率的に導入されることが可能になる。
【0114】
また、遅延された残響現象も、第1の反射の処理に付加された遅延ラインによって処理されてよい。
【0115】
最後に、本発明は、コンピュータまたはオーディオ信号の3D音の空間化に特化されたデバイスの記憶メディア上に保存された一連の命令を含むコンピュータプログラムを対象として含み、図2および図3aないし図3dとともに本明細書において前述されたように、このコンピュータプログラムは、実行されたとき、空間効果を含む少なくとも1つのBRIRフィルタを使用して、3D音の空間化の方法を実行するという点で注目に値する。
【0116】
具体的には、前述のコンピュータプログラムは、コンピュータまたは音の空間化における空間効果のバイノーラル合成用デバイスの不揮発性メモリに組み込まれた直接実行可能なプログラムであり得ることが理解されよう。
【0117】
そして、本発明の実施は、完全なデジタル方式で行うことができる。
【図面の簡単な説明】
【0118】
【図1】従来技術からの、バイノーラル音の空間化のための手法に関する図である。
【図2】本発明の課題によって、純粋に例として、少なくとも1つのBRIRフィルタを使用して空間効果を組み込んでオーディオチャンネルの3D空間化手法を実施するための基本的ステップを単に説明として示す流れ図である。
【図3a】図2aのステップAで実行される分解ステップの実施の詳細を示す図である。
【図3b】図3aの振幅ピークの第1のベクトルIiおよび第1のオフセットベクトルIi+1を形成するためのサブステップA0において操作モードの詳述を可能にするサンプリングのタイミング図である。
【図3c】例示として図3bで示された第1のベクトルと第1のオフセットベクトルの間の差ベクトルから始めて第2のベクトルを構成するためのプロセスを詳述する、振幅ピークのサンプルを説明として示すタイミング図である。この第2のベクトルは、単離した振幅ピークのランクのインデックスをグループ化する。
【図3d】図3cで示された第2のベクトルから得られた空間効果による第1の反射を表す振幅ピークを示すタイミング図である。パラメータに相当する遅延は、直接音波の到着時間に相当しており、次いで、第1の反射の各々に割り付けられている直接音波遅延パラメータに対して特定の相継ぐ諸遅延が付加される。

【特許請求の範囲】
【請求項1】
空間効果を組み込む少なくとも1つのBRIRフィルタを使用してオーディオチャンネルを3D空間化するための方法であって、前記BRIRフィルタのパルス応答のサイズに相当する特定の数のサンプルに対して、少なくとも、
このBRIRフィルタを、反射の到着時間に関連した少なくとも1組の遅延と振幅値に分解するステップと、
前記数のサンプルから少なくとも1つの前記BRIRフィルタのスペクトルモジュラスを抽出するステップと、
個々の相継ぐ遅延、その関連した振幅、およびその関連したスペクトルモジュラスから、時間領域、周波数領域、または変換された領域において前記オーディオチャンネルに直接適用される基本BRIRフィルタを形成するステップとから成ることを特徴とする方法。
【請求項2】
振幅ピークの検出により前記遅延を検出するプロセスによって前記BRIRフィルタの前記分解が実行され、前記遅延が、第1の振幅ピークに関連する直接音波の到着時間に相当することを特徴とする請求項1に記載の方法。
【請求項3】
個々のスペクトルモジュラスの抽出が、時間−周波数変換によって行われることを特徴とする請求項1または2に記載の方法。
【請求項4】
前記遅延の前記抽出が、空間内の位置に対応する任意のBRIRフィルタに対して、前記BRIRフィルタの前記パルス応答の前記サイズに相当する前記数のサンプルにわたって確立されたフィルタの時間包絡線に基づいて、少なくとも、
前記数のサンプルにおける前記振幅ピークの位置を表す第1のベクトルおよび第1のオフセットベクトルを生成するために、振幅値が閾値より大きい時間サンプルのランクを用いてインデックスを識別するステップと、
前記第1のオフセットベクトルと前記第1のベクトルの間の差ベクトルを計算することによって単離した振幅ピークの存在を判断するステップと、
前記数のサンプルにわたって前記単離した振幅ピークのインデックスをグループ化する第2のベクトルを計算するステップと、
前記第2のベクトルの前記サンプルを使用して、所与の数の相継ぐサンプルの中から最大振幅のサンプルの相継ぐインデックスを弁別するステップであって、前記最大振幅のサンプルの前記インデックスおよび前記振幅が遅延および振幅のインデックスベクトルの形式で保存されるステップから成ることを特徴とする請求項1から3の一項に記載の方法。
【請求項5】
所与のランクkの周波数サブバンドに分解された前記BRIRフィルタの前記パルス応答に相当するいくつかのサンプルに対して、前記BRIRフィルタの前記スペクトルモジュラスの前記値が、各サブバンドにおける前記BRIRフィルタのエネルギーを表す実数のゲイン値として定義されることを特徴とする請求項1から4の一項に記載の方法。
【請求項6】
各サブバンドにおける前記BRIRフィルタの前記スペクトルミジュラスの値が、ランクkの周波数サブバンドの中央周波数に中心があって前記周波数サブバンドの幅以上の幅の重みづけウィンドウを適用することにより計算されることを特徴とする請求項5に記載の方法。
【請求項7】
スペクトルモジュラスが各遅延に関連づけられ、前記スペクトルモジュラスが、前記サブバンドにおける部分的BRIRフィルタのエネルギーの実数を表すゲイン値として各サブバンドで定義され、このゲイン値が関連する遅延の関数であることを特徴とする請求項5または6に記載の方法。
【請求項8】
ランクkの各周波数サブバンドにおける個々の基本BRIRフィルタが、
前記実数のゲイン値を含む各振幅ピークのサンプルの前記インデックスに依存する前記与えられた遅延の関数であってもなくてもよい、複素数の掛け算と、
前記直接音波の前記到着時間に相当する第1のサンプルに割り付けられた前記遅延に対する遅延差だけ増加される純粋な遅延とによって形成されることを特徴とする請求項5から7の一項に記載の方法。
【請求項9】
前記遅延反響の前記処理に関して、前記処理が、前記検出された振幅ピーク値に、時間内の任意の瞬間から前記BRIRフィルタの前記パルス応答の前記サイズに相当する数のサンプルの最後のサンプルまで分布する複数の任意の振幅を加えることから成ることを特徴とする請求項1から8の一項に記載の方法。
【請求項10】
コンピュータまたはオーディオ信号の3D音の空間化のための専用装置の記憶メディア上に保存された一連の命令を含むコンピュータプログラムであって、実行中に、請求項1から9の一項に記載されたように、空間効果を含む少なくとも1つのBRIRフィルタを使用して3D音を空間化する前記方法を実行することを特徴とするコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3a】
image rotate

【図3b】
image rotate

【図3c】
image rotate

【図3d】
image rotate


【公表番号】特表2009−531906(P2009−531906A)
【公表日】平成21年9月3日(2009.9.3)
【国際特許分類】
【出願番号】特願2009−502160(P2009−502160)
【出願日】平成19年3月8日(2007.3.8)
【国際出願番号】PCT/FR2007/050895
【国際公開番号】WO2007/110520
【国際公開日】平成19年10月4日(2007.10.4)
【出願人】(591034154)フランス テレコム (290)
【Fターム(参考)】