説明

多チャンネル音声フォーマット間の変換のための方法および装置

入力多チャンネル表現が空間音声信号の異なる出力多チャンネル表現に変換される。空間音声信号の中間表現が導き出され、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有する。また、空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現が生成される。

【発明の詳細な説明】
【技術分野】
【0001】
発明の分野
この発明は、異なる多チャンネル音声フォーマット間で、特定の多チャンネル表現に限定されることなく、可能な最高の品質でどのように変換するかについての技術に関する。つまり、この発明は、任意の多チャンネルフォーマット間の変換を可能にする技術に関する。
【背景技術】
【0002】
発明の背景および先行技術
一般に、多チャンネル再生および聴取では、聴取者は多数のラウドスピーカによって包囲される。特定の設定用に音声信号を取り込むために、さまざまな方法が存在する。再生における1つの一般的な目標は、もともと録音された音響事象、すなわちオーケストラの中でのトランペットの位置といった音声源の起源の空間的構成を再現することである。いくつかのラウドスピーカ設定はかなり一般的であり、異なる空間的印象を作り出すことができる。特殊な生成後技術(post-production techniques)を用いなければ、一般に知られた2チャンネルステレオ設定は、2つのラウドスピーカ間の配線上に聴覚事象を再度作り出すことしかできない。これは主として、1つの音声源に関連した信号の振幅が2つのラウドスピーカ間で、ラウドスピーカに対する音声源の位置に依存して分配される、いわゆる「振幅パンニング」によって達成される。これは通常、録音中またはその後のミキシング中に行なわれる。つまり、聴取位置に対して左端から到来する音声源は主として左のラウドスピーカによって再生され、一方、聴取位置の前にある音声源は両方のラウドスピーカによって同じ振幅(レベル)で再生されることになる。しかしながら、他の方向から生じる音は再生できない。
【0003】
したがって、聴取者の周りに分布されたより多くのラウドスピーカを用いることによって、より多くの方向が網羅可能であり、より自然な空間的印象を再度作り出すことができる。おそらく最も良く知られた多チャンネルラウドスピーカ配置は5.1規格(ITU−R775−1)で、それは5つのラウドスピーカからなり、聴取位置に対するそれらの方位角は0°、±30°、および±110°となるよう予め定められている。要するに、録音中またはミキシング中、信号はその特定のラウドスピーカ構成に適合され、規格からの再生設定のずれは再生品質の低下をもたらす、ということになる。
【0004】
さまざまな数のラウドスピーカが異なる方向に位置している多数の他のシステムも、これまで提案されてきた。特に劇場および音響施設におけるプロ用システムおよび特殊システムも、異なる高さにあるラウドスピーカを含んでいる。
【0005】
最近、DirACという名前の汎用音声再生システムが提案され、それは任意のラウドスピーカ設定用に音を録音し再生することができる。DirACの目的は、任意の幾何学的設定を有する多チャンネルラウドスピーカシステムを用いて、既存の音響環境の空間的印象をできるだけ正確に再生することである。録音環境内では、(連続的な録音された音響またはインパルス応答であり得る)環境の応答が、1つの全指向性マイク(W)を用いて、および音の到来方向と音の拡散性とを測定可能な1組のマイクを用いて測定される。以下の段落および本願においては、「拡散性」という用語は、音の非指向性の尺度として理解されるべきである。つまり、あらゆる方向から等しい強度で聴取位置または録音位置に到来する音は、最大限に拡散している。拡散を定量化する一般的な方法は、間隔[0,…,1]からの拡散値を用いることであり、ここで1という値は、最大限に拡散している音を表わし、0という値は、完全に指向性の音、すなわち1つの明らかに識別可能な方向
のみから生じる音を表わす。音の到来方向を測定する一般に知られた一方法は、デカルト座標軸と整列された3つの8の字マイク(XYZ)を適用することである。特殊なマイク、いわゆる「音場マイク」がこれまで設計されており、それはあらゆる所望の応答を直接生み出す。しかしながら、上述のように、W、X、YおよびZ信号はまた、1組の別々の全指向性マイクから計算されてもよい。
【0006】
任意の数のチャンネル用の音声フォーマットを、添付の指向性データとともに、音声の1つまたは2つのダウンミックスチャンネルに格納するための別の方法が、グッドウィン(Goodwin)およびジョット(Jot)により最近提案された。このフォーマットは任意の再生システムに適用可能である。指向性データ、すなわち音声源の方向についての情報を有するデータは、速度ベクトルとエネルギベクトルとからなる「ガーゾン(Gerzon)ベクトル」を用いて計算される。速度ベクトルとは、聴取位置からラウドスピーカを指すベクトルの加重和であり、各加重値は、1つのラウドスピーカについての所与の時間/周波数タイルでの周波数スペクトルの大きさである。エネルギベクトルとは、同様に加重されたベクトルの和である。しかしながら、加重値はラウドスピーカ信号の短時間エネルギ推定値である。つまり、それらは、有限長の時間間隔内の幾分平滑化した信号、またはその信号に含まれる信号エネルギの積分を表わしている。これらのベクトルは、明確な根拠で物理的または知覚的な量に関連付けられていないという欠点を共有している。たとえば、互いに対するラウドスピーカ同士の相対位相は適正に考慮されていない。要するに、たとえば、ある広帯域信号が、逆の位相を有する聴取位置の前のステレオ設定のラウドスピーカに供給された場合、聴取者は周囲方向からの音を知覚し、聴取位置における音場は左右方向の(たとえば左側から右側への)音エネルギ振動を有する、ということになる。そのような状況では、ガーゾンベクトルは前方方向に向いており、それは明らかに物理的または知覚的な状態を表わしていない。
【0007】
当然ながら、市場には多数の多チャンネルフォーマットまたは表現があるため、個々の表現が、代替的な多チャンネル表現の再構築のためにもともと開発された設定で再生されるように、異なる表現間で変換可能となるための要件が存在する。つまり、たとえば、5.1チャンネルと7.1または7.2チャンネルとの間の変換は、DVD上でよく用いられる5.1多チャンネル表現を再生するために既存の7.1または7.2チャンネル再生設定を用いるよう要求される場合がある。多種多様の音声フォーマットは、音声内容の生成を困難にしている。なぜなら、全フォーマットが特定のミックスおよびストレージ/伝送フォーマットを必要とするためである。したがって、異なる再生設定での再生のための異なる録音フォーマット間の変換が必要である。
【0008】
ある特定の音声フォーマットにおける音声を別の音声フォーマットに変換するために、多数の方法が提案されている。しかしながら、これらの方法は常に、特定の多チャンネルフォーマットまたは表現に適合されている。つまり、これらは、ある特定の予め定められた多チャンネル表現から別の特定の多チャンネル表現への変換にしか適用できない。
【0009】
一般に、再生チャンネルの数の減少(いわゆる「ダウンミックス」)は、再生チャンネルの数の増加(「アップミックス」)よりも実現がより簡単である。いくつかの標準的なラウドスピーカ再生設定に対し、再生チャンネルの数がより少ない再生設定へとどのようにダウンミックスするかについて、たとえばITUが勧告している。これらのいわゆる「ITU」ダウンミックス方程式では、出力信号は、入力信号の単純な静的線形結合として導き出される。通常、再生チャンネルの数の減少は、知覚された空間画像の劣化、すなわち空間音声信号の再生品質の劣化につながる。
【0010】
多数の再生チャンネルまたは再生ラウドスピーカからの起こり得る利点のために、特定のタイプの変換のためのアップミックス技術が開発されてきた。しばしば調査される1つ
の問題は、5チャンネルのサラウンド・ラウドスピーカ・システムでの再生のために、2チャンネルステレオ音声をどのように変換するか、ということである。そのような2対5のアップミックスに対する1つのアプローチまたは実現化例は、いわゆる「行列」復号器を用いることである。そのような復号器は、特に映画およびホームシアター用の初期のサラウンドサウンドにおいて、ステレオ伝送インフラストラクチャ全体に5.1多チャンネルサウンドを提供するかまたはアップミックスすることが、一般的になっている。基本的な考え方は、音像の前にあるステレオ信号において同相である音成分を再生すること、および位相成分を後方ラウドスピーカに導入することである。代替的な2対5のアップミックス方法は、ステレオ信号の周囲成分を抽出すること、およびそれらの成分を5.1設定の後方ラウドスピーカを介して再生することを提案している。知覚的により理に適った根拠に基づいて同じ基本的考え方に従い、かつ数学的により洗練された実現化例を用いる一アプローチが最近、C・フォーラー(Faller)により、「パラメトリック多チャンネル音声符号化:コヒーレンスキューの合成」(Parametric Multi-channel Audio Coding: Synthesis of Coherence Cues)、音声処理に関するIEEE会報(IEEE Trans. On Speech and Audio Proc.)、第14巻、第1号、2006年1月、において提案されている。
【0011】
最近公開された標準MPEGサラウンドは、ダウンミックスされ伝送された1つまたは2つのチャンネルから、再生に使用される通常5.1である最終的なチャンネルへのアップミックスを行なう。これは、空間サイド情報(BCC技術と同様のサイド情報)を用いて、またはサイド情報なしで、ステレオダウンミックスの2つのチャンネル間の位相関係を用いることにより(「非誘導モード」または「改良行列モード」)、実現される。
【発明の概要】
【発明が解決しようとする課題】
【0012】
前述の段落で説明したフォーマット変換についてのあらゆる方法は、源および送信先音声再生フォーマット双方の特定の構成に適用されるよう特化されており、このため汎用ではない。つまり、任意の入力多チャンネル表現と任意の出力多チャンネル表現との間の変換は実行できない。すなわち、先行技術の変換技術は、ラウドスピーカの数と、入力多チャンネル音声表現用および出力多チャンネル表現用のそれらの正確な位置とに、特に適合されている。
【0013】
入力および出力多チャンネル表現の任意の組合せに適用可能な多チャンネル変換のための概念を有することが、当然ながら望ましい。
【課題を解決するための手段】
【0014】
発明の概要
この発明の一実施例によれば、空間音声信号の入力多チャンネル表現を異なる出力多チャンネル表現に変換するための装置は、空間音声信号の中間表現を導き出すための分析器を含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記装置はさらに、空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するための信号構成器を含む。
【0015】
空間音声信号の一部分の起源の方向を示す方向パラメータを有する中間表現が用いられるので、出力多チャンネル表現のラウドスピーカ構成が公知である限り、任意の多チャンネル表現間で変換が達成され得る。出力多チャンネル表現のラウドスピーカ構成が事前に、つまり変換装置の設計中に公知である必要はないことに留意することが重要である。変換装置および方法は汎用なので、入力多チャンネル表現として提供され、特定のラウドスピーカ設定用に設計された多チャンネル表現は、空間音声信号の再生の再生品質が改良されるように、利用可能な再生設定に適合するよう受信側で変更されてもよい。
【0016】
この発明のさらに別の実施例によれば、空間音声信号の一部分の起源の方向は、異なる周波数帯域内で分析される。そのため、空間音声信号の有限幅の周波数部分のために、異なる方向パラメータが導き出される。有限幅の周波数部分を導き出すには、たとえばフィルタバンクまたはフーリエ変換を用いてもよい。別の実施例によれば、分析が個々に行なわれる周波数部分または周波数帯域は、人間の聴覚処理の周波数分解能に整合するよう選択される。これらの実施例は、人間の聴覚系自体が音声信号の起源の方向を判断できるのと同じぐらい良好に、空間音声信号の部分の起源の方向が行なわれるという利点を有していてもよい。したがって、そのような分析された信号が任意のラウドスピーカ設定を介して再構築され、再生される場合、分析は、音声対象または信号部分の起源の判断における精度の潜在的な損失なく行なわれる。
【0017】
この発明のさらに別の実施例によれば、中間表現に属する1つ以上のダウンミックスチャンネルが付加的に導き出される。つまり、ダウンミックスされたチャンネルが、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルから導き出され、それらは次に、出力多チャンネル表現を生成するために、または出力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルを生成するために用いられてもよい。
【0018】
たとえば、通常の5.1チャンネル音声信号の5.1入力チャンネルから、モノラルのダウンミックスチャンネルが生成されてもよい。これは、たとえば、すべての個々の音声チャンネルの和を計算することにより実行され得る。そのような導き出されたモノラルのダウンミックスチャンネルに基づいて、信号構成器は、入力多チャンネル表現の分析された部分に対応するモノラルのダウンミックスチャンネルのそのような部分を、方向パラメータによって示されるように、出力多チャンネル表現のチャンネルに分配してもよい。つまり、空間音声信号からの、左端から到来すると分析された周波数/時間または信号部分は、聴取位置に対して左側に位置する出力多チャンネル表現のラウドスピーカに再分配されることになる。
【0019】
一般に、この発明のいくつかの実施例は、より大きい強度を有する空間音声信号の部分を、方向パラメータによって示された方向からより遠く離れたチャンネルよりも、その方向により近いラウドスピーカに対応するチャンネルに分配することができる。つまり、再生に使用されるラウドスピーカの位置が出力多チャンネル表現においてどのように規定されていても、利用可能な再生設定にできるだけ良好に適合する空間再分配が達成されることになる。
【0020】
この発明のいくつかの実施例によれば、空間音声信号の一部分の起源の方向を判断できるようにする空間分解能は、入力多チャンネル表現の単一のラウドスピーカに関連した3次元空間の角度分解能よりもはるかに高い。つまり、たとえば5.1設定のチャンネルを7.1または7.2設定に再分配するなど、1つの別個の設定からの音声チャンネルを別の特定の設定に単純に再分配することにより獲得可能な空間分解能よりも、より良好な精度で、空間音声信号の一部の起源の方向を導き出すことができる。
【0021】
要約すると、この発明のいくつかの実施例は、広く適用可能であり、かつ特定の所望の目標ラウドスピーカ配置/構成に依存していない、フォーマット変換のための改良された方法の適用を可能にする。いくつかの実施例は、N1チャンネルを有する入力多チャンネル音声フォーマット(表現)を、N2チャンネルを有する出力多チャンネルフォーマット(表現)に、(DirACと同様の)方向パラメータを抽出することによって変換し、それらは次に、N2チャンネルを有する出力信号を合成するために使用される。さらに、いくつかの実施例によれば、多数のN0ダウンミックスチャンネルが、N1入力信号(入力多チャンネル表現に従ったラウドスピーカに対応する音声チャンネル)から計算され、それらは次に、抽出された方向パラメータを用いた復号処理の基盤として使用される。
【0022】
この発明のいくつかの実施例を、図面を参照して以下に説明する。
【図面の簡単な説明】
【0023】
【図1】音声信号の一部分の起源の方向を示す方向パラメータの導出の図である。
【図2】5.1チャンネル表現に基づいた方向パラメータの導出のさらに別の一実施例を示す図である。
【図3】出力多チャンネル表現の生成の一例を示す図である。
【図4】5.1チャンネル設定から8.1チャンネル設定への音声変換についての一例を示す図である。
【図5】多チャンネル音声フォーマット間の変換のためのこの発明の装置についての一例を示す図である。
【発明を実施するための形態】
【0024】
この発明のいくつかの実施例は、空間音声信号の一部分の起源の方向を示す方向パラメータを有する、空間音声信号の中間表現を導き出す。1つの可能性は、空間音声信号の一部分の起源の方向を示す速度ベクトルを導き出すことである。そうするための一例を、図1を参照して以下の段落で説明する。
【0025】
概念を詳述する前に、以下の分析が、基礎となる空間音声信号の多数の個々の周波数または時間部分に同時に適用され得ることに留意されたい。しかしながら、簡潔にするために、分析は、1つの特定の周波数または時間もしくは時間/周波数部分についてのみ説明される。分析は、図1に示すような座標系の中心に位置する録音位置2で録音された音場のエネルギ分析に基づいている。
【0026】
座標系は、互いに直交するx軸4とy軸6とを有するデカルト座標系である。右手系を用いているので、図1に示されていないz軸は図面から抜け出る方向を指している。
【0027】
方向分析のために、(Bフォーマット信号として公知の)4つの信号が録音されると仮定する。1つの全指向性信号w、すなわちあらゆる方向からの信号を(理想的には)等しい感度で受取る信号が録音される。さらに、デカルト座標系の軸の方向を指す感度分布を有する3つの指向性信号X、Y、およびZが録音される。使用されたマイクの起こり得る感度パターンについての例を、軸の方向を指す2つの「8の字」パターン8aおよび8bを示す図1に挙げる。2つのあり得る音声源10および12が、図1に示す座標系の2次元投影にさらに示されている。
【0028】
方向分析のために、(時間指数nでの)瞬間速度ベクトルは、(指数iにより表わされる)異なる周波数部分について、以下の式により構成される。
【0029】
【数1】

【0030】
つまり、座標系の軸に関連したマイクの個々に録音されたマイク信号を成分として有するベクトルが作成される。前のおよび以下の方程式において、量は、2つの指数(n,i)により、時間(n)において、および周波数(i)において指し示される。つまり、ex、ey、およびezはデカルト単位ベクトルを表わす。
【0031】
同時に録音された全指向性信号wを用いると、瞬間強度Iは、
【0032】
【数2】

【0033】
として計算され、瞬間エネルギは、以下の式:
【0034】
【数3】

【0035】
に従って導き出され、ここで‖ ‖はベクトルノルムを示す。
つまり、(正および負の振幅が起こり得るため)2つの信号間の起こり得る干渉を可能にする強度量が導き出される。加えて、エネルギ量が導き出されるが、それは当然、2つの信号間の干渉を可能にはしない。なぜなら、エネルギ量は、信号の打ち消しを可能とする負の値を含んでいないためである。
【0036】
強度信号およびエネルギ信号のこれらの特性は、信号部分の起源の方向を高い精度で導き出すために有利に使用可能であり、以下に詳述するように、音声チャンネルの仮想相互関係(チャンネル間の相対位相)を保つ。
【0037】
一方、瞬間強度ベクトルは、空間音声信号の一部分の起源の方向を示すベクトルとして使用されてもよい。しかしながら、このベクトルは急激な変化を経る場合があり、このため信号の再生において人工物を生じさせる。したがって、代替的には、ハニング窓(Hanning window)W2を利用した短時間平均化を用いて、以下の式に従って瞬間方向を計算してもよい。
【0038】
【数4】

【0039】
ここで、W2は、短時間平均化Dのためのハニング窓である。
つまり、オプションで、空間音声信号の起源の方向を示すパラメータを有する短時間平均された方向ベクトルが導き出されてもよい。
【0040】
オプションで、拡散性尺度ψは以下のように計算されてもよい。
【0041】
【数5】

【0042】
ここで、W(m)は、短時間平均化のために−M/2とM/2との間で規定された窓関数である。
【0043】
ここでも、導出が音声チャンネルの仮想相互関係を保つように行なわれることに留意すべきである。つまり、(たとえばガーゾンベクトルのように)エネルギ推定値のみに基づいた方向推定値に関する場合とは異なり、位相情報は適正に考慮されている。
【0044】
以下の単純な例は、これをより詳細に説明する役割を果たす。ステレオシステムの2つのラウドスピーカによって再生される、完全に拡散している信号を考慮されたい。この信号は拡散している(あらゆる方向から生じている)ので、それは双方のスピーカによって等しい強度で再生されるべきである。しかしながら、拡散していると知覚するには、180度の位相変動が必要とされる。そのような状況では、純粋にエネルギに基づいた方向推定により、2つのラウドスピーカのちょうど中央を指す方向ベクトルが生み出されるであろう。それは確実に、現実を反映していない望ましくない結果である。
【0045】
上に詳述したこの発明の概念によれば、方向パラメータ(方向ベクトル)を推定しつつ、音声チャンネルの仮想相互関係が保たれる。この特定の例では、方向ベクトルはゼロで、音が1つの別個の方向から生じていないことを示しており、それは明らかに現実の場合とは異なる。これに対応して、方程式(5)の拡散性パラメータは1であり、現実の状態に完全に整合している。
【0046】
上述の方程式におけるハニング窓はさらに、異なる周波数帯域について異なる長さを有していてもよい。
【0047】
この分析の結果、周波数部分の各タイムスライスについて、空間音声信号の一部分の起源の方向を示す方向ベクトルまたは方向パラメータが導き出され、それについて分析が行なわれてきた。オプションで、空間音声信号の一部分の方向の拡散性を示す拡散性パラメータを導き出すことができる。前述のように、方程式(4)に従って導き出された1という拡散値は、拡散性が最大限の信号、すなわちあらゆる方向から等しい強度で生じる信号を表わす。
【0048】
それとは逆に、小さい拡散値は、主として1つの方向から生じる信号部分に起因する。
図2は、ITU−775−1に従った5チャンネルを有する入力多チャンネル表現からの方向パラメータを導出についての一例を示す。多チャンネル入力音声信号、すなわち入力多チャンネル表現はまず、対応する多チャンネル音声設定の無響録音をシミュレートすることにより、Bフォーマットに変換される。軸x22およびy24を有するデカルト座標系の中心20に対し、後方右側のラウドスピーカ26は110°の角度に位置している。右側前方のラウドスピーカ28は+30°に、中央のラウドスピーカは0°に、左側前方のラウドスピーカ32は−31°に、そして左側後方のラウドスピーカ34は−110°に位置している。実際には、無響録音は、単純な行列化演算を適用することによりシミュレート可能であり、入力多チャンネル表現の幾何学的設定は公知である。
【0049】
あらゆるラウドスピーカ信号の、つまり入力多チャンネル表現に関連したラウドスピーカに対応するあらゆる音声チャンネルの直和を求めることにより、全指向性信号wを得ることができる。双極子または「8の字」信号X、YおよびZは、ラウドスピーカと対応するデカルト軸との間の角度の余弦、すなわちシミュレートされるべき双極子マイクの最大感度の方向によって加重されたラウドスピーカ信号を加えることによって形成可能である。Lnを、n番目のラウドスピーカに向かって指すDまたは3Dデカルトベクトルとし、Vを、双極子マイクに対応するデカルト軸方向を指す単位ベクトルとする。その場合、加重係数はcos(angle(Ln、V))である。たとえば、指向性信号Xは以下のように書かれる。
【0050】
【数6】

【0051】
ここで、Cnは、n番目のチャンネルのラウドスピーカ信号を示し、Nはチャンネルの数である。angleという用語は、2つの所与のベクトル間の空間角度を計算する演算子として解釈されるべきである。つまり、図2に示す2次元の事例では、たとえば、Y軸24と左側前方のラウドスピーカ32との間の角度40(Q)である。
【0052】
方向パラメータのさらに別の導出は、たとえば、図1に示し、対応する説明で詳述したように実行され得る。すなわち、音声信号X、Y、およびZは、人間の聴覚系の周波数分解能に従って複数の周波数帯域に分割され得る。音の方向、すなわち空間音声信号の部分の起源の方向、およびオプションで拡散性は、各周波数チャンネルにおける時間に依存して分析される。オプションで、たとえば空間音声信号に関連した(ステレオ)チャンネル間のコヒーレンスといった、拡散性以外の信号非類似性の別の尺度を用いる、音の拡散性の代わりのものも使用可能である。
【0053】
簡略化された一例として、図2に示すように1つの音声源44が存在し、その源のみが特定の周波数帯域内の信号に寄与している場合、音声源44を指す方向ベクトル46が導き出されるであろう。この方向ベクトルは、音声源44から生じる空間音声信号の一部分の方向を示す方向パラメータ(ベクトル成分)によって表わされる。図2の再生設定では、そのような信号は主として左側前方のラウドスピーカ32により、このラウドスピーカに関連した象徴的な波形によって示されるように再生されるであろう。しかしながら、微細な信号部分が、左側後方のラウドスピーカ32からも再生されるであろう。このように、X座標22に関連したマイクの指向性信号は、左側前方のチャンネル32(左側前方のラウドスピーカ32に関連した音声チャンネル)および左側後方のチャンネル34から信号成分を受取るであろう。
【0054】
上述の実現化例に従って、y軸に関連した指向性信号Yも同様に左側前方のラウドスピーカ32によって再生された信号部分を受取るため、指向性信号XおよびYに基づいた指向性分析は、方向ベクトル46から到来する音を高い精度で再構築することができるであろう。
【0055】
所望の多チャンネル表現(多チャンネルフォーマット)への最終的な変換のために、音声信号の部分の起源の方向を示す方向パラメータが使用される。オプションで、1つ以上の(N0)追加の音声ダウンミックスチャンネルが使用されてもよい。そのようなダウンミックスチャンネルは、たとえば、全指向性チャンネルWであっても、または任意の他のモノラルチャンネルであってもよい。しかしながら、空間分布にとって、中間表現に関連したたった1つの単一のチャンネルの使用は、悪影響があまりない。つまり、方向パラメータまたは指向性データが導き出され、出力多チャンネル表現の再構築または生成のために使用可能である限り、ステレオミックスなどのいくつかのダウンミックスチャンネル、チャンネルW、YおよびX、またはBフォーマットの全チャンネルが使用されてもよい。可能なダウンミックスチャンネルの代わりとして、図2の5つのチャンネルを直接使用すること、または入力多チャンネル表現に関連したチャンネルの任意の組合せを使用することも代替的に可能である。チャンネルが1つしか格納されていない場合、拡散する音の再生において品質の劣化が起こり得る。
【0056】
図3は、パラメータが導き出された入力多チャンネル表現であった図2のラウドスピーカ設定とはかなり異なるラウドスピーカ設定での、音声源44の信号の再生についての一例を示す。図3は、一例として、図2で導入されたようなx軸22およびy軸24を有する座標系の中心を規定する聴取位置60の前にある線に沿って均等に分布された6つのラウドスピーカ50a〜50fを示している。前述の分析が、音声信号の源44を指す方向ベクトル46の方向を表わす方向パラメータを提供したため、図3のラウドスピーカ設定
に適合される出力多チャンネル表現は、再生されるべき空間音声信号の部分を音声源44の方向に近いラウドスピーカに再分配することにより、すなわち、方向パラメータによって示された方向に近いラウドスピーカにより、容易に導き出すことができる。つまり、方向パラメータによって示された方向のラウドスピーカに対応する音声チャンネルは、この方向から遠く離れたラウドスピーカに対応する音声チャンネルに対して強調される。つまり、ラウドスピーカ50aおよび50bはその信号部分を再生するよう(たとえば振幅パンニングを用いて)操作可能であるが、一方、ラウドスピーカ50c〜50fはその特定の信号成分を再生せず、それらは異なる音、または異なる周波数帯域の他の信号部分の再生用に使用されてもよい。
【0057】
方向パラメータを用いて空間音声信号の出力多チャンネル表現を生成するために信号構成器を使用することは、中間信号を、N2出力チャンネルを有する所望の多チャンネル出力フォーマットに復号することとも解釈され得る。生成された音声ダウンミックスチャンネルまたは信号は通常、それらが分析されたのと同じ周波数帯域で処理される。復号はDirACと同様の態様で行なわれてもよい。拡散する音のオプション再生では、非拡散性ストリームを表わすための音声の使用は通常、オプションのN0ダウンミックスチャンネル信号のうちの1つかまたはそれらの線形結合である。
【0058】
拡散性ストリームのオプション作成のために、出力多チャンネル表現に従ったラウドスピーカに対応する出力信号または出力チャンネルの拡散部分を作成するためのいくつかの合成オプションが存在する。伝送されたダウンミックスチャンネルが1つしかない場合、そのチャンネルを、各ラウドスピーカ用の非拡散信号を作成するために使用しなければならない。伝送されたチャンネルがより多い場合、拡散する音をどのように作成するかについてより多くのオプションがある。たとえば変換処理でステレオダウンミックスが使用された場合、明らかに好適な一方法は、左のダウンミックスチャンネルを左のラウドスピーカに適用し、右のダウンミックスチャンネルを右側のラウドスピーカに適用することである。変換用にいくつかのダウンミックスチャンネルが使用される場合(すなわちN0>1)、各ラウドスピーカについての拡散性ストリームは、これらのダウンミックスチャンネルのさまざまに加重された合計として計算可能である。1つの可能性は、たとえば、Bフォーマット信号(前述のようなチャンネルX、Y、Zおよびw)を伝送し、各ラウドスピーカについて仮想カージオイドマイク信号の信号を計算することであり得る。
【0059】
以下の文は、入力多チャンネル表現の出力多チャンネル表現への変換についての可能な手順をリストとして説明している。この例では、シミュレートされたBフォーマットマイクを用いて音が録音され、次に、多チャンネルまたはモノラルラウドスピーカ設定で聞くもしくは再生するために、信号構成器によってさらに処理される。5.1チャンネル入力多チャンネル表現の、8チャンネル出力多チャンネル表現への変換を示す図4を参照して、それぞれのステップを説明する。基本はN1チャンネル音声フォーマット(この特定の例では、N1は5)である。入力多チャンネル表現を異なる出力多チャンネル表現に変換するために、以下のステップが行なわれてもよい。
【0060】
1.(シミュレートされたBフォーマットマイクが配置の中心72にある)録音区画70に示されるようにN1音声チャンネル(5チャンネル)を有する任意の多チャンネル音声表現の無響録音をシミュレートする。
【0061】
2.分析ステップ74において、シミュレートされたマイク信号を複数の周波数帯域に分割し、指向性分析ステップ76において、シミュレートされたマイク信号の部分の起源の方向を導き出す。さらに、オプションで、拡散性終了ステップ78において拡散性(またはコヒーレンス)を判断してもよい。
【0062】
前述のように、方向分析はBフォーマット中間ステップを用いずに行なわれてもよい。つまり、一般に、空間音声信号の中間表現は入力多チャンネル表現に基づいて導き出す必要があり、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有している。
【0063】
3.ダウンミックスステップ80において、N0ダウンミックス音声信号が、出力多チャンネル表現の変換/作成の基盤として使用されるよう導き出される。構成ステップ82において、N0ダウンミックス音声信号は、適切な合成方法により(たとえば振幅パンニングまたは同等に好適な技術を用いて)N2音声チャンネルを必要とする任意のラウドスピーカ設定へと復号され、またはアップミックスされる。
【0064】
結果は、図4の再生状況84に示されるようなたとえば8つのラウドスピーカを有する多チャンネルラウドスピーカシステムによって再生可能である。しかしながら、概念の汎用性のため、モノラルラウドスピーカ設定に対しても変換を行なってもよく、空間音声信号が1つの単一の指向性マイクで録音されたかのような効果を提供する。
【0065】
図5は、多チャンネル音声フォーマット100間の変換のための装置についての一例の原理図を示す。
【0066】
装置100は入力多チャンネル表現102を受取る。
装置100は、空間音声信号の中間表現106を導き出すための分析器104を含み、中間表現106は、空間音声信号の一部分の起源の方向を示す方向パラメータを有する。
【0067】
装置100はさらに、空間音声信号の中間表現(106)を用いて、空間音声信号の出力多チャンネル表現110を生成するための信号構成器108を含む。
【0068】
要約すると、前述の変換装置および変換方法の実施例は、いくつかの大きな利点を提供する。まず第1に、実質上いかなる入力音声フォーマットもこのように処理可能である。さらに、変換処理は、入力ラウドスピーカ配置/構成と出力ラウドスピーカ配置/構成との新しい組合せについての新しい関係を特に適合する必要なく、非標準的なラウドスピーカ配置/構成を含むいかなるラウドスピーカ配置についても出力を生成可能である。さらに、先行技術の実現化例とは異なり、ラウドスピーカの数が増加すると、音声再生の空間分解能が増加する。
【産業上の利用可能性】
【0069】
この発明の方法の或る実現化要件に依存して、この発明の方法はハードウェアでまたはソフトウェアで実施され得る。この実施は、デジタル記憶媒体、特に、この発明の方法が実行されるようにプログラム可能コンピュータシステムと協働する電子的に読取可能な制御信号を記憶したディスク、DVD、またはCDを用いて行なわれ得る。概して、この発明はしたがって、マシン読取可能な担体上に記憶されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で起動されている際にこの発明の方法を実行するために動作する。言い換えれば、この発明の方法はしたがって、コンピュータプログラムがコンピュータ上で起動されている際にこの発明の方法の少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0070】
前述の事項はその特定の実施例を参照して特に示され説明されてきたが、形状および詳細のさまざまな他の変更が、その精神および範囲から逸脱することなくなされ得ることが、当業者により理解されるであろう。さまざまな変更が、ここに開示され特許請求の範囲に包含されるより広範な概念から逸脱することなく、異なる実施例への適合の際になされ
得ることが理解されるべきである。

【特許請求の範囲】
【請求項1】
空間音声信号の入力多チャンネル表現を異なる出力多チャンネル表現に変換するための装置であって、
空間音声信号の中間表現を導き出すための分析器を含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記装置はさらに、
空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するための信号構成器を含む、装置。
【請求項2】
分析器は、入力多チャンネル表現に関連した音声チャンネルの仮想相互関係に依存する方向パラメータを導き出すよう動作する、請求項1に記載の装置。
【請求項3】
分析器は、入力多チャンネル表現に関連した音声チャンネルの相対位相情報を保存する方向パラメータを導き出すよう動作する、請求項1に記載の装置。
【請求項4】
分析器は、空間音声信号の有限幅の周波数部分のために異なる方向パラメータを導き出すよう動作する、請求項1に記載の装置。
【請求項5】
分析器は、空間音声信号の有限長の時間部分のために異なる方向パラメータを導き出すよう動作する、請求項1に記載の装置。
【請求項6】
分析器は、周波数部分に関連した空間音声信号の有限長の時間部分のために異なる方向パラメータを導き出すよう動作し、第1の周波数部分に関連した第1の時間部分の長さは、空間音声信号の第2の異なる周波数部分に関連した第2の時間部分の長さとは異なっている、請求項4に記載の装置。
【請求項7】
分析器は、空間音声信号の一部分の起源の方向を指すベクトルを表わす方向パラメータを導き出すよう動作する、請求項1に記載の装置。
【請求項8】
分析器は加えて、中間表現に関連した1つ以上の音声チャンネルを導き出すよう動作する、請求項1に記載の装置。
【請求項9】
分析器は、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルを導き出すよう動作する、請求項8に記載の装置。
【請求項10】
分析器は、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルの和として1つのダウンミックスチャンネルを導き出すよう動作する、請求項8に記載の装置。
【請求項11】
分析器は、デカルト座標系の軸の方向に関連した少なくとも1つの音声チャンネルを導き出すよう動作する、請求項8に記載の装置。
【請求項12】
分析器は、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルの加重和を構築する少なくとも1つの音声チャンネルを導き出すよう動作する、請求項11に記載の装置。
【請求項13】
分析器は、デカルト座標系の軸の方向Vに関連した少なくとも1つの音声チャンネルXの導出が、入力多チャンネル表現に関連し、かつ方向Cnに向けられたn個のラウドスピーカすべてに対応するn個の音声チャンネルCnの組合せにより、
【数1】

に従って表わされ得るように動作する、請求項11に記載の装置。
【請求項14】
分析器はさらに、空間音声信号の一部分の起源の方向の拡散性を示す拡散性パラメータを導き出すよう動作する、請求項1に記載の装置。
【請求項15】
信号構成器は、空間音声信号の一部分を、出力多チャンネル表現に関連したラウドスピーカの数に対応する数のチャンネルに分配するよう動作する、請求項1に記載の装置。
【請求項16】
信号構成器は、空間音声信号の一部分が、方向パラメータによって示された方向からより遠く離れたラウドスピーカに対応するチャンネルよりも、その方向により近いラウドスピーカに対応するチャンネルに、より大きい強度で分配されるよう動作する、請求項15に記載の装置。
【請求項17】
信号構成器は、拡散性パラメータがより低い拡散性を示す場合よりも、拡散性パラメータがより高い拡散性を示す場合に、空間音声信号の一部分が、出力多チャンネル表現に関連したラウドスピーカに対応するチャンネルにより均一な強度で分配されるよう動作する、請求項14に記載の装置。
【請求項18】
入力多チャンネル表現を受取るための入力インターフェイスをさらに含む、請求項1に記載の装置。
【請求項19】
入力多チャンネル表現に関連したすべてのラウドスピーカに対応する数の音声チャンネルを導き出すための入力表現復号器をさらに含む、請求項1に記載の装置。
【請求項20】
信号構成器は、出力チャンネル表現に関連したラウドスピーカに対応する音声チャンネルに基づいて出力多チャンネル表現を導き出すための出力チャンネル符号器をさらに含む、請求項15に記載の装置。
【請求項21】
出力多チャンネル表現を提供するための出力インターフェイスをさらに含む、請求項1に記載の装置。
【請求項22】
空間音声信号の入力多チャンネル表現を異なる出力多チャンネル表現に変換するための方法であって、
空間音声信号の中間表現を導き出すステップを含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記方法はさらに、
空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するステップを含む、方法。
【請求項23】
コンピュータ上で起動される際に、空間音声信号の多チャンネル表現を異なる出力多チャンネル表現に変換するための方法を実施するためのコンピュータプログラムであって、前記方法は、
空間音声信号の中間表現を導き出すステップを含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記方法はさらに、
空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するステップを含む、コンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公表番号】特表2010−521910(P2010−521910A)
【公表日】平成22年6月24日(2010.6.24)
【国際特許分類】
【出願番号】特願2009−553931(P2009−553931)
【出願日】平成20年2月1日(2008.2.1)
【国際出願番号】PCT/EP2008/000830
【国際公開番号】WO2008/113428
【国際公開日】平成20年9月25日(2008.9.25)
【出願人】(599137714)フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン (12)