説明

空間出力マルチチャネルオーディオ信号を決定する装置

入力オーディオ信号および入力パラメータに基づいて空間出力マルチチャネルオーディオ信号を決定する装置(100)。装置(100)は、互いに異なる第1の分解信号および第2の分解信号を得るために入力パラメータに基づいて入力オーディオ信号を分解するための分解装置(110)を含む。さらに、装置(100)は、第1の意味的特性を有する第1のレンダリングされた信号を得るために第1の分解信号をレンダリングし、第1の意味的特性と異なる第2の意味的特性を有する第2のレンダリングされた信号を得るために第2の分解信号をレンダリングするためのレンダラ(110)を含む。装置(100)は、空間出力マルチチャネルオーディオ信号を得るために第1のレンダリングされた信号および第2のレンダリングされた信号を処理するためのプロセッサ(130)を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ処理に関し、特に空間オーディオ特性の処理の分野に関する。
【背景技術】
【0002】
オーディオ処理および/または符号化は、いろいろな意味で進歩した。空間オーディオの活用のために、ますます多くの要求が生じている。多くの活用において、オーディオ信号処理は、信号を非相関化するかまたはレンダリングするために利用される。このような活用は、例えば、モノラルからステレオへのアップミックス、モノラル/ステレオからマルチチャネルへのアップミックス、人為的な残響、ステレオ拡大またはユーザー双方向ミキシング/レンダリングを実行する。
【0003】
例えば拍手のような信号に似たノイズ状の信号のような信号の特定の種類に関して、従来の方法およびシステムは、満足できない知覚品質に悩まされ、または、オブジェクト指向のアプローチが使用されるならば、モデル化されるかまたは処理される聴覚事象の数のために生じる計算の複雑性に悩まされている。問題のある録音資料の他の例は、通常、例えば、一群の鳥、海岸、全速力で走る馬、行進兵士の師団などによって発されるノイズのような雰囲気材料である。
【0004】

【0005】
あるいは、ダウンミックスとともに伝送され、所望のマルチチャネル出力を形成するためにどのようにしてダウンミックスの信号をアップミックスするかについてのパラメータ記述を含む副情報によって、マトリクスは制御されることができる。この空間副情報は、通常アップミックスプロセスの前の信号エンコーダによって生成される。
【0006】
これは、パラメトリックステレオ(J.Breebaart、S.van de Par、A.Kohlrausch、E.Schuijers、“High−Quality Parametric Spatial Audio Coding at Low Bitrates” in AES 116th Convention、 Berlin、Preprint 6072、May 2004参照)、およびMPEGサラウンド(J.Herre、K.Kjoerling、J.Breebaart, et al、“MPEG Surround−the ISO/MPEG Standard for Efficient and Compatible Multi−Channel Audio Coding” in Proceedings of the 122nd AES Convention Vienna、Austria、May 2007参照)において見られるようなパラメータ空間オーディオ符号化において実行される。パラメータステレオデコーダの典型的構造は、図7に示される。この例では、非相関化プロセスは変換領域において実行され、それは、例えば入力モノラル信号を多くの周波数帯域における周波数領域のような変換領域に変換する分析フィルタバンク710によって示される。
【0007】
周波数領域において、デコリレータ720は、アップミックスマトリクス730でアップミックスされることになっている非相関化信号を生成する。アップミックスマトリクス730は、空間入力パラメータが供給され、パラメータ制御ステージ750に連結されるパラメータ変更ボックス740によって与えられるアップミックスパラメータを考慮する。図7に示される実施例において、空間パラメータは、ユーザーによって、または例えばバイノーラルレンダリング/提示のための後処理のような追加ツールによって、変更されることができる。この場合、アップミックスパラメータは、アップミックスマトリクス730に対する入力パラメータを形成するために、バイノーラルフィルタからのパラメータに結合されることができる。パラメータの測定は、パラメータ変更ブロック740で実施される。アップミックスマトリクス730の出力は、ステレオ出力信号を見つける合成フィルタバンク760に与えられる。
【0008】

【0009】
混合マトリクスにおいて、出力に供給される非相関化音の量は、例えば、ICC(ICC=チャネル間相関(Interchannel Correlation))および/または混合されるかユーザー定義の設定のような送信されたパラメータに基づいて制御されることができる。
【0010】
他の従来のアプローチは、時間的置換方法によって確立される。拍手のような信号の非相関における熱心な提案は、例えば、Gerard Hotho、Steven van de Par、 Jeroen Breebaart、“Multichannel Coding of Applause Signals” in EURASIP Jounal on Advances in Signal Processing、Vol.1、Art.10、2008において見ることができる。ここで、モノラルオーディオ信号は、非相関化出力チャネルを形成するための「スーパー」ブロック内で時間的にランダムに順序が変えられた擬似である重なり合う時間セグメントに分割される。置換は、n個の出力チャネルに対して、相互に独立している。
【0011】
他の方法は、非相関化信号を得るために、オリジナルのおよび遅延型のコピーの交互チャネル交換である。ドイツ特許出願102007018032.4―55を参照。
【0012】
例えば、Wagner, Andreas; Walther, Andreas; Melchoir, Frank; Straus, Michael;“Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction” at 116th International EAS Convention、 Berlin、 2004にあるような若干の従来の概念のオブジェクト指向のシステムにおいて、波面合成の応用によって、例えば1人の拍手のような多くのオブジェクトから実体験のように感じる場面をどのようにして作成するかが記述される。
【0013】
さらにもう一つの方法はいわゆる「方向オーディオ符号化」(DirAC=Directional Audio Coding)であり、異なる音声再生システムに適用可能な空間音声レンダリングの方法である(Pulkki、Ville、“Spatial Sound Reproduction with Directional Audiio Coding” in J. Audio Eng. Soc., Vol.55、 No.6、2007参照)。分析部において、音の到着の拡散および方向は、時間および周波数に依存している単一の場所において推定される。合成部において、マイクロフォン信号は、まず非拡散および拡散パーツに分割されて、異なる戦略を用いて再生される。
【先行技術文献】
【非特許文献】
【0014】
【非特許文献1】J.Breebaart、S.van de Par、A.Kohlrausch、E.Schuijers、“High−Quality Parametric Spatial Audio Coding at Low Bitrates” in AES 116th Convention、 Berlin、Preprint 6072、May 2004
【非特許文献2】J.Herre、K.Kjoerling、J.Breebaart, et al、“MPEG Surround−the ISO/MPEG Standard for Efficient and Compatible Multi−Channel Audio Coding” in Proceedings of the 122nd AES Convention Vienna、Austria、May 2007
【非特許文献3】Gerard Hotho、Steven van de Par、 Jeroen Breebaart、“Multichannel Coding of Applause Signals” in EURASIP Jounal on Advances in Signal Processing、Vol.1、Art.10、2008
【非特許文献4】Wagner, Andreas; Walther, Andreas; Melchoir, Frank; Straus, Michael;“Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction” at 116th International EAS Convention、 Berlin、 2004
【非特許文献5】Pulkki、Ville、“Spatial Sound Reproduction with Directional Audiio Coding” in J. Audio Eng. Soc., Vol.55、 No.6、2007
【発明の概要】
【発明が解決しようとする課題】
【0015】
従来のアプローチには、多くの不利な点がある。例えば、拍手のような内容を有するオーディオ信号の誘導されたまたは誘導されないアップミックスは、強い非相関性を必要とする。したがって、一方では、強い非相関性は、例えば、コンサートホールにある雰囲気感覚を復元するために必要である。他方では、例えば、全域通過フィルタのような適当な非相関化フィルタが、例えば前および後反響のような時間的不鮮明化効果を導入することにより、1つの拍手のような一時的事象の品質の再生を低下させ、鳴り響く音をフィルタリングする。さらに、1つの拍手事象の空間パニングは、むしろ微細な時間グリッドにされなければならず、その一方で、雰囲気非相関化は長期にわたって準定常でなければならない。
【0016】
J.Breebaart、S.van de Par、A.Kohlrausch、E.Schuijers、“High−Quality Parametric Spatial Audio Coding at Low Bitrates” in AES 116th Convention、 Berlin、Preprint 6072、May 2004およびJ.Herre、K.Kjoerling、J.Breebaart, et al、“MPEG Surround−the ISO/MPEG Standard for Efficient and Compatible Multi−Channel Audio Coding” in Proceedings of the 122nd AES Convention Vienna、Austria、May 2007による最先端の技術であるシステムは、時間分解能対雰囲気安定および一時的な品質の低下対雰囲気非相関性を低下させる。
【0017】
例えば、時間的置換方法を利用しているシステムは、出力オーディオ信号の一定の反復品質のため、出力音の知覚できる低下を示す。これは、異なる時点であるにもかかわらず、入力信号の同一の部分があらゆる出力チャネルにおいて不変であるように見えるという事実のためである。さらに、増加した拍手密度を回避するために、若干のオリジナルのチャネルはアップミックスの中で下げられなければならず、そのため、若干の重要な聴覚事象は結果として得られるアップミックスにおいて失われるかもしれない。
【0018】
オブジェクト指向のシステムにおいて、概して、このような音声事象は、点状の音源の大きなグループとして空間に配置され、それは計算の複雑な実現につながる。
【0019】
本発明の目的は、空間オーディオ処理のための改良された概念を提供することである。
【課題を解決するための手段】
【0020】
この目的は、請求項1に記載の装置および請求項16に記載の方法によって達成される。
【0021】
オーディオ信号が、例えば、非相関性に関して、または、振幅パニング方法に関して、空間的なレンダリングが適応させられることができるいくつかのコンポーネントに分解されることができることは、本発明の発見である。換言すれば、本発明は、例えば、複数の音源を有するシナリオにおいて、フォアグラウンドおよびバックグラウンドの音源が区別され、レンダリングされ、または別々に非相関化されることができるという発見に基づくものである。一般に、オーディオオブジェクトの異なる空間深さおよび/または範囲は区別されることができる。
【0022】
本発明のキーポイントのうちの1つは、拍手している観衆、一群の鳥、海岸、全速力で走る馬、行進兵士の分割などを起源とする音のような信号のフォアグラウンド部分またはバックグラウンド部分への分解であり、フォアグラウンド部分は、例えば、近くの音源から始められる聴覚事象を含み、バックグラウンド部分は知覚的に融合したはるか遠くの事象の雰囲気を保つ。最終的なミキシングの前に、例えば、相関を合成し、シーンをレンダリングするなどのために、これらの2つの信号部分は別に処理される。
【0023】
実施例は信号のフォアグラウンド部分およびバックグラウンド部分だけを区別する必要はなく、それらは全てが別にレンダリングされまたは非相関化される複数の異なるオーディオ部分を区別することができる。
【0024】
一般に、オーディオ信号は、実施例によって、n個の異なる意味的な部分に分解され、それらは別に処理される。異なる意味的なコンポーネントの分解/別の処理は、実施例によって、時間領域および/または周波数領域において達成される。
【0025】
実施例は、適度の計算コストでレンダリングされた音の優れた知覚品質の効果を提供することができる。実施例は、それとともに、特に、例えば、一群の鳥、海岸、全速力で走る馬、行進兵士の分割などによって発せられるノイズのような、拍手のような重大な意味をもつオーディオ材料または他の類似の雰囲気材料に対して、適度のコストで高い知覚品質を提供する新規な非相関性/レンダリング方法を提供する。
本発明の実施例は、添付の図面を参照して詳述される。
【図面の簡単な説明】
【0026】
【図1a】図1aは、空間オーディオマルチチャネルオーディオ信号を決定する装置の実施例を示す図である。
【図1b】図1bは、他の実施例を示すブロック図である。
【図2】図2は、多数の分解された信号を示す図である。
【図3】図3は、フォアグラウンドおよびバックグラウンドの意味的な分解を有する実施例を示す図である。
【図4】図4は、バックグラウンド信号コンポーネントを得るための一時的な分離法の実施例を示す図である。
【図5】図5は、空間的に大きい範囲を有する音源の合成を示す図である。
【図6】図6は、モノラルからステレオへのアップミキサにおける時間領域のデコリレータの技術の適用の1つの状態を示す図である。
【図7】図7は、モノラルからステレオへのアップミキサにおける周波数領域のデコリレータの技術の適用の1つの状態を示す図である。
【発明を実施するための形態】
【0027】
図1は、入力オーディオ信号に基づいて空間出力マルチチャネルオーディオ信号を決定する装置100の実施例を示す。若干の実施例において、装置は、更に空間出力マルチチャネルオーディオ信号が入力パラメータに基づくように調整されることができる。入力パラメータは、局所的に生成され、または副情報として入力オーディオ信号が与えられる。
【0028】
図1において表される実施例において、装置100は、第1の意味的特性を有する第1の分解信号および第1の意味的特性とは異なる第2の意味的特性を有する第2の分解信号を得るために、入力オーディオ信号を分解するための分解装置110を含む。
【0029】
さらに、装置100は、第1の意味的特性を有する第1のレンダリング信号を得るための第1のレンダリング特性を用いて第1の分解信号をレンダリングするため、および第2の意味的特性を有する第2のレンダリング信号を得るための第2のレンダリング特性を用いて第2の分解信号をレンダリングするためのレンダラ120を含む。
【0030】
意味的特性は、遠近、集中または広角などの空間的特性、例えば信号の音調、動静などの動的特性および/または例えば信号がフォアグラウンドまたはバックグラウンドにあるかなどの優位特性に対応し、その計測はそれぞれ行われる。
【0031】
さらに、実施例において、装置100は、空間出力マルチチャネルオーディオ信号を得るために、第1のレンダリングされた信号および第2のレンダリングされた信号を処理するためのプロセッサ130を含む。
【0032】
換言すれば、入力パラメータに基づく若干の実施例において、分解装置110は入力オーディオ信号を分解する。入力オーディオ信号の分解は、入力オーディオ信号の異なる部分の意味的、例えば空間的特性に適用される。さらに、第1および第2のレンダリング特性に従ってレンダラ120によって行われるレンダリングは、例えば第1の分解信号がバックグラウンドオーディオ信号に対応し、第2の分解信号がフォアグラウンドオーディオ信号に対応するシナリオにおいて、異なるレンダリングを許可する空間特性に適用されるか、それぞれ反対に、デコリレータが適用される。以下において、用語「フォアグラウンド」は、オーディオ環境において優位なオーディオオブジェクトに関するものと理解され、それにより、見込みのある聴取者はフォアグラウンドオーディオオブジェクトに注意する。フォアグラウンドオーディオオブジェクトまたは音源は、バックグラウンドオーディオオブジェクトまたは音源と区別または識別される。バックグラウンドオーディオオブジェクトまたは音源は、フォアグラウンドオーディオオブジェクトまたは音源より優位でないため、オーディオ環境の見込みのある聴取者に目立たない。実施例において、フォアグラウンドオーディオオブジェクトまたは音源は、それに限られるものではないが、点状の音源であってもよく、バックグラウンドオーディオオブジェクトまたは音源は、空間的に広いオーディオオブジェクトまたは音源であり、バックグラウンドオーディオオブジェクトまたは音源は、空間的により広いオーディオオブジェクトまたは音源に対応する。
【0033】
換言すれば、実施例において、第1のレンダリング特性は第1の意味的特性に基づくか適合させることができ、第2のレンダリング特性は第2の意味的特性に基づくか適合させることができる。一実施例において、第1の意味的特性および第1のレンダリング特性はフォアグラウンドの音源またはオーディオオブジェクトに対応し、レンダラ120は振幅パニングを第1の分解信号に適用するように構成されることができる。さらに、レンダラ120は、第1のレンダリングされた信号として、第1の分解信号の2つの振幅パンされたバージョンを提供する。この実施例において、第2の意味的特性および第2のレンダリング特性は、バックグラウンド音源またはオーディオオブジェクト、複数のそれらのそれぞれに対応し、レンダラ120は、第2の分解信号に非相関化を適用し、第2のレンダリングされた信号として第2の分解信号およびその非相関化バージョンを与えることができる。
【0034】
実施例において、第1のレンダリング特性が遅延導入特性をもたないように、レンダラ120はさらに第1の分解信号をレンダリングする。換言すれば、第1の分解信号の非相関化がない。他の実施形態において、第1のレンダリング特性は第1の遅延量を有する遅延導入特性を有し、第2のレンダリング特性は第2の遅延量を有し、第2の遅延量は第1の遅延量より大きい。換言すれば、本実施例において、第1の分解信号および第2の分解信号の両方は非相関化されるが、非相関化のレベルはそれぞれの分解信号の非相関化バージョンに導入された遅延量に対応する。したがって、非相関性は、第1の分解信号に対するものより第2の分解信号に対するもののほうが強い。
【0035】
実施例において、第1の分解信号および第2の分解信号は、重複および/または時間同期する。換言すれば、信号処理はブロック的に行われ、1ブロックの入力オーディオ信号サンプルは、分解装置110によって多くの分解信号のブロックに再分割される。実施例において、分解信号の数は、時間領域において少なくとも部分的に重複する、すなわち、それらは重なり合う時間領域サンプルを示している。換言すれば、分解信号は、重なり合う、すなわち、少なくとも部分的に同時のオーディオ信号を示す入力オーディオ信号の部分に対応する。実施例において、第1および第2の分解信号は、オリジナルの入力信号のフィルタリングされたまたは変換されたバージョンを示す。それらは、例えば近い音源またはより遠い音源に対応する構成された空間信号から抽出された信号部分を示す。他の実施例において、それらは、過渡信号コンポーネントおよび定常信号コンポーネントなどに対応する。
【0036】
実施例において、レンダラ120は、第1のレンダラおよび第2のレンダラに再分割され、第1のレンダラは第1の分解信号をレンダリングすることができ、第2のレンダラは第2の分解信号をレンダリングすることができる。実施例において、レンダラ120は、例えば、順次分解信号を連続してレンダリングするプロセッサまたはデジタル信号処理装置上で実行されるためにメモリーに格納されるプログラムとして、ソフトウェアに実装される。
【0037】
レンダラ120は、第1の非相関化信号を得るために第1の分解信号を非相関化しおよび/または第2の非相関化信号を得るために第2の分解信号を非相関化することができる。換言すれば、レンダラ120は、異なる非相関性またはレンダリング特性を用いて、両方の分解信号を非相関化する。実施例において、レンダラ120は、非相関化の代わりにまたは加えて、振幅パニングを第1または第2の分解信号のいずれか1つに適用する。
【0038】
レンダラ120は、空間出力マルチチャネルオーディオ信号におけるチャネルと同様に多くのコンポーネントを有する第1および第2のレンダリングされた信号をレンダリングし、プロセッサ130は、空間出力マルチチャネルオーディオ信号を得るために第1および第2のレンダリングされた信号のコンポーネントを結合するのに適している。他の実施例において、レンダラ120は、空間出力マルチチャネルオーディオ信号より少ないコンポーネントを有する第1および第2のレンダリングされた信号をレンダリングすることができ、プロセッサ130は、空間出力マルチチャネルオーディオ信号を得るために第1および第2のレンダリングされた信号のコンポーネントをアップミキシングすることができる。
【0039】
図1bは、図1aの助けを借りて紹介されたのと類似の構成を有する装置100の他の実施例を示す。しかしながら、図1bはより詳細な構成を有する実施例を示す。図1bは、入力オーディオ信号およびオプションとして入力パラメータを受信する分解装置110を示す。図1bから分かるように、分解装置は第1の分解信号および第2の分解信号を破線で示されるレンダラ120に提供する。図1bに示す実施例において、第1の分解信号が第1の意味的特性として点状の音源に対応し、レンダラ120が第1のレンダリング特性としての振幅パニングを第1の分解信号に適用するものと仮定される。実施例において、第1および第2の分解信号は交換可能である、すなわち、別の実施例において、振幅パニングが第2の分解信号に適用される。
【0040】
図1bにおいて示される実施例において、レンダラ120は、第1の分解信号の信号経路において、第1の分解信号の2つのコピーを別に増幅する2台の調整可能な増幅器121および122を示す。実施例において、使用される異なる増幅率は入力パラメータから決定され、他の実施例において、それらは入力オーディオ信号から決定され、それはユーザーの入力に関してプリセットまたは局所的に発生する。2台の調整可能な増幅器121および122の出力はプロセッサ130に送られ、詳細は以下において与えられる。
【0041】
図1bから分かるように、分解装置110は第2の分解信号をレンダラ120に提供し、それは第2の分解信号の処理経路において異なるレンダリングを行う。他の実施例において、第1の分解信号は、第2の分解信号と同様にまたは代わりに現在説明されている経路において処理される。第1および第2の分解信号は、実施例において交換されることができる。
【0042】

【0043】
デコリレータ123は、単に信号を遅延させるための単一のタップを用いてIIRフィルタ(IIR=無限インパルス応答(Infinite Impulse Responce))、任意のFIRフィルタ(FIR=有限インパルス応答(Finite Impulse Responce))または特別なFIRフィルタとして行うことができる。
【0044】

【0045】

【0046】
第1の分解信号の処理経路にしたがって、2つの調整可能な増幅器121および122から得られる第1の分解信号の2つの振幅パンされたバージョンも、プロセッサ130に供給される。他の実施例において、調整可能な増幅器121および122はプロセッサ130に存在してもよく、第1の分解信号およびパニング要素だけが、レンダラ120によって与えられる。
【0047】
図1bに見られるように、図1aの空間出力マルチチャネルオーディオ信号に対応する左チャンネルLおよび右チャンネルRを有するステレオ信号を提供するために出力を結合することによるこの実施例で、プロセッサ130は第1のレンダリングされた信号と第2のレンダリングされた信号とを処理または結合することができる。
【0048】
図1bの実施例において、両方の信号経路で、ステレオ信号のための左右のチャネルは決定される。第1の分解信号の経路において、振幅パニングが2つの調整可能な増幅器121および122によって行われ、2つのコンポーネントが異なって増幅・減衰された2つの同相オーディオ信号という結果になる。これは、意味的特性またはレンダリング特性としての点状音源の印象に対応する。
【0049】

【0050】

【0051】
図2はより一般的な他の実施例を示す。図2は分解装置110に対応する意味的分解ブロック210を示す。意味的分解210の出力は、レンダラ120に対応するレンダリングステージ220の入力である。レンダリングステージ220は、多くの個々のレンダラ221〜22nから成る、すなわち、意味的分解装置210は、モノラル/ステレオ入力信号をn個の意味的特性を有するn個の分解信号に分解する。分解は分解制御パラメータに基づいて行われることができ、それはモノラル/ステレオ入力信号とともに与えられたり、プリセットされたり、局所的に発生させられたり、またはユーザーによって入力されたりすることができる。
【0052】
換言すれば、分解装置110は、任意の入力パラメータに基づいて意味的に入力オーディオ信号を分解し、および/または入力オーディオ信号から入力パラメータを決定することができる。
【0053】
非相関化またはレンダリングステージ220の出力は、非相関化またはレンダリングされた信号に基づいて、および任意にアップミックス制御パラメータに基づいて、マルチチャネル出力を決定するアップミックスブロック230に提供される。
【0054】
通常、実施例は音声素材をn個の異なる意味的コンポーネントに分割し、図2においてD1からDnまで表示された適合するデコリレータでそれぞれのコンポーネントを別々に非相関化する。換言すれば、実施例において、レンダリング特性は、分解信号の意味的特性に適合することができる。デコリレータまたはレンダラの各々は、適宜に分解された信号コンポーネントの意味的特性に適合することができる。その後、処理されたコンポーネントは、出力マルチチャネル信号を得るために混合されることができる。異なるコンポーネントは、例えば、フォアグラウンドおよびバックグラウンドモデリングオブジェクトに対応する。
【0055】
換言すれば、レンダラ110は、第1のレンダリングされた信号としてステレオまたはマルチチャネルアップミックス信号を得るために第1の分解信号および第1の非相関化信号を結合することができ、および/または第2のレンダリングされた信号としてステレオアップミックス信号を得るために第2の分解信号および第2の非相関化信号を結合することができる。
【0056】
さらに、レンダラ120は、バックグラウンドオーディオ特性に従って第1の分解信号をレンダリングしおよび/またはフォアグラウンドオーディオ特性に従って第2の分解信号をレンダリングすることができ、その逆も同様である。
【0057】
たとえば、拍手のような信号は、1つのはっきりした近くの拍手および非常に密度の高いはるか彼方の拍手から生じているノイズのような環境から成る信号として見られることができるので、この種の信号の適切な分解は、1つのコンポーネントとしての分離されたフォアグラウンドの拍手事象と他のコンポーネントとしてのノイズのようなバックグラウンドとを区別することによって得られる。換言すれば、実施例において、n=2である。このような実施例において、例えば、レンダラ120は、第1の分解信号の振幅パニングによって第1の分解信号をレンダリングする。換言すれば、フォアグラウンド拍手コンポーネントの相関またはレンダリングは、実施例において、その推定されたオリジナルの位置への各1つの事象の振幅パニングによって、D1において成し遂げられる。
【0058】
実施例において、レンダラ120は、例えば、第1または第2の非相関化信号を得るために第1または第2の分解信号を全域フィルタリングすることにより、第1および/または第2の分解信号をレンダリングする。
【0059】
換言すれば、実施例において、バックグラウンドは、相互に独立したm個の全域フィルタD21・・・mの使用により非相関化されるかレンダリングされることができる。実施例において、準定常バックグラウンドだけが全域フィルタによって処理され、最先端の非相関化方法の時間的な不鮮明化効果がこのように回避されることができる。振幅パニングがフォアグラウンドオブジェクトの事象に適用されるので、J.Breebaart. S. van de Par, A. Kohlraush, E. Schuijers, “High−Quality Parametric Spatial Audio Coding at Low Bitrates” in AES 116th Convention, Beroin, Preprint 6072, May 2004 and J. Herre. K. Kjoerling, J. Breebaart, wt . al., “MPEG Surround−the ISO/MPEG Standard for Efficient and Compatible Multi−Channel Audio Coding” in Proceedings of the 122nd AES Convention, Vienna, Austria, May 2007に示されているように、オリジナルのフォアグラウンドの拍手密度が最先端のシステムと対照的におよそ再構築される。
【0060】
換言すれば、実施例において、分解装置110は、入力パラメータに基づいて意味的に入力オーディオ信号を分解することができ、入力パラメータは、例えば副情報として入力オーディオ信号とともに供給される。このような実施例において、分解装置110は、入力オーディオ信号から入力パラメータを決定することができる。他の実施例において、分解装置110は入力オーディオ信号から独立した制御パラメータとして入力パラメータを決定することができ、それは、局所的に生成されるか、プリセットされるか、またはユーザーによって入力される。
【0061】
実施例において、レンダラ120は、広帯域振幅パニングを適用することによって、第1のレンダリングされた信号または第2のレンダリングされた信号の空間分布を得ることができる。換言すれば、上述の図1bの説明によれば、点状の音源を発生させる代わりに、音源のパニング位置は、特定の空間分布を有する音源を生成するために時間的に変化することができる。実施例において、レンダラ120が振幅パニングのための局所的に生成されたローパスノイズを適用し、すなわち、例えば図1bの調整可能な増幅器121および122のための振幅パニングのための倍率は、局所的に生成されたノイズ値に対応する、すなわち特定の帯域幅で時間変化する。
【0062】
実施例は、導波または非導波モードで動作させることができる。導波シナリオにおいて、例えば図2における破線を参照して、非相関性は、例えば、バックグラウンドまたは環境部分だけに粗い時間グリッドで制御される標準的な技術の非相関化フィルタを適用することによって達成されることができ、もっと細かい時間グリッドで広帯域振幅パニングを使用して時間変化空間位置を介したフォアグラウンド部分におけるそれぞれの事象の再分配によって相関を得ることができる。換言すれば、実施例において、レンダラ120は、例えば異なるタイムスケールに基づいて、異なる時間グリッドで異なる分解信号のためにデコリレータを操作することができ、それはそれぞれのデコリレータのための異なるサンプルレートまたは異なる遅延に関するものである。一実施例において、フォアグラウンドおよびバックグラウンドの分離を行うと、フォアグラウンド部分は振幅パニングを使用することができ、バックグラウンド部分に関するデコリレータのための動作より非常に細かい時間グリッドで振幅が変わる。
【0063】
さらに、例えば、拍手のような信号、すなわち準定常ランダム品質を有する信号の非相関性のために、それぞれ1つのフォアグラウンドの拍手の正確な空間位置は重大な重要性をもたず、むしろ多数の拍手事象の全体の分布の回復が強調される。実施例は、この事実を利用することができて、非導波モードで作動することができる。この種のモードにおいて、上述した振幅パニング要因は、ローパスノイズによって制御されることができる。図3は、シナリオを実装しているモノラルからステレオへのシステムを例示する。図3は、モノラル入力信号をフォアグラウンドおよびバックグラウンドの分解信号部分に分解するための分解装置110に対応する意味的分解ブロック310を示す。
【0064】
図3から分かるように、信号のバックグラウンド分解部分は、全域通過D1320によってレンダリングされる。非相関化信号は、レンダリングされないバックグラウンド分解部分とともに、プロセッサ130に対応するアップミックス330に与えられている。フォアグラウンド分解信号部分は、レンダラ120に対応する振幅パニングD2ステージ340に提供される。局所的に生成されたローパスノイズ350は、振幅パニングされた構成のフォアグラウンド分解信号をアップミックス330に提供することができる振幅パニングステージ340にも提供される。振幅パニングD2ステージ340は、オーディオチャンネルの2つのステレオ・セットの間の振幅選別のための倍率kを提供することによりその出力を決定する。倍率kは、ローパスノイズに基づく。
【0065】
図3から分かるように、振幅パニング340とアップミックス330との間に1つの矢印がある。この1つの矢印は、振幅パニングされた信号を示す、すなわちステレオアップミックスの場合、すでに左および右チャンネルを示す。図3から分かるように、プロセッサ130に対応するアップミックス330は、ステレオ出力を引き出すために、バックグラウンドおよびフォアグラウンド分解信号を処理または結合する。
【0066】
他の実施例はバックグラウンドおよびフォアグラウンド分解信号または分解のための入力パラメータを引き出すために本来の処理を使用する。分解装置110は、一時的な分離法に基づいて第1の分解信号および/または第2の分解信号を決定する。換言すれば、分解装置110は、分離法に基づいて第1および第2の分解信号を決定し、第1の決定された分解信号と入力オーディオ信号との間の違いに基づいて別の分解信号を決定する。他の実施例において、第1または第2の分解信号は、過渡分離法に基づいて決定され、別の分解信号は第1または第2の分解信号および入力オーディオ信号の間の違いに基づいて決定される。
【0067】
分解装置110および/またはレンダラ120および/またはプロセッサ130は、DirACモノラル合成ステージおよび/またはDirAC合成ステージおよび/またはDirAC結合ステージを含む。実施例において、分解装置110は入力オーディオ信号を分解することができ、レンダラ120は第1および/または第2の分解信号をレンダリングすることができ、および/または、プロセッサ130は異なる周波数帯域に関して第1および/または第2のレンダリングされた信号を処理することができる。
【0068】
実施例は、拍手のような信号のために次の近似を使用することができる。フォアグラウンドコンポーネントは過渡検出または分離法によって得ることができる一方(Pulkki, Ville; “Spatial Sound Reproduction with Directional Audio Coding” in J. Audio Eng. Soc., Vol. 55, No.6, 2007参照)、バックグラウンドコンポーネントは残留信号によって得ることができる。図4は、例えば、図3における意味的分解310、すなわち分解装置120の実施例を実行するための拍手のような信号x(n)のバックグラウンドコンポーネントx´(n)を得るための適切な方法の実施例を示す。図4は、DFT410(DFT=離散フーリエ変換(Discrete Fourier Transform))に入力される時間的離散入力信号x(n)を示す。DFTブロック410の出力は、スペクトルを平滑化するためのブロック420に与えられ、DFTの出力および平滑化スペクトルステージ430の出力に基づいてスペクトルホワイトニングするためのスペクトルホワイトニングブロック430に与えられる。
【0069】
スペクトルホワイトニングステージ430の出力は、スペクトルを分離して、2つの出力、すなわちノイズおよび過渡残留信号および音の信号を提供するスペクトルピーク選別ステージ440に送られる。ノイズおよび過渡残留信号は、残留ノイズ信号がスペクトルピーク選別ステージ440の出力としての音の信号と共にミキシングステージ460に提供されるLPCフィルタ450(LPC=線形予測符合化(Linear Prediction Coding))に提供される。ミキシングステージ460の出力は、平滑化スペクトルステージ420によって与えられる平滑化されたスペクトルに基づいてスペクトルを成形するスペクトル成形ステージ470に送られる。スペクトル成形ステージ470の出力は、バックグラウンドコンポーネントを表すx´(n)を得るために、合成フィルタ480、すなわち逆離散フーリエ変換に送られる。フォアグラウンドコンポーネントは、入力信号および出力信号の違いとして、すなわちx(n)−x´(n)として引き出されることができる。
【0070】
本発明の実施例は、3Dゲームとして仮想現実感アプリケーションで動作させることができる。この種のアプリケーションにおいて、従来の概念に基づくときに、大きい空間広がりを有する音源の合成は複雑である。この種の音源は、例えば、海岸、鳥の群れ、全速力で走る馬、行進兵士の分割、拍手をする観衆などである。概して、この種の音声事象は、計算の複雑さにつながる点状の音源の大きなグループとして空間的に拡がる。Wagner, Andreas; Walther, Andreas; Melchoir, Frank; Straus, Michael; “Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction” at 116th International EAS Convention, Berlin, 2004参照。
【0071】
実施例は、もっともらしく音源の範囲の合成を行うが、同時に、構造上および計算上のより低い複雑さを有する方法を実施する。実施例は、DirAC(DirAC=方向オーディオ符合化(Directional Audio Coding))に基づく。Pulkki、Ville; “Spatial Sound Reproduction with Directional Audio Coding” in J. Audio Eng. Soc., Vol. 55, No. 6, 2007参照。換言すれば、実施例において、分解装置110および/またはレンダラ120および/またはプロセッサ130はDirAC信号を処理する。換言すれば、分解装置110はDirACモノラル合成ステージを含み、レンダラ120はDirAC合成ステージを含み、および/またはプロセッサはDirAC結合ステージを含む。
【0072】
例えば、実施例は、例えば1つはフォアグラウンド音源のための、1つはバックグラウンド音源のための2つの合成構造だけを使用するDirAC処理に基づく。フォアグラウンド音は制御方向データを有する単一のDirACストリームに適用され、近くの点状の音源の認知という結果になる。バックグラウンド音は異なる制御をされた方向データを有する1つの直接的なストリームを再生し、それは空間的に広げられた音声オブジェクトの認知という結果になる。2つのDirACストリームは結合され、例えば、任意のスピーカのセットアップのために、または、ヘッドホンのために復号化される。
【0073】
図5は、空間的に大きい範囲を有する音源の合成を示す。図5は、近くの観衆の拍手のような近くの点状音源の認知に至るモノラルDirACストリームをつくる上のモノラル合成ブロック610を示す。下のモノラル合成ブロック620は、例えば、観衆からの拍手の音としてバックグラウンド音を生成する空間的に広げられた音の認知に至るモノラルDirACストリームをつくるために用いられる。2つのDirACモノラル合成ブロック610および620の出力は、DirAC結合ステージ630において結合される。図5は、2つのDirAC合成ブロック610および620だけが本実施例において用いられることを示す。それらのうちの1つは、近くの鳥または拍手をする観衆の中の近く人のようなフォアグラウンドにある音声事象をつくるために用いられ、その他は、バックグラウンド音、連続する鳥の群れの音などを生成する。
【0074】
フォアグラウンド音は、方位角データが周波数で一定に保たれるようにDirACモノラル合成ブロック610でモノラルDirACストリームに変換されるが、ランダムに変化しまたは時間内の外部過程によって制御される。拡散性パラメータψは0に設定される、すなわち点状の音源を表している。ブロック610へのオーディオ入力は、例えばはっきりと区別できる鳥の鳴き声または拍手のように、時間的にオーバーラップしない音であるとみなされ、それは鳥や拍手のように近くの音源の認識を生成する。個々の音声事象はθ±θrange_foreground方向において把握されるが、単事象は点状であると把握されるθおよびθrange_foregroundを調整することによって、フォアグラウンド音事象の空間広がりは制御される。換言すれば、点状音源は、点の可能な位置が範囲θ±θrange_foregroundに限定されている所で生成される。
【0075】
バックグラウンドブロック620は、入力音声ストリームとして、例えば何百もの鳥または多くの遠くの拍手のような時間的にオーバーラップする多くの音声事象を含むことを目的として、フォアグラウンドオーディオストリームに存在しない全ての他の音声事象を含む信号をとる。所定の制限方位値θ±θrange_backgroundの範囲で、与えられた方位角の値は、時間および周波数においてランダムに設定される。バックグラウンド音の空間広がりは、低い計算量で合成されることができる。また、拡散ψも制御される。それが加えられる場合、DirACデコーダは、全体として音源が聴取者を囲むときに用いることができるすべての方向に音を適用するであろう。この実施例において、それが囲まない場合、拡散は低く抑えられるか、0に近いか、または0である。
【0076】
本発明の実施例は、レンダリングされた音の優れた知覚的品質が手頃な計算コストで成し遂げられるという効果を提供することができる。たとえば、図5に示されるように、実施例は空間音声レンダリングのモジュールの実施を可能にすることができる。
【0077】
発明の方法の特定の実現要求に応じて、発明の方法は、ハードウェアにおいて、または、ソフトウェアで行うことができる。実現は、特に、電子的に読み込み可能な制御信号を有するフラッシュメモリ、ディスク、DVDまたはCDなどのデジタル記憶媒体を使用して実行されることができ、発明の方法が実行されるように、プログラム可能なコンピューターシステムと協働する。通常、本発明は、機械で読み取ることができるキャリアに格納されるプログラムコードを有するコンピュータプログラム製品であって、コンピュータプログラム製品がコンピュータ上で動作するときに、プログラムコードが発明の方法を実行するように実行される。換言すれば、発明の方法は、コンピュータプログラムがコンピュータ上で動作するときに、発明の方法のうちの少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。

【特許請求の範囲】
【請求項1】
入力オーディオ信号に基づいて空間出力マルチチャネルオーディオ信号を決定する装置(100)であって、
第1の意味的特性を有する第1の分解信号、および前記第1の意味的特性と異なる第2の意味的特性を有する第2の分解信号を得るために、入力オーディオ信号を分解するための分解装置(110)、
前記第1の意味的特性を有する第1のレンダリングされた信号を得るために第1のレンダリング特性を用いて前記第1の分解信号をレンダリングし、前記第2の意味的特性を有する第2のレンダリングされた信号を得るために第2のレンダリング特性を用いて前記第2の分解信号をレンダリングするためのレンダラ(120)であって、前記第1のレンダリング特性と前記第2のレンダリング特性とは異なるものであるレンダラ、および
前記空間出力マルチチャネルオーディオ信号を得るために前記第1のレンダリングされた信号および前記第2のレンダリングされた信号を処理するプロセッサ(130)を含む、装置。
【請求項2】
前記第1のレンダリング特性は前記第1の意味的特性に基づき、前記第2のレンダリング特性は前記第2の意味的特性に基づく、請求項1に記載の装置。
【請求項3】
前記レンダラ(120)は、前記第1のレンダリング特性が遅延導入特性をもたず、または前記第1のレンダリング特性が第1の遅延を含む第1の遅延量を有する遅延導入特性を有するように前記第1の分解信号をレンダリングし、前記第2のレンダリング特性は、前記第1の遅延量より多い第2の遅延量を有する、請求項1または請求項2に記載の装置。
【請求項4】
前記レンダラ(120)は、第1のレンダリング特性としての振幅パニングにより前記第1の分解信号をレンダリングし、第2のレンダリング特性としての第2の非相関化信号を得るために前記第2の分解信号を非相関化する、請求項1ないし請求項3のいずれかに記載の装置(100)。
【請求項5】
前記レンダラ(120)は、それぞれが空間出力マルチチャネルオーディオ信号におけるチャネルと同じくらい多くのコンポーネントを有する前記第1および第2のレンダリングされた信号をレンダリングし、前記プロセッサ(130)は、空間出力マルチチャネルオーディオ信号を得るために前記第1および第2のレンダリングされた信号のコンポーネントを結合する、請求項1ないし請求項4のいずれかに記載の装置(100)。
【請求項6】
前記レンダラ(120)は、それぞれが空間出力マルチチャネルオーディオ信号より少ないコンポーネントを有する前記第1および第2のレンダリングされた信号をレンダリングし、前記プロセッサ(130)は、空間出力マルチチャネルオーディオ信号を得るために前記第1および第2のレンダリングされた信号のコンポーネントをアップミキシングする、請求項1ないし請求項4のいずれかに記載の装置(100)。
【請求項7】
前記レンダラ(120)は、第1のレンダリング特性としてのフォアグラウンドオーディオ特性に従って前記第1の分解信号をレンダリングし、第2のレンダリング特性としてのバックグラウンドオーディオ特性に従って前記第2の分解信号をレンダリングする、請求項1ないし請求項6のいずれかに記載の装置(100)。
【請求項8】
前記レンダラ(120)は、前記第2の非相関化信号を得るために第2の信号を全域通過フィルタリングすることにより前記第2の分解信号をレンダリングする、請求項4ないし請求項7のいずれかに記載の装置(100)。
【請求項9】
前記分解装置(110)は、前記入力オーディオ信号からの制御パラメータとして入力パラメータを決定する、請求項1に記載の装置(100)。
【請求項10】
前記レンダラ(120)は、広帯域振幅パニングを適用することによって前記第1または第2のレンダリングされた信号の空間分布を得る、請求項4ないし請求項9のいずれかに記載の装置(100)。
【請求項11】
前記レンダラ(120)は、異なる時間グリッドに基づいて前記第1の分解信号および前記第2の分解信号をレンダリングする、請求項1ないし請求項10のいずれかに記載の装置(100)。
【請求項12】
前記分解装置(110)は、過渡分離法に基づいて前記第1の分解信号および/または前記第2の分解信号を決定する、請求項1ないし請求項11のいずれかに記載の装置(100)。
【請求項13】
前記分解装置(110)は、過渡分離法により前記第1の分解信号または前記第2の分解信号の一方を決定し、それと前記入力オーディオ信号との間の差に基づいて他方を決定する、請求項12に記載の装置(100)。
【請求項14】
前記分解装置(110)および/または前記レンダラ(120)および/または前記プロセッサ(130)は、DirACモノラル合成ステージおよび/またはDirAC合成ステージおよび/またはDirAC結合ステージを含む、請求項1ないし請求項13のいずれかに記載の装置(100)。
【請求項15】
前記分解装置(110)は入力オーディオ信号を分解し、前記レンダラ(120)は前記第1および/または第2の分解信号をレンダリングし、および/または前記プロセッサ(130)は異なる周波数帯域に関して前記第1および/または第2のレンダリングされた信号を処理する、請求項1ないし請求項14のいずれかに記載の装置(100)。
【請求項16】
入力オーディオ信号および入力パラメータに基づいて空間出力マルチチャネルオーディオ信号を決定する方法であって、
第1の意味的特性を有する第1の分解信号、および第1の意味的特性と異なる第2の意味的特性を有する第2の分解信号を得るために、入力オーディオ信号を分解するステップ、
第1の意味的特性を有する第1のレンダリングされた信号を得るために第1のレンダリング特性を用いて前記第1の分解信号をレンダリングするステップ、
第2の意味的特性を有する第2のレンダリングされた信号を得るために第2のレンダリング特性を用いて前記第2の分解信号をレンダリングするステップであって、前記第1のレンダリング特性と前記第2のレンダリング特性とが互いに異なるものであるステップ、および
前記空間出力マルチチャネルオーディオ信号を得るために前記第1のレンダリングされた信号および前記第2のレンダリングされた信号を処理するステップを含む、方法。
【請求項17】
プログラムコードがコンピュータまたはプロセッサで動くときに、請求項16の方法を実行するためのプログラムコードを有する、コンピュータプログラム。

【図1a】
image rotate

【図1b】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公表番号】特表2011−530913(P2011−530913A)
【公表日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願番号】特願2011−522431(P2011−522431)
【出願日】平成21年8月11日(2009.8.11)
【国際出願番号】PCT/EP2009/005828
【国際公開番号】WO2010/017967
【国際公開日】平成22年2月18日(2010.2.18)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【Fターム(参考)】