説明

空間的オーディオのパラメータ表示

【課題】 回復した信号の知覚的品質が高い改良されたオーディオ符号化を提供する問題を解決することである。
【解決手段】要約すると、このアプリケーションは音響心理学により動機付けられた、マルチチャンネルオーディオ信号の空間的属性のパラメータ表示を説明している。このパラメータ表示によると、信号の空間的特性を記述する(量子化された)パラメータをあわせて、ただ1つのモノラル信号を送信するだけなので、オーディオコーダにおいてビットレートを大幅に減らすことができる。デコーダは、その空間的パラメータを適用することによって、オーディオチャンネルの元の量を形成することができる。CD品質に近いステレオオーディオのために、10kbit/s以下の空間的パラメータと関連したビットレートは、受信側で正しい空間的印象を再生するために十分であると思われる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はオーディオ信号の符号化に関し、特にマルチチャンネルオーディオ信号の符号化に関する。
【背景技術】
【0002】
オーディオ符号化の分野では、例えば、オーディオ信号の知覚品質を不当に妥協することなく、信号の通信のためのビットレートや信号を記憶するための記憶容量を減らすために、オーディオ信号を符号化することが一般的に望まれている。これは、オーディオ信号を通信容量が制限された通信チャンネルを介して送信しなければならないときや、記憶容量が制限された記憶媒体に記憶しなければならないときに、重要な問題である。
【0003】
ステレオプログラムのビットレートを減らすために提案されたオーディオコーダの先行ソリューションには、以下のものがある。
【0004】
「インテンシティステレオ」。このアルゴリズムでは、高い周波数(典型的には5kHzより上)は時間的に変化する周波数に依存するスケールファクターと結合した単一のオーディオ信号(すなわち、モノラル)により表される。
【0005】
「M/Sステレオ」。このアルゴリズムでは、信号は和信号(または中間、若しくは共通信号)と差信号(サイド、または非共通信号)に分解される。この分解は、主成分分析または時間変動スケールファクターと組み合わせられることもある。その後、これらの信号は、変換コーダまたは波形コーダのいずれかによって、独立に符号化される。このアルゴリズムにより達成される情報量の低減は、ソース信号の空間特性に強く依存する。例えば、ソース信号がモノラルのとき、差信号はゼロであり捨てることができる。しかし、左右のオーディオ信号の相関が低いとき(こういう場合が頻繁におこる)、この方法にはほとんど有利性がない。
【0006】
近年オーディオ信号のパラメータによる記述が特にオーディオ符号化の分野において注目を集めている。オーディオ信号を記述する(量子化された)パラメータの送信は、受信側において、知覚的に等しい信号を再合成するためにほとんど送信容量を必要としない。しかし、現在のパラメータによるオーディオコーダは、モノラル信号の符号化に焦点を絞っており、ステレオ信号は2つのモノラル信号として頻繁に処理される。
【0007】
特許文献1は、LとR成分を持つステレオ信号を符号化する方法を開示している。これによると、ステレオ信号はステレオ成分の1つと、オーディオ信号の位相差とレベル差を捉えたパラメータ情報により表される。デコーダにおいて、他のステレオ成分は、符号化されたステレオ成分とパラメータ情報に基づき回復される。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】欧州特許出願第1107232号
【発明の開示】
【発明が解決しようとする課題】
【0009】
本発明の目的は、回復した信号の知覚的品質が高い改良されたオーディオ符号化を提供する問題を解決することである。
【課題を解決するための手段】
【0010】
上記およびその他の問題は、オーディオ信号を符号化する方法であって、
− 少なくとも2つの入力オーディオチャンネルの組み合わせを有するモノラル信号を生成するステップと、
− 前記少なくとも2つの入力オーディオチャンネルの空間的特性を示す一組の空間パラメータを決定するステップと、ここで前記一組の空間パラメータは前記少なくとも2つの入力オーディオチャンネルの波形の類似度を表すパラメータを含み、
− 前記モノラル信号と前記一組の空間パラメータを有する符号化信号を生成するステップとを有する方法により解決される。
【0011】
本願の発明者は、モノラルオーディオ信号および対応する波形の類似度を含む多数の空間的特性としてマルチチャンネルオーディオ信号を符号化することにより、マルチチャンネル信号を高い知覚的品質で回復できることに想到した。本発明がさらに有する有利性は、マルチチャンネル信号、すなわち少なくとも第1と第2のチャンネルを有する、例えばステレオ信号や4チャンネル信号の効率的な符号化を提供することである。
【0012】
よって、本発明の一態様によると、マルチチャンネルオーディオ信号の空間的特性がパラメータ表示される。一般的なオーディオ符号化アプリケーションについて、これらのパラメータを1つだけのモノラルオーディオ信号と組み合わせて送信することは、チャンネルを独立に処理するオーディオコーダと比較して、ステレオ信号を送信するのに必要な送信容量を非常に減少させるが、元の空間的印象は維持できる。重要な問題は、視聴者は聴覚的オブジェクトの波形を2回(1回は左耳で、もう一回は右耳で)受け取るが、一定の位置にあり一定のサイズ(または空間的発散)の単一の聴覚的オブジェクトのみを知覚する。
【0013】
それゆえ、オーディオ信号を2つ以上の(独立な)波形として記述することが必要と思われ、一組の聴覚的オブジェクトであって各々がそれ自身の空間的特性を持つものとしてマルチチャンネルオーディオを記述する方がよいであろう。直ちに持ち上がる困難として、与えられた聴覚的オブジェクトのアンサンブル、例えば音楽録音から個々の聴覚的オブジェクトを自動的に分離することはほとんど不可能だということである。この問題は個々の聴覚的オブジェクトのプログラムマテリアルを分離しないで、聴覚システムの有効な(周辺の)処理に似た方法で空間的パラメータを記述することにより回避することができる。空間的属性が対応する波形の(非)類似度を含むとき、高い知覚的品質を維持しつつ効率的な符号化を達成することができる。
【0014】
特に、ここで提示したマルチチャンネルオーディオのパラメータ表示は、Breebaart等により提示されたバイノーラル処理モデルに関する。このモデルは、バイノーラル聴覚システムの効果的な信号処理を記述することを目的としている。Breebaart等によるバイノーラル聴覚処理モデルの記述は、
Breebaart, J.、van de Par, S.、Kohlrausch, A.(2001a)「反側性抑制に基づくバイノーラル処理モデルI モデル設定」J. Acoust. Soc. Am.、110、1074-1088;
Breebaart, J.、van de Par, S.、Kohlrausch, A.(2001b)「反側性抑制に基づくバイノーラル処理モデルII スペクトルパラメータへの依存性」J. Acoust. Soc. Am.、110、1089-1104;
Breebaart, J.、van de Par, S.、Kohlrausch, A.(2001c)「反側性抑制に基づくバイノーラル処理モデルIII モデル設定」J. Acoust. Soc. Am.、110、1105-1117を参照せよ。本発明を理解するのに役立つように、短い解釈を以下に記す。
【0015】
好ましい実施形態において、一組の空間的パラメータは少なくとも1つの位置推定キューを含む。対応する波形の(非)類似度と同様に、1以上の、好ましくは2つの位置推定キューを空間的属性が有するとき、特に高い知覚的品質のレベルを維持しつつ、特に効率的な符号化が達成される。
【0016】
位置推定キューという用語は、オーディオ信号に貢献する聴覚的オブジェクトの位置推定、例えば聴覚的オブジェクトの方向と距離に関する情報を運ぶ好適なパラメータを含む。
【0017】
本発明の好ましい実施形態において、一組の空間的パラメータは、チャンネル間レベル差(ILD)、およびチャンネル間時間差(ITD)とチャンネル間位相差(IPD)のうちの選択された一方を有する少なくとも2つの位置推定キューを含む。チャンネル間レベル差とチャンネル間時間差は水平面内において最も重要な位置推定キューであると考えられることは興味深い。
【0018】
第1と第2のオーディオチャンネルに対応する波形の類似度は、対応する波形がどのくらい類似するか、または非類似であるかを記述するいかなる好適な関数であってもよい。よって、類似度は類似性の単調増加関数、例えばチャンネル間相互相関(関数)から決められるパラメータであってもよい。
【0019】
好ましい実施形態によると、類似度は、相互相関関数が最大となる(コヒーレンスとしても知られている)前記相互相関関数の値に対応する。最大のチャンネル間相互相関は、サウンドソースの知覚的空間的発散(または密集)と強く関係している。すなわち、上記位置推定キューにより説明されない付加的情報を提供する。それにより、伝えられる情報の冗長度の低い一組のパラメータを提供し、よって効率的な符号化を可能とする。
【0020】
代替的に、類似性の他の測度、例えば波形の非類似性とともに増加する関数等を用いてもよいことに注意すべきである。上記の関数としては、例えば1-cであり、ここでcは0と1の間の値を取ると仮定した相互相関である。
【0021】
本発明の好ましい実施形態によると、空間的特性を示す一組の空間パラメータを決定する前記ステップは、一組の空間パラメータを時間と周波数の関数として決定するステップを有する。
【0022】
本願発明者の洞察によると、ILD、ITD(またはIPD)、および時間と周波数の関数としての最大相関を特定することにより、いかなるマルチチャンネルオーディオ信号の空間的特性を記述するにも十分である。
【0023】
本発明のさらに好適な実施形態において、空間的特性を示す一組の空間パラメータを決定する前記ステップは、
− 前記少なくとも2つのオーディオチャンネルの各々を対応する複数の周波数帯に分けるステップと、
− 前記複数の周波数帯の各々について、前記対応する周波数帯中の前記少なくとも2つの入力オーディオチャンネルの空間特性を現す前記一組の空間パラメータを決定するステップとを有する。
【0024】
よって、入来するオーディオ信号はいくつかの帯域制限信号に分割され、(好ましくは)ERBレートスケールで線形に間隔をあけられる。好ましくは、分析フィルターにより周波数および/または時間ドメインの部分的重複を示す。これらの信号の帯域幅は中心周波数に依存し、ERBレートにも依存する。その後、好ましくはすべての周波数帯域について、入来信号の以下の特性が分析される:
− チャンネル間レベル差、すなわちILD。左右の信号から生じる帯域制限信号の相対的レベルにより定義される。
− チャンネル間時間(または位相)差(ITDまたはIPD)。チャンネル間相互相関関数のピークの位置に対応するチャンネル間遅延(または位相シフト)により定義される。
− ITDやILDで説明できない波形の(非)類似性。チャンネル間の最大相互相関によりパラメータ表示が可能である(すなわち、最大ピークの位置における正規化された相互相関関数の値であり、コヒーレンスとしても知られている)。
【0025】
上で説明した3つのパラメータは、時間により変化する。しかし、バイノーラル聴覚システムは処理が非常に遅いので、これらの特性の更新レートはむしろ低い(一般的に数10ミリ秒)。
【0026】
上で説明した(ゆっくりと)時間変化する特性は、バイノーラル聴覚システムが有する空間的信号特性のみであり、これらの時間および周波数に依存するパラメータから知覚された聴覚世界は聴覚システムのより高いレベルにより再構成されると仮定してもよい。
【0027】
本発明の一実施形態は、
入力信号の一定の組み合わせから構成される1つのモノラル信号と、
一組の空間的パラメータ:好ましくはすべての時間/周波数スロットについての2つの位置推定キュー(ILD、ITD、およびIPD)と、ILDおよび/またはITDにより説明できない波形の類似性また非類似性を記述するパラメータ(例えば、相互相関関数の最大値)によりマルチチャンネルオーディオ信号を記述することを目的としている。好ましくは、空間的パラメータは、各付加的聴覚チャンネルについて空間的パラメータが含まれる。
【0028】
パラメータの送信において重要な問題は、パラメータ表示の正確性(すなわち、量子化エラーの大きさ)である。この正確性は必要な送信容量に直接関係する。
【0029】
本発明のさらに他の好ましい実施形態によると、前記モノラル信号と前記一組の空間パラメータを有する符号化信号を生成する前記ステップは、一組の量子化された空間的パラメータであって各々は前記対応する決定された空間的パラメータに関係する対応する量子化エラーを導入するものを生成するステップを有し、前記導入された量子化エラーの少なくとも1つが前記決定された空間的パラメータの少なくとも1つの値に依存するよう制御される。
【0030】
よって、パラメータの量子化により入り込んだ量子化エラーは、これらのパラメータの変化に対する人間の聴覚システムの感度により制御される。この感度はパラメータ自身の値に強く依存する。よって、パラメータの値に依存するように量子化エラーを制御することにより改良された符号化が達成される。
【0031】
オーディオコーダにおいてモノラルとバイノーラル信号パラメータの分離をすることは本発明の有利性である。よって、ステレオオーディオコーダに関連した問題が非常に少なくなる(聴覚間相関量子化ノイズと比較される聴覚間非相関量子化ノイズの可聴性、またはデュアルモノモードで符号化しているパラメータコーダの聴覚間位相不一致)。
【0032】
空間的パラメータは低い更新レートと低い周波数解像度しか要しないので、オーディオコーダのビットレートを大幅に低減できることが本発明のさらなる有利性である。空間的パラメータを符号化する関連するビットレートは、一般的には10kbit/sより低い(以下の実施形態を参照)。
【0033】
既存のオーディオコーダと容易に組み合わせることができることは、本発明のさらなる有利性である。提案された方法によると、既存の符号化ストラテジーで符号化および復号できる1つのモノラル信号が作られる。モノラル復号の後、ここに説明したシステムは適当な空間的属性でステレオマルチチャンネル信号を再生する。
【0034】
一組の空間的パラメータは、オーディオコーダの拡張レイヤーとして用いることもできる。例えば、モノラル信号は、低いビットレートだけが許されるとき送信されるが、空間拡張レイヤーを含めることにより、デコーダはステレオサウンドを再生できる。
【0035】
本発明はステレオ信号に限定されず、nチャンネル(n>1)を有するいかなるマルチチャンネル信号に適用してもよい。特に、本発明は、(n-1)組の空間的パラメータが送信されたとき、1つのモノラル信号からnチャンネルを生成するために用いることができる。この場合、空間的パラメータは、単一のモノラル信号からn個の異なるオーディオチャンネルをどのように形成するかを記述する。
【0036】
本発明は、上で説明した、および以下で説明する方法、符号化されたオーディオ信号を復号する方法、エンコーダ、デコーダ、プロダクト手段を含む異なる態様で実施することができる。これらは各々、さらに最初に説明した方法に関して説明した1以上の利益と利点を生じ、最初に説明した方法に関して説明したおよび従属項に開示した好ましい実施形態に対応する1以上の好ましい実施形態を有する。
【0037】
上で説明した方法および以下に説明する方法の特徴は、ソフトウェアで実施してもよく、コンピュータ実行可能な命令の実行によりデータ処理システムまたは他の処理手段で実行してもよい。この命令は、記憶媒体からまたはコンピュータネットワークを介して他のコンピュータからRAM等のメモリにロードされたプログラムコード手段でもよい。代替的に、説明した特徴は、ソフトウェアまたはその組み合わせではなく、物理的に組み込まれた回路により実施してもよい。
【0038】
本発明は、オーディオ信号を符号化するエンコーダであって、
− 少なくとも2つの入力オーディオチャンネルの組み合わせを有するモノラル信号を生成する手段と、
− 前記少なくとも2つの入力オーディオチャンネルの空間的特性を示す一組の空間パラメータを決定する手段と、ここで前記一組の空間パラメータは前記少なくとも2つの入力オーディオチャンネルの波形の類似度を表すパラメータを含み、
− 前記モノラル信号と前記一組の空間パラメータを有する符号化信号を生成する手段とを有するエンコーダにさらに関する。
【0039】
上記のモノラル信号を生成する手段、一組の空間パラメータを決定する手段、および符号化信号を生成する手段は、好適な回路または機器により実施してもよい。例えば、汎用または特定用途用プログラマブルマイクロプロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途用集積回路(ASIC)、プログラマブルロジックアレイ(PLA)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途電子回路、またはこれらの組み合わせ等である。
【0040】
本発明は、オーディオ信号を供給する装置であって、
− オーディオ信号を受信する入力と、
− 符号化されたオーディオ信号を取得するために前記オーディオ信号を符号化する、上で説明したまたは以下で説明するエンコーダと、
− 前記符号化されたオーディオ信号を供給する出力とを有する装置にさらに関する。
【0041】
本装置は、据え置き型またはポータブルのコンピュータ、据え置き型またはポータブルのラジオ通信機器、その他のハンドヘルドまたはポータブルデバイス、例えばメディアプレーヤ、レコーディング機器等である電子機器またはその一部であってもよい。ポータブルラジオ通信機器という用語は、携帯電話、ページャ、コミュニケータ、すなわち電子オーガナイザ、スマートフォン、パーソナルデジタルアシスタント(PDA)、ハンドヘルドコンピュータ、その他を含む。
【0042】
入力は、例えば、ラインジャック等の有線コネクションを介して、ラジオ信号等の無線コネクションを介して、またはその他の好適な方法で、アナログまたはデジタル形式のマルチチャンネルオーディオ信号を受信するための好適な回路または機器を有する。
【0043】
同様に、出力は、符号化された信号を供給するいかなる好適な回路または機器を有していてもよい。上記の出力の例としては、LAN、インターネット等のコンピュータネットワークに信号を供給するネットワークインターフェイス、無線通信チャンネル等の通信チャンネルを介して信号を通信する通信回路を含む。他の実施形態において、本出力は、信号を記憶媒体に記憶する機器を有してもよい。
【0044】
本発明は、符号化されたオーディオ信号であって、
少なくとも2つのオーディオチャンネルの組み合わせを有するモノラル信号と、
前記少なくとも2つの入力オーディオチャンネルの空間的特性を示す一組の空間的パラメータであって、前記少なくとも2つの入力オーディオチャンネルの波形の類似度を表すパラメータを含むものとを有する信号にさらに関する。
【0045】
本発明は、上記の符号化された信号を記憶した記憶媒体にさらに関する。ここで、記憶媒体という用語は、磁気テープ、光ディスク、デジタルビデオディスク(DVD)、コンパクトディスク(CDまたはCD-ROM)、ミニディスク、ハードディスク、フロッピー(登録商標)ディスク、強誘電メモリ、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、フラッシュメモリ、EPROM、リードオンリメモリ(ROM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、シンクロナスダイナミックランダムアクセスメモリ(SDRAM)、強磁性メモリ、光記憶、電荷結合素子、スマートカード、PCMCIAカード等を含むが、これらに限定されない。
【0046】
本発明は、符号化されたオーディオ信号を復号する方法であって、
少なくとも2つのオーディオチャンネルの組み合わせモノラル信号を前記符号化されたオーディオ信号から取得するステップと、
前記少なくとも2つのオーディオチャンネルの波形の類似度を表すパラメータを含む一組の空間的パラメータを前記符号化されたオーディオ信号から取得するステップと、
前記モノラル信号と前記空間的パラメータからマルチチャンネル出力信号を生成するステップとを有する方法にさらに関する。
【0047】
本発明は、符号化されたオーディオ信号を復号するデコーダであって、
少なくとも2つのオーディオチャンネルの組み合わせモノラル信号を前記符号化されたオーディオ信号から取得する手段と、
前記少なくとも2つのオーディオチャンネルの波形の類似度を表すパラメータを含む一組の空間的パラメータを前記符号化されたオーディオ信号から取得する手段と、
前記モノラル信号と前記空間的パラメータからマルチチャンネル出力信号を生成する手段とを有するデコーダにさらに関する。
【0048】
上記の手段は、いかなる好適な回路または機器により実施してもよい。例えば、汎用または特定用途用プログラマブルマイクロプロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途用集積回路(ASIC)、プログラマブルロジックアレイ(PLA)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途電子回路、またはこれらの組み合わせ等である。
【0049】
本発明は、復号されたオーディオ信号を供給する装置であって、
− 符号化されたオーディオ信号を受信する入力と、
− マルチチャンネル出力信号を取得するために符号化されたオーディオ信号を復号する、請求項14に記載のデコーダと、
− 前記マルチチャンネル出力信号を供給または再生する出力とを有する装置にさらに関する。
【0050】
本装置は、上で説明したように、いかなる電子機器またはその一部であってもよい。
【0051】
入力は、符号化されたオーディオ信号を受信するいかなる好適な回路または機器を有していてもよい。上記の入力の例としては、LAN、インターネット等のコンピュータネットワークに信号を受信するネットワークインターフェイス、無線通信チャンネル等の通信チャンネルを介して信号を受信する通信回路を含む。他の実施形態において、本入力は、信号を記憶媒体から読み出す機器を有してもよい。
【0052】
同様に、出力は、デジタルまたはアナログ形式でマルチチャンネル信号を供給するいかなる好適な回路または機器であってもよい。
【図面の簡単な説明】
【0053】
本発明のこれらのおよびその他の態様は、図面を参照して以下に説明した実施形態から明らかとなるであろう。
【図1】本発明の一実施形態によるオーディオ信号を符号化する方法を示すフロー図である。
【図2】本発明の一実施形態による符号化システムの概略ブロック図である。
【図3】オーディオ信号の合成に用いるフィルター方法を示す図である。
【図4】オーディオ信号の合成に用いるデコリレータを示す図である。
【発明を実施するための形態】
【0054】
図1は、本発明の一実施形態によるオーディオ信号を符号化する方法を示すフロー図である。
【0055】
最初のステップS1において、入来信号LとRは、バンドパス信号(好ましくは、周波数に従って増加するバンド幅で)に分離している。参照番号101により示されている。それらのパラメータを時間の関数として分析できる。時間/周波数スライスの可能な方法としては、時間ウィンドウを使用しその後変換操作をすることである。しかし、時間連続法を用いることもできる(例えば、フィルターバンク)。このプロセスの時間および周波数解像度は、好ましくは信号に適合される。過渡信号においては、微細な時間分解能(数ミリ秒のオーダー)と粗い周波数分解能が好ましい。一方、非過渡信号においては、より細かい周波数分解能をより粗い時間分解能(数十ミリ秒のオーダー)が好ましい。その後、ステップS2において、対応するサブバンド信号のレベル差(ILD)が決定される。ステップS3において、対応するサブバンド信号時間差(ITDまたはIPD)が決定される。ステップS4において、ILDまたはITDで説明できない波形の類似度または非類似度を記述する。これらのパラメータの分析については、下で説明する。
【0056】
ステップS2:ILDの分析
ILDは、与えられた周波数バンドの一定の時刻において信号のレベル差により決定される。ILDを決定する1つの方法は、両方の入力チャンネルの対応する周波数バンドの自乗平均(rms)値を測り、これらの自乗平均値の比を算出する(好ましくはdBで表される)ことである。
【0057】
ステップS3:ITDの分析
ITDは、両方のチャンネルの波形の間で最もよく一致するよう、時間または位相の調整を行うことにより決定される。ITDを取得する方法としては、2つの対応するサブバンド信号間の相互相関関数を算出し、その最大値を探すことがある。相互相関関数のこの最大値に対応する遅延をITD値として用いることができる。第2の方法は、左右サブバンドの分析信号を算出(すなわち、位相と包絡線の値を算出)し、IPDパラメータとしてチャンネル間の(平均)位相差を用いることである。
【0058】
ステップS4:相関の分析
対応するサブバンド信号が最も一致するILDとITDを見つけ、そのITDおよび/またはILDを補正した後、波形の類似性を測定することにより相関を取得する。よって、このフレームワークにおいては、相関は、ILDおよび/またはITDに帰せられない対応するサブバンド信号の類似性または非類似性として定義される。このパラメータに好適な測度は、相互相関関数の最大値(すなわち、一組の遅延をわたる最大値)である。しかし、他の測度、例えば対応するサブバンドの合計信号と比較した、ILDおよび/またはITD補正後の差信号の相対的エネルギーを用いることもできる。この差パラメータは基本的には(最大)相関の線形変換である。
【0059】
この後のステップS5、S6、S7において、決定されたパラメータが量子化される。パラメータの送信の重要な問題は、パラメータ表示の正確性(すなわち、数量化エラーの大きさ)である。その正確性は、必要とされる送信容量に直接関係する。このセクションにおいて、空間パラメータの量子化に関していくつかの問題を説明する。基本的なアイデアは、量子化エラーが空間的キューのいわゆる「まさしく顕著な差」(JND)に基づくことである。より具体的には、量子化エラーは、そのパラメータの変化に対する人間の聴覚システムの感度により決定される。そのパラメータの変化に対する感度はパラメータ自身の値に強く依存するので、具体的な量子化ステップを決定するために次の方法を適用する。
【0060】
ステップS5:ILDの量子化
音響心理学的な研究から、ILDの変化への感度はILD自体に依存することが知られている。ILDをdBで表すと、基準となる0dBから約1dBの違いは検出可能であるが、基準レベル差20dBであると3dBオーダーの変化が必要となる。それゆえ、左右のチャンネルの信号がより大きなレベル差を持っているとき、量子化エラーはより大きくなる可能性がある。例えば、チャンネル間のレベル差を最初に測定し、取得したレベル差を非線形(圧縮)変換し、その後線形量子化プロセスを行うことにより、または非線形分布したILD値のルックアップテーブルを用いることにより適用することができる。以下の実施形態において、ルックアップテーブルの例を与える。
【0061】
ステップS6:ITDの量子化
被験者のITDの変化に対する感度は、一定の位相閾値を持つことにより特徴付けられる。これは、遅延時間に関してITDを量子化するステップは周波数とともに減少することを意味する。代替的に、ITDが位相差の形で表されているとき、量子化ステップは周波数からは独立していなければならない。これを実施する方法としては、量子化ステップとして固定された位相差をとり、各周波数バンドの対応する時間遅延を決定することがある。このITD値が量子化ステップとして用いられる。他の方法として、周波数独立量子化法の後に位相差を送信する方法がある。一定の周波数より高い周波数において、人間の聴覚システムは波形の微細な構造のITDに対しては敏感ではないことも知られている。この減少は、一定の周波数(一般に2kHz)までのITDパラメータを送信することだけによって活用することができる。
【0062】
ビットストリームを減らす第3の方法は、ILDおよび/または同じサブバンドの相関パラメータに依存するITD量子化ステップを組み込むことである。ILDが大きいときは、ITDの符号化はそれほど正確でなくともよい。さらにまた、相関が非常に低いとき、ITDの変化に対する人間の感度は減少することが知られている。よって、相関が小さいとき、ITD量子化エラーは大きくてもよい。この考え方の極端な例は、相関が一定の閾値より低いときおよび/または同じサブバンドについてILDが十分大きい(一般的には約20dB)とき、ITDはまったく送信しないことである。
【0063】
ステップS7:相関の量子化
相関の量子化エラーは、(1)相関値それ自身、または(2)ILDに依存する。相関値が+1に近いときは正確性高く符号化できる(すなわち、小さい量子化ステップ)が、一方、相関値が0に近いときは正確性が低くなる(大きな量子化ステップ)。一組の非線形に分散した相関値の例が実施形態に与えられている。第2の可能性は、同じサブバンドの測定されたILDに依存する相関を量子化するステップを用いることである。ILDがより大きいとき(すなわち、エネルギーの点で、一方のチャンネルが支配的であるとき)、相関の量子化エラーはより大きくなる。この原理の極端な例は、サブバンドのILDの絶対値が一定の閾値を超えるとき、そのサブバンドの相関値をまったく送信しないことである。
【0064】
ステップS8において、例えば入来信号成分から主成分信号を生成することによって、支配的信号を決定することによって、入来信号成分の和信号として入来オーディオ信号からモノラル信号Sが生成される。このプロセスは、好ましくは、モノラル信号を生成するために、すなわち組み合わせる前にITDまたはIPDを用いてサブバンド波形を最初に調整することによって、抽出された空間パラメータを用いる。
【0065】
最後に、ステップS9において、符号化された信号102が、モノラル信号および決定されたパラメータから生成される。代替的に、和信号と空間パラメータは、同じまたは違うチャンネルを介して別々の信号として通信されてもよい。
【0066】
上記の方法は、対応する装置、例えば汎用または特定用途プログラマブルマイクロプロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、プログラマブルロジックアレイ(PLA)、フィールドプログラマブルゲートアレイ(FPGA)、特定目的電子回路、またはこれらの組み合わせにより実施されてもよい。
【0067】
図2は、本発明の一実施形態による符号化システムの概略を示すブロック図である。このシステムは、エンコーダ201および対応するデコーダ202を有する。エンコーダ201は、LとRを成分とするステレオ信号を受信し、デコーダ202に通信される和信号Sと空間的パラメータPを有する符号化信号203を生成する。信号203は、いずれでも好適な通信チャンネル204を介して通信される。代替的にまたは付加的に、信号はリムーバブル記憶媒体214、例えばメモリーカードに記憶され、そのメモリーカードがエンコーダからデコーダに送られてもよい。
【0068】
エンコーダ201は、好ましくは各時間/周波数スロットごとに、それぞれ入来する信号LとRの空間的パラメータを分析する分析モジュール205と206とを有する。エンコーダは、量子化された空間的パラメータを生成するパラメータ抽出モジュール207を有する。和信号(または支配的な信号)を生成するコンバイナモジュール208は少なくとも2つの入力信号の一定の組み合わせから構成される。エンコーダは、モノラル信号と空間的パラメータを有する結果として得られる符号化信号203を生成する符号化モジュール209をさらに有する。一実施形態において、モジュール209は、ビットレート割当て、フレーミング、ロスレス符号化等の1以上の機能をさらに実行する。
【0069】
合成(デコーダ202)は、左右の出力信号を生成するために空間的パラメータを和信号に適用することにより実行される。よって、デコーダ202は、モジュール209の逆演算を実行し、符号化された信号203から和信号SとパラメータPを抽出する復号モジュール210を有する。デコーダは、和信号(または支配的信号)と空間的パラメータからステレオ成分LとRを回復する合成モジュール211をさらに有する。
【0070】
この実施形態において、空間的パラメータ表示は、ステレオオーディオ信号を符号化するためにモノラル(単一チャンネル)オーディオコーダと結合される。説明した実施形態はステレオ信号で動作するが、一般的な考え方はnチャンネル(n>1)のオーディオ信号に適用できる。
【0071】
分析モジュール205と206において、左右の入来信号LとRは、様々な時間フレーム(例えば、各々44.1kHzのサンプリングレートで2048サンプル)に分かれていて、平方根ハミングウィンドウでウィンドウされている。その後FFTが算出される。負のFFT周波数は捨てられ、結果として得られるFFTはFFTビンのグループ(サブバンド)に分けられる。サブバンドgに分けられるFFTビンの数は、周波数に依存する。周波数が高ければより多くのビンが結合される。一実施形態において、約1.8ERB(等価方形バンド幅)に対応するFFTビンがグループ化され、全体のオーディオ周波数レンジを表す20のサブバンドとなる。各後続するサブバンド(最も低い周波数から始まる)の結果として得られるFFTビンの数S[g]は、
S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]
である。
【0072】
よって、最初の3つのサブバンドは4つのFFTビンを有し、4番目のサブバンドは5つのFFTビンを有する。各サブバンドについて、対応するILD、ITD、および相関(r)が算出される。ITDと相関は、他のグループに属するFFTビンをすべてゼロに設定し、左右チャンネルから結果として得られる(バンドが制限された)FFTをかけ、逆FFT変換することにより算出される。結果として得られる相互相関関数をスキャンし、-64と+63の間のチャンネル間遅延内のピークを求める。ピークに対応する内部遅延は、ITD値として用いられ、このピークにおける相互相関関数の値は、サブバンドのチャンネル間相関として用いられる。最後に、各サブバンドの左右チャンネルのパワー比率を取ることにより、ILDが算出される。
【0073】
コンバイナモジュール208において、左右のサブバンドは位相修正(時間的調整)の後合計される。この位相修正は、そのサブバンドのために算出されたITDの後行われ、左チャンネルのサブバンドをITD/2、右チャンネルのサブバンドを-ITD/2遅延させることから構成される。その遅延は、各FFTビンの位相角を適当に修正することにより周波数ドメインで実行される。その後、和信号は、左右のサブバンド信号を位相変更したものを加えることにより算出される。最後に、非相関または相関した和を補正するために、和信号の各サブバンドはsqrt(2/(1+r))倍される。ここで、rは対応するサブバンドの相関である。もし必要であれば、和信号は、(1)負の周波数に共役複素数を入れること、(2)逆FFT、(3)ウィンドウ、および(4)オーバーラップ加法により、時間ドメインに変換することができる。
【0074】
パラメータ抽出モジュール207において、空間的パラメータは量子化される。ILD(dB)は、次の組Iの一番近い値に量子化される。
I=[-19 -16 -13 -10 -8 -6 -4 -2 0 2 4 6 8 10 13 16 19]
ITD量子化ステップは、0.1ラジアンの各サブバンドにおける一定の位相差により決定される。よって、各サブバンドについて、サブバンドの中心周波数の0.1ラジアンに対応する時間差は、量子化ステップとして用いられる。2kHzより高い周波数について、ITD情報は送信されない。
【0075】
チャンネル間相関値rは、次のアンサンブルRの最も近い値に量子化される。
R=[1 0.95 0.9 0.82 0.75 0.6 0.3 0]。
【0076】
この場合、相関値あたり3ビット余分にかかる。
【0077】
現在のサブバンドの(量子化された)ILDの絶対値が19dBである場合、このサブバンドについてはITDも相関値も送信されない。サブバンドの(量子化された)相関値がゼロのとき、そのサブバンドについてはITDは送信されない。
【0078】
このように、各フレームは空間的パラメータを送信するのに最大233ビット必要とする。フレーム長は1024ビットなので、送信の最大ビットレートは10.25kbit/sとなる。エントロピー符号化または微分符号化を用いることにより、このビットレートをさらに減らすことができることに注意すべきである。
【0079】
エンコーダは、合成モジュール211を有し、ステレオ信号は受信した和信号と空間的パラメータから合成される。よって、この説明のために、上で説明したように、合成モジュールは和信号の周波数ドメイン表示を受信すると仮定する。この表示は、時間ドメイン波形をウィンドウし、FFT変換をすることにより取得される。最初に、和信号は左右の出力信号にコピーされる。その後、左右の信号間の相関がデコリレータで修正される。好ましい実施形態において、上で説明したデコリレータが用いられる。その後、そのサブバンドに対応する(量子化された)ITDを与えられ、左信号の各サブバンドは-ITD/2だけ遅延され、右信号はITD/2だけ遅延される。最後に、左右のサブバンドはそのサブバンドについてILDによりスケールされる。一実施形態において、上記の変更は、下で説明するフィルターにより実行される。出力信号を時間ドメインに変換するため、以下のステップが実行される。(1)負の周波数で共役複素数を入れ、(2)逆FFTし、(3)ウィンドウし、(4)オーバーラップ加法する。
【0080】
図3は、オーディオ信号の合成に用いるフィルター方法を示す図である。最初のステップ301において、入来するオーディオ信号x(t)は多数のフレームにセグメント化される。セグメント化ステップ301は、信号を好適な長さ、例えば500-5000サンプルの範囲、例えば1024または2048サンプルのフレームxn(t)に分割する。
【0081】
好ましくは、セグメント化は、オーバーラッピング分析と合成ウィンドウ関数を用い実行されるので、フレーム境界で入り込む可能性のあるアーティファクトを抑制することができる(例えば、Princen, J. P.、Bradley, A. Bによる「時間ドメインエイリアシングキャンセレーションに基づく分析・合成フィルターバンク設計」、IEEE transactions on Acoustics, Speech and Signal Processing、Vol. ASSP 34, 1986を参照)。
【0082】
ステップ302において、フレームxn(t)の各々は、好ましくは高速フーリエ変換(FFT)として実装されているフーリエ変換を適用することにより、周波数ドメインに変換される。結果として得られるn番目のフレームxn(t)の周波数表示は、多数の周波数成分X(k,n)を有する。ここで、nはフレーム番号を示し、パラメータk(0<k<K)は周波数ωkに対応する周波数成分または周波数ビンを示す。
【0083】
ステップ303において、カレントフレームの所望のフィルターは、受信した時間変化する空間的パラメータにより決定される。所望のフィルターは、n番目のフレームの一組のK複素重みファクターF(k,n)(0<k<K)を有する所望のフィルター応答として表される。フィルター応答F(k,n)は2つの実数、すなわちF(k,n)=a(k,n)・exp[jφ(k,n)]として、振幅a(k,n)および位相φ(k,n) により表されてもよい。
【0084】
周波数ドメインにおいて、フィルターされた周波数成分はY(k,n)=F(k,n)・X(k,n)である。すなわち、そのフィルターされた周波数成分は、入力信号の周波数成分X(k,n)とフィルター応答F(k,n)の積から得られる。当業者には明らかなように、周波数ドメインにおけるこの積は、入力信号フレームxn(t)の対応するフィルターfn(t)との繰り込みに対応する。
【0085】
ステップ304において、所望のフィルター応答F(k,n)は、カレントフレームX(k,n)にそれを適用する前に変更される。特に、適用される実際のフィルター応答F´(k,n)は、所望のフィルター応答F(k,n)と以前のフレームに関する情報308の関数として決定される。好ましくは、この情報は、次式により、1以上の前のフレームの実際および/または所望のフィルター応答を有する。
【0086】
【数1】

よって、前のフィルター応答のヒストリーに依存する実際のフィルター応答をつくることにより、連続するフレーム間のフィルター応答の変化によって入ったアーティファクトを効果的に抑制することができる。好ましくは、変換関数Φの実際の形は、動的に変化するフィルター応答から生じるオーバーラップ加法アーティファクトを減らすように選択される。
【0087】
例えば、変換関数Φは、単一の前の応答関数、例えばF´(k,n)=Φ1[F(k,n),F(k,n-1)]またはF´(k,n)=Φ2[F(k,n),F´(k,n-1)]であってもよい。他の実施形態において、変換関数は多数の前の応答関数の移動平均、例えば前の応答関数のフィルターされたもの等を有してもよい。変換関数Φの好ましい実施形態は、以下でより詳しく説明する。
【0088】
ステップ305において、実際のフィルター応答F´(k,n)は、Y(k,n)=F´(k,n)・X(k,n)によって、入力信号のカレントフレームの周波数成分X(k,n)を対応するフィルター応答ファクターF´(k,n)と掛け合わせることにより適用される。
【0089】
ステップ306において、結果として得られる処理された周波数成分Y(k,n)は、フィルターされたフレームyn(t)になる時間ドメインに変換して戻される。好ましくは、逆変換は、逆高速フーリエ変換(IFFT)として実施される。
【0090】
最後に、ステップ307として、フィルターされたフレームは、オーバーラップ加法によりフィルターされた信号y(t)に再結合される。オーバーラップ加法の効率的な実施は、Bergmans, J. W. M.、「デジタルベースバンド送信および記録」、Kluwer、1996に開示されている。
【0091】
一実施形態において、ステップ304の変換関数は、カレントおよび前のフレーム間の位相変化リミッターとして実施される。この実施形態において、対応する周波数成分の前のサンプルに適用された実際の位相変更φ´(k,n-1)と比較される各周波数成分F(k,n)の位相変化δ(k)が算出される。すなわち、δ(k)=φ(k,n)-φ´(k,n-1)である。
【0092】
その後、所望のフィルターF(k,n)の位相成分は、フレームをわたる位相変化が減るように変更される。この実施形態によると、これは、例えば、次式(1)
【0093】
【数2】

により、位相差を切ることにより、実際の位相差が所定の閾値cを超えないようにすることにより達成される。
【0094】
閾値cは、所定の定数、例えばπ/8とπ/3の間の値であってもよい。一実施形態において、閾値cは定数でなくともよく、例えば時間、周波数の関数等であってもよい。さらにまた、位相変化の上記の固定した制限に変えて、他の位相変化制限関数を用いてもよい。
【0095】
一般に、上記の実施形態において、個々の周波数成分の後の時間フレームにわたる所望の位相変化は、入出力関数P(δ(k))により変換され、実際のフィルター応答F´(k,n)は次式(2)により与えられる。
【0096】
【数3】

よって、本実施形態において、後続の時間フレームに渡る位相変化の変換関数Pが導入される。
【0097】
フィルター応答の変換の他の実施形態において、位相を制限する手続きは、好適な音質の測度、例えば下で説明する予測方法によりなされる。これは、ノイズのような信号で起こる連続するフレーム間の位相ジャンプが本発明による位相変化制限手続きから除外されてもよいという利点を有する。ノイズのような信号の上記の位相ジャンプを制限することは、そのノイズのような信号を合成的またはメタリックとしばしば感じる音色に聞こえる。
【0098】
本実施形態によると、予測された位相エラーθ(k)=φ(k,n)-φ(k,n-1)-ωk・hが計算される。ここで、ωkは、k番目の周波数成分に対応する周波数を表し、hはサンプルのホップサイズを表す。ここで、ホップサイズという用語は、2つの隣り合ったウィンドウ中心間の違い、すなわち、対称的なウィンドウの分析長の半分を指す。以下では、上記のエラーは区間[-π,+π]に丸められていると仮定する。
【0099】
その後、k番目の周波数ビンの位相予測製の量を表す予測測度Pkは、Pk=(π-|θ(k)|)/π∈[0,1]により計算される。ここで、||は絶対値を表す。
【0100】
ここで、上記測度Pkは、k番目の周波数ビンの位相予測製の量に対応する0と1の間の値である。Pkが1に近いとき、基礎をなす信号は高い程度の音色を有する、すなわち、ほぼシヌソイド波形を有すると仮定してもよい。上記の信号については、位相ジャンプは、例えばオーディオ信号のリスナーにとって容易に知覚可能である。よって、位相ジャンプはこの場合好ましくは取り除かれるべきである。一方、Pkの値が0に近いとき、基礎にある信号はノイズを多く含むと仮定することができる。ノイズの多い信号については、位相ジャンプは容易には知覚できず、それゆえ許容されてもよい。
【0101】
従って、Pkが所定の閾値を超えるとき、すなわちPk>Aのとき、位相制限関数が適用され、その結果、実際のフィルター応答F´(k,n)は次式により与えられる。
【0102】
【数4】

ここで、Aは、Pの上限+1と下限-1により制限されている。Aの値は、実際の実施に依存する。例えば、Aは0.6と0.9の間で選択されてもよい。
【0103】
代替的に、音色を評価する他の好適な測度を用いてもよいことが分かる。さらに別の実施形態において、上で説明した許容された位相ジャンプcは、音色の好適な測度、例えば上記の測度Pkに依存するようにして、Pkが大きいときはより大きな位相ジャンプを、小さいときにはその逆を許容するようにしてもよい。
【0104】
図4は、オーディオ信号の合成に用いるデコリレータを示す。デコリレータは、モノラル信号と、チャンネル間相互相関rとチャンネルの差cを表すパラメータを含む一組の空間的パラメータとを受信する全部パスフィルター401を有する。パラメータcは、チャンネル間レベル差とILD=k・log(c)により関係している。ここで、kは定数であり、すなわちILDはcの対数に比例する。
【0105】
好ましくは、全部パスフィルターは、低い周波数より高い周波数において比較的小さな遅延となる周波数依存遅延を有する。これは、シュローダ位相コンプレックスの1つの期間を有する全部パスフィルターで、その全部パスフィルターの固定遅延を置換することにより達成できる(M.R.Schroeder、「低ピークファクター信号と低自己相関のバイナリシーケンスの合成」、IEEE Transact. Inf. Theor.、16:85-89、1970を参照)。デコリレータは、デコーダからの空間的パラメータを受信し、チャンネル間相互相関rとチャンネル差cを抽出する分析回路402を有する。回路402は、下で説明するように、ミキシングマトリックスM(α,β)を決定する。ミキシングマトリックスの成分は、入力信号xとフィルターされた信号
【0106】
【数5】

をさらに受信する変換回路403に入力される。回路403は次式(3)
【0107】
【数6】

によりミキシング操作を実行し、結果として出力信号LとRを得る。
【0108】
信号LとR間の相関は、信号xと
【0109】
【数7】

により張られる空間において、r=cos(α)によって、それぞれLとR信号を表すベクトル間の角度αとして表されてもよい。結果として、正しい角度の距離を表すベクトルのペアは、特定された相関を持っている。
【0110】
よって、信号xと
【0111】
【数8】

を所定の相関rを持つ信号LとRに変換するミキシングマトリックスMは、次式(4)のように表してもよい。
【0112】
【数9】

よって、全部パスフィルターされた信号の量は、所望の相関に依存する。さらにまた、全部パス信号成分のエネルギーは、両方の出力チャンネルで同じである(しかし、180°位相シフトしている)。
【0113】
次式(5)によりマトリックスMが与えられている場合、
【0114】
【数10】

すなわち、相関していない出力信号(=0)に対応するα=90°の場合は、Lauridsenデコリレータに対応する。
【0115】
行列方程式(5)の問題を例示するために、左チャンネルに極端に振幅をパンした状況を仮定する、すなわち左チャンネルのみに一定の信号がある場合である。出力間の所望の相関はゼロであるとさらに仮定する。この場合、方程式(5)のミキシングマトリックスで、方程式(3)の変換の左チャンネルの出力は、
【0116】
【数11】

となる。よって、出力は、元の信号xが全部パスフィルターされたもの
【0117】
【数12】

に結合したその元の信号xから構成される。
【0118】
しかし、全部パスフィルターは、通常、信号の知覚品質を低下させるので、これは好ましくない状況である。さらにまた、元の信号とフィルターされた信号を加えると、結果として、出力信号に音色がつく等のコムフィルター効果を生じる。この仮定の極端な場合において、左出力信号が入力信号から構成されることが最善のソリューションとなる。2つの出力信号の相関は依然ゼロであろう。
【0119】
レベルの差がより極端でない状況において、好ましい状況は、より大きな出力チャンネルが、比較的多くのオリジナル信号を含み、より小さい出力チャンネルがより大きなフィルターされた信号を含むことである。よって、一般に、2つの出力にともに存在するオリジナル信号の量を最大化し、フィルターされた信号の量を最小化することが好ましい。
【0120】
本実施形態において、これは、付加的な共通の回転を含む異なるミキシングマトリックス(6)
【0121】
【数13】

を導入することにより達成される。
【0122】
ここで、βは付加的回転、C
【0123】
【数14】

は出力信号間の相対的レベル差がcとするためのスケーリングマトリックスである。
【0124】
式(3)に式(6)を代入することにより、本実施形態によるマトリックス演算により生成される出力信号が得られる。
【0125】
【数15】

よって、出力信号LとRは、角度差αを依然有している、すなわち、LとR信号間の相関は、所望のレベル差と、両信号LとRの角度βによる付加的回転とによる信号LとRのスケーリングにより影響されない。
【0126】
上で述べたとおり、好ましくは、加えられた出力LとRの中のオリジナル信号xの量が最大になるべきである。この条件を、
【0127】
【数16】

角度βを決定するために用いると、以下の条件を得る。
【0128】
【数17】

要約すると、このアプリケーションは音響心理学により動機付けられた、マルチチャンネルオーディオ信号の空間的属性のパラメータ表示を説明している。このパラメータ表示によると、信号の空間的特性を記述する(量子化された)パラメータをあわせて、ただ1つのモノラル信号を送信するだけなので、オーディオコーダにおいてビットレートを大幅に減らすことができる。デコーダは、その空間的パラメータを適用することによって、オーディオチャンネルの元の量を形成することができる。CD品質に近いステレオオーディオのために、10kbit/s以下の空間的パラメータと関連したビットレートは、受信側で正しい空間的印象を再生するために十分であると思われる。空間的パラメータのスペクトルおよび/または時間的分解能を減らすことにより、および/またはロスレス圧縮アルゴリズムを用いて空間的パラメータを処理することにより、このビットレートをさらに低くすることができる。
【0129】
上述の実施形態は本発明を限定するものではなく、当業者は添付したクレームの範囲から逸脱することなく、多くの代替的実施形態を設計することができるということに注意すべきである。
【0130】
例えば、2つのローカライゼーションキューILDとITD/IPDを用いた実施形態に関して本発明を説明した。代替的実施形態において、他のローカライゼーションキューを用いてもよい。さらにまた、一実施形態において、ILD、ITD/IPD、およびチャンネル間相互相関を上で説明したように決定してもよいが、チャンネル間相互相関のみがモノラル信号とともに送信される。それにより、オーディオ信号を送信・記憶するために要するバンド幅・記憶容量をさらに減らすことができる。代替的に、チャンネル間相互相関と、ILDおよびITD/IPDのいずれか一方とが送信されてもよい。これらの実施形態において、信号は送信されたパラメータだけに基づいてモノラル信号から合成される。
【0131】
請求項において、括弧内の参照記号はその請求項を限定するものと解釈してはならない。「有する」という言葉は、請求項に列挙された構成要素やステップ以外のものを排除するものではない。構成要素の前の「1つの」という言葉は、その構成要素が複数あることを排除するものではない。
【0132】
本発明は、個別のいくつかの構成要素を有するハードウェアによって、および好適にプログラムされたコンピュータによって実施することができる。いくつかの手段を列挙した装置の請求項において、いくつかの手段は1つの同一なハードウェアにより実施することができる。ある手段が互いに異なる従属項に列挙されているということは、これらの手段の組み合わせを用いることができないことを示すものではない。
【0133】
なお、本開示に関して以下の付記を記載する。
(付記1) オーディオ信号を符号化する方法であって、
少なくとも2つの入力オーディオチャンネルの組み合わせを有するモノラル信号を生成するステップと、
前記少なくとも2つの入力オーディオチャンネルの空間的特性を示す一組の空間パラメータを決定するステップと、ここで前記一組の空間パラメータは前記少なくとも2つの入力オーディオチャンネルの波形の類似度を表すパラメータを含み、
前記モノラル信号と前記一組の空間パラメータを有する符号化信号を生成するステップとを有する方法。
(付記2) 付記1に記載の方法であって、空間的特性を示す一組の空間パラメータを決定する前記ステップは、一組の空間パラメータを時間と周波数の関数として決定するステップを有する方法。
(付記3) 付記2に記載の方法であって、空間的特性を示す一組の空間パラメータを決定する前記ステップは、
前記少なくとも2つのオーディオチャンネルの各々を対応する複数の周波数帯に分けるステップと、
前記複数の周波数帯の各々について、前記対応する周波数帯中の前記少なくとも2つの入力オーディオチャンネルの空間特性を表す前記一組の空間パラメータを決定するステップとを有する方法。
(付記4) 付記1ないし3いずれか一項に記載の方法であって、前記一組の空間パラメータは少なくとも1つの位置推定キューを含む方法。
(付記5) 付記4に記載の方法であって、前記一組の空間パラメータは、チャンネル間レベル差と、チャンネル間時間差およびチャンネル間位相差のうち選択された一方とを有する、少なくとも2つの位置推定キューを含む方法。
(付記6) 付記4または5に記載の方法であって、前記類似度は、前記位置推定キューにより説明できない情報を有する方法。
(付記7) 付記1ないし6いずれか一項に記載の方法であって、前記類似度は、相互相関関数の最大値における前記相互相関関数の値に対応する方法。
(付記8) 付記1ないし7いずれか一項に記載の方法であって、前記モノラル信号と前記一組の空間パラメータを有する符号化信号を生成する前記ステップは、一組の量子化された空間的パラメータであって各々は前記対応する決定された空間的パラメータに関係する対応する量子化エラーを導入するものを生成するステップを有し、
前記導入された量子化エラーの少なくとも1つが前記決定された空間的パラメータの少なくとも1つの値に依存するよう制御される方法。
(付記9) オーディオ信号を符号化するエンコーダであって、
少なくとも2つの入力オーディオチャンネルの組み合わせを有するモノラル信号を生成する手段と、
前記少なくとも2つの入力オーディオチャンネルの空間的特性を示す一組の空間パラメータを決定する手段と、ここで前記一組の空間パラメータは前記少なくとも2つの入力オーディオチャンネルの波形の類似度を表すパラメータを含み、
前記モノラル信号と前記一組の空間パラメータを有する符号化信号を生成する手段とを有するエンコーダ。
(付記10) オーディオ信号を供給する装置であって、
オーディオ信号を受信する入力と、
符号化されたオーディオ信号を取得するために前記オーディオ信号を符号化する、付記9に記載のエンコーダと、
前記符号化されたオーディオ信号を供給する出力とを有する装置。
(付記11) 符号化されたオーディオ信号であって、
少なくとも2つのオーディオチャンネルの組み合わせを有するモノラル信号と、
前記少なくとも2つの入力オーディオチャンネルの空間的特性を示す一組の空間的パラメータであって、前記少なくとも2つの入力オーディオチャンネルの波形の類似度を表すパラメータを含むものとを有する信号。
(付記12) 付記11に記載の符号化された信号を記憶した記憶媒体。
(付記13) 符号化されたオーディオ信号を復号する方法であって、
少なくとも2つのオーディオチャンネルの組み合わせモノラル信号を前記符号化されたオーディオ信号から取得するステップと、
前記少なくとも2つのオーディオチャンネルの波形の類似度を表すパラメータを含む一組の空間的パラメータを前記符号化されたオーディオ信号から取得するステップと、
前記モノラル信号と前記空間的パラメータからマルチチャンネル出力信号を生成するステップとを有する方法。
(付記14) 符号化されたオーディオ信号を復号するデコーダであって、
少なくとも2つのオーディオチャンネルの組み合わせモノラル信号を前記符号化されたオーディオ信号から取得する手段と、
前記少なくとも2つのオーディオチャンネルの波形の類似度を表すパラメータを含む一組の空間的パラメータを前記符号化されたオーディオ信号から取得する手段と、
前記モノラル信号と前記空間的パラメータからマルチチャンネル出力信号を生成する手段とを有するデコーダ。
(付記15) 復号されたオーディオ信号を供給する装置であって、
符号化されたオーディオ信号を受信する入力と、
マルチチャンネル出力信号を取得するために符号化されたオーディオ信号を復号する、付記14に記載のデコーダと、
前記マルチチャンネル出力信号を供給または再生する出力とを有する装置。
【符号の説明】
【0134】
201 エンコーダ
202 デコーダ
203 符号化信号
204 通信チャネル
205、206 分析モジュール
207 パラメータ抽出モジュール
208 コンバイナモジュール
209 モジュール
210 復号モジュール
211 合成モジュール
401 全部パスフィルター
402 分析回路
403 変換回路

【特許請求の範囲】
【請求項1】
少なくとも第1と第2のデジタルオーディオ信号成分を含む符号化デジタルオーディオ信号を復号する復号装置であって、前記第1と第2のデジタルオーディオ信号はコンポジットデジタル信号とパラメータ信号とに符号化され、前記復号装置は、
送信信号を受信する入力部と、
前記送信信号から前記コンポジットデジタル信号とパラメータ信号とを取り出すデマルチプレクサ部と、
前記コンポジットデジタル信号からそのデコリレートバージョンを生成するデコリレータ部と、
前記コンポジットデジタル信号とそのデコリレートバージョンとを受け取り、前記第1と第2のデジタルオーディオ信号成分のレプリカを生成するマトリックス部とを有し、
前記第1のデジタルオーディオ信号成分のレプリカは前記コンポジットデジタル信号とそのデコリレートバージョンとの、前記パラメータ信号に応じた乗法係数を用いた線形結合であり、
前記第2のデジタルオーディオ信号成分のレプリカは前記コンポジットデジタル信号とそのデコリレートバージョンとの、前記パラメータ信号に応じた乗法係数を用いた線形結合であることを特徴とする復号装置。
【請求項2】
前記パラメータ信号は第1のパラメータ信号成分を含み、当該第1のパラメータ信号成分は前記少なくとも第1と第2のデジタルオーディオ信号のレプリカの波形の類似性の尺度であり、当該類似性の尺度は前記少なくとも第1と第2のデジタルオーディオ信号成分のレプリカ間の相互相関関数の値に対応し、当該値は前記相互相関関数の最大値に実質的に等しいことを特徴とする、請求項1に記載の復号装置。
【請求項3】
前記パラメータ信号は第2のパラメータ信号成分を含み、当該第2のパラメータ信号成分は前記第1と第2のデジタルオーディオ信号成分間の相対的レベル差を表すことを特徴とする、請求項2に記載の復号装置。
【請求項4】
前記マトリックス部は
【数1】

であり、ここで、βは前記第1のパラメータ信号成分に関する角度の値であり、Cは前記第2のパラメータ信号成分に関することを特徴とする、請求項3に記載の復号装置。
【請求項5】
αと前記第1のパラメータ信号成分との間に
【数2】

の関係があり、ここで、rは前記相互相関関数の最大値であることを特徴とする、請求項4に記載の復号装置。
【請求項6】
Cは2×2行列であり、Cの行列係数と前記第2のパラメータ信号成分との間には
【数3】

の関係があり、ここで、cは前記信号間の相対的レベル差に等しいことを特徴とする、請求項4に記載の復号装置。
【請求項7】
αとβの間に
【数4】

の関係があることを特徴とする、請求項4に記載の復号装置。
【請求項8】
前記デコリレータ部は前記デコリレートバージョンを求めるように、前記コンポジットデジタル信号を遅延するように構成されたことを特徴とする、請求項1ないし7いずれか一項に記載の復号装置。
【請求項9】
前記遅延は周波数に依存する遅延であることを特徴とする、請求項8に記載の復号装置。
【請求項10】
前記コンポジットデジタル信号は複数の周波数帯域にそれぞれ対応する複数のコンポジットデジタル副信号に分かれたワイドバンド信号であり、前記パラメータ信号も複数の周波数帯域にそれぞれ対応する複数のパラメータ副信号に分かれており、
前記デコリレータ部は前記コンポジットデジタル副信号からそのデコリレートバージョンを生成し、
前記マトリックス部は前記コンポジットデジタル副信号とそのデコリレートバージョンとを受け取り、前記第1と第2のデジタルオーディオ信号成分それぞれの複数の副信号のレプリカを生成し、
前記第1のデジタルオーディオ信号成分の副信号は対応するコンポジットデジタル信号とそのデコリレートバージョンとの、対応するパラメータ副信号に応じた乗法係数を用いた線形結合であり、
前記第2のデジタルオーディオ信号成分の副信号は対応するコンポジットデジタル信号とそのデコリレートバージョンとの、対応するパラメータ副信号に応じた乗法係数を用いた線形結合であり、
前記復号装置は、前記第1と第2のデジタルオーディオ信号成分の副信号を前記第1と第2のデジタルオーディオ信号成分のレプリカに変換する変換部をさらに有する、
請求項1ないし9いずれか一項に記載の復号装置。
【請求項11】
前記コンポジットデジタル副信号は時間領域の連続した時間インターバルにそれぞれ対応した連続した時間信号に分割され、前記パラメータ副信号も時間領域の連続した時間にそれぞれ対応したパラメータ副信号に分割され、
前記デコリレータ部は、連続した各時間インターバルと各コンポジットデジタル副信号について、前記コンポジットデジタル副信号のデコリレートバージョンを生成するようにさらに構成され、
前記マトリックス部は、連続した各時間インターバルにおいて、前記時間インターバルのコンポジットデジタル副信号とそのデコリレートバージョンから、前記第1と第2のデジタルオーディオ信号成分それぞれの副信号のレプリカを生成するようにさらに構成され、
前記時間インターバルにおける前記第1のデジタルオーディオ信号成分の副信号は、前記時間インターバルにおける対応するコンポジットデジタル信号とそのデコリレートバージョンとの、前記時間インターバルにおけるパラメータ副信号に応じた乗法係数を用いた線形結合であり、
前記時間インターバルにおける前記第2のデジタルオーディオ信号成分の副信号は、前記時間インターバルにおける対応するコンポジットデジタル信号とそのデコリレートバージョンとの、前記時間インターバルにおけるパラメータ副信号に応じた乗法係数を用いた線形結合であることを特徴とする、請求項10に記載の復号装置。
【請求項12】
少なくとも第1と第2のデジタルオーディオ信号成分を含む符号化デジタルオーディオ信号を復号する復号装置であって、前記第1と第2のデジタルオーディオ信号はコンポジットデジタル信号とパラメータ信号とに符号化され、前記復号装置は、
送信信号を受信する入力部と、
前記送信信号から前記コンポジットデジタル信号とパラメータ信号とを取り出すデマルチプレクサ部と、
前記コンポジットデジタル信号とパラメータ信号とを受け取り、前記第1と第2のデジタルオーディオ信号成分のレプリカを生成する変換部とを有し、
前記パラメータ信号は前記少なくとも第1と第2のデジタルオーディオ信号のレプリカの波形の類似性の尺度であり、当該類似性の尺度は前記少なくとも第1と第2のデジタルオーディオ信号成分のレプリカ間の相互相関関数の値に対応し、当該値は前記相互相関関数の最大値に実質的に等しいことを特徴とする、復号装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−161087(P2012−161087A)
【公開日】平成24年8月23日(2012.8.23)
【国際特許分類】
【出願番号】特願2012−84531(P2012−84531)
【出願日】平成24年4月3日(2012.4.3)
【分割の表示】特願2009−188196(P2009−188196)の分割
【原出願日】平成15年4月22日(2003.4.22)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】