オーディオソースのパラメトリックジョイント符号化

【課題】最小の帯域幅を用いて、複数のソース信号を送信する方法を提供する。
【解決手段】いくつかのオーディオソース信号を、ソース信号を復号化後に、波面合成、マルチチャネルサラウンドまたはステレオ信号を混合する目的で、送信または記憶する必要がある。ソース信号間に冗長性がない場合でさえ、ソース信号をジョイント符号化したときに、それら信号を別々に符号化する場合に比べ、顕著な符号化利得が得られる。これは、ソース信号の統計的特性、ミキシング技術の特性および空間聴覚を考慮することにより可能になる。ソース信号の和は、最終的に混合されたオーディオチャネルの知覚的に重要な空間キューを概ね決定するソース信号の統計的特性とともに送信される。ソース信号は、その統計的特性が元のソース信号の対応する特性に近似するよう受信機で回復される。

【発明の詳細な説明】
【背景技術】
【０００１】
１．はじめに
【０００２】

【０００３】
ＩＳＯ／ＩＥＣＭＰＥＧ−４は、上記の符号化シナリオを扱う。これは、シーン記述を定義し、かつ（「自然な」）ソース信号ごとに、別個のモノオーディオコーダ、例えばＡＣＣオーディオコーダなどを使用する。しかしながら、多くのソースを有する複雑なシーンを混合する場合、ビットレートは高くなる。すなわち、ソースの数によって、ビットレートがスケールアップする。高品質でソース信号を１つ符号化するためには、約６０〜９０ｋｂ／ｓを必要とする。
【０００４】
これまでは、フレキシブル・レンダリング（ＦｌｅｘｉｂｌｅＲｅｎｄｅｒｉｎｇ）のためのバイノーラル・キュー・符号化（ＢＣＣ）と呼ばれる構成で、上記の符号化問題［１］［２］の特別なケースに対応してきた。所与のソース信号の和および低いビットレートの補助情報のみを送信することによって、低ビットレートが達成される。しかしながら、ソース信号をデコーダで回復させることはできず、この構成は、ステレオおよびマルチチャネルのサラウンド信号生成に限定された構成であった。また、振幅と遅延パニングに基づいて、単純化したミキシングのみが使用された。これにより、ソースの方向を制御することは可能だが、他の聴覚空間イメージ属性を制御することはできなかった。この構成のもう１つの限界は、そのオーディオ品質が限られている点である。特に、ソース信号の数が増えると、オーディオ品質が低下する。
【０００５】
文献［１］（バイノーラル・キュー・符号化、パラメトリック・ステレオ、ＭＰ３・サラウンド、ＭＰＥＧ・サラウンド）は、Ｎ個のオーディオチャネルが符号化され、元のオーディオチャネルと類似するキューで、Ｎ個のオーディオチャネルが復号化される場合を扱う。送信された補助情報は、入力されたチャネル間の相違に関する、チャネル間キューパラメータを含む。
【０００６】
ステレオおよびマルチチャネルのオーディオ信号のチャネルは、オーディオソース信号を混合したものを含み、したがって純粋なオーディオソース信号とは、性質が異なる。ステレオおよびマルチチャネルのオーディオ信号は、適切なプレイバックシステムで再生すれば、録音設定によりとらえたとおり、またはミキシングの際に録音技術者が設計したと
おりに、聴取者が聴覚空間イメージ（「サウンドステージ」）を知覚するように混合される。ステレオまたはマルチチャネルオーディオ信号のチャネルのためのジョイント符号化については、これまでいくつかの構成が提案されている。
【発明の開示】
【発明が解決しようとする課題】
【０００７】
発明の概要
本発明の目的は、最小の帯域幅を用いて、複数のソース信号を送信する方法を提供することである。公知の方法の多くは、再生方式（ステレオ、５．１等）が、予め規定されており、符号化シナリオに直接的な影響を及ぼす。デコーダ側のオーディオストリームは、この予め規定された再生方式のみを使用する必要があり、したがって、ユーザーが予め規定された再生シナリオ（ステレオ等）により縛られることになる。
【課題を解決するための手段】
【０００８】
本発明によれば、一般にステレオまたはマルチチャネル信号のチャネルではなく、様々な音声や楽器の信号等の独立信号である、N個のオーディオソース信号が符号化される。
送信された補助情報には、入力オーディオソース信号に関する統計パラメータが含まれる。
【０００９】
本発明によれば、元のオーディオソース信号とは異なるキューでＭ個のオーディオチャネルが復号化される。これらの異なるキューは、受信した和信号にミキサを適用することにより暗黙に合成される。ミキサは、受信した統計ソース情報ならびに受信した（または局所的に決定した）オーディオ方式パラメータおよびミキシングパラメータの関数として制御される。または、これらの異なるキューは、受信した統計ソース情報ならびに受信した（または局所的に決定した）オーディオ方式パラメータおよびミキシングパラメータの関数として明確に計算される。これらの計算されたキューを用いて、先行技術のデコーダ（バイノーラル・キュー・符号化、パラメトリック・ステレオ、ＭＰＥＧサラウンド）を制御し、受信した和信号に基づき、出力チャネルを合成する。
【００１０】
オーディオソース信号をジョイント符号化するための本件の構成は、この種の構成では、最初のものである。これは、オーディオソース信号のジョイント符号化用に設計されている。オーディオソース信号は、一般にステレオまたはマルチチャネルオーディオシステムでの再生に向かない、モノオーディオ信号である。簡潔な説明のため、以下の記述においては、オーディオソース信号をしばしばソース信号と称する。
【００１１】
オーディオソース信号は、再生の前に、まず混合してステレオ、マルチチャネルまたは波面合成オーディオ信号にする必要がある。オーディオソース信号は、単一の楽器もしくは話者でもよいし、または複数の楽器および話者の合計でもよい。他の種類のオーディオソース信号としては、コンサートの際にスポットマイクによりとらえられたモノオーディオ信号がある。オーディオソース信号は、マルチトラックレコーダかまたはハードディスク記録システムに記憶されることが多い。
【００１２】
オーディオソース信号をジョイント符号化する本件の構成は、オーディオソース信号の和のみまたはソース信号の重み付けされた和のみを送信するということに基づく。
【００１３】
【数１】

【００１４】

【発明を実施するための最良の形態】
【００１５】
ＩＩ．定義、記号表記、および変数
【００１６】

【００１７】
ＩＩＩ．オーディオソース信号のジョイント符号化
はじめに、パラメトリックマルチチャネルオーディオ符号化技術である、バイノーラル・キュー・符号化（ＢＣＣ）、について述べる。その後、ＢＣＣの基礎となっているものと同じ見識により、符号化のシナリオのために、ソース信号のジョイント符号化を行うアルゴリズムを工夫することができる点を説明する。
【００１８】
Ａ．バイノーラル・キュー・符号化（ＢＣＣ）
マルチチャネルオーディオ符号化のためのＢＣＣ構成［１］［２］について下記の図面に示す。入力されたマルチチャネルオーディオ信号は、１つのチャネルにダウンミキシングされる。全チャネルの波形についての情報を符号化して送信する場合と違い、このダウンミキシングされた信号のみを（従来のモノオーディオコーダで）符号化し、送信する。さらに、知覚を動機とする「オーディオチャネル差」が元のオーディオチャネルの間で予測され、デコーダに送られる。デコーダは、オーディオチャネル差が元のオーディオ信号の対応するオーディオチャネル差に近似するようにその出力チャネルを生成する。
【００１９】
加法定位は、ラウドスピーカー信号チャネル対の知覚的に意味のあるオーディオチャネル差が、チャネル間時間差（ＩＣＴＤ）およびチャネル間レベル差（ＩＣＬＤ）であることを示唆する。ＩＣＴＤおよびＩＣＬＤは、聴覚事象の知覚方向に関連し得る。他の聴覚空間イメージ属性、たとえば見かけの音源幅および音に包まれた感じなどは、インターオーラルコヒーレンス（ＩＣ）に関連し得る。聴取者の前または後ろに位置するラウドスピーカー対については、インターオーラルコヒーレンスは、ＢＣＣによる第３のオーディオチャネル差の尺度と考えられているチャネル間コヒーレンス（ＩＣＣ）と直接に関連していることが多い。ＩＣＴＤ、ＩＣＬＤおよびＩＣＣは、時間の関数としてサブバンドで予測される。使用される空間および時間分解能は、双方とも知覚を動機とする。
【００２０】
Ｂ．オーディオソースのパラメトリックジョイント符号化
【００２１】

【００２２】

【００２３】

【００２４】

【００２５】
本件の構成を得るために、ステレオミキサ（Ｍ＝２）を考える。一般的な例をより簡略化するなら、振幅と遅延パニングのみを付与してミキシングを行う。離散ソース信号をデコーダで得ることが出来る場合、ステレオ信号は、図４に示すように混合され得る。すなわち、
【００２６】
【数２】

【００２７】
この場合、シーン記述ベクトルＳ（ｎ）は、ミキシングパラメータを決定するソース方向のみを含む。
【００２８】
【数３】

【００２９】
ここで、Ｔは、ベクトルの転置である。なお、ミキシングパラメータとしては、表記の都合上、時間指数を無視した。
【００３０】
ミキサを制御するためのより便利なパラメータは、時間およびレベル差、すなわちＴ_ｉとΔＬ_ｉであり、これらは、以下の式によりａ_ｉ、ｂ_ｉ、ｃ_ｉおよびｄ_ｉに関連する。
【００３１】
【数４】

【００３２】
ここでＧ_ｉは、ｄＢによるソース利得係数である。
【００３３】

【００３４】
Ｂ．１ミキサ出力のＩＣＴＤ、ＩＣＬＤおよびＩＣＣ
【００３５】

【００３６】
【数５】

【００３７】

【００３８】
【数６】

【００３９】

【００４０】
【数７】

【００４１】
ＩＣＴＤおよびＩＣＣを予測するために、以下の正規化された相互相関関数を予測する。
【００４２】
【数８】

【００４３】
ＩＣＣ、すなわちｃ（ｎ）は、以下のとおり計算する。
【００４４】
【数９】

【００４５】
ＩＣＴＤ、すなわちＴ（ｎ）を計算するために、遅延軸の最も高い頂点の位置を計算する。
【００４６】
【数１０】

【００４７】
ここで、問題は、正規化された相互相関関数を、どうすればミキシングパラメータの関数として計算できるかである。（２）と一緒にすれば、（８）は以下のように表すことが
できる。
【００４８】
【数１１】

【００４９】
これは、以下の式と等価である。
【００５０】
【数１２】

【００５１】
ここで正規化自己相関関数Φ（ｎ，ｅ）は、以下の通りである。
【００５２】
【数１３】

【００５３】
また、Ｔ_ｉ＝ｄ_ｉ−ｃ_ｉである。なお、（１１）に基づき（１２）を計算するために、考えられる遅延の範囲では、信号が広義定常とする。
【００５４】

【００５５】

【００５６】
Ｂ．２必要な補助情報
【００５７】

【００５８】
【数１４】

【００５９】

【００６０】
補助情報の量を減らすために、ソース信号の相対的ダイナミックレンジを制限する。毎回、各サブバンドについて、最も強いソースの出力を選択する。他の全てのソースの対応するサブバンド出力の下限は、最も強いサブバンド出力より２４ｄＢ低い値にすれば十分であることがわかった。したがって、量子化器のダイナミックレンジを２４ｄＢに制限することができる。
【００６１】

【００６２】
【数１５】

【００６３】

【００６４】
特定の実施例によれば、サブバンドの帯域幅は様々で、低周波数のサブバンドの帯域幅のほうが、高周波数のサブバンドの帯域幅より小さい。
【００６５】
［２］に記載のＩＣＬＤ量子化器に類似する構成で相対的出力値を量子化すると、およそ３（Ｍ−１）ｋｂ／ｓのビットレートになる。図６は、補助情報の生成プロセス（図２の「補助情報生成」ブロックに相当する）を示す図である。
【００６６】
補助情報レートは、各ソース信号について活性状態を分析しかつ活性化したソースに関連する補助情報を送信するだけでも、さらに減らすことができる。
【００６７】

【００６８】

【００６９】
図８は、和信号（１）に基づき、ソース信号を再生成するために使用するプロセスを示す図である。このプロセスは、図２の「合成」ブロックの一部である。個々のソース信号は、和信号の各サブバンドをｇ_ｉ（ｎ）でスケーリングしかつ非相関フィルタをインパルス応答ｈ_ｉ（ｎ）で適用することにより回復される。
【００７０】
【数１６】

【００７１】

【００７２】
【数１７】

【００７３】

【００７４】

【００７５】

【００７６】

【００７７】
ＩＶ．実用上の制約を考えた実現例
【００７８】

【００７９】
このセクションの第２の部分では、本件の構成をいずれかのミキサで適用し、非相関処理を全く行わない場合の問題について論ずる。そのような構成は、非相関処理を伴う構成より複雑性が低いが、後述の通り、他に欠点がある可能性がある。
【００８０】

【００８１】

【００８２】

【００８３】
和信号（１）を処理するために適用されるステレオＢＣＣ合成構成（または「パラメトリックステレオ」構成）について図１０に示す。このＢＣＣ合成構成が、図４に示すようなミキサの出力信号と同様に知覚される信号を生成することが望ましい。これは、ＢＣＣ合成構成の出力チャネル間のＩＣＴＤ、ＩＣＬＤおよびＩＣＣが、ミキサ出力（４）信号チャネル間に現れる対応するキューと類似する場合にあてはまる。
【００８４】

【００８５】
【数１８】

【００８６】
これは、出力サブバンド出力およびＩＣＬＤ（７）が、図４のミキサについてのものと同じになるように利得係数ｇ₁およびｇ₂を計算する。ＩＣＴＤ、すなわちＴ（ｎ）は、式（１０）によって計算され、その計算されたＴ（ｎ）を用いて図１０の遅延Ｄ₁およびＤ
_２を決定する。
【００８７】
【数１９】

【００８８】

【００８９】
・一般に、ソース信号Ｍの数は、オーディオ出力チャネルＮの数より大きい。したがって、生成が必要な独立オーディオチャネルの数は、Ｍ個のソース信号に非相関処理を行うよりも、Ｎ個の出力チャネルに非相関処理を行う場合に少なくなる。
【００９０】
・多くの場合、Ｎ個のオーディオ出力チャネルは相関しており（ＩＣＣ＞０）、かつ独立したＭ個またはＮ個のチャネルを生成するために必要と考えられるものより、適用される非相関処理が少なくて済む。
【００９１】
非相関処理が少なくて済むので、オーディオ品質の向上が期待される。
【００９２】
最良のオーディオ品質は、ミキサパラメータが、ａ_ｉ²+ｂ_ｉ²＝１すなわちＧ_ｉ＝０ｄ
Ｂとなるように制約された場合に得られることが期待される。この場合、送信された和信号（１）における各ソースの出力が、混合されたデコーダ出力信号における同じソースの出力と同じである。デコーダ出力信号（図１０）は、この場合、ミキサ出力信号（図４）がＢＣＣエンコーダ／デコーダにより符号化／復号化されるかのように同じである。したがって、同様の品質を期待することができる。
【００９３】
デコーダは、各ソースが現れるべき方向を決定することができるだけでなく、各ソースの利得も変化させることが出来る。利得は、ａ_ｉ²+ｂ_ｉ²＞１（Ｇ_ｉ＞０ｄＢ）を選択こ
とにより増大し、ａ_ｉ²+ｂ_ｉ²＜１（Ｇ_ｉ＜０ｄＢ）を選択することにより減少する。
【００９４】
Ｂ．非相関処理を使用しない場合
上記の技術の制約は、ＢＣＣ合成構成でミキシングが実行される点である。ＩＣＴＤ、ＩＣＬＤおよびＩＣＣ合成のみならず、ＢＣＣ合成の範囲で他の効果処理の可能性が考えられる。
【００９５】

【００９６】

【００９７】

【００９８】
【数２０】

【００９９】

【０１００】
Ｃ．非相関処理量の低減
【０１０１】

【０１０２】

【０１０３】
１．相互に近接するソースに対応するソースインデックスのグループを生成する。例えば、図８では、それらは、｛１｝、｛２，５｝、｛３｝および｛４，６｝が可能である。
【０１０４】
２．毎回、各サブバンドで、最も強いソースのソースインデックスを選択する。
【０１０５】
【数２１】

【０１０６】
ｉ_ｍａｘ，すなわちｈ_ｉ（ｎ）＝δ（ｎ）を含むグループのソースインデックスの部分には、非相関処理を適用しない。
【０１０７】
３．他の各グループについては、グループ内の同じｈ_ｉ（ｎ）を選択する。
【０１０８】
上記のアルゴリズムは、最も強い信号成分に対する変更が最も少ない。その上、使用される異なるｈ_ｉ（ｎ）の数が減る。こうすれば、非相関が、簡単であればあるほど、生成する必要のある独立チャネルの数が減る点が有利である。上記の技術は、ステレオまたはマルチチャネルオーディオ信号を混合するときにも適用可能である。
【０１０９】
Ｖ．品質およびビットレートからみたスケーラビリティ
本件の構成は、全てのソース信号の和のみを送信するが、これを従来のモノオーディオコーダで符号化することができる。モノの後方互換性を必要とせず、１を超える数のオーディオ波形の送信／記憶に利用可能な容量があるなら、本件の構成は、１を超える数の送信チャネルで使用するようにスケーリングできる。これは、所与のソース信号の様々なサブセットで、いくつかの和信号を生成させることにより実現される。すなわち、ソース信号の各サブセットに対して、本件の符号化構成を個別に適用する。オーディオ品質は、送信オーディオチャネルの数が増えるほど向上が期待される。というのも、各送信チャネルから非相関により生成する必要がある独立チャネルが減るからである（送信チャネルが１つの場合に比べて）。
【０１１０】
ＶＩ．既存のステレオおよびサラウンドオーディオ方式に対する後方互換性
以下のようなオーディオデリバリのシナリオを考えてみる。消費者が、最大限の品質のステレオまたはマルチチャネルサラウンド信号（オーディオＣＤ、ＤＶＤまたはオンラインミュージックストア等により）を得る。目的は、標準的なステレオ／サラウンドの再生品質を損なわずに、その入手したオーディオコンテンツを好みにミックスしたものを生成する融通性を、消費者に随意に届けることである。
【０１１１】

【０１１２】
Ａ．受信機におけるソース信号の和の予測
【０１１３】

【０１１４】

【０１１５】
補助情報を計算する前に、自動化されたプロセスを用いてエンコーダのソース信号入力ｓ_ｉ（ｎ）のレベルを調整しても良い。このプロセスは、時間適応的に、各ソース信号が所与のステレオまたはマルチチャネル信号に含まれるレベルを予測する。補助情報を計算する前に、ソースがステレオまたはマルチチャネルオーディオ信号に含まれるレベルに、各ソース信号のレベルが等しくなるよう、時間適応的に調整される。
【０１１６】
Ｂ．送信チャネルの個別利用
【０１１７】

【０１１８】
【数２２】

【０１１９】

【０１２０】
ＶＩＩ．応用例
すでに、本件の符号化構成のいくつかの応用例について述べた。ここで、これらについてまとめ、他に数例の応用例についても述べる。
【０１２１】
Ａ．ミキシングのためのオーディオ符号化
オーディオソース信号を混合して、ステレオ、マルチチャネルまたは波面合成オーディオ信号にする前に、これら信号を記憶または送信する必要がある場合は、常に、本件の構成を適用することができる。先行技術では、モノオーディオコーダを各ソース信号に独立して適用し、ソースの数に比例するビットレートになっていた。本件の符号化構成は、多数のオーディオソース信号を、単一のモノオーディオコーダでかつ比較的低いビットレートの補助情報で符号化することができる。Ｖのセクションで述べたとおり、オーディオ品質は、メモリ・容量が許せば、１を超える数の送信チャネルを使用することにより向上が可能である。
【０１２２】
Ｂ．メタデータでの再ミキシング
ＶＩのセクションで述べたとおり、既存のステレオおよびマルチチャネルオーディオ信号は、追加の補助情報（すなわち「メタデータ」）をたよりに再混合することができる。最適化されたステレオおよびマルチチャネル混合オーディオコンテンツを販売するだけの場合と違い、メタデータは、ユーザに、ユーザのステレオおよびマルチチャネル音楽の再ミキシングを許可して販売できる。これは、たとえばカラオケ用に歌におけるボーカルを弱めたりまたは音楽と一緒に楽器を演奏するために、特定の楽器部分を弱めたりするためにも使用することができる。
【０１２３】
記憶が問題でなくても、上記の構成では、音楽を好みにミキシングすることが可能になるため、非常に魅力的である。すなわち、音楽産業が積極的にマルチトラックのレコーディングを提供するとは考えられないからである。乱用の危険性も高すぎる。本件の構成では、マルチトラックレコーディングを提供されなくても、再ミキシングが可能である。
【０１２４】
さらに、ステレオまたはマルチチャネル信号が再ミキシングされるやいなや、ある程度
の品質劣化が生じ、再混合したものを違法に流通させることは、それほど魅力的でなくなる。
【０１２５】
Ｃ．ステレオ／マルチチャネル−波面合成変換
ＶＩのセクションに記載した構成の他の応用例について、以下に説明する。映画に付随するステレオおよびマルチチャネル（５．１サラウンド等）オーディオを、補助情報の付加によって拡張し、波面合成を可能にすることができる。例えば、ドルビーＡＣ−３（ＤＶＤのオーディオ）を、５．１後方互換性符号化オーディオに拡張して波面合成システムを得ることができる。すなわち、ＤＶＤは、従来技術の旧式プレーヤーでは、５．１サラウンドサウンドを再生し、補助情報の処理をサポートする新世代のプレーヤーでは、波面合成サウンドを再生する。
【０１２６】
ＶＩＩＩ．主観的評価
ＩＶ‐ＡおよびＩＶ‐Ｂのセクションで提案したアルゴリズムの実時間デコーダを実現した。ＦＦＴベースのＳＴＦＴフィルタバンクを使用する。１０２４ポイントＦＦＴおよび７６８（ゼロパディングで）のＳＴＦＴウィンドーサイズを使用。スペクトル係数は、各グループが等価矩形帯域幅（ＥＲＢ）の２倍の帯域幅の信号を表すように、ともにグループ化する。非公式な聴取では、より高い周波数分解能を選んだ場合も、オーディオ品質が著しく向上するわけではないことがわかった。送信すべきパラメータの数が結果として少ないので、より低い周波数分解能のほうが好ましい。
【０１２７】
各ソースについて、振幅／遅延パニングおよび利得を個別に調整することができる。１２〜１４トラックを有する、いくつかのマルチトラックオーディオレコーディングの符号化にこのアルゴリズムを使用した。
【０１２８】
デコーダは、ベクトルベース振幅パニング（ＶＢＡＰ）ミキサを使用して、５．１サラウンドのミキシングが可能である。各ソース信号の方向と利得を調整することができる。ソフトウエアを使って、符号化されたソース信号のミキシングと元の離散ソース信号のミキシングとの間で、オンザフライスイッチングが可能である。
【０１２９】
各ソースにゼロｄＢの利得Ｇ_ｉが使用される場合、ふだん聞いている分には、符号化されたもののミキシングか、元のソース信号のミキシングか、全くまたはほとんど違いはわからない。ソース利得が変化すればするほど、発生するアーティファクトの数は増える。ソースをわずかに（例えば±６ｄＢまで）増幅かつ減衰しても、まだ音声は良好である。全てのソースを一方側に混合して、単一のソースのみを他方側に混合するというのが、究極のシナリオである。この場合には、オーディオ品質は、特定のミキシングおよびソース信号により劣化し得る。
【０１３０】
ＩＸ．結論
オーディオソース信号、たとえばマルチトラックレコーディングのチャネル等をジョイント符号化する符号化構成を提案した。その目的は、高品質でソース信号波形を符号化することではない。その場合、ジョイント符号化は、通常オーディオソースが独立しているために、最小限の符号化利得しかもたらさない。目的は、符号化されたソース信号を混合した場合に、高品質のオーディオ信号を得ることである。ソース信号の統計的特性、ミキシング構成の特性および空間聴覚を考慮して、ソース信号をジョイント符号化することで、顕著な符号化利得の向上が達成されることがわかった。
【０１３１】
符号化利得の向上は、１つのオーディオ波形のみが送信されるという事実による。
【０１３２】
また、最終的な混合信号の空間知覚を決定する重要な要素であるソース信号の統計的特
性を表す補助情報も送信する。
【０１３３】
補助情報レートは、ソース信号あたり約３ｋｂｓである。ステレオ、マルチチャネルまたは波面合成ミキサ等のいずれかのミキサを、符号化されたソース信号で適用することができる。
【０１３４】
１を超える数のオーディオチャネルを送信することにより、本件の構成をより高いビットレートおよび品質にスケーリングすることは簡単である。さらに、所与のステレオまたはマルチチャネルオーディオ信号の再ミキシング（およびステレオからマルチチャネルまたは波面合成へ等のオーディオ方式の変更さえも）可能にする本構成の変形例を提案した。
【０１３５】
本構成の応用は多岐にわたる。たとえば、１を超える数の「自然のオーディオオブジェクト」（ソース信号）の送信が必要な場合、ＭＰＥＧ‐４を本構成で拡張して、ビットレートを減らすことができる。また、本構成は、波面合成システムのためのコンテンツの簡単表現を提供する。上記の通り、既存のステレオまたはマルチチャネル信号を補助情報で補償して、ユーザーが信号を好みに再混合することが出来る。
【０１３６】
参考文献
［１］シー・ファーラー、「空間オーディオのパラメトリック符号化」、博士論文、スイス連邦工科大学ローザンヌ校（ＥＰＦＬ）、２００４年、博士論文第３０６２号（C. Faller, Prametric Coding of Spatial Audio, Ph.D. thesis, Swiss Federal Institute of Technology Lausanne (EPFL), 2004, Ph.D. Thesis No. 3062）
［２］シー・ファーラーおよびエフ・バウムガルト、「バイノーラル・キュー・符号化、パートＩＩ、構成および応用」、音声およびオーディオ処理に関するＩＥＥＥ論文誌、第１１巻、第６号、２００３年１１月（C. Faller and F. Baumgarte, "Binaural Cue Coding-Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, No. 6, Nov. 2003）
本発明は、添付の図面により、よりよく理解される。
【図面の簡単な説明】
【０１３７】
【図１】各ソース信号の送信が、更なる処理のために独立して行われる構成を示す図である。
【図２】和信号および補助情報として送信される複数のソースを示す図である。
【図３】バイノーラル・キュー・符号化（ＢＣＣ）構成のブロック図である。
【図４】いくつかのソース信号に基づき、ステレオ信号を生成するためのミキサを示す図である。
【図５】ＩＣＴＤ、ＩＣＬＤおよびＩＣＣと、ソース信号サブバンド出力との間の依存関係を示す図である。
【図６】補助情報生成のプロセスを示す図である。
【図７】各ソース信号のＬＰＣパラメータを予測するプロセスを示す図である。
【図８】和信号からソース信号を再生成するプロセスを示す図である。
【図９】和信号から各信号を生成するための別の構成を示す図である。
【図１０】和信号に基づきステレオ信号を生成するためのミキサを示す図である。
【図１１】ミキシングパラメータにソースレベルが依存する事態を回避する振幅パニングアルゴリズムを示す図である。
【図１２】波面合成再生システムのラウンドスピーカ列を示す図である。
【図１３】送信チャネルのダウンミキシングを処理することにより、受信機でソース信号の予測値を回復する方法を示す図である。
【図１４】送信チャネルを処理することにより、受信機でソース信号の予測値を回復する方法を示す図である。

【特許請求の範囲】
【請求項１】
複数のソース信号（ｓ_１（ｎ），ｓ_２（ｎ），・・・，ｓ_Ｍ（ｎ））を符号化する方法であって、
１つまたは多数のソース信号（ｓ_１（ｎ），ｓ_２（ｎ），・・・，ｓ_Ｍ（ｎ））のスペクトル包絡を表す情報を複数のソース信号のために計算するステップと、
前記計算されたスペクトル包絡を表す情報を複数のソース信号（ｓ_１（ｎ），ｓ_２（ｎ），・・・，ｓ_Ｍ（ｎ））から引き出されたオーディオ信号のためのメタデータとして送信するステップとを含み、
前記情報は、正規化されたサブバンド自動相関関数Φ_ｉ（ｎ，ｅ）に関する情報または格子フィルタパラメータまたはＬＰＣパラメータまたはラインスペクトル対パラメータからなる、方法。
【請求項２】

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【公開番号】特開２０１２−２３４１９２（Ｐ２０１２−２３４１９２Ａ）
【公開日】平成２４年１１月２９日（２０１２．１１．２９）
【国際特許分類】

【出願番号】特願２０１２−１５５１２１（Ｐ２０１２−１５５１２１）
【出願日】平成２４年７月１１日（２０１２．７．１１）
【分割の表示】特願２００７−５５４５７９（Ｐ２００７−５５４５７９）の分割
【原出願日】平成１８年２月１３日（２００６．２．１３）
【出願人】（５９７１５９７６５）フラウンホーファーゲゼルシャフト　ツール　フォルデルング　デル　アンゲヴァンテン　フォルシユング　エー．フアー． (68)

[ Back to top ]

オーディオソースのパラメトリックジョイント符号化

メニュー

スポンサーリンク

次の公報 »

« 前の公報

オーディオソースのパラメトリックジョイント符号化

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク