オーディオソースのパラメトリックジョイント符号化
【課題】最小の帯域幅を用いて、複数のソース信号を送信する方法を提供する。
【解決手段】いくつかのオーディオソース信号を、ソース信号を復号化後に、波面合成、マルチチャネルサラウンドまたはステレオ信号を混合する目的で、送信または記憶する必要がある。ソース信号間に冗長性がない場合でさえ、ソース信号をジョイント符号化したときに、それら信号を別々に符号化する場合に比べ、顕著な符号化利得が得られる。これは、ソース信号の統計的特性、ミキシング技術の特性および空間聴覚を考慮することにより可能になる。ソース信号の和は、最終的に混合されたオーディオチャネルの知覚的に重要な空間キューを概ね決定するソース信号の統計的特性とともに送信される。ソース信号は、その統計的特性が元のソース信号の対応する特性に近似するよう受信機で回復される。
【解決手段】いくつかのオーディオソース信号を、ソース信号を復号化後に、波面合成、マルチチャネルサラウンドまたはステレオ信号を混合する目的で、送信または記憶する必要がある。ソース信号間に冗長性がない場合でさえ、ソース信号をジョイント符号化したときに、それら信号を別々に符号化する場合に比べ、顕著な符号化利得が得られる。これは、ソース信号の統計的特性、ミキシング技術の特性および空間聴覚を考慮することにより可能になる。ソース信号の和は、最終的に混合されたオーディオチャネルの知覚的に重要な空間キューを概ね決定するソース信号の統計的特性とともに送信される。ソース信号は、その統計的特性が元のソース信号の対応する特性に近似するよう受信機で回復される。
【発明の詳細な説明】
【背景技術】
【0001】
1.はじめに
【0002】
【0003】
ISO/IEC MPEG−4は、上記の符号化シナリオを扱う。これは、シーン記述を定義し、かつ(「自然な」)ソース信号ごとに、別個のモノオーディオコーダ、例えばACCオーディオコーダなどを使用する。しかしながら、多くのソースを有する複雑なシーンを混合する場合、ビットレートは高くなる。すなわち、ソースの数によって、ビットレートがスケールアップする。高品質でソース信号を1つ符号化するためには、約60〜90kb/sを必要とする。
【0004】
これまでは、フレキシブル・レンダリング(Flexible Rendering)のためのバイノーラル・キュー・符号化(BCC)と呼ばれる構成で、上記の符号化問題[1][2]の特別なケースに対応してきた。所与のソース信号の和および低いビットレートの補助情報のみを送信することによって、低ビットレートが達成される。しかしながら、ソース信号をデコーダで回復させることはできず、この構成は、ステレオおよびマルチチャネルのサラウンド信号生成に限定された構成であった。また、振幅と遅延パニングに基づいて、単純化したミキシングのみが使用された。これにより、ソースの方向を制御することは可能だが、他の聴覚空間イメージ属性を制御することはできなかった。この構成のもう1つの限界は、そのオーディオ品質が限られている点である。特に、ソース信号の数が増えると、オーディオ品質が低下する。
【0005】
文献[1](バイノーラル・キュー・符号化、パラメトリック・ステレオ、MP3・サラウンド、MPEG・サラウンド)は、N個のオーディオチャネルが符号化され、元のオーディオチャネルと類似するキューで、N個のオーディオチャネルが復号化される場合を扱う。送信された補助情報は、入力されたチャネル間の相違に関する、チャネル間キューパラメータを含む。
【0006】
ステレオおよびマルチチャネルのオーディオ信号のチャネルは、オーディオソース信号を混合したものを含み、したがって純粋なオーディオソース信号とは、性質が異なる。ステレオおよびマルチチャネルのオーディオ信号は、適切なプレイバックシステムで再生すれば、録音設定によりとらえたとおり、またはミキシングの際に録音技術者が設計したと
おりに、聴取者が聴覚空間イメージ(「サウンドステージ」)を知覚するように混合される。ステレオまたはマルチチャネルオーディオ信号のチャネルのためのジョイント符号化については、これまでいくつかの構成が提案されている。
【発明の開示】
【発明が解決しようとする課題】
【0007】
発明の概要
本発明の目的は、最小の帯域幅を用いて、複数のソース信号を送信する方法を提供することである。公知の方法の多くは、再生方式(ステレオ、5.1等)が、予め規定されており、符号化シナリオに直接的な影響を及ぼす。デコーダ側のオーディオストリームは、この予め規定された再生方式のみを使用する必要があり、したがって、ユーザーが予め規定された再生シナリオ(ステレオ等)により縛られることになる。
【課題を解決するための手段】
【0008】
本発明によれば、一般にステレオまたはマルチチャネル信号のチャネルではなく、様々な音声や楽器の信号等の独立信号である、N個のオーディオソース信号が符号化される。
送信された補助情報には、入力オーディオソース信号に関する統計パラメータが含まれる。
【0009】
本発明によれば、元のオーディオソース信号とは異なるキューでM個のオーディオチャネルが復号化される。これらの異なるキューは、受信した和信号にミキサを適用することにより暗黙に合成される。ミキサは、受信した統計ソース情報ならびに受信した(または局所的に決定した)オーディオ方式パラメータおよびミキシングパラメータの関数として制御される。または、これらの異なるキューは、受信した統計ソース情報ならびに受信した(または局所的に決定した)オーディオ方式パラメータおよびミキシングパラメータの関数として明確に計算される。これらの計算されたキューを用いて、先行技術のデコーダ(バイノーラル・キュー・符号化、パラメトリック・ステレオ、MPEGサラウンド)を制御し、受信した和信号に基づき、出力チャネルを合成する。
【0010】
オーディオソース信号をジョイント符号化するための本件の構成は、この種の構成では、最初のものである。これは、オーディオソース信号のジョイント符号化用に設計されている。オーディオソース信号は、一般にステレオまたはマルチチャネルオーディオシステムでの再生に向かない、モノオーディオ信号である。簡潔な説明のため、以下の記述においては、オーディオソース信号をしばしばソース信号と称する。
【0011】
オーディオソース信号は、再生の前に、まず混合してステレオ、マルチチャネルまたは波面合成オーディオ信号にする必要がある。オーディオソース信号は、単一の楽器もしくは話者でもよいし、または複数の楽器および話者の合計でもよい。他の種類のオーディオソース信号としては、コンサートの際にスポットマイクによりとらえられたモノオーディオ信号がある。オーディオソース信号は、マルチトラックレコーダかまたはハードディスク記録システムに記憶されることが多い。
【0012】
オーディオソース信号をジョイント符号化する本件の構成は、オーディオソース信号の和のみまたはソース信号の重み付けされた和のみを送信するということに基づく。
【0013】
【数1】
【0014】
【発明を実施するための最良の形態】
【0015】
II.定義、記号表記、および変数
【0016】
【0017】
III.オーディオソース信号のジョイント符号化
はじめに、パラメトリックマルチチャネルオーディオ符号化技術である、バイノーラル・キュー・符号化(BCC)、について述べる。その後、BCCの基礎となっているものと同じ見識により、符号化のシナリオのために、ソース信号のジョイント符号化を行うアルゴリズムを工夫することができる点を説明する。
【0018】
A.バイノーラル・キュー・符号化(BCC)
マルチチャネルオーディオ符号化のためのBCC構成[1][2]について下記の図面に示す。入力されたマルチチャネルオーディオ信号は、1つのチャネルにダウンミキシングされる。全チャネルの波形についての情報を符号化して送信する場合と違い、このダウンミキシングされた信号のみを(従来のモノオーディオコーダで)符号化し、送信する。さらに、知覚を動機とする「オーディオチャネル差」が元のオーディオチャネルの間で予測され、デコーダに送られる。デコーダは、オーディオチャネル差が元のオーディオ信号の対応するオーディオチャネル差に近似するようにその出力チャネルを生成する。
【0019】
加法定位は、ラウドスピーカー信号チャネル対の知覚的に意味のあるオーディオチャネル差が、チャネル間時間差(ICTD)およびチャネル間レベル差(ICLD)であることを示唆する。ICTDおよびICLDは、聴覚事象の知覚方向に関連し得る。他の聴覚空間イメージ属性、たとえば見かけの音源幅および音に包まれた感じなどは、インターオーラルコヒーレンス(IC)に関連し得る。聴取者の前または後ろに位置するラウドスピーカー対については、インターオーラルコヒーレンスは、BCCによる第3のオーディオチャネル差の尺度と考えられているチャネル間コヒーレンス(ICC)と直接に関連していることが多い。ICTD、ICLDおよびICCは、時間の関数としてサブバンドで予測される。使用される空間および時間分解能は、双方とも知覚を動機とする。
【0020】
B.オーディオソースのパラメトリックジョイント符号化
【0021】
【0022】
【0023】
【0024】
【0025】
本件の構成を得るために、ステレオミキサ(M=2)を考える。一般的な例をより簡略化するなら、振幅と遅延パニングのみを付与してミキシングを行う。離散ソース信号をデコーダで得ることが出来る場合、ステレオ信号は、図4に示すように混合され得る。すなわち、
【0026】
【数2】
【0027】
この場合、シーン記述ベクトルS(n)は、ミキシングパラメータを決定するソース方向のみを含む。
【0028】
【数3】
【0029】
ここで、Tは、ベクトルの転置である。なお、ミキシングパラメータとしては、表記の都合上、時間指数を無視した。
【0030】
ミキサを制御するためのより便利なパラメータは、時間およびレベル差、すなわちTiとΔLiであり、これらは、以下の式によりai、bi、ciおよびdiに関連する。
【0031】
【数4】
【0032】
ここでGiは、dBによるソース利得係数である。
【0033】
【0034】
B.1 ミキサ出力のICTD、ICLDおよびICC
【0035】
【0036】
【数5】
【0037】
【0038】
【数6】
【0039】
【0040】
【数7】
【0041】
ICTDおよびICCを予測するために、以下の正規化された相互相関関数を予測する。
【0042】
【数8】
【0043】
ICC、すなわちc(n)は、以下のとおり計算する。
【0044】
【数9】
【0045】
ICTD、すなわちT(n)を計算するために、遅延軸の最も高い頂点の位置を計算する。
【0046】
【数10】
【0047】
ここで、問題は、正規化された相互相関関数を、どうすればミキシングパラメータの関数として計算できるかである。(2)と一緒にすれば、(8)は以下のように表すことが
できる。
【0048】
【数11】
【0049】
これは、以下の式と等価である。
【0050】
【数12】
【0051】
ここで正規化自己相関関数Φ(n,e)は、以下の通りである。
【0052】
【数13】
【0053】
また、Ti=di−ciである。なお、(11)に基づき(12)を計算するために、考えられる遅延の範囲では、信号が広義定常とする。
【0054】
【0055】
【0056】
B.2 必要な補助情報
【0057】
【0058】
【数14】
【0059】
【0060】
補助情報の量を減らすために、ソース信号の相対的ダイナミックレンジを制限する。毎回、各サブバンドについて、最も強いソースの出力を選択する。他の全てのソースの対応するサブバンド出力の下限は、最も強いサブバンド出力より24dB低い値にすれば十分であることがわかった。したがって、量子化器のダイナミックレンジを24dBに制限することができる。
【0061】
【0062】
【数15】
【0063】
【0064】
特定の実施例によれば、サブバンドの帯域幅は様々で、低周波数のサブバンドの帯域幅のほうが、高周波数のサブバンドの帯域幅より小さい。
【0065】
[2]に記載のICLD量子化器に類似する構成で相対的出力値を量子化すると、およそ3(M−1)kb/sのビットレートになる。図6は、補助情報の生成プロセス(図2の「補助情報生成」ブロックに相当する)を示す図である。
【0066】
補助情報レートは、各ソース信号について活性状態を分析しかつ活性化したソースに関連する補助情報を送信するだけでも、さらに減らすことができる。
【0067】
【0068】
【0069】
図8は、和信号(1)に基づき、ソース信号を再生成するために使用するプロセスを示す図である。このプロセスは、図2の「合成」ブロックの一部である。個々のソース信号は、和信号の各サブバンドをgi(n)でスケーリングしかつ非相関フィルタをインパルス応答hi(n)で適用することにより回復される。
【0070】
【数16】
【0071】
【0072】
【数17】
【0073】
【0074】
【0075】
【0076】
【0077】
IV.実用上の制約を考えた実現例
【0078】
【0079】
このセクションの第2の部分では、本件の構成をいずれかのミキサで適用し、非相関処理を全く行わない場合の問題について論ずる。そのような構成は、非相関処理を伴う構成より複雑性が低いが、後述の通り、他に欠点がある可能性がある。
【0080】
【0081】
【0082】
【0083】
和信号(1)を処理するために適用されるステレオBCC合成構成(または「パラメトリックステレオ」構成)について図10に示す。このBCC合成構成が、図4に示すようなミキサの出力信号と同様に知覚される信号を生成することが望ましい。これは、BCC合成構成の出力チャネル間のICTD、ICLDおよびICCが、ミキサ出力(4)信号チャネル間に現れる対応するキューと類似する場合にあてはまる。
【0084】
【0085】
【数18】
【0086】
これは、出力サブバンド出力およびICLD(7)が、図4のミキサについてのものと同じになるように利得係数g1およびg2を計算する。ICTD、すなわちT(n)は、式(10)によって計算され、その計算されたT(n)を用いて図10の遅延D1およびD
2を決定する。
【0087】
【数19】
【0088】
【0089】
・一般に、ソース信号Mの数は、オーディオ出力チャネルNの数より大きい。したがって、生成が必要な独立オーディオチャネルの数は、M個のソース信号に非相関処理を行うよりも、N個の出力チャネルに非相関処理を行う場合に少なくなる。
【0090】
・多くの場合、N個のオーディオ出力チャネルは相関しており(ICC>0)、かつ独立したM個またはN個のチャネルを生成するために必要と考えられるものより、適用される非相関処理が少なくて済む。
【0091】
非相関処理が少なくて済むので、オーディオ品質の向上が期待される。
【0092】
最良のオーディオ品質は、ミキサパラメータが、ai2+bi2=1すなわちGi=0d
Bとなるように制約された場合に得られることが期待される。この場合、送信された和信号(1)における各ソースの出力が、混合されたデコーダ出力信号における同じソースの出力と同じである。デコーダ出力信号(図10)は、この場合、ミキサ出力信号(図4)がBCCエンコーダ/デコーダにより符号化/復号化されるかのように同じである。したがって、同様の品質を期待することができる。
【0093】
デコーダは、各ソースが現れるべき方向を決定することができるだけでなく、各ソースの利得も変化させることが出来る。利得は、ai2+bi2>1(Gi>0dB)を選択こ
とにより増大し、ai2+bi2<1(Gi<0dB)を選択することにより減少する。
【0094】
B.非相関処理を使用しない場合
上記の技術の制約は、BCC合成構成でミキシングが実行される点である。ICTD、ICLDおよびICC合成のみならず、BCC合成の範囲で他の効果処理の可能性が考えられる。
【0095】
【0096】
【0097】
【0098】
【数20】
【0099】
【0100】
C.非相関処理量の低減
【0101】
【0102】
【0103】
1.相互に近接するソースに対応するソースインデックスのグループを生成する。例えば、図8では、それらは、{1}、{2,5}、{3}および{4,6}が可能である。
【0104】
2.毎回、各サブバンドで、最も強いソースのソースインデックスを選択する。
【0105】
【数21】
【0106】
imax,すなわちhi(n)=δ(n)を含むグループのソースインデックスの部分には、非相関処理を適用しない。
【0107】
3.他の各グループについては、グループ内の同じhi(n)を選択する。
【0108】
上記のアルゴリズムは、最も強い信号成分に対する変更が最も少ない。その上、使用される異なるhi(n)の数が減る。こうすれば、非相関が、簡単であればあるほど、生成する必要のある独立チャネルの数が減る点が有利である。上記の技術は、ステレオまたはマルチチャネルオーディオ信号を混合するときにも適用可能である。
【0109】
V.品質およびビットレートからみたスケーラビリティ
本件の構成は、全てのソース信号の和のみを送信するが、これを従来のモノオーディオコーダで符号化することができる。モノの後方互換性を必要とせず、1を超える数のオーディオ波形の送信/記憶に利用可能な容量があるなら、本件の構成は、1を超える数の送信チャネルで使用するようにスケーリングできる。これは、所与のソース信号の様々なサブセットで、いくつかの和信号を生成させることにより実現される。すなわち、ソース信号の各サブセットに対して、本件の符号化構成を個別に適用する。オーディオ品質は、送信オーディオチャネルの数が増えるほど向上が期待される。というのも、各送信チャネルから非相関により生成する必要がある独立チャネルが減るからである(送信チャネルが1つの場合に比べて)。
【0110】
VI.既存のステレオおよびサラウンドオーディオ方式に対する後方互換性
以下のようなオーディオデリバリのシナリオを考えてみる。消費者が、最大限の品質のステレオまたはマルチチャネルサラウンド信号(オーディオCD、DVDまたはオンラインミュージックストア等により)を得る。目的は、標準的なステレオ/サラウンドの再生品質を損なわずに、その入手したオーディオコンテンツを好みにミックスしたものを生成する融通性を、消費者に随意に届けることである。
【0111】
【0112】
A.受信機におけるソース信号の和の予測
【0113】
【0114】
【0115】
補助情報を計算する前に、自動化されたプロセスを用いてエンコーダのソース信号入力si(n)のレベルを調整しても良い。このプロセスは、時間適応的に、各ソース信号が所与のステレオまたはマルチチャネル信号に含まれるレベルを予測する。補助情報を計算する前に、ソースがステレオまたはマルチチャネルオーディオ信号に含まれるレベルに、各ソース信号のレベルが等しくなるよう、時間適応的に調整される。
【0116】
B.送信チャネルの個別利用
【0117】
【0118】
【数22】
【0119】
【0120】
VII.応用例
すでに、本件の符号化構成のいくつかの応用例について述べた。ここで、これらについてまとめ、他に数例の応用例についても述べる。
【0121】
A.ミキシングのためのオーディオ符号化
オーディオソース信号を混合して、ステレオ、マルチチャネルまたは波面合成オーディオ信号にする前に、これら信号を記憶または送信する必要がある場合は、常に、本件の構成を適用することができる。先行技術では、モノオーディオコーダを各ソース信号に独立して適用し、ソースの数に比例するビットレートになっていた。本件の符号化構成は、多数のオーディオソース信号を、単一のモノオーディオコーダでかつ比較的低いビットレートの補助情報で符号化することができる。Vのセクションで述べたとおり、オーディオ品質は、メモリ・容量が許せば、1を超える数の送信チャネルを使用することにより向上が可能である。
【0122】
B.メタデータでの再ミキシング
VIのセクションで述べたとおり、既存のステレオおよびマルチチャネルオーディオ信号は、追加の補助情報(すなわち「メタデータ」)をたよりに再混合することができる。最適化されたステレオおよびマルチチャネル混合オーディオコンテンツを販売するだけの場合と違い、メタデータは、ユーザに、ユーザのステレオおよびマルチチャネル音楽の再ミキシングを許可して販売できる。これは、たとえばカラオケ用に歌におけるボーカルを弱めたりまたは音楽と一緒に楽器を演奏するために、特定の楽器部分を弱めたりするためにも使用することができる。
【0123】
記憶が問題でなくても、上記の構成では、音楽を好みにミキシングすることが可能になるため、非常に魅力的である。すなわち、音楽産業が積極的にマルチトラックのレコーディングを提供するとは考えられないからである。乱用の危険性も高すぎる。本件の構成では、マルチトラックレコーディングを提供されなくても、再ミキシングが可能である。
【0124】
さらに、ステレオまたはマルチチャネル信号が再ミキシングされるやいなや、ある程度
の品質劣化が生じ、再混合したものを違法に流通させることは、それほど魅力的でなくなる。
【0125】
C.ステレオ/マルチチャネル−波面合成変換
VIのセクションに記載した構成の他の応用例について、以下に説明する。映画に付随するステレオおよびマルチチャネル(5.1サラウンド等)オーディオを、補助情報の付加によって拡張し、波面合成を可能にすることができる。例えば、ドルビーAC−3(DVDのオーディオ)を、5.1後方互換性符号化オーディオに拡張して波面合成システムを得ることができる。すなわち、DVDは、従来技術の旧式プレーヤーでは、5.1サラウンドサウンドを再生し、補助情報の処理をサポートする新世代のプレーヤーでは、波面合成サウンドを再生する。
【0126】
VIII.主観的評価
IV‐AおよびIV‐Bのセクションで提案したアルゴリズムの実時間デコーダを実現した。FFTベースのSTFTフィルタバンクを使用する。1024ポイントFFTおよび768(ゼロパディングで)のSTFTウィンドーサイズを使用。スペクトル係数は、各グループが等価矩形帯域幅(ERB)の2倍の帯域幅の信号を表すように、ともにグループ化する。非公式な聴取では、より高い周波数分解能を選んだ場合も、オーディオ品質が著しく向上するわけではないことがわかった。送信すべきパラメータの数が結果として少ないので、より低い周波数分解能のほうが好ましい。
【0127】
各ソースについて、振幅/遅延パニングおよび利得を個別に調整することができる。12〜14トラックを有する、いくつかのマルチトラックオーディオレコーディングの符号化にこのアルゴリズムを使用した。
【0128】
デコーダは、ベクトルベース振幅パニング(VBAP)ミキサを使用して、5.1サラウンドのミキシングが可能である。各ソース信号の方向と利得を調整することができる。ソフトウエアを使って、符号化されたソース信号のミキシングと元の離散ソース信号のミキシングとの間で、オンザフライスイッチングが可能である。
【0129】
各ソースにゼロdBの利得Giが使用される場合、ふだん聞いている分には、符号化されたもののミキシングか、元のソース信号のミキシングか、全くまたはほとんど違いはわからない。ソース利得が変化すればするほど、発生するアーティファクトの数は増える。ソースをわずかに(例えば±6dBまで)増幅かつ減衰しても、まだ音声は良好である。全てのソースを一方側に混合して、単一のソースのみを他方側に混合するというのが、究極のシナリオである。この場合には、オーディオ品質は、特定のミキシングおよびソース信号により劣化し得る。
【0130】
IX.結論
オーディオソース信号、たとえばマルチトラックレコーディングのチャネル等をジョイント符号化する符号化構成を提案した。その目的は、高品質でソース信号波形を符号化することではない。その場合、ジョイント符号化は、通常オーディオソースが独立しているために、最小限の符号化利得しかもたらさない。目的は、符号化されたソース信号を混合した場合に、高品質のオーディオ信号を得ることである。ソース信号の統計的特性、ミキシング構成の特性および空間聴覚を考慮して、ソース信号をジョイント符号化することで、顕著な符号化利得の向上が達成されることがわかった。
【0131】
符号化利得の向上は、1つのオーディオ波形のみが送信されるという事実による。
【0132】
また、最終的な混合信号の空間知覚を決定する重要な要素であるソース信号の統計的特
性を表す補助情報も送信する。
【0133】
補助情報レートは、ソース信号あたり約3kbsである。ステレオ、マルチチャネルまたは波面合成ミキサ等のいずれかのミキサを、符号化されたソース信号で適用することができる。
【0134】
1を超える数のオーディオチャネルを送信することにより、本件の構成をより高いビットレートおよび品質にスケーリングすることは簡単である。さらに、所与のステレオまたはマルチチャネルオーディオ信号の再ミキシング(およびステレオからマルチチャネルまたは波面合成へ等のオーディオ方式の変更さえも)可能にする本構成の変形例を提案した。
【0135】
本構成の応用は多岐にわたる。たとえば、1を超える数の「自然のオーディオオブジェクト」(ソース信号)の送信が必要な場合、MPEG‐4を本構成で拡張して、ビットレートを減らすことができる。また、本構成は、波面合成システムのためのコンテンツの簡単表現を提供する。上記の通り、既存のステレオまたはマルチチャネル信号を補助情報で補償して、ユーザーが信号を好みに再混合することが出来る。
【0136】
参考文献
[1]シー・ファーラー、「空間オーディオのパラメトリック符号化」、博士論文、スイス連邦工科大学ローザンヌ校(EPFL)、2004年、博士論文第3062号(C. Faller, Prametric Coding of Spatial Audio, Ph.D. thesis, Swiss Federal Institute of Technology Lausanne (EPFL), 2004, Ph.D. Thesis No. 3062)
[2]シー・ファーラーおよびエフ・バウムガルト、「バイノーラル・キュー・符号化、パートII、構成および応用」、音声およびオーディオ処理に関するIEEE論文誌、第11巻、第6号、2003年11月(C. Faller and F. Baumgarte, "Binaural Cue Coding-Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, No. 6, Nov. 2003)
本発明は、添付の図面により、よりよく理解される。
【図面の簡単な説明】
【0137】
【図1】各ソース信号の送信が、更なる処理のために独立して行われる構成を示す図である。
【図2】和信号および補助情報として送信される複数のソースを示す図である。
【図3】バイノーラル・キュー・符号化(BCC)構成のブロック図である。
【図4】いくつかのソース信号に基づき、ステレオ信号を生成するためのミキサを示す図である。
【図5】ICTD、ICLDおよびICCと、ソース信号サブバンド出力との間の依存関係を示す図である。
【図6】補助情報生成のプロセスを示す図である。
【図7】各ソース信号のLPCパラメータを予測するプロセスを示す図である。
【図8】和信号からソース信号を再生成するプロセスを示す図である。
【図9】和信号から各信号を生成するための別の構成を示す図である。
【図10】和信号に基づきステレオ信号を生成するためのミキサを示す図である。
【図11】ミキシングパラメータにソースレベルが依存する事態を回避する振幅パニングアルゴリズムを示す図である。
【図12】波面合成再生システムのラウンドスピーカ列を示す図である。
【図13】送信チャネルのダウンミキシングを処理することにより、受信機でソース信号の予測値を回復する方法を示す図である。
【図14】送信チャネルを処理することにより、受信機でソース信号の予測値を回復する方法を示す図である。
【背景技術】
【0001】
1.はじめに
【0002】
【0003】
ISO/IEC MPEG−4は、上記の符号化シナリオを扱う。これは、シーン記述を定義し、かつ(「自然な」)ソース信号ごとに、別個のモノオーディオコーダ、例えばACCオーディオコーダなどを使用する。しかしながら、多くのソースを有する複雑なシーンを混合する場合、ビットレートは高くなる。すなわち、ソースの数によって、ビットレートがスケールアップする。高品質でソース信号を1つ符号化するためには、約60〜90kb/sを必要とする。
【0004】
これまでは、フレキシブル・レンダリング(Flexible Rendering)のためのバイノーラル・キュー・符号化(BCC)と呼ばれる構成で、上記の符号化問題[1][2]の特別なケースに対応してきた。所与のソース信号の和および低いビットレートの補助情報のみを送信することによって、低ビットレートが達成される。しかしながら、ソース信号をデコーダで回復させることはできず、この構成は、ステレオおよびマルチチャネルのサラウンド信号生成に限定された構成であった。また、振幅と遅延パニングに基づいて、単純化したミキシングのみが使用された。これにより、ソースの方向を制御することは可能だが、他の聴覚空間イメージ属性を制御することはできなかった。この構成のもう1つの限界は、そのオーディオ品質が限られている点である。特に、ソース信号の数が増えると、オーディオ品質が低下する。
【0005】
文献[1](バイノーラル・キュー・符号化、パラメトリック・ステレオ、MP3・サラウンド、MPEG・サラウンド)は、N個のオーディオチャネルが符号化され、元のオーディオチャネルと類似するキューで、N個のオーディオチャネルが復号化される場合を扱う。送信された補助情報は、入力されたチャネル間の相違に関する、チャネル間キューパラメータを含む。
【0006】
ステレオおよびマルチチャネルのオーディオ信号のチャネルは、オーディオソース信号を混合したものを含み、したがって純粋なオーディオソース信号とは、性質が異なる。ステレオおよびマルチチャネルのオーディオ信号は、適切なプレイバックシステムで再生すれば、録音設定によりとらえたとおり、またはミキシングの際に録音技術者が設計したと
おりに、聴取者が聴覚空間イメージ(「サウンドステージ」)を知覚するように混合される。ステレオまたはマルチチャネルオーディオ信号のチャネルのためのジョイント符号化については、これまでいくつかの構成が提案されている。
【発明の開示】
【発明が解決しようとする課題】
【0007】
発明の概要
本発明の目的は、最小の帯域幅を用いて、複数のソース信号を送信する方法を提供することである。公知の方法の多くは、再生方式(ステレオ、5.1等)が、予め規定されており、符号化シナリオに直接的な影響を及ぼす。デコーダ側のオーディオストリームは、この予め規定された再生方式のみを使用する必要があり、したがって、ユーザーが予め規定された再生シナリオ(ステレオ等)により縛られることになる。
【課題を解決するための手段】
【0008】
本発明によれば、一般にステレオまたはマルチチャネル信号のチャネルではなく、様々な音声や楽器の信号等の独立信号である、N個のオーディオソース信号が符号化される。
送信された補助情報には、入力オーディオソース信号に関する統計パラメータが含まれる。
【0009】
本発明によれば、元のオーディオソース信号とは異なるキューでM個のオーディオチャネルが復号化される。これらの異なるキューは、受信した和信号にミキサを適用することにより暗黙に合成される。ミキサは、受信した統計ソース情報ならびに受信した(または局所的に決定した)オーディオ方式パラメータおよびミキシングパラメータの関数として制御される。または、これらの異なるキューは、受信した統計ソース情報ならびに受信した(または局所的に決定した)オーディオ方式パラメータおよびミキシングパラメータの関数として明確に計算される。これらの計算されたキューを用いて、先行技術のデコーダ(バイノーラル・キュー・符号化、パラメトリック・ステレオ、MPEGサラウンド)を制御し、受信した和信号に基づき、出力チャネルを合成する。
【0010】
オーディオソース信号をジョイント符号化するための本件の構成は、この種の構成では、最初のものである。これは、オーディオソース信号のジョイント符号化用に設計されている。オーディオソース信号は、一般にステレオまたはマルチチャネルオーディオシステムでの再生に向かない、モノオーディオ信号である。簡潔な説明のため、以下の記述においては、オーディオソース信号をしばしばソース信号と称する。
【0011】
オーディオソース信号は、再生の前に、まず混合してステレオ、マルチチャネルまたは波面合成オーディオ信号にする必要がある。オーディオソース信号は、単一の楽器もしくは話者でもよいし、または複数の楽器および話者の合計でもよい。他の種類のオーディオソース信号としては、コンサートの際にスポットマイクによりとらえられたモノオーディオ信号がある。オーディオソース信号は、マルチトラックレコーダかまたはハードディスク記録システムに記憶されることが多い。
【0012】
オーディオソース信号をジョイント符号化する本件の構成は、オーディオソース信号の和のみまたはソース信号の重み付けされた和のみを送信するということに基づく。
【0013】
【数1】
【0014】
【発明を実施するための最良の形態】
【0015】
II.定義、記号表記、および変数
【0016】
【0017】
III.オーディオソース信号のジョイント符号化
はじめに、パラメトリックマルチチャネルオーディオ符号化技術である、バイノーラル・キュー・符号化(BCC)、について述べる。その後、BCCの基礎となっているものと同じ見識により、符号化のシナリオのために、ソース信号のジョイント符号化を行うアルゴリズムを工夫することができる点を説明する。
【0018】
A.バイノーラル・キュー・符号化(BCC)
マルチチャネルオーディオ符号化のためのBCC構成[1][2]について下記の図面に示す。入力されたマルチチャネルオーディオ信号は、1つのチャネルにダウンミキシングされる。全チャネルの波形についての情報を符号化して送信する場合と違い、このダウンミキシングされた信号のみを(従来のモノオーディオコーダで)符号化し、送信する。さらに、知覚を動機とする「オーディオチャネル差」が元のオーディオチャネルの間で予測され、デコーダに送られる。デコーダは、オーディオチャネル差が元のオーディオ信号の対応するオーディオチャネル差に近似するようにその出力チャネルを生成する。
【0019】
加法定位は、ラウドスピーカー信号チャネル対の知覚的に意味のあるオーディオチャネル差が、チャネル間時間差(ICTD)およびチャネル間レベル差(ICLD)であることを示唆する。ICTDおよびICLDは、聴覚事象の知覚方向に関連し得る。他の聴覚空間イメージ属性、たとえば見かけの音源幅および音に包まれた感じなどは、インターオーラルコヒーレンス(IC)に関連し得る。聴取者の前または後ろに位置するラウドスピーカー対については、インターオーラルコヒーレンスは、BCCによる第3のオーディオチャネル差の尺度と考えられているチャネル間コヒーレンス(ICC)と直接に関連していることが多い。ICTD、ICLDおよびICCは、時間の関数としてサブバンドで予測される。使用される空間および時間分解能は、双方とも知覚を動機とする。
【0020】
B.オーディオソースのパラメトリックジョイント符号化
【0021】
【0022】
【0023】
【0024】
【0025】
本件の構成を得るために、ステレオミキサ(M=2)を考える。一般的な例をより簡略化するなら、振幅と遅延パニングのみを付与してミキシングを行う。離散ソース信号をデコーダで得ることが出来る場合、ステレオ信号は、図4に示すように混合され得る。すなわち、
【0026】
【数2】
【0027】
この場合、シーン記述ベクトルS(n)は、ミキシングパラメータを決定するソース方向のみを含む。
【0028】
【数3】
【0029】
ここで、Tは、ベクトルの転置である。なお、ミキシングパラメータとしては、表記の都合上、時間指数を無視した。
【0030】
ミキサを制御するためのより便利なパラメータは、時間およびレベル差、すなわちTiとΔLiであり、これらは、以下の式によりai、bi、ciおよびdiに関連する。
【0031】
【数4】
【0032】
ここでGiは、dBによるソース利得係数である。
【0033】
【0034】
B.1 ミキサ出力のICTD、ICLDおよびICC
【0035】
【0036】
【数5】
【0037】
【0038】
【数6】
【0039】
【0040】
【数7】
【0041】
ICTDおよびICCを予測するために、以下の正規化された相互相関関数を予測する。
【0042】
【数8】
【0043】
ICC、すなわちc(n)は、以下のとおり計算する。
【0044】
【数9】
【0045】
ICTD、すなわちT(n)を計算するために、遅延軸の最も高い頂点の位置を計算する。
【0046】
【数10】
【0047】
ここで、問題は、正規化された相互相関関数を、どうすればミキシングパラメータの関数として計算できるかである。(2)と一緒にすれば、(8)は以下のように表すことが
できる。
【0048】
【数11】
【0049】
これは、以下の式と等価である。
【0050】
【数12】
【0051】
ここで正規化自己相関関数Φ(n,e)は、以下の通りである。
【0052】
【数13】
【0053】
また、Ti=di−ciである。なお、(11)に基づき(12)を計算するために、考えられる遅延の範囲では、信号が広義定常とする。
【0054】
【0055】
【0056】
B.2 必要な補助情報
【0057】
【0058】
【数14】
【0059】
【0060】
補助情報の量を減らすために、ソース信号の相対的ダイナミックレンジを制限する。毎回、各サブバンドについて、最も強いソースの出力を選択する。他の全てのソースの対応するサブバンド出力の下限は、最も強いサブバンド出力より24dB低い値にすれば十分であることがわかった。したがって、量子化器のダイナミックレンジを24dBに制限することができる。
【0061】
【0062】
【数15】
【0063】
【0064】
特定の実施例によれば、サブバンドの帯域幅は様々で、低周波数のサブバンドの帯域幅のほうが、高周波数のサブバンドの帯域幅より小さい。
【0065】
[2]に記載のICLD量子化器に類似する構成で相対的出力値を量子化すると、およそ3(M−1)kb/sのビットレートになる。図6は、補助情報の生成プロセス(図2の「補助情報生成」ブロックに相当する)を示す図である。
【0066】
補助情報レートは、各ソース信号について活性状態を分析しかつ活性化したソースに関連する補助情報を送信するだけでも、さらに減らすことができる。
【0067】
【0068】
【0069】
図8は、和信号(1)に基づき、ソース信号を再生成するために使用するプロセスを示す図である。このプロセスは、図2の「合成」ブロックの一部である。個々のソース信号は、和信号の各サブバンドをgi(n)でスケーリングしかつ非相関フィルタをインパルス応答hi(n)で適用することにより回復される。
【0070】
【数16】
【0071】
【0072】
【数17】
【0073】
【0074】
【0075】
【0076】
【0077】
IV.実用上の制約を考えた実現例
【0078】
【0079】
このセクションの第2の部分では、本件の構成をいずれかのミキサで適用し、非相関処理を全く行わない場合の問題について論ずる。そのような構成は、非相関処理を伴う構成より複雑性が低いが、後述の通り、他に欠点がある可能性がある。
【0080】
【0081】
【0082】
【0083】
和信号(1)を処理するために適用されるステレオBCC合成構成(または「パラメトリックステレオ」構成)について図10に示す。このBCC合成構成が、図4に示すようなミキサの出力信号と同様に知覚される信号を生成することが望ましい。これは、BCC合成構成の出力チャネル間のICTD、ICLDおよびICCが、ミキサ出力(4)信号チャネル間に現れる対応するキューと類似する場合にあてはまる。
【0084】
【0085】
【数18】
【0086】
これは、出力サブバンド出力およびICLD(7)が、図4のミキサについてのものと同じになるように利得係数g1およびg2を計算する。ICTD、すなわちT(n)は、式(10)によって計算され、その計算されたT(n)を用いて図10の遅延D1およびD
2を決定する。
【0087】
【数19】
【0088】
【0089】
・一般に、ソース信号Mの数は、オーディオ出力チャネルNの数より大きい。したがって、生成が必要な独立オーディオチャネルの数は、M個のソース信号に非相関処理を行うよりも、N個の出力チャネルに非相関処理を行う場合に少なくなる。
【0090】
・多くの場合、N個のオーディオ出力チャネルは相関しており(ICC>0)、かつ独立したM個またはN個のチャネルを生成するために必要と考えられるものより、適用される非相関処理が少なくて済む。
【0091】
非相関処理が少なくて済むので、オーディオ品質の向上が期待される。
【0092】
最良のオーディオ品質は、ミキサパラメータが、ai2+bi2=1すなわちGi=0d
Bとなるように制約された場合に得られることが期待される。この場合、送信された和信号(1)における各ソースの出力が、混合されたデコーダ出力信号における同じソースの出力と同じである。デコーダ出力信号(図10)は、この場合、ミキサ出力信号(図4)がBCCエンコーダ/デコーダにより符号化/復号化されるかのように同じである。したがって、同様の品質を期待することができる。
【0093】
デコーダは、各ソースが現れるべき方向を決定することができるだけでなく、各ソースの利得も変化させることが出来る。利得は、ai2+bi2>1(Gi>0dB)を選択こ
とにより増大し、ai2+bi2<1(Gi<0dB)を選択することにより減少する。
【0094】
B.非相関処理を使用しない場合
上記の技術の制約は、BCC合成構成でミキシングが実行される点である。ICTD、ICLDおよびICC合成のみならず、BCC合成の範囲で他の効果処理の可能性が考えられる。
【0095】
【0096】
【0097】
【0098】
【数20】
【0099】
【0100】
C.非相関処理量の低減
【0101】
【0102】
【0103】
1.相互に近接するソースに対応するソースインデックスのグループを生成する。例えば、図8では、それらは、{1}、{2,5}、{3}および{4,6}が可能である。
【0104】
2.毎回、各サブバンドで、最も強いソースのソースインデックスを選択する。
【0105】
【数21】
【0106】
imax,すなわちhi(n)=δ(n)を含むグループのソースインデックスの部分には、非相関処理を適用しない。
【0107】
3.他の各グループについては、グループ内の同じhi(n)を選択する。
【0108】
上記のアルゴリズムは、最も強い信号成分に対する変更が最も少ない。その上、使用される異なるhi(n)の数が減る。こうすれば、非相関が、簡単であればあるほど、生成する必要のある独立チャネルの数が減る点が有利である。上記の技術は、ステレオまたはマルチチャネルオーディオ信号を混合するときにも適用可能である。
【0109】
V.品質およびビットレートからみたスケーラビリティ
本件の構成は、全てのソース信号の和のみを送信するが、これを従来のモノオーディオコーダで符号化することができる。モノの後方互換性を必要とせず、1を超える数のオーディオ波形の送信/記憶に利用可能な容量があるなら、本件の構成は、1を超える数の送信チャネルで使用するようにスケーリングできる。これは、所与のソース信号の様々なサブセットで、いくつかの和信号を生成させることにより実現される。すなわち、ソース信号の各サブセットに対して、本件の符号化構成を個別に適用する。オーディオ品質は、送信オーディオチャネルの数が増えるほど向上が期待される。というのも、各送信チャネルから非相関により生成する必要がある独立チャネルが減るからである(送信チャネルが1つの場合に比べて)。
【0110】
VI.既存のステレオおよびサラウンドオーディオ方式に対する後方互換性
以下のようなオーディオデリバリのシナリオを考えてみる。消費者が、最大限の品質のステレオまたはマルチチャネルサラウンド信号(オーディオCD、DVDまたはオンラインミュージックストア等により)を得る。目的は、標準的なステレオ/サラウンドの再生品質を損なわずに、その入手したオーディオコンテンツを好みにミックスしたものを生成する融通性を、消費者に随意に届けることである。
【0111】
【0112】
A.受信機におけるソース信号の和の予測
【0113】
【0114】
【0115】
補助情報を計算する前に、自動化されたプロセスを用いてエンコーダのソース信号入力si(n)のレベルを調整しても良い。このプロセスは、時間適応的に、各ソース信号が所与のステレオまたはマルチチャネル信号に含まれるレベルを予測する。補助情報を計算する前に、ソースがステレオまたはマルチチャネルオーディオ信号に含まれるレベルに、各ソース信号のレベルが等しくなるよう、時間適応的に調整される。
【0116】
B.送信チャネルの個別利用
【0117】
【0118】
【数22】
【0119】
【0120】
VII.応用例
すでに、本件の符号化構成のいくつかの応用例について述べた。ここで、これらについてまとめ、他に数例の応用例についても述べる。
【0121】
A.ミキシングのためのオーディオ符号化
オーディオソース信号を混合して、ステレオ、マルチチャネルまたは波面合成オーディオ信号にする前に、これら信号を記憶または送信する必要がある場合は、常に、本件の構成を適用することができる。先行技術では、モノオーディオコーダを各ソース信号に独立して適用し、ソースの数に比例するビットレートになっていた。本件の符号化構成は、多数のオーディオソース信号を、単一のモノオーディオコーダでかつ比較的低いビットレートの補助情報で符号化することができる。Vのセクションで述べたとおり、オーディオ品質は、メモリ・容量が許せば、1を超える数の送信チャネルを使用することにより向上が可能である。
【0122】
B.メタデータでの再ミキシング
VIのセクションで述べたとおり、既存のステレオおよびマルチチャネルオーディオ信号は、追加の補助情報(すなわち「メタデータ」)をたよりに再混合することができる。最適化されたステレオおよびマルチチャネル混合オーディオコンテンツを販売するだけの場合と違い、メタデータは、ユーザに、ユーザのステレオおよびマルチチャネル音楽の再ミキシングを許可して販売できる。これは、たとえばカラオケ用に歌におけるボーカルを弱めたりまたは音楽と一緒に楽器を演奏するために、特定の楽器部分を弱めたりするためにも使用することができる。
【0123】
記憶が問題でなくても、上記の構成では、音楽を好みにミキシングすることが可能になるため、非常に魅力的である。すなわち、音楽産業が積極的にマルチトラックのレコーディングを提供するとは考えられないからである。乱用の危険性も高すぎる。本件の構成では、マルチトラックレコーディングを提供されなくても、再ミキシングが可能である。
【0124】
さらに、ステレオまたはマルチチャネル信号が再ミキシングされるやいなや、ある程度
の品質劣化が生じ、再混合したものを違法に流通させることは、それほど魅力的でなくなる。
【0125】
C.ステレオ/マルチチャネル−波面合成変換
VIのセクションに記載した構成の他の応用例について、以下に説明する。映画に付随するステレオおよびマルチチャネル(5.1サラウンド等)オーディオを、補助情報の付加によって拡張し、波面合成を可能にすることができる。例えば、ドルビーAC−3(DVDのオーディオ)を、5.1後方互換性符号化オーディオに拡張して波面合成システムを得ることができる。すなわち、DVDは、従来技術の旧式プレーヤーでは、5.1サラウンドサウンドを再生し、補助情報の処理をサポートする新世代のプレーヤーでは、波面合成サウンドを再生する。
【0126】
VIII.主観的評価
IV‐AおよびIV‐Bのセクションで提案したアルゴリズムの実時間デコーダを実現した。FFTベースのSTFTフィルタバンクを使用する。1024ポイントFFTおよび768(ゼロパディングで)のSTFTウィンドーサイズを使用。スペクトル係数は、各グループが等価矩形帯域幅(ERB)の2倍の帯域幅の信号を表すように、ともにグループ化する。非公式な聴取では、より高い周波数分解能を選んだ場合も、オーディオ品質が著しく向上するわけではないことがわかった。送信すべきパラメータの数が結果として少ないので、より低い周波数分解能のほうが好ましい。
【0127】
各ソースについて、振幅/遅延パニングおよび利得を個別に調整することができる。12〜14トラックを有する、いくつかのマルチトラックオーディオレコーディングの符号化にこのアルゴリズムを使用した。
【0128】
デコーダは、ベクトルベース振幅パニング(VBAP)ミキサを使用して、5.1サラウンドのミキシングが可能である。各ソース信号の方向と利得を調整することができる。ソフトウエアを使って、符号化されたソース信号のミキシングと元の離散ソース信号のミキシングとの間で、オンザフライスイッチングが可能である。
【0129】
各ソースにゼロdBの利得Giが使用される場合、ふだん聞いている分には、符号化されたもののミキシングか、元のソース信号のミキシングか、全くまたはほとんど違いはわからない。ソース利得が変化すればするほど、発生するアーティファクトの数は増える。ソースをわずかに(例えば±6dBまで)増幅かつ減衰しても、まだ音声は良好である。全てのソースを一方側に混合して、単一のソースのみを他方側に混合するというのが、究極のシナリオである。この場合には、オーディオ品質は、特定のミキシングおよびソース信号により劣化し得る。
【0130】
IX.結論
オーディオソース信号、たとえばマルチトラックレコーディングのチャネル等をジョイント符号化する符号化構成を提案した。その目的は、高品質でソース信号波形を符号化することではない。その場合、ジョイント符号化は、通常オーディオソースが独立しているために、最小限の符号化利得しかもたらさない。目的は、符号化されたソース信号を混合した場合に、高品質のオーディオ信号を得ることである。ソース信号の統計的特性、ミキシング構成の特性および空間聴覚を考慮して、ソース信号をジョイント符号化することで、顕著な符号化利得の向上が達成されることがわかった。
【0131】
符号化利得の向上は、1つのオーディオ波形のみが送信されるという事実による。
【0132】
また、最終的な混合信号の空間知覚を決定する重要な要素であるソース信号の統計的特
性を表す補助情報も送信する。
【0133】
補助情報レートは、ソース信号あたり約3kbsである。ステレオ、マルチチャネルまたは波面合成ミキサ等のいずれかのミキサを、符号化されたソース信号で適用することができる。
【0134】
1を超える数のオーディオチャネルを送信することにより、本件の構成をより高いビットレートおよび品質にスケーリングすることは簡単である。さらに、所与のステレオまたはマルチチャネルオーディオ信号の再ミキシング(およびステレオからマルチチャネルまたは波面合成へ等のオーディオ方式の変更さえも)可能にする本構成の変形例を提案した。
【0135】
本構成の応用は多岐にわたる。たとえば、1を超える数の「自然のオーディオオブジェクト」(ソース信号)の送信が必要な場合、MPEG‐4を本構成で拡張して、ビットレートを減らすことができる。また、本構成は、波面合成システムのためのコンテンツの簡単表現を提供する。上記の通り、既存のステレオまたはマルチチャネル信号を補助情報で補償して、ユーザーが信号を好みに再混合することが出来る。
【0136】
参考文献
[1]シー・ファーラー、「空間オーディオのパラメトリック符号化」、博士論文、スイス連邦工科大学ローザンヌ校(EPFL)、2004年、博士論文第3062号(C. Faller, Prametric Coding of Spatial Audio, Ph.D. thesis, Swiss Federal Institute of Technology Lausanne (EPFL), 2004, Ph.D. Thesis No. 3062)
[2]シー・ファーラーおよびエフ・バウムガルト、「バイノーラル・キュー・符号化、パートII、構成および応用」、音声およびオーディオ処理に関するIEEE論文誌、第11巻、第6号、2003年11月(C. Faller and F. Baumgarte, "Binaural Cue Coding-Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, No. 6, Nov. 2003)
本発明は、添付の図面により、よりよく理解される。
【図面の簡単な説明】
【0137】
【図1】各ソース信号の送信が、更なる処理のために独立して行われる構成を示す図である。
【図2】和信号および補助情報として送信される複数のソースを示す図である。
【図3】バイノーラル・キュー・符号化(BCC)構成のブロック図である。
【図4】いくつかのソース信号に基づき、ステレオ信号を生成するためのミキサを示す図である。
【図5】ICTD、ICLDおよびICCと、ソース信号サブバンド出力との間の依存関係を示す図である。
【図6】補助情報生成のプロセスを示す図である。
【図7】各ソース信号のLPCパラメータを予測するプロセスを示す図である。
【図8】和信号からソース信号を再生成するプロセスを示す図である。
【図9】和信号から各信号を生成するための別の構成を示す図である。
【図10】和信号に基づきステレオ信号を生成するためのミキサを示す図である。
【図11】ミキシングパラメータにソースレベルが依存する事態を回避する振幅パニングアルゴリズムを示す図である。
【図12】波面合成再生システムのラウンドスピーカ列を示す図である。
【図13】送信チャネルのダウンミキシングを処理することにより、受信機でソース信号の予測値を回復する方法を示す図である。
【図14】送信チャネルを処理することにより、受信機でソース信号の予測値を回復する方法を示す図である。
【特許請求の範囲】
【請求項1】
複数のソース信号(s1(n),s2(n),・・・,sM(n))を符号化する方法であって、
1つまたは多数のソース信号(s1(n),s2(n),・・・,sM(n))のスペクトル包絡を表す情報を複数のソース信号のために計算するステップと、
前記計算されたスペクトル包絡を表す情報を複数のソース信号(s1(n),s2(n),・・・,sM(n))から引き出されたオーディオ信号のためのメタデータとして送信するステップとを含み、
前記情報は、正規化されたサブバンド自動相関関数Φi(n,e)に関する情報または格子フィルタパラメータまたはLPCパラメータまたはラインスペクトル対パラメータからなる、方法。
【請求項2】
【請求項1】
複数のソース信号(s1(n),s2(n),・・・,sM(n))を符号化する方法であって、
1つまたは多数のソース信号(s1(n),s2(n),・・・,sM(n))のスペクトル包絡を表す情報を複数のソース信号のために計算するステップと、
前記計算されたスペクトル包絡を表す情報を複数のソース信号(s1(n),s2(n),・・・,sM(n))から引き出されたオーディオ信号のためのメタデータとして送信するステップとを含み、
前記情報は、正規化されたサブバンド自動相関関数Φi(n,e)に関する情報または格子フィルタパラメータまたはLPCパラメータまたはラインスペクトル対パラメータからなる、方法。
【請求項2】
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2012−234192(P2012−234192A)
【公開日】平成24年11月29日(2012.11.29)
【国際特許分類】
【出願番号】特願2012−155121(P2012−155121)
【出願日】平成24年7月11日(2012.7.11)
【分割の表示】特願2007−554579(P2007−554579)の分割
【原出願日】平成18年2月13日(2006.2.13)
【出願人】(597159765)フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. (68)
【公開日】平成24年11月29日(2012.11.29)
【国際特許分類】
【出願日】平成24年7月11日(2012.7.11)
【分割の表示】特願2007−554579(P2007−554579)の分割
【原出願日】平成18年2月13日(2006.2.13)
【出願人】(597159765)フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. (68)
[ Back to top ]