マルチチャネルシンセサイザ制御信号を発生するための装置および方法並びにマルチチャネル合成のための装置および方法
【課題】一方ではデータ速度が低く、他方では良好な主観的な品質が可能な、向上された信号合成概念を提供する。
【解決手段】エンコーダ側で、マルチチャネル入力信号は平滑化制御情報を得るために解析され、これはデコーダ側マルチチャネル合成により用いられ、量子化された送信されたパラメータまたは量子化された送信されたパラメータから導出される値を平滑化して、特に、ゆっくりと移動するポイントソースと急速に移動する正弦曲線等の音素材を有する急速に移動するポイントソースとに対して、主観的なオーディオ品質を向上する。
【解決手段】エンコーダ側で、マルチチャネル入力信号は平滑化制御情報を得るために解析され、これはデコーダ側マルチチャネル合成により用いられ、量子化された送信されたパラメータまたは量子化された送信されたパラメータから導出される値を平滑化して、特に、ゆっくりと移動するポイントソースと急速に移動する正弦曲線等の音素材を有する急速に移動するポイントソースとに対して、主観的なオーディオ品質を向上する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチチャネルオーディオ処理に関し、特に、パラメトリックサイド情報を用いたマルチチャネル符号化および合成に関する。
本出願は、2005年4月15日出願の米国仮出願第60/671,582号についての優先権を主張する。
【背景技術】
【0002】
近年、マルチチャネルオーディオ再生技術がますます普及している。これは、周知のMPEG−1レイヤ3(MP3としても周知である)技術等のオーディオ圧縮/符号化技術により、制限のある帯域幅を有するインターネットまたは他の伝送チャネルを介して、オーディオコンテンツを配信することが可能になったという事実によるものである。
【0003】
このように普及している別の理由は、家庭環境において、マルチチャネルコンテンツがますます利用できるようになり、マルチチャネル再生デバイスがますます浸透しているからである。
【0004】
ステレオフォーマットの全記録を配信すること、すなわち、第1のつまり左ステレオチャネルと第2のつまり右ステレオチャネルとを含むオーディオ記録のデジタル表現を配信することが可能であるという事実により、MP3符号化技術はよく知られるようになった。さらに、MP3技術は、利用できる記憶および伝送帯域幅を与えるオーディオ配信のための新たな可能性を作り出した。
【0005】
しかしながら、従来の2チャネルサウンドシステムには基本的な欠点がある。2つのスピーカしか用いられていないという事実により、空間イメージが制限されることになる。したがって、サラウンド技術が開発されている。推奨されるマルチチャネルサラウンド表現は、2つのステレオチャネルLおよびRに加えて、付加的なセンターチャネルCおよび2つのサラウンドチャネルLs、Rsをさらに含み、オプションとして、低周波数拡張チャネルまたはサブウーファチャネルを含む。この基準サウンドフォーマットは、3ステレオ/2ステレオ(または5.1フォーマット)とも呼ばれるもので、3つのフロントチャネルおよび2つのサラウンドチャネルを意味する。一般に、5つの伝送チャネルを必要とする。再生環境では、それぞれ5つの異なる場所に配置された少なくとも5つのスピーカは、5つの適切に配置されたスピーカから一定の距離で、最適なスイートスポットを得る必要がある。
【0006】
マルチチャネルオーディオ信号の伝送に必要なデータ量を低減する本技術では、いくつかの技術が周知である。このような技術は、ジョイントステレオ技術と呼ばれている。このために、図10を参照すると、ジョイントステレオデバイス60を示している。このデバイスは、例えば、インテンシティステレオ(IS)、パラメトリックステレオ(PS)または(関連した)バイノーラルキュー符号化(BCC)を実施するデバイスとすることができる。このようなデバイスは、一般に、入力として少なくとも2つのチャネル(CH1、CH2、・・・CHn)を受信し、1つのキャリアチャネルおよびパラメトリックデータを出力する。パラメトリックデータは、デコーダにおいて、元のチャネル(CH1、CH2、・・・CHn)の近似値を算出できるように、定義されている。
【0007】
通常、キャリアチャネルは、サブバンドサンプル、スペクトル係数、時間領域サンプル等を含み、これらにより、基礎の信号が比較的よい表現になるが、パラメトリックデータはスペクトル係数のこのようなサンプルを含まないが、乗算、時間シフティング、周波数シフティング、位相シフティング等による重み付けのような特定の再構成アルゴリズムを制御するための制御パラメータを含む。したがって、パラメトリックデータは、関連付けられたチャネルの信号の比較的粗い表現しか含んでいない。数字を提示すると、従来の損失の大きいオーディオコーダを用いて符号化されるキャリアチャネルが必要とするデータ量は、60〜70キロビット/秒の範囲であるが、1つのチャネルに対してパラメトリックサイド情報が必要とするデータ量は、1.5〜2.5キロビット/秒の範囲である。パラメトリックデータの一例としては、以下に説明するように、周知のスケールファクタ、インテンシティステレオ情報またはバイノーラルキューパラメータが挙げられる。
【0008】
インテンシティステレオ符号化については、AES予稿集3799、「インテンシティステレオ符号化(Intensity Stereo Coding)」、J.ヘレ(Herre)、K.H.ブランデンブルグ(Brandenburg)、D.レーデラー(Lederer)、1994年2月、アムステルダム、第96回AESに記載され、一般に、インテンシティステレオの概念は、2つの立体音響オーディオチャネルのデータに対して行われる主軸変換に基づいている。大部分のデータポイントが第1の原理軸のまわりに集中している場合、符号化を行う前に一定の角度で2つの信号を回転し、ビットストリームにおいて伝送から第2の直交成分を除外することにより、符号化利得を得ることができる。左および右チャネルのための再構成された信号は、同じ伝送信号の別々に重み付けされまたはスケーリングされたバージョンからなる。しかしながら、再構成された信号は、それらの振幅において異なっているが、それらの位相情報については全く同じである。しかしながら、2つの元のオーディオチャネルのエネルギー時間エンベロープは、通常周波数選択的に動作する選択的スケーリング動作により保存される。これは、高い周波数での人間のサウンド認識に一致し、主要な空間キューは、エネルギーエンベロープにより決定される。
【0009】
また、実際に実施するにあたっては、2つの成分を回転させる代わりに、伝送信号、すなわち、キャリアチャネルが、左チャネルおよび右チャネルの和信号から発生される。さらに、この処理、すなわち、スケーリング動作を実行するためにインテンシティステレオパラメータを発生することは、周波数選択的に実行され、すなわち、各スケールファクタバンド、すなわち、エンコーダの周波数区分に対して独立して実行される。好ましくは、2つのチャネルが結合チャネルまたは「キャリア」チャネルを形成するために結合され、結合チャネルの他に、インテンシティステレオ情報が決定され、これは、第1のチャネルのエネルギー、第2のチャネルのエネルギーまたは結合チャネルのエネルギーに依存する。
【0010】
BCC技術については、AESコンベンション論文5574、「ステレオおよびマルチチャネルオーディオ圧縮に応用されたバイノーラルキュー符号化(Binaural cue coding applied to stereo and multi−channel audio compression)」、C.フォーラ(Faller)、F.バウムガルテ(Baumgarte)、2002年5月、ミュンヘンに記載されている。BCC符号化では、オーバーラップウィンドウを有するDFTベースの変換を用いて、多数のオーディオ入力チャネルは、スペクトル表現に変換されている。得られる均一なスペクトルは、それぞれインデックスを有する重なりのない区分に分割される。各区分は、等価矩形帯域幅(ERB)に比例する帯域幅を有する。チャネル間レベル差(ICLD)およびチャネル間時間差(ICTD)は、各フレームkに対して、この区分毎に推定される。ICLDおよびICTDは、量子化され符号化されると、BCCビットストリームが得られる。基準チャネルと比較にして、チャネル間レベル差およびチャネル間時間差が各チャネルに与えられる。次に、パラメータが規定の公式にしたがって算出され、これらは、処理される信号の特定の区分に依存する。
【0011】
デコーダ側では、デコーダは、モノラル信号およびBCCビットストリームを受信する。モノラル信号は、周波数領域に変換され、空間合成ブロックに入力され、このブロックは、復号化されたICLDおよびICTD値も受信する。空間合成ブロックでは、マルチチャネル信号を合成するために、モノラル信号の重み付け動作を実行するためにBCCパラメータ(ICLDおよびICTD)値が用いられ、マルチチャネル信号は、周波数/時間変換後の元のマルチチャネルオーディオ信号を再構成したものを表す。
【0012】
BCCの場合、ジョイントステレオモジュール60は、パラメトリックチャネルデータが量子化され、ICLDまたはICTDパラメータを符号化するように、チャネルサイド情報を出力するために動作し、元のチャネルのうちの1つは、基準チャネルとしてチャネルサイド情報を符号化するために用いられる。
【0013】
通常、最も単純な実施の形態では、キャリアチャネルは、構築する元のチャネルの総計として形成されるものである。
【0014】
当然、上記の技術では、キャリアチャネルしか処理することができないデコーダに対するモノラル表現を提供するだけであり、パラメトリックデータを処理して、2つ以上の入力チャネルの1つ以上の近似値を発生することはできない。
【0015】
バイノーラルキュー符号化(BCC)として周知のオーディオ符号化技術については、米国特許出願公開第2003/0219130A1号、米国特許出願公開第2003/0026441A1号および米国特許出願公開第2003/0035553A1号にも詳細に記載されている。さらに引例として、「バイノーラルキュー符号化パートII:方法および応用例(Binaural Cue Coding. Part II:Schemes and Applications)」、C.フォーラ(Faller)およびF.バウムガルテ(Baumgarte)、オーディオおよびスピーチプロシーディング(Audio and Speech Proc.)におけるIEEEトランザクション、11巻、第6号、2003年11月がある。フォーラおよびバウムガルテが著したBCC技術に関する引例の米国特許出願公開公報および2つの引例の技術刊行物は、ここに引例としてすべて組み込まれている。
【0016】
パラメトリック方法をもっと広いビットレート範囲に適用可能にする、バイノーラルキュー符号化方法を大幅に向上させることは、MPEG−4高効率AACv2で標準化されているように、「パラメトリックステレオ」(PS)として周知である。パラメトリックステレオの重要な拡張の1つは、空間「拡散」パラメータを含むようにすることである。この知覚は、チャネル間相関またはチャネル間コヒーレンス(ICC)の数学的特性として取り込まれる。PSパラメータの解析、知覚量子化、伝送および合成処理については、「ステレオオーディオのパラメトリック符号化(Parametric coding of stereo audio)」、J.ブレーバールト(Breebaart)、S.ファン・デ・パール(van de Par)、A.コーラウシュ(Kohlrausch)およびE.シュイエールス(Schuijers)、応用信号処理に関するEURASIPジャーナル(EURASIP J. Appl. Sign. Proc.)2005年9月、1305−1322頁に詳細に記載されている。別の引例として、J.ブレーバールト(Breebaart)、S.ファン・デ・パール(van de Par)、A.コーラウシュ(Kohlrausch)、E.シュイエールス(Schuijers)、「低ビットレートでの高品質パラメトリック空間オーディオ符号化(High−Quality Parametric Spatial Audio Coding at Low Bit rates)」、2004年5月、ベルリン、AES第116回コンベンション、予稿集6072、およびE.シュイエールス(Schuijers)、J.ブレーバールト(Breebaart)、H.プルンハーゲン(Purnhagen)、J.エングデガールド(Engdegard)、「低複雑性パラメトリックステレオ符号化(Low Complexity Parametric Stereo Coding)」、2004年5月、ベルリン、AES第116回コンベンション、予稿集6073がある。
【0017】
以下に、マルチチャネルオーディオ符号化のための代表的な一般的BCC方法について、図11〜13を参照して、さらに詳細に説明する。図11は、マルチチャネルオーディオ信号の符号化/伝送のための、そのような一般的バイノーラルキュー符号化方法を示す。BCCエンコーダ112の入力110のマルチチャネルオーディオ入力信号は、ダウンミックスブロック114でダウンミキシングされる。本例では、入力110の元のマルチチャネル信号は、フロント左チャネル、フロント右チャネル、左サラウンドチャネル、右サラウンドチャネルおよびセンターチャネルを有する、5チャネルサラウンド信号である。本発明の好適な実施の形態では、ダウンミックスブロック114は、これらの5つのチャネルを単純に加算して、モノラル信号にすることにより、和信号を生じる。マルチチャネル入力信号を用いて、1つのチャネルを有するダウンミックス信号が得られるような、他のダウンミキシング方法が周知である。この1つのチャネルは、和信号ライン115に出力される。BCC解析ブロック116により得られたサイド情報は、サイド情報ライン117に出力される。BCC解析ブロックでは、上記で説明したように、チャネル間レベル差(ICLD)およびチャネル間時間差(ICTD)が算出される。最近では、BCC解析ブロック116は、チャネル間相関値(ICC値)の形式で、パラメトリックステレオパラメータを引き継いでいる。好ましくは量子化され符号化された形式で、和信号およびサイド情報がBCCデコーダ120に送信される。BCCデコーダは、出力マルチチャネルオーディオ信号のサブバンドを発生するために、送信された和信号を多数のサブバンドに分解して、スケーリングを行い、遅延して、他の処理を行う。出力121の再構成されたマルチチャネル信号のICLD、ICTDおよびICCパラメータ(キュー)が、BCCエンコーダ112への入力110の元のマルチチャネル信号に対するそれぞれのキューと同様になるように、この処理が実行される。このために、BCCデコーダ120は、BCC合成ブロック122およびサイド情報処理ブロック123を含む。
【0018】
以下に、図12を参照して、BCC合成ブロック122の内部構成を説明する。ライン115上の和信号が、時間/周波数変換ユニットまたはフィルタバンクFB125に入力される。ブロック125の出力には、オーディオフィルタバンク125が1:1変換を実行する場合、すなわち、N個の時間領域サンプルからN個のスペクトル係数を生じる変換の場合、N個のサブバンド信号または、極端な場合では、ブロックとなったスペクトル係数が存在する。
【0019】
BCC合成ブロック122は、さらに、遅延ステージ126、レベル変更ステージ127、相関処理ステージ128および逆フィルタバンクステージIFB129を備える。ステージ129の出力では、5チャネルサラウンドシステムの場合に、図11に示すように、例えば5つのチャネルを有する再構成されたマルチチャネルオーディオ信号が、1セットのスピーカ124に出力される。
【0020】
図12に示すように、入力信号s(n)は、エレメント125により、周波数領域またはフィルタバンク領域に変換される。同じ信号のいくつかのバージョンが乗算ノード130で示されるように得られるように、エレメント125による信号出力は乗算される。元の信号のバージョンの数は、再構成される出力信号における出力チャネルの数と等しい。一般に、ノード130での元の信号の各バージョンが遅延d1、d2、・・・、di、・・・、dNを受ける場合、遅延パラメータは図11のサイド情報処理ブロック123により算出され、BCC解析ブロック116で決定されるように、チャネル間時間差から導出される。
【0021】
同じことが、乗算パラメータa1、a2、・・・、ai、・・・、aNについて当てはまり、これらについても、BCC解析ブロック116により算出されるように、チャネル間レベル差に基づいてサイド情報処理ブロック123により算出される。
【0022】
遅延されレベルが操作された信号間の特定の相関がブロック128の出力で得られるように、BCC解析ブロック116により算出されるICCパラメータがブロック128の機能を制御するために用いられる。ステージ126、127、128の順序は、図12に示す場合と異なっていてもよいことに、ここで留意されたい。
【0023】
オーディオ信号のフレームに関する処理において、BCC解析がフレームに関して実行され、すなわち、時間可変的、そして周波数に関しても実行されることに、ここで留意されたい。これは、各スペクトル帯域に対してBCCパラメータが得られるという意味である。これは、オーディオフィルタバンク125が入力信号を例えば32個のバンドパス信号に分解する場合、BCC解析ブロックは、32個の帯域それぞれに対するBCCパラメータのセットを得るという意味である。当然、図12に詳細に示される、図11のBCC合成ブロック122が、本例の32個の帯域に基づく再構成を実行する。
【0024】
以下に、図13を参照して、あるBCCパラメータを決定するセットアップを示す。通常、ICLD、ICTDおよびICCパラメータは、1対のチャネル間で定義することができる。しかしながら、基準チャネルと互いのチャネルとの間で、ICLDおよびICTDパラメータを決定することが好ましい。これについて、図13Aに示す。
【0025】
ICCパラメータは、別の方法で決定することもできる。一般に大抵の場合、図13Bに示すように、考えられるすべてのチャネル対の間で、エンコーダ内のICCパラメータを推定することができる。この場合、考えられるすべてのチャネル対間の元のマルチチャネル信号とほぼ同じになるように、デコーダがICCを合成する。しかしながら、各時間で最も強力な2つのチャネル間のICCパラメータだけを推定することが提案されていた。この方法は、図13Cに示され、1つの時点で、チャネル1とチャネル2との間でICCパラメータが推定され、別の時点で、チャネル1とチャネル5との間でICCパラメータが算出される例が示されている。次に、デコーダが、デコーダ内の最も強力なチャネル間のチャネル間相関を合成し、残りのチャネル対に対するチャネル間コヒーレンスを算出して合成するためのある発見的ルールを適用する。
【0026】
例えば、送信ICLDパラメータに基づいてパラメータa1、aNを算出するには、上記引例のAESコンベンション論文5574を参照する。ICLDパラメータは、元のマルチチャネル信号におけるエネルギー分布を表す。一般性を失うことなく、他の全チャネルとフロント左チャネルとの間のエネルギー差を示す4つのICLDパラメータが、図13Aに示される。サイド情報処理ブロック123では、再構成されたすべての出力チャネルの総エネルギーが送信和信号のエネルギーと同じになるように(または比例するように)、乗算パラメータa1、・・・、aNがICLDパラメータから導出される。これらのパラメータを決定するための簡単な方法は、2ステージ処理であり、これは、第1のステージでは、左フロントチャネルの乗算ファクタが1に設定され、図13Aの他のチャネルの乗算ファクタが送信ICLD値に設定される。次に、第2のステージでは、5つのチャネルすべてのエネルギーが算出され、送信和信号のエネルギーと比較される。次に、全チャネルは、全チャネルに対して等しいダウンスケーリングファクタを用いて、ダウンスケーリングされ、ダウンスケーリングファクタは、ダウンスケーリング後、再構成されたすべての出力チャネルの総エネルギーが送信和信号の総エネルギーと等しくなるように、選択される。
【0027】
当然、乗算ファクタを算出する他の方法があり、これらは、2ステージ処理を利用せず、1ステージ処理だけを必要とするものである。1ステージの方法については、AES予稿集「MPEG空間オーディオ符号化用基準モデルアーキテクチャ(The reference model architecture for MPEG spatial audio coding)」、J.ヘレ(Herre)ら、2005年、バルセロナに記載されている。
【0028】
遅延パラメータに関して、左フロントチャネルの遅延パラメータd1がゼロに設定される場合、BCCエンコーダから送信される遅延パラメータICTDは、直接用いることができることに留意されたい。遅延を行っても信号のエネルギーを変更しないので、ここでは再スケーリングを行う必要がない。
【0029】
BCCエンコーダからBCCデコーダに送信されるチャネル間コヒーレンス測定値ICCに関して、20log10(−6)から20log10(6)の間の値の乱数を有する全サブバンドの重み付けファクタを乗算するというように、乗算ファクタa1、・・・、anを変更することにより、コヒーレンス操作を行うことができることに、ここで留意されたい。好ましくは、すべての重要な帯域に対してバリアンスがほぼ一定になり、各々の重要な帯域内で平均がゼロとなるように、疑似乱数シーケンスが選択される。同じシーケンスは、各々の異なるフレームのスペクトル係数に対して適用される。したがって、聴覚によるイメージの幅は、疑似乱数シーケンスのバリアンスを変更することにより、制御される。より大きいバリアンスは、より大きいイメージ幅を作り出す。バリアンス変更は、重要な帯域にわたるそれぞれの帯域で実行することができる。これにより、聴覚による場面において、それぞれ異なるイメージ幅を有する複数の対象を同時に存在させることが可能になる。疑似乱数シーケンスに対し適した振幅分布は、米国特許出願公開第2003/0219130A1号で概説されているように、対数目盛に対して均一な分布である。しかしながら、図11に示すBCCエンコーダからBCCデコーダへ送信される和信号のように、すべてのBCC合成処理は、1つの送信される入力チャネルと関係付けられる。
【0030】
図13を参照してすでに概説したように、パラメトリックサイド情報、すなわち、チャネル間レベル差(ICLD)、チャネル間時間差(ICTD)またはチャネル間コヒーレンスパラメータ(ICC)は、算出され、5つのチャネルそれぞれに送信されることができる。このことは、通常、1つの5チャネル信号に対して5つのセットのチャネル間レベル差を送信することを意味している。同じことがチャネル間時間差についても当てはまる。チャネル間コヒーレンスパラメータについては、例えば2つのセットのこれらのパラメータを送信するだけで十分である。
【0031】
図12を参照してすでに概説したように、信号の1つのフレームまたは時間部分に対して、レベル差パラメータ、時間差パラメータまたはコヒーレンスパラメータは1つだけではない。むしろ、周波数依存のパラメータ化が行えるように、いくつかの異なる周波数帯域に対してこれらのパラメータが決定される。例えば32の周波数チャネル、すなわち、32の周波数帯域を有するフィルタバンクをBCC解析およびBCC合成に用いることは好ましいので、パラメータは、かなりの量のデータを占有することになる。他のマルチチャネル伝送と比較して、パラメトリック表示ではデータ速度が相当遅くなるが、2つのチャネル(ステレオ信号)を有する信号またはマルチチャネルサラウンド信号等の3つ以上のチャネルを有する信号のようなマルチチャネル信号を表現するために必要なデータ速度を、継続してさらに低減する必要がある。
【0032】
このために、エンコーダ側で算出された再構成パラメータが、特定の量子化ルールに従って量子化される。これは、量子化されていない再構成パラメータが、限定されたセットの量子化レベルまたは量子化インデックスにマッピングされることを意味し、本技術で周知であり、特にパラメトリック符号化として、「ステレオオーディオのパラメトリック符号化(Parametric coding of stereo audio)」、J.ブレーバールト(Breebaart)、S.ファン・デ・パール(van de Par)、A.コーラウシュ(Kohlrausch)およびE.シュイエールス(Schuijers)、応用信号処理に関するEURASIPジャーナル(EURASIP J. Appl. Sign. Proc.)2005年9月、1305−1322頁、およびC.フォーラ(Faller)、F.バウムガルテ(Baumgarte)、「フレキシブルレンダリングを用いたオーディオ圧縮に応用されるバイノーラルキュー符号化(Binaural cue coding applied to audio compression with flexible rendering)」、2002年10月、ロサンジェルス、AES第113回コンベンション、予稿集5686に詳細に記載されている。
【0033】
量子化は、量子化器がミッドトレッド型なのかまたはミッドライザ型なのかに依存するが、量子化ステップサイズよりも小さいパラメータ値を全て、ゼロに量子化する作用がある。大きなセットの量子化されていない値を小さなセットの量子化された値にマッピングすることにより、さらなるデータ節減が得られる。これらのデータ速度節減は、エンコーダ側で量子化された再構成パラメータにエントロピー符号化を行うことにより、さらに高められる。好適なエントロピー符号化方法は、定義済みのコードテーブルに基づいた、または、実際に決定された信号統計データおよびコードブックの信号適応構成に基づいた、ハフマン法である。あるいは、算術符号化等の他のエントロピー符号化ツールを用いることができる。
【0034】
一般に、量子化器のステップサイズが大きくなると、再構成パラメータに必要なデータ速度が低下するというルールがある。言い換えれば、量子化のサイズが荒くなるとデータ速度が遅くなり、量子化が微細になるとデータ速度が速くなる。
【0035】
通常、データ速度が遅い環境ではパラメトリック信号表示が必要になるので、できるだけ荒いサイズで再構成パラメータを量子化することにより、ベースチャネルにおける特定の量のデータと、量子化されエントロピー符号化された再構成パラメータを含むサイド情報の適正な小さな量のデータとを有する信号表示が得られる。
【0036】
したがって、従来技術の方法では、符号化されるマルチチャネル信号から直接、送信される再構成パラメータを抽出している。上述のように、量子化された再構成パラメータが、デコーダで逆量子化され、マルチチャネル合成に用いられる場合、荒いサイズの量子化を行うと再構成パラメータが歪んでしまう。もちろん、量子化器のステップサイズ、すなわち、選択された「量子化器の荒さ」によって、丸め誤差が大きくなる。このような丸め誤差は、量子化レベルの変化に、すなわち、第1の時点での第1の量子化レベルから後の時点での第2の量子化レベルへの変化になることがあり、ある量子化器のレベルと別の量子化器のレベルとの間の差が、相当大きな量子化器のステップサイズで定義され、このことは、荒いサイズの量子化では好ましい。残念ながら、量子化器のステップサイズが大きくなってしまうこのような量子化器のレベルの変化は、量子化されていないパラメータが2つの量子化レベルの中間にある場合、パラメータにおける小さい変化のみによって、トリガされることが可能になる。サイド情報におけるこのような量子化器インデックスの変化が発生することが、信号合成ステージにおける同じ大きな変化となる。例として、チャネル間レベル差を考える場合、大きな変化により、特定のスピーカ信号の音の大きさが大きく低下し、これに付随して、別のスピーカの信号の音の大きさが大きく増加することが明らかである。荒いサイズの量子化に対する1つの量子化レベル変化のみによってトリガされるこの状況を、(仮想の)第1の場所から(仮想の)第2の場所へ直ちにサウンドソースを再配置することとして認識することができる。ある時点から別の時点へのこのような速やかな再配置は、不自然に聞こえ、すなわち、特に、音信号のサウンドソースはその位置を非常に速く変化しないので、このことは転調作用として認識される。
【0037】
一般に、伝送エラーにより量子化器インデックスに大きな変化が発生することもあり、これによりマルチチャネル出力信号に大きな変化が直ちに発生し、この状況ではもっとよく当てはまることであるが、データ速度のために荒いサイズの量子化器を採用している。
【0038】
2つ(「ステレオ」)またはそれ以上の(「マルチチャネル」)オーディオ入力チャネルをパラメトリック符号化する最新技術は、入力信号から直接空間パラメータを導出する。上記で概説したように、このようなパラメータの例としては、チャネル間レベル差(ICLD)またはチャネル間強度差(IID)、チャネル間時間遅延(ICTD)またはチャネル間位相差(IPD)、およびチャネル間相関/コヒーレンス(ICC)があり、それぞれ、時間と周波数とを選択するやり方で、すなわち、周波数帯域毎に、時間の関数として送信される。このようなパラメータのデコーダへの伝送のために、これらのパラメータの荒い量子化は、サイド情報率を最小限に保つために望ましいことである。その結果として、送信されたパラメータ値をそれらの元の値と比較する際に、かなりの丸め誤差が発生する。このことは、元の信号において1つのパラメータが緩やかに徐々に変化したとしても、1つの量子化されたパラメータ値から次の値への決定閾値を超えると、デコーダにおいて用いられるパラメータ値に急激な変化が発生してしまうことを意味する。これらのパラメータ値が出力信号の合成に用いられるので、パラメータ値における急激な変化は、出力信号に「跳ね上がり」も発生することになり、これは、ある種類の信号にとって、(パラメータの時間的細分性および量子化解像度に依存する)「スイッチング」または「変調」アーティファクトのような気になるものとして認識されることになる。
【0039】
米国特許出願第10/883,538号には、低い解像度でパラメータを表現する場合にある種類の信号のアーティファクトを回避するために、BCC型の方法という意味で、送信されたパラメータ値を後処理するためのプロセスが記載されている。合成処理におけるこのような不連続性は、音信号のアーティファクトを導く。したがって、この米国特許出願では、デコーダにおいて調性検出器を用い、送信されたダウンミックス信号を解析することが提案されている。信号が音であると判明した場合、次に、送信されたパラメータに対して経時的に平滑化動作が実行される。したがって、この種の処理は、音信号のためのパラメータの効率的な伝送のための手段になる。
【0040】
しかしながら、音入力信号以外に入力信号のクラスがあり、同様に空間パラメータの荒い量子化の影響を受ける。
・このような場合の一例として、2つの位置を非常にゆっくりと移動するポイントソースがあげられる(例えば、センタースピーカと左フロントスピーカとの間を非常にゆっくりとパンするノイズ信号である)。レベルパラメータの荒い量子化は、サウンドソースの空間位置および軌道に知覚可能な「跳ね上がり」(不連続性)を導く。これらの信号は一般に音としてデコーダで検出されないので、従来技術の平滑化は、この場合に役に立たないことが明らかである。
・他の例としては、速く移動する正弦曲線等の音素材を有する、急速に移動するポイントソースがあげられる。従来技術の平滑化は、音としてこれらの成分を検出するので、平滑化動作を実行する。しかしながら、移動速度が従来技術の平滑化アルゴリズムではわかっていないので、適用された平滑化時定数は一般に不適当なものとなり、例えば、移動するポイントソースの移動速度が遅すぎて再現され、元々の目的とされる位置と比較して、再現された空間位置に大幅な遅れが生じる。
【先行技術文献】
【特許文献】
【0041】
【特許文献1】米国特許出願公開第2003/0219130A1号
【特許文献2】米国特許出願公開第2003/0026441A1号
【特許文献3】米国特許出願公開第2003/0035553A1号
【非特許文献】
【0042】
【非特許文献1】「インテンシティステレオ符号化(Intensity Stereo Coding)」、J.ヘレ(Herre)、K.H.ブランデンブルグ(Brandenburg)、D.レーデラー(Lederer)、1994年2月、アムステルダム、第96回AES、AES予稿集3799
【非特許文献2】「ステレオおよびマルチチャネルオーディオ圧縮に応用されたバイノーラルキュー符号化(Binaural cue coding applied to stereo and multi−channel audio compression)」、C.フォーラ(Faller)、F.バウムガルテ(Baumgarte)、2002年5月、ミュンヘン、AESコンベンション論文5574
【非特許文献3】「バイノーラルキュー符号化パートII:方法および応用例(Binaural Cue Coding. Part II:Schemes and Applications)」、C.フォーラ(Faller)およびF.バウムガルテ(Baumgarte)、オーディオおよびスピーチプロシーディング(Audio and Speech Proc.)におけるIEEEトランザクション、11巻、第6号、2003年11月
【非特許文献4】「ステレオオーディオのパラメトリック符号化(Parametric coding of stereo audio)」、J.ブレーバールト(Breebaart)、S.ファン・デ・パール(van de Par)、A.コーラウシュ(Kohlrausch)およびE.シュイエールス(Schuijers)、応用信号処理に関するEURASIPジャーナル(EURASIP J. Appl. Sign. Proc.)2005年9月、1305−1322頁
【非特許文献5】「低ビットレートでの高品質パラメトリック空間オーディオ符号化(High−Quality Parametric Spatial Audio Coding at Low Bit rates)」、J.ブレーバールト(Breebaart)、S.ファン・デ・パール(van de Par)、A.コーラウシュ(Kohlrausch)、E.シュイエールス(Schuijers)、2004年5月、ベルリン、AES第116回コンベンション、予稿集6072
【非特許文献6】「低複雑性パラメトリックステレオ符号化(Low Complexity Parametric Stereo Coding)」、E.シュイエールス(Schuijers)、J.ブレーバールト(Breebaart)、H.プルンハーゲン(Purnhagen)、J.エングデガールド(Engdegard)、2004年5月、ベルリン、AES第116回コンベンション、予稿集6073
【非特許文献7】「MPEG空間オーディオ符号化用基準モデルアーキテクチャ(The reference model architecture for MPEG spatial audio coding)」、J.ヘレ(Herre)ら、2005年、バルセロナ、AES予稿集
【非特許文献8】「フレキシブルレンダリングを用いたオーディオ圧縮に応用されるバイノーラルキュー符号化(Binaural cue coding applied to audio compression with flexible rendering)」、C.フォーラ(Faller)、F.バウムガルテ(Baumgarte)、2002年10月、ロサンジェルス、AES第113回コンベンション、予稿集5686
【発明の概要】
【発明が解決しようとする課題】
【0043】
本発明の目的は、一方ではデータ速度が低く、他方では良好な主観的な品質が可能な、向上されたオーディオ信号処理概念を提供することである。
【課題を解決するための手段】
【0044】
本発明の第1の態様によれば、この目的は、マルチチャネルシンセサイザ制御信号を発生するための装置であって、マルチチャネル入力信号を解析するための信号アナライザと、信号アナライザに応答して平滑化制御情報を決定するための平滑化情報カリキュレータであって、平滑化制御情報に応答して、シンセサイザ側ポストプロセッサが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは再構成パラメータから導出される後処理された量を発生するように、平滑化制御情報を決定する平滑化情報カリキュレータと、マルチチャネルシンセサイザ制御信号として平滑化制御情報を表す制御信号を発生するためのデータジェネレータとを備える、装置により達成される。
【0045】
本発明の第2の態様によれば、この目的は、入力信号から出力信号を発生するためのマルチチャネルシンセサイザであって、入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、量子化された再構成パラメータは量子化ルールに従って量子化され、かつ入力信号の後の時間部分に関連付けられ、出力信号は多数の合成された出力チャネルを有し、多数の合成された出力チャネルは1以上の入力チャネルの数よりも多く、入力チャネルは平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、平滑化制御情報はエンコーダ側信号解析に依存し、平滑化制御情報は、シンセサイザ側ポストプロセッサが、平滑化制御情報に応答して、後処理された再構成パラメータまたは再構成パラメータから導出される後処理された量を発生するように決定され、平滑化制御情報を有する制御信号を供給するための制御信号供給器と、後処理された再構成パラメータまたは後処理された量の値が、量子化ルールに従って再量子化を用いて得られる値と異なるように、後処理された再構成パラメータまたは後処理された量を決定する、制御信号に応答して、処理される入力信号の時間部分に対して、後処理された再構成パラメータまたは再構成パラメータから導出される後処理された量を決定するためのポストプロセッサと、入力チャネルの時間部分および後処理された再構成パラメータまたは後処理された値を用いて、多数の合成された出力チャネルの時間部分を再構成するためのマルチチャネル再構成器とを備える、マルチチャネルシンセサイザにより達成される。
【0046】
本発明の別の態様は、マルチチャネルシンセサイザ制御信号を発生する方法、入力信号から出力信号を発生する方法、対応するコンピュータプログラム、またはマルチチャネルシンセサイザ制御信号に関する。
【0047】
本発明は、エンコーダ側に向かって再構成パラメータを平滑化することにより、合成されたマルチチャネル出力信号のオーディオ品質が向上するという知見に基づいている。エンコーダ側でさらに処理を行なって平滑化制御情報を決定することにより、このようにオーディオ品質を基本的に向上させることができ、本発明の好適な実施の形態では、平滑化制御情報をデコーダに送信することが可能であり、この伝送には、限定した(小さな)数のビット数しか必要としない。
【0048】
デコーダ側では、平滑化制御情報は、平滑化動作を制御するために用いられる。デコーダ側でパラメータを平滑化する代わりに、例えば調性/過渡検出に基づいて、このようにデコーダ側でエンコーダのガイドによるパラメータを平滑化することができ、または、デコーダ側でのパラメータ平滑化と結合して用いることができる。送信されたダウンミックス信号の特定の時間部分および特定の周波数帯域についても、エンコーダ側で信号アナライザにより決定されるような平滑化制御情報を用いて送信することができる。
【0049】
要約すると、本発明の利点は、マルチチャネルシンセサイザ内で、エンコーダ側で制御された再構成パラメータの適応平滑化が実行されることにより、一方ではオーディオ品質が基本的に向上し、他方ではビット数の増加を少量にできるようになることである。さらに平滑化制御情報を用いて量子化の固有の品質低下が低減されるという事実により、送信されたビット数を増減することなく、本発明の概念を適用することができるが、これは、量子化された値を符号化するために必要なビット数が少なくなるように、さらにもっと荒い量子化を適用することにより、平滑化制御情報のビット数を節減することができるからである。したがって、符号化された量子化された値とともに、平滑化制御情報は、まだ公開されていない米国特許出願で概説されているように、同じレベルまたはより高いレベルの主観的なオーディオ品質を保ちながらも、平滑化制御情報のない、同じかそれ以下の数の量子化された値のビットレートを要求することができる。
【0050】
一般に、マルチチャネルシンセサイザに用いられる量子化された再構成パラメータに対して後処理を行うことにより、一方では荒いサイズの量子化と、他方では量子化レベル変化とに付随する問題を、低減したり、解消したりする。
【0051】
従来技術のシステムでは、シンセサイザにおける再量子化を限定したセットの量子化された値に限って容認できるので、エンコーダにおける小さなパラメータ変化がデコーダでは大きなパラメータ変化となってしまうこともあるが、本発明のデバイスは、入力信号の処理される時間部分に対する後処理された再構成パラメータが、エンコーダを採用した量子化ラスタによって決定されるのではなく、量子化ルールによる量子化で得られる値とは異なる再構成パラメータの値となるように、再構成パラメータの後処理を実行する。
【0052】
直線量子化器の場合、従来技術の方法では、量子化器のステップサイズの整数倍の逆量子化された値しか求めることができないが、本発明の後処理では、逆量子化された値を量子化器のステップサイズの非整数倍とすることが可能である。2つの隣接する量子化器のレベル間の後処理された再構成パラメータが、後処理によって得られ、後処理された再構成パラメータを利用する本発明のマルチチャネル再構成器によって用いられるので、本発明の後処理は、量子化器のステップサイズの制限を低減することを意味している。
【0053】
この後処理は、マルチチャネルシンセサイザにおいて、再量子化の前または後で実行することができる。量子化されたパラメータ、すなわち、量子化器インデックスを用いて後処理が実行される場合、逆量子化器が必要になり、これは、量子化器ステップの倍数に逆に量子化できるばかりでなく、量子化器のステップサイズの倍数間の逆量子化された値に逆に量子化することができる。
【0054】
逆量子化された再構成パラメータを用いて後処理が実行される場合、直接逆量子化器を用いることができ、逆量子化された値を用いて補間/フィルタ/平滑化が実行される。
【0055】
対数量子化ルール等の非直線量子化ルールの場合、対数量子化は人間の耳によるサウンドの認知と類似しているので、再量子化の前に量子化された再構成パラメータの後処理は好ましく、対数量子化は、低レベルのサウンドに対してより正確で、高レベルのサウンドに対してはあまり正確でない、すなわち、一種の対数圧縮を行う。
【0056】
ここで、量子化されたパラメータとしてビットストリームに含まれる再構成パラメータ自体を変更することにより、本発明の利点を得るものではないことに留意されたい。再構成パラメータから後処理された量を導出することにより、利点を得ることができる。再構成パラメータが差パラメータで、差パラメータから導出される絶対パラメータに対して平滑化等の操作が実行される場合、これは特に有益である。
【0057】
本発明の好適な実施の形態では、再構成パラメータの後処理は、信号アナライザにより制御され、これは、信号特性が存在する、求める再構成パラメータに関連付けられる信号部分を解析する。好適な実施の形態では、デコーダが制御する後処理は、信号の音部分に対して(周波数および/または時間に対して)起動され、または、音部分が、ゆっくりと移動するポイントソースに対してのみポイントソースにより発生される場合は起動されるが、音でない部分、すなわち、入力信号の過渡部分、または音素材を有する急速に移動するポイントソースに対して後処理が起動されない。これにより、信号の音部分ではなく、オーディオ信号の過渡部分に対して、フルダイナミックの再構成パラメータ変化が確実に送信される。
【0058】
好ましくは、ポストプロセッサは、音でない、すなわち、過渡信号部分に対して特に重要な空間検出キューに影響を与えることなく、再構成パラメータの平滑化の形式で変更を実行し、これは、心理音響的な視点から理解できるものである。
【0059】
本発明により、再構成パラメータをエンコーダ側で量子化すると荒いサイズの量子化が可能となるので、データ速度が遅くなり、ある逆量子化されたレベルから別の逆量子化されたレベルへ再構成パラメータが変化するという理由で、システム設計者がデコーダにおいて大きな変化を気にかける必要がなくなり、2つの再量子化レベル間の値でマッピングして、本発明の処理により、変化が低減される。
【0060】
本発明の別の利点は、ある再量子化レベルから次の許容再量子化レベルへの変化による可聴アーティファクトが本発明の後処理により低減されるので、システムの品質が向上することであり、2つの許容再量子化レベル間の値でマッピングする。
【0061】
もちろん、量子化された再構成パラメータに対して本発明の後処理は、エンコーダにおけるパラメータ化と後の再構成パラメータの量子化とにより生じる情報損失に加えて、さらに情報が損失することになる。しかしながら、本発明のポストプロセッサが、好ましくは、実際のまたは直前の量子化された再構成パラメータを用いて、入力信号の実際の時間部分、すなわち、ベースチャネルの再構成に用いられる後処理された再構成パラメータを決定するので、このことは問題ではない。エンコーダ誘導誤用をある程度補償することができるので、主観的な品質が向上することになることがわかる。エンコーダ側誘導誤用が再構成パラメータの後処理によって補償されない場合であっても、再構成されたマルチチャネルオーディオ信号における空間認知の大きな変化は、好ましくは音信号部分に限って低減されるので、さらに情報を損失することになるかどうかという事実にかかわらず、いずれにせよ、主観的な聴き取り品質が向上することになる。
【0062】
本発明の好ましい実施の形態が添付図面を参照して後に説明されるが、これらの図としては:
【図面の簡単な説明】
【0063】
【図1a】図1aは、本発明の第1の実施の形態によるエンコーダ側デバイスおよび対応するデコーダ側デバイスの概略図である。
【図1b】図1bは、本発明の別の好適な実施の形態によるエンコーダ側デバイスおよび対応するデコーダ側デバイスの概略図である。
【図1c】図1cは、好適な制御信号ジェネレータの概略ブロック図である。
【図2a】図2aは、サウンドソースの空間位置を決定するための概略表現である。
【図2b】図2bは、情報を平滑化するための例として平滑化時定数を算出するための好適な実施の形態を示すフローチャートである。
【図3a】図3aは、量子化されたチャネル間強度差および対応する平滑化パラメータを算出するための別の実施の形態である。
【図3b】図3bは、1フレーム毎に測定されたIIDパラメータと、1フレーム毎に量子化されたIIDパラメータと、様々な時定数に対して1フレーム毎に処理された量子化されたIIDパラメータとの間の差を示す例示的な図である。
【図3c】図3cは、図3aに適用される概念の好適な実施の形態を示すフローチャートである。
【図4a】図4aは、デコーダ側に向けたシステムを示す概略表現である。
【図4b】図4bは、図1bの本発明のマルチチャネルシンセサイザに用いられるポストプロセッサ/信号アナライザの結合の概略図である。
【図4c】図4cは、入力信号の時間部分と、過去の信号部分、処理される実際の信号部分および未来の信号部分に対して関連付けられた量子化された再構成パラメータとの概略表現である。
【図5】図5は、図1によるエンコーダのガイドによるパラメータ平滑化デバイスの実施の形態である。
【図6a】図6aは、図1に示すエンコーダのガイドによるパラメータ平滑化デバイスの別の実施の形態である。
【図6b】図6bは、エンコーダのガイドによるパラメータ平滑化デバイスの別の好適な実施の形態である。
【図7a】図7aは、図1に示すエンコーダのガイドによるパラメータ平滑化デバイスの別の実施の形態である。
【図7b】図7bは、再構成パラメータから導出される量を平滑化可能なことを示す本発明による後処理されるパラメータを示す概略図である。
【図8】図8は、直接マッピングまたは拡張マッピングを実行する量子化器/逆量子化器の概略説明である。
【図9a】図9aは、後の入力信号部分に関連付けられる量子化された再構成パラメータの例示的な時間経過を示す。
【図9b】図9bは、平滑化(ローパス)機能を実施するポストプロセッサにより後処理された、後処理された再構成パラメータの時間経過を示す。
【図10】図10は、従来技術のジョイントステレオエンコーダを示す。
【図11】図11は、従来技術のBCCエンコーダ/デコーダチェーンを示すブロック図である。
【図12】図12は、従来技術により実施された図11のBCC合成ブロックを示すブロック図である。
【図13】図13は、ICLD、ICTDおよびICCパラメータを決定するための周知の手法を示す図である。
【図14】図14は、伝送システムのトランスミッタおよびレシーバを示す。
【図15】図15は、本発明のエンコーダを有するオーディオレコーダおよびデコーダを有するオーディオプレーヤを示す。
【発明を実施するための形態】
【0064】
図1aおよび図1bは、本発明のマルチチャネルエンコーダ/シンセサイザシナリオのブロック図を示す。図4cを参照して後述するように、デコーダ側に送られてくる信号は、少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、量子化された再構成パラメータは、量子化ルールに従って量子化されている。時間部分のシーケンスが量子化された再構成パラメータのシーケンスと関連付けられるように、各再構成パラメータは入力チャネルの時間部分と関連付けられている。また、図1aおよび図1bに示すマルチチャネルシンセサイザにより発生された出力信号は、いずれにせよ入力信号における入力チャネルの数よりも多い、多数の合成された出力チャネルを有する。入力チャネルの数が1である場合、すなわち、1つの入力チャネルが存在する場合、出力チャネルの数は2以上である。しかしながら、入力チャネルの数が2または3の場合、出力チャネルの数は、それぞれ、少なくとも3または少なくとも4である。
【0065】
BCCの場合では、入力チャネルの数は、1または一般にせいぜい2であるが、出力チャネルの数は、5(左サラウンド、左、センター、右、右サラウンド)若しくは6(5サラウンドチャネルプラス1サブウーハーチャネル)、または、7.1若しくは9.1マルチチャネルフォーマットではそれ以上となる。一般には、出力ソースの数は、入力ソースの数よりも多い。
【0066】
図1aは、左側に、マルチチャネルシンセサイザ制御信号を発生するための装置1を示している。「平滑化パラメータ抽出」と示されているボックス1は、信号アナライザ、平滑化情報カリキュレータおよびデータジェネレータを備える。図1cに示すように、信号アナライザ1aは、入力として、元のマルチチャネル信号を受信する。信号アナライザは、解析結果を得るためにマルチチャネル入力信号を解析する。この解析結果は、信号アナライザに応答して平滑化制御情報、すなわち、信号解析結果を決定するために、平滑化情報カリキュレータに転送される。特に、平滑化制御情報に応答して、デコーダ側パラメータポストプロセッサが処理される入力信号の時間部分に対してパラメータから導出される平滑化されたパラメータまたは平滑化された量を発生するように、平滑化情報カリキュレータ1bは、平滑化情報を決定するので、平滑化された再構成パラメータまたは平滑化された量の値は、量子化ルールに基づいて再量子化を用いて得られる値と異なる。
【0067】
さらに、図1aの平滑化パラメータ抽出デバイス1は、デコーダ制御信号として平滑化制御情報を表す制御信号を出力するためのデータジェネレータを含む。
【0068】
特に、平滑化された値に基づく再構成されたマルチチャネル出力信号が、平滑化されていない値に基づく再構成されたマルチチャネル出力信号と比較して、向上した品質となるように、平滑化制御情報を表す制御信号を、平滑化マスク、平滑化時定数、またはデコーダ側平滑化動作を制御する任意の他の値とすることができる。
【0069】
平滑化マスクは、例えば、平滑化に用いられる各周波数の「オン/オフ」状態を示すフラグからなる通知情報を含む。したがって、平滑化マスクは、各帯域に対して1ビットの1つのフレームに関連付けられるベクトルとして理解でき、このビットは、エンコーダのガイドによる平滑化がこの帯域に対してアクティブになっているかどうかを制御する。
【0070】
図1aに示す空間オーディオエンコーダは、好ましくは、ダウンミキサ3および後段のオーディオエンコーダ4を含む。さらに、空間オーディオエンコーダは、空間パラメータ抽出デバイス2を含み、これは、チャネル間レベル差(ICLD)、チャネル間時間差(ICTDs)、チャネル間コヒーレンス値(ICC)、チャネル間位相差(IPD)、チャネル間強度差(IID)等の量子化された空間キューを出力する。この背景では、チャネル間レベル差は、チャネル間強度差と基本的に同じであることが概説されている。
【0071】
ダウンミキサ3は、図11のアイテム114に記載のように構成される。さらに、空間パラメータ抽出デバイス2は、図11のアイテム116に記載のように実施されてもよい。いずれにせよ、ダウンミキサ3と空間パラメータ抽出器2との別の実施の形態が、本発明との関連で用いることもできる。
【0072】
さらに、オーディオエンコーダ4は、必ずしも必要ではない。しかしながら、このデバイスは、エレメント3の出力でのダウンミックス信号のデータ速度が、伝送/記憶手段を介したダウンミックス信号の伝送に対して速すぎる場合に用いられる。
【0073】
空間オーディオデコーダは、エンコーダのガイドによるパラメータ平滑化デバイス9aを含み、これは、マルチチャネルアップミキサ12に接続されている。マルチチャネルアップミキサ12への入力信号は、通常、送信/格納されたダウンミックス信号を復号化するためのオーディオデコーダ8の出力信号である。
【0074】
好ましくは、本発明の入力信号から出力信号を発生するためのマルチチャネルシンセサイザは、入力信号が少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、量子化された再構成パラメータが量子化ルールに従って量子化され、かつ入力信号の後の時間部分に関連付けられ、出力信号が多数の合成された出力チャネルを有し、合成された出力チャネルの数が1以上の入力チャネルの数よりも多く、平滑化制御情報を有する制御信号を供給するための制御信号供給器を備える。この制御信号供給器は、制御情報がパラメータ情報と多重化される場合、データストリームデマルチプレクサとすることができる。しかしながら、パラメータチャネル14aまたはダウンミックス信号チャネルとは異なり、オーディオデコーダ8の入力側に接続されている別々のチャネルを介して、平滑化制御情報が図1aのデバイス1からデバイス9aに送信される場合、次に、制御信号供給器は、単に、図1aの平滑化パラメータ抽出デバイス1により発生される制御信号を受信するデバイス9aの入力となる。
【0075】
さらに、本発明のマルチチャネルシンセサイザは、ポストプロセッサ9aを備え、これは、「エンコーダのガイドによるパラメータ平滑化デバイス」とも呼ぶ。ポストプロセサは、後処理された再構成パラメータまたは処理される入力信号の時間部分に対する再構成パラメータから導出される後処理された量を決定し、ポストプロセッサは、後処理された再構成パラメータまたは後処理された量の値が量子化ルールに従って再量子化を用いて得られる値と異なるように、後処理された再構成パラメータまたは後処理された量を決定する。マルチチャネルアップミキサまたはマルチチャネル再構成器12が、入力チャネルの時間部分と後処理された再構成パラメータまたは後処理された値とを用いて、多数の合成された出力チャネルの時間部分を再構成するための再構成動作を実行することができるように、後処理された再構成パラメータまたは後処理された量は、デバイス9aからマルチチャネルアップミキサ12へ転送される。
【0076】
次に、図1bに示す本発明の好適な実施の形態を参照すると、まだ公開されていない米国特許出願第10/883,538号に記載の、エンコーダのガイドによるパラメータ平滑化とデコーダのガイドによるパラメータ平滑化とが結合されている。この実施の形態では、図1cに詳細が示されている平滑化パラメータ抽出デバイス1が、エンコーダ/デコーダ制御フラグ5aをさらに発生し、それは結合/スイッチ結果ブロック9bに送信される。
【0077】
図1bのマルチチャネルシンセサイザまたは空間オーディオデコーダは、再構成パラメータポストプロセッサ10を備え、これは、デコーダのガイドによるパラメータ平滑化デバイスおよびマルチチャネル再構成器12である。デコーダのガイドによるパラメータ平滑化デバイス10は、入力信号の後の時間部分に対して、量子化され好ましくは符号化された再構成パラメータを受信する。再構成パラメータポストプロセッサ10は、処理される入力信号の時間部分に対して、後処理された再構成パラメータをその出力で決定する。再構成パラメータポストプロセッサは、後処理ルールに従って動作し、これは、特定の好適な実施の形態では、ローパスフィルタリングルール、平滑化ルール、または別の同様の動作である。特に、ポストプロセッサは、後処理された再構成パラメータの値が、量子化ルールに従って、任意の量子化された再構成パラメータの再量子化により得られる値と異なるように、後処理された再構成パラメータを決定する。
【0078】
マルチチャネル再構成器12は、処理された入力チャネルの時間部分および後処理された再構成パラメータを用いて、多数の合成出力チャネルのそれぞれの時間部分を再構成するために用いられる。
【0079】
本発明の好適な実施の形態では、量子化された再構成パラメータは、チャネル間レベル差、チャネル間時間差またはチャネル間コヒーレンスパラメータまたはチャネル間位相差またはチャネル間強度差等の、量子化されたBCCパラメータである。当然、インテンシティステレオに対するステレオパラメータまたはパラメトリックステレオに対するパラメータ等の他の全ての再構成パラメータについても、本発明に従って処理することができる。
【0080】
ライン5aを介して送信されるエンコーダ/デコーダ制御フラグは、スイッチまたは結合デバイス9bを制御し、デコーダのガイドによる平滑化値またはエンコーダのガイドによる平滑化値のいずれかをマルチチャネルアップミキサ12に転送する。
【0081】
以下には、ビットストリームの例を示す図4cを参照する。ビットストリームは、いくつかのフレーム20a、20b、20c、・・・を含む。各フレームは、図4cの上の4角のフレームで示される入力信号の時間部分を含む。また、各フレームは、各フレーム20a、20b、20cの下の4角で図4cに示される、時間部分に関連付けられる量子化された再構成パラメータのセットを含む。例示として、フレーム20bは、処理される入力信号部分と考えられ、このフレームは、すなわち、処理される入力信号部分の「過去」を形成する、直前の入力信号部分を有する。また、処理される入力信号部分の「未来」を形成する、次の入力信号部分が存在する(処理される入力部分は、「実際の」入力信号部分とも呼ばれる)が、「過去」における入力信号部分は先の入力信号部分と呼ばれ、未来における信号部分は後の入力信号部分と呼ばれる。
【0082】
本発明の方法は、デコーダにおいて実行される平滑化動作をより明示的なエンコーダ制御を可能にすることにより、好ましくはノイズ様特性を有するゆっくりと移動するポイントソース、または急速に移動する正弦曲線等の音素材を有する急速に移動するポイントソースが存在する問題となる状況を正常に処理する。
【0083】
上記で概説したように、エンコーダのガイドによるパラメータ平滑化デバイス9aまたはデコーダのガイドによるパラメータ平滑化デバイス10内で後処理動作を実行する好適なやり方は、周波数帯域指向のやり方で実行される平滑化動作である。
【0084】
さらに、エンコーダのガイドによるパラメータ平滑化デバイス9aにより実行されるデコーダにおける後処理をアクティブに制御するために、エンコーダは、好ましくはサイド情報の一部として通知情報をシンセサイザ/デコーダに送信する。しかしながら、マルチチャネルシンセサイザ制御信号は、また、パラメトリック情報またはダウンミックス信号情報の一部のサイド情報としてではなく、デコーダに別々に送信することもできる。
【0085】
好適な実施の形態では、この通知情報は、平滑化に用いられる各周波数帯域の「オン/オフ」状態を示すフラグからなる。この情報の効率的な伝送のために、好適な実施の形態は、非常に少ないビット数を有する特定の頻繁に用いられる構成を通知するために「ショートカット」セットを用いることもできる。
【0086】
このために、図1cの平滑化情報カリキュレータ1bは、いずれの周波数帯域でも平滑化を実行しないと決定する。これは、データジェネレータ1cにより発生される「オールオフ」ショートカット信号を介して通知される。特に、「オールオフ」ショートカット信号を表す制御信号は、特定のビットパターンまたは特定のフラグとすることができる。
【0087】
さらに、平滑化情報カリキュレータ1bは、全周波数帯域において、エンコーダのガイドによる平滑化動作が実行されると決定することもできる。このために、データジェネレータ1cは、平滑化が全周波数帯域に適用されることを通知する「オールオン」ショートカット信号を発生する。この信号は、特定のビットパターンまたはフラグとすることができる。
【0088】
さらに、信号アナライザ1aが、1つの時間部分から次の時間部分まで、すなわち、現在の時間部分から未来の時間部分まで信号があまり大きく変化しないと決定した場合、平滑化情報カリキュレータ1bは、エンコーダのガイドによるパラメータ平滑化動作を変更して実行する必要はないと決定することもできる。次に、データジェネレータ1cは、「1つ前のマスクを繰り返す」ショートカット信号を発生し、これは、前のフレームの処理に用いられたように、同じ帯域に関するオン/オフ状態が平滑化のために用いられることを、デコーダ/シンセサイザに通知するものである。
【0089】
好適な実施の形態では、信号アナライザ1aは、デコーダ平滑化のインパクトがポイントソースの空間移動速度に適用されるように、移動速度を推定する。この処理の結果として、適した平滑化時定数が平滑化情報カリキュレータ1bにより決定され、データジェネレータ1cを介して専用サイド情報によりデコーダに通知される。好適な実施の形態では、データジェネレータ1cは、インデックス値を発生してデコーダに送信することにより、デコーダは、異なる定義済みの平滑化時定数(125ミリ秒、250ミリ秒、500ミリ秒等)から選択することが可能になる。別の好適な実施の形態では、1つの時定数だけが全周波数帯域に送信される。これにより、平滑化時定数に対する通知情報の量を低減して、頻繁に発生する、スペクトルにおける1つの主要な移動するポイントソースに対して十分な量になる。適した平滑化時定数を決定する一例の処理は、図2aおよび図2bに介して説明されている。
【0090】
デコーダ平滑化処理の明示的な制御は、デコーダのガイドによる平滑化方法と比較して、いくつかのさらなるサイド情報の伝送を必要とする。この制御は、固有の特性を有する全入力信号のあるわずかな部分に対して必要なだけであるので、好ましくは2つのアプローチが1つの方法に結合され、これは、「ハイブリッド法」とも呼ばれる。これは、図1bのデバイス16により実行されるデコーダにおける調性/過渡推定に基づいて、または明示的なエンコーダ制御により、平滑化が実行されるかどうかを決定する1つのビット等の通知情報を送信することにより行うことができる。後者の場合、図1bのサイド情報5aはデコーダに送信される。
【0091】
次に、ゆっくりと移動するポイントソースを特定して、適切な時定数を推定して、デコーダに通知する好適な実施の形態について説明する。好ましくは、全推定は、エンコーダにおいて実行されるので、信号パラメータの量子化されていないバージョンにアクセすることが可能であり、もちろん、これは、図1aおよび図1bのデバイス2がデータ圧縮のために量子化された空間キューを送信するという事実により、デコーダにおいて利用できない。
【0092】
次に、ゆっくりと移動するポイントソースを特定する好適な実施の形態を示す図2aおよび図2bを参照する。特定の周波数帯域および時間フレーム内のサウンドイベントの空間位置は、図2aに示すように特定される。特に、各オーディオ出力チャネルに対して、単位長ベクトルexは、通常の聴取構成において対応するスピーカの相対位置を示す。図2aに示す例では、通常の5チャネル聴取構成が、スピーカL、C、R、Ls、およびRsと対応する単位長ベクトルeL、eC、eR、eLs、およびeRsとにより用いられる。
【0093】
特定の周波数帯域および時間フレーム内のサウンドイベントの空間位置は、図2aの式で説明するように、これらのベクトルのエネルギー重み付け平均として算出される。図2aからわかるように、各単位長ベクトルは、特定のx座標および特定のy座標を有する。単位長ベクトルの各座標を対応するエネルギーと乗算して、x座標の項およびy座標の項を加算することにより、特定の位置x、yでの特定の周波数帯域および特定の時間フレームに対する空間位置が得られる。
【0094】
図2bのステップ40で説明するように、この算出は2つの後の時点に対して実行される。
【0095】
次に、ステップ41では、空間位置p1、p2を有するソースがゆっくりと移動しているかどうかが決定される。後の空間位置間の距離が所定の閾値を下回る場合、ソースがゆっくりと移動するソースであると決定される。しかしながら、変位が特定の最大変位閾値を超えている場合、ソースがゆっくりと移動していないと決定され、図2bの処理が停止される。
【0096】
図2aの値L、C、R、Ls、およびRsは、それぞれ対応するチャネルのエネルギーを表している。あるいは、デシベルで測定されるエネルギーを、空間位置pの算出に用いることもできる。
【0097】
ステップ42では、ソースがポイントまたはポイントに近いソースであるかが決定される。好ましくは、該当するICCパラメータが0.85等の特定の最小閾値を超える場合、ポイントソースが検出される。ICCパラメータが所定の閾値を下回ると決定される場合、ソースはポイントソースでないので、図2の処理は停止される。しかしながら、ソースがポイントソースまたはポイントに近いソースと決定される場合、図2bの処理は、ステップ43に進む。このステップでは、好ましくは、パラメトリックマルチチャネル方法のチャネル間レベル差パラメータは特定の測定間隔内で決定され、結果は多数の測定値となる。測定間隔は、多数の符号化フレーム、またはフレームのシーケンスで定義される時間分解能よりも高い頻度で発生する測定セットからなる。
【0098】
ステップ44では、後の時点に対するICLD曲線の傾斜が算出される。次に、ステップ45では、平滑化時定数が選択され、これは、曲線の傾斜に反比例する。
【0099】
次に、ステップ45では、平滑化情報の一例としての平滑化時定数が出力され、デコーダ側平滑化デバイスにおいて用いられ、これは、図4aおよび図4bからわかるように、平滑化フィルタとすることもできる。したがって、ステップ45で決定される平滑化時定数は、ブロック9aにおいて平滑化に用いられるデジタルフィルタのフィルタパラメータを設定するために用いられる。
【0100】
図1bでは、エンコーダのガイドによるパラメータ平滑化9aおよびデコーダのガイドによるパラメータ平滑化10を、図4b、図5、または図6a等に示す1つのデバイスを用いて実施することができることを強調する。これは、本発明の好適な実施の形態では、一方では平滑化制御情報と、他方では制御パラメータ抽出デバイス16によるデコーダが算出する情報出力とがともに、平滑化フィルタおよび平滑化フィルタの起動に作用するからである。
【0101】
1つの共通の平滑化時定数だけが全周波数帯域に通知される場合、例えば、平均またはエネルギー重み付け平均により、各帯域に対する個別の結果が全結果に結合される。この場合、デコーダは、全スペクトルに対する1つの平滑化時定数だけを送信する必要があるように、同じ(エネルギー重み付け)平均平滑化時定数を各帯域に適用する。帯域が結合された時定数から大幅なずれを有することがわかった場合、平均化は、対応する「オン/オフ」フラグを用いて、これらの帯域に対して禁止することもできる。
【0102】
次に、図3a、図3b、および図3cを参照すると、エンコーダのガイドによる平滑化制御に対する解析毎に合成するアプローチに基づく別の実施の形態が示されている。基本的な概念は、対応する量子化されていない(すなわち、測定された)(IID/ICLD)パラメータに対する量子化およびパラメータ平滑化から得られる特定の再構成パラメータ(好ましくはIID/ICLDパラメータ)を比較することからなる。この処理は、図3aに示す好適な実施の形態に概略でまとめられる。一方ではL、他方ではRといった、2つの異なるマルチチャネル入力チャネルは、それぞれ解析フィルタバンクに入力される。フィルタバンク出力は、適した時間/周波数表現を得るために、セグメント化されウインドウ化される。
【0103】
したがって、図3aは、2つの別々の解析フィルタバンク70a、70bを有する解析フィルタバンクデバイスを含む。当然、1つの解析フィルタバンクおよび記憶は、2つのチャネルを解析するために、2回用いることができる。次に、セグメント化およびウインドウ化デバイス72において、時間セグメント化が実行される。次に、フレーム毎のICLD/IID推定が、デバイス73において実行される。次に、各フレームに対するパラメータが、量子化器74に送信される。したがって、デバイス74の出力で量子化されたパラメータが得られる。次に、量子化されたパラメータが、デバイス75において異なる時定数セットにより処理される。好ましくは、基本的に、デコーダが利用できるすべての時定数は、デバイス75により用いられる。最後に、比較・選択ユニット76が、量子化および平滑化されたIIDパラメータを元の(未処理の)IID推定値と比較する。ユニット76は、処理されたIID値と元の測定されたIID値との間で最も良く当てはまる、量子化されたIIDパラメータおよび平滑化時定数を出力する。
【0104】
次に、図3aのデバイスに対応する図3cのフローチャートを参照する。ステップ46で説明するように、いくつかのフレームに対してIIDパラメータが発生される。次に、ステップ47では、これらのIIDパラメータが量子化される。ステップ48では、量子化されたIIDパラメータが、異なる時定数を用いて平滑化される。次に、ステップ49では、平滑化シーケンスおよび元の発生されたシーケンス間の誤差が、ステップ49で用いられる各時定数に対して算出される。最後に、ステップ50では、量子化されたシーケンスが平滑化時定数とともに選択され、これにより、最も小さい誤差になる。次に、ステップ50は、最も良い時定数とともに量子化された値のシーケンスを出力する。
【0105】
高性能のデバイスに好適なさらに詳細な実施の形態では、量子化器から考えられ得るIID値のレパートリーから選択される量子化されたIID/ICLDパラメータセットに対して、この処理を実行することもできる。この場合、比較および選択手順は、送信された(量子化された)IIDパラメータおよび平滑化時定数の様々な結合に対する、処理されたIIDおよび未処理のIIDパラメータの比較を備える。したがって、ステップ47の大括弧で説明するように、第1の実施の形態とは異なり、第2の実施の形態は、IIDパラメータを量子化するために、異なる量子化ルールまたは同じ量子化ルールであるが異なる量子化ステップサイズを用いる。次に、ステップ51では、誤差が各量子化方法および各時定数に対して算出される。したがって、さらに詳細な実施の形態では、図3cのステップ50と比較する、ステップ52で決定される候補の数は、第1の実施の形態と比較して、異なる量子化方法の数と等しいファクタだけ大きい。
【0106】
次に、ステップ52では、量子化された値のシーケンスと、一致する時定数とを検索するために、(1)誤差および(2)ビットレートに対して2次元最適化が実行される。最後に、ステップ53では、量子化された値のシーケンスが、ハフマン符号または算術符号を用いてエントロピー符号化される。ステップ53は、最後に、デコーダまたはマルチチャネルシンセサイザに送信されるビットシーケンスを生じる。
【0107】
図3bは、平滑化による後処理の効果を示す。アイテム77は、フレームnに対する量子化されたIIDパラメータを表す。アイテム78は、フレームインデックスn+1を有するフレームに対する量子化されたIIDパラメータを表す。量子化されたIIDパラメータ78は、参照番号79で示す1フレーム毎に測定されたIIDパラメータから量子化により導出される。異なる時定数を用いて、量子化されたパラメータ77および78のこのパラメータシーケンスを平滑化することにより、80aおよび80bで、より小さい後処理されたパラメータ値となる。後処理された(平滑化された)パラメータ80aを生じるパラメータシーケンス77、78を平滑化するための時定数は、後処理されたパラメータ80bを生じる平滑化時定数より小さい。当該技術で周知のように、平滑化時定数は、対応するローパスフィルタのカットオフ周波数に対して逆になっている。
【0108】
図3cのステップ51から53で説明される実施の形態が好ましいのは、誤差およびビットレートに対して2次元最適化を実行することができ、異なる量子化ルールにより、量子化された値を表すビット数が異なるようになるからである。さらに、この実施の形態は、実際の後処理された再構成パラメータの値が、処理方法とともに、量子化された再構成パラメータに依存するという知見に基づいている。
【0109】
例えば、フレームからフレームへの(量子化された)IIDの差が大きいと、大きい平滑化時定数との結合では、処理されたIIDの正味の効果が最も小さくなってしまう。より小さい時定数と比較して、IIDパラメータの差が最も小さいと、同じ正味の効果を構築することになる。このように自由度がさらに大きくなることは、同時に、エンコーダが、再構成されたIIDとともに得られるビットレートの両方を最適化することができる(特定のIID値の伝送が、特定の別のIIDパラメータの伝送よりも、よりコストがかかるという事実による)。
【0110】
上記で概略したように、平滑化に対するIID軌道の効果は、図3bに概説され、平滑化時定数の様々な値に対するIID軌道を示し、星印はフレーム毎に測定されたIIDを表し、3角形はIID量子化器の考えられ得る値を表している。IID量子化器の精度が制限されていると仮定すると、フレームn+1に星印で示すIID値を利用することができない。最も近いIID値は、3角形で示されている。図のラインは、様々な平滑化定数から得られるフレーム間のIID軌道を示している。選択アルゴリズムは、フレームn+1に対する測定されたIIDパラメータに最も近いIID軌道となる平滑化時定数を選択する。
【0111】
上記の例は、すべて、IIDパラメータに関するものである。原則として、記載の方法は、すべて、IPD、ITD、またはICCパラメータに適用することもできる。
【0112】
したがって、本発明は、エンコーダ側処理およびデコーダ側処理に関し、平滑化制御信号を介して通知される平滑化イネイブル/ディセイブルマスクおよび時定数を用いてシステムを形成している。さらに、周波数帯域毎に帯域に関する通知が実行され、さらに、ショートカットは、全帯域オン、全帯域オフまたは前の状態を繰り返すショートカットに好適である。さらに、全帯域に対して1つの共通の平滑化時定数を用いることは好適である。なお、さらにまたはあるいは、ハイブリッド法を実行するために、明示的なエンコーダ制御に対して自動的に調性ベースの平滑化をするための信号を送信することができる。
【0113】
次に、エンコーダのガイドによるパラメータ平滑化について動作するデコーダ側の実施例を参照する。
【0114】
図4aは、エンコーダ側21とデコーダ側22とを示す。エンコーダでは、N個の元の入力チャネルがダウンミキサステージ23に入力される。ダウンミキサステージは、チャネルの数を例えば1つのモノラルチャネルに、あるいは可能ならば2つのステレオチャネルに低減する。次に、ダウンミキサ23のダウンミックスした信号表示は、ソースエンコーダ24に入力され、ソースエンコーダは、例えば出力ビットストリームを生じるMP3エンコーダまたはAACエンコーダとして実施される。エンコーダ側21は、さらに、パラメータ抽出器25を備え、これは、本発明に従って、BCC解析(図11のブロック116)を実行し、量子化された好ましくはハフマン符号化されたチャネル間レベル差(ICLD)を出力する。ソースエンコーダ24の出力でのビットストリームとともにパラメータ抽出器25により出力される量子化された再構成パラメータは、デコーダ22に送信されたり、デコーダに後から送信するために保存されたりすることができる。
【0115】
デコーダ22は、ソースデコーダ26を含み、これは、受信されたビットストリーム(ソースエンコーダ24から送信されたもの)から信号を再構成する。このために、ソースデコーダ26は、その出力で、入力信号の後の時間部分をアップミキサ12に供給し、これは、図1のマルチチャネル再構成器12と同じ機能を実行する。好ましくは、この機能は、図11のブロック122により実施されるようにBCC合成である。
【0116】
図11と異なって、本発明のマルチチャネルシンセサイザは、さらに、ポストプロセッサ10(図4a)を含み、これは、「チャネル間レベル差(ICLD)スムーザ」と呼ばれ、入力信号アナライザ16により制御され、好ましくは入力信号の調性解析を実行する。
【0117】
図4aからわかるように、チャネル間レベル差(ICLDs)等の再構成パラメータがあり、ICLDスムーザに入力されるが、パラメータ抽出器25とアップミキサ12とをつなぐ接続がさらにある。このバイパス接続を介して、後処理する必要のない他の再構成パラメータを、パラメータ抽出器25からアップミキサ12に供給することができる。
【0118】
図4bは、信号アナライザ16およびICLDスムーザ10により形成される信号適応再構成パラメータ処理の好適な実施の形態を示す。
【0119】
信号アナライザ16は、調性決定ユニット16aと後段の閾値処理デバイス16bとから形成される。さらに、図4aの再構成パラメータポストプロセッサ10は、平滑化フィルタ10aと、ポストプロセッサスイッチ10bとを含む。ポストプロセッサスイッチ10bは、閾値処理デバイス16bにより制御され、調性特性等の入力信号の特定の信号特性が特定の指定の閾値に対して所定の関係にあることを閾値処理デバイス16bが決定した場合、スイッチが作動される。この場合、入力信号の信号部分の調整が、特に、特定の入力信号の時間部分の特定の周波数帯域が調性閾値を超える調性を有する場合に、(図4bに示すように)スイッチが上の位置に作動されるという状況である。この場合、逆量子化されたチャネル間差ではなく、後処理されたものがデコーダ/マルチチャネル再構成器/アップミキサ12に供給されるように、スイッチ10bは、平滑化フィルタ10aの出力をマルチチャネル再構成器12の入力に接続するために作動される。
【0120】
しかしながら、デコーダが制御を行う実施例では、調性決定手段が、実際の入力信号の時間部分の特定の周波数帯域、すなわち、処理される入力信号部分の特定の周波数帯域が指定の閾値よりも低い調性を有する、すなわち、過渡であると決定する場合、スイッチは平滑化フィルタ10aをバイパスするように作動される。
【0121】
後者の場合、平滑化フィルタ10aによる信号適応後処理は、過渡信号に対する再構成パラメータ変化が変更のない後処理ステージを通過して、過渡信号に対して相当高い確率で現実の状況に対応する、空間イメージに関する再構成された出力信号を迅速に変化することを確実にする。
【0122】
ここで、一方では後処理を起動し、他方では完全に後処理を起動しない図4bの実施の形態、すなわち、後処理を行うか行わないかという二者択一は、その単純で効率的な構造のために、単に好適な実施の形態にすぎないことに留意されたい。しかしながら、特に調性に対しては、この信号特性は、質的パラメータばかりでなく、通常0と1との間にすることができる量的パラメータでもあることに留意されたい。量的に決定されたパラメータに従って、音信号が大きい場合に大きな平滑化が起動され、音信号がそうでない場合により低い平滑化度合いを有する平滑化が始められるように、平滑化フィルタの平滑化度合い、または、例えば、ローパスフィルタのカットオフ周波数を設定することができる。
【0123】
もちろん、過渡信号が大きい場合、再構成パラメータの後処理が、マルチチャネル信号の空間イメージの変化をさらに強調するように、過渡部分を検出したり、定義済みの量子化された値間の値、または量子化インデックス間の値にパラメータの変化を強調したりすることもできる。この場合、後の時間部分に対する後の再構成パラメータにより指示されるように1の量子化ステップサイズを、例えば1.5、1.4、1.3等に高めて、再構成されたマルチチャネル信号の空間イメージをさらに劇的に変化させることができる。
【0124】
ここで、音信号特性、過渡信号特性または他の信号特性は、それに基づいて信号解析が再構成パラメータポストプロセッサを制御するために実行され得る信号特性の例に過ぎないことに留意されたい。この制御に応答して、再構成パラメータポストプロセッサは、所定の量子化ルールにより決定される、一方では量子化インデックスの任意の値であり、他方では再量子化値である値を有する後処理された再構成パラメータを決定する。
【0125】
ここで、再構成パラメータの後処理は、信号特性に依存すること、すなわち、信号適応パラメータ後処理はオプションであることに留意されたい。また、信号に依存しない後処理は、多くの信号に対して利点がある。例えば、ユーザが(強調機能の場合に)強められた変化を行ったり、(平滑化機能の場合に)弱められた変化を行ったりするように、特定の後処理機能をユーザが選択することもできる。あるいは、任意のユーザ選択および信号特性に依存しない後処理は、誤り耐性に関してある利点がある。特に、量子化器のステップサイズが大きい場合、量子化器インデックスの伝送エラーにより、可聴アーティファクトになってしまうことが明らかになっている。このために、エラーを起こしやすいチャネルを介して信号を送信する必要がある場合、前進型誤信号訂正または同様の別の動作を実行する。本発明によれば、過去における再構成パラメータに基づく再構成パラメータの後処理は、大量の送信された量子化された再構成パラメータを検出することになり、さらに、このようなエラーに対する適切な対策となるので、後処理は、ビットとして効率的でないエラー訂正符号を不要とすることができる。また、後処理機能が平滑化機能である場合、後述するように、先のまたは後の再構成パラメータと大きく異なる量子化された再構成パラメータは自動的に操作される。
【0126】
図5は、図4aの再構成パラメータポストプロセッサ10の好適な実施の形態を示す。特に、量子化された再構成パラメータが符号化されるという状況を考える。ここでは、符号化された量子化された再構成パラメータはエントロピーデコーダ10cに入り、これは、復号化された量子化された再構成パラメータのシーケンスを出力する。エントロピーデコーダの出力で再構成パラメータは量子化され、このことは、特定の「有益な」値を有していることを意味しているのではなく、後段の逆量子化器により実施される特定の量子化ルールの特定の量子化器インデックスまたは量子化器レベルを示していることを意味している。マニピュレータ10dは、例えば、(好ましくは)必要とする後処理機能により決定される任意のフィルタ特性を有するIIRフィルタまたはFIRフィルタ等のデジタルフィルタとすることができる。平滑化またはローパスフィルタリング後処理機能が好ましい。マニピュレータ10dの出力で、操作された量子化された再構成パラメータのシーケンスが得られ、これらは、整数の数字だけでなく、量子化ルールにより決定される範囲内の任意の実数である。このように操作された量子化された再構成パラメータは、ステージ10dの前の値1、0、1と比較して、1.1、0.1、0.5等の値を有することができる。次に、ブロック10dの出力での値のシーケンスは、後処理された再構成パラメータを得るために拡張逆量子化器10eに入力され、これらは、図1aおよび図1bのブロック12でマルチチャネル再構成(例えばBCC合成)に用いることができる。
【0127】
通常の逆量子化器は、限定した数の量子化インデックスから指定の逆量子化された出力値へ各量子化入力をマッピングするだけであるので、拡張量子化器10e(図5)は通常の逆量子化器と異なることに留意されたい。通常の逆量子化器は、非整数量子化器インデックスをマッピングすることはできない。したがって、好ましくは、拡張逆量子化器10eは直線または対数量子化ルール等の同じ量子化ルールを用いて実施されるが、非整数入力を受け付けて、整数入力だけを用いて得られる値とは異なる出力値を供給することができる。
【0128】
再量子化の前(図5を参照)または再量子化の後(図6a、図6bを参照)で、操作を行うかどうかは、本発明に対して基本的に差は何もない。後者の場合では、逆量子化器は、すでに概略を述べたように、図5の拡張逆量子化器10eと異なる、通常の直接逆量子化器である必要がある。もちろん、図5および図6aの選択は、特定の実施例に依存する選択の問題である。現在の実施例では、既存のBCCアルゴリズムとより互換性があるので、図5の実施の形態が好ましい。しかしながら、このことは他の応用では別の話である。
【0129】
図6bは、図6aの拡張逆量子化器10eが、直接逆量子化器と直線または好ましくは非直線曲線に従ってマッピングするためのマッピング手段10gとに置換される実施の形態を示す。このマッピング手段は、数値動作を実行するための回路またはルックアップテーブル等のハードウェアまたはソフトウェアとして実行することができる。データ操作は、例えばスムーザ10gを用いて、マッピング手段10gの前段、またはマッピング手段10gの後段、または結合して両段で実行することができる。全てのエレメント10f、10h、10gはソフトウェアルーチンの回路等の構成部品を直接用いて実施することができるので、後処理が逆量子化器領域で実行される場合に、この実施の形態は好ましい。
【0130】
一般に、ポストプロセッサ10は、図7aに示すようにポストプロセッサとして実施され、実際の量子化された再構成パラメータ、未来の再構成パラメータまたは過去の量子化された再構成パラメータを全てまたは選択して受信する。この場合、ポストプロセッサは、少なくとも1つの過去の再構成パラメータおよび実際の再構成パラメータだけを受信し、ポストプロセッサは、ローパスフィルタとして動作する。しかしながら、ポストプロセッサ10が、特定の遅延を用いてリアルタイムの応用において可能である、未来の遅延された量子化された再構成パラメータを受信する場合、ポストプロセッサは、例えば特定の周波数帯域の再構成パラメータの時間経過を平滑化するために、未来の量子化された再構成パラメータと現在または過去の量子化された再構成パラメータとの間で補間を実行することができる。
【0131】
図7bは、後処理された値が、逆量子化された再構成パラメータから導出されないが、逆量子化された再構成パラメータから導出される値から導出される実施例を示す。導出するための処理は、導出するための手段700により実行され、この場合、ライン702を介して量子化された再構成パラメータを受信することができ、または、ライン704を介して逆量子化されたパラメータを受信することができる。例えば、量子化されたパラメータとして振幅値を受信することができ、これは、エネルギー値を算出するために導出するための手段により用いられる。次に、このエネルギー値に対して、後処理(例えば平滑化)動作を行う。量子化されたパラメータは、ライン708を介してブロック706に転送される。したがって、ライン710に示すように量子化されたパラメータを直接用いて、またはライン712に示すように逆量子化されたパラメータを用いて、またはライン714に示すように逆量子化されたパラメータから導出される値を用いて、後処理を実行することができる。
【0132】
すでに概説したように、パラメトリック符号化されたマルチチャネル信号内のベースチャネルに付属する再構成パラメータから導出される量について、荒いサイズの量子化環境での量子化ステップサイズによるアーティファクトを克服するデータ操作を実行することができる。例えば、量子化された再構成パラメータが差パラメータ(ICLD)である場合、変更をしないで、このパラメータを逆量子化することができる。次に、出力チャネルの絶対レベル値を導出することができ、絶対値に対して本発明のデータ操作が実行される。この手順は、後処理された再構成パラメータまたは後処理された量の値が、量子化ルールに従って再量子化を用いて、すなわち「ステップサイズ制限」を克服する操作を行わずに、得られる値と異なるように、量子化された再構成パラメータと実際の再構成との間の処理経路でデータ操作が実行される限りにおいて、本発明のアーティファクトを低減することにもなる。
【0133】
操作された量を量子化された再構成パラメータから最終的に導出するためのマッピング機能の多くは、導出可能で、本技術で用いられ、これらのマッピング機能は、後処理されない量を得るためにマッピングルールに従って入力値を出力値に一意的にマッピングするための機能を含み、それは、次に、マルチチャネル再構成(合成)アルゴリズムに用いられる後処理された量を得るために後処理される。
【0134】
以下では、図8を参照して、図5の拡張逆量子化器10eと、図6aの直接逆量子化器10fとの間の違いを説明する。このために、図8の図では、横軸は、量子化されていない値の入力値軸を示す。縦軸は、量子化器レベルまたは量子化器インデックスを示し、これは、好ましくは0、1、2、3の値を有する整数である。ここで、図8の量子化器では、0から1の間の値または1から2の間の値にはならないことに留意されたい。これらの量子化器レベルに対するマッピングは、例えば−10から10の間の値が0にマッピングされ、10から20の間の値が1に量子化される等のように、階段関数により制御される。
【0135】
考えられる逆量子化器機能は、0の量子化器レベルを0の逆量子化された値にマッピングする。1の量子化器レベルは、10の逆量子化された値にマッピングされる。同様に、例えば、2の量子化器レベルは20の逆量子化された値にマッピングされる。したがって、再量子化は、参照番号31で示す逆量子化器機能により制御される。直接逆量子化器は、ライン30とライン31との交点に限って可能であることに留意されたい。このことは、図8の逆量子化器ルールを有する直接逆量子化器では、0、10、20、30の値だけを、再量子化により得ることができることを意味している。
【0136】
拡張逆量子化器は、0.5の値等の、0から1または1から2の間の値を入力として受信するので、拡張逆量子化器10eとは異なっている。マニピュレータ10dにより得られる0.5の値の進んだ再量子化により、5の逆量子化された出力値となり、すなわち、後処理された再構成パラメータは、量子化ルールに従って再量子化により得られる値と異なる値を有する。通常の量子化ルールでは、0または10の値だけが得られるが、好適な量子化器機能31に従って動作する好適な逆量子化器では、異なる値、すなわち、図8に示す5の値が得られる。
【0137】
直接逆量子化器では、整数量子化器レベルを量子化されたレベルにマッピングするだけであるが、拡張逆量子化器は、非整数量子化器「レベル」を受信し、これらの値を逆量子化器ルールにより決定される値間の「逆量子化された値」にマッピングする。
【0138】
図9は、図5の実施の形態に対する好適な後処理の効果を示す。図9aは、0から3の間で変化する量子化された再構成パラメータのシーケンスを示す。図9bは、図9aの波形がローパス(平滑化)フィルタに入力される場合、「変更された量子化器インデックス」とも呼ぶ、後処理された再構成パラメータのシーケンスを示す。ここで、時点1、4、6、8、9、および10での増減は、図9bの実施の形態では低減していることに留意されたい。アーティファクトとして考えられる時点8と時点9との間のピークが、量子化ステップ全体で抑制されていることを強調して述べる。しかしながら、すでに概説したように、このような極端な値を、量的調性値に従って後処理の度合いにより制御することができる。
【0139】
本発明は、本発明の後処理が、変動を平滑化したり、短期の極端な値を平滑化したりするという利点がある。この状況は、特に、同じエネルギーを有するいくつかの入力チャネルからの信号部分が、信号の周波数帯域、すなわち、ベースチャネルまたは入力信号チャネルと重ね合わされる場合に発生する。次に、この周波数帯域は、時間部分毎に対応し、個々の出力チャネルを非常に変動するように混合した即座の状況に依存する。しかしながら、心理音響的な視点から、これらの変動は、基本的にソースの位置の検出に寄与せずに、主観的な聴き取り印象を悪くするような影響を与えるので、これらの変動を平滑化する方がよい。
【0140】
本発明の好適な実施の形態によれば、システムにおける異なる場所で品質損失を発生することなく、あるいは送信された再構成パラメータの高い解像度/量子化(したがって、速いデータ速度)を必要とすることなく、このような可聴アーティファクトが低減されたり、解消されたりする。本発明は、重要な空間ローカライゼーション検出キューに基本的に影響を与えることなく、パラメータの信号適応変更(平滑化)を実行することにより、本目的を達成する。
【0141】
再構成された出力信号の特性に突然変化が発生すると、高い定常特性を有するオーディオ信号に対して、特に可聴アーティファクトが発生する。これは、音信号がある場合である。したがって、このような信号に対する量子化された再構成パラメータ間に「スムーザ」によるトランジションを供給することは重要なことである。これは、例えば、平滑化、補間等により得ることができる。
【0142】
また、このようなパラメータ値の変更により、他の種類のオーディオ信号に可聴歪みが発生してしまう。これは、信号特性に急速に発生する変動を含む信号の場合である。このような特性は、過渡部分または打楽器のアタックに見られる。この場合、本実施の形態により、パラメータ平滑化を起動しないようにする。
【0143】
これは、信号適応法で、送信された量子化された再構成パラメータの後処理により、得られる。
【0144】
適応性は、直線または非直線である。適応性が非直線の場合、図3cで説明されるように閾値処理手順が実行される。
【0145】
適応性を制御するための別の基準は、信号特性の特定の定常性を決定することである。信号特性の定常性を決定するための特定の形式は、信号エンベロープ、または、特に、信号の調性を評価することである。ここで、全周波数範囲に対して、または、好ましくは、オーディオ信号の異なる周波数帯域それぞれに対して、調性を決定することができることに留意されたい。
【0146】
本実施の形態により、パラメータ値を送信するための必要とされたデータ速度が速くなることなく、今まで不可避であったアーティファクトを低減したり、または解消したりすることになる。
【0147】
図4aおよび図4bですでに概説したように、検討中の信号部分に音特性がある場合に、デコーダ制御モードでの本発明の好適な実施の形態では、チャネル間レベル差の平滑化を実行する。エンコーダで算出されて、エンコーダで量子化されるチャネル間レベル差は、信号適応平滑化動作を行うためにデコーダに送信される。適応構成要素は、閾値決定に関する調性決定であり、音スペクトル成分に対してチャネル間レベル差のフィルタリングを起動して、ノイズ様および過渡スペクトル成分に対してはこのような後処理を起動しない。本実施の形態では、エンコーダの付加的なサイド情報は、適応平滑化アルゴリズムを実行するために必要としない。
【0148】
ここで、本発明の後処理は、パラメトリックステレオ、MP3サラウンド、および同様の方法などのマルチチャネル信号に対してパラメトリック符号化を行う他の概念に用いることもできることに留意されたい。
【0149】
本発明の方法またはデバイスまたはコンピュータプログラムは、いくつかのデバイスから実施することができる。図14は、本発明のエンコーダを含むトランスミッタと、本発明のデコーダを含むレシーバとを有する伝送システムを示す。伝送チャネルは、無線または有線チャネルとすることができる。さらに、図15に示すように、エンコーダをオーディオレコーダに含ませることもできるし、デコーダをオーディオプレーヤに含ませることもできる。オーディオレコーダからのオーディオ記録は、インターネットを介して、または、メール、宅配業者リソース、またはメモリカード、CDまたはDVD等の記憶媒体を配信するための他の可能性を用いて配信される記憶媒体を介して、オーディオプレーヤに配信することができる。
【0150】
本発明の方法の特定の実現要求によっては、本発明の方法は、ハードウェアまたはソフトウェアで実施することができる。この実施は、本発明の方法が実行されるように、プログラム可能なコンピュータシステムと協働する、デジタル記憶媒体、特に、それに格納される電子的に読み取り可能な制御信号を有するディスクまたはCDを用いて、実行することができる。したがって、一般に、本発明は、機械読み取り可能なキャリアに格納されるプログラムコードを有するコンピュータプログラム製品であり、そのプログラムコードは、そのコンピュータプログラム製品がコンピュータ上で実行されるときに、少なくとも1つの本発明の方法を実行するために構成される。したがって、言い換えれば、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法を実行するためのプログラムコードを有するコンピュータプログラムである。
【0151】
前述のように、特定の実施の形態を参照して特に図示して説明してきたが、本発明の精神、範囲を逸脱することなく、形態や詳細を様々変更することができることが、当業者ならば理解できるであろう。ここに開示するより広い概念から逸脱することなく、異なる実施の形態に適用して、変更が可能なことが、特許請求の範囲から理解できるであろう。
【技術分野】
【0001】
本発明は、マルチチャネルオーディオ処理に関し、特に、パラメトリックサイド情報を用いたマルチチャネル符号化および合成に関する。
本出願は、2005年4月15日出願の米国仮出願第60/671,582号についての優先権を主張する。
【背景技術】
【0002】
近年、マルチチャネルオーディオ再生技術がますます普及している。これは、周知のMPEG−1レイヤ3(MP3としても周知である)技術等のオーディオ圧縮/符号化技術により、制限のある帯域幅を有するインターネットまたは他の伝送チャネルを介して、オーディオコンテンツを配信することが可能になったという事実によるものである。
【0003】
このように普及している別の理由は、家庭環境において、マルチチャネルコンテンツがますます利用できるようになり、マルチチャネル再生デバイスがますます浸透しているからである。
【0004】
ステレオフォーマットの全記録を配信すること、すなわち、第1のつまり左ステレオチャネルと第2のつまり右ステレオチャネルとを含むオーディオ記録のデジタル表現を配信することが可能であるという事実により、MP3符号化技術はよく知られるようになった。さらに、MP3技術は、利用できる記憶および伝送帯域幅を与えるオーディオ配信のための新たな可能性を作り出した。
【0005】
しかしながら、従来の2チャネルサウンドシステムには基本的な欠点がある。2つのスピーカしか用いられていないという事実により、空間イメージが制限されることになる。したがって、サラウンド技術が開発されている。推奨されるマルチチャネルサラウンド表現は、2つのステレオチャネルLおよびRに加えて、付加的なセンターチャネルCおよび2つのサラウンドチャネルLs、Rsをさらに含み、オプションとして、低周波数拡張チャネルまたはサブウーファチャネルを含む。この基準サウンドフォーマットは、3ステレオ/2ステレオ(または5.1フォーマット)とも呼ばれるもので、3つのフロントチャネルおよび2つのサラウンドチャネルを意味する。一般に、5つの伝送チャネルを必要とする。再生環境では、それぞれ5つの異なる場所に配置された少なくとも5つのスピーカは、5つの適切に配置されたスピーカから一定の距離で、最適なスイートスポットを得る必要がある。
【0006】
マルチチャネルオーディオ信号の伝送に必要なデータ量を低減する本技術では、いくつかの技術が周知である。このような技術は、ジョイントステレオ技術と呼ばれている。このために、図10を参照すると、ジョイントステレオデバイス60を示している。このデバイスは、例えば、インテンシティステレオ(IS)、パラメトリックステレオ(PS)または(関連した)バイノーラルキュー符号化(BCC)を実施するデバイスとすることができる。このようなデバイスは、一般に、入力として少なくとも2つのチャネル(CH1、CH2、・・・CHn)を受信し、1つのキャリアチャネルおよびパラメトリックデータを出力する。パラメトリックデータは、デコーダにおいて、元のチャネル(CH1、CH2、・・・CHn)の近似値を算出できるように、定義されている。
【0007】
通常、キャリアチャネルは、サブバンドサンプル、スペクトル係数、時間領域サンプル等を含み、これらにより、基礎の信号が比較的よい表現になるが、パラメトリックデータはスペクトル係数のこのようなサンプルを含まないが、乗算、時間シフティング、周波数シフティング、位相シフティング等による重み付けのような特定の再構成アルゴリズムを制御するための制御パラメータを含む。したがって、パラメトリックデータは、関連付けられたチャネルの信号の比較的粗い表現しか含んでいない。数字を提示すると、従来の損失の大きいオーディオコーダを用いて符号化されるキャリアチャネルが必要とするデータ量は、60〜70キロビット/秒の範囲であるが、1つのチャネルに対してパラメトリックサイド情報が必要とするデータ量は、1.5〜2.5キロビット/秒の範囲である。パラメトリックデータの一例としては、以下に説明するように、周知のスケールファクタ、インテンシティステレオ情報またはバイノーラルキューパラメータが挙げられる。
【0008】
インテンシティステレオ符号化については、AES予稿集3799、「インテンシティステレオ符号化(Intensity Stereo Coding)」、J.ヘレ(Herre)、K.H.ブランデンブルグ(Brandenburg)、D.レーデラー(Lederer)、1994年2月、アムステルダム、第96回AESに記載され、一般に、インテンシティステレオの概念は、2つの立体音響オーディオチャネルのデータに対して行われる主軸変換に基づいている。大部分のデータポイントが第1の原理軸のまわりに集中している場合、符号化を行う前に一定の角度で2つの信号を回転し、ビットストリームにおいて伝送から第2の直交成分を除外することにより、符号化利得を得ることができる。左および右チャネルのための再構成された信号は、同じ伝送信号の別々に重み付けされまたはスケーリングされたバージョンからなる。しかしながら、再構成された信号は、それらの振幅において異なっているが、それらの位相情報については全く同じである。しかしながら、2つの元のオーディオチャネルのエネルギー時間エンベロープは、通常周波数選択的に動作する選択的スケーリング動作により保存される。これは、高い周波数での人間のサウンド認識に一致し、主要な空間キューは、エネルギーエンベロープにより決定される。
【0009】
また、実際に実施するにあたっては、2つの成分を回転させる代わりに、伝送信号、すなわち、キャリアチャネルが、左チャネルおよび右チャネルの和信号から発生される。さらに、この処理、すなわち、スケーリング動作を実行するためにインテンシティステレオパラメータを発生することは、周波数選択的に実行され、すなわち、各スケールファクタバンド、すなわち、エンコーダの周波数区分に対して独立して実行される。好ましくは、2つのチャネルが結合チャネルまたは「キャリア」チャネルを形成するために結合され、結合チャネルの他に、インテンシティステレオ情報が決定され、これは、第1のチャネルのエネルギー、第2のチャネルのエネルギーまたは結合チャネルのエネルギーに依存する。
【0010】
BCC技術については、AESコンベンション論文5574、「ステレオおよびマルチチャネルオーディオ圧縮に応用されたバイノーラルキュー符号化(Binaural cue coding applied to stereo and multi−channel audio compression)」、C.フォーラ(Faller)、F.バウムガルテ(Baumgarte)、2002年5月、ミュンヘンに記載されている。BCC符号化では、オーバーラップウィンドウを有するDFTベースの変換を用いて、多数のオーディオ入力チャネルは、スペクトル表現に変換されている。得られる均一なスペクトルは、それぞれインデックスを有する重なりのない区分に分割される。各区分は、等価矩形帯域幅(ERB)に比例する帯域幅を有する。チャネル間レベル差(ICLD)およびチャネル間時間差(ICTD)は、各フレームkに対して、この区分毎に推定される。ICLDおよびICTDは、量子化され符号化されると、BCCビットストリームが得られる。基準チャネルと比較にして、チャネル間レベル差およびチャネル間時間差が各チャネルに与えられる。次に、パラメータが規定の公式にしたがって算出され、これらは、処理される信号の特定の区分に依存する。
【0011】
デコーダ側では、デコーダは、モノラル信号およびBCCビットストリームを受信する。モノラル信号は、周波数領域に変換され、空間合成ブロックに入力され、このブロックは、復号化されたICLDおよびICTD値も受信する。空間合成ブロックでは、マルチチャネル信号を合成するために、モノラル信号の重み付け動作を実行するためにBCCパラメータ(ICLDおよびICTD)値が用いられ、マルチチャネル信号は、周波数/時間変換後の元のマルチチャネルオーディオ信号を再構成したものを表す。
【0012】
BCCの場合、ジョイントステレオモジュール60は、パラメトリックチャネルデータが量子化され、ICLDまたはICTDパラメータを符号化するように、チャネルサイド情報を出力するために動作し、元のチャネルのうちの1つは、基準チャネルとしてチャネルサイド情報を符号化するために用いられる。
【0013】
通常、最も単純な実施の形態では、キャリアチャネルは、構築する元のチャネルの総計として形成されるものである。
【0014】
当然、上記の技術では、キャリアチャネルしか処理することができないデコーダに対するモノラル表現を提供するだけであり、パラメトリックデータを処理して、2つ以上の入力チャネルの1つ以上の近似値を発生することはできない。
【0015】
バイノーラルキュー符号化(BCC)として周知のオーディオ符号化技術については、米国特許出願公開第2003/0219130A1号、米国特許出願公開第2003/0026441A1号および米国特許出願公開第2003/0035553A1号にも詳細に記載されている。さらに引例として、「バイノーラルキュー符号化パートII:方法および応用例(Binaural Cue Coding. Part II:Schemes and Applications)」、C.フォーラ(Faller)およびF.バウムガルテ(Baumgarte)、オーディオおよびスピーチプロシーディング(Audio and Speech Proc.)におけるIEEEトランザクション、11巻、第6号、2003年11月がある。フォーラおよびバウムガルテが著したBCC技術に関する引例の米国特許出願公開公報および2つの引例の技術刊行物は、ここに引例としてすべて組み込まれている。
【0016】
パラメトリック方法をもっと広いビットレート範囲に適用可能にする、バイノーラルキュー符号化方法を大幅に向上させることは、MPEG−4高効率AACv2で標準化されているように、「パラメトリックステレオ」(PS)として周知である。パラメトリックステレオの重要な拡張の1つは、空間「拡散」パラメータを含むようにすることである。この知覚は、チャネル間相関またはチャネル間コヒーレンス(ICC)の数学的特性として取り込まれる。PSパラメータの解析、知覚量子化、伝送および合成処理については、「ステレオオーディオのパラメトリック符号化(Parametric coding of stereo audio)」、J.ブレーバールト(Breebaart)、S.ファン・デ・パール(van de Par)、A.コーラウシュ(Kohlrausch)およびE.シュイエールス(Schuijers)、応用信号処理に関するEURASIPジャーナル(EURASIP J. Appl. Sign. Proc.)2005年9月、1305−1322頁に詳細に記載されている。別の引例として、J.ブレーバールト(Breebaart)、S.ファン・デ・パール(van de Par)、A.コーラウシュ(Kohlrausch)、E.シュイエールス(Schuijers)、「低ビットレートでの高品質パラメトリック空間オーディオ符号化(High−Quality Parametric Spatial Audio Coding at Low Bit rates)」、2004年5月、ベルリン、AES第116回コンベンション、予稿集6072、およびE.シュイエールス(Schuijers)、J.ブレーバールト(Breebaart)、H.プルンハーゲン(Purnhagen)、J.エングデガールド(Engdegard)、「低複雑性パラメトリックステレオ符号化(Low Complexity Parametric Stereo Coding)」、2004年5月、ベルリン、AES第116回コンベンション、予稿集6073がある。
【0017】
以下に、マルチチャネルオーディオ符号化のための代表的な一般的BCC方法について、図11〜13を参照して、さらに詳細に説明する。図11は、マルチチャネルオーディオ信号の符号化/伝送のための、そのような一般的バイノーラルキュー符号化方法を示す。BCCエンコーダ112の入力110のマルチチャネルオーディオ入力信号は、ダウンミックスブロック114でダウンミキシングされる。本例では、入力110の元のマルチチャネル信号は、フロント左チャネル、フロント右チャネル、左サラウンドチャネル、右サラウンドチャネルおよびセンターチャネルを有する、5チャネルサラウンド信号である。本発明の好適な実施の形態では、ダウンミックスブロック114は、これらの5つのチャネルを単純に加算して、モノラル信号にすることにより、和信号を生じる。マルチチャネル入力信号を用いて、1つのチャネルを有するダウンミックス信号が得られるような、他のダウンミキシング方法が周知である。この1つのチャネルは、和信号ライン115に出力される。BCC解析ブロック116により得られたサイド情報は、サイド情報ライン117に出力される。BCC解析ブロックでは、上記で説明したように、チャネル間レベル差(ICLD)およびチャネル間時間差(ICTD)が算出される。最近では、BCC解析ブロック116は、チャネル間相関値(ICC値)の形式で、パラメトリックステレオパラメータを引き継いでいる。好ましくは量子化され符号化された形式で、和信号およびサイド情報がBCCデコーダ120に送信される。BCCデコーダは、出力マルチチャネルオーディオ信号のサブバンドを発生するために、送信された和信号を多数のサブバンドに分解して、スケーリングを行い、遅延して、他の処理を行う。出力121の再構成されたマルチチャネル信号のICLD、ICTDおよびICCパラメータ(キュー)が、BCCエンコーダ112への入力110の元のマルチチャネル信号に対するそれぞれのキューと同様になるように、この処理が実行される。このために、BCCデコーダ120は、BCC合成ブロック122およびサイド情報処理ブロック123を含む。
【0018】
以下に、図12を参照して、BCC合成ブロック122の内部構成を説明する。ライン115上の和信号が、時間/周波数変換ユニットまたはフィルタバンクFB125に入力される。ブロック125の出力には、オーディオフィルタバンク125が1:1変換を実行する場合、すなわち、N個の時間領域サンプルからN個のスペクトル係数を生じる変換の場合、N個のサブバンド信号または、極端な場合では、ブロックとなったスペクトル係数が存在する。
【0019】
BCC合成ブロック122は、さらに、遅延ステージ126、レベル変更ステージ127、相関処理ステージ128および逆フィルタバンクステージIFB129を備える。ステージ129の出力では、5チャネルサラウンドシステムの場合に、図11に示すように、例えば5つのチャネルを有する再構成されたマルチチャネルオーディオ信号が、1セットのスピーカ124に出力される。
【0020】
図12に示すように、入力信号s(n)は、エレメント125により、周波数領域またはフィルタバンク領域に変換される。同じ信号のいくつかのバージョンが乗算ノード130で示されるように得られるように、エレメント125による信号出力は乗算される。元の信号のバージョンの数は、再構成される出力信号における出力チャネルの数と等しい。一般に、ノード130での元の信号の各バージョンが遅延d1、d2、・・・、di、・・・、dNを受ける場合、遅延パラメータは図11のサイド情報処理ブロック123により算出され、BCC解析ブロック116で決定されるように、チャネル間時間差から導出される。
【0021】
同じことが、乗算パラメータa1、a2、・・・、ai、・・・、aNについて当てはまり、これらについても、BCC解析ブロック116により算出されるように、チャネル間レベル差に基づいてサイド情報処理ブロック123により算出される。
【0022】
遅延されレベルが操作された信号間の特定の相関がブロック128の出力で得られるように、BCC解析ブロック116により算出されるICCパラメータがブロック128の機能を制御するために用いられる。ステージ126、127、128の順序は、図12に示す場合と異なっていてもよいことに、ここで留意されたい。
【0023】
オーディオ信号のフレームに関する処理において、BCC解析がフレームに関して実行され、すなわち、時間可変的、そして周波数に関しても実行されることに、ここで留意されたい。これは、各スペクトル帯域に対してBCCパラメータが得られるという意味である。これは、オーディオフィルタバンク125が入力信号を例えば32個のバンドパス信号に分解する場合、BCC解析ブロックは、32個の帯域それぞれに対するBCCパラメータのセットを得るという意味である。当然、図12に詳細に示される、図11のBCC合成ブロック122が、本例の32個の帯域に基づく再構成を実行する。
【0024】
以下に、図13を参照して、あるBCCパラメータを決定するセットアップを示す。通常、ICLD、ICTDおよびICCパラメータは、1対のチャネル間で定義することができる。しかしながら、基準チャネルと互いのチャネルとの間で、ICLDおよびICTDパラメータを決定することが好ましい。これについて、図13Aに示す。
【0025】
ICCパラメータは、別の方法で決定することもできる。一般に大抵の場合、図13Bに示すように、考えられるすべてのチャネル対の間で、エンコーダ内のICCパラメータを推定することができる。この場合、考えられるすべてのチャネル対間の元のマルチチャネル信号とほぼ同じになるように、デコーダがICCを合成する。しかしながら、各時間で最も強力な2つのチャネル間のICCパラメータだけを推定することが提案されていた。この方法は、図13Cに示され、1つの時点で、チャネル1とチャネル2との間でICCパラメータが推定され、別の時点で、チャネル1とチャネル5との間でICCパラメータが算出される例が示されている。次に、デコーダが、デコーダ内の最も強力なチャネル間のチャネル間相関を合成し、残りのチャネル対に対するチャネル間コヒーレンスを算出して合成するためのある発見的ルールを適用する。
【0026】
例えば、送信ICLDパラメータに基づいてパラメータa1、aNを算出するには、上記引例のAESコンベンション論文5574を参照する。ICLDパラメータは、元のマルチチャネル信号におけるエネルギー分布を表す。一般性を失うことなく、他の全チャネルとフロント左チャネルとの間のエネルギー差を示す4つのICLDパラメータが、図13Aに示される。サイド情報処理ブロック123では、再構成されたすべての出力チャネルの総エネルギーが送信和信号のエネルギーと同じになるように(または比例するように)、乗算パラメータa1、・・・、aNがICLDパラメータから導出される。これらのパラメータを決定するための簡単な方法は、2ステージ処理であり、これは、第1のステージでは、左フロントチャネルの乗算ファクタが1に設定され、図13Aの他のチャネルの乗算ファクタが送信ICLD値に設定される。次に、第2のステージでは、5つのチャネルすべてのエネルギーが算出され、送信和信号のエネルギーと比較される。次に、全チャネルは、全チャネルに対して等しいダウンスケーリングファクタを用いて、ダウンスケーリングされ、ダウンスケーリングファクタは、ダウンスケーリング後、再構成されたすべての出力チャネルの総エネルギーが送信和信号の総エネルギーと等しくなるように、選択される。
【0027】
当然、乗算ファクタを算出する他の方法があり、これらは、2ステージ処理を利用せず、1ステージ処理だけを必要とするものである。1ステージの方法については、AES予稿集「MPEG空間オーディオ符号化用基準モデルアーキテクチャ(The reference model architecture for MPEG spatial audio coding)」、J.ヘレ(Herre)ら、2005年、バルセロナに記載されている。
【0028】
遅延パラメータに関して、左フロントチャネルの遅延パラメータd1がゼロに設定される場合、BCCエンコーダから送信される遅延パラメータICTDは、直接用いることができることに留意されたい。遅延を行っても信号のエネルギーを変更しないので、ここでは再スケーリングを行う必要がない。
【0029】
BCCエンコーダからBCCデコーダに送信されるチャネル間コヒーレンス測定値ICCに関して、20log10(−6)から20log10(6)の間の値の乱数を有する全サブバンドの重み付けファクタを乗算するというように、乗算ファクタa1、・・・、anを変更することにより、コヒーレンス操作を行うことができることに、ここで留意されたい。好ましくは、すべての重要な帯域に対してバリアンスがほぼ一定になり、各々の重要な帯域内で平均がゼロとなるように、疑似乱数シーケンスが選択される。同じシーケンスは、各々の異なるフレームのスペクトル係数に対して適用される。したがって、聴覚によるイメージの幅は、疑似乱数シーケンスのバリアンスを変更することにより、制御される。より大きいバリアンスは、より大きいイメージ幅を作り出す。バリアンス変更は、重要な帯域にわたるそれぞれの帯域で実行することができる。これにより、聴覚による場面において、それぞれ異なるイメージ幅を有する複数の対象を同時に存在させることが可能になる。疑似乱数シーケンスに対し適した振幅分布は、米国特許出願公開第2003/0219130A1号で概説されているように、対数目盛に対して均一な分布である。しかしながら、図11に示すBCCエンコーダからBCCデコーダへ送信される和信号のように、すべてのBCC合成処理は、1つの送信される入力チャネルと関係付けられる。
【0030】
図13を参照してすでに概説したように、パラメトリックサイド情報、すなわち、チャネル間レベル差(ICLD)、チャネル間時間差(ICTD)またはチャネル間コヒーレンスパラメータ(ICC)は、算出され、5つのチャネルそれぞれに送信されることができる。このことは、通常、1つの5チャネル信号に対して5つのセットのチャネル間レベル差を送信することを意味している。同じことがチャネル間時間差についても当てはまる。チャネル間コヒーレンスパラメータについては、例えば2つのセットのこれらのパラメータを送信するだけで十分である。
【0031】
図12を参照してすでに概説したように、信号の1つのフレームまたは時間部分に対して、レベル差パラメータ、時間差パラメータまたはコヒーレンスパラメータは1つだけではない。むしろ、周波数依存のパラメータ化が行えるように、いくつかの異なる周波数帯域に対してこれらのパラメータが決定される。例えば32の周波数チャネル、すなわち、32の周波数帯域を有するフィルタバンクをBCC解析およびBCC合成に用いることは好ましいので、パラメータは、かなりの量のデータを占有することになる。他のマルチチャネル伝送と比較して、パラメトリック表示ではデータ速度が相当遅くなるが、2つのチャネル(ステレオ信号)を有する信号またはマルチチャネルサラウンド信号等の3つ以上のチャネルを有する信号のようなマルチチャネル信号を表現するために必要なデータ速度を、継続してさらに低減する必要がある。
【0032】
このために、エンコーダ側で算出された再構成パラメータが、特定の量子化ルールに従って量子化される。これは、量子化されていない再構成パラメータが、限定されたセットの量子化レベルまたは量子化インデックスにマッピングされることを意味し、本技術で周知であり、特にパラメトリック符号化として、「ステレオオーディオのパラメトリック符号化(Parametric coding of stereo audio)」、J.ブレーバールト(Breebaart)、S.ファン・デ・パール(van de Par)、A.コーラウシュ(Kohlrausch)およびE.シュイエールス(Schuijers)、応用信号処理に関するEURASIPジャーナル(EURASIP J. Appl. Sign. Proc.)2005年9月、1305−1322頁、およびC.フォーラ(Faller)、F.バウムガルテ(Baumgarte)、「フレキシブルレンダリングを用いたオーディオ圧縮に応用されるバイノーラルキュー符号化(Binaural cue coding applied to audio compression with flexible rendering)」、2002年10月、ロサンジェルス、AES第113回コンベンション、予稿集5686に詳細に記載されている。
【0033】
量子化は、量子化器がミッドトレッド型なのかまたはミッドライザ型なのかに依存するが、量子化ステップサイズよりも小さいパラメータ値を全て、ゼロに量子化する作用がある。大きなセットの量子化されていない値を小さなセットの量子化された値にマッピングすることにより、さらなるデータ節減が得られる。これらのデータ速度節減は、エンコーダ側で量子化された再構成パラメータにエントロピー符号化を行うことにより、さらに高められる。好適なエントロピー符号化方法は、定義済みのコードテーブルに基づいた、または、実際に決定された信号統計データおよびコードブックの信号適応構成に基づいた、ハフマン法である。あるいは、算術符号化等の他のエントロピー符号化ツールを用いることができる。
【0034】
一般に、量子化器のステップサイズが大きくなると、再構成パラメータに必要なデータ速度が低下するというルールがある。言い換えれば、量子化のサイズが荒くなるとデータ速度が遅くなり、量子化が微細になるとデータ速度が速くなる。
【0035】
通常、データ速度が遅い環境ではパラメトリック信号表示が必要になるので、できるだけ荒いサイズで再構成パラメータを量子化することにより、ベースチャネルにおける特定の量のデータと、量子化されエントロピー符号化された再構成パラメータを含むサイド情報の適正な小さな量のデータとを有する信号表示が得られる。
【0036】
したがって、従来技術の方法では、符号化されるマルチチャネル信号から直接、送信される再構成パラメータを抽出している。上述のように、量子化された再構成パラメータが、デコーダで逆量子化され、マルチチャネル合成に用いられる場合、荒いサイズの量子化を行うと再構成パラメータが歪んでしまう。もちろん、量子化器のステップサイズ、すなわち、選択された「量子化器の荒さ」によって、丸め誤差が大きくなる。このような丸め誤差は、量子化レベルの変化に、すなわち、第1の時点での第1の量子化レベルから後の時点での第2の量子化レベルへの変化になることがあり、ある量子化器のレベルと別の量子化器のレベルとの間の差が、相当大きな量子化器のステップサイズで定義され、このことは、荒いサイズの量子化では好ましい。残念ながら、量子化器のステップサイズが大きくなってしまうこのような量子化器のレベルの変化は、量子化されていないパラメータが2つの量子化レベルの中間にある場合、パラメータにおける小さい変化のみによって、トリガされることが可能になる。サイド情報におけるこのような量子化器インデックスの変化が発生することが、信号合成ステージにおける同じ大きな変化となる。例として、チャネル間レベル差を考える場合、大きな変化により、特定のスピーカ信号の音の大きさが大きく低下し、これに付随して、別のスピーカの信号の音の大きさが大きく増加することが明らかである。荒いサイズの量子化に対する1つの量子化レベル変化のみによってトリガされるこの状況を、(仮想の)第1の場所から(仮想の)第2の場所へ直ちにサウンドソースを再配置することとして認識することができる。ある時点から別の時点へのこのような速やかな再配置は、不自然に聞こえ、すなわち、特に、音信号のサウンドソースはその位置を非常に速く変化しないので、このことは転調作用として認識される。
【0037】
一般に、伝送エラーにより量子化器インデックスに大きな変化が発生することもあり、これによりマルチチャネル出力信号に大きな変化が直ちに発生し、この状況ではもっとよく当てはまることであるが、データ速度のために荒いサイズの量子化器を採用している。
【0038】
2つ(「ステレオ」)またはそれ以上の(「マルチチャネル」)オーディオ入力チャネルをパラメトリック符号化する最新技術は、入力信号から直接空間パラメータを導出する。上記で概説したように、このようなパラメータの例としては、チャネル間レベル差(ICLD)またはチャネル間強度差(IID)、チャネル間時間遅延(ICTD)またはチャネル間位相差(IPD)、およびチャネル間相関/コヒーレンス(ICC)があり、それぞれ、時間と周波数とを選択するやり方で、すなわち、周波数帯域毎に、時間の関数として送信される。このようなパラメータのデコーダへの伝送のために、これらのパラメータの荒い量子化は、サイド情報率を最小限に保つために望ましいことである。その結果として、送信されたパラメータ値をそれらの元の値と比較する際に、かなりの丸め誤差が発生する。このことは、元の信号において1つのパラメータが緩やかに徐々に変化したとしても、1つの量子化されたパラメータ値から次の値への決定閾値を超えると、デコーダにおいて用いられるパラメータ値に急激な変化が発生してしまうことを意味する。これらのパラメータ値が出力信号の合成に用いられるので、パラメータ値における急激な変化は、出力信号に「跳ね上がり」も発生することになり、これは、ある種類の信号にとって、(パラメータの時間的細分性および量子化解像度に依存する)「スイッチング」または「変調」アーティファクトのような気になるものとして認識されることになる。
【0039】
米国特許出願第10/883,538号には、低い解像度でパラメータを表現する場合にある種類の信号のアーティファクトを回避するために、BCC型の方法という意味で、送信されたパラメータ値を後処理するためのプロセスが記載されている。合成処理におけるこのような不連続性は、音信号のアーティファクトを導く。したがって、この米国特許出願では、デコーダにおいて調性検出器を用い、送信されたダウンミックス信号を解析することが提案されている。信号が音であると判明した場合、次に、送信されたパラメータに対して経時的に平滑化動作が実行される。したがって、この種の処理は、音信号のためのパラメータの効率的な伝送のための手段になる。
【0040】
しかしながら、音入力信号以外に入力信号のクラスがあり、同様に空間パラメータの荒い量子化の影響を受ける。
・このような場合の一例として、2つの位置を非常にゆっくりと移動するポイントソースがあげられる(例えば、センタースピーカと左フロントスピーカとの間を非常にゆっくりとパンするノイズ信号である)。レベルパラメータの荒い量子化は、サウンドソースの空間位置および軌道に知覚可能な「跳ね上がり」(不連続性)を導く。これらの信号は一般に音としてデコーダで検出されないので、従来技術の平滑化は、この場合に役に立たないことが明らかである。
・他の例としては、速く移動する正弦曲線等の音素材を有する、急速に移動するポイントソースがあげられる。従来技術の平滑化は、音としてこれらの成分を検出するので、平滑化動作を実行する。しかしながら、移動速度が従来技術の平滑化アルゴリズムではわかっていないので、適用された平滑化時定数は一般に不適当なものとなり、例えば、移動するポイントソースの移動速度が遅すぎて再現され、元々の目的とされる位置と比較して、再現された空間位置に大幅な遅れが生じる。
【先行技術文献】
【特許文献】
【0041】
【特許文献1】米国特許出願公開第2003/0219130A1号
【特許文献2】米国特許出願公開第2003/0026441A1号
【特許文献3】米国特許出願公開第2003/0035553A1号
【非特許文献】
【0042】
【非特許文献1】「インテンシティステレオ符号化(Intensity Stereo Coding)」、J.ヘレ(Herre)、K.H.ブランデンブルグ(Brandenburg)、D.レーデラー(Lederer)、1994年2月、アムステルダム、第96回AES、AES予稿集3799
【非特許文献2】「ステレオおよびマルチチャネルオーディオ圧縮に応用されたバイノーラルキュー符号化(Binaural cue coding applied to stereo and multi−channel audio compression)」、C.フォーラ(Faller)、F.バウムガルテ(Baumgarte)、2002年5月、ミュンヘン、AESコンベンション論文5574
【非特許文献3】「バイノーラルキュー符号化パートII:方法および応用例(Binaural Cue Coding. Part II:Schemes and Applications)」、C.フォーラ(Faller)およびF.バウムガルテ(Baumgarte)、オーディオおよびスピーチプロシーディング(Audio and Speech Proc.)におけるIEEEトランザクション、11巻、第6号、2003年11月
【非特許文献4】「ステレオオーディオのパラメトリック符号化(Parametric coding of stereo audio)」、J.ブレーバールト(Breebaart)、S.ファン・デ・パール(van de Par)、A.コーラウシュ(Kohlrausch)およびE.シュイエールス(Schuijers)、応用信号処理に関するEURASIPジャーナル(EURASIP J. Appl. Sign. Proc.)2005年9月、1305−1322頁
【非特許文献5】「低ビットレートでの高品質パラメトリック空間オーディオ符号化(High−Quality Parametric Spatial Audio Coding at Low Bit rates)」、J.ブレーバールト(Breebaart)、S.ファン・デ・パール(van de Par)、A.コーラウシュ(Kohlrausch)、E.シュイエールス(Schuijers)、2004年5月、ベルリン、AES第116回コンベンション、予稿集6072
【非特許文献6】「低複雑性パラメトリックステレオ符号化(Low Complexity Parametric Stereo Coding)」、E.シュイエールス(Schuijers)、J.ブレーバールト(Breebaart)、H.プルンハーゲン(Purnhagen)、J.エングデガールド(Engdegard)、2004年5月、ベルリン、AES第116回コンベンション、予稿集6073
【非特許文献7】「MPEG空間オーディオ符号化用基準モデルアーキテクチャ(The reference model architecture for MPEG spatial audio coding)」、J.ヘレ(Herre)ら、2005年、バルセロナ、AES予稿集
【非特許文献8】「フレキシブルレンダリングを用いたオーディオ圧縮に応用されるバイノーラルキュー符号化(Binaural cue coding applied to audio compression with flexible rendering)」、C.フォーラ(Faller)、F.バウムガルテ(Baumgarte)、2002年10月、ロサンジェルス、AES第113回コンベンション、予稿集5686
【発明の概要】
【発明が解決しようとする課題】
【0043】
本発明の目的は、一方ではデータ速度が低く、他方では良好な主観的な品質が可能な、向上されたオーディオ信号処理概念を提供することである。
【課題を解決するための手段】
【0044】
本発明の第1の態様によれば、この目的は、マルチチャネルシンセサイザ制御信号を発生するための装置であって、マルチチャネル入力信号を解析するための信号アナライザと、信号アナライザに応答して平滑化制御情報を決定するための平滑化情報カリキュレータであって、平滑化制御情報に応答して、シンセサイザ側ポストプロセッサが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは再構成パラメータから導出される後処理された量を発生するように、平滑化制御情報を決定する平滑化情報カリキュレータと、マルチチャネルシンセサイザ制御信号として平滑化制御情報を表す制御信号を発生するためのデータジェネレータとを備える、装置により達成される。
【0045】
本発明の第2の態様によれば、この目的は、入力信号から出力信号を発生するためのマルチチャネルシンセサイザであって、入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、量子化された再構成パラメータは量子化ルールに従って量子化され、かつ入力信号の後の時間部分に関連付けられ、出力信号は多数の合成された出力チャネルを有し、多数の合成された出力チャネルは1以上の入力チャネルの数よりも多く、入力チャネルは平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、平滑化制御情報はエンコーダ側信号解析に依存し、平滑化制御情報は、シンセサイザ側ポストプロセッサが、平滑化制御情報に応答して、後処理された再構成パラメータまたは再構成パラメータから導出される後処理された量を発生するように決定され、平滑化制御情報を有する制御信号を供給するための制御信号供給器と、後処理された再構成パラメータまたは後処理された量の値が、量子化ルールに従って再量子化を用いて得られる値と異なるように、後処理された再構成パラメータまたは後処理された量を決定する、制御信号に応答して、処理される入力信号の時間部分に対して、後処理された再構成パラメータまたは再構成パラメータから導出される後処理された量を決定するためのポストプロセッサと、入力チャネルの時間部分および後処理された再構成パラメータまたは後処理された値を用いて、多数の合成された出力チャネルの時間部分を再構成するためのマルチチャネル再構成器とを備える、マルチチャネルシンセサイザにより達成される。
【0046】
本発明の別の態様は、マルチチャネルシンセサイザ制御信号を発生する方法、入力信号から出力信号を発生する方法、対応するコンピュータプログラム、またはマルチチャネルシンセサイザ制御信号に関する。
【0047】
本発明は、エンコーダ側に向かって再構成パラメータを平滑化することにより、合成されたマルチチャネル出力信号のオーディオ品質が向上するという知見に基づいている。エンコーダ側でさらに処理を行なって平滑化制御情報を決定することにより、このようにオーディオ品質を基本的に向上させることができ、本発明の好適な実施の形態では、平滑化制御情報をデコーダに送信することが可能であり、この伝送には、限定した(小さな)数のビット数しか必要としない。
【0048】
デコーダ側では、平滑化制御情報は、平滑化動作を制御するために用いられる。デコーダ側でパラメータを平滑化する代わりに、例えば調性/過渡検出に基づいて、このようにデコーダ側でエンコーダのガイドによるパラメータを平滑化することができ、または、デコーダ側でのパラメータ平滑化と結合して用いることができる。送信されたダウンミックス信号の特定の時間部分および特定の周波数帯域についても、エンコーダ側で信号アナライザにより決定されるような平滑化制御情報を用いて送信することができる。
【0049】
要約すると、本発明の利点は、マルチチャネルシンセサイザ内で、エンコーダ側で制御された再構成パラメータの適応平滑化が実行されることにより、一方ではオーディオ品質が基本的に向上し、他方ではビット数の増加を少量にできるようになることである。さらに平滑化制御情報を用いて量子化の固有の品質低下が低減されるという事実により、送信されたビット数を増減することなく、本発明の概念を適用することができるが、これは、量子化された値を符号化するために必要なビット数が少なくなるように、さらにもっと荒い量子化を適用することにより、平滑化制御情報のビット数を節減することができるからである。したがって、符号化された量子化された値とともに、平滑化制御情報は、まだ公開されていない米国特許出願で概説されているように、同じレベルまたはより高いレベルの主観的なオーディオ品質を保ちながらも、平滑化制御情報のない、同じかそれ以下の数の量子化された値のビットレートを要求することができる。
【0050】
一般に、マルチチャネルシンセサイザに用いられる量子化された再構成パラメータに対して後処理を行うことにより、一方では荒いサイズの量子化と、他方では量子化レベル変化とに付随する問題を、低減したり、解消したりする。
【0051】
従来技術のシステムでは、シンセサイザにおける再量子化を限定したセットの量子化された値に限って容認できるので、エンコーダにおける小さなパラメータ変化がデコーダでは大きなパラメータ変化となってしまうこともあるが、本発明のデバイスは、入力信号の処理される時間部分に対する後処理された再構成パラメータが、エンコーダを採用した量子化ラスタによって決定されるのではなく、量子化ルールによる量子化で得られる値とは異なる再構成パラメータの値となるように、再構成パラメータの後処理を実行する。
【0052】
直線量子化器の場合、従来技術の方法では、量子化器のステップサイズの整数倍の逆量子化された値しか求めることができないが、本発明の後処理では、逆量子化された値を量子化器のステップサイズの非整数倍とすることが可能である。2つの隣接する量子化器のレベル間の後処理された再構成パラメータが、後処理によって得られ、後処理された再構成パラメータを利用する本発明のマルチチャネル再構成器によって用いられるので、本発明の後処理は、量子化器のステップサイズの制限を低減することを意味している。
【0053】
この後処理は、マルチチャネルシンセサイザにおいて、再量子化の前または後で実行することができる。量子化されたパラメータ、すなわち、量子化器インデックスを用いて後処理が実行される場合、逆量子化器が必要になり、これは、量子化器ステップの倍数に逆に量子化できるばかりでなく、量子化器のステップサイズの倍数間の逆量子化された値に逆に量子化することができる。
【0054】
逆量子化された再構成パラメータを用いて後処理が実行される場合、直接逆量子化器を用いることができ、逆量子化された値を用いて補間/フィルタ/平滑化が実行される。
【0055】
対数量子化ルール等の非直線量子化ルールの場合、対数量子化は人間の耳によるサウンドの認知と類似しているので、再量子化の前に量子化された再構成パラメータの後処理は好ましく、対数量子化は、低レベルのサウンドに対してより正確で、高レベルのサウンドに対してはあまり正確でない、すなわち、一種の対数圧縮を行う。
【0056】
ここで、量子化されたパラメータとしてビットストリームに含まれる再構成パラメータ自体を変更することにより、本発明の利点を得るものではないことに留意されたい。再構成パラメータから後処理された量を導出することにより、利点を得ることができる。再構成パラメータが差パラメータで、差パラメータから導出される絶対パラメータに対して平滑化等の操作が実行される場合、これは特に有益である。
【0057】
本発明の好適な実施の形態では、再構成パラメータの後処理は、信号アナライザにより制御され、これは、信号特性が存在する、求める再構成パラメータに関連付けられる信号部分を解析する。好適な実施の形態では、デコーダが制御する後処理は、信号の音部分に対して(周波数および/または時間に対して)起動され、または、音部分が、ゆっくりと移動するポイントソースに対してのみポイントソースにより発生される場合は起動されるが、音でない部分、すなわち、入力信号の過渡部分、または音素材を有する急速に移動するポイントソースに対して後処理が起動されない。これにより、信号の音部分ではなく、オーディオ信号の過渡部分に対して、フルダイナミックの再構成パラメータ変化が確実に送信される。
【0058】
好ましくは、ポストプロセッサは、音でない、すなわち、過渡信号部分に対して特に重要な空間検出キューに影響を与えることなく、再構成パラメータの平滑化の形式で変更を実行し、これは、心理音響的な視点から理解できるものである。
【0059】
本発明により、再構成パラメータをエンコーダ側で量子化すると荒いサイズの量子化が可能となるので、データ速度が遅くなり、ある逆量子化されたレベルから別の逆量子化されたレベルへ再構成パラメータが変化するという理由で、システム設計者がデコーダにおいて大きな変化を気にかける必要がなくなり、2つの再量子化レベル間の値でマッピングして、本発明の処理により、変化が低減される。
【0060】
本発明の別の利点は、ある再量子化レベルから次の許容再量子化レベルへの変化による可聴アーティファクトが本発明の後処理により低減されるので、システムの品質が向上することであり、2つの許容再量子化レベル間の値でマッピングする。
【0061】
もちろん、量子化された再構成パラメータに対して本発明の後処理は、エンコーダにおけるパラメータ化と後の再構成パラメータの量子化とにより生じる情報損失に加えて、さらに情報が損失することになる。しかしながら、本発明のポストプロセッサが、好ましくは、実際のまたは直前の量子化された再構成パラメータを用いて、入力信号の実際の時間部分、すなわち、ベースチャネルの再構成に用いられる後処理された再構成パラメータを決定するので、このことは問題ではない。エンコーダ誘導誤用をある程度補償することができるので、主観的な品質が向上することになることがわかる。エンコーダ側誘導誤用が再構成パラメータの後処理によって補償されない場合であっても、再構成されたマルチチャネルオーディオ信号における空間認知の大きな変化は、好ましくは音信号部分に限って低減されるので、さらに情報を損失することになるかどうかという事実にかかわらず、いずれにせよ、主観的な聴き取り品質が向上することになる。
【0062】
本発明の好ましい実施の形態が添付図面を参照して後に説明されるが、これらの図としては:
【図面の簡単な説明】
【0063】
【図1a】図1aは、本発明の第1の実施の形態によるエンコーダ側デバイスおよび対応するデコーダ側デバイスの概略図である。
【図1b】図1bは、本発明の別の好適な実施の形態によるエンコーダ側デバイスおよび対応するデコーダ側デバイスの概略図である。
【図1c】図1cは、好適な制御信号ジェネレータの概略ブロック図である。
【図2a】図2aは、サウンドソースの空間位置を決定するための概略表現である。
【図2b】図2bは、情報を平滑化するための例として平滑化時定数を算出するための好適な実施の形態を示すフローチャートである。
【図3a】図3aは、量子化されたチャネル間強度差および対応する平滑化パラメータを算出するための別の実施の形態である。
【図3b】図3bは、1フレーム毎に測定されたIIDパラメータと、1フレーム毎に量子化されたIIDパラメータと、様々な時定数に対して1フレーム毎に処理された量子化されたIIDパラメータとの間の差を示す例示的な図である。
【図3c】図3cは、図3aに適用される概念の好適な実施の形態を示すフローチャートである。
【図4a】図4aは、デコーダ側に向けたシステムを示す概略表現である。
【図4b】図4bは、図1bの本発明のマルチチャネルシンセサイザに用いられるポストプロセッサ/信号アナライザの結合の概略図である。
【図4c】図4cは、入力信号の時間部分と、過去の信号部分、処理される実際の信号部分および未来の信号部分に対して関連付けられた量子化された再構成パラメータとの概略表現である。
【図5】図5は、図1によるエンコーダのガイドによるパラメータ平滑化デバイスの実施の形態である。
【図6a】図6aは、図1に示すエンコーダのガイドによるパラメータ平滑化デバイスの別の実施の形態である。
【図6b】図6bは、エンコーダのガイドによるパラメータ平滑化デバイスの別の好適な実施の形態である。
【図7a】図7aは、図1に示すエンコーダのガイドによるパラメータ平滑化デバイスの別の実施の形態である。
【図7b】図7bは、再構成パラメータから導出される量を平滑化可能なことを示す本発明による後処理されるパラメータを示す概略図である。
【図8】図8は、直接マッピングまたは拡張マッピングを実行する量子化器/逆量子化器の概略説明である。
【図9a】図9aは、後の入力信号部分に関連付けられる量子化された再構成パラメータの例示的な時間経過を示す。
【図9b】図9bは、平滑化(ローパス)機能を実施するポストプロセッサにより後処理された、後処理された再構成パラメータの時間経過を示す。
【図10】図10は、従来技術のジョイントステレオエンコーダを示す。
【図11】図11は、従来技術のBCCエンコーダ/デコーダチェーンを示すブロック図である。
【図12】図12は、従来技術により実施された図11のBCC合成ブロックを示すブロック図である。
【図13】図13は、ICLD、ICTDおよびICCパラメータを決定するための周知の手法を示す図である。
【図14】図14は、伝送システムのトランスミッタおよびレシーバを示す。
【図15】図15は、本発明のエンコーダを有するオーディオレコーダおよびデコーダを有するオーディオプレーヤを示す。
【発明を実施するための形態】
【0064】
図1aおよび図1bは、本発明のマルチチャネルエンコーダ/シンセサイザシナリオのブロック図を示す。図4cを参照して後述するように、デコーダ側に送られてくる信号は、少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、量子化された再構成パラメータは、量子化ルールに従って量子化されている。時間部分のシーケンスが量子化された再構成パラメータのシーケンスと関連付けられるように、各再構成パラメータは入力チャネルの時間部分と関連付けられている。また、図1aおよび図1bに示すマルチチャネルシンセサイザにより発生された出力信号は、いずれにせよ入力信号における入力チャネルの数よりも多い、多数の合成された出力チャネルを有する。入力チャネルの数が1である場合、すなわち、1つの入力チャネルが存在する場合、出力チャネルの数は2以上である。しかしながら、入力チャネルの数が2または3の場合、出力チャネルの数は、それぞれ、少なくとも3または少なくとも4である。
【0065】
BCCの場合では、入力チャネルの数は、1または一般にせいぜい2であるが、出力チャネルの数は、5(左サラウンド、左、センター、右、右サラウンド)若しくは6(5サラウンドチャネルプラス1サブウーハーチャネル)、または、7.1若しくは9.1マルチチャネルフォーマットではそれ以上となる。一般には、出力ソースの数は、入力ソースの数よりも多い。
【0066】
図1aは、左側に、マルチチャネルシンセサイザ制御信号を発生するための装置1を示している。「平滑化パラメータ抽出」と示されているボックス1は、信号アナライザ、平滑化情報カリキュレータおよびデータジェネレータを備える。図1cに示すように、信号アナライザ1aは、入力として、元のマルチチャネル信号を受信する。信号アナライザは、解析結果を得るためにマルチチャネル入力信号を解析する。この解析結果は、信号アナライザに応答して平滑化制御情報、すなわち、信号解析結果を決定するために、平滑化情報カリキュレータに転送される。特に、平滑化制御情報に応答して、デコーダ側パラメータポストプロセッサが処理される入力信号の時間部分に対してパラメータから導出される平滑化されたパラメータまたは平滑化された量を発生するように、平滑化情報カリキュレータ1bは、平滑化情報を決定するので、平滑化された再構成パラメータまたは平滑化された量の値は、量子化ルールに基づいて再量子化を用いて得られる値と異なる。
【0067】
さらに、図1aの平滑化パラメータ抽出デバイス1は、デコーダ制御信号として平滑化制御情報を表す制御信号を出力するためのデータジェネレータを含む。
【0068】
特に、平滑化された値に基づく再構成されたマルチチャネル出力信号が、平滑化されていない値に基づく再構成されたマルチチャネル出力信号と比較して、向上した品質となるように、平滑化制御情報を表す制御信号を、平滑化マスク、平滑化時定数、またはデコーダ側平滑化動作を制御する任意の他の値とすることができる。
【0069】
平滑化マスクは、例えば、平滑化に用いられる各周波数の「オン/オフ」状態を示すフラグからなる通知情報を含む。したがって、平滑化マスクは、各帯域に対して1ビットの1つのフレームに関連付けられるベクトルとして理解でき、このビットは、エンコーダのガイドによる平滑化がこの帯域に対してアクティブになっているかどうかを制御する。
【0070】
図1aに示す空間オーディオエンコーダは、好ましくは、ダウンミキサ3および後段のオーディオエンコーダ4を含む。さらに、空間オーディオエンコーダは、空間パラメータ抽出デバイス2を含み、これは、チャネル間レベル差(ICLD)、チャネル間時間差(ICTDs)、チャネル間コヒーレンス値(ICC)、チャネル間位相差(IPD)、チャネル間強度差(IID)等の量子化された空間キューを出力する。この背景では、チャネル間レベル差は、チャネル間強度差と基本的に同じであることが概説されている。
【0071】
ダウンミキサ3は、図11のアイテム114に記載のように構成される。さらに、空間パラメータ抽出デバイス2は、図11のアイテム116に記載のように実施されてもよい。いずれにせよ、ダウンミキサ3と空間パラメータ抽出器2との別の実施の形態が、本発明との関連で用いることもできる。
【0072】
さらに、オーディオエンコーダ4は、必ずしも必要ではない。しかしながら、このデバイスは、エレメント3の出力でのダウンミックス信号のデータ速度が、伝送/記憶手段を介したダウンミックス信号の伝送に対して速すぎる場合に用いられる。
【0073】
空間オーディオデコーダは、エンコーダのガイドによるパラメータ平滑化デバイス9aを含み、これは、マルチチャネルアップミキサ12に接続されている。マルチチャネルアップミキサ12への入力信号は、通常、送信/格納されたダウンミックス信号を復号化するためのオーディオデコーダ8の出力信号である。
【0074】
好ましくは、本発明の入力信号から出力信号を発生するためのマルチチャネルシンセサイザは、入力信号が少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、量子化された再構成パラメータが量子化ルールに従って量子化され、かつ入力信号の後の時間部分に関連付けられ、出力信号が多数の合成された出力チャネルを有し、合成された出力チャネルの数が1以上の入力チャネルの数よりも多く、平滑化制御情報を有する制御信号を供給するための制御信号供給器を備える。この制御信号供給器は、制御情報がパラメータ情報と多重化される場合、データストリームデマルチプレクサとすることができる。しかしながら、パラメータチャネル14aまたはダウンミックス信号チャネルとは異なり、オーディオデコーダ8の入力側に接続されている別々のチャネルを介して、平滑化制御情報が図1aのデバイス1からデバイス9aに送信される場合、次に、制御信号供給器は、単に、図1aの平滑化パラメータ抽出デバイス1により発生される制御信号を受信するデバイス9aの入力となる。
【0075】
さらに、本発明のマルチチャネルシンセサイザは、ポストプロセッサ9aを備え、これは、「エンコーダのガイドによるパラメータ平滑化デバイス」とも呼ぶ。ポストプロセサは、後処理された再構成パラメータまたは処理される入力信号の時間部分に対する再構成パラメータから導出される後処理された量を決定し、ポストプロセッサは、後処理された再構成パラメータまたは後処理された量の値が量子化ルールに従って再量子化を用いて得られる値と異なるように、後処理された再構成パラメータまたは後処理された量を決定する。マルチチャネルアップミキサまたはマルチチャネル再構成器12が、入力チャネルの時間部分と後処理された再構成パラメータまたは後処理された値とを用いて、多数の合成された出力チャネルの時間部分を再構成するための再構成動作を実行することができるように、後処理された再構成パラメータまたは後処理された量は、デバイス9aからマルチチャネルアップミキサ12へ転送される。
【0076】
次に、図1bに示す本発明の好適な実施の形態を参照すると、まだ公開されていない米国特許出願第10/883,538号に記載の、エンコーダのガイドによるパラメータ平滑化とデコーダのガイドによるパラメータ平滑化とが結合されている。この実施の形態では、図1cに詳細が示されている平滑化パラメータ抽出デバイス1が、エンコーダ/デコーダ制御フラグ5aをさらに発生し、それは結合/スイッチ結果ブロック9bに送信される。
【0077】
図1bのマルチチャネルシンセサイザまたは空間オーディオデコーダは、再構成パラメータポストプロセッサ10を備え、これは、デコーダのガイドによるパラメータ平滑化デバイスおよびマルチチャネル再構成器12である。デコーダのガイドによるパラメータ平滑化デバイス10は、入力信号の後の時間部分に対して、量子化され好ましくは符号化された再構成パラメータを受信する。再構成パラメータポストプロセッサ10は、処理される入力信号の時間部分に対して、後処理された再構成パラメータをその出力で決定する。再構成パラメータポストプロセッサは、後処理ルールに従って動作し、これは、特定の好適な実施の形態では、ローパスフィルタリングルール、平滑化ルール、または別の同様の動作である。特に、ポストプロセッサは、後処理された再構成パラメータの値が、量子化ルールに従って、任意の量子化された再構成パラメータの再量子化により得られる値と異なるように、後処理された再構成パラメータを決定する。
【0078】
マルチチャネル再構成器12は、処理された入力チャネルの時間部分および後処理された再構成パラメータを用いて、多数の合成出力チャネルのそれぞれの時間部分を再構成するために用いられる。
【0079】
本発明の好適な実施の形態では、量子化された再構成パラメータは、チャネル間レベル差、チャネル間時間差またはチャネル間コヒーレンスパラメータまたはチャネル間位相差またはチャネル間強度差等の、量子化されたBCCパラメータである。当然、インテンシティステレオに対するステレオパラメータまたはパラメトリックステレオに対するパラメータ等の他の全ての再構成パラメータについても、本発明に従って処理することができる。
【0080】
ライン5aを介して送信されるエンコーダ/デコーダ制御フラグは、スイッチまたは結合デバイス9bを制御し、デコーダのガイドによる平滑化値またはエンコーダのガイドによる平滑化値のいずれかをマルチチャネルアップミキサ12に転送する。
【0081】
以下には、ビットストリームの例を示す図4cを参照する。ビットストリームは、いくつかのフレーム20a、20b、20c、・・・を含む。各フレームは、図4cの上の4角のフレームで示される入力信号の時間部分を含む。また、各フレームは、各フレーム20a、20b、20cの下の4角で図4cに示される、時間部分に関連付けられる量子化された再構成パラメータのセットを含む。例示として、フレーム20bは、処理される入力信号部分と考えられ、このフレームは、すなわち、処理される入力信号部分の「過去」を形成する、直前の入力信号部分を有する。また、処理される入力信号部分の「未来」を形成する、次の入力信号部分が存在する(処理される入力部分は、「実際の」入力信号部分とも呼ばれる)が、「過去」における入力信号部分は先の入力信号部分と呼ばれ、未来における信号部分は後の入力信号部分と呼ばれる。
【0082】
本発明の方法は、デコーダにおいて実行される平滑化動作をより明示的なエンコーダ制御を可能にすることにより、好ましくはノイズ様特性を有するゆっくりと移動するポイントソース、または急速に移動する正弦曲線等の音素材を有する急速に移動するポイントソースが存在する問題となる状況を正常に処理する。
【0083】
上記で概説したように、エンコーダのガイドによるパラメータ平滑化デバイス9aまたはデコーダのガイドによるパラメータ平滑化デバイス10内で後処理動作を実行する好適なやり方は、周波数帯域指向のやり方で実行される平滑化動作である。
【0084】
さらに、エンコーダのガイドによるパラメータ平滑化デバイス9aにより実行されるデコーダにおける後処理をアクティブに制御するために、エンコーダは、好ましくはサイド情報の一部として通知情報をシンセサイザ/デコーダに送信する。しかしながら、マルチチャネルシンセサイザ制御信号は、また、パラメトリック情報またはダウンミックス信号情報の一部のサイド情報としてではなく、デコーダに別々に送信することもできる。
【0085】
好適な実施の形態では、この通知情報は、平滑化に用いられる各周波数帯域の「オン/オフ」状態を示すフラグからなる。この情報の効率的な伝送のために、好適な実施の形態は、非常に少ないビット数を有する特定の頻繁に用いられる構成を通知するために「ショートカット」セットを用いることもできる。
【0086】
このために、図1cの平滑化情報カリキュレータ1bは、いずれの周波数帯域でも平滑化を実行しないと決定する。これは、データジェネレータ1cにより発生される「オールオフ」ショートカット信号を介して通知される。特に、「オールオフ」ショートカット信号を表す制御信号は、特定のビットパターンまたは特定のフラグとすることができる。
【0087】
さらに、平滑化情報カリキュレータ1bは、全周波数帯域において、エンコーダのガイドによる平滑化動作が実行されると決定することもできる。このために、データジェネレータ1cは、平滑化が全周波数帯域に適用されることを通知する「オールオン」ショートカット信号を発生する。この信号は、特定のビットパターンまたはフラグとすることができる。
【0088】
さらに、信号アナライザ1aが、1つの時間部分から次の時間部分まで、すなわち、現在の時間部分から未来の時間部分まで信号があまり大きく変化しないと決定した場合、平滑化情報カリキュレータ1bは、エンコーダのガイドによるパラメータ平滑化動作を変更して実行する必要はないと決定することもできる。次に、データジェネレータ1cは、「1つ前のマスクを繰り返す」ショートカット信号を発生し、これは、前のフレームの処理に用いられたように、同じ帯域に関するオン/オフ状態が平滑化のために用いられることを、デコーダ/シンセサイザに通知するものである。
【0089】
好適な実施の形態では、信号アナライザ1aは、デコーダ平滑化のインパクトがポイントソースの空間移動速度に適用されるように、移動速度を推定する。この処理の結果として、適した平滑化時定数が平滑化情報カリキュレータ1bにより決定され、データジェネレータ1cを介して専用サイド情報によりデコーダに通知される。好適な実施の形態では、データジェネレータ1cは、インデックス値を発生してデコーダに送信することにより、デコーダは、異なる定義済みの平滑化時定数(125ミリ秒、250ミリ秒、500ミリ秒等)から選択することが可能になる。別の好適な実施の形態では、1つの時定数だけが全周波数帯域に送信される。これにより、平滑化時定数に対する通知情報の量を低減して、頻繁に発生する、スペクトルにおける1つの主要な移動するポイントソースに対して十分な量になる。適した平滑化時定数を決定する一例の処理は、図2aおよび図2bに介して説明されている。
【0090】
デコーダ平滑化処理の明示的な制御は、デコーダのガイドによる平滑化方法と比較して、いくつかのさらなるサイド情報の伝送を必要とする。この制御は、固有の特性を有する全入力信号のあるわずかな部分に対して必要なだけであるので、好ましくは2つのアプローチが1つの方法に結合され、これは、「ハイブリッド法」とも呼ばれる。これは、図1bのデバイス16により実行されるデコーダにおける調性/過渡推定に基づいて、または明示的なエンコーダ制御により、平滑化が実行されるかどうかを決定する1つのビット等の通知情報を送信することにより行うことができる。後者の場合、図1bのサイド情報5aはデコーダに送信される。
【0091】
次に、ゆっくりと移動するポイントソースを特定して、適切な時定数を推定して、デコーダに通知する好適な実施の形態について説明する。好ましくは、全推定は、エンコーダにおいて実行されるので、信号パラメータの量子化されていないバージョンにアクセすることが可能であり、もちろん、これは、図1aおよび図1bのデバイス2がデータ圧縮のために量子化された空間キューを送信するという事実により、デコーダにおいて利用できない。
【0092】
次に、ゆっくりと移動するポイントソースを特定する好適な実施の形態を示す図2aおよび図2bを参照する。特定の周波数帯域および時間フレーム内のサウンドイベントの空間位置は、図2aに示すように特定される。特に、各オーディオ出力チャネルに対して、単位長ベクトルexは、通常の聴取構成において対応するスピーカの相対位置を示す。図2aに示す例では、通常の5チャネル聴取構成が、スピーカL、C、R、Ls、およびRsと対応する単位長ベクトルeL、eC、eR、eLs、およびeRsとにより用いられる。
【0093】
特定の周波数帯域および時間フレーム内のサウンドイベントの空間位置は、図2aの式で説明するように、これらのベクトルのエネルギー重み付け平均として算出される。図2aからわかるように、各単位長ベクトルは、特定のx座標および特定のy座標を有する。単位長ベクトルの各座標を対応するエネルギーと乗算して、x座標の項およびy座標の項を加算することにより、特定の位置x、yでの特定の周波数帯域および特定の時間フレームに対する空間位置が得られる。
【0094】
図2bのステップ40で説明するように、この算出は2つの後の時点に対して実行される。
【0095】
次に、ステップ41では、空間位置p1、p2を有するソースがゆっくりと移動しているかどうかが決定される。後の空間位置間の距離が所定の閾値を下回る場合、ソースがゆっくりと移動するソースであると決定される。しかしながら、変位が特定の最大変位閾値を超えている場合、ソースがゆっくりと移動していないと決定され、図2bの処理が停止される。
【0096】
図2aの値L、C、R、Ls、およびRsは、それぞれ対応するチャネルのエネルギーを表している。あるいは、デシベルで測定されるエネルギーを、空間位置pの算出に用いることもできる。
【0097】
ステップ42では、ソースがポイントまたはポイントに近いソースであるかが決定される。好ましくは、該当するICCパラメータが0.85等の特定の最小閾値を超える場合、ポイントソースが検出される。ICCパラメータが所定の閾値を下回ると決定される場合、ソースはポイントソースでないので、図2の処理は停止される。しかしながら、ソースがポイントソースまたはポイントに近いソースと決定される場合、図2bの処理は、ステップ43に進む。このステップでは、好ましくは、パラメトリックマルチチャネル方法のチャネル間レベル差パラメータは特定の測定間隔内で決定され、結果は多数の測定値となる。測定間隔は、多数の符号化フレーム、またはフレームのシーケンスで定義される時間分解能よりも高い頻度で発生する測定セットからなる。
【0098】
ステップ44では、後の時点に対するICLD曲線の傾斜が算出される。次に、ステップ45では、平滑化時定数が選択され、これは、曲線の傾斜に反比例する。
【0099】
次に、ステップ45では、平滑化情報の一例としての平滑化時定数が出力され、デコーダ側平滑化デバイスにおいて用いられ、これは、図4aおよび図4bからわかるように、平滑化フィルタとすることもできる。したがって、ステップ45で決定される平滑化時定数は、ブロック9aにおいて平滑化に用いられるデジタルフィルタのフィルタパラメータを設定するために用いられる。
【0100】
図1bでは、エンコーダのガイドによるパラメータ平滑化9aおよびデコーダのガイドによるパラメータ平滑化10を、図4b、図5、または図6a等に示す1つのデバイスを用いて実施することができることを強調する。これは、本発明の好適な実施の形態では、一方では平滑化制御情報と、他方では制御パラメータ抽出デバイス16によるデコーダが算出する情報出力とがともに、平滑化フィルタおよび平滑化フィルタの起動に作用するからである。
【0101】
1つの共通の平滑化時定数だけが全周波数帯域に通知される場合、例えば、平均またはエネルギー重み付け平均により、各帯域に対する個別の結果が全結果に結合される。この場合、デコーダは、全スペクトルに対する1つの平滑化時定数だけを送信する必要があるように、同じ(エネルギー重み付け)平均平滑化時定数を各帯域に適用する。帯域が結合された時定数から大幅なずれを有することがわかった場合、平均化は、対応する「オン/オフ」フラグを用いて、これらの帯域に対して禁止することもできる。
【0102】
次に、図3a、図3b、および図3cを参照すると、エンコーダのガイドによる平滑化制御に対する解析毎に合成するアプローチに基づく別の実施の形態が示されている。基本的な概念は、対応する量子化されていない(すなわち、測定された)(IID/ICLD)パラメータに対する量子化およびパラメータ平滑化から得られる特定の再構成パラメータ(好ましくはIID/ICLDパラメータ)を比較することからなる。この処理は、図3aに示す好適な実施の形態に概略でまとめられる。一方ではL、他方ではRといった、2つの異なるマルチチャネル入力チャネルは、それぞれ解析フィルタバンクに入力される。フィルタバンク出力は、適した時間/周波数表現を得るために、セグメント化されウインドウ化される。
【0103】
したがって、図3aは、2つの別々の解析フィルタバンク70a、70bを有する解析フィルタバンクデバイスを含む。当然、1つの解析フィルタバンクおよび記憶は、2つのチャネルを解析するために、2回用いることができる。次に、セグメント化およびウインドウ化デバイス72において、時間セグメント化が実行される。次に、フレーム毎のICLD/IID推定が、デバイス73において実行される。次に、各フレームに対するパラメータが、量子化器74に送信される。したがって、デバイス74の出力で量子化されたパラメータが得られる。次に、量子化されたパラメータが、デバイス75において異なる時定数セットにより処理される。好ましくは、基本的に、デコーダが利用できるすべての時定数は、デバイス75により用いられる。最後に、比較・選択ユニット76が、量子化および平滑化されたIIDパラメータを元の(未処理の)IID推定値と比較する。ユニット76は、処理されたIID値と元の測定されたIID値との間で最も良く当てはまる、量子化されたIIDパラメータおよび平滑化時定数を出力する。
【0104】
次に、図3aのデバイスに対応する図3cのフローチャートを参照する。ステップ46で説明するように、いくつかのフレームに対してIIDパラメータが発生される。次に、ステップ47では、これらのIIDパラメータが量子化される。ステップ48では、量子化されたIIDパラメータが、異なる時定数を用いて平滑化される。次に、ステップ49では、平滑化シーケンスおよび元の発生されたシーケンス間の誤差が、ステップ49で用いられる各時定数に対して算出される。最後に、ステップ50では、量子化されたシーケンスが平滑化時定数とともに選択され、これにより、最も小さい誤差になる。次に、ステップ50は、最も良い時定数とともに量子化された値のシーケンスを出力する。
【0105】
高性能のデバイスに好適なさらに詳細な実施の形態では、量子化器から考えられ得るIID値のレパートリーから選択される量子化されたIID/ICLDパラメータセットに対して、この処理を実行することもできる。この場合、比較および選択手順は、送信された(量子化された)IIDパラメータおよび平滑化時定数の様々な結合に対する、処理されたIIDおよび未処理のIIDパラメータの比較を備える。したがって、ステップ47の大括弧で説明するように、第1の実施の形態とは異なり、第2の実施の形態は、IIDパラメータを量子化するために、異なる量子化ルールまたは同じ量子化ルールであるが異なる量子化ステップサイズを用いる。次に、ステップ51では、誤差が各量子化方法および各時定数に対して算出される。したがって、さらに詳細な実施の形態では、図3cのステップ50と比較する、ステップ52で決定される候補の数は、第1の実施の形態と比較して、異なる量子化方法の数と等しいファクタだけ大きい。
【0106】
次に、ステップ52では、量子化された値のシーケンスと、一致する時定数とを検索するために、(1)誤差および(2)ビットレートに対して2次元最適化が実行される。最後に、ステップ53では、量子化された値のシーケンスが、ハフマン符号または算術符号を用いてエントロピー符号化される。ステップ53は、最後に、デコーダまたはマルチチャネルシンセサイザに送信されるビットシーケンスを生じる。
【0107】
図3bは、平滑化による後処理の効果を示す。アイテム77は、フレームnに対する量子化されたIIDパラメータを表す。アイテム78は、フレームインデックスn+1を有するフレームに対する量子化されたIIDパラメータを表す。量子化されたIIDパラメータ78は、参照番号79で示す1フレーム毎に測定されたIIDパラメータから量子化により導出される。異なる時定数を用いて、量子化されたパラメータ77および78のこのパラメータシーケンスを平滑化することにより、80aおよび80bで、より小さい後処理されたパラメータ値となる。後処理された(平滑化された)パラメータ80aを生じるパラメータシーケンス77、78を平滑化するための時定数は、後処理されたパラメータ80bを生じる平滑化時定数より小さい。当該技術で周知のように、平滑化時定数は、対応するローパスフィルタのカットオフ周波数に対して逆になっている。
【0108】
図3cのステップ51から53で説明される実施の形態が好ましいのは、誤差およびビットレートに対して2次元最適化を実行することができ、異なる量子化ルールにより、量子化された値を表すビット数が異なるようになるからである。さらに、この実施の形態は、実際の後処理された再構成パラメータの値が、処理方法とともに、量子化された再構成パラメータに依存するという知見に基づいている。
【0109】
例えば、フレームからフレームへの(量子化された)IIDの差が大きいと、大きい平滑化時定数との結合では、処理されたIIDの正味の効果が最も小さくなってしまう。より小さい時定数と比較して、IIDパラメータの差が最も小さいと、同じ正味の効果を構築することになる。このように自由度がさらに大きくなることは、同時に、エンコーダが、再構成されたIIDとともに得られるビットレートの両方を最適化することができる(特定のIID値の伝送が、特定の別のIIDパラメータの伝送よりも、よりコストがかかるという事実による)。
【0110】
上記で概略したように、平滑化に対するIID軌道の効果は、図3bに概説され、平滑化時定数の様々な値に対するIID軌道を示し、星印はフレーム毎に測定されたIIDを表し、3角形はIID量子化器の考えられ得る値を表している。IID量子化器の精度が制限されていると仮定すると、フレームn+1に星印で示すIID値を利用することができない。最も近いIID値は、3角形で示されている。図のラインは、様々な平滑化定数から得られるフレーム間のIID軌道を示している。選択アルゴリズムは、フレームn+1に対する測定されたIIDパラメータに最も近いIID軌道となる平滑化時定数を選択する。
【0111】
上記の例は、すべて、IIDパラメータに関するものである。原則として、記載の方法は、すべて、IPD、ITD、またはICCパラメータに適用することもできる。
【0112】
したがって、本発明は、エンコーダ側処理およびデコーダ側処理に関し、平滑化制御信号を介して通知される平滑化イネイブル/ディセイブルマスクおよび時定数を用いてシステムを形成している。さらに、周波数帯域毎に帯域に関する通知が実行され、さらに、ショートカットは、全帯域オン、全帯域オフまたは前の状態を繰り返すショートカットに好適である。さらに、全帯域に対して1つの共通の平滑化時定数を用いることは好適である。なお、さらにまたはあるいは、ハイブリッド法を実行するために、明示的なエンコーダ制御に対して自動的に調性ベースの平滑化をするための信号を送信することができる。
【0113】
次に、エンコーダのガイドによるパラメータ平滑化について動作するデコーダ側の実施例を参照する。
【0114】
図4aは、エンコーダ側21とデコーダ側22とを示す。エンコーダでは、N個の元の入力チャネルがダウンミキサステージ23に入力される。ダウンミキサステージは、チャネルの数を例えば1つのモノラルチャネルに、あるいは可能ならば2つのステレオチャネルに低減する。次に、ダウンミキサ23のダウンミックスした信号表示は、ソースエンコーダ24に入力され、ソースエンコーダは、例えば出力ビットストリームを生じるMP3エンコーダまたはAACエンコーダとして実施される。エンコーダ側21は、さらに、パラメータ抽出器25を備え、これは、本発明に従って、BCC解析(図11のブロック116)を実行し、量子化された好ましくはハフマン符号化されたチャネル間レベル差(ICLD)を出力する。ソースエンコーダ24の出力でのビットストリームとともにパラメータ抽出器25により出力される量子化された再構成パラメータは、デコーダ22に送信されたり、デコーダに後から送信するために保存されたりすることができる。
【0115】
デコーダ22は、ソースデコーダ26を含み、これは、受信されたビットストリーム(ソースエンコーダ24から送信されたもの)から信号を再構成する。このために、ソースデコーダ26は、その出力で、入力信号の後の時間部分をアップミキサ12に供給し、これは、図1のマルチチャネル再構成器12と同じ機能を実行する。好ましくは、この機能は、図11のブロック122により実施されるようにBCC合成である。
【0116】
図11と異なって、本発明のマルチチャネルシンセサイザは、さらに、ポストプロセッサ10(図4a)を含み、これは、「チャネル間レベル差(ICLD)スムーザ」と呼ばれ、入力信号アナライザ16により制御され、好ましくは入力信号の調性解析を実行する。
【0117】
図4aからわかるように、チャネル間レベル差(ICLDs)等の再構成パラメータがあり、ICLDスムーザに入力されるが、パラメータ抽出器25とアップミキサ12とをつなぐ接続がさらにある。このバイパス接続を介して、後処理する必要のない他の再構成パラメータを、パラメータ抽出器25からアップミキサ12に供給することができる。
【0118】
図4bは、信号アナライザ16およびICLDスムーザ10により形成される信号適応再構成パラメータ処理の好適な実施の形態を示す。
【0119】
信号アナライザ16は、調性決定ユニット16aと後段の閾値処理デバイス16bとから形成される。さらに、図4aの再構成パラメータポストプロセッサ10は、平滑化フィルタ10aと、ポストプロセッサスイッチ10bとを含む。ポストプロセッサスイッチ10bは、閾値処理デバイス16bにより制御され、調性特性等の入力信号の特定の信号特性が特定の指定の閾値に対して所定の関係にあることを閾値処理デバイス16bが決定した場合、スイッチが作動される。この場合、入力信号の信号部分の調整が、特に、特定の入力信号の時間部分の特定の周波数帯域が調性閾値を超える調性を有する場合に、(図4bに示すように)スイッチが上の位置に作動されるという状況である。この場合、逆量子化されたチャネル間差ではなく、後処理されたものがデコーダ/マルチチャネル再構成器/アップミキサ12に供給されるように、スイッチ10bは、平滑化フィルタ10aの出力をマルチチャネル再構成器12の入力に接続するために作動される。
【0120】
しかしながら、デコーダが制御を行う実施例では、調性決定手段が、実際の入力信号の時間部分の特定の周波数帯域、すなわち、処理される入力信号部分の特定の周波数帯域が指定の閾値よりも低い調性を有する、すなわち、過渡であると決定する場合、スイッチは平滑化フィルタ10aをバイパスするように作動される。
【0121】
後者の場合、平滑化フィルタ10aによる信号適応後処理は、過渡信号に対する再構成パラメータ変化が変更のない後処理ステージを通過して、過渡信号に対して相当高い確率で現実の状況に対応する、空間イメージに関する再構成された出力信号を迅速に変化することを確実にする。
【0122】
ここで、一方では後処理を起動し、他方では完全に後処理を起動しない図4bの実施の形態、すなわち、後処理を行うか行わないかという二者択一は、その単純で効率的な構造のために、単に好適な実施の形態にすぎないことに留意されたい。しかしながら、特に調性に対しては、この信号特性は、質的パラメータばかりでなく、通常0と1との間にすることができる量的パラメータでもあることに留意されたい。量的に決定されたパラメータに従って、音信号が大きい場合に大きな平滑化が起動され、音信号がそうでない場合により低い平滑化度合いを有する平滑化が始められるように、平滑化フィルタの平滑化度合い、または、例えば、ローパスフィルタのカットオフ周波数を設定することができる。
【0123】
もちろん、過渡信号が大きい場合、再構成パラメータの後処理が、マルチチャネル信号の空間イメージの変化をさらに強調するように、過渡部分を検出したり、定義済みの量子化された値間の値、または量子化インデックス間の値にパラメータの変化を強調したりすることもできる。この場合、後の時間部分に対する後の再構成パラメータにより指示されるように1の量子化ステップサイズを、例えば1.5、1.4、1.3等に高めて、再構成されたマルチチャネル信号の空間イメージをさらに劇的に変化させることができる。
【0124】
ここで、音信号特性、過渡信号特性または他の信号特性は、それに基づいて信号解析が再構成パラメータポストプロセッサを制御するために実行され得る信号特性の例に過ぎないことに留意されたい。この制御に応答して、再構成パラメータポストプロセッサは、所定の量子化ルールにより決定される、一方では量子化インデックスの任意の値であり、他方では再量子化値である値を有する後処理された再構成パラメータを決定する。
【0125】
ここで、再構成パラメータの後処理は、信号特性に依存すること、すなわち、信号適応パラメータ後処理はオプションであることに留意されたい。また、信号に依存しない後処理は、多くの信号に対して利点がある。例えば、ユーザが(強調機能の場合に)強められた変化を行ったり、(平滑化機能の場合に)弱められた変化を行ったりするように、特定の後処理機能をユーザが選択することもできる。あるいは、任意のユーザ選択および信号特性に依存しない後処理は、誤り耐性に関してある利点がある。特に、量子化器のステップサイズが大きい場合、量子化器インデックスの伝送エラーにより、可聴アーティファクトになってしまうことが明らかになっている。このために、エラーを起こしやすいチャネルを介して信号を送信する必要がある場合、前進型誤信号訂正または同様の別の動作を実行する。本発明によれば、過去における再構成パラメータに基づく再構成パラメータの後処理は、大量の送信された量子化された再構成パラメータを検出することになり、さらに、このようなエラーに対する適切な対策となるので、後処理は、ビットとして効率的でないエラー訂正符号を不要とすることができる。また、後処理機能が平滑化機能である場合、後述するように、先のまたは後の再構成パラメータと大きく異なる量子化された再構成パラメータは自動的に操作される。
【0126】
図5は、図4aの再構成パラメータポストプロセッサ10の好適な実施の形態を示す。特に、量子化された再構成パラメータが符号化されるという状況を考える。ここでは、符号化された量子化された再構成パラメータはエントロピーデコーダ10cに入り、これは、復号化された量子化された再構成パラメータのシーケンスを出力する。エントロピーデコーダの出力で再構成パラメータは量子化され、このことは、特定の「有益な」値を有していることを意味しているのではなく、後段の逆量子化器により実施される特定の量子化ルールの特定の量子化器インデックスまたは量子化器レベルを示していることを意味している。マニピュレータ10dは、例えば、(好ましくは)必要とする後処理機能により決定される任意のフィルタ特性を有するIIRフィルタまたはFIRフィルタ等のデジタルフィルタとすることができる。平滑化またはローパスフィルタリング後処理機能が好ましい。マニピュレータ10dの出力で、操作された量子化された再構成パラメータのシーケンスが得られ、これらは、整数の数字だけでなく、量子化ルールにより決定される範囲内の任意の実数である。このように操作された量子化された再構成パラメータは、ステージ10dの前の値1、0、1と比較して、1.1、0.1、0.5等の値を有することができる。次に、ブロック10dの出力での値のシーケンスは、後処理された再構成パラメータを得るために拡張逆量子化器10eに入力され、これらは、図1aおよび図1bのブロック12でマルチチャネル再構成(例えばBCC合成)に用いることができる。
【0127】
通常の逆量子化器は、限定した数の量子化インデックスから指定の逆量子化された出力値へ各量子化入力をマッピングするだけであるので、拡張量子化器10e(図5)は通常の逆量子化器と異なることに留意されたい。通常の逆量子化器は、非整数量子化器インデックスをマッピングすることはできない。したがって、好ましくは、拡張逆量子化器10eは直線または対数量子化ルール等の同じ量子化ルールを用いて実施されるが、非整数入力を受け付けて、整数入力だけを用いて得られる値とは異なる出力値を供給することができる。
【0128】
再量子化の前(図5を参照)または再量子化の後(図6a、図6bを参照)で、操作を行うかどうかは、本発明に対して基本的に差は何もない。後者の場合では、逆量子化器は、すでに概略を述べたように、図5の拡張逆量子化器10eと異なる、通常の直接逆量子化器である必要がある。もちろん、図5および図6aの選択は、特定の実施例に依存する選択の問題である。現在の実施例では、既存のBCCアルゴリズムとより互換性があるので、図5の実施の形態が好ましい。しかしながら、このことは他の応用では別の話である。
【0129】
図6bは、図6aの拡張逆量子化器10eが、直接逆量子化器と直線または好ましくは非直線曲線に従ってマッピングするためのマッピング手段10gとに置換される実施の形態を示す。このマッピング手段は、数値動作を実行するための回路またはルックアップテーブル等のハードウェアまたはソフトウェアとして実行することができる。データ操作は、例えばスムーザ10gを用いて、マッピング手段10gの前段、またはマッピング手段10gの後段、または結合して両段で実行することができる。全てのエレメント10f、10h、10gはソフトウェアルーチンの回路等の構成部品を直接用いて実施することができるので、後処理が逆量子化器領域で実行される場合に、この実施の形態は好ましい。
【0130】
一般に、ポストプロセッサ10は、図7aに示すようにポストプロセッサとして実施され、実際の量子化された再構成パラメータ、未来の再構成パラメータまたは過去の量子化された再構成パラメータを全てまたは選択して受信する。この場合、ポストプロセッサは、少なくとも1つの過去の再構成パラメータおよび実際の再構成パラメータだけを受信し、ポストプロセッサは、ローパスフィルタとして動作する。しかしながら、ポストプロセッサ10が、特定の遅延を用いてリアルタイムの応用において可能である、未来の遅延された量子化された再構成パラメータを受信する場合、ポストプロセッサは、例えば特定の周波数帯域の再構成パラメータの時間経過を平滑化するために、未来の量子化された再構成パラメータと現在または過去の量子化された再構成パラメータとの間で補間を実行することができる。
【0131】
図7bは、後処理された値が、逆量子化された再構成パラメータから導出されないが、逆量子化された再構成パラメータから導出される値から導出される実施例を示す。導出するための処理は、導出するための手段700により実行され、この場合、ライン702を介して量子化された再構成パラメータを受信することができ、または、ライン704を介して逆量子化されたパラメータを受信することができる。例えば、量子化されたパラメータとして振幅値を受信することができ、これは、エネルギー値を算出するために導出するための手段により用いられる。次に、このエネルギー値に対して、後処理(例えば平滑化)動作を行う。量子化されたパラメータは、ライン708を介してブロック706に転送される。したがって、ライン710に示すように量子化されたパラメータを直接用いて、またはライン712に示すように逆量子化されたパラメータを用いて、またはライン714に示すように逆量子化されたパラメータから導出される値を用いて、後処理を実行することができる。
【0132】
すでに概説したように、パラメトリック符号化されたマルチチャネル信号内のベースチャネルに付属する再構成パラメータから導出される量について、荒いサイズの量子化環境での量子化ステップサイズによるアーティファクトを克服するデータ操作を実行することができる。例えば、量子化された再構成パラメータが差パラメータ(ICLD)である場合、変更をしないで、このパラメータを逆量子化することができる。次に、出力チャネルの絶対レベル値を導出することができ、絶対値に対して本発明のデータ操作が実行される。この手順は、後処理された再構成パラメータまたは後処理された量の値が、量子化ルールに従って再量子化を用いて、すなわち「ステップサイズ制限」を克服する操作を行わずに、得られる値と異なるように、量子化された再構成パラメータと実際の再構成との間の処理経路でデータ操作が実行される限りにおいて、本発明のアーティファクトを低減することにもなる。
【0133】
操作された量を量子化された再構成パラメータから最終的に導出するためのマッピング機能の多くは、導出可能で、本技術で用いられ、これらのマッピング機能は、後処理されない量を得るためにマッピングルールに従って入力値を出力値に一意的にマッピングするための機能を含み、それは、次に、マルチチャネル再構成(合成)アルゴリズムに用いられる後処理された量を得るために後処理される。
【0134】
以下では、図8を参照して、図5の拡張逆量子化器10eと、図6aの直接逆量子化器10fとの間の違いを説明する。このために、図8の図では、横軸は、量子化されていない値の入力値軸を示す。縦軸は、量子化器レベルまたは量子化器インデックスを示し、これは、好ましくは0、1、2、3の値を有する整数である。ここで、図8の量子化器では、0から1の間の値または1から2の間の値にはならないことに留意されたい。これらの量子化器レベルに対するマッピングは、例えば−10から10の間の値が0にマッピングされ、10から20の間の値が1に量子化される等のように、階段関数により制御される。
【0135】
考えられる逆量子化器機能は、0の量子化器レベルを0の逆量子化された値にマッピングする。1の量子化器レベルは、10の逆量子化された値にマッピングされる。同様に、例えば、2の量子化器レベルは20の逆量子化された値にマッピングされる。したがって、再量子化は、参照番号31で示す逆量子化器機能により制御される。直接逆量子化器は、ライン30とライン31との交点に限って可能であることに留意されたい。このことは、図8の逆量子化器ルールを有する直接逆量子化器では、0、10、20、30の値だけを、再量子化により得ることができることを意味している。
【0136】
拡張逆量子化器は、0.5の値等の、0から1または1から2の間の値を入力として受信するので、拡張逆量子化器10eとは異なっている。マニピュレータ10dにより得られる0.5の値の進んだ再量子化により、5の逆量子化された出力値となり、すなわち、後処理された再構成パラメータは、量子化ルールに従って再量子化により得られる値と異なる値を有する。通常の量子化ルールでは、0または10の値だけが得られるが、好適な量子化器機能31に従って動作する好適な逆量子化器では、異なる値、すなわち、図8に示す5の値が得られる。
【0137】
直接逆量子化器では、整数量子化器レベルを量子化されたレベルにマッピングするだけであるが、拡張逆量子化器は、非整数量子化器「レベル」を受信し、これらの値を逆量子化器ルールにより決定される値間の「逆量子化された値」にマッピングする。
【0138】
図9は、図5の実施の形態に対する好適な後処理の効果を示す。図9aは、0から3の間で変化する量子化された再構成パラメータのシーケンスを示す。図9bは、図9aの波形がローパス(平滑化)フィルタに入力される場合、「変更された量子化器インデックス」とも呼ぶ、後処理された再構成パラメータのシーケンスを示す。ここで、時点1、4、6、8、9、および10での増減は、図9bの実施の形態では低減していることに留意されたい。アーティファクトとして考えられる時点8と時点9との間のピークが、量子化ステップ全体で抑制されていることを強調して述べる。しかしながら、すでに概説したように、このような極端な値を、量的調性値に従って後処理の度合いにより制御することができる。
【0139】
本発明は、本発明の後処理が、変動を平滑化したり、短期の極端な値を平滑化したりするという利点がある。この状況は、特に、同じエネルギーを有するいくつかの入力チャネルからの信号部分が、信号の周波数帯域、すなわち、ベースチャネルまたは入力信号チャネルと重ね合わされる場合に発生する。次に、この周波数帯域は、時間部分毎に対応し、個々の出力チャネルを非常に変動するように混合した即座の状況に依存する。しかしながら、心理音響的な視点から、これらの変動は、基本的にソースの位置の検出に寄与せずに、主観的な聴き取り印象を悪くするような影響を与えるので、これらの変動を平滑化する方がよい。
【0140】
本発明の好適な実施の形態によれば、システムにおける異なる場所で品質損失を発生することなく、あるいは送信された再構成パラメータの高い解像度/量子化(したがって、速いデータ速度)を必要とすることなく、このような可聴アーティファクトが低減されたり、解消されたりする。本発明は、重要な空間ローカライゼーション検出キューに基本的に影響を与えることなく、パラメータの信号適応変更(平滑化)を実行することにより、本目的を達成する。
【0141】
再構成された出力信号の特性に突然変化が発生すると、高い定常特性を有するオーディオ信号に対して、特に可聴アーティファクトが発生する。これは、音信号がある場合である。したがって、このような信号に対する量子化された再構成パラメータ間に「スムーザ」によるトランジションを供給することは重要なことである。これは、例えば、平滑化、補間等により得ることができる。
【0142】
また、このようなパラメータ値の変更により、他の種類のオーディオ信号に可聴歪みが発生してしまう。これは、信号特性に急速に発生する変動を含む信号の場合である。このような特性は、過渡部分または打楽器のアタックに見られる。この場合、本実施の形態により、パラメータ平滑化を起動しないようにする。
【0143】
これは、信号適応法で、送信された量子化された再構成パラメータの後処理により、得られる。
【0144】
適応性は、直線または非直線である。適応性が非直線の場合、図3cで説明されるように閾値処理手順が実行される。
【0145】
適応性を制御するための別の基準は、信号特性の特定の定常性を決定することである。信号特性の定常性を決定するための特定の形式は、信号エンベロープ、または、特に、信号の調性を評価することである。ここで、全周波数範囲に対して、または、好ましくは、オーディオ信号の異なる周波数帯域それぞれに対して、調性を決定することができることに留意されたい。
【0146】
本実施の形態により、パラメータ値を送信するための必要とされたデータ速度が速くなることなく、今まで不可避であったアーティファクトを低減したり、または解消したりすることになる。
【0147】
図4aおよび図4bですでに概説したように、検討中の信号部分に音特性がある場合に、デコーダ制御モードでの本発明の好適な実施の形態では、チャネル間レベル差の平滑化を実行する。エンコーダで算出されて、エンコーダで量子化されるチャネル間レベル差は、信号適応平滑化動作を行うためにデコーダに送信される。適応構成要素は、閾値決定に関する調性決定であり、音スペクトル成分に対してチャネル間レベル差のフィルタリングを起動して、ノイズ様および過渡スペクトル成分に対してはこのような後処理を起動しない。本実施の形態では、エンコーダの付加的なサイド情報は、適応平滑化アルゴリズムを実行するために必要としない。
【0148】
ここで、本発明の後処理は、パラメトリックステレオ、MP3サラウンド、および同様の方法などのマルチチャネル信号に対してパラメトリック符号化を行う他の概念に用いることもできることに留意されたい。
【0149】
本発明の方法またはデバイスまたはコンピュータプログラムは、いくつかのデバイスから実施することができる。図14は、本発明のエンコーダを含むトランスミッタと、本発明のデコーダを含むレシーバとを有する伝送システムを示す。伝送チャネルは、無線または有線チャネルとすることができる。さらに、図15に示すように、エンコーダをオーディオレコーダに含ませることもできるし、デコーダをオーディオプレーヤに含ませることもできる。オーディオレコーダからのオーディオ記録は、インターネットを介して、または、メール、宅配業者リソース、またはメモリカード、CDまたはDVD等の記憶媒体を配信するための他の可能性を用いて配信される記憶媒体を介して、オーディオプレーヤに配信することができる。
【0150】
本発明の方法の特定の実現要求によっては、本発明の方法は、ハードウェアまたはソフトウェアで実施することができる。この実施は、本発明の方法が実行されるように、プログラム可能なコンピュータシステムと協働する、デジタル記憶媒体、特に、それに格納される電子的に読み取り可能な制御信号を有するディスクまたはCDを用いて、実行することができる。したがって、一般に、本発明は、機械読み取り可能なキャリアに格納されるプログラムコードを有するコンピュータプログラム製品であり、そのプログラムコードは、そのコンピュータプログラム製品がコンピュータ上で実行されるときに、少なくとも1つの本発明の方法を実行するために構成される。したがって、言い換えれば、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法を実行するためのプログラムコードを有するコンピュータプログラムである。
【0151】
前述のように、特定の実施の形態を参照して特に図示して説明してきたが、本発明の精神、範囲を逸脱することなく、形態や詳細を様々変更することができることが、当業者ならば理解できるであろう。ここに開示するより広い概念から逸脱することなく、異なる実施の形態に適用して、変更が可能なことが、特許請求の範囲から理解できるであろう。
【特許請求の範囲】
【請求項1】
マルチチャネルシンセサイザ制御信号を発生するための装置であって、
マルチチャネル入力信号を解析するための信号アナライザと、
前記信号アナライザに応答して平滑化制御情報を決定するための平滑化情報カリキュレータであって、前記平滑化制御情報に応答して、シンセサイザ側ポストプロセッサが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するように、前記平滑化制御情報を決定する平滑化情報カリキュレータと、
前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するためのデータジェネレータとを備える、装置。
【請求項2】
前記信号アナライザは、前記マルチチャネル入力信号の第1の時間部分から前記マルチチャネル入力信号の後の第2の時間部分へのマルチチャネル信号特性の変化を解析し、
前記平滑化情報カリキュレータは、前記解析された変化に基づいて、平滑化時定数情報を決定する、請求項1に記載の装置。
【請求項3】
前記信号アナライザは、前記マルチチャネル入力信号の帯域に関する解析を実行し、
前記平滑化パラメータカリキュレータは、帯域に関する平滑化制御情報を決定する、請求項1に記載の装置。
【請求項4】
前記データジェネレータは、各周波数帯域に対してビットを有する平滑化制御マスクを出力し、各周波数帯域に対する前記ビットは、前記デコーダ側ポストプロセッサが平滑化を実行するかどうかを示す、請求項3に記載の装置。
【請求項5】
前記データジェネレータは、平滑化を実行しないことを示すオールオフショートカット信号を発生し、または、
各周波数帯域において平滑化を実行することを示すオールオンショートカット信号を発生し、または、
現在の時間部分に対して帯域に関する状態で用いられることを示し、直前の時間部分に対して前記シンセサイザ側ポストプロセッサによりすでに用いられた、1つ前のマスクを繰り返す信号を発生する、請求項3に記載の装置。
【請求項6】
前記データジェネレータは、データストリームにおいて送信される情報を用いて、または、シンセサイザ側信号解析から導出される情報を用いて、前記シンセサイザ側ポストプロセッサを動作させるかどうかを示す、シンセサイザ起動信号を発生する、請求項1に記載の装置。
【請求項7】
前記データジェネレータは、前記平滑化制御情報として、前記シンセサイザ側ポストプロセッサがわかっている値のセットから、特定の平滑化時定数値を示す信号を発生する、請求項2に記載の装置。
【請求項8】
前記信号アナライザは、マルチチャネル入力信号時間部分に対するチャネル間コヒーレンスパラメータに基づいて、ポイントソースが存在するかどうかを決定し、
前記平滑化情報カリキュレータまたは前記データジェネレータは、前記信号アナライザがポイントソースが存在すると決定した場合に限ってアクティブになる、請求項2に記載の装置。
【請求項9】
前記平滑化情報カリキュレータは、後のマルチチャネル入力信号時間部分に対するポイントソースの位置における変化を算出し、
前記データジェネレータは、前記シンセサイザ側ポストプロセッサにより平滑化が適用されるように、位置における前記変化が所定の閾値を下回っていることを示す、制御信号を出力する、請求項1に記載の装置。
【請求項10】
前記信号アナライザは、いくつかの時点に対して、チャネル間レベル差またはチャネル間強度差を発生し、
前記平滑化情報カリキュレータは、前記チャネル間レベル差またはチャネル間強度差パラメータの曲線の傾斜に対して反比例する平滑化時定数を算出する、請求項2に記載の装置。
【請求項11】
前記平滑化情報カリキュレータは、1群のいくつかの周波数帯域に対して、1つの平滑化時定数を算出し、
前記データジェネレータは、前記1群のいくつかの周波数帯域における1以上の帯域に対して情報を示し、前記シンセサイザ側ポストプロセッサが起動されないようにする、請求項2に記載の装置。
【請求項12】
前記平滑化情報カリキュレータは、合成処理により解析を実行する、請求項1に記載の装置。
【請求項13】
前記平滑化情報カリキュレータは、
いくつかの時定数を算出し、
前記いくつかの時定数を用いてシンセサイザ側後処理をシミュレートし、
後のフレームのための値となり、量子化されていない対応する値から最も小さいずれを示す、時定数を選択する、請求項12に記載の装置。
【請求項14】
テスト対が平滑化時定数および特定の量子化ルールを有する、異なるテスト対が発生され、
前記平滑化情報カリキュレータは、前記対から、後処理された値と量子化されていない対応する値との間の最も小さいずれとなる、量子化ルールおよび前記平滑化時定数を用いて量子化された値を選択する、請求項12に記載の装置。
【請求項15】
マルチチャネルシンセサイザ制御信号を発生する方法であって、
マルチチャネル入力信号を解析するステップと、
前記信号解析ステップに応答して平滑化制御情報を決定するステップであって、前記平滑化制御情報に応答して、後処理ステップが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するようにするステップと、
前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するステップとを備える、方法。
【請求項16】
入力信号から出力信号を発生するためのマルチチャネルシンセサイザであって、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力チャネルはそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、
前記平滑化制御情報を有する前記制御信号を供給するための制御信号供給器と、
前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するためのポストプロセッサであって、前記後処理された再構成パラメータまたは前記後処理された量の値が、前記量子化ルールに従って再量子化を用いて得られる値と異なるように、前記後処理された再構成パラメータまたは前記後処理された量を決定するポストプロセッサと、
前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するためのマルチチャネル再構成器とを備える、マルチチャネルシンセサイザ。
【請求項17】
前記平滑化制御情報は平滑化時定数を示し、
前記ポストプロセッサは、前記平滑化時定数に応答してフィルタ特性が設定される、ローパスフィルタリングを実行する、請求項16に記載のマルチチャネルシンセサイザ。
【請求項18】
前記制御信号は、前記少なくとも1つの入力チャネルの複数の帯域の各帯域に対して、平滑化制御情報を含み、
前記ポストプロセッサは、前記制御信号に応答して、帯域に関する方法において後処理を実行する、請求項16に記載のマルチチャネルシンセサイザ。
【請求項19】
前記制御信号は、各周波数帯域に対してビットを有する平滑化制御マスクを含み、各周波数帯域に対する前記ビットは、前記ポストプロセッサが平滑化を実行するかどうかを示し、
前記ポストプロセッサは、前記平滑化制御マスクにおける前記周波数帯域に対するビットが所定の値を有する場合に限って、前記平滑化制御マスクに応答して平滑化を実行する、請求項16に記載のマルチチャネルシンセサイザ。
【請求項20】
前記制御信号は、オールオフショートカット信号、オールオンショートカット信号または1つ前のマスクを繰り返すショートカット信号を含み、
前記ポストプロセッサは、前記オールオフショートカット信号、前記オールオンショートカット信号または前記1つ前のマスクを繰り返すショートカット信号に応答して、平滑化動作を実行する、請求項16に記載のマルチチャネルシンセサイザ。
【請求項21】
前記データ信号は、前記データ信号において送信される情報を用いて、または、デコーダ側信号解析から導出される情報を用いて、前記ポストプロセッサを動作させるかどうか示すデコーダ起動信号を含み、
前記制御信号に応答して、前記ポストプロセッサは、前記平滑化制御情報を用いて、または、デコーダ側信号解析に基づいて、動作する、請求項16に記載のマルチチャネルシンセサイザ。
【請求項22】
処理される前記入力信号の前記時間部分の信号特性を決定する、前記入力信号を解析するための入力信号アナライザをさらに備え、
前記ポストプロセッサは、前記信号特性に依存して、前記後処理された再構成パラメータを決定し、
前記信号特性は、処理される前記入力信号の前記部分の調性特性または過渡特性である、請求項21に記載のマルチチャネルシンセサイザ。
【請求項23】
入力信号から出力信号を発生する方法であって、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力信号はそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、
前記平滑化制御情報を有する前記制御信号を供給するステップと、
前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するステップと、
前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するステップとを備える、方法。
【請求項24】
マルチチャネル入力信号に依存する平滑化制御情報を有するマルチチャネルシンセサイザ制御信号であって、前記平滑化制御情報は、前記平滑化制御情報に応答して、シンセサイザ側ポストプロセッサが、処理される前記入力信号の時間部分に対して、量子化ルールに従って再量子化を用いて得られる値と異なる、後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生する、マルチチャネルシンセサイザ制御信号。
【請求項25】
機械読み取り可能な記憶媒体に格納される、請求項26に記載のマルチチャネルシンセサイザ制御信号。
【請求項26】
マルチチャネルシンセサイザ制御信号を発生するための装置を有するトランスミッタまたはオーディオレコーダであって、前記装置は、
マルチチャネル入力信号を解析するための信号アナライザと、
前記信号アナライザに応答して平滑化制御情報を決定するための平滑化情報カリキュレータであって、前記平滑化制御情報に応答して、シンセサイザ側ポストプロセッサが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するように、前記平滑化制御情報を決定する平滑化情報カリキュレータと、
前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するためのデータジェネレータとを備える、トランスミッタまたはオーディオレコーダ。
【請求項27】
入力信号から出力信号を発生するためのマルチチャネルシンセサイザを有するレシーバまたはオーディオプレーヤであって、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力チャネルはそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、前記レシーバは、
前記平滑化制御情報を有する前記制御信号を供給するための制御信号供給器と、
前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するためのポストプロセッサであって、前記後処理された再構成パラメータまたは前記後処理された量の値が、前記量子化ルールに従って再量子化を用いて得られる値と異なるように、前記後処理された再構成パラメータまたは前記後処理された量を決定するポストプロセッサと、
前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するためのマルチチャネル再構成器とを備える、レシーバまたはオーディオプレーヤ。
【請求項28】
トランスミッタおよびレシーバを有する伝送システムであって、
前記トランスミッタはマルチチャネルシンセサイザ制御信号を発生するための装置を有し、前記装置は、マルチチャネル入力信号を解析するための信号アナライザと、前記信号アナライザに応答して平滑化制御情報を決定するための平滑化情報カリキュレータであって、前記平滑化制御情報に応答して、シンセサイザ側ポストプロセッサが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するように、前記平滑化制御情報を決定する平滑化情報カリキュレータと、前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するためのデータジェネレータとを備え、
前記レシーバは入力信号から出力信号を発生するためのマルチチャネルシンセサイザを有し、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力チャネルはそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、前記レシーバは、前記平滑化制御情報を有する前記制御信号を供給するための制御信号供給器と、前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するためのポストプロセッサであって、前記後処理された再構成パラメータまたは前記後処理された量の値が、前記量子化ルールに従って再量子化を用いて得られる値と異なるように、前記後処理された再構成パラメータまたは前記後処理された量を決定するポストプロセッサと、前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するためのマルチチャネル再構成器とを備える、伝送システム。
【請求項29】
マルチチャネルシンセサイザ制御信号を発生する方法を有する、送信またはオーディオ録音方法であって、前記方法は、
マルチチャネル入力信号を解析するステップと、
前記信号解析ステップに応答して平滑化制御情報を決定するステップであって、前記平滑化制御情報に応答して、後処理ステップが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するようにするステップと、
前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するステップとを備える、送信またはオーディオ録音方法。
【請求項30】
入力信号から出力信号を発生する方法を含む、受信またはオーディオ再生方法であって、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力信号はそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、前記発生する方法は、
前記平滑化制御情報を有する前記制御信号を供給するステップと、
前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するステップと、
前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するステップとを備える、受信またはオーディオ再生方法。
【請求項31】
受信および送信方法であって、前記方法はマルチチャネルシンセサイザ制御信号を発生する方法を有する送信方法を含み、前記方法は、マルチチャネル入力信号を解析するステップと、前記信号解析ステップに応答して平滑化制御情報を決定するステップであって、前記平滑化制御情報に応答して、後処理ステップが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するようにするステップと、前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するステップとを備え、さらに
入力信号から出力信号を発生する方法を有する受信方法を含み、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力信号はそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、前記発生する方法は、前記平滑化制御情報を有する前記制御信号を供給するステップと、前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するステップと、前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するステップとを備える、受信および送信方法。
【請求項32】
コンピュータ上で動作するときに、請求項15、請求項23、請求項29、請求項30または請求項31のいずれかに記載の方法を実行するためのコンピュータプログラム。
【請求項1】
マルチチャネルシンセサイザ制御信号を発生するための装置であって、
マルチチャネル入力信号を解析するための信号アナライザと、
前記信号アナライザに応答して平滑化制御情報を決定するための平滑化情報カリキュレータであって、前記平滑化制御情報に応答して、シンセサイザ側ポストプロセッサが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するように、前記平滑化制御情報を決定する平滑化情報カリキュレータと、
前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するためのデータジェネレータとを備える、装置。
【請求項2】
前記信号アナライザは、前記マルチチャネル入力信号の第1の時間部分から前記マルチチャネル入力信号の後の第2の時間部分へのマルチチャネル信号特性の変化を解析し、
前記平滑化情報カリキュレータは、前記解析された変化に基づいて、平滑化時定数情報を決定する、請求項1に記載の装置。
【請求項3】
前記信号アナライザは、前記マルチチャネル入力信号の帯域に関する解析を実行し、
前記平滑化パラメータカリキュレータは、帯域に関する平滑化制御情報を決定する、請求項1に記載の装置。
【請求項4】
前記データジェネレータは、各周波数帯域に対してビットを有する平滑化制御マスクを出力し、各周波数帯域に対する前記ビットは、前記デコーダ側ポストプロセッサが平滑化を実行するかどうかを示す、請求項3に記載の装置。
【請求項5】
前記データジェネレータは、平滑化を実行しないことを示すオールオフショートカット信号を発生し、または、
各周波数帯域において平滑化を実行することを示すオールオンショートカット信号を発生し、または、
現在の時間部分に対して帯域に関する状態で用いられることを示し、直前の時間部分に対して前記シンセサイザ側ポストプロセッサによりすでに用いられた、1つ前のマスクを繰り返す信号を発生する、請求項3に記載の装置。
【請求項6】
前記データジェネレータは、データストリームにおいて送信される情報を用いて、または、シンセサイザ側信号解析から導出される情報を用いて、前記シンセサイザ側ポストプロセッサを動作させるかどうかを示す、シンセサイザ起動信号を発生する、請求項1に記載の装置。
【請求項7】
前記データジェネレータは、前記平滑化制御情報として、前記シンセサイザ側ポストプロセッサがわかっている値のセットから、特定の平滑化時定数値を示す信号を発生する、請求項2に記載の装置。
【請求項8】
前記信号アナライザは、マルチチャネル入力信号時間部分に対するチャネル間コヒーレンスパラメータに基づいて、ポイントソースが存在するかどうかを決定し、
前記平滑化情報カリキュレータまたは前記データジェネレータは、前記信号アナライザがポイントソースが存在すると決定した場合に限ってアクティブになる、請求項2に記載の装置。
【請求項9】
前記平滑化情報カリキュレータは、後のマルチチャネル入力信号時間部分に対するポイントソースの位置における変化を算出し、
前記データジェネレータは、前記シンセサイザ側ポストプロセッサにより平滑化が適用されるように、位置における前記変化が所定の閾値を下回っていることを示す、制御信号を出力する、請求項1に記載の装置。
【請求項10】
前記信号アナライザは、いくつかの時点に対して、チャネル間レベル差またはチャネル間強度差を発生し、
前記平滑化情報カリキュレータは、前記チャネル間レベル差またはチャネル間強度差パラメータの曲線の傾斜に対して反比例する平滑化時定数を算出する、請求項2に記載の装置。
【請求項11】
前記平滑化情報カリキュレータは、1群のいくつかの周波数帯域に対して、1つの平滑化時定数を算出し、
前記データジェネレータは、前記1群のいくつかの周波数帯域における1以上の帯域に対して情報を示し、前記シンセサイザ側ポストプロセッサが起動されないようにする、請求項2に記載の装置。
【請求項12】
前記平滑化情報カリキュレータは、合成処理により解析を実行する、請求項1に記載の装置。
【請求項13】
前記平滑化情報カリキュレータは、
いくつかの時定数を算出し、
前記いくつかの時定数を用いてシンセサイザ側後処理をシミュレートし、
後のフレームのための値となり、量子化されていない対応する値から最も小さいずれを示す、時定数を選択する、請求項12に記載の装置。
【請求項14】
テスト対が平滑化時定数および特定の量子化ルールを有する、異なるテスト対が発生され、
前記平滑化情報カリキュレータは、前記対から、後処理された値と量子化されていない対応する値との間の最も小さいずれとなる、量子化ルールおよび前記平滑化時定数を用いて量子化された値を選択する、請求項12に記載の装置。
【請求項15】
マルチチャネルシンセサイザ制御信号を発生する方法であって、
マルチチャネル入力信号を解析するステップと、
前記信号解析ステップに応答して平滑化制御情報を決定するステップであって、前記平滑化制御情報に応答して、後処理ステップが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するようにするステップと、
前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するステップとを備える、方法。
【請求項16】
入力信号から出力信号を発生するためのマルチチャネルシンセサイザであって、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力チャネルはそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、
前記平滑化制御情報を有する前記制御信号を供給するための制御信号供給器と、
前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するためのポストプロセッサであって、前記後処理された再構成パラメータまたは前記後処理された量の値が、前記量子化ルールに従って再量子化を用いて得られる値と異なるように、前記後処理された再構成パラメータまたは前記後処理された量を決定するポストプロセッサと、
前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するためのマルチチャネル再構成器とを備える、マルチチャネルシンセサイザ。
【請求項17】
前記平滑化制御情報は平滑化時定数を示し、
前記ポストプロセッサは、前記平滑化時定数に応答してフィルタ特性が設定される、ローパスフィルタリングを実行する、請求項16に記載のマルチチャネルシンセサイザ。
【請求項18】
前記制御信号は、前記少なくとも1つの入力チャネルの複数の帯域の各帯域に対して、平滑化制御情報を含み、
前記ポストプロセッサは、前記制御信号に応答して、帯域に関する方法において後処理を実行する、請求項16に記載のマルチチャネルシンセサイザ。
【請求項19】
前記制御信号は、各周波数帯域に対してビットを有する平滑化制御マスクを含み、各周波数帯域に対する前記ビットは、前記ポストプロセッサが平滑化を実行するかどうかを示し、
前記ポストプロセッサは、前記平滑化制御マスクにおける前記周波数帯域に対するビットが所定の値を有する場合に限って、前記平滑化制御マスクに応答して平滑化を実行する、請求項16に記載のマルチチャネルシンセサイザ。
【請求項20】
前記制御信号は、オールオフショートカット信号、オールオンショートカット信号または1つ前のマスクを繰り返すショートカット信号を含み、
前記ポストプロセッサは、前記オールオフショートカット信号、前記オールオンショートカット信号または前記1つ前のマスクを繰り返すショートカット信号に応答して、平滑化動作を実行する、請求項16に記載のマルチチャネルシンセサイザ。
【請求項21】
前記データ信号は、前記データ信号において送信される情報を用いて、または、デコーダ側信号解析から導出される情報を用いて、前記ポストプロセッサを動作させるかどうか示すデコーダ起動信号を含み、
前記制御信号に応答して、前記ポストプロセッサは、前記平滑化制御情報を用いて、または、デコーダ側信号解析に基づいて、動作する、請求項16に記載のマルチチャネルシンセサイザ。
【請求項22】
処理される前記入力信号の前記時間部分の信号特性を決定する、前記入力信号を解析するための入力信号アナライザをさらに備え、
前記ポストプロセッサは、前記信号特性に依存して、前記後処理された再構成パラメータを決定し、
前記信号特性は、処理される前記入力信号の前記部分の調性特性または過渡特性である、請求項21に記載のマルチチャネルシンセサイザ。
【請求項23】
入力信号から出力信号を発生する方法であって、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力信号はそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、
前記平滑化制御情報を有する前記制御信号を供給するステップと、
前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するステップと、
前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するステップとを備える、方法。
【請求項24】
マルチチャネル入力信号に依存する平滑化制御情報を有するマルチチャネルシンセサイザ制御信号であって、前記平滑化制御情報は、前記平滑化制御情報に応答して、シンセサイザ側ポストプロセッサが、処理される前記入力信号の時間部分に対して、量子化ルールに従って再量子化を用いて得られる値と異なる、後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生する、マルチチャネルシンセサイザ制御信号。
【請求項25】
機械読み取り可能な記憶媒体に格納される、請求項26に記載のマルチチャネルシンセサイザ制御信号。
【請求項26】
マルチチャネルシンセサイザ制御信号を発生するための装置を有するトランスミッタまたはオーディオレコーダであって、前記装置は、
マルチチャネル入力信号を解析するための信号アナライザと、
前記信号アナライザに応答して平滑化制御情報を決定するための平滑化情報カリキュレータであって、前記平滑化制御情報に応答して、シンセサイザ側ポストプロセッサが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するように、前記平滑化制御情報を決定する平滑化情報カリキュレータと、
前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するためのデータジェネレータとを備える、トランスミッタまたはオーディオレコーダ。
【請求項27】
入力信号から出力信号を発生するためのマルチチャネルシンセサイザを有するレシーバまたはオーディオプレーヤであって、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力チャネルはそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、前記レシーバは、
前記平滑化制御情報を有する前記制御信号を供給するための制御信号供給器と、
前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するためのポストプロセッサであって、前記後処理された再構成パラメータまたは前記後処理された量の値が、前記量子化ルールに従って再量子化を用いて得られる値と異なるように、前記後処理された再構成パラメータまたは前記後処理された量を決定するポストプロセッサと、
前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するためのマルチチャネル再構成器とを備える、レシーバまたはオーディオプレーヤ。
【請求項28】
トランスミッタおよびレシーバを有する伝送システムであって、
前記トランスミッタはマルチチャネルシンセサイザ制御信号を発生するための装置を有し、前記装置は、マルチチャネル入力信号を解析するための信号アナライザと、前記信号アナライザに応答して平滑化制御情報を決定するための平滑化情報カリキュレータであって、前記平滑化制御情報に応答して、シンセサイザ側ポストプロセッサが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するように、前記平滑化制御情報を決定する平滑化情報カリキュレータと、前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するためのデータジェネレータとを備え、
前記レシーバは入力信号から出力信号を発生するためのマルチチャネルシンセサイザを有し、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力チャネルはそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、前記レシーバは、前記平滑化制御情報を有する前記制御信号を供給するための制御信号供給器と、前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するためのポストプロセッサであって、前記後処理された再構成パラメータまたは前記後処理された量の値が、前記量子化ルールに従って再量子化を用いて得られる値と異なるように、前記後処理された再構成パラメータまたは前記後処理された量を決定するポストプロセッサと、前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するためのマルチチャネル再構成器とを備える、伝送システム。
【請求項29】
マルチチャネルシンセサイザ制御信号を発生する方法を有する、送信またはオーディオ録音方法であって、前記方法は、
マルチチャネル入力信号を解析するステップと、
前記信号解析ステップに応答して平滑化制御情報を決定するステップであって、前記平滑化制御情報に応答して、後処理ステップが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するようにするステップと、
前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するステップとを備える、送信またはオーディオ録音方法。
【請求項30】
入力信号から出力信号を発生する方法を含む、受信またはオーディオ再生方法であって、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力信号はそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、前記発生する方法は、
前記平滑化制御情報を有する前記制御信号を供給するステップと、
前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するステップと、
前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するステップとを備える、受信またはオーディオ再生方法。
【請求項31】
受信および送信方法であって、前記方法はマルチチャネルシンセサイザ制御信号を発生する方法を有する送信方法を含み、前記方法は、マルチチャネル入力信号を解析するステップと、前記信号解析ステップに応答して平滑化制御情報を決定するステップであって、前記平滑化制御情報に応答して、後処理ステップが、処理される入力信号の時間部分に対して後処理された再構成パラメータまたは前記再構成パラメータから導出される後処理された量を発生するようにするステップと、前記マルチチャネルシンセサイザ制御信号として前記平滑化制御情報を表す制御信号を発生するステップとを備え、さらに
入力信号から出力信号を発生する方法を有する受信方法を含み、前記入力信号は少なくとも1つの入力チャネルと量子化された再構成パラメータのシーケンスとを有し、前記量子化された再構成パラメータは量子化ルールに従って量子化され、かつ前記入力信号の後の時間部分に関連付けられ、前記出力信号は多数の合成された出力チャネルを有し、前記多数の合成された出力チャネルは入力チャネルの数よりも多く、前記入力信号はそれに関連付けられた平滑化制御情報を表すマルチチャネルシンセサイザ制御信号を有し、前記発生する方法は、前記平滑化制御情報を有する前記制御信号を供給するステップと、前記制御信号に応答して、処理される前記入力信号の時間部分に対して、前記後処理された再構成パラメータまたは前記再構成パラメータから導出される前記後処理された量を決定するステップと、前記入力チャネルの前記時間部分および前記後処理された再構成パラメータまたは前記後処理された値を用いて、前記多数の合成された出力チャネルの時間部分を再構成するステップとを備える、受信および送信方法。
【請求項32】
コンピュータ上で動作するときに、請求項15、請求項23、請求項29、請求項30または請求項31のいずれかに記載の方法を実行するためのコンピュータプログラム。
【図1a】
【図1b】
【図1c】
【図2a】
【図2b】
【図3a】
【図3b】
【図3c】
【図4a】
【図4b】
【図4c】
【図5】
【図6a】
【図6b】
【図7a】
【図7b】
【図8】
【図9a】
【図9b】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図1b】
【図1c】
【図2a】
【図2b】
【図3a】
【図3b】
【図3c】
【図4a】
【図4b】
【図4c】
【図5】
【図6a】
【図6b】
【図7a】
【図7b】
【図8】
【図9a】
【図9b】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2013−77017(P2013−77017A)
【公開日】平成25年4月25日(2013.4.25)
【国際特許分類】
【出願番号】特願2012−263339(P2012−263339)
【出願日】平成24年11月30日(2012.11.30)
【分割の表示】特願2007−528890(P2007−528890)の分割
【原出願日】平成18年1月19日(2006.1.19)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【出願人】(506427990)ドルビー・インターナショナル・アクチボラゲット (24)
【氏名又は名称原語表記】DOLBY INTERNATIONAL AB
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】
【公開日】平成25年4月25日(2013.4.25)
【国際特許分類】
【出願日】平成24年11月30日(2012.11.30)
【分割の表示】特願2007−528890(P2007−528890)の分割
【原出願日】平成18年1月19日(2006.1.19)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【出願人】(506427990)ドルビー・インターナショナル・アクチボラゲット (24)
【氏名又は名称原語表記】DOLBY INTERNATIONAL AB
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】
[ Back to top ]