多チャンネルデジタル音声符号化装置および方法

【課題】多チャンネル音声信号のビットレートを低減させつつ、トランスペアレントな音声信号再生を実現する低ビットレートの音声符号化システムを提供する。
【解決手段】低ビットレートデジタル音声符号化システムは、量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、ブロック量子化境界から独立したコードブックの適用範囲を生じさせる符合器を含む。また、フレームにおいて過渡を検出する際に、高および低周波数分解能モード間、または高、低および中間モード間で選択的に切り替えが可能な、分解能フィルタバンクまたは３モード分解能フィルタバンクも組み込まれている。その結果、効率的な送信または格納のためにビットが大幅に低減された多チャンネル音声信号が実現される。復号器は、実質的に、符号器の構造および方法の逆であり、元の信号と聴覚的に区別できない再生音声信号を生じさせる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、一般に、多チャンネルデジタル音声信号の符号化および複合化のための方法およびシステムに関する。より詳細には、本発明は、効率的な送信または格納のために多チャンネル音声信号のビットレートを大幅に低減しつつ、トランスペアレントな音声信号再生を実現する、すなわち、復号器側で再生される音声信号は専門的な聴取者でさえ元の信号と区別することができない、低ビットレートデジタル音声符号化システムに関する。
【背景技術】
【０００２】
通常、多チャンネルデジタル符号化システムは以下の構成要素からなる：入力ＰＣＭ（パルス符号変調）サンプルの周波数表現、呼出サブバンドサンプルまたはサブバンド信号を生成する時間・周波数解析フィルタバンク；人間の耳の知覚特性に基づいて、それ未満では量子化雑音が聞こえる見込みのないマスキング閾値を算出する聴覚心理モデル；結果として得られる量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルの各グループにビットリソースを割当てるグローバルビットアロケータ；割当てられたビットに応じてサブバンドサンプルを量子化する多数の量子化器；量子化インデックスにおける統計的冗長度を低減する多数のエントロピー符号器；および、最後に、量子化インデックスのエントロピー符号およびその他のサイド情報を完全なビットストリームにパッキングするマルチプレクサ。
【０００３】
例えば、ドルビーＡＣ−３は、ウィンドウサイズの切り替えが可能な高周波数分解能ＭＤＣＴ（変形離散コサイン変換）フィルタバンクを用いて、入力ＰＣＭサンプルを周波数領域にマッピングする。定常信号は５１２ポイントのウィンドウで解析され、過渡信号は２５６ポイントのウィンドウで解析される。ＭＤＣＴからのサブバンド信号は、指数／仮数で表され、続いて量子化される。量子化を最適化し、ビット割当情報の符号化に必要なビットを低減するために、可逆的適応聴覚心理モデルが用いられている。復号器の複雑度を低減するために、エントロピー符号化は用いられていない。最後に、量子化インデックスおよびその他のサイド情報が完全なＡＣ−３ビットストリームに多重化される。ＡＣ−３で構成されるような適応ＭＤＣＴの周波数分解能は入力信号特性に良好に一致していないため、その圧縮性能は非常に限られている。圧縮性能が限られているもう１つの要因は、エントロピー符号化が用いられていないことである。
【０００４】
ＭＰＥＧ１および２のレイヤＩＩＩ（ＭＰ３）では、各サブバンドフィルタの後に６ポイントと１８ポイントとの間で切り替わる適応ＭＤＣＴが続く、３２バンドのポリフェーズフィルタバンクが用いられている。そのビット割当および不均一なスカラー量子化を実現するために、複雑な聴覚心理モデルが用いられている。量子化インデックスおよびその他のサイド情報の多くの符号化には、ハフマン符号が用いられている。ハイブリッドフィルタバンクによる周波数分離が不十分であることにより、その圧縮性能は著しく限られており、アルゴリズムの複雑性は高い。
【０００５】
ＤＴＳコヒーレントアコースティック（DTS Coherent Acoustics）では、３２バンドのポリフェーズフィルタバンクを用いて、入力信号の低分解能周波数表現が得られる。この不十分な周波数分解能を補うために、各サブバンドにおいてＡＤＰＣＭ（適応差分パルス符号変調）が必要に応じて用いられる。直接サブバンドサンプルに対して、あるいは、ＡＤＰＣＭによって良好な符号化利得が得られる場合には予測残余に対して、均一なスカラー量子化が適用される。必要に応じて、高周波数サブバンドに対してベクトル量子化を適用してもよい。必要に応じて、スカラー量子化インデックスおよびその他のサイド情報に対してハフマン符号を適用してもよい。ポリフェーズフィルタバンクにＡＤＰＣＭを加えた構造では、良好な時間・周波数分解能は決して得られないため、その圧縮性能は低い。
【０００６】
ＭＰＥＧ２ＡＡＣおよびＭＰＥＧ４ＡＡＣでは、ウィンドウサイズが２５６および２０４８の間で切り替え可能な適応ＭＤＣＴフィルタバンクが用いられている。その均一なスカラー量子化およびビット割当を実現するために、聴覚心理モデルによって生成されるマスキング閾値が用いられている。量子化インデックスおよびその他のサイド情報の多くを符号化には、ハフマン符号が用いられている。その圧縮性能をさらに向上させるために、ＴＮＳ（瞬時ノイズ整形）、利得制御（ＭＰ３と同様のハイブリッドフィルタバンク）、スペクトル予測（サブバンド内での線形予測）といったその他の多くのツールボックスが用いられているが、アルゴリズムの複雑性が著しく高くなる。
【発明の開示】
【発明が解決しようとする課題】
【０００７】
したがって、効率的な送信または格納のために多チャンネル音声信号のビットレートを大幅に低減させつつ、トランスペアレントな音声信号再生を実現する低ビットレートの音声符号化システムが引き続き必要とされている。本発明は、この必要性を満たすとともに、その他の関連した利点を提供する。
【課題を解決するための手段】
【０００８】
発明の要旨
以下の記載を通して、「解析／合成フィルタバンク」等の用語は、時間・周波数解析／合成を行う装置および方法を意味する。これには以下が含まれるが、これらに限定されるものではない。
【０００９】
−ユニタリ変換、
−臨界標本化された、均一もしくは不均一なバンドパスフィルタの時不変または時変バンク、
−高調波または正弦波解析装置／合成装置。
【００１０】
ポリフェーズフィルタバンク、ＤＦＴ（離散フーリエ変換）、ＤＣＴ（離散コサイン変換）およびＭＤＣＴは、広く用いられているフィルタバンクの一部である。「サブバンド信号またはサブバンドサンプル」等の用語は、解析フィルタバンクから出力され、合成フィルタバンクに入力される信号またはサンプルを意味する。
【００１１】
本発明の目的は、多チャンネル音声信号の低ビットレート符号化を、現状技術と同レベルの圧縮性能で、かつ低いアルゴリズム複雑性で実現することである。
【００１２】
符号器側において、これは以下を含む符号器によって実現される。
【００１３】
１）入力ＰＣＭサンプルを、解析フィルタバンクのサブバンド数の倍数のサイズを有し、継続時間が２から５０ｍｓの範囲である準定常フレームにセグメント化するフレーマ。
【００１４】
２）フレームにおける過渡の存在を検出する過渡検出器。一つの実施形態は、低周波数分解能モードにおける解析フィルタバンクのサブバンドサンプルから得られるサブバンド距離基準を閾値化することに基づいている。
【００１５】
３）入力ＰＣＭサンプルをサブバンドサンプルに変換する可変分解能解析フィルタバンク。以下のうち１つを用いて実現され得る。
【００１６】
ａ）高、中間および低周波数分解能モード間で動作の切り替えが可能なフィルタバンク。高周波数分解能モードは定常フレームに用いられ、中間および低周波数分解能モードは過渡を含むフレームに用いられる。過渡フレーム内では、過渡セグメントに低周波数分解能モードが適用され、フレームの残りには中間分解能モードが適用される。このフレームワークにおいては、以下の３つのタイプのフレームが存在する。
【００１７】
ｉ）定常フレームを処理するための高周波数分解能モードでのみ動作するフィルタバンクを含むフレーム。
【００１８】
ｉｉ）過渡フレームを扱うための中間および高時間分解能モードの両方で動作するフィルタバンクによるフレーム。
【００１９】
ｉｉｉ）遅い過渡フレームを扱うための中間分解能モードでのみ動作するフィルタバンクによるフレーム。
【００２０】
以下の２つの好ましい実施形態が挙げられる。
【００２１】
ｉ）上記３段階の分解能が３つのＤＣＴブロック長に対応しているＤＣＴによる実施。
【００２２】
ｉｉ）上記３段階の分解能が３つのＭＤＣＴブロック長またはウィンドウ長に対応しているＭＤＣＴによる実施。これらのウィンドウ間の移行をつなぐために様々なウィンドウタイプが定義される。
【００２３】
ｂ）高および低分解能モード間で動作の切り替えが可能なフィルタバンクに基づくハイブリッドフィルタバンク。
【００２４】
ｉ）現在のフレームにおいて過渡が存在しない場合、定常セグメントに対する高圧縮性能を保証するために、高周波数分解能モードに切り替わる。
【００２５】
ｉｉ）現在のフレームにおいて過渡が存在する場合、前エコーアーティファクトを避けるために、低周波数分解能／高時間分解能モードに切り替わる。この低周波数分解能モードの後には、サブバンドサンプルを定常セグメントにセグメント化する過渡セグメント化段階がさらに続き、その後に、（選択された場合には）各定常セグメントにあわせて調整された周波数分解能を実現する任意分解能フィルタバンクまたはＡＤＰＣＭのいずれかが各サブバンドにおいて必要に応じて続く。
【００２６】
２つの実施形態が挙げられ、１つはＤＣＴに、もう１つはＭＤＣＴに基づいている。
【００２７】
過渡セグメント化の２つの実施形態が得られ、１つは閾値化に、もう１つはｋ平均アルゴリズムに基づいており、両方においてサブバンド距離基準が用いられている。
【００２８】
２）マスキング閾値を算出する聴覚心理モデル。
【００２９】
３）左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換する、オプションの和差符号器。
【００３０】
４）ソースチャンネルに対する結合チャンネルの強度スケールファクタ（ステアリングベクトル）を抽出し、結合チャンネルをソースチャンネルにマージし、結合チャンネルにおけるそれぞれのサブバンドサンプルを破棄する、オプションの結合強度符号器。
【００３１】
５）サブバンドサンプルのグループに、それらの量子化雑音パワーがマスキング閾値未満となるようにビットリソースを割り当てるグローバルビットアロケータ。
【００３２】
６）ビットアロケータによって供給されるステップサイズを用いて全てのサブバンドサンプルを量子化するスカラー量子化器。
【００３３】
７）合計ビット数を減小させるため、フレームにおいて過渡が存在する場合に量子化インデックスを再配置するために必要に応じて用いられ得る、オプションのインタリーバ。
【００３４】
８）量子化インデックスのグループに、それらの局所的統計特性に基づいて、コードブックのライブラリから最適なコードブックを割り当てるエントロピー符号器。以下のステップを含む。
【００３５】
ａ）各量子化インデックスに最適なコードブックを割り当て、それにより、実質的に、量子化インデックスをコードブックインデックスに変換する。
【００３６】
ｂ）これらのコードブックインデックスを、境界がコードブックの適用範囲を規定している大きいセグメントにセグメント化する。
【００３７】
好ましい一実施形態について、以下に説明する。
【００３８】
ｃ）量子化インデックスを、それぞれが一定数の量子化インデックスで構成されるグラニュールにブロック化する。
【００３９】
ｄ）各グラニュールに対する最大コードブック要件を決定する。
【００４０】
ｅ）グラニュールに、その最大コードブック要件を収容可能な最小のコードブックを割り当てる。
【００４１】
ｆ）最も隣接するコードブックインデックスよりも小さいコードブックインデックスの孤立したポケットを削除する。ゼロ量子化インデックスに対応するコードブックインデックスに深い窪みを有する孤立したポケットは、この処理から除外してもよい。
【００４２】
コードブックの適用範囲を符号化するための好ましい一実施形態は、ランレングス符号の使用である。
【００４３】
９）エントロピーコードブック選択装置によって決定されるコードブックおよびそれらの適用可能範囲を用いて、全ての量子化インデックスを符号化するエントロピー符号器。
【００４４】
１０）量子化インデックスおよびサイド情報の全てのエントロピー符号を、量子化インデックスが量子化ステップサイズに対するインデックスの前にくるような構造を有する完全なビットストリームにパッキングするマルチプレクサ。この構造により、各過渡セグメントに対する量子化ユニット数をビットストリームにパッキングする必要がなくなる。なぜなら、量子化ユニット数は、アンパッキングされた量子化インデックスから回収できるからである。
【００４５】
本発明の復号器は以下を含む。
【００４６】
１）ビットストリームから様々な語をアンパッキングするＤＥＭＵＸ。
【００４７】
２）量子化インデックスに対するエントロピーコードブックおよびそれらのそれぞれの適用範囲をビットストリームから復号化する量子化インデックスコードブック復号器。
【００４８】
３）ビットストリームから量子化インデックスを復号化するエントロピー復号器。
【００４９】
４）現在のフレームにおいて過渡が存在する場合に、必要に応じて量子化インデックスを再配置する、オプションのデインタリーバ。
【００５０】
５）以下のステップによって、量子化インデックスから各過渡セグメントに対する量子化ユニット数を復元する量子化ユニット数復元装置。
【００５１】
ａ）各過渡セグメントに対し、非ゼロ量子化インデックスを有する最大サブバンドを見つける。
【００５２】
ｂ）このサブバンドを収容可能な最小臨界帯域を見つける。これは、この過渡セグメントに対する量子化ユニット数である。
【００５３】
６）全ての量子化ユニットに対する量子化ステップサイズをアンパッキングするステップサイズアンパッキング装置。
【００５４】
７）量子化インデックスおよびステップサイズからサブバンドサンプルを復元する逆量子化器。
【００５５】
８）結合強度スケールファクタ（ステアリングベクトル）を用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元する、オプションの結合強度復号器。
【００５６】
９）和差チャンネルのサブバンドサンプルから左右チャンネルのサブバンドサンプルを復元する、オプションの和差復号器。
【００５７】
１０）サブバンドサンプルから音声ＰＣＭサンプルを復元する可変分解能合成フィルタバンク。以下によって実現され得る。
【００５８】
ａ）高、中間および低分解能モード間で動作の切り替えが可能な合成フィルタバンク。
【００５９】
ｂ）高および低分解能モード間で切り替えが可能な合成フィルタバンクに基づくハイブリッド合成フィルタバンク。
【００６０】
ｉ）ビットストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符合化されたことを示す場合、この合成フィルタバンクは二段階ハイブリッドフィルタバンクであり、第１の段階は、任意分解能合成フィルタバンクまたは逆ＡＤＰＣＭのいずれかであり、第２の段階は、高および低周波数分解能モード間で切り替えが可能な適応合成フィルタバンクの低周波数分解能モードである。
【００６１】
ｉｉ）ビットストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符合化されたことを示す場合、この合成フィルタバンクは、単に、高周波数分解能モードにある切替可能分解能合成フィルタバンクである。
【００６２】
最後に、本発明は、切替可能分解能解析フィルタバンクの高周波数分解能モードが符号器によって禁止され、かつその後フレームサイズが低周波数分解能モードの切替可能分解能フィルタバンクのブロック長またはその倍数に縮小される場合に使用可能となる低符号化遅延モードを実現する。
【００６３】
本発明によれば、多チャンネルデジタル音声信号を符号化するための方法は、通常、多チャンネルデジタル音声信号からＰＣＭサンプルを生成し、ＰＣＭサンプルをサブバンドサンプルに変換するステップを含む。サブバンドサンプルを量子化することにより、境界を有する複数の量子化インデックスが生成される。量子化インデックスは、各量子化インデックスに、予め設計されたコードブックのライブラリから、当該量子化インデックスを収容可能な最小のコードブックを割り当てることにより、コードブックインデックスに変換される。コードブックインデックスは、格納または送信のために符号化データストリームを生成する前に、セグメント化および符号化される。
【００６４】
典型的には、ＰＣＭサンプルは、継続時間が２から５０ミリ秒（ｍｓ）である準定常フレームに入力される。例えば聴覚心理モデルを用いてマスキング閾値が算出される。ビットアロケータは、量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソースを割り当てる。
【００６５】
変換ステップは、高および低周波数分解能モード未満で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む。過渡の検出が行われ、過渡が検出されない場合には、高周波数分解能モードが用いられる。しかし、過渡が検出される場合は、分解能フィルタバンクは、低周波数分解能モードに切り替えられる。分解能フィルタバンクを低周波数分解能モードに切り替えると、サブバンドサンプルは、定常セグメントにセグメント化される。各定常セグメントに対する周波数分解能は、任意分解能フィルタバンクまたは適応差分パルス符号変調を用いて調整される。
【００６６】
フレームにおいて過渡が存在する場合には、合計ビット数を減少させるために、量子化インデックスを再配置してもよい。最適なエントロピーコードブックの適用境界を符号化するために、ランレングス符号器を用いることができる。セグメンテーションアルゴリズムを用いてもよい。
【００６７】
左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するために、和差符号器を用いてもよい。また、ソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、結合チャンネルにおける全ての関連するサブバンドサンプルを破棄するために、結合強度符号器を用いてもよい。
【００６８】
典型的には、完全なデータストリームを生成するための組み合わせステップは、符号化デジタル音声信号を復号器に格納するかまたは送信する前に、マルチプレクサを用いて行なわれる。
【００６９】
音声データビットストリームを復号化するための方法は、符号化音声データストリームを受信し、デマルチプレクサ等を用いてこのデータストリームをアンパッキングするステップを含む。エントロピーコードブックインデックスおよびそれらのそれぞれの適用範囲が復号化される。これには、ランレングス復号器およびエントロピー復号器が用いられ得る。これらは、量子化インデックスの復号化にさらに用いられる。
【００７０】
量子化インデックスは、現在のフレームにおいて過渡が検出される場合には、例えばデインタリーバを用いて再配置される。次に、復号化された量子化インデックスからサブバンドサンプルが復元される。低および高周波数分解能モード間で切り替えが可能な可変分解能合成フィルタバンクを用いて、復元されたサブバンドサンプルから音声ＰＣＭサンプルが復元される。データストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、可変合成分解能フィルタバンクは、二段階ハイブリッドフィルタバンクとして機能し、第１の段階は、任意分解能合成フィルタバンクまたは逆適応差分パルス符号変調のいずれかを含み、第２の段階は、可変合成フィルタバンクの低周波数分解能モードである。データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、可変分解能合成フィルタバンクは、高周波数分解能モードで動作する。
【００７１】
結合強度スケールファクタを用いてソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するために、結合強度復号器を用いてもよい。また、和差チャンネルのサブバンドサンプルから左右チャンネルのサブバンドサンプルを復元するために、和差復号器を用いてもよい。
【００７２】
本発明により、効率的な送信のために多チャンネル音声信号のビットレートを大幅に低減しつつ、元の信号と区別できないようなトランスペアレントな音声信号再生を実現する低ビットレートのデジタル音声符号化システムが提供される。
【００７３】
本発明のその他の特徴および利点は、本発明の原理を例証として示す添付の図面と併せた、以下のより詳細な説明により明らかとなるであろう。
【発明を実施するための最良の形態】
【００７４】
好ましい実施形態の詳細な説明
説明のための添付の図面に示すように、本発明は、効率的な送信または格納のために多チャンネル音声信号のビットレートを大幅に低減しつつ、トランスペアレントな音声再生を実現する、低ビットレートデジタル音声符号化および復号化システムに関する。すなわち、復号化された多チャンネル音声信号のビットレートは、アルゴリズムの複雑性が低いシステムを用いることによって低減され、しかも、復号器側で再生される音声信号は、専門的な聴取者でさえ元の音声と区別することができない。
【００７５】
図１に示すように、本発明の符号器５は、多チャンネル音声信号を入力として受け取り、限られたチャンネル容量を有する媒体上での送信または格納に適した大幅に低減されたビットレートのビットストリームにそれらを符号化する。復号器１０は、符号器５によって生成されたビットストリームを受信すると、これを復号化し、専門的な聴取者でさえ元の信号と区別できないような多チャンネル音声信号を復元する。
【００７６】
符号器５および復号器１０の内部では、多チャンネル音声信号は、離散的なチャンネルとして処理される。すなわち、各チャンネルは、結合チャンネル符号化２が明確に指定されない限り、他のチャンネルと同様に扱われる。これを、非常に簡略化された符号器構造および復号器構造によって図１に示す。
【００７７】
この非常に簡略化された符号器構造を用いて、符号化処理について以下に説明する。各チャンネルからの音声信号は、まず、解析フィルタバンク段階１においてサブバンド信号に分解される。全てのチャンネルからのサブバンド信号は、同じ周波数帯域に対応する異なるチャンネルからのサブバンド信号を混合することによりビットレートを低減するという人間の耳の知覚特性を利用する結合チャンネル符号器２に必要に応じて送られる。２において結合符号化され得るサブバンド信号は、次に、３において量子化およびエントロピー符号化される。全てのチャンネルからの量子化インデックスまたはそれらのエントロピー符号、およびサイド情報が、次に、４において、完全なビットストリームに多重化され、送信または格納される。
【００７８】
復号化側では、上記ビットストリームは、まず、６においてサイド情報、および量子化インデックスまたはそれらのエントロピー符号に多重分離される。エントロピー符号は、７において復号化される（なお、ハフマン符号等の接頭コードのエントロピー復号化、および多重分離は、通常、１つの統合されたステップにおいて行なわれる）。７において、量子化インデックスおよびサイド情報内に含まれるステップサイズからサブバンド信号が復元される。結合チャンネル符号化が符号器において行なわれた場合、８において結合チャンネル復号化が行なわれる。次に、合成段階９において、各チャンネルに対する音声信号が、サブバンド信号から復元される。
【００７９】
上記の非常に簡略化された符号器構造および復号器構造は、本発明において提示した符号化および復号化方法の離散的な性質を説明するためにのみ用いられている。音声信号の各チャンネルに実際に適用される符号化および復号化方法は、これらとは非常に異なり、かつより複雑である。以下において、これらの方法は、特に明記しない限り、音声信号の１つのチャンネルという状況において説明されている。
符号器
音声信号の１つのチャンネルを符号化するための一般的な方法を図２に示し、以下に説明する。
【００８０】
フレーマ１１は、入力ＰＣＭサンプルを継続時間が２から５０ｍｓの範囲である準定常フレームにセグメント化する。１つのフレームにおけるＰＣＭサンプルの正確な数は、可変分解能時間・周波数解析フィルタバンク１３で用いられる各種フィルタバンクのサブバンドの最大値の倍数でなければならない。サブバンドの最大数をＮとすると、１つのフレームにおけるＰＣＭサンプル数は、以下のようになる。
【００８１】
Ｌ＝ｋ・Ｎ
但し、ｋは、正の整数である。
【００８２】
過渡解析１２は、現在の入力フレームにおける過渡の存在を検出し、この情報を可変分解能解析バンク１３に送る。
【００８３】
ここでは、任意の公知の過渡検出方法を用いてもよい。本発明の一実施形態において、ＰＣＭサンプルの入力フレームは、可変分解能解析フィルタバンクの低周波数分解能モードに送られる。（ｍ，ｎ）がこのフィルタバンクからの出力サンプルを示し、ｍはサブバンドインデックスであり、ｎはサブバンド領域における時間インデックスであるとする。以下の記述を通して、「過渡検出距離」等の用語は、各時間インデックス対して定義された以下の距離基準を意味する。
【００８４】
【数１】

【００８５】
但し、Ｍは、フィルタバンクに対するサブバンド数である。その他の種類の距離基準も同様に適用することができる。
【００８６】
【数２】

【００８７】
がこの距離の値の最大値および最小値であるとすると、以下の場合に過渡の存在が宣言される。
【００８８】
【数３】

【００８９】
但し、閾値は０.５に設定し得る。
【００９０】
本発明は、可変分解能解析フィルタバンク１３を利用している。可変分解能解析フィルタバンクを実施するための多くの公知の方法が存在する。その主たるものは、高および低周波数分解能モード間で動作の切り替えが可能なフィルタバンクの使用であり、高周波数分解能モードは音声信号の定常セグメントを扱い、低周波数分解能モードは過渡を扱う。しかし、理論的および実用的な制限により、このような分解能の切替を時間的に任意に行なうことはできない。むしろ、これは、通常、フレーム境界において行なわれる、すなわち、フレームは、高周波数分解能モードまたは低周波数分解能モードのいずれかによって処理される。図７に示すように、過渡フレーム１３１に対しては、前エコーアーティファクトを避けるために、フィルタバンクは低周波数分解能モードに切り替わっている。過渡１３２それ自体は非常に短いものの、フレームの過渡前１３３および過渡後１３４のセグメントは、それよりもかなり長いため、低周波数分解能モードのフィルタバンクは、明らかに、これらの定常セグメントには不適合である。これにより、フレーム全体に対して達成され得る総符号化利得が大幅に制限される。
【００９１】
この問題に対処するために、本発明により３つの方法が提案される。基本的な概念は、１つの過渡フレームの定常的な大部分に対し、切替可能な分解能構造の範囲内でより高周波数分解能を与えるということである。
ハーフハイブリッドフィルタバンク
図３に示すように、これは、高および低周波数分解能モード間で切り替えが可能な切替可能分解能解析フィルタバンク２８で構成されるハイブリッドフィルタバンクであり、低周波数分解能モード２４においては、この後に、過渡セグメント化セクション２５、その次に、各サブバンドにおいて、オプションである任意分解能解析フィルタバンク２６が続く。
【００９２】
過渡検出器１２が過渡の存在を検出しない場合、切替可能分解能解析フィルタバンク２８は、低時間分解能モード２７に入り、これにより、強いトーン成分を有する音声信号に対して高い符号化利得を実現する高周波数分解能が確保される。
【００９３】
過渡検出器１２が過渡の存在を検出すると、切替可能分解能解析フィルタバンク２８は、高時間分解能モード２４に入る。これにより、過渡は、前エコーを防ぐために良好な時間分解能で扱われることが確実となる。このようにして生成されたサブバンドサンプルは、過渡セグメント化セクション２５によって、図６に示すような準定常セグメントにセグメント化される。以下の記述を通して、「過渡セグメント」等の用語は、これらの準定常セグメントを意味する。この後に、各サブバンドにおける任意分解能解析フィルタバンク２６が続き、そのサブバンド数は、各サブバンドの各過渡セグメントのサブバンドサンプル数に等しい。
【００９４】
切替可能分解能解析フィルタバンク２８は、高および低周波数分解能モード間で動作の切り替えが可能な任意のフィルタバンクを用いて実現することができる。本発明の一実施形態では、低周波数分解能および高周波数分解能に対応する短変換長および長変換長を有する一対のＤＣＴが用いられている。変換長をＭとすると、タイプ４のＤＣＴのサブバンドサンプルは以下のようにして得られる。
【００９５】
【数４】

【００９６】
但し、ｘ（．）は、入力ＰＣＭサンプルである。タイプ４のＤＣＴの代わりにその他の形態のＤＣＴを用いてもよい。
【００９７】
ＤＣＴはブロッキングアーティファクトを生じさせやすいため、本発明のより望ましい実施形態では、以下の変形されたＤＣＴ（ＭＤＣＴ）が用いられている。
【００９８】
【数５】

【００９９】
但し、ｗ（．）は、ウィンドウ関数である。
【０１００】
完全な復元を保証するために、ウィンドウ関数は、以下のウィンドウの各半分において動力学的に対称でなくてはならない。
【０１０１】
ｗ²（ｋ）＋ｗ²（Ｍ−ｋ）＝１ｋ＝０，．．．，Ｍ−ｌの場合
ｗ²（ｋ＋Ｍ）＋ｗ²（２Ｍ−１−ｋ）＝１ｋ＝０，．．．，Ｍ−ｌの場合
上記条件を満たす任意のウィンドウを用いることができるが、以下のサインウィンドウのみが、入力信号のＤＣ成分が第１の変換係数に集中する良好な特性を有する。
【０１０２】
【数６】

【０１０３】
ＭＤＣＴが高および低周波数モード、すなわちロングウィンドウとショートウィンドウとの間で切り替えられる場合に完全な復元を維持するためには、ロングウィンドウとショートウィンドウとの重なり部分は、同じ形状を有していなければならない。
【０１０４】
入力ＰＣＭサンプルの過渡特性によっては、符号器は、ロングウィンドウ（図５の第１のウィンドウ６１）を選択し、ショートウィンドウ（図５の第４のウィンドウ６４で示す）のシーケンスに切り替え、そして戻ってもよい。図５のロングからショートへ移行するロングウィンドウ６２およびショートからロングへ移行するロングウィンドウ６３は、このような切替をつなぐために必要とされる。図５のショートからショートへ移行するロングウィンドウ６５は、２つの過渡が互いに非常に近いがショートウィンドウの連続適用を保証するほど近くない場合に有用である。符号器は、ＰＣＭサンプルの復元に同じウィンドウが用いられるよう、各フレームに対して用いられたウィンドウタイプを復号器に伝える必要がある。
【０１０５】
ショートからショートへ移行するロングウィンドウの利点は、わずかフレーム１つ分だけ離れた過渡を扱うことができることである。図１７の上部６７に示すように、従来技術のＭＤＣＴは、少なくともフレーム２つ分隔たった間隔の過渡を扱うことができる。図１７の下部６８に示すように、このショートからショートへ移行するロングウィンドウを用いて、これをたった１フレームに短縮することができる。
【０１０６】
本発明では、次に、過渡セグメント化２５が行なわれる。過渡セグメント化は、その値の０から１または１から０への変化を用いて、過渡すなわちセグメント化境界の位置を示す２項関数によって表すことができる。例えば、図６の準定常セグメント化は、以下のように表すことができる。
【０１０７】
【数７】

【０１０８】
なお、Ｔ（ｎ）＝０は、時間インデックスｎにおける音声信号エネルギーが高いということを必ずしも意味せず、逆もまた同様である。以下の記述を通して、この関数Ｔ（ｎ）を、「過渡セグメント関数」等と呼ぶ。このセグメント関数によって搬送される情報は、直接または非間接的に復号器に伝えなければならない。０および１のラン長さを符号化するランレングス符号化は、効率的な選択である。上記の具体例の場合、Ｔ（ｎ）は、ランレングス符号５、５および７を用いて復号器に伝えることができる。ランレングス符号を、さらにエントロピー符号化してもよい。
【０１０９】
過渡セグメント化セクション２５は、任意の公知の過渡セグメント化方法を用いて実現され得る。本発明の一実施形態において、過渡セグメント化は、過渡検出距離の単純な閾値化によって達成することができる。
【０１１０】
【数８】

【０１１１】
閾値は、以下のように設定してもよい。
【０１１２】
【数９】

【０１１３】
但し、ｋは、調整可能な定数である。
【０１１４】
本発明のより複雑な実施形態は、以下のステップを含むｋ平均クラスタリングアルゴリズムに基づいている。
【０１１５】
１）可能であれば上記の閾値化アプローチの結果を用いて、過渡セグメント化関数Ｔ（ｎ）を初期化する。
【０１１６】
２）各クラスタの質量中心を算出する。
【０１１７】
【数１０】

【０１１８】
３）以下の規則に基づいて、過渡セグメント化関数Ｔ（ｎ）を割り当てる。
【０１１９】
【数１１】

【０１２０】
４）ステップ２に進む。
【０１２１】
任意分解能解析フィルタバンク２６は、基本的にＤＣＴ等の変換であり、そのブロック長は、各サブバンドセグメントのサンプル数に等しい。１つのフレーム内に１つのサブバンド当たり３２のサブバンドサンプルが存在し、それらが（９、３、２０）としてセグメント化されるとすると、９、３、および２０のブロック長を有する３つの変換が、３つのサブバンドセグメントのそれぞれにおけるサブバンドサンプルにそれぞれ適用されることになる。以下の記述を通して、「サブバンドセグメント」等の用語は、１つのサブバンド内の１つの過渡セグメントのサブバンドサンプルを意味する。ｍ番目のサブバンドの最後のセグメント（９、３、２０）における変換は、タイプ４のＤＣＴを用いて以下のように示すことができる。
【０１２２】
【数１２】

【０１２３】
この変換により、各過渡セグメント内の周波数分解能が高くなるので、良好な符号化利得が期待される。しかし、多くのケースにおいては、符号化利得は１未満であるかまたは小さすぎる。したがって、このような変換の結果を破棄して、サイド情報によってこの決定を復号器に知らせることが有益であり得る。サイド情報に関連するオーバヘッドのため、変換結果が破棄されるか否かの判定が、サブバンドセグメントのグループに基づいて行なわれる場合、すなわち、この判定を伝えるために、各サブバンドセグメントに対して１ビットを用いる代わりに、サブバンドセグメントグループに対して１ビットを用いる場合、総符号化利得が向上し得る。
【０１２４】
以下の記述を通して、「量子化ユニット」等の用語は、同じ聴覚心理臨界帯域に属する過渡セグメント内のサブバンドセグメントの連続したグループを意味する。１つの量子化ユニットは、上記の判定を下すための好適なサブバンドセグメントのまとまりであり得る。これを用いる場合、１つの量子化ユニットにおける全てのサブバンドセグメントに対して合計符号化利得が算出される。符号化利得が１を超えるか、あるいは別のより高い閾値である場合、変換結果は、その量子化ユニットにおける全てのサブバンドセグメントについて保持される。そうでない場合、結果は破棄される。この判定を、上記量子化ユニットにおける全てのサブバンドセグメントについて復号器に伝えるために必要なのはたった１ビットである。
切替可能フィルタバンク＋ＡＤＰＣＭ
図４に示すように、任意分解能解析フィルタバンク２６の代わりにＡＤＰＣＭ２９が用いられていることを除いて、基本的には図３に示されるものと同じである。サイド情報のコストを削減するため、ここでもまた、ＡＤＰＣＭを用いるべきか否かの判定は量子化ユニット等のサブバンドセグメントのグループに基づいて行なわれる。サブバンドセグメントのグループは、１組の予測係数を共有することすら可能である。ここでは、ＬＡＲ（対数領域比）、ＩＳ（逆正弦）およびＬＳＰ（線スペクトル対）等の、予測係数の量子化のための公知の方法を用いることができる。
３モード切替可能フィルタバンク
高および低分解能モードのみを有する通常の切替可能フィルタバンクとは異なり、このフィルタバンクは、高、中間および低分解能モード間で動作の切り替えが可能である。高および低周波数分解能モードは、２モード切替可能フィルタバンクと同じタイプの原則にしたがって、それぞれ、定常フレームおよび過渡フレームへの適用が意図されている。中間分解能モードの主たる用途は、過渡フレーム内の定常セグメントにより良好な周波数分解能を与えることである。したがって、１つの過渡フレーム内では、過渡セグメントに低周波数分解能モードが適用され、フレームの残りには中間分解能モードが適用される。このことは、上記切替可能フィルタバンクは、従来技術とは異なり、単一フレーム内の音声データに対して２つの分解能モードで動作が可能であることを意味している。中間分解能モードは、滑らかな過渡を含むフレームを扱うためにも用いることができる。
【０１２５】
以下の記述を通して、「ロングブロック」等の用語は、高周波数分解能モードのフィルタバンクが各時刻インスタンスにおいて出力する１つのサンプルブロックを意味し、「ミディアムブロック」等の用語は、中間周波数分解能モードのフィルタバンクが各時刻インスタンスにおいて出力する１つのサンプルブロックを意味し、「ショートブロック」等の用語は、低周波数分解能モードのフィルタバンクが各時刻インスタンスにおいて出力する１つのサンプルブロックを意味する。これら３つの定義を用いて、３つのタイプのフレームを以下のように説明することができる。
【０１２６】
−定常フレームを扱うために高周波数分解能モードで動作するフィルタバンクによるフレーム。通常、このようなフレームは、それぞれ、１つまたはそれ以上のロングブロックで構成される。
【０１２７】
−過渡を含むフレームを扱うために高および中間時間分解能モードで動作するフィルタバンクによるフレーム。このようなフレームは、それぞれ、いくつかのミディアムブロックといくつかのショートブロックとで構成される。全ショートブロックに対する合計サンプル数は、１つのミディアムブロックに対するサンプル数の数に等しい。
【０１２８】
−滑らかな過渡を含むフレームを扱うために中間分解能モードで動作するフィルタバンクによるフレーム。このようなフレームは、いくつかのミディアムブロックで構成される。
【０１２９】
この新しい方法の利点を図８に示す。これは、図７の低周波数分解能モードによって処理されたセグメント（１４１、１４２、および１４３）の多くが今度は中間周波数分解能モードによって処理されることを除いて、図７に示すものと基本的に同じである。これらのセグメントは定常的であるため、低周波数分解能モードよりも中間周波数分解能モードの方が明らかに適している。したがって、より高い符号化利得が期待される。
【０１３０】
本発明の一実施形態では、低、中間および高周波数分解能モードに対応する小、中および大ブロック長を有する三つ組のＤＣＴが用いられている。
【０１３１】
ブロッキング効果の無い、本発明のより望ましい実施形態では、小、中および大ブロック長を有する三つ組のＤＣＴが用いられている。中間分解能モードの導入により、図５に示すものに加えて、図９に示すウィンドウタイプが許可される。これらのウィンドウについて以下に説明する。
【０１３２】
−ミディアムウィンドウ１５１。
【０１３３】
−ロングからミディアムへ移行するロングウィンドウ１５２（ロングウィンドウからミディアムウィンドウへの移行をつなぐロングウィンドウ）。
【０１３４】
−ミディアムからロングへ移行するロングウィンドウ１５３（ミディアムウィンドウからロングウィンドウへの移行をつなぐロングウィンドウ）。
【０１３５】
−ミディアムからミディアムへ移行するロングウィンドウ１５４（ミディアムウィンドウから別のミディアムウィンドウへの移行をつなぐロングウィンドウ）。
【０１３６】
−ミディアムからショートへ移行するミディアムウィンドウ１５５（ミディアムウィンドウからショートウィンドウへの移行をつなぐミディアムウィンドウ）。
【０１３７】
−ショートからミディアムへ移行するミディアムウィンドウ１５６（ショートウィンドウからミディアムウィンドウへの移行をつなぐミディアムウィンドウ）。
【０１３８】
−ミディアムからショートへ移行するロングウィンドウ１５７（ミディアムウィンドウからショートウィンドウへの移行をつなぐロングウィンドウ）。
【０１３９】
−ショートおよびミディアムへ移行するロングウィンドウ１５８（ショートウィンドウからミディアムウィンドウへの移行をつなぐロングウィンドウ）。
【０１４０】
なお、図５のショートからショートへ移行するロングウィンドウ６５と同様に、ミディアムからミディアムへ移行するロングウィンドウ１５４、ミディアムからショートへ移行するロングウィンドウ１５７、およびショートからミディアムへ移行するロングウィンドウ１５８により、３モードＭＤＣＴは、１フレーム分だけ離れた過渡を扱うことが可能となる。
【０１４１】
図１０は、ウィンドウシーケンスのいくつかの例を示している。１６１は、本実施形態の、中間分解能１６７を用いて遅い過渡を扱うことができる能力を示し、１６２から１６６は、過渡に対して高時間分解能１６８を割り当て、同じフレーム内の定常セグメントに対して中間時間分解能１６９を割り当て、かつ定常フレームに対して高周波数分解能１７０を割り当てる能力を示している。
【０１４２】
ここでは、通常の和差符号化方法１４を適用することができる。例えば、このために用いる簡単な方法は以下の通りであってもよい。
【０１４３】
和チャンネル＝０．５（左チャンネル＋右チャンネル）
和チャンネル＝０．５（左チャンネル＋右チャンネル）
ここでは、通常の結合強度符号化方法１５を用いることができる。簡単な方法は、以下の通りであってもよい。
【０１４４】
−ソースチャンネルをソースチャンネルと結合チャンネルとの和で置き換える。
【０１４５】
−それを、量子化ユニット内の元のソースチャンネルと同じエネルギーレベルに調整する。
【０１４６】
−当該量子化ユニット内の結合チャンネルのサブバンドサンプルを破棄し、以下のように定義されるスケールファクタ（本発明においては、「ステアリングベクトル」または「スケーリングファクタ」と言う）の量子化インデックスのみを復号器に伝える。
【０１４７】
【数１３】

【０１４８】
人間の耳の知覚特性に適合させるために、ステアリングベクトルの、対数量子化といった不均一な量子化が用いられる。ステアリングベクトルの量子化インデックスにエントロピー符号化を適用することができる。
【０１４９】
ソースチャンネルと結合チャンネルとの相殺効果を避けるため、これらの位相差が１８０度に近い場合は、これらを合計して結合チャンネルを形成する際に、極性を付与してもよい。
【０１５０】
和チャンネル＝ソースチャンネル＋極性・結合チャンネル。
【０１５１】
上記極性は、復号器にも伝えられなければならない。
【０１５２】
聴覚心理モデル２３は、人間の耳の知覚特性に基づいて、音声サンプルの現在の入力フレームの、それ未満では量子化雑音が聞こえる見込みのないマスキング閾値を算出する。ここでは、任意の通常の聴覚心理モデルを用いることができるが、本発明では、聴覚心理モデルは量子化ユニットのそれぞれに対するマスキング閾値を出力する必要がある。
【０１５３】
グローバルビットアロケータ１６は、各量子化ユニットにおける量子化雑音パワーがそれぞれのマスキング閾値未満となるように、フレームに対して利用可能なビットリソースを各量子化ユニットに一括で割り当てる。グローバルビットアロケータ１６は、量子化ステップサイズを調整することにより、各量子化ユニットに対する量子化雑音パワーを制御する。量子化ユニット内の全てのサブバンドサンプルは、同じステップサイズを用いて量子化される。
【０１５４】
ここでは、あらゆる公知のビット割当方法を用いることができる。このような方法の１つは、周知の注水アルゴリズムである。その基本的な概念は、ＱＮＭＲ（量子化雑音対マスク比）が最も高い量子化ユニットを見つけ、その量子化ユニットに割り当てられたステップサイズを減少させて量子化雑音を低減させることである。このアルゴリズムは、ＱＮＭＲが全ての量子化ユニットについて１未満（もしくは任意の他の閾値）となるか、または現在のフレームに対するビットリソースがなくなるまでこのプロセスを繰り返す。
【０１５５】
量子化ステップサイズは、これをビットストリームにパッキングすることができるように、それ自体量子化されなければならない。人間の知覚特性に適合させるために、対数量子化といった不均一な量子化が用いられる。ステップサイズの量子化インデックスにエントロピー符号化を適用することができる。
【０１５６】
本発明では、グローバルビット割当１６によって与えられるステップサイズを用いて、各量子化ユニット内の全てのサブバンドサンプルを１７において量子化する。ここでは、あらゆる線形または非線形の、または均一または不均一な量子化方法を用いることができる。
【０１５７】
インタリービング１８は、現在のフレームにおいて過渡が存在する場合のみ、必要に応じて呼び出してもよい。ｘ（ｍ，ｎ，ｋ）が、ｍ番目の準定常セグメントおよびｎ番目のサブバンドにおけるｋ番目の量子化インデックスであるとする。（ｍ，ｎ，ｋ）は、通常、量子化インデックスが配置される順序である。インタリービングセクション１８は、量子化インデックスが（ｎ，ｍ，ｋ）として配置されるようにこれらを再配置する。この動機付けとなっているのは、このように量子化インデックスを再配置することにより、上記インデックスの符号化に必要なビット数が、インデックスのインタリービングが行なわれない場合よりも少なくなり得るということである。インタリービングを呼び出すか否かの判定は、サイド情報として復号器に伝えなければならない。
【０１５８】
従来の音声符号化アルゴリズムでは、エントロピーコードブックの適用範囲は量子化ユニットと同じであるため、エントロピー符号ブックは、量子化ユニット内の量子化インデックスによって決定される（図１１の上部を参照）。したがって、最適化の余地はない。
【０１５９】
本発明は、この点において全く異なっている。本発明では、コードブックの選定に関しては、量子化ユニットの存在は無視される。その代わりに、本発明では、１９において各量子化インデックスに最適なコードブックを割り当て、それによって、実質的に、量子化インデックスをコードブックインデックスに変換する。次に、これらのコードブックインデックスを、境界がコードブックの適用範囲を規定している、より大きいセグメントにセグメント化する。コードブックのこれらの適用範囲は、量子化ユニットによって決定されるものとは非常に異なることは明らかである。これらは量子化インデックスの長所にのみ基づいているため、結果として選択されるコードブックは、量子化インデックスにより適している。その結果、量子化インデックスを復号器に伝えるために必要なビットは少なくなる。
【０１６０】
このアプローチの従来技術に対する利点を図１１に示す。図１１において最も大きい量子化インデックスを参照されたい。それは量子化ユニットｄに含まれており、従来のアプローチを用いると、大きいコードブックが選択されることになる。この大きいコードブックは、量子化ユニットｄにおけるインデックスのほとんどがこれよりもかなり小さいため、明らかに最適ではない。一方、本発明の新しいアプローチを用いると、同じ量子化インデックスはセグメントＣにセグメント化され、したがって他の大きい量子化インデックスと１つのコードブックを共有している。また、セグメントＤにおける全ての量子化インデックスは小さいため、小さいコードブックが選択される。したがって、量子化インデックスの符号化に必要なビットは少なくなる。
【０１６１】
次に図１２を参照すると、従来技術のシステムでは、コードブックインデックスのみをサイド情報として復号器に伝えることだけが必要とされている。なぜなら、これらの適用範囲は、予め定められた量子化ユニットと同じであるからである。しかし、新しいアプローチでは、コードブックの適用範囲は量子化ユニットに依存していないため、コードブックインデックスに加えて、これらをサイド情報として復号器に伝える必要がある。適切な扱いがなされなければ、このさらなるオーバヘッドにより、サイド情報および量子化インデックス対するビット数が全体的に増える可能性がある。したがって、コードブックインデックスをより大きいセグメントにセグメント化することは、オーバヘッドを制御するために非常に重要である。セグメントが大きくなるということは、復号器に伝える必要のあるコードブックインデックス数およびこれらの適用範囲が少なくなることを意味するからである。
【０１６２】
本発明の一実施形態では、コードブックの選択に対するこの新しいアプローチを実現するために以下のステップが用いられている。
【０１６３】
１）量子化インデックスを、それぞれがＰ個の量子化インデックスで構成されるグラニュールにブロック化する。
【０１６４】
２）各グラニュールに対する最大コードブック要件を決定する。対称量子化器の場合、これは、通常、各グラニュール内の量子化インデックスの最大絶対値によって表される。
【０１６５】
【数１４】

【０１６６】
但し、Ｉ（．）は、量子化インデックスである。
【０１６７】
３）グラニュールに、最大コードブック要件を収容可能な最小のコードブックを割り当てる。
【０１６８】
【数１５】

【０１６９】
４）最も隣接したコードブックインデックスよりも小さいコードブックインデックスの孤立したポケットを、これらのコードブックインデックスを最も隣接したコードブックインデックスのうち最小のコードインデックスに上げることによって削除する。これを、７１から７２、７３から７４、７７から７８、および７９から８０へのマッピングにより図１２に示す。ゼロ量子化インデックスに対応するコードブックインデックスに深い窪みを有する孤立したポケットは、この処理から除外してもよい。なぜなら、このコードブックは、転送する必要があるコードが存在しないことを示しているからである。これを、７５から７６のマッピングとして図１２に示す。
【０１７０】
このステップにより、復号器に伝える必要のあるコードブックインデックス数およびにそれらの適用範囲は明らかに減少した。
【０１７１】
本発明の一実施形態では、コードブックの適用範囲を符号化するためにランレングス符号が用いられており、ランレングス符号は、エントロピー符号を用いてさらに符号化することができる。
【０１７２】
全ての量子化インデックスは、エントロピーコードブック選択装置１９が決定するコードブックおよびこれらのそれぞれの適用範囲を用いて２０において符号化される。
【０１７３】
エントロピー符号化は、各種ハフマンコードブックを用いて実現され得る。１つのコードブックにおける量子化レベル数が小さい場合、多数の量子化インデックスをまとめてブロック化し、より大きいハフマンコードブックを形成することができる。量子化レベル数が大きすぎる（例えば、２００を超える）場合は、再帰的な指標付けが用いられる。このために、大きい量子化インデックスｑは、以下のように表すことができる。
【０１７４】
ｑ＝ｍ・Ｍ＋ｒ
但し、Ｍはモジュラであり、ｍは商であり、ｒは剰余である。ｍおよびｒのみを復号器に伝える必要がある。これらのうちいずれかまたは両方をハフマン符号を用いて符号化することができる。
【０１７５】
エントロピー符号化は、各種演算コードブックを用いて実現され得る。量子化レベル数が大きすぎる（例えば、２００を超える）場合、再帰的な指標付けも用いられる。
【０１７６】
上記のハフマン符号化および演算符号化の代わりに、他のタイプのエントロピー符号化を用いてもよい。
【０１７７】
量子化インデックスの全てまたは一部を、エントロピー符号化を用いずに直接的にパッキングすることもまた望ましい選択である。
【０１７８】
可変分解能フィルタバンクが低および高分解能モードにある場合、量子化インデックスの統計的特性は明らかに異なるため、本発明の一実施形態では、エントロピーコードブックの２つのライブラリを用いてこれら２つのモードにある量子化インデックスをそれぞれ符号化する。中間分解能モードに対しては、第３のライブラリを用いてもよい。中間分解能モードは、高分解能モードまたは低分解能モードのいずれかとライブラリを共有してもよい。
【０１７９】
本発明は、全ての量子化インデックスおよびその他のサイド情報に対する全コードを完全なビットストリームに多重化２１する。サイド情報には、量子化ステップサイズ、サンプルレート、スピーカー構成、フレームサイズ、準定常セグメント長、エントロピーコードブックに対するコード等が含まれる。時刻コード等のその他の補助的な情報も、上記ビットストリームにパッキングすることができる。
【０１８０】
従来技術のシステムでは、各過渡セグメントに対する量子化ユニット数を復号器に伝える必要があった。なぜなら、量子化ステップサイズ、量子化インデックスコードブックおよび量子化インデックスそれ自体のアンパッキングは、量子化ユニット数に依存しているからである。しかし、本発明においては、量子化インデックスコードブックおよびその適用範囲の選択は、エントロピーコードブック選択１９の特殊な方法によって量子化ユニットから切り離されているため、量子化インデックスを量子化ユニット数が必要になる前にアンパッキングすることができるように、ビットストリームを構築することができる。量子化インデックスは、一旦アンパッキングされると、量子化ユニット数の復元に用いることができる。これを復号器において説明する。
【０１８１】
上記の検討を踏まえ、本発明の一実施形態では、ハーフハイブリッドフィルタバンクまたは切替可能フィルタバンク＋ＡＤＰＣＭが用いられる場合、図１６に示すようなビットストリーム構造が用いられている。これは、基本的に以下のセクションで構成される。
【０１８２】
−シンクワード８１：音声データのフレームの開始を示す。
【０１８３】
−フレームヘッダ８２：サンプルレート、正規チャンネル数、ＬＦＥ（低周波数効果）チャンネル数およびスピーカー構成等の、音声信号に関する情報を含む。
【０１８４】
−チャンネル１，２，．．．，Ｎ８３,８４,８５：各チャンネルに対する全ての音声データがここにパッキングされている。
【０１８５】
−補助データ８６：時刻コード等の補助的なデータを含む。
【０１８６】
−エラー検出８７：ビットストリームエラーが検出された際にエラー処理手順を行なうことができるよう、ここでエラー検出コードが挿入され、現在のフレームにおけるエラーの発生が検出される。
【０１８７】
各チャンネルに対する音声データは、さらに、以下のように構造化される。
【０１８８】
−ウィンドウタイプ９０：復号器が同じウィンドウを用いることができるように、例えば図５に示すウィンドウのような、符号器において用いられているウィンドウを示す。
【０１８９】
−過渡位置９１:過渡を含むフレームに対してのみ出現する。これは、各過渡セグメン
トの位置を示す。ランレングス符号が用いられている場合、これは、各過渡セグメントの長さがパッキングされている場所である。
【０１９０】
−インタリービング判定９２：量子化インデックスをデインタリーブするか否かを復号器が知ることができるように、各過渡セグメントに対する量子化インデックスがインタリーブされているか否かを示す１ビット（過渡フレームにおいてのみ）。
【０１９１】
−コードブックインデックスおよび適用範囲９３：エントロピーコードブック、および量子化インデックスに対するそれらのそれぞれの適用範囲に関する全ての情報を伝える。以下のセクションで構成される。
【０１９２】
・コードブック数１０１：現在のチャンネルの各過渡セグメントに対するエントロピーコードブック数を伝える。
【０１９３】
・適用範囲１０２：量子化インデックスまたはグラニュールに関して、各エントロピーコードブックに対する適用範囲を伝える。エントロピー符号を用いてこれらをさらに符合化してもよい。
【０１９４】
・コードブックインデックス１０３：上記インデックスをエントロピーコードブックに伝える。エントロピー符号を用いてこれらをさらに符合化してもよい。
【０１９５】
−量子化インデックス９４：現在のチャンネル全ての量子化インデックスに対するエントロピー符号を伝える。
【０１９６】
−量子化ステップサイズ９５：上記インデックスを各量子化ユニットの量子化ステップサイズに運ぶ。エントロピー符号を用いてこれをさらに符号化してもよい。
【０１９７】
上記に説明したように、ステップサイズインデックス数または量子化ユニット数は、４９に示すように、復号器によって量子化インデックスから復元されることになる。
【０１９８】
−任意分解能フィルタバンク判定９６:各量子化ユニットに対して１ビット。切替可能
分解能解析フィルタバンク２８が低周波数分解能モードにある場合にのみ出現する。任意分解能フィルタバンク復元（５１または５５）を量子化ユニット内の全てのサブバンドセグメントに対して実行すべきか否かを復号器に指示する。
【０１９９】
−和差符号化判定９７：和差符号化された量子化ユニットの１つに対して１ビット。オプションであり、和差符号化が用いられる場合にのみ出現する。和差復号化４７を実行するか否かを復号器に指示する。
【０２００】
−結合強度符号化判定およびステアリングベクトル９８：結合強度復号化を行なうか否かの情報を復号器に伝える。オプションであり、結合チャンネルの結合強度符号化された結合量子化ユニットに対してのみ、かつ、符号器によって結合強度符号化が用いられている場合にのみ出現する。以下のセクションで構成される。
【０２０１】
・判定１２１：各結合量子化ユニットに対して１ビットであり、量子化ユニットにおけるサブバンドサンプルに対する結合チャンネル復号化を行なうか否かを復号器に示す。
【０２０２】
・極性１２２：各結合量子化ユニットに対して１ビットであり、ソースチャンネルに対する結合チャンネルの極性を表す。
【０２０３】
【数１６】

【０２０４】
・ステアリングベクトル１２３：結合量子化ユニット１つにつき１つのスケールファクタ。エントロピー符号化してもよい。
【０２０５】
−補助データ９９：ダイナミックレンジ制御についての情報等の補助的なデータを含む。
【０２０６】
３モード切替可能フィルタバンクが用いられている場合、ビットストリーム構造は、以下を除き、上記と同じである。
【０２０７】
−ウィンドウタイプ９０：復号器が同じウィンドウを用いることができるように、図５および図９に示すウィンドウのような、符号器において用いられているウィンドウを示す。なお、過渡を含むフレームについては、このウィンドウタイプは、フレームの最後のウィンドウのみを指す。なぜなら、残りのウィンドウは、このウィンドウタイプ、過渡の位置、および最後のフレームで用いられている最後のウィンドウから推測が可能であるからである。
【０２０８】
−過渡位置９１：過渡を含むフレームに対してのみ出現する。まず、このフレームが遅い過渡１７１を含むフレームであるか否かを示す。そうでない場合、次に、ミディアムブロック１７２およびその次にショートブロック１７３に関して、過渡位置を示す。
【０２０９】
−任意分解能フィルタバンク判定９６：無関係であり、したがって用いられていない。
復号器
本発明の復号器は、基本的に符号器と逆の処理を実施する。これを図１３に示し、以下に説明する。
【０２１０】
デマルチプレクサ４１は、ビットストリームから、量子化インデックスおよび量子化ステップサイズ、サンプルレート、スピーカー構成および時刻コード等のサイド情報に対するコードを多重分離する。ハフマン符号等の接頭エントロピー符号が用いられている場合、このステップは、エントロピー復号化と共に１つのステップに統合される。
【０２１１】
量子化インデックスコードブック復号器４２は、ビットストリームから、量子化インデックスおよびこれらのそれぞれの適用範囲に対するエントロピーコードブックを復号化する。
【０２１２】
エントロピー復号器４３は、量子化インデックスコードブック復号器４２から供給されるエントロピーコードブックおよびそれらのそれぞれの適用範囲に基づいて、ビットストリームから量子化インデックスを復号化する。
【０２１３】
デインタリービング４４は、現在のフレームにおいて過渡が存在する場合にのみ、必要に応じて適用することが可能である。ビットストリームからアンパッキングされた判定ビットが符号器においてインタリービング１８が呼び出されたことを示す場合、量子化インデックスをデインタリーブする。そうでない場合は、量子化インデックスを変形を行なうことなく通過させる。
【０２１４】
本発明は、各過渡セグメントに対する非ゼロ量子化インデックスから量子化ユニット数を４９において復元する。ｑ（ｍ，ｎ）が、ｍ番目の過渡セグメントに対するｎ番目のサブバンドの量子化インデックスであるとすると（フレームにおいて過渡が存在しない場合、１つの過渡セグメントのみが存在する）、非ゼロ量子化インデックスを含む最大サブバンドは、各過渡セグメントに対して、以下のように求められる。
【０２１５】
【数１７】

【０２１６】
１つの量子化ユニットは、周波数臨界帯域および時間的な過渡セグメントによって定義されるので、各過渡セグメントに対する量子化ユニット数は、Ｂａｎｄ_max（ｍ）を収容可能な最小臨界帯域である。Ｂａｎｄ（Ｃｂ）がＣｂ番目の臨界帯域に対する最大サブバンドであるとすると、量子化ユニット数は、各過渡セグメントｍに対して、以下のように求められる。
【０２１７】
【数１８】

【０２１８】
量子化ステップサイズアンパッキング５０は、各量子化ユニットに対し、ビットストリームから量子化ステップサイズをアンパッキングする。
【０２１９】
逆量子化４５は、各量子化ユニットに対し、各自の量子化ステップサイズを含む量子化インデックスからサブバンドサンプルを復元する。
【０２２０】
ビットストリームが、符号器において結合強度符号化１５が呼び出されたことを示す場合、結合強度復号化４６は、ソースチャンネルからサブバンドサンプルをコピーし、それらに極性およびステアリングベクトルを乗じて、各結合チャンネルに対するサブバンドサンプルを復元する。
【０２２１】
結合チャンネル＝極性・ステアリングベクトル・ソースチャンネル
ビットストリームが、符号器において和差符号化１４が呼び出されたことを示す場合、和差復号器４７は、和差チャンネルから左右チャンネルを復元する。和差符号化１４において記述されている和差符号化例に対応して、左右チャンネルは、以下のように復元される。
【０２２２】
左チャンネル＝和チャンネル＋差チャンネル
右チャンネル＝和チャンネル−差チャンネル
本発明の復号器には、可変分解能合成フィルタバンク４８が組み込まれており、これは、信号の符号化に用いられた解析フィルタバンクと基本的に逆である。
【０２２３】
符号器において３モード切替可能分解能解析フィルタバンクが用いられている場合、これに対応する合成フィルタバンクの動作は一意的に決まり、合成処理において同じウィンドウシーケンスを用いることが必要となる。
【０２２４】
符号器においてハーフハイブリッドフィルタバンクまたは切替可能フィルタバンク＋ＡＤＰＣＭが用いられている場合、符号化処理は、以下のように説明される。
【０２２５】
・ビットストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンク２８を用いて符号化されたことを示す場合、切替可能分解能合成フィルタバンク５４は、これに応じて高周波数分解能モードに入り、サブバンドサンプルからＰＣＭサンプルを復元する（図１４および図１５を参照）。
【０２２６】
・ビットストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンク２８を用いて符号化されたことを示す場合、サブバンドサンプルは、まず、任意分解能合成フィルタバンク５１（図１４）または逆ＡＤＰＣＭ５５（図１５）に送られ、符号器においてどちらが用いられたかに応じて、それぞれの合成処理に供される。その後、これらの合成されたサブバンドサンプルから、低周波数分解能モード５３の切替可能分解能合成フィルタバンクによりＰＣＭサンプルが復元される。
【０２２７】
合成フィルタバンク５２、５１および５５は、それぞれ、解析フィルタバンク２８、２６および２９の逆である。これらの構造および動作処理は、上記解析フィルタバンクによって一意的に決まる。したがって、符号器においてどのような解析フィルタバンクが用いられても、それに対応する合成フィルタバンクを復号器において用いなければならない。
低符号化遅延モード
切替可能分解能解析バンクの高周波数分解能モードが符号器によって却下された場合、フレームサイズは、その後、低分解能モードの切替可能分解能フィルタバンクのブロック長またはその倍数に削減される。この結果、フレームサイズは小さくなり、したがって、符号器および復号器の動作に必要な遅延は低くなる。これが、本発明の低符号化遅延モードである。
【０２２８】
説明のためにいくつかの実施形態を詳細に示したが、本発明の範囲および精神から逸脱することなく、各実施形態に対して様々な変形が可能である。したがって、本発明は、添付の請求項によって以外は限定されない。
【図面の簡単な説明】
【０２２９】
【図１】図１は、本発明による多チャンネルデジタル音声信号の符号化および復号化を示す模式図である。
【図２】図２は、本発明に従って利用される例示的な符号器の模式図である。
【図３】図３は、本発明に従って用いられる、任意分解能フィルタバンクを含む可変分解能解析フィルタバンクの模式図である。
【図４】図４は、ＡＤＰＣＭを含む可変分解能解析フィルタバンクの模式図である。
【図５】図５は、本発明による切替可能ＭＤＣＴに対して許可されたウィンドウタイプの模式図である。
【図６】図６は、本発明による過渡セグメント化を示す模式図である。
【図７】図７は、本発明による、２つの分解能モードを有する切替可能フィルタバンクの適用を示す模式図である。
【図８】図８は、本発明による、３つの分解能モードを有する切替可能フィルタバンクの適用を示す模式図である。
【図９】図９は、図５と同様の、本発明による、３つの分解能モードを有する切替可能ＭＤＣＴに対して許可された更なるウィンドウタイプの模式図である。
【図１０】図１０は、本発明による、３つの分解能モードを有する切替可能ＭＤＣＴの１組のウィンドウシーケンス例を示す。
【図１１】図１１は、従来技術と比較した、本発明によるエントロピーコードブックの決定を示す模式図である。
【図１２】図１２は、本発明による、コードブックインデックスの大きいセグメントへのセグメント化、またはコードブックインデックスの孤立したポケットの削除を示す模式図である。
【図１３】図１３は、本発明を実施する復号器の模式図である。
【図１４】図１４は、本発明による、任意分解能フィルタバンクを含む可変分解能合成フィルタバンクの模式図である。
【図１５】図１５は、逆ＡＤＰＣＭを含む可変分解能合成フィルタバンクの模式図である。
【図１６】図１６は、本発明による、ハーフハイブリッドフィルタバンクまたは切替可能フィルタバンク＋ＡＤＰＣＭが用いられている場合のビットストリーム構造の模式図である。
【図１７】図１７は、わずか１フレーム分のみ離れた過渡の扱いにおけるショートからショートへ移行するロングウィンドウの利点を示す模式図である。
【図１８】図１８は、本発明による、３モード切替可能フィルタバンクが用いられている場合のビットストリーム構造の模式図である。

【特許請求の範囲】
【請求項１】
多チャンネルデジタル音声信号を符号化および復号化するための方法であって、
入力ＰＣＭサンプルを準定常フレームにセグメント化するステップと、
前記ＰＣＭサンプルをサブバンドサンプルに変換するステップと、
前記サブバンドサンプルにおいてブロック量子化境界を形成することにより、複数の量子化インデックスを生成するステップと、
予め設計されたコードブックのライブラリを提供するステップと、
量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、結果として、ブロック量子化境界に依存しないコードブック適用範囲を生じさせるステップと、
前記コードブックインデックスおよびそれらのそれぞれの適用領域を符号化するステップと、
完全な符号化データストリームを生成するステップと、
前記完全な符号化データストリームを送信するステップと、
前記符号化データストリームを受信し、該データストリームをアンパッキングするステップと、
前記データストリームから量子化インデックスを復号化するステップと、
復号化された量子化インデックスからサブバンドサンプルを復元するステップと、
復元されたサブバンドサンプルから音声ＰＣＭサンプルを復元するステップと
を含む方法。
【請求項２】
前記コードブック割当ステップは、各量子化インデックスに、該インデックスを収容可能なできるだけ小さいコードブックを割り当てることにより前記量子化インデックスをコードブックインデックスに変換し、前記コードブックインデックスを適用範囲にセグメント化するステップを含む、請求項１に記載の方法。
【請求項３】
前記準定常フレームは、継続時間が２〜５０ｍｓである、請求項１に記載の方法。
【請求項４】
前記変換ステップは、高および低周波数分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項１に記載の方法。
【請求項５】
過渡の検出を行い、過渡が検出されない場合には高周波数分解能モードを用い、過渡が検出される場合には低周波数分解能モードに切り替えるステップを含む、請求項４に記載の方法。
【請求項６】
前記分解能フィルタバンクを前記低周波数分解能モードに切り替えると、サブバンドサンプルが準定常セグメントにセグメント化される、請求項５に記載の方法。
【請求項７】
前記分解能フィルタバンクは、ショートウィンドウから隣接した別のショートウィンドウへの移行をつなぐことが可能なロングウィンドウを含み、ロングウィンドウ１つ分だけ離れた過渡を扱うように構成されている、請求項４に記載の方法。
【請求項８】
前記変換ステップは、１つのフレームにおいて多数の分解能を適用することができるように、高分解能モード、低分解能モードおよび中間分解能モードの間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項１に記載の方法。
【請求項９】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ１つ分だけ離れた過渡を扱うように構成されている、請求項８に記載の方法。
【請求項１０】
任意分解能フィルタバンクまたは適応差分パルス符号変調（ＡＤＰＣＭ）を用いて、各定常セグメントに対する周波数分解能を調整するステップを含む、請求項６に記載の方法。
【請求項１１】
マスキング閾値を算出するステップを含む、請求項１に記載の方法。
【請求項１２】
前記算出ステップは、聴覚心理モデルを用いて行なわれる、請求項１１に記載の方法。
【請求項１３】
前記複数の量子化インデックスを生成するステップは、量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソース割り当てるビットアロケータによって供給されるステップサイズを用いるステップを含む、請求項１に記載の方法。
【請求項１４】
左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するステップを含む、請求項１に記載の方法。
【請求項１５】
前記変換ステップは、和差符号器を用いて行なわれる、請求項１４に記載の方法。
【請求項１６】
ソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、前記結合チャンネルにおける全ての関連したサブバンドサンプルを破棄するステップを含む、請求項１に記載の方法。
【請求項１７】
前記抽出およびマージステップは、結合強度符号器を用いて行なわれる、請求項１６に記載の方法。
【請求項１８】
フレームにおいて過渡が存在する場合に量子化インデックスを再配置し、合計ビット数を減少させるステップを含む、請求項１に記載の方法。
【請求項１９】
前記コードブックの適用範囲を符号化するためのランレングス符号器を設けるステップを含む、請求項１に記載の方法。
【請求項２０】
過渡が検出される場合に過渡セグメンテーションアルゴリズムを適用するステップを含む、請求項１に記載の方法。
【請求項２１】
前記組み合わせステップは、マルチプレクサを用いて行なわれる、請求項１に記載の方法。
【請求項２２】
前記符号化データストリームは、コードブック数、適用範囲および前記コードブックインデックスを含むコードブックインデックス・適用範囲セクションを含む、請求項１に記載の方法。
【請求項２３】
前記符号化データストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクによって符号化されたことを示す場合、前記可変合成分解能フィルタバンクは、二段階ハイブリッドフィルタバンクとして機能し、第１の段階は、任意分解能合成フィルタバンクまたは逆適応差分パルス符号変調（ＡＤＰＣＭ）のいずれかを含み、第２の段階は、前記可変合成フィルタバンクの低周波数分解能モードである、請求項１に記載の方法。
【請求項２４】
前記データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、前記可変分解能合成フィルタバンクは高周波数分解能モードで動作する、請求項１に記載の方法。
【請求項２５】
前記データストリームをアンパッキングするステップは、デマルチプレクサを用いて行なわれる、請求項１に記載の方法。
【請求項２６】
前記復号化ステップは、前記エントロピーコードブックを復号化するエントロピー復号器と、前記データストリームからそれらのそれぞれの適用範囲を復号化するランレングス復号器とを用いて行なわれる、請求項１に記載の方法。
【請求項２７】
前記復号化ステップは、前記データストリームから量子化インデックスを復号化するエントロピー復号器を用いることをさらに含む、請求項１に記載の方法。
【請求項２８】
復号化された量子化インデックスから量子化ユニット数を復元するステップを含む、請求項２７に記載の方法。
【請求項２９】
現在のフレームにおいて過渡が検出される場合に前記量子化インデックスを再配置するステップを含む、請求項１に記載の方法。
【請求項３０】
前記再配置ステップは、デインタリーバを用いて行なわれる、請求項２９に記載の方法。
【請求項３１】
結合強度スケールファクタを用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するステップを含む、請求項１に記載の方法。
【請求項３２】
前記復元ステップは、結合強度復号器を用いて行なわれる、請求項３１に記載の方法。
【請求項３３】
和差サブバンドチャンネルから左右チャンネルのサブバンドサンプルを復元するステップを含む、請求項１に記載の方法。
【請求項３４】
前記復元ステップは、和差復号器を用いて行なわれる、請求項３３に記載の方法。
【請求項３５】
多チャンネルデジタル音声信号を符号化するための方法であって、
入力ＰＣＭサンプルを準定常フレームにセグメント化するステップと、
前記ＰＣＭサンプルをサブバンドサンプルに変換するステップと、
前記サブバンドサンプルにおいてブロック量子化境界を形成することにより、複数の量子化インデックスを生成するステップと、
予め設計されたコードブックのライブラリを提供するステップと、
量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、結果として、ブロック量子化境界に依存しないコードブック適用範囲を生じさせるステップと、
前記コードブックインデックスおよびそれらのそれぞれの適用領域を符号化するステップと、
格納または送信のために、完全な符号化データストリームを生成するステップと、
を含む方法。
【請求項３６】
前記コードブック割当ステップは、各量子化インデックスに、該インデックスを収容可能なできるだけ小さいコードブックを割り当てることにより前記量子化インデックスをコードブックインデックスに変換するステップを含む、請求項３５に記載の方法。
【請求項３７】
前記準定常フレームは、継続時間が２〜５０ｍｓである、請求項３６に記載の方法。
【請求項３８】
前記変換ステップは、高および低周波数分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項３５に記載の方法。
【請求項３９】
過渡の検出を行い、過渡が検出されない場合には高周波数分解能モードを用い、過渡が検出される場合には低周波数分解能モードに切り替えるステップを含む、請求項３８に記載の方法。
【請求項４０】
前記分解能フィルタバンクを前記低周波数分解能モードに切り替えると、サブバンドサンプルが定常セグメントにセグメント化される、請求項３９に記載の方法。
【請求項４１】
任意分解能フィルタバンクまたは適応差分パルス符号変調（ＡＤＰＣＭ）を用いて、各定常セグメントに対する周波数分解能を調整するステップを含む、請求項４０に記載の方法。
【請求項４２】
前記分解能フィルタバンクは、ショートウィンドウから隣接した別のショートウィンドウへの移行をつなぐことが可能なロングウィンドウを含み、ロングウィンドウ１つ分だけ離れた過渡を扱うように構成されている、請求項４１に記載の方法。
【請求項４３】
前記変換ステップは、過渡が検出される場合に１つのフレームにおいて多数の分解能を適用することができるように、高、低および中間分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項３５に記載の方法。
【請求項４４】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ１つ分だけ離れた過渡を扱うように構成されている、請求項４３に記載の方法。
【請求項４５】
前記複数の量子化インデックスを生成するステップは、量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソース割り当てるビットアロケータによって供給されるステップサイズを用いるステップを含む、請求項３５に記載の方法。
【請求項４６】
マスキング閾値を算出するステップを含む、請求項３５に記載の方法。
【請求項４７】
前記算出ステップは、聴覚心理モデルを用いて行なわれる、請求項４６に記載の方法。
【請求項４８】
左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するステップを含む、請求項３５に記載の方法。
【請求項４９】
前記変換ステップは、和差符号器を用いて行なわれる、請求項４８に記載の方法。
【請求項５０】
ソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、前記結合チャンネルにおける全ての関連したサブバンドサンプルを破棄するステップを含む、請求項３５に記載の方法。
【請求項５１】
前記抽出およびマージステップは、結合強度符号器を用いて行なわれる、請求項５０に記載の方法。
【請求項５２】
フレームにおいて過渡が存在する場合に量子化インデックスを再配置し、合計ビット数を減少させるステップを含む、請求項３５に記載の方法。
【請求項５３】
前記コードブックの適用境界を符号化するためのランレングス符号器を設けるステップを含む、請求項３５に記載の方法。
【請求項５４】
過渡が検出される場合に過渡セグメンテーションアルゴリズムを適用するステップを含む、請求項３５に記載の方法。
【請求項５５】
前記完全なデータストリームを生成するステップは、マルチプレクサを用いて行なわれる、請求項３５に記載の方法。
【請求項５６】
多チャンネルデジタル音声信号を符号化および送信するための方法であって、
入力ＰＣＭサンプルを準定常フレームにセグメント化するステップと、
過渡が検出される場合に１つのフレームにおいて多数の分解能を適用することができるように、高、低および中間周波数分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いて、前記ＰＣＭサンプルをサブバンドサンプルに変換するステップと、
過渡の検出を行い、過渡が検出されない場合には高周波数分解能モードを用い、過渡が検出される場合には低または中間周波数分解能モードに切り替えるステップであって、前記分解能フィルタバンクを切り替えると、サブバンドサンプルが定常セグメントにセグメントされ、前記フレームにおける各定常セグメントに対する前記周波数分解能は、同じフレームにおける前記低または中間周波数モードを用いて調整されるステップと、
前記サブバンドサンプルにおいてブロック量子化境界を形成することにより、複数の量子化インデックスを生成するステップと、
予め設計されたコードブックのライブラリを提供するステップと、
量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、結果として、ブロック量子化境界に依存しないコードブック適用範囲を生じさせるステップと、
前記コードブックインデックスおよびそれらのそれぞれの適用領域を符号化するステップと、
マルチプレクサを用いて、格納または送信のために完全なデータストリームを生成するステップと
を含む方法。
【請求項５７】
前記コードブック割当ステップは、各量子化インデックスに、該インデックスを収容可能なできるだけ小さいコードブックを割り当てることにより前記量子化インデックスをコードブックインデックスに変換するステップを含む、請求項５６に記載の方法。
【請求項５８】
前記複数の量子化インデックスを生成するステップは、各サブバンドの量子化雑音パワーが算出されたマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソースを割り当てるビットアロケータによって供給されるステップサイズを用いるステップを含む、請求項５６に記載の方法。
【請求項５９】
聴覚心理モデルを用いてマスキング閾値を算出するステップを含む、請求項５６に記載の方法。
【請求項６０】
和差符号器を用いて、左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するステップを含む、請求項５６に記載の方法。
【請求項６１】
結合強度符号器を用いてソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、前記結合チャンネルにおける全ての関連するサブバンドサンプルを破棄するステップを含む、請求項５６に記載の方法。
【請求項６２】
コードブックの適用境界を符号化するためのランレングス符号器を設けるステップを含む、請求項５６に記載の方法。
【請求項６３】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ１つ分だけ離れた過渡を扱うように構成されている、請求項５６に記載の方法。
【請求項６４】
符号化音声データストリームを復号化するための方法であって、
前記符号化音声データストリームを受信し、該データストリームをアンパッキングするステップと、
前記データストリームからを量子化インデックス復号化するステップと、
復号化された量子化インデックスからサブバンドサンプルを復元するステップと、
低および高周波数分解能モード間で切り替えが可能な可変分解能合成フィルタバンクを用いて、復元されたサブバンドサンプルから音声パルス符号変調（ＰＣＭ）サンプルを復元するステップをと含み、
前記データストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、前記可変合成分解能フィルタバンクは、二段階ハイブリッドフィルタバンクとして機能し、第１の段階は、任意分解能合成フィルタバンクまたは逆適応差分パルス符号変調（ＡＤＰＣＭ）のいずれかを含み、第２の段階は、前記可変合成フィルタバンクの低周波数分解能モードであり、
前記データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合に、前記可変分解能合成フィルタバンクは、高周波数分解能モードで動作する方法。
【請求項６５】
前記データストリームをアンパッキングするステップは、デマルチプレクサを用いて行なわれる、請求項６４に記載の方法。
【請求項６６】
前記復号化ステップは、エントロピーコードブックを復号化するエントロピー復号器と
、前記データストリームからそれらのそれぞれの適用範囲を復号化するように構成されたランレングス復号器とを用いて行なわれる、請求項６４に記載の方法。
【請求項６７】
前記復号化ステップは、前記データストリームから量子化インデックスを復号化するエントロピー復号器を用いることをさらに含む、請求項６６に記載の方法。
【請求項６８】
復号化された量子化インデックスから量子化ユニット数を復元するステップを含む、請求項６７に記載の方法。
【請求項６９】
現在のフレームにおいて過渡が検出される場合に前記量子化インデックスを再配置するステップを含む、請求項６７に記載の方法。
【請求項７０】
前記再配置ステップは、デインタリーバを用いて行なわれる、請求項６９に記載の方法。
【請求項７１】
結合強度スケールファクタを用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するステップを含む、請求項６４に記載の方法。
【請求項７２】
前記復元ステップは、結合強度復号器を用いて行なわれる、請求項７１に記載の方法。
【請求項７３】
和差サブバンドチャンネルから左右チャンネルのサブバンドサンプルを復元するステップを含む、請求項６４に記載の方法。
【請求項７４】
前記復元ステップは、和差復号器を用いて行なわれる、請求項７３に記載の方法。
【請求項７５】
前記分解能フィルタバンクは、ショートウィンドウから隣接した別のショートウィンドウへの移行をつなぐことが可能なウィンドウを含み、ロングウィンドウ１つ分だけ離れた過渡を扱うように構成されている、請求項６４に記載の方法。
【請求項７６】
符号化音声ビットデータストリームを復号化するための方法であって、
前記符号化音声データストリームを受信し、該データストリームをアンパッキングするステップと、
前記データストリームからを量子化インデックス復号化するステップと、
復号化された量子化インデックスからサブバンドサンプルを復元するステップと、
低、中間および高周波数分解能モード間で切り替えが可能な可変分解能合成フィルタバンクを用いて、復元されたサブバンドサンプルから音声パルス符号変調（ＰＣＭ）サンプルを復元するステップをと含み、
前記データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合に、前記可変分解能合成フィルタバンクは、高周波数分解能モードで動作し、
前記データストリームが、現在のフレームがセグメント化され、低または中間周波数分解能モードのいずれかの切替可能分解能解析フィルタバンクを用いてセグメントが符号化されたことを示す場合に、前記可変分解能合成フィルタバンクは、これに応じて、前記フレームの各セグメントに対して、低または中間周波数分解能モードで動作する方法。
【請求項７７】
前記データストリームをアンパッキングするステップは、デマルチプレクサを用いて行なわれる、請求項７６に記載の方法。
【請求項７８】
前記復号化ステップは、エントロピーコードブックを復号化するエントロピー復号器と
、前記データストリームからそれらのそれぞれの適用範囲を復号化するように構成されたランレングス復号器とを用いて行なわれる、請求項７６に記載の方法。
【請求項７９】
前記復号化ステップは、前記データストリームから量子化インデックスを復号化するエントロピー復号器を用いることをさらに含む、請求項７８に記載の方法。
【請求項８０】
復号化された量子化インデックスから量子化ユニット数を復元するステップを含む、請求項７９に記載の方法。
【請求項８１】
現在のフレームにおいて過渡が検出される場合に前記量子化インデックスを再配置するステップを含む、請求項７９に記載の方法。
【請求項８２】
前記再配置ステップは、デインタリーバを用いて行なわれる、請求項８１に記載の方法。
【請求項８３】
結合強度スケールファクタを用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するステップを含む、請求項７６に記載の方法。
【請求項８４】
前記復元ステップは、結合強度復号器を用いて行なわれる、請求項８３に記載の方法。
【請求項８５】
和差サブバンドチャンネルから左右チャンネルのサブバンドサンプルを復元するステップを含む、請求項７６に記載の方法。
【請求項８６】
前記復元ステップは、和差復号器を用いて行なわれる、請求項８５に記載の方法。
【請求項８７】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ１つ分だけ離れた過渡を扱うように構成されている、請求項７６に記載の方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【公開番号】特開２０１２−１６３９６９（Ｐ２０１２−１６３９６９Ａ）
【公開日】平成２４年８月３０日（２０１２．８．３０）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 冗長を減らすための音声または音響信号の分析合成技術，例．ボコー... (3,650)
      - スペクトル分析を用いるもの，例．変換ボコーダまたはサブバンドボ... (762)

【外国語出願】
【出願番号】特願２０１２−６４３２４（Ｐ２０１２−６４３２４）
【出願日】平成２４年３月２１日（２０１２．３．２１）
【分割の表示】特願２０１２−１７２２３（Ｐ２０１２−１７２２３）の分割
【原出願日】平成１７年９月１４日（２００５．９．１４）
【出願人】（５０９０４７２３６）デジタル　ライズ　テクノロジー　シーオー．，エルティーディー． (6)

[ Back to top ]

多チャンネルデジタル音声符号化装置および方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

多チャンネルデジタル音声符号化装置および方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク