混合の可逆的音声圧縮

【課題】単一の音声信号に対して統合された仕方で不可逆的圧縮および可逆的圧縮を使用する。
【解決手段】混合の可逆的音声圧縮が、不可逆的音声圧縮と可逆的音声圧縮を同一の音声信号内で組み合わせる統合された不可逆的可逆的圧縮のスキームに適用される。混合の可逆的圧縮は、不可逆的符号化フレームと可逆的符号化フレームの間の遷移フレームを符号化してシームレスな遷移を生成する。混合の可逆的符号化は、重複変換および逆重複変換を行って適切にウインドウ化され、畳み込まれた擬似時間領域フレームを生成し、次に、この擬似時間領域フレームが損失なく符号化されることが可能である。また、混合の可逆的符号化は、劣悪な不可逆的圧縮パフォーマンスを示すフレームに関しても適用することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声信号およびその他の信号をデジタル式に符号化し、処理するための技術に関する。本発明は、より詳細には、音声信号の不可逆的符号化と可逆的符号化を結合する圧縮技術に関する。
【背景技術】
【０００２】
圧縮スキームは、一般に、不可逆的種類と可逆的種類の２種類である。不可逆的圧縮は、圧縮された信号に一部の情報が符号化されることから除くことによって元の信号を圧縮して、復号化した際に信号が、もはや元の信号と同一でないようにする。例えば、多くの最新の不可逆的音声圧縮スキームは、人間聴覚モデルを使用して、人間の耳で知覚上、感知できない、またはほとんど感知できない信号成分を除去する。そのような不可逆的圧縮は、非常に高い圧縮比を実現することができ、不可逆的圧縮は、インターネットの音楽ストリーミング、ダウンロード、および可搬デバイスにおける音楽再生などのアプリケーションによく適するようになっている。
【０００３】
他方、可逆的圧縮は、情報の損失なしに信号を圧縮する。復号化の後、もたらされる信号は、元の信号と同一である。不可逆的圧縮と比べて、可逆的圧縮は、非常に限られた圧縮比を実現する。可逆的音声圧縮に関して２：１の圧縮比は、通常、良好であると考えられている。したがって、可逆的圧縮は、音楽アーカイビングおよびＤＶＤ（digital versatile disk）オーディオなどの、完璧な再現が必要とされる、またはサイズより品質が選好されるアプリケーションにより適している。
【０００４】
従来、音声圧縮スキームは、不可逆的なものか、または可逆的なものである。しかし、いずれの圧縮も最適でないアプリケーションが存在する。例えば、実質的にすべての最新の不可逆的音声圧縮スキームは、雑音割振りのために周波数領域法および心理音響学モデルを使用する。心理音響学モデルは、ほとんどの信号およびほとんどの人々に関してうまく機能するが、完璧ではない。第１に、一部のユーザは、不可逆的圧縮に起因する劣化が最も知覚される音声トラックの部分の間、より高い品質レベルを選択できる能力を有することを望む可能性がある。これは、ユーザの耳に受けのよい可能性がある良好な心理音響学モデルが存在しない場合、特に重要である。第２に、音声データのいくつかの部分が、いずれの良好な心理音響学モデルにもそぐわず、不可逆的圧縮が、所望の品質を実現するために多数のビットを使用し、データ「拡張」さえ使用する可能性がある。その場合、可逆的圧縮が、より効率的である。
【０００５】
いくつかの文献に上述のような従来の技術に関連した技術内容が開示されている（例えば、非特許文献１〜６参照）。
【先行技術文献】
【非特許文献】
【０００６】
【非特許文献１】Seymour Shilen, "The Modulated Lapped Transform, Its Time-Varying Forms, and Its Application to Audio Coding Standards," IEEE Transactions On Speech and Audio Processing, Vol.5, No.4, July 1997, pp. 359-366
【非特許文献２】John Makhoul, "Linear Prediction: A Tutorial Review," Proceedings of the IEEE, Vol.63, No.4, April 1975, pp. 562-580
【非特許文献３】N.S. Jayant and Peter Noll, "Digital Coding of Waveforms," Prentice Hall, 1984
【非特許文献４】Simon Haykin, "Adaptive Filter Theory," Prentice Hall, 2002
【非特許文献５】Paolo Prandoni and Martin Vetterli, "An FIR Cascade Structure for Adaptive Linear Prediction," IEEE Transactions On Signal Processing, Vol.46, No.9, September 1998, pp.2566-2571
【非特許文献６】Gerald Schuller, Bin Yu, Dawei Huang, and Bern Edler, "Perceptual Audio Coding Using Pre- and Post-Filters and Lossless Compression," IEEE Transactions On Speech and Audio Processing掲載予定
【発明の概要】
【発明が解決しようとする課題】
【０００７】
従来のシステムには上述したような種々の問題があり、さらなる改善が望まれている。
【０００８】
本発明は、このような状況に鑑みてなされたもので、その目的とするところは、単一の音声信号に対して統合された仕方で不可逆的圧縮および可逆的圧縮を使用することが可能になる混合の可逆的音声圧縮を提供することにある。
【課題を解決するための手段】
【０００９】
本明細書で説明する統合された不可逆的可逆的音声圧縮を使用する音声処理により、単一の音声信号に対して統合された仕方で不可逆的圧縮および可逆的圧縮を使用することが可能になる。この統合された手法を使用して、音声符号器は、心理音響学モデルによる雑音割振りが許容可能である音声信号の部分に対して高い圧縮比を実現するために不可逆的圧縮を使用して音声信号を符号化することから、より高い品質が所望され、かつ／または不可逆的圧縮が、十分に高い圧縮を実現できない部分に対して可逆的圧縮を使用することに切り替えることができる。
【００１０】
単一の圧縮ストリームの中で不可逆的圧縮と可逆的圧縮を統合することに対する１つの重要な障害は、不可逆的圧縮と可逆的圧縮の間の遷移により、復号化された音声信号において聞き取れる不連続点が導入される可能性があることである。より具体的には、不可逆的圧縮部分においてある音声成分が除去されていることに起因して、不可逆的圧縮部分に関して再現された音声信号は、隣接する可逆的圧縮部分と、その部分間の境界において、相当に不連続である可能性があり、これにより、不可逆的圧縮と可逆的圧縮の間で切り換わる際に聞き取れる雑音（「ポッピング」）が導入される可能性がある。
【００１１】
さらなる障害は、多くの不可逆的圧縮スキームが、重なり合ったウインドウに依拠して元の音声信号サンプルを処理するが、可逆的圧縮の方は、一般に、そうしないことである。重なり合った部分が、不可逆的圧縮から可逆的圧縮に切り替える際にドロップされた場合、遷移の不連続性は、悪化する可能性がある。他方、不可逆的圧縮と可逆的圧縮の両方で重なり合った部分を冗長に符号化することは、実現される圧縮比を低くする可能性がある。
【００１２】
本明細書で説明する統合された不可逆的可逆的圧縮の実施形態は、以上の障害に対処する。この実施形態では、音声信号が、次の３つのタイプとして符号化されることが可能なフレームに分割される。すなわち、（１）不可逆的圧縮を使用して符号化される不可逆的フレーム、（２）可逆的圧縮を使用して符号化される可逆的フレーム、および（３）不可逆的フレームと可逆的フレームの間の遷移フレームとしての役割をする混合の可逆的フレームである。また、混合の可逆的フレームは、不可逆的フレームと可逆的フレームの間の遷移に役立つことなしに、不可逆的圧縮のパフォーマンスが劣悪な不可逆的フレームのなかの孤立したフレームに関して使用することも可能である。
【００１３】
混合の可逆的フレームは、不可逆的圧縮の場合と同様に、重なり合うウインドウに対して重複変換（ｌａｐｐｅｄｔｒａｎｓｆｏｒｍ）を行った後、その逆変換を行って単一の音声信号フレームを生成し、次に、このフレームを可逆的に圧縮することによって圧縮される。重複変換および逆変換の後にもたらされる音声信号フレームを本明細書で、「擬似時間領域信号」と呼ぶ。というのは、この信号は、もはや周波数領域内になく、またその音声信号の元の時間領域バージョンでもないからである。この処理は、重複変換のような周波数領域法を使用する不可逆的フレームから、線形予測符号化のような時間領域信号処理法を使用する可逆的フレームに直接に、またその逆にシームレスに融合するという特性を有する。
【００１４】
本発明のさらなる特徴および利点は、添付の図面を参照して行われる以下の実施形態の詳細な説明から明白となるであろう。
【発明の効果】
【００１５】
以上説明したように本発明によれば、共単一の音声信号に対して統合された仕方で不可逆的圧縮および可逆的圧縮を使用することが可能になる。
【図面の簡単な説明】
【００１６】
【図１】説明する実施形態が実施されることが可能な音声符号器を示すブロック図である。
【図２】説明する実施形態が実施されることが可能な音声復号器を示すブロック図である。
【図３】統合された不可逆的可逆的圧縮の一実施形態を使用して符号化され、不可逆的フレーム、混合の可逆的フレーム、および純可逆的フレームから成る圧縮された音声信号を示す図である。
【図４】統合された不可逆的可逆的圧縮の実施形態において入力音声信号を不可逆的フレームとして、混合の可逆的フレームとして、または純可逆的フレームとして符号化することを選択するためのプロセスを示すフローチャートである。
【図５】図４の統合された不可逆的可逆的圧縮の実施形態における混合の可逆的フレームの混合の可逆的圧縮を示すデータフロー図である。
【図６】図５の混合の可逆的圧縮プロセス内で変調離散コサイン変換とその逆変換をともに計算する等価処理マトリクスを示す図である。
【図７】図４の統合された不可逆的可逆的圧縮の実施形態における純可逆的フレームの純可逆的圧縮を示すデータフロー図である。
【図８】図７の純可逆的圧縮におけるトランジェント検出を示すフローチャートである。
【図９】図７の純可逆的圧縮におけるマルチチャネル最小２乗予測フィルタのために使用される基準サンプルを示すグラフである。
【図１０】図７の純可逆的圧縮におけるカスケード式ＬＭＳフィルタを通る構成およびデータフローを示すデータフロー図である。
【図１１】可逆的符号化のために設計されたサブシーケンスを含む入力音声フレームのシーケンスに関するウインドウ化およびウインドウ化されたフレームを示すグラフである。
【図１２】混合の可逆的フレームの復号化を示すフローチャートである。
【図１３】純可逆的フレームの復号化を示すフローチャートである。
【図１４】図４の統合された不可逆的可逆的圧縮の実施形態のための適切なコンピューティング環境を示すブロック図である。
【発明を実施するための形態】
【００１７】
以下、図面を参照して本発明の実施形態を詳細に説明する。以下の説明は、統合された不可逆的可逆的圧縮のための音声プロセッサおよび音声処理技術を対象としている。この音声プロセッサおよび音声処理技術は、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＡｕｄｉｏ（ＷＭＡ）ファイル形式の変種を使用する符号器および復号器などの音声符号器および音声復号器において、例示的に適用される。ただし、この音声プロセッサおよび音声処理技術は、この形式に限定されず、その他の音声符号化形式に適用することも可能である。したがって、この音声プロセッサおよび音声処理技術は、一般化された音声符号器および音声復号器の状況で説明しているが、代替として、様々なタイプの音声符号器および音声復号器に組み込むことができる。
【００１８】
Ｉ．一般化された音声符号器および音声復号器
図１は、統合された不可逆的可逆的音声圧縮のための音声処理が実施されることが可能な一般化された音声符号器（１００）を示すブロック図である。符号器（１００）は、符号化中、マルチチャネル音声データを処理する。図２は、説明する実施形態が実施されることが可能な一般化された音声復号器（２００）を示すブロック図である。復号器（２００）は、復号化中、マルチチャネル音声データを処理する。
【００１９】
符号器内部および復号器内部のモジュール間に示される関係は、符号器および復号器における情報の主な流れを示し、その他の関係は、簡明にするために図示していない。実施形態、および所望される圧縮のタイプに応じて、符号器または復号器のモジュールは、追加すること、省くこと、複数のモジュールに分割すること、その他のモジュールと組み合わせること、および／または同様のモジュールで置き換えることが可能である。代替の実施形態では、異なるモジュールおよび／またはその他の構成を有する符号器または復号器が、マルチチャネル音声データを処理する。
【００２０】
Ａ．一般化された音声符号器
一般化された音声符号器（１００）は、セレクタ（１０８）、マルチチャネルプリプロセッサ（１１０）、パーティショナ（ｐａｒｔｉｔｉｏｎｅｒ）／タイル構成器（ｔｉｌｅＣｏｎｆｉｇｕｒｅｒ）（１２０）、周波数変換器（１３０）、知覚モデラ（ｐｅｒｃｅｐｔｉｏｎｍｏｄｅｌｅｒ）（１４０）、重み付け器（ｗｅｉｇｈｔｅｒ）（１４２）、マルチチャネル変換器（１５０）、量子化器（１６０）、エントロピー符号器（１７０）、コントローラ（１８０）、混合／純可逆的符号器（１７２）、関連するエントロピー符号器（１７４）、およびビットストリームマルチプレクサ［「ＭＵＸ」］（１９０）とを含む。
【００２１】
符号器（１００）は、パルス符号変調［「ＰＣＭ」］形式で、何らかのサンプリング深度およびサンプリングレートである時系列の入力音声サンプル（１０５）を受け取る。説明する実施形態のほとんどの場合、入力音声サンプル（１０５）は、マルチチャネルオーディオ（例えば、ステレオモード、サラウンド（ｓｕｒｒｏｕｎｄ））に関するが、入力音声サンプル（１０５）は、代わりにモノラルであることも可能である。符号器（１００）は、音声サンプル（１０５）を圧縮し、符号器（１００）の様々なモジュールによって生成される情報を多重化して、Ｗｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＡｕｄｉｏ［「ＷＭＡ」］またはＡｄｖａｎｃｅｄＳｔｒｅａｍｉｎｇＦｏｒｍａｔ［「ＡＳＦ」］などの形式でビットストリーム（１９５）を出力する。代替として、符号器（１００）は、他の入力形式および／または出力形式で機能する。
【００２２】
最初、セレクタ（１０８）が、音声サンプル（１０５）に関する多数の符号化モードから選択を行う。図１で、セレクタ（１０８）は、次の２つのモードの間で切替えを行う。すなわち、混合／純可逆的符号化モード、および不可逆的符号化モードである。可逆的符号化モードは、混合／純可逆的符号器（１７２）を含み、通常、高品質（および高いビットレート）の圧縮のために使用される。不可逆的符号化モードは、重み付け器（１４２）および量子化器（１６０）などの構成要素を含み、通常、調整可能な品質（および規制されたビットレート）の圧縮のために使用される。セレクタ（１０８）における選択決定は、ユーザ入力（例えば、ユーザが、高品質の音声コピーを作成するために可逆的符号化を選択すること）、または他の基準に依存する。他の状況（例えば、不可逆的圧縮が、十分なパフォーマンスを提供できない場合）では、符号器（１００）は、フレーム、または１組のフレームに関して不可逆的符号化から混合／純可逆的符号化に切り換わることが可能である。
【００２３】
マルチチャネル音声データの不可逆的符号化の場合、マルチチャネルプリプロセッサ（１１０）が、オプションとして、時間領域音声サンプル（１０５）をマトリクス化しなおす。いくつかの実施形態では、マルチチャネルプリプロセッサ（１１０）は、１つまたは複数の符号化されたチャネルをドロップするか、または符号器（１００）におけるチャネル間の相関を高めるが、それでも復号器（２００）における（何らかの形態での）再構成を可能にするように音声サンプル（１０５）を選択的にマトリクス化しなおす。これにより、符号器に、チャネルレベルにおける品質に対するさらなる制御が与えられる。マルチチャネルプリプロセッサ（１１０）は、マルチチャネルポストプロセッサに対する命令などの副次情報をＭＵＸ（１９０）に送ることができる。いくつかの実施形態におけるマルチチャネルプリプロセッサの動作に関するさらなる詳細については、「音声符号化および音声復号化のためのアーキテクチャおよび技術（Architecture And Techniques For Audio Encoding And Decoding）」という名称の関連出願の「マルチチャネル前処理（Multi-Channel Pre-Processing）」という題名のセクションを参照されたい。代替として、符号器（１００）は、別の形態のマルチチャネル前処理を行う。
【００２４】
パーティショナ／タイル構成器（１２０）が、音声入力サンプル（１０５）のフレームを時間変動する（ｔｉｍｅｖａｒｙｉｎｇ）サイズおよびウインドウ成形ファンクション（ｗｉｎｄｏｗｓｈａｐｉｎｇｆｕｎｃｔｉｏｎ）を有するサブフレームブロックに区分する。サブフレームブロックのサイズおよびウインドウは、フレーム内のトランジェント（ｔｒａｎｓｉｅｎｔ）信号の検出、符号化モード、およびその他の要因に依存する。
【００２５】
符号器（１００）が不可逆的符号化から混合／純可逆的符号化に切り換わった場合、サブフレームブロックは、理論上、重なり合う必要、またはウインドウ化（ｗｉｎｄｏｗｉｎｇ）ファンクションを有する必要はないが、不可逆的符号化が行われたフレームとその他のフレームの間の遷移は、特別の処置を要する可能性がある。パーティショナ／タイル構成器（１２０）は、区分されたデータのブロックを混合／純可逆的符号器（１７２）に出力し、ブロックサイズなどの副次情報をＭＵＸ（１９０）に出力する。混合または純可逆的符号化が行われたフレームに関する区分化およびウインドウ化のさらなる詳細を、説明の以下のセクションで提示する。
【００２６】
符号器（１００）が不可逆的符号化を使用する場合、可能なサブフレームサイズには、３２サンプル、６４サンプル、１２８サンプル、２５６サンプル、５１２サンプル、１０２４サンプル、２０４８サンプル、および４０９６サンプルが含まれる。可変サイズにより、可変の時間分解能（ｔｅｍｐｏｒａｌｒｅｓｏｌｕｔｉｏｎ）が可能になる。小さいブロックは、入力音声サンプル（１０５）における短いがアクティブな遷移のセグメントにおいて時間の詳細をよりよく保存することを可能にするが、いくらかの周波数分解能を犠牲にする。反対に、大きいブロックは、より良好な周波数分解能とより劣った時間分解能を有し、通常、より長く、それほどアクティブでないセグメントにおいて、フレームヘッダおよび副次情報が、小さいブロックよりも比例して少ないことを理由の一部として、より高い圧縮効率を可能にする。ブロックは重なり合って、さもなければ後の量子化によって導入される可能性がある、ブロック間の知覚される不連続点を減らすことができる。パーティショナ／タイル構成器（１２０）は、区分されたデータのブロックを周波数変換器（１３０）に出力し、ブロックサイズなどの副次情報をＭＵＸ（１９０）に出力する。いくつかの実施形態におけるトランジェント検出および区分化の基準に関するさらなる情報については、参照により本明細書に組み込まれている２００１年１２月１４日に出願した「変換符号化における適応ウインドウサイズ選択（Adaptive Window-Size Selection in Transform Coding）」という名称の米国特許出願第１０／０１６，９１８号を参照されたい。代替として、パーティショナ／タイル構成器（１２０）は、フレームをウインドウに区分する際、他の区分化の基準または他のブロックサイズを使用する。
【００２７】
いくつかの実施形態では、パーティショナ／タイル構成器（１２０）は、マルチチャネル音声のフレームをチャネルごとに区分する。前述した符号器とは異なり、パーティショナ／タイル構成器（１２０）は、フレームに関してマルチチャネル音声のすべての異なるチャネルを同じ仕方で区分する必要はない。むしろ、パーティショナ／タイル構成器（１２０）は、フレームの中の各チャネルを独立に区分する。これにより、例えば、パーティショナ／タイル構成器（１２０）が、より小さいウインドウを有するマルチチャネルの特定のチャネルにおいて出現するが、フレームの中の他のチャネルにおける周波数分解能または圧縮効率のためにより大きいウインドウを使用するトランジェントを分離することが可能になる。マルチチャネル音声の異なるチャネルを独立にウインドウ化することは、チャネルごとにトランジェントを分離することによって圧縮効率を向上させる可能性があるが、個々のチャネルにおいて区分を指定する追加の情報が、多くの場合、必要とされる。さらに、同じ時間に位置する同一サイズのウインドウが、さらなる冗長性の低減の対象となることがふさわしい可能性がある。したがって、パーティショナ／タイル構成器（１２０）は、同じ時間に位置する同一サイズのウインドウをタイルとしてグループ化する。いくつかの実施形態におけるタイル化（ｔｉｌｉｎｇ）に関するさらなる詳細については、「音声符号化および音声復号化のためのアーキテクチャおよび技術（Architecture And Techniques For Audio Encoding And Decoding）」という名称の関連出願の「タイル構成（Tile Configuration）」という題名のセクションを参照されたい。
【００２８】
周波数変換器（１３０）が、音声サンプル（１０５）を受け取り、周波数領域内のデータに変換する。周波数変換器（１３０）は、周波数係数データのブロックを重み付け器（１４２）に出力し、ブロックサイズなどの副次情報をＭＵＸ（１９０）に出力する。周波数変換器（１３０）は、周波数係数と副次情報をともに知覚モデラ（１４０）に出力する。いくつかの実施形態では、周波数変換器（１３０）は、サブフレームブロックのウインドウファンクションによって変調されたＤＣＴ（discrete cosine transform）のように動作する時間変動ＭＬＴをサブフレームブロックに適用する。代替の実施形態は、その他の様々なＭＬＴ、またはＤＣＴ、ＦＦＴ、あるいはその他のタイプの変調された、または変調されない、重複する、または重複しない周波数変換を使用するか、あるいはサブバンド符号化またはウェーブレット符号化を使用する。
【００２９】
知覚モデラ（１４０）は、人間聴覚システムの特性をモデル化して、所与のビットレートに関して再構成される音声信号の知覚される品質を向上させる。一般に、知覚モデラ（１４０）は、聴覚モデルに従って音声データを処理した後、音声データに対する重み付け係数を生成するのに使用することができる重み付け器（１４２）に情報を提供する。知覚モデラ（１４０）は、様々な聴覚モデルのいずれかを使用し、励起パターン情報、またはその他の情報を重み付け器（１４２）に送る。
【００３０】
重み付け器（１４２）は、知覚モデラ（１４０）から受け取られた情報に基づいて量子化マトリクスのための重み付け係数を生成し、その重み付け係数を周波数変換器（１３０）から受け取られたデータに適用する。重み付け係数は、音声データにおける多数の量子化帯域のそれぞれに関する重みを含む。量子化帯域は、符号器（１００）の別の場所で使用されるクリティカルな帯域と数または位置が同じであることも、異なることも可能である。重み付け係数は、雑音が量子化帯域にわたって拡散している割合を示し、それほど聞こえない帯域内により多くの雑音を入れ、またその逆を行うことによって雑音の可聴性を最低限に抑えることを目標としている。重み係数は量子化帯域の幅や数をブロックからブロックに変えることができる。重み付け器（１４０）は、係数データの重み付けされたブロックをマルチチャネル変換器（１５０）に出力し、重み付け係数のセットなどの副次情報をＭＵＸ（１９０）に出力する。また、重み付け器（１４０）は、符号器（１００）内部のその他のモジュールに対して重み付け係数を出力することもできる。重み付け係数のセットは、より効率的な表現のために圧縮することができる。重み付け係数に不可逆的圧縮が行われた場合、再構成された重み付け係数は、通常、係数データのブロックに重み付けを行うのに使用される。いくつかの実施形態における重み付け係数の計算および圧縮に関するさらなる詳細については、「音声符号化および音声復号化のためのアーキテクチャおよび技術（Architecture And Techniques For Audio Encoding And Decoding）」という名称の関連出願の「逆量子化および逆重み付け（Inverse Quantization and Inverse Weighting）」という題名のセクションを参照されたい。代替として、符号器（１００）は、別の形態の重み付けを使用するか、または重み付けを省く。
【００３１】
マルチチャネル音声データの場合、重み付け器（１４２）によって生成される雑音形状の周波数係数データの多数のチャネルは、しばしば、相関する。この相関を活用するため、マルチチャネル変換器（１５０）は、タイルの音声データにマルチチャネル変換を適用することができる。いくつかの実施形態では、マルチチャネル変換器（１５０）は、チャネルのすべてではなくいくつかに、かつ／またはタイルの中のクリティカルな帯域にマルチチャネル変換を選択的に、柔軟に適用する。これにより、タイルの比較的相関する部分に対する変換の適用に対して、より正確な制御がマルチチャネル変換器（１５０）に与えられる。計算上の複雑さを小さくするため、マルチチャネル変換器（１５０）は、１レベル変換ではなく、階層式変換を使用する。変換マトリクスに関連するビットレートを低減するため、マルチチャネル変換器（１５０）は、事前定義された（例えば、恒等／無変換、アダマール、ＤＣＴタイプＩＩ）マトリクス、つまりカスタムマトリクスを選択的に使用し、効率的な圧縮をそのカスタムマトリクスに適用する。最後に、マルチチャネル変換は、重み付け器（１４２）から下流にあるので、復号器（２００）における逆マルチチャネル変換後にチャネル間で漏れる雑音、例えば知覚されることは、逆重み付けによって抑制される。いくつかの実施形態におけるマルチチャネル変換に関するさらなる詳細については、「音声符号化および音声復号化のためのアーキテクチャおよび技術（Architecture And Techniques For Audio Encoding And Decoding）」という名称の関連出願の「柔軟なマルチチャネル変換（Flexible Multi-Channel Transform）」という題名のセクションを参照されたい。代替として、符号器（１００）は、他の形態のマルチチャネル変換を使用するか、または全く変換を使用しない。マルチチャネル変換器（１５０）は、例えば、使用されるマルチチャネル変換、およびタイルのマルチチャネル変換された部分を示す副次情報をＭＵＸ（１９０）に対して生成する。
【００３２】
量子化器（１６０）が、マルチチャネル変換器（１５０）の出力を量子化し、量子化された係数データをエントロピー符号器（１７０）に対して生成し、量子化ステップサイズを含む副次情報をＭＵＸ（１９０）に対して生成する。量子化により、情報の不可逆な損失が導入されるが、符号器（１００）が、コントローラ（１８０）と連携して出力ビットストリーム（１９５）の品質およびビットレートを調整することも可能になる。量子化器は、タイルごとに量子化係数を計算し、また所与のタイルの中のチャネルごとに、チャネルごとの量子化ステップ変更子（ｍｏｄｉｆｉｅｒ）を計算することもできる適応型の一様なスカラー量子化器であることが可能である。タイル量子化係数は、量子化ループの各回の反復ごとに変化して、エントロピー符号器（１７０）出力のビットレートに影響を与えることが可能であり、またチャネルごとの量子化ステップ変更子を使用して、チャネル間の再構成品質のバランスをとることができる。代替の実施形態では、量子化器は、一様でない量子化器、ベクトル量子化器、および／または非適応型量子化器であるか、あるいは異なる形態の適応型の一様なスカラー量子化を使用する。
【００３３】
エントロピー符号器（１７０）が、量子化器（１６０）から受け取られた量子化された係数データを可逆的に圧縮する。いくつかの実施形態では、エントロピー符号器（１７０）は、「レベルモードとランレングス／レベルモード間で符号化を適応させることによるエントロピー符号化（Entropy Coding by Adapting Coding Between Level and Run Length/Level Modes）」という名称の関連出願に記載される適応型エントロピー符号化を使用する。代替として、エントロピー符号器（１７０）は、何らかの他の形態または組合せのマルチレベルランレングス符号化、可変−可変レングス符号化、ランレングス符号化、ハフマン符号化、辞書符号化、算術符号化、ＬＺ符号化、または何らかの他のエントロピー符号化技術を使用する。エントロピー符号器（１７０）は、音声情報を符号化するのに費やされたビットの数を計算し、この情報を速度／品質コントローラ（１８０）に渡すことができる。
【００３４】
コントローラ（１８０）は、量子化器（１６０）と協働して、符号器（１００）の出力のビットレートおよび／または品質を調整する。コントローラ（１８０）は符号器（１００）の他のモジュールから情報を受け取り、受け取った情報を処理して、現在の状況に与えられた所望の量子化係数を決定する。コントローラ（１８０）は、品質制約および／またはビットレート制約を満たすことを目標として、量子化係数を量子化器（１６０）に対して出力する。コントローラ（１８０）は、逆量子化器、逆重み付け器、逆マルチチャネル変換器を含むことが可能であり、場合により、音声データを再構成する、またはブロックに関する情報を計算するその他のモジュールも含むことが可能である。
【００３５】
混合の純可逆的符号器（１７２）および関連する符号器（１７４）が、混合／純可逆的符号化モードに関して音声データを圧縮する。符号器（１００）は、シーケンス全体に対して混合／純可逆的符号化モードを使用するか、あるいはフレームごとに、または他の基準で符号化モード間の切替えを行う。一般的に可逆的符号化モードは不可逆的符号化モードよりも、高い品質、高いビットレート出力をもたらす。代替として、符号器（１００）は、混合または純可逆的符号化のための他の技術を使用する。
【００３６】
ＭＵＸ（１９０）が、音声符号器（１００）のその他のモジュールから受け取られた副次情報を、エントロピー符号器（１７０）から受け取られたエントロピー符号化されたデータとともに多重化する。ＭＵＸ（１９０）は、ＷＭＡ形式、または音声復号器が認識する別の形式で情報を出力する。ＭＵＸ（１９０）は、符号器（１００）によって出力されるビットストリーム（１９５）を記憶する仮想バッファを含む。仮想バッファは、音声の複雑さの変化に起因するビットレートの短期間の変動を平滑化するため、所定の時間の音声情報（例えば、ストリームの音声に関して５秒間）を記憶する。その後、仮想バッファは、比較的一定のビットレートでデータを出力する。バッファの現在の充満度、バッファの充満度の変化の速度、およびバッファのその他の特性が、コントローラ（１８０）によって使用されて、品質および／またはビットレートが調整されることが可能である。
【００３７】
Ｂ．一般化された音声復号器
図２を参照すると、一般化された音声符号器（２００）は、ビットストリームデマルチプレクサ［「ＤＥＭＵＸ」］（２１０）と、１つまたは複数のエントロピー復号器（２２０）と、混合／純可逆的復号器（２２２）と、タイル構成復号器（２３０）と、逆マルチチャネル変換器（２４０）と、逆量子化器／重み付け器（２５０）と、逆周波数変換器（２６０）と、オーバーラッパー（ｏｖｅｒｌａｐｐｅｒ）／加算器（２７０）と、マルチチャネルポストプロセッサ（２８０）とを含む。復号器（２００）は、符号器（１００）よりもいくぶん単純である。というのは、復号器（２００）は、速度／品質制御のためのモジュール、または知覚モデル化のためのモジュールを含まないからである。
【００３８】
復号器（２００）は、ＷＭＡ形式または別の形式で圧縮された音声情報のビットストリーム（２０５）を受け取る。ビットストリーム（２０５）は、エントロピー符号化されたデータ、および復号器（２００）が音声サンプル（２９５）を再構成する元にする副次情報を含む。
【００３９】
ＤＭＵＸ（２１０）は、ビットストリーム（２０５）の中の情報を構文解析して、情報を復号器（２００）のモジュールに送る。ＤＥＭＵＸ（２１０）は、音声の複雑さの変動、ネットワークジッタ、および／またはその他の要因に起因するビットレートの短期間の変動を補償する１つまたは複数のバッファを含む。
【００４０】
１つまたは複数のエントロピー復号器（２２０）が、ＤＥＭＵＸ（２１０）から受け取られたエントロピー符号を損失なしに伸張する。エントロピー復号器（２２０）は、通常、符号器（１００）で使用されるエントロピー符号化技術の逆を適用する。簡明にするため、図２に１つのエントロピー復号器モジュールを示しているが、不可逆的符号化モード用および可逆的符号化モード用として、あるいはモード内においてさえ、異なるエントロピー復号器を使用することも可能である。また、簡明にするため、図２は、モード選択ロジックを示していない。不可逆的符号化モードで圧縮されたデータを復号化する際、エントロピー復号器（２２０）は、量子化された周波数係数データを生成する。
【００４１】
混合／純可逆的復号器（２２２）および関連するエントロピー復号器（２２０）は、混合／純可逆的符号化モードに関して可逆的に符号化された音声データを伸張する。復号器（２００）は、シーケンス全体に関して特定の復号化モードを使用するか、あるいはフレームごとに、または他の基準で復号化モードを切り替える。
【００４２】
タイル構成復号器（２３０）が、フレームに関するタイルのパターンを示す情報をＤＥＭＵＸ（２１０）から受け取る。タイルパターン情報は、エントロピー符号化されていること、または別の仕方でパラメータ設定されていることが可能である。次に、タイル構成復号器（２３０）は、タイルパターン情報を復号器（２００）の様々な他の構成要素に送る。いくつかの実施形態におけるタイル構成復号化に関するさらなる詳細については、「音声符号化および音声復号化のためのアーキテクチャおよび技術（Architecture And Techniques For Audio Encoding And Decoding）」という名称の関連出願の「タイル構成（Tile Configuration）」という題名のセクションを参照されたい。代替として、復号器（２００）は、他の技術を使用してフレームの中のウインドウパターンをパラメータ設定する。
【００４３】
逆マルチチャネル変換器（２４０）が、エントロピー復号器（２２０）からのエントロピー復号化済みの量子化された周波数係数データ、ならびにタイル構成復号器（２３０）からのタイルパターン情報、および、例えば、使用されたマルチチャネル変換およびタイルの変換された部分を示すＤＥＭＵＸ（２１０）からの副次情報を受け取る。この情報を使用して、逆マルチチャネル変換器（２４０）は、必要に応じて変換マトリクスを伸張し、１つまたは複数の逆マルチチャネル変換をタイルの音声データに選択的に、柔軟に適用する。逆量子化器／逆重み付け器（２５０）に対する逆マルチチャネル変換器（２４０）の配置は、符号器（１００）におけるマルチチャネル変換されたデータの量子化に起因してチャネル間で漏れる可能性がある量子化雑音を成形するのに役立つ。いくつかの実施形態における逆マルチチャネル変換に関するさらなる詳細については、「音声符号化および音声復号化のためのアーキテクチャおよび技術（Architecture And Techniques For Audio Encoding And Decoding）」という名称の関連出願の「柔軟なマルチチャネル変換（Flexible Multi-Channel Transform）」という題名のセクションを参照されたい。
【００４４】
逆量子化器／逆重み付け器（２５０）が、ＤＥＭＵＸ（２１０）からタイル量子化係数およびチャネル量子化係数を受け取り、また逆マルチチャネル変換器（２４０）から量子化された周波数係数データを受け取る。逆量子化器／逆重み付け器（２５０）は、必要に応じて受け取られた量子化係数／マトリクス情報を伸張した後、逆量子化および逆重み付けを行う。いくつかの実施形態における逆量子化および逆重み付けに関するさらなる詳細については、「音声符号化および音声復号化のためのアーキテクチャおよび技術（Architecture And Techniques For Audio Encoding And Decoding）」という名称の関連出願の「逆量子化および逆重み付け（Inverse Quantization and Iverse Weighting）」という題名のセクションを参照されたい。代替の実施形態では、逆量子化器は、符号器において使用された何らかの他の量子化技術の逆を適用する。
【００４５】
逆周波数変換器（２６０）が、逆量子化器／逆重み付け器（２５０）によって出力された周波数係数データ、ならびにＤＥＭＵＸ（２１０）からの副次情報、およびタイル構成復号器（２３０）からのタイルパターン情報を受け取る。逆周波数変換器（２６０）は、符号器で使用された周波数変換の逆を適用し、ブロックをオーバーラッパー／加算器（２７０）に出力する。
【００４６】
オーバーラッパー／加算器（２７０）は、全体として、符号器（１００）におけるパーティショナ／タイル構成器（１２０）に対応する。タイル構成復号器（２３０）からタイルパターン情報を受け取ることに加えて、オーバーラッパー／加算器（２７０）は、逆周波数変換器（２６０）および／または混合／純可逆的復号器（２２２）から復号化された情報を受け取る。いくつかの実施形態では、逆周波数変換器（２６０）から受け取られる情報、および混合／純可逆的復号器（２２２）からの一部の情報は、擬似時間領域情報である、すなわち、一般に、時間によって編成されているが、ウインドウ化され、重なり合うブロックから導出されている。混合／純可逆的復号器（２２２）から受け取られる他の情報（例えば、純可逆的符号化で符号化された情報）は、時間領域情報である。オーバーラッパー／加算器（２７０）は、必要に応じて音声データを重ね合わせ、追加し、異なるモードで符号化されたフレームまたは他の音声データシーケンスをインターリーブする。混合または純可逆的符号化が行われたフレームを重ね合わせ、追加し、インターリーブすることに関するさらなる詳細は、以下のセクションで説明する。代替として、復号器（２００）は、フレームを重ね合わせ、追加し、インターリーブするために他の技術を使用する。
【００４７】
マルチチャネルポストプロセッサ（２８０）は、オプションとして、オーバーラッパー／加算器（２７０）によって出力された時間領域音声サンプルをマトリクス化しなおす。マルチチャネルポストプロセッサは、音声データを選択的にマトリクス化しなおして、再生のためのファントムチャネルを生成し、スピーカの間でチャネルを空間的に回転させるなどの特殊効果を行い、より少ないスピーカで再生するためにまたは任意の他の目的のためにチャネルを畳み込む（ｆｏｌｄｄｏｗｎ）。ビットストリームによって制御されるポスト処理の場合、ポスト処理変換マトリクスは、時間の経過とともに変化し、ビットストリーム（２０５）の中で伝えられるか、またはビットストリーム（２０５）の中に含まれる。いくつかの実施形態におけるマルチチャネルポストプロセッサの動作に関するさらなる詳細については、「音声符号化および音声復号化のためのアーキテクチャおよび技術（Architecture And Techniques For Audio Encoding And Decoding）」という名称の関連出願の「マルチチャネルポスト処理（Multi-Channel Post-Processing）」という題名のセクションを参照されたい。代替として、復号器（２００）は、別の形態のマルチチャネルポスト処理を行う。
【００４８】
ＩＩ．統合された不可逆的音声圧縮と可逆的音声圧縮
前述した一般化された音声符号器１００（図１）および音声復号器２００（図２）に組み込まれた統合された不可逆的可逆的圧縮のある実施形態は、入力音声信号のある部分を不可逆的圧縮で（例えば、構成要素１３０、１４０、１６０における知覚モデルに基づく量子化を伴う周波数変換ベースの符号化を使用して）符号化し、別の部分を可逆的圧縮を使用して（例えば、混合／純可逆的符号器１７２において）符号化することを選択的に行う。この手法は、高品質が所望される場合（または不可逆的圧縮が所望の品質に関して高い圧縮比を実現できない場合）により高い品質の音声を実現する可逆的圧縮と、適切な場合に品質の知覚される損失なしに高い圧縮を行うための不可逆的圧縮を統合する。また、これにより、単一の音声信号内において異なる品質レベルで音声を符号化することも可能になる。
【００４９】
この統合された不可逆的可逆的圧縮の実施形態は、さらに、不可逆的圧縮と可逆的圧縮の間でシームレスな切替えを実現し、また入力音声が重なり合ったウインドウの中で処理される符号化と重なり合わない処理との間の遷移も実現する。シームレスな切替えのため、この統合された不可逆的可逆的圧縮の実施形態は、次の３つのタイプの音声フレームに選択的に分割された入力音声を処理する。すなわち、不可逆的圧縮で符号化された不可逆的フレーム（ＬＳＦ）３００〜３０４（図３）、可逆的圧縮で符号化された純可逆的フレーム（ＰＬＬＦ）３１０〜３１２、および混合の可逆的フレーム（ＭＬＬＦ）３２０〜３２２である。混合の可逆的フレーム３２１〜３２２は、不可逆的フレーム３０２〜３０３と純可逆的フレーム３１０〜３１２の間の遷移としての役割をする。混合の可逆的フレーム３２０はまた、遷移の目的に役立つことなく、不可逆的フレーム３００〜３０１のなかの不可逆的圧縮のパフォーマンスが劣悪になるであろう孤立したフレームであることが可能である。以下の表１は、統合された不可逆的可逆的圧縮の実施形態における３つの音声フレームタイプを要約している。
【００５０】
【表１】

【００５１】
図３で示した統合された不可逆的可逆的圧縮を使用して符号化された音声信号の一例におけるフレーム構造を参照すると、この例における音声信号は、それぞれがウインドウ化されたフレームであるブロックのシーケンスとして符号化されている。混合の可逆的フレームは、通常、この例における混合の可逆的フレーム３２０のように、不可逆的フレームのなかで孤立している。これは、混合の可逆的フレームが、不可逆的圧縮が劣悪な圧縮パフォーマンスを示す「問題のある」フレームに関して使用可能にされるからである。通常、このフレームは、音声信号の非常に雑音の多いフレームであり、音声信号内で孤立して出現する。純可逆的フレームは、通常、連続的である。音声信号内の純可逆的フレームの開始位置および終了位置は、例えば、符号器のユーザによって決められることが可能である（例えば、非常に高い品質で符号化されるべき音声信号の部分を選択することにより）。代替として、音声信号のある部分に関して純可逆的フレームを使用する決定を自動化することができる。ただし、統合された不可逆的可逆的圧縮の実施形態は、すべて不可逆的フレーム、すべて混合の可逆的フレーム、またはすべて純可逆的フレームを使用して音声信号を符号化することも可能である。
【００５２】
図４は、統合された不可逆的可逆的圧縮の実施形態において入力音声信号を符号化するプロセス４００を示している。プロセス４００は、フレームごとに入力音声信号フレーム（パルス符号変調（ＰＣＭ）形式のフレームサイズの）を処理する。プロセス４００は、入力音声信号の次のＰＣＭフレームを獲得することによってアクション４０１を開始する。この次のＰＣＭフレームに関して、プロセス４００は、まず、アクション４０２で、符号器ユーザが、フレームを不可逆的圧縮のために選択したか、または可逆的圧縮のために選択したかを調べる。フレームに対して不可逆的圧縮が選択されている場合、プロセス４００は、アクション４０３〜４０４で示されるとおり、通常の変換ウインドウ（ＭＤＣＴ変換ベースの不可逆的圧縮の場合と同様に前のフレームと重なり合うことが可能な）で不可逆的圧縮を使用して入力ＰＣＭフレームを符号化することに取りかかる。不可逆的圧縮の後、プロセス４００は、アクション４０５においてフレームに対する不可逆的圧縮の圧縮パフォーマンスを調べる。満足の行くパフォーマンスの基準は、もたらされる圧縮フレームが、元のＰＣＭフレームの３／４より小さいことであることが可能であるが、代替として、許容可能な不可逆的圧縮のパフォーマンスとしてより高い基準、またはより低い基準を使用することも可能である。不可逆的圧縮のパフォーマンスが許容可能である場合、プロセス４００は、アクション４０６で、フレームの不可逆的圧縮からもたらされるビットを圧縮音声信号ビットストリームに出力する。
【００５３】
そうではなく、アクション４０５で、不可逆的圧縮を使用してフレームに対して実現された圧縮が劣悪である場合、プロセス４００は、アクション４０７で、カレント（現行の；ｃｕｒｒｅｎｔ）フレームを混合の可逆的圧縮を使用する孤立した混合の可逆的フレーム（以下に詳述する）として圧縮する。アクション４０６で、プロセス４００は、不可逆的圧縮または混合の可逆的圧縮のよりよいパフォーマンスを示す方を使用して圧縮されたフレームを出力する。本明細書では、「孤立した」混合の可逆的フレームと呼んでいるが、実際には、プロセス４００は、劣悪な不可逆的圧縮のパフォーマンスを示す多数の連続する入力フレームを、アクション４０５および４０７を通るパスを介して、混合の可逆的圧縮を使用して圧縮することができる。このフレームを「孤立した」と呼んでいる理由は、図３の例示的な音声信号における孤立した混合の可逆的フレーム３２０に関して示すとおり、通常、劣悪な不可逆的圧縮のパフォーマンスは、入力音声ストリームの中で孤立して出現する事象だからである。
【００５４】
他方、符号器のユーザがそのフレームに関して可逆的圧縮を選択したことが、アクション４０２で判定された場合、プロセス４００は、次にアクション４０８で、そのフレームが、不可逆的圧縮と可逆的圧縮の間の遷移フレーム（すなわち、可逆的圧縮で符号化されるべき１組の連続するフレームの最初のフレームまたは最後のフレーム）であるかどうかを調べる。遷移フレームである場合、プロセス４００は、以下に詳述するフレームに関する開始／停止ウインドウ４０９を使用して、ステップ４０７で、混合の可逆的圧縮を使用する混合の可逆的遷移フレーム（ｔｒａｎｓｉｔｉｏｎｍｉｘｅｄｌｏｓｓｌｅｓｓｆｒａｍｅ）としてそのフレームを符号化し、アクション４０６でもたらされる混合の可逆的遷移フレームを出力する。そうでなく、連続する可逆的圧縮フレームの最初のフレームまたは最後のフレームではない場合、プロセス４００は、アクション４１０〜４１１で矩形のウインドウを使用する可逆的圧縮を使用して符号化を行い、アクション４０６で純可逆的フレームとしてそのフレームを出力する。
【００５５】
次に、プロセス４００は、アクション４０１で入力音声信号の次のＰＣＭフレームを獲得することに戻り、音声信号が終了する（または次のＰＣＭフレームを獲得する際の他の障害条件）まで繰り返される。
【００５６】
本明細書で説明する統合された不可逆的可逆的圧縮の実施形態は、不可逆的フレームの不可逆的圧縮に関して変調離散コサイン変換（ＭＤＣＴ；ｍｏｄｕｌａｔｅｄｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ）ベースの不可逆的符号化を使用し、この符号化は、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＡｕｄｉｏ（ＷＭＡ）形式で使用されるＭＤＣＴベースの不可逆的符号化、またはその他のＭＤＣＴベースの不可逆的符号化であることが可能である。代替の実施形態では、他の重複変換または重ね合わせのない変換に基づく不可逆的符号化を使用することができる。ＭＤＣＴベースの不可逆的符号化に関するさらなる詳細については、非特許文献１を参照されたい。
【００５７】
次に、図５を参照すると、本明細書で説明する統合された不可逆的可逆的圧縮の実施形態における混合の可逆的圧縮はまた、ＭＤＣＴ変換に基づいている。代替の実施形態では、混合の可逆的圧縮は、やはり好ましくは、それぞれの実施形態で使用される不可逆的圧縮と同じ変換および変換ウインドウを使用する。この手法により、混合の可逆的フレームが、重なり合うウインドウ変換に基づく不可逆的フレームから重なり合わない純可逆的フレームへのシームレスな遷移を提供することが可能になる。
【００５８】
例えば、前述した実施形態で使用されるＭＤＣＴ変換ベースの符号化では、カレントＰＣＭフレーム５１１の次のＮ個のサンプルを符号化するため、ＭＤＣＴ変換が、音声信号の最後の２Ｎ個のサンプルの「サイン（ｓｉｎ）」ベースのウインドウ化ファンクション５２０から導出されたウインドウ化されたフレーム５２２に適用される。言い換えれば、入力音声信号の中でカレントＰＣＭフレームを符号化する際、ＭＤＣＴ変換が、入力音声信号５００の以前のＰＣＭフレーム５１０およびカレントＰＣＭフレーム５１１を包含するウインドウ化されたフレーム５２２に適用される。これにより、より平滑な不可逆的符号化のために連続するウインドウ化されたフレームの間で５０％の重なり合いが提供される。ＭＤＣＴ変換は、クリティカルなサンプリングだけをアーカイブするという特性を有する。すなわち、出力のＮ個のサンプルだけが、隣接するフレームと併せて使用される際、完璧な再構成のために必要である。
【００５９】
図４の符号化プロセス４００におけるアクション４０４における不可逆的圧縮とアクション４０７における混合の可逆的圧縮でともに、ＭＤＣＴ変換５３０が、以前のＰＣＭフレーム５１０およびカレントＰＣＭフレーム５１１から導出されたウインドウ化されたフレーム５２２に適用される。不可逆的圧縮の場合、カレントフレーム５１１の符号化は、ＭＤＣＴベースの不可逆的コーデック５４０において行われる。
【００６０】
混合の可逆的圧縮符号化の場合、ＭＤＣＴ５３０から生成された変換係数が、次に、逆ＭＤＣＴ（ＩＭＤＣＴ）変換５５０に入力される（これは、従来のＭＤＣＴベースの不可逆的符号化では、別の仕方で復号器において行われる）。ＭＤＣＴ変換と逆ＭＤＣＴ変換はともに、混合の可逆的圧縮のための符号器において行われるので、実際の変換およびその逆変換を物理的に行う代わりに、結合されたＭＤＣＴと逆ＭＤＣＴの等価の処理が行われることが可能である。より具体的には、等価の処理により、ウインドウ化されたフレーム５２２の後半におけるミラーリング（ｍｉｒｒｏｒｉｎｇ）サンプルの追加、およびウインドウ化されたフレームの前半におけるミラーリングサンプルの控除と同じＭＤＣＴおよび逆ＭＤＣＴの結果がもたらされることが可能である。図６は、ウインドウ化されたフレームでマトリクスを増倍するのと等価のＭＤＣＴ×ＩＭＤＣＴ変換の処理を行うための等価のＭＤＣＴ×ＩＭＤＣＴマトリクス６００を示している。ＭＤＣＴ変換とＩＭＤＣＴ変換の結果は、音声信号の周波数領域表現にも、元の時間領域バージョンにもなっていない。ＭＤＣＴとＩＭＤＣＴの出力は、２Ｎ個のサンプルを有するが、その半分（Ｎ個のサンプル）だけが、独立の値を有する。したがって、クリティカルなサンプリングをアーカイブする特性は、混合の可逆的フレームの中で保たれる。このＮ個のサンプルは、「擬似時間領域」信号と呼ぶことができる。というのは、時間信号ウインドウ化されており、畳み込まれているからである。この擬似時間領域信号は、元の時間領域音声信号の特性の多くを保存し、したがって、任意の時間領域ベースの圧縮をこの信号の符号化のために使用することができる。
【００６１】
説明する統合された不可逆的可逆的圧縮の実施形態では、ＭＤＣＴ×ＩＭＤＣＴ処理後の混合の可逆的フレームの擬似時間領域信号バージョンが、１次ＬＰＣフィルタ５５１を使用する線形予測符号化（ＬＰＣ）を使用して符号化される。代替の実施形態は、他の形態の時間領域ベースの符号化を使用して、混合の可逆的フレームに関する擬似時間領域信号を符号化することができる。ＬＰＣ符号化のさらなる詳細については、非特許文献２（以降、Ｍａｋｈｏｕｌと呼ぶ）を参照されたい。ＬＰＣ符号化に関して、説明する実施形態は、以下の処理アクションを行う。
【００６２】
１）自己相関を計算する。説明する実施形態では、単純な１次ＬＰＣフィルタが使用されるので、Ｍａｋｈｏｕｌからの以下の数式におけるＲ（０）およびＲ（１）だけを計算すればよい。
【００６３】
【数１】

【００６４】
２）ＬＰＣフィルタ係数を計算する。ＬＰＣフィルタは、Ｒ（１）／Ｒ（０）である１つの係数だけを有する。
【００６５】
３）フィルタを量子化する。ＬＰＣフィルタ係数は、１／２５６のステップサイズによって量子化され、したがって、ビットストリームの中の８ビットで表わすことができる。
【００６６】
４）予測剰余を計算する。ＬＰＣフィルタ係数が用意されると、ＭＤＣＴおよびＩＭＤＣＴからの擬似時間信号に対してＬＰＣフィルタを適用する。出力信号は、以下のアクション（６）においてエントロピー符号化によって圧縮された予測剰余（ＭＤＣＴ変換およびＩＭＤＣＴ変換の後の実際のＮ個の擬似時間領域信号サンプルとその予測値の差）である。復号器側で、雑音成形量子化が使用可能にされていない場合、剰余から擬似時間信号を完璧に再構成することができる。
【００６７】
５）雑音成形量子化５６０。説明する統合された不可逆的可逆的圧縮の実施形態は、非特許文献３によって説明されるような雑音成形量子化（これは、オプションとして使用不可にすることが可能である）を含む。雑音成形量子化処理は、この場合、より広い品質およびビットレートの範囲をサポートし、混合の可逆的モードが雑音成形を行うことができるように追加されている。雑音成形量子化の長所は、この量子化が復号器側においてトランスペアレントであることである。
【００６８】
６）エントロピー符号化。説明する実施形態は、ＬＰＣ予測剰余のエントロピー符号化のために標準のＧｏｌｏｍｂ符号化５７０を使用する。代替の実施形態は、混合の可逆的フレームをさらに圧縮するためにＬＣＰ予測剰余に対して他の形態のエントロピー符号化を使用することが可能である。Ｇｏｌｏｍｂ符号化された剰余は、出力５８０において圧縮された音声ストリームに出力される。
【００６９】
カレントフレームの混合の可逆的圧縮の後、符号化プロセスは、次のフレーム５１２の符号化に取りかかり、フレーム５１２は、不可逆的フレーム、純可逆的フレーム、または、再び、混合の可逆的フレームとして符号化されることが可能である。
【００７０】
前述した混合の可逆的圧縮は、最初のウインドウ化プロセス（雑音形成量子化が使用不可にされた）に関してだけ不可逆的であることが可能であり、このため、「混合の可逆的圧縮」と呼ばれる。
【００７１】
図７は、本明細書で説明する統合された不可逆的可逆的圧縮の実施形態の符号化プロセス４００（図４）における純可逆的フレームの可逆的符号化７００を示している。この例では、入力音声信号は、２つのチャネル（例えば、ステレオ）の音声信号７１０である。入力音声信号チャネルの以前のＰＣＭフレーム７１１とカレントＰＣＭフレーム７１２の矩形ウインドウ化ファンクション７１５としてもたらされる音声信号チャネルサンプルのウインドウ化されたフレーム７２０、７２１に対して可逆的符号化７００が行われる。矩形のウインドウの後、ウインドウ化されたフレームは、依然として、元のＰＣＭサンプルから成っている。次に、純可逆的圧縮をそのサンプルに直接に適用することができる。最初の純可逆的フレームと最後の純可逆的フレームは、図１１に関連して以下に説明する異なる特殊ウインドウを有する。
【００７２】
純可逆的符号化７００は、ＬＰＣフィルタ７２６、およびオプションの雑音成形量子化７２８から始まり、これらは、図５の構成要素５５１および５６０と同じ目的に役立つ。確かに、雑音成形量子化７２８が使用される場合、圧縮は、もはや実際には、純粋に可逆的ものではない。しかし、オプションの雑音成形量子化７２８の場合でも、簡明にするため、本明細書では、「純可逆的符号化」という呼び方のままにしている。純可逆的モードでは、ＬＰＣフィルタ７２６の他、ＭＣＬＭＳ７４２フィルタおよびＣＤＬＭＳ７５０フィルタ（以下に説明する）が存在する。雑音成形量子化７２８は、ＬＰＣフィルタ７２６の後で、ただし、ＭＣＬＭＳフィルタ７４２およびＣＤＬＭＳフィルタ７５０の前に適用される。ＭＣＬＭＳフィルタ７４２およびＣＤＬＭＳフィルタ７５０は、安定したフィルタであることが保証されないため、雑音成形量子化７２８の前に適用することができない。
【００７３】
純可逆的符号化７００の次の部分は、トランジェント検出７３０である。トランジェントとは、音声信号特性が大幅に変化する音声信号におけるポイントである。
【００７４】
図８は、本明細書で説明する統合された不可逆的可逆的圧縮の実施形態における純可逆的符号化７００で使用されるトランジェント検出手続き８００を示している。代替として、トランジェント検出のための他の手続きを使用することも可能である。トランジェント検出に関して、手続き８００は、入力音声信号の長期の指数的に重み付けされた平均（ＡＬ）８０１および短期の指数的に重み付けされた平均（ＡＳ）８０２を計算する。この実施形態では、短期平均に関する等価の長さは、３２であり、長期平均は、１０２４である。ただし、他の長さを使用することも可能である。次に、手続き８００は、長期平均の短期平均に対する比（Ｋ）８０３を計算し、その比をトランジェントしきい値（例えば、８という値）８０４と比較する。比がこのしきい値を超えた場合、トランジェントが検出されたものと考えられる。
【００７５】
トランジェント検出の後、純可逆的符号化７００は、チャネル間相関解除（ｉｎｔｅｒ−ｃｈａｎｎｅｌｄｅ−ｃｏｒｒｅｌａｔｉｏｎ）ブロック７４０を行ってチャネル間の冗長性を除去する。これは、単純なＳ変形（transformation）、およびマルチチャネル最小平均２乗フィルタ（ＭＣＬＭＳ）７４２から成る。ＭＣＬＭＳは、２つの特徴で標準のＬＭＳフィルタとは異なる。第１に、ＭＣＬＭＳは、すべてのチャネルからの以前のサンプルを基準サンプルとして使用して、１つのチャネルにおけるカレントサンプルを予測する。第２に、ＭＣＬＭＳは、他のチャネルからのいくつかのカレントサンプルも基準として使用して、１つのチャネルにおけるカレントサンプルを予測する。
【００７６】
例えば、図９は、４チャネル音声入力信号に関してＭＣＬＭＳにおいて使用される基準サンプルを描いている。この例では、各チャネルにおける４つの以前のサンプル、ならびに先行する他のチャネルにおけるカレントサンプルがＭＣＬＭＳのための基準サンプルとして使用されている。カレントチャネルのカレントサンプルの予測値は、基準サンプルの値と、そのサンプルに関連する適応フィルタ係数のドット積として計算される。予測の後、ＭＣＬＭＳは、予測誤差を使用してフィルタ係数を更新する。この４つのチャネルの例では、各チャネルに関するＭＣＬＭＳフィルタが、異なる長さを有し、チャネル０が最短のフィルタ長（すなわち、１６の基準サンプル／係数）を有し、チャネル３が最長のフィルタ長（すなわち、１９）を有している。
【００７７】
ＭＣＬＭＳの後、純可逆的符号化が、各チャネルに対して１組のカスケード式の最小平均二乗（ＣＤＬＭＳ）フィルタ７５０を適用する。ＬＭＳフィルタは、処理されている信号のさらなる知識を使用しない適応フィルタ技術である。ＬＭＳフィルタは、予測部分と更新部分の２つの部分を有する。新しいサンプルが符号化されるにつれ、ＬＭＳフィルタ技術は、カレントフィルタ係数を使用してサンプルの値を予測する。次に、フィルタ係数が、予測誤差に基づいて更新される。この適応特性により、ＬＭＳフィルタが、音声などの時間変動する信号を処理する良好な候補となる。いくつかのＬＭＳフィルタのカスケードも、予測パフォーマンスを向上させることができる。例示的な純可逆的圧縮７００では、図１０に示すとおりＬＳＭフィルタが３つのフィルタのカスケードに配置され、カスケードにおける次のフィルタの入力が、前のフィルタの出力に接続されている。第３のフィルタの出力は、最終の予測誤差、つまり剰余である。ＬＭＳフィルタのさらなる詳細については、非特許文献４、非特許文献５、および非特許文献６を参照されたい。
【００７８】
図７を再び参照すると、可逆的符号化７００が、トランジェント検出７３０の結果を使用してＣＤＬＭＳ７５０の更新速度を制御する。前述したとおり、ＬＭＳフィルタは、各予測の後にフィルタ係数が更新される適応フィルタである。可逆的圧縮では、これは、フィルタが、音声信号特性の変化を追うのに役立つ。最適なパフォーマンスのため、更新速度は、信号変化を追い、同時に振動を回避することができなければならない。通常、信号は、ゆっくりと変化し、したがって、ＬＭＳフィルタの更新速度は、サンプル当たり２＾（−１２）のように非常に小さい。しかし、あるサウンドから別のサウンドへのトランジェントなどの大幅な変化が音楽に生じた場合、フィルタの更新が追いつかない可能性がある。可逆的符号化７００は、トランジェント検出を使用して、フィルタが、変化する信号特性に迅速に追いつくように適応するのを促進する。トランジェント検出７３０が、入力においてトランジェントを検出した場合、可逆的符号化７００は、ＣＤＬＭＳ７５０の更新速度を２倍にする。
【００７９】
ＣＤＬＭＳ７５０の後、可逆的符号化７００は、改良されたＧｏｌｏｍｂ符号器７６０を使用して、カレント音声信号サンプルの予測剰余を符号化する。Ｇｏｌｏｍｂ符号器は、２の累乗でない除数を使用することで改良されている。代わりに、改良されたＧｏｌｏｍｂ符号器は、４／３＊平均（ａｂｓ（予測剰余））という関係を使用する。除数が２の累乗ではないため、もたらされる商および剰余は、算術符号化７７０を使用して符号化されてから、圧縮済み音声ストリームへの出力７８０が行われる。算術符号化は、商に関する確率テーブルを使用するが、剰余の値の一様分布を想定している。
【００８０】
図１１は、不可逆的符号化、混合の可逆的符号化、および純可逆的符号化のためのウインドウ化された符号化フレームを生成するように入力音声信号の元のＰＣＭフレームに適用されるウインドウ化ファンクションを描いている。この例では、符号器のユーザは、入力音声信号１１００の元のＰＣＭフレームのサブシーケンス１１１０を純可逆的符号化で符号化されるべき可逆的フレームとして指定している。図５に関連して述べたとおり、本明細書で説明する統合された不可逆的可逆的圧縮の実施形態における不可逆的符号化は、カレントＰＣＭフレームおよび以前のＰＣＭフレームにサインウインドウ１１３０を適用して、不可逆的符号器に入力されるウインドウ化された不可逆的符号化フレーム１１３２をもたらす。孤立した混合の可逆的符号化フレーム１１３６の混合の可逆的符号化も、サイン形状ウインドウ１１３５を使用する。他方、純可逆的符号器は、矩形ウインドウ化ファンクション１１４０を使用する。不可逆的符号化と可逆的符号化の間の遷移（純可逆的符号化に指定されたシーケンス１１１０の最初のフレームと最後のフレーム）に関する混合の可逆的符号化は、サインウインドウ化ファンクションと矩形ウインドウ化ファンクションを実質上、結合して最初／最後の遷移ウインドウ１１５１、１１５２にして、混合の可逆的符号化のための遷移符号化フレーム１１５３、１１５４を提供し、これにより、純可逆的符号化フレーム１１５８が括られる（ｂｒａｃｋｅｔ）。したがって、ユーザによって可逆的符号化に指定されたフレーム（ｓないしｅの符号が付けられた）のシーケンス１１１０に関して、統合された不可逆的可逆的圧縮の実施形態は、フレーム（ｓないしｅ−１）を可逆的符号化を使用して符号化し、フレームｅを混合の可逆的フレームとして符号化する。そのようなウインドウ化ファンクション設計により、各フレームが、クリティカルなサンプリングをアーカイブする特性を有することが保証され、これが意味するのは、符号器が不可逆的フレーム、混合の可逆的フレーム、および純可逆的フレームの間で切り換わる際、冗長な情報が全く符号化されず、サンプルが全く損失しないことである。したがって、音声信号の不可逆的符号化と可逆的符号化をシームレスに統合することが実現される。
【００８１】
図１２は、本明細書で説明する統合された不可逆的可逆的圧縮の実施形態における混合の可逆的フレームの復号化１２００を描いている。混合の可逆的フレームの復号化は、アクション１２１０で、混合の可逆的フレームのヘッダを復号化することで始まる。本明細書で説明する統合された不可逆的可逆的圧縮の実施形態では、混合の可逆的フレームのヘッダは、不可逆的フレームの形式よりはるかに単純な独自の形式を有する。混合の可逆的フレームのヘッダは、ＬＰＣフィルタ係数の情報、および雑音成形の量子化ステップサイズを記憶する。
【００８２】
次に、混合の可逆的復号化で、復号器が、アクション１２２０で、各チャネルのＬＰＣ予測剰余を復号化する。前述したとおり、この剰余は、Ｇｏｌｏｍｂ符号化５７０（図５）で符号化され、Ｇｏｌｏｍｂ符号の復号化を要する。
【００８３】
アクション１２３０で、混合の可逆的復号器は、単に復号化された剰余に量子化ステップサイズを掛けて、雑音成形量子化を逆転する。
【００８４】
アクション１２４０で、混合の可逆的復号器は、逆ＬＰＣフィルタリングプロセスとして、剰余からの擬似時間信号を再構成する。
【００８５】
アクション１２５０で、混合の可逆的復号器は、時間領域音声信号のＰＣＭ再構成を行う。「擬似時間信号」は、既にＭＤＣＴおよびＩＭＤＣＴの結果であるため、復号器は、この時点で、不可逆的圧縮の復号化と同様に動作して、フレームの重なり合いとウインドウ化を逆転するように復号化する。
【００８６】
図１３は、音声復号器における純可逆的フレームの復号化１３００を描いている。純可逆的フレームの復号化もやはり、アクション１３１０〜１２で、フレームヘッダ、ならびにトランジェント情報およびＬＰＣフィルタを復号化することで始まる。次に、純可逆的フレームの復号器は、予測剰余のＧｏｌｏｍｂ符号を復号化すること１３２０、逆ＣＤＬＭＳフィルタリング１３３０、逆ＭＣＬＭＳフィルタリング１３４０、逆チャネルミキシング１３５０、量子化解除１３６０、および逆ＬＰＣフィルタリング１３７０によって純可逆的符号化プロセスを逆転させる。最後に、純可逆的フレームの復号器は、アクション１３８０で音声信号のＰＣＭフレームを再構成する。
【００８７】
ＩＩＩ．コンピューティング環境
統合された不可逆的可逆的音声圧縮のための前述した音声プロセッサ技術および音声処理技術は、他にも例はあるものの、とりわけ、コンピュータ、音声の記録、伝送、および受信を行う機器、ポータブル音楽プレーヤ、電話デバイス等を含め、デジタル音声信号処理が行われる様々なデバイスの任意のものにおいて実施することができる。音声プロセッサ技術および音声処理技術は、ハードウェア回路でも、また図１４に示すような、コンピュータ内部または他のコンピューティング環境内部で実行される音声処理ソフトウェアでも実施することができる。
【００８８】
図１４は、説明する実施形態を実施することができる適切なコンピューティング環境（１４００）の一般化された例を示している。コンピューティング環境（１４００）は、本発明の使用または機能の範囲に関して何ら限定を示唆するものではない。というのは、本発明は、多様な汎用または特殊目的のコンピューティング環境において実施できるからである。
【００８９】
図１４を参照すると、コンピューティング環境（１４００）が、少なくとも１つのプロセッサ（１４１０）およびメモリ（１４２０）を含んでいる。図１４で、この最も基本的な構成（１４３０）が、破線の中に含まれている。プロセッサ（１４１０）は、コンピュータ実行可能命令を実行し、現実のプロセッサであること、または仮想のプロセッサであることが可能である。マルチプロセッシングシステムでは、マルチプロセッサが、コンピュータ実行可能命令を実行して処理能力を高める。メモリ（１４２０）は、揮発性メモリ（例えば、レジスタ、キャッシュ、ＲＡＭ（random access memory））、不揮発性メモリ（例えば、ＲＯＭ（read only memory）、ＥＥＰＲＯＭ（electrically erasable programmable read-only memory）、フラッシュメモリ等）、または揮発性メモリと不揮発性メモリの何らかの組合せであることが可能である。メモリ（１４２０）は、量子化マトリクスを生成し圧縮する、音声符号器を実現するソフトウェア（１４８０）を記憶する。
【００９０】
コンピューティング環境は、さらなる特徴を有することが可能である。例えば、コンピューティング環境（１４００）は、ストレージ（１４４０）、１つまたは複数の入力デバイス（１４５０）、１つまたは複数の出力デバイス（１４６０）、および１つまたは複数の通信接続（１４７０）を含む。バス、コントローラ、またはネットワークなどの相互接続機構（図示せず）が、コンピューティング環境（１４００）の構成要素を互いに接続する。通常、オペレーティングシステムソフトウェア（図示せず）が、コンピューティング環境（１４００）において実行されている他のソフトウェアのための動作環境を提供し、コンピューティング環境（１４００）の構成要素の活動を調整する。
【００９１】
ストレージ（１４４０）は、リムーバブルであること、またはノンリムーバブルであることが可能であり、磁気ディスク、磁気テープ、または磁気カセット、ＣＤ（compact disc [disk]）−ＲＯＭ、ＣＤ−ＲＷ（CD-ReWritable）、ＤＶＤ、または情報を記憶するのに使用することができ、コンピューティング環境（１４００）内でアクセスすることができる任意の他の媒体が含まれる。ストレージ（１４４０）は、量子化マトリクスを生成し圧縮する、音声符号器を実現するソフトウェア（１４８０）に対する命令を記憶する。
【００９２】
入力デバイス（１４５０）は、キーボード、マウス、ペン、またはトラックボールなどのタッチ入力デバイス、音声入力デバイス、走査デバイス、またはコンピューティング環境（１４００）に入力を提供する別のデバイスであることが可能である。音声の場合、入力デバイス（１４５０）は、アナログ形態またはデジタル形態の音声入力を受け入れるサウンドカードまたは同様のデバイス、あるいはコンピューティング環境に音声サンプルを提供するＣＤ−ＲＯＭ読取り装置であることが可能である。出力デバイス（１４６０）は、ディスプレイ、プリンタ、スピーカ、ＣＤ−書込み装置、またはコンピューティング環境（１４００）から出力を提供する別のデバイスであることが可能である。
【００９３】
通信接続（１４７０）は、通信媒体を介して別のコンピューティングエンティティへの通信を可能にする。通信媒体は、変調されたデータ信号の中の、コンピュータ実行可能命令、圧縮された音声情報またはビデオ情報、あるいは他のデータのような、情報を伝送する。変調されたデータ信号とは、信号に情報を符号化するように特性の１つまたは複数が設定された、または変更された信号である。例として、限定としてではなく、通信媒体には、電気、光、ＲＦ（radio frequencies）、赤外線、音響、またはその他の搬送波を使用して実施される、有線技術または無線技術が含まれる。
【００９４】
本明細書における音声処理技術は、コンピュータ可読媒体の一般的な状況で説明することができる。コンピュータ可読媒体は、コンピューティング環境内部でアクセスすることができる任意の可用な媒体である。例として、限定としてではなく、コンピューティング環境（１４００）では、コンピュータ可読媒体には、メモリ（１４２０）、ストレージ（１４４０）、通信媒体、および以上の任意の物の組合せが含まれる。
【００９５】
本明細書における音声処理技術は、コンピューティング環境において、ターゲットの現実のプロセッサ上または仮想のプロセッサ上で実行される、プログラムモジュールに含まれるコンピュータ実行可能命令のような、コンピュータ実行可能命令の一般的な状況で説明することができる。一般に、プログラムモジュールには、特定のタスクを行う、または特定の抽象データ型を実装するルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造等が含まれる。プログラムモジュールの機能は、様々な実施形態において、所望に応じてプログラムモジュールの間で組み合わせること、または分割することが可能である。プログラムモジュールに関するコンピュータ実行可能命令は、ローカルのコンピューティング環境内または分散コンピューティング環境内で実行されることが可能である。
【００９６】
提示のため、詳細な説明は、「判定する」、「生成する」、「調整する」、および「適用する」のような用語を使用して、コンピューティング環境におけるコンピュータ動作を説明している。以上の用語は、コンピュータによって行われる動作の高レベルの抽象化であり、人間によって行われる動作と混同してはならない。以上の用語に対応する実際のコンピューティング動作は、実施形態に応じて異なる。
【００９７】
前述した実施形態に関連して本発明の原理を説明し、図示したので、そのような原理を逸脱することなく、前述した実施形態の構成および詳細を変更できることが認められよう。本明細書で説明するプログラム、プロセス、または方法は、特に明記しない限り、いずれの特定のタイプのコンピューティング環境にも関連することも、限定されることもないことを理解されたい。様々なタイプの汎用のコンピューティング環境または特殊化されたコンピューティング環境が、本明細書で説明する教示による動作で使用することができ、あるいはその動作を行うことができる。ソフトウェアで示した前述の実施形態の要素をハードウェアで実施することもでき、その逆も可能である。
【００９８】
音声処理技術を本明細書のところどころで単一の統合されたシステムの一部として説明しているが、その技術は、別々に、場合により、その他の技術と組み合わせて適用することができる。代替の実施形態では、符号器または復号器以外の音声処理ツールが、その技術の１つまたは複数を実施する。
【００９９】
前述した音声符号器と音声復号器の実施形態は、様々な技術を実施する。この技術の動作は、通常、提示のために特定の順序で説明されるが、この説明の仕方は、特定の順序が必須でない限り、動作の順序の小さな並べ替えを包含することを理解されたい。例えば、順時に説明した動作が、一部のケースでは、並べ替えられること、または同時に行われることが可能である。さらに、簡明にするため、フローチャートは、通常、特定の技術を他の技術と併せて使用することができる様々な仕方を示してはいない。
【０１００】
本発明の原理を適用することができる多数の可能な実施形態に鑑みて、特許請求の範囲および趣旨に含まれる可能性があるすべてのそのような実施形態および等価の形態を本発明として主張する。
【符号の説明】
【０１０１】
１００音声符号器
１０８セレクタ
１１０マルチチャネルプリプロセッサ
１２０パーティショナ／タイル構成器
１３０周波数変換器知覚
１４０知覚モデラ
１４２重み付け器
１５０マルチチャネル変換器
１６０量子化器
１７０エントロピー符号器
１７２混合／純可逆的符号器
１７４エントロピー符号器
１８０コントローラ
１９０ＭＵＸ
２００音声符号器
２１０ＤＥＭＵＸ
２２０エントロピー復号器
２２２混合／純可逆的復号器
２３０タイル構成復号器
２４０逆マルチチャネル変換器
２５０逆量子化器／重み付け器
２６０逆周波数変換器
２７０オーバーラッパー（ｏｖｅｒｌａｐｐｅｒ）／加算器
２８０マルチチャネルポストプロセッサ
３００〜３０４ＬＳＦ
３１０〜３１２ＰＬＬＦ
３２０〜３２２ＭＬＬＦ
１４００コンピューティング環境
１４１０プロセッサ
１４２０メモリ
１４３０基本的構成
１４４０ストレージ
１４５０入力デバイス
１４６０出力デバイス
１４７０通信接続
１４８０ソフトウェア

【特許請求の範囲】
【請求項１】
音声復号器における方法であって、
前記音声復号器で、マルチチャネル音声ビットストリーム内の第１の符号化音声情報と、第２の符号化音声情報とを受信するステップであって、前記第１の符号化音声情報は、変調重複周波数変換、マルチチャンネル変換、知覚重み付け、量子化、及び、エントロピー符号化を含む、複数の不可逆的モードの符号化プロセスを使用して符号化され、前記第２の符号化音声情報は、変調重複周波数変換、線形予測、及び、Ｇｏｌｏｍｂ符号化を含む、複数の可逆的モードの符号化プロセスを使用して符号化されるステップと、
前記音声復号器で、第１の符号化音声情報と、第２の符号化音声情報とを復号化するステップであって、Ｇｏｌｏｍｂ復号化、及び、線形予測を含む、複数の可逆的モードの復号化プロセスで、前記第２の符号化音声情報を復号化するステップを含むステップと
を含む方法。
【請求項２】
前記複数の可逆的モードの復号化プロセスは、さらに雑音成形を含む
ことを特徴とする請求項１に記載の方法。
【請求項３】
前記複数の可逆的モードの復号化プロセスは、算術復号化及び逆マルチチャンネル変換を含み、前記Ｇｏｌｏｍｂ復号化及び前記算術復号化は、予測値に結合された剰余値を復号化することを特徴とする請求項１に記載の方法。
【請求項４】
前記第１の符号化音声情報を復号化するステップは、エントロピー復号化、逆量子化、逆重み付け、逆マルチチャンネル変換、逆変調重複周波数変換を含む、複数の不可逆的モードの復号化プロセスを使用することを特徴とする請求項１に記載の方法。
【請求項５】
コンピュータデバイスにより実行されたときに請求項１乃至４のいずれかに記載の方法を前記コンピュータデバイスに実施させるためのコンピュータ実行可能命令を記憶する１以上のコンピュータ読み取り可能記録媒体。
【請求項６】
音声復号器における方法であって、
前記音声復号器で、マルチチャネル音声ビットストリーム内の第１の符号化音声情報と、第２の符号化音声情報とを受信するステップであって、前記第１の符号化音声情報は、変調重複周波数変換、マルチチャンネル変換、重み付け、量子化、及び、エントロピー符号化を含む、複数の不可逆的モードの符号化プロセスを使用して符号化され、前記第２の符号化音声情報は、線形予測、マルチチャンネル変換、Ｇｏｌｏｍｂ符号化、及び、算術符号化を含む、複数の可逆的モードの符号化プロセスを使用して符号化されるステップと、
前記音声復号器で、第１の符号化音声情報と、第２の符号化音声情報とを復号化するステップであって、Ｇｏｌｏｍｂ復号化、算術復号化、逆マルチチャンネル復号化、及び、線形予測を含む、複数の可逆的モードの復号化プロセスで、前記第２の符号化音声情報を復号化するステップを含むステップと
を含む方法。
【請求項７】
コンピュータデバイスにより実行されたときに請求項６に記載の方法を前記コンピュータデバイスに実施させるためのコンピュータ実行可能命令を記憶する１以上のコンピュータ読み取り可能記録媒体。
【請求項８】
音声復号器における方法であって、
前記音声復号器で、マルチチャネル音声ビットストリーム内の第１の符号化音声情報と、第２の符号化音声情報とを受信するステップであって、前記第１の符号化音声情報は、変調重複周波数変換、マルチチャンネル変換、重み付け、量子化、及び、第１のエントロピー符号化を含む、複数の不可逆的モードの符号化プロセスを使用して符号化され、前記第２の符号化音声情報は、線形予測、適応フィルタ、及び、第２のエントロピー符号化を含む、複数の可逆的モードの符号化プロセスを使用して符号化されるステップと、
前記音声復号器で、第１の符号化音声情報を、複数の第１の復号化モードのプロセスで、復号化し、第２の符号化音声情報を、エントロピー復号化、適応フィルタ、及び、線形予測を含む、複数の第２の復号化モードのプロセスで、復号化するステップと
を含む方法。
【請求項９】
コンピュータデバイスにより実行されたときに請求項８に記載の方法を前記コンピュータデバイスに実施させるためのコンピュータ実行可能命令を記憶する１以上のコンピュータ読み取り可能記録媒体。
【請求項１０】
符号化音声情報を復号するためのシステムであって、
前記システムは、プロセッサと、
前記プロセッサにより実行されたときに方法を前記プロセッサに実施させるためのコンピュータ実行可能命令を記憶する１以上のコンピュータ読み取り可能記録媒体とを備え、
前記方法は、
前記音声復号器で、マルチチャネル音声ビットストリーム内の第１の符号化音声情報と、第２の符号化音声情報とを受信するステップであって、前記第１の符号化音声情報は、変調重複周波数変換、マルチチャンネル変換、知覚重み付け、量子化、及び、エントロピー符号化を含む、複数の不可逆的モードの符号化プロセスを使用して符号化され、前記第２の符号化音声情報は、変調重複周波数変換、線形予測、及び、Ｇｏｌｏｍｂ符号化を含む、複数の可逆的モードの符号化プロセスを使用して符号化されるステップと、
前記音声復号器で、第１の符号化音声情報と、第２の符号化音声情報とを復号化するステップであって、Ｇｏｌｏｍｂ復号化、及び、線形予測を含む、複数の可逆的モードの復号化プロセスで、前記第２の符号化音声情報を復号化するステップを含むステップと
を含む方法。
【請求項１１】
前記複数の可逆的モードの復号化プロセスは、さらに雑音成形を含む
ことを特徴とする請求項１０に記載のシステム。
【請求項１２】
前記複数の可逆的モードの復号化プロセスは、算術復号化及び逆マルチチャンネル変換を含み、前記Ｇｏｌｏｍｂ復号化及び前記算術復号化は、予測値に結合された剰余値を復号化することを特徴とする請求項１０に記載のシステム。
【請求項１３】
前記第１の符号化音声情報を復号化するステップは、エントロピー復号化、逆量子化、逆重み付け、逆マルチチャンネル変換、逆変調重複周波数変換を含む、複数の不可逆的モードの復号化プロセスを使用することを特徴とする請求項１０に記載のシステム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【公開番号】特開２０１１−１５４４００（Ｐ２０１１−１５４４００Ａ）
【公開日】平成２３年８月１１日（２０１１．８．１１）
【国際特許分類】

【出願番号】特願２０１１−１０１８２８（Ｐ２０１１−１０１８２８）
【出願日】平成２３年４月２８日（２０１１．４．２８）
【分割の表示】特願２００３−３１０６６８（Ｐ２００３−３１０６６８）の分割
【原出願日】平成１５年９月２日（２００３．９．２）
【出願人】（５０００４６４３８）マイクロソフト　コーポレーション (3,165)
【Ｆターム（参考）】

圧縮、伸長、符号変換及びデコーダ (21,671)

[ Back to top ]

混合の可逆的音声圧縮

メニュー

スポンサーリンク

次の公報 »

« 前の公報

混合の可逆的音声圧縮

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク