オーディオ信号符号化装置及びオーディオ信号符号化方法

【課題】特定の周波数帯域を廃棄した信号をスペクトルデータに変換するサンプルブロック長を決定するための周波数分析処理、或いは高域通過フィルタに係る処理を行うことで、処理量が増し電力消費が増大するという課題を解消すること。
【解決手段】分析フィルタバンク３により、入力オーディオ信号をサブバンド信号に変換する。包絡線情報算出手段４は、得られたサブバンド信号から、廃棄される予定の周波数帯域の包絡線情報を算出する。コア符号化手段２のブロック長判定手段２７は、分析フィルタバンク３により算出されるサブバンド信号を用いて、被帯域制限信号をスペクトルデータに変換する時間間隔を最適に決定する。マルチプレクサ５は、コア符号化信号と包絡線情報とを多重化して出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、オーディオ信号の特定の周波数帯域を廃棄し、廃棄された周波数帯域の包絡線情報を符号化信号に多重化して伝送又は記憶するオーディオ信号符号化装置及びオーディオ信号符号化方法に関するものである。
【背景技術】
【０００２】
デジタルオーディオの分野では、人間の可聴帯域、例えば２０ＫＨｚ以下の周波数帯域をカバーするように周波数帯域を制限してコンパクトディスク（ＣＤ）などの記録媒体に記録したり、或いは衛星デジタル放送などの伝送経路を通じて伝送したりしている。その一方で、ＣＤに比べて１０分の１以下の低いビットレートで、高品位の音質で伝送又は記憶を可能にするオーディオ信号符号化技術が開発され、実際に使用されている。
【０００３】
これらのオーディオ信号の符号化技術には、例えばミニディスク（ＭＤ）に採用されているＡＴＲＡＣ（ＡｄａｐｔｉｖｅＴｒａｎｓｆｏｒｍＡｃｏｕｓｔｉｃＣｏｄｉｎｇ）方式や、衛星デジタル放送で採用され、ＩＳＯのＭＰＥＧで規格化されているＭＰＥＧ２−ＡＡＣなどの各種方式がある。
【０００４】
これらのオーディオ信号の符号化技術では、時系列の入力オーディオ信号を複数のサンプルでまとめたものを符号化フレームとする。そしてこの符号化フレームを単位として、周波数領域のサブバンド信号やスペクトルデータに変換する。周波数領域のサブバンド信号への変換には、ＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ）などの帯域分割フィルタといったフィルタバンクを利用する。或いは、周波数領域のスペクトルデータへの変換には、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＴｒａｎｓｆｏｒｍ）などの周波数変換処理を利用する。
【０００５】
以下に説明するオーディオ信号の符号化処理では、ＭＤＣＴなどの周波数変換を利用して、時系列上の入力オーディオ信号を周波数領域のスペクトルデータに変換するものとする。上記の周波数変換により生成されるスペクトルデータは、複数のスペクトルデータをまとめた正規化帯域毎に正規化され、量子化が施される。スペクトルデータは、正規化帯域毎のスペクトルデータの振幅を表すスケールファクタで正規化される。更に、正規化されたスペクトルデータは、所望のビットレートになるように、正規化帯域毎に割り当てられる量子化ビット数で量子化される。量子化ビット数は、最小可聴しきい値や、マスキングなどの人間の聴覚心理特性に基づいて、聴感上知覚されない、もしくは知覚され難い量子化雑音レベルを許容して割り当てられる。
【０００６】
量子化されたスペクトルデータは、符号化された後に、スケールファクタや量子化ビット数などの符号化情報と多重化され、符号化信号として伝送又は記憶される。このようにして人間の聴覚特性を利用すると、ビットレートの大幅な低減が可能となる。
【０００７】
上記のようなオーディオ信号の符号化処理によって伝送又は記憶された符号化信号は、復号化処理において符号化処理の逆の手順が施され、再生オーディオ信号に復元されて出力される。
【０００８】
また、上記の周波数変換を用いたオーディオ信号の符号化処理では、入力オーディオ信号の特性に応じて、２つの異なるサンプルブロック長を切替えてスペクトルデータに変換する。ここで、２つの異なるサンプルブロック長で周波数変換を行う理由を以下に説明する。伝送又は記憶される符号化信号に対して復号化処理を施して再生オーディオ信号を復元する際に、符号化時の量子化処理に起因する量子化雑音は、周波数変換を施すサンプルブロック長の時間間隔に分散して出現する。すなわち、符号化フレーム中に小さな信号振幅のオーディオ信号と、大きな信号振幅のオーディオ信号とが連続する場合に、大きな信号振幅のオーディオ信号によってもたらされる量子化雑音が、小さな信号振幅に重畳され再生されることにより、知覚品質の劣化を引き起こす。
【０００９】
このような知覚品質の劣化を防ぐために、符号化フレーム中に信号振幅の大きな変化がある場合には、時間間隔の短いサンプルブロック長を選択して周波数変換を行う。これにより、大きな信号振幅のオーディオ信号によってもたらされる量子化雑音が出現する時間間隔は短くなり、量子化雑音は大きな信号振幅のオーディオ信号の近傍のみ重畳される。人間の聴覚特性の一つとして、時系列に近接して連続する信号間の知覚レベルが低下するという時間マスキング効果がある。この時間マスキング効果により、量子化雑音が知覚されにくくなる。このような特性を利用して知覚品質を向上させる方法がある（例えば、特許文献１参照）。
【００１０】
ここで、オーディオ信号の特性に応じ、２つの異なるサンプルブロック長を切替える方法について説明する。例えば予め入力オーディオ信号を固定長の分析窓で高速フーリエ変換（ＦＦＴ）などの周波数分析を行ってスペクトルデータに変換し、スペクトルデータの時系列の変化量を監視する。そしてこの監視によって、符号化フレーム中の信号振幅の変化量を調べ、２つの異なるサンプルブロック長を切替える方法がある。符号化フレーム中の信号振幅において、その変化量が大きく変化する部分を検出した場合には短いサンプルブロック長を選択し、検出されない場合は長いサンプルブロック長を選択する。
【００１１】
また上記した方法以外に、符号化フレーム中の時系列のオーディオ信号を用いて、信号振幅の変化量を調べる方法もある。この場合には、オーディオ信号に含まれる低い周波数成分を除去する必要がある。一般には、低音域の周波数成分の信号振幅が、高音域の周波数成分の信号振幅よりも大きく、信号振幅の変化が少ないことが多い。このため、符号化フレームの時間間隔よりも長い周期をもつ低い周波数成分の信号振幅によって、短い周期の周波数成分における信号振幅の変化は隠蔽される。これによって、符号化フレーム中の信号振幅の変化を検出する精度が下がり、短いサンプルブロック長が好ましいオーディオ信号に対して、長いサンプルブロック長を選択するという誤った処理が発生する。このサンプルブロック長の誤った選択を防ぐために、上記した低い周波数成分を除去する広域通過フィルタ処理を、時系列のオーディオ信号に予め施す必要がある。
【００１２】
以下の説明では、上記した一連の処理によって時系列のオーディオ信号を周波数領域のスペクトルデータに変換し、量子化及び符号化して符号化信号を生成するオーディオ信号の符号化処理をコア符号化処理と呼び、コア符号化処理を施す処理ブロックをコア符号化手段と呼ぶ。更に、コア符号化処理の逆の手順を施して、符号化信号から再生オーディオ信号を復元し出力する復号化処理をコア復号化処理と呼び、コア復号化処理を施す処理ブロックをコア復号化手段と呼ぶ。
【００１３】
しかしながら、更なる低ビットレートで上記のコア符号化処理を施した場合には、伝送又は記憶された符号化信号に対してコア復号化処理を行うと、復元され出力される再生オーディオ信号の音質劣化が知覚される。このことは、低ビットレートという要求に対して行われるコア符号化処理によって、削減される情報量が聴感上知覚され易い部分に及ぶためである。特に、周波数帯域が制限されて、高音域の成分が削除されることが多い。これは、低音域の成分の削除よりも、高音域データ成分の削除の方が聴感上知覚され難いことによる。
【００１４】
そこで、低ビットレートでコア符号化処理を施すことにより削除される高音域の成分を、復号化時にコア復号化処理とは別に擬似的に再現することによって、出力する再生オーディオ信号の周波数帯域を拡張して知覚品質を改善する方法が提案されている。以下にその方法を説明する。
【００１５】
符号化時において、コア符号化処理とは別に、入力オーディオ信号の周波数領域のサブバンド信号を分析し、コア符号化処理により廃棄（削除ともいう）される周波数帯域の信号、即ち廃棄帯域におけるサブバンド信号の包絡線や分布、振幅などを求める。そしてこれらの付加情報をコア符号化処理により生成されるコア符号化信号に多重化して伝送又は記憶する。復号化時には、廃棄された周波数帯域のサブバンド信号を持つ信号を生成すると共に、コア符号化信号に多重化されるサブバンド信号の包絡線や分布、振幅などの付加情報を抽出して再現する。これらの付加情報に基づいてサブバンド信号の包絡線や分布、振幅などを調整する。この技術は、例えば特許文献２、又は非特許文献２に開示されている。
【００１６】
以下では説明を簡単にするために、廃棄される周波数帯域のサブバンド信号を擬似的に再現するために、符号化信号に多重化して伝送又は記憶される情報を単に包絡線情報と呼ぶ。ここで言う包絡線情報には、廃棄される周波数帯域のサブバンド信号の包絡線や分布、振幅などのいずれか一つ以上が含まれるものとする。
【００１７】
上記のようにして、伝送又は記憶されるコア符号化信号にコア復号化処理を施すと共に、復元され出力されるオーディオ信号に含まれない周波数帯域のサブバンド信号を持つ付加信号を生成し、復号オーディオ信号と付加信号とを合成する。このことにより、低ビットレートで再生オーディオ信号の周波数帯域を拡張し、知覚品質を大幅に改善することができる。
【００１８】
上記の方法により、入力オーディオ信号の特定の周波数帯域を廃棄した信号（以下、被帯域制限信号という）にコア符号化処理を施してコア符号化信号を生成する。そして、入力オーディオ信号を分析することにより、廃棄される周波数帯域のサブバンド信号の包絡線情報を求め、符号化信号に多重化して伝送又は記憶する。このようなオーディオ信号符号化装置について、図面を参照しながら以下に説明する。
【００１９】
図１１は上記した従来例１のオーディオ信号符号化装置の構成例を示すブロック図である。図１１において、ダウンサンプリングフィルタ１は入力オーディオ信号Ｘ１の高域の周波数帯域を廃棄し、被帯域制限信号Ｘ２を出力するフィルタである。コア符号化手段２は、被帯域制限信号Ｘ２にコア符号化処理を施し、コア符号化信号Ｓ２を生成するものである。分析フィルタ３は、入力オーディオ信号Ｘ１に分析フィルタ処理を施し、サブバンド信号Ｓｂ１を生成するフィルタである。包絡線情報算出手段４は、サブバンド信号Ｓｂ１を用いて、廃棄される周波数帯域のサブバンド信号の符号化された包絡線情報Ｅｖ１を生成するものである。マルチプレクサ５は、コア符号化信号Ｓ２に廃棄帯域信号の包絡線情報Ｅｖ１を多重化し、これを符号化信号Ｓ１として出力する回路である。
【００２０】
従来例１のコア符号化手段２は、周波数分析手段２１、ブロック長判定手段２２、時間／周波数変換手段２３、量子化及び符号化手段２４を有している。周波数分析手段２１は被帯域制限信号Ｘ２から周波数領域のスペクトルデータＳｐ１を算出するものである。ブロック長判定手段２２は、スペクトルデータＳｐ１から、符号化フレーム中の信号振幅の変化量を調べ、被帯域制限信号Ｘ２を周波数領域のスペクトルデータＳｐ２に変換する際に用いるサンプルブロック長を選択するものである。時間／周波数変換手段２３は、ブロック長判定手段２２で選択されたサンプルブロック長に従って、被帯域制限信号Ｘ２からスペクトルデータＳｐ２を生成するものである。量子化及び符号化手段２４は、スペクトルデータＳｐ２を正規化帯域毎に正規化及び量子化した後に、符号化を施してコア符号化信号Ｓ２を生成するものである。
【００２１】
図１２は、従来例２のオーディオ信号符号化装置の構成図である。このオーディオ信号符号化装置は、図１１に示すオーディオ信号符号化装置の中のコア符号化処理において、周波数分析手段２１の代わりに高域通過フィルタ２５を設け、予め低域の周波数成分を除去するようにしている。そしてこの高域通過フィルタ２５から得られる時系列のオーディオ信号を用いて、時間／周波数変換処理２３のサンプルブロック長を判定するため、ブロック長判定手段２６を設けたことを特徴とする。
【００２２】
図１２において、ダウンサンプルフィルタ１、時間／周波数変換手段２３、量子化及び符号化手段２４、分析フィルタ３、包絡線情報算出手段４、マルチプレクサ５は、夫々図１１に示すものと同じであるため、それらの機能説明を省略する。
【００２３】
高域通過フィルタ２５は、被帯域制限信号Ｘ２から低音域の周波数成分を除去するフィルタである。ブロック長判定手段２６は、被帯域制限信号Ｘ２から低音域の周波数成分を除去した信号に対して、符号化フレーム中の信号振幅の変化量を調べ、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換する際に用いるサンプルブロック長を選択して時間／周波数変換処理２３に与えるものである。
【００２４】
図１３は、分析フィルタ３によって、入力オーディオ信号Ｘ１から生成されるサブバンド信号Ｓｂ１（ｔ，ｆ）の時間方向と周波数方向の配置を表した説明図である。ここでｔは時間方向のインデックスであり，ｆは周波数方向のインデックスである。
【００２５】
図１３において説明を簡単にするために、符号化フレームの時間間隔Ｔで、分析フィルタ３によるサブバンド信号Ｓｂ１の生成を８回行うものとする。時間方向のインデックスｔは、ｔ＝０，１，２・・・７となる。また、分析フィルタ３によるサブバンド信号Ｓｂ１の生成の１回当たり、周波数帯域を８個に分割するものとする。周波数方向のインデックスｆは、ｆ＝０，１，２・・・.７となる。すなわち、入力オーディオ信号に対して符号化フレームの時間間隔Ｔで、分析フィルタ３によって６４個のサブバンド信号Ｓｂ１（ｔ，ｆ）（ｔ＝０〜７，ｆ＝０〜７）が生成される。
【００２６】
また、周波数方向のインデックスｆが大きいほど高音域の周波数帯域を表す。Ｓｂ１（ｔ，０）は、入力オーディオ信号の周波数帯域のうち、直流成分を含む低音域の周波数帯域のサブバンド信号を表す。また、Ｓｂ１（ｔ，７）は入力オーディオ信号の周波数帯域のうち、ｆｓ／２（ｆｓは、サンプリング周波数）の成分を含む高音域の周波数帯域のサブバンド信号を表す。ダウンサンプルフィルタ１によって廃棄される周波数帯域ｗ１を（ｆ＝４〜７）とし、コア符号化処理が施される被帯域制限信号Ｘ２の周波数帯域ｗ０を（ｆ＝０〜３）とする。
【特許文献１】特表平５−５０６３４５号公報
【特許文献２】特表２００１−５２１６４８号公報
【非特許文献２】マーチン、他共著「スペクトルバンド複製によるオーディオ符号化における新たなアプローチ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ，ａｎｏｖｅｌａｐｐｒｏａｃｈｉｎａｕｄｉｏｃｏｄｉｎｇ）」ＡＥＳ、２００２年、ドイツ、ミュンヘン会議、論文第５５５３号
【発明の開示】
【発明が解決しようとする課題】
【００２７】
しかしながら、前記した従来例１の構成では、廃棄される周波数帯域のサブバンド信号の包絡線情報を算出するために行う分析フィルタとは別に、コア符号化処理において被帯域制限信号を周波数領域のスペクトルデータに変換する必要がある。このため、サンプルブロック長を決定する前処理として周波数分析手段２１を用いて周波数分析処理が行われる。また従来例２の構成では、高域通過フィルタ２５を用いて被帯域制限信号の低音域の周波数成分を除去する高域通過フィルタ処理が行われる。このため上記２例の従来の方法では、コア符号化処理に係る処理量が大きいという課題を有していた。
【００２８】
本発明は、このような従来の課題を解決するもので、被帯域制限信号にコア符号化処理を施すと共に、廃棄される周波数帯域の信号に対し包絡線情報を算出し、コア符号化信号に多重化して出力する符号化処理において、その処理量を軽減することが可能なオーディオ信号符号化装置及びオーディオ信号符号化方法を実現することを目的としている。
【課題を解決するための手段】
【００２９】
この課題を解決するために、本発明のオーディオ信号符号化装置は、入力オーディオ信号から特定の周波数帯域を廃棄した信号を被帯域制限信号とし、前記特定の周波数帯域の信号を廃棄帯域信号とするとき、前記被帯域制限信号からコア符号化信号を生成すると共に、前記廃棄帯域信号の包絡線情報を生成して前記コア符号化信号に多重化し、伝送又は記憶するオーディオ信号符号化装置であって、前記入力オーディオ信号から周波数領域のサブバンド信号を生成する分析フィルタと、前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号から、前記被帯域制限信号を周波数領域のスペクトルデータに変換するサンプルブロック長を決定するブロック長判定手段と、前記被帯域制限信号を前記スペクトルデータに変換する時間／周波数変換手段と、前記スペクトルデータを適応的に量子化及び符号化し、コア符号化信号を生成する量子化及び符号化手段と、前記サブバンド信号から前記廃棄帯域信号の包絡線情報を算出する包絡線情報算出手段と、前記コア符号化信号と前記包絡線情報とを多重化して符号化信号を出力する多重化手段と、を具備することを特徴とするものである。
【００３０】
ここで前記ブロック長判定手段は、前記サブバンド信号の時間間隔を単位に、前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号に基づく累計したセグメントエネルギーを算出し、前記セグメントエネルギーに基づいて、前記サンプルブロック長を決定してもよい。
【００３１】
ここで前記ブロック長判定手段は、前記サブバンド信号の時間間隔を単位に、前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号に基づくセグメントエネルギーを、２つ以上にグループ化した周波数帯域毎に算出し、前記グループ化した周波数帯域毎の前記セグメントエネルギーに基づいて、前記サンプルブロック長を決定してもよい。
【００３２】
この課題を解決するために、本発明のオーディオ信号符号化方法は、入力オーディオ信号から特定の周波数帯域を廃棄した信号を被帯域制限信号とし、前記特定の周波数帯域の信号を廃棄帯域信号とするとき、前記被帯域制限信号からコア符号化信号を生成すると共に、前記廃棄帯域信号の包絡線情報を生成して前記コア符号化信号に多重化し、伝送又は記憶するオーディオ信号符号化方法であって、前記入力オーディオ信号から周波数領域のサブバンド信号を生成するステップと、前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号から、前記被帯域制限信号を周波数領域のスペクトルデータに変換するサンプルブロック長を決定するステップと、前記被帯域制限信号を前記スペクトルデータに変換するステップと、前記スペクトルデータを適応的に量子化及び符号化し、コア符号化信号を生成するステップと、前記サブバンド信号から前記廃棄帯域信号の包絡線情報を算出するステップと、前記コア符号化信号と前記包絡線情報とを多重化して符号化信号を出力するステップと、有することを特徴とするものである。
【００３３】
ここで前記被帯域制限信号を前記スペクトルデータに変換するサンプルブロック長を決定するステップは、前記サブバンド信号の時間間隔を単位に、前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号に基づくセグメントエネルギーを算出し、前記セグメントエネルギーに基づいて、前記サンプルブロック長を決定してもよい。
【００３４】
ここで前記被帯域制限信号を前記スペクトルデータに変換するサンプルブロック長を決定するステップは、前記サブバンド信号の時間間隔を単位に、前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号に基づくセグメントエネルギーを、２つ以上にグループ化した周波数帯域毎に算出し、前記グループ化した周波数帯域毎の前記セグメントエネルギーに基づいて、前記サンプルブロック長を決定してもよい。
【発明の効果】
【００３５】
本発明のオーディオ信号符号化装置及びオーディオ信号符号化方法によれば、コア符号化手段は、分析フィルタで生成されるサブバンド信号から、コア符号化処理において被帯域制限信号を周波数領域のスペクトルデータに変換するためのサンプルブロック長を決定することにより、コア符号化処理において周波数分析に係る処理を軽減することができる。更に本願発明のオーディオ信号符号化装置及びオーディオ信号符号化方法は、被帯域制限信号の低音域の周波数成分を除去する広域通過フィルタに係る処理を軽減することができる。
【発明を実施するための最良の形態】
【００３６】
以下本発明を実施するための最良の形態について、図面を参照しながら説明する。
（実施の形態１）
図１は本発明の実施の形態におけるオーディオ信号符号化装置の全体構成図である。本実施の形態のオーディオ信号符号化装置は、ダウンサンプリングフィルタ１、コア符号化手段２、分析フィルタ３、包絡線情報算出手段４、マルチプレクサ５を含んで構成される。
またコア符号化手段２は、従来例と異なり、ブロック長判定手段２７、時間／周波数変換手段２３、量子化及び符号化手段２４により構成される。
【００３７】
ダウンサンプリングフィルタ１は、入力オーディオ信号Ｘ１の特定の周波数帯域を廃棄し、被帯域制限信号Ｘ２を生成するフィルタである。コア符号化手段２は、被帯域制限信号Ｘ２にコア符号化処理を施してコア符号化信号Ｓ２を生成するものである。分析フィルタ３は、入力オーディオ信号Ｘ１から周波数領域のサブバンド信号Ｓｂ１を生成するフィルタである。包絡線情報算出手段４は、サブバンド信号Ｓｂ１から、廃棄される周波数帯域のサブバンド信号Ｓｂ１の包絡線情報Ｅｖ１を生成するものである。マルチプレクサ５は、コア符号化信号Ｓ２に、符号化された包絡線情報Ｅｖ１を多重化した符号化信号Ｓ１を生成して出力する多重化手段である。
【００３８】
ブロック長判定手段２７は、分析フィルタ３によって生成されるサブバンド信号Ｓｂ１を用いて、被帯域制限信号Ｘ２を周波数領域のスペクトルデータＳｐ２に変換するためのサンプルブロック長を判定するものである。時間／周波数変換手段２３は、ブロック長判定手段２７で選択されたサンプルブロック長を用いて、被帯域制限信号Ｘ２から周波数領域のスペクトルデータＳｐ２を生成するものである。量子化及び符号化手段２４は、スペクトルデータＳｐ２を正規化帯域毎に正規化及び量子化した後に、符号化を施してコア符号化信号Ｓ２を生成するものである。
【００３９】
図２は、実施の形態１におけるブロック長判定手段２７Ａの構成を更に詳しく示したブロック図である。ブロック長判定手段２７Ａは、セグメントエネルギー算出手段２７１、エネルギー変化量算出手段２７２、ブロック長選択手段２７３を有している。セグメントエネルギー算出手段２７１は、サブバンド信号Ｓｂ１から任意の周波数帯域におけるサブバンド信号の自乗値を周波数方向で累計し、その累計値をセグメントエネルギーＳＥ１として算出するものである。このセグメントエネルギーＳＥ１は、分析フィルタ３のサブバンド信号Ｓｂ１を生成する時間間隔を単位として算出される。エネルギー変化量算出手段２７２は、時系列上で隣接する２つのセグメントエネルギーＳＥ１における差の絶対値を演算し、その演算結果をエネルギー変化量Ｄ１として出力するものである。ブロック長選択手段２７３は、符号化フレーム中で、所定の閾値Ｔｈ１よりも大きいエネルギー変化量Ｄ１が検出される場合には、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するサンプルブロック長を短い時間間隔のサンプルブロック長とし、閾値Ｔｈ１よりも大きいエネルギー変化量Ｄ１が検出されない場合には、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するサンプルブロック長を長い時間間隔のサンプルブロック長とするようにサンプルブロック長を選択するものである。
【００４０】
図３は、分析フィルタ３によって、入力オーディオ信号Ｘ１から生成されるサブバンド信号Ｓｂ１（ｔ，ｆ）の時間方向と周波数方向の配置を表す説明図である。ここでｔは時間方向のインデックスであり、ｆは周波数方向のインデックスである。説明を簡単にするために、図３では符号化フレームの時間間隔Ｔで、分析フィルタ３によるサブバンド信号Ｓｂ１の生成を８回行うものとする。この場合、時間方向のインデックスｔは、０〜７の何れかの整数値となる。また、分析フィルタ３によるサブバンド信号Ｓｂ１の生成の１回当たり、周波数帯域を８個に分割するものとする。周波数方向のインデックスｆは、０〜７の何れかの整数値となる。すなわち、入力オーディオ信号に対して符号化フレームの時間間隔Ｔで、分析フィルタ３により６４個のサブバンド信号Ｓｂ１（ｔ，ｆ）が生成される。また、周波数方向のインデックスｆが大きいほど高音域の周波数帯域を表す。Ｓｂ１（ｔ，０）は入力オーディオ信号の周波数帯域のうち、直流成分を含む低音域の周波数帯域のサブバンド信号を表す。また、Ｓｂ１（ｔ，７）は入力オーディオ信号の周波数帯域のうち、ｆｓ／２（ｆｓは、サンプリング周波数）の成分を含む高音域の周波数帯域のサブバンド信号を表す。更に、ダウンサンプルフィルタ１によって廃棄される周波数帯域ｗ１をｆ＝４〜７とし、コア符号化処理が施される被帯域制限信号Ｘ２の周波数帯域ｗ０をｆ＝０〜３とする。
【００４１】
図４はセグメントエネルギー算出手段２７１によって、図３のサブバンド信号Ｓｂ１（ｔ，ｆ）から算出されるセグメントエネルギーＳＥ１（ｔ）を表す説明図である。なおｔは時間方向のインデックスである。また図４の横軸は時間を表わし、縦軸はセグメントエネルギーＳＥ１（ｔ）の大きさを表す。
【００４２】
図４において、セグメントエネルギーＳＥ１（ｔ）は、サブバンド信号Ｓｂ１（ｔ，ｆ）のうち、コア符号化処理が施される被帯域制限信号Ｘ２の周波数帯域ｗ０に含まれる周波数帯域で、且つ直流成分を含む低音域の周波数成分を含むサブバンド信号Ｓｂ１（ｔ，０）を除くＳｂ１（ｔ，ｆ）（ｆ＝１〜３）の自乗値を周波数方向で累計して算出するものとする。時間方向のインデックスｔは図３の場合と同様である。
【００４３】
図５はエネルギー変化量算出手段２７２によって、図４のセグメントエネルギーＳＥ１（ｔ）から算出されるエネルギー変化量Ｄ１（ｔ）を表す説明図である。なおｔは時間方向のインデックスである。図５の横軸は時間を表わし、縦軸はエネルギー変化量Ｄ１（ｔ）の大きさを表す。
【００４４】
図５において、エネルギー変化量Ｄ１（ｔ）は、時系列で隣接するセグメントエネルギーＳＥ１（ｔ−１）とＳＥ１（ｔ）との差の絶対値で算出される。ここで、Ｄ１（０）は、現在の符号化フレームに対して時系列に先行する前の符号化フレーム中における最後のセグメントエネルギーＳＥ１’（７）と、現在の符号化フレーム中のセグメントエネルギーＳＥ１（０）との差の絶対値で算出される。横軸に点線で表されるＴｈ１は、エネルギー変化量Ｄ１（ｔ）に応じ、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するサンプルブロック長を切替えるブロック長判定閾値である。すなわち、符号化フレームの時間間隔Ｔでブロック長判定閾値Ｔｈ１より大きいエネルギー変化量Ｄ１（ｔ）が検出される場合には、短い時間間隔のサンプルブロック長を選択し、検出されない場合は、長い時間間隔のサンプルブロック長を選択するように、ブロック長選択手段２７３がエネルギー変化量Ｄ１（ｔ）を監視する。
【００４５】
尚、本実施の形態の説明では、セグメントエネルギーＳＥ１及びエネルギー変化量Ｄ１の算出、並びにサンプルブロック長の決定を、上記の方法で行うとしたが、別の方法を用いても良い。更に本実施の形態において、ブロック長判定手段２７Ａは、分析フィルタ３のサブバンド信号Ｓｂ１を生成する時間間隔を単位に、セグメントエネルギーＳＥ１から算出されるエネルギー変化量Ｄ１とブロック長判定閾値Ｔｈ１とを比較するようにした。しかし、ブロック長判定手段２７Ａは、セグメントエネルギーＳＥ１を短い時間間隔のサンプルブロック長の時間間隔を単位に統合して、統合セグメントエネルギーＳＥ２を算出し、統合セグメントエネルギーＳＥ２から算出されるエネルギー変化量Ｄ２とブロック長判定閾値Ｔｈ２とを比較するようにしても良い。
【００４６】
以下に、統合セグメントエネルギーＳＥ２を用いて、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するサンプルブロック長判定方法について説明する。図６は、セグメントエネルギー算出手段２７１によって、図４のセグメントエネルギーＳＥ１（ｔ）から得られる統合セグメントエネルギーＳＥ２（ｔ２）を表す説明図である。なおｔ２は時間方向のインデックスである。図６の横軸は時間を表わし、縦軸は統合セグメントエネルギーＳＥ２（ｔ）の大きさを表す。
【００４７】
図６において、統合セグメントエネルギーＳＥ２（ｔ）は、図４のセグメントエネルギーＳＥ１（ｔ）から、短い時間間隔のサンプルブロック長の時間間隔Ｔ２に含まれるセグメントエネルギーＳＥ１（ｔ）及びＳＥ１（ｔ＋１）の最大値を選択することによって、統合セグメントエネルギーＳＥ２（ｔ２）を算出する。ここで、ｔ＝２＊ｔ２，ｔ＝０〜７、ｔ２＝０〜３とする。
【００４８】
図７は、図６の統合セグメントエネルギーＳＥ２（ｔ２）から算出されるエネルギー変化量Ｄ２（ｔ２）を表す説明図である。なおｔ２は時間方向のインデックスである。図７の横軸は時間を表わし、縦軸はエネルギー変化量Ｄ２（ｔ２）の大きさを表す。
【００４９】
図７において、エネルギー変化量Ｄ２（ｔ２）は、時系列で隣接する統合セグメントエネルギーＳＥ２（ｔ２−１）とＳＥ２（ｔ２）との差の絶対値で算出される。Ｄ２（０）は、現在の符号化フレームに対して時系列に先行する前の符号化フレーム中における最後の統合セグメントエネルギーＳＥ２’（３）と、現在の符号化フレーム中のセグメントエネルギーＳＥ２（０）の差の絶対値で算出される。横軸に点線で表されるＴｈ１は、エネルギー変化量Ｄ２（ｔ２）に応じ、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するサンプルブロック長を切替えるブロック長判定閾値を示す。すなわち、符号化フレームの時間間隔Ｔでブロック長判定閾値Ｔｈ２より大きいエネルギー変化量Ｄ２（ｔ）が検出される場合には、短い時間間隔のサンプルブロック長を選択し、検出されない場合は、長い時間間隔のサンプルブロック長を選択するようにブロック長選択手段２７３がエネルギー変化量Ｄ２（ｔ）を監視する。
【００５０】
尚、本実施の形態の説明では、統合セグメントエネルギーＳＥ２及びエネルギー変化量Ｄ２の算出、並びにサンプルブロック長の決定を上記の方法で行うが、別の方法を用いても良い。
【００５１】
上記の構成によれば、コア符号化手段２においてブロック長判定手段２７Ａは、分析フィルタ３により生成されるサブバンド信号Ｓｂ１から、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するためのサンプルブロック長を決定することにより、サンプルブロック長を決定するための被帯域制限信号Ｘ２の周波数分析に係る処理が不要となり、処理量を軽減することができる。また上記の構成によれば、サンプルブロック長の誤った選択を防ぐために、被帯域制限信号Ｘ２に施す低音域の周波数成分を除去する広域通過フィルタ処理に係る処理が不要となり、処理量を軽減することができる。これにより、電力消費を低減したオーディオ信号符号化装置を実現することができる。
【００５２】
なお、実施の形態１のオーディオ信号符号化装置において、各構成ブロックの処理は、ソフトウェアプログラムによってコンピュータ又はデジタルシグナルプロセッサ（ＤＳＰ）上で実現することも可能である。
【００５３】
（実施の形態２）
次に本発明の実施の形態２におけるオーディオ信号符号化装置について説明する。本実施の形態におけるオーディオ信号符号化装置の全体構成は、図１に示すものと同一である。図８は、本実施の形態のコア符号化手段２に用いられるブロック長判定手段２７Ｂの構成図である。ブロック長判定手段２７Ｂは、分析フィルタ３によって入力オーディオ信号から生成されるサブバンド信号Ｓｂ１を用いて、帯域制限信号Ｘ２をスペクトルデータｐ２に変換するためのサンプルブロック長を決定するものである。
【００５４】
図８に示すように、ブロック長判定手段２７Ｂは、セグメントエネルギー算出手段２７４、エネルギー変化量算出手段２７５１・・２７５２、ブロック長選択手段２７６１・・２７６２、ブロック長制御手段２７７を有している。セグメントエネルギー算出手段２７４は、図１の分析フィルタ３によって入力オーディオ信号Ｘ１から生成されるサブバンド信号Ｓｂ１を用いて、任意の周波数帯域におけるサブバンド信号の自乗値を周波数方向で累計し、累計結果をセグメントエネルギーＳＥ３として出力するものである。セグメントエネルギーＳＥ３は、分析フィルタ３のサブバンド信号Ｓｂ１を生成する時間間隔を単位として算出される。これに加えて更にセグメントエネルギーＳＥ３は、少なくとも２つ以上の帯域にグループ化した帯域毎に算出される。
【００５５】
エネルギー変化量算出手段２７５１・・２７５２は、グループ化した周波数帯域毎に設けられるものであり、時系列に隣接するセグメントエネルギーＳＥ３の差の絶対値で求められるエネルギー変化量Ｄ３を算出する。ブロック長選択手段２７６１・・２７６２は、エネルギー変化量算出手段２７５１・・２７５２に対応して設けられる。ブロック長選択手段２７６１・・２７６２はグループ化した帯域毎に、符号化フレーム中で閾値Ｔｈ３よりも大きいエネルギー変化量Ｄ３が検出される場合に、帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するためのサンプルブロック長を、短い時間間隔のサンプルブロック長とし、閾値Ｔｈ３よりも大きいエネルギー変化量Ｄ３が検出されない場合に、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するためのサンプルブロック長を、長い時間間隔のサンプルブロック長とするよう、サンプルブロック長を選択する。
【００５６】
ブロック長制御手段２７７は、グループ化した帯域毎に選択されるサンプルブロック長の１つ以上で短い時間間隔のサンプルブロック長が選択される場合に、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するサンプルブロック長を、短い時間間隔のサンプルブロック長とするようにサンプルブロック長を制御するものである。
【００５７】
図９は、セグメントエネルギー算出手段２７４によって、図３のサブバンド信号Ｓｂ１（ｔ，ｆ）から算出されるセグメントエネルギーＳＥ３（ｔ，ｐ）を表す説明図である。尚、ｎは時間方向のインデックスであり，ｐは周波数方向のインデックスである。図９の横軸は時間を表わし、縦軸はセグメントエネルギーＳＥ３（ｔ，ｐ）の大きさを表す。
【００５８】
図９において、セグメントエネルギーＳＥ３（ｔ，ｐ）は、サブバンド信号Ｓｂ１（ｎ，ｍ）のうち、コア符号化処理が施される被帯域制限信号Ｘ２の周波数帯域ｗ０に含まれ、且つ直流成分を含む低音域の周波数成分を含むサブバンド信号Ｓｂ１（ｔ，０）を除くＳｂ１（ｔ，ｍ）（ｍ＝１〜３）の自乗値を、周波数方向で累計して算出される。ｔは時間方向のインデックスである。
【００５９】
更に、セグメントエネルギーＳＥ３（ｔ，ｐ）は、周波数方向で人間の聴覚特性に合わせた帯域毎にグループ化して算出する。図９では説明を簡単にするために、（ｆ＝１）のサブバンド信号Ｓｂ１（ｔ，ｆ）の自乗値によって（ｐ＝０）のセグメントエネルギーＳＥ３（ｔ，０）を算出し、（ｆ＝２及び３）のサブバンド信号Ｓｂ１（ｔ，ｆ）の自乗値を周波数方向で累計して（ｐ＝１）のセグメントエネルギーＳＥ３（ｔ，１）を算出する場合を示す。図９の上段は、（ｐ＝０）のセグメントエネルギーＳＥ３（ｔ，０）を示し、下段は（ｐ＝１）のセグメントエネルギーＳＥ３（ｔ，１）を示す。
【００６０】
図１０は、エネルギー変化量算出手段２７５１及び２７５２によって、図９に示されるセグメントエネルギーＳＥ３（ｔ，ｐ）から算出されるエネルギー変化量Ｄ３（ｔ，ｐ）を表す説明図である。ここでｔは時間方向のインデックスであり、ｐは周波数方向のインデックスである。図１０の横軸は時間を表わし、縦軸はエネルギー変化量Ｄ３（ｔ，ｐ）の大きさを表す。
【００６１】
図１０において、エネルギー変化量Ｄ３（ｔ，ｐ）は、時系列で隣接するセグメントエネルギーＳＥ３（ｔ−１，ｐ）とＳＥ３（ｔ，ｐ）との差の絶対値で算出される。ここで、Ｄ３（０，ｐ）は、現在の符号化フレームに対して時系列に先行する前の符号化フレーム中における最後のセグメントエネルギーＳＥ３’（７，ｐ）と、現在の符号化フレーム中のセグメントエネルギーＳＥ３（０，ｐ）との差の絶対値で算出される。横軸に点線で表されるＴｈ３（ｐ）は、グループ化した帯域毎の、エネルギー変化量Ｄ３（ｔ，ｐ）に応じ、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するサンプルブロック長を切替えるブロック長判定閾値を示す。すなわち、符号化フレームの時間間隔Ｔで、変換長判定閾値Ｔｈ３（ｐ）より大きいエネルギー変化量Ｄ３（ｔ，ｐ）が検出される場合には、短い時間間隔のサンプルブロック長を選択し、検出されない場合は、長い時間間隔のサンプルブロック長を選択するよう、ブロック長選択手段２７６１及び２７６２がエネルギー変化量Ｄ３（ｔ，ｐ）を監視する。
【００６２】
ブロック長選択手段２７６１及び２７６２でグループ化した周波数帯域毎に選択されたサンプルブロック長のうち、１つ以上で短い時間間隔のサンプルブロック長が選択される場合には、ブロック長制御手段２７７では、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するサンプルブロック長を、短い時間間隔のサンプルブロック長とするようにサンプルブロック長を制御する。
【００６３】
尚、本実施の形態の説明では、セグメントエネルギーＳＥ３及びエネルギー変化量Ｄ３の算出、並びにサンプルブロック長の決定を上記の方法で行うが、別の方法を用いても良い。更に本実施の形態において、ブロック長判定手段２７Ｂは、分析フィルタ３のサブバンド信号Ｓｂ１を生成する時間間隔を単位として、セグメントエネルギーＳＥ３から算出されるエネルギー変化量Ｄ３と、ブロック長判定閾値Ｔｈ３とを比較するようにした。しかし、セグメントエネルギーＳＥ３として、短い時間間隔のサンプルブロック長を単位に統合して統合セグメントエネルギーを算出し、統合セグメントエネルギーから算出されるエネルギー変化量と、ブロック長判定閾値とを比較するようにしても良い。この方法は、実施の形態１と同様であるので、説明を省略する。
【００６４】
上記の構成によれば、コア符号化手段２のブロック長判定手段２７Ｂは、分析フィルタ３により生成されるサブバンド信号Ｓｂ１から、被帯域制限信号Ｘ２をスペクトルデータＳｐ２に変換するサンプルブロック長を決定することにより、サンプルブロック長を決定するための周波数分析に係る処理が不要となり、処理量を軽減することができる。また、サンプルブロック長の誤った選択を防ぐための、被帯域制限信号Ｘ２に施す低音域の周波数成分を除去するための高域通過フィルタ処理に係る処理が不要となり、処理量を軽減することができる。これにより、電力消費を低減したオーディオ信号の符号化装置を実現することができる。
【００６５】
また、人間の聴覚特性に合わせてグループ化した帯域毎に信号振幅の変化を検出し、サンプルブロック長の決定を行うことにより、聴感上知覚され易い周波数帯域の信号振幅の変化を検出する精度を上げることができる。こうして、最適なサンプルブロック長を選択することで、音質の劣化を防ぐことができる。
【００６６】
更に、実施の形態２におけるオーディオ信号符号化装置の各構成ブロックの機能は、ソフトウェアプログラムによってコンピュータ又は、デジタルシグナルプロセッサ（ＤＳＰ）上で実現することも可能である。
【産業上の利用可能性】
【００６７】
本発明のオーディオ信号符号化装置及びオーディオ信号符号化方法によれば、廃棄される周波数帯域のサブバンド信号の包絡線情報を算出する。この際、分析フィルタにより生成されるサブバンド信号から、コア符号化処理において被帯域制限信号をスペクトルデータに変換するサンプルブロック長を決定する。このような処理により、サンプルブロック長を決定するための周波数分析に係る処理が不要となり、処理量を軽減することができる。また、サンプルブロック長の誤った選択を防ぐため、被帯域制限信号に施す低音域の周波数成分を除去する広域通過フィルタ処理に係る処理が不要となり、符号化装置としての処理量を軽減することができる。
【００６８】
これにより、電力消費を低減したオーディオ信号符号化装置を提供することが可能となる。このような技術は、バッテリなどで駆動するオーディオ信号符号化装置において、好適に利用することができる。また映像信号とオーディオ信号とを含むコンテンツを、制限されたビットレートでサービスする放送分野やコンテンツプロバイダ等に最適に利用できる。
【図面の簡単な説明】
【００６９】
【図１】本発明の実施の形態１、２におけるオーディオ信号符号化装置の全体構成図である。
【図２】実施の形態１におけるオーディオ信号符号化装置に用いられるブロック長判定手段の構成図である。
【図３】実施の形態１におけるサブバンド信号の配置を示す説明図である。
【図４】実施の形態１におけるセグメントエネルギーの説明図である。
【図５】実施の形態１におけるエネルギー変化量の説明図である。
【図６】実施の形態１における統合セグメントエネルギーの説明図である。
【図７】実施の形態１における統合エネルギー変化量の説明図である。
【図８】本発明の実施の形態２におけるオーディオ信号符号化装置に用いられるブロック長判定手段の構成図である。
【図９】実施の形態２におけるセグメントエネルギーの説明図である。
【図１０】実施の形態２におけるエネルギー変化量の説明図である。
【図１１】従来例１におけるオーディオ信号符号化装置の全体構成図である。
【図１２】従来例２におけるオーディオ信号符号化装置の全体構成図である。
【図１３】サブバンド信号の配置を示す説明図である。
【符号の説明】
【００７０】
１ダウンサンプルフィルタ
２コア符号化手段
３分析フィルタ
４包絡線情報算出手段
５マルチプレクサ
２１周波数分析手段
２２，２６，２７，２７Ａ，２７Ｂブロック長判定手段
２３時間／周波数変換手段
２４量子化／符号化手段
２５高域通過フィルタ
２７１，２７４セグメントエネルギー算出手段
２７２，２７５１，２７５２エネルギー変化量算出手段
２７３，２７６１，２７６２ブロック長選択手段
２７７ブロック長制御手段

【特許請求の範囲】
【請求項１】
入力オーディオ信号から特定の周波数帯域を廃棄した信号を被帯域制限信号とし、前記特定の周波数帯域の信号を廃棄帯域信号とするとき、前記被帯域制限信号からコア符号化信号を生成すると共に、前記廃棄帯域信号の包絡線情報を生成して前記コア符号化信号に多重化し、伝送又は記憶するオーディオ信号符号化装置であって、
前記入力オーディオ信号から周波数領域のサブバンド信号を生成する分析フィルタと、
前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号から、前記被帯域制限信号を周波数領域のスペクトルデータに変換するサンプルブロック長を決定するブロック長判定手段と、
前記被帯域制限信号を前記スペクトルデータに変換する時間／周波数変換手段と、
前記スペクトルデータを適応的に量子化及び符号化し、コア符号化信号を生成する量子化及び符号化手段と、
前記サブバンド信号から前記廃棄帯域信号の包絡線情報を算出する包絡線情報算出手段と、
前記コア符号化信号と前記包絡線情報とを多重化して符号化信号を出力する多重化手段と、を具備することを特徴とするオーディオ信号符号化装置。
【請求項２】
前記ブロック長判定手段は、
前記サブバンド信号の時間間隔を単位に、前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号に基づく累計したセグメントエネルギーを算出し、前記セグメントエネルギーに基づいて、前記サンプルブロック長を決定することを特徴とする請求項１記載のオーディオ信号符号化装置。
【請求項３】
前記ブロック長判定手段は、
前記サブバンド信号の時間間隔を単位に、前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号に基づくセグメントエネルギーを、２つ以上にグループ化した周波数帯域毎に算出し、前記グループ化した周波数帯域毎の前記セグメントエネルギーに基づいて、前記サンプルブロック長を決定することを特徴とする請求項１記載のオーディオ信号符号化装置。
【請求項４】
入力オーディオ信号から特定の周波数帯域を廃棄した信号を被帯域制限信号とし、前記特定の周波数帯域の信号を廃棄帯域信号とするとき、前記被帯域制限信号からコア符号化信号を生成すると共に、前記廃棄帯域信号の包絡線情報を生成して前記コア符号化信号に多重化し、伝送又は記憶するオーディオ信号符号化方法であって、
前記入力オーディオ信号から周波数領域のサブバンド信号を生成するステップと、
前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号から、前記被帯域制限信号を周波数領域のスペクトルデータに変換するサンプルブロック長を決定するステップと、
前記被帯域制限信号を前記スペクトルデータに変換するステップと、
前記スペクトルデータを適応的に量子化及び符号化し、コア符号化信号を生成するステップと、
前記サブバンド信号から前記廃棄帯域信号の包絡線情報を算出するステップと、
前記コア符号化信号と前記包絡線情報とを多重化して符号化信号を出力するステップと、有することを特徴とするオーディオ信号符号化方法。
【請求項５】
前記被帯域制限信号を前記スペクトルデータに変換するサンプルブロック長を決定するステップは、
前記サブバンド信号の時間間隔を単位に、前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号に基づくセグメントエネルギーを算出し、前記セグメントエネルギーに基づいて、前記サンプルブロック長を決定することを特徴とする請求項４記載のオーディオ信号符号化方法。
【請求項６】
前記被帯域制限信号を前記スペクトルデータに変換するサンプルブロック長を決定するステップは、
前記サブバンド信号の時間間隔を単位に、前記被帯域制限信号の周波数帯域に含まれる前記サブバンド信号に基づくセグメントエネルギーを、２つ以上にグループ化した周波数帯域毎に算出し、前記グループ化した周波数帯域毎の前記セグメントエネルギーに基づいて、前記サンプルブロック長を決定することを特徴とする請求項４記載のオーディオ信号符号化方法。

【図１】