説明

オーディオ信号の重要周波数成分の抽出方法及びその装置、及びこれを利用した低ビット率オーディオ信号の符号化及び/または復号化方法及びその装置

【課題】重要周波数成分を有するオーディオ信号を抽出する方法及びその装置、低ビット率オーディオ信号の符号化/復号化方法及び重要周波数成分を抽出する装置を提供する。
【解決手段】オーディオ信号の重要周波数成分の抽出方法は、周波数領域でのオーディオ信号に対し、心理音響モデルによるSMR値のような信号の知覚的重要度を計算する段階と、知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、少なくとも一つ以上の第1重要周波数成分として選択されたオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、周波数領域のオーディオ信号を符号化するのに使われる少なくとも一つ以上の第2重要周波数成分として選択する段階により、知覚的に重要な周波数成分を符号化し、低ビット率で高音質を提供できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ符号化/復号化に係り、特にオーディオ信号の重要周波数成分の抽出方法及びその装置、並びにそれらを利用した低ビット率オーディオ信号の符号化/復号化方法及びその装置に関する。
【背景技術】
【0002】
MPEG(Moving Picture Experts Group)オーディオは、高品質、高能率ステレオ符号化のためのISO/IECの標準方式である。すなわち、ISO/IEC SC 29/WG11に設けられたMPEG内で動画符号化と並行して標準化された。圧縮には、32バンドに基づいたサブバンド・コーディング(帯域分割符号化)と変形離散余弦変換(MDCT:Modified Discrete Cosine Transform)とを使用するが、聴覚心理的(Psychoacoustic)特性を利用して高能率の圧縮が実現されている。この技術により、MPEGオーディオは、従来の圧縮符号化方式に比べてすぐれた音質を実現するようになった。
【0003】
MPEGオーディオは、オーディオ信号を高能率で圧縮するために、信号を受け入れる人間の感覚特性を利用し、感度の低い細部の情報を省略して符号量を節減する「知覚符号化(Perceptual Coding)」圧縮方法を利用する。
【0004】
また、MPEGオーディオで、聴覚心理特性を利用した知覚符号化は、主に静かなときの最小可聴限界とマスキング特性とが利用されている。静かなときの最小可聴限界とは、聴覚が感知できる音の最小レベルであり、静かなときに聴覚が感知できるノイズの限界と関係がある。前記最小可聴限界は、音の周波数によって異なる。ある周波数で、最小可聴限界より大きい音は聞こえるが、最小可聴限界より小さな音は聞こえない。また、特定音の感知限界は、共に聞こえる他の音により大きく変わるが、これをマスキング効果という。そして、マスキング効果が起きる周波数幅を臨界帯域(Critical Band)という。かような臨界帯域のような聴覚心理を効率的に利用するためには、まず信号を周波数成分に分けることが重要であるが、そのために、帯域を32個のバンドに細分してサブバンド符号化を行う。また、このときMPEGオーディオでは、32バンドのエイリアシング・ノイズを消去させるためフィルタバンクを使用する。
【0005】
MPEGオーディオは、このようにフィルタバンクと心理音響モデルとを利用したビット割当てと量子化とから構成されている。MDCTの結果として生成された係数を、心理音響モデル2を利用し、最適の量子化ビットを割り当てつつ圧縮を行うことになる。最適のビットを割り当てるための心理音響モデル2は、FFTを基とし、スプレッディング関数を利用してマスキング効果を計算するために、かなり多量の複雑度が要求される。
【0006】
一般的に、オーディオ信号を低ビット率(32kbps以下)で圧縮するにおいて、前記オーディオ信号のあらゆる周波数成分を量子化して無損失符号化するには、信号別の割当て可能なビット数が不足する。従って、知覚的に重要な周波数成分を抽出し、量子化及び無損失符号化を行う必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明がなそうとする技術的課題は、オーディオ信号を低ビット率で圧縮するために、入力されるオーディオ信号のうち、重要周波数成分を抽出するオーディオ信号の重要周波数成分の抽出方法及びその装置を提供することである。
【0008】
本発明がなそうとする他の技術的課題は、前記オーディオ信号の重要周波数成分の抽出方法及びその装置を利用し、低ビット率オーディオ信号の符号化方法及びその装置を提供することである。
【0009】
本発明がなそうとするさらに他の技術的課題は、前記オーディオ信号の重要周波数成分の抽出方法及びその装置を利用し、符号化された低ビット率オーディオ信号を復号化する低ビット率オーディオ信号の復号化方法及びその装置を提供することである。
【課題を解決するための手段】
【0010】
前述の技術的課題を解決するための本発明によるオーディオ信号の重要周波数成分の抽出方法は、周波数領域に変換されたオーディオ信号に対し、心理音響モデルを利用してSMR(Signal-to-Mark Ratio)値のような信号の知覚的重要度を計算する段階と、前記計算された知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、前記少なくとも一つ以上の第1重要周波数成分として選択されたオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、前記周波数領域のオーディオ信号を符号化するのに使われる少なくとも一つ以上の第2重要周波数成分として選択する段階とを含むことを特徴とする。前記重み付け値は、重み付け値を求めようとする現在信号の周波数付近にある所定個数の周波数スペクトル値を利用し、重み付け値を求めることが望ましい。
【0011】
前記オーディオ信号の重要周波数成分の抽出方法は、前記周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を重要周波数成分として選択する段階をさらに含むことが望ましい。
【0012】
前述の技術的課題を解決するための本発明によるオーディオ信号の重要周波数成分の抽出方法は、周波数領域に変換されたオーディオ信号に対し、心理音響モデルを利用してSMRのような信号の知覚的重要度を計算する段階と、前記計算された知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、前記少なくとも一つ以上の第1重要周波数成分を有するオーディオ信号のうち、周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を、少なくとも一つ以上の他の重要周波数成分として選択する段階とを含むことを特徴とする。
【0013】
前述の他の技術的課題を解決するための本発明による低ビット率オーディオ信号の符号化方法は、周波数領域のオーディオ信号に対し、心理音響モデルを利用してSMRのような信号の知覚的重要度を計算する段階と、前記計算された知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、前記少なくとも一つ以上の第1重要周波数成分を有するオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、前記ピークの周波数を少なくとも一つ以上の第2重要周波数成分として選択する段階と、前記少なくとも一つ以上の第1及び第2重要周波数成分により、前記周波数領域のオーディオ信号を量子化及び無損失符号化する段階とを含むことを特徴とする。前記スペクトルピークを抽出する段階は、前記周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を重要周波数成分として選択する段階をさらに含むことが望ましい。前記周波数領域のオーディオ信号のSMR値を含む知覚的重要度を計算する段階は、時間領域のオーディオ信号をMDCT(Modified Discrete Cosine Transform)とMDST(Modified Discrete Sine Transform)とを利用し、周波数領域のオーディオ信号に変換することにより生成されることが望ましい。前記周波数領域のオーディオ信号の量子化段階は、ビット使用量と量子化エラーとの関係を考慮して付加情報を最小とすることができるように、複数のグループにグルーピングする段階と、前記各グループのデータ分布(dynamic range)とSMRとを考慮し、量子化ステップサイズを決定する段階と、前記グループ別に所定の量子化器を使用してオーディオ信号を量子化する段階とを含むことが望ましい。前記量子化器は、前記グループ内の最大値を基準に正規化した正規化値と、前記量子化ステップサイズとを利用して選択されることが望ましい。前記量子化は、Max-Lloyd量子化であることが望ましい。
【0014】
前記量子化された信号の無損失符号化は、コンテクスト算術符号化(context arithmetic coding)を介してなされることが望ましい。前記コンテクスト算術符号化段階は、フレーム別に前記フレームを構成している周波数成分それぞれを、重要周波数成分の存在いかんを表す周波数インデックスで表す段階と、量子化器情報、量子化ステップ及びグルーピング情報を含んだ付加情報と、オーディオ信号の量子化値とに対し、前記周波数インデックス値と以前フレームとの相関度及び周辺の重要周波数成分の分布を考慮して確率モデルを選定し、無損失符号化する段階とを含むことが望ましい。
【0015】
前述の他の技術的課題を解決するための本発明による低ビット率オーディオ信号の符号化方法は、周波数領域のオーディオ信号に対し、心理音響モデルを利用してSMRのような信号の知覚的重要度を計算する段階と、前記計算された知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、前記第1重要周波数成分を有する周波数領域のオーディオ信号のうち、周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を少なくとも一つ以上の他の重要周波数成分として選択する段階と、前記第1及び他の重要周波数成分のうち少なくとも一つを含む周波数領域のオーディオ信号を量子化及び無損失符号化する段階とを含むことを特徴とする。
【0016】
前述の技術的課題を解決するための本発明によるオーディオ信号の重要周波数成分の抽出装置は、周波数領域に変換されたオーディオ信号に対し、心理音響的特性を考慮してSMRのような信号の知覚的重要度を計算する心理音響モデル部と、前記計算された知覚的重要度により、前記心理音響モデルで計算されたSMRのような信号の知覚的重要度を利用し、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する第1 ISC選択部と、前記第1重要周波数成分として選択されたオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、少なくとも一つ以上の第2重要周波数成分として選択する第2 ISC選択部とを備えることを特徴とする。前記第2 ISC選択部での重み付け値は、重み付け値を求めようとする現在信号の周波数付近にある所定個数の周波数スペクトル値を利用し、重み付け値を求めることが望ましい。前記本発明によるオーディオ信号の重要周波数成分の抽出装置は、前記周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を、少なくとも一つ以上の第3重要周波数成分として選択する第3 ISC選択部をさらに具備することが望ましい。
【0017】
前述の技術的課題を解決するための本発明によるオーディオ信号の重要周波数成分の抽出装置は、周波数領域に変換されたオーディオ信号に対し、心理音響的特性を考慮してSMR値を含む知覚的重要度を計算する心理音響モデル部と、前記計算された知覚的重要度を利用し、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する第1 ISC選択部と、前記少なくとも一つ以上の第1重要周波数成分を有するオーディオ信号のうち、周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を重要周波数成分として選択する第3 ISC選択部とを備えることを特徴とする。
【0018】
前述の他の技術的課題を解決するための本発明による低ビット率オーディオ信号の符号化装置は、周波数領域に変換されたオーディオ信号に対し、心理音響的特性を考慮してSMR値を計算する心理音響モデル部と、前記心理音響モデルで計算されたSMR値を利用し、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を第1重要周波数成分として選択する第1 ISC選択部と、前記第1重要周波数成分として選択された周波数領域のオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、前記ピークの周波数を第2重要周波数成分として選択する第2 ISC選択部と、前記第1及び第2重要周波数成分に対応する周波数領域のオーディオ信号を量子化する量子化部と、前記量子化された信号を無損失符号化する無損失符号化部とを備えることを特徴とする。
【0019】
前記本発明による低ビット率オーディオ信号の符号化装置は、前記周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を重要周波数成分として選択する第3 ISC選択部をさらに具備することが望ましい。
【0020】
前記本発明による低ビット率オーディオ信号の符号化装置は、時間領域のオーディオ信号をMDCTとMDSTとを利用し、周波数領域のオーディオ信号に変換するT/F変換部をさらに具備することが望ましい。
【0021】
前記量子化部は、前記周波数領域のオーディオ信号に対し、ビット使用量と量子化エラーとの関係を考慮して付加情報を最小とすることができるように、グルーピングするグルーピング部と、前記周波数領域のオーディオ信号の各グループのデータ分布とSMRとを考慮し、量子化ステップサイズを決定する量子化ステップサイズ決定部と、前記グループ内の最大値を基準に正規化した正規化値と、前記量子化ステップサイズとを利用して選択され、前記グループ別に前記周波数領域のオーディオ信号を量子化する量子化器とを備えることが望ましい。前記グループ量子化器での量子化は、Max-Lloyd量子化であることが望ましい。前記無損失符号化部は、コンテクスト算術符号化により無損失符号化することが望ましい。
【0022】
前記無損失符号化部は、フレーム別に前記フレームを構成している周波数成分それぞれを、前記第1及び第2重要周波数成分の存在いかんを表す周波数インデックスとして生成するインデックス部と、量子化器情報、量子化ステップサイズ、グルーピング情報を含む付加情報とオーディオ信号の量子化値とに対し、前記周波数インデックス値と以前フレームとの相関度及び周辺の重要周波数成分の分布を考慮して確率モデルを選定し、無損失符号化する確率モデル無損失符号化部とを具備することが望ましい。
【0023】
前述の他の技術的課題を解決するための本発明による低ビット率オーディオ信号の符号化装置は、周波数領域に変換されたオーディオ信号に対し、心理音響的特性を考慮してSMRのような信号の知覚的重要度を計算する心理音響モデル部と、前記計算された知覚的重要度を利用し、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を第1重要周波数成分として選択する第1 ISC選択部と、前記第1重要周波数成分として選択された周波数領域のオーディオ信号のうち、周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を他の重要周波数成分として選択する第3 ISC選択部と、前記第1及び第2重要周波数成分を有する周波数領域のオーディオ信号を量子化する量子化部と、前記量子化された信号を無損失符号化する無損失符号化部とを備えることを特徴とする。
【0024】
前述のさらに他の技術的課題を解決するための本発明による低ビット率オーディオ信号の復号化方法は、オーディオ信号に対し、ISCの存在いかんを表すインデックス情報、量子化器情報、量子化ステップサイズ、ISCのグルーピング情報及びオーディオ信号の量子化値を復元する段階と、前記復元された量子化器情報、量子化ステップサイズ及びグルーピング情報を参照し、前記量子化値を逆量子化する段階と、前記逆量子化された値を時間領域の信号に変換する段階とを含むことを特徴とする。
【0025】
前述のさらに他の技術的課題を解決するための本発明による低ビット率オーディオ信号の復号化装置は、オーディオ信号のフレーム別に確率モデル情報を抽出し、前記確率モデル情報を利用し、ISCの存在いかんを表すインデックス情報、量子化器情報、量子化ステップサイズ、ISCのグルーピング情報及びオーディオ信号の量子化値を復元する無損失復号化部と、前記復元された量子化器情報、量子化ステップサイズ及びグルーピング情報を参照し、逆量子化器を使用して前記量子化値を逆量子化する逆量子化部と、前記逆量子化された値を時間領域の信号に変換するF/T変換部とを備えることを特徴とする。
【0026】
前記技術的課題は、周波数領域に変換されたオーディオ信号に対し、心理音響モデルを利用してSMR値のような信号の知覚的重要度を計算する段階と、前記計算された知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、前記少なくとも一つ以上の第1重要周波数成分として選択されたオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、前記周波数領域のオーディオ信号を符号化するのに使われる少なくとも一つ以上の第2重要周波数成分として選択する段階とを含むオーディオ信号の符号化及び/または復号化システムの方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体により達成される。
【0027】
前記他の技術的課題は、オーディオ信号に対し、ISCの存在いかんを表すインデックス情報、量子化器情報、量子化ステップサイズ、ISCのグルーピング情報及びオーディオ信号の量子化値を復元する段階と、前記復元された量子化器情報、量子化ステップサイズ及びグルーピング情報を参照し、前記量子化値を逆量子化する段階と、前記逆量子化された値を時間領域の信号に変換する段階とを含む低ビット率オーディオ信号の復号化方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体により達成される。
【0028】
また、前記の技術的課題を解決するための本発明によるオーディオ信号の符号化及び/または復号化システムは、SMR値、重み付け値のうち一つ、周波数バンドのSNRによって少なくとも一つ以上の重要周波数成分を有する周波数領域のオーディオ信号を選択し、前記選択された重要周波数成分の情報により、前記周波数領域のオーディオ信号を符号化する符号化器と、前記情報により、前記符号化された周波数領域のオーディオ信号を復号化する復号化器とを有する。
【0029】
また、前記の技術的課題を解決するための本発明によるオーディオ信号の符号化及び/または復号化システムは、SMR値、重み付け値のうち一つ、周波数領域のオーディオ信号の周波数バンドのSNRによって少なくとも一つ以上の重要周波数成分を有する前記周波数領域のオーディオ信号を選択し、前記選択された重要周波数成分での情報により、前記周波数領域のオーディオ信号を符号化する符号化器を有する。
【0030】
また、前記の技術的課題を解決するための本発明によるオーディオ信号の符号化及び/または復号化システムは、少なくとも一つ以上の重要周波数成分の情報によって符号化されたオーディオ信号を復号化する復号化器を有する。
【発明の効果】
【0031】
本発明によるオーディオ信号の重要周波数成分の抽出方法及びその装置、並びにそれらを利用した低ビット率オーディオ信号の符号化/復号化方法及びその装置によれば、知覚的に重要な周波数成分を効率的に符号化し、低ビット率で高音質を提供できる。また、心理音響モデルを介して知覚的に重要な成分を抽出し、位相情報なしに符号化が可能であり、低ビット率で効率的なスペクトル信号を表現できる。また、本発明は、低ビット率オーディオ符号化方式が必要なあらゆる分野に応用可能であり、次世代オーディオ方式として適用可能である。
【図面の簡単な説明】
【0032】
【図1】オーディオ信号を低ビット率で圧縮するために入力されるオーディオ信号のうち、ISCを抽出する本発明によるオーディオ信号のISCの抽出装置の構成を示したブロック図である。
【図2】オーディオ信号を低ビット率で圧縮するために入力されるオーディオ信号のうち、ISCを抽出する本発明によるオーディオ信号のISCの抽出方法を示したフローチャートである。
【図3】オーディオ信号を低ビット率で圧縮するために入力されるオーディオ信号のうち、ISCを抽出する本発明によるオーディオ信号のISCの抽出方法を概念的に示した図である。
【図4】本発明によるオーディオ信号のISCの抽出装置を利用した低ビット率オーディオ信号の符号化装置の構成を示したブロック図である。
【図5】量子化部の細部構成を示したブロック図である。
【図6】無損失符号化の細部構成を示したブロック図である。
【図7】本発明によるオーディオ信号のISCの抽出方法を利用した低ビット率オーディオ信号の符号化方法の一実施形態を示したフローチャートである。
【図8】ISC量子化をさらに詳細に示したフローチャートである。
【図9】オーディオ信号のISCの抽出装置を利用して符号化された低ビット率オーディオ信号を復号化する低ビット率オーディオ信号の復号化装置の構成を示したブロック図である。
【図10】オーディオ信号のISCの抽出装置を利用して符号化された低ビット率オーディオ信号を復号化する低ビット率オーディオ信号の復号化方法を示したフローチャートである。
【発明を実施するための形態】
【0033】
以下、本発明の実施形態について、添付された図面を参照しつつ詳細に説明する。
【0034】
図1は、オーディオ信号を低ビット率で圧縮するために入力されるオーディオ信号のうち、重要周波数成分(ISC:Important Spectral Component)を抽出する本発明によるオーディオ信号の重要周波数成分の抽出装置の構成をブロック図で図示したものであり、心理音響モデル部100及びISC選択部150とを備えてなる。
【0035】
前記心理音響モデル部100は、周波数領域に変換されたオーディオ信号に対し、心理音響的特性を考慮してSMR(Signal-to-Mark Ratio)値を計算する。前記心理音響モデル部100に入力されるスペクトルオーディオ信号は、離散フーリエ変換(DFT:Discrete Fourier Transform)ではないMDCT(Modified Discrete Cosine Transform)とMDST(Modified Discrete Sine Transform)とを利用して生成される。このようにするのは、MDCTは実数部を表現し、MDSTは虚数部を表現するので、オーディオ信号の位相情報をさらに表現できるために、DFTとMDCTとのミスマッチ問題を解決できる。前記ミスマッチ問題は、時間領域のオーディオ信号をDFTした後、該信号を利用してMDCTの係数を量子化することによって発生するのである。
【0036】
前記ISC選択部150は、前記SMR値を利用してオーディオ信号のうち重要周波数成分を選択し、第1 ISC選択部152、第2 ISC選択部154及び第3 ISC選択部156を具備し、それぞれ少なくとも一つ以上の第1 ISC、第2 ISC、及び第3 ICSを選択する。少なくとも一つ以上の第1 ISC、第2 ISC及び/または第3 ISCは、ISCと称する。
【0037】
前記第1 ISC選択部152は、前記心理音響モデル部100で計算されたSMR値を利用し、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する。
【0038】
前記第2 ISC選択部154は、前記第1 ISC選択部152で重要周波数成分として選択されたオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、少なくとも一つ以上の第2重要周波数成分として選択する。
【0039】
前記少なくとも1つの第1 ISCのうちからスペクトルピーク(Spectral peak)を検索する。前記スペクトルピークは、信号の大きさを求めて決定する。すなわち、MDCTとMDSTとにより変換された信号の実数部と虚数部とを自乗して加え、その値の自乗根を信号の大きさとする。また、前記信号周辺のスペクトル値を利用し、前記信号の重み付け値を求める。前記第2 ISC選択部154での重み付け値は、重み付け値を求めようとする現在信号の周波数付近にある所定個数の周波数スペクトル値を利用し、重み付け値を求める。前記重み付け値は、式(1)により求めることができる。
【0040】
【数1】


ここで、|SC|は、重み付け値を求めようとする現在信号の大きさであり、|SC|及び|SC|は、現在信号周囲にある信号の大きさを表す。また、lenは、前記現在信号周囲にある信号の個数を表す。
【0041】
このように求めた信号のピーク値と重み付け値とを根拠とし、第2 ISCを選択する。例えば、前記ピーク値と重み付け値とを乗じ、その結果値を既定の臨界値(スレショルド値)と比較し、前記臨界値より大きい値のみを第2 ISCとして選択する。
【0042】
前記第3 ISC選択部156は、オーディオ信号でSNR(Signal-to-Noise-Ratio)等化(equalization)を行う。すなわち、オーディオ信号の周波数成分を周波数バンドに分け、周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を、少なくとも一つ以上の第3 ISCとして選択する。このようにするのは、特定周波数帯域にISCが集中して選択されることを防止するためである。全体帯域で、各帯域間にSNRが互いに類似するように、SNRの低い帯域のうちで支配的な(dominant)ピークを選択する。このようにすることにより、SNR値の低い帯域はSNR値が高まり、結局帯域間のSNR値が類似するようになる。
【0043】
前記ISC選択部150を構成している第1 ISC選択部152、第2 ISC選択部154及び第3 ISC選択部156は、選択的に使われうる。例えば第1 ISC選択部152及び第2 ISC選択部154のみ使われることもあり、第1 ISC選択部152及び第3 ISC選択部156のみ使われることもある。あるいは、第1 ISC選択部152、第2 ISC選択部154及び第3 ISC選択部156いずれも使われることもある。従って、第1ないし第3 ISCは、ISCとして使われるためにオーディオ信号から抽出され、オーディオ信号のあらゆるスペクトル成分の量子化及び/または無損失符号化で抽出されたISCを利用し、オーディオ信号は圧縮される。
【0044】
図2は、オーディオ信号を低ビット率で圧縮するために入力されるオーディオ信号のうち、ISCを抽出する本発明によるオーディオ信号のISCの抽出方法を、フローチャートで図示したものである。図1及び図2を参照するに、まず、周波数領域に変換されたオーディオ信号に対し、心理音響モデルを利用してSMR値を計算する(段階200)。その後、前記SMR値を利用し、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を第1 ISCとして選択する(段階220)。
【0045】
前記第1 ISCとして選択されたオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出してISCとして選択する(段階240)。前記重み付け値は、重み付け値を求めようとする現在信号の周波数付近にある所定個数の周波数スペクトル値を利用し、重み付け値を求めることが望ましい。前記段階240は、前述の図1の第2 ISC選択部154と同一なので、説明を省略する。
【0046】
また、周波数帯域別にSNR等化を行って第3 ISCを選択する(段階260)。すなわち、オーディオ信号のスペクトル成分を周波数バンドに分け、周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を第3 ISCとして選択する。第1ないし第3 ISCは、ISCと称することができる。このようにするのは、前述のように、特定周波数帯域にISCが集中して選択されることを防止するためである。全体帯域で、各帯域間にSNRが互いに類似するように、SNRの低い帯域のうち支配的なピークを選択する。これにより、SNR値の低い帯域はSNR値が高まり、結局、帯域間のSNR値が類似することとなる。
【0047】
一方、前記段階220ないし段階260のISC抽出は、選択的に使われうる。例えば、段階200及び段階220のみを使用してISCを抽出することもでき、段階200及び段階260のみを使用してISCを抽出したり、または段階200、段階240及び段階260をいずれも経てISCを抽出することも可能である。
【0048】
図3は、オーディオ信号を低ビット率で圧縮するために入力されるオーディオ信号のうち、ISCを抽出する前述の本発明によるオーディオ信号のISCの抽出方法を概念的に図示したものである。図2及び図3を参照するに、入力オーディオ信号は、例えばMDCT及びMDSTを利用して周波数領域のオーディオ信号に変換され、SNR値は、可聴信号及び非可聴(inaudible)信号に対応する心理音響モデルの心理音響特性によって変換された周波数領域のオーディオ信号に対応して計算される。第1、第2及び/または第3 ISCを含む周波数領域のオーディオ信号は、SNR値、重み付け値(または、最大重み付け値)、及び/またはSNR等化によって求められる。
【0049】
図4は、本発明によるオーディオ信号のISCの抽出装置を利用した低ビット率オーディオ信号の符号化装置の構成をブロック図で図示したものであり、ISC抽出部420、量子化部440及び無損失符号化部460を備えてなる。前記低ビット率オーディオ信号の符号化装置は、T/F変換部400をさらに具備することもできる。
【0050】
図1及び図4を参照するに、前記T/F変換部400は、時間領域のオーディオ信号をMDCTとMDSTとを利用して周波数領域の信号に変換する。前記ISC抽出部420の心理音響モデルに入力されるスペクトルオーディオ信号は、DFTではないMDCTとMDSTとを利用して生成される。このようにするのは、MDCTは実数部を表現し、MDSTは虚数部を表現するので、オーディオ信号の位相情報をさらに表現できるために、DFTとMDCTとのミスマッチ問題を解決できる。前記ミスマッチ問題は、時間領域のオーディオ信号をDFTした後、該信号を利用してMDCTの係数を量子化することにより発生するのである。
【0051】
ISC抽出部420は、周波数領域のオーディオ信号からISCのオーディオ信号を抽出し、前述の本発明によるオーディオ信号のISCの抽出装置と同一である。すなわち、ISC抽出部420は、心理音響部100及びISC選択部150を具備してISCを含むオーディオ信号を選択する。
【0052】
量子化部440は、前記ISCのオーディオ信号を量子化し、図5に図示されているように、グルーピング部442、量子化ステップサイズ決定部444及び量子化器446を具備する。
【0053】
グルーピング部442は、ビット使用量と量子化エラーとの関係を考慮して付加情報を最小とすることができるように、グルーピングする。前記選択されたISCに対する量子化は、次の通りなされる。まず、選択されたISCは、レート歪み(Rate-Distortion)を考慮して付加情報を最小とすることができるように、グルーピングを行う。前記レート歪みは、ビット使用量と量子化エラーとの関係を表して互いに代償(trade-off)関係にある。すなわち、ビット使用量を増やせば量子化エラーは減り、ビット使用量を減らせば量子化エラーは大きくなるという関係である。
【0054】
一方、前記グルーピングは、選択されたISCをグルーピングし、前記グループ別にコスト(cost)を計算し、コストが小さくなるようにグルーピングする。
【0055】
初めには、グルーピングを均一に行える。その後、各バンド別にコストが小さくなるように併合(merge)する。また、前記コストは、数式2のように、グループ別に必要なビット数と付加情報ビット数とを加えることによって求められる。
【0056】
cost=qbit+付加情報[bit数] (2)
ここで、qbitは、グループ別に必要となるビット数を表し、付加情報は、スケール・ファクタ、量子化情報などからなる。
【0057】
このようにしてグルーピングされてから、前記量子化ステップサイズ決定部444は、前記各グループのデータ分布(dynamic range)とSMRとを考慮し、量子化ステップサイズを決定する。また、前記グループを構成しているISCのうち最大値を基準にISCを正規化(normalize)する。
【0058】
前記量子化器446は、前記グループ別にオーディオ信号を量子化する。前記量子化器446は、グループ内の最大値を基準に正規化した正規化値と、前記量子化ステップサイズとを利用して決定される。前記量子化は、Max-Lloyd量子化を使用することが望ましい。
【0059】
前記無損失符号化部460は、前記量子化された信号を無損失符号化し、図6に図示されているように、インデックス部462及び確率モデル無損失符号化部464を具備する。前記無損失符号化は、コンテクスト算術符号化(context arithmetic coding)を使用できる。
【0060】
インデックス部462は、フレーム別に前記フレームを構成している周波数成分それぞれを、ISCの存在いかんを表す周波数インデックスで表す。ISCの周波数情報は、コンテクスト算術符号化を介して符号化する。具体的に、フレーム別に前記フレームを構成している周波数成分それぞれを、ISCとして選択されているか否かを表す周波数インデックスによって設定する。前記周波数インデックスは、ISCの存在いかんを0と1とで表現したものである。
【0061】
確率モデル無損失符号化部464は、量子化器情報、量子化ステップ及びグルーピング情報を含んだ付加情報とオーディオ信号の量子化値とに対し、前記周波数インデックス値と以前フレームとの相関度及び周辺のISCの分布を考慮して確率モデルを選定し、無損失符号化する。そして、符号化された値に対してビット・パッキング(bit packing)を行う。
【0062】
図7は、本発明によるオーディオ信号のISCの抽出方法を利用した、低ビット率オーディオ信号の符号化方法の一実施形態をフローチャートで図示したものである。図4及び7を参照するに、時間領域のオーディオ信号をMDCTとMDSTとを利用して周波数領域の信号に変換する(段階700)。前記周波数領域に変換されたオーディオ信号は、心理音響モデルに入力される。前記心理音響モデルで、前記周波数領域のオーディオ信号に対する重要度を予測するために、SMRを計算する(段階720)。前記SMR値を利用してISCを抽出する(段階740)。前記ISC抽出は、図2のISC抽出方法と同一であるので、説明を省略する。
【0063】
ISCが抽出されれば、前記ISCを量子化する(段階760)。前記ISC量子化についてさらに詳細に説明すれば、図8に図示されているように、ビット使用量と量子化エラーとの関係を考慮して付加情報を最小とすることができるように、グルーピングする(段階762)。前記グルーピングは、前述の図5のグルーピング部442で説明したところと同一であるので、説明を省略する。
【0064】
グルーピングが行われれば、前記各グループのデータ分布とSMRとを考慮し、量子化ステップサイズを決定する(段階764)。また、前記グループを構成しているISCのうち最大値を基準にISCを正規化する。
【0065】
その後、グループ内の最大値を基準に正規化した正規化値と、前記量子化ステップサイズとを利用して量子化器を決定し、前記グループ別にオーディオ信号を量子化する(段階766)。前記量子化は、Max-Lloyd量子化を使用することが望ましい。
【0066】
図7を参照するに、前述のように量子化されれば、これを無損失符号化する(段階780)。ISCの周波数情報と量子化値は、コンテクスト算術符号化を介して符号化する。また、フレーム別に前記フレームを構成している周波数成分それぞれを、ISCとして選択されているか否かを表す周波数インデックスによって設定する。前記周波数インデックスは、ISCの存在いかんを0と1とで表現したものである。前記周波数インデックス値を符号化する。このとき、前記符号化は、以前フレームとの相関度及び周辺のISCの分布を考慮して確率モデル選定し、無損失符号化する。次に、符号化された値に対してビット・パッキングする。
【0067】
図9は、前記オーディオ信号のISCの抽出装置を利用して符号化された低ビット率オーディオ信号を復号化する低ビット率オーディオ信号の復号化装置の構成をブロック図で図示したものであり、無損失復号化部900、逆量子化部920、F/T変換部940を備えてなる。
【0068】
無損失復号化部900は、フレーム別に確率モデル情報を抽出し、前記確率モデル情報を利用し、ISCの存在いかんを表すインデックス情報、量子化器情報、量子化ステップサイズ、ISCグルーピング情報及び前記グループ別オーディオ信号の量子化値を復元する。
【0069】
逆量子化部920は、前記復元された量子化器情報、量子化ステップサイズ及びグルーピング情報を参照し、逆量子化器を使用して前記量子化値を逆量子化する。
【0070】
F/T変換部940は、前記逆量子化された値を時間領域の信号に変換する。
【0071】
図10は、オーディオ信号のISCの抽出装置を利用して符号化された低ビット率オーディオ信号を復号化する低ビット率オーディオ信号の復号化方法をフローチャートで図示したものである。図9及び図10を参照しつつ、本発明による低ビット率オーディオ信号の復号化方法及びその装置の動作について説明する。
【0072】
まず、無損失復号化部900を介してフレーム別に確率モデル情報を抽出する(段階1000)。次に、前記確率モデル情報を利用し、ISCの存在いかんを表すインデックス情報、量子化器情報、量子化ステップサイズ、グルーピング情報及びオーディオ信号の量子化値を復元する(段階1020)。その次に、前記逆量子化部920を介して、前記復元された量子化器情報、量子化ステップサイズ及びグルーピング情報を参照し、前記量子化値を逆量子化する(段階1040段階)。逆量子化されれば、前記F/T変換部940を介して前記逆量子化された値を時間領域の信号に変換する(段階1060)。
【0073】
一方、前記の本発明はまた、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存されるあらゆる種類の記録装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ROM(リード オンリ メモリ)、RAM(ランアム アクセス メモリ)、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ保存装置などがあり、またキャリアウェーブ(例えばインターネットを介した伝送)の形態で具現されるものも含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散され、分散方式でコンピュータで読み取り可能なコードが保存されて実行されうる。そして、本発明を具現するための機能的な(functional)プログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマらにより容易に推論されうる。
【0074】
以上、図面と明細書とで最適の実施形態が開示された。ここで、特定の用語が使われたが、それらは、単に本発明を説明するための目的で使われのみであり、意味限定や特許請求の範囲に記載された本発明の範囲を制限するために使われたものではない。従って、本技術分野の当業者ならば、それらから多様な変形及び均等な他実施形態が可能であるという点を理解することができるであろう。従って、本発明の真の技術的保護範囲は、特許請求の範囲の技術的思想によりのみ決まるのである。
【0075】
以上の実施例に関し、更に、以下の項目を開示する。
【0076】
(1)周波数領域に変換されたオーディオ信号に対し、心理音響モデルを利用してSMR値のような信号の知覚的重要度を計算する段階と、
前記計算された知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、
前記少なくとも一つ以上の第1重要周波数成分として選択されたオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、前記周波数領域のオーディオ信号を符号化するのに使われる少なくとも一つ以上の第2重要周波数成分として選択する段階とを含むことを特徴とするオーディオ信号の符号化及び/または復号化システムの方法。
【0077】
(2)前記重み付け値は、
重み付け値を求めようとする現在信号の周波数付近にある所定個数の周波数スペクトル値を利用し、重み付け値を求めることを特徴とする(1)に記載の方法。
【0078】
(3)前記周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を、前記周波数領域のオーディオ信号を符号化するのに使われる少なくとも一つ以上の第3重要周波数成分として選択する段階をさらに含むことを特徴とする(1)に記載の方法。
【0079】
(4)周波数領域に変換されたオーディオ信号に対し、心理音響モデルを利用してSMRのような信号の知覚的重要度を計算する段階と、
前記計算された知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、
前記少なくとも一つ以上の第1重要周波数成分を有するオーディオ信号のうち、周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を、少なくとも一つ以上の他の重要周波数成分として選択する段階とを含むことを特徴とするオーディオ信号の符号化及び/または復号化システムの方法。
【0080】
(5)周波数領域のオーディオ信号に対し、心理音響モデルを利用してSMRのような信号の知覚的重要度を計算する段階と、
前記計算された知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、
前記少なくとも一つ以上の第1重要周波数成分を有するオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、前記ピークの周波数を少なくとも一つ以上の第2重要周波数成分として選択する段階と、
前記少なくとも一つ以上の第1及び第2重要周波数成分により、前記周波数領域のオーディオ信号を量子化及び無損失符号化する段階とを含むことを特徴とする低ビット率オーディオ信号の符号化方法。
【0081】
(6)前記スペクトルピークを抽出する段階は、
前記周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を、少なくとも一つ以上の第3重要周波数成分として選択する段階をさらに含むことを特徴とする(5)に記載の低ビット率オーディオ信号の符号化方法。
【0082】
(7)前記周波数領域のオーディオ信号のSMR値を含む知覚的重要度を計算する段階は、
時間領域のオーディオ信号をMDCTとMDSTとを利用し、周波数領域のオーディオ信号に変換することにより生成されることを特徴とする(5)に記載の低ビット率オーディオ信号の符号化方法。
【0083】
(8)前記周波数領域のオーディオ信号の量子化段階は、
ビット使用量と量子化エラーとの関係を考慮して付加情報を最小とすることができるように、複数のグループにグルーピングする段階と、
前記各グループのデータ分布(dynamic range)とSMRとを考慮し、量子化ステップサイズを決定する段階と、
前記グループ別に所定の量子化器を使用し、前記周波数領域のオーディオ信号を量子化する段階とを含むことを特徴とする(5)に記載の低ビット率オーディオ信号の符号化方法。
【0084】
(9)前記量子化器は、
前記グループ内の最大値を基準に正規化した正規化値と、前記量子化ステップサイズとを利用して選択されることを特徴とする(8)に記載の低ビット率オーディオ信号の符号化方法。
【0085】
(10)前記量子化は、
Max-Lloyd量子化であることを特徴とする(8)に記載の低ビット率オーディオ信号の符号化方法。
【0086】
(11)前記量子化された信号の無損失符号化は、
コンテクスト算術符号化を介してなされることを特徴とする(8)に記載の低ビット率オーディオ信号の符号化方法。
【0087】
(12)前記コンテクスト算術符号化段階は、
フレーム別に前記周波数領域のオーディオ信号のフレームを構成している周波数成分それぞれを、前記第1及び第2重要周波数成分のうち1つの存在いかんを表す少なくとも一つ以上の周波数インデックスで表す段階と、
量子化器情報、量子化ステップ及びグルーピング情報を含んだ付加情報と、前記周波数領域のオーディオ信号の量子化値とに対し、前記周波数インデックス値と以前フレームとの相関度及び周辺の重要周波数成分の分布を考慮して確率モデルを選定し、無損失符号化する段階を含むことを特徴とする(11)に記載の低ビット率オーディオ信号の符号化方法。
【0088】
(13)周波数領域のオーディオ信号に対し、心理音響モデルを利用してSMRのような信号の知覚的重要度を計算する段階と、
前記計算された知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、
前記第1重要周波数成分を有する周波数領域のオーディオ信号のうち、周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を、少なくとも一つ以上の他の重要周波数成分として選択する段階と、
前記第1及び他の重要周波数成分のうち少なくとも一つを含む周波数領域のオーディオ信号を量子化及び無損失符号化する段階とを含むことを特徴とする低ビット率オーディオ信号の符号化方法。
【0089】
(14)周波数領域に変換されたオーディオ信号に対し、心理音響的特性を考慮してSMRのような信号の知覚的重要度を計算する心理音響モデル部と、
前記計算された知覚的重要度により、前記心理音響モデルで計算されたSMRのような信号の知覚的重要度を利用し、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する第1 ISC選択部と、
前記第1重要周波数成分として選択されたオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、少なくとも一つ以上の第2重要周波数成分として選択する第2 ISC選択部とを備えることを特徴とするオーディオ信号の成分抽出装置。
【0090】
(15)前記第2 ISC選択部での重み付け値は、
重み付け値を求めようとする現在信号の周波数付近にある所定個数の周波数スペクトル値を利用し、重み付け値を求めることを特徴とする(14)に記載のオーディオ信号の成分抽出装置。
【0091】
(16)前記周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を、少なくとも一つ以上の第3重要周波数成分として選択する第3 ISC選択部をさらに具備することを特徴とする(14)に記載のオーディオ信号の成分抽出装置。
【0092】
(17)周波数領域に変換されたオーディオ信号に対し、心理音響的特性を考慮してSMR値を含む知覚的重要度を計算する心理音響モデル部と、
前記計算された知覚的重要度を利用し、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する第1 ISC選択部と、
前記少なくとも一つ以上の第1重要周波数成分を有するオーディオ信号のうち、周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を重要周波数成分として選択する他のISC選択部とを備えることを特徴とするオーディオ信号の成分抽出装置。
【0093】
(18)周波数領域に変換されたオーディオ信号に対し、心理音響的特性を考慮してSMR値を計算する心理音響モデル部と、
前記心理音響モデルで計算されたSMR値を利用し、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を第1重要周波数成分として選択する第1 ISC選択部と、
前記第1重要周波数成分として選択された周波数領域のオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、前記ピークの周波数を第2重要周波数成分として選択する第2 ISC選択部と、
前記第1及び第2重要周波数成分に対応する周波数領域のオーディオ信号を量子化する量子化部と、
前記量子化された信号を無損失符号化する無損失符号化部とを備えることを特徴とする低ビット率オーディオ信号の符号化装置。
【0094】
(19)前記周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を重要周波数成分として選択する第3 ISC選択部をさらに具備することを特徴とする(18)に記載の低ビット率オーディオ信号の符号化装置。
【0095】
(20)時間領域のオーディオ信号をMDCTとMDSTとを利用し、周波数領域のオーディオ信号に変換するT/F変換部をさらに具備することを特徴とする(18)に記載の低ビット率オーディオ信号の符号化装置。
【0096】
(21)前記量子化部は、
前記周波数領域のオーディオ信号に対し、ビット使用量と量子化エラーとの関係を考慮して付加情報を最小とすることができるように、グルーピングするグルーピング部と、
前記周波数領域のオーディオ信号の各グループのデータ分布とSMRとを考慮し、量子化ステップサイズを決定する量子化ステップサイズ決定部と、
前記グループ内の最大値を基準に正規化した正規化値と、前記量子化ステップサイズとを利用して選択され、前記グループ別に前記周波数領域のオーディオ信号を量子化する量子化器とを備えることを特徴とする(18)に記載の低ビット率オーディオ信号の符号化装置。
【0097】
(22)前記グループ量子化器での量子化は、
Max-Lloyd量子化であることを特徴とする(21)に記載の低ビット率オーディオ信号の符号化装置。
【0098】
(23)前記無損失符号化部は、
コンテクスト算術符号化により無損失符号化することを特徴とする(21)に記載の低ビット率オーディオ信号の符号化装置。
【0099】
(24)前記無損失符号化部は、
フレーム別に前記フレームを構成している周波数成分それぞれを、前記第1及び第2重要周波数成分の存在いかんを表す周波数インデックスとして生成するインデックス部と、
量子化器情報、量子化ステップサイズ、グルーピング情報を含む付加情報とオーディオ信号の量子化値とに対し、前記周波数インデックス値と以前フレームとの相関度及び周辺の重要周波数成分の分布を考慮して確率モデルを選定し、無損失符号化する確率モデル無損失符号化部とを具備することを特徴とする(23)に記載の低ビット率オーディオ信号の符号化装置。
【0100】
(25)周波数領域に変換されたオーディオ信号に対し、心理音響的特性を考慮してSMRのような信号の知覚的重要度を計算する心理音響モデル部と、
前記計算された知覚的重要度を利用し、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を第1重要周波数成分として選択する第1 ISC選択部と、
前記第1重要周波数成分として選択された周波数領域のオーディオ信号のうち、周波数帯域別にSNRを求め、SNRの低い周波数帯域のうちから所定大きさ以上のピーク値を有する周波数成分を他の重要周波数成分として選択する第3 ISC選択部と、
前記第1及び第2重要周波数成分を有する周波数領域のオーディオ信号を量子化する量子化部と、
前記量子化された信号を無損失符号化する無損失符号化部とを備えることを特徴とする低ビット率オーディオ信号の符号化装置。
【0101】
(26)オーディオ信号に対し、ISCの存在いかんを表すインデックス情報、量子化器情報、量子化ステップサイズ、ISCのグルーピング情報及びオーディオ信号の量子化値を復元する段階と、
前記復元された量子化器情報、量子化ステップサイズ及びグルーピング情報を参照し、前記量子化値を逆量子化する段階と、
前記逆量子化された値を時間領域の信号に変換する段階とを含むことを特徴とする低ビット率オーディオ信号の復号化方法。
【0102】
(27)ISCの存在いかんを表すインデックス情報、量子化ステップサイズ、ISCのグルーピング情報に対し、前記オーディオ信号のフレーム別に確率モデル情報を予測して無損失復号化を行うことを特徴とする(26)に記載の低ビット率オーディオ信号の復号化方法。
【0103】
(28)ISCの存在いかんを表すインデックス情報、量子化ステップサイズ、ISCのグルーピング情報に対し、既定の確率モデルによって無損失復号化を行うことを特徴とする(26)に記載の低ビット率オーディオ信号の復号化方法。
【0104】
(29)前記ISCを復元する段階は、
前記ISCを復号化する段階と、
復号化されたISC成分を、ISCの存在いかんを表すインデックス情報を利用して周波数軸上にマッピングする段階とを含むことを特徴とする(26)に記載の低ビット率オーディオ信号の復号化方法。
【0105】
(30)オーディオ信号のフレーム別に確率モデル情報を抽出し、前記確率モデル情報を利用し、ISCの存在いかんを表すインデックス情報、量子化器情報、量子化ステップサイズ、ISCのグルーピング情報及びオーディオ信号の量子化値を復元する無損失復号化部と、
前記復元された量子化器情報、量子化ステップサイズ及びグルーピング情報を参照し、逆量子化器を使用して前記量子化値を逆量子化する逆量子化部と、
前記逆量子化された値を時間領域の信号に変換するF/T変換部とを備えることを特徴とする低ビット率オーディオ信号の復号化装置。
【0106】
(31)前記無損失復号化部は、ISCの存在いかんを表すインデックス情報、量子化ステップサイズ、ISCのグルーピング情報をフレーム別に確率モデル情報を予測して無損失復号化を行うことを特徴とする(30)に記載の低ビット率オーディオ信号の復号化装置。
【0107】
(32)前記無損失復号化部は、ISCの存在いかんを表すインデックス情報、量子化ステップサイズ、ISCのグルーピング情報に対し、既定の確率モデルによって無損失復号化を行うことを特徴とする(30)に記載の低ビット率オーディオ信号の復号化装置。
【0108】
(33)前記無損失復号化部は、前記ISCを復号化し、復号化されたISC成分を、ISCの存在いかんを表す前記インデックス情報を利用して周波数軸上にマッピングすることを特徴とする(30)に記載の低ビット率オーディオ信号の復号化装置。
【0109】
(34)周波数領域に変換されたオーディオ信号に対し、心理音響モデルを利用してSMR値のような信号の知覚的重要度を計算する段階と、
前記計算された知覚的重要度により、マスキング・スレショルド値が周波数領域のオーディオ信号より小さい周波数の信号を、少なくとも一つ以上の第1重要周波数成分として選択する段階と、
前記少なくとも一つ以上の第1重要周波数成分として選択されたオーディオ信号のうち、所定の重み付け値を考慮してスペクトルピークを抽出し、前記周波数領域のオーディオ信号を符号化するのに使われる少なくとも一つ以上の第2重要周波数成分として選択する段階とを含むことを特徴とするオーディオ信号の符号化及び/または復号化システムの方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体。
【0110】
(35)オーディオ信号に対し、ISCの存在いかんを表すインデックス情報、量子化器情報、量子化ステップサイズ、ISCのグルーピング情報及びオーディオ信号の量子化値を復元する段階と、
前記復元された量子化器情報、量子化ステップサイズ及びグルーピング情報を参照し、前記量子化値を逆量子化する段階と、
前記逆量子化された値を時間領域の信号に変換する段階とを含むことを特徴とする低ビット率オーディオ信号の復号化方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体。
【0111】
(36)SMR値、重み付け値のうち一つ、周波数バンドのSNRによって少なくとも一つ以上の重要周波数成分を有する周波数領域のオーディオ信号を選択し、前記選択された重要周波数成分の情報により、前記周波数領域のオーディオ信号を符号化する符号化器と、
前記情報により、前記符号化された周波数領域のオーディオ信号を復号化する復号化器とを有することを特徴とするオーディオ信号の符号化及び/または復号化システム。
【0112】
(37)SMR値、重み付け値のうち一つ、周波数領域のオーディオ信号の周波数バンドのSNRによって少なくとも一つ以上の重要周波数成分を有する前記周波数領域のオーディオ信号を選択し、前記選択された重要周波数成分での情報により、前記周波数領域のオーディオ信号を符号化する符号化器を有するオーディオ信号の符号化及び/または復号化システム。
【0113】
(38)少なくとも一つ以上の重要周波数成分の情報によって符号化されたオーディオ信号を復号化する復号化器を有することを特徴とするオーディオ信号の符号化及び/または復号化システム。

【特許請求の範囲】
【請求項1】
オーディオスペクトルに対し、ビット使用量と量子化エラーとの関係を考慮して付加情報を最小とすることができるように、複数のグループにグルーピングする段階と、
前記オーディオスペクトルの各グループのデータ分布とSMRとを考慮し、量子化ステップサイズを決定する段階と、
前記決定された量子化ステップサイズを利用して前記各グループを量子化する段階とを含むことを特徴とするオーディオ信号の符号化方法。
【請求項2】
前記量子化段階は、前記各グループ内の最大値を基準に正規化した正規化値と前記量子化ステップサイズを利用してグループ量子化器を選択する請求項1に記載のオーディオ信号の符号化方法。
【請求項3】
前記グループ量子化器での量子化は、
Max-Lloyd量子化であることを特徴とする請求項2に記載のオーディオ信号の符号化方法。
【請求項4】
前記符号化方法は、
前記量子化された結果を無損失符号化する段階をさらに含む請求項1に記載のオーディオ信号の符号化方法。
【請求項5】
前記無損失符号化段階は、
コンテクスト算術符号化により無損失符号化することを特徴とする請求項4に記載のオーディオ信号の符号化方法。
【請求項6】
前記無損失符号化段階は、
フレーム別に、前記オーディオスペクトルに対し、少なくとも一つの重要周波数成分の存在いかんを表す周波数インデックスを生成する段階と、
量子化器情報、量子化ステップサイズ、グルーピング情報を含む付加情報とオーディオ信号の量子化値と、前記周波数インデックス値を以前フレームとの相関度及び周辺の重要周波数成分の分布を考慮して確率モデルを選定して無損失符号化する段階とを含む請求項5に記載のオーディオ信号の符号化方法。
【請求項7】
前記符号化方法は、
前記オーディオスペクトルのSNRによって前記オーディオスペクトルから少なくとも一つの重要スペクトル成分を選択する段階と、
前記オーディオ スペクトルから抽出されるスペクトルピークを所定重み付け値に基づき、少なくとも一つの重要スペクトル成分として選択する段階と、
前記オーディオスペクトルの周波数帯域別に求められるSNRに基づき、前記オーディオスペクトルから少なくとも一つの重要スペクトル成分を選択する段階をさらに含む請求項1に記載のオーディオ信号の符号化方法。
【請求項8】
スペクトル成分に対するインデックス情報、量子化器情報、量子化ステップサイズ、重要周波数成分のグルーピング情報及びオーディオスペクトルの量子化値を復元する段階と、
前記復元された量子化器情報と量子化ステップサイズ及びグルーピング情報を参照して前記量子化値を逆量子化する段階と、
前記逆量子化された値を時間領域の信号に変換する段階とを含み、
前記グルーピング情報は付加情報を最小とすることができるように、前記オーディオスペクトルに対してビット使用量と量子化エラーとの関係を考慮して得られるオーディオ信号の復号化方法。
【請求項9】
請求項1ないし8のうちいずれか1項に記載の方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−198555(P2012−198555A)
【公開日】平成24年10月18日(2012.10.18)
【国際特許分類】
【出願番号】特願2012−118574(P2012−118574)
【出願日】平成24年5月24日(2012.5.24)
【分割の表示】特願2008−521328(P2008−521328)の分割
【原出願日】平成18年7月14日(2006.7.14)
【出願人】(503447036)サムスン エレクトロニクス カンパニー リミテッド (2,221)