説明

オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

【課題】再生されるオーディオ信号の音質の劣化を抑制しつつ、残差信号の符号量を削減可能なオーディオ符号化装置及びオーディオ符号化方法を提供する。
【解決手段】オーディオ符号化装置1は、オーディオ信号が持つ第1及び第2のチャネルの周波数信号をダウンミックスすることにより、主信号と残差信号とを生成するダウンミックス部12と、第1のチャネルの周波数信号の推定される復号値と第2のチャネルの周波数信号の推定される復号値とを求め、第1のチャネルの周波数信号の推定される復号値と第2のチャネルの周波数信号の推定される復号値に基づいて、残差信号のうち、第1のチャネルと第2のチャネル間で相互に影響する信号成分を求め、信号成分に応じて残差信号に対する重み係数を決定する重み決定部13と、重み係数を用いて残差信号を重み付ける重み付け部14と、重み付けされた残差信号を符号化する残差信号符号化部16を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば、複数のチャネルを持つオーディオ信号を符号化するオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムに関する。
【背景技術】
【0002】
従来より、複数のチャネルを持つオーディオ信号のデータ量を圧縮するためのオーディオ信号の符号化方式が開発されている。特に、複数のチャネルの信号をダウンミックスすることにより生成された信号を符号化することで、圧縮効率を高める符号化方式が提案されている。そのような符号化方式として、Moving Picture Experts Group (MPEG)により標準化されたMPEG Surround方式及びパラメトリックステレオ方式が知られている。
【0003】
この符号化方式では、複数チャネルの信号をダウンミックスすることにより、元の各チャネルの信号の主要成分を表す主信号と空間情報が生成され、この主信号及び空間情報が符号化される。この符号化方式では、主信号と直交する成分を表す残差信号がさらに算出され、その残差信号も符号化されることがある。
【0004】
音質の劣化を抑制するためには、符号化装置は、主信号を符号化したデータとともに、残差信号を符号化したデータを符号化されたオーディオ信号に含めることが好ましい。一方、圧縮効率をさらに高めるには、残差信号を符号化されたオーディオ信号に含めない方がよい。この相反する条件を満たすために、残差信号のうち、知覚的に関連の少ない信号部分または時間区間を減衰させる技術が提案されている(例えば、特許文献1を参照)。そしてこの技術では、主信号のパワーに対する残差信号のパワーの比が小さいほど残差信号は減衰される。あるいは、特定周波数よりも低い周波数を持つ残差信号のみが選択される。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特表2008−519307号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、残差信号のパワーが小さくても、残差信号が復号装置に伝送されないことによって再生音質の劣化が顕著となることがある。例えば、残差信号が削減されると、復号装置は、符号化されたオーディオ信号を復号する際、主信号から、元の個々のチャネルの信号を正確に分離できないことがある。そうすると、再生されたオーディオ信号では、あるチャネルの音声に、他のチャネルの音声が混じってしまうことがある。以下では、便宜上、再生されたオーディオ信号において、あるチャネルの音声信号に他のチャネルの音声信号が混じることを「漏れ込み」と呼ぶ。また、その混じった他のチャネルの音声信号を、「漏れ込み信号」と呼ぶ。例えば、オリジナルのオーディオ信号において、主音声に相当するチャネルが日本語の会話の音声信号を含んでおり、副音声に相当するチャネルが英語の会話の音声信号を含んでいるとする。この場合においてそのオーディオ信号が符号化され、その符号化されたオーディオ信号が復号されることによって漏れ込みが生じると、例えば、リスナーは、主音声に相当するチャネルから、日本語の会話とともに英語の会話も聞こえることになる。このような場合、リスナーは、その再生されたオーディオ信号に対して非常に違和感を覚えることになる。そして、チャネル間の信号の漏れ込みの発生は、残差信号のパワー及び残差信号の周波数には依存しない。そのため、上記の公知技術は、信号の漏れ込みによる再生音質の劣化を抑制できない。
【0007】
そこで、本明細書は、再生されるオーディオ信号の音質の劣化を抑制しつつ、残差信号の符号量を削減できるオーディオ符号化装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
一つの実施形態によれば、オーディオ符号化装置が提供される。このオーディオ符号化装置は、複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、複数のチャネルのうちの第1のチャネルの周波数信号と第2のチャネルの周波数信号をダウンミックスすることにより、第1のチャネルと第2のチャネルの主要成分を表す主信号と、主信号と直交する成分である残差信号とを生成するダウンミックス部と、第1のチャネルの周波数信号の推定される復号値と第2のチャネルの周波数信号の推定される復号値とを求め、第1のチャネルの周波数信号の推定される復号値と第2のチャネルの周波数信号の推定される復号値に基づいて、残差信号のうち、第1のチャネルと第2のチャネル間で相互に影響する信号成分を求め、信号成分に応じて残差信号に対する重み係数を決定する重み決定部と、重み係数を用いて残差信号を重み付ける重み付け部と、重み付けされた残差信号を符号化する残差信号符号化部と、主信号を符号化する主信号符号化部とを有する。
【0009】
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
【発明の効果】
【0010】
本明細書に開示されたオーディオ符号化装置は、再生されるオーディオ信号の音質の劣化を抑制しつつ、残差信号の符号量を削減できる。
【図面の簡単な説明】
【0011】
【図1】第1の実施形態によるオーディオ符号化装置の概略構成図である。
【図2】符号化前の類似度と符号化後の類似度の関係の一例を示す図である。
【図3】(a)は、周波数帯域ごとの漏れ込み信号の推定値と閾値の関係の一例を示す図である。(b)は、周波数帯域ごとの残差信号のフレーム平均値とマスキング閾値との関係の一例を示す図である。(c)は、周波数帯域ごとの重み係数の一例を示す図である。(d)は、周波数帯域ごとの重み係数の一例を示す。
【図4】漏れ込み信号の推定値と重み係数との関係の一例を表すグラフである。
【図5】劣化度と重み係数との関係の一例を表すグラフである。
【図6】残差重み決定処理の動作フローチャートである。
【図7】類似度に対する量子化テーブルの一例を示す図である。
【図8】インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。
【図9】強度差に対する量子化テーブルの一例を示す図である。
【図10】符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。
【図11】オーディオ符号化処理の動作を示すフローチャートである。
【図12】(a)オリジナルのステレオ信号の左右チャネルの信号の一例を示す図である。(b)は、(a)に示されたオリジナルのステレオ信号を、従来技術により符号化し、その符号化されたステレオ信号を再生した再生信号の一例を示す図である。(c)は、(a)に示されたオリジナルのステレオ信号を、本実施形態に係るオーディオ符号化装置により符号化し、その符号化されたステレオ信号を再生した再生信号の一例を示す図である。
【図13】第2の実施形態によるオーディオ符号化装置の概略構成図である。
【図14】何れかの実施形態によるオーディオ符号化装置の変形例による、重み決定部の概略構成図である。
【図15】何れかの実施形態によるオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。
【発明を実施するための形態】
【0012】
以下、図を参照しつつ、様々な実施形態によるオーディオ符号化装置について説明する。
このオーディオ符号化装置は、複数のチャネルの信号をダウンミックスする際に算出される空間情報及び主信号に基づいて、周波数帯域ごとに、残差信号に含まれる、複数のチャネル間で相互に影響する成分、例えば、漏れ込み信号を表す成分を検出する。そしてこのオーディオ符号化装置は、残差信号がチャネル間相互に影響する成分を含む周波数帯域の残差信号に対して割り当てる符号量を多くし、一方、残差信号がその成分を含まない周波数帯域の残差信号に対して割り当てる符号量を少なくする。これにより、このオーディオ符号化装置は、信号の漏れ込み等による再生音質の劣化を抑制しつつ、残差信号の符号量を低下させる。
【0013】
先ず、第1の実施形態によるオーディオ符号化装置について説明する。第1の実施形態によるオーディオ符号化装置は、左チャネルと右チャネルの2チャネルを持つステレオ信号を符号化する。
【0014】
図1は、第1の実施形態によるオーディオ符号化装置1の概略構成図である。図1に示すように、オーディオ符号化装置1は、時間周波数変換部11と、ダウンミックス部12と、重み決定部13と、重み付け部14と、主信号符号化部15と、残差信号符号化部16と、空間情報符号化部17と、多重化部18とを有する。
【0015】
オーディオ符号化装置1が有するこれらの各部は、それぞれ別個の回路として形成される。あるいはオーディオ符号化装置1が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置1に実装されてもよい。さらに、オーディオ符号化装置1が有するこれらの各部は、オーディオ符号化装置1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
【0016】
時間周波数変換部11は、オーディオ符号化装置1に入力されたステレオ信号の時間領域の各チャネルの信号をそれぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する。
本実施形態では、時間周波数変換部11は、次式のQuadrature Mirror Filter(QMF)フィルタバンクを用いて、各チャネルの信号を周波数信号に変換する。
【数1】

ここでnは時間を表す変数であり、1フレームのステレオ信号を時間方向に128等分したときのn番目のタイムスロットを表す。なお、フレーム長は、例えば、10〜80msecの何れかとすることができる。またkは周波数帯域を表す変数であり、周波数信号が有する周波数帯域を64等分したときのk番目の周波数帯域を表す。またQMF(k,n)は、時間n、周波数kの周波数信号を出力するためのQMFである。時間周波数変換部11は、QMF(k,n)を入力されたチャネルの1フレーム分のオーディオ信号に乗じることにより、そのチャネルの周波数信号を生成する。
なお、時間周波数変換部11は、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いて、各チャネルの信号を、それぞれ、周波数信号に変換してもよい。
【0017】
時間周波数変換部11は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号をダウンミックス部12及び重み決定部13へ出力する。
【0018】
ダウンミックス部12は、左チャネル及び右チャネルの周波数信号を受け取る度に、主信号、残差信号及び空間情報を求める。本実施形態では、ダウンミックス部12は、先ず、空間情報を求める。具体的には、ダウンミックス部12は、次式に従って、音の定位を表す情報であるその周波数信号間の強度差CLD(k)と、音の広がりを表す情報であるその周波数信号間の類似度ICC(k)とを周波数帯域ごとに算出する。
【数2】

ただしNは、1フレームに含まれる時間方向のサンプル点数であり、本実施形態では、Nは128である。またeL(k)は、左チャネルの周波数信号L(k,n)の自己相関値であり、eR(k)は、右チャネルの周波数信号R(k,n)の自己相関値である。またeLR(k)は、左チャネルの周波数信号L(k,n)と右チャネルの周波数信号R(k,n)との相互相関値である。
【0019】
次に、ダウンミックス部12は、空間情報に基づいて、左右の周波数信号L(k,n)、R(k,n)に乗じる係数行列M(CLD(k),ICC(k))を、例えば、次式に従って算出する。
【数3】

このように係数行列M(CLD(k),ICC(k))を決定することにより、ダウンミックス部12は、左チャネル及び右チャネルの主成分を表す主信号をできるだけ大きくし、かつ、主信号と直交する成分を表す残差信号をできるだけ小さくすることができる。
【0020】
ダウンミックス部12は、次式のように、左右の周波数信号L(k,n)、R(k,n)を要素とするベクトルに係数行列M(CLD(k),ICC(k))を乗じることにより、主信号M(k,n)及び残差信号res(k,n)を算出する。
【数4】

【0021】
ダウンミックス部12は、主信号を主信号符号化部15へ出力する。またダウンミックス部12は、残差信号を重み付け部14へ出力する。さらにダウンミックス部12は、空間情報を空間情報符号化部17へ出力する。さらにダウンミックス部12は、主信号、残差信号及び空間情報を重み決定部13へ出力する。
【0022】
重み決定部13は、主信号、残差信号及び空間情報に基づいて、フレームごとに、残差信号に乗じる各周波数帯域の重み係数を決定する。そのために、重み決定部13は、劣化度算出部21と、漏れ込み量推定部22と、判定部23と、漏れ込み重み決定部24と、量子化誤差重み決定部25と、重み合成部26とを有する。
【0023】
劣化度算出部21は、残差信号が復号に用いられない場合の再生音質の劣化度を算出する。そのために、劣化度算出部21は、各フレームにおいて、周波数帯域ごとに、次式に従って劣化度NMR(k)を算出する。
【数5】

ここで、res(k)は、周波数帯域kにおける残差信号res(k,n)のパワーである。またmask(k)は、周波数帯域kにおける、リスナーが聞くことができる音の周波数信号の下限となるパワーを表すマスキング閾値である。劣化度算出部21は、マスキング閾値mask(k)を、例えば、周波数帯域kにおける最小可聴パワーとすることができる。
【0024】
あるいは、劣化度算出部21は、人の聴覚特性に応じてマスキング閾値mask(k)を算出してもよい。この場合、符号化対象のフレームの着目する周波数帯域についてのマスキング閾値は、符号化対象のフレームより前のフレームにおける同じ周波数帯域のスペクトル電力、及び符号化対象のフレームの隣接する周波数帯域のスペクトル電力が大きいほど高くなる。
【0025】
劣化度算出部21は、例えば、ISO/IEC 13818-7:2006のAnnex CのC.1 Psychoacoustic ModelのC.1.4 Steps in Threshold Calculationの項に記載された閾値(マスキング閾値に相当)の算出処理に従って、人の聴覚特性に応じたマスキング閾値を算出できる。この場合、劣化度算出部21は、符号化対象のフレームの一つ前及び二つ前のフレームの周波数信号を利用して、左チャネル及び右チャネルそれぞれのマスキング閾値を算出する。そして劣化度算出部21は、左チャネルのマスキング閾値と右チャネルのマスキング閾値のうち、小さい方の値を(5)式におけるマスキング閾値mask(k)とする。これは、残差信号は、左右何れのチャネルにも影響するためである。なお、劣化度算出部21は、このようにマスキング閾値を算出するために、符号化対象のフレームの一つ前及び二つ前のフレームの周波数信号を記憶するメモリ回路を有してもよい。
【0026】
あるいは、劣化度算出部21は、Third Generation Partnership Project(3GPP) TS 26.403 V9.0.0 5.4.2 Threshold Calculationの項に記載されている方法に従って、左右それぞれのチャネルのマスキング閾値を算出してもよい。この場合、劣化度算出部21は、例えば、信号対ノイズ比に対する周波数帯域ごとのスペクトル電力の比として得られる閾値を、音声の拡散及びプリエコーなどを考慮して補正することによりマスキング閾値を算出する。
【0027】
あるいはまた、劣化度算出部21は、E. Kurniawati他、”New Implementation Techniques of an Efficient MPEG Advanced Audio Coder”, Consumer Electronics, IEEE Transactions, 2004, vol. 50 pp.655-665に記載されているマスキング閾値の算出方法に従って、左右それぞれのチャネルのマスキング閾値を算出してもよい。これらの場合も、劣化度算出部21は、左チャネルのマスキング閾値と右チャネルのマスキング閾値のうち、小さい方の値を(5)式におけるマスキング閾値mask(k)とする。
劣化度算出部21は、各周波数帯域の劣化度NMR(k)を、漏れ込み重み決定部24及び量子化誤差重み決定部25へ出力する。
【0028】
漏れ込み量推定部22は、周波数帯域ごとに、残差信号に含まれる漏れ込み信号の量を推定する。
符号化されたオーディオ信号を再生したオーディオ信号において、一方のチャネルに他方のチャネルからの漏れ込みが生じると、それら二つのチャネルの両方に同じ音が含まれることになる。そして漏れ込み信号の量が多いほど、それら二つのチャネルの音は類似する。したがって、再生されたオーディオ信号の二つのチャネル間の類似度は、漏れ込み信号の量が多いほど、元のオーディオ信号の二つのチャネル間の類似度よりも高くなる。
【0029】
図2は、符号化前の類似度と符号化後の類似度の関係の一例を示す図である。図2において、横軸は周波数を表し、縦軸は類似度の大きさを表す。グラフ201は、符号化前のオーディオ信号の二つのチャネル間の類似度ICC(k)を表し、グラフ202は、符号化されたオーディオ信号を再生したオーディオ信号、すなわち、符号化後のオーディオ信号の二つのチャネル間の類似度ICC'(k)を表す。この例では、周波数帯域210と周波数帯域211において、符号化前の類似度ICC(k)よりも、符号化後の類似度ICC'(k)が大きくなっている。したがって、周波数帯域210及び211において、漏れ込みが生じていることが分かる。
【0030】
そこで、漏れ込み量推定部22は、主信号及び空間情報から、左チャネル及び右チャネルの周波数信号を再生し、その再生した左チャネル及び右チャネル間の類似度ICC'(k)を算出する。そして漏れ込み量推定部22は、周波数帯域ごとに、再生した左チャネル及び右チャネル間の類似度ICC'(k)から元の類似度ICC(k)を引いた値dICC(k){=ICC'(k)-ICC(k)}を求め、その値dICC(k)を漏れ込み信号の推定量とする。したがって、漏れ込み量の推定量dICC(k)が正の値を持つ周波数帯域では、再生されたオーディオ信号の何れかのチャネルに漏れ込み信号が含まれ、その推定量dICC(k)が大きいほど、漏れ込み信号の量も多いと推定される。
【0031】
なお、漏れ込み量推定部22は、例えば、ISO/IEC23003-1 6.5.3.2章に記載されている復号音の推定方法、あるいは、特開2010-139671号公報に開示されている復号音の推定方法に従って、左チャネル及び右チャネルの復号された周波数信号を推定できる。例えば、漏れ込み量推定部22は、主信号に所定の遅延を加えた信号を、主信号に対して直交化することにより擬似的に残差信号を生成する。そして漏れ込み量推定部22は、主信号と擬似的な残差信号を要素とするベクトルに、ISO/IEC23003-1 6.5.3.2章に記載された、空間情報CLD(k)、ICC(k)から算出される係数行列を乗じることにより、左チャネル及び右チャネルの復号された周波数信号の推定値L'(k,n)、R'(k,n)が得られる。なお、この係数行列は、(3)式に示された係数行列M(CLD(k),ICC(k))の逆行列を求めることによっても算出される。
さらに、漏れ込み量推定部22は、(2)式において周波数信号L(k,n)及びR(k,n)の代わりに周波数信号L'(k,n)及びR'(k,n)を入力することにより、復号された左チャネルと右チャネル間の類似度ICC'(k)を算出できる。
【0032】
なお、変形例によれば、漏れ込み量推定部22は、主信号符号化部15により符号化された主信号と、空間情報符号化部17により符号化された空間情報に基づいて、左チャネル及び右チャネルの復号された周波数信号の推定値を求めてもよい。この場合には、漏れ込み量推定部22は、後述する主信号符号化部15の符号化方式に応じた復号方法によって主信号を復号し、後述する空間情報符号化部17の符号化方式に応じた復号方法によって空間情報を復号する。そして漏れ込み量推定部22は、復号された主信号及び空間情報を用いて、左チャネル及び右チャネルの復号された周波数信号の推定値を求めればよい。
【0033】
漏れ込み量推定部22は、周波数帯域ごとの漏れ込み信号の推定量dICC(k)を判定部23へ出力する。
【0034】
判定部23は、漏れ込み信号の推定量dICC(k)に基づいて、周波数帯域ごとに残差信号が漏れ込み信号を含むか否か判定する。漏れ込み量推定部22に関して上述したように、再生されたオーディオ信号の何れかのチャネルに漏れ込み信号が含まれると、漏れ込み信号の推定量dICC(k)が正の値を持つ。したがって、その推定量dICC(k)が正の所定の値を持つ周波数帯域では、残差信号が漏れ込み信号を含んでいると推定される。一方、推定量dICC(k)がその所定の値よりも低い周波数帯域では、符号化の際の量子化誤差といった、チャネル間の相互の影響によらない他の要因が、再生音の音質に影響すると推定される。
【0035】
そこで判定部23は、周波数帯域ごとに推定量dICC(k)が所定の閾値ThdICCより大きいか否か判定し、推定量dICC(k)が閾値ThdICCより大きい周波数帯域については、残差信号が漏れ込み信号を含むと判定する。なお、閾値ThdICCは、例えば、0〜1の範囲内の何れかの値に設定される。そして判定部23は、各周波数帯域の判定結果を、漏れ込み重み決定部24及び量子化誤差重み決定部25へ出力する。また判定部23は、漏れ込み信号の推定量dICC(k)を漏れ込み重み決定部24へ出力する。
【0036】
漏れ込み重み決定部24及び量子化誤差重み決定部25は、それぞれ、各フレームにおいて、残差信号res(k,n)に対する重み係数を、周波数帯域ごとに決定する。特に、漏れ込み重み決定部24は、残差信号が漏れ込み信号を含むと判定された周波数帯域における重み係数Wm(k)を決定する。一方、量子化誤差重み決定部25は、残差信号が漏れ込み信号を含まないと判定された周波数帯域における重み係数Wq(k)を決定する。
【0037】
あるフレームにおいて劣化度NMR(k)が0または負の値を持つ場合、そのフレーム内の各タイムスロットについて、周波数帯域kにおける残差信号res(k,n)は、リスナーの聴覚に影響を与えない。そのため、残差信号res(k,n)は、各チャネルの信号を復号する際に用いられなくてもよい。一方、劣化度NMR(k)が正の値を持つ場合、周波数帯域kにおける残差信号res(k,n)は、リスナーの聴覚に影響を与える。そして劣化度NMR(k)が大きいほど、残差信号res(k,n)がリスナーの聴覚に与える影響も大きくなる。したがって、この場合には、再生音質の劣化を抑制するために、残差信号res(k,n)が各チャネルの信号を復号する際に用いられることが好ましい。
【0038】
図3(a)〜図3(d)を参照しつつ、周波数帯域ごとに、残差信号res(k,n)のフレーム平均値、劣化度NMR(k)及び漏れ込み信号の推定量dICC(k)と、設定される重み係数Wm(k)及びWq(k)との関係を説明する。
図3(a)は、周波数帯域ごとの漏れ込み信号の推定量dICC(k)と閾値ThdICCの関係の一例を示す。図3(a)において、横軸は周波数を表し、縦軸は漏れ込み信号の推定値の大きさを表す。そして棒グラフ301〜304は、それぞれ、周波数帯域k1〜k4における漏れ込み信号の推定量dICC(k)を表す。この例では、周波数帯域k1及びk3において、推定量dICC(k)が閾値ThdICCよりも大きいので、周波数帯域k1及びk3については、残差信号res(k,n)に漏れ込み信号が含まれ、一方、周波数帯域k2及びk4については、残差信号res(k,n)に漏れ込み信号が含まれない。したがって、周波数帯域k1及びk3には、漏れ込み信号を含む残差信号に対する重み係数Wm(k)が設定され、一方、周波数帯域k2及びk4には、漏れ込み信号を含まない残差信号に対する重み係数Wq(k)が設定される。
【0039】
図3(b)は、周波数帯域ごとの残差信号res(k,n)のパワーres(k)とマスキング閾値mask(k)との関係の一例を示す。図3(b)において、横軸は周波数を表し、縦軸は残差信号のパワーを表す。そして棒グラフ311〜314は、それぞれ、周波数帯域k1〜k4における残差信号res(k,n)のパワーres(k)を表す。また線315は、各周波数帯域におけるマスキング閾値mask(k)を表す。この例では、周波数帯域k1〜k3において、res(k)がマスキング閾値mask(k)よりも大きいので、周波数帯域k1〜k3については残差信号が再生音質に影響する。一方、周波数帯域k4では、res(k)がマスキング閾値mask(k)未満であるので、周波数帯域k4では残差信号は再生音質に影響しない。そのため、周波数帯域k1〜k3についてのみ、0よりも大きい重み係数が設定される。
【0040】
図3(c)は、周波数帯域ごとの重み係数Wm(k)の一例を示す。図3(c)において、横軸は周波数を表し、縦軸は重み係数の大きさを表す。そして棒グラフ321及び322は、それぞれ、周波数帯域k1及びk3における重み係数Wm(k)を表す。重み係数Wm(k)は、後述するように、漏れ込み信号の推定量dICC(k)が大きいほど、大きな値に設定される。そのため、周波数帯域k1についての重み係数Wm(k1)が、周波数帯域k3についての重み係数Wm(k3)よりも大きな値となる。なお、周波数帯域k2及びk4については、図3(a)に示されるように、推定量dICC(k)が閾値ThdICC未満であるので、周波数帯域k2及びk4についての重み係数Wm(k)は0である。
【0041】
図3(d)は、周波数帯域ごとの重み係数Wq(k)の一例を示す。図3(d)において、横軸は周波数を表し、縦軸は重み係数の大きさを表す。そして棒グラフ331は、周波数帯域k2における重み係数Wq(k)を表す。重み係数Wq(k)は、後述するように、劣化度NMR(k)が大きいほど、大きな値に設定される。なお、周波数帯域k1及びk3については、図3(a)に示されるように、推定量dICC(k)が閾値ThdICCより大きいので 、周波数帯域k1及びk3についての重み係数Wq(k)は0である。また、図3(b)に示されるように、周波数帯域k4については、劣化度NMR(k)がマスキング閾値mask(k)以下であるため、重み係数Wq(k)は0である。
【0042】
漏れ込み重み決定部24は、周波数帯域kにおける劣化度NMR(k)が0以下である場合、残差信号res(k,n)に乗じる重み係数Wm(k)を0に設定する。一方、漏れ込み重み決定部24は、周波数帯域kにおける劣化度NMR(k)が0より大きい場合、漏れ込み信号の推定量dICC(k)が大きくなるほど重み係数Wm(k)を大きな値に設定する。
【0043】
図4は、漏れ込み信号の推定量dICC(k)と重み係数Wm(k)との関係の一例を表すグラフである。図4において、横軸は漏れ込み信号の推定量dICC(k)を表し、縦軸は重み係数Wm(k)を表す。そしてグラフ400は、漏れ込み信号の推定量dICC(k)と重み係数Wm(k)との関係を表すグラフである。グラフ400に示されるように、重み係数Wm(k)は、1.0に達するまで、推定量dICC(k)に比例して大きくなる。なお、重み係数Wm(k)は、推定量dICC(k)に対して自乗比例、あるいは対数比例していてもよい。
【0044】
重み係数Wm(k)を決定するために、漏れ込み重み決定部24は、例えば、漏れ込み重み決定部24が有するメモリ回路に、漏れ込み信号の推定量dICC(k)と重み係数Wm(k)との関係を表す参照テーブルを予め記憶させておいてもよい。そして漏れ込み重み決定部24は、劣化度NMR(k)が正の値を持つ場合、その参照テーブルを参照することにより、漏れ込み信号の推定量dICC(k)に対応する重み係数Wm(k)を特定する。
さらに、漏れ込み重み決定部24は、劣化度NMR(k)が大きくなるほど、重み係数Wm(k)も大きくしてもよい。このために、漏れ込み重み決定部24は、劣化度NMR(k)が大きいほど、重み係数Wm(k)も大きくなるように重み係数Wm(k)を補正してもよい。
漏れ込み重み決定部24は、重み係数Wm(k)を重み合成部26へ出力する。
【0045】
量子化誤差重み決定部25は、残差信号が漏れ込み信号を含まない周波数帯域についての重み係数Wq(k)を決定する。量子化誤差重み決定部25は、例えば、周波数帯域kにおける劣化度NMR(k)が0以下である場合、残差信号res(k,n)に乗じる重み係数Wq(k)を0に設定する。一方、量子化誤差重み決定部25は、周波数帯域kにおける劣化度NMR(k)が0より大きい場合、劣化度NMR(k)が大きくなるほど重み係数Wq(k)を大きな値に設定する。
【0046】
図5は、劣化度NMR(k)と重み係数Wq(k)との関係の一例を表すグラフである。図5において、横軸は劣化度NMR(k)を表し、縦軸は重み係数Wq(k)を表す。そしてグラフ500は、劣化度NMR(k)と重み係数Wq(k)との関係を表すグラフである。グラフ500に示されるように、重み係数Wq(k)は、1.0に達するまで、劣化度NMR(k)に比例して大きくなる。なお、重み係数Wq(k)は、劣化度NMR(k)に対して自乗比例、あるいは対数比例していてもよい。
【0047】
重み係数Wq(k)を決定するために、量子化誤差重み決定部25は、例えば、量子化誤差重み決定部25が有するメモリ回路に、劣化度NMR(k)と重み係数Wq(k)との関係を表す参照テーブルを予め記憶させておいてもよい。そして量子化誤差重み決定部25は、劣化度NMR(k)が正の値を持つ場合、その参照テーブルを参照することにより、劣化度NMR(k)に対応する重み係数Wq(k)を特定する。
量子化誤差重み決定部25は、重み係数Wq(k)を重み合成部26へ出力する。
【0048】
重み合成部26は、周波数帯域ごとに重み係数Wm(k)とWq(k)を合成して、残差信号res(k,n)に乗じる重み係数W(k)を求める。すなわち、重み合成部26は、残差信号に漏れ込み信号が含まれる周波数帯域の重み係数W(k)をWm(k)とし、残差信号に漏れ込み信号が含まれない周波数帯域の重み係数W(k)をWq(k)とする。なお、重み合成部26は、同一レベルの残差信号に対する重み係数Wm(k)が、重み係数Wq(k)よりも大きくなるように、重み係数Wm(k)とWq(k)とに加重してからそれら重み係数を合成してもよい。さらに、重み合成部26は、重み係数の最大値が1となるように、各周波数帯域の重み係数W(k)を、その重み係数の最大値で正規化してもよい。
重み合成部26は、合成された重み係数W(k)を重み付け部14へ出力する。
【0049】
図6は、残差重み決定処理の動作フローチャートを示す。なお、図6に示されたフローチャートは、1フレームにおける一つの周波数帯域に対する処理を表す。重み決定部13は、周波数帯域ごとに図6に示された残差重み決定処理を実行する。
【0050】
劣化度算出部21は、周波数帯域kにおける劣化度NMR(k)を算出する(ステップS101)。そして劣化度算出部21は、劣化度NMR(k)を漏れ込み重み決定部24及び量子化誤差重み決定部25へ出力する。
また、漏れ込み量推定部22は、周波数帯域kにおける漏れ込み信号の推定量dICC(k)を算出する(ステップS102)。漏れ込み量推定部22は、その推定量dICC(k)を判定部23へ出力する。
【0051】
判定部23は、漏れ込み信号の推定量dICC(k)が閾値ThdICCより大きいか否か判定する(ステップS103)。
dICC(k)が閾値ThdICCより大きい場合(ステップS103−Yes)、判定部23は、周波数帯域kにおける残差信号が漏れ込み信号を含むと判定する。そして判定部23は、漏れ込み信号の推定量dICC(k)を漏れ込み重み決定部24へ渡す。漏れ込み重み決定部24は、周波数帯域kについて、dICC(k)が大きいほど、漏れ込み信号を含む残差信号に対する重み係数Wm(k)を大きい値に設定する(ステップS104)。ただし、劣化度NMR(k)が0以下であれば、重み係数Wm(k)は0に設定されてもよい。そして漏れ込み重み決定部24は、重み係数Wm(k)を重み合成部26へ出力する。
【0052】
一方、dICC(k)が閾値ThdICC以下である場合(ステップS103−No)、判定部23は、周波数帯域kにおける残差信号が漏れ込み信号を含まないと判定する。そして判定部23は、その判定結果を量子化誤差重み決定部25へ通知する。量子化誤差重み決定部25は、NMR(k)が大きいほど、漏れ込み信号を含まない残差信号に対する重み係数Wq(k)を大きい値に設定する(ステップS105)。ただし、劣化度NMR(k)が0以下であれば、重み係数Wq(k)は0に設定されてもよい。そして量子化誤差重み決定部25は、重み係数Wq(k)を重み合成部26へ出力する。
【0053】
重み合成部26は、周波数帯域ごとに重み係数Wm(k)とWq(k)を合成することにより、残差信号res(k,n)に乗じる重み係数W(k)を求める(ステップS106)。そして重み合成部26は、合成した重み係数W(k)を重み付け部14へ出力する。そして重み決定部13は、残差重み決定処理を終了する。
【0054】
なお変形例によれば、重み決定部13は、劣化度算出部21により算出された劣化度NMR(k)が正となる周波数帯域についてのみ、漏れ込み量推定部22によって漏れ込み信号の推定量dICC(k)を算出し、その推定量に基づいて重み係数W(k)を決定してもよい。そして重み決定部13は、NMR(k)が0以下となる周波数帯域については、重み係数W(k)を直ちに0に設定する。これにより、重み決定部13は、NMR(k)が0以下となる周波数帯域について、漏れ込み量の推定に要する演算量及び漏れ込み量の推定値に基づいて重み係数を算出するために要する演算量を削減できる。
【0055】
また他の変形例によれば、重み決定部13は、残差信号が漏れ込み信号を含むと判定された周波数帯域における重み係数W(k)を、漏れ込み信号の推定量dICC(k)によらず、1に設定してもよい。一方、重み決定部13は、残差信号が漏れ込み信号を含まないと判定された周波数帯域における重み係数W(k)を、劣化度NMR(k)によらず0に設定してもよい。これにより、重み決定部13は、残差信号に乗じる重み係数を決定する処理に要する演算量を削減できる。この変形例では、劣化度算出部は省略されてもよい。
【0056】
重み付け部14は、残差信号res(k,n)に、合成された重み係数W(k)を乗じる。すなわち、重み付け部14は、残差信号res(k,n)に漏れ込み信号が含まれる周波数帯域については、重み係数Wm(k)またはその重み係数Wm(k)を加重した重み係数を残差信号res(k,n)に乗じる。一方、残差信号res(k,n)に漏れ込み信号が含まれない周波数帯域については、重み付け部14は、重み係数Wq(k)またはその重み係数Wq(k)を加重した重み係数を残差信号res(k,n)に乗じる。
重み付け部14は、重み付けされた残差信号res(k,n)を、残差信号符号化部16へ出力する。
【0057】
主信号符号化部15は、フレームごとに、主信号を符号化する。主信号符号化部15は、例えば、Advanced Audio Coding(AAC)符号化方式に従って主信号を符号化する。この場合、主信号符号化部15は、例えば、特開2007−183528号公報に開示されている技術を利用できる。具体的には、主信号符号化部15は、心理聴覚エントロピー(Perceptual Entropy、PE)値を算出する。PE値は、打楽器が発する音のようなアタック音など、信号レベルが短時間で変化する音に対して大きな値となる特性を持つ。そこで、主信号符号化部15は、PEの値が比較的大きくなるフレームに対しては、窓を短くし、PEの値が比較的小さくなるブロックに対しては、窓を長くする。例えば、短い窓は、256個のサンプルを含み、長い窓は、2048個のサンプルを含む。主信号符号化部15は、主信号を、時間周波数変換部11で用いられた時間周波数変換の逆変換を用いて一旦周波数時間変換する。そして主信号符号化部15は、決定された長さを持つ窓を用いて主信号から変換された時間領域の信号に対して修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)を実行することにより、主信号をMDCT係数の組に変換する。符号化部14は、MDCT係数の組を量子化し、その量子化されたMDCT係数の組をエントロピー符号化する。
【0058】
さらに、主信号符号化部15は、主信号のうち、高周波数帯域に含まれる成分である高域成分を、Spectral Band Replication(SBR)符号化方式にしたがって符号化してもよい。この場合には、主信号符号化部15は、主信号に対してローパスフィルタ処理を行って得られる、低周波数帯域に含まれる成分である低域成分を、上記のようにAAC符号化する。一方、主信号符号化部15は、主信号のうちの低域成分を除いた高域成分をSBR符号化する。
【0059】
例えば、主信号符号化部15は、特開2008−224902号公報に開示されているように、SBR符号化の対象となる高域成分と強い相関のある低域成分を複製する。そして主信号符号化部15は、複製された高域成分の電力を、元の高域成分の電力と一致するように調整する。また主信号符号化部15は、元の高域成分のうち、低域成分との差異が大きく、低域成分を複写しても、高域成分を近似できない成分を補助情報とする。そして主信号符号化部15は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報と、電力調整量と補助情報を量子化することにより符号化する。
主信号符号化部15は、主信号を符号化することにより得られた符号化データを多重化部18へ出力する。
【0060】
残差信号符号化部16は、重み付けされた残差信号をフレームごとに符号化する。残差信号符号化部16は、例えば、重み付けされた残差信号をAAC符号化する。したがって、重み付けされた残差信号が小さい周波数帯域に対応するMDCT係数も小さな値となる。そのため、そのMDCT係数が量子化されることで、その量子化されたMDCT係数は、0または0に近い値となる。そして、0または0に近い量子化されたMDCT係数には、エントロピー符号化により、符号長の短い符号が割り当てられる。したがって、重み付けされた残差信号が小さい周波数帯域について、その残差信号の符号量は少なくなる。一方、重み付けされた残差信号が大きい周波数帯域に対応するMDCT係数は0とならないので、そのMDCT係数には量子化誤差が重畳されるものの、そのMDCT係数は、復号装置において復元される。したがって、重み付けされた残差信号が大きい周波数帯域については、復号装置は、その残差信号を各チャネルの周波数信号の復号に利用できる。
残差信号符号化部16は、符号化された残差信号を多重化部18へ出力する。
【0061】
空間情報符号化部17は、ダウンミックス部12から受け取った空間情報を符号化することによりパラメトリックステレオ符号(以下、PS符号と呼ぶ)を生成する。
【0062】
空間情報符号化部17は、空間情報中の類似度の値とインデックス値の対応を示した量子化テーブルを参照する。そして空間情報符号化部17は、量子化テーブルを参照することにより、各周波数帯域についてそれぞれの類似度ICC(k)と最も値が近いインデックス値を決定する。なお、量子化テーブルは、予め、空間情報符号化部17が有するメモリに格納される。
【0063】
図7は、類似度に対する量子化テーブルの一例を示す図である。図7に示す量子化テーブル700において、上側の行710の各欄はインデックス値を表し、下側の行720の各欄は、同じ列のインデックス値に対応する類似度の代表値を表す。また、類似度が取りうる値の範囲は-0.99〜+1である。例えば、周波数帯域kに対する類似度が0.6である場合、量子化テーブル700では、インデックス値3に対応する類似度の代表値が、周波数帯域kに対する類似度に最も近い。そこで、空間情報符号化部17は、周波数帯域kに対するインデックス値を3に設定する。
【0064】
次に、空間情報符号化部17は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が3であり、周波数帯域(k-1)に対するインデックス値が0であれば、空間情報符号化部17は、周波数帯域kに対するインデックスの差分値を3とする。
【0065】
空間情報符号化部17は、インデックス値の差分値と類似度符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部17は、符号化テーブルを参照することにより、類似度ICC(k)の各周波数についてインデックス間の差分値に対する類似度符号idxicc(k)を決定する。なお、符号化テーブルは、予め、空間情報符号化部17が有するメモリに格納される。また、類似度符号は、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
【0066】
図8は、インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。この例では、類似度符号はハフマン符号である。図8に示す符号化テーブル800において、左側の列の各欄はインデックスの差分値を表し、右側の列の各欄は、同じ行のインデックスの差分値に対応する類似度符号を表す。例えば、周波数帯域kの類似度ICC(k)に対するインデックスの差分値が3である場合、空間情報符号化部17は、符号化テーブル800を参照することにより、周波数帯域kの類似度ICC(k)に対する類似度符号idxicc(k)を"111110"に設定する。
【0067】
空間情報符号化部17は、強度差の値とインデックス値との対応関係を示した量子化テーブルを参照する。そして空間情報符号化部17は、量子化テーブルを参照することにより、各周波数についての強度差CLD(k)と最も値が近いインデックス値を決定する。空間情報符号化部17は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が2であり、周波数帯域(k-1)に対するインデックス値が4であれば、空間情報符号化部17は、周波数帯域kに対するインデックスの差分値を-2とする。
【0068】
図9は、強度差に対する量子化テーブルの一例を示す図である。図9に示す量子化テーブル900において、行910、930及び950の各欄はインデックス値を表し、行920、940及び960の各欄は、それぞれ、同じ列の行910、930及び950の各欄に示されたインデックス値に対応する強度差の代表値を表す。
例えば、周波数帯域kに対する強度差CLD(k)が10.8dBである場合、量子化テーブル900では、インデックス値5に対応する強度差の代表値がCLD(k)に最も近い。そこで、空間情報符号化部17は、CLD(k)に対するインデックス値を5に設定する。
【0069】
空間情報符号化部17は、インデックス間の差分値と強度差符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部17は、符号化テーブルを参照することにより、隣接する周波数帯域のインデックス間の差分値に対する強度差符号idxcld(k)を決定する。強度差符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
なお、量子化テーブル及び符号化テーブルは、予め、空間情報符号化部17が有するメモリに格納される。
【0070】
空間情報符号化部17は、類似度符号idxicc(k)及び強度差符号idxcld(k)を用いてPS符号を生成する。例えば、空間情報符号化部17は、類似度符号idxicc(k)及び強度差符号idxcld(k)を所定の順序に従って配列することにより、PS符号を生成する。この所定の順序については、例えば、ISO/IEC 23003-1:2007に記述されている。
空間情報符号化部17は、生成したPS符号を多重化部18へ出力する。
【0071】
多重化部18は、符号化された主信号、残差信号及び空間情報を所定の順序に従って配列することにより多重化する。そして多重化部18は、その多重化により生成された符号化オーディオ信号を出力する。
図10は、符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。この例では、符号化されたオーディオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。
図10に示される符号化データ列1000において、データブロック1010に主信号を符号化することにより生成されたAAC符号が格納される。またADTS形式のFILLエレメントが格納されるブロック1020の一部領域に、主信号を符号化することにより生成されたSBR符号と、符号化された残差信号と、空間情報を符号化することにより生成されたPS符号が格納される。
【0072】
図11は、オーディオ符号化処理の動作フローチャートを示す。なお、図11に示されたフローチャートは、1フレーム分のステレオ信号に対する処理を表す。オーディオ符号化装置1は、ステレオ信号を受信し続けている間、フレームごとに図11に示されたオーディオ符号化処理の手順を繰り返し実行する。
【0073】
時間周波数変換部11は、各チャネルの信号を周波数信号に変換する(ステップS201)。時間周波数変換部11は、各チャネルの周波数信号をダウンミックス部12及び重み決定部13へ出力する。
【0074】
次に、ダウンミックス部12は、各チャネルの周波数信号をダウンミックスすることにより主信号及び残差信号を生成する。さらにダウンミックス部12は、空間情報を算出する(ステップS202)。ダウンミックス部12は、主信号を主信号符号化部15へ出力する。またダウンミックス部12は、残差信号を重み付け部14へ出力する。さらにダウンミックス部12は、空間情報を空間情報符号化部17へ出力する。さらにダウンミックス部12は、主信号、残差信号及び空間情報を重み決定部13へ出力する。
【0075】
重み決定部13は、残差信号重み決定処理を実行する(ステップS203)。これにより、残差信号に対する、周波数帯域ごとの重み係数が決定される。そして重み決定部13は、各周波数帯域の重み係数を重み付け部14へ出力する。
重み付け部14は、周波数帯域ごとに残差信号に重み係数を乗じることにより、残差信号を重み付ける(ステップS204)。重み付け部14は、重み付けされた残差信号を残差信号符号化部16へ出力する。そして残差信号符号化部16は、重み付けされた残差信号を符号化する(ステップS205)。残差信号符号化部16は、符号化された残差信号を多重化部18へ出力する。
【0076】
また、主信号符号化部15は、主信号を符号化する(ステップS206)。そして主信号符号化部15は、符号化された主信号を多重化部18へ出力する。さらに、空間情報符号化部17は、空間情報を符号化する(ステップS207)。そして空間情報符号化部17は、符号化された空間情報を多重化部18へ出力する。
最後に、多重化部18は、符号化された主信号、残差信号及び空間情報を多重化することにより、符号化されたオーディオ信号を生成する(ステップS208)。
多重化部18は、符号化されたオーディオ信号を出力する。そしてオーディオ符号化装置1は、符号化処理を終了する。
なお、オーディオ符号化装置1は、ステップS203〜S205の処理と、ステップS206の処理と、ステップS207の処理の実行順序を入れ替えてもよい。あるいは、オーディオ符号化装置1は、ステップS203〜S205の処理と、ステップS206の処理と、ステップS207の処理を並列に実行してもよい。
【0077】
図12(a)は、オリジナルのステレオ信号の左右チャネルの信号の一例を示す図である。また図12(b)は、従来技術により、オリジナルのステレオ信号を、残差信号に重み付けを行わずに符号化し、その符号化されたステレオ信号を再生した再生信号の一例を示す図である。そして図12(c)は、本実施形態に係るオーディオ符号化装置1により符号化されたステレオ信号の再生信号の一例を示す図である。
図12(a)〜図12(c)において、上側は左チャネルの信号を表し、下側は右チャネルの信号を表す。また横軸は時間を表し、縦軸は周波数を表す。そして輝線は各チャネルの信号強度を表し、輝線の輝度が高いほど、強度が高いことを表す。
【0078】
図12(a)に示されるように、オリジナルのステレオ信号では、時間帯1210において、左チャネルの信号1212はある程度の強度を持っている一方で、右チャネルの信号1211はほぼ0となっている。しかし、図12(b)に示されるように、従来技術によって符号化されたステレオ信号の再生信号では、時間帯1210において右チャネルの信号1221の強度がオリジナルの信号1211よりも強くなっている。そのため、再生信号の音質が劣化している。
一方、図12(c)に示されるように、本実施形態によるオーディオ符号化装置1にて符号化されたステレオ信号を再生した再生信号における右チャネルの信号1231は、オリジナルの右チャネルの信号1211とほぼ等しい。そして時間帯1210においても、右チャネルの信号はほぼ0となっている。そのため、この場合の再生音の品質は、図12(b)に示された信号による再生音の品質よりも良い。このように、オーディオ符号化装置1により符号化されたステレオ信号を復号することにより、オリジナルのステレオ信号を良好に再現できることが分かる。
【0079】
以上に説明してきたように、このオーディオ符号化装置は、周波数帯域ごとに、残差信号に含まれる成分に応じて残差信号に乗じる重み係数を決定する。そのため、このオーディオ符号化装置は、漏れ込み信号のように、信号強度が小さくてもダウンミックスされる二つのチャネル間で相互に影響し、かつ、再生音質に対する影響が大きい成分が残差信号に含まれる場合には、残差信号に割り当てる符号量を多くできる。一方、残差信号に、再生音質に対する影響が小さい成分しか含まれない場合には、このオーディオ符号化装置は、残差信号に割り当てる符号量を少なくできる。したがって、このオーディオ符号化装置は、再生音質の劣化を抑制しつつ、残差信号の符号量を削減できる。
【0080】
なお、本発明は上記の実施形態に限定されるものではない。例えば、変形例によれば、オーディオ符号化装置は、劣化度NMR(k)及び類似度ICC(k)をタイムスロット単位で算出してもよい。これにより、オーディオ符号化装置は、漏れ込み信号を含む残差信号に対する重み係数Wm(k)及び漏れ込み信号を含まない残差信号に対する重み係数Wq(k)もタイムスロット単位で決定できるので、より細やかに残差信号に割り当てる符号量を制御できる。
また他の変形例によれば、符号化の対象となるオーディオ信号は、ステレオ信号に限られない。例えば、符号化の対象となるオーディオ信号は、3ch、3.1ch、5.1chまたは7.1chなど、3個以上のチャネルを持つマルチチャネルオーディオ信号であってもよい。
【0081】
図13は、第2の実施形態によるオーディオ符号化装置の概略構成図である。第2の実施形態によるオーディオ符号化装置は、5.1chのマルチチャネルオーディオ信号をダウンミックすることによってステレオ信号及び空間情報を生成し、そのステレオ信号及び空間情報を符号化する。さらにこのオーディオ符号化装置は、5.1chの信号をダウンミックスする際に残差信号を生成し、その残差信号を、残差信号に含まれる成分に応じて重み付けした後に符号化する。そのために、オーディオ符号化装置2は、時間周波数変換部11と、第1ダウンミックス部31と、第2ダウンミックス部32と、重み決定部13と、重み付け部14と、主信号符号化部15と、残差信号符号化部16と、空間情報符号化部17と、多重化部18とを有する。図13に示されるオーディオ符号化装置2の各構成要素には、図1に示されたオーディオ符号化装置1の対応する構成要素と同一の参照番号を付した。以下では、オーディオ符号化装置2のうち、オーディオ符号化装置1と異なる点について説明する。
【0082】
時間周波数変換部11は、各チャネルの時間領域の信号を、フレーム単位で時間周波数変換することにより、各チャネルの周波数信号を生成する。そして時間周波数変換部11は、各チャネルの周波数信号を第1ダウンミックス部31へ出力する。
【0083】
第1ダウンミックス部31は、5.1chの周波数信号をダウンミックスすることにより、左チャネル、中央チャネル及び右チャネルの主信号と、残差信号と、空間情報を生成する。例えば、第1ダウンミックス部31は、(2)式において、左チャネル及び右チャネルの周波数信号の代わりに、左前方チャネル及び左後方チャネルの周波数信号を入力することにより、左前方チャネルと左後方チャネル間の類似度ICCL(k)及び強度差CLDL(k)を求める。そして第1ダウンミックス部31は、(3)式において、ICC(k)及び強度差CLD(k)の代わりにICCL(k)及びCLDL(k)を入力することで係数行列M(CLDL(k),ICCL(k))を求める。さらに第1ダウンミックス部31は、(4)式のように、左チャネル及び右チャネルの周波数信号の代わりに、左前方チャネル及び左後方チャネルの周波数信号を要素とするベクトルに、係数行列M(CLDL(k),ICCL(k))を乗じることで、左チャネルの主信号Lin(k,n)及び残差信号resLin(k,n)を求める。同様に、第1ダウンミックス部31は、右前方チャネルの周波数信号と右後方チャネルの周波数信号から、右前方チャネルと右後方チャネル間の類似度ICCR(k)及び強度差CLDR(k)と、右チャネルの主信号Rin(k,n)及び残差信号resRin(k,n)を求める。
【0084】
さらに、第1ダウンミックス部31は、次式に従って、中央チャネルの周波数信号と重低音チャネルの周波数信号間の強度差CLDC(k)及び主信号Cin(k,n)を算出する。なお、第1ダウンミックス部31は、中央チャネル及び重低音チャネル間の類似度及び残差信号を算出しない。
【数6】

ここでCRe(k,n)は、中央チャネルの周波数信号C(k,n)のうちの実部を表し、CIm(k,n)は、中央チャネルの周波数信号C(k,n)のうちの虚部を表す。またLFERe(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの実部を表し、LFEIm(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの虚部を表す。そしてCin(k,n)は、ダウンミックスにより生成される中央チャネルの主信号である。なお、CinRe(k,n)は、中央チャネルの主信号Cin(k,n)のうちの実部を表し、CinIm(k,n)は、中央チャネルの主信号Cin(k,n)のうちの虚部を表す。またeC(k)は、中央チャネルの周波数信号C(k,n)の自己相関値であり、eLFE(k)は、重低音チャネルの周波数信号LFE(k,n)の自己相関値である。
【0085】
第1ダウンミックス部31は、右チャネルの主信号、残差信号及び空間情報を重み決定部13へ渡す。また第1ダウンミックス部31は、左チャネルの主信号、残差信号及び空間情報を重み決定部13へ渡す。さらに第1ダウンミックス部31は、左チャネル、右チャネル及び中央チャネルの主信号を第2ダウンミックス部32へ出力する。さらに第1ダウンミックス部31は、左チャネル及び右チャネルの残差信号を重み付け部14へ出力する。また第1ダウンミックス部31は、左チャネル、右チャネル及び中央チャネルの空間情報を空間情報符号化部17へ出力する。
【0086】
第2ダウンミックス部32は、左チャネル、右チャネル及び中央チャネルの3チャネルの主信号のうちの二つをダウンミックスすることにより、2チャネルのステレオ周波数信号を生成する。さらに第2ダウンミックス部32は、ダウンミックスされる二つの周波数信号についての空間情報を生成する。
【0087】
第2ダウンミックス部32は、例えば、次式に従ってステレオ周波数信号の左側周波数信号Le0(k,n)及び右側周波数信号Re0(k,n)を生成する。
【数7】

ここで、Lin(k,n)、Rin(k,n)、Cin(k,n)は、それぞれ、第1ダウンミックス部31により生成された左チャネル、右チャネル及び中央チャネルの主信号である。
【0088】
さらに、第2ダウンミックス部32は、例えば、いわゆるエネルギーモードにより、ダウンミックスされる二つのチャネルの周波数信号についての空間情報を算出する。具体的には、第2ダウンミックス部32は、空間情報として、周波数帯域ごとの中央チャネルに対する左右のチャネルの信号電力比CLD1(k)と、左右のチャネル間の信号電力比CLD2(k)とを次式に従って算出する。
【数8】

ここで、eLin(k)は周波数帯域kにおける、左チャネルの周波数信号Lin(k,n)の自己相関値である。またeRin(k)は周波数帯域kにおける、右チャネルの周波数信号Rin(k,n)の自己相関値である。そしてeCin(k)は周波数帯域kにおける、中央チャネルの周波数信号Cin(k,n)の自己相関値である。
なお、第2ダウンミックス部32は、空間情報を算出する他の方法、例えば、いわゆる予測モードにより、ダウンミックスされる二つのチャネルの周波数信号についての空間情報を算出してもよい。
【0089】
第2ダウンミックス部32は、ステレオ周波数信号Le0(k,n)、Re0(k,n)を、主信号符号化部15へ出力する。また第2ダウンミックス部32は、空間情報CLD1(k)、CLD2(k)を、空間情報符号化部17へ出力する。
【0090】
重み決定部13は、第1の実施形態による重み決定部と同様の構成を有する。そして重み決定部13は、左チャネルの主信号、残差信号及び空間情報に基づいて、第1の実施形態による重み決定部における処理と同様の処理を行って、周波数帯域ごとに左チャネルの残差信号に対する重み係数WL(k)を決定する。同様に、重み決定部13は、右チャネルの主信号、残差信号及び空間情報に基づいて、第1の実施形態による重み決定部における処理と同様の処理を行って、周波数帯域ごとに右チャネルの残差信号に対する重み係数WR(k)を決定する。そして重み決定部13は、左チャネルの重み係数WL(k)及び右チャネルの重み係数WR(k)を重み付け部14へ出力する。
【0091】
重み付け部14は、第1の実施形態による重み付け部と同様に、周波数帯域ごとに左チャネルの残差信号resLin(k,n)に重み係数WL(k)を乗じることにより、左チャネルの残差信号を重み付ける。同様に、重み付け部14は、周波数帯域ごとに右チャネルの残差信号resRin(k,n)に重み係数WR(k)を乗じることにより、右チャネルの残差信号を重み付ける。
重み付け部14は、重み付けされた左チャネルの残差信号及び右チャネルの残差信号を残差信号符号化部16へ出力する。
【0092】
主信号符号化部15は、ステレオ周波数信号Le0(k,n)及びRe0(k,n)のそれぞれに対して、第1の実施形態による主信号符号化部の処理と同様の処理を行うことにより、ステレオ周波数信号Le0(k,n)及びRe0(k,n)を符号化する。したがって、例えば、主信号符号化部15は、ステレオ周波数信号Le0(k,n)及びRe0(k,n)のそれぞれの低域成分をAAC符号化し、ステレオ周波数信号Le0(k,n)及びRe0(k,n)のそれぞれの高域成分をSBR符号化する。そして主信号符号化部15は、符号化されたステレオ周波数信号Le0(k,n)及びRe0(k,n)を多重化部18へ出力する。
【0093】
残差信号符号化部16は、重み付けされた左チャネルの残差信号及び右チャネルの残差信号のそれぞれに対して、第1の実施形態による残差信号符号化部の処理と同様の処理を行うことにより、その左チャネルの残差信号及び右チャネルの残差信号を符号化する。これにより、例えば、左チャネルの残差信号及び右チャネルの残差信号は、それぞれAAC符号化される。そして残差信号符号化部16は、符号化された左チャネルの残差信号及び右チャネルの残差信号を多重化部18へ出力する。
【0094】
空間情報符号化部17は、各空間情報に対して、第1の実施形態による空間情報符号化部の処理と同様の処理を行うことにより、MPEG Surround符号(以下、MPS符号と呼ぶ)を生成する。そして空間情報符号化部17は、MPS符号を多重化部18へ出力する。
【0095】
多重化部18は、符号化された主信号、残差信号及び空間情報を所定の順序、例えば、図10に示されたMPEG-4 ADTS形式に従って配列することにより多重化する。そして多重化部18は、その多重化により生成された符号化オーディオ信号を出力する。
【0096】
このように、第2の実施形態によるオーディオ符号化装置も、5.1chのオーディオ信号をダウンミックする際に生成される残差信号に対する重み係数を、その残差信号に漏れ込み信号が含まれるか否かによって決定する。そのため、このオーディオ符号化装置も、漏れ込み信号による再生音質の劣化を抑制しつつ、残差信号の符号量を削減できる。
【0097】
さらに、他の変形例によれば、重み決定部は、周波数帯域ごとに、漏れ込み信号以外に、ダウンミックスされる二つのチャネル間で相互に影響する成分を抽出し、その成分に応じて、残差信号に対する重み係数を決定してもよい。例えば、二つのチャネルの信号をダウンミックスすることにより、その二つのチャネルの周波数信号が互いに打ち消し、主信号が減衰することがある。このような場合、符号化されたオーディオ信号が再生されると、いわゆるこもった音になる。そこで、この変形例では、重み決定部は、周波数帯域ごとに、残差信号に含まれるこもり音に相当する成分を検出し、その成分に対する重み係数を、漏れ込み重み及び量子化誤差重みとは別個に設定する。
【0098】
図14は、何れかの実施形態によるオーディオ符号化装置の変形例による、重み決定部の概略構成図である。図14に示されるように、重み決定部41は、劣化度算出部21と、漏れ込み量推定部22と、判定部23と、漏れ込み重み決定部24と、量子化誤差重み決定部25と、重み合成部26と、こもり音検出部42と、こもり重み決定部43とを有する。
なお、オーディオ符号化装置の重み決定部以外の構成要素については、第1の実施形態または第2の実施形態の説明を参照されたい。また、重み決定部41のうち、こもり音検出部42、こもり重み決定部43及び重み合成部26以外の構成要素は、第1の実施形態による重み決定部13の対応する構成要素と同一である。そこで以下では、こもり音検出部42、こもり重み決定部43及び重み合成部26について説明する。また以下では、重み決定部41は、ステレオ信号に含まれる左チャネルの信号及び右チャネルの信号から求められた残差信号に対する重み係数を設定するものとして説明する。
【0099】
こもり音検出部42は、周波数帯域ごとに、残差信号に含まれるこもり音に相当する成分を検出する。
符号化されたオーディオ信号を再生したオーディオ信号の音がこもる場合、主信号が減衰しているので、その主信号から再生された各チャネルの周波数信号は、元の周波数信号よりも減衰している。
【0100】
そこで、こもり音検出部42は、主信号及び空間情報から、例えば、左チャネル及び右チャネルの周波数信号の復号値を推定する。そしてこもり音検出部42は、周波数帯域ごとに、その左チャネルの復号推定値のパワー(すなわち、(2)式におけるeL(k)に相当)から元の左チャネルのパワーを引いた減衰量ΔL(k)を求める。同様に、こもり音検出部42は、周波数帯域ごとに、右チャネルの復号推定値のパワー(すなわち、(2)式におけるeR(k)に相当)から元の右チャネルのパワーを引いた減衰量ΔR(k)を求める。そしてこもり音検出部42は、ΔL(k)及びΔR(k)のうちの大きい方の値を、残差信号に含まれる、こもり音の推定量Δ(k)とする。そしてこもり音検出部42は、周波数帯域kにおけるこもり音の推定量Δ(k)が所定の閾値Thc以上である場合、その周波数帯域kにおける残差信号に、こもり音が含まれると判定する。なお、所定の閾値Thcは、例えば、元の左チャネル及び右チャネルのパワーのうちの大きい方のパワーの1/10〜1/2に設定される。
【0101】
なお、こもり音検出部42は、漏れ込み量推定部22と同様に、例えば、ISO/IEC23003-1 6.5.3.2章に記載されている復号音の推定方法に従って、左チャネル及び右チャネルの周波数信号の復号値を推定すればよい。あるいは、こもり音検出部42は、特開2010-139671号公報に開示されている復号音の推定方法に従って、左チャネル及び右チャネルの周波数信号の復号値を推定してもよい。
こもり音検出部42は、こもり音が含まれると判定された周波数帯域及び減衰量Δ(k)をこもり重み決定部43へ通知する。
【0102】
こもり重み決定部43は、こもり音が含まれると判定された周波数帯域について、残差信号に乗じる重み係数Wc(k)を、こもり音の推定量Δ(k)が大きくなるほど大きくなるように決定する。一方、こもり重み決定部43は、こもり音が含まれないと判定された周波数帯域についての重み係数Wc(k)を0に設定する。なお、こもり重み決定部43は、劣化度NMR(k)が0以下となる周波数帯域についても、Wc(k)を0に設定してもよい。ただし、この重み係数Wc(k)は、同一レベルの残差信号に対する量子化誤差の重み係数Wq(k)よりも大きい値に設定されることが好ましい。そしてこもり重み決定部43は、各周波数帯域の重み係数Wc(k)を重み合成部26へ出力する。
【0103】
重み合成部26は、周波数帯域ごとに、残差信号に漏れ込み信号が含まれる場合の重み係数Wm(k)と、残差信号に漏れ込み信号が含まれない場合の重み係数Wq(k)と、残差信号にこもり音に相当する成分が含まれる場合の重み係数Wc(k)を加算し、重み係数W(k)を求める。そして重み合成部26は、重み係数W(k)を重み付け部へ出力する。
【0104】
この変形例によれば、オーディオ符号化装置は、残差信号を用いずに符号化されたオーディオ信号を再生することにより、音がこもる場合にも、残差信号残差信号に割り当てる符号量を多くすることができる。したがって、このオーディオ符号化装置は、再生されたオーディオ信号の音がこもることを抑制できる。
【0105】
上記の各実施形態におけるオーディオ符号化装置が有する各部の機能をコンピュータに実現させるコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体などの記録媒体に記憶された形で提供されてもよい。
【0106】
また、上記の各実施形態におけるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装される。
【0107】
図15は、上記の何れかの実施形態またはその変形例によるオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。映像伝送装置100は、映像取得部101と、音声取得部102と、映像符号化部103と、音声符号化部104と、多重化部105と、通信処理部106と、出力部107とを有する。
【0108】
映像取得部101は、動画像信号をビデオカメラなどの他の装置から取得するためのインターフェース回路を有する。そして映像取得部101は、映像伝送装置100に入力された動画像信号を映像符号化部103へ渡す。
【0109】
音声取得部102は、オーディオ音声信号をマイクロフォンなどの他の装置から取得するためのインターフェース回路を有する。そして音声取得部102は、映像伝送装置100に入力されたオーディオ音声信号を音声符号化部104へ渡す。
【0110】
映像符号化部103は、動画像信号のデータ量を圧縮するために、動画像信号を符号化する。そのために、映像符号化部103は、例えば、MPEG-2、MPEG-4、H.264 MPEG-4 Advanced Video Coding(H.264 MPEG-4 AVC)などの動画像符号化規格に従って動画像信号を符号化する。そして映像符号化部103は、符号化動画像データを多重化部105へ出力する。
【0111】
音声符号化部104は、上記の何れかの実施形態のオーディオ符号化装置を有する。そして音声符号化部104は、オーディオ信号から主信号と、残差信号と、空間情報とを生成する。音声符号化部104は、その主信号をAAC符号化処理及びSBR符号化処理によって符号化する。また音声符号化部104は、空間情報を空間情報符号化処理によって符号化する。さらに音声符号化部104は、残差信号を、周波数帯域ごとに、その残差信号に含まれる成分に応じて重み付けした後に、その重み付けされた残差信号を例えばAAC符号化する。音声符号化部104は、符号化された主信号、残差信号及び空間情報を多重化することにより、符号化オーディオデータを生成する。そして音声符号化部104は、符号化オーディオデータを多重化部105へ出力する。
【0112】
多重化部105は、符号化動画像データと符号化オーディオデータを多重化する。そして多重化部105は、MPEG-2トランスポートストリームなどの映像データの伝送用の所定の形式に従ったストリームを作成する。
多重化部105は、符号化動画像データと符号化オーディオデータが多重化されたストリームを通信処理部106へ出力する。
【0113】
通信処理部106は、符号化動画像データと符号化オーディオデータが多重化されたストリームを、TCP/IPなどの所定の通信規格にしたがったパケットに分割する。また通信処理部106は、各パケットに、宛先情報などが格納された所定のヘッダを付す。そして通信処理部106は、パケットを出力部107へ渡す。
【0114】
出力部107は、映像伝送装置100を通信回線に接続するためのインターフェース回路を有する。そして出力部107は、通信処理部106から受け取ったパケットを通信回線へ出力する。
【0115】
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
【0116】
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記複数のチャネルのうちの第1のチャネルの周波数信号と第2のチャネルの周波数信号をダウンミックスすることにより、前記第1のチャネルと前記第2のチャネルの主要成分を表す主信号と、該主信号と直交する成分である残差信号とを生成するダウンミックス部と、
前記第1のチャネルの周波数信号の推定される復号値と前記第2のチャネルの周波数信号の推定される復号値とを求め、前記第1のチャネルの前記復号値と前記第2のチャネルの前記復号値に基づいて、前記残差信号のうち、前記第1のチャネルと前記第2のチャネル間で相互に影響する信号成分を求め、当該信号成分に応じて前記残差信号に対する重み係数を決定する重み決定部と、
前記重み係数を用いて前記残差信号を重み付ける重み付け部と、
前記重み付けされた残差信号を符号化する残差信号符号化部と、
前記主信号を符号化する主信号符号化部と、
を有するオーディオ符号化装置。
(付記2)
前記ダウンミックス部は、複数の周波数帯域にわたって前記第1のチャネルの周波数信号と前記第2のチャネルの周波数信号間の類似度を算出し、かつ、前記複数の周波数帯域にわたって前記残差信号を算出し、
前記重み決定部は、前記複数の周波数帯域にわたって前記第1のチャネルの前記復号値と前記第2のチャネルの前記復号値間の符号化後類似度を算出し、前記複数の周波数帯域のうち、前記符号化後類似度が前記類似度よりも増加した周波数帯域における前記残差信号が前記信号成分を含むと判定し、前記信号成分を含む周波数帯域における残差信号に対する重み係数を、前記信号成分を含まない周波数帯域における残差信号に対する重み係数よりも大きくする、付記1に記載のオーディオ符号化装置。
(付記3)
前記重み決定部は、前記信号成分を含む周波数帯域における残差信号に対する重み係数を、前記前記符号化後類似度と前記類似度間の差が大きいほど大きくする、付記2に記載のオーディオ符号化装置。
(付記4)
前記重み決定部は、前記複数の周波数帯域のそれぞれにおいて、前記残差信号と、リスナーが可聴できる信号強度の下限値を表すマスキング閾値との差を求め、前記信号成分を含まない周波数帯域における残差信号に対する重み係数を、当該残差信号と当該マスキング閾値との差が大きいほど大きくする、付記2または3に記載のオーディオ符号化装置。
(付記5)
前記重み決定部は、前記複数の周波数帯域のうち、前記残差信号と前記マスキング閾値との差が0以下となる周波数帯域に対する前記重み係数を0に設定する、付記4に記載のオーディオ符号化装置。
(付記6)
前記ダウンミックス部は、複数の周波数帯域にわたって前記残差信号を算出し、
前記重み決定部は、前記複数の周波数帯域のうち、前記第1のチャネルの前記復号値が前記第1のチャネルの周波数信号より大きいか、または前記第2のチャネルの前記復号値が前記第2のチャネルの周波数信号よりも大きい周波数帯域における前記残差信号が前記信号成分を含むと判定し、前記信号成分を含む周波数帯域における残差信号に対する重み係数を、前記信号成分を含まない周波数帯域における残差信号に対する重み係数よりも大きくする、付記1に記載のオーディオ符号化装置。
(付記7)
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記複数のチャネルのうちの第1のチャネルの周波数信号と第2のチャネルの周波数信号をダウンミックスすることにより、前記第1のチャネルと前記第2のチャネルの主要成分を表す主信号と、該主信号と直交する成分である残差信号とを生成し、
前記第1のチャネルの周波数信号の推定される復号値と前記第2のチャネルの周波数信号の推定される復号値とを求め、
前記第1のチャネルの前記復号値と前記第2のチャネルの前記復号値に基づいて、前記残差信号のうち、前記第1のチャネルと前記第2のチャネル間で相互に影響する信号成分を求め、当該信号成分に応じて前記残差信号に対する重み係数を決定し、
前記重み係数を用いて前記残差信号を重み付け、
前記重み付けされた残差信号を符号化し、
前記主信号を符号化する、
ことを含むオーディオ符号化方法。
(付記8)
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記複数のチャネルのうちの第1のチャネルの周波数信号と第2のチャネルの周波数信号をダウンミックスすることにより、前記第1のチャネルと前記第2のチャネルの主要成分を表す主信号と、該主信号と直交する成分である残差信号とを生成し、
前記第1のチャネルの周波数信号の推定される復号値と前記第2のチャネルの周波数信号の推定される復号値とを求め、
前記第1のチャネルの前記復号値と前記第2のチャネルの前記復号値に基づいて、前記残差信号のうち、前記第1のチャネルと前記第2のチャネル間で相互に影響する信号成分を求め、当該信号成分に応じて前記残差信号に対する重み係数を決定し、
前記重み係数を用いて前記残差信号を重み付け、
前記重み付けされた残差信号を符号化し、
前記主信号を符号化する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
(付記9)
入力された動画像信号を符号化する動画像符号化部と、
入力された複数のチャネルを持つオーディオ信号を符号化するオーディオ符号化部であって、
前記オーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記複数のチャネルのうちの第1のチャネルの周波数信号と第2のチャネルの周波数信号をダウンミックスすることにより、前記第1のチャネルと前記第2のチャネルの主要成分を表す主信号と、該主信号と直交する成分である残差信号とを生成するダウンミックス部と、
前記第1のチャネルの周波数信号の推定される復号値と前記第2のチャネルの周波数信号の推定される復号値とを求め、前記第1のチャネルの前記復号値と前記第2のチャネルの前記復号値に基づいて、前記残差信号のうち、前記第1のチャネルと前記第2のチャネル間で相互に影響する信号成分を求め、当該信号成分に応じて前記残差信号に対する重み係数を決定する重み決定部と、
前記重み係数を用いて前記残差信号を重み付ける重み付け部と、
前記重み付けされた残差信号を符号化する残差信号符号化部と、
前記主信号を符号化する主信号符号化部と、
前記符号化された主信号と前記符号化された残差信号とを多重化することにより、符号化されたオーディオ信号を生成する多重化部とを有するオーディオ符号化部と、
前記動画像符号化部により符号化された動画像信号と前記オーディオ符号化部により符号化されたオーディオ信号を多重化することにより符号化された映像ストリームを生成する映像ストリーム生成部と、
を有する映像伝送装置。
【符号の説明】
【0117】
1、2 オーディオ符号化装置
11 時間周波数変換部
12 ダウンミックス部
13、41 重み決定部
14 重み付け部
15 主信号符号化部
16 残差信号符号化部
17 空間情報符号化部
18 多重化部
21 劣化度算出部
22 漏れ込み量推定部
23 判定部
24 漏れ込み重み決定部
25 量子化誤差重み決定部
26 重み合成部
31 第1ダウンミックス部
32 第2ダウンミックス部
42 こもり音検出部
43 こもり重み決定部
100 映像伝送装置
101 映像取得部
102 音声取得部
103 映像符号化部
104 音声符号化部
105 多重化部(映像ストリーム生成部)
106 通信処理部
107 出力部

【特許請求の範囲】
【請求項1】
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記複数のチャネルのうちの第1のチャネルの周波数信号と第2のチャネルの周波数信号をダウンミックスすることにより、前記第1のチャネルと前記第2のチャネルの主要成分を表す主信号と、該主信号と直交する成分である残差信号とを生成するダウンミックス部と、
前記第1のチャネルの周波数信号の推定される復号値と前記第2のチャネルの周波数信号の推定される復号値とを求め、前記第1のチャネルの前記復号値と前記第2のチャネルの前記復号値に基づいて、前記残差信号のうち、前記第1のチャネルと前記第2のチャネル間で相互に影響する信号成分を求め、当該信号成分に応じて前記残差信号に対する重み係数を決定する重み決定部と、
前記重み係数を用いて前記残差信号を重み付ける重み付け部と、
前記重み付けされた残差信号を符号化する残差信号符号化部と、
前記主信号を符号化する主信号符号化部と、
を有するオーディオ符号化装置。
【請求項2】
前記ダウンミックス部は、複数の周波数帯域にわたって前記第1のチャネルの周波数信号と前記第2のチャネルの周波数信号間の類似度を算出し、かつ、前記複数の周波数帯域にわたって前記残差信号を算出し、
前記重み決定部は、前記複数の周波数帯域にわたって前記第1のチャネルの前記復号値と前記第2のチャネルの前記復号値間の符号化後類似度を算出し、前記複数の周波数帯域のうち、前記符号化後類似度が前記類似度よりも増加した周波数帯域における前記残差信号が前記信号成分を含むと判定し、前記信号成分を含む周波数帯域における残差信号に対する重み係数を、前記信号成分を含まない周波数帯域における残差信号に対する重み係数よりも大きくする、請求項1に記載のオーディオ符号化装置。
【請求項3】
前記重み決定部は、前記信号成分を含む周波数帯域における残差信号に対する重み係数を、前記前記符号化後類似度と前記類似度間の差が大きいほど大きくする、請求項2に記載のオーディオ符号化装置。
【請求項4】
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記複数のチャネルのうちの第1のチャネルの周波数信号と第2のチャネルの周波数信号をダウンミックスすることにより、前記第1のチャネルと前記第2のチャネルの主要成分を表す主信号と、該主信号と直交する成分である残差信号とを生成し、
前記第1のチャネルの周波数信号の推定される復号値と前記第2のチャネルの周波数信号の推定される復号値とを求め、
前記第1のチャネルの前記復号値と前記第2のチャネルの前記復号値に基づいて、前記残差信号のうち、前記第1のチャネルと前記第2のチャネル間で相互に影響する信号成分を求め、当該信号成分に応じて前記残差信号に対する重み係数を決定し、
前記重み係数を用いて前記残差信号を重み付け、
前記重み付けされた残差信号を符号化し、
前記主信号を符号化する、
ことを含むオーディオ符号化方法。
【請求項5】
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記複数のチャネルのうちの第1のチャネルの周波数信号と第2のチャネルの周波数信号をダウンミックスすることにより、前記第1のチャネルと前記第2のチャネルの主要成分を表す主信号と、該主信号と直交する成分である残差信号とを生成し、
前記第1のチャネルの周波数信号の推定される復号値と前記第2のチャネルの周波数信号の推定される復号値とを求め、
前記第1のチャネルの前記復号値と前記第2のチャネルの前記復号値に基づいて、前記残差信号のうち、前記第1のチャネルと前記第2のチャネル間で相互に影響する信号成分を求め、当該信号成分に応じて前記残差信号に対する重み係数を決定し、
前記重み係数を用いて前記残差信号を重み付け、
前記重み付けされた残差信号を符号化し、
前記主信号を符号化する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図12】
image rotate


【公開番号】特開2013−50540(P2013−50540A)
【公開日】平成25年3月14日(2013.3.14)
【国際特許分類】
【出願番号】特願2011−187470(P2011−187470)
【出願日】平成23年8月30日(2011.8.30)
【出願人】(000005223)富士通株式会社 (25,993)