オーディオ符号化装置、オーディオ符号化方法、およびプログラム
【課題】複数のチャンネルのオーディオ信号を高効率で符号化する場合に、符号化による音質劣化を防止することができるようにする。
【解決手段】決定部は、左用と右用のチャンネルのオーディオ信号の周波数スペクトルに基づいて、左用(右用)のチャンネルの混合後の周波数スペクトルにおける右用(左用)のチャンネルの周波数スペクトルの割合である混合率を決定する。乗算部と加算部は、混合率に基づいて、チャンネルごとに、左用と右用のチャンネルの周波数スペクトルを混合する。混合後の左用と右用のチャンネルの周波数スペクトルは符号化される。本技術は、例えば、オーディオ符号化装置に適用することができる。
【解決手段】決定部は、左用と右用のチャンネルのオーディオ信号の周波数スペクトルに基づいて、左用(右用)のチャンネルの混合後の周波数スペクトルにおける右用(左用)のチャンネルの周波数スペクトルの割合である混合率を決定する。乗算部と加算部は、混合率に基づいて、チャンネルごとに、左用と右用のチャンネルの周波数スペクトルを混合する。混合後の左用と右用のチャンネルの周波数スペクトルは符号化される。本技術は、例えば、オーディオ符号化装置に適用することができる。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、オーディオ符号化装置、オーディオ符号化方法、およびプログラムに関し、特に、複数のチャンネルのオーディオ信号を高効率で符号化する場合に、符号化による音質劣化を防止することができるようにしたオーディオ符号化装置、オーディオ符号化方法、およびプログラムに関する。
【背景技術】
【0002】
複数のチャンネルのオーディオ信号からなるステレオオーディオ信号の符号化としては、チャンネル間の関係を利用することで符号化効率を高めるM/Sステレオ符号化やインテンシティ・ステレオ符号化などがある。なお、以下では、説明の便宜上、ステレオオーディオ信号のチャンネル数は、左用のチャンネルと右用のチャンネルの2つであるものとするが、3以上であっても同様である。
【0003】
M/Sステレオ符号化では、ステレオオーディオ信号を構成する左用と右用のチャンネルのオーディオ信号の和と差の成分が符号化結果とされる。従って、左用と右用のチャンネルのオーディオ信号が類似している場合、差の成分が小さいため、符号化効率が高まる。しかしながら、左用と右用のチャンネルのオーディオ信号が大きく異なる場合、差の成分が大きいため、符号化効率を高めることができない。その結果、符号化後の量子化において量子化ノイズが発生し、復号時に不自然な雑音が発生する場合がある。
【0004】
インテンシティ・ステレオ符号化では、人間の聴覚が高域では位相に鈍感で主に周波数スペクトルのレベル比によって定位を知覚するという原理に基づいて符号化が行われる(例えば、非特許文献1参照)。具体的には、インテンシティ・ステレオ符号化では、所定の周波数FISより低い周波数については、左用と右用のチャンネルの周波数スペクトルが、そのまま符号化結果とされる。一方、所定の周波数FIS以上の周波数については、左用と右用のチャンネルの周波数スペクトルを混合した共通スペクトルと各チャンネルの周波数スペクトルのレベルが符号化結果とされる。
【0005】
従って、復号時には、周波数FISより低い周波数については、符号化結果である左用と右用のチャンネルの周波数スペクトルがそのまま復号結果とされる。一方、周波数FIS以上の周波数については、符号化結果である共通スペクトルに各チャンネルの周波数スペクトルのレベルが適用され、復号結果とされる。
【0006】
このようなインテンシティ・ステレオ符号化においても、M/Sステレオ符号化と同様に、左用と右用のチャンネルのオーディオ信号が類似していることが前提となっている。従って、左用と右用のチャンネルのオーディオ信号が全く異なる場合、例えば、左用のチャンネルのオーディオ信号がシンバルのオーディオ信号であり、右用のチャンネルのオーディオ信号がトランペットのオーディオ信号である場合、共通スペクトルが、左用と右用のチャンネルの周波数スペクトルと異なるものとなるため、復号時に不自然な雑音が発生する場合がある。
【0007】
そこで、左用と右用のチャンネルのオーディオ信号の周波数スペクトルの間隔の尺度を求め、この尺度が閾値以下である場合M/Sステレオ符号化等の共通符号化を行い、閾値以上である場合個別符号化を行うことが考案されている(例えば、特許文献1参照)。
【0008】
また、ステレオオーディオ信号の周波数スペクトルを所定の周波数帯域ごとに分割し、その周波数帯域ごとにインテンシティ・ステレオ符号化が適用されたかの指標を特定のハフマンコードブック番号を用いて伝送することが考案されている(例えば、特許文献2参照)。これにより、所定の周波数帯域ごとにインテンシティ・ステレオ符号化のオン/オフを切り替えることが可能である。
【0009】
しかしながら、特許文献1および2の発明において、共通符号化またはインテンシティ・ステレオ符号化のオン/オフが頻繁に切り替えられると、定位が不安定になったり異音が発生したりする場合がある。
【0010】
また、符号化において高い圧縮率が求められる場合には、たとえ左用と右用のチャンネルのオーディオ信号が著しく異なる場合であっても、符号化効率を高めるためにインテンシティ・ステレオ符号化を用いざるを得ない場合がある。この場合、復号時に明らかに知覚可能な不自然な雑音が発生することがある。
【0011】
一方、帯域分割されたステレオオーディオ信号を、符号化の歪み率に基づく混合率で混合し、符号化することが考えられている(例えば、特許文献3参照)。この場合、歪み率に基づいて連続的に符号化対象の左右のセパレーション(ステレオ感)が制御されるため、定位が不安定になったり異音が発生したりすることを防止することができる。
【0012】
図1は、このような符号化を行うオーディオ符号化装置の構成の一例を示すブロック図である。
【0013】
図1のオーディオ符号化装置10は、フィルタバンク11、フィルタバンク12、適応ミキシング部13、T/F変換部14、T/F変換部15、符号化制御部16、符号化部17、マルチプレクサ18、および歪み率検出部19により構成される。
【0014】
図1のオーディオ符号化装置10には、左のチャンネルの時間信号であるオーディオ信号xLと右のチャンネルの時間信号であるオーディオ信号xRが符号化対象のステレオオーディオ信号として入力される。
【0015】
オーディオ符号化装置10のフィルタバンク11は、符号化対象として入力されるオーディオ信号xLをB個の周波数帯域(バンド)のオーディオ信号に帯域分割する。フィルタバンク11は、分割されたバンド番号b(b=1,2,・・・,B)のサブバンド信号xbLを適応ミキシング部13に供給する。
【0016】
同様に、フィルタバンク12は、符号化対象として入力されるオーディオ信号xRをB個のバンドのオーディオ信号に帯域分割する。フィルタバンク11は、分割されたバンド番号b(b=1,2,・・・,B)のサブバンド信号xbRを適応ミキシング部13に供給する。
【0017】
適応ミキシング部13は、歪み率検出部19から供給される過去の符号化対象の符号化における歪み率に基づいて、フィルタバンク11から供給されるサブバンド信号xbLと、フィルタバンク12から供給されるサブバンド信号xbRの混合率を決定する。
【0018】
具体的には、適応ミキシング部13は、歪み率が大きい、即ちS/N比が悪いほど、混合率を大きくする。これにより、混合の結果得られるサブバンド信号の左右のセパレーション(ステレオ感)は小さくなり、符号化効率が高まる。一方、適応ミキシング部13は、歪み率が小さい、即ちS/N比が良いほど、混合率を小さくする。これにより、混合の結果得られるサブバンド信号の左右のセパレーション(ステレオ感)は大きくなる。
【0019】
適応ミキシング部13は、決定されたサブバンド信号xbLの混合率に基づいて、サブバンド信号xbLとサブバンド信号xbRをバンドごとに混合し、サブバンド信号xbLmixを生成する。同様に、適応ミキシング部13は、決定されたサブバンド信号xbRの混合率に基づいて、サブバンド信号xbLとサブバンド信号xbRをバンドごとに混合し、サブバンド信号xbRmixを生成する。適応ミキシング部13は、生成されたサブバンド信号xbLmixをT/F変換部14に供給し、サブバンド信号xbRmix をT/F変換部15に供給する。
【0020】
T/F変換部14は、サブバンド信号xbLmixに対してMDCT(Modified Discrete Cosine Transform)などの時間−周波数変換を行い、その結果得られる周波数スペクトルXLを符号化制御部16と符号化部17に供給する。
【0021】
同様に、T/F変換部15は、サブバンド信号xbRmixに対してMDCTなどの時間−周波数変換を行い、その結果得られる周波数スペクトルXRを符号化制御部16と符号化部17に供給する。
【0022】
符号化制御部16は、T/F変換部14から供給される周波数スペクトルXLと、T/F変換部15から供給される周波数スペクトルXRの相関に基づいて、デュアル符号化、M/Sステレオ符号化、またはインテンシティ符号化のいずれかの符号化方式を選択する。符号化制御部16は、選択された符号化方式を符号化部17に供給する。
【0023】
符号化部17は、T/F変換部14から供給される周波数スペクトルXLと、T/F変換部15から供給される周波数スペクトルXRを、それぞれ、符号化制御部16から供給される符号化方式で符号化する。符号化部17は、符号化の結果得られる符号化スペクトルと、符号化に関する付加情報を、マルチプレクサ18に供給する。
【0024】
マルチプレクサ18は、符号化部17から供給される符号化スペクトル、符号化に関する付加情報などを所定のフォーマットで多重化し、その結果得られる符号化データを出力する。
【0025】
歪み率検出部19は、符号化部17の符号化における歪み率を検出し、適応ミキシング部13に供給する。
【先行技術文献】
【特許文献】
【0026】
【特許文献1】特許第3421726号
【特許文献2】特許第3622982号
【特許文献3】特許第3951690号
【非特許文献】
【0027】
【非特許文献1】ISO/IEC 13818-7 Information technology "Generic coding of moving pictures and associated audio information Part 7",Advanced Audio Coding(AAC)
【発明の概要】
【発明が解決しようとする課題】
【0028】
しかしながら、図1のオーディオ符号化装置10では、過去の符号化対象の歪み率に基づいて混合率が決定されるので、混合率は、必ずしも、現在の符号化対象の特徴に適した混合率ではない。その結果、符号化による音質劣化が発生する場合がある。例えば、左用と右用のチャンネルのオーディオ信号が著しく異なる場合であっても、左用と右用のチャンネルの周波数スペクトルが十分に混合されず、復号時に雑音が発生する場合がある。
【0029】
本技術は、このような状況に鑑みてなされたものであり、ステレオオーディオ信号を高効率で符号化する場合に、符号化による音質劣化を防止することができることができるようにするものである。
【課題を解決するための手段】
【0030】
本技術の一側面のオーディオ符号化装置は、複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定部と、前記決定部により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合部と、前記混合部による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化部とを備えるオーディオ符号化装置である。
【0031】
本技術の一側面のオーディオ符号化方法およびプログラムは、本技術の一側面第1の側面のオーディオ符号化装置に対応する。
【0032】
本技術の一側面においては、複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率が決定され、前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルが混合され、混合後の前記複数のチャンネルの前記周波数スペクトルが符号化される。
【発明の効果】
【0033】
本技術の一側面によれば、複数のチャンネルのオーディオ信号を高効率で符号化する場合に、符号化による音質劣化を防止することができる。
【図面の簡単な説明】
【0034】
【図1】従来のオーディオ符号化装置の構成の一例を示すブロック図である。
【図2】本技術を適用したオーディオ符号化装置の一実施の形態の構成例を示すブロック図である。
【図3】図2の相関/エネルギー計算部におけるバンドを説明する図である。
【図4】図2の適応ミキシング部の構成例を示す図である。
【図5】混合率m1の例を示す図である。
【図6】混合率m2の例を示す図である。
【図7】混合率m3の例を示す図である。
【図8】図2の符号化部の構成例を示すブロック図である。
【図9】符号化処理を説明するフローチャートである。
【図10】図9の混合処理の詳細を説明するフローチャートである。
【図11】コンピュータの一実施の形態の構成例を示す図である。
【発明を実施するための形態】
【0035】
<一実施の形態>
[オーディオ符号化装置の一実施の形態の構成例]
図2は、本技術を適用したオーディオ符号化装置の一実施の形態の構成例を示すブロック図である。
【0036】
図2のオーディオ符号化装置30は、入力端子31および入力端子32、T/F変換部33およびT/F変換部34、相関/エネルギー計算部35、適応ミキシング部36、符号化部37、マルチプレクサ38、並びに出力端子39により構成される。オーディオ符号化装置30は、ステレオオーディオ信号の周波数スペクトルに基づく混合率で、その周波数スペクトルを混合し、インテンシティ・ステレオ符号化を行う。
【0037】
具体的には、オーディオ符号化装置30の入力端子31には、符号化対象のステレオオーディオ信号のうちの左用のチャンネルの時間信号であるオーディオ信号xLが入力され、T/F変換部33に供給される。また、入力端子32には、符号化対象のステレオオーディオ信号のうちの右のチャンネルの時間信号であるオーディオ信号xRが入力され、T/F変換部34に供給される。
【0038】
T/F変換部33は、入力端子31から供給されるオーディオ信号xLに対して、所定の変換フレームごとにMDCT変換等の時間‐周波数変換を施す。T/F変換部33は、その結果得られる周波数スペクトルXL(係数)を、相関/エネルギー計算部35と適応ミキシング部36に供給する。
【0039】
同様に、T/F変換部34は、入力端子32から供給されるオーディオ信号xRに対して、所定の変換フレームごとにMDCT変換等の時間‐周波数変換を施す。T/F変換部34は、その結果得られる周波数スペクトルXR(係数)を、相関/エネルギー計算部35と適応ミキシング部36に供給する。
【0040】
相関/エネルギー計算部35は、T/F変換部33から供給される周波数スペクトルXLと、T/F変換部34から供給される周波数スペクトルXRを、それぞれ、所定の周波数帯域(バンド)ごとに分割する。なお、各バンドには、周波数の低い方から順にバンド番号b(b=1,2,・・・,B)が付与されている。
【0041】
また、相関/エネルギー計算部35は、以下の式(1)により、バンドごとに、バンド番号bのバンドの周波数スペクトルXLのエネルギーEL(b)と周波数スペクトルXRのエネルギーER(b)を計算する。
【0042】
【数1】
【0043】
なお、式(1)において、XL(k)は、周波数インデックスkの周波数スペクトルXLを表し、XR(k)は、周波数インデックスkの周波数スペクトルXRを表す。また、Kb,Kb+1-1は、それぞれ、バンド番号bのバンドの周波数に対応する周波数インデックスの最小値、最大値を表す。これらのことは、後述する式(2)においても同様である。
【0044】
さらに、相関/エネルギー計算部35は、以下の式(2)により、エネルギーEL(b)とエネルギーER(b)を用いて、周波数スペクトルXLと周波数スペクトルXRの各バンドの相関corr(b)を計算する。
【0045】
【数2】
【0046】
この相関corr(b)は、周波数スペクトルXLおよび周波数スペクトルXRが相関/エネルギー計算部35に入力されるごと、即ち変換フレームごとに計算されるが、そのままでは変化が激しいため、相関/エネルギー計算部35は、相関corr(b)を時間平滑化する。具体的には、相関/エネルギー計算部35は、例えば、以下の式(3)により、現在の変換フレームの相関corr(b)と過去の所定数の変換フレームの相関corr(b)を指数加重平均し、平均相関ave_corr(b)を逐次的に計算する。
【0047】
ave_corr(b)=r×ave_corr(b)Old+(1-r)×corr(b) (0<r<1)
・・・(3)
【0048】
なお、式(3)において、ave_corr(b)Oldは、過去の所定数の変換フレームの指数加重平均である。
【0049】
相関/エネルギー計算部35は、以上のようにして計算された平均相関ave_corr(b)、エネルギーEL(b)、およびエネルギーER(b)を、適応ミキシング部36に供給する。
【0050】
適応ミキシング部36は、相関/エネルギー計算部35から供給される平均相関ave_corr(b)、エネルギーEL(b)、およびエネルギーER(b)に基づいて、バンドごとに混合率を計算する。なお、混合率とは、混合後の左用のチャンネルの周波数スペクトルXLmix(右用のチャンネルの周波数スペクトルXRmix)における右用のチャンネルの周波数スペクトルXR(左用のチャンネルの周波数スペクトルXL)の割合である。
【0051】
適応ミキシング部36は、各バンドの混合率に基づいて、バンドおよびチャンネルごとに、T/F変換部33から供給される周波数スペクトルXLと、T/F変換部34から供給される周波数スペクトルXRを混合する。適応ミキシング部36は、混合の結果得られる左用のチャンネルの周波数スペクトルXLmixと、右用のチャンネルの周波数スペクトルXRmixを符号化部37に供給する。
【0052】
符号化部37は、適応ミキシング部36から供給される周波数スペクトルXLmixと周波数スペクトルXRmixをインテンシティ・ステレオ符号化する。符号化部37は、符号化の結果得られる符号化スペクトルと符号化に関する付加情報を、マルチプレクサ38に供給する。
【0053】
マルチプレクサ38は、符号化部37から供給される符号化スペクトル、符号化に関する付加情報などを所定のフォーマットで多重化し、その結果得られる符号化データを、出力端子39を介して出力する。
【0054】
なお、オーディオ符号化装置30では、相関corr(b)が時間平滑化されたが、上述した式(3)のrを0にし、時間平滑化されないようにしてもよい。また、エネルギーEL(b)とエネルギーER(b)も、相関corr(b)と同様に時間平滑化されるようにしてもよい。
【0055】
また、オーディオ符号化装置30では、符号化部37がインテンシティ・ステレオ符号化を行うが、インテンシティ・ステレオ符号化以外のM/Sステレオ符号化等の高効率の符号化を行うようにしてもよい。
【0056】
[バンドの説明]
図3は、図2の相関/エネルギー計算部35におけるバンドを説明する図である。
【0057】
図3に示すように、各バンドは、所定の周波数の帯域である。例えば、図3では、バンド番号bのバンドは、周波数インデックスKbに対応する周波数以上周波数インデックスKb+1に対応する周波数未満の帯域である。
【0058】
また、図3の例では、インテンシティ・ステレオ符号化において、左用と右用の周波数スペクトルがそのまま符号化結果とならないバンドのうちの下限のバンド(以下、開始バンドという)のバンド番号がisbである。さらに、バンド番号isbのバンドの周波数インデックスの最小値がKisbであり、周波数インデックスKisbの周波数がFISである。
【0059】
なお、相関/エネルギー計算部35におけるバンドは、聴覚の臨界帯域幅(クリティカルバンド)に合わせて高域ほどバンドの範囲が広くなるように分割されることが望ましい。また、バンドの範囲は、符号化部37における量子化や符号化の処理単位である量子化ユニットの範囲と同一であってもよいし、異なっていてもよい。また、FIS以上の周波数は、バンドに分割されず、まとめて1バンドとされるようにしてもよい。
【0060】
[適応ミキシング部の構成例]
図4は、図2の適応ミキシング部36の構成例を示す図である。
【0061】
図4の適応ミキシング部36は、決定部51、乗算部52、乗算部53、加算部54、乗算部55、乗算部56、および加算部57により構成される。
【0062】
決定部51は、図2の相関/エネルギー計算部35から供給される各バンドのエネルギーEL(b)、エネルギーER(b)、および平均相関ave_corr(b)を用いて、そのバンドの混合率m(b)を計算する。決定部51は、計算された混合率m(b)を乗算部52、乗算部53、乗算部55、および乗算部56に供給する。
【0063】
乗算部52、乗算部53、および加算部54は、左用のチャンネルの混合部として機能し、乗算部55、乗算部56、および加算部57は、右用のチャンネルの混合部として機能する。
【0064】
具体的には、乗算部52、乗算部53、および加算部54は、以下の式(4)により、混合率m(b)に基づいて混合を行い、混合後の周波数スペクトルXLmixを生成する。また、乗算部55、乗算部56、および加算部57は、以下の式(4)により、混合率m(b)に基づいて混合を行い、混合後の周波数スペクトルXRmixを生成する。
【0065】
XLmix(k)=(1-m(b))×XL(k)+m(b)×XR(k)
XRmix(k)=m(b)×XL(k)+(1-m(b))×XR(k)
・・・(4)
【0066】
なお、式(4)において、周波数インデックスkは、バンド番号bのバンドに含まれる周波数の周波数インデックスである。また、式(4)において、XLmix(k),XRmix(k)は、それぞれ、周波数インデックスkの周波数スペクトルXLmix、周波数スペクトルXRmixである。さらに、XL(k),XR(k)は、周波数インデックスkの周波数スペクトルXL、周波数スペクトルXRである。
【0067】
より詳細には、乗算部52は、バンドごとに、図2のT/F変換部33から供給される周波数スペクトルXLと決定部51から供給される混合率m(b)を1から減算した値とを乗算し、その結果得られる周波数スペクトルを加算部54に供給する。
【0068】
また、乗算部53は、バンドごとに、図2のT/F変換部34から供給される周波数スペクトルXRと決定部51から供給される混合率m(b)を乗算し、その結果得られる周波数スペクトルを加算部54に供給する。
【0069】
加算部54は、バンドごとに、乗算部52から供給される周波数スペクトルと、乗算部53から供給される周波数スペクトルとを加算する。加算部54は、加算の結果得られる周波数スペクトルを混合後の周波数スペクトルXLmixとして、図2の符号化部37に供給する。
【0070】
また、乗算部55は、バンドごとに、T/F変換部33から供給される周波数スペクトルXL(b)と決定部51から供給される混合率m(b)とを乗算し、その結果得られる周波数スペクトルを加算部57に供給する。
【0071】
乗算部56は、バンドごとに、T/F変換部34から供給される周波数スペクトルXR(b)と決定部51から供給される混合率m(b)を1から減算した値とを乗算し、その結果得られる周波数スペクトルを加算部57に供給する。
【0072】
加算部57は、バンドごとに、乗算部55から供給される周波数スペクトルと、乗算部56から供給される周波数スペクトルとを加算する。加算部57は、加算の結果得られる周波数スペクトルを混合後の周波数スペクトルXRmixとして、符号化部37に供給する。
【0073】
[混合率の計算方法の説明]
図5乃至図7は、図4の決定部51における混合率の計算方法を説明する図である。
【0074】
決定部51は、バンドごとに、平均相関ave_corr(b)に基づいて、例えば、図5に示す混合率m1(ave_corr(b))を決定する。なお、図5において、横軸は、平均相関ave_corr(b)を表し、縦軸は混合率m1(ave_corr(b))を表している。
【0075】
平均相関ave_corr(b)が0付近である場合、周波数スペクトルXLと周波数スペクトルXRが異なっているため、左用と右用のチャンネルの符号化対象の違いによって生じる復号時の雑音を防止する必要がある。一方、平均相関ave_corr(b)が1に近い場合、周波数スペクトルXLと周波数スペクトルXRが類似しているため、符号化による復号時の雑音が生じにくい。従って、図5の例では、混合率m1(ave_corr(b))は、平均相関ave_corr(b)が0に近いほど大きく、平均相関ave_corr(b)が1に近いほど小さくなっている。また、平均相関ave_corr(b)が0である場合、混合率m1(ave_corr(b))は、最大値である0.5となっている。
【0076】
一方、平均相関ave_corr(b)が負の値である場合、平均相関ave_corr(b)が正の値である場合と同様に、平均相関ave_corr(b)が0に近いほど大きく、平均相関ave_corr(b)が-1に近いほど小さくなる。但し、この場合、混合によりエネルギーが減衰するため、混合率m1(ave_corr(b))は、平均相関ave_corr(b)が正の値である場合に比べて小さくなっている。また、平均相関ave_corr(b)が、-1より大きい所定の負の閾値T(例えば、-0.6程度)よりも小さい場合、混合率m1(ave_corr(b))は0となっている。
【0077】
なお、混合率m1(ave_corr(b))は、以下の式(5)のように決定されるようにしてもよい。
【0078】
ave_corr(b)≦C1である場合、m1(ave_corr(b))=0
C1<ave_corr(b)≦C2である場合、m1(ave_corr(b))=0.5×(ave_corr(b)−C1)/(C2−C1)
ave_corr(b)>C2である場合、m1(ave_corr(b))=0.5×(ave_corr(b)−1)/(C2−1)
・・・(5)
【0079】
式(5)において、C1およびC2は所定の閾値である。例えば、C1は−0.6であり、C2は0であるようにすることができる。
【0080】
また、決定部51は、バンドごとに、エネルギーEL(b)およびER(b)に基づいて、例えば、図6に示す混合率m2(LR_ratio(b))を決定する。
【0081】
なお、図6において、横軸は、エネルギーEL(b)およびER(b)に基づいて以下の式(6)で定義される左用と右用のチャンネルの周波数スペクトルのレベル比LR_ratio(b)[dB]を表し、縦軸は混合率m2(LR_ratio(b))を表す。
【0082】
LR_ratio(b)=10log10(EL/ER)
・・・(6)
【0083】
図6の例では、レベル比LR_ratioの絶対値が大きいほど、即ち周波数スペクトルXLと周波数スペクトルXRのレベルが異なっているほど、音漏れ(詳細は後述する)を防止するために混合率m2(LR_ratio(b))は小さくされる。そして、レベル比LR_ratioの絶対値が所定の閾値R(30dB程度)以上である場合、混合率m2(LR_ratio(b))は0とされる。
【0084】
但し、左用と右用のチャンネルの少なくとも一方の音が無音に近い場合、即ち、周波数スペクトルXLと周波数スペクトルXRの少なくとも一方のレベルが所定の閾値より小さい場合には、音漏れが知覚されやすいため、レベル比LR_ratioに関わらず混合率m2(LR_ratio(b))は0とされる。
【0085】
音漏れとは、レベルが大きく異なるオーディオ信号の周波数スペクトルを混合することにより発生する、レベルの大きい周波数スペクトルからレベルの小さい周波数スペクトルへのレベルの移動である。
【0086】
さらに、決定部51は、バンドの周波数に基づいて、例えば、図7に示す混合率m3(b)を決定する。なお、図7において、横軸は、バンド番号bを表し、縦軸は、混合率m3(b)を表す。
【0087】
開始バンドであるバンド番号isbのバンドから急激に混合が行われると、不連続性により雑音が発生することがあるため、図7の例では、バンド番号isbより少し前のバンド番号のバンドから徐々に混合率m3(b)が最大値である0.5まで増加する。また、より高域(例えば13kHz以上の周波数)では、復号時の雑音が知覚されにくいため、周波数スペクトルXLと周波数スペクトルXRが異なっていても、ステレオ感を保持するために混合率m3(b)を0.5より少し小さくする。
【0088】
決定部51は、以上のようにして求められた混合率m1(ave_corr(b)),m2(LR_ratio(b))、およびm3(b)を用いて、以下の式(7)により、バンドbの最終的な混合率m(b)を決定する。
【0089】
m(b)=4×m1(ave_corr(b))×m2(LR_ratio(b))×m3(b)
・・・(7)
【0090】
なお、混合率m(b)は、混合率m1(ave_corr(b)),m2(LR_ratio(b))、およびm3(b)の積ではなく、以下の式(8)のように混合率m1(ave_corr(b)),m2(LR_ratio(b))、およびm3(b)の線形和であってもよい。
【0091】
m(b)=w1×m1(ave_corr(b))+w2×m2(LR_ratio(b))+w3×m3(b)
但し、w1+w2+w3=1
・・・(8)
【0092】
また、混合率m(b)は、必ずしも、混合率m1(ave_corr(b)),m2(LR_ratio(b))、およびm3(b)の全てを用いて決定される必要はなく、混合率m1(ave_corr(b)),m2(LR_ratio(b))、およびm3(b)の少なくとも1つを用いて決定されればよい。
【0093】
[符号化部の構成例]
図8は、図2の符号化部37の構成例を示すブロック図である。
【0094】
図8の符号化部37は、乗算部71、演算部72、レベル補正部73、加算部74、正規化部75、量子化部76、加算部77、正規化部78、および量子化部79により構成される。
【0095】
図2の適応ミキシング部36から供給される周波数スペクトルXLmixおよびXRmixのうちの、開始バンドの最小の周波数FISの周波数インデックスKisb未満の周波数インデックスの周波数スペクトルXLmixは、加算部74に供給され、周波数スペクトルXRmixは、加算部77に供給される。
【0096】
一方、適応ミキシング部36から供給される周波数スペクトルXLmixおよびXRmixのうちの、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXLmixは、演算部72、レベル補正部73、および加算部74に供給され、周波数スペクトルXRmixは、乗算部71、レベル補正部73、および加算部77に供給される。
【0097】
乗算部71と演算部72は、以下の式(9)により、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXLmixと周波数スペクトルXRmixに共通の共通スペクトルXMを生成する。
【0098】
XM(k)=0.5×{XLmix(k)+sign×XRmix(k)}(k≧Kisb)
・・・(9)
【0099】
なお、式(9)において、XM(k),XLmix(k),XRmix(k)は、それぞれ、周波数インデックスkの共通スペクトルXM、周波数スペクトルXLmix、周波数スペクトルXRmixを表す。また、signは、各量子化ユニットにおける周波数スペクトルXRmixの位相極性であり、+1または‐1である。例えば、量子化ユニット内の周波数スペクトルXLmixとXRmixの相関が正の値である場合、位相極性signは+1であり、負の値である場合、位相極性signは‐1である。
【0100】
より詳細には、乗算部71は、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXRmixに対して位相極性signを乗算し、その結果得られる周波数スペクトルを演算部72に供給する。
【0101】
演算部72は、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXLmixと乗算部71から供給される周波数スペクトルを加算し、その結果得られる周波数スペクトルに0.5を乗算して、共通スペクトルXMを生成する。演算部72は、生成された共通スペクトルXMをレベル補正部73に供給する。
【0102】
レベル補正部73は、量子化ユニットごとに、演算部72から供給される共通スペクトルXMのエネルギーが、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXLmixの、その量子化ユニットにおけるエネルギーと一致するように、共通スペクトルXMのレベルを補正する。同様に、レベル補正部73は、共通スペクトルXMのエネルギーが、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXRmixの、その量子化ユニットにおけるエネルギーと一致するように、共通スペクトルXMのレベルを補正する。
【0103】
具体的には、レベル補正部73は、まず、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXLmixおよびXRmixの量子化ユニットqごとのエネルギーEL(q)およびER(q)、並びに、共通スペクトルXMのエネルギーEM(q)を計算する。そして、レベル補正部73は、量子化ユニットqごとに、エネルギーEL(q)またはER(q)、およびエネルギーEM(q)を用いて、以下の式(10)により、共通スペクトルXMのレベルを補正する。
【0104】
【数3】
【0105】
なお、式(10)において、XM(k),XLIS(k),XRIS(k)は、それぞれ、周波数インデックスkの共通スペクトルXM、レベル補正後の共通スペクトルXLIS,レベル補正後の共通スペクトルXRISを表す。
【0106】
レベル補正部73は、レベル補正後の共通スペクトルXLISを加算部74に供給し、レベル補正後の共通スペクトルXRISを加算部77に供給する。
【0107】
加算部74は、周波数インデックスKisb未満の周波数インデックスの周波数スペクトルXLmixとレベル補正部73から供給される共通スペクトルXLISとを加算し、その結果得られる全周波数インデックスの周波数スペクトルを正規化部75に供給する。
【0108】
正規化部75は、加算部74から供給される周波数スペクトルを、所定の周波数帯域幅の量子化ユニットごとに、周波数スペクトルの振幅に応じた正規化係数(スケールファクタ)SFLを用いて正規化する。正規化部75は、正規化の結果得られる周波数スペクトルXLNormを量子化部76に供給し、正規化係数SFLを符号化に関する付加情報として図2のマルチプレクサ38に供給する。
【0109】
量子化部76は、正規化部75から供給される周波数スペクトルXLNormを所定のビット数で量子化し、量子化後の周波数スペクトルXLNormを左用のチャンネルの符号化スペクトルとしてマルチプレクサ38に供給する。これにより、左用のチャンネルの符号化スペクトルとしてマルチプレクサ38に供給される符号化スペクトルの周波数インデックスkは、全周波数インデックス(0,1,・・・,Kisb,・・・,K)となる。
【0110】
また、加算部77は、周波数インデックスKisb未満の周波数インデックスの周波数スペクトルXRmixとレベル補正部73から供給される共通スペクトルXRISとを加算し、その結果得られる全周波数インデックスの周波数スペクトルを正規化部78に供給する。
【0111】
正規化部78は、加算部77から供給される周波数スペクトルを、量子化ユニットごとに、周波数スペクトルの振幅に応じた正規化係数SFRを用いて正規化する。正規化部75は、正規化の結果得られる周波数スペクトルXRNormを量子化部79に供給し、正規化係数SFRを符号化に関する付加情報としてマルチプレクサ38に供給する。
【0112】
量子化部79は、正規化部78から供給される周波数スペクトルXRNormのうちの、周波数インデックスKisb未満の周波数インデックスの周波数スペクトルXRNormを所定のビット数で量子化する。量子化部79は、量子化後の周波数スペクトルXRNormを右用のチャンネルの符号化スペクトルとしてマルチプレクサ38に供給する。これにより、マルチプレクサ38に供給される右用のチャンネルの符号化スペクトルの周波数インデックスkは、全周波数インデックスのうちの周波数インデックスKisb未満の周波数インデックス(0,1,・・・,Kisb-1)となる。
【0113】
なお、図8の符号化部37では、左用のチャンネルの符号化スペクトルの周波数インデックスkが全周波数インデックスであり、右用のチャンネルの符号化スペクトルの周波数インデックスkがKisb未満であるようにしたが、左用のチャンネルと右用のチャンネルの周波数インデックスkが逆になるようにしてもよい。即ち、右用のチャンネルの符号化スペクトルの周波数インデックスkが全周波数インデックスであり、左用のチャンネルの符号化スペクトルの周波数インデックスkがKisb未満であるようにしてもよい。
【0114】
[オーディオ符号化装置の処理の説明]
図9は、図2のオーディオ符号化装置30の符号化処理を説明するフローチャートである。この符号化処理は、入力端子31にオーディオ信号xLが入力され、入力端子32にオーディオ信号xRが入力されたとき、開始される。
【0115】
図9のステップS11において、T/F変換部33は、入力端子31から供給される左用のチャンネルのオーディオ信号xLに対して、所定の変換フレームごとに時間‐周波数変換を施す。T/F変換部33は、その結果得られる周波数スペクトルXLを、相関/エネルギー計算部35と適応ミキシング部36に供給する。
【0116】
ステップS12において、T/F変換部34は、入力端子32から供給される右用のチャンネルのオーディオ信号xRに対して、所定の変換フレームごとに時間‐周波数変換を施す。T/F変換部34は、その結果得られる周波数スペクトルXRを、相関/エネルギー計算部35と適応ミキシング部36に供給する。
【0117】
ステップS13において、相関/エネルギー計算部35は、T/F変換部33から供給される周波数スペクトルXLと、T/F変換部34から供給される周波数スペクトルXRを、それぞれ、バンドごとに分割する。
【0118】
ステップS14において、相関/エネルギー計算部35は、上述した式(1)により、バンドごとに、エネルギーEL(b)とエネルギーER(b)を計算し、適応ミキシング部36に供給する。
【0119】
ステップS15において、相関/エネルギー計算部35は、上述した式(2)により、エネルギーEL(b)とエネルギーER(b)を用いて、各バンドの相関corr(b)を計算し、保持する。そして、相関/エネルギー計算部35は、上述した式(3)により、現在の変換フレームの相関corr(b)と過去の所定数の変換フレームの相関corr(b)を指数加重平均して、平均相関ave_corr(b)を逐次的に計算し、適応ミキシング部36に供給する。
【0120】
ステップS16において、適応ミキシング部36は、平均相関ave_corr(b)、エネルギーEL(b)、およびエネルギーER(b)に基づいて、バンドおよびチャンネルごとに、周波数スペクトルXLと周波数スペクトルXRを混合する混合処理を行う。この混合処理の詳細は、後述する図10を参照して説明する。
【0121】
ステップS17において、符号化部37は、適応ミキシング部36から供給される周波数スペクトルXLmixと周波数スペクトルXRmixをインテンシティ・ステレオ符号化し、その結果得られる符号化スペクトルをマルチプレクサ38に供給する。
【0122】
ステップS18において、マルチプレクサ38は、符号化部37から供給される符号化スペクトル、符号化に関する付加情報などを所定のフォーマットで多重化し、その結果得られる符号化データを、出力端子39を介して出力する。そして、処理は終了する。
【0123】
図10は、図9のステップS16の混合処理の詳細を説明するフローチャートである。
【0124】
図10のステップS31において、適応ミキシング部36の決定部51(図4)は、相関/エネルギー計算部35から供給される平均相関ave_corr(b)に基づいて、バンドごとに、図5に示したような混合率m1(ave_corr(b))を決定する。
【0125】
ステップS32において、決定部51は、相関/エネルギー計算部35から供給されるエネルギーEL(b)とエネルギーER(b)に基づいて、バンドごとに、図6に示したような混合率m2(LR_ratio(b))を決定する。
【0126】
ステップS33において、決定部51は、各バンドの周波数に基づいて、バンドごとに、図7に示したような混合率m3(b)を決定する。
【0127】
ステップS34において、決定部51は、混合率m1(ave_corr(b))、混合率m2(LR_ratio(b))、および混合率m3(b)に基づいて、バンドごとに、上述した式(7)や式(8)により、混合率m(b)を決定する。決定部51は、計算された混合率m(b)を乗算部52、乗算部53、乗算部55、および乗算部56に供給する。
【0128】
ステップS35において、乗算部52は、バンドごとに、図2のT/F変換部33から供給される周波数スペクトルXLと決定部51から供給される混合率m(b)を1から減算した値とを乗算し、その結果得られる周波数スペクトルを加算部54に供給する。また、乗算部56は、バンドごとに、図2のT/F変換部34から供給される周波数スペクトルXRと決定部51から供給される混合率m(b)を1から減算した値とを乗算し、その結果得られる周波数スペクトルを加算部57に供給する。
【0129】
ステップS36において、乗算部53は、バンドごとに、T/F変換部34から供給される周波数スペクトルXRと決定部51から供給される混合率m(b)を乗算し、その結果得られる周波数スペクトルを加算部54に供給する。また、乗算部55は、バンドごとに、T/F変換部33から供給される周波数スペクトルXLと決定部51から供給される混合率m(b)とを乗算し、その結果得られる周波数スペクトルを加算部57に供給する。
【0130】
ステップS37において、加算部54は、バンドごとに、乗算部52から供給される周波数スペクトルと、乗算部53から供給される周波数スペクトルとを加算する。加算部54は、その結果得られる周波数スペクトルを混合後の周波数スペクトルXLmixとして、図2の符号化部37に供給する。また、加算部57は、バンドごとに、乗算部55から供給される周波数スペクトルと、乗算部56から供給される周波数スペクトルとを加算する。加算部57は、その結果得られる周波数スペクトルを混合後の周波数スペクトルXRmixとして、符号化部37に供給する。そして、処理は、図9のステップS16に戻り、ステップS17に進む。
【0131】
以上のように、オーディオ符号化装置30は、符号化対象のステレオオーディオ信号の周波数スペクトルXLおよびXRに基づいて混合率m(b)を決定するので、混合率m(b)が符号化対象のステレオオーディオ信号の特徴に適したものとなる。その結果、符号化による雑音の発生や音漏れなどの音質劣化を防止することができる。
【0132】
また、オーディオ符号化装置30は、オーディオ信号xL,xRではなく、周波数スペクトルXL,XRをバンドごとに混合するので、図1のオーディオ符号化装置10のように、帯域分割のためのフィルタバンク11および12を設ける必要がない。また、符号化処理における演算量とメモリ使用量を削減することができる。
【0133】
[本技術を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0134】
そこで、図11は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0135】
プログラムは、コンピュータに内蔵されている記録媒体としての記憶部208やROM(Read Only Memory)202に予め記録しておくことができる。
【0136】
あるいはまた、プログラムは、リムーバブルメディア211に格納(記録)しておくことができる。このようなリムーバブルメディア211は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブルメディア211としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
【0137】
なお、プログラムは、上述したようなリムーバブルメディア211からドライブ210を介してコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵する記憶部208にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
【0138】
コンピュータは、CPU(Central Processing Unit)201を内蔵しており、CPU201には、バス204を介して、入出力インタフェース205が接続されている。
【0139】
CPU201は、入出力インタフェース205を介して、ユーザによって、入力部206が操作等されることにより指令が入力されると、それに従って、ROM202に格納されているプログラムを実行する。あるいは、CPU201は、記憶部208に格納されたプログラムを、RAM(Random Access Memory)203にロードして実行する。
【0140】
これにより、CPU201は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU201は、その処理結果を、必要に応じて、例えば、入出力インタフェース205を介して、出力部207から出力、あるいは、通信部209から送信、さらには、記憶部208に記録等させる。
【0141】
なお、入力部206は、キーボードや、マウス、マイク等で構成される。また、出力部207は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
【0142】
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
【0143】
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0144】
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0145】
なお、本技術は、以下のような構成もとることができる。
【0146】
(1)
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定部と、
前記決定部により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合部と、
前記混合部による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化部と
を備えるオーディオ符号化装置。
(2)
前記決定部は、前記複数のチャンネルの前記周波数スペクトルの相関に基づいて前記混合率を決定する
前記(1)に記載のオーディオ符号化装置。
(3)
前記決定部は、前記相関が0に近いほど前記混合率が大きくなり、前記相関が−1に近いほど前記混合率が小さくなるように、前記混合率を決定する
前記(2)に記載のオーディオ符号化装置。
(4)
前記決定部は、前記相関が−1より大きい所定の負の閾値より小さい場合、前記混合率を0に決定する
前記(2)または(3)に記載のオーディオ符号化装置。
(5)
前記決定部は、前記複数のチャンネルの前記周波数スペクトルのレベル比に基づいて前記混合率を決定する
前記(1)乃至(4)のいずれかに記載のオーディオ符号化装置。
(6)
前記決定部は、前記レベル比が大きいほど前記混合率が小さくなるように、前記混合率を決定する
前記(5)に記載のオーディオ符号化装置。
(7)
前記決定部は、前記複数のチャンネルのうちの少なくとも1つのチャンネルの前記周波数スペクトルのレベルが所定の閾値より小さい場合、前記混合率を0に決定し、前記複数のチャンネルの前記周波数スペクトルのレベルが全て前記所定の閾値以上である場合、前記レベル比に基づいて前記混合率を決定する
前記(5)または(6)に記載のオーディオ符号化装置。
(8)
前記決定部は、前記複数のチャンネルの前記周波数スペクトルのエネルギー比に基づいて前記混合率を決定する
前記(5)に記載のオーディオ符号化装置。
(9)
前記決定部は、前記複数のチャンネルの前記周波数スペクトルをそれぞれ所定の周波数帯域ごとに分割し、前記周波数帯域ごとの前記複数のチャンネルの前記周波数スペクトルに基づいて、前記周波数帯域ごとの前記混合率を決定し、
前記混合部は、前記決定部により決定された前記周波数帯域ごとの前記混合率に基づいて、前記チャンネルおよび前記周波数帯域ごとに、前記複数のチャンネルの前記周波数スペクトルを混合する
前記(1)乃至(8)のいずれかに記載のオーディオ符号化装置。
(10)
前記決定部は、前記周波数帯域ごとの前記周波数スペクトルと前記周波数帯域の周波数に基づいて、前記周波数帯域ごとの前記混合率を決定する
前記(9)に記載のオーディオ符号化装置。
(11)
前記符号化部は、前記混合部による混合後の前記複数のチャンネルの前記周波数スペクトルをインテンシティ・ステレオ符号化する
前記(1)乃至(10)のいずれかに記載のオーディオ符号化装置。
(12)
オーディオ符号化装置が、
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定ステップと、
前記決定ステップの処理により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合ステップと、
前記混合ステップの処理による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化ステップと
を含むオーディオ符号化方法。
(13)
コンピュータに、
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定ステップと、
前記決定ステップの処理により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合ステップと、
前記混合ステップの処理による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化ステップと
を含む処理を実行させるためのプログラム。
【符号の説明】
【0147】
30 オーディオ符号化装置, 37 符号化部, 51 決定部, 52,53 乗算部, 54 加算部, 55,56 乗算部, 57 加算部
【技術分野】
【0001】
本技術は、オーディオ符号化装置、オーディオ符号化方法、およびプログラムに関し、特に、複数のチャンネルのオーディオ信号を高効率で符号化する場合に、符号化による音質劣化を防止することができるようにしたオーディオ符号化装置、オーディオ符号化方法、およびプログラムに関する。
【背景技術】
【0002】
複数のチャンネルのオーディオ信号からなるステレオオーディオ信号の符号化としては、チャンネル間の関係を利用することで符号化効率を高めるM/Sステレオ符号化やインテンシティ・ステレオ符号化などがある。なお、以下では、説明の便宜上、ステレオオーディオ信号のチャンネル数は、左用のチャンネルと右用のチャンネルの2つであるものとするが、3以上であっても同様である。
【0003】
M/Sステレオ符号化では、ステレオオーディオ信号を構成する左用と右用のチャンネルのオーディオ信号の和と差の成分が符号化結果とされる。従って、左用と右用のチャンネルのオーディオ信号が類似している場合、差の成分が小さいため、符号化効率が高まる。しかしながら、左用と右用のチャンネルのオーディオ信号が大きく異なる場合、差の成分が大きいため、符号化効率を高めることができない。その結果、符号化後の量子化において量子化ノイズが発生し、復号時に不自然な雑音が発生する場合がある。
【0004】
インテンシティ・ステレオ符号化では、人間の聴覚が高域では位相に鈍感で主に周波数スペクトルのレベル比によって定位を知覚するという原理に基づいて符号化が行われる(例えば、非特許文献1参照)。具体的には、インテンシティ・ステレオ符号化では、所定の周波数FISより低い周波数については、左用と右用のチャンネルの周波数スペクトルが、そのまま符号化結果とされる。一方、所定の周波数FIS以上の周波数については、左用と右用のチャンネルの周波数スペクトルを混合した共通スペクトルと各チャンネルの周波数スペクトルのレベルが符号化結果とされる。
【0005】
従って、復号時には、周波数FISより低い周波数については、符号化結果である左用と右用のチャンネルの周波数スペクトルがそのまま復号結果とされる。一方、周波数FIS以上の周波数については、符号化結果である共通スペクトルに各チャンネルの周波数スペクトルのレベルが適用され、復号結果とされる。
【0006】
このようなインテンシティ・ステレオ符号化においても、M/Sステレオ符号化と同様に、左用と右用のチャンネルのオーディオ信号が類似していることが前提となっている。従って、左用と右用のチャンネルのオーディオ信号が全く異なる場合、例えば、左用のチャンネルのオーディオ信号がシンバルのオーディオ信号であり、右用のチャンネルのオーディオ信号がトランペットのオーディオ信号である場合、共通スペクトルが、左用と右用のチャンネルの周波数スペクトルと異なるものとなるため、復号時に不自然な雑音が発生する場合がある。
【0007】
そこで、左用と右用のチャンネルのオーディオ信号の周波数スペクトルの間隔の尺度を求め、この尺度が閾値以下である場合M/Sステレオ符号化等の共通符号化を行い、閾値以上である場合個別符号化を行うことが考案されている(例えば、特許文献1参照)。
【0008】
また、ステレオオーディオ信号の周波数スペクトルを所定の周波数帯域ごとに分割し、その周波数帯域ごとにインテンシティ・ステレオ符号化が適用されたかの指標を特定のハフマンコードブック番号を用いて伝送することが考案されている(例えば、特許文献2参照)。これにより、所定の周波数帯域ごとにインテンシティ・ステレオ符号化のオン/オフを切り替えることが可能である。
【0009】
しかしながら、特許文献1および2の発明において、共通符号化またはインテンシティ・ステレオ符号化のオン/オフが頻繁に切り替えられると、定位が不安定になったり異音が発生したりする場合がある。
【0010】
また、符号化において高い圧縮率が求められる場合には、たとえ左用と右用のチャンネルのオーディオ信号が著しく異なる場合であっても、符号化効率を高めるためにインテンシティ・ステレオ符号化を用いざるを得ない場合がある。この場合、復号時に明らかに知覚可能な不自然な雑音が発生することがある。
【0011】
一方、帯域分割されたステレオオーディオ信号を、符号化の歪み率に基づく混合率で混合し、符号化することが考えられている(例えば、特許文献3参照)。この場合、歪み率に基づいて連続的に符号化対象の左右のセパレーション(ステレオ感)が制御されるため、定位が不安定になったり異音が発生したりすることを防止することができる。
【0012】
図1は、このような符号化を行うオーディオ符号化装置の構成の一例を示すブロック図である。
【0013】
図1のオーディオ符号化装置10は、フィルタバンク11、フィルタバンク12、適応ミキシング部13、T/F変換部14、T/F変換部15、符号化制御部16、符号化部17、マルチプレクサ18、および歪み率検出部19により構成される。
【0014】
図1のオーディオ符号化装置10には、左のチャンネルの時間信号であるオーディオ信号xLと右のチャンネルの時間信号であるオーディオ信号xRが符号化対象のステレオオーディオ信号として入力される。
【0015】
オーディオ符号化装置10のフィルタバンク11は、符号化対象として入力されるオーディオ信号xLをB個の周波数帯域(バンド)のオーディオ信号に帯域分割する。フィルタバンク11は、分割されたバンド番号b(b=1,2,・・・,B)のサブバンド信号xbLを適応ミキシング部13に供給する。
【0016】
同様に、フィルタバンク12は、符号化対象として入力されるオーディオ信号xRをB個のバンドのオーディオ信号に帯域分割する。フィルタバンク11は、分割されたバンド番号b(b=1,2,・・・,B)のサブバンド信号xbRを適応ミキシング部13に供給する。
【0017】
適応ミキシング部13は、歪み率検出部19から供給される過去の符号化対象の符号化における歪み率に基づいて、フィルタバンク11から供給されるサブバンド信号xbLと、フィルタバンク12から供給されるサブバンド信号xbRの混合率を決定する。
【0018】
具体的には、適応ミキシング部13は、歪み率が大きい、即ちS/N比が悪いほど、混合率を大きくする。これにより、混合の結果得られるサブバンド信号の左右のセパレーション(ステレオ感)は小さくなり、符号化効率が高まる。一方、適応ミキシング部13は、歪み率が小さい、即ちS/N比が良いほど、混合率を小さくする。これにより、混合の結果得られるサブバンド信号の左右のセパレーション(ステレオ感)は大きくなる。
【0019】
適応ミキシング部13は、決定されたサブバンド信号xbLの混合率に基づいて、サブバンド信号xbLとサブバンド信号xbRをバンドごとに混合し、サブバンド信号xbLmixを生成する。同様に、適応ミキシング部13は、決定されたサブバンド信号xbRの混合率に基づいて、サブバンド信号xbLとサブバンド信号xbRをバンドごとに混合し、サブバンド信号xbRmixを生成する。適応ミキシング部13は、生成されたサブバンド信号xbLmixをT/F変換部14に供給し、サブバンド信号xbRmix をT/F変換部15に供給する。
【0020】
T/F変換部14は、サブバンド信号xbLmixに対してMDCT(Modified Discrete Cosine Transform)などの時間−周波数変換を行い、その結果得られる周波数スペクトルXLを符号化制御部16と符号化部17に供給する。
【0021】
同様に、T/F変換部15は、サブバンド信号xbRmixに対してMDCTなどの時間−周波数変換を行い、その結果得られる周波数スペクトルXRを符号化制御部16と符号化部17に供給する。
【0022】
符号化制御部16は、T/F変換部14から供給される周波数スペクトルXLと、T/F変換部15から供給される周波数スペクトルXRの相関に基づいて、デュアル符号化、M/Sステレオ符号化、またはインテンシティ符号化のいずれかの符号化方式を選択する。符号化制御部16は、選択された符号化方式を符号化部17に供給する。
【0023】
符号化部17は、T/F変換部14から供給される周波数スペクトルXLと、T/F変換部15から供給される周波数スペクトルXRを、それぞれ、符号化制御部16から供給される符号化方式で符号化する。符号化部17は、符号化の結果得られる符号化スペクトルと、符号化に関する付加情報を、マルチプレクサ18に供給する。
【0024】
マルチプレクサ18は、符号化部17から供給される符号化スペクトル、符号化に関する付加情報などを所定のフォーマットで多重化し、その結果得られる符号化データを出力する。
【0025】
歪み率検出部19は、符号化部17の符号化における歪み率を検出し、適応ミキシング部13に供給する。
【先行技術文献】
【特許文献】
【0026】
【特許文献1】特許第3421726号
【特許文献2】特許第3622982号
【特許文献3】特許第3951690号
【非特許文献】
【0027】
【非特許文献1】ISO/IEC 13818-7 Information technology "Generic coding of moving pictures and associated audio information Part 7",Advanced Audio Coding(AAC)
【発明の概要】
【発明が解決しようとする課題】
【0028】
しかしながら、図1のオーディオ符号化装置10では、過去の符号化対象の歪み率に基づいて混合率が決定されるので、混合率は、必ずしも、現在の符号化対象の特徴に適した混合率ではない。その結果、符号化による音質劣化が発生する場合がある。例えば、左用と右用のチャンネルのオーディオ信号が著しく異なる場合であっても、左用と右用のチャンネルの周波数スペクトルが十分に混合されず、復号時に雑音が発生する場合がある。
【0029】
本技術は、このような状況に鑑みてなされたものであり、ステレオオーディオ信号を高効率で符号化する場合に、符号化による音質劣化を防止することができることができるようにするものである。
【課題を解決するための手段】
【0030】
本技術の一側面のオーディオ符号化装置は、複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定部と、前記決定部により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合部と、前記混合部による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化部とを備えるオーディオ符号化装置である。
【0031】
本技術の一側面のオーディオ符号化方法およびプログラムは、本技術の一側面第1の側面のオーディオ符号化装置に対応する。
【0032】
本技術の一側面においては、複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率が決定され、前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルが混合され、混合後の前記複数のチャンネルの前記周波数スペクトルが符号化される。
【発明の効果】
【0033】
本技術の一側面によれば、複数のチャンネルのオーディオ信号を高効率で符号化する場合に、符号化による音質劣化を防止することができる。
【図面の簡単な説明】
【0034】
【図1】従来のオーディオ符号化装置の構成の一例を示すブロック図である。
【図2】本技術を適用したオーディオ符号化装置の一実施の形態の構成例を示すブロック図である。
【図3】図2の相関/エネルギー計算部におけるバンドを説明する図である。
【図4】図2の適応ミキシング部の構成例を示す図である。
【図5】混合率m1の例を示す図である。
【図6】混合率m2の例を示す図である。
【図7】混合率m3の例を示す図である。
【図8】図2の符号化部の構成例を示すブロック図である。
【図9】符号化処理を説明するフローチャートである。
【図10】図9の混合処理の詳細を説明するフローチャートである。
【図11】コンピュータの一実施の形態の構成例を示す図である。
【発明を実施するための形態】
【0035】
<一実施の形態>
[オーディオ符号化装置の一実施の形態の構成例]
図2は、本技術を適用したオーディオ符号化装置の一実施の形態の構成例を示すブロック図である。
【0036】
図2のオーディオ符号化装置30は、入力端子31および入力端子32、T/F変換部33およびT/F変換部34、相関/エネルギー計算部35、適応ミキシング部36、符号化部37、マルチプレクサ38、並びに出力端子39により構成される。オーディオ符号化装置30は、ステレオオーディオ信号の周波数スペクトルに基づく混合率で、その周波数スペクトルを混合し、インテンシティ・ステレオ符号化を行う。
【0037】
具体的には、オーディオ符号化装置30の入力端子31には、符号化対象のステレオオーディオ信号のうちの左用のチャンネルの時間信号であるオーディオ信号xLが入力され、T/F変換部33に供給される。また、入力端子32には、符号化対象のステレオオーディオ信号のうちの右のチャンネルの時間信号であるオーディオ信号xRが入力され、T/F変換部34に供給される。
【0038】
T/F変換部33は、入力端子31から供給されるオーディオ信号xLに対して、所定の変換フレームごとにMDCT変換等の時間‐周波数変換を施す。T/F変換部33は、その結果得られる周波数スペクトルXL(係数)を、相関/エネルギー計算部35と適応ミキシング部36に供給する。
【0039】
同様に、T/F変換部34は、入力端子32から供給されるオーディオ信号xRに対して、所定の変換フレームごとにMDCT変換等の時間‐周波数変換を施す。T/F変換部34は、その結果得られる周波数スペクトルXR(係数)を、相関/エネルギー計算部35と適応ミキシング部36に供給する。
【0040】
相関/エネルギー計算部35は、T/F変換部33から供給される周波数スペクトルXLと、T/F変換部34から供給される周波数スペクトルXRを、それぞれ、所定の周波数帯域(バンド)ごとに分割する。なお、各バンドには、周波数の低い方から順にバンド番号b(b=1,2,・・・,B)が付与されている。
【0041】
また、相関/エネルギー計算部35は、以下の式(1)により、バンドごとに、バンド番号bのバンドの周波数スペクトルXLのエネルギーEL(b)と周波数スペクトルXRのエネルギーER(b)を計算する。
【0042】
【数1】
【0043】
なお、式(1)において、XL(k)は、周波数インデックスkの周波数スペクトルXLを表し、XR(k)は、周波数インデックスkの周波数スペクトルXRを表す。また、Kb,Kb+1-1は、それぞれ、バンド番号bのバンドの周波数に対応する周波数インデックスの最小値、最大値を表す。これらのことは、後述する式(2)においても同様である。
【0044】
さらに、相関/エネルギー計算部35は、以下の式(2)により、エネルギーEL(b)とエネルギーER(b)を用いて、周波数スペクトルXLと周波数スペクトルXRの各バンドの相関corr(b)を計算する。
【0045】
【数2】
【0046】
この相関corr(b)は、周波数スペクトルXLおよび周波数スペクトルXRが相関/エネルギー計算部35に入力されるごと、即ち変換フレームごとに計算されるが、そのままでは変化が激しいため、相関/エネルギー計算部35は、相関corr(b)を時間平滑化する。具体的には、相関/エネルギー計算部35は、例えば、以下の式(3)により、現在の変換フレームの相関corr(b)と過去の所定数の変換フレームの相関corr(b)を指数加重平均し、平均相関ave_corr(b)を逐次的に計算する。
【0047】
ave_corr(b)=r×ave_corr(b)Old+(1-r)×corr(b) (0<r<1)
・・・(3)
【0048】
なお、式(3)において、ave_corr(b)Oldは、過去の所定数の変換フレームの指数加重平均である。
【0049】
相関/エネルギー計算部35は、以上のようにして計算された平均相関ave_corr(b)、エネルギーEL(b)、およびエネルギーER(b)を、適応ミキシング部36に供給する。
【0050】
適応ミキシング部36は、相関/エネルギー計算部35から供給される平均相関ave_corr(b)、エネルギーEL(b)、およびエネルギーER(b)に基づいて、バンドごとに混合率を計算する。なお、混合率とは、混合後の左用のチャンネルの周波数スペクトルXLmix(右用のチャンネルの周波数スペクトルXRmix)における右用のチャンネルの周波数スペクトルXR(左用のチャンネルの周波数スペクトルXL)の割合である。
【0051】
適応ミキシング部36は、各バンドの混合率に基づいて、バンドおよびチャンネルごとに、T/F変換部33から供給される周波数スペクトルXLと、T/F変換部34から供給される周波数スペクトルXRを混合する。適応ミキシング部36は、混合の結果得られる左用のチャンネルの周波数スペクトルXLmixと、右用のチャンネルの周波数スペクトルXRmixを符号化部37に供給する。
【0052】
符号化部37は、適応ミキシング部36から供給される周波数スペクトルXLmixと周波数スペクトルXRmixをインテンシティ・ステレオ符号化する。符号化部37は、符号化の結果得られる符号化スペクトルと符号化に関する付加情報を、マルチプレクサ38に供給する。
【0053】
マルチプレクサ38は、符号化部37から供給される符号化スペクトル、符号化に関する付加情報などを所定のフォーマットで多重化し、その結果得られる符号化データを、出力端子39を介して出力する。
【0054】
なお、オーディオ符号化装置30では、相関corr(b)が時間平滑化されたが、上述した式(3)のrを0にし、時間平滑化されないようにしてもよい。また、エネルギーEL(b)とエネルギーER(b)も、相関corr(b)と同様に時間平滑化されるようにしてもよい。
【0055】
また、オーディオ符号化装置30では、符号化部37がインテンシティ・ステレオ符号化を行うが、インテンシティ・ステレオ符号化以外のM/Sステレオ符号化等の高効率の符号化を行うようにしてもよい。
【0056】
[バンドの説明]
図3は、図2の相関/エネルギー計算部35におけるバンドを説明する図である。
【0057】
図3に示すように、各バンドは、所定の周波数の帯域である。例えば、図3では、バンド番号bのバンドは、周波数インデックスKbに対応する周波数以上周波数インデックスKb+1に対応する周波数未満の帯域である。
【0058】
また、図3の例では、インテンシティ・ステレオ符号化において、左用と右用の周波数スペクトルがそのまま符号化結果とならないバンドのうちの下限のバンド(以下、開始バンドという)のバンド番号がisbである。さらに、バンド番号isbのバンドの周波数インデックスの最小値がKisbであり、周波数インデックスKisbの周波数がFISである。
【0059】
なお、相関/エネルギー計算部35におけるバンドは、聴覚の臨界帯域幅(クリティカルバンド)に合わせて高域ほどバンドの範囲が広くなるように分割されることが望ましい。また、バンドの範囲は、符号化部37における量子化や符号化の処理単位である量子化ユニットの範囲と同一であってもよいし、異なっていてもよい。また、FIS以上の周波数は、バンドに分割されず、まとめて1バンドとされるようにしてもよい。
【0060】
[適応ミキシング部の構成例]
図4は、図2の適応ミキシング部36の構成例を示す図である。
【0061】
図4の適応ミキシング部36は、決定部51、乗算部52、乗算部53、加算部54、乗算部55、乗算部56、および加算部57により構成される。
【0062】
決定部51は、図2の相関/エネルギー計算部35から供給される各バンドのエネルギーEL(b)、エネルギーER(b)、および平均相関ave_corr(b)を用いて、そのバンドの混合率m(b)を計算する。決定部51は、計算された混合率m(b)を乗算部52、乗算部53、乗算部55、および乗算部56に供給する。
【0063】
乗算部52、乗算部53、および加算部54は、左用のチャンネルの混合部として機能し、乗算部55、乗算部56、および加算部57は、右用のチャンネルの混合部として機能する。
【0064】
具体的には、乗算部52、乗算部53、および加算部54は、以下の式(4)により、混合率m(b)に基づいて混合を行い、混合後の周波数スペクトルXLmixを生成する。また、乗算部55、乗算部56、および加算部57は、以下の式(4)により、混合率m(b)に基づいて混合を行い、混合後の周波数スペクトルXRmixを生成する。
【0065】
XLmix(k)=(1-m(b))×XL(k)+m(b)×XR(k)
XRmix(k)=m(b)×XL(k)+(1-m(b))×XR(k)
・・・(4)
【0066】
なお、式(4)において、周波数インデックスkは、バンド番号bのバンドに含まれる周波数の周波数インデックスである。また、式(4)において、XLmix(k),XRmix(k)は、それぞれ、周波数インデックスkの周波数スペクトルXLmix、周波数スペクトルXRmixである。さらに、XL(k),XR(k)は、周波数インデックスkの周波数スペクトルXL、周波数スペクトルXRである。
【0067】
より詳細には、乗算部52は、バンドごとに、図2のT/F変換部33から供給される周波数スペクトルXLと決定部51から供給される混合率m(b)を1から減算した値とを乗算し、その結果得られる周波数スペクトルを加算部54に供給する。
【0068】
また、乗算部53は、バンドごとに、図2のT/F変換部34から供給される周波数スペクトルXRと決定部51から供給される混合率m(b)を乗算し、その結果得られる周波数スペクトルを加算部54に供給する。
【0069】
加算部54は、バンドごとに、乗算部52から供給される周波数スペクトルと、乗算部53から供給される周波数スペクトルとを加算する。加算部54は、加算の結果得られる周波数スペクトルを混合後の周波数スペクトルXLmixとして、図2の符号化部37に供給する。
【0070】
また、乗算部55は、バンドごとに、T/F変換部33から供給される周波数スペクトルXL(b)と決定部51から供給される混合率m(b)とを乗算し、その結果得られる周波数スペクトルを加算部57に供給する。
【0071】
乗算部56は、バンドごとに、T/F変換部34から供給される周波数スペクトルXR(b)と決定部51から供給される混合率m(b)を1から減算した値とを乗算し、その結果得られる周波数スペクトルを加算部57に供給する。
【0072】
加算部57は、バンドごとに、乗算部55から供給される周波数スペクトルと、乗算部56から供給される周波数スペクトルとを加算する。加算部57は、加算の結果得られる周波数スペクトルを混合後の周波数スペクトルXRmixとして、符号化部37に供給する。
【0073】
[混合率の計算方法の説明]
図5乃至図7は、図4の決定部51における混合率の計算方法を説明する図である。
【0074】
決定部51は、バンドごとに、平均相関ave_corr(b)に基づいて、例えば、図5に示す混合率m1(ave_corr(b))を決定する。なお、図5において、横軸は、平均相関ave_corr(b)を表し、縦軸は混合率m1(ave_corr(b))を表している。
【0075】
平均相関ave_corr(b)が0付近である場合、周波数スペクトルXLと周波数スペクトルXRが異なっているため、左用と右用のチャンネルの符号化対象の違いによって生じる復号時の雑音を防止する必要がある。一方、平均相関ave_corr(b)が1に近い場合、周波数スペクトルXLと周波数スペクトルXRが類似しているため、符号化による復号時の雑音が生じにくい。従って、図5の例では、混合率m1(ave_corr(b))は、平均相関ave_corr(b)が0に近いほど大きく、平均相関ave_corr(b)が1に近いほど小さくなっている。また、平均相関ave_corr(b)が0である場合、混合率m1(ave_corr(b))は、最大値である0.5となっている。
【0076】
一方、平均相関ave_corr(b)が負の値である場合、平均相関ave_corr(b)が正の値である場合と同様に、平均相関ave_corr(b)が0に近いほど大きく、平均相関ave_corr(b)が-1に近いほど小さくなる。但し、この場合、混合によりエネルギーが減衰するため、混合率m1(ave_corr(b))は、平均相関ave_corr(b)が正の値である場合に比べて小さくなっている。また、平均相関ave_corr(b)が、-1より大きい所定の負の閾値T(例えば、-0.6程度)よりも小さい場合、混合率m1(ave_corr(b))は0となっている。
【0077】
なお、混合率m1(ave_corr(b))は、以下の式(5)のように決定されるようにしてもよい。
【0078】
ave_corr(b)≦C1である場合、m1(ave_corr(b))=0
C1<ave_corr(b)≦C2である場合、m1(ave_corr(b))=0.5×(ave_corr(b)−C1)/(C2−C1)
ave_corr(b)>C2である場合、m1(ave_corr(b))=0.5×(ave_corr(b)−1)/(C2−1)
・・・(5)
【0079】
式(5)において、C1およびC2は所定の閾値である。例えば、C1は−0.6であり、C2は0であるようにすることができる。
【0080】
また、決定部51は、バンドごとに、エネルギーEL(b)およびER(b)に基づいて、例えば、図6に示す混合率m2(LR_ratio(b))を決定する。
【0081】
なお、図6において、横軸は、エネルギーEL(b)およびER(b)に基づいて以下の式(6)で定義される左用と右用のチャンネルの周波数スペクトルのレベル比LR_ratio(b)[dB]を表し、縦軸は混合率m2(LR_ratio(b))を表す。
【0082】
LR_ratio(b)=10log10(EL/ER)
・・・(6)
【0083】
図6の例では、レベル比LR_ratioの絶対値が大きいほど、即ち周波数スペクトルXLと周波数スペクトルXRのレベルが異なっているほど、音漏れ(詳細は後述する)を防止するために混合率m2(LR_ratio(b))は小さくされる。そして、レベル比LR_ratioの絶対値が所定の閾値R(30dB程度)以上である場合、混合率m2(LR_ratio(b))は0とされる。
【0084】
但し、左用と右用のチャンネルの少なくとも一方の音が無音に近い場合、即ち、周波数スペクトルXLと周波数スペクトルXRの少なくとも一方のレベルが所定の閾値より小さい場合には、音漏れが知覚されやすいため、レベル比LR_ratioに関わらず混合率m2(LR_ratio(b))は0とされる。
【0085】
音漏れとは、レベルが大きく異なるオーディオ信号の周波数スペクトルを混合することにより発生する、レベルの大きい周波数スペクトルからレベルの小さい周波数スペクトルへのレベルの移動である。
【0086】
さらに、決定部51は、バンドの周波数に基づいて、例えば、図7に示す混合率m3(b)を決定する。なお、図7において、横軸は、バンド番号bを表し、縦軸は、混合率m3(b)を表す。
【0087】
開始バンドであるバンド番号isbのバンドから急激に混合が行われると、不連続性により雑音が発生することがあるため、図7の例では、バンド番号isbより少し前のバンド番号のバンドから徐々に混合率m3(b)が最大値である0.5まで増加する。また、より高域(例えば13kHz以上の周波数)では、復号時の雑音が知覚されにくいため、周波数スペクトルXLと周波数スペクトルXRが異なっていても、ステレオ感を保持するために混合率m3(b)を0.5より少し小さくする。
【0088】
決定部51は、以上のようにして求められた混合率m1(ave_corr(b)),m2(LR_ratio(b))、およびm3(b)を用いて、以下の式(7)により、バンドbの最終的な混合率m(b)を決定する。
【0089】
m(b)=4×m1(ave_corr(b))×m2(LR_ratio(b))×m3(b)
・・・(7)
【0090】
なお、混合率m(b)は、混合率m1(ave_corr(b)),m2(LR_ratio(b))、およびm3(b)の積ではなく、以下の式(8)のように混合率m1(ave_corr(b)),m2(LR_ratio(b))、およびm3(b)の線形和であってもよい。
【0091】
m(b)=w1×m1(ave_corr(b))+w2×m2(LR_ratio(b))+w3×m3(b)
但し、w1+w2+w3=1
・・・(8)
【0092】
また、混合率m(b)は、必ずしも、混合率m1(ave_corr(b)),m2(LR_ratio(b))、およびm3(b)の全てを用いて決定される必要はなく、混合率m1(ave_corr(b)),m2(LR_ratio(b))、およびm3(b)の少なくとも1つを用いて決定されればよい。
【0093】
[符号化部の構成例]
図8は、図2の符号化部37の構成例を示すブロック図である。
【0094】
図8の符号化部37は、乗算部71、演算部72、レベル補正部73、加算部74、正規化部75、量子化部76、加算部77、正規化部78、および量子化部79により構成される。
【0095】
図2の適応ミキシング部36から供給される周波数スペクトルXLmixおよびXRmixのうちの、開始バンドの最小の周波数FISの周波数インデックスKisb未満の周波数インデックスの周波数スペクトルXLmixは、加算部74に供給され、周波数スペクトルXRmixは、加算部77に供給される。
【0096】
一方、適応ミキシング部36から供給される周波数スペクトルXLmixおよびXRmixのうちの、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXLmixは、演算部72、レベル補正部73、および加算部74に供給され、周波数スペクトルXRmixは、乗算部71、レベル補正部73、および加算部77に供給される。
【0097】
乗算部71と演算部72は、以下の式(9)により、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXLmixと周波数スペクトルXRmixに共通の共通スペクトルXMを生成する。
【0098】
XM(k)=0.5×{XLmix(k)+sign×XRmix(k)}(k≧Kisb)
・・・(9)
【0099】
なお、式(9)において、XM(k),XLmix(k),XRmix(k)は、それぞれ、周波数インデックスkの共通スペクトルXM、周波数スペクトルXLmix、周波数スペクトルXRmixを表す。また、signは、各量子化ユニットにおける周波数スペクトルXRmixの位相極性であり、+1または‐1である。例えば、量子化ユニット内の周波数スペクトルXLmixとXRmixの相関が正の値である場合、位相極性signは+1であり、負の値である場合、位相極性signは‐1である。
【0100】
より詳細には、乗算部71は、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXRmixに対して位相極性signを乗算し、その結果得られる周波数スペクトルを演算部72に供給する。
【0101】
演算部72は、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXLmixと乗算部71から供給される周波数スペクトルを加算し、その結果得られる周波数スペクトルに0.5を乗算して、共通スペクトルXMを生成する。演算部72は、生成された共通スペクトルXMをレベル補正部73に供給する。
【0102】
レベル補正部73は、量子化ユニットごとに、演算部72から供給される共通スペクトルXMのエネルギーが、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXLmixの、その量子化ユニットにおけるエネルギーと一致するように、共通スペクトルXMのレベルを補正する。同様に、レベル補正部73は、共通スペクトルXMのエネルギーが、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXRmixの、その量子化ユニットにおけるエネルギーと一致するように、共通スペクトルXMのレベルを補正する。
【0103】
具体的には、レベル補正部73は、まず、周波数インデックスKisb以上の周波数インデックスの周波数スペクトルXLmixおよびXRmixの量子化ユニットqごとのエネルギーEL(q)およびER(q)、並びに、共通スペクトルXMのエネルギーEM(q)を計算する。そして、レベル補正部73は、量子化ユニットqごとに、エネルギーEL(q)またはER(q)、およびエネルギーEM(q)を用いて、以下の式(10)により、共通スペクトルXMのレベルを補正する。
【0104】
【数3】
【0105】
なお、式(10)において、XM(k),XLIS(k),XRIS(k)は、それぞれ、周波数インデックスkの共通スペクトルXM、レベル補正後の共通スペクトルXLIS,レベル補正後の共通スペクトルXRISを表す。
【0106】
レベル補正部73は、レベル補正後の共通スペクトルXLISを加算部74に供給し、レベル補正後の共通スペクトルXRISを加算部77に供給する。
【0107】
加算部74は、周波数インデックスKisb未満の周波数インデックスの周波数スペクトルXLmixとレベル補正部73から供給される共通スペクトルXLISとを加算し、その結果得られる全周波数インデックスの周波数スペクトルを正規化部75に供給する。
【0108】
正規化部75は、加算部74から供給される周波数スペクトルを、所定の周波数帯域幅の量子化ユニットごとに、周波数スペクトルの振幅に応じた正規化係数(スケールファクタ)SFLを用いて正規化する。正規化部75は、正規化の結果得られる周波数スペクトルXLNormを量子化部76に供給し、正規化係数SFLを符号化に関する付加情報として図2のマルチプレクサ38に供給する。
【0109】
量子化部76は、正規化部75から供給される周波数スペクトルXLNormを所定のビット数で量子化し、量子化後の周波数スペクトルXLNormを左用のチャンネルの符号化スペクトルとしてマルチプレクサ38に供給する。これにより、左用のチャンネルの符号化スペクトルとしてマルチプレクサ38に供給される符号化スペクトルの周波数インデックスkは、全周波数インデックス(0,1,・・・,Kisb,・・・,K)となる。
【0110】
また、加算部77は、周波数インデックスKisb未満の周波数インデックスの周波数スペクトルXRmixとレベル補正部73から供給される共通スペクトルXRISとを加算し、その結果得られる全周波数インデックスの周波数スペクトルを正規化部78に供給する。
【0111】
正規化部78は、加算部77から供給される周波数スペクトルを、量子化ユニットごとに、周波数スペクトルの振幅に応じた正規化係数SFRを用いて正規化する。正規化部75は、正規化の結果得られる周波数スペクトルXRNormを量子化部79に供給し、正規化係数SFRを符号化に関する付加情報としてマルチプレクサ38に供給する。
【0112】
量子化部79は、正規化部78から供給される周波数スペクトルXRNormのうちの、周波数インデックスKisb未満の周波数インデックスの周波数スペクトルXRNormを所定のビット数で量子化する。量子化部79は、量子化後の周波数スペクトルXRNormを右用のチャンネルの符号化スペクトルとしてマルチプレクサ38に供給する。これにより、マルチプレクサ38に供給される右用のチャンネルの符号化スペクトルの周波数インデックスkは、全周波数インデックスのうちの周波数インデックスKisb未満の周波数インデックス(0,1,・・・,Kisb-1)となる。
【0113】
なお、図8の符号化部37では、左用のチャンネルの符号化スペクトルの周波数インデックスkが全周波数インデックスであり、右用のチャンネルの符号化スペクトルの周波数インデックスkがKisb未満であるようにしたが、左用のチャンネルと右用のチャンネルの周波数インデックスkが逆になるようにしてもよい。即ち、右用のチャンネルの符号化スペクトルの周波数インデックスkが全周波数インデックスであり、左用のチャンネルの符号化スペクトルの周波数インデックスkがKisb未満であるようにしてもよい。
【0114】
[オーディオ符号化装置の処理の説明]
図9は、図2のオーディオ符号化装置30の符号化処理を説明するフローチャートである。この符号化処理は、入力端子31にオーディオ信号xLが入力され、入力端子32にオーディオ信号xRが入力されたとき、開始される。
【0115】
図9のステップS11において、T/F変換部33は、入力端子31から供給される左用のチャンネルのオーディオ信号xLに対して、所定の変換フレームごとに時間‐周波数変換を施す。T/F変換部33は、その結果得られる周波数スペクトルXLを、相関/エネルギー計算部35と適応ミキシング部36に供給する。
【0116】
ステップS12において、T/F変換部34は、入力端子32から供給される右用のチャンネルのオーディオ信号xRに対して、所定の変換フレームごとに時間‐周波数変換を施す。T/F変換部34は、その結果得られる周波数スペクトルXRを、相関/エネルギー計算部35と適応ミキシング部36に供給する。
【0117】
ステップS13において、相関/エネルギー計算部35は、T/F変換部33から供給される周波数スペクトルXLと、T/F変換部34から供給される周波数スペクトルXRを、それぞれ、バンドごとに分割する。
【0118】
ステップS14において、相関/エネルギー計算部35は、上述した式(1)により、バンドごとに、エネルギーEL(b)とエネルギーER(b)を計算し、適応ミキシング部36に供給する。
【0119】
ステップS15において、相関/エネルギー計算部35は、上述した式(2)により、エネルギーEL(b)とエネルギーER(b)を用いて、各バンドの相関corr(b)を計算し、保持する。そして、相関/エネルギー計算部35は、上述した式(3)により、現在の変換フレームの相関corr(b)と過去の所定数の変換フレームの相関corr(b)を指数加重平均して、平均相関ave_corr(b)を逐次的に計算し、適応ミキシング部36に供給する。
【0120】
ステップS16において、適応ミキシング部36は、平均相関ave_corr(b)、エネルギーEL(b)、およびエネルギーER(b)に基づいて、バンドおよびチャンネルごとに、周波数スペクトルXLと周波数スペクトルXRを混合する混合処理を行う。この混合処理の詳細は、後述する図10を参照して説明する。
【0121】
ステップS17において、符号化部37は、適応ミキシング部36から供給される周波数スペクトルXLmixと周波数スペクトルXRmixをインテンシティ・ステレオ符号化し、その結果得られる符号化スペクトルをマルチプレクサ38に供給する。
【0122】
ステップS18において、マルチプレクサ38は、符号化部37から供給される符号化スペクトル、符号化に関する付加情報などを所定のフォーマットで多重化し、その結果得られる符号化データを、出力端子39を介して出力する。そして、処理は終了する。
【0123】
図10は、図9のステップS16の混合処理の詳細を説明するフローチャートである。
【0124】
図10のステップS31において、適応ミキシング部36の決定部51(図4)は、相関/エネルギー計算部35から供給される平均相関ave_corr(b)に基づいて、バンドごとに、図5に示したような混合率m1(ave_corr(b))を決定する。
【0125】
ステップS32において、決定部51は、相関/エネルギー計算部35から供給されるエネルギーEL(b)とエネルギーER(b)に基づいて、バンドごとに、図6に示したような混合率m2(LR_ratio(b))を決定する。
【0126】
ステップS33において、決定部51は、各バンドの周波数に基づいて、バンドごとに、図7に示したような混合率m3(b)を決定する。
【0127】
ステップS34において、決定部51は、混合率m1(ave_corr(b))、混合率m2(LR_ratio(b))、および混合率m3(b)に基づいて、バンドごとに、上述した式(7)や式(8)により、混合率m(b)を決定する。決定部51は、計算された混合率m(b)を乗算部52、乗算部53、乗算部55、および乗算部56に供給する。
【0128】
ステップS35において、乗算部52は、バンドごとに、図2のT/F変換部33から供給される周波数スペクトルXLと決定部51から供給される混合率m(b)を1から減算した値とを乗算し、その結果得られる周波数スペクトルを加算部54に供給する。また、乗算部56は、バンドごとに、図2のT/F変換部34から供給される周波数スペクトルXRと決定部51から供給される混合率m(b)を1から減算した値とを乗算し、その結果得られる周波数スペクトルを加算部57に供給する。
【0129】
ステップS36において、乗算部53は、バンドごとに、T/F変換部34から供給される周波数スペクトルXRと決定部51から供給される混合率m(b)を乗算し、その結果得られる周波数スペクトルを加算部54に供給する。また、乗算部55は、バンドごとに、T/F変換部33から供給される周波数スペクトルXLと決定部51から供給される混合率m(b)とを乗算し、その結果得られる周波数スペクトルを加算部57に供給する。
【0130】
ステップS37において、加算部54は、バンドごとに、乗算部52から供給される周波数スペクトルと、乗算部53から供給される周波数スペクトルとを加算する。加算部54は、その結果得られる周波数スペクトルを混合後の周波数スペクトルXLmixとして、図2の符号化部37に供給する。また、加算部57は、バンドごとに、乗算部55から供給される周波数スペクトルと、乗算部56から供給される周波数スペクトルとを加算する。加算部57は、その結果得られる周波数スペクトルを混合後の周波数スペクトルXRmixとして、符号化部37に供給する。そして、処理は、図9のステップS16に戻り、ステップS17に進む。
【0131】
以上のように、オーディオ符号化装置30は、符号化対象のステレオオーディオ信号の周波数スペクトルXLおよびXRに基づいて混合率m(b)を決定するので、混合率m(b)が符号化対象のステレオオーディオ信号の特徴に適したものとなる。その結果、符号化による雑音の発生や音漏れなどの音質劣化を防止することができる。
【0132】
また、オーディオ符号化装置30は、オーディオ信号xL,xRではなく、周波数スペクトルXL,XRをバンドごとに混合するので、図1のオーディオ符号化装置10のように、帯域分割のためのフィルタバンク11および12を設ける必要がない。また、符号化処理における演算量とメモリ使用量を削減することができる。
【0133】
[本技術を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0134】
そこで、図11は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0135】
プログラムは、コンピュータに内蔵されている記録媒体としての記憶部208やROM(Read Only Memory)202に予め記録しておくことができる。
【0136】
あるいはまた、プログラムは、リムーバブルメディア211に格納(記録)しておくことができる。このようなリムーバブルメディア211は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブルメディア211としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
【0137】
なお、プログラムは、上述したようなリムーバブルメディア211からドライブ210を介してコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵する記憶部208にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
【0138】
コンピュータは、CPU(Central Processing Unit)201を内蔵しており、CPU201には、バス204を介して、入出力インタフェース205が接続されている。
【0139】
CPU201は、入出力インタフェース205を介して、ユーザによって、入力部206が操作等されることにより指令が入力されると、それに従って、ROM202に格納されているプログラムを実行する。あるいは、CPU201は、記憶部208に格納されたプログラムを、RAM(Random Access Memory)203にロードして実行する。
【0140】
これにより、CPU201は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU201は、その処理結果を、必要に応じて、例えば、入出力インタフェース205を介して、出力部207から出力、あるいは、通信部209から送信、さらには、記憶部208に記録等させる。
【0141】
なお、入力部206は、キーボードや、マウス、マイク等で構成される。また、出力部207は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
【0142】
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
【0143】
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0144】
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0145】
なお、本技術は、以下のような構成もとることができる。
【0146】
(1)
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定部と、
前記決定部により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合部と、
前記混合部による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化部と
を備えるオーディオ符号化装置。
(2)
前記決定部は、前記複数のチャンネルの前記周波数スペクトルの相関に基づいて前記混合率を決定する
前記(1)に記載のオーディオ符号化装置。
(3)
前記決定部は、前記相関が0に近いほど前記混合率が大きくなり、前記相関が−1に近いほど前記混合率が小さくなるように、前記混合率を決定する
前記(2)に記載のオーディオ符号化装置。
(4)
前記決定部は、前記相関が−1より大きい所定の負の閾値より小さい場合、前記混合率を0に決定する
前記(2)または(3)に記載のオーディオ符号化装置。
(5)
前記決定部は、前記複数のチャンネルの前記周波数スペクトルのレベル比に基づいて前記混合率を決定する
前記(1)乃至(4)のいずれかに記載のオーディオ符号化装置。
(6)
前記決定部は、前記レベル比が大きいほど前記混合率が小さくなるように、前記混合率を決定する
前記(5)に記載のオーディオ符号化装置。
(7)
前記決定部は、前記複数のチャンネルのうちの少なくとも1つのチャンネルの前記周波数スペクトルのレベルが所定の閾値より小さい場合、前記混合率を0に決定し、前記複数のチャンネルの前記周波数スペクトルのレベルが全て前記所定の閾値以上である場合、前記レベル比に基づいて前記混合率を決定する
前記(5)または(6)に記載のオーディオ符号化装置。
(8)
前記決定部は、前記複数のチャンネルの前記周波数スペクトルのエネルギー比に基づいて前記混合率を決定する
前記(5)に記載のオーディオ符号化装置。
(9)
前記決定部は、前記複数のチャンネルの前記周波数スペクトルをそれぞれ所定の周波数帯域ごとに分割し、前記周波数帯域ごとの前記複数のチャンネルの前記周波数スペクトルに基づいて、前記周波数帯域ごとの前記混合率を決定し、
前記混合部は、前記決定部により決定された前記周波数帯域ごとの前記混合率に基づいて、前記チャンネルおよび前記周波数帯域ごとに、前記複数のチャンネルの前記周波数スペクトルを混合する
前記(1)乃至(8)のいずれかに記載のオーディオ符号化装置。
(10)
前記決定部は、前記周波数帯域ごとの前記周波数スペクトルと前記周波数帯域の周波数に基づいて、前記周波数帯域ごとの前記混合率を決定する
前記(9)に記載のオーディオ符号化装置。
(11)
前記符号化部は、前記混合部による混合後の前記複数のチャンネルの前記周波数スペクトルをインテンシティ・ステレオ符号化する
前記(1)乃至(10)のいずれかに記載のオーディオ符号化装置。
(12)
オーディオ符号化装置が、
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定ステップと、
前記決定ステップの処理により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合ステップと、
前記混合ステップの処理による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化ステップと
を含むオーディオ符号化方法。
(13)
コンピュータに、
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定ステップと、
前記決定ステップの処理により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合ステップと、
前記混合ステップの処理による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化ステップと
を含む処理を実行させるためのプログラム。
【符号の説明】
【0147】
30 オーディオ符号化装置, 37 符号化部, 51 決定部, 52,53 乗算部, 54 加算部, 55,56 乗算部, 57 加算部
【特許請求の範囲】
【請求項1】
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定部と、
前記決定部により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合部と、
前記混合部による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化部と
を備えるオーディオ符号化装置。
【請求項2】
前記決定部は、前記複数のチャンネルの前記周波数スペクトルの相関に基づいて前記混合率を決定する
請求項1に記載のオーディオ符号化装置。
【請求項3】
前記決定部は、前記相関が0に近いほど前記混合率が大きくなり、前記相関が−1に近いほど前記混合率が小さくなるように、前記混合率を決定する
請求項2に記載のオーディオ符号化装置。
【請求項4】
前記決定部は、前記相関が−1より大きい所定の負の閾値より小さい場合、前記混合率を0に決定する
請求項2に記載のオーディオ符号化装置。
【請求項5】
前記決定部は、前記複数のチャンネルの前記周波数スペクトルのレベル比に基づいて前記混合率を決定する
請求項1に記載のオーディオ符号化装置。
【請求項6】
前記決定部は、前記レベル比が大きいほど前記混合率が小さくなるように、前記混合率を決定する
請求項5に記載のオーディオ符号化装置。
【請求項7】
前記決定部は、前記複数のチャンネルのうちの少なくとも1つのチャンネルの前記周波数スペクトルのレベルが所定の閾値より小さい場合、前記混合率を0に決定し、前記複数のチャンネルの前記周波数スペクトルのレベルが全て前記所定の閾値以上である場合、前記レベル比に基づいて前記混合率を決定する
請求項5に記載のオーディオ符号化装置。
【請求項8】
前記決定部は、前記複数のチャンネルの前記周波数スペクトルのエネルギー比に基づいて前記混合率を決定する
請求項5に記載のオーディオ符号化装置。
【請求項9】
前記決定部は、前記複数のチャンネルの前記周波数スペクトルをそれぞれ所定の周波数帯域ごとに分割し、前記周波数帯域ごとの前記複数のチャンネルの前記周波数スペクトルに基づいて、前記周波数帯域ごとの前記混合率を決定し、
前記混合部は、前記決定部により決定された前記周波数帯域ごとの前記混合率に基づいて、前記チャンネルおよび前記周波数帯域ごとに、前記複数のチャンネルの前記周波数スペクトルを混合する
請求項1に記載のオーディオ符号化装置。
【請求項10】
前記決定部は、前記周波数帯域ごとの前記周波数スペクトルと前記周波数帯域の周波数に基づいて、前記周波数帯域ごとの前記混合率を決定する
請求項9に記載のオーディオ符号化装置。
【請求項11】
前記符号化部は、前記混合部による混合後の前記複数のチャンネルの前記周波数スペクトルをインテンシティ・ステレオ符号化する
請求項1に記載のオーディオ符号化装置。
【請求項12】
オーディオ符号化装置が、
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定ステップと、
前記決定ステップの処理により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合ステップと、
前記混合ステップの処理による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化ステップと
を含むオーディオ符号化方法。
【請求項13】
コンピュータに、
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定ステップと、
前記決定ステップの処理により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合ステップと、
前記混合ステップの処理による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化ステップと
を含む処理を実行させるためのプログラム。
【請求項1】
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定部と、
前記決定部により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合部と、
前記混合部による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化部と
を備えるオーディオ符号化装置。
【請求項2】
前記決定部は、前記複数のチャンネルの前記周波数スペクトルの相関に基づいて前記混合率を決定する
請求項1に記載のオーディオ符号化装置。
【請求項3】
前記決定部は、前記相関が0に近いほど前記混合率が大きくなり、前記相関が−1に近いほど前記混合率が小さくなるように、前記混合率を決定する
請求項2に記載のオーディオ符号化装置。
【請求項4】
前記決定部は、前記相関が−1より大きい所定の負の閾値より小さい場合、前記混合率を0に決定する
請求項2に記載のオーディオ符号化装置。
【請求項5】
前記決定部は、前記複数のチャンネルの前記周波数スペクトルのレベル比に基づいて前記混合率を決定する
請求項1に記載のオーディオ符号化装置。
【請求項6】
前記決定部は、前記レベル比が大きいほど前記混合率が小さくなるように、前記混合率を決定する
請求項5に記載のオーディオ符号化装置。
【請求項7】
前記決定部は、前記複数のチャンネルのうちの少なくとも1つのチャンネルの前記周波数スペクトルのレベルが所定の閾値より小さい場合、前記混合率を0に決定し、前記複数のチャンネルの前記周波数スペクトルのレベルが全て前記所定の閾値以上である場合、前記レベル比に基づいて前記混合率を決定する
請求項5に記載のオーディオ符号化装置。
【請求項8】
前記決定部は、前記複数のチャンネルの前記周波数スペクトルのエネルギー比に基づいて前記混合率を決定する
請求項5に記載のオーディオ符号化装置。
【請求項9】
前記決定部は、前記複数のチャンネルの前記周波数スペクトルをそれぞれ所定の周波数帯域ごとに分割し、前記周波数帯域ごとの前記複数のチャンネルの前記周波数スペクトルに基づいて、前記周波数帯域ごとの前記混合率を決定し、
前記混合部は、前記決定部により決定された前記周波数帯域ごとの前記混合率に基づいて、前記チャンネルおよび前記周波数帯域ごとに、前記複数のチャンネルの前記周波数スペクトルを混合する
請求項1に記載のオーディオ符号化装置。
【請求項10】
前記決定部は、前記周波数帯域ごとの前記周波数スペクトルと前記周波数帯域の周波数に基づいて、前記周波数帯域ごとの前記混合率を決定する
請求項9に記載のオーディオ符号化装置。
【請求項11】
前記符号化部は、前記混合部による混合後の前記複数のチャンネルの前記周波数スペクトルをインテンシティ・ステレオ符号化する
請求項1に記載のオーディオ符号化装置。
【請求項12】
オーディオ符号化装置が、
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定ステップと、
前記決定ステップの処理により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合ステップと、
前記混合ステップの処理による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化ステップと
を含むオーディオ符号化方法。
【請求項13】
コンピュータに、
複数のチャンネルのオーディオ信号の周波数スペクトルに基づいて、前記複数のチャンネルの各チャンネルの混合後の周波数スペクトルにおける他のチャンネルの周波数スペクトルの割合である混合率を決定する決定ステップと、
前記決定ステップの処理により決定された前記混合率に基づいて、前記チャンネルごとに、前記複数のチャンネルの前記周波数スペクトルを混合する混合ステップと、
前記混合ステップの処理による混合後の前記複数のチャンネルの前記周波数スペクトルを符号化する符号化ステップと
を含む処理を実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2013−33189(P2013−33189A)
【公開日】平成25年2月14日(2013.2.14)
【国際特許分類】
【出願番号】特願2011−230330(P2011−230330)
【出願日】平成23年10月20日(2011.10.20)
【出願人】(000002185)ソニー株式会社 (34,172)
【公開日】平成25年2月14日(2013.2.14)
【国際特許分類】
【出願日】平成23年10月20日(2011.10.20)
【出願人】(000002185)ソニー株式会社 (34,172)
[ Back to top ]