説明

音声復号化方法および音声復号化器

音声復号化方法であって、復号化される符号ストリームをモノラル符号化レイヤの符号化ストリームおよび第1のステレオ拡張レイヤの符号化ストリームであると判定する段階(S21)と、モノラル符号化レイヤを復号化して復号化されたモノラル周波数領域信号を取得する段階(S22)と、エネルギー調整後の復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第1のサブバンド領域に復元する段階(S23)と、エネルギー調整が行われていない復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第2のサブバンド領域に復元する段階(S24)と、を含む方法である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチチャネル音声(audio)符号化および復号化技術の分野に関し、特に音声復号化方法および音声復号化器に関する。
【0002】
本願は、2009年5月14日に中国特許庁に出願された、発明の名称を“AUDIO DECODING METHOD AND AUDIO DECODER”とする中国特許出願第200910137565.3号の優先権を主張し、その全体を引用してここに組み込む。
【背景技術】
【0003】
現在、電話会議およびゲームのような様々なシナリオでマルチチャネル音声信号が広く使用されている。したがって、マルチチャネル音声信号の符号化および復号化がますます注目されている。Moving Pictures Experts Group II(MPEG-II)、Moving Picture Experts Group Audio Layer III(MP3)、およびAdvanced Audio Coding(AAC)のような波形符号化方式の従来の符号化器は、マルチチャネル信号を符号化する際に各チャネルを独立に符号化する。この方法は、マルチチャネル信号をうまく復元することができるが、必要な帯域幅および符号化速度が、モノラル信号が必要とする帯域幅および符号化速度の数倍大きい。
【0004】
現在、普及しているステレオ符号化技術またはマルチチャネル符号化技術はパラメトリックステレオ符号化であり、聴覚体験が元の信号の聴覚体験とまったく同じであるマルチチャネル信号を、帯域幅をほとんど使用せずに復元することができる。基本的な方法では、符号化側で、マルチチャネル信号をダウンミックスしてモノラル信号を形成し、モノラル信号を独立に符号化し、チャネル同士の間でチャネルパラメータを同時に抽出し、これらのパラメータを符号化し、復号化側で、まずダウンミックスされたモノラル信号を復号化し、次にチャネル同士の間でチャネルパラメータを復号化し、最後にチャネルパラメータとダウンミックスされたモノラル信号を一緒に使用して各マルチチャネル信号を形成する。PS(Parametric Stereo)のような典型的なパラメトリックステレオ符号化技術が広く使用されている。
【0005】
パラメトリックステレオ符号化では、通常チャネル同士の相互関係を表すのに使用されるチャネルパラメータは、チャネル間時間差(ITD:Inter-channel Time Difference)、チャネル間レベル差(ILD:Inter-channel Level Difference)、およびチャネル間相互相関(ICC:Inter-Channel Coherence)である。これらのパラメータは、音源の方向および位置のようなステレオ音響画像情報を示すことができる。これらのパラメータおよび符号化側でマルチチャネル信号から取得されたダウンミックスされた信号を符号化して送信することによって、復号化側で、小さな占有帯域幅および低い符号化速度でステレオ信号をうまく復元することができる。
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、従来技術を研究し実施する過程で、本発明者は次のことが分かった。従来のパラメトリックステレオ符号化および復号化方法を使用することによって、符号化側の処理された信号と復号化側の処理された信号が矛盾する問題が生じ、符号化信号と復号化信号が矛盾すると、復号化によって取得される信号の品質が低下する。
【課題を解決するための手段】
【0007】
本発明の実施態様は、符号化側の処理された信号と復号化側の処理された信号との矛盾をなくすことを可能にし、かつ復号化されたステレオ信号の品質を向上させる音声復号化方法および音声復号化器を提供する。
【0008】
本発明の実施態様は、以下の技術的解決手段を含む。
【0009】
音声復号化方法であって、
復号化されるビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームであると判定する段階と、
モノラル符号化レイヤのビットストリームを復号化して復号化されたモノラル周波数領域信号を取得する段階と、
エネルギー調整後の復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第1のサブバンド領域に復元する段階と、
エネルギー調整が行われていない復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第2のサブバンド領域に復元する段階と、
を含む方法。
【0010】
判定ユニットと、処理ユニットと、第1の復元ユニットと、を含む音声復号化器。
【0011】
判定ユニットは、復号化されるビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームであるかどうかを判定するように構成される。復号化されるビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームである場合、第1の復元ユニットが起動される。
【0012】
処理ユニットは、モノラル符号化レイヤを復号化して復号化されたモノラル周波数領域信号を取得するように構成される。
【0013】
第1の復元ユニットは、エネルギー調整後の復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第1のサブバンド領域に復元し、かつエネルギー調整が行われていない復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第2のサブバンド領域に復元するように構成され、エネルギー調整が行われていない復号化されたモノラル周波数領域信号は、処理ユニットが復号化を行うことによって取得される。
【0014】
本発明の実施形態によれば、復号化プロセスにおいてモノラル信号が復元されるときに使用されるモノラル信号の種類が、復号化されるビットストリームのステータスに応じて判定される。復号化されるビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームであると判定された場合、エネルギー調整後の復号化されたモノラル周波数領域信号を使用して、左チャネル周波数領域信号および右チャネル周波数領域信号が第1のサブバンド領域に復元され、エネルギー調整が行われていない復号化されたモノラル周波数領域信号を利用して、左チャネル周波数領域信号および右チャネル周波数領域信号が第2のサブバンド領域に復元される。復号化されるビットストリームは、モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームだけであり、第2のサブバンド領域内の残差のパラメータを含まない。したがって、エネルギー調整が行われていない復号化されたモノラル周波数領域信号を使用して、左チャネル周波数領域信号および右チャネル周波数領域信号が第2のサブバンド領域に復元される。このように、符号化側の信号と復号化側の信号が矛盾せず、復号化されたステレオ信号の品質が向上する。
【図面の簡単な説明】
【0015】
【図1】パラメトリックステレオ音声符号化方法のフローチャートである。
【図2】本発明の一実施形態による音声復号化方法のフローチャートである。
【図3】本発明の一実施形態によるもう1つの音声復号化方法のフローチャートである。
【図4】本発明の一実施形態による音声復号化器1の概略構成図である。
【図5】本発明の一実施形態による音声復号化器2の概略構成図である。
【発明を実施するための形態】
【0016】
本発明者には、従来の音声復号化方法を使用することによって復元されたステレオ信号の品質が、2つの因子、すなわち、復元されたモノラル信号の品質および抽出されたステレオパラメータの精度に応じて決まることが分かった。復号化側で復元されたモノラル信号の品質は、最終的に出力される復元されたステレオ信号の品質において非常に重要な役割を果たす。したがって、復号化側で復元されるモノラル信号の品質をできるだけ高くする必要があり、それに基づいて、高品質ステレオ信号を復元することができる。
【0017】
本発明の一実施形態は、符号化側の処理された信号と復号化側の処理された信号との矛盾をなくすことを可能にし、したがって、復号化されたステレオ信号の品質を向上させることのできる音声復号化方法を提供する。本発明の実施形態は対応する音声復号化器も提供する。
【0018】
当業者が本発明の各実施形態をよりよく理解して実施することができるように、以下に、パラメトリックステレオ符号化において符号化側で実行される動作について詳細に説明する。図1は、パラメトリックステレオ音声符号化方法のフローチャートである。具体的なステップは以下のとおりである。
【0019】
S11:元の左チャネル信号および右チャネル信号に応じてチャネルパラメータITDを抽出し、ITDパラメータに応じて左チャネル信号および右チャネル信号にチャネル遅延調整を施し、調整された左チャネル信号および右チャネル信号に対してダウンミキシングを実行してモノラル信号(混合信号、すなわち、M信号とも呼ばれる)およびサイド信号(S信号)を取得する。
【0020】
[0〜7kHz]周波数帯域内のM信号およびS信号の周波数領域信号はそれぞれ、M{m(0), m(1), …, m(N-1)}およびS{s(0), s(1), …, s(N-1)}である。[0〜7kHz]周波数帯域内の左チャネルおよび右チャネルの周波数領域信号は、式(1)に従ってL{l(0), l(1), …, l(N-1)}およびR{r(0), r(1), …, r(N-1)}として取得される。
【0021】
l(i)=m(i)+s(i)
r(i)=m(i)-s(i) … (1)
【0022】
S12:左チャネルおよび右チャネルの周波数領域信号を8つのサブバンドに分割し、各サブバンドに応じて左チャネルパラメータILDおよび右チャネルパラメータILD、すなわちW[band][l]、W[band][r]を抽出し、各パラメータを量子化し符号化して量子化されたチャネルパラメータILD、すなわちWq[band][l]、Wq[band][r]を取得する。ここで、band∈(0, 1, 2, 3, 4, 5, 6, 7)であり、lは左チャネルパラメータILDを示し、rは右チャネルパラメータILDを示す。
【0023】
S13:M信号を符号化し、ローカル復号化を実行してローカルに復号化された周波数領域信号M1{m1(0), m1(1), …, m1(N-1)}を取得する。
【0024】
S14:S13で取得されたM1周波数領域信号を左チャネルおよび右チャネルと同じ8つのサブバンドに分割し、式(2)に従ってサブバンド5、6、および7のエネルギー補償パラメータecomp[band]を算出し、エネルギー補償パラメータを量子化し符号化して、量子化されたエネルギー補償パラメータecompq[band]を取得する。
【0025】
【数1】

【0026】
式(2)では、
【0027】
【数2】

【0028】
【数3】

【0029】
および
【0030】
【数4】

【0031】
はそれぞれ、現在のサブバンド内に存在する元の左チャネルエネルギー、元の右チャネルエネルギー、およびローカルに復号化されたモノラルエネルギーを示し、[startband, endband]は、現在のサブバンド周波数点の開始位置および終了位置を示す。
【0032】
S15:ローカルに復号化された周波数領域信号M1に周波数スペクトルピーク値分析を施し、周波数スペクトル分析結果MASK{mask(0), mask(1), …, mask(N-1)}を取得する。ここで、mask(i)∈{0, 1}である。位置iにおけるM1の周波数スペクトル信号m1がピーク値である場合、mask(i)=1であり、位置iにおけるM1の周波数スペクトル信号m1がピーク値ではない場合、mask(i)=0である。
【0033】
S16:最適なエネルギー調整係数multiplierを選択し、式(3)に従って、復号化された周波数領域信号M1にエネルギー調整を実行して、エネルギー調整後の周波数領域信号M2{m2(0), m2(1), …, m2(N-1)}を取得し、エネルギー調整係数multiplierを量子化し符号化する。
【0034】
【数5】

【0035】
S17:エネルギー調整後の周波数領域信号M2、左チャネル周波数領域信号および右チャネル周波数領域信号LおよびR、ならびに左チャネルおよび右チャネルの量子化されたチャネルパラメータILD Wqを利用することによって、式(4)に従って左チャネル残差情報resleft{eleft(0), eleft(1), …, eleft(N-1)および右チャネル残差情報resright{eright(0), eright(1), …, eright(N-1)}を算出する。
【0036】
eleft(i)=l(i)-Wq[band][l]×m2(i)
eright(i)=r(i)-Wq[band][r]×m2(i), i∈[startband, endband], band=0, 1, 2, 3, …, 7 …(4)
【0037】
S18:左チャネル残差および右チャネル残差にKarhunen-Loeve(K-L)変換を施し、変換カーネルHを量子化して符号化し、変換後に取得された残差一次成分EU{eu(0), eu(1), …, eu(N-1)}および残差二次成分ED{ed(0), ed(1), …, ed(N-1)}に階層量子化および符号化ならびに多重量子化および符号化を施す。
【0038】
S19:重要さに応じて、符号化側で抽出された様々な符号化情報に階層ビットストリームカプセル化を施し、符号化ビットストリームを送信する。
【0039】
M信号に関する符号化情報が最も重要であり、まずモノラル符号化レイヤとしてカプセル化され、チャネルパラメータILDおよびITD、エネルギー調整係数、エネルギー補償パラメータ、K-L変換カーネル、およびサブバンド0〜4における残差一次成分の第1の量子化および符号化の結果が、第1のステレオ拡張レイヤとしてカプセル化され、他の情報も重要さに応じて階層的にカプセル化される。
【0040】
ビットストリーム送信用のネットワーク環境は常に変化している。ネットワークリソースが不十分である場合、復号化側ではすべての符号化情報を受信できるわけではない。たとえば、モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームのみが受信され、他のレイヤのビットストリームは受信されない。
【0041】
従来技術を研究し実施する過程で、本発明者には、モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームのみが復号化側で受信された場合、すなわち、復号化されるビットストリームにモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームしか含まれていない場合、従来技術において復号化側で実行されるエネルギー補償が、エネルギー調整後の復号化されたモノラル周波数領域信号に基づく補償であり、一方、S14において符号化側でサブバンド5、6、および7のエネルギー補償パラメータを抽出することが、エネルギー調整が施されていない復号化されたモノラル周波数領域信号に基づく抽出であることが分かった。したがって、符号化側の処理された信号と復号化側の処理された信号が矛盾し、符号化側の信号と復号化側の信号の矛盾によって、復号後の信号出力の品質が低下する。
【0042】
しかし、本発明の実施形態によれば、復号化プロセスで使用される復号化されたモノラル周波数領域信号の種類は、復号化側で復号化されるビットストリームのステータスに応じて判定される。復号化側でモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームのみが受信された場合、エネルギー調整が施されていない復号化されたモノラル周波数領域信号を使用してサブバンド5、6、および7のステレオ信号が復元され、一方、エネルギー調整後の復号化されたモノラル周波数領域信号を使用してサブバンド0〜4のステレオ信号が復元される。
【0043】
図2は、本発明の一実施形態による音声復号化方法のフローチャートであり、この方法は、
S21:復号化されるビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームであると判定する段階と、
S22:モノラル符号化レイヤのビットストリームを復号化して、復号化されたモノラル周波数領域信号を取得する段階と、
S23:エネルギー調整後の復号化されたモノラル周波数領域信号を利用することによって左チャネル周波数領域信号および右チャネル周波数領域信号を第1のサブバンド領域に復元する段階と、
S24:エネルギー調整が施されていない復号化されたモノラル周波数領域信号を利用することによって左チャネル周波数領域信号および右チャネル周波数領域信号を第2のサブバンド領域に復元する段階とを含む。
【0044】
本発明の実施形態で提供される音声復号化方法では、復号化プロセスにおいてモノラル信号が復元されるときに使用されるモノラル信号の種類が、受信されたビットストリームのステータスに応じて判定される。受信されたビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームであると判定された後、エネルギー調整後の復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号が第1のサブバンド領域に復元され、エネルギー調整が施されていない復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号が第2のサブバンド領域に復元される。復号化されるビットストリームには、モノラル周波数領域信号および第1のステレオ拡張レイヤのビットストリームしか含まれず、第2のサブバンド領域内の残差のパラメータは復号化側では受信されず、したがって、エネルギー調整が施されていない復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号が第2のサブバンド領域に復元される。このようにして、符号化側の処理された信号と復号化側の処理された信号は矛盾せず、したがって、復号化されたステレオ信号の品質を向上させることができる。
【0045】
図3は、本発明の他の実施形態による他の音声復号化方法のフローチャートである。以下に、具体的なステップによって、モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームのみが復号化側で受信された場合に本発明の実施形態によって復号化側で使用される復号化方法について以下詳しく説明する。
【0046】
S31:受信されたビットストリームに含まれているのがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームのみであるかどうかを判定する。受信されたビットストリームに含まれているのがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームのみである場合、ステップS23が実行される。
【0047】
S32:符号化側で使用される音声/ボイス符号化器に対応する任意の音声/ボイス復号化器を使用して、受信されたモノラル符号化レイヤのビットストリームを復号化し、復号化されたモノラル周波数領域信号M1{m1(0), m1(1), …, m1(N-1)}、すなわちS13で符号化側で取得される信号を取得し、第1のステレオ拡張レイヤのビットストリームから各パラメータに対応する符号語を読み取り、各パラメータを復号化して、チャネルパラメータILDのWq[band][l]、Wq[band][r]、チャネルパラメータITD、エネルギー調整係数multiplier、量子化エネルギー補償パラメータecompq[band]、K-L変換カーネルH、およびサブバンド0〜4における残差一次成分の第1の量子化結果EUq1{euq1(0), euq1(1), …, euq1(end4), 0, 0, …, 0}を取得する。
【0048】
S33:復号化されたモノラル周波数領域信号M1に周波数スペクトルピーク値分析を施し、すなわち、周波数領域における周波数スペクトル最大値を探索し、周波数スペクトル分析結果MASK{mask(0), mask(1), …, mask(N-1)}を取得する。この場合、mask(i)∈{0,1}である。位置iにおけるM1の周波数スペクトル信号m1(i)がピーク値、すなわち最大値である場合、mask(i)=1であり、位置iにおけるM1の周波数スペクトル信号m1(i)がピーク値ではない場合、mask(i)=0である。
【0049】
S34:復号化および周波数スペクトル分析結果によって取得されたエネルギー調整係数multiplierに応じて式(5)を利用することによって、復号化されたモノラル周波数領域信号にエネルギー調整を施す。
【0050】
【数6】

【0051】
このようにして、エネルギー調整後の復号化されたモノラル周波数領域信号M2{m2(0), m2(1), …, m2(N-1)}が取得される。
【0052】
S35:K-L変換カーネルHおよびサブバンド0〜4における残差一次成分の第1の量子化結果EUq1{euq1(0), euq1(1), …, euq1(end4), 0, 0, …, 0}を利用することによって、式(6)に従って逆K-L変換を実行し、サブバンド0〜4における左チャネルおよび右チャネルの第1の量子化残差情報、すなわちresleftq1{eleftq1(0), eleftq1(1), …, eleftq1(end4), 0, 0, …, 0}およびresrightq1{erightq1(0), erightq1(1), …, erightq1(end4), 0, 0, …, 0}を取得する。
【0053】
【数7】

【0054】
S36:エネルギー調整後の復号化されたモノラル周波数領域信号M2を利用することによって式(7)に従って左チャネル周波数領域信号および右チャネル周波数領域信号をサブバンド0〜4に復元し、エネルギー調整が施されていない復号化されたモノラル周波数領域信号M1を利用することによって式(8)に従って左チャネル周波数領域信号および右チャネル周波数領域信号をサブバンド5、6、および7に復元する。
【0055】
l'(i)=eleftq1(i)+Wq[band][l]×m2(i)
r'(i)=erightq1(i)+Wq[band][r]×m2(i), i∈[startband, endband], band=0, 1, 2, 3, 4 …(7)
【0056】
l'(i)=eleftq1(i)+Wq[band][l]×m1(i)
r'(i)=erightq1(i)+Wq[band][r]×m1(i), i∈[startband, endband], band=5, 6, 7 …(8)
【0057】
サブバンド0〜4内の左チャネル残差情報および右チャネル残差情報を含む第1のステレオ拡張レイヤのビットストリームは復号化側で受信され、したがって、サブバンド0〜4のステレオ信号が復元されるときに、エネルギー調整後の復号化されたモノラル周波数領域信号M2を使用して左チャネル周波数領域信号および右チャネル周波数領域信号が復元される。復号化側は、モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームを除いて他のいかなる拡張レイヤのビットストリームも受信せず、したがって、サブバンド5、6、および7における左チャネル残差情報および右チャネル残差情報を取得することはできない。さらに、S14において符号化側で、サブバンド5、6、および7のエネルギー補償パラメータが式(2)に従って抽出され、エネルギー補償パラメータが、復号化されたモノラル周波数領域信号M1に基づくパラメータであり、したがって、サブバンド5、6、および7のステレオ信号がこのステップで復元されるときに、エネルギー調整が施されていない復号化されたモノラル周波数領域信号M1が復元に使用され、一方、サブバンド0〜4のステレオ信号が復元されるときに、エネルギー調整後の復号化されたモノラル周波数領域信号M2が復元に使用され、したがって、符号化側の信号と復号化側の信号が矛盾しなくなることがS14から分かる。
【0058】
S37:式(9)に従って、復元された左チャネル周波数領域信号および右チャネル周波数領域信号のサブバンド5、6、および7にエネルギー補償調整を施す。
【0059】
【数8】

【0060】
S38:左チャネル周波数領域信号および右チャネル周波数領域信号を処理して最終的な左チャネル出力信号および右チャネル出力信号を取得する。
【0061】
上記のパラメトリックステレオ音声符号化プロセスでは、周波数領域信号が8つのサブバンドに分割され、一次成分パラメータのサブバンド0〜4が第1のステレオ拡張レイヤでカプセル化され、残差に関する他のパラメータが他のステレオ拡張レイヤでカプセル化される。ここでは、サブバンド0〜4が第1のサブバンド領域と呼ばれ、サブバンド5〜7が第2のサブバンドと呼ばれることに留意されたい。特定の実装例では、パラメトリックステレオ音声符号化プロセスにおいて周波数領域信号を8つ以外の複数のサブバンドに分割してよいことも理解できよう。周波数領域信号が8つのサブバンドに分割される場合でも、8つのサブバンドを上記とは異なる2つのサブバンド領域に分割してもよい。たとえば、一次成分パラメータのサブバンド0〜3を第1のステレオ拡張レイヤでカプセル化し、残差に関する他のパラメータを他のステレオ拡張レイヤでカプセル化し、したがって、この場合、サブバンド0〜3を第1のサブバンド領域と呼び、サブバンド4〜7を第2のサブバンド領域と呼ぶ。このため、復号化されるビットストリームにモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームしか含まれない場合、本発明によれば、エネルギー調整後の復号化されたモノラル周波数領域信号を使用して、復号化側で左チャネル周波数領域信号および右チャネル周波数領域信号がサブバンド0〜3(第1のサブバンド領域)に復元され、エネルギー調整が施されていない復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号がサブバンド4〜7(第2のサブバンド領域)に復元される。
【0062】
実施形態から、復号化プロセスでモノラル信号が復元されるときに使用されるモノラル信号の種類が、受信されたビットストリームのステータスに応じて判定されることが分かる。受信されたビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームであると判定されると、エネルギー調整後の復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号が第1のサブバンド領域に復元され、エネルギー調整が施されていない復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号が第2のサブバンド領域に復元される。復号化されるビットストリームには、モノラル周波数領域信号および第1のステレオ拡張レイヤのビットストリームしか含まれず、第2のサブバンド領域内の残差のパラメータは復号化側では受信されず、したがって、エネルギー調整が施されていない復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号が第2のサブバンド領域に復元される。このようにして、符号化側の処理された信号と復号化側の処理された信号は矛盾せず、したがって、復号化されたステレオ信号の品質を向上させることができる。
【0063】
復号化側が、モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームに加えて、他のステレオ拡張レイヤのビットストリームも受信した(たとえば、モノラル符号化レイヤおよびすべてのステレオ拡張レイヤのすべてのビットストリームが受信された)場合、復号化プロセスは前述のプロセスとは異なる。違いは、すべてのサブバンド領域内の残差情報を復号化によって取得できることである。したがって、エネルギー調整後の復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号(第1および第2のサブバンド領域内のステレオ信号を含む)が復元される。また、すべてのサブバンド領域内の完全な残差信号を取得することができ、したがって、第1または第2のサブバンド内の左チャネル周波数領域信号および右チャネル周波数領域信号にエネルギー補償を施す必要はなくなる。このように、符号化側の処理された信号と復号化側の処理された信号が矛盾しなくなる。
【0064】
本発明の実施形態による音声復号化方法について上記に詳しく説明した。これに応じて、以下に、前述の音声復号化方法を使用する復号化器について説明する。
【0065】
図4は、本発明の実施形態による音声復号化器1の概略構造図であり、音声復号化器1は、判定ユニット41と、処理ユニット42と、第1の復元ユニット43とを含む。
【0066】
判定ユニット41は、復号化されるビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームであるかどうかを判定するように構成されている。復号化されるビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームである場合、第1の復元ユニット43が起動される。
【0067】
処理ユニット42は、モノラル符号化レイヤを復号化して復号化されたモノラル周波数領域信号を取得するように構成されている。
【0068】
第1の復元ユニット43は、エネルギー調整後の復号化されたモノラル周波数領域信号を利用することによって左チャネル周波数領域信号および右チャネル周波数領域信号を第1のサブバンド領域に復元し、エネルギー調整が施されていない復号化されたモノラル周波数領域信号を利用することによって左チャネル周波数領域信号および右チャネル周波数領域信号を第2のサブバンド領域に復元するように構成されており、この場合、エネルギー調整が施されていない復号化されたモノラル周波数領域信号は、処理ユニット42が復号化を行うことによって取得される。
【0069】
処理ユニット42は、第1のステレオ拡張レイヤのビットストリームを復号化してエネルギー調整係数を取得し、復号化されたモノラル周波数領域信号に周波数スペクトルピーク値分析を施して周波数スペクトル分析結果を取得し、周波数スペクトル分析結果およびエネルギー調整係数に従って、復号化されたモノラル周波数領域信号にエネルギー調整を施すようにさらに構成されている。
【0070】
パラメトリックステレオ音声符号化プロセスにおいて、周波数領域信号が8つのサブバンドに分割される場合、一次成分パラメータのサブバンド0〜4が第1のステレオ拡張レイヤでカプセル化され、残差に関する他のパラメータが他のステレオ拡張レイヤでカプセル化され、第1の復元ユニット43は特に、エネルギー調整後の復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号をサブバンド0〜4に復元し、エネルギー調整が施されていない復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号をサブバンド5、6、および7に復元するように構成され、この場合、エネルギー調整が施されていない復号化されたモノラル周波数領域信号は、処理ユニット42が復号化を行うことによって取得される。
【0071】
処理ユニット42はさらに、第1の復元ユニット43が復元された左チャネル周波数領域信号および右チャネル周波数領域信号を取得した後、復元された左チャネル周波数領域信号および右チャネル周波数領域信号のサブバンド5、6、および7にエネルギー補償調整を施すように構成されている。
【0072】
この実施形態で導入された音声復号化器は、モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームのみが受信されたと判定した後、エネルギー調整後の復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号を第1のサブバンド領域に復元し、エネルギー調整が施されていない復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号を第2のサブバンド領域に復元することが分かる。モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームのみが受信され、そのため、第2のサブバンド領域内の残差信号のパラメータは受信されない。したがって、エネルギー調整が施されていない復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号が第2のサブバンド領域に復元される。このように、符号化側の処理された信号と復号化側の処理された信号が矛盾しなくなり、したがって、復号化されたステレオ信号の品質を向上させることができる。
【0073】
図4は、本発明の一実施形態による音声復号化器2の概略構造図である。音声復号化器2は、音声復号化器1とは異なり、第2の復元ユニット51をさらに含んでいる。
【0074】
第2の復元ユニット51は、判定ユニット41の判定結果が、復号化されるビットストリームに、モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームに加えて、他のステレオ拡張レイヤのビットストリームも含まれることを示すときに、エネルギー調整後の復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号をすべてのサブバンド領域に復元するように構成されている。
【0075】
特定の実装例では、第1の復元ユニット43と第2の復元ユニット51を一体化して1つの復元ユニットとして使用できることが理解されよう。
【0076】
当業者には、前述の実施形態による方法の各ステップのすべてまたは一部を、関連するハードウェアに命令を下すプログラムによって実施できることが理解されよう。このプログラムは、コンピュータ読み取り可能な記憶媒体に記憶することができる。記憶媒体は、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、または光学ディスクであってよい。
【0077】
本発明の実施形態で提供される音声処理方法および音声復号化器について上記に詳しく説明した。本発明の原理および実装例について特定の例によって説明した。前述の実施形態に関する説明は単に、本発明の方法および中心的な概念を理解するのを助けるのに使用されている。一方、当業者は、本発明の概念に応じた特定の実装例および用途範囲に関して本発明に様々な変形および修正を施すことができる。したがって、本明細書は、本発明に対する限定として解釈されるべきではない。
【符号の説明】
【0078】
1 音声復号化器
41 判定ユニット
42 処理ユニット
43 第1の復元ユニット
51 第2の復元ユニット

【特許請求の範囲】
【請求項1】
復号化されるビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームであると判定する段階と、
前記モノラル符号化レイヤのビットストリームを復号化して復号化されたモノラル周波数領域信号を取得する段階と、
エネルギー調整後の復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第1のサブバンド領域に復元する段階と、
エネルギー調整が行われていない復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第2のサブバンド領域に復元する段階と、
を有する音声復号化方法。
【請求項2】
前記復号化されたモノラル周波数領域信号にエネルギー調整を行う段階をさらに有する請求項1に記載の方法。
【請求項3】
前記復号化されたモノラル周波数領域信号にエネルギー調整を行う段階は、
前記第1のステレオ拡張レイヤのビットストリームを復号化してエネルギー調整係数を取得する段階と、
前記復号化されたモノラル周波数領域信号に周波数スペクトルのピーク値の分析を行って周波数スペクトルの分析結果を取得する段階と、
前記周波数スペクトルの分析結果およびエネルギー調整係数に従って前記復号化されたモノラル周波数領域信号にエネルギー調整を行う段階と、
をさらに有する請求項2に記載の方法。
【請求項4】
前記エネルギー調整後の復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第1のサブバンド領域に復元する段階、および、前記エネルギー調整が行われていない復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第2のサブバンド領域に復元する段階は、
前記エネルギー調整後の復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号をサブバンド0から4に復元する段階と、前記エネルギー調整が行われていない復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号をサブバンド5、6、および7に復元する段階と、を有する請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記左チャネル周波数領域信号および右チャネル周波数領域信号を復元する段階の後で、
前記復元された左チャネル周波数領域信号および右チャネル周波数領域信号のサブバンド5、6、および7にエネルギー補償調整を行う段階をさらに有する請求項4に記載の方法。
【請求項6】
判定ユニットと、処理ユニットと、第1の復元ユニットとを備える音声復号化器であって、
前記判定ユニットは、復号化されるビットストリームがモノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームであるかどうかを判定するように構成され、前記復号化されるビットストリームが前記モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームである場合、前記第1の復元ユニットが起動され、
前記処理ユニットは、前記モノラル符号化レイヤのビットストリームを復号化して復号化されたモノラル周波数領域信号を取得するように構成され、
前記第1の復元ユニットは、エネルギー調整後の復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第1のサブバンド領域に復元し、エネルギー調整が行われていない復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号を第2のサブバンド領域に復元するように構成され、前記エネルギーが行われていない復号化されたモノラル周波数領域信号は、前記処理ユニットによる復号化によって取得される音声復号化器。
【請求項7】
前記処理ユニットは、前記第1のステレオ拡張レイヤのビットストリームを復号化してエネルギー調整係数を取得し、前記復号化されたモノラル周波数領域信号に周波数スペクトルのピーク値の分析を行って周波数スペクトルの分析結果を取得し、前記周波数スペクトルの分析結果およびエネルギー調整係数に従って前記復号化されたモノラル周波数領域信号にエネルギー調整を行うようにさらに構成される請求項6に記載の音声復号化器。
【請求項8】
前記第1の復元ユニットは、前記エネルギー調整後の復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号をサブバンド0から4に復元し、前記エネルギー調整が行われていない復号化されたモノラル周波数領域信号を利用することによって、左チャネル周波数領域信号および右チャネル周波数領域信号をサブバンド5、6、および7に復元するように構成され、前記エネルギー調整が行われていない復号化されたモノラル周波数領域信号は、前記処理ユニットによる復号化によって取得される請求項7に記載の音声復号化器。
【請求項9】
前記処理ユニットはさらに、前記第1の復元ユニットが前記復元された左チャネル周波数領域信号および右チャネル周波数領域信号を取得した後で、前記復元された左チャネル周波数領域信号および右チャネル周波数領域信号のサブバンド5、6、および7にエネルギー補償調整を行うように構成される請求項8に記載の音声復号化器。
【請求項10】
第2の復元ユニットをさらに備え、
前記第2の復元ユニットは、前記復号化されるビットストリームが、前記モノラル符号化レイヤおよび第1のステレオ拡張レイヤのビットストリームに加えて、他のステレオ拡張レイヤのビットストリームを含むことを前記判定ユニットの判定結果が示すとき、前記エネルギー調整後の復号化されたモノラル周波数領域信号を使用して左チャネル周波数領域信号および右チャネル周波数領域信号をすべてのサブバンド領域に復元するように構成される請求項6に記載の音声復号化器。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公表番号】特表2012−527001(P2012−527001A)
【公表日】平成24年11月1日(2012.11.1)
【国際特許分類】
【出願番号】特願2012−510106(P2012−510106)
【出願日】平成22年5月14日(2010.5.14)
【国際出願番号】PCT/CN2010/072781
【国際公開番号】WO2010/130225
【国際公開日】平成22年11月18日(2010.11.18)
【出願人】(504277388)▲ホア▼▲ウェイ▼技術有限公司 (220)
【Fターム(参考)】