説明

信号処理方法及び装置

第1信号及び第2信号のうち一つ以上を受信する段階と、モード情報を受信する段階と、該モード情報に基づいて第1コーディング方式及び第2コーディング方式のうち一つ以上を用いて前記第1信号及び第2信号のうち一つ以上をコーディングする段階と、を含み、前記モード情報は、所定のモードが少なくとも3つのモードのうちどのモードに該当するかを表す信号処理方法が開示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号処理方法及び装置に係り、より詳細には、信号の特性に応じて適切な方式で信号をコーディングまたはデコーディングすることができる信号処理方法及び装置に関するものである。
【背景技術】
【0002】
一般に、オーディオエンコーダは、48kbps以上の高いビット率で高音質のオーディオ信号を提供することができるが、音声エンコーダは、12kbps以下の低いビット率で音声信号を效果的にコーディングすることができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
従来のオーディオエンコーダは、音声信号を処理するには非効率的であり、従来の音声エンコーダは、オーディオ信号を処理するには不充分であるいう問題点があった。
【課題を解決するための手段】
【0004】
従って、本発明は信号を処理するための装置、及びその方法を対象としており、従来技術の制約、不利点による1つ以上の問題を実質的に取り除く。
【0005】
本発明の目的は、音声信号、オーディオ信号などのように互いに異なる特性を有する信号を、その特性に応じて最適の方式で処理できる信号処理方法及び装置を提供することにある。
【0006】
本発明の他の目的は、音声信号の特性とオーディオ信号の特性を同時に有する信号を最適の方式で処理できる信号処理方法及び装置を提供することにある。
【0007】
本発明のさらに他の目的は、音声信号、オーディオ信号などの様々な信号を全て效率的に処理できる信号処理方法及び装置を提供することにある。
【発明の効果】
【0008】
本発明は、下記のような効果と利点を提供する。
【0009】
第一に、音声信号の特性を有する信号は音声コーディング方式でデコーディングし、オーディオ信号の特性を有する信号はオーディオコーディング方式でデコーディングするため、各信号特性に符合するデコーディング方式を適応的に選択することができる。
【0010】
第二に、音声信号の特性とオーディオ信号の特性を同時に有する信号に対して、特性の比重によって、コーディング方式に対応するビットレートが割り当てられるため、適応的に最適のデコーディング方式を選択することができる。
【0011】
第三に、各フレーム別にモードが変化するため、デコーディング方式及びデコーディング方式に割り当てられるビットレートが時間的な流れにしたがって適応的に変化する。
【0012】
第四に、デコーディング方式が自動的に変化するため、最適のビット率を割り当てることができ、コーディング品質を向上させることができる。
【0013】
本発明の更なる理解を提供するために包含され、並びに本明細書の一部に組み込まれ、及び一部を構成する図面は、本発明の原理を説明するために提供される明細書と共に、本発明の実施例を説明する。
【図面の簡単な説明】
【0014】
【図1】本発明の実施例による信号エンコーディング装置の構成図である。
【図2】変調周波数分析過程を概略的に説明するための図である。
【図3】変調スペクトログラムに関する図である。
【図4】コーディング方式に関するモードを説明するための図である。
【図5】フレーム間のモード変化を説明するための図である。
【図6】本発明の実施例によるエンコーディング方法のフローチャートである。
【図7】本発明の実施例によるコーディング性能を説明するための図である。
【図8】本発明の実施例による信号デコーディング装置の構成図である。
【図9】本発明の実施例による信号デコーディング方法のフローチャートである。
【発明を実施するための形態】
【0015】
本発明の更なる特徴、及び利点は下記明細書で説明され、一部分は、明細書から明らかとなり、又は本発明の実施から知ることができる。本発明の目的、及びその他の利点は、明細書、特許請求の範囲、図面において、特に指摘される構成により実現され、達成される。
【0016】
上記のような目的を達成するための本発明に係る信号処理方法は、第1信号及び第2信号のうち一つ以上を受信する段階;モード情報を受信する段階;及び、前記モード情報によって第1コーディング方式及び第2コーディング方式のうち一つ以上を用いて、前記第1信号及び前記第2信号のうち一つ以上をコーディングする段階を含み、前記モード情報は3つ以上のモードのうちどのモードに該当するかを表す情報である。
【0017】
本発明によれば、前記モードは、前記第1コーディング方式を用いる第1モード、前記第1コーディング方式及び前記第2コーディング方式の両方を用いる第2モード、及び前記第2コーディング方式を用いる第3モードを含むことができる。
【0018】
本発明によれば、前記モード情報は、2つ以上のフラグ情報として表現されることができる。
【0019】
本発明によれば、前記モード情報は、第1コーディング方式及び第2コーディング方式にそれぞれ割り当てられるビットレート情報をさらに含み、複数のフーリエ変換を通じて決定されることができる。
【0020】
本発明によれば、前記第1コーディング方式はスピーチコーディング方式に該当し、前記第2コーディング方式はオーディオコーディング方式に該当することができる。
【0021】
本発明によれば、前記第1信号は高調波(harmonic)信号に該当し、前記第2信号は残余(residual)信号に該当し、前記第2信号は、入力信号から前記第1信号を減算した信号から獲得されることができる。
【0022】
本発明によれば、前記モード情報は、第1フレームに対するモード情報である第1フレームモード、及び第2フレームに対するモード情報である第2フレームモードを含み、前記第1フレームモードが第1モードであり、前記第2フレームモードが第3モードである場合、または、前記第1フレームモードが前記第3モードであり、前記第2フレームモードが前記第1モードである場合、前記第1フレームモード及び前記第2フレームモードのうち一つ以上を第2モードに変換する段階をさらに含むことができる。
【0023】
本発明のさらに他の側面によれば、第1信号及び第2信号のうち一つ以上を受信し、モード情報を受信する受信部;及び、前記モード情報によって第1コーディング方式及び第2コーディング方式のうち一つ以上を用いて、前記第1信号及び前記第2信号のうち一つ以上をコーディングするコーディング部を含み、前記モード情報は、3つ以上のモードのうちどのモードに該当するかを表す情報である信号処理装置が提供される。
【0024】
本発明によれば、前記モードは、前記第1コーディング方式を用いる第1モード、前記第1コーディング方式及び前記第2コーディング方式の両方を用いる第2モード、及び前記第2コーディング方式を用いる第3モードを含むことができる。
【0025】
本発明によれば、前記モード情報は、2つ以上のフラグ情報として表現されることができる。
【0026】
本発明によれば、前記モード情報は、第1コーディング方式及び第2コーディング方式にそれぞれ割り当てられるビットレート情報をさらに含み、複数のフーリエ変換を通じて決定されることができる。
【0027】
本発明によれば、前記第1コーディング方式はスピーチコーディング方式に該当し、前記第2コーディング方式はオーディオコーディング方式に該当することができる。
【0028】
本発明によれば、前記第1信号は高調波信号に該当し、前記第2信号は残余信号に該当し、前記第2信号は、入力信号から前記第1信号を減算した信号から獲得されることができる。
【0029】
本発明によれば、前記モード情報は、第1フレームに対するモード情報である第1フレームモード、及び第2フレームに対するモード情報である第2フレームモードを含み、前記コーディング部は、前記第1フレームモードが第1モードであり、前記第2フレームモードが第3モードである場合、または、前記第1フレームモードが前記第3モードであり、前記第2フレームモードが前記第1モードである場合、前記第1フレームモード及び前記第2フレームモードのうち一つ以上を第2モードに変換することができる。
【0030】
本発明のさらに他の側面によれば、入力信号から第1信号を抽出する段階;前記入力信号及び前記第1信号からモード情報を決定する段階;前記入力信号及び前記第1信号に基づいて第2信号を生成する段階;及び、前記モード情報によって第1コーディング方式を用いて前記第1信号をエンコーディングし、第2コーディング方式を用いて前記第2信号をエンコーディングする段階を含む信号処理方法が提供される。
【0031】
本発明のさらに他の側面によれば、第1モード、第2モード及び第3モードを含むモードのうちどのモードに該当するかを表す情報として、第1フレームモード及び第2フレームモードを含むモード情報を受信する段階を含み、前記第2フレームモードが前記第1モードである場合、前記第1フレームモードが前記第1モード及び前記第2モードのいずれか一方に該当し、前記第2フレームモードが前記第3モードである場合、前記第1フレームモードが前記第3モード及び前記第2モードのいずれか一方に該当する信号処理方法が提供される。
【0032】
本発明によれば、前記第1モードは、第1コーディング方式を用いるモードに該当し、前記第3モードは、第2コーディング方式を用いるモードに該当し、前記第2モードは、前記第1モード及び前記第3モードを連結するためのモードに該当することができる。
【0033】
本発明によれば、前記第2モードは、順方向連結モード、及び逆方向連結モードを含むことができる。
【0034】
本発明によれば、前記第2フレームモードが第1モードである場合、前記第1フレームモードが第1モード及び前記逆方向連結モードのいずれか一方に該当し、前記第2フレームモードが第3モードである場合、前記第1フレームモードが第3モード及び前記順方向連結モードのいずれか一方に該当することができる。
【0035】
本発明によれば、前記第1コーディング方式はスピーチコーディング方式に該当し、前記第2コーディング方式はオーディオコーディング方式に該当することができる。
【0036】
本発明によれば、前記第2モードは、前記第1コーディング方式及び前記第2コーディング方式の両方を用いるモードに該当することができる。
【0037】
本発明によれば、第1信号及び第2信号のうち一つ以上を受信する段階;及び、前記モード情報によって第1コーディング方式及び第2コーディング方式のうち一つ以上を用いて、前記第1信号及び前記第2信号のうち一つ以上をコーディングする段階をさらに含むことができる。
【0038】
本発明のさらに他の側面によれば、第1モード、第2モード及び第3モードを含むモードのうちどのモードに該当するかを表す情報として、第1フレームモード及び第2フレームモードを含むモード情報を受信する受信部を含み、前記第2フレームモードが前記第1モードである場合、前記第1フレームモードが前記第1モード及び前記第2モードのいずれか一方に該当し、前記第2フレームモードが前記第3モードである場合、前記第1フレームモードが前記第3モード及び前記第2モードのいずれか一方に該当する信号処理装置が提供される。
【0039】
本発明によれば、前記第1モードは、第1コーディング方式を用いるモードに該当し、前記第3モードは、第2コーディング方式を用いるモードに該当し、前記第2モードは、前記第1モード及び前記第3モードを連結するためのモードに該当することができる。
【0040】
本発明によれば、前記第2モードは、順方向連結モード及び逆方向連結モードを含むことができる。
【0041】
本発明によれば、前記第2フレームモードが第1モードである場合、前記第1フレームモードが、第1モード及び前記逆方向連結モードのいずれか一方に該当し、前記第2フレームモードが第3モードである場合、前記第1フレームモードが、第3モード及び前記順方向連結モードのいずれか一方に該当することができる。
【0042】
本発明によれば、前記第1コーディング方式はスピーチコーディング方式に該当し、前記第2コーディング方式はオーディオコーディング方式に該当することができる。
【0043】
本発明によれば、前記第2モードは、前記第1コーディング方式及び前記第2コーディング方式の両方を用いるモードに該当することができる。
【0044】
本発明によれば、前記受信部は、第1信号及び第2信号のうち一つ以上を受信し、前記モード情報によって第1コーディング方式及び第2コーディング方式のうち一つ以上を用いて、前記第1信号及び前記第2信号のうち一つ以上をコーディングするコーディング部をさらに含むことができる。
【0045】
本発明のさらに他の側面によれば、第1モード、第2モード及び第3モードを含むモードのうちどのモードに該当するかを表す情報として、第1フレームモード及び第2フレームモードを含むモード情報を決定する段階;前記第2フレームモードが前記第1モードである場合、前記第1フレームモードを前記第1モード及び前記第2モードのいずれかに変換する段階;及び、前記第2フレームモードが前記第3モードである場合、前記第1フレームモードを前記第3モード及び前記第2モードのいずれかに変換する段階を含む信号処理方法が提供される。
【0046】
当然であるが、上記の一般的な記載、及び下記の詳細な説明は、例示的なもの、及び説明のためのものであり、請求項に記載された本発明の更なる説明を与えることを目的とする。
【0047】
以下、本発明の好適な実施例を詳細に記載し、それらの実例を図面により説明する。
【0048】
本発明でいうコーディングは、エンコーディング及びデコーディングの両方を含む概念として理解すべきである。
【0049】
図1は、本発明の実施例による信号エンコーディング装置の構成を示す図である。図1を参照すると、高調波信号分離部110、第1エンコーダ120、電力比算出部130、モード決定部140、第1合成部150、減算器160、第2エンコーダ170、伝送部180を含む。ここで、第1エンコーダ110は音声エンコーダにし、第2エンコーダ170はオーディオエンコーダにすることができる。
【0050】
高調波信号分離部110は、入力信号x(n)から高調波信号xh(n)(または、周波数高調波信号)を抽出する。この時、ショートタイムフーリエ変換(short-time Fourier Transform(STFT))及び変調周波数分析(Modulation Frequency Analysis)を行うことができるが、この過程についての具体的な説明は、図2及び図3で後述する。
【0051】
第1エンコーダ120は、高調波信号xh(n)を第1コーディング方式を通じてエンコーディングし、エンコーディングされた高調波信号を生成する。この時、第1コーディング方式は、音声コーディング方式(speech coding scheme)に該当することができる。この音声コーディング方式は、AMR−WB(Adaptive multi-rate Wide-Band)標準にしたがうものとすることができるが、本発明はこれに限定されない。一方、第1エンコーダ120は、線形予測符号化(LPC: Linear Prediction Coding)方式をさらに用いることができる。高調波信号が時間軸上で高い冗長性(redundancy)を有する場合、過去信号から現在信号を予測する線形予測によりモデリングすることができるが、この場合、線形予測符号化方式を採択することによって符号化効率を向上させることができる。一方、第1エンコーダ120は、タイムドメインエンコーダに該当することができる。
【0052】
電力比算出部130は、入力信号x(n)及び高調波信号xh(n)を用いて電力比を算出する。ここにいう電力比は、入力信号の電力に対する高調波信号の電力の比率であり、下記の数式で定義できる。
【0053】
【数1】

【0054】
ここで、nは時間インデックス、x(n)は入力信号、xh(n)は高調波信号を表す。
【0055】
モード決定部140は、電力比算出部130により算出された電力比に基づいて、入力信号x(n)のコーディング方式に関するモード情報を決定する。ここで、モード情報は、3つ以上のモードのうちどのモードに該当するかを表す情報である。ここでいう3つのモードは、第1モード、第2モード、第3モードでありうる。第1モードは第1コーディング方式を用いるモードに該当し、第3モードは第2コーディング方式を用いるモードに該当する。一方、第2モードは、第1コーディング方式及び第2コーディング方式の両方を用いるモードに該当することもでき、第1モード及び第3モードを連結するためのモードに該当することもできる。後者の場合、第2モードは、第1モードを第3モードに連結するための順方向連結モード、第3モードを第1モードに連結するための逆方向連結モードを含む。
【0056】
一方、上記第1コーディング方式は、上述した通り、第1エンコーダ110で行われる方式に該当し、第2コーディング方式は、第2エンコーダ170で行われる方式に該当する。そして、第2モードは、第1コーディング方式及び第2コーディング方式のそれぞれに割り当てられるビットレート別に異なるモードを2つ以上含むことができる。これについての具体的な説明は、図4で後述する。
【0057】
一方、第1合成部150は、第1エンコーダ110によりエンコーディングされた高調波信号を第1コーディング方式によって再びデコーディングする。そして、減算器160は、入力信号x(n)から第1合成部150によりデコーディングされた高調波信号xh(n)を減算した残余信号xr(n)を生成する。この時、残余信号xr(n)は、入力信号から高調波信号を減算した信号そのものであっても良いが、減算した信号から獲得した信号であっても良い。
【0058】
第2エンコーダ170は、残余信号xr(n)を第2コーディング方式によってエンコーディングし、エンコーディングされた残余信号を生成する。ここでいう第2コーディング方式は、オーディオコーディング方式(audio coding scheme)に該当することができる。このオーディオコーディング方式は、HE−AAC(High Efficiency Advanced Audio Coding)標準に従うものとすることもできるが、本発明はこれに限定されない。ここで、HE−AACは、AAC(Advanced Audio Coding)技術とSBR(Spectral Band Replication)技術とを結合させたものとすることができる。このSBRは、低いビットレートで特に効率的な技術であり、低いまたは中間周波数帯域(mid-frequency)から高調波信号を移調(transposing)することによって高い周波数帯域のコンテンツを複製(replicate)する技術である。一方、第2エンコーダ170は、MDCT(Modified Discrete Transform)エンコーダに該当することができる。
【0059】
一方、第1エンコーダ120によりエンコーディングされた信号と第2エンコーダ170によりエンコーディングされた信号はデコーダで同時に処理されなければならず、フレーム長(frame length)が同一でなければならない。したがって、第2エンコーダ170におけるフレーム長である1024サンプルと同一にするために、第1エンコーダ120におけるフレーム長を256サンプルにし、連続した4個のフレームを一つの単位として処理する。
【0060】
伝送部180は、エンコーディングされた高調波信号xh(n)、モード情報、エンコーディングされた残余信号xr(n)を用いて伝送するビットストリームを生成する。この時、モード情報は、2つ以上のフラグ情報として表現されることができる。例えば、まず、第1コーディング方式及び第2コーディング方式のいずれか一方が第1フラグ情報として表現され、第1フラグ情報に応じて、第1コーディング方式(または第2コーディング方式)に割り当てられるビットレート情報、技術種類、ウインドタイプなどが第2フラグ情報として表現されることができる。
【0061】
図2は、変調周波数分析過程を概略的に説明するための図であり、図3は、変調スペクトログラムに関する図である。以下、図2及び図3を参照しつつ、入力信号から高調波信号を抽出する過程について具体的に説明する。
【0062】
まず、図2を参照すると、サブバンドエンベロープ(envelope)検出及びサブバンドエンベロープの周波数検出後のフィルタバンクは、変調周波数分析の構造に該当する。ショートタイムフーリエ変換(STFT)を用いてフィルタバンクが具現される。離散信号x(n)に対して、ショートタイムフーリエ変換は下記の数式2で表現されることができ、エンベロープ検出及び変調周波数分析は下記の数式3で表現されることができる。
【0063】
【数2】

【0064】
ここで、Wk = e-j(2π/K)であり、h(n)はアコースティック(acoustic)周波数分析ウインド、mはタイムスロットインデックス、Mはウインドh(n)のサイズ、nは時間インデックス、kはアコースティック周波数インデックスを表す。
【0065】
【数3】

【0066】
ここで、WI = e-j(2π/I)であり、g(n)は変調周波数分析ウインド、lはフレームインデックス、mはタイムスロットインデックス、Lはウインドg(n)のサイズ、kはアコースティック周波数インデックス、iは変調周波数インデックスを表す。
【0067】
図2(A)を参照すると、時間領域の信号にアコースティック周波数分析ウインドh(mM−n)がそれぞれ適用されることによって周波数変換が行われることがわかる。このように1次的に周波数変換が行われた結果は、図2(B)に示すように、タイムスロット(m)軸及びアコースティック周波数(k)軸に対応するデータとなる。図2(B)に示される結果に再び変調周波数分析ウインドg(lL−m)を適用することによって、再び変調周波数分析を行うと、図2(C)に示すように、変調周波数(i)軸及びアコースティック周波数(k)軸に対応するデータXl(k,i)が生成される。
【0068】
図3を参照すると、(a)〜(c)は変調スペクトログラムであり、(a)は音声信号、(B)は音声と音楽とがミックスされた信号、(c)は音楽信号に対するものである。図3(a)〜(c)を参照すると、横軸は変調周波数を表し、縦軸はアコースティック周波数を表し、濃淡でエネルギーの強度を表している。一方、図3(d)〜(f)で、横軸は同様に変調周波数を表し、縦軸はアコースティック周波数全体に対するエネルギー和である。高レベルはピッチ(pitch)領域で現れる。図3に示すピーク探索領域(peak searching range)でのピーク点(peak point)は、凸包アルゴリズム(convex hull algorithm)に基づいて計算することができる。獲得されたピーク点にマージン(margin)を許容することによって、高調波成分のピッチ領域を算出することができる。一方、変調周波数インデックスのセットは、下記のように定義できる。
【0069】
【数4】

【0070】
ここで、fsがサンプリング周波数である時、iはピッチ領域Pにおける変調周波数インデックスのセットである。
【0071】
高調波信号のピッチ領域に該当する変調周波数エネルギーは、下記の数式5で表すことができる。
【0072】
【数5】

【0073】
下記の数式6のように、非高調波(non-harmonic)信号の範囲は、ピッチ領域の外側領域であると見なされる。
【0074】
【数6】

【0075】
各フレームl、すなわち、タイムインスタンスn=l(LM)において、周波数抑圧関数Flは、下記の数式のように高調波領域と残余領域間の比で決定されることができる。
【0076】
【数7】

ここで、kはアコースティック周波数インデックス、lはフレームインデックスを表す。
【0077】
数式7で、El()は数式5で定義されたとおりであり、Er()は、数式6で定義されたとおりである。
【0078】
上記の数式7から獲得された値は、入力信号の非高調波成分を抑圧するために、上記数式2での各アコースティック周波数の絶対値(大きさ)に乗じる。
【0079】
図4は、コーディング方式に関するモードを説明するための図である。図1で説明した通り、モード決定部は、数式1で算出した電力比に基づいて、入力信号のコーディング方式に関するモード情報を決定する。例えば、第1コーディング方式がAMR−WB標準に従うことができる。AMR−WBは、サンプリングレートが16kHzであり、最大値23.85kbit/sを含めて総9種のモードで構成される。すなわち、6.6、8.85、12.65、14.25、15.85、18.25、19.85、23.05、及び23.85kbit/sのモードが存在する。
【0080】
一方、第2コーディング方式はHE−AAC標準に従うことができる。HE−AACは、サンプリングレートが16kHzである場合、ビットレートは20kbit/s以下のレートを用いる。
【0081】
したがって、本発明では、第1コーディング方式及び第2コーディング方式のいずれか一方を用いたり両方を用いるために、例えば16kHzサンプリングレートの信号である場合、総ビットレートは19.85kbit/sでありうる。総ビットレートが19.85kbit/sである場合、上記9種のモードのうち、6.6及び8.85の2種類のモードが用いられることができる。AMB−WBを作動させるモードが決定されると、総ビットレートからAMB−WBに対応するビットレートを除く残りビットレートがHE−AACに割り当てられることができる。
【0082】
図4を参照すると、まず、モードAは、電力比POWratioが1に近い時、モードB及びモードCは一定値(ThrA、ThrB、ThrC)の間に存在する時、モードDは0に近い時に該当することがわかる。
【0083】
まず、モードAは、第1コーディング方式(例:音声コーディング方式)のみを用い、モードDは、第2コーディング方式(例:オーディオコーディング方式)のみを用い、モードB及びモードCは両方式を用いることがわかる。モードAは、電力比が特定臨界値ThrA及び1の間に存在する場合であり、入力信号の大部分が高調波信号(または周波数高調波信号)で構成されているため、ビットレートの全部が音声コーディング方式に割り当てられ、モードDは、電力比が0及び特定臨界値ThrCの間に存在する場合であり、入力信号の大部分が非高調波信号で構成されているため、ビットレートの全部がオーディオコーディング方式に割り当てられる。一方、モードBの場合は、入力信号のうち高調波信号の比重が相対的に高いため、音声コーディング方式に相対的に高いビットレート(例:8.85kbit/s)を割り当て、その残り(11.0bit/s)をオーディオコーディング方式に割り当てる。モードCの場合は、入力信号のうち非高調波信号の比重が高いため、音声コーディング方式に比較的少ないビットレート(例:6.60kbit/s)を割り当て、残りビットレート(例:13.25kbit/s)をオーディオコーディング方式に割り当てる。
【0084】
本発明において、これらのモードは特定値のビットレートに限定されない。また、2つ以上のコーディング方式を用いる第2モードとして、2つのモード(モードB及びモードC)を例にして説明したが、第2モードには3つ以上のモードが存在することもできる。
【0085】
図5は、フレーム間のモード変化を説明するための図である。一方、2つ以上連続したフレームが存在する時、入力信号の特性によって、2フレームの知覚的不連続(perceivable discontinuity)が発生することがある。具体的に、モードAからモードD変化する時は、第2コーディング方式でのみデコーディングされたフレームから第1コーディング方式でのみデコーディングされたフレームに変化することであるため、知覚的な不連続が生じうる。したがって、モードAからモードDへの変化またはモードDからモードAへの変化を許容しない場合がある。図5を参照すると、モードA及びモードB間、モードB及びモードC間、モードC及びモードD間、モードB及びモードD間の相互切換は許容するが、モードA及びモードD間の切換は許容しない。言い換えると、第1モード(モードA)及び第2モード(モードB及びモードC)、第2モード及び第3モード(モードD)間の相互切換は可能であるが、第1モード及び第3モード間の切換は制限されうる。
【0086】
もし、図1で説明したモード決定部140が連続したフレームのモードを決定するにあたり、上記のように制限されたモード変化が感知される場合、強制的にモードを切り換えることができる。具体的に、第1フレームモードが第1モードであり、第2フレームモードが第3モードである場合、第1フレームモードが第3モードであり、第2フレームモードが第1モードである場合、第1フレームモードを第2モードに切り換えたり、第2フレームモードを第2モードに切り換える。もちろん、第1フレームモード、第2フレームモード両方を第2モードに切り換えることもできる。言い換えると、第2フレームモードが第1モードである場合、第1フレームモードを第1モードまたは第2モード(特に、逆方向連結モード)にし、第2フレームモードが第3モードである場合、第1フレームモードを第3モードまたは第2モード(特に、順方向連結モード)にする。
【0087】
図6は、本発明の実施例によるエンコーディング方法を示すフローチャートである。
【0088】
図6を参照すると、まず、入力信号から高調波信号を分離する(S110段階)。そして入力信号に対する高調波信号の電力比を算出する(S120段階)。この電力比に基づいてコーディング方式に関する情報であるモード情報を決定する(S130段階)。上述の通り、モード情報は、3つ以上のモードのうちどのモードに該当するかを表す情報であり、この3つのモードは、第1コーディング方式のみを用いる第1モード、第2コーディング方式のみを用いる第3モードを含む。また、第2モードも含まれるが、これは、第1コーディング方式及び第2コーディング方式を用いるモードに該当することもでき、第1モード及び第3モードを連結するためのモードに該当することもできる。後者の場合、第2モードは順方向連結モード及び逆方向連結モードを含む。
【0089】
モード情報に基づいて高調波信号を第1コーディング方式でエンコーディングする(S140段階)。そして、入力信号と高調波信号を用いて残余信号を生成する(S150段階)。ここで、高調波信号は、第1コーディング方式でエンコーディングした後、再び第1コーディング方式でデコーディングされた信号でありうる。その後、残余信号を第2コーディング方式でエンコーディングする(S160段階)。そして、エンコーディングされた高調波信号、エンコーディングされた残余信号、モード情報を用いてビットストリームを生成する(S170段階)。
【0090】
図7は、本発明の実施例によるコーディング性能を説明するための図である。
【0091】
図7を参照すると、下端に列挙した総7個のサンプル信号を様々なコーディング方式によってコーディングした場合における品質がわかる。性能評価のためのテスト条件は、サンプリングレートが16kHzであり、数式2及び数式3でM=16、K=512、L=32、及びI=512である。一方、h(n)は、48ポイントハニング(Hanning)ウインドであり、g(n)は、64ポイントハニングウインドである。ピッチ探索領域は、AMR−WBコーダのピッチ探索間隔を考慮して70Hz〜485Hzとする。ピッチ領域を探索するためのマージンは20Hzであり、上記の図4における臨界値ThrA=0.5、ThrB=0.4、及びThrC=0.5である。
【0092】
具体的に、本発明による方式(b)、オーディオコーディング方式(c)、音声コーディング方式(d)のそれぞれでコーディングした時の品質を、オリジナル(a)の品質と比較することができる。音声と音楽信号が順次にミックスされた信号(サンプル1、及びサンプル2)及び同時にミックスされた信号(サンプル4、及びサンプル6)において、特に本発明による方式(b)が相対的に他の方式に比べて良い品質を示している。一方、サンプル7の場合は、純粋な音楽信号であるにもかかわらず、オーディオコーディング方式(三角印参照)を用いる場合に比べて本発明による方式がより良い品質を示している。
【0093】
図8は、本発明の実施例による信号デコーディング装置の構成を示す図であり、図9は、本発明の実施例による信号デコーディング方法を示すフローチャートである。図8を参照すると、本発明の実施例による信号デコーディング装置200は、受信部210、モード切換部220、第1デコーダ230、第2デコーダ240、合成部250を含む。
【0094】
受信部210は、ビットストリームを受信し、ビットストリームからエンコーディングされた高調波信号xh(n)及びエンコーディングされた残余信号xr(n)のうち一つ以上、及びモード情報を抽出する。ここで、モード情報は、上述の通り、3つ以上のモードのうちのどのモードなのかを表す情報である。このモードは、図4に示すように、第1コーディング方式を用いる第1モード、及び第2コーディング方式を用いる第3モードを含む。また、第2モードも含むが、この第2モードは、第1コーディング方式及び第2コーディング方式を用いるモードに該当することもでき、第1モード及び第3モードを連結するためのモードに該当することもできる。後者の場合、第2モードは、順方向連結モード及び逆方向連結モードを含む。一方、モード情報は、図4に示すように、各デコーダのビットレート情報をさらに含むことができる。
【0095】
一方、ビットストリームに含まれたモード情報は、第1フレームモード及び第2フレームモードを含むことができる。もし、第2フレームモードが第1モードである場合、第1フレームモードは第1モードまたは第2モード(特に、逆方向連結モード)に該当し、第2フレームモードが第3モードである場合、第1フレームモードは第3モードまたは第2モード(特に、順方向連結モード)に該当する。
【0096】
モード切換部220は、2つ以上のフレームのモード情報に対して、制限されたモード変化が感知される場合、強制的に受信されたモードを切り換える。例えば、第1フレームモード及び第2フレームモードが存在する時、第1フレームモードが第1モードであり、第2フレームモードが第3モードである場合、第1フレームモードが第3モードであり、第2フレームモードが第1モードである場合、第1フレームモード及び第2フレームモードのうち一つ以上を第2モードに切り換える。このように変換されたモード情報は、第1デコーダ230及び第2デコーダ240に伝達される。もし、モード切換部220は制限されたモード変化が感知されない場合、受信したモード情報をそのまま第1デコーダ230及び/または第2デコーダ240に伝達する。
【0097】
受信したモード情報または変換されたモード情報が第1モード乃至第3モードのうちどのモードかによって、高調波信号及び残余信号のうち一つ以上が第1デコーダ230及び/または第2デコーダ240でデコーディングされる。具体的に、第1モードである場合、高調波信号が第1デコーダ230でデコーディングされる。第2モードである場合、高調波信号が第1デコーダ230でデコーディングされ、残余信号は第2デコーダ240でデコーディングされる。第3モードである場合、残余信号が第2デコーダ240でデコーディングされる。
【0098】
第1デコーダ230は、モード情報に基づいて第1コーディング方式で高調波信号をデコーディングするものであり、ここで、第1コーディング方式は音声コーディング方式に該当することができる。音声コーディング方式は、AMR−WB標準に従うものとすることもできるが、本発明はこれに限定されない。また、第1デコーダ230は、タイムドメインデコーダに該当することができる。
【0099】
第2デコーダ240は、モード情報に基づいて第2コーディング方式で残余信号をデコーディングするが、ここで、第2コーディング方式はオーディオコーディング方式に該当することができる。オーディオコーディング方式は、HE−AAC標準に従うものとすることもできるが、本発明はこれに限定されない。第1デコーダ230は、高調波信号が線形予測符号化(LPC)方式で符号化された場合、線形予測係数から線形予測を行って高調波信号をデコーディングする。また、第2デコーダ240はMDCT(Modified Discrete Transform)デコーダにすることができる。
【0100】
合成部250は、第1デコーダ230及び第2デコーダ240でデコーディングされた信号を合成して出力信号を生成する。この時、デコーディングされた高調波信号及びデコーディングされた残余信号は同時に処理されなければならず、よって、フレーム長を同一にしなければならない。したがって、高調波信号のフレーム長が256サンプルであり、残余信号のフレーム長が1024サンプルである場合、高調波信号の4つのフレームを一つの単位として処理する。
【0101】
図9を参照すると、デコーディング装置は、エンコーダで生成されたビットストリームを受信する(S210段階)。ビットストリームから高調波信号及び残余信号のうち一つ以上、及びモード情報が抽出される(S220段階)。現在フレームに該当するモード情報が第1モードである場合(S230段階の「yes」)、まず、以前フレームのモードが第3モードなのか否か判断し、以前フレームのモード及び現在フレームのモードのいずれか一方を訂正する(S240段階)。例えば、以前フレームのモードが第3モードである場合、以前フレームのモードを第3モードから第2モードに切り換えたり、現在フレームのモードを第1モードから第2モードに切り換えることができる。その後、第1コーディング方式で高調波信号をデコーディングする(S245段階)。
【0102】
もし、現在フレームに該当するモード情報が第2モードである場合(S250段階の「yes」)、第1コーディング方式で高調波信号をデコーディングし、第2コーディング方式で残余信号をデコーディングする(S260段階)。その後、デコーディングされた高調波信号及びデコーディングされた残余信号を合成して出力信号を生成する(S270段階)。もし、モード情報が各コーディング方式に割り当てられたビットレート情報をさらに含む場合、ビットレート情報に基づいて各信号をデコーディングする。例えば、6.60kbpsで高調波信号をデコーディングし、13.25kbpsで残余信号をデコーディングすることができる。
【0103】
一方、現在フレームに該当するモード情報が第3モードである場合(S280段階の「yes」)、以前フレームのモードが第1モードであることを条件としてモード情報を訂正する(S290段階)。例えば、以前フレームのモードが第1モードであり、現在フレームのモードが第3モードである場合、以前フレームのモードを第1モードから第2モードに切り換えたり、現在フレームのモードを第3モードから第2モードに強制に切り換えることができる。その後、第2コーディング方式で残余信号をデコーディングする(S295段階)。
【0104】
本発明はさらに、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することも可能である。コンピュータ読み取り可能な記録媒体は、コンピュータシステムで読み込み可能なデータを記憶できるあらゆる記録装置を含むことができる。コンピュータ読み取り可能な記録媒体の例には、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置などがあり、また、キャリアウェーブ(例えば、インターネットを通じた伝送)の形態で具現されるものも含む。
【0105】
以上では具体的な実施例及び図面に挙げて本発明を説明してきたが、本発明はそれら具体的な実施例に限定されず、本発明の属する技術分野における通常の知識を有する者にとっては、本発明の技術思想と添付の特許請求の範囲とその均等範囲内で様々な修正及び変形が可能であることが明らかである。
【産業上の利用可能性】
【0106】
本発明は、オーディオ信号またはビデオ信号をエンコーディング及びデコーディングするのに適用することができる。

【特許請求の範囲】
【請求項1】
所定モードが第1モード、第2モード及び第3モードのどのモードに該当するかを表す情報として、第1フレームモード及び第2フレームモードを含むモード情報を受信する段階を有し、
前記第2フレームモードが前記第1モードである場合、前記第1フレームモードが前記第1モード及び前記第2モードのいずれか一方に該当し、
前記第2フレームモードが前記第3モードである場合、前記第1フレームモードが前記第3モード及び前記第2モードのいずれか一方に該当する、信号処理方法。
【請求項2】
前記第1モードは、第1コーディング方式を用いるモードに該当し、前記第3モードは、第2コーディング方式を用いるモードに該当し、前記第2モードは、前記第1モード及び前記第3モードを連結するためのモードに該当する、請求項1に記載の信号処理方法。
【請求項3】
前記第2モードは、順方向連結モード、及び逆方向連結モードを有する、請求項2に記載の信号処理方法。
【請求項4】
前記第2フレームモードが第1モードである場合、前記第1フレームモードが第1モード及び前記逆方向連結モードのいずれか一方に該当し、前記第2フレームモードが第3モードである場合、前記第1フレームモードが第3モード及び前記順方向連結モードのいずれか一方に該当する、請求項3に記載の信号処理方法。
【請求項5】
前記第1コーディング方式はスピーチコーディング方式に該当し、前記第2コーディング方式はオーディオコーディング方式に該当する、請求項2に記載の信号処理方法。
【請求項6】
前記第2モードは、前記第1コーディング方式及び前記第2コーディング方式の両方を用いるモードに該当する、請求項1に記載の信号処理方法。
【請求項7】
第1信号及び第2信号のうち少なくとも1つを受信する段階と、
前記モード情報によって第1コーディング方式及び第2コーディング方式の少なくとも1つを用いて、前記第1信号及び前記第2信号の少なくとも1つをコーディングする段階、
をさらに有する、請求項1に記載の信号処理方法。
【請求項8】
所定モードが第1モード、第2モード及び第3モードのどのモードに該当するかを表す情報として、第1フレームモード及び第2フレームモードを含むモード情報を受信する受信部を有し、
前記第2フレームモードが前記第1モードである場合、前記第1フレームモードが前記第1モード及び前記第2モードのいずれか一方に該当し、
前記第2フレームモードが前記第3モードである場合、前記第1フレームモードが前記第3モード及び前記第2モードのいずれか一方に該当する、信号処理装置。
【請求項9】
前記第1モードは、第1コーディング方式を用いるモードに該当し、前記第3モードは、第2コーディング方式を用いるモードに該当し、前記第2モードは、前記第1モード及び前記第3モードを連結するためのモードに該当する、請求項8に記載の信号処理装置。
【請求項10】
前記第2モードは、順方向連結モード及び逆方向連結モードを有する、請求項9に記載の信号処理装置。
【請求項11】
前記第2フレームモードが第1モードである場合、前記第1フレームモードが第1モード及び前記逆方向連結モードのいずれか一方に該当し、前記第2フレームモードが第3モードである場合、前記第1フレームモードが第3モード及び前記順方向連結モードのいずれか一方に該当する、請求項10に記載の信号処理装置。
【請求項12】
前記第1コーディング方式はスピーチコーディング方式に該当し、前記第2コーディング方式はオーディオコーディング方式に該当する、請求項9に記載の信号処理装置。
【請求項13】
前記第2モードは、前記第1コーディング方式及び前記第2コーディング方式の両方を用いるモードに該当する、請求項8に記載の信号処理装置。
【請求項14】
前記受信部は、第1信号及び第2信号のうち少なくとも1つを受信し、前記モード情報によって第1コーディング方式及び第2コーディング方式のうち少なくとも1つを用いて、前記第1信号及び前記第2信号のうち少なくとも1つをコーディングするコーディング部をさらに有する、請求項8に記載の信号処理装置。
【請求項15】
所定モードが第1モード、第2モード及び第3モードのどのモードに該当するかを表す情報として、第1フレームモード及び第2フレームモードを含むモード情報を決定する段階と、
前記第2フレームモードが前記第1モードである場合、前記第1フレームモードを前記第1モード及び前記第2モードのいずれかに切り換える段階と、
前記第2フレームモードが前記第3モードである場合、前記第1フレームモードを前記第3モード及び前記第2モードのいずれかに切り換える段階と、
を有する、信号処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公表番号】特表2011−501216(P2011−501216A)
【公表日】平成23年1月6日(2011.1.6)
【国際特許分類】
【出願番号】特願2010−529861(P2010−529861)
【出願日】平成20年10月15日(2008.10.15)
【国際出願番号】PCT/KR2008/006078
【国際公開番号】WO2009/051404
【国際公開日】平成21年4月23日(2009.4.23)
【出願人】(502032105)エルジー エレクトロニクス インコーポレイティド (2,269)
【出願人】(506263491)インダストリー−アカデミック コーペレイション ファウンデイション, ヨンセイ ユニバーシティ (18)
【Fターム(参考)】