説明

音声符号化装置、音声復号化装置、およびこれらの方法

【課題】 音声信号を階層的に符号化する際に、拡張レイヤにおいてCELP方式の音声符号化を用いつつも効率良い符号化を実現すること。
【解決手段】 第1符号化部115は、入力信号S11にCELP方式の音声符号化処理を施し、得られた第1符号化情報S12をパラメータ復号化部120に出力する。パラメータ復号化部120は、第1符号化情報S12から、第1量子化LSP符号(L1)、第1適応音源ラグ符号(A1)等を求め、これらの符号から第1パラメータ群S13を求め、第2符号化部130に出力する。第2符号化部130は、第1パラメータ群S13を用いて入力信号S11に第2符号化処理を施し、第2符号化情報S14を得る。多重化部154は、第1符号化情報S12および第2符号化情報S14を多重化し、伝送路Nを介して復号化装置150に出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号を階層的に符号化する音声符号化装置と、この音声符号化装置によって生成された符号化情報を復号化する音声復号化装置と、これらの方法とに関する。
【背景技術】
【0002】
移動体通信、インターネット通信等のようにディジタル化された音声・楽音信号を扱う通信システムにおいては、有限の資源(リソース)である通信回線を有効利用するため、音声・楽音信号の符号化/復号化技術が不可欠であり、これまで多くの符号化/復号化方式が開発されている。
【0003】
その中でも、特に音声信号を対象としたCELP方式の符号化/復号化方式は、主流の音声符号化/復号化方式として実用化されている(例えば、非特許文献1参照)。CELP方式の音声符号化装置は、音声の生成モデルに基づいて入力音声を符号化する。具体的には、ディジタル化された音声信号を20ms程度のフレームに区切ってフレーム毎に音声信号の線形予測分析を行い、得られた線形予測係数および線形予測残差ベクトルをそれぞれ個別に符号化する。
【0004】
また、インターネット通信等のようにパケットを伝送する通信システムにおいては、ネットワークの状態によってパケット損失が発生するため、符号化情報の一部が欠損した場合であっても残りの符号化情報の一部から音声・楽音を復号化できる機能が望まれる。同様に、回線容量に応じてビットレートを変化させる可変レート通信システムにおいても、回線容量が低下した場合に、符号化情報の一部のみを伝送することにより通信システムの負担を軽減させることが望ましい。このように、符号化情報の全て若しくは符号化情報の一部のみを用いて元のデータを復号化できる技術として、最近、スケーラブル符号化技術が注目を浴びている。従来にもいくつかのスケーラブル符号化方式が開示されている(例えば、特許文献1参照)。
【0005】
スケーラブル符号化方式は、一般的に、基本レイヤと複数の拡張レイヤとからなり、各レイヤは、基本レイヤを最も下位のレイヤとし、階層構造を形成している。そして、各レイヤの符号化は、下位レイヤの入力信号と復号化信号との差の信号である残差信号を符号化対象とし、下位レイヤの符号化情報を利用して行われる。この構成により、全レイヤの符号化情報もしくは下位レイヤの符号化情報のみを用いて、元のデータを復号化することができる。
【特許文献1】特開平10−97295号公報
【非特許文献1】M. R. Schroeder, B. S. Atal, "Code Excited Linear Prediction: High Quality Speech at Low Bit Rate", IEEE proc., ICASSP'85 pp.937-940
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、音声信号に対しスケーラブル符号化を行うことを考えた場合、従来の方法では、拡張レイヤにおける符号化対象は残差信号となる。この残差信号は、音声符号化装置の入力信号(または1つ下位のレイヤで得られた残差信号)と、1つ下位のレイヤの復号化信号との差信号であるため、音声の成分を多く失い、雑音の成分を多く含んだ信号である。従って、従来のスケーラブル符号化の拡張レイヤにおいて、音声の生成モデルに基づいて符号化を行うCELP方式のような音声の符号化に特化した符号化方式を適用すると、音声の成分を多く失っている残差信号に対し音声の生成モデルに基づいて符号化を行わなければならず、この信号を効率良く符号化することができない。また、CELP以外の他の符号化方式を用いて残差信号を符号化することは、少ないビットで品質の良い復号化信号を得ることができるCELP方式の利点を放棄することとなり、効果的では無い。
【0007】
本発明は、かかる点に鑑みてなされたものであり、音声信号を階層的に符号化する際に、拡張レイヤにおいてCELP方式の音声符号化を用いつつも効率良い符号化を実現し、品質の良い復号化信号を得ることができる音声符号化装置と、この音声符号化装置によって生成された符号化情報を復号化する音声復号化装置と、これらの方法とを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の音声符号化装置は、音声信号からCELP方式の音声符号化によって符号化情報を生成する第1の符号化手段と、前記符号化情報から、音声信号の生成モデルの特徴を表すパラメータを生成する生成手段と、前記音声信号を入力とし、前記パラメータを用いるCELP方式の音声符号化によって、入力される前記音声信号を符号化する第2の符号化手段と、を具備する構成を採る。
【0009】
ここで、上記のパラメータとは、CELP方式の音声符号化において使用されるCELP方式特有のパラメータ、すなわち、量子化LSP(Line Spectral Pairs)、適応音源ラグ、固定音源ベクトル、量子化適応音源利得、量子化固定音源利得を意味する。
【0010】
例えば、上記の構成において、第2の符号化手段は、音声符号化装置の入力である音声信号を線形予測分析して得られるLSPと、上記の生成手段によって生成される量子化LSPとの差を、CELP方式の音声符号化によって符号化する構成を採る。すなわち、第2の符号化手段は、LSPパラメータの段階で差をとり、この差に対しCELP方式の音声符号化を行うことにより、残差信号を入力としないCELP方式の音声符号化を実現する。
【0011】
なお、上記の構成において、第1の符号化手段、第2の符号化手段とは、それぞれ基本第1レイヤ(基本レイヤ)符号化部、第2レイヤ符号化部だけを意味するのではなく、例えば、それぞれ第2レイヤ符号化部、第3レイヤ符号化部を意味しても良い。また、必ずしも隣接レイヤの符号化部のみを意味するのではなく。例えば、第1の符号化手段が第1レイヤ符号化部、第2の符号化手段が第3レイヤ符号化部を意味することもある。
【発明の効果】
【0012】
本発明によれば、音声信号を階層的に符号化する際に、拡張レイヤにおいてCELP方式の音声符号化を用いつつも効率良い符号化を実現し、品質の良い復号化信号を得ることができる。
【発明を実施するための最良の形態】
【0013】
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
【0014】
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置100および音声復号化装置150の主要な構成を示すブロック図である。
【0015】
この図において、音声符号化装置100は、本実施の形態に係る符号化方法に従って入力信号S11を階層的に符号化し、得られた階層的な符号化情報S12およびS14を多重化し、多重化された符号化情報(多重化情報)を音声復号化装置150に伝送路Nを介して伝送する。一方、音声復号化装置150は、音声符号化装置100からの多重化情報を符号化情報S12およびS14に分離し、分離後の符号化情報を本実施の形態に係る復号化方法に従って復号化し、出力信号S54を出力する。
【0016】
まず、音声符号化装置100について詳細に説明する。
【0017】
音声符号化装置100は、第1符号化部115と、パラメータ復号化部120と、第2符号化部130と、多重化部154と、から主に構成され、各部は以下の動作を行う。なお、図2は、音声符号化装置100における各パラメータの流れを示す図である。
【0018】
第1符号化部115は、音声符号化装置100に入力された音声信号S11に対し、CELP方式の音声符号化(第1符号化)処理を施し、音声信号の生成モデルに基づいて得られた各パラメータを表す符号化情報(第1符号化情報)S12を、多重化部154に出力する。また、第1符号化部115は、階層的な符号化を行うため、第1符号化情報S12をパラメータ復号化部120にも出力する。なお、第1符号化処理によって得られる各パラメータを以下第1パラメータ群と呼ぶことにする。具体的には、第1パラメータ群は、第1量子化LSP(Line Spectral Pairs)、第1適応音源ラグ、第1固定音源ベクトル、第1量子化適応音源利得、および第1量子化固定音源利得からなる。
【0019】
パラメータ復号化部120は、第1符号化部115から出力された第1符号化情報S12に対してパラメータ復号化を施し、音声信号の生成モデルの特徴を表すパラメータを生成する。このパラメータ復号化は、符号化情報を完全に復号化するのではなく、部分的な復号化を行うことにより上述の第1パラメータ群を得る。すなわち、従来の復号化処理は、符号化情報を復号化することにより符号化前の元の信号を得ることを目的としているが、パラメータ復号化処理は、第1パラメータ群を得ることを目的としている。具体的には、パラメータ復号化部120は、第1符号化情報S12を多重化分離して、第1量子化LSP符号(L1)、第1適応音源ラグ符号(A1)、第1量子化音源利得符号(G1)、および第1固定音源ベクトル符号(F1)を求め、得られた各符号から第1パラメータ群S13を求める。この第1パラメータ群S13は、第2符号化部130に出力される。
【0020】
第2符号化部130は、音声符号化装置100の入力信号S11と、パラメータ復号化部120から出力された第1パラメータ群S13と、を用いて後述の第2符号化処理を施すことにより第2パラメータ群を求め、この第2パラメータ群を表す符号化情報(第2符号化情報)S14を多重化部154に出力する。なお、第2パラメータ群は、第1パラメータ群にそれぞれ対応して、第2量子化LSP、第2適応音源ラグ、第2固定音源ベクトル、第2量子化適応音源利得、および第2量子化固定音源利得からなる。
【0021】
多重化部154には、第1符号化部115から第1符号化情報S12が入力され、また、第2符号化部130から第2符号化情報S14が入力される。多重化部154は、音声符号化装置100に入力された音声信号のモード情報に応じて必要な符号化情報を選択し、選択された符号化情報とモード情報とを多重化して、多重化した符号化情報(多重化情報)を生成する。ここで、モード情報とは、多重化して伝送する符号化情報を指示する情報である。例えば、モード情報が「0」である場合、多重化部154は、第1符号化情報S12とモード情報とを多重化し、また、モード情報が「1」である場合、多重化部154は、第1符号化情報S12と第2符号化情報S14とモード情報とを多重化する。このように、モード情報の値を変えることにより、音声復号化装置150に伝送する符号化情報の組み合わせを変えることが出来る。次に、多重化部154は、多重化後の多重化情報を、伝送路Nを介して音声復号化装置150に出力する。
【0022】
このように、本実施の形態の特徴は、パラメータ復号化部120および第2符号化部130の動作にある。なお、説明の都合上、第1符号化部115、パラメータ復号化部120、第2符号化部130の順に以下各部の動作を詳細に説明していく。
【0023】
図3は、第1符号化部115の内部構成を示すブロック図である。
【0024】
前処理部101は、音声符号化装置100に入力された音声信号S11に対し、DC成分を取り除くハイパスフィルタ処理や後続する符号化処理の性能改善につながるような波形整形処理やプリエンファシス処理を行い、これらの処理後の信号(Xin)をLSP分析部102および加算器105へ出力する。
【0025】
LSP分析部102は、このXinを用いて線形予測分析を行い、分析結果であるLPC(線形予測係数)をLSPに変換し、変換結果を第1LSPとしてLSP量子化部103へ出力する。
【0026】
LSP量子化部103は、LSP分析部102から出力された第1LSPを、後述する量子化処理を用いて量子化し、量子化された第1LSP(第1量子化LSP)を合成フィルタ104へ出力する。また、LSP量子化部103は、第1量子化LSPを表す第1量子化LSP符号(L1)を多重化部114へ出力する。
【0027】
合成フィルタ104は、第1量子化LSPに基づくフィルタ係数を用いて、加算器111から出力される駆動音源に対しフィルタ合成を行い、合成信号を生成する。この合成信号は、加算器105へ出力される。
【0028】
加算器105は、合成信号の極性を反転させてXinに加算することにより、誤差信号を算出し、この算出された誤差信号を聴覚重み付け部112へ出力する。
【0029】
適応音源符号帳106は、過去に加算器111から出力された駆動音源をバッファに記憶している。また、適応音源符号帳106は、パラメータ決定部113から出力される信号によって特定される切り出し位置に基づき、この切り出し位置から1フレーム分のサンプルをバッファより切り出し、第1適応音源ベクトルとして乗算器109へ出力する。また、適応音源符号帳106は、加算器111から駆動音源が入力される毎に上記バッファのアップデートを行う。
【0030】
量子化利得生成部107は、パラメータ決定部113からの指示に基づいて、第1量子化適応音源利得および第1量子化固定音源利得を決定し、第1量子化適応音源利得を乗算器109へ、第1量子化固定音源利得を乗算器110へ出力する。
【0031】
固定音源符号帳108は、パラメータ決定部113からの指示によって特定される形状を有するベクトルを、第1固定音源ベクトルとして乗算器110へ出力する。
【0032】
乗算器109は、量子化利得生成部107から出力された第1量子化適応音源利得を、適応音源符号帳106から出力された第1適応音源ベクトルに乗じて、加算器111へ出力する。乗算器110は、量子化利得生成部107から出力された第1量子化固定音源利得を、固定音源符号帳108から出力された第1固定音源ベクトルに乗じて、加算器111へ出力する。加算器111は、乗算器109で利得が乗算された第1適応音源ベクトルと、乗算器110で利得が乗算された第1固定音源ベクトルとを加算し、加算結果である駆動音源を合成フィルタ104および適応音源符号帳106へ出力する。なお、適応音源符号帳106に入力された駆動音源は、バッファに記憶される。
【0033】
聴覚重み付け部112は、加算器105から出力された誤差信号に対して聴覚的な重み付けを行い、符号化歪みとしてパラメータ決定部113へ出力する。
【0034】
パラメータ決定部113は、聴覚重み付け部112から出力される符号化歪みを最小とする第1適応音源ラグを選択し、選択結果を示す第1適応音源ラグ符号(A1)を多重化部114に出力する。また、パラメータ決定部113は、聴覚重み付け部112から出力される符号化歪みを最小とする第1固定音源ベクトルを選択し、選択結果を示す第1固定音源ベクトル符号(F1)を多重化部114に出力する。また、パラメータ決定部113は、聴覚重み付け部112から出力される符号化歪みを最小とする第1量子化適応音源利得および第1量子化固定音源利得を選択し、選択結果を示す第1量子化音源利得符号(G1)を多重化部114に出力する。
【0035】
多重化部114は、LSP量子化部103から出力された第1量子化LSP符号(L1)と、パラメータ決定部113から出力された、第1適応音源ラグ符号(A1)、第1固定音源ベクトル符号(F1)、および第1量子化音源利得符号(G1)とを多重化して第1符号化情報S12として出力する。
【0036】
図4は、パラメータ復号化部120の内部構成を示すブロック図である。
【0037】
多重化分離部121は、第1符号化部115から出力された第1符号化情報S12から個々の符号(L1、A1、G1、F1)を分離し、各部に出力する。具体的には、分離された第1量子化LSP符号(L1)はLSP復号化部122に出力され、分離された第1適応音源ラグ符号(A1)は適応音源符号帳123に出力され、分離された第1量子化音源利得符号(G1)は量子化利得生成部124に出力され、分離された第1固定音源ベクトル符号(F1)は固定音源符号帳125へ出力される。
【0038】
LSP復号化部122は、多重化分離部121から出力された第1量子化LSP符号(L1)から第1量子化LSPを復号化し、復号化した第1量子化LSPを第2符号化部130へ出力する。
【0039】
適応音源符号帳123は、第1適応音源ラグ符号(A1)で指定される切り出し位置を第1適応音源ラグとして復号化する。そして、適応音源符号帳123は、得られた第1適応音源ラグを第2符号化部130へ出力する。
【0040】
量子化利得生成部124は、多重化分離部121から出力された第1量子化音源利得符号(G1)で指定される第1量子化適応音源利得および第1量子化固定音源利得を復号化する。そして、量子化利得生成部124は、得られた第1量子化適応音源利得を第2符号化部130へ出力し、また、第1量子化固定音源利得を第2符号化部130へ出力する。
【0041】
固定音源符号帳125は、多重化分離部121から出力された第1固定音源ベクトル符号(F1)で指定される第1固定音源ベクトルを生成し、第2符号化部130へ出力する。
【0042】
なお、前述の第1量子化LSP、第1適応音源ラグ、第1固定音源ベクトル、第1量子化適応音源利得、および第1量子化固定音源利得は、第1パラメータ群S13として第2符号化部130に出力する。
【0043】
図5は、第2符号化部130の内部構成を示すブロック図である。
【0044】
前処理部131は、音声符号化装置100に入力された音声信号S11に対し、DC成分を取り除くハイパスフィルタ処理や後続する符号化処理の性能改善につながるような波形整形処理やプリエンファシス処理を行い、これらの処理後の信号(Xin)をLSP分析部132および加算器135へ出力する。
【0045】
LSP分析部132は、このXinを用いて線形予測分析を行い、分析結果であるLPC(線形予測係数)をLSP(Line Spectral Pairs)に変換し、変換結果を第2LSPとしてLSP量子化部133へ出力する。
【0046】
LSP量子化部133は、パラメータ復号化部120から出力された第1量子化LSPの極性を反転させ、LSP分析部132から出力された第2LSPに極性反転後の第1量子化LSPを加算することにより、残差LSPを算出する。次に、LSP量子化部133は、算出された残差LSPを、後述する量子化処理を用いて量子化し、量子化された残差LSP(量子化残差LSP)と、パラメータ復号化部120から出力された第1量子化LSPと、を加算することにより、第2量子化LSPを算出する。この第2量子化LSPは、合成フィルタ134へ出力され、一方、量子化残差LSPを表す第2量子化LSP符号(L2)は、多重化部144へ出力される。
【0047】
合成フィルタ134は、第2量子化LSPに基づくフィルタ係数を用いて、加算器141から出力される駆動音源に対しフィルタ合成を行い、合成信号を生成する。この合成信号は、加算器135へ出力される。
【0048】
加算器135は、合成信号の極性を反転させてXinに加算することにより、誤差信号を算出し、この算出された誤差信号を聴覚重み付け部142へ出力する。
【0049】
適応音源符号帳136は、過去に加算器141から出力された駆動音源をバッファに記憶している。また、適応音源符号帳136は、第1適応音源ラグと、パラメータ決定部143から出力される信号とによって特定される切り出し位置に基づき、この切り出し位置から1フレーム分のサンプルをバッファより切り出し、第2適応音源ベクトルとして乗算器139へ出力する。また、適応音源符号帳136は、加算器141から駆動音源が入力される毎に上記バッファのアップデートを行う。
【0050】
量子化利得生成部137は、パラメータ決定部143からの指示に基づいて、パラメータ復号化部120から出力された第1量子化適応音源利得および第1量子化固定音源利得を用いて、第2量子化適応音源利得および第2量子化固定音源利得を求める。この第2量子化適応音源利得は乗算器139へ出力され、第2量子化固定音源利得は乗算器140へ出力される。
【0051】
固定音源符号帳138は、パラメータ決定部143からの指示によって特定される形状を有するベクトルと、パラメータ復号化部120から出力される第1固定音源ベクトルと、を加算して第2固定音源ベクトルを求め、これを乗算器140へ出力する。
【0052】
乗算器139は、適応音源符号帳136から出力された第2適応音源ベクトルに対し、量子化利得生成部137から出力された第2量子化適応音源利得を乗じ、加算器141へ出力する。乗算器140は、固定音源符号帳138から出力された第2固定音源ベクトルに対し、量子化利得生成部137から出力された第2量子化固定音源利得を乗じ、加算器141へ出力する。加算器141は、乗算器139で利得が乗算された第2適応音源ベクトルと、乗算器140で利得が乗算された第2固定音源ベクトルとを加算し、加算結果である駆動音源を合成フィルタ134および適応音源符号帳136へ出力する。なお、適応音源符号帳136にフィードバックされた駆動音源は、バッファに記憶される。
【0053】
聴覚重み付け部142は、加算器135から出力された誤差信号に対して聴覚的な重み付けを行い、符号化歪みとしてパラメータ決定部143へ出力する。
【0054】
パラメータ決定部143は、聴覚重み付け部142から出力される符号化歪みを最小とする第2適応音源ラグを選択し、選択結果を示す第2適応音源ラグ符号(A2)を多重化部144に出力する。また、パラメータ決定部143は、聴覚重み付け部142から出力される符号化歪みを最小とする第2固定音源ベクトルを、パラメータ復号化部120から出力された第1適応音源ラグを用いることにより選択し、選択結果を示す第2固定音源ベクトル符号(F2)を多重化部144に出力する。また、パラメータ決定部143は、聴覚重み付け部142から出力される符号化歪みを最小とする第2量子化適応音源利得および第2量子化固定音源利得を選択し、選択結果を示す第2量子化音源利得符号(G2)を多重化部144に出力する。
【0055】
多重化部144は、LSP量子化部133から出力された第2量子化LSP符号(L2)と、パラメータ決定部143から出力された、第2適応音源ラグ符号(A2)、第2固定音源ベクトル符号(F2)、および第2量子化音源利得符号(G2)とを多重化して第2符号化情報S14として出力する。
【0056】
次に、図5に示したLSP量子化部133が、第2量子化LSPを決定する処理について説明する。なお、ここでは、第2量子化LSP符号(L2)に割り当てるビット数を8とし、残差LSPをベクトル量子化する場合を例に挙げて説明する。
【0057】
LSP量子化部133は、予め作成された256種類の第2LSPコードベクトル[lspres(L2’)(i)]が格納された第2LSPコードブックを備える。ここで、L2’は各第2LSPコードベクトルに付されたインデックスであり、0〜255の値をとる。また、lspres(L2’)(i)はN次元のベクトルであり、iは0〜N−1の値をとる。
【0058】
LSP量子化部133には、LSP分析部132から第2LSP[α(i)]が入力される。ここで、α(i)はN次元のベクトルであり、iは0〜N−1の値をとる。また、LSP量子化部133には、パラメータ復号化部120から第1量子化LSP[lsp(L1’min)(i)]も入力される。ここで、lsp(L1’min)(i)はN次元のベクトルであり、iは0〜N−1の値をとる。
【0059】
LSP量子化部133は、以下の(式1)
【数1】

により、残差LSP[res(i)]を求める。次に、LSP量子化部133は、以下の(式2)
【数2】

により、残差LSP[res(i)]と第2LSPコードベクトル[lspres(L2’)(i)]との二乗誤差erを求める。そして、LSP量子化部133は、全てのL2’について二乗誤差erを求め、二乗誤差erが最小となるL2’の値(L2’min)を決定する。この決定されたL2’minは、第2量子化LSP符号(L2)として多重化部144へ出力される。
【0060】
次に、LSP量子化部133は、以下の(式3)
【数3】

により、第2量子化LSP[lsp(i)]を求める。LSP量子化部133は、この第2量子化LSP[lsp(i)]を合成フィルタ134へ出力する。
【0061】
このように、LSP量子化部133によって求められるlsp(i)が第2量子化LSPであり、二乗誤差erを最小とするlspres(L2’min)(i)が量子化残差LSPである。
【0062】
図6は、図5に示したパラメータ決定部143が、第2適応音源ラグを決定する処理について説明するための図である。
【0063】
この図において、バッファB2は、適応音源符号帳136が備えるバッファであり、位置P2は、第2適応音源ベクトルの切り出し位置であり、ベクトルV2は、切り出された第2適応音源ベクトルである。また、tは、第1適応音源ラグであり、数値41、296は、パラメータ決定部143が第1適応音源ラグの探索を行う範囲の下限および上限を示している。また、t−16、t+15は、第2適応音源ベクトルの切り出し位置を動かす範囲の下限および上限を示している。
【0064】
切り出し位置P2を動かす範囲は、第2適応音源ラグを表す符号(A2)に割り当てるビット数を5とする場合、32(=2)の長さの範囲(例えば、t−16〜t+15)に設定する。しかし、切り出し位置P2を動かす範囲は、任意に設定することができる。
【0065】
パラメータ決定部143は、パラメータ復号化部120から入力された第1適応音源ラグtを基準として、切り出し位置P2を動かす範囲をt−16〜t+15に設定する。次に、パラメータ決定部143は、切り出し位置P2を上記の範囲内で動かし、順次、この切り出し位置P2を適応音源符号帳136に指示する。
【0066】
適応音源符号帳136は、パラメータ決定部143より指示された切り出し位置P2から、第2適応音源ベクトルV2をフレームの長さだけ切り出し、切り出した第2適応音源ベクトルV2を乗算器139に出力する。
【0067】
パラメータ決定部143は、全ての切り出し位置P2から切り出される全ての第2適応音源ベクトルV2に対して、聴覚重み付け部142から出力される符号化歪みを求め、この符号化歪みが最小となるような切り出し位置P2を決定する。このパラメータ決定部143によって求められるバッファの切り出し位置P2が第2適応音源ラグである。パラメータ決定部143は、第1適応音源ラグと第2適応音源ラグとの差分(図6の例では、−16〜+15)を符号化し、符号化により得られる符号を第2適応音源ラグ符号(A2)として多重化部144に出力する。
【0068】
このように、第2符号化部130において、第1適応音源ラグと第2適応音源ラグとの差分を符号化することにより、第2復号化部180において、第1適応音源ラグ符号から得られる第1適応音源ラグ(t)と、第2適応音源ラグ符号から得られる差分(−16〜+15)と、を加算することにより、第2適応音源ラグ(t−16〜t+15)を復号化することができる。
【0069】
このように、パラメータ決定部143は、パラメータ復号化部120から第1適応音源ラグtを受け取り、第2適応音源ラグの探索にあたり、このt周辺の範囲を重点的に探索するので迅速に最適な第2適応音源ラグを見つけることができる。
【0070】
図7は、上記のパラメータ決定部143が、第2固定音源ベクトルを決定する処理について説明するための図である。この図は、代数的固定音源符号帳138から第2固定音源ベクトルが生成される過程を示したものである。
【0071】
トラック1、トラック2、およびトラック3において、それぞれ振幅値1の単位パルス(701、702、703)が1本生成される(図の実線)。各トラックは、単位パルスを生成できる位置が異なっており、この図の例では、トラック1は{0,3,6,9,12,15,18,21}の8箇所のうちのいずれかに、トラック2は{1,4,7,10,13,16,19,22}の8箇所のうちのいずれかに、トラック3は{2,5,8,11,14,17,20,23}の8箇所のうちのいずれかに、それぞれ単位パルスを1本ずつ立てることができる構成となっている。
【0072】
乗算器704は、トラック1で生成される単位パルスに極性を付する。乗算器705は、トラック2で生成される単位パルスに極性を付する。乗算器706は、トラック3で生成される単位パルスに極性を付する。加算器707は、生成された3本の単位パルスを加算する。乗算器708は、加算後の3本の単位パルスに予め定められた定数βを乗算する。定数βはパルスの大きさを変更するための定数であり、定数βを0〜1程度の値に設定すると良い性能が得られるということが実験的に判っている。また、音声符号化装置に応じて適した性能が得られるように、定数βの値を設定しても良い。加算器711は、3本のパルスから構成される残差固定音源ベクトル709と第1固定音源ベクトル710とを加算し、第2固定音源ベクトル712を得る。ここで、残差固定音源ベクトル709は、0〜1の範囲の定数βが乗じられた後に第1固定音源ベクトル710に加算されるので、結果的に、第1固定音源ベクトル710に比重を掛けた重み付け加算がされていることになる。
【0073】
この例では、各パルスに対して、位置が8通り、極性が正負の2通りあるので、位置情報3ビットと極性情報1ビットとが各単位パルスを表現するのに用いられる。従って、合計12ビットの固定音源符号帳となる。
【0074】
パラメータ決定部143は、3本の単位パルスの生成位置と極性とを動かすために、順次、生成位置と極性とを固定音源符号帳138に指示する。
【0075】
固定音源符号帳138は、パラメータ決定部143から指示された生成位置と極性とを用いて残差固定音源ベクトル709を構成し、構成された残差固定音源ベクトル709とパラメータ復号化部120から出力された第1固定音源ベクトル710とを加算し、加算結果である第2固定音源ベクトル712を乗算器140に出力する。
【0076】
パラメータ決定部143は、全ての生成位置と極性との組み合わせに対する第2固定音源ベクトルについて、聴覚重み付け部142から出力される符号化歪みを求め、符号化歪みが最小となる生成位置と極性との組み合わせを決定する。次に、パラメータ決定部143は、決定された生成位置と極性との組み合わせを表す第2固定音源ベクトル符号(F2)を多重化部144に出力する。
【0077】
次に、上記のパラメータ決定部143が、量子化利得生成部137に対して指示を行い、第2量子化適応音源利得および第2量子化固定音源利得を決定する処理について説明する。なお、ここでは、第2量子化音源利得符号(G2)に割り当てるビット数を8とする場合を例に挙げて説明する。
【0078】
量子化利得生成部137は、予め作成された256種類の残差音源利得コードベクトル[gain(K2’)(i)]が格納された残差音源利得コードブックを備える。ここで、K2’は、残差音源利得コードベクトルに付されたインデックスであり、0〜255の値をとる。また、gain(K2’)(i)は2次元のベクトルであり、iは0〜1の値をとる。
【0079】
パラメータ決定部143は、K2’の値を0から255まで、順次、量子化利得生成部137に指示する。量子化利得生成部137は、パラメータ決定部143から指示されたK2’を用いて、残差音源利得コードブックから残差音源利得コードベクトル[gain(K2’)(i)]を選択し、以下の(式4)
【数4】

により第2量子化適応音源利得[gain(0)]を求め、求まったgain(0)を乗算器139に出力し、また、以下の(式5)
【数5】

により第2量子化固定音源利得[gain(1)]を求め、求まったgain(1)を乗算器140に出力する。ここで、gain(K1’min)(0)は、第1量子化適応音源利得であり、また、gain(K1’min)(1)は、第1量子化固定音源利得であり、それぞれパラメータ復号化部120から出力される。
【0080】
このように、量子化利得生成部137によって求められるgain(0)が第2量子化適応音源利得であり、gain(1)が第2量子化固定音源利得である。
【0081】
パラメータ決定部143は、全てのK2’について、聴覚重み付け部142より出力される符号化歪みを求め、符号化歪みが最小となるK2’の値(K2’min)を決定する。次に、パラメータ決定部143は、決定されたK2’minを第2量子化音源利得符号(G2)として多重化部144に出力する。
【0082】
このように、本実施の形態に係る音声符号化装置によれば、第2符号化部130の符号化対象を音声符号化装置の入力信号とすることにより、音声信号の符号化に適しているCELP方式の音声符号化を効果的に適用することができ、品質の良い復号化信号を得ることができる。また、第2符号化部130は、第1パラメータ群を用いて入力信号の符号化を行い、第2パラメータ群を生成することにより、復号化装置側は、二つのパラメータ群(第1パラメータ群、第2パラメータ群)を用いて第2復号化信号を生成することができる。
【0083】
また、以上の構成において、パラメータ復号化部120は、第1符号化部115から出力される第1符号化情報S12の部分的な復号化を行って、得られる各パラメータを第1符号化部115の上位レイヤにあたる第2符号化部130に出力し、第2符号化部130は、この各パラメータと音声符号化装置100の入力信号とを用いて第2符号化を行う。この構成を採ることにより、本実施の形態に係る音声符号化装置は、音声信号を階層的に符号化する際に、拡張レイヤにおいてCELP方式の音声符号化を用いつつも効率良い符号化を実現し、品質の良い復号化信号を得ることができる。さらに、第1符号化情報を完全に復号化する必要がないため、符号化の処理演算量を軽減することができる。
【0084】
また、以上の構成において、第2符号化部130は、音声符号化装置100の入力である音声信号を線形予測分析して得られるLSPと、パラメータ復号化部120によって生成される量子化LSPとの差を、CELP方式の音声符号化によって符号化する。すなわち、第2符号化部130は、LSPパラメータの段階で差をとり、この差に対しCELP方式の音声符号化を行うことにより、残差信号を入力としないCELP方式の音声符号化を実現することができる。
【0085】
また、以上の構成において、音声符号化装置100(の第2符号化部130)から出力される第2符号化情報S14は、従来の音声符号化装置からは生成されない全く新規な信号である。
【0086】
次に、図3に示した第1符号化部115の動作について補足説明を行う。
【0087】
以下は、第1符号化部115内のLSP量子化部103が、第1量子化LSPを決定する処理について説明したものである。
【0088】
ここでは、第1量子化LSP符号(L1)に割り当てるビット数を8とし、第1LSPをベクトル量子化する場合を例に挙げて説明する。
【0089】
LSP量子化部103は、予め作成された256種類の第1LSPコードベクトル[lsp(L1’)(i)]が格納された第1LSPコードブックを備える。ここで、L1’は第1LSPコードベクトルに付されたインデックスであり、0〜255の値をとる。また、lsp(L1’)(i)はN次元のベクトルであり、iは0〜N−1の値をとる。
【0090】
LSP量子化部103には、LSP分析部102から第1LSP[α(i)]が入力される。ここで、α(i)はN次元のベクトルであり、iは0〜N−1の値をとる。
【0091】
LSP量子化部103は、以下の(式6)
【数6】

により、第1LSP[α(i)]と第1LSPコードベクトル[lsp(L1’)(i)]との二乗誤差erを求める。次に、LSP量子化部103は、全てのL1’について二乗誤差erを求め、二乗誤差erが最小となるL1’の値(L1’min)を決定する。そして、LSP量子化部103は、この決定されたL1’minを第1量子化LSP符号(L1)として多重化部114へ出力し、また、lsp(L1’min)(i)を第1量子化LSPとして合成フィルタ104へ出力する。
【0092】
このように、LSP量子化部103によって求められるlsp(L1’min)(i)が第1量子化LSPである。
【0093】
図8は、第1符号化部115内のパラメータ決定部113が、第1適応音源ラグを決定する処理について説明するための図である。
【0094】
この図において、バッファB1は、適応音源符号帳106が備えるバッファであり、位置P1は、第1適応音源ベクトルの切り出し位置であり、ベクトルV1は、切り出された第1適応音源ベクトルである。また、数値41、296は、切り出し位置P1を動かす範囲の下限および上限を示している。
【0095】
切り出し位置P1を動かす範囲は、第1適応音源ラグを表す符号(A1)に割り当てるビット数を8とする場合、256(=2)の長さの範囲(例えば、41〜296)に設定する。しかし、切り出し位置P1を動かす範囲は、任意に設定することができる。
【0096】
パラメータ決定部113は、切り出し位置P1を設定範囲内で動かし、順次、この切り出し位置P1を適応音源符号帳106に指示する。
【0097】
適応音源符号帳106は、パラメータ決定部113から指示された切り出し位置P1から、第1適応音源ベクトルV1をフレームの長さだけ切り出し、切り出した第1適応音源ベクトルを乗算器109に出力する。
【0098】
パラメータ決定部113は、全ての切り出し位置P1から切り出される全ての第1適応音源ベクトルV1に対して、聴覚重み付け部112から出力される符号化歪みを求め、この符号化歪みが最小となるような切り出し位置P1を決定する。このパラメータ決定部113によって求められるバッファの切り出し位置P1が第1適応音源ラグである。パラメータ決定部113は、この第1適応音源ラグを表す第1適応音源ラグ符号(A1)を多重化部114に出力する。
【0099】
図9は、第1符号化部115内のパラメータ決定部113が、第1固定音源ベクトルを決定する処理について説明するための図である。この図は、代数的固定音源符号帳から第1固定音源ベクトルが生成される過程を示したものである。
【0100】
トラック1、トラック2、およびトラック3は、それぞれ単位パルス(振幅値が1)を1本生成する。また、乗算器404、乗算器405、および乗算器406は、それぞれトラック1〜3で生成される単位パルスに極性を付する。加算器407は、生成された3本の単位パルスを加算する加算器であり、ベクトル408は、3本の単位パルスから構成される第1固定音源ベクトルである。
【0101】
各トラックは単位パルスを生成できる位置が異なっており、この図においては、トラック1は{0,3,6,9,12,15,18,21}の8箇所のうちのいずれかに、トラック2は{1,4,7,10,13,16,19,22}の8箇所のうちのいずれかに、トラック3は{2,5,8,11,14,17,20,23}の8箇所のうちのいずれかに、それぞれ単位パルスを1本ずつ立てる構成となっている。
【0102】
各トラックで生成された単位パルスは、それぞれ乗算器404〜406により極性が付され、加算器407にて3本の単位パルスが加算され、加算結果である第1固定音源ベクトル408が構成される。
【0103】
この例では、各単位パルスに対して位置が8通り、極性が正負の2通りであるので、位置情報3ビットと極性情報1ビットとが各単位パルスを表現するのに用いられる。従って、合計12ビットの固定音源符号帳となる。
【0104】
パラメータ決定部113は、3本の単位パルスの生成位置と極性とを動かし、順次、生成位置と極性とを固定音源符号帳108に指示する。
【0105】
固定音源符号帳108は、パラメータ決定部113により指示された生成位置と極性とを用いて第1固定音源ベクトル408を構成して、構成された第1固定音源ベクトル408を乗算器110に出力する。
【0106】
パラメータ決定部113は、全ての生成位置と極性との組み合わせについて、聴覚重み付け部112から出力される符号化歪みを求め、符号化歪みが最小となる生成位置と極性との組み合わせを決定する。次に、パラメータ決定部113は、符号化歪みが最小となる生成位置と極性との組み合わせを表す第1固定音源ベクトル符号(F1)を多重化部114に出力する。
【0107】
次に、第1符号化部115内のパラメータ決定部113が、量子化利得生成部107に対して指示を行い、第1量子化適応音源利得および第1量子化固定音源利得を決定する処理について説明する。なお、ここでは、第1量子化音源利得符号(G1)に割り当てるビット数を8とする場合を例に挙げて説明する。
【0108】
量子化利得生成部107は、予め作成された256種類の第1音源利得コードベクトル[gain(K1’)(i)]が格納された第1音源利得コードブックを備える。ここで、K1’は、第1音源利得コードベクトルに付されたインデックスであり、0〜255の値をとる。また、gain(K1’)(i)は2次元のベクトルであり、iは0〜1の値をとる。
【0109】
パラメータ決定部113は、K1’の値を0から255まで、順次、量子化利得生成部107に指示する。量子化利得生成部107は、パラメータ決定部113により指示されたK1’を用いて、第1音源利得コードブックから第1音源利得コードベクトル[gain(K1’)(i)]を選択し、gain(K1’)(0)を第1量子化適応音源利得として乗算器109に出力し、また、gain(K1’)(1)を第1量子化固定音源利得として乗算器110に出力する。
【0110】
このように、量子化利得生成部107によって求められるgain(K1’)(0)が第1量子化適応音源利得であり、gain(K1’)(1)が第1量子化固定音源利得である。
【0111】
パラメータ決定部113は、全てのK1’について、聴覚重み付け部112より出力される符号化歪みを求め、符号化歪みが最小となるK1’の値(K1’min)を決定する。次に、パラメータ決定部113は、K1’minを第1量子化音源利得符号(G1)として多重化部114に出力する。
【0112】
以上、本実施の形態に係る音声符号化装置100について詳細に説明した。
【0113】
次に、上記の構成を有する音声符号化装置100から送信された符号化情報S12およびS14を復号化する本実施の形態に係る音声復号化装置150について詳細に説明する。
【0114】
音声復号化装置150の主要な構成は、図1に既に示した通り、第1復号化部160と、第2復号化部180と、信号制御部195と、多重化分離部155と、から主に構成される。音声復号化装置150の各部は、以下の動作を行う。
【0115】
多重化分離部155は、音声符号化装置100から多重化して出力されたモード情報と符号化情報とを多重分離化し、モード情報が「0」、「1」である場合、第1符号化情報S12を第1復号化部160に出力し、モード情報が「1」である場合、第2符号化情報S14を第2復号化部180に出力する。また、多重化分離部155は、モード情報を信号制御部195に出力する。
【0116】
第1復号化部160は、多重化分離部155から出力された第1符号化情報S12をCELP方式の音声復号化方法を用いて復号化(第1復号化)し、復号化によって求められる第1復号化信号S52を信号制御部195に出力する。また、第1復号化部160は、復号化の際に求められる第1パラメータ群S51を第2復号化部180に出力する。
【0117】
第2復号化部180は、第1復号化部160から出力された第1パラメータ群S51を用いて、多重化分離部155から出力された第2符号化情報S14に対し、後述の第2復号化処理を施すことにより復号化し、第2復号化信号S53を生成して信号制御部195に出力する。
【0118】
信号制御部195は、第1復号化部160から出力された第1復号化信号S52と第2復号化部180から出力された第2復号化信号S53とを入力し、多重化分離部155から出力されたモード情報に応じて、復号化信号を出力する。具体的には、モード情報が「0」である場合、第1復号化信号S52を出力信号として出力し、モード情報が「1」である場合、第2復号化信号S53を出力信号として出力する。
【0119】
図10は、第1復号化部160の内部構成を示すブロック図である。
【0120】
多重化分離部161は、第1復号化部160に入力された第1符号化情報S12から個々の符号(L1、A1、G1、F1)を分離し、各部に出力する。具体的には、分離された第1量子化LSP符号(L1)はLSP復号化部162に出力され、分離された第1適応音源ラグ符号(A1)は適応音源符号帳165に出力され、分離された第1量子化音源利得符号(G1)は量子化利得生成部166に出力され、分離された第1固定音源ベクトル符号(F1)は固定音源符号帳167へ出力される。
【0121】
LSP復号化部162は、多重化分離部161から出力された第1量子化LSP符号(L1)から第1量子化LSPを復号化し、復号化した第1量子化LSPを合成フィルタ163および第2復号化部180へ出力する。
【0122】
適応音源符号帳165は、多重化分離部161から出力された第1適応音源ラグ符号(A1)で指定される切り出し位置から、1フレーム分のサンプルをバッファより切り出し、切り出したベクトルを第1適応音源ベクトルとして乗算器168へ出力する。また、適応音源符号帳165は、第1適応音源ラグ符号(A1)で指定される切り出し位置を第1適応音源ラグとして第2復号化部180へ出力する。
【0123】
量子化利得生成部166は、多重化分離部161から出力された第1量子化音源利得符号(G1)で指定される第1量子化適応音源利得および第1量子化固定音源利得を復号化する。そして、量子化利得生成部166は、得られた第1量子化適応音源利得を乗算器168および第2復号化部180へ出力し、また、第1量子化固定音源利得は、乗算器169および第2復号化部180へ出力する。
【0124】
固定音源符号帳167は、多重化分離部161から出力された第1固定音源ベクトル符号(F1)で指定される第1固定音源ベクトルを生成し、乗算器169および第2復号化部180へ出力する。
【0125】
乗算器168は、第1適応音源ベクトルに第1量子化適応音源利得を乗算して、加算器170へ出力する。乗算器169は、第1固定音源ベクトルに第1量子化固定音源利得を乗算して、加算器170へ出力する。加算器170は、乗算器168、169から出力された利得乗算後の第1適応音源ベクトルと第1固定音源ベクトルとの加算を行い、駆動音源を生成し、生成された駆動音源を合成フィルタ163および適応音源符号帳165に出力する。
【0126】
合成フィルタ163は、加算器170から出力された駆動音源と、LSP復号化部162によって復号化されたフィルタ係数とを用いてフィルタ合成を行い、合成信号を後処理部164へ出力する。
【0127】
後処理部164は、合成フィルタ163から出力された合成信号に対して、ホルマント強調やピッチ強調といったような音声の主観的な品質を改善する処理や、定常雑音の主観的品質を改善する処理などを施し、第1復号化信号S52として出力する。
【0128】
なお、再生された各パラメータは、第1パラメータ群S51として第2復号化部180に出力される。
【0129】
図11は、第2復号化部180の内部構成を示すブロック図である。
【0130】
多重化分離部181は、第2復号化部180に入力された第2符号化情報S14から個々の符号(L2、A2、G2、F2)を分離し、各部に出力する。具体的には、分離された第2量子化LSP符号(L2)はLSP復号化部182に出力され、分離された第2適応音源ラグ符号(A2)は適応音源符号帳185に出力され、分離された第2量子化音源利得符号(G2)は量子化利得生成部186に出力され、分離された第2固定音源ベクトル符号(F2)は固定音源符号帳187へ出力される。
【0131】
LSP復号化部182は、多重化分離部181から出力される第2量子化LSP符号(L2)から量子化残差LSPを復号化し、この量子化残差LSPを第1復号化部160から出力される第1量子化LSPと加算し、加算結果である第2量子化LSPを合成フィルタ183に出力する。
【0132】
適応音源符号帳185は、第1復号化部160から出力される第1適応音源ラグと、多重化分離部181から出力される第2適応音源ラグ符号(A2)と、で指定される切り出し位置から、1フレーム分のサンプルをバッファより切り出し、切り出したベクトルを第2適応音源ベクトルとして乗算器188へ出力する。
【0133】
量子化利得生成部186は、第1復号化部160から出力される第1量子化適応音源利得および第1量子化固定音源利得と、多重化分離部181から出力される第2量子化音源利得符号(G2)とを用いて、第2量子化適応音源利得および第2量子化固定音源利得を求め、第2量子化適応音源利得を乗算器188へ、第2量子化固定音源利得を乗算器189へ出力する。
【0134】
固定音源符号帳187は、多重化分離部181から出力された第2固定音源ベクトル符号(F2)で指定される残差固定音源ベクトルを生成し、生成された残差固定音源ベクトルと第1復号化部160から出力される第1固定音源ベクトルとを加算し、加算結果である第2固定音源ベクトルを乗算器189へ出力する。
【0135】
乗算器188は、第2適応音源ベクトルに第2量子化適応音源利得を乗算して、加算器190へ出力する。乗算器189は、第2固定音源ベクトルに第2量子化固定音源利得を乗算して、加算器190へ出力する。加算器190は、乗算器188で利得が乗算された第2適応音源ベクトルと、乗算器189で利得が乗算された第2固定音源ベクトルとの加算を行うことにより駆動音源を生成し、生成された駆動音源を合成フィルタ183および適応音源符号帳185に出力する。
【0136】
合成フィルタ183は、加算器190から出力された駆動音源と、LSP復号化部182によって復号化されたフィルタ係数とを用いてフィルタ合成を行い、合成信号を後処理部184へ出力する。
【0137】
後処理部184は、合成フィルタ183から出力された合成信号に対して、ホルマント強調やピッチ強調といったような音声の主観的な品質を改善する処理や、定常雑音の主観的品質を改善する処理などを施し、第2復号化信号S53として出力する。
【0138】
以上、音声復号化装置150について詳細に説明した。
【0139】
このように、本実施の形態に係る音声復号化装置によれば、第1符号化情報を復号化して得られる第1パラメータ群から第1復号化信号を生成し、第2符号化情報を復号化して得られる第2パラメータ群と前記第1パラメータ群とから第2復号化信号を生成し、これを出力信号として得ることができる。また、第1符号化情報のみを用いる場合、第1符号化情報を復号化して得られる第1パラメータ群から第1復号化信号を生成することにより、これを出力信号として得ることができる。すなわち、全ての符号化情報、もしくは、一部の符号化情報を用いて出力信号を得ることができる構成を採ることにより、符号化情報の一部からでも音声・楽音を復号化できる機能(階層的な符号化)を実現することができる。
【0140】
また、以上の構成において、第1復号化部160は、第1符号化情報S12の復号化を行うと共に、この復号化の際に求められる第1パラメータ群S51を第2復号化部180に出力し、第2復号化部180は、この第1パラメータ群S51を用いて、第2符号化情報S14の復号化を行う。この構成を採ることにより、本実施の形態に係る音声復号化装置は、本実施の形態に係る音声符号化装置によって階層的に符号化された信号を復号化することができる。
【0141】
なお、本実施の形態では、パラメータ復号化部120において、第1符号化部115から出力された第1符号化情報S12から個々の符号(L1、A1、G1、F1)を分離する場合を例にとって説明したが、前記個々の符号を第1符号化部115からパラメータ復号化部120へ直接入力することにより、多重化および多重化分離の手順を省略しても良い。
【0142】
また、本実施の形態では、音声符号化装置100において、固定音源符号帳108が生成する第1固定音源ベクトル、および固定音源符号帳138が生成する第2固定音源ベクトルが、パルスにより形成されている場合を例にとって説明したが、拡散パルスによってベクトルが形成されていても良い。
【0143】
また、本実施の形態では、2階層からなる階層的符号化の場合を例にとって説明したが、階層の数はこれに限定されず、3以上であっても良い。
【0144】
(実施の形態2)
図12(a)は、実施の形態1で説明した音声符号化装置100を搭載する、本発明の実施の形態2に係る音声・楽音送信装置の構成を示すブロック図である。
【0145】
音声・楽音信号1001は、入力装置1002によって電気的信号に変換され、A/D変換装置1003に出力される。A/D変換装置1003は、入力装置1002から出力された(アナログ)信号をディジタル信号に変換し、音声・楽音符号化装置1004へ出力する。音声・楽音符号化装置1004は、図1に示した音声符号化装置100を搭載し、A/D変換装置1003から出力されたディジタル音声・楽音信号を符号化し、符号化情報をRF変調装置1005へ出力する。RF変調装置1005は、音声・楽音符号化装置1004から出力された符号化情報を電波等の伝播媒体に載せて送出するための信号に変換し送信アンテナ1006へ出力する。送信アンテナ1006はRF変調装置1005から出力された出力信号を電波(RF信号)として送出する。なお、図中のRF信号1007は送信アンテナ1006から送出された電波(RF信号)を表す。
【0146】
以上が音声・楽音信号送信装置の構成および動作である。
【0147】
図12(b)は、実施の形態1で説明した音声復号化装置150を搭載する、本発明の実施の形態2に係る音声・楽音受信装置の構成を示すブロック図である。
【0148】
RF信号1008は、受信アンテナ1009によって受信されRF復調装置1010に出力される。なお、図中のRF信号1008は、受信アンテナ1009に受信された電波を表し、伝播路において信号の減衰や雑音の重畳がなければRF信号1007と全く同じものになる。
【0149】
RF復調装置1010は、受信アンテナ1009から出力されたRF信号から符号化情報を復調し、音声・楽音復号化装置1011へ出力する。音声・楽音復号化装置1011は、図1に示した音声復号化装置150を搭載し、RF復調装置1010から出力された符号化情報から音声・楽音信号を復号し、D/A変換装置1012へ出力する。D/A変換装置1012は、音声・楽音復号化装置1011から出力されたディジタル音声・楽音信号をアナログの電気的信号に変換し出力装置1013へ出力する。出力装置1013は電気的信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。なお、図中、参照符号1014は出力された音波を表す。
【0150】
以上が音声・楽音信号受信装置の構成および動作である。
【0151】
無線通信システムにおける基地局装置および通信端末装置に、上記のような音声・楽音信号送信装置および音声・楽音信号受信装置を備えることにより、高品質な出力信号を得ることができる。
【0152】
このように、本実施の形態によれば、本発明に係る音声符号化装置および音声復号化装置を音声・楽音信号送信装置および音声・楽音信号受信装置に実装することができる。
【0153】
(実施の形態3)
実施の形態1では、本発明に係る音声符号化方法、すなわち、主にパラメータ復号化部120および第2符号化部130で行われる処理を第2レイヤにおいて行う場合を例にとって説明した。しかし、本発明に係る音声符号化方法は、第2レイヤのみならず他の拡張レイヤにおいても実施することができる。例えば、3階層からなる階層的符号化の場合、本発明の音声符号化方法を第2レイヤおよび第3レイヤの双方において実施しても良い。この実施の形態について、以下詳細に説明する。
【0154】
図13は、本発明の実施の形態3に係る音声符号化装置300および音声復号化装置350の主要な構成を示すブロック図である。なお、この音声符号化装置300および音声復号化装置350は、実施の形態1に示した音声符号化装置100および音声復号化装置150と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
【0155】
まず、音声符号化装置300について説明する。この音声符号化装置300は、実施の形態1に示した音声符号化装置100の構成に加え、第2パラメータ復号化部310および第3符号化部320をさらに備える。
【0156】
第1パラメータ復号化部120は、パラメータ復号化によって得られる第1パラメータ群S13を第2符号化部130および第3符号化部320に出力する。
【0157】
第2符号化部130は、第2符号化処理によって第2パラメータ群を求め、この第2パラメータ群を表す第2符号化情報S14を多重化部154および第2パラメータ復号化部310に出力する。
【0158】
第2パラメータ復号化部310は、第2符号化部130から出力された第2符号化情報S14に対し、第1パラメータ復号化部120と同様のパラメータ復号化を施す。具体的には、第2パラメータ復号化部310は、第2符号化情報S14を多重化分離して、第2量子化LSP符号(L2)、第2適応音源ラグ符号(A2)、第2量子化音源利得符号(G2)、および第2固定音源ベクトル符号(F2)を求め、得られた各符号から第2パラメータ群S21を求める。この第2パラメータ群S21は、第3符号化部320に出力される。
【0159】
第3符号化部320は、音声符号化装置300の入力信号S11と、第1パラメータ復号化部120から出力された第1パラメータ群S13と、第2パラメータ復号化部310から出力された第2パラメータ群S21と、を用いて第3符号化処理を施すことにより第3パラメータ群を求め、この第3パラメータ群を表す符号化情報(第3符号化情報)S22を多重化部154に出力する。なお、この第3パラメータ群は、第1および第2パラメータ群にそれぞれ対応して、第3量子化LSP、第3適応音源ラグ、第3固定音源ベクトル、第3量子化適応音源利得、および第3量子化固定音源利得からなる。
【0160】
多重化部154には、第1符号化部115から第1符号化情報が入力され、第2符号化部130から第2符号化情報が入力され、第3符号化部320から第3符号化情報が入力される。多重化部154は、音声符号化装置300に入力されたモード情報に応じて、各符号化情報とモード情報とを多重化して、多重化した符号化情報(多重化情報)を生成する。例えば、モード情報が「0」である場合、多重化部154は、第1符号化情報とモード情報とを多重化し、モード情報が「1」である場合、多重化部154は、第1符号化情報と第2符号化情報とモード情報とを多重化し、また、モード情報が「2」である場合、多重化部154は、第1符号化情報と第2符号化情報と第3符号化情報とモード情報とを多重化する。次に、多重化部154は、多重化後の多重化情報を、伝送路Nを介して音声復号化装置350に出力する。
【0161】
次に、音声復号化装置350について説明する。この音声復号化装置350は、実施の形態1に示した音声復号化装置150の構成に加え、第3復号化部360をさらに備える。
【0162】
多重化分離部155は、音声符号化装置300から多重化して出力されたモード情報と符号化情報とを多重分離化し、モード情報が「0」、「1」、「2」である場合、第1符号化情報S12を第1復号化部160に出力し、モード情報が「1」、「2」である場合、第2符号化情報S14を第2復号化部180に出力し、また、モード情報が「2」である場合、第3符号化情報S22を第3復号化部360に出力する。
【0163】
第1復号化部160は、第1復号化の際に求められる第1パラメータ群S51を第2復号化部180および第3復号化部360に出力する。
【0164】
第2復号化部180は、第2復号化の際に求められる第2パラメータ群S71を第3復号化部360に出力する。
【0165】
第3復号化部360は、第1復号化部160から出力された第1パラメータ群S51と第2復号化部180から出力された第2パラメータ群S71とを用いて、多重化分離部155から出力された第3符号化情報S22に対し第3復号化処理を施す。第3復号化部360は、この第3復号化処理によって生成された第3復号化信号S72を信号制御部195に出力する。
【0166】
信号制御部195は、多重化分離部155から出力されるモード情報に従って、第1復号化信号S52、第2復号化信号S53、または第3復号化信号S72を復号化信号として出力する。具体的には、モード情報が「0」である場合、第1復号化信号S52を出力し、モード情報が「1」である場合、第2復号化信号S53を出力し、モード情報が「2」である場合、第3復号化信号S72を出力する。
【0167】
このように、本実施の形態によれば、3階層からなる階層的符号化において、本発明の音声符号化方法を第2レイヤおよび第3レイヤの双方において実施することができる。
【0168】
なお、本実施の形態では、3階層からなる階層的符号化において、本発明に係る音声符号化方法を第2レイヤおよび第3レイヤの双方において実施する形態を示したが、本発明に係る音声符号化方法を第3レイヤにおいてのみ実施しても良い。
【0169】
本発明に係る音声符号化装置および音声復号化装置は、上記の実施の形態1〜3に限定されず、種々変更して実施することが可能である。
【0170】
本発明に係る音声符号化装置および音声復号化装置は、移動体通信システム等における通信端末装置または基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置または基地局装置を提供することができる。
【0171】
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
【産業上の利用可能性】
【0172】
本発明に係る音声符号化装置、音声復号化装置、およびこれらの方法は、ネットワークの状態によりパケット損失が起こる通信システム等に、または、回線容量等の通信状況に応じてビットレートを変化させる可変レート通信システムに適用できる。
【図面の簡単な説明】
【0173】
【図1】実施の形態1に係る音声符号化装置および音声復号化装置の主要な構成を示すブロック図
【図2】実施の形態1に係る音声符号化装置における各パラメータの流れを示す図
【図3】実施の形態1に係る第1符号化部の内部構成を示すブロック図
【図4】実施の形態1に係るパラメータ復号化部の内部構成を示すブロック図
【図5】実施の形態1に係る第2符号化部の内部構成を示すブロック図
【図6】第2適応音源ラグを決定する処理について説明するための図
【図7】第2固定音源ベクトルを決定する処理について説明するための図
【図8】第1適応音源ラグを決定する処理について説明するための図
【図9】第1固定音源ベクトルを決定する処理について説明するための図
【図10】実施の形態1に係る第1復号化部の内部構成を示すブロック図
【図11】実施の形態1に係る第2復号化部の内部構成を示すブロック図
【図12】(a)実施の形態2に係る音声・楽音送信装置の構成を示すブロック図、(b)実施の形態2に係る音声・楽音受信装置の構成を示すブロック図
【図13】実施の形態3に係る音声符号化装置および音声復号化装置の主要な構成を示すブロック図
【符号の説明】
【0174】
100 音声符号化装置
115 第1符号化部
120 パラメータ復号化部
122、162、182 LSP復号化部
123、136、165、185 適応音源符号帳
124、137、166、186 量子化利得生成部
125、138、167、187 固定音源符号帳
130 第2符号化部
133 LSP量子化部
142 聴覚重み付け部
143 パラメータ決定部
150 音声復号化装置
160 第1復号化部
180 第2復号化部
300 音声符号化装置
310 第2パラメータ復号化部
320 第3符号化部
350 音声復号化装置
360 第3復号化部

【特許請求の範囲】
【請求項1】
音声信号からCELP方式の音声符号化によって符号化情報を生成する第1の符号化手段と、
前記符号化情報から、音声信号の生成モデルの特徴を表すパラメータを生成する生成手段と、
前記音声信号を入力とし、前記パラメータを用いるCELP方式の音声符号化によって、入力される前記音声信号を符号化する第2の符号化手段と、
を具備することを特徴とする音声符号化装置。
【請求項2】
前記パラメータは、
量子化LSP(Line Spectral Pairs)、適応音源ラグ、固定音源ベクトル、量子化適応音源利得、および量子化固定音源利得のいずれかを少なくとも含む、
ことを特徴とする請求項1記載の音声符号化装置。
【請求項3】
前記第2の符号化手段は、
前記生成手段によって生成される適応音源ラグに基づいて適応音源符号帳の探索範囲を設定する、
ことを特徴とする請求項2記載の音声符号化装置。
【請求項4】
前記第2の符号化手段は、
前記適応音源符号帳の探索によって求まる適応音源ラグと前記生成手段によって生成される適応音源ラグとの差を符号化する、
ことを特徴とする請求項3記載の音声符号化装置。
【請求項5】
前記第2の符号化手段は、
固定音源符号帳から生成される固定音源ベクトルに、前記生成手段によって生成される固定音源ベクトルを加算し、加算によって得られる固定音源ベクトルを符号化する、
ことを特徴とする請求項2記載の音声符号化装置。
【請求項6】
前記第2の符号化手段は、
前記固定音源符号帳から生成される固定音源ベクトルよりも前記生成手段によって生成される固定音源ベクトルに比重を掛けて前記加算を行う、
ことを特徴とする請求項5記載の音声符号化装置。
【請求項7】
前記第2の符号化手段は、
前記音声信号の線形予測分析で得られるLSPと前記生成手段によって生成される量子化LSPとの差を符号化する、
ことを特徴とする請求項2記載の音声符号化装置。
【請求項8】
前記音声信号のモード情報に従い、前記第1および第2の符号化手段によって生成される符号化情報の一方または双方を前記モード情報と多重化して出力する多重化手段、
をさらに具備することを特徴とする請求項1記載の音声符号化装置。
【請求項9】
請求項1記載の音声符号化装置に対応する音声復号化装置であって、
前記第1の符号化手段によって生成される符号化情報を復号化する第1の復号化手段と、
前記第1の復号化手段の復号化処理において生成される、音声信号の生成モデルの特徴を表すパラメータを用いて、前記第2の符号化手段によって生成される符号化情報を復号化する第2の復号化手段と、
を具備することを特徴とする音声復号化装置。
【請求項10】
請求項8記載の音声符号化装置に対応する音声復号化装置であって、
前記第1の符号化手段によって生成される符号化情報を復号化する第1の復号化手段と、
前記第1の復号化手段の復号化処理において生成される、音声信号の生成モデルの特徴を表すパラメータを用いて、前記第2の符号化手段によって生成される符号化情報を復号化する第2の復号化手段と、
前記モード情報に従い、前記第1または第2の復号化手段のいずれかで復号化された信号を出力する出力手段と、
を具備することを特徴とする音声復号化装置。
【請求項11】
CELP方式の音声符号化によって音声信号から符号化情報を生成する第1の符号化ステップと、
前記符号化情報から、音声信号の生成モデルの特徴を表すパラメータを生成する生成ステップと、
前記パラメータを用いるCELP方式の音声符号化によって、前記音声信号を符号化する第2の符号化ステップと、
を具備することを特徴とする音声符号化方法。
【請求項12】
請求項11記載の音声符号化方法に対応する音声復号化方法であって、
前記第1の符号化ステップで生成される符号化情報を復号化する第1の復号化ステップと、
前記第1の復号化ステップにおいて生成される、音声信号の生成モデルの特徴を表すパラメータを用いて、前記第2の符号化ステップで生成される符号化情報を復号化する第2の復号化ステップと、
を具備することを特徴とする音声復号化方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2006−11091(P2006−11091A)
【公開日】平成18年1月12日(2006.1.12)
【国際特許分類】
【出願番号】特願2004−188755(P2004−188755)
【出願日】平成16年6月25日(2004.6.25)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】