説明

学習装置および学習方法、並びにプログラムおよび記録媒体

【課題】符号化データを、高画質の画像や高音質の音声に復号するタップ係数を学習する。
【解決手段】教師データ生成部161は、学習用のデータから、タップ係数の学習の教師となる教師データを生成し、生徒データ生成部163は、学習用のデータから、タップ係数の学習の生徒となる生徒データを生成し、符号化部12は、学習用のデータを符号化し、そのデータについての特性データを含む学習用の符号化データをミスマッチ検出部13に出力する。ミスマッチ検出部13は、学習用の符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を適応学習部160に出力し、適応学習部160は、ミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数を学習する。本発明は、例えば、学習装置に適用できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置および学習方法、並びにプログラムおよび記録媒体に関し、特に、例えば、画像や音声等を符号化した符号化データを、高品質(高画質または高音質)の画像や音声に復号することができるようにするタップ係数を学習する学習装置および学習方法、並びにプログラムおよび記録媒体に関する。
【背景技術】
【0002】
画像(動画像)データの高能率符号化方式としては、例えば、MPEG(Moving Picture Experts Group)方式が知られており、MPEG方式では、画像データが、横×縦が8×8画素のブロック単位で、水平および垂直の2方向について2次元DCT(Discrete Cosine Transform)変換され、さらに量子化される。
【0003】
このように、MPEG方式では、画像データが2次元DCT変換されるが、例えば、MPEG2では、2次元DCT変換の対象となるブロックのDCTタイプを、マクロブロック単位で、フレームDCTモードとフィールドDCTモードに切り替えることができる。フレームDCTモードでは、ブロックが、同一フレームの画素から構成され、そのようなブロックの画素値が2次元DCT変換される。また、フィールドDCTモードでは、ブロックが、同一フィールドの画素から構成され、そのようなブロックの画素値が2次元DCT変換される。
【0004】
DCTタイプを、フレームDCTモードまたはフィールドDCTモードのうちのいずれとするかは、基本的には、例えば、画像の動きや、周辺のマクロブロックとの連続性等の画像の特性に基づき、復号画像におけるブロック歪みモスキートノイズ等を低減するように決定される。即ち、例えば、動きの大きい画像については、フィールドDCTモードが選択され、動きのほとんどない画像については、フレームDCTモードが選択される。
【0005】
ここで、画像をMPEG符号化することにより得られる符号化データには、画像を2次元DCT変換して量子化することにより得られる2次元DCT係数の他、DCTタイプ等も含まれるが、このDCTタイプは、上述のように、画像の動きなどに基づいて決定されるので、画像の特性を表しているということができる。
【発明の開示】
【発明が解決しようとする課題】
【0006】
ところで、MPEG符号化においては、デコーダ側においてオーバーフローおよびアンダーフローが生じないように、符号化データのデータレートが制限される。そして、この符号化データのデータレートを制限するために、本来、フレームDCTモードまたはフィールドDCTモードに設定すべきDCTタイプが、フィールドDCTモードまたはフレームDCTモードに、いわば不適切に設定されることがある。
【0007】
しかしながら、このような不適切なDCTタイプが設定された場合であっても、デコーダ側では、その不適切なDCTタイプにしたがって、符号化データを復号しなければならず、復号画像の画質が劣化する課題があった。
【0008】
本発明は、このような状況に鑑みてなされたものであり、符号化データを、高品質の画像や音声に復号することができるタップ係数を学習するようにするものである。
【課題を解決するための手段】
【0009】
本発明の学習装置は、学習用のデータから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成手段と、学習用のデータから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成手段と、学習用のデータを符号化し、そのデータについての特性データを含む学習用の符号化データを出力する符号化手段と、学習用の符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、ミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数を学習する学習手段とを備えることを特徴とする。
【0010】
本発明の学習方法は、学習用のデータから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用のデータから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用のデータを符号化し、そのデータについての特性データを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、ミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数を学習する学習ステップとを備えることを特徴とする。
【0011】
本発明のプログラムは、学習用のデータから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用のデータから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用のデータを符号化し、そのデータについての特性データを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、ミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数を学習する学習ステップとを含む学習処理を、コンピュータに行わせることを特徴とする。
【0012】
本発明の記録媒体は、学習用のデータから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用のデータから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用のデータを符号化し、そのデータについての特性データを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、ミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数を学習する学習ステップとを含む学習処理を、コンピュータに行わせるプログラムが記録されていることを特徴とする。
【0013】
本発明の学習装置および学習方法、並びにプログラムおよび記録媒体においては、学習用のデータから、タップ係数の学習の教師となる教師データと、生徒となる生徒データが生成されて出力される。さらに、学習用のデータが符号化され、そのデータについての特性データを含む学習用の符号化データが出力される。そして、学習用の符号化データに含まれる特性データの正しさが判定され、その判定結果を表すミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数の学習が行われる。
【発明の効果】
【0014】
本発明の学習装置および学習方法、並びにプログラムおよび記録媒体によれば、符号化データを、高品質のデータに復号することが可能となるタップ係数を学習することができる。
【発明を実施するための最良の形態】
【0015】
図1は、本発明を適用した復号装置の一実施の形態の構成例を示している。
【0016】
復号装置には、図示せぬ記録媒体(例えば、光ディスクや、光磁気ディスク、相変化ディスク、磁気テープ、半導体メモリ等)から再生された符号化データ、または伝送媒体(例えば、インターネットや、CATV網、衛星回線、地上波等)を介して伝送されてくる符号化データが、復号対象として入力されるようになっている。ここで、符号化データは、所定のデータを所定の符号化方式で符号化して得られるもので、少なくとも、所定のデータの特性を表す特性データを含んでいる。
【0017】
なお、符号化データとしては、例えば、後述するように、音声データをCELP(Code Excited Liner Prediction coding)方式で符号化したものや、画像データをMPEG2方式で符号化したもの等を採用することができる。
【0018】
ここで、符号化データが、音声データをCELP方式で符号化したものである場合には、その符号化データには、ラグを表すLコードが含まれる。このラグは、符号化された音声データのピッチ周期に対応し、従って、ピッチ周期という音声データの特性を表すから、特性データということができる。
【0019】
また、符号化データが、画像データをMPEG2方式で符号化したものである場合には、前述したように、その符号化データには、DCTタイプが含まれ、このDCTタイプは、画像の動きなどに基づいて決定されるので、画像の特性を表しており、やはり、特性データということができる。
【0020】
なお、復号装置において復号対象とする符号化データは、上述のようなCELP方式で符号化された音声データや、MPEG2方式で符号化された画像データに限定されるものではない。
【0021】
復号装置に入力された符号化データは、ミスマッチ検出部1と復号処理部2に供給されるようになっている。
【0022】
ミスマッチ検出部1は、符号化データからミスマッチ情報を検出する。即ち、ミスマッチ検出部1は、符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を、復号処理部2に出力する。復号処理部2は、ミスマッチ検出部1から供給されるミスマッチ情報に基づいて、符号化データを復号し、その結果得られる復号データを出力する。
【0023】
次に、図2のフローチャートを参照して、図1の復号装置の処理(復号処理)について説明する。
【0024】
ミスマッチ検出部1と復号処理部2には、符号化データが供給され、ミスマッチ検出部1は、まず最初に、ステップS1において、符号化データからミスマッチ情報を検出し、復号処理部2に供給して、ステップS2に進む。ステップS2では、復号処理部2が、ミスマッチ検出部1から供給されるミスマッチ情報に基づいて、そのミスマッチ情報が検出された符号化データを復号し、復号データを出力して、ステップS3に進む。ステップS3では、ミスマッチ検出部1または復号処理部2が、復号すべき符号化データが、まだ存在するかどうかを判定する。ステップS3において、復号すべき符号化データが、まだ存在すると判定された場合、ステップS1に戻り、以下、同様の処理が繰り返される。
【0025】
また、ステップS3において、復号すべき符号化データが存在しないと判定された場合、処理を終了する。
【0026】
次に、図3は、本発明を適用した復号装置の他の実施の形態の構成例を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図3の復号装置は、パラメータ記憶部3が、新たに設けられている他は、基本的に、図1の復号装置と同様に構成されている。
【0027】
パラメータ記憶部3は、後述する学習装置による学習によって得られたパラメータを記憶しており、復号処理部2は、パラメータ記憶部3に記憶されたパラメータを用いて、そこに供給される符号化データを復号する。
【0028】
従って、図3の復号装置では、復号処理部2において、符号化データの復号が、パラメータ記憶部3に記憶されたパラメータを用いて行われる他は、図1の復号装置と同様の処理が行われるため、その処理についての説明は省略する。
【0029】
次に、図4は、図3のパラメータ記憶部3に記憶させるパラメータを学習する学習装置の一実施の形態の構成例を示している。
【0030】
学習用データ記憶部11は、パラメータの学習に用いられるデータである学習用データを記憶している。
【0031】
符号化部12は、学習用データ記憶部11に記憶されている学習用データを読み出し、図3の復号装置で復号対象とする符号化データと同一の符号化方式で、学習用データを符号化する。学習用データを符号化することにより得られる符号化データ(以下、適宜、学習用符号化データという)は、符号化部12からミスマッチ検出部13に供給されるようになっている。
【0032】
ミスマッチ検出部13は、図3のミスマッチ検出部1と同様に構成され、符号化部12から供給される符号化データから、ミスマッチ情報を検出し、学習処理部14に供給する。
【0033】
学習処理部14は、学習用データ記憶部11に記憶されている学習用データを読み出し、その学習用データから、パラメータについての学習の教師となる教師データと、その学習の生徒となる生徒データを生成する。さらに、学習処理部14は、ミスマッチ検出部13から供給されるミスマッチ情報に基づき、生成した教師データと生徒データを用いて、パラメータを学習する。
【0034】
次に、図5のフローチャートを参照して、図4の学習装置の処理(学習処理)について説明する。
【0035】
まず最初に、ステップS11において、符号化部12は、学習用データ記憶部11に記憶されている学習用データを読み出して符号化し、その結果得られる学習用符号化データを、ミスマッチ検出部13に供給して、ステップS12に進む。ステップS12では、ミスマッチ検出部13が、符号化部12から供給される符号化データから、ミスマッチ情報を検出し、学習処理部14に供給して、ステップS13に進む。
【0036】
ステップS13では、学習処理部14が、学習用データ記憶部11から、学習用データを読み出し、その学習用データから、教師データと生徒データを生成する。さらに、学習処理部14は、ミスマッチ検出部13から供給されるミスマッチ情報に基づき、生成した教師データと生徒データを用いて、パラメータを学習する。
【0037】
即ち、学習処理部14は、ミスマッチ情報に基づき、生徒データから、対応する教師データを得ることができるようにするのに最適なパラメータを算出することができるようにするための処理(学習)を行う。
【0038】
そして、ステップS14に進み、符号化部12または学習処理部14が、まだ処理していない学習用データが、学習用データ記憶部11に記憶されているかどうかを判定する。ステップS14において、まだ処理していない学習用データが、学習用データ記憶部11に記憶されていると判定された場合、ステップS11に戻り、その、まだ処理していない学習用データを対象に、以下、同様の処理が繰り返される。
【0039】
また、ステップS14において、まだ処理していない学習用データが、学習用データ記憶部11に記憶されていないと判定された場合、即ち、学習用データ記憶部11に記憶された学習用データすべてを用いて学習を行った場合、ステップS15に進み、学習処理部14は、ステップS13の学習結果に基づき、パラメータを算出し、処理を終了する。
【0040】
次に、符号化データが、音声データをCELP方式で符号化したものである場合の復号装置と学習装置の詳細について説明する。なお、本実施の形態では、復号装置および学習装置は、本件出願人が先に提案したクラス分類適応処理を利用したものとなっている。
【0041】
クラス分類適応処理は、クラス分類処理と適応処理とからなり、クラス分類処理によって、データが、その性質に基づいてクラス分けされ、各クラスごとに適応処理が施される。
【0042】
ここで、適応処理について、低音質の音声(以下、適宜、低音質音声という)を、高音質の音声(以下、適宜、高音質音声という)に変換する場合を例に説明する。
【0043】
この場合、適応処理では、低音質音声を構成する音声サンプル(以下、適宜、低音質音声サンプルという)と、所定のタップ係数との線形結合により、その低音質音声の音質を向上させた高音質音声の音声サンプルの予測値を求めることで、その低音質音声の音質を高くした音声が得られる。
【0044】
具体的には、例えば、いま、ある高音質音声データを教師データとするとともに、その高音質音声の音質を劣化させた低音質音声データを生徒データとして、高音質音声を構成する音声サンプル(以下、適宜、高音質音声サンプルという)yの予測値E[y]を、幾つかの低音質音声サンプル(低音質音声を構成する音声サンプル)x1,x2,・・・の集合と、所定のタップ係数w1,w2,・・・の線形結合により規定される線形1次結合モデルにより求めることを考える。この場合、予測値E[y]は、次式で表すことができる。
【0045】
E[y]=w11+w22+・・・
・・・(1)
【0046】
式(1)を一般化するために、タップ係数wjの集合でなる行列W、生徒データxijの集合でなる行列X、および予測値E[yj]の集合でなる行列Y’を、
【数1】

で定義すると、次のような観測方程式が成立する。
【0047】
XW=Y’
・・・(2)
【0048】
ここで、行列Xの成分xijは、i件目の生徒データの集合(i件目の教師データyiの予測に用いる生徒データの集合)の中のj番目の生徒データを意味し、行列Wの成分wjは、生徒データの集合の中のj番目の生徒データとの積が演算されるタップ係数を表す。また、yiは、i件目の教師データを表し、従って、E[yi]は、i件目の教師データの予測値を表す。なお、式(1)の左辺におけるyは、行列Yの成分yiのサフィックスiを省略したものであり、また、式(1)の右辺におけるx1,x2,・・・も、行列Xの成分xijのサフィックスiを省略したものである。
【0049】
式(2)の観測方程式に最小自乗法を適用して、高音質音声サンプルyに近い予測値E[y]を求めることを考える。この場合、教師データとなる高音質音声サンプルの真値yの集合でなる行列Y、および高音質音声サンプルyの予測値E[y]の残差(真値yに対する誤差)eの集合でなる行列Eを、
【数2】

で定義すると、式(2)から、次のような残差方程式が成立する。
【0050】
XW=Y+E
・・・(3)
【0051】
この場合、高音質音声サンプルyに近い予測値E[y]を求めるためのタップ係数wjは、自乗誤差
【数3】

を最小にすることで求めることができる。
【0052】
従って、上述の自乗誤差をタップ係数wjで微分したものが0になる場合、即ち、次式を満たすタップ係数wjが、高音質音声サンプルyに近い予測値E[y]を求めるため最適値ということになる。
【0053】
【数4】

・・・(4)
【0054】
そこで、まず、式(3)を、タップ係数wjで微分することにより、次式が成立する。
【0055】
【数5】

・・・(5)
【0056】
式(4)および(5)より、式(6)が得られる。
【0057】
【数6】

・・・(6)
【0058】
さらに、式(3)の残差方程式における生徒データxij、タップ係数wj、教師データyi、および残差eiの関係を考慮すると、式(6)から、次のような正規方程式を得ることができる。
【0059】
【数7】

・・・(7)
【0060】
なお、式(7)に示した正規方程式は、行列(共分散行列)Aおよびベクトルvを、
【数8】

で定義するとともに、ベクトルWを、数1で示したように定義すると、式
AW=v
・・・(8)で表すことができる。
【0061】
式(7)における各正規方程式は、生徒データxijおよび教師データyiのセットを、ある程度の数だけ用意することで、求めるべきタップ係数wjの数Jと同じ数だけたてることができ、従って、式(8)を、ベクトルWについて解くことで(但し、式(8)を解くには、式(8)における行列Aが正則である必要がある)、最適なタップ係数wjを求めることができる。なお、式(8)を解くにあたっては、例えば、掃き出し法(Gauss-Jordanの消去法)などを用いることが可能である。
【0062】
以上のように、生徒データと教師データを用いて、最適なタップ係数(ここでは、生徒データから教師データの予測値を求めた場合に、その予測値の自乗誤差の総和を最小にするタップ係数)wjを求める学習をしておき、さらに、そのタップ係数wjを用い、式(1)により、教師データyに近い予測値E[y]を求めるのが適応処理である。
【0063】
なお、適応処理は、低音質音声には含まれていないが、高音質音声に含まれる成分が再現される点で、単なる補間とは異なる。即ち、適応処理では、式(1)だけを見る限りは、いわゆる補間フィルタを用いての単なる補間と同一に見えるが、その補間フィルタのタップ係数に相当するタップ係数wが、教師データyを用いての、いわば学習により求められるため、高音質音声に含まれる成分を再現することができる。このことから、適応処理は、いわば音声の創造作用がある処理ということができる。
【0064】
また、上述の場合には、教師データとして、高音質の音声データを用いるとともに、生徒データとして、教師データとしての音声データを低音質にした音声データを用いるようにしたが、その他、例えば、教師データとして、高画質の画像データを用いるとともに、生徒データとして、教師データとしての画像データに対して間引きを行ったり、ノイズを加えたり、あるいは、ローパスフィルタによるフィルタリングを施す等して低画質にしたものを用いるようにすることが可能である。この場合、低画質の画像を、高画質の画像(の予測値)に変換するタップ係数を得ることができる。
【0065】
さらに、例えば、教師データとして、高画質の画像データを用いるとともに、生徒データとして、教師データとしての画像データを2次元DCT変換し、さらに量子化、逆量子化して得られる2次元DCT係数を用いるようにすることも可能である。この場合、2次元DCT係数を、高画質の画像(の予測値)に変換するタップ係数を得ることができる。
【0066】
また、上述の場合には、高音質音声の予測値を、線形1次予測するようにしたが、その他、予測値は、2次以上の式によって予測することも可能である。
【0067】
図6は、上述のようなクラス分類適応処理によって、低音質音声データを高音質音声データに変換する音声データ処理装置の構成例を示している。
【0068】
低音質音声データは、ピッチ検出部21、並びにタップ抽出部22および23に供給されるようになっている。
【0069】
ピッチ検出部21は、そこに供給される低音質音声データのピッチ周期を検出し、タップ抽出部22および23に供給する。
【0070】
タップ抽出部22は、高音質音声データの音声サンプルを、順次、注目データとし、さらに、その注目データを予測するのに用いる低音質音声データの幾つかの音声サンプルを、予測タップとして抽出する。また、タップ抽出部23は、注目データをクラス分類するのに用いる低音質音声データの幾つかの音声サンプルを、クラスタップとして抽出する。
【0071】
ここで、タップ抽出部22は、低音質音声データの音声サンプルのうち、注目データに対応する音声サンプルに近い位置にある幾つかの音声サンプルを、予測タップとして抽出する。また、タップ抽出部22は、ピッチ検出部21から供給される注目データに対応する位置のピッチ周期にしたがい、予測タップの構造を変更する。即ち、タップ抽出部22は、ピッチ周期に応じて、予測タップとする低音質音声データの音声サンプルを変更する。具体的には、例えば、ピッチ周期が長い場合には、タップ抽出部22は、低音質音声データの音声サンプルのうち、注目データに対応する音声サンプルから比較的広い範囲にわたって、所定数の音声サンプルを、予測タップとして抽出する。また、例えば、ピッチ周期が短い場合には、タップ抽出部22は、低音質音声データの音声サンプルのうち、注目データに対応する音声サンプルから比較的狭い範囲にわたって、所定数の音声サンプルを、予測タップとして抽出する。
【0072】
タップ抽出部23も、タップ抽出部22と同様にして、低音質音声データから、クラスタップを抽出する。
【0073】
なお、ここでは、予測タップとクラスタップは、説明を簡単にするために、同一のタップ構造を有するものとする。但し、予測タップとクラスタップとは、異なるタップ構造とすることが可能である。
【0074】
タップ抽出部22で得られた予測タップは、予測部26に供給され、タップ抽出部23で得られたクラスタップは、クラス分類部24に供給される。
【0075】
クラス分類部24は、タップ抽出部23からのクラスタップに基づき、注目データをクラス分類し、その結果得られるクラスに対応するクラスコードを、係数メモリ25に出力する。
【0076】
ここで、クラス分類を行う方法としては、例えば、ADRC(Adaptive Dynamic Range Coding)等を採用することができる。
【0077】
ADRCを用いる方法では、クラスタップを構成する音声サンプルが、ADRC処理され、その結果得られるADRCコードにしたがって、注目データのクラスが決定される。
【0078】
なお、KビットADRCにおいては、例えば、クラスタップを構成する音声サンプルの最大値MAXと最小値MINが検出され、DR=MAX-MINを、集合の局所的なダイナミックレンジとし、このダイナミックレンジDRに基づいて、クラスタップを構成する音声サンプルがKビットに再量子化される。即ち、クラスタップを構成する各音声サンプルから、最小値MINが減算され、その減算値がDR/2Kで除算(量子化)される。そして、以上のようにして得られる、クラスタップを構成するKビットの各音声サンプルを、所定の順番で並べたビット列が、ADRCコードとして出力される。従って、クラスタップが、例えば、1ビットADRC処理された場合には、そのクラスタップを構成する各音声サンプルは、最小値MINが減算された後に、最大値MAXと最小値MINとの平均値で除算され(小数点以下切り捨て)、これにより、各音声サンプルが1ビットとされる(2値化される)。そして、その1ビットの音声サンプルを所定の順番で並べたビット列が、ADRCコードとして出力される。
【0079】
なお、クラス分類部24には、例えば、クラスタップを構成する音声サンプルのレベル分布のパターンを、そのままクラスコードとして出力させることも可能である。しかしながら、この場合、クラスタップが、N個の音声サンプルで構成され、各音声サンプルに、Kビットが割り当てられているとすると、クラス分類部24が出力するクラスコードの場合の数は、(2NK通りとなり、音声サンプルのビット数Kに指数的に比例した膨大な数となる。
【0080】
従って、クラス分類部24においては、クラスタップの情報量を、上述のADRC処理や、あるいはベクトル量子化等によって圧縮することにより、クラス分類を行うのが好ましい。
【0081】
係数メモリ25は、各クラスコードに対応するアドレスに、そのクラスコードに対応するクラスのタップ係数を記憶しており、クラス分類部24から供給されるクラスコードに対応するアドレスに記憶されているタップ係数を、予測部26に供給する。
【0082】
予測部26は、タップ抽出部22が出力する予測タップと、係数メモリ25が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部26は、注目データとしての高音質音声データ(の予測値)を求めて出力する。
【0083】
次に、図7は、図6の係数メモリ25に記憶させるタップ係数を学習する学習装置の構成例を示している。
【0084】
学習装置には、高音質音声データが、学習用音声データとして入力されるようになっており、この学習用音声データは、時間間引きフィルタ31に供給されるとともに、教師データとして、足し込み部36に供給される。
【0085】
時間間引きフィルタ31は、学習用音声データとしての高音質音声データの音声サンプルを、所定の間引き率で間引き、これにより、低音質音声データを生成し、生徒データとして、ピッチ検出部32、並びにタップ抽出部33および34に供給する。
【0086】
ピッチ検出部32は、そこに供給される生徒データとしての低音質音声データのピッチ周期を検出し、タップ抽出部33および34に供給する。
【0087】
タップ抽出部33は、教師データとしての高音質音声データの音声サンプルを、順次、注目データとし、その注目データについて、図6のタップ抽出部22が構成するのと同一構造の予測タップを、そこに供給される生徒データとしての低音質音声データから、幾つかの音声サンプルを抽出することにより構成する。タップ抽出部34も、注目データについて、図6のタップ抽出部23が構成するのと同一構造のクラスタップを、そこに供給される生徒データとしての低音質音声データから、幾つかの音声サンプルを抽出することにより構成する。
【0088】
なお、タップ抽出部33と34は、それぞれ、図6のタップ抽出部22と23と同様に、ピッチ検出部32から供給される、注目データに対応する位置のピッチ周期に応じて、予測タップとクラスタップのタップ構造を変更するようになっている。
【0089】
タップ抽出部33で得られた予測タップは、足し込み部36に供給され、タップ抽出部34で得られたクラスタップは、クラス分類部35に供給される。
【0090】
クラス分類部35は、図6のクラス分類部24における場合と同様に、タップ抽出部33からのクラスタップに基づき、注目データをクラス分類し、その結果得られるクラスに対応するクラスコードを、足し込み部36に出力する。
【0091】
足し込み部36は、そこに供給される教師データのうち、注目データとなっている教師データと、タップ抽出部33から供給される予測タップを構成する生徒データを対象とした足し込みを、クラス分類部35から供給されるクラスコードごとに行う。
【0092】
即ち、足し込み部36は、クラス分類部35から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)を用い、式(8)の行列Aにおける各コンポーネントとなっている、生徒データどうしの乗算(xinim)と、サメーション(Σ)に相当する演算を行う。
【0093】
さらに、足し込み部36は、やはり、クラス分類部35から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)および注目データ(教師データ)を用い、式(8)のベクトルvにおける各コンポーネントとなっている、生徒データと教師データの乗算(xini)と、サメーション(Σ)に相当する演算を行う。
【0094】
即ち、足し込み部36は、前回、注目データとされた教師データについて求められた式(8)における行列Aのコンポーネントと、ベクトルvのコンポーネントを、その内蔵するメモリ(図示せず)に記憶しており、その行列Aまたはベクトルvの各コンポーネントに対して、新たに注目データとされた教師データについて、その教師データyiおよび生徒データxin(xim)を用いて計算される、対応するコンポーネントxinimまたはxiniを足し込む(行列A、ベクトルvにおけるサメーションで表される加算を行う)。
【0095】
そして、足し込み部36は、そこに供給される教師データすべてを注目データとして、上述の足し込みを行うことにより、各クラスについて、式(8)に示した正規方程式をたて、タップ係数算出部37に供給する。
【0096】
タップ係数算出部37は、足し込み部36から供給されるクラスごとの正規方程式を解くことにより、各クラスごとのタップ係数を求めて出力する。図6の係数メモリ25には、このようにして求められたクラスごとのタップ係数が記憶されている。
【0097】
なお、入力される学習用音声データのサンプル数が十分でないこと等に起因して、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じることがあり得るが、そのようなクラスについては、タップ係数算出部37は、例えば、デフォルトのタップ係数を出力するようになっている。
【0098】
次に、図8および図9を参照して、CELP方式による音声データの符号化と復号について説明する。なお、CELP方式としては、広義には、VSELP(Vector Sum Excited Liner Prediction),PSI−CELP(Pitch Synchronous Innovation CELP),CS−ACELP(Conjugate Structure Algebraic CELP)等があるが、ここでは、例えば、VSELP方式を例に説明する。
【0099】
図8は、音声データを、VSELP方式により符号化するVSELP符号化装置の構成例を示している。
【0100】
符号化対象の音声は、マイク(マイクロフォン)41に入力され、そこで、電気信号としての音声信号に変換され、A/D(Analog/Digital)変換部42に供給される。A/D変換部42は、マイク41からのアナログの音声信号を、例えば、8kHz等のサンプリング周波数でサンプリングすることにより、ディジタルの音声信号にA/D変換し、さらに、所定のビット数で量子化を行って、演算器43とLPC(Liner Prediction Coefficient)分析部44に供給する。
【0101】
LPC分析部44は、A/D変換部42からの音声信号を、例えば、160サンプル分の長さのフレームごとにLPC分析し、P次の線形予測係数α1,α2,・・・,αPを求める。そして、LPC分析部44は、このP次の線形予測係数αp(p=1,2,・・・,P)を要素とするベクトルを、音声の特徴ベクトルとして、ベクトル量子化部45に供給する。
【0102】
ベクトル量子化部45は、線形予測係数を要素とするコードベクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、LPC分析部44からの特徴ベクトルαをベクトル量子化し、そのベクトル量子化の結果得られるコード(以下、適宜、Aコード(A_code)という)を、コード決定部55に供給する。
【0103】
さらに、ベクトル量子化部45は、コード決定部55に出力したAコードに対応するコードベクトルα’を構成する要素となっている線形予測係数α1’,α2’,・・・,αP’を、音声合成フィルタ46に供給する。
【0104】
音声合成フィルタ46は、例えば、IIR(Infinite Impulse Response)型のディジタルフィルタで、ベクトル量子化部45からの線形予測係数αp’(p=1,2,・・・,P)をIIRフィルタのフィルタ係数(タップ係数)とするとともに、演算器54から供給される残差信号eを入力信号として、音声合成を行う。
【0105】
即ち、LPC分析部44で行われるLPC分析は、現在時刻nの音声信号(のサンプル値)sn、およびこれに隣接する過去のP個のサンプル値sn-1,sn-2,・・・,sn-Pに、式
n+α1n-1+α2n-2+・・・+αPn-P=en
・・・(9)で示す線形1次結合が成立すると仮定し、現在時刻nのサンプル値snの予測値(線形予測値)sn’を、過去のP個のサンプル値sn-1,sn-2,・・・,sn-Pを用いて、式
n’=−(α1n-1+α2n-2+・・・+αPn-P
・・・(10)
によって線形予測したときに、実際のサンプル値snと線形予測値sn’との間の自乗誤差を最小にする線形予測係数αpを求めるものである。
【0106】
ここで、式(9)において、{en}(・・・,en-1,en,en+1,・・・)は、平均値が0で、分散が所定値σ2の互いに無相関な確率変数である。
【0107】
式(9)から、サンプル値snは、式
n=en−(α1n-1+α2n-2+・・・+αPn-P
・・・(11)で表すことができ、これを、Z変換すると、次式が成立する。
【0108】
S=E/(1+α1-1+α2-2+・・・+αP-P
・・・(12)
但し、式(12)において、SとEは、式(11)におけるsnとenのZ変換を、それぞれ表す。
【0109】
ここで、式(9)および(10)から、enは、式
n=sn−sn
・・・(13)で表すことができ、実際のサンプル値snと線形予測値sn’との間の残差信号と呼ばれる。
【0110】
従って、式(12)から、線形予測係数αpをIIRフィルタのタップ係数とするとともに、残差信号enをIIRフィルタの入力信号とすることにより、音声信号snを求めることができる。
【0111】
そこで、音声合成フィルタ46は、上述したように、ベクトル量子化部45からの線形予測係数αp’をタップ係数とするとともに、演算器54から供給される残差信号eを入力信号として、式(12)を演算し(残差信号eをフィルタリングし)、音声信号(合成音信号)ssを求める。
【0112】
なお、音声合成フィルタ46では、LPC分析部44によるLPC分析の結果得られる線形予測係数αpではなく、そのベクトル量子化の結果得られるコードに対応するコードベクトルとしての線形予測係数αp’が、フィルタ係数として用いられるため、音声合成フィルタ46が出力する合成音信号は、A/D変換部42が出力する音声信号とは、基本的に同一にはならない。
【0113】
音声合成フィルタ46が出力する合成音信号ssは、演算器43に供給される。演算器43は、音声合成フィルタ46からの合成音信号ssから、A/D変換部42が出力する音声信号sを減算し、その減算値を、自乗誤差演算部47に供給する。自乗誤差演算部47は、演算器43からの減算値の自乗和(第kフレームのサンプル値についての自乗和)を演算し、その結果得られる自乗誤差を、自乗誤差最小判定部48に供給する。
【0114】
自乗誤差最小判定部48は、自乗誤差演算部47が出力する自乗誤差に対応付けて、ラグを表すコードとしてのLコード(L_code)、ゲインを表すコードとしてのGコード(G_code)、および符号語を表すコードとしてのIコード(I_code)を記憶しており、自乗誤差演算部47が出力する自乗誤差に対応するLコード、Gコード、およびLコードを出力する。Lコードは、適応コードブック記憶部49に、Gコードは、ゲイン復号器50に、Iコードは、励起コードブック記憶部51に、それぞれ供給される。さらに、Lコード、Gコード、およびIコードは、コード決定部55にも供給される。
【0115】
適応コードブック記憶部49は、例えば7ビットのLコードと、所定の遅延時間(ラグ)とを対応付けた適応コードブックを記憶しており、演算器54から供給される残差信号eを、自乗誤差最小判定部48から供給されるLコードに対応付けられた遅延時間だけ遅延して、演算器52に出力する。
【0116】
ここで、適応コードブック記憶部49は、残差信号eを、Lコードに対応する時間だけ遅延して出力することから、その出力信号は、その遅延時間を周期とする周期信号に近い信号となる。この信号は、線形予測係数を用いた音声合成において、主として、有声音の合成音を生成するための駆動信号となる。従って、Lコードに対応する時間は、有声音のピッチ周期を表すことになる。
【0117】
ゲイン復号器50は、Gコードと、所定のゲインβおよびγとを対応付けたテーブルを記憶しており、自乗誤差最小判定部48から供給されるGコードに対応付けられたゲインβおよびγを出力する。ゲインβとγは、演算器52と53に、それぞれ供給される。
【0118】
励起コードブック記憶部51は、例えば9ビットのIコードと、所定の励起信号とを対応付けた励起コードブックを記憶しており、自乗誤差最小判定部48から供給されるIコードに対応付けられた励起信号を、演算器53に出力する。
【0119】
ここで、励起コードブックに記憶されている励起信号は、例えば、ホワイトノイズ等に近い信号であり、線形予測係数を用いた音声合成において、主として、無声音の合成音を生成するための駆動信号となる。
【0120】
演算器52は、適応コードブック記憶部49の出力信号と、ゲイン復号器50が出力するゲインβとを乗算し、その乗算値lを、演算器54に供給する。演算器53は、励起コードブック記憶部51の出力信号と、ゲイン復号器50が出力するゲインγとを乗算し、その乗算値nを、演算器54に供給する。演算器54は、演算器52からの乗算値lと、演算器53からの乗算値nとを加算し、その加算値を、残差信号eとして、音声合成フィルタ46に供給する。
【0121】
音声合成フィルタ46では、以上のようにして、演算器54から供給される残差信号eが、ベクトル量子化部45から供給される線形予測係数αp’をタップ係数とするIIRフィルタでフィルタリングされ、その結果得られる合成音信号が、演算器43に供給される。そして、演算器43および自乗誤差演算部47において、上述の場合と同様の処理が行われ、その結果得られる自乗誤差が、自乗誤差最小判定部48に供給される。
【0122】
自乗誤差最小判定部48は、自乗誤差演算部47からの自乗誤差が最小(極小)になったかどうかを判定する。そして、自乗誤差最小判定部48は、自乗誤差が最小になっていないと判定した場合、上述のように、その自乗誤差に対応するLコード、Gコード、およびLコードを出力し、以下、同様の処理が繰り返される。
【0123】
一方、自乗誤差最小判定部48は、自乗誤差が最小になったと判定した場合(例えば、自乗誤差が、所定の閾値以下となった場合)、確定信号を、コード決定部55に出力する。コード決定部55は、ベクトル量子化部45から供給されるAコードをラッチするとともに、自乗誤差最小判定部48から供給されるLコード、Gコード、およびIコードを順次ラッチするようになっており、自乗誤差最小判定部48から確定信号を受信すると、そのときラッチしているAコード、Lコード、Gコード、およびIコードを、チャネルエンコーダ56に供給する。チャネルエンコーダ56は、コード決定部55からのAコード、Lコード、Gコード、およびIコードを多重化し、符号化データとして出力する。
【0124】
なお、以下では、説明を簡単にするため、Aコード、Lコード、Gコード、およびIコードは、フレームごとに求められるものとする。但し、例えば、1フレームを、4つのサブフレームに分割し、Lコード、Gコード、およびIコードは、サブフレームごとに求めるようにすること等が可能である。
【0125】
ここで、図8(後述する図9乃至図11においても同様)では、各変数に、[k]が付され、配列変数とされている。このkは、フレーム数を表すが、明細書中では、その記述は、適宜省略する。
【0126】
次に、図9は、図8のVSELP符号化装置が出力する符号化データを、VSELP方式で復号するVSELP復号装置の構成例を示している。
【0127】
図8のVSELP符号化装置が出力する符号化データは、チャネルデコーダ61に供給される。チャネルデコーダ61は、符号化データから、Lコード、Gコード、Iコード、Aコードを分離し、それぞれを、適応コードブック記憶部62、ゲイン復号器63、励起コードブック記憶部64、フィルタ係数復号器65に供給する。
【0128】
適応コードブック記憶部62、ゲイン復号器63、励起コードブック記憶部64、演算器66乃至68は、図8の適応コードブック記憶部49、ゲイン復号器50、励起コードブック記憶部51、演算器52乃至54とそれぞれ同様に構成されるもので、図8で説明した場合と同様の処理が行われることにより、Lコード、Gコード、およびIコードが、残差信号eに復号される。この残差信号eは、音声合成フィルタ69に対して、入力信号として与えられる。
【0129】
フィルタ係数復号器65は、図8のベクトル量子化部45が記憶しているのと同一のコードブックを記憶しており、Aコードを、線形予測係数αp’に復号し、音声合成フィルタ69に供給する。
【0130】
音声合成フィルタ69は、図8の音声合成フィルタ46と同様に構成されており、フィルタ係数復号器65からの線形予測係数αp’をフィルタ係数(タップ係数)とするとともに、演算器68から供給される残差信号eを入力信号として、式(12)を演算し、これにより、図8の自乗誤差最小判定部48において自乗誤差が最小と判定されたときの合成音信号を生成し、復号音声データとして出力する。
【0131】
以上のように、図8のVSELP符号化装置では、図9のVSELP復号装置の音声合成フィルタ69に与えられる残差信号と線形予測係数がコード化されて送信されてくるため、図9のVSELP復号装置では、そのコードが、残差信号と線形予測係数に復号され、音声合成フィルタ69に与えられる。
【0132】
しかしながら、この復号された残差信号や線形予測係数(以下、適宜、それぞれを、復号残差信号または復号線形予測係数という)には、量子化誤差(ベクトル量子化による誤差)等の誤差が含まれるため、音声をLPC分析して得られる残差信号と線形予測係数には一致しない。
【0133】
このため、図9のVSELP復号装置の音声合成フィルタ69が出力する復号音声データは、歪みを有する、音質の劣化したものとなる。
【0134】
そこで、VSELP復号装置において、上述したクラス分類適応処理を行うようにすることにより、音質を向上させた復号音声データを得ることが可能となる。
【0135】
図10は、そのようなVSELP復号装置の構成例を示している。なお、図中、図9における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0136】
タップ抽出部81には、音声合成フィルタ69が出力する復号音声データが供給されるようになっており、タップ抽出部81は、図6のタップ抽出部22と同様に、その復号音声データから、予測タップとするもの(サンプル値)を抽出し、予測部85に供給する。
【0137】
タップ抽出部82にも、音声合成フィルタ69が出力する復号音声データが供給されるようになっており、タップ抽出部82は、図6のタップ抽出部23と同様に、その復号音声データから、クラスタップとするもの(サンプル値)を抽出し、クラス分類部83に供給する。
【0138】
クラス分類部83は、図6のクラス分類部24と同様に、タップ抽出部82から供給されるクラスタップに基づいて、クラス分類を行い、そのクラス分類結果としてのクラスコードを、係数メモリ84に供給する。
【0139】
係数メモリ84は、後述する図11の学習装置において学習処理が行われることにより得られる、クラスごとのタップ係数を記憶しており、クラス分類部83が出力するクラスコードに対応するアドレスに記憶されているタップ係数を、予測部85に供給する。
【0140】
予測部85は、図6の予測部26と同様に、タップ抽出部81が出力する予測タップと、係数メモリ84が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部85は、音声合成フィルタ69が出力する低音質の復号音声データを高音質にした高音質音声データを出力する。
【0141】
なお、タップ抽出部81には、チャネルデコーダ61が出力する、フレーム(またはサブフレーム)ごとのLコード、Gコード、Iコード、およびAコードが供給されるようになっている。そして、タップ抽出部81では、Lコード、Gコード、Iコード、またはAコードからも、予測タップを抽出することができるようになっている。さらに、タップ抽出部81では、Lコード、Gコード、Iコード、またはAコードに基づいて、予測タップのタップ構造を変更することも可能となっている。
【0142】
タップ抽出部82にも、チャネルデコーダ61が出力するLコード、Gコード、Iコード、およびAコードが供給されるようになっており、タップ抽出部82でも、タップ抽出部81における場合と同様に、Lコード、Gコード、Iコード、またはAコードからも、クラスタップを抽出し、さらには、Lコード、Gコード、Iコード、またはAコードに基づいて、クラスタップのタップ構造を変更することが可能となっている。
【0143】
次に、図11は、図10の係数メモリ84に記憶させるタップ係数の学習処理を行う学習装置の構成例を示している。
【0144】
演算器93乃至コード決定部105は、図8の演算器43乃至コード決定部45とそれぞれ同様に構成される。演算器93には、学習用音声信号が入力されるようになっており、従って、演算器93乃至コード決定部105では、その学習用音声信号に対して、図8における場合と同様の処理が施される。
【0145】
そして、タップ抽出部111と112には、自乗誤差最小判定部98において自乗誤差が最小になったと判定されたときの音声合成フィルタ96が出力する復号音声データが、生徒データとして供給される。また、足し込み部114には、学習用音声信号が、そのまま教師データとして供給される。
【0146】
タップ抽出部111は、音声合成フィルタ96が出力する復号音声データの音声サンプルから、図10のタップ抽出部81と同一構造の予測タップを抽出し、足し込み部114に供給する。
【0147】
タップ抽出部112も、音声合成フィルタ96が出力する復号音声データの音声サンプルから、図10のタップ抽出部82と同一構造のクラスタップを抽出し、クラス分類部113に供給する。
【0148】
クラス分類部113は、タップ抽出部112からのクラスタップに基づいて、図10のクラス分類部83における場合と同様のクラス分類を行い、その結果得られるクラスコードを、足し込み部114に供給する。
【0149】
足し込み部114は、学習用音声信号を、教師データとして受信するとともに、タップ抽出部111からの予測タップを、生徒データとして受信し、その教師データおよび生徒データを対象として、クラス分類部113からのクラスコードごとに、図7の足し込み部36における場合と同様の足し込みを行うことにより、各クラスについて、式(8)に示した正規方程式をたてる。
【0150】
タップ係数算出部115は、図7のタップ係数算出部37と同様に、足し込み部114においてクラスごとに生成された正規方程式を解くことにより、クラスごとに、タップ係数を求めて出力する。
【0151】
図10の係数メモリ84には、以上のようにして、タップ係数算出部115から出力されるクラスごとのタップ係数が記憶されている。
【0152】
従って、図10の係数メモリ84に記憶されたタップ係数は、線形予測演算を行うことにより得られる高音質の音声の予測値の予測誤差(自乗誤差)が、統計的に最小になるように学習を行うことにより求められたものであるから、図10の予測部85が出力する音声データは、高音質のものとなる。
【0153】
なお、タップ抽出部111と112には、コード決定部105が、自乗誤差最小判定部98から確定信号を受信したときに出力するLコード、Gコード、Iコード、およびAコードが供給されるようになっており、図10のタップ抽出部81や82において、Lコード、Gコード、Iコード、またはAコードを用いて予測タップやクラスタップが構成される場合には、タップ抽出部111や112でも、Lコード、Gコード、Iコード、またはAコードを用いて予測タップやクラスタップが構成されるようになっている。
【0154】
次に、図12は、図3の復号装置の詳細構成例を示している。
【0155】
符号化特性情報抽出部121には、復号対象の符号化データが供給されるようになっており、符号化特性情報抽出部121は、符号化データから、その符号化データに含まれる特性データを抽出して、判定部123に供給する。
【0156】
実特性抽出部122にも、復号対象の符号化データが供給されるようになっており、実特性抽出部122は、符号化データに対応する元のデータの実際の特性である実特性を抽出し、判定部123に供給する。
【0157】
ここで、例えば、符号化データが、音声データを符号化したものである場合には、実特性抽出部122は、例えば、その音声データのピッチ周期を、実特性として求める。また、例えば、符号化データが、画像データを符号化したものである場合には、実特性抽出部122は、例えば、その画像データの動きを評価する評価値を、実特性として求める。
【0158】
判定部123は、符号化特性情報抽出部121から供給される特性データと、実特性抽出部122から供給される実特性とを比較することにより、特性データの正しさを判定する。そして、判定部123は、その特性データの正しさの判定結果としてのミスマッチ情報を、復号処理部2に出力する。
【0159】
なお、以上の符号化特性情報抽出部121、実特性抽出部122、および判定部123が、ミスマッチ検出部1を構成している。
【0160】
前処理部131には、復号対象の符号化データが供給されるようになっており、前処理部131は、符号化データに対して、所定の前処理を施し、その結果得られる前処理データを、クラス分類適応処理部132に供給する。
【0161】
クラス分類適応処理部132は、前処理部131から供給される前処理データから、予測タップおよびクラスタップを構成し、係数メモリ141を参照することで、上述したようなクラス分類適応処理を行う。そして、クラス分類適応処理部132は、クラス分類適応処理を行うことによって得られるデータ(以下、適宜、適応処理データという)を、後処理部133に出力する。
【0162】
ここで、クラス分類適応処理部132には、ミスマッチ検出部1の判定部123が出力するミスマッチ情報が供給されるようになっており、クラス分類適応処理部132では、このミスマッチ情報に基づき、クラス分類適応処理が行われるようになっている。
【0163】
後処理部133は、クラス分類適応処理部132が出力するデータに対して、所定の後処理を施し、これにより、符号化データを、高品質の復号データに復号したものを得て出力する。
【0164】
なお、以上の前処理部131、クラス分類適応処理部132、および後処理部133が、復号処理部2を構成している。
【0165】
係数メモリ141は、クラス分類適応処理部132がクラス分類適応処理を行うのに用いるクラスごとのタップ係数を記憶している。
【0166】
なお、この係数メモリ141によって、パラメータ記憶部3が構成されている。
【0167】
次に、図13は、図12のクラス分類適応処理部132の構成例を示している。
【0168】
前処理部131が出力する前処理データは、タップ抽出部151および152に供給されるようになっている。
【0169】
タップ抽出部151は、得ようとしている適応処理データを、注目データとし、さらに、その注目データを予測するのに用いる前処理データの幾つかを、予測タップとして抽出する。また、タップ抽出部152は、注目データをクラス分類するのに用いる前処理データの幾つかを、クラスタップとして抽出する。
【0170】
ここで、タップ抽出部151および152には、判定部123(図12)が出力するミスマッチ情報も供給されるようになっている。そして、タップ抽出部151と152は、ミスマッチ情報に基づき、予測タップとクラスタップの構造を、それぞれ変更するようになっている。
【0171】
なお、ここでは、説明を簡単にするために、予測タップとクラスタップは、同一のタップ構造を有するものとする。但し、予測タップとクラスタップとは、異なるタップ構造とすることが可能である。
【0172】
タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
【0173】
クラス分類部153には、クラスタップの他、ミスマッチ情報も供給されるようになっており、クラス分類部153は、タップ抽出部152からのクラスタップとミスマッチ情報に基づき、注目データをクラス分類し、その結果得られるクラスに対応するクラスコードを、係数メモリ141に供給する。
【0174】
係数メモリ141は、各クラスコードに対応するアドレスに、そのクラスコードに対応するクラスのタップ係数を記憶しており、クラス分類部153から供給されるクラスコードに対応するアドレスに記憶されているタップ係数を、予測部154に供給する。
【0175】
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、適応処理データ(の予測値)を求めて出力する。
【0176】
次に、図14のフローチャートを参照して、図12の復号装置の処理(復号処理)について説明する。
【0177】
クラス分類適応処理部132(図13)のタップ抽出部151では、得ようとしている適応処理データが、注目データとされ、ステップS21において、ミスマッチ検出部1が、その注目データに対応する符号化データ(以下、適宜、注目符号化データという)から、ミスマッチ情報を生成する。
【0178】
即ち、ミスマッチ検出部1では、符号化特性情報抽出部121が、注目符号化データから、その注目符号化データに含まれる特性データを抽出し、判定部123に供給するとともに、実特性抽出部122が、注目符号化データに対応する元のデータの実際の特性である実特性を抽出し、判定部123に供給する。そして、判定部123は、符号化特性情報抽出部121から供給される特性データと、実特性抽出部122から供給される実特性とを比較することにより、特性データの正しさを判定し、その判定結果としてのミスマッチ情報を、クラス分類適応処理部132に供給する。
【0179】
そして、ステップS22に進み、前処理部131は、注目データについての予測タップとクラスタップを構成するのに必要な前処理データを得るための符号化データに対して、前処理を施し、その結果得られる前処理データを、クラス分類適応処理部132に供給する。
【0180】
クラス分類適応処理部132(図13)では、ステップS23において、タップ抽出部151と152が、前処理部131から供給される前処理データを用い、ミスマッチ検出部1からのミスマッチ情報に基づくタップ構造の予測タップとクラスタップを、それぞれ構成する。そして、予測タップは、タップ抽出部151から予測部154に供給され、クラスタップは、タップ抽出部152からクラス分類部153に供給される。
【0181】
クラス分類部153は、タップ抽出部152から、注目データについてのクラスタップを受信し、ステップS24において、そのクラスタップと、ミスマッチ検出部1から供給されるミスマッチ情報に基づき、注目データをクラス分類し、注目データのクラスを表すクラスコードを、係数メモリ141に出力する。
【0182】
係数メモリ141は、クラス分類部153から供給されるクラスコードに対応するアドレスに記憶されているタップ係数を読み出して出力する。予測部154は、ステップS25において、係数メモリ141が出力するタップ係数を取得し、ステップS26に進む。
【0183】
ステップS26では、予測部154が、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データとしての適応処理データ(の予測値)を求め、後処理部133に供給する。
【0184】
後処理部133(図12)は、ステップS27において、クラス分類適応処理部132(の予測部154)からの注目データに対して、所定の後処理を施し、これにより、復号データを得て出力する。
【0185】
その後、ステップS28に進み、まだ、注目データとしていない適応処理データがあるかどうかが判定される。ステップS28において、まだ、注目データとしていない適応処理データがあると判定された場合、その、まだ注目データとされていない適応処理データのうちの1つが、新たに注目データとされ、ステップS21に戻り、以下、同様の処理が繰り返される。
【0186】
また、ステップS28において、まだ、注目データとされていない適応処理データがないと判定された場合、処理を終了する。
【0187】
次に、図15は、図12の係数メモリ141に記憶させるタップ係数を学習する場合の、図4の学習装置の詳細構成例を示している。
【0188】
図15の実施の形態において、ミスマッチ検出部13は、符号化特性情報抽出部171、実特性抽出部172、および判定部173から構成されており、符号化部12が出力する符号化データは、符号化特性情報抽出部171、実特性抽出部172に供給されるようになっている。符号化特性情報抽出部171、実特性抽出部172、または判定部173は、図12の符号化特性情報抽出部121、実特性抽出部122、または判定部123とそれぞれ同様に構成されており、図12で説明した場合と同様に、後述する注目教師データに対応する符号化データから、ミスマッチ情報を求めて、学習処理部14に供給する。
【0189】
学習処理部14は、適応学習部160、教師データ生成部161、および生徒データ生成部163から構成されている。
【0190】
適応学習部160は、教師データ記憶部162、生徒データ記憶部164、タップ抽出部165および166、クラス分類部167、足し込み部168、およびタップ係数算出部169から構成され、教師データ生成部161は、逆後処理部161Aから構成され、生徒データ生成部163は、符号化部163Aおよび前処理部163Bから構成されている。
【0191】
逆後処理部161Aは、学習用データ記憶部11から学習用データを読み出し、図12の後処理部133が行う処理と相補的な関係にある処理(以下、適宜、逆後処理という)を行う。即ち、例えば、学習用データをyとするとともに、図12の後処理部133が、適応処理データxに対して施す後処理を、関数f(x)で表すとすると、逆後処理部161Aは、学習用データyに対して、関数f-1(y)(f-1()は、関数f()の逆関数を表す)で表される処理を逆後処理として施し、その結果得られるデータを、教師データとして、適応学習部160に出力する。なお、逆後処理部161Aが出力する教師データは、図12のクラス分類適応処理部132から後処理部133に供給される適応データに相当する。
【0192】
教師データ記憶部162は、教師データ生成部161(の逆後処理部161A)が出力する教師データを一時記憶する。
【0193】
符号化部163Aは、学習用データ記憶部11から学習用データを読み出し、符号化部12と同一の符号化方式で符号化して出力する。従って、符号化部163Aは、符号化部12が出力するのと同一の符号化データを出力する。なお、符号化部12と163Aとは、1つの符号化部で共用することが可能である。
【0194】
前処理部163Bは、符号化部163Aが出力する符号化データに対して、図12の前処理部131が行うのと同一の前処理を施し、その結果得られる前処理データを、生徒データとして、適応学習部160に出力する。なお、前処理部163Bが出力する生徒データは、図12の前処理部131からクラス分類適応処理部132に供給される前処理データに相当する。
【0195】
生徒データ記憶部164は、生徒データ生成部163(の前処理部163B)が出力する生徒データを一時記憶する。
【0196】
タップ抽出部165は、教師データ記憶部162に記憶された教師データを、順次、注目教師データとし、その注目教師データについて、生徒データ記憶部164に記憶された生徒データを抽出することにより、図13のタップ抽出部151が構成するのと同一のタップ構造の予測タップを構成して出力する。なお、タップ抽出部165には、ミスマッチ検出部13(の判定部173)が出力するミスマッチ情報が供給されるようになっており、タップ抽出部165は、図13のタップ抽出部151と同様に、注目教師データについてのミスマッチ情報に基づいて、予測タップのタップ構造を変更するようになっている。
【0197】
タップ抽出部166は、注目教師データについて、生徒データ記憶部164に記憶された生徒データを抽出することにより、図13のタップ抽出部152が構成するのと同一のタップ構造のクラスタップを構成して出力する。なお、タップ抽出部166には、ミスマッチ検出部13が出力するミスマッチ情報が供給されるようになっており、タップ抽出部166は、図13のタップ抽出部152と同様に、注目教師データについてのミスマッチ情報に基づいて、クラスタップのタップ構造を変更するようになっている。
【0198】
クラス分類部167には、タップ抽出部166が出力するクラスタップと、ミスマッチ検出部13が出力するミスマッチ情報が供給されるようになっている。クラス分類部167は、注目教師データについてのクラスタップとミスマッチ情報に基づき、図13のクラス分類部153と同一のクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部168に出力する。
【0199】
足し込み部168は、教師データ記憶部162から、注目教師データを読み出し、その注目教師データと、タップ抽出部165から供給される注目教師データについて構成された予測タップを構成する生徒データを対象とした足し込みを、クラス分類部167から供給されるクラスコードごとに行う。
【0200】
即ち、足し込み部168は、クラス分類部167から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)を用い、式(8)の行列Aにおける各コンポーネントとなっている、生徒データどうしの乗算(xinim)と、サメーション(Σ)に相当する演算を行う。
【0201】
さらに、足し込み部168は、やはり、クラス分類部167から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)および教師データを用い、式(8)のベクトルvにおける各コンポーネントとなっている、生徒データと教師データの乗算(xini)と、サメーション(Σ)に相当する演算を行う。
【0202】
即ち、足し込み部168は、前回、注目教師データとされた教師データについて求められた式(8)における行列Aのコンポーネントと、ベクトルvのコンポーネントを、その内蔵するメモリ(図示せず)に記憶しており、その行列Aまたはベクトルvの各コンポーネントに対して、新たに注目教師データとされた教師データについて、その教師データyiおよび生徒データxin(xim)を用いて計算される、対応するコンポーネントxinimまたはxiniを足し込む(行列A、ベクトルvにおけるサメーションで表される加算を行う)。
【0203】
そして、足し込み部168は、教師データ記憶部162に記憶された教師データすべてを注目教師データとして、上述の足し込みを行うことにより、各クラスについて、式(8)に示した正規方程式をたてると、その正規方程式を、タップ係数算出部169に供給する。
【0204】
タップ係数算出部169は、足し込み部168から供給されるクラスごとの正規方程式を解くことにより、各クラスごとのタップ係数を求めて出力する。
【0205】
次に、図16のフローチャートを参照して、図15の学習装置の処理(学習処理)について、説明する。
【0206】
まず最初に、ステップS31において、教師データ生成部161と生徒データ生成部163が、学習用データ記憶部11に記憶された学習用データから、教師データと生徒データを、それぞれ生成する。教師データは、教師データ生成部161から教師データ記憶部162に供給されて記憶され、生徒データは、生徒データ生成部163から生徒データ記憶部164に供給されて記憶される。
【0207】
その後、タップ抽出部165は、教師データ記憶部162に記憶された教師データのうち、まだ、注目教師データとしていないものを、注目教師データとする。そしてステップS32において、符号化部12は、学習用データ記憶部11に記憶された学習用データを符号化し、これにより、注目教師データに対応する符号化データ(注目教師データに対応する学習用データを符号化したもの)を得て、ミスマッチ検出部13に供給する。
【0208】
ミスマッチ検出部13は、符号化部12から供給される符号化データから、注目教師データについてのミスマッチ情報を生成し、学習処理部14のタップ抽出部165および166、並びにクラス分類部167に供給する。
【0209】
そして、ステップS34に進み、タップ抽出部165が、ミスマッチ情報に基づき、注目教師データについて、生徒データ記憶部164に記憶された生徒データを読み出して予測タップを構成し、足し込み部168に供給するとともに、タップ抽出部166が、やはり、ミスマッチ情報に基づき、注目教師データについて、生徒データ記憶部164に記憶された生徒データを読み出してクラスタップを構成し、クラス分類部167に供給する。
【0210】
クラス分類部167は、ステップS35において、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについてクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部168に出力する。
【0211】
足し込み部168は、ステップS36において、教師データ記憶部162から注目教師データを読み出し、その注目教師データと、タップ抽出部165からの予測タップを用い、式(8)の行列Aとベクトルvのコンポーネントを計算する。さらに、足し込み部168は、既に得られている行列Aとベクトルvのコンポーネントのうち、クラス分類部167からのクラスコードに対応するものに対して、注目データと予測タップから求められた行列Aとベクトルvのコンポーネントを足し込み、ステップS37に進む。
【0212】
ステップS37では、タップ抽出部165が、教師データ記憶部162に、まだ、注目教師データとしていない教師データが記憶されているかどうかを判定する。ステップS37において、注目教師データとしていない教師データが、まだ、教師データ記憶部162に記憶されていると判定された場合、タップ抽出部165は、まだ注目教師データとしていない教師データを、新たに、注目教師データとして、ステップS32に戻り、以下、同様の処理が繰り返される。
【0213】
また、ステップS37において、注目教師データとしていない教師データが、教師データ記憶部162に記憶されていないと判定された場合、足し込み部168は、いままでの処理によって得られたクラスごとの行列Aおよびベクトルvのコンポーネントで構成される式(8)の正規方程式を、タップ係数算出部169に供給し、ステップS38に進む。
【0214】
ステップS38では、タップ係数算出部169は、足し込み部168から供給される各クラスごとの正規方程式を解くことにより、各クラスごとに、タップ係数を求めて出力し、処理を終了する。
【0215】
なお、学習用データ記憶部11に記憶されているる学習用データの数が十分でないこと等に起因して、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じることがあり得るが、そのようなクラスについては、タップ係数算出部169は、例えば、デフォルトのタップ係数を出力するようになっている。
【0216】
次に、図17は、符号化データが音声データをCELP方式で符号化したものである場合の、図12の復号装置の第1の詳細構成例を示している。
【0217】
図17の実施の形態では、符号化特性情報抽出部121は、チャネルデコーダ181で構成されている。チャネルデコーダ181は、例えば、図9のチャネルデコーダ61と同様に構成されており、符号化データから、Lコードを抽出し、特性データとして、判定部123に供給する。
【0218】
実特性抽出部122は、VSELP復号装置182およびピッチ検出部183で構成されている。VSELP復号装置182は、図9に示したVSELP復号装置と同様に構成され、符号化データを、VSELP方式で復号し、その結果得られる復号音声データを、ピッチ検出部183に供給する。
【0219】
ピッチ検出部183は、VSELP復号装置182が出力する復号音声データのピッチ周期を検出する。即ち、ピッチ検出部183は、例えば、復号音声データの自己相関を計算し、その自己相関に基づいて、ピッチ周期を検出し、実特性として、判定部123に供給する。
【0220】
判定部123は、差分演算部184で構成されている。差分演算部184は、チャネルデコーダ181からのLコードに対応する時間(音声のピッチ周期を表す時間)と、実際に得られた復号音声データのピッチ周期との差分を演算し、その差分値を、ミスマッチ情報として、クラス分類適応処理部132に供給する。
【0221】
一方、前処理部131は、VSELP復号装置185で構成されている。VSELP復号装置185は、VSELP復号装置182と同様に、符号化データを、VSELP方式で復号し、復号音声データを、前処理データとして、クラス分類適応処理部132に出力する。
【0222】
クラス分類適応処理部132では、前処理部131のVSELP復号装置185が出力する復号音声データを対象に、クラス分類適応処理が行われ、その結果得られる適応処理データが、後処理部133に出力される。後処理部133は、クラス分類適応処理部132からの適応処理データを、そのまま、高音質音声データとして出力する。
【0223】
従って、図17の実施の形態においては、クラス分類適応処理部132では、クラス分類適応処理が行われることにより、前処理部131のVSELP復号装置185が出力する、符号化データをVSELP方式で復号した復号音声データが、高音質音声データに変換されて出力される。
【0224】
即ち、クラス分類適応処理部132(図13)では、前処理部131のVSELP復号装置185が出力する復号音声データが、タップ抽出部151と152に供給される。
【0225】
タップ抽出部151は、まだ、注目データとしていない高音質音声データを注目データとして、その注目データを予測するのに用いる復号音声データの幾つかの音声サンプルを、予測タップとして抽出する。タップ抽出部152も、注目データをクラス分類するのに用いる復号音声データの幾つかの音声サンプルを、クラスタップとして抽出する。
【0226】
ここで、上述したように、タップ抽出部151および152には、判定部123からミスマッチ情報も供給されるようになっており、タップ抽出部151と152は、ミスマッチ情報に基づき、予測タップとクラスタップの構造を、それぞれ変更するようになっている。
【0227】
即ち、符号化特性情報抽出部121(図17)のチャネルデコーダ181では、例えば、注目データに対応する位置の復号音声データを含むサブフレーム(またはフレーム)のLコードが抽出され、判定部123の差分演算部184に供給される。
【0228】
また、実特性抽出部122のVSELP復号装置182では、例えば、注目データに対応する位置の復号音声データ(以下、適宜、注目復号音声データという)を含むフレームの前後それぞれ数10フレーム等が復号され、その結果得られる復号音声データが、ピッチ検出部183に供給される。ピッチ検出部183では、VSELP復号装置182から供給される復号音声データの自己相関が計算され、その自己相関に基づき、注目復号音声データ付近のピッチ周期が検出される。このピッチ周期は、差分演算部184に供給される。差分演算部184は、チャネルデコーダ181から供給されるLコードに対応する時間T1と、ピッチ検出部183から供給されるピッチ周期T2との差分を演算し、その差分値△T(=T1−T2)を、注目データについてのミスマッチ情報として出力する。
【0229】
タップ抽出部151(図13)は、以上のような、注目データについてのミスマッチ情報としての差分値△Tを受信すると、例えば、その差分値△Tの絶対値を、所定の閾値THTと比較する。
【0230】
そして、タップ抽出部151は、差分値△Tの絶対値が、閾値THT以下(または未満)である場合、即ち、注目復号音声データを含むサブフレームのLコードに対応する時間が、注目復号音声データのピッチ周期を正しく表している場合、例えば、注目復号音声データを含むサブフレーム(以下、適宜、注目サブフレームという)の音声サンプルすべてと、注目サブフレームの1つ前のサブフレームの1サンプルおきの音声サンプルと、注目サブフレームの1つ後のサブフレームの1サンプルおきの音声サンプルとを、予測タップとして抽出する。
【0231】
また、タップ抽出部151は、差分値△Tの絶対値が、閾値THTより大きい(または以上である)場合、即ち、注目復号音声データを含むサブフレームのLコードに対応する時間が、注目復号音声データのピッチ周期を正しく表していない場合、例えば、注目サブフレームの音声サンプルすべてと、注目サブフレームの1つ前と2つ前のサブフレームの2サンプルおきの音声サンプルと、注目サブフレームの1つ後と2つ後のサブフレームの2サンプルおきの音声サンプルとを、予測タップとして抽出する。
【0232】
タップ抽出部152も、タップ抽出部151と同様に、ミスマッチ情報に基づいてタップ構造を変更したクラスタップを、復号音声データから抽出する。
【0233】
なお、ここでは、ミスマッチ情報に基づいて、予測タップとして抽出する音声サンプルの位置を変更するだけで、予測タップを構成する音声サンプルの数は変更しないようにしたが、タップ抽出部151では、ミスマッチ情報に基づいて、予測タップを構成する復号音声データの音声サンプルの数を変更するようにすることも可能である。
【0234】
また、タップ抽出部151では、図10で説明した場合と同様に、VSELP復号装置185において得られるLコード、Gコード、Iコード、またはAコードも予測タップとして抽出することが可能であるが、この場合も、予測タップとするLコード、Gコード、Iコード、またはAコードのサブフレームの位置や数を、ミスマッチ情報に基づいて変更することが可能である。
【0235】
さらに、ミスマッチ情報には、差分値△Tだけでなく、その差分値△Tを得るのに用いられたLコードや復号音声データのピッチ周期T2、即ち、チャネルデコーダ181が出力するLコードや、ピッチ検出部183が出力するピッチ周期T2を含めることが可能である。この場合、タップ抽出部151では、上述のような予測タップのタップ構造の変更を、差分値△Tだけでなく、Lコードや、復号音声データのピッチ周期T2にも基づいて行うようにすることが可能である。
【0236】
タップ抽出部152でも、タップ抽出部151における場合と同様にして、クラスタップを構成することができる。
【0237】
タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
【0238】
クラス分類部153には、クラスタップの他、注目データについてのミスマッチ情報も供給され、クラス分類部153では、上述したように、クラスタップとミスマッチ情報に基づき、注目データがクラス分類される。
【0239】
即ち、クラス分類部153は、例えば、注目データについてのクラスタップに基づき、上述のADRC処理を行うことにより、クラスコードを求める。ここで、クラスタップから得られるクラスコードを、以下、適宜、クラスタップコードという。
【0240】
さらに、クラス分類部153は、例えば、注目データについてのミスマッチ情報としての差分値△Tの絶対値を、所定の閾値THTと比較することにより、1ビットのクラスコードを求める。
【0241】
即ち、クラス分類部153は、差分値△Tの絶対値が、閾値THT以下である場合、即ち、注目復号音声データを含むサブフレームのLコードに対応する時間が、注目復号音声データのピッチ周期を正しく表している場合、0または1のうちの、例えば、1をクラスコードとする。また、クラス分類部153は、差分値△Tの絶対値が、閾値THTより大きい場合、即ち、注目復号音声データを含むサブフレームのLコードに対応する時間が、注目復号音声データのピッチ周期を正しく表していない場合、0または1のうちの、例えば、0をクラスコードとする。ここで、ミスマッチ情報から得られるクラスコードを、以下、適宜、ミスマッチコードという。
【0242】
その後、クラス分類部153は、例えば、注目データについて得られたクラスタップコードの上位ビットとして、注目データについて得られたミスマッチコードを付加し、このクラスタップコードとミスマッチコードとで構成されるコードを、注目データについての最終的なクラスコードとして出力する。
【0243】
このクラスコードは、係数メモリ141に供給される。係数メモリ141では、そのクラスコードに対応するタップ係数が読み出され、予測部154に供給される。
【0244】
なお、上述のように、ミスマッチ情報に、差分値△Tだけでなく、その差分値△Tを得るのに用いられたLコードや復号音声データのピッチ周期T2、即ち、チャネルデコーダ181が出力するLコードや、ピッチ検出部183が出力するピッチ周期T2を含める場合には、クラス分類部153では、ミスマッチ情報に含まれるLコードやピッチ周期T2にも基づいて、クラス分類を行うようにすることが可能である。
【0245】
また、上述の場合には、差分値△Tの絶対値と閾値THTとの大小関係に対応して、1ビットのミスマッチコードを決定するようにしたが、ミスマッチコードとしては、その他、例えば、差分値△Tの2の補数表示などを採用すること等が可能である。
【0246】
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データ(の予測値)、即ち、高音質音声データを求め、後処理部133に供給する。
【0247】
後処理部133では、上述したように、クラス分類適応処理部132(の予測部154)の出力、即ち、高音質音声データが、そのまま出力される。
【0248】
次に、図18は、図17の復号装置の係数メモリ141に記憶させるタップ係数を学習する場合の、図15の学習装置の詳細構成例を示している。
【0249】
図18の実施の形態では、学習用データ記憶部11に、学習用データとして、高音質の音声データ(学習用音声データ)が記憶されている。
【0250】
符号化部12は、VSELP符号化装置191で構成されており、VSELP符号化装置191は、例えば、図8に示したVSELP符号化装置と同様に構成されている。但し、VSELP符号化装置191は、図8のVSELP符号化装置のマイク41およびA/D変換部42が設けられていないものとなっている。
【0251】
VSELP符号化装置191は、学習用データ記憶部11から学習用音声データを読み出して、VSELP方式で符号化し、その結果得られる符号化データを、符号化特性情報抽出部171および実特性抽出部172に供給する。
【0252】
符号化特性情報抽出部171は、チャネルデコーダ192で、実特性抽出部172は、VSELP復号装置193およびピッチ検出部194で、判定部173は、差分演算部195で、それぞれ構成されている。チャネルデコーダ192、VSELP復号装置193、ピッチ検出部194、または差分演算部195は、図17のチャネルデコーダ181、VSELP復号装置182、ピッチ検出部183、または差分演算部184とそれぞれ同様の処理を行い、これにより、注目教師データについてのミスマッチ情報として、図17で説明した差分値△Tを得て、適応学習部160に出力する。
【0253】
逆後処理部161Aは、学習用データ記憶部11から学習用音声データを読み出し、そのまま、教師データとして、適応学習部160に出力する。適応学習部160(図15)では、教師データ記憶部162において、後処理部161Aからの教師データが記憶される。
【0254】
符号化部163Aは、VSELP符号化装置196で構成され、VSELP符号化装置196は、VSELP符号化装置191と同様に、学習用データ記憶部11から学習用音声データを読み出して、VSELP方式で符号化し、その結果得られる符号化データを、前処理部163Bに出力する。
【0255】
前処理部163Bは、図9のVSELP復号装置と同様に構成されるVSELP復号装置197で構成され、VSELP復号装置197は、VSELP符号化装置196からの符号化データを、VSELP方式で復号し、その結果得られる復号音声データを、生徒データとして、適応学習部160に出力する。適応学習部160(図15)では、生徒データ記憶部164において、VSELP復号装置197からの生徒データが記憶される。
【0256】
そして、適応学習部160では、教師データおよび生徒データを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われる。
【0257】
即ち、適応学習部160(図15)では、タップ抽出部165が、教師データ記憶部162に記憶された教師データのうち、まだ、注目教師データとしていないものを、注目教師データとし、注目教師データについて、生徒データ記憶部164に記憶された生徒データから予測タップを構成して、足し込み部168に供給する。さらに、タップ抽出部166が、注目教師データについて、生徒データ記憶部164に記憶された生徒データからクラスタップを構成し、クラス分類部167に供給する。
【0258】
ここで、チャネルデコーダ192、VSELP復号装置193、ピッチ検出部194、または差分演算部195では、図17のチャネルデコーダ181、VSELP復号装置182、ピッチ検出部183、または差分演算部184とそれぞれ同様の処理が行われ、これにより、注目教師データについてのミスマッチ情報としての差分値△Tが、タップ抽出部165および166、並びにクラス分類部167に供給されるようになっている。
【0259】
そして、タップ抽出部165または166では、図17で説明したタップ抽出部151または152(図13)における場合とそれぞれ同様に、ミスマッチ情報に基づいてタップ構造を変更した予測タップまたはクラスタップが、生徒データ記憶部164に記憶された生徒データとしての復号音声データから構成される。
【0260】
なお、タップ抽出部165または166では、図17で説明したタップ抽出部151または152(図13)における場合とそれぞれ同一のタップ構造の予測タップまたはクラスタップが構成される。このため、タップ抽出部151または152において、VSELP復号装置185で得られるLコード、Gコード、Iコード、またはAコードも用いて、予測タップまたはクラスタップが構成される場合には、タップ抽出部165または166でも、VSELP復号装置197で得られるLコード、Gコード、Iコード、またはAコードを用いて、タップ抽出部151または152における場合とそれぞれ同一のタップ構造の予測タップまたはクラスタップが構成される。
【0261】
さらに、タップ抽出部165または166それぞれでは、ミスマッチ情報に、差分値△Tだけでなく、その差分値△Tを得るのに用いられたLコードや復号音声データのピッチ周期T2が含まれる場合には、図17で説明したタップ抽出部151または152(図13)における場合と同様に、予測タップまたはクラスタップのタップ構造の変更が、差分値△Tだけでなく、Lコードや、復号音声データのピッチ周期T2にも基づいて行われる。
【0262】
その後、クラス分類部167は、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについて、図17で説明したクラス分類部153(図13)における場合と同様のクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部168に出力する。
【0263】
足し込み部168は、教師データ記憶部162から注目教師データを読み出し、その注目教師データと、タップ抽出部165からの予測タップを用い、式(8)の行列Aとベクトルvのコンポーネントを計算する。さらに、足し込み部168は、既に得られている行列Aとベクトルvのコンポーネントのうち、クラス分類部167からのクラスコードに対応するものに対して、注目教師データと予測タップから求められた行列Aとベクトルvのコンポーネントを足し込む。
【0264】
以上の処理が、教師データ記憶部162に記憶された教師データすべてを、注目教師データとして行われると、足し込み部168は、いままでの処理によって得られたクラスごとの行列Aおよびベクトルvのコンポーネントで構成される式(8)の正規方程式を、タップ係数算出部169に供給し、タップ係数算出部169は、その各クラスごとの正規方程式を解くことにより、各クラスごとに、タップ係数を求めて出力する。
【0265】
次に、図19は、符号化データが音声データをCELP方式で符号化したものである場合の、図12の復号装置の第2の詳細構成例を示している。なお、図中、図17における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0266】
即ち、図19の復号装置は、後処理部133が、図9の音声合成フィルタ69と同様に構成される音声合成フィルタ201で構成されている他は、基本的に、図17の復号装置と同様に構成されている。
【0267】
但し、前処理部131のVSELP復号装置185は、図9において、音声合成フィルタ69が出力する復号音声データではなく、フィルタ係数復号器65が出力する線形予測係数と、演算器68が出力する残差信号を、前処理データとして、クラス分類適応処理部132に出力するようになっている。
【0268】
クラス分類適応処理部132では、前処理部131のVSELP復号装置185が出力する残差信号(復号残差信号)と線形予測係数(復号線形予測係数)を対象に、クラス分類適応処理が行われ、これにより、音声合成フィルタ201において、高音質音声データ(の予測値)を得ることができる残差信号と線形予測係数(以下、適宜、それぞれを、高音質残差信号と高音質線形予測係数という)が、適応処理データとして求められる。
【0269】
即ち、クラス分類適応処理部132(図13)では、前処理部131のVSELP復号装置185が出力する復号残差信号が、タップ抽出部151と152に供給される。
【0270】
タップ抽出部151は、まだ、注目データとしていない高音質残差信号のサンプルを注目データとして、その注目データを予測するのに用いる復号残差信号の幾つかのサンプルを、予測タップとして抽出する。タップ抽出部152も、注目データをクラス分類するのに用いる復号残差信号の幾つかのサンプルを、クラスタップとして抽出する。
【0271】
なお、タップ抽出部151および152には、図17で説明したように、注目データについてのミスマッチ情報が供給されるようになっており、タップ抽出部151または152では、そのミスマッチ情報に基づいて、図17で説明したようなタップ構造の予測タップまたはクラスタップが、それぞれ構成される。
【0272】
タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
【0273】
クラス分類部153には、クラスタップの他、注目データについてのミスマッチ情報も供給され、クラス分類部153では、図17で説明した場合と同様にして、クラスタップとミスマッチ情報に基づき、注目データがクラス分類され、注目データについてのクラスコードが、係数メモリ141に供給される。係数メモリ141では、注目データについてのクラスコードに対応するタップ係数が読み出され、予測部154に供給される。
【0274】
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データ(の予測値)、即ち、高音質残差信号を求め、後処理部133に供給する。
【0275】
図19の実施の形態では、クラス分類適応処理部132と係数メモリ141が2系統設けられており、一方の系統のクラス分類適応処理部132および係数メモリ141では、復号残差信号が、上述のように処理される。そして、他方の系統のクラス分類適応処理部132および係数メモリ141では、前処理部131のVSELP復号装置185が出力する復号線形予測係数について、復号残差残差信号における場合と同様の処理が行われ、これにより、高音質線形予測係数が求められて、後処理部133に供給される。
【0276】
後処理部133では、音声合成フィルタ201において、クラス分類適応処理部132からの高音質線形予測係数をフィルタ係数として、同じくクラス分類適応処理部132からの高音質復号残差信号がフィルタリングされることにより、高音質音声データが求められて出力される。
【0277】
次に、図20および図21は、図19の復号装置の係数メモリ141に記憶させるタップ係数を学習する場合の、図15の学習装置の詳細構成例を示している。なお、図中、図18における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0278】
図20は、復号残差信号を高音質残差信号に変換するタップ係数を学習する学習装置の構成例を示しており、図21は、復号線形予測係数を高音質線形予測係数に変換するタップ係数を学習する学習装置の構成例を示している。
【0279】
図20の実施の形態では、逆後処理部161Aが、LPC分析部211および予測フィルタ212で構成されており、また、前処理部163Bを構成するVSELP復号装置197は、復号残差信号(図9の演算器68が出力する残差信号)を、生徒データとして、適応学習部160に供給するようになっている。
【0280】
LPC分析部211は、学習用データ記憶部11から学習用音声データを読み出し、図8のLPC分析部44における場合と同様に、学習用音声データをLPC分析することで、P次の線形予測係数を求めて、予測フィルタ212に供給する。
【0281】
予測フィルタ212は、学習用データ記憶部11から、LPC分析部211がLPC分析を行った学習用データを読み出し、その学習用データと、LPC分析部211から供給される線形予測係数を用いて、例えば、式(9)にしたがった演算を行うことにより、残差信号を求め、教師データとして、適応学習部160に供給する。
【0282】
ここで、式(9)における音声データ(音声信号)snと残差信号enのZ変換を、SとEとそれぞれ表すと、式(9)は、次式のように表すことができる。
【0283】
E=(1+α1-1+α2-2+・・・+αP-P)S
・・・(14)
【0284】
式(14)から、残差信号eは、音声データsと線形予測係数αPとの積和演算で求めることができ、従って、残差信号eを求める予測フィルタ212は、FIR(Finite Impulse Response)型のディジタルフィルタで構成することができる。
【0285】
適応学習部160(図15)では、教師データ記憶部162において、予測フィルタ212から供給される教師データとしての残差信号(上述の高音質残差信号に相当する)が記憶されるとともに、生徒データ記憶部164において、VSELP復号装置197から供給される生徒データとしての復号残差信号が記憶される。
【0286】
そして、適応学習部160では、図18で説明した場合と同様に、教師データおよび生徒データを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、復号残差信号を高音質残差信号に変換するクラスごとのタップ係数が求められる。
【0287】
次に、図21の実施の形態では、逆後処理部161Aが、LPC分析部221で構成されており、また、前処理部163Bを構成するVSELP復号装置197は、復号線形予測係数(図9のフィルタ係数復号器65が出力する線形予測係数)を、生徒データとして、適応学習部160に供給するようになっている。
【0288】
LPC分析部221は、学習用データ記憶部11から学習用音声データを読み出し、図8のLPC分析部44における場合と同様に、学習用音声データをLPC分析することで、P次の線形予測係数を求め、教師データとして、適応学習部160に供給する。
【0289】
適応学習部160(図15)では、教師データ記憶部162において、LPC分析部221から供給される教師データとしての線形予測係数(上述の高音質線形予測係数に相当する)が記憶されるとともに、生徒データ記憶部164において、VSELP復号装置197から供給される生徒データとしての復号線形予測係数が記憶される。
【0290】
そして、適応学習部160では、図18で説明した場合と同様に、教師データおよび生徒データを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、復号線形予測係数を高音質線形予測係数に変換するクラスごとのタップ係数が求められる。
【0291】
次に、図22は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図12の復号装置の第1の詳細構成例を示している。
【0292】
図17の実施の形態では、符号化特性情報抽出部121は、逆VLC部231で構成されている。逆VLC部231は、例えば、後述するMPEGデコーダ232を構成する逆VLC部241(図23)と同様に構成されており、符号化データから、DCTタイプを抽出し、特性データとして、判定部123に供給する。
【0293】
実特性抽出部122は、MPEGデコーダ232および相関演算部233で構成されている。MPEGデコーダ232は、符号化データをMPEG方式で復号し、その結果得られる復号画像データを、相関演算部233に供給する。
【0294】
ここで、図23は、MPEGデコーダ232の構成例を示している。
【0295】
符号化データは、逆VLC部241に供給される。逆VLC部241は、符号化データに含まれる量子化DCT係数(量子化された2次元DCT係数)のVLCコード(量子化DCT係数を可変長符号化したもの)、量子化ステップ、動きベクトル、ピクチャタイプ、テンポラルリファレンス、その他の情報を分離する。
【0296】
そして、逆VLC部241は、量子化DCT係数のVLCコードを逆VLC処理することで、量子化DCT係数に復号し、逆量子化部242に供給する。さらに、逆VLC部241は、量子化ステップを逆量子化部242に、動きベクトルを動き補償部246に、ピクチャタイプをメモリ245に、テンポラルリファレンスをピクチャ選択部247に、それぞれ供給する。
【0297】
逆量子化部242は、逆VLC部241から供給される量子化DCT係数を、同じく逆VLC部242から供給される量子化ステップで逆量子化し、その結果得られる2次元DCT係数を、逆DCT変換部242に供給する。逆DCT変換部243は、逆量子化部242から供給される2次元DCT係数を、2次元逆DCT変換し、演算部244に供給する。
【0298】
演算部244には、逆DCT変換部243の出力の他、動き補償部246の出力も供給されるようになっており、演算部244は、逆DCT変換部243の出力に対して、動き補償部246の出力を、必要に応じて加算することにより、復号画像データを得て出力する。
【0299】
即ち、MPEG符号化では、ピクチャタイプとして、I,P,Bの3つが定義されており、各ピクチャは、横×縦が8×8画素単位で、2次元DCT変換されるが、その際、Iピクチャのブロックは、イントラ(intra)符号化され、Pピクチャのブロックは、イントラ符号化、または前方予測符号化され、Bピクチャのブロックは、イントラ符号化、前方予測符号化、後方予測符号化、または両方向予測符号化される。
【0300】
ここで、前方予測符号化では、符号化対象のブロックのフレーム(またはフィールド)より時間的に先行するフレーム(またはフィールド)の画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値(以下、適宜、残差画像という)が2次元DCT変換される。
【0301】
また、後方予測符号化では、符号化対象のブロックのフレームより時間的に後行するフレームの画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値(残差画像)が2次元DCT変換される。
【0302】
さらに、両方向予測符号化では、符号化対象のブロックのフレームより時間的に先行するフレームと後行するフレームの2フレーム(またはフィールド)の画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値(残差画像)が2次元DCT変換される。
【0303】
従って、ブロックが、ノンイントラ(non-intra)符号化(前方予測符号化、後方予測符号化、または両方向予測符号化)されている場合、逆DCT変換部243の出力は、残差画像(元の画像と、その予測画像との差分値)を復号したものとなっており、演算部244は、この残差画像の復号結果(以下、適宜、復号残差画像という)と、動き補償部246から供給される予測画像とを加算することで、ノンイントラ符号化されたブロックを復号し、その結果得られる復号画像データを出力する。
【0304】
一方、逆DCT変換部243が出力するブロックが、イントラ符号化されたものであった場合には、逆DCT変換部243の出力は、元の画像を復号したものとなっており、演算部244は、逆DCT変換部243の出力を、そのまま、復号画像データとして出力する。
【0305】
演算部244が出力する復号画像データは、メモリ245とピクチャ選択部247に供給される。
【0306】
メモリ245は、演算部244から供給される復号画像データが、IピクチャまたはPピクチャの画像データである場合、その復号画像データを、その後に復号される符号化データの参照画像として一時記憶する。ここで、MPEG2では、Bピクチャは参照画像とされないことから、演算部244から供給される復号画像が、Bピクチャの画像である場合には、メモリ245では、Bピクチャの復号画像は記憶されない。なお、メモリ245は、演算部244から供給される復号画像が、I,P,Bのうちのいずれのピクチャであるかは、逆VLC部241から供給されるピクチャタイプを参照することにより判断する。
【0307】
ピクチャ選択部247は、演算部244が出力する復号画像、またはメモリ245に記憶された復号画像のフレーム(またはフィールド)を、表示順に選択して出力する。即ち、MPEG2方式では、画像のフレーム(またはフィールド)の表示順と復号順(符号化順)とが一致していないため、ピクチャ選択部247は、復号順に得られる復号画像のフレーム(またはフィールド)を表示順に並べ替えて出力する。なお、ピクチャ選択部247は、表示順を、逆VLC部241から供給されるテンポラルリファレンスを参照することにより判断する。
【0308】
一方、動き補償部246は、逆VLC部241が出力する動きベクトルを受信するとともに、参照画像となるフレーム(またはフィールド)を、メモリ245から読み出し、その参照画像に対して、逆VLC部241からの動きベクトルにしたがった動き補償を施し、その結果得られる予測画像を、演算部244に供給する。演算部244では、上述したように、動き補償部246からの予測画像と、逆DCT変換部243が出力する残差画像と加算され、これにより、ノンイントラ符号化されたブロックが復号される。
【0309】
図22に戻り、相関演算部233は、MPEGデコーダ232が出力する復号画像データの各ブロックについて、ライン間の相関を演算する。
【0310】
即ち、相関演算部233は、ブロックにおけるフレームを構成するライン間の相関(以下、適宜、フレームライン相関という)と、フィールドを構成するライン間の相関(以下、適宜、フィールドライン相関という)を計算する。
【0311】
具体的には、相関演算部233は、図24に示すように、ブロックにおける隣接する第iライン(上からi番目のライン)と第i+1ラインとの間の相関P(i,i+1)を、例えば、次式にしたがって求める。
【0312】
P(i,i+1)=1/(Σ(x(i,j)−x(i+1,j))
・・・(15)
【0313】
但し、x(i,j)は、第iラインの左からj番目(第j列)の画素の画素値を表す。また、Σは、jを1乃至8に変えてのサメーションを表す。
【0314】
そして、相関演算部233は、例えば、相関P(i,i+1)の平均値((P(1,2)+P(2,3)+P(3,4)+P(4,5)+P(5,6)+P(6,7)+P(7,8))/7)を求め、この平均値を、フレームライン相関として出力する。
【0315】
また、相関演算部233は、図24に示すように、ブロックにおける1ラインおきに隣接する第iラインと第i+2ラインとの間の相関P(i,i+2)を、例えば、式(15)にしたがって求める。
【0316】
そして、相関演算部233は、例えば、相関P(i,i+2)の平均値((P(1,3)+P(2,4)+P(3,5)+P(4,6)+P(5,7)+P(6,8))/6)を求め、この平均値を、フィールドライン相関として出力する。
【0317】
相関演算部233が出力するフレームライン相関とフィールドライン相関は、実特性として、判定部123に供給される。
【0318】
ここで、あるブロックにおいて、そのブロックにおける画像の動きが比較的小さい場合には、一般に、フレームライン相関が大になり、フィールドライン相関が小になる。また、そのブロックにおける画像の動きが比較的大きい場合には、一般に、フィールドライン相関が大になり、フレームライン相関が小になる。従って、フレームライン相関とフィールドライン相関は、画像の実際の特性(実特性)を表しているということができる。
【0319】
判定部123は、ブロック特性判定部234と比較部235で構成されている。ブロック特性判定部234は、クラス分類適応処理部132における注目データに対応する画素を含むブロック(以下、適宜、注目ブロック)のフレームライン相関とフィールドライン相関に基づき、注目ブロックが、フレームDCTモードまたはフィールドDCTモードのうちのいずれで符号化されるべき特性を有するものであるかを判定し、その判定結果(以下、適宜、実特性タイプという)を、比較部235に供給する。
【0320】
即ち、ブロック特性判定部234は、例えば、注目ブロックのフレームライン相関が、フィールドライン相関より小さい(または以下である)場合には、注目ブロックがフィールドDCTモードで符号化されるべき特性を有するという実特性タイプを、比較部235に供給する。また、ブロック特性判定部234は、注目ブロックのフレームライン相関が、フィールドライン相関より小さくない場合には、注目ブロックがフレームDCTモードで符号化されるべき特性を有するという実特性タイプを、比較部235に供給する。
【0321】
比較部235は、符号化特性情報抽出部121の逆VLC部231から供給される注目ブロックのDCTタイプ(注目ブロックを含むマクロブロックのDCTタイプ)と、ブロック特性判定部234から供給される注目ブロックの実特性タイプとを比較し、その比較結果、即ち、例えば、注目ブロックのDCTタイプを表すフラグと実特性タイプを表すフラグのセットを、ミスマッチ情報として、クラス分類適応処理部132に供給する。
【0322】
一方、前処理部131は、MPEGデコーダ236で構成されている。MPEGデコーダ236は、MPEGデコーダ232と同様に、符号化データを、MPEG方式で復号し、復号画像データを、前処理データとして、クラス分類適応処理部132に出力する。
【0323】
クラス分類適応処理部132では、前処理部131のMPEGデコーダ236が出力する復号画像データを対象に、クラス分類適応処理が行われ、その結果得られる適応処理データが、後処理部133に出力される。後処理部133は、クラス分類適応処理部132からの適応処理データを、そのまま、高画質の画像データ(高画質画像データ)として出力する。
【0324】
従って、図22の実施の形態においては、クラス分類適応処理部132では、クラス分類適応処理が行われることにより、前処理部131のMPEGデコーダ236が出力する、符号化データをMPEG方式で復号した復号画像データが、高画質画像データに変換されて出力される。
【0325】
即ち、クラス分類適応処理部132(図13)では、前処理部131のMPEGデコーダ236が出力する復号画像データが、タップ抽出部151と152に供給される。
【0326】
タップ抽出部151は、まだ、注目データとしていない高画質画像データの画素を注目データとして、その注目データ(の画素値)を予測するのに用いる復号画像データの幾つか(の画素)を、予測タップとして抽出する。タップ抽出部152も、注目データをクラス分類するのに用いる復号画像データの幾つかを、クラスタップとして抽出する。
【0327】
ここで、上述したように、タップ抽出部151および152には、判定部123からミスマッチ情報も供給されるようになっており、タップ抽出部151と152は、ミスマッチ情報に基づき、予測タップとクラスタップの構造を、それぞれ変更するようになっている。
【0328】
即ち、上述したように、判定部123(の比較部235)からクラス分類適応処理部132には、注目ブロックについてのDCTタイプと実特性タイプとのセットが、注目データについてのミスマッチ情報として供給される。
【0329】
タップ抽出部151は、ミスマッチ情報としての、注目ブロックについてのDCTタイプと実特性タイプとのセットを受信すると、MPEGデコーダ236から供給される復号画像データから、例えば、図25に示すようなタップ構造設定テーブルにしたがったタップ構造の予測タップを抽出する。
【0330】
即ち、タップ抽出部151は、ミスマッチ情報としてのDCTタイプと実特性タイプが、いずれもフィールドDCTモードである場合、後述するフィールドタップのみからなるパターンAのタップ構造の予測タップを構成する。また、タップ抽出部151は、ミスマッチ情報としてのDCTタイプと実特性タイプが、それぞれフィールドDCTモードとフレームDCTモードである場合、フィールドタップの数が、後述するフレームタップの数より多いパターンBのタップ構造の予測タップを構成する。さらに、タップ抽出部151は、ミスマッチ情報としてのDCTタイプと実特性タイプが、それぞれフレームDCTモードとフィールドDCTモードである場合、フレームタップの数が、フィールドタップの数より多いパターンCのタップ構造の予測タップを構成する。また、タップ抽出部151は、ミスマッチ情報としてのDCTタイプと実特性タイプが、いずれもフレームDCTモードである場合、フレームタップのみからなるパターンDのタップ構造の予測タップを構成する。
【0331】
ここで、図26は、パターンA乃至Dのタップ構造を示している。なお、図26において、○印が、復号画像データの画素を表している。また、斜線を付してある○印は、フィールドタップとなっている画素を表し、●印は、フレームタップとなっている画素を表している。
【0332】
図26(A)は、パターンAのタップ構造を示している。パターンAのタップ構造は、注目データに対応する復号画像データの画素(以下、適宜、注目画素という)、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の上方向に3画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の下方向に1画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の下方向に3画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素の合計25画素で構成される。
【0333】
ここで、フィールドタップとは、その上下に隣接する2画素が、いずれもタップ(ここでは、予測タップまたはクラスタップ)となっていない画素を意味する。図26(A)のパターンAのタップ構造では、いずれのタップも、その上下に隣接する画素がタップになっていないので、すべてフィールドタップである。
【0334】
図26(B)は、パターンBのタップ構造を示している。パターンBのタップ構造は、注目画素、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の上方向に3画素おいて隣接する画素の左右それぞれに隣接する1画素、注目画素の下方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の下方向に3画素おいて隣接する画素の左右それぞれに隣接する1画素、注目画素の上に隣接する4画素、注目画素の下に隣接する4画素の合計25画素で構成される。
【0335】
ここで、フレームタップとは、その上または下に隣接する画素のうちの少なくとも一方がタップとなっている画素を意味する。図26(B)のパターンBのタップ構造では、注目画素と、注目画素の上下それぞれに隣接する4画素の合計9画素がフレームタップとなっており、残りの16画素がフィールドタップとなっている。
【0336】
図26(C)は、パターンCのタップ構造を示している。パターンCのタップ構造は、注目画素、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の下方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の上下それぞれに隣接する4画素、注目画素の上に隣接する画素の左右それぞれに隣接する1画素、注目画素の下に隣接する画素の左右それぞれに隣接する1画素の合計25画素で構成される。
【0337】
パターンCのタップ構造では、注目画素、注目画素の上下それぞれに隣接する4画素、注目画素の左に隣接する画素、その画素の上下それぞれに隣接する2画素、注目画素の右に隣接する画素、その画素の上下それぞれに隣接する2画素の合計19画素がフレームタップとなっており、残りの6画素がフィールドタップになっている。
【0338】
図26(D)は、パターンDのタップ構造を示している。パターンDのタップ構造は、注目画素を中心として隣接する、横×縦が5×5画素の合計25画素で構成される。
【0339】
パターンDのタップ構造では、いずれのタップも、その上または下の少なくとも一方の画素がタップとなっているので、すべてフレームタップである。
【0340】
タップ抽出部151(図13)は、ミスマッチ情報に基づき、注目データについて、図26に示したパターンA乃至Dのうちのいずれかのタップ構造の予測タップを構成する。
【0341】
タップ抽出部152も、タップ抽出部151と同様に、ミスマッチ情報に基づくタップ構造のクラスタップを構成する。
【0342】
なお、ここでは、ミスマッチ情報に基づいて、予測タップとして抽出する復号画像データの画素の位置を変更するだけで、予測タップを構成する画素数は、25画素のまま変更しないようにしたが、タップ抽出部151では、ミスマッチ情報に基づいて、予測タップを構成する復号画像データの画素の数を変更するようにすることも可能である。
【0343】
また、前処理部131のMPEGデコーダ236では、符号化データが、その符号化データに含まれる量子化DCT係数以外の動きベクトルや、DCTタイプ、量子化ステップその他の復号を制御する情報(以下、適宜、復号制御情報という)を用いて、画像に復号されるが、タップ抽出部151では、このような復号制御情報も、予測タップに含めることが可能である。さらに、この場合、ミスマッチ情報に基づいて、予測タップとする復号制御情報を変更することも可能である。さらに、タープ抽出部151では、符号化データに含まれる量子化DCT係数や、その量子化DCT係数を逆量子化して得られる2次元DCT係数も、予測タップに含めるようにすることが可能である。
【0344】
タップ抽出部152でも、タップ抽出部151における場合と同様にして、クラスタップを構成することができる。
【0345】
タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
【0346】
クラス分類部153には、クラスタップの他、注目データについてのミスマッチ情報も供給され、クラス分類部153では、上述したように、クラスタップとミスマッチ情報に基づき、注目データがクラス分類される。
【0347】
即ち、クラス分類部153は、例えば、注目データについてのクラスタップに基づき、上述のADRC処理を行うことにより、クラスコード(クラスタップコード)を求める。
【0348】
さらに、クラス分類部153は、例えば、注目データについてのミスマッチ情報としてのDCTタイプと実特性タイプのセットに基づいて、2ビットのクラスコード(ミスマッチコード)を求める。
【0349】
即ち、クラス分類部153は、DCTタイプと実特性タイプが、いずれもフィールドDCTモードの場合には、2ビットのミスマッチコードを、例えば「00」とする。また、クラス分類部153は、DCTタイプと実特性タイプが、それぞれフィールドDCTモードとフレームDCTモードの場合には、2ビットのミスマッチコードを、例えば「01」とする。さらに、クラス分類部153は、DCTタイプと実特性タイプが、それぞれフレームDCTモードとフィールドDCTモードの場合には、2ビットのミスマッチコードを、例えば「10」とする。また、クラス分類部153は、DCTタイプと実特性タイプが、いずれもフレームDCTモードの場合には、2ビットのミスマッチコードを、例えば「11」とする。
【0350】
その後、クラス分類部153は、例えば、注目データについて得られたクラスタップコードの上位ビットとして、注目データについて得られたミスマッチコードを付加し、このクラスタップコードとミスマッチコードとで構成されるコードを、注目データについての最終的なクラスコードとして出力する。
【0351】
なお、クラス分類部153では、その他、例えば、復号制御情報にも基づいて、クラス分類を行うようにすることが可能である。
【0352】
クラス分類部153が出力するクラスコードは、係数メモリ141に供給される。係数メモリ141では、そのクラスコードに対応するタップ係数が読み出され、予測部154に供給される。
【0353】
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データ(の予測値)、即ち、高画質画像データを求め、後処理部133に供給する。
【0354】
後処理部133では、上述したように、クラス分類適応処理部132(の予測部154)の出力、即ち、高画質画像データが、そのまま出力される。
【0355】
なお、図22の実施の形態では、ブロック特性判定部234において、フレームDCTモードとフィールドDCTモードのうちのいずれか一方のみを表す実特性タイプを出力するようにしたが、実特性タイプとしては、その他、例えば、注目ブロックのフレームライン相関とフィールドライン相関を、そのまま用いることも可能である。この場合、比較部235においては、注目ブロックのフレームライン相関とフィールドライン相関に基づき、逆VLC部231が出力する注目ブロックのDCTタイプが、その注目ブロックにとって、どの程度適切であるかを表す評価値を求め、その評価値を、ミスマッチ情報として出力するようにすることが可能である。ここで、注目ブロックのフレームライン相関とフィールドライン相関を、それぞれF1とF2と表すとすれば、注目ブロックのDCTタイプがフレームDCTモードである場合は、評価値として、例えば、F1/(F1+F2)を採用し、注目ブロックのDCTタイプがフィールドDCTモードである場合は、評価値として、例えば、F2/(F1+F2)を採用することが可能である。
【0356】
さらに、タップ抽出部151や152では、ミスマッチ情報としての評価値を、1つ以上の閾値と比較し、その比較結果に基づいて、予測タップやクラスタップのタップ構造を変更するようにすることが可能である。
【0357】
また、クラス分類部153では、ミスマッチ情報としての評価値を量子化し、その量子化値を、ミスマッチコードとして用いることが可能である。
【0358】
さらに、図22の実施の形態では、注目ブロックのフレームライン相関とフィールドライン相関から、その注目ブロックの実特性タイプを決定するようにしたが、注目ブロックの実特性タイプは、その他、例えば、注目ブロックの周辺のブロックにも基づいて決定することが可能である。即ち、注目ブロックの最終的な実特性タイプは、例えば、注目ブロックのフレームライン相関とフィールドライン相関から決定される実特性タイプと、注目ブロックに隣接する1以上のブロックのフレームライン相関とフィールドライン相関から決定される、それぞれのブロックの実特性タイプとの多数決によって決定することが可能である。
【0359】
次に、図22の実施の形態では、実特性抽出部122において、符号化データをMPEG方式で復号し、その結果得られる復号画像データから、フレームライン相関とフィールドライン相関を求め、判定部123において、そのフレームライン相関とフィールドライン相関から、実特性タイプを求めるようにしたが、判定部123では、その他、例えば、符号化データに含まれる2次元DCT係数から、実特性タイプを求めることが可能である。
【0360】
即ち、実特性抽出部122では、例えば、図27に示すように、符号化データから得られるブロックの2次元DCT係数のうちの、水平の横縞を基底とするもの、つまり、ブロックの左端の、DC(Direct Current)係数を除く7個の2次元DCT係数(以下、適宜、横縞2次元DCT係数という)(図27において、斜線を付して示す部分)を実特性として求め、判定部123では、その実特性としての横縞2次元DCT係数に基づいて、実特性タイプを求めることが可能である。
【0361】
また、実特性抽出部122では、例えば、符号化データから得られるブロックの2次元DCT係数のうちの、任意の横縞2次元DCT係数と、横縞2次元DCT係数を除く任意のAC(Alternating Current)係数との差(以下、適宜、係数差分という)、または任意の横縞2次元DCT係数のパワー(例えば、2次元DCT係数を2乗したもの)と、横縞2次元DCT係数を除く任意のAC係数のパワーとの差(以下、適宜、パワー差分という)を求め、判定部123では、その係数差分またはパワー差分に基づいて、実特性タイプを求めることが可能である。
【0362】
そこで、図28は、係数差分またはパワー差分を完特性タイプとして求める実特性抽出部122の構成例を示している。
【0363】
符号化データは、逆VLC部251とMPEGデコーダ254に供給される。
【0364】
逆VLC部251は、符号化データに含まれる量子化DCT係数のVLCコード、量子化ステップ、動きベクトル、その他の情報を分離する。そして、逆VLC部251は、量子化DCT係数のVLCコードを逆VLC処理することで、量子化DCT係数に復号し、逆量子化部252に供給する。さらに、逆VLC部251は、量子化ステップを、逆量子化部252に、動きベクトルを、動き補償部256に、それぞれ供給する。
【0365】
逆量子化部252は、逆VLC部251から供給される量子化DCT係数を、同じく逆VLC部251から供給される量子化ステップで逆量子化し、その結果得られる8×8画素のブロックの2次元DCT係数を、演算部253に供給する。
【0366】
一方、MPEGデコーダ254では、符号化データが、MPEG方式で符号化され、復号画像データが出力される。MPEGデコーダ254が出力する復号画像のうち、参照画像とされ得るIピクチャとPピクチャは、メモリ255に供給されて記憶される。
【0367】
そして、動き補償部256は、メモリ255に記憶された参照画像を読み出し、その参照画像に対して、逆VLC部251から供給される動きベクトルにしたがい、動き補償を施すことで、逆量子化部252から演算部253に供給されたブロックの予測画像を生成し、DCT変換部257に供給する。DCT変換部257は、動き補償部256から供給される予測画像を2次元DCT変換し、その結果得られる2次元DCT係数を、演算部253に供給する。
【0368】
演算部253は、逆量子化部252から供給されるブロックの各2次元DCT係数と、DCT変換部257から供給される、対応する2次元DCT係数とを、必要に応じて加算することで、そのブロックの画素値を2次元DCT変換した2次元DCT係数を求める。
【0369】
即ち、逆量子化部252から供給されるブロックがイントラ符号化されているものである場合、逆量子化部252から供給されるブロックの2次元DCT係数は、元の画素値を2次元DCT変換したものとなっているから、演算部253は、逆量子化部252から供給されるブロックの2次元DCT係数を、そのまま出力する。
【0370】
また、逆量子化部252から供給されるブロックがノンイントラ符号化されているものである場合、逆量子化部252から供給されるブロックの2次元DCT係数は、元の画素値と予測画像との差分値(残差画像)を2次元DCT変換したものとなっているから、演算部253は、逆量子化部252から供給されるブロックの各DCT係数と、DCT変換部257から供給される、予測画像を2次元DCT変換して得られる2次元DCT係数の対応するものとを加算することにより、元の画素値を2次元DCT変換して得られる2次元DCT係数を求めて出力する。
【0371】
演算部253が出力するブロックの2次元DCT係数は、DCT係数差分演算部258に供給される。
【0372】
DCT係数差分演算部258では、ブロックの2次元DCT係数を用いて、上述したような係数差分やパワー差分が求められ、実特性として、判定部123に供給される。
【0373】
なお、この場合、判定部123では、例えば、注目ブロックの係数差分またはパワー差分を参照することにより、その係数差分またはパワー差分を求めるのに用いられた横縞2次元DCT係数とAC係数の大小関係が判定される。さらに、判定部123では、例えば、注目ブロックの係数差分またはパワー差分を求めるのに用いられた横縞2次元DCT係数が、AC係数より小さい(または以下である)場合、実特性タイプがフィールドDCTモードであると認識され、横縞2次元DCT係数が、AC係数より小さくない場合は、実特性タイプがフレームDCTモードであると認識される。なお、注目ブロックの係数差分またはパワー差分を求めるのに用いられた横縞2次元DCT係数が、AC係数より小さい場合には、その注目ブロックの画像が、フィールドDCTモードで符号化すべきものであることを表す他、横縞の多い画像であることも表す。
【0374】
ここで、判定部123では、係数差分またはパワー差分、さらには、その係数差分またはパワー差分を求めるのに用いられた2次元DCT係数を、ミスマッチ情報に含めて出力するようにすることが可能である。そして、この場合、例えば、クラス分類適応処理部132(図13)では、タップ抽出部151と152それぞれにおいて、ミスマッチ情報に含まれる係数差分またはパワー差分や、2次元DCT係数にも基づいて、予測タップとクラスタップのタップ構造を変更し、さらに、クラス分類部153においても、ミスマッチ情報に含まれる係数差分またはパワー差分や、2次元DCT係数にも基づいて、クラス分類を行うようにすることが可能である。
【0375】
次に、注目ブロックのフレームライン相関とフィールドライン相関は、その他、例えば、注目ブロックの1次元DCT係数から求めることも可能である。
【0376】
ここで、図29および図30を参照して、1次元DCT係数について説明する。
【0377】
MPEGやJPEG(Joint Photographic Experts Group)等のDCT変換を利用した画像の符号化方式では、画像データが、水平方向および垂直方向の2次元のDCT変換(2次元DCT変換)/逆DCT変換(2次元逆DCT変換)が行われる。
【0378】
図29(A)に示すような8×8画素のブロックにおける画素値を、8行×8列の行列Xで表すとともに、図29(B)に示すような8×8のブロックにおける2次元DCT係数を、8行×8列の行列Fで表すこととすると、2次元DCT変換/2次元逆DCT変換は、次式で表すことができる。
【0379】
CXCT=F
・・・(16)
TFC=X
・・・(17)
【0380】
ここで、上付のTは、転置を表す。また、Cは、8行×8列のDCT変換行列で、その第i+1行第j+1列のコンポーネントcijは、次式で表される。
【0381】
ij=Ai×cos((2j+1)×i×π/16)
・・・(18)
【0382】
但し、式(18)において、i=0のときは、Ai=1/(2√2)であり、i≠0のときは、Ai=1/2である。また、iとjは、0乃至7の範囲の整数値である。
【0383】
式(16)は、画素値Xを、2次元DCT係数Fに変換する2次元DCT変換を表し、式(17)は、2次元DCT係数Fを、画素値Xに変換する2次元逆DCT変換を表す。
【0384】
従って、式(17)によれば、2次元DCT係数Fは、その左側から行列CTをかけるとともに、その右側から行列Cをかけることにより、画素値Xに変換されるが、2次元DCT係数Fに対して、その左側から行列CTをかけるだけか、または、その右側から行列Cをかけるだけかすることで、1次元DCT係数を求めることができる。
【0385】
即ち、2次元DCT係数Fに対して、その左側から行列CTだけをかける場合、図29(C)に示すように、2次元DCT係数Fにおける垂直方向が空間領域に変換され、水平方向が周波数領域のままとされる垂直1次元逆DCT変換が行われることとなり、その結果、水平方向の空間周波数成分を表す水平1次元DCT係数vXhFを得ることができる。
【0386】
また、2次元DCT係数Fに対して、その右側から行列Cだけをかける場合、図29(D)に示すように、2次元DCT係数Fにおける水平方向が空間領域に変換され、垂直方向が周波数領域のままとされる水平1次元逆DCT変換が行われることとなり、その結果、垂直方向の空間周波数成分を表す垂直1次元DCT係数hXvFを得ることができる。
【0387】
なお、横×縦が8×8の2次元DCT係数Fを、垂直1次元逆DCT変換した場合には、8×1の水平1次元DCT係数が、8セット(8行分)得られることになる(図29(C))。また、2次元DCT係数Fを、水平1次元逆DCT変換した場合には、1×8の垂直1次元DCT係数が、8セット(8列分)得られることになる(図29(D))。
【0388】
そして、ある行における8×1の水平1次元DCT係数については、その左端のDCT係数が、その行の8画素の画素値の直流成分(DC成分)(8画素の画素値の平均値)を表し、他の7つのDCT係数が、その行の水平方向の交流成分を表す。また、ある列における1×8の垂直1次元DCT係数については、その最上行のDCT係数が、その列の8画素の画素値の直流成分を表し、他の7つのDCT係数が、その列の垂直方向の交流成分を表す。
【0389】
ここで、式(16)によれば、水平1次元DCT係数は、2次元DCT係数Fに対応する画素値Xに対して、その右側から行列CTをかける水平1次元DCT変換を行うことによっても求めることができる。また、垂直1次元DCT係数は、2次元DCT係数Fに対応する画素値Xに対して、その左側から行列Cをかける垂直1次元DCT変換を行うことによっても求めることができる。
【0390】
図30は、実際の画像と、その画像についての2次元DCT係数、水平1次元DCT係数、および垂直1次元DCT係数を示している。
【0391】
なお、図30は、8×8ブロックの画像と、その画像についての2次元DCT係数、水平1次元DCT係数、および垂直1次元DCT係数を示している。また、図30(A)が、実際の画像を、図30(B)が、2次元DCT係数を、図30(C)が、水平1次元DCT係数を、図30(D)が、垂直1次元DCT係数を、それぞれ示している。
【0392】
ここで、図30(A)の画像は、8ビットの画素値を有するものであり、そのような画素値から求められるDCT係数は、負の値も取り得る。但し、図30(B)乃至図30(D)の実施の形態では、求められたDCT係数に対して、128(=27)を加算し、その加算値が0未満となるものは0にクリップするとともに、加算値が256以上となるものは255にクリップすることにより、0乃至255の範囲のDCT係数を、図示してある。
【0393】
2次元DCT係数には、8×8画素のブロック全体の情報が反映されているため、2次元DCT係数からでは、ブロック内の特定の画素の情報等の局所的な情報を把握するのは困難である。これに対して、水平1次元DCT係数または垂直1次元DCT係数には、ブロックのある1行または1列だけの情報が、それぞれ反映されているため、2次元DCT係数に比較して、ブロック内の局所的な情報を容易に把握することができる。
【0394】
即ち、ブロックのある行の特徴は、その行の8×1の水平1次元DCT係数から把握することができ、ある列の特徴は、その列の1×8の垂直1次元DCT係数から把握することができる。さらに、ブロックのある画素の特徴は、その画素が位置する行の8×1の水平1次元DCT係数と、その画素が位置する列の1×8の垂直1次元DCT係数とから把握することができる。
【0395】
また、左右に隣接するブロックどうしの境界の状態は、ブロック全体の情報が反映された2次元DCT係数よりも、ブロックの境界部分の垂直方向の空間周波数成分を表す垂直1次元DCT係数を用いた方が、より正確に把握することができる。さらに、上下に隣接するブロックどうしの境界の状態も、ブロック全体の情報が反映された2次元DCT係数よりも、ブロックの境界部分の水平方向の空間周波数成分を表す水平1次元DCT係数を用いた方が、より正確に把握することができる。
【0396】
実特性抽出部122において、上述のような1次元DCT係数を用いた注目ブロックのフレームライン相関とフィールドライン相関の演算は、例えば、次のように行われる。
【0397】
即ち、実特性抽出部122は、図31に示すように、ブロックにおける隣接する第iライン(上からi番目のライン)と第i+1ラインとの間の相関Q(i,i+1)を、例えば、次式にしたがって求める。
【0398】
Q(i,i+1)=1/(Σ(dH(i,j)−dH(i+1,j))
・・・(19)
【0399】
但し、dH(i,j)は、第iラインの左からj番目(第j列)の水平1次元DCT係数を表す。また、Σは、jを1乃至8に変えてのサメーションを表す。
【0400】
そして、実特性抽出部122は、例えば、相関Q(i,i+1)の平均値((Q(1,2)+Q(2,3)+Q(3,4)+Q(4,5)+Q(5,6)+Q(6,7)+Q(7,8))/7)を求め、この平均値を、フレームライン相関として出力する。
【0401】
また、実特性抽出部122は、図31に示すように、ブロックにおける1ラインおきに隣接する第iラインと第i+2ラインとの間の相関Q(i,i+2)を、例えば、式(19)にしたがって求める。
【0402】
そして、実特性抽出部122は、例えば、相関Q(i,i+2)の平均値((Q(1,3)+Q(2,4)+Q(3,5)+Q(4,6)+Q(5,7)+Q(6,8))/6)を求め、この平均値を、フィールドライン相関として出力する。
【0403】
次に、図32は、上述のように、1次元DCT係数を用いてフレームライン相関とフィールドライン相関を求める実特性抽出部122の構成例を示している。なお、図中、図28における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図32の実特性抽出部122は、DCT係数差分演算部258に代えて、垂直1次元逆DCT変換部261および相関演算部262が設けられている他は、図28における場合と同様に構成されている。
【0404】
垂直1次元逆DCT変換部261には、演算部253が出力するブロックの2次元DCT係数が供給されるようになっている。垂直1次元逆DCT変換部261は、演算部253からの2次元DCT係数のブロックを、垂直1次元逆DCT変換することにより、水平1次元DCT係数のブロックを求め、相関演算部262に供給する。相関演算部262は、垂直1次元逆DCT変換部261からの水平1次元DCT係数から、図31で説明したように、フレームライン相関とフィールドライン相関を求めて出力する。
【0405】
なお、図28や図32の実施の形態では、MPEGデコーダ254が出力する復号画像データから予測画像を生成して、その予測画像を2次元DCT係数に変換し、演算部253において、符号化データから得られる残差画像の2次元DCT係数と、予測画像の2次元DCT係数とを加算することにより、元の画像の2次元DCT係数を求めるようにしたが、実特性抽出部122では、その他、例えば、MPEGデコーダ254が出力する復号画像データを2次元DCT変換し、その結果得られる2次元DCT係数を、元の画像の2次元DCT係数として用い、図28のDCT係数差分演算部258や図32の垂直1次元DCT逆DCT変換部261において、処理を行うことが可能である。
【0406】
また、図28や図32の実特性抽出部122では、DCT係数差分演算部258や垂直1次元逆DCT変換部261において、演算部253が出力する元の画像の2次元DCT係数ではなく、符号化データから得られる残差画像の2次元DCT係数(逆量子化部252の出力)を用いて処理を行うようにすることが可能である。
【0407】
次に、図33は、図22の係数メモリ141に記憶させるタップ係数を学習する場合の、図15の学習装置の詳細構成例を示している。
【0408】
図33の実施の形態では、学習用データ記憶部11に、学習用データとして、高画質の画像データ(学習用画像データ)が記憶されている。
【0409】
図33の実施の形態において、符号化部12は、MPEGエンコーダ271で構成されており、MPEGエンコーダ271は、学習用データ記憶部11から学習用画像データを読み出して、MPEG2方式で符号化し、その結果られる符号化データを出力する。
【0410】
即ち、図34は、図33のMPEGエンコーダ271の構成例を示している。
【0411】
学習用画像データは、動きベクトル検出部321と演算部323に供給される。動きベクトル検出部321は、学習用画像データを対象に、例えば、ブロックマッチングを行うことにより、学習用画像データの動きベクトルを検出し、動き補償部322に供給する。
【0412】
また、演算部323は、必要に応じて、学習用画像データ(原画像)から、動き補償部322から供給される予測画像を減算し、その結果得られる残差画像を、DCT変換部324に供給する。DCT変換部324は、演算部323からの残差画像を2次元DCT変換し、その結果得られる2次元DCT係数を、量子化部325に供給する。量子化部325は、DCT変換部324から供給される2次元DCT係数を、所定の量子化ステップで量子化することにより、量子化DCT係数を得て、VLC部326および逆量子化部327に供給する。
【0413】
VLC部326は、量子化部325から供給される量子化DCT係数をVLCコードに可変長符号化し、さらに、必要な復号制御情報(例えば、動きベクトル検出部321で検出された動きベクトルや、量子化部325で用いられた量子化ステップなど)を多重化することで、符号化データを得て出力する。
【0414】
一方、逆量子化部327では、量子化部325が出力する量子化DCT係数が逆量子化され、2次元DCT係数が求められて、逆DCT変換部328に供給される。逆DCT変換部328は、逆量子化部327からの2次元DCT係数を、2次元逆DCT変換することにより、残差画像に復号し、演算部329に供給する。
【0415】
演算部329には、逆DCT変換部328から、残差画像が供給される他、動き補償部322から、その残差画像を求めるのに演算部323で用いられたのと同一の予測画像が供給されるようになっており、演算部329は、残差画像と予測画像とを加算することで、元の画像を復号(ローカルデコード)する。この復号画像は、メモリ330に供給され、参照画像として記憶される。
【0416】
そして、動き補償部322では、メモリ330に記憶された参照画像が読み出され、動きベクトル検出部321から供給される動きベクトルにしたがって動き補償が施されることにより、予測画像が生成される。この予測画像は、動き補償部322から演算部323および329に供給される。
【0417】
上述したように、演算部323では、動き補償部322からの予測画像を用いて、残差画像が求められ、また、演算部329では、動き補償部322からの予測画像を用いて、元の画像が復号される。
【0418】
図33に戻り、MPEGデコーダ271が出力する符号化データは、符号化特性情報抽出部171および実特性抽出部172に供給される。
【0419】
符号化特性情報抽出部171は、逆VLC部272で構成されており、実特性抽出部172は、MPEGデコーダ273および相関演算部274で構成されている。逆VLC部272、MPEGデコーダ273、または相関演算部274は、図22の逆VLC部231、MPEGデコーダ232、または相関演算部233とそれぞれ同様の処理を行い、これにより、逆VLC部272は、注目ブロックのDCTタイプを、相関演算部274は、注目ブロックのフレームライン相関およびフィールドライン相関を、それぞれ、判定部173に供給する。
【0420】
判定部173は、ブロック特性判定部275および比較部276で構成されており、ブロック特性判定部275と比較部276では、そこに供給される注目ブロックのDCTタイプとフレームライン相関およびフィールドライン相関を用いて、図22のブロック特性判定部234と比較部235における場合とそれぞれ同様の処理が行われることにより、適応学習部160において注目教師データとされている教師データについてのミスマッチ情報が生成される。このミスマッチ情報は、比較部276から適応学習部160に供給される。
【0421】
なお、図22の復号装置における符号化特性情報抽出部121、実特性抽出部122、および判定部123において、図27乃至図32で説明したようにして、ミスマッチ情報が求められる場合には、図33の学習装置における符号化特性情報抽出部171、実特性抽出部172、および判定部173でも、同様にして、ミスマッチ情報が求められる。
【0422】
逆後処理部161Aは、学習用データ記憶部11から学習用画像データを読み出し、そのまま、教師データとして、適応学習部160に出力する。適応学習部160(図15)では、教師データ記憶部162において、後処理部161Aからの教師データが記憶される。
【0423】
符号化部163Aは、MPEGエンコーダ277で構成され、MPEGエンコーダ277は、MPEGエンコーダ271と同様に、学習用データ記憶部11から学習用画像データを読み出して、MPEG2方式で符号化し、その結果得られる符号化データを、前処理部163Bに出力する。
【0424】
前処理部163Bは、図23のMPEGデコーダ232と同様に構成されるMPEGデコーダ278で構成され、MPEGデコーダ278は、MPEGエンコーダ277からの符号化データを、MPEG2方式で復号し、その結果得られる復号画像データを、生徒データとして、適応学習部160に出力する。適応学習部160(図15)では、生徒データ記憶部164において、MPEGデコーダ278からの生徒データが記憶される。
【0425】
そして、適応学習部160では、教師データおよび生徒データを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われる。
【0426】
即ち、適応学習部160(図15)では、タップ抽出部165が、教師データ記憶部162に記憶された教師データのうち、まだ、注目教師データとしていないものを、注目教師データとし、注目教師データについて、生徒データ記憶部164に記憶された生徒データから予測タップを構成して、足し込み部168に供給する。さらに、タップ抽出部166が、注目教師データについて、生徒データ記憶部164に記憶された生徒データからクラスタップを構成し、クラス分類部167に供給する。
【0427】
ここで、タップ抽出部165および166には、ミスマッチ情報が供給されるようになっており、タップ抽出部165または166では、ミスマッチ情報に基づき、注目教師データについて、図22で説明したクラス分類適応処理部132のタップ抽出部151または152(図13)が構成するのと同一のタップ構造の予測タップまたはクラスタップを構成する。
【0428】
従って、例えば、タップ抽出部151または152において、図22で説明したように、復号制御情報をも用いて、予測タップまたはクラスタップがそれぞれ構成される場合には、図33の学習装置でも、タップ抽出部165または166(図15)において、復号制御情報をも用いて、予測タップまたはクラスタップがそれぞれ構成される。
【0429】
その後、クラス分類部167(図15)では、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについて、図22で説明したクラス分類部153における場合と同様のクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部168に出力する。
【0430】
足し込み部168は、教師データ記憶部162から注目教師データを読み出し、その注目教師データと、タップ抽出部165からの予測タップを用い、式(8)の行列Aとベクトルvのコンポーネントを計算する。さらに、足し込み部168は、既に得られている行列Aとベクトルvのコンポーネントのうち、クラス分類部167からのクラスコードに対応するものに対して、注目教師データと予測タップから求められた行列Aとベクトルvのコンポーネントを足し込む。
【0431】
以上の処理が、教師データ記憶部162に記憶された教師データすべてを、注目教師データとして行われると、足し込み部168は、いままでの処理によって得られたクラスごとの行列Aおよびベクトルvのコンポーネントで構成される式(8)の正規方程式を、タップ係数算出部169に供給し、タップ係数算出部169は、その各クラスごとの正規方程式を解くことにより、各クラスごとに、タップ係数を求めて出力する。
【0432】
なお、図33の学習装置では、例えば、符号化部163AのMPEGエンコーダ277において学習用画像データをMPEG符号化する前に、その学習用画像データの画素数を,1/Nに間引くようにすることで、適応学習部160において、MPEG復号された画像データを、高画質で、かつ画素数をN倍にする(解像度を高くする)タップ係数を得ることができる。
【0433】
次に、図35は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図12の復号装置の第2の詳細構成例を示している。なお、図中、図22における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0434】
図35の実施の形態では、前処理部131が、逆VLC部281、逆量子化部282、演算部283、MPEGデコーダ284、メモリ285、動き補償部286、およびDCT変換部287で構成されている。
【0435】
逆VLC部281、逆量子化部282、演算部283、MPEGデコーダ284、メモリ285、動き補償部286、またはDCT変換部287は、図28の逆VLC部251、逆量子化部252、演算部253、MPEGデコーダ254、メモリ255、動き補償部256、またはDCT変換部257とそれぞれ同様に構成されるもので、前処理部131に供給される符号化データに対して、図28で説明した場合と同様の処理を施し、これにより、前処理部131では、元の画像の2次元DCT係数が求められ、前処理データとして、クラス分類適応処理部132に供給される。
【0436】
クラス分類適応処理部132では、前処理部131が出力する2次元DCT係数を対象に、クラス分類適応処理が行われ、これにより、高画質画像データ(の予測値)が、適応処理データとして求められる。
【0437】
即ち、クラス分類適応処理部132(図13)では、前処理部131が出力する2次元DCT係数が、タップ抽出部151と152に供給される。
【0438】
タップ抽出部151は、まだ、注目データとしていない高画質画像データの画素を注目データとして、その注目データを予測するのに用いる前処理データとしての2次元DCT係数の幾つかを、予測タップとして抽出する。タップ抽出部152も、注目データをクラス分類するのに用いる前処理データとしての2次元DCT係数の幾つかを、クラスタップとして抽出する。
【0439】
なお、タップ抽出部151または152は、注目データについてのミスマッチ情報に基づいて、予測タップまたはクラスタップのタップ構造を、それぞれ変更する。
【0440】
即ち、タップ抽出部151は、例えば、注目データのブロック(注目ブロック)の2次元DCT係数すべての他、注目ブロックの上下左右それぞれに隣接するブロックにおける2次元DCT係数を、ミスマッチ情報に応じて抽出して、予測タップを構成する。タップ抽出部151も、タップ抽出部151と同様にして、クラスタップを構成する。
【0441】
そして、タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
【0442】
クラス分類部153では、クラスタップと、注目データについてのミスマッチ情報に基づき、図22で説明した場合と同様にして、注目データがクラス分類され、注目データについてのクラスコードが、係数メモリ141に供給される。係数メモリ141では、注目データについてのクラスコードに対応するタップ係数が読み出され、予測部154に供給される。
【0443】
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データ(の予測値)、即ち、高画質画像データを求め、後処理部133に供給する。
【0444】
後処理部133では、クラス分類適応処理部132からの高画質画像データが、そのまま出力される。
【0445】
従って、図35の実施の形態では、クラス分類適応処理部132において、2次元DCT係数が高画質画像データに変換される。
【0446】
次に、図36は、図35の復号装置の係数メモリ141に記憶させるタップ係数を学習する場合の、図15の学習装置の詳細構成例を示している。なお、図中、図33における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0447】
図36の実施の形態では、前処理部163Bが、逆VLC部291、逆量子化部292、演算部293、MPEGデコーダ294、メモリ295、動き補償部296、およびDCT変換部297で構成されており、これらの逆VLC部291乃至DCT変換部297は、図35の逆VLC部281乃至DCT変換部287とそれぞれ同様に構成されている。
【0448】
従って、前処理部163Bでは、符号化部163AのMPEGエンコーダ277が出力する符号化データに対して、図35の前処理部131における場合と同様の処理が施され、これにより得られる2次元DCT係数が、生徒データとして、適応学習部160に供給される。
【0449】
適応学習部160(図15)では、生徒データ記憶部164において、前処理部163Bから供給される2次元DCT係数が、生徒データとして記憶され、図33で説明した場合と同様に、教師データおよび生徒データを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、生徒データとしての2次元DCT係数を、高画質画像データに変換するクラスごとのタップ係数が求められる。
【0450】
但し、図36の実施の形態において、適応学習部160(図15)では、そのタップ抽出部165または166それぞれにおいて、図35のクラス分類適応処理部132(図13)におけるタップ抽出部151または152が構成するのと同一のタップ構造の予測タップまたはクラスタップが、ミスマッチ情報に基づいて構成される。さらに、図36の適応学習部160(図15)におけるクラス分類部167でも、図35のクラス分類適応処理部132(図13)におけるクラス分類部153と同様のクラス分類が行われる。
【0451】
次に、図37は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図12の復号装置の第3の詳細構成例を示している。なお、図中、図35における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0452】
図37の復号装置は、後処理部133が、逆DCT変換部301で構成されていることを除いて、図35における場合と同様に構成されている。
【0453】
図37の実施の形態では、クラス分類適応処理部132において、前処理部131が出力する2次元DCT係数を対象に、クラス分類適応処理が行われ、これにより、2次元逆DCT変換を行った場合に、高画質画像データを得ることのできる2次元DCT係数(以下、適宜、高画質2次元DCT係数という)(の予測値)が、適応処理データとして求められる。
【0454】
即ち、クラス分類適応処理部132(図13)では、前処理部131が出力する前処理データとしての2次元DCT係数が、タップ抽出部151と152に供給される。
【0455】
タップ抽出部151は、まだ、注目データとしていない高画質2次元DCT係数を注目データとして、その注目データを予測するのに用いる前処理データとしての2次元DCT係数の幾つかを、予測タップとして抽出する。即ち、タップ抽出部151は、ミスマッチ情報に基づき、注目データについて、図35における場合と同様のタップ構造の予測タップを構成する。タップ抽出部152も、ミスマッチ情報に基づき、注目データについて、図35における場合と同様のタップ構造のクラスタップを構成する。
【0456】
そして、タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
【0457】
クラス分類部153では、クラスタップと、注目データについてのミスマッチ情報に基づき、図35における場合と同様にして、注目データがクラス分類され、注目データについてのクラスコードが、係数メモリ141に供給される。係数メモリ141では、注目データについてのクラスコードに対応するタップ係数が読み出され、予測部154に供給される。
【0458】
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データ(の予測値)、即ち、高画質2次元DCT係数を求め、後処理部133に供給する。
【0459】
後処理部133では、逆DCT変換部301において、クラス分類適応処理部132が出力する高画質2次元DCT係数が、2次元逆DCT変換され、これにより、高画質画像データが求められて出力される。
【0460】
次に、図38は、図37の復号装置の係数メモリ141に記憶させるタップ係数を学習する場合の、図15の学習装置の詳細構成例を示している。なお、図中、図36における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0461】
図38の学習装置は、逆後処理部161Aが、DCT変換部311で構成されていることを除いて、図36における場合と同様に構成されている。
【0462】
従って、逆後処理部161Aでは、DCT変換部311において、学習用データ記憶部11から読み出された学習用画像データとしての高画質画像データが、ブロック単位で2次元DCT変換され、その結果得られる高画質2次元DCT係数が、教師データとして、適応学習部160に供給される。
【0463】
適応学習部160(図15)では、教師データ記憶部162において、逆後処理部161Aから供給される高画質2次元DCT係数が、教師データとして記憶され、その教師データと、生徒データ記憶部164に記憶された生徒データとしての2次元DCT係数とを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、生徒データとしての2次元DCT係数を、高画質2次元DCT係数に変換するクラスごとのタップ係数が求められる。
【0464】
即ち、いまの場合、生徒データされている2次元DCT係数は、前処理部163Bにおいて、符号化データから求められたものであり、量子化誤差を含んでいるため、その2次元DCT係数を2次元逆DCT変換して得られる画像は、いわゆるブロック歪み等を有する低画質のものとなる。
【0465】
そこで、適応学習部160では、上述のように、式(1)の線形予測演算を行うことにより得られる教師データ(学習用画像データを2次元DCT変換して得られる高画質2次元DCT係数)の予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われることにより、生徒データされている2次元DCT係数を、高画質2次元DCT係数に変換するクラスごとのタップ係数が求められる。
【0466】
なお、図38の実施の形態において、適応学習部160(図15)では、そのタップ抽出部165または166それぞれにおいて、図37のクラス分類適応処理部132(図13)におけるタップ抽出部151または152が構成するのと同一のタップ構造の予測タップまたはクラスタップが、ミスマッチ情報に基づいて構成される。さらに、図38の適応学習部160(図15)におけるクラス分類部167でも、図37のクラス分類適応処理部132(図13)におけるクラス分類部153と同様のクラス分類が行われる。
【0467】
以上のように、符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報に基づいて、符号化データの復号、およびその復号に用いるタップ係数の学習等を行うようにしたので、例えば、符号化データに含まれる特性データが、元のデータの特性を正しく表していないものであっても、符号化データを、高品質のデータに復号することが可能となる。
【0468】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0469】
そこで、図39は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0470】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク405やROM403に予め記録しておくことができる。
【0471】
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体411に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体411は、いわゆるパッケージソフトウエアとして提供することができる。
【0472】
なお、プログラムは、上述したようなリムーバブル記録媒体411からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部408で受信し、内蔵するハードディスク405にインストールすることができる。
【0473】
コンピュータは、CPU(Central Processing Unit)402を内蔵している。CPU402には、バス401を介して、入出力インタフェース410が接続されており、CPU402は、入出力インタフェース410を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部407が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)403に格納されているプログラムを実行する。あるいは、また、CPU402は、ハードディスク405に格納されているプログラム、衛星若しくはネットワークから転送され、通信部408で受信されてハードディスク405にインストールされたプログラム、またはドライブ409に装着されたリムーバブル記録媒体411から読み出されてハードディスク405にインストールされたプログラムを、RAM(Random Access Memory)404にロードして実行する。これにより、CPU402は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU402は、その処理結果を、必要に応じて、例えば、入出力インタフェース410を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部406から出力、あるいは、通信部408から送信、さらには、ハードディスク405に記録等させる。
【0474】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0475】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0476】
なお、本実施の形態では、画像データをMPEG方式で符号化した場合と、音声データをCELP方式で符号化した場合とについて説明したが、本発明は、これらの符号化方式に限定されるものではなく、例えば、音声データをMP3(MPEG-1 Audio Layer 3)方式で符号化した符号化データ等にも適用可能である。
【0477】
また、本発明を適用した復号装置および復号方法、並びに第1のプログラムおよび第1の記録媒体によれば、特性データの正しさが判定され、その判定結果を表すミスマッチ情報が出力される。そして、そのミスマッチ情報に基づいて、符号化データが復号される。従って、符号化データを、高品質のデータに復号することが可能となる。
【0478】
さらに、本発明を適用した学習装置および学習方法、並びに第2のプログラムおよび第2の記録媒体によれば、学習用のデータから、タップ係数の学習の教師となる教師データと、生徒となる生徒データが生成されて出力される。さらに、学習用のデータが符号化され、そのデータについての特性データを含む学習用の符号化データが出力される。そして、学習用の符号化データに含まれる特性データの正しさが判定され、その判定結果を表すミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数の学習が行われる。従って、そのタップ係数により、符号化データを、高品質のデータに復号することが可能となる。
【図面の簡単な説明】
【0479】
【図1】本発明を適用した復号装置の一実施の形態の構成例を示すブロック図である。
【図2】復号装置の処理を説明するフローチャートである。
【図3】本発明を適用した復号装置の他の一実施の形態の構成例を示すブロック図である。
【図4】本発明を適用した学習装置の一実施の形態の構成例を示すブロック図である。
【図5】学習装置の処理を説明するフローチャートである。
【図6】音声データを、クラス分類適応処理によって、高音質の音声データに変換する音声データ処理装置の構成例を示すブロック図である。
【図7】係数メモリ25に記憶されるタップ係数を学習する学習装置の構成例を示すブロック図である。
【図8】音声データをVSELP方式で符号化するVSELP符号化装置の構成例を示すブロック図である。
【図9】符号化データをVSELP方式で復号するVSELP復号装置の構成例を示すブロック図である。
【図10】クラス分類適応処理を適用したVSELP復号装置の構成例を示すブロック図である。
【図11】係数メモリ84に記憶されるタップ係数を学習する学習装置の構成例を示すブロック図である。
【図12】本発明を適用した復号装置のより詳細な構成例を示すブロック図である。
【図13】クラス分類適応処理部132の構成例を示すブロック図である。
【図14】復号装置の処理を説明するフローチャートである。
【図15】本発明を適用した学習装置のより詳細な構成例を示すブロック図である。
【図16】学習装置の処理を説明するフローチャートである。
【図17】VSELP方式で符号化された符号化データを復号する復号装置の第1の構成例を示すブロック図である。
【図18】VSELP方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第1の構成例を示すブロック図である。
【図19】VSELP方式で符号化された符号化データを復号する復号装置の第2の構成例を示すブロック図である。
【図20】VSELP方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第2の構成例を示すブロック図である。
【図21】VSELP方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第3の構成例を示すブロック図である。
【図22】MPEG方式で符号化された符号化データを復号する復号装置の第1の構成例を示すブロック図である。
【図23】MPEGデコーダ232の構成例を示すブロック図である。
【図24】画像データから、フレームライン相関とフィールドライン相関を求める方法を説明するための図である。
【図25】タップ構造設定テーブルを示す図である。
【図26】パターンA乃至Dのタップ構造を示す図である。
【図27】横縞を基底とするDCT係数を示す図である。
【図28】実特性抽出部122の構成例を示すブロック図である。
【図29】1次元DCT係数を説明するための図である。
【図30】1次元DCT係数を説明するディスプレイ上に表示された中間階調の写真である。
【図31】1次元DCT係数から、フレームライン相関とフィールドライン相関を求める方法を説明するための図である。
【図32】実特性抽出部122の他の構成例を示すブロック図である。
【図33】MPEG方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第1の構成例を示すブロック図である。
【図34】MPEGエンコーダ271の構成例を示すブロック図である。
【図35】MPEG方式で符号化された符号化データを復号する復号装置の第2の構成例を示すブロック図である。
【図36】MPEG方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第2の構成例を示すブロック図である。
【図37】MPEG方式で符号化された符号化データを復号する復号装置の第3の構成例を示すブロック図である。
【図38】MPEG方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第3の構成例を示すブロック図である。
【図39】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
【0480】
1 ミスマッチ検出部, 2 復号処理部, 3 パラメータ記憶部, 11 学習用データ記憶部, 12 符号化部, 13 ミスマッチ検出部, 14 学習処理部, 21 ピッチ検出部, 22,23 タップ抽出部, 24 クラス分類部, 25 係数メモリ, 26 予測部, 31 時間間引きフィルタ, 32 ピッチ検出部, 33,34 タップ抽出部, 35 クラス分類部, 36 足し込み部, 37 タップ係数算出部, 41 マイク, 42 A/D変換部, 43 演算器, 44 LPC分析部, 45 ベクトル量子化部, 46 音声合成フィルタ, 47 自乗誤差演算部, 48 自乗誤差最小判定部, 49 適応コードブック記憶部, 50 ゲイン復号器, 51 励起コードブック記憶部, 52乃至54 演算器, 55 コード決定部, 56 チャネルエンコーダ, 61 チャネルデコーダ, 62 適応コードブック記憶部, 63 ゲイン復号器, 64 励起コードブック記憶部, 65 フィルタ係数復号器, 66乃至68 演算器, 69 音声合成フィルタ, 81,82 タップ抽出部, 83 クラス分類部, 84 係数メモリ, 85 予測部, 92 A/D変換部, 93 演算器, 94 LPC分析部, 95 ベクトル量子化部, 96 音声合成フィルタ, 97 自乗誤差演算部, 98 自乗誤差最小判定部, 99 適応コードブック記憶部, 100 ゲイン復号器, 101 励起コードブック記憶部, 102乃至104 演算器, 105 コード決定部, 111,112 タップ抽出部, 113 クラス分類部, 114 足し込み部, 115 タップ係数算出部, 121 符号化特性情報抽出部, 122 実特性抽出部, 123 判定部, 131 前処理部, 132 クラス分類適応処理部, 133 後処理部, 141 係数メモリ, 151,152 タップ抽出部, 153 クラス分類部, 154 予測部, 160 適応学習部, 161 教師データ生成部, 161A 逆後処理部, 162 教師データ記憶部, 163 生徒データ生成部, 163A 符号化部, 163B 前処理部, 164 生徒データ記憶部, 165,166 タップ抽出部, 167 クラス分類部, 168 足し込み部, 169 タップ係数算出部, 171 符号化特性情報抽出部, 172 実特性抽出部, 173 判定部, 181 チャネルデコーダ, 182 VSELP復号装置, 183 ピッチ検出部, 184 差分演算部, 185 VSELP復号装置, 191 VSELP符号化装置, 192 チャネルデコーダ, 193 VSELP復号装置, 194 ピッチ検出部, 195 差分演算部, 196 VSELP符号化装置, 197 VSELP復号装置, 201 音声合成フィルタ, 211 LPC分析部, 212 予測フィルタ, 221 LPC分析部, 231 逆VLC部, 232 MPEGデコーダ, 233 相関演算部, 234 ブロック特性判定部, 235 比較部, 236 MPEGデコーダ, 241 逆VLC部, 242 逆量子化部, 243 逆DCT変換部, 244 演算部, 245 メモリ, 246 動き補償部, 247 ピクチャ選択部, 251 逆VLC部, 252 逆量子化部, 253 演算部, 254 MPEGデコーダ, 255 メモリ, 256 動き補償部, 257 DCT変換部, 258 DCT係数差分演算部, 261 垂直1次元逆DCT変換部, 262 相関演算部, 271 MPEGエンコーダ, 272 逆VLC部, 273 MPEGデコーダ, 274 相関演算部, 275 ブロック特性判定部, 276 比較部, 277 MPEGエンコーダ, 278 MPEGデコーダ, 281 逆VLC部, 282 逆量子化部, 283 演算部, 284 MPEGデコーダ, 285 メモリ, 286 動き補償部, 287 DCT変換部, 291 逆VLC部, 292 逆量子化部, 293 演算部, 294 MPEGデコーダ, 295 メモリ, 296 動き補償部, 297 DCT変換部, 301 逆DCT変換部, 311 DCT変換部, 321 動きベクトル検出部, 322 動き補償部, 323 演算部, 324 DCT変換部, 325 量子化部, 326 VLC部, 327 逆量子化部, 328 逆DCT変換部, 329 演算部, 330 メモリ, 401 バス, 402 CPU, 403 ROM, 404 RAM, 405 ハードディスク, 406 出力部, 407 入力部, 408 通信部, 409 ドライブ, 410 入出力インタフェース, 411 リムーバブル記録媒体

【特許請求の範囲】
【請求項1】
データを符号化した符号化データであって、少なくとも、前記データの特性を表す特性データを含む符号化データを復号するのに用いられるタップ係数を学習する学習装置において、
学習用のデータから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成手段と、
前記学習用のデータから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成手段と、
前記学習用のデータを符号化し、そのデータについての前記特性データを含む学習用の符号化データを出力する符号化手段と、
前記学習用の符号化データに含まれる前記特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、
前記ミスマッチ情報に基づき、前記教師データと生徒データを用いて、前記タップ係数を学習する学習手段と
を備えることを特徴とする学習装置。
【請求項2】
データを符号化した符号化データであって、少なくとも、前記データの特性を表す特性データを含む符号化データを復号するのに用いられるタップ係数を学習する学習方法において、
学習用のデータから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用のデータから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用のデータを符号化し、そのデータについての前記特性データを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記ミスマッチ情報に基づき、前記教師データと生徒データを用いて、前記タップ係数を学習する学習ステップと
を備えることを特徴とする学習方法。
【請求項3】
データを符号化した符号化データであって、少なくとも、前記データの特性を表す特性データを含む符号化データを復号するのに用いられるタップ係数を学習する学習処理を、コンピュータに行わせるプログラムにおいて、
学習用のデータから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用のデータから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用のデータを符号化し、そのデータについての前記特性データを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記ミスマッチ情報に基づき、前記教師データと生徒データを用いて、前記タップ係数を学習する学習ステップと
を含む学習処理を、コンピュータに行わせることを特徴とするプログラム。
【請求項4】
データを符号化した符号化データであって、少なくとも、前記データの特性を表す特性データを含む符号化データを復号するのに用いられるタップ係数を学習する学習処理を、コンピュータに行わせるプログラムが記録されている記録媒体において、
学習用のデータから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用のデータから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用のデータを符号化し、そのデータについての前記特性データを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記ミスマッチ情報に基づき、前記教師データと生徒データを用いて、前記タップ係数を学習する学習ステップと
を含む学習処理を、コンピュータに行わせるプログラムが記録されている
ことを特徴とする記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate

【図33】
image rotate

【図34】
image rotate

【図35】
image rotate

【図36】
image rotate

【図37】
image rotate

【図38】
image rotate

【図39】
image rotate


【公開番号】特開2007−295599(P2007−295599A)
【公開日】平成19年11月8日(2007.11.8)
【国際特許分類】
【出願番号】特願2007−147720(P2007−147720)
【出願日】平成19年6月4日(2007.6.4)
【分割の表示】特願2002−61400(P2002−61400)の分割
【原出願日】平成14年3月7日(2002.3.7)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】