説明

情報処理装置、情報処理方法、およびプログラム

【課題】入力データの種類に拘わらずアンサンブル学習における弱情報抽出部を自動的に生成することによって、より高精度の情報抽出装置を自動的に構築する。
【解決手段】高精度情報抽出装置構築システム10は、特徴量抽出式リストを生成する特徴量抽出式リスト生成部11、各特徴量抽出式により教師データの特徴量を計算する特徴量計算部12、教師データを供給する教師データ供給部13、計算された教師データの特徴量と教師データとに基づいて情報抽出式を機械学習により生成するとともに各特徴抽出式の評価値を算出する評価値算出部15、および、評価値算出部15から出力されるT個の弱情報抽出部F(X)tとそれに対応する信頼度Ctを用いて高精度情報抽出装置を構築する合成部16から構成される。本発明は、入力データから、入力データの特徴量を示す情報を高精度に抽出する情報抽出装置を構築する場合に適用できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えば、楽曲データなどの入力データから当該入力データの特徴を示す情報を高精度に抽出できる高精度情報抽出アルゴリズムを自動的に構築するようにした情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
従来、楽曲データや画像データなどを入力データとして、前記入力データの情報(入力データが楽曲データである場合、速さ、明るさ、にぎやかさ等)を出力することができるアルゴリズムを自動的に構築する発明が提案されている(例えば、特許文献1参照)。
【0003】
また、入力データから当該入力データの特徴を示す情報を高精度に抽出できるアルゴリズムを構築する方法として、アンサンブル学習と称する手法が知られている。
【0004】
アンサンブル学習は、複数の教師データを用いて精度の低い情報抽出装置(以下、弱情報抽出部(weak learner)と称する)を複数生成し、生成した複数の弱情報抽出部による出力を組み合わせることによって高精度の情報抽出装置を得る手法である。
【0005】
アンサンブル手法の例としては、ブースティング(boosting)とバッギング(bagging)の2種類を挙げることができる。
【0006】
ブースティングでは、各教師データに重み付けを行い、全ての教師データを用いて1つの弱情報抽出部を生成する。そして生成した弱情報抽出部によって正しく情報が抽出された教師データについては重みを下げ、間違って情報が抽出された教師データについては重みを上げることにより、教師データの重みを更新する。また、重みが更新された全ての教師データを用いてさらにもう1つの弱情報抽出部を生成する。以下同様の処理を繰り返すことにより、複数の弱情報抽出部を生成し、生成した複数の弱情報抽出部の出力をそれぞれの重み付けで組み合わせることによって高精度の情報抽出装置を得る。
【0007】
バッギングでは、全ての教師データから所定数をランダムにサンプリングして教師データ群を生成し、教師データ群を用いて1つの弱情報抽出部を生成する。この処理を繰り返すことにより、複数の弱情報抽出部を生成し、生成した複数の弱情報抽出部の出力を組み合わせることによって高精度の情報抽出装置を得る。
【0008】
【特許文献1】米国特許出願公報 US2004/0181401A1
【発明の開示】
【発明が解決しようとする課題】
【0009】
上述したブースティングやバッギングなどアンサンブル手法では、より多くの弱情報抽出部を生成して、その出力を組み合わせることによって、より高精度の情報抽出装置を得ることができる。
【0010】
しかしながら、入力データの種類に拘わらずアンサンブル学習における弱情報抽出部を自動的に生成する方法は従来確立されておらず、弱情報抽出部を人手によって生成する必要があった。したがって、弱情報抽出部の数を増やして情報抽出装置の精度を所望のレベルまで到達させることが困難であった。
【0011】
本発明はこのような状況に鑑みてなされたものであり、入力データの種類に拘わらずアンサンブル学習における弱情報抽出部を自動的に生成することによって、より高精度の情報抽出装置を自動的に構築できるようにするものである。
【課題を解決するための手段】
【0012】
本発明の第1の側面である情報処理装置は、入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置において、複数の演算子から成る特徴量抽出式を複数含む特徴量抽出式リストを、前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新することにより生成する特徴量抽出式リスト生成手段と、前記特徴量抽出式リストに含まれる各特徴量抽出式に、実データ、前記実データの特徴を示す情報、および重みからなる教師データの実データを入力して、前記実データに対応する複数の特徴量を計算する特徴量計算手段と、計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記特徴量抽出式リストに含まれる各特徴量抽出式にそれぞれ対応する情報抽出部候補を生成するとともに、生成した前記情報抽出部候補によって正しく推定された教師データの重みを用いて各特徴量抽出式にそれぞれ対応する評価値を算出し、最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式に対応する前記情報抽出部候補を、前記アンサンブル学習における1つの前記情報抽出部に決定して、決定した前記情報抽出部によって間違って推定された教師データの重みを用いて、決定した前記情報抽出部の信頼度を算出する評価値算出手段と、決定された前記情報抽出部の前記信頼度を用いて、教師データの重みを更新する更新手段とを含むことを特徴とする。
【0013】
本発明の第1の側面である情報処理装置は、複数の前記情報抽出部を、前記情報抽出部の前記信頼度に基づいて合成することにより、前記高精度情報抽出部を構築する合成手段をさらに含むことができる。
【0014】
本発明の第1の側面である情報処理方法は、入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置の情報処理方法において、複数の演算子から成る特徴量抽出式を複数含む第1世代の特徴量抽出式リストをランダムに生成し、前記特徴量抽出式リストに含まれる各特徴量抽出式に、実データ、前記実データの特徴を示す情報、および重みからなる教師データの実データを入力して、前記実データに対応する複数の特徴量を計算し、計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記特徴量抽出式リストに含まれる各特徴量抽出式にそれぞれ対応する情報抽出部候補を生成するとともに、生成した前記情報抽出部候補によって正しく推定された教師データの重みを用いて各特徴量抽出式にそれぞれ対応する評価値を算出し、前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の前記評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新し、最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式に対応する前記情報抽出部候補を、前記アンサンブル学習における1つの前記情報抽出部に決定して、決定した前記情報抽出部によって間違って推定された教師データの重みを用いて、決定した前記情報抽出部の信頼度を算出し、決定された前記情報抽出部の前記信頼度を用いて、教師データの重みを更新するステップを含むことを特徴とする。
【0015】
本発明の第1の側面であるプログラムは、入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置の制御用のプログラムであって、複数の演算子から成る特徴量抽出式を複数含む第1世代の特徴量抽出式リストをランダムに生成し、前記特徴量抽出式リストに含まれる各特徴量抽出式に、実データ、前記実データの特徴を示す情報、および重みからなる教師データの実データを入力して、前記実データに対応する複数の特徴量を計算し、計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記特徴量抽出式リストに含まれる各特徴量抽出式にそれぞれ対応する情報抽出部候補を生成するとともに、生成した前記情報抽出部候補によって正しく推定された教師データの重みを用いて各特徴量抽出式にそれぞれ対応する評価値を算出し、前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の前記評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新し、最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式に対応する前記情報抽出部候補を、前記アンサンブル学習における1つの前記情報抽出部に決定して、決定した前記情報抽出部によって間違って推定された教師データの重みを用いて、決定した前記情報抽出部の信頼度を算出し、決定された前記情報抽出部の前記信頼度を用いて、教師データの重みを更新するステップを含む処理を情報処理装置のコンピュータに実行させることを特徴とする。
【0016】
本発明の第1の側面においては、複数の演算子から成る特徴量抽出式を複数含む第1世代の特徴量抽出式リストがランダムに生成され、前記特徴量抽出式リストに含まれる各特徴量抽出式に、実データ、前記実データの特徴を示す情報、および重みからなる教師データの実データが入力されて、前記実データに対応する複数の特徴量が計算される。また、計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記特徴量抽出式リストに含まれる各特徴量抽出式にそれぞれ対応する情報抽出部候補が生成されるとともに、生成された前記情報抽出部候補によって正しく推定された教師データの重みを用いて各特徴量抽出式にそれぞれ対応する評価値が算出される。さらに、前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の前記評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストが更新される。そして、最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式に対応する前記情報抽出部候補が、前記アンサンブル学習における1つの前記情報抽出部に決定され、決定された前記情報抽出部によって間違って推定された教師データの重みを用いて、決定された前記情報抽出部の信頼度が算出され、決定された前記情報抽出部の前記信頼度を用いて、教師データの重みが更新される。
【0017】
本発明の第2の側面である情報処理装置は、入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置において、実データ、および前記実データの特徴を示す情報からなる教師データをランダムに選択する選択手段と、複数の演算子から成る特徴量抽出式を複数含む特徴量抽出式リストを、前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新することにより生成する特徴量抽出式リスト生成手段と、前記特徴量抽出式リストに含まれる各特徴量抽出式に、前記教師データの実データを入力して、前記実データに対応する複数の特徴量を計算する特徴量計算手段と、各特徴量抽出式にそれぞれ対応する評価値として、各特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量を用いて、前記教師データの前記実データに対応する前記情報を推定した場合の精度を算出し、最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記アンサンブル学習における1つの前記情報抽出部を生成する評価値算出手段とを含むことを特徴とする。
【0018】
本発明の第2の側面である情報処理装置は、複数の前記情報抽出部を合成することにより、前記高精度情報抽出部を構築する合成手段をさらに含むことができる。
【0019】
本発明の第2の側面である情報処理方法は、入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置の情報処理方法において、実データ、および前記実データの特徴を示す情報からなる教師データをランダムに選択し、複数の演算子から成る特徴量抽出式を複数含む第1世代の特徴量抽出式リストをランダムに生成し、前記特徴量抽出式リストに含まれる各特徴量抽出式に、前記教師データの実データを入力して、前記実データに対応する複数の特徴量を計算し、各特徴量抽出式にそれぞれ対応する評価値として、各特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量を用いて、前記教師データの前記実データに対応する前記情報を推定した場合の精度を算出し、前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の前記評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新し、最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記アンサンブル学習における1つの前記情報抽出部を生成するステップを含むことを特徴とする。
【0020】
本発明の第2の側面であるプログラムは、入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置の制御用のプログラムであって、実データ、および前記実データの特徴を示す情報からなる教師データをランダムに選択し、複数の演算子から成る特徴量抽出式を複数含む第1世代の特徴量抽出式リストをランダムに生成し、前記特徴量抽出式リストに含まれる各特徴量抽出式に、前記教師データの実データを入力して、前記実データに対応する複数の特徴量を計算し、各特徴量抽出式にそれぞれ対応する評価値として、各特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量を用いて、前記教師データの前記実データに対応する前記情報を推定した場合の精度を算出し、前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の前記評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新し、最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記アンサンブル学習における1つの前記情報抽出部を生成するステップを含む処理を情報処理装置のコンピュータに実行させることを特徴とする。
【0021】
本発明の第2の側面においては、実データ、および前記実データの特徴を示す情報からなる教師データがランダムに選択され、複数の演算子から成る特徴量抽出式を複数含む第1世代の特徴量抽出式リストがランダムに生成され、前記特徴量抽出式リストに含まれる各特徴量抽出式に、前記教師データの実データが入力されて、前記実データに対応する複数の特徴量が計算される。また、各特徴量抽出式にそれぞれ対応する評価値として、各特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量を用いて、前記教師データの前記実データに対応する前記情報を推定した場合の精度が算出される。さらに、前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の前記評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストが更新される。さらに、最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記アンサンブル学習における1つの前記情報抽出部が生成される。
【発明の効果】
【0022】
本発明の一側面によれば、入力データの種類に拘わらずアンサンブル学習における弱情報抽出部を自動的に生成することができる。
【0023】
また本発明の一側面によれば、入力データの種類に拘わらずより高精度の情報抽出装置を自動的に構築できる。
【発明を実施するための最良の形態】
【0024】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
【0025】
本発明を適用した高精度情報抽出装置構築システムは、図1に示すような、入力データXの特徴を示す情報を出力する複数の弱情報抽出部2−1乃至2−T、および、弱情報抽出部2−1乃至2−Tの出力を組み合わせることによって、入力データXの特徴を示す情報を高精度で出力する合成部3から成る高精度情報装置1を自動的に構築するものである。
【0026】
なお、入力データXは、多次元のデータであればよく、その種類は任意である。例えば、時間の次元とチャンネルの次元を有する楽曲データ、X次元とY次元と画素の次元を有する画像データ、画像データに時間の次元を加えた動画像データなどを入力データXとすることができる。
【0027】
高精度情報装置1が出力する入力データXに対する情報としては、例えば、入力データXが楽曲データである場合、当該楽曲データの明暗(明るいか、明るくないかの2値情報)、または、明るさ(その値によって明るさの程度を示す数値情報。例えば、0から5までの値として、0は全く明るくない。5は非常に明るいとする)などを挙げることができる。勿論、上に挙げた例以外を入力データXとその情報とすることができる。
【0028】
図1の弱情報抽出部2−1は、図2に示すように、特徴量抽出式と情報推定式から構成されている。特徴量抽出式は、入力データXに対して所定の演算を行い、演算結果として1次元の値を出力する。情報推定式は、特徴量抽出式の出力である1次元の値から、入力データXの特徴を示す情報を推定する。ここで、情報推定式は、例えば、その出力(すなわち、弱情報抽出部2-1の出力)を、+1または−1の2値情報とする場合には、特徴量抽出式の出力である1次元の値と比較するための閾値からなる判別式とすることができる。また例えば、その出力を、所定の範囲の数値とする場合には、特徴量抽出式の出力である1次元の値を入力とする線形結合式とすることができる。
【0029】
図1の弱情報抽出部2−2乃至2−Tについても、弱情報抽出部2−1と同様である。
【0030】
次に、本発明の第1の実施の形態である高精度情報抽出装置構築システム10の構成例について、図3を参照して説明する。この高精度情報抽出装置構築システム10は、複数の教師データを用いたアンサンブル学習のブースティングによって高精度情報抽出装置1を構築するものである。
【0031】
この高精度情報抽出装置構築システム10は、m本の特徴量抽出式からなる特徴量抽出式リストを生成、更新する特徴量抽出式リスト生成部11、生成された各特徴量抽出式に教師データの実データを代入して特徴量を計算する特徴量計算部12、教師データを特徴量計算部12と評価値算出部15に供給する教師データ供給部13、特徴量計算部12によって計算された教師データに対応する特徴量と教師データとに基づいて情報抽出式を機械学習により生成するとともに特徴量抽出式リストを構成する各特徴抽出式の評価値を算出する評価値算出部15、および、評価値算出部15から出力されるT個の弱情報抽出部F(X)tとそれに対応する信頼度Ctを用いて高精度情報抽出装置1を構築する合成部16から構成される。
【0032】
特徴量抽出式リスト生成部11は、第1世代の特徴量抽出式リストを構成するm本の特徴量抽出式をランダムに生成し、生成した第1世代の特徴量抽出式リストを特徴量計算部12に供給する。
【0033】
ここで、特徴量抽出式リスト生成部11によって生成される特徴量抽出式について、図4を参照して説明する。図4A乃至図4Dは、それぞれ特徴量抽出式の例を示している。
【0034】
特徴量抽出式には、左端に入力データの種類が記述され、入力データの種類の右側には、1種類以上のオペレータ(演算子)が演算される順序に従って記述される。各オペレータには、適宜、処理対称軸とパラメータが含まれる。
【0035】
オペレータの種類としては、平均値(Mean)、高速フーリエ変換(FFT)、標準偏差(StDev)、出現率(Ratio)、ローパスフィルタ(LPF)、ハイパスフィルタ(HPF)、絶対値(ABS)、2乗(Sqr)、平方根(Sqrt)、正規化(Normalize)、微分(Differential)、積分(Integrate)、最大値(MaxIndex)、不偏分散(UVariance)、ダウンサンプリング(DownSampling)などを挙げることができる。なお、決定されたオペレータによっては処理対称軸が固定されていることがあるので、その場合、パラメータに固定されている処理対称軸を採用する。また、パラメータを必要とするオペレータが決定された場合、パラメータもランダムまたは予め設定されている値に決定する。
【0036】
例えば、図4Aに示された特徴量抽出式の場合、12TomesMが入力データであり、32#Differential,32#MaxIndex,16#LPF_1;O.861,16#UVarianceそれぞれがオペレータである。また、各オペレータ中の32#,16#などは処理対称軸を示している。
【0037】
ここで、12TomesMはモノラルのPCM(pulse coded modulation sound source)波形データを時間軸に沿って音程解析したものであることを示しており、48#はチャンネル軸、32#は周波数軸と音程軸、16#は時間軸を示している。オペレータ中の0.861はローパスフィルタ処理におけるパラメータであり、例えば透過させる周波数の閾値を示している。
【0038】
なお、第1世代の特徴量抽出式リストを構成する各特徴量抽出式の入力データの種類は入力データXと同じもの、オペレータの数と種類はランダムに決定されるが、各特徴量抽出式を生成する際の制約として、図5に示すように、複数のオペレータに対応する演算が順次実行されるにつれて、演算結果の保有次元数が順次減少し、特徴量抽出式の最終的な演算結果がスカラになるか、あるいはその次元数が1となるようになされている。
【0039】
図4A乃至図4Dに示された例から明らかなように、特徴量抽出式によって計算される特徴量は、例えば、楽曲データに対するテンポ、画像データに対する画素のヒストグラムなどのように、既存の概念で有意義と判断される値になるわけではない。すなわち、特徴量抽出式によって計算される特徴量は、単に入力データを特徴量抽出式に代入したときの演算結果に過ぎないものでよい。
【0040】
以下、特徴量抽出式リスト生成部11によって生成される特徴量抽出式リストは、図6に示すように、m本の特徴量抽出式f1乃至fmによって構成されているものとする。図6の例において、特徴量抽出式f1乃至fmの入力データであるWavMはモノラルのPCM波形データであり、保有次元は時間軸とチャンネル軸である。
【0041】
図3に戻る。特徴量抽出式リスト生成部11はまた、第2世代以降の特徴量抽出式リストを、前世代の特徴量抽出式リストを遺伝的アルゴリズム(GA:genetic algorism)に従って更新することによって生成し、生成した特徴量抽出式リストを特徴量計算部12に供給する。
【0042】
ここで、遺伝的アルゴリズムとは、現世代の遺伝子から、選択処理、交差処理、突然変異処理、およびランダム生成処理により、次世代の遺伝子を生成するアルゴリズムを指す。具体的には、特徴量抽出式リストを構成する複数の各特徴量抽出式を遺伝子とみなし、現世代の特徴量抽出式リストを構成する複数の特徴量抽出式の評価値に応じて選択処理、交差処理、突然変異処理、およびランダム生成処理を行い、次世代の特徴量抽出式リストを生成する。
【0043】
すなわち、例えば図7に示すように、選択処理では、現世代の特徴量抽出式リストを構成する複数の特徴量抽出式のうち、評価値の高い特徴量抽出式f2を選択して次世代の特徴量抽出式リストに含める。交差処理では、現世代の特徴量抽出式リストを構成する複数の特徴量抽出式のうち、評価値の高い複数の特徴量抽出式f2とf5を交差させて(組み合わせて)特徴量抽出式を生成し、次世代の特徴量抽出式リストに含める。
【0044】
突然変異処理では、現世代の特徴量抽出式リストを構成する複数の特徴量抽出式のうち、評価値の高い特徴量抽出式f2を部分的に突然変異させて(変更して)特徴量抽出式を生成し、次世代の特徴量抽出式リストに含める。ランダム生成処理では、新たな特徴量抽出式をランダムに生成して次世代の特徴量抽出式リストに含める。
【0045】
図3に戻る。特徴量計算部12は、特徴量抽出式リスト生成部11から供給された特徴量抽出式リストを構成する各特徴量抽出式f1乃至fmに、教師データ供給部13から供給される複数の教師データTiの実データDiを代入し、教師データTiに対する特徴量を計算し、計算した特徴量を評価値算出部15に供給する。
【0046】
ここで、教師データ供給部13から供給される教師データTiについて説明する。図8は、教師データTiのデータ構造を示している。
【0047】
総数L個の教師データTi(i=1,2,・・・,L)は、入力データXと同じ種類のデータである実データDi、実データDiに対応する情報Iiを有している。情報Iiは、例えば、実データDiの明るさを示すものであり、(明るいか(+1)、明るくないか(−1)の2値情報)であってもよいし、明るさ(その値によって明るさの程度を示す数値情報。例えば、0から5までの値として、0は全く明るくない。5は非常に明るいとする)であってもよい。以下、情報Iiは、+1または−1の2値情報であるとする。
【0048】
さらに、教師データTiには重みWiが設定されている。初期状態において、各教師データTiの重みWiは均一であり、L個の教師データTiの重みWiの合計が1と成るように正規化されている。
【0049】
教師データ供給部13は、重み設定部14を内蔵する。重み設定部14は、各教師データTiの重みWiを、評価値算出部15から供給される、構築された弱情報抽出部F(X)tによって各教師データTiが正しく判別されたか否かを示す情報と、弱情報抽出部F(X)tに対応する信頼度Ctに基づいて更新する。
【0050】
具体的には、弱情報抽出部F(X)tによって正しく判別された教師データTiについては現状の重みWiをEXP(−Ct)倍とし、弱情報抽出部F(X)tによって間違って判別された教師データTiについては、現状の重みWiをEXP(Ct)倍とする。さらに、L個の教師データTiの重みWiの合計が1と成るように正規化する。
【0051】
図3に戻る。上述したように、教師データTiの数はL、特徴量抽出式リストを構成する特徴量抽出式の数はmであるので、特徴量計算部12では、図9に示すように、(L×m)個の特徴量が算出されることになる。以下、特徴量抽出式fj(j=1,2,・・・,m)に、教師データTi(i=1,2,・・・,L)の実データDiを代入して計算された特徴量をfj[Ti]と記述する。なお、図9には、特徴量fj[Ti]の具体的な値が記載されている。
【0052】
評価値算出部15は、L個の教師データTiとL個の特徴量f1[Ti]とに基づき、特徴量抽出式f1に対応する情報推定式を決定するとともに、特徴量抽出式f1の評価値を算出する。なお、ここで情報推定式は、その出力を2値情報とするので、情報推定式として、特徴量f1[Ti]と比較する閾値を有する判別式が決定される。
【0053】
この判別式は、例えば、
特徴量f1[Ti]>閾値 → 情報=−1
特徴量f1[Ti]≦閾値 → 情報=+1
とする。
【0054】
具体的には、図10に示すように、横軸には特徴量f1[Ti]の値、縦軸は重みWiをかけた教師データの分布を示すグラフに、L個の教師データTiを情報Iiの値(+1または−1)に応じて2つに分類してプロットする。そして、情報推定式(閾値による判別式)によって、情報Iiが正しく判別された教師データTiの重みWiの合計が最大となるように閾値を決定する。すなわち、図10に示された左側の山の分布(教師データTiの情報Iiの値が+1である分布)のうちの閾値よりも左側の面積と、図10に示された右側の山の分布(教師データTiの情報Iiの値が−1である分布)のうちの閾値よりも右側の面積との合計が最大となるように閾値を決定する。
【0055】
そして、決定した情報推定式(閾値による判別式)によって、情報Iiが正しく判別された教師データTiの重みWiの合計を、特徴量抽出式f1の評価値とする。
【0056】
同様に、評価値算出部15は、特徴量抽出式f2乃至fmにそれぞれ対応する情報推定式を決定するとともに、特徴量抽出式f2乃至fmの評価値を算出する。
【0057】
ここで算出された特徴量抽出式f1乃至fmの評価値は、特徴量抽出式リスト生成部11に供給されて、次世代の特徴量抽出式リストの生成に利用される。
【0058】
さらに、評価値算出部15は、所定の終了条件が満たされた数世代後(最終世代とする)の特徴量抽出式リストを構成する特徴量抽出式f1乃至fmのうち、最も評価値の良い特徴量抽出式fiとそれに対応する情報推定式から1つの弱情報抽出部F(X)tを構築する。さらに、構築した弱情報抽出部F(X)tの信頼度Ctを算出する。
信頼度Ct=1/2log((1−E)/E)
【0059】
ここで、Eは構築した弱情報抽出部F(X)tのエラー率であり、弱情報抽出部F(X)tによって、情報Iiが間違って判別された教師データTiの重みWiの合計値(図10の例では、左側の山の分布(教師データTiの情報Iiの値が+1である分布)のうちの閾値よりも右側の面積と、図10に示された右側の山の分布(教師データTiの情報Iiの値が−1である分布)のうちの閾値よりも左側の面積との合計)である。
【0060】
ここで構築された弱情報抽出部F(X)tとそれに対応する信頼度Ctは合成部16に供給される。また、構築された弱情報抽出部F(X)tによって各教師データTiが正しく判別されたか否かを示す情報と、弱情報抽出部F(X)t対応する信頼度Ctが教師データ供給部13の重み設定部14に供給される。
【0061】
合成部16は、評価値算出部15から供給されている1個以上の弱情報抽出部F(X)tと、それぞれに対応する信頼度Ctを用いた次式に従い、高精度情報抽出装置1(図1)を構築する。
SignΣ(Ct・F(X)t
【0062】
すなわち、合成部16では、複数の弱情報抽出部F(X)tの出力がそれの信頼度Ctによって重み付けられて加算される。そして、その総和の符号が正であるならば、入力データXの情報Iが+1、その総和の符号が負であるならば、入力データXの情報Iが−1とされる、高精度情報抽出装置1が構築される。
【0063】
次に、高精度情報抽出装置構築システム10による動作について、図11のフローチャートを参照して説明する。
【0064】
ステップS1において、教師データ供給部13は、内蔵する重み設定部14により、予め用意されているL個の教師データTiの各重みWiを均等な値1/Lに初期化し、第1世代の教師データTiとして特徴量計算部12および評価値算出部15に供給する。
【0065】
ステップS2において、第1世代の教師データTiに対応する弱情報抽出部F(X)1が生成される。ステップS2の処理について、図12のフローチャートを参照して詳述する。
【0066】
ステップS11において、特徴量抽出式リスト生成部11は、m本の特徴量抽出式をランダムに生成し、生成したm本の特徴量抽出式からなる第1世代の特徴量抽出式リストを特徴量計算部12に供給する。
【0067】
ステップS12において、特徴量計算部12は、特徴量抽出式リスト生成部11から供給された特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmを順に1本ずつ注目する特徴量抽出式リストループを開始する。
【0068】
ステップS13において、特徴量計算部12は、注目している特徴量抽出式fjに、L個の教師データTiを代入してL個の特徴量fj[Ti]を計算し、評価値算出部15に出力する。ステップS14において、評価値算出部15は、L個の教師データTiとL個の特徴量fj[Ti]とに基づき、特徴量抽出式fjに対応する情報推定式を決定し、ステップS15において、特徴量抽出式fjの評価値を算出する。ステップS12乃至S15の処理により、注目している特徴量抽出式fjに対応する情報推定式と評価値が得られたことになる。
【0069】
ステップS16において、特徴量計算部12は、特徴量抽出式リスト生成部11から供給された特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmのうち、注目してないものが残っているか否かを判定する。そして、注目していない特徴量抽出式が残っていると判定された場合、処理はステップS12に戻り、ステップS12乃至S16の処理が繰り返される。
【0070】
そして、ステップS16において、特徴量抽出式リスト生成部11から供給された特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmのうち、注目してないものが残っていないと判定された場合、m本の特徴量抽出式f1乃至fmにそれぞれ対応する情報推定式と評価値が得られたことになるので、処理はステップS17に進められる。
【0071】
ステップS17において、評価値算出部15は、所定の終了条件を満たしているか否かを判定する。ここで、所定の終了条件としては、例えば、m本の特徴量抽出式f1乃至fmにそれぞれ対応する評価値のうち、最も良い評価値の値が所定の数世代の間、向上していないことなどとすることができる。
【0072】
ステップS17において、所定の終了条件を満たしていないと判定された場合、処理はステップS18に進められる。
【0073】
ステップS18において、評価値算出部15は、現世代の特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmにそれぞれ対応する評価値を特徴量抽出式リスト生成部11に供給する。特徴量抽出式リスト生成部11は、現世代の特徴量抽出式リストを遺伝的アルゴリズムに従って更新することにより、次世代の特徴量抽出式リストを生成して特徴量計算部12に供給する。
【0074】
具体的には、遺伝的アルゴリズムの選択処理として、現世代の特徴量抽出式リストを構成する複数の特徴量抽出式のうち、評価値の良いms本の特徴量抽出式を選択して次世代の特徴量抽出式リストに含める。また、遺伝的アルゴリズムの交差処理として、現世代の特徴量抽出式リストを構成する複数の特徴量抽出式のうち、評価値の良いものほど選択され易いように重み付けをして2本の特徴量抽出式を選択し、選択した2本の特徴量抽出式を交差させる(組み合わせる)ことにより、mx本の特徴量抽出式を生成し、次世代の特徴量抽出式リストに含める。
【0075】
さらに、遺伝的アルゴリズムの突然変異処理として、現世代の特徴量抽出式リストを構成する複数の特徴量抽出式のうち、評価値の良いものほど選択され易いように重み付けをして1本の特徴量抽出式を選択し、選択した1本の特徴量抽出式を部分的に突然変異させる(変更する)ことにより、mm本の特徴量抽出式を生成し、次世代の特徴量抽出式リストに含める。さらにまた、遺伝的アルゴリズムのランダム生成処理として、新たにmr(=m−ms−mx−mm)本の特徴量抽出式をランダムに生成して次世代の特徴量抽出式リストに含める。
【0076】
以上のように、次世代の特徴量抽出式リストが生成されて特徴量計算部12に供給された後、処理はステップS12に戻り、ステップS12乃至S18の処理が繰り返される。そして、ステップS17において、所定の終了条件を満たしていると判定された場合、処理はステップS19に進められる。
【0077】
ステップS19において、評価値算出部15は、現世代、すなわち、最終世代の特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmのうち、評価値が最も良い特徴量抽出式fiとそれに対応する情報推定式から1つ目の弱情報抽出部F(X)1を構築し、構築した弱情報抽出部F(X)1の信頼度C1を算出する。さらに、評価値算出部15は、構築した1つ目の弱情報抽出部F(X)1とそれに対応する信頼度C1を合成部16に供給する。またさらに、評価値算出部15は、構築した弱情報抽出部F(X)1によって第1世代の各教師データTiが正しく判別されたか否かを示す情報と、弱情報抽出部F(X)1対応する信頼度C1を教師データ供給部13の重み設定部14に供給する。
【0078】
以上のように、第1世代の教師データTiに対応する1つ目の弱情報抽出部F(X)1が構築され、その信頼度C1が算出された後、処理は図11のステップS3に戻される。
【0079】
ステップS3において、合成部16は、現時点までに評価値算出部15から供給されている1個以上の弱情報抽出部F(X)tとそれに対応する信頼度Ctを合成することにより、高精度情報抽出装置1を構築する。
【0080】
ステップS4において、合成部16は、所定の終了条件を満たしているか否かを判定する。ここで、所定の終了条件としては、例えば、所定の数Tだけ弱情報抽出部F(X)tとそれに対応する信頼度Ctが評価値算出部15から供給されていること、高精度情報抽出装置1が所望の精度に達していること、またはユーザから終了が指示されたことのうち、少なくとも1つが満たされていることなどとすることができる。
【0081】
ステップS4において、所定の終了条件を満たしていないと判定された場合、処理はステップS5に進められる。
【0082】
ステップS5において、教師データ供給部13の重み設定部14は、各教師データTiの重みWiを、ステップS19の処理で評価値算出部15から供給された、現世代の教師データTiに対応する弱情報抽出部F(X)tによって各教師データTiが正しく判別されたか否かを示す情報と、弱情報抽出部F(X)tに対応する信頼度Ctに基づいて更新する。
【0083】
ステップS5の処理について、図13のフローチャートを参照して詳述する。
【0084】
ステップS41において、重み設定部14は、L個の教師データTiを順に1つずつ注目する教師データループを開始する。
【0085】
ステップS42において、重み設定部14は、注目する教師データTiが、現世代の教師データTiに対応する弱情報抽出部F(X)tによって正しく判別されたか否かを判定する。
【0086】
ステップS42において、正しく判別されたと判定された場合、処理はステップS43に進められる。ステップS43において、重み設定部14は、注目する教師データTiの現状の重みWiをEXP(−Ct)倍することにより更新する。この後、処理はステップS45に進められる。
【0087】
反対に、ステップS42において、正しく判別されていない(間違って判別されている)と判定された場合、処理はステップS44に進められる。ステップS44において、重み設定部14は、注目する教師データTiの現状の重みWiをEXP(Ct)倍することにより更新する。この後、処理はステップS45に進められる。
【0088】
ステップS45において、重み設定部14は、L個の教師データTiのうち、注目していないものが残っているか否かを判定し、注目していないものが残っていると判定した場合、ステップS41に戻って、ステップS41乃至45の処理を繰り返す。
【0089】
そして、ステップS45において、L個の教師データTiのうち、注目していないものが残っていないと判定された場合、L個の教師データTiにそれぞれ対応する重みWiを全て更新したので、処理はステップS46に進められる。
【0090】
ステップS46において、重み設定部14は、L個の教師データTiにそれぞれ対応する更新した重みWiの合計が1となるように正規化する。
【0091】
以上のようにして重みWiが更新されたL個の教師データTiが、次世代の教師データTiとして評価値算出部15に供給される。なお、2世代以降の教師データTiは、実データDiおよび情報Iiに変更はなく、重みWiだけが更新されているので、次世代の教師データTiとして、更新された重みWiだけを評価値算出部15に供給するようにしてもよい。
【0092】
この後、処理は図11のステップS2に戻り、ステップS2乃至S5の処理が繰り返される。この繰り返しにより、教師データTiが更新された世代数と同じ数だけ、弱情報抽出部F(X)tとそれに対応する信頼度Ctが合成部16に供給され、合成部16により、徐々に制度が高められた高精度情報抽出装置1が構築されることになる。
【0093】
そして、ステップS4において、所定の終了条件を満たしていると判定された場合、処理はステップS5に進められる。ステップS5において、合成部16は、直前のステップS3の処理で構築した高精度情報抽出装置1を、最終的な高精度情報抽出装置1として出力する。
【0094】
以上で、本発明の第1の実施の形態である高精度情報抽出装置構築システム10の動作説明を終了する。
【0095】
次に、本発明の第2の実施の形態である高精度情報抽出装置構築システム50の構成例について、図14を参照して説明する。この高精度情報抽出装置構築システム50は、複数の教師データを用いたアンサンブル学習のバッギングによって高精度情報抽出装置1を構築するものである。
【0096】
なお、この高精度情報抽出装置構築システム50と、図3に示された本発明の第1の実施の形態である、アンサンブル学習のブースティングによって高精度情報抽出装置1を構築する高精度情報抽出装置構築システム10との間で共通する構成要素については同一の符号を付しているので、その説明は適宜省略する。
【0097】
この高精度情報抽出装置構築システム50は、m本の特徴量抽出式からなる特徴量抽出式リストを生成、更新する特徴量抽出式リスト生成部11、生成された各特徴量抽出式に教師データの実データを代入して特徴量を計算する特徴量計算部12、教師データを特徴量計算部12と評価値算出部53に供給する教師データ供給部51、特徴量計算部12によって計算された教師データに対応する特徴量と教師データとに基づいて情報抽出式を機械学習により生成するとともに特徴量抽出式リストを構成する各特徴抽出式の評価値を算出する評価値算出部53、および、評価値算出部15から出力されるT個の弱情報抽出部F(X)tとそれに対応する信頼度Ctを用いて高精度情報抽出装置1を構築する合成部54から構成される。
【0098】
特徴量抽出式リスト生成部11は、第1世代の特徴量抽出式リストをランダムに生成する。また、特徴量抽出式リスト生成部11は、第2世代以降の特徴量抽出式リストを、前世代の特徴量抽出式リストを遺伝的アルゴリズムにしたがって更新することにより生成する。生成された特徴量抽出式リストは特徴量計算部12に供給される。
【0099】
特徴量計算部12は、特徴量抽出式リスト生成部11から供給された特徴量抽出式リストを構成する各特徴量抽出式f1乃至fmに、教師データ供給部51から供給される、教師データTi(i=1,2,・・・,J)の実データDiを代入し、教師データTiに対する特徴量を計算し、計算した特徴量を評価値算出部53に供給する。
【0100】
ここで、教師データ供給部51から供給される教師データTiについて説明する。
【0101】
教師データ供給部51は、内蔵するランダムサンプリング部52により、総数L個の教師データTiの中からJ個をランダムに選択して教師データ群を生成し、特徴量計算部12および評価値算出部53に供給する。なお、教師データTiは、入力データXと同じ種類のデータである実データDi、実データDiに対応する情報Iiを有している。情報Iiは、例えば、実データDiの明るさを示すものであり、(明るいか(+1)、明るくないか(−1)の2値情報)であってもよいし、明るさ(その値によって明るさの程度を示す数値情報。例えば、0から5までの値として、0は全く明るくない。5は非常に明るいとする)であってもよい。以下、情報Iiは、+1または−1の2値情報であるとする。
【0102】
さらに、教師データTiには重みWiが設定されている。初期状態において、各教師データTiの重みWiは均一であり、L個の教師データTiの重みWiの合計が1と成るように正規化されている。
【0103】
上述したように、教師データTiの数はJ、特徴量抽出式リストを構成する特徴量抽出式の数はmであるので、特徴量計算部12では、(J×m)個の特徴量が算出されることになる。
【0104】
評価値算出部53は、J個の教師データTiとJ個の特徴量f1[Ti]とに基づき、特徴量抽出式f1の評価値を算出する。
【0105】
なお、情報推定式によって推定しようとする情報Iiが2値情報である場合には、評価値として、J個の教師データTiとJ個の特徴量f1[Ti]とのFDR(fisher discriminant ratio)を算出する。
FDR=((Xの平均)−(Yの平均))2/((Xの標準偏差)−(Yの標準偏差))
ただし、Xは教師データTi、Yは特徴量f1[Ti]を示すものとする。
【0106】
また、情報推定式によって推定しようとする情報Iiが数値情報である場合には、評価値として、J個の教師データTiとJ個の特徴量f1[Ti]とのPearsonの相関係数rを算出する。
r=(XとYの共分散)/((Xの標準偏差)×(Yの標準偏差))
ただし、Xは教師データTi、Yは特徴量f1[Ti]を示すものとする。
【0107】
同様に、評価値算出部53は、特徴量抽出式f2乃至fmの評価値も算出する。ここで算出された特徴量抽出式f1乃至fmの評価値は、特徴量抽出式リスト生成部11に供給されて、次世代の特徴量抽出式リストの生成に利用される。
【0108】
さらに、評価値算出部53は、所定の終了条件が満たされた数世代後(最終世代とする)の特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmのうち、評価値が最も良い特徴量抽出式fiの計算結果であるJ個の特徴量f1[Ti]とJ個の教師データTiとを用いた機械学習により、評価値が最も良い特徴量抽出式fiに対応する情報推定式を決定する。
【0109】
なお、情報推定式は、その出力が2値情報である場合には線形判別などの機械学習によって判別式が決定される。また、その出力が数値情報である場合には線形回帰などの機械学習によって線形結合式が決定される。
【0110】
またさらに、評価値算出部53は、評価値が最も良い特徴量抽出式fiとそれに対応する情報推定式から1つの弱情報抽出部F(X)tを構築して合成部54に供給する。
【0111】
合成部54は、評価値算出部53から供給されている1個以上の弱情報抽出部F(X)tから次式に従って高精度情報抽出装置1(図1)を構築する。
(ΣF(X)t)/t
【0112】
すなわち、合成部54では、複数の弱情報抽出部F(X)tの出力の平均値を出力とする高精度情報抽出装置1が構築されることになる。
【0113】
次に、高精度情報抽出装置構築システム50による動作について、図15のフローチャートを参照して説明する。
【0114】
ステップS61において、教師データ供給部51のランダムサンプリング部52は、予め用意されているL個の教師データTiの中から、ランダムにJ個の教師データTiを選択して教師データ群を生成し、第1世代の教師データ群として特徴量計算部12および評価値算出部53に供給する。
【0115】
ステップS62において、第1世代の教師データ群に対応する弱情報抽出部F(X)1が生成される。ステップS62の処理について、図16のフローチャートを参照して詳述する。
【0116】
ステップS71において、特徴量抽出式リスト生成部11は、m本の特徴量抽出式をランダムに生成し、生成したm本の特徴量抽出式からなる第1世代の特徴量抽出式リストを特徴量計算部12に供給する。
【0117】
ステップS72において、特徴量計算部12は、特徴量抽出式リスト生成部11から供給された特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmを順に1本ずつ注目する特徴量抽出式リストループを開始する。
【0118】
ステップS73において、特徴量計算部12は、注目している特徴量抽出式fjに、現世代の教師データ群を構成するJ個の教師データTiを代入してJ個の特徴量fj[Ti]を計算し、評価値算出部53に出力する。ステップS74において、評価値算出部53は、J個の教師データTiとJ個の特徴量fj[Ti]とに基づき、特徴量抽出式fjに対応する評価値を算出する。ステップS73乃至S74の処理により、注目している特徴量抽出式fjの価値が得られたことになる。
【0119】
ステップS76において、特徴量計算部12は、特徴量抽出式リスト生成部11から供給された特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmのうち、注目してないものが残っているか否かを判定する。そして、注目していない特徴量抽出式が残っていると判定された場合、処理はステップS72に戻り、ステップS72乃至S76の処理が繰り返される。
【0120】
そして、ステップS76において、特徴量抽出式リスト生成部11から供給された特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmのうち、注目してないものが残っていないと判定された場合、m本の特徴量抽出式f1乃至fmにそれぞれ対応する評価値が得られたことになるので、処理はステップS76に進められる。
【0121】
ステップS76において、評価値算出部53は、所定の終了条件を満たしているか否かを判定する。ここで、所定の終了条件としては、例えば、m本の特徴量抽出式f1乃至fmにそれぞれ対応する評価値のうち、最も良い評価値の値が所定の数世代の間、向上していないことなどとすることができる。
【0122】
ステップS76において、所定の終了条件を満たしていないと判定された場合、処理はステップS77に進められる。
【0123】
ステップS77において、評価値算出部53は、現世代の特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmにそれぞれ対応する評価値を特徴量抽出式リスト生成部11に供給する。特徴量抽出式リスト生成部11は、現世代の特徴量抽出式リストを遺伝的アルゴリズムに従って更新することにより、次世代の特徴量抽出式リストを生成して特徴量計算部12に供給する。
【0124】
以上のように、生成された次世代の特徴量抽出式リストが特徴量計算部12に供給された後、処理はステップS72に戻り、ステップS72乃至S77の処理が繰り返される。そして、ステップS76において、所定の終了条件を満たしていると判定された場合、処理はステップS78に進められる。
【0125】
ステップS78において、評価値算出部53は、現世代、すなわち、最終世代の特徴量抽出式リストを構成するm本の特徴量抽出式f1乃至fmのうち、評価値が最も良い特徴量抽出式fiの計算結果であるJ個の特徴量f1[Ti]とJ個の教師データTiとを用いた機械学習により、評価値が最も良い特徴量抽出式fiに対応する情報推定式を決定する。また、評価値算出部53は、評価値が最も良い特徴量抽出式fiとそれに対応する情報推定式から1つ目の弱情報抽出部F(X)1を構築して合成部54に供給する。
【0126】

以上のように、第1世代の教師データ群に対応する1つ目の弱情報抽出部F(X)1が構築され後、処理は図15のステップS63に戻される。
【0127】
ステップS63において、合成部54は、現時点までに評価値算出部53から供給されている1個以上の弱情報抽出部F(X)tを合成する(出力の平均を演算する)ことにより、高精度情報抽出装置1を構築する。
【0128】
ステップS64において、合成部54は、所定の終了条件を満たしているか否かを判定する。ここで、所定の終了条件としては、例えば、所定の数Tだけ弱情報抽出部F(X)tが評価値算出部53から供給されていること、高精度情報抽出装置1が所望の精度に達していること、またはユーザから終了が指示されたことのうち、少なくとも1つが満たされていることなどとすることができる。
【0129】
ステップS64において、所定の終了条件を満たしていないと判定された場合、処理はステップS61に戻される。そして、ステップS61乃至64の処理が繰り返される。
【0130】
この繰り返し毎、順次、次世代以降の教師データ群が生成されて、それに対応する弱情報抽出部F(X)tが合成部54に供給され、合成部54により、徐々に制度が高められた高精度情報抽出装置1が構築されることになる。
【0131】
そして、ステップS64において、所定の終了条件を満たしていると判定された場合、処理はステップS65に進められる。ステップS65において、合成部54は、直前のステップS63の処理で構築した高精度情報抽出装置1を、最終的な高精度情報抽出装置1として出力する。
【0132】
以上で、本発明の第2の実施の形態である高精度情報抽出装置構築システム50の動作説明を終了する。
【0133】
以上説明したように、本発明を適用した高精度情報抽出装置構築システム10および50によれば、アンサンブル学習における弱情報抽出部を、遺伝的アルゴリズムを用いて生成することができる。
【0134】
また、本発明を適用した高精度情報抽出装置構築システム10および50によれば、任意の種類の入力データXから高い精度で情報を抽出することができる高精度情報抽出装置を構築することができる。
【0135】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0136】
図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0137】
このコンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
【0138】
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどの着脱可能な記録媒体111を駆動するドライブ110が接続されている。
【0139】
以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
【0140】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0141】
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
【0142】
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
【0143】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【図面の簡単な説明】
【0144】
【図1】アンサンブル学習による高精度情報抽出装置を説明する図である。
【図2】図1の高精度情報抽出装置における弱情報抽出部の構成を説明する図である。
【図3】本発明の第1の実施の形態である高精度情報抽出装置構築システムの構成例を示すブロック図である。
【図4】特徴量抽出式の例を示す図である。
【図5】特徴量抽出式の構成を説明する図である。
【図6】特徴量抽出式リストの例を示す図である。
【図7】遺伝的アルゴリズムを説明するための図である。
【図8】教師データのデータ構造を示す図である。
【図9】図3の特徴量計算部によって計算される特徴量の例を示す図である。
【図10】特徴量抽出式に対応する情報推定式(閾値)、および評価値の決定方法を説明するための図である。
【図11】図3の高精度情報抽出装置構築システムによる動作を説明するフローチャートである。
【図12】図11のステップS2の処理を説明するフローチャートである。
【図13】図11のステップS5の処理を説明するフローチャートである。
【図14】本発明の第2の実施の形態である高精度情報抽出装置構築システムの構成例を示すブロック図である。
【図15】図14の高精度情報抽出装置構築システムによる動作を説明するフローチャートである。
【図16】図15のステップS62の処理を説明するフローチャートである。
【図17】コンピュータの構成例を示すブロック図である。
【符号の説明】
【0145】
10 高精度情報抽出装置構築システム, 11 特徴量抽出式リスト生成部, 12 特徴量計算部, 13 教師データ供給部, 14 重み設定部, 15 評価値算出部, 16 合成部, 50 高精度情報抽出装置構築システム, 51 教師データ供給部, 52 ランダムサンプリング部, 53 評価値算出部, 54 合成部, 101 CPU, 111 記録媒体

【特許請求の範囲】
【請求項1】
入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置において、
複数の演算子から成る特徴量抽出式を複数含む特徴量抽出式リストを、前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新することにより生成する特徴量抽出式リスト生成手段と、
前記特徴量抽出式リストに含まれる各特徴量抽出式に、実データ、前記実データの特徴を示す情報、および重みからなる教師データの実データを入力して、前記実データに対応する複数の特徴量を計算する特徴量計算手段と、
計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記特徴量抽出式リストに含まれる各特徴量抽出式にそれぞれ対応する情報抽出部候補を生成するとともに、生成した前記情報抽出部候補によって正しく推定された教師データの重みを用いて各特徴量抽出式にそれぞれ対応する評価値を算出し、最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式に対応する前記情報抽出部候補を、前記アンサンブル学習における1つの前記情報抽出部に決定して、決定した前記情報抽出部によって間違って推定された教師データの重みを用いて、決定した前記情報抽出部の信頼度を算出する評価値算出手段と、
決定された前記情報抽出部の前記信頼度を用いて、教師データの重みを更新する更新手段と
を含むことを特徴とする情報処理装置。
【請求項2】
複数の前記情報抽出部を、前記情報抽出部の前記信頼度に基づいて合成することにより、前記高精度情報抽出部を構築する合成手段を
さらに含むことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置の情報処理方法において、
複数の演算子から成る特徴量抽出式を複数含む第1世代の特徴量抽出式リストをランダムに生成し、
前記特徴量抽出式リストに含まれる各特徴量抽出式に、実データ、前記実データの特徴を示す情報、および重みからなる教師データの実データを入力して、前記実データに対応する複数の特徴量を計算し、
計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記特徴量抽出式リストに含まれる各特徴量抽出式にそれぞれ対応する情報抽出部候補を生成するとともに、生成した前記情報抽出部候補によって正しく推定された教師データの重みを用いて各特徴量抽出式にそれぞれ対応する評価値を算出し、
前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の前記評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新し、
最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式に対応する前記情報抽出部候補を、前記アンサンブル学習における1つの前記情報抽出部に決定して、
決定した前記情報抽出部によって間違って推定された教師データの重みを用いて、決定した前記情報抽出部の信頼度を算出し、
決定された前記情報抽出部の前記信頼度を用いて、教師データの重みを更新する
ステップを含むことを特徴とする情報処理方法。
【請求項4】
入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置の制御用のプログラムであって、
複数の演算子から成る特徴量抽出式を複数含む第1世代の特徴量抽出式リストをランダムに生成し、
前記特徴量抽出式リストに含まれる各特徴量抽出式に、実データ、前記実データの特徴を示す情報、および重みからなる教師データの実データを入力して、前記実データに対応する複数の特徴量を計算し、
計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記特徴量抽出式リストに含まれる各特徴量抽出式にそれぞれ対応する情報抽出部候補を生成するとともに、生成した前記情報抽出部候補によって正しく推定された教師データの重みを用いて各特徴量抽出式にそれぞれ対応する評価値を算出し、
前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の前記評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新し、
最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式に対応する前記情報抽出部候補を、前記アンサンブル学習における1つの前記情報抽出部に決定して、
決定した前記情報抽出部によって間違って推定された教師データの重みを用いて、決定した前記情報抽出部の信頼度を算出し、
決定された前記情報抽出部の前記信頼度を用いて、教師データの重みを更新する
ステップを含む処理を情報処理装置のコンピュータに実行させることを特徴とするプログラム。
【請求項5】
入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置において、
実データ、および前記実データの特徴を示す情報からなる教師データをランダムに選択する選択手段と、
複数の演算子から成る特徴量抽出式を複数含む特徴量抽出式リストを、前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新することにより生成する特徴量抽出式リスト生成手段と、
前記特徴量抽出式リストに含まれる各特徴量抽出式に、前記教師データの実データを入力して、前記実データに対応する複数の特徴量を計算する特徴量計算手段と、
各特徴量抽出式にそれぞれ対応する評価値として、各特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量を用いて、前記教師データの前記実データに対応する前記情報を推定した場合の精度を算出し、最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記アンサンブル学習における1つの前記情報抽出部を生成する評価値算出手段と
を含むことを特徴とする情報処理装置。
【請求項6】
複数の前記情報抽出部を合成することにより、前記高精度情報抽出部を構築する合成手段を
さらに含むことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置の情報処理方法において、
実データ、および前記実データの特徴を示す情報からなる教師データをランダムに選択し、
複数の演算子から成る特徴量抽出式を複数含む第1世代の特徴量抽出式リストをランダムに生成し、
前記特徴量抽出式リストに含まれる各特徴量抽出式に、前記教師データの実データを入力して、前記実データに対応する複数の特徴量を計算し、
各特徴量抽出式にそれぞれ対応する評価値として、各特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量を用いて、前記教師データの前記実データに対応する前記情報を推定した場合の精度を算出し、
前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の前記評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新し、
最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記アンサンブル学習における1つの前記情報抽出部を生成する
ステップを含むことを特徴とする情報処理方法。
【請求項8】
入力データの特徴を示す情報を抽出する複数の情報抽出部の出力を合成して、前記情報抽出部よりも高精度で前記入力データの特徴を示す情報を抽出する高精度情報抽出部を構築するアンサンブル学習における前記情報抽出部を生成する情報処理装置の制御用のプログラムであって、
実データ、および前記実データの特徴を示す情報からなる教師データをランダムに選択し、
複数の演算子から成る特徴量抽出式を複数含む第1世代の特徴量抽出式リストをランダムに生成し、
前記特徴量抽出式リストに含まれる各特徴量抽出式に、前記教師データの実データを入力して、前記実データに対応する複数の特徴量を計算し、
各特徴量抽出式にそれぞれ対応する評価値として、各特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量を用いて、前記教師データの前記実データに対応する前記情報を推定した場合の精度を算出し、
前世代の前記特徴量抽出式リストに含まれる複数の特徴量抽出式を遺伝子とみなし、前記特徴量抽出式の前記評価値に基づいた遺伝的アルゴリズムを用いて前世代の前記特徴量抽出式リストを更新し、
最終世代の前記特徴量抽出式リストに含まれる特徴量抽出式のうちで前記評価値が最も良い特徴量抽出式を用いて計算された前記教師データの前記実データに対応する前記複数の特徴量から、前記教師データの前記実データに対応する前記情報を推定する機械学習により、前記アンサンブル学習における1つの前記情報抽出部を生成する
ステップを含む処理を情報処理装置のコンピュータに実行させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate