説明

予測器選択装置、予測器選択方法、予測器選択プログラム

【課題】非対称な類似関係に対して最適な予測器を選択可能とする。
【解決手段】クラスタ表現DB10には、各訓練クラスタの特徴表現が保存されている。変換行列DB40には、訓練クラスタの組毎にDB10の特徴表現の変換後における非対称の類似度を最大化する変換行列が保存されている。類似度計算部50は、入力されたテストクラスタの特徴表現をDB40の変換行列にて変換する。変換されたテストクラスタの特徴表現とDB10に保存された各特徴表現との類似度を算出し、該類似度が最大の訓練クラスタのIDを予測器選択部70に送る。予測器選択部70は、受け取ったIDのクラスタから生成される予測器を予測器DB60から選択し、選択された予測器を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストや画像などの高次元のベクトルで表現できる情報を用いて予測(例えば分類やランキングなど)を行う技術に関する。
【背景技術】
【0002】
周知のようにテキストや画像などのデータを高次元ベクトルで表現し、クラスを予測するにあたってはクラスタ毎に生成した予測器(モデル)が利用されている。その際には、同じ特性を持った訓練データをひとつのクラスタ(訓練クラスタ)にまとめることで訓練データを複数のクラスタに分割し、それぞれのクラスタに含まれる訓練データを用いて予測器を生成し、入力されたテストデータ群(テストクラスタ)に対して適切な予測器を選択的に利用する予測方式が有効である。
【0003】
この方式において、予測器を生成したクラスタの選択方式としては、図4および図5に示すように、テストクラスタに対しては各モデルの性能を評価できないためテストクラスタに対する類似度が最大の訓練クラスタを選択し、選択された訓練クラスタの生成したモデルをテストクラスタに適用する方法が知られている。
【0004】
そして、従来は、非特許文献1に示すように、訓練データを用いてテクストクラスタに対して最良の性能を示すモデルを生成するクラスタの類似度を最大化するような特徴空間に変換するための変換行列を生成し、訓練クラスタの選択精度を向上させている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Eric P.Xing, Andrew Y. Ng, Michael I. Jordan, Stuart Russell ”Distance Metric Learning with Application to Clustering with Side-Information” Proceedings of the 16th annual conference on Neural Information Processing Systems (NIPS ’02), pp.505≡512, 2002.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、最適な予測器は、与えられたクラスタに含まれるデータに対する予測器の性能によって評価されることから、図6に示すように、テストクラスタCDの最適な予測を行う予測器MBを生成する訓練クラスタMBに対して、テストクラスタCDから生成された予測器MDが最適であるとは限らない。このような場合の予測器選択にあってはクラスタ間の類似度は対称ではない。
【0007】
ところが、従来は、特許文献1のようにクラスタ間の類似度として対称な類似度の距離尺度を用いているため、非対称な類似関係に対してクラスタ間の類似度を最適化することができず、テストクラスタに対して最適な予測器を選択できないおそれがある。
【0008】
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、非対称な類似関係に対して最適な予測器を選択可能とする技術の提供を解決課題としている。
【課題を解決するための手段】
【0009】
そこで、本発明は、事前に訓練データに基づき非対称な類似度を最大とする変換行列を生成し、生成された変換行列を利用して入力されたテストクラスタの予測器を選択する。
【0010】
本発明に係る予測器選択装置の一態様は、訓練クラスタの特徴表現を保存するクラスタ表現データベースと、訓練クラスタ間の非対称な類似度を最大化する変換行列を保存する変換行列データベースと、テストクラスタの特徴表現を変換行列データベースに保存された変換行列にて変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算手段と、類似度計算手段にて特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択手段と、を備える。
【0011】
本発明に係る予測器選択装置の他の態様は、訓練クラスタの特徴表現を保存するクラスタ表現データベースと、訓練クラスタ毎に最適な予測器を生成する訓練クラスタをクラスタ組として保存する最適情報データベースと、最適情報データベースのクラスタ組の特徴表現をクラスタ表現データベースから取得し、一方の訓練クラスタの特徴表現を変換後にクラスタ組の非対称の類似度を最大化する変換行列を生成する変換行列生成手段と、変換行列生成手段の生成した変換行列にてテストクラスタの特徴表現を変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算手段と、類似度計算手段にて特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択手段と、を備える。
【0012】
本発明に係る予測器選択方法の一態様は、テストクラスタの特徴表現を、変換行列データベースに保存された訓練クラスタ間の非対称な類似度を最大化する変換行列にて変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との前記類似度を算出し、前記類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算ステップと、該特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択ステップと、を有する。
【0013】
本発明に係る予測器選択方法の他の態様は、訓練クラスタ毎に最適な予測器を生成する訓練クラスタをクラスタ組として保存する最適情報データベースのクラスタ組の特徴表現を、訓練クラスタの特徴表現を保存するクラスタ表現データベースから取得し、一方の訓練クラスタの特徴表現を変換後にクラスタ組の非対称の類似度を最大化する変換行列を生成する変換行列生成ステップと、該生成された変換行列にてテストクラスタの特徴表現を変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算ステップと、該特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択ステップと、を有する。
【0014】
前記予測器の選択にあたっては、各訓練クラスタから生成された予測器を保存する予測器データベースから選択することもできる。なお、本発明は、前記各装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。
【発明の効果】
【0015】
本発明によれば、非対称な類似関係に対して最適な予測器を選択することができる。
【図面の簡単な説明】
【0016】
【図1】本発明の実施形態に係る予測器選択装置の構成図。
【図2】同 変換行列生成装置の構成図。
【図3】同 類似度計算部の処理を示すフローチャート。
【図4】クラスタ毎に生成した予測器の選択を示す説明図1。
【図5】同 説明図2
【図6】クラスタ間の類似度が非対称な状態を示す説明図。
【発明を実施するための形態】
【0017】
図1および図2に基づき本発明の実施形態に係る予測器選択装置を説明する。この選択装置1は、非対称な類似度(Asymmetric Similarity)に対して該類似度を最大とする変換行列を生成する変換行列生成装置2を備え、クラスの予測にあたって変換行列生成装置2で生成された変換行列を利用して入力されたテストクラスタの最適な予測器を選択する。
【0018】
具体的には、前記選択装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU.メモリ(RAM).ハードディスクドライブ装置などを備える。このハードウェアリソースとソフトウェアリソース(OS.アプリケーションなど)との協働の結果、前記選択装置1は、図1および図2に示すように、クラスタ表現DB10,最適予測器情報DB20,変換行列生成部(変換行列生成装置2に相当する。)30,変換行列DB40,類似度計算部50,予測器DB60,予測器選択部70を実装する。
【0019】
ここでは各DB10.20.40.60は、メモリ(RAM)やハードディスクドライブ装置などの記憶装置に構築されているものとする。この各部10〜70によれば、事前に作成された前記変換行列を保存する変換行列作成ステージと、保存された前記変換行列にて入力されたテクストクラスタの前記類似度を最大とする予測器を選択する予測器選択ステージとが実行される。
【0020】
すなわち、クラスタ表現DB10には訓練クラスタの特徴表現(特徴ベクトル)が保存され、最適予測器情報DB20には訓練クラスタ組、即ち訓練クラスタ毎に最適な予測器を生成するクラスタがペアで保存されている。このとき変換行列作成ステージでは、変換行列生成部30が、図2に示すように、前記DB20のクラスタ組のクラスタ表現データベースに保存された特徴表現を取得し、一方の特徴変換後に前記クラスタ組の非対称の類似度を最大化する変換行列を生成する。生成した変換行列を変換行列DB40に保存する。
【0021】
また、予測器選択ステージでは、類似度計算部50が、図1に示すように、入力されたテストクラスタの特徴表現を前記DB40の変換行列にて変換する。変換されたテストクラスタの特徴表現と、前記DB10に保存された各特徴表現との前記類似度を算出する。算出された類似度が最大の訓練クラスタをテストクラスタにとって最適な予測器を生成するクラスタと特定する。
【0022】
予測器選択部70は、各訓練クラスタから生成された予測器のパラメータを保存する前記DB60から予測器を選択する。すなわち、前記DB60を参照して類似度計算部50にて特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する。以下、各ステージの詳細を説明する。
【0023】
≪変換行列生成ステージ≫
変換行列生成部30は、前記DB10.20を参照してその保存データを入力として受け取る。表1は、前記DB10のデータ構造例を示している。ここでは「c1,c2,...,cN」が訓練クラスタのクラスタIDを示し、各行がそれぞれの訓練クラスタの特徴表現を示している。なお、表1のデータ構造例では、訓練各クラスタの特徴がM次元の特徴ベクトル「x1,x2,...,xM」で表現され、i行j列目の値は訓練クラスタciのj番目の特徴値を示している。
【0024】
【表1】

【0025】
表2は、前記DB20のデータ構造例を示し、テストクラスタIDはテストクラスタに擬制された訓練クラスタのIDを示している。すなわち、ある訓練クラスタをテストクラスタと擬制し、その他の訓練クラスタのうち最良の予測性能を示した予測器を生成する訓練クラスタが最適予測器生成クラスタとして選択されている。ここで選択された訓練クラスタのIDが、テストクラスタに擬制された訓練クラスタのクラスタID毎に記述されている。
【0026】
【表2】

【0027】
ここで変換行列生成部30は、表1.2のような前記DB10.20の保存データを入力として受け取ると、前記DB20に保存されたクラスタ組「テストクラスタ(ID):最適予測器生成クラスタ(ID)」の特徴表現を前記DB10の保存データから取得する。ここで取得されたテストクラスタの特徴表現の変換後にクラスタ組「テストクラスタ(ID):最適予測器生成クラスタ(ID)」の類似度を最大化するような変換行列を生成し、生成された変換行列を前記DB40に保存する(変換行列生成ステップ)。
【0028】
この類似度は、図6に示すような非対称の類似度を意味し、例えば一般化カルバックライブラーダイバージェンス「Generalized Kullback−Leibler divergence(gkld)」を用いることができる。この一般化カルバックライブラーダイバージェンスは式(1)で与えられる。
【0029】
【数1】

【0030】
ここで「0≧p,q」が必要であるため、訓練クラスタの特徴表現xに対するテストクラスタ(テストクラスタに擬制された訓練クラスタ)の特徴表現yを、「p=exp(x),q=exp(y)」とすることにより、あらゆる実数値を扱うことができる。この際に訓練クラスタの特徴表現xに対するテストクラスタの特徴表現yは式(2)にしたがって算出できる。
【0031】
【数2】

【0032】
この式(2)を、変換行列Wを用いてテストクラスタの特徴表現を特徴変換「y→yTi」した後の類似度は式(3)で計算することができる。ここで「G(x,y)」の二乗を損失関数とすると「wi」の推定値は式(4)にしたがって求めることができる。
【0033】
【数3】

【0034】
【数4】

【0035】
この推定値の計算には、損失関数の勾配情報を用いて最急降下法、ニュートン法、BFGS「Broyden−Fletcher−Goldfarb−Shanno」法などの非線形最適化手法などを用いるとことができる。なお、式(1)〜(4)はプログラムなどに定義されているものとする。
【0036】
≪予測器選択ステージ≫
(1)類似度計算部50
類似度計算部50は、入力されたテクストクラスタと前記DB10.40の保存データを入力として受け取る。ここでは前記DB40の変換行列を用いて入力されたテストクラスタの特徴表現を変換し、前記DB10の訓練クラスタ特徴との前記類似度を計算する。この類似度が最大の訓練クラスタを前記DB10中から探索し、探索された訓練クラスタを最適な予測器を生成するクラスタとしてクラスタIDを出力する。
【0037】
図3に基づき処理内容を詳述すれば、テストクラスタが図示省略の入力部に入力されると類似度計算部50の処理が開始される。処理が開始されると、まず、メモリ(RAM)に記憶された「最大類似度smax」・「最適クラスタcbest」を初期化する(S01)。この初期化は「smax←0」および「cbest←NONE」に書き換えることで実行される。
【0038】
つぎに前記DB40から変換行列wiを取得し、入力されたテストクラスタctestの特徴表現を特徴変換「y→yTi」する(S02)。この変換後に前記DB10の保存データ中にS05以下を未処理のクラスタckが存在するか否かを確認する(S03)。
【0039】
この確認の結果、未処理のクラスタckが存在すれば、入力テストクラスタctestのクラスタckに対する類似度skを算出する(S06)。類似度skの算出には式(3)を用いればよい。ここで算出された類似度skが最大値「smax」よりも大きいか否か、即ち「sk>smax」が成立するか否かが確認され(S06)、成立しなければS03に戻る一方、成立すればS07に進む。S07では、メモリ(RAM)に記憶された「最大類似度smax」・「最適クラスタcbest」を書き換える。ここでは「最大類似度smax」をS06で算出された類似度skに更新「smax←sk」し、最適な予測器を生成するクラスタとして当該クラスタckを記憶「cbest←ck」する。
【0040】
このS07の処理後にS03に戻って前記DB10の保存データ中に未処理のクラスタckが存在しなくなるまでS05〜S07が繰り返され、該クラスタckが無くなればメモリ(RAM)に記憶された「最適クラスタcbest」のクラスタIDを予測器選択部70に出力し、処理を終了する。
【0041】
(2)予測器選択部70
予測器選択部70は、類似度計算部50から「最適クラスタcbest」のクラスタIDを受け取ると、前記DB60を参照して最適予測器を図示省略の出力部を通じてモニタなどに出力する。
【0042】
【表3】

【0043】
表3は、前記DB60のデータ構造例を示し、各訓練クラスタから生成された予測器のパラメータが格納されている。ここでは線形モデル予測器におけるパラメータのデータ構造が示されているが、これに限定されずにあらゆる学習アルゴリズムを用いて生成された予測器の情報を前記DB60に保存することができる。具体的には、表3のデータ構造例中、「c1,c2,...,cN」が訓練クラスタのクラスタIDを示し、各行がそれぞれの訓練クラスタの特徴表現に対する重みを示し、i行j番目の値は訓練クラスタciのj番目の特徴に対する重みの値を示している。
【0044】
そして、予測器選択部70は、類似度計算部50から出力されたクラスタIDの予測器を前記DB60の保存データから選択し、選択された予測器を出力する。出力された予測器は、例えばテキストや画像とった高次元ベクトルで表現できる情報の予測(分類やランキング)に利用される。
【0045】
このように前記選択装置1によれば、非対称な類似度指標(例えば一般カルバックライブラーダイバージェンス)に基づいてクラスタに対して最適な予測器を生成するクラスタの類似度を最大化する変換行列を生成して前記DB40に保存される。この保存データに基づき入力テストクラスタと前記DB10の訓練クラスタとの類似度を計算し、該類似度が最大の訓練クラスタのクラスタIDが予測器選択部70に出力されることから、入力テストクラスタに対する予測器選択の精度が向上する。これにより入力テストクラスタに含まれるデータの予測制度を向上させることができる。
【0046】
なお、本発明は、上記実施形態に限定されるものではなく、装置構成などは各請求項に記載された範囲内で変形することができる。例えば変換行列生成装置2(変換行列生成部30)は、必ずしも予測器選択装置1内に組み込まれている必要はなく、別個の装置として構成してもよい。この場合には前記DB20.40は、それぞれの装置1.2にて共有して備えればよい。
【0047】
≪プログラムなど≫
本発明は、予測器選択装置1(変換行列生成装置2を含む。)の各部10.20.30.40.50.60.70の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、前記各ステージの一部あるいは全部の処理をコンピュータに実行させることが可能となる。
【0048】
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
【符号の説明】
【0049】
1…予測器選択装置
2…変換行列生成装置
10…クラスタ表現DB(クラスタ表現データベース)
20…最適予測器情報DB(クラスタ表現データベース)
30…変換行列生成部(変換行列生成手段)
40…変換行列DB(変換行列データベース)
50…類似度計算部(類似度計算手段)
60…予測器DB(予測器データベース)
70…予測器選択部(予測器選択手段)

【特許請求の範囲】
【請求項1】
高次元ベクトルで表現できる情報のクラスを予測するにあたって、訓練データを訓練クラスタに分割して予測器を生成し、入力されるテストクラスタに対して適切な予測器を選択する予測器選択装置であって、
訓練クラスタの特徴表現を保存するクラスタ表現データベースと、
訓練クラスタ間の非対称な類似度を最大化する変換行列を保存する変換行列データベースと、
テストクラスタの特徴表現を変換行列データベースに保存された変換行列にて変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算手段と、
類似度計算手段にて特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択手段と、
を備えることを特徴とする予測器選択装置。
【請求項2】
高次元ベクトルで表現できる情報のクラスを予測するにあたって、訓練データを訓練クラスタに分割して予測器を生成し、入力されるテストクラスタに対して適切な予測器を選択する予測器選択装置であって、
訓練クラスタの特徴表現を保存するクラスタ表現データベースと、
訓練クラスタ毎に最適な予測器を生成する訓練クラスタをクラスタ組として保存する最適情報データベースと、
最適情報データベースのクラスタ組の特徴表現をクラスタ表現データベースから取得し、一方の訓練クラスタの特徴表現を変換後にクラスタ組の非対称の類似度を最大化する変換行列を生成する変換行列生成手段と、
変換行列生成手段の生成した変換行列にてテストクラスタの特徴表現を変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算手段と、
類似度計算手段にて特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択手段と、
を備えることを特徴とする予測器選択装置。
【請求項3】
各訓練クラスタから生成された予測器を保存する予測器データベースをさらに備え、
予測器選択手段は、類似度計算手段にて特定されたクラスタから生成された予測器を予測器データベースから選択する
ことを特徴とする請求項1または2のいずれか1項に記載の予測器選択装置。
【請求項4】
高次元ベクトルで表現できる情報のクラスを予測するにあたって、訓練データを訓練クラスタに分割して予測器を生成し、入力されるテストクラスタに対して適切な予測器を選択する装置の実行する予測器選択方法であって、
テストクラスタの特徴表現を、変換行列データベースに保存された訓練クラスタ間の非対称な類似度を最大化する変換行列にて変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との前記類似度を算出し、前記類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算ステップと、
該特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択ステップと、
を有することを特徴とする予測器選択方法。
【請求項5】
高次元ベクトルで表現できる情報のクラスを予測するにあたって、訓練データを訓練クラスタに分割して予測器を生成し、入力されるテストクラスタに対して適切な予測器を選択する装置の実行する予測器選択方法であって、
訓練クラスタ毎に最適な予測器を生成する訓練クラスタをクラスタ組として保存する最適情報データベースのクラスタ組の特徴表現を、訓練クラスタの特徴表現を保存するクラスタ表現データベースから取得し、一方の訓練クラスタの特徴表現を変換後にクラスタ組の非対称の類似度を最大化する変換行列を生成する変換行列生成ステップと、
該生成された変換行列にてテストクラスタの特徴表現を変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算ステップと、
該特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択ステップと、
を有することを特徴とする予測器選択方法。
【請求項6】
予測器選択ステップは、類似度計算ステップで特定されたクラスタから生成された予測器を、各訓練クラスタから生成された予測器を保存する予測器データベースから選択する
ことを特徴とする請求項4または5のいずれか1項に記載の予測器選択方法。
【請求項7】
請求項1〜3のいずれか1項に記載の予測器選択装置の各手段としてコンピュータを機能させる予測器選択プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−173793(P2012−173793A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−32316(P2011−32316)
【出願日】平成23年2月17日(2011.2.17)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】