説明

実験データの分布状階層的発展型モデリングと可視化の方法

【課題】情報エントロピーの概念を一般化して、部分集合同定の予測精度を改善する。
【解決手段】前に取得されたデータに基づく実験型モデリングシステムを創るための実験データの分布状階層的発展型モデルを創る方法と機械可読記憶媒体。該データは該システムへの入力と該システムからの対応する出力とを表す。該方法と機械可読記憶媒体は、次ぎに取得される入力からシステム出力を精確に予測するために、情報理論と熱力学の原理に基づくエントロピー関数を使用する。該方法と機械可読記憶媒体とは、混乱したシステムであるように見えるものの下にある秩序、又は構造を顕わすためにデータ集合の最も情報豊富な(すなわち、最適な)表現を同定する。発展型プログラミングはデータの最適表現を同定するため使用される1方法である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は”対象(objects)”の階層(hierarchy)、例えば、フイーチャー(
features)、モデル(models)、フレームワーク(frameworks)、そしてスーパ
ーフレームワーク(super-frameworks)、を創るために、データの画像的表現の
概念を情報理論(information theory)からの概念と組み合わせる。本発明はシ
ステムの実験型モデルを、前に取得されたデータ、すなわち、該システムへの入
力と該システムからの対応する出力を表すデータ、に基づいて創る方法と機械可
読記憶媒体(machine readable storage medium)とに関する。次いで該モデル
は次の取得入力からシステム出力を精確に予測するため使われる。本発明の方法
と機械可読記憶媒体は情報理論と熱力学の原理に基づく、エントロピー関数を使
用し、該方法は複雑な、多元処理(nulti-dimensional process)のモデリング
に特に好適である。本発明の方法はカテゴリー的モデリング(categorical mode
ling)、すなわち、出力変数が離散的状態(discrete states)をとる場合、及
び定量的モデリング、すなわち、出力変数が連続的な場合、の両者に使用出来る
。本発明の方法は、外見には混乱したシステムであるように見えるものの下にあ
る順序、又は構造を顕わすために、データ集合の最適表現、すなわち最も情報豊
富な表現(most information-rich representation)を同定(identifies)する
。発展型プログラミング(evolutionary programming)の使用は最適表現を同定
する1方法である。該方法は多元的フイーチャー空間(multi-dimensional feat
ure spaces)の情報コンテント(information content)を特徴付ける中でロー
カル及びグローバルの両情報メザー(both local and global information meas
ure)のその使用により際だっている。実験はローカル情報メザーがモデルの予
測能力(predictive capability)を支配することを示した。かくして、全体の
データ集合上でのグローバルな最適化を主として使う、多くの他の方法と対照的
に、本方法はグローバルに影響されるが、ローカルに最適化される技術、として
説明出来る。
【背景技術】
【0002】
情報理論
システムの情報コンテントを説明するためにエントロピー関数(entropy func
tion)を使用する思想は、彼のパイオニヤ的業績、1948年発行の、ベルシス
テムテクニカルジャーナル(Bell System Technical Journal)、27,379
−423,623−656、”通信の数学的理論(A Mathematical Theory of C
ommunication)”でシー.イー.シャノン(C. E. Shannon)により初めて導入
された。シャノンは統計力学での対応する定義と形式的に同様なエントロピーの
定義が起こり得るイベントの総体(ensemble)内での特定のイベントの選択から
得られる情報を測定するため使用出来ることを示した。シャノンのエントロピー
関数は下記で表され、
【0003】
【数1】

【0004】
ここでpkは第k番目のイベントの発生確率を示し、ユニークに下記3条件を満
足する、
1.H(p1,...,pn)はk=1,...,nでpk=1/nで最大となる
。これは均一な確率分布が最大エントロピーを有することを意味する。加えて、
max(1/n、1/n,...,1/n)=ln n。従って、均一確率分布
のエントロピーは起こり得る状態の数と共に対数的に縮尺(scales)する。
2.H(AB)=H(A)+HA(B)ここでAとBは2つの有限スキーム(fin
ite schemes)である。H(AB)はスキームAとBの全エントロピーを表し、
A(B)はスキームBを与えられたスキームAの条件的エントロピーである。
該2つのスキーム分布が相互に独立の時、HA(B)=H(B)である。
3.H(p1,p2,...,pn、0)=H(p1,p2,...,pn)。スキー
ム内の発生確率ゼロのどんなイベントもエントロピー関数を変化させない。
【0005】
シャノンの仕事は1次元の電気信号の情報コンテントを説明することに向けら
れた。1998年に、ケンブリッジ大学プレス(Cambridge University Press)
で発行された彼の本、フイッシャー情報からの物理学:ユニフイケーション(Ph
ysics from Fisher Information: A Unification)で、ロイフリーデン(Roy Fr
ieden)は”シャノンエントロピー(Shannon Entropy)”を全体のデータ集合間
のグローバルな情報メザーとして説明している。”フイッシャーエントロピー(
Fisher entropy)”として知られる、代わりの情報メザーも又データ集合間のロ
ーカルな情報の測定量としてフリーデンにより説明されている。数学的モデル化
で、フリーデンはフイッシャーエントロピーが物理的法則を発見するために特に
好適であることを最近示した。
【0006】
より最近に、テー.ニシ(T. Nishi)はどんなデータ集合にも適用出来る、正
規化された”情報エントロピー”関数を規定するために該シャノンのエントロピ
ー関数を使用した。1991年、京都、325、材料の機械的挙動に関する国際
会議論文集(Proceedings of the Intenational Conference on 'Mechanical Be
haviour of Materials VI')、ハヤシ、テー.及びニシ、テー.(Hayashi, T.
and Nishi, T.)著、”ポリマーアロイの形態学と物理的特性(Morphology and
Physical Properties of Polymer Alloys)”、参照。1992年発行、高分子
論文集(Kobunshi Ronbunshu)、49(4)、373−82、ハヤシ、テー.、
ワタナベ、エイ.、タナカ、エイチ.及びニシ、テー.(Hayashi, T., Watanab
e, A., Tanaka, H. and Nishi, T.)著、”3成分不相溶性ポリマーアロイの形
態学と物理的特性(Morphology and Physical Properties of Three-Components
Incompatible Polymer Alloys)”参照。
【0007】
ニシの定義は次ぎの様に抄録されるが、nのデータ要素(data elements)を
有するデータ集合(data set)D={d1,...,dn}を考える。もし全要素
の和dtotが次の様に定義されるならば、
【0008】
【数2】

【0009】
totは、
【0010】
【数3】

【0011】
の様に該データ要素の各々を正規化(normalize)するため使用出来る。
次いで、情報エントロピー関数(informational entropy function)、Eを次の
様に規定することが出来る、
【0012】
【数4】

【0013】
該エントロピー関数Eはそれが0と1の間に正規化される有用な特性(proper
ty)を有する。fi=1/nの、完全に均一な分布(perfectly uniform distrib
ution )は1のE値となる。該分布がより不均一になるにつれ、Eの値は低下し
漸近的にゼロに近付く。該ニシの情報エントロピー関数Eの顕著な利点はそれが
分布の形状に無関係にどんな分布の均一性も特徴付けることである。対照的に、
普通使用される”標準偏差(standard deviation)”はガウス分布(Gaussian d
isribution)用でのみ標準的統計(standard distribution)に入ると通常解釈
される。
【0014】
ニューラルネットワーク(neural networks)、統計的回帰(statistical reg
ression)、決定木法(decision tree methods)の様な従来技術の方法は或る本
質的限定を有する。ニューラルネットワークと他の統計的回帰方法はカテゴリー
的モデリングに使用されて来たが、それらは、該ネットワークのノード内で使用
される連続非線形シグモイド関数(continuous non-linear sigmoid function)
のために、定量的モデル化に遙かにより適合し、より良く動作する。決定木は、
連続的出力値に関する精確な定量的予測をする能力に欠けるためにカテゴリー的
モデリングに最も良く適合している。
【発明の概要】
【0015】
本発明は情報エントロピーの概念を一般化し、それらの概念を多次元データ集
合へ延長している。特に、シャノンにより表明された情報エントロピーの定量化
は修正され、1つ以上の入力、又はフイーチャー、と1つ以上の出力とを有する
システムから得られたデータに適用される。情報豊富(information-rich)であ
りかくして該システム出力(含む複数)の予測に有用なデータ入力の種々の部分
集合(subset)、又はフイーチャーの部分集合を同定(identify)するためにエ
ントロピー定量化(entropy quantification)が行われる。又該エントロピー定
量化は情報豊富な種々のフイーチャー部分集合内で領域(region)、又はセル(
cell)を同定する。該セルは固定的又は適合的なビニング過程(binning proces
s)を使用してフイーチャー部分空間内で規定される。
【0016】
入力組み合わせ(input combination)、又は特徴組み合わせ(feature combi
nation)、はフイーチャー部分空間を規定する。該フイーチャー部分空間は2進
ビット記号列(binary bit string)により表され、ここでは遺伝子(genes)と
して引用される。遺伝子はどの入力が特定部分空間にあるかを示し、従って特定
の部分空間の次元数(dimensionality)は該遺伝子数列(genes sequence)の”
1”のビットの数により決定される。望ましい情報特性を有する部分空間に対応
するそれら遺伝子を同定するために全てのフイーチャー部分空間の情報豊富さが
エグゾースチブ(exhaustively)に探索される。
【0017】
起こり得る部分空間(possible subspace )の全数が少なければ、エグゾース
チブな探索が最も情報豊富な部分空間を同定する好ましい方法であることは注意
すべきである。多くの場合、しかしながら、起こり得る部分空間の数は全ての起
こり得る部分空間をエグゾースチブに探索することが計算的に非現実的である程
充分大きい。それらの状況では、該部分空間は遺伝子数列を操作する遺伝的アル
ゴリズムを使用して探索されるのが好ましい。すなわち、遺伝子は望ましい情報
特性を有するフイーチャー部分空間の集合を進化させるよう組み合わされ及び/
又は選択的に突然変異(mutated)させられる。特に、該遺伝的フイーチャー部
分空間進化過程(evolution process)用の適応度関数(fitness function)は
その特定の遺伝子により表されるフイーチャー部分空間用情報エントロピーのメ
ザー(measure)である。情報コンテントの他のメザーは該出力に関する該部分
空間の均一度を示す(measure)。これらのメザーは分散(variance)、標準偏
差、又は或るしきい値を越える指定出力依存確率を有するセルの数(又はセルの
パーセンテージ)の様な発見的方法(heuristics)を含む。これらの情報的メザ
ーは望ましい情報特性、すなわち高い情報コンテントを有する遺伝子、又は部分
空間を同定するために使用されてもよい。加えて、決定木ベースの方法が使用さ
れてもよい。これらの代替えの方法はエグゾースチブな探索を行う時望ましい部
分空間を同定するため使用されてもよい。
【0018】
好ましい実施例では、ここではグローバルエントロピーと呼ぶ、該フイーチャ
ー部分空間エントロピーは、該部分空間内のセルのエントロピーメザーの加重平
均を計算することにより決定されるのが好ましい。出力特定的エントロピーメザ
ーも又使用されてもよい。セルエントロピーはここではローカルエントロピーと
呼ばれ、修正されたニシのエントロピー計算を使用して計算される。
【0019】
実験型モデルが次いで階層的な仕方で創られるが、それは、高い情報コンテン
トを有するよう決定されたフイーチャー部分空間の組み合わせを調べることによ
る。フイーチャー部分空間は、テストデータ(既知の対応出力を有するサンプル
入力データ点)を使用する高精度の予測を提供するフイーチャー部分空間の組み
合わせを見出すためにエグゾースチブな探索技術を使用して選択されそしてモデ
ル内へ組み合わされる。該モデルは又遺伝的アルゴリズムを使用して発展させら
れてもよい。この場合、該モデル遺伝子はどのフイーチャー部分空間が使用され
るかを指定し、該モデル遺伝子の長さは望ましい情報特性を有するとして前に同
定されたフイーチャー部分空間の数により決定される。該モデル発展過程で使用
される該適応度関数は考慮下の特定モデルの予測精度であるのが好ましい。
【0020】
本発明の1側面に依れば、次ぎに取得される入力からシステム出力を精密に予
測するため、該システムへの対応する入出力を表す、前に取得されたデータに基
づきシステムの実験型モデルを創る方法が提供される。該方法は、
(a)該システムへの多数の入力と対応する該システムからの出力とからデー
タ集合を取得する過程と、
(b)該前に取得したデータ集合を、少なくとも1つのトレーニングデータ(
training data)集合と、少なくとも1つのテストデータ(test data)集合と、
そして少なくとも1つの検証データ(verification data)集合とにグループ分
けする過程を具備しており、該集合は相互に一致してもよく、或いは前に取得し
たデータの排他的(exclusive)又は非排他的(non-exclusive)部分集合であっ
てもよく、該方法は又、
(c)高いグローバルエントロピー加重(weights)を有する複数のフイーチ
ャー部分空間を、
(i)前記トレーニングデータ集合からフイーチャー部分空間を規定する複
数の入力を選択する過程と、
(ii)固定的か又は適合的か何れかの量子化方法(quantization)により
、各入力範囲を部分範囲(subrange)に分けることにより該フイーチャー部分空
間をセルに分ける過程と、
(iii)ローカルセルラーエントロピー加重による加重平均か、又は出力
特定的エントロピー加重による加重平均か何れかを形成することにより、グロー
バルエントロピー加重を決定する過程と、
により決定する過程と、
(d)オプション的に、高いエントロピー加重を有する該決定されたフイーチ
ャー部分空間内での各入力発生の頻度を調べ、削減された次元数データ集合を規
定するために最も頻繁に発生するそれらの入力のみを保持する過程と、そしてそ
の後過程(c)を繰り返す過程と、
(e)オプション的に、該削減された次元数フイーチャーデータ集合を規定す
るようにシステム入力から最も精密にシステム出力を予測する最適又は最適に近
い次元数と最適又は最適に近い量子化条件を決定するために、複数の量子化条件
下で該削減された次元数データ集合の複数の該次元(例えば、該次元の幾つか、
又は全て)上でエグゾースチブに探索する過程と、
(f)前記データ集合上のシステム入力からシステム出力を最も精密に予測す
る高いグローバルエントロピー加重(例えば、フイーチャーデータ集合の部分か
、又は全体か何れか)を有する該決定されたフイーチャー部分集合の組み合わせ
を決定する過程と、
(g)テストデータ集合上でシステム入力からシステム出力を最も精密に予測
する削減された次元数のフイーチャーデータ集合に部分集合(例えば、削減され
た次元数のフイーチャーデータ集合の部分か、又は全体かの何れか)を決定する
過程とを具備している。
【0021】
大きなデータ集合用には、該モデル創生過程(b)−(g)は、次いで最適モ
デルのグループを見出すために種々のトレーニング及びテストデータ集合上で繰
り返されてもよい。この最適モデルのグループはそれらのモデルから生じる1つ
以上の予測を開発するために新しいデータについて”ポール(polled)”されて
もよい。これらの予測は、例えば、勝者1人占め(winner-takes-all)の投票ル
ールに基づいてもよい。システム入力から最も精密にシステム出力を予測する最
適モデルのグループの部分集合は次いで次の様に決定される。テストデータ集合
の入力がモデルの選択された部分集合のグループの各モデルに従属させられ(ラ
ンダムに選択されてよい)、各部分集合で予測された出力は各テストデータ出力
と比較される。該部分集合で予測された出力の計算過程は(b)−(e){又は
オプションとして(b)−(g)}と同様な仕方で行われ、そこでは個別のモデ
ル出力予測値を入力として、実際の出力値を出力として使用して新しいトレーニ
ング及びテストデータ集合が創られる。この過程はモデルの多数の選択された部
分集合グループ用に繰り返されてもよい。モデルの該選択された部分集合グルー
プは次いで、”フレームワーク”を規定するためにシステム入力からシステム出
力を最も精密に予測するモデルの最適部分集合ブループを見出すために発展(ev
olved)させられる。
【0022】
フレームワーク創生過程は、最適フレームワークのグループを見出すために、
モデル創生過程と同様な仕方で更に繰り返されてもよい。最適フレームワークの
このグループは、それらのフレームワークから生じる1つ以上の予測を開発する
ために新データ上で”ポール”され得る。これらの予測は、例えば、勝者1人占
めの投票ルールに基づくことが出来る。システム入力からシステム出力を最も精
密に予測する最適フレームワークのグループの部分集合は次いで次の様に決定さ
れる。テストデータ集合の入力はフレームワークの該選択された部分集合グルー
プの各フレームワークに印加され、各フレームワーク部分集合で予測された出力
が各テストデータ出力と比較される。該部分集合で予測される出力の計算過程は
(b)−(g)と同様な仕方で行われ、そこでは個別モデルフレームワークで予
測された値を入力としてそして実際の出力を出力として使用して新トレーニング
及びテストデータ集合が創られる。この過程はフレームワークの多数の選択され
た部分集合グループ用に繰り返される。フレームワークの該選択された部分集合
グループはシステム入力からシステム出力を最も精密に予測する、”スーパーフ
レームワーク”と呼ばれる、フレームワークの最適部分集合グループを見出すた
めに発展させられる。
【0023】
最適モデル決定過程、最適フレームワーク決定過程、又は最適スーパーフレー
ムワーク決定過程は予め決められた停止条件が達成されるまで繰り返される。該
停止条件は、例えば、1)発展型対象の族(family of evolutionary objects)
のポーリングから予め決められた予測精度の達成、又は2)予測精度でのインク
レメンタルな改善が予め決められたしきい値より低下した時、又は3)予測精度
での更に進んだ改善が達成されない時、として規定されてもよい。
【0024】
分布状階層的発展(Distributed hierarchical evolution)は、モデル、フレ
ームワーク、スーパーフレームワーク他の様な逐次的により複雑に相互作用する
発展型”対象”のグループが、逐次的により大量の複雑なデータをモデル化し理
解するために、創られる発展型の過程である。
【0025】
図1は本発明の方法100の全体的流れを図解するブロック線図である。この
図から評価される様に、実験データから複雑なシステムのモデルを創生するため
に発展型過程(evolutionary process)が使用される。好ましい方法は、”発展
型対象(evolutionary objects)”、例えば、フイーチャー130、モデル14
0、フレームワーク150、そしてスーパーフレームワーク160他、の伸展す
る階層(extensible hierarchy)を創るために、データ110の多次元的表現を
情報理論120と組み合わせる。該過程は170で示した階層的な仕方で更に組
み合わせを発生するため続けられ得る。
【0026】
最初に、フイーチャー部分空間(feature subspace)とも呼ばれる、入力の組
み合わせは、初期のランダムに選択されたフイーチャー部分空間プールからエグ
ゾースチブな探索(exhautive search)又は発展型の過程により、同定(identi
fied)される。次いでモデルを創るためにフイーチャー部分空間の最適組み合わ
せ(optimum combination)が探索されるか又は発展(evolved)させられ、フレ
ームワークを創るためにモデルの最適組み合わせが更に探索されるか又は発展さ
せられ、そしてスーパーフレームワーク他を創るためにフレームワークの最適組
み合わせが更に探索されるか又は発展させられる。上記説明のより複雑な発展型
対象の逐次的発展は、予め決められた停止条件、例えば、予め決められたモデル
性能、が達成されるまで続く。ルールとして、該データ集合(data set)が大き
い程、これらの対象のより多くが創られるので、実験型モデル(empirical mode
l)の複雑さは、該入力の、該データが取得された該システムの出力との相互作
用の複雑さを反映する。
【0027】
ここに説明した方法の展開で、幾つかの設計基準(design criteria)が考え
られた。該方法が、任意の非線形構造を有するデータ空間(data space)を成功
裡に処理することが必要である。該方法が、入力を知って出力を予測する”前向
き(foreward)”問題と、出力を知って入力を予測する”逆向き(inverse)”
問題との間を区別せず、それによりデータのモデル化と制御の問題を同じ足場(
footing)上に置くことも又望ましい。これは該データ集合それ自身の上に最小
の追加的モデルジオメトリー(additional model geometry)だけが重ね合わさ
れることを意味する。用語”ジオメトリー(geometry)”は、回帰技術(regres
sion technique)で導入される様な、線形及び非線形の両多様性を含む。対称性
(symmetry)もここでは目下のモデリングタスク用に最も情報豊富な(informat
ion-rich)入力又は入力の組み合わせを同定する利点を有する。この知識は意志
決定及び計画用の最適戦略を開発するため使用され得る。最後に、該方法は、そ
れが事実便利に実施されるために計算的に扱い易い(tractable)必要がある。
これらの設計目標を充たすために、幾つかの現在の線形及び非線形な方法が注意
深く解析され、共通のテーマが基本的な限定と機会とを同定する目標を用いて要
約された。
【0028】
下記の議論は情報理論及び発展からの概念を使用して1つのモデルの発展の基
本的方法を説明することから始まる。より大きい。より複雑なデータ集合を説明
するために逐次的により複雑な対象の逐次的で階層的な発展に向かうために該方
法を更に伸展させることが次ぎに説明される。データ出力がなくても入力フイー
チャークラスター(input feature cluster)を発見する方法の下にある原理の
応用が次いで論じられ、それに多次元データ空間内で”情報可視化(informatio
n visualization)”を行う方法の説明が続く。ハイブリッドのモデリングスキ
ームを創るために本発明の方法をニューラルネットワーク(neural networks)
の様な他のモデリングパラダイム(modeling paradigms)と組み合わせることが
次いで詳述される。該説明は、遺伝的プログラミング(genetic programming)
の分野と結合された本発明の方法のデータモデル化の取り組みを使用して物理的
法則を発見する、新しい取り組みを結論としている。
【0029】
関心の点として、情報理論からの基本的アイデアは全てのこれらの問題を解く
に必要なコアツール(core tools)を提供し、簡単で統合的核(simple, unifyi
ng kernel)を該方法に提供することは述べるに値する。エントロピー(entropy
)の概念はデータ空間内の秩序(order){又は混乱(disorder)}の定量的メ
ザー(quantitative measure)を提供する。このメザーは、初期に混乱したシス
テムからの秩序の発生をドライブする発展型エンジン用の適応度関数(fitness
function)として使用され得る。この意味で、情報理論はドライバーを提供し、
発展型プログラミングは発見過程をシステム化するエンジンを提供する。最後に
、本発明の方法で説明されるパラダイムはデータドライブされている(is data
driven)が、それはデータ自身の中の情報コンテント(information content)
が予測(prediction)に使用されるからである。かくして、該方法は、下にある
数学のその固有の制限を有する数学的モデル化の分野と反対に、実験型モデル化
の分野に真正面(squarely)から属する。
データモデリング(DATA MODELING)
情報エントロピーの概念に基づくフレームワークは、入力の集合を与えられた
として1つか又は多数か何れかの出力が予測される必要がある様な、データモデ
リングの問題に適用されて来た。基本的方法は次の過程から成るが、すなわち
1.データ表現(data representation)又はデータ事前処理(data preproce
ssing)、
2.セル境界(cell boundary)を規定する固定的又は適合的(adaptive)な
方法を使用するデータ量子化(data quantization)、
3.遺伝的発展及び情報エントロピーを使用するフイーチャー組み合わせ選択

4.システム入力からシステム出力を最も精密に予測するフイーチャーデータ
集合の部分集合(subset)の決定である。
1.データ表現
典型的な実験的に得られたデータ集合で、幾つかの”測定”入力と出力とが提
供される。各システム入力とシステム出力は、ここでデータ点(data points)
と呼ぶ、データ値の入力及び出力のシーケンスを得るようにサンプリングされる
か他の仕方で測定される。目標(goal)は該データ点出力を最も精確に予測する
ために該データ点入力から最大の情報を抽出することである。多くの実システム
(real syatem)では、該データ点、又は実際の測定された入力は、それらが該
データの適切な表現として留まるに充分な程”情報豊富(information-rich)”
である。他の場合は、これはそうでないかも知れず、該データを表現するより適
切な”固有ベクトル(eigenvectors)”を創るために該データを変換することが
必要かも知れない。共通に使用される変換には特異値分解法(singular value d
ecomposition){エスブイデー(SVD)}、主成分分析法(principal component
analysis){ピーシーエイ(PCA)}、部分的最小2乗法(partial least squa
re method){ピーエルエス(PLS )法}が含まれる。
【0030】
最も大きい対応する”固有値(eigenvalues)”を有する主成分”固有ベクト
ル”(eigenvectors)が該データモデリング過程用入力として通常使われる。該
主成分選択法には2つの顕著な限定がある。
【0031】
a.該主成分法は入力の分散のみを取り扱い、出力に関する情報は何もエンコ
ードしない。多くのモデリング問題で、モデル化されつつある出力特性に関する
最も多くの情報を含む比較的低い固有値を有するのは固有ベクトルである。
【0032】
b.該ピーシーエイ法は入力の線形変換を行う。これは全ての問題用には、特
に入力−出力関係が非常に非線形であるそれら用には最適変換ではないかも知れ
ない。
【0033】
ここで説明する方法の好ましい実施例では、その組み合わせが”入力フイーチ
ャー(input features)”としても知られる、入力は初期には変換されない。も
し次の入力データ集合が、モデル化される必要のある出力に関する充分な情報を
現さないならば、上記で説明されたそれらの様なデータ変換が行われてもよい。
この戦略を使う主な理由は、変換の形式内に追加的ジオメトリーを課すよりも、
可能な所ではどこでも実際のデータを使用することである。この追加的ジオメト
リーが取る形式は未知であるかも知れない。加えて、データ変換過程を避けるこ
とは該変換過程の計算的オーバーヘッドを避け、かくして、特に非常に大きなデ
ータ集合用の計算効率を改善する。
【0034】
実際のデータが好ましくは変換なしで使用されるのがよいとは云っても、他の
入力よりも情報豊富な入力、又はフイーチャーを同定し、選択することにより次
元数(dimensionality)はなお減じられてもよい。これは、入力数が非常に多い
時は特に望ましく、最終モデルに起こり得るフイーチャーを全て使用することは
非実用的である。データ集合の”次元(dimension)”は入力の全部の数として
規定されてもよい。実験型モデルを開発する前に、好ましくは、当面のモデリン
グタスク用に最も情報豊富なフイーチャーを同定されるのがよい。入力数を減じ
る、又は該問題の次元数を減じる1つの技術は、少しの情報コンテントしか持た
ない入力を除くことである。これは入力と、対応する出力と、の相関(correlat
ion)を調べることに依りなされてもよい。しかしながら、好ましくは、次元数
削減は、下記で論じる様に、情報豊富と決定されたフイーチャー組み合わせで各
入力の発生頻度(each input's frequency of occurrence)を調べることにより
行われるのがよい。それで、より少ない発生頻度の入力(less-frequently-occu
rring inputs)はモデル発生過程から排除されてもよい。
【0035】
時間変化する又は動的なシステム用では、追加的複雑さが、与えられた何れか
の時の出力が、より早期の時の入力と出力との双方にも左右される事実から生ず
る。この様なシステムでは、該データ集合の正しい表現が非常に重要である。も
し特定時刻の測定出力に対応する入力がその時だけ測定されるならば、該時間遅
れ(time lags)(すなわち、入力発生と該結果としての出力発生の間の時間間
隔)内に含まれる情報は失われる。この問題を緩和するために、入力の拡張され
た集合から成るデータ表(data table)が作られるが、そこでは該入力の拡張さ
れた集合は入力の現在の集合のみならず多数の前の時刻(at multiple prior ti
mes)の入、出力からも成っている。この新データ表は次いで選択された時刻範
囲に亘り(spanning a selected time horizon)情報豊富な入力組み合わせ用に
解析され得る。
【0036】
拡張データ表の創生での重要な事項は時間的に如何に遠くまで逆戻って知るか
である。多くの場合、これは先験的には知られず、余りに長く早期までの時間間
隔{時間範囲(time span)}を含めることにより、該データ表の次元数は非常
に大きくなる。この事項を処理するために、多数のより短い時間範囲のデータ表
が元のデータ表から作られるが、各データ表は過去での与えられた時間間隔から
成る。これらのより新しいデータ表の各々の及ぶ時間間隔は重なったり、隣接し
たり又は分離していてもよい。これらのより小さいデータ表の各々からの最も情
報豊富な入力が次いで集められ、該小さなデータ表からの選択された入、出力を
含むハイブリッドデータ表を作るよう組み合わされる。この最後のハイブリッド
表は、該時間間隔間の起こり得る相互作用が今や含まれるので、次いでデータモ
デル化過程への入力として使用出来る。
【0037】
例えば、もし住宅販売レート(home sales rate)が商品製材価格(commodity
lumber prices)に影響するが、約2ヶ月の推定時間遅れがあるのでないか、を
調査したいならば、この時間遅れを発見するために本発明用には該データ表は入
力が出力に2ヶ月先行する対応(matched)した入、出力を要する。これは、実
際の時間遅れがどれだけかを発見するために種々の入力が1つの出力に対し異な
る遅れを有する1つ以上のデータ表(すなわち、列は入、出力、行は連続した時
間)を形成することにより行われ得る。特に、1つの出力はX日の製材価格であ
ってもよい。入力がX日、X−1日、X−2日....からX−120日までの
住宅販売レートであるのみならず、X−1、X−2...からX−120までか
らの出力でもある。高い情報コンテントを持つ最も早期の入力が失われないこと
を保証するために、入力と対応する出力との間の推定時間遅れ(suspected time
lag)より長い時間間隔が選択される。次いで次の表の行はY日(例えば、X+
1又は幾らかもっと後れた日)の製材価格に等しい出力を有し、入力はY、Y−
1、Y−2,...Y−120の住宅販売レートであるのみならずY−1、Y−
2...からY−120日までからの出力でもある。次いで該システムは該出力
に影響する入力の組み合わせを同定することにより適当な時間遅れを同定する。
2.データ量子化とフイーチャー部分空間内のセル境界
一旦適当なデータ表現が確立されると、サンプル点を特徴付けるため使用され
る各入力で”量子化(quantization)”過程が行われる。入力値の範囲を部分範
囲に分ける、すなわち、当該技術で”ビニング(binning)”として公知の、ビ
ン(bins)に分けるために2つの量子化方法が使われるが。該ビニングは与えら
れたフイーチャー部分空間の各入力で行われるが、そこでは各入力は該部分空間
の次元に対応し、それはセルの領域に分けられる与えられたフイーチャー部分空
間となる。
【0038】
最も簡単な量子化法は固定サイズの部分範囲、すなわちビン幅(時には、”固
定ビニング(fixed binning)”として知られる)に基づくが、そこでは各入力
に付随する値の全体範囲が等間隔又は等サイズの部分範囲又はビンに分けられる

【0039】
もう1つの量子化、それは”統計的量子化(statistical quantization)”と
呼ばれてもよく、図2Aで最も良く見られ、ここでは”適合的量子化(adaptive
quantization)”と呼ぶが、は値の該範囲を不等サイズの部分範囲に分けるこ
とに基づく。もしデータがデータビン210により示す様に均一に分布されてい
れば、該ビンサイズは大体等しい。しかしながら、該データ分布がクラスター(
clistered)されるならば、該ビンサイズは、ビン220により示される様に、
各ビンがデータ点の殆ど等しい数を含むように適合的に調整される。図2Bに見
られる様に、各部分範囲、又はビンのサイズは、入力範囲を等しい百分位数(pe
rcentile)の部分範囲に分け、それらの百分位数を該ビン240を作るフイーチ
ャー値の範囲上に射影(projecting)することにより、各入力の累積確率分布(
cumulative probability distribution)230(又はヒストグラム)に関係付
けられてもよい。
【0040】
この方法で、各入力上のグローバル情報がその入力上で該データを適合的に量
子化するため使われる。この方法では、各入力は別々に量子化され、すなわち、
量子化は入力毎ベースで行われる。該部分範囲又はビンのサイズ(幅)は与えら
れた入力内で一般に不均一で、その入力の累積確率分布の形を反映していること
を注意すべきである。該部分範囲のサイズは入力から入力へと変わってもよい。
適合的量子化(適合的ビンニング)は情報を含まない空の入力の部分範囲を有す
る確率を減らすが、それはさもないと最終モデル内の情報ギャップとなる。
【0041】
与えられた入力に対する該部分範囲、又はビンのサイズは部分空間から部分空
間へと変わってもよい。すなわち、或る入力は、それらが高い次元の部分空間で
現れる時より低い次元の部分空間で現れる時の方がより精細な解像度のビニング
を有してもよい。これは或る全体のセルの解像度(セル当たりの点の数)は、デ
ータの意味のある量がセル内で一緒にグループ化又はビン化(binned)されるよ
うに、望まれる事実のためである。セル数は次元数に指数関数的に比例するので
、より高い次元のフイーチャー部分空間は、セル当たりの望ましい平均の点の数
を保持するように、個別入力用により粗いビニングを使用する。データ量子化が
モデル化の方法のローバストさ用に顕著な意味を有するのは該データの残りから
の外れ値の点の偏差の大きさが該量子化(ビニング)過程中に抑制されるからで
ある。例えば、もし入力値が最高部分範囲(ビン)内の上限を越えるなら、それ
はその値に無関係にその部分範囲(ビン)内に量子化(ビン化)される。
【0042】
ここで使用される”フイーチャー部分空間”は1つ以上の入力の組み合わせと
規定される。フイーチャー部分空間の画像的表現が創られてもよく、それも又簡
単に”部分空間”としてここでは呼ばれる。該部分空間は好ましくは複数の”セ
ル”に分けられるのがよく、該セルは該フイーチャー部分空間を含む入力の部分
範囲の組み合わせにより規定される。好ましい実施例では、データ量子化は更に
、(前の説明の固定的か又は適合的か何れかの方法を使用して)入力当たりの部
分範囲(ビン)の数を規定するか、又は、代わりに、該フイーチャー内のセル当
たりデータ点の平均数を規定するか、何れかで指定される。これは適合的量子化
法の多次元的拡張と見られる。
【0043】
図3A、3Bそして3Cを参照すると、固定サイズのビニングがそれぞれ1,
2そして3次元フイーチャー部分空間で示される。該データ集合は各々が4つの
入力、又はフイーチャーを有する4つのデータ点、DP1−DP4から成る。該
データ集合は全ての3つの図で同じである。該データ点はどのフイーチャー(又
はフイーチャー組み合わせ)が選択されるかにより特定のセルに分類される。図
3Aでは、もし該1次元部分空間が第3の入力(左端のビットに対応する第1入
力を用いて0010と呼ばれる)を表せば、DP1とDP4はセルC1に分類さ
れ(DP1=.5、DP4=.3)、DP2とDP3はセルC2に分類される(
DP2=1.2、DP3=1.7)。もし、しかしながら、該1次元部分空間が
第2入力(0100)であると取られるなら、DP2とDP4はC1に分類され
(DP2=.7、DP4=.4)、そしてDP1とDP3はC2に分類される(
DP1=1.5、DP3=1.9)。
【0044】
図3Bでは、もし該部分空間が第1と第2入力(1100)により指定されれ
ば、DP1はセルC2に分類される{DP1=(.5、1.5)}が、なお該第
1と第3入力(1010)により発生される部分空間ではセルC1に分類される
。図3Cでは、DP1は第1、第3そして第4入力(1011)で規定される部
分空間ではセルC1に分類され、第1、第2そして第4入力(1101)で規定
される部分空間ではセルC2に分類される。
【0045】
該入力に基づく該システムの出力の予測で或る精度を有するフイーチャー組み
合わせを同定することが望ましい。特定の入力組み合わせ、又はフイーチャー組
み合わせは多くのユニークな部分空間を規定することが上記例から分かる。有限
数の入力シーケンスを仮定すれば、の部分空間の数は勿論有限であるが、該数は
入力数と共に極めて急速に成長する。
【0046】
フイーチャー選択のタスクは入力−入力の相互作用の可能性により複雑化する
。この様な相互作用が存在すれば、個別には情報貧弱な入力が高い情報エントロ
ピーを有する入力の組み合わせを作る相補的な仕方で組み合わされ得る。かくし
て、入力−入力相互作用の可能性を無視するどんなフイーチャー選択方法もモデ
ル化過程から有用な入力を排除する可能性があり得る。この制限を避けるために
、好ましい方法は、入力−入力関係を本質的に含み、該データ内にあるかも知れ
ぬ何等かの非線形性を非常に自然に処理する、情報理論ベースのフイーチャー部
分空間を選択する取り組みを使用する。
【0047】
加えて、該方法は利用可能な部分空間のエグゾースチブ(exhaustive)な探索
を含むが、それが好ましくは情報エントロピーのメザーを適応度関数として使う
遺伝的発展型アルゴリズム(genetic evolutionary algorithm)を含むのがよい

3.遺伝的発展と情報エントロピーを使用するフイーチャー部分空間選択
ここで説明する方法は好ましくは”遺伝的アルゴリズム”として公知の比較的
最近のアルゴリズム的取り組みを使用するのがよい。ジョンエイチ.ホランド(
John H. Holland){1975年発行、アナーバー、ミシガン大学プレス(Ann A
rbor:the University of Michigan Press)、”天然及び人工的システムでの適
合(Adaptation in Natural and Artificial Systems)”で}により定式化され
、又デー.イー.ゴルドバーグ(D. E. Goldberg){1989年発行、アデイソ
ン−ウエズレーパブリッシングカンパニー(Addison-Wesley Publishing Compan
y)、”探索、最適化及び機械学習に於ける遺伝的アルゴリズム(Genetic Algor
ithms in Search, Optimization and Machine Learning)”で}及びエム.ミッ
チェル(M. Mitchell){1997年発行、エムアイテープレス(M.I.T. Press
)、”遺伝的アルゴリズム入門(An Introduction to Genetic Algorithms)”
で}により説明された様に、該取り組みは最適化問題を解く強力で、一般的な方
法である。遺伝的アルゴリズムの取り組みは次の様である。
【0048】
(a)問題の解空間(solution space)をNビット記号列(N-bit strings)
の母集団(population)としてエンコードする。ポピュラーなエンコード用フレ
ームワークは2進記号列(binary strings)に基づく。該ビット記号列の集まり
は”遺伝子プール(gene pool)”と呼ばれ、個別ビット記号列は”遺伝子(gen
e)”と呼ばれる。
【0049】
(b)目前の問題に対する何等かのビット記号列の適応度(fitness)を測定
する適応度関数(fitness function)を規定する。換言すれば、該適応度関数は
何等かの起こり得る解の良さ(goodness)(又は精度)を測定する。
【0050】
(c)ビット記号列のランダムな遺伝子プールで最初にスタートする。それを
通してより”適した(fit)”ビット記号列が”より適した(fitter)”子供(o
ffspring)の新しいプールを作るために優先的にメートする、選択的再組み合わ
せ(selective recombination)及び突然変異(mutation)の様な、遺伝子から
得られたアイデアを使用することにより、より適したビット記号列の次の世代が
発展出来る。”適応度(Fitness)”は情報エントロピーのメザーにより決定さ
れる。突然変異の役割は起こり得る解の探索空間を拡張することであり、該解は
改善された度合のローバストさ(robustness)を創る。
【0051】
(d)上記進め方に従う数世代の発展の後、より適したビット記号列のプール
となる。最適解はこのプール内の”最適(fittest)”ビット記号列として選択
される。
【0052】
これらの側面の各々を下記で更に詳細に論じる。
a.Nビット記号列の母集団としての解のエンコーデイング(Encoding solutio
n as a population of N-bit strings)
最適問題を解くために遺伝適アルゴリズムを使う最初の過程は、ビット記号列
として表される解となる方法で該問題を表すことである。簡単な例は4入力と1
出力を有するデータベースである。入力の種々の組み合わせが4ビット2進記号
列により表される。該ビット記号列1111は、全ての入力が該組み合わせ内に
含まれる入力組み合わせ、又はフイーチャー部分空間を表す。最左ビットを入力
A、第2の最左ビットをB、第3の最左ビットを入力Cそして最右ビットを入力
Dと呼ぶ。もしビットが値1に換わるなら、それは対応フイーチャーが該組み合
わせ内に含まれるべきことを意味する。逆に、もしビットが値0に換わるなら、
それは対応フイーチャーが該組み合わせ内で排除されるべきことを意味する。
【0053】
同様に、該ビット記号列1000は唯フイーチャーAが含まれ、全ての他の入
力が排除される入力組み合わせを表す。この方法で、16の全可能性からのあら
ゆる起こり得る入力組み合わせは4ビット2進記号列により表される。一般に、
もしモデル化されるデータベースにN入力があるなら、全ての起こり得る入力組
み合わせはNビット2進記号列を使用して表される。4次元のフイーチャー部分
空間を表すサンプルの2進ビット記号列は図4に示される。図4の該ビット記号
列はDビットを有し、その4つだけが”1”のビットである。該”1”のビット
は4つのフイーチャーF1,F4,Fi、そしてFDと対応する。該変数iとD
は一般化された場合を表すために使用される。更に進んだ例が図3Aで示される
が、そこでは4入力システムを表し、1つの”1”ビットを有する、4ビット記
号列が1次元フイーチャー部分空間に対しコード化する。2つの”1”ビットが
図3Bに見られる2次元部分空間に対しコード化し、3つの”1”ビットが図3
Cで見られる3次元部分空間に対しコード化する。
b.ビット記号列の適応度を測定するための適応度関数の規定
最適化問題への解として最適ビット記号列を発展させるために、発展過程をド
ライブするため使用される定量評価(metric)を規定することが必要である。こ
の定量評価は遺伝的アルゴリズムでは適応度関数と呼ばれる。それは与えられた
ビット記号列が如何に良く目前の問題を解くかのメザー(measure)である。適
当な適応度関数を規定することは該ビット記号列がより良い解へ発展することを
保証する重要過程(critical step)である。
【0054】
上記例では、各4ビット2進記号列は入力の起こり得る組み合わせをエンコー
ドする。入力フイーチャー部分空間は、対応するビット記号列内でオンに換わる
入力フイーチャーを使用することにより作られ得る。データベース内のデータは
このフイーチャー部分空間内へ射影され得る。該適応度関数は、該入力フイーチ
ャー部分空間上で出力状態の分布を調べることにより情報豊富さのメザーを提供
する。もし該出力状態がこの部分空間上で非常にクラスターされてそして分離さ
れていれば、該対応する入力フイーチャー組み合わせは異なる出力状態を分離す
ることでよい仕事をしているので該適応度関数は高い値となる。逆に、もし全て
の出力状態が該部分空間上にランダムに分布されているならば、該対応する入力
フイーチャー組み合わせは該異なる出力状態を分離することで貧弱な仕事をして
いるので該適応度関数は低い値となる。代わりに、該適応度関数は、該部分空間
内の個別セルの情報豊富さを調べ、次いで該セルの加重平均を形成することによ
り該部分空間の情報豊富さのメザーを提供してもよい。
【0055】
好ましくは、出力状態クラスタリングのグローバルなメザーは最良のビット記
号列の発展をドライブする該適応度関数として使用される。このメザーは好まし
くはクラスタリングを規定する強力な方法であるエントロピー関数に基づくのが
よい。適応度関数のこのエントロピー的規定を用いて、該出力を最も良くクラス
ターし分離する入力組み合わせを表すビット記号列が該発展型過程から出現する
。代わりの適応度関数は、出力状態確率の標準偏差か分散か、又は少なくとも1
つの出力確率が他の出力確率より顕著に大きい部分空間内のセル数を表す値かを
含む。出力状態の集中を測定する他の同様な発見的方法(heuristics)、又はア
ドホック(ad hoc)な規則は発展型過程内で容易に交換される。
c.発展型過程の詳細
1.Nビット2進記号列のランダムなプールの創生
図5Aを参照すると、該発展型過程500は過程510で始まり、そこではN
ビットの2進記号列のランダムなプールが創られる。これらの初期2進記号列は
、それらがともかく最適であると云う先験的理由がないので一般的にそれらの適
応度関数用には非常に低い値しか持たない入力フイーチャー組み合わせをエンコ
ードする。この初期プールは該発展型過程を始動するため使われる。
【0056】
2.適応度の計算
該プール内の各2進記号列の適応度は過程(b)で説明した方法を使用して計
算される。該データは過程520で示すようにバランスを取られる。各2進記号
列用にフイーチャー部分空間が発生され、データベース内のデータが対応する部
分空間内へ射影される。該部分空間は過程530で行われた選択に従って、等間
隔のビニング532又は適合的に隔てられたビニング534の選択に依りビンに
分けられる。考慮下の特定の遺伝子が過程540で選択され、そしてビンの数は
過程550で、好ましくはユーザー入力により、ビンの固定数552を指定する
か又はセル当たりサンプルの平均数554を指定することにより決定される。該
ビン配置は次いで過程560に示す様に、決定される。次いで対応2進記号列の
適応度を表す出力状態のクラスタリングと分離の程度を計算するためにエントロ
ピー関数又は他の規則が使用される。これは、データ点が各部分空間内に配置さ
れる過程570と、グローバル情報コンテントが決定される過程580で示され
る。過程585により示される様に、次の遺伝子シーケンスは過程540の開始
で動作する。
【0057】
3.適応度の加重ルーレットホイール(weighted rourette wheel)の創生
各2進記号列の適応度が計算された後、該適応度の加重ルーレットホイール5
92が図5Cに示す様に創られる。これは、より高い適応度値(fitness value
)を有する2進記号列がより低い適応度値を有する2進記号列よりも比例してよ
り広いスロット幅に付随される過程と考えられる。これは、該ルーレットホイー
ルが廻されると、より低い適応度の2進記号列よりも、より高い適応度の2進記
号列の選択に、より重く加重する。この過程は下記で更に詳細に説明する。
【0058】
4.新しい親の2進記号列(new parent binary strings)の選択
ルーレットホイール592は次いで廻され、該ホイールが終わるスロットに対
応する2進記号列が選択される。もし元のプールにN個の2進記号列があるなら
、該ホイール592はN個の新親記号列を選択するためN回廻される。ここで重
要な点はもしそれが高い適応度値を有するなら該同じ2進記号列が1回より多く
選ばれ得ることである。逆に、低い適応度関数を有する2進記号列は、それが完
全に排除されることはないが、親として決して選択されないことが起こり得る。
次いでN個の親が、新しい子の2進記号列発生への先駆者としてN/2個の対に
対化される。
【0059】
5.子記号列を創る親の交叉(crossover)と突然変異(mutation)
一旦2つの親が選ばれると、図5Dに示す、交叉オペレーション(crossover
operation)594が行われるべきか否かを決定するために加重コインがフリッ
プされる。もしこれが交叉オペレーションとなるなら、クロシングサイトがビッ
ト位置1と該記号列内の最後のビット位置の次にあるの最後の起こり得るクロシ
ングサイトとの間でランダムに選択される。該クロシングサイトは各親を右側と
左側に分割する。図5Dに示す様に、各親の左側を他の親に右側と連結すること
により2つの子記号列が創られるが、そこでは該親遺伝子10001と0001
1は左半分100と000、そして右半分01と11に分割され、次いで100
11と00011を形成するよう組み合わされる。最後に、該2つの子記号列が
創られた後、該子記号列プールの多様性を増やすために該子記号列の小数の個別
ビットがランダムに逆にされる(突然変異される)。これは与えられたビットが
逆にされる確率に換算して指定出来る。逆転の確率は望ましいビット突然変異の
数と該記号列内ビット数に基づいて尺度合わせされる。すなわち、もし記号列当
たり平均5つの突然変異が望まれるならば、与えられたビット変更の確率は10
0ビット記号列用に0.05に、そして50ビット記号列用に0.1等に設定さ
れる。
【0060】
6.発展型過程の継続
過程590に示す様に、上記過程2−5は、各創られた子記号列プールを次世
代用の新しい親プールとして使用して、数回(又は数世代)繰り返される。該子
記号列プールが発展すると、それらの対応適応度は平均で改善すべきであるが、
それは各世代で、新しい子記号列を創るために、より適した記号列が優先的にメ
ートされるからである。
【0061】
該発展型過程は、予め決められた数の世代の後か、又は最高適応度の記号列か
又は平均プール適応度か何れかが最早変化しない時か、何れかで停止出来る。
【0062】
最適化問題を解くための遺伝的アルゴリズムの使用で、解かれる必要にある2
つの重要な項目がある。第1の項目はエンコーデイングスキームである。該問題
がビット記号列としてエンコードされ得る解の役に立つか?第2の項目は該適応
度関数の選出である。該発展型過程は該適応度関数により統制される(すなわち
、導かれる)ので、その解の質は間近な目標への適応度関数のマッチングに密接
に依存している。
【0063】
ここに説明した好ましい方法では、第1の項目は、図4で図解され、各ビット
がデータ集合のNの入力の1つと対応する、Nビット2進フイーチャービット記
号列を含む遺伝子を規定することにより解決される。該Nビット2進フイーチャ
ービット記号列の各ビットは対応入力を参照し、もし該対応入力が該フイーチャ
ー部分空間内にあれば該値1を、もし該対応入力が該フイーチャー部分空間内に
無ければ該値0を有する。
【0064】
該好ましい方法では、第2項目はフイーチャー部分空間のグローバルエントロ
ピーを計算する情報エントロピーメザー(informational entropy measures)を
使用することにより解決される。該フイーチャー部分空間のグローバルエントロ
ピーは、それから最適モデルが発展させられ得る最適フイーチャー組み合わせの
プールの発展をドライブする適応度関数として使用される。該グローバルエント
ロピーは、フイーチャー部分空間内のセルのローカルエントロピーを最初に決定
し、そして該ローカルエントロピーの加重和として全体のフイーチャー部分空間
のグローバルエントロピーを計算することにより計算される。代わりに、部分空
間のグローバルエントロピーは、該全体の部分空間の間で、与えられる出力用の
点の分布を調べ、そして次いで全ての状態に亘り特定状態向けエントロピーの加
重平均を形成することにより決定されてもよい。フイーチャー部分空間プールを
保持する能力は、そのどちらも最終モデルのローバストさに寄与する該解空間内
の冗長度と多様性の双方を提供する。
ローカルセルエントロピーとグローバル部分空間エントロピーの決定
好ましい方法の側面に依れば、情報コンテントのレベルが測定される。特に、
セル又は部分空間の情報コンテントのレベルはデータ分布の均一性のメザーであ
る。すなわち、データが均一である程、システムのモデル化の目的にそれが持つ
予測価値は大きくなり、従って、情報コンテントのレベルは高くなる。該均一性
は多数の代替え的方法で測定されてもよい。1つのこの様な方法はクラスタリン
グパラメーター(clustering parameter)を使用する。用語クラスタリングパラ
メーターはローカルセルエントロピー、考慮下の特定部分空間上で計算された特
定出力のエントロピー、又はここで論じられる発見的方法、又は他の同様な方法
を指す。
【0065】
図6を参照すると、個別セルの情報コンテントは方法600により示されたカ
テゴリー的出力システム及び方法602による連続する定量的モデル用に決定さ
れる。好ましい実施例では、前に論じたニシ(Nishi)の情報エントロピー規定
が、該情報コンテントを表すローカル及びグローバル両エントロピー加重を数学
的に規定するため使用される。本発明の実験型モデリング用には、ニシにより拡
張された、シャノンのエントロピーの概念が、該エントロピーのメザー(measur
e)が計算されるデータ集合用の適当なメザーであることが見出されて来た。ニ
シの式が出力状態に対応する確率の集合に適用される。等しい出力確率を有する
セル(各出力が等しく似ている)は少しの情報コンテントしか有しない。かくし
て、高い情報コンテントを有するデータ集合は他より高い、幾らかの確率を有す
る。より大きな確率的変動(greater probabilistic variations)は出力状態の
不平衡(imbalance in the output states)を反映し、従って該データ集合の高
い情報豊富さの指標を与える。
【0066】
好ましい方法では、一般的なエントロピー加重項(general entropic weighti
ng term)Wが規定され、W=1−Eの形式を有する。該エントロピー加重項W
はニシの情報エントロピー関数Eの補数(complement)であり、完全に不均一な
分布用に値1を有し、完全に均一な分布用に値0を有する。
【0067】
図6の方法600を再び参照すると、情報レベルはローカルエントロピー加重
項(local entropic weighting term)を計算することにより決定される。例え
ば、部分空間内の与えられたセル用に適当なものは次の仕方で規定され得るが、
すなわち最初に、過程610で、nCエントリーを有するデータ集合が創られ、
ここでnCは出力状態の数である。各エントリーは下記で与えられるセルi用の
特定状態向けローカル確率pC|iに対応しており、
【0068】
【数5】

【0069】
ここでnCiはcの出力状態を有するセルi内の点の数であり、該和はセルi内の
全ての出力状態kに亘り延び、かくしてセルi内の全ての点を含む。与えられセ
ルi用に、値pC|iのシーケンスは種々の出力状態cにある確率を表す。過程6
20で該セルの情報コンテントは決定される。好ましくは、ニシの情報エントロ
ピー規定が部分空間S内の与えられたセルi用のローカルエントロピー項Eを規
定するため使用されるのがよく、
【0070】
【数6】

【0071】
ここで和の変数kは出力状態、nCは出力状態(又は”カテゴリー”)の総数を
表し、そして
【0072】
【数7】

【0073】
である。
【0074】
勿論、全てのkに亘る全てのpk|iの和は1に等しいが、明確化のため上記に
含まれる。
【0075】
最後に、又過程620で、該ローカルエントロピー加重係数は
iLs=1−Eis
であり、ここで上書きLsはWが部分空間S内でセル用のローカルエントロピー
関数であることを呼称する。高い情報コンテントを有するセルは高いローカルエ
ントロピー加重を有する。すなわち、それらはWiLsの高い値を有する。
【0076】
代わりに、該情報コンテントは、該出力確率値の分散又は標準偏差を決定する
ことによるか、又は何等かの1つの出力が予め規定されたしきい値を上回る付随
確率を有するかどうかを決定することによる様な、均一性のもう1つのメザーに
より測定されてもよい。例えば、セルの確率分布に基づきセルに値を割り当てて
もよい。特に、予め決められた値より大きい何等かの出力状態確率を有するセル
は1の値を割り当てられ、該出力状態確率のどれも予め決められた値より大きく
ないどのセルも値0を割り当てられる。該予め決められた値は該フイーチャー部
分空間(モデル、フレームワーク、スーパーフレームワーク等)の結果に基づき
実験的に選ばれた定数である。該定数は又出力状態の数に基づいてもよい。例え
ば、何れかの出力状態が平均より大きい発生の尤度(greater-than-average lik
elihood of occurring)を有するセルの数を数えたいと願ってもよい。それで、
nの出力状態システムについて、1/nより大きい何等か1つの出力状態確率を
有するどんなセルも1の値を与えられるか、又はk/nより大きければ、或る定
数kが与えられる。他のセルはゼロの値を与えられる。
【0077】
代わりに、セルに与えられる加重は与えられた確率を越える出力状態の数に基
づいて増加出来る。例えば、4出力状態システムでは、0.25より大きい発生
確率を有する2つの出力状態を有するセルは2の加重を与えられる。更に進んだ
代替えとして、セルの又はグローバルな加重は出力状態の分散に基づくことが出
来る。他の同様な発見的方法が考慮下のセルの情報コンテントを決定するため使
用されてもよい。
【0078】
モデル化されつつある過程の出力が連続的な場合、ローカルエントロピーは方
法602に示す様に計算される。過程630で、該セルに存在する出力値の全て
を含むデータ集合が創られる。該セルの情報コンテントは過程640で計算され
る。出力に特定的な確率を処理する時、高い情報コンテントを有するデータ集合
は他より高い或る確率を有することが思い出される。出力値を直接処理する時、
しかしながら、過程630−670でその場合である様に、情報豊富な集合はよ
り均一なデータ値を有するそれらである。すなわち、高い情報集合は出力値では
より少ない変動を有する。かくして、もし情報コンテントが該ニシのエントロピ
ー計算を使用して決定されれば、該補数的値1−Eを形成する必要はない。この
場合の加重係数は簡単にニシのエントロピーEに等しい。
【0079】
加えて、過程650と660で示す様に、低エントロピーセルにゼロを設定す
るようにしきい値限定を適用することが望ましい。これはグローバルな計算が行
われる時意味のない情報コンテントを有するセルの情報コンテントを累積するこ
とに付随する誤った影響を制限する助けになる。ローカルなセルのエントロピー
の計算は過程670に示す様に完了する。
【0080】
代わりに、連続的出力システムを取り扱う時、該出力を複数のカテゴリーに量
子化し、各量子化レベルでの確率を有するデータ集合を規定するために、過程6
10で示す上記方法の過程を使用することが可能である。残りの過程620も、
上記説明の様にエントロピー加重を計算することによって、該情報コンテントを
決定するため行われる。
ローカルエントロピーの加重和としてのグローバルエントロピーの計算
図7を参照すると、部分空間S用のグローバルエントロピーWgsは次いで、そ
の部分空間内の全セルに亘りローカルセルエントロピーWlsのセル母集団加重和
(cell-population-weighted sum)として計算される。
【0081】
【数8】

【0082】
ここでnは部分空間S内のセル数を表し、nisは部分空間S内のセルi内のカウ
ント(データ点)数を表す。実際は、これは、それがその部分空間内のセルのピ
ューリテイ(purity)の全体的メザーを記述するので、グローバルエントロピー
の有用なメザーであることになった。図8はローカルとグローバルの情報コンテ
ントの計算を図解する。図9はローカルとグローバルのエントロピーパラメータ
ーの例を示す。高い情報コンテントを有する部分空間はWgsの高い値を有する。
出力状態依存のグローバルエントロピーを計算する代替え的方法
規定された基本的統計量は、該出力が部分空間S内の状態c内にあるとした場
合にセルi内にある確率を表す確率pi|cである。
【0083】
【数9】

【0084】
ここでnciは出力状態cを有するセルi内の点の数であり、該和は部分空間S内
の全てのセルjに亘って伸展する。
【0085】
該ニシの情報エントロピー規定が部分空間S内の与えられた出力状態cについ
てグローバルエントロピー項Wgscを規定するため使用出来る。最初に、与えら
れた状態c用のニシのエントロピーが計算される:
【0086】
【数10】

【0087】
ここでnはセル数であり、
【0088】
【数11】

【0089】
である。
【0090】
再び、状態に特定的な確率(state-specific probabilities)の全てのセルに
亘る和である、分母は1に等しいが、一貫性と明確化のために上記表現に含まれ
る。ESCはかくして該部分空間S上の確率pSi|cの分布のグローバルな均一性を
表す。最後に、該グローバルエントロピー項Wcgsは下記で規定され
cgs=1−ESc
それは部分空間S内でのカテゴリーc用のグローバルな出力に特定的なエントロ
ピー加重項である。これは、それが全体の部分空間を通しての点の分布(出力c
に対応する)のクラスタリングを表す意味でグローバルなメザーである。高い情
報コンテントを有する部分空間は高い値のWcgSを有する。
グローバルエントロピー加重係数の代替え的規定用のカテゴリーから独立した一
般化
全カテゴリーに亘り加算することにより、代替え的グローバルエントロピー加
重係数はカテゴリーから独立したグローバルエントロピー加重係数として規定さ

【0091】
【数12】

【0092】
ここでn’は=ncnで、それは出力状態数とセル数の積であり、ここでは
【0093】
【数13】

【0094】
である。勿論、上記式の分母は
【0095】
【数14】

【0096】
と簡単化され、それはニシの式で使用される確率が適切に正規化されることを示
す。この代替えの規定は出力状態数が多く、そして計算効率が望まれる状況で有
用と信じられる。
【0097】
上記議論で、該システムの出力値が離散的(discrete)、又は”カテゴリー的
(categorical)”であることが仮定されている。同じ方法は、エントロピー計
算の前に最初に出力値を離散的状態又はカテゴリーに人工的に量子化することに
より、例え該出力値が連続的であっても、ローカル及びグローバルエントロピー
を計算するため使用される。
【0098】
トレーニングのデータ集合の出力状態の母集団の分布は該モデルの究極的有効
性(ultimate validity)に付随されることは述べる価値がある。上記解析で、
該データ集合はバランスされていると仮定されてもいるが、しかしながら、この
様なことは常にはその場合ではない。2つの出力状態、AとBとがある問題を考
える。もし該トレーニングデータ集合が状態Aを表すデータ項目から主として成
るならば、該母集団の統計はアンバランスとなり、ことによると偏倚されたモデ
ルの創生となる。インバランスの理由は、データコレクター(data collector)
の部分での偏倚か、又は該データ集合の親母集団特性にある真性のインバランス
か何れかである。
【0099】
該データコレクターの部分での偏倚の場合、セル内の母集団統計がデータ項目
の絶対数より寧ろ該セル内に存在する与えられた出力状態のデータ項目の部分を
参照するように簡単な正規化が行われ得る。この正規化は多くの実験データ集合
で成功裡に使われて来た。第2の場合では、該インバランスは”真実(real)”
であるので、正規化は適当ではないかも知れない。
【0100】
データ正規化の例は次の様である。
【0101】
2つの出力状態AとBがある100項目を有するデータ集合を考える。状態A
に対応する75項目と状態Bに対応する25項目とがあると仮定する。状態Aに
対応する5項目と状態Bに対応する5項目を有する全部で10項目がある部分空
間内のセルを考える。絶対項では、我々は各エントリーが特定の状態用のカウン
トを参照する{5,5}に対応する”カウントデータ集合”を有するので、これ
はインピュアセル(impure cell)である。しかしながら、該データは次の様に
その状態用の全体のカウントに対して各カウントを正規化することによりバラン
スさせられてもよい。
【0102】
【表1】

【0103】
該表からの該分数的カウントは次いでエントロピー計算で使用される。
【0104】
データ集合DはD={1/15、1/5}、dtotal=1/15+1/5=4
/15を伴い、正規化されたデータ集合FはF={1/4,3/4}となる。エ
ントロピーEは次の様に計算される。
【0105】
E={0.25ln(0.25)+0.75ln(0.75)}/ln(1
/2)=0.811
変型されたニシのエントロピーWは1−E、すなわち1−0.811=0.1
89である。図2Cはデータ集合内で与えられた出力状態が支配的な時データの
影響をバランスさせる方法を図解するブロック図である。
予測指向の適応度関数を用いたモデル発展
一旦入力が量子化され、フイーチャー部分空間のプールが遺伝的アルゴリズム
により初めに同定されると、それらの好ましい部分空間の組み合わせを形成する
ことによりモデルが発生される。上記説明の様に、データ又はトレーニングデー
タ集合と呼ばれるデータの部分集合は、そこから情報が抽出され得る多くのフイ
ーチャー部分空間トポグラフイ(feature subspace topographies)を創るため
に使用される。高い情報コンテントを有する部分空間が一旦同定されると、これ
らの部分空間は、出力予測の目的で該データが内部へ射影される”ルックアップ
(look up)”部分空間として使用される。
【0106】
特定の部分空間による出力予測は該特定の部分空間内の与えられたセル内の出
力状態の分布により決定される。すなわち、各データ点(又はテストデータ部分
空間内の各点)は、図3A−Cに関係して見られる様に、与えられた部分空間内
の1つのセル内に分類される。各データ点に付随する出力を予測しようとして、
人は、部分空間(全体のデータ集合、又はトレーニング部分集合)を占めるため
使用されるデータの分布を単に見て、予測に到達するためこれを使用する。特定
の部分空間による出力予測用に従う簡単な規則は、該出力が状態cにあるとなる
べき確率がpc|iにより与えられることである。この”ローカル”確率はフイー
チャー部分空間内の与えられたセルを占めるサンプル点の出力分布を単に表して
いる。
【0107】
与えられたモデルは部分空間の組み合わせであり、従って、該モデル内の考慮
下の全ての部分空間に関して各点が調べられる。該ローカル確率は本質的に”ベ
ース(base)”量であり、それは次いでモデル内のローカル及びグローバルの両
エントロピーにより加重される。該用語”ローカルエントロピー”と”グローバ
ルエントロピー”は”エントロピー的係数”又は”エントロピー的加重”として
ここでは集合的に引用される。それは、簡単な確率的モデルと比較した時本方法
をかなりより精密化するモデル予測を決定するグローバル及びローカルの両方の
情報定量評価(information metrics)の追加である。このエントロピー係数の
目的は”情報豊富”な部分空間内の”情報豊富”なセルを際立たせ(emphasize
)、個別的に情報が貧弱か{すなわち、情報豊富さの少ない(less information
-rich)}、又は情報貧弱な部分空間内に置かれるか何れかであるセルを軽視(d
e-emphasize)することである。
【0108】
かくして発展型モデル過程をドライブするため使用される各部分空間組み合わ
せ又はモデル用の適応度関数は、予測のエントロピー的加重和と、該予測と該テ
ストデータ点に付随する実際の出力値との間の付随誤差率(associated error r
ate)とである(再び、全体データ集合か又は部分集合かの何れか)。
【0109】
かくして、該方法の1側面に依ると、ローカル及びグローバルエントロピー加
重係数は該フイーチャー部分空間の情報コンテントを特徴付けるために使用され
る。フイーチャー部分空間セルの寄与をローカル及びグローバルな情報メザーに
より加重することにより、該方法は種々の種類のノイズ源を有効に抑制すること
が出来る。1つのこの様なノイズ源はセル内のローカルノイズである。もしセル
内の出力状態の分布が均一であるなら、そのセルは少しの予測情報しか有しない
。与えられた出力状態の確率はセル内の出力状態の全分布の性質をほのめかすこ
とは出来るが、それは全体の物語は述べない。全ての他の出力状態の分布は与え
られた出力状態の確率内には含まれない。2進出力システムの他の何れでも、1
つの出力状態確率内に含まれた情報はかくして不完全である。個別セルに付随す
るローカルエントロピー項の計算は全体のローカル確率分布を特徴付ける加重係
数となる。
【0110】
上記説明の様に、該グローバルエントロピー係数は比較目的に幾つかの異なる
方法で計算出来る。部分空間のグローバルエントロピーを規定する好ましい技術
はグローバルエントロピーをローカルセルエントロピーのセル母集団加重和(ce
ll-population-weighted sum)として規定することである。該ローカルエントロ
ピーは部分空間内の各セル用に計算され、この部分空間用の該グローバルエント
ロピーは次いで全てのセルに亘りセル母集団加重和を行うことにより計算される
。これは部分空間について全体のグローバルセル情報エントロピーを測定する(
部分空間のセル全部上で)。
【0111】
代わりのグローバルメザーは全体の部分空間上で該セル内の各出力状態の確率
分布を調べる。もしこの分布が均一なら、関心のある該部分空間はその出力状態
について少しの予測情報しか有さない。この実施例で、部分空間内で各出力状態
用に別々のグローバルエントロピー項が計算される。この代わりのグローバルエ
ントロピー項は、各出力状態用に同じである、前に説明したグローバルエントロ
ピー項とは異なる。この代わりのグローバルエントロピーのメザーは、与えられ
た部分空間が1つの出力状態に関しては”情報豊富”であるが、異なる出力状態
に関しては”情報が貧弱”である可能性を受け入れる。
【0112】
本方法はノイズを抑制するためにローカル及びグローバルの両方のベースの加
重係数の独立した計算を考慮する。これらの係数は最大の予測精度用にローカル
及びグローバル情報の間の最適バランスを得るために個別に調整、又は”ツイー
ク(tweaked)”される。多くの従来技術のデータモデリングシステムでは、ロ
ーカル及びグローバル加重係数の相対的大きさを便利に調整することは難しい。
前記の様に、大抵の従来技術の方法は解に到達するために全体のデータ集合上で
の目的関数(objective function)の最適化に依存する。
【0113】
もう1つの関連項目は冗長度(redundancy)のそれである。幾つかの入力フイ
ーチャーは与えられた出力に関する本質的に同じ情報コンテントを含んでいる。
例え2つのフイーチャーが特定の出力状態に関する情報を含まなくても、それら
はなお相関しているかも知れない。冗長度は本発明の方法を本質的に制限せず、
事実、それは全体の計算コストを増やすけれども、創られるローバストさを該モ
デルに組み入れる方法として非常に役立ち得る。情報メザーを使用するクラスタ
リング方法はフイーチャー間の冗長度を同定するために利用可能であり、下記で
論じる。
【0114】
ローカル及びグローバルの両方のエントロピー加重係数は分布の”構造”量(
amount of "structure")を測定する。分布がより少ししか均一でない、又は”
より多く構造化されて(more structured)”いる程、その対応するエントロピ
ー加重Wはより高い。データ空間の構造のこの側面はローカル及びグローバルの
統計の重要性を加重するため使用される。
【0115】
ローカル及びグローバルの両エントロピー項の計算は該方法でのローカル及び
グローバルな情報加重係数の別々な制御を考慮する。生ずる自然な問題はローカ
ルさの規定であり、ローカルとはどれ程ローカルなのか?この質問の回答は勿論
取り組まれる特定の問題による。好ましい実施例に依れば、該方法は該ビンの解
像を走査することによりローカルさの最良の説明をシステム的に探索するが、該
解像度は今度は最高の予測精度を提供するために多次元のセルサイズを決定する
。特に、情報豊富なフイーチャー部分空間の異なるグループが同定され(エグゾ
ースチブな探索か又はフイーチャー部分空間発展かの何れかにより)、そこでは
各グループは部分空間当たり異なる数のセルnを使用する。事実、セル数nは最
小値から最大値までエグゾースチブに探索される。セルの最大数はセル当たりの
点の最小平均の意味で指定されるが、それは余りに多くのビンで部分空間の分解
能を上げ過ぎることは望ましくないからである。最小数は1より例え小さくても
よい。
【0116】
この点で出力状態の特性をより詳細に考慮することは余談に入る価値がある。
本発明の方法では、入力の量子化は多次元部分空間を創るために行われる。分類
問題では、該出力変数は離散的カテゴリー又は状態であり、かくして既に量子化
されている。定量的モデリングでは、出力変数は連続的である。この様な場合、
1つの起こり得る解は該出力状態空間の離散ビンへの人工的な量子化を行うこと
である。該出力データ空間が量子化された後、上記で説明した離散的モデリング
フレームワークがローカル及びグローバルエントロピー係数を測定するために使
用され得る。これらのエントロピー係数は下記説明の方法を用いて該出力の連続
値の予測に使用され得る。
【0117】
精度に関する重要なメザーは出力状態カテゴリーの数、ncの平均全セル母集
団統計に対する比<npop>である。もしncが<npop>より遙かに大きければ
、大抵の出力状態はセル内で空いており、貧弱な統計となり、モデルでの起こり
得る劣化となる。これは再びより多くのデータを主張し(argues for)、それは
データドライブされるモデルには当然である。コンピユータハードウエア技術の
進歩と共に、多量のデータ集合の取得と記憶の能力は急激に増加し、本発明の方
法は該データからの情報抽出を可能にする。該方法は、ncの値が小さい(1−
10の桁で)多くの真実の世界の問題でncが<npop>より遙かに大きい時でも
驚く程良く作動することが分かった。これは多数の部分空間上での加算統計の協
力効果のためかも知れない。
【0118】
抄録すると、フイーチャー部分空間に付随するグローバルエントロピー係数は
、遺伝的アルゴリズムを使用して最も情報豊富なフイーチャーのプールを発展さ
せるため使用される適応度関数として使用され得る。このプールの決定は前に説
明したデータ量子化条件に依存する。セル当たりサンプル点の平均数が減少する
と、該ローカル及びグローバルエントロピー情報メザーは一般に増加する。しか
しながら、これは、これらの量子化条件が最終モデルの開発で良く一般化するこ
とを必ずしも意味しない。実際に、セル当たりサンプル点の平均数が1より可成
り少ない(すなわち、0.1以下)量子化条件下でフイーチャーを発展させるこ
とはなお精確なモデルに帰着する。これは主に、該フイーチャープール内の多数
の部分空間上での加算統計の協力効果のためである。
システム入力からシステム出力を最も精密に予測するフイーチャーデータ集合の
部分集合の決定
図10を参照すると、高い情報エントロピーを有するフイーチャーデータ集合
が一旦決定されると、このフイーチャー集合は予測モデルを直接開発するため使
用されてもよい。しかしながら、発展型方法(evolutionary method)を使用す
る該フイーチャー選択過程は、比較的高い情報エントロピーを有する高次元数デ
ータ空間内でそれらのフイーチャーのみを保持することによりいわゆる”次元数
の災い(curse of dimensionality)”を緩和する可成りの利点を有する。この
関係で、N次元空間内の起こり得る2進フイーチャービット記号列の総数は2N
であり、その量はNと共に指数関数的に増加することを注意すべきである。
【0119】
一旦フイーチャーデータ集合が決定されると、どんなサンプルデータ点用にも
出力状態確率ベクトルを計算することが出来る。図14を参照すると、このベク
トルを計算するためには、全加重係数を創るよう該ローカル及びグローバルエン
トロピー加重係数を組み合わせることが最初に必要である。本発明の方法では、
該ローカル及びグローバルエントロピー加重を含む一般的第3次表現が最適モデ
ル性能用に実験的に調整された係数を用いて規定される。該全加重係数用の一般
的表現はかくして次の様に見られる。
【0120】
Sic=a(Wlsi2gsc+b(Wgsc2lsi+c(Wlsi2
d(Wgsc2+eWlsigsc+fWlsi+gWgsc+h
かくして、各部分空間S内の各セルiは該与えられた部分空間S用の該ローカ
ル及びグローバル加重の組み合わせである付随する一般的加重係数WSを有する
(該式は又グローバル加重係数Wgsが出力状態依存性であり、従って該一般的
加重係数が出力状態依存性であることを示すことに注意を要す。該グローバル加
重係数が全ての出力状態に亘って計算される場合、出力状態cへの依存は除かれ
る)。
【0121】
aからhまでのパラメーターは最も精密なモデル、フレーム、スーパーフレー
ム他を得るために実験的に調整される。多くの問題では、該グローバルエントロ
ピー回数も存在するが、該加重係数は該ローカルエントロピー加重係数により支
配される。それはここで説明される方法がフイーチャー部分空間内のローカル統
計に可成りの重要性を提供する点を強化し、それはここに説明される方法と従来
技術のモデル化の取り組みとの間を際立たせる特徴である。該モデル用の信頼限
界の確立の中では、該モデル係数は該誤差統計を計算するために変更され得る。
【0122】
一旦WSic用の適当な値が決定されると、サンプル点d用の各出力状態の確率
は次の様に計算出来る。
【0123】
【数15】

【0124】
ここで該加算は全ns部分空間上に延び、サンプル点dは各部分空間内の対応す
るセルid内へ射影するよう仮定され、該ローカル確率pc|idは該点がセルid
へ写像する事実がある時、該出力が状態cである確率である。上記の様に、もし
一般的エントロピー加重が出力依存でないならば、一般的エントロピー加重の下
付き文字cは上記式で無視されてもよい。各出力状態c用確率は次いで確率ベク
トル内に組み合わされ得る。
【0125】
P(d)={P1(d),...,PKc(d)}/N(i)
ここでKc出力状態が仮定され、そして
N(i)=ΣPc(i)
は正規化係数で、確率の和が1であることを保証するために、c=1からKc
でに亘り加算される。
【0126】
出力状態確率ベクトルP(i)はサンプル点dの分類までの該データ空間内に
含まれた情報を要約している。ニューラルネットワークの様な種々の従来技術の
モデル化の取り組みも同様なベクトルとなり、異なる取り組みは該結果を解釈す
ると取られた。1994年発行の、レビューオブサイエンテイフイックインスツ
ルメント(Review of Scientific Istruments)、65巻(6)、1803−1
832pp、ビショップ、シー.エム.(Bishop,C.M.)著”ニューラルネット
ワークとそれらの応用(Neural networks and Their Applications)”で説明さ
れる様に、共通に使用される方法は、予測された出力状態を発生の最も大きな確
率を有する状態として割り当てる”勝者1人占め(winner take all)”戦術を
使用することである。
フイーチャー部分空間の部分集合を使用する最適モデルの発展
高いグローバルエントロピー加重を有する部分空間を同定するための発展型方
法は上記で論じられた。これは次元数の災い(curse)が明らかな多くの入力フ
イーチャーを有する問題で特に有用である。第1の発展段階では、該発展をドラ
イブする適応度関数は部分空間のグローバルエントロピーである。最も良く予測
するモデルを決定するために発展の概念を使うことも可能である。第2の発展段
階では目標はテストデータ集合で最低誤差となる高いグローバルエントロピーを
有するフイーチャー部分空間の最適部分集合を同定することである。この第2の
発展段階は最良の予測モデルを作るために協力的仕方で”一緒に良く作用する(
work well together)”部分空間をグループ化する。同時に該モデリング過程で
追加的ノイズを導入する部分空間は第2発展段階中に間引かれる(culled)。図
15を参照すると、この第2発展段階での該適応度関数は次いで、フイーチャー
部分空間の特定の部分集合を使用することから得られるテスト集合内の全体の予
測誤差である。
【0127】
Mが予め決められている第1発展段階の後にMのフイーチャーが高グローバル
エントロピーを有するフイーチャー部分空間の最後の遺伝子プール内に存在すれ
ば、フイーチャーの最適組み合わせを見出すために第2発展過程が使用される。
Mビットの”モデルベクトル”が規定されるが、そこでは各ビット位置は与えら
れたフイーチャーの在り、無しをエンコードする。該モデルベクトルによりエン
コードされた該フイーチャーを使用してトレーニングとテステイングが行われ、
該適応度関数はテスト集合上のモデリング過程から生じる適当な性能定量評価で
ある。分類問題用には、該適当な性能定量評価は該テスト集合内に正しく分類さ
れるサンプルのパーセントである。定量的モデリング問題用には、該適当な性能
定量評価は該テスト集合内の予測と実際の値の間の正規化された絶対差であり下
記で与えられ
【0128】
【数16】

【0129】
ここでaiはテスト点d用の実際出力値、pdは該テスト点d用の予測値、dmax
はテスト点値の出力範囲の最大値、そしてdminはテスト点値の該範囲の最小出
力値である。
【0130】
一旦第2発展過程が終了すると、最適モデルベクトルが該モデリング過程用の
最適フイーチャー組み合わせを選択するため使用される。それで、第1発展段階
は高情報エントロピーのフイーチャーのプールを同定したが、該プールはテスト
集合内の予測誤差を最小にする最良部分集合のフイーチャーを見出すために該第
2発展段階で更に発展させられる。この全体の過程は該モデリング問題への最良
の実験的解を見出すために種々の発展的条件と制限下で繰り返される。
【0131】
かくして本発明の方法は階層的発展の概念を組み入れるが、そこでは最も情報
豊富なフイーチャーのみならず、最良予測モデルを開発するために必要なフイー
チャー部分空間の最適部分集合も、双方を同定するために、発展的方法が使用さ
れる。2つに発展段階を有することは該方法のユニークな利点を提供する。第1
段階は手元の問題に見通しを得るために何れの次のモデリング過程からも独立し
て調べ得るフイーチャー部分空間の情報豊富な部分集合を作る。この見通しは今
度は意志決定過程を導くため使用出来る。
【0132】
従来技術のモデリングパラダイムでの共通の苦言はそれらが入力フイーチャー
内の何処に情報があるかを容易には明らかにしないことである。この欠点は従来
技術の方法の能力を戦略計画と意志決定に参画することを制限する。本発明の方
法では、第1発展段階の後の区切り点が、知的戦略計画と意志決定の可能性のみ
ならず、次のモデリング過程が進める価値があるかどうかを決定する機会も考慮
する。例えば、もし入力フイーチャーの充分豊富な集合が見出せないならば、本
発明の方法は、ローバストなモデルを開発する前に、より情報豊富なフイーチャ
ーを入力として含むデータへ戻るようモデル作成者(modeler)に指し示す。本
方法はどの情報がないかを指定はしないが、本方法は充たされる必要のある情報
ギャップがあることを指示する。情報ギャップ自体のこの指示は複雑な過程の理
解で非常に価値がある。
情報写像の創生(Creation of Information Map)
図11を参照すると、該第1発展段階の後、該問題の基本的理解を得るために
該発展したフイーチャーデータ集合内に存在する入力の発生頻度のヒストグラム
を作ることも又非常に有用である。このヒストグラムは該問題用の”情報写像(
Information Map)”と規定出来る。幾つかの問題用には、該情報写像の構造は
、入力の或る部分集合が入力の他の部分集合より可成り頻繁に起こるならば該問
題の次元数を減らすために使用出来る。該部分集合の次元数を減らすことは、セ
ル当たりサンプル点の平均数で部分空間を占めるために必要なデータ量が該次元
数の増加につれて指数関数的に増加する様な次元数の災いのもう1つの側面を緩
和する追加的利点を有する。図12は遺伝子リストとその付随情報写像の例であ
る。
エグゾースチブ(Exhausitve)な次元的モデリング
図13を参照すると、もしこの様な次元数削減が可能なら、予測モデルは減少
した入力データ集合を使用して開発可能である。本方法の好ましい実施例に依れ
ば、Nの最も共通に起こる入力が該情報写像から同定され、次いでNより小さい
か等しい全てのM用に該NのフイーチャーのMの部分次元(sub-dimensions)内
への全ての起こり得る射影(projection)が該フイーチャー部分空間を規定する
ため計算される。全てのこの様な射影を計算する帰納的アルゴリズム(recursiv
e algorithm)は次の様である。
【0133】
フイーチャーの全ての組み合わせを計算する帰納的技術(recursive techniqu
e)は:各部分次元M用に、Nの数のリスト内で全てのMケ組のもの(M-tuples
)(長さMの組み合わせ)を同定する問題を考える。第1要素が最初に選択され
次いでN−1の数の残りのリスト内の全ての(M−1)ケ組のもの(長さM−1
の組み合わせ)が帰納的仕方で同定される必要がある。一旦全てのこの様な(M
−1)ケ組のものが同定され、該第1要素と組み合わされると、元のリストの第
2要素が新しい第1要素として選択され、次いで該第2要素の過ぎた該N−2の
残りの要素内の全ての(M−1)ケ組のものが同定される。この過程は該第1要
素が該元のリストの終わりからのM+1番目の要素を越えるまで続く。該アルゴ
リズムはそれがそれ自身を呼ぶので本質的に帰納的であり、それは又該要素の順
序付けが重要でないことを仮定している。
【0134】
一旦与えられた部分次元M用の全てのフイーチャーの部分空間のプールが同定
されると、このプールは、上記説明の方法を使用してテスト集合内の出力値を予
測するために使用されるフイーチャー部分空間の集合として直接使用され得る。
この過程は各部分次元M用の複数の量子化条件に亘って繰り返され得る。次いで
最適な(部分次元、量子化)−対{optimum(sub-dimension, quantization)-p
airs}がテスト集合上の全予測誤差を最小化することに基づいて選択される。最
適な(部分次元、量子化)対が選択された後、該最適な(部分次元、量子化)条
件に対応するフイーチャー部分空間のプールは該第2の発展段階用のスタート点
として使用され得る。この第2発展段階はテスト集合内に最小全予測誤差を有す
るこのプールからフイーチャー部分空間の最適部分集合を選択し、かくして最適
モデルを規定する。
【0135】
一般的規則として、テスト集合上で充分な全予測精度をなお保存する比較的低
い部分次元表現を決定することが有利と分かった。より低い部分次元で、より高
いセル母集団統計が量子化の比較的精細なレベルに於いてさえもなお保持され得
て、かくして該モデルの精度を改善する。
【0136】
もし元のデータ集合の次元が非常には高くないなら、エグゾースチブな次元モ
デリングの方法は元のデータ集合に直接適用され得る。これは高情報エントロピ
ーを有するフイーチャーのプールを同定する第1発展過程を行う必要性を取り除
く。
定量的モデリング
出力変数の人工的量子化を行うことによる定量的モデリング問題の分類問題へ
の変換はローカル及びグローバルエントロピー係数を計算するために有用である
。発生する自然な疑問は元のデータ集合内に存在する精度を如何に最終予測モデ
ル内に保存するかである。これは、もし出力ビン解像度が乏しいセル統計を避け
るためデータ集合のサイズにより抑制されるならば、特に重要である。伝統的分
類問題用には、出力変数が起こり得る状態の離散的総体(ensemble)の1つを仮
定出来るのみなので該精度問題(precision issue)は存在しない。
【0137】
出力変数の人工的量子化を行う1つの利点はローカル及びグローバル情報メザ
ーの計算が、サンプル点の数から共に独立したカテゴリー又はセル上で加算が行
われるシャノンの項に基づくことである。これはサンプル母集団統計を情報コン
テントから分離することを容易化する。定量的モデリング用には、出力変数の人
工的量子化は該ローカル及びグローバルエントロピーが同じ方法で計算されるこ
とを可能にして、かくしてサンプル母集団統計からの情報メザーの分離を保持す
る。
【0138】
出力変数量子化を使用してローカル及びグローバル情報メザーが計算された後
、生の出力変数内の精度は最終予測モデル内の精度を回復するため使用され得る

【0139】
最初に出力値の”スペクトラム”が全ての人工的出力変数カテゴリーに亘って
バランスを取られる。これは、各カテゴリー内の最終母集団が共通の目標値にあ
るように各出力カテゴリー内の各データ項目を或る尺度係数で有効に複製するこ
とにより達成される。典型的共通目標値はデータ点の全数を表す数である。
【0140】
データバランス化の1方法が上記で説明されたが、特定状態確率(state-spec
ific probabilities)はその状態に対応する点の数に基づき正規化される。デー
タを明確に複製することなくデータをバランス化する代わりの取り組みを下記で
説明する。ニシの情報エントロピー項の計算は、Nがデータ集合のサイズを表す
場合のln(1/N)係数を含む正規化項を有するが、この正規化は主にエント
ロピー項を0と1の間の値に制限するため役立っている。該正規化項は、均一性
の程度が該データ集合のサイズに依存する問題に直接向けられていない。
【0141】
小さなデータ集合用には、該データ項目の該データ集合内の全データ項目の全
体への正規化は微妙な偏倚を招く。例えデータ内の絶対的変動が比肩されるもの
でも、より小さいデータ集合内の正規化されたデータ項目間の相対変動は、より
大きなデータ集合内の対応する項目間のそれより大きくなり得る。この偏倚を正
すために、データバランス化過程が導入される。該バランス化過程を下記に説明
する。
【0142】
2つのデータ集合D1とD2を考えるが、ここで該集合はそれぞれ、第1及び第
2出力状態に対応する入力を表す。D1はN1項目を有し、D2はN2項目を有する
。MがN1とN2の最小公倍数を、M1とM2が対応するデータ集合の各々用の掛け
算尺度係数(multiplying scale factors)を表す。もしD1をM1倍、そしてD2
をM2倍だけ複製するなら、最終両データ集合D’1とD’2はM項目を有する。
必要な代数計算を行った後、新データ集合の各々用のニシのエントロピー項は次
の様に変型される。
【0143】
E’1={ln(1/M1)+Σfilnfi}/{ln(1/M1)+ln(
1/N1)}
E’2={ln(1/M2)+Σf’ilnf’i}/{ln(1/M2)+ln
(1/N2)}
ここでfiとf’iはそれぞれ元のデータ集合D1とD2上で正規化されたデータ部
分を表す。
【0144】
もしセル内の出力データが密にクラスターされていれば、Wlocalは高い。逆
に、もし該出力データが該セル内で全ての人工的出力カテゴリー上にばらまかれ
ていれば、Wlocalは低い。該グローバルエントロピーは簡単に該部分空間内の
セル上での数加重平均<Wilocal>として規定出来る。Wglobalは該部分空間内
の情報の正規化総量を測定する。最後に、カテゴリーベースの分類で使用される
基本確率定量評価Psicは平均(又は代わりに中央値又は他の代表的統計量)セ
ルアナログ出力値で置き換えられ得る。該部分空間上での平均セルアナログ出力
値の加重和は次いで出力値を予測する離散的な場合に於ける様に行われることも
出来る。それらの出力値で広いばらつき(spread)を有するセルは、個別セルが
情報豊富でない部分空間でそうなる様に、下げて加重されることを注意する。
【0145】
セルの平均出力値μSiの見積もりで、上記で規定したデータ複製尺度係数がバ
ランス化されたデータ集合用にセル内平均値を計算するため使用される。該デー
タバランス化過程はトレーニングデータ集合内の出力値の分布により導入される
何等かの偏倚を除去するために行われる。
【0146】
【数17】

【0147】
ここでnはセル内の項目の全数を表し、ojは第j番の項目の出力値を表しそし
てMjは第j番のデータ項目に付随するデータ複製係数(data replication fact
or)を表すが、該データ複製係数は該第j番の項目が属する人工的に量子化され
た状態に依存する。
【0148】
情報が貧者なセル及び部分空間からの”クリープ誤差(creep error)”を減
らすために、オプションとして下記の過程が行われる。最初に、情報豊富な部分
空間が離散出力状態の議論で前に説明した様に発展させられる。一旦最も情報豊
富な部分空間が発展させられると、ローカル及びグローバル両エントロピーしき
い値が、該情報豊富な部分空間に付随する平均値か又は中間値か何れかのエント
ロピー加重和の計算に向かって適用される。該ローカルエントロピーしきい値よ
り低いセル用ローカルエントロピー値はゼロ(0)に設定される。同様に、該平
均の計算で誤差が徐々に累積されるのを避けるために、該グローバルエントロピ
ーしきい値より低い部分空間用グローバルエントロピー値はゼロ(0)に設定さ
れる。
【0149】
該ローカル及びグローバルエントロピー関数のしきい値処理(thresholding)
で、グローバルエントロピー関数の値の基づき該ローカルエントロピーの追加的
しきい値処理を行うことが望ましいことが屡々ある。与えられた部分空間射影用
のグローバルエントロピーがその対応するしきい値の下にあれば、その部分空間
内の全てのセル用の該ローカルエントロピー関数はそれらの個別値に関係なくオ
プション的にゼロに設定出来る。前記説明のしきい値処理方法は又離散型出力状
態モデリング用にもオプションとして行い得るが、クリープ誤差を最小化するた
めにより制限的過程が取られるべき定量的モデリング用でより高い価値がある。
【0150】
最後に、該しきい値処理過程を有しても有さなくても、本発明の方法はサンプ
ルのテスト集合上で最小全出力誤差に帰着する情報豊富な部分空間の最適組み合
わせを発展させ得る。又本発明の範囲内の定量的モデリングの方法は階層的発展
をも含む。第1発展段階で、最も情報豊富な部分空間が、グローバルエントロピ
ーを適応度関数として使用して、発展させられ、第2発展段階が続くがそこでは
最小テスト誤差に帰着する情報豊富な部分空間の最適組み合わせが発展させられ
る。
【0151】
従来技術の方法に対する本発明の方法の利点はカテゴリー的及び定量的の両モ
デリングに共通のパラダイムが使用されることである。実験型のモデリングと過
程理解とのための基礎としての分布状階層的発展の概念は、出力変数の唯1つ(
連続型か離散型か何れか)の種類用にしか最適化されない従来技術の方法と対照
的に、出力変数の両クラス(連続型及び離散型の両方)に適用される。
分布状階層的発展
ここに説明される方法は、”対象(object)”、例えば、フイーチャー、モデ
ル、フレームワーク、そしてスーパーフレームワーク、の階層を創るために、情
報理論からの概念を用いて、データの画像的表現、又はデータの多次元的表現の
概念を使用する。用語”分布状階層的発展(distributed hierachial evolution
)”は、モデル、フレームワーク、スーパーフレームワーク他の様な逐次より複
雑で相互作用する発展型”対象”のグループが複雑なデータの漸進的により大き
い量をモデル化し理解するため創られる発展型過程として規定される。大きな、
複雑なデータ集合用には、前に説明したモデル創生過程が、最適モデルのグルー
プを見出すために種々のトレーニング及びデータ集合上で繰り返される。最適モ
デルのグループの情報豊富な部分集合は次の様に決定される。
【0152】
図16を参照すると、テストデータ集合の入力がモデルの選択された部分集合
グループ(ランダムに選択されてよい)の各モデルに差し出され,各部分集合で
予測される出力が各テストデータ出力と比較される。該部分集合で予測される出
力の計算の過程は個別モデルを創るための過程と同様な仕方で行われ、そこでは
個別のモデルで予測される値を入力としてそして実際の出力値を該出力として使
用して、新しいトレーニング及びテストのデータ集合が創られる。この過程はモ
デルの多数の選択された部分集合グループ用に繰り返される。次いで該選択され
た部分集合グループは、”フレームワーク”と呼ばれるものを規定するためにシ
ステム入力からシステム出力を最も精確に予測するモデルの最適部分集合グルー
プを見出すために発展させられる。図17Aと17Bはフレームワーク発展の概
念を図解する。
【0153】
図18Aを参照すると、該フレームワーク創生過程は更に、最適フレームワー
クのグループを見出すためにモデル創生過程と同様な仕方で、繰り返される。最
適フレームワークのグループの情報豊富な部分集合は次の様に決定される。テス
トデータ集合の入力がフレームワークの選択された部分集合グループの各フレー
ムワークに印加され、各フレームワーク部分集合で予測される出力が各テストデ
ータ出力と比較される。フレームワーク部分集合で予測される出力を計算する過
程は個別モデルを創る過程と同様な仕方で行われるが、そこでは新しいトレーニ
ング及びテストのデータ集合が個別のフレームワークで予測された値を入力とし
て、そして実際の出力値を該出力として使用して創られる。この過程はフレーム
ワークの多数の選択された部分集合グループ用に繰り返される。該選択された部
分集合グルプは次いで、システム入力からシステム出力を最も精確に予測するフ
レームワークの最適部分集合グループ(これは”スーパーフレームワーク”と呼
ばれる)を見出すために発展させられる。図18Bはスーパーフレームワーク発
展用の考慮を図解する。
【0154】
最適モデル決定過程、最適フレームワーク決定過程、或いは最適スーパーフレ
ームワーク決定過程は、予め決められた停止条件が達成されるまで、繰り返され
てもよい。該停止条件は、例えば、:1)予め決められた予測精度の達成、又は
2)予測精度で更に進む改善が達成されない時、の様に規定されてもよい。本発
明の方法はかくして実験データ集合上に分布した多数の相互作用する発展型対象
の階層が同定される伸長可能な発展型過程である。発展対象の該階層の深さは解
析されるべきデータ集合の複雑さにより決定される。簡単なデータ集合用には、
全データ集合の非常に小さな部分集合を使用する1つのコンパクトなモデルで該
全データ集合に亘りテストと検証(verification)のデータ集合値を精確に予測
するのに充分である。該データ集合の複雑性が増加すると、該全データ集合(検
証データ集合を含めて)を精確に説明するためにモデル、フレームワーク、スー
パーフレームワークの階層を展開することが必要になるかも知れない。
【0155】
分布状階層的発展(Distributed Hierarchical Evolution)の顕著な計算的利
点は、1つの大きな、モノリシックな実験型モデル(monolithic empirical mod
el)の創生よりむしろ実験的モデルを規定するために大きなデータ集合に亘り分
布された多数の、コンパクトな発展型対象の創生から生じる。高度に非線形の過
程用には、大きなタスクを多くの小さいタスクに分けることが重要な実際的結果
を有する顕著な計算的利点を提供する。
【0156】
分布状階層が成長すると、更に最適化が各段階で行われ、全体のデータ集合上
での1つの、グローバル最適化上での顕著な性能改善となることは注意されるべ
きである。該大きなデータ集合内に含まれる益々増える情報は次々とより複雑な
発展対象の相互作用の中に閉じ込められ、該相互作用は該実験型モデリング過程
内の自由度の顕著な源として作用する。これは新データが現れた時該実験型モデ
ルの更新を簡単化する。該実験型モデルの更新の初期過程は、該新データをテス
ト集合として使用して現在の実験型モデル内に最も最近の又は”最も高い”発展
型対象の新グループを発展させることを含む。より早期のデータを使用して発展
させられたより早期の又は”より低い”発展型対象は全く変えられる必要はない
が該階層内の最も最近の発展型対象の新グループを創るため使用され得る。より
早期の発展型対象のこのリクラスタリング(reclustering)からもし不充分に精
確な新実験型モデルが生じるならば、その場合だけ、該新データの部分集合を使
用して該階層内の該より早期の発展型対象を再発展(re-evolve)(該発展の繰
り返し)させる必要がある。これが達成された時、最も最近の発展型対象の次ぎ
に新しいグループが該新データの異なる部分集合を使用して再発展させられる。
モデル更新へのこのトップダウン的取り組みは、大抵の従来技術のモデリングの
取り組みに共通なより伝統的なボトムアップのモデル更新に勝る顕著な計算的利
点を供する。
監視されないフイーチャークラスタリング
部分集合用グローバルエントロピーメザーの概念は又入力相関に基づいてフイ
ーチャークラスターを発展させるために適応度関数として使用される。例えフイ
ーチャー部分集合内のセルが出力状態に関し可成りの情報を含まなくても、該セ
ル母集団統計は該部分空間上でなお高度にクラスターされ得る。入力フイーチャ
ー間の相関は、”グローバルエントロピー加重係数の代替え的規定”の名称の節
で前に説明したグローバルエントロピーパラメーターの代替えの規定と非常に似
た情報エントロピー規定を使用して、出力状態から独立にセル母集団統計の均一
性を計算することにより同定され得る。この場合、情報エントロピーを計算する
ために使用されたニシのデータ集合内の基本量はセル母集団であり、該ニシのデ
ータ集合内のエントリーの数は該部分空間内のセルの数である。
【0157】
セル占有統計のグローバルエントロピーによりドライブされる発展型技術を使
用して、最も高くクラスターされたフイーチャー部分空間は発展させられ、図1
9A、19B、19Cそして19Dで示される。(19A及び19Bの発展過程
は図5A及び5Bの前に説明した過程と同様である。考慮下の特定の遺伝子が過
程700で選択される。過程740により示す様に、次の遺伝子シーケンスは過
程700で始めに作動させられる。)
これは、クラスターを発見するための、1990年発行、アイイーイーイー論
文集(Proceedings of the IEEE)78巻4号1464ー1480頁、コーネン
、テー.(Kohnen, T.)著”自己組織化写像(The Self-Organizing Map)”で
説明される様に、コーネンニューラルネットワーク(Kohnen neural networks)
の様な他の監視されない方法の代替えである。この様な従来技術の方法に勝る本
発明の方法の魅力的側面は監視されない及び監視されるモデリングの間の区別が
、該エントロピー計算での出力状態情報の簡単な排除又は包含により非常に自然
に起こることである。
【0158】
一旦高度にクラスターされたフイーチャー部分空間のプールが発展させられる
と、このプール内のフイーチャー部分空間のグループは、帰納用のドライブ条件
としての該部分空間を横切る入力の重なり用に、例えば、しきい値条件を使用し
てより大きなクラスターを作るよう帰納的に合併させられ得る。この方法で、よ
り大きなフイーチャークラスターのより小さなグループは、より大きなフイーチ
ャークラスターの直接の同定が計算的に手に負えない非常に高い次元のデータ集
合に於いても、効率良く同定され得る。
情報可視化
高いグローバル情報エントロピーのフイーチャーデータ集合を決定する第1の
発展段階中に、該発展過程で同定される、最も高いローカル情報エントロピーを
有するセルのリストを保持することも又可能である。
【0159】
乏しい、すなわち、人工的に情報豊富なセルのエントリーを避けるためにこの
リストの選択では最小セルカウントしきい値が使用されてもよい。高いグローバ
ル情報を有するフイーチャー内に存在するセルを調べることにより第1の発展段
階の終わりでこの高いローカルエントロピーリストを創ることは可能である。計
算効率の理由で、該第1発展段階の終わりでこの高いローカルエントロピーリス
トを創ることが好ましい。
【0160】
多次元データ空間内の情報豊富なセルを同定するこの方法は又”情報可視化(
information visualization)”用にも使用出来る。多次元空間での情報可視化
はデータ削減の問題として見られる。容易に理解可能な仕方でデータ集合内の本
質的情報を取り込むために、最も情報豊富なセルのみが表示される必要がある。
前の段落で、最も情報豊富なセルを選択するシステム的方法が論じられた。一旦
これらのセルが全部分空間上で選択されると、カラー科学から得られた方法が視
覚的に魅力ある仕方で該選択されたセルを表示するため使用されてもよい。例え
ば、カラー空間の{色相(Hue)、彩度(Saturation)、明度(Lightness)}特
徴付けで、該色相座標が該セル出力カテゴリーへ写像され得る。該彩度座標はセ
ルピューリテイ(cell purity)のメザーであるローカルセルエントロピー(EL
siかWLsiの何れか)へ写像され得て、該明度座標は該セル内のデータ点の数(
すなわち、該母集団)へ写像され得る。他の視覚的写像も行える。該第1発展段
階の終わりでカテゴリー当たりのベースで最も情報豊富なセルのアクチブなリス
トを発生する過程は顕著なデータ減少過程に帰着したことは注意すべきである。
このデータ減少は大きなデータ空間内で高い情報のローカル化された定義域(do
main)の同定を容易にする。一旦全部分空間上の走査が該第1発展段階の終わり
で完了すると、このリストは適当な可視的写像方法を使用して適当な表示装置{
カラーシーアールテーモニター(color CRT monitor)の様な}上に表示され得
る。かくして多次元データ空間は表示目的で1次元リストへ減じられた。本発明
の方法のユニークな側面は情報可視化に用いた方法論でデータモデリング行うた
め使用された方法論の組み合わせである。両方法用の共通した統合するカーネル
(kernel)はセルと部分空間の形式でのデータの画像的表現を用いて情報エント
ロピーと発展を統合することにある。
ハイブリッドモデリング−分布状階層的発展のニューラルネットワーク又は他の
モデリングパラダイムとの組み合わせ
本方法はデータモデリング用の強力なフレームワークを開示するが、どんなモ
デリングフレームワークも完全なものはないことを述べることは重要である。全
てのモデリング方法は、その取り組み(approach)のためか又は該データに課さ
れた構造(geometries)のためか何れかで、”モデル偏倚(model bias)”を課
す。分布状階層的発展はハイブリッドモデルを創るために他のモデリングパラダ
イムと組み合わされ得る。これらの他のパラダイムはニューラルネットワーク又
は他の分類又はモデリングフレームワークであり得る。もし他の利用可能なモデ
リングツールが基本的に異なる哲学を有するなら、それらの1つ以上を分布状階
層的発展と組み合わせることはモデル偏倚をスムーズ化する効果を有する。加え
て、データ偏倚をスムーズ化するために種々のデータ集合を使用して多数の分散
されたモデルが各パラダイム内に作られ得る。最後の予測結果は各モデルから来
る個別予測の加重された又は加重されない組み合わせとなり得る。かくしてハイ
ブリッドモデリングは、それが種々のモデリング哲学の強さを取り入れるので、
極端に強力なフレームワークをモデリングに提供する。
法則の発見−分布状階層的発展の遺伝的プログラミングとの組み合わせ
第1発展段階の後、生じたフイーチャーデータ集合の情報コンテントを調べる
ことは教示的(instructive)である。多くの場合、多数の比較的情報豊富なフ
イーチャーがあり、それは一緒に用いられると、実験型モデルの次ぎの展開用ベ
ースを形成する。他方、もし、それらの絶対的情報コンテント(0と1の間で正
規化された)で測定された時、発展させられた情報豊富なフイーチャーがないな
ら、最も適当な次の過程は、有用でローバストなモデルを発展させるよう努める
代わりに該データへ戻ることである。
【0161】
時々、しかしながら、該第1発展段階のもう1つの成り行きがあり得る。該デ
ータから際立ったフイーチャーが発展することがあるかも知れない。このフイー
チャーは極端に情報豊富で、事実、手元の問題用の”遺伝的コード(genetic co
de)”を表すかも知れない。この様な場合、より大きなデータ集合が該際立った
遺伝子によりコード化された入力を使用して構文解析され得て(can be parsd)
、この減少したデータ集合は、下にある法則を説明する数学的表現を発展させる
ために、遺伝的プログラミングフレームワーク内への入力として使用出来る。遺
伝的プログラミングは、例えば、1994年発行、エムアイテープレス(M.I.T.
Pres)、コザ、ジェイ.アール.(Koza, J.R.)著、”遺伝的プログラミング
−自然的選択によるコンピユータのプログラミングについて(Genetic Programm
ing-On the Programming of Computors by Natural Selection)”で説明されて
いる。この表現は研究される過程の解析的説明を表し、発展型発見過程の最後の
結果である。この過程を用いて、情報理論と発展の組み合わせは、見かけは混乱
したシステム内の下にある秩序を閉じ込める数学的表現を発見することに帰着す
る。情報コンテントのためにフイーチャーを調べ、次いで実験型モデリングか、
数学的発見か、又は該データに戻るか何れかに乗り込む、全体の過程はデータに
ドライブされるパラダイムに基づく”発見の科学(Science of Discovery)”へ
の体系的取り組みを説明する。
【0162】
混乱したシステムの数学的説明の発展は基本的に内挿的性質(interpolative
nature)か外挿的性質(extrapolative nature)へと該実験型モデルを変換する
。かくして数学的表現は、該実験型モデルの開発で使用されるトレーニング集合
の範囲の外側でデータ定義域内に於いてさえ出力値を予測するため使用出来る。
又数学的説明はモデル化されつつある過程又はシステム内への基本的見通しと恐
らくは下にある原理の発見とを得るための励まし(stimulus)を提供する。
【図面の簡単な説明】
【0163】
【図1】本方法の全体的流れを図解するブロック図である。
【図2A】適合型ビニングの例を示す。
【図2B】適合型ビニングの例を示す。
【図2C】データバランシングの方法を示す。
【図3A】1次元のフイーチャー部分空間を示す。
【図3B】2次元のフイーチャー部分空間を示す。
【図3C】3次元のフイーチャー部分空間を示す。
【図4】どの入力がフイーチャー部分空間に含まれるかを表す例示的2進ビット記号列を示す。
【図5A】”情報豊富な”入力フイーチャーの発展を図解するブロック線図である。
【図5B】”情報豊富な”入力フイーチャーの発展を図解するブロック線図である。
【図5C】2進記号列適応度の加重ルーレット選択ホイール(weighted roulette wheel)を示す。
【図5D】交叉(crossover)操作線図を示す。
【図6】ローカルエントロピーパラメーターを計算する方法を図解するブロック線図である。
【図7】グローバルエントロピーパラメーターを計算する方法を図解するブロック線図である。
【図8】ローカル及びグローバル情報コンテントの計算を図解する。
【図9】ローカルエントロピーパラメーターとグローバルエントロピーパラメーターの例を示す。
【図10A】最適モデルを決定する方法を図解するブロック線図である。
【図10B】モデル発展の方法を図解するブロック線図である。
【図11】情報写像(information map)を発生させる方法を図解する。
【図12】遺伝子リストとそれの付随情報写像の例である。
【図13】エグゾースチブな次元のモデリング過程の方法を図解するブロック線図である。
【図14】出力状態確率ベクトル/出力状態値を計算する過程の方法を図解するブロック線図である。
【図15】モデル遺伝子用適応度関数を計算する方法を図解するブロック線図である。
【図16】1つのフレームワークを発展させるために分布状階層的モデリングの方法を図解するブロック線図である。
【図17A】フレームワーク発展の方法を図解するブロック線図を含む。
【図17B】フレームワーク発展の方法を図解するブロック線図を含む。
【図18A】スーパーフレームワークを発展させるための分布状モデリングの方法を図解するブロック線図である。
【図18B】スーパーフレームワーク発展用の考慮点のリストである。
【図19A】クラスター発展の方法を図解するブロック線図である。
【図19B】クラスター発展の方法を図解するブロック線図である。
【図19C】データクラスターを発見する方法を図解するブロック線図である。
【図19D】画像的表現用グローバルクラスタリング指数の計算方法を図解するブロック線図である。
【実施例】
【0164】
均質ポリマー連鎖反応(POLYMER CHAIN REACTION ){ピーシーアール(PCR)
}フラグメントの同定
本発明が均質ピーシーアールフラグメントの同定に適用された。本方法は最初
にデーエヌエイ溶解カーブ(DNA melting curve)の情報豊富な部分を同定し、
次いで該入力スペクトラムの情報豊富な部分集合を使用して最適モデルを発展さ
せる。
背景
デーエヌエイフラグメント同定は伝統的にゲル電気泳動(gel electrophoresi
s)により行われて来た。挿入染料(intercalated dyes)を使用する代替え方法
はあり得る時間と感度での利点を提案している。この方法は、加熱時2重螺旋デ
ーエヌエイが変性する(捲きほごれる)と該染料蛍光量(dye fluorescence)が
減少することの観察に基づいている。温度に対する蛍光量をプロットする、最終
のいわゆる”溶解曲線(melt curve)”のデータ解析は該デーエヌエイフラグメ
ントのユニークな同定のベースを提供する。しかしながら、該方法は、特定的デ
ーエヌエイフラグメントの精確な同定を、他の非特定的フラグメントの存在及び
背景基盤(background matrix)からの蛍光ノイズの存在の両場合で、要求して
いる。
スパイク(spiked)される食料サンプルの準備
この研究はピーシーアールを禁ずる知られる食料を評価した。該評価は、該禁
止食料の禁止効果を克服するために、該反応へのウシ血清アルブミン(bovine s
erum alubumin){ビーエスエイ(BSA)}の添加能力をテストした。加えて、溶
解曲線解析を使用したピーシーアール製品の均質性検出が臭化エチジウム染色(
ethidium bromide staining)を有する標準的ゲル電気泳動と比較された。
【0165】
食料は地域の食料雑貨店で購入され、4℃で貯蔵された。30の異なる食料が
ビーエイエム(BAM)手順で事前強化(per-enriched)された。処方された強化
法(enrichment)に従い、サンプルはサルモネラニューポート(Salmonella new
port)でスパイクされるか又はスパイクされずに残されたが、表III参照。該
強化は次いでビーエイチアイ(BHI){デーアイエフシーオー(Difco)}内で1
:10に薄められ、次いで37℃で3時間培養された。
【0166】
【表2】

【0167】
【表3】

【0168】
ポリビニルポリピロリドン(Polyvinylpolypyrrolidone){ピーブイピーピー(
PVPP)}処理
グローバックサンプル(growback)の500マイクロリットル(500 ul)のア
リコート(aliquot)がピーブイピーピー{クアリコン社(Qualicon, Inc.)}
の50mgのタブレットを含むチューブに追加された。該チューブはボルテック
ス(vortexed)されそして該ピーブイピーピーは15分間澄むようにされた。最
終浮遊物は次いで溶解過程で使用される。
サルモネラサンプルの準備
2mlのスクリューカップチューブ(screw cup tube)で、強化すなわちピー
ブイピーピー処理サンプルの5マイクロリットルがデーエヌエイ挿入染料エスワ
イビーアールグリーン(DNA intercalating dye SYBRR Green){モレキュラー
プローブ(Molecular Probes)}の1:10、000希釈を含む溶解試薬{5m
lビーエイエックス溶解バッフアー(5ml BAXR lysis buffer)と62.5ul
(マイクロリットル)ビーエイエックスプロテアーゼ(62.5 ul BAXR Protease
)}の200ul(マイクロリットル)に加えられた。該チューブは37℃で2
0分間次いで95℃で10分間培養された。95℃の培養の後、4mg/mlの
ビーエスエイ(BSA)溶液の50ul(マイクロリットル)が該溶菌液(lysate
)に追加された。これはピーブイピーピー処理済みと未処理のサンプルに行われ
た。対照として、幾つかのサンプル未処理で残された。この未精製バクテリヤ溶
菌液の50マイクロリットルが、パーキンエルマー7700シークエンスデテク
ター計器(Perkin Elmer 7700 Sequence Detector instrument)で使用されるピ
ーシーアールチューブ内に含まれた1つのビーエイエックスサルモネラサンプル
タブレット(BAXR Salmonella sample tablet)を水和するため使用された。該
チューブはキャップを付けられ、パーキンエルマー9600サーマルサイクラー
(Perkin Elmer 9600 thermal cycler)内で次のプロトコルに依り熱サイクルに
かけられた。
【0169】
94℃ 2.0分 1サイクル
94℃ 15秒 35サイクル
72℃ 3.0分
72℃ 7分 1サイクル
4℃ ”長期間(forever)”
増幅後分析(Post Amplification Analysis)
増幅後、下記条件で運転することによりパーキンエルマー7700デーエヌエ
イシークエンスデテクター(Perkin Elmer 7700 DNA Sequence Detector)上で
該溶解曲線が作られた。
【0170】
プレートの種類: シングルリポーター(Single Reporter)
器械: 7700シークエンスデテクションシステム(7700 S
equence Detection System)
運転: 実時間
染料層: エフエイエム(FAM)
サンプルの種類: 未知である
サンプル容積: 50ul(マイクロリットル)
運転条件:
70℃ 2分1サイクル データ収集せず
68℃ 10秒98サイクル データ収集する
自動インクレメント +0.3℃/サイクル
25℃ ”長期間”
該多成分データは該器械から移出され該分析に使用された。特定のデーエヌエ
イフラグメントの製作は該アンプリフアイ(amplified)されたサンプルにビー
エイエックスローデイングダイ(BAXR Loading Dye)の15マイクロリットルを
添加することにより検証された。次いで15マイクロリットルのアリコートが臭
化エチジウムを含む2%アガロースゲル(agarose gel)のウエル(well)内に
装填された。該ゲルは30分間180ボルトで運転された。特定の生成物は次い
でユーブイトランスイルミネーション(UV transillumination)を使用して可視
化された。
データ分析
生の蛍光量(raw fluorescence)データが処理用にマイクロソフトエクセル(
Microsoft Excel)に移入された。この段階からデータを可視化し該データから
予測をするため分岐的取り組みが使用された。
データ事前処理(Data Preprocessing)
蛍光ノイズを減らすために該データを事前処理することは成功するモデリング
の尤度(likelihood)を増すことが実験的に決定された。該データ事前処理は次
の過程から成り、すなわち、
a.蛍光データ(fluorescence data)の正規化、
b.0.1℃の解像度でキュービックスプライン関数(cubic spline functio
n)を用いた該正規化蛍光の内挿補間、
c.内挿補間された蛍光スペクトラムの対数を取る、
d.25点サビツスキーゴレイ平滑化関数(25 point Savitsky Golay smooth
ing function)を用いた該蛍光の対数の平滑化、
である。
【0171】
最終温度スペクトラムはここで説明されるモデリング方法への入力の集合とし
て使用される。該温度スペクトラムを使用した2つの異なるモデリング例を説明
する。
過程a.データの正規化と可視化
該蛍光データは、最初にスペクトラム内の最低測定蛍光レベルを決定し、この
値を、直流オフセットを除くために、該スペクトラム内の各点から引くことによ
り正規化される。上記の過程a.の正規化されたデータは次いでサビツスキーゴ
レイの平滑化アルゴリズム(Savitzky-Golay smoothing algorithm)で平滑化され
る。温度に対する平滑化蛍光の負の導関数{−dlog(F)/dT}が取られ
、−dlog(F)/dT(y軸)対温度(x軸)としてプロットされる。
過程b.該データからの予測
該正規化されたデータからスタートして、キュービックスプライン内挿関数(
cubic spline interpolating function)を使用して0.1C分解能で該データ
は内挿補間される。次いで該内挿されたデータの対数が取られ、次いで2.5度
(すなわち0.1℃で25の点)上でサビツスキーゴレイの平滑化アルゴリズム
を用いて平滑化される。温度に対する該ログの蛍光の負の導関数が取られ{−d
(logF)/dT}、サルモネラ用データ範囲:82.0℃−93.0℃(1
2データ点)を用いて1.0C間隔でパース(parsed)された。
【0172】
方法比較用に、ここに説明された方法は2つの他の良く知られたモデリング方
法:ニューラルネットワーク及びロジスティック回帰(logistic regression)
、と比較され、結果は下表で報告される。
【0173】
見出された最も有効なDNAフラグメント同定法は2つのモデリングスキーム
をシーケンシャルな仕方で背中合わせで使うことを含んでいる。同定の第1レベ
ルはスメア(smear)を非スメア(non-smear)から分離することである。これに
、非スメアサンプル用に関心のある特定のデーエヌエイフラグメントを同定する
ことが続く。実際は、この階層的方法は、起こり得る出力カテゴリーを表す正、
負そしてスメアを有する1つの3状態モデルを使用するより精確であった。
1.特定ピーシーアールフラグメントに対する非特定ピーシーアールフラグメン
トのモデリング
該ピーシーアールアンプリフイケーション過程(PCR amplification process
)は、関心のあるデーエヌエイの特定の種類に対応するフラグメントのみならず
非特定ピーシーアールフラグメントも作る。第1例は本方法の該非特定と特定の
ピーシーアールフラグメント間を区別する能力を展示する。149のロックされ
たプロセス(すなわち、対照)特定的トレーニングスペクトルと、問題食料(ピ
ーシーアール用で問題があると知られる実際の食料)の309のテストスペクト
ルと、一緒に30の非特定的又は”スメア”の蛍光スペクトルのグループが創ら
れた。0.1℃の温度分解能を有して、111点を含む各サンプル用の温度スペ
クトル(11.1℃の範囲上の)が創られた。該ロックされたプロセスと問題食
料サンプルの両者が陽性と陰性の標本を含んだ。この例で、該陽性のサンプルは
特定のバクテリヤ(例えば、サルモネラ)でスパイクされ(すなわち汚染され)
そして陰性のサンプルはスパイクされぬ(汚染されぬ)ようにされた。該スメア
サンプルはロックされたプロセストレーニング集合(12スメアサンプル)と問
題食料テスト集合(18スメアサンプル)の両者にランダムに導入された。該陽
性及び陰性の両サンプル状態は合併され2進のゼロ”0”文字でラベル付けされ
、該スメアサンプル状態は2進の1”1”でラベル付けされた。
【0174】
a.入力の最も情報豊富な集合を発展させること
モデリング過程の第1歩は111次元の入力フイーチャー空間をより少ない、
より情報豊富な部分集合に減じることである。前に説明した発展型フレームワー
クが該最も情報豊富なフイーチャーを発展させるために使用された。100の遺
伝子の初期遺伝子プールがランダムに発生され、そこでは各遺伝子は2進の11
1ビットの長さの記号列を有し、各ビットの状態は該対応入力フイーチャーが該
遺伝子内で賦活されたかどうかを表している。該発展過程はセル当たり1サンプ
ルとなるべき平均セル占有数(mean cell occupation number)により抑えられ
、そして該発展は5世代より多く進んだ。各遺伝子の発展をドライブするために
、グローバルエントロピー、又は適応度関数としてローカルエントロピーの数加
重和(number-weighted-sum of local entropies)が使用された。該発展は固定
サイズ化された部分範囲(すなわち、適応型ビニングよりむしろ、固定されたビ
ン)を使用して進みそして該データは、上記説明の様に、0及び1の出力状態の
数をバランスさせるようバランスさせられた。
【0175】
発展型過程を通して該100の最も情報豊富な遺伝子のグローバルリストが保
持された。全ての111の入力フイーチャーのビット頻度のヒストグラムが、発
展した該情報豊富な遺伝子プール内で最も屡々発生するビットを同定するために
、該発展の各世代の終わりで分析された。このヒストグラムはどの温度点が該出
力状態に最も密接に付随したかについての情報を提供した。
【0176】
該111の点の温度範囲が0から110までインデックス(indexed)され、
下記31温度点が該発展型過程から選択された:12,14,16,18,20
,22,24,26,28,30,32,34,36,38,40,42,44
,46,50,52,54,56,58,60,62,64,80,82,84
,86,88。
【0177】
情報豊富な領域が該ヒストグラム内で観察されそしてこれらの領域に懸かる偶
数番号インデックス点(上記リスト)が選択されたことは注意されるべきである
。大抵の該選択された点が12から60の範囲に懸かることは注意されるべきで
ある。これは該スメアサンプル用溶解曲線スペクトラムが該ベースライン上に立
ち上がりそして該インデックス間隔[12,60]に対応する温度範囲内の陽性
及び陰性両サンプルから別れ始めるからである。例えスメアがそれらの正に規定
により可変溶解曲線構造を有するとは云え、主な構造的フイーチャーは該陽性の
サンプル内よりも低い温度で一般に現れる。該陰性のサンプルは本質的に構造か
ら自由である。かくして、本方法はより低い温度領域がスメアと非スメアの間の
最良の区別が起こる場所であることを確認する。
【0178】
b.パース(parsed)されたデータの全低次元射影のエグゾーストな探索
第1発展型過程で発見された該情報豊富な点を使って該トレーニングデータ集
合がパースされた後、該減少したデータ集合は広いビニング範囲に亘り低次元で
エグゾースチブに探索された。固定ビンとデータ集合バランシングが該エグゾー
スチブな過程を通して使用された。このモデリング問題で、次元当たり26の固
定ビンを使用して全2次元射影内への該31次元入力空間の465の射影を発生
することが該最良エグゾースチブモデルに帰着することが分かった。Wl2=10
、Wl=5,定数項=1のエントロピー加重係数が使用された。しかしながら、
全465の射影を使用する該エグゾースチブモデルは、該射影の多くが情報より
多くのノイズを導入するので、最適モデルであることを保証されない。それで、
各ビットが該モデル用遺伝子プール内の与えられた2次元射影の包含(inclusio
n)(2進で1)と排除(exclusion)(2進で0)を表す465ビットの長さの
2進記号列を使って第2の発展段階が行われた。
【0179】
c.最良2次元モデルを発展させること
100のランダム2進記号列が最初に発生されそしてそれらの適応度関数がテ
ストデータ集合内誤差を該発展型過程をドライブする適応度関数として使用して
計算された。該モデルは20世代より多く発展させられそして最も情報豊富な遺
伝子のグローバルなリストが保持された。最後に、この遺伝子プール内の最も情
報豊富な遺伝子(最小テスト誤差に帰着する遺伝子に対応する)がスメア検出用
遺伝子コードとして選択された。この遺伝子は該包含2次元射影の163を有し
残りの射影は排除された。これらの163の射影を使用した最小テスト誤差は該
327テストケースから3つのエラー(3 errors out of the 327 test cases)
(309問題食料サンプルと18スメアサンプル)であって99%より高いモデ
ル精度に帰着する!
2.陰性のサンプルに対する特定のサルモネラピーシーアールフラグメント(陽
性の)のモデリング
ピーシーアールモデリングの第2例として、本方法は食料サンプル内サルモネ
ラに対応する特定のデーエヌエイフラグメントを同定するタスクを与えられた。
もう1度、該ロックされた過程スペクトルが該トレーニングデータ集合として使
用されそして該問題食料スペクトルが該テストデータ集合として使用された。上
記説明のものと同様な過程が最良予測モデルを発展させるために使用された。
【0180】
a.入力の最も情報豊富な集合を発展させること
前の例で説明されたそれと同様な手順に従い、本方法は、下記の温度点:
10,13,16,61,64,67,76,79,82,85,88,91
に対応する12入力フイーチャーの集合を発展させた。
【0181】
この例では、スペクトルの情報豊富な部分は該温度範囲のより高い端(点61
から91の間)内にあることを注意する。これは余り驚くべきことではないが、
それはポジテイブな(positive)溶解曲線内の主な構造が温度インデックス(te
mperature index)80の周辺で起こるからである。
【0182】
b.パースされたデータの全低次元射影のエグゾースチブな探索
第1発展過程で発見された該情報豊富な点を使用して該トレーニングデータ集
合がパースされた後、減少したデータ集合は広いビニング範囲上で低次元でエグ
ゾースチブに探索された。固定ビンとデータ集合バランシングが該エグゾースチ
ブな過程を通して使用された。このモデリング問題で、次元当たり19の固定ビ
ンを使用した全3次元射影内への該12次元入力空間の220の射影を発生する
ことが最良エグゾースチブモデルに帰着することが分かった。前のサンプルでと
同じエントロピー加重係数が使用された。この例で、全ての220の射影を使用
することが最良モデルに帰着することが分かった。該220の射影の部分集合を
発展させることは該テストデータ集合に関する予測精度を改良しなかった。全2
20の射影を用いて、該309の問題食料テストサンプル(スメアなしで)から
の301が97.4%の精度で適当と同定された。
結果
これらの実験中作られた該309のデータサンプルの中で、204はサルモネ
ラでスパイクされそして105のサンプルが”ブランク(blank)”反応であっ
た。該204のスパイクされたサンプルの中で、143のサンプルはアガロース
ゲルで陽性でありそして61は該ゲルで陰性であった。該陰性のサンプルはピー
シーアールの禁止か又は不適当なゲルか又はピーシーアール感度の結果と考えら
れ得る。該105の”ブランク”の反応の中で、95は該ゲルに関し陰性で、そ
して10は該ゲルに関し陽性であった。該陽性のサンプルは自然の食料汚染(例
えば、液状卵サンプル)又は技術的誤りの結果と考えられ得る。
【0183】
下表は該3つのモデリング方法の結果を抄録する。該モデリング方法の各々の
出力は1かゼロの間の数である。”1”はスパイクされた予測を表す一方”0”
はスパイクされてない予測を表す。該数がゼロ又は1に近い程、該予測により高
い信頼を置くことが出来る。0.5のしきい値より高いどんな予測も陽性と考え
られた。下記方法の各々用数は期待予測と合致したサンプル数を示す。
【0184】
【表4】

【0185】
1これらのサンプルはスパイクされたが、ゲル上では陰性であった。均質な検出
はゲル検出より敏感なので、均質な検出で陽性のサンプルを検出するがゲルベー
スの方法では見出さないことが起こり得る。パーセント合致度計算時、このカテ
ゴリーで全てのサンプルは正しいと仮定されている。
2”期待される予測”列はスパイクステイタスとゲル結果とに基づき1又は0を
表示する。この数は該モデルが該トレーニングサンプルに基づき予測すると期待
されたものである。
3”サンプル数”列は特定のスパイク/ゲルカテゴリーに分類されるサンプル数
を表示する。
【0186】
本方法の階層化モデリングに加えて、ハイブリッドモデリングフレームワーク
が使われてもよい。
【0187】
ニューラルネットモデルは陽性/陰性の同定のみならずスメア/非スメアの同
定用にも開発された。事実、より多くのデータが入手可能になると、多数のトレ
ーニング/テストデータ集合が発生され得て多数ニューラルネット及びインフオ
エボルブテーエムモデル(InfoEvolveTM model)に帰着した。未知のサンプルは
全てのモデルでテストされ得て個別モデル予測の統計に基づきカテゴリー化され
得る。付録Gで論じる様に、この取り組みは、多数のデータ集合とモデリングパ
ラダイムと上での多様化によりモデル偏倚のみならずデータ偏倚も減じる利点を
有する。加えて、2つの別々のモデリング段階を続けて使用する階層的取り組み
はモデル精度を更に改善する。
ハイブリッドモデリング
本方法はデータモデリング用の強力なフレームワークを開示するが、どんなモ
デリングフレームワークも完全ではないことを注意することは大切である。全て
のモデリング方法はその取り組みのためか又はデータに課されるジオメトリー(
geometries)のためか何れかで、”モデル偏倚”を課す。本方法は追加的ジオメ
トリーの最小の使用を行いそして上記説明の様に幾つかの利点を有するが、しか
しながら、本方法は基本的に外挿法的であるより寧ろ内挿法的である。比較的デ
ータの貧弱なシステムでは、この内挿法的特性は一般化の容易さを減じる。
【0188】
本方法の強さを利用しそしてその弱さを最小化するために、それはハイブリッ
ドモデルを創るために他のモデリングパラダイムと組み合わされることが可能で
ある。これらの他のパラダイムはニューラルネットワーク又は他の分類又はモデ
リングフレームワークであり得る。もし他のモデリングツール(含む複数ツール
)が基本的に異なる哲学を有するなら、1つ以上の他のモデリングツール(含む
複数ツール)を本方法と組み合わせることがモデル偏倚を平滑化する(smooth o
ut)効果を有する。加えて、データ偏倚を平滑化するために異なるデータ集合を
使用して各パラダイム内に多数のモデルが作られ得る。最後の予測結果は各モデ
ルから来る個別予測の加重又は非加重の組み合わせとすることが出来る。ハイブ
リッドモデリングは多様なモデリング哲学の強さを利用するために極端に強力な
フレームワークをモデリングに提供する。重要な意味で、この取り組みは実験型
モデリングの究極の目標を表す。
【0189】
例えば、もし食料媒介病原菌用テスト(testing for foodborne pathogens)
での上記説明例に於ける様に、偽陰性のパーセント(percento of false negati
ve)を最小化したい望みがあるなら、該モデルのどれか1つがスパイクされたサ
ンプルを予測したならば陽性の結果が報告されるであろう。もしこの規則がこの
例のデータに適用されたなら、ゲル結果に基づく偽陽性(false positive)の率
は0.7%より少なかったであろう。何れか1つのモデルについての偽陰性率は
それぞれ:本方法=3.9%、ニューラルネットワーク=4.5%そしてロジス
チック回帰=5.8%であった。
結論
この例は重要な実験型モデリング問題でのインフオエボルブテーエム(InfoEv
olveTM)のパワーを図解する。インフオエボルブテーエムは最初にデーエヌエイ
溶解曲線の情報豊富な部分を同定し次いで該入力スペクトラムの情報豊富な部分
集合を使用して最適モデルを発展させる。この例で追跡された一般的パラダイム
は種々の産業及びビジネス応用品でテストされ大きな成功をもたらし、この新し
い発見的フレームワークに強力な支持を提供している。
製造過程の例
ケルバーアール(KelvarR)製造過程での重要な変数は該ケルバーアールパル
プ(KelvarR pulp)内に保持された残留湿気(residual moisture)である。該
保持された湿気は該パルプの次の処理可能性と最終製品特性の両者に顕著な影響
を有する。かくして最適制御戦略を規定するために該パルプ内の湿気保持に影響
するキー要素、又はシステム入力を最初に同定することが重要である。製造シス
テム過程は、乾燥処理用の全体の時間枠のために該入力変数と最終パルプ湿気間
の多数の時間遅れの存在により複雑化される。パルプ乾燥処理のスプレッドシー
トモデルが創られ得るが、そこでは該入力は多くの前の時の幾つかの温度と機械
的変数を表し、該出力変数は現在時刻のパルプ湿気である。最も情報豊富なフイ
ーチャー組み合わせ(又は遺伝子)は、その変数の、より早期の時点でパルプ湿
気に影響するのに最も情報豊富であるのはどの変数であるかを発見するためにこ
こに説明された該インフオエボルブテーエム(InfoEvolveTM)を使用して発展さ
せられ得る。
フロード(fraud)検出例
既知のフロード的(fraudulent)な場合のトレーニング集合を作るのが難しい
からだけでなく、フロードが多くの形式を取るかも知れないので、フロード検出
は特に挑戦的応用である。フロードの検出は予測モデリングによりフロードを防
止出来るビジネス用に可成りのコスト節約へ導き得る。フロードが起こる或るし
きい値確率で決定出来る様なシステム入力の同定が望ましい。例えば、何が”ノ
ーマル(normal)”な記録かを最初に決定することにより、或るしきい値より多
く該ノーム(norm)から変化する記録が、より精密な精査用にフラグ建て(flag
ged)されてもよい。これは、クラスタリングアルゴリズムを適用し、次いでど
のクラスターにも分類されない記録を調べることに依るか、又は各分野用の値の
期待範囲を説明する規則を作ることに依るか、又は分野の異常な付随にフラグ建
てすることにより行われてもよい。クレデイット会社は期待しない使用量パター
ン(usage patterns)にフラグを建てるこのフイーチャーをそれらの課金正式化
過程内にルーチン的に組み込む。もしカード所有者(cardholder)が普通は彼/
彼女のカードを航空券、レンタルカー、そしてレストラン用に使用するが、或る
日それをステレオ機器か又は宝石を買うため使用するなら、その処理は、該カー
ド所有者が彼のアイデンテイテイを検証する該カード発行会社の代表者と話を出
来るまで、遅延してもよい。(参考文献:1997年発行、マイケル、ジェイ.
エイ.ベリー、及びゴードン、リンホフ(Michael J. A. Berry, and Gordon Li
nhoff)著、”マーケッテイング、販売及び顧客サポート用データマイニング技
術(Data Mining Techniques for Marketing, Sales, and customer Support)
、76ページ)。フロード検出でどの変数が最も情報豊富かを発見するために最
も情報豊富なフイーチャー組み合わせ(又は遺伝子)がここで説明した本発明を
使用して発展させられ得る。これらの変数は或る時間間隔に亘る購入の種類と量
、クレデイットバランス、最近の住所変更他を含んでもよい。一旦入力の情報豊
富な集合が同定されると、これらの入力を使用する実験型モデルは本発明を使用
して発展させられ得る。これらのモデルは、フロード検出用の適合学習型フレー
ムワークを創るために、新データが入ると規則的ベースで更新され得る。
マーケッテイング例
銀行は予防的アクションを行う時間を持つためにその要求払い預金勘定(dema
nd deposit accounts){例えば、銀行当座預金(checking accounts)}の顧客
のアトリッション(attrition)の充分な警報を望む。それが余りに遅くなる前
にトラブル範囲に見つけるために、起こり得る顧客のアトリッションをタイムリ
ーな仕方で予測するキー要素又はシステム入力を決定することが重要である。か
くして、勘定動向(account activity)の毎月の抄録はこの様なタイムリーな出
力を提供しないが、処理レベルでの詳細データは提供するかも知れない。システ
ム入力は、顧客が該銀行に置いて行く理由を含んでおり、この様な理由がもっと
もかどうかを決定するためにデータ源を同定し、次いで該データ源を処理経過デ
ータと組み合わせる。例えば、顧客の死亡が処理停止の出力を提供したり、或い
は顧客は最早2週間毎に支払われないか又は最早直接預金を有せずかくして規則
的な2週間ベースの直接預金は最早ない。しかしながら、内部決定で発生された
データは処理データ内に反映されない。例は、該銀行がかって無料であったデビ
ットカード処理用に今は課金しているから又は該顧客がローンのために拒絶され
たから、顧客が去って行くことを含んでいる。{1997年発行、マイケル、ジ
ェイ.エイ.ベリー、及びゴードン、リンホフ(Michael J. A. Berry, and Gor
don Linhoff)著、”マーケッテイング、販売及び顧客サポート用データマイニ
ング技術(Data Mining Techniques for Marketing, Sales, and Customer Supp
ort)、85ページ参照}。予測的アトリッションを決定する中でどの変数が最
も情報豊富であるかを発見するために、ここで説明した本発明を使用して最も情
報豊富なフイーチャー組合わせ(又は遺伝子)が発展させられ得る。顧客属性の
みならず銀行戦略に付随する内部管理も含めた両者が処理データパターンと組み
合わされるデータベースを創ることは銀行戦略、顧客属性そして発見されるべき
処理パターンの間の起こり得る情報豊富なリンケージを可能にする。これは今度
は処理挙動を予測する顧客挙動予報モデル(customer behaviour forcasting mo
del)の発展へ導くことが出来る。
金融予測例(Financial Forcasting Example)
金融予報{例えば、株、オプション、ポートフオリオ(portfolio)そして物
価指数(index pricing)}での重要な考慮は株式市場の様な動的で移り気な活
動場所では誤差の広いマージンを黙認する出力変数を決めることである。例えば
、実際の物価レベルよりむしろダウジョンズ平均株価指数(Dow Jones Index)
での変化を予測することは誤差のより広い許容限度(wider tolerance for erro
r)を有する。一旦有用な出力変数が同定されると、次の過程は最適予測戦略を
規定するために該選択された出力変数に影響するキー要素、又はシステム入力を
同定することである。例えば、ダウジョンズ平均株価指数の変化はダウジョンズ
平均株価指数での前の変化のみならず他に於ける国の及びグローバルの指数にも
依存するかも知れない。加えて、グローバルな利率、外国為替レート及び他のマ
クロ経済的メザー(macroeconomic measures)が重要な役割を演ずる。加えて、
最も金融的な予報問題は入力変数(例えば、前の価格変化)と終わりのタイムフ
レームでの最後の価格変化との間の多数の時間遅れの存在により複雑化する。か
くして、該入力は前の多数の時刻での市場変数{例えば、価格変化、市場の移り
気(volatility of the market)、移り気モデルの変化(change in volatility
model)、...}を表しそして該出力変数は現在の時刻での該価格変化である
。(参考文献:1996年発行、エドワードゲートレイ(Edward Gateley)著、
”金融予測用ニューラルネットワーク(Neural Networks for Financial Forcas
ting)、20ページ)。より早期の時期が指すどの変数が金融予測用市場変数へ
の影響で最も情報豊富であるかを発見するためにここで説明する本発明を使用し
て最も情報豊富なフイーチャー組み合わせ(又は遺伝子)が発展させられ得る。
一旦これら(変数、時点)の組み合わせが発見されると、それらは最適金融予測
モデルを発展させるために使用出来る。
【0190】
下記はモデル発生にここで使用される説明した方法に関する擬コードリステイ
ング(Pseude Code listing)である:
LoadParameters(); //データ集合と、ビニングの種類の様な種
々のパラメーターとをロードし、データ選出、
エントロピー加重係数、データ部分集合の数
他...をバランスさせる
Loop through subset#number{
CreateDashSubset(filename) //部分集合データをランダムに
Loop through number of local models{
EvolveFeatures(); //情報豊富な遺伝子を発展させる
CreateTrainTestSubset(); //データ部分集合をトレーン/テスト部分
集合に分ける
EvolveModel(); //モデルを発展させる


CreateDataSubset
DetermineRangesofInputs;
if(BalanceStatsPerCatFlag is TRUE)
BalanceRandomize;
else
NaturalRandomize;
DetermineRangeofInputs
Loop through data records{
Loop through input features{
if(input feature value=max
or input feature value=min{
LoadMinMaxArray(feature index, feature value);
UpdateMinMax(feature value);

} //入力フイーチャーループ終了
} //データループ終了
BalanceRandomize
/**********************************
/データ集合を現在の部分集合と残りの部分集合とに分ける;
/出力カテゴリー当たりの項目の数をユーザーが指定する。
/**********************************
Loop through output stats{
InitializeCountingState(output) to 0;
InitializeCountingRemainingState(output) to 0;

Loop through data records{
Set IncludeTrainFlag to FALSE;
Loop through input features{
if(input features =min){
if(input FeatureMinFlag=CLEAR)[
IncludeTrainFlag=TRUE;
FeatureMaxFlag =SET;


elseif(input feature=max){
if(input FeatureMaxFlag=CLEAR){
IncludeTrainFlag=TRUE;
FeatureMaxFlag =SET;


} //フイーチャーループ終了
output=ReadOutputState; //記録用に出力状態を読み出す
guess=GuessRandomvalue;
Threshold(output)=NUMITEMSPERCAT/TotalCountinState(output)
//TotalCoutinState(output)は出力カテ
ゴリー内の#データ項目を意味する
/**********************************
もしデータ記録がフイーチャー最小又は最大値の最初の場合なら、現在のデータ
部分集合と残りのデータ部分集合の両者へ記録をコピーする。
/**********************************
if(IncludeTrainFlag=TRUE){ //現在の部分集合と残りのデータ部
分集合の両者へ記録をコピー
CopyRecordtoCurrentDataSubset;
IncrementCountinState(output);
CopyRecordtoRemainingDataSubset;
IncrementCountinRemainingState(output);

/**********************************
或いは他にもし該出力カテゴリーの項目の数が過剰にNOTであるなら、該データ
項目を該REMAININGデータ部分集合内に置き換える。
/**********************************
elseif(Threshold(output)>MINIMUM_THRESHOLD){
CopyRecordtoRemainingData;
IncrementCountinRemainingState(output);
if(CountinState(output)<NUMITEMSPERCAT){
CopyRecordtoDataSubset;
IncrementCountinState(output);


//MINIMUM_THRESHOLDは、もう1つの現在の部分集合を創るために
/残りのデータ部分集合内に充分なデータが残ることを保証する
/よう典型的に0.5である
/**********************************
或いは他にもし該ランダムな推定が該データ項目は現在のデータ部分集合へ行く
べきと決めたなら、NUMITEMSPERCATの望まれる割り当てが越えられたかどうかを
チェックして見る。もしそうでないなら、現在のデータ部分集合にデータ点を追
加し、CountinStateをインクレメントする。
/**********************************
elseif(guess<= Threshold(output)){
if(CountinState(output)<NUMITEMSPERCAT){
CopyRecordtoDataSubset;
IncrementCountinState(output);
else{
CopyRecordtoRemainingData;
IncrementCountinRemainingState(output);


/**********************************
又は最後に、もし該ランダムな推定が該データ項目が該残りのデータ部分集合内
に行くべきことを決めるならば、該残りの部分集合用割り当てが越えられたかど
うかをチェックする。もしそうでないなら、該残りのデータ部分集合へ該データ
項目を追加する。もし該割り当てが越えられたなら、もしそのカテゴリー内でよ
り多くの項目が必要なら該データ項目を該現在のデータ部分集合に追加する。
/**********************************
elseif(CountinRemainingState(output)<(1-Threshold(output))*
TotalCountinState(output)){
CopyRecordtoRemainingDataSubset;
IncrementCountinRemainingData(output);

elseif(CountinState(output)<NUMITEMSPERCAT)[
CopyRecordtoDataSubset;
IncrementCountinDataSubset(output);

} //データ記録ループの終了
//BalanceRandomizeの終了
NaturalRandomize
SampleSize=NumberOfDataRecords/NumberOfModels;
Threshold=1-SampleSize/NumberOfRemainingDataRecords;
Loop through output state{
InitializeCountinState(output) to 0;
InitializeCountinRemainingState(output) to 0;

Loop through data records{
Loop through input features{
if(input feature=min){
if(input FeatureMinFlag=CLEAR)[
IncludeTrainFlag=TRUE;
FeatureMinFlag =SET;


elseif(input feature=max){
if(input FeatureMaxFlag=CLEAR)[
IncludeTrainFlag=TRUE;
FeatureMaxFlag =SET;


} //フイーチャーループ終了
outpur=ReadOutputState; //記録用に出力状態を読み出す
guess=GuessRandomValue;
/**********************************
もしデータ記録がフイーチャーの最小又は最大値の最初の場合なら、該データ部
分集合及び残りのデータ部分集合の両者に記録をコピーする。
/**********************************
if(IncludeTrainFlag=TRUE){ //該データ部分集合と該残り
//のデータ集合との両者に記
//録をコピーする
CopyRecordtoCurrentDataSubset;
CopyRecordtoRemainingDataSubset;

/**********************************
又はもし該ランダムな推定が該データ項目が該残りのデータ部分集合内に行くべ
きことを決めるなら、そのカテゴリー用に該残りの部分集合の統計的限界が越え
られたかどうかをチェックする。もし越えられないならば、該残りのデータ部分
集合に該データ項目を追加する。もし該割り当てが越えられたなら、該データ部
分集合に該データ項目を追加する。
/**********************************
elseif(guess<= Threshold){
if(CountinRemainingState(output)<
Threshold*TotalCountinState(output))
CopyRecordtoRemainingDataSubject;
else
CopyRecordtoCurrentDataSubject;

/**********************************
又はもし該ランダムな推定が該データ項目が現在のデータ部分集合内に入るべき
ことを決めるなら、そのカテゴリー用に該現在の部分集合の統計的限界が越えら
れたかどうかをチェックする。もしそうでないなら、該現在のデータ部分集合に
該データ項目を追加する。もし該割り当てが越えられたなら、該残りのデータ部
分集合に該データ項目を追加する。
/**********************************
else[
if(CountinState(output)<
(1-Threshold)*TotalCountinState)[
CopyRecordtoCurrentDataSubject;
else
CopyRecordtoRemainingDataSubject;

} //データ記録ループ終了
/NaturalRandomizeの終了
EvolveFeatures
SelectRandomStackofGenes(N);
Loop Through each gene in Stack{
/*******遺伝子から部分空間を創る************/
ReadParameters();
ReadSubspaceAxesfromGene();
if(AdaptiveNumberofBinsFlag=SET)
CalculateAdaptiveNumbins;
else
UseNumBinsinParameterList;
if(AdaptiveBinPositionsFlag=SET)
CalculateAdaptiveBinPositions;
else
CalculateFixedBinPositions;
/********:遺伝子から部分空間を創ることの終了********/
ProjectTrainDataintoSubspace;
CalculateGlobalEntropyforSubspace;
] //遺伝子ループの終了
EvolveGenesUsingGlobalEntropy(); //遺伝的アルゴリズム

CreateTrainTestSubsets
DetermineRangesofInputs;
RandomizeTrainTestSubsets;
RandomizeTrainTestSubsets

Threshold=ReadThresholdfromParameterList;
Loop through data records in Data Subset{
Loop through input features{
if(iput feature=min){
if (input FeatureMinFlag=CLEAR)[
IncludeTrainFlag=TRUE;
FeatureMinFlag =SET;


else[
if(input feature=max){
if(input FeatureMaxFlag=CLEAR)[
IncludeTrainFlag=TRUE;
FeatureMaxFlag =SET;


} //フイーチャーループの終了
output=ReadOutputState; //記録用に出力状態を読み出す
guess=GuessRandomValue;
if(guess<= Threshold)[
if(CountinTrainDataSubset(output)<
Threshold(output)*TotalCountinState
OR IncludeTrainFlag=TRUE)
CopyRecordtoTrainDataSubset;
else
CopyRecordtoTestDataSubset;

else[
if(CountinTestDataSubset(output)<
(1-Threshold)*TotalCountinState(output)
AND IncludeTrainFlag=FALSE)[
CopyRecordtoTestDataSubset;
else
CopyRecordtoTrainDataSubset;

} //データ記録ループの終了
//RandomizeTrainTestSubsetsの終了
ModelEvolution

GenerateRandomStackofModelGenes(); //モデル遺伝子が遺伝子のク
//ラスターであるランダムモ
//デル遺伝子を発生させる
Loop through each model gene in stack{
CalculateMGFF(); //モデル遺伝子適応度関数
//{エムジーエフエフ(MGFF)}
//の計算
} //モデル遺伝子ループの終了
EvolveFittestModelGene(); //最適モデル遺伝子を発展さ
//せるため遺伝的アルゴリズム
//をドライブするようエムジー
//エフエフを使用

CalculateMGFF−モデル遺伝子適応度関数(エムジーエフエフ)の計算

IdentifyFeatureGenes(); //フイーチャー遺伝子の集合を
//同定するためモデル遺伝子を
//パース(parse)する
Loop through each feature gene{
CreateFeatureSubspace();
Loop through each test record{
ProjectTestRecordintoSubspace();
UpdateTestRecordPrediction();


Total_Error=0;
Loop through each test record{
if(RecordPrediction!=ActualRecordOutput)
TotalError=TotalError+1; //インクレメント誤差

MGFF=Total_Error;

本発明の好ましい実施例がここで説明された。付属する請求項により規定され
た本発明の真の範囲から離れることなく変更や変型が該実施例内で行われ得るこ
とは勿論理解されるべきである。本実施例は好ましくは、コンピユータで実行可
能なソフトウエア命令のセットとしてソウトウエアモジュール内で説明された方
法を実施するロジックを含むのがよい。中央処理ユニット(”シーピーユー(CP
U)”)、又はマイクロプロセサーは該トランシーバーの動作を制御する該ロジ
ックを実行する。該マイクロプロセサーは説明された機能を提供するために当業
者によりプログラムされ得るソフトウエアを実行する。
【0191】
該ソフトウエアは、磁気デイスク、光デイスク、そして該シーピーユーにより
可読な何等かの他の揮発性[例えば、ランダムアクセスメモリー{”ラム(RAM
)”}]又は不揮発性[例えば、読み出し専用メモリー{”ロム(ROM)”}]
フアームウエア記憶システムを含むコンピユータ可読の媒体上に保持される2進
のビットのシーケンスとして表され得る。データビットが保持される該メモリー
配置も又該記憶されるデータビットに対応する特定の電気的、磁気的、光学式又
は有機的特性を有する物理的配置を有している。ソフトウエア命令はメモリーシ
ステムを有する該シーピーユーによりデータビットとして実行され、該電気信号
表現の変換と該メモリーシステム内のメモリー位置でのデータビットの保持をも
たらし、それにより該ユニットの動作を再構成させるか又は他の仕方に変えさせ
る。該実行可能なソフトウエアコードは、例えば、上記説明の様な方法を実施し
てもよい。
【0192】
ここで説明されたプログラム、過程、方法そして装置は、他のように指示され
てない限り、どんな特定の種類のコンピユータ又はネットワーク装置(ハードウ
エア又はソフトウエア)にも関係付けられず、限定されないことは理解されるべ
きである。種々の種類の汎用又は専用コンピユータ装置又は計算装置がここで説
明された開示に依って使用されてもよく、動作を行ってもよい。
【0193】
本発明の原理が適用される広範な種類の実施例を見ると、図解された実施例は
単に例示的で本発明の範囲を限定すると取られるべきでないことを理解すべきで
ある。例えば、本発明は金融サービス市場、宣伝及びマーケッテイングサービス
、製造過程に関連するシステム又は大きなデータ集合を有する他のシステムで使
用されてもよい。加えて、該流れ線図の過程は説明されたものとは他のシーケン
スで用いられてもよく、そして該ブロック線図ではより多く又はより少ない要素
が使われてもよい。
【0194】
ハードウエア実施例は種々の異なる形式を取ってもよいことは理解されるべき
である。該ハードウエアはカスタムゲートアレー(custom gate array)または
特定用途向け集積回路(application specific integrated circuit){”エイ
シック(ASIC)”}で集積回路として実施されてもよい。勿論、該実施例は個別
ハードウエア部品(discrete hardware components)と回路で実施されてもよい
。特に、ここに説明した論理構造と方法の過程はエイシックの様な専用ハードウ
エアで、又はマイクロプロセサー又は他の計算素子により行われるプログアム命
令として実施されてもよい。
【0195】
請求項はその効果に対し述べられていない限り要素の説明された順序に限定さ
れるとして読まれるべきでない。加えて、何れの請求項でも用語”手段(means
)”の使用は35ユー.エス.シー.§112、パラグラフ6を行使するよう意
図されており、該用語”手段”を有しない何れの請求項もそのように意図されて
ない。従って、下記請求項の範囲と精神に入る全ての実施例とその等価物は本発
明として請求されている。

【特許請求の範囲】
【請求項1】
高いグローバルな情報コンテントを有するフイーチャー集合
を選択する方法であるが、該フイーチャー集合はシステムへの入力に対応する入力の初期フイーチャー集合から選択されている様な、該選択する方法が、
(a)該システムへの多数の入力データ点と該システムからの対応する出力データ点とを取得しそして該入力及び出力データ点を記憶装置内に記憶する過程と、
(b)入力及び出力の対応する組み合わせを選択することにより前に取得されたデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテストデータ集合とそして少なくとも1つの検証データ集合とにグループ化する過程と、
(c)高いグローバルな情報コンテントのフイーチャー集合を、
(i)複数のフイーチャー部分空間を創るが、各前記フイーチャー部分空間が該トレーニング集合の該データからのフイーチャー集合を含むように、該創ることと、
(ii)該トレーニング集合の該入力を量子化するが、該入力が値の範囲を有し、それは該値の範囲を部分範囲に分け、それにより前記フイーチャー部分空間を複数のセルに分けることによりするよう、該量子化することと、
(iii)各フイーチャー部分空間の情報コンテントの該グローバルなレベルを決定することと、
(iv)高いグローバルな情報コンテントを有する少なくとも1つのフイーチャー集合を選択することとにより決定する過程とを具備することを特徴とする高いグローバルな情報コンテントを有するフイーチャー集合を選択する方法であるが、該フイーチャー集合はシステムへの入力に対応する入力の初期フイーチャー集合から選択されている様な、該選択する方法。
【請求項2】
請求項1の方法に於いて、該トレーニング集合の該入力の量子化の過程が各入力の値の該範囲を等しいサイズの部分範囲に分けることにより
行われることを特徴とする方法。
【請求項3】
請求項1の方法に於いて、該トレーニング集合の該入力を量子化する過程が、各部分範囲内のデータの母集団が該部分範囲の平均母集団を近似し、該平均母集団が部分範囲の数により割られた全体の選択されたデータの母集団の比として規定されるように、該入力の値の該範囲を該部分範囲に適合式に分けることにより行われることを特徴とする方法。
【請求項4】
請求項1の方法に於いて、過程(c)(ii)でフイーチャー部分空間内の該複数のセルが予め決められた数であることを特徴とする方法。
【請求項5】
請求項1の方法に於いて、各入力の該部分範囲の数がセルの予め決められた数のD次の根である整数値であり、Dは該フイーチャー集合内に含まれる入力の総数であることを特徴とする方法。
【請求項6】
請求項1の方法に於いて、過程(c)(iii)の該情報コンテントがニシの情報エントロピーを計算することにより決定されることを特徴とする方法。
【請求項7】
請求項1の方法に於いて、複数のフイーチャー部分空間を創る過程が適応度関数を使う遺伝的選択方法を使用して行われることを特徴とする方法。
【請求項8】
請求項7の方法に於いて、該遺伝的選択方法用の適応度関数は該フイーチャー部分空間の情報コンテントのグローバルなレベルを使用することを特徴とする方法。
【請求項9】
請求項8の方法に於いて、該フイーチャー部分空間の情報コンテントの該グローバルな
レベルが各部分空間用グローバルエントロピー加重に基づくことを特徴とする方法。
【請求項10】
請求項9の方法に於いて、部分空間用の該グローバルエントロピー加重はクラスタリングパラメーターの出力状態母集団加重和により規定され、各出力状態母集団はその出力状態に対応するトレーニング集合データ点の総数に基づくことを特徴とする方法。
【請求項11】
請求項10の方法に於いて、各出力状態用クラスタリングパラメーターは該部分空間上の該出力状態の母集団の分布に基づくことを特徴とする方法。
【請求項12】
請求項9の方法に於いて、部分空間用グローバルエントロピー加重は該部分空間内の各セル用のローカルエントロピー加重パラメーターのセル母集団加重和に基づくことを特徴とする方法。
【請求項13】
請求項12の方法に於いて、該部分空間内の各セル用の該ローカルエントロピー加重は該セル上の該出力状態の該母集団の分布に基づくことを特徴とする方法。
【請求項14】
請求項12の方法に於いて、該部分空間内の各セル用の該ローカルエントロピー加重は該セル上の該出力状態の正規化された母集団の分布により規定され、各出力状態の該正規化された母集団は該セル上の出力状態の母集団の該全出力状態母集団に対する比により規定されることを特徴とする方法。
【請求項15】
請求項9の方法に於いて、部分空間用該グローバルエントロピー加重はクラスタリングパラメーターのセル母集団加重和により規定され、各セル母集団は該セル内のトレーニング集合データ点の総数を表すことを特徴とする方法。
【請求項16】
請求項15の方法に於いて、該クラスタリングパラメーターは該部分空間上での該セル母集団の分布により規定されることを特徴とする方法。
【請求項17】
請求項1の方法に於いて、該前に取得されたデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテストデータ集合とそして少なくとも1つの検証データ集合とにグループ化する過程(b)が入力データ点と出力データ点の対応する組み合わせをランダムに選択することにより行われ、該少なくとも1つのトレーニングデータ集合と、少なくとも1つのテストデータ集合とそして少なくとも1つの検証データ集合は同じデータ点を含まないことを特徴とする方法。
【請求項18】
請求項1の方法が更に、過程(b)の前に、該前に取得されたデータに変換関数を適用することにより該前に所得されたデータを事前処理する過程を具備することを特徴とする方法。
【請求項19】
請求項17の方法に於いて、該変換関数が該取得されたデータの入力のみに適用されることを特徴とする方法。
【請求項20】
請求項1の方法に於いて、少なくとも1つのフイーチャー集合を選択する該過程が複数のフイーチャー集合を選択する過程を備えており、更に、
(d)テストデータ集合上のシステム入力からシステム出力を最も精確に予測するフイーチャー集合のグループを選択する過程を有することを特徴とする方法。
【請求項21】
請求項20の方法に於いて、フイーチャー集合のグループを選択する該過程が適応度関数を使う遺伝的選択方法を使用して行われることを特徴とする方法。
【請求項22】
請求項21の方法に於いて、該遺伝的選択方法用の該適応度関数が該全体のテスト集合用の予測誤差パラメーターに基づくことを特徴とする方法。
【請求項23】
請求項22の方法に於いて、離散型出力を有する、離散型システム用該予測誤差が該テスト集合内の正しく分類されたサンプルの部分であることを特徴とする方法。
【請求項24】
請求項23の方法に於いて、各データ点の該出力状態がそのデータ点用出力状態確率ベクトルの創生と解析により予測されることを特徴とする方法。
【請求項25】
請求項24の方法に於いて、該出力状態が該出力状態確率ベクトル内の最大確率を有する該状態により予測されることを特徴とする方法。
【請求項26】
請求項24の方法に於いて、該出力状態確率ベクトルが各起こり得る出力状態の確率の集合に基づくことを特徴とする方法。
【請求項27】
請求項26の方法に於いて、各出力状態の該確率はその出力状態内にある確率の全てのフイーチャー部分空間上での加重和であることを特徴とする方法。
【請求項28】
請求項27の方法に於いて、該加重和はローカルなエントロピー加重とグローバルなエントロピー加重とを使用して計算されることを特徴とする方法。
【請求項29】
請求項22の方法に於いて、定量的出力を有する、連続的システム用の該予測誤差は該テスト集合の該予測値と該実際値との間の正規化された平均絶対差であることを特徴とする方法。
【請求項30】
請求項29の方法に於いて、該ローカル及びグローバルのエントロピー加重の計算を容易化するために該出力値が離散出力状態の集合に人工的に量子化されることを特徴とする方法。
【請求項31】
請求項29の方法に於いて、各データ点用該出力状態値が部分空間用セル内の平均アナログ出力値を計算することにより予測されることを特徴とする方法。
【請求項32】
請求項30の方法に於いて、該平均アナログ出力値が、全ての該人工的に量子化された出力状態上で該データ集合をバランス化させるためにデータ複製尺度係数を使用することにより計算されることを特徴とする方法。
【請求項33】
請求項31の方法に於いて、該平均アナログ出力値が全ての該部分空間上での該平均セルアナログ出力値の加重和として計算されることを特徴とする方法。
【請求項34】
請求項33の方法に於いて、該加重和はローカルエントロピー加重とグローバルエントロピー加重とを使用して計算されることを特徴とする方法。
【請求項35】
請求項22の方法に於いて、定量的出力を有する連続的システム用該予測誤差は該テスト集合の該予測値と該実際値との間の正規化された中間値の絶対差であることを特徴とする方法。
【請求項36】
請求項35の方法に於いて、該出力値は、該ローカル及びグローバルエントロピー加重の計算を容易化するために離散出力状態の集合に人工的に量子化されることを特徴とする方法。
【請求項37】
請求項35の方法に於いて、各データ点用該出力状態値は部分空間用のセル内の中間値のアナログ出力値を計算することにより予測されることを特徴とする方法。
【請求項38】
請求項36の方法に於いて、該中間値のアナログ出力値は全ての該人工的に量子化された出力状態上で該データ集合をバランス化させるためにデータ複製尺度係数を使用することにより計算されることを特徴とする方法。
【請求項39】
請求項37の方法に於いて、該中間値のアナログ出力値が全ての該部分空間上で該中間値のセルアナログ出力値の加重和として計算されることを特徴とする方法。
【請求項40】
請求項1の方法が更に、
(d)該フイーチャーデータ集合内の各入力の発生頻度を表すヒストグラムを創る過程を具備することを特徴とする方法。
【請求項41】
請求項40の方法に於いて、該データ集合の次元数が該入力数であり、更に、
(e)削減された次元数データ集合を規定するために該最も頻繁に発生する入力を保持する過程を具備しており、該削減された次元数は該データ集合の次元数より少ないか等しいことを特徴とする方法。
【請求項42】
請求項41の方法に於いて、該保持する過程(e)が更に、
削減された次元数データ集合を創るために該入力の部分集合を選択するよう該ヒストグラムを解析する自動化された方法を使用する過程を備えており、該部分集合のサイズは該入力数より少ないか等しいことを特徴とする方法。
【請求項43】
請求項42の方法に於いて、該自動化された方法は該入力の該部分集合を選択するためにピーク検出方法を有することを特徴とする方法。
【請求項44】
請求項43の方法に於いて、該自動化された方法は該入力の該部分集合を選択するためにヒストグラム頻度を整列する過程を有することを特徴とする方法。
【請求項45】
請求項41の方法に於いて、該保持する過程(e)が更に、
該ヒストグラムの可視的表現を創る過程と該入力の部分集合を主観的に選択する過程とを有しており、該選択された部分集合のサイズは該入力数より少ないか等しいことを特徴とする方法。
【請求項46】
請求項41の方法に於いて、該保持する過程(e)が更に、
該ヒストグラム内の各ピークを表すために1つ以上の入力を選択する主観的方法を使用する過程を有していることを特徴とする方法。
【請求項47】
請求項41の方法が更に、
(f)フイーチャー集合の削減された次元数のグループを規定するが、その組み合わせが、テストデータ集合上でシステム入力からシステム出力を最も精確に予測する様な、最適又は最適に近い次元数と最適又は最適に近い量子化条件とを決定するために、複数の量子化条件下で該削減された次元数データ集合の複数の部分集合上をエグゾースチブに探索することにより上記規定する、過程を有することを特徴とする方法。
【請求項48】
請求項47の方法が更に、
(g)テストデータ集合上でシステム入力からシステム出力を最も精確に予測するフイーチャー集合の該削減された次元数グループからフイーチャー集合の最終のグループを選択する過程を有することを特徴とする方法。
【請求項49】
請求項48の方法に於いて、システム出力を最も精確に予測するフイーチャーの集合を選択する該過程が遺伝的選択方法を使用して行われることを特徴とする方法。
【請求項50】
テスト集合上でシステム入力からシステム出力を最も精確に予測するデータ集合からモデルを規定する方法が、
(a)該システムへの多数の入力と該システムからの対応する出力とを取得しそして該入力と出力とを前に取得されたデータとして記憶装置内に記憶する過程と、
(b)入力と出力との対応する組み合わせを選択することにより該前に取得されたデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテストデータ集合とそして少なくとも1つの検証データ集合とに分ける過程と、
(c)フイーチャー部分空間を1つ以上の入力の組み合わせとして規定する過程とを具備しており、該フイーチャー部分空間の次元は該組み合わせ内該入力数であり、該方法は又、
(d)組み合わせが該テストデータ集合上のシステム入力からシステム出力を最も精確に予測する様な、最適又は最適に近い次元数とセルの最適又は最適に近い量子化条件とを決定するために、複数の量子化条件下で該データ集合の複数のフイーチャー部分空間上をエグゾースチブに探索することによりモデルを規定する過程を具備することを特徴とするテスト集合上でシステム入力からシステム出力を最も精確に予測するデータ集合からモデルを規定する方法。
【請求項51】
請求項50の方法が更に、高いローカルのエントロピー加重を有する該セルの部分集合を該フイーチャー部分空間内に保持する過程を具備することを特徴とする方法。
【請求項52】
請求項51の方法が更に、デイスプレー装置上にセルの該部分集合を表示する過程を具備することを特徴とする方法。
【請求項53】
請求項52の方法に於いて、セルの情報コンテントは該出力値、該ローカルなセルのエントロピー加重そして該セル母集団を含んでおり、
それらは該出力値、該ローカルなセルのエントロピー加重そして該セル母集団をカラー空間内に写像することにより表示されることを特徴とする方法。
【請求項54】
システム入力からシステム出力を最も精確に予測するモデルのグループを選択することによりフレームワークを規定する方法が、
(a)該システムへの多数の入力と該システムからの対応する出力とを取得しそして該入力と出力とを前に取得されたデータとして記憶装置内に記憶する過程と、
(b)入力と出力との対応する組み合わせを選択することにより該前に取得されたデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテストデータ集合とそして少なくとも1つの検証データ集合とに分ける過程と、
(c)フイーチャー部分空間を1つ以上の入力の組み合わせとして規定する過程とを具備しており、該フイーチャーの次元は該組み合わせ内該入力数であり、該方法は又、
(d)高いグローバルな情報コンテントを有するフイーチャー部分空間の組み
合わせを、
(i)トレーニング集合のデータを選択することと、
(ii)該トレーニング集合の該データから複数のフイーチャー部分空間を創ることと、
(iii)各フイーチャー部分空間に関する該トレーニング集合の該入力を量子化するが、該入力が値の範囲を有し、それは該値の範囲を部分範囲に分け、それにより各フイーチャー部分空間を複数のセルに分け、各セルは、各セルを占めるトレーニング集合データ点の数として規定されるセル母集団を有しているように、前記範囲を有するよう、該量子
化することと、
(iv)該部分空間内で各セルのローカル情報エントロピーを決定することと、
(v)各フイーチャー部分空間のグローバル情報コンテントを決定することと、
(vi)高いグローバル情報コンテントを有するフイーチャー部分空間の集合を決定することとにより決定する過程と、
(e)テストデータ集合上でシステム入力からシステム出力を最も精確に予測するフイーチャー部分空間の集合を含むモデルを選択する過程と、
(f)モデルのグループを規定するために種々のトレーニング及びテスト集合上で過程(b)−(e)を繰り返す過程と、
(g)入力として個別モデル出力予測値をそして該出力として実際の出力値を使用して新しいトレーニング及び新しいテストデータ集合を創る過程と、
(h)該フレームワークを規定するために該新しいテストデータ集合上でシステム入力からシステム出力を最も精確に予測するモデルのグループから最適モデルの部分集合グループを選択する過程とを具備することを特徴とするシステム入力からシステム出力を最も精確に予測するモデルのグループを選択することによりフレームワークを規定する方法。
【請求項55】
請求項54の方法に於いて、該選択する過程(h)は適応度関数を使う遺伝的方法を使用して行われることを特徴とする方法。
【請求項56】
請求項55の方法に於いて、該遺伝的選択方法用の適応度関数は過程(h)の全体の新しいテストデータ集合用の予測誤差パラメーターにより規定されることを特徴とする方法。
【請求項57】
請求項54の方法に於いて、高いグローバル情報エントロピーを有するフイーチャー部分空間の集合を決定する該過程(d)(vi)は適応度関数を使う遺伝的方法を使用して行われることを特徴とする方法。
【請求項58】
システム入力からシステム出力を最も精確に予測するフレームワークのグループを選択することによりスーパーフレームワークを規定する方法が、
(a)該システムへの多数の入力と該システムからの対応する出力とを取得しそして該入力と出力とを前に取得されたデータとして記憶装置内に記憶する過程と、
(b)入力と出力との対応する組み合わせを選択することにより該前に取得されたデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテストデータ集合とそして少なくとも1つの検証データ集合とに分ける過程と、
(c)フイーチャー部分空間を1つ以上の入力の組み合わせとして規定する過程とを具備しており、該フイーチャー部分空間の次元は該組み合わせ内該入力数であり、該方法は又、
(d)高いグローバルな情報コンテントのフイーチャー部分空間の組み合わせを、
(i)トレーニング集合のデータを選択することと、
(ii)該トレーニング集合の該データからフイーチャーの初期集合を創ることと、
(iii)該トレーニング集合の該入力を量子化するが、該入力が値の範囲
を有し、それは該値の範囲を部分範囲に分け、それにより各フイーチャー部分空間を複数のセルに分け、該セルは入力の部分範囲の組み合わせにより規定されており、各セルは、各セルを占めるトレーニング集合データ点の数として規定されるセル母集団を有するよう該値の範囲を有するよう、該量子化することと、
(iv)該部分空間内で各セルのローカル情報エントロピーを決定することと、
(v)各フイーチャーのグローバル情報コンテントを決定することと、
(vi)高いグローバル情報コンテントを有するフイーチャー部分空間の集合を決定することとにより決定する過程と、
(e)テストデータ集合上でシステム入力からシステム出力を最も精確に予測するフイ
ーチャー部分空間の組み合わせを含むモデルを選択する過程と、
(f)モデルのグループを規定するために種々のトレーニング及びテスト集合上で過程(b)−(e)を繰り返す過程と、
(g)入力として個別モデル出力予測値をそして該出力として実際の出力値を使用して新しいトレーニング及び新しいテストデータ集合を創る過程と、
(h)該新しいテストデータ集合上でシステム入力からシステム出力を最も精確に予測するモデルのグループから最適モデルの部分集合グループを選択することによりフレームワークを規定する過程と、
(i)最適フレームワークのグループを規定するために種々のトレーニング及びテスト集合上で過程(b)−(h)を繰り返す過程と、
(j)入力として個別フレームワーク出力予測値をそして該出力として実際の出力値を使用して新しいトレーニング及び新しいテストデータ集合を創る過程と、
(k)該新しいテストデータ集合上でシステム入力からシステム出力を最も精確に予測する最適フレームワークのグループからフレームワークの部分集合グループを選択することによりスーパーフレームワークを規定する過程を具備することを特徴とするシステム入力からシステム出力を最も精確に予測するフレームワークのグループを選択することによりスーパーフレームワークを規定する方法。
【請求項59】
請求項58の方法に於いて、システム入力から最も精確にシステム出力を予測する該最適フレームワークのグループからフレームワークの該部分集合グループを選択する該過程(h)が適応度関数を使う遺伝的方法を使用して行われることを特徴とする方法。
【請求項60】
請求項59の方法に於いて、該遺伝的選択方法用の該適応度関数は過程(k)の全体の新しいテストデータ集合用の予測誤差パラメーターにより規定されることを特徴とする方法。
【請求項61】
請求項58の方法に於いて、高いグローバルな情報エントロピーを有するフイーチャー部分空間の集合を決定する該過程(d)(vi)は適応度関数を使う遺伝的方法を使用して行われることを特徴とする方法。
【請求項62】
実験型データ集合で入力と出力の間の数学的関係を発展させる方法が、
(a)該システムへの多数の入力と該システムからの対応する出力とを取得しそして該入力と出力とを前に取得されたデータとして記憶装置内に記憶する過程と、
(b)入力と出力との対応する組み合わせを選択することにより該前に取得されたデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテストデータ集合とそして少なくとも1つの検証データ集合とに分ける過程と、
(c)フイーチャー部分空間を1つ以上の入力の組み合わせとして規定する過程とを具備しており、該フイーチャー部分空間の次元は該組み合わせ内該入力数であり、該方法は又、
(d)高いグローバルな情報エントロピーのフイーチャー部分空間の組み合わせを、
(i)トレーニング集合のデータを選択することと、
(ii)該トレーニング集合の該データからフイーチャー部分空間の初期集合を創ることと、
(iii)該トレーニング集合の該入力を量子化するが、該入力が値の範囲を有し、それは該値の範囲を部分範囲に分け、それにより各フイーチャー部分空間を複数のセルに分け、各セルは、各セルを占めるトレーニング集合データ点の数として規定されるセル母集団を有することにより該値の範囲を有するよう、該量子化することと、
(iv)該部分集合の各出力に対する該部分空間内の各セルのローカル情報エントロピーを決定することと、
(v)各フイーチャーのグローバル情報エントロピーを決定することと、
(vi)高いグローバル情報エントロピーを有するフイーチャー部分空間の集合を選択することとにより決定する過程と、
(e)該フイーチャーデータ集合から該最も高いグローバル情報エントロピーを有する該フイーチャー部分空間を選択する過程と、
(f)該選択されたフイーチャー部分空間内に含まれる該データ集合からのそれら入力のみを選択することにより削減された次元数のデータ集合を創る過程と、
(g)該削減された次元数のデータ集合の該入力と出力の間の数学的関係を発展させるために遺伝的プログラム方法を適用する過程とを具備することを特徴とする実験型データ集合で入力と出力の間の数学的関係を発展させる方法。
【請求項63】
実験データ集合の入力と出力との間の数学的関係を発展させるハイブリッドの方法が、
(a)請求項50又は54又は58又は62の方法を使用してデータ集合から第1モデルを発生する過程と、
(b)該第1モデル発生過程と異なるモデリング技術を使用して第2モデルを発生する過程と、
(c)該データ集合を部分集合に分けそして各部分集合内の各モデルのローカルな性能を決定する過程と、
(d)各部分集合内で該第1及び第2モデルの該ローカルな性能に基づき加重関数を発生する過程と、そして
(e)該加重関数を使用して該第1及び第2モデルを組み合わせ、それにより該モデルの各々のローカルな性能の利点を組み合わせることを特徴とする実験データ集合の入力と出力との間の数学的関係を発展させるハイブリッドの方法。
【請求項64】
計算装置にシステムのモデルを、該システムの入力と出力
とを使用して発生させる命令の集合を含む機械可読記憶媒体に於いて、前記命令は
高い情報フイーチャー部分空間を見つけ出すために複数のフイーチャー部分空間を探索する過程を具備しており、前記高い情報フイーチャー部分空間は1つ以上の入力の組み合わせを有しており、該命令は又
複数のモデルを探索する過程を具備しており、前記モデルは前記高い情報フイーチャー部分空間の1つ以上を備えており、前記モデルの各々は付随する出力予測を有しており、そして該命令は更に、
少なくとも1つの他のモデルのそれより高い出力予測精度を有する前記モデルの1つを選択する過程を具備することを特徴とする計算装置にシステムのモデルを該システムの入力と出力とを使用して発生させる命令の集合を含む機械可読記憶媒体。
【請求項65】
請求項64の記憶媒体に於いて、複数の部分空間を探索する前記過程は実質的に全ての起こり得る部分空間を調べることにより行われることを特徴とする記憶媒体。
【請求項66】
請求項64の記憶媒体に於いて、複数の部分空間を探索する前記過程が遺伝的発展型アルゴリズムにより行われることを特徴とする記憶媒体。
【請求項67】
請求項66の記憶媒体に於いて、前記遺伝的発展型アルゴリズムが適応度関数として情報コンテントのメザーを使用することを特徴とする記憶媒体。
【請求項68】
請求項67の記憶媒体に於いて、前記適応度関数はグローバルな部分空間エントロピーのメザーであることを特徴とする記憶媒体。
【請求項69】
請求項68の記憶媒体が更に、該複数のモデル内で発生の最も低い頻度を有する1つ以上の入力を除き、そしてその後探索の過程を繰り返す過程を具備しており、該フイーチャー部分空間が該残りの入力の1つ以上の組み合わせを有することを特徴とする記憶媒体。
【請求項70】
請求項64の記憶媒体に於いて、複数のモデルを探索する前記過程が遺伝的発展型アルゴリズムにより行われることを特徴とする記憶媒体。
【請求項71】
請求項70の記憶媒体に於いて、前記遺伝的発展型アルゴリズムは適応度関数として予測精度のメザーを使用することを特徴とする記憶媒体。
【請求項72】
請求項71の記憶媒体に於いて、予測精度の前記メザーは
前記1つ以上の情報フイーチャー部分空間内のローカル化されたセルの領域の予測の加重組み合わせを含む予測に基づくことを特徴とする記憶媒体。
【請求項73】
請求項64の記憶媒体に於いて、前記探索過程は各前記部分空間をセルに分ける過程を有することを特徴とする記憶媒体。
【請求項74】
請求項73の記憶媒体に於いて、該セル数は、少なくとも1つの他のセル分割より高い情報コンテントを提供するセル分割を同定するために変えられることを特徴とする記憶媒体。
【請求項75】
請求項73の記憶媒体に於いて、該セル数は利用可能なデータ点の数に基づき決定されることを特徴とする記憶媒体。
【請求項76】
請求項73の記憶媒体に於いて、セル境界は各次元を等しいサイズの部分範囲に分割するにより決定されることを特徴とする記憶媒体。
【請求項77】
請求項73の記憶媒体に於いて、該セル境界は与えられた部分空間の各次元を部分範囲に、各部分範囲が近似的に同じ数のデータ点を有するよう、分割することにより決定されることを特徴とする記憶媒体。
【請求項78】
請求項64の記憶媒体に於いて、部分空間の該情報コンテントはセル情報コンテントの加重和であることを特徴とする記憶媒体。
【請求項79】
請求項78の記憶媒体に於いて、該セル情報コンテントは出力がそのセル用の与えられた出力状態にある確率に基づくことを特徴とする記憶媒体。
【請求項80】
請求項78の記憶媒体に於いて、該セル情報コンテントは出力状態エントロピーに基づくことを特徴とする記憶媒体。
【請求項81】
請求項78の記憶媒体に於いて、該加重は該セル内点数に基づくことを特徴とする記憶媒体。
【請求項82】
請求項64の記憶媒体に於いて、該情報コンテントは特定出力確率の加重和であることを特徴とする記憶媒体。
【請求項83】
請求項82の記憶媒体に於いて、該特定出力確率は与えられた出力状態用の個別セル内にある確率に基づくことを特徴とする記憶媒体。
【請求項84】
請求項83の記憶媒体に於いて、該特定出力確率は与えられた出力状態用のセル分布のエントロピーに基づくことを特徴とする記憶媒体。
【請求項85】
請求項82の記憶媒体に於いて、該加重はその状態での部分空間内の点の数に基づくこ
とを特徴とする記憶媒体。
【請求項86】
請求項64の記憶媒体に於いて、高い情報の部分空間は発見的方法のアルゴリズムにより同定されることを特徴とする記憶媒体。
【請求項87】
請求項86の記憶媒体に於いて、該発見的方法のアルゴリズムは出力状態のクラスタリングを有する部分空間内のセル数を使用することを特徴とする記憶媒体。
【請求項88】
請求項64の記憶媒体に於いて、各部分空間はセルに分かれておりそして各部分空間内の各セルはセル確率ベクトルを有し、そして該確率ベクトルの要素は各出力状態の該確率と対応することを特徴とする記憶媒体。
【請求項89】
請求項88の記憶媒体に於いて、各モデルはセル確率ベクトルの加重和を含む付随確率ベクトルを有することを特徴とする記憶媒体。
【請求項90】
請求項89の記憶媒体に於いて、該加重はローカル及びグローバルエントロピー加重の組み合わせであることを特徴とする記憶媒体。
【請求項91】
請求項64の記憶媒体に於いて、該出力予測精度は発生の最も高い確率を有する該出力に等しい値を有する予測に基づくことを特徴とする記憶媒体。
【請求項92】
請求項64の記憶媒体が更に、複数のモデルを選択する過程と、そして
選択されたモデルの部分集合をフレームワークにグループ化する過程とを具備する命令を含むことを特徴とする記憶媒体。
【請求項93】
請求項1,6,7,17,18,20,22,29,40,45、47,50,54,58,62,又は63の何れかの方法により発生されるモデルを表すデータを含む機械可読記憶媒体。
【請求項94】
データ構造を含む機械可読記憶媒体に於いて、前記データ構造が、
複数の部分空間に対応する複数の入力組み合わせを表すデータを有する部分空間データ構造と、
複数の部分空間組み合わせを表すデータを有するモデルデータ構造と、そして
該部分空間を占めるために必要なトレーニングデータ集合を表すデータを有するトレーニングデータ構造とを具備することを特徴とするデータ構造を含む機械可読記憶媒体。
【請求項95】
請求項94の記憶媒体が更に、各部分空間用にセル領域を指定するため使用されるデータを含むデータ構造を有することを特徴とする記憶媒体。
【請求項96】
請求項95の記憶媒体が更に、各部分空間用にエントロピー加重を含むデータ構造を有することを特徴とする記憶媒体。
【請求項97】
請求項95の記憶媒体が更に、各セル領域用にエントロピー加重を含むデータ構造を有することを特徴とする記憶媒体。
【請求項98】
請求項95の記憶媒体が更に、各セル領域用に予測値を含むデータ構造を有することを特徴とする記憶媒体。
【請求項99】
請求項95の記憶媒体が更に、複数のモデル組み合わせを表すデータを含むフレームワークデータ構造を有することを特徴とする記憶媒体。
【請求項100】
複数のデータ構造を含む機械可読記憶媒体であるが、前記複数のデータ構造はシステム入力データ点へのシステム出力予測応答を決定するために使用されている該機械可読記憶媒体で、前記データ構造は、
入力データ点をセル予測値へ写像するために使用されるデータを有する写像用データ構造と、そして
複数の部分空間組み合わせを表すデータを有するモデルデータ構造とを具備することを特徴とする複数のデータ構造を含む機械可読記憶媒体であるが、前記複数のデータ構造はシステム入力データ点へのシステム出力予測応答を決定するために使用されている該機械可読記憶媒体。
【請求項101】
請求項100の記憶媒体に於いて、該予測値は加重確率ベクトルであることを特徴とする記憶媒体。
【請求項102】
請求項100の記憶媒体が更に、ローカル及びグローバルエントロピー加重を表すデータを含む加重データ構造を具備することを特徴と
する記憶媒体。
【請求項103】
請求項100の記憶媒体が更に、複数のモデル組み合わせを表すデータを含むフレームワークデータ構造を具備することを特徴とする記
憶媒体。
【請求項104】
実験データ集合内の入力と出力との間の数学的関係を発展させるハイブリッドの方法が、
(a)請求項50又は54又は58又は62の方法を使用してデータ集合から第1モデルを発生する過程と、
(b)該第1モデル発生過程と異なるモデリング技術を使用して第2モデルを発生する過程と、
(c)各部分集合内の該第1及び第2モデルの性能に基づき加重用関数を発生させる過程と、そして
(d)該加重用関数を使用して該第1及び第2モデルを組み合わせ、それにより該モデルの各々の性能の利点を組み合わせる過程とを具備することを特徴とする実験データ集合内の入力と出力との間の数学的関係を発展させるハイブリッドの方法。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図2C】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図3C】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図5C】
image rotate

【図5D】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10A】
image rotate

【図10B】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17A】
image rotate

【図17B】
image rotate

【図18A】
image rotate

【図18B】
image rotate

【図19A】
image rotate

【図19B】
image rotate

【図19C】
image rotate

【図19D】
image rotate


【公開番号】特開2012−53880(P2012−53880A)
【公開日】平成24年3月15日(2012.3.15)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−203096(P2011−203096)
【出願日】平成23年9月16日(2011.9.16)
【分割の表示】特願2000−615965(P2000−615965)の分割
【原出願日】平成12年4月19日(2000.4.19)
【出願人】(390023674)イー・アイ・デュポン・ドウ・ヌムール・アンド・カンパニー (2,692)
【氏名又は名称原語表記】E.I.DU PONT DE NEMOURS AND COMPANY
【Fターム(参考)】