説明

予測アルゴリズムのトレーニングおよびテスティングのデータベース最適化のシステムおよび方法

【課題】予測アルゴリズムのトレーニングおよびテスティングのシステムおよび方法を提供する。
【解決手段】発明の実施例では、方法は、最適のトレーニング、テスティングおよび/または検証データセットを共通の一般データベースから生成する。方法は、遺伝的アルゴリズムを、所定の予測アルゴリズムと関連して使用されるテスティングおよびトレーニングサブセットの個体群に適用する。実施例では、作動させる予測アルゴリズムは、人工ニューラルネットワークである。好適例として、共通データベースのレコードの最も予測的な独立変数が、前処理過程で自動的に選択される。前処理過程は、遺伝的アルゴリズムを、入力変数の数および内容が変わる予測アルゴリズムの個体群に適用する。予測アルゴリズムは、最良のテスティング実績と最少の入力変数を備えた入力変数の選択で表わされ、規定した選択アルゴリズムにより、新世代のプロセスに進められる。

【発明の詳細な説明】
【技術分野】
【0001】
本願発明は人工知能に関するもので、特に、人工ニューラルネットワーク(artificial neural network: ANN)のような予測アルゴリズムのトレーニングおよびテスティングのデータベース最適化のシステムおよび方法に関する。
【背景技術】
【0002】
現代の予測アルゴリズムは、高度の人工知能を持つシステムである。人工知能は、データ処理装置の中で、人間の知覚処理および意志決定能力を、例えば、エミュレートまたはコピーする能力として規定することができる。インテリジェントシステムは、例えば、不確かなまたは部分的に知られた環境の中で、自主的に学習し適合する能力を備えている。予測アルゴリズムの商用化を促進したのはこの特徴である。
【0003】
人工知能への人工ニューラルネットワーク(ANN)アプローチは、人間の脳および出現する特性に関する研究に基づく。人工ニューラルネットワークは一般に良く知られている。人工ニューラルネットワークは、人間の脳によって使用されると考えられる組織的な法則のうちのいくつかを利用するために構築されたデータ処理システムである。総括的な神経ネットワーク又はコネクショニスト・モデル(connectionist model)では、例えば、3つの主なコンポーネントがある。それは、人工ニューロン、ネットワークトポロジー、および学習アルゴリズムまたは戦略である。
【0004】
人工ニューロンは、ほとんどの計算がなされるところの処理要素である。ニューロンは、例えば他のニューロンから、またはシナプスにより、又は他のニューロンへの相互連結パス出力による環境から、入力を受け取る。人工ニューラルネットワークの処理要素は、共に接続されており、その全体のシステムの作用は、例えば、これらの接続の構造および強さによって決定される。これらの要素のネットワーク構造は、ニューロン、すなわち処理要素から成る。ニューロンはグループまたはレイヤーで配列されている。多重層システムは、例えば、環境からの信号を受け取るか又はそこへ発する入出力のニューロン層、および隠れユニットと呼ばれるニューロンを含んでいる。隠れユニットは、1つ以上の隠れ層に組織化されている。隠れ層は、非線形のマッピングを行い、またシステムを信頼して訓練する複雑さに寄与する。
【0005】
異なる層のニューロン間の接続は、2つの方法のうちの1つで信号を伝える。つまりフィードフォワード信号およびフィードバック信号である。フィードフォワード信号は、情報が一方向だけに流れることを許可する。フィードバック信号の場合、情報がどちらか一方および/または帰納的に流れる。
【0006】
さらに、ニューラルネットワークの各接続している一対のニューロンは、関連する調整可能な値あるいは重みを持っている。重みは、一対の相互に連結したニューロン間の接続の強度を表わす。ニューラルネットワークのすべてのニューロンの接続の集合的な重みは、メモリ、例えば重み行列、に格納される。
【0007】
人工ニューラルネットワークでの学習は、ネットワークメモリ又は重み行列での任意の変更として規定される。ニューラルネットワークをトレーニングして、ネットワークは、ある入力に対して所望の出力を出すことになる。基本的に、ネットワークに2種類の学習またはトレーニングがある。教師なし学習および教師あり学習として分類される。教師なし学習すなわち自己組織性は、外部教師を含まないプロセスである。ローカルな情報および内部統制戦略だけが信頼される。教師なし学習の例は、適応共鳴理論(Adaptive Resonance Theory)およびHopfieldネットワークの実行である。
【0008】
他方、教師あり学習は、外部教師、例えばトレーニングとテストのデータベースに依存する。典型的な教師あり学習アルゴリズムは、例えばバックプロパゲーションである。 特に教師あり学習は、初期化されたANNに入力データの1セットを入れることからなる。関連した一対一のマッピング出力データが、初期化されたANNに対して知られている。
ANNによって計算された出力データは、既知の出力データと比較される。ANNのマッピング(mapping)と既知の出力データ間のエラーを、例えば距離関数またはメトリックで計算する。そして、このエラーは、新しい重み行列、すなわちメモリ、を計算するために使用される。トレーニングまたはテストステップは、所望の一致または正確なレベルに達するまで、すなわちエラーまたは距離関数が規定されたしきい値以下に減少するまで繰り返される。
【0009】
教師ありトレーニングは、通常、トレーニングアルゴリズムを使用する。そのアルゴリズムは、最適化手法を履行する。その手法は、正確なマッピングを提供する重みまたは値を変更するために適用される。最適化手法は、一般に、2つのカテゴリー、すなわち確率論的または決定論的手法のうちの1つとなる。
【0010】
決定論的手法は、進化的アルゴリズムを有している。これは、学習の不安定性を回避し、重みに対してゆっくりと近くの全体の最適、すなわちエラー表面の最少値に位置付ける。
【0011】
決定論的な手法は、他方では、勾配法として良く知られており、速く最小値を見つけるが、ローカルの最小値には疑わしい。
【0012】
他の種類の学習手法は、一般にはエラー訂正学習として定義される。一つの学習手法タイプは、出力層の各ニューロンの所望値と計算値の相違に比例した接続量み行列を調節する。エラー訂正学習の別の例は強化学習です。これは、適切に行なわれたアクションには重みが強化され、不適当なものには重みが縮小される手法である。出力層の実行は、単一スカラーエラー値で捕らえらる。
【0013】
これら異なるタイプのトレーニング手法は、米国特許6,269,351号、5,214,746号および5,832,446号に開示されている。これら各々の特許は、ANNのトレーニングアルゴリズムに注目し、およびそれを改善することを表明している。
【0014】
他方、米国特許6,212,508号および6,269,351号は、ANNのトレーニングおよび/またはテストデータセットの適切な定義の問題を参照している。しかしながら、これらの場合、考慮した唯一の問題は、トレーニングデータセットが選択できるデータベースの最適化ではなく、一群のデータレコードの中から正当に代表的なトレーニングセットの選択である。
【0015】
一般にトレーニングデータの選択は、簡単ではない。ANNは、機能的マッピングの代表的なもので、トレーニングに使用したデータをエミュレートする。したがって、トレーニングデータ内に含まれていない、あるいは暗示されていないマッピングの特徴または特性は、ANNの中では表わされないだろう。よい代表的なサンプルの選択は、過去データの分析および多くの試行錯誤を必要とする。十分な数の点を、データセットの各エリアから選択する必要がある。データセットは、マッピングの新しい又は異なる様相、動きまたは性質を表わしている。この選択は、一般には層別ランダム抽出で達成できる。すなわち、個々の興味ある領域から様々な領域を規定し、任意のいくらかの点を選ぶことによって遂行される。
【0016】
その問題に対して、米国特許6,269,351号は、一群のデータレコードから代表的なトレーニングを選ぶシステムおよび方法である。トレーニングアルゴリズムがデータレコードの全セットに関して中間のエラー目標に到着しない場合、そのような方法は、トレーニング中、トレーニングデータセットのサイズを順応して増加する。中間のエラー目標が、全データセットに関して到達すると、その後、より低いエラー目標がセットされる。また、トレーニングアルゴリズムは、定められた最終のトレーニング状態に相当するセットエラー目標まで繰り返される。もし最良に行われなければ、固有のマッピングを捕らえる必要な代表的データポイントを含むために、テストセットは、非常に大きくなり、複雑さを増しそしてテストセットに利用可能なデータ点の数を減少させる。
【0017】
同様に、米国特許6,212,508号は、入力変数をニューラルネットワークに調整する過程を開示することを意図している。そのような方法は、入力変数からネットワークまでの時系列の構成を含む。時系列は、間隔に細分され、間隔の長さは、そこに含まれていた測定変数が、どれくらい遠く後ろに、伸びているかによる。間隔が、さらに後ろに伸びるほど、間隔の長さはより大きく選択される。円錐形の関数を使用するコンボルーション(convolution)を用いて、ニューラルネットワークに対する代表的な入力値は、間隔に含まれているすべての測定変数から得られる。このようにして得られる入力変数はすべて、トレーニング中およびオペレーション中に、同時にネットワークに入力される。
【0018】
しかしながら、これらのアプローチのどれも、共通のデータベースのレコードを、個別のトレーニングサブセットおよびテストサブセットに分離する最適化の問題を言及していない。トレーニング時に面する最も難しい問題の1つは、人工ニューラルネットワーク(ANN)をトレーニングセットとテストセットのサイズおよび属性を確立することである。殆どの場合、プリセットされた利用可能なデータセットは、小さすぎるか複雑すぎるかで、簡単に2つのサブセットに分割することができない。これは、既知のトレーニングおよびテスティング手段で一般に行われるように、ある偽似ランダムの基準による。
【0019】
従って、データセットを2つ又は3つのサブセットのランダムの配分にする意味をなすのは、簡単な関数が、最適の方法で、全体のデータセットを表わす場合である。しかしながら、一般に、データは、ある未知の非線形の離散ハイパーポイントで、この仮定は失敗する。
【0020】
更に、トレーニングセットおよびテストセットへの利用可能なデータのすべての擬似ランダム配分は、異常値の問題を考慮に入れない。未知の非線形関数は、予測アルゴリズム、例えばANNで、近似できる。
【発明の開示】
【発明が解決しようとする課題】
【0021】
したがって、未知の非線形関数またはマッピングに最も良く近似できるように、予測アルゴリズムのトレーニングおよびテスティングのデータベースを最適化する方法およびシステムが必要となる。
【課題を解決するための手段】
【0022】
本願発明の典型的な実施例によれば、予測アルゴリズムのトレーニングおよびテスティングのシステムと方法を提供する。方法は、共通の一般的なデータベースから、最適トレーニング、テストおよび/または検証データセットを生成する。1つ以上の予測アルゴリズムを処理に使用するテストおよびトレーニングサブセット分布の個体群に、遺伝的アルゴリズムを適用する。本願発明の実施例では、操作する予測アルゴリズムのタイプは、人工ニューラルネットワークである。本願発明の好ましい実施例によれば、データベースのレコードで最も予言的な独立変数は、自動的に選択される。そのような選択過程は、遺伝的アルゴリズムを予測アルゴリズムの個体群に適用する。この個体群は、入力変数の数と内容で変化する。最小の入力変数を備えた最適のテスト実績がある入力変数の選択を表わす予測アルゴリズムが、新世代の生成に促進される。
【発明を実施するための最良の形態】
【0023】
本願発明の典型的な実施例は、予測アルゴリズムをトレーニングおよびテスティングするシステムおよび方法である。このアルゴリズムは、予測アルゴリズムの検証前に実行される前処理過程を含む。この前処理過程は、予測アルゴリズムの個体群を生成する。その各々は、トレーニングデータセットおよびテスティングデータセットへの、完全なデータセットのレコードの全体性の異なる配分を使用して、トレーニングおよびテスティングされる。
【0024】
個体群の各予測アルゴリズムは、例えば、トレーニングセットのレコードのそれ自身の配分によってトレーニングできる。その後、予測アルゴリズムは、テスティングセットに関するレコードのそれ自身の配分により手探りの方法で検証できる。
【0025】
次のテスティング過程では、予測アルゴリズムの適合性示すスコアーを計算する。
【0026】
さらに、進化的アルゴリズムは、トレーニングサブセットおよびテスティングサブセットの完全なデータセットのレコードの配分の異なるモデルを組み合わせる。配分の各モデルは、対応する予測アルゴリズムによって表わされる。これは、その配分モデルからのトレーニングおよびテスティングデータセットを使用して、トレーニングおよびテスティングされる。上述のように計算された適合性スコアによってスコアされる。
【0027】
各予測アルゴリズムの適合性スコアは、各予測アルゴリズムの、あるいはトレーニングとテスティングデータセット上の完全なデータセットの配分の進化の確立を表すことができる。
【0028】
作動する進化的アルゴリズムの発生する有限数は、システムまたはユーザによって定められる。あるいは、実行される最小の適合性エラーを示すことにより定められる。
【0029】
予測アルゴリズムをトレーニング、テスティンクおよび/または検証する本願発明の方法は、いかなる種類の既知の予測アルゴリズムよりも良い結果を供給することが出来るが、本願発明の好ましい典型的な実施例では、人工ニューラルネットワークが使用される。
【0030】
同様に、本願発明の典型的な実施例では、予測アルゴリズムの個体群を新化させる進化的アルゴリズムは、任意の既知のもので良い。これは、トレーニングデータサブセットおよびテスティングサブセットに、完全なデータセットの最適の配分をするためである。
【0031】
<進化的アルゴリズム>進化の方法は、自然の進化を模倣するような方法で構成されている。これらの進化的アルゴリズムは、一般的な最適化アルゴリズムとして作用する。進化的アルゴリズムが使用できるのは、個体群または解答の一つのメンバーが、もう一方のものより適切である場合となる。古典的な進化方法は次のステップからなる。
(1)初期の個体群を与え、その一つ以上のコピーをランダムに変化させる突然変異、所定の突然変異の規則または関数、を与えるステップ、
(2)個体の適合性あるいは最良の解決策は、関数で評価されるステップで、この関数は、個体のどれがその問題の最良の解決策を表わすかを決める。
(3)最良の個体が、最悪のメンバーと入れ替わる。終了基準が満たされると、方法は第1ステップに戻る。
【0032】
遺伝的アルゴリズムは、個体群(あるいは遺伝子プール)から所定数の個体(あるいは遺伝子)を選ぶ。選択は、適合性の評価に基づく。代わりに、その評価はスカラーの結果を生むかもしれない。これらの結果は、比較のために後で使用される。これら個々の一対は、つがいとなり(交差を経て)、さらなる個体(子孫)に到る。あるいは、個体群修正の他の形式は、世代に、あるいは世代間で使用される。個体群は、例えば、不規則な変化(突然変異)を引き起こす。この変異も子孫を生み出す。最後に、個体群の変化の後に、少なくとも個体群のいくらかは、えり分けられる。次世代の個体となる。この淘汰は、定められた適合性基準に依存して行なわれる。遺伝的アルゴリズムの終了条件は、例えば、一定の世代、個体群の特定の個人への収束あるいはある適合性基準に規定される最小値の到達である。
【0033】
<GenDタイプ遺伝的アルゴリズム>典型的な実施例の遺伝的アルゴリズムは、遺伝的ドーピングアルゴリズムである。このアルゴリズムは、下記文献に詳細に記載されている。M. Buscema, Genetic Doping Algorithm (GenD), Edizioni Semeion, Technical Paper 22e, (Rome 2000);およびMassimo Buscema,Genetic Doping and PST a New Mapping System, Year 2001, Edizioni Semeion, Technical Paper 20。これらは引例として係わっている。
【0034】
簡潔に要約すると、GenDアルゴリズムは、個体群からの子孫の新個体を生成する特別な変更規則を提供するものである。
【0035】
遺伝的アルゴリズムには通常のように、第1ステップとして、GenDは、最適化を要求する関数に依存して、個体群の各個体の適合性スコアを計算する。例えば、本願発明の典型的な実施例では、最適化を要求する関数は、トレーニングサブセットおよびテストサブセットへのオリジナルのデータセットのデータレコードの配分関数と考えられる。次に、例えば、全個体群の健康状態の平均スコアが計算できる。平均の健康状態を計算するのに使用される基準は、各世代に対して、所定の個体群の個人のすべての脆弱性を第1に、そして組換えを第2として構成している。
【0036】
したがって、個体の健康状態が、個体群の平均以下の場合、全ての個体は、脆弱リストに入れられる。これら個体は、個体群から除去されないが、単に「区分されている」、指定されてる又は別個に追跡されるプロセスに参加し続ける。個体群の脆弱な個体の数は、その世代に許可された結婚またはカップリングの最大数を自動的に確立することができる。各世代の可能な結婚あるいはカップリングの数は、このように、個体群の平均的な健康状態によって変わる。
【0037】
第3のステップでは、例えば、GenDアルゴリズムは、個体群内で個体をカップルにする。全個体群がこのステップに参加する。生じランダムのカップリングの最大の数は、以前に脆弱として区分された個体の数の半分に相当する。
【0038】
カップリング目的および子の世代のために、候補となる個体の各々は、全個体群の平均的な適合性の値に近い値を持っている必要がある。
【0039】
更に、各カップルは、子を生成するだろう。この場合、カップルの2つの個体の少なくとも1人は、全個体群の健康状態の平均値に近い又は高いので結婚をすることが出来る。例えば別の組換え規則によれば、GenDアルゴリズムは、2つの個体間の結婚の可能性を考慮しない。ここでは、1つが非常に低い健康状態値をもち、他方が、個体群の平均値に比べて非常に高い値を持っている。従って、非常に弱い個体および非常に健康な個体は、結婚をしないかカップルにならないようにする。
【0040】
進化的アルゴリズムとしてGenDアルゴリズムを利用する典型的な実施例では、カップリングによる組換えは、単に個体の親の遺伝子の古典的交差ではない。むしろ、GenDアルゴリズムは、2つのタイプの組換えによって親の遺伝子の選択的な組合せを達成することができる。第1のタイプの組換えは、ロジック交差で、反復が許可され、他方が日和見性の交差で、反復が許可されていない。
【0041】
ロジック交差は例えば、3つのケースを考慮する。1のケースは、「父」および「母」個体の健康状態が、全個体群の平均健康状態より各々大きい。2のケースは、両方の親の健康状態は、個体群の平均より低い。3のケースは、親のうちの一人の健康状態は、平均未満で、他方の親は、平均より良い。
【0042】
典型的な実施例によれば、ケース1が生じる場合、組換えは、従来の交差で生じる。第2のケースが生じる場合、子の世代が親の遺伝子の拒絶を通じて生じる。第3のケースの場合、より健康な親の遺伝子が子に伝えられ、健康でない親の遺伝子は拒絶される。
【0043】
ここで使用する拒絶という用語は、拒絶された遺伝子が取り消されることを意味しない。つまりそのような遺伝子は、置換される。遺伝子置換は、無作為ではないが、スライディングウィンドウ基準(sliding window criterion)によって実行される。これは、各遺伝子が、異なる遺伝オプションあるいは状態を持っているという事実に基づく。そのような場合、スライディングウィンドウによる置換は、拒絶された遺伝子が非常に良く似た遺伝子に置換され、オリジナルのものとは異なる状態になることを意味する。従って、典型的な実施例では、置換中、GenDタイプアルゴリズムによって使用される基準は、親個体に有ったものとは異なる状態によって所定の遺伝子状態の置換をする。スライディングウィンドウ基準は、図7および8と合わせて以下に更に説明する。
【0044】
第2のタイプの組換え、日和見性の交差は、反復が許可されない場合、実行される。このような場合、親は、無作為の交差点に関して重なった遺伝子を持つ。そして、親のより有効な遺伝子の選択で子孫が生成される。全ての子孫が生成されるまで、そのメカニズムは繰り返される。
【0045】
GenDタイプアルゴリズムの更なる基準は「最終機会」基準に依存する。最終機会は、以前に区分された脆弱な個体および結婚の機会を持たなかった個体を、突然変異によってカップリングメカニズムに再び入れる。典型的な実施例では、可能な突然変異の数は、潜在的な結婚の数、つまり個体群の結婚またはカップリングと実際に実行された結婚数の差で計算される。突然変異は、脆弱リスト上にあり及び区分された個体に発生する。このように、世代プロセスの一部となる機会がなかった個体に、進化プロセスに入る機会を与える。
【0046】
上記の要約から、GenDタイプアルゴリズムでは、結婚および突然変異の数は、外部変数とならない。実際は、適応性自己規定可能な内部変数である。それらは、個体群のグローバルな傾向を考慮に入れている。
【0047】
更に、GenDタイプアルゴリズムの基本ユニットは、従来の遺伝的アルゴリズムと異なり、個体ではなく種である。全体としての種は、各世代の全個体群の平均の健康状態によって、およびそれに応じて、個体の進化に作用する。そのようなアルゴリズムは、総体論的か、言い換えればグローバルで系統的なものである。個体と個体群の平均健康状態の間のフィードバックループは、アルゴリズムが、個体リストから個体の動的システムに変換するのを可能とする。
【0048】
同様に、発明の典型的な実施例では、各予測アルゴリズム、例えばANNの適合性スコアは、進化的アルゴリズム自体で計算することができる。
【0049】
本願発明の典型的な実施例として、方法は、各予測アルゴリズム、すなわち個体の適合性を計算する次のステップも含む。(a)トレーニングデータセットおよびテスティングデータセットを使用して計算される適合性、および(b)トレーニングデータセットとしてのテスティングデータセットおよびテスティングデータセットとしてのトレーニングデータセットを使用して計算される適合性。
【0050】
さらに、本願発明の典型的な実施例によって、図4に示すように、前処理過程が、実行される。得られた最良のトレーニングセットが、完全なデータセットとして得られる。そのデータセットから、新しいトレーニングサブセットおよびテスティングサブセットにデータが配分される。新しいトレーニングおよびテスティングサブセットは、各々、オリジナルの完全なデータセットの25%を含む。元の計算された最良のテスティングデータセットは、検証データセットとして使用されてもよく、オリジナルの完全なデータセットからのデータの残りの50%から成る。
【0051】
本願発明の別の典型的な実施例によれば、入力変数の選択を含む異なるアプローチが選べる。トレーニングおよびテスティングサブセットにデータセットの配分の最適化を実行することが出来る。さらに、あるいは並列の前処理過程として実行できる。
【0052】
この変形例または組合せた過程は、トレーニングおよびテスティングサブセットにデータの配分を最適化する上記の前処理過程と厳密に関係がある。いくつかの予測アルゴリズムは、特定のトレーニングセットによってモデル化され、そのレコードは、トレーニングとテスティングデータに対して、完全なデータセットから選ばれることを意味する。したがって、予測アルゴリズムの個体群は、特にANN、進化的アルゴリズム、即ちトレーニングデータセットの最適化に対する上述のアルゴリズムのうちの1つによって管理される。この場合、しかしながら、最適化されるトレーニングおよびテスティングサブセットへのレコードの配分ではなく、トレーニングデータセットの各レコードのより予言的な独立変数である。この変形の典型的な実施例は、図3を参照して以下に記述する。
【0053】
予測アルゴリズム、特に人工ニューラルネットワークをトレーニングする際の困難の1つが、変数の数を縮小する事である。アルゴリズムが、正確に入力データを評価するために考慮する変数である。予測アルゴリズム、例えば人工ニューラルネットワークによってエミュレートされる関数関係は、非常に複雑な関係である。入力変数と出力変数間の関係および出力変数に対する与えられた入力変数の関連の程度が、予防分析によって識別または規定するのが非常に難しい。従属変数、二重変数あるいはトレーニングデータセットのレコードに単に関連しない変数かを識別するのは非常に難しい。したがって、通常は、変数の全セットが、予測アルゴリズムをトレーニングするために使用される。この実行は、いくつかの欠点を持っている。過度の入力データは、予測アルゴリズム、ANNの重み行列、すなわちメモリのパラメータの最良適合に達する際に、さらに悪い結果を導く。
【0054】
本願発明の典型的な実施例によれば、あるデータベースのレコードの中で最も予測的な独立変数が、次の前処理過程の実行により自動的に選択される。
【0055】
トレーニングおよびテスティングデータセットへの完全なデータセットからのデータの配分が実行される。これらはランダム分布基準を使用して行う。
【0056】
異なる予測アルゴリズムの個体群が生成される。各個体群は、トレーニング及び/又はテスティングデータセットを有している。データセットの本来の変数の中でいくらかの変数だけを検討する。各予測アルゴリズムは、変数の異なる選択によって生成される。選択は異なる規則によってなすことができる。発見的方法は、データベースのデータの技術的意味およびその関連に基づいて適用できる。別の選択基準は、R2インデックスである。つまり、データセットのデータのみを考慮するピアソン(Pearson)の線形相関インデックスである。その変数は、所定のしきい値よりも大きなR2インデックス値を持っている。
【0057】
個体群の各予測アルゴリズムのトレーニングおよびテスティングを実行する、そして各予測アルゴリズムの適合性スコアを評価する。
【0058】
予測アルゴリズムの新しい世代の達成のために予測アルゴリズムの個体群に進化的アルゴリズムを適用する。
【0059】
入力変数の個々の新しい異なる選択を表わす新しい予測アルゴリズムの各世代について、最良の入力変数選択による最良の予測アルゴリズムが、テスティングまたは検証される。
【0060】
適合性スコアが評価され、また、利用された入力変数の最少数を備えた最良のテスティング実績を行なう入力変数の選択を表わす予測アルゴリズムが、新世代の処理に促進される。
【0061】
従って、トレーニングおよびテスティングデータセットに使用される典型的な入力変数選択過程は、完全なデータベース又はデータセットのデータのトレーニングおよびテスティングサブセットの配分を最適化する方法と組合せて適用できる。
【0062】
したがって、本願発明の好ましい典型的な実施例では、トレーニングおよびテスティングサブセットへのデータ配分の最適化が最初のプロセスとして実行され、入力変数選択は、第2のプロセスとして行なわれる。このようなプロセスは、時々、「前処理過程」と参照される。実際のデータに関する予測を作るためのアルゴリズムを使用するに先立ち、ある予測アルゴリズムに適用されるからである。各前処理過程の基礎的なアルゴリズムは同じなので、両方の過程を統一して実行することができる。この場合、前処理の両方の過程が、同じ全過程のサブルーチンとなる。
【0063】
本願発明の方法は、様々な方法で実行できる。そのような実行は、ハードウェア、ソフトウェア、ファームウェアあるいは任意の組合せを含む。同様に、本願発明の様々な方法は、ネットワークあるいは他のコンピュータ通信チャンネルを介して実行できる。また、1つ以上のサブプロセス又はサブルーチンを実行するモジュールは、共通の位置(colocational)である必要がない。
【0064】
図1は、例えば人工ニューラルネットワークのような予測アルゴリズムをトレーニングおよびテスティングするための完全なデータセットのレコードを配分する従来方式を描く。図示するように、データセットは、N個のレコードからなる。各レコードは、例えば、R個の入力変数およびS個の出力変数を備えている。これらは、例えば非線形関数、マッピングまたは他の依存関係にある。
【0065】
出力変数に対するレコードの入力変数の関係は、例えば、以前に、経験的に及び/又は実験ベースで規定することができる。例えば、多くの患者が、ある病状によって影響されるか又は影響されないことが発見されたことに対して、異なる徴候の変数、診断の変数および/または社会的な変数が集めることができる。したがって、病状の存在の有無は、出力変数の状態空間を規定することができる。一方、徴候的な変数、診断の変数および/または社会的な変数は、入力変数と見なすことができる。
【0066】
図1に示す従来方式は、データベース101のレコードのランダム配分102を、トレーニングサブセット103およびテスティングサブセット104に与えて、ある数の予測アルゴリズム、例えば異なる種類の人工ニューラルネットワークをトレーニングおよびテスティングする。異なる種類のニューラルネットワークは、ANN 1〜ANN X 105として図1で示されている。
【0067】
更に、人工ニューラルネットワーク、あるいは他の種類の予測アルゴリズムは、各トレーニングを補足テストセットインバートすることによりトレーニングおよびテスティングすることができ。異なる予測アルゴリズムの予測精度は、テスティング過程で評価することができる。したがって、最良のスコアを受け取った予測アルゴリズムは、現実の世界のデータ、つまり個体に対する出力変数を予測するものの1つとして選択される。入力変数が知られているのが現実の世界である。
【0068】
インバージョン過程は、例えば、システムが補正して、トレーニングおよびテスティングサブセットへのデータベースレコードの代表的でない配分を可能にする。ある特定のアルゴリズムANN Kの予測精度は、計算することができる。最初のトレーニングとテスティング過程および第2のトレーニングおよびテスティング過程での予測アルゴリズムで得られるスコアーを用いる。トレーニングおよびテスティングサブセットは逆転している。図1でのANN KおよびANN X+Kの適合性スコアの平均値は、そのような配分の予測精度を測るものとなる。
【0069】
上記図示したステップは、完全なデータセットをトレーニングおよびテスティングサブセットに1回以上のランダム配分に対して繰り返される。1からXまでの異なったインデックスのサブセットをリストする。次に、各予測アルゴリズムによって得られるスコアは、個々の異なるトレーニングおよびテスティングデータのサブセットに対して計算された個体のスコアーの平均値として評価される。
【0070】
従来方式は、いくつかの欠点がある。通常、完全なデータセットは小さすぎるので、あるランダムの基準による2つのサブセットに分割することができない。少なくとも2つのサブセットへデータセットのランダム配分は、単純な関数が最適の方法でデータセットを表わすと仮定される場合のみ意味をなす。通常、このようなデータは、未知の非線型関数の離散ハイパーポイント(hyper-point)である。トレーニングおよびテスティングセットへの全てのデータのランダム又は擬似ランダム配分は、外れ値のデータを考慮しない。
【0071】
したがって、明白であるが、トレーニングとテスティングに起因する予測モデルの質が、トレーニングサブセットがどれくらい代表的なのかに著しく依存する。一方、予測アルゴリズムの実行信頼性は、テスティングサブセットがどれくらい代表的かに依存する。
【0072】
トレーニングおよびテスティングデータセットへのレコードのランダム配分は、データセットがホログラフィックであるという仮定に基づく。それは、新しいセットのソースとしてランダムに使用できる完全性を持っているとみなしている。順番にある任意のセットが、予測アルゴリズムによって解決される問題の全母集団の代表となる。完全なデータセットが、試験中のプロセスの確率密度関数をシミュレートすると考えられる。
【0073】
例えばANNの予測アルゴリズムは、重み行列の重みのランダム初期化を用いて使用される。その時、非常に多くのトレーニングと検証ステップを備えるいくつかのトレーニング戦略は、人工的な結果の分散を引き起こす。これは、データセットのノイズではなく、重みのランダム初期化の戦略からくる。
【0074】
トレーニングおよびテスティングサブセットに関するデータ配分の古典派的アプローチは、結果をもたらすが、これは予測アルゴリズムのあるモデルのクラスの可能な性能の評価であってシングルモデルではない。
【0075】
図2は、本願発明の実施例による典型的なアプローチで、完全なデータベース201のレコードを、トレーニングサブセット203とテスティングサブセット204に配分の最適化をする方法を示す。図1で述べた従来方法の限界を取り除くものである。出発点は、再び完全なデータセット201で、N個のレコード、R個の既知の入力変数およびS個の既知の出力変数である。これらは、ある関数、関係または他の従属による入力変数関連している。
【0076】
配分の最適化プロセスは、トレーニング203およびテスティング204のサブセットに、Nレコードのランダム配分202から始まる。このステップは、数回繰り返されて、予測アルゴリズムの個体群、例えば異なる人工ニューラルネットワークANN 1〜ANN x 205を生成する。この個体群の各々は、レコードの異なるランダム配分を使用して、トレーニングとテスティングされる。この配分は、図2でインデックスを付けたトレーニングおよびテスティングサブセット1からxである。トレーニングおよびテスティングサブセットは、逆転させてANNのx+l〜x+x 206を生成することができる。
【0077】
トレーニングとテスティングされた予測アルゴリズムの最初の個体群は、いくつかの予測アルゴリズムからなる。それぞれは、トレーニングとテスティングセットのデータベース201レコードのある配分の代表である。
【0078】
さらに、予測アルゴリズムの個体群は、進化的アルゴリズム、例えば遺伝的アルゴリズムに入力することが出来る。遺伝的アルゴリズムは、元の親の個体群205,206から一定の規則で一連の世代を生成し、種の自然な遺伝の展開をエミュレートする。これは人工ニューラルネットワークが、基礎的なヒトの認識の機能性をエミュレートしようとする方法に似ている。
【0079】
進化的アルゴリズムは、、親の個体群の単一の予測アルゴリズム、例えば単一の人工ニューラルネットワーク、の適合性を評価することができる。この場合、テスティングセットの対応する入力変数に基づいて、テスティングセットの既知の出力変数の予測におけるエラーの計算する。このプロセスは、図2の220で示されている。このような適合性は、「適合性スコア」と呼ばれる。その後、適合性スコアは、さらなる世代の組換え規則を決める基礎的なパラメーターの1つとして使用される。
【0080】
進化的アルゴリズムは、予測アルゴリズム221の「子」世代の生成を行う。これは、トレーニングおよびテスティングセットへのレコードの新しい配分に基づく。この配分は、親アルゴリズムのレコードの配分を融合または突然変異により得られる。個体、すなわちこの新しい子世代の単一の予測アルゴリズムは、再びそれらの適合性スコア、つまり図2の222に関して評価される。子の個体群は、個体、すなわち予測アルゴリズムの新しい「孫」の個体群を生成するために使用することができる。
【0081】
最適な適合性223に達するまで、このプロセスは繰り返される。最適の適合性は、例えば、適合性スコア(ある世代内での最大または平均として規定された)が最大になる場合、以前に規定された上限に達する時、および/または進化が定められた世代数に進んだ場合である。
【0082】
最良の適合性スコアを備える1つ以上の個体、すなわち予測アルゴリズムが選択される。対応するトレーニングおよびテスティングデータサブセットへのレコードの配分は、調査中の問題の予測アルゴリズムをトレーニングおよびテスティングするために使用される。
【0083】
レコードの配分は、状態ベクトルを規定する。状態ベクトルは、完全なデータベース201のレコードの数Nと等しいディメンジョンまたは長さを持っている。ベクトルの各成分は、2つの可能な値、例えば0と1のうちの1つを持つことが出来る。各状態ベクトルの成分は、2つのデータサブセット、すなわちトレーニングまたはテスティングサブセットのうちの1つに、そのレコードの割り当てを示す。したがって、N=8で、状態変数が、トレーニングに対して1そしてテスティングに0が定義される場合、10101010の値は、レコード1、3、5および7がトレーニングサブセットに割り当てられ、レコード1、2、4、6および8がテスティングのサブセットに割り当てられることを示す。
【0084】
図5は、本願発明の典型的な実施例による上述の典型的な方法のステップを示す。この場合、異なる予測アルゴリズムは、少なくとも1つの隠し層がある人工ニューラルネットワークとして示される。各レコードの状態変数の異なる2つの状態は、入力データで異なる灰色の2レベルによって示される。例えば、ロジック「1」に明るい灰色を備え、ロジック「0」に暗い灰色を関連付け、データ処理デバイスに状態ベクトルを処理させる。レコードは、小さな正方形で表わされている。人工ニューラルネットワークの個体群は、進化的プロセスのスタートする親の個体群として使用される。
【0085】
図5は、2つの親ANN、AおよびBの遺伝子の単純な交差規則を示す。各々が、トレーニングサブセットおよびテスティングサブセットへのレコードの異なる配分を表わす。進化的アルゴリズムは、交差点を規定することができる。「遺伝子」は、各親のANN(人工ニューラルネットワークアルゴリズム)の各個体に、状態ベクトルの成分(明るい又は暗い)で形成される。組換え規則は、古典的な交差組換え規則である。2人の親AとBの遺伝子A2およびB2のグループが、交差して子ANNの生成し、子のANNは、トレーニングとテスティングサブセットの新配分を備えている。例えば、図5に示すように、親Aは、遺伝子コード「010101」そして親Bは、「001110」を持っている。子は親の交差で、子ABは、遺伝子コード「010110」および子BAは、「001101」を持っている。したがって、各々の子のデータベースの最初の3つのレコードは、1人の親が割り当てられ、次の3つのレコードは、もう一方の親から割り当てられる。
【0086】
原理的には、どの進化的アルゴリズムを用いても良い。本願発明では、遺伝的ドーピングアルゴリズム(Genetic Doping Algorithm: GenD)を使用する。
【0087】
この種類の遺伝的アルゴリズムは、進化のプロセスおよび親個体の遺伝子組換えを行うのに特有の規則を持っている。先ず最初に、GenDタイプアルゴリズムは、予測アルゴリズムの各親の個体群の異なる個体間の結婚を許可する特有の規則で特徴づけられる。この規則は、以下のように要約される。個体群の平均的健康状態は、親の個体群の個体を形成するすべての予測アルゴリズムの適合性スコアを考慮に入れて、関数として定義される。適合性スコアまたは健康状態が、全個体群の平均より以下の個体は、脆弱リストに入る。そのような個体は、除去しないで区分しておく。
【0088】
個体の全個体群が結婚に参加するので、遺伝子の組換えの個体のカップリングがありうる。カップリングおよび子または子孫の世代のために、双方の候補者は、全個体群の平均の健康状態に近い適合性の値を持つ必要がある。更に、別の基準として、各カップルは、子孫を生成できる。ただしどちらかが平均の適合性の値より大きいことを条件とする。非常に低い適合性の値を持っている個体と非常に高い適合性の値を持つ個体間のカップリングは適切でない。
【0089】
各結婚の子孫は、以前に脆弱リストに入れた対象者の場所を占めて区分される。弱い個体は、その個体の子によって存在し続けることができる。
【0090】
最終の機会基準も提供することができる。この基準によれば、潜在的な結婚と実際の結婚の違いは、可能な突然変異の数を定める。これら突然変異は、脆弱リストに区分されて、子すなわち子孫に取替えが無くまた結婚、カップリングで生成されたことの無い対象者で起きる。したがって、突然変異により、変化する数の弱い個人は、進化のプロセスに再び入れる機会を与えられる。
【0091】
カップルの個体間の組換えは、選択的な方法で達成される。2種類の組換えが許可されている。第1の組換えは、ロジック交差と呼ばれ、この交差は、反復が可能である。別のタイプの組換えは、日和見性の交差で、反復が許可されない。
【0092】
ロジック交差は、4つのケースを考慮する。
1.「父」および「母」個体の健康状態は、全個体の平均健康状態より良い。この場合、交差は、図5に示されるような古典的交差である。
2.「父」および「母」個体の健康状態は、全個体の平均健康状態より悪い。この場合、子孫は、交差プロセスによって受け取る親遺伝子の拒絶を通じて形成されます。
3.親のうちの1人の健康状態は全個体の平均健康状態未満。一方の親は、全個体の平均より良い。
この場合、健康状態が平均より良い親だけが、遺伝子を伝達し、健康が平均より悪い親の遺伝子は、拒絶される。この遺伝的アルゴリズムでは、遺伝子の拒絶は、遺伝子の除去を意味しない。これに反して、その拒絶は、他の状態レベルによる置き換えを意味する。この状態レベルは、拒絶された遺伝子が、「スライディングウィンドウ(sliding window)」呼ばれる原理により備えるものである。この原理を、トレーニングとテスティングのサブセットへの配分に対して、図7に示す。遺伝子は、2つの状態、0および1の数字で示される。スライディングウィンドウは、例えば、遺伝子が拒絶される場合、その遺伝子の直後の状態が、子の遺伝領域の中で使用されることを意味する。
【0093】
図8は、遺伝子が、文字A、B、C、Dによって示される4状態レベルのスライディングウィンドウの原理の典型的な実例です。この場合、状態Aが拒絶されると状態Bとなり、BからC等と矢印に示されるようになる。
【0094】
反復が許可されない場合、日和見性の交差が使用される。この場合、親はランダムな交差点で重なる。子孫は、親のより有効な遺伝子の選択を通じて生成される。子孫の遺伝子がすべて完成するまで、このメカニズムが繰り返される。さらなる世代をを経て開始の個体群を進化させる特別の規則は、他のものよりも自然な進化のプロセスを、GenDアルゴリズムに与える。
【0095】
<入力変数の前処理>予測アルゴリズムの開始個体群を管理する進化的アルゴリズムによる完全なトレーニングおよびテスティングデータセットの前処理の新方式も適用される。これにより、各レコードの異なる変数から、1セットの独立入力変数を選択する。この独立変数は、予測アルゴリズムによって行なわれる予測プロセスには最も適切なものである。
【0096】
図3は、前処理方法の例を示す。この方法は、上述の前処理方法の代わりにまたは一緒に使用でき、完全なデータベースのレコードの配分を最適化できる。図3では、データのトレーニングとテスティングセットの配分は、既に実行されている。上述の配分最適化であればどのような種類の方法でもよい。
【0097】
予測アルゴリズムまたは人工ニューラルネットワークの個体群は生成される。各個体のトレーニングおよびテスティングセットのレコードは、異なる独立変数の選択を備えている。これは、各レコードを形成する完全なデータセットのいくつかの入力変数が省略されることを意味する。各予測アルゴリズム、この場合、各ANNは、トレーニングセットで学び、テスティングセットでテストされる。各ANNの実行は、図2〜5による上記の方法による適合性スコアから評価される。
【0098】
予測アルゴリズムの開始個体群に、上記の進化的アルゴリズム、GenDあるいは別の進化的アルゴリズムを適用して、連続する世代の形成を行う。生成された各世代の個体の適合性スコアは、テスティング過程で評価される。また、適合性スコアが所望の信頼度のレベルに達するまで、新世代が生成される。それは、認められる最大エラー、あるいは一定の最大の世代数として以前に確定されている。結局、選択された予測アルゴリズムは、選択された最小の変数で、最良の適合性スコアを備えたアルゴリズムである。さらに、この場合、状態レベルは、変数に関係している。変数は、選択されたグループへの入場または排除を示す。
【0099】
データの配分の最適化に、このケースおよび前処理の例で注意すべき点がある。進化的アルゴリズムは、結果として、生成される個体の全ておよび対応する入力変数の選択を与える。その結果、比較することが可能となる。
【0100】
このデータ前処理方法は、入力変数の数の縮小を可能とし、アルゴリズムを過剰テストしたり、その問題を過度にトレーニングすることが無い。また多くの変数は、予測プロセスでの雑音の生成をもたらす。
【0101】
強調すべき点は、選択が、変数の単純な数学的縮小だけを行なって最も適切な変数にして入力データと出力データの関係(解決)の定めるものではない。むしろ他のデータに比べて費用のかかる入力データを除去するものである。この結果については、今回の前処理方法を用いた実施例を次に述べる。
【0102】
前処理方法も図6の中で配分最適化に関しては同様のやり方で示される。
【0103】
記述された2つの前処理方法は、組合せて使用および任意の順番で使用してもよいのは強調に値する。
【0104】
様々な前処理過程が提供される。したがって、第1過程は、データレコードのトレーニングおよびテスティングセットへの配分の最適化から成る。一旦、2つの最適化されたデータセットが規定されると、図3および6の方法による適切な入力変数選択を与える。そのように規定された新しいトレーニングセットは、新しいトレーニングセットおよびテスティングセットにレコードの配分を最適化するために処理される。一方、テスティングセットは、無分別の検証に第3番めのセットとして使用される。
【0105】
この一層のステップの例は、図4に示す。新しいトレーニングおよびテスティングセットそして検証セットが、得られている。図2および5の前処理ステップによるデータレコードの配分の最適化の結果であるトレーニングおよびテスティングデータセットから得ている。上記の中間の入力変数選択処理の提供は、自明と考えられ、当業者には理解できる。
【0106】
<例1>この例は、心臓病患者のデータセットの最適化を処理する。データは実験で集められ、完全セットは、270の患者から成る。探索点は、人口統計的および既往歴の変数および臨床検査に基づいて、心臓病の有無を予測することである。
【0107】
270の患者は、心臓病を持たない150人の患者、および心臓病と診断された120人の患者を表わす。13の独立変数を分類のために考慮する。
1. 年齢(実際の値)
2. 性別(2進法)
3. 胸痛タイプ(名目上)
4. 静止血圧(実際の値)
5. 血清コレステロール[mg/dl](実際の値)
6. 血糖量>120mg/dl(2進法)
7. 静止心電図結果(名目上)
8. 最大心拍数(実際の値)
9. 運動誘発性狭心症(2進法)
10. 運動誘起Oldpeak=ST depression(実際の値)
11. ピーク練習STセグメントの傾き(ordered)
12. 蛍光着色の主要な血管数(実際の値)
13. Thal[正常、治療済み、再発性](名目上)。
データセットは、図2および5に示すように本願発明の典型的な方法によって前処理される。結果は、表1の3つのサブデータとなる。
【0108】
【表1】

4つの隠しユニットのバックプロパゲーションANNを最初の2つのサンプルにトレーニングおよびテスティングを行ない、3つ目で検証した。
【0109】
表2は、その結果を示す。
【0110】
【表2】

上記の比較から、バックプロパゲーションニューラルネットワークの実行による改良は注目される。これは前処理過程で、トレーニング、テスティングおよび検証データサブセットへのデータ配分の最適化を実行している。例えば、図4参照。
【0111】
<例2>この例は、入力変数の選択に、データの前処理の関連性を示す。次の学習方法と使用された判別分析およびニューラルネット。
1. フィードフォワードプロパゲーション(BP)
2. オートリカレント(Auto-recurrent ARCR)およびクラスタリカレント(Cluster-recurrent TAMS)方法
研究対象は、350人の患者で、86人の男性および264人の女性で、20〜81才の年齢である。患者の263人は、萎縮性胃炎(ABG)で、87人は症状が無い。データセットは、40個の独立変数で構成される。2進法の答え(有/無)で最大限にした。人口統計データ、病歴および生化学のパラメーターを含む。種々の方法を使用して、診断精度の決める最も重要な変数を選択した。
【0112】
【表3】

表3は、実施した実験を示す。40個の変数の完全セットを備えたデータベースで実施された予備的な分析の後に、入力選択の前処理方法で、32個の変数を選択した。この入力変数を使用して、最上のネットワークは、診断の予測に99.3%の正確さを実現した。
【0113】
【表4】

表4は、変数の選択スコアによる選択基準を示す。データへの予備的な分析後に、判別分析で実験5から8個の変数を選択しニューラルネットワークを適用した。
【0114】
【表5】

変数は、例えば表5に示す。
【0115】
リストされた8つの変数から、例えば、3つの実験変数が除去できる。連続した20の実験の判別分析またはニューラルネットワークを使用した。動脈血液ガス(ABG: arterial blood gas)の診断は、臨床または健忘症データだけで予測できる。この最後の実験で、判別分析は20のテストの最良の結果として93.18%、ニューラルネットワークで99.88%に達した。
【0116】
この例から明らかに、入力変数の選択は、難しくかつ費用のかかる診断検査を回避できる。同様に、前処理で適切にトレーニングされたニューラルネットワークは、高品質で信頼できる結果を導くことが出来る。この前処理は、(a) レコードをトレーニング、テスティングおよび/または検証サブセットに最適に配分すること、(b) 最も適切な入力変数の選択をすることである。
【0117】
現在の記述では、全ての例は、ニューラルネットワークと組合せて予測アルゴリズムと記載されたが、一般に、どんな予測アルゴリズムを利用しても良い。
【0118】
本願発明の方法は、当業者に知られたソフトウェアプログラムの形式であるが、適切なデータ処理装置で実行しても良い。例えば、そのようなソフトウェアプログラムは、ハードドライブ、フラッシュメモリー、メモリスティック、光記憶装置メディアあるいは他のデータ保存装置など知られている装置に格納してもよい。プログラムが、適切なデータプロセッサのCPUによってアクセス実行されると、進化的アルゴリズムで、データベースをテスティングおよびトレーニングサブセットに配分する。同様に、データベースの入力変数から最適入力変数を選択する。
【0119】
本願発明は記載された内容に限定されない。当業者による変形または置き換えは、本願発明の範囲内と見なされる。
【0120】
本願発明の技術的な特徴を強調するために、1つの実際的な例として、音または音声の認識および画像認識がある。人工知能の機能を備えたデバイスまたは装置は、音響および/または電磁波に反応する入力手段を備えている。この記述は、波の物理的性質に対するもので周波数レンジに関するものでない。デバイスは、どの周波数レンジ内での信号に反応するセンサあるいはレシーバを容易に装備できる。この音響および電磁波の周波数レンジで、人間の耳および人間の目が反応する。この場合、人工知能がある装置は、プロセシング装置、コンピュータかマイクロプロセッサーを備え、ソフトウェアプログラムが格納されている少なくとも1つのメモリを備えている。プログラムは、発明の方法を実行するためのアルゴリズムまた命令を備えている。同一又はさらなるメモリに既知変数のデータセットが入る。さらに、前述のデータセットのための入力手段が設けられる。更に、デバイスは、人間の目に認識される光の周波数範囲の一つまたは一つ以上のセンサを備えている。この入力手段は如何なる物でも良い。例えば、マイクロホンとマイクロ波スキャナ、通常の構造のサンプリング装置、画像スキャニング装置(スキャナおよび/またはカメラ−通常のカメラまたはビデオカメラ)、および/または像をスキャニングそしてデジタル化してそのデータを配列して画像データを入力する手段などからなる。デバイスをトレーニングして、音および声の種類を認識させ、またその意味も認識させる。さらに装置は、電磁波を反射または発する物体の形、距離および意味を認識するようにトレーニングされる。これは、物体の性質または種類を意味し、例えば、人の顔または外観を識別することである。
【0121】
この場合、既知のデータのデータベースは、周囲の状況の一部となる物体または生物から発せられる音響信号に関連している。また、物体または生物の像に関連している。また、音響信号または画像データの識別および/または意味に関係している。異なるノイズまたは阻害がデータに影響を及ぼすことに留意すべきである。他の音響の影響および/または物体や人の光の状況が異なる場合である。従って、画像の認識問題は、些細なものではない。
【0122】
デバイスまたは装置を学習させるために、データセットが入力されるプログラムが、本願発明の方法で実行される。デバイスの音響および/または画像認識の能力を支配する予測アルゴリズムを最適にトレーニングおよびテスティングするためである。音響および/または画像認識プロセスは、デバイスまたは装置が素早く動作させるために出来る限り速くする必要がある。これはロボットのような一般環境で動作するデバイスまたは装置に必要である。
【0123】
本願発明の方法のシステムの別の例として、デジタル化した画像の人工知能を備えた画像パターン認識のシステムである。画像データのレコードの配列である。各画像データのレコードを、二次元または三次元の視覚映像をピクセルまたはボクセルと呼ぶ領域、点、一義的エリアまたは体積に関連させる。視覚映像は、ピクセルまたはボクセルの配列で形成および表示される。システムは、普通のコンピュータであるプロセシング装置と、所定の異なる属性の画像データのレコードを格納するメモリで、その品質は、システムに入力された画像データのレコードに一義的に関連しているメモリと、デジタル画像データレコードの配列を収容する入力手段と、現存の画像とメモリからのデジタル画像データのレコードの配列を生成する入力手段と、ソフトウェアプログラムでパターン認識アルゴリズムを実行するプロセシング装置で選択された画質を表示する出力手段と、を備えている。画像パターン認識アルゴリズムは、ソフトウェアプログラムの形をした予測アルゴリズムである。予測アルゴリズムは、トレーニングおよびテスティングソフトウェアプログラムを備えたシステムに関連している。システムは、本願発明の方法でトレーニングとテスティングを実行する。
【0124】
上記のシステムと異なる例として、本願発明の方法の代わりにまたは組合せて、データベースでデータレコードの独立変数の選択を行う上記方法を実行しても良い。この方法の過程もシステムのメモリに格納されたソフトウェアプログラムでプロセシング装置で実行される。
【0125】
一般的には、発明のシステムは応答動作を生成する装置またはデバイスである。応答動作は、装置のメモリに格納された種類の異なる応答動作から自発的、自身で選択されたものである。または、応答動作は、物理的入力に反応する一つ以上のセンサーで自発的に収集されるデータの解釈の応答動作の種類の選択に基づいて生成される。物理的入力は、入力手段で装置に入力される。その解釈は、メモリに格納されている予測アルゴリズムでなされ、中央演算装置(CPU)で実行される。予測アルゴリズムのトレーニングおよびテスティング過程を実行する手段を設けている装置は、異なる応答動作の少なくとも一つの確定した種類の応答動作に関連している。既知データベースの予測アルゴリズムデータを入力するためで、つまり物理的入力を表す入力データ変数が、一つ以上のセンサーで装置に知覚および/または装置に入力できる入力手段が必要である。この手段もトレーニングおよびテスティングのソフトウェアの形式である。このソフトウェアプログラムは、本願発明の方法に対応している。つまり一つ以上の前述ステップの組合せまたは副結合である。
【0126】
図9に装置を概略的に示す。装置は、CPUまたは従来のコンピュータ装置の中央演算装置10を備えている。音、電磁波または同様の作用に応じた信号がセンサ11で生成される。装置は、自発的に応答動作を出力する。応答動作は、一つ以上の応答動作アクチュエータ12で実行される。アクチュエータ12は、機械的作動を実行する手段、および/または音響または映像信号の発生と送信または受信する手段、または他の動作を行う手段である。動作の種類は、予測アルゴリズムのような人工知能アルゴリズム、遺伝的アルゴリズムまたは他の既知のアルゴリズムの手段で選択される。これらアルゴリズムは、メモリ13またはメモリのあるエリアに格納されている。異なる応答動作は、メモリ14またはメモリエリアに格納されている。動作を実行するソフトウェアプルグラムがプロセシング装置で取り出される。または、異なる動作が プロセシング装置10で生成される。メモリ15または他のメモリに格納されたプルグラムで応答動作生成アルゴリズムを実行する。人工知能アルゴリズム、たとえば予測アルゴリズムは教育およびテスト手順で初期化する必要がある。トレーニングおよびテスティングデータベースは、格納メディアリーダのような入力デバイスで入力できる。格納メディアは、トレーニングおよびテスティングデータベースが格納されている所に挿入される。データベースは、本願発明の方法のデータベースのトレーニングおよびテスティングデータベースの最適の配分に提示される。ソフトウェアプログラムは、メモリまたはメモリエリア17に格納され、CPU10で取り出される。入力選択オプションは、同様にプログラムでメモリまたはメモリエリア18に格納されている。中央演算装置は、このプログラムにアクセスしてトレーニングおよびテスティングデータベースのレコードの異なる独立変数の入力変数の選択を実行する。最終的には、センサに感知された入力データおよび特定の応答動作は、メモリまたはメモリエリア19に実験のデータベースとして格納される。データベースは、その応答動作への状況の反応をも含むことがきる。その応答動作は、ある値に関連、つまり装置で自発的に選択実行された応答動作の成功の尺度に関連する。
【0127】
発明による方法の他の例は、入力変数選択の集中的な使用と組合せて、トレーニングおよびテスティングデータセットの最適化に関連する。この場合は、遺伝子の決定に適用できる。遺伝子は、生物学的疾患あるいは病的状態に関連しており、特に遺伝子検査目的のDNA マイクロアレイ(microarray)を作成する方法に適切である。
【0128】
遺伝学およびゲノムの研究の最近の進展は、生物学の組織の、および植物、動物および人間個体のゲノムを広くマッピングする可能性を与えた。個別化された遺伝子には、限られた機能が知られている。更に、前述の遺伝子の影響の、組織の生物学的疾患、あるいは病的状態の、または病的状態の進行の潜在的リスクの原因の相関性に関しては、完全には知られていない。
【0129】
特定の遺伝子および/またはその多型の存在の意味において、特定の遺伝子型の生物学的疾患または病的状態の相関性は、遺伝子またはその多型に依存する。多型は、個体の遺伝子型に存在または存在しない。これは、生物学的疾患および病的状態に関連する遺伝子型の個性化を一層複雑および難解にする。
【0130】
最近、ほとんどの疾病の病因が、一般に「危険要因」と呼ばれる遺伝と環境要因の複雑な相互作用によって影響を受けるプロセスであることが実証された。環境要因については長く研究されてきたが、遺伝因子が考慮されたのは最近である。
【0131】
生物学的疾患または病的状態の「危険要因」に関連する遺伝子およびそれ多型のセットを決定するために、DNAマイクロアレイまたはバイオチップが開発された。そのようなDNA マイクロアレイ及びその使用は、"DNA microarrays in medical practice" by Timothy J Aitman published in Clinical Review Volume 323, September, 15,2001に記載されている。それはDNA マイクロアレイを生産する構造と方法に関して開示している。
【0132】
このDNAマイクロアレイは、個体のゲノム、あるいは、多くの遺伝子およびその多型に関係する細胞組織のDNAの遺伝マップを決定することができる。
【0133】
このマッピングは、組織細胞または個体のゲノムで構成される遺伝子およびその多型に関する情報を与える。このマッピングは、組織細胞の特定の生物学的疾患に関連される。例えば、腫瘍細胞の進行、および/または特定の種類の疾患または病的状態、または個体の特異的疾患または病的状態に進行する危険要因に関連する。
【0134】
通常は、しかしながら、検討する遺伝子とその多型の数は比較的多い。また、前述の遺伝子および多型の選択は、理論的な論争に基づいて、および遺伝子の既知の機能においてなされる。
【0135】
生物学的疾患および/または病的状態に関わる遺伝子及びその多型の数の選択および結果としての縮小は、次の方法で行うことができる。非常に沢山のサンプルまたは患者を検討する必要がある。生物学的疾患または病的状態の存在の有無の確認などである。および統計的数学の方法、ロジスティック回帰または多項ロジスティック回帰の適用である。これにより、ある遺伝子またはその多型の関連のテスティング、ある生物学的疾患または病的状態の有無をテスティングする。他の統計的手法として、特定の遺伝子とその多型または突然変異または同一機能の遺伝子の選択に、R2として表示されるPearsonの線形相関インデックスからなる。
【0136】
この方法は、"Scoring Genes for Relevance" by Amir Ben-Dor, Nir Firedman and Zohar Yakhiniおよび"Gene Chips Inch Toward the Clinic" by Brian Vastagの刊行物に開示されている。これらは、比較的高い確率で生物学的疾患および病的状態に関連する遺伝子及びその多型の数を縮小させる。
【0137】
この縮小は、統計的手法の本来の制限で限定される。この手法は、信頼できる結果を出すために非常に大きな患者の数を必要とする。関連する遺伝子とその多型の数は、この手法では、一層の縮小はできない。縮小は、さらなる実験またはデータベースの患者数の拡張が必要となり、非常に高価なものとなり時間も必要とする。
【0138】
生物学的疾患または病的状態に関連する充分な確率を持つ遺伝子の高い数の危険因子を評価する個体の遺伝子特定は、時間および費用がかかる。また関連するマイクロアレイまたはバイオチップは、さらに費用がかかる。従って、DNAマイクロアレイの使用は、研究に限定されており、標準の検査または方法として考慮されていない。
【0139】
しかし、統計的数学手法で得る遺伝子およびその多型の数の縮小の結果は、単一の細胞組織または単体の個体の信頼できる情報を与えない。これらの手法は、サンプルまたは個体の個体群に関した結果を与えるからである。
【0140】
本願発明の方法は、マイクロアレイ上の疑わしい関連をもつと判断される多くの数の遺伝子から限定数の遺伝子の選択ができる。進行する細胞組織の生物学的疾患、個体の病的状態または細胞組織または生物の他の生物的特性を評価するためである。
【0141】
したがって次のステップ順で実行される。
a)実験で得るデータのデータベースを提供するステップで、
データベースの各レコードは、患者のサンプル個体群の既知の臨床または実験の患者に関連している、レコードは、ある数の入力変数からなり、ある数の理論的に関連する遺伝子の所定数の多型、突然変異、同等の遺伝子の有無に対応し、および一つ以上の出力変数に関連し、サンプル個体群の臨床および実験の患者の生物学的疾患および病的状態に対応している。
b)遺伝子および/または多型の所定の縮小させた数の選択を定めるステップで、
データベースに適用する数学的手段による遺伝子または多型、および生物学的疾患または病的状態をテスティングし、
c)数学的ツールは、予測アルゴリズム、すなわちニューラルネットワークで、次のステップから成る。
d)予測アルゴリズムをトレーニングおよびテスティングするためにそのデータセットのデータベースを分割するステップ、
e)二つ以上の異なるトレーニングデータセットを規定するステップで、
データセットは縮小した入力変数のレコードを備え、縮小した入力変数は最初に規定された入力変数から一つ以上除去し、トレーニングセットに縮小した入力変数は、少なくとも一つのに有力変数を備え、他のデータセットの縮小した入力変数と異なり、それぞれの入力変数は、理論的に検討された最初の状況から異なる遺伝子、多型、突然変異、同様の機能となる。
f)ステップe)で規定した異なるトレーニングセットで予測アルゴリズムをトレーニングするステップ、
最初の異なる予測アルゴリズムの個体群を生成すること、
個体群は、母と父の予測アルゴリズムの2つのグループに分割する、
関連するテスティングセットで予測アルゴリズムをテストするステップ、
g) 最初の個体群の父および母の予測アルゴリズムの適合性スコアまたは予測精度を、テスト結果で計算するステップ、
i)進化的アルゴリズム、すなわち遺伝的アルゴリズムを提供するステップ、
進化的アルゴリズムを母および父の予測アルゴリズムの最初の個体群に適用して新しい世代の予測アルゴリズムを得るステップ、トレーニングおよびテスティングデータセットはレコードからなり、レコードの入力変数選択は、最初または以前の父と母の予測アルゴリズムのデータセットレコードの入力変数の組合せである。
j)入力変数の個々の新しい異なる選択を表わす新しい予測アルゴリズムの各世代に対して、最良の予測アルゴリズムが、入力変数選択の最良の仮説により、テストデータセットによって、テスティングまたは検証されるステップ;
k)適合性スコアが評価され、そして予測アルゴリズムが新世代のプロセシングに進むステップ、
アルゴリズムは、最小の入力変数で最良の達成に到った入力変数の選択を示すものであり、
l)予測アルゴリズムおよび最小の入力変数の最良適合と規定される所定の適合性スコアに達するまで、ステップi)からk)を繰り返すステップ、
m)得られた予測アルゴリズムで表される選択の入力変数に関連するものを、選択した関連入力変数、すなわち遺伝子、多型、突然変異あるいは等価のものとして規定するステップからなる。
【0142】
上記のステップの組合せでは、最初のデータベースのトレーニングおよびテスティングデータベースへの最適配分は実行されなかった。この最適化は、前処理または後処理で実行できる。ステップd)でステップe)からm)の実行前、またはステップa)からm)の実行後となる。データレコードの最適配分は、本願発明で実行される。
【0143】
前処理または後処理の最適化は、進化的アルゴリズムの使用からなる。予測アルゴリズム、例えばニューラルネットワークの最初の開始個体群から生成する。ニューラルネットワークは、異なるデータベースでトレーニングおよびテスティングされている。 個々のデータセットは、完全なデータベースレコードのランダムは配分に対応している。
【0144】
別の最適化の方法は、次のステップからなる。
−データベースレコードをトレーニングおよびテスティングサブセットに一セット以上の配分を規定するステップ、
−その規定された配分を使用して、第一世代の一つ以上の予測アルゴリズムのセットをトレーニングおよびテスティングして、それぞれに適合性スコアを指定するステップ、
−予測アルゴリズムのセットを進化的アルゴリズムに入力するステップ、進化的アルゴリズムは、一つ以上の第二世代の予測アルゴリズムのセットを生成してそれぞれに適合性スコアを指定する、
−予測アルゴリズムの世代セットを終了するまで進化的アルゴリズムに入力するステップ、
−終了は、少なくとも一つの予測アルゴリズムが、所定の最小値以上に適合性スコアに達した場合である。
予測アルゴリズムの継続した世代の最大の適合性スコアは、一定の値に収束して、何世代かが生成される。
【0145】
別の実施例によれば、前処理過程は次のステップから成る。
−予測アルゴリズムの個体群を生成する。各アルゴリズムは、完全なデータセットのトレーニングおよびテスティングデータセットの異なる配分によりトレーニングおよびテスティングがなされている。
−各配分は、ランダムまたは擬似ランダム配分で行われる。
−個体群の各予測アルゴリズムは、トレーニングセットへの配分でトレーニングされ、テスティングセットへの配分で手探りで検証される。
−各予測アルゴリズムで達したスコアは、適合性を表示するテスティング過程で評価される。
−進化的アルゴリズムは、トレーニングおよびテスティングセットの完全なデータセットの異なる配分モデルを結合する。これらのセットは、対応する予測アルゴリズムで計算された適合性スコアで表現される。
−異なる配分の適合性スコアは、その配分の各予測アルゴリズムの進化の確率である。
−予測アルゴリズムの世代進化を繰り返す。有限数の世代、または遺伝的アルゴリズムの出力が最良の解に収束するまで、および/またはデータレコードの配分に関わる少なくともある予測アルゴリズムの適合性の値が所望の値に達するまで。
−データレコード配分を最良の解に対する最適化したトレーニングおよびテスティングサブセットとして設定する。
【0146】
前述の前処理過程を後処理過程として実行しても良い。この場合、入力変数選択ステップが行なわれて、適切な入力変数の縮小数、つまり、遺伝子および/またはその多型が決定されてからである。
【0147】
上記の入力変数選択の方法は、前処理または後処理の有無に関係なく、入力変数を著しく縮小させる。入力変数とは、遺伝子、多型、突然変異、および/または同機能の遺伝子で、組織細胞または個体患者の危険を予測する入力変数である。
【0148】
組織細胞または個体の患者のゲノムを特定するDNAマイクロアレイまたはバイオチップは、遺伝に関わる変数(遺伝子、多型、突然変異、等価機能の遺伝子)を調べるためには、非常に少ない数の遺伝に関わる変数が必要である。そして費用がかからず生産が容易となり評価に時間を必要としない。
【0149】
更なるステップとして、入力変数選択方法と組み合わせても良いが、ピアスン(Pearson)の線形相関インデックスを評価するステップである。
【0150】
このステップは、上記方法との並行ステップとして又は最初の予備選択ステップとして提供される。そして、入力変数を統計的に縮小する。
【0151】
並行ステップでR2インデックスが計算されると、その入力変数は、選択された入力変数に共通のものとして、そして最良のR2を備えた入力変数セットとして選ばれる。
【0152】
2つの数学的方法の組合せによる選択の実行には、異なる種類の統計的アルゴリズムまたはインデックスが使用される。
【0153】
本願発明によれば、DNAマイクロアレイを備えた検査または診断キットを提供することができる。DNAマイクロアレイ上には、遺伝に関する変数(遺伝子、多型、突然変異、同等機能の遺伝子)のDNAまたはRNA配列に補完的な配列が与えられる。本願発明は、キャリアにプログラムを提供することができる。このプログラムは、DNAマイクロアレイ上の全てまたは一部のDNAまたはRNA配列に対応した限定した入力変数でトレーニングおよびテスティングされた少なくとも一つの予測アルゴリズムからなる。このプログラムは、従来のコンピュータにロードしてデータの入力後に処理させる。データ入力は、バイオチップのDNAまたはRNA配列の組織細胞または個体のゲノムの有無に関する。
【0154】
次に上述の方法の実施例を示す。目的は、個体群の個体にたいして、ある遺伝子または多型の有無に関して特定するマイクロアレイを作成することにある。これらの遺伝子等は、理論的には、ある種の生物学的疾患、つまり形態学または病理学に、または病的状態または生物学的疾患の進行のリスクに関連している。理論的科学的知識で、遺伝子の多型のいくつかは区別され、そのリストが生成された。生物学的疾患が知られている個体のゲノムが、多型の有無に関して分析されたケーススタディがあり、既知のデータベースが生成される。このデータベースから、トレーニングおよびテスティングデータセットが本願発明により生成され、そのレコードが独立入力変数の選択を受ける。この場合、データレコードの入力変数は、単一の多型と考えられる。単一の多型は、ある個体のゲノムの多型リストの特定の多型の有無を示す値に関連している。入力変数に関する出力変数は、生物学的疾患の有無である。
【0155】
【表6】

表6は、入力変数として65の多型で実行された実験を説明する。多型の種類は、結果に比較的無関係である。65の入力変数は、この項で与えられた規定によるある生物学的疾患の有無を示す2つの出力変数に関連させた。
【0156】
【表7】

表7は、実験結果を示す。
【0157】
表7に、予測の適合性スコアによる結果がリストされている。リストは、上述のケースと従来のバックプロパゲーションニューラルネットワークを参照している。結果は、いくつかの計算の反復によって得られた平均値を表わしている。計算の数はコラム示されている。ある場合には、ニューラルネットワークの適合性スコアを、対数回帰の適合性スコアと比較する可能性があった。入力変数は、ニューラルネットワークに使用したものと同じである。逐次回帰および全回帰の二種類の回帰を実行した。表から明らかなように、実験1においてのみ優れた適合性スコアが逐次対数回帰で得られた。64個の入力変数の完全セットが考慮されており、データレコードの配分は、最適化していない。実験2は、ニューラルネットワークおよび対数回帰アルゴリズムの予測性に類似した結果を示している。実験2は、64個の入力変数であるが、配分の最適化を行っている。全ての他の実験3〜13においては、どちらの対数回帰を実行しても、少ない入力変数のニューラルネットワークの適合性スコアは、優れた適合性スコアを備えている。興味深い事実として、少ない入力変数のデータセットでのトレーニングまたはテスティングによるニューラルネットワークの適合性スコアは、可能な全ての入力変数のデータセットでのトレーニングまたはテスティングによるニューラルネットワークまたは対数回帰アルゴリズムの適合性スコアよりも必ず優れている点である。さらに表から明らかに、本願発明の方法は、診断方法が考慮されていない。異なる数と種類の入力変数で、同程度の予測の最適性スコアが得られているからである。いずれにしても、本願発明は、マイクロアレイに置く遺伝子、多型等の数を縮小する強力な道具である。マイクロアレイは、生物学的疾患の個体のゲノムに遺伝子または多型等の有無を調べるものである。
【0158】
実験9は、5個の入力変数で適合性スコアが80.50%に達した。これは、DNAまたはRNA配列を得るために、5個の遺伝子または多型がマイクロアレイで必要とすることを意味する。実験15は、9個の入力変数で、さらに良い適合性スコア84.37%に達する。限られた数の配列を持つDNAマイクロアレイまたはバイオチップは、35個の遺伝子および65個の多型の完全な入力変数セットに比べて非常に低コストで生産できる。
【0159】
マイクロアレイは、キットの一部としても良い。キットは、既にトレーニングおよびテスティングしたニューラルネットワーク又はそのグループからなりフロッピディスク又はCDでコンピュータプログラムになっている。前述のプログラムは、従来のコンピューターにロードされ、遺伝子または多型の存在の有無に基づく個体患者の血栓症のリスクの予測を計算するために使用される。この情報は、既知の従来の方法で、マイクロアレイによる個々の患者のゲノムを特定することにより得られる。
【0160】
種々の方法で完全データベースから選択した縮小入力変数セットは、良好な結果をもたらした。興味深いのは、実験9と15で最も高い適合性スコアに達したことである。特に、実験9は、5個の選択入力変数からなる。この変数は、本願発明の組合せ選択を既に縮小した入力変数セットに適用したものである。この予防の入力変数選択のステップは、異なるアルゴリズム、この場合R2インデックスに基づく。
【0161】
本願発明、マイクロアレイおよび診断キットによる方法は、個体の生物学的疾患のみ参照しているが、組織細胞の生物学的疾患の予測にも適用できる。診断分野では、腫瘍細胞の転移を予測するために使用できる。
【図面の簡単な説明】
【0162】
【図1】図1は、完全なデータセットのレコードをトレーニングおよびテスティングデータセットに配分する典型的な従来の方法を示す。
【図2】図2は、本願発明の実施例によるレコードをトレーニングおよびテスティングデータセットへの配分を最適化する典型的な方法を示す。
【図3】図3は、本願発明の実施例によるデータベースの最も予測的な独立入力変数を選択する典型的な方法を示す。
【図4】図4は、図2で示す方法のさらなるプロセスを図示し、トレーニングデータセットが、さらに新トレーニングデータセットおよび新テストデータセットに配分され、元の最適化されたテストセットが、検証データセットとして使用される、本願発明の好適例を示す。
【図5】図5は、完全なデータセットのトレーニングおよびテスティングデータセットへの配分の最適化の図2の方法の図式的な説明を示す。
【図6】図6は、本願発明の最も予測的な独立入力変数の選択に対する図3の方法の図式的な説明を示す。
【図7】図7は、本願発明の実施例による遺伝的アルゴリズムの使用でのスライディングウィンドウ遺伝子拒絶規則(Sliding Windows Gene Rejection Rule)の適用を示す。
【図8】図8は、本願発明の実施例による遺伝的アルゴリズムの使用でのスライディングウィンドウ遺伝子拒絶規則(Sliding Windows Gene Rejection Rule)の適用を示す。
【図9】図9は、本願発明の方法による人工知能と作動を備えた装置の模式図を示す。

【特許請求の範囲】
【請求項1】
データベースレコードをトレーニングおよびテスティングサブセットに1つ以上配分するセットを規定するステップと、
規定した配分で1つ以上の予測アルゴリズムの第1世代セットをトレーニングおよびテスティングして各々に適合性スコアを与えるステップと、
予測アルゴリズムのセットを進化的アルゴリズムに入力するステップと、
該進化的アルゴリズムは、1つ以上の第2世代の予測アルゴリズムを生成し、各々に適合性スコアを与え、
終了事象が生ずるまで予測アルゴリズムの各世代セットを進化的アルゴリズムに入力を続けるステップと、
該終了事象は、少なくとも1つの予測アルゴリズムの適合性スコアが、規定した最小値以上で生成され、継続する予測アルゴリズムの世代セットの最大適合性スコアが一定値に収束し、一定の世代が生成される、
ことを特徴とする予測アルゴリズムのトレーニングおよびテスティングのサンプルレコードのデータベースの最適化方法。
【請求項2】
予測アルゴリズムの個体群を生成するステップと、
各予測アルゴリズムが、完全データベースのデータセットのレコードのトレーニングおよびテスティングデータセットへの異なる配分でトレーニングおよびテスティングされ、
各異なる配分は、ランダムまたは擬似ランダムの配分で実行されるステップと、
個体群の各予測アルゴリズムは、レコードのトレーニングセットへの自身の配分によりトレーニングされ、テストセットへの自身の配分により模索して検証するステップと、
各予測アルゴリズムで達したスコアを、その適合性を表すテスト過程で計算するステップと、
進化的プログラムをさらに備えるステップと、
該進化的プログラムは、トレーニングおよびテスティングセットへの完全なデータセットのレコードの配分の異なるモデルを組合せ、各トレーニングおよびテスティングセットは、対応する予測アルゴリズムの前ステップで計算された適合性スコアによる、そのデータセットに基づいてトレーニングおよびテスティングされた対応する予測アルゴリズムで表され、
トレーニングおよびテスティングデータセットへの完全なデータセットの異なる配分の1つに対応する各予測アルゴリズムの適合性スコアは、その予測アルゴリズム又はその配分の進化の確率とするステップと、
予測アルゴリズム生成の進化を繰り返すステップと、
繰り返しは、有限数の世代で、または、遺伝的アルゴリズムの出力が最適解に収束、および/または、関連するデータレコード配分の予測アルゴリズムの適合性の値が所望の値に達するまで、
トレーニングおよびテスティング予測アルゴリズムの最適化したトレーニングおよびテスティングサブセットとして最適解のデータレコードの配分をセットするステップと、
からなることを特徴とする請求項1記載の最適化方法。
【請求項3】
データセットの各レコードに、配分変数は2進数で関連し、少なくとも2つの状態を備え、一方の状態は、レコードをトレーニングセットへ、他方の状態は、テスティングセットへの包含に関連する、ことを特徴とする請求項1または2記載の最適化方法。
【請求項4】
予測アルゴリズムが人工ニューラルネットワークである、ことを特徴とする請求項1〜3の何れか1項記載の最適化方法。
【請求項5】
予測アルゴリズムが分類アルゴリズムである、ことを特徴とする請求項1〜4の何れか1項記載の最適化方法。
【請求項6】
最適化配分がなされると、最適化トレーニングデータセットは完全なデータセットとみなし、そこに含まれる個体を新しいトレーニングおよびテスティングセットに配分し、トレーニングおよびテスティングセットは、最初の最適化トレーニングセットのレコードの約半分を備え、最初の最適化テスティングセットは、検証プロセスで第3のデータサブセットとして使用される、ことを特徴とする請求項1〜5の何れか1項記載の最適化方法。
【請求項7】
最初の最適化トレーニングセットの新しいトレーニングおよびテスティングセットへの配分を、請求項1〜4の前処理過程により最適化される、ことを特徴とする請求項1〜6の何れか1項記載の最適化方法。
【請求項8】
トレーニングおよびテスティングデータサブセットの構造の異なる選択が、データベースのデータレコードの入力変数の数の選択で、各レコードを形成する全体の入力変数から1つ以上の変数を残す選択で、データベースのレコードが、ある数の既知の入力変数と既知の出力変数とからなる、ことを特徴とする請求項1記載の最適化方法。
【請求項9】
完全なデータセットをトレーニングおよびテスティングデータセットへの配分を規定するステップと、
異なる予測アルゴリズムの個体群を生成するステップと、
各アルゴリズムは、トレーニングおよび/またはテスティングデータセットを備え、データセットの最初の変数から一部の変数のみを考慮して、各予測アルゴリズムは、異なる変数選択で生成され、
個体群の各予測アルゴリズムの学習とテスティングを実行し、各予測アルゴリズムの適合性スコアを評価するステップと、
新世代の予測アルゴリズムを達成する予測アルゴリズムの個体群に進化的アルゴリズムを適用するステップと、
新しい異なる入力変数の選択を表す新しい予測アルゴリズムの各世代に対して、入力変数選択の最適の仮説による最適の予測アルゴリズムがテスティングおよび検証され、適合性スコアが計算され、最適のテスト実績と最少の入力変数を備えた入力変数の選択を表す予測アルゴリズムが、新世代のプロセスに進められる、
ことを特徴とする請求項8記載の最適化方法。
【請求項10】
最も予測的な入力変数を選択する前処理過程が、請求項2〜9の1つ以上の組合せで実行する、ことを特徴とする請求項8または9記載の最適化方法。
【請求項11】
請求項8および9による入力変数の前処理過程を受けたデータベースが、データレコードの最適配分の請求項2〜8による方法で処理したトレーニングおよびテスティングサブセットである、ことを特徴とする請求項10記載の最適化方法。
【請求項12】
請求項2〜8の方法による最適化されたレコードの配分は、選択された入力変数の数を備えたデータレコードで、選択は請求項8および10の方法で実行される、ことを特徴とする請求項1〜11の何れか1項記載の最適化方法。
【請求項13】
レコードのトレーニングおよびテスティングサブセットへの最適化および最も予測的な入力変数の選択の前処理過程は、交互に代わり代わり数回実行される、ことを特徴とする請求項1〜12の何れか1項記載の最適化方法。
【請求項14】
進化的アルゴリズムが、
個体群の平均の健康状態の値が、個体群の各個体の適合性の値の関数として計算される規則と、
カップリング、つまり遺伝子の組み換えおよび突然変異は、カップルの各個体の適合性と個体が属する全個体群の平均の健康状態の値との比較による分化型手段で実行される規則と、
全個体群の平均健康状態の値以下の適合性の値を有する個体は、新世代の生成から除外されず、区分されて脆弱リストに入れられる規則と、
を備えた遺伝的アルゴリズムである、ことを特徴とする請求項1〜13の何れか1項記載の最適化方法。
【請求項15】
カップリングおよび子の生成は、親の両個体が、全個体群の平均の健康状態に近い適合性の値を備えている、ことを特徴とする請求項14項記載の最適化方法。
【請求項16】
個体の各カップルは、どちらかが平均の適合性よりも大きい場合、平均の健康状態と異なる個体、いわゆる子孫を生成し、この子孫は、脆弱リストに区分された対象者の場所を占めるので、弱い個体が子を通して継続して存在できる、ことを特徴とする請求項14または15項記載の最適化方法。
【請求項17】
非常に低い適合性の値を備えた個体と、非常に高い適合性の値を備えた個体間のカップリングは許可されない、ことを特徴とする請求項14〜16の何れか1項記載の最適化方法。
【請求項18】
両親が共通の遺伝子を持たない場合のカップルによる遺伝子の組み換え規則が、
父と母の個体の健康状態が、全個体群の平均健康状態よりも良いとする規則と、
交差は、古典的な交差で、父と母の個体の遺伝子が、ある交差点から互いに置換され、
父と母の個体の健康状態が、全個体群の平均健康状態よりも悪いとする規則と、
2人の子は、両親の遺伝子を拒絶して、交差プロセスで形成され、
両親の一方の健康状態が、全個体群の平均値より悪く、両親の他方の健康状態が、全個体群の平均値より良いとする規則と、
平均値よりも良い健康状態を備える親のみが遺伝子を伝達し、平均値よりも悪い健康状態を備える親の遺伝子は拒絶される、
ことを特徴とする請求項14〜17の何れか1項記載の最適化方法。
【請求項19】
遺伝子の拒絶が、個体の遺伝子変数の状態を、遺伝子(変数)に定められた次の状態レベルに変更することからなる、ことを特徴とする請求項18記載の最適化方法。
【請求項20】
親の個体の遺伝子改変交差は、一致する遺伝子部分を備えた両親で実行され、改変交差は、子孫を生成し、生じた遺伝子は、両親の最も効果的な遺伝子である、ことを特徴とする請求項18または19記載の最適化方法。
【請求項21】
個体は、データレコードのテスティングおよびトレーニングデータセットへの異なる初期のランダムな配分に対応する予測アルゴリズムで、遺伝子は、各レコードのトレーニングおよびテスティングサブセットに係わる2進状態変数からなる、ことを特徴とする請求項14〜20の何れか1項記載の最適化方法。
【請求項22】
個体は、異なるトレーニングおよびテスティングデータセット表現する予測アルゴリズムで、予測アルゴリズムの相違は、各異なるトレーニングおよびテスティングサブセットの異なる入力変数の選択に存在し、遺伝子は、異なる各サブセットの入力変数に備えた異なる選択変数からなり、選択変数は、各データセットのレコードの対応する入力変数の有無を示すパラメータである、ことを特徴とする請求項14〜20の何れか1項記載の最適化方法。
【請求項23】
最適化方法が、CPUで実行される命令を備えたソフトウェアプログラムで、CPUがアクセス可能なメモリに格納されている、ことを特徴とする請求項1〜22の何れか1項記載の最適化方法。
【請求項24】
請求項1〜23の何れか1項記載の最適化方法で、CPUまたはコンピュータシステムの実行命令からなるソフトウェアプログラムが、メモリデバイスに格納されている、ことを特徴とする最適化方法。
【請求項25】
請求項1〜24の何れか1項記載の最適化方法を実行するシステムが、
応答動作を生成する装置またはデバイスを備え、
その応答動作は、
装置のメモリに格納された幾つかの異なる種類の応答動作から、自発的、即ちそれ自身で選択されるもの、
物理的実体に応答する1つ以上のセンサで集められるデータの解釈で、応答動作の種類の選択に基づいて装置で自発的に生成されるもの、
入力手段で装置に入力されるもの、で
その解釈は、装置のメモリに格納されたソフトウェアの予測アルゴリズムでなされ、中央演算装置(CPU)で実行され、
装置は、予測アルゴリズムのトレーニングおよびテスティング過程を実行する手段をさらに備え、
既知のデータベースの予測アルゴリズムデータへ入力する、
物理的実体を表す入力データの入力変数は、装置の1つ以上のセンサで察知され、
入力手段で装置に入力されるもので、
入力データの入力変数は、異なる種類の可能な応答動作の少なくとも1つの確定した応答動作に一義的に関連し、
トレーニングおよびテスティングを実行する手段は、装置のメモリに格納されたトレーニングおよびテスティングソフトウェアで、
トレーニングおよびテスティングは、請求項1〜22の何れか1項記載の方法で実行され、
トレーニングおよびテスティングソフトウェアプログラムは、プログラムまたは命令形式のトレーニングおよびテスティングの方法である、
ことを特徴とするシステム。
【請求項26】
音波に応答する入力手段からなる音または音声認識の装置、
音波に応答する入力手段に接続したプロセシング装置、
ソフトウェアプログラムが格納される少なくとも1つのメモリ、
該ソフトウェアプログラムは、請求項23または24記載の形式で、コード命令からなり、プロセシング装置が、請求項1〜22の何れか1項記載の方法を実行し、
既知データレコードが格納される別のまたは前記と同一のメモリと、
既知データレコードのデータセットをメモリに格納する入力手段と、を備えた
ことを特徴とする請求項25記載のシステム。
【請求項27】
画像認識で、入力手段が電磁波に応答し、システムが電磁波を生成または反射する対象物の形および/または対象物の距離および/または識別を認識することが出来る、ことを特徴とする請求項25または27記載のシステム。
【請求項28】
既知のデータレコードのデータベースは、
デバイスが動作する環境の1つ以上の物体または1つ以上の生物で発せられる音響信号、
または、デバイスが動作する環境の1つ以上の物体または1つ以上の生物の1つ以上の画像に関わるデータ、
および/または音響信号または画像データが関与する物体の識別および/または意味である、
ことを特徴とする請求項26または27記載のシステム。
【請求項29】
デジタル化した画像、つまり画像データレコードの配列形式の画像を解析する人工知能ユーティリティを備えた画像パターン認識の特殊化した装置で、
各画像データレコードは、2次元または3次元の視覚画像の領域、点、単位エリアまたは体積、いわゆる視覚画像のピクセルまたはボクセルに関連し、
視覚画像は、画像データレコードを表示するピクセルまたはボクセルの配列とユーティリティで形成され、
システムは、プロセシング装置、例えば、従来のコンピュータおよびメモリを備え、
画像パターン認識アルゴリズムは、プロセシング装置で実行されるソフトウェアプログラムでメモリに格納され、
画像データレコードが想定する一定数の所定の異なる属性を格納するメモリで、属性は、システムに入力された画像データ配列の画像データレコードの各々に一義的に関連し、
デジタル画像データレコードの配列を収容、または現存の画像およびデータ配列を格納するメモリからデジタル画像データレコードの配列を生成する入力手段と、
画像データ配列の各画像データレコードに対してプロセシング装置がソフトウェアプログラムで画像パターン認識アルゴリズムの実行で選択した幾らかの属性を示す出力手段と、
画像パターン認識アルゴリズムは、ソフトウェアプログラム形式の予測アルゴリズムで、さらにトレーニングおよびテスティングソフトウェアプログラムを備えたシステムに関連し、
システムは、請求項1〜22の何れか1項記載の方法によりトレーニングおよびテスティングを実行でき、
方法は、トレーニングおよびテスティングソフトウェアプログラムの形式で、システムに供され、
データレコードを備えるデータベースで、既知の画像データ配列の既知画像データレコードと関連し、画像データレコードが想定する所定の異なる属性の幾らかの数から対応する既知の属性を備えている、
ことを特徴とする請求項27または28記載のシステム。
【請求項30】
遺伝子型を特定する操作のマイクロアレイを生産する方法で、
方法は、理論的に関連する遺伝子、対立遺伝子または多型の幾らかの数を定めるステップからなり、組織構造のような生物学的疾患、病状または病状の進行の可能性、あるいは解剖学的または形態学的特性に関連し、
a) 実験で確定したデータのデータベースを供するステップで、
該データベースの各レコードは、患者のサンプル個体群の既知の臨床または実験のケースに関連し、レコードはいくらかの入力変数を備え、入力変数は、理論的に関連する幾らかの遺伝子の所定の多型、突然変異または同等の遺伝子の有無に関連し、データベースの各レコードは、1つ以上の関連する出力変数を備え、その出力変数は、サンプル個体群の臨床または実験の患者の生物学的疾患または病的状態に対応し、
b) 多型および/または遺伝子の所定数の縮小する数の選択を決定するステップと、
選択は、遺伝子または多型および生物学的疾患または病的状態の関連をデータベースへの数学的ツールの適用でテストすることにより、
c) 数学的ツールは、予測アルゴリズム、すなわちニューラルネットワークからなり、
d) データベースをトレーニングおよびテスティングデータセットに分割し、予測アルゴリズムをトレーニングおよびテスティングするステップと、
e) 2つ以上の異なるトレーニングデータセットを規定するステップと、
各々は、縮小した入力変数の数を備えたレコードで、縮小は、最初の規定された入力変数の数から1つ以上の入力変数を除くことによる、各レコードに対して、対応するトレーニングセットの入力変数の減少数は、少なくとも1つの入力変数を備え、入力変数は、他のトレーニングデータセットの減少数の入力変数と異なり、各異なる入力変数は、異なる遺伝子、異なる多型、異なる突然変異、異なる機能的に等価の遺伝子からなり、生物学的疾患または病的状態に理論的に関連が有ると考慮される最初の遺伝子、多型、突然変異または機能的に等価の遺伝子と異なり、
f) e)で定める異なるトレーニングセットで予測アルゴリズムをトレーニングし、および関連するテスティングセットで予測アルゴリズムをテスティングするステップと、
異なる予測アルゴリズムの第1個体群を生成し、予測アルゴリズムは母と父の予測アルゴリズムの2つのグループに分けられ、
g) 第1の個体群の各々の父と母の予測アルゴリズムの適合性スコアまたは予測精度をテスティング結果で計算するステップと、
i) 進化的アルゴリズム、すなわち遺伝的アルゴリズムを提供し、進化的アルゴリズムを新世代の予測アルゴリズムを得るために、母と父の予測アルゴリズムに適用するステップと、
新世代のトレーニングおよびテスティングデータセットは、レコードからなり、その入力変数選択は、トレーニングとテスティングデータセットのレコードの入力変数選択の組合せで、データセットは、進化的アルゴリズムの規則による父と母の予測アルゴリズムの第1または前の個体群のもので、
j) 各入力変数の新しい異なる選択を表す新予測アルゴリズムの各々の生成に対して、入力変数の最良の仮説による最適予測アルゴリズムは、テスティングデータセットによりテスティングおよび検証され、
k) 適合性スコアが計算され、予測アルゴリズムは新世代のプロセスに進展される。この予測アルゴリズムは、最少の入力変数を用いた最良のテスト実績を備えた入力変数の選択を示したもので、
l) 所定の適合性スコアに達するまでi)からk)を繰り返すステップと、
適合性スコアは、最適の予測アルゴリズムおよび最少の入力変数として規定されていて、
m) 選択された関連する入力変数、すなわち関連遺伝子、多型、突然変異または機能的に等価な遺伝子として規定するステップと、
予測アルゴリズムで表される選択の入力変数は、少なくとも所定の適合性スコアと最少数の選択入力変数を備えている、
ことを特徴とする遺伝子型を特定する操作のマイクロアレイの生産方法。
【請求項31】
最初のデータベースのレコードのトレーニングおよびテスティングデータベースに配分する最適化を、前処理過程または後処理過程として実行し、
前処理過程は、ステップd)で、ステップe)からm)を実行する前で、後処理過程は、ステップa)からm)を実行してからで、
データレコードの最適配分を請求項1〜23の何れか1項記載の最適化方法で実行する、
ことを特徴とする請求項30記載のマイクロアレイの生産方法。
【請求項32】
データベースレコードをトレーニングおよびテスティングサブセットに1つ以上配分するセットを規定するステップと、
規定した配分で1つ以上の予測アルゴリズムの第1世代セットをトレーニングおよびテスティングして各々に適合性スコアを与えるステップと、
予測アルゴリズムのセットを進化的アルゴリズムに入力するステップと、
該進化的アルゴリズムは、1つ以上の第2世代の予測アルゴリズムを生成し、各々に適合性スコアを与え、
終了事象が生ずるまで予測アルゴリズムの各世代セットを進化的アルゴリズムに入力を続けるステップと、
該終了事象は、少なくとも1つの予測アルゴリズムの適合性スコアが、規定した最小値以上で生成され、継続する予測アルゴリズムの世代セットの最大適合性スコアが一定値に収束し、一定の世代が生成される、
最適化ステップからなる、ことを特徴とする請求項31記載の生産方法。
【請求項33】
予測アルゴリズムの個体群を生成するステップと、
各予測アルゴリズムが、完全データベースのデータセットのレコードのトレーニングおよびテスティングデータセットへの異なる配分でトレーニングおよびテスティングされ、
各異なる配分は、ランダムまたは擬似ランダムの配分で実行されるステップと、
個体群の各予測アルゴリズムは、レコードのトレーニングセットへの自身の配分によりトレーニングされ、テストセットへの自身の配分により模索して検証するステップと、
各予測アルゴリズムで達したスコアを、その適合性を表すテスト過程で計算するステップと、
進化的プログラムをさらに備えるステップと、
該進化的プログラムは、トレーニングおよびテスティングセットへの完全なデータセットのレコードの配分の異なるモデルを組合せ、各トレーニングおよびテスティングセットは、対応する予測アルゴリズムの前ステップで計算された適合性スコアによる、そのデータセットに基づいてトレーニングおよびテスティングされた対応する予測アルゴリズムで表され、
トレーニングおよびテスティングデータセットへの完全なデータセットの異なる配分の1つに対応する各予測アルゴリズムの適合性スコアは、その予測アルゴリズム又はその配分の進化の確率とするステップと、
予測アルゴリズム生成の進化を繰り返すステップと、
この繰り返しは、有限数の世代、遺伝的アルゴリズムの出力が最適解に収束、および/または関連するデータレコード配分の予測アルゴリズムの適合性の値が所望の値に達するまで、
トレーニングおよびテスティング予測アルゴリズムの最適化したトレーニングおよびテスティングサブセットとして最適解のデータレコードの配分をセットするステップと、
からなることを特徴とする請求項31または32記載の生産方法。
【請求項34】
縮小する数の遺伝子、対立遺伝子または多型が、請求項30〜33の生産方法により選択される、ことを特徴とする遺伝子型を特定するマイクロアレイ。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公表番号】特表2006−518062(P2006−518062A)
【公表日】平成18年8月3日(2006.8.3)
【国際特許分類】
【出願番号】特願2006−500551(P2006−500551)
【出願日】平成16年1月13日(2004.1.13)
【国際出願番号】PCT/EP2004/000157
【国際公開番号】WO2004/063831
【国際公開日】平成16年7月29日(2004.7.29)
【出願人】(503427359)ブラッコ イメージング ソチエタ ペル アチオニ (19)
【氏名又は名称原語表記】BRACCO IMAGING S.P.A.