有用な情報を自律的にブートストラッピングする装置
【課題】 未学習から出発して実験および学習の累積的なサイクルを通じて自身を適応的または創造的な能力のより高いレベルへ漸進的にブートストラップする。
【解決手段】 発見システム内の訓練を実行し、自身に適用される各種の形式の摂動を通じて新たな出力パターンを生成すべく刺激を受けるニューラル・ネットワークと、同様に当該システム内のその場で訓練を実行し、前者のネットワーク内でこれらのパターンのうち、より有用またはより貴重なパターンの強化学習を起動しつつ、そのような新たなパターンに自身の有用性または価値を関連付けることができる評価機能ニューラル・ネットワークとを用いる発見システム。後者と前者の自己学習人工ニューラル・ネットワーク間のオプションのフィードバック機構を用いて、有用な概念または行動計画に向けて本システムの収束を加速する。
【解決手段】 発見システム内の訓練を実行し、自身に適用される各種の形式の摂動を通じて新たな出力パターンを生成すべく刺激を受けるニューラル・ネットワークと、同様に当該システム内のその場で訓練を実行し、前者のネットワーク内でこれらのパターンのうち、より有用またはより貴重なパターンの強化学習を起動しつつ、そのような新たなパターンに自身の有用性または価値を関連付けることができる評価機能ニューラル・ネットワークとを用いる発見システム。後者と前者の自己学習人工ニューラル・ネットワーク間のオプションのフィードバック機構を用いて、有用な概念または行動計画に向けて本システムの収束を加速する。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
【0002】
本出願は、2005年5月7日出願の仮特許出願第60/678,856号を優先権主張する。
発明の技術分野
【0003】
本発明は、一般に人工知能の分野に関し、より具体的には自己学習のニューラル・ネットワーク型発見システムに関する。
【背景技術】
【0004】
発明の背景
【0005】
以下は、本発明者の先行特許であっていずれも全体を参照により本明細書に援用している米国特許第5,659,666号明細書「有用情報を自律的に生成する装置」を始め、その派生特許群である米国特許第5,845,271号明細書、同第5,852,815号明細書、同第5,852,816号明細書、同第6,014,653号明細書、同第6,018,727号明細書、同第6,115,701号明細書、同第6,356,884号明細書に対する改良の概要である。これらの原特許は図1に示す予め訓練された直列構成の人工ニューラル・ネットワークを利用し、あるネットワークが摂動されて新規且つ潜在的に有用なパターン(すなわち、発想または行動計画)を生成する一方、他のネットワークが評価機能(オプションとして摂動されたネットワークにフィードバックを与える)として動作するものの、当該基本アーキテクチャは自身の成功および失敗から学習する能力を備えていなかった。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許第5,659,666号
【特許文献2】米国特許第5,845,271号
【特許文献3】米国特許第5,852,815号
【特許文献4】米国特許第5,852,816号
【特許文献5】米国特許第6,014,653号
【特許文献6】米国特許第6,018,727号
【特許文献7】米国特許第6,115,701号
【特許文献8】米国特許第6,356,884号
【発明の概要】
【発明が解決しようとする課題】
【0007】
従って、自身の成功および失敗から学習ができる人工ニューラル・ネットワーク型システムを開発することに利点がある。
【0008】
本発明は、上述の課題の1つ以上を克服することを意図している。
【課題を解決するための手段】
【0009】
発明の概要
【0010】
本発明の一態様は一般に、自身のブートストラッピングが可能なニューラル・ネットワーク型システムに関係し、特定の適用領域に本システムを導入することにより適応性および創造性が徐々により高いレベルに上がり、一連の実験サイクルを実施してそれらの実験結果から学習する。
【0011】
本発明の上述の態様によれば、自己学習人工ニューラル・ネットワーク型発見装置であって、出力パターンの生成が可能な第1の人工ニューラル・ネットワーク部と、前記第1の人工ニューラル・ネットワークにさまざまな摂動度を与える手段と、前記第1の自己学習の人工ニューラル・ネットワークの前記出力パターンの少なくとも1つを概念として実装する手段と、前記概念の効果を評価する手段と、正の効果につなげるべく前記出力パターンの1つの前記第1の自己訓練人工ニューラル・ネットワーク内で強化学習を起動する手段とを含む発見装置を提供する。本システムは基本的に、最初に発想が生成され、引き続き記憶として再吸収される脳内のプロセスに類似している。累積的なサイクルにより、従来の発想の上に新しい発想が構築され、次いで更に多くの先端的思想に基づく記憶となる。
【0012】
これらの態様は、本発明に関連付けられた多くの態様を単に例示するものであり、決して限定されないことを理解されたい。本発明のこれらおよび他の態様、特徴および効果は、参照図面と合わせて以下の詳細説明から明らかになる。
【0013】
本発明の実施に際して公知の最良の形態を例示する図面を参照し、同一参照番号は複数の図面を通じて同一または類似部分を示す。
【図面の簡単な説明】
【0014】
【図1】旧世代の創造的機械を示す構成図である。
【図2】本発明の第1実施形態のアプリケーションに関連付けられた学習プロセスのフロー図である。
【図3】図2の実施形態を用いるロボットの学習プロセスを示す写真である。
【図4】別の実施形態のアプリケーションに関連付けられた学習プロセスを示す概念図である。
【図5】本発明の実施形態を示す概念図である。
【図6】別の実施形態を用いる顔の再構築アプリケーションの各種のフェーズを表わす概念図である。
【図7】別の実施形態を用いる顔の再構築アプリケーションの各種のフェーズを表わす概念図である。
【図8】別の実施形態を用いる顔の再構築アプリケーションの各種のフェーズを表わす概念図である。
【図9】別の実施形態を用いる顔の再構築アプリケーションの各種のフェーズを表わす概念図である。
【図10】別の実施形態を用いる顔の再構築アプリケーションの各種のフェーズを表わす概念図である。
【図11】別の実施形態のアプリケーションを用いる六脚ロボットの構成図である。
【図12】図11の六脚ロボット向けの人工ニューラル・ネットワーク型制御システムの第1のアプリケーションの構成図である。
【図13】図11の六脚ロボット向けの人工ニューラル・ネットワーク型制御システムの別のアプリケーションの構成図である。
【図14】図13のアプリケーションから生じる潜在的な派生的行動を示す概念図である。
【図15】人工ニューラル・ネットワーク型制御システムの経路計画アプリケーションの構成図である。
【図16】人工ニューラル・ネットワーク型制御システムの経路計画アプリケーションの構成図である。
【図17A】図15および16の経路計画アプリケーションを組み込んだロボットから見た画面サンプルである。
【図17B】図15および16のアプリケーションが生成したコスト経路またはナビゲーション領域を示す構成図である。
【図18】別の実施形態による人工ニューラル・ネットワーク型カメラ制御システムのフォビエーション的アプリケーションの訓練の構成図である。
【図19】別の実施形態による人工ニューラル・ネットワーク型カメラ制御システムのフォビエーション的アプリケーションの訓練の構成図である。
【図20】図18および19のアプリケーションの概念図である。
【図21】図18〜20のアプリケーションの動作を示す構成図である。
【図22】図18〜21のアプリケーションの動作を示す概念図である。
【図23】図18〜21のアプリケーションの動作を示す概念図である。
【発明を実施するための形態】
【0015】
詳細な説明
以下の詳細な説明において、本発明が完全に理解されるよう多くの具体的な詳細事例を記載する。しかし、本発明がこれらの具体的な詳細事例なしでも実施可能であることは当業者には理解されよう。例えば、本発明を分かり難くしないよう、公知の方法、手順、および構成要素については詳述していない。
【0016】
以下で創造的機械とも呼ばれる本明細書に記載している創造型の神経アーキテクチャは、オブジェクト指向ニューラル・ネットワーク・モジュールを利用し、その各々が自身の専用訓練アルゴリズム(STANNOS)を含んでいる。STANNOSはまた、米国特許第6,014,653号明細書に記載されており、その開示内容を本明細書に明示的に引用している。創造的機械の旧バージョンおよび創造的機械で用いる一般的な構造の説明が、米国特許第5,659,666号明細書「有用情報を自律的に生成する装置」およびその派生特許である米国特許第5,845,271号明細書、同第5,852,815号明細書、同第5,852,816号明細書、同第6,014,653号明細書、同第6,018,727号明細書、同第6,115,701号明細書、および同第6,356,884号明細書に含まれており、これらの全てを本明細書で明示的に援用している。これらの先行特許は、図1に示す直列構成の予め訓練された人工ニューラル・ネットワークを利用した。これらのシステムに関連付けられた基本アーキテクチャは、新規且つ潜在的に有用なパターン(すなわち、発想または行動計画)を生成すべく摂動された1つのネットワークを含み、一方、別のネットワークが評価機能(オプションとして摂動されたネットワークにフィードバックを与える)として機能する。
【0017】
本明細書に記載する実施形態では、このような創造的機械が多くの候補発想または戦略を生成した際に、人間がこれらの発想の有効性を評価して、当該アーキテクチャ内で、各々のネットワークをこれらのパターンについてその場で訓練することができる。摂動された、生成ネットワークは引き続き、新しい発想または戦略に関して訓練を受けて当該新規パターンの記憶を強化することができる。
【0018】
本明細書に記載するシステムの実施形態は通常、互いに相互作用する2種類の人工ニューラル・ネットワーク、すなわち自己およびヘテロ連想多層パーセプトロンからなる。これらの種類のニューラル・ネットワークの各々について、強化学習の概念は僅かに異なる意味を有する。
【0019】
自己連想ネットワークは、同一個数の入力および出力ユニットを有する。強化学習は当該ネットワーク経由で入力パターンを伝播する少なくとも1つのサイクルを含む一方、同じパターンを逆伝搬ステップ用の目標出力パターンとして使用する。充分なフィードフォワードおよび逆伝搬サイクルを通じて、ネットワークは自身の出力層において、他の同様に強化されたパターンと同様にこれを複製することを学習する。その後、任意の入力パターンがそのような記憶の1つであるか否かに関する評価は、入力と出力パターンの間のユークリッド距離により通常決定されるネットワークを介した自身の再構築誤差に依存する。同様に、記憶は、入力層において確率的に生成された何らかの種パターンを適用し、続いて入力および出力パターンが相互に向かって収束するように出力層と入力層との間で複数回反復することにより再構築することができる。次いで、その結果生じたこのようなパターンのうち当該反復を通じて安定なままであるものが、当該自己連想ネットワークの記憶を構成するものと結論付けられる。
【0020】
ヘテロ連想ネットワークは、1つのベクトル空間から別の空間への1つのマッピングであり、通常は異なる個数の入出力ユニットを有するニューラル・ネットワークが得られる。強化学習の関連において、記憶をネットワークに吸収することが目的ではなく、通常はネットワークを跨って自明でない何らかの入出力関係を印象付けることである。
【0021】
自己およびヘテロ連想ネットワークの場合、このような強化学習は、複合的な神経アーキテクチャ内のその場で生じる。従って、個々の自己およびヘテロ連想ネットワークをそのようなシステムから除去して各々をオフラインで訓練するのではなく、訓練はカスケード内でインラインで生じる。本明細書に記載している自己学習システムにおいて、各々の要素ニューラル・ネットワーク、いわゆる「自己訓練人工ニューラル・ネットワークオブジェクト」(STANNO))には、自身の専用訓練アルゴリズムが一体化されている。
【0022】
そのようなオブジェクトのC++クラステンプレートは最初、専用の訓練アルゴリズムと共に未訓練ニューラル・ネットワークからなり、全てがクラスラッパー内に混在している。自身のクラスからオブジェクトを初期化するために、ネットワークアーキテクチャは、自身の連続する層におけるニューロンの個数を特定する何らかの整数配列
【0023】
int nodes[]={100,200,100};
を介して特定され、
当該クラスコンストラクタは、
【0024】
CStanno*pStanno=new CStanno();
と呼ばれる。
次いで、ネットワークは命令
【0025】
pStanno−>Initialize(3,nodes);
により初期化され、3はこれが3層の多層パーセプトロンであることを示す。
【0026】
このような自己訓練ネットワーク内の強化学習の1サイクルは、フィードフォワードおよび逆伝搬ステップの以下の組合せにより実現され、
【0027】
pStanno−>Train(TRUE,dInPattern,dOutPattern,dNetOutPattern);
ここにTRUEブーリアン・フラグは訓練が実行されている(非適応型のフィードフォワード・パッセージとは対照的に)ことを示し、dInPatternは訓練入力パターンを含む二重配列、dOutPatternは目標出力パターンを表わす二重配列である、およびdNetOutPatternはネットワークの実際の出力パターンを受信する同様の二重配列である。
【0028】
自己連想STANNOの場合、1サイクルの強化学習は以下の命令形式であって、
【0029】
pStanno−>Train(TRUE,dInPattern,dInPattern,dNetOutPattern);
dInPatternを訓練入力パターンとしてだけでなく、目標訓練出力パターンとしても用いている。
【0030】
訓練パターンを記憶として完全に吸収するには、数サイクルの訓練を実行する必要がある。
【0031】
double dRMS =1;
【0032】
while(dRMS>0.01)
【0033】
{
【0034】
dRMS=pStanno−>Train(TRUE,dInPattern,dInPattern,dNetOutPattern);
【0035】
}
STANNOクラスの訓練方法が、任意の逆伝搬サイクルに関するdoubleの二乗平均平方根(RMS)訓練誤差を返す点に注意されたい。
【0036】
評価機能ネットワークも同様に、入力訓練事例として概念的パターンを含んでいてよく、当該入力パターンの測定された特性、測定された影響、または認識(すなわち主観的意見)は典型的にヘテロ連想ネットワークの出力訓練事例として機能することができる。この創造的機械が制御システムまたはロボットを駆動する場合、両方のネットワークがリアルタイムのそれらの成功および失敗から学習することができる。
【0037】
例えば、図1に示す摂動されたネットワークが六脚ロボット用のサーボ設定を生成している場合、摂動されたネットワークは「脚運動想像エンジン」と呼ばれ、ランダムな結合荷重により特徴付けられる初期化された状態で開始する。創造性エンジンおよび評価機能ネットワークは、実験的サイクルに入り、そこでノイズが仮想ロボット用のサーボ設定のパターンを作成すべく創造性エンジン内に噴射される(図2参照)。この場合は仮想的であるが、オンボードセンサ(すなわちソナー)により前進運動が検出された場合、自己連想ネットワークの形式をなす創造性エンジンによりサーボ・パターンが学習される。同様に、評価機能ネットワークは、入力パターンとしてサーボ・パターンを用いて訓練を行ない、ロボットの前方移動が訓練出力として使われる。このように、強化学習は成功したサーボ運動に生じ、六脚ロボットは自力歩行を累積的に学習する。ソナーを装備したロボットが一次元で歩くことを学んでいるこれと同じプロセスを図3に示す。左側では、六脚ロボットは、接着剤を噴霧された面を歩くことを学び始めたところである。ロボットはちょうど4分後に、自身で自動発見且つ自動洗練した前進歩行を始める。左右のフレームは共に、2秒のクローリング間隔の後でロボットの進行を比較する。
【0038】
これらのシステムはまた、フォビエーション的システム自己学習を生成するために用いることができる。このようなフォビエーション的システムは図4に示すように、自己連想STANNOに基づいていて、自身のシナプスに摂動が適用されるにつれて再帰により、本質的に一連のx,y座標を生成する創造性エンジン30からなる。これらのx,y座標は、カメラが提供するフレーム全体にわたり小さい注視ウインドウ32を位置付ける機能を果たす。評価機能ネットワーク34、自己連想ネットワークと同様に、創造性エンジンにより生成されたx,y位置における注視ウインドウに現れる物体を識別することを目的とする。その荷重は初めに乱数化されていてよい。通常、このANNシステムを訓練して物体を認識させるべく、創造性エンジンがカメラフレーム周辺でランダムに注視ウインドウを動かすにつれて、物体自身が白い背景に対して配置される。マスター・アルゴリズムが注視ウインドウ内の非白色ピクセルを検出した場合、創造性エンジンはそれらのx,y座標について訓練され、評価機能ネットワークは注視ウインドウ内のピクセルのパターンについて訓練される。その結果、ANNシステムが訓練を実行するにつれて、創造性エンジンは意図した目標の近傍(白色領域を訪問する頻度が減る傾向にある)に座標を生成する傾向を示し、評価機能は注視ウインドウに現われる目標の部分の識別により適合するようになる。その後で、想像エンジンがランダム化されて、ANNシステムを用いてシーン内で任意に配置された目標に類似した物体の位置を特定することができる。
【0039】
本明細書に記載するシステムはまた、「訓練中止」可能である。訓練中止とは、ネットワークが学習している入力と目標出力パターンとの間の固有の関係を断ち切るように訓練サイクルの間に導入された事例を意図的且つプログラム的に損なうことを意味する。これは、入力または出力事例あるいはその両方に確率的または体系的な値を加えることにより実現することができる。
【0040】
連想記憶またはグループ・メンバシップ・フィルタとして意図された自己連想ネットワークを訓練中止する際、訓練パターンの構成要素にランダムまたは体系的な値を加えると自身の対応記憶の吸収が損なわれ、後で当該パターンを訓練されたネットワークに適用した際に重大な再構築誤差が生じる恐れがある。更に当該ネットワークには、反復的に動作して訓練中止事例に対応する安定した記憶に収斂する能力を有していない。
【0041】
本明細書に記載するシステムの更に別の特徴は「グループ・メンバシップ・フィルタ」の組み込みである。グループ・メンバシップ・フィルタは本明細書において、何らかのジャンルを表わすパターンの集合体について訓練された自己連想多層パーセプトロンとして定義される。例えば、そのようなニューラル・ネットワークは、人間の顔の多数のビットマップについて訓練することができる。その後で、これらの顔の訓練事例(すなわち、ビットマップ内のピクセルの完全な列挙)、または顔の何らかの新規ビットマップの1つが入力パターンとして適用された場合、ネットワークは自身の出力層で入力パターンを正確に再構築する。この場合、当該ネットワークの入出力パターン間のユークリッド距離として表わされる再構築誤差δは無視できる程度に小さい。一方、当該ジャンルを表わさない何らかの画像、例えば足のビットマップが当該ネットワークの入力層に適用された場合、再構築誤差はもはや無視できない。従って閾値を設定して、これを下回る入力パターンはあるジャンルを表わし、これを超える当該パターンは当該ジャンルを表わさないようにすることにより、任意の入力パターンが以前に訓練中のネットワークに示されたパターンの何らかの相互関係を有するグループに属するか否かを後で識別することができる。
【0042】
このプロセスは、自己連想多層パーセプトロンの基礎をなす機能により実現され、その際に特徴検出は隠れ層内で生じ、そのようなマイクロ機能間の制約関係は出力荷重層に形成される。上の例では、例えば、荷重はネットワークの入力空間(すなわち目、鼻、あご、耳等)の最も頻繁に遭遇するマイクロ機能を捕捉するように自己組織化される。同様に、出力荷重層は通常、顔に固有の幾何学的および位相的な制約(すなわち、鼻は顔の中央、口は下、および目は上且つ両側にある)を吸収する。従って、顔のパターンがネットワークを介して伝搬する場合、基本的なあらゆる解剖学的特徴が隠れ層で検出され、出力層ではこれらの特徴間の全ての幾何学的且つ位相的制約に従う。この場合、入力パターンは正確に再構築され、その際に生じる再構築誤差は無視できる。一方、足の画像がネットワークを介して伝播される場合、隠れ層では顔の必須の特徴が認識されず、出力荷重層で制約が従われることもない。その結果、入力パターンは再構築されず、デルタ誤差は顕著である。
【0043】
上で議論した一般的原理を更に、本発明の各種の実施形態を用いた一連の非限定的且つ例示的なアプリケーションに示す。
警察スケッチ画家アプリケーション
【0044】
本ソフトウェア・アプリケーション(図6〜10に示す)の目的は、犯罪被害者の犯人の画像を当該被害者による候補顔面に対する一連の試行錯誤的評価サイクルを通じて再構築する自動化されたツールで警察画家を援助または代替を行なうことである。このようなソフトウェア・アプリケーションにより、人間の画家と被害者の間で互いに譲り合ったり微妙に影響を及ぼし合ったりすることがなくなる可能性が高い。
【0045】
動作時において、被害者は摂動されたニューラル・ネットワーク50(すなわち広範囲の顔のビットマップについて以前に訓練を受けた想像エンジン)によりランダムに生成された一連の顔を見ながら、スライダまたは一連のボタン等何らかのグラフィカル・ユーザ・インタフェース制御54を用いて、想像エンジンが生成した各々の候補顔面がどの程度犯人の顔に似ているかを示す。その間、評価機能ネットワーク52(すなわち通知連想中枢)は、当該ニューラル・アーキテクチャ内においてその場で訓練を行ない、想像エンジンが生成した試作的顔画像を被害者によるその評価にマッピングすることを学習している。動作の最終段階で、想像エンジンは、評価機能が被害者による各パターンへの予想される反応を予測するに従い、一連の顔を迅速に生成することができる。このような迅速なパターン生成および評価を通じて、想像エンジンおよび評価機能は山登り法に基づいて犯人の顔に最も似ている顔を識別する。
【0046】
本プロセスの第1フェーズ(図6)において、大規模な多層自己連想ネットワーク50が例示的な顔の各種のビットマップについて訓練され、ネットワークが自身の出力層56で各入力パターンを再現するように訓練する。通常、そのようなネットワークは大規模であり、約100万個のオーダーの入力および出力を有し、多くの場合、24ビットRGB形式の640×480ディスプレイを組み込んでいる。本アプリケーションの商用バージョンでは、本ネットワークは予め訓練済みである。
【0047】
本アプリケーションの動作の次のフェーズ(図7)において、想像エンジン50はランダムに摂動されて広範囲にわたる顔を生成し、その各々が被害者に提示され、被害者は次いで、各々の例示的な顔が犯人の顔に似ていると自分がどの程度強く感じるかを示す。累積的に、自己学習評価機能52は一般化することを学習し、想像エンジン50が生成した任意の画像と犯人の画像との間の合致の程度を示す。本アプリケーションの想像エンジン50を摂動させる最適な方法が、ニューラル・ネットワークの結合荷重に適用された微小な数値摂動を介するものであることが分かっている。また、シナプス摂動が内部的に適用されるに従い、訓練事例がランダムに当該ネットワークの入力に適用することも推奨される。このような仕方で、出力パターンは、広範囲にわたるふさわしいバリエーションを生成することにより、各々の訓練事例を「覆う」。
【0048】
本プロセスの最後のフェーズ(図8)において、想像エンジン50は、一連の顔を自発的に生成して、これらを評価機能52が評価して各々がどの程度犯人の顔に近づいているかを判定することができる。累積的に、本アプリケーションは、評価機能52を介して犯人の顔に最も強く関連付けられた候補顔面を追跡し続ける。
【0049】
犯人の顔への収束を典型的にスピードアップする当該プロセスの1つの変型(図9)は、評価機能52と想像エンジン50の間で後者における摂動を調整するフィードバック・メカニズム58を含んでいる。例えば、予め指定された何らかの期間にわたり評価機能52が犯人の顔に似ている候補顔面パターンを「見ていない」場合、想像エンジン50内でシナプス摂動の平均レベルを上げて、結果的に生じる顔のパターンにより多くの多様性をもたらすことにより、犯人の顔に似ているパターンを生成する可能性を増すことができる。更に、評価機能(52)はまた、出力パターンとして犯人と被害者の認識距離に関連付けられた顔パターンを用いて、その場で訓練を実行することができる。
【0050】
本アプリケーションの高度な用法(図10)は、自己学習想像エンジン59を含んでいる。本技術では、想像エンジン59が生成した候補顔面の各々を被害者が評価する際に、評価機能52と想像エンジン59の両方が同時に訓練を実行する。被害者は候補顔面を犯人の顔であるとより強く認識するほど、その記憶が自己連想想像エンジン59により厳密に印象付けられる。強化の程度は、いくつかの仕方で実現することができる。ある技術では、想像エンジンを訓練する学習速度および勢いを、評価機能による候補の顔と犯人の顔の関連付けに比例して増大させることができる。別のアプローチでは、想像エンジン59が、与えられた顔パターンについて評価機能による当該パターンの認識と比例するサイクル数だけ訓練される。同様の仕方で、そのようなシステムを娯楽目的に用いて、最も魅力的な顔の生成を累積的に学習することができる。本概念の明らかな拡張を人間の感覚器官の任意の組合せに適用して、観衆に合わせて自身を調整する娯楽体験を提供することができる。
【0051】
生成および訓練の累積的サイクルにわたり、想像エンジン59内の支配的記憶または記憶群は、犯人のパターンに最も密接に関連付けられたパターンとなる。そのような支配的記憶は、(1)想像エンジン59に確率的にシードを設定し、支配的記憶のアトラクタの引込み領域に「落下する」まで反復的にネットワークを動作させるか、あるいは(2)再構築誤差が何らかの所定の閾値以下に低下するまで当該自己連想ネットワークにランダムなパターン(すなわち、損なわれた顔の訓練事例)を適用することのいずれかにより見つけられる。
白紙状態からの学習を介したロボット牽引技術
【0052】
本アプリケーション(図11〜14に示す)において、自己学習、多層、自己連想ニューラル・ネットワークを用いて、前進動作に至る自由度12の六脚ロボットのパルス幅変調シーケンスを選択的に捕捉する。適用された任意のパルス幅変調シーケンスの値は、ロボットが自身のサーボ機構に分配される任意の所与のパルス幅変調シーケンスの結果として、前進方向に行なうネットワーク移動を効果的に測定するオンボードソナーユニットにより判断される。当該システムを用いて、要素ニューラル・ネットワークは全く訓練されていない状態から始めることができる。前方移動につながるサーボ・シーケンスが見出されたため、当該ネットワークの荷重が摂動により低下して、後進、回転、および横歩き動作等、重要な代替的動作を生成することができる。
【0053】
複雑な牽引シーケンスの白紙状態からの学習が可能なシステムは3個の構成要素、すなわち(1)48個の入力および12台のサーボ・ロボット4個の連続する脚状態を受理する出力を有する自己学習自己連想ネットワーク、(2)当該自己連想ネットワークの入出力を比較するアルゴリズム、および(3)最終的に4状態のサーボ・シーケンスをロボットの予測された前方移動にマッピングする自己連想ネットワークにより供給される自己学習ヘテロ連想ネットワークからなる。
【0054】
図11に六脚ロボット60の簡略図を示し、ロボットの脚のサーボ62のレイアウトと共に、遠隔目標への距離と、任意の4状態サーボ・シーケンスにわたり移動したネットワークの距離をそこから計算するオンボードソナーユニット64を示している。
【0055】
学習に際して(図12参照)、4個の連続する状態にわたりランダムなパルス幅変調がサーボ機構62に適用される。この試行シーケンスの結果として、何らかの閾値値を超える前進をソナー64が検知した場合、自己連想想像エンジン内で当該シーケンスの記憶が強化される。同様に、強化学習は、訓練入力パターンとしての4状態サーボ・シーケンスおよび出力訓練パターンとして横断距離Δxを用いて、通知連想中枢で行なわれる。2個のネットワークにおいて実験および強化学習サイクルを充分実行した後で、効果的な前進移動を与える脚動作がもたらされる。
【0056】
一旦このような仕方で訓練されたならば、後でロボットをこの新たに発明された牽引モードで動作させることができる。そのためには、(1)通知連想中枢1により評価された再構築誤差δが最小になるまで、乱数または半乱数を想像エンジンに適用するか、あるいは(2)再構築誤差δが最小になるまで、ネットワークを反復的に動作させてもよい。通知連想中枢が、前進動作の結果サーボ・シーケンスが生じることを確認した場合、対応するパルス幅変調が脚サーボシステムに伝達される。
【0057】
左右への方向転換、並びに横歩き、脚のひきずり、または後退動作等、ロボットの他の重要な行動は、想像エンジンの結合荷重に摂動を与えて、加速度計やデジタル・コンパス等他のセンサを介して、横歩き動作またはターンの程度を監視することにより容易に実現することができる。適切なターンが生じるに従い、例えば、強化学習が両方のネットワークで行われてもよい。
【0058】
上述の手順は、目的または環境により自立的に複雑な戦略を開発することが求められる任意の制御またはロボット・システムについて一般化できる。最適なアプローチは、システムに1つの基本的な行動(図14)を即興的に作らせ、次いで当該行動が実装されている想像エンジンの荷重を低下させて、派生的且つ潜在的に有益な戦略を生成することである。実際、これらの重要な派生的行動の荷重空間の解は基本行動の空間の近傍にあり、そのような基本行動に既に自身を特化させたネットワークに対してシナプス摂動を与えることにより素早く発見することができる。同様に、単一の概念的パターンに向けてブートストラッピングし、次いで想像エンジンの荷重を低下させて関連した概念を発見することを通じて、そのような発見システムにおいて重要な概念を生み出すことができる。
ロボット経路計画策定
【0059】
本アプリケーション(図15〜17に示す)は一般に、ロボット人工知能(「AI」)の構築に関するものであり、最初にロボットの環境のモデルを形成し、次いで当該モデルに基づいて何らかの結果を得るための多くの代替的戦略を考慮した後で最適行動針路を実装する点で熟考的である。ロボットAIへのこのアプローチは、現在実用化されている、センサが最初にロボットの環境内のシナリオを検知し、次いで予め符号化された適切な行動を行なわせる所謂反応的システムとは全く対照的である。
【0060】
そのような熟考的AIが、摂動された人工ニューラル・ネットワークの基礎ニューラル・アーキテクチャに実装されてその新たな出力パターンがコンピュータ評価機能により監視されているならば、前者のネットワークは本質的に候補行動計画の生成器である。評価機能アルゴリズムは、現れたパターンのどれが適切な行動針路であるかの審判として機能する。通常、評価機能アルゴリズムはこの意思決定プロセスを支援すべく、自身の環境に関する補助情報を必要とする。
【0061】
ロボット経路計画策定のケースにおいて、この一般的なスキームを用いて、特定の目標または宛先に向かって抵抗が最小の経路を計算することができる。これは図15の一般的な形式をなし、最小コストを提供する経路に到達するように評価機能アルゴリズムが各々の候補経路に関連付けられたコストを計算するのに従い、地形を通る潜在的経路を想像エンジンが生成する。補助データとして、接近する地形の各要素に関連付けられたコストに関する何らかの情報が必要である。この目的で、接近する地域に関するロボットの視覚をナビゲーション領域にマッピングすべくニューラル・ネットワークを用いており、ここで移動ロボットは物体または環境により発せられて当該領域に進入した粒子と見なすことができる。この仮想的領域が発する居所的な力はロボットの好適な動作を示す。そのような評価機能の1つの使用例として、明示的コードおよび/または他の人工ニューラル・ネットワークのいずれかを用いて、計算されたナビゲーション領域を通る候補経路の線積分の計算がある。
【0062】
本システムに関わる人工ニューラル・ネットワークの自己学習特徴は、最小コストを保証する軌道の想像エンジン内における強化学習を通じて実現することができる。本システムがいくつかの経路オプションを調べた後で、想像エンジンに確率的な励起を介して呼び掛けて、内部に常駐する支配的記憶を生成することができる。更に、ナビゲーション領域を通る線積分を数値的に計算する評価機能アルゴリズムは同時に、ナビゲーション領域の組み合わされた入力および想像エンジンから生じた候補経路を用いて、コストに対応する出力を線コードと共に計算させることにより、自己学習ニューラル・ネットワークに同一タスクを実行させるべく訓練することができる。最後に、想像エンジンは同様に、環境を通って通行可能な経路の生成を加速する何らかの事前学習から始めて、自己学習的であってよい。従って、想像エンジンは、特色のない平面を、ある個数の等距離ステップより少ない回数で交差する軌道の自己連想グループ・メンバシップ・フィルタとして実装することができる。そのような現地の事前訓練の結果、想像エンジンは優先して、長さが最短である軌道を生成するであろう。漸進的により高いレベルでのシナプス摂動の入力は、当該ネットワークに保存されている記憶を、ナビゲーション領域の景色の少なくとも基準に合致し、従ってより低いコスト経路をもたらす能力を有するより曲がりくねった経路に劣化させる傾向がある。
【0063】
図16に、カメラを備えた六脚クローラーを支配する熟考的ロボットAIシステムをより詳細に示す。本アプリケーションにおいて、自己学習自己連想ネットワークには、当該領域内を同じ長さのN個以下の部分をそのような各々のステップと共に、ある方位角θに沿って進行しながら特徴のない平面を横断して通る一連の軌道が以前に見せられている。従って、各々の潜在的な軌道は、パターン(Δθ1,Δθ2,...,ΔθN)により定義することができ、各Δθiはある線区画から別の区画へ遷移する際の方位角の変化である。基本的に、このネットワークはその場での訓練を通じて、最短の全長を有する軌道のグループ・メンバシップ・フィルタになる。例えば、当該ネットワークにシナプス摂動を与えることで、Δθiにより多くの変化がもたらされ、より湾曲した、恐らくは環状の軌道が生成される。
【0064】
自己学習ニューラル・ネットワークは、オンボードカメラから来たピクセル値をナビゲーション領域に変換すべくその場で訓練された。訓練事例は、各種の地域の生のカメラ景色および対応する牽引インピーダンス値の2次元配列Zterrain(x,y)からなる。このような候補は人手により配置されて、各座標(x,y)での地形物質を識別し、12個の脚サーボ機構を有する六脚ロボットの測定されたクローリング・インピーダンスを各座標に関連付ける。各々の地形物質のインピーダンス値は、各物質におけるロボットクローリングの測定された最高速度の逆数として計算された。
【0065】
同様に、目標物体の座標で深い引力ポテンシャル井戸を生成すべく別の自己学習ニューラル・ネットワークがその場で訓練された。当該ネットワークは、格子の回りに目標を移動させて、ネットワークがカメラの生フレームから目標のxy座標へマッピングすることを学習できるようにして訓練された。目標ポテンシャルZtarget(x,y)は次いで、次式のように分析的に生成できる。
【0066】
Ztarget(x,y)=1−1/((x−x0)2+(y−y0)2+γ)1/2 (1)
ここで、x0およびy0は目標の質量中心座標、xおよびyはロボットのオンボードカメラ、およびγは目標の正確な位置x=x0、y=y0における領域値Ztargetの特異性を回避するための減衰定数である。
【0067】
2個のナビゲーション領域、ZterrainおよびZtargetは、2個の領域値の位置毎の乗算により一塊りにされた。これらの結合された領域は後で、それを通る経路(Δθ1,Δθ2,...,ΔθN)の線積分に基づいてコストを計算する評価機能アルゴリズムへの補助入力として用いることができる。
【0068】
N個の区分経路に沿って最初のステップを行なう前に、図16に示すシステムは、多くの候補経路を実験して、横断のコストに反比例して想像エンジン内の記憶を強化する。経路に沿った移動の前に、想像エンジンが確率的に呼び掛られて自身の支配的記憶、すなわち通常は地域を通るコストが最も低い経路の記憶を生成する。
【0069】
図17に、オンボードカメラから生のカメラフレームおよび、結果的に生じた一塊りになった地域と目標ポテンシャルをその右側に示す。ここで、明るいグレーはナビゲーション領域内での低いインピーダンス、暗いグレーは高いインピーダンスを示す。右端の画像に、本システムが計算した最小コストの経路が見られる。
フォビエーション的システム
【0070】
本アプリケーション(図18〜23に示す)は一般に、カメラ等の方向センサ装置を駆動して、目標をそれらの環境内で検出し、恐らく何らかの時間間隔にわたりそのようなセンサのより広い視野内で特定の物体の位置を特定する方法を扱う。以下の説明ではセンサの焦点を合わせることができる2個の自由度について述べるが、移動中である何らかの所定の目標にセンサを向けるべく6軸ロボットアームを誘導する場合のようにより高い次元のスキームも実現することができる。
【0071】
この一般的なスキームは、物体の大域的分類に依存する目標認識システムの典型的な短所を克服する。往々にして、このような物体を実世界環境内に配置する場合、背景機能との重なりまたは前景にある他の物体により目標が遮蔽されて形成される偽の目標外形に起因して分類誤差が生じる。この技術は、物体の多くの部分を調べて、それが適当なジャンルのものであるか否かを累積的に結論付ける点でこのような大域的分類技術に光を当てる。
【0072】
本システムは、最小限2個のニューラル・ネットワークからなる。その第1要素である想像エンジンは、2個の入力および2個の出力を有する反復的自己連想ニューラル・ネットワークである。これらの入力および出力パターンは、環境のサンプリングを行なうために用いる注視ウインドウの位置(すなわち、その左上隅のxy座標)を表わす。当該ネットワークは、ランダムなxy座標の表について予め訓練されていてよい。従って、ネットワークの訓練誤差の範囲内では、任意のxy対の適用により当該パターンをネットワークの出力層で再現される筈である。一方、フィードフォワード通過の間、当該ネットワークの結合荷重に摂動が過渡的に施された場合、入力パターンはネットワークの出力で忠実に再現されないであろう。当該ネットワークの各々の反復サイクルの間、新規のランダムなシナプス摂動が過渡的に施された場合、これらのxy対により特定される注視ウインドウはランダム且つ漸進的にシーンを横断して動かされる。
【0073】
予め指定された何らかの目標の位置を特定する本システムの機能は通常、別のニューラル・ネットワークが当該注視ウインドウの内容を解析して、意図する目標の何らかの部分に遭遇したか否か決定できるようにするステップを含んでいる。後者のネットワークによる注視ウインドウ内の物体の何らかの部分の認識を用いて、想像エンジンの結合荷重に過渡的に施された過渡的な摂動の大きさに影響を及ぼす。当該評価機能の何らかの出力を用いて、反復的想像エンジンに施される過渡的な摂動の大きさを制御する。本システムの目的は、探索される物体の何らかの部分に注視ウインドウが重なっている場合に、想像エンジン内のシナプス摂動を低減させるである。その結果、次の目標への移動程度が小さくなり、累積的に、注視ウインドウが意図する目標の近傍に常駐する傾向が生じる。
【0074】
この目的でヘテロ連想ネットワークを用いた場合、その出力は0〜1に範囲にあって、0は探索されている物体の部分に遭遇した旨の絶対的信頼度を表わす。当該出力値を用いて、想像エンジン内の過渡的な摂動を調整することができる。あるいは、自己連想ネットワークは評価機能として機能し、その場合再構築誤差δは、当然ながら自身の記憶の1つに遭遇するに従いゼロに近づくため、想像エンジンのシナプス摂動を直接調整するために用いることができる。
【0075】
本システム(図18)の訓練において、反復的想像エンジンは、後で捜される物体の一部に遭遇するまで注視ウインドウをシーンの周辺で動かす。そのような物体の部分に遭遇することにより、評価機能は自己学習連想記憶の形式で注視ウインドウの内容に訓練を実行して物体の当該部分の記憶を形成する。注視ウインドウが目標物体の上を巡回するに従い、累積的に当該目標の各種の部分の記憶を吸収する。本技術が、たとえ訓練フェーズの間であっても、システムの注視ウインドウが物体の近傍に常駐するようにさせるために評価機能からのフィードバック(図19)で補完してもよい点に注意されたい。
【0076】
図20により多くの詳細事項を示し、この場合目標はカメラフレーム内の顔である。訓練フェーズにおいて、目標は物理的またはプログラム的に自身の環境からマスキングされている。同様に、注視ウインドウが意図された目標以外をサンプリングするのを防止すべく物理的またはプログラム的制約を課している。自己連想評価機能が現在、目標の各々の対応するサンプルに訓練を実行するにつれて、想像エンジン内の摂動により注視ウインドウを目標の上へ動かす。注視ウインドウは、評価機能が後で識別できるよう目標の充分な部分を学習するまで目標の上を巡回する。
【0077】
使用時(図21)において、想像エンジン内のシナプス摂動はシーンを横断して注視ウインドウを動かす。注視ウインドウの内容を伝えられた評価機能は、その内容が探索されている物体の部分であるか否かを判定する。その内容が探索されている目標の部分によく似ているほど、過渡的なシナプス摂動は更にゼロ強度へ向けて調整され、注視ウインドウを物体近傍全体に更に巡回させる。オプション的ステップとして、現在自己学習中である想像エンジンは、評価機能が目標の一部を検知した場合にその位置の記憶を強化することができる。次いで、注視ウインドウの巡回の重心を用いて全体的な目標の位置を特定しても、あるいは、想像エンジンに強化学習が実装されている場合、確率的入力を用いるかまたは再構築誤差が最小になるまで確率的な入力播種の反復を通じて、自身の支配的記憶に呼び掛けられて、再構築誤差δが最小となる入力パターンを発見することができる。
【0078】
図22、23に、カメラからの静止画像またはその連続フレームのいずれかにある顔の位置を特定する前提で本プロセスの詳細を示す。本方法では、想像エンジンによりシーンを横断して動かされている注視ウインドウの内容に応答して、再構築誤差δを出力する評価機能として自己連想記憶を用いている。本再構築誤差は次いで、想像エンジンへの過渡的な摂動の強度を調整して、注視ウインドウを主に目標顔面の近傍で巡回させる。基本的に、注視ウインドウが訪れた位置の重心は、シーン内で目標の位置を意味する。図23はまた、当該ネットワーク内の支配的記憶、すなわち目標の位置を生成するように想像エンジンの強化学習を利用する様子を示す。強化学習は、再構築誤差δの大きさにより起動される。
【0079】
本明細書に記載した非限定的な例以外の多くの目的およびアプリケーションに本発明を利用できることは当業者には明らかであろう。更に、当業者には、本明細書に記載したシステムがソフトウェアによりシミュレートされたニューラル・ネットワークまたはハードウェア利用のネットワーク構造により実装できることを認識されよう。
【0080】
本発明の他の目的、特徴および利点も当業者には明らかであろう。本発明の好適な実施形態を例示および説明してきたが、これらは例示を目的としており、添付の特許請求の範囲およびその等価物の範囲が求める場合を除いて本発明は限定されない。
【技術分野】
【0001】
関連出願の相互参照
【0002】
本出願は、2005年5月7日出願の仮特許出願第60/678,856号を優先権主張する。
発明の技術分野
【0003】
本発明は、一般に人工知能の分野に関し、より具体的には自己学習のニューラル・ネットワーク型発見システムに関する。
【背景技術】
【0004】
発明の背景
【0005】
以下は、本発明者の先行特許であっていずれも全体を参照により本明細書に援用している米国特許第5,659,666号明細書「有用情報を自律的に生成する装置」を始め、その派生特許群である米国特許第5,845,271号明細書、同第5,852,815号明細書、同第5,852,816号明細書、同第6,014,653号明細書、同第6,018,727号明細書、同第6,115,701号明細書、同第6,356,884号明細書に対する改良の概要である。これらの原特許は図1に示す予め訓練された直列構成の人工ニューラル・ネットワークを利用し、あるネットワークが摂動されて新規且つ潜在的に有用なパターン(すなわち、発想または行動計画)を生成する一方、他のネットワークが評価機能(オプションとして摂動されたネットワークにフィードバックを与える)として動作するものの、当該基本アーキテクチャは自身の成功および失敗から学習する能力を備えていなかった。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許第5,659,666号
【特許文献2】米国特許第5,845,271号
【特許文献3】米国特許第5,852,815号
【特許文献4】米国特許第5,852,816号
【特許文献5】米国特許第6,014,653号
【特許文献6】米国特許第6,018,727号
【特許文献7】米国特許第6,115,701号
【特許文献8】米国特許第6,356,884号
【発明の概要】
【発明が解決しようとする課題】
【0007】
従って、自身の成功および失敗から学習ができる人工ニューラル・ネットワーク型システムを開発することに利点がある。
【0008】
本発明は、上述の課題の1つ以上を克服することを意図している。
【課題を解決するための手段】
【0009】
発明の概要
【0010】
本発明の一態様は一般に、自身のブートストラッピングが可能なニューラル・ネットワーク型システムに関係し、特定の適用領域に本システムを導入することにより適応性および創造性が徐々により高いレベルに上がり、一連の実験サイクルを実施してそれらの実験結果から学習する。
【0011】
本発明の上述の態様によれば、自己学習人工ニューラル・ネットワーク型発見装置であって、出力パターンの生成が可能な第1の人工ニューラル・ネットワーク部と、前記第1の人工ニューラル・ネットワークにさまざまな摂動度を与える手段と、前記第1の自己学習の人工ニューラル・ネットワークの前記出力パターンの少なくとも1つを概念として実装する手段と、前記概念の効果を評価する手段と、正の効果につなげるべく前記出力パターンの1つの前記第1の自己訓練人工ニューラル・ネットワーク内で強化学習を起動する手段とを含む発見装置を提供する。本システムは基本的に、最初に発想が生成され、引き続き記憶として再吸収される脳内のプロセスに類似している。累積的なサイクルにより、従来の発想の上に新しい発想が構築され、次いで更に多くの先端的思想に基づく記憶となる。
【0012】
これらの態様は、本発明に関連付けられた多くの態様を単に例示するものであり、決して限定されないことを理解されたい。本発明のこれらおよび他の態様、特徴および効果は、参照図面と合わせて以下の詳細説明から明らかになる。
【0013】
本発明の実施に際して公知の最良の形態を例示する図面を参照し、同一参照番号は複数の図面を通じて同一または類似部分を示す。
【図面の簡単な説明】
【0014】
【図1】旧世代の創造的機械を示す構成図である。
【図2】本発明の第1実施形態のアプリケーションに関連付けられた学習プロセスのフロー図である。
【図3】図2の実施形態を用いるロボットの学習プロセスを示す写真である。
【図4】別の実施形態のアプリケーションに関連付けられた学習プロセスを示す概念図である。
【図5】本発明の実施形態を示す概念図である。
【図6】別の実施形態を用いる顔の再構築アプリケーションの各種のフェーズを表わす概念図である。
【図7】別の実施形態を用いる顔の再構築アプリケーションの各種のフェーズを表わす概念図である。
【図8】別の実施形態を用いる顔の再構築アプリケーションの各種のフェーズを表わす概念図である。
【図9】別の実施形態を用いる顔の再構築アプリケーションの各種のフェーズを表わす概念図である。
【図10】別の実施形態を用いる顔の再構築アプリケーションの各種のフェーズを表わす概念図である。
【図11】別の実施形態のアプリケーションを用いる六脚ロボットの構成図である。
【図12】図11の六脚ロボット向けの人工ニューラル・ネットワーク型制御システムの第1のアプリケーションの構成図である。
【図13】図11の六脚ロボット向けの人工ニューラル・ネットワーク型制御システムの別のアプリケーションの構成図である。
【図14】図13のアプリケーションから生じる潜在的な派生的行動を示す概念図である。
【図15】人工ニューラル・ネットワーク型制御システムの経路計画アプリケーションの構成図である。
【図16】人工ニューラル・ネットワーク型制御システムの経路計画アプリケーションの構成図である。
【図17A】図15および16の経路計画アプリケーションを組み込んだロボットから見た画面サンプルである。
【図17B】図15および16のアプリケーションが生成したコスト経路またはナビゲーション領域を示す構成図である。
【図18】別の実施形態による人工ニューラル・ネットワーク型カメラ制御システムのフォビエーション的アプリケーションの訓練の構成図である。
【図19】別の実施形態による人工ニューラル・ネットワーク型カメラ制御システムのフォビエーション的アプリケーションの訓練の構成図である。
【図20】図18および19のアプリケーションの概念図である。
【図21】図18〜20のアプリケーションの動作を示す構成図である。
【図22】図18〜21のアプリケーションの動作を示す概念図である。
【図23】図18〜21のアプリケーションの動作を示す概念図である。
【発明を実施するための形態】
【0015】
詳細な説明
以下の詳細な説明において、本発明が完全に理解されるよう多くの具体的な詳細事例を記載する。しかし、本発明がこれらの具体的な詳細事例なしでも実施可能であることは当業者には理解されよう。例えば、本発明を分かり難くしないよう、公知の方法、手順、および構成要素については詳述していない。
【0016】
以下で創造的機械とも呼ばれる本明細書に記載している創造型の神経アーキテクチャは、オブジェクト指向ニューラル・ネットワーク・モジュールを利用し、その各々が自身の専用訓練アルゴリズム(STANNOS)を含んでいる。STANNOSはまた、米国特許第6,014,653号明細書に記載されており、その開示内容を本明細書に明示的に引用している。創造的機械の旧バージョンおよび創造的機械で用いる一般的な構造の説明が、米国特許第5,659,666号明細書「有用情報を自律的に生成する装置」およびその派生特許である米国特許第5,845,271号明細書、同第5,852,815号明細書、同第5,852,816号明細書、同第6,014,653号明細書、同第6,018,727号明細書、同第6,115,701号明細書、および同第6,356,884号明細書に含まれており、これらの全てを本明細書で明示的に援用している。これらの先行特許は、図1に示す直列構成の予め訓練された人工ニューラル・ネットワークを利用した。これらのシステムに関連付けられた基本アーキテクチャは、新規且つ潜在的に有用なパターン(すなわち、発想または行動計画)を生成すべく摂動された1つのネットワークを含み、一方、別のネットワークが評価機能(オプションとして摂動されたネットワークにフィードバックを与える)として機能する。
【0017】
本明細書に記載する実施形態では、このような創造的機械が多くの候補発想または戦略を生成した際に、人間がこれらの発想の有効性を評価して、当該アーキテクチャ内で、各々のネットワークをこれらのパターンについてその場で訓練することができる。摂動された、生成ネットワークは引き続き、新しい発想または戦略に関して訓練を受けて当該新規パターンの記憶を強化することができる。
【0018】
本明細書に記載するシステムの実施形態は通常、互いに相互作用する2種類の人工ニューラル・ネットワーク、すなわち自己およびヘテロ連想多層パーセプトロンからなる。これらの種類のニューラル・ネットワークの各々について、強化学習の概念は僅かに異なる意味を有する。
【0019】
自己連想ネットワークは、同一個数の入力および出力ユニットを有する。強化学習は当該ネットワーク経由で入力パターンを伝播する少なくとも1つのサイクルを含む一方、同じパターンを逆伝搬ステップ用の目標出力パターンとして使用する。充分なフィードフォワードおよび逆伝搬サイクルを通じて、ネットワークは自身の出力層において、他の同様に強化されたパターンと同様にこれを複製することを学習する。その後、任意の入力パターンがそのような記憶の1つであるか否かに関する評価は、入力と出力パターンの間のユークリッド距離により通常決定されるネットワークを介した自身の再構築誤差に依存する。同様に、記憶は、入力層において確率的に生成された何らかの種パターンを適用し、続いて入力および出力パターンが相互に向かって収束するように出力層と入力層との間で複数回反復することにより再構築することができる。次いで、その結果生じたこのようなパターンのうち当該反復を通じて安定なままであるものが、当該自己連想ネットワークの記憶を構成するものと結論付けられる。
【0020】
ヘテロ連想ネットワークは、1つのベクトル空間から別の空間への1つのマッピングであり、通常は異なる個数の入出力ユニットを有するニューラル・ネットワークが得られる。強化学習の関連において、記憶をネットワークに吸収することが目的ではなく、通常はネットワークを跨って自明でない何らかの入出力関係を印象付けることである。
【0021】
自己およびヘテロ連想ネットワークの場合、このような強化学習は、複合的な神経アーキテクチャ内のその場で生じる。従って、個々の自己およびヘテロ連想ネットワークをそのようなシステムから除去して各々をオフラインで訓練するのではなく、訓練はカスケード内でインラインで生じる。本明細書に記載している自己学習システムにおいて、各々の要素ニューラル・ネットワーク、いわゆる「自己訓練人工ニューラル・ネットワークオブジェクト」(STANNO))には、自身の専用訓練アルゴリズムが一体化されている。
【0022】
そのようなオブジェクトのC++クラステンプレートは最初、専用の訓練アルゴリズムと共に未訓練ニューラル・ネットワークからなり、全てがクラスラッパー内に混在している。自身のクラスからオブジェクトを初期化するために、ネットワークアーキテクチャは、自身の連続する層におけるニューロンの個数を特定する何らかの整数配列
【0023】
int nodes[]={100,200,100};
を介して特定され、
当該クラスコンストラクタは、
【0024】
CStanno*pStanno=new CStanno();
と呼ばれる。
次いで、ネットワークは命令
【0025】
pStanno−>Initialize(3,nodes);
により初期化され、3はこれが3層の多層パーセプトロンであることを示す。
【0026】
このような自己訓練ネットワーク内の強化学習の1サイクルは、フィードフォワードおよび逆伝搬ステップの以下の組合せにより実現され、
【0027】
pStanno−>Train(TRUE,dInPattern,dOutPattern,dNetOutPattern);
ここにTRUEブーリアン・フラグは訓練が実行されている(非適応型のフィードフォワード・パッセージとは対照的に)ことを示し、dInPatternは訓練入力パターンを含む二重配列、dOutPatternは目標出力パターンを表わす二重配列である、およびdNetOutPatternはネットワークの実際の出力パターンを受信する同様の二重配列である。
【0028】
自己連想STANNOの場合、1サイクルの強化学習は以下の命令形式であって、
【0029】
pStanno−>Train(TRUE,dInPattern,dInPattern,dNetOutPattern);
dInPatternを訓練入力パターンとしてだけでなく、目標訓練出力パターンとしても用いている。
【0030】
訓練パターンを記憶として完全に吸収するには、数サイクルの訓練を実行する必要がある。
【0031】
double dRMS =1;
【0032】
while(dRMS>0.01)
【0033】
{
【0034】
dRMS=pStanno−>Train(TRUE,dInPattern,dInPattern,dNetOutPattern);
【0035】
}
STANNOクラスの訓練方法が、任意の逆伝搬サイクルに関するdoubleの二乗平均平方根(RMS)訓練誤差を返す点に注意されたい。
【0036】
評価機能ネットワークも同様に、入力訓練事例として概念的パターンを含んでいてよく、当該入力パターンの測定された特性、測定された影響、または認識(すなわち主観的意見)は典型的にヘテロ連想ネットワークの出力訓練事例として機能することができる。この創造的機械が制御システムまたはロボットを駆動する場合、両方のネットワークがリアルタイムのそれらの成功および失敗から学習することができる。
【0037】
例えば、図1に示す摂動されたネットワークが六脚ロボット用のサーボ設定を生成している場合、摂動されたネットワークは「脚運動想像エンジン」と呼ばれ、ランダムな結合荷重により特徴付けられる初期化された状態で開始する。創造性エンジンおよび評価機能ネットワークは、実験的サイクルに入り、そこでノイズが仮想ロボット用のサーボ設定のパターンを作成すべく創造性エンジン内に噴射される(図2参照)。この場合は仮想的であるが、オンボードセンサ(すなわちソナー)により前進運動が検出された場合、自己連想ネットワークの形式をなす創造性エンジンによりサーボ・パターンが学習される。同様に、評価機能ネットワークは、入力パターンとしてサーボ・パターンを用いて訓練を行ない、ロボットの前方移動が訓練出力として使われる。このように、強化学習は成功したサーボ運動に生じ、六脚ロボットは自力歩行を累積的に学習する。ソナーを装備したロボットが一次元で歩くことを学んでいるこれと同じプロセスを図3に示す。左側では、六脚ロボットは、接着剤を噴霧された面を歩くことを学び始めたところである。ロボットはちょうど4分後に、自身で自動発見且つ自動洗練した前進歩行を始める。左右のフレームは共に、2秒のクローリング間隔の後でロボットの進行を比較する。
【0038】
これらのシステムはまた、フォビエーション的システム自己学習を生成するために用いることができる。このようなフォビエーション的システムは図4に示すように、自己連想STANNOに基づいていて、自身のシナプスに摂動が適用されるにつれて再帰により、本質的に一連のx,y座標を生成する創造性エンジン30からなる。これらのx,y座標は、カメラが提供するフレーム全体にわたり小さい注視ウインドウ32を位置付ける機能を果たす。評価機能ネットワーク34、自己連想ネットワークと同様に、創造性エンジンにより生成されたx,y位置における注視ウインドウに現れる物体を識別することを目的とする。その荷重は初めに乱数化されていてよい。通常、このANNシステムを訓練して物体を認識させるべく、創造性エンジンがカメラフレーム周辺でランダムに注視ウインドウを動かすにつれて、物体自身が白い背景に対して配置される。マスター・アルゴリズムが注視ウインドウ内の非白色ピクセルを検出した場合、創造性エンジンはそれらのx,y座標について訓練され、評価機能ネットワークは注視ウインドウ内のピクセルのパターンについて訓練される。その結果、ANNシステムが訓練を実行するにつれて、創造性エンジンは意図した目標の近傍(白色領域を訪問する頻度が減る傾向にある)に座標を生成する傾向を示し、評価機能は注視ウインドウに現われる目標の部分の識別により適合するようになる。その後で、想像エンジンがランダム化されて、ANNシステムを用いてシーン内で任意に配置された目標に類似した物体の位置を特定することができる。
【0039】
本明細書に記載するシステムはまた、「訓練中止」可能である。訓練中止とは、ネットワークが学習している入力と目標出力パターンとの間の固有の関係を断ち切るように訓練サイクルの間に導入された事例を意図的且つプログラム的に損なうことを意味する。これは、入力または出力事例あるいはその両方に確率的または体系的な値を加えることにより実現することができる。
【0040】
連想記憶またはグループ・メンバシップ・フィルタとして意図された自己連想ネットワークを訓練中止する際、訓練パターンの構成要素にランダムまたは体系的な値を加えると自身の対応記憶の吸収が損なわれ、後で当該パターンを訓練されたネットワークに適用した際に重大な再構築誤差が生じる恐れがある。更に当該ネットワークには、反復的に動作して訓練中止事例に対応する安定した記憶に収斂する能力を有していない。
【0041】
本明細書に記載するシステムの更に別の特徴は「グループ・メンバシップ・フィルタ」の組み込みである。グループ・メンバシップ・フィルタは本明細書において、何らかのジャンルを表わすパターンの集合体について訓練された自己連想多層パーセプトロンとして定義される。例えば、そのようなニューラル・ネットワークは、人間の顔の多数のビットマップについて訓練することができる。その後で、これらの顔の訓練事例(すなわち、ビットマップ内のピクセルの完全な列挙)、または顔の何らかの新規ビットマップの1つが入力パターンとして適用された場合、ネットワークは自身の出力層で入力パターンを正確に再構築する。この場合、当該ネットワークの入出力パターン間のユークリッド距離として表わされる再構築誤差δは無視できる程度に小さい。一方、当該ジャンルを表わさない何らかの画像、例えば足のビットマップが当該ネットワークの入力層に適用された場合、再構築誤差はもはや無視できない。従って閾値を設定して、これを下回る入力パターンはあるジャンルを表わし、これを超える当該パターンは当該ジャンルを表わさないようにすることにより、任意の入力パターンが以前に訓練中のネットワークに示されたパターンの何らかの相互関係を有するグループに属するか否かを後で識別することができる。
【0042】
このプロセスは、自己連想多層パーセプトロンの基礎をなす機能により実現され、その際に特徴検出は隠れ層内で生じ、そのようなマイクロ機能間の制約関係は出力荷重層に形成される。上の例では、例えば、荷重はネットワークの入力空間(すなわち目、鼻、あご、耳等)の最も頻繁に遭遇するマイクロ機能を捕捉するように自己組織化される。同様に、出力荷重層は通常、顔に固有の幾何学的および位相的な制約(すなわち、鼻は顔の中央、口は下、および目は上且つ両側にある)を吸収する。従って、顔のパターンがネットワークを介して伝搬する場合、基本的なあらゆる解剖学的特徴が隠れ層で検出され、出力層ではこれらの特徴間の全ての幾何学的且つ位相的制約に従う。この場合、入力パターンは正確に再構築され、その際に生じる再構築誤差は無視できる。一方、足の画像がネットワークを介して伝播される場合、隠れ層では顔の必須の特徴が認識されず、出力荷重層で制約が従われることもない。その結果、入力パターンは再構築されず、デルタ誤差は顕著である。
【0043】
上で議論した一般的原理を更に、本発明の各種の実施形態を用いた一連の非限定的且つ例示的なアプリケーションに示す。
警察スケッチ画家アプリケーション
【0044】
本ソフトウェア・アプリケーション(図6〜10に示す)の目的は、犯罪被害者の犯人の画像を当該被害者による候補顔面に対する一連の試行錯誤的評価サイクルを通じて再構築する自動化されたツールで警察画家を援助または代替を行なうことである。このようなソフトウェア・アプリケーションにより、人間の画家と被害者の間で互いに譲り合ったり微妙に影響を及ぼし合ったりすることがなくなる可能性が高い。
【0045】
動作時において、被害者は摂動されたニューラル・ネットワーク50(すなわち広範囲の顔のビットマップについて以前に訓練を受けた想像エンジン)によりランダムに生成された一連の顔を見ながら、スライダまたは一連のボタン等何らかのグラフィカル・ユーザ・インタフェース制御54を用いて、想像エンジンが生成した各々の候補顔面がどの程度犯人の顔に似ているかを示す。その間、評価機能ネットワーク52(すなわち通知連想中枢)は、当該ニューラル・アーキテクチャ内においてその場で訓練を行ない、想像エンジンが生成した試作的顔画像を被害者によるその評価にマッピングすることを学習している。動作の最終段階で、想像エンジンは、評価機能が被害者による各パターンへの予想される反応を予測するに従い、一連の顔を迅速に生成することができる。このような迅速なパターン生成および評価を通じて、想像エンジンおよび評価機能は山登り法に基づいて犯人の顔に最も似ている顔を識別する。
【0046】
本プロセスの第1フェーズ(図6)において、大規模な多層自己連想ネットワーク50が例示的な顔の各種のビットマップについて訓練され、ネットワークが自身の出力層56で各入力パターンを再現するように訓練する。通常、そのようなネットワークは大規模であり、約100万個のオーダーの入力および出力を有し、多くの場合、24ビットRGB形式の640×480ディスプレイを組み込んでいる。本アプリケーションの商用バージョンでは、本ネットワークは予め訓練済みである。
【0047】
本アプリケーションの動作の次のフェーズ(図7)において、想像エンジン50はランダムに摂動されて広範囲にわたる顔を生成し、その各々が被害者に提示され、被害者は次いで、各々の例示的な顔が犯人の顔に似ていると自分がどの程度強く感じるかを示す。累積的に、自己学習評価機能52は一般化することを学習し、想像エンジン50が生成した任意の画像と犯人の画像との間の合致の程度を示す。本アプリケーションの想像エンジン50を摂動させる最適な方法が、ニューラル・ネットワークの結合荷重に適用された微小な数値摂動を介するものであることが分かっている。また、シナプス摂動が内部的に適用されるに従い、訓練事例がランダムに当該ネットワークの入力に適用することも推奨される。このような仕方で、出力パターンは、広範囲にわたるふさわしいバリエーションを生成することにより、各々の訓練事例を「覆う」。
【0048】
本プロセスの最後のフェーズ(図8)において、想像エンジン50は、一連の顔を自発的に生成して、これらを評価機能52が評価して各々がどの程度犯人の顔に近づいているかを判定することができる。累積的に、本アプリケーションは、評価機能52を介して犯人の顔に最も強く関連付けられた候補顔面を追跡し続ける。
【0049】
犯人の顔への収束を典型的にスピードアップする当該プロセスの1つの変型(図9)は、評価機能52と想像エンジン50の間で後者における摂動を調整するフィードバック・メカニズム58を含んでいる。例えば、予め指定された何らかの期間にわたり評価機能52が犯人の顔に似ている候補顔面パターンを「見ていない」場合、想像エンジン50内でシナプス摂動の平均レベルを上げて、結果的に生じる顔のパターンにより多くの多様性をもたらすことにより、犯人の顔に似ているパターンを生成する可能性を増すことができる。更に、評価機能(52)はまた、出力パターンとして犯人と被害者の認識距離に関連付けられた顔パターンを用いて、その場で訓練を実行することができる。
【0050】
本アプリケーションの高度な用法(図10)は、自己学習想像エンジン59を含んでいる。本技術では、想像エンジン59が生成した候補顔面の各々を被害者が評価する際に、評価機能52と想像エンジン59の両方が同時に訓練を実行する。被害者は候補顔面を犯人の顔であるとより強く認識するほど、その記憶が自己連想想像エンジン59により厳密に印象付けられる。強化の程度は、いくつかの仕方で実現することができる。ある技術では、想像エンジンを訓練する学習速度および勢いを、評価機能による候補の顔と犯人の顔の関連付けに比例して増大させることができる。別のアプローチでは、想像エンジン59が、与えられた顔パターンについて評価機能による当該パターンの認識と比例するサイクル数だけ訓練される。同様の仕方で、そのようなシステムを娯楽目的に用いて、最も魅力的な顔の生成を累積的に学習することができる。本概念の明らかな拡張を人間の感覚器官の任意の組合せに適用して、観衆に合わせて自身を調整する娯楽体験を提供することができる。
【0051】
生成および訓練の累積的サイクルにわたり、想像エンジン59内の支配的記憶または記憶群は、犯人のパターンに最も密接に関連付けられたパターンとなる。そのような支配的記憶は、(1)想像エンジン59に確率的にシードを設定し、支配的記憶のアトラクタの引込み領域に「落下する」まで反復的にネットワークを動作させるか、あるいは(2)再構築誤差が何らかの所定の閾値以下に低下するまで当該自己連想ネットワークにランダムなパターン(すなわち、損なわれた顔の訓練事例)を適用することのいずれかにより見つけられる。
白紙状態からの学習を介したロボット牽引技術
【0052】
本アプリケーション(図11〜14に示す)において、自己学習、多層、自己連想ニューラル・ネットワークを用いて、前進動作に至る自由度12の六脚ロボットのパルス幅変調シーケンスを選択的に捕捉する。適用された任意のパルス幅変調シーケンスの値は、ロボットが自身のサーボ機構に分配される任意の所与のパルス幅変調シーケンスの結果として、前進方向に行なうネットワーク移動を効果的に測定するオンボードソナーユニットにより判断される。当該システムを用いて、要素ニューラル・ネットワークは全く訓練されていない状態から始めることができる。前方移動につながるサーボ・シーケンスが見出されたため、当該ネットワークの荷重が摂動により低下して、後進、回転、および横歩き動作等、重要な代替的動作を生成することができる。
【0053】
複雑な牽引シーケンスの白紙状態からの学習が可能なシステムは3個の構成要素、すなわち(1)48個の入力および12台のサーボ・ロボット4個の連続する脚状態を受理する出力を有する自己学習自己連想ネットワーク、(2)当該自己連想ネットワークの入出力を比較するアルゴリズム、および(3)最終的に4状態のサーボ・シーケンスをロボットの予測された前方移動にマッピングする自己連想ネットワークにより供給される自己学習ヘテロ連想ネットワークからなる。
【0054】
図11に六脚ロボット60の簡略図を示し、ロボットの脚のサーボ62のレイアウトと共に、遠隔目標への距離と、任意の4状態サーボ・シーケンスにわたり移動したネットワークの距離をそこから計算するオンボードソナーユニット64を示している。
【0055】
学習に際して(図12参照)、4個の連続する状態にわたりランダムなパルス幅変調がサーボ機構62に適用される。この試行シーケンスの結果として、何らかの閾値値を超える前進をソナー64が検知した場合、自己連想想像エンジン内で当該シーケンスの記憶が強化される。同様に、強化学習は、訓練入力パターンとしての4状態サーボ・シーケンスおよび出力訓練パターンとして横断距離Δxを用いて、通知連想中枢で行なわれる。2個のネットワークにおいて実験および強化学習サイクルを充分実行した後で、効果的な前進移動を与える脚動作がもたらされる。
【0056】
一旦このような仕方で訓練されたならば、後でロボットをこの新たに発明された牽引モードで動作させることができる。そのためには、(1)通知連想中枢1により評価された再構築誤差δが最小になるまで、乱数または半乱数を想像エンジンに適用するか、あるいは(2)再構築誤差δが最小になるまで、ネットワークを反復的に動作させてもよい。通知連想中枢が、前進動作の結果サーボ・シーケンスが生じることを確認した場合、対応するパルス幅変調が脚サーボシステムに伝達される。
【0057】
左右への方向転換、並びに横歩き、脚のひきずり、または後退動作等、ロボットの他の重要な行動は、想像エンジンの結合荷重に摂動を与えて、加速度計やデジタル・コンパス等他のセンサを介して、横歩き動作またはターンの程度を監視することにより容易に実現することができる。適切なターンが生じるに従い、例えば、強化学習が両方のネットワークで行われてもよい。
【0058】
上述の手順は、目的または環境により自立的に複雑な戦略を開発することが求められる任意の制御またはロボット・システムについて一般化できる。最適なアプローチは、システムに1つの基本的な行動(図14)を即興的に作らせ、次いで当該行動が実装されている想像エンジンの荷重を低下させて、派生的且つ潜在的に有益な戦略を生成することである。実際、これらの重要な派生的行動の荷重空間の解は基本行動の空間の近傍にあり、そのような基本行動に既に自身を特化させたネットワークに対してシナプス摂動を与えることにより素早く発見することができる。同様に、単一の概念的パターンに向けてブートストラッピングし、次いで想像エンジンの荷重を低下させて関連した概念を発見することを通じて、そのような発見システムにおいて重要な概念を生み出すことができる。
ロボット経路計画策定
【0059】
本アプリケーション(図15〜17に示す)は一般に、ロボット人工知能(「AI」)の構築に関するものであり、最初にロボットの環境のモデルを形成し、次いで当該モデルに基づいて何らかの結果を得るための多くの代替的戦略を考慮した後で最適行動針路を実装する点で熟考的である。ロボットAIへのこのアプローチは、現在実用化されている、センサが最初にロボットの環境内のシナリオを検知し、次いで予め符号化された適切な行動を行なわせる所謂反応的システムとは全く対照的である。
【0060】
そのような熟考的AIが、摂動された人工ニューラル・ネットワークの基礎ニューラル・アーキテクチャに実装されてその新たな出力パターンがコンピュータ評価機能により監視されているならば、前者のネットワークは本質的に候補行動計画の生成器である。評価機能アルゴリズムは、現れたパターンのどれが適切な行動針路であるかの審判として機能する。通常、評価機能アルゴリズムはこの意思決定プロセスを支援すべく、自身の環境に関する補助情報を必要とする。
【0061】
ロボット経路計画策定のケースにおいて、この一般的なスキームを用いて、特定の目標または宛先に向かって抵抗が最小の経路を計算することができる。これは図15の一般的な形式をなし、最小コストを提供する経路に到達するように評価機能アルゴリズムが各々の候補経路に関連付けられたコストを計算するのに従い、地形を通る潜在的経路を想像エンジンが生成する。補助データとして、接近する地形の各要素に関連付けられたコストに関する何らかの情報が必要である。この目的で、接近する地域に関するロボットの視覚をナビゲーション領域にマッピングすべくニューラル・ネットワークを用いており、ここで移動ロボットは物体または環境により発せられて当該領域に進入した粒子と見なすことができる。この仮想的領域が発する居所的な力はロボットの好適な動作を示す。そのような評価機能の1つの使用例として、明示的コードおよび/または他の人工ニューラル・ネットワークのいずれかを用いて、計算されたナビゲーション領域を通る候補経路の線積分の計算がある。
【0062】
本システムに関わる人工ニューラル・ネットワークの自己学習特徴は、最小コストを保証する軌道の想像エンジン内における強化学習を通じて実現することができる。本システムがいくつかの経路オプションを調べた後で、想像エンジンに確率的な励起を介して呼び掛けて、内部に常駐する支配的記憶を生成することができる。更に、ナビゲーション領域を通る線積分を数値的に計算する評価機能アルゴリズムは同時に、ナビゲーション領域の組み合わされた入力および想像エンジンから生じた候補経路を用いて、コストに対応する出力を線コードと共に計算させることにより、自己学習ニューラル・ネットワークに同一タスクを実行させるべく訓練することができる。最後に、想像エンジンは同様に、環境を通って通行可能な経路の生成を加速する何らかの事前学習から始めて、自己学習的であってよい。従って、想像エンジンは、特色のない平面を、ある個数の等距離ステップより少ない回数で交差する軌道の自己連想グループ・メンバシップ・フィルタとして実装することができる。そのような現地の事前訓練の結果、想像エンジンは優先して、長さが最短である軌道を生成するであろう。漸進的により高いレベルでのシナプス摂動の入力は、当該ネットワークに保存されている記憶を、ナビゲーション領域の景色の少なくとも基準に合致し、従ってより低いコスト経路をもたらす能力を有するより曲がりくねった経路に劣化させる傾向がある。
【0063】
図16に、カメラを備えた六脚クローラーを支配する熟考的ロボットAIシステムをより詳細に示す。本アプリケーションにおいて、自己学習自己連想ネットワークには、当該領域内を同じ長さのN個以下の部分をそのような各々のステップと共に、ある方位角θに沿って進行しながら特徴のない平面を横断して通る一連の軌道が以前に見せられている。従って、各々の潜在的な軌道は、パターン(Δθ1,Δθ2,...,ΔθN)により定義することができ、各Δθiはある線区画から別の区画へ遷移する際の方位角の変化である。基本的に、このネットワークはその場での訓練を通じて、最短の全長を有する軌道のグループ・メンバシップ・フィルタになる。例えば、当該ネットワークにシナプス摂動を与えることで、Δθiにより多くの変化がもたらされ、より湾曲した、恐らくは環状の軌道が生成される。
【0064】
自己学習ニューラル・ネットワークは、オンボードカメラから来たピクセル値をナビゲーション領域に変換すべくその場で訓練された。訓練事例は、各種の地域の生のカメラ景色および対応する牽引インピーダンス値の2次元配列Zterrain(x,y)からなる。このような候補は人手により配置されて、各座標(x,y)での地形物質を識別し、12個の脚サーボ機構を有する六脚ロボットの測定されたクローリング・インピーダンスを各座標に関連付ける。各々の地形物質のインピーダンス値は、各物質におけるロボットクローリングの測定された最高速度の逆数として計算された。
【0065】
同様に、目標物体の座標で深い引力ポテンシャル井戸を生成すべく別の自己学習ニューラル・ネットワークがその場で訓練された。当該ネットワークは、格子の回りに目標を移動させて、ネットワークがカメラの生フレームから目標のxy座標へマッピングすることを学習できるようにして訓練された。目標ポテンシャルZtarget(x,y)は次いで、次式のように分析的に生成できる。
【0066】
Ztarget(x,y)=1−1/((x−x0)2+(y−y0)2+γ)1/2 (1)
ここで、x0およびy0は目標の質量中心座標、xおよびyはロボットのオンボードカメラ、およびγは目標の正確な位置x=x0、y=y0における領域値Ztargetの特異性を回避するための減衰定数である。
【0067】
2個のナビゲーション領域、ZterrainおよびZtargetは、2個の領域値の位置毎の乗算により一塊りにされた。これらの結合された領域は後で、それを通る経路(Δθ1,Δθ2,...,ΔθN)の線積分に基づいてコストを計算する評価機能アルゴリズムへの補助入力として用いることができる。
【0068】
N個の区分経路に沿って最初のステップを行なう前に、図16に示すシステムは、多くの候補経路を実験して、横断のコストに反比例して想像エンジン内の記憶を強化する。経路に沿った移動の前に、想像エンジンが確率的に呼び掛られて自身の支配的記憶、すなわち通常は地域を通るコストが最も低い経路の記憶を生成する。
【0069】
図17に、オンボードカメラから生のカメラフレームおよび、結果的に生じた一塊りになった地域と目標ポテンシャルをその右側に示す。ここで、明るいグレーはナビゲーション領域内での低いインピーダンス、暗いグレーは高いインピーダンスを示す。右端の画像に、本システムが計算した最小コストの経路が見られる。
フォビエーション的システム
【0070】
本アプリケーション(図18〜23に示す)は一般に、カメラ等の方向センサ装置を駆動して、目標をそれらの環境内で検出し、恐らく何らかの時間間隔にわたりそのようなセンサのより広い視野内で特定の物体の位置を特定する方法を扱う。以下の説明ではセンサの焦点を合わせることができる2個の自由度について述べるが、移動中である何らかの所定の目標にセンサを向けるべく6軸ロボットアームを誘導する場合のようにより高い次元のスキームも実現することができる。
【0071】
この一般的なスキームは、物体の大域的分類に依存する目標認識システムの典型的な短所を克服する。往々にして、このような物体を実世界環境内に配置する場合、背景機能との重なりまたは前景にある他の物体により目標が遮蔽されて形成される偽の目標外形に起因して分類誤差が生じる。この技術は、物体の多くの部分を調べて、それが適当なジャンルのものであるか否かを累積的に結論付ける点でこのような大域的分類技術に光を当てる。
【0072】
本システムは、最小限2個のニューラル・ネットワークからなる。その第1要素である想像エンジンは、2個の入力および2個の出力を有する反復的自己連想ニューラル・ネットワークである。これらの入力および出力パターンは、環境のサンプリングを行なうために用いる注視ウインドウの位置(すなわち、その左上隅のxy座標)を表わす。当該ネットワークは、ランダムなxy座標の表について予め訓練されていてよい。従って、ネットワークの訓練誤差の範囲内では、任意のxy対の適用により当該パターンをネットワークの出力層で再現される筈である。一方、フィードフォワード通過の間、当該ネットワークの結合荷重に摂動が過渡的に施された場合、入力パターンはネットワークの出力で忠実に再現されないであろう。当該ネットワークの各々の反復サイクルの間、新規のランダムなシナプス摂動が過渡的に施された場合、これらのxy対により特定される注視ウインドウはランダム且つ漸進的にシーンを横断して動かされる。
【0073】
予め指定された何らかの目標の位置を特定する本システムの機能は通常、別のニューラル・ネットワークが当該注視ウインドウの内容を解析して、意図する目標の何らかの部分に遭遇したか否か決定できるようにするステップを含んでいる。後者のネットワークによる注視ウインドウ内の物体の何らかの部分の認識を用いて、想像エンジンの結合荷重に過渡的に施された過渡的な摂動の大きさに影響を及ぼす。当該評価機能の何らかの出力を用いて、反復的想像エンジンに施される過渡的な摂動の大きさを制御する。本システムの目的は、探索される物体の何らかの部分に注視ウインドウが重なっている場合に、想像エンジン内のシナプス摂動を低減させるである。その結果、次の目標への移動程度が小さくなり、累積的に、注視ウインドウが意図する目標の近傍に常駐する傾向が生じる。
【0074】
この目的でヘテロ連想ネットワークを用いた場合、その出力は0〜1に範囲にあって、0は探索されている物体の部分に遭遇した旨の絶対的信頼度を表わす。当該出力値を用いて、想像エンジン内の過渡的な摂動を調整することができる。あるいは、自己連想ネットワークは評価機能として機能し、その場合再構築誤差δは、当然ながら自身の記憶の1つに遭遇するに従いゼロに近づくため、想像エンジンのシナプス摂動を直接調整するために用いることができる。
【0075】
本システム(図18)の訓練において、反復的想像エンジンは、後で捜される物体の一部に遭遇するまで注視ウインドウをシーンの周辺で動かす。そのような物体の部分に遭遇することにより、評価機能は自己学習連想記憶の形式で注視ウインドウの内容に訓練を実行して物体の当該部分の記憶を形成する。注視ウインドウが目標物体の上を巡回するに従い、累積的に当該目標の各種の部分の記憶を吸収する。本技術が、たとえ訓練フェーズの間であっても、システムの注視ウインドウが物体の近傍に常駐するようにさせるために評価機能からのフィードバック(図19)で補完してもよい点に注意されたい。
【0076】
図20により多くの詳細事項を示し、この場合目標はカメラフレーム内の顔である。訓練フェーズにおいて、目標は物理的またはプログラム的に自身の環境からマスキングされている。同様に、注視ウインドウが意図された目標以外をサンプリングするのを防止すべく物理的またはプログラム的制約を課している。自己連想評価機能が現在、目標の各々の対応するサンプルに訓練を実行するにつれて、想像エンジン内の摂動により注視ウインドウを目標の上へ動かす。注視ウインドウは、評価機能が後で識別できるよう目標の充分な部分を学習するまで目標の上を巡回する。
【0077】
使用時(図21)において、想像エンジン内のシナプス摂動はシーンを横断して注視ウインドウを動かす。注視ウインドウの内容を伝えられた評価機能は、その内容が探索されている物体の部分であるか否かを判定する。その内容が探索されている目標の部分によく似ているほど、過渡的なシナプス摂動は更にゼロ強度へ向けて調整され、注視ウインドウを物体近傍全体に更に巡回させる。オプション的ステップとして、現在自己学習中である想像エンジンは、評価機能が目標の一部を検知した場合にその位置の記憶を強化することができる。次いで、注視ウインドウの巡回の重心を用いて全体的な目標の位置を特定しても、あるいは、想像エンジンに強化学習が実装されている場合、確率的入力を用いるかまたは再構築誤差が最小になるまで確率的な入力播種の反復を通じて、自身の支配的記憶に呼び掛けられて、再構築誤差δが最小となる入力パターンを発見することができる。
【0078】
図22、23に、カメラからの静止画像またはその連続フレームのいずれかにある顔の位置を特定する前提で本プロセスの詳細を示す。本方法では、想像エンジンによりシーンを横断して動かされている注視ウインドウの内容に応答して、再構築誤差δを出力する評価機能として自己連想記憶を用いている。本再構築誤差は次いで、想像エンジンへの過渡的な摂動の強度を調整して、注視ウインドウを主に目標顔面の近傍で巡回させる。基本的に、注視ウインドウが訪れた位置の重心は、シーン内で目標の位置を意味する。図23はまた、当該ネットワーク内の支配的記憶、すなわち目標の位置を生成するように想像エンジンの強化学習を利用する様子を示す。強化学習は、再構築誤差δの大きさにより起動される。
【0079】
本明細書に記載した非限定的な例以外の多くの目的およびアプリケーションに本発明を利用できることは当業者には明らかであろう。更に、当業者には、本明細書に記載したシステムがソフトウェアによりシミュレートされたニューラル・ネットワークまたはハードウェア利用のネットワーク構造により実装できることを認識されよう。
【0080】
本発明の他の目的、特徴および利点も当業者には明らかであろう。本発明の好適な実施形態を例示および説明してきたが、これらは例示を目的としており、添付の特許請求の範囲およびその等価物の範囲が求める場合を除いて本発明は限定されない。
【特許請求の範囲】
【請求項1】
自己学習人工ニューラル・ネットワーク型発見装置であって、
摂動された際にパターンを生成することが可能な第1の自己学習人工ニューラル・ネットワークと、
前記第1の自己学習人工ニューラル・ネットワークにさまざまな摂動度を与える手段と、
前記生成されたパターンを前記第1の自己学習人工ニューラル・ネットワークから受信すべく前記第1の自己学習人工ニューラル・ネットワークに関連付けられた第2の自己学習人工ニューラル・ネットワークと、
前記第1の自己学習人工ニューラル・ネットワークの前記生成されたパターンを概念として実装する手段と、
前記概念の効果を評価する手段と、
前記生成されたパターンのいずれかが肯定的な効果を示す場合、前記第1の自己訓練人工ニューラル・ネットワーク内で強化学習を起動する手段と、
前記第1の自己学習人工ニューラル・ネットワークの前記生成されたパターンの少なくとも1つと、前記生成されたパターンの前記効果との関係を前記第2ネットワーク内に組み込むように前記第2の自己学習人工ニューラル・ネットワーク内で強化学習を起動する手段とを含む装置。
【請求項2】
前記第2の人工ニューラル・ネットワークからの出力パターンに基づいて前記第1の人工ニューラル・ネットワーク内で摂動を制御する手段を更に含む、請求項1に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項3】
前記概念の効果を評価する前記手段が否定的な効果を示す場合、前記第1および第2の自己学習人工ニューラル・ネットワークのうち少なくとも1つの訓練を中止する手段を更に含む、請求項1に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項4】
自己学習人工ニューラル・ネットワーク型発見装置であって、
パターンを生成することが可能な第1の人工ニューラル・ネットワーク部と、
前記第1の人工ニューラル・ネットワークにさまざまな摂動度を与える手段と、
前記第1の自己学習人工ニューラル・ネットワークの前記生成されたパターンを概念として実装する手段と、
前記概念の効果を評価する手段と、
前記第1の自己訓練人工ニューラル・ネットワーク内で肯定的な効果を示す前記生成されたパターンの1つの強化学習を起動する手段とを含む装置。
【請求項5】
前記概念の効果を評価する前記手段が否定的な効果を示す場合、前記第1の自己学習人工ニューラル・ネットワークの訓練を中止する手段を更に含む、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項6】
前記概念を評価する前記手段が、前記第1の人工ニューラル・ネットワークの前記生成されたパターンの人間による評価を含む、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項7】
前記概念を評価する前記手段が少なくとも1つのセンサを含む、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項8】
前記センサがソナー装置である、請求項7に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項9】
前記センサがカメラである、請求項7に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項10】
前記概念の前記効果を評価する前記手段が、少なくとも部分的にはランダムなプロセスに支配される、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項11】
前記概念の前記効果を評価する前記手段が、規則に基づくアルゴリズムおよびモデルに基づくアルゴリズムからなる群の1つに支配される、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項12】
前記第1のネットワークから生成されたパターンを受信すべく前記第1の人工ニューラル・ネットワークに関連付けられた、少なくとも第2の自己学習人工ニューラル・ネットワークと、
前記第1の自己学習人工ニューラル・ネットワークの前記生成されたパターンと前記生成されたパターンの前記効果との間の関係を前記第2のネットワーク内に組み込むべく、前記第2の自己学習人工ニューラル・ネットワークにおいて強化学習を起動する手段とを更に含む、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項13】
自己学習人工ニューラル・ネットワーク型発見装置であって、
各々の人工ニューラル・ネットワークがそれに対するさまざまな摂動度に応答してパターンを生成することができる、自己学習人工ニューラル・ネットワークのアレイと、
前記自己学習人工ニューラル・ネットワークの少なくとも1つにさまざまな摂動度を与える手段であって、前記自己学習人工ニューラル・ネットワークの第2のものが第1の摂動された人工ニューラル・ネットワークから生成されたパターンを受信するように、少なくとも第1の摂動された自己学習人工ニューラル・ネットワークが、少なくとも第2の前記自己学習人工ニューラル・ネットワークに関連付けられる手段と、
少なくとも前記第1の摂動された自己訓練人工ニューラル・ネットワークの前記生成されたパターンを概念として実装する手段と、
前記概念の効果を評価する手段と、
前記生成されたパターンが肯定的な効果を示す場合、少なくとも前記第1の摂動された自己訓練人工ニューラル・ネットワーク内で強化学習を起動する手段と、
前記第1の摂動された自己学習人工ニューラル・ネットワークの前記生成されたパターンの少なくとも1つと前記生成されたパターンの前記効果との間の関係を前記第2のネットワーク内に組み込むべく、前記第2の自己学習人工ニューラル・ネットワークにおいて強化学習を起動する手段とを含む装置。
【請求項14】
前記生成されたパターンが、前記第1の摂動された人工ネットワークおよび少なくとも第2の摂動された自己学習人工ニューラル・ネットワークにより生成されたパターンの組合せである、請求項13に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項15】
前記第1の人工ニューラル・ネットワークから前記生成されたパターンを受信するように前記第1の人工ニューラル・ネットワークに関連付けられた少なくとも1つの規則ベースのアルゴリズムかを更に含む、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項16】
前記第2の人工ニューラル・ネットワークが、前記入力パターンと前記第1の自己学習人工ニューラル・ネットワークの前記生成されたパターンとを比較すべく動作可能である、請求項1に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項17】
前記アルゴリズムが、前記入力パターンと前記第1の人工ニューラル・ネットワークの前記生成されたパターンとを比較すべく動作可能である、請求項11に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項18】
前記概念の前記効果を評価する前記手段が、少なくとも1つの客観的な基準の関数である、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項19】
前記概念の前記効果を評価する前記手段が、少なくとも1つの主観的な基準の関数である、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項20】
前記装置がロボット機構に組み込まれる、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項21】
前記装置が仮想的なロボット・システムに組み込まれる、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項22】
前記装置がシミュレーションされたロボット・システムに組み込まれる、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項23】
前記装置が機械視覚システムに組み込まれる、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項24】
前記第1の人工ニューラル・ネットワークが自己連想人工ニューラル・ネットワークである、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項25】
前記第1の人工ニューラル・ネットワークがグループ・メンバシップ・フィルタとして動作可能である、請求項24に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項26】
前記第2の人工ニューラル・ネットワークがヘテロ連想人工ニューラル・ネットワークである、請求項1に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項27】
経路計画に特化した自己学習人工ニューラル・ネットワーク型発見装置であって、
前記第1のネットワークに与えられた摂動に応答して生成されるパターンを生成でき、前記生成されたパターンが環境を通る潜在的な経路を表わす、第1の自己学習人工ニューラル・ネットワークと、
前記第1の自己学習人工ニューラル・ネットワークにさまざまな摂動度を与える手段と、
前記潜在的経路に関連付けられたコストを計算する手段と、
前記コストを計算する手段に環境入力を提供する手段であって、前記計算手段が前記環境入力を用いて前記コストを生成する手段と、を含み、
前記コストを計算する手段が、前記摂動された第1のニューラル・ネットワークにより生成された前記潜在的経路から前記環境を通る最小コスト経路を決定する装置。
【請求項28】
前記計算手段が第2の人工ニューラル・ネットワークを含む、請求項27に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項29】
前記計算手段が規則ベースのアルゴリズムを含む、請求項27に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項30】
低コストである前記経路が、連続した訓練により前記第1の自己訓練人工ニューラル・ネットワーク内で再吸収される、請求項27に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項31】
前記潜在的経路の前記コストに基づいて、前記潜在的経路のうち1つの前記第1の自己訓練人工ニューラル・ネットワーク内で強化学習を起動する手段を更に含む、請求項27に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項32】
前記摂動の大きさが前記コストに基づいている、請求項27に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項33】
前記環境入力が、動作インピーダンスが低いおよび高い領域の識別を含み、前記計算手段が更に前記低いおよび高い動作インピーダンス領域のマップを含むナビゲーション領域を計算すべく動作可能である、請求項27に記載の自己学習人工ニューラル・ネットワーク型装置。
【請求項34】
前記第1の自己学習人工ニューラル・ネットワークが、環境を通る最小コスト経路を表わす自身の支配的記憶を生成すべくさまざまな摂動度を介して呼び掛けられる、請求項27に記載の自己学習人工ニューラル・ネットワーク型装置。
【請求項35】
前記第1の自己学習人工ニューラル・ネットワークが、グループ・メンバシップ・フィルタを含む、請求項27に記載の自己学習人工ニューラル・ネットワーク型装置。
【請求項36】
人工ニューラル・ネットワーク型発見装置であって、
自身に与えられた摂動に応答してパターンを生成可能な第1の人工ニューラル・ネットワークであって、前記生成されたパターンが潜在的な行動計画を表わす、第1の人工ニューラル・ネットワークと、
前記第1の人工ニューラル・ネットワークにさまざまな摂動度を与える手段と、
前記潜在的な行動計画に関連付けられたコストを計算する手段と、
前記コスト計算手段へ環境入力を提供する手段であって、前記計算手段が前記環境入力を用いて前記コストを生成する手段と、を含み、
前記コストを計算する手段が、前記摂動された第1のニューラル・ネットワークにより生成された動作の前記潜在的計画から、最小コストの行動計画を決定する装置。
【請求項37】
前記計算手段が更に、前記潜在的な行動計画の前記コストに基づいてナビゲーション領域を計算すべく動作可能である、請求項36に記載の人工ニューラル・ネットワーク型装置。
【請求項38】
前記第1の人工ニューラル・ネットワークが自己学習人工ニューラル・ネットワークである、請求項36に記載の人工ニューラル・ネットワーク型装置。
【請求項39】
自己学習人工ニューラル・ネットワーク型発見装置であって、
自身に与えられた摂動に応答してパターンを生成することが可能な第1の自己学習人工ニューラル・ネットワークと、
前記第1の自己学習人工ニューラル・ネットワークをさまざまな摂動度を与える手段と、
前記生成されたパターンの値を決定する手段と、
前記第1の自己学習人工ニューラル・ネットワーク内で目標値を有する前記生成されたパターンの少なくとも1つの強化学習を起動する手段とを含む装置。
【請求項40】
前記第1の人工ニューラル・ネットワーク内における強化学習の少なくとも1つのサイクルの後で、前記生成されたパターンの記憶を再構築すべく摂動の適用を通じて前記第1の人工ニューラル・ネットワークに呼び掛ける手段を更に含む、請求項39に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項41】
前記第1の人工ニューラル・ネットワーク内における強化学習の少なくとも1つのサイクルの後で、前記生成されたパターンの劣化した記憶を生成すべく前記第1の自己学習人工ニューラル・ネットワークにさまざまな摂動度を与える手段を更に含む、請求項39に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項42】
前記劣化した記憶が、強化学習の少なくとも1つのサイクルを通じて以前に吸収された概念から派生した概念を表わす、請求項41に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項43】
前記評価手段が、前記第1の人工ニューラル・ネットワークから前記生成されたパターンを受信すべく第2の人工ニューラル・ネットワークを含む、請求項39に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項44】
前記評価手段が規則ベースのアルゴリズムを含む、請求項39に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項45】
物体検出用の自己学習人工ニューラル・ネットワーク型装置であって、
環境のセンサ視野を提供する手段と、
注視ウインドウの各々の位置が前記環境の前記センサ視野の少なくとも1つを表わす注視ウインドウを移動する手段と、
自身への入力パターンが前記センサ視野の内容からなり、且つ前記センサ視野の前記内容の認識を示す認識尺度を生成すべく動作する第1の自己学習人工ニューラル・ネットワークとを含む装置。
【請求項46】
前記第1の自己学習人工ニューラル・ネットワークが、前記注視ウインドウが探索対象物体の一部に遭遇した場合のみ前記注視ウインドウの内容を学習する、請求項45に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項47】
前記物体が、周囲環境を意図的に中性化することにより、前記周囲環境から区別される、請求項46に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項48】
前記物体が、前記物体を周囲環境からマスキングすることにより、前記周囲環境から区別される、請求項46に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項49】
注視ウインドウを移動させる前記手段が、さまざまな摂動度と共に反復的に実行すべく動作する第2の自己学習自己連想人工ニューラル・ネットワークを含み、
前記第1の人工ニューラル・ネットワークにより生成された前記認識尺度に基づいて、前記第2の人工ニューラル・ネットワークへの摂動を調整する手段を更に含む、請求項45に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項50】
前記第1のネットワークが前記センサ視野の前記内容の少なくとも一部を識別した場合に前記第2の人工ニューラル・ネットワークにおいて強化学習が生じ、前記強化学習が前記内容の前記識別された部分に関連付けられた前記センサ視野の位置に関係している、請求項49に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項51】
前記強化学習が生じた後で、摂動を用いて前記第2のネットワークの支配的記憶について前記第2のネットワークに呼び掛ける、請求項50に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項52】
前記注視ウインドウを動かす前記手段が、ラスタ・アルゴリズムおよび線形スキャン・アルゴリズムからなる群のうちの1つを含む、請求項45に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項53】
人工ニューラル・ネットワーク型装置であって、
特定のグループまたはジャンルに属する共通性を有するパターンについて訓練された第1の自己連想人工ニューラル・ネットワークと、
前記第1のネットワークに供給されたパターンを前記第1のネットワークにより生成されたパターンと比較して前記第1の人工ニューラル・ネットワークに関連付けられた再構築誤差を生成すべく動作する比較部とを含み、
前記再構築誤差が、前記グループまたはジャンルに属するパターンの認識尺度を表わす装置。
【請求項54】
人工ニューラル・ネットワーク型ナビゲーション領域生成システムであって、
第1の人工ニューラル・ネットワークと、
前記第1の人工ニューラル・ネットワークへの環境センサ入力を提供する手段とを含み、
前記第1のネットワークが、前記環境内の座標において領域値を含むナビゲーション領域を生成すべく動作するシステム。
【請求項1】
自己学習人工ニューラル・ネットワーク型発見装置であって、
摂動された際にパターンを生成することが可能な第1の自己学習人工ニューラル・ネットワークと、
前記第1の自己学習人工ニューラル・ネットワークにさまざまな摂動度を与える手段と、
前記生成されたパターンを前記第1の自己学習人工ニューラル・ネットワークから受信すべく前記第1の自己学習人工ニューラル・ネットワークに関連付けられた第2の自己学習人工ニューラル・ネットワークと、
前記第1の自己学習人工ニューラル・ネットワークの前記生成されたパターンを概念として実装する手段と、
前記概念の効果を評価する手段と、
前記生成されたパターンのいずれかが肯定的な効果を示す場合、前記第1の自己訓練人工ニューラル・ネットワーク内で強化学習を起動する手段と、
前記第1の自己学習人工ニューラル・ネットワークの前記生成されたパターンの少なくとも1つと、前記生成されたパターンの前記効果との関係を前記第2ネットワーク内に組み込むように前記第2の自己学習人工ニューラル・ネットワーク内で強化学習を起動する手段とを含む装置。
【請求項2】
前記第2の人工ニューラル・ネットワークからの出力パターンに基づいて前記第1の人工ニューラル・ネットワーク内で摂動を制御する手段を更に含む、請求項1に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項3】
前記概念の効果を評価する前記手段が否定的な効果を示す場合、前記第1および第2の自己学習人工ニューラル・ネットワークのうち少なくとも1つの訓練を中止する手段を更に含む、請求項1に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項4】
自己学習人工ニューラル・ネットワーク型発見装置であって、
パターンを生成することが可能な第1の人工ニューラル・ネットワーク部と、
前記第1の人工ニューラル・ネットワークにさまざまな摂動度を与える手段と、
前記第1の自己学習人工ニューラル・ネットワークの前記生成されたパターンを概念として実装する手段と、
前記概念の効果を評価する手段と、
前記第1の自己訓練人工ニューラル・ネットワーク内で肯定的な効果を示す前記生成されたパターンの1つの強化学習を起動する手段とを含む装置。
【請求項5】
前記概念の効果を評価する前記手段が否定的な効果を示す場合、前記第1の自己学習人工ニューラル・ネットワークの訓練を中止する手段を更に含む、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項6】
前記概念を評価する前記手段が、前記第1の人工ニューラル・ネットワークの前記生成されたパターンの人間による評価を含む、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項7】
前記概念を評価する前記手段が少なくとも1つのセンサを含む、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項8】
前記センサがソナー装置である、請求項7に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項9】
前記センサがカメラである、請求項7に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項10】
前記概念の前記効果を評価する前記手段が、少なくとも部分的にはランダムなプロセスに支配される、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項11】
前記概念の前記効果を評価する前記手段が、規則に基づくアルゴリズムおよびモデルに基づくアルゴリズムからなる群の1つに支配される、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項12】
前記第1のネットワークから生成されたパターンを受信すべく前記第1の人工ニューラル・ネットワークに関連付けられた、少なくとも第2の自己学習人工ニューラル・ネットワークと、
前記第1の自己学習人工ニューラル・ネットワークの前記生成されたパターンと前記生成されたパターンの前記効果との間の関係を前記第2のネットワーク内に組み込むべく、前記第2の自己学習人工ニューラル・ネットワークにおいて強化学習を起動する手段とを更に含む、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項13】
自己学習人工ニューラル・ネットワーク型発見装置であって、
各々の人工ニューラル・ネットワークがそれに対するさまざまな摂動度に応答してパターンを生成することができる、自己学習人工ニューラル・ネットワークのアレイと、
前記自己学習人工ニューラル・ネットワークの少なくとも1つにさまざまな摂動度を与える手段であって、前記自己学習人工ニューラル・ネットワークの第2のものが第1の摂動された人工ニューラル・ネットワークから生成されたパターンを受信するように、少なくとも第1の摂動された自己学習人工ニューラル・ネットワークが、少なくとも第2の前記自己学習人工ニューラル・ネットワークに関連付けられる手段と、
少なくとも前記第1の摂動された自己訓練人工ニューラル・ネットワークの前記生成されたパターンを概念として実装する手段と、
前記概念の効果を評価する手段と、
前記生成されたパターンが肯定的な効果を示す場合、少なくとも前記第1の摂動された自己訓練人工ニューラル・ネットワーク内で強化学習を起動する手段と、
前記第1の摂動された自己学習人工ニューラル・ネットワークの前記生成されたパターンの少なくとも1つと前記生成されたパターンの前記効果との間の関係を前記第2のネットワーク内に組み込むべく、前記第2の自己学習人工ニューラル・ネットワークにおいて強化学習を起動する手段とを含む装置。
【請求項14】
前記生成されたパターンが、前記第1の摂動された人工ネットワークおよび少なくとも第2の摂動された自己学習人工ニューラル・ネットワークにより生成されたパターンの組合せである、請求項13に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項15】
前記第1の人工ニューラル・ネットワークから前記生成されたパターンを受信するように前記第1の人工ニューラル・ネットワークに関連付けられた少なくとも1つの規則ベースのアルゴリズムかを更に含む、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項16】
前記第2の人工ニューラル・ネットワークが、前記入力パターンと前記第1の自己学習人工ニューラル・ネットワークの前記生成されたパターンとを比較すべく動作可能である、請求項1に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項17】
前記アルゴリズムが、前記入力パターンと前記第1の人工ニューラル・ネットワークの前記生成されたパターンとを比較すべく動作可能である、請求項11に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項18】
前記概念の前記効果を評価する前記手段が、少なくとも1つの客観的な基準の関数である、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項19】
前記概念の前記効果を評価する前記手段が、少なくとも1つの主観的な基準の関数である、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項20】
前記装置がロボット機構に組み込まれる、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項21】
前記装置が仮想的なロボット・システムに組み込まれる、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項22】
前記装置がシミュレーションされたロボット・システムに組み込まれる、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項23】
前記装置が機械視覚システムに組み込まれる、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項24】
前記第1の人工ニューラル・ネットワークが自己連想人工ニューラル・ネットワークである、請求項4に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項25】
前記第1の人工ニューラル・ネットワークがグループ・メンバシップ・フィルタとして動作可能である、請求項24に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項26】
前記第2の人工ニューラル・ネットワークがヘテロ連想人工ニューラル・ネットワークである、請求項1に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項27】
経路計画に特化した自己学習人工ニューラル・ネットワーク型発見装置であって、
前記第1のネットワークに与えられた摂動に応答して生成されるパターンを生成でき、前記生成されたパターンが環境を通る潜在的な経路を表わす、第1の自己学習人工ニューラル・ネットワークと、
前記第1の自己学習人工ニューラル・ネットワークにさまざまな摂動度を与える手段と、
前記潜在的経路に関連付けられたコストを計算する手段と、
前記コストを計算する手段に環境入力を提供する手段であって、前記計算手段が前記環境入力を用いて前記コストを生成する手段と、を含み、
前記コストを計算する手段が、前記摂動された第1のニューラル・ネットワークにより生成された前記潜在的経路から前記環境を通る最小コスト経路を決定する装置。
【請求項28】
前記計算手段が第2の人工ニューラル・ネットワークを含む、請求項27に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項29】
前記計算手段が規則ベースのアルゴリズムを含む、請求項27に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項30】
低コストである前記経路が、連続した訓練により前記第1の自己訓練人工ニューラル・ネットワーク内で再吸収される、請求項27に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項31】
前記潜在的経路の前記コストに基づいて、前記潜在的経路のうち1つの前記第1の自己訓練人工ニューラル・ネットワーク内で強化学習を起動する手段を更に含む、請求項27に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項32】
前記摂動の大きさが前記コストに基づいている、請求項27に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項33】
前記環境入力が、動作インピーダンスが低いおよび高い領域の識別を含み、前記計算手段が更に前記低いおよび高い動作インピーダンス領域のマップを含むナビゲーション領域を計算すべく動作可能である、請求項27に記載の自己学習人工ニューラル・ネットワーク型装置。
【請求項34】
前記第1の自己学習人工ニューラル・ネットワークが、環境を通る最小コスト経路を表わす自身の支配的記憶を生成すべくさまざまな摂動度を介して呼び掛けられる、請求項27に記載の自己学習人工ニューラル・ネットワーク型装置。
【請求項35】
前記第1の自己学習人工ニューラル・ネットワークが、グループ・メンバシップ・フィルタを含む、請求項27に記載の自己学習人工ニューラル・ネットワーク型装置。
【請求項36】
人工ニューラル・ネットワーク型発見装置であって、
自身に与えられた摂動に応答してパターンを生成可能な第1の人工ニューラル・ネットワークであって、前記生成されたパターンが潜在的な行動計画を表わす、第1の人工ニューラル・ネットワークと、
前記第1の人工ニューラル・ネットワークにさまざまな摂動度を与える手段と、
前記潜在的な行動計画に関連付けられたコストを計算する手段と、
前記コスト計算手段へ環境入力を提供する手段であって、前記計算手段が前記環境入力を用いて前記コストを生成する手段と、を含み、
前記コストを計算する手段が、前記摂動された第1のニューラル・ネットワークにより生成された動作の前記潜在的計画から、最小コストの行動計画を決定する装置。
【請求項37】
前記計算手段が更に、前記潜在的な行動計画の前記コストに基づいてナビゲーション領域を計算すべく動作可能である、請求項36に記載の人工ニューラル・ネットワーク型装置。
【請求項38】
前記第1の人工ニューラル・ネットワークが自己学習人工ニューラル・ネットワークである、請求項36に記載の人工ニューラル・ネットワーク型装置。
【請求項39】
自己学習人工ニューラル・ネットワーク型発見装置であって、
自身に与えられた摂動に応答してパターンを生成することが可能な第1の自己学習人工ニューラル・ネットワークと、
前記第1の自己学習人工ニューラル・ネットワークをさまざまな摂動度を与える手段と、
前記生成されたパターンの値を決定する手段と、
前記第1の自己学習人工ニューラル・ネットワーク内で目標値を有する前記生成されたパターンの少なくとも1つの強化学習を起動する手段とを含む装置。
【請求項40】
前記第1の人工ニューラル・ネットワーク内における強化学習の少なくとも1つのサイクルの後で、前記生成されたパターンの記憶を再構築すべく摂動の適用を通じて前記第1の人工ニューラル・ネットワークに呼び掛ける手段を更に含む、請求項39に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項41】
前記第1の人工ニューラル・ネットワーク内における強化学習の少なくとも1つのサイクルの後で、前記生成されたパターンの劣化した記憶を生成すべく前記第1の自己学習人工ニューラル・ネットワークにさまざまな摂動度を与える手段を更に含む、請求項39に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項42】
前記劣化した記憶が、強化学習の少なくとも1つのサイクルを通じて以前に吸収された概念から派生した概念を表わす、請求項41に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項43】
前記評価手段が、前記第1の人工ニューラル・ネットワークから前記生成されたパターンを受信すべく第2の人工ニューラル・ネットワークを含む、請求項39に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項44】
前記評価手段が規則ベースのアルゴリズムを含む、請求項39に記載の自己学習人工ニューラル・ネットワーク型発見装置。
【請求項45】
物体検出用の自己学習人工ニューラル・ネットワーク型装置であって、
環境のセンサ視野を提供する手段と、
注視ウインドウの各々の位置が前記環境の前記センサ視野の少なくとも1つを表わす注視ウインドウを移動する手段と、
自身への入力パターンが前記センサ視野の内容からなり、且つ前記センサ視野の前記内容の認識を示す認識尺度を生成すべく動作する第1の自己学習人工ニューラル・ネットワークとを含む装置。
【請求項46】
前記第1の自己学習人工ニューラル・ネットワークが、前記注視ウインドウが探索対象物体の一部に遭遇した場合のみ前記注視ウインドウの内容を学習する、請求項45に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項47】
前記物体が、周囲環境を意図的に中性化することにより、前記周囲環境から区別される、請求項46に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項48】
前記物体が、前記物体を周囲環境からマスキングすることにより、前記周囲環境から区別される、請求項46に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項49】
注視ウインドウを移動させる前記手段が、さまざまな摂動度と共に反復的に実行すべく動作する第2の自己学習自己連想人工ニューラル・ネットワークを含み、
前記第1の人工ニューラル・ネットワークにより生成された前記認識尺度に基づいて、前記第2の人工ニューラル・ネットワークへの摂動を調整する手段を更に含む、請求項45に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項50】
前記第1のネットワークが前記センサ視野の前記内容の少なくとも一部を識別した場合に前記第2の人工ニューラル・ネットワークにおいて強化学習が生じ、前記強化学習が前記内容の前記識別された部分に関連付けられた前記センサ視野の位置に関係している、請求項49に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項51】
前記強化学習が生じた後で、摂動を用いて前記第2のネットワークの支配的記憶について前記第2のネットワークに呼び掛ける、請求項50に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項52】
前記注視ウインドウを動かす前記手段が、ラスタ・アルゴリズムおよび線形スキャン・アルゴリズムからなる群のうちの1つを含む、請求項45に記載の自己学習人工ニューラル・ネットワーク装置。
【請求項53】
人工ニューラル・ネットワーク型装置であって、
特定のグループまたはジャンルに属する共通性を有するパターンについて訓練された第1の自己連想人工ニューラル・ネットワークと、
前記第1のネットワークに供給されたパターンを前記第1のネットワークにより生成されたパターンと比較して前記第1の人工ニューラル・ネットワークに関連付けられた再構築誤差を生成すべく動作する比較部とを含み、
前記再構築誤差が、前記グループまたはジャンルに属するパターンの認識尺度を表わす装置。
【請求項54】
人工ニューラル・ネットワーク型ナビゲーション領域生成システムであって、
第1の人工ニューラル・ネットワークと、
前記第1の人工ニューラル・ネットワークへの環境センサ入力を提供する手段とを含み、
前記第1のネットワークが、前記環境内の座標において領域値を含むナビゲーション領域を生成すべく動作するシステム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17A】
【図17B】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17A】
【図17B】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【公開番号】特開2012−3782(P2012−3782A)
【公開日】平成24年1月5日(2012.1.5)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−201753(P2011−201753)
【出願日】平成23年9月15日(2011.9.15)
【分割の表示】特願2008−511241(P2008−511241)の分割
【原出願日】平成18年5月8日(2006.5.8)
【出願人】(507368353)
【Fターム(参考)】
【公開日】平成24年1月5日(2012.1.5)
【国際特許分類】
【出願番号】特願2011−201753(P2011−201753)
【出願日】平成23年9月15日(2011.9.15)
【分割の表示】特願2008−511241(P2008−511241)の分割
【原出願日】平成18年5月8日(2006.5.8)
【出願人】(507368353)
【Fターム(参考)】
[ Back to top ]