説明

環境に対して自律的に適応する自律適応型システム

【課題】シンプルなニューラルネットワークを用いて実現が可能な、複雑な環境に自律的に適応する自律適応型システムを提供する。
【解決手段】実環境から得られた多数の微細特徴信号を複数の概念形成モジュールに入力すると共に、複数の概念形成モジュールがそれぞれ逆方向処理して形成した多数の微細特徴信号を一時的に記憶し複数の概念形成モジュールに再度入力する基本制御モジュールと、複数の概念形成モジュールの出力から相互投票によって概念又はイメージ信号の少なくとも1つを選択する統合モジュールと、基本制御モジュール及び統合モジュールの出力から行動を決定する行動モジュールとを備えており、統合モジュールによって選択された少なくとも1つの概念又はイメージ信号が該当する概念形成モジュールに入力されて逆方向処理が行われるように構成されている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラルネットワークを利用して構成可能であり、概念形成機能を有する、環境に対して自律的に適応する自律適応型システムに関する。
【背景技術】
【0002】
初歩的な形式で「考えている」ように振舞う情報処理システムを開発するために、概念形成を用いて複雑な環境に適応するニューラルネットワークで構成されたアーキテクチャを設計する必要がある。
【0003】
このような機能の典型的なものとして、我々自身の脳の機能、特に意識を中心とする機能があり、意識に類似する機能を工学的に実現する方法が様々に試みられている。しかし、意識を工学的に実現するためには多くの障壁を乗り越えなくてはならない。Haikonenは内語(内的な発話)の重要性を強調し、ニューラルネットワークに基づく実現方法を開発したが、この方法は主たる連想ユニットが明確にされていないので、必ずしも明解なものではない(非特許文献1)。Taylor、 Crick、 Koch、 Edelmanは脳の働きの詳細な研究の上に立って脳内の意識を説明している(非特許文献2、非特許文献3、非特許文献4、非特許文献5)。
【0004】
また、Baarsは、複数の専用処理系が特定の脳内のエリアを競合的に取り合い、その結果、エリアの獲得に成功した内容が意識として感じられるという、グローバルワークスペース理論を唱えている(非特許文献6)。この理論そのものは、脳科学に沿って概念的な考えを示したものであるが、Franklin、 Shanahan等が引き続きその理論の具体化を図っている。Franklinは、電子メールを入力として、ソフトウェアエージェントを構成要素とするシステムを提案しているが、環境への適応のためには、人間がシステムに対して指示する、又はプログラムを書き出す必要があり、自律適応機能は持たない(非特許文献7)。Shanahanは、専用処理系を単位とした選択にグローバルワークスペース理論を用いており、概念形成機能を持たず自律適応機能が限られている(非特許文献8)。
【0005】
【非特許文献1】P. Haikonen著、「The cognitive approach to conscious machines」 Imprint Academic 出版、2003年発行
【非特許文献2】J.G. Taylor、 N.R. Taylor、 R. Bapi、 G. Bugmann、 and D. Levine著「The frontal lobes and executive function、” Proc. IEEE-INNS-ENNS International Joint Conference on Neural Networks (IJCNN'00)-Volume 1」、2000年発行
【非特許文献3】C. Koch著「The Quest for Consciousness」 、Roberts & Company Publishers 出版、2004年発行
【非特許文献4】F. C. Crick and C. Koch著「A framework for consciousness、” in The cognitive neurosciences - Third edition」、MIT press出版、2004年発行、pp.1133-1143.
【非特許文献5】G. M. Edelman著「Wider than the sky - the phenomenal gift of consciousness」、Yale University Press出版、2004年発行
【非特許文献6】B. Baars著「A cognitive theory of consciousness」 、 Cambridge University Press、1988年発行
【非特許文献7】S.Franklin著「 Perceptual and Learning: Recognizing、 Categorizing、 and Relating」 、 Symposium on developmental robotics (pp. 1-46)、 American Association for Artifical Intelligence (AAAI). 2005年発行
【非特許文献8】M. Shanahan著「A cognitive architecture that combines internal simulation with a global workspace」 、Consciousness and Cognition Vol. 15 、2006年発行 pp.433-449
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、複雑な環境に自律的に適応するシステムでは概念又はイメージという形式で入力情報を束ねる概念の形成、概念の想起、これら概念の詳細な制御能力を持つべきであると考えられるが、上述した従来例においては、何れもそのような制御能力を考慮していなかった。そして、制御能力の機能を誤差逆伝播のような現在広く用いられているタイプのニューラルネットワークで実現することは困難であった。
【0007】
本発明の目的は、シンプルなニューラルネットワークを用いて実現が可能な、複雑な環境に自律的に適応する自律適応型システムを提供することにある。
【課題を解決するための手段】
【0008】
本発明によれば、入力された多数の微細特徴信号を束ねて相当する概念又はイメージ信号をそれぞれ形成する順方向処理を行うと共に、概念又はイメージ信号から相当する多数の微細特徴信号をそれぞれ形成する逆方向処理を行う複数の概念形成モジュールと、実環境から得られた多数の微細特徴信号を複数の概念形成モジュールに入力すると共に、複数の概念形成モジュールがそれぞれ逆方向処理して形成した多数の微細特徴信号を一時的に記憶し複数の概念形成モジュールに再度入力する基本制御モジュールと、複数の概念形成モジュールの出力から相互投票によって概念又はイメージ信号の少なくとも1つを選択する統合モジュールと、基本制御モジュール及び統合モジュールの出力から行動を決定する行動モジュールとを備えており、統合モジュールによって選択された少なくとも1つの概念又はイメージ信号が該当する概念形成モジュールに入力されて逆方向処理が行われるように構成されている環境に対する自律適応型システムが提供される。
【0009】
複数の感覚系からの情報とその状況に関係する過去の経験の想起に基づいて、その時点で適切な概念の組合せを相互に投票する方法で選択可能としている。また、選択された結果を概念形成モジュールに逆方向に入力する逆方向処理を、順方向処理と併せて行うことにより、適切に抽象化された概念の形成を、システムの外部から指示することなく必要な概念を自律的に形成することが可能となる。また、選択された結果を概念形成モジュールに逆方向に入力し、概念レベルから微細特徴レベルへの逆変換を行うことにより、選択結果を感覚系入力と同レベルの微細特徴群の入力として基本制御モジュール内の一時記憶に想起内容として表現しているので、基本制御モジュールは、選択された結果を実環境からの入力と同じレベルで知ることが出来る(微細特徴群の入力として入力バッファに想起内容として表現されないと、基本制御モジュールは自律適応するために選択された結果の意味を知ることが出来ない)。また、基本制御モジュールは、その時点で実際に生起している事象(実事象)に基づく微細特徴群と想起内容に基づく微細特徴とをまとめて1つの状況(現実)として認め、対応、処理することが可能となる。
【0010】
なお、基本制御モジュール内の一時記憶、概念形成モジュール及び統合モジュールにまたがるサイクリックな処理を行うことで、より広い範囲の連想、より適切な解の探索等が可能になる。
【0011】
統合モジュールにおいて選択された内容を逐次的に記憶して時系列記憶を作成すると共に、選択された内容に類似の継続する内容を該時系列記憶から読出して統合モジュールに出力するログモジュールをさらに備えていることが好ましい。選択結果(概念の組合せ)を時系列で記憶したり、選択結果に関連する内容を想起したりすることができるため、各時点の概念の組合せを記憶すると共に選択された内容に関連して次に生じた内容を想起して投票による選択に使用することが可能となる。
【0012】
ログモジュールが、フィードバック付のニューラルネットワークで構成されていることがより好ましい。
【0013】
複数の概念形成モジュールの各々が基本制御モジュール側の第1の層と統合モジュール側の第2の層とを備えており、第1の層のノードが第2の層の各ノードと結合するように構成されており、第1の層のノードと第2の層のノードとのリンク上の重みの関数として出力を決定するように構成されていることも好ましい。
【0014】
リンク上の重みが、そのノードの概念又はイメージに含まれるべき微細特徴のリンクでは1、含まれてはいけない微細特徴のリンクでは0、関係しない微細特徴のリンクでは1と0との間の値#であることが好ましい。
【0015】
第1の層及び第2の層が、ニューラルネットワークで構成されていることも好ましい。
【0016】
統合モジュールが、複数の概念形成モジュールの第2の層の各ノードを双方向に接続して構成されていることも好ましい。
【0017】
統合モジュールが、複数の概念形成モジュールの第2の層の各ノードからの出力を入力し、出力を第2の層の各ノードに入力するノードを有する層を備えていることも好ましい。
【0018】
統合モジュールが、複数の概念形成モジュールの第2の層の各ノードにそれぞれ接続されたノードを有しており、統合モジュールにおいて選択された内容を逐次的に記憶して時系列記憶を作成すると共に、選択された内容に類似の継続する内容を時系列記憶から読出して統合モジュールに出力するサブモジュールを備えていることも好ましい。
【0019】
統合モジュールの上述の層又はサブモジュールが、ニューラルネットワークで構成されていることがより好ましい。
【発明の効果】
【0020】
本発明によれば、ノード間のリンク並びにノードの必要性に注目し、シンプルなニューラルネットワークで複雑な環境に自律的に適応するシステムを実現することが可能である。
【発明を実施するための最良の形態】
【0021】
本発明は、イメージ駆動型アーキテクチャと呼ばれる一つのアーキテクチャを提供するものである。このアーキテクチャは、ニューラルネットワークによる原始的な概念形成を用いて環境に適応する。本発明の一実施形態においては、3レベルの構成要素を持った複合的な多数のモジュールからなる自律適応型システムが構成される。ここで、3レベルは、微細特徴群、イメージ群と概念群、概念の組合せ又はシーンから構成される。自律的な適応を行うために中心となる、選択と統合のためのモジュールは、相互投票方法(互選)によってシステムにとって効率的かつ有用な概念を選び出す。イメージ駆動型アーキテクチャに基づいて、効率的な概念又はイメージの選択、連想、ぼんやりしたイメージの表示、システムの学習制御といった機能を有している。
【0022】
図1は本発明の一実施形態における自律適応型システムを含む全体構成の一例を示すブロック図、図2は主要な要素の階層構成の一例を示す図、図3は自律的な適応を行うための内部状態制御の一例を示す図である。
【0023】
図1において、1は実環境からの刺激を入力するセンサと前処理モジュールを示しており、2はセンサと前処理モジュール1から出力される微細特徴信号群、3はこれら微細特徴信号群2に基づいて行動を起こす自律適応型システムをそれぞれ示している。
【0024】
本実施形態では、この自律適応型システム3は主にニューラルネットワークで構成されるが、ニューラルネットワーク内では、ノード間の重みがヘッブ則に類似の方法で変化される。学習後に、あるノード間のリンクが必要な場合、そのリンクの重みは微細特徴が必要か、又はあってはいけないかによって1又は0が与えられる。リンクが不必要な場合、重みは#とされ、不必要なノードはゆっくりと消えるように構成されている。
【0025】
自律適応型システム3への入力信号が、微細特徴信号群2の存在に応じて1又は0で表されると仮定すれば、重みの値の集合は、概念又はイメージを表す。重みの値を出力することで概念やイメージは微細特徴信号群2の組として想起できる。ニューラルネットワークの概念形成と想起機能を組み合わせることによって、詳細な制御の可能な連想記憶システムをつくることが可能になる。
【0026】
このニューラルネットワークは、イメージ駆動型アーキテクチャと呼ぶ「微細特徴群」と「イメージ群と概念群」、「概念群の組合せ又はシーン」からなる3層構造の構成要素で構成された構造を有する。この構造には、概念形成や想起のモジュール、エピソード記憶モジュール、概念統合のモジュールといったような幾つかの機能モジュールがある。統合のためのモジュールは自律適応装置3の中で中心的な役割を果たし、相互投票(互選)の方法を用いて効率的でシステムにとって有用な概念を選び出す。このモジュールで選択された概念は概念を認識したモジュールに戻され、想起機能によってイメージを想起内容一時記憶に出力する。さらに、この間に複雑なシステムとして、環境に効率的かつ有益に適応するために、選ばれたモジュールのみが重みの修正を行なう、つまり、システムのどの部分が学習すべきかは選択された概念によって制御されるように構成されている。
【0027】
以下の説明では、イメージ駆動型アーキテクチャに関連して、効率的な概念又はイメージの選択、連想、想起した情報の表示、システムの学習制御といった主要な機能が明らかにされる。
【0028】
まず、設計思想とシステム設計のための仮定について説明する。微細特徴信号群2が入力されその行動が環境に対して出力される自律適応型システム3(図1)について検討する。なお、この自律適応型システム3に入力を供給するセンサと前処理モジュール1の機能については各種の実現手法があることから、ここでは説明を省略する。
【0029】
自律適応型システム3は、一般的に用いられる誤差逆伝播法のニューラルネットワークと同様の構成を有するニューラルネットワークで基本的に構成される。即ち、このニューラルネットワークは修正されたHebb則に基づく学習方法を適用し、ノード間のコネクション又はノード自身が必要か不必要かを主に学習するように構成されている。各ニューラルネットワークは、素子レベルでアナログ値を処理する回路として構成することも可能であるが、ディジタル素子を用いて論理的に構成することや、ディジタルコンピュータ上でソフトウェアにより構成することも可能である。これらのニューラルネットワークによって前述したモジュールを構築して複合的な自律適応型システム3が構成される。このシステムの適応は主にニューラルネットワークレベルの学習として行われ、その状態はノード間の重みの値として維持又は記憶される。
【0030】
自律適応型システム3は、図2に示すように、階層的な構成要素を持った処理系として表現される。構成要素は3つの階層に分類され、第1層に微細特徴群、第2層にイメージ群や概念群、概念又はイメージの組合せが第3層に属している。1つのイメージは微細特徴群の集合で定義され、概念は安定的で、広く用いられるイメージとして、イメージの部分集合として定義される。シーンはイメージと概念の組合せの部分集合であり、同時に生起すること等で特徴付けられたイメージ群や概念群で構成される。
【0031】
この自律適応型システム3は、下位の階層にある沢山の構成要素を上位階層の少数の構成要素に変換する機能を持つ。この機能は認識と選択である。自律適応型システム3は、また、下位の階層の多数の構成要素を上位層の少数構成要素から再現する機能も持つ。この機能が「想起」にあたる。認識と想起 がこのように可逆的に関係している。
【0032】
自律適応型システム3全体の制御のための情報の流れは、ある種の順序論理回路に類似のものとしてモデル化される。論理回路は一般に内部状態を持たない組合せ論理回路か、内部状態(メモリ)をもつ順序論理回路のどちらかに分類される。順序論理回路の出力は、入力と内部状態の両方で決定される。本実施形態で述べている自律適応型システム3は明らかにこの観点でいう順序論理回路に類似のものである。
【0033】
図3に示すように、自律適応型システム3を順序論理回路としてモデル化するときには内部状態は2つの状態A及びBに分類される。内部状態A4の値は、一般的な内部状態であるが、その一部分である内部状態B5の値だけが戻されて、環境から取り入れられる微細特徴信号群2の値と並行して入力される。このことは実環境の情報が現実を表現するだけでなく、想起された情報も二次的な現実として、その時点で自律適応型システム3の制御に影響することを意味している。
【0034】
内部状態Bを実環境からの情報と同様に制御に影響することができるようにすることはこのシステムにとって以下に述べる利点がある。
a. 情報が、1)実環境の現実(環境の状態、システム自身の状態を含む)と、2)その時点で有用な2次的現実との照合が容易な形式で示されているため、システム内部で選択された情報の意味を実環境の現実に対応付けて知ることができる。
【0035】
ここで、一般に分散システム、並列システムが内部で決定したことの意味は、システム全体として知ることはない。しかし自律的に環境に適応するシステムにおいては、新しい認識や行動を試みたときに、その試みが実世界の現実の対応する形で把握できると、認識や行動の実世界やシステム自身との関連付け(意味付け)が容易になる。
【0036】
また、システムにとって、目の前の現実をより深く理解するための、過去の状況や現実からの予測内容も、まず、2次的現実として表示されるため、多くの場合、行動の決定に当たっては、改めて過去の記憶を参照することや予測をしないでも、適切な行動決定ができる。
【0037】
ここで、後に示すように、内部状態B5には、その時点でのシステムにとって重要な情報(過去の経験(からの連想)、予測等)が示される。これは、例えて言えば、その時点その時点での行動決定において、有能な秘書が経営判断等に関連する情報を社長に提示することに相当している。
【0038】
b.内部状態Bがシステムに再度入力されることは情報が何度も繰り返し処理されることを可能にする。ディジタルコンピュータは大変複雑な課題を処理するが、コンピュータの主な演算部分は基本的にシンプルなものである。複雑な課題は繰り返し処理によって実行される。同じように、内部状態Bを持ったシステムは複雑な課題を処理することができる。
【0039】
ここで、有用な2次的現実を、システムのメインの処理系で高いレベルで処理可能とするだけでなく、繰り返しを可能とすることで、ディジタルコンピュータと同様の複雑な課題の処理を可能にしている。
【0040】
図4は図1に示す自律適応型システムを含む全体構成の具体例を示す図である。
【0041】
同図に示すように、自律適応型システム3は、複数のセンサと前処理モジュール1に接続された基本制御モジュール14、複数の概念形成モジュール10、統合モジュール12、ログモジュール11、行動モジュール13、及び情動サブシステム15から主として構成されている。
【0042】
同図から分かるように、概念形成モジュール10で想起された内容が基本制御モジュール14に一時的に記憶され、外部からの入力と共に、再び概念形成モジュール10へ入力されるように構成されている。このことは、本自律適応型システムが、想起された内容を外部環境からの情報と同様にみなしていることを意味している。このプロセスを繰り返すことによってシステムは自律的に環境に適応することができるのである。
【0043】
概念形成モジュール10は、視覚サブモジュールAと、聴覚サブモジュールBと、体感覚サブモジュールCとで構成されている。これらサブモジュール群は微細特徴信号群2からイメージ群や概念群を認識するための機能をゆっくりと生成する。これらの機能は多数の微細特徴信号群2を各々の概念又はイメージに相当する少数の信号に変換する(順方向処理)。概念又はイメージの想起は、ある種の認識機能の逆方向の機能としてとして反対方向に行われる。この逆方向機能は各々の概念又はイメージに対応した少数の信号を、多数の微細特徴信号群2に変換する(逆方向処理)。これらの想起信号が再び概念形成モジュール10に入力される。
【0044】
順方向処理として、多数の微細特徴信号群の入力を束ね概念又はイメージ信号を形成する。この概念又はイメージ信号はその概念又はイメージに含まれるべき微細特徴、含まれてはいけない微細特徴、その概念に関係しない微細特徴の集まりとして表現される。
【0045】
具体的には、この概念形成モジュール10は、順方向処理手段として、微細特徴信号群2を入力とし、入力と重みの関数として出力を決定するニューラルネットワークで構成する。このニューラルネットワークは、システムとしての“学習を通じて”入力リンク状の重みの値として、微細特徴に含まれるべきリンク上の重みは1に近く、微細特徴に含まれてはいけないリンク上の重みは0に近く、関係しない微細特徴のリンク上の重みは1と0との間の値をとるように構成する。その概念としての条件にマッチした微細特徴信号群が入力されると、その概念に対応したノードが興奮する。
【0046】
また、逆方向処理手段として、概念又はイメージ信号を入力として、リンク上の重みの値を1、0、これらの間の値#で出力する機能を有する。実現方法としては、順方向処理手段及び逆方向処理手段が、それぞれに専用のニューラルネットワークを用意している。逆方向処理手段からの出力信号は、基本制御モジュール内の一時記憶バッファに書き込まれる。
【0047】
一般に対象とするシステムは多数の入力を想定しているが、この概念形成モジュール10での順方向処理により概念化することで、後に続く統合モジュール12及びログモジュール11等の処理において、以下のメリットが得られる。a.概念化を通じて一種の一般化された形での微細特徴群が明らかになっており、さらにその組合せとして表現されるため、過去の経験・状況との照合、選択において、システムとしてある種の“汎化”が可能になる。微細特徴レベルで比較すると過去の経験と一致することは期待できないし、そのような全くの一致では意味がない。
【0048】
b.情報が大幅に圧縮され、処理量の削減、記憶容量の効率的使用が可能になる。投票を行うためには、投票に参加する信号群同士が完全群で接続されている必要がある。多数の微細特徴信号レベルでの完全群接続は物理的に困難である。また、投票の選択結果をログモジュールで逐次記憶する必要があり、記憶容量の圧縮が必須である。
【0049】
ただし、個々のシステムにおいて、自律適応のために教師なしでどのように適切な概念化を行うかがポイントになる。このため、概念形成のための学習方法として次の3つの方法を提案している。
1)順方向処理において、興奮時にリンク上の重みを変更する。このためには、自己組織化マップ(SOM)を修正して使用する。なお、従来より、概念の自律的な形成(教師なし学習による)方法として、SOMが知られているが、これをそのまま用いたのでは、形成される概念がマップの初期状態等で決定され、必ずしもシステムにとって有用な概念にならない。
2)逆方向処理においては、投票の結果として選択されたノードに関係する重みが再度変更される。
3)逆方向処理による結果は、基本制御モジュール14内の一時記憶バッファに書き込まれ、その後、再度概念形成モジュール10に入力される。この処理を通じて、システムにとって重要でかつ共通する微細特徴信号(含むべき微細特徴と含んではいけない微細特徴)を多く含むノードが残り、他のものは消えてゆく。
これらの方法により、システムにとって適切な概念化がシステム外部からの教師、又は教師信号なしに可能となる。
【0050】
統合モジュール12は、いくつかの効果的かつ有用なイメージ信号群や概念信号群を概念形成モジュール10やログモジュール11の出力から選び出し、選ばれた概念又はイメージ信号を概念形成モジュール10、ログモジュール11又は行動モジュール13へ送る。
【0051】
より具体的には、統合モジュール12は、各時点において、システムにとって重要でそれまでの経験との整合に取れた概念とその組合せを形成する。この組みを形成するために、複数の概念形成モジュール10の出力を完全群状に相互に接続し、投票する構成となっている。ただし、図8に示すように、相互投票の機能を向上させるため、統合モジュール12内にI層22を付加し、図9に示すように、過去の経験を査証するために順序記憶サブモジュール23を設けている。
【0052】
統合モジュール12の機能を簡略化して述べると、複数の概念形成モジュール10において出力が1となった信号から、統合モジュール12内の結合を通じて信号を送り、その結果、当該の概念形成モジュール10の支持だけでなく他のモジュールの支持を含めて総合的に支持の多い信号が選択される(勝ち残る)ように構成されている。その選択結果が、システムとしての過去の経験を踏まえたその時点での状況認識に相当する。
【0053】
多数のモジュールの支持を確認するため、信号伝達における遅延の大小が問題になる。これを避けるために、想定範囲で最も大きな遅延の値を踏まえた同期制御(サイクルタイムによる同期制御)を行っている。
【0054】
ログモジュール11は、統合モジュール12の中で新しいシーンとして選択されたイメージ信号群や概念信号群を、生起した順番に、逐次的に瞬時に記録して時系列記憶を形成する。これと並行して古いシーンとしてのイメージ信号群や概念信号群を入力すると、その次に生起したシーンや関連するいくつかの概念又はイメージを想起して対応する信号を出力する。即ち、選択された内容に応じてそれに類似の記憶に継続する内容(一種の連想)を読み出して統合モジュール12に出力する(経験した内容を記憶するエピソード記憶に相当する)。
【0055】
以上の機能を実現するため、ログモジュール11では、フィードバック付きのニューラルネットワークを使用している。フィードバックを利用して時間的な経過をトレース可能としているのである。ただし、逐次的に記録するため、瞬間的に記憶可能なこと、記憶容量が大きいことが必要とされる。ニューラルネットワークで瞬間的に記憶可能とするため、学習係数の大きな学習を行っている。容量については、小容量のバッファを想定し、容量がいっぱいになった場合は上書きすることで解決している。また、記憶と連想的な読み出しを同時に行う必要があるため、一実施形態として、複数のノードが同時にグループとして動作する機構を提案している。
【0056】
このように、ログモジュール11自身は一時的な記憶を構成されているが、多数回の書き込みを必要とする大容量記憶(順序記憶サブモジュール23)を統合モジュール12内に設けているので、基本的にはログモジュール11内で上書きされる以前に転写されている。また、この転写(夢見モード)同様に、I層22関連の学習も行われている。
【0057】
基本制御モジュール14は、実環境表示と想起内容表示の2つのサブモジュールで構成される。実環境表示は、実環境からの入力であるセンサと前処理グループ1からの微細特徴信号群2に基づいて、実際に起こっている環境やシステム内部の状態を実時間で一時記憶に出力する。想起内容表示は概念形成モジュール10から逆方向に出力され、選択された概念又はイメージに対応する微細特徴信号群2に基づいた内容を一時記憶に出力する。
【0058】
基本制御モジュール14に表示された内容は、想起された内容をも含め、概念形成モジュール10を通じて統合モジュール12に送られる。即ち、基本制御モジュール13内の一時記憶バッファと統合モジュール12との間で、概念形成モジュール10を経由したサイクリックな処理が実現されている。この処理により、システム自身がより最適な解を探索したり、あれこれ連想したりすることが出来るのである。
【0059】
基本制御モジュール14は、また、一次記憶されている表示内容に基づいて、システムの行動を制御する機能を有している(この表示内容は、人間に例えれば、意識として感じているものに相当する)。この感じた内容に従って、基本制御モジュール14は、一時的な行動決定を行い、行動モジュール13に出力する。行動モジュール13は、基本制御モジュール14の出力と統合モジュール12の出力とを併せて行動を決定する。この行動は動物で言えば本能的なものであり、簡単なニューラルネットワークで構成される。
【0060】
以上述べた、概念形成モジュール10、統合モジュール12、ログモジュール11及び基本制御モジュール14の動作により、自律適応型システムとしては概略以下のように作動する。
【0061】
多数の微細特徴信号群2が概念形成モジュール10へ入力され、概念又はイメージを表現する少数の信号群に変換される。これらの変換は認識に対応しており、システム全体の学習によりゆっくりと形成される。そして、変換機能の詳細は微細特徴信号群2の平均的出現頻度としての重みによって記憶される。ログモジュール11は1シーンとして同時に発生するイメージ群や概念群に対応する信号群をすばやく記憶する。
【0062】
統合モジュール12はシステム全体にとって効率的で有用な概念を選ぶ。選ばれた概念又はイメージはそれから概念形成モジュール10に送り返される。戻された概念又はイメージをもともと出力した概念形成モジュールはそれらを再度微細特徴信号群2に変換し、概念又はイメージの形状を表現する。これらの微細特徴信号群2は選択された概念又はイメージのぼんやりした形状を表示するが、実環境からの微細特徴信号群2と一緒に再び概念形成モジュール10の入力となる。
【0063】
以上に述べたように、この処理系は循環的な方法で外部環境からの入力と想起された概念又はイメージを処理する。このシステムの構造がイメージ駆動型アーキテクチャとなる。
【0064】
以下、各機能モジュールの構成と動作について詳細に説明する。全ての機能モジュールは、ディジタルコンピュータと同様にクロックで同期されている。このクロックは、相1から相4まで番号付けされた4相で構成される。このシステムでの時間は、クロック番号と相番号とのペアで表される。
【0065】
概念形成モジュール10
図5は概念形成モジュール10の一例を示す図であり、図6は概念形成モジュール10の機能例を示す図である。図5に示すように、微細特徴信号群2はこれらサブモジュールに入力される。これらサブモジュールは2層で構成される。AC層のノードは、BC層の全てのノードと結合するように構成されている。この概念形成モジュール10は2つの動作モードを有している。1つは概念形成モードであり、信号はAC層からBC層へ伝わる。もう1つの動作モードは想起モードであり、信号はBC層からAC層へ伝わる。重みは2つの層の間に適用される。これらの重みは動作の方向によらない、動作方向に係わらず、同一の値として機能する。
【0066】
a. 概念形成動作
時刻t、1においてセンサと前処理モジュール1から出力され、AC層に入力される微細特徴信号群2はX(t、1) = (x1、x2、...、xi、...、xm).で与えられる。ここで、xiは3つの状態1、0、# をもつ。i番目の特徴がイメージXに存在するとき、xiは1となる。i番目の特徴がイメージXに存在しないときxiは0となる。#はXがi番目の特徴に影響されないことを示す。
【0067】
基本的な動作モードにおいて、AC層は、R(t、1) = (r1、r2、...、ri、...、rm)、(これは入力と同じ R(t、1)= X(t、1)である)をBC層に出力する。AC層とBC層の間の重みは、
WCj(t、1) = (wC1j、wC2j、...、wCij、...、wCmj).
で与えられる。ここで、
【数1】


は、AC層のノードiとBC層のノードj 間のリンクの重みである。ノードjの興奮レベルは次の(1)式で与えられる。
【数2】


ここで、vjは活性化パラメータである。f(wCij)はアナログ値のwCijを、以下の式に従って離散値の1、 0、 and#に変換する階段関数である。
【数3】


上式中、操作を示す演算子部分は表1に従って2つの入力を比較することを示す。d#の値は通常小さい。
【0068】
【表1】

【0069】
最も高いECjの値をもったノードjのみが興奮し、yj(t、1)=1を出力する。そして、次の(2)、(3)式に従って、wCij vj を変更する。ここで定数kC1は小さな値をもつ学習係数であり、k、kは小さな値をもつ正の定数である。
wCij(t、2)= wCij(t、1) + kC1( xi(t、1) - wCij(t、1) ) (2)
vj(t、2)= vj(t、1) + k(1- vj(t、1)) (3)
他のノードはyj(t、1) = 0 を出力し、wCij は変更されない。しかしvjは、次の(4)式に基づいて少しずつ減少する。
vj(t、2)= vj(t、1) + k(- vj(t、1)) (4)
もし、vj < Thv、(ここでThvは正の閾値を示す。)となると、ノードjの全ての重みはランダム値によって初期化される。これは、有効でなかったり、有用でなかったりするノードはゆっくりと消滅し、新しいノードとして再生されることを意味している。
【0070】
このプロセスが繰り返されると、個々の重みwCijは、ノードjが興奮したという条件のもとで、xi = 1の生起する頻度の平均値にゆっくりと近づく。ノードjの f(wCij) が1のとき、微細特徴xiは、ノードjによって表される概念又はイメージに属す。ノードjの f(wCij) が0のときは、微細特徴xiは、ノードjによって表される概念又はイメージに属してはいけない。そして、f(wCij) が#のときは、微細特徴xiは、ノードjによって表される概念又はイメージに影響しない。さらに、あるノードが興奮するという条件の下で、入力信号のパターンの生起確率が、相対的に高い場合、そのノードのf(wCij)は、入力パターンそのものの値に近づいてゆく。例えば、もし、信号の同時生起の確率がx2=1、 x4=0、 x5=1とx7=1、 x8=0で相対的に高かった場合、f(wCij)の値が “#1#01###”のノードと“######10”のノードが次第に現れてくる。d#が小さいという条件の下で、“####1110”の重みを持つj1と“######10”の重みを持つj2があったとする。ノードj1はまれにしか勝者にならず、活性化パラメータはコンスタントに減少して、ノードは消える。一方、j2は頻繁に勝者になり、活性化パラメータはコンスタントに増加する。
【0071】
加えて、f(wCij)の値は、近似的に積で結合した論理関数を表現する。例えば、#1#01###”は、
【数4】


を意味する。“1”は、肯定の論理変数に、“0”は否定の論理変数に、“#” は表現の不要な論理変数に対応する。全体として、多数の微細特徴を概念又はイメージを表現する少数のノードに変換する機能が、一種の教師無し学習に基づいて形成される。
【0072】
b.概念想起動作
概念想起は相3で、統合モジュール12で選択されたBC層のノードを刺激することで始められる。図6に示すように、この動作は逆方向に行われる。刺激されたノードは重みを通して信号を伝達し、重みf(wCij)が生成される。この値は、基本制御モジュール14に渡される。また、次のクロックの相1では概念形成モジュール10に入力される。
【0073】
この想起のプロセスでは、想起された重みのみが、次の(5)式によって変更される。
wCij(t、4)= wCij(t、2) + kC2( xi(t、1) - wCij(t、2) ) (5)
BC層の刺激されたノードの活性化パラメータは増加し、刺激されなかったノードの活性化パラメータは減少する。
【0074】
統合モジュール12
統合モジュール12は次の3種類の構成を有する。図7は統合モジュールの第1構成例(構成A)を示す図、図8は統合モジュールの第2構成例(構成B)を示す図、図9は統合モジュールの第3構成例(構成C)を示す図である。
【0075】
構成A:図7に示すように、概念形成モジュール10のBC層上のノードを、双方向に全て接続する構成である。この構成Aは、概念形成モジュール10のBC層上のノードのみで構成される。概念形成モジュール10のBC層上のノードは全て相互に結合され、双方向にリンクを持つ。ここで、ノードの識別を容易にするため、全ての概念形成モジュール10のBC層上のノードについて、1からmの通し番号をつける。ノードiからノードjのリンクは重み
【数5】


を持ち、一般に
【数6】


である。ただし、ノードiがノードi自身への接続も持ち、その重みをwIaiiで表す(この場合、1クロックの時間遅延が挿入される)。
【0076】
構成B:図8に示すように、統合モジュール12内に独自のI層22を持つ。I層22のノードは、概念形成モジュール10のBC層上のノードの出力全てを入力とする。I層22のノードの出力は、概念形成モジュール10のBC層上のノードの全てに送出される。
【0077】
I層22のノードに1からmの通し番号を付ける。概念形成モジュール10のBC層上ノードiからI層22上のノードjIをリンクする重み
【数7】


と、I層22上のノードjIから、概念形成モジュール10のBC層上のノードjのリンクの重み
【数8】


をもつ。ここで、ノードの機能等の詳細はログモジュール11の説明の部分に示す。
【0078】
構成C:図9に示すように、概念形成モジュール10のBC層上のノードの全てが、ログモジュール11のAL層のノードに対して1対1で接続される。このリンクは、概念形成モジュール10からログモジュール11へのリンクとログモジュール11から概念形成モジュール10へのリンクが別々にある。それぞれm本のリンクをもつ。
【0079】
また、構成Cはログモジュール11と同様の構成をもつ順序記憶サブモジュール23を、統合モジュール12内部にもつ。概念形成モジュール10のBC層上のノードの全てと、順序記憶サブモジュール23のAIC層のノードの全ては、1対1に、ログモジュール11と同様に接続される。
【0080】
a.投票モード
(1)投票動作
クロックtの相1とそれ以前の以下の動作で投票の信号が形成される。
1)相1では、概念形成モジュール10のBC層上のノードiが、微細特徴信号の入力に基づいて信号yi(t、1)を出力し、統合モジュール12の構成Aは、この出力結果に基づいて、概念形成モジュール10のBC層上のノードの依存関係を相2で出力する。
2)相1では、概念形成モジュール10のBC層上のノードiが、微細特徴信号の入力に基づいて信号yi(t、1)を出力し、統合モジュール12の構成Bは、この出力結果に基づいて、概念形成モジュール10のBC層上のノードの支持度合いを相2で出力する。
3)時刻 t-1、2において、統合モジュール12で選択されたBC層上のノード(即ち、前のクロックで選択された結果)が、直接、時刻t、2の状態に、(相当程度に減衰するが)影響を与える。ここで、前のクロックで選択された結果は、逆変換されて概念形成モジュール10から再入力されるという形でも次のクロックの選択に影響するが、BC層上のノードの状態そのものも直接影響可能としている。
4)ログモジュール11及び統合モジュール12の構成Cは、それに先立つ時刻 t-1、2において、統合モジュール12 で選択されたBC層上のノード(即ち、前のクロックで選択された結果)に誘発された連想結果を、併せて出力する。
【0081】
(2)投票集計動作
クロックtの相2では、統合モジュール12内の個々のノードjのゲインが次の(6)式で計算される(投票集計動作)。
【数9】

【0082】
投票動作の1)に対応して:
EIaj(t、2) は、ノードjが他の個々の概念形成モジュール10上のノード(クロックtの相1で興奮)から、どの程度興奮することが期待されているかを示す。 wIaijは、過去の選択結果を反映している(報酬の結果を含む)。
【数10】

【0083】
投票動作の2)に対応して:
EIbj(t、2) は、概念形成モジュール10のノードjが、I層22上のノードから、どの程度興奮することが期待されているかを示す。I層22上の全ノード分加算となる。
EIbj(t、2)= Σ ( hjI ( Y(t、1))・wIb2ij) (jI=1、m2). (8)
ここで、hjI ( Y(t、1))は、概念形成モジュール10上のノード(クロックtの相1で興奮)の関数として、I層22上のjIノードが、概念形成モジュール10のノードjの興奮をどの程度支持しているかを示す。より詳細には、以下のような wIb1ijの関数となる。
hjI ( Y(t、1)) = Σ yj(t、1)・wIb1ij(j=1、m1)
ここで、Y(t、1) = y1(t、1)、 y(t、1)、 ...、 ym1(t、1)とする。
I層22上のjIノードについて、全ての概念形成モジュール10からの出力を重みを掛けて合計とする。
【0084】
投票動作の1)は、個々のBC層上のノードの支持の度合いが直接加算されるのに対して、投票動作の2)では、BC層上のノードのパターンに応じて支持の度合いをより一般的に変更できる。例えば、ノード1が相1で興奮しても、ノード2の相1での興奮状態に応じて、実際にノード3の興奮を支持するか否かが逆転する場合、投票動作1)だけでは、実現が困難であるが、投票動作の2)が加わることで容易になる。
【0085】
投票動作の3)に対応して:
【数11】


は、その前のクロック t-1 で選ばれたことによる影響を示す。 kIsは定数である。
【数12】

【0086】
投票動作の4)に対応して:
ELj(t、1) は、時刻 t-1、2で選ばれたシーン(即ち、前のクロックで選択された結果)から連想された出力である。
ELj(t、1) = zLj(t、1) +zIj(t、1)
zLj(t、1)はログモジュール11の出力を、zIj(t、1)は統合モジュール12の構成Cの出力を示す。それぞれ、ログモジュール11や構成Cで連想した結果、クロックtでのノードjの興奮をどの程度支持するかの度合いを示している。
【0087】
最後に、ECj(t、1) は、式(1)に示す概念形成モジュール10での得点である。これは、実際に入力した、概念形成モジュール10での集計結果であり、現実に刺激として感じている信号に応じたBC層上のノードの興奮の支持を示す。即ち、これは投票動作によるものではないが、当然、ゲインに加算されるべきものである。
【0088】
(3)投票結果について
結果として、大きなGIj(t、2)をもつ、幾つかのノードだけが、修正された“winner takes all” ルールに基づいて興奮でき、出力信号yj (t、2)が1になる。このyj(t、2) = 1を出力するノードが時刻tでの、システムがその時点で統合により得た結果を示す。この選択されたノードは、そのノードが属している概念形成モジュール10で認識されたか否かにかかわらず、同時に、興奮した他のモジュールのノードから支持されていることを示している。
【0089】
逆に、概念形成モジュール10では認識されていない、即ち、投票時には投票していないノードであっても、他の条件からの支持の度合いが強い場合、結果として興奮することがある。これは、簡単には、以前の経験や思いこみから、いわゆる勘違いするようなケースに対応している。
【0090】
なお、修正された“winner takes all”ルールにおいて、厳密な“winner takes all”ルールでは、勝者一人勝ちということで、勝者(即ち興奮を許されるノード)は一個のみである。しかし、ここでは、概念形成サブモジュールの数等を考慮して、上位の複数を選択することを想定している。この場合、より詳細には、単に上位のノードを選択するだけでなく、ある閾値を超えていることや、選択されるノードとの差、又は比が一定以上等の条件も加えられることがある。
【0091】
GIj(t、2) を求めることは一種の互選を行うことと考えられる。この投票方法を用いることによって、例え、多くの条件が同時に存在していたとしても、有用なノードが1クロックの動作でシーンとして選択できる。条件が増加した場合は、単に条件、又は条件を反映した投票者が投票に参加すればよい。
【0092】
ここで、本実施形態の主な特徴点として、選択等の判断を自律的に適応させてゆくことがある。式に示すように、その時点での外部環境やシステム内部からの刺激だけでなく、連想に伴う以前の状況、又は連想に伴う予測された状況を加えて判断できる。また、後に示すように、投票に用いる重みを適宜修正することで、判断内容を、経験を踏まえて改善可能になる。
【0093】
さらに、選択を有効にするために、いくつかのモジュールにわたって信号が転送される必要がある。このため、いろいろな時間的な遅延が存在するが、投票者のほとんどの投票を、ある範囲の時間内で集計できる必要がある。時間的な遅延の差による影響を避けるために、本実施形態では、クロックによる同期を取り入れている。信号転送にかかる様々な時間の差異が相2の時間内で全て収まれば、遅延時間の差異は、無視できるようにしている。
【0094】
ここで、コンピュータにおいても、信号の流れる経路の違いに伴う、様々な遅延を簡単に制御するため、クロックを採用している。回路内の信号経路の違いに伴う、様々な遅延を吸収するため、クロックの採用は有効である。
【0095】
投票の結果は、行動モジュールに送られる。そして、システムの行動が決定され、環境に対して実行される。概念形成モジュール10では、選択されたBC層上のノードは逆方向に働き、AC層を通じてノードjの重みwCijを関数f( )で変換したf(wCij) が基本制御モジュール14に出力される。 この結果、概念又はイメージの組は一時記憶に表示されて、システムはシーンを概念又はイメージの組として捉えられるようになる。加えて、この逆方向の信号伝播に際して、選択されたノードの重みwCijが変更される。これらノードの重みは投票に際して、有用な情報を出力しているため、このときの学習は有用な情報を出力したノードのみ行わせることが可能である。また、この逆方向の信号伝播は一種のファイードバックでもあり、微細特徴レベルでの“注意”生成も可能とする。
【0096】
b.学習モード
基本的には、はじめに構成Aの学習が行われ、次に、エピソード記憶に関係するログモジュール11系の機能の学習が行われる。これが一段落した後に、構成B、構成Cの学習が行われる。
【0097】
(1) 第1段階(構成Aの学習):
統合モジュール12の重みは、相2での選択結果と相4でのシステムの行動に対する報酬とにより変更される。選ばれたノードyj(t) (i.e.、 yj(t) = 1)について、wIij はyi(t) が1 又は 0 、変数 q が -1 又は 1 かに応じて修正される。変数 q は、簡単には報酬が良い(q = 1)か、悪い (q = -1)かどうかを示す。kIa は、小さな値の学習係数である。
wIaij(t+1、1) = wIaij(t、2) + kIa ( q ・yi(t、1) - wIaij(t、2) )
このプロセスが繰り返され、良い報酬が得られるときには、重みwIaij はゆっくりと yi(t、1) =1の生起確率(←ノードjが選択されたときの生起確率)を示すPyi に近づく。もし、悪い報酬の時には、wIaij はゆっくりと - Pyiに近づく。
ある程度学習した後、必要に応じて、これらの重み変化はフリーズ(凍結)される。
【0098】
(2)第2段階(構成Bの学習):
構成Aの学習をほぼ終了した後、思わしい報酬が得られないときなどに適用される。例えば、良い報酬が得られなかったケースについて、後に示すようにログモジュール11の記憶を読み出し、相1から相4までシステムがすでに経験したことを繰り返して構成Bに入力することで学習する。
【0099】
(3)第3段階(構成Cの学習):
構成Aの学習をほぼ終了した後、エピソード記憶(順序付けられたシーンの記憶)をログモジュール11 から構成Cに転写するときに適用される。
【0100】
ログモジュール11
図10はログモジュールの一構成例を示す図である。同図に示すように、ログモジュール11は、フィードバックを持つ3層のニューラルネットワークで構成され、2種類の機能を持つ。即ち、統合モジュール12で興奮したノードの組を生起した順に記憶することと、過去に記憶されたシーンや概念の組み合わせを生起した順に想起して出力することの2点である。
【0101】
ログモジュール11は、統合モジュール12に生起した状態を、概念形成モジュール10で変換された概念又はイメージの単位で、生起した時間順にそのまま記憶したり、想起したりする。
【0102】
a.ログモジュール11の基本構成
ログモジュール11のAL層のノードとは、概念形成モジュール10のBC層上のノードと1対1に対応している。ログモジュール11のAL層のノードと、概念形成モジュール10のBC層ノードの数は同じである。ログモジュール11のBL層の各ノードには、ログモジュール11のAL層の全てのノードから入力がある。一般にログモジュール11のBL層ノードの数は、ログモジュール11のAL層ノードの数に較べて遙かに大きく設定される。以下の説明では、ログモジュール11を略し、図10に従って層の名称のみを示す。
【0103】
FL層は、BL層と同数のノードをもち、BL層とFL層は、ノード同士が、1対1に対応しており、BL層ノードの出力は、対応しているFL層のノードに入力される。個々のFL層の出力は全てのBL層ノードに入力される。即ち、BL層のノードjには、AL層とFL層の全てのノードからリンクがあり、重みは wLij(i=1、m(=m+m)、j= m)で定義される。ここで、BL層のノード数をmとした。
【0104】
b.ログモジュール11の動作
(1)時系列記憶動作
ここで、以下の時系列記憶動作は覚醒モードでのみ実行されるものとする。
[覚醒モードで実行される想起動作]
重みwLijの初期値はランダムに設定されており、相2でAL層に信号yj(t、1)が入力されると、次式で得点ELjを算出する。最も大きな得点ELjを獲得したノードj1、(又は大きな得点を獲得したノード群)が勝者ノードとなり、勝者ノードは興奮し、FL層に出力する。
【数13】


つぎに学習係数 kLが1に近い大きな値で学習し、そのときの入力の値yiを重みの値として記憶する。
wLi j1(t、2)= wLi j1(t、1) + kL( yi(t、1) - wLij1(t、1) )
ここで kL≒1の場合は wLij1(t、2)≒ yi(t、1) となる。
即ち、勝者となったBL層ノードjの重みの値は、その時点の入力(概念又はイメージの組(シーン))を記憶する。
【0105】
BL層ノードの興奮信号はそのままFL層に伝えられる。入力1を受け取ったFL層は次の相3でBL層のノードに向けて1を出力する。同時に相3で、AL層からyj(t、2)が伝えられると、BL層には、AL層からのyj(t、2)とFL層の状態が同時に入力される。このとき、全く同じAL層入力yjが引き続いたとしても、その前に興奮していたBL層ノードが一般に異なるため、FL層からの入力は異なる。結果としてAL層とFL層の出力を入力するBL層への入力は、AL層入力yjがおなじとしても、入力全体としては異なることとなる。
【0106】
ここで、同様に次式でこの新しいBL層への入力についてELj2を算出する。
【数14】


最も高い得点ELj2を得たノード、即ち、最もよく一致する重みを持ったB層ノードj2が興奮する。このノードは一般的に、その前に興奮したノードj1とは別のノードとなる。
【0107】
つぎに、同様に学習係数 kLが1に近い大きな値で次式のように学習し、そのときの入力の値yi(t、2)を重みの値として記憶する。
wLi j2(t、3)= wLi j2(t、2) + kL( yi(t、2) - wLij2(t、2) )
ここで、 kL≒1の場合は、wLij1(t、3)≒ yi(t、2)となる。
【0108】
これにより、シーンが発生するたびに、次々と別のBL層ノードに記憶することができる。同様の処理を、概念形成モジュール10(体感覚サブモジュール)から相4で入力される状態に対しても行い、ログモジュール11に記憶する。
【0109】
ただし、これらの方法では、シーンが発生するたびに最低1個のBL層ノードが必要とされる。基本的には、記憶が古くなる前に、統合モジュール12にその内容を転写しておき、ある程度以上古くなったBL層ノードには、重ね書き(オーバライト)されるとしている。このとき、古い記憶は消去され、新たに書かれた内容が保持される。
【0110】
簡単には古くなったノードを使い回してゆく。このためにも夢見モードは必要である。
【0111】
c.時系列的な想起動作
[覚醒モードで実行される想起動作]
覚醒モードでの想起動作は、相3でyj(t、2)(統合モジュール12の選択結果)の瞬間値を大きな学習係数で記憶するのと並行して、既に記憶しているシーンのなかで、yj(t、2)に類似しているシーンの次に生起したシーンを想起する形で行われる。以下の2つの実現方法があるが、ここでは2)について示す。
1)相3では、時間を2分割して、想起動作と記憶動作を順に行う方法、
2)一つのシーンに対して多数のノード(例えば数十個)が対応するようにしておき、相3では、並列に想起動作と記憶動作を行う方法。
【0112】
相3で、yj(t、2)がログモジュール11に入力されると、BL層ノードの約半分がランダムに選択され、選択されたノードは、FL層からの入力を強制的にOFFとして、AL層からの入力に対してだけ得点を計算する。この結果、最も高得点になったBL層ノードは、その状態をFL層に伝える。次に、BL層ノードは、FL層からの入力を強制的にONにし、AL層からの入力をOFFにして得点を計算する。この得点の高いBL層ノードを取り出すことで、過去にyj(t、2)に類似したシーンによりあるBL層ノードが興奮した後、その1クロック後に、引き続き生起したシーンにより興奮したBL層ノードを求めることができる。このBL層ノードは、AL層とBL層ノード間の重みwLijの値を、t+1、1のタイミングで、AL層を介して逆方向に統合モジュール12に出力する。
【0113】
簡単には、AL層からログモジュール11への入力に対して、はじめに、類似性の高い重みを持つBL層ノードが選択され、次にFL層を介して、そのシーンの次に生起したシーンを記憶しているノードが特定されて、そのノードが記憶している重みwLijの内容が、逆方向に(再びAL層を介して)統合モジュール12に出力される。このとき、残りの約半分のノードは、FL層の入力をONのままとして、yj(t、2)の瞬間値を記憶している。言い替えれば、覚醒モードでのログモジュール11の想起動作は、これまでの経験で次に何が起こったかを知らせている。
【0114】
ここで改めて、ログモジュール11の覚醒モードでの動作をまとめると以下のようになる。
【0115】
覚醒モードでのログモジュール11は相2で yj(t、1)の、相3でyj(t、2)(統合モジュール12の選択結果)の瞬間値を大きな学習係数で記憶する。加えて、相4では、報酬qを記憶する。これと並行して相3では、既に記憶しているシーンのなかで、yj(t、2)に類似しているものを想起する。これらの想起されたシーンは次のクロック t+1に、信号 zj(t+1、1) として統合モジュール12に出力される。
【0116】
[夢見モードで実行される想起動作]
夢見モードで実行される想起動作において、このモードでは、システムは外部環境からの刺激を無視し、環境に対して行動しない。システム全体として、哺乳類に例えれば、ほとんど寝ている状態に対応する。覚醒モードで記憶された、相2、相3、相4と相毎のシーンの瞬間値としての記憶は、ログモジュール11から自動的に順次に想起され、繰り返して統合モジュール12(概念形成モジュール10B層ノード上)に出力される。概念形成モジュール10B層ノードを介して、統合モジュール12の構成A、構成B、及び構成Cはこれらの値を取り入れ、重みを小さな学習係数により少しずつ修正する。
【0117】
ここで、統合モジュール12の主な状態は、相2、相3、相4においてログモジュール11に記憶(記録)されているため、この内容を順次、ログモジュール11から読み出し、統合モジュール12に入力することで、すでに経験したことを再度繰り返して経験し、学習に使用できる。
【0118】
何を繰り返して、何を繰り返さないか等は、後に示す情動系からの制御による。基本的には、情動系からの制御により、システムにとって重要な経験とみとめられたシーケンスのみを夢見モードでは繰り返すとしている。
【0119】
次に、各構成毎の動作内容について説明する。
a.構成A:シーケンスを繰り返して入力して、すでに示したような報酬に基づいた学習を行うことにより、学習係数は小さくても(少しづつしか重みは修正されなくても)、システムにとって重要な経験を統合モジュール12に定着できる。
【0120】
b.構成B:ログモジュール11からの読み出し内容を用いて、I層22を中心とする学習を行う。I層22については、以下を仮定している。I層22には、相当大きな個数のノードが存在する。統合モジュール12のBC層上のノードからI層22のノードへ入力されるリンク上の重み、I層22のノードから統合モジュール12のBC層上のノードへ入力されるリンク上の重みの初期値はランダムであるとする。
【0121】
処理は次の手順で行う。
1)相2の記憶内容の読み出しを用いて、概念形成モジュール10のBC層上のノードを介して、構成BのI層22に入力する。概念形成モジュール10、ログモジュール11と同様の得点計算をI層のノードが行い、得点の上位数十個のノードが興奮する。興奮したノードは概念形成モジュール10のBC層のノードからI層の22ノードへ入力されるリンク上の重みを、概念形成モジュール10の重みと同様に学習する。
2)相3の記憶内容の読み出しと相4の報酬を用いて概念形成モジュール10のBC層を興奮させる。このとき、I層22のノードの出力を概念形成モジュール10のBC層に伝達するリンク上の重みを、構成Aと同様に報酬に基づいて変化させる。
【0122】
1)の操作で、システムにとって重要な経験とすべき状況について、概念又はイメージのレベルで、どのようなパターンであるかをI層22ノードが学習する。個々のI層22ノードは、それぞれの状態に対応した状況のみを学習してゆく。ただし、この学習には概念形成モジュール10での学習と同様の方法を用いるため、ある状態であることに対して、共通して必要な概念又はイメージ、あってはいけない概念又はイメージ、影響を与えない概念又はイメージが自動的に抽出される。即ち、個々のI層22のノードは、感覚刺激の状態を、概念又はイメージのレベルでパターン化して重みに記憶する。
【0123】
2)の操作では、概念又はイメージのレベルでパターンを代表するI層の22ノードが、どのような概念形成モジュール10のBC層上のノードを支持するかを示す。
【0124】
このように、I層22のノードを設けて投票を行うことにより、概念形成モジュール10のBC層上のパターンに対して自由度の高い関数としての投票を実現できる。
【0125】
c.構成C:ログモジュール11と同様の構成をもつ構成Cに、ログモジュール11の記憶内容を転写する。図に示すように、統合モジュール12の構成Cはログモジュール11と同様の構成をもち、同様の動作を行う。ただし、以下の点で異なる。
1)構成Cの学習係数は、極めて小さい。
2)構成C内のFIC層、BIC層のノード数は極めて大きい。
【0126】
ログモジュール11のFL層では、容量が小さいために古い情報には重ね書きされることを想定したが、統合モジュール12の構成C内のFIC層、BIC層のノード数は極めて大きく、記憶のたびにノードが使用されてゆくが、重ね書きを行うことはないとする。
【0127】
これを踏まえて、ログモジュール11が相2、相3、相4で記憶した内容を繰り返して読み出し、同時に構成Cはログモジュール11の記憶時と同様の動作を行うことにより、同様構成の構成CにBIC層のノードを介して、ゆっくりとコピーすることができる。
【0128】
結果的には、瞬間値としての記憶が統合モジュール12の構成Aに定着できる。これにより、我々は、夢見モードが安定性と可塑性のトレードオフに対応する有効な方法であると考えている。
【0129】
基本制御モジュール14
実環境表示と想起内容表示とは、微細特徴の状態を短時間保持して、イメージ像を合成する。即ち、前述したように、基本制御モジュール14は、実環境表示と想起内容表示の2つのサブモジュールで構成され、実環境表示は、実環境からの入力であるセンサと前処理グループ1からの微細特徴信号群2に基づいて、実際に起こっている環境やシステム内部の状態を実時間で出力する。想起内容表示は概念形成モジュール10から逆方向に出力され、選択された概念又はイメージに対応する微細特徴信号群2に基づいた、統合モジュール12で選択された概念又はイメージのぼんやりした形状を出力する。
【0130】
基本制御モジュール14に表示された内容は、想起された内容をも含め、概念形成モジュール10を通じて統合モジュール12に送られる。即ち、基本制御モジュール13内の一時記憶バッファと統合モジュール12との間で、概念形成モジュール10を経由したサイクリックな処理が実現されている。この処理により、システム自身がより最適な解を探索したり、あれこれ連想したりすることが出来るのである。
【0131】
つぎに、本自律適応型システムの3段階の成長について説明する。システム全体の機能は、以下に示すように、3つの段階の学習を経て成長する。
【0132】
第1ステージ:
この段階は人間の赤ちゃんに似ている。このときは、概念形成モジュール10だけが働く。概念又はイメージはゆっくりと教師無し学習に従って形成される。このステージでは、システムは行動決定能力やエピソード記憶の能力を全くもたない。
【0133】
第2ステージ:
この時期は人間の幼児期に相当する。このステージの前に形成された概念又はイメージの同時生起の度合いに基づいて、統合モジュール12がリンクを形成する。このステージでは、概念形成モジュール10は教師あり学習を開始する。この時点では、他の概念形成モジュール10の出力は、教師信号として使用される。システムは、低いレベルの行動決定能力しかもたず、エピソード記憶の能力は十分には働かない。
【0134】
第3ステージ:
このステージは子供に対応する。概念形成モジュール10のイメージと概念を結ぶ、統合モジュール12リンクを用いて、高いレベルの意志決定が可能になる。これらのイメージと概念は能動的に教師信号に基づいて学習する。エピソード記憶は十分に機能する。この段階では、システムは、先に示した覚醒モードと夢見モードの2つの動作モードを持つ。
【0135】
つぎに、イメージドリブンアーキテクチャにおける主な機能について説明する。
【0136】
a.互選による選択
統合モジュール12は概念形成モジュール10、ログモジュール11の全ての出力を統合して、有用で効果的な概念又はイメージを選択する。互選は膨大な数の条件を満足する解を短時間で選ぶことと解釈できる。これは、多様な値を同時に考慮して全体的に眺めた上で選択することを示している。この互選のメカニズムは思考についての最も原始的な形を示している。
【0137】
b.連想と注意
統合モジュール12で選ばれたイメージと概念は、微細特徴の群に再変換される。この微細特徴の群は環境からの微細特徴の群と重ねられ次のサイクルでは概念形成モジュール10に入力される。このことは、統合モジュール12で選択された概念又はイメージは次に選択される概念又はイメージに影響を与えることを示している。微細特徴と概念の間の情報の循環は自由な連想と高いレベルの思考を可能にしている。加えて、概念形成モジュール10に選択結果を戻すことはフィードバックの一形態である。このフィードバックを用いてシステムは次に何を監視すべきかを知る。
【0138】
c.意味を知ることと、システムの有効な制御
互選の結果が、実空間の表示と同様の具体性をもって、基本制御モジュール内の一時記憶に表示されることにより、システムは、統合モジュール12で選択された情報の意味を知ることができる。
【0139】
システムが環境に適応するときにフィードバック情報を用いて、統合モジュール12で選ばれた概念又はイメージの部分のみ、重みは変更される。この結果、システムが非常に複雑な構成であっても、適応のために効果的な部分のみが、変更される。
【0140】
以上説明したように、本実施形態においては、ニューラルネットワークによる原始的な概念形成を用いて環境に適応するアーキテクチャにおいて、微細特徴、概念又はイメージ、概念の組み合わせ又はシーンという3階層の要素をもつ、複合的なマルチモジュールシステムとして構成して、微細特徴の選択として機能する概念形成を設けることで、互選方式によってシステムにとって有効な概念を選ぶだけでなく、想起を通じて曖昧なイメージとして表示し、モジュール内の選択的な学習を制御することができる。とくに、多くの信号を概念又はイメージという形で束ねること、及び、環境、又はシステム自身の状態を入力信号により再構成することで、自律的に環境に適応するシステムを実現することが可能となる。
【0141】
また、束ねられた概念又はイメージのレベルで、各時点において有効な組を選択することで、興奮する複数の概念又はイメージが、同時生起確率に基づいて重みを学習したリンクを通じて他の概念又はイメージに信号を送り、結果として、興奮する複数の概念又はイメージに応じた適切な概念又はイメージの組みが興奮する。
【0142】
なお、非特許文献6〜8に記載されている技術は、複数の専用処理系を単位として特定のエリアを競合的に取り合うことを想定しているが、本実施形態においては、概念又はイメージの単位で重要なものを選んでいる。また、この選択に際して、実際にその時点で入力されている情報に加えて、システムの過去の個々の経験、又それからできる予測を同時に考慮可能とすることで、より適切な状況認識を行うことが可能となり、これに基づいた望ましい行動決定をすることができる。さらに、非特許文献6〜8に記載されているグローバルワークスペース理論は、概念形成機能を持たず自律適応機能が限られている点において、本実施形態のシステムの機能とは全く異なっている。即ち、グローバルワークスペース理論では勝ち残った内容を意識としているのに対し、本実施形態のシステムでは、概念形成モジュール10を通じて逆変換され、基本制御モジュール14内の一時記憶に記録される内容を意識に相当するものとしているのである。
【0143】
また、個別の経験を、情動サブシステム等の指示により、重要度に応じて想起させることにより、自律的な適応において、経験した時間や回数に応じて学習・適応するのではなく、システムとしての重要な経験は時間や回数が少なくとも、きちんと適応することが可能になる。これは、経験時間を超えた自律的な適応となる。
【0144】
選択結果については、概念又はイメージを構成する微細特徴(詳細な信号群)に逆変換して、実世界の状況と同レベルの情報としてシステムが把握、比較照合可能とすること、及び、逆変換された微細特徴(詳細な信号群)を用いて、システムが環境、システム自身の状態を、再構成することにより、明示的なスーパバイザ(監視装置、監視プログラム等)をもたないシステムにおいて、選択・判断の意味を知ることができる。明示的なスーパバイザとは、あらかじめ人間が事前に考えたりしたアルゴリズムの中に、選択・判断の意味が組み込まれているものを示している。
【0145】
従来から、自律的に選択・判断機能を適応させるシステムにおいては、その時点時点の選択・判断の意味をシステム自身がどのように把握するかが問題であったが、本実施形態により、システム内の選択・判断する機構そのものは意味が分からないとしても、選択・判断結果の逆変換を通じて、システム全体としては、その意味を知ることができる。
【0146】
さらに、システムが容易に意味を知るためには、外部環境を知るために構成されているモデルと同等のモデル化(再構成)が有効である。
【0147】
逆変換(逆変換に用いる情報を使って)において、同時に、環境に適応するための学習を効率的に行うこと、及び、逆変換(逆変換に用いる情報を使って)において、同時に、環境に効率的に反応するための注意を喚起することが重要であり、統合モジュールで選択された情報を提供したモジュールを、より入力に合わせるべく学習させることで、複合的で複雑なシステムのどこが学習することが有効かを明示的に捉えることができる。
【0148】
また、逆変換情報は、センサの出力レベルでもあるため、センサレベルで、その時点で注意すべき信号を明らかにできる。逆変換・表示された微細特徴(詳細な信号群)を、実環境からの入力と併せて入力可能として、システム内においてサイクリックな処理を可能とする。
【0149】
基本制御モジュール、概念形成モジュール、統合モジュール、ログモジュールを併せて、サイクリックに動作させることができるため、ディジタルコンピュータと同様に、複雑な課題を処理することができる。基本的には、この循環系がイメージドリブンアーキテクチャの基本回路を構成する。
【0150】
システムの行動に対する報酬に基づいて、学習の度合いや方法等を変更することで、より効率的にシステムが環境に自律的に適応可能とすることは、自律的なシステムとして重要である。情動系の支持に基づいて、上に示した動作において、学習の度合いや方法等を変更することで、より効率的にシステムが環境に自律的に適応可能となる。また、危険を感じたような場合はシステム全体として、強い形で記憶が残り、かつそのような状況が再現するのを避けるように判断することができる。
【図面の簡単な説明】
【0151】
【図1】本発明の一実施形態における自律適応型システムを含む全体構成の一例を示すブロック図である。
【図2】主要な要素の階層構成の一例を示す図である。
【図3】自律的な適応を行うための内部状態の一例を示す図である。
【図4】図1に示す自律適応型システムを含む全体構成の具体例を示す図である。
【図5】概念形成モジュールの一例を示す図である。
【図6】概念形成モジュールの機能例を示す図である。
【図7】統合モジュールの第1構成例を示す図である。
【図8】統合モジュールの第2構成例を示す図である。
【図9】統合モジュールの第3構成例を示す図である。
【図10】ログモジュールの一構成例を示す図である。
【符号の説明】
【0152】
1 センサと前処理モジュール
2 微細特徴信号群
3 自律適応型システム
10 概念形成モジュール
11 ログモジュール
12 統合モジュール
13 行動モジュール
14 基本制御モジュール
23 順序記憶サブモジュール

【特許請求の範囲】
【請求項1】
入力された多数の微細特徴信号を束ねて相当する概念又はイメージ信号をそれぞれ形成する順方向処理を行うと共に、概念又はイメージ信号から相当する多数の微細特徴信号をそれぞれ形成する逆方向処理を行う複数の概念形成モジュールと、
実環境から得られた多数の微細特徴信号を前記複数の概念形成モジュールに入力すると共に、該複数の概念形成モジュールがそれぞれ逆方向処理して形成した多数の微細特徴信号を一時的に記憶し該複数の概念形成モジュールに再度入力する基本制御モジュールと、
前記複数の概念形成モジュールの出力から相互投票によって前記概念又はイメージ信号の少なくとも1つを選択する統合モジュールと、
前記基本制御モジュール及び前記統合モジュールの出力から行動を決定する行動モジュールとを備えており、
前記統合モジュールによって選択された少なくとも1つの概念又はイメージ信号が該当する前記概念形成モジュールに入力されて前記逆方向処理が行われるように構成されていることを特徴とする、環境に対する自律適応型システム。
【請求項2】
前記統合モジュールにおいて選択された内容を逐次的に記憶して時系列記憶を作成すると共に、該選択された内容に類似の継続する内容を該時系列記憶から読出して前記統合モジュールに出力するログモジュールをさらに備えていることを特徴とする請求項1に記載の自律適応型システム。
【請求項3】
前記ログモジュールが、フィードバック付のニューラルネットワークで構成されていることを特徴とする請求項2に記載の自律適応型システム。
【請求項4】
前記複数の概念形成モジュールの各々が前記基本制御モジュール側の第1の層と前記統合モジュール側の第2の層とを備えており、前記第1の層のノードが前記第2の層の各ノードと結合するように構成されており、前記第1の層のノードと前記第2の層のノードとのリンク上の重みの関数として出力を決定するように構成されていることを特徴とする請求項1から3のいずれか1項に記載の自律適応型システム。
【請求項5】
前記リンク上の重みが、そのノードの概念又はイメージに含まれるべき微細特徴のリンクでは1、含まれてはいけない微細特徴のリンクでは0、関係しない微細特徴のリンクでは1と0との間の値#であることを特徴とする請求項4に記載の自律適応型システム。
【請求項6】
前記第1の層及び前記第2の層が、ニューラルネットワークで構成されていることを特徴とする請求項4又は5に記載の自律適応型システム。
【請求項7】
前記統合モジュールが、前記複数の概念形成モジュールの前記第2の層の各ノードを双方向に接続して構成されていることを特徴とする請求項1から6のいずれか1項に記載の自律適応型システム。
【請求項8】
前記統合モジュールが、前記複数の概念形成モジュールの前記第2の層の各ノードからの出力を入力し、出力を該第2の層の各ノードに入力するノードを有する層を備えていることを特徴とする請求項1から6のいずれか1項に記載の自律適応型システム。
【請求項9】
前記統合モジュールが、前記複数の概念形成モジュールの前記第2の層の各ノードにそれぞれ接続されたノードを有しており、該統合モジュールにおいて選択された内容を逐次的に記憶して時系列記憶を作成すると共に、該選択された内容に類似の継続する内容を該時系列記憶から読出して前記統合モジュールに出力するするサブモジュールを備えていることを特徴とする請求項1から6のいずれか1項に記載の自律適応型システム。
【請求項10】
前記統合モジュールの前記層又は前記サブモジュールが、ニューラルネットワークで構成されていることを特徴とする請求項8又は9に記載の自律適応型システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2008−41085(P2008−41085A)
【公開日】平成20年2月21日(2008.2.21)
【国際特許分類】
【出願番号】特願2007−185020(P2007−185020)
【出願日】平成19年7月13日(2007.7.13)
【出願人】(503024295)パシフィックテクノス株式会社 (3)
【出願人】(399004603)