説明

自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作制御装置、自律移動ロボットの動作計画プログラム、自律移動ロボットの制御プログラム

【課題】流速および流れの向きが不確定な環境中において、自律移動ロボットが目標位置に十分な精度で到達することを可能ならしめる動作計画を行う。
【解決手段】部分観測マルコフ決定過程(POMDP)のうち、行動主体の状態についての確率分布が状態のエントロピーにて表現可能であるという仮定に基づくAugmented MDPにおける動的計画法を応用する。本発明では、自律移動ロボットの状態が、デカルト座標、方位角、当該デカルト座標の確率分布についてのエントロピー、当該方位角の確率分布についてのエントロピーを含んで表現されており、デカルト座標と方位角からなる位置座標を確率的に計算する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自律移動ロボットの動作計画方法及びこれを用いた自律移動ロボットの制御方法に関する。より詳しくは、流速が不確定な流体外乱の存在する環境中で、自律移動ロボットが障害物との衝突を高確率で回避し目標位置に高精度で到達することを可能ならしめる動作計画を行うための技術、そしてその動作計画に基づいて自律移動ロボットを制御するための技術に関する。
【背景技術】
【0002】
近年、屋外で活動可能な自律移動ロボットの研究が活発に行われており、それらの応用先が広がりつつある。このような、自律移動ロボットの一例として、自律飛行船を挙げることができる。自律飛行船は、浮力を利用して空中に静止することが可能であり、当該機体に搭載したアクチュエータ(推進器や舵など)によって自身の運動を制御することが可能である。このような特性から、例えば、自律飛行船を地雷探査機として、あるいは大地震後の空中携帯電話中継局として応用することが期待される。
【0003】
しかし、自律飛行船は、その機体比重を大気と同じにしなければならないために、機体重量は軽くなければならず、搭載可能なアクチュエータの数やその重量に大きな制約がある。このため、自律飛行船は一般に劣駆動ロボットと呼ばれるものである。劣駆動ロボットとは、劣駆動ロボットに搭載されたアクチュエータによって直接制御可能な劣駆動ロボットの運動自由度数が、劣駆動ロボットの実際の運動自由度数よりも少ないロボットのことである。このような劣駆動ロボットの制御には高度な知的制御アルゴリズムが必要であることが知られている。さらに、自律飛行船の比重は周囲の大気のそれと同じであることから、運動におけるイナーシャが高い。加えて、自律飛行船が受ける空気抵抗に対するアクチュエータの推力が小さいため、一般に自律飛行船の最大航行速度は低い。また、風外乱によってその運動が大きく影響を受けやすいことも問題である。
【0004】
上述のような特性を持つ自律飛行船を、風外乱と障害物の存在する環境において制御するには、マルコフ決定過程(MDP)における動的計画法の手法を応用した動作計画法を適用することが有効であるとされている(非特許文献1)。
【0005】
なお、ここでは自律移動ロボットの例として自律飛行船を挙げたが、この他に例えば水中無人探査機のような自律水中ロボットなども例示でき、自律飛行船と同様の特性を持つ。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Kawano H., "Three-dimensional Obstacle Avoidance of Blimp-type Unmanned Aerial Vehicle Flying in Unknown and Non-uniform Wind Disturbance", JSME International Journal of Robotics and Mechatronics, Vol.19 No.2, April, 2007.
【発明の概要】
【発明が解決しようとする課題】
【0007】
非特許文献1に開示される技術は、自律飛行船の動作環境における風速と風向の不確定性を考慮していないため、風速および風向が不確定な環境中において、目標地点までの到達を十分な精度で達成することが必ずしも容易ではない。また、位置計測センサが持つ計測値の確率的な性質を考慮することもしていない。
【0008】
そこで本発明は、流速および流れの向きが不確定な環境中において、自律移動ロボットが障害物との衝突を高確率で回避し目標位置に十分な精度で到達することを可能ならしめる動作計画を行うための技術、そしてその動作計画に基づいて自律移動ロボットを制御するための技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明である自律移動ロボットの動作計画技術は次のとおりである。自律移動ロボットの状態が、デカルト座標、方位角、当該デカルト座標の確率分布についてのエントロピー、当該方位角の確率分布についてのエントロピーを含んで表現されるとし、自律移動ロボットが遷移しえる予め定められた状態の集合(状態集合)と自律移動ロボットの採りえる行動の集合(行動集合)が予め定められている。そして、状態・行動選択部が、状態集合の要素と行動集合の要素との組み合わせのうち未選択の組み合わせを選択する〔状態・行動選択処理〕。現在位置座標決定部は、状態・行動選択処理において選択された組み合わせに含まれる状態の下で、自律移動ロボットのデカルト座標および方位角を要素とする位置座標の確率分布を計算し〔現在位置座標決定処理〕、移動先位置座標選択部は、状態遷移確率に基づき、自律移動ロボットの移動後の位置を計算する〔移動先位置座標選択処理〕。さらに、存在確率計算部が、現在位置座標決定処理で計算された自律移動ロボットの位置座標の確率分布にベイジアンフィルタを適用して、遷移先の状態を求め〔存在確率計算処理〕、遷移確率計算部が、現在の状態から存在確率計算処理で得られた状態へ遷移する遷移確率と当該遷移に伴う報酬を計算する〔遷移確率計算処理〕。制御部は、状態・行動選択処理において選択された組み合わせについて、現在位置座標決定処理、移動先位置座標選択処理、存在確率計算処理、遷移確率計算処理を所定回数繰り返し実行し、当該所定回数繰り返し実行した場合には、状態・行動選択処理を行う制御を行う〔制御処理〕。そして、価値関数計算部が、遷移確率と報酬を用いて価値関数を計算し〔価値関数計算処理〕、方策計算部が、遷移確率と報酬と価値関数を用いて表される方策関数を計算する〔方策計算処理〕。
【0010】
また、動作計画技術においては、計測位置座標選択部が、自律移動ロボットの位置座標を計測するセンサの計測誤差を確率分布で表し、当該センサで計測された位置座標と移動先位置座標選択処理において得られた自律移動ロボットの移動後の位置との誤差に基づいて、自律移動ロボットの移動後の位置を計算する〔計測位置座標選択〕としてもよい。この場合、存在確率計算処理では、存在確率計算部が、現在位置座標決定処理で計算された自律移動ロボットの位置座標の確率分布にベイジアンフィルタを適用して得られた確率分布を計測位置座標選択処理で得られた自律移動ロボットの移動後の位置に基づいて補正して、遷移先の状態を求めることになる。なお、制御処理では、制御部が、状態・行動選択処理において選択された組み合わせについて、現在位置座標決定処理、移動先位置座標選択処理、計測位置座標選択処理、存在確率計算処理、遷移確率計算処理の各処理を所定回数繰り返し実行し、当該所定回数繰り返し実行した場合には、状態・行動選択処理を行う制御を行う。
【0011】
遷移確率を求めるための計算を自律移動ロボットの1回の行動で遷移可能な状態の範囲に限定してもよいし、遷移確率が0である場合には価値関数の計算を行わないようにしてもよい。
【0012】
本発明である自律移動ロボットの制御技術は、上述の自律移動ロボットの動作計画技術で決まった動作計画に基づき、自律移動ロボットを制御する。動作計画技術により得られた方策関数および、自律移動ロボットの採りえる行動の集合は記憶部に記憶されている。位置取得部が、自律移動ロボットのデカルト座標および方位角を要素とする位置座標を計測するセンサの計測結果を取得する〔位置取得処理〕。そして、状態遷移確率計算部が、状態遷移確率に基づき、自律移動ロボットの移動後の位置を計算する〔状態遷移確率計算〕。存在確率予測値計算部は、位置取得処理にて取得された位置座標から遷移先の位置座標に自律移動ロボットが存在する確率の予測値(存在確率予測値)を求める〔存在確率予測値計算処理〕。移動先状態決定部は、存在確率予測値を最大にする位置座標を遷移先とする〔移動先状態決定処理〕。行動決定部は、方策関数により行動を決定する〔行動決定処理〕。
【0013】
この制御技術においては、計測確率計算部が、確率分布で表されたセンサの計測誤差に基づいて、センサで計測された位置座標の確率分布を求め〔計測確率計算処理〕、存在確率予測値補正部が、存在確率予測値を計測確率計算処理で得られた確率分布に基づいて補正する〔存在確率予測値補正処理〕としてもよい。この場合、移動先状態決定処理では、移動先状態決定部が、存在確率予測値補正処理で補正された存在確率予測値を最大にする位置座標を遷移先とする。
【発明の効果】
【0014】
本発明に拠れば、自律移動ロボットの状態が、デカルト座標と方位角に加えて、当該デカルト座標の確率分布についてのエントロピー、当該方位角の確率分布についてのエントロピーを含んで表現されており、デカルト座標と方位角からなる位置座標が確率的に計算されることから、流速および流れの向きが不確定な環境中において、自律移動ロボットが障害物との衝突を高確率で回避し目標位置に十分な精度で到達することが可能となる。
【図面の簡単な説明】
【0015】
【図1】行動計画装置の機能構成例を示す図。
【図2】行動計画方法の処理手順を示す図。
【図3】行動制御装置の機能構成例を示す図。
【図4】行動制御方法の処理手順を示す図。
【発明を実施するための形態】
【0016】
図面1−4を参照して本発明の実施形態を説明する。なお、説明を具体的にするために自律移動ロボット(行動主体)の一例として自律飛行船を採用する。劣駆動ロボットとしての自律飛行船の例として、舵と前後進用推進器を装備した自律飛行船を考えることができる。自律飛行船の重心位置は通常低く設定されているので縦横姿勢傾斜(pitchingとrolling)に対する復元力は大きく、自律飛行船の姿勢角は方位角(yawing)を除いてほぼ0に維持される。また、自律飛行船に搭載される位置計測用のセンサとして、例えば、複数の無線LAN方式の位置計測センサを採用する。計算の都合、無線LAN方式の位置計測センサは自律飛行船の水平面内重心位置に装備されているとする。さらに、自律飛行船は、方位角の値を直接計測するための方位角計測センサとしてジャイロセンサも装備している。これらのセンサによって、自律飛行船の3次元デカルト座標(世界座標)と方位角の実時間での計測が可能である。
【0017】
時刻tにおける位置計測センサの計測値を(M(t),M(t),M(t))とし、方位角計測センサの計測値をMφ(t)とする。そして、自律飛行船の重心位置の真値を(X(t),Y(t),Z(t))とし、方位角の真値をφ(t)とする。自律飛行船の重心位置を表現するデカルト座標は、水平面内では、X軸もしくはY軸が平均風向に平行であるように定義する。ここでは、Y軸が平均風向に一致しているとする。X軸に平均風向が一致している場合については、以下の記述でのY軸に関する説明をX軸に置き換えて理解すればよいから説明を省略する。なお、デカルト座標の設定は任意であるから、平均風向がX軸とY軸のいずれの軸にも一致しないということを避けることができることは云うまでもない。
【0018】
〔従来モデル〕
本発明の理解の一助として、まず従来的手法について概説する。
従来技術は、マルコフ決定過程(MDP)を利用して、自律飛行船の動作計画を行う。MDPでは環境が以下のようにモデル化される。
【0019】
環境を以下のようにモデル化したものが、マルコフ状態遷移モデルである(強化学習〔Reinforcement Learning〕におけるマルコフ決定過程〔Markov decision Process〕)。環境のとりうる離散的な状態の集合をS={s,s,…,s}、行動主体が取り得る行動の集合をA={a,a,…a}と表す。環境中のある状態s∈Sにおいて、行動主体がある行動a∈Aを実行すると、環境は確率的に状態s’∈Sへ遷移する。その遷移確率を
P(s’|s,a)=Pr{st+1=s’|s=s,a=a}
により表す。このとき環境から行動主体へ報酬rが確率的に与えられるが、その期待値を
R(s’|s,a)=E{r|s=s,a=a,st+1=s’}
とする。行動主体の各時刻における意志決定は方策関数
π(s,a)=Pr{a=a|s=s}
によって表される。π(s,a)は、全状態sおよび全行動aにおいて定義される。方策関数π(s,a)は、単に方策πとも呼ばれる。なお、状態s’に附されている記号’は、状態sとの識別を図るための記号である。
【0020】
状態sはs=(X,Y,Z,φ)により構成される。
:X軸の離散化表現。自律飛行船の存在確率の最も高いX座標。
:Y軸の離散化表現。自律飛行船の存在確率の最も高いY座標。
:Z軸の離散化表現。自律飛行船の存在確率の最も高いZ座標。
φ:φ軸の離散化表現。自律飛行船の存在確率の最も高いφ座標(φは方位角)。
【0021】
ある時刻tで実行した行動が、その後の報酬獲得にどの程度貢献したのかを評価するため、その後に得られる報酬の時系列を考える。報酬の時系列評価は価値と呼ばれる。行動主体の目標は、価値を最大化すること、あるいはそのような方策を求めることである。価値は、時間の経過とともに報酬を割引率γ(0≦γ<1)で割引いて合計される。すなわち、ある時刻tにおける状態sにおいて、ある行動aを実行したときの価値関数Vπ(s)は、以下のように定義される。Eπは期待値を求める関数である。
【数1】

【0022】
ここでは価値関数として方策πの下での状態sの価値である状態価値関数Vπ(s)を例示したが、方策πの下で状態sにおいて行動aを採ることの価値である行動価値関数Qπ(s,a)を採用することもできる。
【数2】

【0023】
行動主体の目標は、最適な方策を求めること、つまり任意の状態sについて価値関数(上記の例では状態価値関数Vπ(s)である)が他の方策を採った場合よりも劣るものではない方策を求めることである。この方策の探求は、Bellman方程式で表され、すべての状態s、行動a、遷移先の状態s’の組み合わせについてのP(s’|s,a)とR(s’|s,a)の値が定まっていれば、ダイナミックプログラミング(Dynamic Programming)法により、最適な価値関数Vπ(s)及び方策πを計算することができる(例えば、三上 貞芳、皆川 雅章 共訳、R.S.Sutton、A.G.Barto 原著「強化学習」森北出版、1998、pp.94-118参照)。ダイナミックプログラミング法の処理は、周知技術であるため説明は省略する。
【0024】
〔本発明におけるモデル〕
本発明は、部分観測マルコフ決定過程(POMDP)のうち、行動主体の状態についての確率分布(これは一般的に信念と呼ばれる)が状態のエントロピーにて表現可能であるという仮定に基づく、いわばPOMDPのサブセットであるAugmented MDP(A-MDP)における動的計画法を応用する。これにより、流速や流れの向きが変化した際の自律移動ロボットの位置や方位角のずれの不確定性の程度が自律移動ロボットの方位角によって異なりえるが、本発明によって最適な経路が変化することを考慮した自律移動ロボットの動作計画が現実的な計算負荷で可能である。
【0025】
本発明で利用するA-MDPにおいては、MDPと同様に離散空間で状態が表現される。ただし、当該A-MDPでは、従来的なMDPと異なり、「自律飛行船の状態がどの状態にあるのかという確率」(信念)を記述するための変数がA-MDPの状態空間の要素である状態に追加されている。このため本発明では、状態空間を信念空間B={b,b,…,b}として構築する。ここで、信念空間中の状態b∈Bは、b=(X,Y,Z,φ,HXb,HYb,HZb,Hφb)である。各変数の意味は以下の通りである。
:X軸の離散化表現。状態bにおいて自律飛行船の存在確率の最も高いX座標。
:Y軸の離散化表現。状態bにおいて自律飛行船の存在確率の最も高いY座標。
:Z軸の離散化表現。状態bにおいて自律飛行船の存在確率の最も高いZ座標。
φ:φ軸の離散化表現。状態bにおいて自律飛行船の存在確率の最も高いφ座標。
Xb:自律飛行船のX値の確率分布についてのエントロピーHの離散化表現。
Yb:自律飛行船のY値の確率分布についてのエントロピーHの離散化表現。
Zb:自律飛行船のZ値の確率分布についてのエントロピーHの離散化表現。
φb:自律飛行船のφ値の確率分布についてのエントロピーHφの離散化表現。
【0026】
信念空間中の状態b∈Bは、MDPの場合の状態空間Sに含まれる状態s=(X,Y,Z,φ)に対応するものである。また、以下の説明では、状態bにおいて最も存在確率の高い位置座標を(X,Y,Z,φ)と表記し、それよりも存在確率の低い位置座標を(Xb,i,Yb,i,Zb,i,φb,i)と表記する。
【0027】
離散状態空間に確率の概念を導入することの意義は、自律飛行船の任務環境内に吹いている風の速度が一定ではなく或る幅の揺らぎをもって変化していることを考慮できる点にある。現実には、風速が平均値を中心にランダムに変化することが多い。このため、風の影響を受けて飛行する自律飛行船の毎回の行動ごとの変位量もその度にランダムに変化するのである。このような自律飛行船の変位の揺らぎに加えて自律飛行船の位置姿勢を計測するセンサの確率的計測精度を考慮したうえで、行動選択を行う毎に自律飛行船の任務環境内における各位置での存在確率を評価し、行動選択に反映することが本発明の特徴の一つとなっている。
【0028】
ここで、エントロピーの定義を述べる。エントロピーとは確率分布のばらつき具合を記述する変数である。一例として、自律飛行船のX方向の位置がXb,i値である確率をP(Xb,i)とするとX値の確率分布についてのエントロピーHは式(1)により計算される。HXbはこのHの値を離散化したものである。
【数3】

【0029】
同様に、自律飛行船のY方向の位置がYb,i値である確率をP(Yb,i)とするとY値の確率分布についてのエントロピーHは式(2)により、自律飛行船のZ方向の位置がZb,i値である確率をP(Zb,i)とするとZ値の確率分布についてのエントロピーHは式(3)により、自律飛行船の方位角がφb,i値である確率をP(φb,i)とするとφ値の確率分布についてのエントロピーHφは式(4)により計算される。HYbはこのHの値を離散化したものであり、HZbはこのHの値を離散化したものであり、HφbはこのHφの値を離散化したものである。
【数4】

【0030】
A-MDPにおいても、MDPの場合と同様に、或る時刻tにおける状態b∈Bにおいて、最適な行動aを実行したときの価値関数V(b)を求めることにより方策π(b)を決定する。そして、行動の結果与えられる報酬と結果として起こる状態遷移の確率が定義されることにより、A-MDPは完全に定義される。状態遷移確率と報酬は以下のように定義される。
P(b’|b,a):状態bにおいて行動aを選択した際に、状態が状態b’に遷移する確率。
R(b,a):状態bにおいて行動aを選択した際に与えられる報酬。
これらは、MDPの場合のP(s’|s,a)およびR(s’|s,a)に対応する。
【0031】
価値関数Vπ(b)は、更新式による繰り返し計算で得られる。この更新式は、繰り返し回数をTとして式(5)で表される。Σはすべてのb’における総和を表す。γは0<γ≦1を満たす定数である。
【数5】

【0032】
あるいは、報酬として状態b’が関係する場合には、つまり報酬がR(b’|b,a)の場合には、式(5)に替えて式(5.1)が用いられる。ここで、P(b’|b,a)は、状態がbの時に行動aを選択した後に状態がb’となる確率である。また、R(b’|b,a)は、状態がbの時に行動aを選択した後に状態がb’に遷移したときに与えられる報酬の値である。
【数6】

【0033】
上記の式(5)ないし式(5.1)による価値関数Vπ(b)の更新を|Vπ(b)−VπT−1(b)|の値が十分に小さくなるまで(例えば予め定められた十分に小さい値ε以下となるまで)繰り返すことによりVπ(b)を求めることができる。更新が完了したときに方策π(b)は、式(6)ないし式(6.1)により計算される。
【数7】

【0034】
詳細に述べると、式(5)と式(6)は、A-MDPの上位概念である部分観測マルコフ決定過程において定義された一般的な価値関数と方策の決定式に他ならない。しかし、状態bの定義の仕方(つまり状態bに含まれる要素の定義)が式(5)と式(6)の計算量を大きく左右する。特にP(b’|b,a)の値の決定とその総和を求める計算では計算量が大きい。上述のA-MDPは、式(1)−(4)で定義したエントロピーの概念を使用して信念空間Bを定義することにより式(5)と式(6)の計算量を大幅に減ずることが可能になっている。
【0035】
〔実施形態1〕
本発明の実施形態に係る動作計画装置の機能構成例を図1に示す。
本実施形態では、説明の簡略のため、自律飛行船の移動を水平面内運動に限定する。このため、Z座標については考慮しない。また、位置のデカルト座標のうちY軸を平均風向に平行になるように設定することにより、風の影響は、自律飛行船のX軸方向の移動においては無視可能と仮定できる。以上により、信念空間Bの各状態をb=(X,Y,φ,HYb,Hφb)として説明を行う。このように風向をY軸に一致させたことにより、状態空間を構成する変数のうちHXbを減らすことができる。ただし、Z方向の移動が含まれる場合には、X座標やY座標に対する計算と同様の処理をZ座標についても行えばよいため、容易に拡張することができる。
【0036】
動作計画装置は、実際に自律飛行船を制御する前に、信念空間B={b,b,…,b}の各状態b∈Bと各行動a∈A={a,a,…a}の組み合わせについて、状態bのときに行動aを選択した際に、状態b’へ遷移する遷移確率P(b’|b,a)とそのときの報酬R(b’|b,a)とを計算しておく。さらに、動作計画装置は、計算した遷移確率と報酬を元に価値関数Vπ(b)と方策π(b,a)とを計算し、これらの結果を記憶部に記憶しておく。したがって、本実施形態の説明で述べる自律飛行船の「現在位置」、「移動先の位置座標」、「計測位置座標」などは、実際の自律飛行船の位置座標ではなく、シミュレーション上の位置座標を表すものである。
【0037】
<記憶部>
記憶部50には、予め自律飛行船が取り得る行動の集合A={a,a,…,a}が記憶されているものとする。
また、記憶部50には、自律飛行船が遷移し得る離散的な状態の集合(信念空間)B={b,b,・・・,b}も予め記憶されているとする。
【0038】
ここで、b=(X,Y,φ,HYb,Hφb)∈Bである。XとYは、自律飛行船が遷移し得るX座標の範囲とY座標の範囲の範囲をそれぞれ離散化したときの各区間を表している。例えば、X軸方向の稼働範囲を0〜1kmとし、それを4分割して離散化したとすると、X=[0km,0.25km],X=[0.25km,0.5km],X=[0.5km,0.75km],X=[0.75km,1km]の区間に対応する。XはXからXのどれかである。
【0039】
方位角の離散値φは、方位角として取り得る範囲(0〜2π)を離散化した各区間を、0に近い方から順にφ,φ,・・・,φDφとおいたものである。
【0040】
Yi,Hφiは、取りうるエントロピーの離散値であり、予め計測センサの精度などを考慮してY値、φ値の存在確率の分布のばらつきとして取りうる値を設定しておく。例えば、エントロピーの最大値Hmax、Hmaxφを予め与えておき、0からHmax(またはHmaxφ)の範囲を離散化することにより、各HYi,Hφiを決定してもよい。
【0041】
○ステップS1
状態・行動選択部1は、記憶部から、まだ選択されていない状態b∈Bと行動a∈Aの組(b,a)を選択する。なお、すべての状態及び行動の組み合わせについて以降の計算を行うので、未選択の組み合わせの中から任意に選択を行うことができる。
【0042】
○ステップS2
現在位置座標決定部2は、状態・行動選択部1によって選択された状態bを仮定したときの自律飛行船の位置(X,Y,φ)を決定する。
【0043】
まず、式(7)により、状態bのときに自律飛行船が状態(Xb,i,Yb,i,φb,i)に存在する確率P(Xb,i,Yb,i,φb,i|b)を定義する。
【数8】

【0044】
式(7)にて、P(Xb,i|b)、P(Yb,i|b)、P(φb,i|b)は式(8)(9)(10)で定義される。ただし、積分範囲は式(8)の場合は状態Xb,i内全域、式(9)の場合は状態Y内全域、式(10)の場合は状態φb,i内全域を表す。
【数9】

【0045】
例えば、Xb,i=[0,0.25]であれば、式(8)は下記式のとおりである。
【数10】

【0046】
また、状態bのとき自律飛行船が座標(X,Y,φ)にいる確率分布p(X,Y,φ|b)を式(11)により定義する。
【数11】

【0047】
ここで、確率分布p(X|b)、p(Y|b)、p(φ|b)は、式(12)(13)(14)により定義される。
【数12】

【0048】
X,Y,φは変数であり、XbcはXの中心点のX座標,YbcはYの中心点のY座標,φbcはφの中心点のφ座標である。ここで、式(12)(13)(14)で使用しているσ、σ、σφの値は、動作計画の計算結果に大きく影響を与えるものである。
【0049】
現在位置座標決定部2は、式(7)または式(11)のいずれかを用いて、自律飛行船の位置(X,Y,φ)を決定する。式(7)を使用する場合は、P(Xb,i,Yb,i,φb,i|b)の値が示す確率に従って、サンプル状態(Xb,i,Yb,i,φb,i)を選び出し、選ばれたサンプル状態の中心点を自律飛行船の位置(X,Y,φ)とする。式(11)を使用する場合は、P(X,Y,φ|b)の値が示す確率に従って、サンプル点(X,Y,φ)を選び出し、自律飛行船の位置とする。
【0050】
なお、式(11)を使用して自律飛行船の位置を決定する場合でも、式(7)の値は後の処理(存在確率計算部による処理)で使用するので、この時点で式(7)も求めておく。
【0051】
本実施形態では、風の平均風向がY軸に平行なことを考慮してHXbの値をbの成分としていないことから、σをセンサの計測と使用しているフィルタの性能を考慮した一定値に固定し、主にσとσφの値について、式(7)を使用する場合は式(15)および式(16)を満たすように定める。ただし、HYbcは状態HYbの中心点のH座標であり、Hφbcは状態Hφbの中心点のHφ座標である。
【数13】

【0052】
なお、式(15)(16)を満たすσ、σφの値は、本処理の実行前に全てのbについて予め決定しておく。値の決定のためには、例えば、σについては、σの初期値として小さい値を設定して式(15)の右辺値を計算し、その結果とHYbcの値とを大小比較して、右辺値が小さい場合は、σの値を微小量だけ大きくし、逆に右辺値が小さい場合は、σの値を微小量だけ大きくなるように更新することで求めることができる。
【0053】
式(11)を使用する場合は、式(17)および式(18)により定める。
【数14】

【0054】
ここで、式(17)の積分範囲はY全域、式(18)の積分範囲はφ全域である。σとσφの値の決定方法は、式(15)と式(16)を満たすσとσφの値の決定方法と同じである。
【0055】
○ステップS3
移動先位置座標選択部3は、状態遷移確率分布p(X’−X,Y’−Y,φ’−φ|φb,i,a)の指す確率に従って、自律飛行船の移動後の位置を(X’,Y’,φ’)を決定する。状態遷移確率分布は、任務環境内の風速の平均値および揺らぎ量の大きさを反映して決める。状態遷移確率p(X’−X,Y’−Y,φ’−φ|φb,i,a)の値は、式(19)により決定する。
【数15】

【0056】
ここで、X’、Y’、φ’は変数であり、式(20)(21)(22)が成立する。
【数16】

【0057】
また、D(φb,i ,a),D(φb,i ,a),Dφ(φb,i ,a)は、方位角状態φb,iにおいて行動aを選択した際のX,Y,φの変位量の平均値である(特許第4406436号参照)。平均風速が各位置X,Yにて異なる値であることを考慮しなければならないので、D(φb,i ,a),D(φb,i ,a),Dφ(φb,i ,a)は、X,Yも変数に含んでいる。
【0058】
なお、σXt,σYt,σφtの値には、風速に関するばらつきの程度が影響する。風速が一定で変わらない場合は、自律飛行船の行動ごとの変位はD,D,Dφの値の計算の際に平均風速値が考慮されているので、決定された変位から大きくずれることはない。しかし、各行動の間に風速が急激に変動した場合、風速の変動分だけ自律飛行船は変動風速の影響を受けて変位に誤差を生じてしまう。その誤差のばらつきの程度を式(20)(21)(22)にて考慮している。
【0059】
自律飛行船の任務環境内の各位置における風速のばらつきに応じてσXt,σYt,σφtの値は変化する。一般には、σXt,σYt,σφtは、X,Yの関数となるところである。本実施形態では、平均風向はY軸に平行としているので風の影響はY軸方向のみに主に表れると考えてよく、σXtは一定値としてよい。σXtの大きさは、風向のばらつきの大きさに影響する量であるとも言える。風向のバラつきが大きい場合には、σXtの値をそれに応じて大きくするとよい。もし風向のばらつき量が各位置で異なるならば、σXtの値もX,Yの関数となる。σYt,σφtの値は、方位角φに依存する。一般的に自律飛行船は、真横から風を受ける場合に最も風の影響を受けやすい。逆に正面前方より風を受けた場合に、最も風の影響を受けにくいという性質がある。
【0060】
今、Y軸が風向に一致しているとして自律飛行船が飛行する環境内全域で風が吹いているとする。Y方向から見た飛行船の断面積をS(φ)とする。S(φ)についての非負値単調増加関数をF(S(φ))、Fφ(S(φ))、位置X,Yにおける風速のばらつきの大きさについての単調増加関数Fσ(X,Y)として、式(23)でσYt,σφtの値を決定する。簡単のため、σφtを一定値にして計算することも有用である。
【数17】

【0061】
もちろん、簡単のため、任務環境内での風速のばらつきの程度を一定値とすれば、Fσは一定値であり、また、平均風速を任務環境内で一定速度とすれば式(20)(21)(22)は以下のように簡略化される。
【数18】

【0062】
○ステップS4
計測位置座標選択部4は、センサによる計測確率分布p(MX’,MY’,Mφ’| X’,Y’,φ’)の指す確率に従って、移動先位置座標選択部3によって推定される自律飛行船の移動後の位置座標とセンサにより計測される実際の位置座標との誤差を考慮して、自律飛行船の移動後の位置座標(MX’,MY’,Mφ’)を決定する。計測確率分布p(MX’,MY’,Mφ’|X’,Y’,φ’)の値は、式(24)によって決定する。式(24)の右辺の各各確率は式(25)(26)(27)で定義される。
【数19】

【0063】
σMX,σMY,σMφの値は、自律飛行船に搭載しているセンサの精度を考慮して決定される。GPS(Global Positioning System)を位置計測センサとして、ジャイロセンサを方位角計測センサとして使用するのであれば、環境内全域で一定のσMX,σMYの値が設定される。無線LAN方式の位置計測センサを使用する場合は、環境内の各位置によって多少の精度の差があるので、σMX,σMYは、X,Yの関数となる。
【0064】
○ステップS5
存在確率計算部5は、自律飛行船の位置計測値を(MX’,MY’,Mφ’)とし、行動aを選択する前の状態bのときの自律飛行船が位置座標(Xb,i,Yb,i,φb,i)にいる確率をP(Xb,i,Yb,i,φb,i|b)として、離散ベイジアンフィルタを使用して、選択された行動後の状態b’を計算する。まず、存在確率計算部5は、全ての遷移先状態(Xb,i’,Yb,i’,φb,i’)について、式(28)で遷移先状態(Xb,i’,Yb,i’,φb,i’)に自律飛行船が存在する確率の予測値(存在確率予測値)P’(Xb,i’,Yb,i’,φb,i’)を計算する。
【数20】

【0065】
式(28)において、P(Xb,i’,Yb,i’,φb,i’|Xb,i,Yb,i,φb,i,a)は式(29)で表される。
【数21】

【0066】
式(28)で、Σは全(Xb,i,Yb,i,φb,i)についての総和である。∫iは遷移前状態i内全域についての積分、∫i’は遷移後状態i’内全域についての積分である。
【0067】
次に、存在確率計算部5は、計算したP’(Xb,i’,Yb,i’,φb,i’)の値を式(30)により補正する。ηは正規化係数である。
【数22】

【0068】
ここで、(Xb,i’c,Yb,i’c,φb,i’c)は、状態(Xb,i’,Yb,i’,φb,i’)の中心点である。
【0069】
そして、計算されたP(Xb,i’,Yb,i’,φb,i’|b’)の値のうち、P(Xb,i’,Yb,i’,φb,i’|b’)の値を最大にする状態(Xmaxb’,Ymaxb’maxb’)をb’における中心状態とし、式(31)(32)で計算されるエントロピーHY’,Hφ’の値から状態b’のエントロピー状態成分HYb’,Hφb’を決定し、b’=(Xmaxb’,Ymaxb’maxb’,HYb’,Hφb’)に更新する。Σは、全てのYまたはφについての総和を計算することを表す。
【数23】

【0070】
○ステップS6
遷移確率計算部6は、存在確率計算部5によって計算された状態b’に対する遷移確率P(b’|b,a)と報酬R(b’|b,a)の値を所定の値だけ増加させる(Nは繰り返し回数)。このようにすることで、或る(b,a)の組に対して、N回のシミュレーションを実行した結果、多く推定された移動後の状態b’に関する遷移確率と報酬が高く設定されることになる。遷移確率P(b’|b,a)のインクリメントは式(33)に従う。
【数24】

【0071】
報酬値のインクリメントは、式(34)(35)(36)(37)のいずれかに従う。
【数25】

【0072】
式(34)はベイジアンフィルタの結果をベースに報酬を決定する場合、式(35)は飛行船搭載センサの計測値をベースに報酬が決定される場合、式(36)は自律飛行船以外の飛行船の真値を知る第三者(人間操作者)により報酬の判定が行われる場合である。式(37)は、行動選択時の行動開始位置により報酬判定が行われる場合である。
【0073】
r(X,Y,φ)は、例えば、以下のような関数である。
【数26】

【0074】
○ステップS7
繰り返し制御部7は、状態・行動選択部1によって選択された(b,a)の組に対して、ステップS2−ステップS6の処理をN回繰り返したか否かを判定し、繰り返し回数がN回に満たない場合には現在位置座標決定部2による処理へ移行し、ステップS2−ステップS6の処理を繰り返し実行させる。繰り返し回数がN回に到達した場合には、状態・行動選択部1による処理へ移行し、まだ選択していない信念状態と行動の組についてステップS2−ステップS6の処理を実行させる。すべての信念状態と行動の組についてステップS2−ステップS6の処理を行った場合には、処理を終了する。
【0075】
○ステップS8
価値関数計算部8は、上述の処理で求めた遷移確率P(b’|b,a)と報酬R(b’|b,a)を用いて、式(5.1)により、価値関数Vπ(b)を計算する。ここで、|Vπ(b)−VπT−1(b)|の値が予め定めた閾値εより小さくなるまでTを増加させながらVπ(b)の値を更新していく。
【0076】
○ステップS9
方策計算部9は、式(6.1)により、上述の処理で求めた遷移確率P(b’|b,a)と報酬R(b’|b,a)と価値関数Vπ(b)を用いて、方策π(b,a)を求める。
【0077】
〔変形例1〕
上述のステップS1−ステップS6の処理では、信念空間内の全ての信念b=(X,Y,φ,Hyb,Hφb)について、行動aによる起こりうる全ての遷移先の信念b’について、P(b’|b,a)を評価していた。これを全空間で行っていては、計算量が膨大なものとなってしまう場合がある。幸い、自律飛行船の場合は、或る状態(X,Y,φ)に存在する自律飛行船は、一回の行動によって、X,Y,φ座標についてそれほど離れていない周囲の状態のどれかに移動することが分かっている。そして、その移動の際の、X,Y,φ座標での差分の量は、平均風速および風速のばらつき量が任務環境内の各位置で一定値であるという仮定を設けることが可能であれば、行動と方位角のみによって決定される。このことをうまく利用すると、遷移先の可能性のある信念b’についてのみP(b’|b,a)を評価すればよいため、計算量を大幅に削減することができる。
【0078】
P(b’|b,a)の評価の際に、bについては、X,Yの値を固定値としてb=(0,0,φ,Hyb,Hφb)とし、方位角とエントロピーのみのとりうる全ての値に対してb’への遷移確率を考慮する。ここでb’の中でX,Y,φの値が取りうる範囲は、一回の行動で自律飛行船が移動しうるX,Y,φ面内の距離がそれぞれdmaxXb,dmaxYb,dmaxφbとすれば、それぞれX,Y,φ方向の幅が2×dmaxXb+1,2×dmaxYb+1,2×dmaxφb+1となる格子空間に収まる。よって、この格子空間内の信念b’についてのみ、P(b’|b,a)を評価すればよい。
【0079】
以上によりP(b’|b,a)のデータ形式は、以下のような変数Pの配列データとなる。
【数27】

【0080】
Xb’,dYb’は、X,Yの変化量である。配列数の取りえる範囲は、それぞれ以下の通りである。
【数28】

【0081】
ここで、φmaxはφの状態数、HmaxYbはHYbの状態数、HmaxφbはHφbの状態数、amaxは行動数である。なお、XY平面内の移動と方位角φの変化については、独立の事象であると単純化することも可能であるから、方位角の変位量は、もとの方位角によらず行動のみに依存することも利用して、以下のようにP(b’|b,a)の配列データを組むことも可能である。
【数29】

【0082】
ここで、dφb’は、方位角φの変位量であり、以下を満たす。
【数30】

【0083】
以上により保持されたデータを利用して、b=(X,Y,φ,HYb,Hφb),b’=(Xb’,Yb’,φb’,HYb’,Hφb’)とすると、以下のいずれかが成立する。
【数31】

【0084】
〔変形例2〕
ステップS8の処理において式(5.1)によりVπ(b)値の計算を行う際に、ある(b,b’)の組に対して全てのaにおいて、P(b’|b,a)の値が0である場合には、式(5.1)の右辺は0となるため計算の意味がない。ここで、次に定義するフラグを使用する。
【数32】

【0085】
これらのフラグは、信念遷移確率の計算前には、すべて0に初期化されている。そして、ステップS6の処理において式(33)−(36)のP(b’|b,a)もしくはR(b’|b,a)のインクリメントが行われた際には、対応するdXb’,dYb’,dφb’のフラグ値を1に設定する。
【0086】
実際の(5)式による計算を実行する際には、bとb’のX,Y,φ座標の差分値とa値に対応したフラグの値を参照し、フラグ値が0である場合は、全てのbとb’のエントロピー値に対して(5)式の計算を行わない。
【0087】
変形例1と変形例2を用いることで、動的計画法での価値関数計算のコストを10倍近く短縮することができる。
【0088】
〔実施形態2〕
次に、動作計画装置により作成された価値関数Vπ(b)と方策π(b,a)を用いて、実施形態2において実際に動作主体の行動を制御する行動制御装置について説明を行う。
【0089】
行動制御装置は、行動選択を行う度に、得られた計測値(M,M,Mφ)に対してベイジアンフィルタを使用して、自律飛行船がどの位置にどの確率で存在するかについての確率分布P(X,Y,φ)を計算する。ベイジアンフィルタは、カルマンフィルタや、パーティクルフィルタなどが使用可能であるが、本発明においては、離散ベイジアンフィルタを採用するのが簡便である。その理由は、本発明における信念空間bは離散空間(X,Y,φ,HYb,Hφb)で構成されており、離散ベイジアンフィルタの式の定義をそのまま使用可能である点と、動作計画の計算の際に行うシミュレーションでも離散ベイジアンフィルタを使用しているので、実際のミッションと動作計画計算での仮定との間の違いを最小限にすることが可能である点によるものである。
【0090】
○ステップS11
位置取得部11は、自律飛行船に搭載された位置及び方位角計測センサ61により計測した、自機位置と方位角(M,M,Mφ)を取得する。
【0091】
○ステップS12
状態遷移確率計算部12は、フィルタリングで使用する状態遷移確率p(X’−X,Y’−Y,φ’−φ|φ,a)の値を式(19)により計算する。
【0092】
○ステップS13
計測確率計算部13は、式(24)により計測確率p(MX’,MY’,Mφ’| X’,Y’,φ’)の値を計算する。ここで、式(25)−(27)におけるMX’,MY’,Mφ’には、位置取得部で取得した値を利用する。
【0093】
○ステップS14
存在確率予測値計算部14は、全ての遷移先状態(Xb,i’,Yb,i’,φb,i’)について、(28)式により、遷移先状態(Xb,i’,Yb,i’,φb,i’)に自律飛行船が存在する確率の予測値(存在確率予測値)P’(Xb,i’,Yb,i’,φb,i’)を計算する。
【0094】
○ステップS15
存在確率予測値補正部15は、存在確率予測値P’(Xb,i’,Yb,i’,φb,i’)の補正を(30)式により補正する。
【0095】
○ステップS16
移動先状態決定部16は、存在確率予測値補正部15によって計算されたP(Xb,i’,Yb,i’,φb,i’|b’)の値のうち、P(Xb,i’,Yb,i’,φb,i’|b’)の値を最大にする状態(Xmaxb’,Ymaxb’maxb’)をb’における中心状態とし、式(31)(32)により計算されるエントロピーの値から、b’のエントロピー状態成分HYb’,Hφb’を決定し、b’=(Xmaxb’,Ymaxb’maxb’,HYb’,Hφb’)を移動先状態に決定する。
【0096】
○ステップS17
行動決定部17は、移動先状態決定部16によって決定された状態b’について、記憶部50に記憶された方策π(b’,a)を検索して行動aを決定する。自律飛行船の制御部62は、決定された行動aに基づきアクチュエータなどの制御を実行する。
【0097】
以上の動作を各時刻ステップで行い、各時刻ステップにおける自律飛行船の行動制御を行う。
【0098】
実施形態等から明らかなように、風速にばらつきがある環境中にて、自律飛行船の運動に対する、方位角による風の影響の違いを考慮した自律飛行船の動作計画が可能である。これにより、目標位置へ高い確率で自律飛行船が到達し、かつ障害物回避の確率も最大の経路を計算することができる。
【0099】
<動作計画装置および動作制御装置のハードウェア構成例>
上述の実施形態に関わる各装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、各装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0100】
各装置の外部記憶装置には、動作計画ないし行動制御のためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
【0101】
各装置では、記憶部に記憶されたプログラムとプログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(状態・行動選択部、現在位置座標決定部、移動先位置座標選択部、計測位置座標選択部、存在確率計算部、遷移確率計算部、繰り返し制御部、価値関数計算部、方策計算部/位置取得部、状態遷移確率計算部、計測確率計算部、存在確率予測値計算部、存在確率予測値補正部、移動先状態決定部、行動決定部)を実現することで動作計画ないし行動制御が実現される。
【0102】
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。上述の実施形態では確率分布として正規分布を与えたがこれに限定する趣旨ではない。具体的な確率分布は例えば自律移動ロボットの特性や任務環境などに応じて適宜に設定される。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0103】
また、上記実施形態において説明したハードウェアエンティティにおける処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0104】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0105】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0106】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0107】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
自律移動ロボットの動作計画方法であって、
上記自律移動ロボットの状態が、デカルト座標、方位角、当該デカルト座標の確率分布についてのエントロピー、当該方位角の確率分布についてのエントロピーを含んで表現されるとし、
上記自律移動ロボットが遷移しえる予め定められた上記状態の集合(以下、状態集合という)と上記自律移動ロボットの採りえる行動の集合(以下、行動集合という)が予め定められており、
状態・行動選択部が、上記状態集合の要素と上記行動集合の要素との組み合わせのうち未選択の組み合わせを選択する状態・行動選択ステップと、
現在位置座標決定部が、上記状態・行動選択ステップにおいて選択された上記組み合わせに含まれる状態の下で、上記自律移動ロボットのデカルト座標および方位角を要素とする位置座標の確率分布を計算する現在位置座標決定ステップと、
移動先位置座標選択部が、状態遷移確率に基づき、上記自律移動ロボットの移動後の位置を計算する移動先位置座標選択ステップと、
存在確率計算部が、上記現在位置座標決定ステップで計算された上記自律移動ロボットの位置座標の確率分布にベイジアンフィルタを適用して、遷移先の状態を求める存在確率計算ステップと、
遷移確率計算部が、現在の状態から上記存在確率計算ステップで得られた状態へ遷移する遷移確率と当該遷移に伴う報酬を計算する遷移確率計算ステップと、
制御部が、上記状態・行動選択ステップにおいて選択された上記組み合わせについて、上記現在位置座標決定ステップ、上記移動先位置座標選択ステップ、上記存在確率計算ステップ、上記遷移確率計算ステップの各処理を所定回数繰り返し実行し、当該所定回数繰り返し実行した場合には、上記状態・行動選択ステップの処理を行う制御を行う制御ステップと、
価値関数計算部が、上記遷移確率と上記報酬を用いて価値関数を計算する価値関数計算ステップと、
方策計算部が、上記遷移確率と上記報酬と上記価値関数を用いて表される方策関数を計算する方策計算ステップと
を有する自律移動ロボットの動作計画方法。
【請求項2】
請求項1に記載の自律移動ロボットの動作計画方法において、
計測位置座標選択部が、上記自律移動ロボットの位置座標を計測するセンサの計測誤差を確率分布で表し、当該センサで計測された位置座標と上記移動先位置座標選択ステップにおいて得られた上記自律移動ロボットの移動後の位置との誤差に基づいて、上記自律移動ロボットの移動後の位置を計算する計測位置座標選択ステップを有し、
上記存在確率計算ステップでは、存在確率計算部が、上記現在位置座標決定ステップで計算された上記自律移動ロボットの位置座標の確率分布にベイジアンフィルタを適用して得られた確率分布を上記計測位置座標選択ステップで得られた上記自律移動ロボットの移動後の位置に基づいて補正して、遷移先の状態を求め、
上記制御ステップは、制御部が、上記状態・行動選択ステップにおいて選択された上記組み合わせについて、上記現在位置座標決定ステップ、上記移動先位置座標選択ステップ、上記計測位置座標選択ステップ、上記存在確率計算ステップ、上記遷移確率計算ステップの各処理を所定回数繰り返し実行し、当該所定回数繰り返し実行した場合には、上記状態・行動選択ステップの処理を行う制御を行う
ことを特徴とする自律移動ロボットの動作計画方法。
【請求項3】
請求項1または請求項2に記載の自律移動ロボットの動作計画方法において、
上記遷移確率を求めるための計算を上記自律移動ロボットの1回の行動で遷移可能な状態の範囲に限定する
ことを特徴とする自律移動ロボットの動作計画方法。
【請求項4】
請求項1から請求項3のいずれかに記載の自律移動ロボットの動作計画方法において、
上記遷移確率が0である場合には上記価値関数の計算を行わない
ことを特徴とする自律移動ロボットの動作計画方法。
【請求項5】
請求項1から請求項4のいずれかに記載の自律移動ロボットの動作計画方法で決まった動作計画に基づき、自律移動ロボットを制御する自律移動ロボットの制御方法であって、
記憶部には、上記動作計画方法により得られた方策関数および、上記自律移動ロボットの採りえる行動の集合が記憶されており、
位置取得部が、上記自律移動ロボットのデカルト座標および方位角を要素とする位置座標を計測するセンサの計測結果を取得する位置取得ステップと、
状態遷移確率計算部が、状態遷移確率に基づき、上記自律移動ロボットの移動後の位置を計算する状態遷移確率計算ステップと、
存在確率予測値計算部が、上記位置取得ステップにて取得された位置座標から遷移先の位置座標に上記自律移動ロボットが存在する確率の予測値(以下、存在確率予測値という)を求める存在確率予測値計算ステップと、
移動先状態決定部が、上記存在確率予測値を最大にする位置座標を遷移先とする移動先状態決定ステップと、
行動決定部が、上記方策関数により行動を決定する行動決定ステップと
を有する自律移動ロボットの制御方法。
【請求項6】
請求項5に記載の自律移動ロボットの制御方法において、
計測確率計算部が、確率分布で表された上記センサの計測誤差に基づいて、上記センサで計測された位置座標の確率分布を求める計測確率計算ステップと、
存在確率予測値補正部が、上記存在確率予測値を上記計測確率計算ステップで得られた確率分布に基づいて補正する存在確率予測値補正ステップとを有し、
上記移動先状態決定ステップでは、移動先状態決定部が、上記存在確率予測値補正ステップで補正された存在確率予測値を最大にする位置座標を遷移先とする
ことを特徴とする自律移動ロボットの制御方法。
【請求項7】
自律移動ロボットの動作計画装置であって、
上記自律移動ロボットの状態が、デカルト座標、方位角、当該デカルト座標の確率分布についてのエントロピー、当該方位角の確率分布についてのエントロピーを含んで表現されるとし、
上記自律移動ロボットが遷移しえる予め定められた上記状態の集合(以下、状態集合という)と上記自律移動ロボットの採りえる行動の集合(以下、行動集合という)が予め定められており、
上記状態集合の要素と上記行動集合の要素との組み合わせのうち未選択の組み合わせを選択する状態・行動選択部と、
上記状態・行動選択部によって選択された上記組み合わせに含まれる状態の下で、上記自律移動ロボットのデカルト座標および方位角を要素とする位置座標の確率分布を計算する現在位置座標決定部と、
状態遷移確率に基づき、上記自律移動ロボットの移動後の位置を計算する移動先位置座標選択部と、
上記現在位置座標決定部が算出した上記自律移動ロボットの位置座標の確率分布にベイジアンフィルタを適用して、遷移先の状態を求める存在確率計算部と、
現在の状態から上記存在確率計算部によって得られた状態へ遷移する遷移確率と当該遷移に伴う報酬を計算する遷移確率計算部と、
上記状態・行動選択部によって選択された上記組み合わせについて、上記現在位置座標決定部、上記移動先位置座標選択部、上記存在確率計算部、上記遷移確率計算部による各処理を所定回数繰り返し実行し、当該所定回数繰り返し実行した場合には、上記状態・行動選択部による処理を行う制御を行う制御部と、
上記遷移確率と上記報酬を用いて価値関数を計算する価値関数計算部と、
上記遷移確率と上記報酬と上記価値関数を用いて表される方策関数を計算する方策計算部と
を含む自律移動ロボットの動作計画装置。
【請求項8】
請求項7に記載の自律移動ロボットの動作計画装置において、
上記自律移動ロボットの位置座標を計測するセンサの計測誤差を確率分布で表し、当該センサで計測された位置座標と上記移動先位置座標選択部によって得られた上記自律移動ロボットの移動後の位置との誤差に基づいて、上記自律移動ロボットの移動後の位置を計算する計測位置座標選択部を含み、
上記存在確率計算部は、上記現在位置座標決定部によって算出された上記自律移動ロボットの位置座標の確率分布にベイジアンフィルタを適用して得られた確率分布を上記計測位置座標選択部によって得られた上記自律移動ロボットの移動後の位置に基づいて補正して、遷移先の状態を求め、
上記制御部は、上記状態・行動選択部によって選択された上記組み合わせについて、上記現在位置座標決定部、上記移動先位置座標選択部、上記計測位置座標選択部、上記存在確率計算部、上記遷移確率計算部による各処理を所定回数繰り返し実行し、当該所定回数繰り返し実行した場合には、上記状態・行動選択部による処理を行う制御を行う
ことを特徴とする自律移動ロボットの動作計画装置。
【請求項9】
請求項7または請求項8に記載の自律移動ロボットの動作計画装置によって決まった動作計画に基づき、自律移動ロボットを制御する自律移動ロボットの制御装置であって、
上記動作計画装置により得られた方策関数と、上記自律移動ロボットの採りえる行動の集合を記憶する記憶部と、
上記自律移動ロボットのデカルト座標および方位角を要素とする位置座標を計測するセンサの計測結果を取得する位置取得部と、
状態遷移確率に基づき、上記自律移動ロボットの移動後の位置を計算する状態遷移確率計算部と、
上記位置取得部によって取得された位置座標から遷移先の位置座標に上記自律移動ロボットが存在する確率の予測値(以下、存在確率予測値という)を求める存在確率予測値計算部と、
上記存在確率予測値を最大にする位置座標を遷移先とする移動先状態決定部と、
上記方策関数により行動を決定する行動決定部と
を有する自律移動ロボットの制御装置。
【請求項10】
請求項9に記載の自律移動ロボットの制御装置において、
確率分布で表された上記センサの計測誤差に基づいて、上記センサで計測された位置座標の確率分布を求める計測確率計算部と、
上記存在確率予測値を上記計測確率計算部によって得られた確率分布に基づいて補正する存在確率予測値補正部とを含み、
上記移動先状態決定部は、上記存在確率予測値補正部によって補正された存在確率予測値を最大にする位置座標を遷移先とする
ことを特徴とする自律移動ロボットの制御装置。
【請求項11】
請求項1から請求項4のいずれかに記載の自律移動ロボットの動作計画方法の各ステップをコンピュータに実行させるための自律移動ロボットの動作計画プログラム。
【請求項12】
請求項5または請求項6に記載の自律移動ロボットの制御方法の各ステップをコンピュータに実行させるための自律移動ロボットの制御プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−41004(P2012−41004A)
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願番号】特願2010−185831(P2010−185831)
【出願日】平成22年8月23日(2010.8.23)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】