説明

情報処理装置及び行動モデル作成方法

【課題】警備システムの設計者が特別の知識を有する必要がなく且つ均一な品質の警備システムを提供可能にする情報処理技術を提供する。
【解決手段】情報処理装置は、警備対象となる敷地内及びその周囲に関する物理状態を示す物理状態情報を記憶する第1記憶手段と、物理状態を数値化するための物理状態数値化情報を記憶する第2記憶手段と、物理状態数値化情報を用いて、物理状態情報によって示される物理状態を数値化して、敷地内及びその周囲を環境として当該環境内の移動を行動として選択することで敷地の周囲からの見通し及び移動し易さのうち少なくとも一方に応じた報酬を得る強化学習により、敷地内において侵入者が辿る移動経路の可能性の高さを数値化して表す行動モデルを作成する作成手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び行動モデル作成方法に関する。
【背景技術】
【0002】
従来、警備対象の領域内にセンサを設置して、センサの検知結果を用いて異常の発生等を判断する警備システムがある。このような警備システムを設計する際には、一般的に、経験を積んだ者が現場を直接視察し、どのようにセンサを設置すれば良いかを決定していた。また、警備対象の領域内にセンサを複数設置してそれらのセンサの検知結果から異常か否かを判断する警備システムもある。例えば、特許文献1の技術では、人感センサの検知パターンが予め決められたパターンとマッチしているか否かを判断して、警報を送信するか否かを判断している。この技術においても、どこに人感センサを設置するのかを決定し、人感センサのどのような検知結果から異常と判断するかというルールを決定することは経験を積んだ者が行う必要があった。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平1−292600号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
このように、従来では、センサを設置する場所やセンサの検知結果から異常と判断するルールは、警備システムの設計者の知識や経験に依存して決定されていたため、人によって警備システムの設計にばらつきが生じ、品質や性能がばらつく可能性があった。
【0005】
本発明は、上記に鑑みてなされたものであって、警備システムの設計者が特別の知識を有する必要がなく且つ均一な品質の警備システムを提供可能にする情報処理装置及び行動モデル作成方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明は、情報処理装置であって、警備対象となる敷地内及びその周囲に関する物理状態を示す物理状態情報を記憶する第1記憶手段と、前記物理状態を数値化するための物理状態数値化情報を記憶する第2記憶手段と、前記物理状態数値化情報を用いて、前記物理状態情報によって示される前記物理状態を数値化して、前記敷地内及びその周囲を環境として当該環境内の移動を行動として選択することで前記敷地の周囲からの見通し及び移動し易さのうち少なくとも一方に応じた報酬を得ると定義した強化学習技術により、前記敷地内において侵入者が辿る移動経路の可能性の高さを数値化して表す行動モデルを作成する作成手段とを備えることを特徴とする。
【0007】
また、本発明は、情報処理装置であって、警備対象となる敷地内及びその周囲に関する物理状態を示す物理状態情報を記憶する第1記憶手段と、前記物理状態を数値化するための物理状態数値化情報を記憶する第2記憶手段とを備える情報処理装置で実行される行動モデル作成方法であって、前記物理状態数値化情報を用いて、前記物理状態情報によって示される前記物理状態を数値化し、前記敷地内及びその周囲を環境として当該環境内の移動を行動として選択することで前記敷地の周囲からの見通し及び移動し易さのうち少なくとも一方に応じた報酬を得ると定義した強化学習技術により、前記敷地内において侵入者が辿る移動経路の可能性の高さを数値化して表す行動モデルを作成することを特徴とする。
【発明の効果】
【0008】
本発明によれば、警備システムの設計者が特別の知識を有する必要がなく且つ均一な品質の警備システムが提供可能になる。
【図面の簡単な説明】
【0009】
【図1】図1は、情報処理装置の機能的構成を例示する図である。
【図2】図2は、敷地情報の入力例を例示する図である。
【図3】図3は、エリアIDの割り当てを例示する図である。
【図4】図4は、エリア毎のエリアID及びエリアカテゴリ情報を概念的に例示する図である。
【図5】図5は、エリアカテゴリテーブルのデータ構成を例示する図である。
【図6】図6は、エリア情報テーブルのデータ構成を例示する図である。
【図7】図7は、敷地情報DB54を模式的に示す図である。
【図8】図8は、エリアカテゴリが「窓」である場合の物理状態数値化テーブルを例示する図である。
【図9】図9は、エリアカテゴリが「扉」である場合の物理状態数値化テーブルを例示する図である。
【図10】図10は、エリアカテゴリが「障害物」である場合の物理状態数値化テーブルを例示する図である。
【図11】図11は、エリアカテゴリが「囲障」である場合の物理状態数値化テーブルを例示する図である。
【図12】図12は、エリアカテゴリが「窓」である場合の物理強度寄与係数を示す図である。
【図13】図13は、エリアカテゴリが「扉」である場合の物理強度寄与係数を示す図である。
【図14】図14は、エリアカテゴリが「障害物」である場合の移動容易性寄与係数を示す図である。
【図15】図15は、エリアカテゴリが「囲障」である場合の移動容易性寄与係数を示す図である。
【図16】図16は、強化学習によるエージェントの行動を説明するための図である。
【図17】図17は、情報処理装置の行う行動モデル作成処理の手順を示すフローチャートである。
【図18】図18は、ステップS4で利用する強化学習のアルゴリズムの概略を手順化して示した図である。
【図19】図19は、エージェントの移動規則を説明するための図である。
【図20】図20は、開口部への移動規則を説明するための図である。
【図21】図21は、見通しに関する報酬を説明するための図である。
【図22】図22は、φ外部(x)の例をグラフ化して示す図である。
【図23】図23は、φ障害物(x)の例をグラフ化して示す図である。
【図24】図24は、障害物による見通しの影響を説明するための図である。
【図25】図25は、警備対象となる敷地に含まれる各エリアに対して計算された侵入危険度を可視化した図である。
【図26】図26は、想定される侵入者の移動経路を表現した例を示す図である。
【発明を実施するための形態】
【0010】
以下に添付図面を参照して、この発明にかかる情報処理装置及び行動モデル作成方法の一実施の形態を詳細に説明する。
【0011】
ここで、警備システムで用いる情報処理装置のハードウェア構成について説明する。本実施の形態の情報処理装置は、装置全体を制御するCPU(Central Processing Unit)等の制御部と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の主記憶部と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の補助記憶部と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、情報処理装置には、情報を表示する表示部と、ユーザの指示入力を受け付けるキーボードやマウス等の操作入力部と、外部装置の通信を制御する通信I/F(interface)とが有線又は無線により各々接続される。
【0012】
次に、このようなハードウェア構成において、情報処理装置において実現される各種機能について図1を用いて説明する。図1は、情報処理装置の機能的構成を例示する図である。情報処理装置は、情報入力受付部51と、情報抽出部52と、行動モデル作成部53と、敷地情報DB(Data Base)54と、侵入者基本情報DB55とを有する。情報入力受付部51と、情報抽出部52と、行動モデル作成部53とは、CPUのプログラム実行時にRAM等の主記憶部上に生成されるものである。敷地情報DB54と、侵入者基本情報DB55とは、HDD等の補助記憶部に記憶されるものである。
【0013】
情報入力受付部51は、操作入力部を介して警備システムの設計者によって入力された、警備対象となる敷地内及びその周囲に関する敷地情報を受け付ける。敷地情報とは、警備対象となる敷地内及びその周囲に関する物理状態を示す情報である。敷地内及びその周囲に関する物理状態とは、例えば、敷地の大きさやその形や、敷地内にある物体の種類やその物体の位置及び大きさや、敷地外の道路や公園等の公共物体の位置及び大きさや、敷地に隣接する家等の私的物体の位置及び大きさである。敷地内にある物体に関する物理状態は、具体的には例えば、建物の位置、建物の形、建物の窓の位置、建物の扉の位置、囲障の位置、門扉の位置、障害物(岩、物置、池等)の位置及び大きさ、植栽の位置及び大きさ等である。また、建物の窓や扉に関しては、その材質、大きさ、錠の種類(鍵の状態)も物理状態に含まれ得る。囲障に関しては、材質、高さ、構造も敷地情報も物理状態に含まれ得る。門扉に関しては、種類、高さ、錠の種類(鍵の状態)も物理状態に含まれ得る。
【0014】
このような敷地情報は、例えば、図2に例示されるように、警備対象となる敷地内及びその周囲を表す敷地図を表示部に表示させ、当該敷地図において設計者が操作入力部を介して情報を入力するようにすれば良い。具体的には、例えば、この敷地図においては、複数の領域(エリア)に分割して敷地内及びその周囲が表されており、設計者は、エリア毎に、エリアカテゴリを指定し、更に、エリアにおけるエリアカテゴリに関する物理状態を入力する。エリアカテゴリとは、敷地内及びその周囲を抽象的に表現するために、敷地そのものや、敷地内やその周囲にある物体の種類を示す。例えば、建物部分のエリアは全て一律に「建物」と表現したり、囲障の部分に関してはその構造等が異なっていても「囲障」と一律に表現したりといったものである。エリアカテゴリには、他にも、窓や敷地、障害物等がある。エリアにおけるエリアカテゴリ毎の物理状態としては、例えばエリアカテゴリが「扉」である場合、人が通るために設置されてあるもののため、その設置高さや大きさは、大きくは変わらないと考えられることから、その強度に関することが分かれば良い。そのため、エリアカテゴリが「扉」であるエリアにおける物理状態としては、錠の種類や材質等を用いる。一方、エリアカテゴリが「窓」である場合、設置する目的によって大きさや設置高さが異なることから、その大きさや高さ、材質、錠の種類等を、エリアカテゴリが「窓」であるエリアにおける物理状態として用いる。情報入力受付部51は、このようにして設計者により操作入力部を介して入力された情報を敷地情報として受け付ける。尚、敷地が分割されたエリアには各々を識別可能にエリアIDが割り当てられるものとする。エリアIDの割り当ては、規則的であればどのような基準でも良いが、ここでの説明では図3に例示するように、敷地図の左上から行方向に「0」から順々に割り当てるものとする。
【0015】
図1の説明に戻る。情報抽出部52は、情報入力受付部51が入力を受け付けた敷地情報を用いて、各エリアの属するエリアカテゴリを表すエリアカテゴリ情報及び各エリアのエリアカテゴリ毎の物理状態を表すエリア情報を生成する。そして、情報抽出部52は、各エリアの属するエリアカテゴリを表すエリアカテゴリ情報をエリアIDと対応付けてエリアカテゴリテーブルに記憶させる。図4は、エリア毎のエリアID及びエリアカテゴリ情報を概念的に例示する図である。図5は、エリアカテゴリテーブルのデータ構成を例示する図である。また、情報抽出部52は、エリアカテゴリ毎に、各エリアの物理状態を表すエリア情報をエリアIDと対応付けてエリア情報テーブルに記憶させる。図6は、エリア情報テーブルのデータ構成を例示する図である。同図に示されるように、エリア情報テーブルはエリアカテゴリ毎に構築される。同図では、エリアカテゴリが「窓」「囲障」である場合のエリア情報テーブルが各々例示されている。このように、「エリアカテゴリ情報」によって敷地内及びその周囲のエリアが抽象的に表現され、それぞれのエリアにおける詳細な物理状態が、「エリア情報」によって表現される。これらのエリアカテゴリテーブル及びエリア情報テーブルは、図7に例示されるように、敷地情報DB54に記憶されている。
【0016】
図1の説明に戻る。侵入者基本情報DB55は、後述する行動モデル作成部53が用いるエリアカテゴリ毎の物理状態数値化テーブル及び後述する強化学習に必要な各種の係数を記憶する。物理状態数値化テーブルは、エリア情報によって示される物理状態を数値化するためのものであり、物理状態と数値との対応関係を記憶する。数値は、定性的な物理状態を定量化するもので、最大値が「1」の正の実数とする。図8は、エリアカテゴリが「窓」である場合の物理状態数値化テーブルを例示する図である。図9は、エリアカテゴリが「扉」である場合の物理状態数値化テーブルを例示する図である。図10は、エリアカテゴリが「障害物」である場合の物理状態数値化テーブルを例示する図である。図11は、エリアカテゴリが「囲障」である場合の物理状態数値化テーブルを例示する図である。これらの各物理状態数値化テーブルにおいては、物理状態を示す項目毎に各々数値が対応付けられている。物理状態を示す項目とは、例えば、大きさ、設置高さ、材質、材質強度等のことである。
【0017】
強化学習に必要な各種の係数とは、具体的には、エリアカテゴリ毎の物理強度寄与係数や移動容易性寄与係数がある。物理強度寄与係数は、建物に対する開口部となる窓や扉のエリアカテゴリに属するエリアのエリア情報によって表される物理状態が侵入工作(窓や扉の破壊等によって建物内へ侵入しようとする行動)の成功に寄与する度合いを示す係数である。例えば、窓に対する侵入工作を考えた際に、「大きさ」という物理状態を表すエリア情報は、あまり寄与せず(係数は比較的小さい)、「材質」や「錠の種類」といった物理的な強度を表すエリア情報が特に寄与する(係数は比較的大きい)。このようなエリアカテゴリが「窓」である場合の物理強度寄与係数は、図12に例示される通りとなる。図13は、エリアカテゴリが「扉」である場合の物理強度寄与係数を示す図である。
【0018】
エリアカテゴリ毎の移動容易性寄与係数とは、障害物等のエリアカテゴリに属するエリアのエリア情報によって表される物理状態が移動し易さに影響を与える度合いを示す係数である。図14は、エリアカテゴリが「障害物」である場合の移動容易性寄与係数を示す図である。図15は、エリアカテゴリが「囲障」である場合の移動容易性寄与係数を示す図である。
【0019】
図1の説明に戻る。行動モデル作成部53は、敷地情報DB54及び侵入者基本情報DB55を参照して、機械学習手法の1つである強化学習により、エリア毎の侵入危険度を計算して、警備対象となる敷地内において侵入者が辿る移動経路の可能性の高さを数値化して表す行動モデルを作成する。
【0020】
強化学習とは、エージェントと呼ばれる仮想の行動者に、対象となる環境(対象環境という)での最適な行動選択規則を獲得させる技術である。本実施の形態において、対象環境とは、警備システムの設計者が敷地情報を入力した警備対象となる敷地内及びその周囲であり、エリアIDが割り当てられたエリアの集合であると定義する。エージェントを一般的な侵入者とみなし、最適な行動選択規則として一般的な侵入者の行動選択規則、つまり、「行動モデル」を獲得させている。強化学習では、エージェントの行動は、離散化して定義する。例えば、図16に示すように、ある位置から「上、下、左、右」の4つの行動が選択できると定義し、その行動を選択すると、選択した行動に対応した位置へエージェントが移動する。行動選択規則は、エリア毎に離散化させた行動がどの程度良いのかを示す「行動価値関数Q(X,A)」を利用する。行動価値関数とは、エージェントが存在する位置「X=x」において離散化した行動「A=a」を選択することがどの程度良いのかを表す値である。Aは上述した離散化した行動が入る。Xは、対象環境におけるエージェントの位置(座標)である。ここでは各位置を各エリアに対応させる。この行動価値関数Q(X,A)を利用し、エージェントは、現在位置「X=x」において、どの行動「A=a」を選択すると最もQ(x,a)が高くなるかという基準に従って行動を選択する。強化学習においては、エージェントが現在持っている行動価値関数に従って行動を選択し、その行動を実行する。すると、対象環境から報酬rと呼ばれる値が返されると設定する。この報酬rとは、その行動がどの程度良い行動であったのかを表す指標である。この報酬rの総和(これを収益Rと呼ぶ)を最大化するように行動価値関数Q(X,A)を修正していくことが強化学習と呼ばれる技術である。行動の選択、報酬の観測、そして、行動価値関数Q(X,A)の更新を多数回繰り返すことで、最適な行動選択規則を獲得することができる。行動価値関数Q(X,A)は、以下の式1に従って更新していく。
【0021】
【数1】

【0022】
ここで、式1内のαは学習係数と呼ばれ、値の更新の速度を定める定数である。これには「0」〜「1」の間の実数を与える。通常、αは「0.1」かそれ以下の値を設定する。γは割引率と呼ばれ、得られる報酬をどの程度先まで考慮するかといった指標の定数である。これには「0」から「1」の実数を与え、小さい値にすればすぐ先の報酬までしか考慮しないことを表す。通常、「0.99」程度の「1.0」に近い値を設定する。
【0023】
本実施の形態においては、報酬rは、移動コストと呼ぶ各エリアにおける周囲からの見通しや移動し易さに応じて与えられる負の値として定義する。移動コストの与え方としては、見通しが良かったり、障害物等があって移動しにくかったりすると報酬rは大きな負の値を返し、逆に、見通しが悪かったり、移動し易かったりすれば、報酬rは小さな負の値を返すと定義する。強化学習においては、報酬rの総和である収益Rを最大化することが目的であるので、移動コストが高い(負の値が大きい)エリアにはなるべく存在せずに、移動コストが小さい(負の値が小さい)エリアへ移動したがる。一般的な住宅では、外部空間に近いエリアでは見通しが良く移動コストが高い。そして、建物の裏等見通しが悪ければ移動コストが低い。つまり、外部空間から侵入した侵入者は、侵入工作の行いやすい建物裏方向等へ移動していくという一般的な侵入者の動きをこの報酬関数によって表現することができる。移動コストは、敷地内の物理状態によって変化するため、このようにして行動価値関数Q(X,A)を獲得すれば、一般的な侵入者が敷地内をどのように移動したがるかが警備対象となる敷地内に対してモデル化できる。
【0024】
行動モデル作成部53は、以上のような強化学習によって得られた行動モデルを、警備システムにおいて利用されるアプリケーション毎に適切な行動モデルの形式に変換する。この結果、当該アプリケーションがこれを利用することが可能になり、警備システムにおいて各種機能を実現することが可能になる。
【0025】
次に、本実施の形態にかかる情報処理装置の行う行動モデル作成処理の手順について図17を用いて説明する。まず、警備システムの設計者が、表示部に表示された敷地図に対して、操作入力部を介して上述した敷地情報を入力すると、情報処理装置は、当該敷地情報の入力を受け付け(ステップS1)、当該敷地情報を用いて、上述したエリアカテゴリ情報及びエリア情報を生成する(ステップS2)。そして、情報処理装置は、エリアカテゴリ情報をエリアIDと対応付けて、エリアカテゴリテーブルに記憶させると共に、エリアカテゴリ毎にエリア情報をエリアIDと対応付けてエリア情報テーブルに記憶させることにより、エリアカテゴリ情報及びエリア情報を敷地情報DB54に記憶させる(ステップS3)。そして、情報処理装置は、敷地情報DB54及び侵入者基本情報DB55を参照して、上述した強化学習により、エリア毎の侵入危険度を計算する(ステップS4)。
【0026】
図18は、ステップS4で利用する強化学習のアルゴリズムの概略を手順化して示した図である。ここではエージェントが行動する「対象環境」と「報酬関数」との設定が必要となる。「対象環境」は、上述したように、警備対象となる敷地内及びその周囲であり、ステップS1で設計者が敷地情報を入力した敷地内及びその周囲である。エージェントは、当該敷地が複数に分割されてエリアIDが割り当てられたエリア間を移動していくことになる。その移動規則は、図19に示すように、上下左右の行動をエージェントが選択した際に、その方向にあるエリアに必ず移動するものとする。ただし同じく図19に示すように、建物や大きな障害物等移動できないエリアのある方向への移動を選択した場合には、元のエリアへ戻され、結果的に、元のエリアから移動しないものとする。行動選択規則としては、上述の式1に示される行動価値関数Q(X,A)を利用し、現在のエリアXにおいて、行動価値関数Q(X,A)の値が最大になる行動Aを選択する。ただし、確率εでランダムに行動を選択するものとする。ここで、εがなければ、常に決まった行動しか選択されないため、局所的な解に落ち着いてしまう。そのため、様々な行動を試すという要素が必要になり、そのためにεを入れている。εは、通常「0.1」程度の値とする。そして、エリアカテゴリが「窓」や「扉」である開口部のエリアから、エリアカテゴリが「建物」であるエリアのある方向への行動が選択された際には、図20に示すように、その行動を確率的に実行するものとして、当該行動を実行することになった場合、エージェントはゴール位置に移動したとして、次にスタート位置へ再度戻される。一方、当該行動を実行しないことになった場合、エージェントは開口部のエリアから移動することなく留まることになる。ここで、ゴール位置とは、即ち、建物の中に侵入することである。確率的にゴール位置へ移動するというものは、イメージしやすい例として、スゴロク等におけるゴール条件のようなものである。スゴロクにおいては、ゴールへの到達にはサイコロの特定の数字を出す必要があるといったルールがある場合があり、これと全く同様の考え方で、本実施の形態においてもエージェントがゴールできるか否かは確率的に決まる。他のエリアへは決定的に移動するのに対し、ゴール位置へだけは確率的に移動させる理由として、侵入者が侵入工作を行う際に、その窓や扉の強度等の物理状態によっては、侵入までに多少時間がかかるであろうということが挙げられる。ここで、このゴール位置に辿り着く確率を「侵入工作成功確率」と呼び、以下の式2で表す確率を利用する。
【0027】
【数2】

【0028】
ここで、式2のαとは確率の定義に従うように値を正規化するための正規化定数である。この式2は、開口部の物理状態を表す項目毎に定められた規則に従って、開口部の物理状態を数値化(V状態i(状態))し、その値に係数(a状態i)をかけたものを総和し、正規化させることを意味している。ここで、開口部の状態の数値化(V状態i(状態))には、図8〜9に示される物理状態数値化テーブルを用いる。尚、開口部の物理状態を表す項目は窓と扉とで異なるため、上述の式2に利用する係数や定数は開口部の種類毎に定める必要がある。具体的に式2を書き下すと、以下の式3〜4のようになる。式3は窓に対する侵入工作成功確率であり、式4は扉に対する侵入工作成功確率である。
【0029】
【数3】

【0030】
報酬関数rは、対象環境内の各エリアに関して、見通しや移動し易さに依存して変化する関数である。報酬関数は、エージェントが行動を選択する毎に与えられ、以下の式5に従って計算されるものとした。
【0031】
【数4】

【0032】
ここで、P見通し(x)は、エージェントが行動を選択して実行した後に移動した先のエリアの周囲からの見通しに関する関数である。周囲からの見通しが良ければ良いほど大きい負の値となる。次に、P移動(x)は、エージェントが行動を選択して実行し、エリアを移動する際の移動し易さに関する関数である。障害物等があり、移動しにくい状況であればあるほど、大きな負の値となる。見通しに関する報酬P見通し(x)は、移動した先のエリアxに関して、図21に例示されるように、周囲4方向(上下左右)の外部空間(道路等の公共空間と隣家等の私的空間)からの見通しの度合いを総合して定める。具体的には以下の式6により計算される。
【0033】
【数5】

【0034】
周囲4方向(上下左右)のそれぞれの方向での見通しに関する値は、以下の式7より計算される。
【0035】
【数6】

【0036】
ここで、外部空間とは、警備対象となる敷地の周囲のことである。bPは、その方向にある外部空間における見通しの基準値である。bPの値は、外部空間が道路や公園等の公共物体のある公共空間であれば「-1.0」程度、隣家等の私的物体のある私的空間であれば「-0.1」程度とする。これは、その方向にある外部空間から見られるリスクを相対的に表したものである。具体的には、移動先のエリアのある方向にある領域であって警備対象となる敷地の周囲の領域のエリアカテゴリが公共物体に属するものである場合、即ち、外部空間が公共空間である場合、不特定多数の人に見られる可能性があることから見られるリスク(見通し)が高いと考え、大きな値を設定する。逆に、移動先のエリアのある方向にある領域であって警備対象となる敷地の周囲の領域のエリアカテゴリが私的物体に属するものである場合、即ち、外部空間が私的空間である場合、不特定多数の人が存在できる空間ではないため、その空間に人がいる可能性は低くなるはずである。そのため、見られるリスク(見通し)は低いと考えて、この場合、bPを小さい値に設定する。
【0037】
次に、φ外部(x)は、外部空間からの見通しの良さをあらわした関数であり、外部空間から距離が離れるほどに小さくなる。図22は、φ外部(x)の例をグラフ化して示す図である。図22の横軸は外部空間からの距離を表し、縦軸はφ外部(x)を表す。先にも述べたが、図22からも分かるように、外部空間からの見通しの良さを表す関数によって計算される値は、外部空間からの距離に応じて減少していく。距離に応じて減少していく理由は、距離が離れれば離れるほど、侵入者の細かい動きや細かい事柄等が見えにくくなり、また、周囲から気づかれにくい(意識されにくい)からである。よって、図22に示すように、外部空間からの見通しは、距離が離れるほどに悪くなる。尚、外部空間からの距離、即ち、移動先のエリアのある方向にある領域であって警備対象となる敷地の周囲の領域から移動元のエリアまでの距離は、各エリアの位置に基づいて計算することができる。
【0038】
また、φ障害物(x)は障害物に隠れることによって見通しが悪くなることを表した関数である。φ障害物(x)は、障害物によって外部空間から見られるリスクをどの程度減少させるかを示したものであり、障害物から離れるほどに「1.0」に近づいて行き、見られるリスクが減少されなくなる(つまり見られるリスクが大きくなる)ことを表す。図23は、φ障害物(x)の例をグラフ化して示す図である。図22と同様に図23も、横軸は外部空間からの距離を表し、縦軸はφ障害物(x)を表す。先にも述べたが、図23からも分かるように、障害物による見通しへの影響を表す関数によって計算される値は、障害物からの距離に応じて上昇していく。障害物からの距離に応じて上昇していく理由は、図24に示すように、障害物の影で障害物の直近にいる場合には、周囲から見られる範囲が限られるのに対し、離れるほどに周囲から見える範囲が広くなるからである。つまり、障害物から離れるほどに障害物が見通しに与える影響が小さくなっていく。φ外部(x)は式8により表される。φ障害物(x)は式9により表される。尚、障害物からの距離、即ち、移動先のエリアのある方向にある領域であってエリアカテゴリが「障害物」である領域から移動元のエリアまでの距離は、各エリアの位置に基づいて計算することができる。
【0039】
【数7】

【0040】
ここで、βは、最大減衰率であり、見通しの影響をどこまで下げるかを定める定数である。aは距離が離れることによって減衰する度合いを表す。γは最大減衰率の半分まで減衰する距離を表す。d(O,x)は、現在のエリアxと「O」までの距離を表す。
【0041】
次に、移動し易さに関する報酬P移動(X)は、移動した先のエリアxのエリアカテゴリが障害物や囲障等の場合に必要になる。P移動(x)は、エリアxのエリアカテゴリが囲障や障害物であった場合に、そのエリアのエリア情報に基づいて以下の式10に従って計算される。
【0042】
【数8】

【0043】
ここで、式10中のa状態iは、障害物や囲障に関する移動容易性寄与係数である(図14〜15参照)。式10中のV状態i(状態)は、式2のものと同様の役割を持っており、エリアカテゴリ毎のエリアの物理状態を数値化するためのものである。このV状態i(状態)を求めるためには、図10〜11に示される物理状態数値化テーブルを用いる。本実施の形態においては以上のようにして報酬関数を規定している。
【0044】
次に、図18の手順について順を追って説明すると、情報処理装置は、行動価値関数Q(X,A)の全ての値を「0」にする等して行動価値関数Q(X,A)を初期化する(ステップS20)。そして、情報処理装置は、エージェントを任意のスタート位置にセットする(ステップS21)。次いで、情報処理装置は、行動価値関数Q(X,A)を利用してスタート位置でエージェントが取る最初の行動aを選択する(ステップS22)。そして、情報処理装置は、エージェントが当該行動aを実行してその結果移動したエリアx’とそれに応じて得られる報酬rを観測する(ステップS23)。そして、ステップS23と同様にして、情報処理装置は、行動価値関数Q(X,A)を利用して、移動したエリアx’でエージェントが取る行動aを選択する(ステップS24)。そして、情報処理装置は、行動価値関数Q(X,A)を式1により更新する(ステップS25)。その後、情報処理装置は、上述した確率的にエリアx’からゴール位置に移動するか否かを判断する(ステップS26)。当該判断結果が肯定的である場合には(ステップS26:YES)、ステップS21に戻り、当該判断結果が否定的である場合(ステップS26:No)、ステップS23に戻る。
【0045】
以上のような強化学習により、情報処理装置は、行動価値関数Q(X,A)の値を、各エリアの侵入危険度として各々計算する。即ち、警備対象となる敷地内において一般的な侵入者がどのように移動していくかといった規則が行動価値関数Q(X,A)として計算される。尚、各エリアについて上下左右のそれぞれの方向に対して行動価値関数Q(X,A)は計算されているため、警備対象となる敷地に含まれる各エリアについて上下左右のそれぞれの方向に対する行動価値関数Q(X,A)の各値からなるデータが、侵入者の行動モデルとして作成される。図25は、警備対象となる敷地に含まれる各エリアに対して計算された侵入危険度を可視化した図である。同図の左側には、警備対象となる敷地が複数に分割されエリアIDが割り当てられた各エリアが示されている。エリアID「14」,「16」のエリアカテゴリが「窓」であり、エリアID「56」のエリアのエリアカテゴリが「扉(玄関)であり、エリアID「24」〜「27」,「34」〜「37」,「44」〜「47」のエリアのエリアカテゴリは「建物」であるとする。その他のエリアは庭であるとし、障害物がない理想的な庭であると仮定した。同図の右側には、同図の左側に示される敷地を2次元の座標として、エリア毎の侵入危険度を高さとして示す次元を加えた3次元の座標が示されている。尚、同図では、図の簡略化のため、侵入危険度として、エリア毎の4方向の行動価値関数Q(X,A)の平均値を用いている。この図から分かるように、侵入危険度は建物の開口部、特に、建物裏側の見通しが悪い開口部へ近づくほどに高くなる。
【0046】
図17に戻る。情報処理装置は、ステップS4で作成した行動モデルを、利用したいアプリケーション毎に適切な行動モデルの形式に変換する(ステップS5)。ここでは、2つのアプリケーションの例を示す。
【0047】
1つ目の例は、行動価値関数を利用して、侵入者の行動モデルを移動経路として表現するアプリケーションである。ステップS4で計算された行動価値関数Q(X,A)は、ある位置Xに一般的な侵入者が存在した場合に、次に移動する位置X’はどこになる可能性が高いかを表すものであるから、任意のスタート位置から侵入者がどこに向かいやすいのかといった侵入者の移動経路を容易に想定することができる。図26は、3箇所のスタート位置から想定される侵入者の移動経路を表現した例を示す図である。このようにして想定した移動経路で侵入者を実際に検出できるようにセンサを配置することで侵入者の検出を適切に行うことが可能になる。このような本実施の形態にかかる行動モデルを利用することで、誰でも容易に一定の品質の警備診断を行うことができる。
【0048】
2つ目の例は、行動価値関数を確率モデルに変換し、参考文献1に記載の技術で作成する必要のある行動モデルの一部を自動的に作成するアプリケーションである。
(参考文献1)特願2009−270686
【0049】
行動価値関数Q(X,A)を利用して、参考文献1の技術において必要となる侵入者の行動モデルのうち、位置移動の確率表として、行動価値関数Q(X,A)を以下に説明するように変形させたものが適用できる。参考文献1の技術において使用する位置移動の確率表は、あるエリアxから次のエリアx’へ移動する確率(移動確率という)P(x’|x)で表される。行動価値関数Q(X,A)は、現在いるエリアxから次にとる行動の価値を表し、行動とは、「上、下、左、右」の方向にあるエリアへの移動を表す。この行動価値関数を利用して、次のエリアx’への移動確率を計算するために、行動価値関数Q(X=x,A=a)の値を以下の式11で示すようにGibbs分布等を利用して、単純に確率の定義にあわせる。
【0050】
【数9】

【0051】
ここで、τは確率の差のつけ方を規定する定数である。式11中のA(xt+1)は、現在のエリアxtから、次のエリアxt+1へ移動させるための行動である。以上のような操作を行うことによって、参考文献1の技術において使用できる確率モデルとして行動価値関数Q(X,A)を変換することができる。
【0052】
以上のように、本実施の形態においては、設計者が、警備対象となる住宅等の建物のある敷地内及びその周囲に関する物理状態を示す敷地情報を情報処理装置に入力し、情報処理装置は、当該敷地情報に基づいて、敷地を複数に分割したエリア毎の情報としてエリアカテゴリ情報及びエリア情報を記憶する。そして、情報処理装置は、エリアカテゴリ情報及びエリア情報に基づいて、当該敷地内において一般的な侵入者が効率的に移動するためのエリア移動ルールを、強化学習のアルゴリズムを適用することで計算する。情報処理装置は、このようなエリア移動ルールを計算することで、侵入者があるエリアから次にどのエリアに行きたがるのかを想定することができ、従って、敷地内において一般的な侵入者がどのような移動経路を辿り易いのかを表す行動モデルを作成することができる。一般的な侵入者の行動モデルを作成できれば、どの箇所から侵入者は侵入しようとするのか、また、どのような移動経路を辿るのかを把握することができるため、警備システムの設計者の経験に拠らずに均一な品質の警備診断を行うことが可能になる。即ち、本実施の形態によれば、警備システムの設計に大きなばらつきが生じる可能性が少なくなり、均一な品質の警備システムを提供することができる。
【0053】
また、警備システムの設計者は敷地情報を情報処理装置に入力すれば、侵入者の行動モデルを自らの知識と経験とに基づいて自ら作成しなくても済むため、設計者の手間を大幅に削減することが可能になる。
【0054】
また、本実施の形態において情報処理装置が作成した行動モデルは、参考文献1の技術で必要となる行動モデルに容易に適用することができる。
【0055】
[変形例]
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
【0056】
上述した実施の形態において、情報処理装置で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供するように構成しても良い。
【0057】
上述した実施の形態において、敷地情報及びその入力の方法は、上述の例に限らない。例えば、情報抽出部52が生成するエリアカテゴリ情報及びエリア情報自体を設計者が入力して、エリアカテゴリ情報及びエリア情報を敷地情報DB54に記憶させるようにしても良い。また、エリアカテゴリ情報及びエリア情報のデータ構成は上述の例に限らない。また、敷地情報DB54及び侵入者基本情報DB55の構成は、上述したものに限らない。
【0058】
また、敷地情報の入力の際に表示部に表示させる敷地図は、複数の領域に予め分割されていなくても良く、この場合、設計者は、敷地図においてエリアカテゴリ毎に区域を指定して、敷地情報を入力し、その後、情報抽出部52が、敷地図を複数の領域に分割して、各領域にエリアIDを割り当てて、設計者により指定されたエリアカテゴリ毎の区域に属する領域を各々判断して、上述のように、エリアカテゴリ情報及びエリア情報を生成してこれらを各々エリアIDと対応付けて敷地情報DB54に記憶させるようにしても良い。
【0059】
上述した実施の形態において、情報処理装置は、情報入力受付部51及び情報抽出部52を有するようにしたが、情報入力受付部51を有さなくても良いし、更に、情報抽出部52を有さなくても良い。情報処理装置が情報入力受付部51を有さない場合、警備システムの設計者は他の情報処理装置で敷地情報を入力し、当該他の情報処理装置が当該敷地情報を情報処理装置に送信し、情報処理装置は、受信した敷地情報を用いてエリア毎のエリアカテゴリ情報及びエリア情報を生成してこれを敷地情報DB54に記憶させるようにしても良い。また、情報処理装置が情報入力受付部51及び情報抽出部52を有さない場合、警備システムの設計者は他の情報処理装置で敷地情報を入力し、当該他の情報処理装置が当該敷地情報を用いてエリア毎のエリアカテゴリ情報及びエリア情報を生成してこれを情報処理装置に送信し、情報処理装置は、受信したエリア毎のエリアカテゴリ情報及びエリア情報を敷地情報DB54に記憶させるようにしても良い。
【0060】
上述した実施の形態において、侵入工作成功確率を計算する式は式2〜4に限定するものではなく、開口部の物理状態に応じて値が変化するような侵入工作成功確率を計算可能な関数であれば良い。
【0061】
上述した実施の形態において、報酬関数を計算する式は式6〜10に限定するものではなく、見通しや移動し易さによって値が変化するような報酬関数を用いれば良い。
【0062】
上述した実施の形態において、窓や扉等の開口部を有する建物がある敷地を警備対象としたが、これに限らず、建物がなく地下室に入るための扉等の開口部がある敷地を警備対象としても良い。
【符号の説明】
【0063】
51 情報入力受付部
52 情報抽出部
53 行動モデル作成部
54 敷地情報DB
55 侵入者基本情報DB

【特許請求の範囲】
【請求項1】
警備対象となる敷地内及びその周囲に関する物理状態を示す物理状態情報を記憶する第1記憶手段と、
前記物理状態を数値化するための物理状態数値化情報を記憶する第2記憶手段と、
前記物理状態数値化情報を用いて、前記物理状態情報によって示される前記物理状態を数値化して、前記敷地内及びその周囲を環境として当該環境内の移動を行動として選択することで前記敷地の周囲からの見通し及び移動し易さのうち少なくとも一方に応じた報酬を得る強化学習により、前記敷地内において侵入者が辿る移動経路の可能性の高さを数値化して表す行動モデルを作成する作成手段とを備える
ことを特徴とする情報処理装置。
【請求項2】
前記物理状態情報は、前記敷地内及びその周囲が複数に分割された領域のそれぞれについて、前記領域にある物体の種類を表すエリアカテゴリ情報と、前記領域における前記物体の種類に関する物理状態を示すエリア情報とを含み、
前記作成手段は、前記領域毎に、前記物理状態数値化情報を用いて、前記領域に対応する前記エリアカテゴリ情報によって示される前記種類に対応して前記エリア情報によって示される前記物理状態を数値化して、前記領域間の移動を行動として選択することで前記報酬を得る前記強化学習により、前記行動モデルを作成する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記種類は、前記敷地内にある物体の種類として、障害物及び囲障のうち少なくとも1つに分類される第1種類を含み、
前記第1種類に関する物理状態は、大きさ、高さ、材質及び前記構造の少なくとも1つであり、
前記第2記憶手段は、前記第1種類に関する物理状態に応じて移動し易さに影響する度合いを示す第1係数を更に記憶しており、
前記作成手段は、前記行動モデルを作成する際に、第1領域から第2領域への移動を行動として選択したときに前記第2領域に対応する前記エリアカテゴリ情報によって前記第1種類が示される場合、前記第2領域に対応する前記エリア情報によって示される物理状態に応じた前記第1係数を用いて計算される前記報酬を得る前記強化学習により、前記行動モデルを作成する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記作成手段は、前記行動モデルを作成する際に、第3領域から上下左右のいずれかの方向にある第4領域に移動することを選択する前記強化学習により、前記行動モデルを作成する
ことを特徴とする請求項2又は3に記載の情報処理装置。
【請求項5】
前記種類は、前記敷地の周囲にある物体の種類として、公共物体に分類される第2種類及び私的物体に分類される第3種類を含み、
前記作成手段は、前記行動モデルを作成する際に、前記第3領域から前記第4領域への移動を選択することで、前記第4領域のある方向にある領域であって前記敷地の周囲に属する第5領域に対応する前記エリアカテゴリ情報によって示される前記種類が前記第2種類又は前記第3種類であるかに応じて見通しに関する報酬を得る前記強化学習により、前記行動モデルを作成する
ことを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記作成手段は、前記行動モデルを作成する際に、前記第3領域から前記第4領域への移動を選択することで、前記第4領域のある方向にある領域であって前記敷地の周囲に属する第6領域から前記第3領域までの距離に応じて見通しに関する報酬を得る前記強化学習により、前記行動モデルを作成する
ことを特徴とする請求項4又は5に記載の情報処理装置。
【請求項7】
前記種類は、前記敷地内にある物体の種類として、障害物に分類される第4種類を含み、
前記作成手段は、前記行動モデルを作成する際に、前記第3領域から前記第4領域への移動を選択することで、前記第4領域のある方向にある領域であって前記エリアカテゴリ情報によって前記第4種類が示される第7領域からの距離に応じて見通しに関する報酬を得る前記強化学習により、前記行動モデルを作成する
ことを特徴とする請求項4乃至6のいずれか一項に記載の情報処理装置。
【請求項8】
前記種類は、建物に分類される第5種類と、前記建物に対する開口部に分類される第6種類とを含み、
前記第6種類に関する物理状態は、大きさ、材質強度、設置高さ及び前記開口部に掛けられる鍵の状態の少なくとも1つであり、
前記第2記憶手段は、前記第6種類に関する物理状態に応じて侵入工作の成功に寄与する度合いを示す第2係数を更に記憶しており、
前記作成手段は、前記行動モデルを作成する際に、前記エリアカテゴリ情報によって前記第6種類が示される第8領域から、当該第8領域に対応する前記エリア情報によって示される物理状態に応じた前記第2係数を用いて計算される確率に応じて、前記エリアカテゴリ情報によって前記第5種類が示される第9領域に移動することを選択する前記強化学習により、前記行動モデルを作成する
ことを特徴とする請求項2乃至7のいずれか一項に記載の情報処理装置。
【請求項9】
警備対象となる敷地内及びその周囲に関する物理状態を示す敷地情報の入力を受け付ける入力受付手段と、
前記入力受付手段が入力を受け付けた前記敷地情報を用いて、前記物理状態情報を生成する生成手段とを更に備え、
前記第1記憶手段は、前記生成手段が生成した前記物理状態情報を記憶する
ことを特徴とする請求項1乃至8のいずれか一項に記載の情報処理装置。
【請求項10】
警備対象となる敷地内及びその周囲に関する物理状態を示す物理状態情報を記憶する第1記憶手段と、前記物理状態を数値化するための物理状態数値化情報を記憶する第2記憶手段とを備える情報処理装置で実行される行動モデル作成方法であって、
前記物理状態数値化情報を用いて、前記物理状態情報によって示される前記物理状態を数値化し、
前記敷地内及びその周囲を環境として当該環境内の移動を行動として選択することで前記敷地の周囲からの見通し及び移動し易さのうち少なくとも一方に応じた報酬を得る強化学習により、前記敷地内において侵入者が辿る移動経路の可能性の高さを数値化して表す行動モデルを作成する
ことを特徴とする行動モデル作成方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate


【公開番号】特開2012−83854(P2012−83854A)
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願番号】特願2010−227767(P2010−227767)
【出願日】平成22年10月7日(2010.10.7)
【出願人】(000202361)綜合警備保障株式会社 (266)
【Fターム(参考)】