事前ルールを用いた前処理装置、前処理方法および、この前処理装置を用いた情報抽出装置、情報抽出方法
【課題】数値データをカテゴリデータに変換するための閾値を容易かつ適切に決定する。
【解決手段】イベント集合データベースDB1と、閾値・制約データベースDB2と、事前知識ルールデータベースDB3と、最適化パラメータデータベースDB4と、閾値最適化手段5と、閾値パラメータデータベースDB6とを有し、閾値最適化手段5は、予めユーザが有する事前ルールを必ず満たすように、数値データをカテゴリ化するための閾値変数の値を決定する。
【解決手段】イベント集合データベースDB1と、閾値・制約データベースDB2と、事前知識ルールデータベースDB3と、最適化パラメータデータベースDB4と、閾値最適化手段5と、閾値パラメータデータベースDB6とを有し、閾値最適化手段5は、予めユーザが有する事前ルールを必ず満たすように、数値データをカテゴリ化するための閾値変数の値を決定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、膨大な情報をカテゴリ化し、有用な相関ルールを抽出する情報抽出装置に関し、特に、情報をカテゴリ化するための閾値を算出する前処理装置に関する。
【技術背景】
【0002】
近年、センサ及び記憶装置の発達により、様々なイベントデータを蓄積することが可能となった。ここでイベントデータとは、何らかのイベントが発生した時に収集されるデータであり、例えば、店舗内に訪れる全ての顧客の店内での動作を観測して得られる顧客の位置を示す数値データや、顧客の購買ログから得られた購買データをいう。しかし、このように収集され、蓄積されたイベントデータは大量であるため、従来は、これらの大量のイベントデータに対して、相関の高い組み合わせをルールとして抽出し、提示することで、有用なデータを提供している。ここで相関ルールとは、全てのイベントデータに対して同時に現れるアイテムの組み合わせをいい、相関の高いルールとは、全てのイベントデータに対してある一定以上の確率で同時に現れるアイテムの組み合わせをいう。
【0003】
これらの相関の高いルールは、データに現れるアイテム間の共起関係のみを表すものであり、必ずしもアイテム間の因果関係が存在するわけではないが、因果関係をもつルールが存在する場合もある。そこで、抽出された複数の相関ルールの中からユーザが因果関係のありそうなルールを選び、別の方法で因果関係があることを調べることで、ユーザの意思決定を助けることができる。例えば、一人の顧客の店舗内の動作データと購買データをイベントとし、店舗内の動作と購入した商品をアイテムと考え、「デザート売り場滞在」、「お菓子売り場滞在」、「パン売り場滞在」、「ロールケーキ購入」の4つのアイテムが全イベントの10%のイベントに含まれ、かつ「デザート売り場滞在」、「お菓子売り場滞在」、「パン売り場滞在」を含むイベントの90%が「ロールケーキ購入」も同時に含むという結果から、「デザート売り場とお菓子売り場とパン売り場に置いてある商品の区別がうまくいかないため、ロールケーキ購入者は必要以上の時間をかけてロールケーキを探している」といった仮説をユーザがたて、売り場に配置する商品の見直しを行うことなどが考えられる。
【0004】
このように、大量のデータから有用な相関ルールを抽出するには、観測して得られた数値データをいくつかのカテゴリに分類するといった前処理(カテゴリ化)を行った後に、アイテムの集合である相関ルールの候補を生成し、全イベントに対して相関ルール候補が含まれるかを検索し、それが含まれるイベントの数を数え、それがユーザの指定する割合以上存在するか否かを調べる必要がある。(例えば、特許文献1を参照)。
【0005】
ここで、例えば、顧客の位置を示す位置座標を数値データとして有する場合、この数値データを次のようにしてカテゴリ化している。
【0006】
すなわち、顧客の位置を表すxとyが(1式)と(2式)を満たす場合は「デザート売り場」、(1式)と(4式)を満たす場合は「パン売り場」、(3式)と(4式)を満たす場合は「お菓子売り場」、(2式)と(3式)を満たす場合は「飲料水売り場」と定める。
【0007】
0≦x<10 (1式)
0≦y<10 (2式)
10≦x<20 (3式)
10≦y<20 (4式)
この場合、位置座標(1,1)は「デザート売り場」に、(1,15)という位置座標は「パン売り場」に変換される。
【0008】
従来、このように数値データをカテゴリデータに変換するために、ユーザ自らが事前ルールなどを用いて閾値を設定していた。しかし、ユーザが有する事前ルールを用いたとしても明確にカテゴリに分けるための閾値を定めることができない場合が多い。例えば、身長を「高い」、「普通」、「低い」の3つのカテゴリに分けるための閾値を決定する場合であっても、「175cm以上を高い」それとも「174cm以上を高い」のどちらがよいかをユーザが判断することは難しい。このため、従来はユーザがそれぞれの閾値のうちいくつかを変更し、出てきた結果を確認するといった作業を繰り返して、所望の結果を得る必要があった。
【0009】
また、間違った閾値によるカテゴリ化を行った場合、抽出される相関ルールの質に影響を与えることがある。例えば、魚売り場のエリアを広く、肉売り場のエリアを狭く設定することで、「魚売り場」と「豚肉購入」が相関ルールとして抽出される場合が考えられる。このような時に抽出される誤ったルールはユーザをかえって混乱させる場合がある。
【特許文献1】特開平11−250084号公報
【発明の開示】
【発明が解決しようとする課題】
【0010】
上述したように、ユーザは、数値データをカテゴリ化する際に設定する閾値変数の値に対して、明確な判断基準を持つことは難しい。従って、ユーザが複数の閾値変数のうちのいくつかを変更し、それによって生成される相関ルールを確認するといった作業を繰り返す必要があるため、効率よく有用な相関ルールを得ることは難しい。
【0011】
さらに、間違った閾値変数の値によるカテゴリ化を行った場合、抽出される相関ルールの質に影響を与えることがある。例えば、魚売り場のエリアを広く、肉売り場のエリアを狭く設定することで、「魚売り場」と「豚肉購入」が相関ルールとして抽出される場合が考えられる。このような時に抽出される誤ったルールはユーザをかえって混乱させる場合がある。
【課題を解決するための手段】
【0012】
本発明の情報抽出装置の前処理装置は、上記の問題に鑑みてなされたものであり、同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータを記録したイベント集合データベースと、このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルが記録された閾値・制約データベースと、所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして記録した事前知識ルールデータベースと、この事前知識ルールデータベースに予め含まれた全ての前記事前ルールを、前記制約の下で、前記イベント集合データベースから抽出するように前記閾値変数の値を算出する閾値最適化手段と、この閾値最適化手段によって算出された前記閾値変数の値が記録された閾値データベースと、この閾値データベースに記録された前記閾値変数の値を表示する表示装置と、を具備することを特徴とするものである。
【0013】
また、本発明の情報抽出装置の前処理方法は、同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータをイベント集合データベースに記録し、このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルを閾値・制約データベースに記録し、所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして事前知識ルールデータベースに記録し、この事前知識ルールデータベースから前記事前ルールを抽出し、この抽出された前記事前ルールが有する前記第1のラベルを含むIDが有する前記軌跡データを前記イベント集合データベースから全て抽出し、前記閾値・制約データベースから、前記条件、制約を抽出し、この抽出された前記制約の下で、前記事前ルールが最も高い確率で現れるように前記閾値変数の値を算出することを特徴とする情報抽出装置の前処理方法である。
【0014】
すなわち、本発明は、予めユーザが有する事前ルールを用いて、特定のアイテム集合と、その集合を含むイベントに含まれる確率が高いアイテムと、これらが少なくとも含まれる確率(共起確率)とを事前ルールとしてデータベースに記録し、この事前ルールが必ず現れるように、数値データをカテゴリ化する際に必要な閾値変数の値を自動的に決定するものである。
【発明の効果】
【0015】
このような本発明によれば、ユーザが閾値変数の値を直接決められない場合でも、数値データをカテゴリ化する際に必要な閾値変数の値を容易かつ適切に決定することができる。
【発明を実施するための最良の形態】
【0016】
以下に、本発明の実施形態を図1〜図15を参照して説明する。
【0017】
(第1の実施形態)
図1は、本発明の実施形態における事前ルールを用いた前処理装置の構成を概略的に示すブロック図である。
【0018】
図1に示すように、本実施形態に係る事前ルールを用いた前処理装置は、イベント集合データベースDB1と、閾値・制約データベースDB2と、事前知識ルールデータベースDB3と、最適化パラメータデータベースDB4と、閾値最適化手段5と、閾値パラメータデータベースDB6と、閾値表示装置7とで構成される。
【0019】
次に、このような事前ルールを用いた前処理装置を構成する各要素について、図2〜図7を参照して説明する。
【0020】
まず、イベント集合データベースDB1に記録されるデータについて、図2を参照して説明する。
【0021】
イベント集合データベースDB1には、被観測体のID及び被観測体に関するデータが記憶されている。このうち、被観測体に関するデータは、数値データとカテゴリデータに分類される。数値データとは、例えば、被観測者の体、頭、足、手の位置、速度、加速度、体の向きなどをセンサで観測することで得られる被観測者の動作の計測値、または、年齢、所得などのアンケートなどを用いることによって得られる被観測者の属性値の一部、またはPOS端末などから得られる購入金額、購買点数などである。また、カテゴリデータとは、例えば、性別や職業などのアンケートデータで得られる被観測体の属性値の一部や要望、または、POS端末などから得られる購入した商品などである。ここでは被観測体に関するデータの一例として、数値データが被観測者の体の移動軌跡データであり、カテゴリデータが被観測者の購買データである場合について説明する。
【0022】
図2は、イベント集合データベースDB1に記録されるデータであり、図2Aは数値データを示し、図2Bはカテゴリデータを示している。
【0023】
図2Aに示すように、被観測体の移動軌跡データを記録したテーブルは、複数のレコードからなり、1つのレコードには被観測体のID、データ名、データの種類、観測時間、及び被観測体の体の位置を示すx座標、y座標、z座標が記録されている。図2Aにおいては、被観測体001が、2007年8月1日15時32分00秒にx軸30cm、y軸20cm、z軸170cmの位置にいて、15時32分01秒にはx軸15cm、y軸20cm、z軸170cmの位置にいて、15時32分02秒にはx軸15cm、y軸10cm、z軸170cmの位置にいたことを示している。また、これらのデータの種類が数値であり、データ名が体の位置であることを示している。なお、このテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0024】
また、図2Bに示すように、被観測体の購買データを記録したテーブルは、複数のレコードからなり、1つのレコードは被観測体のID、データ名、データの種類、観測時間、購買した商品が記録されている。図2Bにおいては、被観測体001は2007年8月1日15時30分00秒にItem10及びItem21を購入し、被観測体002は2007年8月1日15時10分00秒にItem35を購入し、被観測体003は2007年8月1日15時00分00秒にItem42を購入したことを示している。また、これらのデータの種類はカテゴリデータであり、データ名が購買であることを示している。なお、このテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0025】
次に、閾値・制約データベースDB2に記録されるデータについて、図3を参照して説明する。ここでは、イベント集合データベースDB1に記録された数値データである被観測体の位置座標を、商品エリアに分割するというカテゴリ化を行う場合について説明する。
【0026】
図3は、閾値・制約データベースDB2に記録されるデータであり、図3Aは数値データ名と算出すべき閾値変数を示し、図3Bは、カテゴリ化した後に付けるラベルと数値データをカテゴリ化するための条件を示し、図3Cは閾値変数の制約を示している。
【0027】
図3Aに示すように、数値データ名と算出すべき閾値変数を記録したテーブルは、複数のレコードからなり、1つのレコードにはデータ名、閾値変数名が記憶されている。これらの閾値変数名は、ユーザによって指定されるものである。図3Aにおいては、データ名が体の位置であり、この体の位置を示す数値データを商品エリアであるカテゴリに分類するための閾値変数がX1、X2、Y1、Y2、T1であることを示している。なお、このテーブルは、例えば分類する商品エリア毎に複数あってもよいし、本実施形態に示すように、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0028】
また、図3Bに示すように、数値データをカテゴリ化した後に付与するラベルと数値データをカテゴリ化するための条件を記録したテーブルは、複数のレコードからなり、1つのレコードにはデータ名、数値データをカテゴリ化した後に付与するラベル名、ラベルが付与されるための条件が記録されている。ここで、ラベル名及び数値データをカテゴリ化するための条件は、ユーザによって指定される。図3Bにおいては、被観測体を、例えば「A商品エリア滞在」というカテゴリに分類するための条件を示している。A商品エリア滞在というラベルが与えられ、「A商品エリア滞在」というカテゴリに分類されるためには、数値データの位置座標x、yがそれぞれ(5式)、(6式)を満たさなければならない。
【0029】
X1<=x<X2 (5式)
Y1<=y<Y2 (6式)
さらに、(5式)(6式)の条件で分類される「A商品エリア滞在」なるカテゴリに含まれる時間を示すtは、(7式)を満たさなければならない。
【0030】
T1<t (7式)
すなわち、被観測体に、A商品エリア滞在なるカテゴリに分類され、「A商品エリア滞在」なるラベルが付与されるためには、(5式)、(6式)、(7式)を満たさなければならないことを示している。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0031】
また、図3Cに示すように、数値データをカテゴリ化するための閾値変数の制約が記録されたテーブルは、複数のレコードからなり、1つのレコードには、データ名、閾値変数名、閾値変数の制約式が記録されている。この制約式は、ユーザによって指定されるものである。図3Cにおいては、数値データをカテゴリ化するための閾値変数X1、X2、Y1、Y2はそれぞれ(8式)、(9式)、(10式)、(11式)を満たす範囲でなければならないことを示している。
【0032】
0<=X1<=2000 (8式)
0<=X2<=2000 (9式)
0<=Y1<=2000 (10式)
0<=Y2<=2000 (11式)
ここで、これらの制約式は、例えば店舗の大きさを最大値として定めたものであり、各閾値は、この店舗の大きさ以上には設定できないことを意味する。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0033】
次に、事前知識ルールデータベースDB3に記録されるデータについて、図4を参照して説明する。
【0034】
図4に示すように、事前知識ルールデータベースDB3に記録されるテーブルは、複数のレコードからなり、レコードには、多くのイベントに含まれるカテゴリデータのアイテムと数値データをカテゴリ化した後に付与されるラベルを持つアイテムを含むアイテム集合とそれらが含まれる確率(共起確率)とが事前ルールとして記録されている。この事前ルールは、ユーザによって指定されるものである。図4においては、例えば、1番目のレコードは、購買データのアイテム「Item10購入」は、90%以上の確率で、体の位置を示す数値データの「A商品エリア滞在」というラベルをもつアイテムを含むイベントに含まれるということを示している。他も同様であり、2番目のレコードは、購買データのアイテム「Item20購入」は、80%以上の確率で「B商品エリア滞在」、3番目のレコードは、購買データのアイテム「Item30購入」は、80%以上の確率で「C商品エリア滞在」、4番目のレコードは、購買データのアイテム「Item40購入」は、80%以上の確率で「D商品エリア滞在」というそれぞれのラベルをもつアイテムを含むイベントに含まれるということを示している。なお、このテーブルに記録されたレコードは、単数であってもよい。
【0035】
すなわち、図4に示すこれらのデータは、例えば「Item10を購入した人の90%以上の人はA商品エリアに滞在する」といったユーザの事前知識を用いて作成する、いわゆる当たり前のルールである。
【0036】
なお、事前知識ルールデータベースDB3は、商品のカテゴリを分類の抽象度に合わせて階層的に記録した商品マスタを使用することで、ユーザが階層を指定し、その階層に対して共通にまた個別に異なる共起確率を入力することによって、自動的に事前ルールを作成し、事前知識ルールデータベースDB3に記録してもよい。例えば、図5に商品マスタの一例を示すように、1番目のレコードは、小分類Item10−01は、中分類ではItem10に含まれており、さらにItem10は、大分類ではItemAに含まれることを表している。同様に、2番目のレコードは、小分類Item10−02は、中分類ではItem10に含まれており、さらにItem10は、大分類ではItemAに含まれることを表している。これらの分類において、大分類のラベルは、例えばお菓子、肉、魚といった大まかな商品の区分によってつけられたラベルであり、中分類のラベルは、例えばチョコレート、せんべいといった細かな商品の区分によってつけられたラベルであり、小分類のラベルは、例えば商品名や味までを含むような詳細な商品の区分によってつけられたラベルである。このような商品マスタを用いることによって、例えば、ユーザが大分類を指定した場合は、ItemA購入と、ItemAエリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースDB3に記録される。同様に、ユーザが中分類が指定した場合は、Item10購入と、Item10エリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースDB3に記録され、ユーザが小さい分類が指定した場合は、Item10−01購入と、Item10−01エリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースDB3に記録される。
【0037】
次に、最適化パラメータデータベースDB4に記録されるデータについて、図6を参照して説明する。
【0038】
図6に示すように、最適化パラメータデータベースDB4に記録されるテーブルは、複数のレコードからなり、1つのレコードには、後述する閾値最適化手段5で使用するパラメータの1つが記録されている。閾値最適化手段5で使用するパラメータは、ユーザによって指定されるものであり、例えば初期値を探索する最大回数を表すパラメータである初期値最大探索回数(Lth)、最適値を探索する最大回数を表すパラメータである最大探索回数(Nth)、2種類の閾値変数の増減を表す閾値増減値D1、D2、初期値の生成に必要なパラメータ(R)である。図6においては、Lth=100、Nth=10000、D1=10、D2=1、R=10であることを示している。なお、閾値増減値D1、D2は、例えば(12式)に示すように、探索回数に対して減少するような関数式であってもよい。
【0039】
D1=α/Nth×N (12式)
N:探索回数
α:定数値
なお、このテーブルに含まれるレコードは、上述のように複数あってもよいし、例えばパラメータが1つの場合には、単数であってもよい。
【0040】
次に、閾値最適化手段5は、詳細な説明は後述するが、イベント集合データベースDB1に記録された数値データとカテゴリデータを用いて、閾値・制約データベースDB2に記録された閾値変数に対する制約下で事前知識ルールデータベースDB3に記録された事前ルールが適切に表れるように、閾値・制約データベースDB2に記録された閾値変数の値を自動的に求める手段であり、求められた閾値は、後述の閾値パラメータデータベースDB6に記録される。なお、この閾値変数は、事前知識ルールデータベースDB3に含まれる各事前ルールに対して閾値変数の値を求めてもよいし、公知技術であるJohn H. Holland「Adaptation in Natural and Artificial Systems」University of Michigan Press, 1975に記載されているようなGA(Genetic Algorithm:遺伝的アルゴリズム)などの多目的最適化手法を用いて事前知識ルールデータベースDB3に含まれる事前ルールのすべてのルールを満たすような最適な閾値変数の値を一度に求めてもよい。
【0041】
次に、閾値パラメータデータベースDB6に記録されるデータについて、図7を参照して説明する。
【0042】
図7に示すように、閾値パラメータデータベースDB6に記録されるテーブルは、複数のレコードからなり、レコードには、データ名、閾値変数名、閾値最適化手段5によって算出された最適な閾値変数の値が記録されている。図7においては、1番目のレコードは、体の位置を示す数値データをカテゴリ化するための閾値変数X1の値が100であることを示している。同様に閾値変数X2の値は200、閾値変数Y1の値は100、閾値変数Y2の値は200、閾値変数T1の値は15であることを示している。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらを1つのテーブルにまとめて記録させてもよい。また、例えば閾値変数が単数である場合等は、テーブルに記録されるレコードが単数であってもよい。
【0043】
最後に、閾値表示装置7は、閾値パラメータデータベースDB6に記録された最適な閾値変数をユーザに表示すための装置であり、例えば通常のディスプレイ装置がこれに該当する。
【0044】
続いて、閾値最適化手段5として、1つの事前ルールに対する閾値変数の最適解を求める方法について、図8、図9を用いて説明する。
【0045】
閾値最適化手段5は、数値データをカテゴリ化するための閾値変数の値の初期設定を行うための処理手順1と、処理手順1で設定された閾値変数の値を最適化するための処理手順2に大別される。図8に処理手順1、図9に処理手順2を示すフローチャートを示す。
【0046】
まず、数値データをカテゴリ化するための閾値変数の値の初期設定を行うための処理手順1を、図8を参照して説明する。
【0047】
図8に示すように、処理手順1では、はじめに、事前知識ルールデータベースDB3を参照し、そこに記録されている事前ルールの中から、j番目の事前ルールを取り出す(S101)。jは抽出した事前ルールの格納されている順番を示しており、例えば、j=1では格納されている1番目の事前ルール取り出すこととなる。事前知識ルールデータベースDB3が図4である場合、抽出される事前ルールは、「Item10購買」、「A商品エリア滞在」で共起確率は90%である。
【0048】
次に、イベント集合データベースDB1を参照し、該当するカテゴリラベルを含む全ての被観測体のIDを全て抽出する。上述の例では、「Item10購入」というカテゴリデータを有する被観測体のIDを全て抽出する。そして、事前ルールに含まれるカテゴリ化する数値データのデータ名と抽出した被観測体のIDをもとに、イベント集合データベースDB1から対象となる被観測体のデータを抜き出し、事前ルール該当イベントセットの作成を行う(S102)。ここで、イベントセットに含まれる被観測体数をN1とする。
【0049】
次に、閾値・制約データベースDB2を参照し、S101で抽出した事前ルールに含まれるカテゴリ化する数値データのラベルに関する閾値変数とその条件式と制約式を抽出する(S103)。例えば、事前ルールに含まれるカテゴリ化する数値データのラベルが「A商品エリア滞在」であり、閾値変数、条件式、制約式が図3A、図3B、図3Cの場合、求めるべき閾値変数として、X1、X2、Y1、Y2、T1の5種類が抽出される。また条件式として、上述の(5式)、(6式)、(7式)が抽出される。また、制約式として、上述の(8式)、(9式)、(10式)、(11式)が抽出される。
【0050】
次に、S102で作成した事前ルール該当イベント集合データセットに含まれる全てのデータ点を対象とし、半径Rの円に含まれるデータ点の個数(N2)を算出する。この円は、i番目に個数が多い点(Xs、Ys)を中心とした円であり、このときの(Xs、Ys)を用いて、X1,X2、Y1、Y2の初期値を(13式)、(14式)、(15式)、(16式)、(17式)のように設定する(S104)。
【0051】
X1S=Xs−R (13式)
X2S=Xs+R (14式)
Y1S=Ys−R (15式)
Y2S=Ys+R (16式)
T1S=N2/N1 (17式)
ここでiは、初期値の生成回数を示し、初期値の生成を繰り返すたびに増加する変数である。また、Rは、ユーザが自由に設定してよい。
【0052】
次に、S104で生成した初期値がS103で抽出した制約式を満たすか否かを判定する(S105)。そして、判定の結果、初期値が制約式を満たす場合は後述する処理手順2へ進む。
【0053】
S105で初期値が制約式を満たさなかった場合、i=i+1として、最適化パラメータデータベースDB5を参照し、初期探索回数iが最大初期探索回数Lthより小さいかどうかを判定する(S106)。そして、判定の結果、初期探索回数が最大初期探索回数より小さい場合は、S104へ進む。
【0054】
一方、S106の判定の結果、初期探索回数iが最大初期探索回数Lth以上である場合、閾値が見つからないことをユーザに知らせる(S107)。
【0055】
以上のような処理手順1により、数値データをカテゴリ化するための閾値変数の値の初期設定を行う。上述の例で、例えばi=1の場合、「Item10購入」というカテゴリデータを含む被観測体のIDを有する全てのデータ点のうち、半径Rの円に含まれるデータ点が最も多かったときの中心位置を基準として、(13式)〜(17式)に従って、閾値の初期設定がなされる。
【0056】
続いて、処理手順1で設定された閾値の最適化を行うための処理手順2を、図9を参照して説明する。
【0057】
図9に示すように、処理手順2では、はじめに、処理手順1で求められた閾値X1S、X2S、Y1S、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’)を求める(S201)。このときカテゴリ化は、上述の例で、例えば「Item10購入」というカテゴリデータを含む被観測体のIDを有する数値データが、(5式)〜(7式)を満たすか否かで判断され、満たすIDには、例えば「商品Aエリア滞在」というラベルが付与される。また、共起確率は、例えば「Item10購入」というカテゴリデータを含む全てのIDのうち、このIDが有する数値データが「商品Aエリア滞在」というカテゴリに分類される割合を示したものである。
【0058】
次に、事前知識ルールデータベースDB3に記録された共起確率(R)とS201で求められた共起確率(R’) を比較する(S202)。そして、R’<Rを満たさない場合、X1=X1S、X2=X2S、Y1=Y1S、Y2=Y2S、T1=T1Sとして、これらの値を閾値最適化手段5の出力とする。
【0059】
一方、S202でR’<Rを満たす場合、X1S’=X1S−D1とする(S203)。次に、閾値・制約データベースDB2を参照し、S203で求められたX1S’が制約
を満たすか否かを判定する(S204)。そして、X1S’が制約を満たさない場合はR’1=0として、後述のS206に進む。
【0060】
一方、X1S’が制約を満たす場合は、X1S’、X2S、Y1S、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’1)を求める(S205)。
【0061】
次に、X2S’=X2S+D1とする(S206)。
【0062】
次に、閾値・制約データベースDB2を参照し、S206で求められたX2S’が制約
を満たすか否かを判定する(S207)。そして、X2S’が制約を満たさない場合はR’2=0として、後述のS209に進む。
【0063】
一方、X2S’が制約を満たす場合は、X1S、X2S’、Y1S、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’2)を求める(S208)。
【0064】
次に、Y1S’=Y1S−D1とする(S209)。
【0065】
次に、閾値・制約データベースDB2を参照し、S209で求められたY1S’が制約
を満たすか否かを判定する(S210)。そして、Y1S’が制約を満たさない場合はR’3=0として、後述のS212に進む。
【0066】
一方、Y1S’が制約を満たす場合は、X1S、X2S、Y1S’、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’3)を求める(S211)。
【0067】
次に、Y2S’=Y2S+D1とする(S212)。
【0068】
次に、閾値・制約データベースDB2を参照し、S212で求められたY2S’が制約
を満たすか否かを判定する(S213)。そして、Y2S’が制約を満たさない場合はR’4=0として、後述のS215に進む。
【0069】
一方、Y2S’が制約を満たす場合は、X1S、X2S、Y1S、Y2S’、T1Sを用いて数値データをカテゴリ化し、共起確率(R’4)を求める(S214)。
【0070】
次に、T1S’=T1S−D2とする(S215)。
【0071】
次に、閾値・制約データベースDB2を参照し、S215で求められたT1S’が制約
を満たすか否かを判定する(S216)。そして、T1S’が制約を満たさない場合はR’5=0として、後述のS218に進む。
【0072】
一方、T1S’が制約を満たす場合は、X1S、X2S、Y1S、Y2S、T1S’を用いて数値データをカテゴリ化し、共起確率(R’5)を求める(S217)。
【0073】
次に、R’1、R’2、R’3、R’4、R’5の最大値をR’とし、共起確率が最大となった場合の閾値変数の値を更新する(S218)。例えば、R’1が最大値であった場合、X1Sの値のみX1S=X1S’とする。同様に、R’2が最大値であった場合、X2sの値のみX2S=X2S’、R’3が最大値であった場合、Y1Sの値のみY1S=Y1S’、 R’4が最大値であった場合、Y2Sの値のみT2S=T2S’、 R’5が最大値であった場合、T1Sの値のみT1S=T1S’とする。
【0074】
次に、事前知識ルールデータベースDB3に記録された共起確率(R)とS218で求められた共起確率(R’) を比較する(S219)。そして、R’<Rを満たさない場合、X1=X1S、X2=X2S、Y1=Y1S、Y2=Y2S、T1=T1Sとして、これらの値を閾値最適化手段5の出力とする。
【0075】
一方、S219でR’<Rを満たす場合、最適化パラメータデータベースDB4を参照し、最大探索回数(Nth)と現在の検索回数Nを比較する(S220)。そして、N<Nthかつ、R’1=R’2=R’3=R’4=R’5=0を満たす場合は、検索回数NをN=N+1と更新し、S203に進む。一方、N<Nthかつ、R’1=R’2=R’3=R’4=R’5=0を満たさない場合は、処理手順1で示した閾値の初期値の生成回数iをi=i+1と更新し、処理手順1のS106に進む。
【0076】
以上のような処理を行うことで、数値データをカテゴリ化するための閾値変数の値の最適解を自動的に求めることが可能となる。
【0077】
以上に説明したように、本実施形態による事前ルールを用いた前処理装置によれば、閾値最適化手段5によって、事前ルールが適切に現れるように、閾値・制約データベースDB2に記録された閾値変数の値を自動的に求めることができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。
【0078】
なお、このように求められた閾値変数の値は、閾値表示装置7を用いて、様々な形でユーザに表示することができる。例えば、同一のデータ名の同一のラベルの条件に含まれる閾値変数の中で、ユーザが指定した変数の値を用いて、図を描画してもよい。この例を図10に示す。図10に示すように、事前ルールから導き出した閾値変数の値を用いることで、すべての商品エリア20を図示することができる。このように図示することで、ある商品の購入者が滞在する場所、複数の商品エリアが重なりすぎて混雑する場所などを視覚的にとらえることができるため、商品の棚21の配置やPOPの置き方などを見直すなどの施策を打つ際の知見を得ることができる。
【0079】
(第2の実施形態)
次に、第1の実施形態による事前ルールを用いた前処理装置を用いた情報抽出装置について、図11〜図15を参照して説明する。
【0080】
図11は、第1の実施形態による事前ルールを用いた前処理装置を用いた情報抽出装置の構成を概略的に示すブロック図である。
【0081】
図11に示すように、本実施形態に係る情報抽出装置は、閾値最適化処理部と情報抽出部とで構成される。このうち、閾値最適化処理部は、第1の実施形態に示す事前ルールを用いた前処理装置と同様の構成である。ただし、本実施形態ではイベント集合データベースDB1を第1イベント集合データベースDB1と称す。また、閾値表示装置7は必要なく、もし最適化された閾値を表示したい場合は、閾値パラメータデータベースDB6を参照して、後述の相関ルール表示装置13を用いてユーザに提示すればよい。
【0082】
一方、情報抽出部は、第2イベント集合データベースDB7と、連続データカテゴリ化手段8と、変換後イベント集合データベースDB9と、相関ルール抽出パラメータデータベースDB10と、相関ルール抽出手段11と、相関ルールデータベースDB12と、相関ルール表示装置13とで構成される。
【0083】
続いて、このような情報抽出装置を構成する各要素について、図12〜図15を参照して説明する。なお、この情報抽出装置のうち、閾値最適化処理部は第1の実施形態と同様であるため説明を省略し、ここでは、情報抽出部を構成する各要素について説明する。
【0084】
まず、第2イベント集合データベースDB7に記録されるデータについて説明する。
【0085】
第2イベント集合データベースDB7は、第1イベント集合データベースDB7と基本的に同一のものである。すなわち、第2イベント集合データベースDB7は、それぞれ複数のレコードからなるテーブルを有し、1つのレコードには、被観測体のIDと被観測体の数値データまたはカテゴリデータが記録されている。この第2イベント集合データベースDB7に記録されている被観測体に関するデータは、第1イベント集合データベースDB1に記録されているデータと同種類のセンサ、または機器で取得したデータでもよいし、その一部でもよい。また、異なる種類のセンサ、または機器で取得したデータであってもよい。ただし、第2イベント集合データベースDB7に記録されている被観測体に関するデータが、第1イベント集合データベースDB1に記録されているデータと異なるセンサ、機器で取得したデータを含む場合には、これらのデータが数値データではなくカテゴリデータである必要がある。また、第1イベント集合データベースDB1に記録されているデータと第2イベント集合データベースDB7に記録されているデータは、全く同一であってもよい。
【0086】
次に、数値データカテゴリ化手段8について説明する。
【0087】
数値データカテゴリ化手段8は、第2イベント集合データベースDB7に記録された被観測体の数値データを、閾値・制約データベースDB2に記録されている条件式及び、閾値パラメータデータベースDB6に記録されている最適化された閾値変数の値を使用して、カテゴリデータに変換する手段である。この数値データカテゴリ化手段8でカテゴリ化された数値データを有する被観測体のIDには、カテゴリに対応するラベルが付与され、変換後イベント集合データベースDB9に記録される。
【0088】
次に、変換後イベント集合データベースDB9に記録されるデータついて、図12を参照して説明する。
【0089】
変換後イベント集合データベースDB9は、数値データを数値データカテゴリ化手段8によってカテゴリ化することで付与するラベルが記録されたテーブルと、カテゴリデータのラベルが記録されたテーブルからなり、それぞれ被観測体IDとともに記録されている。このうち、カテゴリ化された数値データに付与するラベルが記録されたテーブルは、図12に示すように、複数のレコードからなり、1つのレコードには、被観測体ID、データ名、データの種類、観測時間、ラベル名が記録されている。図12においては、例えば、被観測体001が2007/08/01の15時30分00秒に「A商品エリア滞在」したことを示している。同様に、被観測体001は2007/08/01の15時40分00秒に「B商品エリア通過」し、2007/08/01の15時45分00秒に「C商品エリア滞在」したことを示している。一方、カテゴリデータのラベルが記録されたテーブルは、例えば図2Bと同様である。なお、これらのテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0090】
次に、相関ルール抽出パラメータデータベースDB10に記録されるデータついて、図13を参照して説明する。
【0091】
図13に示すように、相関ルール抽出パラメータデータベースDB10に記録されるテーブルは、複数のレコードからなり、1つのレコードには、後述する相関ルール抽出手段11で相関ルールを抽出するために必要なパラメータの1つが記録されている。図13においては、相関ルール抽出手段11で使用するパラメータの一例として、相関ルールとして抽出されるのに満たさなければならない条件を表す最小支持度(Sup)が0.2であり、最小確信度(Conf)が0.6であることを示している。この最小支持度及び最小確信度は、ユーザによって指定されるものである。ここで支持度は(18式)、確信度は(19式)をそれぞれ用いて算出されるものである。
【0092】
支持度 S(X∧Y)=M(X∧Y)/M (18式)
M(X∧Y):アイテム集合「XとY」を含むイベント(被観測体)数
M:全イベント(被観測体)数
確信度 C(X∧Y)=M(X∧Y)/M(X) (19式)
M(X):アイテム集合「X」を含むイベント(被観測体)数
上述の相関ルール抽出パラメータデータベースDB10には、最小支持度及び最小確信度が記録されており、例えばアイテム集合Xが「A商品エリア滞在」と「B商品エリア滞在」であり、アイテム集合Yが「Item01購入」である場合、「A商品エリア滞在」と「B商品エリア滞在」と「Item01購入」の3つのアイテムを含む被観測体が全ての被観測体の20%以上であり、かつ「「A商品滞在」かつ「B商品滞在」」を含む被観測体の60%以上が「Item01購入」を含んでいる場合、「「A商品滞在」かつ「B商品滞在」ならば「Item01購入」である」は、相関ルールとして抽出される。なお、このテーブルに含まれるレコードは、例えばパラメータが1つである場合には、単数であってもよい。
【0093】
次に、相関ルール抽出手段11は、変換後イベント集合データベースDB9に記録されている被観測体のイベントに対して、相関ルール抽出パラメータデータベースDB10に記録されているパラメータを用いて相関ルールを抽出し、相関ルールデータベースDB12に記録する手段である。以下、この相関ルール抽出手段11を、図14を参照して説明する。
【0094】
図14は、相関ルール抽出手段11の処理手順を示すフローチャートを示す。
【0095】
図14に示すように、相関ルール抽出手段11は、まず、変換後イベント集合データベースDB9を参照し、シーケンス長kの相関ルールの候補集合を生成する(S301)。ここでシーケンス長とは、相関ルールに含まれるアイテム数をいう。このkの初期値は1であり、相関ルールの候補の生成方法は、k=1とk>1とでは異なる。
【0096】
k=1の場合は、全イベントに含まれるアイテムを候補とする。一方、k>1の場合、シーケンス長がk−1の相関ルールとして抽出された相関ルールの中で、k−2個のアイテムが共通する相関ルールを組み合わせて候補を生成する。例えば、シーケンス長3の相関ルールとして、「「商品Aエリア滞在」、「商品Bエリア滞在」、「Item01購入」」と「「商品Bエリア滞在」、「商品Cエリア滞在」、「Item11購入」」と「「商品Bエリア滞在」、「商品Cエリア滞在」、「Item01購入」」の3つの相関ルールが存在する場合、シーケンス長4の相関ルールの候補は、「「商品Aエリア滞在」、「商品Bエリア滞在」、「商品Cエリア滞在」、「Item01購入」」と「「商品Bエリア滞在」、「商品Cエリア滞在」、「Item01購入」、「Item11購入」」となる。
【0097】
次に、S301で生成した相関ルール候補集合に含まれる相関ルール候補の数を数え、その数が0より大きいか否かを判定する(S302)。0の場合は相関ルール抽出手段11を終了する。
【0098】
一方、S301で生成した相関ルール候補集合に含まれる相関ルール候補の数が0より大きい場合、変換度イベント集合データベースDB9を参照し、S301で生成された各相関ルール候補が変換度イベント集合データベースDB9に含まれるか否かを調べる。そして、生成された相関ルールを含むイベント(被観測体)数を数え、支持度と確信度を算出する(S303)。
【0099】
次に、相関ルール抽出パラメータデータベースDB10を参照し、S303で算出した相関ルール候補の支持度が最小支持度以上であり、相関ルール候補の確信度が最小確信度以上であれば、この相関ルール候補を相関ルールとして、後述の相関ルールデータベースDB12に記録する(S304)。
【0100】
次に、S304で記録されたシーケンス長kの相関ルールの数を数え、その数が0より大きいか否かを判定する(S305)。0の場合は相関ルール抽出手段11を終了する。
【0101】
一方、S304で記録されたシーケンス長kの相関ルールが0より大きい場合、k=k+1として、S301に戻る。
【0102】
以上のような手順により、相関ルールを生成することができる。なお、上述の例においては、アイテム間の順序を考慮していないが、考慮してもよい。
【0103】
最後に、相関ルールデータベースDB12に記録されるデータついて、図15を参照して説明する。
【0104】
図15に示すように、相関ルールデータベースDB12は、抽出された相関ルールが記録されたテーブルを有している。このテーブルは複数のレコードからなり、1つのレコードには、相関ルール抽出手段11で抽出した相関ルールが記録されている。図15においては、例えば1番目のレコードは、「「A商品エリア滞在」(条件部)ならば「Item01購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が0.5、確信度が0.7であることを示している。同様に、2番目のレコードは、「「A商品エリア滞在」かつ「B商品エリア滞在」(条件部)ならば「Item10購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が0.3、確信度が0.8であることを示しており、3番目のレコードは、「「A商品エリア滞在」かつ「C商品エリア滞在」(条件部)ならば「Item20購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が0.4、確信度が0.7であることを示している。なお、このテーブルに含まれるレコードは、例えば抽出された相関ルールが1つだった場合には、単数であってもよい。
【0105】
最後に、上述のようにして生成され、相関ルールデータベースDB12に記録された相関ルールは、相関ルール表示装置13に表示される。この際、相関ルールのシーケンス長、支持度の大きさ、確信度の大きさに応じて順番を変えて表示してもよいし、特定のアイテム集合を含む相関ルールのみを抽出して表示する等、目的に応じて自由に表示してよい。なお、この相関ルール表示装置13は、例えば通常のディスプレイ装置であり、第1の実施形態における閾値表示装置7と同様のものである。これらの相関ルール表示装置13及び閾値表示装置7は、ユーザに視覚的に相関ルールまたは最適化された閾値を提供できるものであれば、どんなものであってもよい。
【0106】
以上のように、本実施形態による情報抽出装置によれば、事前ルールが適切に現れるように閾値変数の値を自動的に決定することができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。そして、このようにして求められた閾値変数の値を用いて数値データをカテゴリ化するため、容易に効率よく、ユーザが知り得なかった有用な相関ルールを抽出することが可能となる。
【0107】
なお、このユーザが知りえなかった相関ルールを抽出することで、例えば、ある商品の広告をどこに表示するか等、主にマーケティングに関する分野に適用することが可能である。
【0108】
以上に、本発明の実施の形態を示したが、実施の形態はこれに限るものではなく、様々に適用可能である。
【0109】
例えば、webページ上のポインタの移動軌跡を数値データとし、webページ上において、クリックされる箇所をカテゴリデータとすることで、これらの事前ルールが適切に現れるように閾値変数の値を自動的に決定することができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。そして、このようにして求められた閾値変数の値を用いて数値データをカテゴリ化するため、容易に効率よく、ユーザが知り得なかった有用な相関ルールを抽出することも可能である。
【図面の簡単な説明】
【0110】
【図1】本発明の実施形態における事前ルールを用いた前処理装置の構成を概略的に示すブロック図である。
【図2A】イベント集合データベースに含まれる体の位置を示すデータを記録したテーブルを示す図である。
【図2B】イベント集合データベースに含まれる購買データを記録したテーブルを示す図である。
【図3A】閾値・制約データベースに含まれる閾値変数を記録したテーブルを示す図である。
【図3B】閾値・制約データベースに含まれる数値データ名とカテゴリ化後のラベルとそのラベルに該当する数値データの条件を記録したテーブルを示す図である。
【図3C】閾値・制約データベースに含まれる閾値変数の制約が記録されたテーブルを示す図である。
【図4】事前知識ルールデータベースに含まれるテーブルを示す図である。
【図5】商品マスタを示す図である
【図6】最適化パラメータデータベースに含まれるテーブルを示す図である。
【図7】閾値パラメータデータベースに含まれるテーブルを示す図である。
【図8】閾値最適化手段において閾値の初期設定を行う手順を示すフローチャートである。
【図9】閾値最適化手段において閾値の最適化を行う手順を示すフローチャートである。
【図10】閾値表示装置の表示例を示す図である。
【図11】本発明の実施形態における相関ルール抽出装置を示すブロック図である。
【図12】変換後イベント集合データベースに含まれる体の位置を示す数値データをカテゴリ化した結果を記録したテーブルを示す図である。
【図13】相関ルール抽出パラメータデータベースに含まれるテーブルを示す図である。
【図14】相関ルール抽出手段において相関ルールの抽出を行う手順を示すフローチャートである。
【図15】相関ルールデータベースに含まれるテーブルを示す図である。
【符号の説明】
【0111】
DB1・・・(第1)イベント集合データベース、DB2・・・閾値・制約データベース、DB3・・・事前知識ルールデータベース、DB4・・・最適化パラメータデータベース、DB6・・・閾値パラメータデータベース、DB7・・・第2イベント集合データベース、DB9・・・変換後イベント集合データベース、DB10・・・相関ルール抽出パラメータデータベース、DB12・・・相関ルールデータベース、5・・・閾値最適化手段、7・・・閾値表示装置、8・・・数値データカテゴリ化手段、11・・・相関ルール抽出手段、13・・・相関ルール表示装置、20・・・商品エリア、21・・・商品の棚。
【技術分野】
【0001】
本発明は、膨大な情報をカテゴリ化し、有用な相関ルールを抽出する情報抽出装置に関し、特に、情報をカテゴリ化するための閾値を算出する前処理装置に関する。
【技術背景】
【0002】
近年、センサ及び記憶装置の発達により、様々なイベントデータを蓄積することが可能となった。ここでイベントデータとは、何らかのイベントが発生した時に収集されるデータであり、例えば、店舗内に訪れる全ての顧客の店内での動作を観測して得られる顧客の位置を示す数値データや、顧客の購買ログから得られた購買データをいう。しかし、このように収集され、蓄積されたイベントデータは大量であるため、従来は、これらの大量のイベントデータに対して、相関の高い組み合わせをルールとして抽出し、提示することで、有用なデータを提供している。ここで相関ルールとは、全てのイベントデータに対して同時に現れるアイテムの組み合わせをいい、相関の高いルールとは、全てのイベントデータに対してある一定以上の確率で同時に現れるアイテムの組み合わせをいう。
【0003】
これらの相関の高いルールは、データに現れるアイテム間の共起関係のみを表すものであり、必ずしもアイテム間の因果関係が存在するわけではないが、因果関係をもつルールが存在する場合もある。そこで、抽出された複数の相関ルールの中からユーザが因果関係のありそうなルールを選び、別の方法で因果関係があることを調べることで、ユーザの意思決定を助けることができる。例えば、一人の顧客の店舗内の動作データと購買データをイベントとし、店舗内の動作と購入した商品をアイテムと考え、「デザート売り場滞在」、「お菓子売り場滞在」、「パン売り場滞在」、「ロールケーキ購入」の4つのアイテムが全イベントの10%のイベントに含まれ、かつ「デザート売り場滞在」、「お菓子売り場滞在」、「パン売り場滞在」を含むイベントの90%が「ロールケーキ購入」も同時に含むという結果から、「デザート売り場とお菓子売り場とパン売り場に置いてある商品の区別がうまくいかないため、ロールケーキ購入者は必要以上の時間をかけてロールケーキを探している」といった仮説をユーザがたて、売り場に配置する商品の見直しを行うことなどが考えられる。
【0004】
このように、大量のデータから有用な相関ルールを抽出するには、観測して得られた数値データをいくつかのカテゴリに分類するといった前処理(カテゴリ化)を行った後に、アイテムの集合である相関ルールの候補を生成し、全イベントに対して相関ルール候補が含まれるかを検索し、それが含まれるイベントの数を数え、それがユーザの指定する割合以上存在するか否かを調べる必要がある。(例えば、特許文献1を参照)。
【0005】
ここで、例えば、顧客の位置を示す位置座標を数値データとして有する場合、この数値データを次のようにしてカテゴリ化している。
【0006】
すなわち、顧客の位置を表すxとyが(1式)と(2式)を満たす場合は「デザート売り場」、(1式)と(4式)を満たす場合は「パン売り場」、(3式)と(4式)を満たす場合は「お菓子売り場」、(2式)と(3式)を満たす場合は「飲料水売り場」と定める。
【0007】
0≦x<10 (1式)
0≦y<10 (2式)
10≦x<20 (3式)
10≦y<20 (4式)
この場合、位置座標(1,1)は「デザート売り場」に、(1,15)という位置座標は「パン売り場」に変換される。
【0008】
従来、このように数値データをカテゴリデータに変換するために、ユーザ自らが事前ルールなどを用いて閾値を設定していた。しかし、ユーザが有する事前ルールを用いたとしても明確にカテゴリに分けるための閾値を定めることができない場合が多い。例えば、身長を「高い」、「普通」、「低い」の3つのカテゴリに分けるための閾値を決定する場合であっても、「175cm以上を高い」それとも「174cm以上を高い」のどちらがよいかをユーザが判断することは難しい。このため、従来はユーザがそれぞれの閾値のうちいくつかを変更し、出てきた結果を確認するといった作業を繰り返して、所望の結果を得る必要があった。
【0009】
また、間違った閾値によるカテゴリ化を行った場合、抽出される相関ルールの質に影響を与えることがある。例えば、魚売り場のエリアを広く、肉売り場のエリアを狭く設定することで、「魚売り場」と「豚肉購入」が相関ルールとして抽出される場合が考えられる。このような時に抽出される誤ったルールはユーザをかえって混乱させる場合がある。
【特許文献1】特開平11−250084号公報
【発明の開示】
【発明が解決しようとする課題】
【0010】
上述したように、ユーザは、数値データをカテゴリ化する際に設定する閾値変数の値に対して、明確な判断基準を持つことは難しい。従って、ユーザが複数の閾値変数のうちのいくつかを変更し、それによって生成される相関ルールを確認するといった作業を繰り返す必要があるため、効率よく有用な相関ルールを得ることは難しい。
【0011】
さらに、間違った閾値変数の値によるカテゴリ化を行った場合、抽出される相関ルールの質に影響を与えることがある。例えば、魚売り場のエリアを広く、肉売り場のエリアを狭く設定することで、「魚売り場」と「豚肉購入」が相関ルールとして抽出される場合が考えられる。このような時に抽出される誤ったルールはユーザをかえって混乱させる場合がある。
【課題を解決するための手段】
【0012】
本発明の情報抽出装置の前処理装置は、上記の問題に鑑みてなされたものであり、同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータを記録したイベント集合データベースと、このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルが記録された閾値・制約データベースと、所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして記録した事前知識ルールデータベースと、この事前知識ルールデータベースに予め含まれた全ての前記事前ルールを、前記制約の下で、前記イベント集合データベースから抽出するように前記閾値変数の値を算出する閾値最適化手段と、この閾値最適化手段によって算出された前記閾値変数の値が記録された閾値データベースと、この閾値データベースに記録された前記閾値変数の値を表示する表示装置と、を具備することを特徴とするものである。
【0013】
また、本発明の情報抽出装置の前処理方法は、同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータをイベント集合データベースに記録し、このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルを閾値・制約データベースに記録し、所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして事前知識ルールデータベースに記録し、この事前知識ルールデータベースから前記事前ルールを抽出し、この抽出された前記事前ルールが有する前記第1のラベルを含むIDが有する前記軌跡データを前記イベント集合データベースから全て抽出し、前記閾値・制約データベースから、前記条件、制約を抽出し、この抽出された前記制約の下で、前記事前ルールが最も高い確率で現れるように前記閾値変数の値を算出することを特徴とする情報抽出装置の前処理方法である。
【0014】
すなわち、本発明は、予めユーザが有する事前ルールを用いて、特定のアイテム集合と、その集合を含むイベントに含まれる確率が高いアイテムと、これらが少なくとも含まれる確率(共起確率)とを事前ルールとしてデータベースに記録し、この事前ルールが必ず現れるように、数値データをカテゴリ化する際に必要な閾値変数の値を自動的に決定するものである。
【発明の効果】
【0015】
このような本発明によれば、ユーザが閾値変数の値を直接決められない場合でも、数値データをカテゴリ化する際に必要な閾値変数の値を容易かつ適切に決定することができる。
【発明を実施するための最良の形態】
【0016】
以下に、本発明の実施形態を図1〜図15を参照して説明する。
【0017】
(第1の実施形態)
図1は、本発明の実施形態における事前ルールを用いた前処理装置の構成を概略的に示すブロック図である。
【0018】
図1に示すように、本実施形態に係る事前ルールを用いた前処理装置は、イベント集合データベースDB1と、閾値・制約データベースDB2と、事前知識ルールデータベースDB3と、最適化パラメータデータベースDB4と、閾値最適化手段5と、閾値パラメータデータベースDB6と、閾値表示装置7とで構成される。
【0019】
次に、このような事前ルールを用いた前処理装置を構成する各要素について、図2〜図7を参照して説明する。
【0020】
まず、イベント集合データベースDB1に記録されるデータについて、図2を参照して説明する。
【0021】
イベント集合データベースDB1には、被観測体のID及び被観測体に関するデータが記憶されている。このうち、被観測体に関するデータは、数値データとカテゴリデータに分類される。数値データとは、例えば、被観測者の体、頭、足、手の位置、速度、加速度、体の向きなどをセンサで観測することで得られる被観測者の動作の計測値、または、年齢、所得などのアンケートなどを用いることによって得られる被観測者の属性値の一部、またはPOS端末などから得られる購入金額、購買点数などである。また、カテゴリデータとは、例えば、性別や職業などのアンケートデータで得られる被観測体の属性値の一部や要望、または、POS端末などから得られる購入した商品などである。ここでは被観測体に関するデータの一例として、数値データが被観測者の体の移動軌跡データであり、カテゴリデータが被観測者の購買データである場合について説明する。
【0022】
図2は、イベント集合データベースDB1に記録されるデータであり、図2Aは数値データを示し、図2Bはカテゴリデータを示している。
【0023】
図2Aに示すように、被観測体の移動軌跡データを記録したテーブルは、複数のレコードからなり、1つのレコードには被観測体のID、データ名、データの種類、観測時間、及び被観測体の体の位置を示すx座標、y座標、z座標が記録されている。図2Aにおいては、被観測体001が、2007年8月1日15時32分00秒にx軸30cm、y軸20cm、z軸170cmの位置にいて、15時32分01秒にはx軸15cm、y軸20cm、z軸170cmの位置にいて、15時32分02秒にはx軸15cm、y軸10cm、z軸170cmの位置にいたことを示している。また、これらのデータの種類が数値であり、データ名が体の位置であることを示している。なお、このテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0024】
また、図2Bに示すように、被観測体の購買データを記録したテーブルは、複数のレコードからなり、1つのレコードは被観測体のID、データ名、データの種類、観測時間、購買した商品が記録されている。図2Bにおいては、被観測体001は2007年8月1日15時30分00秒にItem10及びItem21を購入し、被観測体002は2007年8月1日15時10分00秒にItem35を購入し、被観測体003は2007年8月1日15時00分00秒にItem42を購入したことを示している。また、これらのデータの種類はカテゴリデータであり、データ名が購買であることを示している。なお、このテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0025】
次に、閾値・制約データベースDB2に記録されるデータについて、図3を参照して説明する。ここでは、イベント集合データベースDB1に記録された数値データである被観測体の位置座標を、商品エリアに分割するというカテゴリ化を行う場合について説明する。
【0026】
図3は、閾値・制約データベースDB2に記録されるデータであり、図3Aは数値データ名と算出すべき閾値変数を示し、図3Bは、カテゴリ化した後に付けるラベルと数値データをカテゴリ化するための条件を示し、図3Cは閾値変数の制約を示している。
【0027】
図3Aに示すように、数値データ名と算出すべき閾値変数を記録したテーブルは、複数のレコードからなり、1つのレコードにはデータ名、閾値変数名が記憶されている。これらの閾値変数名は、ユーザによって指定されるものである。図3Aにおいては、データ名が体の位置であり、この体の位置を示す数値データを商品エリアであるカテゴリに分類するための閾値変数がX1、X2、Y1、Y2、T1であることを示している。なお、このテーブルは、例えば分類する商品エリア毎に複数あってもよいし、本実施形態に示すように、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0028】
また、図3Bに示すように、数値データをカテゴリ化した後に付与するラベルと数値データをカテゴリ化するための条件を記録したテーブルは、複数のレコードからなり、1つのレコードにはデータ名、数値データをカテゴリ化した後に付与するラベル名、ラベルが付与されるための条件が記録されている。ここで、ラベル名及び数値データをカテゴリ化するための条件は、ユーザによって指定される。図3Bにおいては、被観測体を、例えば「A商品エリア滞在」というカテゴリに分類するための条件を示している。A商品エリア滞在というラベルが与えられ、「A商品エリア滞在」というカテゴリに分類されるためには、数値データの位置座標x、yがそれぞれ(5式)、(6式)を満たさなければならない。
【0029】
X1<=x<X2 (5式)
Y1<=y<Y2 (6式)
さらに、(5式)(6式)の条件で分類される「A商品エリア滞在」なるカテゴリに含まれる時間を示すtは、(7式)を満たさなければならない。
【0030】
T1<t (7式)
すなわち、被観測体に、A商品エリア滞在なるカテゴリに分類され、「A商品エリア滞在」なるラベルが付与されるためには、(5式)、(6式)、(7式)を満たさなければならないことを示している。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0031】
また、図3Cに示すように、数値データをカテゴリ化するための閾値変数の制約が記録されたテーブルは、複数のレコードからなり、1つのレコードには、データ名、閾値変数名、閾値変数の制約式が記録されている。この制約式は、ユーザによって指定されるものである。図3Cにおいては、数値データをカテゴリ化するための閾値変数X1、X2、Y1、Y2はそれぞれ(8式)、(9式)、(10式)、(11式)を満たす範囲でなければならないことを示している。
【0032】
0<=X1<=2000 (8式)
0<=X2<=2000 (9式)
0<=Y1<=2000 (10式)
0<=Y2<=2000 (11式)
ここで、これらの制約式は、例えば店舗の大きさを最大値として定めたものであり、各閾値は、この店舗の大きさ以上には設定できないことを意味する。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0033】
次に、事前知識ルールデータベースDB3に記録されるデータについて、図4を参照して説明する。
【0034】
図4に示すように、事前知識ルールデータベースDB3に記録されるテーブルは、複数のレコードからなり、レコードには、多くのイベントに含まれるカテゴリデータのアイテムと数値データをカテゴリ化した後に付与されるラベルを持つアイテムを含むアイテム集合とそれらが含まれる確率(共起確率)とが事前ルールとして記録されている。この事前ルールは、ユーザによって指定されるものである。図4においては、例えば、1番目のレコードは、購買データのアイテム「Item10購入」は、90%以上の確率で、体の位置を示す数値データの「A商品エリア滞在」というラベルをもつアイテムを含むイベントに含まれるということを示している。他も同様であり、2番目のレコードは、購買データのアイテム「Item20購入」は、80%以上の確率で「B商品エリア滞在」、3番目のレコードは、購買データのアイテム「Item30購入」は、80%以上の確率で「C商品エリア滞在」、4番目のレコードは、購買データのアイテム「Item40購入」は、80%以上の確率で「D商品エリア滞在」というそれぞれのラベルをもつアイテムを含むイベントに含まれるということを示している。なお、このテーブルに記録されたレコードは、単数であってもよい。
【0035】
すなわち、図4に示すこれらのデータは、例えば「Item10を購入した人の90%以上の人はA商品エリアに滞在する」といったユーザの事前知識を用いて作成する、いわゆる当たり前のルールである。
【0036】
なお、事前知識ルールデータベースDB3は、商品のカテゴリを分類の抽象度に合わせて階層的に記録した商品マスタを使用することで、ユーザが階層を指定し、その階層に対して共通にまた個別に異なる共起確率を入力することによって、自動的に事前ルールを作成し、事前知識ルールデータベースDB3に記録してもよい。例えば、図5に商品マスタの一例を示すように、1番目のレコードは、小分類Item10−01は、中分類ではItem10に含まれており、さらにItem10は、大分類ではItemAに含まれることを表している。同様に、2番目のレコードは、小分類Item10−02は、中分類ではItem10に含まれており、さらにItem10は、大分類ではItemAに含まれることを表している。これらの分類において、大分類のラベルは、例えばお菓子、肉、魚といった大まかな商品の区分によってつけられたラベルであり、中分類のラベルは、例えばチョコレート、せんべいといった細かな商品の区分によってつけられたラベルであり、小分類のラベルは、例えば商品名や味までを含むような詳細な商品の区分によってつけられたラベルである。このような商品マスタを用いることによって、例えば、ユーザが大分類を指定した場合は、ItemA購入と、ItemAエリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースDB3に記録される。同様に、ユーザが中分類が指定した場合は、Item10購入と、Item10エリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースDB3に記録され、ユーザが小さい分類が指定した場合は、Item10−01購入と、Item10−01エリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースDB3に記録される。
【0037】
次に、最適化パラメータデータベースDB4に記録されるデータについて、図6を参照して説明する。
【0038】
図6に示すように、最適化パラメータデータベースDB4に記録されるテーブルは、複数のレコードからなり、1つのレコードには、後述する閾値最適化手段5で使用するパラメータの1つが記録されている。閾値最適化手段5で使用するパラメータは、ユーザによって指定されるものであり、例えば初期値を探索する最大回数を表すパラメータである初期値最大探索回数(Lth)、最適値を探索する最大回数を表すパラメータである最大探索回数(Nth)、2種類の閾値変数の増減を表す閾値増減値D1、D2、初期値の生成に必要なパラメータ(R)である。図6においては、Lth=100、Nth=10000、D1=10、D2=1、R=10であることを示している。なお、閾値増減値D1、D2は、例えば(12式)に示すように、探索回数に対して減少するような関数式であってもよい。
【0039】
D1=α/Nth×N (12式)
N:探索回数
α:定数値
なお、このテーブルに含まれるレコードは、上述のように複数あってもよいし、例えばパラメータが1つの場合には、単数であってもよい。
【0040】
次に、閾値最適化手段5は、詳細な説明は後述するが、イベント集合データベースDB1に記録された数値データとカテゴリデータを用いて、閾値・制約データベースDB2に記録された閾値変数に対する制約下で事前知識ルールデータベースDB3に記録された事前ルールが適切に表れるように、閾値・制約データベースDB2に記録された閾値変数の値を自動的に求める手段であり、求められた閾値は、後述の閾値パラメータデータベースDB6に記録される。なお、この閾値変数は、事前知識ルールデータベースDB3に含まれる各事前ルールに対して閾値変数の値を求めてもよいし、公知技術であるJohn H. Holland「Adaptation in Natural and Artificial Systems」University of Michigan Press, 1975に記載されているようなGA(Genetic Algorithm:遺伝的アルゴリズム)などの多目的最適化手法を用いて事前知識ルールデータベースDB3に含まれる事前ルールのすべてのルールを満たすような最適な閾値変数の値を一度に求めてもよい。
【0041】
次に、閾値パラメータデータベースDB6に記録されるデータについて、図7を参照して説明する。
【0042】
図7に示すように、閾値パラメータデータベースDB6に記録されるテーブルは、複数のレコードからなり、レコードには、データ名、閾値変数名、閾値最適化手段5によって算出された最適な閾値変数の値が記録されている。図7においては、1番目のレコードは、体の位置を示す数値データをカテゴリ化するための閾値変数X1の値が100であることを示している。同様に閾値変数X2の値は200、閾値変数Y1の値は100、閾値変数Y2の値は200、閾値変数T1の値は15であることを示している。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらを1つのテーブルにまとめて記録させてもよい。また、例えば閾値変数が単数である場合等は、テーブルに記録されるレコードが単数であってもよい。
【0043】
最後に、閾値表示装置7は、閾値パラメータデータベースDB6に記録された最適な閾値変数をユーザに表示すための装置であり、例えば通常のディスプレイ装置がこれに該当する。
【0044】
続いて、閾値最適化手段5として、1つの事前ルールに対する閾値変数の最適解を求める方法について、図8、図9を用いて説明する。
【0045】
閾値最適化手段5は、数値データをカテゴリ化するための閾値変数の値の初期設定を行うための処理手順1と、処理手順1で設定された閾値変数の値を最適化するための処理手順2に大別される。図8に処理手順1、図9に処理手順2を示すフローチャートを示す。
【0046】
まず、数値データをカテゴリ化するための閾値変数の値の初期設定を行うための処理手順1を、図8を参照して説明する。
【0047】
図8に示すように、処理手順1では、はじめに、事前知識ルールデータベースDB3を参照し、そこに記録されている事前ルールの中から、j番目の事前ルールを取り出す(S101)。jは抽出した事前ルールの格納されている順番を示しており、例えば、j=1では格納されている1番目の事前ルール取り出すこととなる。事前知識ルールデータベースDB3が図4である場合、抽出される事前ルールは、「Item10購買」、「A商品エリア滞在」で共起確率は90%である。
【0048】
次に、イベント集合データベースDB1を参照し、該当するカテゴリラベルを含む全ての被観測体のIDを全て抽出する。上述の例では、「Item10購入」というカテゴリデータを有する被観測体のIDを全て抽出する。そして、事前ルールに含まれるカテゴリ化する数値データのデータ名と抽出した被観測体のIDをもとに、イベント集合データベースDB1から対象となる被観測体のデータを抜き出し、事前ルール該当イベントセットの作成を行う(S102)。ここで、イベントセットに含まれる被観測体数をN1とする。
【0049】
次に、閾値・制約データベースDB2を参照し、S101で抽出した事前ルールに含まれるカテゴリ化する数値データのラベルに関する閾値変数とその条件式と制約式を抽出する(S103)。例えば、事前ルールに含まれるカテゴリ化する数値データのラベルが「A商品エリア滞在」であり、閾値変数、条件式、制約式が図3A、図3B、図3Cの場合、求めるべき閾値変数として、X1、X2、Y1、Y2、T1の5種類が抽出される。また条件式として、上述の(5式)、(6式)、(7式)が抽出される。また、制約式として、上述の(8式)、(9式)、(10式)、(11式)が抽出される。
【0050】
次に、S102で作成した事前ルール該当イベント集合データセットに含まれる全てのデータ点を対象とし、半径Rの円に含まれるデータ点の個数(N2)を算出する。この円は、i番目に個数が多い点(Xs、Ys)を中心とした円であり、このときの(Xs、Ys)を用いて、X1,X2、Y1、Y2の初期値を(13式)、(14式)、(15式)、(16式)、(17式)のように設定する(S104)。
【0051】
X1S=Xs−R (13式)
X2S=Xs+R (14式)
Y1S=Ys−R (15式)
Y2S=Ys+R (16式)
T1S=N2/N1 (17式)
ここでiは、初期値の生成回数を示し、初期値の生成を繰り返すたびに増加する変数である。また、Rは、ユーザが自由に設定してよい。
【0052】
次に、S104で生成した初期値がS103で抽出した制約式を満たすか否かを判定する(S105)。そして、判定の結果、初期値が制約式を満たす場合は後述する処理手順2へ進む。
【0053】
S105で初期値が制約式を満たさなかった場合、i=i+1として、最適化パラメータデータベースDB5を参照し、初期探索回数iが最大初期探索回数Lthより小さいかどうかを判定する(S106)。そして、判定の結果、初期探索回数が最大初期探索回数より小さい場合は、S104へ進む。
【0054】
一方、S106の判定の結果、初期探索回数iが最大初期探索回数Lth以上である場合、閾値が見つからないことをユーザに知らせる(S107)。
【0055】
以上のような処理手順1により、数値データをカテゴリ化するための閾値変数の値の初期設定を行う。上述の例で、例えばi=1の場合、「Item10購入」というカテゴリデータを含む被観測体のIDを有する全てのデータ点のうち、半径Rの円に含まれるデータ点が最も多かったときの中心位置を基準として、(13式)〜(17式)に従って、閾値の初期設定がなされる。
【0056】
続いて、処理手順1で設定された閾値の最適化を行うための処理手順2を、図9を参照して説明する。
【0057】
図9に示すように、処理手順2では、はじめに、処理手順1で求められた閾値X1S、X2S、Y1S、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’)を求める(S201)。このときカテゴリ化は、上述の例で、例えば「Item10購入」というカテゴリデータを含む被観測体のIDを有する数値データが、(5式)〜(7式)を満たすか否かで判断され、満たすIDには、例えば「商品Aエリア滞在」というラベルが付与される。また、共起確率は、例えば「Item10購入」というカテゴリデータを含む全てのIDのうち、このIDが有する数値データが「商品Aエリア滞在」というカテゴリに分類される割合を示したものである。
【0058】
次に、事前知識ルールデータベースDB3に記録された共起確率(R)とS201で求められた共起確率(R’) を比較する(S202)。そして、R’<Rを満たさない場合、X1=X1S、X2=X2S、Y1=Y1S、Y2=Y2S、T1=T1Sとして、これらの値を閾値最適化手段5の出力とする。
【0059】
一方、S202でR’<Rを満たす場合、X1S’=X1S−D1とする(S203)。次に、閾値・制約データベースDB2を参照し、S203で求められたX1S’が制約
を満たすか否かを判定する(S204)。そして、X1S’が制約を満たさない場合はR’1=0として、後述のS206に進む。
【0060】
一方、X1S’が制約を満たす場合は、X1S’、X2S、Y1S、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’1)を求める(S205)。
【0061】
次に、X2S’=X2S+D1とする(S206)。
【0062】
次に、閾値・制約データベースDB2を参照し、S206で求められたX2S’が制約
を満たすか否かを判定する(S207)。そして、X2S’が制約を満たさない場合はR’2=0として、後述のS209に進む。
【0063】
一方、X2S’が制約を満たす場合は、X1S、X2S’、Y1S、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’2)を求める(S208)。
【0064】
次に、Y1S’=Y1S−D1とする(S209)。
【0065】
次に、閾値・制約データベースDB2を参照し、S209で求められたY1S’が制約
を満たすか否かを判定する(S210)。そして、Y1S’が制約を満たさない場合はR’3=0として、後述のS212に進む。
【0066】
一方、Y1S’が制約を満たす場合は、X1S、X2S、Y1S’、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’3)を求める(S211)。
【0067】
次に、Y2S’=Y2S+D1とする(S212)。
【0068】
次に、閾値・制約データベースDB2を参照し、S212で求められたY2S’が制約
を満たすか否かを判定する(S213)。そして、Y2S’が制約を満たさない場合はR’4=0として、後述のS215に進む。
【0069】
一方、Y2S’が制約を満たす場合は、X1S、X2S、Y1S、Y2S’、T1Sを用いて数値データをカテゴリ化し、共起確率(R’4)を求める(S214)。
【0070】
次に、T1S’=T1S−D2とする(S215)。
【0071】
次に、閾値・制約データベースDB2を参照し、S215で求められたT1S’が制約
を満たすか否かを判定する(S216)。そして、T1S’が制約を満たさない場合はR’5=0として、後述のS218に進む。
【0072】
一方、T1S’が制約を満たす場合は、X1S、X2S、Y1S、Y2S、T1S’を用いて数値データをカテゴリ化し、共起確率(R’5)を求める(S217)。
【0073】
次に、R’1、R’2、R’3、R’4、R’5の最大値をR’とし、共起確率が最大となった場合の閾値変数の値を更新する(S218)。例えば、R’1が最大値であった場合、X1Sの値のみX1S=X1S’とする。同様に、R’2が最大値であった場合、X2sの値のみX2S=X2S’、R’3が最大値であった場合、Y1Sの値のみY1S=Y1S’、 R’4が最大値であった場合、Y2Sの値のみT2S=T2S’、 R’5が最大値であった場合、T1Sの値のみT1S=T1S’とする。
【0074】
次に、事前知識ルールデータベースDB3に記録された共起確率(R)とS218で求められた共起確率(R’) を比較する(S219)。そして、R’<Rを満たさない場合、X1=X1S、X2=X2S、Y1=Y1S、Y2=Y2S、T1=T1Sとして、これらの値を閾値最適化手段5の出力とする。
【0075】
一方、S219でR’<Rを満たす場合、最適化パラメータデータベースDB4を参照し、最大探索回数(Nth)と現在の検索回数Nを比較する(S220)。そして、N<Nthかつ、R’1=R’2=R’3=R’4=R’5=0を満たす場合は、検索回数NをN=N+1と更新し、S203に進む。一方、N<Nthかつ、R’1=R’2=R’3=R’4=R’5=0を満たさない場合は、処理手順1で示した閾値の初期値の生成回数iをi=i+1と更新し、処理手順1のS106に進む。
【0076】
以上のような処理を行うことで、数値データをカテゴリ化するための閾値変数の値の最適解を自動的に求めることが可能となる。
【0077】
以上に説明したように、本実施形態による事前ルールを用いた前処理装置によれば、閾値最適化手段5によって、事前ルールが適切に現れるように、閾値・制約データベースDB2に記録された閾値変数の値を自動的に求めることができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。
【0078】
なお、このように求められた閾値変数の値は、閾値表示装置7を用いて、様々な形でユーザに表示することができる。例えば、同一のデータ名の同一のラベルの条件に含まれる閾値変数の中で、ユーザが指定した変数の値を用いて、図を描画してもよい。この例を図10に示す。図10に示すように、事前ルールから導き出した閾値変数の値を用いることで、すべての商品エリア20を図示することができる。このように図示することで、ある商品の購入者が滞在する場所、複数の商品エリアが重なりすぎて混雑する場所などを視覚的にとらえることができるため、商品の棚21の配置やPOPの置き方などを見直すなどの施策を打つ際の知見を得ることができる。
【0079】
(第2の実施形態)
次に、第1の実施形態による事前ルールを用いた前処理装置を用いた情報抽出装置について、図11〜図15を参照して説明する。
【0080】
図11は、第1の実施形態による事前ルールを用いた前処理装置を用いた情報抽出装置の構成を概略的に示すブロック図である。
【0081】
図11に示すように、本実施形態に係る情報抽出装置は、閾値最適化処理部と情報抽出部とで構成される。このうち、閾値最適化処理部は、第1の実施形態に示す事前ルールを用いた前処理装置と同様の構成である。ただし、本実施形態ではイベント集合データベースDB1を第1イベント集合データベースDB1と称す。また、閾値表示装置7は必要なく、もし最適化された閾値を表示したい場合は、閾値パラメータデータベースDB6を参照して、後述の相関ルール表示装置13を用いてユーザに提示すればよい。
【0082】
一方、情報抽出部は、第2イベント集合データベースDB7と、連続データカテゴリ化手段8と、変換後イベント集合データベースDB9と、相関ルール抽出パラメータデータベースDB10と、相関ルール抽出手段11と、相関ルールデータベースDB12と、相関ルール表示装置13とで構成される。
【0083】
続いて、このような情報抽出装置を構成する各要素について、図12〜図15を参照して説明する。なお、この情報抽出装置のうち、閾値最適化処理部は第1の実施形態と同様であるため説明を省略し、ここでは、情報抽出部を構成する各要素について説明する。
【0084】
まず、第2イベント集合データベースDB7に記録されるデータについて説明する。
【0085】
第2イベント集合データベースDB7は、第1イベント集合データベースDB7と基本的に同一のものである。すなわち、第2イベント集合データベースDB7は、それぞれ複数のレコードからなるテーブルを有し、1つのレコードには、被観測体のIDと被観測体の数値データまたはカテゴリデータが記録されている。この第2イベント集合データベースDB7に記録されている被観測体に関するデータは、第1イベント集合データベースDB1に記録されているデータと同種類のセンサ、または機器で取得したデータでもよいし、その一部でもよい。また、異なる種類のセンサ、または機器で取得したデータであってもよい。ただし、第2イベント集合データベースDB7に記録されている被観測体に関するデータが、第1イベント集合データベースDB1に記録されているデータと異なるセンサ、機器で取得したデータを含む場合には、これらのデータが数値データではなくカテゴリデータである必要がある。また、第1イベント集合データベースDB1に記録されているデータと第2イベント集合データベースDB7に記録されているデータは、全く同一であってもよい。
【0086】
次に、数値データカテゴリ化手段8について説明する。
【0087】
数値データカテゴリ化手段8は、第2イベント集合データベースDB7に記録された被観測体の数値データを、閾値・制約データベースDB2に記録されている条件式及び、閾値パラメータデータベースDB6に記録されている最適化された閾値変数の値を使用して、カテゴリデータに変換する手段である。この数値データカテゴリ化手段8でカテゴリ化された数値データを有する被観測体のIDには、カテゴリに対応するラベルが付与され、変換後イベント集合データベースDB9に記録される。
【0088】
次に、変換後イベント集合データベースDB9に記録されるデータついて、図12を参照して説明する。
【0089】
変換後イベント集合データベースDB9は、数値データを数値データカテゴリ化手段8によってカテゴリ化することで付与するラベルが記録されたテーブルと、カテゴリデータのラベルが記録されたテーブルからなり、それぞれ被観測体IDとともに記録されている。このうち、カテゴリ化された数値データに付与するラベルが記録されたテーブルは、図12に示すように、複数のレコードからなり、1つのレコードには、被観測体ID、データ名、データの種類、観測時間、ラベル名が記録されている。図12においては、例えば、被観測体001が2007/08/01の15時30分00秒に「A商品エリア滞在」したことを示している。同様に、被観測体001は2007/08/01の15時40分00秒に「B商品エリア通過」し、2007/08/01の15時45分00秒に「C商品エリア滞在」したことを示している。一方、カテゴリデータのラベルが記録されたテーブルは、例えば図2Bと同様である。なお、これらのテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【0090】
次に、相関ルール抽出パラメータデータベースDB10に記録されるデータついて、図13を参照して説明する。
【0091】
図13に示すように、相関ルール抽出パラメータデータベースDB10に記録されるテーブルは、複数のレコードからなり、1つのレコードには、後述する相関ルール抽出手段11で相関ルールを抽出するために必要なパラメータの1つが記録されている。図13においては、相関ルール抽出手段11で使用するパラメータの一例として、相関ルールとして抽出されるのに満たさなければならない条件を表す最小支持度(Sup)が0.2であり、最小確信度(Conf)が0.6であることを示している。この最小支持度及び最小確信度は、ユーザによって指定されるものである。ここで支持度は(18式)、確信度は(19式)をそれぞれ用いて算出されるものである。
【0092】
支持度 S(X∧Y)=M(X∧Y)/M (18式)
M(X∧Y):アイテム集合「XとY」を含むイベント(被観測体)数
M:全イベント(被観測体)数
確信度 C(X∧Y)=M(X∧Y)/M(X) (19式)
M(X):アイテム集合「X」を含むイベント(被観測体)数
上述の相関ルール抽出パラメータデータベースDB10には、最小支持度及び最小確信度が記録されており、例えばアイテム集合Xが「A商品エリア滞在」と「B商品エリア滞在」であり、アイテム集合Yが「Item01購入」である場合、「A商品エリア滞在」と「B商品エリア滞在」と「Item01購入」の3つのアイテムを含む被観測体が全ての被観測体の20%以上であり、かつ「「A商品滞在」かつ「B商品滞在」」を含む被観測体の60%以上が「Item01購入」を含んでいる場合、「「A商品滞在」かつ「B商品滞在」ならば「Item01購入」である」は、相関ルールとして抽出される。なお、このテーブルに含まれるレコードは、例えばパラメータが1つである場合には、単数であってもよい。
【0093】
次に、相関ルール抽出手段11は、変換後イベント集合データベースDB9に記録されている被観測体のイベントに対して、相関ルール抽出パラメータデータベースDB10に記録されているパラメータを用いて相関ルールを抽出し、相関ルールデータベースDB12に記録する手段である。以下、この相関ルール抽出手段11を、図14を参照して説明する。
【0094】
図14は、相関ルール抽出手段11の処理手順を示すフローチャートを示す。
【0095】
図14に示すように、相関ルール抽出手段11は、まず、変換後イベント集合データベースDB9を参照し、シーケンス長kの相関ルールの候補集合を生成する(S301)。ここでシーケンス長とは、相関ルールに含まれるアイテム数をいう。このkの初期値は1であり、相関ルールの候補の生成方法は、k=1とk>1とでは異なる。
【0096】
k=1の場合は、全イベントに含まれるアイテムを候補とする。一方、k>1の場合、シーケンス長がk−1の相関ルールとして抽出された相関ルールの中で、k−2個のアイテムが共通する相関ルールを組み合わせて候補を生成する。例えば、シーケンス長3の相関ルールとして、「「商品Aエリア滞在」、「商品Bエリア滞在」、「Item01購入」」と「「商品Bエリア滞在」、「商品Cエリア滞在」、「Item11購入」」と「「商品Bエリア滞在」、「商品Cエリア滞在」、「Item01購入」」の3つの相関ルールが存在する場合、シーケンス長4の相関ルールの候補は、「「商品Aエリア滞在」、「商品Bエリア滞在」、「商品Cエリア滞在」、「Item01購入」」と「「商品Bエリア滞在」、「商品Cエリア滞在」、「Item01購入」、「Item11購入」」となる。
【0097】
次に、S301で生成した相関ルール候補集合に含まれる相関ルール候補の数を数え、その数が0より大きいか否かを判定する(S302)。0の場合は相関ルール抽出手段11を終了する。
【0098】
一方、S301で生成した相関ルール候補集合に含まれる相関ルール候補の数が0より大きい場合、変換度イベント集合データベースDB9を参照し、S301で生成された各相関ルール候補が変換度イベント集合データベースDB9に含まれるか否かを調べる。そして、生成された相関ルールを含むイベント(被観測体)数を数え、支持度と確信度を算出する(S303)。
【0099】
次に、相関ルール抽出パラメータデータベースDB10を参照し、S303で算出した相関ルール候補の支持度が最小支持度以上であり、相関ルール候補の確信度が最小確信度以上であれば、この相関ルール候補を相関ルールとして、後述の相関ルールデータベースDB12に記録する(S304)。
【0100】
次に、S304で記録されたシーケンス長kの相関ルールの数を数え、その数が0より大きいか否かを判定する(S305)。0の場合は相関ルール抽出手段11を終了する。
【0101】
一方、S304で記録されたシーケンス長kの相関ルールが0より大きい場合、k=k+1として、S301に戻る。
【0102】
以上のような手順により、相関ルールを生成することができる。なお、上述の例においては、アイテム間の順序を考慮していないが、考慮してもよい。
【0103】
最後に、相関ルールデータベースDB12に記録されるデータついて、図15を参照して説明する。
【0104】
図15に示すように、相関ルールデータベースDB12は、抽出された相関ルールが記録されたテーブルを有している。このテーブルは複数のレコードからなり、1つのレコードには、相関ルール抽出手段11で抽出した相関ルールが記録されている。図15においては、例えば1番目のレコードは、「「A商品エリア滞在」(条件部)ならば「Item01購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が0.5、確信度が0.7であることを示している。同様に、2番目のレコードは、「「A商品エリア滞在」かつ「B商品エリア滞在」(条件部)ならば「Item10購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が0.3、確信度が0.8であることを示しており、3番目のレコードは、「「A商品エリア滞在」かつ「C商品エリア滞在」(条件部)ならば「Item20購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が0.4、確信度が0.7であることを示している。なお、このテーブルに含まれるレコードは、例えば抽出された相関ルールが1つだった場合には、単数であってもよい。
【0105】
最後に、上述のようにして生成され、相関ルールデータベースDB12に記録された相関ルールは、相関ルール表示装置13に表示される。この際、相関ルールのシーケンス長、支持度の大きさ、確信度の大きさに応じて順番を変えて表示してもよいし、特定のアイテム集合を含む相関ルールのみを抽出して表示する等、目的に応じて自由に表示してよい。なお、この相関ルール表示装置13は、例えば通常のディスプレイ装置であり、第1の実施形態における閾値表示装置7と同様のものである。これらの相関ルール表示装置13及び閾値表示装置7は、ユーザに視覚的に相関ルールまたは最適化された閾値を提供できるものであれば、どんなものであってもよい。
【0106】
以上のように、本実施形態による情報抽出装置によれば、事前ルールが適切に現れるように閾値変数の値を自動的に決定することができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。そして、このようにして求められた閾値変数の値を用いて数値データをカテゴリ化するため、容易に効率よく、ユーザが知り得なかった有用な相関ルールを抽出することが可能となる。
【0107】
なお、このユーザが知りえなかった相関ルールを抽出することで、例えば、ある商品の広告をどこに表示するか等、主にマーケティングに関する分野に適用することが可能である。
【0108】
以上に、本発明の実施の形態を示したが、実施の形態はこれに限るものではなく、様々に適用可能である。
【0109】
例えば、webページ上のポインタの移動軌跡を数値データとし、webページ上において、クリックされる箇所をカテゴリデータとすることで、これらの事前ルールが適切に現れるように閾値変数の値を自動的に決定することができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。そして、このようにして求められた閾値変数の値を用いて数値データをカテゴリ化するため、容易に効率よく、ユーザが知り得なかった有用な相関ルールを抽出することも可能である。
【図面の簡単な説明】
【0110】
【図1】本発明の実施形態における事前ルールを用いた前処理装置の構成を概略的に示すブロック図である。
【図2A】イベント集合データベースに含まれる体の位置を示すデータを記録したテーブルを示す図である。
【図2B】イベント集合データベースに含まれる購買データを記録したテーブルを示す図である。
【図3A】閾値・制約データベースに含まれる閾値変数を記録したテーブルを示す図である。
【図3B】閾値・制約データベースに含まれる数値データ名とカテゴリ化後のラベルとそのラベルに該当する数値データの条件を記録したテーブルを示す図である。
【図3C】閾値・制約データベースに含まれる閾値変数の制約が記録されたテーブルを示す図である。
【図4】事前知識ルールデータベースに含まれるテーブルを示す図である。
【図5】商品マスタを示す図である
【図6】最適化パラメータデータベースに含まれるテーブルを示す図である。
【図7】閾値パラメータデータベースに含まれるテーブルを示す図である。
【図8】閾値最適化手段において閾値の初期設定を行う手順を示すフローチャートである。
【図9】閾値最適化手段において閾値の最適化を行う手順を示すフローチャートである。
【図10】閾値表示装置の表示例を示す図である。
【図11】本発明の実施形態における相関ルール抽出装置を示すブロック図である。
【図12】変換後イベント集合データベースに含まれる体の位置を示す数値データをカテゴリ化した結果を記録したテーブルを示す図である。
【図13】相関ルール抽出パラメータデータベースに含まれるテーブルを示す図である。
【図14】相関ルール抽出手段において相関ルールの抽出を行う手順を示すフローチャートである。
【図15】相関ルールデータベースに含まれるテーブルを示す図である。
【符号の説明】
【0111】
DB1・・・(第1)イベント集合データベース、DB2・・・閾値・制約データベース、DB3・・・事前知識ルールデータベース、DB4・・・最適化パラメータデータベース、DB6・・・閾値パラメータデータベース、DB7・・・第2イベント集合データベース、DB9・・・変換後イベント集合データベース、DB10・・・相関ルール抽出パラメータデータベース、DB12・・・相関ルールデータベース、5・・・閾値最適化手段、7・・・閾値表示装置、8・・・数値データカテゴリ化手段、11・・・相関ルール抽出手段、13・・・相関ルール表示装置、20・・・商品エリア、21・・・商品の棚。
【特許請求の範囲】
【請求項1】
同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータを記録したイベント集合データベースと、
このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルが記録された閾値・制約データベースと、
所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして記録した事前知識ルールデータベースと、
この事前知識ルールデータベースに予め含まれた全ての前記事前ルールを、前記制約の下で、前記イベント集合データベースから抽出するように前記閾値変数の値を算出する閾値最適化手段と、
この閾値最適化手段によって算出された前記閾値変数の値が記録された閾値データベースと、
この閾値データベースに記録された前記閾値変数の値を表示する表示装置と、
を具備することを特徴とする情報抽出装置の前処理装置。
【請求項2】
前記事前知識ルールデータベースに記録される前記事前ルールは、前記カテゴリデータのカテゴリが分類の抽象度に合わせて階層的に記録された商品マスタを用いて自動的に生成された相関ルールであることを特徴とする請求項1に記載の情報抽出装置の前処理装置。
【請求項3】
請求項1または2に記載の情報抽出装置の前処理装置と、
前記イベント集合データベースに含まれる前記軌跡データを、前記算出された閾値変数の値を用いてカテゴリデータに変換する数値データカテゴリ化手段と、
この数値データカテゴリ化手段でカテゴリ化された前記軌跡データに付された前記第2のラベル及び、前記第1のラベルの組み合わせからなる相関ルール候補を記録した変換後イベント集合データベースと、
この変換後イベント集合データベースに記録された前記相関ルール候補から、相関ルール抽出パラメータを用いて、相関ルールとして抽出する相関ルール抽出手段と、
この相関ルール抽出手段によって抽出された前記相関ルールを記録する相関ルールデータベースと、
を具備し、前記表示装置は、前記相関ルールを表示する表示装置であることを特徴とする情報抽出装置。
【請求項4】
前記相関ルール抽出パラメータは、支持度及び確信度であり、
前記相関ルール抽出手段は、前記各相関ルール候補のうち、一定以上の支持度及び確信度を有する前記相関ルール候補を相関ルールとして抽出する手段であることを特徴とする請求項3に記載の情報抽出装置。
【請求項5】
同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータをイベント集合データベースに記録し、
このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルを閾値・制約データベースに記録し、
所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして事前知識ルールデータベースに記録し、
この事前知識ルールデータベースから前記事前ルールを抽出し、
この抽出された前記事前ルールが有する前記第1のラベルを含むIDが有する前記軌跡データを前記イベント集合データベースから全て抽出し、
前記閾値・制約データベースから、前記条件、制約を抽出し、
この抽出された前記制約の下で、前記事前ルールが最も高い確率で現れるように前記閾値変数の値を算出することを特徴とする情報抽出装置の前処理方法。
【請求項6】
前記閾値変数の値を算出する手段は、
前記制約の下で、前記抽出された前記軌跡データから、前記閾値変数の値の初期値を算出し、
この算出された前記初期値を用いて前記軌跡データをカテゴリ化し、
このカテゴリ化された前記軌跡データに付される前記第2のラベルと、前記第1のラベルとの共起確率を算出し、
この算出された共起確率と、少なくとも1つの前記初期値を変えることで新たに求められた共起確率とのうち、最も高い共起確率になる場合の前記閾値変数の値を算出することを特徴とする請求項5に記載の情報抽出装置の前処理方法。
【請求項7】
前記事前知識ルールデータベースに記録される事前ルールは、カテゴリが分類の抽象度に合わせて階層的に記録された商品マスタを用いて自動的に生成されたルールであることを特徴とする請求項5または6に記載の情報抽出装置の前処理方法。
【請求項8】
請求項5乃至7のいずれかに記載の情報抽出装置の前処理方法によって最適化された前記閾値変数の値を用いて、前記イベント集合データベースに記録された軌跡データをカテゴリ化し、
このカテゴリ化された前記軌跡データに付された前記第2のラベルと、前記第1のラベルとの組み合わせを相関ルール候補として変換後イベント集合データベースに記録し、
この変換後イベント集合データベースに記録された前記相関ルール候補から、相関ルールパラメータを用いて抽出された前記相関ルール候補を相関ルールとすることを特徴とする情報抽出方法。
【請求項9】
前記相関ルール抽出パラメータは、支持度及び確信度であり、
前記各相関ルール候補のうち、一定以上の支持度及び確信度を有する前記相関ルール候補を相関ルールとして抽出することを特徴とする請求項8に記載の情報抽出方法。
【請求項1】
同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータを記録したイベント集合データベースと、
このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルが記録された閾値・制約データベースと、
所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして記録した事前知識ルールデータベースと、
この事前知識ルールデータベースに予め含まれた全ての前記事前ルールを、前記制約の下で、前記イベント集合データベースから抽出するように前記閾値変数の値を算出する閾値最適化手段と、
この閾値最適化手段によって算出された前記閾値変数の値が記録された閾値データベースと、
この閾値データベースに記録された前記閾値変数の値を表示する表示装置と、
を具備することを特徴とする情報抽出装置の前処理装置。
【請求項2】
前記事前知識ルールデータベースに記録される前記事前ルールは、前記カテゴリデータのカテゴリが分類の抽象度に合わせて階層的に記録された商品マスタを用いて自動的に生成された相関ルールであることを特徴とする請求項1に記載の情報抽出装置の前処理装置。
【請求項3】
請求項1または2に記載の情報抽出装置の前処理装置と、
前記イベント集合データベースに含まれる前記軌跡データを、前記算出された閾値変数の値を用いてカテゴリデータに変換する数値データカテゴリ化手段と、
この数値データカテゴリ化手段でカテゴリ化された前記軌跡データに付された前記第2のラベル及び、前記第1のラベルの組み合わせからなる相関ルール候補を記録した変換後イベント集合データベースと、
この変換後イベント集合データベースに記録された前記相関ルール候補から、相関ルール抽出パラメータを用いて、相関ルールとして抽出する相関ルール抽出手段と、
この相関ルール抽出手段によって抽出された前記相関ルールを記録する相関ルールデータベースと、
を具備し、前記表示装置は、前記相関ルールを表示する表示装置であることを特徴とする情報抽出装置。
【請求項4】
前記相関ルール抽出パラメータは、支持度及び確信度であり、
前記相関ルール抽出手段は、前記各相関ルール候補のうち、一定以上の支持度及び確信度を有する前記相関ルール候補を相関ルールとして抽出する手段であることを特徴とする請求項3に記載の情報抽出装置。
【請求項5】
同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータをイベント集合データベースに記録し、
このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルを閾値・制約データベースに記録し、
所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして事前知識ルールデータベースに記録し、
この事前知識ルールデータベースから前記事前ルールを抽出し、
この抽出された前記事前ルールが有する前記第1のラベルを含むIDが有する前記軌跡データを前記イベント集合データベースから全て抽出し、
前記閾値・制約データベースから、前記条件、制約を抽出し、
この抽出された前記制約の下で、前記事前ルールが最も高い確率で現れるように前記閾値変数の値を算出することを特徴とする情報抽出装置の前処理方法。
【請求項6】
前記閾値変数の値を算出する手段は、
前記制約の下で、前記抽出された前記軌跡データから、前記閾値変数の値の初期値を算出し、
この算出された前記初期値を用いて前記軌跡データをカテゴリ化し、
このカテゴリ化された前記軌跡データに付される前記第2のラベルと、前記第1のラベルとの共起確率を算出し、
この算出された共起確率と、少なくとも1つの前記初期値を変えることで新たに求められた共起確率とのうち、最も高い共起確率になる場合の前記閾値変数の値を算出することを特徴とする請求項5に記載の情報抽出装置の前処理方法。
【請求項7】
前記事前知識ルールデータベースに記録される事前ルールは、カテゴリが分類の抽象度に合わせて階層的に記録された商品マスタを用いて自動的に生成されたルールであることを特徴とする請求項5または6に記載の情報抽出装置の前処理方法。
【請求項8】
請求項5乃至7のいずれかに記載の情報抽出装置の前処理方法によって最適化された前記閾値変数の値を用いて、前記イベント集合データベースに記録された軌跡データをカテゴリ化し、
このカテゴリ化された前記軌跡データに付された前記第2のラベルと、前記第1のラベルとの組み合わせを相関ルール候補として変換後イベント集合データベースに記録し、
この変換後イベント集合データベースに記録された前記相関ルール候補から、相関ルールパラメータを用いて抽出された前記相関ルール候補を相関ルールとすることを特徴とする情報抽出方法。
【請求項9】
前記相関ルール抽出パラメータは、支持度及び確信度であり、
前記各相関ルール候補のうち、一定以上の支持度及び確信度を有する前記相関ルール候補を相関ルールとして抽出することを特徴とする請求項8に記載の情報抽出方法。
【図1】
【図2A】
【図2B】
【図3A】
【図3B】
【図3C】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2A】
【図2B】
【図3A】
【図3B】
【図3C】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2009−265905(P2009−265905A)
【公開日】平成21年11月12日(2009.11.12)
【国際特許分類】
【出願番号】特願2008−114193(P2008−114193)
【出願日】平成20年4月24日(2008.4.24)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成21年11月12日(2009.11.12)
【国際特許分類】
【出願日】平成20年4月24日(2008.4.24)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]