事前ルールを用いた前処理装置、前処理方法および、この前処理装置を用いた情報抽出装置、情報抽出方法

【課題】数値データをカテゴリデータに変換するための閾値を容易かつ適切に決定する。
【解決手段】イベント集合データベースＤＢ１と、閾値・制約データベースＤＢ２と、事前知識ルールデータベースＤＢ３と、最適化パラメータデータベースＤＢ４と、閾値最適化手段５と、閾値パラメータデータベースＤＢ６とを有し、閾値最適化手段５は、予めユーザが有する事前ルールを必ず満たすように、数値データをカテゴリ化するための閾値変数の値を決定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、膨大な情報をカテゴリ化し、有用な相関ルールを抽出する情報抽出装置に関し、特に、情報をカテゴリ化するための閾値を算出する前処理装置に関する。
【技術背景】
【０００２】
近年、センサ及び記憶装置の発達により、様々なイベントデータを蓄積することが可能となった。ここでイベントデータとは、何らかのイベントが発生した時に収集されるデータであり、例えば、店舗内に訪れる全ての顧客の店内での動作を観測して得られる顧客の位置を示す数値データや、顧客の購買ログから得られた購買データをいう。しかし、このように収集され、蓄積されたイベントデータは大量であるため、従来は、これらの大量のイベントデータに対して、相関の高い組み合わせをルールとして抽出し、提示することで、有用なデータを提供している。ここで相関ルールとは、全てのイベントデータに対して同時に現れるアイテムの組み合わせをいい、相関の高いルールとは、全てのイベントデータに対してある一定以上の確率で同時に現れるアイテムの組み合わせをいう。
【０００３】
これらの相関の高いルールは、データに現れるアイテム間の共起関係のみを表すものであり、必ずしもアイテム間の因果関係が存在するわけではないが、因果関係をもつルールが存在する場合もある。そこで、抽出された複数の相関ルールの中からユーザが因果関係のありそうなルールを選び、別の方法で因果関係があることを調べることで、ユーザの意思決定を助けることができる。例えば、一人の顧客の店舗内の動作データと購買データをイベントとし、店舗内の動作と購入した商品をアイテムと考え、「デザート売り場滞在」、「お菓子売り場滞在」、「パン売り場滞在」、「ロールケーキ購入」の４つのアイテムが全イベントの10%のイベントに含まれ、かつ「デザート売り場滞在」、「お菓子売り場滞在」、「パン売り場滞在」を含むイベントの90%が「ロールケーキ購入」も同時に含むという結果から、「デザート売り場とお菓子売り場とパン売り場に置いてある商品の区別がうまくいかないため、ロールケーキ購入者は必要以上の時間をかけてロールケーキを探している」といった仮説をユーザがたて、売り場に配置する商品の見直しを行うことなどが考えられる。
【０００４】
このように、大量のデータから有用な相関ルールを抽出するには、観測して得られた数値データをいくつかのカテゴリに分類するといった前処理（カテゴリ化）を行った後に、アイテムの集合である相関ルールの候補を生成し、全イベントに対して相関ルール候補が含まれるかを検索し、それが含まれるイベントの数を数え、それがユーザの指定する割合以上存在するか否かを調べる必要がある。（例えば、特許文献１を参照）。
【０００５】
ここで、例えば、顧客の位置を示す位置座標を数値データとして有する場合、この数値データを次のようにしてカテゴリ化している。
【０００６】
すなわち、顧客の位置を表すｘとｙが(１式)と(２式)を満たす場合は「デザート売り場」、(１式)と(４式)を満たす場合は「パン売り場」、(３式)と(４式)を満たす場合は「お菓子売り場」、(２式)と(３式)を満たす場合は「飲料水売り場」と定める。
【０００７】
０≦ｘ＜１０ (１式)
０≦ｙ＜１０ (２式)
１０≦ｘ＜２０ (３式)
１０≦ｙ＜２０ (４式)
この場合、位置座標(１，１)は「デザート売り場」に、(１，１５)という位置座標は「パン売り場」に変換される。
【０００８】
従来、このように数値データをカテゴリデータに変換するために、ユーザ自らが事前ルールなどを用いて閾値を設定していた。しかし、ユーザが有する事前ルールを用いたとしても明確にカテゴリに分けるための閾値を定めることができない場合が多い。例えば、身長を「高い」、「普通」、「低い」の３つのカテゴリに分けるための閾値を決定する場合であっても、「１７５ｃｍ以上を高い」それとも「１７４ｃｍ以上を高い」のどちらがよいかをユーザが判断することは難しい。このため、従来はユーザがそれぞれの閾値のうちいくつかを変更し、出てきた結果を確認するといった作業を繰り返して、所望の結果を得る必要があった。
【０００９】
また、間違った閾値によるカテゴリ化を行った場合、抽出される相関ルールの質に影響を与えることがある。例えば、魚売り場のエリアを広く、肉売り場のエリアを狭く設定することで、「魚売り場」と「豚肉購入」が相関ルールとして抽出される場合が考えられる。このような時に抽出される誤ったルールはユーザをかえって混乱させる場合がある。
【特許文献１】特開平１１−２５００８４号公報
【発明の開示】
【発明が解決しようとする課題】
【００１０】
上述したように、ユーザは、数値データをカテゴリ化する際に設定する閾値変数の値に対して、明確な判断基準を持つことは難しい。従って、ユーザが複数の閾値変数のうちのいくつかを変更し、それによって生成される相関ルールを確認するといった作業を繰り返す必要があるため、効率よく有用な相関ルールを得ることは難しい。
【００１１】
さらに、間違った閾値変数の値によるカテゴリ化を行った場合、抽出される相関ルールの質に影響を与えることがある。例えば、魚売り場のエリアを広く、肉売り場のエリアを狭く設定することで、「魚売り場」と「豚肉購入」が相関ルールとして抽出される場合が考えられる。このような時に抽出される誤ったルールはユーザをかえって混乱させる場合がある。
【課題を解決するための手段】
【００１２】
本発明の情報抽出装置の前処理装置は、上記の問題に鑑みてなされたものであり、同一のＩＤを有する軌跡データ及び、カテゴリ化され、それぞれに第１のラベルが付されたカテゴリデータを記録したイベント集合データベースと、このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第２のラベルが記録された閾値・制約データベースと、所定の確率で共起する前記第１及び前記第２のラベルの組み合わせを前記確率とともに事前ルールとして記録した事前知識ルールデータベースと、この事前知識ルールデータベースに予め含まれた全ての前記事前ルールを、前記制約の下で、前記イベント集合データベースから抽出するように前記閾値変数の値を算出する閾値最適化手段と、この閾値最適化手段によって算出された前記閾値変数の値が記録された閾値データベースと、この閾値データベースに記録された前記閾値変数の値を表示する表示装置と、を具備することを特徴とするものである。
【００１３】
また、本発明の情報抽出装置の前処理方法は、同一のＩＤを有する軌跡データ及び、カテゴリ化され、それぞれに第１のラベルが付されたカテゴリデータをイベント集合データベースに記録し、このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第２のラベルを閾値・制約データベースに記録し、所定の確率で共起する前記第１及び前記第２のラベルの組み合わせを前記確率とともに事前ルールとして事前知識ルールデータベースに記録し、この事前知識ルールデータベースから前記事前ルールを抽出し、この抽出された前記事前ルールが有する前記第１のラベルを含むＩＤが有する前記軌跡データを前記イベント集合データベースから全て抽出し、前記閾値・制約データベースから、前記条件、制約を抽出し、この抽出された前記制約の下で、前記事前ルールが最も高い確率で現れるように前記閾値変数の値を算出することを特徴とする情報抽出装置の前処理方法である。
【００１４】
すなわち、本発明は、予めユーザが有する事前ルールを用いて、特定のアイテム集合と、その集合を含むイベントに含まれる確率が高いアイテムと、これらが少なくとも含まれる確率（共起確率）とを事前ルールとしてデータベースに記録し、この事前ルールが必ず現れるように、数値データをカテゴリ化する際に必要な閾値変数の値を自動的に決定するものである。
【発明の効果】
【００１５】
このような本発明によれば、ユーザが閾値変数の値を直接決められない場合でも、数値データをカテゴリ化する際に必要な閾値変数の値を容易かつ適切に決定することができる。
【発明を実施するための最良の形態】
【００１６】
以下に、本発明の実施形態を図１〜図１５を参照して説明する。
【００１７】
(第１の実施形態)
図1は、本発明の実施形態における事前ルールを用いた前処理装置の構成を概略的に示すブロック図である。
【００１８】
図１に示すように、本実施形態に係る事前ルールを用いた前処理装置は、イベント集合データベースＤＢ１と、閾値・制約データベースＤＢ２と、事前知識ルールデータベースＤＢ３と、最適化パラメータデータベースＤＢ４と、閾値最適化手段５と、閾値パラメータデータベースＤＢ６と、閾値表示装置７とで構成される。
【００１９】
次に、このような事前ルールを用いた前処理装置を構成する各要素について、図２〜図７を参照して説明する。
【００２０】
まず、イベント集合データベースＤＢ１に記録されるデータについて、図２を参照して説明する。
【００２１】
イベント集合データベースＤＢ１には、被観測体のＩＤ及び被観測体に関するデータが記憶されている。このうち、被観測体に関するデータは、数値データとカテゴリデータに分類される。数値データとは、例えば、被観測者の体、頭、足、手の位置、速度、加速度、体の向きなどをセンサで観測することで得られる被観測者の動作の計測値、または、年齢、所得などのアンケートなどを用いることによって得られる被観測者の属性値の一部、またはＰＯＳ端末などから得られる購入金額、購買点数などである。また、カテゴリデータとは、例えば、性別や職業などのアンケートデータで得られる被観測体の属性値の一部や要望、または、ＰＯＳ端末などから得られる購入した商品などである。ここでは被観測体に関するデータの一例として、数値データが被観測者の体の移動軌跡データであり、カテゴリデータが被観測者の購買データである場合について説明する。
【００２２】
図２は、イベント集合データベースＤＢ１に記録されるデータであり、図２Ａは数値データを示し、図２Ｂはカテゴリデータを示している。
【００２３】
図２Ａに示すように、被観測体の移動軌跡データを記録したテーブルは、複数のレコードからなり、１つのレコードには被観測体のＩＤ、データ名、データの種類、観測時間、及び被観測体の体の位置を示すｘ座標、ｙ座標、ｚ座標が記録されている。図２Ａにおいては、被観測体００１が、２００７年８月１日１５時３２分００秒にx軸３０ｃｍ、ｙ軸２０ｃｍ、ｚ軸１７０ｃｍの位置にいて、１５時３２分０１秒にはx軸１５ｃｍ、ｙ軸２０ｃｍ、ｚ軸１７０ｃｍの位置にいて、１５時３２分０２秒にはx軸１５ｃｍ、ｙ軸１０ｃｍ、ｚ軸１７０ｃｍの位置にいたことを示している。また、これらのデータの種類が数値であり、データ名が体の位置であることを示している。なお、このテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて１つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【００２４】
また、図２Ｂに示すように、被観測体の購買データを記録したテーブルは、複数のレコードからなり、１つのレコードは被観測体のＩＤ、データ名、データの種類、観測時間、購買した商品が記録されている。図２Ｂにおいては、被観測体００１は２００７年８月１日１５時３０分００秒にＩｔｅｍ１０及びＩｔｅｍ２１を購入し、被観測体００２は２００７年８月１日１５時１０分００秒にＩｔｅｍ３５を購入し、被観測体００３は２００７年８月１日１５時００分００秒にＩｔｅｍ４２を購入したことを示している。また、これらのデータの種類はカテゴリデータであり、データ名が購買であることを示している。なお、このテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて１つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【００２５】
次に、閾値・制約データベースＤＢ２に記録されるデータについて、図３を参照して説明する。ここでは、イベント集合データベースＤＢ１に記録された数値データである被観測体の位置座標を、商品エリアに分割するというカテゴリ化を行う場合について説明する。
【００２６】
図３は、閾値・制約データベースＤＢ２に記録されるデータであり、図３Ａは数値データ名と算出すべき閾値変数を示し、図３Ｂは、カテゴリ化した後に付けるラベルと数値データをカテゴリ化するための条件を示し、図３Ｃは閾値変数の制約を示している。
【００２７】
図３Ａに示すように、数値データ名と算出すべき閾値変数を記録したテーブルは、複数のレコードからなり、１つのレコードにはデータ名、閾値変数名が記憶されている。これらの閾値変数名は、ユーザによって指定されるものである。図３Ａにおいては、データ名が体の位置であり、この体の位置を示す数値データを商品エリアであるカテゴリに分類するための閾値変数がＸ１、Ｘ２、Ｙ１、Ｙ２、Ｔ１であることを示している。なお、このテーブルは、例えば分類する商品エリア毎に複数あってもよいし、本実施形態に示すように、これらをまとめて１つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【００２８】
また、図３Ｂに示すように、数値データをカテゴリ化した後に付与するラベルと数値データをカテゴリ化するための条件を記録したテーブルは、複数のレコードからなり、１つのレコードにはデータ名、数値データをカテゴリ化した後に付与するラベル名、ラベルが付与されるための条件が記録されている。ここで、ラベル名及び数値データをカテゴリ化するための条件は、ユーザによって指定される。図３Ｂにおいては、被観測体を、例えば「Ａ商品エリア滞在」というカテゴリに分類するための条件を示している。Ａ商品エリア滞在というラベルが与えられ、「Ａ商品エリア滞在」というカテゴリに分類されるためには、数値データの位置座標ｘ、ｙがそれぞれ(５式)、（６式）を満たさなければならない。
【００２９】
Ｘ１＜=ｘ＜Ｘ２ (５式)
Ｙ１＜=ｙ＜Ｙ２ (６式)
さらに、（５式）（６式）の条件で分類される「Ａ商品エリア滞在」なるカテゴリに含まれる時間を示すｔは、（７式）を満たさなければならない。
【００３０】
Ｔ１＜ｔ (７式)
すなわち、被観測体に、Ａ商品エリア滞在なるカテゴリに分類され、「Ａ商品エリア滞在」なるラベルが付与されるためには、（５式）、（６式）、（７式）を満たさなければならないことを示している。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらをまとめて１つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【００３１】
また、図３Ｃに示すように、数値データをカテゴリ化するための閾値変数の制約が記録されたテーブルは、複数のレコードからなり、１つのレコードには、データ名、閾値変数名、閾値変数の制約式が記録されている。この制約式は、ユーザによって指定されるものである。図３Ｃにおいては、数値データをカテゴリ化するための閾値変数Ｘ１、Ｘ２、Ｙ１、Ｙ２はそれぞれ（８式）、（９式）、（１０式）、（１１式）を満たす範囲でなければならないことを示している。
【００３２】
０＜＝Ｘ１＜＝２０００ (８式)
０＜＝Ｘ２＜＝２０００ (９式)
０＜＝Ｙ１＜＝２０００ (１０式)
０＜＝Ｙ２＜＝２０００ (１１式)
ここで、これらの制約式は、例えば店舗の大きさを最大値として定めたものであり、各閾値は、この店舗の大きさ以上には設定できないことを意味する。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらをまとめて１つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【００３３】
次に、事前知識ルールデータベースＤＢ３に記録されるデータについて、図４を参照して説明する。
【００３４】
図４に示すように、事前知識ルールデータベースＤＢ３に記録されるテーブルは、複数のレコードからなり、レコードには、多くのイベントに含まれるカテゴリデータのアイテムと数値データをカテゴリ化した後に付与されるラベルを持つアイテムを含むアイテム集合とそれらが含まれる確率(共起確率)とが事前ルールとして記録されている。この事前ルールは、ユーザによって指定されるものである。図４においては、例えば、１番目のレコードは、購買データのアイテム「Ｉｔｅｍ１０購入」は、９０％以上の確率で、体の位置を示す数値データの「Ａ商品エリア滞在」というラベルをもつアイテムを含むイベントに含まれるということを示している。他も同様であり、２番目のレコードは、購買データのアイテム「Ｉｔｅｍ２０購入」は、８０％以上の確率で「Ｂ商品エリア滞在」、３番目のレコードは、購買データのアイテム「Ｉｔｅｍ３０購入」は、８０％以上の確率で「Ｃ商品エリア滞在」、４番目のレコードは、購買データのアイテム「Ｉｔｅｍ４０購入」は、８０％以上の確率で「Ｄ商品エリア滞在」というそれぞれのラベルをもつアイテムを含むイベントに含まれるということを示している。なお、このテーブルに記録されたレコードは、単数であってもよい。
【００３５】
すなわち、図４に示すこれらのデータは、例えば「Ｉｔｅｍ１０を購入した人の９０％以上の人はＡ商品エリアに滞在する」といったユーザの事前知識を用いて作成する、いわゆる当たり前のルールである。
【００３６】
なお、事前知識ルールデータベースＤＢ３は、商品のカテゴリを分類の抽象度に合わせて階層的に記録した商品マスタを使用することで、ユーザが階層を指定し、その階層に対して共通にまた個別に異なる共起確率を入力することによって、自動的に事前ルールを作成し、事前知識ルールデータベースＤＢ３に記録してもよい。例えば、図５に商品マスタの一例を示すように、１番目のレコードは、小分類Ｉｔｅｍ１０−０１は、中分類ではＩｔｅｍ１０に含まれており、さらにＩｔｅｍ１０は、大分類ではＩｔｅｍＡに含まれることを表している。同様に、２番目のレコードは、小分類Ｉｔｅｍ１０−０２は、中分類ではＩｔｅｍ１０に含まれており、さらにＩｔｅｍ１０は、大分類ではＩｔｅｍＡに含まれることを表している。これらの分類において、大分類のラベルは、例えばお菓子、肉、魚といった大まかな商品の区分によってつけられたラベルであり、中分類のラベルは、例えばチョコレート、せんべいといった細かな商品の区分によってつけられたラベルであり、小分類のラベルは、例えば商品名や味までを含むような詳細な商品の区分によってつけられたラベルである。このような商品マスタを用いることによって、例えば、ユーザが大分類を指定した場合は、ＩｔｅｍＡ購入と、ＩｔｅｍＡエリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースＤＢ3に記録される。同様に、ユーザが中分類が指定した場合は、Ｉｔｅｍ１０購入と、Ｉｔｅｍ１０エリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースＤＢ３に記録され、ユーザが小さい分類が指定した場合は、Ｉｔｅｍ１０−０１購入と、Ｉｔｅｍ１０−０１エリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースＤＢ３に記録される。
【００３７】
次に、最適化パラメータデータベースＤＢ４に記録されるデータについて、図６を参照して説明する。
【００３８】
図６に示すように、最適化パラメータデータベースＤＢ４に記録されるテーブルは、複数のレコードからなり、１つのレコードには、後述する閾値最適化手段５で使用するパラメータの１つが記録されている。閾値最適化手段５で使用するパラメータは、ユーザによって指定されるものであり、例えば初期値を探索する最大回数を表すパラメータである初期値最大探索回数（Ｌｔｈ）、最適値を探索する最大回数を表すパラメータである最大探索回数（Ｎｔｈ）、２種類の閾値変数の増減を表す閾値増減値Ｄ１、Ｄ２、初期値の生成に必要なパラメータ（Ｒ）である。図６においては、Ｌｔｈ＝１００、Ｎｔｈ＝１００００、Ｄ１＝１０、Ｄ２＝１、Ｒ=１０であることを示している。なお、閾値増減値Ｄ１、Ｄ２は、例えば（１２式）に示すように、探索回数に対して減少するような関数式であってもよい。
【００３９】
Ｄ１＝α／Ｎｔｈ×Ｎ (１２式)
Ｎ：探索回数
α：定数値
なお、このテーブルに含まれるレコードは、上述のように複数あってもよいし、例えばパラメータが１つの場合には、単数であってもよい。
【００４０】
次に、閾値最適化手段５は、詳細な説明は後述するが、イベント集合データベースＤＢ１に記録された数値データとカテゴリデータを用いて、閾値・制約データベースＤＢ２に記録された閾値変数に対する制約下で事前知識ルールデータベースＤＢ３に記録された事前ルールが適切に表れるように、閾値・制約データベースＤＢ２に記録された閾値変数の値を自動的に求める手段であり、求められた閾値は、後述の閾値パラメータデータベースＤＢ６に記録される。なお、この閾値変数は、事前知識ルールデータベースＤＢ３に含まれる各事前ルールに対して閾値変数の値を求めてもよいし、公知技術であるJohn H. Holland「Adaptation in Natural and Artificial Systems」University of Michigan Press, 1975に記載されているようなＧＡ(Genetic Algorithm：遺伝的アルゴリズム)などの多目的最適化手法を用いて事前知識ルールデータベースＤＢ３に含まれる事前ルールのすべてのルールを満たすような最適な閾値変数の値を一度に求めてもよい。
【００４１】
次に、閾値パラメータデータベースＤＢ６に記録されるデータについて、図７を参照して説明する。
【００４２】
図７に示すように、閾値パラメータデータベースＤＢ６に記録されるテーブルは、複数のレコードからなり、レコードには、データ名、閾値変数名、閾値最適化手段５によって算出された最適な閾値変数の値が記録されている。図７においては、１番目のレコードは、体の位置を示す数値データをカテゴリ化するための閾値変数Ｘ１の値が１００であることを示している。同様に閾値変数Ｘ２の値は２００、閾値変数Ｙ１の値は１００、閾値変数Ｙ２の値は２００、閾値変数Ｔ１の値は１５であることを示している。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらを１つのテーブルにまとめて記録させてもよい。また、例えば閾値変数が単数である場合等は、テーブルに記録されるレコードが単数であってもよい。
【００４３】
最後に、閾値表示装置７は、閾値パラメータデータベースＤＢ６に記録された最適な閾値変数をユーザに表示すための装置であり、例えば通常のディスプレイ装置がこれに該当する。
【００４４】
続いて、閾値最適化手段５として、１つの事前ルールに対する閾値変数の最適解を求める方法について、図８、図９を用いて説明する。
【００４５】
閾値最適化手段５は、数値データをカテゴリ化するための閾値変数の値の初期設定を行うための処理手順１と、処理手順１で設定された閾値変数の値を最適化するための処理手順２に大別される。図８に処理手順１、図９に処理手順２を示すフローチャートを示す。
【００４６】
まず、数値データをカテゴリ化するための閾値変数の値の初期設定を行うための処理手順１を、図８を参照して説明する。
【００４７】
図８に示すように、処理手順１では、はじめに、事前知識ルールデータベースＤＢ３を参照し、そこに記録されている事前ルールの中から、ｊ番目の事前ルールを取り出す（Ｓ１０１）。jは抽出した事前ルールの格納されている順番を示しており、例えば、ｊ＝1では格納されている1番目の事前ルール取り出すこととなる。事前知識ルールデータベースＤＢ３が図４である場合、抽出される事前ルールは、「Ｉｔｅｍ１０購買」、「Ａ商品エリア滞在」で共起確率は９０％である。
【００４８】
次に、イベント集合データベースＤＢ１を参照し、該当するカテゴリラベルを含む全ての被観測体のＩＤを全て抽出する。上述の例では、「Ｉｔｅｍ１０購入」というカテゴリデータを有する被観測体のＩＤを全て抽出する。そして、事前ルールに含まれるカテゴリ化する数値データのデータ名と抽出した被観測体のＩＤをもとに、イベント集合データベースＤＢ１から対象となる被観測体のデータを抜き出し、事前ルール該当イベントセットの作成を行う（Ｓ１０２）。ここで、イベントセットに含まれる被観測体数をＮ１とする。
【００４９】
次に、閾値・制約データベースＤＢ２を参照し、Ｓ１０１で抽出した事前ルールに含まれるカテゴリ化する数値データのラベルに関する閾値変数とその条件式と制約式を抽出する（Ｓ１０３）。例えば、事前ルールに含まれるカテゴリ化する数値データのラベルが「Ａ商品エリア滞在」であり、閾値変数、条件式、制約式が図３Ａ、図３Ｂ、図３Ｃの場合、求めるべき閾値変数として、Ｘ１、Ｘ２、Ｙ１、Ｙ２、Ｔ１の５種類が抽出される。また条件式として、上述の(５式)、(６式)、(７式)が抽出される。また、制約式として、上述の(８式)、(９式)、(１０式)、(１１式)が抽出される。
【００５０】
次に、Ｓ１０２で作成した事前ルール該当イベント集合データセットに含まれる全てのデータ点を対象とし、半径Ｒの円に含まれるデータ点の個数(Ｎ２)を算出する。この円は、i番目に個数が多い点（Ｘｓ、Ｙｓ）を中心とした円であり、このときの（Ｘｓ、Ｙｓ）を用いて、Ｘ１，Ｘ２、Ｙ１、Ｙ２の初期値を（１３式）、（１４式）、（１５式）、（１６式）、（１７式）のように設定する（Ｓ１０４）。
【００５１】
Ｘ１Ｓ＝Ｘｓ−Ｒ（１３式）
Ｘ２Ｓ＝Ｘｓ＋Ｒ（１４式）
Ｙ１Ｓ＝Ｙｓ−Ｒ（１５式）
Ｙ２Ｓ＝Ｙｓ＋Ｒ（１６式）
Ｔ１Ｓ＝Ｎ２／Ｎ１（１７式）
ここでiは、初期値の生成回数を示し、初期値の生成を繰り返すたびに増加する変数である。また、Ｒは、ユーザが自由に設定してよい。
【００５２】
次に、Ｓ１０４で生成した初期値がＳ１０３で抽出した制約式を満たすか否かを判定する（Ｓ１０５）。そして、判定の結果、初期値が制約式を満たす場合は後述する処理手順２へ進む。
【００５３】
Ｓ１０５で初期値が制約式を満たさなかった場合、ｉ＝ｉ＋１として、最適化パラメータデータベースＤＢ５を参照し、初期探索回数ｉが最大初期探索回数Ｌｔｈより小さいかどうかを判定する（Ｓ１０６）。そして、判定の結果、初期探索回数が最大初期探索回数より小さい場合は、Ｓ１０４へ進む。
【００５４】
一方、Ｓ１０６の判定の結果、初期探索回数ｉが最大初期探索回数Ｌｔｈ以上である場合、閾値が見つからないことをユーザに知らせる（Ｓ１０７）。
【００５５】
以上のような処理手順１により、数値データをカテゴリ化するための閾値変数の値の初期設定を行う。上述の例で、例えばｉ＝１の場合、「Ｉｔｅｍ１０購入」というカテゴリデータを含む被観測体のＩＤを有する全てのデータ点のうち、半径Ｒの円に含まれるデータ点が最も多かったときの中心位置を基準として、（１３式）〜（１７式）に従って、閾値の初期設定がなされる。
【００５６】
続いて、処理手順１で設定された閾値の最適化を行うための処理手順２を、図９を参照して説明する。
【００５７】
図９に示すように、処理手順２では、はじめに、処理手順１で求められた閾値Ｘ１Ｓ、Ｘ２Ｓ、Ｙ１Ｓ、Ｙ２Ｓ、Ｔ１Ｓを用いて数値データをカテゴリ化し、共起確率(Ｒ’)を求める（Ｓ２０１）。このときカテゴリ化は、上述の例で、例えば「Ｉｔｅｍ１０購入」というカテゴリデータを含む被観測体のＩＤを有する数値データが、（５式）〜（７式）を満たすか否かで判断され、満たすＩＤには、例えば「商品Ａエリア滞在」というラベルが付与される。また、共起確率は、例えば「Ｉｔｅｍ１０購入」というカテゴリデータを含む全てのＩＤのうち、このＩＤが有する数値データが「商品Ａエリア滞在」というカテゴリに分類される割合を示したものである。
【００５８】
次に、事前知識ルールデータベースＤＢ３に記録された共起確率(Ｒ)とＳ２０１で求められた共起確率(Ｒ’) を比較する（Ｓ２０２）。そして、Ｒ’＜Ｒを満たさない場合、Ｘ１＝Ｘ１Ｓ、Ｘ２＝Ｘ２Ｓ、Ｙ１＝Ｙ１Ｓ、Ｙ２＝Ｙ２Ｓ、Ｔ１＝Ｔ１Ｓとして、これらの値を閾値最適化手段５の出力とする。
【００５９】
一方、Ｓ２０２でＲ’＜Ｒを満たす場合、Ｘ１Ｓ’＝Ｘ１Ｓ−Ｄ１とする（Ｓ２０３）。次に、閾値・制約データベースＤＢ２を参照し、Ｓ２０３で求められたＸ１Ｓ’が制約
を満たすか否かを判定する（Ｓ２０４）。そして、Ｘ１Ｓ’が制約を満たさない場合はＲ’１＝０として、後述のＳ２０６に進む。
【００６０】
一方、Ｘ１Ｓ’が制約を満たす場合は、Ｘ１Ｓ’、Ｘ２Ｓ、Ｙ１Ｓ、Ｙ２Ｓ、Ｔ１Ｓを用いて数値データをカテゴリ化し、共起確率(Ｒ’１)を求める（Ｓ２０５）。
【００６１】
次に、Ｘ２Ｓ’＝Ｘ２Ｓ＋Ｄ１とする（Ｓ２０６）。
【００６２】
次に、閾値・制約データベースＤＢ２を参照し、Ｓ２０６で求められたＸ２Ｓ’が制約
を満たすか否かを判定する（Ｓ２０７）。そして、Ｘ２Ｓ’が制約を満たさない場合はＲ’２＝０として、後述のＳ２０９に進む。
【００６３】
一方、Ｘ２Ｓ’が制約を満たす場合は、Ｘ１Ｓ、Ｘ２Ｓ’、Ｙ１Ｓ、Ｙ２Ｓ、Ｔ１Ｓを用いて数値データをカテゴリ化し、共起確率(Ｒ’２)を求める（Ｓ２０８）。
【００６４】
次に、Ｙ１Ｓ’＝Ｙ１Ｓ−Ｄ１とする（Ｓ２０９）。
【００６５】
次に、閾値・制約データベースＤＢ２を参照し、Ｓ２０９で求められたＹ１Ｓ’が制約
を満たすか否かを判定する（Ｓ２１０）。そして、Ｙ１Ｓ’が制約を満たさない場合はＲ’３＝０として、後述のＳ２１２に進む。
【００６６】
一方、Ｙ１Ｓ’が制約を満たす場合は、Ｘ１Ｓ、Ｘ２Ｓ、Ｙ１Ｓ’、Ｙ２Ｓ、Ｔ１Ｓを用いて数値データをカテゴリ化し、共起確率(Ｒ’３)を求める（Ｓ２１１）。
【００６７】
次に、Ｙ２Ｓ’＝Ｙ２Ｓ＋Ｄ１とする（Ｓ２１２）。
【００６８】
次に、閾値・制約データベースＤＢ２を参照し、Ｓ２１２で求められたＹ２Ｓ’が制約
を満たすか否かを判定する（Ｓ２１３）。そして、Ｙ２Ｓ’が制約を満たさない場合はＲ’４＝０として、後述のＳ２１５に進む。
【００６９】
一方、Ｙ２Ｓ’が制約を満たす場合は、Ｘ１Ｓ、Ｘ２Ｓ、Ｙ１Ｓ、Ｙ２Ｓ’、Ｔ１Ｓを用いて数値データをカテゴリ化し、共起確率(Ｒ’４)を求める（Ｓ２１４）。
【００７０】
次に、Ｔ１Ｓ’＝Ｔ１Ｓ−Ｄ２とする（Ｓ２１５）。
【００７１】
次に、閾値・制約データベースＤＢ２を参照し、Ｓ２１５で求められたＴ１Ｓ’が制約
を満たすか否かを判定する（Ｓ２１６）。そして、Ｔ１Ｓ’が制約を満たさない場合はＲ’５＝０として、後述のＳ２１８に進む。
【００７２】
一方、Ｔ１Ｓ’が制約を満たす場合は、Ｘ１Ｓ、Ｘ２Ｓ、Ｙ１Ｓ、Ｙ２Ｓ、Ｔ１Ｓ’を用いて数値データをカテゴリ化し、共起確率(Ｒ’５)を求める（Ｓ２１７）。
【００７３】
次に、Ｒ’１、Ｒ’２、Ｒ’３、Ｒ’４、Ｒ’５の最大値をＲ’とし、共起確率が最大となった場合の閾値変数の値を更新する（Ｓ２１８）。例えば、Ｒ’１が最大値であった場合、Ｘ1Ｓの値のみＸ１Ｓ＝Ｘ１Ｓ’とする。同様に、Ｒ’２が最大値であった場合、Ｘ２ｓの値のみＸ２Ｓ＝Ｘ２Ｓ’、Ｒ’３が最大値であった場合、Ｙ１Ｓの値のみＹ１Ｓ＝Ｙ１Ｓ’、Ｒ’４が最大値であった場合、Ｙ２Ｓの値のみＴ２Ｓ＝Ｔ２Ｓ’、Ｒ’５が最大値であった場合、Ｔ１Ｓの値のみＴ１Ｓ＝Ｔ１Ｓ’とする。
【００７４】
次に、事前知識ルールデータベースＤＢ３に記録された共起確率(Ｒ)とＳ２１８で求められた共起確率(Ｒ’) を比較する（Ｓ２１９）。そして、Ｒ’＜Ｒを満たさない場合、Ｘ１＝Ｘ１Ｓ、Ｘ２＝Ｘ２Ｓ、Ｙ１＝Ｙ１Ｓ、Ｙ２＝Ｙ２Ｓ、Ｔ１＝Ｔ１Ｓとして、これらの値を閾値最適化手段５の出力とする。
【００７５】
一方、Ｓ２１９でＲ’＜Ｒを満たす場合、最適化パラメータデータベースＤＢ４を参照し、最大探索回数（Ｎｔｈ）と現在の検索回数Ｎを比較する（Ｓ２２０）。そして、Ｎ＜Ｎｔｈかつ、Ｒ’１＝Ｒ’２＝Ｒ’３＝Ｒ’４＝Ｒ’５＝０を満たす場合は、検索回数ＮをＮ＝Ｎ＋１と更新し、Ｓ２０３に進む。一方、Ｎ＜Ｎｔｈかつ、Ｒ’１＝Ｒ’２＝Ｒ’３＝Ｒ’４＝Ｒ’５＝０を満たさない場合は、処理手順１で示した閾値の初期値の生成回数ｉをｉ＝ｉ＋１と更新し、処理手順１のＳ１０６に進む。
【００７６】
以上のような処理を行うことで、数値データをカテゴリ化するための閾値変数の値の最適解を自動的に求めることが可能となる。
【００７７】
以上に説明したように、本実施形態による事前ルールを用いた前処理装置によれば、閾値最適化手段５によって、事前ルールが適切に現れるように、閾値・制約データベースＤＢ２に記録された閾値変数の値を自動的に求めることができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。
【００７８】
なお、このように求められた閾値変数の値は、閾値表示装置７を用いて、様々な形でユーザに表示することができる。例えば、同一のデータ名の同一のラベルの条件に含まれる閾値変数の中で、ユーザが指定した変数の値を用いて、図を描画してもよい。この例を図１０に示す。図１０に示すように、事前ルールから導き出した閾値変数の値を用いることで、すべての商品エリア２０を図示することができる。このように図示することで、ある商品の購入者が滞在する場所、複数の商品エリアが重なりすぎて混雑する場所などを視覚的にとらえることができるため、商品の棚２１の配置やＰＯＰの置き方などを見直すなどの施策を打つ際の知見を得ることができる。
【００７９】
(第２の実施形態)
次に、第１の実施形態による事前ルールを用いた前処理装置を用いた情報抽出装置について、図１１〜図１５を参照して説明する。
【００８０】
図１１は、第１の実施形態による事前ルールを用いた前処理装置を用いた情報抽出装置の構成を概略的に示すブロック図である。
【００８１】
図１１に示すように、本実施形態に係る情報抽出装置は、閾値最適化処理部と情報抽出部とで構成される。このうち、閾値最適化処理部は、第１の実施形態に示す事前ルールを用いた前処理装置と同様の構成である。ただし、本実施形態ではイベント集合データベースＤＢ１を第１イベント集合データベースＤＢ１と称す。また、閾値表示装置７は必要なく、もし最適化された閾値を表示したい場合は、閾値パラメータデータベースＤＢ６を参照して、後述の相関ルール表示装置１３を用いてユーザに提示すればよい。
【００８２】
一方、情報抽出部は、第２イベント集合データベースＤＢ７と、連続データカテゴリ化手段８と、変換後イベント集合データベースＤＢ９と、相関ルール抽出パラメータデータベースＤＢ１０と、相関ルール抽出手段１１と、相関ルールデータベースＤＢ１２と、相関ルール表示装置１３とで構成される。
【００８３】
続いて、このような情報抽出装置を構成する各要素について、図１２〜図１５を参照して説明する。なお、この情報抽出装置のうち、閾値最適化処理部は第１の実施形態と同様であるため説明を省略し、ここでは、情報抽出部を構成する各要素について説明する。
【００８４】
まず、第２イベント集合データベースＤＢ７に記録されるデータについて説明する。
【００８５】
第２イベント集合データベースＤＢ７は、第１イベント集合データベースＤＢ７と基本的に同一のものである。すなわち、第２イベント集合データベースＤＢ７は、それぞれ複数のレコードからなるテーブルを有し、１つのレコードには、被観測体のＩＤと被観測体の数値データまたはカテゴリデータが記録されている。この第２イベント集合データベースＤＢ７に記録されている被観測体に関するデータは、第１イベント集合データベースＤＢ１に記録されているデータと同種類のセンサ、または機器で取得したデータでもよいし、その一部でもよい。また、異なる種類のセンサ、または機器で取得したデータであってもよい。ただし、第２イベント集合データベースＤＢ７に記録されている被観測体に関するデータが、第1イベント集合データベースＤＢ１に記録されているデータと異なるセンサ、機器で取得したデータを含む場合には、これらのデータが数値データではなくカテゴリデータである必要がある。また、第1イベント集合データベースＤＢ１に記録されているデータと第２イベント集合データベースＤＢ７に記録されているデータは、全く同一であってもよい。
【００８６】
次に、数値データカテゴリ化手段８について説明する。
【００８７】
数値データカテゴリ化手段８は、第２イベント集合データベースＤＢ７に記録された被観測体の数値データを、閾値・制約データベースＤＢ２に記録されている条件式及び、閾値パラメータデータベースＤＢ６に記録されている最適化された閾値変数の値を使用して、カテゴリデータに変換する手段である。この数値データカテゴリ化手段８でカテゴリ化された数値データを有する被観測体のＩＤには、カテゴリに対応するラベルが付与され、変換後イベント集合データベースＤＢ９に記録される。
【００８８】
次に、変換後イベント集合データベースＤＢ９に記録されるデータついて、図１２を参照して説明する。
【００８９】
変換後イベント集合データベースＤＢ９は、数値データを数値データカテゴリ化手段８によってカテゴリ化することで付与するラベルが記録されたテーブルと、カテゴリデータのラベルが記録されたテーブルからなり、それぞれ被観測体ＩＤとともに記録されている。このうち、カテゴリ化された数値データに付与するラベルが記録されたテーブルは、図１２に示すように、複数のレコードからなり、１つのレコードには、被観測体ＩＤ、データ名、データの種類、観測時間、ラベル名が記録されている。図１２においては、例えば、被観測体００１が２００７/０８/０１の１５時３０分００秒に「Ａ商品エリア滞在」したことを示している。同様に、被観測体００１は２００７/０８/０１の１５時４０分００秒に「Ｂ商品エリア通過」し、２００７/０８/０１の１５時４５分００秒に「Ｃ商品エリア滞在」したことを示している。一方、カテゴリデータのラベルが記録されたテーブルは、例えば図２Ｂと同様である。なお、これらのテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて１つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
【００９０】
次に、相関ルール抽出パラメータデータベースＤＢ１０に記録されるデータついて、図１３を参照して説明する。
【００９１】
図１３に示すように、相関ルール抽出パラメータデータベースＤＢ１０に記録されるテーブルは、複数のレコードからなり、１つのレコードには、後述する相関ルール抽出手段１１で相関ルールを抽出するために必要なパラメータの１つが記録されている。図１３においては、相関ルール抽出手段１１で使用するパラメータの一例として、相関ルールとして抽出されるのに満たさなければならない条件を表す最小支持度（Ｓｕｐ）が０．２であり、最小確信度（Ｃｏｎｆ）が０．６であることを示している。この最小支持度及び最小確信度は、ユーザによって指定されるものである。ここで支持度は（１８式）、確信度は（１９式）をそれぞれ用いて算出されるものである。
【００９２】
支持度Ｓ（Ｘ∧Ｙ）＝Ｍ（Ｘ∧Ｙ）／Ｍ (１８式)
Ｍ（Ｘ∧Ｙ）：アイテム集合「ＸとＹ」を含むイベント（被観測体）数
Ｍ：全イベント（被観測体）数
確信度Ｃ（Ｘ∧Ｙ）＝Ｍ（Ｘ∧Ｙ）／Ｍ（Ｘ） (１９式)
Ｍ（Ｘ）：アイテム集合「Ｘ」を含むイベント（被観測体）数
上述の相関ルール抽出パラメータデータベースＤＢ１０には、最小支持度及び最小確信度が記録されており、例えばアイテム集合Ｘが「Ａ商品エリア滞在」と「Ｂ商品エリア滞在」であり、アイテム集合Ｙが「Ｉｔｅｍ０１購入」である場合、「Ａ商品エリア滞在」と「Ｂ商品エリア滞在」と「Ｉｔｅｍ０１購入」の３つのアイテムを含む被観測体が全ての被観測体の２０％以上であり、かつ「「Ａ商品滞在」かつ「Ｂ商品滞在」」を含む被観測体の６０％以上が「Ｉｔｅｍ０１購入」を含んでいる場合、「「Ａ商品滞在」かつ「Ｂ商品滞在」ならば「Ｉｔｅｍ０１購入」である」は、相関ルールとして抽出される。なお、このテーブルに含まれるレコードは、例えばパラメータが１つである場合には、単数であってもよい。
【００９３】
次に、相関ルール抽出手段１１は、変換後イベント集合データベースＤＢ９に記録されている被観測体のイベントに対して、相関ルール抽出パラメータデータベースＤＢ１０に記録されているパラメータを用いて相関ルールを抽出し、相関ルールデータベースＤＢ１２に記録する手段である。以下、この相関ルール抽出手段１１を、図１４を参照して説明する。
【００９４】
図１４は、相関ルール抽出手段１１の処理手順を示すフローチャートを示す。
【００９５】
図１４に示すように、相関ルール抽出手段１１は、まず、変換後イベント集合データベースＤＢ９を参照し、シーケンス長ｋの相関ルールの候補集合を生成する（Ｓ３０１）。ここでシーケンス長とは、相関ルールに含まれるアイテム数をいう。このｋの初期値は1であり、相関ルールの候補の生成方法は、ｋ＝１とｋ＞１とでは異なる。
【００９６】
ｋ＝１の場合は、全イベントに含まれるアイテムを候補とする。一方、ｋ＞１の場合、シーケンス長がｋ−１の相関ルールとして抽出された相関ルールの中で、ｋ−２個のアイテムが共通する相関ルールを組み合わせて候補を生成する。例えば、シーケンス長3の相関ルールとして、「「商品Ａエリア滞在」、「商品Ｂエリア滞在」、「Ｉｔｅｍ０１購入」」と「「商品Ｂエリア滞在」、「商品Ｃエリア滞在」、「Ｉｔｅｍ１１購入」」と「「商品Ｂエリア滞在」、「商品Ｃエリア滞在」、「Ｉｔｅｍ０１購入」」の３つの相関ルールが存在する場合、シーケンス長4の相関ルールの候補は、「「商品Ａエリア滞在」、「商品Ｂエリア滞在」、「商品Ｃエリア滞在」、「Ｉｔｅｍ０１購入」」と「「商品Ｂエリア滞在」、「商品Ｃエリア滞在」、「Ｉｔｅｍ０１購入」、「Ｉｔｅｍ１１購入」」となる。
【００９７】
次に、Ｓ３０１で生成した相関ルール候補集合に含まれる相関ルール候補の数を数え、その数が０より大きいか否かを判定する（Ｓ３０２）。０の場合は相関ルール抽出手段１１を終了する。
【００９８】
一方、Ｓ３０１で生成した相関ルール候補集合に含まれる相関ルール候補の数が０より大きい場合、変換度イベント集合データベースＤＢ９を参照し、Ｓ３０１で生成された各相関ルール候補が変換度イベント集合データベースＤＢ９に含まれるか否かを調べる。そして、生成された相関ルールを含むイベント（被観測体）数を数え、支持度と確信度を算出する（Ｓ３０３）。
【００９９】
次に、相関ルール抽出パラメータデータベースＤＢ１０を参照し、Ｓ３０３で算出した相関ルール候補の支持度が最小支持度以上であり、相関ルール候補の確信度が最小確信度以上であれば、この相関ルール候補を相関ルールとして、後述の相関ルールデータベースＤＢ１２に記録する（Ｓ３０４）。
【０１００】
次に、Ｓ３０４で記録されたシーケンス長ｋの相関ルールの数を数え、その数が０より大きいか否かを判定する（Ｓ３０５）。０の場合は相関ルール抽出手段１１を終了する。
【０１０１】
一方、Ｓ３０４で記録されたシーケンス長ｋの相関ルールが０より大きい場合、ｋ＝ｋ＋１として、Ｓ３０１に戻る。
【０１０２】
以上のような手順により、相関ルールを生成することができる。なお、上述の例においては、アイテム間の順序を考慮していないが、考慮してもよい。
【０１０３】
最後に、相関ルールデータベースＤＢ１２に記録されるデータついて、図１５を参照して説明する。
【０１０４】
図１５に示すように、相関ルールデータベースＤＢ１２は、抽出された相関ルールが記録されたテーブルを有している。このテーブルは複数のレコードからなり、１つのレコードには、相関ルール抽出手段１１で抽出した相関ルールが記録されている。図１５においては、例えば１番目のレコードは、「「Ａ商品エリア滞在」(条件部)ならば「Ｉｔｅｍ０１購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が０．５、確信度が０．７であることを示している。同様に、２番目のレコードは、「「Ａ商品エリア滞在」かつ「Ｂ商品エリア滞在」(条件部)ならば「Ｉｔｅｍ１０購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が０．３、確信度が０．８であることを示しており、３番目のレコードは、「「Ａ商品エリア滞在」かつ「Ｃ商品エリア滞在」(条件部)ならば「Ｉｔｅｍ２０購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が０．４、確信度が０．７であることを示している。なお、このテーブルに含まれるレコードは、例えば抽出された相関ルールが１つだった場合には、単数であってもよい。
【０１０５】
最後に、上述のようにして生成され、相関ルールデータベースＤＢ１２に記録された相関ルールは、相関ルール表示装置１３に表示される。この際、相関ルールのシーケンス長、支持度の大きさ、確信度の大きさに応じて順番を変えて表示してもよいし、特定のアイテム集合を含む相関ルールのみを抽出して表示する等、目的に応じて自由に表示してよい。なお、この相関ルール表示装置１３は、例えば通常のディスプレイ装置であり、第１の実施形態における閾値表示装置７と同様のものである。これらの相関ルール表示装置１３及び閾値表示装置７は、ユーザに視覚的に相関ルールまたは最適化された閾値を提供できるものであれば、どんなものであってもよい。
【０１０６】
以上のように、本実施形態による情報抽出装置によれば、事前ルールが適切に現れるように閾値変数の値を自動的に決定することができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。そして、このようにして求められた閾値変数の値を用いて数値データをカテゴリ化するため、容易に効率よく、ユーザが知り得なかった有用な相関ルールを抽出することが可能となる。
【０１０７】
なお、このユーザが知りえなかった相関ルールを抽出することで、例えば、ある商品の広告をどこに表示するか等、主にマーケティングに関する分野に適用することが可能である。
【０１０８】
以上に、本発明の実施の形態を示したが、実施の形態はこれに限るものではなく、様々に適用可能である。
【０１０９】
例えば、ｗｅｂページ上のポインタの移動軌跡を数値データとし、ｗｅｂページ上において、クリックされる箇所をカテゴリデータとすることで、これらの事前ルールが適切に現れるように閾値変数の値を自動的に決定することができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。そして、このようにして求められた閾値変数の値を用いて数値データをカテゴリ化するため、容易に効率よく、ユーザが知り得なかった有用な相関ルールを抽出することも可能である。
【図面の簡単な説明】
【０１１０】
【図１】本発明の実施形態における事前ルールを用いた前処理装置の構成を概略的に示すブロック図である。
【図２Ａ】イベント集合データベースに含まれる体の位置を示すデータを記録したテーブルを示す図である。
【図２Ｂ】イベント集合データベースに含まれる購買データを記録したテーブルを示す図である。
【図３Ａ】閾値・制約データベースに含まれる閾値変数を記録したテーブルを示す図である。
【図３Ｂ】閾値・制約データベースに含まれる数値データ名とカテゴリ化後のラベルとそのラベルに該当する数値データの条件を記録したテーブルを示す図である。
【図３Ｃ】閾値・制約データベースに含まれる閾値変数の制約が記録されたテーブルを示す図である。
【図４】事前知識ルールデータベースに含まれるテーブルを示す図である。
【図５】商品マスタを示す図である
【図６】最適化パラメータデータベースに含まれるテーブルを示す図である。
【図７】閾値パラメータデータベースに含まれるテーブルを示す図である。
【図８】閾値最適化手段において閾値の初期設定を行う手順を示すフローチャートである。
【図９】閾値最適化手段において閾値の最適化を行う手順を示すフローチャートである。
【図１０】閾値表示装置の表示例を示す図である。
【図１１】本発明の実施形態における相関ルール抽出装置を示すブロック図である。
【図１２】変換後イベント集合データベースに含まれる体の位置を示す数値データをカテゴリ化した結果を記録したテーブルを示す図である。
【図１３】相関ルール抽出パラメータデータベースに含まれるテーブルを示す図である。
【図１４】相関ルール抽出手段において相関ルールの抽出を行う手順を示すフローチャートである。
【図１５】相関ルールデータベースに含まれるテーブルを示す図である。
【符号の説明】
【０１１１】
ＤＢ１・・・（第１）イベント集合データベース、ＤＢ２・・・閾値・制約データベース、ＤＢ３・・・事前知識ルールデータベース、ＤＢ４・・・最適化パラメータデータベース、ＤＢ６・・・閾値パラメータデータベース、ＤＢ７・・・第２イベント集合データベース、ＤＢ９・・・変換後イベント集合データベース、ＤＢ１０・・・相関ルール抽出パラメータデータベース、ＤＢ１２・・・相関ルールデータベース、５・・・閾値最適化手段、７・・・閾値表示装置、８・・・数値データカテゴリ化手段、１１・・・相関ルール抽出手段、１３・・・相関ルール表示装置、２０・・・商品エリア、２１・・・商品の棚。

【特許請求の範囲】
【請求項１】
同一のＩＤを有する軌跡データ及び、カテゴリ化され、それぞれに第１のラベルが付されたカテゴリデータを記録したイベント集合データベースと、
このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第２のラベルが記録された閾値・制約データベースと、
所定の確率で共起する前記第１及び前記第２のラベルの組み合わせを前記確率とともに事前ルールとして記録した事前知識ルールデータベースと、
この事前知識ルールデータベースに予め含まれた全ての前記事前ルールを、前記制約の下で、前記イベント集合データベースから抽出するように前記閾値変数の値を算出する閾値最適化手段と、
この閾値最適化手段によって算出された前記閾値変数の値が記録された閾値データベースと、
この閾値データベースに記録された前記閾値変数の値を表示する表示装置と、
を具備することを特徴とする情報抽出装置の前処理装置。
【請求項２】
前記事前知識ルールデータベースに記録される前記事前ルールは、前記カテゴリデータのカテゴリが分類の抽象度に合わせて階層的に記録された商品マスタを用いて自動的に生成された相関ルールであることを特徴とする請求項１に記載の情報抽出装置の前処理装置。
【請求項３】
請求項１または２に記載の情報抽出装置の前処理装置と、
前記イベント集合データベースに含まれる前記軌跡データを、前記算出された閾値変数の値を用いてカテゴリデータに変換する数値データカテゴリ化手段と、
この数値データカテゴリ化手段でカテゴリ化された前記軌跡データに付された前記第２のラベル及び、前記第１のラベルの組み合わせからなる相関ルール候補を記録した変換後イベント集合データベースと、
この変換後イベント集合データベースに記録された前記相関ルール候補から、相関ルール抽出パラメータを用いて、相関ルールとして抽出する相関ルール抽出手段と、
この相関ルール抽出手段によって抽出された前記相関ルールを記録する相関ルールデータベースと、
を具備し、前記表示装置は、前記相関ルールを表示する表示装置であることを特徴とする情報抽出装置。
【請求項４】
前記相関ルール抽出パラメータは、支持度及び確信度であり、
前記相関ルール抽出手段は、前記各相関ルール候補のうち、一定以上の支持度及び確信度を有する前記相関ルール候補を相関ルールとして抽出する手段であることを特徴とする請求項３に記載の情報抽出装置。
【請求項５】
同一のＩＤを有する軌跡データ及び、カテゴリ化され、それぞれに第１のラベルが付されたカテゴリデータをイベント集合データベースに記録し、
このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第２のラベルを閾値・制約データベースに記録し、
所定の確率で共起する前記第１及び前記第２のラベルの組み合わせを前記確率とともに事前ルールとして事前知識ルールデータベースに記録し、
この事前知識ルールデータベースから前記事前ルールを抽出し、
この抽出された前記事前ルールが有する前記第１のラベルを含むＩＤが有する前記軌跡データを前記イベント集合データベースから全て抽出し、
前記閾値・制約データベースから、前記条件、制約を抽出し、
この抽出された前記制約の下で、前記事前ルールが最も高い確率で現れるように前記閾値変数の値を算出することを特徴とする情報抽出装置の前処理方法。
【請求項６】
前記閾値変数の値を算出する手段は、
前記制約の下で、前記抽出された前記軌跡データから、前記閾値変数の値の初期値を算出し、
この算出された前記初期値を用いて前記軌跡データをカテゴリ化し、
このカテゴリ化された前記軌跡データに付される前記第２のラベルと、前記第１のラベルとの共起確率を算出し、
この算出された共起確率と、少なくとも１つの前記初期値を変えることで新たに求められた共起確率とのうち、最も高い共起確率になる場合の前記閾値変数の値を算出することを特徴とする請求項５に記載の情報抽出装置の前処理方法。
【請求項７】
前記事前知識ルールデータベースに記録される事前ルールは、カテゴリが分類の抽象度に合わせて階層的に記録された商品マスタを用いて自動的に生成されたルールであることを特徴とする請求項５または６に記載の情報抽出装置の前処理方法。
【請求項８】
請求項５乃至７のいずれかに記載の情報抽出装置の前処理方法によって最適化された前記閾値変数の値を用いて、前記イベント集合データベースに記録された軌跡データをカテゴリ化し、
このカテゴリ化された前記軌跡データに付された前記第２のラベルと、前記第１のラベルとの組み合わせを相関ルール候補として変換後イベント集合データベースに記録し、
この変換後イベント集合データベースに記録された前記相関ルール候補から、相関ルールパラメータを用いて抽出された前記相関ルール候補を相関ルールとすることを特徴とする情報抽出方法。
【請求項９】
前記相関ルール抽出パラメータは、支持度及び確信度であり、
前記各相関ルール候補のうち、一定以上の支持度及び確信度を有する前記相関ルール候補を相関ルールとして抽出することを特徴とする請求項８に記載の情報抽出方法。

【図１】