説明

特徴パターン抽出装置、特徴パターン抽出方法、分類支援装置および分類支援方法

【課題】意思決定支援に利用可能な情報を効率的に生成する。
【解決手段】分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付部111と、アイテム集合に含まれるアイテムのパターンに特徴的な特徴パターンの候補であって、アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成部113と、クラスごとに、クラスに対応づけられたアイテム集合での候補パターンの出現頻度を算出し、算出した出現頻度が予め定められた条件を満たす候補パターンである特徴パターンを抽出する特徴抽出部114と、抽出された特徴パターンを出力する表示部130と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴パターン抽出装置、特徴パターン抽出方法、分類支援装置および分類支援方法に関する。
【背景技術】
【0002】
非特許文献1では、購入されたアイテムのリストを示すレシートを多数収集することにより、特定のアイテムやアイテム集合に関連して購入される他のアイテムやアイテム集合を明らかにする相関ルールを効率的に発見する技術が提案されている。
【0003】
非特許文献1の発見法は、小売業等で用いられるレシートを想定して開発された手法であるが、同種のデータを持つ多様な分野に活用されている。また、このような方法で発見された相関ルールは意思決定支援に活用されている。
【0004】
特許文献1では、データ群ごとに相関ルールを発見するとともに、データ群を被説明変数、相関ルールの条件部、および結論部に対応するアイテムを説明変数として統計処理を実施する技術が提案されている。また、特許文献1では、各アイテムに対する条件部スコアおよび結論部スコアを付与することにより、相関ルールを座標上に展開して、データ群の傾向の相違を視覚化する技術が提案されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−259127号公報
【非特許文献】
【0006】
【非特許文献1】“Mining Sequential Patterns”, R. Agrawal and R. Srikant, Proc. 11th Int. Conf. on Data Engineering, pp. 3-14 (1995)
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、非特許文献1の方法は、アイテム集合の中に内在する特徴的なパターンを発見する方法であり、当該パターン間に内在する関係を発見することはできなかった。特許文献1の方法を利用すれば、異なるデータ群から得られた相関ルールを視覚的に比較することができる。しかし、特許文献1の方法では、異なるデータ群の違いが、いずれの部分のアイテムやアイテム集合に起因するかは、利用者が判断する必要があった。すなわち、データ群の違いを説明する要因を自動的に抽出し、その違いをモデル化することはできなかった。
【0008】
本発明は、上記に鑑みてなされたものであって、意思決定支援に利用可能な情報を効率的に生成することができる特徴パターン抽出装置、特徴パターン抽出方法、分類支援装置および分類支援方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上述した課題を解決し、目的を達成するために、本発明は、分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付部と、前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成部と、前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出部と、抽出された前記特徴パターンを出力する出力部と、を備えることを特徴とする。
【0010】
また、本発明は、分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付部と、前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成部と、前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出部と、前記アイテム集合それぞれについて、抽出された前記特徴パターンが前記アイテム集合に含まれているか否かを表す属性ベクトルを生成する属性生成部と、生成された前記属性ベクトルと、前記アイテム集合に対応づけられている前記クラスとに基づいて、前記アイテムを含む集合を前記クラスのいずれかに分類するための分類モデルを生成するモデル生成部と、生成された前記分類モデルを出力する出力部と、を備えることを特徴とする。
【0011】
また、本発明は、上記装置で実行することができる方法である。
【発明の効果】
【0012】
本発明によれば、意思決定支援に利用可能な情報を効率的に生成することができるという効果を奏する。
【図面の簡単な説明】
【0013】
【図1】図1は、第1の実施の形態にかかる特徴パターン抽出装置の構成の一例を示すブロック図である。
【図2】図2は、入力データ記憶部に記憶されるデータのデータ構造の一例を示す図である。
【図3】図3は、候補記憶部に記憶されるデータのデータ構造の一例を示す図である。
【図4】図4は、特徴記憶部に記憶されるデータのデータ構造の一例を示す図である。
【図5】図5は、第1の実施の形態における特徴パターン表示処理の全体の流れを示すフローチャートである。
【図6】図6は、第1の実施の形態における特徴パターン抽出処理の全体の流れを示すフローチャートである。
【図7】図7は、第1の実施の形態における特徴パターン抽出処理の全体の流れを示すフローチャートである。
【図8】図8は、候補パターンおよびクラスの組に対して算出された出現頻度の一例を示す図である。
【図9】図9は、算出される出現頻度の算出結果の一例を示す図である。
【図10】図10は、算出される出現頻度の算出結果の一例を示す図である。
【図11】図11は、算出される出現頻度の算出結果の一例を示す図である。
【図12】図12は、第2の実施の形態にかかる分類支援装置の構成の一例を示すブロック図である。
【図13】図13は、第2の実施の形態における分類支援処理の全体の流れを示すフローチャートである。
【図14】図14は、生成される属性ベクトルの一例を示す図である。
【図15】図15は、生成される分類モデルの一例を示す図である。
【図16】図16は、第1または第2の実施の形態にかかる装置のハードウェア構成を示す説明図である。
【発明を実施するための形態】
【0014】
以下に添付図面を参照して、この発明にかかる特徴パターン抽出装置、特徴パターン抽出方法、分類支援装置および分類支援方法の最良な実施の形態を詳細に説明する。
【0015】
(第1の実施の形態)
非特許文献1および特許文献1のような従来の相関ルールの発見方法では、特段の区別がない多数のアイテム集合を入力として与えることを前提としている。このため、与えられたアイテム集合が何らかの基準によって分類されているとしても、その分類を考慮してアイテム集合を分析することはできなかった。
【0016】
しかし、購買された商品のアイテム集合と購買されなかったアイテム集合のように、アイテム集合が何らかの基準によって分類されているデータは多数存在している。このため、特定の分類基準で決定されているクラスを考慮して、特定のアイテム部分集合間の関係を分析することが求められていた。
【0017】
例えば、RFIDタグおよびRFIDリーダーの普及に伴って、レジでの商品購入というイベント(商品購入イベント)を認識するだけでなく、棚から取り出された商品が再び棚に返却されるといったイベントも認識可能となっている。このような返却に伴うイベントは、商品が購入されなかったことを示すイベント(商品未購入イベント)と解釈することができる。そして、この例では、例えば商品購入イベントと商品未購入イベントとの間にある特徴を分析することが求められていた。
【0018】
そこで、第1の実施の形態にかかる特徴パターン抽出装置は、予め定められた分類基準により決定されるクラスが付与されたアイテム集合を元に、当該クラスを考慮して特徴パターンを抽出して出力する。
【0019】
なお、アイテムとは、分析対象となる情報を表すものであり、所定の属性の値を表す属性値によって特徴づけられる。例えば、購買される商品がアイテムに相当する。この場合は、各商品名が属性値に対応する。以下では商品をアイテムとする例について説明するが、アイテムは商品に限られるものではない。例えば、商品の色やサイズなどのように、商品を特徴付ける個々の特徴をアイテムとみなすこともできる。
【0020】
クラスとは、アイテムの集合(アイテム集合)を分類するための分類情報を表す。例えば、商品をアイテムとする場合は、アイテム集合に含まれる各商品が購入されたか、購入されなかったかによって、当該アイテム集合を分類することができる。この場合、アイテム集合は、例えば「購入」または「未購入」のいずれかのクラスに分類される。なお、クラスはこれに限られるものではなく、所定の分類基準でアイテム集合を分類できる情報であればあらゆる情報を適用できる。また、2つに分類されるクラスだけでなく、3つ以上に分類されるクラスを用いてもよい。
【0021】
特徴パターンとは、アイテム集合に含まれるアイテムを組み合わせたパターンのうち特徴的なパターンを表す。
【0022】
図1は、第1の実施の形態にかかる特徴パターン抽出装置100の構成の一例を示すブロック図である。図1に示すように、特徴パターン抽出装置100は、入力データ記憶部121と、候補記憶部122と、特徴記憶部123と、特徴生成部110と、表示部130と、を備えている。
【0023】
入力データ記憶部121は、クラスが付与されたアイテム集合を記憶する。図2は、入力データ記憶部121に記憶されるデータのデータ構造の一例を示す図である。図2に示すように、入力データ記憶部121は、アイテム集合と、クラスとを対応づけたデータを記憶している。なお、同図では、説明の便宜上、アイテム集合を識別する識別情報(t〜t)を記載しているが、入力データ記憶部121にこのような識別情報を記憶する必要はない。
【0024】
図1に戻り、候補記憶部122は、特徴パターンの候補となるパターンとして、後述する候補生成部113によって生成される候補パターンのうち、次に生成される候補パターンの要素となる候補パターン(以下、候補要素という)を記憶する。具体的には、候補記憶部122は、後述する特徴抽出部114によって特徴パターンであるか否かを判定できなかった候補パターン(以下、未定パターンという)を候補要素として記憶する。
【0025】
図3は、候補記憶部122に記憶されるデータのデータ構造の一例を示す図である。同図に示すように、候補記憶部122は、未定パターンと判定された候補パターンである候補要素を記憶する。なお、同図では、アイテム数が1個の候補要素のみが記載されているが、処理経過に伴いアイテム数が順次増加された候補要素が、候補記憶部122に記憶されうる。
【0026】
図1に戻り、特徴記憶部123は、後述する特徴抽出部114によって抽出される特徴パターンを記憶する。図4は、特徴記憶部123に記憶されるデータのデータ構造の一例を示す図である。図4に示すように、特徴記憶部123は、抽出された特徴パターンと、当該特徴パターンが頻出したクラスを表す頻出クラスとを対応づけたデータを記憶している。
【0027】
なお、入力データ記憶部121、候補記憶部122、および特徴記憶部123は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
【0028】
図1に戻り、特徴生成部110は、入力データ記憶部121に記憶されているデータから特徴パターンを抽出して特徴記憶部123に保存する。特徴生成部110は、受付部111と、分割部112と、候補生成部113と、特徴抽出部114とを備えている。
【0029】
受付部111は、特徴パターンを抽出する対象となる入力データを受付ける。本実施の形態では、入力データ記憶部121に記憶されている、クラスが付与されたアイテム集合を特徴パターンの抽出対象データとして受付ける。なお、データの入力方法はこれに限られるものではない。例えば、外部装置(図示せず)に記憶されたデータを受付けるように構成してもよい。
【0030】
分割部112は、受付部111によって入力データ記憶部121から読み込まれたクラス付きアイテム集合を、クラスごとの部分集合に分割する。
【0031】
候補生成部113は、クラスごとのアイテムの部分集合からアイテムを抽出し、抽出したアイテムを含む候補パターンを生成する。また、候補生成部113は、候補記憶部122に記憶されている候補要素から、アイテムの一部が相互に異なる複数の候補要素を取得し、複数の候補要素間で共通するアイテムと、複数の候補要素間で異なるアイテムとを含む候補パターンを新たな候補パターンとして生成する。
【0032】
特徴抽出部114は、クラスごとに、当該クラスに対応づけられたアイテム集合内での各候補パターンの出現頻度を算出し、出現頻度が予め定められた条件を満たす候補パターンを特徴パターンとして抽出する。例えば、特徴抽出部114は、予め定められた頻度閾値より大きいか否かを、予め定められた条件として用いることができる。この場合、特徴抽出部114は、いずれかのクラスでの出現頻度が頻度閾値より大きく、それ以外のクラスでの出現頻度が頻度閾値以下である候補パターンを特徴パターンとして抽出する。特徴パターン抽出処理の詳細については後述する。
【0033】
表示部130は、抽出された特徴パターンを出力する出力部として機能する、ディスプレイ装置などの表示装置である。
【0034】
次に、このように構成された第1の実施の形態にかかる特徴パターン抽出装置100による特徴パターン表示処理について図5を用いて説明する。図5は、第1の実施の形態における特徴パターン表示処理の全体の流れを示すフローチャートである。
【0035】
まず、受付部111が、入力データ記憶部121に格納されているクラス付きアイテム集合の中から、1つのクラス付きアイテム集合を読み込む(ステップS501)。次に、分割部112が、読み込まれたクラス付きアイテム集合のクラスを参照することにより、当該クラス付きアイテム集合をクラスごとの部分集合に分割する(ステップS502)。
【0036】
例えば、図2に示すような入力データ記憶部121から、クラス付きアイテム集合t〜tが入力された場合、分割部112は、これらのアイテム集合をクラス「購入」に対応する部分集合に割り当てる。これに対して、クラス付きアイテム集合t〜tが入力された場合、分割部112は、これらのアイテム集合をクラス「未購入」に対応する部分集合に割り当てる。
【0037】
次に、受付部111は、入力データ記憶部121に未処理のデータ(クラス付きアイテム集合)が存在するか否かを判断する(ステップS503)。未処理のクラス付きアイテム集合が存在する場合は(ステップS503:YES)、次のアイテム集合を読み込んで処理を繰り返す(ステップS501)。
【0038】
未処理のアイテム集合が存在しない場合(ステップS503:NO)、特徴生成部110が、クラス付きアイテム集合から、クラス付きアイテム集合を特徴付ける特徴パターンを発見する特徴パターン抽出処理を実行する(ステップS504)。
【0039】
例えば、入力データ記憶部121に、図2に示すクラス付きアイテム集合t〜tが格納されているとする。また、各アイテム集合が上から順に読み込まれるとする。このとき、t〜tのクラス付きアイテム集合が読み込まれた後の場合には、次の未処理のデータが読み込まれる(ステップS501)。これに対して、tのクラス付きアイテム集合が読み込まれた後の場合には、未処理のデータが存在しないため、特徴パターン抽出処理が実行される(ステップS504)。
【0040】
特徴パターン抽出処理では、抽出過程で生成される候補要素が候補記憶部122に格納される一方、発見された特徴パターンが特徴記憶部123に格納される。例えば、特徴パターン抽出処理により、図2のようなクラス付きアイテム集合から、図4に示す特徴パターン(p〜p11)が発見される。特徴パターン抽出処理の詳細については後述する。
【0041】
特徴パターン抽出処理の後、表示部130が、抽出された特徴パターンを表示し(ステップS505)、特徴パターン表示処理を終了する。
【0042】
例えば、表示部130は、図4に示すように、頻出クラスを対応づけて表形式で表した特徴パターンを表示する。これにより、ユーザは、アイテムの組み合わせのパターンが、いずれのクラスに分類されるかを判断することができる。
【0043】
例えば、小売業の販売員であるユーザは、このような特徴パターンを参照することにより、同時に購入される商品(アイテム)を認識し、顧客に薦めることが可能となる。また、このような特徴パターンを参照することにより、ユーザは、例えば同時に購入される頻度が高い商品をより近い場所に配置するといったことが可能となる。このように、本実施の形態によれば、ユーザの意思決定支援に利用可能な情報を効率的に生成して表示することができる。
【0044】
なお、特徴パターンの出力方法は、表示部130に表示する方法に限られるものではない。例えば、プリンタ等により紙媒体に出力するように構成してもよい。
【0045】
次に、ステップS504の特徴パターン抽出処理の詳細について図6および図7を用いて説明する。図6および図7は、第1の実施の形態における特徴パターン抽出処理の全体の流れを示すフローチャートである。
【0046】
まず、候補生成部113が、分割部112により分割された部分集合を構成するクラスを抽出し、抽出したクラスを含むクラス集合を生成する(ステップS601)。例えば、図2のようなクラス付きアイテム集合に対しては、「購入」および「未購入」を含むクラス集合が生成される。
【0047】
次に、候補生成部113が、受付部111によって読み込まれたクラス付きアイテム集合を構成するアイテム集合の中から、未処理のアイテムを候補パターンとして1つ抽出する(ステップS602)。
【0048】
例えば、図2に示すようなクラス付きアイテム集合では、各アイテム集合は、「ジャケット」、「ジーンズ」、「ポロシャツ」、「Yシャツ」、「ジャンパー」、「スラックス」、「ベルト」、および「ネクタイ」といったアイテムから構成されている。このため、当該アイテムのいずれかのアイテムが未処理の場合は、そのアイテムが候補パターンとして取得される。
【0049】
次に、特徴抽出部114が、ステップS601で生成されたクラス集合に含まれるクラスの中から、ステップS602で抽出された候補パターンに関して、クラスごとの出現頻度を算出していない1つのクラスを選択する(ステップS603)。例えば、「購入」および「未購入」のクラスが抽出されており、候補パターンであるアイテム「ジャケット」に関しては、いずれかのクラスでまだ出現頻度を算出していない場合には、そのクラスが取得される。
【0050】
次に、特徴抽出部114が、選択されたクラスと一致するクラスが付与されたアイテム集合に対して、ステップS602で抽出された候補パターンを含むアイテム集合の個数を算出し、当該候補パターンおよび当該クラスでの出現頻度とする(ステップS604)。
【0051】
例えば、図2のクラス付きアイテム集合で、アイテム「ジャケット」が候補パターンとして抽出され、クラス「購入」が選択されている場合、アイテム集合t〜tに「ジャケット」が含まれているため、出現頻度は5となる。
【0052】
また、アイテム「ジャケット」が候補パターンとして抽出され、クラス「未購入」が選択されている場合には、アイテム集合t、t、およびtに「ジャケット」が含まれているため、出現頻度は3となる。
【0053】
図8は、このような手順により各候補パターンおよびクラスの組に対して算出された出現頻度の一例を示す図である。同図では、各候補パターンに対して算出された各クラスの出現頻度である購入頻度および未購入頻度が示されている。なお、判定結果とは、各候補パターンに対して、特徴抽出部114により判定されたパターン種別の判定結果を表す(詳細は後述)。また、同図のcj,kは、アイテム数がj個であるk+1番目の候補パターンであることを表す。
【0054】
次に、候補生成部113は、すべてのクラスを処理したか否かを判断する(ステップS605)。すべてのクラスを処理していない場合(ステップS605:NO)、次の未処理のクラスをクラス集合から取得して処理を繰り返す(ステップS603)。
【0055】
すべてのクラスを処理した場合(ステップS605:YES)はステップS606へ進む。例えば、候補パターンであるアイテム「ジャケット」に関しては、「購入」および「未購入」の両方で出現頻度を算出済みの場合には、ステップS606に進む。
【0056】
ステップS606では、特徴抽出部114が、候補パターンとして抽出されているアイテムに対して、クラスごとの出現頻度を参照することにより、当該候補パターンのパターン種別を決定する(ステップS606)。パターン種別とは、候補パターンが特徴パターンであるか否かを表す情報である。本実施の形態では、パターン種別には、特徴パターン、未定パターン、および非特徴パターンが含まれる。特徴抽出部114は、各候補パターンを、この3つのパターン種別のいずれかに決定する。
【0057】
例えば、特徴抽出部114は、2種類のクラスを対象としている場合であれば、一方のクラスで頻出し、他方のクラスでは頻出しない候補パターンを特徴パターンに決定する。また、特徴抽出部114は、両方のクラスで頻出する候補パターンを未定パターンに決定する。さらに、特徴抽出部114は、両方のクラスで頻出しない候補パターンを非特徴パターンに決定する。なお、パターン種別の判定方法はこれに限られるものではない。
【0058】
特徴抽出部114は、出現頻度が頻度閾値以上になる場合を、頻出すると判断する。例えば、図2のようなクラス付きアイテム集合が入力され、頻度閾値として2が設定されているとする。この場合、候補パターン「ジャケット」は両方のクラスで頻出しているため、未定パターンと判定される。また、候補パターン「ベルト」は、クラス「購入」で頻出していない一方、クラス「未購入」で頻出しているため、特徴パターンと判定される。
【0059】
同様に、図8の各候補パターンに対しては、同図の判定結果の列に示すように、「ジーンズ」、「ポロシャツ」、「Yシャツ」、「ジャンパー」、および「スラックス」が未定パターンと判定され、「ネクタイ」が特徴パターンと判定される。
【0060】
次に、特徴抽出部114は、決定されたパターン種別が特徴パターンであるか否かを判断する(ステップS607)。パターン種別が特徴パターンである場合(ステップS607:YES)、特徴抽出部114は、候補パターンを特徴パターンとして特徴記憶部123に保存する(ステップS608)。
【0061】
パターン種別が特徴パターンでない場合(ステップS607:NO)、特徴抽出部114は、さらに、パターン種別が未定パターンであるか否かを判断する(ステップS609)。パターン種別が未定パターンの場合(ステップS609:YES)、特徴抽出部114は、候補パターンを候補要素として候補記憶部122に保存する(ステップS610)。
【0062】
パターン種別が未定パターンでないと判断された場合(ステップS609:NO)、および、ステップS608またはステップS610で候補パターンを保存した後、候補生成部113は、すべてのアイテムを処理したか否かを判断する(ステップS611)。
【0063】
すべてのアイテムを処理していない場合(ステップS611:NO)、候補生成部113は、次の未処理のアイテムを候補パターンとして取得して処理を繰り返す(ステップS602)。
【0064】
すべてのアイテムを処理した場合(ステップS611:YES)、候補生成部113は、候補長を延伸できるか否かを判断する(ステップS612)。なお、候補長とは、現在処理対象としている候補パターンに含まれるアイテムの個数をいう。この時点では、1つのアイテムを候補パターンとして抽出していたため、候補長は1である。
【0065】
候補生成部113は、候補長を延伸できるか否かを、2つ以上の候補要素が候補記憶部122に格納されているか否かにより判定する。候補要素が2つ以上格納されている場合は、候補長の延伸が可能と判定し(ステップS612:YES)、候補生成部113は、2つの候補要素を元に候補長を延伸した候補パターンを生成するために、以下の処理を実行する(ステップS613〜ステップS614)。例えば、図3の例では、6個の候補要素が記憶されているため、候補長の延伸が可能と判定される。
【0066】
候補要素が2つ以上存在しない場合(ステップS612:NO)、候補長の延伸ができず、これ以上候補パターンを生成して特徴パターンを抽出することができないため、特徴パターン抽出処理を終了する。
【0067】
候補長の延伸が可能な場合(ステップS612:YES)、候補生成部113は、候補記憶部122に格納されている候補要素のうち、現在の候補長(以下、候補長kという)に一致した長さを有し、最後のアイテム以外のアイテム部分集合が一致している2つの候補要素からなる候補要素対を取り出す(ステップS613)。なお、候補長kが1の場合、すなわち、候補要素に1つのアイテムのみが含まれる場合は、アイテムが一致する候補要素対は存在しない。したがって、2つの候補要素の組み合わせのすべてを、候補要素対として取り出す。
【0068】
ただし、各候補要素に含まれるアイテムは予め定められた基準に基づく順序で整列されていることを前提とする。候補生成部113は、取り出された候補要素対に含まれるアイテムのうち、共通するk−1個のアイテムと、各候補要素で相互に異なるアイテムとを含む、候補長がk+1となる候補パターンを生成する。以下では、候補長がk+1となる候補パターンを(k+1)次候補パターンと呼称する。なお、当該(k+1)次候補パターンでも、各アイテムは上記基準に基づく順序で整列されているものとする。
【0069】
候補要素対を取り出した後(ステップS613)、候補生成部113は、候補要素対に含まれる2つの候補要素から、新たな候補パターンを生成する(ステップS614)。
【0070】
例えば、現在の候補長kが1であり、候補記憶部122に格納されている候補要素の中から、「ジャケット」および「ジーンズ」が条件を満たす候補要素対として抽出されるとする。なお、以下では、各アイテムには、「ジャケット」、「ジーンズ」、「ポロシャツ」、「Yシャツ」、「ジャンパー」、「スラックス」、「ベルト」、および「ネクタイ」の順で整列するという整列基準が設定されているものとする。
【0071】
この場合、候補生成部113は、2つの候補要素間で異なるアイテムである「ジャケット」および「ジーンズ」を含む候補パターン「(ジャケット,ジーンズ)」を、新たな2次候補パターンとして生成する。
【0072】
また、例えば、現在の候補長kが2であり、「(ジャケット,ジーンズ)」および「(ジャケット,Yシャツ)」が条件を満たす候補要素対として抽出されるとする。このとき、候補生成部113は、当該候補要素対から「(ジャケット,ジーンズ,Yシャツ)」といった3次候補パターンを生成することができる。
【0073】
さらに、現在の候補長kが3であり、「(ジャケット,ジーンズ,Yシャツ)」および「(ジャケット,ジーンズ, ジャンパー)」が条件を満たす候補要素対として抽出されるとする。このとき、候補生成部113は、当該候補要素対から「(ジャケット,ジーンズ,Yシャツ,ジャンパー)」といった4次候補パターンを生成することができる。
【0074】
ステップS615からステップS622までは、ステップS603からステップS610までと同様の処理なので、詳細な説明を省略する。すなわち、ステップS603からステップS610では、1つのアイテムからなる候補パターンから特徴パターンを抽出していたのに対し、ステップS615からステップS622では、候補長を2以上に延伸した候補パターンから特徴パターンを抽出する。
【0075】
例えばステップS616の出現頻度算出処理では、候補パターン「(ジャケット,ジーンズ)」、クラス「購入」の場合であれば、出現頻度が3と計算される(図2参照)。また、候補パターン「(ジャケット,ジーンズ)」、クラス「未購入」の場合は、出現頻度は2と計算される。
【0076】
図9〜図11は、このような手順により算出される出現頻度の算出結果の一例を示す図である。図9は、2次候補パターンc2,0〜c2,14に対する各クラスでの出現頻度を表している。図10は、3次候補パターンc3,0〜c3,3に対する各クラスでの出現頻度を表している。図11は、4次候補パターンc4,0に対する各クラスでの出現頻度を表している。
【0077】
また、例えばステップS619〜ステップS622のパターン種別判定処理では、頻度閾値として2が設定されている場合、図9〜図11に示す各候補パターンに対して、各図の判定結果の列に示す判定結果が得られる。
【0078】
パターン種別判定処理の後、候補生成部113は、すべての候補要素を処理したか否かを判断する(ステップS623)。すべての候補要素を処理していない場合(ステップS623:NO)、候補生成部113は、条件を満たす別の候補要素対を取得して処理を繰り返す(ステップS613)。すべての候補要素を処理した場合(ステップS623:YES)、候補生成部113は、さらに候補長を延伸できるか否かを判断する(ステップS612)。
【0079】
すなわち、候補生成部113は、現在の候補長と一致する候補長を持つ2つ以上の候補要素が候補記憶部122に格納されているか否かを判定する。例えば、現在の候補長が2で、図9のような候補パターンが生成されている場合は、候補長が2となる未定パターンが6個存在しているため、候補長の延伸が可能と判定される。また、現在の候補長が3で、図10のような候補パターンが生成されている場合は、候補長が3となる未定パターンが2個存在しているため、候補長の延伸が可能と判定される。一方、現在の候補長が4で、図11のような候補パターンが生成されている場合は、候補長が4となる未定パターンが1個しか存在しないため、候補長の延伸が不能と判定される。
【0080】
以上に説明した処理を実施することにより、各クラスで傾向の異なるパターンを特徴パターンとして抽出することができる。当該特徴パターンは、各クラスでの傾向が異なるため、クラス間の違いを識別するための特徴量としては妥当なものと考えられる。
【0081】
なお、これまではクラスの種類が2種類の場合を例に説明したが、3種類以上のクラスを対象とすることが可能である。この場合は、例えば、2つのクラスの個数に関する閾値である下限個数Th1と、上限個数Th2とを設定する。そして、Th1以上かつTh2以下の個数内のクラスで頻出する一方、残りのクラスで頻出しない場合を特徴パターン、Th2を超える個数のクラスで頻出する一方、残りのクラスで頻出しない場合を未定パターン、Th1より小さい個数のクラスで頻出する一方、残りのクラスで頻出しない場合を非特徴パターンと判定するといった判定基準を用いることができる。
【0082】
このように、第1の実施の形態にかかる特徴パターン抽出装置では、多数のクラス付きアイテム集合を入力とすることにより、アイテム集合を特徴付けるアイテム部分集合とクラスとの間の関係を明らかにするための特徴パターンを抽出することができる。これにより、意思決定支援に利用可能な情報である特徴パターンを効率的に生成することができる。
【0083】
(第2の実施の形態)
第2の実施の形態にかかる分類支援装置は、第1の実施の形態と同様の手法により抽出された特徴パターンからの有無に基づいて、アイテム集合をいずれかのクラスに分類するための分類モデルを生成する。すなわち、第2の実施の形態では、異なる条件の下で収集された複数のアイテム集合を、各条件に応じたクラスが付与されたクラス付きアイテム集合とし、当該クラス付きアイテム集合間でのクラスの差異の原因と考えられる分類モデルを学習する。そしてこの分類モデルにより、当該アイテムを扱う分野での人間の意思決定を支援可能とする。
【0084】
図12は、第2の実施の形態にかかる分類支援装置200の構成の一例を示すブロック図である。図12に示すように、分類支援装置200は、入力データ記憶部121と、候補記憶部122と、特徴記憶部123と、特徴生成部110と、表示部230と、属性生成部241と、事例生成部242と、モデル生成部243と、モデル記憶部224と、を備えている。
【0085】
第2の実施の形態では、表示部230の機能と、属性生成部241、事例生成部242、モデル生成部243、およびモデル記憶部224を追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる特徴パターン抽出装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
【0086】
属性生成部241は、クラス付きアイテム集合、および、抽出された特徴パターンを参照し、アイテム集合が特徴パターンを含むか否かを表すベクトルである属性ベクトルを生成する。この属性ベクトルでは、特徴パターンが属性に相当し、特徴パターンを含むか否かを表す情報(例えば、1(含む)、0(含まない))が属性値に相当する。
【0087】
事例生成部242は、属性生成部241によって生成された属性ベクトルと、属性ベクトルに対応するアイテム集合に付与されたクラスとを対応づけた情報である事例の集合(事例集合)を生成する。
【0088】
モデル生成部243は、事例生成部242によって生成された事例集合から分類モデルを生成する。具体的には、モデル生成部243は、生成された事例集合を学習事例の集合とみなし、この事例集合に帰納学習法を適応することにより、属性(特徴パターン)によってクラスを識別する分類モデルを学習する。
【0089】
例えば、モデル生成部243は、学習事例の集合から木構造の分類モデルを学習するID3(“Induction of Decision Trees”, J. R. Quinlan, Machine Learning, vol. 1, no. 1,pp. 81-106 (1986))を用いて、事例集合から分類モデルを生成することができる。なお、適用可能な帰納学習法はID3に限られず、SVM(Support Vector Machine)、およびニューラルネットワークなどの他の帰納学習法を適用するように構成してもよい。
【0090】
モデル記憶部224は、モデル生成部243によって生成された分類モデルを記憶する。表示部230は、さらに生成された分類モデルを表示する点が、第1の実施の形態の表示部130と異なっている。
【0091】
次に、このように構成された第2の実施の形態にかかる分類支援装置200による分類支援処理について図13を用いて説明する。分類支援処理とは、抽出された特徴パターンから分類モデルを生成し、生成した分類モデルを表示することにより、ユーザがアイテム集合をクラスに分類することを支援可能とする処理をいう。図13は、第2の実施の形態における分類支援処理の全体の流れを示すフローチャートである。
【0092】
ステップS1201からステップS1204までは、第1の実施の形態にかかる特徴パターン抽出装置100におけるステップS501からステップS504までと同様の処理なので、その説明を省略する。
【0093】
第1の実施の形態と同様の手順により特徴パターンを抽出した後、受付部111が、入力データ記憶部121に格納されているクラス付きアイテム集合の中から、1つのクラス付きアイテム集合を再度読み込む(ステップS1205)。
【0094】
次に、属性生成部241が、読み込まれたクラス付きアイテム集合、および、特徴記憶部123に格納されている特徴パターンを参照することにより、アイテム集合が特徴パターンを含むか否かを判定して、特徴パターンを含むか否かを表現する属性ベクトルを生成する(ステップS1206)。
【0095】
例えば、図2のようなクラス付きアイテム集合の中からtが読み込まれ、図4に示す特徴パターンが抽出されているとする。このとき、属性生成部241は、tを構成するアイテム集合が特徴パターンpおよびpを含んでいると判定する。pを構成するアイテムである「ジャケット」および「ポロシャツ」が、tを構成するアイテム集合の一部であり、pを構成するアイテムである「ジーンズ」および「ポロシャツ」が、tを構成するアイテム集合の一部であるためである。
【0096】
一方、図4のその他の特徴パターンに関しては、各特徴パターンを構成するアイテムのうち、少なくとも1つがtを構成するアイテム集合に含まれていない。このため、属性生成部241は、tを構成するアイテム集合が、当該特徴パターンを含んでいないと判定する。例えば、p10の場合は、p10を構成するアイテムである「ジャンパー」が、tを構成するアイテムではないため、属性生成部241は、tは特徴パターンp10を含んでいないと判定する。
【0097】
そして、属性生成部241は、例えば、特徴パターンを含んでいる場合を1、含んでいない場合を0によって表現した属性ベクトルを生成する。図14は、生成される属性ベクトルの一例を示す図である。図14は、図2のようなクラス付きアイテム集合が入力され、図4に示す特徴パターンが抽出されている場合に生成される属性ベクトルの例を示している。例えば、図14のtの属性部分に示すベクトル(0、0、1、0、1、0、0、0、0、0、0、0)が、tに対する属性ベクトルを表す。
【0098】
図13に戻り、事例生成部242は、生成された属性ベクトルと、属性ベクトルを生成したアイテム集合に付与されたクラスとを組にすることにより事例を生成する(ステップS1207)。
【0099】
例えば、クラス付きアイテム集合としてtを処理対象としている場合には、事例生成部242は、図14のtの属性ベクトルと、クラス欄に記載されたクラス「購入」とを対応づけた事例を生成する。
【0100】
次に、受付部111が、未処理のデータが存在するか否かを判断し(ステップS1208)、存在する場合は(ステップS1208:YES)、次の未処理のアイテム集合を入力して処理を繰り返す(ステップS1205)。例えば、図2のクラス付きアイテム集合と図4の特徴パターンに対して処理が繰り返し実施されることにより、最終的に図14に示す事例集合が生成される。
【0101】
未処理のデータが存在しない場合(ステップS1208:NO)、モデル生成部243が、生成された事例集合を学習事例の集合とみなして、帰納学習法に適応することにより、属性(特徴パターン)によってクラスを識別する分類モデルを学習する(ステップS1209)。また、モデル生成部243は、学習した分類モデルをモデル記憶部224に格納する。
【0102】
図15は、生成される分類モデルの一例を示す図である。図15は、図14の事例集合から生成される分類モデルの例を示している。同図では、白抜きの楕円によって表現されている分岐ノードに、属性(特徴パターン)のうちの1つが割り当てられており、灰色の楕円によって表現されている末端ノードに、クラスのうちの1つが割り当てられている。また、ノード間を結ぶ線が枝を表しており、当該枝には上位に位置付けられている属性の属性値のうちの1つが割り当てられている。
【0103】
同図は、特徴パターンpを含むならばクラスは未購入、特徴パターンpを含まず特徴パターンpを含むならばクラスは購入、特徴パターンpおよびpを含まず、特徴パターンpを含むならばクラスは購入、特徴パターンp、p、およびpのいずれも含まないならばクラスは未購入、という意味を有する分類モデルの例を示している。
【0104】
図13に戻り、表示部230は、生成された分類モデルを表示し(ステップS1210)、分類支援処理を終了する。
【0105】
例えば図15のような分類モデルを表示することにより、ユーザは、アイテムの組み合わせのパターンが、いずれのクラスに分類されるかを判断することができる。例えば、小売業の販売員であるユーザは、このような分類モデルを参照することにより、同時に購入される商品(アイテム)を認識し、顧客に薦めることが可能となる。
【0106】
また、例えば、顧客が購入しようとしている商品をリアルタイムで入力するとともに、分類モデルを参照して、入力された商品と同時に購入される可能性が高い他の商品を求め、販売員であるユーザに提示するように構成してもよい。これにより、ユーザは、顧客の行動に応じて顧客に薦めるべき商品をリアルタイムで把握できる。
【0107】
このように、第2の実施の形態にかかる分類支援装置では、多数のクラス付きアイテム集合を入力し、アイテム集合を特徴付けるアイテム部分集合とクラスとの間の関係を明らかにする分類モデルを学習することができる。このため、従来の相関ルールの発見法では考慮できなかった、アイテム集合のクラスを考慮した分析を行うことができる。
【0108】
次に、第1または第2の実施の形態にかかる各装置(特徴パターン抽出装置、分類支援装置)のハードウェア構成について図16を用いて説明する。図16は、第1または第2の実施の形態にかかる装置のハードウェア構成を示す説明図である。
【0109】
第1または第2の実施の形態にかかる装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
【0110】
第1または第2の実施の形態にかかる装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、FD(Floppy(登録商標)Disk)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
【0111】
また、第1または第2の実施の形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施の形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0112】
また、第1または第2の実施の形態にかかる装置で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
【0113】
第1または第2の実施の形態にかかる装置で実行されるプログラムは、上述した各部(受付部、分割部、候補生成部、特徴抽出部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
【0114】
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
【符号の説明】
【0115】
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 特徴パターン抽出装置
110 特徴生成部
111 受付部
112 分割部
113 候補生成部
114 特徴抽出部
121 入力データ記憶部
122 候補記憶部
123 特徴記憶部
130、230 表示部
200 分類支援装置
224 モデル記憶部
241 属性生成部
242 事例生成部
243 モデル生成部

【特許請求の範囲】
【請求項1】
分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付部と、
前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成部と、
前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出部と、
抽出された前記特徴パターンを出力する出力部と、
を備えることを特徴とする特徴パターン抽出装置。
【請求項2】
前記特徴抽出部は、前記クラスのうちいずれかのクラスである第1クラスでの前記出現頻度が前記条件を満たし、前記クラスに含まれる前記第1クラス以外のクラスでの前記出現頻度が前記条件を満たさない前記候補パターンを、前記特徴パターンとして抽出すること、
を特徴とする請求項1に記載の特徴パターン抽出装置。
【請求項3】
前記第1クラスは、前記クラスのうちいずれかのクラスであって、予め定められた下限個数以上かつ予め定められた上限個数以下の個数のクラスであること、
を特徴とする請求項2に記載の特徴パターン抽出装置。
【請求項4】
前記特徴抽出部は、前記クラスのうち、予め定められた上限個数より大きい個数のクラスでの前記出現頻度が前記条件を満たす前記候補パターンを、前記特徴パターンであるか否かを定められない未定パターンとして抽出し、
前記候補生成部は、さらに、複数の前記未定パターンから抽出したアイテムを含む新たな候補パターンを生成すること、
を特徴とする請求項1に記載の特徴パターン抽出装置。
【請求項5】
前記候補生成部は、アイテムの一部のみが相互に異なる複数の前記未定パターンから、共通するアイテムと相互に異なるアイテムとを抽出し、共通するアイテムと相互に異なるアイテムとを含む新たな候補パターンを生成すること、
を特徴とする請求項4に記載の特徴パターン抽出装置。
【請求項6】
前記候補生成部は、相互に異なる1つのアイテムを含む複数の前記未定パターンから、相互に異なるアイテムをそれぞれ抽出し、抽出した2つのアイテムを含む新たな候補パターンを生成すること、
を特徴とする請求項4に記載の特徴パターン抽出装置。
【請求項7】
前記特徴抽出部は、前記クラスのうちいずれかのクラスであって、予め定められた下限個数より小さい個数のクラスである第1クラスでの前記出現頻度が前記条件を満たし、前記クラスに含まれる前記第1クラス以外のクラスでの前記出現頻度が前記条件を満たさない前記候補パターンを、前記特徴パターンとして抽出しないこと、
を特徴とする請求項1に記載の特徴パターン抽出装置。
【請求項8】
分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付部と、
前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成部と、
前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出部と、
前記アイテム集合それぞれについて、抽出された前記特徴パターンが前記アイテム集合に含まれているか否かを表す属性ベクトルを生成する属性生成部と、
生成された前記属性ベクトルと、前記アイテム集合に対応づけられている前記クラスとに基づいて、前記アイテムを含む集合を前記クラスのいずれかに分類するための分類モデルを生成するモデル生成部と、
生成された前記分類モデルを出力する出力部と、
を備えることを特徴とする分類支援装置。
【請求項9】
受付部が、分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付ステップと、
候補生成部が、前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成ステップと、
特徴抽出部が、前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出ステップと、
出力部が、抽出された前記特徴パターンを出力する出力ステップと、
を備えることを特徴とする特徴パターン抽出方法。
【請求項10】
受付部が、分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付ステップと、
候補生成部が、前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成ステップと、
特徴抽出部が、前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出ステップと、
属性生成部が、前記アイテム集合それぞれについて、抽出された前記特徴パターンが前記アイテム集合に含まれているか否かを表す属性ベクトルを生成する属性生成ステップと、
モデル生成部が、生成された前記属性ベクトルと、前記アイテム集合に対応づけられている前記クラスとに基づいて、前記アイテムを含む集合を前記クラスのいずれかに分類するための分類モデルを生成するモデル生成ステップと、
出力部が、生成された前記分類モデルを出力する出力ステップと、
を備えることを特徴とする分類支援方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate