説明

注目評価対象抽出装置及びプログラム

【課題】 特徴付けが事前に与えられない評価対象を扱うことができ、時系列データが評価対象の発生に関するものに限定されず、且つパターンを自動的に発見する。
【解決手段】 アイテム割当て手段は、収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、評価対象表現又は関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現の評価対象表現を評価対象アイテムとして当該テキスト情報に割り当てる。クラス判別手段は、前記評価対象アイテムに関連した前記数値情報の変化からクラスを判別し、当該クラスを当該テキスト情報に割り当てる。トランザクション生成手段は、前記テキスト情報毎に、前記評価対象アイテム、前記各アイテム及び前記クラスを含むクラス付きトランザクションを生成する。パターン発見手段は、前記トランザクションの集合から特徴的なアイテムの組合せを示す前記パターンを発見する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、注目評価対象抽出装置及びプログラムに関する。
【背景技術】
【0002】
コンピュータ及びネットワーク環境では、特定の対象に対する数値的な時系列データが収集可能であるとともに、特定の対象に対するテキスト的な時系列データが入手可能となっている。このような環境においては、数値的な時系列データとテキスト的な時系列データに基づいて、数値的な時系列データの変動を、テキスト的な時系列データによって説明するパターンを発見するとともに、次期における注目すべき評価対象を予測する方法が研究されてきている。
【0003】
例えば、証券市場においては、株価を数値的な時系列データ、銘柄に関連するニュース記事をテキスト的な時系列データとみなすことにより、株価の変動を説明する、ニュース記事から抽出されるパターンを発見するとともに、次期における注目すべき銘柄を利用者に通知し、利用者の銘柄売買に関する意思決定を支援する方法が研究されてきている。
【0004】
評価対象を予測する方法としては、例えば2つの方法が提案されている。
【0005】
第1の方法は、明示的に与えられる属性値によって評価対象を事前に特徴付けておき、評価対象の発生に関するイベントの頻度に基づいた時系列データを生成し、評価対象の重要度あるいは評価対象の属性値の重要度を算出することにより、特定の問題領域において重要な評価対象を抽出する方式である。
【0006】
一方、第2の方法では、評価対象と特定の語の出現回数の経時的変化を対応させて、評価対象と特定の語との関係を視覚的に把握できるように利用者に表示する方式である。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2002−207755号公報
【特許文献2】特開2001−216311号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら以上のような2つの方法は、通常は特に問題ないが、本発明者の検討によれば、以下のような不都合がある。
【0009】
例えば、第1の方法は、明示的な属性値によって評価対象が事前に特徴付けられるため、特徴付けが事前に与えられないような評価対象を扱うことができないという不都合がある。また、第1の方法は、評価対象に関連する時系列データが、評価対象の発生に関するイベントの時系列データに限定されるという不都合もある。
【0010】
一方、第2の方法は、評価対象と特定の語との関係を視覚的に把握できるとしても、特定の関係が生じる場合を説明し得るようなパターンを自動的に発見できないという不都合がある。
【0011】
本発明が解決しようとする課題は、特徴付けが事前に与えられない評価対象を扱うことができ、時系列データが評価対象の発生に関するものに限定されず、且つパターンを自動的に発見し得る注目評価対象抽出装置及びプログラムを提供することである。
【課題を解決するための手段】
【0012】
実施形態の注目評価対象抽出装置は、時系列に沿って与えられる複数の評価対象に関連した複数のテキスト情報からパターンに基づいて注目すべき評価対象を抽出する前に、前記パターンを発見可能な装置である。
【0013】
前記注目評価対象抽出装置は、テキスト収集手段、数値収集手段、対象表現格納手段、アイテム割当て手段、クラス判別手段、トランザクション生成手段、パターン発見手段及びパターン格納手段を備えている。
【0014】
前記テキスト収集手段は、前記複数のテキスト情報を収集する。
【0015】
前記数値収集手段は、前記各評価対象に個別に関連した数値情報を収集する。
【0016】
前記対象表現格納手段は、前記各評価対象を個別に表す評価対象表現と当該各評価対象に個別に関連した対象を表す関連表現とを対応付けて格納する。
【0017】
前記アイテム割当て手段は、前記収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、前記評価対象表現又は前記関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に前記対象表現格納手段内で対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当てる。
【0018】
前記クラス判別手段は、前記評価対象アイテムとしての評価対象表現が表す評価対象に関連した前記数値情報に基づいて、当該数値情報の変化に関連したクラスを判別し、当該クラスを当該評価対象アイテムが割り当てられたテキスト情報に割り当てる。
【0019】
前記トランザクション生成手段は、前記収集されたテキスト情報毎に、前記割り当てられた評価対象アイテム、前記抽出された各アイテム及び前記割り当てられたクラスを含むクラス付きトランザクションを生成する。
【0020】
前記パターン発見手段は、前記トランザクションの集合から特徴的なアイテムの組合せを示す前記パターンを発見する。
【0021】
前記パターン格納手段は、前記発見されたパターンを格納する。
【図面の簡単な説明】
【0022】
【図1】第1の実施形態に係る注目評価対象抽出装置の構成を模式的に示すブロック図である。
【図2】同実施形態における動作を説明するためのフローチャートである。
【図3】同実施形態における数値時系列データの一例を示す模式図である。
【図4】同実施形態におけるテキスト時系列データの一例を示す模式図である。
【図5】同実施形態におけるアイテム集合の一例を示す模式図である。
【図6】同実施形態における評価対象知識の一例を示す模式図である。
【図7】同実施形態における数値時系列データの一例を示す模式図である。
【図8】同実施形態における数値時系列データの一例を示す模式図である。
【図9】同実施形態におけるクラスの割り当て結果の一例を示す模式図である。
【図10】同実施形態におけるクラス付きのトランザクションの一例を示す模式図である。
【図11】同実施形態におけるパターンの一例を示す模式図である。
【図12】同実施形態におけるパターンの一例を示す模式図である。
【図13】第2の実施形態に係る注目評価対象抽出装置の構成を模式的に示すブロック図である。
【図14】同実施形態における動作を説明するためのフローチャートである。
【図15】同実施形態におけるテキスト時系列データの一例を示す模式図である。
【図16】同実施形態におけるアイテム集合の一例を示す模式図である。
【図17】同実施形態におけるテキスト時系列データの評価結果の一例を示す模式図である。
【発明を実施するための形態】
【0023】
以下、各実施形態について図面を用いて説明する。なお、以下の各装置は、装置毎に、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。
【0024】
<第1の実施形態>
図1は第1の実施形態に係る注目評価対象抽出装置の構成を模式的に示すブロック図である。この注目評価対象抽出装置は、時系列に沿って与えられる複数の評価対象に関連した複数のテキスト情報からパターンに基づいて注目すべき評価対象を抽出する前に、当該パターンを発見可能な装置である。
【0025】
具体的には注目評価対象抽出装置は、テキスト時系列収集部B1、アイテム抽出部B2、評価対象知識格納部B3、数値時系列収集部B4、クラス判別部B5、トランザクション生成部B6、パターン発見部B7、パターン格納部B8及び評価対象抽出部B9を備えている。すなわち、注目評価対象抽出装置は、評価対象抽出部B9によって注目すべき評価対象を抽出する前に、各部B1〜B8によってパターンを発見可能となっている。
【0026】
ここで、テキスト時系列収集部(テキスト収集手段)B1は、時系列に沿って与えられる複数の評価対象に関連した複数のテキスト情報を収集する機能をもっている。ここで、「テキスト情報」は、「テキスト時系列データ」と呼んでもよい。
【0027】
アイテム抽出部(アイテム割当て手段)B2は、テキスト時系列収集部B1により収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、評価対象知識格納部B3内の評価対象表現又は関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に評価対象知識格納部B3内で対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当てる機能をもっている。
【0028】
評価対象知識格納部(対象表現格納手段)B3は、各部B1,B2,B4〜B7,B9から読出/書込可能な記憶装置であって、各評価対象を個別に表す評価対象表現と当該各評価対象に個別に関連した対象を表す関連表現とを対応付けて格納している。例えば、評価対象知識格納部B3は、評価対象表現と関連表現とが対応付けて記述された評価対象知識が制御部(図示せず)により予め書込まれている。なお、評価対象知識格納部B3は、注目評価対象抽出装置のプログラムの一部に予め記述された評価対象知識が起動時に制御部から書き込まれる形態でもよく、ユーザの操作により記述された評価対象知識が書き込まれている形態でもよい。
【0029】
数値時系列収集部(数値収集手段)B4は、各評価対象に個別に関連した数値情報を収集する機能をもっている。ここで、「数値情報」は、「時系列に沿って与えられる各評価対象に個別に関連した数値情報」と呼んでもよく、「数値時系列データ」と呼んでもよい。また、「テキスト時系列データ」と「数値時系列データ」とを含む時系列データを「複合イベント時系列データ」と呼んでもよい。
【0030】
クラス判別部B5は、アイテム抽出部B2により割り当てられた評価対象アイテムとしての評価対象表現が表す評価対象に関連した数値情報に基づいて、当該数値情報の変化に関連したクラスを判別し、当該クラスを当該評価対象アイテムが割り当てられたテキスト情報に割り当てる機能をもっている。
【0031】
トランザクション生成部B6は、テキスト時系列収集部B1により収集されたテキスト情報毎に、アイテム抽出部B2により割り当てられた評価対象アイテム、アイテム抽出部B2により抽出された各アイテム及びクラス判別部B5により割り当てられたクラスを含むトランザクションを生成する機能をもっている。
【0032】
パターン発見部B7は、トランザクション生成部B6により生成されたトランザクションの集合から特徴的なアイテムの組合せを示すパターンを発見する機能をもっている。なお、「特徴的なアイテムの組合せ」は、「頻度の高いアイテムの組合せ」又は「頻出するアイテムの組合せ」と呼んでもよい。また、発見されたパターンは、パターン発見部B7によりパターン格納部B8に書込まれる。
【0033】
パターン格納部B8は、各部B1,B2,B4〜B7,B9から読出/書込可能な記憶装置であって、パターン発見部B7により発見されたパターンを格納する。なお、評価対象知識格納部B3及びパターン格納部B8としては、同一の記憶装置内の別々の記憶領域を用いてもよく、別々の記憶装置を用いてもよい。
【0034】
評価対象抽出部B9は、パターン格納部B8内のパターンを新たに収集されたテキスト情報から生成されたトランザクションに適用することにより、注目すべき評価対象を抽出する機能をもっている。
【0035】
次に、以上のように構成された注目評価対象抽出装置の動作を図2のフローチャートを用いて説明する。以下の説明においては、テキスト時系列データ(テキスト情報)として、ニュース見出しを取り上げ、数値時系列データ(数値情報)として株価を取り上げる。また、評価対象としては、会社名(株価銘柄名)を取り上げることにする。
【0036】
ステップSa1では、数値時系列収集部B4がインターネット回線などを通じて、株価情報を配信しているWebサイトから、評価対象毎の株価情報を示す数値時系列データを収集する。数値時系列データとしては、例えば、図3に示すように銘柄コード、日付、始値を含むデータが用いられる。ただし、数値時系列データは、株式市場が営業している日付のみのデータだけから構成されているとし、株式市場が営業していない日付に関するデータは含まれていないとする。
【0037】
ステップSa2では、テキスト時系列収集部B1がインターネット回線などを通じて、ニュース見出しを配信しているWebサイトから、ニュース見出しを含むテキスト時系列データを収集する。テキスト時系列データとしては、例えば、図4に示すように、ニュースの配信日とニュース見出しを含むデータが用いられる。
【0038】
ステップSa3では、収集したテキスト時系列データから、テキスト時系列収集部B1がひとつのテキストを取り出す。このとき、取り出すテキストが存在すれば、ステップSa4へと処理を進める一方、取り出すテキストが存在しない場合には、ステップSa11へと処理を進める。従って、図4に示すテキスト時系列データが収集されている場合、時系列データTnが取り出された直後の処理において、本ステップを実施する際に、ステップSa11へと進むことになる。
【0039】
ステップSa4では、アイテム抽出部B2が、取り出されたテキストを代表する各表現をアイテムとして抽出する。例えば、アイテム抽出部B2は、テキストに対して、形態素解析を実施することにより、各表現の品詞を特定し、その品詞として名詞が付与された表現を、アイテムとして抽出する。従って、テキスト番号T1のテキストに対して、形態素解析を実施して、名詞表現を抽出した場合には、「a社」、「会計」、「予約」、「ソフト」、「先行」、「販売」、「開始」といった表現がアイテムとして抽出されることになる。同様の処理を、図4に示す各テキストに実施することにより、図5に示すアイテム集合を各テキストから生成することができる。
【0040】
ステップSa5では、アイテム抽出部B2が抽出したアイテムの集合の中からひとつのアイテムを取り出す。このとき、取り出すアイテムが存在する場合には、ステップSa6へと進む一方、取り出すアイテムが存在しない場合には、ステップSa7へと進む。従って、T1の場合においては、「開始」のアイテムが取り出された直後の処理において、本ステップを実施した場合に、ステップSa7へ移動することになる。
【0041】
ステップSa6では、アイテム抽出部B2が、評価対象知識格納部B3に格納されている評価対象知識を参照することにより、当該アイテムが評価対象と関連するか否かを判定する。
【0042】
アイテム抽出部B2は、評価対象であると判定した場合、当該テキストに、評価対象アイテムを割り当てる。例えば、評価対象知識格納部B3に、図6に示す評価対象表現と関連表現とから構成された評価対象知識が格納されているとする。このとき、テキスト番号T1のテキストからアイテム「a社」が取り出されるとする。以下、「テキスト番号T○のテキスト」は「テキストT○」ともいう(添字の○は任意の数字を表す。)。同様に、「アイテム集合番号I○のアイテム集合」は「アイテム集合I○」ともいう。アイテム抽出部B2は、評価対象知識の関連表現を参照することにより、当該アイテムが関連表現として登録されていると判定することができる。そこで、アイテム抽出部B2は、テキストT1に対して、関連表現に対応する評価対象表現である「A社」を評価対象アイテムに割り当てる。
【0043】
次に、テキストT7からアイテム「鶏肉」が取り出されるとする。アイテム抽出部B2は、評価対象知識の関連表現を参照することにより、当該アイテムが複数の箇所で関連表現として登録されていると識別することができる。そこで、アイテム抽出部B2は、テキスト番号T7のテキストに対して、それぞれの関連表現に対応する評価対象表現である「D1社」、「D2社」、「D3社」を、評価対象アイテムに割り当てる。
【0044】
一方、テキストT1のアイテム「会社」やテキストT7のアイテム「原産地」の場合には、対応する関連表現が存在しないので、それぞれのテキストに、新たな評価対象アイテムを割り当てることなく、ステップSa5に処理を戻すことになる。
【0045】
ステップSa7では、クラス判別部B5が、テキストに割り当てられた評価対象アイテムをひとつ取り出す。このとき、取り出す評価対象アイテムが存在すれば、ステップSa8へと進む。一方、取り出す評価対象アイテムが存在しない場合は、ステップSa9へと進む。例えば、アイテム集合I1に対して、評価対象アイテム「A社」だけが割り当てられているとすれば、「A社」を取り出した直後の処理では、ステップSa9へと進むことになる。
【0046】
ステップSa8では、クラス判別部B5が、取り出された評価対象アイテムに対応する数値時系列データを参照することにより、クラス判定の基準となる変動率を算出する。ここで、クラス判別部B5は、例えば式(1)に基づいて、当該評価対象アイテムに対応する変動率を算出することとする。式(1)において、itが評価対象アイテム、dが評価対象を含むテキストの配信日、dyを配信日dよりy日後の営業日、value()を評価対象アイテムの指定日における株価の始値を返す関数とする。ただし、dが営業日でない場合は、一日前の営業日とする。
【数1】

【0047】
ここで、yが2と与えられているとした場合について、変動率を算出してみることにする。アイテム集合I1から「A社」が取り出されており、「A社」に対応する数値時系列データが図3に示すように与えられているとする。このとき、アイテム集合I1に対応するテキストT1の配信日として、2010/4/26を得ることができるとともに、dyとして2010/4/28を得ることができる。図3を参照することにより、value(A社,2010/4/26)、value(A社,2010/4/28)は、それぞれ902、886と与えられているため、f(A社,2010/4/26)=(886−902)/902=−0.01774を得ることができる。次に、アイテム集合Inから「K社」が取り出されており、「K社」に対応する数値時系列データが図7に示すように与えられている場合を考えてみることにする。このとき、アイテム集合Inに対応するテキストTnの配信日として、2010/05/27を得ることができるとともに、y日後の営業日dyとして2010/5/31を得ることができる。図7を参照することにより、value(K社,2010/5/27)、value(K社,2010/5/31)は、802、816と与えられているため、f(K社,2010/5/27)=(816−802)/802=0.05923を得ることができる。同様に、アイテム集合Inから「L社」が取り出されており、「L社」に対応する数値時系列データが図8に示すように与えられている場合には、f(L社,2010/5/27)=(926−914)/914=0.01313と与えられる。
【0048】
ステップSa9では、クラス判別部B5がテキストに対応する各アイテムに対して算出された変動率を統合した評価値を算出し、その評価値の値に従ってクラスを判別する。ここで、クラス判別部B5は、例えば式(2)に基づいて、変動率の平均値である平均変動率を算出し、当該平均変動率を、テキストに対応する評価値とする。式(2)において、Iはテキストに対応するアイテムの集合、| |はアイテム集合を構成するアイテムの個数を算出する演算とする。ただし、アイテム集合が空集合の場合には、当該平均変動率は算出不能であるとする。
【数2】

【0049】
また、当該平均値が予め指定してあるクラス判別しきい値Th(>0)に−1掛けた値−Th以下であるものを「下降」、Th以上のものを「上昇」、−Thより大きくThより小さいものを「平準」と判定する。ただし、平均変動率が算出不能の場合においては、クラスは割り当てられないとする。
【0050】
例えば、テキストT1の場合においては、ひとつのアイテム「A社」のみが割り当てられているので、平均変動率は、−0.01774と与えられる。また、テキストTnの場合においては、「K社」、「L社」のふたつのアイテムが割り当てられているので、各アイテムの平均値である(0.05923+0.01313)/2=0.03618が平均変動率として与えられる。ここで、クラス判別しきい値が0.015と与えられているとすれば、テキストT1,Tnに対して、クラス「下降」、「上昇」がそれぞれ割り当てられることになる。一方、テキストT2、T8にはアイテムが含まれていないため、平均変動率が算出不能となるため、クラスは割り当てられないことになる。
【0051】
以上のように、クラス判別部B5は、各テキストに対してクラスを判別し、当該クラスを割り当てることにより、図9に示すように、各テキストに対するクラスの割り当て結果を、テキストとクラスとの間の対応関係を表すデータとして得ることができる。ただし、クラスが割り当てられない場合には、斜線「/」が記載されている。
【0052】
ステップSa10では、トランザクション生成部B6が、クラス付きの各テキストから、当該テキストから抽出されるアイテム及び評価対象アイテムと、割り当てられたクラスとを組み合わせることにより、トランザクションを生成する。従って、図4のテキストからは、図10に示すようにクラス付きのトランザクションが生成されることになる。
【0053】
ステップSa11では、パターン発見部B7が、テキストに割り当てられるクラスの中からひとつのクラスを取り出す。このとき、取り出すクラスが存在する場合には、ステップSa12へと処理を進める一方、取り出すクラスが存在しない場合には、本アルゴリズムを終了する。また、本実施形態においては、クラス「上昇」、「下降」のみからパターンの発見を試みることにする。
【0054】
ステップSa12では、パターン発見部B7が、指定されているクラスからなるトランザクションを抽出する。また、パターン発見部B7は、パターンの頻度に関するしきい値である最小支持度以上となる頻出するアイテムの組合せであるパターンを、参考文献R. Agrawal and R. Srikant, “Fast Algorithms for Mining Association Rules”, 20th VLDB Conference (1994) に記載のアルゴリズムによってすべて発見し、選択されているクラスに対応するパターンとして、パターン格納部B8に格納する。
【0055】
パターン発見部B7は、例えば、本アルゴリズムを利用することにより、図10に示したトランザクション内のクラス「上昇」に対して、「I社」と「サーバー」のように各アイテムの組み合わせをパターン候補として作成し、当該作成したパターン候補の中で頻度が基準値よりも高いパターン候補をパターンとして残すことにより、図11に示すように特徴的なアイテムの組合せを示すパターンを発見し、パターン格納部B8に格納することができる。また、クラス「下降」に対しても同様にしてパターン候補の頻度から、図12に示すようにパターンを発見し、パターン格納部B8に格納することができる。
【0056】
評価対象抽出部B9は、パターン格納部B8内のパターンを新たに収集されたテキスト時系列データから生成されたトランザクションに適用することにより、注目すべき評価対象を抽出する。
【0057】
上述したように本実施形態によれば、収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、評価対象表現又は関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当て、評価対象アイテムに関連した数値情報の変化に関連したクラスを判別し、テキスト情報毎に、評価対象アイテム、各アイテム及びクラスを含むクラス付きトランザクションを生成し、トランザクションの集合から特徴的なアイテムの組合せを示すパターンを発見する構成により、テキスト情報と数値情報の間に明確な対応関係が記述されていないとしても、テキスト情報と数値情報を適切に関連付けることができ、数値情報の変化を説明可能なパターンをテキスト情報の中から抽出することができる。
【0058】
補足すると、本実施形態によれば、特徴付けが事前に与えられない評価対象を扱うことができ、時系列データが評価対象の発生に関するものに限定されず、且つパターンを自動的に発見することができる。
【0059】
また、従来の第2の方法では、発見されたパターンに基づいて、特定の関係が発生する注目すべき評価対象を予測できないという不都合もあるが、本実施形態によれば、評価対象抽出部B9により、発見されたパターンに基づいて新たなテキスト情報を評価することにより、数値情報の変化が起きる可能性の高い評価対象として、注目すべき評価対象を予測(抽出)することができる。
【0060】
<第2の実施形態>
図13は第2の実施形態に係る注目評価対象抽出装置の構成を模式的に示すブロック図であり、図1と同一部分についてはその詳しい説明を省略し、ここでは異なる部分について主に述べる。
【0061】
すなわち、第2の実施形態は、第1の実施形態の具体例であり、評価対象抽出部B9が、パターン評価部B10及び注目評価対象抽出部B11を備えた形態となっている。これに伴い、トランザクション生成部B6は、パターン格納部B8にパターンが格納された後、テキスト時系列収集部B1によって新たに収集されたテキスト情報毎に、アイテム抽出部B2によって割り当てられた評価対象アイテムと抽出された各アイテムとを含み、前述したクラスを含まないクラス無しトランザクションを生成する機能をもっている。なお、「クラス無しトランザクション」は、パターン発見に用いたクラス付きトランザクション(パターン発見用トランザクション)と区別がつけば任意の名称を用いてよいので、例えば、単に「トランザクション」と呼んでもよく、「クラス無しのトランザクション」、「注目評価対象抽出用トランザクション」又は「新規トランザクション」等と呼んでもよい。
【0062】
ここで、パターン評価部(パターン評価手段)B10は、パターン格納部B8内のパターンを当該クラス無しトランザクションに適用し、当該クラス無しトランザクションが当該パターンを含むか否かを評価する機能をもっている。ここで、「評価」は「判定」と呼んでもよい。
【0063】
注目評価対象抽出部(注目評価対象抽出手段)B11は、評価の結果、パターンを含む場合には当該クラス無しトランザクション内の評価対象アイテムに関連付けた頻度を加算し、当該頻度の加算結果に基づいて当該頻度に関連付けられた評価対象アイテムを、注目すべき評価対象として抽出する機能をもっている。
【0064】
次に、以上のように構成された注目評価対象抽出装置の動作を図14のフローチャートを用いて説明する。
【0065】
ステップSb1では、テキスト時系列収集部B1がインターネット回線などを通じて、ニュース見出しを配信しているWebサイトから、ニュース見出しを含むテキスト時系列データを収集する。テキスト時系列データとしては、例えば、図15に示すように、ニュースの配信日とニュース見出しを含むデータが用いられる。但し、本実施形態のテキスト時系列データの配信日は、パターン発見部B7によるパターンの発見に用いたテキスト時系列データの収集日以降の日であるとする。
【0066】
ステップSb2では、テキスト時系列収集部B1が、収集したテキストの中からひとつのテキストを取り出す。このとき、取り出すテキストが存在する場合には、ステップSb3へと進む一方、取り出すテキストが存在しない場合には、ステップSb9へと進む。例えば、図15に示すテキストが収集されている場合には、テキストEmが取り出された直後の処理において、ステップSb9へと進むことになる。
【0067】
ステップSb3では、アイテム抽出部B2が、取り出されたテキストに対して、図2のステップSa4と同様な処理を実施することにより、テキストを代表するアイテムを抽出する。従って、テキストE1からは、「i社」、「ミドル」、「エンド」、「サーバー」、「音声」、「認識」、「機能」、「搭載」といったアイテムが抽出されることになる。
【0068】
ステップSb4では、アイテム抽出部B2が、抽出したアイテムの中からひとつのアイテムを順に取り出す。このとき、取り出すアイテムが存在する場合には、ステップSb5へと進む一方、取り出すアイテムが存在しない場合には、ステップSb6へと進む。例えば、テキストE1の場合には、アイテム「搭載」が抽出された直後の処理において、ステップSb6へと進むことになる。
【0069】
ステップSb5では、アイテム抽出部B2が、取り出されたアイテムに対して、図2のステップSa6と同様な処理を実施することにより、取り出したアイテムに対応する評価対象アイテムが存在するかどうかを評価し、存在する場合には、当該評価対象アイテムを当該テキストに割り当てる。
【0070】
ステップSb6では、トランザクション生成部B6が、各テキストに対して、テキストから抽出されたアイテムと、テキストに対応する評価対象テキストからなるトランザクションを生成する。本処理は、図2のステップSa10の処理に類似した処理ではあるが、図2のステップSa10の処理の場合と異なり、各トランザクションにはクラスが割り当てられていない。従って、図15に示すテキストから、図16に示すようにクラス無しのトランザクションを生成することができる。
【0071】
ステップSb7では、パターン評価部B10が、パターン格納部B8に格納されているパターンの中から順にひとつのパターンを取り出す。このとき、取り出すパターンが存在する場合には、ステップSa8へと処理を進める一方、取り出すパターンが存在しない場合には、ステップSb2へと処理を戻す。
【0072】
ステップSb8では、パターン評価部B10が、取り出されているクラス無しのトランザクションとパターンを比較し、当該パターンを構成するアイテムを、当該クラス無しのトランザクションを構成するアイテムが含んでいるかどうかを評価する。このとき、当該パターンを含んでいるとすれば、当該パターンに対応するクラスを参照し、当該トランザクションに対応するクラス毎の評価対象アイテムの頻度を1加算する。
【0073】
例えば、トランザクションF1とパターンup4が選ばれている場合、パターンup4を構成するアイテム「I社」、「サーバー」、「搭載」は、トランザクションF1を構成するアイテムに含まれている。また、up4のクラスは「上昇」と与えられているので、評価対象アイテム「I社」、クラス「上昇」の値を1加算する。
【0074】
また、トランザクションF3とパターンdw5が選択されている場合、パターンdw4を構成する「原産地」、「偽装」は、トランザクションF3を構成するアイテムに含まれるため、評価対象アイテム「D2社」、クラス「下降」の頻度を1加算する。
【0075】
同様に、トランザクションFmとパターンup8が選ばれている場合には、評価対象アイテム「D3社」、クラス「上昇」及び評価対象アイテム「J社」、クラス「上昇」の頻度を1加算する。
【0076】
すべてのトランザクションとパターンに対してこのようにパターンの評価を行なうことにより、図17に示すように評価対象アイテムと頻度との関係を得ることができる。
【0077】
ステップSb9では、注目評価対象抽出部B11が、各トランザクションを各パターンで評価することによって算出された頻度に基づいて、注目評価対象を決定して出力する。
【0078】
例えば、抽出する注目対象の個数を設定し、頻度の高い評価対象アイテムを、当該個数分順に出力することができる。ここで、図17に示す評価対象アイテムと頻度との関係に対して、上位3個のものを注目対象として抽出することにした場合、クラス毎に頻度を参照することにより、「D3社」、「D2社」、「I社」といった評価対象アイテムを注目評価対象として出力することができる。なお、注目評価対象抽出部B11は、上位のものを抽出する場合に限らず、基準値より高い頻度のものを抽出してもよい。
【0079】
以上のようにすることにより、請求項2に記載の複合イベント時系列からのパターンの発見及び注目評価対象の抽出装置に基づいて、注目評価対象を決定することができる。
【0080】
第2の実施形態の注目評価対象抽出装置は、第2の実施形態に限られたものではなく、例えば以下の[1]〜[6]に示す如き、変形例として用いることができる。
【0081】
[1]例えば、図2のステップSa11及びステップSa12において、クラスを選択し、クラスに基づいて分割したトランザクションの部分集合に基づいてパターンを発見したが、参考文献:櫻井茂明 著, “クラス付きアイテム集合からの頻出パターンの発見”, The 24th Annual Conference of the Japanese Society for Artificial Intelligence, 2010, 2A3-4, <https://kaigi.org/jsai/webprogram/2010/pdf/10.pdf> に記載のアルゴリズムを利用することにより、FP-tree及びFP-growthに基づいた処理を実行して、トランザクションを分割すること無しに、クラス付きのトランザクションからパターンを発見することもできる。
【0082】
補足すると、パターン発見部B7は、本アルゴリズムにより、クラス付きのトランザクションに含まれるアイテム集合を木構造の形式に格納したFP-treeを生成する。なお、クラス付きアイテム集合向けのFP-treeにおいては、FP-treeのヘッダに、パターンに対応するパターンクラスを格納する領域と、パターンが特徴パターンであるか可能性パターンであるかを識別するフラグと、パターンの特徴支持度が最小支持度以上であるかどうかを示すフラグとが追加されている。FP-treeの生成後、パターン発見部B7は、本アルゴリズムのFP-growthを実行することにより、FP-treeから特定のアイテムで条件付けられたアイテム部分集合を生成し、アイテム部分集合から更にFP-treeを生成する。パターン発見部B7は、本アルゴリズムにより、このFP-treeの生成とアイテム部分集合の生成を再帰的に繰り返すことにより、パターンを発見する。
【0083】
[2]図2のステップSa9において、ひとつのクラス判別しきい値を利用して、3つのクラスに分割しているが、複数のクラス判別しきい値を利用することにより、4分割以上のクラスに分割することもできる。
【0084】
[3]図14のステップSb8において、パターンを含むトランザクションに対応するすべての評価対象アイテムに対して、その頻度を1加算しているが、複数の評価対象アイテムがひとつのトランザクションから抽出される場合には、評価対象アイテムの個数を重みとして正規化した値を加算することもできる。
【0085】
[4]パターンとトランザクションの両方に出現する評価対象アイテムに対しては、トランザクションのみに出現する評価対象アイテムよりも高い重みを与えて頻度を加算することもできる。
【0086】
[5]図14のステップSb9において、クラス毎の頻度に基づいて注目評価対象を決定しているが、個々のクラスの頻度を加算することにより、統合した評価値を算出することにより、当該評価値を用いて注目評価対象を決定することもできる。
【0087】
[6]図14においては、すべてのトランザクションを処理した後で、注目評価対象を出力するようにしているが、トランザクション毎にパターンの評価を行い、パターンを含むトランザクションに対応する評価対象アイテムを注目対象として出力することもできる。
【0088】
上述したように本実施形態によれば、パターンを当該クラス無しトランザクションに適用し、当該クラス無しトランザクションが当該パターンを含むか否かを評価し、評価の結果、パターンを含む場合には当該クラス無しトランザクション内の評価対象アイテムに関連付けた頻度を加算し、当該頻度の加算結果に基づいて当該頻度に関連付けられた評価対象アイテムを、注目すべき評価対象として抽出する構成により、第1の実施形態と同様の効果を得ることができる。
【0089】
また、パターン発見用のトランザクションとは異なり、クラスを含まないクラス無しトランザクションを生成するので、高速にトランザクションを生成することができる。
【0090】
以上説明した少なくとも一つの実施形態によれば、収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、評価対象表現又は関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当て、評価対象アイテムに関連した数値情報の変化に関連したクラスを判別し、テキスト情報毎に、評価対象アイテム、各アイテム及びクラスを含むクラス付きトランザクションを生成し、トランザクションの集合から特徴的なアイテムの組合せを示すパターンを発見する構成により、特徴付けが事前に与えられない評価対象を扱うことができ、時系列データが評価対象の発生に関するものに限定されず、且つパターンを自動的に発見することができる。
【0091】
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
【0092】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0093】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0094】
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0095】
また、記憶媒体は一つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0096】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の一つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0097】
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0098】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0099】
B1…テキスト時系列収集部、B2…アイテム抽出部、B3…評価対象知識格納部、B4…数値時系列収集部、B5…クラス判別部、B6…トランザクション生成部、B7…パターン発見部、B8…パターン格納部、B9…評価対象抽出部、B10…パターン評価部、B11…注目評価対象抽出部。

【特許請求の範囲】
【請求項1】
時系列に沿って与えられる複数の評価対象に関連した複数のテキスト情報からパターンに基づいて注目すべき評価対象を抽出する前に、前記パターンを発見可能な注目評価対象抽出装置であって、
前記複数のテキスト情報を収集するテキスト収集手段と、
前記各評価対象に個別に関連した数値情報を収集する数値収集手段と、
前記各評価対象を個別に表す評価対象表現と当該各評価対象に個別に関連した対象を表す関連表現とを対応付けて格納する対象表現格納手段と、
前記収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、前記評価対象表現又は前記関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に前記対象表現格納手段内で対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当てるアイテム割当て手段と、
前記評価対象アイテムとしての評価対象表現が表す評価対象に関連した前記数値情報に基づいて、当該数値情報の変化に関連したクラスを判別し、当該クラスを当該評価対象アイテムが割り当てられたテキスト情報に割り当てるクラス判別手段と、
前記収集されたテキスト情報毎に、前記割り当てられた評価対象アイテム、前記抽出された各アイテム及び前記割り当てられたクラスを含むクラス付きトランザクションを生成するトランザクション生成手段と、
前記トランザクションの集合から特徴的なアイテムの組合せを示す前記パターンを発見するパターン発見手段と、
前記発見されたパターンを格納するパターン格納手段と
を備えたことを特徴とする注目評価対象抽出装置。
【請求項2】
請求項1に記載の注目評価対象抽出装置において、
前記パターン格納手段にパターンが格納された後、前記テキスト収集手段によって新たに収集されたテキスト情報毎に、前記アイテム割当て手段によって割り当てられた評価対象アイテムと抽出された各アイテムとを含み、前記クラスを含まないクラス無しトランザクションを生成する手段と、
前記パターン格納手段内のパターンを前記クラス無しトランザクションに適用し、当該クラス無しトランザクションが当該パターンを含むか否かを評価するパターン評価手段と、
前記評価の結果、前記パターンを含む場合には当該クラス無しトランザクション内の評価対象アイテムに関連付けた頻度を加算し、前記頻度の加算結果に基づいて当該頻度に関連付けられた評価対象アイテムを、前記注目すべき評価対象として抽出する注目評価対象抽出手段と
を更に備えたことを特徴とする注目評価対象抽出装置。
【請求項3】
対象表現格納手段及びパターン格納手段を備え、時系列に沿って与えられる複数の評価対象に関連した複数のテキスト情報からパターンに基づいて注目すべき評価対象を抽出する前に、前記パターンを発見可能な注目評価対象抽出装置に用いられるプログラムであって、
前記注目評価対象抽出装置を、
前記複数のテキスト情報を収集するテキスト収集手段、
前記各評価対象に個別に関連した数値情報を収集する数値収集手段、
前記各評価対象を個別に表す評価対象表現と当該各評価対象に個別に関連した対象を表す関連表現とを対応付けて前記対象表現格納手段に書込む手段、
前記収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、前記評価対象表現又は前記関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に前記対象表現格納手段内で対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当てるアイテム割当て手段、
前記評価対象アイテムとしての評価対象表現が表す評価対象に関連した前記数値情報に基づいて、当該数値情報の変化に関連したクラスを判別し、当該クラスを当該評価対象アイテムが割り当てられたテキスト情報に割り当てるクラス判別手段、
前記収集されたテキスト情報毎に、前記割り当てられた評価対象アイテム、前記抽出された各アイテム及び前記割り当てられたクラスを含むクラス付きトランザクションを生成するトランザクション生成手段、
前記トランザクションの集合から特徴的なアイテムの組合せを示す前記パターンを発見し、当該発見したパターンを前記パターン格納手段に書込むパターン発見手段、
として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2012−256108(P2012−256108A)
【公開日】平成24年12月27日(2012.12.27)
【国際特許分類】
【出願番号】特願2011−127432(P2011−127432)
【出願日】平成23年6月7日(2011.6.7)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)