説明

ユーザの行動文から結果イベントを予測する予測プログラム、予測装置及び方法

【課題】文に記述されたユーザの日常的な行動イベントに起因して、その習慣に起因する将来的に生ずるであろう結果イベントを予測する予測プログラムを提供する。
【解決手段】ユーザの行動文の中から、イベント表現を抽出し、そのイベント表現とその記述時刻との組からなる「イベント」の集合を抽出するイベント集合抽出手段と、複数の同一のイベント表現を習慣イベントとして抽出する習慣イベント抽出手段と、多数のイベント表現を要素とした「特徴ベクトルの要素」が予め設定されており、習慣イベント毎に、該当する要素の有無を指定した「特徴ベクトル」を生成する特徴ベクトル生成手段と、結果イベント毎に予め学習された特徴ベクトル群を蓄積している予測モデル蓄積手段と、生成された特徴ベクトルが、予測モデル蓄積手段に蓄積された結果イベント毎の特徴ベクトル群のいずれに属するか否かを判定する予測判定手段とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語処理技術を用いて、ユーザによって記述された文(テキスト)から、様々な結果(例えばトラブル)を予測する技術に関する。
【背景技術】
【0002】
従来、トラブル情報データベースから検索されたトラブルの発生原因の数に基づいて、トラブル回避の難易度を算出する技術がある(例えば特許文献1参照)。この技術によれば、トラブル情報データベースは、種別、発生状況、発生原因、対策等を含むトラブル情報を格納する。これは、トラブルの発生原因等が多様であれば、回避しにくいトラブルであろうという仮定をおく。これによって、トラブルを回避することの困難性を明示する。
【0003】
また、文から、特定の表現パターンを自然言語処理によって検出し、当該表現パターンに基づいたトラブル発生確率を予測する技術がある(例えば特許文献2参照)。テキストは、例えば業務上のプロジェクトの状況を示す報告書であってもよい。この報告書の中から、プロジェクトの状況を顕著に表す表現パターン(例えば単語及び係り受け関係)を検出する。表現パターン毎にトラブル発生確率が予め記憶されており、検出された表現パターンから、そのプロジェクトに関するトラブル発生確率を算出する。
【0004】
更に、複数の機器を組み合わせたシステムにおけるトラブルを予測する技術がある(例えば特許文献3参照)。この技術によれば、機器又は部品毎に、トラブル情報が予めデータベースに格納されており、その機器構成システム内で用いられている機器又は部品から、対応するトラブルが発生するであろうと推定することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−199809号公報
【特許文献2】特開2009−230351号公報
【特許文献3】特開2010−211602号公報
【非特許文献】
【0006】
【非特許文献1】「Twitter API Documentation」、[online]、[平成23年1月16日検索]、インターネット<URL:http://apiwiki.twitter.com/w/page/22554679/Twitter-API-Documentation>
【非特許文献2】「Twitter API 仕様書」、[online]、[平成23年1月16日検索]、インターネット<URL:http://watcher.moe-nifty.com/memo/docs/twitterAPI50.txt>
【非特許文献3】乾健太郎、「自然言語処理と言い換え」、奈良先端科学技術大学院大学、[online]、[平成23年1月16日検索]、インターネット<URL:http://www.cl.ecei.tohoku.ac.jp/~inui/papers/0711Nihongogaku.pdf>
【非特許文献4】浅原正幸、「PrefixSpan-rel -- 系列パターンマイニングツール」、奈良先端科学技術大学院大学、[online]、[平成23年1月16日検索]、インターネット<URL:http://prefixspan-rel.sourceforge.jp/>
【非特許文献5】岡崎直観、辻井潤一、「Conditional Random Fieldsを用いた略語抽出」、東京大学大学院情報理工学系研究科、独立行政法人科学技術振興機構、[online]、[平成23年1月16日検索]、インターネット<URL:http://yans.anlp.jp/symposium/2007/paper/okazaki.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1及び3に記載された技術によれば、トラブル情報を登録したデータベースを予め備える必要がある。データベースの構築には、個人の習慣に起因するトラブルを予測するために、その個人の行動分析が必要となる。しかし、個人の習慣には、無自覚な行動も存在する。そのため、人手によるデータベースの構築作業が必要となり、高コストとならざるを得ない。従って、トラブルの原因となる習慣を検出し、それによってトラブルを予測することは困難である。
【0008】
また、特許文献2に記載された技術によれば、トラブルの発生時の状況を示すプロジェクトの報告文を必要としており、対象となる文が特定されている。また、表現パターンから得られた単語毎に、トラブル時にのみ顕著に記述されるであろう出現可能性の重みを付与する。しかしながら、単語毎に重みを付与するために、単語の表現の揺れ(違い)までは、吸収することができない。
【0009】
更に、特許文献1から3に記載された技術によれば、予測結果は「トラブル」、即ち悪い結果イベントに限られており、良い結果イベントを予測結果とすることについては対象としていない。また、いずれの技術も、プロジェクトやシステム構成を、トラブルの予測対象としている。
【0010】
そこで、本発明は、文に記述されたユーザの日常的な行動イベントに起因して、当該ユーザの習慣に起因する将来的に生ずるであろう結果イベントを予測する予測プログラム、予測装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明によれば、文に記述されたユーザの行動イベントに起因して、当該ユーザに将来的に生ずるであろう結果イベントを予測するように、装置に搭載されたコンピュータを機能させる予測プログラムであって、
ユーザによって記述された行動文及び記述時刻を蓄積している行動文集合蓄積手段と、
行動文集合蓄積手段に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出するイベント集合抽出手段と、
所定期間内に複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する習慣イベント抽出手段と、
多数のイベント表現を要素とした「特徴ベクトルの要素」が予め設定されており、習慣イベント毎に、該当する要素の有無を指定した「特徴ベクトル」を生成する特徴ベクトル生成手段と、
学習用の多数の行動文に基づく特徴ベクトルから、結果イベント毎に学習された特徴ベクトル群を予め蓄積した予測モデル蓄積手段と、
特徴ベクトル生成手段から出力された特徴ベクトルが、予測モデル蓄積手段に蓄積された結果イベント毎の特徴ベクトル群のいずれに属するか否かを判定する予測判定手段と
を有し、予測判定手段によって判定された結果イベントが、当該ユーザに将来生ずるであろうと予測するようにコンピュータを機能させることを特徴とする。
【0012】
本発明の予測プログラムにおける他の実施形態によれば、
多数のユーザによって記述された学習用の行動文及び記述時刻を蓄積している学習行動文集合蓄積手段と、
学習行動文集合蓄積手段に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出する学習イベント集合抽出手段と、
結果イベント表現を予め蓄積した結果イベント表現蓄積手段と、
学習行動文の中で、結果イベント蓄積手段に蓄積された結果イベント表現を検出する結果イベント検出手段と、
検出された結果イベント表現の記述時刻から過去の所定期間内に、複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する学習習慣イベント抽出手段と、
習慣イベント毎に、該当する要素の有無を指定した学習特徴ベクトルを生成する学習特徴ベクトル生成手段と
を更に有し、
予測モデル蓄積手段は、学習特徴ベクトルを、結果イベント毎に蓄積しているようにコンピュータを機能させることも好ましい。
【0013】
本発明の予測プログラムにおける他の実施形態によれば、予測判定手段は、予測モデル蓄積手段と一体的に構成された、サポートベクタマシン(Support Vector Machine)の2値分類方式、又は、CRF(Conditional Random Fields、条件付き確率場)の系列ラベリング方式に基づくエンジンであるようにコンピュータを機能させることも好ましい。
【0014】
本発明の予測プログラムにおける他の実施形態によれば、習慣イベント抽出手段について、行動文に記述された表現を、上位下位関係や含意関係などを含むオントロジを用いて抽象化し、抽象化された上位概念表現について、所定期間内に複数の同一のイベント表現の出現している場合、それらイベントを習慣イベント群として抽出するようにコンピュータを機能させることも好ましい。
【0015】
本発明の予測プログラムにおける他の実施形態によれば、ブログ(Weblog)サーバ又はミニブログサーバから、行動文を取得するコメント文収集手段を更に有するようにコンピュータを機能させることも好ましい。
【0016】
本発明によれば、文に記述されたユーザの行動イベントに起因して、当該ユーザに将来的に生ずるであろう結果イベントを予測する予測装置であって、
ユーザによって記述された行動文及び記述時刻を蓄積している行動文集合蓄積手段と、
行動文集合蓄積手段に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出するイベント集合抽出手段と、
所定期間内に複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する習慣イベント抽出手段と、
多数のイベント表現を要素とした「特徴ベクトルの要素」が予め設定されており、習慣イベント毎に、該当する要素の有無を指定した「特徴ベクトル」を生成する特徴ベクトル生成手段と、
学習用の多数の行動文に基づく特徴ベクトルから、結果イベント毎に学習された特徴ベクトル群を予め蓄積した予測モデル蓄積手段と、
特徴ベクトル生成手段から出力された特徴ベクトルが、予測モデル蓄積手段に蓄積された結果イベント毎の特徴ベクトル群のいずれに属するか否かを判定する予測判定手段と
を有し、予測判定手段によって判定された結果イベントが、当該ユーザに将来生ずるであろうと予測することを特徴とする。
【0017】
本発明の予測装置における他の実施形態によれば、
多数のユーザによって記述された学習用の行動文及び記述時刻を蓄積している学習行動文集合蓄積手段と、
学習行動文集合蓄積手段に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出する学習イベント集合抽出手段と、
結果イベント表現を予め蓄積した結果イベント表現蓄積手段と、
行動文の中で、結果イベント蓄積手段に蓄積された結果イベント表現を検出する結果イベント検出手段と、
検出された結果イベント表現の記述時刻から過去の所定期間内に、複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する学習習慣イベント抽出手段と、
習慣イベント毎に、該当する要素の有無を指定した学習特徴ベクトルを生成する学習特徴ベクトル生成手段と
を更に有し、
予測モデル蓄積手段は、学習特徴ベクトルを、結果イベント毎に蓄積していることも好ましい。
【0018】
本発明の予測装置における他の実施形態によれば、予測判定手段は、予測モデル蓄積手段と一体的に構成された、サポートベクタマシンの2値分類方式、又は、CRFの系列ラベリング方式に基づくエンジンであるようにコンピュータを機能させることも好ましい。
【0019】
本発明によれば、文に記述されたユーザの行動イベントに起因して、当該ユーザに将来的に生ずるであろう結果イベントを予測するように、装置を用いた予測方法であって、
ユーザによって記述された行動文及び記述時刻を蓄積している行動文集合蓄積部と、
多数のイベント表現を要素とした「特徴ベクトルの要素」が予め設定されており、学習用の多数の行動文に基づく特徴ベクトルから、結果イベント毎に学習された特徴ベクトル群を予め蓄積した予測モデル蓄積部と
を有し、
行動文集合蓄積部に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出する第1のステップと、
所定期間内に複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する第2のステップと、
習慣イベント毎に、該当する要素の有無を指定した「特徴ベクトル」を生成する第3のステップと、
特徴ベクトルが、予測モデル蓄積部に蓄積された結果イベント毎の特徴ベクトル群のいずれに属するか否かを判定する第4のステップと
を有し、予測判定手段によって判定された結果イベントが、当該ユーザに将来生ずるであろうと予測することを特徴とする。
【発明の効果】
【0020】
本発明の予測プログラム、予測装置及び方法によれば、文に記述されたユーザの日常的な行動イベントに起因して、当該ユーザの習慣に起因する将来的に生ずるであろう結果イベントを予測することができる。
【図面の簡単な説明】
【0021】
【図1】行動イベントに対して予測された結果イベントの例を表す説明図である。
【図2】本発明における予測プログラムの機能構成図である。
【図3】行動文集合蓄積部に蓄積された行動文を表す説明図である。
【図4】図3の行動文から抽出されたイベント表現を表す説明図である。
【図5】本発明における習慣イベントの抽出を表す第1の説明図である。
【図6】本発明における習慣イベントの抽出を表す第2の説明図である。
【図7】本発明における特徴ベクトルの生成を表す説明図である。
【図8】本発明における結果イベントの検出を表す説明図である。
【図9】本発明における学習特徴ベクトルの生成を表す説明図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0023】
図1は、行動イベントに対して予測された結果イベントの例を表す説明図である。
【0024】
本発明の予測プログラムによれば、個人ユーザの「行動イベント」から、その個人ユーザの習慣に起因する「結果イベント」を予測する。行動イベントが記述された行動文は、例えば、インターネットに接続されたブログやミニブログ(例えばtwitter(登録商標))のようなサイトから収集することができる。このような文には、日記のように、個人ユーザにおける日常的な行動が記述されている。
【0025】
例えば、以下のような、個人ユーザの行動イベントの習慣から、結果イベントが予測できる。
行動「カレーや牛丼を毎日食べる」−>結果「高血圧」
(塩分や脂質が多い食生活習慣)
行動「毎日煙草を吸う」 −>結果「高血圧」
行動「夜更かし」 −>結果「遅刻」
行動「勉強不足」 −>結果「追試・落第」
【0026】
ここで、本発明によって予測される結果イベントは、例えば「高血圧」のように、あくまで、個人の行動の習慣に起因する結果に限定する。一方、「地震」「洪水」のような偶発的なイベントや、「戦争」「難民」のような社会的なイベントは、本発明では対象としない。
【0027】
また、本発明については、習慣的(定期的)な行動イベントを習慣イベントとして検出する。また、類似した習慣イベントは、上位概念的に同一の習慣イベントとして検出される。例えば「お昼にラーメンを駅前で食べる」と「牛丼をお昼に食べる」とは、「塩分・脂質の多い食生活」としては同一の行動イベントと見ることが好ましい。
【0028】
図2は、本発明における予測プログラムの機能構成図である。
【0029】
図2の予測プログラムによれば、コメント文収集部100と、行動文集合蓄積部101と、イベント集合抽出部102と、習慣イベント抽出部103と、特徴ベクトル生成部104と、予測モデル蓄積部105と、予測判定部106とを有する。これら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置における予測方法としても理解される。
【0030】
コメント文収集部100は、ブログサーバ又はミニブログサーバから、ユーザによって記述された日常的な行動のコメント文を取得する。取得されたコメント文は、行動文情報蓄積部101に出力される。例えばtwitterサイトサーバよれば、指定したユーザ名に基づくコメント文(tweet)を検索することができる。また、日付を指定することによって、最大1週間分のtweetを検索することもできる。これらAPI仕様については、例えば非特許文献1及び2に記載されている。
【0031】
行動文集合蓄積部101は、コメント文収集部100によって収集された、当該ユーザの行動文(コメント文)及び記述時刻を蓄積している。
【0032】
図3は、行動文集合蓄積部に蓄積された行動文を表す説明図である。
【0033】
図3によれば、行動文集合蓄積部101は、特定の個人ユーザAによって記述された行動文及び記述時刻を蓄積している。
【0034】
イベント集合抽出部102は、行動文集合蓄積部101に蓄積された行動文の中から、「イベント表現」を抽出する。
【0035】
図4は、図3の行動文から抽出されたイベント表現を表す説明図である。
【0036】
図4によれば、イベント集合抽出部102によって抽出されたイベント表現が、記述時刻に対応付けられている。抽出されたイベント表現は、記述時刻の時系列順にソートされる。
【0037】
文は、複数の「語」からなる。「語」とは、言語の構成単位であり、1以上の形態素からなる。形態素とは、ある言語について意味を持つ最小の単位をいい、それ以上分解したら意味をなさなくなる単位まで分解された音素の集合の1つ1つを指す。語には、1つの形態素からなる単純語(例えば「山」)と、複数の形態素からなる複合語(例えば「山登り」)とがある。ここで、「語」というときは、単純語及び複合語のいずれも対象とする。
【0038】
語が集まることにより、句、節、文及び文章が構成される。これは、構文解析器を用いて、係り受け関係にある名詞と動詞又は形容詞との対を「イベント表現」として抽出する。例えば、「弁当を注文」という文は、「弁当」「を」「注文」の3語から構成される。また、語は、文法的な役割を持つ機能語(「を」)と、それ以外の一般的な意味を持つ内容語(「弁当」「注文」)とに大別できる。ここで、「イベント表現」とは、少なくとも名詞と動詞等とからなる内容語を含む文をいう。尚、動詞又は形容詞が無い場合には、名詞が連続している表現を、イベント表現として抽出する。イベント表現は、特定のイベントを表す表現であって、その記述には特に制限はない。
【0039】
ここで、図4によれば、記述時刻の修正が表されている。イベント表現(例えば「10年前」「今年」)又は機能語(例えば「だった」)を用いて、記述時刻を、「イベント発生時刻(t')」に修正する。
【0040】
例えば、「3日前は、完徹した」の記述時刻は、「2010年10月5日 1:00」である。ここで、「3日前」に基づき、記述時刻は3日分戻され、イベント発生時刻「2010年10月6日 9:00」に修正される。
【0041】
そして、イベント集合抽出部102は、イベント表現と記述時刻との組からなる「イベント」の集合を、習慣イベント抽出部103へ出力する。
【0042】
習慣イベント抽出部103は、当該ユーザにおけるイベント表現の集合を入力し、所定期間内に複数の同一のイベント表現が出現している場合、そのイベントを「習慣イベント」として抽出する。抽出された習慣イベントは、特徴ベクトル生成部104へ出力される。
【0043】
図5は、本発明における習慣イベントの抽出を表す第1の説明図である。
【0044】
図5によれば、習慣イベント抽出部103は、イベント表現s毎に、その記述時刻tから過去の所定期間内に、同一のイベント表現が出現している場合、そのイベントは、学習習慣イベントE’として抽出される。ここで、「所定期間」とは、例えば24時間や3日間のような、習慣性を有する程度の期間である。過去に他のイベント表現と全く一致しなかった場合、1つのイベントE’とみなす
【0045】
例えば、「牛丼@駅前」「2010年10月2日 12:00」から見て、過去24時間以内に、「ラーメン@駅前」「2010年10月1日 19:00」のイベントがある。これらは、習慣イベントE’として抽出される。
【0046】
また、例えば、「3日前は貫徹した」「2010年10月5日 1:00」から見て、過去3日以内に、「夜更かしをする」「2010年10月2日 0:30」のイベントがある。これらは、習慣イベントE’として抽出される。
【0047】
図6は、本発明における習慣イベントの抽出を表す第2の説明図である。
【0048】
図6によれば、習慣イベント抽出部103は、行動文に記述された表現を、上位下位関係や含意関係などを含む「オントロジ(Ontology)」を用いて抽象化している。そして、抽象化された上位概念表現について、所定期間内に複数の同一のイベント表現の出現している場合、それらイベントを習慣イベント群として抽出する。抽象化したイベント表現同士を比較することによって、学習習慣イベントE’が抽出される。これによって、行動イベントの表現の揺れを解消することができる。
【0049】
「オントロジ」とは、人工知能技術分野について「概念化の明示的な仕様」と定義されるものである。従来、テキスト検索技術によれば、単語単位の一致又は類似によってのみ検索することができた。これに対し、オントロジとは、当該文の内容を説明する意味情報(メタデータ)を記述する用語を定義する構造をいう。この意味情報は、当該文に付加される。この意味情報を検索対象として文を検索することができる。オントロジを導入することによって、検索対象となる文が単なる単語の集まりとしてではなく、文全体で大きな意味を持ったデータとして扱われる。本発明によれば、行動文のイベント表現を、オントロジを用いて抽象化(意味情報化)することによって、上位概念表現として習慣性を検出することができる。また、オントロジではなく、自然言語処理に対する言い換え技術を用いることもできる(例えば非特許文献3参照)。
【0050】
また、抽象化されたイベント表現について、パターン検出技術を用いて、イベント集合の中で特徴的に表れるイベントの列を自動的に識別し、得られたイベントの列を学習習慣イベントE’として抽出してもよい。パターン検出技術には、例えば、系列パターンマイニングアルゴリズムであるPrefixSpanがある(例えば非特許文献4参照)。
【0051】
特徴ベクトル生成部104は、習慣イベントを入力し、習慣イベント毎に、該当する要素の有無を指定した「特徴ベクトル」を生成する。ここで、多数のイベント表現を要素とした「特徴ベクトルの要素」が予め設定されている。そして、特徴ベクトル生成部104は、生成した特徴ベクトルを、予測判定部106へ出力する。
【0052】
図7は、本発明における特徴ベクトルの生成を表す説明図である。
【0053】
図7によれば、習慣イベントE’の集合毎に、特徴ベクトルを生成する。「特徴ベクトル」とは、予め規定されたイベント表現を要素として、各要素(次元)にその有無を割り当てたものである。特徴ベクトルの各要素の初期値は、0である。習慣イベントE’毎に、イベント表現に相当する各要素を1に設定する。この特徴ベクトルの各要素は、システムとして予め規定されたものである。
【0054】
図7によれば、例えば「ラーメン@駅前」及び「牛丼@駅前」の習慣イベントE’では、イベント表現「4.ラーメン駅前」及びイベント表現「9.牛丼@駅前」の要素が「1」となる。
【0055】
予測モデル蓄積部105は、学習用の多数の行動文に基づく特徴ベクトルから、結果イベント毎に学習された特徴ベクトル群を予め蓄積している。また、予測モデル蓄積部105は、学習特徴ベクトルを、結果イベント毎に蓄積しているものであってもよい。予測モデル蓄積部105に蓄積されている学習特徴ベクトルの構築については、後述する。
【0056】
予測判定部106は、特徴ベクトル生成手部104から入力した特徴ベクトルが、予測モデル蓄積部105に蓄積された結果イベント毎の特徴ベクトル群のいずれに属するか否かを判定する。予測判定部106は、結果イベントを、当該ユーザに将来生ずるであろうイベントであるイベントとして出力する。
【0057】
予測判定部106は、予測モデル蓄積部105と一体的に構成された、サポートベクタマシン(Support Vector Machine)の2値分類方式、又は、CRF(Conditional Random Fields、条件付き確率場)の系列ラベリング方式に基づくエンジンであってもよい。
【0058】
「サポートベクタマシン」とは、線形2値分類器であり、クラスが2つある場合に用いられる。2つのクラスは、それぞれ正クラス及び負クラスと呼ばれ、通常は、分析対象のクラスを正クラスとし、正クラスに属する事例は正例、負クラスに属する事例は負例と呼ばれる。ここでは、特徴ベクトルが正例、学習特徴ベクトルが負例となる。また、「CRF」とは、確率的な分類器である対数線形モデルを、系列ラベリングに適用した方式である(例えば非特許文献5参照)。
【0059】
次に、予測モデル蓄積部105に蓄積された学習特徴ベクトルの生成について説明する。学習段階では、結果イベントを予測するため、結果イベントの発生より前に出現した学習行動イベントから特徴ベクトルを抽出する。そして、結果イベントの原因となりやすい学習習慣イベントを統計的に算出する。
【0060】
予測プログラムは、学習行動文集合蓄積部111と、学習イベント集合抽出部112と、学習習慣イベント抽出部113と、学習特徴ベクトル生成部114と、結果イベント表現蓄積部121と、結果イベント検出部122とを更に有する。これら機能構成部も、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。
【0061】
学習行動文集合蓄積部111は、多数のユーザによって記述された、学習用の行動文及び記述時刻を蓄積している。行動文集合蓄積部101は、予測対象となるユーザの行動文集合を蓄積しているのに対し、学習行動文集合蓄積部111は、多数のユーザの行動文集合を蓄積している。それ以外は、行動文集合蓄積部101と全く同様である。
学習行動文集合:D
={du1,du2,・・・,dun
(dui:ユーザiの行動文、n:ユーザの人数)
【0062】
学習イベント集合抽出部112は、学習行動文集合蓄積部111に蓄積された学習行動文の中から、イベント表現を抽出し、抽出されたイベント表現とその記述時刻との組からなる「イベント」の集合を抽出する。イベント集合抽出部102は、予測対象となるユーザのイベント文集合を抽出しているのに対し、学習イベント集合抽出部112は、多数のユーザについてユーザ毎のイベント文集合を抽出している。それ以外は、イベント集合抽出部102と全く同様である。
【0063】
結果イベント表現蓄積部121は、結果イベント表現を予め蓄積している。結果イベント表現とは、例えば「高血圧」「息切れ」「追試」のように否定的なトラブルの用語であってもよいし、「血圧低下」「体調改善」「進級」のように肯定的な用語であってもよい。
【0064】
結果イベント検出部122は、学習行動文集合蓄積部111に蓄積された学習行動文の中で、結果イベント蓄積部121に蓄積された結果イベント表現を検出する。検出された結果イベント表現は、学習習慣イベント抽出部113へ出力される。
【0065】
図8は、本発明における結果イベントの検出を表す説明図である。
【0066】
図8によれば、学習イベント集合Eについて、結果イベントの「発生」又は「未発生」に分類される。尚、結果イベント表現の周辺の単語及びその品詞等に基づいて、サポートベクタマシンの2値分類方式、又は、CRFの系列ラベリング方式に基づくエンジン用いて、結果イベントを検出するものであってもよい。
【0067】
学習習慣イベント抽出部113は、イベントの集合と、結果イベント表現とを入力する。学習習慣イベント抽出部113は、検出された結果イベント表現の記述時刻から過去の所定期間内に、複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する。尚、学習習慣イベント抽出部113は、習慣イベント抽出部103と同様に、上位下位関係や含意関係などを含むオントロジを用いて抽象化するものであってもよい(図6参照)。学習習慣イベント抽出部113は、習慣イベント抽出部103の処理内容と同様である。抽出された習慣イベントは、学習特徴ベクトル生成部114へ出力される。
【0068】
学習特徴ベクトル生成部114は、習慣イベント毎に、該当する要素の有無を指定した学習特徴ベクトルを生成する。学習特徴ベクトル生成部114は、特徴ベクトル生成部104の処理内容と同様である(図7参照)。学習特徴ベクトル生成部114は、学習特徴ベクトルを、予測モデル蓄積部105へ出力する。予測モデル蓄積部105は、学習特徴ベクトルを、結果イベント毎に蓄積している。
【0069】
図9は、本発明における学習特徴ベクトルの生成を表す説明図である。
【0070】
結果イベント表現から過去に習慣的に発生する学習習慣イベントE’は、結果イベントに起因している可能性があると考えられる。学習習慣イベント中で、結果イベントの発生時刻よりも閾値時間前の学習習慣イベントについて、要素(次元)のベクトルの値を1、それ以外を0とする。
【0071】
尚、生成された学習特徴ベクトルに対して、ベクトル毎に重み付けてもよい。重み付けにも、サポートベクタマシンの2値分類方式、又は、CRFの系列ラベリング方式に基づくエンジンを用いることもできる。例えば、結果イベントの重要度に応じて、その結果イベントが発生した閾値時間前の学習習慣イベントに対しては、高い重み付けをすることもできる。
【0072】
単語ごとに重み付けをするのではなく、習慣イベントごとに重み付けすることによって、単語の表現の揺れを吸収することができる。
【0073】
サポートベクタマシンを用いる場合、結果イベントよりも閾値時間前に発生した学習習慣イベントに対する特徴ベクトルを結合し、それを入力とするものであってもよい。また、CRFの系列ラベリング方式を用いる場合、特徴ベクトルとラベルの対の集合とを入力し、前後の習慣イベントに関する特徴ベクトルに基づいて、各特徴ベクトルに対する重みを計算した結果を出力するものであってもよい。
【0074】
以上、詳細に説明したように、本発明の予測プログラム、予測装置及び方法によれば、文に記述されたユーザの日常的な行動イベントに起因して、当該ユーザの習慣に起因する将来的に生ずるであろう結果イベントを予測することができる。
【0075】
本発明は、健康管理システムや受験支援システムに適用可能であって、個人の習慣に起因する結果(失敗又は成功)を予測することにより、ユーザの生活習慣を改善させることができる。
【0076】
本発明によれば、専用のデータベースを構築することなく、個人が日常的に記述している日記やブログなどのコメント文に基づいて、結果イベント(例えばトラブル)を予測できる。即ち、結果イベントが発生した状況が明確に記述された文を必要としない。
【0077】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0078】
100 コメント文収集部
101 行動文集合蓄積部
102 イベント集合抽出部
103 習慣イベント抽出部
104 特徴ベクトル生成部
105 予測モデル蓄積部
106 予測判定部
111 学習行動文集合蓄積部
112 学習イベント集合抽出部
113 学習習慣イベント抽出部
114 学習特徴ベクトル生成部
121 結果イベント表現蓄積部
122 結果イベント検出部
2 ミニブログサーバ

【特許請求の範囲】
【請求項1】
文に記述されたユーザの行動イベントに起因して、当該ユーザに将来的に生ずるであろう結果イベントを予測するように、装置に搭載されたコンピュータを機能させる予測プログラムであって、
ユーザによって記述された行動文及び記述時刻を蓄積している行動文集合蓄積手段と、
前記行動文集合蓄積手段に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出するイベント集合抽出手段と、
所定期間内に複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する習慣イベント抽出手段と、
多数のイベント表現を要素とした「特徴ベクトルの要素」が予め設定されており、前記習慣イベント毎に、該当する要素の有無を指定した「特徴ベクトル」を生成する特徴ベクトル生成手段と、
学習用の多数の行動文に基づく特徴ベクトルから、結果イベント毎に学習された特徴ベクトル群を予め蓄積した予測モデル蓄積手段と、
前記特徴ベクトル生成手段から出力された前記特徴ベクトルが、前記予測モデル蓄積手段に蓄積された結果イベント毎の特徴ベクトル群のいずれに属するか否かを判定する予測判定手段と
を有し、前記予測判定手段によって判定された結果イベントが、当該ユーザに将来生ずるであろうと予測するようにコンピュータを機能させることを特徴とする予測プログラム。
【請求項2】
多数のユーザによって記述された学習用の行動文及び記述時刻を蓄積している学習行動文集合蓄積手段と、
前記学習行動文集合蓄積手段に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出する学習イベント集合抽出手段と、
結果イベント表現を予め蓄積した結果イベント表現蓄積手段と、
前記学習行動文の中で、前記結果イベント蓄積手段に蓄積された結果イベント表現を検出する結果イベント検出手段と、
検出された結果イベント表現の記述時刻から過去の所定期間内に、複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する学習習慣イベント抽出手段と、
前記習慣イベント毎に、該当する要素の有無を指定した学習特徴ベクトルを生成する学習特徴ベクトル生成手段と
を更に有し、
前記予測モデル蓄積手段に、前記学習特徴ベクトルを、前記結果イベント毎に蓄積させるようにコンピュータを機能させることを特徴とする請求項1に記載の予測プログラム。
【請求項3】
前記予測判定手段は、前記予測モデル蓄積手段と一体的に構成された、サポートベクタマシン(Support Vector Machine)の2値分類方式、又は、CRF(Conditional Random Fields、条件付き確率場)の系列ラベリング方式に基づくエンジンであるようにコンピュータを機能させることを特徴とする請求項1又は2に記載の予測プログラム。
【請求項4】
前記習慣イベント抽出手段について、前記行動文に記述された表現を、上位下位関係や含意関係などを含むオントロジを用いて抽象化し、抽象化された上位概念表現について、所定期間内に複数の同一のイベント表現の出現している場合、それらイベントを習慣イベント群として抽出するようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の予測プログラム。
【請求項5】
ブログ(Weblog)サーバ又はミニブログサーバから、前記行動文を取得するコメント文収集手段を更に有するようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載の予測プログラム。
【請求項6】
文に記述されたユーザの行動イベントに起因して、当該ユーザに将来的に生ずるであろう結果イベントを予測する予測装置であって、
ユーザによって記述された行動文及び記述時刻を蓄積している行動文集合蓄積手段と、
前記行動文集合蓄積手段に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出するイベント集合抽出手段と、
所定期間内に複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する習慣イベント抽出手段と、
多数のイベント表現を要素とした「特徴ベクトルの要素」が予め設定されており、前記習慣イベント毎に、該当する要素の有無を指定した「特徴ベクトル」を生成する特徴ベクトル生成手段と、
学習用の多数の行動文に基づく特徴ベクトルから、結果イベント毎に学習された特徴ベクトル群を予め蓄積した予測モデル蓄積手段と、
前記特徴ベクトル生成手段から出力された前記特徴ベクトルが、前記予測モデル蓄積手段に蓄積された結果イベント毎の特徴ベクトル群のいずれに属するか否かを判定する予測判定手段と
を有し、前記予測判定手段によって判定された結果イベントが、当該ユーザに将来生ずるであろうと予測することを特徴とする予測装置。
【請求項7】
多数のユーザによって記述された学習用の行動文及び記述時刻を蓄積している学習行動文集合蓄積手段と、
前記学習行動文集合蓄積手段に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出する学習イベント集合抽出手段と、
結果イベント表現を予め蓄積した結果イベント表現蓄積手段と、
前記行動文の中で、前記結果イベント蓄積手段に蓄積された結果イベント表現を検出する結果イベント検出手段と、
検出された結果イベント表現の記述時刻から過去の所定期間内に、複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する学習習慣イベント抽出手段と、
前記習慣イベント毎に、該当する要素の有無を指定した学習特徴ベクトルを生成する学習特徴ベクトル生成手段と
を更に有し、
前記予測モデル蓄積手段に、前記学習特徴ベクトルを、前記結果イベント毎に蓄積させることを特徴とする請求項6に記載の予測装置。
【請求項8】
文に記述されたユーザの行動イベントに起因して、当該ユーザに将来的に生ずるであろう結果イベントを予測するように、装置を用いた予測方法であって、
ユーザによって記述された行動文及び記述時刻を蓄積している行動文集合蓄積部と、
多数のイベント表現を要素とした「特徴ベクトルの要素」が予め設定されており、学習用の多数の行動文に基づく特徴ベクトルから、結果イベント毎に学習された特徴ベクトル群を予め蓄積した予測モデル蓄積部と
を有し、
前記行動文集合蓄積部に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出する第1のステップと、
所定期間内に複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出する第2のステップと、
前記習慣イベント毎に、該当する要素の有無を指定した「特徴ベクトル」を生成する第3のステップと、
前記特徴ベクトルが、前記予測モデル蓄積部に蓄積された結果イベント毎の特徴ベクトル群のいずれに属するか否かを判定する第4のステップと
を有し、前記予測判定手段によって判定された結果イベントが、当該ユーザに将来生ずるであろうと予測することを特徴とする予測方法。
【請求項9】
多数のユーザによって記述された学習用の行動文及び記述時刻を蓄積している学習行動文集合蓄積部と、
結果イベント表現を予め蓄積した結果イベント表現蓄積部と
を有し、
前記学習行動文集合蓄積手段に蓄積された行動文の中から、イベント表現を抽出し、該イベント表現とその記述時刻との組からなる「イベント」の集合を抽出するステップと、
前記行動文の中で、前記結果イベント蓄積手段に蓄積された結果イベント表現を検出するステップと、
検出された結果イベント表現の記述時刻から過去の所定期間内に、複数の同一のイベント表現が出現している場合、そのイベントを習慣イベントとして抽出するステップと、
前記習慣イベント毎に、該当する要素の有無を指定した学習特徴ベクトルを生成するステップと
を更に有し、
前記予測モデル蓄積手段に、前記学習特徴ベクトルを、前記結果イベント毎に蓄積させることを特徴とする請求項8に記載の予測方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate