説明

経験情報の再利用性評価装置及び方法及びプログラム

【課題】 ブログのような人の行動履歴が記載されたテキスト集合からある場所で行った行動がどの程度再利用性を持つ情報であるのかを判定する。
【解決手段】 本発明は、テキスト集合から人間が経験した内容を表現する語である経験要素を抽出し、テキスト集合と、クエリログ集合とから、経験要素記憶手段の各経験要素の出現頻度、該経験要素間の共起頻度を算出し、経験要素の組み合わせについて、テキスト集合から算出した該経験要素の出現頻度、及び、該経験要素間の共起頻度に基づく文書内出現傾向が弱く、クエリログ集合から算出した該経験要素の出現頻度、及び、該経験要素間の共起頻度に基づくクエリログ内出現傾向が強いほど、該経験要素の組み合わせの再利用性が高いと判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、経験情報の再利用性評価装置及び方法及びプログラムに係り、特に、個人の行動履歴が記述されたテキスト集合から、人間の経験情報を抽出し、その重要度を算出するための経験情報の再利用性評価装置及び方法及びプログラムに関する。
【0002】
詳しくは、ブログに代表される人の行動履歴が記載されたテキスト集合から、ある場所で行った行動がどの程度再利用性を持つ情報であるのかを判定するための経験情報の再利用性評価装置及び方法及びプログラムに関する。
【背景技術】
【0003】
従来の第1の技術は、ブログなどのテキストに書かれた経験情報を[トピック、経験主、事態タイプ、事実性]という4種類の一般性の高い意味的な軸で分類する技術である(例えば、非特許文献1参照)。
【0004】
また、従来の第2の技術は、ブログのような個人の行動履歴が記述されたテキスト集合から、場所に特有な人間の行動を発見する技術である。当該技術は、テキスト中から、「見る」などの人間の"動作"、「桜」や「紅葉」などの動作の"対象"、当該動作を行った"場所"を、人間の経験を構成する諸要素として抽出する。更に、テキスト集合中におけるそれぞれの表記の出現確率、及びそれらの共起確率に基づいて、関連性の高い組み合わせを抽出する(例えば、非特許文献2,3参照)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Kentaro Inui, Shuya Abe, Hiraku Morita, Megumi Eguchi, Asuka Sumida, Chitose Sao, Kazuo Hara, Koji Murakami, and Suguru Matsuyoshi, "Experience Mining: Building a Large-Scale Database of Personal Experiences and Opinions from Web Documents, " Proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence, pp. 314-321, Dec. 2008.
【非特許文献2】倉島健、手塚太郎、田中克己、「街Blogからの体験抽出とその空間的提示手法の提案」情報処理学会研究報告、Vol.2005, No.67, 2005-DBS-137,2005年7月.
【非特許文献3】倉島健、藤村考、奥田英範、「大規模テキストからの経験マイニング」電子情報通信学会論文誌、Vol. J92-D No.3, pp.301-310, 2009年3月.
【発明の概要】
【発明が解決しようとする課題】
【0006】
不特定多数の旅行者が発信した行動の履歴を利用する従来技術は、過去、ある場所で多くの人が行った経験内容を提示することができる。しかしながら、将来的にその場所を訪れようと考えている人にとって魅力的な、普段の生活ではできない経験内容を提示することができなかった。例えば、旅行者は「ハクチョウを見る」や「オーロラを見る」といった普段の生活ではできない行動に高い関心を持つと考えられるが、例え、興味を持つ人が多くても、これらの行動の実現可能性は気候やタイミングなどの要素に大きく左右されてしまう。その結果、実現に至る人は少なく、旅行記に記述される機会も少なくなってしまう。
【0007】
つまり、従来技術は、情報を利用する側の立場にとって欲しい情報を提示することができなかった。
【0008】
本発明は、上記の点に鑑みなされたもので、将来的にその場所を訪れようと考える人々が欲しいと考える、再利用性の高い経験情報を抽出することが可能な経験情報の再利用性評価装置及び方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
図1は、本発明の原理を説明するための図である。
【0010】
本発明(請求項1)は、テキストに記述された人間の経験情報の再利用性を評価する経験情報の再利用性評価装置であって、
個人の行動履歴が記述されたテキスト集合を格納する文書記憶手段6の該テキスト集合から、人間が経験した内容を示す語を経験要素として抽出し、経験要素記憶手段8に格納する経験要素抽出手段7と、
テキスト集合を検索したクエリログ集合を格納したクエリログ記憶手段9のクエリログ集合と、該テキスト集合とから、経験要素記憶手段8に格納されている各経験要素の出現頻度、該経験要素間の共起頻度を算出し、出現頻度記憶手段11に格納する出現頻度算出手段10と、
経験要素抽出手段で得られた経験要素の組み合わせについて、
テキスト集合から出現頻度算出手段が算出した該経験要素の出現頻度、及び、該経験要素間の共起頻度に基づく文書内出現傾向が弱く、
クエリログ集合から出現頻度算出手段が算出した該経験要素の出現頻度、及び、該経験要素間の共起頻度に基づくクエリログ内出現傾向が強いほど、
該経験要素の組み合わせの再利用性が高いと判定する再利用性評価手段12と、を有する。
【0011】
また、本発明(請求項2)は、請求項1の再利用性評価装置において、経験要素として、行動を示す単語、または、地名を示す単語を含む。
【0012】
また、本発明(請求項3)は、請求項1または2の再利用性評価装置において、
地図の図柄を示す地図図柄情報、地名情報、各地名情報に対応する地図上での位置を示す位置情報を有する地図情報記憶手段と、
地図情報記憶手段の地図領域の中に含まれる地名の集合と、各地名の地図上での位置を示す位置情報とを取得する領域情報取得手段と、を更に有する。
【0013】
また、本発明(請求項4)は、請求項1乃至3の再利用性評価装置において、
再利用性評価手段12は、
経験要素の語の組み合わせと共に、再利用性の評価結果を再利用性評価値記憶手段に格納する手段を含み、
領域情報取得手段で得られた地名の集合に関連する再利用性評価値の高い経験要素の語の組み合わせを、再利用性評価値記憶手段の評価結果の値が高い順に取得する行動語選択手段を更に有する。
【0014】
図2は、本発明の原理を説明するための図である。
【0015】
本発明(請求項5)は、個人の行動履歴が記述されたテキスト集合を格納する文書記憶手段、テキスト集合及びそのテキスト集合を検索したクエリログ集合を格納したクエリログ記憶手段、経験要素記憶手段、出現頻度記憶手段を有する装置が、
文書記憶手段のテキスト集合から、人間が経験した内容を示す語を経験要素として抽出し、経験要素記憶手段に格納する経験要素抽出ステップ(ステップ1)と、
クエリログ記憶手段のクエリログ集合と、文書記憶手段のテキスト集合とから、経験要素記憶手段の各経験要素の出現頻度、該経験要素間の共起頻度を算出し、出現頻度記憶手段に格納する出現頻度算出ステップ(ステップ2)と、
経験要素抽出ステップで得られた経験要素の組み合わせについて、
テキスト集合から出現頻度算出ステップで算出した該経験要素の出現頻度、及び、該経験要素間の共起頻度に基づく文書内出現傾向が弱く、
クエリログ集合から出現頻度算出ステップで算出した該経験要素の出現頻度、及び、該経験要素間の共起頻度に基づくクエリログ内出現傾向が強いほど、
該経験要素の組み合わせの再利用性が高いと判定する再利用性評価ステップ(ステップ3)と、を行う。
【0016】
また、本発明(請求項6)は、請求項5の再利用性評価方法において、経験要素は、行動を示す単語、または、地名を示す単語を含む。
【0017】
また、本発明(請求項7)は、請求項5または請求項6の再利用性評価方法において、
地図の図柄を示す地図図柄情報、地名情報、各地名情報に対応する地図上での位置を示す位置情報を有する地図情報記憶手段の地図領域の中に含まれる地名の集合と、各地名の地図上での位置を示す位置情報とを取得する領域情報取得ステップを更に行う。
【0018】
また、本発明(請求項8)は、請求項5乃至7の再利用性評価方法において、
再利用性評価ステップにおいて、経験要素の語の組み合わせと共に、再利用性の評価結果を再利用性評価値記憶手段に格納し、
領域情報取得ステップで得られた地名の集合に関連する再利用性評価値の高い経験要素の語の組み合わせを、再利用性評価値記憶手段の評価結果の値が高い順に取得する行動語選択ステップを更に行う。
【0019】
本発明(請求項9)は、請求項1乃至4のいずれか1項に記載の経験情報の再利用性評価装置を構成する各手段としてコンピュータを機能させるための経験情報の再利用性評価プログラムである。
【発明の効果】
【0020】
上記のように本発明によれば、個人の行動履歴が記述されたテキスト集合から、行動内容を示す単語である行動語と、その行動をした場所に関する情報(地名)を抽出し、さらに、行動履歴が記載されたテキストに出現する傾向と、検索キーワードとして出現する傾向の違いをもとに、行動語と地名の組み合わせからなる経験情報の再利用性を判断することにより、行動履歴に記載される機会が少なく、かつ、多くの人が求めている情報を利用価値の高い情報と判定できるため、従来技術で不可能であった、将来的にその場所を訪れようと考える人々が欲しいと考える、再利用性価値の高い珍しい経験情報を抽出することが可能となる。
【図面の簡単な説明】
【0021】
【図1】本発明の原理構成図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における経験情報の再利用性評価装置の構成図である。
【図4】本発明の一実施の形態における再利用性評価部の動作のフローチャートである。
【図5】本発明の一実施の形態における再利用性評価装置の行動情報出力の一例である。
【図6】本発明の一実施の形態における再利用性評価装置の全体の処理のフローチャートである。
【図7】本発明の一実施例の出現頻度格納部に格納されているデータの一例である。
【発明を実施するための形態】
【0022】
以下、図面と共に本発明の実施の形態を説明する。
【0023】
図3は、本発明の一実施の形態における経験情報の再利用性評価装置の構成を示す。
【0024】
再利用性評価装置20は、地図情報格納部1、受付部2、地図情報出力部3、地図出力変更部4、領域情報取得部5、経験要素抽出部7、経験要素格納部8、出現頻度算出部10、出現頻度格納部11、再利用性評価部12、再利用性評価値格納部13、行動選択部14、行動情報出力部15から構成される。また、経験要素抽出部7には文書格納装置6が接続され、出現頻度算出部10にはクエリログ格納装置9が接続されている。
【0025】
以下に各構成要素について説明する。
【0026】
地図情報格納部1は、地図についての情報である地図情報を格納し得る。地図情報格納部1の地図情報は、他の装置から取得した情報でもよいし、予め装置20に格納されている情報でもよい。地図情報は、例えば、地図の図柄を示す地図図柄情報と、地名情報と、各地名の地図上での位置を示す位置情報を有する。地図図柄情報とは、例えば、地図を構成するビットマップまたはグラフデータなどである。地名情報とは、地図上に表記されている建物や場所の名称などの文字列を有する。また、位置情報は、地図上の緯度、経度を有する情報などである。また、地図情報は、縮尺ごとに地図図柄情報、地名情報、位置情報を有する。地図情報格納部1は、不揮発性の記録媒体が好適であるが、揮発性の記憶媒体でも実現可能である。
【0027】
受付部2は、ユーザから各種の指示や操作を受け付ける。各種の指示や操作とは、例えば、地図を出力する指示や、地図を閲覧する地図閲覧操作である。地図を出力する指示とは、地図の中心となる地名情報や位置情報、縮尺、地図の出力領域(を示す位置情報の組み合わせ)を指定することである。地図閲覧操作とは、ズームイン、ズームアウト、移動操作、センタリング操作などである。各種の指示や操作の入力手段は、キーボードやマウスやメニュー画面やタッチパネルによるもの等、何でも良い。受付部2は、マウス等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェアで実現され得る。
【0028】
地図情報出力部3は、受付部3が「地図を出力する指示」を受け付けた場合に、地図の中心となる地名情報や位置情報、縮尺、地図の出力領域(を示す位置情報の組み合わせ)などを検索キーとして、地図情報格納部1から地図情報を読み出し、地図を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部装置への送信等を含む概念である。地図情報出力部3は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。地図出力部3は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0029】
地図出力変更部4は、受付部2が「地図閲覧操作」を受け付けた場合に、受付部2から地図閲覧操作情報を受け、地図閲覧操作に応じて地図の出力を変更する。地図閲覧操作とは、ズームイン、ズームアウト、移動操作、センタリング操作などである。さらに具体的には、地図出力変更部4は、受付部2がズームイン操作を受け付けた場合に、出力されている地図をズームインし、ズームアウト操作を受け付けた場合に、出力されている地図をズームアウトする。また、地図出力変更部4は、受付部2が移動操作を受けた場合に、出力されている地図を、操作に従って移動する。さらに、地図出力変更部4は、受付部2が「センタリング操作」を受けた場合に、出力されている地図の指示された地点が画面の中心になるように画面を移動する。地図出力変更部4は公知技術であるので、詳細な説明は省略する。地図出力変更部4は、通常、MPUやメモリ等から実現され得る。地図出力変更部4の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。
【0030】
領域情報取得部5は、受付部2から受けた出力中の地図に関する情報である中心位置情報、縮尺、地図の出力領域などと、地図情報格納部1に格納されている地図情報に基づき、地図情報出力部3に表示された領域の中に含まれる地名とその地図上での位置を示す位置情報とを取得する。領域情報取得部5は、ズームインレベル、地図の縮尺に応じて、適切な粒度の地名情報を取得する。
【0031】
文書格納装置6は、装置20により解析され得る文書情報を格納しており、再利用性評価装置20の経験要素抽出部7からの検索クエリ、文書を特定する識別子(例:ID)などを検索キーとした読み出し要求に従って、文書情報を読み出し、当該情報を経験情報の再利用性評価装置20の経験要素抽出部7に送信する。文書情報は、自然言語で記述されたデータであれば、何でも良い。文書格納装置6は、Webページを保持するWebサーバや、データベースを具備するデータベースサーバである。
【0032】
経験要素抽出部7は、文書格納装置6に格納されている各文書から,経験を構成する諸要素である行動語、地名を抽出する。行動語は、「見る」などの動作と、「桜」、「紅葉」など、その動作対象とからなる情報である。経験を構成する要素を抽出する手法としては、前述の第1の従来技術、第2の従来技術や、形態素解析技術、固有表現抽出技術、係り受け解析技術、格分析技術、オントロジー、評価表現辞書、感情辞書等を用いて抽出する方法等、何でも良い.経験要素抽出部7で抽出された行動語、地名の集合を"経験要素集合"と呼ぶこととする。
【0033】
経験要素格納部8は、経験要素抽出部7で得られた結果(経験要素集合)を格納する。経験要素格納部8は、データの構造が保存され、復元可能なものであれば、何でも良い。例えば、データベースや、予め備えられた汎用的な記憶装置(メモリやハードディスク装置)の特定領域に記憶される。
【0034】
クエリログ格納装置9は、検索者が全文検索エンジン上で、上記の文書格納装置6に格納された文書情報を検索した際のクエリログを格納しており、再利用性評価装置20からの要求に従って、クエリログを読み出し、当該情報を再利用性評価装置20に送信する。クエリログ格納装置9は、データベースを具備するデータベースサーバなどである。クエリログの形式は{UID,T,Q}である。UIDは検索したユーザを特定する識別子(例:ID)であり、Tは検索をした時間(全文検索エンジンが検索クエリを受信した時刻)、Qは検索質問である。検索質問は、単一の検索単語でも良いし、複数個の検索単語でも良い。複数個の検索単語を指定する場合、通常、検索単語と論理演算子(論理積、論理和、否定)から検索質問を構成する。例えば、「京都の湯豆腐に関する情報」という自然言語の検索要求の場合、検索質問Qは「京都 AND 湯豆腐」になる。
【0035】
出現頻度算出部10は、経験要素格納部8に格納されている経験要素集合(行動語、地名の集合)と、クエリログ格納装置9内のクエリログ集合(クエリログ格納装置9に格納されている全クエリログの集合)と、文書格納装置6内の文書集合とに基づき、経験要素集合に含まれる地名、及び行動語の文書頻度、クエリ頻度を求める。また、経験要素集合に含まれる地名と行動語の全てのペア(組み合わせ)に対して、地名と行動語の文書共起頻度、クエリ共起頻度も求める。「文書頻度」とは、ある語が出現した文書数である。
【0036】
また、文書格納装置6に格納されている文書情報に、それを記述した人または集団を一意に特定するメタデータが付与されている場合には、記述した人数(集団数)を文書頻度としてもよい。
【0037】
上記の「クエリ頻度」とは、ある表記が出現したクエリログ内のレコード数である(例えば、クエリログ格納装置9に格納されたクエリログの中で、「京都」という単語が検索質問に含まれているクエリログが10個ある場合、「京都」という地名のクエリ頻度は10になる)。また、文書頻度と同様、クエリを投入した人数をクエリ頻度として数えても良い。なお、「クエリ共起頻度」は、クエリログの中で、複数個の検索単語が同時に投入された回数を示す。クエリ共起頻度は、論理演算子を考慮しても良いし、考慮しなくても良い。最も典型的には、2個以上の検索単語を含み、かつ、それらの検索単語が論理積演算子でつながるレコードのみを対象として、クエリ共起頻度を算出する。
【0038】
なお、行動語のクエリ頻度を計算する際は、行動語を構成する動作対象について頻度を算出する。たとえば、「桜を見る」という行動語の場合は、「桜」という単語についてクエリ頻度を算出する。
【0039】
出現頻度格納部11は、出現頻度算出部10で得られた結果(経験要素集合(地名と行動語)、クエリログ内の出現頻度)を格納する。出現頻度格納部11は、データの構造が保存され、復元可能なものであれば、なんでも良い。例えば、データベースや、予め備えられた汎用的な記憶装置(メモリやハードディスク装置)の特定領域に記憶される。
【0040】
再利用性評価部12は、出現頻度格納部11に格納されている、地名と行動語のペア(組み合わせ)に関する文書頻度、クエリ頻度、文書共起頻度、クエリ共起頻度に基づき、地名と行動語のペア(組み合わせ)に対して、その再利用性の高さを示すスコアを算出する。単語Aの文書頻度をn(A)、クエリ頻度をm(A)、単語Aと単語Bの文書共起頻度をn(A,B)、クエリ共起頻度をm(A,B)とする。また、再利用性評価部12は、クエリログ格納装置9内のクエリログ集合、及び、文書格納装置6内の文書集合にアクセスし、全文書数、全クエリログレコード数を計算し、再利用性評価に用いても良い。その場合、全文書数をN、全クエリログレコード数をMとする。また、全文書中で単語Aを含む確率は、
PD(A)=n(A)/N、
単語Aと単語Bを含む確率は、
PD (A,B)=n(A,B)/N、
全クエリログレコード中で単語Aを含む確率は、
PQ(A)=m(A)/M、
単語Aと単語Bを含む確率は、
PQ (A,B)=m(A,B)/M
となる。
【0041】
再利用性スコアを算出する前処理として、地名Xと行動語Yのペアの関係性の強さを一般性、信頼性の観点で評価する。
【0042】
一般性は、以下の数式で評価する。
【0043】
Generality(X,Y)=n(X,Y) 式(1)
信頼性は、以下の数式で評価する。
【0044】
Reliability1(X,Y)= PD(Y|X)=n(X,Y)/n(X) 式(2)
Reliability2(X,Y)= PD(X|Y)= n(X,Y)/n(Y) 式(3)
Reliability3(X,Y)=PD(Y|X)/PD(Y) 式(4)
信頼性は、単一の数式で評価しても良いし、複数の数式の組み合わせから評価しても良い。また、一般性、信頼性の評価には、カイ二乗値やJ-measureなどの他の統計的指標を用いても良い。一般性と信頼性の低いものに関しては、再利用性の評価対象から外す。
【0045】
次に、クエリ頻度をもとにそれぞれのペアの再利用性を評価する。多くの人から求められている情報の場合、検索要求を受ける頻度が高くなると推測される。したがって、クエリログ内のペアの出現確率が高ければ高いほど、そのペア(地名と行動語の組み合わせ)の再利用性が高くなるような評価関数を用いることで、ペアの再利用性を評価する。例えば、再利用性を評価する数式としては以下のものがある。
【0046】
Reusability1(X,Y) = PQ(Y|X)=m(X,Y)/m(X) 式(5)
Reusability2(X,Y) = PQ(X|Y)=m(X,Y)/m(Y) 式(6)
Reusability3(X,Y)=PQ(Y|X)/PQ(Y) 式(7)
また、文書内におけるペアの出現確率と、クエリログ内のペアの出現確率の違いを相対的に評価した以下の数式で再利用性を評価しても良い。人があまり経験していないが、多くの人から求められている情報の場合、ブログ等で記載されている頻度は低いが検索要求を受ける頻度が高くなると推測される。したがって、文書内におけるペアの出現確率に比べて、クエリログ内のペアの出現確率が高ければ高いほど、そのペア(地名と行動語の組み合わせ)の再利用性が高くなるような評価関数を用いることで、ペアの再利用性を評価する。
【0047】
Reusability4(X,Y) = PQ(Y|X)/ PD(Y|X) 式(8)
Reusability5(X,Y) = PQ(X|Y)/ PD(X|Y) 式(9)
Reusability6(X,Y)=(PQ(Y|X)/PQ(Y))/ (PD(Y|X)/PD(Y)) 式(10)
上記の式(8)を直感的に述べると、文書中で地名Xが出現する条件のもとで行動語Yが出現する確率が低いほど、また、クエリログ中で地名Xが出現する条件のもとで行動語Yが出現する確率が高いほど、経験の再利用性スコアは高くなる。
【0048】
式(9)を直感的に述べると、文書中で行動語Yが出現する条件のもとで地名Xが出現する確率が低いほど、また、クエリログ中で行動語Yが出現する条件のもとで地名Xが出現する確率が高いほど、経験の再利用性スコアは高くなる。
【0049】
式(10)を直感的に述べると、地名Xが出現する文書中で、行動語Yが出現する確率が、他の地名が出現する文書と比べて相対的に少ないほど、地名Xが出現するクエリ中で、行動語Yが出現する確率が、他の地名が出現するクエリと比べて相対的に多いほど、経験の再利用性スコアは高くなる。さらに、再利用性スコアの算出においては、他の統計的指標の相対値を用いても良い。
【0050】
図4は、本発明の一実施の形態における再利用性評価部の動作のフローチャートである。
【0051】
ステップ101) 再利用性評価部12は、出現頻度格納部11からM個の経験e(地名と行動語)の集合と文書内のクエリログ内の出現頻度を取得する。
【0052】
ステップ102) 一次変数iをi=1と初期化する。
【0053】
ステップ103) i≦Mであればステップ204に移行し、i>Mであれば当該再利用性評価部12の処理を終了する。
【0054】
ステップ104) 経験要素eの一般性スコアGenerality:G(e)と信頼性スコアReliability:R(e)を算出する。
【0055】
ステップ105) 上記で算出された一般性スコアG(e)と信頼性スコアR(e)が所定の閾値以上であれば、ステップ106に移行し、閾値未満である場合はステップ108に移行する。
【0056】
ステップ106) 経験要素eの再利用性評価値を算出する。
【0057】
ステップ107) ステップ106で求められた再利用性評価値を経験要素(地名と行動語)と共に再利用性評価値格納部13に格納する。
【0058】
ステップ108) i=i+1としてステップ103に移行する。
【0059】
再利用性評価値格納部13は、再利用性評価部12で得られた結果(行動語と地名の組、スコア)を格納する。再利用性評価値格納部13は、データの構造が保存され、復元可能なものであれば、なんでも良い。例えば、データベースや、予め備えられた汎用的な記憶装置(メモリやハードディスク装置)の特定領域に記憶される。
【0060】
行動語選択部14は、領域情報取得部5で得られた地名(の集合)に関連する行動語情報を再利用性評価値格納部13から取得する。行動語選択部14は、再利用性評価部12によって得られた再利用性スコアの高いものから順に行動語を選択する。
【0061】
行動情報出力部15は、領域情報取得部5で得られた地名と、その地名に関して行動語選択部14が選択した行動情報を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部装置への送信等を含む概念である。行動情報出力部15は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。行動情報出力部15は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0062】
図5は、本発明の一実施の形態における行動情報出力部の画面イメージを示す。同図(A)は、地名ごとに得られた行動語を集約して出力する画面である。同図(B)は、さらに行動語を「食べる」や「見る」などの動作ごとに分けて出力する画面である。表示する行動語は、再利用性スコアの高いものから優先的にユーザに提示する。
【0063】
図6は、本発明の一実施の形態における再利用性評価装置の全体の処理のフローチャートである。
【0064】
ステップ201) 経験要素抽出部7において、文書格納装置6に格納されている文書を読み出し、行動語として動作とその動作対象及び地名を抽出し、これを経験要素として経験要素格納部8に格納する。
【0065】
ステップ202) 出現頻度算出部10は、経験要素格納部8から経験要素集合を読み出し、クエリログ格納装置9からクエリログ集合を読み出し、経験要素集合に含まれる地名及び、行動語それぞれのクエリ頻度、地名と行動語の組み合わせに対してクエリ共起頻度を求める。さらに、文書格納装置6内の文書集合を読み出し、経験要素集合に含まれる地名及び、行動語それぞれの文書頻度、地名と行動語の組み合わせに対して文書共起頻度を求める。
【0066】
ステップ203) 再利用性評価部12は、前述の図4の処理を行い、地名と行動語の組み合わせに対する再利用性評価値を求め、当該地名と行動語と共にその値(再利用性スコア)を再利用性評価値格納部13に格納する。
【0067】
ステップ204) ここでは、受付部2から表示されている地図上の「領域」が指定されたものとする。
【0068】
ステップ205) 領域情報取得部5は、地図情報格納部1から当該領域に含まれる地名の集合と、各地名に対応する位置情報を取得する。
【0069】
ステップ206) 行動語選択部14は、領域情報取得部5により取得された地名集合中の各地名に関連する行動語情報を再利用性評価値格納部13から再利用性スコアの高い順にN件取得する。
【0070】
ステップ207) 行動情報出力部15は、ステップ205で取得した地名の集合と、各地名に対応する位置情報、及び、ステップ206で取得した各地名に関連する行動語情報を出力する。
【実施例】
【0071】
以下、上記の実施の形態における再利用性評価部12を具体的に説明する。
【0072】
以下では、出現頻度格納部11に図7に示すデータが格納されているものとする。
【0073】
再利用性を評価したい対象は、「京都で本を買う」経験を示す{京都、本を買う}というペアと、「京都で蛍を見る」経験を示す{京都、蛍を見る}のペアである。
【0074】
最初に、文書集合に基づいて、それぞれのペアの一般性と信頼性を評価する。信頼性を示す数式としては、前述の式(2)を用いる。
【0075】
Generality(京都,本を買う)= 500
Reliability(京都,本を買う)= 500/1000=0.50
Generality(京都,蛍を見る)= 100
Reliability(京都,蛍を見る)= 100/1000=0.10
この段階で、一般性と信頼性が低いものは除く。たとえば、あらかじめ一般性、信頼性の最低値を設定しておき、それ未満のものは除くという処理を行う。本実施例においては、いずれの経験もそれを満たしているとして説明を進める。
【0076】
次に、それぞれのペアの再利用性を評価する。ここで、再利用性を示す数式としては、前記数式(8)を用いるとする。
【0077】
Reusability(京都,本を買う)=(2000/10000)/(500/1000)= 0.40
Reusability(京都,蛍を見る)=(2000/10000)/(100/1000)= 2.00
「本を買う」という行動は一般的な行動であるため、京都で行う人は多いが、それを検索する人は少ないため、再利用性スコアは低くなる。一方で、「蛍を見る」という行動は京都で行う人は少ないが、多くの人が検索して興味を持つ単語であるので、その再利用性スコアも高くなる。
【0078】
上記のようにして求められた再利用性スコアは再利用性評価値格納部13に格納され、領域情報取得部5で得られた地名が「京都」であれば、行動語選択部14では、再評価性スコアの高い順に
「京都,蛍を見る」
「京都,本を買う」
を選択(指定件数N=2の場合)し、行動情報出力部15は、領域選択部5で抽出された地名、地図情報と共に出力する。
【0079】
上記のように、本発明は、人の行動履歴が記載された文書集合の各文書から、行動を示す単語である行動語と、その行動が行われた場所に関する情報(地名)を抽出し、行動語と地名のペアが、行動履歴が記載されたテキスト(文書格納装置6に格納されている文書)に出現する傾向と、クエリログ格納装置9に格納されているクエリとして出現する傾向の違いに基づいて、その行動語と地名のペアの再利用性を判定する。これにより、行動履歴に記載されている頻度は低くとも多くの人が求めている情報を利用価値が高い情報として判定することが可能となる。
【0080】
上記の再利用性評価装置の各構成要素の動作をプログラムとして構築し、再利用性評価装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0081】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0082】
なお、本発明は、上記の実施の形態や実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0083】
本発明は、上記の「旅行」の例に限定されることなく、人間の経験に関連する日常生活やショッピング等何にでも適用可能である。
【符号の説明】
【0084】
1 地図情報格納部
2 受付部
3 地図情報出力部
4 地図出力変更部
5 領域情報取得部
6 文書記憶手段、文書格納装置
7 経験要素抽出手段、経験要素抽出部
8 経験要素記憶手段、経験要素格納部
9 クエリログ記憶手段、クエリログ格納装置
10 出現頻度算出手段、出現頻度算出部
11 出現頻度記憶手段、出現頻度格納部
12 再利用性評価手段、再利用性評価部
13 再利用性評価値格納部
14 行動語選択部
15 行動情報出力部
20 再利用性評価装置

【特許請求の範囲】
【請求項1】
テキストに記述された人間の経験情報の再利用性を評価する経験情報の再利用性評価装置であって、
個人の行動履歴が記述されたテキスト集合を格納する文書記憶手段の該テキスト集合から、人間が経験した内容を示す語を経験要素として抽出し、経験要素記憶手段に格納する経験要素抽出手段と、
前記テキスト集合を検索したクエリログ集合を格納したクエリログ記憶手段のクエリログ集合と、該テキスト集合のそれぞれから、前記経験要素記憶手段の該経験要素の出現頻度、該経験要素間の共起頻度を算出し、出現頻度記憶手段に格納する出現頻度算出手段と、
前記経験要素抽出手段で得られた前記経験要素の組み合わせについて、
前記テキスト集合から前記出現頻度算出手段が算出した該経験要素の出現頻度、及び、該経験要素間の共起頻度に基づく文書内出現傾向が弱く、
前記クエリログ集合から前記出現頻度算出手段が算出した該経験要素の出現頻度、及び、該経験要素間の共起頻度に基づくクエリログ内出現傾向が強いほど、
該経験要素の組み合わせの再利用性が高いと判定する再利用性評価手段と、
を有することを特徴とする経験情報の再利用性評価装置。
【請求項2】
前記経験要素の語の組み合わせは、
行動を示す単語、または、地名を示す単語を含む
請求項1記載の再利用性評価装置。
【請求項3】
地図の図柄を示す地図図柄情報、地名情報、各地名情報に対応する地図上での位置を示す位置情報を有する地図情報記憶手段と、
前記地図情報記憶手段の地図領域の中に含まれる地名の集合と、各地名の地図上での位置を示す位置情報とを取得する領域情報取得手段と、
を更に有する請求項1または2記載の再利用性評価装置。
【請求項4】
前記再利用性評価手段は、
前記経験要素の語の組み合わせと共に、再利用性の評価結果を再利用性評価値記憶手段に格納する手段を含み、
前記領域情報取得手段で得られた前記地名の集合に関連する再利用性評価値の高い経験要素の語の組み合わせを、前記再利用性評価値記憶手段の評価結果の値が高い順に取得する行動語選択手段を更に有する請求項1乃至3のいずれか1項に記載の再利用性評価装置。
【請求項5】
テキストに記述された人間の経験情報の再利用性を評価する経験情報の再利用性評価方法であって、
個人の行動履歴が記述されたテキスト集合を格納する文書記憶手段、テキスト集合及びそのテキスト集合を検索したクエリログ集合を格納したクエリログ記憶手段、経験要素記憶手段、出現頻度記憶手段を有する装置が、
個人の行動履歴が記述されたテキスト集合を格納する文書記憶手段の該テキスト集合から、人間が経験した内容を示す語を経験要素として抽出し、経験要素記憶手段に格納する経験要素抽出ステップと、
前記テキスト集合を検索したクエリログ集合を格納したクエリログ記憶手段のクエリログ集合と、該テキスト集合のそれぞれから、前記経験要素記憶手段の該経験要素の出現頻度、該経験要素間の共起頻度を算出し、出現頻度記憶手段に格納する出現頻度算出ステップと、
前記経験要素抽出ステップで得られた前記経験要素の組み合わせについて、
前記テキスト集合から前記出現頻度算出ステップで算出した該経験要素の出現頻度、及び、該経験要素間の共起頻度に基づく文書内出現傾向が弱く、
前記クエリログ集合から前記出現頻度算出ステップで算出した該経験要素の出現頻度、及び、該経験要素間の共起頻度に基づくクエリログ内出現傾向が強いほど、
該経験要素の組み合わせの再利用性が高いと判定する再利用性評価ステップと、
を行うことを特徴とする経験情報の再利用性評価方法。
【請求項6】
前記経験要素の語の組み合わせは、
行動を示す単語、または、地名を示す単語を含む
請求項5記載の経験情報の再利用性評価方法。
【請求項7】
地図の図柄を示す地図図柄情報、地名情報、各地名情報に対応する地図上での位置を示す位置情報を有する地図情報記憶手段の地図領域の中に含まれる地名の集合と、各地名の地図上での位置を示す位置情報とを取得する領域情報取得ステップを
を更に行う請求項5または6記載の経験情報の再利用性評価方法。
【請求項8】
前記再利用性評価ステップにおいて、前記経験要素の語の組み合わせと共に、再利用性の評価結果を再利用性評価値記憶手段に格納し、
前記領域情報取得ステップで得られた前記地名の集合に関連する再利用性評価値の高い経験要素の語の組み合わせを、前記再利用性評価値記憶手段の評価結果の値が高い順に取得する行動語選択ステップを更に行う請求項5乃至7のいずれか1項に記載の経験情報の再利用性評価方法。
【請求項9】
請求項1乃至4のいずれか1項に記載の経験情報の再利用性評価装置を構成する各手段としてコンピュータを機能させるための経験情報の再利用性評価プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−180901(P2011−180901A)
【公開日】平成23年9月15日(2011.9.15)
【国際特許分類】
【出願番号】特願2010−45605(P2010−45605)
【出願日】平成22年3月2日(2010.3.2)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】