データ処理装置及び方法
【課題】動向情報の変化とその要因を分かりやすく表示する。
【解決手段】コーパス取得部41は、動向情報を抽出するもとになる情報として、コーパス提供装置20からコーパスを取得する。動向情報抽出部42は、取得したコーパスから、処理対象となる動向情報を抽出する。要因情報抽出部43は、抽出された動向情報の変化の要因となったと推測される情報を抽出する。重要語抽出部44は、動向情報の分析に有用であると推測される重要語を抽出する。動向情報表示部45は、抽出された動向情報の変動を示すグラフを生成する。要因情報表示部46は、動向情報表示部45が生成したグラフに、動向情報の変動の要因となった要因情報を合わせて表示する。要因情報表示部46は、所定の条件にしたがって、動向情報の分析に有用な要因情報を抽出して表示する。
【解決手段】コーパス取得部41は、動向情報を抽出するもとになる情報として、コーパス提供装置20からコーパスを取得する。動向情報抽出部42は、取得したコーパスから、処理対象となる動向情報を抽出する。要因情報抽出部43は、抽出された動向情報の変化の要因となったと推測される情報を抽出する。重要語抽出部44は、動向情報の分析に有用であると推測される重要語を抽出する。動向情報表示部45は、抽出された動向情報の変動を示すグラフを生成する。要因情報表示部46は、動向情報表示部45が生成したグラフに、動向情報の変動の要因となった要因情報を合わせて表示する。要因情報表示部46は、所定の条件にしたがって、動向情報の分析に有用な要因情報を抽出して表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理技術に関し、特に、動向情報を可視化する技術に関する。
【背景技術】
【0002】
計算機の処理能力の向上や高速ネットワーク環境の普及に伴い、電子化された情報は増加の一途をたどっており、この傾向は今後も継続するものと思われる。
【発明の開示】
【発明が解決しようとする課題】
【0003】
こうした状況下、ユーザの関心や興味に合致する情報に直接的かつ簡便にアクセスするための技術が求められている。
【0004】
本発明はこうした状況に鑑みてなされたものであり、その目的は、動向情報の変化とその要因を分かりやすく表示する技術を提供することにある。
【課題を解決するための手段】
【0005】
本発明のある態様は、データ処理装置に関する。時間変化する動向情報を取得する動向情報取得部と、前記動向情報の変化の要因となった要因情報を取得する要因情報取得部と、前記動向情報の変化を示すグラフを生成する動向情報表示部と、前記グラフに前記要因情報を付加する要因情報表示部と、を備え、前記要因情報表示部は、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とする。
【0006】
前記要因情報表示部は、最初、最後、最大、最小、極大、極小のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよい。前記要因情報表示部は、前記動向情報の変化量が所定の閾値よりも大きい部分の前後のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよい。
【0007】
データ処理装置は、前記動向情報を含む複数のコーパスと前記要因情報を含む複数のコーパスを取得するコーパス取得部を更に備えてもよく、前記動向情報取得部は、前記複数のコーパスの中から前記動向情報を抽出し、前記要因情報取得部は、前記動向情報と同時期の情報を含むコーパスの中から、抽出された前記動向情報を含むコーパスと近似するコーパスを抽出することにより、その動向情報に対応する要因情報を取得してもよい。
【0008】
データ処理装置は、前記動向情報と同時期の情報を含むコーパスの中から重要語を抽出する重要語抽出部を更に備えてもよく、前記要因情報表示部は、抽出された前記重要語を表示してもよい。
【0009】
データ処理装置は、前記要因情報が前記動向情報の上昇に寄与する要因か下降に寄与する要因かを分析する分析部を更に備えてもよく、前記要因情報表示部は、前記動向情報の上昇に寄与する要因情報と下降に寄与する要因情報とを識別可能に表示してもよい。データ処理装置は、前記コーパスに含まれる重要語に対して、前記動向情報の上昇又は下降に対する寄与度を示すスコアを付与するスコア付与部を更に備えてもよく、前記分析部は、前記要因情報に含まれる重要語のスコアに基づいて、前記要因情報が前記動向情報の上昇に寄与するか下降に寄与するかを分析してもよい。
【0010】
前記要因情報表示部は、前記要因情報のうち所定の字数を表示し、ユーザから選択指示を受け付けたときに全文を表示してもよい。
【0011】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0012】
本発明によれば、動向情報の変化とその要因を分かりやすく表示する技術を提供することができる。
【発明を実施するための最良の形態】
【0013】
計算機の処理能力の向上や高速ネットワーク環境の普及に伴い、電子化された情報は増加の一途を辿っており、この傾向は今後も継続するものと思われる。そのため、ユーザの関心や興味に合致する情報に直接的かつ簡便にアクセスするための技術が求められている。このような要求に答える技術のひとつとして、本実施の形態では、動向情報の変化とその変化要因とを視覚的に表示するシステムを提案する。本実施の形態では、動向情報として内閣支持率、要因として新聞記事を用いたシステムを例にとって説明する。
【0014】
本システムは、内閣支持率に関連する新聞記事を入力することにより、内閣支持率の変化とその変化の根拠となる新聞記事を関連付けるグラフを出力する。さらに、グラフ上には、ユーザの興味と見やすさを考慮し、内閣支持率の変化の大きい部分などに根拠となる要因を配置する。ここで、根拠となる新聞記事は、内閣支持率に関連する新聞記事とのコサイン距離が近い記事とする。また、TF・IDFに基づくスコアを利用して重要語を抽出する。ユーザの興味と見やすさについては、アンケート調査を行うことにより、要因を表示する位置や、その表示内容に関して有用な知見を得た。
【0015】
以上のような構成により、内閣支持率の変化とその要因との関係を視覚的に表現し、かつユーザの関心や興味に合致する情報に効率的にアクセス可能なシステムを実現することができる。
【0016】
図1は、実施の形態に係るデータ処理システムの構成を示す。データ処理システム10において、データ処理装置40は、インターネット30を介してコーパス提供装置20からコーパスを取得し、取得したコーパスの中から動向情報を抽出して表示装置50に表示するとともに、動向情報の変動の要因となった要因情報を抽出して動向情報に合わせて表示装置50に表示する。
【0017】
コーパス取得部41は、動向情報を抽出するもとになる情報として、コーパス提供装置20からコーパスを取得する。コーパスは、コンピュータによる検索を可能とするために電子化された自然言語の文章から成るテキストデータであり、インターネット30などを通じて提供されるものを利用可能である。コーパスは、検索の目的に応じてタグなどが付されていてもよい。コーパス取得部41は、動向情報を抽出するのに適したタグが付されたコーパスを取得することが望ましい。
【0018】
動向情報抽出部42は、取得したコーパスから、処理対象となる動向情報を抽出する。例えば、本実施の形態では、内閣支持率を抽出する。動向情報抽出部42は、予め内閣支持率にタグが付されたニュース記事のコーパスから内閣支持率を抽出してもよいし、所定の条件にしたがって内閣支持率を抽出してもよい。例えば、ニュース記事のコーパスから「内閣支持率」という語を含むコーパスを検索し、抽出されたコーパスの「内閣支持率」という語の周辺に存在する数値データを内閣支持率として抽出してもよい。
【0019】
要因情報抽出部43は、抽出された動向情報の変化の要因となったと推測される情報を抽出する。要因情報抽出部43は、抽出された動向情報のコーパスをクエリとして、要因情報を含むコーパスを検索し、検索スコアの高いものを要因情報として抽出してもよい。例えば、内閣支持率の変化の要因となる情報が記載されたニュース記事は、内閣支持率が記載されたニュース記事と、使用される語の分布が近いと考えられるので、内閣支持率が記載されたニュース記事、すなわち動向情報のコーパスをクエリとして、ニュース記事全体のコーパスをベクトル空間法などを用いて検索し、検索スコアの高いもの、すなわち内閣支持率に関するニュース記事とのコサイン距離が近いニュース記事を要因情報として抽出してもよい。
【0020】
重要語抽出部44は、動向情報の分析に有用であると推測される重要語を抽出する。重要語抽出部44は、抽出された動向情報の時期と同時期の情報を記載したコーパスから、固有表現抽出技術などを用いて重要語を抽出してもよい。例えば、重要語抽出部44は、内閣支持率が記載されたニュース記事と同じ年月に掲載された全ての新聞記事を一つのドキュメントとみなし、形態素解析により抽出された名詞句についてTF・IDF値を算出し、算出されたTF・IDF値に基づいて、検索されたニュース記事から重要語を抽出してもよい。
【0021】
動向情報表示部45は、抽出された動向情報の変動を示すグラフを生成する。動向情報表示部45は、例えば、横軸に時間をとり、縦軸に動向情報を数値化したものをとって、グラフを生成してもよい。
【0022】
要因情報表示部46は、動向情報表示部45が生成したグラフに、動向情報の変動の要因となった要因情報を合わせて表示する。要因情報表示部46は、要因情報を、対応する動向情報の近傍に表示する。要因情報表示部46は、抽出された全ての要因情報を表示してもよいが、要因情報の数が多い場合は、所定の条件にしたがって、動向情報の分析に有用な要因情報のみを抽出して表示する。例えば、グラフにおいて、最初、最後、最大、最小、極大、極小のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよいし、動向情報の変化量が所定の閾値よりも大きい部分の前後のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよい。これにより、動向情報の分析に有用な情報を分かりやすく視覚化することができる。
【0023】
要因情報表示部46は、要因情報の字数が多い場合、所定の字数までを表示しておき、ユーザが要因情報をクリックするなどして、全文の表示を要求したときに、全文を表示するようにしてもよい。要因情報表示部46は、要因情報の全文を表示しない場合、表示した文の文末に、「…」など、続きが存在することを示す記号などを表示してもよい。要因情報表示部46は、要因情報のタイトルや、重要語抽出部44により抽出された重要語を合わせて表示してもよい。
【0024】
以下、本発明者らが実際に行った実験について説明する。動向情報とは、いくつかの統計量に関する時系列データを基にして、その変化を通時的に捉えて纏め上げるものであり、それは単に時系列データの羅列ではなく、ある観点の下で統合的に纏め上げることで得られるものであるとされている。本実験では、この定義に従い、1998年1月から1999年12月までの内閣支持率を動向情報とする。また、要因とは、動向情報に変化を与える「もの」とする。内閣支持率においては、様々な要因が考えられるが、それらはいずれも新聞記事に記載されているはずである。そこで本実験では、内閣支持率に変化を与える新聞記事をその要因とすることとする。
【0025】
MuST(http://must.c.u-tokyo.ac.jp)オーガナイザにより配布されたタグ付きコーパスを用いて内閣支持率の抽出を行った。本実験において、内閣支持率の変化の要因となる新聞記事と、内閣支持率が記載された新聞記事とでは、使用される語の分布が近いと仮定した。そこで、MuSTオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとし、毎日新聞2年分のコーパスを検索した。検索結果の新聞記事が掲載された年月ごとに新聞記事を検索スコアの高い順にソートした。なお、検索に用いたシステムは、ベクトル空間法に基づいて本発明者らが以前開発したシステム(Hiroki Tanioka and Kenichi Yamamoto, A Distributed Retrieval System for NTCIR-5 Patent Retrieval Task, The 5th NTCIR Workshop Meeting, 2005、Hiroki Tanioka, Kenichi Yamamoto and Takashi Nakagawa, A Distributed Retrieval System for NTCIR-5 WEB Task, The 5th NTCIR Workshop Meeting, 2005)である。結果の一部を図2に示す。このようにして検索された新聞記事を、その月の内閣支持率に変化を与えた要因とする。
【0026】
次に、検索された新聞記事から重要語を抽出することにした。重要語の抽出は以下の手順により行われる。まず、同じ年月に掲載されたすべての新聞記事を1つのドキュメントと見なし、TF・IDF値を算出する。つづいて、算出されたTF・IDF値に基づいて、検索された新聞記事から重要語を算出する。このとき、同じ年月で同じ語が重要語とならないようにする。このようにして算出された重要語を、グラフ上にタイトルを表示することが困難な場合などに使用する。算出したTF・IDF値の一部を図3に示す。
【0027】
抽出した動向情報や要因をどのように提示すれば良いのかを調査するためにアンケート調査を行った。まず始めに、要因の表示箇所と表示数に関する調査結果を述べ、次に、要因の表示内容に関する調査結果を述べる。初期状態で表示される要因の表示箇所に関して、次のようなアンケートを行い調査した。なお、アンケートは61人(男性:43人、女性:18人)に対して行った。アンケート回答者の職種は、開発職、営業職、スタッフ職である。
【0028】
[質問1]図4は、内閣支持率の変動をグラフで表現したものです。このグラフ中の(A)から(L)でマークされた場所のうち、どの位置の詳細な情報が見たいですか?
(1)見たい順に好きなだけ見たい位置の番号を記入してください。
(2)その理由をなるべく具体的に記入してください。
【0029】
アンケート結果を図5に示す。図5及びアンケート自由記述結果から以下のような傾向が分かった。
・要因を知りたい箇所は、12箇所中平均3.3箇所である。
・要因を知りたい箇所は、以下の3種類に分類できる。
1.値の変化が大きい部分とその前後(G,F,H)
2.値が最大の位置と最小の位置(C,G)
3.グラフの最初と最後(A,L)
【0030】
次に、要因の初期表示内容に関して、同様にアンケート調査を行った。アンケート回答者は、質問1と同じ61人である。
【0031】
[質問2]図6における(イ)から(ヘ)は、マウスクリックによってある月の内閣支持率に関係がある情報を表示しています。(イ)から(ヘ)のうち、どの情報が見やすいですか?(なお、どの表示形式からも、さらにマウスクリックで詳細表示が可能です。)
(1)見やすいと思う順に1個以上記入してください。
(2)その理由をなるべく具体的に記入してください。
【0032】
アンケート結果を図7に示す。図7及びアンケート自由記述結果から以下のような傾向が分かった。
・1つのポップアップウィンドウ内には、3行くらいがよい(ロとホの比較より)。
・内容を簡潔に表すタイトルやキーワードがある方が分かりやすい(ハとニ、ヘとホの比較より)。
・分析に馴れている人は、イのようなキーワードの羅列でも良いとの評価も多い。
・「...」で終わると、クリックできることがよく分かる。
【0033】
このような実験結果に鑑み、動向情報表示部45及び要因情報表示部46により生成されたグラフの例を図8に示す。図8は、初期状態で表示されている内閣支持率とその要因から、ユーザが気になる箇所をクリックし、さらに詳細な情報を選択しているところを示している。このグラフに、更に関連する情報やグラフなどを表示してもよい。例えば、内閣支持率のグラフに円相場のグラフなどを重ねて表示してもよい。
【0034】
図9は、データ処理装置の別の構成例を示す。図9に示したデータ処理装置40は、図1に示したデータ処理装置40の構成に加えて、スコア付与部47を備える。また、要因情報抽出部48及び要因情報表示部49は、図1に示したデータ処理装置40の要因情報抽出部43及び要因情報表示部46とは異なる機能を有するので、異なる符号を付している。以下、図1のデータ処理装置40と異なる点を中心に説明する。
【0035】
データ処理装置40は、動向情報の上昇に寄与した要因情報と、動向情報の下降に寄与した要因情報を識別可能に表示する。動向情報の変動は、直前の時期の要因情報に依存すると考えられる。したがって、抽出された動向情報の変動をもとに、まず、コーパスに含まれる重要語が、動向情報の上昇に寄与しやすい語なのか、下降に寄与しやすい語なのかを学習し、学習結果を利用してコーパスをスコアリングすることにより、上昇に寄与したと推測される要因情報と、下降に寄与したと推測される要因情報を抽出する。
【0036】
スコア付与部47は、重要語抽出部44が抽出した重要語に対して、動向情報の上昇又は下降に対する寄与を示すスコアを付与する。スコアを算出する式の例は後述するが、上昇に寄与する場合はプラスの値を、下降に寄与する場合はマイナスの値を付与するようにする。例えば、3月の内閣支持率が2月に比べて上昇していた場合、2月から3月の間の日付を持つ新聞記事に出現する単語に対してプラスのスコアを付ける。また、2月の内閣支持率が1月に比べて下降していた場合、1月から2月の間の日付を持つ新聞記事に出現する単語に対してマイナスのスコアを付ける。これにより、それぞれの単語が内閣支持率の上昇に寄与しやすいか、下降に寄与しやすいかを数値化することができる。
【0037】
要因情報抽出部48は、重要語に付与されたスコアをもとにコーパス全体のスコアを算出し、スコアの絶対値の高いコーパスを要因情報として抽出する。そして、動向情報が上昇する直前の要因情報として、プラスの絶対値の最も高いコーパスを抽出し、動向情報が下降する直前の要因情報として、マイナスの絶対値の最も高いコーパスを抽出する。例えば、3月に内閣支持率が上昇したことの根拠となる記事として、2月から3月の間の日付を持つ新聞記事のうち、最もスコアの高い記事を抽出する。
【0038】
要因情報表示部49は、動向情報のグラフに、抽出された要因情報を表示する。このとき、要因情報表示部49は、動向情報の上昇に寄与した要因情報と、動向情報の下降に寄与した要因情報とを、表示色や背景色などを変えるなどして識別可能に表示する。また、スコアの大小を色の濃淡で表現してもよい。要因情報表示部49は、上昇に寄与する要因情報のみを表示するモード、下降に寄与する要因情報のみを表示するモード、スコアの絶対値の大きい要因情報のみを表示するモードなどを設けてもよいし、これらを切替可能としてもよい。
【0039】
この方法を用いて、前述した実験と同様に、内閣支持率の変動と、その変動の根拠となる要因情報を抽出する実験を行った。ここでは、スコアを付与する際に、確信度を算出する技術として、「Support Vector Machine」と「Naive Bayes」を用いた内閣支持率の予測実験に関して述べる。
【0040】
内閣支持率の変動は、前の月の新聞記事の内容に依存すると仮定し、内閣支持率の予測問題を以下の様に定式化した。
【数1】
ただし、iは年月を表す添え字とし、xi−1はi−1が表す年月に発行された新聞記事から抽出されたn次元の特徴ベクトルとする。また、φは入力されたn次元の特徴ベクトルを1または0に写像する関数とする。更に、
【数2】
とする。
【0041】
ここで、本実験においては、特徴ベクトルxi−1は、i−1が表す年月に発行された新聞記事から抽出された名詞句を各次元として、TF又はTF・IDFの値をその次元の値とした。更に、i−1が表す年月に発行された新聞記事から、MuSTオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとして検索し、検索結果の上位のみを利用した場合も比較実験した。なお、検索に用いたシステムは、ベクトル空間法に基づいて本発明者らが以前開発したシステムである。
【0042】
次に、関数φに、Support Vector Machineを用いた場合と、Naive Bayesを用いた場合についてそれぞれ説明する。SVM(Support Vector Machine)は、マージン最大化の戦略に基づく分類器であり、その高い汎化能力から広く自然言語処理の分野で用いられている。本発明者らは、LIBSVMをSVMsのライブラリとして使用し実験を行った。実験パラメータとして、カーネル関数にRBFカーネルとLinearカーネルを利用し、C値は10とした。
【0043】
NB(Naive Bayes)は、ベイズの定理に基づく分類器であり、ここでは、p(yi|xi−1)を最大にするyiを探せばよい。
【数3】
ただし、wjはxi−1のj次元成分のベクトルとする。
【0044】
図10に、1998年1月から1999年12月までの24ヶ月分の毎日新聞コーパスを用いて、leave one outで評価した結果を示す。図10において、ALLは、その期間のすべての新聞記事を対象とした場合の正解率であり、Search-ALLは、MuSTオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとして検索し、全検索結果を対象とした場合の正解率である。また、Search-[数値]は、検索結果の上位[数値]件を対象とした場合の結果を示している。
【0045】
図10より、学習データは検索により絞り込んだ方が良い結果を得られることが分かった。また、今回の実験においては、各次元の値はTF・IDFよりもTFが安定している傾向にあると言える。
【0046】
ここでは、MuSTオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとして検索し、検索結果上位100件を用いて、Naive BayesでTFを用いて学習した場合の単語tが内閣支持率に与える影響cause(t)を以下の様に計算した。
【数4】
従って、cause(t)が正の方向に大きいほど内閣支持率を上昇させる傾向にあり、逆にcause(t)が負の方向に大きいほど内閣支持率を下降させる傾向にある。図11に内閣支持率上昇、下降に寄与する単語の上位を示す。
【0047】
このように、スコア付与部47により重要語にスコアをつけた後、分析部の一例である要因情報抽出部48は、各記事dに対して以下のようにスコアを算出する。
【数5】
要因情報抽出部48は、算出されたスコアをもとに、スコアの大きいものから順に、動向情報の上昇に寄与する要因情報を抽出してもよいし、スコアの小さいものから順に、動向情報の下降に寄与する要因情報を抽出してもよい。また、要因情報抽出部48は、各重要語のスコアの絶対値をもとに、各記事dのスコアを算出して、絶対値の大きいものから順に要因情報を抽出してもよい。要因情報抽出部48は、コサイン距離の近いもの、スコアの大きいもの、スコアの小さいもの、スコアの絶対値の大きいもの、のいずれを抽出するかを、ユーザの指示などにより切替可能としてもよい。
【0048】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【図面の簡単な説明】
【0049】
【図1】実施の形態に係るデータ処理システムの構成を示す図である。
【図2】内閣支持率の変動の根拠となる要因情報の検索結果の一部を示す図である。
【図3】重要語の抽出結果の一部を示す図である。
【図4】内閣支持率のグラフの例を示す図である。
【図5】要因表示箇所に関するアンケート結果を示す図である。
【図6】要因の表示内容の例を示す図である。
【図7】要因表示内容に関するアンケート結果を示す図である。
【図8】動向情報と要因情報を表示したグラフの例を示す図である。
【図9】実施の形態に係るデータ処理システムの構成の別の例を示す図である。
【図10】内閣支持率の予測実験結果を示す図である。
【図11】内閣支持率の変化に寄与する語のスコアを示す図である。
【符号の説明】
【0050】
10 データ処理システム、20 コーパス提供装置、30 インターネット、40 データ処理装置、41 コーパス取得部、42 動向情報抽出部、43 要因情報抽出部、44 重要語抽出部、45 動向情報表示部、46 要因情報表示部、47 スコア付与部、48 要因情報抽出部、49 要因情報表示部、50 表示装置。
【技術分野】
【0001】
本発明は、データ処理技術に関し、特に、動向情報を可視化する技術に関する。
【背景技術】
【0002】
計算機の処理能力の向上や高速ネットワーク環境の普及に伴い、電子化された情報は増加の一途をたどっており、この傾向は今後も継続するものと思われる。
【発明の開示】
【発明が解決しようとする課題】
【0003】
こうした状況下、ユーザの関心や興味に合致する情報に直接的かつ簡便にアクセスするための技術が求められている。
【0004】
本発明はこうした状況に鑑みてなされたものであり、その目的は、動向情報の変化とその要因を分かりやすく表示する技術を提供することにある。
【課題を解決するための手段】
【0005】
本発明のある態様は、データ処理装置に関する。時間変化する動向情報を取得する動向情報取得部と、前記動向情報の変化の要因となった要因情報を取得する要因情報取得部と、前記動向情報の変化を示すグラフを生成する動向情報表示部と、前記グラフに前記要因情報を付加する要因情報表示部と、を備え、前記要因情報表示部は、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とする。
【0006】
前記要因情報表示部は、最初、最後、最大、最小、極大、極小のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよい。前記要因情報表示部は、前記動向情報の変化量が所定の閾値よりも大きい部分の前後のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよい。
【0007】
データ処理装置は、前記動向情報を含む複数のコーパスと前記要因情報を含む複数のコーパスを取得するコーパス取得部を更に備えてもよく、前記動向情報取得部は、前記複数のコーパスの中から前記動向情報を抽出し、前記要因情報取得部は、前記動向情報と同時期の情報を含むコーパスの中から、抽出された前記動向情報を含むコーパスと近似するコーパスを抽出することにより、その動向情報に対応する要因情報を取得してもよい。
【0008】
データ処理装置は、前記動向情報と同時期の情報を含むコーパスの中から重要語を抽出する重要語抽出部を更に備えてもよく、前記要因情報表示部は、抽出された前記重要語を表示してもよい。
【0009】
データ処理装置は、前記要因情報が前記動向情報の上昇に寄与する要因か下降に寄与する要因かを分析する分析部を更に備えてもよく、前記要因情報表示部は、前記動向情報の上昇に寄与する要因情報と下降に寄与する要因情報とを識別可能に表示してもよい。データ処理装置は、前記コーパスに含まれる重要語に対して、前記動向情報の上昇又は下降に対する寄与度を示すスコアを付与するスコア付与部を更に備えてもよく、前記分析部は、前記要因情報に含まれる重要語のスコアに基づいて、前記要因情報が前記動向情報の上昇に寄与するか下降に寄与するかを分析してもよい。
【0010】
前記要因情報表示部は、前記要因情報のうち所定の字数を表示し、ユーザから選択指示を受け付けたときに全文を表示してもよい。
【0011】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0012】
本発明によれば、動向情報の変化とその要因を分かりやすく表示する技術を提供することができる。
【発明を実施するための最良の形態】
【0013】
計算機の処理能力の向上や高速ネットワーク環境の普及に伴い、電子化された情報は増加の一途を辿っており、この傾向は今後も継続するものと思われる。そのため、ユーザの関心や興味に合致する情報に直接的かつ簡便にアクセスするための技術が求められている。このような要求に答える技術のひとつとして、本実施の形態では、動向情報の変化とその変化要因とを視覚的に表示するシステムを提案する。本実施の形態では、動向情報として内閣支持率、要因として新聞記事を用いたシステムを例にとって説明する。
【0014】
本システムは、内閣支持率に関連する新聞記事を入力することにより、内閣支持率の変化とその変化の根拠となる新聞記事を関連付けるグラフを出力する。さらに、グラフ上には、ユーザの興味と見やすさを考慮し、内閣支持率の変化の大きい部分などに根拠となる要因を配置する。ここで、根拠となる新聞記事は、内閣支持率に関連する新聞記事とのコサイン距離が近い記事とする。また、TF・IDFに基づくスコアを利用して重要語を抽出する。ユーザの興味と見やすさについては、アンケート調査を行うことにより、要因を表示する位置や、その表示内容に関して有用な知見を得た。
【0015】
以上のような構成により、内閣支持率の変化とその要因との関係を視覚的に表現し、かつユーザの関心や興味に合致する情報に効率的にアクセス可能なシステムを実現することができる。
【0016】
図1は、実施の形態に係るデータ処理システムの構成を示す。データ処理システム10において、データ処理装置40は、インターネット30を介してコーパス提供装置20からコーパスを取得し、取得したコーパスの中から動向情報を抽出して表示装置50に表示するとともに、動向情報の変動の要因となった要因情報を抽出して動向情報に合わせて表示装置50に表示する。
【0017】
コーパス取得部41は、動向情報を抽出するもとになる情報として、コーパス提供装置20からコーパスを取得する。コーパスは、コンピュータによる検索を可能とするために電子化された自然言語の文章から成るテキストデータであり、インターネット30などを通じて提供されるものを利用可能である。コーパスは、検索の目的に応じてタグなどが付されていてもよい。コーパス取得部41は、動向情報を抽出するのに適したタグが付されたコーパスを取得することが望ましい。
【0018】
動向情報抽出部42は、取得したコーパスから、処理対象となる動向情報を抽出する。例えば、本実施の形態では、内閣支持率を抽出する。動向情報抽出部42は、予め内閣支持率にタグが付されたニュース記事のコーパスから内閣支持率を抽出してもよいし、所定の条件にしたがって内閣支持率を抽出してもよい。例えば、ニュース記事のコーパスから「内閣支持率」という語を含むコーパスを検索し、抽出されたコーパスの「内閣支持率」という語の周辺に存在する数値データを内閣支持率として抽出してもよい。
【0019】
要因情報抽出部43は、抽出された動向情報の変化の要因となったと推測される情報を抽出する。要因情報抽出部43は、抽出された動向情報のコーパスをクエリとして、要因情報を含むコーパスを検索し、検索スコアの高いものを要因情報として抽出してもよい。例えば、内閣支持率の変化の要因となる情報が記載されたニュース記事は、内閣支持率が記載されたニュース記事と、使用される語の分布が近いと考えられるので、内閣支持率が記載されたニュース記事、すなわち動向情報のコーパスをクエリとして、ニュース記事全体のコーパスをベクトル空間法などを用いて検索し、検索スコアの高いもの、すなわち内閣支持率に関するニュース記事とのコサイン距離が近いニュース記事を要因情報として抽出してもよい。
【0020】
重要語抽出部44は、動向情報の分析に有用であると推測される重要語を抽出する。重要語抽出部44は、抽出された動向情報の時期と同時期の情報を記載したコーパスから、固有表現抽出技術などを用いて重要語を抽出してもよい。例えば、重要語抽出部44は、内閣支持率が記載されたニュース記事と同じ年月に掲載された全ての新聞記事を一つのドキュメントとみなし、形態素解析により抽出された名詞句についてTF・IDF値を算出し、算出されたTF・IDF値に基づいて、検索されたニュース記事から重要語を抽出してもよい。
【0021】
動向情報表示部45は、抽出された動向情報の変動を示すグラフを生成する。動向情報表示部45は、例えば、横軸に時間をとり、縦軸に動向情報を数値化したものをとって、グラフを生成してもよい。
【0022】
要因情報表示部46は、動向情報表示部45が生成したグラフに、動向情報の変動の要因となった要因情報を合わせて表示する。要因情報表示部46は、要因情報を、対応する動向情報の近傍に表示する。要因情報表示部46は、抽出された全ての要因情報を表示してもよいが、要因情報の数が多い場合は、所定の条件にしたがって、動向情報の分析に有用な要因情報のみを抽出して表示する。例えば、グラフにおいて、最初、最後、最大、最小、極大、極小のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよいし、動向情報の変化量が所定の閾値よりも大きい部分の前後のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよい。これにより、動向情報の分析に有用な情報を分かりやすく視覚化することができる。
【0023】
要因情報表示部46は、要因情報の字数が多い場合、所定の字数までを表示しておき、ユーザが要因情報をクリックするなどして、全文の表示を要求したときに、全文を表示するようにしてもよい。要因情報表示部46は、要因情報の全文を表示しない場合、表示した文の文末に、「…」など、続きが存在することを示す記号などを表示してもよい。要因情報表示部46は、要因情報のタイトルや、重要語抽出部44により抽出された重要語を合わせて表示してもよい。
【0024】
以下、本発明者らが実際に行った実験について説明する。動向情報とは、いくつかの統計量に関する時系列データを基にして、その変化を通時的に捉えて纏め上げるものであり、それは単に時系列データの羅列ではなく、ある観点の下で統合的に纏め上げることで得られるものであるとされている。本実験では、この定義に従い、1998年1月から1999年12月までの内閣支持率を動向情報とする。また、要因とは、動向情報に変化を与える「もの」とする。内閣支持率においては、様々な要因が考えられるが、それらはいずれも新聞記事に記載されているはずである。そこで本実験では、内閣支持率に変化を与える新聞記事をその要因とすることとする。
【0025】
MuST(http://must.c.u-tokyo.ac.jp)オーガナイザにより配布されたタグ付きコーパスを用いて内閣支持率の抽出を行った。本実験において、内閣支持率の変化の要因となる新聞記事と、内閣支持率が記載された新聞記事とでは、使用される語の分布が近いと仮定した。そこで、MuSTオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとし、毎日新聞2年分のコーパスを検索した。検索結果の新聞記事が掲載された年月ごとに新聞記事を検索スコアの高い順にソートした。なお、検索に用いたシステムは、ベクトル空間法に基づいて本発明者らが以前開発したシステム(Hiroki Tanioka and Kenichi Yamamoto, A Distributed Retrieval System for NTCIR-5 Patent Retrieval Task, The 5th NTCIR Workshop Meeting, 2005、Hiroki Tanioka, Kenichi Yamamoto and Takashi Nakagawa, A Distributed Retrieval System for NTCIR-5 WEB Task, The 5th NTCIR Workshop Meeting, 2005)である。結果の一部を図2に示す。このようにして検索された新聞記事を、その月の内閣支持率に変化を与えた要因とする。
【0026】
次に、検索された新聞記事から重要語を抽出することにした。重要語の抽出は以下の手順により行われる。まず、同じ年月に掲載されたすべての新聞記事を1つのドキュメントと見なし、TF・IDF値を算出する。つづいて、算出されたTF・IDF値に基づいて、検索された新聞記事から重要語を算出する。このとき、同じ年月で同じ語が重要語とならないようにする。このようにして算出された重要語を、グラフ上にタイトルを表示することが困難な場合などに使用する。算出したTF・IDF値の一部を図3に示す。
【0027】
抽出した動向情報や要因をどのように提示すれば良いのかを調査するためにアンケート調査を行った。まず始めに、要因の表示箇所と表示数に関する調査結果を述べ、次に、要因の表示内容に関する調査結果を述べる。初期状態で表示される要因の表示箇所に関して、次のようなアンケートを行い調査した。なお、アンケートは61人(男性:43人、女性:18人)に対して行った。アンケート回答者の職種は、開発職、営業職、スタッフ職である。
【0028】
[質問1]図4は、内閣支持率の変動をグラフで表現したものです。このグラフ中の(A)から(L)でマークされた場所のうち、どの位置の詳細な情報が見たいですか?
(1)見たい順に好きなだけ見たい位置の番号を記入してください。
(2)その理由をなるべく具体的に記入してください。
【0029】
アンケート結果を図5に示す。図5及びアンケート自由記述結果から以下のような傾向が分かった。
・要因を知りたい箇所は、12箇所中平均3.3箇所である。
・要因を知りたい箇所は、以下の3種類に分類できる。
1.値の変化が大きい部分とその前後(G,F,H)
2.値が最大の位置と最小の位置(C,G)
3.グラフの最初と最後(A,L)
【0030】
次に、要因の初期表示内容に関して、同様にアンケート調査を行った。アンケート回答者は、質問1と同じ61人である。
【0031】
[質問2]図6における(イ)から(ヘ)は、マウスクリックによってある月の内閣支持率に関係がある情報を表示しています。(イ)から(ヘ)のうち、どの情報が見やすいですか?(なお、どの表示形式からも、さらにマウスクリックで詳細表示が可能です。)
(1)見やすいと思う順に1個以上記入してください。
(2)その理由をなるべく具体的に記入してください。
【0032】
アンケート結果を図7に示す。図7及びアンケート自由記述結果から以下のような傾向が分かった。
・1つのポップアップウィンドウ内には、3行くらいがよい(ロとホの比較より)。
・内容を簡潔に表すタイトルやキーワードがある方が分かりやすい(ハとニ、ヘとホの比較より)。
・分析に馴れている人は、イのようなキーワードの羅列でも良いとの評価も多い。
・「...」で終わると、クリックできることがよく分かる。
【0033】
このような実験結果に鑑み、動向情報表示部45及び要因情報表示部46により生成されたグラフの例を図8に示す。図8は、初期状態で表示されている内閣支持率とその要因から、ユーザが気になる箇所をクリックし、さらに詳細な情報を選択しているところを示している。このグラフに、更に関連する情報やグラフなどを表示してもよい。例えば、内閣支持率のグラフに円相場のグラフなどを重ねて表示してもよい。
【0034】
図9は、データ処理装置の別の構成例を示す。図9に示したデータ処理装置40は、図1に示したデータ処理装置40の構成に加えて、スコア付与部47を備える。また、要因情報抽出部48及び要因情報表示部49は、図1に示したデータ処理装置40の要因情報抽出部43及び要因情報表示部46とは異なる機能を有するので、異なる符号を付している。以下、図1のデータ処理装置40と異なる点を中心に説明する。
【0035】
データ処理装置40は、動向情報の上昇に寄与した要因情報と、動向情報の下降に寄与した要因情報を識別可能に表示する。動向情報の変動は、直前の時期の要因情報に依存すると考えられる。したがって、抽出された動向情報の変動をもとに、まず、コーパスに含まれる重要語が、動向情報の上昇に寄与しやすい語なのか、下降に寄与しやすい語なのかを学習し、学習結果を利用してコーパスをスコアリングすることにより、上昇に寄与したと推測される要因情報と、下降に寄与したと推測される要因情報を抽出する。
【0036】
スコア付与部47は、重要語抽出部44が抽出した重要語に対して、動向情報の上昇又は下降に対する寄与を示すスコアを付与する。スコアを算出する式の例は後述するが、上昇に寄与する場合はプラスの値を、下降に寄与する場合はマイナスの値を付与するようにする。例えば、3月の内閣支持率が2月に比べて上昇していた場合、2月から3月の間の日付を持つ新聞記事に出現する単語に対してプラスのスコアを付ける。また、2月の内閣支持率が1月に比べて下降していた場合、1月から2月の間の日付を持つ新聞記事に出現する単語に対してマイナスのスコアを付ける。これにより、それぞれの単語が内閣支持率の上昇に寄与しやすいか、下降に寄与しやすいかを数値化することができる。
【0037】
要因情報抽出部48は、重要語に付与されたスコアをもとにコーパス全体のスコアを算出し、スコアの絶対値の高いコーパスを要因情報として抽出する。そして、動向情報が上昇する直前の要因情報として、プラスの絶対値の最も高いコーパスを抽出し、動向情報が下降する直前の要因情報として、マイナスの絶対値の最も高いコーパスを抽出する。例えば、3月に内閣支持率が上昇したことの根拠となる記事として、2月から3月の間の日付を持つ新聞記事のうち、最もスコアの高い記事を抽出する。
【0038】
要因情報表示部49は、動向情報のグラフに、抽出された要因情報を表示する。このとき、要因情報表示部49は、動向情報の上昇に寄与した要因情報と、動向情報の下降に寄与した要因情報とを、表示色や背景色などを変えるなどして識別可能に表示する。また、スコアの大小を色の濃淡で表現してもよい。要因情報表示部49は、上昇に寄与する要因情報のみを表示するモード、下降に寄与する要因情報のみを表示するモード、スコアの絶対値の大きい要因情報のみを表示するモードなどを設けてもよいし、これらを切替可能としてもよい。
【0039】
この方法を用いて、前述した実験と同様に、内閣支持率の変動と、その変動の根拠となる要因情報を抽出する実験を行った。ここでは、スコアを付与する際に、確信度を算出する技術として、「Support Vector Machine」と「Naive Bayes」を用いた内閣支持率の予測実験に関して述べる。
【0040】
内閣支持率の変動は、前の月の新聞記事の内容に依存すると仮定し、内閣支持率の予測問題を以下の様に定式化した。
【数1】
ただし、iは年月を表す添え字とし、xi−1はi−1が表す年月に発行された新聞記事から抽出されたn次元の特徴ベクトルとする。また、φは入力されたn次元の特徴ベクトルを1または0に写像する関数とする。更に、
【数2】
とする。
【0041】
ここで、本実験においては、特徴ベクトルxi−1は、i−1が表す年月に発行された新聞記事から抽出された名詞句を各次元として、TF又はTF・IDFの値をその次元の値とした。更に、i−1が表す年月に発行された新聞記事から、MuSTオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとして検索し、検索結果の上位のみを利用した場合も比較実験した。なお、検索に用いたシステムは、ベクトル空間法に基づいて本発明者らが以前開発したシステムである。
【0042】
次に、関数φに、Support Vector Machineを用いた場合と、Naive Bayesを用いた場合についてそれぞれ説明する。SVM(Support Vector Machine)は、マージン最大化の戦略に基づく分類器であり、その高い汎化能力から広く自然言語処理の分野で用いられている。本発明者らは、LIBSVMをSVMsのライブラリとして使用し実験を行った。実験パラメータとして、カーネル関数にRBFカーネルとLinearカーネルを利用し、C値は10とした。
【0043】
NB(Naive Bayes)は、ベイズの定理に基づく分類器であり、ここでは、p(yi|xi−1)を最大にするyiを探せばよい。
【数3】
ただし、wjはxi−1のj次元成分のベクトルとする。
【0044】
図10に、1998年1月から1999年12月までの24ヶ月分の毎日新聞コーパスを用いて、leave one outで評価した結果を示す。図10において、ALLは、その期間のすべての新聞記事を対象とした場合の正解率であり、Search-ALLは、MuSTオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとして検索し、全検索結果を対象とした場合の正解率である。また、Search-[数値]は、検索結果の上位[数値]件を対象とした場合の結果を示している。
【0045】
図10より、学習データは検索により絞り込んだ方が良い結果を得られることが分かった。また、今回の実験においては、各次元の値はTF・IDFよりもTFが安定している傾向にあると言える。
【0046】
ここでは、MuSTオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとして検索し、検索結果上位100件を用いて、Naive BayesでTFを用いて学習した場合の単語tが内閣支持率に与える影響cause(t)を以下の様に計算した。
【数4】
従って、cause(t)が正の方向に大きいほど内閣支持率を上昇させる傾向にあり、逆にcause(t)が負の方向に大きいほど内閣支持率を下降させる傾向にある。図11に内閣支持率上昇、下降に寄与する単語の上位を示す。
【0047】
このように、スコア付与部47により重要語にスコアをつけた後、分析部の一例である要因情報抽出部48は、各記事dに対して以下のようにスコアを算出する。
【数5】
要因情報抽出部48は、算出されたスコアをもとに、スコアの大きいものから順に、動向情報の上昇に寄与する要因情報を抽出してもよいし、スコアの小さいものから順に、動向情報の下降に寄与する要因情報を抽出してもよい。また、要因情報抽出部48は、各重要語のスコアの絶対値をもとに、各記事dのスコアを算出して、絶対値の大きいものから順に要因情報を抽出してもよい。要因情報抽出部48は、コサイン距離の近いもの、スコアの大きいもの、スコアの小さいもの、スコアの絶対値の大きいもの、のいずれを抽出するかを、ユーザの指示などにより切替可能としてもよい。
【0048】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【図面の簡単な説明】
【0049】
【図1】実施の形態に係るデータ処理システムの構成を示す図である。
【図2】内閣支持率の変動の根拠となる要因情報の検索結果の一部を示す図である。
【図3】重要語の抽出結果の一部を示す図である。
【図4】内閣支持率のグラフの例を示す図である。
【図5】要因表示箇所に関するアンケート結果を示す図である。
【図6】要因の表示内容の例を示す図である。
【図7】要因表示内容に関するアンケート結果を示す図である。
【図8】動向情報と要因情報を表示したグラフの例を示す図である。
【図9】実施の形態に係るデータ処理システムの構成の別の例を示す図である。
【図10】内閣支持率の予測実験結果を示す図である。
【図11】内閣支持率の変化に寄与する語のスコアを示す図である。
【符号の説明】
【0050】
10 データ処理システム、20 コーパス提供装置、30 インターネット、40 データ処理装置、41 コーパス取得部、42 動向情報抽出部、43 要因情報抽出部、44 重要語抽出部、45 動向情報表示部、46 要因情報表示部、47 スコア付与部、48 要因情報抽出部、49 要因情報表示部、50 表示装置。
【特許請求の範囲】
【請求項1】
時間変化する動向情報を取得する動向情報取得部と、
前記動向情報の変化の要因となった要因情報を取得する要因情報取得部と、
前記動向情報の変化を示すグラフを生成する動向情報表示部と、
前記グラフに前記要因情報を付加する要因情報表示部と、を備え、
前記要因情報表示部は、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とするデータ処理装置。
【請求項2】
前記要因情報表示部は、最初、最後、最大、最小、極大、極小のうちいずれかの動向情報に対応する要因情報を抽出して表示することを特徴とする請求項1に記載のデータ処理装置。
【請求項3】
前記要因情報表示部は、前記動向情報の変化量が所定の閾値よりも大きい部分の前後のうちいずれかの動向情報に対応する要因情報を抽出して表示することを特徴とする請求項1に記載のデータ処理装置。
【請求項4】
前記動向情報を含む複数のコーパスと前記要因情報を含む複数のコーパスを取得するコーパス取得部を更に備え、
前記動向情報取得部は、前記複数のコーパスの中から前記動向情報を抽出し、
前記要因情報取得部は、前記動向情報と同時期の情報を含むコーパスの中から、抽出された前記動向情報を含むコーパスと近似するコーパスを抽出することにより、その動向情報に対応する要因情報を取得することを特徴とする請求項1から3のいずれかに記載のデータ処理装置。
【請求項5】
前記動向情報と同時期の情報を含むコーパスの中から重要語を抽出する重要語抽出部を更に備え、
前記要因情報表示部は、抽出された前記重要語を表示することを特徴とする請求項4に記載のデータ処理装置。
【請求項6】
前記要因情報が前記動向情報の上昇に寄与する要因か下降に寄与する要因かを分析する分析部を更に備え、
前記要因情報表示部は、前記動向情報の上昇に寄与する要因情報と下降に寄与する要因情報とを識別可能に表示することを特徴とする請求項1から5のいずれかに記載のデータ処理装置。
【請求項7】
前記コーパスに含まれる重要語に対して、前記動向情報の上昇又は下降に対する寄与度を示すスコアを付与するスコア付与部を更に備え、
前記分析部は、前記要因情報に含まれる重要語のスコアに基づいて、前記要因情報が前記動向情報の上昇に寄与するか下降に寄与するかを分析することを特徴とする請求項6に記載のデータ処理装置。
【請求項8】
前記要因情報表示部は、前記要因情報のうち所定の字数を表示し、ユーザから選択指示を受け付けたときに全文を表示することを特徴とする請求項1から7のいずれかに記載のデータ処理装置。
【請求項9】
時間変化する動向情報を取得するステップと、
前記動向情報の変化の要因となった要因情報を取得するステップと、
前記動向情報の変化を示すグラフを生成するステップと、
前記グラフに前記要因情報を付加するステップと、を備え、
前記要因情報を付加するステップは、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とするデータ処理方法。
【請求項10】
時間変化する動向情報を取得する機能と、
前記動向情報の変化の要因となった要因情報を取得する機能と、
前記動向情報の変化を示すグラフを生成する機能と、
前記グラフに前記要因情報を付加する機能と、をコンピュータに実現させ、
前記要因情報を付加する機能は、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とするプログラム。
【請求項1】
時間変化する動向情報を取得する動向情報取得部と、
前記動向情報の変化の要因となった要因情報を取得する要因情報取得部と、
前記動向情報の変化を示すグラフを生成する動向情報表示部と、
前記グラフに前記要因情報を付加する要因情報表示部と、を備え、
前記要因情報表示部は、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とするデータ処理装置。
【請求項2】
前記要因情報表示部は、最初、最後、最大、最小、極大、極小のうちいずれかの動向情報に対応する要因情報を抽出して表示することを特徴とする請求項1に記載のデータ処理装置。
【請求項3】
前記要因情報表示部は、前記動向情報の変化量が所定の閾値よりも大きい部分の前後のうちいずれかの動向情報に対応する要因情報を抽出して表示することを特徴とする請求項1に記載のデータ処理装置。
【請求項4】
前記動向情報を含む複数のコーパスと前記要因情報を含む複数のコーパスを取得するコーパス取得部を更に備え、
前記動向情報取得部は、前記複数のコーパスの中から前記動向情報を抽出し、
前記要因情報取得部は、前記動向情報と同時期の情報を含むコーパスの中から、抽出された前記動向情報を含むコーパスと近似するコーパスを抽出することにより、その動向情報に対応する要因情報を取得することを特徴とする請求項1から3のいずれかに記載のデータ処理装置。
【請求項5】
前記動向情報と同時期の情報を含むコーパスの中から重要語を抽出する重要語抽出部を更に備え、
前記要因情報表示部は、抽出された前記重要語を表示することを特徴とする請求項4に記載のデータ処理装置。
【請求項6】
前記要因情報が前記動向情報の上昇に寄与する要因か下降に寄与する要因かを分析する分析部を更に備え、
前記要因情報表示部は、前記動向情報の上昇に寄与する要因情報と下降に寄与する要因情報とを識別可能に表示することを特徴とする請求項1から5のいずれかに記載のデータ処理装置。
【請求項7】
前記コーパスに含まれる重要語に対して、前記動向情報の上昇又は下降に対する寄与度を示すスコアを付与するスコア付与部を更に備え、
前記分析部は、前記要因情報に含まれる重要語のスコアに基づいて、前記要因情報が前記動向情報の上昇に寄与するか下降に寄与するかを分析することを特徴とする請求項6に記載のデータ処理装置。
【請求項8】
前記要因情報表示部は、前記要因情報のうち所定の字数を表示し、ユーザから選択指示を受け付けたときに全文を表示することを特徴とする請求項1から7のいずれかに記載のデータ処理装置。
【請求項9】
時間変化する動向情報を取得するステップと、
前記動向情報の変化の要因となった要因情報を取得するステップと、
前記動向情報の変化を示すグラフを生成するステップと、
前記グラフに前記要因情報を付加するステップと、を備え、
前記要因情報を付加するステップは、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とするデータ処理方法。
【請求項10】
時間変化する動向情報を取得する機能と、
前記動向情報の変化の要因となった要因情報を取得する機能と、
前記動向情報の変化を示すグラフを生成する機能と、
前記グラフに前記要因情報を付加する機能と、をコンピュータに実現させ、
前記要因情報を付加する機能は、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とするプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2007−241905(P2007−241905A)
【公開日】平成19年9月20日(2007.9.20)
【国際特許分類】
【出願番号】特願2006−66810(P2006−66810)
【出願日】平成18年3月10日(2006.3.10)
【出願人】(390024350)株式会社ジャストシステム (123)
【Fターム(参考)】
【公開日】平成19年9月20日(2007.9.20)
【国際特許分類】
【出願日】平成18年3月10日(2006.3.10)
【出願人】(390024350)株式会社ジャストシステム (123)
【Fターム(参考)】
[ Back to top ]