データ処理装置及び方法

【課題】動向情報の変化とその要因を分かりやすく表示する。
【解決手段】コーパス取得部４１は、動向情報を抽出するもとになる情報として、コーパス提供装置２０からコーパスを取得する。動向情報抽出部４２は、取得したコーパスから、処理対象となる動向情報を抽出する。要因情報抽出部４３は、抽出された動向情報の変化の要因となったと推測される情報を抽出する。重要語抽出部４４は、動向情報の分析に有用であると推測される重要語を抽出する。動向情報表示部４５は、抽出された動向情報の変動を示すグラフを生成する。要因情報表示部４６は、動向情報表示部４５が生成したグラフに、動向情報の変動の要因となった要因情報を合わせて表示する。要因情報表示部４６は、所定の条件にしたがって、動向情報の分析に有用な要因情報を抽出して表示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、データ処理技術に関し、特に、動向情報を可視化する技術に関する。
【背景技術】
【０００２】
計算機の処理能力の向上や高速ネットワーク環境の普及に伴い、電子化された情報は増加の一途をたどっており、この傾向は今後も継続するものと思われる。
【発明の開示】
【発明が解決しようとする課題】
【０００３】
こうした状況下、ユーザの関心や興味に合致する情報に直接的かつ簡便にアクセスするための技術が求められている。
【０００４】
本発明はこうした状況に鑑みてなされたものであり、その目的は、動向情報の変化とその要因を分かりやすく表示する技術を提供することにある。
【課題を解決するための手段】
【０００５】
本発明のある態様は、データ処理装置に関する。時間変化する動向情報を取得する動向情報取得部と、前記動向情報の変化の要因となった要因情報を取得する要因情報取得部と、前記動向情報の変化を示すグラフを生成する動向情報表示部と、前記グラフに前記要因情報を付加する要因情報表示部と、を備え、前記要因情報表示部は、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とする。
【０００６】
前記要因情報表示部は、最初、最後、最大、最小、極大、極小のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよい。前記要因情報表示部は、前記動向情報の変化量が所定の閾値よりも大きい部分の前後のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよい。
【０００７】
データ処理装置は、前記動向情報を含む複数のコーパスと前記要因情報を含む複数のコーパスを取得するコーパス取得部を更に備えてもよく、前記動向情報取得部は、前記複数のコーパスの中から前記動向情報を抽出し、前記要因情報取得部は、前記動向情報と同時期の情報を含むコーパスの中から、抽出された前記動向情報を含むコーパスと近似するコーパスを抽出することにより、その動向情報に対応する要因情報を取得してもよい。
【０００８】
データ処理装置は、前記動向情報と同時期の情報を含むコーパスの中から重要語を抽出する重要語抽出部を更に備えてもよく、前記要因情報表示部は、抽出された前記重要語を表示してもよい。
【０００９】
データ処理装置は、前記要因情報が前記動向情報の上昇に寄与する要因か下降に寄与する要因かを分析する分析部を更に備えてもよく、前記要因情報表示部は、前記動向情報の上昇に寄与する要因情報と下降に寄与する要因情報とを識別可能に表示してもよい。データ処理装置は、前記コーパスに含まれる重要語に対して、前記動向情報の上昇又は下降に対する寄与度を示すスコアを付与するスコア付与部を更に備えてもよく、前記分析部は、前記要因情報に含まれる重要語のスコアに基づいて、前記要因情報が前記動向情報の上昇に寄与するか下降に寄与するかを分析してもよい。
【００１０】
前記要因情報表示部は、前記要因情報のうち所定の字数を表示し、ユーザから選択指示を受け付けたときに全文を表示してもよい。
【００１１】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【００１２】
本発明によれば、動向情報の変化とその要因を分かりやすく表示する技術を提供することができる。
【発明を実施するための最良の形態】
【００１３】
計算機の処理能力の向上や高速ネットワーク環境の普及に伴い、電子化された情報は増加の一途を辿っており、この傾向は今後も継続するものと思われる。そのため、ユーザの関心や興味に合致する情報に直接的かつ簡便にアクセスするための技術が求められている。このような要求に答える技術のひとつとして、本実施の形態では、動向情報の変化とその変化要因とを視覚的に表示するシステムを提案する。本実施の形態では、動向情報として内閣支持率、要因として新聞記事を用いたシステムを例にとって説明する。
【００１４】
本システムは、内閣支持率に関連する新聞記事を入力することにより、内閣支持率の変化とその変化の根拠となる新聞記事を関連付けるグラフを出力する。さらに、グラフ上には、ユーザの興味と見やすさを考慮し、内閣支持率の変化の大きい部分などに根拠となる要因を配置する。ここで、根拠となる新聞記事は、内閣支持率に関連する新聞記事とのコサイン距離が近い記事とする。また、ＴＦ・ＩＤＦに基づくスコアを利用して重要語を抽出する。ユーザの興味と見やすさについては、アンケート調査を行うことにより、要因を表示する位置や、その表示内容に関して有用な知見を得た。
【００１５】
以上のような構成により、内閣支持率の変化とその要因との関係を視覚的に表現し、かつユーザの関心や興味に合致する情報に効率的にアクセス可能なシステムを実現することができる。
【００１６】
図１は、実施の形態に係るデータ処理システムの構成を示す。データ処理システム１０において、データ処理装置４０は、インターネット３０を介してコーパス提供装置２０からコーパスを取得し、取得したコーパスの中から動向情報を抽出して表示装置５０に表示するとともに、動向情報の変動の要因となった要因情報を抽出して動向情報に合わせて表示装置５０に表示する。
【００１７】
コーパス取得部４１は、動向情報を抽出するもとになる情報として、コーパス提供装置２０からコーパスを取得する。コーパスは、コンピュータによる検索を可能とするために電子化された自然言語の文章から成るテキストデータであり、インターネット３０などを通じて提供されるものを利用可能である。コーパスは、検索の目的に応じてタグなどが付されていてもよい。コーパス取得部４１は、動向情報を抽出するのに適したタグが付されたコーパスを取得することが望ましい。
【００１８】
動向情報抽出部４２は、取得したコーパスから、処理対象となる動向情報を抽出する。例えば、本実施の形態では、内閣支持率を抽出する。動向情報抽出部４２は、予め内閣支持率にタグが付されたニュース記事のコーパスから内閣支持率を抽出してもよいし、所定の条件にしたがって内閣支持率を抽出してもよい。例えば、ニュース記事のコーパスから「内閣支持率」という語を含むコーパスを検索し、抽出されたコーパスの「内閣支持率」という語の周辺に存在する数値データを内閣支持率として抽出してもよい。
【００１９】
要因情報抽出部４３は、抽出された動向情報の変化の要因となったと推測される情報を抽出する。要因情報抽出部４３は、抽出された動向情報のコーパスをクエリとして、要因情報を含むコーパスを検索し、検索スコアの高いものを要因情報として抽出してもよい。例えば、内閣支持率の変化の要因となる情報が記載されたニュース記事は、内閣支持率が記載されたニュース記事と、使用される語の分布が近いと考えられるので、内閣支持率が記載されたニュース記事、すなわち動向情報のコーパスをクエリとして、ニュース記事全体のコーパスをベクトル空間法などを用いて検索し、検索スコアの高いもの、すなわち内閣支持率に関するニュース記事とのコサイン距離が近いニュース記事を要因情報として抽出してもよい。
【００２０】
重要語抽出部４４は、動向情報の分析に有用であると推測される重要語を抽出する。重要語抽出部４４は、抽出された動向情報の時期と同時期の情報を記載したコーパスから、固有表現抽出技術などを用いて重要語を抽出してもよい。例えば、重要語抽出部４４は、内閣支持率が記載されたニュース記事と同じ年月に掲載された全ての新聞記事を一つのドキュメントとみなし、形態素解析により抽出された名詞句についてＴＦ・ＩＤＦ値を算出し、算出されたＴＦ・ＩＤＦ値に基づいて、検索されたニュース記事から重要語を抽出してもよい。
【００２１】
動向情報表示部４５は、抽出された動向情報の変動を示すグラフを生成する。動向情報表示部４５は、例えば、横軸に時間をとり、縦軸に動向情報を数値化したものをとって、グラフを生成してもよい。
【００２２】
要因情報表示部４６は、動向情報表示部４５が生成したグラフに、動向情報の変動の要因となった要因情報を合わせて表示する。要因情報表示部４６は、要因情報を、対応する動向情報の近傍に表示する。要因情報表示部４６は、抽出された全ての要因情報を表示してもよいが、要因情報の数が多い場合は、所定の条件にしたがって、動向情報の分析に有用な要因情報のみを抽出して表示する。例えば、グラフにおいて、最初、最後、最大、最小、極大、極小のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよいし、動向情報の変化量が所定の閾値よりも大きい部分の前後のうちいずれかの動向情報に対応する要因情報を抽出して表示してもよい。これにより、動向情報の分析に有用な情報を分かりやすく視覚化することができる。
【００２３】
要因情報表示部４６は、要因情報の字数が多い場合、所定の字数までを表示しておき、ユーザが要因情報をクリックするなどして、全文の表示を要求したときに、全文を表示するようにしてもよい。要因情報表示部４６は、要因情報の全文を表示しない場合、表示した文の文末に、「…」など、続きが存在することを示す記号などを表示してもよい。要因情報表示部４６は、要因情報のタイトルや、重要語抽出部４４により抽出された重要語を合わせて表示してもよい。
【００２４】
以下、本発明者らが実際に行った実験について説明する。動向情報とは、いくつかの統計量に関する時系列データを基にして、その変化を通時的に捉えて纏め上げるものであり、それは単に時系列データの羅列ではなく、ある観点の下で統合的に纏め上げることで得られるものであるとされている。本実験では、この定義に従い、１９９８年１月から１９９９年１２月までの内閣支持率を動向情報とする。また、要因とは、動向情報に変化を与える「もの」とする。内閣支持率においては、様々な要因が考えられるが、それらはいずれも新聞記事に記載されているはずである。そこで本実験では、内閣支持率に変化を与える新聞記事をその要因とすることとする。
【００２５】
ＭｕＳＴ（http://must.c.u-tokyo.ac.jp）オーガナイザにより配布されたタグ付きコーパスを用いて内閣支持率の抽出を行った。本実験において、内閣支持率の変化の要因となる新聞記事と、内閣支持率が記載された新聞記事とでは、使用される語の分布が近いと仮定した。そこで、ＭｕＳＴオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとし、毎日新聞２年分のコーパスを検索した。検索結果の新聞記事が掲載された年月ごとに新聞記事を検索スコアの高い順にソートした。なお、検索に用いたシステムは、ベクトル空間法に基づいて本発明者らが以前開発したシステム（Hiroki Tanioka and Kenichi Yamamoto, A Distributed Retrieval System for NTCIR-5 Patent Retrieval Task, The 5th NTCIR Workshop Meeting, 2005、Hiroki Tanioka, Kenichi Yamamoto and Takashi Nakagawa, A Distributed Retrieval System for NTCIR-5 WEB Task, The 5th NTCIR Workshop Meeting, 2005）である。結果の一部を図２に示す。このようにして検索された新聞記事を、その月の内閣支持率に変化を与えた要因とする。
【００２６】
次に、検索された新聞記事から重要語を抽出することにした。重要語の抽出は以下の手順により行われる。まず、同じ年月に掲載されたすべての新聞記事を1つのドキュメントと見なし、ＴＦ・ＩＤＦ値を算出する。つづいて、算出されたＴＦ・ＩＤＦ値に基づいて、検索された新聞記事から重要語を算出する。このとき、同じ年月で同じ語が重要語とならないようにする。このようにして算出された重要語を、グラフ上にタイトルを表示することが困難な場合などに使用する。算出したＴＦ・ＩＤＦ値の一部を図３に示す。
【００２７】
抽出した動向情報や要因をどのように提示すれば良いのかを調査するためにアンケート調査を行った。まず始めに、要因の表示箇所と表示数に関する調査結果を述べ、次に、要因の表示内容に関する調査結果を述べる。初期状態で表示される要因の表示箇所に関して、次のようなアンケートを行い調査した。なお、アンケートは６１人（男性：４３人、女性：１８人）に対して行った。アンケート回答者の職種は、開発職、営業職、スタッフ職である。
【００２８】
［質問１］図４は、内閣支持率の変動をグラフで表現したものです。このグラフ中の（Ａ）から（Ｌ）でマークされた場所のうち、どの位置の詳細な情報が見たいですか？
（１）見たい順に好きなだけ見たい位置の番号を記入してください。
（２）その理由をなるべく具体的に記入してください。
【００２９】
アンケート結果を図５に示す。図５及びアンケート自由記述結果から以下のような傾向が分かった。
・要因を知りたい箇所は、１２箇所中平均３．３箇所である。
・要因を知りたい箇所は、以下の３種類に分類できる。
１．値の変化が大きい部分とその前後（Ｇ，Ｆ，Ｈ）
２．値が最大の位置と最小の位置（Ｃ，Ｇ）
３．グラフの最初と最後（Ａ，Ｌ）
【００３０】
次に、要因の初期表示内容に関して、同様にアンケート調査を行った。アンケート回答者は、質問１と同じ６１人である。
【００３１】
［質問２］図６における（イ）から（ヘ）は、マウスクリックによってある月の内閣支持率に関係がある情報を表示しています。（イ）から（ヘ）のうち、どの情報が見やすいですか？（なお、どの表示形式からも、さらにマウスクリックで詳細表示が可能です。）
（１）見やすいと思う順に１個以上記入してください。
（２）その理由をなるべく具体的に記入してください。
【００３２】
アンケート結果を図７に示す。図７及びアンケート自由記述結果から以下のような傾向が分かった。
・１つのポップアップウィンドウ内には、３行くらいがよい（ロとホの比較より）。
・内容を簡潔に表すタイトルやキーワードがある方が分かりやすい（ハとニ、ヘとホの比較より）。
・分析に馴れている人は、イのようなキーワードの羅列でも良いとの評価も多い。
・「...」で終わると、クリックできることがよく分かる。
【００３３】
このような実験結果に鑑み、動向情報表示部４５及び要因情報表示部４６により生成されたグラフの例を図８に示す。図８は、初期状態で表示されている内閣支持率とその要因から、ユーザが気になる箇所をクリックし、さらに詳細な情報を選択しているところを示している。このグラフに、更に関連する情報やグラフなどを表示してもよい。例えば、内閣支持率のグラフに円相場のグラフなどを重ねて表示してもよい。
【００３４】
図９は、データ処理装置の別の構成例を示す。図９に示したデータ処理装置４０は、図１に示したデータ処理装置４０の構成に加えて、スコア付与部４７を備える。また、要因情報抽出部４８及び要因情報表示部４９は、図１に示したデータ処理装置４０の要因情報抽出部４３及び要因情報表示部４６とは異なる機能を有するので、異なる符号を付している。以下、図１のデータ処理装置４０と異なる点を中心に説明する。
【００３５】
データ処理装置４０は、動向情報の上昇に寄与した要因情報と、動向情報の下降に寄与した要因情報を識別可能に表示する。動向情報の変動は、直前の時期の要因情報に依存すると考えられる。したがって、抽出された動向情報の変動をもとに、まず、コーパスに含まれる重要語が、動向情報の上昇に寄与しやすい語なのか、下降に寄与しやすい語なのかを学習し、学習結果を利用してコーパスをスコアリングすることにより、上昇に寄与したと推測される要因情報と、下降に寄与したと推測される要因情報を抽出する。
【００３６】
スコア付与部４７は、重要語抽出部４４が抽出した重要語に対して、動向情報の上昇又は下降に対する寄与を示すスコアを付与する。スコアを算出する式の例は後述するが、上昇に寄与する場合はプラスの値を、下降に寄与する場合はマイナスの値を付与するようにする。例えば、３月の内閣支持率が２月に比べて上昇していた場合、２月から３月の間の日付を持つ新聞記事に出現する単語に対してプラスのスコアを付ける。また、２月の内閣支持率が１月に比べて下降していた場合、１月から２月の間の日付を持つ新聞記事に出現する単語に対してマイナスのスコアを付ける。これにより、それぞれの単語が内閣支持率の上昇に寄与しやすいか、下降に寄与しやすいかを数値化することができる。
【００３７】
要因情報抽出部４８は、重要語に付与されたスコアをもとにコーパス全体のスコアを算出し、スコアの絶対値の高いコーパスを要因情報として抽出する。そして、動向情報が上昇する直前の要因情報として、プラスの絶対値の最も高いコーパスを抽出し、動向情報が下降する直前の要因情報として、マイナスの絶対値の最も高いコーパスを抽出する。例えば、３月に内閣支持率が上昇したことの根拠となる記事として、２月から３月の間の日付を持つ新聞記事のうち、最もスコアの高い記事を抽出する。
【００３８】
要因情報表示部４９は、動向情報のグラフに、抽出された要因情報を表示する。このとき、要因情報表示部４９は、動向情報の上昇に寄与した要因情報と、動向情報の下降に寄与した要因情報とを、表示色や背景色などを変えるなどして識別可能に表示する。また、スコアの大小を色の濃淡で表現してもよい。要因情報表示部４９は、上昇に寄与する要因情報のみを表示するモード、下降に寄与する要因情報のみを表示するモード、スコアの絶対値の大きい要因情報のみを表示するモードなどを設けてもよいし、これらを切替可能としてもよい。
【００３９】
この方法を用いて、前述した実験と同様に、内閣支持率の変動と、その変動の根拠となる要因情報を抽出する実験を行った。ここでは、スコアを付与する際に、確信度を算出する技術として、「Support Vector Machine」と「Naive Bayes」を用いた内閣支持率の予測実験に関して述べる。
【００４０】
内閣支持率の変動は、前の月の新聞記事の内容に依存すると仮定し、内閣支持率の予測問題を以下の様に定式化した。
【数１】

ただし、ｉは年月を表す添え字とし、ｘ_ｉ−１はｉ−１が表す年月に発行された新聞記事から抽出されたｎ次元の特徴ベクトルとする。また、φは入力されたｎ次元の特徴ベクトルを１または０に写像する関数とする。更に、
【数２】

とする。
【００４１】
ここで、本実験においては、特徴ベクトルｘ_ｉ−１は、ｉ−１が表す年月に発行された新聞記事から抽出された名詞句を各次元として、ＴＦ又はＴＦ・ＩＤＦの値をその次元の値とした。更に、ｉ−１が表す年月に発行された新聞記事から、ＭｕＳＴオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとして検索し、検索結果の上位のみを利用した場合も比較実験した。なお、検索に用いたシステムは、ベクトル空間法に基づいて本発明者らが以前開発したシステムである。
【００４２】
次に、関数φに、Support Vector Machineを用いた場合と、Naive Bayesを用いた場合についてそれぞれ説明する。ＳＶＭ（Support Vector Machine）は、マージン最大化の戦略に基づく分類器であり、その高い汎化能力から広く自然言語処理の分野で用いられている。本発明者らは、LIBSVMをSVMsのライブラリとして使用し実験を行った。実験パラメータとして、カーネル関数にRBFカーネルとLinearカーネルを利用し、Ｃ値は１０とした。
【００４３】
ＮＢ（Naive Bayes）は、ベイズの定理に基づく分類器であり、ここでは、ｐ（ｙ_ｉ｜ｘ_ｉ−１）を最大にするｙ_ｉを探せばよい。
【数３】

ただし、ｗ_ｊはｘ_ｉ−１のｊ次元成分のベクトルとする。
【００４４】
図１０に、１９９８年１月から１９９９年１２月までの２４ヶ月分の毎日新聞コーパスを用いて、leave one outで評価した結果を示す。図１０において、ALLは、その期間のすべての新聞記事を対象とした場合の正解率であり、Search-ALLは、ＭｕＳＴオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとして検索し、全検索結果を対象とした場合の正解率である。また、Search-[数値]は、検索結果の上位[数値]件を対象とした場合の結果を示している。
【００４５】
図１０より、学習データは検索により絞り込んだ方が良い結果を得られることが分かった。また、今回の実験においては、各次元の値はＴＦ・ＩＤＦよりもＴＦが安定している傾向にあると言える。
【００４６】
ここでは、ＭｕＳＴオーガナイザから配布された内閣支持率に関するタグ付きコーパスをクエリとして検索し、検索結果上位１００件を用いて、Naive BayesでＴＦを用いて学習した場合の単語ｔが内閣支持率に与える影響ｃａｕｓｅ（ｔ）を以下の様に計算した。
【数４】

従って、ｃａｕｓｅ（ｔ）が正の方向に大きいほど内閣支持率を上昇させる傾向にあり、逆にｃａｕｓｅ（ｔ）が負の方向に大きいほど内閣支持率を下降させる傾向にある。図１１に内閣支持率上昇、下降に寄与する単語の上位を示す。
【００４７】
このように、スコア付与部４７により重要語にスコアをつけた後、分析部の一例である要因情報抽出部４８は、各記事ｄに対して以下のようにスコアを算出する。
【数５】

要因情報抽出部４８は、算出されたスコアをもとに、スコアの大きいものから順に、動向情報の上昇に寄与する要因情報を抽出してもよいし、スコアの小さいものから順に、動向情報の下降に寄与する要因情報を抽出してもよい。また、要因情報抽出部４８は、各重要語のスコアの絶対値をもとに、各記事ｄのスコアを算出して、絶対値の大きいものから順に要因情報を抽出してもよい。要因情報抽出部４８は、コサイン距離の近いもの、スコアの大きいもの、スコアの小さいもの、スコアの絶対値の大きいもの、のいずれを抽出するかを、ユーザの指示などにより切替可能としてもよい。
【００４８】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【図面の簡単な説明】
【００４９】
【図１】実施の形態に係るデータ処理システムの構成を示す図である。
【図２】内閣支持率の変動の根拠となる要因情報の検索結果の一部を示す図である。
【図３】重要語の抽出結果の一部を示す図である。
【図４】内閣支持率のグラフの例を示す図である。
【図５】要因表示箇所に関するアンケート結果を示す図である。
【図６】要因の表示内容の例を示す図である。
【図７】要因表示内容に関するアンケート結果を示す図である。
【図８】動向情報と要因情報を表示したグラフの例を示す図である。
【図９】実施の形態に係るデータ処理システムの構成の別の例を示す図である。
【図１０】内閣支持率の予測実験結果を示す図である。
【図１１】内閣支持率の変化に寄与する語のスコアを示す図である。
【符号の説明】
【００５０】
１０データ処理システム、２０コーパス提供装置、３０インターネット、４０データ処理装置、４１コーパス取得部、４２動向情報抽出部、４３要因情報抽出部、４４重要語抽出部、４５動向情報表示部、４６要因情報表示部、４７スコア付与部、４８要因情報抽出部、４９要因情報表示部、５０表示装置。

【特許請求の範囲】
【請求項１】
時間変化する動向情報を取得する動向情報取得部と、
前記動向情報の変化の要因となった要因情報を取得する要因情報取得部と、
前記動向情報の変化を示すグラフを生成する動向情報表示部と、
前記グラフに前記要因情報を付加する要因情報表示部と、を備え、
前記要因情報表示部は、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とするデータ処理装置。
【請求項２】
前記要因情報表示部は、最初、最後、最大、最小、極大、極小のうちいずれかの動向情報に対応する要因情報を抽出して表示することを特徴とする請求項１に記載のデータ処理装置。
【請求項３】
前記要因情報表示部は、前記動向情報の変化量が所定の閾値よりも大きい部分の前後のうちいずれかの動向情報に対応する要因情報を抽出して表示することを特徴とする請求項１に記載のデータ処理装置。
【請求項４】
前記動向情報を含む複数のコーパスと前記要因情報を含む複数のコーパスを取得するコーパス取得部を更に備え、
前記動向情報取得部は、前記複数のコーパスの中から前記動向情報を抽出し、
前記要因情報取得部は、前記動向情報と同時期の情報を含むコーパスの中から、抽出された前記動向情報を含むコーパスと近似するコーパスを抽出することにより、その動向情報に対応する要因情報を取得することを特徴とする請求項１から３のいずれかに記載のデータ処理装置。
【請求項５】
前記動向情報と同時期の情報を含むコーパスの中から重要語を抽出する重要語抽出部を更に備え、
前記要因情報表示部は、抽出された前記重要語を表示することを特徴とする請求項４に記載のデータ処理装置。
【請求項６】
前記要因情報が前記動向情報の上昇に寄与する要因か下降に寄与する要因かを分析する分析部を更に備え、
前記要因情報表示部は、前記動向情報の上昇に寄与する要因情報と下降に寄与する要因情報とを識別可能に表示することを特徴とする請求項１から５のいずれかに記載のデータ処理装置。
【請求項７】
前記コーパスに含まれる重要語に対して、前記動向情報の上昇又は下降に対する寄与度を示すスコアを付与するスコア付与部を更に備え、
前記分析部は、前記要因情報に含まれる重要語のスコアに基づいて、前記要因情報が前記動向情報の上昇に寄与するか下降に寄与するかを分析することを特徴とする請求項６に記載のデータ処理装置。
【請求項８】
前記要因情報表示部は、前記要因情報のうち所定の字数を表示し、ユーザから選択指示を受け付けたときに全文を表示することを特徴とする請求項１から７のいずれかに記載のデータ処理装置。
【請求項９】
時間変化する動向情報を取得するステップと、
前記動向情報の変化の要因となった要因情報を取得するステップと、
前記動向情報の変化を示すグラフを生成するステップと、
前記グラフに前記要因情報を付加するステップと、を備え、
前記要因情報を付加するステップは、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とするデータ処理方法。
【請求項１０】
時間変化する動向情報を取得する機能と、
前記動向情報の変化の要因となった要因情報を取得する機能と、
前記動向情報の変化を示すグラフを生成する機能と、
前記グラフに前記要因情報を付加する機能と、をコンピュータに実現させ、
前記要因情報を付加する機能は、所定の条件にしたがって要因情報を抽出し、抽出された要因情報を、対応する動向情報の表示位置の近傍に表示することを特徴とするプログラム。

【図１】