説明

時系列情報処理装置、方法、及びプログラム

【課題】相関のある複数の時系列情報を可視化し分析を支援する技術を提供する。
【解決手段】時系列情報受付部110は、ユーザによる第1の時系列情報の指定入力を検出し、時系列情報取得部130は、データベース300から第2の時系列情報を取得する。相関判定部140は、それぞれの時系列情報の相関値算出及び不要語判定を行い、時系列情報表示部150は所定の条件によりそれぞれの時系列情報を同一画面にて重ねて表示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、時系列情報の処理技術に関する。
【背景技術】
【0002】
計算機の処理能力の向上や高速ネットワーク環境の普及に伴い、電子化された情報は増加の一途をたどっており、この傾向は今後も継続するものと思われる。
【発明の開示】
【発明が解決しようとする課題】
【0003】
こうした状況下、ユーザの関心や興味に合致する情報に直接的かつ簡便にアクセスするための技術が求められている。
【0004】
本発明はこうした状況を鑑みてなされたものであり、その目的は、相関のある複数の時系列情報を可視化し分析を支援する技術を提供することにある。
【課題を解決するための手段】
【0005】
本発明のある態様は、時系列情報処理装置に関する。本装置では、日時と値が関連付けられた時系列情報として、ユーザによる第1の時系列情報の指定入力を検出する時系列情報受付部と、複数種類の時系列情報を保持するデータベースから、第1の時系列情報と比較するための第2の時系列情報を取得する時系列情報取得部と、所定期間における第1の時系列情報における値の変化傾向と、第2の時系列情報における値の変化傾向を比較して、その変化傾向の類似度を所定の評価関数により相関値として算出する相関値算出部と、相関値が所定の閾値以上となったとき、第2の時系列情報と第1の時系列情報とを同一画面上にて重ねて表示させる時系列情報表示部と、を備える。
【0006】
この構成によれば、ユーザが指定した時系列情報の変化傾向と相関のある複数の時系列情報を効率的に取得してユーザに提供しやすくなる。この結果、例えば、内閣支持率の時系列グラフと日経平均株価の時系列グラフの形状が正の相関があることがわかれば、内閣支持率を維持するためには、日経平均株価を維持する必要があるという知見が得られる。
【0007】
前記時系列情報受付部は、日時軸と値軸とからなる2次元平面上にユーザが統計グラフの形状を描画するとき、ユーザが描画した統計グラフの形状を検出し、統計グラフの形状と軸との関係から日時と値との対応関係を示す時系列情報を作成して第1の時系列情報として取得してもよい。
【0008】
この構成によれば、ユーザから入力される時系列情報は必ずしも電子化された情報である必要はなく、手書きのグラフであってもよい。時系列情報受付部がその手書きのグラフの情報を電子化して第1の時系列情報とする。これにより、ユーザにとってより簡便な方法で相関のある時系列情報を提供できる。
【0009】
前記時系列情報取得部は、データベースが保持する複数の文書の中の単語の出現頻度を単位時間毎に取得して、日時と出現頻度との対応関係を示す時系列情報を第2の時系列情報として作成してもよい。本明細書における「単語」とは、文法上における言葉の最小単位としての単語に限るものではない。例えば、いくつかの単語の組み合わせからなる複合語、文節、文、句等も含めた概念として用いるものとする。
【0010】
この構成によれば、例えば、ユーザが株価変動情報を第1の時系列情報として入力すると、時系列情報取得部は、様々な単語の出現頻度の時間変化を第2の時系列情報として取得する。ユーザはもともと株価変動とは関係がないと考えていた単語であっても、変化傾向の類似、つまり時間変化に伴うグラフ形状の変化の類似という観点から関連語を取得できる。ユーザはこの結果をもとに、例えばその単語が株価変動の先行指標として機能しているのではないかといった観点から、株価変動の要因分析をすることができる。
【0011】
前記時系列情報受付部は、日時と特定の単語の出現頻度が関連付けられた時系列情報を、ユーザによる前記第1の時系列情報の指定入力として検出してもよく、時系列情報取得部は、データベースが保持する複数の文書の中の単語の出現頻度を単位時間毎に取得して、日時と出現頻度との対応関係を示す時系列情報を第2の時系列情報として作成してもよい。
【0012】
この構成によれば、例えば、ユーザが「オリンピック」という単語の出現頻度の時間変化を第1の時系列情報として入力すると、時系列情報取得部は、様々な単語の出現頻度の時間変化を第2の時系列情報として取得する。ユーザはもともと「オリンピック」という単語とは関係がないと考えていた単語であっても、変化傾向の類似、つまり時間変化に伴うグラフ形状の変化の類似という観点から関連語を取得できる。ユーザはこの結果を、例えばある単語が頻繁に使われているときに同様に頻繁に使われる単語は何かといった観点から、関連語分析・流行語分析に活用することができる。
【0013】
時系列情報処理装置は、関連語判定のための閾値を有し、第2の時系列情報において時系列での出現頻度の分散の値がこの閾値未満であるとき、第2の時系列情報に係る単語を不要語と判定する不要語判定部をさらに備えてもよく、時系列情報表示部は、相関値が所定の閾値以上となった場合でも、不要語に係る第2の時系列情報を表示対象から除外してもよい。
【0014】
この構成によれば、時系列において出現傾向の変化が小さい単語を表示対象から除外することができる。出現傾向の変化が小さい単語は、特徴を持たない一般語もしくはもともと出現回数が少ない単語である場合が多く、ユーザはその単語を不要とする場合が多い。この構成によれば、ユーザが不要とする可能性が高い単語をあらかじめ表示しないような設定を可能にし、ユーザによる分析の利便性向上に資することができる。
【0015】
前記評価関数は、ピアソンの積率相関係数を変数とする評価関数であってもよい。
【0016】
時系列情報処理装置は、時系列情報表示部により表示された時系列情報を、ユーザの操作に基づき、値軸の値は維持したまま日時軸の値を変更する日時変更部をさらに備えてもよく、時系列情報受付部は、日時変更部により日時軸の値を変更された時系列情報を、第1の時系列情報として検出してもよい。
【0017】
この構成によれば、当初表示された時系列情報とは日時軸の値にずれがあるものの、変化傾向については相関が強い時系列情報を第2の時系列情報として取得する。これによりユーザは、例えば、複数の時系列情報間の先行指標または遅行指標としての関係を分析しやすくなる。ユーザはこの分析の結果をもとに、所定の事象の原因を推定し、また、所定の事象に基づき将来予測ができる。
【0018】
時系列情報処理装置は、時系列情報表示部により表示された時系列情報を、ユーザの操作に基づき、日時軸の値は維持したまま値軸の値を変更する値変更部をさらに備えてもよく、時系列情報受付部は、値変更部により値軸の値を変更された時系列情報を、第1の時系列情報として検出してもよい。
【0019】
この構成によれば、当初表示された時系列情報と同様の日時軸で変化傾向の異なる時系列情報を第2の時系列情報として取得する。これによりユーザは、例えば、所定の時系列情報の変化により鋭敏に反応している、または、より鈍感に反応している時系列情報を発見しやすくなる。これによりユーザは、複数の時系列情報間の相関について、さらに多様な分析が可能となる。
【0020】
本発明の別の態様もまた、時系列情報処理装置に関する。本装置では、ユーザによる単語の指定入力を検出する単語受付部と、複数種類の時系列情報を保持する複数のデータベースから、前記単語の出現頻度を単位時間毎に取得して、日時と前記出現頻度との対応関係を示す時系列情報を前記データベース毎に作成する時系列情報取得部と、複数の前記時系列情報を同一画面にて重ねて表示させる時系列情報表示部と、を備える。
【0021】
この構成によれば、ユーザが指定した単語について、複数のデータベースにおけるその単語の出現頻度の時間変化を時系列情報として取得しユーザに提供することができる。ユーザはこの結果をもとに各データベースの性格の違いなどを分析することができる。
【0022】
前述したいずれの態様においても、前記時系列情報表示部は、同一画面上にて重ねて表示させた複数の時系列情報にそれぞれ対応する複数のタイトルをリスト表示させてもよく、ユーザが特定のタイトルを前記リストから選択した場合には、前記タイトルに対応する時系列情報を強調表示させてもよい。
【0023】
この構成によれば、ユーザは重なり合ったグラフを直接操作して所望のグラフを選択する必要はなく、リスト中から選択でき、簡便な操作により所望のグラフを選択することができる。
【0024】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、システム、プログラムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0025】
本発明によれば、相関のある複数の時系列情報を可視化し分析を支援する技術を提供することができる。
【発明を実施するための最良の形態】
【0026】
計算機の処理能力の向上や高速ネットワーク環境の普及に伴い、電子化された情報は増加の一途を辿っており、この傾向は今後も継続するものと思われる。企業間競争が激化する中、現状分析や将来予測を精度よく行うために、電子化された情報を様々な角度から分析することは有用である。
【0027】
本発明者は、時系列情報を用いて様々な分析をする際には単一の時系列情報のみを用いて分析をすることは少なく、例えば、内閣支持率と失業率などの複数の時系列情報を比較分析する必要があるとの知見を得た。本発明者はさらに、多種多様な時系列情報を1つの領域上に重ねて表示したのでは、多数のグラフが重なり合い見にくいことが問題であるとの知見を得た。そこで、本発明者は、相関を持つ時系列情報のみを効率的に提示し、分析の支援を行う本発明に想到し、ここに開示するものである。本実施の形態では、入力に係る時系列情報と相関を持つ他の時系列情報を取得してユーザに提供する装置を提案する。本実施の形態に係る装置を用いることにより、例えば、「ある会社の株価の変動と、変動が同期している株価を持つ会社を探したい」や「ある製品の売り上げの変動とともに使用されるようになった単語を知りたい」といったニーズに応えることが可能となる。
【0028】
(第1の実施形態)
図1は、実施の形態に係る時系列情報処理装置の構成を示す。ここで時系列情報処理装置100は、時系列情報受付部110、単語受付部120、時系列情報取得部130、相関判定部140、時系列情報表示部150を備える。これらの構成は、ハードウエアコンポーネントでいえば、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
【0029】
データベース300は、日時と値が関連付けられた時系列情報を複数種類保持しており、通信ネットワーク200を介して時系列情報処理装置と接続される。通信ネットワーク200は、インターネット・LAN・WAN・イントラネット・エクストラネット等様々な通信手段を含む。
【0030】
時系列情報受付部110は、ユーザより日時と値が関連付けられた時系列情報の指定入力を検出し、第1の時系列情報とする。この時系列情報は、日時と値が関連付けられたものであればよく、株価変動情報・内閣支持率等はもちろん、特定のデータベースにおける単語の出現回数の変化傾向であってもよい。また、この時系列情報は表形式であってもよく、折れ線グラフ・棒グラフ等の統計グラフの形式であってもよい。グラフ形式の場合には、時系列情報受付部110は、そのグラフの形状および軸の数値から、そのグラフを数値変換して第1の時系列情報とする。指定入力の方法はマウス・キーボード等既知の入力手段を含む。また、入力される時系列情報は、電子化された情報には限られず、タブレット・デジタイザ・スキャナ等の既知の入力装置を利用して手書きのグラフを入力として検出することもできる。単語受付部120については後述する。
【0031】
時系列情報取得部130は、データベース300から、第1の時系列情報と比較するための第2の時系列情報を取得する。第2の時系列情報は、内閣支持率や株価変動グラフなど、表形式でもグラフ形式でもよい。また直接には時系列情報となっていない単語の出現頻度についても、日時と出現頻度を関連付けて第2の時系列情報としてもよい。
【0032】
相関判定部140は、相関値算出部142及び後述する不要語判定部144を含む。相関値算出部142は、第1の時系列情報における所定期間の値の変化傾向と、第2の時系列情報における所定期間の値の変化傾向を比較して、その変化傾向の類似度を所定の評価関数により相関値として算出する。ここで、評価関数は相関係数を変数としてもよい。相関係数は−1から1の間の実数値をとり、1に近いときは2つの時系列データには正の相関があり、−1に近いときは逆に負の相関がある。正の相関の場合、ある単位時間において、第1の時系列情報の変化傾向が増加傾向であるときには第2の時系列情報の変化傾向も増加傾向となり、第1の時系列情報の変化傾向が減少傾向であるときには第2の時系列情報の変化傾向も減少傾向となる。逆に負の相関の場合、ある単位時間において、第1の時系列情報の変化傾向が増加傾向であるときには第2の時系列情報の変化傾向は減少傾向となり、第1の時系列情報の変化傾向が減少傾向であるときには第2の時系列情報の変化傾向は増加傾向となる。0に近いときは2つのデータ列の相関は弱い。本実施の形態に係る時系列情報処理装置においては、正の相関も負の相関もどちらの算出も可能である。
【0033】
また評価関数は相関係数の一つであるピアソンの積率相関係数を変数としてもよい。この場合には、共通する単位時間当たりの第1の時系列情報と第2の時系列情報の値をそれぞれ取得し、第1の時系列情報の値と第2の時系列情報の値の共分散を、第1の時系列情報の値の標準偏差及び第2の時系列情報の値の標準偏差で割ることにより相関係数を取得できる。ここで、ピアソンの積率相関係数rは、第1の時系列情報の値をX、第2の時系列情報の値をY、それらの単位時間での組み合わせがn個あるとすると以下の式で表される。評価関数をピアソンの積率相関係数を変数とした場合には、このrの値を相関値とすることができる。
【数1】

【0034】
時系列情報表示部150は、相関値算出部142が算出した相関値が所定の閾値以上となったとき、第2の時系列情報と第1の時系列情報とを同一画面上にて重ねて表示させる。ここで、表示する形式は表形式であってもよく、折れ線グラフ・棒グラフ等の統計グラフ形式であってもよい。本実施の形態に係る装置の中では各時系列情報は数値データとして保持されているため、既知の方法で様々な統計グラフを表示することができる。また閾値は、装置が事前に保持していてもよいし、ユーザにより設定されてもよい。閾値は任意の指定が可能である。また、一般的な相関係数の基準では、相関値の絶対値が、0.7から1の場合にはかなり強い相関がある、0.4から0.7の場合にはやや相関あり、0.2から0.4の場合には弱い相関があり、とされているため、これらの閾値を利用してもよい。さらに、第1の時系列情報と正の相関を持つ第2の時系列情報のみを表示対象としてもよいし、第1の時系列情報と負の相関を持つ第2の時系列情報のみを表示対象としてもよい。
【0035】
また、時系列情報表示部150は、同一画面上にて重ねて表示させた複数の時系列情報にそれぞれ対応する複数のタイトルをリスト表示させてもよく、ユーザが特定のタイトルをそのリストから選択した場合には、対応する時系列情報を強調表示させてもよい。相関を持つ時系列情報はときに数10以上となることがあり、これらが一度に同一画面上に重ねられると、ユーザが所望する時系列情報が非常に見にくくなってしまう。この場合であっても、タイトルがグラフの周辺にリスト表示されていれば、ユーザはそのリストから所望の時系列情報のタイトルを選択すればよくなり、ユーザの利便性に資することができる。ここで、強調表示は強調するグラフの線を太くさせたり、線の色を濃くさせたり、またはその他のグラフの線を細くさせたり、線の色を薄くさせたり、ぼかしたりすることだけに限られない。ユーザが所望する時系列情報の内容をわかりやすくユーザに提供するその他の手段を含む。なお、強調表示の具体例は後述する。
【0036】
以下、本発明者らが実際に行った実験について説明する。この実験では、入力に係る時系列情報として、あるデータベースにおける単語「オリンピック」の出現頻度を用い、その出現頻度の変化傾向と相関のある出現頻度の変化傾向を持つ他の単語の出現頻度を取得した。
【0037】
本実験で用いたデータベースは、1998年、1999年の毎日新聞コーパス(全220,087 記事)に対して、形態素解析を行い、名詞句を抽出した結果(1,280,313 異なり語)を保持している。まず抽出された名詞句の月ごとの出現回数を算出した。それから、横軸が時間軸、縦軸が出現回数で、各名詞句当たりのデータ数が24個の折れ線グラフを作成した。なお、24月のうち22月以上の出現回数が0の場合は対象外とした。
【0038】
図2は、名詞句「オリンピック」の時系列情報を示す図である。同図は、「オリンピック」という単語の月ごとの出現回数を示している。実際に長野オリンピックが開催された1998年の初旬に出現回数が非常に大きくなっていることがわかる。
【0039】
時系列情報受付部110は、この「オリンピック」の月ごとの出現回数を第1の時系列情報として検出し、時系列情報取得部130は、前述のデータベースから各名詞句の月ごとの出現回数を第2の時系列情報として取得する。相関値算出部142は、前述したピアソンの積率相関係数を変数とする評価関数で第1の時系列情報と第2の時系列情報との相関値を算出する。時系列情報表示部150は、相関値が所定の閾値以上となったとき、第2の時系列情報と第1の時系列情報を同一画面上にて重ねて表示させる。
【0040】
図3は、名詞句「オリンピック」及びその関連語の時系列情報を示す図である。同図は、「オリンピック」の出現回数の時系列情報と、前述のプロセスを経て取得された名詞句の時系列情報が、同一画面上に重ねて表示された状態を示している。この図では、「オリンピック」に対し、例えば、「長野五輪」や「長野冬季五輪」が強い相関を示していることがわかる。
【0041】
図4は、名詞句「長野五輪」が強調表示された状態を示す図である。同図は、図3の状態からユーザがタイトルのリスト表示部分から「長野五輪」を選択したときの状態を示している。ここでは一例として、ユーザが所望する「長野五輪」に係るグラフの線を太くする強調表示をさせている。図3の状態では、複数のグラフが重なり合い「長野五輪」に係るグラフが見にくかったが、図4では、強調表示により「長野五輪」に係るグラフの把握が非常に容易になっている。なお、さらに表示されるグラフが多く、タイトルが多数になる場合には、リスト部分にスクロールバーをつけさせてもよい。こうすることで、タイトルが多数になってもタイトルの可読性を落とさない効果がある。
【0042】
以上のように、第1の時系列情報と変化傾向において相関を持つ第2の時系列情報を取得することができる。しかし、第1の時系列情報に係る単語の出現回数がもともと少なく、変化傾向も小さい場合、第2の時系列情報に係る単語であって出現回数がもともと少なく、偶然にその単語と同時期に少し使われただけの単語が、実際には全く関係がないのにも関わらず相関値の閾値を超えてしまうことがある。その結果、多数の不要語の出現回数の時系列情報がユーザに提示され、ユーザの利便性を低下させることとなる。
【0043】
本発明者は、この問題に対して、前述した不要語は時系列での出現回数の分散が小さいことを知見して、以下の不要語判定部144を設けた。
【0044】
不要語判定部144は、所定の閾値を有し、第2の時系列情報において時系列での出現頻度の分散の値がこの閾値未満であるとき、第2の時系列情報に係る単語を不要語と判定する。時系列情報表示部150は、相関値が所定の閾値以上であっても、不要語と判定された単語に係る第2の時系列情報を表示対象から除外する。この閾値についても、装置が事前に保持していてもよいし、ユーザにより設定されてもよい。
【0045】
図5は、不要語判定の例を示す図である。同図は、「オリンピック」と「pad(People's Alliance for Democracy “民主同盟”の略字)」に対し相関値が所定の閾値以上となった単語、及びその単語の出現回数の分散値を示している。「オリンピック」の例は全て関連語と考えられるが、「pad」の例は意味が不明なものが多い。しかし、例えば分散値の閾値を1とすることで、「pad」に関連すると思われる「党名」「新省庁設置法案」は残しつつ、その他の関係のない単語の多くを不要語と判定することができる。この例の場合では、不要語判定部144は取消線が引かれた単語を不要語と判定し、時系列情報表示部150は不要語に係る第2の時系列情報を表示対象から除外する。
【0046】
また、所定の時系列情報に対し、日時のずれがあるが、変化傾向については相関が強い時系列情報が存在する場合がある。例えば、内閣支持率という時系列情報に対し、2ヶ月前の日経平均株価は正の相関を有することがある。他の例として、内閣支持率に対し、1ヶ月後のA社の株価が負の相関を有することがある。この場合、内閣支持率に対し、日経平均株価は先行指標であり、A社の株価は遅行指標である可能性がある。
【0047】
所定の時系列情報に対し、先行指標または遅行指標となる時系列情報を知見することで、ユーザは、所定の事象の原因を推定し、また、所定の事象に基づき将来予測ができる。例えば、日経平均株価が現在上昇していれば、2ヶ月後には内閣支持率も上昇する可能性が高いと予測できる。
【0048】
所定の時系列情報に対する先行指標または遅行指標の分析を容易にするため、時系列情報表示部150は、日時変更部152を有してもよい。日時変更部152は、時系列情報表示部150により表示された時系列情報を、ユーザの操作に基づき、値軸の値は維持したまま日時軸の値を変更する。時系列情報受付部110は、日時変更部152により日時軸の値を変更された時系列情報(以下、「日時変更時系列情報」と呼ぶ。)を、第1の時系列情報として検出する。これにより、時系列情報処理装置100は、日時変更時系列情報の変化傾向と相関のある時系列情報をユーザに提供できる。
【0049】
日時軸の値の変更について特に制限はなく、所定の評価関数に基づき個々の値ごとに変更後の値が決定されてよい。例えば、時系列情報の日時軸の値を一様に増減させてもよい。その他の例として、日時軸と値軸との値の組である各点の間隔を、日時軸の値を変更することにより広げまたは狭めてもよい。各点の間隔を調整した日時変更時系列情報と相関がある時系列情報は、所定の時系列情報と比べ、変化傾向の周期が異なりつつも同様の変動をするものである。このような、時系列情報をユーザに提供することで、ユーザによる時系列情報の多様な分析を実現できる。なお、以下の具体例では、内閣支持率の日時軸の値を一様に増減させた例で説明する。
【0050】
図6は、時系列情報の日時軸の値を変更した結果の例を示す。同図において、「内閣支持率」は実際の内閣支持率であり、「内閣支持率−2」は実際の内閣支持率における日時軸の値を一様に2月前にずらしたものである。ユーザが内閣支持率を指定して日時を2月減少させる操作を行うと、日時変更部152は、内閣支持率における日時軸の値を一様に2月分減少させる。これにより、同図の「内閣支持率」から「内閣支持率−2」へと表示が変更される。なお実際には、複数の他の時系列情報が表示され、図示した内閣支持率はその1つであってよい。図7から図10においても同様である。
【0051】
「内閣支持率ー2」の時系列情報は、時系列情報受付部110により、第1の時系列情報として検出され、「内閣支持率−2」の変化傾向と相関のある時系列情報が第2の時系列情報として表示される。図7は、日時変更時系列情報の変化傾向と相関がある時系列情報が表示された例を示す。同図では、「内閣支持率−2」と正の相関がある時系列情報として「日経平均株価」が表示されている。ユーザはこの結果から、日経平均株価は、内閣支持率の先行指標ではないかと推測できる。
【0052】
図8も、日時変更時系列情報の変化傾向と相関がある時系列情報が表示された例を示す。同図では、実際の内閣支持率における日時軸の値を一様に1月後にずらした「内閣支持率+1」と負の相関がある時系列情報として「A社株価」が表示されている。ユーザはこの結果から、A社株価は、内閣支持率の遅行指標ではないかと推測できる。
【0053】
このように、時系列情報処理装置100は、日時変更時系列情報の変化傾向と相関がある時系列情報のユーザによる取得を支援する。これにより、ユーザが得られる知見の具体例を以下さらに示す。
1.内閣支持率と失業率との間に、失業率を3月先行させたときの相関が強いことがわかれば、内閣支持率の先行指標として失業率を利用できるという知見。
2.ある企業の株価とある単語の出現回数との間に、ある単語の出現回数を1月先行させたときの相関が強いことがわかれば、ある企業の株価の先行指標としてある単語の出現回数が利用できるという知見。
3.気温とある企業との売上の間の相関が強いことがわかれば、気温から企業の売上を予測できるという知見。
【0054】
また、所定の時系列情報に対し、同様の日時軸で変化傾向がより尖鋭化または鈍化した時系列情報(以下、「潜在時系列情報」と呼ぶ。)が存在する場合がある。例えば、失業率の変化傾向をより尖鋭化した時系列情報に対し、内閣支持率は負の相関を有することがある。このような、潜在時系列情報は、所定の時系列情報と比較して変化傾向が異なるため、当初の相関値算出部142の判定では、相関無しと判定される可能性がある。しかしながら、ユーザによる時系列情報の多様な分析を実現するために、時系列情報処理装置100は、潜在時系列情報を取得できる手段を有することが望ましい。
【0055】
潜在時系列情報を取得するため、時系列情報表示部150は、値変更部154を有してもよい。値変更部154は、時系列情報表示部150により表示された時系列情報を、ユーザの操作に基づき、日時軸の値は維持したまま値軸の値を変更する。時系列情報受付部110は、値変更部154により値軸の値を変更された時系列情報(以下、「値変更時系列情報」と呼ぶ。)を、第1の時系列情報として検出する。これにより、時系列情報処理装置100は、潜在時系列情報をユーザに提供できる。
【0056】
値軸の値の変更について特に制限はなく、既知の計算手法、既知の評価関数、ユーザによる指定等に基づいて、所定の時系列情報の変化傾向を尖鋭化または鈍化させるように、値が変更されてよい。例えば、値軸の値の分散が拡大もしくは縮小するように個々の値を変更してもよい。値の変更に際しては、1以上の所定数を乗算することにより値を増加させてもよいし、除算することにより値を減少させてもよい。その他の例として、値軸の値を一様に増減させてもよいし、時系列情報においてユーザが指定する一部のみの値を変更してもよい。また、変更後の値はユーザにより指定されてもよい。
【0057】
以下、具体例で説明する。図9は、時系列情報の値軸の値を変更した結果の例を示す。同図において、「失業率」は実際の失業率であり、「失業率A」は実際の失業率における値軸の個々の値と平均値との差を2倍にすることで、値の分散を拡大させ、変化傾向をより尖鋭化したものである。ユーザが失業率を指定して上記変更を指示する操作を行うと、値変更部154は、失業率の時系列データに対して上記変更を実行する。これにより、同図の「失業率」から「失業率A」へと表示が変更される。
【0058】
「失業率A」の時系列情報は、時系列情報受付部110により、第1の時系列情報として検出され、「失業率A」の変化傾向と相関のある時系列情報が第2の時系列情報として表示される。図10は、値変更時系列情報の変化傾向と相関がある時系列情報が表示された例を示す。同図では、「失業率A」と負の相関がある時系列情報として「内閣支持率」が表示されている。ユーザはこの結果から、内閣支持率の変動の裏には、失業率のわずかな変動があるのではないかと推測できる。
【0059】
また、時系列情報処理装置100は、日時変更部152と値変更部154とを組み合わせて、第2の時系列情報をユーザに提供してもよい。これによりユーザは、時系列情報分析の幅をさらに広げることができる。例えば、所定の時系列情報に対して、より鈍化した変化傾向を持つ1月前の先行指標や、より尖鋭化した変化傾向を持つ2月後の遅行指標等の発見が容易となる。
【0060】
(第2の実施形態)
本発明の実施の形態の別の例として、ユーザ指定の単語をもとに、複数のデータベースからその単語の出現頻度を時系列情報として取得することができる。この実施の形態によると、ユーザはある単語の流行度や、データベース毎の性格の違いによる重要度の差を明確にすることが可能となる。例えば、データベースが、各マスメディアの新聞記事等を保持する言語資源コーパスである場合には、マスメディア毎の言語資源コーパスにおけるユーザ指定の単語の出現頻度の違いが明らかになる。ユーザはその結果をもとに、特定のマスメディアにおけるその単語の取り扱いの差異、換言すれば、マスメディア間の思想の違いを知見することができる。
【0061】
単語受付部120は、ユーザによる単語の指定入力を検出し、時系列情報取得部130は、複数のデータベースからその単語の出現頻度を単位時間毎に取得して、日時と出現頻度との対応関係を示す時系列情報をデータベース毎に作成する。時系列情報表示部150は、それらの時系列情報を同一画面にて重ねて表示する。
【0062】
また、前述した図2での単語「オリンピック」に係る時系列情報を、第2の実施の形態に係る時系列情報処理装置で取得し、以降の関連語の獲得については前述した第1の実施の形態に係る時系列情報処理装置で行うこともできる。さらに、この処理を自動で連携させることで、ユーザは単語「オリンピック」を指定入力するだけで、前述した図3の画面出力を直接得ることもでき、ユーザの利便性をさらに高めることもできる。
【0063】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【図面の簡単な説明】
【0064】
【図1】本発明の実施の形態に係る時系列情報処理装置の構成を示す機能ブロック図である。
【図2】名詞句「オリンピック」の時系列情報を示す図である。
【図3】名詞句「オリンピック」及びその関連語の時系列情報を示す図である。
【図4】名詞句「長野五輪」が強調表示された状態を示す図である。
【図5】不要語判定の例を示す図である。
【図6】時系列情報の日時軸の値を変更した結果の例を示す図である。
【図7】日時変更時系列情報の変化傾向と相関がある時系列情報が表示された例を示す図である。
【図8】日時変更時系列情報の変化傾向と相関がある時系列情報が表示された例を示す図である。
【図9】時系列情報の値軸の値を変更した結果の例を示す図である。
【図10】値変更時系列情報の変化傾向と相関がある時系列情報が表示された例を示す図である。
【符号の説明】
【0065】
100 時系列情報処理装置、110 時系列情報受付部、120 単語受付部、130 時系列情報取得部、140 相関判定部、142 相関値算出部、144 不要語判定部、150 時系列情報表示部、152 日時変更部、154 値変更部、200 通信ネットワーク、300 データベース。

【特許請求の範囲】
【請求項1】
日時と値が関連付けられた時系列情報として、ユーザによる第1の時系列情報の指定入力を検出する時系列情報受付部と、
複数種類の時系列情報を保持するデータベースから、前記第1の時系列情報と比較するための第2の時系列情報を取得する時系列情報取得部と、
所定期間における前記第1の時系列情報における値の変化傾向と、前記第2の時系列情報における値の変化傾向を比較して、その変化傾向の類似度を所定の評価関数により相関値として算出する相関値算出部と、
前記相関値が所定の閾値以上となったとき、前記第2の時系列情報と前記第1の時系列情報とを同一画面上にて重ねて表示させる時系列情報表示部と、
を備えることを特徴とする時系列情報処理装置。
【請求項2】
前記時系列情報受付部は、日時軸と値軸とからなる2次元平面上にユーザが統計グラフの形状を描画するとき、ユーザが描画した前記統計グラフの形状を検出し、前記統計グラフの形状と軸との関係から日時と値との対応関係を示す時系列情報を作成して前記第1の時系列情報として取得することを特徴とする請求項1に記載の時系列情報処理装置。
【請求項3】
前記時系列情報取得部は、前記データベースが保持する複数の文書の中の単語の出現頻度を単位時間毎に取得して、日時と前記出現頻度との対応関係を示す時系列情報を前記第2の時系列情報として作成することを特徴とする請求項1または2に記載の時系列情報処理装置。
【請求項4】
前記時系列情報受付部は、日時と特定の単語の出現頻度が関連付けられた時系列情報を、ユーザによる前記第1の時系列情報の指定入力として検出し、
前記時系列情報取得部は、前記データベースが保持する複数の文書の中の単語の出現頻度を単位時間毎に取得して、日時と前記出現頻度との対応関係を示す時系列情報を前記第2の時系列情報として作成することを特徴とする請求項1または2に記載の時系列情報処理装置。
【請求項5】
関連語判定のための閾値を有し、前記第2の時系列情報において時系列での出現頻度の分散の値が前記閾値未満であるとき、前記第2の時系列情報に係る前記単語を不要語と判定する不要語判定部をさらに備え、
前記時系列情報表示部は、前記相関値が所定の閾値以上となった場合でも、不要語に係る前記第2の時系列情報を表示対象から除外することを特徴とする請求項4に記載の時系列情報処理装置。
【請求項6】
前記評価関数は、ピアソンの積率相関係数を変数とする評価関数であることを特徴とする請求項1から5のいずれかに記載の時系列情報処理装置。
【請求項7】
前記時系列情報表示部により表示された時系列情報を、ユーザの操作に基づき、値軸の値は維持したまま日時軸の値を変更する日時変更部をさらに備え、
前記時系列情報受付部は、前記日時変更部により日時軸の値を変更された時系列情報を、前記第1の時系列情報として検出することを特徴とする請求項1から6のいずれかに記載の時系列情報処理装置。
【請求項8】
前記時系列情報表示部により表示された時系列情報を、ユーザの操作に基づき、日時軸の値は維持したまま値軸の値を変更する値変更部をさらに備え、
前記時系列情報受付部は、前記値変更部により値軸の値を変更された時系列情報を、前記第1の時系列情報として検出することを特徴とする請求項1から7のいずれかに記載の時系列情報処理装置。
【請求項9】
ユーザによる単語の指定入力を検出する単語受付部と、
複数種類の時系列情報を保持する複数のデータベースから、前記単語の出現頻度を単位時間毎に取得して、日時と前記出現頻度との対応関係を示す時系列情報を前記データベース毎に作成する時系列情報取得部と、
複数の前記時系列情報を同一画面にて重ねて表示させる時系列情報表示部と、
を備えることを特徴とする時系列情報処理装置。
【請求項10】
前記時系列情報表示部は、同一画面上にて重ねて表示させた複数の時系列情報にそれぞれ対応する複数のタイトルをリストに表示させ、ユーザが特定のタイトルを前記リストから選択した場合には、前記タイトルに対応する時系列情報を強調表示させることを特徴とする請求項1から7のいずれかに記載の時系列情報処理装置。
【請求項11】
日時と値が関連付けられた時系列情報として、ユーザによる第1の時系列情報の指定入力を検出するステップと、
複数種類の時系列情報を保持するデータベースから、前記第1の時系列情報と比較するための第2の時系列情報を取得するステップと、
所定期間における前記第1の時系列情報における値の変化傾向と、前記第2の時系列情報における値の変化傾向を比較して、その変化傾向の類似度を所定の評価関数により相関値として算出するステップと、
前記相関値が所定の閾値以上となったとき、前記第2の時系列情報と前記第1の時系列情報とを同一画面上にて重ねて表示させるステップと、
を備えることを特徴とする時系列情報処理方法。
【請求項12】
コンピュータに、
日時と値が関連付けられた時系列情報として、ユーザによる第1の時系列情報の指定入力を検出する機能と、
複数種類の時系列情報を保持するデータベースから、前記第1の時系列情報と比較するための第2の時系列情報を取得する機能と、
所定期間における前記第1の時系列情報における値の変化傾向と、前記第2の時系列情報における値の変化傾向を比較して、その変化傾向の類似度を所定の評価関数により相関値として算出する機能と、
前記相関値が所定の閾値以上となったとき、前記第2の時系列情報と前記第1の時系列情報とを同一画面上にて重ねて表示させる機能と、
を実現させることを特徴とするコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2008−250975(P2008−250975A)
【公開日】平成20年10月16日(2008.10.16)
【国際特許分類】
【出願番号】特願2007−154754(P2007−154754)
【出願日】平成19年6月12日(2007.6.12)
【出願人】(390024350)株式会社ジャストシステム (123)