時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置

【課題】文献に出現するキーワード同士の変遷状態を効率及び精度よく把握するための解析技術を提供する。
【解決手段】時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置であって、複数の異なる時系列的テキストデータを取得する時系列的テキストデータ取得部と、解析の対象となるテキスト情報を取得する解析対象情報取得部と、前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出する共起情報抽出部と、前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する時系列係数付与部と、前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する集計部と、前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析する変遷状態解析部と、前記変遷状態を出力する出力部と、を備える、情報解析装置。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置に関する。
【背景技術】
【０００２】
研究者にとって、研究者や研究分野の変遷を知ることは必要不可欠である。これを知るためには一般的に、Ｗｅｂや検索エンジンを使用して情報を得る方法があげられるが，これは網羅的に収集するのが困難であり、かつ多大な労力を要する。
【０００３】
例えば、特許文献１には、キーワード毎の文書の発表件数の動向が一目で把握できるような形式で、キーワード毎の発表件数の推移を自動的に表示する技術が記載されている。
【０００４】
また、川中ら（非特許文献１）は、ソーシャルブックマークにおける概念を記述するタグを解析することで、概念の派性関係（概念の変遷情報）を自動的に抽出している。
【０００５】
松尾ら（非特許文献２）は、Ｗｅｂ上の情報を用いて共起の強さから人物の関係性の強さを推定し、かつ「共著関係」や「同研究室関係」などの社会的関係性を判別し、その情報が示された人間関係ネットワークを作成している。
【０００６】
Ａｄａｒら（非特許文献３）はブログ上での情報の流れについて、テキストの類似度、リンク、時間情報を元に解析するモデルを提案している。
【０００７】
丹羽ら（非特許文献４）はソーシャルブックマークにおけるユーザベースの共起度とドキュメントベースの共起度を比較することで、Synonymと呼ばれる同じ意味で用いられる語を共起度の高い精度で発見する手法を提案している。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特開２００７−７９８９９号公報
【非特許文献】
【０００９】
【非特許文献１】川中翔、佐藤周行：“ソーシャルブックマークにおけるタグの派性関係の解析”、第１回データ工学と情報マネジメントに関するフォーラム、ｐｐ．１−８、２００９
【非特許文献２】松尾豊、友部博教、橋田浩一、中島秀之、石塚満：“Ｗｅｂ上の情報からの人間関係ネットワークの抽出”、人工知能学会、ｐｐ．４６−５６、２００５
【非特許文献３】Adar，E．Adamic，L．A．: “Tracking Information Epidemics in Blogspace”，In Proceedings of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence，pp.207-214，2005．
【非特許文献４】丹羽智史、土肥拓生、本位田真一：“Ｆｏｌｋｓｏｎｏｍｙの３部グラフ構造を利用したタグクラスタリング”、ＪＡＷＳ２００６，２００６
【発明の概要】
【発明が解決しようとする課題】
【００１０】
しかしながら、上記文献記載の従来技術は、以下の点で改善の余地を有していた。
第一に、特許文献１の技術では、著者名の先輩・後輩関係、研究分野の先祖・子孫関係などのキーワード同士の変遷状態を把握することは困難である。
【００１１】
第二に、非特許文献１〜４の方法も共起情報の解析に利用できるが、著者名の先輩・後輩関係、研究分野の先祖・子孫関係などのキーワード同士の変遷状態を把握する上での効率及び精度の面でさらなる改善の余地があった。例えば、非特許文献１の川中らの手法では、ある種の尺度に基づく方法により、Ａと共起の度合いがよいＢ，Ｃ，Ｄを見つけ、Ｂ，Ｃ，Ｄのうち、Ａより前に出現していないものを除く。すなわち、川中らの手法では、例えばＣ，ＤがＡより前に出現していないとするとそれらが取り除かれて、Ｂだけが残り、Ｂを先祖のデータと考える。そのため、川中らの手法では、Ａが出現した時期に近い時期以外の時期も利用するため、後の時期に直接の関連性なく偶然の要因で共起の度合いが高くなった場合であっても、それを先祖のデータと考える問題がある。
【００１２】
本発明は上記事情に鑑みてなされたものであり、文献に出現するキーワード同士の変遷状態を効率及び精度よく把握するための解析技術を提供することを目的とする。
【課題を解決するための手段】
【００１３】
本発明によれば、時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置であって、複数の異なる時系列的テキストデータを取得する時系列的テキストデータ取得部と、解析の対象となるテキスト情報を取得する解析対象情報取得部と、前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出する共起情報抽出部と、前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する時系列係数付与部と、前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する集計部と、前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析する変遷状態解析部と、前記変遷状態を出力する出力部と、を備える、情報解析装置が提供される。
【００１４】
この構成によれば、解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与するため、文献に出現するキーワード同士の変遷状態を効率及び精度よく把握することができる。
【００１５】
なお、上記の装置は本発明の一態様であり、本発明の装置は、以上の構成要素の任意の組合せであってもよい。また、本発明の方法、システム、コンピュータプログラム、（一時的なものでない）記録媒体なども、同様の構成を有する。
【発明の効果】
【００１６】
本発明によれば、文献に出現するキーワード同士の変遷状態を従来の手法に比べて効率及び精度よく把握することができる。
【図面の簡単な説明】
【００１７】
【図１】実施形態に係る情報解析装置を用いたキーワードの変遷情報の推定方法のスキームについて説明するための概念図である。
【図２】実施形態に係る情報解析装置の構成について説明するための機能ブロック図である。
【図３】実施形態に係る情報解析装置の時系列係数付与部の内部構成について説明するための機能ブロック図である。
【図４】実施形態に係る情報解析装置の動作について説明するためのフローチャートである。
【図５】実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。
【図６】実施形態の変形例に係る情報解析装置の関連係数付与部及び集計部の構成について説明するための機能ブロック図である。
【発明を実施するための形態】
【００１８】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【００１９】
＜実施形態１：人名の変遷情報の推定方法＞
［スキームの説明］
図１は、本実施形態に係る情報解析装置を用いた人名の変遷情報の推定方法のスキームについて説明するための概念図である。以下、本実施形態に係る情報解析装置の構成・動作について人名の変遷情報の推定方法に用いる場合を例に挙げて説明する。
【００２０】
一般的に論文の著者として、ある人名Ａが出現した最初の時期に同時に共起し（それもなるべく最初の方で多く共起すると良い）、人名Ａより初出現年が早い人名Ｂは、人名Ａのルーツ（先輩）である可能性が高いと思われる。この仮説に基づき、本実施形態における人名の変遷情報の推定方法のスキームを図１に示す。
【００２１】
図１に示された人名の変遷情報の推定方法のスキームは、以下のとおりである。
手順１論文から著者名データ（本論文では著者名と共著の人名を合わせたものを著者名データとする）を抽出し、その中から指定した人名を抽出し人名Ａとする。
手順２人名Ａを含む著者名データを取り出し、その中より（最初の時期によく共起した情報を取り出したいため）出現年の早いものから１０件の著者名データを取り出す。
手順３その１０件の著者名データから共起している人名すべてを取り出し、人名Ｂ_ｊ（ｊは整数。Ｂ_ｊは共起している人名の異なり数だけ設定する。）とする。後述する方法で重みを付け、出現した論文の分だけ人名Ｂ_ｊごとにその重みを加算する。
手順４初出現年が人名Ａの初出現年よりも早く、重みが最も大きい人名（人名Ｂ）を人名Ａのルーツとする。
【００２２】
もっとも、上記の著者名データの取り出し件数は１０件に限定する趣旨ではなく、単に説明の都合上１０件の場合を例に挙げて説明しているだけである。すなわち、上記の著者名データの取り出し件数は、事例に応じて好適な件数を選ぶことができる。その他にも本実施形態において各種の数値を事例として挙げるが、特にそれらの具体的な数値に限定する趣旨ではなく、他の数値であっても好適に用いることができる。
【００２３】
本実施形態における人名の変遷情報の推定方法では最初の時期に共起するものほど重要と考え大きな重みを付け、また共起回数が多いほど重要とも考え出現した回数だけ重みを加算するという手法を取る。すなわち、［手順３］で人名Ａを含む論文の著者名データ１０件の、年毎に出てきた著者名データに含まれる人名すべてに重みａ^ｉ−１（ｉ＝出現年−初出現年、ａ＜１）をつける。例えば、初出現年が１９９０年の場合、１９９０年に出てきた論文の著者名データに出現する人名すべてに重み１、１９９１年に出てきた論文の著者名データに出現する人名すべてに重み１×ａ、１９９２年に出てきた論文の著者名データに出現する人名すべてに重み１×ａ×ａ、．．．を与える。このように年毎に重みを付与する。この例では、１９９０年に出てきた論文の著者名データに出現する人名が一番重要と考え、一番大きい重みをつける。その重みを人名ごとに加算し、重みが一番大きいものをその人名の先輩と判断する。
【００２４】
ｘという人名の重みを加算したｓｃｏｒｅ（ｘ）を数式化すると以下の式（１）のようになる。
【００２５】
【数１】

【００２６】
ｇｉ（ｘ）：ｘという人名がその年の論文に出現していれば１，そうでなければ０をとる。後述する変形例における分野名の変遷推定でも同様の方法を取る。なお、ａの値は０から１に変化させ、違いを見る。
【００２７】
［装置の構成の説明］
図２は、本実施形態に係る情報解析装置の構成について説明するための機能ブロック図である。本実施形態に係る情報解析装置１０００は、時系列情報とテキスト情報とを含む時系列的テキストデータを解析するための装置である。この情報解析装置１０００を用いれば、上記の人名の変遷情報の推定方法のスキームを効率かつ精度良く実行することができる。
【００２８】
この情報解析装置１０００は、複数の異なる時系列的テキストデータを取得する時系列的テキストデータ取得部１０２を備える。上記のスキームによれば、この時系列的テキストデータ取得部１０２は、論文から著者名データ(本論文では著者名と共著の人名を合わせたものを著者名データとする)を外部から抽出して取得する。例えば、この時系列的テキストデータ取得部１０２は、時系列的テキストデータを含むデータベースが格納された外部のサーバ１２６からネットワーク１２５を介して、時系列的テキストデータを取得する。なお、時系列テキストデータが紙書類のままであり電子化されていない場合には、ＯＣＲ装置１２８を用いて紙書類を読み取って電子データ化してからネットワーク１２５を介して、時系列的テキストデータを取得してもよい。ここで、取得された時系列的テキストデータは、仮に標準的なデータ形式ではない場合には、正規化部１０６で標準的なデータ形式に変換される。
【００２９】
この情報解析装置１０００は、解析の対象となるテキスト情報を取得する解析対象情報取得部１０４を備える。この解析対象情報は、例えば、著者を特定するための情報を含む著者情報であってもよい。上記のスキームによれば、この解析対象情報取得部１０４は、例えばユーザが操作部１２４を介して著者名データの中から指定した人名を抽出して解析の対象となるテキスト情報「人名Ａ」として取得する。もっとも、この解析の対象となるテキスト情報は、例えば外部のサーバ１２６からネットワーク１２５を介して取得されてもよい。
【００３０】
この情報解析装置１０００は、複数の異なる時系列的テキストデータから、解析対象情報と共起する他の同属性の共起情報を抽出する共起情報抽出部１１２を備える。ここで、「共起」とは、自然言語処理の分野において、任意の文書や文において、ある文字列とある文字列が同時に出現することである。上記のスキームによれば、この共起情報抽出部１１２は、人名Ａを含む著者名データを取り出し、その中より（最初の時期によく共起した情報を取り出したいため）出現年の早いものから１０件の著者名データを取り出す。すなわち、この共起情報抽出部１１２は、任意の時系列的テキストデータにおいて、ある解析対象情報とある他の同属性の情報が同時に出現する場合に、該他の同属性の情報を共起情報として抽出する。
【００３１】
この情報解析装置１０００は、解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する時系列係数付与部１１４を備える。上記のスキームによれば、この時系列係数付与部１１４は、年毎に出てきた著者名データに含まれる人名すべてに重みａ^ｉ−１（ｉ＝出現年−初出現年、ａ＜１）をつける。もし２年の開きがあった場合は、前前年の重みにａ×ａを掛算する。
【００３２】
具体的には、［手順３］で人名Ａを含む論文の著者名データ１０件の、年毎に出てきた著者名データに含まれる人名すべてに重みａ^ｉ−１（ｉ＝出現年−初出現年、ａ＜１）をつける。例えば、初出現年が１９９０年の場合、１９９０年に出てきた論文の著者名データに出現する人名すべてに重み１、１９９１年に出てきた論文の著者名データに出現する人名すべてに重み１×ａ、１９９２年に出てきた論文の著者名データに出現する人名すべてに重み１×ａ×ａ、．．．を与える。このように年毎に重みを付与する。この例では、１９９０年に出てきた論文の著者名データに出現する人名が一番重要と考え、一番大きい重みをつける。
【００３３】
この情報解析装置１０００は、共起情報を含む複数の時系列的テキストデータに付与されている時系列係数を共起情報ごとに集計する集計部１１６を備える。上記のスキームによれば、この集計部１１６は、人名Ａを含む論文に付与された重みａ^ｉ−１を人名Ａと共起する他の人名Ｂ_１、Ｂ_２、Ｂ_３、．．．ごとに集計する。
【００３４】
例えば、ｘという人名（の重みを加算したｓｃｏｒｅ（ｘ）を数式化すると以下の式（１）のようになる。
【００３５】
【数２】

【００３６】
ｇ_ｉ（ｘ）：ｘという人名）がその年の論文に出現していれば１、そうでなければ０をとる。後述する変形例における分野名の変遷推定でも同様の方法を取る。なお、ａの値は０から１に変化させ、違いを見る。
【００３７】
図３は、本実施形態に係る情報解析装置の時系列係数付与部の内部構成について説明するための機能ブロック図である。この時系列係数付与部１１４は、他の時系列的テキストデータの出現順序に応じて重み付けされた時系列係数を付与する順序判定部２０２を有する。この時系列係数付与部１１４は、ｎ個目の論文の単語にａ＾（ｎ−１）の得点を加えるように構成されている。すなわち、この順序判定部２０２は、解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータを出現順にソートする出現順ソート部２０４を有する。また、この順序判定部２０２は、他の時系列的テキストデータを出現年月日順にソートした上で、順序係数記憶部２１６からそれぞれの順序に応じた順序係数を抽出して、それぞれの時系列的テキストデータに付与する順序係数抽出部２１０を有する。ここで、順序係数記憶部２１６に格納されている順序係数は、あらかじめ最適な数値を算出した上で格納されていてもよいが、係数計算部２２２でその都度最適な数値を算出したものが格納されていてもよい。
【００３８】
この時系列係数付与部１１４は、他の時系列的テキストデータと初出した時系列的テキストデータとの時間的距離に応じて重み付けされた時系列係数を付与する時間距離判定部２１２を有する。この時間距離判定部２１２は、ｎ個目の論文に対して得点を与えるというのではなく、ｎ年後の論文の単語にａ＾（ｎ−１）の得点を加えるように構成されている。すなわち、この順序判定部２０２は、解析対象情報が初出した時系列的テキストデータと、他の時系列的テキストデータとの間の時間差を計算する時間差計算部２１４を有する。この時間差計算部２１４は、解析対象情報が初出した時系列的テキストデータと、他の時系列的テキストデータとの間の絶対的な時間間隔を年・月・日などの単位で計算してもよい。あるいは、この時間差計算部２１４は、解析対象情報が初出した時系列的テキストデータの属する年と、他の時系列的テキストデータとの属する年との年数差を計算しても良い。同様にして、月数差、週差などを計算することもできる。
【００３９】
また、この時間距離判定部２１２は、解析対象情報が初出した時系列的テキストデータと、他の時系列的テキストデータとの間の時間差を計算した上で時間差係数記憶部２１６からそれぞれの時間差に応じた時間差係数を抽出して、それぞれの時系列的テキストデータに付与する時間差係数抽出部２２０を有する。ここで、時間差係数記憶部２１８に格納されている時間差係数は、あらかじめ最適な数値を算出した上で格納されていてもよいが、係数計算部２２２でその都度最適な数値を算出したものが格納されていてもよい。
【００４０】
この係数計算部２２２は、解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まるように重み付けを行う漸減係数計算部２２４を有する。このように解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まる関数としては、例えばａ^ｉ−１（ｉ＝出現年−初出現年、ａ＜１）で計算できる指数関数が挙げられる。もっとも、この係数計算部２２２は、必ずしも指数関数を用いた計算を行う必要はなく、他の関数を用いて計算を行うことも可能である。例えば、この係数計算部２２２は、単純な線形関数を用いて計算を行うこともできる。
【００４１】
なお、このように解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まる関数としては、ａ^ｉ−１（ｉ＝出現年−初出現年、ａ＜１）で計算できる指数関数だけでなく、下記の等比級数の和の公式で計算できる関数を用いることもできる。ここで、等比級数とは等比数列の項の総和のことをいい、初項から第ｎ＋１項までの和は以下の式で定義される。
【００４２】
【数３】

【００４３】
この等比数列をずっと足しあわせていった場合にも、一定の値に収束するため、本実施形態において好適に用いることができる。すなわち、初項から全ての項の和を無限級数というが、本実施形態ではａは有限の値であり、０＜ｒ＜１とするため、この無限級数はn→∞の極限で以下の式で求められる値に収束する。
【００４４】
【数４】

【００４５】
この漸減係数計算部２２４は、必要に応じて漸減関数記憶部２２６から指数関数をはじめとする漸減関数を読みだして、順序係数記憶部２１６に格納されている順序係数又は時間差係数記憶部２１８に格納されている時間差係数を指数係数をはじめとする漸減係数に変換することができる。あるいは、この漸減係数計算部２２４は、その都度最適な指数係数をはじめとする漸減係数を算出して順序係数記憶部２１６又は時間差係数記憶部２１８に書きこむこともできる。
【００４６】
すなわち、上記のスキームによれば、この漸減係数計算部２２４では、人名Ａを含む論文の著者名データ１０件の、年毎に出てきた著者名データに含まれる人名すべてに漸減係数計算部２２４を用いて計算した重みａ^ｉ−１（ｉ＝出現年−初出現年、ａ＜１）をつける。すなわち、もし２年の開きがあった場合は、前前年の重みにａ×ａを掛算する。
【００４７】
再び図２を参照されたい。この情報解析装置１０００は、集計部１１６の集計結果に基づいて、解析対象情報と共起情報との間の時系列的な変遷状態を解析する変遷状態解析部１１８を備える。上記のスキームによれば、この変遷状態解析部１１８は、初出現年が人名Ａの初出現年よりも早く、集計部１１６で集計された重みが最も大きい人名（人名Ｂ）を人名Ａのルーツと判定する。
【００４８】
あるいは、正しい人名を抽出する性能を向上させるためには、集計部１１６で集計された重みが一番大きい他の人名を取り出すのではなく、集計部１１６で集計された重みの値が大きいものを抽出して１又は複数取り出してもよい。すなわち、答えを１個示すだけでなく、重みの合計（または得点）が大きいものから順に答えの候補を５個や１０個見せるという形にしてもよい。具体的には、集計部１１６で集計された重みの値が閾値以上のものを取り出してもよく、集計部１１６で集計された重みの値が大きい順に所定の個数以取り出してもよい。または、取り出されたものの値の最大値に対して所定の割合をかけた値を求め、その求めた値以上の値を持つものを取り出してもよい。もちろん、これらの閾値、所定の値をあらかじめ定めておいてもよく、適宜ユーザが値を変更、設定することも可能である。
【００４９】
この情報解析装置１０００は、変遷状態を出力する出力部１２０を備える。上記のスキームによれば、この出力部１２０は、変遷状態解析部１１８の解析結果を一覧表などの利用しやすい形式にした上で、画像データ・数値データ・テキストデータなどのデータ形式でネットワーク１３８を介して画像表示部１３０、プリンタ１３２、サーバ１３４などに出力する。あるいは、この出力部１２０は、上記の解析結果をリアルタイムで情報解析装置１０００に接続された画像表示部１２２に出力することもできる。
【００５０】
また、上記実施の形態では集計部１１６で集計された重みの値が大きいものを抽出して一覧表として出力するとしたが、特に限定する趣旨ではない。例えば、親子関係をノード間の矢印などでビジュアル化して表示しても良い。この場合、出力が正しいかをそのシステムのユーザが確認しやすいように、システムが情報の取り出しに利用した文書をユーザに見せるようにすることが好ましい。例えば、親子関係の推定を誤る可能性を低減するために、親子関係の確認をユーザがすぐにできるように、親子関係の表示の近くにボタンを設けてそれを押すと、今回の推定技術で利用する書誌情報のリストを表示するとよい。このようにすると、例えば、人名Ａの先輩を探す場合、人名Ａを含む初期の論文データ１０個を取り出すとすれば、人名Ａの先輩をシステムが示す場合に、親子関係の表示の近くのボタンを押すと、論文データ１０個がユーザに表示されるため、ユーザは出力が正しいかどうかを確認しながら利用することができる。ユーザはその書誌情報のリストを眺めて推定結果の妥当性を確認できる。
【００５１】
例えば、Ａの親情報の推定結果の妥当性の確認に、親子関係のボタンを押すと下記のような一覧表が表示されることが好ましい。
時系列データの例：
論文１ＡＢＣ１９９０
論文２ＡＣＤ１９９１
論文３ＡＢＥ１９９２
【００５２】
また、親を一つしか抽出しない条件にすれば木構造にでき、それで書くと例えば以下のように表示することもできる。
Ａ
｜−−Ａ１
｜−−−Ａ１２
｜−−−−−−−Ａ１３
｜−−−−Ａ２
｜−−−Ａ２２
横軸は出現年で、出現年の個所に単語を書くこととする。また、Ａ１の子にＡ１２、Ａ１３と二つ子があった場合は、Ａ１２とＡ１３のうちでは、出現年の早い方を上に書く。
【００５３】
さらに、この表示方法に、特許公開２００７−７９８９９の表示方法を組み合わせて考えると、
Ａの折れ線グラフ
Ａ１の折れ線グラフ
Ａ１２の折れ線グラフ
Ａ１３の折れ線グラフ
Ａ２の折れ線グラフ
Ａ２２の折れ線グラフ
のように、表示することが可能である。横軸は時間軸で各折れ線グラフではAの単語の出現頻度を縦軸に取る。また、各折れ線グラフは、上下離して表記する。折れ線グラフは、特許公開２００７−７９８９９のように、バブルチャートでも、等高線図でもよい。この場合、折れ線グラフの始まり地点をみれば、
Ａ
｜−−Ａ１
｜−−−Ａ１２
｜−−−−−−−Ａ１３
｜−−−−Ａ２
｜−−−Ａ２２
の情報を復元可能であるので、この図でも、親子関係の木構造の情報を維持できる。
この表示方法（表示方法Ｂ）の利点は、親子関係の情報と、頻度の時系列的変化を同時に眺めることができることである。
【００５４】
［装置の動作の説明］
図４は、実施形態に係る情報解析装置１０００の動作について説明するためのフローチャートである。まず、動作を開始すると、時系列的テキストデータ取得部１０２が複数の異なる時系列的テキストデータを取得する（Ｓ１０２）。次いで、解析対象情報取得部１０４が解析の対象となるテキスト情報を取得する（Ｓ１０４）。そして、共起情報抽出部１１２が、複数の異なる時系列的テキストデータから、解析対象情報と共起する他の同属性の共起情報を抽出する（Ｓ１０６）。その後、時系列係数付与部１１４が、解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する（Ｓ１０８）。続いて、集計部１１６が、共起情報を含む複数の時系列的テキストデータに付与されている時系列係数を共起情報ごとに集計する（Ｓ１１０）。次に、変遷状態解析部１１８が、集計部１１６の集計結果に基づいて、解析対象情報と共起情報との間の時系列的な変遷状態を解析する（Ｓ１１２）。そして、出力部１２０が、変遷状態を出力して（Ｓ１１４）、一連の動作が終了する。
【００５５】
［装置の作用効果の説明］
言語処理学会年次大会の論文１９９５年から２０１０年の３、１３９件のデータを使用し、人名のルーツとなるものを抽出した。出力例を以下の表１に示す。
【００５６】
【表１】

【００５７】
出力例の、最初の「人名：」の部分に表示された人名が人名Ａにあたる。ａを０から１に変化させたものを順に表示し、「重み−人名」で重みの大きいものから順に表示させている。一番重みの大きいもの、すなわち最初に表示されている人名を人名Ｂ（先輩）とする。この人名の例で説明すると、「松吉俊」は人名Ａで、ａ＝０での人名Ｂにあたる人名は「佐藤理史」である。また、この例の正解は「佐藤理史」であるがａ＝０では解が「佐藤理史」にしぼりきれない。しかし、ａ＝０．１または０．２では解を「佐藤理史」にしぼることができる。なお、人名と同時に表記される括弧の中身は、その人名が初出現した年号である。分野名の例も同様である。また、抽出したものの例を表２に示す。この例
は，ａ＝０．５のものである。なお、表２に列挙したいずれの人名の先輩・後輩関係についても正解である。
【００５８】
人名の変遷
【表２】

【００５９】
このように、本実施形態の情報解析装置１０００を用いれば、特定の人名が初出した言語処理学会年次大会の論文を基準として、他の言語処理学会年次大会の論文に時系列的な重み付けをされたパラメータ（ｐｒａｍｅｔｅｒ＝ａ）を付与するため、言語処理学会年次大会の論文に出現する著者を特定するための情報を含む著者情報である人名同士の先輩・後輩関係を効率及び精度よく把握することができる。
【００６０】
ここで、この実施形態で採用した解析方法は、単純に川中ら（非特許文献１）の技術において得点を減らしながら加算する手法を組み合わせたものではない。すなわち、川中らの技術では、文献同士の時系列的な関係を重視せず、ＡＥＭＩ値を指標として用いているので、本来頻度が高く正解であっても他の人名（または分野名）ともよく共起しているものはＡＥＭＩ値が下がってしまうために、このＡＥＭＩ値を算出する過程で得点を減らしながら加算する手法を用いたとしても精度の高い変遷状態の解析を行うことは困難である。一方で、この実施形態で採用した解析方法は、ＡＥＭＩ値を指標として用いるのではなく、あくまでも文献同志の時系列的な関係に着目してその時系列に応じて得点を減らしながら加算する手法を用いたために、このような精度の高い解析を効率よく行うことを可能にしたものである。
【００６１】
また、本実施形態の情報解析装置１０００を用いれば、時系列係数付与部１１４が、特定の人名が初出した言語処理学会年次大会の論文と他の言語処理学会年次大会の論文との属する年度の違いに応じて重み付けされたパラメータ（ｐｒａｍｅｔｅｒ＝ａ）を付与する時間距離判定部２１２を有するため、特定の人名が初出した言語処理学会年次大会の論文に近い年度の論文を重視して人名同士の先輩・後輩関係を解析することができる。その結果、言語処理学会年次大会の論文に出現する人名同士の先輩・後輩関係をより一層効率及び精度よく把握することができる。
【００６２】
また、本実施形態の情報解析装置１０００を用いれば、時系列係数付与部１１４が、パラメータ（ｐｒａｍｅｔｅｒ＝ａ）の解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まるように重み付けを行う（ａ^ｉ−１（ｉ＝出現年−初出現年）の式を用いて行う）係数計算部２２２を有するため、特定の人名が初出した言語処理学会年次大会の論文に近い年度の論文を著しく重視して、重要度のメリハリをつけることが可能になる。その結果、言語処理学会年次大会の論文に出現する人名同士の先輩・後輩関係をさらに効率及び精度よく把握することができる。
【００６３】
また、本実施形態の情報解析装置１０００を用いれば、変遷状態解析部が、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を木構造で表示するためのデータを生成するように構成されているため、親を一つしか抽出しない条件の場合には木構造で解析結果を表示できるので、ユーザに直感的に理解しやすい形で解析結果を出力することが可能になる。なお、この木構造で表示するためのデータは、画像データ・数値データ・テキストデータなどのいずれのデータ形式であってもよい。
【００６４】
繰り返しになるが、要約して説明すると、本実施形態では、論文の書誌情報から、研究者の変遷情報を取り出す場合、論文の書誌情報に出現した人名を研究者を表す語とし、人名Ａが初めて出現した時期に近い頃に、人名Ａと同じ論文の書誌情報に多く出現しかつ人名Ａより前に出現した人名Ｂを、人名Ａの先輩（人名Ｂの指導によって人名Ａの研究成果が生まれた）と考える。
【００６５】
このとき、時系列データの例：
論文１ＡＢＣ１９９０
論文２ＡＣＤ１９９１
論文３ＡＢＥ１９９２
のようなデータが与えられた場合、
Ａの初出を１９９０とし、Ｂ−Ｅの出現年を１９９０より前の出現年とする。
【００６６】
そして、Ａと共起した回ごと点数を加算し、もっとも高い点数の共起語を、Ａの先祖データと考える。
得点の与え方はＡの出現した最初の論文から順に、１，ａ，ａ＾２，ａ＾３を与える。ａは実験で定めるパラメータである。ただし、初出年が自分より後のものは先祖にならない。
【００６７】
このとき、ａ＝０．５とすると、
Ｂ−−−１＋０．２５＝１．２５
Ｃ−−−１＋０．５＝１．５
Ｄ−−−０．５
Ｅ−−−０．２５
のようになり、Ｃの得点が最も高いので、ＣをＡの先祖と考える。
【００６８】
そのため、本実施形態の情報解析装置１０００を用いれば、時系列的なデータを分析し、変遷情報を抽出することができる。例えば、論文の書誌情報（論文のタイトル、著者、発表年を含むもの。多数の論文に関する書誌情報を含む。）から、研究者の変遷情報（研究者の先輩後輩の関係の情報）を取り出すことができる。
【００６９】
＜変形例１：分野名の変遷情報の推定方法＞
［スキームの説明］
本変形例のスキームも、著者を特定するための情報を含む著者情報の一種である「人名」の代わりにタイトルのキーワードの一種である「分野名」を用いることを除いては、基本的には人名の変遷情報の推定方法のスキームと同じである。
【００７０】
ここで、人名の場合には、言語処理学会年次大会の論文の電子データは既に標準データの形式で人名の欄が設けられており、そのまま電子データから人名の情報を抽出することができる。しかしながら、本変形例では、上記の実施形態で説明したＡ、Ｂ、Ｃなどは、人名ではなく、論文のタイトルに出現するキーワードを利用する。
【００７１】
論文タイトルからのキーワードの取り出しには既存の技術が利用可能である。例えば、形態素解析システムＣｈａＳｅｎを使うと単語の分割と品詞推定ができる。そこで名詞のみを取り出すことでキーワードを取り出せる。また、既存のキーワード抽出ソフトの利用も可能である。例えばｇｅｎｓｅｎなどを好適に用いることができる。また、上記の実施形態では、著者の人名の解析を行って研究者間の先輩後輩関係を取得したが、本変形例のようにタイトルの単語（キーワード）で行うと、タイトルの単語は重要単語であることが多く、タイトルの単語が研究分野を意味することがあり、研究分野の変遷の情報（どの研究分野からどの研究分野が生まれたかを見ることができる。
【００７２】
具体的には、本変形例では、「言選」を使用し、論文データのタイトル(またはアブストラクトも含めてもよい。ただし本変形例ではタイトルのみを利用する。)から名詞連続を取り出し、不要な語を人手で省くこととした。
【００７３】
もっとも、例えば言語処理学会年次大会の論文の電子データの論文タイトルからのキーワードの取り出しは、外部のサーバ１２６からネットワーク１２５を介して行ってもよい。例えば、自然言語処理（言語処理学会誌），２０００年４月，７巻，２号，ｐ．１４１〜ｐ．１６０に記載されている手法を好適に用いることができる。具体的には、確立型手法の一つのＲｏｂｅｒｔｓｏｎの２―ポアソンモデルを用いることができる。すなわち、ＴＦ＊ｌｏｇ（Ｎ／ＤＦ）または、後述する
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w∈Wで加算
の式で表すΣで加算する前のものを単語ｗの重みとし、その単語の重みの高いものを取り出す方法である。また、電子情報通信学会、２００３年１２月，８６巻，１２号，ｐ．９５９−９６３に記載されている手法を好適に用いることができる。具体的には、質問応答システムの一般的構成を応用したモデルを用いることができる。すなわち、解表現の推定、文書検索、解の抽出の３ステップを含む質問応答システムを応用したキーワードの抽出モデルである。また、情報処理学会、自然言語処理研究会、２００４−ＮＬ−１６０、２００４年、九州大学に記載されている手法を好適に用いることができる。具体的には、質問応答システムの精度向上のために複数の記事から得られた解の候補の得点を加算する（その際、単純に得点を加算せず、得点を少しずつ減らしながら加算する）ことで複数の記事の情報を利用するモデルである。
【００７４】
なお、これらの文献に記載されている得点を少しずつ減らしながら加算する手法を単純に川中ら（非特許文献１）の技術に組み合わせたとしても、本実施形態の解析方法と同じような優れた効率及び精度の解析を行うことは困難である。なぜなら、川中らの技術では、文献同士の時系列的な関係を重視せず、ＡＥＭＩ値を指標として用いているために、本来頻度が高く正解であっても他の人名（または分野名）ともよく共起しているものはＡＥＭＩ値が下がってしまうので、このＡＥＭＩ値を算出する過程で得点を減らしながら加算する手法を用いたとしても精度の高い変遷状態の解析を行うことは困難だからである。一方で、本実施形態で採用した解析方法は、ＡＥＭＩ値を指標として用いるのではなく、あくまでも文献同志の時系列的な関係に着目してその時系列に応じて得点を減らしながら加算する手法を用いたために、このような精度の高い解析を効率よく行うことを可能にしたものである。
【００７５】
また、川中ら（非特許文献１）の技術に記載されている変遷情報を取り出したいという課題に対して、これらの文献に記載されている得点を少しずつ減らしながら加算する手法を組み合わせるための動機付けは、川中ら（非特許文献１）にもこれらの文献にも記載されていない。例えば、自然言語処理（言語処理学会誌），２０００年４月，７巻，２号，ｐ．１４１〜ｐ．１６０に記載されている手法では、Ｋ_位置は記事中でのキーワードの位置で重みを変更するものであり、タイトルにあれば大きい値とし、記事中での位置が最初のものを加点し、後ろのものを減点するということをしている。しかしながら、この手法では、Ｋ_位置はあくまでも空間的な位置関係に着目して得点を少しずつ減らしながら加算するための係数であり、空間的な位置関係とは異なる概念である時系列的な関係に着目するものではない。よって、仮に中ら（非特許文献１）の技術に記載されている変遷情報を取り出したいという課題に対して、例えば自然言語処理（言語処理学会誌），２０００年４月，７巻，２号，ｐ．１４１〜ｐ．１６０に記載されている手法を単純に組み合わせたところで、本実施形態の手法と同様の作用効果を得ることは困難である。
【００７６】
また、情報処理学会、自然言語処理研究会、２００４−ＮＬ−１６０、２００４年、九州大学に記載されている手法では、複数の記事から得られた解の候補の得点を少しずつ減らしながら加算する（ｉ番目の解の候補にはｋ^{（ｉ−１）}の重みをかけておいてその後で得点を加算する）手法を用いている。しかしながら、この手法では、解の候補に与えられる得点はあくまでも質問応答システムの応答結果におけるキーワードのマッチングの程度などに応じて与えられる得点であり、キーワードのマッチングの程度とは異なる概念である時系列的な関係に着目するものではない。よって、仮に川中ら（非特許文献１）の技術に記載されている変遷情報を取り出したいという課題に対して、例えば情報処理学会、自然言語処理研究会、２００４−ＮＬ−１６０、２００４年、九州大学に記載されている手法を単純に組み合わせたところで、本実施形態の手法と同様の作用効果を得ることは困難である。
【００７７】
［装置の構成の説明］
本変形例の装置構成も基本的には上記の実施形態の図２及び図３の装置構成と同様である。しかし、この変形例では、解析すべき対象が人名ではなく研究分野名であるため、標準的なデータ形式の論文の電子データに含まれるタイトルの欄はそのままではどこがキーワードかわからない。そのため、まずは、タイトルの欄が形態素解析部１０８にて品詞毎に分割される。形態素解析部１０８で用いる日本語の形態素解析エンジンとしては、以下のものを好適に活用できる。
【００７８】
KAKASI（kanji kana simple inverter）、kakasi.namazu.org
MeCab（和布蕪）、mecab.sourceforge.net
ChaSen（茶筌）、chasen.naist.jp
Juman、nlp.kuee.kyoto-u.ac.jp
Sen（MeCabのJava(登録商標)への移植）、ultimania.org、sen.dev.java.net
日本語形態素解析Webサービス（Yahoo!デベロッパーネットワーク）、developer.yahoo.co.jp
【００７９】
これらの中でも、例えば、公知の形態素解析ツールであるＣｈａｓｅｎを用いることが好ましい。Ｃｈａｓｅｎを用いれば、日本語文を分割し、さらに、各単語の品詞も推定することができる。Ｃｈａｓｅｎを用いた日本語文の分割例を説明する。
【００８０】
例えば，「学校へ行く」を入力すると以下の結果を得る。
【００８１】
学校ガッコウ学校名詞− 一般
へヘへ助詞−格助詞−一般
行くイク行く動詞−自立五段・カ行促音便基本形
ＥＯＳ
各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
【００８２】
なお、英語の品詞タグつけシステムとしてはBrill（Transformation-Based Error-Dri
Ven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol.21, No.4, p.543-565, 1995. 参照）のものが有名であり、英語文の各単語の品詞を推定することができる。
【００８３】
また、標準的なデータ形式になった時系列的テキストデータは、キーワード抽出部１１０にて品詞毎に分割される。キーワード抽出部１１０で用いる日本語のキーワード抽出エンジンとしては、Gensen（言選）gensen.dl.itc.u-tokyo.ac.jpを好適に活用できる。上記のスキームによれば、この「言選」を使用し、論文データのタイトル(またはアブストラクトも含めてもよい)から名詞連続を取り出す。なお、この際に、キーワード抽出部１１０で抽出されたキーワードのうちノイズと思われる不要な語をさらに人手で省いてもよい。
【００８４】
さらに、形態素解析部１０８には、重要キーワードの自動抽出の精度を高めるために以下のＴＦ及びＩＤＦを用いたＴＦ／ＩＤＦ法を行う機能が搭載されていてもよい。一般にＴＦとＩＤＦの積が大きい語ほど重要キーワードとして妥当なものとなる。
ＴＦ−−−その文書でのその語の出現回数
ＩＤＦ−−−その語があらかじめ持っている多数の文書のうち，何個の文書に出現するかのその個数の逆数
【００８５】
ここで、ＩＤＦを求めるためには、論文が複数必要である。そのため、例えば、複数の論文を用意して、その一つひとつを文書として扱ってＩＤＦを求めることが好ましい。あるいは、ＩＤＦは論文のデータ以外のデータで求めて，それを本変形例のＩＤＦを求めるためのデータに使ってもよい。すなわち、論文に限らず文書データを集めて、それぞれの文書を一つ一つの文書と考えてＩＤＦを求めてもよい。このようにして求めたＩＤＦを本変形例のＩＤＦに使うことができる。ＴＦについては、一つの文書での出現回数であるため、本変形例では複数の論文の電子データ全体での出現回数とすればよい。
【００８６】
厳密には、TF・IDF法をカスタマイズした本変形例の方法では、以下の計算を行う。
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w∈Wで加算
W はユーザが入力するキーワードの集合。
tf(w,D) は文書D での w の出現回数。
df(w) は全文書で w が出現した文書の数。
N は文書の総数。
score(D) が高い文書を検索結果として出力する。
length は記事Dの長さ。
delta は記事の長さの平均。
記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。
【００８７】
なお、上記説明した箇所以外は上記の実施形態の人名の変遷情報の推定方法と同様である。
【００８８】
［装置の作用効果の説明］
言語処理学会年次大会の論文１９９５年から２０１０年の３、１３９件のデータを使用し、分野名のルーツとなるものを抽出した。出力例を以下の表３に示す。
【００８９】
【表３】

【００９０】
なお、分野名と同時に表記される括弧の中身は、その分野名が初出現した年号である。また、抽出したものの例を表４に示す。この例は、ａ＝０．５のものである。なお、表４に列挙したいずれの分野名の変遷関係についても正解である。
【００９１】
分野名の変遷
【表４】

【００９２】
このように、本実施形態の情報解析装置１０００を用いれば、特定の分野名が初出した言語処理学会年次大会の論文を基準として、他の言語処理学会年次大会の論文に時系列的な重み付けをされたパラメータ（ｐｒａｍｅｔｅｒ＝ａ）を付与するため、言語処理学会年次大会の論文に出現するタイトルのキーワードである分野名同士の変遷関係を効率及び精度よく把握することができる。
繰り返しになるが、要約して説明すると、本実施形態では、上述の実施形態で説明したＡ、Ｂ_１、Ｂ_２などは、著者の人名ではなく、代わりに論文のタイトルに出現するキーワードを利用する。論文タイトルからのキーワードの取り出しには既存の技術が利用可能である。例えば、形態素解析システムＣｈａＳｅｎを使うと単語の分割と品詞推定ができる。そこで名詞のみを取り出すことでキーワードを取り出せる。また、既存のキーワード抽出ソフトの利用も可能である。例えばｇｅｎｓｅｎを用いることができる。
【００９３】
そして、著者の人名ではなく、タイトルの単語（キーワード）で上記の実施形態と同様の解析を行うと、タイトルの単語は重要単語であることが多く、タイトルの単語が研究分野を意味することがあり、研究分野の変遷の情報（どの研究分野からどの研究分野が生まれたかを見ることができる。
【００９４】
＜変形例２：二段階処理＞
［スキームの説明］
本変形例のスキームも、後述する二段階処理を行う点を除けば、基本的には分野名の変遷情報の推定方法のスキームと同じである。すなわち、本変形例では、タイトルから得た単語を分野名として利用することで、分野の変遷情報を取得できることはすでにのべた通りであるが、これの発展として、分野間の関連性をより多く取るために後述する二段階処理を行う。
【００９５】
具体的には、以下のような論文が与えられた場合、
論文１タイトル中の単語Ａ、単語Ｂ、単語Ｃ
論文２タイトル中の単語Ｂ、単語Ｂ１、単語Ｂ２
論文３タイトル中の単語Ｃ、単語Ｃ１、単語Ｃ２
単語Ｂ、Ｃ、Ｂ１、Ｂ２、Ｃ１、Ｃ２は論文１より前に出ており、
単語Ａは論文１で初出、論文２、３は論文１より前に出ているとする。
【００９６】
このとき、変形例１では、単語Ｂ、単語Ｃにしか得点を与えなかったが、論文２より、単語Ｂ１、Ｂ２も単語Ｂを介して単語Ａと関係があると考え、単語Ｂ１、Ｂ２にも得点を与える。ただし、単語Ｂに与える得点に重みｋ１（ｋ１＜１）をかけた値にする。単語Ｃ１、Ｃ２にも同様に得点を与える。
【００９７】
さらに、以下の論文４が論文１より後に出現したとする。
論文４タイトル中の単語Ａ、単語Ｃ
論文３タイトル中の単語Ｃ、単語Ｃ１、単語Ｃ２
【００９８】
この場合、単語Ｃには、変形例１ではａ（ａ＜１）くらいの得点が与えられるが、単語Ｃ１、Ｃ２にもａ＊ｋ１の得点を与える。上記処理の得点の与え方は他のバリエーションがあってもよい。ここで重要なのは、直接の共起のある単語以外の単語にも得点を与えることである。すなわち、直接の共起のない単語もルーツとして取り出すことができことが本技術の特徴である
【００９９】
［装置の構成の説明］
図５は、本変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例の装置構成も基本的には上記の実施形態の図２及び図３の装置構成と同様である。しかし、この変形例では、直接の共起のある単語以外の単語にも得点を与えるため、図５に示すように、本変形例に係る情報解析装置１０００には間接共起情報抽出部１１３及び関連係数付与部１１５が設けられている点で異なっている。
【０１００】
この間接共起情報抽出部１１３は、複数の異なる時系列的テキストデータから、共起情報を介して解析対象情報と間接的に共起する他の同属性の間接共起情報を抽出するように構成されている。すなわち、上記のスキームによれば、この間接共起情報抽出部１１３では、論文１で単語Ａと共起している単語Ｂを介して、論文２において単語Ｂ_１、Ｂ_２も単語Ｂを介して間接的に単語Ａと共起していると扱う。
【０１０１】
また、この関連係数付与部１１５は、間接共起情報を含む時系列的テキストデータに対して、解析対象情報及び間接共起情報の関連性の強さに応じて関連係数を付与するように構成されている。すなわち、上記のスキームによれば、この関連係数付与部１１５では、単語Ｂを介して間接的に単語Ａと共起している単語Ｂ_１、Ｂ_２にも関連性の強さに応じて得点を与える。具体的には、単語Ｂに与える得点に後述する出現頻度算出部３０２で算出される重みｋ１（ｋ１＜１）をかけた値にする。
【０１０２】
図６は、実施形態の変形例に係る情報解析装置の関連係数付与部及び集計部の構成について説明するための機能ブロック図である。図６に示すように、本変形例では、関連係数付与部１１５は、共起情報を介して解析対象情報と間接的に共起する複数の種類の間接共起情報の相対的な出現頻度に応じて関連係数を算出する出現頻度算出部３０２を有する。また、関連係数付与部１１５は、単語Ａと間接的に共起しているすべての間接共起情報を集計する間接集計データ取得部３０４を有する。この間接集計データ取得部３０４の収集した単語Ａと間接的に共起しているすべての間接共起情報のうちで単語Ｂ１、Ｂ２はどの程度の頻度で出現しているかに応じて、現頻度算出部３０２が関連係数を算出する。ここで、本変形例のように二段階の共起を行う場合には共起数が増えすぎ時系列係数を加算しすぎになり、かえって解析の効率及び精度を低下させる可能性がある。そこで、解析対象情報がＡの場合に、直接共起情報であるＢから間接共起情報であるＢ_１、Ｂ_２への共起を考える際のＢの総出現数でｋ１を割った値をＢ１の得点とすることもできる。この場合、ｋ１は１より小さくても大きくてもよいが、解析精度の効率及び精度の面からは小さいほうが好ましい。
【０１０３】
また、図６に示すように、本変形例では、集計部１１６は、共起情報を含む複数の時系列的テキストデータに付与されている時系列係数を共起情報ごとに集計する直接集計部３０６を有する。直接集計部３０６の機能については、上記の実施形態において説明した図２に示す集計部１１６の機能と同様であるため説明を省略する。
【０１０４】
一方、本変形例では、集計部１１６は、上記の実施形態において説明した図２に示す集計部１１６の場合と異なり、間接共起情報を含む複数の時系列的テキストデータに付与されている時系列係数及び前記関連係数を統合して得られる統合指標を間接共起情報ごとに集計する間接集計部３０８を有する。すなわち、この間接集計部３０８では、以下のような集計作業が行われる。
【０１０５】
具体的には、上記のスキームにおいて、この間接集計部３０８では、単語Ｂ１、単語Ｂ２を含む論文にｋ１（ｋ１＜１）の得点を与え、単語Ｃ１、単語Ｃ２を含む論文にａ＊ｋ１の得点を与え、これらの得点を単語Ｂ１、単語Ｂ２、単語Ｃ１、単語Ｃ２毎に集計して統合指標が算出される。
【０１０６】
［装置の作用効果の説明］
本変形例でも、変形例１の場合と同様に、著者の人名ではなく、タイトルの単語（キーワード）で上記の実施形態と同様の解析を行うと、タイトルの単語は重要単語であることが多く、タイトルの単語が研究分野を意味することがあり、研究分野の変遷の情報（どの研究分野からどの研究分野が生まれたかを見ることができる。
【０１０７】
また、本変形例に特有の作用効果として、直接の共起のある単語以外の単語にも得点を与えるため、例えば複数の研究分野同士が同じ研究手法を介して間接的に共起しているような場合にも、それらの研究分野同志の変遷状態を解析することが可能になる。
【０１０８】
すなわち、本変形例では、タイトルの単語（キーワード）から、解析対象のキーワードと間接的に共起する他の同属性のキーワードを抽出する。また、このとき、解析のキーワード及び間接的に共起する他の同属性のキーワードの関連性の強さに応じてｋ１（ｋ１＜１）の関連係数を付与して、時系列係数ａ及び関連係数ｋ１を統合して得られる統合指標を算出する。ここで、この関連係数ｋ１は、複数の種類の間接的に共起する他の同属性のキーワードの相対的な出現頻度に応じて算出される。このため、例えば複数の研究分野同士が同じ研究手法を介して間接的に共起しているような場合にも、それらの研究分野同志の変遷状態を効率及び精度良く解析することが可能になる。
【０１０９】
＜変形例２：二段階処理＞
［スキームの説明］
図５は、本変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例のスキームも、あらかじめ機械学習を行って好適な係数を求める点を除けば上述の二段階処理を行うスキームと同じである。すなわち、本変形例でも、二段階処理を行ってタイトルから得た単語を分野名として利用することで、分野の変遷情報を取得できることはすでにのべた通りであるが、これの発展としてあらかじめ好適な係数を求めておくために機械学習を行う。
【０１１０】
ここで、機械学習部１２３による機械学習の手法について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である。
【０１１１】
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。
【０１１２】
機械学習部１２３は、機械学習の手法として、例えば、ｋ近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
【０１１３】
例えば、本実施形態において、あらかじめ時系列テキストデータ取得部を介して正解情報付きの教師データを取得した場合、機械学習部１２３が、ｋ近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いて正解情報に近い結果が得られる好適な係数を導き出す。
【０１１４】
この場合、ランダム係数発生部１２９が乱数表を活用してランダムな係数を発生するので、それらのランダムな係数を機械学習部１２３が関連係数付与部１１５又は時系列係数付与部１１４に伝達して、ランダムな係数による変遷状態の解析が行われる。そしてその解析結果は機械学習部１２３にフィードバックされて正解情報と照らし合わされることによって、機械学習部１２３はランダムな係数の中から好適な係数を選択する。こうして選択された好適な係数が学習結果記憶部１２７に格納される。こうして得られた好適な係数は後に正解が未知の時系列テキストデータを用いて変遷状態の解析を行う場合に関連係数付与部１１５又は時系列係数付与部１１４に呼び出されて解析に用いられる。
【０１１５】
本変形例では、あらかじめ互いの変遷関係の分かっている解析対象情報及び対応情報を含む複数の異なる時系列的テキストデータを用いて変遷状態の解析を行った場合に好適な解析結果が得られる係数を、ランダム係数発生部１２９が乱数表を活用してランダムな係数の中から機械学習部１２３が機械学習して学習結果記憶部１２７に格納しておく。そのため、本変形例では、正解が未知の時系列テキストデータを用いて変遷状態の解析を行う場合に、関連係数付与部１１５又は時系列係数付与部１１４に呼び出されて解析に用いることができるので、変遷状態の解析を好適条件で行うことができる。
【０１１６】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【０１１７】
例えば、上記実施の形態では時系列的データを論文としたが、時系列的な要素を有していれば論文以外のデータとしてもよい。このように論文以外でも同じことは可能であり、新聞記事のタイトルで行うと、社会動向がどういう概念からどういう概念に変遷したかがわかる。」
【０１１８】
また、上記実施の形態では日本語データを解析対象としたが、言語横断的な解析を行っても良い。すなわち、複数の言語のテキストデータを含む時系列的データを用いることもできる。この場合、ある言語から他の言語への翻訳方法としては、訳語辞書で翻訳する方法と、既存の翻訳システムで翻訳する方法が挙げられる。訳語辞書とは、car -- 車、house -- 家のように訳語が対になって表記されているものであり、単語マッチで変換して利用することができる。具体的には、書誌情報のうち、日本語と英語の混ざっている書誌情報の場合は、例えば翻訳ソフトや、対訳の単語対を記載した表を使って、すべて日本語に翻訳してから、処理するということも可能である。
【０１１９】
また、上記実施の形態では時系列的テキストデータを出現年毎に分類した上で、出現年に対応する時系列係数ａを付与する構成としたが、特に限定する趣旨ではない。例えば、時系列的テキストデータの出現順序に応じて重み付けされた時系列係数ａを付与する構成にしてもよい。すなわち、上記の実施形態において、人名Ａを含む論文の著者名データ１０件の、年毎に出てきた著者名データに含まれる人名すべてに重みａ^ｉ−１（ｉ＝出現年−初出現年、ａ＜１）をつける代わりに、人名Ａを含む論文の初出現を１番目とした上で、人名Ａを含む論文の出現順に著者名データに含まれる人名すべてに重みａ^ｉ−１（ｉ＝出現順、ａ＜１）をつける。例えば、初出現の論文の著者名データに出現する人名すべてに重み１、２番目に出てきた論文の著者名データに出現する人名すべてに重み１×ａ、３番目に出てきた論文の著者名データに出現する人名すべてに重み１×ａ×ａ、．．．を与える。このように出現順に重みを付与する。この例では、初出現の論文の著者名データに出現する人名が一番重要と考え、一番大きい重みをつける。
【実施例】
【０１２０】
以下、本発明を実施例によりさらに説明するが、本発明はこれらに限定されるものではない。
【０１２１】
［実施形態（変形例を含む）の評価実験］
上記の実施形態（変形例を含む）の作用効果が先行技術よりも優れていることを示すために、先行技術との対比結果を示す実施例について以下説明する。まず、人名Ａとして４４件、分野名Ａとして３２件を使用し本実施例の正解率を算出した。評価は言語処理学会に精通している人物が行った。結果として出力された人名Ｂ（または分野名Ｂ）の部分はランダムに表示して評価を行っている。評価の基準を次に示す。
【０１２２】
人名言語処理学会に初めて発表した当時の指導的立場の人。
分野名言語処理学会においてルーツである分野名１つとして考えられるもの。
【０１２３】
この評価基準に適するものを正解とする。システムの出力の１番目に正解を持つ場合に得点１を付け、合計を出し、すべての件数で割る。なお、正解と同じ点数を持つものがｎ個存在する場合、得点１／ｎ点をつける。
【０１２４】
また、人名Ｂ（分野名Ｂ）が出現した論文が２個以上ない場合、データ不足とし評価対象に入れていない。実験結果を以下の表５（人名の実験結果）、表６（分野名の実験結果）に示す。
【０１２５】
本実施例の人名の実験結果
【表５】

【０１２６】
本実施例の分野名の実験結果
【表６】

【０１２７】
結果は、総合すると人名はａとして０．１から０．７、分野名はａとして０．１から０．９が比較的良い正解率を出すことがわかった。また、ａ＝０は最初に共起したもののみ考慮した場合であり、これより重み付けを行って複数の出現を考慮したものの方が正解率が高い。ａ＝１．０は複数の出現は考慮するが重みづけを行わず出現回数のみを考慮した場合であり、これも他と比べて正解率が低い。これより、本実施例のように重み付けをし複数の出現を考慮した方が性能が高いことがわかった。
【０１２８】
［先行研究との比較実験］
川中らの先行研究では、ソーシャルブックマークサービス（ＳＢＭ）を解析することで研究を行っている。ＳＢＭとはＷｅｂ上のブックマーク管理、共有サービスのことである。先行研究では、Ｗｅｂ上の様々なドキュメントについてユーザが付与したタグを用いている。今回本実験では、論文のデータを用いて、本実施例と先行研究の手法の比較実験を行う。
【０１２９】
先行研究の手法を用いた実験の手法を示す。
手順１本実施例と同様。
手順２人名Ａを含む著者名データを取り出し、その中より出現年の早いものからｍ件の著者名データを取り出す。
手順３そのｍ件の著者名データから共起している人名すべてを人名Ｂの候補として取り出し、相互情報量に基づく方法で共起度を測り、順に並べる。
手順４本実施例と同様。
【０１３０】
先行研究の手法を用いた分野名の変遷情報の推定方法については、手順１は本実施例の方法と同様であり、手順２からは先行研究の手法を用いた人名の変遷情報の推定方法と同様とした。
【０１３１】
川中らの先行研究は、上記の通り相互情報量に基づく方法で共起性の高いものを取り、かつ初出現時期が先のものをルーツとする手法を使用していることが本研実施例と異なっている。川中らの手法では、共起度の指標としてＡＥＭＩ（ＡｕｇｍｅｎｔｅｄＥｘｐｅｃｔｅｄＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎ）を用いている。ＡＥＭＩは確率を考慮した精細な共起度を測るための指標であり、次の式（２）及び（３）のように示される。
【０１３２】
【数５】

【０１３３】
この場合、Ｐ（ａ）は人名Ａが出現する確率であり、Ｐ（ａ、ｂ）は人名Ａと人名Ｂが共起する確率である。更に、
【数６】

は人名Ａが出現しない確率を表す。ＭＩは共起率を評価するための一つの指標であり、ＡＥＭＩはＭＩを組み合わせることで、スケールを考慮した確率的な共起度の高さを測ることができる。この式に従い、共起度を求めて一番大きいものをその人名（または分野名）のルーツとする。
【０１３４】
先行研究の手法を用いた実験を行った。結果を表７（人名の実験結果）、表８（分野名の実験結果）に示す。
なお、上記の手順２で用いる「最初の著者名ｍ件」のｍの値を１から１０に変化させ、違いを見る。
【０１３５】
先行研究の人名の実験結果
【表７】

【０１３６】
先行研究の分野名の実験結果
【表８】

【０１３７】
この実験ではどちらもｍ＝１が一番正解率が高かった。結果としては、本実施例は人名で０．４〜０．６、分野名で０．４〜０．４８の正解率であり、先行研究の手法（最大で人名で０．２５、分野名で０．３９の正解率）よりも本実施例の方が正解率が高かった。先行研究と結果が大きく差がついている原因は、本来頻度が高く正解であっても他の人名（または分野名）ともよく共起しているものはＡＥＭＩ値が下がってしまうためである。以下の表９及び表１０に例を示す。
【０１３８】
【表９】

【０１３９】
【表１０】

【０１４０】
この場合、「柏岡秀紀」が正解であり、本実施例の実験結果は正解を出しているが、先行研究の手法を使った実験結果は「柏岡秀紀」が下に表示され不正解となっている。なお、それぞれの方法で一番精度の良い結果をのせる（本実施例はａ＝０．６のもの、先行研究の方ではｍ＝１のもの）。
【０１４１】
上記の実施形態（及び変形例）では研究情報の関係概念を自動的に抽出する新しい方法を提案した。その結果、本実施例で実証したようにルーツとなる人名または分野名を得ることができた。また、本実施例では重み付けを行ったが，重み付けをした本実施例の方（人名で０．５８〜０．６０、分野名で０．４８の正解率）が重み付けをしない方法（人名で０．４１〜０．４５、分野名で０．４〜０．４５の正解率）より性能が高いことも確認した。さらに、先行研究との比較実験を行い、提案手法が先行研究の手法（最大で人名で０．２５、分野名で０．３９の正解率）よりも性能が高いことを確認した。
【０１４２】
以上、本発明を実施例に基づいて説明した。この実施例はあくまで例示であり、種々の変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【符号の説明】
【０１４３】
１０２時系列的テキストデータ取得部
１０４解析対象情報取得部
１０６正規化部
１０８形態素解析部
１１０キーワード抽出部
１１２共起情報抽出部
１１３間接共起情報抽出部
１１４時系列係数付与部
１１５関連係数付与部
１１６集計部
１１８変遷状態解析部
１２０出力部
１２２画像表示部
１２３機械学習部
１２５ネットワーク
１２４操作部
１２６サーバ
１２７学習結果記憶部
１２９ランダム係数発生部
１２８ＯＣＲ装置
１３０画像表示部
１３２プリンタ
１３４サーバ
１３８ネットワーク
２０２順序判定部
２０４出現順ソート部
２１０順序係数抽出部
２１２時間距離判定部
２１４時間差計算部
２１６順序係数記憶部
２１８時間差係数記憶部
２２０時間差係数抽出部
２２２係数計算部
２２４漸減係数計算部
３０２出現頻度算出部
３０４間接集計データ取得部
３０６直接集計部
３０８間接集計部
１０００情報解析装置

【特許請求の範囲】
【請求項１】
時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置であって、
複数の異なる時系列的テキストデータを取得する時系列的テキストデータ取得部と、
解析の対象となるテキスト情報を取得する解析対象情報取得部と、
前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出する共起情報抽出部と、
前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する時系列係数付与部と、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する集計部と、
前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析する変遷状態解析部と、
前記変遷状態を出力する出力部と、
を備える、情報解析装置。
【請求項２】
請求項１に記載の情報解析装置において、
前記時系列係数付与部が、前記他の時系列的テキストデータの出現順序に応じて重み付けされた時系列係数を付与する順序判定部を有する、
情報解析装置。
【請求項３】
請求項１に記載の情報解析装置において、
前記時系列係数付与部が、前記他の時系列的テキストデータと初出した時系列的テキストデータとの時間的距離に応じて重み付けされた前記時系列係数を付与する時間距離判定部を有する、
情報解析装置。
【請求項４】
請求項１〜３のいずれかに記載の情報解析装置において、
前記時系列係数付与部が、前記重み付けを解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まるように行う係数計算部を有する、
情報解析装置。
【請求項５】
請求項１〜４のいずれかに記載の情報解析装置において、
前記複数の異なる時系列的テキストデータから、前記共起情報を介して前記解析対象情報と間接的に共起する他の同属性の間接共起情報を抽出する間接共起情報抽出部と、
前記間接共起情報を含む時系列的テキストデータに対して、前記解析対象情報及び前記間接共起情報の関連性の強さに応じて関連係数を付与する関連係数付与部と、
をさらに備え、
前記集計部が、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する直接集計部と、
前記間接共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数及び前記関連係数を統合して得られる統合指標を前記間接共起情報ごとに集計する間接集計部と、
を有し、
前記変遷状態解析部が、前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報及び前記間接共起情報との間の時系列的な変遷状態を解析可能に構成されている、
情報解析装置。
【請求項６】
請求項５に記載の情報解析装置において、
前記関連係数付与部が、前記共起情報を介して前記解析対象情報と間接的に共起する複数の種類の間接共起情報の相対的な出現頻度に応じて関連係数を算出する出現頻度算出部を有する、
情報解析装置。
【請求項７】
請求項１〜６のいずれかに記載の情報解析装置において、
前記時系列係数付与部が、あらかじめ互いの変遷関係の分かっている前記解析対象情報及び前記対応情報を含む前記複数の異なる時系列的テキストデータを機械学習して、解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まるようにパラメータを算出する機械学習部を有する、
情報解析装置。
【請求項８】
請求項１〜７に記載の情報解析装置において、
前記解析対象情報が、著者を特定するための情報を含む著者情報である、
情報解析装置。
【請求項９】
請求項１〜７に記載の情報解析装置において、
前記解析対象情報が、タイトルのキーワードである、
情報解析装置。
【請求項１０】
請求項１〜９に記載の情報解析装置において、
前記変遷状態解析部が、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を木構造で表示するためのデータを生成するように構成されている、
情報解析装置。
【請求項１１】
時系列情報とテキスト情報とを含む時系列的テキストデータを解析する方法であって、
複数の異なる時系列的テキストデータを取得するステップと、
解析の対象となるテキスト情報を取得するステップと、
前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出するステップと、
前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与するステップと、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計するステップと、
前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析するステップと、
前記変遷状態を出力するステップと、
を含む、情報解析方法。
【請求項１２】
時系列情報とテキスト情報とを含む時系列的テキストデータを解析するためのプログラムであって、
複数の異なる時系列的テキストデータを取得するステップと、
解析の対象となるテキスト情報を取得するステップと、
前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出するステップと、
前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与するステップと、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計するステップと、
前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析するステップと、
前記変遷状態を出力するステップと、
をコンピュータに実行させる、プログラム。

【図１】