説明

時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置

【課題】文献に出現するキーワード同士の変遷状態を効率及び精度よく把握するための解析技術を提供する。
【解決手段】時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置であって、複数の異なる時系列的テキストデータを取得する時系列的テキストデータ取得部と、解析の対象となるテキスト情報を取得する解析対象情報取得部と、前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出する共起情報抽出部と、前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する時系列係数付与部と、前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する集計部と、前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析する変遷状態解析部と、前記変遷状態を出力する出力部と、を備える、情報解析装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置に関する。
【背景技術】
【0002】
研究者にとって、研究者や研究分野の変遷を知ることは必要不可欠である。これを知るためには一般的に、Webや検索エンジンを使用して情報を得る方法があげられるが,これは網羅的に収集するのが困難であり、かつ多大な労力を要する。
【0003】
例えば、特許文献1には、キーワード毎の文書の発表件数の動向が一目で把握できるような形式で、キーワード毎の発表件数の推移を自動的に表示する技術が記載されている。
【0004】
また、川中ら(非特許文献1)は、ソーシャルブックマークにおける概念を記述するタグを解析することで、概念の派性関係(概念の変遷情報)を自動的に抽出している。
【0005】
松尾ら(非特許文献2)は、Web上の情報を用いて共起の強さから人物の関係性の強さを推定し、かつ「共著関係」や「同研究室関係」などの社会的関係性を判別し、その情報が示された人間関係ネットワークを作成している。
【0006】
Adarら(非特許文献3)はブログ上での情報の流れについて、テキストの類似度、リンク、時間情報を元に解析するモデルを提案している。
【0007】
丹羽ら(非特許文献4)はソーシャルブックマークにおけるユーザベースの共起度とドキュメントベースの共起度を比較することで、Synonymと呼ばれる同じ意味で用いられる語を共起度の高い精度で発見する手法を提案している。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2007−79899号公報
【非特許文献】
【0009】
【非特許文献1】川中翔、佐藤周行:“ソーシャルブックマークにおけるタグの派性関係の解析”、第1回データ工学と情報マネジメントに関するフォーラム、pp.1−8、2009
【非特許文献2】松尾豊、友部博教、橋田浩一、中島秀之、石塚満:“Web上の情報からの人間関係ネットワークの抽出”、人工知能学会、pp.46−56、2005
【非特許文献3】Adar,E.Adamic,L.A.: “Tracking Information Epidemics in Blogspace”,In Proceedings of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence,pp.207-214,2005.
【非特許文献4】丹羽智史、土肥拓生、本位田真一:“Folksonomyの3 部グラフ構造を利用したタグクラスタリング”、JAWS2006,2006
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、上記文献記載の従来技術は、以下の点で改善の余地を有していた。
第一に、特許文献1の技術では、著者名の先輩・後輩関係、研究分野の先祖・子孫関係などのキーワード同士の変遷状態を把握することは困難である。
【0011】
第二に、非特許文献1〜4の方法も共起情報の解析に利用できるが、著者名の先輩・後輩関係、研究分野の先祖・子孫関係などのキーワード同士の変遷状態を把握する上での効率及び精度の面でさらなる改善の余地があった。例えば、非特許文献1の川中らの手法では、ある種の尺度に基づく方法により、Aと共起の度合いがよいB,C,Dを見つけ、B,C,Dのうち、Aより前に出現していないものを除く。すなわち、川中らの手法では、例えばC,DがAより前に出現していないとするとそれらが取り除かれて、Bだけが残り、Bを先祖のデータと考える。そのため、川中らの手法では、Aが出現した時期に近い時期以外の時期も利用するため、後の時期に直接の関連性なく偶然の要因で共起の度合いが高くなった場合であっても、それを先祖のデータと考える問題がある。
【0012】
本発明は上記事情に鑑みてなされたものであり、文献に出現するキーワード同士の変遷状態を効率及び精度よく把握するための解析技術を提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明によれば、時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置であって、複数の異なる時系列的テキストデータを取得する時系列的テキストデータ取得部と、解析の対象となるテキスト情報を取得する解析対象情報取得部と、前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出する共起情報抽出部と、前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する時系列係数付与部と、前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する集計部と、前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析する変遷状態解析部と、前記変遷状態を出力する出力部と、を備える、情報解析装置が提供される。
【0014】
この構成によれば、解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与するため、文献に出現するキーワード同士の変遷状態を効率及び精度よく把握することができる。
【0015】
なお、上記の装置は本発明の一態様であり、本発明の装置は、以上の構成要素の任意の組合せであってもよい。また、本発明の方法、システム、コンピュータプログラム、(一時的なものでない)記録媒体なども、同様の構成を有する。
【発明の効果】
【0016】
本発明によれば、文献に出現するキーワード同士の変遷状態を従来の手法に比べて効率及び精度よく把握することができる。
【図面の簡単な説明】
【0017】
【図1】実施形態に係る情報解析装置を用いたキーワードの変遷情報の推定方法のスキームについて説明するための概念図である。
【図2】実施形態に係る情報解析装置の構成について説明するための機能ブロック図である。
【図3】実施形態に係る情報解析装置の時系列係数付与部の内部構成について説明するための機能ブロック図である。
【図4】実施形態に係る情報解析装置の動作について説明するためのフローチャートである。
【図5】実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。
【図6】実施形態の変形例に係る情報解析装置の関連係数付与部及び集計部の構成について説明するための機能ブロック図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0019】
<実施形態1:人名の変遷情報の推定方法>
[スキームの説明]
図1は、本実施形態に係る情報解析装置を用いた人名の変遷情報の推定方法のスキームについて説明するための概念図である。以下、本実施形態に係る情報解析装置の構成・動作について人名の変遷情報の推定方法に用いる場合を例に挙げて説明する。
【0020】
一般的に論文の著者として、ある人名Aが出現した最初の時期に同時に共起し(それもなるべく最初の方で多く共起すると良い)、人名Aより初出現年が早い人名Bは、人名Aのルーツ(先輩)である可能性が高いと思われる。この仮説に基づき、本実施形態における人名の変遷情報の推定方法のスキームを図1に示す。
【0021】
図1に示された人名の変遷情報の推定方法のスキームは、以下のとおりである。
手順1 論文から著者名データ(本論文では著者名と共著の人名を合わせたものを著者名データとする)を抽出し、その中から指定した人名を抽出し人名Aとする。
手順2 人名Aを含む著者名データを取り出し、その中より(最初の時期によく共起した情報を取り出したいため)出現年の早いものから10件の著者名データを取り出す。
手順3 その10件の著者名データから共起している人名すべてを取り出し、人名B(jは整数。Bは共起している人名の異なり数だけ設定する。)とする。後述する方法で重みを付け、出現した論文の分だけ人名Bごとにその重みを加算する。
手順4 初出現年が人名Aの初出現年よりも早く、重みが最も大きい人名(人名B)を人名Aのルーツとする。
【0022】
もっとも、上記の著者名データの取り出し件数は10件に限定する趣旨ではなく、単に説明の都合上10件の場合を例に挙げて説明しているだけである。すなわち、上記の著者名データの取り出し件数は、事例に応じて好適な件数を選ぶことができる。その他にも本実施形態において各種の数値を事例として挙げるが、特にそれらの具体的な数値に限定する趣旨ではなく、他の数値であっても好適に用いることができる。
【0023】
本実施形態における人名の変遷情報の推定方法では最初の時期に共起するものほど重要と考え大きな重みを付け、また共起回数が多いほど重要とも考え出現した回数だけ重みを加算するという手法を取る。すなわち、[手順3]で人名Aを含む論文の著者名データ10件の、年毎に出てきた著者名データに含まれる人名すべてに重みai−1(i=出現年−初出現年、a<1)をつける。例えば、初出現年が1990年の場合、1990年に出てきた論文の著者名データに出現する人名すべてに重み1、1991年に出てきた論文の著者名データに出現する人名すべてに重み1×a、1992年に出てきた論文の著者名データに出現する人名すべてに重み1×a×a、...を与える。このように年毎に重みを付与する。この例では、1990年に出てきた論文の著者名データに出現する人名が一番重要と考え、一番大きい重みをつける。その重みを人名ごとに加算し、重みが一番大きいものをその人名の先輩と判断する。
【0024】
xという人名の重みを加算したscore(x)を数式化すると以下の式(1)のようになる。
【0025】
【数1】

【0026】
gi(x):xという人名がその年の論文に出現していれば1,そうでなければ0をとる。後述する変形例における分野名の変遷推定でも同様の方法を取る。なお、aの値は0から1に変化させ、違いを見る。
【0027】
[装置の構成の説明]
図2は、本実施形態に係る情報解析装置の構成について説明するための機能ブロック図である。本実施形態に係る情報解析装置1000は、時系列情報とテキスト情報とを含む時系列的テキストデータを解析するための装置である。この情報解析装置1000を用いれば、上記の人名の変遷情報の推定方法のスキームを効率かつ精度良く実行することができる。
【0028】
この情報解析装置1000は、複数の異なる時系列的テキストデータを取得する時系列的テキストデータ取得部102を備える。上記のスキームによれば、この時系列的テキストデータ取得部102は、論文から著者名データ(本論文では著者名と共著の人名を合わせたものを著者名データとする)を外部から抽出して取得する。例えば、この時系列的テキストデータ取得部102は、時系列的テキストデータを含むデータベースが格納された外部のサーバ126からネットワーク125を介して、時系列的テキストデータを取得する。なお、時系列テキストデータが紙書類のままであり電子化されていない場合には、OCR装置128を用いて紙書類を読み取って電子データ化してからネットワーク125を介して、時系列的テキストデータを取得してもよい。ここで、取得された時系列的テキストデータは、仮に標準的なデータ形式ではない場合には、正規化部106で標準的なデータ形式に変換される。
【0029】
この情報解析装置1000は、解析の対象となるテキスト情報を取得する解析対象情報取得部104を備える。この解析対象情報は、例えば、著者を特定するための情報を含む著者情報であってもよい。上記のスキームによれば、この解析対象情報取得部104は、例えばユーザが操作部124を介して著者名データの中から指定した人名を抽出して解析の対象となるテキスト情報「人名A」として取得する。もっとも、この解析の対象となるテキスト情報は、例えば外部のサーバ126からネットワーク125を介して取得されてもよい。
【0030】
この情報解析装置1000は、複数の異なる時系列的テキストデータから、解析対象情報と共起する他の同属性の共起情報を抽出する共起情報抽出部112を備える。ここで、「共起」とは、自然言語処理の分野において、任意の文書や文において、ある文字列とある文字列が同時に出現することである。上記のスキームによれば、この共起情報抽出部112は、人名Aを含む著者名データを取り出し、その中より(最初の時期によく共起した情報を取り出したいため)出現年の早いものから10件の著者名データを取り出す。すなわち、この共起情報抽出部112は、任意の時系列的テキストデータにおいて、ある解析対象情報とある他の同属性の情報が同時に出現する場合に、該他の同属性の情報を共起情報として抽出する。
【0031】
この情報解析装置1000は、解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する時系列係数付与部114を備える。上記のスキームによれば、この時系列係数付与部114は、年毎に出てきた著者名データに含まれる人名すべてに重みai−1(i=出現年−初出現年、a<1)をつける。もし2年の開きがあった場合は、前前年の重みにa×aを掛算する。
【0032】
具体的には、[手順3]で人名Aを含む論文の著者名データ10件の、年毎に出てきた著者名データに含まれる人名すべてに重みai−1(i=出現年−初出現年、a<1)をつける。例えば、初出現年が1990年の場合、1990年に出てきた論文の著者名データに出現する人名すべてに重み1、1991年に出てきた論文の著者名データに出現する人名すべてに重み1×a、1992年に出てきた論文の著者名データに出現する人名すべてに重み1×a×a、...を与える。このように年毎に重みを付与する。この例では、1990年に出てきた論文の著者名データに出現する人名が一番重要と考え、一番大きい重みをつける。
【0033】
この情報解析装置1000は、共起情報を含む複数の時系列的テキストデータに付与されている時系列係数を共起情報ごとに集計する集計部116を備える。上記のスキームによれば、この集計部116は、人名Aを含む論文に付与された重みai−1を人名Aと共起する他の人名B、B、B、...ごとに集計する。
【0034】
例えば、xという人名(の重みを加算したscore(x)を数式化すると以下の式(1)のようになる。
【0035】
【数2】

【0036】
(x):xという人名)がその年の論文に出現していれば1、そうでなければ0をとる。後述する変形例における分野名の変遷推定でも同様の方法を取る。なお、aの値は0から1に変化させ、違いを見る。
【0037】
図3は、本実施形態に係る情報解析装置の時系列係数付与部の内部構成について説明するための機能ブロック図である。この時系列係数付与部114は、他の時系列的テキストデータの出現順序に応じて重み付けされた時系列係数を付与する順序判定部202を有する。この時系列係数付与部114は、n個目の論文の単語にa^(n−1)の得点を加えるように構成されている。すなわち、この順序判定部202は、解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータを出現順にソートする出現順ソート部204を有する。また、この順序判定部202は、他の時系列的テキストデータを出現年月日順にソートした上で、順序係数記憶部216からそれぞれの順序に応じた順序係数を抽出して、それぞれの時系列的テキストデータに付与する順序係数抽出部210を有する。ここで、順序係数記憶部216に格納されている順序係数は、あらかじめ最適な数値を算出した上で格納されていてもよいが、係数計算部222でその都度最適な数値を算出したものが格納されていてもよい。
【0038】
この時系列係数付与部114は、他の時系列的テキストデータと初出した時系列的テキストデータとの時間的距離に応じて重み付けされた時系列係数を付与する時間距離判定部212を有する。この時間距離判定部212は、n個目の論文に対して得点を与えるというのではなく、n年後の論文の単語にa^(n−1)の得点を加えるように構成されている。すなわち、この順序判定部202は、解析対象情報が初出した時系列的テキストデータと、他の時系列的テキストデータとの間の時間差を計算する時間差計算部214を有する。この時間差計算部214は、解析対象情報が初出した時系列的テキストデータと、他の時系列的テキストデータとの間の絶対的な時間間隔を年・月・日などの単位で計算してもよい。あるいは、この時間差計算部214は、解析対象情報が初出した時系列的テキストデータの属する年と、他の時系列的テキストデータとの属する年との年数差を計算しても良い。同様にして、月数差、週差などを計算することもできる。
【0039】
また、この時間距離判定部212は、解析対象情報が初出した時系列的テキストデータと、他の時系列的テキストデータとの間の時間差を計算した上で時間差係数記憶部216からそれぞれの時間差に応じた時間差係数を抽出して、それぞれの時系列的テキストデータに付与する時間差係数抽出部220を有する。ここで、時間差係数記憶部218に格納されている時間差係数は、あらかじめ最適な数値を算出した上で格納されていてもよいが、係数計算部222でその都度最適な数値を算出したものが格納されていてもよい。
【0040】
この係数計算部222は、解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まるように重み付けを行う漸減係数計算部224を有する。このように解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まる関数としては、例えばai−1(i=出現年−初出現年、a<1)で計算できる指数関数が挙げられる。もっとも、この係数計算部222は、必ずしも指数関数を用いた計算を行う必要はなく、他の関数を用いて計算を行うことも可能である。例えば、この係数計算部222は、単純な線形関数を用いて計算を行うこともできる。
【0041】
なお、このように解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まる関数としては、ai−1(i=出現年−初出現年、a<1)で計算できる指数関数だけでなく、下記の等比級数の和の公式で計算できる関数を用いることもできる。ここで、等比級数とは等比数列の項の総和のことをいい、初項から第n+1項までの和は以下の式で定義される。
【0042】
【数3】

【0043】
この等比数列をずっと足しあわせていった場合にも、一定の値に収束するため、本実施形態において好適に用いることができる。すなわち、初項から全ての項の和を無限級数というが、本実施形態ではaは有限の値であり、0<r<1とするため、この無限級数はn→∞の極限で以下の式で求められる値に収束する。
【0044】
【数4】

【0045】
この漸減係数計算部224は、必要に応じて漸減関数記憶部226から指数関数をはじめとする漸減関数を読みだして、順序係数記憶部216に格納されている順序係数又は時間差係数記憶部218に格納されている時間差係数を指数係数をはじめとする漸減係数に変換することができる。あるいは、この漸減係数計算部224は、その都度最適な指数係数をはじめとする漸減係数を算出して順序係数記憶部216又は時間差係数記憶部218に書きこむこともできる。
【0046】
すなわち、上記のスキームによれば、この漸減係数計算部224では、人名Aを含む論文の著者名データ10件の、年毎に出てきた著者名データに含まれる人名すべてに漸減係数計算部224を用いて計算した重みai−1(i=出現年−初出現年、a<1)をつける。すなわち、もし2年の開きがあった場合は、前前年の重みにa×aを掛算する。
【0047】
再び図2を参照されたい。この情報解析装置1000は、集計部116の集計結果に基づいて、解析対象情報と共起情報との間の時系列的な変遷状態を解析する変遷状態解析部118を備える。上記のスキームによれば、この変遷状態解析部118は、初出現年が人名Aの初出現年よりも早く、集計部116で集計された重みが最も大きい人名(人名B)を人名Aのルーツと判定する。
【0048】
あるいは、正しい人名を抽出する性能を向上させるためには、集計部116で集計された重みが一番大きい他の人名を取り出すのではなく、集計部116で集計された重みの値が大きいものを抽出して1又は複数取り出してもよい。すなわち、答えを1個示すだけでなく、重みの合計(または得点)が大きいものから順に答えの候補を5個や10個見せるという形にしてもよい。具体的には、集計部116で集計された重みの値が閾値以上のものを取り出してもよく、集計部116で集計された重みの値が大きい順に所定の個数以取り出してもよい。または、取り出されたものの値の最大値に対して所定の割合をかけた値を求め、その求めた値以上の値を持つものを取り出してもよい。もちろん、これらの閾値、所定の値をあらかじめ定めておいてもよく、適宜ユーザが値を変更、設定することも可能である。
【0049】
この情報解析装置1000は、変遷状態を出力する出力部120を備える。上記のスキームによれば、この出力部120は、変遷状態解析部118の解析結果を一覧表などの利用しやすい形式にした上で、画像データ・数値データ・テキストデータなどのデータ形式でネットワーク138を介して画像表示部130、プリンタ132、サーバ134などに出力する。あるいは、この出力部120は、上記の解析結果をリアルタイムで情報解析装置1000に接続された画像表示部122に出力することもできる。
【0050】
また、上記実施の形態では集計部116で集計された重みの値が大きいものを抽出して一覧表として出力するとしたが、特に限定する趣旨ではない。例えば、親子関係をノード間の矢印などでビジュアル化して表示しても良い。この場合、出力が正しいかをそのシステムのユーザが確認しやすいように、システムが情報の取り出しに利用した文書をユーザに見せるようにすることが好ましい。例えば、親子関係の推定を誤る可能性を低減するために、親子関係の確認をユーザがすぐにできるように、親子関係の表示の近くにボタンを設けてそれを押すと、今回の推定技術で利用する書誌情報のリストを表示するとよい。このようにすると、例えば、人名Aの先輩を探す場合、人名Aを含む初期の論文データ10個を取り出すとすれば、人名Aの先輩をシステムが示す場合に、親子関係の表示の近くのボタンを押すと、論文データ10個がユーザに表示されるため、ユーザは出力が正しいかどうかを確認しながら利用することができる。ユーザはその書誌情報のリストを眺めて推定結果の妥当性を確認できる。
【0051】
例えば、Aの親情報の推定結果の妥当性の確認に、親子関係のボタンを押すと下記のような一覧表が表示されることが好ましい。
時系列データの例:
論文1 A B C 1990
論文2 A C D 1991
論文3 A B E 1992
【0052】
また、親を一つしか抽出しない条件にすれば木構造にでき、それで書くと例えば以下のように表示することもできる。

|−−A1
|−−−A12
|−−−−−−−A13
|−−−−A2
|−−−A22
横軸は出現年で、出現年の個所に単語を書くこととする。また、A1の子にA12、A13と二つ子があった場合は、A12とA13のうちでは、出現年の早い方を上に書く。
【0053】
さらに、この表示方法に、特許公開2007−79899の表示方法を組み合わせて考えると、
Aの折れ線グラフ
A1の折れ線グラフ
A12の折れ線グラフ
A13の折れ線グラフ
A2の折れ線グラフ
A22の折れ線グラフ
のように、表示することが可能である。横軸は時間軸で各折れ線グラフではAの単語の出現頻度を縦軸に取る。また、各折れ線グラフは、上下離して表記する。折れ線グラフは、特許公開2007−79899のように、バブルチャートでも、等高線図でもよい。この場合、折れ線グラフの始まり地点をみれば、

|−−A1
|−−−A12
|−−−−−−−A13
|−−−−A2
|−−−A22
の情報を復元可能であるので、この図でも、親子関係の木構造の情報を維持できる。
この表示方法(表示方法B)の利点は、親子関係の情報と、頻度の時系列的変化を同時に眺めることができることである。
【0054】
[装置の動作の説明]
図4は、実施形態に係る情報解析装置1000の動作について説明するためのフローチャートである。まず、動作を開始すると、時系列的テキストデータ取得部102が複数の異なる時系列的テキストデータを取得する(S102)。次いで、解析対象情報取得部104が解析の対象となるテキスト情報を取得する(S104)。そして、共起情報抽出部112が、複数の異なる時系列的テキストデータから、解析対象情報と共起する他の同属性の共起情報を抽出する(S106)。その後、時系列係数付与部114が、解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する(S108)。続いて、集計部116が、共起情報を含む複数の時系列的テキストデータに付与されている時系列係数を共起情報ごとに集計する(S110)。次に、変遷状態解析部118が、集計部116の集計結果に基づいて、解析対象情報と共起情報との間の時系列的な変遷状態を解析する(S112)。そして、出力部120が、変遷状態を出力して(S114)、一連の動作が終了する。
【0055】
[装置の作用効果の説明]
言語処理学会年次大会の論文1995年から2010年の3、139件のデータを使用し、人名のルーツとなるものを抽出した。出力例を以下の表1に示す。
【0056】
【表1】

【0057】
出力例の、最初の「人名:」の部分に表示された人名が人名Aにあたる。aを0から1に変化させたものを順に表示し、「重み−人名」で重みの大きいものから順に表示させている。一番重みの大きいもの、すなわち最初に表示されている人名を人名B(先輩)とする。この人名の例で説明すると、「松吉俊」は人名Aで、a=0での人名Bにあたる人名は「佐藤理史」である。また、この例の正解は「佐藤理史」であるがa=0では解が「佐藤理史」にしぼりきれない。しかし、a=0.1または0.2では解を「佐藤理史」にしぼることができる。なお、人名と同時に表記される括弧の中身は、その人名が初出現した年号である。分野名の例も同様である。また、抽出したものの例を表2に示す。この例
は,a=0.5のものである。なお、表2に列挙したいずれの人名の先輩・後輩関係についても正解である。
【0058】
人名の変遷
【表2】

【0059】
このように、本実施形態の情報解析装置1000を用いれば、特定の人名が初出した言語処理学会年次大会の論文を基準として、他の言語処理学会年次大会の論文に時系列的な重み付けをされたパラメータ(prameter=a)を付与するため、言語処理学会年次大会の論文に出現する著者を特定するための情報を含む著者情報である人名同士の先輩・後輩関係を効率及び精度よく把握することができる。
【0060】
ここで、この実施形態で採用した解析方法は、単純に川中ら(非特許文献1)の技術において得点を減らしながら加算する手法を組み合わせたものではない。すなわち、川中らの技術では、文献同士の時系列的な関係を重視せず、AEMI値を指標として用いているので、本来頻度が高く正解であっても他の人名(または分野名)ともよく共起しているものはAEMI値が下がってしまうために、このAEMI値を算出する過程で得点を減らしながら加算する手法を用いたとしても精度の高い変遷状態の解析を行うことは困難である。一方で、この実施形態で採用した解析方法は、AEMI値を指標として用いるのではなく、あくまでも文献同志の時系列的な関係に着目してその時系列に応じて得点を減らしながら加算する手法を用いたために、このような精度の高い解析を効率よく行うことを可能にしたものである。
【0061】
また、本実施形態の情報解析装置1000を用いれば、時系列係数付与部114が、特定の人名が初出した言語処理学会年次大会の論文と他の言語処理学会年次大会の論文との属する年度の違いに応じて重み付けされたパラメータ(prameter=a)を付与する時間距離判定部212を有するため、特定の人名が初出した言語処理学会年次大会の論文に近い年度の論文を重視して人名同士の先輩・後輩関係を解析することができる。その結果、言語処理学会年次大会の論文に出現する人名同士の先輩・後輩関係をより一層効率及び精度よく把握することができる。
【0062】
また、本実施形態の情報解析装置1000を用いれば、時系列係数付与部114が、パラメータ(prameter=a)の解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まるように重み付けを行う(ai−1(i=出現年−初出現年)の式を用いて行う)係数計算部222を有するため、特定の人名が初出した言語処理学会年次大会の論文に近い年度の論文を著しく重視して、重要度のメリハリをつけることが可能になる。その結果、言語処理学会年次大会の論文に出現する人名同士の先輩・後輩関係をさらに効率及び精度よく把握することができる。
【0063】
また、本実施形態の情報解析装置1000を用いれば、変遷状態解析部が、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を木構造で表示するためのデータを生成するように構成されているため、親を一つしか抽出しない条件の場合には木構造で解析結果を表示できるので、ユーザに直感的に理解しやすい形で解析結果を出力することが可能になる。なお、この木構造で表示するためのデータは、画像データ・数値データ・テキストデータなどのいずれのデータ形式であってもよい。
【0064】
繰り返しになるが、要約して説明すると、本実施形態では、論文の書誌情報から、研究者の変遷情報を取り出す場合、論文の書誌情報に出現した人名を研究者を表す語とし、人名Aが初めて出現した時期に近い頃に、人名Aと同じ論文の書誌情報に多く出現しかつ人名Aより前に出現した人名Bを、人名Aの先輩(人名Bの指導によって人名Aの研究成果が生まれた)と考える。
【0065】
このとき、時系列データの例:
論文1 A B C 1990
論文2 A C D 1991
論文3 A B E 1992
のようなデータが与えられた場合、
Aの初出を1990とし、B−Eの出現年を1990より前の出現年とする。
【0066】
そして、Aと共起した回ごと点数を加算し、もっとも高い点数の共起語を、Aの先祖データと考える。
得点の与え方はAの出現した最初の論文から順に、1,a,a^2,a^3を与える。aは実験で定めるパラメータである。ただし、初出年が自分より後のものは先祖にならない。
【0067】
このとき、a=0.5とすると、
B−−−1+0.25=1.25
C−−−1+0.5=1.5
D−−−0.5
E−−−0.25
のようになり、Cの得点が最も高いので、CをAの先祖と考える。
【0068】
そのため、本実施形態の情報解析装置1000を用いれば、時系列的なデータを分析し、変遷情報を抽出することができる。例えば、論文の書誌情報(論文のタイトル、著者、発表年を含むもの。多数の論文に関する書誌情報を含む。)から、研究者の変遷情報(研究者の先輩後輩の関係の情報)を取り出すことができる。
【0069】
<変形例1:分野名の変遷情報の推定方法>
[スキームの説明]
本変形例のスキームも、著者を特定するための情報を含む著者情報の一種である「人名」の代わりにタイトルのキーワードの一種である「分野名」を用いることを除いては、基本的には人名の変遷情報の推定方法のスキームと同じである。
【0070】
ここで、人名の場合には、言語処理学会年次大会の論文の電子データは既に標準データの形式で人名の欄が設けられており、そのまま電子データから人名の情報を抽出することができる。しかしながら、本変形例では、上記の実施形態で説明したA、B、Cなどは、人名ではなく、論文のタイトルに出現するキーワードを利用する。
【0071】
論文タイトルからのキーワードの取り出しには既存の技術が利用可能である。例えば、形態素解析システムChaSenを使うと単語の分割と品詞推定ができる。そこで名詞のみを取り出すことでキーワードを取り出せる。また、既存のキーワード抽出ソフトの利用も可能である。例えばgensenなどを好適に用いることができる。また、上記の実施形態では、著者の人名の解析を行って研究者間の先輩後輩関係を取得したが、本変形例のようにタイトルの単語(キーワード)で行うと、タイトルの単語は重要単語であることが多く、タイトルの単語が研究分野を意味することがあり、研究分野の変遷の情報(どの研究分野からどの研究分野が生まれたかを見ることができる。
【0072】
具体的には、本変形例では、「言選」を使用し、論文データのタイトル(またはアブストラクトも含めてもよい。ただし本変形例ではタイトルのみを利用する。)から名詞連続を取り出し、不要な語を人手で省くこととした。
【0073】
もっとも、例えば言語処理学会年次大会の論文の電子データの論文タイトルからのキーワードの取り出しは、外部のサーバ126からネットワーク125を介して行ってもよい。例えば、自然言語処理(言語処理学会誌),2000年4月,7巻,2号,p.141〜p.160に記載されている手法を好適に用いることができる。具体的には、確立型手法の一つのRobertsonの2―ポアソンモデルを用いることができる。すなわち、TF*log(N/DF)または、後述する
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w∈Wで加算
の式で表すΣで加算する前のものを単語wの重みとし、その単語の重みの高いものを取り出す方法である。また、電子情報通信学会、2003年12月,86巻,12号,p.959−963に記載されている手法を好適に用いることができる。具体的には、質問応答システムの一般的構成を応用したモデルを用いることができる。すなわち、解表現の推定、文書検索、解の抽出の3ステップを含む質問応答システムを応用したキーワードの抽出モデルである。また、情報処理学会、自然言語処理研究会、2004−NL−160、2004年、九州大学に記載されている手法を好適に用いることができる。具体的には、質問応答システムの精度向上のために複数の記事から得られた解の候補の得点を加算する(その際、単純に得点を加算せず、得点を少しずつ減らしながら加算する)ことで複数の記事の情報を利用するモデルである。
【0074】
なお、これらの文献に記載されている得点を少しずつ減らしながら加算する手法を単純に川中ら(非特許文献1)の技術に組み合わせたとしても、本実施形態の解析方法と同じような優れた効率及び精度の解析を行うことは困難である。なぜなら、川中らの技術では、文献同士の時系列的な関係を重視せず、AEMI値を指標として用いているために、本来頻度が高く正解であっても他の人名(または分野名)ともよく共起しているものはAEMI値が下がってしまうので、このAEMI値を算出する過程で得点を減らしながら加算する手法を用いたとしても精度の高い変遷状態の解析を行うことは困難だからである。一方で、本実施形態で採用した解析方法は、AEMI値を指標として用いるのではなく、あくまでも文献同志の時系列的な関係に着目してその時系列に応じて得点を減らしながら加算する手法を用いたために、このような精度の高い解析を効率よく行うことを可能にしたものである。
【0075】
また、川中ら(非特許文献1)の技術に記載されている変遷情報を取り出したいという課題に対して、これらの文献に記載されている得点を少しずつ減らしながら加算する手法を組み合わせるための動機付けは、川中ら(非特許文献1)にもこれらの文献にも記載されていない。例えば、自然言語処理(言語処理学会誌),2000年4月,7巻,2号,p.141〜p.160に記載されている手法では、K位置は記事中でのキーワードの位置で重みを変更するものであり、タイトルにあれば大きい値とし、記事中での位置が最初のものを加点し、後ろのものを減点するということをしている。しかしながら、この手法では、K位置はあくまでも空間的な位置関係に着目して得点を少しずつ減らしながら加算するための係数であり、空間的な位置関係とは異なる概念である時系列的な関係に着目するものではない。よって、仮に中ら(非特許文献1)の技術に記載されている変遷情報を取り出したいという課題に対して、例えば自然言語処理(言語処理学会誌),2000年4月,7巻,2号,p.141〜p.160に記載されている手法を単純に組み合わせたところで、本実施形態の手法と同様の作用効果を得ることは困難である。
【0076】
また、情報処理学会、自然言語処理研究会、2004−NL−160、2004年、九州大学に記載されている手法では、複数の記事から得られた解の候補の得点を少しずつ減らしながら加算する(i番目の解の候補にはk(i−1)の重みをかけておいてその後で得点を加算する)手法を用いている。しかしながら、この手法では、解の候補に与えられる得点はあくまでも質問応答システムの応答結果におけるキーワードのマッチングの程度などに応じて与えられる得点であり、キーワードのマッチングの程度とは異なる概念である時系列的な関係に着目するものではない。よって、仮に川中ら(非特許文献1)の技術に記載されている変遷情報を取り出したいという課題に対して、例えば情報処理学会、自然言語処理研究会、2004−NL−160、2004年、九州大学に記載されている手法を単純に組み合わせたところで、本実施形態の手法と同様の作用効果を得ることは困難である。
【0077】
[装置の構成の説明]
本変形例の装置構成も基本的には上記の実施形態の図2及び図3の装置構成と同様である。しかし、この変形例では、解析すべき対象が人名ではなく研究分野名であるため、標準的なデータ形式の論文の電子データに含まれるタイトルの欄はそのままではどこがキーワードかわからない。そのため、まずは、タイトルの欄が形態素解析部108にて品詞毎に分割される。形態素解析部108で用いる日本語の形態素解析エンジンとしては、以下のものを好適に活用できる。
【0078】
KAKASI(kanji kana simple inverter)、kakasi.namazu.org
MeCab(和布蕪)、mecab.sourceforge.net
ChaSen(茶筌)、chasen.naist.jp
Juman、nlp.kuee.kyoto-u.ac.jp
Sen(MeCabのJava(登録商標)への移植)、ultimania.org、sen.dev.java.net
日本語形態素解析Webサービス(Yahoo!デベロッパーネットワーク)、developer.yahoo.co.jp
【0079】
これらの中でも、例えば、公知の形態素解析ツールであるChasenを用いることが好ましい。Chasenを用いれば、日本語文を分割し、さらに、各単語の品詞も推定することができる。Chasenを用いた日本語文の分割例を説明する。
【0080】
例えば,「学校へ行く」を入力すると以下の結果を得る。
【0081】
学校 ガッコウ 学校 名詞− 一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
【0082】
なお、英語の品詞タグつけシステムとしてはBrill(Transformation-Based Error-Dri
Ven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol.21, No.4, p.543-565, 1995. 参照)のものが有名であり、英語文の各単語の品詞を推定することができる。
【0083】
また、標準的なデータ形式になった時系列的テキストデータは、キーワード抽出部110にて品詞毎に分割される。キーワード抽出部110で用いる日本語のキーワード抽出エンジンとしては、Gensen(言選)gensen.dl.itc.u-tokyo.ac.jpを好適に活用できる。上記のスキームによれば、この「言選」を使用し、論文データのタイトル(またはアブストラクトも含めてもよい)から名詞連続を取り出す。なお、この際に、キーワード抽出部110で抽出されたキーワードのうちノイズと思われる不要な語をさらに人手で省いてもよい。
【0084】
さらに、形態素解析部108には、重要キーワードの自動抽出の精度を高めるために以下のTF及びIDFを用いたTF/IDF法を行う機能が搭載されていてもよい。一般にTFとIDFの積が大きい語ほど重要キーワードとして妥当なものとなる。
TF−−−その文書でのその語の出現回数
IDF−−−その語があらかじめ持っている多数の文書のうち,何個の文書に出現するかのその個数の逆数
【0085】
ここで、IDFを求めるためには、論文が複数必要である。そのため、例えば、複数の論文を用意して、その一つひとつを文書として扱ってIDFを求めることが好ましい。あるいは、IDF は論文のデータ以外のデータで求めて,それを本変形例のIDFを求めるためのデータに使ってもよい。すなわち、論文に限らず文書データを集めて、それぞれの文書を一つ一つの文書と考えてIDFを求めてもよい。このようにして求めたIDFを本変形例のIDFに使うことができる。TFについては、一つの文書での出現回数であるため、本変形例では複数の論文の電子データ全体での出現回数とすればよい。
【0086】
厳密には、TF・IDF法をカスタマイズした本変形例の方法では、以下の計算を行う。
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w∈Wで加算
W はユーザが入力するキーワードの集合。
tf(w,D) は文書D での w の出現回数。
df(w) は全文書で w が出現した文書の数。
N は文書の総数。
score(D) が高い文書を検索結果として出力する。
length は記事Dの長さ。
delta は記事の長さの平均。
記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。
【0087】
なお、上記説明した箇所以外は上記の実施形態の人名の変遷情報の推定方法と同様である。
【0088】
[装置の作用効果の説明]
言語処理学会年次大会の論文1995年から2010年の3、139件のデータを使用し、分野名のルーツとなるものを抽出した。出力例を以下の表3に示す。
【0089】
【表3】

【0090】
なお、分野名と同時に表記される括弧の中身は、その分野名が初出現した年号である。また、抽出したものの例を表4に示す。この例は、a=0.5のものである。なお、表4に列挙したいずれの分野名の変遷関係についても正解である。
【0091】
分野名の変遷
【表4】

【0092】
このように、本実施形態の情報解析装置1000を用いれば、特定の分野名が初出した言語処理学会年次大会の論文を基準として、他の言語処理学会年次大会の論文に時系列的な重み付けをされたパラメータ(prameter=a)を付与するため、言語処理学会年次大会の論文に出現するタイトルのキーワードである分野名同士の変遷関係を効率及び精度よく把握することができる。
繰り返しになるが、要約して説明すると、本実施形態では、上述の実施形態で説明したA、B、Bなどは、著者の人名ではなく、代わりに論文のタイトルに出現するキーワードを利用する。論文タイトルからのキーワードの取り出しには既存の技術が利用可能である。例えば、形態素解析システムChaSenを使うと単語の分割と品詞推定ができる。そこで名詞のみを取り出すことでキーワードを取り出せる。また、既存のキーワード抽出ソフトの利用も可能である。例えばgensenを用いることができる。
【0093】
そして、著者の人名ではなく、タイトルの単語(キーワード)で上記の実施形態と同様の解析を行うと、タイトルの単語は重要単語であることが多く、タイトルの単語が研究分野を意味することがあり、研究分野の変遷の情報(どの研究分野からどの研究分野が生まれたかを見ることができる。
【0094】
<変形例2:二段階処理>
[スキームの説明]
本変形例のスキームも、後述する二段階処理を行う点を除けば、基本的には分野名の変遷情報の推定方法のスキームと同じである。すなわち、本変形例では、タイトルから得た単語を分野名として利用することで、分野の変遷情報を取得できることはすでにのべた通りであるが、これの発展として、分野間の関連性をより多く取るために後述する二段階処理を行う。
【0095】
具体的には、以下のような論文が与えられた場合、
論文1 タイトル中の単語A、単語B、単語C
論文2 タイトル中の単語B、単語B1、単語B2
論文3 タイトル中の単語C、単語C1、単語C2
単語B、C、B1、B2、C1、C2は論文1より前に出ており、
単語Aは論文1で初出、論文2、3は論文1より前に出ているとする。
【0096】
このとき、変形例1では、単語B、単語Cにしか得点を与えなかったが、論文2より、単語B1、B2も単語Bを介して単語Aと関係があると考え、単語B1、B2にも得点を与える。ただし、単語Bに与える得点に重みk1(k1<1)をかけた値にする。単語C1、C2にも同様に得点を与える。
【0097】
さらに、以下の論文4が論文1より後に出現したとする。
論文4 タイトル中の単語A、単語C
論文3 タイトル中の単語C、単語C1、単語C2
【0098】
この場合、単語Cには、変形例1ではa(a<1)くらいの得点が与えられるが、単語C1、C2にもa*k1の得点を与える。上記処理の得点の与え方は他のバリエーションがあってもよい。ここで重要なのは、直接の共起のある単語以外の単語にも得点を与えることである。すなわち、直接の共起のない単語もルーツとして取り出すことができことが本技術の特徴である
【0099】
[装置の構成の説明]
図5は、本変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例の装置構成も基本的には上記の実施形態の図2及び図3の装置構成と同様である。しかし、この変形例では、直接の共起のある単語以外の単語にも得点を与えるため、図5に示すように、本変形例に係る情報解析装置1000には間接共起情報抽出部113及び関連係数付与部115が設けられている点で異なっている。
【0100】
この間接共起情報抽出部113は、複数の異なる時系列的テキストデータから、共起情報を介して解析対象情報と間接的に共起する他の同属性の間接共起情報を抽出するように構成されている。すなわち、上記のスキームによれば、この間接共起情報抽出部113では、論文1で単語Aと共起している単語Bを介して、論文2において単語B、Bも単語Bを介して間接的に単語Aと共起していると扱う。
【0101】
また、この関連係数付与部115は、間接共起情報を含む時系列的テキストデータに対して、解析対象情報及び間接共起情報の関連性の強さに応じて関連係数を付与するように構成されている。すなわち、上記のスキームによれば、この関連係数付与部115では、単語Bを介して間接的に単語Aと共起している単語B、Bにも関連性の強さに応じて得点を与える。具体的には、単語Bに与える得点に後述する出現頻度算出部302で算出される重みk1(k1<1)をかけた値にする。
【0102】
図6は、実施形態の変形例に係る情報解析装置の関連係数付与部及び集計部の構成について説明するための機能ブロック図である。図6に示すように、本変形例では、関連係数付与部115は、共起情報を介して解析対象情報と間接的に共起する複数の種類の間接共起情報の相対的な出現頻度に応じて関連係数を算出する出現頻度算出部302を有する。また、関連係数付与部115は、単語Aと間接的に共起しているすべての間接共起情報を集計する間接集計データ取得部304を有する。この間接集計データ取得部304の収集した単語Aと間接的に共起しているすべての間接共起情報のうちで単語B1、B2はどの程度の頻度で出現しているかに応じて、現頻度算出部302が関連係数を算出する。ここで、本変形例のように二段階の共起を行う場合には共起数が増えすぎ時系列係数を加算しすぎになり、かえって解析の効率及び精度を低下させる可能性がある。そこで、解析対象情報がAの場合に、直接共起情報であるBから間接共起情報であるB、Bへの共起を考える際のBの総出現数でk1を割った値をB1の得点とすることもできる。この場合、k1は1より小さくても大きくてもよいが、解析精度の効率及び精度の面からは小さいほうが好ましい。
【0103】
また、図6に示すように、本変形例では、集計部116は、共起情報を含む複数の時系列的テキストデータに付与されている時系列係数を共起情報ごとに集計する直接集計部306を有する。直接集計部306の機能については、上記の実施形態において説明した図2に示す集計部116の機能と同様であるため説明を省略する。
【0104】
一方、本変形例では、集計部116は、上記の実施形態において説明した図2に示す集計部116の場合と異なり、間接共起情報を含む複数の時系列的テキストデータに付与されている時系列係数及び前記関連係数を統合して得られる統合指標を間接共起情報ごとに集計する間接集計部308を有する。すなわち、この間接集計部308では、以下のような集計作業が行われる。
【0105】
具体的には、上記のスキームにおいて、この間接集計部308では、単語B1、単語B2を含む論文にk1(k1<1)の得点を与え、単語C1、単語C2を含む論文にa*k1の得点を与え、これらの得点を単語B1、単語B2、単語C1、単語C2毎に集計して統合指標が算出される。
【0106】
[装置の作用効果の説明]
本変形例でも、変形例1の場合と同様に、著者の人名ではなく、タイトルの単語(キーワード)で上記の実施形態と同様の解析を行うと、タイトルの単語は重要単語であることが多く、タイトルの単語が研究分野を意味することがあり、研究分野の変遷の情報(どの研究分野からどの研究分野が生まれたかを見ることができる。
【0107】
また、本変形例に特有の作用効果として、直接の共起のある単語以外の単語にも得点を与えるため、例えば複数の研究分野同士が同じ研究手法を介して間接的に共起しているような場合にも、それらの研究分野同志の変遷状態を解析することが可能になる。
【0108】
すなわち、本変形例では、タイトルの単語(キーワード)から、解析対象のキーワードと間接的に共起する他の同属性のキーワードを抽出する。また、このとき、解析のキーワード及び間接的に共起する他の同属性のキーワードの関連性の強さに応じてk1(k1<1)の関連係数を付与して、時系列係数a及び関連係数k1を統合して得られる統合指標を算出する。ここで、この関連係数k1は、複数の種類の間接的に共起する他の同属性のキーワードの相対的な出現頻度に応じて算出される。このため、例えば複数の研究分野同士が同じ研究手法を介して間接的に共起しているような場合にも、それらの研究分野同志の変遷状態を効率及び精度良く解析することが可能になる。
【0109】
<変形例2:二段階処理>
[スキームの説明]
図5は、本変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例のスキームも、あらかじめ機械学習を行って好適な係数を求める点を除けば上述の二段階処理を行うスキームと同じである。すなわち、本変形例でも、二段階処理を行ってタイトルから得た単語を分野名として利用することで、分野の変遷情報を取得できることはすでにのべた通りであるが、これの発展としてあらかじめ好適な係数を求めておくために機械学習を行う。
【0110】
ここで、機械学習部123による機械学習の手法について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である。
【0111】
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。
【0112】
機械学習部123は、機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
【0113】
例えば、本実施形態において、あらかじめ時系列テキストデータ取得部を介して正解情報付きの教師データを取得した場合、機械学習部123が、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いて正解情報に近い結果が得られる好適な係数を導き出す。
【0114】
この場合、ランダム係数発生部129が乱数表を活用してランダムな係数を発生するので、それらのランダムな係数を機械学習部123が関連係数付与部115又は時系列係数付与部114に伝達して、ランダムな係数による変遷状態の解析が行われる。そしてその解析結果は機械学習部123にフィードバックされて正解情報と照らし合わされることによって、機械学習部123はランダムな係数の中から好適な係数を選択する。こうして選択された好適な係数が学習結果記憶部127に格納される。こうして得られた好適な係数は後に正解が未知の時系列テキストデータを用いて変遷状態の解析を行う場合に関連係数付与部115又は時系列係数付与部114に呼び出されて解析に用いられる。
【0115】
本変形例では、あらかじめ互いの変遷関係の分かっている解析対象情報及び対応情報を含む複数の異なる時系列的テキストデータを用いて変遷状態の解析を行った場合に好適な解析結果が得られる係数を、ランダム係数発生部129が乱数表を活用してランダムな係数の中から機械学習部123が機械学習して学習結果記憶部127に格納しておく。そのため、本変形例では、正解が未知の時系列テキストデータを用いて変遷状態の解析を行う場合に、関連係数付与部115又は時系列係数付与部114に呼び出されて解析に用いることができるので、変遷状態の解析を好適条件で行うことができる。
【0116】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【0117】
例えば、上記実施の形態では時系列的データを論文としたが、時系列的な要素を有していれば論文以外のデータとしてもよい。このように論文以外でも同じことは可能であり、新聞記事のタイトルで行うと、社会動向がどういう概念からどういう概念に変遷したかがわかる。」
【0118】
また、上記実施の形態では日本語データを解析対象としたが、言語横断的な解析を行っても良い。すなわち、複数の言語のテキストデータを含む時系列的データを用いることもできる。この場合、ある言語から他の言語への翻訳方法としては、訳語辞書で翻訳する方法と、既存の翻訳システムで翻訳する方法が挙げられる。訳語辞書とは、car -- 車、house -- 家のように訳語が対になって表記されているものであり、単語マッチで変換して利用することができる。具体的には、書誌情報のうち、日本語と英語の混ざっている書誌情報の場合は、例えば翻訳ソフトや、対訳の単語対を記載した表を使って、すべて日本語に翻訳してから、処理するということも可能である。
【0119】
また、上記実施の形態では時系列的テキストデータを出現年毎に分類した上で、出現年に対応する時系列係数aを付与する構成としたが、特に限定する趣旨ではない。例えば、時系列的テキストデータの出現順序に応じて重み付けされた時系列係数aを付与する構成にしてもよい。すなわち、上記の実施形態において、人名Aを含む論文の著者名データ10件の、年毎に出てきた著者名データに含まれる人名すべてに重みai−1(i=出現年−初出現年、a<1)をつける代わりに、人名Aを含む論文の初出現を1番目とした上で、人名Aを含む論文の出現順に著者名データに含まれる人名すべてに重みai−1(i=出現順、a<1)をつける。例えば、初出現の論文の著者名データに出現する人名すべてに重み1、2番目に出てきた論文の著者名データに出現する人名すべてに重み1×a、3番目に出てきた論文の著者名データに出現する人名すべてに重み1×a×a、...を与える。このように出現順に重みを付与する。この例では、初出現の論文の著者名データに出現する人名が一番重要と考え、一番大きい重みをつける。
【実施例】
【0120】
以下、本発明を実施例によりさらに説明するが、本発明はこれらに限定されるものではない。
【0121】
[実施形態(変形例を含む)の評価実験]
上記の実施形態(変形例を含む)の作用効果が先行技術よりも優れていることを示すために、先行技術との対比結果を示す実施例について以下説明する。まず、人名Aとして44件、分野名Aとして32件を使用し本実施例の正解率を算出した。評価は言語処理学会に精通している人物が行った。結果として出力された人名B(または分野名B)の部分はランダムに表示して評価を行っている。評価の基準を次に示す。
【0122】
人名 言語処理学会に初めて発表した当時の指導的立場の人。
分野名 言語処理学会においてルーツである分野名1つとして考えられるもの。
【0123】
この評価基準に適するものを正解とする。システムの出力の1番目に正解を持つ場合に得点1を付け、合計を出し、すべての件数で割る。なお、正解と同じ点数を持つものがn個存在する場合、得点1/n点をつける。
【0124】
また、人名B(分野名B)が出現した論文が2個以上ない場合、データ不足とし評価対象に入れていない。実験結果を以下の表5(人名の実験結果)、表6(分野名の実験結果)に示す。
【0125】
本実施例の人名の実験結果
【表5】

【0126】
本実施例の分野名の実験結果
【表6】

【0127】
結果は、総合すると人名はaとして0.1から0.7、分野名はaとして0.1から0.9が比較的良い正解率を出すことがわかった。また、a=0は最初に共起したもののみ考慮した場合であり、これより重み付けを行って複数の出現を考慮したものの方が正解率が高い。a=1.0は複数の出現は考慮するが重みづけを行わず出現回数のみを考慮した場合であり、これも他と比べて正解率が低い。これより、本実施例のように重み付けをし複数の出現を考慮した方が性能が高いことがわかった。
【0128】
[先行研究との比較実験]
川中らの先行研究では、ソーシャルブックマークサービス(SBM)を解析することで研究を行っている。SBMとはWeb上のブックマーク管理、共有サービスのことである。先行研究では、Web上の様々なドキュメントについてユーザが付与したタグを用いている。今回本実験では、論文のデータを用いて、本実施例と先行研究の手法の比較実験を行う。
【0129】
先行研究の手法を用いた実験の手法を示す。
手順1 本実施例と同様。
手順2 人名Aを含む著者名データを取り出し、その中より出現年の早いものからm件の著者名データを取り出す。
手順3 そのm件の著者名データから共起している人名すべてを人名Bの候補として取り出し、相互情報量に基づく方法で共起度を測り、順に並べる。
手順4 本実施例と同様。
【0130】
先行研究の手法を用いた分野名の変遷情報の推定方法については、手順1は本実施例の方法と同様であり、手順2からは先行研究の手法を用いた人名の変遷情報の推定方法と同様とした。
【0131】
川中らの先行研究は、上記の通り相互情報量に基づく方法で共起性の高いものを取り、かつ初出現時期が先のものをルーツとする手法を使用していることが本研実施例と異なっている。川中らの手法では、共起度の指標としてAEMI(Augmented Expected Mutual Information)を用いている。AEMIは確率を考慮した精細な共起度を測るための指標であり、次の式(2)及び(3)のように示される。
【0132】
【数5】

【0133】
この場合、P(a)は人名Aが出現する確率であり、P(a、b)は人名Aと人名Bが共起する確率である。更に、
【数6】

は人名Aが出現しない確率を表す。MIは共起率を評価するための一つの指標であり、AEMIはMIを組み合わせることで、スケールを考慮した確率的な共起度の高さを測ることができる。この式に従い、共起度を求めて一番大きいものをその人名(または分野名)のルーツとする。
【0134】
先行研究の手法を用いた実験を行った。結果を表7(人名の実験結果)、表8(分野名の実験結果)に示す。
なお、上記の手順2で用いる「最初の著者名m件」のmの値を1から10に変化させ、違いを見る。
【0135】
先行研究の人名の実験結果
【表7】

【0136】
先行研究の分野名の実験結果
【表8】

【0137】
この実験ではどちらもm=1が一番正解率が高かった。結果としては、本実施例は人名で0.4〜0.6、分野名で0.4〜0.48の正解率であり、先行研究の手法(最大で人名で0.25、分野名で0.39の正解率)よりも本実施例の方が正解率が高かった。先行研究と結果が大きく差がついている原因は、本来頻度が高く正解であっても他の人名(または分野名)ともよく共起しているものはAEMI値が下がってしまうためである。以下の表9及び表10に例を示す。
【0138】
【表9】

【0139】
【表10】

【0140】
この場合、「柏岡秀紀」が正解であり、本実施例の実験結果は正解を出しているが、先行研究の手法を使った実験結果は「柏岡秀紀」が下に表示され不正解となっている。なお、それぞれの方法で一番精度の良い結果をのせる(本実施例はa=0.6のもの、先行研究の方ではm=1のもの)。
【0141】
上記の実施形態(及び変形例)では研究情報の関係概念を自動的に抽出する新しい方法を提案した。その結果、本実施例で実証したようにルーツとなる人名または分野名を得ることができた。また、本実施例では重み付けを行ったが,重み付けをした本実施例の方(人名で0.58〜0.60、分野名で0.48の正解率)が重み付けをしない方法(人名で0.41〜0.45、分野名で0.4〜0.45の正解率)より性能が高いことも確認した。さらに、先行研究との比較実験を行い、提案手法が先行研究の手法(最大で人名で0.25、分野名で0.39の正解率)よりも性能が高いことを確認した。
【0142】
以上、本発明を実施例に基づいて説明した。この実施例はあくまで例示であり、種々の変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【符号の説明】
【0143】
102 時系列的テキストデータ取得部
104 解析対象情報取得部
106 正規化部
108 形態素解析部
110 キーワード抽出部
112 共起情報抽出部
113 間接共起情報抽出部
114 時系列係数付与部
115 関連係数付与部
116 集計部
118 変遷状態解析部
120 出力部
122 画像表示部
123 機械学習部
125 ネットワーク
124 操作部
126 サーバ
127 学習結果記憶部
129 ランダム係数発生部
128 OCR装置
130 画像表示部
132 プリンタ
134 サーバ
138 ネットワーク
202 順序判定部
204 出現順ソート部
210 順序係数抽出部
212 時間距離判定部
214 時間差計算部
216 順序係数記憶部
218 時間差係数記憶部
220 時間差係数抽出部
222 係数計算部
224 漸減係数計算部
302 出現頻度算出部
304 間接集計データ取得部
306 直接集計部
308 間接集計部
1000 情報解析装置

【特許請求の範囲】
【請求項1】
時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置であって、
複数の異なる時系列的テキストデータを取得する時系列的テキストデータ取得部と、
解析の対象となるテキスト情報を取得する解析対象情報取得部と、
前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出する共起情報抽出部と、
前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する時系列係数付与部と、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する集計部と、
前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析する変遷状態解析部と、
前記変遷状態を出力する出力部と、
を備える、情報解析装置。
【請求項2】
請求項1に記載の情報解析装置において、
前記時系列係数付与部が、前記他の時系列的テキストデータの出現順序に応じて重み付けされた時系列係数を付与する順序判定部を有する、
情報解析装置。
【請求項3】
請求項1に記載の情報解析装置において、
前記時系列係数付与部が、前記他の時系列的テキストデータと初出した時系列的テキストデータとの時間的距離に応じて重み付けされた前記時系列係数を付与する時間距離判定部を有する、
情報解析装置。
【請求項4】
請求項1〜3のいずれかに記載の情報解析装置において、
前記時系列係数付与部が、前記重み付けを解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まるように行う係数計算部を有する、
情報解析装置。
【請求項5】
請求項1〜4のいずれかに記載の情報解析装置において、
前記複数の異なる時系列的テキストデータから、前記共起情報を介して前記解析対象情報と間接的に共起する他の同属性の間接共起情報を抽出する間接共起情報抽出部と、
前記間接共起情報を含む時系列的テキストデータに対して、前記解析対象情報及び前記間接共起情報の関連性の強さに応じて関連係数を付与する関連係数付与部と、
をさらに備え、
前記集計部が、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する直接集計部と、
前記間接共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数及び前記関連係数を統合して得られる統合指標を前記間接共起情報ごとに集計する間接集計部と、
を有し、
前記変遷状態解析部が、前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報及び前記間接共起情報との間の時系列的な変遷状態を解析可能に構成されている、
情報解析装置。
【請求項6】
請求項5に記載の情報解析装置において、
前記関連係数付与部が、前記共起情報を介して前記解析対象情報と間接的に共起する複数の種類の間接共起情報の相対的な出現頻度に応じて関連係数を算出する出現頻度算出部を有する、
情報解析装置。
【請求項7】
請求項1〜6のいずれかに記載の情報解析装置において、
前記時系列係数付与部が、あらかじめ互いの変遷関係の分かっている前記解析対象情報及び前記対応情報を含む前記複数の異なる時系列的テキストデータを機械学習して、解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まるようにパラメータを算出する機械学習部を有する、
情報解析装置。
【請求項8】
請求項1〜7に記載の情報解析装置において、
前記解析対象情報が、著者を特定するための情報を含む著者情報である、
情報解析装置。
【請求項9】
請求項1〜7に記載の情報解析装置において、
前記解析対象情報が、タイトルのキーワードである、
情報解析装置。
【請求項10】
請求項1〜9に記載の情報解析装置において、
前記変遷状態解析部が、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を木構造で表示するためのデータを生成するように構成されている、
情報解析装置。
【請求項11】
時系列情報とテキスト情報とを含む時系列的テキストデータを解析する方法であって、
複数の異なる時系列的テキストデータを取得するステップと、
解析の対象となるテキスト情報を取得するステップと、
前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出するステップと、
前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与するステップと、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計するステップと、
前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析するステップと、
前記変遷状態を出力するステップと、
を含む、情報解析方法。
【請求項12】
時系列情報とテキスト情報とを含む時系列的テキストデータを解析するためのプログラムであって、
複数の異なる時系列的テキストデータを取得するステップと、
解析の対象となるテキスト情報を取得するステップと、
前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出するステップと、
前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与するステップと、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計するステップと、
前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析するステップと、
前記変遷状態を出力するステップと、
をコンピュータに実行させる、プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−164097(P2012−164097A)
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【出願番号】特願2011−23339(P2011−23339)
【出願日】平成23年2月4日(2011.2.4)
【出願人】(504150461)国立大学法人鳥取大学 (271)
【Fターム(参考)】