説明

時系列人物情報編集方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

【課題】その人物に関して多量の文書中から人物時系列情報を容易に抽出し取得する。
【解決手段】本発明は、人物名に基づいて検索手段から文書集合を取得して文書記憶手段に格納し、文書集合から年号と事象とが含まれる文または語句を抽出し、年代情報記憶手段に格納する。年代情報記憶手段に格納されている年代情報の単語について、文書記憶手段の文書中における出現数と該単語が出現する文書数を集計し、各単語に対するTF-IDF値を算出し、年代情報中に含まれる各年号の出現数に基づいて、閾値以上の出現頻度の年号を取得し、年号に対応する年代情報記憶手段中の年代情報からTF−IDF値が閾値を超える単語を含む年代情報を、該年代情報に含まれる年号で時系列順にソートして出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、時系列人物情報編集方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、ある人物に関する文書群からその人について書かれ記述を抽出し、それらを時系列順に並べて編集するための時系列人物情報編集方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に関する。
【背景技術】
【0002】
従来の文書からの人物情報抽出やそれらの年表への自動作成手法として、以下のようなものがある。
【0003】
第1の従来の技術として、ある人物に対するWeb文書から、オントロジと予め用意したパターンのマッチングで情報を抽出し、その人物の伝記の自動作成を行う技術がある(例えば、非特許文献1参照)。
【0004】
また、第2の従来の技術として、ニュース記事集合を対象に、そこから人物の職業を同格関係を用いて抽出し、その職業と強い関連のある動作が含まれる文書を抽出することで人物の伝記を生成する技術がある(例えば、非特許文献2参照)。
【0005】
また、第3の従来の技術として、百科事典に対して、ユーザが入力したキーワード付近にある年代情報を抽出して、それらを年代順にソートし、年表を生成する技術がある(例えば、非特許文献3参照)。
【0006】
さらに、第4の従来の技術として、年代情報特定のためのWebページ中の日付表現部分を抽出する技術がある(例えば、非特許文献4参照)。
【非特許文献1】S. Kim, H.Alani, W.Hall, P.Lewis, D.Millard, N.Shadbolt, and M.Weal: "Artequakt:Generating Tailored Biographies from Automatically AnnotatedFragments from the Web," In Proceedings of Workshop on Semantic Authoring, Annotation & Knowledge Markup (SAAKM'02), the 15the European Conference on Artificial Intelligence, (ECAI'02), pp. 1-6 2002.
【非特許文献2】B. Schiffman, I. Mani, K.J. Concepcion: "Producing Biographical Summaries: Combining Linguistic Knowledge with Corpus Statistics," In Proceedings of the 39 Annual Meeting of the Association for Computational Linguistics (ACL-EACL 2001), July, 2001.
【非特許文献3】金田泰:百科事典から動的に年表を生成するテキスト検索法のための年代情報の抽出法と表現法、情報処理学会、情報学基礎研究会報告 Vol.1999, No. 57, pp.81-88, 1999
【非特許文献4】木村塁:webからの人物事典生成のための経歴情報の自動収集、DBSJ Letters Vol. 5 No..2, 2006, pp..29-32.
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、上記従来の技術には、以下のような問題がある。
【0008】
第1の従来の技術は、対象人物にマッチしたオントロジを用意しなければならない。また、用意したパタンにマッチする情報しか抽出できない。
【0009】
第2の従来の技術は、職業が明確な人物にしか適用できない。また、年代情報はここでは抽出されないので、そのままでは年表にならない。
【0010】
第3の従来の技術は、文書対象が百科事典に限定されている。
【0011】
第4の従来の技術は、Web文書から年代表現を抽出する方法でその年代にマッチした事象を抽出する方法が他に必要である。
【0012】
上記のように、従来の方法では、人物の年代ごとの情報を抽出し、時系列順に編集して年表化することが困難であった。
【0013】
本発明は、上記の点に鑑みなされたもので、ある人物について時系列的な活動情報などのサマリを必要とするときに、その人物に関して自由に記述された多量の文書中から人物時系列情報を容易に抽出し取得することが可能な時系列人物情報編集方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0014】
図1は、本発明の原理構成図である。
【0015】
本発明(請求項1)は、利用者から入力された人名に関する文書を検索手段から取得し、その中から該人名に対応する人物の年代毎の情報を時系列に沿って出力する時系列人物情報編集装置であって、
利用者から処理対象の人物名を取得する検索語入力手段3と、
人物名に基づいて検索手段から文書集合を取得して文書記憶手段5に格納する文書取得手段4と、
文書集合から年号と事象とが含まれる文または語句を抽出し、年代情報記憶手段7に格納する年代情報抽出手段6と、
年代情報記憶手段7に格納されている年代情報の単語について、文書記憶手段5に存在する文書中における出現数と該単語が出現する文書数を集計し、各単語に対するTF−IDF(Term Frequency Document Frequency)値を算出するTF−IDF計算手段8と、
年代情報中に含まれる各年号の出現数を求める年号集計手段9と、
年号集計手段9で得られた年号の出現数に基づいて、所定の閾値以上の出現頻度の年号を取得し、取得した該年号に対応する年代情報記憶手段7中の年代情報からTF−IDF値が所定の閾値を超える単語を含むものだけを選択する時系列情報作成手段10と、
時系列情報作成手段10で得られた年代情報を、該年代情報に含まれる年号で時系列順にソートして出力する結果提示手段11と、を有する。
【0016】
また、本発明(請求項2)は、TF−IDF計算手段8において、
年代情報記憶手段7から取得した年代情報を形態素解析して得られた各単語について、文書記憶手段中5の各文書に出現する回数を単語のTF値とし、該各単語について文書記憶手段中5の各文書に出現する文書数を単語のDF値とし、
TF×log(全文書数/DF)
により単語のTF−IDF値を求める手段を含む。
【0017】
また、本発明(請求項3)は、時系列情報作成手段10において、
年号集計手段9から所定の閾値以上の年号を取得し、該年号に対応する年代情報を年代情報記憶手段7から取得する手段と、
年代情報を形態素解析して得られた単語に対応するTF−IDF値を取得する手段と、
各年代情報に含まれる単語のTF−IDF値の合計を求める手段と、
各年代情報のTF−IDF値の合計値が最大の年代情報を、与えられた年号に対する年代情報とする。
【0018】
図2は、本発明の原理を説明するための図である。
【0019】
本発明(請求項4)は、利用者から入力された人名に関する文書を検索手段から取得し、その中から該人名に対応する人物の年代毎の情報を時系列に沿って出力する装置における時系列人物情報編集方法であって、
検索語入力手段が、利用者から処理対象の人物名を取得する検索語入力ステップ(ステップ1)と、
文書取得手段が、人物名に基づいて検索手段から文書集合を取得して文書記憶手段に格納する文書取得ステップ(ステップ2)と、
年代情報抽出手段が、文書集合から年号と事象とが含まれる文または語句を抽出し、年代情報記憶手段に格納する年代情報抽出ステップ(ステップ3)と、
TF−IDF計算手段が、年代情報記憶手段に格納されている年代情報の単語について、文書記憶手段に存在する文書中における出現数と該単語が出現する文書数を集計し、各単語に対するTF−IDF(Term Frequency Document Frequency)値を算出するTF−IDF計算ステップ(ステップ4)と、
年号集計手段が、年代情報中に含まれる各年号の出現数を求める年号集計ステップ(ステップ5)と、
時系列情報作成手段が、年号集計ステップで得られた年号の出現数に基づいて、所定の閾値以上の出現頻度の年号を取得し、取得した該年号に対応する年代情報記憶手段中の年代情報からTF−IDF値が所定の閾値を超える単語を含むものだけを選択する時系列情報作成ステップ(ステップ6)と、
結果提示手段が、時系列情報作成ステップ(ステップ6)で得られた年代情報を、該年代情報に含まれる年号で時系列順にソートして出力する結果提示ステップ(ステップ7)と、を行う。
【0020】
また、本発明(請求項5)は、TF−IDF計算ステップ(ステップ4)において、
年代情報記憶手段から取得した年代情報を形態素解析して得られた各単語について、文書記憶手段中の各文書に出現する回数を単語のTF値とし、該各単語について文書記憶手段中の各文書に出現する文書数を単語のDF値とし、
TF×log(全文書数/DF)
により単語のTF−IDF値を求める。
【0021】
また、本発明(請求項6)は、時系列情報作成ステップ(ステップ6)において、
年号集計ステップから所定の閾値以上の年号を取得し、該年号に対応する年代情報を年代情報記憶手段から取得し、
年代情報を形態素解析して得られた単語に対応するTF−IDF値を取得し、
各年代情報に含まれる単語のTF−IDF値の合計を求め、
各年代情報のTF−IDF値の合計値が最大の年代情報を、与えられた年号に対する年代情報とする。
【0022】
本発明(請求項7)は、請求項1乃至3のいずれか1項に記載の時系列人物情報編集装置を構成する各手段としてコンピュータを機能させる時系列人物情報編集プログラムである。
【0023】
本発明(請求項8)は、請求項7記載の時系列人物情報編集プログラムを格納したコンピュータ読取可能な記録媒体である。
【発明の効果】
【0024】
上記のように本発明によれば、多くの文書にある閾値以上重複して現れる(年代+事象)の記述を抽出することにより、検索エンジンなどにより取得したある人物についての全体としては必ずしも適合度の高くない多量の文書からでも、比較的信用度の高い内容(年代情報)に絞って年代別の事象情報だけを時系列順に得ることができるようになり、利用者はそれらの閲覧が容易、かつ短時間で行えるようになる。
【発明を実施するための最良の形態】
【0025】
以下、図面と共に本発明の実施の形態を説明する。
【0026】
本発明では、利用者が入力した人名に関する検索エンジンなどから取得し、その中から当該人物の年代毎の情報を抽出し、それらを時系列順に編集する。そのため、各文書から数字+「年」の年号表記の含まれる文や句を抽出して集計し、その文中に頻出する語を調べて、特定の年度に発生した代表的事象を選択する。そして、年度と事象の組を時系列順に並べて編集することで年表化するものである。
【0027】
図3は、本発明の一実施の形態における時系列人物情報編集装置の構成を示すブロック図である。
【0028】
同図に示す時系列人物編集装置は、検索語入力部3、文書取得部4、文書保存部5、年代情報抽出部6、年代情報保存部7、TF−IDF(Term Frequency Inverted Document Frequency)計算部8、年号集計部9、時系列情報作成部10、結果提示部11から構成され、文書取得部4は検索エンジンである文書検索装置2に接続されている。また、文書検索装置は検索対象の文書が記憶されている文書記憶装置1に接続されている。
【0029】
検索語入力部3は、利用者から調べたい人物名の入力を受け付ける。
【0030】
文書取得部4は、文書検索装置2から入力された人物名をクエリとした検索結果の文書集合を取得して文書保存部5に格納する。なお、文書検索装置2(検索エンジン)は、入力された人物名で文書記憶装置1を検索し、当該人物名が含まれる文書集合を取得し、文書取得部4に返却する。
【0031】
年代情報抽出部6は、文書保存部5に保存されている文書から、年号(4桁数字(例えば、1994)+「年」)と事象とが含まれる文や句を抽出し、年代情報保存部7に格納する。なお、以下では、西暦を例として説明するが、日本年号の平成や昭和等の年号を用いる場合には、年号+2桁数字+「年」を用いるようにしてもよい。
【0032】
TF−IDF計算部8は、年代情報保存部7に保存されている年代情報(年度と事象とが含まれる文や句)中の単語について文書保存部5に存在する文書中における出現数と単語が出現する文書数を集計し、各単語に対するTF−IDF値を算出する。
【0033】
年号集計部9では、年代情報保存部7の年代情報中に含まれる各年号毎の出現数を集計する。例えば、X年の年代情報がA回、Y年の年代情報がB回のようにカウントする。
【0034】
時系列情報作成部10は、年号集計部9で得られた年号のうち、与えられたある閾値以上の出現頻度の高いn個の年号に対応する年該情報保存部7中の年代情報から、TF−IDF計算部8で得られたTF−IDF値が与えられたある閾値を超える高い単語を含む年代情報だけを選択する。
【0035】
結果提示部11は、時系列情報作成部10で得られた年代情報をその年号で時系列順にソートしてマージし、年表化して利用者に提示する。
【0036】
次に、上記の構成のTF−IDF計算部8の処理について詳細に説明する。
【0037】
図4は、本発明の一実施の形態におけるTF−IDF計算部の動作のフローチャートである。
【0038】
ステップ101) TF−IDF計算部8は、年代情報保存部7から年代情報を取得する。
【0039】
ステップ102) 取得した年代情報(文や句)を形態素解析して単語を抽出する。
【0040】
ステップ103) 得られた各単語について文書保存部5中の各文書に出現する回数を係数する。これを単語のTF(Term Frequency)値とする。
【0041】
ステップ104) 得られた各単語について文書保存部5中の各文書に出現する文書数を計算する。これをその単語のDF(Document Frequency)値とする。
【0042】
ステップ105) ステップ103で得られたTFと全文書数DFを用いて、
TF×log(全文書数/DF)
を計算し、その単語のTF−IDF値とする。
【0043】
次に、上記の時系列情報作成部10の処理について詳細に説明する。
【0044】
図5は、本発明の一実施の形態における時系列情報作成部の処理を示すフローチャートである。以下では、年号集計部9から得られる、与えられたある閾値以上の高頻度年号のセットを取得し、それぞれに対して以下の処理を行う。
【0045】
ステップ201) 時系列情報作成部10は、年号集計部9から得られた年号に対応する年代情報を年代情報保存部7から取得する。
【0046】
ステップ202) 年代情報を形態素解析して単語を抽出する。
【0047】
ステップ203) それらの単語についてTF−IDF計算部8よりそれらの単語についてTF−IDFを取得するする。
【0048】
ステップ204) 各年代情報に対してその中に含まれる単語のTF−IDF値の合計を、その各年代情報のTF−IDF値とする。
【0049】
ステップ205) 各年代情報のTF−IDF値を比較して最大のTF−IDF値を持つ年代情報を与えられた年号に対する年代情報とする。
【0050】
上記のように、ユーザが入力したある人物の名前を検索語として、インターネット上の検索エンジンなどにより文書群を取得し、その文書群から対象人物に関する年代情報が含まれている記述部分を抽出し、それらの記述内容を年代順に並べてユーザに提示することができる。
【0051】
なお、上記の図3の構成要素の動作をプログラムとして構築し、時系列人物情報編集装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0052】
また、構築されたプログラムを、ハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納しておき、コンピュータにインストールする、または、配布することが可能である。
【0053】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0054】
本発明は、文書群から対象人物の年代情報を取得する技術に適用可能である。
【図面の簡単な説明】
【0055】
【図1】本発明の原理構成図である。
【図2】本発明の原理を説明するための図である。
【図3】本発明の一実施の形態における時系列人物情報編集装置の構成を示すブロック図である。
【図4】本発明の一実施の形態におけるTF−IDF計算部の処理を示すフローチャートである。
【図5】本発明の一実施の形態における時系列情報作成部の処理を示すフローチャートでる。
【符号の説明】
【0056】
1 文書記憶装置
2 文書検索装置
3 検索語入力手段、検索語入力部
4 文書取得手段、文書取得部
5 文書記憶手段、文書保存部
6 年代情報抽出手段 年代情報抽出部
7 年代情報記憶部、年代情報保存部
8 TF−IDF計算手段、TF−IDF計算部
9 年号集計手段、年号集計部
10 時系列情報作成手段、時系列情報作成部
11 結果提示手段、結果提示部

【特許請求の範囲】
【請求項1】
利用者から入力された人名に関する文書を検索手段から取得し、その中から該人名に対応する人物の年代毎の情報を時系列に沿って出力する時系列人物情報編集装置であって、
利用者から処理対象の人物名を取得する検索語入力手段と、
前記人物名に基づいて前記検索手段から文書集合を取得して文書記憶手段に格納する文書取得手段と、
前記文書集合から年号と事象とが含まれる文または語句を抽出し、年代情報記憶手段に格納する年代情報抽出手段と、
前記年代情報記憶手段に格納されている年代情報の単語について、前記文書記憶手段に存在する文書中における出現数と該単語が出現する文書数を集計し、各単語に対するTF−IDF(Term Frequency Document Frequency)値を算出するTF−IDF計算手段と、
前記年代情報中に含まれる各年号の出現数を求める年号集計手段と、
前記年号集計手段で得られた前記年号の出現数に基づいて、所定の閾値以上の出現頻度の年号を取得し、取得した該年号に対応する前記年代情報記憶手段中の前記年代情報から前記TF−IDF値が所定の閾値を超える単語を含むものだけを選択する時系列情報作成手段と、
前記時系列情報作成手段で得られた前記年代情報を、該年代情報に含まれる年号で時系列順にソートして出力する結果提示手段と、
を有することを特徴とする時系列人物情報編集装置。
【請求項2】
前記TF−IDF計算手段は、
前記年代情報記憶手段から取得した前記年代情報を形態素解析して得られた各単語について、前記文書記憶手段中の各文書に出現する回数を単語のTF値とし、該各単語について前記文書記憶手段中の各文書に出現する文書数を単語のDF値とし、
TF×log(全文書数/DF)
により前記単語のTF−IDF値を求める手段を含む
請求項1記載の時系列人物情報編集装置。
【請求項3】
前記時系列情報作成手段は、
前記年号集計手段から所定の閾値以上の年号を取得し、該年号に対応する年代情報を前記年代情報記憶手段から取得する手段と、
前記年代情報を形態素解析して得られた単語に対応するTF−IDF値を取得する手段と、
前記各年代情報に含まれる単語のTF−IDF値の合計を求める手段と、
前記各年代情報のTF−IDF値の合計値が最大の年代情報を、与えられた年号に対する年代情報とする手段と、
を含む請求項1記載の時系列人物情報編集装置。
【請求項4】
利用者から入力された人名に関する文書を検索手段から取得し、その中から該人名に対応する人物の年代毎の情報を時系列に沿って出力する装置における時系列人物情報編集方法であって、
検索語入力手段が、利用者から処理対象の人物名を取得する検索語入力ステップと、
文書取得手段が、前記人物名に基づいて前記検索手段から文書集合を取得して文書記憶手段に格納する文書取得ステップと、
年代情報抽出手段が、前記文書集合から年号と事象とが含まれる文または語句を抽出し、年代情報記憶手段に格納する年代情報抽出ステップと、
TF−IDF計算手段が、前記年代情報記憶手段に格納されている年代情報の単語について、前記文書記憶手段に存在する文書中における出現数と該単語が出現する文書数を集計し、各単語に対するTF−IDF(Term Frequency Document Frequency)値を算出するTF−IDF計算ステップと、
年号集計手段が、前記年代情報中に含まれる各年号の出現数を求める年号集計ステップと、
時系列情報作成手段が、前記年号集計ステップで得られた前記年号の出現数に基づいて、所定の閾値以上の出現頻度の年号を取得し、取得した該年号に対応する前記年代情報記憶手段中の前記年代情報から前記TF−IDF値が所定の閾値を超える単語を含むものだけを選択する時系列情報作成ステップと、
結果提示手段が、前記時系列情報作成ステップで得られた前記年代情報を、該年代情報に含まれる年号で時系列順にソートして出力する結果提示ステップと、
を行うことを特徴とする時系列人物情報編集方法。
【請求項5】
前記TF−IDF計算ステップにおいて、
前記年代情報記憶手段から取得した前記年代情報を形態素解析して得られた各単語について、前記文書記憶手段中の各文書に出現する回数を単語のTF値とし、該各単語について前記文書記憶手段中の各文書に出現する文書数を単語のDF値とし、
TF×log(全文書数/DF)
により前記単語のTF−IDF値を求める
請求項4記載の時系列人物情報編集方法。
【請求項6】
前記時系列情報作成ステップにおいて、
前記年号集計ステップから所定の閾値以上の年号を取得し、該年号に対応する年代情報を前記年代情報記憶手段から取得し、
前記年代情報を形態素解析して得られた単語に対応するTF−IDF値を取得し、
前記各年代情報に含まれる単語のTF−IDF値の合計を求め、
前記各年代情報のTF−IDF値の合計値が最大の年代情報を、与えられた年号に対する年代情報とする、
を含む請求項4記載の時系列人物情報編集方法。
【請求項7】
請求項1乃至3のいずれか1項に記載の時系列人物情報編集装置を構成する各手段としてコンピュータを機能させる時系列人物情報編集プログラム。
【請求項8】
請求項7記載の時系列人物情報編集プログラムを格納したコンピュータ読取可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2009−122772(P2009−122772A)
【公開日】平成21年6月4日(2009.6.4)
【国際特許分類】
【出願番号】特願2007−293569(P2007−293569)
【出願日】平成19年11月12日(2007.11.12)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】