説明

期間別主題語句抽出装置及び方法及びプログラム

【課題】期間毎の主題語句と主題語句間の関連度を同時に算出することで、話題の関連と推移の確認を可能にする。
【解決手段】方法は、文書集合を期間別に分割し、文書を語句の集合に分解し、各期間の文書のタイトル中に出現する語句の統計情報を集計し、各期間の文書の全文中に出現する語句の統計情報を集計し、タイトル中語句統計情報の集計結果と全文中語句統計情報の集計結果を基に、期間毎に主題を表す語句を複数抽出する。また、各主題語句が含まれる文書を収集し、収集結果を基に、2つの主題語句間の関連度を計算する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、期間別主題語句抽出装置及び方法及びプログラムに係り、特に、文書集合を期間別に集計し、各期間における文書のタイトル中に出現する語句の統計情報と各期間における文書の全文中に出現する語句の統計情報を基に、期間別の主題を表す語句と、抽出した全主題語句間の関連度を算出する期間別主題語句抽出装置及び方法及びプログラムに関する。
【背景技術】
【0002】
近年では情報科学の発展により、我々が扱う文書数は爆発的に増加している。これらの文書集合から、期間毎の主要な題目(主題)と、主題語句間の関連度を算出する手法の需要が高まっている。期間毎の主題語句と主題語句間の関連度が同時に算出できれば、話題の関連と推移を確認することが容易となる。
【0003】
所望の時刻における話題性の強度を判定する話題度算出装置が公知である(例えば、特許文献1参照)。この話題度算出装置では、ある時刻における語句の話題度を数値として取得できるが、ある期間における話題度は算出できない。また、ある語句が話題であるかどうかの判断を行うには閾値の設定を行われねばならず、他の期間と比べ当該期間で話題になっている語句を統計的に判断して収集することができない。また、従来技術における、閾値を代表としたパラメータのチューニングは非常に難しい。
【0004】
また、文書が属するカテゴリ別に主題語を抽出する主題語抽出技術がある(例えば、特許文献2参照)。しかし、この主題語抽出技術では期間別の主題語を抽出することはできない。また、抽出した主題語句間の関連度も算出できない。
【0005】
各期間の主題語句と、主題語句間の関連度が算出できれば、例えば特許文献2にて公知の可視化技術などを用いて、期間別の主題語とその関連を一目で確認できる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2007−323434号公報
【特許文献2】特開2009−86859号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
上記のように、現在は期間毎に主題語句を抽出し、抽出した主題語句間の関連度と併せて出力する技術は存在しない。また、従来技術では、入力する文書集合に合わせてパラメータチューニングを実施する必要がある。
【0008】
本発明は、上記従来技術の問題点に鑑みて、文書を期間別に集計し、各期間における文書のタイトル中における語句の出現に関する統計情報と、各期間における文書の全文中における語句の出現に関する統計情報を基に、期間毎に主題を表す語句を統計的に抽出し、全主題語句間の関連度を計算する期間別主題語句抽出装置及び方法及びプログラムを提供すること、を目的とするものである。
【課題を解決するための手段】
【0009】
上記の課題を解決するため、本発明(請求項1)は、文書集合から各期間の主題を表す語句を抽出する期間別主題語句抽出装置であって、
文書集合を期間別に分割する期間別文書分割手段と、
文書を語句の集合に分解する形態素解析手段と、
各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段と、
各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段と、
前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計手段の集計結果と前記第2の記憶手段に格納されている全文中語句統計情報手段の集計結果を基に、期間毎に主題を表す語句を複数抽出する主題語句抽出手段と、を有する。
【0010】
また、本発明(請求項2)は、各主題語句が含まれる文書を収集する主題語句文書収集手段と、
前記主題語句文書収集手段の収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出手段を更に有する。
【0011】
また、本発明(請求項3)は、期間別文書分割手段、形態素解析手段、タイトル中統計情報集計手段、全文中語句統計情報集計手段、主題語句抽出手段、記憶手段を有する装置において、文書集合から各期間の主題を表す語句を抽出する期間別主題語句抽出方法であって、
前記期間別文書分割手段が、前記文書集合を期間別に分割する期間別文書分割ステップと、
前記形態素解析手段が、文書を語句の集合に分解する形態素解析ステップと、
前記タイトル中語句統計情報集計手段が、各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計ステップと、
全文中語句統計情報集計手段が、各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計ステップと、
前記主題語句抽出手段が、前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計ステップでの集計結果と前記第2の記憶手段に格納されている全文中語句統計情報ステップでの集計結果を基に、期間毎に主題を表す語句を複数抽出する主題語句抽出ステップと、を行う。
【0012】
また、本発明(請求項4)は、主題語句文書収集手段と主題語句関連度算出手段を更に有する装置において、
前記主題語句文書収集手段が、各主題語句が含まれる文書を収集する主題語句文書収集ステップと、
前記主題語句関連度算出手段が、前記主題語句文書収集ステップにおける収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出ステップと、を更に行う。
【0013】
また、本発明(請求項5)は、請求項1または2に記載の期間別主題語句抽出装置を構成する各手段としてコンピュータを機能させるための期間別主題語句抽出プログラムである。
【発明の効果】
【0014】
上記のように構成された期間別主題語句抽出装置によれば、期間別に集計した文書集合から、文書のタイトル中に出現する語句の統計情報と文書の全文中に出現する語句の統計情報とを区別して利用し、さらに、統計的検定を用いるので、期間別の主題を表す語句を、難解なパラメータチューニングを実施することなく抽出できる。
【図面の簡単な説明】
【0015】
【図1】本発明の第1の実施の形態における主題語句抽出装置の構成図である。
【図2】本発明の第1の実施の形態における主題語句抽出装置の動作のフローチャートである。
【図3】本発明の第1の実施の形態における2008年8月における「北京五輪」に関するフィッシャーの正確確率検定を用いた主題語句判定の例である。
【図4】本発明の第1の実施の形態における2008年8月における語句が主題語句かどうかの判定の例である。
【図5】本発明の第2の実施の形態における主題語句抽出装置の構成図である。
【図6】本発明の第2の実施の形態における主題語句抽出装置の動作のフローチャートである。
【図7】本発明の第2の実施の形態における主題語句間の関連度の例である。
【発明を実施するための形態】
【0016】
以下図面と共に、本発明の実施の形態を説明する。
【0017】
[第1の実施の形態]
図1は、本発明の第1の実施の形態における期間別主題語句抽出装置の構成を示す。
【0018】
同図に示す期間別主題語句抽出装置10は、期間別文書分割部11と形態素解析部12とタイトル中語句統計情報集計部13と全文中語句統計情報集計部14と主題語句抽出部15から構成され、文書集合を入力として受け取り、期間別の主題語句を出力する。
【0019】
図2は、本発明の第1の実施の形態における期間別主題語句抽出装置の動作のフローチャートである。
【0020】
ステップ101)期間別文書分割部11は、入力文書を期間別にそれぞれ集計する。ここで、期間とは、一定の時期から他の一定の時期までの間で、「2010年1月1日〜2010年1月31日」「2010年2月1日〜2010年2月28日」などを指す。月単位・日単位・時間単位のいずれも指定可能で、各期間の長さは不均一でも良い。
【0021】
ステップ102)形態素解析部12は、文書を受け取って語句に分割する。ここで、語句とは、1つ以上の形態素(名詞、形容詞、動詞)から構成される文字列を指す。
【0022】
ステップ103)タイトル中語句統計情報集計部13は、期間cに属する文書のタイトル中に語句wが出現する文書数の合計Tc(w)をタイトル中の語句統計情報として、全期間・全語句について集計し、メモリ(図示せず)に格納する。
【0023】
ステップ104)全文中語句統計情報集計部14は、期間cに属する文書の全文中に語句wが出現する文書数の合計Dc(w)を全文中の語句統計情報として、全期間・全語句について集計し、メモリ(図示せず)に格納する。
【0024】
ここで、前記語句統計情報とは、語句の出現に関する情報の統計量(合計、比率、平均、尤度、中央値、最頻値、分散、標準偏差など)を意味するものであって、必ずしも語句の出現する文書数の合計に限られるものではなく、例えば、語句の出現する頻度、語句の出現する段落数、語句の出現する日数などで構成される統計量としても良い。
【0025】
ステップ105)主題語句抽出部15は、メモリ(図示せず)に格納されている前記タイトル中の語句統計情報と前記全文中の語句統計情報を基に、「期間cに属する文書のタイトル中に語句wが出現する比率と、前記期間cを除く期間に属する文書の全文中に語句wが出現する比率が等しい」という帰無仮説の下でフィッシャーの正確確率検定の片側検定を行う。具体的には、前記期間cに属する文書(Nc個)のうち、タイトル中に前記語句wが出現する文書(Tc(w)個)の比率Tc(w)/Ncが、前記期間cを除く期間に属する文書のうち、全文中に語句wが出現する文書の比率
【0026】
【数1】

よりも有意水準αで有意に高いとき(文献「金明哲、"テキストデータの統計科学入門",岩波書店、2009」参照)、語句wを期間cの主題語句として出力する。フィッシャーの正確確率検定は、カイ二乗検定に比べ、文書数が少ない場合でも正確に検定を行える利点がある。
【0027】
図3は、フィッシャーの正確確率検定において、2008年8月において語句「北京五輪」が主題かどうかを判断するために用いる2×2の分割表である。この例では、2008年8月におけるタイトル中に「北京五輪」が出現する文書の比率44/4444が、他の期間における全文中に「北京五輪」出現する比率279/772822よりも有意に高いため(有意確率0.0001938が、有意水準α=0.01よりも低い)、「北京五輪」は主題語として抽出される。
【0028】
図4は、有意水準α=0.01として抽出された2008年8月の主題を表す語句の例である。2008年8月と強く関連するオリンピックに関する語句が主題語句と判断される一方で、「プロ野球」という他の期間でも出現する語句については主題語句とは判断されていないことがわかる。
【0029】
ここで、前記主題語句抽出部15とは、要するに、前記タイトル中の語句統計情報と前記全文中の語句統計情報を比較できる機能を有していればよく、具体的には、前記タイトル中の語句統計情報と前記全文中の語句統計情報の差分により順位付けした上位からN個の語句を抽出する機能などがある。また、前記期間cのタイトル中と前記期間cを除く期間の全文中という比較は、前記期間cのタイトル中と全期間の全文中という比較にしてもよい。
【0030】
また、本発明で使用するパラメータは前記有意水準αのみであるが、統計的検定ではαとして0.05や0.01を用いることが一般的であり、入力する文書集合に合わせて変更する必要は無い。
[第2の実施の形態]
図5は、本発明の第2の実施の形態における主題語句抽出装置の構成を示す。
【0031】
同図に示す期間別主題語句抽出装置20は、期間別文書分割部21と形態素解析部22とタイトル中語句統計情報集計部23と全文中語句統計情報集計部24と主題語句抽出部25と主題語句文書収集部26と主題語句関連度算出部27から構成される。図5に示す構成は、図1に示す主題語句抽出装置10主題語句文書収集部26と主題語句関連度算出部27が付加された構成であり、文書集合を入力として受け取り、期間別の主題語句と、主題語句間の関連度を出力する。
【0032】
図6は、本発明の第2の実施の形態における主題語句抽出装置の動作のフローチャートである。
【0033】
ステップ201〜205) 当該ステップは図4に示すステップ101〜105と同様の動作であるので、その説明を省略する。
【0034】
ステップ206)主題語句別文書集計部は、各主題語句tが含まれる文書を、主題語句文書集合Stとして、全主題語句について収集する。
【0035】
ステップ207)主題語句関連度算出部は、2つの主題語句tとtの主題語句文書集合StとStに含まれる語句wの情報を用いて、関連度R(t,t)を計算し、出力する。
【0036】
【数2】

ここで、Nは前記Stに含まれる語句の種類数、Nは前記Stに含まれる語句の種類数、Nは前記Stと前記Stの両方に含まれる語句の種類数を表す。
【0037】
なお、関連度Rは2つの主題語句文書集合の関連が分かるものであればいかなるものでもよく、Jaccard係数や、各語句の出現頻度をベクトル化してcosine similarityやユークリッド距離などを用いて計算してもよい。
【0038】
図7は、主題語句間の関連度の例である。オリンピックに関する語句の関連度が他の語句に比べ高いことが分かる。
【0039】
また、本発明は、Q&Aコミュニティ上の質問回答文書、ブログエントリ、ニュース記事など様々な文書集合に対して適用可能である。
【0040】
上記の図1に示す第1の実施の形態における主題語句抽出装置の構成要素及び、図5に示す第2の実施の形態における主題語句抽出装置の構成要素の動作をプログラムとして構築し、主題語句抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0041】
また、構築されたプログラムをハードディスク、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0042】
なお、本発明は、上記の実施の形態に限定されること無く、特許請求の範囲内において、種々変更・応用が可能である。
【産業上の利用可能性】
【0043】
本発明は、文書集合から期間別に主題語句を抽出し、主題語句間の関連度を計算可能な期間別主題語句抽出手法であり、情報整理の支援に利用可能である。
【符号の説明】
【0044】
10,20 主題語句抽出装置
11,21 期間別文書分割部
12,22 形態素解析部
13,23 タイトル中語句統計情報集計部
14,24 全文中語句統計情報集計部
15,25 主題語句抽出部
20 主題語句抽出装置
26 主題語句文書収集部
27 主題語句関連度算出部

【特許請求の範囲】
【請求項1】
文書集合から各期間の主題を表す語句を抽出する期間別主題語句抽出装置であって、
文書集合を期間別に分割する期間別文書分割手段と、
文書を語句の集合に分解する形態素解析手段と、
各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段と、
各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段と、
前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計手段の集計結果と前記第2の記憶手段に格納されている全文中語句統計情報手段の集計結果を基に、期間毎に主題を表す語句を複数抽出する主題語句抽出手段と、
を有することを特徴とする期間別主題語句抽出装置。
【請求項2】
各主題語句が含まれる文書を収集する主題語句文書収集手段と、
前記主題語句文書収集手段の収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出手段を
更に有する請求項1記載の期間別主題語句抽出装置。
【請求項3】
期間別文書分割手段、形態素解析手段、タイトル中統計情報集計手段、全文中語句統計情報集計手段、主題語句抽出手段、記憶手段を有する装置において、文書集合から各期間の主題を表す語句を抽出する期間別主題語句抽出方法であって、
前記期間別文書分割手段が、前記文書集合を期間別に分割する期間別文書分割ステップと、
前記形態素解析手段が、文書を語句の集合に分解する形態素解析ステップと、
前記タイトル中語句統計情報集計手段が、各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計ステップと、
全文中語句統計情報集計手段が、各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計ステップと、
前記主題語句抽出手段が、前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計ステップでの集計結果と前記第2の記憶手段に格納されている全文中語句統計情報ステップでの集計結果を基に、期間毎に主題を表す語句を複数抽出する主題語句抽出ステップと、
を行うことを特徴とする期間別主題語句抽出方法。
【請求項4】
主題語句文書収集手段と主題語句関連度算出手段を更に有する装置において、
前記主題語句文書収集手段が、各主題語句が含まれる文書を収集する主題語句文書収集ステップと、
前記主題語句関連度算出手段が、前記主題語句文書収集ステップにおける収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出ステップと、
を更に行う請求項3記載の期間別主題語句抽出方法。
【請求項5】
請求項1または2に記載の期間別主題語句抽出装置を構成する各手段としてコンピュータを機能させるための期間別主題語句抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−14643(P2012−14643A)
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願番号】特願2010−153246(P2010−153246)
【出願日】平成22年7月5日(2010.7.5)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成22年2月24日公開の 「第2回データ工学と情報マネジメントに関するフォーラム DEIM2010 論文集(暫定)」に発表
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】