話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

【課題】どのような文書数の母数の変動が生じても、自動的にその影響を補正して精度高く話題となる語句を抽出する。
【解決手段】本発明は、処理対象語句及び算出指定時刻に基づいて、処理対象の文書群から抽出された処理対象語句、集計時刻、語句頻度等が格納された語句データベースを検索し、該処理対象語句に対応する処理対象語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出し、入力時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度関数に対して入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、新しい情報を含む文書を次々と入手しうる状況において、文書群から話題となっている語句を自動的に抽出するための話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
【背景技術】
【０００２】
インターネットをはじめとした情報メディアの発達により、誰であっても容易に情報発信を行えるようになり、様々な発信者によって文書が作成され、ネットワーク上に発信されるようになってきている。そのような中、現在までに作成された文書情報を分析することによって、任意の時点において話題となっていた事柄を抽出することが可能になると考えられる。
【０００３】
インターネットに代表されるネットワークシステム上にアップロードされている文書群から、文書群中に含まれる語句の出現回数の時間変動を考慮して、文書群中で話題となっている特徴語句を抽出する技術は複数提案されている。
【０００４】
従来の技術として、ネットワークシステム上にアップロードされている文書をその作成時刻情報と共に取得し、当該文書の内容に応じて予め設定された複数の分野に自動的に分類し、各分野毎に時間に沿って出現頻度が特徴的に増加しており、なおかつ他分野で出現していないような語句に対して話題を表す特徴語句として高い話題度合いを示す話題度の値を算出する技術がある（例えば、特許文献１参照）。
【０００５】
しかし、上記の技術においては、一定期間中にある語句の使用回数が増加した場合に話題を表す特徴語句として抽出するため、全体の文書量が短期的に増加した場合や、全体の文書量が定期的に変動している場合に、その影響により精度が低下する問題があった。そのため、文書量の変化を元とした変動をキャンセルする補正関数を設定する手法が存在する（例えば、非特許文献１参照）。
【特許文献１】特開２００５−２７６１１５号公報
【非特許文献１】「document streamにおけるburstの発見」藤木稔明、南野朋之、鈴木泰裕、奥村学、情報処理学会研究報告2003-NL-160
【発明の開示】
【発明が解決しようとする課題】
【０００６】
しかしながら、上記従来の方法は、文書量の変化のパターンを使用者が把握して補正関数を設計しなければならないため手間がかかるものであった。
【０００７】
本発明は、上記の点に鑑みなされたもので、どのような文書数の母数の変動が生じても、自動的にその影響を補正して精度高く話題となる語句を抽出することが可能な話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【０００８】
図１は、本発明の原理を説明するための図である。
【０００９】
本発明（請求項１）は、多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する装置における話題度算出方法であって、
文書解析手段が、作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句（以下、文書内語句と記す）を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻および該文書ない語句と共に語句データベースに格納する文書解析ステップ（ステップ１１０）と、
語句頻度算出手段が、外部から入力された話題度算出処理の対象となる語句（以下、処理対象語句と記す）と、どの時点での話題を算出するのかを表す時刻情報（以下、算出指定時刻と記す）を取得する入力受付ステップ（ステップ１２０）と、
語句頻度算出手段が、処理対象語句に基づいて語句データベースを検索し、該処理対象語句に対応する文書内語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出ステップ（ステップ１３０）と、
話題度算出手段が、入力受付ステップ（ステップ１２０）で入力された入力時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度算出ステップ（ステップ１３０）で算出された語句頻度関数に対して算出指定時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出ステップ（ステップ１４０）と、
を行い、
語句頻度算出ステップ（ステップ１３０）において、
語句頻度算出手段は、語句頻度の時間変動と入力文書数の時間変動とを求め、２つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する。
【００１０】
また、本発明（請求項２）は、語句頻度算出ステップにおいて、
処理対象語句の入力文書群中での語句頻度の時間変動と入力文書数の時間変動との相関度合いを相関度として算出し、
入力文書数の時間毎の変動量に相関度を掛け合わせた値に比例した値を、処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した語句頻度関数を求める。
【００１１】
また、本発明（請求項３）は、語句頻度算出ステップ（ステップ１３０）において、
処理対象語句ｗの入力文書群中での語句頻度の時間変動Ｄ_ｗ（Ｔ）と入力文書数の時間変動Ｄ_all（Ｔ）との相関度合いＲ（ｗ）を、
【００１２】
【数５】

により求める。
【００１３】
また、本発明（請求項４）は、語句頻度算出ステップ（ステップ１３０）において、
処理対象語句ｗの入力文書中での語句頻度の時間変動Ｄ_ｗ（Ｔ）と入力文書数の時間変動Ｄ_all（Ｔ）との相関度合いＲ（ｗ）を用いて、入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Ｇ_ｗ（Ｔ）を、
【００１４】
【数６】

により求める。
【００１５】
また、本発明（請求項５）は、入力受付ステップ（ステップ１２０）において、
話題度算出処理の対象となる処理対象語句と、どの時点での話題度を算出するかを表す算出指定時刻を受け付ける代わりに、
語句頻度算出ステップ（ステップ１３０）において、
入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求め、
話題度算出ステップ（ステップ１４０）において、
入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める。
【００１６】
図２は、本発明の原理構成図である。
【００１７】
本発明（請求項６）は、多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する話題度算出装置であって、
作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句（以下、文書内語句と記す）を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻及び該文書内語句と共に語句データベース２３０に格納する文書解析手段２１０と、
外部から入力された話題度算出処理の対象となる語句（以下、処理対象語句と記す）を取得し、該処理対象語句に基づいて語句データベース２３０を検索し、取得した該処理対象語句に対応する文書内語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出手段２４０と、
外部からどの時点での話題を算出するのかを表す時刻情報（以下、算出指定時刻と記す）を取得し、該算出指定時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度算出手段２４０で算出された語句頻度関数に対して入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出手段２５０と、
を有し、
語句頻度算出手段２４０は、
語句頻度の時間変動と入力文書数の時間変動とを求め、２つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する手段を含む。
【００１８】
また、本発明（請求項７）は、語句頻度算出手段２４０において、
処理対象語句の入力文書群中での語句頻度の時間変動と入力文書数の時間変動との相関度合いを相関度として算出する手段と、
入力文書数の時間毎の変動量に相関度を掛け合わせた値に比例した値を、処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した語句頻度関数を求める手段と、を含む。
【００１９】
また、本発明（請求項８）は、語句頻度算出手段２４０において、
処理対象語句ｗの入力文書群中での語句頻度の時間変動Ｄ_ｗ（Ｔ）と入力文書数の時間変動Ｄ_all（Ｔ）との相関度合いＲ（ｗ）を、
【００２０】
【数７】

により求める。
【００２１】
また、本発明（請求項９）は、語句頻度算出手段２４０において、
処理対象語句ｗの入力文書中での語句頻度の時間変動Ｄ_ｗ（Ｔ）と入力文書数の時間変動Ｄ_all（Ｔ）との相関度合いＲ（ｗ）を用いて、入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Ｇ_ｗ（Ｔ）を、
【００２２】
【数８】

により求める。
また、本発明（請求項１０）は、語句頻度算出手段２４０において、話題度算出処理の対象となる処理対象語句と、どの時点での話題度を算出するかを表す算出指定時刻を受け付ける代わりに、入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求める手段を含み、
話題度算出手段２５０において、入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める手段を含む。
【００２３】
本発明（請求項１１）は、コンピュータに、請求項６乃至１０記載の話題度算出装置の各手段を実行させる話題度算出プログラムである。
【００２４】
本発明（請求項１２）は、コンピュータに、請求項６乃至１０記載の話題度算出装置の各手段を実行させる話題度算出プログラムを格納したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【００２５】
上記のように本発明によれば、ウェブ上で公開されているニュース記事や日記記事などの次々と発信されている文書情報を取得し、文書中の語句の話題性の高低を自動的に抽出する際に、全文書数の時間変動の影響を除去することが可能となる。それにより、従来の技術にあった全文書数が変動した際に誤った話題語を抽出してしまうことがなくなり、最近の流行や話題を精度高く抽出することが可能となる。
【発明を実施するための最良の形態】
【００２６】
以下、図面と共に本発明の実施の形態を説明する。
【００２７】
［第１の実施の形態］
図３は、本発明の第１の実施の形態における話題度算出装置の構成を示す。
【００２８】
同図に示す話題度算出装置には、本装置の入力となる文書データを蓄積する文書データベース２００と、本装置が出力する話題語情報を表示する話題表示装置２６０とが接続されている。
【００２９】
話題度算出装置は、文書解析部２１０、語句集計部２２０、語句データベース２３０、語句頻度算出部２４０、話題度算出部２５０から構成される。
【００３０】
文書データベース２００には、作成時刻が付加された文書群が蓄積されている。例えば、Ｗｅｂ上に公開されている文書に「2006 4/25 13:55」といったような作成時刻と文書を一意に表す文書ＩＤとを付加し、次々と入力して記録することにより、文書データベース２００を構築することができる。インターネット上の日記サイトなど、新しい文書が逐次更新される情報源の場合には、サイト内の文書が更新された場合にも、新たな文書が作成されたとみなして収集してもよい。
【００３１】
文書解析部２１０は、文書データベース２００に蓄積されている文書を１文書ずつ取得し、形態素解析を行い、品詞毎に分解する。例えば、「おいしいチョコドーナツ」という文章を、「おいしい」「チョコ」「ドーナツ」と分解する。分解された品詞群から名詞のみを選んで抽出する。このとき、必要に応じて「チョコ」「ドーナツ」という連続する名詞を連結して「チョコドーナツ」という複合名詞とし、複合名詞を１個の名詞として扱ってもよい。以下の説明では、名詞と複合名詞とを総称して語句と呼ぶ。このようにして得られた語句それぞれについて、解析前に当該語句が含まれていた文書の作成時刻と文書ＩＤとを付加し、
「チョコドーナツ 2006/01/06 11:36 ID1035, バナナ 2006/01/06 11:36 ID1035, 新製品 2006/01/06 12:06 ID1036, …」
といった形式の情報として、語句集計部２２０の語句バッファ（図示せず）に蓄積する。
【００３２】
語句集計部２２０は、予め設定された一定期間毎に起動し、語句バッファに蓄積された情報を読み込み、語句バッファ中の情報に含まれる文書ＩＤを重複なく取り出してその数を文書数Ｄ_allとして集計し、また、語句バッファ中に含まれる全ての語句について語句ｗ_ｋの使用回数を語句頻度Ｄw_kとして集計する。集計の結果得られた文書数Ｄ_allと、全ての語句ｗ_ｋと語句ｗ_ｋの語句頻度Ｄw_kとの組とを、集計した時刻の情報とともに語句データベース２３０に記録する。語句データベース２３０に蓄積される情報の例を図４に示す。
【００３３】
語句集計部２２０において、データ量の削減のため、語句ｗ_ｋの使用回数を集計する代わりに、同一文書ＩＤで複数回語句ｗ_ｋが使われている場合には合わせて１回と集計することにより、語句ｗ_ｋの語句頻度Ｄw_kを集計してもよい。
【００３４】
語句頻度算出部２４０は、外部から話題度算出対象となる語句情報が入力されると、当該入力語句に基づいて語句データベース２３０を検索し、当該処理対象語句に対応する語句頻度と文書数を取得して、その時間変化を比較することにより、全文書数の時間による変動の影響を除いた話題度算出対象語句の集計期間毎の使用頻度を話題度算出部２５０のバッファ（図示せず）に出力する。
【００３５】
図５は、本発明の第１の実施の形態における語句頻度算出部の処理のフローチャートである。
【００３６】
ステップ５００）語句頻度算出部２４０は、処理が開始されると外部から処理対象となる語句情報ｗの入力を受け付ける。
【００３７】
ステップ５１０）受け付けた処理対象語句ｗに基づいて語句データベース２３０を検索し、当該語句ｗに対応する各集計期間毎の使用頻度情報を読み込み、集計期間毎の語句ｗの使用頻度の変動を表す関数Ｄ_w（Ｔ）を得る。ここで、Ｔは離散値である。例として、３つの語句ｗ_１とｗ_２とｗ_３とにおける使用頻度変動を表すＤ_ｗ１（Ｔ），Ｄ_ｗ２（Ｔ），Ｄ_ｗ３（Ｔ）を図６に示す。なお、図６に示す曲線は実際には離散点の集合である。この際、処理を軽減するため最近Ｎ期間の使用文書数のみに限ってＤ_w（Ｔ）を算出してもよい。
【００３８】
ステップ５２０）次に、各集計期間毎の文書数を語句蓄積データベース２３０から取得し、文書数の集計期間毎の変動Ｄ_all（Ｔ）を算出する。Ｄ_all（Ｔ）の例を図７に示す。なお、図７に示す曲線は、実際には離散点の集合である。この際に、処理を軽減するための最近Ｎ期間の文書数のみに限ってＤ_all（Ｔ）を算出してもよい。
【００３９】
ステップ５３０）処理対象語句ｗの入力文書群中での使用頻度と入力文書数との相関度合いを相関度Ｒ（ｗ）として算出する。具体的には、語句ｗの時間変化関数Ｄ_w（Ｔ）と文書数の時間変化関数Ｄ_all（Ｔ）の類似性を評価して相関度Ｒ（ｗ）を得る。類似性の算出には一般的な波形の相関関数である次式を用いる。
【００４０】
【数９】

ステップ５４０）次に、入力文書数の時間毎の変化量に相関度Ｒ（ｗ）を掛け合わせた値に比例した値を処理対象語句の同時間の使用頻度から除くことにより、入力文書数が変動した影響による語句の使用頻度の増減を考慮した語句頻度関数Ｇ_w（Ｔ）を求める。具体的には、Ｄ_all（Ｔ）の最小値をminＤ_all（Ｔ）、最大値をmaxＤ_all（Ｔ）とし、次の式で求める。
【００４１】
【数１０】

この際、計算の簡略化のため、Ｒ（ｗ）が０よりも小さい場合には、Ｒ（ｗ）＝０とみなして計算してもよい。また、Ｇ_w（Ｔ）が０よりも小さくなる場合には、Ｇ_w（Ｔ）＝０としてもよい。
【００４２】
このようにして全文書数の時間変動の影響を除いた語句の使用頻度の変更を算出することにより、図６に示した各語句の全文書数の影響が補正された語句頻度関数Ｇ_ｗ１（Ｔ），Ｇ_ｗ２（Ｔ），Ｇ_ｗ３（Ｔ）は、それぞれ、図８に示すようになる。図８に示す曲線や直線は実際には離散点の集合である。
【００４３】
ステップ５５０）上記で得られた語句ｗの語句頻度関数Ｇ_w（Ｔ）を話題度算出部２５０の語句頻度バッファ（図示せず）に記録する。
【００４４】
次に、話題度算出部２６０の処理について説明する。
【００４５】
図９は、本発明の第１の実施の形態における話題度算出部の処理のフローチャートである。
【００４６】
ステップ９１０）話題度算出部２６０は、語句頻度バッファ（図示せず）に語句頻度関数Ｇ_w（Ｔ）が書き込まれると、処理を開始し、外部から処理対象時刻ｔ_ｐの入力を受け付ける。
【００４７】
ステップ９２０）次に、処理対象時刻を元に、予め与えられた正の値ｔ_ｑを用いて得られるｔ_ｐからｔ_ｐ−ｔ_ｑまでの処理範囲に対応する、最近多く使われた単語に大きな重みを置くような、話題重み付け関数Ｉt_p（ｔ）を作成する。この際、前述の特許文献１に示されるインパクト曲線のような重み付け関数を作成するとよい。
【００４８】
ステップ９３０）次に、話題重み付け関数Ｉt_p（ｔ）と語句ｗの使用頻度の時間変化Ｇ_w（Ｔ）を次式に代入することによって、語句ｗの話題度ＴＳ（ｗ）を求める。
【００４９】
【数１１】

ステップ９４０）得られた語句ｗの話題度ＴＳ（ｗ）と語句ｗとを表示装置２６０に出力する。例えば、「決勝戦32.8」といった結果が表示装置２６０の画面上に出力される。
【００５０】
なお、上記の語句頻度算出部２４０におけるステップ５００、話題度算出部２６０のステップ９１０において、それぞれ、処理対象となる語句情報と処理対象時刻を外部から入力しているが、この例に限定されることなく、語句頻度算出部２４０において、両方を入力してもよい。
【００５１】
［第２の実施の形態］
図１０は、本発明の第２の実施の形態における話題度算出装置の構成を示す。
【００５２】
同図に示す話題度算出装置には、本装置の入力となる文書データを蓄積する文書データベース２００と、本装置が出力する話題語句情報を記録する話題語句記録装置１０６０とが接続されている。
【００５３】
話題度算出装置は、文書解析部２１０、語句集計部２２０、語句データベース２３０、語句頻度算出部１０４０、話題度算出部１０５０から構成される。
【００５４】
上記の構成のうち、文書データベース２００、文書解析部２１０、語句集計部２２０、語句データベース２３０は、前述の第１の実施の形態と同様であり、その説明は省略する。
【００５５】
第１の実施の形態で示した語句の話題度算出方法においては、利用者から話題度算出対象とする語句の入力を受け付けてから、話題度の算出処理を行っていた。これは、ある言葉が話題となっているかを知ることはできるが、未知の言葉が話題になっている場合にそれを知ることができない。
【００５６】
これに対し、本実施の形態では、予め定めた一定期間毎に語句データベース２３０に含まれる全語句に対して話題度を算出することにより、その時々でどのような語句が話題になっているかを抽出可能とする。
【００５７】
以下では、第１の実施の形態にはない全語句の語句頻度を算出する語句頻度算出部１０４０と、全語句の話題度を算出する話題度算出部１０５０との動作について説明する。
【００５８】
図１１は、本発明の第２の実施の形態における語句頻度算出部の処理のフローチャートである。
【００５９】
ステップ１１００）語句頻度算出部１０４０は、予め定められた一定期間毎に起動し、語句データベース２３０にアクセスし、蓄積されている語句を重複なく取り出し語句リストを作成し、当該語句頻度算出部１０４０内のバッファ（図示せず）に格納する。
【００６０】
ステップ１１１０）次に、各集計期間毎の文書数を語句蓄積データベース２３０から取得し、文書数の時間変動Ｄ_all（Ｔ）を算出する。この際に、処理を軽減するために最近Ｎ期間の文書数のみに限ってＤ_all（Ｔ）を算出してもよい。
【００６１】
ステップ１１２０）ステップ１１００で作成され、バッファに格納された語句リストから未処理語句ｗを選び、語句データベース２３０から当該語句の各集計期間毎の使用数を読み込み、集計期間毎の語句ｗの使用頻度の変動を表す関数Ｄ_w（Ｔ）を得る。この際、処理を軽減するため最近Ｎ期間の使用文書数のみに限ってＤ_w（Ｔ）を算出してもよい。
【００６２】
ステップ１１３０）語句ｗの使用頻度の変動を表す関数Ｄ_w（Ｔ）と文書数の時間変動を表す関数Ｄ_all（Ｔ）の類似性を評価して相関度Ｒ（ｗ）を得る。類似性の算出には、一般的な波形の相関関数である次式を用いる。
【００６３】
【数１２】

ステップ１１４０）波形の相関度Ｒ（ｗ）を元に、補正された語句ｗの使用頻度の時間変化を表す関数Ｇ_w（Ｔ）を算出する。Ｄ_w（Ｔ）の最小値をminD_w、最大値をmaxＤ_w，Ｄ_all（Ｔ）の最小値をminＤ_all（Ｔ）、最大値をmaxＤ_all（Ｔ）とし、次式で求める。
【００６４】
【数１３】

この際、計算の簡略化のため、Ｒ（ｗ）が０よりも小さい場合には、Ｒ（ｗ）＝０とみなして計算してもよい。また、Ｇ_w（Ｔ）が０よりも小さくなる場合には、Ｇ_w（Ｔ）＝０としてもよい。
【００６５】
ステップ１１５０）得られた語句ｗの補正された使用頻度の時間変化Ｇ_w（Ｔ）を話題度算出部１０５０の語句頻度バッファ（図示せず）に記録する。
【００６６】
ステップ１１６０）未処理の語句が語句リスト中に存在するかを確認し、存在するならばステップ１１２０に戻って処理を続ける。未処理の語句が存在しなければ処理を終了する。
【００６７】
次に、話題度算出部２６０の処理の流れを示す。
【００６８】
図１２は、本発明の第２の実施の形態における話題度算出部の処理のフローチャートである。
【００６９】
ステップ１２１０）話題度算出部１０５０は、語句頻度算出部１０４０と同様に予め定められた期間毎に処理を開始し、処理開始時の時刻ｔ_ｐを取得する。
【００７０】
ステップ１２２０）次に、処理対象時刻を元に、予め与えられた正の値ｔ_ｑを用いて得られるｔ_ｐからｔ_ｐ−ｔ_ｑまでの時間範囲に対応する、話題重み付け関数Ｉt_p（ｔ）を作成する。この際、前述の特許文献１に示されるインパクト曲線のような重み付け関数を作成するとよい。
【００７１】
ステップ１２３０）語句バッファ（図示せず）からある語句ｗの使用頻度の時間変化を表すＧ_w（Ｔ）を一つ取り出し、話題重み付け関数Ｉt_p（ｔ）と掛け合わせることによって、語句ｗの話題度ＴＳ（ｗ）を求める。
【００７２】
【数１４】

ステップ１２４０）得られた語句ｗの話題度ＴＳ（ｗ）と語句ｗと処理時間ｔ_ｐとを話題度記録装置１０６０に出力する。例えば、
「決勝戦 32.8 2006/016 13:30」
といった結果が出力される。一連の処理で出力される話題度情報は全て同じ時刻情報を持つため、記憶量の軽減のためそれらをまとめて記録してもよい。話題度記録装置１０６０に出力される話題度情報の例を図１３に示す。
【００７３】
ステップ１２５０）語句頻度バッファ（図示せず）に未処理の語句頻度情報が含まれるかを確認し、含まれる場合にはステップ１１３０に戻り処理を続ける。含まれない場合には処理を終了する。
【００７４】
また、上記の話題度算出装置の各構成要素の動作をプログラムとして構築し、話題度算出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【００７５】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、話題度算出装置として利用されるコンピュータにインストールする、または、配布することが可能である。
【００７６】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【００７７】
本発明は、文書群から話題となっている語句を抽出するための技術に適用可能である。
【図面の簡単な説明】
【００７８】
【図１】本発明の原理を説明するための図である。
【図２】本発明の原理構成図である。
【図３】本発明の第１の実施の形態における話題度算出装置の構成図である。
【図４】本発明の第１の実施の形態における語句データベースに蓄積される情報の例である。
【図５】本発明の第１の実施の形態における語句頻度算出部の処理のフローチャートである。
【図６】本発明の第１の実施の形態における語句頻度の時間変動の例である。
【図７】本発明の第１の実施の形態における文書数の時間変動の例である。
【図８】本発明の第１の実施の形態における文書数の変動の影響を除いた語句頻度の時間変動の例である。
【図９】本発明の第１の実施の形態における話題度算出部の処理のフローチャートである。
【図１０】本発明の第２の実施の形態における話題度算出装置の構成図である。
【図１１】本発明の第２の実施の形態における語句頻度算出部の処理のフローチャートである。
【図１２】本発明の第２の実施の形態における話題度算出部の処理のフローチャートである。
【図１３】本発明の第２の実施の形態における話題度記録装置に蓄積される情報の例である。
【符号の説明】
【００７９】
２００文書データベース
２１０文書解析手段、文書解析部
２２０語句集計部
２３０語句データベース
２４０語句頻度算出手段、語句頻度算出部
２５０話題度算出手段、話題度算出部
２６０話題表示装置
１０４０語句頻度算出部
１０５０話題度算出部
１０６０話題度記録装置

【特許請求の範囲】
【請求項１】
多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する装置における話題度算出方法であって、
文書解析手段が、作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句（以下、文書内語句と記す）を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻および該文書ない語句と共に語句データベースに格納する文書解析ステップと、
語句頻度算出手段が、外部から入力された話題度算出処理の対象となる語句（以下、処理対象語句と記す）と、どの時点での話題を算出するのかを表す時刻情報（以下、算出指定時刻と記す）を取得する入力受付ステップと、
前記語句頻度算出手段が、前記処理対象語句に基づいて前記語句データベースを検索し、該処理対象語句に対応する文書内語句の前記語句頻度と前記集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出ステップと、
話題度算出手段が、前記入力受付ステップで入力された前記入力時刻の時点において、前記処理対象語句の話題性の高低を表す話題度を、前記語句頻度算出ステップで算出された前記語句頻度関数に対して前記算出指定時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出ステップと、
を行い、
前記語句頻度算出ステップにおいて、
前記語句頻度算出手段は、前記語句頻度の時間変動と前記入力文書数の時間変動とを求め、２つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を前記処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する、
ことを特徴とする話題度算出方法。
【請求項２】
前記語句頻度算出ステップにおいて、
前記処理対象語句の前記入力文書群中での前記語句頻度の時間変動と前記入力文書数の時間変動との相関度合いを相関度として算出し、
前記入力文書数の時間毎の変動量に前記相関度を掛け合わせた値に比例した値を、前記処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した前記語句頻度関数を求める、
請求項１記載の話題度算出方法。
【請求項３】
前記語句頻度算出ステップにおいて、
前記処理対象語句ｗの入力文書群中での語句頻度の時間変動Ｄ_ｗ（Ｔ）と入力文書数の時間変動Ｄ_all（Ｔ）との相関度合いＲ（ｗ）を、
【数１】

により求める、
請求項２記載の話題度算出方法。
【請求項４】
前記語句頻度算出ステップにおいて、
前記処理対象語句ｗの前記入力文書中での語句頻度の時間変動Ｄ_ｗ（Ｔ）と入力文書数の時間変動Ｄ_all（Ｔ）との相関度合いＲ（ｗ）を用いて、前記入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Ｇ_ｗ（Ｔ）を、
【数２】

により求める、
請求項２記載の話題度算出方法。
【請求項５】
前記入力受付ステップにおいて、
前記話題度算出処理の対象となる前記処理対象語句と、どの時点での話題度を算出するかを表す前記算出指定時刻を受け付ける代わりに、
前記語句頻度算出ステップにおいて、
前記入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求め、
前記話題度算出ステップにおいて、
前記入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める、
請求項１乃至４記載の話題度算出方法。
【請求項６】
多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する話題度算出装置であって、
作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句（以下、文書内語句と記す）を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻及び該文書内語句と共に語句データベースに格納する文書解析手段と、
外部から入力された話題度算出処理の対象となる語句（以下、処理対象語句と記す）を取得し、該処理対象語句に基づいて前記語句データベースを検索し、取得した該処理対象語句に対応する文書内語句の前記語句頻度と前記集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出手段と、
外部からどの時点での話題を算出するのかを表す時刻情報（以下、算出指定時刻と記す）を取得し、該算出指定時刻の時点において、前記処理対象語句の話題性の高低を表す話題度を、前記語句頻度算出手段で算出された前記語句頻度関数に対して前記入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出手段と、
を有し、
前記語句頻度算出手段は、
前記語句頻度の時間変動と前記入力文書数の時間変動とを求め、２つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を前記処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する手段を含む、
ことを特徴とする話題度算出装置。
【請求項７】
前記語句頻度算出手段は、
前記処理対象語句の前記入力文書群中での前記語句頻度の時間変動と前記入力文書数の時間変動との相関度合いを相関度として算出する手段と、
前記入力文書数の時間毎の変動量に前記相関度を掛け合わせた値に比例した値を、前記処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した前記語句頻度関数を求める手段と、
を含む請求項６記載の話題度算出装置。
【請求項８】
前記語句頻度算出手段は、
前記処理対象語句ｗの入力文書群中での語句頻度の時間変動Ｄ_ｗ（Ｔ）と入力文書数の時間変動Ｄ_all（Ｔ）との相関度合いＲ（ｗ）を、
【数３】

により求める、
請求項７記載の話題度算出装置。
【請求項９】
前記語句頻度算出手段は、
前記処理対象語句ｗの前記入力文書中での語句頻度の時間変動Ｄ_ｗ（Ｔ）と入力文書数の時間変動Ｄ_all（Ｔ）との相関度合いＲ（ｗ）を用いて、前記入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Ｇ_ｗ（Ｔ）を、
【数４】

により求める、
請求項７記載の話題度算出装置。
【請求項１０】
前記語句頻度算出手段は、
前記話題度算出処理の対象となる前記処理対象語句と、どの時点での話題度を算出するかを表す前記算出指定時刻を受け付ける代わりに、前記入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求める手段を含み、
前記話題度算出手段は、
前記入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める手段を含む、
請求項６乃至９記載の話題度算出装置。
【請求項１１】
コンピュータに、
請求項６乃至１０記載の話題度算出装置の各手段を実行させることを特徴とする話題度算出プログラム。
【請求項１２】
コンピュータに、
請求項６乃至１０記載の話題度算出装置の各手段を実行させる話題度算出プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。

【図１】