話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
【課題】どのような文書数の母数の変動が生じても、自動的にその影響を補正して精度高く話題となる語句を抽出する。
【解決手段】本発明は、処理対象語句及び算出指定時刻に基づいて、処理対象の文書群から抽出された処理対象語句、集計時刻、語句頻度等が格納された語句データベースを検索し、該処理対象語句に対応する処理対象語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出し、入力時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度関数に対して入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める。
【解決手段】本発明は、処理対象語句及び算出指定時刻に基づいて、処理対象の文書群から抽出された処理対象語句、集計時刻、語句頻度等が格納された語句データベースを検索し、該処理対象語句に対応する処理対象語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出し、入力時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度関数に対して入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、新しい情報を含む文書を次々と入手しうる状況において、文書群から話題となっている語句を自動的に抽出するための話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
【背景技術】
【0002】
インターネットをはじめとした情報メディアの発達により、誰であっても容易に情報発信を行えるようになり、様々な発信者によって文書が作成され、ネットワーク上に発信されるようになってきている。そのような中、現在までに作成された文書情報を分析することによって、任意の時点において話題となっていた事柄を抽出することが可能になると考えられる。
【0003】
インターネットに代表されるネットワークシステム上にアップロードされている文書群から、文書群中に含まれる語句の出現回数の時間変動を考慮して、文書群中で話題となっている特徴語句を抽出する技術は複数提案されている。
【0004】
従来の技術として、ネットワークシステム上にアップロードされている文書をその作成時刻情報と共に取得し、当該文書の内容に応じて予め設定された複数の分野に自動的に分類し、各分野毎に時間に沿って出現頻度が特徴的に増加しており、なおかつ他分野で出現していないような語句に対して話題を表す特徴語句として高い話題度合いを示す話題度の値を算出する技術がある(例えば、特許文献1参照)。
【0005】
しかし、上記の技術においては、一定期間中にある語句の使用回数が増加した場合に話題を表す特徴語句として抽出するため、全体の文書量が短期的に増加した場合や、全体の文書量が定期的に変動している場合に、その影響により精度が低下する問題があった。そのため、文書量の変化を元とした変動をキャンセルする補正関数を設定する手法が存在する(例えば、非特許文献1参照)。
【特許文献1】特開2005−276115号公報
【非特許文献1】「document streamにおけるburstの発見」藤木稔明、南野朋之、鈴木泰裕、奥村学、情報処理学会研究報告2003-NL-160
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上記従来の方法は、文書量の変化のパターンを使用者が把握して補正関数を設計しなければならないため手間がかかるものであった。
【0007】
本発明は、上記の点に鑑みなされたもので、どのような文書数の母数の変動が生じても、自動的にその影響を補正して精度高く話題となる語句を抽出することが可能な話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0008】
図1は、本発明の原理を説明するための図である。
【0009】
本発明(請求項1)は、多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する装置における話題度算出方法であって、
文書解析手段が、作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻および該文書ない語句と共に語句データベースに格納する文書解析ステップ(ステップ110)と、
語句頻度算出手段が、外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句と記す)と、どの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得する入力受付ステップ(ステップ120)と、
語句頻度算出手段が、処理対象語句に基づいて語句データベースを検索し、該処理対象語句に対応する文書内語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出ステップ(ステップ130)と、
話題度算出手段が、入力受付ステップ(ステップ120)で入力された入力時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度算出ステップ(ステップ130)で算出された語句頻度関数に対して算出指定時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出ステップ(ステップ140)と、
を行い、
語句頻度算出ステップ(ステップ130)において、
語句頻度算出手段は、語句頻度の時間変動と入力文書数の時間変動とを求め、2つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する。
【0010】
また、本発明(請求項2)は、語句頻度算出ステップにおいて、
処理対象語句の入力文書群中での語句頻度の時間変動と入力文書数の時間変動との相関度合いを相関度として算出し、
入力文書数の時間毎の変動量に相関度を掛け合わせた値に比例した値を、処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した語句頻度関数を求める。
【0011】
また、本発明(請求項3)は、語句頻度算出ステップ(ステップ130)において、
処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
【0012】
【数5】
により求める。
【0013】
また、本発明(請求項4)は、語句頻度算出ステップ(ステップ130)において、
処理対象語句wの入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
【0014】
【数6】
により求める。
【0015】
また、本発明(請求項5)は、入力受付ステップ(ステップ120)において、
話題度算出処理の対象となる処理対象語句と、どの時点での話題度を算出するかを表す算出指定時刻を受け付ける代わりに、
語句頻度算出ステップ(ステップ130)において、
入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求め、
話題度算出ステップ(ステップ140)において、
入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める。
【0016】
図2は、本発明の原理構成図である。
【0017】
本発明(請求項6)は、多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する話題度算出装置であって、
作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻及び該文書内語句と共に語句データベース230に格納する文書解析手段210と、
外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句と記す)を取得し、該処理対象語句に基づいて語句データベース230を検索し、取得した該処理対象語句に対応する文書内語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出手段240と、
外部からどの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得し、該算出指定時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度算出手段240で算出された語句頻度関数に対して入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出手段250と、
を有し、
語句頻度算出手段240は、
語句頻度の時間変動と入力文書数の時間変動とを求め、2つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する手段を含む。
【0018】
また、本発明(請求項7)は、語句頻度算出手段240において、
処理対象語句の入力文書群中での語句頻度の時間変動と入力文書数の時間変動との相関度合いを相関度として算出する手段と、
入力文書数の時間毎の変動量に相関度を掛け合わせた値に比例した値を、処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した語句頻度関数を求める手段と、を含む。
【0019】
また、本発明(請求項8)は、語句頻度算出手段240において、
処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
【0020】
【数7】
により求める。
【0021】
また、本発明(請求項9)は、語句頻度算出手段240において、
処理対象語句wの入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
【0022】
【数8】
により求める。
また、本発明(請求項10)は、語句頻度算出手段240において、話題度算出処理の対象となる処理対象語句と、どの時点での話題度を算出するかを表す算出指定時刻を受け付ける代わりに、入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求める手段を含み、
話題度算出手段250において、入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める手段を含む。
【0023】
本発明(請求項11)は、コンピュータに、請求項6乃至10記載の話題度算出装置の各手段を実行させる話題度算出プログラムである。
【0024】
本発明(請求項12)は、コンピュータに、請求項6乃至10記載の話題度算出装置の各手段を実行させる話題度算出プログラムを格納したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0025】
上記のように本発明によれば、ウェブ上で公開されているニュース記事や日記記事などの次々と発信されている文書情報を取得し、文書中の語句の話題性の高低を自動的に抽出する際に、全文書数の時間変動の影響を除去することが可能となる。それにより、従来の技術にあった全文書数が変動した際に誤った話題語を抽出してしまうことがなくなり、最近の流行や話題を精度高く抽出することが可能となる。
【発明を実施するための最良の形態】
【0026】
以下、図面と共に本発明の実施の形態を説明する。
【0027】
[第1の実施の形態]
図3は、本発明の第1の実施の形態における話題度算出装置の構成を示す。
【0028】
同図に示す話題度算出装置には、本装置の入力となる文書データを蓄積する文書データベース200と、本装置が出力する話題語情報を表示する話題表示装置260とが接続されている。
【0029】
話題度算出装置は、文書解析部210、語句集計部220、語句データベース230、語句頻度算出部240、話題度算出部250から構成される。
【0030】
文書データベース200には、作成時刻が付加された文書群が蓄積されている。例えば、Web上に公開されている文書に「2006 4/25 13:55」といったような作成時刻と文書を一意に表す文書IDとを付加し、次々と入力して記録することにより、文書データベース200を構築することができる。インターネット上の日記サイトなど、新しい文書が逐次更新される情報源の場合には、サイト内の文書が更新された場合にも、新たな文書が作成されたとみなして収集してもよい。
【0031】
文書解析部210は、文書データベース200に蓄積されている文書を1文書ずつ取得し、形態素解析を行い、品詞毎に分解する。例えば、「おいしいチョコドーナツ」という文章を、「おいしい」「チョコ」「ドーナツ」と分解する。分解された品詞群から名詞のみを選んで抽出する。このとき、必要に応じて「チョコ」「ドーナツ」という連続する名詞を連結して「チョコドーナツ」という複合名詞とし、複合名詞を1個の名詞として扱ってもよい。以下の説明では、名詞と複合名詞とを総称して語句と呼ぶ。このようにして得られた語句それぞれについて、解析前に当該語句が含まれていた文書の作成時刻と文書IDとを付加し、
「チョコドーナツ 2006/01/06 11:36 ID1035, バナナ 2006/01/06 11:36 ID1035, 新製品 2006/01/06 12:06 ID1036, …」
といった形式の情報として、語句集計部220の語句バッファ(図示せず)に蓄積する。
【0032】
語句集計部220は、予め設定された一定期間毎に起動し、語句バッファに蓄積された情報を読み込み、語句バッファ中の情報に含まれる文書IDを重複なく取り出してその数を文書数Dallとして集計し、また、語句バッファ中に含まれる全ての語句について語句wkの使用回数を語句頻度Dwkとして集計する。集計の結果得られた文書数Dallと、全ての語句wkと語句wkの語句頻度Dwkとの組とを、集計した時刻の情報とともに語句データベース230に記録する。語句データベース230に蓄積される情報の例を図4に示す。
【0033】
語句集計部220において、データ量の削減のため、語句wkの使用回数を集計する代わりに、同一文書IDで複数回語句wkが使われている場合には合わせて1回と集計することにより、語句wkの語句頻度Dwkを集計してもよい。
【0034】
語句頻度算出部240は、外部から話題度算出対象となる語句情報が入力されると、当該入力語句に基づいて語句データベース230を検索し、当該処理対象語句に対応する語句頻度と文書数を取得して、その時間変化を比較することにより、全文書数の時間による変動の影響を除いた話題度算出対象語句の集計期間毎の使用頻度を話題度算出部250のバッファ(図示せず)に出力する。
【0035】
図5は、本発明の第1の実施の形態における語句頻度算出部の処理のフローチャートである。
【0036】
ステップ500) 語句頻度算出部240は、処理が開始されると外部から処理対象となる語句情報wの入力を受け付ける。
【0037】
ステップ510) 受け付けた処理対象語句wに基づいて語句データベース230を検索し、当該語句wに対応する各集計期間毎の使用頻度情報を読み込み、集計期間毎の語句wの使用頻度の変動を表す関数Dw(T)を得る。ここで、Tは離散値である。例として、3つの語句w1とw2とw3とにおける使用頻度変動を表すDw1(T),Dw2(T),Dw3(T)を図6に示す。なお、図6に示す曲線は実際には離散点の集合である。この際、処理を軽減するため最近N期間の使用文書数のみに限ってDw(T)を算出してもよい。
【0038】
ステップ520) 次に、各集計期間毎の文書数を語句蓄積データベース230から取得し、文書数の集計期間毎の変動Dall(T)を算出する。Dall(T)の例を図7に示す。なお、図7に示す曲線は、実際には離散点の集合である。この際に、処理を軽減するための最近N期間の文書数のみに限ってDall(T)を算出してもよい。
【0039】
ステップ530) 処理対象語句wの入力文書群中での使用頻度と入力文書数との相関度合いを相関度R(w)として算出する。具体的には、語句wの時間変化関数Dw(T)と文書数の時間変化関数Dall(T)の類似性を評価して相関度R(w)を得る。類似性の算出には一般的な波形の相関関数である次式を用いる。
【0040】
【数9】
ステップ540) 次に、入力文書数の時間毎の変化量に相関度R(w)を掛け合わせた値に比例した値を処理対象語句の同時間の使用頻度から除くことにより、入力文書数が変動した影響による語句の使用頻度の増減を考慮した語句頻度関数Gw(T)を求める。具体的には、Dall(T)の最小値をminDall(T)、最大値をmaxDall(T)とし、次の式で求める。
【0041】
【数10】
この際、計算の簡略化のため、R(w)が0よりも小さい場合には、R(w)=0とみなして計算してもよい。また、Gw(T)が0よりも小さくなる場合には、Gw(T)=0としてもよい。
【0042】
このようにして全文書数の時間変動の影響を除いた語句の使用頻度の変更を算出することにより、図6に示した各語句の全文書数の影響が補正された語句頻度関数Gw1(T),Gw2(T),Gw3(T)は、それぞれ、図8に示すようになる。図8に示す曲線や直線は実際には離散点の集合である。
【0043】
ステップ550) 上記で得られた語句wの語句頻度関数Gw(T)を話題度算出部250の語句頻度バッファ(図示せず)に記録する。
【0044】
次に、話題度算出部260の処理について説明する。
【0045】
図9は、本発明の第1の実施の形態における話題度算出部の処理のフローチャートである。
【0046】
ステップ910) 話題度算出部260は、語句頻度バッファ(図示せず)に語句頻度関数Gw(T)が書き込まれると、処理を開始し、外部から処理対象時刻tpの入力を受け付ける。
【0047】
ステップ920) 次に、処理対象時刻を元に、予め与えられた正の値tqを用いて得られるtpからtp−tqまでの処理範囲に対応する、最近多く使われた単語に大きな重みを置くような、話題重み付け関数Itp(t)を作成する。この際、前述の特許文献1に示されるインパクト曲線のような重み付け関数を作成するとよい。
【0048】
ステップ930) 次に、話題重み付け関数Itp(t)と語句wの使用頻度の時間変化Gw(T)を次式に代入することによって、語句wの話題度TS(w)を求める。
【0049】
【数11】
ステップ940) 得られた語句wの話題度TS(w)と語句wとを表示装置260に出力する。例えば、「決勝戦32.8」といった結果が表示装置260の画面上に出力される。
【0050】
なお、上記の語句頻度算出部240におけるステップ500、話題度算出部260のステップ910において、それぞれ、処理対象となる語句情報と処理対象時刻を外部から入力しているが、この例に限定されることなく、語句頻度算出部240において、両方を入力してもよい。
【0051】
[第2の実施の形態]
図10は、本発明の第2の実施の形態における話題度算出装置の構成を示す。
【0052】
同図に示す話題度算出装置には、本装置の入力となる文書データを蓄積する文書データベース200と、本装置が出力する話題語句情報を記録する話題語句記録装置1060とが接続されている。
【0053】
話題度算出装置は、文書解析部210、語句集計部220、語句データベース230、語句頻度算出部1040、話題度算出部1050から構成される。
【0054】
上記の構成のうち、文書データベース200、文書解析部210、語句集計部220、語句データベース230は、前述の第1の実施の形態と同様であり、その説明は省略する。
【0055】
第1の実施の形態で示した語句の話題度算出方法においては、利用者から話題度算出対象とする語句の入力を受け付けてから、話題度の算出処理を行っていた。これは、ある言葉が話題となっているかを知ることはできるが、未知の言葉が話題になっている場合にそれを知ることができない。
【0056】
これに対し、本実施の形態では、予め定めた一定期間毎に語句データベース230に含まれる全語句に対して話題度を算出することにより、その時々でどのような語句が話題になっているかを抽出可能とする。
【0057】
以下では、第1の実施の形態にはない全語句の語句頻度を算出する語句頻度算出部1040と、全語句の話題度を算出する話題度算出部1050との動作について説明する。
【0058】
図11は、本発明の第2の実施の形態における語句頻度算出部の処理のフローチャートである。
【0059】
ステップ1100) 語句頻度算出部1040は、予め定められた一定期間毎に起動し、語句データベース230にアクセスし、蓄積されている語句を重複なく取り出し語句リストを作成し、当該語句頻度算出部1040内のバッファ(図示せず)に格納する。
【0060】
ステップ1110) 次に、各集計期間毎の文書数を語句蓄積データベース230から取得し、文書数の時間変動Dall(T)を算出する。この際に、処理を軽減するために最近N期間の文書数のみに限ってDall(T)を算出してもよい。
【0061】
ステップ1120) ステップ1100で作成され、バッファに格納された語句リストから未処理語句wを選び、語句データベース230から当該語句の各集計期間毎の使用数を読み込み、集計期間毎の語句wの使用頻度の変動を表す関数Dw(T)を得る。この際、処理を軽減するため最近N期間の使用文書数のみに限ってDw(T)を算出してもよい。
【0062】
ステップ1130) 語句wの使用頻度の変動を表す関数Dw(T)と文書数の時間変動を表す関数Dall(T)の類似性を評価して相関度R(w)を得る。類似性の算出には、一般的な波形の相関関数である次式を用いる。
【0063】
【数12】
ステップ1140) 波形の相関度R(w)を元に、補正された語句wの使用頻度の時間変化を表す関数Gw(T)を算出する。Dw(T)の最小値をminDw、最大値をmaxDw,Dall(T)の最小値をminDall(T)、最大値をmaxDall(T)とし、次式で求める。
【0064】
【数13】
この際、計算の簡略化のため、R(w)が0よりも小さい場合には、R(w)=0とみなして計算してもよい。また、Gw(T)が0よりも小さくなる場合には、Gw(T)=0としてもよい。
【0065】
ステップ1150) 得られた語句wの補正された使用頻度の時間変化Gw(T)を話題度算出部1050の語句頻度バッファ(図示せず)に記録する。
【0066】
ステップ1160) 未処理の語句が語句リスト中に存在するかを確認し、存在するならばステップ1120に戻って処理を続ける。未処理の語句が存在しなければ処理を終了する。
【0067】
次に、話題度算出部260の処理の流れを示す。
【0068】
図12は、本発明の第2の実施の形態における話題度算出部の処理のフローチャートである。
【0069】
ステップ1210)話題度算出部1050は、語句頻度算出部1040と同様に予め定められた期間毎に処理を開始し、処理開始時の時刻tpを取得する。
【0070】
ステップ1220) 次に、処理対象時刻を元に、予め与えられた正の値tqを用いて得られるtpからtp−tqまでの時間範囲に対応する、話題重み付け関数Itp(t)を作成する。この際、前述の特許文献1に示されるインパクト曲線のような重み付け関数を作成するとよい。
【0071】
ステップ1230) 語句バッファ(図示せず)からある語句wの使用頻度の時間変化を表すGw(T)を一つ取り出し、話題重み付け関数Itp(t)と掛け合わせることによって、語句wの話題度TS(w)を求める。
【0072】
【数14】
ステップ1240) 得られた語句wの話題度TS(w)と語句wと処理時間tpとを話題度記録装置1060に出力する。例えば、
「決勝戦 32.8 2006/016 13:30」
といった結果が出力される。一連の処理で出力される話題度情報は全て同じ時刻情報を持つため、記憶量の軽減のためそれらをまとめて記録してもよい。話題度記録装置1060に出力される話題度情報の例を図13に示す。
【0073】
ステップ1250) 語句頻度バッファ(図示せず)に未処理の語句頻度情報が含まれるかを確認し、含まれる場合にはステップ1130に戻り処理を続ける。含まれない場合には処理を終了する。
【0074】
また、上記の話題度算出装置の各構成要素の動作をプログラムとして構築し、話題度算出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0075】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、話題度算出装置として利用されるコンピュータにインストールする、または、配布することが可能である。
【0076】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0077】
本発明は、文書群から話題となっている語句を抽出するための技術に適用可能である。
【図面の簡単な説明】
【0078】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の第1の実施の形態における話題度算出装置の構成図である。
【図4】本発明の第1の実施の形態における語句データベースに蓄積される情報の例である。
【図5】本発明の第1の実施の形態における語句頻度算出部の処理のフローチャートである。
【図6】本発明の第1の実施の形態における語句頻度の時間変動の例である。
【図7】本発明の第1の実施の形態における文書数の時間変動の例である。
【図8】本発明の第1の実施の形態における文書数の変動の影響を除いた語句頻度の時間変動の例である。
【図9】本発明の第1の実施の形態における話題度算出部の処理のフローチャートである。
【図10】本発明の第2の実施の形態における話題度算出装置の構成図である。
【図11】本発明の第2の実施の形態における語句頻度算出部の処理のフローチャートである。
【図12】本発明の第2の実施の形態における話題度算出部の処理のフローチャートである。
【図13】本発明の第2の実施の形態における話題度記録装置に蓄積される情報の例である。
【符号の説明】
【0079】
200 文書データベース
210 文書解析手段、文書解析部
220 語句集計部
230 語句データベース
240 語句頻度算出手段、語句頻度算出部
250 話題度算出手段、話題度算出部
260 話題表示装置
1040 語句頻度算出部
1050 話題度算出部
1060 話題度記録装置
【技術分野】
【0001】
本発明は、話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、新しい情報を含む文書を次々と入手しうる状況において、文書群から話題となっている語句を自動的に抽出するための話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
【背景技術】
【0002】
インターネットをはじめとした情報メディアの発達により、誰であっても容易に情報発信を行えるようになり、様々な発信者によって文書が作成され、ネットワーク上に発信されるようになってきている。そのような中、現在までに作成された文書情報を分析することによって、任意の時点において話題となっていた事柄を抽出することが可能になると考えられる。
【0003】
インターネットに代表されるネットワークシステム上にアップロードされている文書群から、文書群中に含まれる語句の出現回数の時間変動を考慮して、文書群中で話題となっている特徴語句を抽出する技術は複数提案されている。
【0004】
従来の技術として、ネットワークシステム上にアップロードされている文書をその作成時刻情報と共に取得し、当該文書の内容に応じて予め設定された複数の分野に自動的に分類し、各分野毎に時間に沿って出現頻度が特徴的に増加しており、なおかつ他分野で出現していないような語句に対して話題を表す特徴語句として高い話題度合いを示す話題度の値を算出する技術がある(例えば、特許文献1参照)。
【0005】
しかし、上記の技術においては、一定期間中にある語句の使用回数が増加した場合に話題を表す特徴語句として抽出するため、全体の文書量が短期的に増加した場合や、全体の文書量が定期的に変動している場合に、その影響により精度が低下する問題があった。そのため、文書量の変化を元とした変動をキャンセルする補正関数を設定する手法が存在する(例えば、非特許文献1参照)。
【特許文献1】特開2005−276115号公報
【非特許文献1】「document streamにおけるburstの発見」藤木稔明、南野朋之、鈴木泰裕、奥村学、情報処理学会研究報告2003-NL-160
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上記従来の方法は、文書量の変化のパターンを使用者が把握して補正関数を設計しなければならないため手間がかかるものであった。
【0007】
本発明は、上記の点に鑑みなされたもので、どのような文書数の母数の変動が生じても、自動的にその影響を補正して精度高く話題となる語句を抽出することが可能な話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0008】
図1は、本発明の原理を説明するための図である。
【0009】
本発明(請求項1)は、多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する装置における話題度算出方法であって、
文書解析手段が、作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻および該文書ない語句と共に語句データベースに格納する文書解析ステップ(ステップ110)と、
語句頻度算出手段が、外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句と記す)と、どの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得する入力受付ステップ(ステップ120)と、
語句頻度算出手段が、処理対象語句に基づいて語句データベースを検索し、該処理対象語句に対応する文書内語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出ステップ(ステップ130)と、
話題度算出手段が、入力受付ステップ(ステップ120)で入力された入力時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度算出ステップ(ステップ130)で算出された語句頻度関数に対して算出指定時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出ステップ(ステップ140)と、
を行い、
語句頻度算出ステップ(ステップ130)において、
語句頻度算出手段は、語句頻度の時間変動と入力文書数の時間変動とを求め、2つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する。
【0010】
また、本発明(請求項2)は、語句頻度算出ステップにおいて、
処理対象語句の入力文書群中での語句頻度の時間変動と入力文書数の時間変動との相関度合いを相関度として算出し、
入力文書数の時間毎の変動量に相関度を掛け合わせた値に比例した値を、処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した語句頻度関数を求める。
【0011】
また、本発明(請求項3)は、語句頻度算出ステップ(ステップ130)において、
処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
【0012】
【数5】
により求める。
【0013】
また、本発明(請求項4)は、語句頻度算出ステップ(ステップ130)において、
処理対象語句wの入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
【0014】
【数6】
により求める。
【0015】
また、本発明(請求項5)は、入力受付ステップ(ステップ120)において、
話題度算出処理の対象となる処理対象語句と、どの時点での話題度を算出するかを表す算出指定時刻を受け付ける代わりに、
語句頻度算出ステップ(ステップ130)において、
入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求め、
話題度算出ステップ(ステップ140)において、
入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める。
【0016】
図2は、本発明の原理構成図である。
【0017】
本発明(請求項6)は、多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する話題度算出装置であって、
作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻及び該文書内語句と共に語句データベース230に格納する文書解析手段210と、
外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句と記す)を取得し、該処理対象語句に基づいて語句データベース230を検索し、取得した該処理対象語句に対応する文書内語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出手段240と、
外部からどの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得し、該算出指定時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度算出手段240で算出された語句頻度関数に対して入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出手段250と、
を有し、
語句頻度算出手段240は、
語句頻度の時間変動と入力文書数の時間変動とを求め、2つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する手段を含む。
【0018】
また、本発明(請求項7)は、語句頻度算出手段240において、
処理対象語句の入力文書群中での語句頻度の時間変動と入力文書数の時間変動との相関度合いを相関度として算出する手段と、
入力文書数の時間毎の変動量に相関度を掛け合わせた値に比例した値を、処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した語句頻度関数を求める手段と、を含む。
【0019】
また、本発明(請求項8)は、語句頻度算出手段240において、
処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
【0020】
【数7】
により求める。
【0021】
また、本発明(請求項9)は、語句頻度算出手段240において、
処理対象語句wの入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
【0022】
【数8】
により求める。
また、本発明(請求項10)は、語句頻度算出手段240において、話題度算出処理の対象となる処理対象語句と、どの時点での話題度を算出するかを表す算出指定時刻を受け付ける代わりに、入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求める手段を含み、
話題度算出手段250において、入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める手段を含む。
【0023】
本発明(請求項11)は、コンピュータに、請求項6乃至10記載の話題度算出装置の各手段を実行させる話題度算出プログラムである。
【0024】
本発明(請求項12)は、コンピュータに、請求項6乃至10記載の話題度算出装置の各手段を実行させる話題度算出プログラムを格納したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0025】
上記のように本発明によれば、ウェブ上で公開されているニュース記事や日記記事などの次々と発信されている文書情報を取得し、文書中の語句の話題性の高低を自動的に抽出する際に、全文書数の時間変動の影響を除去することが可能となる。それにより、従来の技術にあった全文書数が変動した際に誤った話題語を抽出してしまうことがなくなり、最近の流行や話題を精度高く抽出することが可能となる。
【発明を実施するための最良の形態】
【0026】
以下、図面と共に本発明の実施の形態を説明する。
【0027】
[第1の実施の形態]
図3は、本発明の第1の実施の形態における話題度算出装置の構成を示す。
【0028】
同図に示す話題度算出装置には、本装置の入力となる文書データを蓄積する文書データベース200と、本装置が出力する話題語情報を表示する話題表示装置260とが接続されている。
【0029】
話題度算出装置は、文書解析部210、語句集計部220、語句データベース230、語句頻度算出部240、話題度算出部250から構成される。
【0030】
文書データベース200には、作成時刻が付加された文書群が蓄積されている。例えば、Web上に公開されている文書に「2006 4/25 13:55」といったような作成時刻と文書を一意に表す文書IDとを付加し、次々と入力して記録することにより、文書データベース200を構築することができる。インターネット上の日記サイトなど、新しい文書が逐次更新される情報源の場合には、サイト内の文書が更新された場合にも、新たな文書が作成されたとみなして収集してもよい。
【0031】
文書解析部210は、文書データベース200に蓄積されている文書を1文書ずつ取得し、形態素解析を行い、品詞毎に分解する。例えば、「おいしいチョコドーナツ」という文章を、「おいしい」「チョコ」「ドーナツ」と分解する。分解された品詞群から名詞のみを選んで抽出する。このとき、必要に応じて「チョコ」「ドーナツ」という連続する名詞を連結して「チョコドーナツ」という複合名詞とし、複合名詞を1個の名詞として扱ってもよい。以下の説明では、名詞と複合名詞とを総称して語句と呼ぶ。このようにして得られた語句それぞれについて、解析前に当該語句が含まれていた文書の作成時刻と文書IDとを付加し、
「チョコドーナツ 2006/01/06 11:36 ID1035, バナナ 2006/01/06 11:36 ID1035, 新製品 2006/01/06 12:06 ID1036, …」
といった形式の情報として、語句集計部220の語句バッファ(図示せず)に蓄積する。
【0032】
語句集計部220は、予め設定された一定期間毎に起動し、語句バッファに蓄積された情報を読み込み、語句バッファ中の情報に含まれる文書IDを重複なく取り出してその数を文書数Dallとして集計し、また、語句バッファ中に含まれる全ての語句について語句wkの使用回数を語句頻度Dwkとして集計する。集計の結果得られた文書数Dallと、全ての語句wkと語句wkの語句頻度Dwkとの組とを、集計した時刻の情報とともに語句データベース230に記録する。語句データベース230に蓄積される情報の例を図4に示す。
【0033】
語句集計部220において、データ量の削減のため、語句wkの使用回数を集計する代わりに、同一文書IDで複数回語句wkが使われている場合には合わせて1回と集計することにより、語句wkの語句頻度Dwkを集計してもよい。
【0034】
語句頻度算出部240は、外部から話題度算出対象となる語句情報が入力されると、当該入力語句に基づいて語句データベース230を検索し、当該処理対象語句に対応する語句頻度と文書数を取得して、その時間変化を比較することにより、全文書数の時間による変動の影響を除いた話題度算出対象語句の集計期間毎の使用頻度を話題度算出部250のバッファ(図示せず)に出力する。
【0035】
図5は、本発明の第1の実施の形態における語句頻度算出部の処理のフローチャートである。
【0036】
ステップ500) 語句頻度算出部240は、処理が開始されると外部から処理対象となる語句情報wの入力を受け付ける。
【0037】
ステップ510) 受け付けた処理対象語句wに基づいて語句データベース230を検索し、当該語句wに対応する各集計期間毎の使用頻度情報を読み込み、集計期間毎の語句wの使用頻度の変動を表す関数Dw(T)を得る。ここで、Tは離散値である。例として、3つの語句w1とw2とw3とにおける使用頻度変動を表すDw1(T),Dw2(T),Dw3(T)を図6に示す。なお、図6に示す曲線は実際には離散点の集合である。この際、処理を軽減するため最近N期間の使用文書数のみに限ってDw(T)を算出してもよい。
【0038】
ステップ520) 次に、各集計期間毎の文書数を語句蓄積データベース230から取得し、文書数の集計期間毎の変動Dall(T)を算出する。Dall(T)の例を図7に示す。なお、図7に示す曲線は、実際には離散点の集合である。この際に、処理を軽減するための最近N期間の文書数のみに限ってDall(T)を算出してもよい。
【0039】
ステップ530) 処理対象語句wの入力文書群中での使用頻度と入力文書数との相関度合いを相関度R(w)として算出する。具体的には、語句wの時間変化関数Dw(T)と文書数の時間変化関数Dall(T)の類似性を評価して相関度R(w)を得る。類似性の算出には一般的な波形の相関関数である次式を用いる。
【0040】
【数9】
ステップ540) 次に、入力文書数の時間毎の変化量に相関度R(w)を掛け合わせた値に比例した値を処理対象語句の同時間の使用頻度から除くことにより、入力文書数が変動した影響による語句の使用頻度の増減を考慮した語句頻度関数Gw(T)を求める。具体的には、Dall(T)の最小値をminDall(T)、最大値をmaxDall(T)とし、次の式で求める。
【0041】
【数10】
この際、計算の簡略化のため、R(w)が0よりも小さい場合には、R(w)=0とみなして計算してもよい。また、Gw(T)が0よりも小さくなる場合には、Gw(T)=0としてもよい。
【0042】
このようにして全文書数の時間変動の影響を除いた語句の使用頻度の変更を算出することにより、図6に示した各語句の全文書数の影響が補正された語句頻度関数Gw1(T),Gw2(T),Gw3(T)は、それぞれ、図8に示すようになる。図8に示す曲線や直線は実際には離散点の集合である。
【0043】
ステップ550) 上記で得られた語句wの語句頻度関数Gw(T)を話題度算出部250の語句頻度バッファ(図示せず)に記録する。
【0044】
次に、話題度算出部260の処理について説明する。
【0045】
図9は、本発明の第1の実施の形態における話題度算出部の処理のフローチャートである。
【0046】
ステップ910) 話題度算出部260は、語句頻度バッファ(図示せず)に語句頻度関数Gw(T)が書き込まれると、処理を開始し、外部から処理対象時刻tpの入力を受け付ける。
【0047】
ステップ920) 次に、処理対象時刻を元に、予め与えられた正の値tqを用いて得られるtpからtp−tqまでの処理範囲に対応する、最近多く使われた単語に大きな重みを置くような、話題重み付け関数Itp(t)を作成する。この際、前述の特許文献1に示されるインパクト曲線のような重み付け関数を作成するとよい。
【0048】
ステップ930) 次に、話題重み付け関数Itp(t)と語句wの使用頻度の時間変化Gw(T)を次式に代入することによって、語句wの話題度TS(w)を求める。
【0049】
【数11】
ステップ940) 得られた語句wの話題度TS(w)と語句wとを表示装置260に出力する。例えば、「決勝戦32.8」といった結果が表示装置260の画面上に出力される。
【0050】
なお、上記の語句頻度算出部240におけるステップ500、話題度算出部260のステップ910において、それぞれ、処理対象となる語句情報と処理対象時刻を外部から入力しているが、この例に限定されることなく、語句頻度算出部240において、両方を入力してもよい。
【0051】
[第2の実施の形態]
図10は、本発明の第2の実施の形態における話題度算出装置の構成を示す。
【0052】
同図に示す話題度算出装置には、本装置の入力となる文書データを蓄積する文書データベース200と、本装置が出力する話題語句情報を記録する話題語句記録装置1060とが接続されている。
【0053】
話題度算出装置は、文書解析部210、語句集計部220、語句データベース230、語句頻度算出部1040、話題度算出部1050から構成される。
【0054】
上記の構成のうち、文書データベース200、文書解析部210、語句集計部220、語句データベース230は、前述の第1の実施の形態と同様であり、その説明は省略する。
【0055】
第1の実施の形態で示した語句の話題度算出方法においては、利用者から話題度算出対象とする語句の入力を受け付けてから、話題度の算出処理を行っていた。これは、ある言葉が話題となっているかを知ることはできるが、未知の言葉が話題になっている場合にそれを知ることができない。
【0056】
これに対し、本実施の形態では、予め定めた一定期間毎に語句データベース230に含まれる全語句に対して話題度を算出することにより、その時々でどのような語句が話題になっているかを抽出可能とする。
【0057】
以下では、第1の実施の形態にはない全語句の語句頻度を算出する語句頻度算出部1040と、全語句の話題度を算出する話題度算出部1050との動作について説明する。
【0058】
図11は、本発明の第2の実施の形態における語句頻度算出部の処理のフローチャートである。
【0059】
ステップ1100) 語句頻度算出部1040は、予め定められた一定期間毎に起動し、語句データベース230にアクセスし、蓄積されている語句を重複なく取り出し語句リストを作成し、当該語句頻度算出部1040内のバッファ(図示せず)に格納する。
【0060】
ステップ1110) 次に、各集計期間毎の文書数を語句蓄積データベース230から取得し、文書数の時間変動Dall(T)を算出する。この際に、処理を軽減するために最近N期間の文書数のみに限ってDall(T)を算出してもよい。
【0061】
ステップ1120) ステップ1100で作成され、バッファに格納された語句リストから未処理語句wを選び、語句データベース230から当該語句の各集計期間毎の使用数を読み込み、集計期間毎の語句wの使用頻度の変動を表す関数Dw(T)を得る。この際、処理を軽減するため最近N期間の使用文書数のみに限ってDw(T)を算出してもよい。
【0062】
ステップ1130) 語句wの使用頻度の変動を表す関数Dw(T)と文書数の時間変動を表す関数Dall(T)の類似性を評価して相関度R(w)を得る。類似性の算出には、一般的な波形の相関関数である次式を用いる。
【0063】
【数12】
ステップ1140) 波形の相関度R(w)を元に、補正された語句wの使用頻度の時間変化を表す関数Gw(T)を算出する。Dw(T)の最小値をminDw、最大値をmaxDw,Dall(T)の最小値をminDall(T)、最大値をmaxDall(T)とし、次式で求める。
【0064】
【数13】
この際、計算の簡略化のため、R(w)が0よりも小さい場合には、R(w)=0とみなして計算してもよい。また、Gw(T)が0よりも小さくなる場合には、Gw(T)=0としてもよい。
【0065】
ステップ1150) 得られた語句wの補正された使用頻度の時間変化Gw(T)を話題度算出部1050の語句頻度バッファ(図示せず)に記録する。
【0066】
ステップ1160) 未処理の語句が語句リスト中に存在するかを確認し、存在するならばステップ1120に戻って処理を続ける。未処理の語句が存在しなければ処理を終了する。
【0067】
次に、話題度算出部260の処理の流れを示す。
【0068】
図12は、本発明の第2の実施の形態における話題度算出部の処理のフローチャートである。
【0069】
ステップ1210)話題度算出部1050は、語句頻度算出部1040と同様に予め定められた期間毎に処理を開始し、処理開始時の時刻tpを取得する。
【0070】
ステップ1220) 次に、処理対象時刻を元に、予め与えられた正の値tqを用いて得られるtpからtp−tqまでの時間範囲に対応する、話題重み付け関数Itp(t)を作成する。この際、前述の特許文献1に示されるインパクト曲線のような重み付け関数を作成するとよい。
【0071】
ステップ1230) 語句バッファ(図示せず)からある語句wの使用頻度の時間変化を表すGw(T)を一つ取り出し、話題重み付け関数Itp(t)と掛け合わせることによって、語句wの話題度TS(w)を求める。
【0072】
【数14】
ステップ1240) 得られた語句wの話題度TS(w)と語句wと処理時間tpとを話題度記録装置1060に出力する。例えば、
「決勝戦 32.8 2006/016 13:30」
といった結果が出力される。一連の処理で出力される話題度情報は全て同じ時刻情報を持つため、記憶量の軽減のためそれらをまとめて記録してもよい。話題度記録装置1060に出力される話題度情報の例を図13に示す。
【0073】
ステップ1250) 語句頻度バッファ(図示せず)に未処理の語句頻度情報が含まれるかを確認し、含まれる場合にはステップ1130に戻り処理を続ける。含まれない場合には処理を終了する。
【0074】
また、上記の話題度算出装置の各構成要素の動作をプログラムとして構築し、話題度算出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0075】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、話題度算出装置として利用されるコンピュータにインストールする、または、配布することが可能である。
【0076】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0077】
本発明は、文書群から話題となっている語句を抽出するための技術に適用可能である。
【図面の簡単な説明】
【0078】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の第1の実施の形態における話題度算出装置の構成図である。
【図4】本発明の第1の実施の形態における語句データベースに蓄積される情報の例である。
【図5】本発明の第1の実施の形態における語句頻度算出部の処理のフローチャートである。
【図6】本発明の第1の実施の形態における語句頻度の時間変動の例である。
【図7】本発明の第1の実施の形態における文書数の時間変動の例である。
【図8】本発明の第1の実施の形態における文書数の変動の影響を除いた語句頻度の時間変動の例である。
【図9】本発明の第1の実施の形態における話題度算出部の処理のフローチャートである。
【図10】本発明の第2の実施の形態における話題度算出装置の構成図である。
【図11】本発明の第2の実施の形態における語句頻度算出部の処理のフローチャートである。
【図12】本発明の第2の実施の形態における話題度算出部の処理のフローチャートである。
【図13】本発明の第2の実施の形態における話題度記録装置に蓄積される情報の例である。
【符号の説明】
【0079】
200 文書データベース
210 文書解析手段、文書解析部
220 語句集計部
230 語句データベース
240 語句頻度算出手段、語句頻度算出部
250 話題度算出手段、話題度算出部
260 話題表示装置
1040 語句頻度算出部
1050 話題度算出部
1060 話題度記録装置
【特許請求の範囲】
【請求項1】
多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する装置における話題度算出方法であって、
文書解析手段が、作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻および該文書ない語句と共に語句データベースに格納する文書解析ステップと、
語句頻度算出手段が、外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句と記す)と、どの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得する入力受付ステップと、
前記語句頻度算出手段が、前記処理対象語句に基づいて前記語句データベースを検索し、該処理対象語句に対応する文書内語句の前記語句頻度と前記集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出ステップと、
話題度算出手段が、前記入力受付ステップで入力された前記入力時刻の時点において、前記処理対象語句の話題性の高低を表す話題度を、前記語句頻度算出ステップで算出された前記語句頻度関数に対して前記算出指定時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出ステップと、
を行い、
前記語句頻度算出ステップにおいて、
前記語句頻度算出手段は、前記語句頻度の時間変動と前記入力文書数の時間変動とを求め、2つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を前記処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する、
ことを特徴とする話題度算出方法。
【請求項2】
前記語句頻度算出ステップにおいて、
前記処理対象語句の前記入力文書群中での前記語句頻度の時間変動と前記入力文書数の時間変動との相関度合いを相関度として算出し、
前記入力文書数の時間毎の変動量に前記相関度を掛け合わせた値に比例した値を、前記処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した前記語句頻度関数を求める、
請求項1記載の話題度算出方法。
【請求項3】
前記語句頻度算出ステップにおいて、
前記処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
【数1】
により求める、
請求項2記載の話題度算出方法。
【請求項4】
前記語句頻度算出ステップにおいて、
前記処理対象語句wの前記入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、前記入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
【数2】
により求める、
請求項2記載の話題度算出方法。
【請求項5】
前記入力受付ステップにおいて、
前記話題度算出処理の対象となる前記処理対象語句と、どの時点での話題度を算出するかを表す前記算出指定時刻を受け付ける代わりに、
前記語句頻度算出ステップにおいて、
前記入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求め、
前記話題度算出ステップにおいて、
前記入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める、
請求項1乃至4記載の話題度算出方法。
【請求項6】
多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する話題度算出装置であって、
作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻及び該文書内語句と共に語句データベースに格納する文書解析手段と、
外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句と記す)を取得し、該処理対象語句に基づいて前記語句データベースを検索し、取得した該処理対象語句に対応する文書内語句の前記語句頻度と前記集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出手段と、
外部からどの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得し、該算出指定時刻の時点において、前記処理対象語句の話題性の高低を表す話題度を、前記語句頻度算出手段で算出された前記語句頻度関数に対して前記入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出手段と、
を有し、
前記語句頻度算出手段は、
前記語句頻度の時間変動と前記入力文書数の時間変動とを求め、2つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を前記処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する手段を含む、
ことを特徴とする話題度算出装置。
【請求項7】
前記語句頻度算出手段は、
前記処理対象語句の前記入力文書群中での前記語句頻度の時間変動と前記入力文書数の時間変動との相関度合いを相関度として算出する手段と、
前記入力文書数の時間毎の変動量に前記相関度を掛け合わせた値に比例した値を、前記処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した前記語句頻度関数を求める手段と、
を含む請求項6記載の話題度算出装置。
【請求項8】
前記語句頻度算出手段は、
前記処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
【数3】
により求める、
請求項7記載の話題度算出装置。
【請求項9】
前記語句頻度算出手段は、
前記処理対象語句wの前記入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、前記入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
【数4】
により求める、
請求項7記載の話題度算出装置。
【請求項10】
前記語句頻度算出手段は、
前記話題度算出処理の対象となる前記処理対象語句と、どの時点での話題度を算出するかを表す前記算出指定時刻を受け付ける代わりに、前記入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求める手段を含み、
前記話題度算出手段は、
前記入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める手段を含む、
請求項6乃至9記載の話題度算出装置。
【請求項11】
コンピュータに、
請求項6乃至10記載の話題度算出装置の各手段を実行させることを特徴とする話題度算出プログラム。
【請求項12】
コンピュータに、
請求項6乃至10記載の話題度算出装置の各手段を実行させる話題度算出プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
【請求項1】
多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する装置における話題度算出方法であって、
文書解析手段が、作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻および該文書ない語句と共に語句データベースに格納する文書解析ステップと、
語句頻度算出手段が、外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句と記す)と、どの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得する入力受付ステップと、
前記語句頻度算出手段が、前記処理対象語句に基づいて前記語句データベースを検索し、該処理対象語句に対応する文書内語句の前記語句頻度と前記集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出ステップと、
話題度算出手段が、前記入力受付ステップで入力された前記入力時刻の時点において、前記処理対象語句の話題性の高低を表す話題度を、前記語句頻度算出ステップで算出された前記語句頻度関数に対して前記算出指定時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出ステップと、
を行い、
前記語句頻度算出ステップにおいて、
前記語句頻度算出手段は、前記語句頻度の時間変動と前記入力文書数の時間変動とを求め、2つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を前記処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する、
ことを特徴とする話題度算出方法。
【請求項2】
前記語句頻度算出ステップにおいて、
前記処理対象語句の前記入力文書群中での前記語句頻度の時間変動と前記入力文書数の時間変動との相関度合いを相関度として算出し、
前記入力文書数の時間毎の変動量に前記相関度を掛け合わせた値に比例した値を、前記処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した前記語句頻度関数を求める、
請求項1記載の話題度算出方法。
【請求項3】
前記語句頻度算出ステップにおいて、
前記処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
【数1】
により求める、
請求項2記載の話題度算出方法。
【請求項4】
前記語句頻度算出ステップにおいて、
前記処理対象語句wの前記入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、前記入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
【数2】
により求める、
請求項2記載の話題度算出方法。
【請求項5】
前記入力受付ステップにおいて、
前記話題度算出処理の対象となる前記処理対象語句と、どの時点での話題度を算出するかを表す前記算出指定時刻を受け付ける代わりに、
前記語句頻度算出ステップにおいて、
前記入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求め、
前記話題度算出ステップにおいて、
前記入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める、
請求項1乃至4記載の話題度算出方法。
【請求項6】
多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する話題度算出装置であって、
作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻及び該文書内語句と共に語句データベースに格納する文書解析手段と、
外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句と記す)を取得し、該処理対象語句に基づいて前記語句データベースを検索し、取得した該処理対象語句に対応する文書内語句の前記語句頻度と前記集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数を算出する語句頻度算出手段と、
外部からどの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得し、該算出指定時刻の時点において、前記処理対象語句の話題性の高低を表す話題度を、前記語句頻度算出手段で算出された前記語句頻度関数に対して前記入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出手段と、
を有し、
前記語句頻度算出手段は、
前記語句頻度の時間変動と前記入力文書数の時間変動とを求め、2つの時間変動との相関度が高いほど該入力文書数の時間変動による影響が大きくなるとしてその影響値を算出し、該影響値を前記処理対象語句の使用頻度の時間変動から除くことにより、語句頻度関数を算出する手段を含む、
ことを特徴とする話題度算出装置。
【請求項7】
前記語句頻度算出手段は、
前記処理対象語句の前記入力文書群中での前記語句頻度の時間変動と前記入力文書数の時間変動との相関度合いを相関度として算出する手段と、
前記入力文書数の時間毎の変動量に前記相関度を掛け合わせた値に比例した値を、前記処理対象語句の同時間の語句頻度から除くことにより、該入力文書数が変動した影響による語句の使用頻度の増減を考慮した前記語句頻度関数を求める手段と、
を含む請求項6記載の話題度算出装置。
【請求項8】
前記語句頻度算出手段は、
前記処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
【数3】
により求める、
請求項7記載の話題度算出装置。
【請求項9】
前記語句頻度算出手段は、
前記処理対象語句wの前記入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、前記入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
【数4】
により求める、
請求項7記載の話題度算出装置。
【請求項10】
前記語句頻度算出手段は、
前記話題度算出処理の対象となる前記処理対象語句と、どの時点での話題度を算出するかを表す前記算出指定時刻を受け付ける代わりに、前記入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求める手段を含み、
前記話題度算出手段は、
前記入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める手段を含む、
請求項6乃至9記載の話題度算出装置。
【請求項11】
コンピュータに、
請求項6乃至10記載の話題度算出装置の各手段を実行させることを特徴とする話題度算出プログラム。
【請求項12】
コンピュータに、
請求項6乃至10記載の話題度算出装置の各手段を実行させる話題度算出プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2007−323434(P2007−323434A)
【公開日】平成19年12月13日(2007.12.13)
【国際特許分類】
【出願番号】特願2006−153846(P2006−153846)
【出願日】平成18年6月1日(2006.6.1)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成19年12月13日(2007.12.13)
【国際特許分類】
【出願日】平成18年6月1日(2006.6.1)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]