話題抽出装置及びプログラム

【課題】指定した対象期間において、話題の変遷を提示する。
【解決手段】一つの実施形態によれば、話題抽出装置は、話題抽出手段及び話題提示手段を備えている。前記話題抽出手段は、単語抽出手段及び話題語抽出手段を備えている。前記単語抽出手段は、対象文書集合から各単語を抽出し、当該各単語の出現頻度及び当該各単語が出現する文書頻度を算出する。前記話題語抽出手段は、前記抽出された各単語について、前記対象期間における出現文書の文書集合を取得し、話題語らしさを表す尺度である話題度を算出し、前記話題度が所定の値以上の単語を話題語として抽出すると共に、当該抽出された話題語について当該対象期間における出現日時に基づいて新鮮度を算出する。前記話題提示手段は、前記抽出された話題語を前記新鮮度の順に提示すると共に、当該提示した各話題語について単位期間毎の出現文書数を提示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、話題抽出装置及びプログラムに関する。
【背景技術】
【０００２】
近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、日々、大量の電子化された文書が流通し、計算機システム上で活用することが可能となっている。ここでいう文書とは、例えば、ニュース記事、電子メール、ウェブページといった、ネットワーク上で共有されている文書などを指す。また、ここでいう文書は、個々の企業内で活用される文書（例、製品の不具合情報、顧客からの問い合わせ情報など）も指している。
【０００３】
一般に、これらの文書のニュース記事やブログなどから、最近注目されている話題を知りたいというニーズがある。同様に、企業では、日々蓄積される製品の不具合情報から現在増加している問題を見つけて早期対策につなげたいニーズや、顧客からの問い合わせ情報から新たな需要を見つけて商品企画に活かしたいニーズが大きくなっている。
【０００４】
これらのニーズに対し、例えば、従来の話題抽出方式では、指定期間の文書集合に含まれる単語に対して、出現頻度に基づいてスコアリングを行い、話題語の抽出と階層化を行っている。また、従来の話題抽出方式では、話題語のスコアの履歴情報を保持し、前回抽出時のスコアとの差分により、「新着」などのステータスを提示している。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特許第４２３４７４０号公報
【特許文献２】特許第４３４２５７５号公報
【非特許文献】
【０００６】
【非特許文献１】藤木稔明、南野朋之、鈴木泰裕、奥村学、「document stream における burst の発見」、情報処理学会研究報告、２００４−ＮＬ−１６０、ｐｐ．８５−９２、２００４年
【発明の概要】
【発明が解決しようとする課題】
【０００７】
以上のような従来の話題抽出方式は、通常は何の問題もないが、本発明者の検討によれば、更なる改良の余地がある。
【０００８】
例えば、従来の話題抽出方式では、話題語のスコアの履歴情報に基づき、「新着」などのステータスを提示する方法を用いている。しかしながら、この方法は、定点観測的に“今”の話題を知る用途には向いているものの、１週間や１ヶ月といった一定の期間における話題の変遷を知る用途には不十分である。
【０００９】
本発明が解決しようとする課題は、指定した対象期間において、話題の変遷を提示し得る話題抽出装置及びプログラムを提供することである。
【課題を解決するための手段】
【００１０】
実施形態の話題抽出装置は、文書記憶手段、期間指定手段、話題抽出手段及び話題提示手段を備えている。
【００１１】
前記文書記憶手段は、テキスト情報と日時情報を持つ複数の文書からなる対象文書集合を記憶する。
【００１２】
前記期間指定手段は、話題抽出の対象とする対象期間の指定を受け付ける。
【００１３】
前記話題抽出手段は、前記文書記憶手段に記憶された対象文書集合から、前記指定を受け付けた対象期間での話題を表す単語である話題語を抽出すると共に、各話題語について時事性を表す尺度である新鮮度を算出する。
【００１４】
前記話題提示手段は、前記話題抽出手段によって抽出された話題語を前記新鮮度の順に提示すると共に、当該提示した各話題語について単位期間毎の出現文書数を提示する。
【００１５】
前記話題抽出手段は、単語抽出手段及び話題語抽出手段を備えている。
【００１６】
前記単語抽出手段は、前記文書記憶手段に記憶された対象文書集合から各単語を抽出し、当該各単語の出現頻度及び当該各単語が出現する文書数を示す文書頻度をそれぞれ算出する。
【００１７】
前記話題語抽出手段は、前記単語抽出手段によって抽出された各単語について、前記対象期間における当該単語が出現する出現文書の文書集合を取得し、当該出現文書の出現頻度の有意性を表す値と、前記単語の出現頻度及び前記文書頻度に基づく当該単語の重み値とに基づいて、話題語らしさを表す尺度である話題度を算出し、前記話題度が所定の値以上の単語を話題語として抽出すると共に、当該抽出された話題語について当該対象期間における出現日時に基づいて新鮮度を算出する。
【図面の簡単な説明】
【００１８】
【図１】第１の実施形態に係る話題抽出装置の構成を表すブロック図である。
【図２】同実施形態における文書データの例を表す模式図である。
【図３】同実施形態における指定画面の例を表す模式図である。
【図４】同実施形態における話題提示画面の例を表す模式図である。
【図５】同実施形態における単語文書テーブルの例を表す模式図である。
【図６】同実施形態における単語期間テーブルの例を表す模式図である。
【図７】同実施形態における話題語テーブルの例を表す模式図である。
【図８】同実施形態における処理の全体の流れを表すフローチャートである。
【図９】同実施形態における単語抽出処理の流れを表すフローチャートである。
【図１０】同実施形態における話題抽出処理の流れを表すフローチャートである。
【図１１】同実施形態における話題提示処理の流れを表すフローチャートである。
【図１２】第２の実施形態に係る話題抽出装置の構成を表すブロック図である。
【図１３】同実施形態における話題語テーブルの例を表す模式図である。
【図１４】同実施形態における処理の全体の流れを表すフローチャートである。
【図１５】同実施形態における話題語集約処理の流れを表すフローチャートである。
【図１６】同実施形態における話題提示画面の例を表す模式図である。
【図１７】第３の実施形態に係る話題抽出装置の構成を表すブロック図である。
【図１８】同実施形態における話題語テーブルの例を表す模式図である。
【図１９】同実施形態における話題語の階層の例を表す模式図である。
【図２０】同実施形態における処理の全体の流れを表すフローチャートである。
【図２１】同実施形態における話題語階層抽出処理の流れを表すフローチャートである。
【図２２】同実施形態における話題提示処理の流れを表すフローチャートである。
【図２３】同実施形態における話題提示画面の例を表す模式図である。
【図２４】第４の実施形態に係る話題抽出装置の構成を表すブロック図である。
【図２５】同実施形態における話題語テーブルの例を表す模式図である。
【図２６】同実施形態における話題語の階層の例を表す模式図である。
【図２７】同実施形態における処理の全体の流れを表すフローチャートである。
【図２８】同実施形態における話題提示画面の例を表す模式図である。
【図２９】第５の実施形態に係る話題抽出装置の構成を表すブロック図である。
【図３０】同実施形態における単語期間テーブルの例を表す模式図である。
【図３１】同実施形態における処理の全体の流れを表すフローチャートである。
【図３２】同実施形態におけるバースト期間抽出処理の流れを表すフローチャートである。
【図３３】同実施形態における処理の話題提示処理の流れを表すフローチャートである。
【図３４】同実施形態における話題提示画面の例を表す模式図である。
【図３５】第６の実施形態に係る話題抽出装置の構成を表すブロック図である。
【図３６】同実施形態における処理の全体の流れを表すフローチャートである。
【図３７】同実施形態における話題提示画面の例を表す模式図である。
【図３８】第７の実施形態に係る話題抽出装置の構成を表すブロック図である。
【図３９】同実施形態における処理の全体の流れを表すフローチャートである。
【図４０】同実施形態における処理の話題提示処理の流れを表すフローチャートである。
【図４１】同実施形態における話題提示画面の例を表す模式図である。
【図４２】第８の実施形態に係る話題抽出装置の構成を表すブロック図である。
【図４３】同実施形態における処理の全体の流れを表すフローチャートである。
【図４４】同実施形態における話題提示画面の例を表す模式図である。
【発明を実施するための形態】
【００１９】
以下、各実施形態について図面を用いて説明するが、その前に、各実施形態で用いる主な記号を列挙して示す。
【００２０】
ＳＰＮ：期間（開始日時from，終了日時to）。
【００２１】
ＢＳＴ：バースト期間（第４〜第８の実施形態）。
【００２２】
Ｄ：対象文書集合。
【００２３】
Ｄspn：対象文書集合Ｄ中で、ある期間ＳＰＮに含まれる文書の集合（但し、Ｄspn⊂Ｄ）。なお、対象文書集合Ｄ中で、バースト期間ＢＳＴに含まれる文書の集合については、Ｄbstと表す（但し、Ｄbst⊂Ｄspn⊂Ｄ）。このように、バースト期間ＢＳＴを用いる場合、実施形態に記述された「ＳＰＮ」又は添字の「spn」は、それぞれ「ＢＳＴ」又は添字の「bst」に読替え可能となっている。
【００２４】
Ｄocs：対象文書集合Ｄ中で、ある期間ＳＰＮｉに含まれる文書の集合Ｄspnｉと、ある期間ＳＰＮｊに含まれる文書の集合Ｄspnｊとの和集合（Ｄocs＝Ｄspnｉ∪Ｄspnｊ）。なお、バースト期間ＢＳＴｉ，ＢＳＴｊを用いる場合、和集合Ｄocsは、Ｄocs＝Ｄbstｉ∪Ｄbstｊと読替え可能となっている。
【００２５】
｜Ｄocs｜：文書集合Ｄocsに含まれる文書数。
【００２６】
ｆ（term，ｄ）：文書ｄでの、単語termの出現数。
【００２７】
df（term，Ｄocs）：文書集合Ｄocsのうち、単語termを含む文書の文書数。
【００２８】
tf（term，Ｄocs）：文書集合Ｄocsの中での、単語termの出現数。
【００２９】
tc（Ｄocs）：文書集合Ｄocsの中に含まれる単語の延べ数。
【００３０】
time（ｄ）：文書ｄの出現日時。
【００３１】
ＴＤ（term，Ｄocs）：文書集合Ｄocsの中で、単語termを含む文書の集合。
【００３２】
co（term１，term２，Ｄocs）：文書集合Ｄocsの中で、単語term１とterm２がともに出現している文書の数。
【００３３】
cospan（ＳＰＮ１，ＳＰＮ２）：期間ＳＰＮ１とＳＰＮ２で共通する期間。なお、バースト期間ＢＳＴ１，ＢＳＴ２を用いる場合、共通期間cospan（ＳＰＮ１，ＳＰＮ２）は、共通期間cospan（ＢＳＴ１，ＢＳＴ２）と読替え可能となっている。
【００３４】
｜ＳＰＮ｜：期間ＳＰＮの長さ。なお、バースト期間ＢＳＴの長さは、｜ＢＳＴ｜と表される。
【００３５】
ITVLS：話題データをユーザに提示する際の時間間隔の集合。
【００３６】
例えば、2010/05/01〜2010/05/31について、１日毎の出現数を提示する場合、時間間隔の集合ITVLSは、以下のような値を持つ。
【００３７】
ITVLS ＝｛2010/05/01 00:00〜2010/05/01 23:59，
2010/05/02 00:00〜2010/05/02 23:59，
：
2010/05/31 00:00〜2010/05/31 23:59｝
また、時間間隔の集合ITVLSにより提示する期間は、期間ＳＰＮの長さと同じ場合を例に挙げて説明するが、これに限らず、期間の長さＳＰＮより長い期間を提示してもよい。
【００３８】
以上が各実施形態で用いる主な記号の説明である。これらの主な記号は、各実施形態において、種々の値の算出などに用いられる。
【００３９】
また、各実施形態は、電子化された文書群から、それぞれの文書に含まれるテキスト情報と日時情報に基づいて、話題を抽出するための話題抽出装置に関連している。各実施形態の話題抽出装置は、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体からコンピュータにインストールされ、当該コンピュータに話題抽出装置の機能を実現させるためのプログラムが用いられる。
【００４０】
＜第１の実施形態＞
図１は第１の実施形態に係る話題抽出装置の構成を表すブロック図である。文書記憶部１０は、話題抽出の対象となる文書データを格納する手段である。文書記憶部１０は一般的にはファイルシステムや文書データベース等によって実現するが、例えば、計算機ネットワークによって接続した複数の記憶手段によって構成してもよい。文書記憶部１０には、複数の文書が文書データとして格納される。各々の文書データは、図２に示すように、テキスト情報と、日時情報を持っている。
【００４１】
文書記憶部１０は、図２に示すように、テキスト情報（１２，１３）と日時情報（１４）を持つ複数の文書（ｄ）からなる対象文書集合Ｄを記憶する。各文書ｄは、ユニークな識別子である「文書ＩＤ」１１を持つ。各文書ｄはテキスト、すなわち日本語や英語などの自然言語で記述されたデータとして、「見出し」１２や「本文」１３などのテキスト情報を持つ。さらに、各文書ｄは、「発信日時」１４のように、１つ以上の日時属性（日時情報）を持つ。話題抽出装置では、この日時属性に基づいて、単語の新鮮度などを求める。各文書ｄが複数の日時属性を持つ場合は、話題抽出を実行する際に、どの日時属性を使用するかをユーザが指定するようにしてもよい。
【００４２】
ユーザインターフェース部２０は、話題抽出の対象とする期間の指定を受け付け、後述する話題抽出部３０による話題抽出の結果を提示する手段である。ユーザインターフェース部は、期間指定部２１と話題提示部２２から構成される。
【００４３】
期間指定部２１は、話題抽出の対象とする対象期間ＳＰＮの指定を受け付ける手段であり、例えば、当該指定を受け付けた対象期間と、話題抽出の実行要求とを話題抽出部３０に送出する機能を持っている。例えば、期間指定部２１では、図３に示す如き指定画面Ｇ１を介して、ユーザにより指定された対象期間の入力を受け付け、話題抽出部３０に、この対象期間と、話題抽出部３０の実行要求を送る。
【００４４】
話題提示部２２は、図４に例示する話題提示画面Ｇ１０のように、話題抽出部３０で抽出された話題語を新鮮度の順に提示すると共に、当該提示した各話題語について単位期間後の出現文書数を提示するものである。なお、新鮮度の順は、昇順及び降順のいずれでもよい。また、単位期間は、指定される対象期間よりも短い期間である。
【００４５】
話題抽出部３０は、文書記憶部１０に記憶された対象文書集合Ｄから、期間指定部２１で指定を受け付けた対象期間ＳＰＮでの話題を表す単語である話題語を抽出すると共に、各話題語について時事性を表す尺度である新鮮度を算出する手段である。この新鮮度によって、話題提示部２２で、ユーザが話題語の時系列的な遷移を把握できるように、提示することを実現している。第１の実施形態では、話題抽出部３０を、単語抽出部３１及び話題語抽出部３３で構成する。
【００４６】
単語抽出部３１は、文書記憶部１０に記憶された対象文書集合Ｄから各単語を抽出し、当該各単語の出現頻度（ｔｆ（term，Ｄ））及び当該各単語が出現する文書数を示す文書頻度（ｄｆ（term，Ｄ））をそれぞれ算出する手段である。詳しくは、単語抽出部３１は、それぞれの単語について、各文書ｄでの出現数を算出すると共に、対象文書集合Ｄ全体での単語頻度と、文書頻度を算出し、図５に示す如き、単語文書テーブルＴＤＴを生成する。話題語として抽出する単語の候補として、単語文書テーブルに含まれる単語を、図６に示す如き、単語期間テーブルＴＳＴの形で出力する。単語期間テーブルＴＳＴでは、各単語について、その対象期間を合わせて保持する。
【００４７】
単語文書テーブルＴＤＴは、図５に示すように、対象文書Ｄ中に含まれるそれぞれの単語について、各文書での出現数である「出現頻度」TDT_fを保持する。また、それぞれの単語について、対象文書集合Ｄ全体での出現する文書数である「文書頻度」TDT_dfと、出現頻度の合計である「単語頻度」TDT_tfを保持する。単語文書テーブルＴＤＴは、話題抽出部３０の内部データとして保持され、後述するバースト期間抽出部３２、話題語抽出部３３、話題語集約部３４及び話題語階層抽出部３５で使用される。
【００４８】
単語期間テーブルＴＳＴは、図６に示すように、話題語として抽出する単語の候補と、その単語が対象とする期間を保持する。各単語は、ユニークな識別子である「単語ＩＤ」TST_tidと、その単語の表記である「単語」TST_tと、その単語が対象とする期間である「期間」TST_spnを持つ。ここで、単語抽出部３１では、単語文書テーブルＴＤＴに含まれる全ての単語について、ユーザインターフェース部２０から取得した対象期間をTST_spnに設定する。従って、TST_spnの値は、「2010/05/01〜2010/05/31」となる。また、単語期間テーブルＴＳＴは、後述するバースト期間抽出部３２においても生成される。バースト期間抽出部３２においては、TST_spnには各単語に対して抽出されたバースト期間が保持される。なお、バースト期間抽出部３２の詳細については後述する。
【００４９】
話題語抽出部３３は、単語抽出部３１によって抽出された各単語について、対象期間ＳＰＮにおける当該単語が出現する出現文書の文書集合（ＴＤ（term，Ｄspn））を取得し、当該出現文書の出現頻度の有意性を表す値と、単語の出現頻度及び文書頻度に基づく当該単語の重み値とに基づいて、話題語らしさを表す尺度である話題度を算出し、話題度が所定の値以上の単語を話題語として抽出すると共に、当該抽出された話題語について当該対象期間における出現日時に基づいて新鮮度を算出する手段である。
【００５０】
例えば、話題語抽出部３３は、単語文書テーブルＴＤＴと単語期間テーブルＴＳＴを用いて話題語を抽出する。この場合、話題語抽出部３３では、単語期間テーブルＴＳＴに含まれるそれぞれの単語について、対応する期間での出現文書と文書頻度、単語頻度を算出し、それら頻度情報と出現文書の日時情報を用いて、話題語らしさを表す話題度を求め、この話題度に基づいて話題語を抽出する。さらに、抽出した話題語について、その出現文書の日時情報の系列に基づいて、その時事性を表す新鮮度を求める。そして、抽出した話題語について、図７に示すような話題語テーブルＴＷＴを生成する。
【００５１】
話題語テーブルＴＷＴは、図７に示すように、話題語抽出部３３で生成され、話題抽出部３３の抽出結果として、話題提示部２２に出力されるデータである。話題語テーブルＴＷＴは、後述する話題集約部３４と話題語階層抽出部３５で更新される。話題語抽出部３３では、話題語テーブルＴＷＴの列のうち、「単語ＩＤ」TWT_tid、「単語」TWT_t、「期間」TWT_spn、「出現文書」TWT_did、「文書頻度」TWT_df、「単語頻度」TWT_tf、「話題度」TWT_score、「新鮮度」TWT_freshが格納される。「単語ＩＤ」TWT_tid、「単語」TWT_t及び「期間」TWT_spnは、単語期間テーブルＴＳＴ中の「単語ＩＤ」TST_tid、「単語」TST_t、「期間」TST_spnの値である。但し、話題語単語テーブルＴＷＴに保持される単語TWT_tは、単語期間テーブルＴＳＴに含まれる単語TST_tの中で、話題語抽出部３３で話題語と判定された単語のみである。話題語抽出部３３は、それぞれの単語について、「期間」中に出現する文書集合ＴＤ（term，Ｄspn）である「出現文書」と、「出現文書」の文書数ｄｆ（term，Ｄspn）である「文書頻度」、「出現文書」の文書集合での単語の出現頻度ｔｆ（term，Ｄspn）である「単語頻度」を取得し、「出現文書」TWT_did、「文書頻度」TWT_df及び「単語頻度」TWT_tfの各列に格納する。さらに、話題語抽出部３３は、それらの情報によって算出した、話題語らしさを表す尺度である「話題度」score（term，ＳＰＮ）と、その話題の時事性を表す尺度である「新鮮度」fresh（term，ＳＰＮ）を算出し、「話題度」TWT_score及び「新鮮度」TWT_freshの各列に格納する。
【００５２】
次に、以上のように構成された話題抽出装置の動作を図８乃至図１１のフローチャートを用いて説明する。
【００５３】
ユーザインターフェース部２０内の期間指定部２１は、図８に示すように、ユーザからの対象期間の指定を受け付けると共に（ステップＳ１００）、話題抽出の実行要求を受け付ける（ステップＳ２００）。対象期間の指定は、例えば図３に示す如き、指定画面Ｇ１において、ユーザが対象期間の開始日時ｇ１と終了日時ｇ２を設定する。そして、期間指定部２１は、ユーザによる「実行」ボタンｇ３のクリック操作に応じて、話題抽出部３０に対象期間ＳＰＮ及び話題抽出の実行要求を送出する。
【００５４】
指定画面Ｇ１で「実行」ボタンｇ３がクリック操作され、話題抽出の実行要求が送出された場合、話題抽出装置は、ステップＳ３００〜Ｓ８００の処理を行う（ステップＳ２００−ＹＥＳ）。
【００５５】
一方、指定画面Ｇ１で「キャンセル」ボタンｇ４がクリック操作された場合、話題抽出装置は、全体の処理を終了する（ステップＳ２００−ＮＯ）。
【００５６】
話題抽出の実行要求が送出された場合（ステップＳ２００−ＹＥＳ）、単語抽出部３１は、文書記憶部１０に格納された対象文書集合Ｄに含まれる単語を抽出し、それぞれの単語が出現する文書や、出現頻度などの情報を求め、単語文書テーブルＴＷＴと単語期間テーブルＴＳＴを生成する単語抽出処理を行う（ステップＳ３００）。なお、単語抽出処理（ステップＳ３００）の詳細については後述する。
【００５７】
次に、話題語抽出部３３は、単語期間テーブルＴＳＴ中のそれぞれの単語について、当該期間中に当該単語が出現する文書や、文書頻度、出現頻度などの情報に基づき、単語の話題度算出（スコアリング）を行い、話題語を抽出する話題語抽出処理を行う（ステップＳ５００）。話題語抽出処理の詳細については後述する。また、話題語抽出処理（ステップＳ５００）によって得られた頻度情報や話題度、新鮮度などは、話題語テーブルＴＷＴとして話題抽出部３０に保持される。
【００５８】
そして、ユーザインターフェース部２の話題提示部２２は、話題語テーブルＴＷＴを話題抽出部３０から受け取り、この話題語テーブルＴＷＴに基づき、抽出結果をユーザに提示する話題提示処理を行う（ステップＳ８００）。なお、話題提示処理（ステップＳ８００）の詳細については後述する。
【００５９】
図９は単語抽出部３１による単語抽出処理（ステップＳ３００）の流れを表すフローチャートである。
【００６０】
単語抽出部３１は、入力として対象期間ＳＰＮを期間指定部２１から受け取る（ステップＳ３０１）。続いて、単語抽出部３１は、文書記憶部１０から話題抽出の対象とする対象文書集合Ｄを取得し（ステップＳ３０２）、空の単語文書テーブルＴＤＴを作成する（ステップＳ３０３）。
【００６１】
次に、単語抽出部３１は、対象文書集合Ｄに含まれる全ての文書のテキスト情報を形態素解析する（ステップＳ３０４）。例えば、図２に示す文書データの場合、「見出し」と「本文」の内容をテキスト情報とすると、形態素解析によって、「口蹄疫」「殺処分」「公務」「殺害」「流行」などの単語が抽出される。そして、単語抽出部３１は、形態素解析結果に含まれるすべての単語termについて、ステップＳ３０６の処理を繰り返す（ステップＳ３０５）。ここで、単語抽出部３１は、所定の品詞の単語であるか、あるいは、不要語ではないかによって、対象とする単語を絞り込んでもよい。例えば、品詞が名詞やサ変名詞、固有名詞などである単語は対象として、接続詞や副詞などは対象としないといった単語の選別を行う。また、例えば新聞記事を処理対象とする場合には、「政治」、「経済」といった単語は一般的な単語であり、話題を表さないので不要語として除去する。
【００６２】
ステップＳ３０６では、単語抽出部３１は、単語termについて、さらに文書集合Ｄに含まれる全ての文書ｄについて、単語termが文書ｄ中での出現する回数を表す出現頻度ｆ（term、ｄ）を求め、単語文書テーブルＴＤＴに格納する処理（ステップＳ３０７）を繰り返す。
【００６３】
ステップＳ３０７において、例えば図２に示す文書データでは、「口蹄疫」の出現頻度ｆ（「口蹄疫」，ｄ００１）＝２となる。そして、単語抽出部３１は、図５に示す単語文書テーブルＴＤＴに対し、「口蹄疫」に対応する行TDT_L1について、文書ＩＤ＝ｄ００１の出現頻度TDT_fとして“２”を格納する。
【００６４】
そして、単語抽出部３１は、ステップＳ３０６の繰り返し終了後、対象文書集合Ｄにおいて、単語termが出現する文書数である文書頻度ｄｆ（term，Ｄ）と、単語termの出現頻度の合計である出現頻度ｔｆ（term、Ｄ）を求め、それぞれ、単語文書テーブルＴＤＴの「文書頻度」TDT_dfと「単語頻度」TDT_tfに格納する（ステップＳ３０８）。
【００６５】
Ｓ３０５の繰り返し終了後、単語抽出部３１は、ステップＳ３０９〜ステップＳ３１１の処理を行う。
【００６６】
始めに、単語抽出部３１は、空の単語期間テーブルＴＳＴを作成し（ステップＳ３０９）、ステップＳ３０８までの処理で作成した単語文書テーブルに含まれる全ての単語termについて、ステップＳ３１１の処理を繰り返す（ステップＳ３１０）。
【００６７】
ステップＳ３１１では、単語抽出部３１は、単語termと、ステップＳ３０１で取得した対象期間ＳＰＮの組である単語期間データＴＳ＝｛ｔid，term，ＳＰＮ｝を、単語期間テーブルＴＳＴに格納する。ここで、ｔidは単語期間テーブルについてユニークな単語ＩＤである。このステップＳ３１０〜ステップＳ３１１の処理により、単語抽出部３１は、話題語抽出の対象となる単語データの集合である単語期間テーブルの初期データＴＳを作成する。
【００６８】
図１０は話題語抽出部３３による話題抽出処理（ステップＳ４００）の流れを表すフローチャートである。
【００６９】
話題語抽出部３３は、単語文書テーブルＴＤＴと単語期間テーブルＴＳＴを取得し（ステップＳ５０１）、空の話題語テーブルＴＷＴを作成する（ステップＳ５０２）。
【００７０】
次に、話題語抽出部３３は、単語期間テーブルＴＳＴ中の全ての単語期間データＴＳについて、ステップＳ５０４〜ステップＳ５０９の処理を繰り返す（ステップＳ５０３）。ここで、単語期間データＴＳとは、｛単語ＩＤｔid，単語term，期間ＳＰＮ｝の組である（ＴＳ＝｛ｔid，term，ＳＰＮ｝）。この繰り返し処理によって、話題語抽出部３３は、単語期間データＴＳ中の単語の中から、話題語に相応しい単語を抽出すると共に、その際に算出した頻度情報や話題度などの統計情報を話題語テーブルＴＷＴとして保持する。そのために、話題語抽出部３３は、当該単語期間データＴＳの単語termについて、単語文書テーブルＴＤＴから対象文書集合全体Ｄでの、「文書頻度ｄｆ（term，Ｄ）」TDT_dfの列と、「単語頻度ｔｆ（term，Ｄ）」TDT_tfの列を取得する（ステップＳ５０４）。
【００７１】
次に、話題語抽出部３３は、単語文書テーブルＴＤＴから、単語termが出現する文書について文書記憶部１０で日時情報を参照し、期間ＳＰＮ中に単語termが出現する文書の集合ＴＤ（term，Ｄspn)を取得する（ステップＳ５０５）。
【００７２】
次に、話題語抽出部３３は、単語termについて、単語文書テーブルから、期間ＳＰＮ中での文書頻度ｄｆ（term，Ｄspn）と、単語頻度ｔｆ（term，Ｄspn）を算出する（ステップＳ５０６）。
【００７３】
次に、話題語抽出部３３は、ステップＳ５０４〜Ｓ５０６で算出した情報を用いて、単語termについて、その話題語らしさを表す尺度である話題度score（term，ＳＰＮ）と、その話題の時事性を表す尺度である新鮮度fresh（term，ＳＰＮ）を算出する（ステップＳ５０７）。
【００７４】
話題度score（term，ＳＰＮ）は、例えば［数１］に示す式によって算出される。
【数１】

【００７５】
ここで、期間偏在値topical（term，ＳＰＮ）は、全文書集合Ｄの中における、期間ＳＰＮでの出現頻度の有意性を表す値であり、期間ＳＰＮに偏って出現している単語ほど大きな値となる。さらに、重み値tfidf（term）は、文書分類や文書検索などで、単語の重みとして一般的に使われている指標である。話題度score（term，ＳＰＮ）では、期間偏在値topical（term，ＳＰＮ）に、この重み値tfidf（term）を乗算することにより、話題性があり、かつ、その話題をよく表す単語が高い話題度になるようにする。また、新鮮度fresh（term，ＳＰＮ）は、例えば［数２］に示す式によって算出される。
【数２】

【００７６】
新鮮度fresh（term，ＳＰＮ）は、期間ＳＰＮにおける単語termの出現時間の平均を表し、０≦fresh（term，ＳＰＮ）≦１の値となる。期間ＳＰＮ（開始日時from、終了日時to）に対して、単語termが終了日時toに偏って出現しているほど、新鮮度fresh（term，ＳＰＮ）の値は１に近づき、その単語が表す話題が新鮮であることを表す。なお、単語の話題度として、［数１］に示した話題度score（term，ＳＰＮ）に、この新鮮度fresh（term，ＳＰＮ）を乗算した値を使用してもよい。その場合は、期間ＳＰＮにおいて、最近に盛り上がった話題を重視して話題語を抽出することとなる。
【００７７】
次に、話題語抽出部３３は、score（term，ＳＰＮ）＞αという式によって、単語termが話題語であるか否かを判定する（ステップＳ５０８）。ここで、αとは、当該単語termが話題語として適切かどうかを判定するためのしきい値であり、話題抽出装置において、事前に設定されていてもよいし、話題抽出の処理の都度、ユーザが設定してもよい。
【００７８】
話題語と判定した場合（ステップＳ５０８−ＹＥＳ）、話題語抽出部３３は、当該単語termを話題語として、算出した統計情報を話題語テーブルＴＷＴに追加する（ステップＳ５０９）。ここで、ある単語termを話題語として判定した場合、話題語抽出部３３は、図７の話題語テーブルＴＷＴについて、単語期間データＴＳ中の「単語ＩＤ」TST_tid、「単語」TST_t、「期間」TST_spnの値を、それぞれ「単語ＩＤ」TWT_tid、「単語」TWT_t、「期間」TWT_spnに保持する。また、話題語抽出部３３は、ステップＳ５０５〜Ｓ５０７によって算出された文書集合ＴＤ（term、Ｄspn）、文書頻度ｄｆ（term，Ｄspn）、単語頻度ｔｆ（term，Ｄspn）、話題度score（term，ＳＰＮ）、新鮮度（term，ＳＰＮ）を、それぞれ「出現文書」TWT_did、「文書頻度」TWT_df、「単語頻度」TWT_tf、「話題度」TWT_score、「新鮮度」TWT_freshに保持する。
【００７９】
図１１は話題提示部２２による話題提示処理（ステップＳ８００）の流れを表すフローチャートである。
【００８０】
話題提示部２２は、ユーザから表示のための時間間隔の指定を受け付け、時間間隔の集合ITVLSを作成する（ステップＳ８０１）。時間間隔の指定は、対象期間の指定（ステップＳ１００）の際に、図３に示した指定画面Ｇ１の「表示間隔」ｇ５でユーザが行うものとする。話題提示部２２は、指定画面Ｇ１によりユーザに指定された「期間」について、「表示間隔」毎に区切った時間間隔ITVLSを作成する。例えば、指定画面Ｇ１の「期間」に「2010/05/01〜2010/05/31」が入力され、表示間隔に「日」が入力された場合、話題提示部２２は、時間間隔ITVLSを次に示すように作成する。
【００８１】
ITVLS＝
｛2010/05/01 00:00〜2010/05/01 23:59，
2010/05/02 00:00〜2010/05/02 23:59，
：：
2010/05/31 00:00〜2010/05/31 23:59｝
なお、時間間隔の集合ITVLSには、ユーザが任意の時間間隔を指定してもよい。次に、話題提示部２２は、時間間隔の集合ITVLSの各要素の内容を、図４に示したように、提示画面Ｇ１０の最終行に表示する。図４の例では、時間間隔の集合ITVLSの各要素を「１０年５月１日」、「１０年５月２日」、…、「１０年５月３１日」のように簡略化して表示している。
【００８２】
次に、話題提示部２２は、話題抽出部３０から話題語テーブルＴＷＴを取得し、話題語テーブルＴＷＴ内の話題語データを要素として含む話題語データの集合をＴＷＳとする（ステップＳ８０４）。
【００８３】
次に、話題提示部２２は、話題語データ集合ＴＷＳの要素を、「新鮮度」TWT_freshによってソートする（ステップＳ８０５）。これによって、話題語が時系列順にソートされる。
【００８４】
次に話題提示部２２は、話題語データ集合ＴＷＳが空になるまで、ステップＳ８０７〜Ｓ８１４の処理を繰り返す（ステップＳ８０６）。始めに、話題提示部２２は、話題語データ集合ＴＷＳ中の先頭にある話題語データをｐとする（ステップＳ８０７）。
【００８５】
次に、話題提示部２２は、未表示の話題語データを、順次、話題語データ集合ＴＷＳ中の先頭の話題語データｐの位置に挿入する（ステップＳ８１０）。ステップＳ８１０では、話題提示部２２は、話題語データ集合ＴＷＳ中の表示済の話題語データｐを削除した上で、ｐの位置にステップＳ８０５でソートした順に、話題語データの集合ＴＷＳ中の話題語データを挿入する。
【００８６】
そして、話題提示部２２は、ステップＳ８１１〜Ｓ８１４の処理によって、話題語データｐの情報を話題提示画面Ｇ１０に表示する。そのために、話題提示部２２は、話題提示画面Ｇ１０に行を追加し（ステップＳ８１１）、追加した行の先頭列に話題語データｐの「単語」を表示する（ステップＳ８１２）。
【００８７】
次に、話題提示部２２は、話題語データｐの「出現文書」のそれぞれの文書ｄについて、文書記憶部１０を参照して、出現日時time（ｄ）を取得する（ステップＳ８１３）。話題提示部２２は、取得した各文書の出現日時time（ｄ）を、ITVLS中の各期間ITVLについてカウントすることにより、話題語データｐの単語termを含む文書の出現頻度を各期間ITVLについて取得し、該当列にその出現頻度を表示する（ステップＳ８１４）。出現頻度の表示には、数値や棒グラフ、折れ線グラフなどを用いる。これによって、当該話題語データの行について、話題提示画面Ｇ１０に文書ｄの出現頻度が表示される。
【００８８】
このように、話題提示部２２は、ステップＳ８０７〜Ｓ８１４の処理をＴＷＳが空になるまで繰り返すことによって、話題語テーブルＴＷＴ中の全ての話題語データを新鮮度によって時系列順にソートしながら、話題語提示画面Ｇ１０に表示する。
【００８９】
上述したように本実施形態によれば、抽出された各単語について、話題語らしさを表す話題度が所定の値以上の単語を話題語として抽出すると共に、当該抽出された話題語について当該対象期間における出現日時に基づいて新鮮度を算出し、抽出された話題語を新鮮度の順に提示すると共に、当該提示した各話題語について単位期間毎の出現文書数を提示する構成により、対象文書集合について、指定された対象期間における話題を提示することができる。特に、新鮮度によるソートと、各話題語の単位時間毎の出現文書数の提示により、話題の時間的な遷移を、その盛り上がり具合とともに提示することができる。例えば、図４に示すように、対象期間の中で、直近で注目され始めた話題から、少し前に盛り上がった話題、長い間注目されている話題といった、話題の全体的な遷移を提示することができる。
【００９０】
続いて、第１の実施形態に述べた処理（ステップＳ１００〜Ｓ３００，Ｓ５００，Ｓ８００）に対し、話題語集約処理（ステップＳ６００）、話題語階層抽出処理（ステップＳ７００）及びバースト期間抽出処理（ステップＳ４００）のうちの１つ以上の処理を追加する場合について、以下の各実施形態により説明する。なお、各処理（ステップＳ４００，Ｓ６００，Ｓ７００）は、それぞれ独立的に追加することが可能である（機能的には依存関係がない）。しかしながら、追加する場合は、ステップ番号の若い順に処理を行う必要がある（処理順序には依存関係がある）。
【００９１】
以下、順次、第２〜第８の実施形態によって説明する。
【００９２】
＜第２の実施形態＞
図１２は第２の実施形態に係る話題抽出装置の構成を表すブロック図であり、図１と同様の部分については同一の符号を付して詳しい説明を省略し、ここでは変更した部分（破線で囲んだ部分）について主に述べる。以下の各実施形態も同様にして重複した部分の説明を省略する。
【００９３】
本実施形態は、第１の実施形態の変形例であり、話題集約部３４を更に備えている。
【００９４】
ここで、話題集約部３４は、話題語抽出部３３によって抽出された話題語（termｉ，termｊ）について、対象期間における出現文書（Ｄspnｉ，Ｄspnｊ）と当該出現文書の出現頻度（ｄｆ（termｉ，docs），ｄｆ（termｊ，docs））と日時情報（ＳＰＮ１，ＳＰＮ２）に基づいて話題語間の類似度（sim（TWｉ，TWｊ））を算出し、当該類似度によって対象期間において同一の話題を表す複数の話題語からなる話題語群を抽出し、当該話題語群について当該対象期間における出現文書の文書集合（ＴＤｍ＝ＴＤｉ∩ＴＤｊ）を取得し、当該文書集合の頻度情報（ｄｆｍ，ｔｆｋ）及び日時情報に基づいて、話題度と新鮮度を再計算する手段である。
【００９５】
具体的には、話題語集約部３４は、話題語テーブルＴＷＴに含まれる単語について、同一の話題を表す単語同士を、一つの単語として集約する。この場合、話題語集約部３４は、話題語テーブルＴＷＴ中の出現文書の情報を用いて、２つの単語間の類似度を算出し、類似度が大きい単語同士の話題語データを統合し、図１３に示すように、話題語テーブルＴＷＴを修正する。この統合において、統合する２つの単語の期間と出現文書も統合し、それに基づいて文書頻度、単語頻度、話題度、新鮮度も修正する。
【００９６】
図１３は、話題語集約部３４によって、更新された話題語テーブルＴＷＴのデータの例を表す模式図である。話題語集約部３４は、話題語テーブルＴＷＴ中の単語について、同一の話題を表すと判定した単語同士の話題語データ（話題語テーブルＴＷＴの行）を統合する。例えば、図７の話題語テーブルＴＷＴについて、話題語集約部３４は、１行目TWT_L1の単語TWT_tの「口蹄疫」と、２行目TWT_L2の単語TWT_tの「感染」とを同一の話題と判定した場合、図６の１行目TWT_L1’に示すように、これら２単語の話題語データを統合する。統合の際には、「出現文書」TWT_didや「文書頻度」TWT_df、「単語頻度」TWT_tf、「話題度」TWT_score、「新鮮度」TWT_freshの値を修正する。
【００９７】
次に、以上のように構成された話題抽出装置の動作について図１４及び図１５のフローチャートを用いて説明する。
【００９８】
いま、図１４に示すステップＳ１００及びＳ３００は、前述同様に実行され、話題語抽出処理によって得られた頻度情報や話題度、新鮮度などが話題語テーブルＴＷＴとして話題抽出部３０に保持される。
【００９９】
次に、話題語集約部３４は、話題語テーブルＴＷＴ中の単語について、同一の話題を表す単語同士を集約する話題語集約処理を行う（ステップＳ６００）。話題語集約処理によって、同一の話題を表すと判定された単語同士の話題語データは統合される。
【０１００】
図１５は話題語集約部３４による話題語集約処理（ステップＳ６００）の流れを表すフローチャートである。
【０１０１】
話題語集約部３４は、話題語テーブルＴＷＴを取得する（ステップＳ６０１）。そして、話題語集約部３４は、話題語テーブルＴＷＴ中の全ての話題語データTWｉについて、さらに、同様に話題語テーブルＴＷＴ中の全ての話題語データTWｊについて、ステップＳ６０４〜ステップＳ６０６の処理を繰り返す（ステップＳ６０２、ステップＳ６０３）。但し、TWｉ≠TWｊとする。
【０１０２】
このステップＳ６０２〜Ｓ６０３の繰り返しによって、話題語集約部３４は、話題語テーブルＴＷＴに含まれる単語間について、集約するか否かを判定する。そのために、話題語集約部３４は、ステップＳ６０４において、話題語データTWｉとTWｊの類似度sim（TWｉ，TWｊ）を、［数３］に示す式により算出する。
【数３】

【０１０３】
ここで、共起類似度cosim（termｉ，termｊ，Ｄspnｉ∪Ｄspnｊ）とは、２つの単語termｉ，termｊの共起の強さを表す指標である。共起類似度としては、用語抽出や関連語抽出で一般的に使われるダイス（Dice）係数、ジャカード（Jaccard）係数などが使用可能となっている。本実施形態では、ダイス係数（dice（term１，term２，Ｄocs））を用いる。文書の和集合Ｄocsは、前述した和集合Ｄspnｉ∪Ｄspnｊを表す。
【０１０４】
共通期間割合cospanrate（ＳＰＮｉ，ＳＰＮｊ）は、TWｉとTWｊの「期間」で共通する期間の割合を表す指標である。そして、話題語集約部３４は、類似度sim（TWｉ，TWｊ）及びしきい値βに基づき、類似度sim（TWｉ，TWｊ）＞βの関係を満たすか否かに応じて、話題語データTWｉとTWｊが同一話題か否かを判定する（ステップＳ６０５）。ここで、しきい値βとは、当該話題語データTWｉと話題語データTWｊが、同一の話題を表すか否かを判定するための基準値であり、話題抽出装置において、事前に設定されていてもよいし、話題抽出の処理の都度、ユーザが設定してもよい。
【０１０５】
話題語データTWｉと話題語データTWｊとを同一話題と判定した場合（ステップＳ６０５−ＹＥＳ）、話題語集約部３４は、話題語テーブルＴＷＴ中の当該話題語データTWｉ，TWｊを統合した話題語データTWｍを作成し、話題語テーブルＴＷＴに格納する（ステップＳ６０６）。
【０１０６】
このとき、統合された話題語データTWｍの各項目の値は以下の通りとする。
【０１０７】
すなわち、話題語データTWａ＝｛単語ＩＤ termＩＤａ，単語termａ，期間ＳＰＮａ，出現文書ＴＤａ，文書頻度dfａ、単語頻度tfａ，話題度scoreａ，新鮮度freshａ｝（ａは添え字ｉ，ｊもしくはｍ）で表す。また、統合された話題語データの各項目について、以下のように補足して述べる。
【０１０８】
・単語ＩＤ：統合した話題語データの一方の単語ＩＤ。
【０１０９】
termＩＤｍ＝termＩＤｉ
・単語：２つの話題語データの単語の集合。
【０１１０】
termｍ＝｛termｉ，termｊ｝
・期間：２つの話題語データの期間で共通する期間。
【０１１１】
ＳＰＮｍ＝cospan（ＳＰＮｉ，ＳＰＮｊ）
・出現文書の集合：２つの話題語データの出現頻度で共通する文書の集合。
【０１１２】
ＴＤｍ＝ＴＤｉ∩ＴＤｊ
・文書頻度：ＴＤｍに含まれる文書数
dfｍ＝｜ＴＤｍ｜
・単語頻度：単語の集合ＴＤｍ中に含まれる単語termｉ，termｊの出現頻度の平均。
【０１１３】
tfｋ＝（tf（termｉ，ＴＤk）＋tf（termｊ，ＴＤk））／２
・話題度：上記の値を使い、［数３］に示した式によって再計算した話題度。
【０１１４】
scoreｋ＝score（termｋ，ＳＰＮｋ）
ここで、df（termｋ，Ｄspnｋ）＝dfｋ、
tf（termk,Ｄ）＝（tf（termｉ，Ｄ）＋tf（termｊ,Ｄ））／２
・新鮮度：上記の値を使い、［数２］に示した式によって再計算した新鮮度。
【０１１５】
freshｋ＝fresh（termｋ，ＳＰＮｋ）
以上が、統合された話題語データTWｍの各項目の補足説明である。
【０１１６】
また、統合処理後、話題語集約部３４は、話題語テーブルＴＷＴから話題語データTWｉ，TWｊを削除する（ステップＳ６０７）。最後に、話題語集約部３４は、話題語テーブルＴＷＴを出力する（ステップＳ６０８）。
【０１１７】
話題語集約処理の終了後、話題提示部２２は、以上の処理（ステップＳ３００、Ｓ５００、Ｓ６００）によって生成された話題語テーブルＴＷＴを話題抽出部３０から受け取り、この話題語テーブルＴＷＴに基づき、図１６に示すように、抽出結果を示す話題提示画面Ｇ２０をユーザに提示する話題提示処理を行う（ステップＳ８００）。話題提示画面Ｇ２０では、話題語のうち、「口蹄疫、感染」、「普天間、基地」、「移設、県外」及び「殺処分、種牛」の箇所において、話題語が集約されて提示されている。
【０１１８】
上述したように本実施形態によれば、第１の実施形態の効果に加え、類似度及び出現日時の系列に基づいて、同一話題を表す単語を適切に集約する構成により、話題語を精度良く抽出することができる。また、話題を単語の集まりとして提示することで、ユーザは話題の内容をより的確に把握することができる。
【０１１９】
＜第３の実施形態＞
図１７は第３の実施形態に係る話題抽出装置の構成を表すブロック図である。
【０１２０】
本実施形態は、第１の実施形態の変形例であり、図１に示した話題抽出部３０において、話題語階層抽出部３５を更に備えている。
【０１２１】
ここで、話題語階層抽出部３５は、話題語抽出部３３によって抽出された話題語（termｉ，termｊ）について、対象期間における出現文書の出現頻度（ｄｆ（term１，Ｄocs），ｄｆ（term２，Ｄocs））と日時情報（ＳＰＮｉ，ＳＰＮｊ）に基づいて話題語間の関連度を算出し、当該関連度によって話題語間の階層関係を抽出する手段である。
【０１２２】
具体的には、話題語階層抽出部３５は、話題語テーブルＴＷＴに基づいて、話題語間の階層を抽出する。話題語階層抽出部３５では、話題語テーブルＴＷＴ中の出現文書の情報を用いて、２つの単語間の関連度を算出し、その関連度に基づいて、単語間の階層関係を判定する。そして、判定した結果を、話題語テーブルＴＷＴに付与する。
【０１２３】
図１８は、話題語階層抽出部３５によって、更新された話題語テーブルＴＷＴのデータの例を表す模式図である。話題語階層抽出部３５は、話題語テーブルＴＷＴ中の単語について、単語間の親子関係を判定し、その親子関係を表すために、話題語テーブルＴＷＴの「親単語」７０９の列に、その単語の親単語の単語ＩＤを格納する。例えば、図７に示した話題語テーブルＴＷＴの単語TWT_tの「口蹄疫」、「感染」、「普天間」、「基地」、「移設」、「県外」、「徳之島」、「種牛」、「殺処分」及び「辺野古」について、話題語階層抽出部３５は、図１９（ａ）及び図１９（ｂ）に示す如き、階層関係を抽出した場合、それぞれの話題語データについて、図１８の「親単語」TWT_rootのような値を格納する。ここで、「親単語」は、その単語の親単語の単語ＩＤを表す。但し、最上位の単語（上述の例では、「普天間」、「基地」、「口蹄疫」、「感染」）に対する親単語としては(root)という値が格納される。
【０１２４】
また、話題抽出装置においては、話題語階層抽出部３５を更に備えたことに伴い、話題提示部２２が、話題語階層抽出部３５によって抽出された話題語の階層関係に従い、話題語間の親子関係を提示すると共に、兄弟関係にある話題語を新鮮度の順に提示する機能を有している。
【０１２５】
次に、以上のように構成された話題抽出装置の動作について図２０乃至図２２のフローチャートを用いて説明する。
【０１２６】
いま、図２０に示すステップＳ１００〜Ｓ３００及びＳ５００は、前述同様に実行され、話題語抽出処理によって得られた頻度情報や話題度、新鮮度などが話題語テーブルＴＷＴとして話題抽出部３０に保持される。
【０１２７】
次に、話題語階層抽出部３５は、話題語テーブルＴＷＴ中の単語について、単語間の階層関係を抽出し、その階層構造の情報を話題語テーブルＴＷＴに付与する話題語階層抽出処理を行う（ステップＳ７００）。なお、話題語階層抽出処理の詳細については後述する。
【０１２８】
話題語階層処理の終了後、話題提示部２２は、以上の処理（ステップＳ３００、Ｓ５００、Ｓ７００）によって生成された話題語テーブルＴＷＴを話題抽出部３０から受け取り、この話題語テーブルＴＷＴに基づき、抽出結果をユーザに提示する話題提示処理を行う（ステップＳ８００）。なお、話題提示処理の詳細については後述する。
【０１２９】
図２１は話題語階層抽出部３５による話題語階層抽出処理（ステップＳ７００）の流れを表すフローチャートである。
【０１３０】
話題語階層抽出部３５は、話題語テーブルＴＷＴを取得する（ステップＳ７０１）。そして、話題語階層抽出部３５は、話題語テーブルＴＷＴ中の全ての話題語データTWｉについて、さらに、同様に話題語テーブルＴＷＴ中の全ての話題語データTWｊについて、ステップＳ７０４〜ステップＳ７０６の処理を繰り返す（ステップＳ７０２，Ｓ７０３）。但し、TWｉ≠TWｊとする。
【０１３１】
このステップＳ７０２，Ｓ７０３の繰り返しによって、話題語階層抽出部３５は、話題語テーブルＴＷＴに含まれる全ての単語間について親子関係を判定する。そのために、話題語階層抽出部３５は、ステップＳ７０４において、話題語データTWｉとTWｊの関連度ｒｅｌ（TWｉ，TWｊ）を、［数４］に示す式により算出する。
【数４】

【０１３２】
ここで、ｍｉ（termｉ，termｊ，Ｄspnｉ∪Ｄspnｊ）は、話題語データTWｉ，TWｊの出現文書の和集合において、一方の単語termｉから見たときの他方の単語termｊの関係の強さを相互情報量に基づいて、算出する式である。また、共通期間割合cospanrate（ＳＰＮｉ，ＳＰＮｊ）は、［数３］に示した式と同様の式で、期間の共通性を考慮するための指標である。次に、関連度ｒｅｌ（TWｉ，TWｊ）＞γという式によって、話題語データTWｉとTWｊが親子関係を判定する（ステップＳ７０５）。ここで、しきい値γは、当該話題語データTWｉが話題語データTWｊの親にすべきかを判定するための基準値であり、話題抽出装置において、事前に設定されていてもよいし、話題抽出の処理の都度、ユーザが設定してもよい。
【０１３３】
そして、話題語データTWｉと話題語データTWｊに親子関係があると判定した場合（ステップＳ７０５−ＹＥＳ）、話題語階層抽出部３５は、当該TWｉを親、TWｊを子として、話題語データTWｊの「親単語」（図７に示すTWT_root）に、話題語データTWｉの「単語ＩＤ」（図７に示すTWT_tid）の値を格納する（ステップＳ７０６）「親単語」に格納される値については、図１８の説明を参照されたい。
【０１３４】
話題語階層抽出部３５は、このステップＳ７０２〜Ｓ７０３の繰り返しによる話題語テーブルＴＷＴ中の単語間の親子関係の判定を、親子関係が抽出されなくなるまで繰り返す（ステップＳ７０７）。
【０１３５】
そして、このステップＳ７０２、ステップＳ７０３の繰り返しにおいて、１度も親子関係が抽出されなかった場合（ステップＳ７０７−ＹＥＳ）、話題語階層抽出部３５は、話題語テーブルＴＷＴを出力する（ステップＳ７０８）。ステップＳ７０７の繰り返しによって、話題語階層抽出部３５は、話題語テーブルＴＷＴ中の単語の親子関係を多階層的に抽出する。また、抽出する階層関係について、何階層まで抽出するかをユーザが指定するとしてもよい。
【０１３６】
図２２は話題提示部２２による話題提示処理（ステップＳ８００）の流れを表すフローチャートである。
【０１３７】
いま、ステップＳ８０１〜Ｓ８０３は、前述同様に実行される。
【０１３８】
次に、話題提示部２２は、話題抽出部３０から話題語テーブルＴＷＴを取得し、話題語テーブルＴＷＴ中から「親単語」が「（root）」である（つまり、階層的に最上位の）話題語データを取得し、それらの話題語データを要素として含む話題語データの集合をＴＷＳとする（ステップＳ８０４’）。例えば、図７の例では、ＴＷＳ＝｛「普天間」，「基地」，「口蹄疫」，「感染」｝となる。
【０１３９】
次に、話題提示部２２は、話題語データ集合ＴＷＳの要素を、「新鮮度」TWT_freshによってソートする（ステップＳ８０５）。これによって、階層的に兄弟の関係にある話題が時系列順にソートされる。これは、後述するステップＳ８０９の処理も同様である。
【０１４０】
次に話題提示部２２は、話題語データ集合ＴＷＳが空になるまで、ステップＳ８０７〜Ｓ８１４の処理を繰り返す（ステップＳ８０６）。
【０１４１】
始めに、話題提示部２２は、話題語データ集合ＴＷＳ中の先頭にある話題語データをｐとする（ステップＳ８０７）。例えば、上述した例では、ＴＷＳ＝｛「普天間」，「基地」，「口蹄疫」，「感染」｝の先頭の話題語データなので、ｐ＝「普天間」となる。
【０１４２】
次に、話題提示部２２は、話題語テーブルＴＷＴからｐを親とする話題語データの集合ＣＴＳを取得する。上述の例では、ｐ＝「普天間」なので、ＣＴＳ＝｛「移設」、「県外」、「×× 連立」｝となる。
【０１４３】
次に、話題提示部２２は、先頭の話題語データｐを親とする話題語データの集合ＣＴＳ中の要素を「新鮮度」によってソートする（ステップＳ８０９）。
【０１４４】
次に、話題提示部２２は、当該話題語データの集合ＣＴＳ中の全ての話題語データを、話題語データ集合ＴＷＳ中の先頭の話題語データｐの位置に挿入する（ステップＳ８１０’）。このとき、話題提示部２２は、話題語データ集合ＴＷＳ中の先頭の話題語データｐを削除した上で、ｐの位置にステップＳ８０９でソートした順に、ｐを親とする話題語データの集合ＣＴＳ中の話題語データを挿入する。
【０１４５】
例えば、上述の例では、ＴＷＳ＝｛「普天間」，「基地」，「口蹄疫」，「感染」｝、ｐ＝「普天間」、ＣＴＳ＝｛「移設」，「県外」，「×× 連立」｝に対して、ステップＳ８１０の処理によって、ＴＷＳ＝｛「移設」，「県外」，「×× 連立」，「基地」，「口蹄疫」，「感染」｝となる。
【０１４６】
そして、話題提示部２２は、前述したステップＳ８１１〜Ｓ８１４の処理によって、図２３に示すように、話題語データｐの情報を話題提示画面に表示する。
【０１４７】
このように、話題提示部２２は、ステップＳ８０７〜Ｓ８１４の処理をＴＷＳが空になるまで繰り返すことによって、話題語テーブルＴＷＴ中の全ての話題語データを、その階層構造に従い、かつ、兄弟関係にある話題語データについては新鮮度によって時系列順にソートしながら、図２３に示すように、話題語提示画面Ｇ３０に表示する。
【０１４８】
上述したように本実施形態によれば、第１の実施形態の効果に加え、関連度及び出現日時の系列に基づいて話題語を階層化する構成により、文書数の規模だけでなく、話題の期間的な規模に応じて話題語を階層化することができる。ユーザにとっては、上位下位層の話題語を概観することにより対象期間における大きな話題の潮流を俯瞰でき、さらに着目する話題については深堀しながら、話題の詳細を知ることができる。さらに、同一階層の話題を新鮮度でソートするため、話題の遷移を様々な粒度で提示することができる。
【０１４９】
＜第４の実施形態＞
図２４は第４の実施形態に係る話題抽出装置の構成を表すブロック図である。
【０１５０】
本実施形態は、第１の実施形態に第２及び第３の実施形態を組合せた例であり、図１に示した話題抽出部３０において、図１２に示した話題語集約部３４と、図１７に示した話題語階層抽出部３５とを更に備えている。
【０１５１】
これに伴い、話題語テーブルＴＷＴ及び階層構造は、図２５、図２６（ａ）及び図２６（ｂ）に示すように、集約された話題語に対しても、階層構造を示すものとなる。
【０１５２】
以上のような構成によれば、図２７に示すように、前述した話題語抽出処理（ステップＳ５００）の後に、前述した話題語集約処理（ステップＳ６００）及び話題語階層抽出処理（ステップＳ７００）が実行される。
【０１５３】
その結果、図２８に示すように、話題語が集約され、且つ、話題語の階層構造が明示された話題提示画面Ｇ４０が提示される。
【０１５４】
上述したように本実施形態によれば、第１、第２及び第３の実施形態の効果を同時に得ることができる。
【０１５５】
＜第５の実施形態＞
図２９は第５の実施形態に係る話題抽出装置の構成を表すブロック図である。
【０１５６】
本実施形態は、第１の実施形態の変形例であり、図１に示した話題抽出部３０において、バースト期間抽出部３２を更に備えている。
【０１５７】
ここで、バースト期間抽出部３２は、単語抽出部３１によって抽出された各単語について、出現文書の文書集合（ＴＤ（term，Ｄspn））における出現日時の系列（TIMES）を取得し、当該出現日時の系列を用いて当該単語（term）が集中的に出現している複数のバースト期間（ＢＳＴ）をそれぞれ抽出し、当該単語とそれぞれのバースト期間との組（ＴＳ＝｛term，ＢＳＴ｝）を異なる単語として保持する手段である。
【０１５８】
具体的には、バースト期間抽出部３２は、単語文書テーブルＴＤＴに含まれるそれぞれの単語について、その単語が出現する文書の日時の系列を用いて、その単語が集中しているバースト期間ＢＳＴを抽出し、そのバースト期間ＢＳＴを単語期間テーブルＴＳＴの「期間」TST_spnに書き込む。ここで、１つの単語が複数のバースト期間ＢＳＴｉ，ＢＳＴｊ，…を持つ場合は、抽出したバースト期間ＢＳＴｉ，ＢＳＴｊ，…の数だけ、｛単語，期間｝の組（単語期間データ）を生成し、それぞれ異なる「単語ＩＤ」を付与する。すなわち、表記上、同じ単語であっても、異なるバースト期間ＢＳＴｉ，ＢＳＴｊ，…を持つものは、別の単語として扱う。これによって、例えば図３０に示す単語期間テーブルＴＳＴが生成される。ここで生成した単語期間テーブルＴＳＴは、話題語抽出部３３の入力として使用する。バースト期間抽出部３２を含む構成（第５の実施形態〜第８の実施形態）においては、バースト期間抽出部３２によって、生成された単語期間テーブルＴＳＴに基づいて、話題語テーブルＴＷＴが生成される。
【０１５９】
なお、この単語期間テーブルＴＳＴに対応させて、バースト期間抽出部３２を組み込んだ場合の話題語テーブルＴＷＴについては、それぞれ図７、図１３、図１８、図２５において、TWT_spnの期間を図３０のTST_spnの期間に置き換えることで得られる。
【０１６０】
また、話題抽出装置は、バースト期間抽出部３２を更に備えたことに伴い、話題語抽出部３３及び話題提示部２２が以下の機能を有するものとなっている。
【０１６１】
すなわち、話題語抽出部３３は、単語抽出部３１により抽出された各単語のうちでバースト期間抽出部３２によっても抽出された単語については対象期間における当該単語が出現する出現文書の文書集合の取得に代えて、バースト期間抽出部３２によって抽出された単語とそれぞれのバースト期間との組（ＴＳ＝｛term，ＢＳＴ｝）に基づいて、当該単語が当該バースト期間において出現する出現文書の文書集合（ＴＤ（term，Ｄbst)）を取得し、当該出現文書の出現頻度の有意性を表す値（topical（term，ＢＳＴ））と、重み値（tfidf(term)）とに基づいて話題度（score（term，ＢＳＴ））を算出し、当該話題度が所定の値（α）以上の単語を話題語として抽出すると共に、当該抽出した各話題語について、バースト期間における出現日時の系列に基づいて新鮮度（fresh（term，ＢＳＴ））を算出する機能をもっている。
【０１６２】
話題提示部２２は、提示した各話題語について、バースト期間抽出部３２によって抽出したバースト期間に該当する箇所を強調表示する機能をもっている。
【０１６３】
次に、以上のように構成された話題抽出装置の動作について図３１乃至図３３のフローチャートを用いて説明する。
【０１６４】
いま、図３１に示すステップＳ１００〜Ｓ３００は、前述同様に実行され、単語抽出処理によって得られた単語文書テーブルＴＤＴが話題抽出部３０に保持される。
【０１６５】
次に、バースト期間抽出部３２は、単語文書テーブルＴＤＴに含まれるそれぞれの単語についてバースト期間ＢＳＴを抽出し、単語期間データの集合である単語期間テーブルＴＳＴを生成する処理（以下、バースト期間抽出処理）を行う（ステップＳ４００）。なお、バースト期間抽出処理の詳細については後述する。
【０１６６】
次に、話題語抽出部３３は、バースト期間抽出処理（ステップＳ４００）によって生成された単語期間テーブルＴＳＴ中のそれぞれの単語について、当該期間中に当該単語が出現する文書や、文書頻度、出現頻度などの情報に基づき、単語の話題度算出（スコアリング）を行い、話題語を抽出する話題語抽出処理を行う（ステップＳ５００）。話題語抽出処理の詳細については後述する。また、この話題語抽出処理によって得られた頻度情報や話題度、新鮮度などは、話題語テーブルＴＷＴとして話題抽出部３０に保持する。
【０１６７】
そして、話題提示部２２は、以上の処理（ステップＳ３００〜ステップＳ７００）によって生成された話題語テーブルＴＷＴを話題抽出部３０から受け取り、この話題語テーブルＴＷＴに基づき、抽出結果をユーザに提示する話題提示処理を行う（ステップＳ８００）。なお、話題提示処理の詳細については後述する。
【０１６８】
図３２はバースト期間抽出部３２によるバースト期間抽出処理（ステップＳ４００）の流れを表すフローチャートである。
【０１６９】
バースト期間抽出部３２は、単語文書テーブルＴＤＴを取得し（ステップＳ４０１）、｛単語，期間｝の組の集合ＴＳＳを作成する（ステップＳ４０２）。ここで、組の集合ＴＳＳの初期値は空とする。
【０１７０】
次に、バースト期間抽出部３２は、単語文書テーブルＴＤＴに含まれる全ての単語termについて、ステップＳ４０４〜Ｓ４０７の処理を繰り返す（ステップＳ４０３）。
【０１７１】
ステップＳ４０４では、バースト期間抽出部３２は、単語文書テーブルＴＤＴから単語termの出現文書（「出現頻度」が１以上の文書）を取得し、その出現文書の日時情報を、単語termの出現日時の系列TIMESとして取得する。
【０１７２】
次に、バースト期間抽出部３２は、単語termの出現日時の系列TIMESに基づいて、単語termのバースト期間の集合ＢＳＴＳを抽出する（ステップＳ４０５）。ここで、バースト期間の抽出手法としては、例えば、非特許文献１に記載の手法が使用可能となっている。この抽出手法では、単語の出現日時の系列（ここでは、TIMES）に基づいて、その単語が密集して出現する複数の期間を取得する。補足すると、一様に出現するような単語については、バースト期間ＢＳＴは抽出されない。
【０１７３】
ステップＳ４０５の後、バースト期間抽出部３２は、バースト期間の集合ＢＳＴＳ中の全てのバースト期間ＢＳＴについて、ステップＳ４０７を繰り返し（ステップＳ４０６）、｛term，ＢＳＴ｝の組ＴＳを当該組の集合ＴＳＳに追加する。以上のバースト期間抽出処理によって、単語文書テーブルＴＤＴ中の単語は、バースト期間ＢＳＴによって分割され、以降の処理でそれぞれ異なる単語として処理される。
【０１７４】
図３３は話題提示部２２による話題提示処理（ステップＳ８００）の流れを表すフローチャートである。
【０１７５】
ここで、ステップＳ８０１〜Ｓ８１４は、前述した図１１と同様に実行される。但し、前述した話題度score（term，ＳＰＮ）は、期間ＳＰＮに代えてバースト期間ＢＳＴに基づく話題度score（term，ＢＳＴ）として算出されている（Ｄspnに基づくtopical（term，ＳＰＮ）が、Ｄbstに基づくtopical（term，ＢＳＴ）として算出されている）。同様に、前述した新鮮度fresh（term，ＳＰＮ）は、期間ＳＰＮに代えてバースト期間ＢＳＴに基づく新鮮度fresh（term，ＢＳＴ）として算出されている。
【０１７６】
また、ステップＳ８１４の後、話題提示部２２は、ステップＳ８１１で追加した行について、話題語データｐの「期間」に該当する列のセルを強調表示する（ステップＳ８１５）。この処理によって、図３４に示すように、話題提示画面Ｇ５０中で当該話題が盛り上がっている時期（バースト期間ＢＳＴ）を強調表示する。
【０１７７】
上述したように本実施形態によれば、第１の実施形態の効果に加え、単語をバースト期間によって分割した上で、話題語を抽出する構成により、同じ話題語でも盛り上がった時期毎に提示することで、時期によって異なる話題間の関連を提示することができる。
【０１７８】
補足すると、背景技術に述べた従来の話題抽出方式とは異なった従来の他の話題抽出方式として、文書クラスタリングを階層的に繰り返すことにより、話題を文書の集合（話題クラスタ）とし、話題クラスタ・サブ話題クラスタという話題の階層を抽出するものがある。当該他の話題抽出方式では、それぞれの話題クラスタ毎に、出現頻度に基づいて話題語を抽出し、日時情報に基づいて提示する。
【０１７９】
しかしながら、当該他の話題抽出方式は、本発明者の検討によれば、話題を文書集合として細分化するため、話題を掘り下げて詳細を知る用途には向いているものの、話題の変遷を知る用途には不向きである。
【０１８０】
また、ニュースやブログなどにおいて、同一の話題を表す単語や、話題に関連する単語は、時間の経過と共に変化するものである。このため、単語間の関連を求める場合、単語が出現する期間を考慮する必要がある。また、一つの単語に着目して話題を表す際にも、一つの単語が出現時期によって異なる話題を表す場合があることから、単語の出現時期を考慮する必要がある。
【０１８１】
例えば沖縄県の普天間基地に対する「移設」という単語は、ある時期には「徳之島への移設」の話題を表し、他の時期には「辺野古への移設」の話題を表している。このように、一つの単語は、時期によって異なる話題を表す場合がある。
【０１８２】
しかし、背景技術で述べた従来の話題抽出方式では、単語の出現時期を考慮していないことから、単語の出現時期によっては、異なる話題を同じ話題と混同してしまう可能性がある。
【０１８３】
従来の他の話題抽出方式では、話題を話題クラスタとして抽出することにより、話題の混同を吸収している。しかし、従来の他の話題抽出方式では、話題語を抽出する際に、同様の混同を生じる可能性がある。
【０１８４】
これに対し、本実施形態によれば、前述した通り、単語をバースト期間によって分割した上で、話題語の抽出を行う構成により、話題の混同を防ぐことができる。
【０１８５】
＜第６の実施形態＞
図３５は第６の実施形態に係る話題抽出装置の構成を表すブロック図である。
【０１８６】
本実施形態は、第１の実施形態に第２及び第５の実施形態を組合せた例であり、図１に示した話題抽出部３０において、図１２に示した話題語集約部３４と、図２９に示したバースト期間抽出部３２とを更に備えている。
【０１８７】
以上のような構成によれば、図３６に示すように、前述したバースト期間抽出処理（ステップＳ４００）の後に、前述した話題語集約処理（ステップＳ６００）が実行される。このため、話題語集約処理（ステップＳ６００）において、期間ＳＰＮに基づく類似度sim（TWｉ，TWｊ）は、期間ＳＰＮに代えてバースト期間ＢＳＴに基づく類似度sim（TWｉ，TWｊ）として算出される。補足すると、期間ＳＰＮに基づく共起類似度ｃｏ（termｉ，termｊ，Ｄspnｉ∪Ｄspnｊ）は、期間ＳＰＮに代えてバースト期間ＢＳＴに基づく共起類似度ｃｏ（termｉ，termｊ，Ｄbstｉ∪Ｄbstｊ）として算出される。同様に、期間ＳＰＮに基づく共通期間割合cospanrate（ＳＰＮｉ，ＳＰＮｊ）は、期間ＳＰＮに代えてバースト期間ＢＳＴに基づく共通期間割合cospanrate（ＢＳＴｉ，ＢＳＴｊ）として算出される。
【０１８８】
その結果、図３７に示すように、話題語が集約され、バースト期間が強調された話題提示画面Ｇ６０が提示される。
【０１８９】
上述したように本実施形態によれば、第１、第２及び第５の実施形態の効果を同時に得ることができる。
【０１９０】
＜第７の実施形態＞
図３８は第７の実施形態に係る話題抽出装置の構成を表すブロック図である。
【０１９１】
本実施形態は、第１の実施形態に第３及び第５の実施形態を組合せた例であり、図１に示した話題抽出部３０において、図１７に示した話題語階層抽出部３５と、図２９に示したバースト期間抽出部３２とを更に備えている。
【０１９２】
以上のような構成によれば、図３９に示すように、前述したバースト期間抽出処理（ステップＳ４００）の後に、前述した話題語階層抽出処理（ステップＳ７００）が実行される。このため、話題語階層抽出処理（ステップＳ７００）において、期間ＳＰＮに基づく関連度ｒｅｌ（TWｉ，TWｊ）は、期間ＳＰＮに代えてバースト期間ＢＳＴに基づく関連度ｒｅｌ（TWｉ，TWｊ）として算出される。補足すると、期間ＳＰＮに基づく相互情報量ｍｉ（termｉ，termｊ，Ｄspnｉ∪Ｄspnｊ）は、期間ＳＰＮに代えてバースト期間ＢＳＴに基づく相互情報量ｍｉ（termｉ，termｊ，Ｄbstｉ∪Ｄbstｊ）として算出される。同様に、期間ＳＰＮに基づく共通期間割合cospanrate（ＳＰＮｉ，ＳＰＮｊ）は、期間ＳＰＮに代えてバースト期間ＢＳＴに基づく共通期間割合cospanrate（ＢＳＴｉ，ＢＳＴｊ）として算出される。
【０１９３】
また、話題提示処理は、図４０に示すように、バースト期間ＢＳＴを強調表示するステップＳ８１５を有して実行される。
【０１９４】
その結果、図４１に示すように、話題語の階層構造が明示され、バースト期間が強調された話題提示画面Ｇ７０が提示される。
【０１９５】
上述したように本実施形態によれば、第１、第３及び第５の実施形態の効果を同時に得ることができる。
【０１９６】
＜第８の実施形態＞
図４２は第８の実施形態に係る話題抽出装置の構成を表すブロック図である。
【０１９７】
本実施形態は、第１の実施形態に第４及び第５の実施形態を組合せた例であり、図１に示した話題抽出部３０において、図２４に示した話題語集約部３４及び話題語階層抽出部３５と、図２９に示したバースト期間抽出部３２とを更に備えている。
【０１９８】
以上のような構成によれば、図４３に示すように、前述したバースト期間抽出処理（ステップＳ４００）の後に、前述した話題語集約処理（ステップＳ６００）及び話題語階層抽出処理（ステップＳ７００）が実行される。すなわち、各処理（ステップＳ６００，Ｓ７００）では、第６及び第７の実施形態と同様に、期間ＳＰＮに代えてバースト期間ＢＳＴに基づき、類似度sim（TWｉ，TWｊ）、共起類似度ｃｏ（termｉ，termｊ，Ｄbstｉ∪Ｄbstｊ）共通期間割合cospanrate（ＢＳＴｉ，ＢＳＴｊ）、関連度ｒｅｌ（TWｉ，TWｊ）、相互情報量ｍｉ（termｉ，termｊ，Ｄbstｉ∪Ｄbstｊ）が算出される。
【０１９９】
その結果、図４４に示すように、話題語が集約され、話題語の階層構造が明示され、且つバースト期間が強調された話題提示画面Ｇ８０が提示される。
【０２００】
上述したように本実施形態によれば、第１、第４及び第５の実施形態の効果を同時に得ることができる。
【０２０１】
補足すると、話題を表す単語を話題語として抽出し、同一の話題に関連する話題語を集約すると共に、文書数や時間的な規模に応じて、階層化する構成により、話題の全体像や詳細を、その時間的な遷移と共に的確に把握できる。また、同じ話題でも盛り上がった時期毎に階層化することで、時期によって異なる話題間の関連を提示できる。
【０２０２】
以上説明した少なくとも一つの実施形態によれば、指定した対象期間において、話題の変遷を提示することができる。
【０２０３】
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。
【０２０４】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【０２０５】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が上記実施形態を実現するための各処理の一部を実行してもよい。
【０２０６】
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【０２０７】
また、記憶媒体は１つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。
【０２０８】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
【０２０９】
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【０２１０】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【０２１１】
１０…文書記憶部、２０…ユーザインターフェース部、２１…期間指定部、２２…話題提示部、３０…話題抽出部、３１…単語抽出部、３２…バースト期間抽出部、３３…話題語抽出部、３４…話題語集約部、３５…話題語階層抽出部、Ｇ１…指定画面、ｇ１…開始日時、ｇ２…終了日時、ｇ３…実行ボタン、ｇ４…キャンセルボタン、ｇ５…表示間隔、Ｇ１０〜Ｇ８０…話題提示画面。

【特許請求の範囲】
【請求項１】
テキスト情報と日時情報を持つ複数の文書からなる対象文書集合を記憶する文書記憶手段と、
話題抽出の対象とする対象期間の指定を受け付ける期間指定手段と、
前記文書記憶手段に記憶された対象文書集合から、前記指定を受け付けた対象期間での話題を表す単語である話題語を抽出すると共に、各話題語について時事性を表す尺度である新鮮度を算出する話題抽出手段と、
前記話題抽出手段によって抽出された話題語を前記新鮮度の順に提示すると共に、当該提示した各話題語について単位期間毎の出現文書数を提示する話題提示手段を備えた話題抽出装置であって、
前記話題抽出手段は、
前記文書記憶手段に記憶された対象文書集合から各単語を抽出し、当該各単語の出現頻度及び当該各単語が出現する文書数を示す文書頻度をそれぞれ算出する単語抽出手段と、
前記単語抽出手段によって抽出された各単語について、前記対象期間における当該単語が出現する出現文書の文書集合を取得し、当該出現文書の出現頻度の有意性を表す値と、前記単語の出現頻度及び前記文書頻度に基づく当該単語の重み値とに基づいて、話題語らしさを表す尺度である話題度を算出し、前記話題度が所定の値以上の単語を話題語として抽出すると共に、当該抽出された話題語について当該対象期間における出現日時に基づいて新鮮度を算出する話題語抽出手段と、
を備えたことを特徴とする話題抽出装置。
【請求項２】
請求項１に記載の話題抽出装置において、
前記話題抽出手段は、
前記話題語抽出手段によって抽出された話題語について、前記対象期間における出現文書と当該出現文書の出現頻度と日時情報に基づいて話題語間の類似度を算出し、当該類似度によって対象期間において同一の話題を表す複数の話題語からなる話題語群を抽出し、当該話題語群について当該対象期間における出現文書の文書集合を取得し、当該文書集合の頻度情報及び日時情報に基づいて、前記話題度と前記新鮮度を再計算する話題語集約手段、
を更に備えたことを特徴とする話題抽出装置。
【請求項３】
請求項１又は請求項２に記載の話題抽出装置において、
前記話題抽出手段は、
前記話題語抽出手段によって抽出された話題語について、前記対象期間における出現文書の出現頻度と日時情報に基づいて話題語間の関連度を算出し、当該関連度によって話題語間の階層関係を抽出する話題語階層抽出手段を更に備え、
前記話題提示手段は、
前記話題語階層抽出手段によって抽出された話題語の階層関係に従い、話題語間の親子関係を提示すると共に、兄弟関係にある話題語を前記新鮮度の順に提示することを特徴とする話題抽出装置。
【請求項４】
請求項１乃至請求項３のいずれか１項に記載の話題抽出装置において、
前記話題抽出手段は、
前記単語抽出手段によって抽出された各単語について、前記出現文書の文書集合における出現日時の系列を取得し、当該出現日時の系列を用いて当該単語が集中的に出現している複数のバースト期間をそれぞれ抽出し、当該単語とそれぞれのバースト期間との組を異なる単語として保持するバースト期間抽出手段を更に備え、
前記話題語抽出手段は、
前記単語抽出手段により抽出された各単語のうちで前記バースト期間抽出手段によっても抽出された単語については前記対象期間における当該単語が出現する出現文書の文書集合の取得に代えて、前記バースト期間抽出手段によって抽出された単語とそれぞれのバースト期間との組に基づいて、当該単語が当該バースト期間において出現する出現文書の文書集合を取得し、当該出現文書の出現頻度の有意性を表す値と、前記重み値とに基づいて話題度を算出し、当該話題度が所定の値以上の単語を話題語として抽出すると共に、当該抽出した各話題語について、バースト期間における出現日時の系列に基づいて新鮮度を算出し、
前記話題提示手段は、
前記提示した各話題語について、前記バースト期間抽出手段によって抽出したバースト期間に該当する箇所を強調表示することを特徴とする話題抽出装置。
【請求項５】
テキスト情報と日時情報を持つ複数の文書からなる対象文書集合を記憶する文書記憶手段を備えた話題抽出装置に用いられるプログラムであって、
前記話題抽出装置を、
話題抽出の対象とする対象期間の指定を受け付ける期間指定手段、
前記文書記憶手段に記憶された対象文書集合から、前記指定を受け付けた対象期間での話題を表す単語である話題語を抽出すると共に、各話題語について時事性を表す尺度である新鮮度を算出する話題抽出手段、
前記話題抽出手段によって抽出された話題語を前記新鮮度の順に提示すると共に、当該提示した各話題語について単位期間毎の出現文書数を提示する話題提示手段、
として機能させ、
前記話題抽出手段は、
前記文書記憶手段に記憶された対象文書集合から各単語を抽出し、当該各単語の出現頻度及び当該各単語が出現する文書数を示す文書頻度をそれぞれ算出する単語抽出手段と、
前記単語抽出手段によって抽出された各単語について、前記対象期間における当該単語が出現する出現文書の文書集合を取得し、当該出現文書の出現頻度の有意性を表す値と、前記単語の出現頻度及び前記文書頻度に基づく当該単語の重み値とに基づいて、話題語らしさを表す尺度である話題度を算出し、前記話題度が所定の値以上の単語を話題語として抽出すると共に、当該抽出された話題語について当該対象期間における出現日時に基づいて新鮮度を算出する話題語抽出手段と、
を含んでいるプログラム。

【図１】