テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体

【課題】学習データを必要としないテキストセグメンテーション方法、その装置、プログラム、および記憶媒体を提供することを目的とする。
【解決手段】入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定部とを有することを特徴とするテキストセグメンテーション装置である。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、テキストを計算機上で利用する分野において、テキストに記述されている複数の内容に応じて、テキスト内の文章を自動的に分割する技術に関する。
【背景技術】
【０００２】
近年、急速な計算機の性能向上に伴い、莫大なテキスト（ここでは、文字列だけで構成される文の集合）を蓄積し、データベースを構築することが可能である。
【０００３】
しかし、保存されているテキストを、人手で整理・管理することは、一般的に困難である。そこで、蓄積されたテキストデータベースを解析し、入力したテキストを、内容に応じて意味段落に分割する「テキストセグメンテーション」と呼ばれる技術が開発されている。テキストデータベースの分類や整理を、計算機が行う場合、上記テキストセグメンテーションが応用されつつある。テキストセグメンテーションの１つの代表的な方法として、概念ベースと呼ばれる情報を用いて、テキストセグメンテーションを行う技術が提案されている（たとえば、特許文献１参照）。
【０００４】
この提案技術では、ある単語と、それに共起するパターンとを数値ベクトル化した概念ベクトルを、予め蓄積されている学習データから、複数作成する。そして、概念ベクトルの集まりである概念ベースを利用し、テキストセグメンテーションを行う。学習データは、１つの分野に関するテキスト（たとえば、「政治」の分野だけに関するテキスト）が、数多く蓄積されている。
【０００５】
また、１種類の長さのブロックに対する連結度に基づいて、文間の意味的連続性を評価することが知られている（たとえば、非特許文献１参照）。この従来例では、ブロックの長さが短い場合、局所的な意味内容の変化に追従し易い代わりに、過剰に意味段落を推定する可能性が高い。反対に、ブロックの長さが長い場合、大域的な意味内容の変化を捉え易い代わりに、緩やかに意味内容が変化するテキストに対処できない。
【特許文献１】特開２００２−３４２３２４号公報
【非特許文献１】Hearst, M.A., : Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16(1994)
【発明の開示】
【発明が解決しようとする課題】
【０００６】
しかし、従来のテキストセグメンテーション手法の精度を高めるためには、大規模な学習データを用意しなくてはならない。よって、学習データが小規模である場合、概念ベースを適切に作成することができず、テキストセグメンテーションの精度が低下するという問題がある。
【０００７】
また、事前に用意した学習データに含まれている分野に対応しているので、異なる分野のテキストについて、テキストセグメンテーションを行うことができない。たとえば、「政治」や「経済」に関する情報だけが、学習データに蓄積されている場合、「スポーツ」の分野のテキストをテキストセグメンテーションすることは困難である。
【０００８】
本発明は、学習データを必要としないテキストセグメンテーション方法、その装置、プログラム、および記録媒体を提供することを目的とする。
【課題を解決するための手段】
【０００９】
本発明は、入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定部とを有することを特徴とするテキストセグメンテーション装置である。
【発明の効果】
【００１０】
本発明によれば、テキストセグメンテーションする場合、ウェブで検索する概念を利用するので、学習データを事前に用意する必要がないという効果を奏する。
【発明を実施するための最良の形態】
【００１１】
発明を実施するための最良の形態は、以下の実施例である。
【実施例１】
【００１２】
図１は、本発明の実施例１であるテキストセグメンテーション装置１００を示すブロック図である。
【００１３】
テキストセグメンテーション装置１００は、学習データを使用せずに、入力したテキストをテキストセグメンテーションする装置であり、上記入力したテキストに基づいてウェブ検索し、このウェブ検索されたテキストを解析し、この解析されたテキストの内容に応じて、上記入力したテキストを分割する装置であり、コンピュータで構成されている。
【００１４】
テキストセグメンテーション装置１００は、テキスト分解部１と、検索語抽出部２と、関連語取得部３と、連結性判定部４と、分解文章記憶部Ｍ１と、検索語記憶部Ｍ２と、関連語記憶部Ｍ３と、意味段落記憶部Ｍ４と、入力部５と、制御部６と、出力部７とを有する。
【００１５】
テキスト分解部１は、入力したテキストＴ１を、文単位に分解する。
【００１６】
検索語抽出部２は、テキスト分解部１が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する。
【００１７】
関連語取得部３は、検索語抽出部２が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する。
【００１８】
連結性判定部４は、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、入力したテキストＴ１を分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、入力したテキストＴ１を分割する。
【００１９】
入力部５は、テキストＴ１を入力する。制御部６は、テキストセグメンテーション装置１００の全体を制御する。
【００２０】
出力部７は、連結性判定部４が分割したテキストを出力する。
【００２１】
分解文章記憶部Ｍ１は、テキスト分割部１が分割した文を記憶する。
【００２２】
検索語記憶部Ｍ２は、検索語抽出部２が抽出した検索語を記憶する。
【００２３】
関連語記憶部Ｍ３は、関連語取得部３が取得した関連語を記憶する。
【００２４】
意味段落記憶部Ｍ４は、連結性判定部４が抽出した意味段落を格納する。
【００２５】
テキストセグメンテーション装置１００に、ネットワークＮＷ１が接続され、ウェブＷ１に、アクセスすることができる。ウェブＷ１は、テキストセグメンテーション装置１００の入力部５に、検索結果として入力されるテキストである。表示部Ｄ１は、出力部７を介して、制御部６が出力し結果を表示する装置である。
【００２６】
次に、テキストセグメンテーション装置１００の動作について説明する。
【００２７】
図２は、テキストセグメンテーション装置１００における処理手順の概要を示す図である。
【００２８】
Ｓ１で、テキストセグメンテーションする対象であるテキストＴ１を入力する。このテキストが「入力したテキスト」Ｔ１である。Ｓ２で、テキスト分解部１が、入力したテキストＴ１を、文単位に分割する。Ｓ３で、分割された文から、名詞を抽出し、この抽出された名詞を検索語として使用する。Ｓ４で、検索語を用いて、ウェブ上で検索し、この検索されたテキストＴ２に含まれている名詞を関連語として使用する。Ｓ５で、検索語と関連語とを組にしてキーワード集合を作り、このキーワード集合に基づいて、入力したテキストＴ１を分解した複数の文のうちで、互いに内容的にまとまりがある文を、意味段落として抽出する。Ｓ６で、テキストセグメンテーション結果を出力する。
【００２９】
次に、テキストセグメンテーションの処理手順を、より具体的に説明する。
【００３０】
まず、入力部５を通じて、テキストＴ１を入力すると、制御部６が、テキスト分解部１を呼び出し、テキスト分解部１が、テキストＴ１を１文字ずつ読み込み、文単位で切り出し、Ｎ個の文を得る。そして、切り出されたＮ個の文を、制御部６が、分解文章記憶部Ｍ１に格納する。ここで、「文」は、句点「。」で区切られている一文である。
【００３１】
図３は、本発明の実施例１において、入力したテキストＴ１の一例を示す図である。
【００３２】
図４は、実施例１における分解文章記憶部Ｍ１に格納されている文の一例を示す図である。
【００３３】
テキストＴ１は、１番目の文１１と、２番目の文１２と、３番目の文１３と、４番目の文１４と、５番目の文１５と、６番目の文１６と、７番目の文１７と、８番目の文１８と、９番目の文１９とを有する。
【００３４】
図３に示すテキストＴ１を、テキスト分解部１が分解し、図４に示すように、文単位に分解された９つの文１１〜１９が生成され、分解文章記憶部Ｍ１に格納される。
【００３５】
テキスト分解部１が生成した文の個数は、入力したテキストＴ１によって異なる。また、意味的に複数に続く文である（句点「。」を使用せずに、複数の文が続く）場合や、句点「。」の入力ミスがある場合には、複数の文が１つの文として扱われる。
【００３６】
次に、制御部６が、分解文章記憶部Ｍ１に格納されている各文から、検索語抽出部２に検索語を抽出させる。ここで、「検索語」は、ウェブ上で検索を行う際に入力する１つまたは複数の名詞である。検索語抽出部２は、最初に入力された文に、形態素解析を行う。そして、形態素解析によって名詞に分類された複数の単語を、検索語として取り出す。この取り出された検索語を、制御部６が、検索語記憶部Ｍ２に格納する。ただし、名詞を取り出すだけでは、「年」や「時」のように、一般的に使用される単語（検索語として意味がない単語）も抽出される。そこで、「年」や「時」等の不要語からなるリストである不要語リストＬ１を予め作成し、不要語リストＬ１に登録されていない名詞を検索語として扱う。
【００３７】
図５は、実施例１における不要語リストＬ１の一例を示す図である。
【００３８】
不要語リストＬ１には、不要単語が登録されている。
【００３９】
検索語記憶部Ｍ２に格納されている検索語は、不要語リストＬ１によって変わる。
【００４０】
また、ウェブ検索を行う際、適切な個数の単語でＡＮＤ検索をすることが好ましい。そこで、名詞として抽出された単語の個数が、閾値Ｓ_Ｔ未満である場合、検索語抽出部２は、検索語を抽出せず、検索語記憶部Ｍ２には、何も単語を格納しない。
【００４１】
逆に、名詞の個数Ｓが閾値Ｔ以上である場合、Ｓ個の検索語からＴ個の検索語をランダムに選択し、検索語記憶部Ｍ２に格納する。Ｔ＝１０、Ｓ_Ｔ＝２である場合、検索語抽出部２が検索語を抽出すると、検索語が、検索語記憶部Ｍ２に格納される。
【００４２】
図６は、実施例１において、検索語記憶部Ｍ２に格納されている検索語の一例を示す図である。
【００４３】
検索語記憶部Ｍ２に格納されている検索語は、文１１に対応する検索語２１と、文１２に対応する検索語２２と、文１３に対応する検索語２３と、文１４に対応する検索語２４と、文１５に対応する検索語２５と、文１６に対応する検索語２６と、文１７に対応する検索語２７と、文１８に対応する検索語２８と、文１９に対応する検索語２９とである。
【００４４】
文１１〜１８に対応する検索語２１〜２９を作成した後に、制御部６が、関連語取得部３を呼び出す。制御部６を介して、検索語抽出部２が抽出した検索語を、検索語記憶部Ｍ２から取り出し、関連語取得部３に入力する。
【００４５】
関連語取得部３に入力された検索語を用い、ネットワークＮＷ１を介して接続されているウェブＷ１上でＡＮＤ検索する。ＡＮＤ検索することによって、検索語が全て含まれているテキストをウェブＷ１で検索することができる。ここで、ウェブＷ１で検索を行う際、検索結果は、検索語が入力された順序に影響しない。
【００４６】
そして、検索されたテキストが作成された時期と、入力したテキストＴ１が作成された時期との差が少ない順に、検索されたテキストの中から、Ｐ個のテキストＴ２を取得する。ウェブＷ１に存在しているテキストには、通常、それが作成された日付が記録されているので、テキストＴ１が作成された日付との時間的な差を求めることができる。この時間的な差が少ないテキストを取得することによって、テキストＴ１との間で、より強く関連する記事（テキスト）を、ウェブＷ１から収集することができる。
【００４７】
ここで、検索語記憶部Ｍ２に、検索語が存在しなければ、関連語取得部３がウェブ検索をせず、関連語記憶部Ｍ３に、何も格納しない。また、検索語の個数ＳがＴと同じである場合、ウェブ検索を行わず、関連語記憶部Ｍ３に関連語を格納しない。
【００４８】
次に、時間順に収集されたＰ個のテキストＴ２から、本文のテキストを抽出する。そして、時間順に収集されたＰ個のテキストＴ２から、本文のテキストを抽出する。テキストＴ２はＨＴＭＬやＸＭＬ等の構造化言語で記述されているので、テキストＴ２内において本文の場所を示すタグ（タグは、「＜」と、「＞」と、これらによって囲まれている文字列とで構成されている）が付与されている。したがって、得られたテキストＴ２について、タグを解析することによって、テキストＴ２から本文のテキストを抽出することができる。
【００４９】
そして、抽出された本文のテキストに、関連語取得部３が、形態素解析し、名詞を抽出する。ウェブ検索されたテキストＴ２に含まれている名詞が、関連語である。関連語の個数は、ウェブ検索した場合における検索語や、収集されたテキストＴ２の個数によって変わる。
【００５０】
また、形態素解析によって抽出された名詞を全て関連語として使用すると、検索語抽出部２が抽出した場合と同様に、「年」や「月」等、普遍的に使用される単語が関連語として扱われる場合がある。そこで、関連語取得部３では、検索語抽出部２における処理と同様に、不要語リストＬ１を参照し、不要語を除く。そして、検索語がＳ個である場合、Ｐ個の本文のテキストから抽出した単語のうちで、出現頻度の高い順に、Ｔ−Ｓ個の単語を関連語とする。
【００５１】
なお、Ｔは、予め与えられている数である。Ｓは、検索語の数である。上記Ｔ−Ｓ個の関連語を、制御部６を介して、関連語記憶部Ｍ３に格納する。つまり、各文において抽出された検索語と関連語との合計個数は、予め与えられた値Ｔになるようにする。このように、各文において抽出された検索語と関連語との合計個数を予め与えられた値Ｔになるようにするのは、どの文についても、連結性を平等に評価するためである。
【００５２】
適切な関連語を得るためには、ウェブ検索で得られたテキストＴ２の数が、できるだけ多いことが望ましい。そこで、ウェブ検索によって得られたテキストＴ２の個数Ｐが、目標の個数であるＰ_Ｔ未満であれば、検索語を修正し、ウェブ上で再びＡＮＤ検索し、テキストＴ２を収集する。
【００５３】
検索語がＳ個である場合、Ｓ−１個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、再びテキストＴ２をＰ個検索し、収集する。たとえば、検索語が「富士山」、「ドライブ」、「スポーツ」である場合、Ｓ＝３であり、Ｓ−１＝２個の検索語を選ぶと、「ドライブ」、「スポーツ」の組み合わせ、「富士山」、「スポーツ」の組み合わせ、「富士山」、「ドライブ」の組み合わせができ、合計、３つの組み合わせができる。この３つの組み合わせで検索件数が最も多いものを使って、ウェブＷ１上で再びＡＮＤ検索を行う。
【００５４】
そして、テキストＴ２の個数ＰがＰ_Ｔ以上になるまで、検索語の修正とウェブ検索とを繰り返し、Ｐ≧Ｐ_Ｔになれば、テキストＴ２からＴ−Ｓ個の関連語を抽出する。
【００５５】
検索語を修正しても、収集されるテキストＴ２の個数がＰ_Ｔ以上にならなければ、元のＳ個の検索語を、検索語記憶部Ｍ２に残し、関連語記憶部Ｍ３には、関連語として何も格納しない。
【００５６】
図６に示す検索語２１〜２９について、予め与えられた値Ｔ＝１０、検索されたテキストＴ２の個数Ｐ＝２０、ウェブ検索によるテキストＴ２の目標検索件数Ｐ_Ｔ＝２０であるとした場合、関連語取得部３が関連語を取得する。
【００５７】
図７は、実施例１において、関連語記憶部Ｍ３に格納されている関連語の一例を示す図である。
【００５８】
図７に示す関連語記憶部Ｍ３に格納されている関連語は、検索語２１に対応する関連語３１と、検索語２２に対応する関連語３２と、検索語２３に対応する関連語３３と、検索語２４に対応する関連語３４と、検索語２５に対応する関連語３５と、検索語２６に対応する関連語３６と、検索語２７に対応する関連語３７と、検索語２８に対応する関連語３８と、検索語２９に対応する関連語３９とである。
【００５９】
そして、分解文章記憶部Ｍ１に格納されている全ての文に対して、検索語抽出部２による検索語抽出と、関連語取得部３による関連語取得とが終了すると、制御部６は、連結性判定部４に、分割された文同士の連結性を判定させる。つまり、連結性判定部４は、検索語記憶部Ｍ２に格納されている検索語と、関連語記憶部Ｍ３に格納されている関連語とを、制御部６を介して、読み出し、これらを組み合わせて、キーワード集合を作成する。つまり、上記キーワード集合は、検索語と関連語との組み合わせである。
【００６０】
図８は、実施例１において、連結性判定部４が作成したキーワード集合の一例を示す図である。
【００６１】
図８に示すキーワード集合は、キーワード集合５１、５２、５３、５４、５５、５６、５７、５８、５９である。キーワード集合５１は、検索語２１と関連語３１との組によって生成されたキーワード集合である。キーワード集合５２は、検索語２２と関連語３２との組によって生成されたキーワード集合である。キーワード集合５３は、検索語２３と関連語３３との組によって生成されたキーワード集合である。
【００６２】
キーワード集合５４は、検索語２４と関連語３４との組によって生成されたキーワード集合である。キーワード集合５５は、検索語２５と関連語３５との組によって生成されたキーワード集合である。キーワード集合５６は、検索語２６と関連語３６との組によって生成されたキーワード集合である。キーワード集合５７は、検索語２７と関連語３７との組によって生成されたキーワード集合である。キーワード集合５８は、検索語２８と関連語３８との組によって生成されたキーワード集合である。キーワード集合５９は、検索語２９と関連語３９との組によって生成されたキーワード集合である。
【００６３】
検索語がなければ、検索語に対応する関連語も存在しないので、連結性判定部４は、キーワード集合を作成しない。また、検索語が存在するが、関連語が存在しない場合、検索語のみによって、キーワード集合を作成する。
【００６４】
キーワード集合は、本文の内容を反映する単語である。テキストＴ１のうちで、最初の文１１から、文１２、１３、…………と進むに従って、各キーワード集合に含まれている単語が変化し、この単語を調べることによって、テキストＴ１の本文における内容の変化を捉えることができる。
【００６５】
そこで、連結性判定部４は、生成された複数のキーワード集合を、互いに比較し、内容的にまとまっている（類似している）一文または複数の文を検出し、つまり、これら検出された内容的にまとまっている一文または複数の文によって構成されている意味段落を抽出する。この抽出された意味段落は、制御部６を通じて、意味段落記憶部Ｍ４に格納される。
【００６６】
キーワード集合を互いに比較する場合、テキストは先頭から順に書かれていることが一般的であるので、テキストの先頭から順に、複数のキーワード集合を互いに比較する。具体的には、ｉ番目のキーワード集合を基準にし、ｉ＋１−ｂ番目（１≦ｂ）からｉ番目までのキーワード集合が含まれているブロックＢ１と、ｉ＋１番目からｉ＋ｂ番目までのキーワード集合が含まれているブロックＢ２を作成する。ここで、ｂは、ブロック（少なくとも１つの文を有する塊）に含まれているキーワード集合の個数であり、つまり、ブロックの幅である。
【００６７】
すなわち、基準の文であるｉ番目の文の前後の複数の文に対応するキーワード集合を見ることによって、本文の内容を解析する。
【００６８】
ここで、ブロックＢ１とＢ２とを作成する際に、単語が存在しないキーワード集合は、ブロックに含めない。このようにする代わりに、空のキーワード集合の情報を保存する変数Ｈに文の番号を追加する。たとえば、図８において、２番目の文に対するキーワード集合は空であるので、変数Ｈに２番目の文の番号を代入し、Ｈ＝｛２｝になる。
【００６９】
２つのブロックＢ１とＢ２とを作成した後に、各ブロックについて、キーワード集合に含まれている単語ｔの頻度ｗ_ｔを計算する。そして、２つのブロックに含まれている全ての単語の頻度を求めた後に、ｉ番目の文とｉ＋１番目の文との連結度（類似している度合）Ｃ_ｉ^ｂを、単語ｔの頻度ｗ_ｔを用い、以下の式（１）で評価する。
【００７０】
【数１】

ｗ_ｔ^Ｂ１は、ブロックＢ１における単語ｔの出現頻度であり、ｗ_ｔ^Ｂ２は、ブロックＢ２における単語ｔの出現頻度である。また、ｆ^Ｂ１、ｆ^Ｂ２は、それぞれブロックＢ１、Ｂ２に含まれている空でないキーワード集合の個数である。ｉ番目の文とｉ＋１番目の文との連結度Ｃ_ｉ^ｂは、０以上１以下の値を取り、１に近いほど、ブロックＢ１とＢ２とに含まれている単語が同じである。つまり、連結度Ｃ_ｉ^ｂが１に近いほど、ブロックＢ１とＢ２とに含まれている単語のうちで、互いに同じ単語の割合が多い。共通単語抽出部３１は、ｉ＝｛１，２，…，Ｎ｝と変化させ、Ｃ_１^ｂ，Ｃ_２^ｂ，…，Ｃ_Ｎ^ｂを計算する。さらに、ブロックの幅ｂが
【００７１】
【数２】

であると設定し、各ブロック幅に対して、連結度Ｃ_ｉ^ｂを計算し、この計算された平均値が、ｉ番目の文と、ｉ＋１番目の文とにおける平均連結度Ｃ_ｉであるとする。
【００７２】
【数３】

＃ｂは、ブロック幅のパラメータｂの個数であり、パラメータｂに含まれている要素数である。たとえば、Ｎ＝１０である場合、式（２）に記載されているｂ_ｍａｘの条件式から、ｂ_ｍａｘ＝２である。この結果、上記「数２」に示す式から、ｂ＝｛１，２，４｝であり、パラメータｂには、３個のパラメータが設定される。したがって、＃ｂ＝３になる。
【００７３】
ここで、ブロックＢ１とＢ２とのそれぞれにおいて、ブロックに含まれている空ではないキーワード集合の個数が、ｂに満たない場合、重み（ｂ／ｆ^Ｂ）によって、頻度ｗ_ｔ^Ｂが調整される。具体的には、たとえばｉ＝１、ｂ＝２であるときに、ブロックＢ１には、空でないキーワード集合が１つしか含まれないので、単語の頻度が２倍される。
【００７４】
平均連結度Ｃ_ｉ（但し、ｉ＝｛１，２，…，Ｎ｝）を用い、Ｃ_１から順に、平均連結度が閾値Ｃ_Ｔを超えるかどうかを調べることによって、入力したテキストＴ１に記載されている内容の変化を解析する。具体的には、平均連結度Ｃ_ｉが、閾値Ｃ_Ｔ以上であれば、ｉ番目の文と、ｉ＋１番目の文との内容は同じであると判断し、変数Ｇに文の番号ｉを追加する。一方で、閾値Ｃ_Ｔ未満であれば、ｉ番目の文と、ｉ＋１番目の文とで、内容が変化したと判断する。
【００７５】
その際に、変数Ｇに保存されている文番号を、ｊ番目の意味段落に属する文であるとして、制御部６を介して、意味段落記憶部Ｍ４に格納する。また、変数Ｈに含まれている文番号の中で、ｊ番目の意味段落の範囲内に含まれるものが存在する場合には、その文の番号も、ｊ番目の意味段落として割り当て、意味段落記憶部Ｍ４に格納する。
【００７６】
そして、変数Ｇの内容を、初期化し、ｊ＝ｊ＋１としてｉ＋１番目の平均連結度から、上記処理を再び開始し、平均連結度Ｃ_Ｎの値まで調べ、意味段落の情報を、意味段落記憶部Ｍ４に格納した時点で、連結性判定部４は、比較処理を終了する。
【００７７】
ここで、意味段落の番号ｊと、変数Ｇと、変数Ｈとは、連結性判定部４を実行する際に初期化される。
【００７８】
図９は、実施例１において、意味段落記憶部Ｍ４に格納されている意味段落の一例を示す図である。
【００７９】
つまり、図９は、Ｃ_Ｔ＝０．１とし、図８に示すキーワード集合５１〜５９に、連結性判定部４が連結性を判定した結果を示す図である。図９において、符号４１が示すものは、連結性判定部４が検出した１つ目の意味段落（段落番号１の意味段落）に属する文の番号である。符号４２が示すものは、連結性判定部４が検出した２つ目の意味段落（段落番号２の意味段落）に属する文の番号である。ここで、２番目のキーワード集合は空であるが、２番目の文は１つ目の意味段落の範囲内にあるので、１つ目の意味段落に追加されている。一方、どの意味段落にも割り当てられなかった変数Ｈにある文は、それぞれの文が１つの意味段落として扱う。
【００８０】
連結性判定部４が処理を終了すると、制御部６が出力部７を呼び出し、テキストＴ１についてテキストセグメンテーションした結果を、表示部Ｄ１に表示する。具体的には、意味段落記憶部Ｍ４を参照し、意味段落記憶部Ｍ４に格納されている文番号を表示する。たとえば、符号４１と４２とが示す文番号を表示するようにしてもよく、段落番号とともに、符号４１と４２とが示す文番号を同時に表示するようにしてもよい。
【００８１】
パラメータＴ、Ｓ_Ｔ、Ｐ、Ｐ_Ｔ、Ｃ_Ｔを変化することによって、上記実施例における計算時間や精度を調整することができる。つまり、パラメータＴと、Ｓ_Ｔ、Ｐ_Ｔ、Ｐとを調整すれば、ウェブ検索で得られた関連語の抽出精度や計算時間を調整することができる。また、パラメータＣ_Ｔによって、本文における内容の変化を捉える敏感さを、調整することができる。
【００８２】
また、変数Ｈに代入されている文番号に対応する文は、意味的な内容が把握しにくい場合がある。そこで、変数Ｈに代入されている文番号を無視することによって、内容的に明確な文のみを対象とするテキストセグメンテーションを行うこともできる。
【００８３】
上記実施例において、ウェブ検索する際に、入力したテキストＴ１の作成時期との差が少ない順に、テキストを収集するので、入力したテキストＴ１の内容に関連性の高い単語を収集することができる。なお、時間的な差を考慮せずに、得られた検索結果で、参照されているＰ個のテキストＴ２を使用すれば、ある程度の精度で関連語を収集することができる。
【００８４】
また、ウェブ検索で得られたテキストＴ２の個数ＰがＰ_Ｔ未満である場合、検索語を修正し、再検索を行うので、各文に検索語と関連語との組からなるキーワード集合を割り当てることができる。
【００８５】
さらに、上記実施例によれば、ウェブ検索で得られたテキストＴ２の個数ＰがＰ_Ｔ未満である場合、再検索を行わず検索語だけを用いてキーワード集合を作成するようにしてもよい。この場合、基準となる文に対して、前後に所定の複数のキーワード集合を考慮しているので、少ない計算時間で、実用的な精度で、本文の内容を解析し、テキストセグメンテーションすることができる。
【００８６】
上記実施例によれば、テキストセグメンテーションにおいて、ウェブで検索する概念を利用するので、学習データを事前に用意する必要がない。
【００８７】
また、上記実施例は、莫大なテキストデータを扱う分野やニュース記事を配信する分野において、データベースの管理・更新を自動的に行う支援策として応用できる。
【００８８】
また、上記実施例は、解析対象となるテキストに関して、学習データを使用せずに、ウェブ検索によって、幅広い分野における関連語を収集できるので、記述内容や作成時期に制約が少ないという利点がある。
【００８９】
さらに、上記実施例は、内容的なまとまりに分割されているので、所定のキーワードを含み、内容的に関連のある文章だけを、収集する技術に利用することができる。
【００９０】
ここで、ウェブは、インターネット等のネットワークを介して、アクセスできるＨＴＭＬやＸＭＬ等の構造化言語で記述されているテキストの集合である。現在、ウェブ上には、膨大な情報が蓄積され、最新の話題も常に提供されている。つまり、ウェブは、様々な情報を持つ辞書として捉えることができる。実際、我々は、ある事に関して調べる際、検索サイトで検索語を入力し、ウェブ上で検索し、単語の意味や物事の内容を調べている。この観点から、学習データを使用しなくても、ウェブ上にある情報を適切に利用すれば、「サッカー」や「野球」に対応する概念は、「スポーツ」や「ボール」であることを取得できると言える。
【００９１】
この結果、ウェブ上に存在している様々な情報から、着目しているテキストの記述内容に応じた単語を取得することができ、文同士の関連性を幅広く比較し、文の内容を追跡し、内容的なまとまり（上記実施例では、「意味段落」と呼ぶ）で分割することができる。したがって、事前に学習データを用意する必要がなく、様々な分野に対応するテキストセグメンテーションを実現することができる。
【００９２】
つまり、上記実施例は、入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定部を有する。
【００９３】
この場合、入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストセグメンテーション装置である。
【００９４】
検索語がＳ個である場合、Ｓ−１個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集する。
【００９５】
また、上記テキストセグメンテーション装置は、検索不要語リストと、上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外する手段とを有する。
【００９６】
さらに、入力したテキストに関してウェブ検索し、このウェブ検索の結果に応じて、上記入力したテキストを分割するテキストセグメンテーション方法であって、上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と、上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と、上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、連結性判定部が、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定工程とを有するテキストセグメンテーション方法である。
【００９７】
入力したテキストの作成時期との差が少ない順に、テキストを収集する。
【００９８】
しかも、検索語がＳ個である場合、Ｓ−１個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集する。
【００９９】
そして、検索不要語リストと、上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外する。
【０１００】
また、上記実施例は、請求項５〜請求項７記載のいずれか１つの方法をコンピュータに実行させるプログラムである。
【０１０１】
さらに、上記実施例は、請求項８記載のプログラムを記録したコンピュータ読取可能な記録媒体である。
【図面の簡単な説明】
【０１０２】
【図１】本発明の実施例１であるテキストセグメンテーション装置１００を示すブロック図である。
【図２】テキストセグメンテーション装置１００における処理手順の概要を示す図である。
【図３】本発明の実施例１において、入力したテキストＴ１の一例を示す図である。
【図４】実施例１における分解文章記憶部Ｍ１に格納されている文の一例を示す図である。
【図５】実施例１における不要語リストＬ１の一例を示す図である。
【図６】実施例１において、検索語記憶部Ｍ２に格納されている検索語の一例を示す図である。
【図７】実施例１において、関連語記憶部Ｍ３に格納されている関連語の一例を示す図である。
【図８】実施例１において、連結性判定部４が作成したキーワード集合の一例を示す図である。
【図９】実施例１において、意味段落記憶部Ｍ４に格納されている意味段落の一例を示す図である。
【符号の説明】
【０１０３】
１００…テキストセグメンテーション装置、
１…テキスト分解部、
２…検索語抽出部、
３…関連語取得部、
４…連結性判定部、
Ｍ１…分解文章記憶部、
Ｍ２…検索語記憶部、
Ｍ３…関連語記憶部、
Ｍ４…意味段落記憶部、
５…入力部、
６…制御部、
７…出力部、
ＮＷ１…ネットワーク、
Ｗ１…ウェブ、
Ｔ１…入力部から入力されるテキスト、
Ｔ２…ウェブ検索して得たテキスト、
Ｌ１…不要語リスト、
Ｔ…予め与えられている数、
Ｓ…検索語の数。

【特許請求の範囲】
【請求項１】
入力したテキストを、文単位に分解するテキスト分解部と；
上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と；
上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と；
上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士であるブロックを抽出することによって、上記入力したテキストを分割する連結性判定部と；
を有することを特徴とするテキストセグメンテーション装置。
【請求項２】
請求項１において、
入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストセグメンテーション装置。
【請求項３】
請求項１において、
検索語がＳ個である場合、Ｓ−１個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストセグメンテーション装置。
【請求項４】
請求項１において、
検索不要語リストと；
上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストセグメンテーション装置。
【請求項５】
入力したテキストに関してウェブ検索し、このウェブ検索の結果に応じて、上記入力したテキストを分割するテキストセグメンテーション方法であって、
上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と；
上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と；
上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と；
上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、連結性判定部が、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士であるブロックを抽出することによって、上記入力したテキストを分割する連結性判定工程と；
を有することを特徴とするテキストセグメンテーション方法。
【請求項６】
請求項５において、
入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストセグメンテーション方法。
【請求項７】
請求項５において、
検索語がＳ個である場合、Ｓ−１個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストセグメンテーション方法。
【請求項８】
請求項５において、
検索不要語リストと；
上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストセグメンテーション方法。
【請求項９】
請求項５〜請求項７記載のいずれか１つの方法をコンピュータに実行させるプログラム。
【請求項１０】
請求項８記載のプログラムを記録したコンピュータ読取可能な記録媒体。

【図１】