テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

【課題】学習データを必要とせずにテキストセグメンテーションが可能なＷｅｂ検索を利用したテキストセグメンテーションを実現する。
【解決手段】本発明は、入力されたテキストを文単位に分割し、分割された文を形態素解析し、形態素解析された助詞を除く全ての単語を検索語として抽出し、活用形のある単語を終止形に変換し、検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、助詞を除く全ての単語を関連語として抽出し、活用形のある単語を終止形に変換し、検索語と関連語記憶手段に格納されている関連語との組み合わせであるキーワード集合を用いて、文同士の連結性に基づいて意味段落を求め、分割候補を作成し、分割候補を評価して一つの分割結果を選択して出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、テキストを計算機上で利用する分野において、テキストに記述されている複数の内容に応じてテキストを自動的に分割するテキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
【背景技術】
【０００２】
近年急速な計算機の性能向上に伴い莫大なテキスト（ここでは、文字列だけで構成される文の集合）を蓄積し、データベースを構築することが可能になった。しかし、保存されたテキストを人手で整理・管理することは一般的に困難となってきている。そこで、蓄積されたテキストデータベースを解析し、テキストを意味的な内容（意味段落と呼ぶ）に応じて分割するテキストセグメンテーションと呼ばれる技術が開発されており、テキストデータベースの分類や整理を計算機で自動的に行うことに応用されつつある。例えば、概念ベースを呼ばれる情報を用いてテキストセグメンテーションを行う技術がある。この技術では、ある単語とそれに共起するパターンを数値ベクトル化した概念ベクトルを予め蓄積した学習データから複数作成する。そして、概念ベクトルの集まりである概念ベースを利用してテキストセグメンテーションを行う。学習データは複数の分野に関する（例えば、「政治」「経済」「科学」の分野だけに関する）テキストが数多く蓄積されている（例えば、特許文献１参照）。
また、従来のテキストセグメンテーションでは、複数の文間に対する連結度に基づいて文間の意味的連続性を評価する方法が主である（例えば、非特許文献１参照）。この例として、連結度を算出する際に考慮する文の個数が少ない場合には、局所的な意味内容の変化に追従し易い代わりに、過剰に意味段落を推定する可能性が増える。一方で、考慮する文の個数が多い場合には、大域的な意味内容の変化を捉えることができる代わりに、緩やかに意味内容が変化するテキストに対して対処することが難しい
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特許第３７７５２３９号公報
【非特許文献】
【０００４】
【非特許文献１】Hearst. M. A., : Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp. 9-16 (1994)
【発明の概要】
【発明が解決しようとする課題】
【０００５】
従来のテキストセグメンテーション手法の精度を高めるためには、大規模な学習データを用意しなくてはならない。そのため、学習データが小規模な場合には概念ベースを適切に作成できず、テキストセグメンテーションの精度が低下する問題がある。また、事前に用意した学習データに含まれている分野に対応できる反面、異なる分野のテキストに対してテキストセグメンテーションを行うことができない。例えば、学習データに「政治」や「経済」に関する情報だけが蓄積されている場合、「スポーツ」の分野のテキストに対してテキストセグメンテーションは困難となる。
本発明は、上記の点に鑑みなされたもので、学習データを必要とせずに、テキストセグメンテーション可能なテキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【０００６】
図１は、本発明の原理構成図である。
【０００７】
本発明（請求項１）は、テキストを内容に応じて分割するテキストセグメンテーション装置であって、
入力されたテキストを文単位に分割し、分割文章記憶手段２０２に格納するテキスト分解手段２０１と、
テキスト分解手段２０１により分割された文を形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段２１２に格納する検索語抽出手段２１１と、
検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を抽出し、関連語記憶手段２２２に格納する関連語取得手段２２１と、
検索語記憶手段２１２に格納されている検索語と関連語記憶手段２２２に格納されている関連語との組み合わせであるキーワード集合を用いて、分割文章記憶手段２０２に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段２４２に格納する分割候補生成手段２３１と、
分割候補記憶手段２４２に格納されている分割候補を評価して一つの分割結果を選択して出力する分割結果評価手段２４１と、を有し、
分割結果評価手段２４１において、
分割候補記憶手段２４２に格納されている分割候補の意味段落に含まれる文の範囲内において、キーワード集合を参照して、各キーワードの出現頻度を求め、該出現頻度に基づいて、該分割候補記憶手段に格納されている全ての分割候補を評価して評価値を求め、該評価値が最小となる分割候補を選択する手段を含む。
【０００８】
また、本発明（請求項２）は、分割結果評価手段２４１において、
評価値を求める際に、入力されたテキストを細かく分割する程小さい値をとる第１の指標と、意味段落間で内容が異なる程小さい値をとる第２の指標を求め、該第１の指標と該第２の指標の和を評価値とする。
また、本発明（請求項３）は、分割候補生成手段２３１において、
キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される意味段落を求める意味段落生成手段を有し、
意味段落生成手段は、
キーワード集合を纏めたブロックＢ１，Ｂ２を作成し、ｉ番目とｉ＋１番目の２つの文の連結度Ｃ_ｉ^ｂを、単語ｔの出現頻度を用いて、
【０００９】
【数９】

（但し、ｗ_ｔ^B1はブロックＢ１にある単語ｔの頻度、ｗ_ｔ^B2はブロックＢ２にある単語ｔの頻度を表す。Ｃ_ｉ^ｂは０以上１以下の値を取り、１に近いほどブロックＢ１とブロックＢ２に含まれている単語が同じであることを表す）
により求める手段と、
ｉ＝｛１，２，…，Ｎ｝と変化させ、
【００１０】
【数１０】

を計算し、ブロックの大きさｂのパラメータをｂ＝（ｂ_１，ｂ_２，…，ｂ_Ｍ）とＭ個設定して各ブロック幅に対して連結度Ｃ_ｉ^ｂを計算し、それらの平均値をｉ番目とｉ＋１番目の文における平均連結度Ｃ_ｉを、
【００１１】
【数１１】

により求める手段と、
平均連結度Ｃ_ｉ（但し、ｉ＝（１，２，…，Ｎ））を用いて意味段落の境界である平均連結度の谷を、条件
【００１２】
【数１２】

に基づいて抽出し、該谷に基づいて意味段落を取得する手段と、を含む。
【００１３】
【００１４】
【００１５】
図２は、本発明の原理を説明するための図である。
【００１６】
本発明（請求項４）は、テキストを内容に応じて分割するテキストセグメンテーション方法であって、
テキスト分解手段が、入力されたテキストを文単位に分割し、分割文章記憶手段に格納するテキスト分解ステップ（ステップ１）と、
検索語抽出手段が、テキスト分解ステップ（ステップ１）で分割された文を形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出ステップ（ステップ２）と、
関連語取得手段は、検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を抽出し、関連語記憶手段に格納する関連語取得ステップ（ステップ３）と、
分割候補生成手段が、検索語記憶手段に格納されている検索語と関連語記憶手段に格納されている関連語との組み合わせであるキーワード集合を用いて、分割文章記憶手段に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段に格納する分割候補生成ステップ（ステップ４）と、
分割結果評価手段が、分割候補記憶手段に格納されている分割候補を評価して一つの分割結果を選択して出力する分割結果評価ステップ（ステップ５）と、を行い、
分割結果評価ステップ（ステップ５）において、
分割候補記憶手段に格納されている分割候補の意味段落に含まれる文の範囲内において、キーワード集合を参照して、各キーワードの出現頻度を求め、該出現頻度に基づいて、該分割候補記憶手段に格納されている全ての分割候補を評価して評価値を求め、該評価値が最小となる分割候補を選択する。
【００１７】
また、本発明（請求項５）は、分割結果評価ステップ（ステップ５）において、
評価値を求める際に、入力されたテキストを細かく分割する程小さい値をとる第１の指標と、意味段落間で内容が異なる程小さい値をとる第２の指標を求め、該第１の指標と該第２の指標の和を評価値とする。
また、本発明（請求項６）は、分割候補生成ステップ（ステップ４）において、
キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される意味段落を求める意味段落生成ステップを行い、
意味段落生成ステップは、
キーワード集合を纏めたブロックＢ１，Ｂ２を作成し、ｉ番目とｉ＋１番目の２つの文の連結度Ｃ_ｉ^ｂを、単語ｔの出現頻度を用いて、
【００１８】
【数１３】

（但し、ｗ_ｔ^B1はブロックＢ１にある単語ｔの頻度、ｗ_ｔ^B2はブロックＢ２にある単語ｔの頻度を表す。Ｃ_ｉ^ｂは０以上１以下の値を取り、１に近いほどブロックＢ１とブロックＢ２に含まれている単語が同じであることを表す）
により求めるステップと、
ｉ＝｛１，２，…，Ｎ｝と変化させ、
【００１９】
【数１４】

を計算し、ブロックの大きさｂのパラメータをｂ＝（ｂ_１，ｂ_２，…，ｂ_Ｍ）とＭ個設定して各ブロック幅に対して連結度Ｃ_ｉ^ｂを計算し、それらの平均値をｉ番目とｉ＋１番目の文における平均連結度Ｃ_ｉを、
【００２０】
【数１５】

により求めるステップと、
平均連結度Ｃ_ｉ（但し、ｉ＝（１，２，…，Ｎ））を用いて意味段落の境界である平均連結度の谷を、条件
【００２１】
【数１６】

に基づいて抽出し、該谷に基づいて意味段落を取得するステップと、を行う。
【００２２】
【００２３】
【００２４】
本発明（請求項７）は、請求項１乃至３のいずれか１項に記載のテキストセグメンテーション装置を構成する各手段としてコンピュータを機能させるためのテキストセグメンテーションプログラムである。
【００２５】
本発明（請求項８）は、請求項７記載のテキストセグメンテーションプログラムを格納したコンピュータ読取可能な記録媒体である。
【発明の効果】
【００２６】
本発明は、学習データを必要とせずにテキストセグメンテーションを行うために、検索語を用いてウェブ上での検索を利用することで、文の内容に関する複数の単語を取得できる点着目している。現在、ウェブ上には膨大な情報が蓄積されており、最新の話題も常に提供されている。つまり、ウェブは様々な情報を持つ記事の集合として捉えることができる。実際、我々はあることに関して調べる際、検索サイトで検索語を入力してウェブ上で検索を行い、単語の意味や物事の内容を調べている。その観点から、学習データを使用しなくともウェブ上にある情報を適切に利用すれば、「サッカー」や「野球」に対応するのは「スポーツ」や「ボール」という概念を取得できると言える。つまり、ウェブ上にある様々な情報を基にテキストの内容に応じた単語を取得し、文同士の関連性を単語の変化によって追跡することで意味段落を分割することができる。その結果、テキストの内容を学習データを使用しなくとも把握することが可能となる。
【図面の簡単な説明】
【００２７】
【図１】本発明の原理構成図である。
【図２】本発明の原理を説明するための図である。
【図３】本発明の一実施の形態におけるウェブ検索を利用したテキストセグメンテーション装置の構成図である。
【図４】本発明の一実施の形態における概要動作のフローチャートである。
【図５】本発明の一実施の形態におけるテキストの例である。
【図６】本発明の一実施の形態における分解文章記憶部に格納された文の例である。
【図７】本発明の一実施の形態における一般語リストに登録されている一般語の例である。
【図８】本発明の一実施の形態における検索語記憶部に格納された検索語の例である。
【図９】本発明の一実施の形態における関連語抽出部の処理手順のフローチャートである。
【図１０】本発明の一実施の形態における関連語記憶部に格納された関連語の例である。
【図１１】本発明の一実施の形態におけるキーワード集合記憶部に格納されたキーワード集合の例である。
【図１２】本発明の一実施の形態における分割候補生成部の処理手順のフローチャートである。
【図１３】本発明の一実施の形態における平均連結度の算出例である。
【図１４】本発明の一実施の形態における分割候補記憶部に格納された分割候補の例である。
【図１５】本発明の一実施の形態における分割結果評価部の処理手順のフローチャートである。
【発明を実施するための形態】
【００２８】
以下、図面と共に本発明の実施の形態を説明する。
図３は、本発明の一実施の形態におけるセグメンテーション装置の構成を示す。当該セグメンテーション装置は、コンピュータ２６０で実現されるものである。
【００２９】
セグメンテーション装置は、当該装置を制御する制御部２５０、テキスト２６４を入力する入力部２５１、テキストを文単位に分割するテキスト分解部２０１、分解文章記憶部２０２、検索語を抽出する検索語抽出部２１１、検索語記憶部２１２、関連語を取得する関連語取得部２２１、関連語記憶部２２２、検索語と関連語とを組み合わせたキーワード集合を用いて意味段落を抽出し、分割候補を生成する分割候補生成部２３１、キーワード集合記憶部２３２、分割候補を評価し、ひとつの分割結果を選択する分割結果評価部２４１、分割候補記憶部２４２、抽出した意味段落をテキストの分割結果として出力する出力部２５２から構成される。
【００３０】
上記の構成を有するセグメンテーション装置（コンピュータ２６０）には、ネットワーク２６１が接続されており、ウェブ２６２にアクセスできる。ウェブ２６２には複数のＨＴＭＬやＸＭＬ等の構造化言語で記述された記事２６３が蓄積されている。テキスト２６４はコンピュータ２６０の入力部２５１に入力されるテキストである。表示部２６５は、制御部２５０からの出力部２５２を通じて出力された結果を表示するための装置である。
【００３１】
上記の構成において、分解文章記憶部２０２、検索語記憶部２１２、関連語記憶部２２２、キーワード集合記憶部２３２、分割候補記憶部２４２、一般語リスト記憶部５０１は、ハードディスク等の記憶媒体である。分割文章記憶部２０２は、テキスト分解処理部２０１で文単位に分解された文を格納する。検索語記憶部２１２は、検索語抽出部２１１で抽出された検索語を格納する。関連語記憶部２２２は、関連語取得部２２１で得られた関連語を格納する。キーワード集合記憶部２３２は、分割候補生成部２３１で作成されたキーワード集合を格納する。分割候補記憶部２４２は、分割結果評価部２４１で抽出された分割候補を格納する。一般語リスト記憶部５０１は、検索語抽出部２１１から参照される一般語の集合を格納する。
【００３２】
次に、上記の構成における動作の概要を説明する。
【００３３】
図４は、本発明の一実施の形態における概要動作のフローチャートである。
【００３４】
入力部２５１によりテキスト２６４が入力されると（ステップ１１０）、テキスト分割部２０１において入力されたテキストを文単位に分割し、分解文章記憶部２０２に格納する（ステップ１２０）。検索語抽出部２１１において、分解文章記憶部２０２の各文に対して検索語となる単語を抽出し、検索語記憶部２１２に格納する（ステップ１３０）。次に、関連語取得部２２１は、検索語記憶部２１２に格納されている検索語を利用してウェブ２６２上を検索し、取得した検索結果を関連語として関連語記憶部２２２に格納する（ステップ１４０）。分割候補生成部２３１は、検索語記憶部２１２に格納されている検索語と、関連語記憶部２２２に格納されている関連語からキーワード集合を作成し、キーワード集合記憶部２３２に格納すると共に、当該キーワード集合を用いて分割候補を生成し、分割候補記憶部２４２に格納する（ステップ１５０）。分割結果評価部２４１において、分割候補記憶部２４２から分割候補を取得し、当該分割候補の中から評価関数の値が最小となる結果を選択する（ステップ１６０）。出力部２５２は、選択された結果をテキストセグメンテーション結果として出力する（ステップ１７０）。
【００３５】
以下に、上記の図４に示す各ステップの動作を具体的に説明する。なお、上記の図３の構成において制御部２５０が含まれるが、以下の説明では各処理を行う構成要素のそれぞれが制御部２５０の制御により起動・制御されるものとする。
【００３６】
ステップ１１０）テキスト入力処理：
まず、入力部２５１から図５に示すテキスト２６４が入力される。
【００３７】
ステップ１２０）テキスト分解処理：
テキスト分解部２０１は、入力されたテキストを一文字ずつ読み込み、図６に示すような文単位にＮ個に分割して分解文章記憶部２０２に格納する。ここで、文とは、句点「。」で区切られる一文をさす。テキスト２６４の一例として図３で示すようなテキスト２６４に対して、当該テキスト分解部２０１を実行すると、文単位に分解された９つの文４０１〜４０９が生成され分解文章記憶部２０２に格納される。テキスト分解部２０１において生成される文の個数は入力されるテキストによって異なる。また、句点「。」の入力ミスがあった場合は、複数の文が１つの文として扱われる。
【００３８】
ステップ１３０）検索語抽出処理：
検索語抽出部２１１において、検索語を抽出する。検索語とは、ウェブ上でＡＮＤ検索（全ての単語が含まれる結果を求める検索）を行う際に入力する、一つまたは複数の単語をさす。はじめに、抽出検索語抽出部２１では、分解文章記憶部２０２に格納されている文章を読み出して、各文章について形態素解析を行う。そして、形態素解析により助詞を除く全ての単語を取り出す。そして活用形のある単語は原形に変換して抽出し、それ以外の単語は変換を行うことなく検索語として抽出する。
【００３９】
ここで、抽出された単語には「年」、「ある」、「ここ」のような一般的に使用される単語（一般語と呼ばれる）も含まれる。一般語は検索語として利用しても有益ではないため、図７に示すような一般語リストを予め作成し、一般語リスト記憶部５０１に登録しておき、一般語リストに登録されていない単語を検索語として扱い、検索語記憶部２１２に格納する。なお、検索語記憶部２１２に格納される検索語は一般語リストによって変化する。
【００４０】
また、ウェブ検索を行う際に適切な個数の単語を使用することが望ましい。そこで、抽出された単語の個数が閾値Ｓ_Ｔ未満の場合には、検索語抽出部２１１では検索語は抽出せず、検索語記憶部２１２には何も格納しない。逆に、抽出単語の個数Ｓが閾値Ｔ以上の場合には、Ｓ個の検索語からＴ個の検索語をランダムに選択し、検索語記憶部２１２に格納する。Ｔ＝３０，Ｓ_Ｔ＝１の場合において、図６の文４０１〜文４０９に対して検索語抽出部２１１を実行すると、図８の検索語６０１〜６０９が検索語記憶部２１２に格納される。
【００４１】
ステップ１４０）関連語抽出処理：
図９は、本発明の一実施の形態における関連語抽出部の処理手順のフローチャートである。
【００４２】
文４０１〜４０９に対応する検索語６０１〜６０９が作成された後、関連語取得部２１１では、はじめに、検索語抽出部２１１で抽出された検索語を検索語記憶部２１２から読み出す。次に、入力された検索語を用いてネットワーク２６１を介してウェブ２６２上でＡＮＤ検索を行う（ステップ１４１）。ＡＮＤ検索を行うことで検索語の入力する順序に影響せず、検索語を全て含む記事２６３をウェブ２６２で検索することができる。一般的に、ウェブ検索を行うと、入力された検索語に応じて関連性の高い記事から順に検索結果が得られる。そこで、検索結果で参照されているウェブ２６２の中から検索結果上位に含まれるＰ個の記事２６３を取得する。ここで、検索語記憶部２１２に該当する検索語が存在しない場合には、関連語取得部２２１ではウェブ検索を行わず、関連語記憶部２２２に対して何も格納しない。また、検索語の個数Ｓが閾値Ｔに対してＳ＝Ｔである場合にも、ウェブ検索を行わず関連語記憶部２２２には何も格納しない。
【００４３】
次に、関連語取得部２１１では、時間順に収集されたＰ個の記事２６３からテキストを抽出する（ステップ１４３）。記事２６３はＨＴＭＬやＸＭＬ等の構造化言語で記述されている。よって、得られた記事２６３に対して"＜"と"＞"で囲まれた文字列から構成されるタグを解析することでテキストが得られる。そして、抽出されたテキストに対して関連語取得部２２１は、形態素解析を行い、助詞を除くすべての単語を抽出する（ステップ１４４）。その際、検索語抽出部２１１と同様に、活用形のある単語は全て終止形に変換した単語を抽出し、それ以外の単語はそのままの形で単語を抽出する。
【００４４】
得られる関連語の個数はウェブ検索を行う際の検索語やウェブ検索により収集される記事２６３によって変化する。また、抽出した単語を直接関連語として使用すると一般語が関連語として扱われる場合がある。そこで、関連語取得部２２１では、検索語抽出部２１１と同様に、一般語リスト記憶部５０１を参照して一般語を除いた単語を使用する。具体的には、検索語がＳ個であるとき、Ｐ個のテキストから抽出し一般語リスト記憶部５０１に登録されている一般語を除いた単語に対し単語の出現頻度を算出する。そして、単語出現頻度の高い順にＴ−Ｓ個の単語を関連語として取得し、関連語記憶部２２２に格納する（ステップ１４５）。これにより、各文において抽出される検索語と関連語の合計個数は予め与えられた値Ｔと一定になるようにする。
【００４５】
更に、適切な関連語を得るためには、ウェブ検索により得られる記事２６３の個数はできるだけ多い方がよい。そこで、ウェブ検索により得られるテキスト２６３の個数ＰがＰ_Ｔ未満の場合には（ステップ１４２、Ｎｏ）、検索語を修正し、再びウェブ上でＡＮＤ検索により記事２６３を収集する（ステップ１４６）。具体的には、Ｓ個の検索語からｉ番目（ｉ＝１，２，…，Ｓ）の単語を除いたＳ−１個の単語を検索語としてウェブ検索を行い検索される件数を調べる。例えば「ゴルフ」「ショット」「ドライブ」の検索語（Ｓ＝３）に対して、「ゴルフ」「ショット」「ショット」「ドライブ」「ゴルフ」「ドライブ」という３パターンの検索語を作成し、検索件数を調べる。そして、検索される件数が最大となるＳ−１個の単語を検索語として選択し、検索語記憶部２１２に上書きする（ステップ１４７）。更に、Ｓ＝Ｓ−１として検索語の個数を更新し（ステップ１４８）、再びウェブ検索を行いＰ個の記事を収集する。例えば、検索件数が「ゴルフ」「ショット」の場合で１０００件、「ショット」「ドライブ」が５００件、「ゴルフ」「ドライブ」が２００件の場合、「ゴルフ」「ショット」を検索語記憶部２１２に上書きし、Ｓ＝２と更新する。そして、「ゴルフ」「ショット」の検索語でウェブ検索を行い、Ｐ個の記事２６３を取得する。これらの処理を記事２６３の個数≧Ｐ_Ｔを満たすまで繰り返し行う。条件Ｐ≧Ｐ_Ｔを満たす場合、得られたＰ個の記事２６３から関連語を抽出する。一方で、検索語を繰り返して修正しても収集される記事２６３の個数がＰ_Ｔ以上とならない場合には、検索語記憶部２５０に格納されている当該検索語を削除し、更に、関連語記憶部２２２に対して関連語として何も格納しない。一例として、図８の検索語６０１〜６０９に対して、Ｔ＝３０，Ｐ_Ｔ＝２０のとき、関連語取得部２２１を実行し、得られた関連語を図１０の関連語８０１〜８０９に示す。
【００４６】
ステップ１５０）分割候補生成処理：
分解文章記憶部２０２に格納されている全ての文に対して関連語取得部２２１の処理が終了すると、分割候補生成部２３１において、検索語記憶部２１２と関連語記憶部２２２に格納されている検索語と関連語をそれぞれ読み出し、それらを連結してキーワード集合を生成する。図８の検索語の例と図１０の関連語の例から作成したキーワード集合の例を図１１に示す。例えば、キーワード集合１００１は、検索語６０１と関連語８０１を連結して作成されたものである。作成されたキーワード集合は、キーワード集合記憶部２３２に格納される。ここで、分割候補生成部２３１では、検索語がない文に対してはそれに対応する関連語も存在しないため、キーワード集合を作成しない。
【００４７】
キーワード集合は、テキストの内容を反映する単語であることから、キーワード集合に含まれる単語の変化を調べることでテキスト２６４における内容の変化を捉えることができる。そこで、分割候補生成部２３１では、生成されたキーワード集合を前後の複数文で比較し、内容的にまとまっている一文または複数の文から構成される意味段落を求める。比較の方法は、テキストは先頭から順に書かれることが一般的であるため、テキストの先頭から順に、複数のキーワード集合をまとめたブロックを作成し、比較を行う。
【００４８】
図１２は、本発明の一実施の形態における分割候補生成部の処理手順のフローチャートである。
【００４９】
具体的には、ｂをブロックの大きさとすると、ｉ＋１−ｂ番目からｉ番目までのキーワード集合が含まれるブロックＢ１と、ｉ＋１番目からｉ＋ｂ番目までのキーワード集合が含まれるブロックＢ２を決定し、二つのブロックＢ１とＢ２内に含まれるキーワード集合内の単語を比較する（但し、ｉ＝１，２，…，Ｎ）。単語が存在しないキーワード集合は、ブロックＢ１とブロックＢ２を作成する際には含めず、ブロックＢ１においては該当する文よりも前の文で空でないキーワード集合を、ブロックＢ２においては該当する文の後の文で空でないキーワード集合を代わりにブロックに含める。例えば、ｊ番目に対するキーワード集合が空の場合、ブロックＢ１作成時にはｊ−１、ｊ−２、…，１番目の順に空でないキーワード集合を発見し、ブロックＢ１に含める。一方、ブロックＢ２作成時にはｊ＋１，ｊ＋２，…の順に空で内キーワード集合を発見し、ブロックＢ２に含める。ブロック内に含めることができるキーワード集合が存在しない場合には、空のブロックを作成する。ブロックＢ１とブロックＢ２を作成後、それぞれのブロックに含まれる単語ｔの頻度ｗ_ｔを計算する。そして、ｉ番目とｉ＋１番目の二つの文の連結度を単語ｔの頻度ｗ_ｔを用いて以下の式で評価する。
【００５０】
【数１７】

ｗ_ｔ^B1はブロックＢ１にある単語ｔの頻度、ｗ_ｔ^B2はブロックＢ２にある単語ｔの頻度を表す
。
【００５１】
Ｃ_ｉ^ｂは０以上１以下の値をとり、１に近いほどブロックＢ１とブロックＢ２に含まれている単語が同じであることを表す。ここで、ブロックＢ１、またはブロックＢ２に含まれている単語が同じであることを表す。ここで、ブロックＢ１またはブロックＢ２内に単語が一切含まれない場合、連結度Ｃ_ｉ^ｂの値は０と算出される。分割候補生成部２３１では、ｉ＝（１，２，…，Ｎ）と変化させ、
【００５２】
【数１８】

を計算する。更に、ブロックの大きさｂのパラメータをｂ＝（ｂ_１，ｂ_２，…，ｂ_Ｍ）とＭ個設定して各ブロック幅に対して連結度Ｃ_ｉ^ｂを計算する（ステップ１５１）。
【００５３】
次に、それらの平均値をｉ番目とｉ＋１番目の文における平均連結度Ｃ_ｉを以下の式により計算する（ステップ１５２）。
【００５４】
【数１９】

次に、分割候補生成部２３１では、平均連結度Ｃ_ｊ（但し、ｊ＝（１，２，…，Ｎ））を用いて平均連結度の谷、つまり、意味段落の境界を抽出し、分割する箇所の検出を行う（ステップ１５２）。平均連結度の谷は以下の条件を満たす平均連結度の極小値のことを表す。
【００５５】
【数２０】

そして、分割候補生成部２３１では平均連結度の谷が検出されたときのＣ_ｊの値を小さい順に並び替え、それぞれに対応する文の番号ｄ_１，ｄ_２，…，ｄ_Ｋを求め、これらをテキスト２６４の分割箇所とする（ステップ１５３）。小さい順に並び替えたときの文の番号を用いることで、意味段落の境界が明瞭な順に分割を行うことができる。例えば、図５のテキスト３０１を用いて分割候補生成部２３１の処理を行うと、図１３に示す平均連結度１１０１が得られる（同図では、平均連結度の谷となる箇所に下線を付与してある）。平均連結度１１０１から、ｉ＝３とｉ＝６において、Ｃ_３＝０．１７４２１２，Ｃ_６＝０．２６９４５２となり、二つの平均連結度の谷が検出される。Ｃ_３とＣ_６を小さい順に並び替えそれぞれに対応する文の番号を調べると、ｄ_１＝３、ｄ_２＝６となり、Ｋ＝２となる。
【００５６】
最後に、抽出されたＫ個の分割箇所に対し、分割候補生成部２３１はｊ個（ｊ＝１，２，…，Ｋ）の分割箇所ｄ_１，ｄ_２，…，ｄ_ｊを用いてテキスト２６４をｄ_ｍとｄ_ｍ＋１番目（ｍ＝（１，２，…，ｊ）の文の間で分割し、ｊ番目の分割候補として、図１４に示すように、分割候補記憶部２４２に格納する（ステップ１５４）。つまり、意味段落の境界が明瞭な順に分割箇所を一つずつ増やしテキストを分割する。図５のテキスト３０１の例では、ｄ_１＝３、ｄ_２＝６となるので、２つの分割候補（Ｋ＝２）が得られる。ｊ＝１のときはｄ_１＝３のみを分割箇所として使用する。その結果、３番目と４番目の文の間で分割し、図１４の意味段落１２０１と意味段落１２０２の二つの意味段落が生成されるような分割候補が分割候補記憶部２４２に格納する。ｊ＝２のときは分割箇所としてｄ_１＝３、ｄ_２＝６が使用されるため、３番目と４番目、そして、６番目と７番目の文の間で分割する。つまり、意味段落１２０３と意味段落１２０４、意味段落１２０５の３つの意味段落が生成されるような分割候補が分割候補記憶部２４２に格納される。
【００５７】
ステップ１６０）分割結果評価処理：
分割候補生成部２３１にてＫ個の分割候補が作成されると、分割結果評価部２４１では、分割候補記憶部２４２に格納されている分割候補とキーワード集合記憶部２３２に格納されているキーワード集合を参照する。そして、分割候補記憶部２４２に格納されているＫ個の分割結果のうち、一つの結果を選択する処理を行う。
【００５８】
図１５は、本発明の一実施の形態における分割結果評価部の処理手順のフローチャートである。
【００５９】
分割結果評価部２４１では、はじめにキーワード集合記憶部２３２に格納されているキーワード集合を読出し、単語ｔの出現頻度ｗ_ｔ^allを計算する（ステップ１６１）。例えば、図１１のキーワード集合１００１からキーワード集合１００９を用いて「ゴルフ」と「おいしい」の出現頻度を求めると、
【００６０】
【数２１】

となる。
【００６１】
次に、分割候補記憶部２４２からｉ番目（ｉ＝１，２，…，Ｋ）の分割候補を読出し、ｊ番目（ｊ＝１，２，…，ｉ＋１）の意味段落に含まれる文の範囲内でキーワード集合記憶部２３２に格納されているキーワード集合を参照し、単語ｔの出現頻度ｗ_ｔ^ｊを計算する。例えば、図１４の分割候補記憶部２４２において、ｉ＝１のとき、意味段落１２０１と意味段落１２０２を参照するため、ｊ＝１，２となる。そして、ｊ＝１のとき、意味段落１２０１に含まれる文は１，２，３となるため、キーワード集合記憶部２３２に格納されているキーワード集合のうち、キーワード集合１００１からキーワード集合１００３までを参照し、単語ｔの出現頻度を求める。このとき単語「ゴルフ」と「おいしい」の出現頻度はそれぞれ
【００６２】
【数２２】

となる。ｊ＝２のとき、意味段落１２０２の意味段落に含まれる文は４，５，６，７，８，９となるため、キーワード集合１００４からキーワード集合１００９までを参照し単語ｔの出現頻度を求める。このとき、単語「ゴルフ」と「おいしい」は
【００６３】
【数２３】

となる。
【００６４】
ｉ番目（ｉ＝１，２，…，Ｋ）の分割候補に含まれるそれぞれの意味段落に対応する単語ｔの出現頻度を計算した後、分割結果評価部２４１では求めた出現頻度ｗ_ｔ^allとｗ_ｔ^ｊ（ｊ＝１，２，…，ｉ＋１）を用いて次の評価関数Ｑ_ｉの値を計算する。
【００６５】
【数２４】

ここで、Ｑ_ｉ^１は、０以上１以下の値をとる分割の細かさを図る指標であり、テキスト２６４を細かく分割する程小さい値をとる。Ｑ_ｉ^１２は、０以上１以下の値をとる意味段落間の内容の異なり度合いを測る指標であり、ｊ番目とｊ＋１番目の意味段落間で内容が異なる程小さい値をとる。この２つの指標の和であるＱ_ｉを最小にする分割を求めることで、内容毎に細かく分割する結果を求めることができる。図１４の分割候補の例でｉ＝１のときの計算例を説明する。ｉ＝１のとき分割候補記憶部２４２に格納されている意味段落は二つあるため、Ｑ_１^１は、キーワード集合全体と一つ名の意味段落のキーワード集合、そして、キーワード集合全体と二つ目の意味段落のキーワード集合との比較により計算され、評価値は、Ｑ_１^１＝0.801624となる。
【００６６】
次に、Ｑ_１^２は、一つ目の意味段落のキーワード集合と二つ目の意味段落のキーワード集合との比較により計算され、評価値は、Ｑ_１^２＝0.316735となる。そして、二つ目の指標の和を求めるとＱ_１=1.118359と計算される（ステップ１６２）。計算が終了すればｉ＝ｉ＋１として（ステップ１６３）、分割候補記憶部２４２に格納されている次のｉ＝２のときの分割候補を参照し、同様の計算を行う。そして、上記の計算を分割候補記憶部２４２に格納されている全ての分割候補に対して繰り返し計算を行う（ステップ１６４）。図１４の分割候補の例では、分割候補番号ｉ＝２に対する評価関数の値Ｑ_２の計算で終了となる。
【００６７】
次に、分割候補記憶部２４２に格納されているＫ個の分割候補に対して、Ｑ_ｉ（ｉ＝１，２，…，Ｋ）の計算が終了すると（ステップ１６４，Ｙｅｓ）、最後に分割結果評価部２４１では、Ｑ_ｉを最小にするｉ番目の分割候補を選択する（ステップ１６５）。図１４の分割候補の例では、分割候補番号ｉ＝１，２に対して、Ｑ_１=1.118359、、Ｑ_２=0.990127となるため、分割候補記憶部２４２に格納されている二つの分割候補のうちｉ＝２が選択される。
【００６８】
ステップ１７０）選択結果出力処理：
分割結果評価部２４１において、評価関数Ｑ_ｉが最小となる分割候補の番号が選択されると、分割結果評価部２４１で選択された分割候補の番号を出力部２５２に渡す。出力部２５２は、当該番号を受け取ると、分割候補記憶部２４２に格納されている分割候補の中から受け取った番号に対応する分割候補を読み取り、表示部２６５に分割結果として出力する。図１４の分割候補の例では、ｉ＝２が出力部２５２に渡されるので、出力部２４２は分割候補記憶部２４２に格納されている２番目の分割候補を読出し、意味段落１２０３から意味段落１２０５までをテキストセグメンテーション結果として、表示部２６５に出力する。
【００６９】
なお、上記の図３に示す構成の動作をプログラムとして構築し、テキストセグメンテーション装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【００７０】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【００７１】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【００７２】
本発明は、コンピュータ上で各種記事や物語等の文章中の各文を意味的なまとまりに分割する技術に適用可能である。
【００７３】
【符号の説明】
【００７４】
２０１テキスト分割手段、テキスト分割部
２０２分解文章記憶手段、分解文章記憶部
２１１検索語抽出手段、検索語抽出部
２２１関連語取得手段、関連語取得部
２２２関連語記憶手段、関連語記憶部
２３１分割候補生成手段、分割候補生成部
２３２キーワード集合記憶部
２４１分割結果評価手段、分割結果評価部
２５０制御部
２５１入力部
２５２出力部
２６０コンピュータ
２６１ネットワーク
２６２ウェブ
２６３構造化言語で記述された記事
２６４テキスト
２６５表示部
５０１一般語リスト記憶部

【特許請求の範囲】
【請求項１】
テキストを内容に応じて分割するテキストセグメンテーション装置であって、
入力されたテキストを文単位に分割し、分割文章記憶手段に格納するテキスト分解手段と、
前記テキスト分解手段により分割された文を形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出手段と、
前記検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を抽出し、関連語記憶手段に格納する関連語取得手段と、
前記検索語記憶手段に格納されている前記検索語と前記関連語記憶手段に格納されている前記関連語との組み合わせであるキーワード集合を用いて、前記分割文章記憶手段に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段に格納する分割候補生成手段と、
前記分割候補記憶手段に格納されている前記分割候補を評価して一つの分割結果を選択して出力する分割結果評価手段と、
を有し、
前記分割結果評価手段は、
前記分割候補記憶手段に格納されている前記分割候補の意味段落に含まれる文の範囲内において、前記キーワード集合を参照して、各キーワードの出現頻度を求め、該出現頻度に基づいて、該分割候補記憶手段に格納されている全ての分割候補を評価して評価値を求め、該評価値が最小となる分割候補を選択する手段を含む
ことを特徴とするテキストセグメンテーション装置。
【請求項２】
前記分割結果評価手段は、
前記評価値を求める際に、入力された前記テキストを細かく分割する程小さい値をとる第１の指標と、前記意味段落間で内容が異なる程小さい値をとる第２の指標を求め、該第１の指標と該第２の指標の和を評価値とする
請求項１記載のテキストセグメンテーション装置。
【請求項３】
前記分割候補生成手段は、
前記キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される前記意味段落を求める意味段落生成手段を有し、
前記意味段落生成手段は、
前記キーワード集合を纏めたブロックＢ１，Ｂ２を作成し、ｉ番目とｉ＋１番目の２つの文の連結度Ｃ_ｉ^ｂを、単語ｔの出現頻度を用いて、
【数１】

（但し、ｗ_ｔ^B1はブロックＢ１にある単語ｔの頻度、ｗ_ｔ^B2はブロックＢ２にある単語ｔの頻度を表す。Ｃ_ｉ^ｂは０以上１以下の値を取り、１に近いほどブロックＢ１とブロックＢ２に含まれている単語が同じであることを表す）
により求める手段と、
ｉ＝｛１，２，…，Ｎ｝と変化させ、
【数２】

を計算し、ブロックの大きさｂのパラメータをｂ＝（ｂ_１，ｂ_２，…，ｂ_Ｍ）とＭ個設定して各ブロック幅に対して連結度Ｃ_ｉ^ｂを計算し、それらの平均値をｉ番目とｉ＋１番目の文における平均連結度Ｃ_ｉを、
【数３】

により求める手段と、
前記平均連結度Ｃ_ｉ（但し、ｉ＝（１，２，…，Ｎ））を用いて意味段落の境界である平均連結度の谷を、条件
【数４】

に基づいて抽出し、該谷に基づいて前記意味段落を取得する手段と、
を含む請求項１記載のテキストセグメンテーション装置。
【請求項４】
テキストを内容に応じて分割するテキストセグメンテーション方法であって、
テキスト分解手段が、入力されたテキストを文単位に分割し、分割文章記憶手段に格納するテキスト分解ステップと、
検索語抽出手段が、前記テキスト分解ステップで分割された文を形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出ステップと、
関連語取得手段は、前記検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を抽出し、関連語記憶手段に格納する関連語取得ステップと、
分割候補生成手段が、前記検索語記憶手段に格納されている前記検索語と前記関連語記憶手段に格納されている前記関連語との組み合わせであるキーワード集合を用いて、前記分割文章記憶手段に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段に格納する分割候補生成ステップと、
分割結果評価手段が、前記分割候補記憶手段に格納されている前記分割候補を評価して一つの分割結果を選択して出力する分割結果評価ステップと、
を行うことを特徴とするテキストセグメンテーション方法。
【請求項５】
前記分割結果評価ステップにおいて、
前記評価値を求める際に、入力された前記テキストを細かく分割する程小さい値をとる第１の指標と、前記意味段落間で内容が異なる程小さい値をとる第２の指標を求め、該第１の指標と該第２の指標の和を評価値とする
請求項４記載のテキストセグメンテーション方法。
【請求項６】
前記分割候補生成ステップにおいて、
前記キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される前記意味段落を求める意味段落生成ステップを行い、
前記意味段落生成ステップは、
前記キーワード集合を纏めたブロックＢ１，Ｂ２を作成し、ｉ番目とｉ＋１番目の２つの文の連結度Ｃ_ｉ^ｂを、単語ｔの出現頻度を用いて、
【数５】

（但し、ｗ_ｔ^B1はブロックＢ１にある単語ｔの頻度、ｗ_ｔ^B2はブロックＢ２にある単語ｔの頻度を表す。Ｃ_ｉ^ｂは０以上１以下の値を取り、１に近いほどブロックＢ１とブロックＢ２に含まれている単語が同じであることを表す）
により求めるステップと、
ｉ＝｛１，２，…，Ｎ｝と変化させ、
【数６】

を計算し、ブロックの大きさｂのパラメータをｂ＝（ｂ_１，ｂ_２，…，ｂ_Ｍ）とＭ個設定して各ブロック幅に対して連結度Ｃ_ｉ^ｂを計算し、それらの平均値をｉ番目とｉ＋１番目の文における平均連結度Ｃ_ｉを、
【数７】

により求めるステップと、
前記平均連結度Ｃ_ｉ（但し、ｉ＝（１，２，…，Ｎ））を用いて意味段落の境界である平均連結度の谷を、条件
【数８】

に基づいて抽出し、該谷に基づいて前記意味段落を取得するステップと、
を行う請求項４記載のテキストセグメンテーション方法。
【請求項７】
請求項１乃至３のいずれか１項に記載のテキストセグメンテーション装置を構成する各手段としてコンピュータを機能させるためのテキストセグメンテーションプログラム。
【請求項８】
請求項７記載のテキストセグメンテーションプログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【公開番号】特開２０１３−１０１６７９（Ｐ２０１３−１０１６７９Ａ）
【公開日】平成２５年５月２３日（２０１３．５．２３）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 自然言語データの取扱い (7,890)
        
        自動言語解析，例．構文解析，綴字訂正 (543)
        
        テキスト処理 (6,199)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２０１３−１５６７０（Ｐ２０１３−１５６７０）
【出願日】平成２５年１月３０日（２０１３．１．３０）
【分割の表示】特願２００８−１５２１８０（Ｐ２００８−１５２１８０）の分割
【原出願日】平成２０年６月１０日（２００８．６．１０）
【出願人】（０００００４２２６）日本電信電話株式会社 (13,992)
【Ｆターム（参考）】

機械翻訳 (6,566)
- 言語 (1,300)
  - 自然言語・解析結果間（例；日本語文解析） (617)
- 言語処理技術 (1,358)
  - 文解析 (1,092)
    - 形態素解析 (353)
    - 意味解析 (324)

[ Back to top ]

テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

メニュー

スポンサーリンク

次の公報 »

« 前の公報

テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク