説明

テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

【課題】学習データを必要とせずにテキストセグメンテーションが可能なWeb検索を利用したテキストセグメンテーションを実現する。
【解決手段】本発明は、入力されたテキストを文単位に分割し、分割された文を形態素解析し、形態素解析された助詞を除く全ての単語を検索語として抽出し、活用形のある単語を終止形に変換し、検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、助詞を除く全ての単語を関連語として抽出し、活用形のある単語を終止形に変換し、検索語と関連語記憶手段に格納されている関連語との組み合わせであるキーワード集合を用いて、文同士の連結性に基づいて意味段落を求め、分割候補を作成し、分割候補を評価して一つの分割結果を選択して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、テキストを計算機上で利用する分野において、テキストに記述されている複数の内容に応じてテキストを自動的に分割するテキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
【背景技術】
【0002】
近年急速な計算機の性能向上に伴い莫大なテキスト(ここでは、文字列だけで構成される文の集合)を蓄積し、データベースを構築することが可能になった。しかし、保存されたテキストを人手で整理・管理することは一般的に困難となってきている。そこで、蓄積されたテキストデータベースを解析し、テキストを意味的な内容(意味段落と呼ぶ)に応じて分割するテキストセグメンテーションと呼ばれる技術が開発されており、テキストデータベースの分類や整理を計算機で自動的に行うことに応用されつつある。例えば、概念ベースを呼ばれる情報を用いてテキストセグメンテーションを行う技術がある。この技術では、ある単語とそれに共起するパターンを数値ベクトル化した概念ベクトルを予め蓄積した学習データから複数作成する。そして、概念ベクトルの集まりである概念ベースを利用してテキストセグメンテーションを行う。学習データは複数の分野に関する(例えば、「政治」「経済」「科学」の分野だけに関する)テキストが数多く蓄積されている(例えば、特許文献1参照)。
また、従来のテキストセグメンテーションでは、複数の文間に対する連結度に基づいて文間の意味的連続性を評価する方法が主である(例えば、非特許文献1参照)。この例として、連結度を算出する際に考慮する文の個数が少ない場合には、局所的な意味内容の変化に追従し易い代わりに、過剰に意味段落を推定する可能性が増える。一方で、考慮する文の個数が多い場合には、大域的な意味内容の変化を捉えることができる代わりに、緩やかに意味内容が変化するテキストに対して対処することが難しい
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第3775239号公報
【非特許文献】
【0004】
【非特許文献1】Hearst. M. A., : Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp. 9-16 (1994)
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来のテキストセグメンテーション手法の精度を高めるためには、大規模な学習データを用意しなくてはならない。そのため、学習データが小規模な場合には概念ベースを適切に作成できず、テキストセグメンテーションの精度が低下する問題がある。また、事前に用意した学習データに含まれている分野に対応できる反面、異なる分野のテキストに対してテキストセグメンテーションを行うことができない。例えば、学習データに「政治」や「経済」に関する情報だけが蓄積されている場合、「スポーツ」の分野のテキストに対してテキストセグメンテーションは困難となる。
本発明は、上記の点に鑑みなされたもので、学習データを必要とせずに、テキストセグメンテーション可能なテキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0006】
図1は、本発明の原理構成図である。
【0007】
本発明(請求項1)は、テキストを内容に応じて分割するテキストセグメンテーション装置であって、
入力されたテキストを文単位に分割し、分割文章記憶手段202に格納するテキスト分解手段201と、
テキスト分解手段201により分割された文を形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段212に格納する検索語抽出手段211と、
検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を抽出し、関連語記憶手段222に格納する関連語取得手段221と、
検索語記憶手段212に格納されている検索語と関連語記憶手段222に格納されている関連語との組み合わせであるキーワード集合を用いて、分割文章記憶手段202に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段242に格納する分割候補生成手段231と、
分割候補記憶手段242に格納されている分割候補を評価して一つの分割結果を選択して出力する分割結果評価手段241と、を有し、
分割結果評価手段241において、
分割候補記憶手段242に格納されている分割候補の意味段落に含まれる文の範囲内において、キーワード集合を参照して、各キーワードの出現頻度を求め、該出現頻度に基づいて、該分割候補記憶手段に格納されている全ての分割候補を評価して評価値を求め、該評価値が最小となる分割候補を選択する手段を含む。
【0008】
また、本発明(請求項2)は、分割結果評価手段241において、
評価値を求める際に、入力されたテキストを細かく分割する程小さい値をとる第1の指標と、意味段落間で内容が異なる程小さい値をとる第2の指標を求め、該第1の指標と該第2の指標の和を評価値とする。
また、本発明(請求項3)は、分割候補生成手段231において、
キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される意味段落を求める意味段落生成手段を有し、
意味段落生成手段は、
キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度Cを、単語tの出現頻度を用いて、
【0009】
【数9】

(但し、wB1はブロックB1にある単語tの頻度、wB2はブロックB2にある単語tの頻度を表す。Cは0以上1以下の値を取り、1に近いほどブロックB1とブロックB2に含まれている単語が同じであることを表す)
により求める手段と、
i={1,2,…,N}と変化させ、
【0010】
【数10】


を計算し、ブロックの大きさbのパラメータをb=(b,b,…,b)とM個設定して各ブロック幅に対して連結度Cを計算し、それらの平均値をi番目とi+1番目の文における平均連結度Cを、
【0011】
【数11】


により求める手段と、
平均連結度C(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を、条件
【0012】
【数12】


に基づいて抽出し、該谷に基づいて意味段落を取得する手段と、を含む。
【0013】
【0014】
【0015】
図2は、本発明の原理を説明するための図である。
【0016】
本発明(請求項4)は、テキストを内容に応じて分割するテキストセグメンテーション方法であって、
テキスト分解手段が、入力されたテキストを文単位に分割し、分割文章記憶手段に格納するテキスト分解ステップ(ステップ1)と、
検索語抽出手段が、テキスト分解ステップ(ステップ1)で分割された文を形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出ステップ(ステップ2)と、
関連語取得手段は、検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を抽出し、関連語記憶手段に格納する関連語取得ステップ(ステップ3)と、
分割候補生成手段が、検索語記憶手段に格納されている検索語と関連語記憶手段に格納されている関連語との組み合わせであるキーワード集合を用いて、分割文章記憶手段に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段に格納する分割候補生成ステップ(ステップ4)と、
分割結果評価手段が、分割候補記憶手段に格納されている分割候補を評価して一つの分割結果を選択して出力する分割結果評価ステップ(ステップ5)と、を行い、
分割結果評価ステップ(ステップ5)において、
分割候補記憶手段に格納されている分割候補の意味段落に含まれる文の範囲内において、キーワード集合を参照して、各キーワードの出現頻度を求め、該出現頻度に基づいて、該分割候補記憶手段に格納されている全ての分割候補を評価して評価値を求め、該評価値が最小となる分割候補を選択する。
【0017】
また、本発明(請求項5)は、分割結果評価ステップ(ステップ5)において、
評価値を求める際に、入力されたテキストを細かく分割する程小さい値をとる第1の指標と、意味段落間で内容が異なる程小さい値をとる第2の指標を求め、該第1の指標と該第2の指標の和を評価値とする。
また、本発明(請求項6)は、分割候補生成ステップ(ステップ4)において、
キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される意味段落を求める意味段落生成ステップを行い、
意味段落生成ステップは、
キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度Cを、単語tの出現頻度を用いて、
【0018】
【数13】


(但し、wB1はブロックB1にある単語tの頻度、wB2はブロックB2にある単語tの頻度を表す。Cは0以上1以下の値を取り、1に近いほどブロックB1とブロックB2に含まれている単語が同じであることを表す)
により求めるステップと、
i={1,2,…,N}と変化させ、
【0019】
【数14】


を計算し、ブロックの大きさbのパラメータをb=(b,b,…,b)とM個設定して各ブロック幅に対して連結度Cを計算し、それらの平均値をi番目とi+1番目の文における平均連結度Cを、
【0020】
【数15】


により求めるステップと、
平均連結度C(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を、条件
【0021】
【数16】


に基づいて抽出し、該谷に基づいて意味段落を取得するステップと、を行う。
【0022】
【0023】
【0024】
本発明(請求項7)は、請求項1乃至3のいずれか1項に記載のテキストセグメンテーション装置を構成する各手段としてコンピュータを機能させるためのテキストセグメンテーションプログラムである。
【0025】
本発明(請求項8)は、請求項7記載のテキストセグメンテーションプログラムを格納したコンピュータ読取可能な記録媒体である。
【発明の効果】
【0026】
本発明は、学習データを必要とせずにテキストセグメンテーションを行うために、検索語を用いてウェブ上での検索を利用することで、文の内容に関する複数の単語を取得できる点着目している。現在、ウェブ上には膨大な情報が蓄積されており、最新の話題も常に提供されている。つまり、ウェブは様々な情報を持つ記事の集合として捉えることができる。実際、我々はあることに関して調べる際、検索サイトで検索語を入力してウェブ上で検索を行い、単語の意味や物事の内容を調べている。その観点から、学習データを使用しなくともウェブ上にある情報を適切に利用すれば、「サッカー」や「野球」に対応するのは「スポーツ」や「ボール」という概念を取得できると言える。つまり、ウェブ上にある様々な情報を基にテキストの内容に応じた単語を取得し、文同士の関連性を単語の変化によって追跡することで意味段落を分割することができる。その結果、テキストの内容を学習データを使用しなくとも把握することが可能となる。
【図面の簡単な説明】
【0027】
【図1】本発明の原理構成図である。
【図2】本発明の原理を説明するための図である。
【図3】本発明の一実施の形態におけるウェブ検索を利用したテキストセグメンテーション装置の構成図である。
【図4】本発明の一実施の形態における概要動作のフローチャートである。
【図5】本発明の一実施の形態におけるテキストの例である。
【図6】本発明の一実施の形態における分解文章記憶部に格納された文の例である。
【図7】本発明の一実施の形態における一般語リストに登録されている一般語の例である。
【図8】本発明の一実施の形態における検索語記憶部に格納された検索語の例である。
【図9】本発明の一実施の形態における関連語抽出部の処理手順のフローチャートである。
【図10】本発明の一実施の形態における関連語記憶部に格納された関連語の例である。
【図11】本発明の一実施の形態におけるキーワード集合記憶部に格納されたキーワード集合の例である。
【図12】本発明の一実施の形態における分割候補生成部の処理手順のフローチャートである。
【図13】本発明の一実施の形態における平均連結度の算出例である。
【図14】本発明の一実施の形態における分割候補記憶部に格納された分割候補の例である。
【図15】本発明の一実施の形態における分割結果評価部の処理手順のフローチャートである。
【発明を実施するための形態】
【0028】
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態におけるセグメンテーション装置の構成を示す。当該セグメンテーション装置は、コンピュータ260で実現されるものである。
【0029】
セグメンテーション装置は、当該装置を制御する制御部250、テキスト264を入力する入力部251、テキストを文単位に分割するテキスト分解部201、分解文章記憶部202、検索語を抽出する検索語抽出部211、検索語記憶部212、関連語を取得する関連語取得部221、関連語記憶部222、検索語と関連語とを組み合わせたキーワード集合を用いて意味段落を抽出し、分割候補を生成する分割候補生成部231、キーワード集合記憶部232、分割候補を評価し、ひとつの分割結果を選択する分割結果評価部241、分割候補記憶部242、抽出した意味段落をテキストの分割結果として出力する出力部252から構成される。
【0030】
上記の構成を有するセグメンテーション装置(コンピュータ260)には、ネットワーク261が接続されており、ウェブ262にアクセスできる。ウェブ262には複数のHTMLやXML等の構造化言語で記述された記事263が蓄積されている。テキスト264はコンピュータ260の入力部251に入力されるテキストである。表示部265は、制御部250からの出力部252を通じて出力された結果を表示するための装置である。
【0031】
上記の構成において、分解文章記憶部202、検索語記憶部212、関連語記憶部222、キーワード集合記憶部232、分割候補記憶部242、一般語リスト記憶部501は、ハードディスク等の記憶媒体である。分割文章記憶部202は、テキスト分解処理部201で文単位に分解された文を格納する。検索語記憶部212は、検索語抽出部211で抽出された検索語を格納する。関連語記憶部222は、関連語取得部221で得られた関連語を格納する。キーワード集合記憶部232は、分割候補生成部231で作成されたキーワード集合を格納する。分割候補記憶部242は、分割結果評価部241で抽出された分割候補を格納する。一般語リスト記憶部501は、検索語抽出部211から参照される一般語の集合を格納する。
【0032】
次に、上記の構成における動作の概要を説明する。
【0033】
図4は、本発明の一実施の形態における概要動作のフローチャートである。
【0034】
入力部251によりテキスト264が入力されると(ステップ110)、テキスト分割部201において入力されたテキストを文単位に分割し、分解文章記憶部202に格納する(ステップ120)。検索語抽出部211において、分解文章記憶部202の各文に対して検索語となる単語を抽出し、検索語記憶部212に格納する(ステップ130)。次に、関連語取得部221は、検索語記憶部212に格納されている検索語を利用してウェブ262上を検索し、取得した検索結果を関連語として関連語記憶部222に格納する(ステップ140)。分割候補生成部231は、検索語記憶部212に格納されている検索語と、関連語記憶部222に格納されている関連語からキーワード集合を作成し、キーワード集合記憶部232に格納すると共に、当該キーワード集合を用いて分割候補を生成し、分割候補記憶部242に格納する(ステップ150)。分割結果評価部241において、分割候補記憶部242から分割候補を取得し、当該分割候補の中から評価関数の値が最小となる結果を選択する(ステップ160)。出力部252は、選択された結果をテキストセグメンテーション結果として出力する(ステップ170)。
【0035】
以下に、上記の図4に示す各ステップの動作を具体的に説明する。なお、上記の図3の構成において制御部250が含まれるが、以下の説明では各処理を行う構成要素のそれぞれが制御部250の制御により起動・制御されるものとする。
【0036】
ステップ110) テキスト入力処理:
まず、入力部251から図5に示すテキスト264が入力される。
【0037】
ステップ120) テキスト分解処理:
テキスト分解部201は、入力されたテキストを一文字ずつ読み込み、図6に示すような文単位にN個に分割して分解文章記憶部202に格納する。ここで、文とは、句点「。」で区切られる一文をさす。テキスト264の一例として図3で示すようなテキスト264に対して、当該テキスト分解部201を実行すると、文単位に分解された9つの文401〜409が生成され分解文章記憶部202に格納される。テキスト分解部201において生成される文の個数は入力されるテキストによって異なる。また、句点「。」の入力ミスがあった場合は、複数の文が1つの文として扱われる。
【0038】
ステップ130) 検索語抽出処理:
検索語抽出部211において、検索語を抽出する。検索語とは、ウェブ上でAND検索(全ての単語が含まれる結果を求める検索)を行う際に入力する、一つまたは複数の単語をさす。はじめに、抽出検索語抽出部21では、分解文章記憶部202に格納されている文章を読み出して、各文章について形態素解析を行う。そして、形態素解析により助詞を除く全ての単語を取り出す。そして活用形のある単語は原形に変換して抽出し、それ以外の単語は変換を行うことなく検索語として抽出する。
【0039】
ここで、抽出された単語には「年」、「ある」、「ここ」のような一般的に使用される単語(一般語と呼ばれる)も含まれる。一般語は検索語として利用しても有益ではないため、図7に示すような一般語リストを予め作成し、一般語リスト記憶部501に登録しておき、一般語リストに登録されていない単語を検索語として扱い、検索語記憶部212に格納する。なお、検索語記憶部212に格納される検索語は一般語リストによって変化する。
【0040】
また、ウェブ検索を行う際に適切な個数の単語を使用することが望ましい。そこで、抽出された単語の個数が閾値S未満の場合には、検索語抽出部211では検索語は抽出せず、検索語記憶部212には何も格納しない。逆に、抽出単語の個数Sが閾値T以上の場合には、S個の検索語からT個の検索語をランダムに選択し、検索語記憶部212に格納する。T=30,S=1の場合において、図6の文401〜文409に対して検索語抽出部211を実行すると、図8の検索語601〜609が検索語記憶部212に格納される。
【0041】
ステップ140) 関連語抽出処理:
図9は、本発明の一実施の形態における関連語抽出部の処理手順のフローチャートである。
【0042】
文401〜409に対応する検索語601〜609が作成された後、関連語取得部211では、はじめに、検索語抽出部211で抽出された検索語を検索語記憶部212から読み出す。次に、入力された検索語を用いてネットワーク261を介してウェブ262上でAND検索を行う(ステップ141)。AND検索を行うことで検索語の入力する順序に影響せず、検索語を全て含む記事263をウェブ262で検索することができる。一般的に、ウェブ検索を行うと、入力された検索語に応じて関連性の高い記事から順に検索結果が得られる。そこで、検索結果で参照されているウェブ262の中から検索結果上位に含まれるP個の記事263を取得する。ここで、検索語記憶部212に該当する検索語が存在しない場合には、関連語取得部221ではウェブ検索を行わず、関連語記憶部222に対して何も格納しない。また、検索語の個数Sが閾値Tに対してS=Tである場合にも、ウェブ検索を行わず関連語記憶部222には何も格納しない。
【0043】
次に、関連語取得部211では、時間順に収集されたP個の記事263からテキストを抽出する(ステップ143)。記事263はHTMLやXML等の構造化言語で記述されている。よって、得られた記事263に対して"<"と">"で囲まれた文字列から構成されるタグを解析することでテキストが得られる。そして、抽出されたテキストに対して関連語取得部221は、形態素解析を行い、助詞を除くすべての単語を抽出する(ステップ144)。その際、検索語抽出部211と同様に、活用形のある単語は全て終止形に変換した単語を抽出し、それ以外の単語はそのままの形で単語を抽出する。
【0044】
得られる関連語の個数はウェブ検索を行う際の検索語やウェブ検索により収集される記事263によって変化する。また、抽出した単語を直接関連語として使用すると一般語が関連語として扱われる場合がある。そこで、関連語取得部221では、検索語抽出部211と同様に、一般語リスト記憶部501を参照して一般語を除いた単語を使用する。具体的には、検索語がS個であるとき、P個のテキストから抽出し一般語リスト記憶部501に登録されている一般語を除いた単語に対し単語の出現頻度を算出する。そして、単語出現頻度の高い順にT−S個の単語を関連語として取得し、関連語記憶部222に格納する(ステップ145)。これにより、各文において抽出される検索語と関連語の合計個数は予め与えられた値Tと一定になるようにする。
【0045】
更に、適切な関連語を得るためには、ウェブ検索により得られる記事263の個数はできるだけ多い方がよい。そこで、ウェブ検索により得られるテキスト263の個数PがP未満の場合には(ステップ142、No)、検索語を修正し、再びウェブ上でAND検索により記事263を収集する(ステップ146)。具体的には、S個の検索語からi番目(i=1,2,…,S)の単語を除いたS−1個の単語を検索語としてウェブ検索を行い検索される件数を調べる。例えば「ゴルフ」「ショット」「ドライブ」の検索語(S=3)に対して、「ゴルフ」「ショット」「ショット」「ドライブ」「ゴルフ」「ドライブ」という3パターンの検索語を作成し、検索件数を調べる。そして、検索される件数が最大となるS−1個の単語を検索語として選択し、検索語記憶部212に上書きする(ステップ147)。更に、S=S−1として検索語の個数を更新し(ステップ148)、再びウェブ検索を行いP個の記事を収集する。例えば、検索件数が「ゴルフ」「ショット」の場合で1000件、「ショット」「ドライブ」が500件、「ゴルフ」「ドライブ」が200件の場合、「ゴルフ」「ショット」を検索語記憶部212に上書きし、S=2と更新する。そして、「ゴルフ」「ショット」の検索語でウェブ検索を行い、P個の記事263を取得する。これらの処理を記事263の個数≧Pを満たすまで繰り返し行う。条件P≧Pを満たす場合、得られたP個の記事263から関連語を抽出する。一方で、検索語を繰り返して修正しても収集される記事263の個数がP以上とならない場合には、検索語記憶部250に格納されている当該検索語を削除し、更に、関連語記憶部222に対して関連語として何も格納しない。一例として、図8の検索語601〜609に対して、T=30,P=20のとき、関連語取得部221を実行し、得られた関連語を図10の関連語801〜809に示す。
【0046】
ステップ150) 分割候補生成処理:
分解文章記憶部202に格納されている全ての文に対して関連語取得部221の処理が終了すると、分割候補生成部231において、検索語記憶部212と関連語記憶部222に格納されている検索語と関連語をそれぞれ読み出し、それらを連結してキーワード集合を生成する。図8の検索語の例と図10の関連語の例から作成したキーワード集合の例を図11に示す。例えば、キーワード集合1001は、検索語601と関連語801を連結して作成されたものである。作成されたキーワード集合は、キーワード集合記憶部232に格納される。ここで、分割候補生成部231では、検索語がない文に対してはそれに対応する関連語も存在しないため、キーワード集合を作成しない。
【0047】
キーワード集合は、テキストの内容を反映する単語であることから、キーワード集合に含まれる単語の変化を調べることでテキスト264における内容の変化を捉えることができる。そこで、分割候補生成部231では、生成されたキーワード集合を前後の複数文で比較し、内容的にまとまっている一文または複数の文から構成される意味段落を求める。比較の方法は、テキストは先頭から順に書かれることが一般的であるため、テキストの先頭から順に、複数のキーワード集合をまとめたブロックを作成し、比較を行う。
【0048】
図12は、本発明の一実施の形態における分割候補生成部の処理手順のフローチャートである。
【0049】
具体的には、bをブロックの大きさとすると、i+1−b番目からi番目までのキーワード集合が含まれるブロックB1と、i+1番目からi+b番目までのキーワード集合が含まれるブロックB2を決定し、二つのブロックB1とB2内に含まれるキーワード集合内の単語を比較する(但し、i=1,2,…,N)。単語が存在しないキーワード集合は、ブロックB1とブロックB2を作成する際には含めず、ブロックB1においては該当する文よりも前の文で空でないキーワード集合を、ブロックB2においては該当する文の後の文で空でないキーワード集合を代わりにブロックに含める。例えば、j番目に対するキーワード集合が空の場合、ブロックB1作成時にはj−1、j−2、…,1番目の順に空でないキーワード集合を発見し、ブロックB1に含める。一方、ブロックB2作成時にはj+1,j+2,…の順に空で内キーワード集合を発見し、ブロックB2に含める。ブロック内に含めることができるキーワード集合が存在しない場合には、空のブロックを作成する。ブロックB1とブロックB2を作成後、それぞれのブロックに含まれる単語tの頻度wを計算する。そして、i番目とi+1番目の二つの文の連結度を単語tの頻度wを用いて以下の式で評価する。
【0050】
【数17】


B1はブロックB1にある単語tの頻度、wB2はブロックB2にある単語tの頻度を表す

【0051】
は0以上1以下の値をとり、1に近いほどブロックB1とブロックB2に含まれている単語が同じであることを表す。ここで、ブロックB1、またはブロックB2に含まれている単語が同じであることを表す。ここで、ブロックB1またはブロックB2内に単語が一切含まれない場合、連結度Cの値は0と算出される。分割候補生成部231では、i=(1,2,…,N)と変化させ、
【0052】
【数18】


を計算する。更に、ブロックの大きさbのパラメータをb=(b,b,…,b)とM個設定して各ブロック幅に対して連結度Cを計算する(ステップ151)。
【0053】
次に、それらの平均値をi番目とi+1番目の文における平均連結度Cを以下の式により計算する(ステップ152)。
【0054】
【数19】


次に、分割候補生成部231では、平均連結度C(但し、j=(1,2,…,N))を用いて平均連結度の谷、つまり、意味段落の境界を抽出し、分割する箇所の検出を行う(ステップ152)。平均連結度の谷は以下の条件を満たす平均連結度の極小値のことを表す。
【0055】
【数20】


そして、分割候補生成部231では平均連結度の谷が検出されたときのCの値を小さい順に並び替え、それぞれに対応する文の番号d,d,…,dを求め、これらをテキスト264の分割箇所とする(ステップ153)。小さい順に並び替えたときの文の番号を用いることで、意味段落の境界が明瞭な順に分割を行うことができる。例えば、図5のテキスト301を用いて分割候補生成部231の処理を行うと、図13に示す平均連結度1101が得られる(同図では、平均連結度の谷となる箇所に下線を付与してある)。平均連結度1101から、i=3とi=6において、C=0.174212,C=0.269452となり、二つの平均連結度の谷が検出される。CとCを小さい順に並び替えそれぞれに対応する文の番号を調べると、d=3、d=6となり、K=2となる。
【0056】
最後に、抽出されたK個の分割箇所に対し、分割候補生成部231はj個(j=1,2,…,K)の分割箇所d,d,…,dを用いてテキスト264をdとdm+1番目(m=(1,2,…,j)の文の間で分割し、j番目の分割候補として、図14に示すように、分割候補記憶部242に格納する(ステップ154)。つまり、意味段落の境界が明瞭な順に分割箇所を一つずつ増やしテキストを分割する。図5のテキスト301の例では、d=3、d=6となるので、2つの分割候補(K=2)が得られる。j=1のときはd=3のみを分割箇所として使用する。その結果、3番目と4番目の文の間で分割し、図14の意味段落1201と意味段落1202の二つの意味段落が生成されるような分割候補が分割候補記憶部242に格納する。j=2のときは分割箇所としてd=3、d=6が使用されるため、3番目と4番目、そして、6番目と7番目の文の間で分割する。つまり、意味段落1203と意味段落1204、意味段落1205の3つの意味段落が生成されるような分割候補が分割候補記憶部242に格納される。
【0057】
ステップ160) 分割結果評価処理:
分割候補生成部231にてK個の分割候補が作成されると、分割結果評価部241では、分割候補記憶部242に格納されている分割候補とキーワード集合記憶部232に格納されているキーワード集合を参照する。そして、分割候補記憶部242に格納されているK個の分割結果のうち、一つの結果を選択する処理を行う。
【0058】
図15は、本発明の一実施の形態における分割結果評価部の処理手順のフローチャートである。
【0059】
分割結果評価部241では、はじめにキーワード集合記憶部232に格納されているキーワード集合を読出し、単語tの出現頻度wallを計算する(ステップ161)。例えば、図11のキーワード集合1001からキーワード集合1009を用いて「ゴルフ」と「おいしい」の出現頻度を求めると、
【0060】
【数21】


となる。
【0061】
次に、分割候補記憶部242からi番目(i=1,2,…,K)の分割候補を読出し、j番目(j=1,2,…,i+1)の意味段落に含まれる文の範囲内でキーワード集合記憶部232に格納されているキーワード集合を参照し、単語tの出現頻度wを計算する。例えば、図14の分割候補記憶部242において、i=1のとき、意味段落1201と意味段落1202を参照するため、j=1,2となる。そして、j=1のとき、意味段落1201に含まれる文は1,2,3となるため、キーワード集合記憶部232に格納されているキーワード集合のうち、キーワード集合1001からキーワード集合1003までを参照し、単語tの出現頻度を求める。このとき単語「ゴルフ」と「おいしい」の出現頻度はそれぞれ
【0062】
【数22】


となる。j=2のとき、意味段落1202の意味段落に含まれる文は4,5,6,7,8,9となるため、キーワード集合1004からキーワード集合1009までを参照し単語tの出現頻度を求める。このとき、単語「ゴルフ」と「おいしい」は
【0063】
【数23】


となる。
【0064】
i番目(i=1,2,…,K)の分割候補に含まれるそれぞれの意味段落に対応する単語tの出現頻度を計算した後、分割結果評価部241では求めた出現頻度wallとw(j=1,2,…,i+1)を用いて次の評価関数Qの値を計算する。
【0065】
【数24】


ここで、Qは、0以上1以下の値をとる分割の細かさを図る指標であり、テキスト264を細かく分割する程小さい値をとる。Q12は、0以上1以下の値をとる意味段落間の内容の異なり度合いを測る指標であり、j番目とj+1番目の意味段落間で内容が異なる程小さい値をとる。この2つの指標の和であるQを最小にする分割を求めることで、内容毎に細かく分割する結果を求めることができる。図14の分割候補の例でi=1のときの計算例を説明する。i=1のとき分割候補記憶部242に格納されている意味段落は二つあるため、Qは、キーワード集合全体と一つ名の意味段落のキーワード集合、そして、キーワード集合全体と二つ目の意味段落のキーワード集合との比較により計算され、評価値は、Q=0.801624となる。
【0066】
次に、Qは、一つ目の意味段落のキーワード集合と二つ目の意味段落のキーワード集合との比較により計算され、評価値は、Q=0.316735となる。そして、二つ目の指標の和を求めるとQ=1.118359と計算される(ステップ162)。計算が終了すればi=i+1として(ステップ163)、分割候補記憶部242に格納されている次のi=2のときの分割候補を参照し、同様の計算を行う。そして、上記の計算を分割候補記憶部242に格納されている全ての分割候補に対して繰り返し計算を行う(ステップ164)。図14の分割候補の例では、分割候補番号i=2に対する評価関数の値Qの計算で終了となる。
【0067】
次に、分割候補記憶部242に格納されているK個の分割候補に対して、Q(i=1,2,…,K)の計算が終了すると(ステップ164,Yes)、最後に分割結果評価部241では、Qを最小にするi番目の分割候補を選択する(ステップ165)。図14の分割候補の例では、分割候補番号i=1,2に対して、Q=1.118359、、Q=0.990127となるため、分割候補記憶部242に格納されている二つの分割候補のうちi=2が選択される。
【0068】
ステップ170) 選択結果出力処理:
分割結果評価部241において、評価関数Qが最小となる分割候補の番号が選択されると、分割結果評価部241で選択された分割候補の番号を出力部252に渡す。出力部252は、当該番号を受け取ると、分割候補記憶部242に格納されている分割候補の中から受け取った番号に対応する分割候補を読み取り、表示部265に分割結果として出力する。図14の分割候補の例では、i=2が出力部252に渡されるので、出力部242は分割候補記憶部242に格納されている2番目の分割候補を読出し、意味段落1203から意味段落1205までをテキストセグメンテーション結果として、表示部265に出力する。
【0069】
なお、上記の図3に示す構成の動作をプログラムとして構築し、テキストセグメンテーション装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0070】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0071】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0072】
本発明は、コンピュータ上で各種記事や物語等の文章中の各文を意味的なまとまりに分割する技術に適用可能である。
【0073】
【符号の説明】
【0074】
201 テキスト分割手段、テキスト分割部
202 分解文章記憶手段、分解文章記憶部
211 検索語抽出手段、検索語抽出部
221 関連語取得手段、関連語取得部
222 関連語記憶手段、関連語記憶部
231 分割候補生成手段、分割候補生成部
232 キーワード集合記憶部
241 分割結果評価手段、分割結果評価部
250 制御部
251 入力部
252 出力部
260 コンピュータ
261 ネットワーク
262 ウェブ
263 構造化言語で記述された記事
264 テキスト
265 表示部
501 一般語リスト記憶部



【特許請求の範囲】
【請求項1】
テキストを内容に応じて分割するテキストセグメンテーション装置であって、
入力されたテキストを文単位に分割し、分割文章記憶手段に格納するテキスト分解手段と、
前記テキスト分解手段により分割された文を形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出手段と、
前記検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を抽出し、関連語記憶手段に格納する関連語取得手段と、
前記検索語記憶手段に格納されている前記検索語と前記関連語記憶手段に格納されている前記関連語との組み合わせであるキーワード集合を用いて、前記分割文章記憶手段に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段に格納する分割候補生成手段と、
前記分割候補記憶手段に格納されている前記分割候補を評価して一つの分割結果を選択して出力する分割結果評価手段と、
を有し、
前記分割結果評価手段は、
前記分割候補記憶手段に格納されている前記分割候補の意味段落に含まれる文の範囲内において、前記キーワード集合を参照して、各キーワードの出現頻度を求め、該出現頻度に基づいて、該分割候補記憶手段に格納されている全ての分割候補を評価して評価値を求め、該評価値が最小となる分割候補を選択する手段を含む
ことを特徴とするテキストセグメンテーション装置。
【請求項2】
前記分割結果評価手段は、
前記評価値を求める際に、入力された前記テキストを細かく分割する程小さい値をとる第1の指標と、前記意味段落間で内容が異なる程小さい値をとる第2の指標を求め、該第1の指標と該第2の指標の和を評価値とする
請求項1記載のテキストセグメンテーション装置。
【請求項3】
前記分割候補生成手段は、
前記キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される前記意味段落を求める意味段落生成手段を有し、
前記意味段落生成手段は、
前記キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度Cを、単語tの出現頻度を用いて、
【数1】

(但し、wB1はブロックB1にある単語tの頻度、wB2はブロックB2にある単語tの頻度を表す。Cは0以上1以下の値を取り、1に近いほどブロックB1とブロックB2に含まれている単語が同じであることを表す)
により求める手段と、
i={1,2,…,N}と変化させ、
【数2】


を計算し、ブロックの大きさbのパラメータをb=(b,b,…,b)とM個設定して各ブロック幅に対して連結度Cを計算し、それらの平均値をi番目とi+1番目の文における平均連結度Cを、
【数3】


により求める手段と、
前記平均連結度C(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を、条件
【数4】


に基づいて抽出し、該谷に基づいて前記意味段落を取得する手段と、
を含む請求項1記載のテキストセグメンテーション装置。
【請求項4】
テキストを内容に応じて分割するテキストセグメンテーション方法であって、
テキスト分解手段が、入力されたテキストを文単位に分割し、分割文章記憶手段に格納するテキスト分解ステップと、
検索語抽出手段が、前記テキスト分解ステップで分割された文を形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出ステップと、
関連語取得手段は、前記検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中から少なくとも助詞を除き、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を抽出し、関連語記憶手段に格納する関連語取得ステップと、
分割候補生成手段が、前記検索語記憶手段に格納されている前記検索語と前記関連語記憶手段に格納されている前記関連語との組み合わせであるキーワード集合を用いて、前記分割文章記憶手段に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段に格納する分割候補生成ステップと、
分割結果評価手段が、前記分割候補記憶手段に格納されている前記分割候補を評価して一つの分割結果を選択して出力する分割結果評価ステップと、
を行うことを特徴とするテキストセグメンテーション方法。
【請求項5】
前記分割結果評価ステップにおいて、
前記評価値を求める際に、入力された前記テキストを細かく分割する程小さい値をとる第1の指標と、前記意味段落間で内容が異なる程小さい値をとる第2の指標を求め、該第1の指標と該第2の指標の和を評価値とする
請求項4記載のテキストセグメンテーション方法。
【請求項6】
前記分割候補生成ステップにおいて、
前記キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される前記意味段落を求める意味段落生成ステップを行い、
前記意味段落生成ステップは、
前記キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度Cを、単語tの出現頻度を用いて、
【数5】


(但し、wB1はブロックB1にある単語tの頻度、wB2はブロックB2にある単語tの頻度を表す。Cは0以上1以下の値を取り、1に近いほどブロックB1とブロックB2に含まれている単語が同じであることを表す)
により求めるステップと、
i={1,2,…,N}と変化させ、
【数6】


を計算し、ブロックの大きさbのパラメータをb=(b,b,…,b)とM個設定して各ブロック幅に対して連結度Cを計算し、それらの平均値をi番目とi+1番目の文における平均連結度Cを、
【数7】


により求めるステップと、
前記平均連結度C(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を、条件
【数8】


に基づいて抽出し、該谷に基づいて前記意味段落を取得するステップと、
を行う請求項4記載のテキストセグメンテーション方法。
【請求項7】
請求項1乃至3のいずれか1項に記載のテキストセグメンテーション装置を構成する各手段としてコンピュータを機能させるためのテキストセグメンテーションプログラム。
【請求項8】
請求項7記載のテキストセグメンテーションプログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2013−101679(P2013−101679A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2013−15670(P2013−15670)
【出願日】平成25年1月30日(2013.1.30)
【分割の表示】特願2008−152180(P2008−152180)の分割
【原出願日】平成20年6月10日(2008.6.10)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】