説明

テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体

【課題】学習データを必要としないテキストセグメンテーション方法、その装置、プログラム、および記憶媒体を提供することを目的とする。
【解決手段】入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定部とを有することを特徴とするテキストセグメンテーション装置である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストを計算機上で利用する分野において、テキストに記述されている複数の内容に応じて、テキスト内の文章を自動的に分割する技術に関する。
【背景技術】
【0002】
近年、急速な計算機の性能向上に伴い、莫大なテキスト(ここでは、文字列だけで構成される文の集合)を蓄積し、データベースを構築することが可能である。
【0003】
しかし、保存されているテキストを、人手で整理・管理することは、一般的に困難である。そこで、蓄積されたテキストデータベースを解析し、入力したテキストを、内容に応じて意味段落に分割する「テキストセグメンテーション」と呼ばれる技術が開発されている。テキストデータベースの分類や整理を、計算機が行う場合、上記テキストセグメンテーションが応用されつつある。テキストセグメンテーションの1つの代表的な方法として、概念ベースと呼ばれる情報を用いて、テキストセグメンテーションを行う技術が提案されている(たとえば、特許文献1参照)。
【0004】
この提案技術では、ある単語と、それに共起するパターンとを数値ベクトル化した概念ベクトルを、予め蓄積されている学習データから、複数作成する。そして、概念ベクトルの集まりである概念ベースを利用し、テキストセグメンテーションを行う。学習データは、1つの分野に関するテキスト(たとえば、「政治」の分野だけに関するテキスト)が、数多く蓄積されている。
【0005】
また、1種類の長さのブロックに対する連結度に基づいて、文間の意味的連続性を評価することが知られている(たとえば、非特許文献1参照)。この従来例では、ブロックの長さが短い場合、局所的な意味内容の変化に追従し易い代わりに、過剰に意味段落を推定する可能性が高い。反対に、ブロックの長さが長い場合、大域的な意味内容の変化を捉え易い代わりに、緩やかに意味内容が変化するテキストに対処できない。
【特許文献1】特開2002−342324号公報
【非特許文献1】Hearst, M.A., : Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16(1994)
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし、従来のテキストセグメンテーション手法の精度を高めるためには、大規模な学習データを用意しなくてはならない。よって、学習データが小規模である場合、概念ベースを適切に作成することができず、テキストセグメンテーションの精度が低下するという問題がある。
【0007】
また、事前に用意した学習データに含まれている分野に対応しているので、異なる分野のテキストについて、テキストセグメンテーションを行うことができない。たとえば、「政治」や「経済」に関する情報だけが、学習データに蓄積されている場合、「スポーツ」の分野のテキストをテキストセグメンテーションすることは困難である。
【0008】
本発明は、学習データを必要としないテキストセグメンテーション方法、その装置、プログラム、および記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は、入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定部とを有することを特徴とするテキストセグメンテーション装置である。
【発明の効果】
【0010】
本発明によれば、テキストセグメンテーションする場合、ウェブで検索する概念を利用するので、学習データを事前に用意する必要がないという効果を奏する。
【発明を実施するための最良の形態】
【0011】
発明を実施するための最良の形態は、以下の実施例である。
【実施例1】
【0012】
図1は、本発明の実施例1であるテキストセグメンテーション装置100を示すブロック図である。
【0013】
テキストセグメンテーション装置100は、学習データを使用せずに、入力したテキストをテキストセグメンテーションする装置であり、上記入力したテキストに基づいてウェブ検索し、このウェブ検索されたテキストを解析し、この解析されたテキストの内容に応じて、上記入力したテキストを分割する装置であり、コンピュータで構成されている。
【0014】
テキストセグメンテーション装置100は、テキスト分解部1と、検索語抽出部2と、関連語取得部3と、連結性判定部4と、分解文章記憶部M1と、検索語記憶部M2と、関連語記憶部M3と、意味段落記憶部M4と、入力部5と、制御部6と、出力部7とを有する。
【0015】
テキスト分解部1は、入力したテキストT1を、文単位に分解する。
【0016】
検索語抽出部2は、テキスト分解部1が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する。
【0017】
関連語取得部3は、検索語抽出部2が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する。
【0018】
連結性判定部4は、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、入力したテキストT1を分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、入力したテキストT1を分割する。
【0019】
入力部5は、テキストT1を入力する。制御部6は、テキストセグメンテーション装置100の全体を制御する。
【0020】
出力部7は、連結性判定部4が分割したテキストを出力する。
【0021】
分解文章記憶部M1は、テキスト分割部1が分割した文を記憶する。
【0022】
検索語記憶部M2は、検索語抽出部2が抽出した検索語を記憶する。
【0023】
関連語記憶部M3は、関連語取得部3が取得した関連語を記憶する。
【0024】
意味段落記憶部M4は、連結性判定部4が抽出した意味段落を格納する。
【0025】
テキストセグメンテーション装置100に、ネットワークNW1が接続され、ウェブW1に、アクセスすることができる。ウェブW1は、テキストセグメンテーション装置100の入力部5に、検索結果として入力されるテキストである。表示部D1は、出力部7を介して、制御部6が出力し結果を表示する装置である。
【0026】
次に、テキストセグメンテーション装置100の動作について説明する。
【0027】
図2は、テキストセグメンテーション装置100における処理手順の概要を示す図である。
【0028】
S1で、テキストセグメンテーションする対象であるテキストT1を入力する。このテキストが「入力したテキスト」T1である。S2で、テキスト分解部1が、入力したテキストT1を、文単位に分割する。S3で、分割された文から、名詞を抽出し、この抽出された名詞を検索語として使用する。S4で、検索語を用いて、ウェブ上で検索し、この検索されたテキストT2に含まれている名詞を関連語として使用する。S5で、検索語と関連語とを組にしてキーワード集合を作り、このキーワード集合に基づいて、入力したテキストT1を分解した複数の文のうちで、互いに内容的にまとまりがある文を、意味段落として抽出する。S6で、テキストセグメンテーション結果を出力する。
【0029】
次に、テキストセグメンテーションの処理手順を、より具体的に説明する。
【0030】
まず、入力部5を通じて、テキストT1を入力すると、制御部6が、テキスト分解部1を呼び出し、テキスト分解部1が、テキストT1を1文字ずつ読み込み、文単位で切り出し、N個の文を得る。そして、切り出されたN個の文を、制御部6が、分解文章記憶部M1に格納する。ここで、「文」は、句点「。」で区切られている一文である。
【0031】
図3は、本発明の実施例1において、入力したテキストT1の一例を示す図である。
【0032】
図4は、実施例1における分解文章記憶部M1に格納されている文の一例を示す図である。
【0033】
テキストT1は、1番目の文11と、2番目の文12と、3番目の文13と、4番目の文14と、5番目の文15と、6番目の文16と、7番目の文17と、8番目の文18と、9番目の文19とを有する。
【0034】
図3に示すテキストT1を、テキスト分解部1が分解し、図4に示すように、文単位に分解された9つの文11〜19が生成され、分解文章記憶部M1に格納される。
【0035】
テキスト分解部1が生成した文の個数は、入力したテキストT1によって異なる。また、意味的に複数に続く文である(句点「。」を使用せずに、複数の文が続く)場合や、句点「。」の入力ミスがある場合には、複数の文が1つの文として扱われる。
【0036】
次に、制御部6が、分解文章記憶部M1に格納されている各文から、検索語抽出部2に検索語を抽出させる。ここで、「検索語」は、ウェブ上で検索を行う際に入力する1つまたは複数の名詞である。検索語抽出部2は、最初に入力された文に、形態素解析を行う。そして、形態素解析によって名詞に分類された複数の単語を、検索語として取り出す。この取り出された検索語を、制御部6が、検索語記憶部M2に格納する。ただし、名詞を取り出すだけでは、「年」や「時」のように、一般的に使用される単語(検索語として意味がない単語)も抽出される。そこで、「年」や「時」等の不要語からなるリストである不要語リストL1を予め作成し、不要語リストL1に登録されていない名詞を検索語として扱う。
【0037】
図5は、実施例1における不要語リストL1の一例を示す図である。
【0038】
不要語リストL1には、不要単語が登録されている。
【0039】
検索語記憶部M2に格納されている検索語は、不要語リストL1によって変わる。
【0040】
また、ウェブ検索を行う際、適切な個数の単語でAND検索をすることが好ましい。そこで、名詞として抽出された単語の個数が、閾値S未満である場合、検索語抽出部2は、検索語を抽出せず、検索語記憶部M2には、何も単語を格納しない。
【0041】
逆に、名詞の個数Sが閾値T以上である場合、S個の検索語からT個の検索語をランダムに選択し、検索語記憶部M2に格納する。T=10、S=2である場合、検索語抽出部2が検索語を抽出すると、検索語が、検索語記憶部M2に格納される。
【0042】
図6は、実施例1において、検索語記憶部M2に格納されている検索語の一例を示す図である。
【0043】
検索語記憶部M2に格納されている検索語は、文11に対応する検索語21と、文12に対応する検索語22と、文13に対応する検索語23と、文14に対応する検索語24と、文15に対応する検索語25と、文16に対応する検索語26と、文17に対応する検索語27と、文18に対応する検索語28と、文19に対応する検索語29とである。
【0044】
文11〜18に対応する検索語21〜29を作成した後に、制御部6が、関連語取得部3を呼び出す。制御部6を介して、検索語抽出部2が抽出した検索語を、検索語記憶部M2から取り出し、関連語取得部3に入力する。
【0045】
関連語取得部3に入力された検索語を用い、ネットワークNW1を介して接続されているウェブW1上でAND検索する。AND検索することによって、検索語が全て含まれているテキストをウェブW1で検索することができる。ここで、ウェブW1で検索を行う際、検索結果は、検索語が入力された順序に影響しない。
【0046】
そして、検索されたテキストが作成された時期と、入力したテキストT1が作成された時期との差が少ない順に、検索されたテキストの中から、P個のテキストT2を取得する。ウェブW1に存在しているテキストには、通常、それが作成された日付が記録されているので、テキストT1が作成された日付との時間的な差を求めることができる。この時間的な差が少ないテキストを取得することによって、テキストT1との間で、より強く関連する記事(テキスト)を、ウェブW1から収集することができる。
【0047】
ここで、検索語記憶部M2に、検索語が存在しなければ、関連語取得部3がウェブ検索をせず、関連語記憶部M3に、何も格納しない。また、検索語の個数SがTと同じである場合、ウェブ検索を行わず、関連語記憶部M3に関連語を格納しない。
【0048】
次に、時間順に収集されたP個のテキストT2から、本文のテキストを抽出する。そして、時間順に収集されたP個のテキストT2から、本文のテキストを抽出する。テキストT2はHTMLやXML等の構造化言語で記述されているので、テキストT2内において本文の場所を示すタグ(タグは、「<」と、「>」と、これらによって囲まれている文字列とで構成されている)が付与されている。したがって、得られたテキストT2について、タグを解析することによって、テキストT2から本文のテキストを抽出することができる。
【0049】
そして、抽出された本文のテキストに、関連語取得部3が、形態素解析し、名詞を抽出する。ウェブ検索されたテキストT2に含まれている名詞が、関連語である。関連語の個数は、ウェブ検索した場合における検索語や、収集されたテキストT2の個数によって変わる。
【0050】
また、形態素解析によって抽出された名詞を全て関連語として使用すると、検索語抽出部2が抽出した場合と同様に、「年」や「月」等、普遍的に使用される単語が関連語として扱われる場合がある。そこで、関連語取得部3では、検索語抽出部2における処理と同様に、不要語リストL1を参照し、不要語を除く。そして、検索語がS個である場合、P個の本文のテキストから抽出した単語のうちで、出現頻度の高い順に、T−S個の単語を関連語とする。
【0051】
なお、Tは、予め与えられている数である。Sは、検索語の数である。上記T−S個の関連語を、制御部6を介して、関連語記憶部M3に格納する。つまり、各文において抽出された検索語と関連語との合計個数は、予め与えられた値Tになるようにする。このように、各文において抽出された検索語と関連語との合計個数を予め与えられた値Tになるようにするのは、どの文についても、連結性を平等に評価するためである。
【0052】
適切な関連語を得るためには、ウェブ検索で得られたテキストT2の数が、できるだけ多いことが望ましい。そこで、ウェブ検索によって得られたテキストT2の個数Pが、目標の個数であるP未満であれば、検索語を修正し、ウェブ上で再びAND検索し、テキストT2を収集する。
【0053】
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、再びテキストT2をP個検索し、収集する。たとえば、検索語が「富士山」、「ドライブ」、「スポーツ」である場合、S=3であり、S−1=2個の検索語を選ぶと、「ドライブ」、「スポーツ」の組み合わせ、「富士山」、「スポーツ」の組み合わせ、「富士山」、「ドライブ」の組み合わせができ、合計、3つの組み合わせができる。この3つの組み合わせで検索件数が最も多いものを使って、ウェブW1上で再びAND検索を行う。
【0054】
そして、テキストT2の個数PがP以上になるまで、検索語の修正とウェブ検索とを繰り返し、P≧Pになれば、テキストT2からT−S個の関連語を抽出する。
【0055】
検索語を修正しても、収集されるテキストT2の個数がP以上にならなければ、元のS個の検索語を、検索語記憶部M2に残し、関連語記憶部M3には、関連語として何も格納しない。
【0056】
図6に示す検索語21〜29について、予め与えられた値T=10、検索されたテキストT2の個数P=20、ウェブ検索によるテキストT2の目標検索件数P=20であるとした場合、関連語取得部3が関連語を取得する。
【0057】
図7は、実施例1において、関連語記憶部M3に格納されている関連語の一例を示す図である。
【0058】
図7に示す関連語記憶部M3に格納されている関連語は、検索語21に対応する関連語31と、検索語22に対応する関連語32と、検索語23に対応する関連語33と、検索語24に対応する関連語34と、検索語25に対応する関連語35と、検索語26に対応する関連語36と、検索語27に対応する関連語37と、検索語28に対応する関連語38と、検索語29に対応する関連語39とである。
【0059】
そして、分解文章記憶部M1に格納されている全ての文に対して、検索語抽出部2による検索語抽出と、関連語取得部3による関連語取得とが終了すると、制御部6は、連結性判定部4に、分割された文同士の連結性を判定させる。つまり、連結性判定部4は、検索語記憶部M2に格納されている検索語と、関連語記憶部M3に格納されている関連語とを、制御部6を介して、読み出し、これらを組み合わせて、キーワード集合を作成する。つまり、上記キーワード集合は、検索語と関連語との組み合わせである。
【0060】
図8は、実施例1において、連結性判定部4が作成したキーワード集合の一例を示す図である。
【0061】
図8に示すキーワード集合は、キーワード集合51、52、53、54、55、56、57、58、59である。キーワード集合51は、検索語21と関連語31との組によって生成されたキーワード集合である。キーワード集合52は、検索語22と関連語32との組によって生成されたキーワード集合である。キーワード集合53は、検索語23と関連語33との組によって生成されたキーワード集合である。
【0062】
キーワード集合54は、検索語24と関連語34との組によって生成されたキーワード集合である。キーワード集合55は、検索語25と関連語35との組によって生成されたキーワード集合である。キーワード集合56は、検索語26と関連語36との組によって生成されたキーワード集合である。キーワード集合57は、検索語27と関連語37との組によって生成されたキーワード集合である。キーワード集合58は、検索語28と関連語38との組によって生成されたキーワード集合である。キーワード集合59は、検索語29と関連語39との組によって生成されたキーワード集合である。
【0063】
検索語がなければ、検索語に対応する関連語も存在しないので、連結性判定部4は、キーワード集合を作成しない。また、検索語が存在するが、関連語が存在しない場合、検索語のみによって、キーワード集合を作成する。
【0064】
キーワード集合は、本文の内容を反映する単語である。テキストT1のうちで、最初の文11から、文12、13、…………と進むに従って、各キーワード集合に含まれている単語が変化し、この単語を調べることによって、テキストT1の本文における内容の変化を捉えることができる。
【0065】
そこで、連結性判定部4は、生成された複数のキーワード集合を、互いに比較し、内容的にまとまっている(類似している)一文または複数の文を検出し、つまり、これら検出された内容的にまとまっている一文または複数の文によって構成されている意味段落を抽出する。この抽出された意味段落は、制御部6を通じて、意味段落記憶部M4に格納される。
【0066】
キーワード集合を互いに比較する場合、テキストは先頭から順に書かれていることが一般的であるので、テキストの先頭から順に、複数のキーワード集合を互いに比較する。具体的には、i番目のキーワード集合を基準にし、i+1−b番目(1≦b)からi番目までのキーワード集合が含まれているブロックB1と、i+1番目からi+b番目までのキーワード集合が含まれているブロックB2を作成する。ここで、bは、ブロック(少なくとも1つの文を有する塊)に含まれているキーワード集合の個数であり、つまり、ブロックの幅である。
【0067】
すなわち、基準の文であるi番目の文の前後の複数の文に対応するキーワード集合を見ることによって、本文の内容を解析する。
【0068】
ここで、ブロックB1とB2とを作成する際に、単語が存在しないキーワード集合は、ブロックに含めない。このようにする代わりに、空のキーワード集合の情報を保存する変数Hに文の番号を追加する。たとえば、図8において、2番目の文に対するキーワード集合は空であるので、変数Hに2番目の文の番号を代入し、H={2}になる。
【0069】
2つのブロックB1とB2とを作成した後に、各ブロックについて、キーワード集合に含まれている単語tの頻度wを計算する。そして、2つのブロックに含まれている全ての単語の頻度を求めた後に、i番目の文とi+1番目の文との連結度(類似している度合)Cを、単語tの頻度wを用い、以下の式(1)で評価する。
【0070】
【数1】

B1は、ブロックB1における単語tの出現頻度であり、wB2は、ブロックB2における単語tの出現頻度である。また、fB1、fB2は、それぞれブロックB1、B2に含まれている空でないキーワード集合の個数である。i番目の文とi+1番目の文との連結度Cは、0以上1以下の値を取り、1に近いほど、ブロックB1とB2とに含まれている単語が同じである。つまり、連結度Cが1に近いほど、ブロックB1とB2とに含まれている単語のうちで、互いに同じ単語の割合が多い。共通単語抽出部31は、i={1,2,…,N}と変化させ、C,C,…,Cを計算する。さらに、ブロックの幅bが
【0071】
【数2】

であると設定し、各ブロック幅に対して、連結度Cを計算し、この計算された平均値が、i番目の文と、i+1番目の文とにおける平均連結度Cであるとする。
【0072】
【数3】

#bは、ブロック幅のパラメータbの個数であり、パラメータbに含まれている要素数である。たとえば、N=10である場合、式(2)に記載されているbmaxの条件式から、bmax=2である。この結果、上記「数2」に示す式から、b={1,2,4}であり、パラメータbには、3個のパラメータが設定される。したがって、#b=3になる。
【0073】
ここで、ブロックB1とB2とのそれぞれにおいて、ブロックに含まれている空ではないキーワード集合の個数が、bに満たない場合、重み(b/f)によって、頻度wが調整される。具体的には、たとえばi=1、b=2であるときに、ブロックB1には、空でないキーワード集合が1つしか含まれないので、単語の頻度が2倍される。
【0074】
平均連結度C(但し、i={1,2,…,N})を用い、Cから順に、平均連結度が閾値Cを超えるかどうかを調べることによって、入力したテキストT1に記載されている内容の変化を解析する。具体的には、平均連結度Cが、閾値C以上であれば、i番目の文と、i+1番目の文との内容は同じであると判断し、変数Gに文の番号iを追加する。一方で、閾値C未満であれば、i番目の文と、i+1番目の文とで、内容が変化したと判断する。
【0075】
その際に、変数Gに保存されている文番号を、j番目の意味段落に属する文であるとして、制御部6を介して、意味段落記憶部M4に格納する。また、変数Hに含まれている文番号の中で、j番目の意味段落の範囲内に含まれるものが存在する場合には、その文の番号も、j番目の意味段落として割り当て、意味段落記憶部M4に格納する。
【0076】
そして、変数Gの内容を、初期化し、j=j+1としてi+1番目の平均連結度から、上記処理を再び開始し、平均連結度Cの値まで調べ、意味段落の情報を、意味段落記憶部M4に格納した時点で、連結性判定部4は、比較処理を終了する。
【0077】
ここで、意味段落の番号jと、変数Gと、変数Hとは、連結性判定部4を実行する際に初期化される。
【0078】
図9は、実施例1において、意味段落記憶部M4に格納されている意味段落の一例を示す図である。
【0079】
つまり、図9は、C=0.1とし、図8に示すキーワード集合51〜59に、連結性判定部4が連結性を判定した結果を示す図である。図9において、符号41が示すものは、連結性判定部4が検出した1つ目の意味段落(段落番号1の意味段落)に属する文の番号である。符号42が示すものは、連結性判定部4が検出した2つ目の意味段落(段落番号2の意味段落)に属する文の番号である。ここで、2番目のキーワード集合は空であるが、2番目の文は1つ目の意味段落の範囲内にあるので、1つ目の意味段落に追加されている。一方、どの意味段落にも割り当てられなかった変数Hにある文は、それぞれの文が1つの意味段落として扱う。
【0080】
連結性判定部4が処理を終了すると、制御部6が出力部7を呼び出し、テキストT1についてテキストセグメンテーションした結果を、表示部D1に表示する。具体的には、意味段落記憶部M4を参照し、意味段落記憶部M4に格納されている文番号を表示する。たとえば、符号41と42とが示す文番号を表示するようにしてもよく、段落番号とともに、符号41と42とが示す文番号を同時に表示するようにしてもよい。
【0081】
パラメータT、S、P、P、Cを変化することによって、上記実施例における計算時間や精度を調整することができる。つまり、パラメータTと、S、P、Pとを調整すれば、ウェブ検索で得られた関連語の抽出精度や計算時間を調整することができる。また、パラメータCによって、本文における内容の変化を捉える敏感さを、調整することができる。
【0082】
また、変数Hに代入されている文番号に対応する文は、意味的な内容が把握しにくい場合がある。そこで、変数Hに代入されている文番号を無視することによって、内容的に明確な文のみを対象とするテキストセグメンテーションを行うこともできる。
【0083】
上記実施例において、ウェブ検索する際に、入力したテキストT1の作成時期との差が少ない順に、テキストを収集するので、入力したテキストT1の内容に関連性の高い単語を収集することができる。なお、時間的な差を考慮せずに、得られた検索結果で、参照されているP個のテキストT2を使用すれば、ある程度の精度で関連語を収集することができる。
【0084】
また、ウェブ検索で得られたテキストT2の個数PがP未満である場合、検索語を修正し、再検索を行うので、各文に検索語と関連語との組からなるキーワード集合を割り当てることができる。
【0085】
さらに、上記実施例によれば、ウェブ検索で得られたテキストT2の個数PがP未満である場合、再検索を行わず検索語だけを用いてキーワード集合を作成するようにしてもよい。この場合、基準となる文に対して、前後に所定の複数のキーワード集合を考慮しているので、少ない計算時間で、実用的な精度で、本文の内容を解析し、テキストセグメンテーションすることができる。
【0086】
上記実施例によれば、テキストセグメンテーションにおいて、ウェブで検索する概念を利用するので、学習データを事前に用意する必要がない。
【0087】
また、上記実施例は、莫大なテキストデータを扱う分野やニュース記事を配信する分野において、データベースの管理・更新を自動的に行う支援策として応用できる。
【0088】
また、上記実施例は、解析対象となるテキストに関して、学習データを使用せずに、ウェブ検索によって、幅広い分野における関連語を収集できるので、記述内容や作成時期に制約が少ないという利点がある。
【0089】
さらに、上記実施例は、内容的なまとまりに分割されているので、所定のキーワードを含み、内容的に関連のある文章だけを、収集する技術に利用することができる。
【0090】
ここで、ウェブは、インターネット等のネットワークを介して、アクセスできるHTMLやXML等の構造化言語で記述されているテキストの集合である。現在、ウェブ上には、膨大な情報が蓄積され、最新の話題も常に提供されている。つまり、ウェブは、様々な情報を持つ辞書として捉えることができる。実際、我々は、ある事に関して調べる際、検索サイトで検索語を入力し、ウェブ上で検索し、単語の意味や物事の内容を調べている。この観点から、学習データを使用しなくても、ウェブ上にある情報を適切に利用すれば、「サッカー」や「野球」に対応する概念は、「スポーツ」や「ボール」であることを取得できると言える。
【0091】
この結果、ウェブ上に存在している様々な情報から、着目しているテキストの記述内容に応じた単語を取得することができ、文同士の関連性を幅広く比較し、文の内容を追跡し、内容的なまとまり(上記実施例では、「意味段落」と呼ぶ)で分割することができる。したがって、事前に学習データを用意する必要がなく、様々な分野に対応するテキストセグメンテーションを実現することができる。
【0092】
つまり、上記実施例は、入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定部を有する。
【0093】
この場合、入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストセグメンテーション装置である。
【0094】
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集する。
【0095】
また、上記テキストセグメンテーション装置は、検索不要語リストと、上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外する手段とを有する。
【0096】
さらに、入力したテキストに関してウェブ検索し、このウェブ検索の結果に応じて、上記入力したテキストを分割するテキストセグメンテーション方法であって、上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と、上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と、上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、連結性判定部が、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定工程とを有するテキストセグメンテーション方法である。
【0097】
入力したテキストの作成時期との差が少ない順に、テキストを収集する。
【0098】
しかも、検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集する。
【0099】
そして、検索不要語リストと、上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外する。
【0100】
また、上記実施例は、請求項5〜請求項7記載のいずれか1つの方法をコンピュータに実行させるプログラムである。
【0101】
さらに、上記実施例は、請求項8記載のプログラムを記録したコンピュータ読取可能な記録媒体である。
【図面の簡単な説明】
【0102】
【図1】本発明の実施例1であるテキストセグメンテーション装置100を示すブロック図である。
【図2】テキストセグメンテーション装置100における処理手順の概要を示す図である。
【図3】本発明の実施例1において、入力したテキストT1の一例を示す図である。
【図4】実施例1における分解文章記憶部M1に格納されている文の一例を示す図である。
【図5】実施例1における不要語リストL1の一例を示す図である。
【図6】実施例1において、検索語記憶部M2に格納されている検索語の一例を示す図である。
【図7】実施例1において、関連語記憶部M3に格納されている関連語の一例を示す図である。
【図8】実施例1において、連結性判定部4が作成したキーワード集合の一例を示す図である。
【図9】実施例1において、意味段落記憶部M4に格納されている意味段落の一例を示す図である。
【符号の説明】
【0103】
100…テキストセグメンテーション装置、
1…テキスト分解部、
2…検索語抽出部、
3…関連語取得部、
4…連結性判定部、
M1…分解文章記憶部、
M2…検索語記憶部、
M3…関連語記憶部、
M4…意味段落記憶部、
5…入力部、
6…制御部、
7…出力部、
NW1…ネットワーク、
W1…ウェブ、
T1…入力部から入力されるテキスト、
T2…ウェブ検索して得たテキスト、
L1…不要語リスト、
T…予め与えられている数、
S…検索語の数。

【特許請求の範囲】
【請求項1】
入力したテキストを、文単位に分解するテキスト分解部と;
上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と;
上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と;
上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士であるブロックを抽出することによって、上記入力したテキストを分割する連結性判定部と;
を有することを特徴とするテキストセグメンテーション装置。
【請求項2】
請求項1において、
入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストセグメンテーション装置。
【請求項3】
請求項1において、
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストセグメンテーション装置。
【請求項4】
請求項1において、
検索不要語リストと;
上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストセグメンテーション装置。
【請求項5】
入力したテキストに関してウェブ検索し、このウェブ検索の結果に応じて、上記入力したテキストを分割するテキストセグメンテーション方法であって、
上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と;
上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と;
上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と;
上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、連結性判定部が、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士であるブロックを抽出することによって、上記入力したテキストを分割する連結性判定工程と;
を有することを特徴とするテキストセグメンテーション方法。
【請求項6】
請求項5において、
入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストセグメンテーション方法。
【請求項7】
請求項5において、
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストセグメンテーション方法。
【請求項8】
請求項5において、
検索不要語リストと;
上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストセグメンテーション方法。
【請求項9】
請求項5〜請求項7記載のいずれか1つの方法をコンピュータに実行させるプログラム。
【請求項10】
請求項8記載のプログラムを記録したコンピュータ読取可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2009−15795(P2009−15795A)
【公開日】平成21年1月22日(2009.1.22)
【国際特許分類】
【出願番号】特願2007−180311(P2007−180311)
【出願日】平成19年7月9日(2007.7.9)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】