説明

テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

【課題】学習データを必要とせずにテキストセグメンテーションが可能なWeb検索を利用したテキストセグメンテーションを実現する。
【解決手段】本発明は、入力されたテキストを文単位に分割し、分割された文を形態素解析し、形態素解析された名詞、副詞、動詞、形容詞、形容動詞を検索語として抽出し、検索語に基づいてウェブ検索したテキストを形態素解析し、解析された形態素のうちで、名詞、副詞、動詞、形容詞、形容動詞を関連語として取得し、検索語と関連語との組み合わせであるキーワード集合を用いて、入力テキストを分割した複数の文同士の連結性を判定し、該連結性の谷と谷の間にある文同士である意味段落を抽出することによって入力テキストを分割する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Web検索を利用したテキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、テキストを計算機上で利用する分野において、テキスト(各種記事や物語などの文章)中の各文の意味内容を推定し、テキストを意味的なまとまり毎に分割するWeb検索を利用したテキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
【背景技術】
【0002】
近年、急速な計算機の性能向上に伴い、莫大なテキスト(ここでは、文字列だけで構成される文の集合)を蓄積し、データベースを構築することが可能になった。しかし、保存されたテキストを人手で整理・管理することは一般的に困難となってきている。そこで、蓄積されたテキストデータベースを解析し、テキストを意味的な内容(意味段落と呼ぶ)に応じて分割するテキストセグメンテーションと呼ばれる技術が開発されており、テキストデータベースの分類や整理を計算機で自動的に行うことに応用されつつある。例えば、概念ベースと呼ばれる情報を用いてテキストセグメンテーションを行う技術がある(例えば、特許文献1参照)。
この技術ではある単語とそれに共起するパターンを数値ベクトル化した概念ベクトルを予め蓄積した学習データから複数作成する。そして、概念ベクトルの集まりである概念ベースを利用してテキストセグメンテーションを行う。学習データは一つの分野に関する(例えば、「政治」の分野だけに関する)テキストが数多く蓄積されている。
また、従来のテキストセグメンテーションでは複数の文間に対する連結度に基づいて文間の意味的連続性を評価する方法が主である(例えば、非特許文献1参照)。この従来の技術では、連結度を算出する際に考慮する文の個数が少ない場合には、局所的な意味内容の変化に追従し易い代わりに、過剰に意味段落を推定する可能性が増える。一方で、考慮する文の個数が多い場合には、大域的な意味内容の変化を捉えることができる代わりに穏やかに意味内容が変化するテキストに対して対処することが難しい。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−342324号公報
【非特許文献】
【0004】
【非特許文献1】Hearst, M.A.,:Multi-Paragraph Segmention of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16 (1994)
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来のテキストセグメンテーション手法の精度を高めるためには、大規模な学習データを用意しなくてはならない。そのため、学習データが小規模な場合には概念ベースを適切に作成できずテキストセグメンテーションの精度が低下する問題がある。
また、事前に用意した学習データに含まれている分野に対応できる反面、異なる分野のテキストに対してテキストセグメンテーションを行うことができない。例えば、学習データに『政治』や『経済』に関する情報だけが蓄積されている場合、『スポーツ』の分野のテキストに対してテキストセグメンテーションは困難となる。
【0006】
本発明は、上記の点に鑑みなされたもので、学習データを必要とせずにテキストセグメンテーションが可能なWeb検索を利用したテキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0007】
図1は、本発明の原理構成図である。
【0008】
本発明(請求項1)は、テキストを内容に応じて分割するテキストセグメンテーション装置であって、
入力されたテキストを文単位に分割するテキスト分解手段201と、
テキスト分解手段201により分割された文を形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を検索語として抽出し、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段212に格納する検索語抽出手段211と、
検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を関連語として取得し、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を取得し、関連語記憶手段222に格納する関連語取得手段221と、
検索語記憶手段212から検索語を取得し、関連語記憶手段222から関連語を取得し、該検索語と該関連語との組み合わせであるキーワード集合を用いて、入力テキストを分割した複数の文同士の連結性を判定し、該連結性の谷と谷の間にある文同士である意味段落を抽出することによって入力テキストを分割する連結性判定手段231と、
を有し、
連結性判定手段231は、
キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度を、単語tの出現頻度を用いて、
【数13】


(但し、wB1はブロックB1にある単語tの頻度、wB2はブロックB2にある単語tの頻度を表す。
【数14】


は0以上1以下の値を取り、1に近いほどブロックB1とブロックB2に含まれている単語が同じであることを表す)
により求める手段と、
i={1,2,…,N}と変化させ、
【数15】


を計算し、ブロックの大きさbのパラメータをb=(b,b,…,b)とM個設定して各ブロック幅に対して連結度
【数16】


を計算し、それらの平均値をi番目とi+1番目の文における平均連結度Ciとして、
【数17】


により求める手段と、
平均連結度Ci(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を、条件
【数18】


に基づいて抽出し、該谷に基づいて意味段落を取得する手段と
を含む。
【0009】
【0010】
【0011】
【0012】
【0013】
【0014】
【0015】
【0016】
また、本発明(請求項2)は、連結性判定手段231において、
複数個の閾値Cを用いて平均連結度Cを算出し、意味段落を抽出する手段を含む。
【0017】
【0018】
図2は、本発明の原理を説明するための図である。
【0019】
本発明(請求項3)は、テキストを内容に応じて分割する装置におけるテキストセグメンテーション方法であって、
テキスト分解手段が、入力されたテキストを文単位に分割するテキスト分解ステップ(ステップ1)と、
検索語抽出手段が、テキスト分解ステップにおいて分割された文を形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を検索語として抽出し、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出ステップ(ステップ2)と、
関連語取得手段が、検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を関連語として取得し、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を取得し、関連語記憶手段に格納する関連語取得ステップ(ステップ3)と、
連結性判定手段が、検索語記憶手段から検索語を取得し、関連語記憶手段から関連語を取得し、該検索語と該関連語との組み合わせであるキーワード集合を用いて、入力テキストを分割した複数の文同士の連結性を判定し(ステップ4)、平均連結度の谷が検出された場合には(ステップ5)、該連結性の谷と谷の間にある文同士である意味段落を抽出する(ステップ6)ことによって入力テキストを分割する連結性判定ステップと、
を行い、
連結性判定ステップにおいて、
キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度を、単語tの出現頻度を用いて、
【数19】


(但し、wB1はブロックB1にある単語tの頻度、wB2はブロックB2にある単語tの頻度を表す。
【数20】


は0以上1以下の値を取り、1に近いほどブロックB1とブロックB2に含まれている単語が同じであることを表す)
により求めるステップと、
i={1,2,…,N}と変化させ、
【数21】


を計算し、ブロックの大きさbのパラメータをb=(b,b,…,b)とM個設定して各ブロック幅に対して連結度
【数22】


を計算し、それらの平均値をi番目とi+1番目の文における平均連結度Ciとして、
【数23】


により求めるステップと、
平均連結度Ci(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を、条件
【数24】


に基づいて抽出し、該谷に基づいて意味段落を取得するステップと、を含む。
【0020】
【0021】
【0022】
【0023】
【0024】
【0025】
【0026】
【0027】
また、本発明(請求項4)は、連結性判定ステップにおいて、
複数個の閾値Cを用いて平均連結度Cを算出し、意味段落を抽出する。
【0028】
【0029】
本発明(請求項5)は、請求項1または2に記載のテキストセグメンテーション装置を構成する各手段としてコンピュータを機能させるテキストセグメンテーションプログラムである。
【0030】
本発明(請求項6)は、請求項5記載のテキストセグメンテーションプログラムを格納したコンピュータ読取可能な記録媒体である。
【発明の効果】
【0031】
上記のように、本発明によれば、Webで検索する概念を利用することで学習データを事前に用意する必要がないテキストセグメンテーション技術が期待できる。この記述は莫大なテキストデータを扱う分野やニュース記事を配信する分野において、データベースの整理・更新を自動的に行う支援策として応用できる。また、解析対象となるテキストに関して、学習データを使用せずにWeb検索により幅広い分野における関連語を収集できるという点から記述内容や作成時期に制約が少ないと言う利点がある。
【0032】
更に、内容的なまとまりに分割されている点から、あるキーワードを含む内容的に関連のある文章だけを収集する技術として利用できる。
【0033】
本発明において、検索語に名詞、副詞、形容詞、形容動詞、動詞の終止形を利用することで、ニュース記事やブログ記事など、テキストの内容や書き方に幅広く対応することができる。また、本発明では、検索語として使用できる単語として形態素解析で得られる全ての品詞を使用することもできる。得られる単語は、活用するか活用しないかの二通りだけなので、活用形の無い単語はそのまま使用し、活用形のある単語は全て終止形に変換することで、全ての品詞の単語を検索語として利用できる。
【図面の簡単な説明】
【0034】
【図1】本発明の原理構成図である。
【図2】本発明の原理を説明するための図である。
【図3】本発明の第1の実施の形態におけるウェブ検索を利用したテキストセグメンテーション装置の構成図である。
【図4】本発明の第1の実施の形態における処理手順の概要を示すフローチャートである。
【図5】本発明の第1の実施の形態におけるテキストの例である。
【図6】本発明の第1の実施の形態における分解文章記憶部に格納された文の例である。
【図7】本発明の第1の実施の形態における一般語リストに登録されている一般語の例である。
【図8】本発明の第1の実施の形態における検索語記憶部に格納された検索語の例である。
【図9】本発明の第1の実施の形態における関連語記憶部に格納された関連語の例である。
【図10】本発明の第1の実施の形態における連結性判定処理部で作成されるキーワード集合の例である。
【図11】本発明の第1の実施の形態における意味段落記憶部に格納された文番号の例である。
【図12】本発明の第1の実施の形態における関連語取得処理部の処理のフローチャートである。
【図13】本発明の第2の実施の形態におけるウェブ検索を利用したテキストセグメンテーションシステムの構成図である。
【図14】本発明の第2の実施の形態における処理手順の概要を示すフローチャートである。
【図15】本発明の第2の実施の形態における意味段落記憶部に格納された文番号の例である。
【発明を実施するための形態】
【0035】
以下、図面と共に本発明の実施の形態を説明する。
本発明は、Webで検索を行う概念に着目した新しいテキストセグメンテーション技術を用いる。現在Web上には膨大な情報が蓄積されており、最新の話題も常に提供されている。つまり、Webは様々な情報を持つ記事の集合として捉えることができる。実際、我々はある事に関して調べる際、検索サイトで検索語を入力してWeb上で検索を行い、単語の意味や物事の内容を調べている。その観点から学習データを使用しなくてもWeb上にある情報を適切に利用すれば、「サッカー」や「野球」に対応するのは「スポーツ」や「ボール」という概念を取得できると言える。つまり、Web上にある様々な情報を基にテキストの内容に応じた単語を取得し、文同士の関連性を単語の変化によって追跡することで意味段落に分割することができる。
【0036】
[第1の実施の形態]
図3は、本発明の第1の実施の形態におけるウェブ検索を利用したテキストセグメンテーションシステムの構成を示す。
【0037】
同図に示すシステムは、コンピュータ251、ネットワーク252、ウェブ253、表示部256から構成される。コンピュータ251にはネットワーク252が接続されており、ウェブ253にアクセスできる。ウェブ253には複数のHTMLやXML等の構造化言語で記述された記事254が蓄積されている。
【0038】
コンピュータ251は、テキスト分解処理部201、分解文章記憶部202、検索語抽出処理部211、検索語記憶部212、関連語取得処理部221、関連語記憶部222、連結性判定処理部231、意味段落記憶部232、入力部241、出力部242から構成される。テキスト255はコンピュータ251の入力部241に入力されるテキストである。表示部256は制御部240から出力部242を通じて出力された結果を表示するための装置である。
【0039】
図4は、本発明の第1の実施の形態における処理手順の概要を示すフローチャートである。
【0040】
まず、コンピュータ251の入力部241にテキストが入力され(ステップ101)、テキスト分割処理部201において入力されたテキストを文単位に分割し(ステップ102)、検索語抽出処理部211において文から検索語を抽出し(ステップ103)、関連語取得処理部221において検索語を用いてウェブ上で検索を行い検索結果から関連語を取得する(ステップ104)。連結性判定処理部231において、検索語と関連語を組にしたキーワード集合から意味段落を抽出する(ステップ105)。最後に出力部242からテキストセグメンテーション結果を出力する(ステップ106)。
【0041】
図5は、本発明の第1の実施の形態におけるテキストの一例を示す。
【0042】
同図において、テキスト255は入力部241に入力されるテキストの例である。
【0043】
図6は、本発明の第1の実施の形態における分解文章記憶部に格納された文の一例を示す。入力部241からテキスト255が入力されると、テキスト分解処理部201によって複数個の文章に分解され、分解文章記憶部202に格納される。
【0044】
図7は、本発明の第1の実施の形態における一般語リストに登録されている一般語の例である。当該一般語リストはメモリ(図示せず)に格納されており、同図において、kは一般語リストに登録されている単語であり、検索語抽出処理部211と関連語取得処理部221により参照される。
【0045】
図8は、本発明の第1の実施の形態における検索語記憶部に格納された検索語の一例を示す。同図において、例えば、図6の1番目の分解文章から検索語抽出処理部211によって「ドライブ 高速道路」が抽出され、検索語記憶部212に格納される。
【0046】
図9は、本発明の第1の実施の形態における関連語記憶部に格納された関連語の一例を示す。関連語取得処理部221は、検索語記憶部212から取得した検索語に対応する関連語をメモリ(図示せず)の一般語リストに登録されているものを除いた単語から抽出して、当該検索語に対応する関連語として関連語記憶部212に格納する。
【0047】
図10は、本発明の第1の実施の形態における連結性判定処理部において作成されたキーワード集合の一例を示す。同図に示すキーワード集合は連結性判定処理部231内のメモリ(図示せず)に格納される。連結性判定処理部231は、検索語と関連語の組からキーワード集合を生成し、意味段落記憶部232に格納する。例えば、同図の例において、図8の検索語「ゴルフ、ショット、仕事、打ちっぱなし、弾道、練習」と、当該検索語に対応する図9の関連語「打つ、ボール、スコア、スイング、飛距離、買う、ラウンド、ドライバー、初心者、受ける、購入、感じる、アイアン、かける」の組から図10に示す「ゴルフ、ショット、仕事、打ちっぱなし、弾道、練習、打つ、ボール、スコア、スイング、飛距離、買う、ラウンド、ドライバー、初心者、受ける、購入、感じる、アイアン、かける」からなるキーワード集合が得られ、これらを、メモリ(図示せず)に格納する。
【0048】
図11は、本発明の第1の実施の形態における意味段落記憶部に格納された意味段落の一例を示す。同図において、ある閾値に対応する意味段落番号毎に、連結性判定処理部231で検出された意味段落に属する文の番号を格納する。
【0049】
以下、上記の構成におけるテキストセグメンテーションの処理手順を具体的に説明する。
【0050】
図12は、本発明の第1の実施の形態における関連語取得処理部の処理のフローチャートである。
【0051】
まず、テキスト255が入力部241を介して入力されると(ステップ101)、制御部240からテキスト分解処理部201が呼び出される。テキスト分解処理部201では、テキスト255を一文字ずつ読み込み、文単位で切り出しN個の文を取得し、制御部240を介して、分解文章記憶部202に格納する。ここで、文は句点「。」で区切られる一文を指す。テキスト255の一例は図5に示すようなテキスト255に対してテキスト分解処理部201の処理を実行すると、図6に示すように文単位に分解された9つの文が生成され、分解文章記憶部202に格納される(ステップ102)。テキスト分解処理部201において生成される文の個数は入力されるテキストによって異なる。また、意味的に複数に続く文や句点「。」の入力ミスの場合には、複数の文が一つの文として扱われる。
【0052】
次に、分解文章記憶部202に格納されたそれぞれの文に対して、制御部240により検索語抽出処理部211が起動される。検索語とは、ウェブ上で検索を行う際に入力する一つまたは複数の単語を指す。初めに、検索語抽出処理部211は、最初に入力された文に対して形態素解析を行う。そして、形態素解析により名詞、副詞、形容詞、形容動詞、動詞の4つに分類された単語を検索語として取り出し、制御部240を介して検索語記憶部212に格納する。その際、形容詞、形容動詞、動詞の三つに関しては活用形を全て終止形に直した単語を使用する。
【0053】
ここで、抽出された単語には「年」や「ある」のような一般的に使用される単語(以下、一般語と記す)も含まれる。そこで、図7に示すような一般語リストを予め作成し、メモリ(図示せず)に格納しておき、一般語リストに登録されていない単語を検索語として扱う。一般語のリストは図7に示す通りである。検索語記憶部211に格納される検索語は一般語リストによって変わる。
【0054】
また、ウェブ検索を行う際に適切な個数の単語でAND検索をする方が好ましい。そこで、抽出された単語の個数が所定の閾値S未満の場合には、検索語抽出処理部211では検索語は抽出せず、検索語記憶部212に単語は何も格納しない。逆に、抽出単語の個数Sが閾値T以上の場合には、S個の検索語からT個の検索語をランダムに選択し、検索語記憶部212に格納する。T=20,S=2の場合において、検索語抽出処理部211を起動させると、図8のような検索語が検索語記憶部212に格納される。
【0055】
図6の文から図8に示す検索語が作成された後、制御部240から関連語取得処理部221が起動される(ステップ201)。関連語取得処理部221では、初めに検索語抽出処理部211で抽出された検索語が制御部240を介して検索語記憶部212から取り出され、入力される(ステップ202)。次に、入力された検索語を用いてネットワーク252で接続されているウェブ253上でAND検索を行う(ステップ204)。AND検索を行うことで、検索語の入力する順序に影響せずウェブ253で検索することができる。そして、検索結果で参照されているウェブ253の中からテキスト255が作成された時期との差が少ない順にP個の記事254を取得する(ステップ205)。ウェブ253にある記事は作成された日付が一般的に記録されているため、テキスト255との時間的な差を測ることができる。この時間的な差を利用することで、テキスト255が作成された時期と内容に強く関連する記事をウェブ253から収集できる。
【0056】
このように、ウェブ検索を行う際に入力されるテキストの作成時期との差が少ない順にテキストを収集するが、入力されたテキストの内容に関連性の高い単語を収集するという点で最も好ましい。しかし、時間的な差を考慮せず、得られた検索結果で参照されているP個のテキスト254を使用することで、十分な精度で関連語を収集することもできる。
【0057】
ここで、検索語記憶部212に該当する検索語が存在しない場合には、関連語取得処理部221ではウェブ検索を行わず、関連語記憶部222に対して何も格納しない(ステップ203、No)。また、検索語の個数SがS=Tである場合にも(ステップ203、No)、ウェブ検索を行わず関連語記憶部222に関連語は格納しない。適切な関連語を得るためにはウェブ検索により得られる記事254の個数はできるだけ多い方がよい。そこで、ウェブ検索により得られるテキストの個数PがP未満の場合には(ステップ206、Yes)、検索語を修正し(ステップ207)、再びウェブ上でAND検索によりテキストを収集する(ステップ204,205)。具体的には、S個の検索語をW個減らして最も検索件数が多くなるS−W個の検索語を選択し、再検索を行うことで記事254をP個収集する。
【0058】
次に、時間順に収集されたP個の記事254からテキストを抽出する(ステップ2085)記事254はHTMLやXML等の構造化言語で記述されている。よって、得られた記事254に対して"<"と">"で囲まれた文字列から構成されるタグを解析することでテキストが得られる。そして、抽出された当該テキストに対して関連語取得処理部221は形態素解析を行い、名詞、副詞、形容詞、形容動詞、動詞を抽出する(ステップ209)。その際、検索語抽出処理部211と同様に、形容詞、形容動詞、動詞の活用形は全て終止形に変換した単語を抽出する。得られる関連語の個数はウェブ検索を行う際の検索語や収集される記事254の個数によって変わる。また、抽出した単語を直接関連語として使用すると、検索語抽出処理部211と同様に一般語が関連語として扱われる場合がある。そこで、関連度取得処理部221では、検索語抽出処理部211と同様にメモリ(図示せず)上の図7に示すような一般語リストを参照して一般語を除く(ステップ210)。そして、検索語がS個であるとき、P個の本文のテキストから抽出した単語に対し、出現頻度の高い順にT−S個の単語を関連語とし、制御部240を介して関連語記憶部222に格納する(ステップ211)。つまり、各文において抽出される検索語と関連度の合計個数は予め与えられた値Tと一定となるようにする。
【0059】
そして、記事254の個数PがP以上となるまで検索語の修正とウェブ検索を繰り返し、P≧Pとなった時点でP個の記事254からT−S個の関連語を抽出する。一方で、検索語を修正しても収集される記事254の個数がP以上とならない場合には、元のS個の検索語は検索語記憶部212に残し、関連語記憶部222に対して関連語として何も格納しない。一例として、図9の検索語記憶部212に格納されている検索語に対してT=20,P=20のとき、関連語取得処理部221を実行して得られた関連語は図9に示すようになる。
【0060】
また、ウェブ検索により得られるテキスト254の個数PがP未満の場合には、検索語を修正し、再検索を行うことが各文に検索語と関連語の組からなるキーワード集合を割り当てられる点で最も好ましい。しかし、本発明は、P未満の場合において再検索を行わず検索語だけを用いてキーワード集合を作成することもできる。この場合、基準となる文に対して前後にある複数のキーワード集合を考慮している点から、少ない計算時間で実用的な精度で本文の内容を解析しテキストセグメンテーションを行うことができる。
【0061】
最後に、分解文章記憶部202に格納されている全ての文に対して検索語抽出処理部211と関連語取得処理部221の処理が終了すると、制御部240は、連結性判定処理部231を起動する。連結性判定処理部231では、最初に制御部240を介して検索語記憶部212と関連語記憶部222に格納されている検索語と関連語を読み出し、それらを組み合わせてキーワード集合を作成する。図8の検索語の例と図9の関連語の例から作成したキーワード集合の例を図10に示す。例えば、図10に示すキーワード集合は、図8の検索語と図9の関連語から作成されたものである。ここで、連結性判定処理部231では、検索語が無い場合にはそれに対応する関連語も存在しないため、キーワード集合を作成しない。また、検索語は存在し、関連語が存在しない場合には検索語のみを用いてキーワード集合を作成する。
【0062】
キーワード集合は、テキストの内容を反映する単語であることから、キーワード集合に含まれる単語の変化を調べることでテキスト255における内容の変化を捉えることができる。そこで、連結性判定処理部231では、生成されたキーワード集合を比較し、内容的にまとまっている一文または複数の文から構成される意味段落を見つける。抽出された意味段落は制御部240を通じて意味段落記憶部232に格納される。比較の方法は、テキストは先頭から順に書かれることが一般的であるため、テキストの先頭から順に複数のキーワード集合を纏めたブロックを作成し、比較を行う。具体的には、bをブロックの大きさとすると、i+1−b番目からi番目までのキーワード集合が含まれるブロックB1と、i+1番目からi+b番目までのキーワード集合が含まれるブロックB2を決定し、二つのブロックB1とB2内に含まれるキーワード集合内の単語を比較する。単語が存在しないキーワード集合はブロックB1とブロックB2を作成する際には含めず、ブロックB1においては該当する文よりも前の文で空でないキーワード集合を、ブロックB2においては該当する文の後の文で空でないキーワード集合を代わりにブロックに含める。例えば、j番目の文に対するキーワード集合が空の場合、ブロックB1作成時にはj−1,j−2,…,1番目の順に空でないキーワード集合を発見し、ブロックB1に含める。一方、ブロックB2作成時にはj+1,j+2,…,N番目の順に空でないキーワード集合を発見し、ブロックB2に含める。
【0063】
上記のようにしてブロックB1とブロックB2を作成後、それぞれのブロックに含まれる単語tの頻度wを計算する。そして、i番目とi+1番目の二つの文の連結度を単語tの頻度wを用いて以下の式で評価する。
【0064】
【数25】


但し、wB1はブロックB1にある単語tの頻度、wB2はブロックB2にある単語tの頻度を表す。
【0065】
【数26】


は0以上1以下の値を取り、1に近いほどブロックB1とブロックB2に含まれている単語が同じであることを表す。ここで、ブロックB1、またはブロックB2内に単語が一切含まれていない場合、連結度
【0066】
【数27】


の値は0と算出される。連結性判定処理部231では、i={1,2,…,N}と変化させ、
【0067】
【数28】


を計算する。更に、ブロックの大きさbのパラメータをb=(b,b,…,b)とM個設定して各ブロック幅に対して連結度
【0068】
【数29】


を計算し、それらの平均値をi番目とi+1番目の文における平均連結度Cとする。
【0069】
【数30】


最後に、平均連結度C(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を抽出し、テキストの内容の変化を解析する。ここで、「平均連結度の谷」とは、意味段落の境界であり、与えられたテキストの内容が変化する際に現れる。この内容が変化する箇所は意味的な段落であるということで「意味段落」と呼ばれ、意味段落の境界を見つけることでテキストセグメンテーションを行うことができる。平均連結度の谷は以下の条件を満たす。
【0070】
【数31】


連結性判定処理231では、検出された谷に応じて意味段落を抽出する。具体的には、i番目で谷が検出されると、一つ目の意味段落に関しては先頭から、二つ目以降の意味段落に関しては以前に谷が検出された箇所からi−1番目までを一つの意味段落とする。閾値C=0.1とし、図10に示すキーワード集合に対して連結性判定処理部231の処理を行った結果を図11に示す。図10の意味段落記憶部232の例は、i=6で谷が検出されて二つの意味段落に分割されたものである。
【0071】
連結性判定処理部231の処理が終了すると、制御部240により出力部242が起動され、テキスト255に対してテキストセグメンテーションを行った結果を表示部254に表示する。具体的には意味段落記憶部232を参照し、格納されている文番号を表示する。例えば、図11に示す文番号を表示する方法が挙げられる。
【0072】
上記のように、計算時間や精度はパラメータT,S,P,C,bにより調整することができる。パラメータTとS,Pを調整することで、ウェブ検索を行うことで得られる関連語の抽出精度や計算時間を調整することができる。例えば、ウェブ検索により記事を収集する際、得られた記事の個数PがPに達した時点でP≧Pを満たすことから、記事の収集を終了させることで計算時間の削減につながる。また、パラメータb、Cにより本文の内容の変化を捉える敏感さを調整することができる。更に、複数のパラメータbに対する平均連結度Cを用いることで、局所的な内容の変化と大域的な内容の変化を同時に考慮し、従来の方法において問題であった過剰に意味段落を抽出することや緩やかに内容が変化する際の意味段落抽出に失敗することを解決している。
【0073】
[第2の実施の形態]
本実施の形態では、第1の実施の形態の応用例として複数の閾値Cを用いる場合について説明する。
【0074】
図13は、本発明の第2の実施の形態におけるウェブ検索を利用したテキストセグメンテーションシステムの構成を示す。同図において、図3と同一構成部分には同一符号を付しその説明を省略する。
【0075】
図13に示すコンピュータ1161には、閾値を入力するためのキーボード1162が接続されている。また、コンピュータ1161内に、図3に示す構成に分割結果選択処理部1141、生成ブロック記憶部1132が付加された構成である。
【0076】
図14は、本発明の第2の実施の形態における処理手順の概要を示すフローチャートである。
【0077】
コンピュータ1161の入力部241にテキスト255が入力され(ステップ1001)、テキスト分割処理部201において入力されたテキストを文単位に分割し(ステップ1002)、検索語抽出処理部211において文から検索語を抽出し(ステップ1003)、関連語取得処理部221において検索語を用いてウェブ上で検索を行い検索結果から関連語を取得する(ステップ1004)。連結性判定処理部231において、検索語と関連語を組にしたキーワード集合から意味段落を抽出する(ステップ1005)。分割結果選択処理部1141において、セグメンテーション結果が複数あるかを判断し、(ステップ1006)、複数のセグメンテーション結果がある場合には、ユーザに結果を提示してキーボード1162から閾値を入力させる(ステップ1007)。分割結果選択処理部1141において、入力された閾値に基づいてテキストセグメンテーション結果を出力部242から出力する(ステップ1008)。
【0078】
以下では、図13におけるテキスト255、分解文章記憶部202、検索語記憶部212、関連度記憶部222に格納されるデータの例は、前述の第1の実施の形態と同様のものを用いて、第1の実施の形態と異なる部分について説明する。
【0079】
連結性判定処理部231において、複数個の閾値Cに対して実行される。具体的には、キーワード集合を作成した後、複数の閾値Cを順に用いながら、平均連結度Cを算出し、意味段落を抽出する。意味段落の抽出後、制御部240を介して意味段落記憶部232を参照し、分割結果が異なる場合にはその時の閾値と意味段落を制御部240を介して意味段落記憶部232に格納する。複数の分割結果が意味段落記憶部232に格納された例を図15に示す。ここで、複数の閾値に対して同じ分割結果が得られる場合には、閾値と分割結果はそれぞれ一つしか意味段落記憶部232に格納されない。
【0080】
連結性判定処理部231の処理の後、制御部240により分割結果選択部1141が起動される。分割結果選択部1141では、制御部240を介して意味段落記憶部1132を参照する。そして、閾値が複数個格納されている場合には、出力部242を介して表示部256に意味段落記憶部232に格納されている分割結果を表示し、キーボード1162を通じて閾値の入力をユーザに求める。ユーザは表示部256に表示さえている分割結果を参照し、閾値を一つ入力する。閾値が入力されると、制御部240は、入力された閾値を分割結果選択処理部1141に渡す。その後、分割結果選択処理部1141において、制御部240を介して意味段落記憶部232を参照し、入力された閾値に対応する分類結果だけを残し、他の分割結果を削除する。そして、一つだけ意味段落記憶部232に格納されている分割結果が一つの場合には、分割結果選択処理部1141ではユーザに閾値の入力を求めず、意味段落記憶部232に格納されている分割結果を出力部242を通じて表示部256に出力する。
【0081】
上記の第2の実施の形態において、複数の閾値Cに対して処理を行う場合、複数の結果を提示し、閾値を入力させることでセグメンテーション結果を選択させる。これにより、大きい内容の変化で分割するか、または細かい内容の変化でも分割するか、ユーザが調整を行いながらテキストセグメンテーションを行うことができる効果がある。一方で、入力されたテキストを一括して分割処理する場合には、一つの閾値Cで処理を行うことで自動的に入力テキストを分割することができる。
【0082】
なお、上記の第1・第2の実施の形態におけるテキストセグメンテーション装置(コンピュータ)の構成要素をプログラムとして構築し、テキストセグメンテーション装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0083】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0084】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0085】
本発明は、コンピュータ上で各種記事や物語等の文章中の各文を意味的なまとまりに分割する技術に適用可能である。
【0086】
【符号の説明】
【0087】
201 テキスト分解手段、テキスト分解処理部
202 分解文章記憶部
211 検索語抽出手段、検索語抽出処理部
212 検索語記憶手段、検索語記憶部
221 関連語抽出手段、関連語取得処理部
222 関連語記憶手段、関連語記憶部
231 連結性判定手段、連結性判定処理部
232 意味段落記憶部
241 入力部
242 出力部
251 コンピュータ
252 ネットワーク
253 ウェブ
254 構造化言語で記述された記事
255 テキスト
256 表示部
1132 生成ブロック記憶部
1141 分割結果選択処理部
1162 キーボード


【特許請求の範囲】
【請求項1】
テキストを内容に応じて分割するテキストセグメンテーション装置であって、
入力されたテキストを文単位に分割するテキスト分解手段と、
前記テキスト分解手段により分割された文を形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を検索語として抽出し、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出手段と、
前記検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を関連語として取得し、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を取得し、関連語記憶手段に格納する関連語取得手段と、
前記検索語記憶手段から検索語を取得し、前記関連語記憶手段から関連語を取得し、該検索語と該関連語との組み合わせであるキーワード集合を用いて、前記入力テキストを分割した複数の文同士の連結性を判定し、該連結性の谷と谷の間にある文同士である意味段落を抽出することによって前記入力テキストを分割する連結性判定手段と、
を有し、
前記連結性判定手段は、
前記キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度を、単語tの出現頻度を用いて、
【数1】


(但し、wB1はブロックB1にある単語tの頻度、wB2はブロックB2にある単語tの頻度を表す。
【数2】


は0以上1以下の値を取り、1に近いほどブロックB1とブロックB2に含まれている単語が同じであることを表す)
により求める手段と、
i={1,2,…,N}と変化させ、
【数3】


を計算し、ブロックの大きさbのパラメータをb=(b,b,…,b)とM個設定して各ブロック幅に対して連結度
【数4】


を計算し、それらの平均値をi番目とi+1番目の文における平均連結度Ciとして、
【数5】


により求める手段と、
前記平均連結度Ci(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を、条件
【数6】


に基づいて抽出し、該谷に基づいて前記意味段落を取得する手段と
を含むことを特徴とするテキストセグメンテーション装置。
【請求項2】
前記連結性判定手段は、
複数個の閾値Cを用いて前記平均連結度Cを算出し、前記意味段落を抽出する手段を含む請求項1記載のテキストセグメンテーション装置。
【請求項3】
テキストを内容に応じて分割する装置におけるテキストセグメンテーション方法であって、
テキスト分解手段が、入力されたテキストを文単位に分割するテキスト分解ステップと、
検索語抽出手段が、前記テキスト分解ステップにおいて分割された文を形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を検索語として抽出し、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出ステップと、
関連語取得手段が、前記検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を関連語として取得し、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を取得し、関連語記憶手段に格納する関連語取得ステップと、
連結性判定手段が、前記検索語記憶手段から検索語を取得し、前記関連語記憶手段から関連語を取得し、該検索語と該関連語との組み合わせであるキーワード集合を用いて、前記入力テキストを分割した複数の文同士の連結性を判定し、該連結性の谷と谷の間にある文同士である意味段落を抽出することによって前記入力テキストを分割する連結性判定ステップと、
を行い、
前記連結性判定ステップにおいて、
前記キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度を、単語tの出現頻度を用いて、
【数7】


(但し、wB1はブロックB1にある単語tの頻度、wB2はブロックB2にある単語tの頻度を表す。
【数8】


は0以上1以下の値を取り、1に近いほどブロックB1とブロックB2に含まれている単語が同じであることを表す)
により求めるステップと、
i={1,2,…,N}と変化させ、
【数9】



を計算し、ブロックの大きさbのパラメータをb=(b,b,…,b)とM個設定して各ブロック幅に対して連結度
【数10】


を計算し、それらの平均値をi番目とi+1番目の文における平均連結度Ciとして、
【数11】


により求めるステップと、
前記平均連結度Ci(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を、条件
【数12】


に基づいて抽出し、該谷に基づいて前記意味段落を取得するステップと
を含むことを特徴とするテキストセグメンテーション方法。
【請求項4】
前記連結性判定ステップにおいて、
複数個の閾値Cを用いて前記平均連結度Cを算出し、前記意味段落を抽出する
請求項3記載のテキストセグメンテーション方法。
【請求項5】
請求項1または2に記載のテキストセグメンテーション装置を構成する各手段としてコンピュータを機能させるテキストセグメンテーションプログラム。
【請求項6】
請求項5記載のテキストセグメンテーションプログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2013−101678(P2013−101678A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2013−15357(P2013−15357)
【出願日】平成25年1月30日(2013.1.30)
【分割の表示】特願2008−12026(P2008−12026)の分割
【原出願日】平成20年1月22日(2008.1.22)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】