テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

【課題】学習データを必要とせずにテキストセグメンテーションが可能なＷｅｂ検索を利用したテキストセグメンテーションを実現する。
【解決手段】本発明は、入力されたテキストを文単位に分割し、分割された文を形態素解析し、形態素解析された名詞、副詞、動詞、形容詞、形容動詞を検索語として抽出し、検索語に基づいてウェブ検索したテキストを形態素解析し、解析された形態素のうちで、名詞、副詞、動詞、形容詞、形容動詞を関連語として取得し、検索語と関連語との組み合わせであるキーワード集合を用いて、入力テキストを分割した複数の文同士の連結性を判定し、該連結性の谷と谷の間にある文同士である意味段落を抽出することによって入力テキストを分割する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、Ｗｅｂ検索を利用したテキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、テキストを計算機上で利用する分野において、テキスト（各種記事や物語などの文章）中の各文の意味内容を推定し、テキストを意味的なまとまり毎に分割するＷｅｂ検索を利用したテキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
【背景技術】
【０００２】
近年、急速な計算機の性能向上に伴い、莫大なテキスト（ここでは、文字列だけで構成される文の集合）を蓄積し、データベースを構築することが可能になった。しかし、保存されたテキストを人手で整理・管理することは一般的に困難となってきている。そこで、蓄積されたテキストデータベースを解析し、テキストを意味的な内容（意味段落と呼ぶ）に応じて分割するテキストセグメンテーションと呼ばれる技術が開発されており、テキストデータベースの分類や整理を計算機で自動的に行うことに応用されつつある。例えば、概念ベースと呼ばれる情報を用いてテキストセグメンテーションを行う技術がある（例えば、特許文献１参照）。
この技術ではある単語とそれに共起するパターンを数値ベクトル化した概念ベクトルを予め蓄積した学習データから複数作成する。そして、概念ベクトルの集まりである概念ベースを利用してテキストセグメンテーションを行う。学習データは一つの分野に関する（例えば、「政治」の分野だけに関する）テキストが数多く蓄積されている。
また、従来のテキストセグメンテーションでは複数の文間に対する連結度に基づいて文間の意味的連続性を評価する方法が主である（例えば、非特許文献１参照）。この従来の技術では、連結度を算出する際に考慮する文の個数が少ない場合には、局所的な意味内容の変化に追従し易い代わりに、過剰に意味段落を推定する可能性が増える。一方で、考慮する文の個数が多い場合には、大域的な意味内容の変化を捉えることができる代わりに穏やかに意味内容が変化するテキストに対して対処することが難しい。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００２−３４２３２４号公報
【非特許文献】
【０００４】
【非特許文献１】Hearst, M.A.,:Multi-Paragraph Segmention of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16 (1994)
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、従来のテキストセグメンテーション手法の精度を高めるためには、大規模な学習データを用意しなくてはならない。そのため、学習データが小規模な場合には概念ベースを適切に作成できずテキストセグメンテーションの精度が低下する問題がある。
また、事前に用意した学習データに含まれている分野に対応できる反面、異なる分野のテキストに対してテキストセグメンテーションを行うことができない。例えば、学習データに『政治』や『経済』に関する情報だけが蓄積されている場合、『スポーツ』の分野のテキストに対してテキストセグメンテーションは困難となる。
【０００６】
本発明は、上記の点に鑑みなされたもので、学習データを必要とせずにテキストセグメンテーションが可能なＷｅｂ検索を利用したテキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【０００７】
図１は、本発明の原理構成図である。
【０００８】
本発明（請求項１）は、テキストを内容に応じて分割するテキストセグメンテーション装置であって、
入力されたテキストを文単位に分割するテキスト分解手段２０１と、
テキスト分解手段２０１により分割された文を形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を検索語として抽出し、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段２１２に格納する検索語抽出手段２１１と、
検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を関連語として取得し、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を取得し、関連語記憶手段２２２に格納する関連語取得手段２２１と、
検索語記憶手段２１２から検索語を取得し、関連語記憶手段２２２から関連語を取得し、該検索語と該関連語との組み合わせであるキーワード集合を用いて、入力テキストを分割した複数の文同士の連結性を判定し、該連結性の谷と谷の間にある文同士である意味段落を抽出することによって入力テキストを分割する連結性判定手段２３１と、
を有し、
連結性判定手段２３１は、
キーワード集合を纏めたブロックＢ１，Ｂ２を作成し、ｉ番目とｉ＋１番目の２つの文の連結度を、単語ｔの出現頻度を用いて、
【数１３】

（但し、ｗ_ｔ^B1はブロックＢ１にある単語ｔの頻度、ｗ_ｔ^B2はブロックＢ２にある単語ｔの頻度を表す。
【数１４】

は０以上１以下の値を取り、１に近いほどブロックＢ１とブロックＢ２に含まれている単語が同じであることを表す）
により求める手段と、
ｉ＝｛１，２，…，Ｎ｝と変化させ、
【数１５】

を計算し、ブロックの大きさｂのパラメータをｂ＝（ｂ_１，ｂ_２，…，ｂ_Ｍ）とＭ個設定して各ブロック幅に対して連結度
【数１６】

を計算し、それらの平均値をｉ番目とｉ＋１番目の文における平均連結度Ｃ_iとして、
【数１７】

により求める手段と、
平均連結度Ｃ_i（但し、ｉ＝（１，２，…，Ｎ））を用いて意味段落の境界である平均連結度の谷を、条件
【数１８】

に基づいて抽出し、該谷に基づいて意味段落を取得する手段と
を含む。
【０００９】
【００１０】
【００１１】
【００１２】
【００１３】
【００１４】
【００１５】
【００１６】
また、本発明（請求項２）は、連結性判定手段２３１において、
複数個の閾値Ｃ_Ｔを用いて平均連結度Ｃ_ｉを算出し、意味段落を抽出する手段を含む。
【００１７】
【００１８】
図２は、本発明の原理を説明するための図である。
【００１９】
本発明（請求項３）は、テキストを内容に応じて分割する装置におけるテキストセグメンテーション方法であって、
テキスト分解手段が、入力されたテキストを文単位に分割するテキスト分解ステップ（ステップ１）と、
検索語抽出手段が、テキスト分解ステップにおいて分割された文を形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を検索語として抽出し、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出ステップ（ステップ２）と、
関連語取得手段が、検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を関連語として取得し、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を取得し、関連語記憶手段に格納する関連語取得ステップ（ステップ３）と、
連結性判定手段が、検索語記憶手段から検索語を取得し、関連語記憶手段から関連語を取得し、該検索語と該関連語との組み合わせであるキーワード集合を用いて、入力テキストを分割した複数の文同士の連結性を判定し(ステップ４)、平均連結度の谷が検出された場合には(ステップ５)、該連結性の谷と谷の間にある文同士である意味段落を抽出する(ステップ６)ことによって入力テキストを分割する連結性判定ステップと、
を行い、
連結性判定ステップにおいて、
キーワード集合を纏めたブロックＢ１，Ｂ２を作成し、ｉ番目とｉ＋１番目の２つの文の連結度を、単語ｔの出現頻度を用いて、
【数１９】

（但し、ｗ_ｔ^B1はブロックＢ１にある単語ｔの頻度、ｗ_ｔ^B2はブロックＢ２にある単語ｔの頻度を表す。
【数２０】

は０以上１以下の値を取り、１に近いほどブロックＢ１とブロックＢ２に含まれている単語が同じであることを表す）
により求めるステップと、
ｉ＝｛１，２，…，Ｎ｝と変化させ、
【数２１】

を計算し、ブロックの大きさｂのパラメータをｂ＝（ｂ_１，ｂ_２，…，ｂ_Ｍ）とＭ個設定して各ブロック幅に対して連結度
【数２２】

を計算し、それらの平均値をｉ番目とｉ＋１番目の文における平均連結度Ｃ_iとして、
【数２３】

により求めるステップと、
平均連結度Ｃ_i（但し、ｉ＝（１，２，…，Ｎ））を用いて意味段落の境界である平均連結度の谷を、条件
【数２４】

に基づいて抽出し、該谷に基づいて意味段落を取得するステップと、を含む。
【００２０】
【００２１】
【００２２】
【００２３】
【００２４】
【００２５】
【００２６】
【００２７】
また、本発明（請求項４）は、連結性判定ステップにおいて、
複数個の閾値Ｃ_Ｔを用いて平均連結度Ｃ_ｉを算出し、意味段落を抽出する。
【００２８】
【００２９】
本発明（請求項５）は、請求項１または２に記載のテキストセグメンテーション装置を構成する各手段としてコンピュータを機能させるテキストセグメンテーションプログラムである。
【００３０】
本発明（請求項６）は、請求項５記載のテキストセグメンテーションプログラムを格納したコンピュータ読取可能な記録媒体である。
【発明の効果】
【００３１】
上記のように、本発明によれば、Ｗｅｂで検索する概念を利用することで学習データを事前に用意する必要がないテキストセグメンテーション技術が期待できる。この記述は莫大なテキストデータを扱う分野やニュース記事を配信する分野において、データベースの整理・更新を自動的に行う支援策として応用できる。また、解析対象となるテキストに関して、学習データを使用せずにＷｅｂ検索により幅広い分野における関連語を収集できるという点から記述内容や作成時期に制約が少ないと言う利点がある。
【００３２】
更に、内容的なまとまりに分割されている点から、あるキーワードを含む内容的に関連のある文章だけを収集する技術として利用できる。
【００３３】
本発明において、検索語に名詞、副詞、形容詞、形容動詞、動詞の終止形を利用することで、ニュース記事やブログ記事など、テキストの内容や書き方に幅広く対応することができる。また、本発明では、検索語として使用できる単語として形態素解析で得られる全ての品詞を使用することもできる。得られる単語は、活用するか活用しないかの二通りだけなので、活用形の無い単語はそのまま使用し、活用形のある単語は全て終止形に変換することで、全ての品詞の単語を検索語として利用できる。
【図面の簡単な説明】
【００３４】
【図１】本発明の原理構成図である。
【図２】本発明の原理を説明するための図である。
【図３】本発明の第１の実施の形態におけるウェブ検索を利用したテキストセグメンテーション装置の構成図である。
【図４】本発明の第１の実施の形態における処理手順の概要を示すフローチャートである。
【図５】本発明の第１の実施の形態におけるテキストの例である。
【図６】本発明の第１の実施の形態における分解文章記憶部に格納された文の例である。
【図７】本発明の第１の実施の形態における一般語リストに登録されている一般語の例である。
【図８】本発明の第１の実施の形態における検索語記憶部に格納された検索語の例である。
【図９】本発明の第１の実施の形態における関連語記憶部に格納された関連語の例である。
【図１０】本発明の第１の実施の形態における連結性判定処理部で作成されるキーワード集合の例である。
【図１１】本発明の第１の実施の形態における意味段落記憶部に格納された文番号の例である。
【図１２】本発明の第１の実施の形態における関連語取得処理部の処理のフローチャートである。
【図１３】本発明の第２の実施の形態におけるウェブ検索を利用したテキストセグメンテーションシステムの構成図である。
【図１４】本発明の第２の実施の形態における処理手順の概要を示すフローチャートである。
【図１５】本発明の第２の実施の形態における意味段落記憶部に格納された文番号の例である。
【発明を実施するための形態】
【００３５】
以下、図面と共に本発明の実施の形態を説明する。
本発明は、Ｗｅｂで検索を行う概念に着目した新しいテキストセグメンテーション技術を用いる。現在Ｗｅｂ上には膨大な情報が蓄積されており、最新の話題も常に提供されている。つまり、Ｗｅｂは様々な情報を持つ記事の集合として捉えることができる。実際、我々はある事に関して調べる際、検索サイトで検索語を入力してＷｅｂ上で検索を行い、単語の意味や物事の内容を調べている。その観点から学習データを使用しなくてもＷｅｂ上にある情報を適切に利用すれば、「サッカー」や「野球」に対応するのは「スポーツ」や「ボール」という概念を取得できると言える。つまり、Ｗｅｂ上にある様々な情報を基にテキストの内容に応じた単語を取得し、文同士の関連性を単語の変化によって追跡することで意味段落に分割することができる。
【００３６】
［第１の実施の形態］
図３は、本発明の第１の実施の形態におけるウェブ検索を利用したテキストセグメンテーションシステムの構成を示す。
【００３７】
同図に示すシステムは、コンピュータ２５１、ネットワーク２５２、ウェブ２５３、表示部２５６から構成される。コンピュータ２５１にはネットワーク２５２が接続されており、ウェブ２５３にアクセスできる。ウェブ２５３には複数のＨＴＭＬやＸＭＬ等の構造化言語で記述された記事２５４が蓄積されている。
【００３８】
コンピュータ２５１は、テキスト分解処理部２０１、分解文章記憶部２０２、検索語抽出処理部２１１、検索語記憶部２１２、関連語取得処理部２２１、関連語記憶部２２２、連結性判定処理部２３１、意味段落記憶部２３２、入力部２４１、出力部２４２から構成される。テキスト２５５はコンピュータ２５１の入力部２４１に入力されるテキストである。表示部２５６は制御部２４０から出力部２４２を通じて出力された結果を表示するための装置である。
【００３９】
図４は、本発明の第１の実施の形態における処理手順の概要を示すフローチャートである。
【００４０】
まず、コンピュータ２５１の入力部２４１にテキストが入力され（ステップ１０１）、テキスト分割処理部２０１において入力されたテキストを文単位に分割し（ステップ１０２）、検索語抽出処理部２１１において文から検索語を抽出し（ステップ１０３）、関連語取得処理部２２１において検索語を用いてウェブ上で検索を行い検索結果から関連語を取得する（ステップ１０４）。連結性判定処理部２３１において、検索語と関連語を組にしたキーワード集合から意味段落を抽出する（ステップ１０５）。最後に出力部２４２からテキストセグメンテーション結果を出力する（ステップ１０６）。
【００４１】
図５は、本発明の第１の実施の形態におけるテキストの一例を示す。
【００４２】
同図において、テキスト２５５は入力部２４１に入力されるテキストの例である。
【００４３】
図６は、本発明の第１の実施の形態における分解文章記憶部に格納された文の一例を示す。入力部２４１からテキスト２５５が入力されると、テキスト分解処理部２０１によって複数個の文章に分解され、分解文章記憶部２０２に格納される。
【００４４】
図７は、本発明の第１の実施の形態における一般語リストに登録されている一般語の例である。当該一般語リストはメモリ（図示せず）に格納されており、同図において、ｋは一般語リストに登録されている単語であり、検索語抽出処理部２１１と関連語取得処理部２２１により参照される。
【００４５】
図８は、本発明の第１の実施の形態における検索語記憶部に格納された検索語の一例を示す。同図において、例えば、図６の１番目の分解文章から検索語抽出処理部２１１によって「ドライブ高速道路」が抽出され、検索語記憶部２１２に格納される。
【００４６】
図９は、本発明の第１の実施の形態における関連語記憶部に格納された関連語の一例を示す。関連語取得処理部２２１は、検索語記憶部２１２から取得した検索語に対応する関連語をメモリ（図示せず）の一般語リストに登録されているものを除いた単語から抽出して、当該検索語に対応する関連語として関連語記憶部２１２に格納する。
【００４７】
図１０は、本発明の第１の実施の形態における連結性判定処理部において作成されたキーワード集合の一例を示す。同図に示すキーワード集合は連結性判定処理部２３１内のメモリ（図示せず）に格納される。連結性判定処理部２３１は、検索語と関連語の組からキーワード集合を生成し、意味段落記憶部２３２に格納する。例えば、同図の例において、図８の検索語「ゴルフ、ショット、仕事、打ちっぱなし、弾道、練習」と、当該検索語に対応する図９の関連語「打つ、ボール、スコア、スイング、飛距離、買う、ラウンド、ドライバー、初心者、受ける、購入、感じる、アイアン、かける」の組から図１０に示す「ゴルフ、ショット、仕事、打ちっぱなし、弾道、練習、打つ、ボール、スコア、スイング、飛距離、買う、ラウンド、ドライバー、初心者、受ける、購入、感じる、アイアン、かける」からなるキーワード集合が得られ、これらを、メモリ（図示せず）に格納する。
【００４８】
図１１は、本発明の第１の実施の形態における意味段落記憶部に格納された意味段落の一例を示す。同図において、ある閾値に対応する意味段落番号毎に、連結性判定処理部２３１で検出された意味段落に属する文の番号を格納する。
【００４９】
以下、上記の構成におけるテキストセグメンテーションの処理手順を具体的に説明する。
【００５０】
図１２は、本発明の第１の実施の形態における関連語取得処理部の処理のフローチャートである。
【００５１】
まず、テキスト２５５が入力部２４１を介して入力されると（ステップ１０１）、制御部２４０からテキスト分解処理部２０１が呼び出される。テキスト分解処理部２０１では、テキスト２５５を一文字ずつ読み込み、文単位で切り出しＮ個の文を取得し、制御部２４０を介して、分解文章記憶部２０２に格納する。ここで、文は句点「。」で区切られる一文を指す。テキスト２５５の一例は図５に示すようなテキスト２５５に対してテキスト分解処理部２０１の処理を実行すると、図６に示すように文単位に分解された９つの文が生成され、分解文章記憶部２０２に格納される（ステップ１０２）。テキスト分解処理部２０１において生成される文の個数は入力されるテキストによって異なる。また、意味的に複数に続く文や句点「。」の入力ミスの場合には、複数の文が一つの文として扱われる。
【００５２】
次に、分解文章記憶部２０２に格納されたそれぞれの文に対して、制御部２４０により検索語抽出処理部２１１が起動される。検索語とは、ウェブ上で検索を行う際に入力する一つまたは複数の単語を指す。初めに、検索語抽出処理部２１１は、最初に入力された文に対して形態素解析を行う。そして、形態素解析により名詞、副詞、形容詞、形容動詞、動詞の４つに分類された単語を検索語として取り出し、制御部２４０を介して検索語記憶部２１２に格納する。その際、形容詞、形容動詞、動詞の三つに関しては活用形を全て終止形に直した単語を使用する。
【００５３】
ここで、抽出された単語には「年」や「ある」のような一般的に使用される単語（以下、一般語と記す）も含まれる。そこで、図７に示すような一般語リストを予め作成し、メモリ（図示せず）に格納しておき、一般語リストに登録されていない単語を検索語として扱う。一般語のリストは図７に示す通りである。検索語記憶部２１１に格納される検索語は一般語リストによって変わる。
【００５４】
また、ウェブ検索を行う際に適切な個数の単語でＡＮＤ検索をする方が好ましい。そこで、抽出された単語の個数が所定の閾値Ｓ_Ｔ未満の場合には、検索語抽出処理部２１１では検索語は抽出せず、検索語記憶部２１２に単語は何も格納しない。逆に、抽出単語の個数Ｓが閾値Ｔ以上の場合には、Ｓ個の検索語からＴ個の検索語をランダムに選択し、検索語記憶部２１２に格納する。Ｔ＝２０，Ｓ_Ｔ＝２の場合において、検索語抽出処理部２１１を起動させると、図８のような検索語が検索語記憶部２１２に格納される。
【００５５】
図６の文から図８に示す検索語が作成された後、制御部２４０から関連語取得処理部２２１が起動される（ステップ２０１）。関連語取得処理部２２１では、初めに検索語抽出処理部２１１で抽出された検索語が制御部２４０を介して検索語記憶部２１２から取り出され、入力される（ステップ２０２）。次に、入力された検索語を用いてネットワーク２５２で接続されているウェブ２５３上でＡＮＤ検索を行う（ステップ２０４）。ＡＮＤ検索を行うことで、検索語の入力する順序に影響せずウェブ２５３で検索することができる。そして、検索結果で参照されているウェブ２５３の中からテキスト２５５が作成された時期との差が少ない順にＰ個の記事２５４を取得する（ステップ２０５）。ウェブ２５３にある記事は作成された日付が一般的に記録されているため、テキスト２５５との時間的な差を測ることができる。この時間的な差を利用することで、テキスト２５５が作成された時期と内容に強く関連する記事をウェブ２５３から収集できる。
【００５６】
このように、ウェブ検索を行う際に入力されるテキストの作成時期との差が少ない順にテキストを収集するが、入力されたテキストの内容に関連性の高い単語を収集するという点で最も好ましい。しかし、時間的な差を考慮せず、得られた検索結果で参照されているＰ個のテキスト２５４を使用することで、十分な精度で関連語を収集することもできる。
【００５７】
ここで、検索語記憶部２１２に該当する検索語が存在しない場合には、関連語取得処理部２２１ではウェブ検索を行わず、関連語記憶部２２２に対して何も格納しない（ステップ２０３、No）。また、検索語の個数ＳがＳ＝Ｔである場合にも（ステップ２０３、No）、ウェブ検索を行わず関連語記憶部２２２に関連語は格納しない。適切な関連語を得るためにはウェブ検索により得られる記事２５４の個数はできるだけ多い方がよい。そこで、ウェブ検索により得られるテキストの個数ＰがＰ_Ｔ未満の場合には（ステップ２０６、Ｙｅｓ）、検索語を修正し（ステップ２０７）、再びウェブ上でＡＮＤ検索によりテキストを収集する（ステップ２０４，２０５）。具体的には、Ｓ個の検索語をＷ個減らして最も検索件数が多くなるＳ−Ｗ個の検索語を選択し、再検索を行うことで記事２５４をＰ個収集する。
【００５８】
次に、時間順に収集されたＰ個の記事２５４からテキストを抽出する（ステップ２０８５）記事２５４はＨＴＭＬやＸＭＬ等の構造化言語で記述されている。よって、得られた記事２５４に対して"＜"と"＞"で囲まれた文字列から構成されるタグを解析することでテキストが得られる。そして、抽出された当該テキストに対して関連語取得処理部２２１は形態素解析を行い、名詞、副詞、形容詞、形容動詞、動詞を抽出する（ステップ２０９）。その際、検索語抽出処理部２１１と同様に、形容詞、形容動詞、動詞の活用形は全て終止形に変換した単語を抽出する。得られる関連語の個数はウェブ検索を行う際の検索語や収集される記事２５４の個数によって変わる。また、抽出した単語を直接関連語として使用すると、検索語抽出処理部２１１と同様に一般語が関連語として扱われる場合がある。そこで、関連度取得処理部２２１では、検索語抽出処理部２１１と同様にメモリ（図示せず）上の図７に示すような一般語リストを参照して一般語を除く（ステップ２１０）。そして、検索語がＳ個であるとき、Ｐ個の本文のテキストから抽出した単語に対し、出現頻度の高い順にＴ−Ｓ個の単語を関連語とし、制御部２４０を介して関連語記憶部２２２に格納する（ステップ２１１）。つまり、各文において抽出される検索語と関連度の合計個数は予め与えられた値Ｔと一定となるようにする。
【００５９】
そして、記事２５４の個数ＰがＰ_Ｔ以上となるまで検索語の修正とウェブ検索を繰り返し、Ｐ≧Ｐ_Ｔとなった時点でＰ個の記事２５４からＴ−Ｓ個の関連語を抽出する。一方で、検索語を修正しても収集される記事２５４の個数がＰ_Ｔ以上とならない場合には、元のＳ個の検索語は検索語記憶部２１２に残し、関連語記憶部２２２に対して関連語として何も格納しない。一例として、図９の検索語記憶部２１２に格納されている検索語に対してＴ＝２０，Ｐ_Ｔ＝２０のとき、関連語取得処理部２２１を実行して得られた関連語は図９に示すようになる。
【００６０】
また、ウェブ検索により得られるテキスト２５４の個数ＰがＰ_Ｔ未満の場合には、検索語を修正し、再検索を行うことが各文に検索語と関連語の組からなるキーワード集合を割り当てられる点で最も好ましい。しかし、本発明は、Ｐ_Ｔ未満の場合において再検索を行わず検索語だけを用いてキーワード集合を作成することもできる。この場合、基準となる文に対して前後にある複数のキーワード集合を考慮している点から、少ない計算時間で実用的な精度で本文の内容を解析しテキストセグメンテーションを行うことができる。
【００６１】
最後に、分解文章記憶部２０２に格納されている全ての文に対して検索語抽出処理部２１１と関連語取得処理部２２１の処理が終了すると、制御部２４０は、連結性判定処理部２３１を起動する。連結性判定処理部２３１では、最初に制御部２４０を介して検索語記憶部２１２と関連語記憶部２２２に格納されている検索語と関連語を読み出し、それらを組み合わせてキーワード集合を作成する。図８の検索語の例と図９の関連語の例から作成したキーワード集合の例を図１０に示す。例えば、図１０に示すキーワード集合は、図８の検索語と図９の関連語から作成されたものである。ここで、連結性判定処理部２３１では、検索語が無い場合にはそれに対応する関連語も存在しないため、キーワード集合を作成しない。また、検索語は存在し、関連語が存在しない場合には検索語のみを用いてキーワード集合を作成する。
【００６２】
キーワード集合は、テキストの内容を反映する単語であることから、キーワード集合に含まれる単語の変化を調べることでテキスト２５５における内容の変化を捉えることができる。そこで、連結性判定処理部２３１では、生成されたキーワード集合を比較し、内容的にまとまっている一文または複数の文から構成される意味段落を見つける。抽出された意味段落は制御部２４０を通じて意味段落記憶部２３２に格納される。比較の方法は、テキストは先頭から順に書かれることが一般的であるため、テキストの先頭から順に複数のキーワード集合を纏めたブロックを作成し、比較を行う。具体的には、ｂをブロックの大きさとすると、ｉ＋１−ｂ番目からｉ番目までのキーワード集合が含まれるブロックＢ１と、ｉ＋１番目からｉ＋ｂ番目までのキーワード集合が含まれるブロックＢ２を決定し、二つのブロックＢ１とＢ２内に含まれるキーワード集合内の単語を比較する。単語が存在しないキーワード集合はブロックＢ１とブロックＢ２を作成する際には含めず、ブロックＢ１においては該当する文よりも前の文で空でないキーワード集合を、ブロックＢ２においては該当する文の後の文で空でないキーワード集合を代わりにブロックに含める。例えば、ｊ番目の文に対するキーワード集合が空の場合、ブロックＢ１作成時にはｊ−１，ｊ−２，…，１番目の順に空でないキーワード集合を発見し、ブロックＢ１に含める。一方、ブロックＢ２作成時にはｊ＋１，ｊ＋２，…，Ｎ番目の順に空でないキーワード集合を発見し、ブロックＢ２に含める。
【００６３】
上記のようにしてブロックＢ１とブロックＢ２を作成後、それぞれのブロックに含まれる単語ｔの頻度ｗ_ｔを計算する。そして、ｉ番目とｉ＋１番目の二つの文の連結度を単語ｔの頻度ｗ_ｔを用いて以下の式で評価する。
【００６４】
【数２５】

但し、ｗ_ｔ^B1はブロックＢ１にある単語ｔの頻度、ｗ_ｔ^B2はブロックＢ２にある単語ｔの頻度を表す。
【００６５】
【数２６】

は０以上１以下の値を取り、１に近いほどブロックＢ１とブロックＢ２に含まれている単語が同じであることを表す。ここで、ブロックＢ１、またはブロックＢ２内に単語が一切含まれていない場合、連結度
【００６６】
【数２７】

の値は０と算出される。連結性判定処理部２３１では、ｉ＝｛１，２，…，Ｎ｝と変化させ、
【００６７】
【数２８】

を計算する。更に、ブロックの大きさｂのパラメータをｂ＝（ｂ_１，ｂ_２，…，ｂ_Ｍ）とＭ個設定して各ブロック幅に対して連結度
【００６８】
【数２９】

を計算し、それらの平均値をｉ番目とｉ＋１番目の文における平均連結度Ｃ_ｉとする。
【００６９】
【数３０】

最後に、平均連結度Ｃ_ｉ（但し、ｉ＝（１，２，…，Ｎ））を用いて意味段落の境界である平均連結度の谷を抽出し、テキストの内容の変化を解析する。ここで、「平均連結度の谷」とは、意味段落の境界であり、与えられたテキストの内容が変化する際に現れる。この内容が変化する箇所は意味的な段落であるということで「意味段落」と呼ばれ、意味段落の境界を見つけることでテキストセグメンテーションを行うことができる。平均連結度の谷は以下の条件を満たす。
【００７０】
【数３１】

連結性判定処理２３１では、検出された谷に応じて意味段落を抽出する。具体的には、ｉ番目で谷が検出されると、一つ目の意味段落に関しては先頭から、二つ目以降の意味段落に関しては以前に谷が検出された箇所からｉ−１番目までを一つの意味段落とする。閾値Ｃ_Ｔ＝０．１とし、図１０に示すキーワード集合に対して連結性判定処理部２３１の処理を行った結果を図１１に示す。図１０の意味段落記憶部２３２の例は、ｉ＝６で谷が検出されて二つの意味段落に分割されたものである。
【００７１】
連結性判定処理部２３１の処理が終了すると、制御部２４０により出力部２４２が起動され、テキスト２５５に対してテキストセグメンテーションを行った結果を表示部２５４に表示する。具体的には意味段落記憶部２３２を参照し、格納されている文番号を表示する。例えば、図１１に示す文番号を表示する方法が挙げられる。
【００７２】
上記のように、計算時間や精度はパラメータＴ，Ｓ_Ｔ，Ｐ_Ｔ，Ｃ_Ｔ，ｂにより調整することができる。パラメータＴとＳ_Ｔ，Ｐ_Ｔを調整することで、ウェブ検索を行うことで得られる関連語の抽出精度や計算時間を調整することができる。例えば、ウェブ検索により記事を収集する際、得られた記事の個数ＰがＰ_Ｔに達した時点でＰ≧Ｐ_Ｔを満たすことから、記事の収集を終了させることで計算時間の削減につながる。また、パラメータｂ、Ｃ_Ｔにより本文の内容の変化を捉える敏感さを調整することができる。更に、複数のパラメータｂに対する平均連結度Ｃ_ｉを用いることで、局所的な内容の変化と大域的な内容の変化を同時に考慮し、従来の方法において問題であった過剰に意味段落を抽出することや緩やかに内容が変化する際の意味段落抽出に失敗することを解決している。
【００７３】
［第２の実施の形態］
本実施の形態では、第１の実施の形態の応用例として複数の閾値Ｃ_Ｔを用いる場合について説明する。
【００７４】
図１３は、本発明の第２の実施の形態におけるウェブ検索を利用したテキストセグメンテーションシステムの構成を示す。同図において、図３と同一構成部分には同一符号を付しその説明を省略する。
【００７５】
図１３に示すコンピュータ１１６１には、閾値を入力するためのキーボード１１６２が接続されている。また、コンピュータ１１６１内に、図３に示す構成に分割結果選択処理部１１４１、生成ブロック記憶部１１３２が付加された構成である。
【００７６】
図１４は、本発明の第２の実施の形態における処理手順の概要を示すフローチャートである。
【００７７】
コンピュータ１１６１の入力部２４１にテキスト２５５が入力され（ステップ１００１）、テキスト分割処理部２０１において入力されたテキストを文単位に分割し（ステップ１００２）、検索語抽出処理部２１１において文から検索語を抽出し（ステップ１００３）、関連語取得処理部２２１において検索語を用いてウェブ上で検索を行い検索結果から関連語を取得する（ステップ１００４）。連結性判定処理部２３１において、検索語と関連語を組にしたキーワード集合から意味段落を抽出する（ステップ１００５）。分割結果選択処理部１１４１において、セグメンテーション結果が複数あるかを判断し、（ステップ１００６）、複数のセグメンテーション結果がある場合には、ユーザに結果を提示してキーボード１１６２から閾値を入力させる（ステップ１００７）。分割結果選択処理部１１４１において、入力された閾値に基づいてテキストセグメンテーション結果を出力部２４２から出力する（ステップ１００８）。
【００７８】
以下では、図１３におけるテキスト２５５、分解文章記憶部２０２、検索語記憶部２１２、関連度記憶部２２２に格納されるデータの例は、前述の第１の実施の形態と同様のものを用いて、第１の実施の形態と異なる部分について説明する。
【００７９】
連結性判定処理部２３１において、複数個の閾値Ｃ_Ｔに対して実行される。具体的には、キーワード集合を作成した後、複数の閾値Ｃ_Ｔを順に用いながら、平均連結度Ｃ_ｉを算出し、意味段落を抽出する。意味段落の抽出後、制御部２４０を介して意味段落記憶部２３２を参照し、分割結果が異なる場合にはその時の閾値と意味段落を制御部２４０を介して意味段落記憶部２３２に格納する。複数の分割結果が意味段落記憶部２３２に格納された例を図１５に示す。ここで、複数の閾値に対して同じ分割結果が得られる場合には、閾値と分割結果はそれぞれ一つしか意味段落記憶部２３２に格納されない。
【００８０】
連結性判定処理部２３１の処理の後、制御部２４０により分割結果選択部１１４１が起動される。分割結果選択部１１４１では、制御部２４０を介して意味段落記憶部１１３２を参照する。そして、閾値が複数個格納されている場合には、出力部２４２を介して表示部２５６に意味段落記憶部２３２に格納されている分割結果を表示し、キーボード１１６２を通じて閾値の入力をユーザに求める。ユーザは表示部２５６に表示さえている分割結果を参照し、閾値を一つ入力する。閾値が入力されると、制御部２４０は、入力された閾値を分割結果選択処理部１１４１に渡す。その後、分割結果選択処理部１１４１において、制御部２４０を介して意味段落記憶部２３２を参照し、入力された閾値に対応する分類結果だけを残し、他の分割結果を削除する。そして、一つだけ意味段落記憶部２３２に格納されている分割結果が一つの場合には、分割結果選択処理部１１４１ではユーザに閾値の入力を求めず、意味段落記憶部２３２に格納されている分割結果を出力部２４２を通じて表示部２５６に出力する。
【００８１】
上記の第２の実施の形態において、複数の閾値Ｃ_Ｔに対して処理を行う場合、複数の結果を提示し、閾値を入力させることでセグメンテーション結果を選択させる。これにより、大きい内容の変化で分割するか、または細かい内容の変化でも分割するか、ユーザが調整を行いながらテキストセグメンテーションを行うことができる効果がある。一方で、入力されたテキストを一括して分割処理する場合には、一つの閾値Ｃ_Ｔで処理を行うことで自動的に入力テキストを分割することができる。
【００８２】
なお、上記の第１・第２の実施の形態におけるテキストセグメンテーション装置（コンピュータ）の構成要素をプログラムとして構築し、テキストセグメンテーション装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【００８３】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【００８４】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【００８５】
本発明は、コンピュータ上で各種記事や物語等の文章中の各文を意味的なまとまりに分割する技術に適用可能である。
【００８６】
【符号の説明】
【００８７】
２０１テキスト分解手段、テキスト分解処理部
２０２分解文章記憶部
２１１検索語抽出手段、検索語抽出処理部
２１２検索語記憶手段、検索語記憶部
２２１関連語抽出手段、関連語取得処理部
２２２関連語記憶手段、関連語記憶部
２３１連結性判定手段、連結性判定処理部
２３２意味段落記憶部
２４１入力部
２４２出力部
２５１コンピュータ
２５２ネットワーク
２５３ウェブ
２５４構造化言語で記述された記事
２５５テキスト
２５６表示部
１１３２生成ブロック記憶部
１１４１分割結果選択処理部
１１６２キーボード

【特許請求の範囲】
【請求項１】
テキストを内容に応じて分割するテキストセグメンテーション装置であって、
入力されたテキストを文単位に分割するテキスト分解手段と、
前記テキスト分解手段により分割された文を形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を検索語として抽出し、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出手段と、
前記検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を関連語として取得し、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を取得し、関連語記憶手段に格納する関連語取得手段と、
前記検索語記憶手段から検索語を取得し、前記関連語記憶手段から関連語を取得し、該検索語と該関連語との組み合わせであるキーワード集合を用いて、前記入力テキストを分割した複数の文同士の連結性を判定し、該連結性の谷と谷の間にある文同士である意味段落を抽出することによって前記入力テキストを分割する連結性判定手段と、
を有し、
前記連結性判定手段は、
前記キーワード集合を纏めたブロックＢ１，Ｂ２を作成し、ｉ番目とｉ＋１番目の２つの文の連結度を、単語ｔの出現頻度を用いて、
【数１】

（但し、ｗ_ｔ^B1はブロックＢ１にある単語ｔの頻度、ｗ_ｔ^B2はブロックＢ２にある単語ｔの頻度を表す。
【数２】

は０以上１以下の値を取り、１に近いほどブロックＢ１とブロックＢ２に含まれている単語が同じであることを表す）
により求める手段と、
ｉ＝｛１，２，…，Ｎ｝と変化させ、
【数３】

を計算し、ブロックの大きさｂのパラメータをｂ＝（ｂ_１，ｂ_２，…，ｂ_Ｍ）とＭ個設定して各ブロック幅に対して連結度
【数４】

を計算し、それらの平均値をｉ番目とｉ＋１番目の文における平均連結度Ｃ_iとして、
【数５】

により求める手段と、
前記平均連結度Ｃ_i（但し、ｉ＝（１，２，…，Ｎ））を用いて意味段落の境界である平均連結度の谷を、条件
【数６】

に基づいて抽出し、該谷に基づいて前記意味段落を取得する手段と
を含むことを特徴とするテキストセグメンテーション装置。
【請求項２】
前記連結性判定手段は、
複数個の閾値Ｃ_Ｔを用いて前記平均連結度Ｃ_ｉを算出し、前記意味段落を抽出する手段を含む請求項１記載のテキストセグメンテーション装置。
【請求項３】
テキストを内容に応じて分割する装置におけるテキストセグメンテーション方法であって、
テキスト分解手段が、入力されたテキストを文単位に分割するテキスト分解ステップと、
検索語抽出手段が、前記テキスト分解ステップにおいて分割された文を形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を検索語として抽出し、さらに、予め作成された一般語リストに登録された単語を除くことにより検索語を抽出し、検索語記憶手段に格納する検索語抽出ステップと、
関連語取得手段が、前記検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、形態素解析された単語の中で事前に決めた品詞の単語を関連語として取得し、さらに、予め作成された一般語リストに登録された単語を除くことにより関連語を取得し、関連語記憶手段に格納する関連語取得ステップと、
連結性判定手段が、前記検索語記憶手段から検索語を取得し、前記関連語記憶手段から関連語を取得し、該検索語と該関連語との組み合わせであるキーワード集合を用いて、前記入力テキストを分割した複数の文同士の連結性を判定し、該連結性の谷と谷の間にある文同士である意味段落を抽出することによって前記入力テキストを分割する連結性判定ステップと、
を行い、
前記連結性判定ステップにおいて、
前記キーワード集合を纏めたブロックＢ１，Ｂ２を作成し、ｉ番目とｉ＋１番目の２つの文の連結度を、単語ｔの出現頻度を用いて、
【数７】

（但し、ｗ_ｔ^B1はブロックＢ１にある単語ｔの頻度、ｗ_ｔ^B2はブロックＢ２にある単語ｔの頻度を表す。
【数８】

は０以上１以下の値を取り、１に近いほどブロックＢ１とブロックＢ２に含まれている単語が同じであることを表す）
により求めるステップと、
ｉ＝｛１，２，…，Ｎ｝と変化させ、
【数９】

を計算し、ブロックの大きさｂのパラメータをｂ＝（ｂ_１，ｂ_２，…，ｂ_Ｍ）とＭ個設定して各ブロック幅に対して連結度
【数１０】

を計算し、それらの平均値をｉ番目とｉ＋１番目の文における平均連結度Ｃ_iとして、
【数１１】

により求めるステップと、
前記平均連結度Ｃ_i（但し、ｉ＝（１，２，…，Ｎ））を用いて意味段落の境界である平均連結度の谷を、条件
【数１２】

に基づいて抽出し、該谷に基づいて前記意味段落を取得するステップと
を含むことを特徴とするテキストセグメンテーション方法。
【請求項４】
前記連結性判定ステップにおいて、
複数個の閾値Ｃ_Ｔを用いて前記平均連結度Ｃ_ｉを算出し、前記意味段落を抽出する
請求項３記載のテキストセグメンテーション方法。
【請求項５】
請求項１または２に記載のテキストセグメンテーション装置を構成する各手段としてコンピュータを機能させるテキストセグメンテーションプログラム。
【請求項６】
請求項５記載のテキストセグメンテーションプログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【公開番号】特開２０１３−１０１６７８（Ｐ２０１３−１０１６７８Ａ）
【公開日】平成２５年５月２３日（２０１３．５．２３）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 自然言語データの取扱い (7,890)
        
        自動言語解析，例．構文解析，綴字訂正 (543)
        
        テキスト処理 (6,199)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２０１３−１５３５７（Ｐ２０１３−１５３５７）
【出願日】平成２５年１月３０日（２０１３．１．３０）
【分割の表示】特願２００８−１２０２６（Ｐ２００８−１２０２６）の分割
【原出願日】平成２０年１月２２日（２００８．１．２２）
【出願人】（０００００４２２６）日本電信電話株式会社 (13,992)
【Ｆターム（参考）】

機械翻訳 (6,566)
- 言語 (1,300)
  - 自然言語・解析結果間（例；日本語文解析） (617)
- 言語処理技術 (1,358)
  - 文解析 (1,092)
    - 形態素解析 (353)
    - 意味解析 (324)

[ Back to top ]

テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

メニュー

スポンサーリンク

次の公報 »

« 前の公報

テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク