説明

テキスト分析装置およびテキスト分析プログラム

【課題】文全体の特徴、前後数文の特徴を基に、その文が説明区間に入るか否かを統計的に判定することのできるテキスト分析装置およびテキスト分析プログラムを提供する。
【解決手段】テキスト分析装置が、機械学習処理により得られた素性関数ごとの重要度値からなる学習結果データ記憶部と、複数の文を含む処理対象文章データを読み込み、処理対象文章データに含まれる各々の文を解析して特徴値データを求める特徴抽出部と、前記特徴値データを基に素性関数の値を計算し、学習結果データ記憶部から素性関数ごとの前記重要度値を読み出し、計算された素性関数の値と読み出された重要度値とを基に処理対象文章データに対する出力系列ごとの生起確率値を算出し、算出された前記生起確率値に基づいて一つの出力系列を選択し、この選択された出力系列により前記処理対象文章データ中の特定区間を抽出する判定処理部を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子化されたテキストを分析するテキスト分析装置およびテキスト分析プログラムに関する。特に、入力されるテキストから特定の説明区間を抽出するテキスト分析装置およびテキスト分析プログラムに関する。
【背景技術】
【0002】
従来、文章中から特定の説明部分を抽出する手法としては、「XとはYである」、「Xと言われるY」といったテンプレートを用いるものがあった。非特許文献1には、この手法が記載されている。
また、従来、連体修飾節を説明部分として抽出する手法があった。非特許文献2には、この手法が記載されている。
【非特許文献1】藤井敦,石川徹也,「World Wide Webを用いた辞典知識情報の抽出と組織化」,2002年,電子情報通信学会論文誌,Vol.J85−D−II,No.2,pp.300−307
【非特許文献2】山田一郎,住吉英樹,柴田正啓,「ニュース記事に出現する用語と説明文の意味関係自動獲得」,情報処理学会研究報告,NL152−21
【発明の開示】
【発明が解決しようとする課題】
【0003】
上記のような、テンプレートを用いる手法では、抽出される説明部分が上位概念などの単語情報のみに限定されてしまい、他の説明部分をうまく抽出できないという問題があった。例えば、「XとはYである」というテンプレートで抽出できるYは、Xの上位概念単語に限定されてしまう。
また、連体修飾節を説明部分として抽出して用いる手法では、抽出される説明部分が短い節のみに限定されるという制約がある。
一般的に言うと、人が定型的と認識できる文章であっても、様々な表現や係り受け構造があるため、単純に機械的に抜き出すことは難しいという問題がある。
【0004】
本発明は、上記の課題認識に基づいて行なわれたものであり、単語単位あるいは修飾節単位の部分的な説明部分の抽出ではなく、文全体の特徴、およびその文の前後数文の特徴を基に、その文が説明区間に入るか否かを統計的に判定することのできるテキスト分析装置およびテキスト分析プログラムを提供することを目的とする。
また、説明区間に限らず、原因・理由説明の区間や、まとめの区間など、所定の特徴を有する特定区間を抽出することのできるテキスト分析装置およびテキスト分析プログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
[1]上記の課題を解決するため、本発明の一態様によるテキスト分析装置は、機械学習処理により得られた素性関数ごとの重要度値を記憶する学習結果データ記憶部と、複数の文を含む処理対象文章データを読み込み、前記処理対象文章データに含まれる各々の文を解析して特徴値データを求める特徴抽出部と、前記特徴値データを基に素性関数の値を計算し、前記学習結果データ記憶部から素性関数ごとの前記重要度値を読み出し、計算された素性関数の値と読み出された重要度値とを基に前記処理対象文章データに対する出力系列ごとの生起確率値を算出し、算出された前記生起確率値に基づいて一つの出力系列を選択し、この選択された出力系列により前記処理対象文章データ中の特定区間を抽出する判定処理部と、を備えることを特徴とする。
特徴値データは、1種類の特徴のみの値に限定されるものではなく、複数種類(例えば、数十種類程度)の特徴の値からなるデータ(つまり、ベクトルデータ)であっても良い。また、素性関数は文の特徴値データを引数として含む関数であり、素性関数の種類数は複数とすることが通常であるがそれに限定されるものではない。この素性関数は、入力系列(処理対象文章データ)に対する出力系列の生起確率を算出するために用いられるものである。また、出力系列は、例えばIOB系列である。特定区間とは、処理対象文章データのテキスト中で、所定の主体についての概要説明区間や、原因・理由説明区間や、まとめ区間など、所定の特徴を有する区間である。また、判定処理部によって抽出される概要説明などの特定区間の数は、入力される処理対象文章データに依存するが、単数の場合も複数の場合もある。
この構成によれば、学習データ記憶部には、予め機械学習処理により得られた適切な重要度値のデータが記憶されている。特徴抽出部は、処理対象文章データに含まれる各々の文を解析(構文解析などの自然言語解析)して特徴値データを求める。判定処理部は、求められた特徴値データに基づき素性関数値を計算するが、この素性関数値と前記重要度値に基づいて、処理対象文章データに対する出力系列の中で例えば最も生起確率の高い最尤出力系列を選択する。ここで出力系列として例えばIOB系列のようなものを用いることにより、ある出力系列が特定されれば処理対象文章データに含まれる単数又は複数の概要説明などの特定区間が定まる。判定処理部は、得られた概要説明などの特定区間を出力する。
【0006】
[2]また、本発明の一態様によるテキスト分析装置は、上記のテキスト分析装置においてさらに、複数の文を含む学習データを読み込み前記学習データに含まれる各々の文を解析して第2の特徴値データを求める第2の特徴抽出部と、前記第2の特徴抽出部によって求められた特徴値データと前記学習データに対応する既知の出力系列のデータとを基に機械学習処理を行なうことにより、前記特徴値データから出力系列の生起確率を計算する際の素性関数ごとの重要度値を求め、求められた素性関数ごとの重要度値を前記学習結果データ記憶部に書き込む機械学習部と、を備えるものである。
この構成によれば、第2の特徴抽出部は、学習データに対して、前記の特徴抽出部と同種の特徴値データを求める。既知の出力系列データとは、学習データに対応する出力データであり、例えばIOB出力系列のデータである。出力系列データは、学習データに対応付けて、例えばIOBタグなどの形態で与えられる。機械学習部は、例えばCRF(Conditional Random Fields)を用いた学習処理を行なうことにより、素性関数ごとの重要度値を求める。機械学習部がこの重要度値を学習結果データ記憶部に書き込むことにより、これら重要度値を前記判定処理部が利用できる。
【0007】
[3]また、本発明の一態様によるテキスト分析装置は、上記のテキスト分析装置において、前記処理対象文章データに含まれる各々の文を所定のルールで解析することにより前記判定処理部によって抽出された前記特定区間に対応する主体を特定する主体特定部を、さらに備えることを特徴とする。
この構成により、特定区間において説明の対象となっている主体を特定することができる。
【0008】
[4]また、本発明の一態様によるテキスト分析プログラムは、機械学習処理により得られた素性関数ごとの重要度値を記憶する学習結果データ記憶部を備えるコンピュータに、複数の文を含む処理対象文章データを読み込み、前記処理対象文章データに含まれる各々の文を解析して特徴値データを求める特徴抽出過程と、前記特徴値データを基に素性関数の値を計算し、前記学習結果データ記憶部から素性関数ごとの前記重要度値を読み出し、計算された素性関数の値と読み出された重要度値とを基に前記処理対象文章データに対する出力系列ごとの生起確率値を算出し、算出された前記生起確率値に基づいて一つの出力系列を選択し、この選択された出力系列により前記処理対象文章データ中の特定区間を抽出する判定処理過程と、の処理を実行させるものである。
【0009】
[5]また、本発明の一態様によるテキスト分析プログラムは、上記のテキスト分析プログラムにおいて、前記コンピュータにさらに、複数の文を含む学習データを読み込み前記学習データに含まれる各々の文を解析して第2の特徴値データを求める第2の特徴抽出過程と、前記第2の特徴抽出過程において求められた特徴値データと前記学習データに対応する既知の出力系列のデータとを基に機械学習処理を行なうことにより、前記特徴値データから出力系列の生起確率を計算する際の素性関数の重要度値を求め、求められた素性関数ごとの重要度値を前記学習結果データ記憶部に書き込む機械学習過程と、の処理を実行させるものである。
【0010】
このように、本発明は、複数文で構成される概要説明などの特定区間を与えられたテキスト中から抽出する手法についてである。特定の事柄を対象に記述された文章、例えばテレビ番組の台本などでは、文章で主に扱われる主体に対して定型的な表現を用いてその概要が説明される。このような説明区間は百科事典の見出し文などとして有益である。本発明では、テキストの特徴を利用して統計的に定型性を判定することにより、文章で主に扱われる主体に対する概要説明などの特定区間を抽出する。
【発明の効果】
【0011】
本発明によれば、上述した構成および作用により、文章の統計的な特徴を利用して、単語単位あるいは修飾節単位といったレベルではなく、文単位での概要説明などの特定区間を自動的に抽出することができる。これにより、従来技術を用いる場合よりも応用範囲が広がる。
また、本発明によれば、抽出された上記の特定区間内の主体を特定することが可能となる。
【発明を実施するための最良の形態】
【0012】
[第1の実施の形態]
図1は、本発明の実施形態によるテキスト分析装置の機能構成を示すブロック図である。符号1はテキスト分析装置である。図示するように、このテキスト分析装置1は、IOBタグ付与部11、特徴抽出部12(第2の特徴抽出部)、機械学習部13、特徴抽出部22、判定処理部23、主体特定部24の各処理部を含んで構成される。また、このテキスト分析装置1は、学習データ31、処理対象文章データ32、学習結果データ(重要度値)33、出力データ(主体および説明区間)34の各データを記憶する装置を備えている。各データを記憶する装置は、例えば、半導体メモリや、磁気ハードディスクなどを用いて実現する。
このテキスト分析装置1は、与えられるテキストから、概要説明区間(特定区間)を抽出するものである。
【0013】
IOBタグ付与部11は、入力されるデータ中の各文に対して3種類の記号「B」、「I」、「O」を付与する。記号「B」は概要説明区間の始まりを表わし、記号「I」は概要説明区間中を表わし、記号「O」は概要説明区間以外を表わす。どの記号が付与されるかは、利用者が本装置のユーザインタフェースを通して指定することにより決定される。
特徴抽出部12は、入力される文章のデータ(このデータは、学習データ31に含まれていた複数の文のデータを含んでいる)から、所定の特徴を抽出する。ここで抽出される特徴は後段の機械学習のための入力データとなる。
機械学習部13は、特徴抽出部12による特徴抽出の結果を入力として、ある区間に特定の特徴が出現した場合に、当該区間が概要説明区間を構成する確率値を算出する。その処理の結果として、機械学習部13は、学習結果データ33を出力し記憶装置に書き込む。つまり、学習結果データ記憶部は、機械学習処理により得られた素性関数ごとの重要度値を記憶する。
【0014】
特徴抽出部22は、処理対象文章データ32を読み込み、このデータに含まれる各々の分を解析しての特徴を抽出する。特徴抽出部22と前記の特徴抽出部12とは、同じ計算式により同種の特徴量(特徴値データ)を算出するが、それぞれの入力データが異なる。
判定処理部23は、学習結果データ33を読み出し、この学習結果データが表わす所定の特徴が出現した場合における概要説明区間を構成する確率値を利用して、処理対象文章データ22の文章から概要説明区間を抽出する。つまり、処理対象文章データ22内の各文が、概要説明区間に属するか否かを判定する。
主体特定部24は、判定処理部23による判定の結果として抽出された概要説明区間に対して、その主体を特定して、対応する主体名と概要説明区間とを出力する。
【0015】
次に、テキスト分析装置1のより詳細な処理内容とその手順について説明する。本装置では、まず、概要説明区間が既知である文章集合を入力として与え、これを学習用のデータとする。
図2は、そのような文章を表わす学習データ31の例を示す概略図である。図2に示すデータは、放送番組のクローズドキャプションにある動物の概要説明区間例である。このデータでは、文1から文10までの10文それぞれに対して、時刻のデータ(例えば、文1に対しては「10:04:16.10」)および文のテキスト(例えば、文1に対しては「どこにいるのでしょう?」)が含まれている。ここで、文4から文8までが概要説明区間内でありそれら以外の文が概要説明区間外であることは、既知であり、予め明示されている。
【0016】
まず、IOBタグ付与部11(図1)は、利用者による操作に基づき、この入力に対して概要説明区間の始まりを表す記号「B」、概要説明区間中を表す記号「I」、概要説明区間以外を表す記号「O」を付与する。これはIOBタグと呼ばれるもので、自然言語処理において必要に応じて用いられるものである(参考文献: 工藤拓,松本裕治,「Support vector Machineを用いたChunk同定」,2002年,自然言語処理,Vol.9,No.5,pp.3-22)。なお、利用者による操作とは、例えば、マウスを用いた操作により、文毎に、プルダウンメニューから「B」、「I」、「O」のいずれかを選択するものである。
【0017】
図3は、IOBタグ付与部11から出力されるデータであり、図2のデータのクローズドキャプションに対して、文毎にIOBタグが付与されている。文4は概要説明区間の始まりであるために記号「B」が付与されている。文5から文8までは概要説明区間中であるために記号「I」が付与されている。文1から文3までと、文9および文10は、概要説明区間以外であるために記号「O」が付与されている。
【0018】
次に、特徴抽出部12(図1)は、IOBタグ付与部11から出力されたデータを1文ずつ解析して、各文に対してその特徴を抽出する(第2の特徴抽出過程)。本実施形態では、抽出する特徴は、下記の通り特徴1から特徴37までの37個である。なお、これら37個の特徴を全て使っても良いし、これらのうち一部の特徴のみを使うようにしても良い。
【0019】
特徴1:対象とする主体と同じカテゴリーに入る名詞+「が格」、「は格」、「も格」、「です」、「でした」、体言止め の有無(主題となる対象名詞の有無)
特徴2:特徴1に該当する場合、それがその前の主題となる対象名詞から変化をしていたか否か
特徴3:主語の有無(が、は、です、でした、体言止め)
特徴4:対象とする主体と同じカテゴリーに入る名詞を修飾する語の数
特徴5:対象とする主体の属性(属性名)を表わす語+「が格」、「は格」、「も格」、「です」、「でした」、体言止め の有無
特徴6:対象とする主体の属性値を表わす語+「が格」、「は格」、「も格」、「です」、「でした」、体言止め の有無
特徴7:対象とする主体の部分を表わす語+「が格」、「は格」、「も格」、「です」、「でした」、体言止め の有無
特徴8:最終文節の付属語が終助詞「よ」、「ね」か否か
特徴9:最終文節の付属語に助動詞「です」があるか否か
【0020】
特徴10:最終文節の付属語に伝聞を表す表現があるか否か。伝聞を表す表現とは「そうです」、「ようです」、「言います」、「なのです」など。
特徴11:最終文節の付属語に過去を表す自動詞があるか否か
特徴12:最終文節の動詞の活用形の表記
特徴13:最終文節の動詞が現在進行形か否か
特徴14:対象とする主体の行動や行為を表す動詞の有無
特徴15:対象とする主体の言い換え表現+「です」 の有無
特徴16:対象とする主体と同じカテゴリーに入る名詞の前に並列句があるか否か
特徴17:対象とする主体と同じカテゴリーに入る名詞の有無
特徴18:対象とする主体の属性(属性名)を表す語の有無
特徴19:対象とする主体の属性値を表わす語の有無
【0021】
特徴20:指示詞(「それ」、「その」、「そんな」、「それら」)の有無
特徴21:指示詞(「これ」、「この」、「こんな」、「これら」)の有無
特徴22:誇張表現(「なんと」、「世界最大の」、・・・)の有無
特徴23:次のクローズドキャプションとの時間差が10秒以上か否か
特徴24:疑問形か否か
特徴25:接続詞の表記
特徴26:最終文節の動詞が、「出来る」、「出来ない」か否か
特徴27:最終文節の名詞が、対象とする主体と同じカテゴリーに入る名詞か否か
特徴28:最終文節の名詞が、対象とする主体の属性名か否か
特徴29:最終文節の名詞が、対象とする主体の属性値か否か
【0022】
特徴30:最終文節の名詞が、対象とする主体の部分か否か
特徴31:最終文節の付属語に副助詞「だけ」があるか否か
特徴32:最終文節の付属語に副助詞「ほど」、「くらい」があるか否か
特徴33:対象とする主体と同じカテゴリーに入る名詞+「は格」の有無
特徴34:対象とする主体の属性名+「は格」の有無
特徴35:対象とする主体の部分+「は格」の有無
特徴36:対象とする主体と同じカテゴリーに入る名詞、対象とする主体の属性名、対象とする主体の部分の含まれる文節の係り先が、対象とする主体の属性値の含まれる文節であるか否か
特徴37:対象とする主体の属性値が含まれる文節の係り先が対象とする主体と同じカテゴリーに入る名詞、対象とする主体の属性名、対象とする主体の部分の含まれる文節であるか否か
【0023】
なお、特徴抽出部12の動作としては、予め「対象とする主体」が属するカテゴリーを限定しておく。例えば、対象とする主体を生物名などに限定しておく。そして、辞書を用いて、生物名の下位概念に相当する名詞の集合(例えば、{イカ,カミナリイカ,コリアクイ,ジュゴン,・・・・・・})の要素であるか否かを判定することにより、上記各特徴における「対象とする主体」にマッチするかどうかを決定する。
また、特徴抽出部12は、入力された文章の形態素解析、構文解析を行なうことにより、各形態素の品詞を決定したり、修飾句の係り先を判定したりし、これらの解析結果を上記の特徴抽出の処理に用いる。
また、上記の中で属性名あるいは属性値に該当するか否かに基づいて特徴を求める部分があるが、これは知識表現などにおいても用いられる主体−属性名−属性値の関係からなる属性モデルに基づくものであり、属性名を表わす語や属性値を表わす語は予め辞書に登録しておく。また、対象とする主体と同じカテゴリーに属するか否かも、予め登録した辞書を用いて判断する。また、クローズドキャプションにおける時間差(文と文との時間差)は、図2や図3に示したデータの時刻情報を用いて計算する。
【0024】
一例として、特徴抽出部12が、図2で示した文4である「背丈は1m50cmもあります。」という文を解析すると、以下の特徴が得られる。
即ち、特徴1:−,特徴2:−,特徴3:+,特徴4:−,特徴5:+,特徴6:+,特徴7:−,特徴8:−,特徴9:−,特徴10:−,特徴11:−,特徴12:連用形,特徴13:−,特徴14:−,特徴15:−,特徴16:−,特徴17:−,特徴18:+,特徴19:+,特徴20:−,特徴21:−,特徴22:−,特徴23:−,特徴24:−,特徴25:“”(値なし),特徴26:−,特徴27:−,特徴28:−,特徴29:−,特徴30:−,特徴31:−,特徴32:−,特徴33:−,特徴34:+,特徴35:−,特徴36:−,特徴37:−
【0025】
但し、ここで、各特徴の「+」は陽性であることを表わす。つまり、「+」の場合、「・・・であるか否か」で表現される特徴に対しては「・・・である」を表わし、「・・・の有無」で表現される特徴に対しては「有」を表わす。また、各特徴の「−」は陰性であることを表わす。つまり、「−」の場合、「・・・であるか否か」で表現される特徴に対しては「・・・ではない(否)」を表わし、「・・・の有無」で表現される特徴に対しては「無」を表わす。
【0026】
IOBタグ付与部11によって付与されたIOBタグの情報と、特徴抽出部12によって抽出された特徴の情報が、次の機械学習部13の入力となる。
機械学習部13(図1)は、ある特徴が出現した場合における出力系列の確率値を計算する。そして、機械学習部13は、本実施形態では、CRF(Conditional Random Fields)を利用した手法を用いて学習処理を行なう(機械学習過程,参考文献: John Lafferty,Andrew McCallum,Fernando Pereira,「Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence data」,2001年,In Proc. Of ICML,pp.282-289)。
【0027】
CRFでは、学習データに含まれる特徴を元に、系列データに対してある入力があったときの出力の生起確率を学習する。つまり、入力xに対しての特徴を抽出し、それを基に、IOBタグで表現される出力系列yの生起確率を下記の式(1)により算出する。
【0028】
【数1】

【0029】
ただし、式(1)において、wi−1およびwは、それぞれ、(i−1)番目の文およびi番目の文である。ti−1およびtは、それぞれ、(i−1)番目の文の特徴およびi番目の文の特徴である。ここで、ti−1およびtは、本実施形態においては、それぞれの文についての特徴1から特徴37までの値のベクトルである。また、f(<wi−1,ti−1>,<w,t>)は、(i−1)番目の文とi番目の文に依存する素性関数であり、「0」または「1」の値を取る。但し、個々の素性関数の関数値自体は、i番目の文が概要説明区間に含まれるか否かをそれ単独で絶対的に決定するものではなく、P(y|x)は入力系列xに対する出力系列yの生起確率である。なお、この素性関数f(<wi−1,ti−1>,<w,t>)が(i−1)番目の文に依存せずにi番目の文のみに依存するような素性関数であっても良い。また、Kは、素性関数f(<wi−1,ti−1>,<w,t>)の数である。つまり、1≦k≦Kである。また、λはk番目の素性関数の有効性を表わす値である。また、#yは、系列の長さである。つまり、#yは、ここでは解析対象の文の数であり、1≦i≦#yである。
【0030】
また、Zは全系列を考慮したときに確率の和が1になるようにするための正規化項である。なお、0番目の文は存在しないため、上の式(1)において、wとしては実際には存在しない1番目の文の前の文を仮定し、tは実際には存在しない1番目の文の前の文の特徴とする。実際の特徴(t)の値は、「−」もしくは「(値なし)」となる。
【0031】
機械学習部13がCRFの学習を行なうことにより、各素性関数の有効性を示すλの値(重要度値)が計算される。そして、学習結果として計算された値(λ,λ,・・・・・・,λ)を、機械学習部13が学習結果データ33(図1)として記憶装置に書き込む。この重要度値λ,λ,・・・・・・,λを用いることにより、入力xにおける出力y(IOB系列)の生起確率が計算できるようになる。
以上まとめると、機械学習部13は、特徴抽出部12によって求められた特徴値データと学習データ31に対応する既知の出力系列のデータとを基に機械学習処理を行なうことにより、前記特徴値データから出力系列の生起確率を計算する際の素性関数ごとの重要度値を求め、求められた素性関数ごとの重要度値を学習結果データ33として、学習結果データ記憶部に書き込む。
【0032】
次に、学習結果データ33を用いて処理対象文章を判定する一連の処理について説明する。
処理対象文章データ32が与えられると、特徴抽出部22(図1)は、処理対象文章データ32に含まれる各文の特徴抽出を行う(特徴抽出過程)。ここで抽出される特徴は、特徴抽出部12が上で学習データに対して抽出した特徴と同種のものである。
【0033】
次に、判定処理部23(図1)は、学習結果データ33を読み出す。そして判定処理部23は、読み出した重要度値λ,λ,・・・・・・,λの値と、処理対象文章データ32に含まれる各文について特徴抽出部22が算出した特徴を用いて、前記の式(1)により、出力系列(すべてのIOBの系列)の生起確率P(y|x)を計算する。そして、このP(y|x)が最大となる出力系列を最尤出力系列として選択する。そして、選択された出力系列の中で、Bから始まり連続するIの区間を一つの概要説明区間として抽出する(判定処理過程)。
【0034】
図4は、判定処理部23によって選択された最尤出力系列(IOB系列)の一例を示す概略図である。図示する例は、長さが11のIOB系列であり、先頭から「OOBIIOBIBIO」となっている。このIOB系列が選択された場合、判定処理部23は、3番目の位置から始まる「BII」と、7番目の位置から始まる「BI」と、9番目の位置から始まる「BI」に、それぞれ対応する3つの区間を概要説明区間として抽出する。
まとめると、判定処理部23は、特徴値データを基に素性関数の値を計算し、学習結果データ記憶部から素性関数ごとの重要度値を読み出し、計算された素性関数の値と読み出された重要度値とを基に処理対象文章データに対する出力系列ごとの生起確率値を算出し、算出された前記生起確率値に基づいて一つの出力系列を選択し、この選択された出力系列により処理対象文章データ中の概要説明区間を抽出する。
【0035】
次に、主体特定部24(図1)が、上記の判定結果、即ち判定処理部23によって出力されたIOB系列とそれに対応する概要説明区間に応じて、各概要説明区間に対応する主体を特定する処理を行なう(主体特定過程)。
図5および図6は、主体特定部24による主体特定処理の手順を示すフローチャートの、それぞれ、前半部分および後半部分である。以下、このフローチャートに沿って説明する。主体特定部24への入力として、上で抽出された概要説明区間とその前後の数文を与えられる。
【0036】
まず図5のステップS01において、抽出された概要説明区間の前の文に体言止めで「対象とする主体」がある、もしくは、前の文の最終文節に「対象とする主体+『です』」があり、これらのいずれかの条件を満たして且つ、当該概要説明区間に「対象とする主体+『は』」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS02において、抽出された概要説明区間の前の文に体言止めで「対象とする主体」がある、もしくは、前の文の最終文節に「対象とする主体+『です』」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS03において、抽出された概要説明区間の最初の文に体言止めで「対象とする主体」があある、もしくは、前の文の最終文節に「対象とする主体+『です』」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS04において、抽出された概要説明区間の2つ前の文に、体言止めで「対象とする主体」がある、もしくは、2つ前の文の最終文節に「対象とする主体+『です』」があり、これらのいずれかの条件を満たして且つ、当該概要説明区間に「対象とする主体+『は』」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
【0037】
次にステップS05において、抽出された概要説明区間の2つ前の文に体言止めで「対象とする主体」がある、もしくは、2つ前の文の最終文節に「対象とする主体+『です』」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS06において、抽出された概要説明区間の前の文の最終文節に「対象とする主体+『が』+『いる』」、「対象とする主体+『を』+『発見』」、「対象とする主体+『を』+『見つける』」のいずれかがある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS07において、抽出された概要説明区間の2つ前の文の最終文節に「対象とする主体+『が』+『いる』」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS08において、抽出された概要説明区間の前の文の最終文節に「対象とする主体+『は』がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
【0038】
次に図6のステップS09において、抽出された概要説明区間の2つ前の最終文節に「対象とする主体+『は』」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS10において、抽出された概要説明区間に「対象とする主体+『は』」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS11において、抽出された概要説明区間に「対象とする主体+『の』+(対象とする主体の属性名 or 対象とする主体の部分名)+『は』」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS12において、抽出された概要説明区間に「対象とする主体+『の』+(対象とする主体の属性名)or(対象とする主体の部分名)」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
【0039】
次にステップS13において、抽出された概要説明区間の前の文に「対象とする主体+『の』+(対象とする主体の属性名 or 対象とする主体の部分名)」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS14において、抽出された概要説明区間の2つ前の文に「対象とする主体+『の』+(対象とする主体の属性名 or 対象とする主体の部分名)」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS15において、抽出された概要説明区間に「対象とする主体」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS16において、抽出された概要説明区間の前の文に「対象とする主体」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には次に進む。
次にステップS17において、抽出された概要説明区間の2つ前の文に「対象とする主体」がある場合には、その「対象とする主体」を当該概要説明区間における主体と特定し処理を終了する。この条件を満たさない場合には、ステップS01からS17までの全ての条件に合致しなかったため、主体特定部24は、当該概要説明区間について「主体なし」と判断する。
【0040】
なお、判定処理部23によって抽出された概要説明区間が複数ある場合には、それぞれの概要説明区間について、ステップS01〜S17の手順によって主体を特定する。また、上記のステップS01〜S17における判定は、対象としている文章を構文解析した結果に基づいて行なう。
【0041】
主体特定部24は、機械学習結果を利用して判定処理部23から出力された概要説明区間と概要説明区間に対応して特定された主体のペアを出力する。これが、テキスト分析装置1の一連の処理の最終出力である出力データ34となる。
図7および図8は、出力データ34の一例を示す概略図である。これは、NHKで放送された「地球ふしぎ大自然」というタイトルのテレビ番組のクローズドキャプションを処理対象文章データ32として入力し、解析した結果の一部である。図示するように、出力データ34では、主体名と概要説明区間が対応付けられている。出力データ34中、主体名としては、イカ、カミナリイカ、コリアクイ、ジュゴン、ツキノワグマ、バビルサ、ヒガシオオヅル、ヒガシローランドゴリラ、ヒクイドリ、ヒマラヤマーモット(以上は図7)、ピューマ、ピラルクー、プレーリードッグ、ホッキョクオオカミ、ホッキョクグマ、マーモット、マナティー、ミズダコ、ムース、ムリキ、モズ(以上は図8)が含まれている。また、例えば主体名「イカ」に対応する概要説明区間としては「イカは10本の腕を持っています。そのうち2本は蝕腕と呼ばれ・・・・・・」というテキストが含まれている。
【0042】
なお、補足すると、前述の特徴抽出部12の動作(特徴抽出部22の動作も同様)では、予め主体が属するカテゴリーを限定しておいて、そのカテゴリーに属する名詞をマッチングさせたのに対して、この主体特定部24では、単に特定のカテゴリーに属するかどうかだけではなく、ステップS01からS17までの手順で適用したルールにより、その概要説明区間が説明の対象としている主体を具体的に特定している。
【0043】
このように、本実施形態のテキスト分析装置1を用いれば、複数文から構成されるテキスト(処理対象文章データ32)から、主に扱われる主体に対する概要説明区間を抽出する。これにより、大量の文章を基に、このような特定の特性を有する文章区間を抽出することが可能となり、百科事典などにおける項目説明文などを自動生成することができる。本手法を応用することにより、放送における番組映像区間に対するメタデータを効果的に付与することや、インターネットを検索することも効率的に行なえるようになる。
【0044】
[第2の実施の形態]
次に、本発明の第2の実施形態について説明する。
図9は、本実施形態によるテキスト分析装置の機能構成を示すブロック図である。符号101はテキスト分析装置である。図示するように、このテキスト分析装置101は、特徴抽出部122、判定処理部123、主体特定部124の各処理部を含んで構成される。また、このテキスト分析装置101は、処理対象文章データ132、学習結果データ(重要度値)133、出力データ(主体および説明区間)134の各データを記憶する装置を備えている。
【0045】
特徴抽出部122、判定処理部123、主体特定部124は、それぞれ、第1の実施形態における特徴抽出部22、判定処理部23、主体特定部24と同様の機能を有している。また、処理対象文章データ132、学習結果データ133、出力データ134は、それぞれ、第1の実施形態における処理対象文章データ132、学習結果データ133、出力データ134と同様のデータであり、同じ役割を持っている。
【0046】
本実施形態が前述の第1実施形態と異なるのは、IOBタグ付与部11、特徴抽出部12、機械学習部13、および学習データ31を有していない点である。よって、テキスト分析装置101は、学習データに基づく学習処理を行なわない。但し、予め実行された機械学習処理の結果である学習結果データ133が記憶装置に既に記憶されているため、判定処理部23は、学習結果データ133を記憶装置から読み出し、各素性関数の有効度を表わす重要度値λ,λ,・・・,λを用いて、前記の式(1)により、入力される処理対象文章データ132に含まれる文の系列に対する出力系列(IOB系列)の生起確率を算出できる。そして、最も確率値の高いIOB系列を最尤出力系列として選択する。学習結果データが予め記憶されている点以外は、処理手順は第1の実施形態の場合と同様である。
【0047】
なお、上述した各実施形態におけるテキスト分析装置の一部、例えば、IOBタグ付与部、特徴抽出部、機械学習部、判定処理部、主体特定部の各部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0048】
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、第1実施形態の機械学習部13は、CRF(Conditional Random Fields)を利用したが、他の機械学習方法を用いても良い。
また、第1実施形態および第2実施形態では、「特定区間」の一種として概要説明区間を抽出するテキスト分析装置の形態を説明したが、他にも例えば、原因や理由を説明する部分である原因・理由説明区間や、文章の中のまとめの部分であるまとめ区間など、所定の特徴を有する様々な種類の区間を「特定区間」として抽出するようなテキスト分析装置およびテキスト分析プログラムとすることもできる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【図面の簡単な説明】
【0049】
【図1】本発明の第1の実施形態によるテキスト分析装置の機能構成を示したブロック図である。
【図2】同実施形態における学習データ(31)の例を示す概略図である。
【図3】同実施形態によるIOBタグ付与部(11)によってIOBタグが付与され、出力されたデータの例を示す概略図である。
【図4】同実施形態による判定処理部(23)によって選択された最尤出力系列(IOB系列)の一例を示す概略図である。
【図5】同実施形態における主体特定部(24)による主体特定処理の手順を示すフローチャートの前半部分である。
【図6】同実施形態における主体特定部(24)による主体特定処理の手順を示すフローチャートの後半部分である。
【図7】同実施形態による出力データ34の一例を示す概略図である。
【図8】同実施形態による出力データ34の一例を示す概略図である。
【図9】本発明の第2の実施形態によるテキスト分析装置の機能構成を示したブロック図である。
【符号の説明】
【0050】
1,101 テキスト分析装置
11 IOBタグ付与部
12 特徴抽出部(第2の特徴抽出部)
13 機械学習部
22,122 特徴抽出部
23,123 判定処理部
24,124 主体特定部
31 学習データ
32,132 処理対象文章データ
33,133 学習結果データ
34,134 出力データ

【特許請求の範囲】
【請求項1】
機械学習処理により得られた素性関数ごとの重要度値を記憶する学習結果データ記憶部と、
複数の文を含む処理対象文章データを読み込み、前記処理対象文章データに含まれる各々の文を解析して特徴値データを求める特徴抽出部と、
前記特徴値データを基に素性関数の値を計算し、前記学習結果データ記憶部から素性関数ごとの前記重要度値を読み出し、計算された素性関数の値と読み出された重要度値とを基に前記処理対象文章データに対する出力系列ごとの生起確率値を算出し、算出された前記生起確率値に基づいて一つの出力系列を選択し、この選択された出力系列により前記処理対象文章データ中の特定区間を抽出する判定処理部と、
を備えることを特徴とするテキスト分析装置。
【請求項2】
請求項1に記載のテキスト分析装置において、
複数の文を含む学習データを読み込み前記学習データに含まれる各々の文を解析して第2の特徴値データを求める第2の特徴抽出部と、
前記第2の特徴抽出部によって求められた特徴値データと前記学習データに対応する既知の出力系列のデータとを基に機械学習処理を行なうことにより、前記特徴値データから出力系列の生起確率を計算する際の素性関数ごとの重要度値を求め、求められた素性関数ごとの重要度値を前記学習結果データ記憶部に書き込む機械学習部と、
をさらに備えることを特徴とするテキスト分析装置。
【請求項3】
請求項1又は請求項2に記載のテキスト分析装置において、
前記処理対象文章データに含まれる各々の文を所定のルールで解析することにより前記判定処理部によって抽出された前記特定区間に対応する主体を特定する主体特定部を、さらに備えることを特徴とするテキスト分析装置。
【請求項4】
機械学習処理により得られた素性関数ごとの重要度値を記憶する学習結果データ記憶部を備えるコンピュータに、
複数の文を含む処理対象文章データを読み込み、前記処理対象文章データに含まれる各々の文を解析して特徴値データを求める特徴抽出過程と、
前記特徴値データを基に素性関数の値を計算し、前記学習結果データ記憶部から素性関数ごとの前記重要度値を読み出し、計算された素性関数の値と読み出された重要度値とを基に前記処理対象文章データに対する出力系列ごとの生起確率値を算出し、算出された前記生起確率値に基づいて一つの出力系列を選択し、この選択された出力系列により前記処理対象文章データ中の特定区間を抽出する判定処理過程と、
の処理を実行させるテキスト分析プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2008−287638(P2008−287638A)
【公開日】平成20年11月27日(2008.11.27)
【国際特許分類】
【出願番号】特願2007−133965(P2007−133965)
【出願日】平成19年5月21日(2007.5.21)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】