説明

学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム

【課題】照応解析において先行詞及び照応詞を判定する精度を向上可能な照応解析技術を提供する。
【解決手段】学習装置は、文章と、前記文章内で照応関係を有する各要素の後方境界と、先行詞となる第1の要素及び照応詞となる第2の要素の対応関係とを示す訓練データの入力を受け付け、訓練データに基づいて、任意の文章において照応関係の有無を判定するための判定基準を学習する。判定装置は、文章と、前記文章内で照応関係を有する可能性のある各要素の後方境界とを示すユーザデータの入力を受け付け、ユーザデータに基づいて、学習装置が学習した判定基準に従って、文章において照応関係の有無を判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラムに関する。
【背景技術】
【0002】
共参照とは、文章内で当該文章を構成する要素(構成要素という)の組が同じ実体を示す言語現象であり、その組のうち、特に最後方にある構成要素を照応詞、それ以外の構成要素を先行詞と呼ぶ。このような組を見つけ出す処理(共参照解析という)を行うプログラム(モジュール)を共参照解析器と呼ぶ。共参照の現象としては、構成要素の種別に応じたものとして名詞句の共参照、述語の共参照及び文の共参照や、構成要素の種別を横断した共参照などがある。以下では、説明を簡単にするため、共参照の対象として見つけ出す構成要素として名詞(句)のみを扱うとする。名詞句をベースにした共参照解析器を他の種別の構成要素も扱えるように拡張するのは容易である。
【0003】
共参照解析器は、一般に、学習処理と判定処理とを行うものである。学習処理では、共参照解析器は、共参照の組であることを示すタグが人手等によって予め付与された文章を示すデータ(訓練データという)を参考にして、共参照の組を示すタグ群を付与するための判定基準を獲得する処理を行う。一方判定処理では、共参照解析器は、共参照の組であることを示すタグのついてない通常の文章(テキスト)及びそのテキスト内で共参照の関係(共参照関係)にあるかどうかユーザが知りたい複数の名詞句に対して、上述の学習処理で獲得した判定基準を適用して、共参照関係の有無を判定する処理を行う。
【0004】
訓練データは、本質的に、文章において共参照の組となる構成要素として名詞句群を示すタグと、それらが同一の実体を指すかどうかを示すタグとを有し、これらにより、どの名詞句がどの名詞句と対応関係(リンク)を有しているか特定できるようになっている。このような訓練データは、共参照の現象を素直にタグで表現したものと言える。
【0005】
以下に、訓練データの表現方法の1例を示す。<>で囲まれた範囲が共参照の組として指定された構成要素である名詞句であり、<>を共参照要素タグと呼ぶとする。また[]はリンクタグと呼び、[]で囲まれた数字をここではリンクIDと呼ぶとする。共参照要素タグで示された名詞句群のうち、同じリンクIDを持つ組は、共参照関係にあると解釈される。
「<ボブ>[1]が現れた。<彼>[1]は学生である。」 --(9900)
「<魚介類>[2]など、<風物>[2]を捉える感性が感じられる。」 --(9901)
「<モナコの外交官>[3]と面会した。<彼>[3]は忙しそうだった。」 --(9902)
【0006】
共参照解析器は、このような訓練データを用いて学習処理を行い、訓練データのテキストに対してできるだけ同じタグを付与できるような判定基準を獲得する。また判定処理では、共参照解析器は、タグが付与されていない任意のテキストに対して、学習処理で獲得した判定基準を適用して、タグを付与する。タグの実例として、例えばXML(Extensible Markup Language)を用いる方法がある。
【0007】
ところで、このような訓練データによって示される共参照要素タグは、共参照の組となる構成要素として名詞句が、どの範囲なのか、即ち、範囲の前方となる位置(前方境界という)及び後方となる位置(後方境界という)を指定している。このような位置としては、例えば、形態素や文字の単位で指定される。例えば、上述の(9900)〜(9902)の訓練データの例では、先行詞となる名詞句についてはそれぞれ1つの形態素、2つの形態素、4つの形態素を含む範囲として、前方境界及び後方境界が指定されている。つまり、共参照要素タグによって、どの形態素からどの形態素までの列(形態素列という)を共参照の組となる名詞句とすべきかという、形態素列の役割上の塊(チャンクという)を判定した結果が示されることになる。このように形態素列のチャンクの判定を行うタスクは一般にチャンキングタスクと呼ばれる。共参照の組となる名詞句間の対応関係を判定するタスクを狭義の共参照タスクと呼ぶならば、このような訓練データに適合するような学習処理を行う場合、本質的に、共参照タスクとチャンキングタスクとを同時に解いている(同時学習という)ことになる。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2003−122750号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかし、従来の共参照解析器には、次の2つの問題がある。1つは、同時学習を行うため狭義の共参照タスクの性能が低下する上、チャンキングタスク自体も難しいため十分な性能が出ず、共倒れになる恐れがある。また、1つは、応用で求められるのは、狭義の共参照タスクにより出力されるリンクに関する情報であり、チャンキングタスクにより出力される情報はなくても良いことが多いことである。以下、それぞれの問題について詳細に説明する。
【0010】
1つ目の問題に関し、チャンキングタスクによる学習処理(チャンキング学習という)の本質的な難しさと、同時学習による性能の低下とについて説明する。チャンキング学習の本質的な難しさは、文法より意味の方が手がかりとしての比重が大きいことにある。たとえば、上述の(9902)の訓練データにおいて、先行詞は「モナコの外交官」と指定されているが、「外交官」でも不自然ではない。しかし「イギリスの外交官」も文章中に登場しているなら、「モナコの外交官」のほうが先行詞としてふさわしい。このように意味的な観点による判定は、機械にとっては難問となる。更に、後に述べるように、チャンクとして有用性の高い判定結果は、観点やアプリケーションによって異なる。一般的にこのような問題は、人間にとっても判定が難しいので、訓練データの作成が難しく、品質が低下することがある。品質の低い訓練データは、学習の阻害要因となり得る。
【0011】
同時学習による性能の低下は、以上に述べたチャンキング学習自体が非常に困難であることにある。もしチャンキングタスクの判定結果が十分正確であれば、チャンキングタスクの判定結果を狭義の共参照タスクの判定材料に用いることができるため、性能の向上が期待できる。現実にはチャンキングタスクの判定結果は不正確なので、狭義の共参照タスクの阻害要因となり得る。
【0012】
2つ目の問題に関し、以下の文章を元に共参照解析の応用例を挙げて説明する。
「昨日青坂プリンスホテルで紹介された3Dテレビ南芝XXXXYYYYYは、報道機関の注目を集めた。ネット掲示板でも、南芝からのこの一刻も早い発売に期待しているとの前向きな声が聞かれた。」----(9903)
【0013】
ところで、自動要約アプリケーションは、与えられた文章から重要な文だけを抜粋する文抽出という処理を行う。抜粋された文は、文脈を失っているため、指示代名詞が含まれていると、意味不明になってしまう恐れがある。その問題を解決するために共参照解析により、指示代名詞の実体を具体的に示す名詞句に置き換える処理を行う。ここで、「…ネット掲示板でも、南芝からの「こ」の一刻も早い…」の「」で囲まれた照応詞の先行詞を求める処理について考察する。
【0014】
例えば、検索スニペット・携帯電話の画面・TV欄などの用途で実行される自動要約アプリケーションでは、文字数の制限が決まっていることが多い。そのような場合、文字数の制限の中でできる限り必要な情報を含む先行詞を求めるだろう。例えば、10文字以内という制約ならば「XXXXYYYYY」、15文字以内なら「南芝XXXXYYYYY」等が求める先行詞と考えられる。
【0015】
また自動要約アプリケーションによっては、情報の重複の回避を求められることがある。上述の(9903)の文章の場合、抜粋された文には「南芝」という単語が既に含まれているため、先行詞としては、「3Dテレビ南芝XXXXYYYYY」よりも「3DテレビXXXXYYYYY」のほうが望ましい可能性がある。
【0016】
以上のように、応用方法や文脈などにより、何が相応しいチャンクなのかは一意に決まらないことが多い。正解のチャンクを示す訓練データを人間が作るとしても、意見が割れて注釈ノイズを生み出す結果となる可能性が高い。
【0017】
以上の考察から、チャンキングタスクは、応用上の有用性も必ずしも高いとは言えない上、共参照タスクの性能の低下を引き起こす可能性があるといえる。チャンキングタスクを回避して狭義の共参照タスクのみを解く学習の仕組みが必要である。
【0018】
またこの議論は、ゼロ照応や、連想照応などの他の照応を解析する照応解析タスクにも当てはまる議論である。ゼロ照応を解析するゼロ照応解析タスクは、文章の表層から省略された照応詞と、文章中にある先行詞との対応を取るタスクであり、先行詞の範囲の指定について上述と同様の問題が生じる恐れがある。また連想照応を解析する連想照応タスクは、文章中にある照応詞と、文章中にあって照応詞と間接的に関係のある先行詞との対応を取るタスクであり、照応詞や先行詞の範囲の指定について上述と同様の問題が生じる恐れがある。
【0019】
本発明の一側面は、照応解析において先行詞及び照応詞を判定する精度を向上可能な学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0020】
実施形態の学習装置は、文章と、前記文章内で照応関係を有する各要素の後方境界と、先行詞となる第1の要素及び照応詞となる第2の要素の対応関係とを示す第1のデータの入力を受け付ける入力受付部と、前記第1のデータに基づいて、所定のルールに従って、前記第1の要素及び前記第2の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第1の要素の範囲及び前記第2の要素の範囲を各々推定する推定部と、前記第1の要素の範囲及び前記第2の要素の範囲に基づいて、任意の文章において照応関係の有無を判定するための判定基準を学習する学習部とを備えることを特徴とする。
【0021】
また、実施形態の判定装置は、文章と、前記文章内で照応関係を有する可能性のある各要素の後方境界とを示す第1のデータの入力を受け付ける入力受付部と、前記第1のデータに基づいて、所定のルールに従って、各前記要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、各前記要素の範囲を各々推定する推定部と、各前記要素の範囲に基づいて、所定の判定基準に従って、各前記要素の照応関係の有無を判定する判定部とを備えることを特徴とする。
【図面の簡単な説明】
【0022】
【図1】図1は、第1の実施の形態の共参照解析装置50の機能的構成を例示する図である。
【図2】図2は、学習処理の手順を示すフローチャートである。
【図3】図3は、ペアワイズ正例生成処理の手順を示すフローチャートである。
【図4】図4は、ペアワイズ負例生成処理の手順を示すフローチャートである。
【図5】図5は、非学習型要素範囲推定処理の手順を示すフローチャートである。
【図6】図6は、予測処理の手順を示すフローチャートである。
【図7】図7は、ペアワイズ事例生成処理の手順を示すフローチャートである。
【図8】図8は、第2の実施の形態の共参照解析装置50の機能的構成を例示する図である。
【図9】図9は、学習処理の手順を示すフローチャートである。
【図10】図10は、判定処理の手順を示すフローチャートである。
【図11】図11は、第3の実施の形態のアプリケーションシステムの機能的構成を例示する図である。
【図12】図12は、先行詞判定処理の手順を示すフローチャートである。
【図13】図13は、先行詞形態素列推定器83及び応用別有効性評価判定プラグイン84による処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0023】
以下に添付図面を参照して、この発明にかかる学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラムの一実施の形態を詳細に説明する。
【0024】
[第1の実施の形態]
ここで、本実施の形態に係る共参照解析の背景及び概要について説明する。従来の訓練データの共参照要素タグは、共参照の組となり得る構成要素として形態素列の開始位置及び終了位置、あるいは別の言い方をすれば構成要素の前方境界及び後方境界を示している。これに加えて構成要素間の対応関係(リンク)を示すためのリンクタグが示されている。まとめると、従来の訓練データは、共参照関係を有する各構成要素の前方境界及び後方境界と、先行詞となる構成要素及び照応詞となる構成要素の対応関係との3種類の情報を示す。この訓練データをチャンキングタスクを回避した情報にするには、共参照関係を有する組となる構成要素を範囲ではなく点で示せれば良い。
【0025】
1つの方法として、構成要素の前方境界及び後方境界のうちいずれかをなくすことが挙げられる。上述の背景技術の欄で挙げた(9902)の訓練データの例では、文脈によってふさわしい先行詞が「モナコの外交官」「外交官」で揺れ、(9903) の訓練データの例では、応用観点によって「3Dテレビ南芝XXXXYYYYY」「3DテレビXXXXYYYYY」「XXXXYYYYY」などで揺れた。このように文脈や応用観点によっても、後方境界は揺れない。これは重要な語を最後尾に配置する日本語の性質に起因する。逆に「モナコの外交官」を「モナコ」に変更するなど、最後尾の語を変えると意味が大きく変わることが多い。以上のことから、共参照解析において後方境界を正確に判定できることが重要である。
【0026】
このため、本実施の形態においては、共参照の組となる構成要素に対して、前方境界の学習処理及び判定処理は行わず、後方境界のみを学習処理及び判定処理の対象とする方針を採用する。このことにより、前方境界の判定はできなくなるが、そのトレードオフとして後方境界の正解率を向上させることができる。
【0027】
以上の方針に基づいて、本実施の形態で行う共参照解析の方法の概要について説明する。前方境界が学習処理の入力として与えられなくなったものの、学習処理に用いる特徴ベクトルを生成するためには、どの形態素の範囲(チャンク)が共参照の組となる構成要素なのかという情報は必要である。そこで本実施の形態では、学習処理に依らない方法でチャンクを仮決定(推定)し、このチャンクに基づいて生成した特徴ベクトルを用いて、学習処理及び判定処理を各々行う。特徴ベクトルを生成するための方法には、具体的には例えば、固定的なルールに従って前方境界を推定して、推定した前方境界と後方境界とによって決定される形態素の範囲(チャンク)に対して特徴ベクトルを生成する方法がある。一例としては、「後方境界と前方境界との間は、名詞のみ含まれる」というルールを設定して、当該ルールに従って、1つの前方領界を推定する。あるいは、複数のルールのそれぞれに従って、前方境界の候補を複数推定し、後方境界と各前方境界とによって決定される形態素の範囲(チャンク)毎に特徴ベクトルを生成してこれらの特徴ベクトルを統合する方法も考えられる。特に後者の方法は、前方境界を一意に決めなくて良いという方式の利点を生かしたものと言える。一例として、前方境界と後方境界との間が単語や文節のn-gramとなるというルールとして、nの値が異なる複数のルールを設定して、各ルールに従って、n個の前方領界を推定する。ただし文節のn-gramの場合、先頭に接続詞や感動詞等が来ないようにするなどの付属的なルールを添えても良い。
【0028】
このような方法により共参照解析を行う共参照解析システムは、学習処理部と判定処理部とに大きく分かれる。学習処理部と判定処理部とは各々別の情報処理装置により実現されるようにしても良いが、ここでは1つの情報処理装置により実現されるものとする。この情報処理装置を共参照解析装置という。共参照解析装置の学習処理部は、訓練データを入力として、共参照解析の傾向や共参照の頻出するパターンを学習して、重みベクトルを出力する学習処理を行う。また、判定処理部は、学習処理部が出力した重みベクトルを用いて、ユーザから任意に指定された文章(ユーザデータという)において共参照関係があるか否かを判定し、その判定結果を出力する判定処理を行う。尚、学習処理はユーザが利用するより前に完了しておき、実際にユーザが利用する際に行われる処理は判定処理のみであることが多い。
【0029】
尚、本実施の形態においては、説明を簡単にするために、共参照の組となる構成要素はペア(2つ1組)のみとし、文章前方に現れる構成要素を先行詞と呼び、後方に現れる構成要素を照応詞と呼ぶとする。共参照の現象では、1つの照応詞に対し先行詞が複数存在する場合もある。この場合は共参照の組となる構成要素は3個以上になるが、本実施の形態の構成から容易に拡張可能であるため、その場合の説明を省略する。
【0030】
また、本実施の形態においては、学習処理部が共参照解析の傾向や共参照の頻出するパターンを学習して重みベクトルを出力する学習処理において、従来の機械学習の方法を用いる。また機械学習に与えるタスクとして、ペアワイズ2値学習を用いている。本実施の形態におけるペアワイズ2値学習とは、先行詞と照応詞とのペアを示す事象を1事例として扱い、この事例が共参照関係にあるか否かを2値で判定する方法である。共参照関係にある事例を正例と呼び、共参照関係にない事例を負例と呼ぶ。
【0031】
ここで、本実施の形態に係る学習処理部に入力される訓練データについて説明する。本実施の形態で取り扱う訓練データは、共参照の組となる構成要素の後方境界と、共参照の組となる構成要素の対応関係(リンク)を示すリンク情報とがタグ付けされた文章を示す。文章は全体として1つの話としてつながっていても良いし、複数の文章の寄せ集めでも構わない。尚、本実施の形態では、訓練データにおいては、形態素解析が予めなされており、後方境界は形態素単位で指定されるものとする。そして、訓練データは、以下のようなデータ形式で表現されるものとする。
【0032】
「<ボブ>[1]が現れた。<彼>[1]は学生である。」 --(9904)
「魚介<類>[2]など、<風物>[2]を捉える感性が感じられる。」 --(9905)
「モナコの外交<官>[3]と面会した。<彼>[3]は忙しそうだった。」 --(9906)
【0033】
このデータ形式では、共参照の組となる構成要素があることを示すタグ(共参照要素タグ)を用いて、1つの形態素のみを囲んでいる。共参照要素タグは、<>で表される。この共参照要素タグは、共参照の組となる構成要素である名詞句自体を指し示しているのではなく、共参照の組となる構成要素の後方境界を示している。即ち、ここでは、構成要素の名詞句に含まれる形態素のうち、最後の形態素のある位置が後方境界として示されている。また、後方境界には、リンクタグが付与されているものとする。リンクタグとは数字を[]で囲んだタグのことである。[]で囲まれた数字は、先行詞及び照応詞を対応付けるためのリンクIDである。このように、先行詞の後方境界及び照応詞の後方境界同士をリンクIDで対応付けることでリンク情報が表現されている。
【0034】
例えば、(9906)の訓練データにおいて先行詞としては、通常、「外交官」や「モナコの外交官」等が考えられる。この訓練データでは、そのどちらが正解かは示されておらず、先行詞に含まれる最後の形態素のある位置(後方境界)が「官」であることのみが示されている。ここで、先行詞が「官」であるということが示されているのではないことに注意する。このように、本実施の形態においては、先行詞に含まれる最初の形態素のある位置(前方領界)が示されていない訓練データを取り扱う。尚、上述したように、訓練データでは、先行詞及び照応詞の組は2つ1組であるとする。即ち、当該訓練データにおいて1つの照応詞に対応する先行詞は1つしかない。
【0035】
このように本実施の形態で取り扱う訓練データは、上述の背景技術欄に記載した(9900)〜(9902)とは異なり、文章と、当該文章内において共参照関係を有する各構成要素の後方境界と、先行詞となる構成要素及び照応詞となる構成要素の対応関係とを示す独自のデータ形式で表現される。但し、後方境界と、先行詞及び照応詞の対応関係とさえ示されていれば、訓練データはどんなデータ形式で表現されても構わない。例えば、前方境界など不要な情報が示される訓練データを入力とし、不要な情報を学習処理部が読み捨てても構わない。
【0036】
次に、本実施の形態にかかる共参照解析装置の構成について詳述する。以下では、まず、前方境界を推定するルールとして1つの固定的なルールを用いる実施の形態について説明する。ここで、本実施の形態に係る共参照解析装置のハードウェア構成について説明する。本実施の形態の共参照解析装置は、装置全体を制御するCPU(Central Processing Unit)等の制御部と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の主記憶部と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の補助記憶部と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、共参照解析装置には、情報を表示する表示部と、ユーザの指示入力を受け付けるキーボードやマウス等の操作入力部と、外部装置の通信を制御する通信I/F(interface)とが有線又は無線により各々接続されるようにしても良い。
【0037】
次に、このようなハードウェア構成において、共参照解析装置の機能的構成について図1を用いて説明する。同図に示されるように、共参照解析装置50は、学習処理部60と、判定処理部70とを有する。まず、学習処理部60の機能的構成について説明する。学習処理部60は、ペアワイズ正例生成器61と、ペアワイズ負例生成器62と、非学習型要素範囲推定器63と、特徴抽出器64と、2値学習器65とを有する。これらの各器は、共参照解析装置50の有する主記憶部や補助記憶部に各々記憶されたプログラムモジュールであり、共参照解析装置50の有するCPUが各プログラムモジュールを実行することにより以下に記載する各機能が実現される。
【0038】
ペアワイズ正例生成器61は、上述した訓練データの入力を受け付け、当該訓練データを用いて、ペアワイズ正例生成処理を行って、正例の先行詞の後方境界(先行詞後方境界という)及び照応詞の後方境界(照応詞後方境界という)を求め、当該先行詞後方境界及び照応詞後方境界と整数「1」とを対応付けて示すデータ(ラベル付き事例データという)を生成する。この整数はラベルと呼ばれる予約値である。このラベルの値が「1」である場合、先行詞後方境界及び照応詞後方境界が示す構成要素が正例であることを示す。正例とは、上述したように、当事例の元となった共参照要素タグによって示される構成要素のペアが共参照関係にあることを意味し、共参照関係の正解を示している。
【0039】
ペアワイズ負例生成器62は、上述した訓練データの入力を受け付け、当該訓練データを用いて、ペアワイズ負例生成処理を行って、負例の先行詞後方境界及び照応詞後方境界を求め、当該先行詞後方境界及び照応詞後方境界とラベル「-1」とを対応付けて示すラベル付き事例データを生成する。ラベルの値が「-1」である場合、先行詞後方境界及び照応詞後方境界が示す構成要素が負例であることを示す。負例とは、当事例の元となった共参照要素タグによって示される構成要素のペアが共参照関係にないことを意味する。
【0040】
非学習型要素範囲推定器63は、ペアワイズ正例生成器61が生成したラベル付き事例データ及びペアワイズ負例生成器62が生成したラベル付き事例データの入力を受け付け、これらのラベル付き事例データを用いて、非学習型要素範囲推定処理を行って、先行詞の前方領界及び照応詞の前方領界を推定する。ここで、先行詞及び照応詞のそれぞれについて、推定した前方領界から後方境界までの範囲を推定要素範囲テキストと呼ぶとする。非学習型要素範囲推定器63は、入力されたラベル付き事例データによって示される先行詞後方境界及び照応詞後方境界を推定要素範囲テキストに置き換え、置換後のラベル付き事例データ(ラベル付き拡張事例データという)を出力する。
【0041】
特徴抽出器64は、非学習型要素範囲推定器63が出力したラベル付き拡張事例データを用いて、特徴ベクトルを生成する特徴抽出処理を行う。2値学習器65は、特徴抽出器64が生成した複数の特徴ベクトルを用いて、共参照解析の傾向や共参照の頻出するパターンを学習して、学習の結果得られた重みベクトルを出力する。この重みベクトルが、判定処理部70が任意の文章に対して共参照関係の有無を判定するための判定基準となる。
【0042】
次に、判定処理部70の機能的構成について説明する。判定処理部70は、ペアワイズ事例生成器71と、非学習型要素範囲推定器72と、特徴抽出器73と、2値判定器74とを有する。これらの各器は、共参照解析装置50の有する主記憶部や補助記憶部に各々記憶されたプログラムモジュールであり、共参照解析装置50の有するCPUが各プログラムモジュールを実行することにより以下に記載する各機能が実現される。
【0043】
ペアワイズ事例生成器71は、ユーザから任意に指定された文章(ユーザデータ)の入力を受け付け、ペアワイズ事例生成処理を行って、事例データを生成する。ユーザデータは、文章と、当該文章内において共参照関係を有する可能性のある各構成要素の後方境界とを示す。尚、ペアワイズ事例生成器71の機能は上述のペアワイズ正例生成器61の機能やペアワイズ負例生成器62の機能と略同様であるが、以下の点がこれらと異なる。ペアワイズ正例生成器61やペアワイズ負例生成器62に入力される訓練データは、複数の共参照関係を含むことが想定されたデータ形式であり、リンク情報を含んでいたが、ペアワイズ事例生成器71に入力されるユーザデータは、1つの共参照関係の候補を含むことが想定されたデータ形式であるため、リンク情報を含んでいない。また、事例データは、上述のペアワイズ正例生成器61がペアワイズ正例生成処理を行って生成したラベル付き事例データとは異なり、「1」又は「-1」を示すラベルを対応付けない。このような事例データをラベルなし事例データと呼ぶ。
【0044】
非学習型要素範囲推定器72は、ペアワイズ事例生成器71が生成したラベルなし事例データの入力を受け付け、ラベルなし事例データを用いて非学習型要素範囲推定処理を行って、先行詞の前方領界及び照応詞の前方領界を推定する。ここで、先行詞及び照応詞のそれぞれについて、推定した前方領界から後方境界までの範囲は上述と同様に推定要素範囲テキストと呼ぶ。非学習型要素範囲推定器72は、入力されたラベルなし事例データによって示される先行詞後方境界及び照応詞後方境界を推定要素範囲テキストに置き換え、置換後のラベルなし事例データ(ラベルなし拡張事例データという)を出力する。
【0045】
特徴抽出器73は、非学習型要素範囲推定器72が出力したラベルなし拡張事例データを用いて、特徴ベクトルを生成する特徴抽出処理を行う。2値判定器74は、特徴抽出器73が生成した複数の特徴ベクトルを用いて、上述の学習処理部60が出力した重みベクトルを用いて、ラベルを判定し、判定したラベルを出力する。
【0046】
次に、共参照解析装置50の有する学習処理部60が行う学習処理の手順について図2を用いて説明する。まず、学習処理部60は、上述した訓練データの入力を受け付けると、ペアワイズ正例生成器61の機能により、ペアワイズ正例生成処理を行う(ステップS1)。また、学習処理部60は、ペアワイズ負例生成器62の機能により、ペアワイズ負例生成処理を行う(ステップS2)。
【0047】
ここで、学習処理部60がステップS1でペアワイズ正例生成器61の機能により行うペアワイズ正例生成処理の詳細な手順について図3を用いて説明する。ペアワイズ正例生成器61は、「1」から「∞」までのループ変数iを用意し、変数iの初期値を「1」に設定する(ステップS20)。このループ変数iは、上述したリンクIDに対応するものである。次に、ペアワイズ正例生成器61は、入力された訓練データから変数iの値を有するリンクタグを探索する(ステップS21)。探索の結果、該当のリンクタグが得られない場合(ステップS22:NO)、ペアワイズ正例生成器61は、ペアワイズ正例生成処理を終了する。一方、該当のリンクタグが得られた場合(ステップS22:YES)、ペアワイズ正例生成器61は、探索の結果得られたリンクタグの直前にある共参照要素タグを全て探索する(ステップS23)。尚、本実施の形態においては、先行詞が1つしかない共参照関係しか取り扱っていないため、探索の結果、共参照要素タグは必ず2つ得られる。
【0048】
次いで、ペアワイズ正例生成器61は、ステップS23の探索の結果得られた各共参照要素タグのそれぞれについて、当該共参照要素タグが後方境界として示す形態素の文章先頭からの位置を求める(ステップS24)。例えば、訓練データの示す文章に含まれる各形態素にこれらを一意に識別する形態素番号が別途付与されているものとすると、ペアワイズ正例生成器61は、共参照要素タグによって後方境界として示される形態素に付与された形態素番号を位置として求めても良い。あるいは、ペアワイズ正例生成器61は、共参照要素タグによって後方境界として示される形態素の文章先頭からの文字数を位置として求めても良い。尚、先行詞の共参照要素タグから求められた位置を、先行詞後方境界とし、照応詞の共参照要素タグから求められた位置を、照応詞後方境界とする。
【0049】
そして、ペアワイズ正例生成器61は、ステップS24で求めた先行詞後方境界及び照応詞後方境界と整数「1」とを対応付けて示すラベル付き事例データを生成する(ステップS25)。その後、ペアワイズ正例生成器61は、ループ変数iを1インクリメントして(ステップS26)、ステップS21に戻る。
【0050】
次に、学習処理部60がステップS2でペアワイズ負例生成器62の機能により行うペアワイズ負例生成処理の詳細な手順について図4を用いて説明する。ステップS30〜S34は、図3を用いて説明したステップS20〜S24と同様であるためその説明を省略する。ステップS34の後、ステップS35では、ペアワイズ負例生成器62は、ステップS34で求めた照応詞後方境界から「先行詞後方境界-1」までのループ変数jを用意する。次いで、ペアワイズ負例生成器62は、ループ変数jと照応詞後方境界と整数「-1」とを対応付けて示すラベル付き事例データを生成する(ステップS36)。ここでループ変数jを擬似的に先行詞後方境界とする。その後、ペアワイズ負例生成器62は、ループ変数jを1つインクリメントして(ステップS37)、ステップS35に進む。そして、ペアワイズ負例生成器62は、ループ変数iを1つインクリメントして(ステップS38)、ステップS31に進む。
【0051】
尚、ペアワイズ負例生成処理は、端的に言うと、正例の共参照の組となる構成要素間に存在する任意の形態素の組のうち、照応詞のみが一致する組を負例とみなす処理である。人間による訓練データの一般的な作成手順として、まず照応詞を発見し、そこから形態素を文章前方へさかのぼって先行詞を発見するというものがある。文章前方へさかのぼる手順において先行詞とみなされなかった形態素は、少なくとも照応詞と共参照関係にないことが保証されていると考えられる。以上が当該ペアワイズ負例生成処理で扱う構成要素の組を負例とみなす根拠である。
【0052】
図2の説明に戻る。学習処理部60は、ステップS1で生成したラベル付き事例データと、ステップS2で生成したラベル付き事例データとを用いて、非学習型要素範囲推定器63の機能により非学習型要素範囲推定処理を行う(ステップS3)。ここで、学習処理部60がステップS3で非学習型要素範囲推定器63の機能により行う非学習型要素範囲推定処理の手順について図5を用いて説明する。非学習型要素範囲推定器63は、ステップS1で生成されたラベル付き事例データと、ステップS2で生成されたラベル付き事例データとのうち、未処理のラベル付き事例データを順に1つ取り出す(ステップS40)。次いで、非学習型要素範囲推定器63は、所定のルールに従って、先行詞における前方領界及び照応詞における前方領界を推定する。具体的には例えば、非学習型要素範囲推定器63は、ステップS40で取り出したラベル付き事例データによって示される先行詞後方境界及び照応詞後方境界のうち、未処理の後方位置を順に1つ取り出す(ステップS41)。そして、非学習型要素範囲推定器63は、ステップS41で取り出した後方位置から文章前方へ、名詞又は接辞以外が現れるまで形態素をさかのぼって非自立語又は文章先頭を探索する。そして、非学習型要素範囲推定器63は、探索した結果得られた非自立語又は文章先頭の直後の自立語から当該後方位置が示す形態素までの範囲に存在する形態素列を出力する(ステップS42)。このような形態素列が推定要素範囲テキストであるとする。例として、「モナコの外交官と面会した」という文章において後方位置が「官」であれば、その前方にある「の」が非自立語であるため、当該非自立語の直後の自立語である「外交」から当該後方位置「官」までの間に存在する形態素列である推定要素範囲テキストは「外交官」となる。即ち、この例では、「外交」という形態素が前方領界として推定される。尚、このように、所定のルールとして、天下り的に与えた固定的なルールに従って、先行詞の前方領界及び照応詞の前方領界を推定する手法を非学習型と呼ぶ。
【0053】
そして、未処理の後方位置があれば(ステップS43:YES)、ステップS41に戻り、未処理の後方位置がなければ(ステップS43:NO)、ステップS44に進む。ステップS44では、非学習型要素範囲推定器63は、ステップS41で取り出したラベル付き事例データによって示される先行詞後方境界及び照応詞後方境界を、それぞれ、ステップS42で出力した推定要素範囲テキストに置き換え、置換後のラベル付き事例データ(ラベル付き拡張事例データという)を出力する。そして、未処理のラベル付き事例データがあれば(ステップS45:YES)、ステップS40に戻り、未処理のラベル付き事例データがなければ(ステップS45:NO)、非学習型要素範囲推定器63は、非学習型要素範囲推定処理を終了する。
【0054】
図2の説明に戻る。学習処理部60は、ステップS3で出力したラベル付き拡張事例データを用いて、特徴抽出器64の機能により、特徴ベクトルを生成する特徴抽出処理を行う(ステップS4)。この特徴抽出処理は、従来の方法を用いて行うことができるため、ここでは、その概略について説明する。また、特徴ベクトルを生成する方法には、様々な方法があるが、ここでは、2値特徴ベクトルを生成する方法について説明する。2値特徴ベクトルは、次元数に応じた数の要素を含み、各要素に対応付けられた特徴の有無を「1」又は「0」(要素値という)により示すベクトルである。各要素に対応付けられた特徴は、共参照解析の方法により様々であるが、大きくカテゴリー分けすると、意味的特徴、表層的特徴及び構造的特徴がある。また各特徴は、ポイントワイズとペアワイズとの2種類に分類できる。一般的にこれらの特徴から生成される次元数(ベクトル内の要素数)を合計すると数千〜数万に及ぶ。
【0055】
ポイントワイズの表層的特徴の1例として、「1つ目の推定要素範囲テキストに"南芝"は含まれているか」がある。この判定結果が肯定的であるなら「1」、否定的であるなら「0」が要素値になる。当然"南芝"部分は日本語に現れる全単語に置き換えることができる。従って、日本語に現れる全単語を特徴として用い得るように共参照解析装置50を構成するならば、この形式の表層的特徴だけで、日本語の全単語種類数だけの次元数になる。このようにポイントワイズはテキストそれぞれに関する特徴を捉える。
【0056】
ペアワイズの表層的特徴の1例として、「1つ目の推定要素範囲テキストと2つ目の推定要素範囲テキストとが1文字一致しているか」がある。この判定結果が肯定的であるなら「1」、否定的であるなら「0」が要素値になる。当然"1文字"の部分は、2文字、3文字などの任意の文字数に変更できる。このようにペアワイズは2つのテキストの間の関係に関する特徴を捉える。
【0057】
意味的特徴及び構造的特徴についても以上と同様の手順によって、特徴ベクトルの要素値を決定することができる。特徴抽出器64は、ステップS3で出力されたラベル付き拡張事例データについて、このようにして生成した特徴ベクトルと当該ラベル付き拡張事例データによって示されるラベルとを併せたものをラベル付き特徴ベクトルとして出力する。尚、訓練データにおいて共参照関係を有する構成要素のペアが複数ある場合、ステップS3では、複数のラベル付き拡張事例データが出力され、ステップS4では、これらの各々が用いられて、複数のラベル付き特徴ベクトルが出力される。
【0058】
次に、学習処理部60は、ステップS4で出力した複数のラベル付き特徴ベクトルを含むラベル付き特徴ベクトル群を用いて、2値学習器65の機能により、共参照解析の傾向や共参照の頻出するパターンを学習して、学習の結果得られた重みベクトルを出力する(ステップS5)。この学習は、従来の機械学習の方法を用いて行うことができるため、ここでは、その概略について説明する。2値学習器65の機能は、一般的な機械学習の枠組みにおける教師あり識別タスクを目的とした学習処理に対応するものである。教師あり識別タスクにおいてよく用いられる機械学習の手法として、ニューラルネットワーク、SVM(Support Vector Machine)、ロジスティック回帰及びブースティング等の手法が挙げられる。いずれの手法においても、ラベル付き特徴ベクトル群を入力とし、重みベクトルを出力とする。重みベクトルの各要素は、特徴ベクトルの各要素と対応付いており、重みベクトルの要素値が大きいほど、それに対応する特徴の要素値が識別結果に強く影響を与えることを意味している。なお各機械学習における数学モデルや解の導出方法に関する説明は省略する。
【0059】
次に、判定処理部70の行う判定処理の手順について図6を用いて説明する。まず、判定処理部70は、例えば操作入力部を介してユーザから任意に指定された文章(ユーザデータ)の入力を受け付けると、ペアワイズ事例生成器71の機能により、ペアワイズ事例生成処理を行う(ステップS10)。ペアワイズ事例生成処理は、図2のステップS1のペアワイズ正例生成処理と略同様であるが、以下の点がペアワイズ正例生成処理と異なる。ペアワイズ事例生成器71に入力されるユーザデータはリンク情報を含んでいないため、ペアワイズ事例生成器71は、ペアワイズ正例生成器61と異なり、リンク情報に関する処理、即ち、ループ変数を用いてリンクタグを探索する処理を行う必要がない。また、ペアワイズ事例生成器71は事例データの生成において、ペアワイズ正例生成器61がペアワイズ正例生成処理を行って生成したラベル付き事例データとは異なり、「1」又は「-1」を示すラベルを対応付けない。
【0060】
ここで、ステップS10で判定処理部70がペアワイズ事例生成器71の機能により行うペアワイズ事例生成処理の手順について図7を用いて説明する。ペアワイズ事例生成器71は、入力されたユーザデータ内から共参照の組の候補となる構成要素を指定する共参照要素タグを探索し、探索の結果得られた各共参照要素タグのそれぞれについて、図3のステップS24と同様にして、当該共参照要素タグが後方境界として示す形態素の文章先頭からの位置を求める(ステップS50)。上述と同様に、先行詞の共参照要素タグから求められた位置を、先行詞後方境界とし、照応詞の共参照要素タグから求められた位置を、照応詞後方境界とする。ペアワイズ事例生成器71は、ステップS50で求めた先行詞後方境界及び照応詞後方境界と、ラベルが未確定であることとを対応付けて示す事例データ(ラベルなし事例データ)を生成する(ステップS51)。図1の例では、ラベルが未確定であることは、「?」により表される。
【0061】
図6の説明に戻る。判定処理部70は、ステップS10で生成したラベルなし事例データを用いて、非学習型要素範囲推定器72の機能により、非学習型要素範囲推定処理を行う(ステップS11)。ここで、判定処理部70がステップS11で非学習型要素範囲推定器72の機能により行う非学習型要素範囲推定処理の手順は、図5を用いて説明したものと略同様であるため、その説明を省略する。但し、ステップS40で取り出されるのはラベルなし事例データであり、ステップS44では、非学習型要素範囲推定器72は、ステップS41で取り出したラベルなし事例データによって示される先行詞後方境界及び照応詞後方境界を、それぞれ、ステップS42で出力した推定要素範囲テキストに置き換え、置換後のラベルなし事例データ(ラベルなし拡張事例データという)を出力する。
【0062】
図6の説明に戻る。判定処理部70は、ステップS11で出力したラベルなし拡張事例データを用いて、特徴抽出器73の機能により、特徴ベクトルを生成する特徴抽出処理を行う(ステップS12)。この特徴抽出処理は、上述の図2のステップS4で行うものと同様であるため、その説明を省略する。但し、ここで、特徴抽出器73は、ステップS11で出力されたラベルなし拡張事例データについて、生成した特徴ベクトルと、ラベルが未確定であることを示すものとを併せたものをラベルなし特徴ベクトルとして出力する。
【0063】
次いで、判定処理部70は、ステップS12で出力したラベルなし特徴ベクトルを含むラベルなし特徴ベクトル群を用いて、2値判定器74の機能により、上述の図2を用いて説明した学習処理で出力された重みベクトルを用いて、ラベルを判定し、判定したラベルを出力する(ステップS13)。この判定は、従来の機械学習の方法を用いて行うことができるため、ここでは、その概略について説明する。2値判定器74の機能は、一般的な機械学習の枠組みにおける教師あり識別タスクを目的とした判定処理に対応するものである。教師あり識別タスクにおいてよく用いられる機械学習の手法として、ニューラルネットワーク、SVM(Support Vector Machine)、ロジスティック回帰及びブースティング等の手法が挙げられる。いずれの手法においても、ラベルなし特徴ベクトル群を入力とし、判定結果であるラベルを出力とする。本実施の形態では、ラベルの値が「1」ならば正例である、即ち、当該事例データは共参照関係にあることを意味し、ラベルの値が「-1」ならば負例である、即ち、当該事例データは共参照関係にないことを意味する。
【0064】
以上のように、本実施の形態においては、学習処理部60が、共参照関係を有する先行詞及び照応詞について前方境界を用いることなく後方境界を用いて学習処理を行うことで、判定処理部70がユーザデータに対して共参照関係を有する先行詞及び照応詞を判定する精度を向上することができる。
【0065】
例えば、ペアワイズ2値学習において、従来の訓練データを用いて学習処理を行うと、背景技術欄で記載した(9902)の訓練データに関して、「モナコの外交官」を先行詞とした事例及び「外交官」を先行詞とした事例はそれぞれ正例と負例として区別される。しかし機械学習による学習処理において、後者の事例が負例となる理由が、前方境界又は後方境界のどちらにあるのか判定できないため、双方にペナルティが加えられるという問題が発生し得た。しかし本実施の形態においては、「モナコの外交官」を先行詞とした事例及び「外交官」を先行詞とした事例は区別されず共に正例となるため、後方境界「官」は先行詞を決定するための正しい選択として認識されるようになる。即ち、本実施の形態によれば、後方境界を判定する精度を向上することができ、この結果、共参照関係を有する先行詞及び照応詞を判定する精度を向上することができる。
【0066】
[第2の実施の形態]
次に、学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラムの第2の実施の形態について説明する。なお、上述の第1の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
【0067】
学習処理や判定処理に用いる特徴ベクトルを生成するために、学習処理に依らない方法でチャンクを仮決定(推定)する必要があるが、上述の第1の実施の形態においては、学習処理部60及び判定処理部70のそれぞれは、非学習型要素範囲推定処理で、与えられた後方境界を元に、固定的なルールに従って1つの前方境界を推定して、当該前方領界から後方境界までの範囲に存在する形態素列(チャンク)を推定要素範囲テキストとして出力して、これを用いて特徴ベクトルを生成した。本実施の形態においては、学習処理部60及び判定処理部70のそれぞれは、複数のルールのそれぞれに従って前方境界の候補を複数推定して、各前方境界から後方境界までの各範囲に存在する形態素列毎に特徴ベクトルを生成してこれらを統合する。
【0068】
図8は、本実施の形態に係る共参照解析装置50の機能的構成を例示する図である。同図に示されるように、学習処理部60は、ペアワイズ正例生成器61と、ペアワイズ負例生成器62と、非学習型要素範囲推定器63と、特徴抽出器64と、2値学習器65とに加え、特徴統合器66を更に有する。特徴統合器66は、共参照解析装置50の有する主記憶部や補助記憶部に記憶されたプログラムモジュールであり、共参照解析装置50の有するCPUが当該プログラムモジュールを実行することにより後述の機能が実現される。また、学習処理部60は、非学習型要素範囲推定器63と、特徴抽出器64とを各々複数有する。同図の例では、各々2つが示されているが、本実施の形態においては、この限りではない。
【0069】
ペアワイズ正例生成器61及びペアワイズ負例生成器62の各機能は第1の実施の形態と同様である。複数の非学習型要素範囲推定器63はそれぞれ、ペアワイズ正例生成器61が生成したラベル付き事例データ及びペアワイズ負例生成器62が生成したラベル付き事例データの入力を受け付け、これらのラベル付き事例データを用いて、第1の実施の形態と同様にして、非学習型要素範囲推定処理を行って、ラベル付き拡張事例データを出力する。
【0070】
複数の特徴抽出器64は、複数の非学習型要素範囲推定器63と1対1に対応している。各特徴抽出器64は、対応する非学習型要素範囲推定器63が出力したラベル付き拡張事例データを用いて、第1の実施の形態と同様にして、ラベル付き特徴ベクトルを生成する特徴抽出処理を行う。特徴統合器66は、複数の特徴抽出器64が各々生成したラベル付き特徴ベクトルを統合する。統合の方法としては、例えば、各ラベル付き特徴ベクトルの各要素値が2値ならば、要素毎に各要素値の論理和(or)を取る、各要素値が実数ならば、要素毎に各要素値の平均を取る等の方法が考えられる。統合された結果は、ラベル付き特徴ベクトルであり、第1の実施の形態と同様のデータ形式で表現される。
【0071】
2値学習器65は、特徴統合器66が統合したラベル付き特徴ベクトルを用いて、共参照解析の傾向や共参照の頻出するパターンを学習して、学習の結果得られた重みベクトルを出力する。
【0072】
判定処理部70は、ペアワイズ事例生成器71と、非学習型要素範囲推定器72と、特徴抽出器73と、2値判定器74とに加え、特徴統合器75を更に有する。特徴統合器75は、共参照解析装置50の有する主記憶部や補助記憶部に記憶されたプログラムモジュールであり、共参照解析装置50の有するCPUが当該プログラムモジュールを実行することにより後述の機能が実現される。また、判定処理部70は、非学習型要素範囲推定器72と、特徴抽出器73とを各々複数有する。同図の例では、各々2つが示されているが、本実施の形態においては、この限りではない。
【0073】
ペアワイズ事例生成器71の機能は第1の実施の形態と同様である。複数の非学習型要素範囲推定器72はそれぞれ、ペアワイズ事例生成器71が生成したラベルなし事例データの入力を受け付け、第1の実施の形態と同様にして、ラベルなし事例データを用いて非学習型要素範囲推定処理を行って、ラベルなし拡張事例データを出力する。
【0074】
複数の特徴抽出器73は、複数の非学習型要素範囲推定器72と1対1に対応している。各特徴抽出器73は、対応する非学習型要素範囲推定器72が出力したラベルなし拡張事例データを用いて、第1の実施の形態と同様にして、ラベルなし特徴ベクトルを生成する特徴抽出処理を行う。特徴統合器75は、複数の特徴抽出器73が各々生成したラベルなし特徴ベクトルを統合する。統合の方法は、学習処理部60の特徴統合器66が行う統合の方法と同様である。尚、統合された結果は、ラベルなし特徴ベクトルであり、第1の実施の形態と同様のデータ形式で表現される。
【0075】
2値判定器74は、特徴統合器75が統合したラベルなし特徴ベクトルを用いて、上述の学習処理部60が出力した重みベクトルを用いて、ラベルを判定し、判定したラベルを出力する。
【0076】
次に、共参照解析装置50の有する学習処理部60が行う学習処理の手順について図9を用いて説明する。ステップS1〜S2は第1の実施の形態と同様である。ステップS1〜S2の後、学習処理部60は、ステップS1で生成したラベル付き事例データと、ステップS2で生成したラベル付き事例データとを用いて、複数の非学習型要素範囲推定器63のそれぞれの機能により、非学習型要素範囲推定処理を各々行う(ステップS3a〜S3b)。非学習型要素範囲推定処理の方法は、第1の実施の形態と同様である。但し、複数の非学習型要素範囲推定器63が先行詞及び照応詞における前方領界を推定する際に用いる所定のルールが、複数の非学習型要素範囲推定器63のそれぞれで異なる。その後、学習処理部60は、ステップS3a〜S3bで各々出力したラベル付き拡張事例データを用いて、複数の特徴抽出器64のそれぞれの機能により、特徴ベクトルを生成する特徴抽出処理を各々行う(ステップS4a〜S4b)。この特徴抽出処理は、第1の実施の形態と同様である。次いで、学習処理部60は、ステップS4a〜4bで各々出力した複数のラベル付き特徴ベクトルを、特徴統合器66の機能により、統合する(ステップS6)。統合した結果、ステップS4a〜4bで各々出力されたラベル付き特徴ベクトルと同様のデータ形式で表現されるラベル付き特徴ベクトルが得られる。
【0077】
そして、学習処理部60は、ステップS6で統合した結果得られたラベル付き特徴ベクトルを含むラベル付き特徴ベクトル群を用いて、2値学習器65の機能により、重みベクトルを学習し、学習の結果得られた重みベクトルを出力する(ステップS5´)。重みベクトルを学習する方法は、第1の実施の形態と同様である。
【0078】
次に、判定処理部70の行う判定処理の手順について図10を用いて説明する。ステップS10は第1の実施の形態と同様である。その後、判定処理部70は、ステップS10で生成した事例データを用いて、複数の非学習型要素範囲推定器72のそれぞれの機能により、非学習型要素範囲推定処理を各々行う(ステップS11a〜S11b)。非学習型要素範囲推定処理の方法は、第1の実施の形態と同様である。但し、複数の非学習型要素範囲推定器72が先行詞及び照応詞における前方領界を推定する際に用いる所定のルールが、複数の非学習型要素範囲推定器72のそれぞれで異なる。その後、判定処理部70は、ステップS11a〜S11bで各々出力したラベルなし拡張事例データを用いて、複数の特徴抽出器73のそれぞれの機能により、特徴ベクトルを生成する特徴抽出処理を各々行う(ステップS12a〜S12b)。この特徴抽出処理は、第1の実施の形態と同様である。次いで、判定処理部70は、ステップS12a〜12bで各々出力した複数のラベルなし特徴ベクトルを、特徴統合器75の機能により、統合する(ステップS14)。統合した結果、ステップS12a〜12bで各々出力されたラベルなし特徴ベクトルと同様のデータ形式で表現されるラベルなし特徴ベクトルが得られる。
【0079】
そして、判定処理部70は、ステップS14で統合した結果得られたラベルなし特徴ベクトルを含むラベルなし特徴ベクトル群を用いて、2値判定器74の機能により、上述の図9を用いて説明した学習処理で出力された重みベクトルを用いて、ラベルを判定し、判定したラベルを出力する(ステップS13´)。この判定の方法は、第1の実施の形態と同様である。
【0080】
以上のように、本実施の形態においては、学習処理部60が、共参照関係を有する先行詞及び照応詞について前方境界を用いることなく後方境界を用いて学習処理を行うことで、判定処理部70がユーザデータに対して共参照関係を有する先行詞及び照応詞についての後方境界を判定する精度を向上することができる。
【0081】
更に、複数のルールのそれぞれに従って、前方境界の候補を複数推定し、後方境界と各前方境界とによって決定される形態素列毎に生成した特徴ベクトルを統合することで、より柔軟な共参照解析システムを提供することができる。
【0082】
[第3の実施の形態]
次に、学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラムの第3の実施の形態について説明する。なお、上述の第1の実施の形態又は第2の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
【0083】
本実施の形態においては、第1の実施の形態又は第2の実施の形態で説明した判定処理部70の機能をアプリケーションに適用した例について説明する。このようなアプリケーションは、照応詞に対応する先行詞の後方境界のみを得ることができる。例えば、アプリケーションは、処理の対象である文章(テキスト)内のある名詞句について、その名詞句に対応する先行詞を探索する。上述の従来の技術欄では、自動要約アプリケーションが、処理対象の中の文に含まれている指示詞(例えば「これ」など)が指し示す名詞を探索するという応用例を挙げた。本実施の形態においては、このような応用例を実現するために必要な機能的構成を説明する。ここで、その機能的構成の概要について説明する。処理の対象となる文章及び照応詞の後方境界が入力されると、アプリケーションは、照応詞の近傍から順に先行詞の後方境界の候補として選択して、照応詞の後方境界及び先行詞の後方境界の候補を用いて、照応性の有無を判定する。もし共参照関係にないという結果が得られた場合は、アプリケーションは、共参照関係にあるという結果が得られるまで、文章の前方に向かって順に後方境界の候補を選択する。共参照関係があるという結果を得た後方境界が先行詞の後方境界を示している。または、もし文章の先頭までこの処理を行っても、共参照関係にあるという結果が得られなければ、即ち、先行詞は存在しないという結果を得ることになる。この際、得られる結果は、先行詞の後方境界のみである。もし先行詞の形態素列を得たい場合、アプリケーションは、当該文章において後方境界から前方へ向かって先行詞の前方境界を探索し、当該前方境界及び後方境界によって決定される先行詞の範囲がアプリケーションの目的(応用目的)と合致しているか否かを判定し、当該判定の結果に応じて、所望の形態素列(チャンク)を得る。
【0084】
次に、アプリケーションを組み込んだアプリケーションシステムの機能的構成の詳細について図11を用いて説明する。アプリケーションシステムは、先行詞後方境界候補出力器81と、照応判定器82と、先行詞形態素列推定器83とを有する。同図においては、アプリケーションシステムに対して入力されるのは、テキスト及び照応詞の後方境界であり、アプリケーションシステムから出力されるのは、先行詞が見つかった場合の先行詞の前方領界及び後方境界である。上述の自動要約アプリケーションの場合、入力は、処理対象の文章又は文に相当し、出力は、文中に出てきた指示詞が相当する。
【0085】
先行詞後方境界候補出力器81は、テキスト及び照応詞の後方境界の入力を受け付け、当該テキスト及び照応詞の後方境界を用いて、照応判定器82に照応性の有無を判定させるための先行詞後方境界の候補を出力する。先行詞後方境界候補出力器81は、出力した先行詞後方境界の候補を記憶する前回位置記憶領域85を有する。先行詞後方境界候補出力器81は、後述の照応判定器82及び先行詞形態素列推定器83から送られた処理要求に応じて、前回位置記憶領域85を参照して、先行詞後方境界の候補を出力する。
【0086】
照応判定器82は、上述した判定処理部70の機能の全部又は一部を当該アプリケーションに適用したものである。照応判定器82は、テキストと、当該テキストに対して入力された照応詞後方境界に対応する先行詞後方境界の候補として先行詞後方境界候補出力器81が出力した形態素位置との入力を受け付け、当該テキスト及び先行詞後方境界の候補を用いて、上述の重みベクトルを用いて、照応性の有無を判定して、その判定の結果を2値で示す判定結果を出力する。具体的には、照応判定器82は、照応性がないと判定した場合、「False」を示す判定結果を出力し、照応性があると判定した場合、「True」を示す判定結果を出力する。また、照応判定器82は、照応性がないと判定した場合、先行詞後方境界候補出力器81に処理要求を送り、照応性があると判定した場合、その形態素位置を先行詞後方境界として更に出力する。
【0087】
先行詞形態素列推定器83は、照応性があると判定した場合に出力された形態素位置が先行詞後方境界の入力を受け付け、当該先行詞後方境界を用いて、先行詞の範囲を決定するための先行詞前方境界を推定するものであり、応用別有効性評価判定プラグイン84を有する。ここで、先行詞形態素列推定器83は、この応用別有効性評価判定プラグイン84の機能により、入力された先行詞後方境界を用いて、アプリケーションの目的に合致した先行詞の範囲を決定するための前方境界を推定する。応用別有効性評価判定プラグイン84は、入力された先行詞後方境界及び推定した先行詞前方境界によって決定される先行詞の範囲がアプリケーションにとって有効か否かの判定を行うプラグインモジュールであり、アプリケーション毎に差し替えることが可能である。例として、当該先行詞が10文字以内かどうかの判定処理を行うプラグインモジュール、当該先行詞がNGワードを含んでいないかどうかの判定を行うプラグインモジュールなどが挙げられる。応用別有効性評価判定プラグイン84は、当該先行詞の範囲が有効でないと判定した場合、先行詞後方境界候補出力器81に処理要求を送り、当該先行詞の範囲が有効であると判定した場合、当該先行詞後方境界及び先行詞前方境界を出力する。即ち、先行詞形態素列推定器83は、応用別有効性評価判定プラグイン84が有効であると判定した先行詞の範囲を決定付ける先行詞前方領界位置を、アプリケーションの目的に合致した先行詞の範囲を決定するための前方境界として推定する。
【0088】
次に、本実施の形態に係るアプリケーションシステムが行う先行詞判定処理の手順について図12を用いて説明する。アプリケーションシステムは、処理対象のテキスト及び照応詞後方境界の入力を受け付けると、まず、先行詞後方境界候補出力器81の機能により、先行詞後方境界候補出力処理を行う(ステップS60)。具体的には、先行詞後方境界候補出力器81は、当該テキストにおいて当該照応詞後方境界の最近傍となる形態素の位置(形態素位置)を先行詞後方境界の候補として出力する。このとき、先行詞後方境界候補出力器81は、出力した先行詞後方境界の候補を前回位置記憶領域85に記憶させる。そして、先行詞後方境界候補出力器81は、次回、照応判定器82及び先行詞形態素列推定器83のうちいずれか一方から処理要求が送られた場合(ステップS61:YES)、ステップS60の処理を行うが、このとき、ステップS60では、前回位置記憶領域85に記憶された形態素位置より1形態素だけ遠方にある位置(形態素位置)を先行詞後方境界の候補として出力する。尚、照応判定器82及び先行詞形態素列推定器83からの処理要求は連続的に送られ得る。連続的な処理要求が送られた際、先行詞後方境界候補出力器81は、照応詞の後方境界から最近傍となる形態素位置から、最遠方の形態素位置までを順に先行詞後方境界の候補として出力することになる。ただし最遠方は、ここでは文章の先頭の形態素とする。このようにして、先行詞後方境界候補出力器81は、ステップS60の処理を繰り返し行うことで、当該テキストにおいて先行詞後方境界の候補としてまだ一度もその位置(形態素位置)を出力していない形態素の中で最近傍となる形態素の位置(形態素位置)を先行詞後方境界の候補として出力する。尚、文章の先頭の形態素の形態素位置を先行詞後方境界の候補として出力して以降処理要求が送られた場合は、先行詞後方境界候補出力器81は、ステップS60では、指定された照応詞に対応する先行詞はないことを意味する「NULL」を出力して処理を終了する。
【0089】
尚、アプリケーションシステムは、ステップS60を行って、先行詞後方境界の候補を出力する毎に、ステップS62に進む。ステップS62では、アプリケーションシステムは、入力されたテキストと、ステップS60で先行詞後方境界の候補として出力した形態素位置とを用いて、照応判定器82の機能により、照応性の有無を判定して、その判定の結果を2値で示す判定結果を出力する。このとき、照応判定器82は、照応性がないと判定した場合(ステップS63:NO)、「False」を示す判定結果を出力して、先行詞後方境界候補出力器81に処理要求を送る(ステップS64)。その後、ステップS61に戻る。一方、照応判定器82は、照応性があると判定した場合(ステップS63:YES)、「True」を示す判定結果を出力すると共に、その形態素位置を先行詞後方境界として出力する(ステップS65)。その後、ステップS66に進む。
【0090】
ステップS66では、アプリケーションシステムは、ステップS65で出力した先行詞後方境界を用いて、先行詞形態素列推定器83の機能により、先行詞形態素列推定処理を行う。具体的には、先行詞形態素列推定器83は、ステップS65で出力した先行詞後方境界を用いて、先行詞の範囲を決定するための前方境界を推定し、応用別有効性評価判定プラグイン84の機能により、推定した前方境界及びステップS65で出力された先行詞後方境界によって決定される先行詞の範囲が有効であるか否かを判定する。ここで、アプリケーションシステムが先行詞形態素列推定器83及び応用別有効性評価判定プラグイン84の機能により行う処理の詳細な手順について図13を用いて説明する。先行詞形態素列推定器83は、ステップS65で出力された先行詞後方境界iと同じ位置に形態素位置jをセットする(ステップS70)。jは先行詞の前方境界(先行詞前方境界)の候補を示している。次いで、先行詞形態素列推定器83は、形態素位置jを1つ前方の形態素位置へ移動させる(ステップS71)。先行詞形態素列推定器83は、jが文章先頭の形態素位置であるか否かを判定し(ステップS72)、jが文章先頭の形態素位置である場合(ステップS72:YES)、"No Match"を出力する。その後、アプリケーションシステムが行う処理は図12のステップS60に戻る。一方、jが文章先頭の形態素位置でない場合(ステップS72:NO)、先行詞形態素列推定器83は、iとjとで決定される先行詞の範囲を応用別有効性評価判定プラグイン84に出力し、応用別有効性評価判定プラグイン84が、当該先行詞の範囲に対して有効性の有無を判定する(ステップS73)。ここで、応用別有効性評価判定プラグイン84が、当該先行詞の範囲が有効でないと判定した場合(ステップS74:NO)、ステップS71に戻る。一方、応用別有効性評価判定プラグイン84が、当該先行詞の範囲が有効であると判定した場合(ステップS74:YES)、当該先行詞後方境界及び先行詞前方境界を出力する(ステップS75)。
【0091】
このように、本実施の形態によれば、アプリケーションの目的に合致した先行詞の範囲を推定して出力することができる。
【0092】
[変形例]
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0093】
上述した各実施の形態において、共参照解析装置50で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供するように構成しても良い。
【0094】
上述した各実施の形態において、学習処理部60として機能する情報処理装置を学習処理装置とし、判定処理部70として機能する情報処理装置を判定装置として共参照解析システムが構成されるようにしても良い。この場合、重みベクトルは、例えば、通信I/Fを介した通信により判定装置が学習装置から受信して記憶するようにしても良いし、記憶媒体や操作入力を介したユーザの操作入力に応じて判定装置に記憶されるようにしても良い。
【0095】
上述した各実施の形態においては、共参照を解析する共参照解析を例に挙げて説明したが、これに限らず、ゼロ照応や、連想照応などの他の照応を解析する照応解析についても、上述した各実施の形態にかかる共参照解析装置50を適用可能である。
【0096】
上述した各実施の形態においては、共参照解析装置50の有する学習処理部60の有する各器は、上述の例に限らず、また、いずれか1つ以上が組み合わされて構成されても良いし、各器のいずれか1つによって実現される機能が複数のモジュールによって実現されるようにしても良い。判定処理部70についても同様である。
【0097】
上述した各実施の形態においては、後方境界や前方境界は形態素単位で指定されるものとしたが、これに限らず、例えば、文字単位で指定されても良い。
【符号の説明】
【0098】
50 共参照解析装置
60 学習処理部
61 ペアワイズ正例生成器
62 ペアワイズ負例生成器
63 非学習型要素範囲推定器
64 特徴抽出器
65 2値学習器
66 特徴統合器
70 判定処理部
71 ペアワイズ事例生成器
72 非学習型要素範囲推定器
73 特徴抽出器
74 2値判定器
75 特徴統合器
81 先行詞後方境界候補出力器
82 照応判定器
83 先行詞形態素列推定器
84 応用別有効性評価判定プラグイン
85 前回位置記憶領域

【特許請求の範囲】
【請求項1】
文章と、前記文章内で照応関係を有する各要素の後方境界と、先行詞となる第1の要素及び照応詞となる第2の要素の対応関係とを示す第1のデータの入力を受け付ける入力受付部と、
前記第1のデータに基づいて、所定のルールに従って、前記第1の要素及び前記第2の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第1の要素の範囲及び前記第2の要素の範囲を各々推定する推定部と、
前記第1の要素の範囲及び前記第2の要素の範囲に基づいて、任意の文章において照応関係の有無を判定するための判定基準を学習する学習部とを備える
ことを特徴とする学習装置。
【請求項2】
前記第1のデータを用いて、前記第1の要素の後方境界及び前記第2の要素の後方境界を示す第2のデータと、互いに照応関係にない第3の要素の後方境界及び第4の要素の後方境界を示す第3のデータとのうち少なくとも一方を生成する第1生成部と、
前記第2のデータ及び前記第3のデータのうち少なくとも一方に基づいて、特徴ベクトルを生成する第2生成部を更に備え、
前記学習部は、前記特徴ベクトルを用いて、機械学習により、前記判定基準を学習する
ことを特徴とする請求項1に記載の学習装置。
【請求項3】
前記推定部は、前記第2のデータ及び前記第3のデータのうち少なくとも一方を用いて、前記所定のルールに従って、前記第1の要素及び前記第2の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第1の要素の範囲及び前記第2の要素の範囲を各々推定し、
前記第2生成部は、前記第1の要素の範囲及び前記第2の要素の範囲を用いて、前記特徴ベクトルを生成する
ことを特徴とする請求項2に記載の学習装置。
【請求項4】
各々異なる前記所定のルールに従って、前記前方境界を推定することにより、前記範囲を推定する複数の前記推定部と、
各前記推定部が各々推定した前記第1の要素の範囲及び前記第2の要素の範囲を用いて、前記特徴ベクトルを各々生成する複数の前記第2生成部と、
複数の前記特徴ベクトルを統合する統合部を更に備え、
前記学習部は、統合された前記特徴ベクトルを用いて、機械学習により、前記判定基準を学習する
ことを特徴とする請求項3に記載の学習装置。
【請求項5】
文章と、前記文章内で照応関係を有する可能性のある各要素の後方境界とを示す第1のデータの入力を受け付ける入力受付部と、
前記第1のデータに基づいて、所定のルールに従って、各前記要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、各前記要素の範囲を各々推定する推定部と、
各前記要素の範囲に基づいて、所定の判定基準に従って、各前記要素の照応関係の有無を判定する判定部とを備える
ことを特徴とする判定装置。
【請求項6】
前記第1のデータを用いて、先行詞の候補となる第1の要素の後方境界及び照応詞の候補となる第2の要素の後方境界を示す第2のデータを生成する第1生成部と、
前記第2のデータに基づいて、特徴ベクトルを生成する第2生成部を更に備え、
前記判定部は、前記特徴ベクトルを用いて、前記所定の判定基準に従って、機械学習により、前記第1の要素及び第2の要素の照応関係の有無を判定する
ことを特徴とする請求項5に記載の判定装置。
【請求項7】
2-1-1(固有の入力に必要な固有処理の1例に言及する2-1装置)
前記推定部は、前記第2のデータを用いて、前記所定のルールに従って、前記第1の要素及び前記第2の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第1の要素の範囲及び前記第2の要素の範囲を各々推定し、
前記第2生成部は、前記第1の要素の範囲及び前記第2の要素の範囲を用いて、前記特徴ベクトルを生成する
ことを特徴とする請求項6に記載の判定装置。
【請求項8】
各々異なる前記所定のルールに従って、前記第1の要素の範囲及び前記第2の要素の範囲を各々推定する複数の前記推定部と、
各前記推定部が各々推定した前記第1の要素の範囲及び前記第2の要素の範囲を用いて、前記特徴ベクトルを各々生成する複数の前記第2生成部と、
複数の前記特徴ベクトルを統合する統合部を更に備え、
前記判定部は、統合された前記特徴ベクトルを用いて、前記所定の判定基準に従って、機械学習により、前記第1の要素及び第2の要素の照応関係の有無を判定する
ことを特徴とする請求項7に記載の判定装置。
【請求項9】
2-2(当判定装置のラッパー:先行詞探索器)
文章及び前記文章内で照応関係を有する可能性のある照応詞となる要素の第1の後方境界の入力を受け付ける入力受付部と、
前記文章において前記第1の後方境界より前方に位置する先行詞の候補となる要素の第2の後方境界を探索する探索部と、
前記文章と、前記第2の後方境界とを用いて、照応性の有無を判定し、照応性があると判定した場合、前記第2の後方境界を先行詞の後方境界として出力し、前記文章において前記第1の後方境界より前方に位置するいずれの要素の前記第2の後方境界についても照応性がないと判定した場合、前記照応詞に対応する先行詞がないことを示す判定結果を出力する第1判定処理部とを備える
ことを特徴とする判定装置。
【請求項10】
前記先行詞の後方境界を用いて、前記文章において前記先行詞の後方境界より前方に位置する前記先行詞の前方境界を推定する推定部と、
前記先行詞の後方境界と前記先行詞の後方境界との間に存在する1つ以上の形態素を含む形態素列に対して、応用目的に応じて、有用性を判定する第2判定処理部と、
前記第2判定処理部の判定の結果に応じて、前記形態素列を先行詞として出力する出力部とを更に備える
ことを特徴とする請求項9に記載の判定装置。
【請求項11】
入力受付部と、推定部と、学習部とを備える学習装置で実行される学習方法であって、
前記入力受付部が、文章と、前記文章内で照応関係を有する各要素の後方境界と、先行詞となる第1の要素及び照応詞となる第2の要素の対応関係とを示す第1のデータの入力を受け付ける入力受付ステップと、
前記推定部が、前記第1のデータに基づいて、所定のルールに従って、前記第1の要素及び前記第2の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第1の要素の範囲及び前記第2の要素の範囲を各々推定する推定ステップと、
前記学習部が、前記第1の要素の範囲及び前記第2の要素の範囲に基づいて、任意の文章において照応関係の有無を判定するための判定基準を学習する学習ステップとを含む
ことを特徴とする学習方法。
【請求項12】
入力受付部と、推定部と、判定部とを備える判定装置で実行される判定方法であって、
前記入力受付部が、文章と、前記文章内で照応関係を有する可能性のある各要素の後方境界とを示す第1のデータの入力を受け付ける入力受付部と、
前記推定部が、前記第1のデータに基づいて、所定のルールに従って、各前記要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、各前記要素の範囲を各々推定する推定ステップと、
前記判定部が、各前記要素の範囲に基づいて、所定の判定基準に従って、各前記要素の照応関係の有無を判定する判定ステップとを含む
ことを特徴とする判定方法。
【請求項13】
コンピュータを、
文章と、前記文章内で照応関係を有する各要素の後方境界と、先行詞となる第1の要素及び照応詞となる第2の要素の対応関係とを示す第1のデータの入力を受け付ける入力受付手段と、
前記第1のデータに基づいて、所定のルールに従って、前記第1の要素及び前記第2の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第1の要素の範囲及び前記第2の要素の範囲を各々推定する推定手段と、
前記第1の要素の範囲及び前記第2の要素の範囲に基づいて、任意の文章において照応関係の有無を判定するための判定基準を学習する学習手段と
して機能させるための学習プログラム。
【請求項14】
コンピュータを、
文章と、前記文章内で照応関係を有する可能性のある各要素の後方境界とを示す第1のデータの入力を受け付ける入力受付手段と、
前記第1のデータに基づいて、所定のルールに従って、各前記要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、各前記要素の範囲を各々推定する推定手段と、
各前記要素の範囲に基づいて、所定の判定基準に従って、各前記要素の照応関係の有無を判定する判定手段と
して機能させるための判定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−150586(P2012−150586A)
【公開日】平成24年8月9日(2012.8.9)
【国際特許分類】
【出願番号】特願2011−7663(P2011−7663)
【出願日】平成23年1月18日(2011.1.18)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】