学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム

【課題】照応解析において先行詞及び照応詞を判定する精度を向上可能な照応解析技術を提供する。
【解決手段】学習装置は、文章と、前記文章内で照応関係を有する各要素の後方境界と、先行詞となる第１の要素及び照応詞となる第２の要素の対応関係とを示す訓練データの入力を受け付け、訓練データに基づいて、任意の文章において照応関係の有無を判定するための判定基準を学習する。判定装置は、文章と、前記文章内で照応関係を有する可能性のある各要素の後方境界とを示すユーザデータの入力を受け付け、ユーザデータに基づいて、学習装置が学習した判定基準に従って、文章において照応関係の有無を判定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラムに関する。
【背景技術】
【０００２】
共参照とは、文章内で当該文章を構成する要素（構成要素という）の組が同じ実体を示す言語現象であり、その組のうち、特に最後方にある構成要素を照応詞、それ以外の構成要素を先行詞と呼ぶ。このような組を見つけ出す処理（共参照解析という）を行うプログラム(モジュール)を共参照解析器と呼ぶ。共参照の現象としては、構成要素の種別に応じたものとして名詞句の共参照、述語の共参照及び文の共参照や、構成要素の種別を横断した共参照などがある。以下では、説明を簡単にするため、共参照の対象として見つけ出す構成要素として名詞(句)のみを扱うとする。名詞句をベースにした共参照解析器を他の種別の構成要素も扱えるように拡張するのは容易である。
【０００３】
共参照解析器は、一般に、学習処理と判定処理とを行うものである。学習処理では、共参照解析器は、共参照の組であることを示すタグが人手等によって予め付与された文章を示すデータ（訓練データという)を参考にして、共参照の組を示すタグ群を付与するための判定基準を獲得する処理を行う。一方判定処理では、共参照解析器は、共参照の組であることを示すタグのついてない通常の文章（テキスト）及びそのテキスト内で共参照の関係（共参照関係）にあるかどうかユーザが知りたい複数の名詞句に対して、上述の学習処理で獲得した判定基準を適用して、共参照関係の有無を判定する処理を行う。
【０００４】
訓練データは、本質的に、文章において共参照の組となる構成要素として名詞句群を示すタグと、それらが同一の実体を指すかどうかを示すタグとを有し、これらにより、どの名詞句がどの名詞句と対応関係（リンク）を有しているか特定できるようになっている。このような訓練データは、共参照の現象を素直にタグで表現したものと言える。
【０００５】
以下に、訓練データの表現方法の１例を示す。<>で囲まれた範囲が共参照の組として指定された構成要素である名詞句であり、<>を共参照要素タグと呼ぶとする。また[]はリンクタグと呼び、[]で囲まれた数字をここではリンクＩＤと呼ぶとする。共参照要素タグで示された名詞句群のうち、同じリンクＩＤを持つ組は、共参照関係にあると解釈される。
「<ボブ>[1]が現れた。<彼>[1]は学生である。」 --(9900)
「<魚介類>[2]など、<風物>[2]を捉える感性が感じられる。」 --(9901)
「<モナコの外交官>[3]と面会した。<彼>[3]は忙しそうだった。」 --(9902)
【０００６】
共参照解析器は、このような訓練データを用いて学習処理を行い、訓練データのテキストに対してできるだけ同じタグを付与できるような判定基準を獲得する。また判定処理では、共参照解析器は、タグが付与されていない任意のテキストに対して、学習処理で獲得した判定基準を適用して、タグを付与する。タグの実例として、例えばＸＭＬ（Extensible Markup Language）を用いる方法がある。
【０００７】
ところで、このような訓練データによって示される共参照要素タグは、共参照の組となる構成要素として名詞句が、どの範囲なのか、即ち、範囲の前方となる位置（前方境界という）及び後方となる位置（後方境界という）を指定している。このような位置としては、例えば、形態素や文字の単位で指定される。例えば、上述の(9900)〜(9902)の訓練データの例では、先行詞となる名詞句についてはそれぞれ１つの形態素、２つの形態素、４つの形態素を含む範囲として、前方境界及び後方境界が指定されている。つまり、共参照要素タグによって、どの形態素からどの形態素までの列（形態素列という）を共参照の組となる名詞句とすべきかという、形態素列の役割上の塊（チャンクという）を判定した結果が示されることになる。このように形態素列のチャンクの判定を行うタスクは一般にチャンキングタスクと呼ばれる。共参照の組となる名詞句間の対応関係を判定するタスクを狭義の共参照タスクと呼ぶならば、このような訓練データに適合するような学習処理を行う場合、本質的に、共参照タスクとチャンキングタスクとを同時に解いている（同時学習という）ことになる。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特開２００３−１２２７５０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００９】
しかし、従来の共参照解析器には、次の２つの問題がある。１つは、同時学習を行うため狭義の共参照タスクの性能が低下する上、チャンキングタスク自体も難しいため十分な性能が出ず、共倒れになる恐れがある。また、１つは、応用で求められるのは、狭義の共参照タスクにより出力されるリンクに関する情報であり、チャンキングタスクにより出力される情報はなくても良いことが多いことである。以下、それぞれの問題について詳細に説明する。
【００１０】
１つ目の問題に関し、チャンキングタスクによる学習処理（チャンキング学習という）の本質的な難しさと、同時学習による性能の低下とについて説明する。チャンキング学習の本質的な難しさは、文法より意味の方が手がかりとしての比重が大きいことにある。たとえば、上述の(9902)の訓練データにおいて、先行詞は「モナコの外交官」と指定されているが、「外交官」でも不自然ではない。しかし「イギリスの外交官」も文章中に登場しているなら、「モナコの外交官」のほうが先行詞としてふさわしい。このように意味的な観点による判定は、機械にとっては難問となる。更に、後に述べるように、チャンクとして有用性の高い判定結果は、観点やアプリケーションによって異なる。一般的にこのような問題は、人間にとっても判定が難しいので、訓練データの作成が難しく、品質が低下することがある。品質の低い訓練データは、学習の阻害要因となり得る。
【００１１】
同時学習による性能の低下は、以上に述べたチャンキング学習自体が非常に困難であることにある。もしチャンキングタスクの判定結果が十分正確であれば、チャンキングタスクの判定結果を狭義の共参照タスクの判定材料に用いることができるため、性能の向上が期待できる。現実にはチャンキングタスクの判定結果は不正確なので、狭義の共参照タスクの阻害要因となり得る。
【００１２】
２つ目の問題に関し、以下の文章を元に共参照解析の応用例を挙げて説明する。
「昨日青坂プリンスホテルで紹介された3Dテレビ南芝XXXXYYYYYは、報道機関の注目を集めた。ネット掲示板でも、南芝からのこの一刻も早い発売に期待しているとの前向きな声が聞かれた。」----(9903)
【００１３】
ところで、自動要約アプリケーションは、与えられた文章から重要な文だけを抜粋する文抽出という処理を行う。抜粋された文は、文脈を失っているため、指示代名詞が含まれていると、意味不明になってしまう恐れがある。その問題を解決するために共参照解析により、指示代名詞の実体を具体的に示す名詞句に置き換える処理を行う。ここで、「…ネット掲示板でも、南芝からの「こ」の一刻も早い…」の「」で囲まれた照応詞の先行詞を求める処理について考察する。
【００１４】
例えば、検索スニペット・携帯電話の画面・ＴＶ欄などの用途で実行される自動要約アプリケーションでは、文字数の制限が決まっていることが多い。そのような場合、文字数の制限の中でできる限り必要な情報を含む先行詞を求めるだろう。例えば、１０文字以内という制約ならば「XXXXYYYYY」、15文字以内なら「南芝XXXXYYYYY」等が求める先行詞と考えられる。
【００１５】
また自動要約アプリケーションによっては、情報の重複の回避を求められることがある。上述の(9903)の文章の場合、抜粋された文には「南芝」という単語が既に含まれているため、先行詞としては、「3Dテレビ南芝XXXXYYYYY」よりも「3DテレビXXXXYYYYY」のほうが望ましい可能性がある。
【００１６】
以上のように、応用方法や文脈などにより、何が相応しいチャンクなのかは一意に決まらないことが多い。正解のチャンクを示す訓練データを人間が作るとしても、意見が割れて注釈ノイズを生み出す結果となる可能性が高い。
【００１７】
以上の考察から、チャンキングタスクは、応用上の有用性も必ずしも高いとは言えない上、共参照タスクの性能の低下を引き起こす可能性があるといえる。チャンキングタスクを回避して狭義の共参照タスクのみを解く学習の仕組みが必要である。
【００１８】
またこの議論は、ゼロ照応や、連想照応などの他の照応を解析する照応解析タスクにも当てはまる議論である。ゼロ照応を解析するゼロ照応解析タスクは、文章の表層から省略された照応詞と、文章中にある先行詞との対応を取るタスクであり、先行詞の範囲の指定について上述と同様の問題が生じる恐れがある。また連想照応を解析する連想照応タスクは、文章中にある照応詞と、文章中にあって照応詞と間接的に関係のある先行詞との対応を取るタスクであり、照応詞や先行詞の範囲の指定について上述と同様の問題が生じる恐れがある。
【００１９】
本発明の一側面は、照応解析において先行詞及び照応詞を判定する精度を向上可能な学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【００２０】
実施形態の学習装置は、文章と、前記文章内で照応関係を有する各要素の後方境界と、先行詞となる第１の要素及び照応詞となる第２の要素の対応関係とを示す第１のデータの入力を受け付ける入力受付部と、前記第１のデータに基づいて、所定のルールに従って、前記第１の要素及び前記第２の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第１の要素の範囲及び前記第２の要素の範囲を各々推定する推定部と、前記第１の要素の範囲及び前記第２の要素の範囲に基づいて、任意の文章において照応関係の有無を判定するための判定基準を学習する学習部とを備えることを特徴とする。
【００２１】
また、実施形態の判定装置は、文章と、前記文章内で照応関係を有する可能性のある各要素の後方境界とを示す第１のデータの入力を受け付ける入力受付部と、前記第１のデータに基づいて、所定のルールに従って、各前記要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、各前記要素の範囲を各々推定する推定部と、各前記要素の範囲に基づいて、所定の判定基準に従って、各前記要素の照応関係の有無を判定する判定部とを備えることを特徴とする。
【図面の簡単な説明】
【００２２】
【図１】図１は、第１の実施の形態の共参照解析装置５０の機能的構成を例示する図である。
【図２】図２は、学習処理の手順を示すフローチャートである。
【図３】図３は、ペアワイズ正例生成処理の手順を示すフローチャートである。
【図４】図４は、ペアワイズ負例生成処理の手順を示すフローチャートである。
【図５】図５は、非学習型要素範囲推定処理の手順を示すフローチャートである。
【図６】図６は、予測処理の手順を示すフローチャートである。
【図７】図７は、ペアワイズ事例生成処理の手順を示すフローチャートである。
【図８】図８は、第２の実施の形態の共参照解析装置５０の機能的構成を例示する図である。
【図９】図９は、学習処理の手順を示すフローチャートである。
【図１０】図１０は、判定処理の手順を示すフローチャートである。
【図１１】図１１は、第３の実施の形態のアプリケーションシステムの機能的構成を例示する図である。
【図１２】図１２は、先行詞判定処理の手順を示すフローチャートである。
【図１３】図１３は、先行詞形態素列推定器８３及び応用別有効性評価判定プラグイン８４による処理の手順を示すフローチャートである。
【発明を実施するための形態】
【００２３】
以下に添付図面を参照して、この発明にかかる学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラムの一実施の形態を詳細に説明する。
【００２４】
[第１の実施の形態]
ここで、本実施の形態に係る共参照解析の背景及び概要について説明する。従来の訓練データの共参照要素タグは、共参照の組となり得る構成要素として形態素列の開始位置及び終了位置、あるいは別の言い方をすれば構成要素の前方境界及び後方境界を示している。これに加えて構成要素間の対応関係（リンク）を示すためのリンクタグが示されている。まとめると、従来の訓練データは、共参照関係を有する各構成要素の前方境界及び後方境界と、先行詞となる構成要素及び照応詞となる構成要素の対応関係との３種類の情報を示す。この訓練データをチャンキングタスクを回避した情報にするには、共参照関係を有する組となる構成要素を範囲ではなく点で示せれば良い。
【００２５】
１つの方法として、構成要素の前方境界及び後方境界のうちいずれかをなくすことが挙げられる。上述の背景技術の欄で挙げた(9902)の訓練データの例では、文脈によってふさわしい先行詞が「モナコの外交官」「外交官」で揺れ、(9903) の訓練データの例では、応用観点によって「3Dテレビ南芝XXXXYYYYY」「3DテレビXXXXYYYYY」「XXXXYYYYY」などで揺れた。このように文脈や応用観点によっても、後方境界は揺れない。これは重要な語を最後尾に配置する日本語の性質に起因する。逆に「モナコの外交官」を「モナコ」に変更するなど、最後尾の語を変えると意味が大きく変わることが多い。以上のことから、共参照解析において後方境界を正確に判定できることが重要である。
【００２６】
このため、本実施の形態においては、共参照の組となる構成要素に対して、前方境界の学習処理及び判定処理は行わず、後方境界のみを学習処理及び判定処理の対象とする方針を採用する。このことにより、前方境界の判定はできなくなるが、そのトレードオフとして後方境界の正解率を向上させることができる。
【００２７】
以上の方針に基づいて、本実施の形態で行う共参照解析の方法の概要について説明する。前方境界が学習処理の入力として与えられなくなったものの、学習処理に用いる特徴ベクトルを生成するためには、どの形態素の範囲（チャンク）が共参照の組となる構成要素なのかという情報は必要である。そこで本実施の形態では、学習処理に依らない方法でチャンクを仮決定（推定）し、このチャンクに基づいて生成した特徴ベクトルを用いて、学習処理及び判定処理を各々行う。特徴ベクトルを生成するための方法には、具体的には例えば、固定的なルールに従って前方境界を推定して、推定した前方境界と後方境界とによって決定される形態素の範囲（チャンク）に対して特徴ベクトルを生成する方法がある。一例としては、「後方境界と前方境界との間は、名詞のみ含まれる」というルールを設定して、当該ルールに従って、１つの前方領界を推定する。あるいは、複数のルールのそれぞれに従って、前方境界の候補を複数推定し、後方境界と各前方境界とによって決定される形態素の範囲（チャンク）毎に特徴ベクトルを生成してこれらの特徴ベクトルを統合する方法も考えられる。特に後者の方法は、前方境界を一意に決めなくて良いという方式の利点を生かしたものと言える。一例として、前方境界と後方境界との間が単語や文節のn-gramとなるというルールとして、nの値が異なる複数のルールを設定して、各ルールに従って、n個の前方領界を推定する。ただし文節のn-gramの場合、先頭に接続詞や感動詞等が来ないようにするなどの付属的なルールを添えても良い。
【００２８】
このような方法により共参照解析を行う共参照解析システムは、学習処理部と判定処理部とに大きく分かれる。学習処理部と判定処理部とは各々別の情報処理装置により実現されるようにしても良いが、ここでは１つの情報処理装置により実現されるものとする。この情報処理装置を共参照解析装置という。共参照解析装置の学習処理部は、訓練データを入力として、共参照解析の傾向や共参照の頻出するパターンを学習して、重みベクトルを出力する学習処理を行う。また、判定処理部は、学習処理部が出力した重みベクトルを用いて、ユーザから任意に指定された文章（ユーザデータという）において共参照関係があるか否かを判定し、その判定結果を出力する判定処理を行う。尚、学習処理はユーザが利用するより前に完了しておき、実際にユーザが利用する際に行われる処理は判定処理のみであることが多い。
【００２９】
尚、本実施の形態においては、説明を簡単にするために、共参照の組となる構成要素はペア（２つ１組）のみとし、文章前方に現れる構成要素を先行詞と呼び、後方に現れる構成要素を照応詞と呼ぶとする。共参照の現象では、１つの照応詞に対し先行詞が複数存在する場合もある。この場合は共参照の組となる構成要素は３個以上になるが、本実施の形態の構成から容易に拡張可能であるため、その場合の説明を省略する。
【００３０】
また、本実施の形態においては、学習処理部が共参照解析の傾向や共参照の頻出するパターンを学習して重みベクトルを出力する学習処理において、従来の機械学習の方法を用いる。また機械学習に与えるタスクとして、ペアワイズ２値学習を用いている。本実施の形態におけるペアワイズ２値学習とは、先行詞と照応詞とのペアを示す事象を１事例として扱い、この事例が共参照関係にあるか否かを２値で判定する方法である。共参照関係にある事例を正例と呼び、共参照関係にない事例を負例と呼ぶ。
【００３１】
ここで、本実施の形態に係る学習処理部に入力される訓練データについて説明する。本実施の形態で取り扱う訓練データは、共参照の組となる構成要素の後方境界と、共参照の組となる構成要素の対応関係（リンク）を示すリンク情報とがタグ付けされた文章を示す。文章は全体として１つの話としてつながっていても良いし、複数の文章の寄せ集めでも構わない。尚、本実施の形態では、訓練データにおいては、形態素解析が予めなされており、後方境界は形態素単位で指定されるものとする。そして、訓練データは、以下のようなデータ形式で表現されるものとする。
【００３２】
「<ボブ>[1]が現れた。<彼>[1]は学生である。」 --(9904)
「魚介<類>[2]など、<風物>[2]を捉える感性が感じられる。」 --(9905)
「モナコの外交<官>[3]と面会した。<彼>[3]は忙しそうだった。」 --(9906)
【００３３】
このデータ形式では、共参照の組となる構成要素があることを示すタグ（共参照要素タグ）を用いて、１つの形態素のみを囲んでいる。共参照要素タグは、<>で表される。この共参照要素タグは、共参照の組となる構成要素である名詞句自体を指し示しているのではなく、共参照の組となる構成要素の後方境界を示している。即ち、ここでは、構成要素の名詞句に含まれる形態素のうち、最後の形態素のある位置が後方境界として示されている。また、後方境界には、リンクタグが付与されているものとする。リンクタグとは数字を[]で囲んだタグのことである。[]で囲まれた数字は、先行詞及び照応詞を対応付けるためのリンクＩＤである。このように、先行詞の後方境界及び照応詞の後方境界同士をリンクＩＤで対応付けることでリンク情報が表現されている。
【００３４】
例えば、(9906)の訓練データにおいて先行詞としては、通常、「外交官」や「モナコの外交官」等が考えられる。この訓練データでは、そのどちらが正解かは示されておらず、先行詞に含まれる最後の形態素のある位置（後方境界）が「官」であることのみが示されている。ここで、先行詞が「官」であるということが示されているのではないことに注意する。このように、本実施の形態においては、先行詞に含まれる最初の形態素のある位置（前方領界）が示されていない訓練データを取り扱う。尚、上述したように、訓練データでは、先行詞及び照応詞の組は２つ１組であるとする。即ち、当該訓練データにおいて１つの照応詞に対応する先行詞は１つしかない。
【００３５】
このように本実施の形態で取り扱う訓練データは、上述の背景技術欄に記載した(9900)〜(9902)とは異なり、文章と、当該文章内において共参照関係を有する各構成要素の後方境界と、先行詞となる構成要素及び照応詞となる構成要素の対応関係とを示す独自のデータ形式で表現される。但し、後方境界と、先行詞及び照応詞の対応関係とさえ示されていれば、訓練データはどんなデータ形式で表現されても構わない。例えば、前方境界など不要な情報が示される訓練データを入力とし、不要な情報を学習処理部が読み捨てても構わない。
【００３６】
次に、本実施の形態にかかる共参照解析装置の構成について詳述する。以下では、まず、前方境界を推定するルールとして１つの固定的なルールを用いる実施の形態について説明する。ここで、本実施の形態に係る共参照解析装置のハードウェア構成について説明する。本実施の形態の共参照解析装置は、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の主記憶部と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の補助記憶部と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、共参照解析装置には、情報を表示する表示部と、ユーザの指示入力を受け付けるキーボードやマウス等の操作入力部と、外部装置の通信を制御する通信Ｉ／Ｆ（interface）とが有線又は無線により各々接続されるようにしても良い。
【００３７】
次に、このようなハードウェア構成において、共参照解析装置の機能的構成について図１を用いて説明する。同図に示されるように、共参照解析装置５０は、学習処理部６０と、判定処理部７０とを有する。まず、学習処理部６０の機能的構成について説明する。学習処理部６０は、ペアワイズ正例生成器６１と、ペアワイズ負例生成器６２と、非学習型要素範囲推定器６３と、特徴抽出器６４と、２値学習器６５とを有する。これらの各器は、共参照解析装置５０の有する主記憶部や補助記憶部に各々記憶されたプログラムモジュールであり、共参照解析装置５０の有するＣＰＵが各プログラムモジュールを実行することにより以下に記載する各機能が実現される。
【００３８】
ペアワイズ正例生成器６１は、上述した訓練データの入力を受け付け、当該訓練データを用いて、ペアワイズ正例生成処理を行って、正例の先行詞の後方境界（先行詞後方境界という）及び照応詞の後方境界（照応詞後方境界という）を求め、当該先行詞後方境界及び照応詞後方境界と整数「1」とを対応付けて示すデータ（ラベル付き事例データという）を生成する。この整数はラベルと呼ばれる予約値である。このラベルの値が「1」である場合、先行詞後方境界及び照応詞後方境界が示す構成要素が正例であることを示す。正例とは、上述したように、当事例の元となった共参照要素タグによって示される構成要素のペアが共参照関係にあることを意味し、共参照関係の正解を示している。
【００３９】
ペアワイズ負例生成器６２は、上述した訓練データの入力を受け付け、当該訓練データを用いて、ペアワイズ負例生成処理を行って、負例の先行詞後方境界及び照応詞後方境界を求め、当該先行詞後方境界及び照応詞後方境界とラベル「-1」とを対応付けて示すラベル付き事例データを生成する。ラベルの値が「-1」である場合、先行詞後方境界及び照応詞後方境界が示す構成要素が負例であることを示す。負例とは、当事例の元となった共参照要素タグによって示される構成要素のペアが共参照関係にないことを意味する。
【００４０】
非学習型要素範囲推定器６３は、ペアワイズ正例生成器６１が生成したラベル付き事例データ及びペアワイズ負例生成器６２が生成したラベル付き事例データの入力を受け付け、これらのラベル付き事例データを用いて、非学習型要素範囲推定処理を行って、先行詞の前方領界及び照応詞の前方領界を推定する。ここで、先行詞及び照応詞のそれぞれについて、推定した前方領界から後方境界までの範囲を推定要素範囲テキストと呼ぶとする。非学習型要素範囲推定器６３は、入力されたラベル付き事例データによって示される先行詞後方境界及び照応詞後方境界を推定要素範囲テキストに置き換え、置換後のラベル付き事例データ（ラベル付き拡張事例データという）を出力する。
【００４１】
特徴抽出器６４は、非学習型要素範囲推定器６３が出力したラベル付き拡張事例データを用いて、特徴ベクトルを生成する特徴抽出処理を行う。２値学習器６５は、特徴抽出器６４が生成した複数の特徴ベクトルを用いて、共参照解析の傾向や共参照の頻出するパターンを学習して、学習の結果得られた重みベクトルを出力する。この重みベクトルが、判定処理部７０が任意の文章に対して共参照関係の有無を判定するための判定基準となる。
【００４２】
次に、判定処理部７０の機能的構成について説明する。判定処理部７０は、ペアワイズ事例生成器７１と、非学習型要素範囲推定器７２と、特徴抽出器７３と、２値判定器７４とを有する。これらの各器は、共参照解析装置５０の有する主記憶部や補助記憶部に各々記憶されたプログラムモジュールであり、共参照解析装置５０の有するＣＰＵが各プログラムモジュールを実行することにより以下に記載する各機能が実現される。
【００４３】
ペアワイズ事例生成器７１は、ユーザから任意に指定された文章（ユーザデータ）の入力を受け付け、ペアワイズ事例生成処理を行って、事例データを生成する。ユーザデータは、文章と、当該文章内において共参照関係を有する可能性のある各構成要素の後方境界とを示す。尚、ペアワイズ事例生成器７１の機能は上述のペアワイズ正例生成器６１の機能やペアワイズ負例生成器６２の機能と略同様であるが、以下の点がこれらと異なる。ペアワイズ正例生成器６１やペアワイズ負例生成器６２に入力される訓練データは、複数の共参照関係を含むことが想定されたデータ形式であり、リンク情報を含んでいたが、ペアワイズ事例生成器７１に入力されるユーザデータは、１つの共参照関係の候補を含むことが想定されたデータ形式であるため、リンク情報を含んでいない。また、事例データは、上述のペアワイズ正例生成器６１がペアワイズ正例生成処理を行って生成したラベル付き事例データとは異なり、「1」又は「-1」を示すラベルを対応付けない。このような事例データをラベルなし事例データと呼ぶ。
【００４４】
非学習型要素範囲推定器７２は、ペアワイズ事例生成器７１が生成したラベルなし事例データの入力を受け付け、ラベルなし事例データを用いて非学習型要素範囲推定処理を行って、先行詞の前方領界及び照応詞の前方領界を推定する。ここで、先行詞及び照応詞のそれぞれについて、推定した前方領界から後方境界までの範囲は上述と同様に推定要素範囲テキストと呼ぶ。非学習型要素範囲推定器７２は、入力されたラベルなし事例データによって示される先行詞後方境界及び照応詞後方境界を推定要素範囲テキストに置き換え、置換後のラベルなし事例データ（ラベルなし拡張事例データという）を出力する。
【００４５】
特徴抽出器７３は、非学習型要素範囲推定器７２が出力したラベルなし拡張事例データを用いて、特徴ベクトルを生成する特徴抽出処理を行う。２値判定器７４は、特徴抽出器７３が生成した複数の特徴ベクトルを用いて、上述の学習処理部６０が出力した重みベクトルを用いて、ラベルを判定し、判定したラベルを出力する。
【００４６】
次に、共参照解析装置５０の有する学習処理部６０が行う学習処理の手順について図２を用いて説明する。まず、学習処理部６０は、上述した訓練データの入力を受け付けると、ペアワイズ正例生成器６１の機能により、ペアワイズ正例生成処理を行う（ステップＳ１）。また、学習処理部６０は、ペアワイズ負例生成器６２の機能により、ペアワイズ負例生成処理を行う（ステップＳ２）。
【００４７】
ここで、学習処理部６０がステップＳ１でペアワイズ正例生成器６１の機能により行うペアワイズ正例生成処理の詳細な手順について図３を用いて説明する。ペアワイズ正例生成器６１は、「1」から「∞」までのループ変数ｉを用意し、変数ｉの初期値を「1」に設定する（ステップＳ２０）。このループ変数ｉは、上述したリンクＩＤに対応するものである。次に、ペアワイズ正例生成器６１は、入力された訓練データから変数ｉの値を有するリンクタグを探索する（ステップＳ２１）。探索の結果、該当のリンクタグが得られない場合（ステップＳ２２：ＮＯ）、ペアワイズ正例生成器６１は、ペアワイズ正例生成処理を終了する。一方、該当のリンクタグが得られた場合（ステップＳ２２：ＹＥＳ）、ペアワイズ正例生成器６１は、探索の結果得られたリンクタグの直前にある共参照要素タグを全て探索する（ステップＳ２３）。尚、本実施の形態においては、先行詞が１つしかない共参照関係しか取り扱っていないため、探索の結果、共参照要素タグは必ず２つ得られる。
【００４８】
次いで、ペアワイズ正例生成器６１は、ステップＳ２３の探索の結果得られた各共参照要素タグのそれぞれについて、当該共参照要素タグが後方境界として示す形態素の文章先頭からの位置を求める（ステップＳ２４）。例えば、訓練データの示す文章に含まれる各形態素にこれらを一意に識別する形態素番号が別途付与されているものとすると、ペアワイズ正例生成器６１は、共参照要素タグによって後方境界として示される形態素に付与された形態素番号を位置として求めても良い。あるいは、ペアワイズ正例生成器６１は、共参照要素タグによって後方境界として示される形態素の文章先頭からの文字数を位置として求めても良い。尚、先行詞の共参照要素タグから求められた位置を、先行詞後方境界とし、照応詞の共参照要素タグから求められた位置を、照応詞後方境界とする。
【００４９】
そして、ペアワイズ正例生成器６１は、ステップＳ２４で求めた先行詞後方境界及び照応詞後方境界と整数「1」とを対応付けて示すラベル付き事例データを生成する（ステップＳ２５）。その後、ペアワイズ正例生成器６１は、ループ変数iを１インクリメントして（ステップＳ２６）、ステップＳ２１に戻る。
【００５０】
次に、学習処理部６０がステップＳ２でペアワイズ負例生成器６２の機能により行うペアワイズ負例生成処理の詳細な手順について図４を用いて説明する。ステップＳ３０〜Ｓ３４は、図３を用いて説明したステップＳ２０〜Ｓ２４と同様であるためその説明を省略する。ステップＳ３４の後、ステップＳ３５では、ペアワイズ負例生成器６２は、ステップＳ３４で求めた照応詞後方境界から「先行詞後方境界-1」までのループ変数jを用意する。次いで、ペアワイズ負例生成器６２は、ループ変数jと照応詞後方境界と整数「-1」とを対応付けて示すラベル付き事例データを生成する（ステップＳ３６）。ここでループ変数jを擬似的に先行詞後方境界とする。その後、ペアワイズ負例生成器６２は、ループ変数jを１つインクリメントして（ステップＳ３７）、ステップＳ３５に進む。そして、ペアワイズ負例生成器６２は、ループ変数iを１つインクリメントして（ステップＳ３８）、ステップＳ３１に進む。
【００５１】
尚、ペアワイズ負例生成処理は、端的に言うと、正例の共参照の組となる構成要素間に存在する任意の形態素の組のうち、照応詞のみが一致する組を負例とみなす処理である。人間による訓練データの一般的な作成手順として、まず照応詞を発見し、そこから形態素を文章前方へさかのぼって先行詞を発見するというものがある。文章前方へさかのぼる手順において先行詞とみなされなかった形態素は、少なくとも照応詞と共参照関係にないことが保証されていると考えられる。以上が当該ペアワイズ負例生成処理で扱う構成要素の組を負例とみなす根拠である。
【００５２】
図２の説明に戻る。学習処理部６０は、ステップＳ１で生成したラベル付き事例データと、ステップＳ２で生成したラベル付き事例データとを用いて、非学習型要素範囲推定器６３の機能により非学習型要素範囲推定処理を行う（ステップＳ３）。ここで、学習処理部６０がステップＳ３で非学習型要素範囲推定器６３の機能により行う非学習型要素範囲推定処理の手順について図５を用いて説明する。非学習型要素範囲推定器６３は、ステップＳ１で生成されたラベル付き事例データと、ステップＳ２で生成されたラベル付き事例データとのうち、未処理のラベル付き事例データを順に１つ取り出す（ステップＳ４０）。次いで、非学習型要素範囲推定器６３は、所定のルールに従って、先行詞における前方領界及び照応詞における前方領界を推定する。具体的には例えば、非学習型要素範囲推定器６３は、ステップＳ４０で取り出したラベル付き事例データによって示される先行詞後方境界及び照応詞後方境界のうち、未処理の後方位置を順に１つ取り出す（ステップＳ４１）。そして、非学習型要素範囲推定器６３は、ステップＳ４１で取り出した後方位置から文章前方へ、名詞又は接辞以外が現れるまで形態素をさかのぼって非自立語又は文章先頭を探索する。そして、非学習型要素範囲推定器６３は、探索した結果得られた非自立語又は文章先頭の直後の自立語から当該後方位置が示す形態素までの範囲に存在する形態素列を出力する（ステップＳ４２）。このような形態素列が推定要素範囲テキストであるとする。例として、「モナコの外交官と面会した」という文章において後方位置が「官」であれば、その前方にある「の」が非自立語であるため、当該非自立語の直後の自立語である「外交」から当該後方位置「官」までの間に存在する形態素列である推定要素範囲テキストは「外交官」となる。即ち、この例では、「外交」という形態素が前方領界として推定される。尚、このように、所定のルールとして、天下り的に与えた固定的なルールに従って、先行詞の前方領界及び照応詞の前方領界を推定する手法を非学習型と呼ぶ。
【００５３】
そして、未処理の後方位置があれば（ステップＳ４３：ＹＥＳ）、ステップＳ４１に戻り、未処理の後方位置がなければ（ステップＳ４３：ＮＯ）、ステップＳ４４に進む。ステップＳ４４では、非学習型要素範囲推定器６３は、ステップＳ４１で取り出したラベル付き事例データによって示される先行詞後方境界及び照応詞後方境界を、それぞれ、ステップＳ４２で出力した推定要素範囲テキストに置き換え、置換後のラベル付き事例データ（ラベル付き拡張事例データという）を出力する。そして、未処理のラベル付き事例データがあれば（ステップＳ４５：ＹＥＳ）、ステップＳ４０に戻り、未処理のラベル付き事例データがなければ（ステップＳ４５：ＮＯ）、非学習型要素範囲推定器６３は、非学習型要素範囲推定処理を終了する。
【００５４】
図２の説明に戻る。学習処理部６０は、ステップＳ３で出力したラベル付き拡張事例データを用いて、特徴抽出器６４の機能により、特徴ベクトルを生成する特徴抽出処理を行う（ステップＳ４）。この特徴抽出処理は、従来の方法を用いて行うことができるため、ここでは、その概略について説明する。また、特徴ベクトルを生成する方法には、様々な方法があるが、ここでは、２値特徴ベクトルを生成する方法について説明する。２値特徴ベクトルは、次元数に応じた数の要素を含み、各要素に対応付けられた特徴の有無を「1」又は「0」（要素値という）により示すベクトルである。各要素に対応付けられた特徴は、共参照解析の方法により様々であるが、大きくカテゴリー分けすると、意味的特徴、表層的特徴及び構造的特徴がある。また各特徴は、ポイントワイズとペアワイズとの２種類に分類できる。一般的にこれらの特徴から生成される次元数(ベクトル内の要素数)を合計すると数千〜数万に及ぶ。
【００５５】
ポイントワイズの表層的特徴の１例として、「１つ目の推定要素範囲テキストに"南芝"は含まれているか」がある。この判定結果が肯定的であるなら「1」、否定的であるなら「0」が要素値になる。当然"南芝"部分は日本語に現れる全単語に置き換えることができる。従って、日本語に現れる全単語を特徴として用い得るように共参照解析装置５０を構成するならば、この形式の表層的特徴だけで、日本語の全単語種類数だけの次元数になる。このようにポイントワイズはテキストそれぞれに関する特徴を捉える。
【００５６】
ペアワイズの表層的特徴の１例として、「１つ目の推定要素範囲テキストと２つ目の推定要素範囲テキストとが１文字一致しているか」がある。この判定結果が肯定的であるなら「1」、否定的であるなら「0」が要素値になる。当然"１文字"の部分は、２文字、３文字などの任意の文字数に変更できる。このようにペアワイズは２つのテキストの間の関係に関する特徴を捉える。
【００５７】
意味的特徴及び構造的特徴についても以上と同様の手順によって、特徴ベクトルの要素値を決定することができる。特徴抽出器６４は、ステップＳ３で出力されたラベル付き拡張事例データについて、このようにして生成した特徴ベクトルと当該ラベル付き拡張事例データによって示されるラベルとを併せたものをラベル付き特徴ベクトルとして出力する。尚、訓練データにおいて共参照関係を有する構成要素のペアが複数ある場合、ステップＳ３では、複数のラベル付き拡張事例データが出力され、ステップＳ４では、これらの各々が用いられて、複数のラベル付き特徴ベクトルが出力される。
【００５８】
次に、学習処理部６０は、ステップＳ４で出力した複数のラベル付き特徴ベクトルを含むラベル付き特徴ベクトル群を用いて、２値学習器６５の機能により、共参照解析の傾向や共参照の頻出するパターンを学習して、学習の結果得られた重みベクトルを出力する（ステップＳ５）。この学習は、従来の機械学習の方法を用いて行うことができるため、ここでは、その概略について説明する。２値学習器６５の機能は、一般的な機械学習の枠組みにおける教師あり識別タスクを目的とした学習処理に対応するものである。教師あり識別タスクにおいてよく用いられる機械学習の手法として、ニューラルネットワーク、ＳＶＭ（Support Vector Machine）、ロジスティック回帰及びブースティング等の手法が挙げられる。いずれの手法においても、ラベル付き特徴ベクトル群を入力とし、重みベクトルを出力とする。重みベクトルの各要素は、特徴ベクトルの各要素と対応付いており、重みベクトルの要素値が大きいほど、それに対応する特徴の要素値が識別結果に強く影響を与えることを意味している。なお各機械学習における数学モデルや解の導出方法に関する説明は省略する。
【００５９】
次に、判定処理部７０の行う判定処理の手順について図６を用いて説明する。まず、判定処理部７０は、例えば操作入力部を介してユーザから任意に指定された文章（ユーザデータ）の入力を受け付けると、ペアワイズ事例生成器７１の機能により、ペアワイズ事例生成処理を行う（ステップＳ１０）。ペアワイズ事例生成処理は、図２のステップＳ１のペアワイズ正例生成処理と略同様であるが、以下の点がペアワイズ正例生成処理と異なる。ペアワイズ事例生成器７１に入力されるユーザデータはリンク情報を含んでいないため、ペアワイズ事例生成器７１は、ペアワイズ正例生成器６１と異なり、リンク情報に関する処理、即ち、ループ変数を用いてリンクタグを探索する処理を行う必要がない。また、ペアワイズ事例生成器７１は事例データの生成において、ペアワイズ正例生成器６１がペアワイズ正例生成処理を行って生成したラベル付き事例データとは異なり、「1」又は「-1」を示すラベルを対応付けない。
【００６０】
ここで、ステップＳ１０で判定処理部７０がペアワイズ事例生成器７１の機能により行うペアワイズ事例生成処理の手順について図７を用いて説明する。ペアワイズ事例生成器７１は、入力されたユーザデータ内から共参照の組の候補となる構成要素を指定する共参照要素タグを探索し、探索の結果得られた各共参照要素タグのそれぞれについて、図３のステップＳ２４と同様にして、当該共参照要素タグが後方境界として示す形態素の文章先頭からの位置を求める（ステップＳ５０）。上述と同様に、先行詞の共参照要素タグから求められた位置を、先行詞後方境界とし、照応詞の共参照要素タグから求められた位置を、照応詞後方境界とする。ペアワイズ事例生成器７１は、ステップＳ５０で求めた先行詞後方境界及び照応詞後方境界と、ラベルが未確定であることとを対応付けて示す事例データ（ラベルなし事例データ）を生成する（ステップＳ５１）。図１の例では、ラベルが未確定であることは、「?」により表される。
【００６１】
図６の説明に戻る。判定処理部７０は、ステップＳ１０で生成したラベルなし事例データを用いて、非学習型要素範囲推定器７２の機能により、非学習型要素範囲推定処理を行う（ステップＳ１１）。ここで、判定処理部７０がステップＳ１１で非学習型要素範囲推定器７２の機能により行う非学習型要素範囲推定処理の手順は、図５を用いて説明したものと略同様であるため、その説明を省略する。但し、ステップＳ４０で取り出されるのはラベルなし事例データであり、ステップＳ４４では、非学習型要素範囲推定器７２は、ステップＳ４１で取り出したラベルなし事例データによって示される先行詞後方境界及び照応詞後方境界を、それぞれ、ステップＳ４２で出力した推定要素範囲テキストに置き換え、置換後のラベルなし事例データ（ラベルなし拡張事例データという）を出力する。
【００６２】
図６の説明に戻る。判定処理部７０は、ステップＳ１１で出力したラベルなし拡張事例データを用いて、特徴抽出器７３の機能により、特徴ベクトルを生成する特徴抽出処理を行う（ステップＳ１２）。この特徴抽出処理は、上述の図２のステップＳ４で行うものと同様であるため、その説明を省略する。但し、ここで、特徴抽出器７３は、ステップＳ１１で出力されたラベルなし拡張事例データについて、生成した特徴ベクトルと、ラベルが未確定であることを示すものとを併せたものをラベルなし特徴ベクトルとして出力する。
【００６３】
次いで、判定処理部７０は、ステップＳ１２で出力したラベルなし特徴ベクトルを含むラベルなし特徴ベクトル群を用いて、２値判定器７４の機能により、上述の図２を用いて説明した学習処理で出力された重みベクトルを用いて、ラベルを判定し、判定したラベルを出力する（ステップＳ１３）。この判定は、従来の機械学習の方法を用いて行うことができるため、ここでは、その概略について説明する。２値判定器７４の機能は、一般的な機械学習の枠組みにおける教師あり識別タスクを目的とした判定処理に対応するものである。教師あり識別タスクにおいてよく用いられる機械学習の手法として、ニューラルネットワーク、ＳＶＭ（Support Vector Machine）、ロジスティック回帰及びブースティング等の手法が挙げられる。いずれの手法においても、ラベルなし特徴ベクトル群を入力とし、判定結果であるラベルを出力とする。本実施の形態では、ラベルの値が「1」ならば正例である、即ち、当該事例データは共参照関係にあることを意味し、ラベルの値が「-1」ならば負例である、即ち、当該事例データは共参照関係にないことを意味する。
【００６４】
以上のように、本実施の形態においては、学習処理部６０が、共参照関係を有する先行詞及び照応詞について前方境界を用いることなく後方境界を用いて学習処理を行うことで、判定処理部７０がユーザデータに対して共参照関係を有する先行詞及び照応詞を判定する精度を向上することができる。
【００６５】
例えば、ペアワイズ２値学習において、従来の訓練データを用いて学習処理を行うと、背景技術欄で記載した(9902)の訓練データに関して、「モナコの外交官」を先行詞とした事例及び「外交官」を先行詞とした事例はそれぞれ正例と負例として区別される。しかし機械学習による学習処理において、後者の事例が負例となる理由が、前方境界又は後方境界のどちらにあるのか判定できないため、双方にペナルティが加えられるという問題が発生し得た。しかし本実施の形態においては、「モナコの外交官」を先行詞とした事例及び「外交官」を先行詞とした事例は区別されず共に正例となるため、後方境界「官」は先行詞を決定するための正しい選択として認識されるようになる。即ち、本実施の形態によれば、後方境界を判定する精度を向上することができ、この結果、共参照関係を有する先行詞及び照応詞を判定する精度を向上することができる。
【００６６】
[第２の実施の形態]
次に、学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラムの第２の実施の形態について説明する。なお、上述の第１の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
【００６７】
学習処理や判定処理に用いる特徴ベクトルを生成するために、学習処理に依らない方法でチャンクを仮決定（推定）する必要があるが、上述の第１の実施の形態においては、学習処理部６０及び判定処理部７０のそれぞれは、非学習型要素範囲推定処理で、与えられた後方境界を元に、固定的なルールに従って１つの前方境界を推定して、当該前方領界から後方境界までの範囲に存在する形態素列（チャンク）を推定要素範囲テキストとして出力して、これを用いて特徴ベクトルを生成した。本実施の形態においては、学習処理部６０及び判定処理部７０のそれぞれは、複数のルールのそれぞれに従って前方境界の候補を複数推定して、各前方境界から後方境界までの各範囲に存在する形態素列毎に特徴ベクトルを生成してこれらを統合する。
【００６８】
図８は、本実施の形態に係る共参照解析装置５０の機能的構成を例示する図である。同図に示されるように、学習処理部６０は、ペアワイズ正例生成器６１と、ペアワイズ負例生成器６２と、非学習型要素範囲推定器６３と、特徴抽出器６４と、２値学習器６５とに加え、特徴統合器６６を更に有する。特徴統合器６６は、共参照解析装置５０の有する主記憶部や補助記憶部に記憶されたプログラムモジュールであり、共参照解析装置５０の有するＣＰＵが当該プログラムモジュールを実行することにより後述の機能が実現される。また、学習処理部６０は、非学習型要素範囲推定器６３と、特徴抽出器６４とを各々複数有する。同図の例では、各々２つが示されているが、本実施の形態においては、この限りではない。
【００６９】
ペアワイズ正例生成器６１及びペアワイズ負例生成器６２の各機能は第１の実施の形態と同様である。複数の非学習型要素範囲推定器６３はそれぞれ、ペアワイズ正例生成器６１が生成したラベル付き事例データ及びペアワイズ負例生成器６２が生成したラベル付き事例データの入力を受け付け、これらのラベル付き事例データを用いて、第１の実施の形態と同様にして、非学習型要素範囲推定処理を行って、ラベル付き拡張事例データを出力する。
【００７０】
複数の特徴抽出器６４は、複数の非学習型要素範囲推定器６３と１対１に対応している。各特徴抽出器６４は、対応する非学習型要素範囲推定器６３が出力したラベル付き拡張事例データを用いて、第１の実施の形態と同様にして、ラベル付き特徴ベクトルを生成する特徴抽出処理を行う。特徴統合器６６は、複数の特徴抽出器６４が各々生成したラベル付き特徴ベクトルを統合する。統合の方法としては、例えば、各ラベル付き特徴ベクトルの各要素値が２値ならば、要素毎に各要素値の論理和（or）を取る、各要素値が実数ならば、要素毎に各要素値の平均を取る等の方法が考えられる。統合された結果は、ラベル付き特徴ベクトルであり、第１の実施の形態と同様のデータ形式で表現される。
【００７１】
２値学習器６５は、特徴統合器６６が統合したラベル付き特徴ベクトルを用いて、共参照解析の傾向や共参照の頻出するパターンを学習して、学習の結果得られた重みベクトルを出力する。
【００７２】
判定処理部７０は、ペアワイズ事例生成器７１と、非学習型要素範囲推定器７２と、特徴抽出器７３と、２値判定器７４とに加え、特徴統合器７５を更に有する。特徴統合器７５は、共参照解析装置５０の有する主記憶部や補助記憶部に記憶されたプログラムモジュールであり、共参照解析装置５０の有するＣＰＵが当該プログラムモジュールを実行することにより後述の機能が実現される。また、判定処理部７０は、非学習型要素範囲推定器７２と、特徴抽出器７３とを各々複数有する。同図の例では、各々２つが示されているが、本実施の形態においては、この限りではない。
【００７３】
ペアワイズ事例生成器７１の機能は第１の実施の形態と同様である。複数の非学習型要素範囲推定器７２はそれぞれ、ペアワイズ事例生成器７１が生成したラベルなし事例データの入力を受け付け、第１の実施の形態と同様にして、ラベルなし事例データを用いて非学習型要素範囲推定処理を行って、ラベルなし拡張事例データを出力する。
【００７４】
複数の特徴抽出器７３は、複数の非学習型要素範囲推定器７２と１対１に対応している。各特徴抽出器７３は、対応する非学習型要素範囲推定器７２が出力したラベルなし拡張事例データを用いて、第１の実施の形態と同様にして、ラベルなし特徴ベクトルを生成する特徴抽出処理を行う。特徴統合器７５は、複数の特徴抽出器７３が各々生成したラベルなし特徴ベクトルを統合する。統合の方法は、学習処理部６０の特徴統合器６６が行う統合の方法と同様である。尚、統合された結果は、ラベルなし特徴ベクトルであり、第１の実施の形態と同様のデータ形式で表現される。
【００７５】
２値判定器７４は、特徴統合器７５が統合したラベルなし特徴ベクトルを用いて、上述の学習処理部６０が出力した重みベクトルを用いて、ラベルを判定し、判定したラベルを出力する。
【００７６】
次に、共参照解析装置５０の有する学習処理部６０が行う学習処理の手順について図９を用いて説明する。ステップＳ１〜Ｓ２は第１の実施の形態と同様である。ステップＳ１〜Ｓ２の後、学習処理部６０は、ステップＳ１で生成したラベル付き事例データと、ステップＳ２で生成したラベル付き事例データとを用いて、複数の非学習型要素範囲推定器６３のそれぞれの機能により、非学習型要素範囲推定処理を各々行う（ステップＳ３ａ〜Ｓ３ｂ）。非学習型要素範囲推定処理の方法は、第１の実施の形態と同様である。但し、複数の非学習型要素範囲推定器６３が先行詞及び照応詞における前方領界を推定する際に用いる所定のルールが、複数の非学習型要素範囲推定器６３のそれぞれで異なる。その後、学習処理部６０は、ステップＳ３ａ〜Ｓ３ｂで各々出力したラベル付き拡張事例データを用いて、複数の特徴抽出器６４のそれぞれの機能により、特徴ベクトルを生成する特徴抽出処理を各々行う（ステップＳ４ａ〜Ｓ４ｂ）。この特徴抽出処理は、第１の実施の形態と同様である。次いで、学習処理部６０は、ステップＳ４ａ〜４ｂで各々出力した複数のラベル付き特徴ベクトルを、特徴統合器６６の機能により、統合する（ステップＳ６）。統合した結果、ステップＳ４ａ〜４ｂで各々出力されたラベル付き特徴ベクトルと同様のデータ形式で表現されるラベル付き特徴ベクトルが得られる。
【００７７】
そして、学習処理部６０は、ステップＳ６で統合した結果得られたラベル付き特徴ベクトルを含むラベル付き特徴ベクトル群を用いて、２値学習器６５の機能により、重みベクトルを学習し、学習の結果得られた重みベクトルを出力する（ステップＳ５´）。重みベクトルを学習する方法は、第１の実施の形態と同様である。
【００７８】
次に、判定処理部７０の行う判定処理の手順について図１０を用いて説明する。ステップＳ１０は第１の実施の形態と同様である。その後、判定処理部７０は、ステップＳ１０で生成した事例データを用いて、複数の非学習型要素範囲推定器７２のそれぞれの機能により、非学習型要素範囲推定処理を各々行う（ステップＳ１１ａ〜Ｓ１１ｂ）。非学習型要素範囲推定処理の方法は、第１の実施の形態と同様である。但し、複数の非学習型要素範囲推定器７２が先行詞及び照応詞における前方領界を推定する際に用いる所定のルールが、複数の非学習型要素範囲推定器７２のそれぞれで異なる。その後、判定処理部７０は、ステップＳ１１ａ〜Ｓ１１ｂで各々出力したラベルなし拡張事例データを用いて、複数の特徴抽出器７３のそれぞれの機能により、特徴ベクトルを生成する特徴抽出処理を各々行う（ステップＳ１２ａ〜Ｓ１２ｂ）。この特徴抽出処理は、第１の実施の形態と同様である。次いで、判定処理部７０は、ステップＳ１２ａ〜１２ｂで各々出力した複数のラベルなし特徴ベクトルを、特徴統合器７５の機能により、統合する（ステップＳ１４）。統合した結果、ステップＳ１２ａ〜１２ｂで各々出力されたラベルなし特徴ベクトルと同様のデータ形式で表現されるラベルなし特徴ベクトルが得られる。
【００７９】
そして、判定処理部７０は、ステップＳ１４で統合した結果得られたラベルなし特徴ベクトルを含むラベルなし特徴ベクトル群を用いて、２値判定器７４の機能により、上述の図９を用いて説明した学習処理で出力された重みベクトルを用いて、ラベルを判定し、判定したラベルを出力する（ステップＳ１３´）。この判定の方法は、第１の実施の形態と同様である。
【００８０】
以上のように、本実施の形態においては、学習処理部６０が、共参照関係を有する先行詞及び照応詞について前方境界を用いることなく後方境界を用いて学習処理を行うことで、判定処理部７０がユーザデータに対して共参照関係を有する先行詞及び照応詞についての後方境界を判定する精度を向上することができる。
【００８１】
更に、複数のルールのそれぞれに従って、前方境界の候補を複数推定し、後方境界と各前方境界とによって決定される形態素列毎に生成した特徴ベクトルを統合することで、より柔軟な共参照解析システムを提供することができる。
【００８２】
[第３の実施の形態]
次に、学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラムの第３の実施の形態について説明する。なお、上述の第１の実施の形態又は第２の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
【００８３】
本実施の形態においては、第１の実施の形態又は第２の実施の形態で説明した判定処理部７０の機能をアプリケーションに適用した例について説明する。このようなアプリケーションは、照応詞に対応する先行詞の後方境界のみを得ることができる。例えば、アプリケーションは、処理の対象である文章（テキスト）内のある名詞句について、その名詞句に対応する先行詞を探索する。上述の従来の技術欄では、自動要約アプリケーションが、処理対象の中の文に含まれている指示詞(例えば「これ」など)が指し示す名詞を探索するという応用例を挙げた。本実施の形態においては、このような応用例を実現するために必要な機能的構成を説明する。ここで、その機能的構成の概要について説明する。処理の対象となる文章及び照応詞の後方境界が入力されると、アプリケーションは、照応詞の近傍から順に先行詞の後方境界の候補として選択して、照応詞の後方境界及び先行詞の後方境界の候補を用いて、照応性の有無を判定する。もし共参照関係にないという結果が得られた場合は、アプリケーションは、共参照関係にあるという結果が得られるまで、文章の前方に向かって順に後方境界の候補を選択する。共参照関係があるという結果を得た後方境界が先行詞の後方境界を示している。または、もし文章の先頭までこの処理を行っても、共参照関係にあるという結果が得られなければ、即ち、先行詞は存在しないという結果を得ることになる。この際、得られる結果は、先行詞の後方境界のみである。もし先行詞の形態素列を得たい場合、アプリケーションは、当該文章において後方境界から前方へ向かって先行詞の前方境界を探索し、当該前方境界及び後方境界によって決定される先行詞の範囲がアプリケーションの目的（応用目的）と合致しているか否かを判定し、当該判定の結果に応じて、所望の形態素列（チャンク）を得る。
【００８４】
次に、アプリケーションを組み込んだアプリケーションシステムの機能的構成の詳細について図１１を用いて説明する。アプリケーションシステムは、先行詞後方境界候補出力器８１と、照応判定器８２と、先行詞形態素列推定器８３とを有する。同図においては、アプリケーションシステムに対して入力されるのは、テキスト及び照応詞の後方境界であり、アプリケーションシステムから出力されるのは、先行詞が見つかった場合の先行詞の前方領界及び後方境界である。上述の自動要約アプリケーションの場合、入力は、処理対象の文章又は文に相当し、出力は、文中に出てきた指示詞が相当する。
【００８５】
先行詞後方境界候補出力器８１は、テキスト及び照応詞の後方境界の入力を受け付け、当該テキスト及び照応詞の後方境界を用いて、照応判定器８２に照応性の有無を判定させるための先行詞後方境界の候補を出力する。先行詞後方境界候補出力器８１は、出力した先行詞後方境界の候補を記憶する前回位置記憶領域８５を有する。先行詞後方境界候補出力器８１は、後述の照応判定器８２及び先行詞形態素列推定器８３から送られた処理要求に応じて、前回位置記憶領域８５を参照して、先行詞後方境界の候補を出力する。
【００８６】
照応判定器８２は、上述した判定処理部７０の機能の全部又は一部を当該アプリケーションに適用したものである。照応判定器８２は、テキストと、当該テキストに対して入力された照応詞後方境界に対応する先行詞後方境界の候補として先行詞後方境界候補出力器８１が出力した形態素位置との入力を受け付け、当該テキスト及び先行詞後方境界の候補を用いて、上述の重みベクトルを用いて、照応性の有無を判定して、その判定の結果を２値で示す判定結果を出力する。具体的には、照応判定器８２は、照応性がないと判定した場合、「False」を示す判定結果を出力し、照応性があると判定した場合、「True」を示す判定結果を出力する。また、照応判定器８２は、照応性がないと判定した場合、先行詞後方境界候補出力器８１に処理要求を送り、照応性があると判定した場合、その形態素位置を先行詞後方境界として更に出力する。
【００８７】
先行詞形態素列推定器８３は、照応性があると判定した場合に出力された形態素位置が先行詞後方境界の入力を受け付け、当該先行詞後方境界を用いて、先行詞の範囲を決定するための先行詞前方境界を推定するものであり、応用別有効性評価判定プラグイン８４を有する。ここで、先行詞形態素列推定器８３は、この応用別有効性評価判定プラグイン８４の機能により、入力された先行詞後方境界を用いて、アプリケーションの目的に合致した先行詞の範囲を決定するための前方境界を推定する。応用別有効性評価判定プラグイン８４は、入力された先行詞後方境界及び推定した先行詞前方境界によって決定される先行詞の範囲がアプリケーションにとって有効か否かの判定を行うプラグインモジュールであり、アプリケーション毎に差し替えることが可能である。例として、当該先行詞が１０文字以内かどうかの判定処理を行うプラグインモジュール、当該先行詞がNGワードを含んでいないかどうかの判定を行うプラグインモジュールなどが挙げられる。応用別有効性評価判定プラグイン８４は、当該先行詞の範囲が有効でないと判定した場合、先行詞後方境界候補出力器８１に処理要求を送り、当該先行詞の範囲が有効であると判定した場合、当該先行詞後方境界及び先行詞前方境界を出力する。即ち、先行詞形態素列推定器８３は、応用別有効性評価判定プラグイン８４が有効であると判定した先行詞の範囲を決定付ける先行詞前方領界位置を、アプリケーションの目的に合致した先行詞の範囲を決定するための前方境界として推定する。
【００８８】
次に、本実施の形態に係るアプリケーションシステムが行う先行詞判定処理の手順について図１２を用いて説明する。アプリケーションシステムは、処理対象のテキスト及び照応詞後方境界の入力を受け付けると、まず、先行詞後方境界候補出力器８１の機能により、先行詞後方境界候補出力処理を行う(ステップＳ６０)。具体的には、先行詞後方境界候補出力器８１は、当該テキストにおいて当該照応詞後方境界の最近傍となる形態素の位置（形態素位置）を先行詞後方境界の候補として出力する。このとき、先行詞後方境界候補出力器８１は、出力した先行詞後方境界の候補を前回位置記憶領域８５に記憶させる。そして、先行詞後方境界候補出力器８１は、次回、照応判定器８２及び先行詞形態素列推定器８３のうちいずれか一方から処理要求が送られた場合（ステップＳ６１：ＹＥＳ）、ステップＳ６０の処理を行うが、このとき、ステップＳ６０では、前回位置記憶領域８５に記憶された形態素位置より１形態素だけ遠方にある位置（形態素位置）を先行詞後方境界の候補として出力する。尚、照応判定器８２及び先行詞形態素列推定器８３からの処理要求は連続的に送られ得る。連続的な処理要求が送られた際、先行詞後方境界候補出力器８１は、照応詞の後方境界から最近傍となる形態素位置から、最遠方の形態素位置までを順に先行詞後方境界の候補として出力することになる。ただし最遠方は、ここでは文章の先頭の形態素とする。このようにして、先行詞後方境界候補出力器８１は、ステップＳ６０の処理を繰り返し行うことで、当該テキストにおいて先行詞後方境界の候補としてまだ一度もその位置（形態素位置）を出力していない形態素の中で最近傍となる形態素の位置（形態素位置）を先行詞後方境界の候補として出力する。尚、文章の先頭の形態素の形態素位置を先行詞後方境界の候補として出力して以降処理要求が送られた場合は、先行詞後方境界候補出力器８１は、ステップＳ６０では、指定された照応詞に対応する先行詞はないことを意味する「NULL」を出力して処理を終了する。
【００８９】
尚、アプリケーションシステムは、ステップＳ６０を行って、先行詞後方境界の候補を出力する毎に、ステップＳ６２に進む。ステップＳ６２では、アプリケーションシステムは、入力されたテキストと、ステップＳ６０で先行詞後方境界の候補として出力した形態素位置とを用いて、照応判定器８２の機能により、照応性の有無を判定して、その判定の結果を２値で示す判定結果を出力する。このとき、照応判定器８２は、照応性がないと判定した場合（ステップＳ６３：ＮＯ）、「False」を示す判定結果を出力して、先行詞後方境界候補出力器８１に処理要求を送る(ステップＳ６４)。その後、ステップＳ６１に戻る。一方、照応判定器８２は、照応性があると判定した場合（ステップＳ６３：ＹＥＳ）、「True」を示す判定結果を出力すると共に、その形態素位置を先行詞後方境界として出力する(ステップＳ６５)。その後、ステップＳ６６に進む。
【００９０】
ステップＳ６６では、アプリケーションシステムは、ステップＳ６５で出力した先行詞後方境界を用いて、先行詞形態素列推定器８３の機能により、先行詞形態素列推定処理を行う。具体的には、先行詞形態素列推定器８３は、ステップＳ６５で出力した先行詞後方境界を用いて、先行詞の範囲を決定するための前方境界を推定し、応用別有効性評価判定プラグイン８４の機能により、推定した前方境界及びステップＳ６５で出力された先行詞後方境界によって決定される先行詞の範囲が有効であるか否かを判定する。ここで、アプリケーションシステムが先行詞形態素列推定器８３及び応用別有効性評価判定プラグイン８４の機能により行う処理の詳細な手順について図１３を用いて説明する。先行詞形態素列推定器８３は、ステップＳ６５で出力された先行詞後方境界iと同じ位置に形態素位置jをセットする(ステップＳ７０)。jは先行詞の前方境界（先行詞前方境界）の候補を示している。次いで、先行詞形態素列推定器８３は、形態素位置jを１つ前方の形態素位置へ移動させる（ステップＳ７１）。先行詞形態素列推定器８３は、jが文章先頭の形態素位置であるか否かを判定し（ステップＳ７２）、jが文章先頭の形態素位置である場合（ステップＳ７２：ＹＥＳ）、"No Match"を出力する。その後、アプリケーションシステムが行う処理は図１２のステップＳ６０に戻る。一方、jが文章先頭の形態素位置でない場合（ステップＳ７２：ＮＯ）、先行詞形態素列推定器８３は、iとjとで決定される先行詞の範囲を応用別有効性評価判定プラグイン８４に出力し、応用別有効性評価判定プラグイン８４が、当該先行詞の範囲に対して有効性の有無を判定する（ステップＳ７３）。ここで、応用別有効性評価判定プラグイン８４が、当該先行詞の範囲が有効でないと判定した場合（ステップＳ７４：ＮＯ）、ステップＳ７１に戻る。一方、応用別有効性評価判定プラグイン８４が、当該先行詞の範囲が有効であると判定した場合（ステップＳ７４：ＹＥＳ）、当該先行詞後方境界及び先行詞前方境界を出力する（ステップＳ７５）。
【００９１】
このように、本実施の形態によれば、アプリケーションの目的に合致した先行詞の範囲を推定して出力することができる。
【００９２】
[変形例]
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【００９３】
上述した各実施の形態において、共参照解析装置５０で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供するように構成しても良い。
【００９４】
上述した各実施の形態において、学習処理部６０として機能する情報処理装置を学習処理装置とし、判定処理部７０として機能する情報処理装置を判定装置として共参照解析システムが構成されるようにしても良い。この場合、重みベクトルは、例えば、通信Ｉ／Ｆを介した通信により判定装置が学習装置から受信して記憶するようにしても良いし、記憶媒体や操作入力を介したユーザの操作入力に応じて判定装置に記憶されるようにしても良い。
【００９５】
上述した各実施の形態においては、共参照を解析する共参照解析を例に挙げて説明したが、これに限らず、ゼロ照応や、連想照応などの他の照応を解析する照応解析についても、上述した各実施の形態にかかる共参照解析装置５０を適用可能である。
【００９６】
上述した各実施の形態においては、共参照解析装置５０の有する学習処理部６０の有する各器は、上述の例に限らず、また、いずれか１つ以上が組み合わされて構成されても良いし、各器のいずれか１つによって実現される機能が複数のモジュールによって実現されるようにしても良い。判定処理部７０についても同様である。
【００９７】
上述した各実施の形態においては、後方境界や前方境界は形態素単位で指定されるものとしたが、これに限らず、例えば、文字単位で指定されても良い。
【符号の説明】
【００９８】
５０共参照解析装置
６０学習処理部
６１ペアワイズ正例生成器
６２ペアワイズ負例生成器
６３非学習型要素範囲推定器
６４特徴抽出器
６５２値学習器
６６特徴統合器
７０判定処理部
７１ペアワイズ事例生成器
７２非学習型要素範囲推定器
７３特徴抽出器
７４２値判定器
７５特徴統合器
８１先行詞後方境界候補出力器
８２照応判定器
８３先行詞形態素列推定器
８４応用別有効性評価判定プラグイン
８５前回位置記憶領域

【特許請求の範囲】
【請求項１】
文章と、前記文章内で照応関係を有する各要素の後方境界と、先行詞となる第１の要素及び照応詞となる第２の要素の対応関係とを示す第１のデータの入力を受け付ける入力受付部と、
前記第１のデータに基づいて、所定のルールに従って、前記第１の要素及び前記第２の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第１の要素の範囲及び前記第２の要素の範囲を各々推定する推定部と、
前記第１の要素の範囲及び前記第２の要素の範囲に基づいて、任意の文章において照応関係の有無を判定するための判定基準を学習する学習部とを備える
ことを特徴とする学習装置。
【請求項２】
前記第１のデータを用いて、前記第１の要素の後方境界及び前記第２の要素の後方境界を示す第２のデータと、互いに照応関係にない第３の要素の後方境界及び第４の要素の後方境界を示す第３のデータとのうち少なくとも一方を生成する第１生成部と、
前記第２のデータ及び前記第３のデータのうち少なくとも一方に基づいて、特徴ベクトルを生成する第２生成部を更に備え、
前記学習部は、前記特徴ベクトルを用いて、機械学習により、前記判定基準を学習する
ことを特徴とする請求項１に記載の学習装置。
【請求項３】
前記推定部は、前記第２のデータ及び前記第３のデータのうち少なくとも一方を用いて、前記所定のルールに従って、前記第１の要素及び前記第２の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第１の要素の範囲及び前記第２の要素の範囲を各々推定し、
前記第２生成部は、前記第１の要素の範囲及び前記第２の要素の範囲を用いて、前記特徴ベクトルを生成する
ことを特徴とする請求項２に記載の学習装置。
【請求項４】
各々異なる前記所定のルールに従って、前記前方境界を推定することにより、前記範囲を推定する複数の前記推定部と、
各前記推定部が各々推定した前記第１の要素の範囲及び前記第２の要素の範囲を用いて、前記特徴ベクトルを各々生成する複数の前記第２生成部と、
複数の前記特徴ベクトルを統合する統合部を更に備え、
前記学習部は、統合された前記特徴ベクトルを用いて、機械学習により、前記判定基準を学習する
ことを特徴とする請求項３に記載の学習装置。
【請求項５】
文章と、前記文章内で照応関係を有する可能性のある各要素の後方境界とを示す第１のデータの入力を受け付ける入力受付部と、
前記第１のデータに基づいて、所定のルールに従って、各前記要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、各前記要素の範囲を各々推定する推定部と、
各前記要素の範囲に基づいて、所定の判定基準に従って、各前記要素の照応関係の有無を判定する判定部とを備える
ことを特徴とする判定装置。
【請求項６】
前記第１のデータを用いて、先行詞の候補となる第１の要素の後方境界及び照応詞の候補となる第２の要素の後方境界を示す第２のデータを生成する第１生成部と、
前記第２のデータに基づいて、特徴ベクトルを生成する第２生成部を更に備え、
前記判定部は、前記特徴ベクトルを用いて、前記所定の判定基準に従って、機械学習により、前記第１の要素及び第２の要素の照応関係の有無を判定する
ことを特徴とする請求項５に記載の判定装置。
【請求項７】
2-1-1(固有の入力に必要な固有処理の1例に言及する2-1装置)
前記推定部は、前記第２のデータを用いて、前記所定のルールに従って、前記第１の要素及び前記第２の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第１の要素の範囲及び前記第２の要素の範囲を各々推定し、
前記第２生成部は、前記第１の要素の範囲及び前記第２の要素の範囲を用いて、前記特徴ベクトルを生成する
ことを特徴とする請求項６に記載の判定装置。
【請求項８】
各々異なる前記所定のルールに従って、前記第１の要素の範囲及び前記第２の要素の範囲を各々推定する複数の前記推定部と、
各前記推定部が各々推定した前記第１の要素の範囲及び前記第２の要素の範囲を用いて、前記特徴ベクトルを各々生成する複数の前記第２生成部と、
複数の前記特徴ベクトルを統合する統合部を更に備え、
前記判定部は、統合された前記特徴ベクトルを用いて、前記所定の判定基準に従って、機械学習により、前記第１の要素及び第２の要素の照応関係の有無を判定する
ことを特徴とする請求項７に記載の判定装置。
【請求項９】
2-2(当判定装置のラッパー:先行詞探索器)
文章及び前記文章内で照応関係を有する可能性のある照応詞となる要素の第１の後方境界の入力を受け付ける入力受付部と、
前記文章において前記第１の後方境界より前方に位置する先行詞の候補となる要素の第２の後方境界を探索する探索部と、
前記文章と、前記第２の後方境界とを用いて、照応性の有無を判定し、照応性があると判定した場合、前記第２の後方境界を先行詞の後方境界として出力し、前記文章において前記第１の後方境界より前方に位置するいずれの要素の前記第２の後方境界についても照応性がないと判定した場合、前記照応詞に対応する先行詞がないことを示す判定結果を出力する第１判定処理部とを備える
ことを特徴とする判定装置。
【請求項１０】
前記先行詞の後方境界を用いて、前記文章において前記先行詞の後方境界より前方に位置する前記先行詞の前方境界を推定する推定部と、
前記先行詞の後方境界と前記先行詞の後方境界との間に存在する１つ以上の形態素を含む形態素列に対して、応用目的に応じて、有用性を判定する第２判定処理部と、
前記第２判定処理部の判定の結果に応じて、前記形態素列を先行詞として出力する出力部とを更に備える
ことを特徴とする請求項９に記載の判定装置。
【請求項１１】
入力受付部と、推定部と、学習部とを備える学習装置で実行される学習方法であって、
前記入力受付部が、文章と、前記文章内で照応関係を有する各要素の後方境界と、先行詞となる第１の要素及び照応詞となる第２の要素の対応関係とを示す第１のデータの入力を受け付ける入力受付ステップと、
前記推定部が、前記第１のデータに基づいて、所定のルールに従って、前記第１の要素及び前記第２の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第１の要素の範囲及び前記第２の要素の範囲を各々推定する推定ステップと、
前記学習部が、前記第１の要素の範囲及び前記第２の要素の範囲に基づいて、任意の文章において照応関係の有無を判定するための判定基準を学習する学習ステップとを含む
ことを特徴とする学習方法。
【請求項１２】
入力受付部と、推定部と、判定部とを備える判定装置で実行される判定方法であって、
前記入力受付部が、文章と、前記文章内で照応関係を有する可能性のある各要素の後方境界とを示す第１のデータの入力を受け付ける入力受付部と、
前記推定部が、前記第１のデータに基づいて、所定のルールに従って、各前記要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、各前記要素の範囲を各々推定する推定ステップと、
前記判定部が、各前記要素の範囲に基づいて、所定の判定基準に従って、各前記要素の照応関係の有無を判定する判定ステップとを含む
ことを特徴とする判定方法。
【請求項１３】
コンピュータを、
文章と、前記文章内で照応関係を有する各要素の後方境界と、先行詞となる第１の要素及び照応詞となる第２の要素の対応関係とを示す第１のデータの入力を受け付ける入力受付手段と、
前記第１のデータに基づいて、所定のルールに従って、前記第１の要素及び前記第２の要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、前記第１の要素の範囲及び前記第２の要素の範囲を各々推定する推定手段と、
前記第１の要素の範囲及び前記第２の要素の範囲に基づいて、任意の文章において照応関係の有無を判定するための判定基準を学習する学習手段と
して機能させるための学習プログラム。
【請求項１４】
コンピュータを、
文章と、前記文章内で照応関係を有する可能性のある各要素の後方境界とを示す第１のデータの入力を受け付ける入力受付手段と、
前記第１のデータに基づいて、所定のルールに従って、各前記要素のそれぞれについて、前方境界を推定することにより、前記前方境界及び前記後方境界によって決定される、各前記要素の範囲を各々推定する推定手段と、
各前記要素の範囲に基づいて、所定の判定基準に従って、各前記要素の照応関係の有無を判定する判定手段と
して機能させるための判定プログラム。

【図１】