説明

係り受け解析支援装置

【課題】 長文の係り受けを人手のインタラクションによって正確に効率的に決定するための係り受け解析支援装置を提供する。
【構成】 文を句読点によって分割し、分割された部分に対して形態素解析および構文解析を行い、各部分の係り受け解析結果を目視確認し、間違っているところがあれば、予め用意している規則集合から別の係り受け規則を選択することを繰り返し、正しい係り受け解析を行い、各部分の係り受け解析を終了すると、分割された部分間の係り受け解析を行い、部分間の係り受け解析結果を目視確認し、間違っているところがあれば、予め用意している規則集合から別の係り受け規則を選択することを繰り返し、正しい部分間の係り受け解析を行うことが出来る係り受け解析支援装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語の長文の係り受け解析に適した係り受け解析支援装置に関する。
【背景技術】
【0002】
機械翻訳や自然言語理解等の自然言語の応用に係るシステムでは、入力となる自然言語を正しく解析する必要がある。
【0003】
通常、日本語の解析は、単語レベルを切り出して品詞を決定し、文節にまとめる形態素解析と、文節間の係り受け関係を決定する構文解析が行われる。それらの処理が終わると更に文節間の意味的な関係を抽出する意味解析が行われることもある。係り受けの組み合わせ数は、文節数が増えると、粗く見積もると文節数の階乗になる。もちろん制約条件があるため実際は少なくなるが、文節数が10を超えると非常に困難になるといわれている。現状の日本語解析では、係り受け解析の精度を実用レベルに高めることが重要な課題となっている。
【0004】
これまで、その目標に向けて多くの試みが行われてきた。[特許文献1]では、文中の述語に着目してその述語を中心にグループ化可能なパターンを規則を用いて抽出し、そのグループで解析を行い、続いてグループ間の係り受けを規則を用いて行っている。[特許文献2]では、文の意味的な陳述単位をパターン化して、それを元に文を構造化する方法である。長文となる一つの要因は、並列句を含む場合であり、例えば、[非特許文献1]では、文中の語の並びの類似性に着目して並列句を抽出する方法を開発している。また、[特許文献3]では、長文が多い特許請求項に対し、請求項の記載パターンを抽出して、それをベースに請求項の解析を行っている。[特許文献4]では、機械翻訳の前編集として、長文を分割する方法を開示している。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】 特開平07−056919号
【特許文献2】 特開平06−295308号
【特許文献3】 特許第3908261号
【特許文献4】 特開平08−87504号
【非特許文献】
【0006】
【非特許文献1】 「並列構造の検出に基づく長い日本語文の構文解析」,黒橋禎夫,長尾眞,自然言語処理,Vol.1,No.1,pp.35−58,1994年
【発明の概要】
【発明が解決しようとする課題】
【0007】
以上に述べた従来の係り受け解析では、次のような問題点が存在する。[特許文献1]の方法では、あらかじめ蓄積した述語パターンから述語を切り出すことが必要で、それが正しく行えるという保証がなされていないため高精度な解析が得られる保証が示されていない。[特許文献2]も、自然言語文をカバーする文脈パターンを収集することが難しく、一般文章で利用できるという保証は示されていない。[非特許文献1]の並列句による長文の解析精度の向上は、一般的な日本語文には並列句の解析だけでは解消できない長文が存在するため問題が残されている。また、[特許文献3]は、特許の請求項といった限定した文章に対するものであり、一般の日本語の長文解析への適用は保障されていない。[特許文献4]は、長文の分割点を見つけるために分割パターンを特定することを行うが、そもそも分割点の特定が長文を対象にした処理であるため、係り受けの選択工数が減らないので、難しいといわざるを得ない。
【課題を解決するための手段】
【0008】
本発明は、上記目的を達成するため、長文を句読点によって複数の「部分」と呼ぶ短い単位に分割して各部分内の係り受けを解析し、その後、部分間の係り受けを解析する2段階からなる係り受け解析支援手段を提供するものである。
【0009】
解析精度を高めるために、部分内の解析結果および部分間の解析結果を構文木等で分かり易く提示し、それをユーザが目視で確認し、もし、間違った係り受けがあれば、係り側の文節を指定することで、当該文節の受け側文節になる他の文節候補を提示し、或は他の規則集合を選択することで当該規則が指定する受け側文節を提示し、いずれかの提示でも間違っているときは新たな候補を選択する手段を繰り返し提供する。また、前記選択する規則を優先度に従って提示する手段を提供することもできる。
【発明の効果】
【0010】
本発明の係り受け解析支援装置は、長文に対して、文を短く分割することでその部分の解析精度を高めることができ、かつ分割された部分および部分間の正確な解析を保証するため、全体として長文の係り受け解析精度を実用レベルに高めることができる。
【0011】
また、目視による確認および訂正が必要な場合は受け側文節の選択、係り受け規則の選択、或は文の編集を行うが、規則の適用を学習することにより係り受け規則の選択件数が減少し、人手訂正作業の負荷が漸次逓減することが期待できる。
【図面の簡単な説明】
【0012】
【図1】 係り受け解析支援装置の全体構成図
【図2】 文の部分解析結果の表現例と係り受け解析の対応模式図
【図3】 文の係り受け解析の概略ステップ図
【図4】 係り受け解析支援の操作キー一覧図
【図5】 係り受け解析支援の入力例文図
【図6】 例文の文分割結果図
【図7】 部分内の係り受け解析結果図
【図8】 部分間の係り受け解析結果図
【図9】 主文節に合致する部分間係り受け規則例図
【図10】 他の部分間係り受け規則の選択後図
【図11】 選択された規則で得られた係り受け解析結果図
【図12】 部分間係り受け解析結果の途中画面図
【図13】 1文の係り受け解析支援終了の解析結果画面図
【図14】 部分内係り受け訂正説明図
【図15】 非文の解析例図
【図16】 部分内係り受け解析規則集合の例
【図17】 部分間係り受け解析規則集合の例
【発明を実施するための形態】
【実施例1】
【0013】
請求項1の実施例について説明する。
【0014】
図1は、本実施例における係り受け解析支援装置のハードウェアおよびその記憶装置内のデータおよびプログラム構成を示す。1は中央処理装置と記憶装置を含む計算機である。2は表示装置、3はキーボード、4はマウス等のポインティングデバイスである。図では1、2、3、4は独立して描かれているが、タッチパネル式の一体型計算機であってもよい。10は記憶装置の主たる構成要素を示すもので、入力文章を格納する入力バッファ11と、解析結果を格納する出力バッファ12と、文を部分に分割するプログラムである文の部分への分割部13と、形態素解析及び構文解析を実行するプログラムである形態素解析・構文解析部14と、部分内の指定された文節の係り受け解析を行うプログラムである部分内係り受け解析部15と、当該部分内係り受け解析を行うときに使用する部分内係り受け解析規則集合16と、部分間の係り受け解析を行うプログラムである部分間係り受け解析部17と、当該部分間の係り受け解析を行うときに使用する部分間係り受け解析規則集合18と、規則の追加、更新および優先度を管理するプログラムである係り受け規則管理部19とを含む。
【0015】
図16は部分内係り受け解析規則集合16の一部を例示し、図17は部分間係り受け解析規則集合18の一部を例示する。両方の構成の形式は同じであり、係り側50、53と受け側51、54と係り受け関係52、55からなる。係り側の文節と受け側の文節が規則に一致するとその2つの文節間で係り受け関係が成立する。図16の‘IR#i’および図17の‘OR#j’は内部的なインデックスである。規則の中の‘<>’および‘[ ]’は品詞や記号を示すマーカである。文字列はそのままで記述されている。この規則の表現形式や規則の記述方法はこれに限定したものではない。また、規則の表のカラムを拡張して、規則を管理するための情報を付加することも可能である。
【0016】
図2は、文S#nを句読点で区切られた単語列からなる部分に分割したデータ構造の概念図である。文は′{ }‘で囲まれており、Sn#i(この例では。iは1から3の値をとっている。)は、分割されたi番目の部分を示す。部分であるためには区切られた単語列が、次の条件を満たすものに限定したものとする。すなわち、係り受けには非交差原理が適用されるとして、一つは、部分内の解析は閉じていること。つまり、当該部分内から外部の部分に出る係り受け関係は1つだけであること。もう一つは、外部の部分から当該部分内の単語に係る係り受け関係は複数個を認めることである。外部の部分からの係り受けがない場合も認める。また、部分内の主文節は機能語あるいは付属語と呼ばれるものを含んでいるものとする。主文節とは部分内で他の文節に係らない文節で、日本語では部分の右端の文節が主文節となる。従って、最初の条件は主文節のみが外部の部分を修飾する文節であるといえる。また、図2に示す部分内係り受け解析20および部分間係り受け解析21については後ほど説明する。各Sn#i部分内係り受け解析22、23、24から出ている矢印の先の‘{ }’で括られたところは空白になっているが、ここには形態素解析および構文解析に依存した解析結果を記録するが、特定の表現に限定されるものではない。係り受け解析では、係り受けの修飾を木構造で表現することが多い。各Sn#i部分間係り受け解析25、26から出ている矢印の先の‘[ ]’で括られたところには当該部分の主文節の係り受け情報を記載する。
【0017】
図3は係り受け解析支援の概略のステップを示す。部分内係り受け解析する処理と部分間係り受け解析する処理に分かれる。先ず、処理対象の文が入力バッファ11に存在するとする。文は複数存在しても良い。部分に分割31では、各々の文に対して句読点で部分に分割する。するとn番目の入力文S#nは部分Sn#1、Sn#2、Sn#3等に分割される。部分内の形態素解析・構文解析32では、各Sn#iに対して形態素解析・構文解析部14で処理して、係り受け構造を出力する。部分内の解析結果の確認および必要なら訂正33では、部分の解析結果を目視で確認し、文法的な不正を検出したら、文を編集するモードに移る。もし不正がなければ、各部分の解析が正しく行われたどうかをSn#1から順に目視で確認する。もし、係り受けで間違いが見つかると係り側の文節を指定して別の受け側の文節候補を提示する。以上で、部分内の解析が終了すると、部分間の解析結果の確認および必要なら訂正34では、主文節毎に部分間の係り受け解析を行い、この係り受けの確認は部分内と同様のやり方で行い、係り受けのやり直しや文の編集を行う。
【0018】
図4は、係り受け解析支援の操作で押下するキーの一覧を示す。この図ではタスクバー様式やタスクメニュー様式を想定して記入しているが、キーボードに割り付けても良い。キーの機能の概要を示す。[文分割]は文を分割する。[部分内解析]は前記分割された部分内の形態素解析・構文解析を実行する。[部分間解析]は部分間の係り受けを解析する。[係り受け]は指定した文節の係り受けを行う。[次係先候補]は受け側文節の新たな候補を探す。[部分内前進]は受け側の文節を1つ先に強制的に移動するもので、移動範囲は部分内に限定される。[部分内後退]は[部分内前進]とは逆の操作で受け側の文節を1つ元に戻す。[部分間前進]は部分間の係り受け解析において受け側の文節を次の部分の主文節に移動する。[部分間後退]は[部分間前進]とは逆の操作で受け側の主文節を前の部分の主文節に戻す。[編集モード]は係り受け解析を中断して文の編集モードに移動する。[確定]は現在解析済みの係り受け関係を表示する。
以上のキーはこれらに限定したものではなく、インタフェース用にファイルのRead/Writeを追加したり、キーの機能を組み合わせて新たな複合キーを追加することもできる。
【0019】
図3のステップ31〜34を図5〜図13を参照しながら例文によって係り受け解析支援装置の画面を例示しながら詳細に示す。先ず、部分に分割31では、[文分割]を押下して入力バッファの文章を句読点により部分に分割する。図6に図5の入力例文の分割結果の画面を示す。次に部分内の形態素解析・構文解析32では、[部分内解析]を押下することで前記分割された部分に対して形態素解析・構文解析部14を実行する。ここで[確定]を押下すると図7に示す部分内解析結果の構文木が表示される。この表示方法はこれに限定したものではない。部分内の解析結果の確認および必要なら訂正33では、先ず、前記部分内解析結果を目視で確認する。この例文の部分は全て正しく解析が行われているので次に進む。部分間の解析結果の確認および必要なら訂正34では、先ず[部分間解析]を押下すると部分間係り受け解析部17が起動し、部分間係り受け解析規則集合18を用いて部分間の係り受け解析が実行される。ここで[確定]を押下すると図8に示す文の解析結果の構文木が表示される。当該解析結果の表示を目視で確認し、Sn#2、Sn#3の部分間の係り受けで失敗が見つかる。以下、係り受けの失敗の訂正を示す。Sn#2の主文節「後で、」にカーソルを置き、[係り受け]を押下すると合致する規則集合の一部が、図8に示されている。下線部分OR#8は現在選択された規則であるが、この正解は「下がり、」に係るので、それに合致する規則OR#9に進めるため[係り受け]を押下する。その結果として図10に示す「後、→Ss3下がり、[時間After]」が得られる。ここで[確定]を押下すると木構造図11が表示される。
【0020】
図8のもう一つの失敗の箇所Sn#3の主文節「下がり、」にカーソルを置き、カーソルを置き、[係り受け]を押下すると合致する規則集合の一部が表示される。図17のOR#1、OR#2、OR#3である。OR#1は現在選択された規則であるが、正しい係り受けは「崩れる、」に係るので、それに合致する規則OR#3を選択するため[係り受け]を2回押下する。その結果として「下がり、→Ss4崩れる[連用中止]」が得られる。ここで[確定]を押下すると図13にこれまで解析した木構造が表示される。これで、2つの係り受けの失敗が解消され、正しい係り受けが得られた。この結果は、出力バッファー12に格納される。
【0021】
上記の例題では出現しなかった部分内の係り受け解析で失敗した場合の訂正の具体例を示す。図14は部分内の係り受け解析が間違った例であり、41を訂正するには2つのやり方がある。1つは、[次係先候補]を押下して、同じ規則に合致する次の文節を見つけることで、この場合、「経済の」は、名詞「一刻」を修飾しているが、[次係先候補]の押下により、次の名詞「回復」に係るようになる。或は強制的に[部分内前進]や[部分内後退]によって正しい受け側の文節に到達することができる。もう一つは、規則の選択を変えることで、この場合は、[係り受け]を押下すると、この係り側の文節に合致する規則集合の一部IR#2、IR#3が42に示されているので、IR#3を選択することで同じように「回復」に係るようになる。何れの方法でも、[確定]を押下すると、43のように正しくなる。
【0022】
もう一つの失敗例は、部分の条件に反する分割が生じたときであり、図15にその例を示す。部分の例「ここで述べた安全機能は情報システムの信頼性の評価においても、」44を解析すると、45は46を修飾しているが、45は外部の部分を修飾するもので、部分内の解析は閉じているという条件に違反するため、文法的な間違いとなり、この文を編集する[編集モード]を押下することで、係り受けを中断して、文の編集を行う。
【実施例2】
請求項2および請求項3の実施例について説明する。
【0023】
係り受けの解析処理として部分内と部分間の2つの係り受け解析をそれぞれ図8および図9を用いて規則を適用するが、どちらの規則集合も係り受けに対する係り側の文節に合致する規則を適用するということで類型的である。部分内および部分間の係り受け規則を多くの例文により蓄積して行くことで一つの文節に合致する係り受けの規則数が増えることになるが、係り受けの規則の提示順序に優先度を適用することでこの問題点を回避する。例えば、最近使用した規則を最優先で提示する、過去の係り受け解析および特定分野のテキストの係り受け解析により蓄積した頻度データや統計データを優先させる、ユーザ毎の履歴を利用するとかである。優先度の選択は係り受け解析の対象分野や語彙・文法カテゴリに依存するので、係り受け規則管理部19で種々の優先度を規則毎に管理し、利用者に優先度を指定できるようにしておくことで規則の提示順序を学習可能なようにし、目視作業による係り受け訂正作業の負荷を逓減させる。
【0024】
なお、以上の実施例1、2においては日本語文を例にして述べたが、これは必ずしも日本語に限るものではなく、係り受け解析が行える自然言語であれば共通に適用できるものである。
【産業上の利用可能性】
【0025】
本発明は長文における高精度の解析結果が保証される自然言語処理システムを提供できるため、機械翻訳および自然言語理解システム等の広範囲な自然言語処理応用の実用化につながる。また、文を短い単位に分割して解析するため、文法的な間違いが見つけやすくなり文章校正支援にも利用することが出来る。
【符号の説明】
【0026】
1 中央処理装置と記憶装置を含む計算機
2 表示装置
3 キーボード
4 ポインティングデバイス
10 記憶装置の主たる構成要素
11 入力バッファ
12 出力バッファ
13 文の部分への分割部
14 形態素解析・構文解析部
15 部分内係り受け解析部
16 部分内係り受け解析規則集合
17 部分間係り受け解析部
18 部分間係り受け解析規則集合
19 係り受け解析規則管理部
20 部分内係り受け解析の説明用見出し
21 部分関係り受け解析の説明用見出し
22 Sn#1部分内係り受け解析
25 Sn#1部分間係り受け解析
31 部分に分割するステップ
32 部分内の形態素解析・構文解析するステップ
33 部分内の解析結果の確認および必要なら訂正するステップ
34 部分間の係り受け解析および解析結果の確認および必要なら訂正するステップ
40 係り受け訂正説明の入力例文
41 係り受け訂正説明の入力例文の解析結果
42 部分間係り受け規則の選択画面
43 選択規則で係り受け解析結果の画面
44 非文となる例文
50 部分内係り受け解析規則の係り側文節の記述カラム
51 部分内係り受け解析規則の受け側文節の記述カラム
52 部分内係り受け解析規則の係り受け関係カラム
53 部分間係り受け解析規則の係り側文節の記述カラム
54 部分間係り受け解析規則の受け側文節の記述カラム
55 部分間係り受け解析規則の係り受け関係カラム

【特許請求の範囲】
【請求項1】
文を句読点で分割し、分割された部分に対し形態素解析および係り受け解析を行い、各部分の係り受け解析の結果を目視で確認し、係り受け解析が間違っている文節があれば、その係り受けを訂正するかそれとも文を編集するかをユーザが判断し、もし文を編集するときは、係り受け解析を中断し、文を編集する編集モードに入り、もし係り受けを訂正するときは最近適用したのと同じ規則に合致する次の係り受け候補を探すか、予め用意している規則集合から別の係り受け規則をユーザに提示して選択できるようにし、それでも係り受けが間違っているときはさらに別の係り受け規則を選択することを繰り返すか或は選択途中の任意の段階で強制的に受け側文節を指定するかして正しい係り受けを決定し、各部分の係り受け解析が正しく終了したとユーザが判断したら、分割された部分間の係り受け解析を予め用意している規則集合を用いて行い、その部分間の係り受け解析結果を目視で確認し、係り受け解析が間違っている文節があれば、その係り受けを編集するかそれとも文を編集するかをユーザが判断し、もし文を編集するときは、係り受け解析を中断し、文を編集する編集モードに入り、もし係り受けを訂正するときは最近適用したのと同じ規則に合致する次の係り受け候補を探すか、予め作成している規則集合から別の係り受け規則をユーザに提示して選択できるようにし、それでも係り受けが間違っているときはさらに別の係り受け規則を選択することを繰り返すか或は選択途中の任意の段階で強制的に受け側文節を指定するかして正しい係り受けを決定し、全ての部分間の係り受け解析が正しくなるように支援することを特徴とする係り受け解析支援装置。
【請求項2】
前記分割された部分を対象にした係り受け規則の選択において、優先度を考慮して規則を提示することを特徴とする請求項1記載の係り受け解析支援装置
【請求項3】
前記分割された部分間を対象にした係り受け規則の選択において、優先度を考慮して規則を提示することを特徴とする請求項1記載の係り受け解析支援装置

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2012−185790(P2012−185790A)
【公開日】平成24年9月27日(2012.9.27)
【国際特許分類】
【出願番号】特願2011−63173(P2011−63173)
【出願日】平成23年3月4日(2011.3.4)
【出願人】(508155767)
【Fターム(参考)】