文書処理装置及びプログラム
【課題】曖昧文を検出する際に、過剰検出や不適切な指摘内容の発生を低減させ、曖昧文の検出精度を向上できる。
【解決手段】実施形態の構文解析手段は、前記入力を受け付けた文を構文解析し、構文解析結果を得る。実施形態の抽出手段は、この構文解析結果に基づいて、前記場合に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する。実施形態の関係情報補正手段は、前記構文解析結果及び前記関係情報補正ルールに基づいて、前記係り受け情報が前記第1乃至第4の関係のいずれかに該当するか否かを検査すし、該当する係り受け情報に対して、前記関係情報補正ルールに規定された補正処理を行う。実施形態の指摘情報生成手段は、前記関係情報補正手段による処理の結果に基づいて、前記第1乃至第4の関係のいずれにも該当しないとき、前記曖昧文である旨を指摘する指摘情報を生成し、この指摘情報を出力する。
【解決手段】実施形態の構文解析手段は、前記入力を受け付けた文を構文解析し、構文解析結果を得る。実施形態の抽出手段は、この構文解析結果に基づいて、前記場合に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する。実施形態の関係情報補正手段は、前記構文解析結果及び前記関係情報補正ルールに基づいて、前記係り受け情報が前記第1乃至第4の関係のいずれかに該当するか否かを検査すし、該当する係り受け情報に対して、前記関係情報補正ルールに規定された補正処理を行う。実施形態の指摘情報生成手段は、前記関係情報補正手段による処理の結果に基づいて、前記第1乃至第4の関係のいずれにも該当しないとき、前記曖昧文である旨を指摘する指摘情報を生成し、この指摘情報を出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、文書処理装置及びプログラムに関する。
【背景技術】
【0002】
複数の係り受け先の解釈があり、いずれの係り受け先が正しいのかを判断しにくい文が構文的な曖昧文と呼ばれる。例えば、「昨日保存されたデータが削除された。」という文は、「昨日」−「保存された」のか、「昨日」−「削除された」のか、正しい係り受け先を一意に判断しにくいため、構文的な曖昧文と呼ばれる。
【0003】
このような曖昧文は、読み手に文の内容を誤解される可能性が高い。また、曖昧文は、機械翻訳等の機械処理を施した際に、処理の精度を低下させる。
【0004】
従って、誤解や誤訳がされにくく、分かり易い文書を作成するためには、構文的な曖昧文を発見し、修正することが有効である。
【0005】
構文的な曖昧文を検出する手法としては、例えば、入力された文に対する構文解析結果において、係り受け元に対する係り受け先として複数の解釈が生成されたとき、係り受け先が一意に決まらない曖昧文である、と判断する曖昧文検出技術がある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平8−249331号公報
【特許文献2】特開2003−196275号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、以上のような曖昧文検出技術では、複数の解釈が生成されたとき、曖昧文と判断することから、曖昧文の検出精度が落ちる場合がある。この場合、具体的には、過剰検出と不適切な指摘内容の2つの不具合が発生する。
【0008】
ここで、過剰検出に関し、「制御手段は、リストを表示し、ガイドを選択する。」という文と、「再び再生され、選択される。」という文とを例に挙げて説明する。
【0009】
「制御手段は、リストを表示し、ガイドを選択する。」という文の場合、主語「制御手段」の述語として「表示」と「選択」の2つの候補があるため、曖昧であると診断される。しかし、述語候補となる「表示」と「選択」の主語が共通であるため、意味的に曖昧性がない。
【0010】
また、「再び再生され、選択される。」という文の場合、副詞「再び」の修飾先として「再生」と「選択」の2つの候補があるため、曖昧であると診断される。しかし、「再生され」の直後に読点があることにより、意味的に曖昧性がなくなる。
【0011】
続いて、不適切な指摘内容に関し、「対象となる用語や機能」という文と、「非明晰な文章の解読法」という文とを例に挙げて説明する。
【0012】
「対象となる用語や機能」という文の場合、「対象となる」の係り受け先として「用語」と「機能」の2つの候補があり、曖昧であると診断される。指摘内容として、「対象となる」−「用語」なのか、「対象となる」−「機能」なのか、修飾関係が排他的な曖昧性がある。
【0013】
しかし、「[対象となる用語]や機能」なのか、「対象となる[用語や機能]」なのか、即ち修飾関係が部分か全体かの曖昧性がある、という指摘の方が、人間の直感に合うと考えられる。単に曖昧性がある、という表現では、診断は正しいものの、上述の理由から指摘内容が不適切である。
【0014】
また、「非明晰な文章の解読法」という文の場合、「非明晰な」の係り受け先として「文章」と「法」の2つの候補があるため、曖昧であると診断される。曖昧性があるという診断は正しいものの、係り受け先「法」が複合語「解読法」の一部でしかないので、指摘内容が不適切である。
【0015】
従って、例文で説明したように、複数の解釈の生成のみによって、文の曖昧性を判断すると、曖昧文の検出の精度が落ちる場合がある。
【0016】
本発明が解決しようとする課題は、曖昧文を検出する際に、過剰検出や不適切な指摘内容の発生を低減させ、曖昧文の検出精度を向上し得る文書処理装置及びプログラムを提供することである。
【課題を解決するための手段】
【0017】
実施形態の文書処理装置は、入力を受け付けた文の構文解析結果が係り受け元に複数の係り受け先がある場合に基づいて、前記文が曖昧文である旨を指摘する。
【0018】
前記文書処理装置は、ルール記憶手段、構文解析手段、抽出手段、関係情報補正手段及び指摘情報生成手段を備えている。
【0019】
前記ルール記憶手段は、前記文の構文解析結果が前記場合に該当しても、前記係り受け元と前記係り受け先とが連用中止又は並列動詞の関係にある旨の第1の関係、前記係り受け元の直後の読点が複数の係り受け先の間に位置する旨の第2の関係、前記複数の係り受け先が名詞並列である旨の第3の関係、又は前記複数の係り受け先が連語関係にある旨の第4の関係、のいずれかの関係に該当すれば、曖昧文がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正するための関係情報補正ルールが記憶されている。
【0020】
前記構文解析手段は、前記入力を受け付けた文を構文解析し、構文解析結果を得る。
【0021】
前記抽出手段は、この構文解析結果に基づいて、前記場合に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する。
【0022】
前記関係情報補正手段は、前記構文解析結果及び前記関係情報補正ルールに基づいて、前記係り受け情報が前記第1乃至第4の関係のいずれかに該当するか否かを検査する。そして、該当する場合には、前記関係情報補正ルールに規定されている診断結果に従って関係情報補正処理を行う。
【0023】
前記指摘情報生成手段は、前記関係情報補正手段による処理の結果に基づいて、前記第1乃至第4の関係のいずれにも該当しないとき、前記曖昧文である旨を指摘する指摘情報を生成し、この指摘情報を出力する。
【図面の簡単な説明】
【0024】
【図1】一実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。
【図2】同実施形態における文書処理装置の構成例を示すブロック図である。
【図3】同実施形態における関係情報補正ルールの一例を示す模式図である。
【図4】同実施形態における動作を説明するためのフローチャートである。
【図5】同実施形態における例文1の構文解析結果を示す模式図である。
【図6】同実施形態における例文2の構文解析結果を示す模式図である。
【図7】同実施形態における例文3の構文解析結果を示す模式図である。
【図8】同実施形態における例文4の構文解析結果を示す模式図である。
【図9】同実施形態における例文5の構文解析結果を示す模式図である。
【図10】同実施形態における例文1に対する指摘情報の例を示す模式図である。
【発明を実施するための形態】
【0025】
以下、一実施形態について図面を用いて説明する。なお、実施形態の文書処理装置は、ユーザ端末として実施してもよく、クライアントサーバシステムにおけるサーバ装置として実施してもよい。また、文書処理装置は、プライベートクラウド又はパブリッククラウド等のクラウドコンピューティングシステムにおいて、低負荷時に選択される複数台の処理実行装置の各々として実施してもよい。
【0026】
図1は一実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。コンピュータ10は、例えばハードディスクドライブのような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を記憶する。コンピュータ10及び外部記憶装置20は、文書処理装置30を構成している。
【0027】
この文書処理装置30は、入力を受け付けた文の構文解析結果が係り受け元に複数の係り受け先がある場合に基づいて、当該文が曖昧文である旨を指摘するものであり、例えばユーザによって指定された文を提示し、文の曖昧さを診断する指示を受け付け、診断結果を出力する機能を有する。
【0028】
文書処理装置30は、具体的には図2に示すように、補正ルール記憶部31、入力部32、構文解析部33、係り受け検査部34、関係情報補正部35、指摘情報生成部36及び出力部37を備えている。各部31〜37は、コンピュータ10が外部記憶装置20に記憶されているプログラム(文書処理プログラム)21を実行することにより実現されるものとする。プログラム21は、コンピュータ読み取り可能な記憶媒体に予め記憶した形態で頒布可能となっている。また、プログラム21は、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。また、補正ルール記憶部31は、例えば外部記憶装置20内に実装されているが、コンピュータ10のメモリ(図示せず)内に書き込んで実装されてもよい。
【0029】
補正ルール記憶部31には、図3に一例を示す如き、関係情報補正ルール31aが記憶されている。
【0030】
関係情報補正ルール31aは、文の構文解析結果が係り受け元に複数の係り受け先がある場合に該当しても、前記係り受け元又は前記係り受け先が有する文法上の特徴に基づいて、この文法上の特徴を満たす関係に該当すれば、曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正するためのルールであり、この例では適用条件、診断規則、診断結果が規定されている。そして、適用条件と診断規則に当てはまる場合、診断結果に規定されている処理を行う。
【0031】
例としては、係り受け元と係り受け先とが連用中止又は並列動詞の関係にある旨の第1の関係、係り受け元の直後の読点が複数の係り受け先の間に位置する旨の第2の関係、複数の係り受け先が名詞並列である旨の第3の関係、又は複数の係り受け先が連語関係にある旨の第4の関係、の4つが挙げられ、これらいずれかの関係に該当すれば、曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正する。
【0032】
適用条件としては、該当ルールを適用する範囲を示すものであって、第1の関係には「係り受け元に複数の係り受け先候補が存在する、かつ係り受け元と係り受け先の構文関係が、連体関係ではない「が」格、「を」格、或いは「は」格の構文関係」等が、第2の関係には「係り受け元に複数の係り受け先候補が存在する、かつ係り受け元と係り受け先の構文関係が、副詞句修飾の構文関係」等が、第3の関係には「係り受け元に複数の係り受け先候補が存在する構文関係」等が、第4の関係には「係り受け元に複数の係り受け先候補が存在する構文関係」等が、適宜、使用可能となっている。
【0033】
診断規則としては、診断結果を行うための条件を規定するものであって、第1の関係には「接続先候補間の係り受けが連用中止或いは並列動詞関係であれば、」等が、第2の関係には「係り受け元の直後の読点が、出力係り受け先と候補係り受け先の間に位置すれば、」等が、第3の関係には「係り受け先候補間の係り受けが名詞並列であれば、」等が、第4の関係には「係り受け先候補が係り受け先となる構文関係に連語関係があれば、」等が、適宜、使用可能となっている。
【0034】
診断結果としては、診断規則に当てはまる時の動作及び判断を規定するものであって、第1の関係には「曖昧性がないと診断し、指摘対象から除外する。」等が、第2の関係には「曖昧性がないと診断し、指摘対象から除外する。」等が、第3の関係には「曖昧性があるが、原文で後となる係り受け先と、前となる係り受け先をまとめて出力する」等が、第4の関係には「曖昧性があるが、係り受け先と連語関係の係り受け元の全てを1つの複合語としてまとめて出力する」等が、適宜、使用可能となっている。
【0035】
入力部32は、例えばキーボード又はマウス等に対するユーザの操作に応じて、当該ユーザからの指示を受け付ける機能を有する。また、入力部32は、例えばユーザによって指定された評価対象となる文の入力を受け付ける機能をもっている。ここで、入力部32により入力を受け付けた文は、例えば動詞、名詞または形容詞等を含む文節を含む複数の文節から構成される。
【0036】
構文解析部33は、入力部32によって入力を受け付けた文(以下、対象文とも表記)を構文解析し、構文解析結果(構文木)を得る機能をもっている。なお、構文解析によれば、複数の文節から構成される対象文が文節毎に分割され、当該文節間に係り受け関係が付与される。
【0037】
係り受け検査部34は、構文木の係り受け元と係り受け先の接続関係を検査する。係り受け先が一意的に決まらない場合、該当構文関係の係り受け元、係り受け先候補を診断対象として抽出する。具体的には、係り受け検査部34は、構文解析部33の構文解析結果に基づいて、係り受け元に複数の係り受け先がある場合に該当する文の構文解析結果から係り受け元及び複数の係り受け先を含む係り受け情報を抽出する抽出機能(f34)をもっている。
【0038】
なお、この抽出機能(f34)は、次の2つの機能(f34-1),(f34-2)を含んでもよい。
【0039】
(f34-1) 構文解析結果に基づいて、係り受け元に複数の係り受け先がある場合、係り受け元とある係り受け先との係り受け関係の確からしさを表す第1の信頼度スコアと、係り受け元と他の係り受け先との係り受け関係の確からしさを表す第2の信頼度スコアとの差分を計算する差分計算機能。
【0040】
(f34-2) 差分が基準値より小さいか否かを判定し、基準値より小さいとき、構文解析結果から上記係り受け情報を抽出する差分判定機能。
【0041】
但し、抽出機能(f34)は、構文解析結果に基づき、係り受け元に複数の係り受け先がある場合に当該構文解析結果から上記係り受け情報を抽出すればよいので、差分計算機能(f34-1)及び差分判定機能(f34-2)を含まなくてもよい。
【0042】
関係情報補正部35は、構文解析部33による構文解析結果及び補正ルール記憶部31内の関係情報補正ルール31aに基づいて、係り受け検査部34により抽出された係り受け情報が第1乃至第4の関係のいずれかに該当するか否かを検査する関係情報の検査機能をもっている。
【0043】
本実施形態では、関係情報補正部35は、係り受け検査部34により抽出された係り受け情報に対し、関係情報補正ルール31aに基づいて、係り受け先候補間の構文関係、位置関係などの関係情報を検査し、曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正してから、指摘対象集合を出力している。つまり、曖昧性の有無に関する判断だけではなく、関係情報補正ルール31aに基づいて、診断対象に対する除外や補正処理を行うものである。
【0044】
指摘情報生成部36は、関係情報補正部35による処理の結果に基づいて、第1乃至第4の関係のいずれにも該当しないとき、曖昧文である旨を指摘する指摘情報36aを生成し、この指摘情報36aを出力部に37に出力する機能をもっている。
【0045】
出力部37は、入力部32により入力を受け付けた文に対して、指摘情報生成部36から出力された指摘情報36aを出力する機能をもっている。ここで、出力部37による出力する形態としては、例えば液晶ディスプレイに表示出力する形態などが適宜、使用可能となっている。
【0046】
次に、以上のように構成された文書処理装置の動作について図4のフローチャートを参照しながら説明する。
【0047】
始めに、ステップS1においては、入力文の取得処理が実行される。
【0048】
このとき、入力部32は、ユーザの操作に応じて、当該ユーザによって指定された文の入力を受け付ける処理により、入力文を取得する。入力文は、複数の文節から構成される。また、入力を受け付けた文を構成する複数の文節には、例えば動詞、名詞または形容詞を含む文節が含まれる。文の入力を受け付ける処理としては、ユーザがキーボード等から直接入力した文を受け付けても良いし、既存のファイル(文書)から読み込んだ文を受け付けてもよい。
【0049】
続いて、ステップS2においては、構文解析処理が実行される。
【0050】
このとき、構文解析部33は、入力部32によって入力を受け付けた文を構文解析し、構文解析結果を得る。例えば、入力を受け付けた文「昨日保存されたデータが削除された。」(例文1)に対して、図5に示す如き、構文解析結果を得る。
【0051】
ここで、図5に示す楕円の中には、各文節の語幹が記されている。この楕円でまとめた情報をノードと呼ぶ。係り受け関係にある2つのノードが矢印で結ばれる。この矢印をアークとも呼ぶ。矢印の先が係り受け先のノードを示し、矢印の元が係り受け元のノードを示している。
【0052】
矢印には必要に応じて、2つのノードの係り受け関係が付されている。例えば、矢印に「を格」が付されているときは、2つのノードの係り受け関係が「を格」であることを意味し、矢印に「副詞句」が付されているときは、2つのノードの係り受け関係が副詞修飾であることを意味する。
【0053】
また、構文解析部33は、構文解析の処理中間情報である仮想アークと信頼度スコアも出力する。仮想アークとは、構文解析の処理中に一時的に生成された中間的な接続候補を示す情報である。図5において、「昨日」と「削除」間の矢印(点線で表記)は、仮想アークを示す。仮想アークに対して、実際に出力されたアークを、出力アークと呼ぶ。図5において、「昨日」と「保存」間の実線矢印は、出力アークを示す。
【0054】
信頼度スコアは、係り受け関係の確からしさを表す数値である。図5において、アーク毎に付与されている数字は、該当係り受けの信頼度スコアを示す。
【0055】
構文解析の処理中間情報については、例えば、平川秀樹,“最適解探索に基づく日本語意味係り受け解析”,情報処理学会論文誌,Vol.43,No.3,pp696−707,2002に記載されている構文解析装置により出力可能となっており、他にも一般的な構文解析手法によって出力可能となっている。
【0056】
次に、ステップS3においては、係り受け検査が実行される。
【0057】
係り受け検査部34は、構文解析結果に基づいて、係り受け元と接続する係り受け先が一意に決まるかどうか(即ち、係り受け元に複数の係り受け先があるかどうか)を判定する。一意に決まらない場合(即ち、係り受け元に複数の係り受け先がある場合)に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する。
【0058】
係り受け先の一意性の判定について、例えば、次の手法を利用することができる。以下、図5に示す構文木の例に基づいて、係り受け検査の動作例を説明する。
【0059】
まず、ノード毎に、該当ノードを係り受け元とする仮想アークが存在するかどうかを検査する。図5の「削除」、「データ」、「保存」の場合、仮想アークが存在しないため、該当しない。一方、「昨日」の場合、「保存」と接続する出力アーク以外に、「削除」と接続する仮想アークが存在する。複数の係り先受け先の解釈があることがわかる。
【0060】
次に、仮想アークが存在する係り受けに対して、出力アークと仮想アークの信頼度の差分を計算する。その差分が予め決められた基準値より小さい場合、曖昧性があると判断し、係り受け情報を生成する。図5の出力アーク「昨日」−「保存」と仮想アーク「昨日」−「削除」の信頼度の差は1である。例えば、基準値を2と設定した場合、「昨日」の係り受け先が曖昧と判断される。係り受け情報として、係り受け元「昨日」、係り受け先候補「保存」、「削除」を構文解析結果から抽出する。
【0061】
なお、上述の処理は、係り受け検査の一例である。例えば、信頼度スコアを使わなくても、複数の係り受け先が存在するかどうかの判断だけでもよい。
【0062】
次に、ステップS4においては、関係情報補正が実行される。
【0063】
関係情報補正部35は、補正ルール記憶部31内の関係情報補正ルール31aに基づいて、係り受け検査部34により抽出された係り受け情報が第1乃至第4の関係のいずれかに該当するか否かを検査し、曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正する。
【0064】
具体的には、関係情報補正部35は、抽出された係り受け情報に対して、順に全ての関係情報補正ルール31aと照合する。係り受け情報が関係情報補正ルール31aに規定される適用条件と一致する場合、関係情報補正ルール31aの診断規則と一致するかどうかを判断する。これにより、関係情報補正部35は、係り受け情報が第1乃至第4の関係のいずれかに該当するか否かを検査する。なお、関係情報補正部35は、診断規則と一致する係り受け情報のみ、関係情報補正ルール31aの診断結果に従って指摘対象の除外を実施するが、除外せずに指摘内容の補正を実施してもよい。なお、指摘対象から除外された係り受け情報に対しては、次の関係情報補正ルール31aと照合せずに、処理を終了する。全ての関係情報補正ルール31aとの照合が終わった時点で、除外されていない係り受け情報は、曖昧な構文関係として指摘対象集合に記憶する。
【0065】
なお、関係情報補正ルール31aと照合する順番は、図3に示した番号の順と異なっても、全ての番号の関係情報補正ルール31aが1回ずつ適用されればかまわない。図3中、番号1は第1の関係に対応し、番号2は第2の関係に対応し、…というように、各番号が各関係に対応している。
【0066】
以下、事例に基づいて、図3に示す関係情報補正ルール31aに基づき、関係情報補正の処理を説明する。以下の説明中、関係情報補正ルール31aのうち、番号1に示すルールをルール1と呼ぶように、番号ごとにルールを区別して述べる。
【0067】
まず、ルール1に基づいた処理を説明する。
【0068】
例えば図6に示す如き、「制御手段は、リストを表示し、ガイドを選択する。」という例文2の構文解析結果に対して、係り受け検査S3で係り受け情報として、係り受け元「制御手段」、係り受け先候補「表示」、「選択」が抽出される。係り受け元「制御手段」と係り受け先候補「表示」、「選択」間の係り受け関係が「が格」であるので、ルール1の適用条件に合致する。次に、ルール1の診断規則に従って、係り受け先候補間の構文関係を検査する。「選択」と「表示」間の構文関係は「連用中止」であるため、ルール1の診断規則に当てはまる。診断結果によって、該当係り受けの曖昧性がないと診断し、指摘対象から除外し、該当係り受けに対する関係情報補正を終了させる。
【0069】
一方、図5に示した「昨日保存されたデータが削除された。」という例文1の構文解析結果に対して、係り受け検査S3で係り受け情報として、係り受け元「昨日」、係り受け先候補「保存」、「削除」が抽出される。抽出された係り受け情報に対して、ルール1を適用する。係り受け元「昨日」と係り受け先候補「保存」、「削除」間の係り受け情報が「副詞句」であるため、ルール1の適用条件に合致しない。次のルールとの照合を行う。
【0070】
次に、ルール2に基づいた処理を説明する。
【0071】
例えば図7に示す如き、「再び再生され、選択される。」という例文3の構文解析結果に対して、係り受け検査S3で係り受け情報として、係り受け元「再び」、係り受け先候補「再生」、「選択」が抽出される。係り受け関係は「副詞句」であるので、ルール2の適用条件に合致する。次に、ルール2の診断規則に従って、係り受け元直後の読点と係り受け先候補間の位置関係を検査する。係り受け元「再び」の直後の読点が「再生」と「選択」の間に位置するので、ルール2の診断規則に当てはまる。診断結果によって、対象係り受けの曖昧性がないと診断し、指摘対象から除外し、該当係り受けに対する関係情報補正を終了させる。
【0072】
一方、図5に示した構文解析結果の場合、係り受け情報が「副詞句」であるため、ルール2の適用条件に合致する。次に、ルール2の診断規則に従って、係り受け先候補間の位置関係を検査する。係り受け元「昨日」の直後に読点が存在しないため、ルール2の診断規則に合致しない。次のルールとの照合を行う。
【0073】
次に、ルール3に基づいた処理を説明する。
【0074】
例えば図8に示す如き、「対象となる用語や機能」という例文4の構文解析結果に対して、係り受け検査S3で係り受け情報として、係り受け元「対象となる」、係り受け先候補「用語」、「機能」が抽出される。ルール3の適用条件に合致するため、ルール3の診断規則に従って、係り受け先候補間の構文関係を検査する。係り受け先候補「用語」と「機能」間の係り受けが「名詞並列」であるため、ルール3の診断規則に当てはまる。ルール3の診断結果に従って、原文で後となる係り受け先「機能」と、前となる係り受け先「用語」とまとめて、「用語や機能」として係り受け先「機能」と置換する。
【0075】
一方、図5に示した例文1の構文解析結果の場合、係り受け先「保存」と「削除」の間に接続が存在しないため、ルール3の診断規則に合致しない。指摘内容を正しいと認め、次のルール検査を行う。
【0076】
最後、ルール4に基づいた処理を説明する。
【0077】
例えば図9に示す如き、「非明晰な文章の解読法」という例文5の構文解析結果に対して、係り受け検査S3で係り受け情報として、係り受け元「非明晰な」、係り受け先候補「法」、「解読」が抽出される。ルール4の適用条件に合致するため、ルール4の診断規則に従って、係り受け先候補と接続する連語関係の係り受けがあるかどうかを検査する。係り受け先候補「法」と連語関係で接続する係り受けが存在するため、ルール4に当てはまる。ルール4の診断結果に従って、「法」と連語関係の係り受け元「解読」をまとめて1つの複合語「解読法」として係り受け先候補「法」と置換する。
【0078】
一方、図5に示した例文1の構文解析結果に対して、係り受け先候補「保存」も「削除」も、連語関係で接続する係り受けが存在しないため、ルール4の診断規則に合致しない。指摘内容が正しいと認め、次のルール検査を行う。
【0079】
関係情報補正S4は、関係情報補正ルール31aの内容によって、係り受け先候補間の構文関係、位置関係、周り文節との関係などの情報に基づいて、構文の曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正する。係り受け先候補に係わる情報に基づいて曖昧性を判断するものであれば、上記示したもの以外のルールでもかまわない。
【0080】
次に、ステップS5においては、指摘情報生成が実行される。
【0081】
指摘情報生成部36は、関係情報補正部35による処理の結果に基づいて、曖昧文である旨を指摘する指摘情報36aを生成し、この指摘情報36aを出力部37に出力する。このとき、指摘情報36aは、問題の発生箇所を示す指摘位置及び、指摘理由や修正意見などを含んでもよい。
【0082】
図5に示した例文1の構文解析結果に対する指摘メッセージの一例を図10に示す。「構文解析の解釈」は構文解析で判断された構文関係(出力アーク)である。「他の解釈」として、仮想アークで表す構文関係を示す。
【0083】
次に、ステップS6においては、出力が実行される。
【0084】
出力部37は、指摘情報生成部36から出力された指摘情報36aを出力する。出力としては、例えば液晶ディスプレイにメッセージを表示する形態や、CSVファイルで診断結果一覧を出力する形態などによって実行することができる。
【0085】
出力された指摘情報36aによって、構文解析の解釈と著者本来の意図が一致かどうかを、ユーザが判断できる。著者本来の意図と一致しない場合、読点の追加や単語の位置変更などによって、文の曖昧性を解消し、文の意味をはっきりさせることができる。
【0086】
上述したように本実施形態によれば、係り受け元に複数の係り受け先がある場合に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する係り受け検査部34と、構文解析結果及び関係情報補正ルール31aに基づいて、係り受け情報が第1乃至第4の関係のいずれかに該当するか否かを検査し、曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正する関係情報補正部35と、処理の結果に基づいて、曖昧文である旨を指摘する指摘情報36aを生成して出力する指摘情報生成部36とを備えた構成により、曖昧文を検出する際に、過剰検出や不適切な指摘内容の発生を低減させ、曖昧文の検出精度を向上させることができる。
【0087】
また、関係情報補正ルール31aに基づき、係り受け先候補間の関係を考慮するので、より精度がよい、人間の直感と合った指摘情報36aを出力できる。これらの指摘情報36aに基づいて、ユーザに曖昧文の修正を促すことにより、分かりやすい文書の作成を支援することができる。また、文の曖昧性を解消することによって、機械翻訳や構文解析などの自然言語処理の精度を向上させることができる。
【0088】
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に記憶して頒布することもできる。
【0089】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0090】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0091】
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0092】
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0093】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0094】
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0095】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0096】
10…コンピュータ、20…外部記憶装置、30…文書処理装置、31…補正ルール記憶部、31a…関係情報補正ルール、32…入力部、33…構文解析部、34…係り受け検査部、35…関係情報補正部、36…指摘情報生成部、36a…指摘情報、37…出力部。
【技術分野】
【0001】
本発明の実施形態は、文書処理装置及びプログラムに関する。
【背景技術】
【0002】
複数の係り受け先の解釈があり、いずれの係り受け先が正しいのかを判断しにくい文が構文的な曖昧文と呼ばれる。例えば、「昨日保存されたデータが削除された。」という文は、「昨日」−「保存された」のか、「昨日」−「削除された」のか、正しい係り受け先を一意に判断しにくいため、構文的な曖昧文と呼ばれる。
【0003】
このような曖昧文は、読み手に文の内容を誤解される可能性が高い。また、曖昧文は、機械翻訳等の機械処理を施した際に、処理の精度を低下させる。
【0004】
従って、誤解や誤訳がされにくく、分かり易い文書を作成するためには、構文的な曖昧文を発見し、修正することが有効である。
【0005】
構文的な曖昧文を検出する手法としては、例えば、入力された文に対する構文解析結果において、係り受け元に対する係り受け先として複数の解釈が生成されたとき、係り受け先が一意に決まらない曖昧文である、と判断する曖昧文検出技術がある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平8−249331号公報
【特許文献2】特開2003−196275号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、以上のような曖昧文検出技術では、複数の解釈が生成されたとき、曖昧文と判断することから、曖昧文の検出精度が落ちる場合がある。この場合、具体的には、過剰検出と不適切な指摘内容の2つの不具合が発生する。
【0008】
ここで、過剰検出に関し、「制御手段は、リストを表示し、ガイドを選択する。」という文と、「再び再生され、選択される。」という文とを例に挙げて説明する。
【0009】
「制御手段は、リストを表示し、ガイドを選択する。」という文の場合、主語「制御手段」の述語として「表示」と「選択」の2つの候補があるため、曖昧であると診断される。しかし、述語候補となる「表示」と「選択」の主語が共通であるため、意味的に曖昧性がない。
【0010】
また、「再び再生され、選択される。」という文の場合、副詞「再び」の修飾先として「再生」と「選択」の2つの候補があるため、曖昧であると診断される。しかし、「再生され」の直後に読点があることにより、意味的に曖昧性がなくなる。
【0011】
続いて、不適切な指摘内容に関し、「対象となる用語や機能」という文と、「非明晰な文章の解読法」という文とを例に挙げて説明する。
【0012】
「対象となる用語や機能」という文の場合、「対象となる」の係り受け先として「用語」と「機能」の2つの候補があり、曖昧であると診断される。指摘内容として、「対象となる」−「用語」なのか、「対象となる」−「機能」なのか、修飾関係が排他的な曖昧性がある。
【0013】
しかし、「[対象となる用語]や機能」なのか、「対象となる[用語や機能]」なのか、即ち修飾関係が部分か全体かの曖昧性がある、という指摘の方が、人間の直感に合うと考えられる。単に曖昧性がある、という表現では、診断は正しいものの、上述の理由から指摘内容が不適切である。
【0014】
また、「非明晰な文章の解読法」という文の場合、「非明晰な」の係り受け先として「文章」と「法」の2つの候補があるため、曖昧であると診断される。曖昧性があるという診断は正しいものの、係り受け先「法」が複合語「解読法」の一部でしかないので、指摘内容が不適切である。
【0015】
従って、例文で説明したように、複数の解釈の生成のみによって、文の曖昧性を判断すると、曖昧文の検出の精度が落ちる場合がある。
【0016】
本発明が解決しようとする課題は、曖昧文を検出する際に、過剰検出や不適切な指摘内容の発生を低減させ、曖昧文の検出精度を向上し得る文書処理装置及びプログラムを提供することである。
【課題を解決するための手段】
【0017】
実施形態の文書処理装置は、入力を受け付けた文の構文解析結果が係り受け元に複数の係り受け先がある場合に基づいて、前記文が曖昧文である旨を指摘する。
【0018】
前記文書処理装置は、ルール記憶手段、構文解析手段、抽出手段、関係情報補正手段及び指摘情報生成手段を備えている。
【0019】
前記ルール記憶手段は、前記文の構文解析結果が前記場合に該当しても、前記係り受け元と前記係り受け先とが連用中止又は並列動詞の関係にある旨の第1の関係、前記係り受け元の直後の読点が複数の係り受け先の間に位置する旨の第2の関係、前記複数の係り受け先が名詞並列である旨の第3の関係、又は前記複数の係り受け先が連語関係にある旨の第4の関係、のいずれかの関係に該当すれば、曖昧文がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正するための関係情報補正ルールが記憶されている。
【0020】
前記構文解析手段は、前記入力を受け付けた文を構文解析し、構文解析結果を得る。
【0021】
前記抽出手段は、この構文解析結果に基づいて、前記場合に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する。
【0022】
前記関係情報補正手段は、前記構文解析結果及び前記関係情報補正ルールに基づいて、前記係り受け情報が前記第1乃至第4の関係のいずれかに該当するか否かを検査する。そして、該当する場合には、前記関係情報補正ルールに規定されている診断結果に従って関係情報補正処理を行う。
【0023】
前記指摘情報生成手段は、前記関係情報補正手段による処理の結果に基づいて、前記第1乃至第4の関係のいずれにも該当しないとき、前記曖昧文である旨を指摘する指摘情報を生成し、この指摘情報を出力する。
【図面の簡単な説明】
【0024】
【図1】一実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。
【図2】同実施形態における文書処理装置の構成例を示すブロック図である。
【図3】同実施形態における関係情報補正ルールの一例を示す模式図である。
【図4】同実施形態における動作を説明するためのフローチャートである。
【図5】同実施形態における例文1の構文解析結果を示す模式図である。
【図6】同実施形態における例文2の構文解析結果を示す模式図である。
【図7】同実施形態における例文3の構文解析結果を示す模式図である。
【図8】同実施形態における例文4の構文解析結果を示す模式図である。
【図9】同実施形態における例文5の構文解析結果を示す模式図である。
【図10】同実施形態における例文1に対する指摘情報の例を示す模式図である。
【発明を実施するための形態】
【0025】
以下、一実施形態について図面を用いて説明する。なお、実施形態の文書処理装置は、ユーザ端末として実施してもよく、クライアントサーバシステムにおけるサーバ装置として実施してもよい。また、文書処理装置は、プライベートクラウド又はパブリッククラウド等のクラウドコンピューティングシステムにおいて、低負荷時に選択される複数台の処理実行装置の各々として実施してもよい。
【0026】
図1は一実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。コンピュータ10は、例えばハードディスクドライブのような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を記憶する。コンピュータ10及び外部記憶装置20は、文書処理装置30を構成している。
【0027】
この文書処理装置30は、入力を受け付けた文の構文解析結果が係り受け元に複数の係り受け先がある場合に基づいて、当該文が曖昧文である旨を指摘するものであり、例えばユーザによって指定された文を提示し、文の曖昧さを診断する指示を受け付け、診断結果を出力する機能を有する。
【0028】
文書処理装置30は、具体的には図2に示すように、補正ルール記憶部31、入力部32、構文解析部33、係り受け検査部34、関係情報補正部35、指摘情報生成部36及び出力部37を備えている。各部31〜37は、コンピュータ10が外部記憶装置20に記憶されているプログラム(文書処理プログラム)21を実行することにより実現されるものとする。プログラム21は、コンピュータ読み取り可能な記憶媒体に予め記憶した形態で頒布可能となっている。また、プログラム21は、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。また、補正ルール記憶部31は、例えば外部記憶装置20内に実装されているが、コンピュータ10のメモリ(図示せず)内に書き込んで実装されてもよい。
【0029】
補正ルール記憶部31には、図3に一例を示す如き、関係情報補正ルール31aが記憶されている。
【0030】
関係情報補正ルール31aは、文の構文解析結果が係り受け元に複数の係り受け先がある場合に該当しても、前記係り受け元又は前記係り受け先が有する文法上の特徴に基づいて、この文法上の特徴を満たす関係に該当すれば、曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正するためのルールであり、この例では適用条件、診断規則、診断結果が規定されている。そして、適用条件と診断規則に当てはまる場合、診断結果に規定されている処理を行う。
【0031】
例としては、係り受け元と係り受け先とが連用中止又は並列動詞の関係にある旨の第1の関係、係り受け元の直後の読点が複数の係り受け先の間に位置する旨の第2の関係、複数の係り受け先が名詞並列である旨の第3の関係、又は複数の係り受け先が連語関係にある旨の第4の関係、の4つが挙げられ、これらいずれかの関係に該当すれば、曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正する。
【0032】
適用条件としては、該当ルールを適用する範囲を示すものであって、第1の関係には「係り受け元に複数の係り受け先候補が存在する、かつ係り受け元と係り受け先の構文関係が、連体関係ではない「が」格、「を」格、或いは「は」格の構文関係」等が、第2の関係には「係り受け元に複数の係り受け先候補が存在する、かつ係り受け元と係り受け先の構文関係が、副詞句修飾の構文関係」等が、第3の関係には「係り受け元に複数の係り受け先候補が存在する構文関係」等が、第4の関係には「係り受け元に複数の係り受け先候補が存在する構文関係」等が、適宜、使用可能となっている。
【0033】
診断規則としては、診断結果を行うための条件を規定するものであって、第1の関係には「接続先候補間の係り受けが連用中止或いは並列動詞関係であれば、」等が、第2の関係には「係り受け元の直後の読点が、出力係り受け先と候補係り受け先の間に位置すれば、」等が、第3の関係には「係り受け先候補間の係り受けが名詞並列であれば、」等が、第4の関係には「係り受け先候補が係り受け先となる構文関係に連語関係があれば、」等が、適宜、使用可能となっている。
【0034】
診断結果としては、診断規則に当てはまる時の動作及び判断を規定するものであって、第1の関係には「曖昧性がないと診断し、指摘対象から除外する。」等が、第2の関係には「曖昧性がないと診断し、指摘対象から除外する。」等が、第3の関係には「曖昧性があるが、原文で後となる係り受け先と、前となる係り受け先をまとめて出力する」等が、第4の関係には「曖昧性があるが、係り受け先と連語関係の係り受け元の全てを1つの複合語としてまとめて出力する」等が、適宜、使用可能となっている。
【0035】
入力部32は、例えばキーボード又はマウス等に対するユーザの操作に応じて、当該ユーザからの指示を受け付ける機能を有する。また、入力部32は、例えばユーザによって指定された評価対象となる文の入力を受け付ける機能をもっている。ここで、入力部32により入力を受け付けた文は、例えば動詞、名詞または形容詞等を含む文節を含む複数の文節から構成される。
【0036】
構文解析部33は、入力部32によって入力を受け付けた文(以下、対象文とも表記)を構文解析し、構文解析結果(構文木)を得る機能をもっている。なお、構文解析によれば、複数の文節から構成される対象文が文節毎に分割され、当該文節間に係り受け関係が付与される。
【0037】
係り受け検査部34は、構文木の係り受け元と係り受け先の接続関係を検査する。係り受け先が一意的に決まらない場合、該当構文関係の係り受け元、係り受け先候補を診断対象として抽出する。具体的には、係り受け検査部34は、構文解析部33の構文解析結果に基づいて、係り受け元に複数の係り受け先がある場合に該当する文の構文解析結果から係り受け元及び複数の係り受け先を含む係り受け情報を抽出する抽出機能(f34)をもっている。
【0038】
なお、この抽出機能(f34)は、次の2つの機能(f34-1),(f34-2)を含んでもよい。
【0039】
(f34-1) 構文解析結果に基づいて、係り受け元に複数の係り受け先がある場合、係り受け元とある係り受け先との係り受け関係の確からしさを表す第1の信頼度スコアと、係り受け元と他の係り受け先との係り受け関係の確からしさを表す第2の信頼度スコアとの差分を計算する差分計算機能。
【0040】
(f34-2) 差分が基準値より小さいか否かを判定し、基準値より小さいとき、構文解析結果から上記係り受け情報を抽出する差分判定機能。
【0041】
但し、抽出機能(f34)は、構文解析結果に基づき、係り受け元に複数の係り受け先がある場合に当該構文解析結果から上記係り受け情報を抽出すればよいので、差分計算機能(f34-1)及び差分判定機能(f34-2)を含まなくてもよい。
【0042】
関係情報補正部35は、構文解析部33による構文解析結果及び補正ルール記憶部31内の関係情報補正ルール31aに基づいて、係り受け検査部34により抽出された係り受け情報が第1乃至第4の関係のいずれかに該当するか否かを検査する関係情報の検査機能をもっている。
【0043】
本実施形態では、関係情報補正部35は、係り受け検査部34により抽出された係り受け情報に対し、関係情報補正ルール31aに基づいて、係り受け先候補間の構文関係、位置関係などの関係情報を検査し、曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正してから、指摘対象集合を出力している。つまり、曖昧性の有無に関する判断だけではなく、関係情報補正ルール31aに基づいて、診断対象に対する除外や補正処理を行うものである。
【0044】
指摘情報生成部36は、関係情報補正部35による処理の結果に基づいて、第1乃至第4の関係のいずれにも該当しないとき、曖昧文である旨を指摘する指摘情報36aを生成し、この指摘情報36aを出力部に37に出力する機能をもっている。
【0045】
出力部37は、入力部32により入力を受け付けた文に対して、指摘情報生成部36から出力された指摘情報36aを出力する機能をもっている。ここで、出力部37による出力する形態としては、例えば液晶ディスプレイに表示出力する形態などが適宜、使用可能となっている。
【0046】
次に、以上のように構成された文書処理装置の動作について図4のフローチャートを参照しながら説明する。
【0047】
始めに、ステップS1においては、入力文の取得処理が実行される。
【0048】
このとき、入力部32は、ユーザの操作に応じて、当該ユーザによって指定された文の入力を受け付ける処理により、入力文を取得する。入力文は、複数の文節から構成される。また、入力を受け付けた文を構成する複数の文節には、例えば動詞、名詞または形容詞を含む文節が含まれる。文の入力を受け付ける処理としては、ユーザがキーボード等から直接入力した文を受け付けても良いし、既存のファイル(文書)から読み込んだ文を受け付けてもよい。
【0049】
続いて、ステップS2においては、構文解析処理が実行される。
【0050】
このとき、構文解析部33は、入力部32によって入力を受け付けた文を構文解析し、構文解析結果を得る。例えば、入力を受け付けた文「昨日保存されたデータが削除された。」(例文1)に対して、図5に示す如き、構文解析結果を得る。
【0051】
ここで、図5に示す楕円の中には、各文節の語幹が記されている。この楕円でまとめた情報をノードと呼ぶ。係り受け関係にある2つのノードが矢印で結ばれる。この矢印をアークとも呼ぶ。矢印の先が係り受け先のノードを示し、矢印の元が係り受け元のノードを示している。
【0052】
矢印には必要に応じて、2つのノードの係り受け関係が付されている。例えば、矢印に「を格」が付されているときは、2つのノードの係り受け関係が「を格」であることを意味し、矢印に「副詞句」が付されているときは、2つのノードの係り受け関係が副詞修飾であることを意味する。
【0053】
また、構文解析部33は、構文解析の処理中間情報である仮想アークと信頼度スコアも出力する。仮想アークとは、構文解析の処理中に一時的に生成された中間的な接続候補を示す情報である。図5において、「昨日」と「削除」間の矢印(点線で表記)は、仮想アークを示す。仮想アークに対して、実際に出力されたアークを、出力アークと呼ぶ。図5において、「昨日」と「保存」間の実線矢印は、出力アークを示す。
【0054】
信頼度スコアは、係り受け関係の確からしさを表す数値である。図5において、アーク毎に付与されている数字は、該当係り受けの信頼度スコアを示す。
【0055】
構文解析の処理中間情報については、例えば、平川秀樹,“最適解探索に基づく日本語意味係り受け解析”,情報処理学会論文誌,Vol.43,No.3,pp696−707,2002に記載されている構文解析装置により出力可能となっており、他にも一般的な構文解析手法によって出力可能となっている。
【0056】
次に、ステップS3においては、係り受け検査が実行される。
【0057】
係り受け検査部34は、構文解析結果に基づいて、係り受け元と接続する係り受け先が一意に決まるかどうか(即ち、係り受け元に複数の係り受け先があるかどうか)を判定する。一意に決まらない場合(即ち、係り受け元に複数の係り受け先がある場合)に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する。
【0058】
係り受け先の一意性の判定について、例えば、次の手法を利用することができる。以下、図5に示す構文木の例に基づいて、係り受け検査の動作例を説明する。
【0059】
まず、ノード毎に、該当ノードを係り受け元とする仮想アークが存在するかどうかを検査する。図5の「削除」、「データ」、「保存」の場合、仮想アークが存在しないため、該当しない。一方、「昨日」の場合、「保存」と接続する出力アーク以外に、「削除」と接続する仮想アークが存在する。複数の係り先受け先の解釈があることがわかる。
【0060】
次に、仮想アークが存在する係り受けに対して、出力アークと仮想アークの信頼度の差分を計算する。その差分が予め決められた基準値より小さい場合、曖昧性があると判断し、係り受け情報を生成する。図5の出力アーク「昨日」−「保存」と仮想アーク「昨日」−「削除」の信頼度の差は1である。例えば、基準値を2と設定した場合、「昨日」の係り受け先が曖昧と判断される。係り受け情報として、係り受け元「昨日」、係り受け先候補「保存」、「削除」を構文解析結果から抽出する。
【0061】
なお、上述の処理は、係り受け検査の一例である。例えば、信頼度スコアを使わなくても、複数の係り受け先が存在するかどうかの判断だけでもよい。
【0062】
次に、ステップS4においては、関係情報補正が実行される。
【0063】
関係情報補正部35は、補正ルール記憶部31内の関係情報補正ルール31aに基づいて、係り受け検査部34により抽出された係り受け情報が第1乃至第4の関係のいずれかに該当するか否かを検査し、曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正する。
【0064】
具体的には、関係情報補正部35は、抽出された係り受け情報に対して、順に全ての関係情報補正ルール31aと照合する。係り受け情報が関係情報補正ルール31aに規定される適用条件と一致する場合、関係情報補正ルール31aの診断規則と一致するかどうかを判断する。これにより、関係情報補正部35は、係り受け情報が第1乃至第4の関係のいずれかに該当するか否かを検査する。なお、関係情報補正部35は、診断規則と一致する係り受け情報のみ、関係情報補正ルール31aの診断結果に従って指摘対象の除外を実施するが、除外せずに指摘内容の補正を実施してもよい。なお、指摘対象から除外された係り受け情報に対しては、次の関係情報補正ルール31aと照合せずに、処理を終了する。全ての関係情報補正ルール31aとの照合が終わった時点で、除外されていない係り受け情報は、曖昧な構文関係として指摘対象集合に記憶する。
【0065】
なお、関係情報補正ルール31aと照合する順番は、図3に示した番号の順と異なっても、全ての番号の関係情報補正ルール31aが1回ずつ適用されればかまわない。図3中、番号1は第1の関係に対応し、番号2は第2の関係に対応し、…というように、各番号が各関係に対応している。
【0066】
以下、事例に基づいて、図3に示す関係情報補正ルール31aに基づき、関係情報補正の処理を説明する。以下の説明中、関係情報補正ルール31aのうち、番号1に示すルールをルール1と呼ぶように、番号ごとにルールを区別して述べる。
【0067】
まず、ルール1に基づいた処理を説明する。
【0068】
例えば図6に示す如き、「制御手段は、リストを表示し、ガイドを選択する。」という例文2の構文解析結果に対して、係り受け検査S3で係り受け情報として、係り受け元「制御手段」、係り受け先候補「表示」、「選択」が抽出される。係り受け元「制御手段」と係り受け先候補「表示」、「選択」間の係り受け関係が「が格」であるので、ルール1の適用条件に合致する。次に、ルール1の診断規則に従って、係り受け先候補間の構文関係を検査する。「選択」と「表示」間の構文関係は「連用中止」であるため、ルール1の診断規則に当てはまる。診断結果によって、該当係り受けの曖昧性がないと診断し、指摘対象から除外し、該当係り受けに対する関係情報補正を終了させる。
【0069】
一方、図5に示した「昨日保存されたデータが削除された。」という例文1の構文解析結果に対して、係り受け検査S3で係り受け情報として、係り受け元「昨日」、係り受け先候補「保存」、「削除」が抽出される。抽出された係り受け情報に対して、ルール1を適用する。係り受け元「昨日」と係り受け先候補「保存」、「削除」間の係り受け情報が「副詞句」であるため、ルール1の適用条件に合致しない。次のルールとの照合を行う。
【0070】
次に、ルール2に基づいた処理を説明する。
【0071】
例えば図7に示す如き、「再び再生され、選択される。」という例文3の構文解析結果に対して、係り受け検査S3で係り受け情報として、係り受け元「再び」、係り受け先候補「再生」、「選択」が抽出される。係り受け関係は「副詞句」であるので、ルール2の適用条件に合致する。次に、ルール2の診断規則に従って、係り受け元直後の読点と係り受け先候補間の位置関係を検査する。係り受け元「再び」の直後の読点が「再生」と「選択」の間に位置するので、ルール2の診断規則に当てはまる。診断結果によって、対象係り受けの曖昧性がないと診断し、指摘対象から除外し、該当係り受けに対する関係情報補正を終了させる。
【0072】
一方、図5に示した構文解析結果の場合、係り受け情報が「副詞句」であるため、ルール2の適用条件に合致する。次に、ルール2の診断規則に従って、係り受け先候補間の位置関係を検査する。係り受け元「昨日」の直後に読点が存在しないため、ルール2の診断規則に合致しない。次のルールとの照合を行う。
【0073】
次に、ルール3に基づいた処理を説明する。
【0074】
例えば図8に示す如き、「対象となる用語や機能」という例文4の構文解析結果に対して、係り受け検査S3で係り受け情報として、係り受け元「対象となる」、係り受け先候補「用語」、「機能」が抽出される。ルール3の適用条件に合致するため、ルール3の診断規則に従って、係り受け先候補間の構文関係を検査する。係り受け先候補「用語」と「機能」間の係り受けが「名詞並列」であるため、ルール3の診断規則に当てはまる。ルール3の診断結果に従って、原文で後となる係り受け先「機能」と、前となる係り受け先「用語」とまとめて、「用語や機能」として係り受け先「機能」と置換する。
【0075】
一方、図5に示した例文1の構文解析結果の場合、係り受け先「保存」と「削除」の間に接続が存在しないため、ルール3の診断規則に合致しない。指摘内容を正しいと認め、次のルール検査を行う。
【0076】
最後、ルール4に基づいた処理を説明する。
【0077】
例えば図9に示す如き、「非明晰な文章の解読法」という例文5の構文解析結果に対して、係り受け検査S3で係り受け情報として、係り受け元「非明晰な」、係り受け先候補「法」、「解読」が抽出される。ルール4の適用条件に合致するため、ルール4の診断規則に従って、係り受け先候補と接続する連語関係の係り受けがあるかどうかを検査する。係り受け先候補「法」と連語関係で接続する係り受けが存在するため、ルール4に当てはまる。ルール4の診断結果に従って、「法」と連語関係の係り受け元「解読」をまとめて1つの複合語「解読法」として係り受け先候補「法」と置換する。
【0078】
一方、図5に示した例文1の構文解析結果に対して、係り受け先候補「保存」も「削除」も、連語関係で接続する係り受けが存在しないため、ルール4の診断規則に合致しない。指摘内容が正しいと認め、次のルール検査を行う。
【0079】
関係情報補正S4は、関係情報補正ルール31aの内容によって、係り受け先候補間の構文関係、位置関係、周り文節との関係などの情報に基づいて、構文の曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正する。係り受け先候補に係わる情報に基づいて曖昧性を判断するものであれば、上記示したもの以外のルールでもかまわない。
【0080】
次に、ステップS5においては、指摘情報生成が実行される。
【0081】
指摘情報生成部36は、関係情報補正部35による処理の結果に基づいて、曖昧文である旨を指摘する指摘情報36aを生成し、この指摘情報36aを出力部37に出力する。このとき、指摘情報36aは、問題の発生箇所を示す指摘位置及び、指摘理由や修正意見などを含んでもよい。
【0082】
図5に示した例文1の構文解析結果に対する指摘メッセージの一例を図10に示す。「構文解析の解釈」は構文解析で判断された構文関係(出力アーク)である。「他の解釈」として、仮想アークで表す構文関係を示す。
【0083】
次に、ステップS6においては、出力が実行される。
【0084】
出力部37は、指摘情報生成部36から出力された指摘情報36aを出力する。出力としては、例えば液晶ディスプレイにメッセージを表示する形態や、CSVファイルで診断結果一覧を出力する形態などによって実行することができる。
【0085】
出力された指摘情報36aによって、構文解析の解釈と著者本来の意図が一致かどうかを、ユーザが判断できる。著者本来の意図と一致しない場合、読点の追加や単語の位置変更などによって、文の曖昧性を解消し、文の意味をはっきりさせることができる。
【0086】
上述したように本実施形態によれば、係り受け元に複数の係り受け先がある場合に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する係り受け検査部34と、構文解析結果及び関係情報補正ルール31aに基づいて、係り受け情報が第1乃至第4の関係のいずれかに該当するか否かを検査し、曖昧性がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正する関係情報補正部35と、処理の結果に基づいて、曖昧文である旨を指摘する指摘情報36aを生成して出力する指摘情報生成部36とを備えた構成により、曖昧文を検出する際に、過剰検出や不適切な指摘内容の発生を低減させ、曖昧文の検出精度を向上させることができる。
【0087】
また、関係情報補正ルール31aに基づき、係り受け先候補間の関係を考慮するので、より精度がよい、人間の直感と合った指摘情報36aを出力できる。これらの指摘情報36aに基づいて、ユーザに曖昧文の修正を促すことにより、分かりやすい文書の作成を支援することができる。また、文の曖昧性を解消することによって、機械翻訳や構文解析などの自然言語処理の精度を向上させることができる。
【0088】
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に記憶して頒布することもできる。
【0089】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0090】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0091】
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0092】
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0093】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0094】
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0095】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0096】
10…コンピュータ、20…外部記憶装置、30…文書処理装置、31…補正ルール記憶部、31a…関係情報補正ルール、32…入力部、33…構文解析部、34…係り受け検査部、35…関係情報補正部、36…指摘情報生成部、36a…指摘情報、37…出力部。
【特許請求の範囲】
【請求項1】
入力を受け付けた文の構文解析結果が係り受け元に複数の係り受け先がある場合に基づいて、前記文が曖昧文である旨を指摘する文書処理装置であって、
前記文の構文解析結果が前記場合に該当しても、前記係り受け元又は前記係り受け先が有する文法上の特徴に基づいて、この文法上の特徴を満たす関係に該当すれば、曖昧文がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正するための関係情報補正ルールが記憶されたルール記憶手段と、
前記入力を受け付けた文を構文解析し、構文解析結果を得る構文解析手段と、
この構文解析結果に基づいて、前記場合に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する抽出手段と、
前記構文解析結果及び前記関係情報補正ルールに基づいて、前記係り受け情報が前記第1乃至第4の関係のいずれかに該当するか否かを検査し、該当する係り受け情報に対して、前記関係情報補正ルールに規定された補正処理を行う関係情報補正手段と、
前記関係情報補正手段による処理の結果に基づいて、前記曖昧文である旨を指摘する指摘情報を生成し、この指摘情報を出力する指摘情報生成手段と
を備えたことを特徴とする文書処理装置。
【請求項2】
請求項1に記載の文書処理装置において、
前記文法上の特徴を満たす関係は、
前記係り受け元と前記係り受け先とが連用中止又は並列動詞の関係にある旨の第1の関係、前記係り受け元の直後の読点が複数の係り受け先の間に位置する旨の第2の関係、前記複数の係り受け先が名詞並列である旨の第3の関係、又は前記複数の係り受け先が連語関係にある旨の第4の関係、
のうちのいずれかであることを特徴とする文書処理装置。
【請求項3】
請求項1に記載の文書処理装置において、
前記抽出手段は、
前記構文解析結果に基づいて、前記係り受け元に複数の係り受け先がある場合、前記係り受け元とある係り受け先との係り受け関係の確からしさを表す第1の信頼度スコアと、前記係り受け元と他の係り受け先との係り受け関係の確からしさを表す第2の信頼度スコアとの差分を計算する差分計算手段と、
前記差分が基準値より小さいか否かを判定し、前記基準値より小さいとき、前記構文解析結果から前記係り受け情報を抽出する差分判定手段と
を備えたことを特徴とする文書処理装置。
【請求項4】
メモリを備え、入力を受け付けた文の構文解析結果が係り受け元に複数の係り受け先がある場合に基づいて、前記文が曖昧文である旨を指摘する文書処理装置に用いられるプログラムであって、
前記文書処理装置を、
前記文の構文解析結果が前記場合に該当しても、前記係り受け元と前記係り受け先とが連用中止又は並列動詞の関係にある旨の第1の関係、前記係り受け元の直後の読点が複数の係り受け先の間に位置する旨の第2の関係、前記複数の係り受け先が名詞並列である旨の第3の関係、又は前記複数の係り受け先が連語関係にある旨の第4の関係、のいずれかの関係に該当すれば、曖昧文がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正するための関係情報補正ルールを前記メモリに書き込むメモリ書込手段、
前記入力を受け付けた文を構文解析し、構文解析結果を得る構文解析手段、
この構文解析結果に基づいて、前記場合に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する抽出手段、
前記構文解析結果及び前記関係情報補正ルールに基づいて、前記係り受け情報が前記第1乃至第4の関係のいずれかに該当するか否かを検査し、該当する係り受け情報に対して、前記関係情報補正ルールに規定された補正処理を行う関係情報補正手段、
前記関係情報補正手段による処理の結果に基づいて、前記曖昧文である旨を指摘する指摘情報を生成し、この指摘情報を出力する指摘情報生成手段、
として機能させるためのプログラム。
【請求項5】
請求項4に記載のプログラムにおいて、
前記抽出手段は、
前記構文解析結果に基づいて、前記係り受け元に複数の係り受け先がある場合、前記係り受け元とある係り受け先との係り受け関係の確からしさを表す第1の信頼度スコアと、前記係り受け元と他の係り受け先との係り受け関係の確からしさを表す第2の信頼度スコアとの差分を計算する差分計算手段と、
前記差分が基準値より小さいか否かを判定し、前記基準値より小さいとき、前記構文解析結果から前記係り受け情報を抽出する差分判定手段と
を含んでいるプログラム。
【請求項1】
入力を受け付けた文の構文解析結果が係り受け元に複数の係り受け先がある場合に基づいて、前記文が曖昧文である旨を指摘する文書処理装置であって、
前記文の構文解析結果が前記場合に該当しても、前記係り受け元又は前記係り受け先が有する文法上の特徴に基づいて、この文法上の特徴を満たす関係に該当すれば、曖昧文がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正するための関係情報補正ルールが記憶されたルール記憶手段と、
前記入力を受け付けた文を構文解析し、構文解析結果を得る構文解析手段と、
この構文解析結果に基づいて、前記場合に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する抽出手段と、
前記構文解析結果及び前記関係情報補正ルールに基づいて、前記係り受け情報が前記第1乃至第4の関係のいずれかに該当するか否かを検査し、該当する係り受け情報に対して、前記関係情報補正ルールに規定された補正処理を行う関係情報補正手段と、
前記関係情報補正手段による処理の結果に基づいて、前記曖昧文である旨を指摘する指摘情報を生成し、この指摘情報を出力する指摘情報生成手段と
を備えたことを特徴とする文書処理装置。
【請求項2】
請求項1に記載の文書処理装置において、
前記文法上の特徴を満たす関係は、
前記係り受け元と前記係り受け先とが連用中止又は並列動詞の関係にある旨の第1の関係、前記係り受け元の直後の読点が複数の係り受け先の間に位置する旨の第2の関係、前記複数の係り受け先が名詞並列である旨の第3の関係、又は前記複数の係り受け先が連語関係にある旨の第4の関係、
のうちのいずれかであることを特徴とする文書処理装置。
【請求項3】
請求項1に記載の文書処理装置において、
前記抽出手段は、
前記構文解析結果に基づいて、前記係り受け元に複数の係り受け先がある場合、前記係り受け元とある係り受け先との係り受け関係の確からしさを表す第1の信頼度スコアと、前記係り受け元と他の係り受け先との係り受け関係の確からしさを表す第2の信頼度スコアとの差分を計算する差分計算手段と、
前記差分が基準値より小さいか否かを判定し、前記基準値より小さいとき、前記構文解析結果から前記係り受け情報を抽出する差分判定手段と
を備えたことを特徴とする文書処理装置。
【請求項4】
メモリを備え、入力を受け付けた文の構文解析結果が係り受け元に複数の係り受け先がある場合に基づいて、前記文が曖昧文である旨を指摘する文書処理装置に用いられるプログラムであって、
前記文書処理装置を、
前記文の構文解析結果が前記場合に該当しても、前記係り受け元と前記係り受け先とが連用中止又は並列動詞の関係にある旨の第1の関係、前記係り受け元の直後の読点が複数の係り受け先の間に位置する旨の第2の関係、前記複数の係り受け先が名詞並列である旨の第3の関係、又は前記複数の係り受け先が連語関係にある旨の第4の関係、のいずれかの関係に該当すれば、曖昧文がないと判断した診断対象を指摘対象から除外し、適切ではない指摘内容を補正するための関係情報補正ルールを前記メモリに書き込むメモリ書込手段、
前記入力を受け付けた文を構文解析し、構文解析結果を得る構文解析手段、
この構文解析結果に基づいて、前記場合に該当する文の構文解析結果から係り受け元、複数の係り受け先を含む係り受け情報を抽出する抽出手段、
前記構文解析結果及び前記関係情報補正ルールに基づいて、前記係り受け情報が前記第1乃至第4の関係のいずれかに該当するか否かを検査し、該当する係り受け情報に対して、前記関係情報補正ルールに規定された補正処理を行う関係情報補正手段、
前記関係情報補正手段による処理の結果に基づいて、前記曖昧文である旨を指摘する指摘情報を生成し、この指摘情報を出力する指摘情報生成手段、
として機能させるためのプログラム。
【請求項5】
請求項4に記載のプログラムにおいて、
前記抽出手段は、
前記構文解析結果に基づいて、前記係り受け元に複数の係り受け先がある場合、前記係り受け元とある係り受け先との係り受け関係の確からしさを表す第1の信頼度スコアと、前記係り受け元と他の係り受け先との係り受け関係の確からしさを表す第2の信頼度スコアとの差分を計算する差分計算手段と、
前記差分が基準値より小さいか否かを判定し、前記基準値より小さいとき、前記構文解析結果から前記係り受け情報を抽出する差分判定手段と
を含んでいるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2012−155645(P2012−155645A)
【公開日】平成24年8月16日(2012.8.16)
【国際特許分類】
【出願番号】特願2011−16165(P2011−16165)
【出願日】平成23年1月28日(2011.1.28)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成24年8月16日(2012.8.16)
【国際特許分類】
【出願日】平成23年1月28日(2011.1.28)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]