文書処理装置及びプログラム
【課題】 目的語と述語が離れている文の検出精度を向上させる。
【解決手段】 実施形態の言語解析手段は、前記入力を受け付けた文を言語解析し、言語解析結果を得る。実施形態の抽出手段は、前記言語解析結果から前記文の目的語と述語を抽出する。実施形態の距離診断手段は、前記抽出された目的語と述語との前記文内での距離が予め設定された基準よりも大きいか否かを診断する。実施形態の述語省略診断手段は、前記距離診断手段による診断の結果、距離が大きい場合、前記抽出された目的語と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する。実施形態の第1の指摘情報生成手段は、前記述語省略診断手段による診断の結果、該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成し、この指摘情報を出力する。
【解決手段】 実施形態の言語解析手段は、前記入力を受け付けた文を言語解析し、言語解析結果を得る。実施形態の抽出手段は、前記言語解析結果から前記文の目的語と述語を抽出する。実施形態の距離診断手段は、前記抽出された目的語と述語との前記文内での距離が予め設定された基準よりも大きいか否かを診断する。実施形態の述語省略診断手段は、前記距離診断手段による診断の結果、距離が大きい場合、前記抽出された目的語と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する。実施形態の第1の指摘情報生成手段は、前記述語省略診断手段による診断の結果、該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成し、この指摘情報を出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、文書処理装置及びプログラムに関する。
【背景技術】
【0002】
分かりにくい文の類型としては、例えば、主語と述語が離れている文や、目的語と述語が離れている文がある。
【0003】
ここで、主語と述語が離れている文を検出するための手法としては、入力文を形態素解析することにより、主語と述語の距離を測り、基準値を超えている文を分かりにくい文として判断するものがある。
【0004】
また、目的語と述語が離れている文を検出するための手法としては、例えば、ヲ格の格助詞を手懸りに目的語を認識し、前述した手法と同様にして、目的語と述語の距離を測り、基準値を超えている文を分かりにくい文として実現可能と考えられる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−278954号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、目的語と述語が離れている文を検出する手法は、本発明者の検討によれば、過剰な指摘が行なわれるという不都合がある。このような過剰な指摘は、述語が省略された文で発生してしまう。
【0007】
例えば、目的語と述語が離れている文を検出する手法によれば、「客先用文書をカラー、社内用文書を白黒で印刷する」という例文に対し、「客先用文書」が目的語、「印刷する」が述語と認識され、目的語と述語が離れているという指摘がなされる。
【0008】
しかしながら、例文は「カラー」の後に「で印刷し」という述語(と助詞)が省略されている文であるから、目的語と述語が離れている訳ではない。このため、例文の目的語と述語が離れているという指摘は、過剰で不適切な指摘となると共に、目的語と述語が離れている文の検出精度を低下させることになる。なお、このような不適切な指摘は、目的語の認識に構文解析を用いるのみでは解消されない。
【0009】
本発明が解決しようとする課題は、目的語と述語が離れている文の検出精度を向上し得る文書処理装置及びプログラムを提供することである。
【課題を解決するための手段】
【0010】
実施形態の文書処理装置は、入力を受け付けた文において目的語と述語が基準値を超えて離れているとき、前記目的語と述語が離れている旨を指摘する。
【0011】
前記文書処理装置は、ルール記憶手段、言語解析手段、抽出手段、距離診断手段、述語省略診断手段及び第1の指摘情報生成手段を備えている。
【0012】
前記ルール記憶手段は、前記文の言語解析結果から認識された述語に接続する2つ以上の目的語があるとき、前記目的語に対して述語が省略されている場合を示す述語省略診断ルールが予め記憶されている。
【0013】
前記言語解析手段は、前記入力を受け付けた文を言語解析し、言語解析結果を得る。
【0014】
前記抽出手段は、前記言語解析結果から前記文の目的語と述語を抽出する。
【0015】
前記距離診断手段は、前記抽出された目的語と述語との前記文内での距離が予め設定された基準よりも大きいか否かを診断する。
【0016】
前記述語省略診断手段は、前記距離診断手段による診断の結果、距離が大きい場合、前記抽出された目的語と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する。
【0017】
前記第1の指摘情報生成手段は、前記述語省略診断手段による診断の結果、該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成し、この指摘情報を出力する。
【図面の簡単な説明】
【0018】
【図1】第1の実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。
【図2】同実施形態における文書処理装置の構成例を示すブロック図である。
【図3】同実施形態における述語省略診断ルールの一例を示す模式図である。
【図4】同実施形態における分割記号の定義の一例を示す模式図である。
【図5】同実施形態における文書処理装置の動作を説明するためのフローチャートである。
【図6】同実施形態における例文1の言語解析結果を示す模式図である。
【図7】同実施形態における他の例文2の言語解析結果を示す模式図である。
【図8】第2の実施形態に係る文書処理装置の構成例を示すブロック図である。
【図9】同実施形態における副助詞パターン診断ルールの一例を示す模式図である。
【図10】同実施形態における副助詞の定義の一例を示す模式図である。
【図11】同実施形態における文書処理装置の動作を説明するためのフローチャートである。
【図12】同実施形態における例文3の言語解析結果を示す模式図である。
【図13】同実施形態における他の例文4の述語及び目的語の認識結果を示す模式図である。
【発明を実施するための形態】
【0019】
以下、各実施形態について図面を用いて説明する。なお、各実施形態の文書処理装置は、ユーザ端末として実施してもよく、クライアントサーバシステムにおけるサーバ装置として実施してもよい。また、各実施形態の文書処理装置は、プライベートクラウド又はパブリッククラウド等のクラウドコンピューティングシステムにおいて、低負荷時に選択される複数台の処理実行装置の各々として実施してもよい。
【0020】
[第1の実施形態]
図1は第1の実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を記憶する。コンピュータ10及び外部記憶装置20は、文書処理装置30を構成している。
【0021】
この文書処理装置30は、入力を受け付けた文において目的語と述語が基準値を超えて離れているとき、前記目的語と述語が離れている旨を指摘するものであり、例えば、目的語と述語が離れている文を検出する機能を有する。
【0022】
文書処理装置30は、具体的には図2に示すように、述語省略診断ルール記憶部31、入力部32、言語解析部33、目的語・述語識別部34、目的語・述語距離診断部35、述語省略診断部36、指摘情報生成部37及び出力部38を備えている。各部31〜38は、コンピュータ10が外部記憶装置20内のプログラム21を実行することにより実現されるものとする。プログラム21は、コンピュータ読み取り可能な記憶媒体に予め記憶された形態で頒布可能となっている。また、プログラム21は、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。また、述語省略診断ルール記憶部31は、例えば外部記憶装置20内に実装されているが、コンピュータ10のメモリ(図示せず)内に実装されてもよい。
【0023】
述語省略診断ルール記憶部31は、図3に一例を示す如き、述語省略診断ルール31aが予め記憶されている。
【0024】
述語省略診断ルール31aは、文の言語解析結果から認識された述語に接続する2つ以上の目的語があるとき、当該目的語に対して述語が省略されている場合を示したルールであり、この例では適用条件と診断規則が規定されている。述語の省略箇所についても、第1の実施の形態と同じく必須ではないが、以下のように使用が可能となっている。
【0025】
適用条件としては、例えば「述語に接続する2つ以上の目的語において、当該目的語の後に分割記号があり、その後にさらに目的語がある。」等が適宜、使用可能となっている。
【0026】
診断規則としては、例えば、「当該目的語の後方直近の分割記号の直前ノードが、名詞、代名詞、数詞であれば、目的語に対する述語が省略されている。省略箇所は、当該目的語の後方直近の読点記号の直前である。」等が適宜、使用可能となっている。
【0027】
分割記号は、図4に一例を示すように、全角読点、半角読点、全角コンマ、半角コンマ、全角セミコロン及び半角セミコロンのいずれかであれば該当する。この分割記号の定義は、本明細書中で共通に用いられる。
【0028】
この述語省略診断ルール31aによれば、適用条件に当てはまる目的語に対して、診断規則に当てはまれば、述語が省略されている旨が診断される。これに加えて、述語の省略箇所が示されてもよい。
【0029】
入力部32は、例えばキーボード及びマウス等に対するユーザの操作に応じて、当該ユーザからの指示を受け付ける機能を有する。また、入力部32は、例えば、ユーザによって指定された文(目的語と述語の距離の診断対象となる文)の入力を受け付ける機能をもっている。ここで、入力部32により入力を受け付けた文は、例えば動詞、名詞または形容詞等を含む文節を含む複数の文節から構成される。
【0030】
言語解析部33は、入力部32により入力を受け付けた文(以下、対象文とも表記)に対して構文解析及び形態素解析等の言語解析を行い、言語解析結果を得る機能をもっている。なお、構文解析によれば、複数の文節から構成される対象文が文節毎に分割され、当該文節間に係り受け関係が付与される。一方、形態素解析によれば、対象文が形態素毎に分割され、当該各形態素に品詞が付与される。
【0031】
目的語・述語識別部34は、言語解析部33による言語解析結果から、文の目的語と述語を抽出する機能をもっている。この抽出機能は、例えば、品詞が動詞であり、連体修飾動詞でない文成分を述語として抽出する機能と、述語に対して「ヲ格」で接続する係り受けの文成分を目的語として抽出する機能とを含んでいる。
【0032】
目的語・述語距離診断部35は、目的語・述語識別部34により抽出された目的語と述語との対象文内での距離が予め設定された基準よりも大きいか否かを診断する機能を持っている。
【0033】
対象文における距離は、例えば、述語と目的語の間に存在する文節の数とするが、これに限らず、述語と目的語の間に存在する単語数や文字数としてもよい。
【0034】
また、基準としては、例えば初期値として、5又は6(文節)を予め設定しておき、適宜、ユーザによる設定変更を可能とすればよい。また、後述する例では、基準値が2の場合を例に挙げて説明するが、基準値を2とすると多くの文で距離が大きいと診断されるので、実際には、5又は6(文節)が好ましいと考えられる。
【0035】
述語省略診断部36は、目的語・述語距離診断部35による診断の結果、距離が大きい場合、目的語・述語識別部34により抽出された目的語と言語解析部33による言語解析結果と述語省略診断ルール記憶部31内の述語省略診断ルール31aとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する機能をもっている。
【0036】
指摘情報生成部37は、目的語・述語距離診断部35及び述語省略診断部36の各々の診断結果に基づき、ユーザに提示するメッセージとしての指摘情報を生成するものであり、以下の2つの機能(f37-1)〜(f37-2)をもっている。
【0037】
(f37-1) 述語省略診断部36による診断の結果、該当しない場合、目的語と述語とが離れている旨の指摘情報を生成し、この指摘情報を出力部38に出力する第1の指摘情報生成機能。
【0038】
(f37-2) 述語省略診断部36による診断の結果、該当する場合、述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力部38に出力する第2の指摘情報生成機能。なお、第2の指摘情報生成機能は、目的語と述語とが離れている文の検出に必須な処理ではないので、省略してもよい。第2の指摘情報生成機能を省略しても、目的語と述語とが離れている文の検出精度を向上できる。但し、第2の指摘情報生成機能を備えた構成の方が、述語が省略された文の修正を促すことができる観点から好ましい。また、図3に例示する診断規則のうち、省略箇所に関する規則を省略し、述語の省略の有無のみを診断し、省略されている旨の指摘情報のみとしてもよい。
【0039】
出力部38は、入力部32により入力を受け付けた文に対して、指摘情報生成部37から出力された指摘情報を出力する機能をもっている。ここで、出力部38による出力する形態としては、例えば液晶ディスプレイに表示出力する形態などが適宜、使用可能となっている。
【0040】
次に、以上のように構成された文書処理装置の動作について図5のフローチャートを参照しながら説明する。
【0041】
始めに、入力部32は、ユーザの操作に応じて、当該ユーザによって指定された文の入力を受け付ける処理により、入力文(対象文)を取得する(ステップS10)。入力文は、複数の文節から構成される。また、入力を受け付けた文を構成する複数の文節には、例えば動詞、名詞または形容詞を含む文節が含まれる。文の入力を受け付ける処理としては、ユーザがキーボード等から直接入力した文を受け付けても良いし、既存のファイル(文書)から読み込んだ文を受け付けてもよい。
【0042】
次に、言語解析部33は、入力部32により入力を受け付けた文(対象文)に対して構文解析又は形態素解析等の言語解析を行い(ステップS20)、言語解析結果を得る。
【0043】
例えば、構文解析の場合、対象文「客先用資料をカラー、社内用資料を白黒で印刷する」(例文1)に対して図6に示す如き、構文解析結果を得る。構文解析によれば、対象文を構成する複数の文節間に係り受け関係が付与される。なお、対象文を構成する文節の各々は、少なくとも1つ以上の単語からなる。
【0044】
構文解析結果においては、複数の文節から構成される対象文が文節毎に分割される。図6に示す構文解析結果によれば、対象文「客先用資料をカラー、社内用資料を白黒で印刷する」は、文節「客先用資料を」、「カラー」、「社内用資料を」、「白黒で」、「印刷する」に分割されている。
【0045】
なお、図6においては、便宜的に、対象文を構成する各文節における最初の単語(文節の語幹)のみが記されている。また、対象文を構成する文節における最初の単語には、当該単語の品詞が付与されている。図6に示す構文解析結果において、「客先用資料<名詞>」は、対象文を構成する複数の文節のうち、文節における最初の単語が名詞の「客先用資料」である文節「客先用資料を」を表わしている。
【0046】
また、構文解析結果においては、係り受け関係にある2つの文節間に矢印が付与されている(つまり、2つの文節間が矢印で結ばれている)。なお、構文解析結果における矢印の先が係り受け先の文節を示し、矢印の元が係り受け元の文節を示す。これによって、矢印の先と元との文節間に係り受け関係があることが示される。
【0047】
また、構文解析結果においては、必要に応じて矢印に2つの文節の係り受け関係が付与されている。例えば、図6に示す構文解析結果では、文節「客先用資料を」及び文節「印刷する」の係り受け関係がヲ格であることが示されている。
【0048】
また、別の対象文「本データを、提供系処理部に応答を送信するときに使用する」(例文2)に対する構文解析結果を図7に示す。
【0049】
次に、目的語・述語識別部34は、言語解析部33による言語解析結果から、述語と、それぞれの述語に対応する目的語を抽出する(ステップS30)。例えば、目的語・述語識別部34は、品詞が動詞であり、連体修飾関係にないものを選択することにより、述語を抽出する。また、目的語・述語識別部34は、述語に対して、ヲ格の係り受け関係にある文節を選択することにより、目的語を抽出する。あるいは、言語解析部33で形態素解析のみを行なった場合には、述語と対象文において前方にある他の述語(他の述語が前方に無い場合は、文の先頭)の間に存在する名詞で、付属語として「を」を有するものを選択することにより、目的語を抽出することができる。
【0050】
図6に示した構文解析結果においては、述語は「印刷する」であり、述語に対応する目的語は「客先用資料」と「社内用資料」の2つである。
【0051】
図7に示した構文解析結果においては、述語は「使用する」であり、述語に対応する目的語は「本データ」である。なお、この例では、「送信する」は「とき」にかかる連体修飾語なので、述語とはならない。
【0052】
次に、目的語・述語距離診断部35は、対象文における全ての述語に対して(ステップS40)、それぞれの述語に対応する目的語との対象文における距離を測り、この距離が予め設定した値より大きいか否かを診断する(ステップS50)。本実施形態では、述語と目的語との間に存在する文節の数を測り、得られた値を距離としている。
【0053】
図6に示した構文解析結果において、述語「印刷する」と目的語「客先用資料」の間には、「カラーで」、「社内用資料を」、「白黒で」の3つの文節が存在するので、述語と目的語の距離は3となる。また、述語「印刷する」と目的語「社内用資料」の間には、「白黒で」の1つの文節が存在するので、述語と目的語の距離は1となる。
【0054】
ここで、予め設定された距離の基準値が2である場合には、述語「印刷する」と目的語「客先用資料」は距離が大きいと診断される。また、述語「印刷する」と目的語「社内用資料」は距離が小さいと診断される。なお、「距離が大きい」の用語は、「距離が離れている」、「距離が遠い」又は「距離が長い」と読み替えてもよい。同様に、「距離が小さい」の用語は、「距離が離れていない」、「距離が近い」又は「距離が短い」と読み替えてもよい。
【0055】
図7に示した構文解析結果において、述語「使用する」と目的語「本データ」の間には、「提供系処理部に」、「応答を」、「送信する」、「ときに」の4文節が存在するので、述語と目的語の距離は4となり、基準値が2の場合には、目的語と述語の距離が大きいと診断される。
【0056】
次に、述語省略診断部36は、目的語・述語距離診断部35による診断の結果、距離が大きい場合、目的語・述語識別部34により抽出された目的語と言語解析部33による言語解析結果と述語省略診断ルール記憶部31内の述語省略診断ルール31aとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する(ステップS60〜S70)。
【0057】
図6に示した対象文に対しては、述語「印刷する」に、目的語「客先用資料」と「社内用資料」の2つが存在し、述語が省略されている場合に該当する旨が診断される(S70;述語省略)。
【0058】
図7に示した対象文に対しては、述語が省略されている場合に該当しない旨が診断される(S70;述語省略ではない)。
【0059】
指摘情報生成部37は、目的語・述語距離診断部35での診断結果と、述語省略診断部36の診断結果に基づき、メッセージとしての指摘情報を生成する(ステップS80,S90)。
【0060】
述語と目的語の距離が小さい旨が診断された場合(S50;小さい)、指摘情報を生成しない。
【0061】
述語と目的語の距離が大きい旨と、述語省略に該当する旨とが診断された場合(S50;大きい。S70;述語省略)、述語が省略されている旨を指摘する指摘情報を生成する(ステップS80)。
【0062】
述語と目的語の距離が大きい旨と、述語省略に該当しない旨とが診断された場合(S50;大きい。S70;述語省略ではない)、目的語と述語とが離れている旨を指摘する指摘情報を生成する(ステップS90)。
【0063】
図6に示した対象文において、述語「印刷する」と目的語「社内用資料」については、距離が小さい旨が診断されているので、指摘情報が生成されない。述語「印刷する」と目的語「客先用資料」については、距離が大きい旨と、述語省略に該当する旨とが診断されているので、「「カラー」の直後に述語が省略されています。」といった指摘情報が生成される(ステップS80)。
【0064】
図7に示した対象文において、述語「使用する」と目的語「本データ」については、距離が大きい旨と、述語省略に該当しない旨とが診断されているので、「目的語「本データ」と述語「使用する」が離れています。」といった指摘情報が生成される(ステップS90)。
【0065】
続いて、指摘情報生成部37は、ステップS80又はS90により生成した指摘情報を出力部38に出力する(ステップS100)。
【0066】
出力部38は、入力部32により入力を受け付けた文に対して、指摘情報生成部37から出力された指摘情報を、例えば液晶ディスプレイに表示する。
【0067】
上述したように本実施形態によれば、言語解析結果から抽出された目的語と述語との文内での距離が予め設定された基準よりも大きいか否かを診断する目的語・述語距離診断部35と、この診断の結果、距離が大きい場合、抽出された目的語と言語解析結果と述語省略診断ルール31aとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する述語省略診断部36と、この診断の結果、該当しない場合、目的語と述語とが離れている旨の指摘情報を出力する指摘情報生成部37とを備えた構成により、目的語と述語が離れていると認識された文に対し、述語が省略されているか否かが診断されるので、不適切な指摘が減り、目的語と述語が離れている文の検出精度を向上できる。
【0068】
また、述語が省略されたことにより、目的語と述語が離れているように見える文に対して、述語が省略されている旨の指摘情報が出力されるので、適切な指摘により、文の分かり易さの向上を期待することができる。
【0069】
[第2の実施形態]
図8は第2の実施形態に係る文書処理装置の構成例を示すブロック図であり、図2と略同一部分については同一符号を付してその詳しい説明を省略し、ここでは異なる部分について主に述べる。
【0070】
第2の実施形態は、第1の実施形態の変形例であり、副助詞を持つ並列文の述語省略を発見できるものであって、具体的には副助詞パターン診断ルール記憶部39を更に備えている。
【0071】
ここで、副助詞パターン診断ルール記憶部39は、図9に一例を示すように、副助詞パターン診断ルール39aが予め記憶されている。
【0072】
副助詞パターン診断ルール39aは、副助詞パターンに基づいて、述語の省略を診断する方法として、文に2以上の同一の副助詞があって当該副助詞に対して述語が省略されている場合を示したルールであり、この例では、適用条件と診断規則が規定されている。述語の省略箇所についても、必須ではないが、以下のように使用が可能となっている。
【0073】
適用条件としては、例えば「入力文に同じ副助詞が2つ以上ある。かつ、副助詞の後に分割記号があり、その後にさらに同じ副助詞がある。」等が適宜、使用可能となっている。
【0074】
診断規則としては、例えば「当該副助詞から、直後の副助詞までの分割記号の直前ノードが全て、名詞、代名詞、数詞であれば、当該副助詞のノードに対する述語が省略されている。
【0075】
省略箇所は、当該副助詞の直後の副助詞の直前の分割記号の直前である。」等が適宜、使用可能となっている。副助詞は、図10に一例を示すように、「は」、「では」、「には」、「へは」、「も」、「でも」、「にも」及び「へも」のいずれかであれば該当する。この副助詞の定義は、本明細書中で共通に用いられる。
【0076】
この副助詞パターン診断ルール39aによれば、適用条件に当てはまる副助詞に対して、診断規則に当てはまれば、述語が省略されている旨が診断される。これに加えて、述語の省略箇所が示されてもよい。
【0077】
これに伴い、述語省略診断部36は、目的語に対して述語が省略されている場合に該当するか否かを診断した結果、該当しない場合には、入力を受け付けた文に対し、言語解析部33による言語解析結果と副助詞パターン診断ルール39aとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断するものとなっている。
【0078】
また、指摘情報生成部37の第1の指摘情報生成機能(f39-1)は、述語省略診断部36による診断の結果、目的語又は副助詞のいずれに対しても述語が省略されている場合に該当しない場合、目的語と述語とが離れている旨の指摘情報を生成及び出力するものとなっている。
【0079】
さらに、指摘情報生成部37の第2の指摘情報生成機能(f39-2)は、述語省略診断部36による診断の結果、目的語又は副助詞のいずれかに対して述語が省略されている場合に該当する場合、述語が省略されている旨を指摘する指摘情報を生成及び出力するものとなっている。
【0080】
次に、以上のように構成された文書処理装置の動作について図11のフローチャートを参照しながら説明する。
【0081】
始めに、ステップS10〜S70の処理は、前述同様に実行される。
【0082】
次に、ステップS70の述語省略診断の結果、目的語に対して述語が省略されている場合に該当しない場合には、ステップS75に移行する。
【0083】
ステップS75においては、副助詞パターン診断が実行される。
【0084】
述語省略診断部36は、入力を受け付けた文に対し、言語解析部33による言語解析結果と副助詞パターン診断ルール39aとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断する。
【0085】
例えば、図12に示す如き、「装置Aではメモリ容量、装置Bでは処理時間を、提供系処理部に応答を送信するときに計算する。」という例文3の言語解析結果に対して、ステップS70では、図13に示すように述語と目的語の関係が一対一であるため、述語が省略されていないと判定され、副助詞パターン診断S75が実行される。
【0086】
例文3は、同じ副助詞「では」が二つ存在し、最初の「では」の後に分割記号があり、その後にさらに同じ副助詞「では」があるので、図9に示す副助詞パターン診断ルール39aの適用条件を満たす。
【0087】
次に、述語省略診断部36は、この最初の副助詞に対して、診断規則を適用する。最初の副助詞「では」から次の副助詞「では」までの分割記号の直前ノードは「メモリ容量」なので、副助詞「では」のノード「装置A」の述語が省略されたと診断される。省略箇所は「メモリ容量」の直後である。
【0088】
副助詞パターン診断部40は、副助詞「では」毎に省略箇所を示す情報「「メモリ容量」の直後」を指摘情報生成部37に送出する。
【0089】
なお、例えば「装置Aでは、メモリ容量を計算する装置Bの処理時間を、提供系処理部に応答を送信するときに計算する。」(例文4)に対して、副助詞パターン診断S75を行うと、同じ副助詞が2つ以上存在せずに副助詞パターン診断ルール39aの適用条件を満たさないので、述語省略診断部36は、述語が省略された文ではないと診断し、この文に対する処理を終了する。
【0090】
しかる後、指摘情報生成部37は、述語省略診断部36による診断の結果、目的語又は副助詞のいずれに対しても述語が省略されている場合に該当しない場合、目的語と述語とが離れている旨の指摘情報を生成し(ステップS90)、この指摘情報を出力部38に出力する(ステップS100)。
【0091】
また、指摘情報生成部37は、述語省略診断部36による診断の結果、目的語又は副助詞のいずれかに対して述語が省略されている場合に該当する場合、例えば、例文3に対して「「メモリ容量」の直後に述語が省略されています。」といった指摘情報を生成し(ステップS80)、この指摘情報を出力部38に出力する(ステップS100)。
【0092】
出力部38は、入力部32により入力を受け付けた文に対して、指摘情報生成部37から出力された指摘情報を、例えば液晶ディスプレイに表示する。
【0093】
上述したように本実施形態によれば、述語省略診断部36が、目的語に対して述語が省略されている場合に該当するか否かを診断した結果、該当しない場合には、入力を受け付けた文に対し、言語解析部33による言語解析結果と副助詞パターン診断ルール39aとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、指摘情報生成部37が、述語省略診断部36による診断の結果、目的語又は副助詞のいずれに対しても述語が省略されている場合に該当しない場合、目的語と述語とが離れている旨の指摘情報を生成及び出力し、目的語又は副助詞のいずれかに対して述語が省略されている場合に該当する場合、述語が省略されている旨を指摘する指摘情報を生成及び出力する構成により、第1の実施形態の効果に加え、副助詞を持つ並列文の述語省略を発見することができる。
【0094】
補足すると、第1の実施形態では、目的語が存在しない文、あるいは目的語を表す格助詞を省略した文(例えば、例文3)に対して、述語の省略を正しく診断できない。しかしながら、第2の実施形態によれば、これらの文の述語省略を診断できるので、第1の実施形態における述語省略診断の再現率を向上できる。
【0095】
なお、第2の実施形態に、第1の実施形態と同じステップS70を省略しても、副助詞を持つ並列文の述語省略を発見できる。但し、第1の実施形態のステップS70の処理を備えた方が、より網羅性が高い診断ができる観点から好ましい。
【0096】
以上説明した少なくとも一つの実施形態によれば、言語解析結果から抽出された目的語と述語との文内での距離が予め設定された基準よりも大きいか否かを診断する目的語・述語距離診断部35と、この診断の結果、距離が大きい場合、抽出された目的語と言語解析結果と述語省略診断ルール31aとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する述語省略診断部36と、この診断の結果、該当しない場合、目的語と述語とが離れている旨の指摘情報を出力する指摘情報生成部37とを備えた構成により、目的語と述語が離れている文の検出精度を向上させることができる。
【0097】
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に記憶して頒布することもできる。
【0098】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0099】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0100】
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0101】
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0102】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0103】
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0104】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0105】
10…コンピュータ、20…外部記憶装置、21…プログラム、30…文書処理装置、31…述語省略診断ルール記憶部、31a…述語省略診断ルール、32…入力部、33…言語解析部、34…目的語・述語識別部、35…目的語・述語距離診断部、36…述語省略診断部、37…指摘情報生成部、38…出力部、39…副助詞パターン診断ルール記憶部、39a…副助詞パターン診断ルール。
【技術分野】
【0001】
本発明の実施形態は、文書処理装置及びプログラムに関する。
【背景技術】
【0002】
分かりにくい文の類型としては、例えば、主語と述語が離れている文や、目的語と述語が離れている文がある。
【0003】
ここで、主語と述語が離れている文を検出するための手法としては、入力文を形態素解析することにより、主語と述語の距離を測り、基準値を超えている文を分かりにくい文として判断するものがある。
【0004】
また、目的語と述語が離れている文を検出するための手法としては、例えば、ヲ格の格助詞を手懸りに目的語を認識し、前述した手法と同様にして、目的語と述語の距離を測り、基準値を超えている文を分かりにくい文として実現可能と考えられる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−278954号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、目的語と述語が離れている文を検出する手法は、本発明者の検討によれば、過剰な指摘が行なわれるという不都合がある。このような過剰な指摘は、述語が省略された文で発生してしまう。
【0007】
例えば、目的語と述語が離れている文を検出する手法によれば、「客先用文書をカラー、社内用文書を白黒で印刷する」という例文に対し、「客先用文書」が目的語、「印刷する」が述語と認識され、目的語と述語が離れているという指摘がなされる。
【0008】
しかしながら、例文は「カラー」の後に「で印刷し」という述語(と助詞)が省略されている文であるから、目的語と述語が離れている訳ではない。このため、例文の目的語と述語が離れているという指摘は、過剰で不適切な指摘となると共に、目的語と述語が離れている文の検出精度を低下させることになる。なお、このような不適切な指摘は、目的語の認識に構文解析を用いるのみでは解消されない。
【0009】
本発明が解決しようとする課題は、目的語と述語が離れている文の検出精度を向上し得る文書処理装置及びプログラムを提供することである。
【課題を解決するための手段】
【0010】
実施形態の文書処理装置は、入力を受け付けた文において目的語と述語が基準値を超えて離れているとき、前記目的語と述語が離れている旨を指摘する。
【0011】
前記文書処理装置は、ルール記憶手段、言語解析手段、抽出手段、距離診断手段、述語省略診断手段及び第1の指摘情報生成手段を備えている。
【0012】
前記ルール記憶手段は、前記文の言語解析結果から認識された述語に接続する2つ以上の目的語があるとき、前記目的語に対して述語が省略されている場合を示す述語省略診断ルールが予め記憶されている。
【0013】
前記言語解析手段は、前記入力を受け付けた文を言語解析し、言語解析結果を得る。
【0014】
前記抽出手段は、前記言語解析結果から前記文の目的語と述語を抽出する。
【0015】
前記距離診断手段は、前記抽出された目的語と述語との前記文内での距離が予め設定された基準よりも大きいか否かを診断する。
【0016】
前記述語省略診断手段は、前記距離診断手段による診断の結果、距離が大きい場合、前記抽出された目的語と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する。
【0017】
前記第1の指摘情報生成手段は、前記述語省略診断手段による診断の結果、該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成し、この指摘情報を出力する。
【図面の簡単な説明】
【0018】
【図1】第1の実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。
【図2】同実施形態における文書処理装置の構成例を示すブロック図である。
【図3】同実施形態における述語省略診断ルールの一例を示す模式図である。
【図4】同実施形態における分割記号の定義の一例を示す模式図である。
【図5】同実施形態における文書処理装置の動作を説明するためのフローチャートである。
【図6】同実施形態における例文1の言語解析結果を示す模式図である。
【図7】同実施形態における他の例文2の言語解析結果を示す模式図である。
【図8】第2の実施形態に係る文書処理装置の構成例を示すブロック図である。
【図9】同実施形態における副助詞パターン診断ルールの一例を示す模式図である。
【図10】同実施形態における副助詞の定義の一例を示す模式図である。
【図11】同実施形態における文書処理装置の動作を説明するためのフローチャートである。
【図12】同実施形態における例文3の言語解析結果を示す模式図である。
【図13】同実施形態における他の例文4の述語及び目的語の認識結果を示す模式図である。
【発明を実施するための形態】
【0019】
以下、各実施形態について図面を用いて説明する。なお、各実施形態の文書処理装置は、ユーザ端末として実施してもよく、クライアントサーバシステムにおけるサーバ装置として実施してもよい。また、各実施形態の文書処理装置は、プライベートクラウド又はパブリッククラウド等のクラウドコンピューティングシステムにおいて、低負荷時に選択される複数台の処理実行装置の各々として実施してもよい。
【0020】
[第1の実施形態]
図1は第1の実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を記憶する。コンピュータ10及び外部記憶装置20は、文書処理装置30を構成している。
【0021】
この文書処理装置30は、入力を受け付けた文において目的語と述語が基準値を超えて離れているとき、前記目的語と述語が離れている旨を指摘するものであり、例えば、目的語と述語が離れている文を検出する機能を有する。
【0022】
文書処理装置30は、具体的には図2に示すように、述語省略診断ルール記憶部31、入力部32、言語解析部33、目的語・述語識別部34、目的語・述語距離診断部35、述語省略診断部36、指摘情報生成部37及び出力部38を備えている。各部31〜38は、コンピュータ10が外部記憶装置20内のプログラム21を実行することにより実現されるものとする。プログラム21は、コンピュータ読み取り可能な記憶媒体に予め記憶された形態で頒布可能となっている。また、プログラム21は、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。また、述語省略診断ルール記憶部31は、例えば外部記憶装置20内に実装されているが、コンピュータ10のメモリ(図示せず)内に実装されてもよい。
【0023】
述語省略診断ルール記憶部31は、図3に一例を示す如き、述語省略診断ルール31aが予め記憶されている。
【0024】
述語省略診断ルール31aは、文の言語解析結果から認識された述語に接続する2つ以上の目的語があるとき、当該目的語に対して述語が省略されている場合を示したルールであり、この例では適用条件と診断規則が規定されている。述語の省略箇所についても、第1の実施の形態と同じく必須ではないが、以下のように使用が可能となっている。
【0025】
適用条件としては、例えば「述語に接続する2つ以上の目的語において、当該目的語の後に分割記号があり、その後にさらに目的語がある。」等が適宜、使用可能となっている。
【0026】
診断規則としては、例えば、「当該目的語の後方直近の分割記号の直前ノードが、名詞、代名詞、数詞であれば、目的語に対する述語が省略されている。省略箇所は、当該目的語の後方直近の読点記号の直前である。」等が適宜、使用可能となっている。
【0027】
分割記号は、図4に一例を示すように、全角読点、半角読点、全角コンマ、半角コンマ、全角セミコロン及び半角セミコロンのいずれかであれば該当する。この分割記号の定義は、本明細書中で共通に用いられる。
【0028】
この述語省略診断ルール31aによれば、適用条件に当てはまる目的語に対して、診断規則に当てはまれば、述語が省略されている旨が診断される。これに加えて、述語の省略箇所が示されてもよい。
【0029】
入力部32は、例えばキーボード及びマウス等に対するユーザの操作に応じて、当該ユーザからの指示を受け付ける機能を有する。また、入力部32は、例えば、ユーザによって指定された文(目的語と述語の距離の診断対象となる文)の入力を受け付ける機能をもっている。ここで、入力部32により入力を受け付けた文は、例えば動詞、名詞または形容詞等を含む文節を含む複数の文節から構成される。
【0030】
言語解析部33は、入力部32により入力を受け付けた文(以下、対象文とも表記)に対して構文解析及び形態素解析等の言語解析を行い、言語解析結果を得る機能をもっている。なお、構文解析によれば、複数の文節から構成される対象文が文節毎に分割され、当該文節間に係り受け関係が付与される。一方、形態素解析によれば、対象文が形態素毎に分割され、当該各形態素に品詞が付与される。
【0031】
目的語・述語識別部34は、言語解析部33による言語解析結果から、文の目的語と述語を抽出する機能をもっている。この抽出機能は、例えば、品詞が動詞であり、連体修飾動詞でない文成分を述語として抽出する機能と、述語に対して「ヲ格」で接続する係り受けの文成分を目的語として抽出する機能とを含んでいる。
【0032】
目的語・述語距離診断部35は、目的語・述語識別部34により抽出された目的語と述語との対象文内での距離が予め設定された基準よりも大きいか否かを診断する機能を持っている。
【0033】
対象文における距離は、例えば、述語と目的語の間に存在する文節の数とするが、これに限らず、述語と目的語の間に存在する単語数や文字数としてもよい。
【0034】
また、基準としては、例えば初期値として、5又は6(文節)を予め設定しておき、適宜、ユーザによる設定変更を可能とすればよい。また、後述する例では、基準値が2の場合を例に挙げて説明するが、基準値を2とすると多くの文で距離が大きいと診断されるので、実際には、5又は6(文節)が好ましいと考えられる。
【0035】
述語省略診断部36は、目的語・述語距離診断部35による診断の結果、距離が大きい場合、目的語・述語識別部34により抽出された目的語と言語解析部33による言語解析結果と述語省略診断ルール記憶部31内の述語省略診断ルール31aとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する機能をもっている。
【0036】
指摘情報生成部37は、目的語・述語距離診断部35及び述語省略診断部36の各々の診断結果に基づき、ユーザに提示するメッセージとしての指摘情報を生成するものであり、以下の2つの機能(f37-1)〜(f37-2)をもっている。
【0037】
(f37-1) 述語省略診断部36による診断の結果、該当しない場合、目的語と述語とが離れている旨の指摘情報を生成し、この指摘情報を出力部38に出力する第1の指摘情報生成機能。
【0038】
(f37-2) 述語省略診断部36による診断の結果、該当する場合、述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力部38に出力する第2の指摘情報生成機能。なお、第2の指摘情報生成機能は、目的語と述語とが離れている文の検出に必須な処理ではないので、省略してもよい。第2の指摘情報生成機能を省略しても、目的語と述語とが離れている文の検出精度を向上できる。但し、第2の指摘情報生成機能を備えた構成の方が、述語が省略された文の修正を促すことができる観点から好ましい。また、図3に例示する診断規則のうち、省略箇所に関する規則を省略し、述語の省略の有無のみを診断し、省略されている旨の指摘情報のみとしてもよい。
【0039】
出力部38は、入力部32により入力を受け付けた文に対して、指摘情報生成部37から出力された指摘情報を出力する機能をもっている。ここで、出力部38による出力する形態としては、例えば液晶ディスプレイに表示出力する形態などが適宜、使用可能となっている。
【0040】
次に、以上のように構成された文書処理装置の動作について図5のフローチャートを参照しながら説明する。
【0041】
始めに、入力部32は、ユーザの操作に応じて、当該ユーザによって指定された文の入力を受け付ける処理により、入力文(対象文)を取得する(ステップS10)。入力文は、複数の文節から構成される。また、入力を受け付けた文を構成する複数の文節には、例えば動詞、名詞または形容詞を含む文節が含まれる。文の入力を受け付ける処理としては、ユーザがキーボード等から直接入力した文を受け付けても良いし、既存のファイル(文書)から読み込んだ文を受け付けてもよい。
【0042】
次に、言語解析部33は、入力部32により入力を受け付けた文(対象文)に対して構文解析又は形態素解析等の言語解析を行い(ステップS20)、言語解析結果を得る。
【0043】
例えば、構文解析の場合、対象文「客先用資料をカラー、社内用資料を白黒で印刷する」(例文1)に対して図6に示す如き、構文解析結果を得る。構文解析によれば、対象文を構成する複数の文節間に係り受け関係が付与される。なお、対象文を構成する文節の各々は、少なくとも1つ以上の単語からなる。
【0044】
構文解析結果においては、複数の文節から構成される対象文が文節毎に分割される。図6に示す構文解析結果によれば、対象文「客先用資料をカラー、社内用資料を白黒で印刷する」は、文節「客先用資料を」、「カラー」、「社内用資料を」、「白黒で」、「印刷する」に分割されている。
【0045】
なお、図6においては、便宜的に、対象文を構成する各文節における最初の単語(文節の語幹)のみが記されている。また、対象文を構成する文節における最初の単語には、当該単語の品詞が付与されている。図6に示す構文解析結果において、「客先用資料<名詞>」は、対象文を構成する複数の文節のうち、文節における最初の単語が名詞の「客先用資料」である文節「客先用資料を」を表わしている。
【0046】
また、構文解析結果においては、係り受け関係にある2つの文節間に矢印が付与されている(つまり、2つの文節間が矢印で結ばれている)。なお、構文解析結果における矢印の先が係り受け先の文節を示し、矢印の元が係り受け元の文節を示す。これによって、矢印の先と元との文節間に係り受け関係があることが示される。
【0047】
また、構文解析結果においては、必要に応じて矢印に2つの文節の係り受け関係が付与されている。例えば、図6に示す構文解析結果では、文節「客先用資料を」及び文節「印刷する」の係り受け関係がヲ格であることが示されている。
【0048】
また、別の対象文「本データを、提供系処理部に応答を送信するときに使用する」(例文2)に対する構文解析結果を図7に示す。
【0049】
次に、目的語・述語識別部34は、言語解析部33による言語解析結果から、述語と、それぞれの述語に対応する目的語を抽出する(ステップS30)。例えば、目的語・述語識別部34は、品詞が動詞であり、連体修飾関係にないものを選択することにより、述語を抽出する。また、目的語・述語識別部34は、述語に対して、ヲ格の係り受け関係にある文節を選択することにより、目的語を抽出する。あるいは、言語解析部33で形態素解析のみを行なった場合には、述語と対象文において前方にある他の述語(他の述語が前方に無い場合は、文の先頭)の間に存在する名詞で、付属語として「を」を有するものを選択することにより、目的語を抽出することができる。
【0050】
図6に示した構文解析結果においては、述語は「印刷する」であり、述語に対応する目的語は「客先用資料」と「社内用資料」の2つである。
【0051】
図7に示した構文解析結果においては、述語は「使用する」であり、述語に対応する目的語は「本データ」である。なお、この例では、「送信する」は「とき」にかかる連体修飾語なので、述語とはならない。
【0052】
次に、目的語・述語距離診断部35は、対象文における全ての述語に対して(ステップS40)、それぞれの述語に対応する目的語との対象文における距離を測り、この距離が予め設定した値より大きいか否かを診断する(ステップS50)。本実施形態では、述語と目的語との間に存在する文節の数を測り、得られた値を距離としている。
【0053】
図6に示した構文解析結果において、述語「印刷する」と目的語「客先用資料」の間には、「カラーで」、「社内用資料を」、「白黒で」の3つの文節が存在するので、述語と目的語の距離は3となる。また、述語「印刷する」と目的語「社内用資料」の間には、「白黒で」の1つの文節が存在するので、述語と目的語の距離は1となる。
【0054】
ここで、予め設定された距離の基準値が2である場合には、述語「印刷する」と目的語「客先用資料」は距離が大きいと診断される。また、述語「印刷する」と目的語「社内用資料」は距離が小さいと診断される。なお、「距離が大きい」の用語は、「距離が離れている」、「距離が遠い」又は「距離が長い」と読み替えてもよい。同様に、「距離が小さい」の用語は、「距離が離れていない」、「距離が近い」又は「距離が短い」と読み替えてもよい。
【0055】
図7に示した構文解析結果において、述語「使用する」と目的語「本データ」の間には、「提供系処理部に」、「応答を」、「送信する」、「ときに」の4文節が存在するので、述語と目的語の距離は4となり、基準値が2の場合には、目的語と述語の距離が大きいと診断される。
【0056】
次に、述語省略診断部36は、目的語・述語距離診断部35による診断の結果、距離が大きい場合、目的語・述語識別部34により抽出された目的語と言語解析部33による言語解析結果と述語省略診断ルール記憶部31内の述語省略診断ルール31aとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する(ステップS60〜S70)。
【0057】
図6に示した対象文に対しては、述語「印刷する」に、目的語「客先用資料」と「社内用資料」の2つが存在し、述語が省略されている場合に該当する旨が診断される(S70;述語省略)。
【0058】
図7に示した対象文に対しては、述語が省略されている場合に該当しない旨が診断される(S70;述語省略ではない)。
【0059】
指摘情報生成部37は、目的語・述語距離診断部35での診断結果と、述語省略診断部36の診断結果に基づき、メッセージとしての指摘情報を生成する(ステップS80,S90)。
【0060】
述語と目的語の距離が小さい旨が診断された場合(S50;小さい)、指摘情報を生成しない。
【0061】
述語と目的語の距離が大きい旨と、述語省略に該当する旨とが診断された場合(S50;大きい。S70;述語省略)、述語が省略されている旨を指摘する指摘情報を生成する(ステップS80)。
【0062】
述語と目的語の距離が大きい旨と、述語省略に該当しない旨とが診断された場合(S50;大きい。S70;述語省略ではない)、目的語と述語とが離れている旨を指摘する指摘情報を生成する(ステップS90)。
【0063】
図6に示した対象文において、述語「印刷する」と目的語「社内用資料」については、距離が小さい旨が診断されているので、指摘情報が生成されない。述語「印刷する」と目的語「客先用資料」については、距離が大きい旨と、述語省略に該当する旨とが診断されているので、「「カラー」の直後に述語が省略されています。」といった指摘情報が生成される(ステップS80)。
【0064】
図7に示した対象文において、述語「使用する」と目的語「本データ」については、距離が大きい旨と、述語省略に該当しない旨とが診断されているので、「目的語「本データ」と述語「使用する」が離れています。」といった指摘情報が生成される(ステップS90)。
【0065】
続いて、指摘情報生成部37は、ステップS80又はS90により生成した指摘情報を出力部38に出力する(ステップS100)。
【0066】
出力部38は、入力部32により入力を受け付けた文に対して、指摘情報生成部37から出力された指摘情報を、例えば液晶ディスプレイに表示する。
【0067】
上述したように本実施形態によれば、言語解析結果から抽出された目的語と述語との文内での距離が予め設定された基準よりも大きいか否かを診断する目的語・述語距離診断部35と、この診断の結果、距離が大きい場合、抽出された目的語と言語解析結果と述語省略診断ルール31aとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する述語省略診断部36と、この診断の結果、該当しない場合、目的語と述語とが離れている旨の指摘情報を出力する指摘情報生成部37とを備えた構成により、目的語と述語が離れていると認識された文に対し、述語が省略されているか否かが診断されるので、不適切な指摘が減り、目的語と述語が離れている文の検出精度を向上できる。
【0068】
また、述語が省略されたことにより、目的語と述語が離れているように見える文に対して、述語が省略されている旨の指摘情報が出力されるので、適切な指摘により、文の分かり易さの向上を期待することができる。
【0069】
[第2の実施形態]
図8は第2の実施形態に係る文書処理装置の構成例を示すブロック図であり、図2と略同一部分については同一符号を付してその詳しい説明を省略し、ここでは異なる部分について主に述べる。
【0070】
第2の実施形態は、第1の実施形態の変形例であり、副助詞を持つ並列文の述語省略を発見できるものであって、具体的には副助詞パターン診断ルール記憶部39を更に備えている。
【0071】
ここで、副助詞パターン診断ルール記憶部39は、図9に一例を示すように、副助詞パターン診断ルール39aが予め記憶されている。
【0072】
副助詞パターン診断ルール39aは、副助詞パターンに基づいて、述語の省略を診断する方法として、文に2以上の同一の副助詞があって当該副助詞に対して述語が省略されている場合を示したルールであり、この例では、適用条件と診断規則が規定されている。述語の省略箇所についても、必須ではないが、以下のように使用が可能となっている。
【0073】
適用条件としては、例えば「入力文に同じ副助詞が2つ以上ある。かつ、副助詞の後に分割記号があり、その後にさらに同じ副助詞がある。」等が適宜、使用可能となっている。
【0074】
診断規則としては、例えば「当該副助詞から、直後の副助詞までの分割記号の直前ノードが全て、名詞、代名詞、数詞であれば、当該副助詞のノードに対する述語が省略されている。
【0075】
省略箇所は、当該副助詞の直後の副助詞の直前の分割記号の直前である。」等が適宜、使用可能となっている。副助詞は、図10に一例を示すように、「は」、「では」、「には」、「へは」、「も」、「でも」、「にも」及び「へも」のいずれかであれば該当する。この副助詞の定義は、本明細書中で共通に用いられる。
【0076】
この副助詞パターン診断ルール39aによれば、適用条件に当てはまる副助詞に対して、診断規則に当てはまれば、述語が省略されている旨が診断される。これに加えて、述語の省略箇所が示されてもよい。
【0077】
これに伴い、述語省略診断部36は、目的語に対して述語が省略されている場合に該当するか否かを診断した結果、該当しない場合には、入力を受け付けた文に対し、言語解析部33による言語解析結果と副助詞パターン診断ルール39aとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断するものとなっている。
【0078】
また、指摘情報生成部37の第1の指摘情報生成機能(f39-1)は、述語省略診断部36による診断の結果、目的語又は副助詞のいずれに対しても述語が省略されている場合に該当しない場合、目的語と述語とが離れている旨の指摘情報を生成及び出力するものとなっている。
【0079】
さらに、指摘情報生成部37の第2の指摘情報生成機能(f39-2)は、述語省略診断部36による診断の結果、目的語又は副助詞のいずれかに対して述語が省略されている場合に該当する場合、述語が省略されている旨を指摘する指摘情報を生成及び出力するものとなっている。
【0080】
次に、以上のように構成された文書処理装置の動作について図11のフローチャートを参照しながら説明する。
【0081】
始めに、ステップS10〜S70の処理は、前述同様に実行される。
【0082】
次に、ステップS70の述語省略診断の結果、目的語に対して述語が省略されている場合に該当しない場合には、ステップS75に移行する。
【0083】
ステップS75においては、副助詞パターン診断が実行される。
【0084】
述語省略診断部36は、入力を受け付けた文に対し、言語解析部33による言語解析結果と副助詞パターン診断ルール39aとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断する。
【0085】
例えば、図12に示す如き、「装置Aではメモリ容量、装置Bでは処理時間を、提供系処理部に応答を送信するときに計算する。」という例文3の言語解析結果に対して、ステップS70では、図13に示すように述語と目的語の関係が一対一であるため、述語が省略されていないと判定され、副助詞パターン診断S75が実行される。
【0086】
例文3は、同じ副助詞「では」が二つ存在し、最初の「では」の後に分割記号があり、その後にさらに同じ副助詞「では」があるので、図9に示す副助詞パターン診断ルール39aの適用条件を満たす。
【0087】
次に、述語省略診断部36は、この最初の副助詞に対して、診断規則を適用する。最初の副助詞「では」から次の副助詞「では」までの分割記号の直前ノードは「メモリ容量」なので、副助詞「では」のノード「装置A」の述語が省略されたと診断される。省略箇所は「メモリ容量」の直後である。
【0088】
副助詞パターン診断部40は、副助詞「では」毎に省略箇所を示す情報「「メモリ容量」の直後」を指摘情報生成部37に送出する。
【0089】
なお、例えば「装置Aでは、メモリ容量を計算する装置Bの処理時間を、提供系処理部に応答を送信するときに計算する。」(例文4)に対して、副助詞パターン診断S75を行うと、同じ副助詞が2つ以上存在せずに副助詞パターン診断ルール39aの適用条件を満たさないので、述語省略診断部36は、述語が省略された文ではないと診断し、この文に対する処理を終了する。
【0090】
しかる後、指摘情報生成部37は、述語省略診断部36による診断の結果、目的語又は副助詞のいずれに対しても述語が省略されている場合に該当しない場合、目的語と述語とが離れている旨の指摘情報を生成し(ステップS90)、この指摘情報を出力部38に出力する(ステップS100)。
【0091】
また、指摘情報生成部37は、述語省略診断部36による診断の結果、目的語又は副助詞のいずれかに対して述語が省略されている場合に該当する場合、例えば、例文3に対して「「メモリ容量」の直後に述語が省略されています。」といった指摘情報を生成し(ステップS80)、この指摘情報を出力部38に出力する(ステップS100)。
【0092】
出力部38は、入力部32により入力を受け付けた文に対して、指摘情報生成部37から出力された指摘情報を、例えば液晶ディスプレイに表示する。
【0093】
上述したように本実施形態によれば、述語省略診断部36が、目的語に対して述語が省略されている場合に該当するか否かを診断した結果、該当しない場合には、入力を受け付けた文に対し、言語解析部33による言語解析結果と副助詞パターン診断ルール39aとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、指摘情報生成部37が、述語省略診断部36による診断の結果、目的語又は副助詞のいずれに対しても述語が省略されている場合に該当しない場合、目的語と述語とが離れている旨の指摘情報を生成及び出力し、目的語又は副助詞のいずれかに対して述語が省略されている場合に該当する場合、述語が省略されている旨を指摘する指摘情報を生成及び出力する構成により、第1の実施形態の効果に加え、副助詞を持つ並列文の述語省略を発見することができる。
【0094】
補足すると、第1の実施形態では、目的語が存在しない文、あるいは目的語を表す格助詞を省略した文(例えば、例文3)に対して、述語の省略を正しく診断できない。しかしながら、第2の実施形態によれば、これらの文の述語省略を診断できるので、第1の実施形態における述語省略診断の再現率を向上できる。
【0095】
なお、第2の実施形態に、第1の実施形態と同じステップS70を省略しても、副助詞を持つ並列文の述語省略を発見できる。但し、第1の実施形態のステップS70の処理を備えた方が、より網羅性が高い診断ができる観点から好ましい。
【0096】
以上説明した少なくとも一つの実施形態によれば、言語解析結果から抽出された目的語と述語との文内での距離が予め設定された基準よりも大きいか否かを診断する目的語・述語距離診断部35と、この診断の結果、距離が大きい場合、抽出された目的語と言語解析結果と述語省略診断ルール31aとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する述語省略診断部36と、この診断の結果、該当しない場合、目的語と述語とが離れている旨の指摘情報を出力する指摘情報生成部37とを備えた構成により、目的語と述語が離れている文の検出精度を向上させることができる。
【0097】
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に記憶して頒布することもできる。
【0098】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0099】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0100】
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0101】
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0102】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0103】
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0104】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0105】
10…コンピュータ、20…外部記憶装置、21…プログラム、30…文書処理装置、31…述語省略診断ルール記憶部、31a…述語省略診断ルール、32…入力部、33…言語解析部、34…目的語・述語識別部、35…目的語・述語距離診断部、36…述語省略診断部、37…指摘情報生成部、38…出力部、39…副助詞パターン診断ルール記憶部、39a…副助詞パターン診断ルール。
【特許請求の範囲】
【請求項1】
入力を受け付けた文において目的語と述語が基準値を超えて離れているとき、前記目的語と述語が離れている旨を指摘する文書処理装置であって、
前記文の言語解析結果から認識された述語に接続する2つ以上の目的語があるとき、前記目的語に対して述語が省略されている場合を示す述語省略診断ルールが予め記憶されたルール記憶手段と、
前記入力を受け付けた文を言語解析し、言語解析結果を得る言語解析手段と、
前記言語解析結果から前記文の目的語と述語を抽出する抽出手段と、
前記抽出された目的語と述語との前記文内での距離が予め設定された基準よりも大きいか否かを診断する距離診断手段と、
前記距離診断手段による診断の結果、距離が大きい場合、前記抽出された目的語と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する述語省略診断手段と、
前記述語省略診断手段による診断の結果、該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成し、この指摘情報を出力する第1の指摘情報生成手段と
を備えたことを特徴とする文書処理装置。
【請求項2】
請求項1に記載の文書処理装置において、
前記述語省略診断手段による診断の結果、該当する場合、前記述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する第2の指摘情報生成手段、
を更に備えたことを特徴とする文書処理装置。
【請求項3】
請求項2に記載の文書処理装置において、
前記文に2以上の同一の副助詞があって前記副助詞に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとが予め記憶された副助詞診断ルール記憶手段、
を更に備え、
前記述語省略診断手段は、
前記目的語に対して述語が省略されている場合に該当するか否かを診断した結果、該当しない場合には、前記入力を受け付けた文に対し、前記言語解析手段による言語解析結果と前記副助詞診断ルールとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、
前記第1の指摘情報生成手段は、
前記述語省略診断手段による診断の結果、前記目的語又は前記副助詞のいずれに対しても述語が省略されている場合に該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成及び出力し、
前記第2の指摘情報生成手段は、
前記述語省略診断手段による診断の結果、前記目的語又は前記副助詞のいずれかに対して述語が省略されている場合に該当する場合、前記述語が省略されている旨を指摘する指摘情報を生成及び出力することを特徴とする文書処理装置。
【請求項4】
メモリを備え、入力を受け付けた文において目的語と述語が基準値を超えて離れているとき、前記目的語と述語が離れている旨を指摘する文書処理装置に用いられるプログラムであって、
前記文書処理装置を、
前記文の言語解析結果から認識された述語に接続する2つ以上の目的語があるとき、前記目的語に対して述語が省略されている場合を示す述語省略診断ルールを前記メモリに予め書き込む手段、
前記入力を受け付けた文を言語解析し、言語解析結果を得る言語解析手段、
前記言語解析結果から前記文の目的語と述語を抽出する抽出手段、
前記抽出された目的語と述語との前記文内での距離が予め設定された基準よりも大きいか否かを診断する距離診断手段、
前記距離診断手段による診断の結果、距離が大きい場合、前記抽出された目的語と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する述語省略診断手段、
前記述語省略診断手段による診断の結果、該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成し、この指摘情報を出力する第1の指摘情報生成手段、
として機能させるためのプログラム。
【請求項5】
請求項4に記載のプログラムにおいて、
前記文書処理装置を、
前記述語省略診断手段による診断の結果、該当する場合、前記述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する第2の指摘情報生成手段、
として更に機能させるためのプログラム。
【請求項6】
請求項5に記載のプログラムにおいて、
前記文書処理装置を、
前記文に2以上の同一の副助詞があって前記副助詞に対して述語が省略されている場合を示す述語省略診断ルールを前記メモリに予め書き込む手段、
として更に機能させ、
前記述語省略診断手段は、
前記目的語に対して述語が省略されている場合に該当するか否かを診断した結果、該当しない場合には、前記入力を受け付けた文に対し、前記言語解析手段による言語解析結果と前記副助詞診断ルールとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断する手段であり、
前記第1の指摘情報生成手段は、
前記述語省略診断手段による診断の結果、前記目的語又は前記副助詞のいずれに対しても述語が省略されている場合に該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成及び出力する手段であり、
前記第2の指摘情報生成手段は、
前記述語省略診断手段による診断の結果、前記目的語又は前記副助詞のいずれかに対して述語が省略されている場合に該当する場合、前記述語が省略されている旨を指摘する指摘情報を生成及び出力する手段であるプログラム。
【請求項1】
入力を受け付けた文において目的語と述語が基準値を超えて離れているとき、前記目的語と述語が離れている旨を指摘する文書処理装置であって、
前記文の言語解析結果から認識された述語に接続する2つ以上の目的語があるとき、前記目的語に対して述語が省略されている場合を示す述語省略診断ルールが予め記憶されたルール記憶手段と、
前記入力を受け付けた文を言語解析し、言語解析結果を得る言語解析手段と、
前記言語解析結果から前記文の目的語と述語を抽出する抽出手段と、
前記抽出された目的語と述語との前記文内での距離が予め設定された基準よりも大きいか否かを診断する距離診断手段と、
前記距離診断手段による診断の結果、距離が大きい場合、前記抽出された目的語と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する述語省略診断手段と、
前記述語省略診断手段による診断の結果、該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成し、この指摘情報を出力する第1の指摘情報生成手段と
を備えたことを特徴とする文書処理装置。
【請求項2】
請求項1に記載の文書処理装置において、
前記述語省略診断手段による診断の結果、該当する場合、前記述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する第2の指摘情報生成手段、
を更に備えたことを特徴とする文書処理装置。
【請求項3】
請求項2に記載の文書処理装置において、
前記文に2以上の同一の副助詞があって前記副助詞に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとが予め記憶された副助詞診断ルール記憶手段、
を更に備え、
前記述語省略診断手段は、
前記目的語に対して述語が省略されている場合に該当するか否かを診断した結果、該当しない場合には、前記入力を受け付けた文に対し、前記言語解析手段による言語解析結果と前記副助詞診断ルールとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、
前記第1の指摘情報生成手段は、
前記述語省略診断手段による診断の結果、前記目的語又は前記副助詞のいずれに対しても述語が省略されている場合に該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成及び出力し、
前記第2の指摘情報生成手段は、
前記述語省略診断手段による診断の結果、前記目的語又は前記副助詞のいずれかに対して述語が省略されている場合に該当する場合、前記述語が省略されている旨を指摘する指摘情報を生成及び出力することを特徴とする文書処理装置。
【請求項4】
メモリを備え、入力を受け付けた文において目的語と述語が基準値を超えて離れているとき、前記目的語と述語が離れている旨を指摘する文書処理装置に用いられるプログラムであって、
前記文書処理装置を、
前記文の言語解析結果から認識された述語に接続する2つ以上の目的語があるとき、前記目的語に対して述語が省略されている場合を示す述語省略診断ルールを前記メモリに予め書き込む手段、
前記入力を受け付けた文を言語解析し、言語解析結果を得る言語解析手段、
前記言語解析結果から前記文の目的語と述語を抽出する抽出手段、
前記抽出された目的語と述語との前記文内での距離が予め設定された基準よりも大きいか否かを診断する距離診断手段、
前記距離診断手段による診断の結果、距離が大きい場合、前記抽出された目的語と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該目的語に対して述語が省略されている場合に該当するか否かを診断する述語省略診断手段、
前記述語省略診断手段による診断の結果、該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成し、この指摘情報を出力する第1の指摘情報生成手段、
として機能させるためのプログラム。
【請求項5】
請求項4に記載のプログラムにおいて、
前記文書処理装置を、
前記述語省略診断手段による診断の結果、該当する場合、前記述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する第2の指摘情報生成手段、
として更に機能させるためのプログラム。
【請求項6】
請求項5に記載のプログラムにおいて、
前記文書処理装置を、
前記文に2以上の同一の副助詞があって前記副助詞に対して述語が省略されている場合を示す述語省略診断ルールを前記メモリに予め書き込む手段、
として更に機能させ、
前記述語省略診断手段は、
前記目的語に対して述語が省略されている場合に該当するか否かを診断した結果、該当しない場合には、前記入力を受け付けた文に対し、前記言語解析手段による言語解析結果と前記副助詞診断ルールとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断する手段であり、
前記第1の指摘情報生成手段は、
前記述語省略診断手段による診断の結果、前記目的語又は前記副助詞のいずれに対しても述語が省略されている場合に該当しない場合、前記目的語と前記述語とが離れている旨の指摘情報を生成及び出力する手段であり、
前記第2の指摘情報生成手段は、
前記述語省略診断手段による診断の結果、前記目的語又は前記副助詞のいずれかに対して述語が省略されている場合に該当する場合、前記述語が省略されている旨を指摘する指摘情報を生成及び出力する手段であるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2012−141877(P2012−141877A)
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2011−501(P2011−501)
【出願日】平成23年1月5日(2011.1.5)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願日】平成23年1月5日(2011.1.5)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]