文書処理装置及びプログラム
【課題】 述語の省略を発見して作成者に修正を促すことを可能とする。
【解決手段】 実施形態の言語解析手段は、前記入力を受け付けた文を言語解析し、言語解析結果を得る。実施形態の構文関係検査手段は、この言語解析結果と前記格情報認識ルール及び前記構文関係検査ルールとに基づいて、前記要注意成分があるか否かを検査し、前記要注意成分がある場合には当該要注意成分を送出する。実施形態の述語省略診断手段は、前記入力を受け付けた文に対し、前記送出された要注意成分と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該要注意成分に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を送出する。実施形態の指摘情報生成手段は、前記送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する。
【解決手段】 実施形態の言語解析手段は、前記入力を受け付けた文を言語解析し、言語解析結果を得る。実施形態の構文関係検査手段は、この言語解析結果と前記格情報認識ルール及び前記構文関係検査ルールとに基づいて、前記要注意成分があるか否かを検査し、前記要注意成分がある場合には当該要注意成分を送出する。実施形態の述語省略診断手段は、前記入力を受け付けた文に対し、前記送出された要注意成分と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該要注意成分に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を送出する。実施形態の指摘情報生成手段は、前記送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、文書処理装置及びプログラムに関する。
【背景技術】
【0002】
日本語の文では、述語が省略されることがよくある。例えば、「客先用文書をカラー、社内用文書を白黒で印刷する。」という例文1の場合、「カラー」の後の「で印刷し」の述語が省略されている。このような例文1は、プリンターには「カラー」印刷機能と「白黒」印刷機能がある旨の知識を持つ人によれば、省略された述語が補完されて正しく理解される。しかしながら、例文1は、文書処理装置により構文解析されると、図9に示すように、「カラー」と「白黒」の並列関係が解析されずに、「カラー」とその直後の「社内用文書」が並列関係と解析されてしまう。
【0003】
また、述語の省略は、構文解析に限らず、人間による意味理解にも障碍となる場合がある。例えば、「作成した社員情報を社員情報データベースに登録、保存要求を送信する。」という文の場合、「登録」の後に活用語尾「し」という述語の一部が省略されている。このような述語の省略は、「社員情報データベースに登録する」及び「社員情報データベースに登録と保存要求を送信する」の2通りの解釈が可能なため、読み手による意味理解にも障碍となる。このような障碍は、特に、日本語のネイティブではない読み手に生じ易い傾向がある。
【0004】
従って、例えば、文書処理装置が述語の省略を発見して作成者に修正を促すことができれば、構文解析や意味理解に障碍のない文の作成を支援する観点から望ましい。
【0005】
なお、述語が省略された文ではなく、主語、目的語、助動詞が省略された省略文については、予め登録された並列文標識語を用いて自動的に検出する方法が知られている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平7−85046号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
以上説明したように、文書処理装置が述語の省略を発見して作成者に修正を促すことができることが望ましい。
【0008】
本発明が解決しようとする課題は、述語の省略を発見して作成者に修正を促すことが可能な文書処理装置及びプログラムを提供することである。
【課題を解決するための手段】
【0009】
実施形態の文書処理装置は、入力を受け付けた文において述語が省略されているとき、前記述語が省略されている旨を指摘して修正を促す。
【0010】
前記文書処理装置は、ルール記憶手段、言語解析手段、構文関係検査手段、述語省略診断手段及び指摘情報生成手段を備えている。
【0011】
前記ルール記憶手段は、前記文の言語解析結果から述語及び目的語を認識するための格情報認識ルールと、前記認識された述語に接続する2つ以上の目的語を要注意成分とする旨を規定した構文関係検査ルールと、前記要注意成分に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとが予め記憶されている。
【0012】
前記言語解析手段は、前記入力を受け付けた文を言語解析し、言語解析結果を得る。
【0013】
前記構文関係検査手段は、この言語解析結果と前記格情報認識ルール及び前記構文関係検査ルールとに基づいて、前記要注意成分があるか否かを検査し、前記要注意成分がある場合には当該要注意成分を送出する。
【0014】
前記述語省略診断手段は、前記入力を受け付けた文に対し、前記送出された要注意成分と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該要注意成分に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を送出する。
【0015】
前記指摘情報生成手段は、前記送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する。
【図面の簡単な説明】
【0016】
【図1】第1の実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。
【図2】同実施形態における文書処理装置の構成例を示すブロック図である。
【図3】同実施形態における格情報認識ルールの一例を示す模式図である。
【図4】同実施形態における構文関係検査ルールの一例を示す模式図である。
【図5】同実施形態における述語省略診断ルールの一例を示す模式図である。
【図6】同実施形態における省略形式判定ルールの一例を示す模式図である。
【図7】同実施形態における分割記号の定義の一例を示す模式図である。
【図8】同実施形態における文書処理装置の動作を説明するためのフローチャートである。
【図9】同実施形態における例文1の言語解析結果を示す模式図である。
【図10】同実施形態における例文1の述語及び目的語の認識結果を示す模式図である。
【図11】同実施形態における例文4の言語解析結果を示す模式図である。
【図12】同実施形態における例文4の述語及び目的語の認識結果を示す模式図である。
【図13】同実施形態における例文1に対する指摘情報の例を示す模式図である。
【図14】同実施形態における例文2に対する指摘情報の例を示す模式図である。
【図15】同実施形態における例文3に対する指摘情報の例を示す模式図である。
【図16】第2の実施形態に係る文書処理装置の構成例を示すブロック図である。
【図17】同実施形態における副助詞パターン診断ルールの一例を示す模式図である。
【図18】同実施形態における副助詞の定義の一例を示す模式図である。
【図19】同実施形態における文書処理装置の動作を説明するためのフローチャートである。
【図20】同実施形態における例文5の言語解析結果を示す模式図である。
【図21】同実施形態における例文5の述語及び目的語の認識結果を示す模式図である。
【図22】第3の実施形態に係る文書処理装置の構成例を示すブロック図である。
【図23】同実施形態における修正候補推定用情報決定ルールの一例を示す模式図である。
【図24】同実施形態における修正候補推定ルールの一例を示す模式図である。
【図25】同実施形態における文書処理装置の動作を説明するためのフローチャートである。
【図26】同実施形態における例文1に対する指摘情報の例を示す模式図である。
【図27】同実施形態における例文2に対する指摘情報の例を示す模式図である。
【図28】同実施形態における例文3に対する指摘情報の例を示す模式図である。
【図29】同実施形態における変形形態の文書処理装置の構成例を示すブロック図である。
【図30】同実施形態における変形形態の文書処理装置の動作を説明するためのフローチャートである。
【発明を実施するための形態】
【0017】
以下、各実施形態について図面を用いて説明する。なお、各実施形態の文書処理装置は、ユーザ端末として実施してもよく、クライアントサーバシステムにおけるサーバ装置として実施してもよい。また、各実施形態の文書処理装置は、プライベートクラウド又はパブリッククラウド等のクラウドコンピューティングシステムにおいて、低負荷時に選択される複数台の処理実行装置の各々として実施してもよい。
【0018】
[第1の実施形態]
図1は第1の実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。コンピュータ10は、例えばハードディスクドライブのような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を記憶する。コンピュータ10及び外部記憶装置20は、文書処理装置30を構成している。
【0019】
この文書処理装置30は、入力を受け付けた文において述語が省略されているとき、前記述語が省略されている旨を指摘して修正を促すものであり、例えばユーザによって指定された文を提示し、述語の省略を診断する指示を受け付け、診断結果を出力する機能を有する。
【0020】
文書処理装置30は、具体的には図2に示すように、診断ルール記憶部31及び入力部32、言語解析部33、構文関係検査部34、述語省略診断部35、省略形式判定部36、指摘情報生成部37及び出力部38を備えている。各部31〜38は、コンピュータ10が外部記憶装置20内のプログラム(文書処理プログラム)21を実行することにより実現されるものとする。プログラム21は、コンピュータ読み取り可能な記憶媒体に予め記憶された形態で頒布可能となっている。また、プログラム21は、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。また、診断ルール記憶部31は、例えば外部記憶装置20内に実装されているが、コンピュータ10のメモリ(図示せず)内に実装されてもよい。
【0021】
診断ルール記憶部31は、図3〜図6に示すように、格情報認識ルール31a、構文関係検査ルール31b、述語省略診断ルール31c、省略形式判定ルール31dが予め記憶される。なお、各ルール31a〜31dは、図示しない制御部により、同一の記憶部31内に予め書き込まれるが、これに限らず、別々の記憶部に予め書き込まれてもよい。
【0022】
格情報認識ルール31aは、図3に一例を示すように、文の言語解析結果から述語及び目的語などの文の成分を認識するための情報であり、例えば、文の成分、基本条件及び除外条件が規定されている。基本条件としては、例えば「品詞が動詞のノード」及び「述語ノードを親ノードとし、「を格」で接続する係り受けのノード」が適宜、使用可能となっている。除外条件としては、例えば「連体修飾動詞であれば、除外する」及び「−(除外条件なし)」等が適宜、使用可能となっている。格情報認識ルール31aによれば、基本条件に当てはまり、さらに除外条件に当てはまらない場合、文の成分として認識される。例えば、基本条件「品詞が動詞のノード」に当てはまり、除外条件「連体修飾動詞であれば、除外する」に当てはまらない場合、文の成分「述語」として認識される。同様に、基本条件「述語ノードを親ノードとし、「を格」で接続する係り受けのノード」に当てはまる場合、除外条件が無いので、文の成分「目的語」として認識される。
【0023】
格情報認識ルール31aは、図3に示した例によれば、構文解析結果に対して述語と目的語の認識規則を示すが、この例に限らず、形態素解析結果に対して形態素の品詞や助詞の形式によって述語と目的語の認識規則を設けることも可能である。
【0024】
構文関係検査ルール31bは、図4に一例を示すように、文の成分がどのような関係になると要注意成分とするかを規定するものであり、例えば、認識された述語に接続する2つ以上の目的語を要注意成分とする旨を規定している。
【0025】
述語省略診断ルール31cは、図5に一例を示すように、要注意成分となる情報に対して述語が省略されたかどうかを診断する方法として、要注意成分に対して述語が省略されている場合と述語の省略箇所とを示したルールであり、この例では適用条件と診断規則が規定されている。適用条件としては、例えば「要注意成分の後に分割記号があり、その後にさらに要注意成分がある。」等が適宜、使用可能となっている。診断規則としては、例えば、「要注意成分の後方直近の分割記号の直前ノードが、名詞、代名詞、数詞であれば、要注意成分に対する述語が省略されている。省略箇所は、要注意成分の後方直近の読点記号の直前である。」等が適宜、使用可能となっている。分割記号は、図7に一例を示すように、全角読点、半角読点、全角コンマ、半角コンマ、全角セミコロン及び半角セミコロンのいずれかであれば該当する。この分割記号の定義は、本明細書中で共通に用いられる。この述語省略診断ルール31cによれば、適用条件に当てはまる要注意成分に対して、診断規則に当てはまれば、述語が省略されている旨が診断され、述語の省略箇所が示される。
【0026】
省略形式判定ルール31dは、図6に一例を示すように、述語の省略形式を判別するための方法であり、例えば、省略箇所に対する直前の箇所の品詞と付属語の有無とに応じて省略形式を示す情報を用いればよい。なお、図6における「分割記号」は、いずれも診断規則における「要注意成分の後方直近の分割記号」を意味している。
【0027】
入力部32は、例えばキーボード又はマウス等に対するユーザの操作に応じて、当該ユーザからの指示を受け付ける。また、入力部32は、例えばユーザによって指定された評価対象となる文の入力を受け付ける機能をもっている。
【0028】
言語解析部33は、入力部32により入力を受け付けた文に対して構文解析や形態素解析等の言語解析を行い、言語解析結果を構文関係検査部34に送出する機能をもっている。
【0029】
構文関係検査部34は、構文関係検査部34から送出された言語解析結果と診断ルール記憶部31内の格情報認識ルール31a及び構文関係検査ルール31bとに基づいて、要注意成分があるか否かを検査し、要注意成分がある場合には当該要注意成分を述語省略診断部35に送出する機能をもっている。
【0030】
述語省略診断部35は、入力部32により入力を受け付けた文に対し、構文関係検査部34から送出された要注意成分と言語解析部33による言語解析結果と診断ルール記憶部31内の述語省略診断ルール31cとに基づいて、当該要注意成分に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を省略形式判定部36及び指摘情報生成部37に送出する機能をもっている。
【0031】
省略形式判定部36は、送出された省略箇所を示す情報と省略形式判定ルール31dに基づいて省略形式を判定し、得られた省略形式を指摘情報生成部37に送出する機能をもっている。但し、省略形式判定部36は、述語の省略を指摘する処理に必須ではないので、省略してもよい。この省略形式判定部36を省略してもよいことは、第2の実施形態でも同様である。
【0032】
指摘情報生成部37は、述語省略診断部35から送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報37aを生成し、この指摘情報37aを出力部38に出力する機能をもっている。なお、省略形式判定部36を用いる場合には、指摘情報生成部37は、省略形式判定部36から送出された省略形式にも基づいて指摘情報37aを生成する。
【0033】
出力部38は、入力部32により入力を受け付けた文に対して、指摘情報生成部37から出力された指摘情報37aを出力する機能をもっている。
【0034】
次に、以上のように構成された文書処理装置の動作について図8のフローチャートを参照しながら説明する。
【0035】
始めに、ステップS10においては、入力文の取得処理が実行される。
【0036】
このとき、入力部32は、ユーザの操作に応じて、評価対象の文の入力を受け付ける処理により、入力文を取得する。文の入力を受け付ける処理としては、ユーザがキーボード等から直接入力した文を受け付けても良いし、既存のファイルから読み込んだ文を受け付けても良い。
【0037】
続いて、ステップS20においては、言語解析処理が実行される。
【0038】
このとき、言語解析部33は、入力部32により入力を受け付けた文に対して構文解析や形態素解析等の言語解析を行い、言語解析結果を構文関係検査部34に送出する。
【0039】
言語解析部33は、構文解析の場合、入力を受け付けた文「客先用文書をカラー、社内用文書を白黒で印刷する。」(例文1 再掲)に対して、図9に示す如き、言語解析結果を構文関係検査部34に送出する。
【0040】
ここで、図9に示す楕円の中には、各文節の語幹が記されている。この楕円でまとめた情報をノードと呼ぶ。係り受け関係にある2つのノードが矢印で結ばれる。この矢印をアークとも呼ぶ。矢印の先を親ノードと呼び、矢印の元を子ノードと呼ぶ。楕円の中で、山カッコ(<>)で囲まれているのは、ノードの品詞である。
【0041】
矢印には必要に応じて、2つのノードの係り受け関係が付されている。例えば、矢印に「を格」が付されているときは、2つのノードの係り受け関係が「を格」であることを意味し、矢印に「並列」が付されているときは、2つのノードの係り受け関係が並列関係であることを意味する。
【0042】
また、言語解析部33は、形態素解析の場合、単語の切れ目と品詞を付与した言語解析結果を構文関係検査部34に送出する。
【0043】
次に、ステップS30においては、構文関係検査が実行される。
【0044】
構文関係検査部34は、言語解析部33から言語解析結果を受けると、診断ルール記憶部31内の格情報認識ルール31aに基づいて、言語解析結果から述語、目的語を認識する。さらに、構文関係検査部34は、診断ルール記憶部31内の構文関係検査ルール31bに基づいて、文の成分間の関係を検査し、要注意成分となる情報を述語省略診断部35に送出する。
【0045】
例えば、図9に示した言語解析結果に対して格情報認識ルール31aに基づき、連用修飾語ではない動詞ノード「印刷する」が述語として認識される。また、図10に示すように、「印刷する」と「を格」で接続する子ノード「社内用文書」と「客先用文書」が目的語として認識される。次に、構文関係検査部34は、構文関係検査ルール31bによって目的語と述語の関係を検査した結果、目的語が2つ以上あるので、目的語「社内用文書」と「客先用文書」を要注意成分として述語省略診断部35に送出する。
【0046】
一方、図11に示すように、入力文「客先用文書をカラーで印刷し、社内用文書を白黒で印刷する。」(例文4)の言語解析結果に対しては、格情報認識ルール31aに基づき、図12に示す述語と目的語が認識される。構文関係検査部34は、構文関係検査ルール31bによって目的語と述語の関係を検査した結果、目的語が述語に対し1つしかないので、要注意成分が無いから例文4に対する処理を終了する。
【0047】
なお、上述の処理は、構文関係検査の一例である。例えば、構文関係検査ルール31bに、「主語が述語に対し2つ以上ある場合、要注意成分とする」というルールがあれば、主語と述語の関係を検査する必要がある。
【0048】
言語解析部33において形態素解析を用いたときは、例えば、構文関係検査ルール31bとして、「動詞を述語とする」、「述語の前にある、「を」助詞を含む文節を、目的語とする」というようなルールがあり、述語と目的語を認識する。
【0049】
次に、ステップS40においては、述語省略診断が実行される。
【0050】
述語省略診断部35は、構文関係検査部34から要注意成分と判定された情報に対して、診断ルール記憶部31内の述語省略診断ルール31cに基づき、要注意成分に対する述語が省略されているかどうかを診断する。述語が省略されている旨を診断した場合、要注意成分毎に省略箇所を省略形式判定部36及び指摘情報生成部37に送出する。
【0051】
例えば、例文1の場合、述語省略診断部35は、構文関係検査部34から要注意成分と判定された目的語「社内用文書」と「客先用文書」に対して、述語省略診断ルール31cに基づいて、述語が省略されているかどうかを診断する。その結果、述語省略診断部35は、「社内用文書」の後に分割記号がないので、適用条件を満たさないため、「社内用文書」の述語が省略されていない旨の診断結果を得る。述語省略診断部35は、「客先用文書」の場合、適用条件を満たし、診断規則も満たすことから、述語が省略された旨の診断結果を得る。省略箇所は「カラー」の直後となる。
【0052】
次に、ステップS50においては、省略形式判定が実行される。
【0053】
省略形式判定部36は、述語省略診断部35から判定された省略箇所に対して、省略箇所直前のノードを取得し、ノードの品詞と付属語を用いて、診断ルール記憶部31内の省略形式判定ルール31dに基づいて省略形式を判定し、得られた省略形式を指摘情報生成部37に送出する。
【0054】
述語の省略形式は、以下の〔名詞で中止〕、〔助詞で中止〕及び〔動詞語幹で中止〕の3種類がある。
【0055】
〔名詞で中止〕の省略形式は、連用中止の述語とその直前の助詞まで省略された文が該当する。例えば、「客先用文書をカラー、内部用文書を白黒で印刷する。」(例文1再掲)のような文が該当する。
【0056】
〔助詞で中止〕の省略形式は、連用中止の述語そのものが省略された文が該当する。例えば、「客先用文書をカラーで、社内用文書を白黒で印刷する。」(例文2)のような文が該当する。
【0057】
〔動詞語幹で中止〕の省略形式は、連用中止の述語の活用語尾が省略された文が該当する。例えば、「客先用文書をカラーで印刷、内部用文書を白黒で印刷する。」(例文3)のような文が該当する。
【0058】
例文1の場合、省略箇所の直前ノード「カラー」の品詞がサ変名詞ではなく、また、ノードの付属語がないことから、省略形式判定部36は、省略形式判定ルール31dにより、省略形式を「名詞で中止」と判定する。
【0059】
例文2の場合、省略箇所の直前ノード「カラーで」の品詞がサ変名詞ではなく、また、ノードの付属語があることから、省略形式判定部36は、省略形式判定ルール31dにより、省略形式を「助詞で中止」と判定する。
【0060】
例3の場合、省略箇所の直前ノード「印刷」の品詞がサ変名詞であるため、省略形式判定部36は、省略形式判定ルール31dにより、省略形式を「動詞で中止」と判定する。
【0061】
なお、ステップS50の省略形式判定は、述語の省略の検出に必須な処理ではないので、省略してもよい。ステップS50の省略形式判定を省略しても、述語が省略された文を検出でき、省略箇所を確定できる。但し、ステップS50の省略形式判定を実行した方が、省略された情報をユーザに詳細に提供できる観点から好ましい。
【0062】
次に、ステップS60においては、指摘情報生成が実行される。
【0063】
指摘情報生成部35は、述語省略診断S40で判定された省略箇所と、省略形式判定S50で判定された省略形式に基づいて、図13〜図15に示すように、省略箇所と省略形式に基づいて、述語が省略されている旨を指摘する指摘情報37aを生成し、この指摘情報37aを出力部38に出力する。なお、図13〜図15は、それぞれ例文1〜3に対する指摘情報37aの例を示している。
【0064】
次に、ステップS70においては、出力が実行される。
【0065】
出力部38は、指摘情報生成部35から出力された指摘情報37aを出力する。出力としては、例えば液晶ディスプレイに表示を行う形態や、CSVファイルで診断結果一覧を出力する形態などによって実行することができる。
【0066】
上述したように本実施形態によれば、言語解析結果と格情報認識ルール31a及び構文関係検査ルール31bとに基づいて要注意成分を送出する構文関係検査部34と、入力を受け付けた文に対し、送出された要注意成分と言語解析結果と述語省略診断ルール31cとに基づいて、要注意成分に対して述語が省略されている場合に該当する場合には省略箇所を示す情報を送出する述語省略診断部35と、送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を出力する指摘情報生成部37とを備えた構成により、人間が気づきにくい述語の省略についても文書処理装置30が発見することができる。
【0067】
また、省略された部分を指摘情報37aに基づいてユーザが修正することにより、構文解析の精度を向上させることができる。
【0068】
さらに、述語の省略は人間の意味理解に障碍となる場合があるので、指摘情報に基づいて、述語の省略を無くすように文を修正することにより、人間に読み易い文書の作成を支援することができる。
【0069】
[第2の実施形態]
図16は第2の実施形態に係る文書処理装置の構成例を示すブロック図であり、図2と略同一部分については同一符号を付してその詳しい説明を省略し、ここでは異なる部分について主に述べる。なお、以下の各実施形態も同様にして重複した説明を省略する。
【0070】
第2の実施形態は、第1の実施形態の変形例であり、副助詞を持つ並列文の述語省略を発見できるものであって、具体的には副助詞パターン診断ルール記憶部39及び副助詞パターン診断部40を更に備えている。
【0071】
ここで、副助詞パターン診断ルール記憶部39は、図17に一例を示すように、副助詞パターン診断ルール39aが予め記憶されている。
【0072】
副助詞パターン診断ルール39aは、副助詞パターンに基づいて、述語の省略を診断する方法として、文に2以上の同一の副助詞があって当該副助詞に対して述語が省略されている場合と述語の省略箇所とを示したルールであり、この例では、適用条件と診断規則が規定されている。適用条件としては、例えば「入力文に同じ副助詞が2つ以上がある。かつ、副助詞の後に分割記号があり、その後にさらに同じ副助詞がある。」等が適宜、使用可能となっている。診断規則としては、例えば「当該副助詞から、直後の副助詞までの分割記号の直前ノードが全て、名詞、代名詞、数詞であれば、当該副助詞のノードに対する述語が省略されている。省略箇所は、当該副助詞の直後の副助詞の直前分割記号の直前である。」等が適宜、使用可能となっている。副助詞は、図18に一例を示すように、「は」、「では」、「には」、「へは」、「も」、「でも」、「にも」及び「へも」のいずれかであれば該当する。この副助詞の定義は、本明細書中で共通に用いられる。この副助詞パターン診断ルール39aによれば、適用条件に当てはまる副助詞に対して、診断規則に当てはまれば、述語が省略されている旨が診断され、述語の省略箇所が示される。
【0073】
副助詞パターン診断部40は、構文関係検査部34による検査の結果、要注意成分がない場合、又は述語省略診断部35による診断の結果、該当しない場合には、入力を受け付けた文に対し、言語解析部33による言語解析結果と副助詞診断ルール39aとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を指摘情報生成部37に送出する機能をもっている。
【0074】
次に、以上のように構成された文書処理装置の動作について図19のフローチャートを参照しながら説明する。
【0075】
始めに、ステップS10の入力文取得及びステップS20の言語解析は、前述同様に実行される。
【0076】
次に、ステップS30の構文関係検査及びステップS40の述語省略診断は、前述同様に実行されるが、ステップS30の構文関係検査部34による検査の結果、要注意成分がない場合、又はステップS40の述語省略診断部35による診断の結果、該当しない場合には、ステップS45に移行する。
【0077】
ステップS45においては、副助詞パターン診断が実行される。
【0078】
副助詞パターン診断部40は、入力を受け付けた文に対して、副助詞パターン診断ルール記憶部39内の副助詞パターン診断ルール39aに基づき、入力文の副助詞パターンを検査し、述語が省略されたかどうかを診断する。述語が省略されている旨を診断した場合、副助詞パターン診断部40は、副助詞毎に省略箇所を示す情報を省略形式判定部36及び指摘情報生成部37に送出する。
【0079】
例えば、図20に示す如き、「装置Aではメモリ容量、装置Bでは処理時間を計算する。」(例文5)の言語解析結果に対して、構文関係検査S30では、図21に示すように述語と目的語の関係が一対一であるため、要注意成分を持たないと判定され、副助詞パターン診断S45が実行される。例文5は、同じ副助詞「では」が二つ存在し、最初の「では」の後に分割記号があり、その後にさらに同じ副助詞「では」があるので、図17に示す副助詞パターン診断ルール39aの適用条件を満たす。次に、副助詞パターン診断部40は、この最初の副助詞に対して、診断規則を適用する。最初の副助詞「では」から次の副助詞「では」までの分割記号の直前ノードは「メモリ容量」なので、当該副助詞「では」のノード「装置A」の述語が省略されたと診断される。省略箇所は「メモリ容量」の直後である。副助詞パターン診断部40は、副助詞「では」毎に省略箇所を示す情報「「メモリ容量」の直後」を省略形式判定部36及び指摘情報生成部37に送出する。
【0080】
なお、例えば「装置Aでは、メモリ容量を計算する装置Bの処理時間を計算する。」(例文6)に対して、副助詞パターン診断S45を行うと、同じ副助詞が2つ以上存在せずに副助詞パターン診断ルール39aの適用条件を満たさないので、副助詞パターン診断部40は、述語が省略された文ではないと判定し、この文に対する処理を終了する。
【0081】
次に、ステップS50の省略形式判定は、前述同様に実行される。
【0082】
このとき、省略形式判定部36は、述語省略診断部35又は副助詞パターン診断部40から判定された省略箇所に対して、省略箇所直前のノードを取得し、ノードの品詞と付属語を用いて、診断ルール記憶部31内の省略形式判定ルール31dに基づいて省略形式を判定し、得られた省略形式を指摘情報生成部37に送出する。
【0083】
例文5の場合、省略箇所の直前ノード「メモリ容量」の品詞がサ変名詞ではなく、また、ノードの付属語がないことから、省略形式判定部36は、省略形式判定ルール31dにより、省略形式を「名詞で中止」と判定する。
【0084】
しかる後、ステップS60の指摘情報生成及びステップS70の出力は、前述同様に実行される。
【0085】
上述したように本実施形態によれば、構文関係検査部34による検査の結果、要注意成分がない場合、又は述語省略診断部35による診断の結果、該当しない場合には、入力を受け付けた文に対し、言語解析部33による言語解析結果と副助詞診断ルール39aとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を指摘情報生成部37に送出する副助詞パターン診断部40を備えた構成により、第1の実施形態の効果に加え、副助詞を持つ並列文の述語省略を発見することができる。
【0086】
補足すると、第1の実施形態では、目的語が存在しない文、あるいは目的語を表す格助詞を省略した文(例えば、例文5)に対して、述語の省略を正しく診断できない。しかしながら、第2の実施形態によれば、これらの文の述語省略を診断できるので、第1の実施形態における述語省略診断の再現率を向上できる。
【0087】
なお、第2の実施形態に、第1の実施形態と同じ構文関係検査部34と述語省略診断部35がなくても、副助詞を持つ並列文の述語省略を発見できる。但し、第1の実施形態の処理を組み込む方が、より網羅性が高い診断ができる観点から好ましい。
【0088】
[第3の実施形態]
図22は第3の実施形態に係る文書処理装置の構成例を示すブロック図である。
【0089】
第3の実施形態は、第1又は第2の実施形態の変形例であり、修正候補を出力できるものであって、具体的には修正候補推定ルール記憶部41及び修正候補推定部42を更に備えている。
【0090】
ここで、修正候補推定ルール記憶部41は、図23及び図24に示すように、修正候補推定用情報決定ルール41a及び修正候補推定ルール41bが予め記憶されている。
【0091】
修正候補推定用情報決定ルール41aは、図23に一例を示すように、述語省略方法に応じて修正候補を推定するための情報を決定する方法として、2つ以上の目的語がある文の述語及び2つ以上の同一の副助詞がある文の述語をそれぞれ示したルールであり、この例では、述語省略診断方法と修正候補推定情報が規定されている。述語省略診断方法としては、例えば「構文関係検査」及び「副助詞パターン検査」等が適宜、使用可能となっている。修正候補推定用情報としては、例えば「目的語が2つ以上ある文の述語ノード」及び「指摘対象とする副助詞に対し、文の最後に出現した述語ノード」等が適宜、使用可能となっている。但し、副助詞パターン診断S45を実行しない場合には、副助詞に関する規定「2つ以上の同一の副助詞がある文の述語」、「副助詞パターン検査」及び「指摘対象とする副助詞に対し、文の最後に出現した述語ノード」等は省略可能となっている。
【0092】
修正候補推定ルール41bは、図24に一例を示すように、修正候補を生成する方法として、修正候補部分情報41b1及び修正候補組立情報41b2が規定されている。
【0093】
修正候補部分情報41b1は、修正候補推定用情報が示す述語に関する品詞、語幹、連用形語尾及び直前助詞を示している。述語に関する品詞としては、例えば「動詞」及び「動詞でない」が適宜、使用可能となっている。述語に関する語幹としては、例えば「ノードの見出し語」及び「あ」が適宜、使用可能となっている。なお、語幹「あ」は「ある。」の「あ」である。述語に関する連用形語尾としては、受動態の場合、「ノードの受動態連用形語尾」及び「り」が適宜、使用可能となっており、受動態ではない場合、「ノードの能動態連用形語尾」及び「り」が適宜、使用可能となっている。述語に関する直前助詞としては、例えば「最も近い子ノードの付属語」及び「で」が適宜、使用可能となっている。
【0094】
修正候補組立情報41b2は、省略形式毎に修正候補部分情報に基づいて組み立てた修正候補を示している。省略形式としては、例えば「助詞で中止」、「名詞で中止」及び「動詞で中止」等が適宜、使用可能となっている。修正候補としては、例えば「語幹+連用形語尾」、「省略助詞+語幹+連用形語尾」及び「連用形語尾」等が適宜、使用可能となっている。修正候補内の「省略助詞」は「直前助詞」と読み替えてもよい。
【0095】
修正候補推定部42は、述語省略診断部35から送出された省略箇所を示す情報を受けると、修正候補推定用情報決定ルール41aに基づいて、言語解析結果から認識される述語を修正候補推定用情報として決定する機能と、決定された修正候補推定用情報と、送出された省略形式と、修正候補部分情報41b1と、修正候補組立情報41b2とに基づいて、省略に対する修正候補を組み立てると共に、当該組み立てた修正候補を指摘情報生成部37に送出する修正候補組立機能とをもっている。
【0096】
これに伴い、指摘情報生成部37は、述語が省略されている旨と、送出された修正候補とを指摘する指摘情報を生成し、この指摘情報を出力部38に出力する機能をもっている。
【0097】
次に、以上のように構成された文書処理装置の動作について図25のフローチャートを参照しながら説明する。
【0098】
始めに、ステップS10の入力文取得からステップS50の省略形式判定までの処理は、前述同様に実行される。なお、本実施形態の省略形式判定S50は、修正候補の推定に必須な処理である。
【0099】
続いて、ステップS55においては、修正候補推定が実行される。
【0100】
修正候補推定部42は、修正候補推定ルール記憶部41内の修正候補推定用情報決定ルール41aに基づき、修正候補推定用情報を決定する。
【0101】
また、修正候補推定部42は、修正候補推定ルール記憶部41内の修正候補推定ルール41bに基づき、修正候補の語幹、活用語尾、直前助詞を推定し、省略形式によって修正候補を推定する。
【0102】
例えば、例文1「客先用文書をカラー、内部用文書を白黒で印刷する。」に対して、省略箇所が「カラー」の直後であると診断された場合、修正候補推定部42は、修正候補推定用情報決定ルール41aに基づき、修正候補推定用情報が文末の「印刷する」ノードであることを決定する。さらに、省略形式判定S50によって、省略形式が「名詞で中止」と判定された場合、修正候補推定部42は、修正候補推定用情報と省略形式に基づき、修正候補推定ルール41bに基づき、修正候補の語幹が「印刷」、活用語尾が「し」、直前助詞が「で」を推定し、省略形式によって修正候補「で印刷し」を組み立てる。
【0103】
同様に、例文2「客先用文書をカラーで、社内用文書を白黒で印刷する。」と例文3「客先用文書をカラーで印刷、内部用文書を白黒で印刷する。」に対しても、修正候補推定部42は、それぞれ修正候補「印刷し」と「し」を生成できる。
【0104】
このように生成された修正候補は、指摘情報生成部37に送出される。
【0105】
続いて、ステップS60の指摘情報生成は、次のように実行される。
【0106】
指摘情報生成部37は、図26〜図28に示すように、述語が省略されている旨と、送出された修正候補とを指摘する指摘情報37bを生成し、この指摘情報37bを出力部38に出力する。なお、図26〜図28は、それぞれ例文1〜3に対する指摘情報37bの例を示している。
【0107】
しかる後、ステップS70の出力は、前述同様に実行される。
【0108】
上述したように本実施形態によれば、省略箇所を示す情報を受けると、修正候補推定用情報決定ルール41aに基づいて、言語解析結果から認識される述語を修正候補推定用情報として決定し、修正候補推定用情報と、送出された省略形式と、修正候補部分情報41b1と、修正候補組立情報41b2とに基づいて、省略に対する修正候補を組み立てると共に、当該組み立てた修正候補を指摘情報生成部37に送出する修正候補推定部42と、述語が省略されている旨と、送出された修正候補とを指摘する指摘情報を出力する指摘情報生成部37とを備えた構成により、人間が気づきにくい述語省略を発見するだけではなく、どのように修正すべきかの修正候補まで提示でき、ユーザによる修正を支援することができる。
【0109】
また、第1の実施形態の効果に加え、指摘した省略箇所に適切な修正候補を提示することによって、人間の修正作業の効率も向上でき、正しく解析できる文、または読み易い文に修正できる可能性を高めることができる。
【0110】
なお、第3の実施形態は、主に第1の実施形態に、修正候補推定ルール記憶部41及び修正候補推定部42を加えた形態として説明したが、これに限らず、例えば図29及び図30に示すように、第2の実施形態に各部41,42を加えた形態としても同様の効果を得ることができる。
【0111】
以上説明した少なくとも一つの実施形態によれば、言語解析結果と格情報認識ルール31a及び構文関係検査ルール31bとに基づいて要注意成分を送出する構文関係検査部34と、入力を受け付けた文に対し、送出された要注意成分と言語解析結果と述語省略診断ルール31cとに基づいて、要注意成分に対して述語が省略されている場合には省略箇所を示す情報を送出する述語省略診断部35と、送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を出力する指摘情報生成部37とを備えた構成により、述語の省略を発見して作成者に修正を促すことができる。
【0112】
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に記憶して頒布することもできる。
【0113】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0114】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0115】
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0116】
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0117】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0118】
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0119】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0120】
10…コンピュータ、20…外部記憶装置、30…文書処理装置、31…診断ルール記憶部、31a…格情報認識ルール、31b…構文関係検査ルール、31c…述語省略診断ルール、31d…省略形式判定ルール、32…入力部、33…言語解析部、34…構文関係検査部、35…述語省略診断部、36…省略形式判定部、37…指摘情報生成部、37a,37b…指摘情報、38…出力部、39…副助詞パターン診断ルール記憶部、39a…副助詞パターン診断ルール、40…副助詞パターン診断部、41…修正候補推定ルール記憶部、41a…修正候補推定用情報決定ルール、41b…修正候補推定ルール、42…修正候補推定部。
【技術分野】
【0001】
本発明の実施形態は、文書処理装置及びプログラムに関する。
【背景技術】
【0002】
日本語の文では、述語が省略されることがよくある。例えば、「客先用文書をカラー、社内用文書を白黒で印刷する。」という例文1の場合、「カラー」の後の「で印刷し」の述語が省略されている。このような例文1は、プリンターには「カラー」印刷機能と「白黒」印刷機能がある旨の知識を持つ人によれば、省略された述語が補完されて正しく理解される。しかしながら、例文1は、文書処理装置により構文解析されると、図9に示すように、「カラー」と「白黒」の並列関係が解析されずに、「カラー」とその直後の「社内用文書」が並列関係と解析されてしまう。
【0003】
また、述語の省略は、構文解析に限らず、人間による意味理解にも障碍となる場合がある。例えば、「作成した社員情報を社員情報データベースに登録、保存要求を送信する。」という文の場合、「登録」の後に活用語尾「し」という述語の一部が省略されている。このような述語の省略は、「社員情報データベースに登録する」及び「社員情報データベースに登録と保存要求を送信する」の2通りの解釈が可能なため、読み手による意味理解にも障碍となる。このような障碍は、特に、日本語のネイティブではない読み手に生じ易い傾向がある。
【0004】
従って、例えば、文書処理装置が述語の省略を発見して作成者に修正を促すことができれば、構文解析や意味理解に障碍のない文の作成を支援する観点から望ましい。
【0005】
なお、述語が省略された文ではなく、主語、目的語、助動詞が省略された省略文については、予め登録された並列文標識語を用いて自動的に検出する方法が知られている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平7−85046号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
以上説明したように、文書処理装置が述語の省略を発見して作成者に修正を促すことができることが望ましい。
【0008】
本発明が解決しようとする課題は、述語の省略を発見して作成者に修正を促すことが可能な文書処理装置及びプログラムを提供することである。
【課題を解決するための手段】
【0009】
実施形態の文書処理装置は、入力を受け付けた文において述語が省略されているとき、前記述語が省略されている旨を指摘して修正を促す。
【0010】
前記文書処理装置は、ルール記憶手段、言語解析手段、構文関係検査手段、述語省略診断手段及び指摘情報生成手段を備えている。
【0011】
前記ルール記憶手段は、前記文の言語解析結果から述語及び目的語を認識するための格情報認識ルールと、前記認識された述語に接続する2つ以上の目的語を要注意成分とする旨を規定した構文関係検査ルールと、前記要注意成分に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとが予め記憶されている。
【0012】
前記言語解析手段は、前記入力を受け付けた文を言語解析し、言語解析結果を得る。
【0013】
前記構文関係検査手段は、この言語解析結果と前記格情報認識ルール及び前記構文関係検査ルールとに基づいて、前記要注意成分があるか否かを検査し、前記要注意成分がある場合には当該要注意成分を送出する。
【0014】
前記述語省略診断手段は、前記入力を受け付けた文に対し、前記送出された要注意成分と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該要注意成分に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を送出する。
【0015】
前記指摘情報生成手段は、前記送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する。
【図面の簡単な説明】
【0016】
【図1】第1の実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。
【図2】同実施形態における文書処理装置の構成例を示すブロック図である。
【図3】同実施形態における格情報認識ルールの一例を示す模式図である。
【図4】同実施形態における構文関係検査ルールの一例を示す模式図である。
【図5】同実施形態における述語省略診断ルールの一例を示す模式図である。
【図6】同実施形態における省略形式判定ルールの一例を示す模式図である。
【図7】同実施形態における分割記号の定義の一例を示す模式図である。
【図8】同実施形態における文書処理装置の動作を説明するためのフローチャートである。
【図9】同実施形態における例文1の言語解析結果を示す模式図である。
【図10】同実施形態における例文1の述語及び目的語の認識結果を示す模式図である。
【図11】同実施形態における例文4の言語解析結果を示す模式図である。
【図12】同実施形態における例文4の述語及び目的語の認識結果を示す模式図である。
【図13】同実施形態における例文1に対する指摘情報の例を示す模式図である。
【図14】同実施形態における例文2に対する指摘情報の例を示す模式図である。
【図15】同実施形態における例文3に対する指摘情報の例を示す模式図である。
【図16】第2の実施形態に係る文書処理装置の構成例を示すブロック図である。
【図17】同実施形態における副助詞パターン診断ルールの一例を示す模式図である。
【図18】同実施形態における副助詞の定義の一例を示す模式図である。
【図19】同実施形態における文書処理装置の動作を説明するためのフローチャートである。
【図20】同実施形態における例文5の言語解析結果を示す模式図である。
【図21】同実施形態における例文5の述語及び目的語の認識結果を示す模式図である。
【図22】第3の実施形態に係る文書処理装置の構成例を示すブロック図である。
【図23】同実施形態における修正候補推定用情報決定ルールの一例を示す模式図である。
【図24】同実施形態における修正候補推定ルールの一例を示す模式図である。
【図25】同実施形態における文書処理装置の動作を説明するためのフローチャートである。
【図26】同実施形態における例文1に対する指摘情報の例を示す模式図である。
【図27】同実施形態における例文2に対する指摘情報の例を示す模式図である。
【図28】同実施形態における例文3に対する指摘情報の例を示す模式図である。
【図29】同実施形態における変形形態の文書処理装置の構成例を示すブロック図である。
【図30】同実施形態における変形形態の文書処理装置の動作を説明するためのフローチャートである。
【発明を実施するための形態】
【0017】
以下、各実施形態について図面を用いて説明する。なお、各実施形態の文書処理装置は、ユーザ端末として実施してもよく、クライアントサーバシステムにおけるサーバ装置として実施してもよい。また、各実施形態の文書処理装置は、プライベートクラウド又はパブリッククラウド等のクラウドコンピューティングシステムにおいて、低負荷時に選択される複数台の処理実行装置の各々として実施してもよい。
【0018】
[第1の実施形態]
図1は第1の実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。コンピュータ10は、例えばハードディスクドライブのような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を記憶する。コンピュータ10及び外部記憶装置20は、文書処理装置30を構成している。
【0019】
この文書処理装置30は、入力を受け付けた文において述語が省略されているとき、前記述語が省略されている旨を指摘して修正を促すものであり、例えばユーザによって指定された文を提示し、述語の省略を診断する指示を受け付け、診断結果を出力する機能を有する。
【0020】
文書処理装置30は、具体的には図2に示すように、診断ルール記憶部31及び入力部32、言語解析部33、構文関係検査部34、述語省略診断部35、省略形式判定部36、指摘情報生成部37及び出力部38を備えている。各部31〜38は、コンピュータ10が外部記憶装置20内のプログラム(文書処理プログラム)21を実行することにより実現されるものとする。プログラム21は、コンピュータ読み取り可能な記憶媒体に予め記憶された形態で頒布可能となっている。また、プログラム21は、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。また、診断ルール記憶部31は、例えば外部記憶装置20内に実装されているが、コンピュータ10のメモリ(図示せず)内に実装されてもよい。
【0021】
診断ルール記憶部31は、図3〜図6に示すように、格情報認識ルール31a、構文関係検査ルール31b、述語省略診断ルール31c、省略形式判定ルール31dが予め記憶される。なお、各ルール31a〜31dは、図示しない制御部により、同一の記憶部31内に予め書き込まれるが、これに限らず、別々の記憶部に予め書き込まれてもよい。
【0022】
格情報認識ルール31aは、図3に一例を示すように、文の言語解析結果から述語及び目的語などの文の成分を認識するための情報であり、例えば、文の成分、基本条件及び除外条件が規定されている。基本条件としては、例えば「品詞が動詞のノード」及び「述語ノードを親ノードとし、「を格」で接続する係り受けのノード」が適宜、使用可能となっている。除外条件としては、例えば「連体修飾動詞であれば、除外する」及び「−(除外条件なし)」等が適宜、使用可能となっている。格情報認識ルール31aによれば、基本条件に当てはまり、さらに除外条件に当てはまらない場合、文の成分として認識される。例えば、基本条件「品詞が動詞のノード」に当てはまり、除外条件「連体修飾動詞であれば、除外する」に当てはまらない場合、文の成分「述語」として認識される。同様に、基本条件「述語ノードを親ノードとし、「を格」で接続する係り受けのノード」に当てはまる場合、除外条件が無いので、文の成分「目的語」として認識される。
【0023】
格情報認識ルール31aは、図3に示した例によれば、構文解析結果に対して述語と目的語の認識規則を示すが、この例に限らず、形態素解析結果に対して形態素の品詞や助詞の形式によって述語と目的語の認識規則を設けることも可能である。
【0024】
構文関係検査ルール31bは、図4に一例を示すように、文の成分がどのような関係になると要注意成分とするかを規定するものであり、例えば、認識された述語に接続する2つ以上の目的語を要注意成分とする旨を規定している。
【0025】
述語省略診断ルール31cは、図5に一例を示すように、要注意成分となる情報に対して述語が省略されたかどうかを診断する方法として、要注意成分に対して述語が省略されている場合と述語の省略箇所とを示したルールであり、この例では適用条件と診断規則が規定されている。適用条件としては、例えば「要注意成分の後に分割記号があり、その後にさらに要注意成分がある。」等が適宜、使用可能となっている。診断規則としては、例えば、「要注意成分の後方直近の分割記号の直前ノードが、名詞、代名詞、数詞であれば、要注意成分に対する述語が省略されている。省略箇所は、要注意成分の後方直近の読点記号の直前である。」等が適宜、使用可能となっている。分割記号は、図7に一例を示すように、全角読点、半角読点、全角コンマ、半角コンマ、全角セミコロン及び半角セミコロンのいずれかであれば該当する。この分割記号の定義は、本明細書中で共通に用いられる。この述語省略診断ルール31cによれば、適用条件に当てはまる要注意成分に対して、診断規則に当てはまれば、述語が省略されている旨が診断され、述語の省略箇所が示される。
【0026】
省略形式判定ルール31dは、図6に一例を示すように、述語の省略形式を判別するための方法であり、例えば、省略箇所に対する直前の箇所の品詞と付属語の有無とに応じて省略形式を示す情報を用いればよい。なお、図6における「分割記号」は、いずれも診断規則における「要注意成分の後方直近の分割記号」を意味している。
【0027】
入力部32は、例えばキーボード又はマウス等に対するユーザの操作に応じて、当該ユーザからの指示を受け付ける。また、入力部32は、例えばユーザによって指定された評価対象となる文の入力を受け付ける機能をもっている。
【0028】
言語解析部33は、入力部32により入力を受け付けた文に対して構文解析や形態素解析等の言語解析を行い、言語解析結果を構文関係検査部34に送出する機能をもっている。
【0029】
構文関係検査部34は、構文関係検査部34から送出された言語解析結果と診断ルール記憶部31内の格情報認識ルール31a及び構文関係検査ルール31bとに基づいて、要注意成分があるか否かを検査し、要注意成分がある場合には当該要注意成分を述語省略診断部35に送出する機能をもっている。
【0030】
述語省略診断部35は、入力部32により入力を受け付けた文に対し、構文関係検査部34から送出された要注意成分と言語解析部33による言語解析結果と診断ルール記憶部31内の述語省略診断ルール31cとに基づいて、当該要注意成分に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を省略形式判定部36及び指摘情報生成部37に送出する機能をもっている。
【0031】
省略形式判定部36は、送出された省略箇所を示す情報と省略形式判定ルール31dに基づいて省略形式を判定し、得られた省略形式を指摘情報生成部37に送出する機能をもっている。但し、省略形式判定部36は、述語の省略を指摘する処理に必須ではないので、省略してもよい。この省略形式判定部36を省略してもよいことは、第2の実施形態でも同様である。
【0032】
指摘情報生成部37は、述語省略診断部35から送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報37aを生成し、この指摘情報37aを出力部38に出力する機能をもっている。なお、省略形式判定部36を用いる場合には、指摘情報生成部37は、省略形式判定部36から送出された省略形式にも基づいて指摘情報37aを生成する。
【0033】
出力部38は、入力部32により入力を受け付けた文に対して、指摘情報生成部37から出力された指摘情報37aを出力する機能をもっている。
【0034】
次に、以上のように構成された文書処理装置の動作について図8のフローチャートを参照しながら説明する。
【0035】
始めに、ステップS10においては、入力文の取得処理が実行される。
【0036】
このとき、入力部32は、ユーザの操作に応じて、評価対象の文の入力を受け付ける処理により、入力文を取得する。文の入力を受け付ける処理としては、ユーザがキーボード等から直接入力した文を受け付けても良いし、既存のファイルから読み込んだ文を受け付けても良い。
【0037】
続いて、ステップS20においては、言語解析処理が実行される。
【0038】
このとき、言語解析部33は、入力部32により入力を受け付けた文に対して構文解析や形態素解析等の言語解析を行い、言語解析結果を構文関係検査部34に送出する。
【0039】
言語解析部33は、構文解析の場合、入力を受け付けた文「客先用文書をカラー、社内用文書を白黒で印刷する。」(例文1 再掲)に対して、図9に示す如き、言語解析結果を構文関係検査部34に送出する。
【0040】
ここで、図9に示す楕円の中には、各文節の語幹が記されている。この楕円でまとめた情報をノードと呼ぶ。係り受け関係にある2つのノードが矢印で結ばれる。この矢印をアークとも呼ぶ。矢印の先を親ノードと呼び、矢印の元を子ノードと呼ぶ。楕円の中で、山カッコ(<>)で囲まれているのは、ノードの品詞である。
【0041】
矢印には必要に応じて、2つのノードの係り受け関係が付されている。例えば、矢印に「を格」が付されているときは、2つのノードの係り受け関係が「を格」であることを意味し、矢印に「並列」が付されているときは、2つのノードの係り受け関係が並列関係であることを意味する。
【0042】
また、言語解析部33は、形態素解析の場合、単語の切れ目と品詞を付与した言語解析結果を構文関係検査部34に送出する。
【0043】
次に、ステップS30においては、構文関係検査が実行される。
【0044】
構文関係検査部34は、言語解析部33から言語解析結果を受けると、診断ルール記憶部31内の格情報認識ルール31aに基づいて、言語解析結果から述語、目的語を認識する。さらに、構文関係検査部34は、診断ルール記憶部31内の構文関係検査ルール31bに基づいて、文の成分間の関係を検査し、要注意成分となる情報を述語省略診断部35に送出する。
【0045】
例えば、図9に示した言語解析結果に対して格情報認識ルール31aに基づき、連用修飾語ではない動詞ノード「印刷する」が述語として認識される。また、図10に示すように、「印刷する」と「を格」で接続する子ノード「社内用文書」と「客先用文書」が目的語として認識される。次に、構文関係検査部34は、構文関係検査ルール31bによって目的語と述語の関係を検査した結果、目的語が2つ以上あるので、目的語「社内用文書」と「客先用文書」を要注意成分として述語省略診断部35に送出する。
【0046】
一方、図11に示すように、入力文「客先用文書をカラーで印刷し、社内用文書を白黒で印刷する。」(例文4)の言語解析結果に対しては、格情報認識ルール31aに基づき、図12に示す述語と目的語が認識される。構文関係検査部34は、構文関係検査ルール31bによって目的語と述語の関係を検査した結果、目的語が述語に対し1つしかないので、要注意成分が無いから例文4に対する処理を終了する。
【0047】
なお、上述の処理は、構文関係検査の一例である。例えば、構文関係検査ルール31bに、「主語が述語に対し2つ以上ある場合、要注意成分とする」というルールがあれば、主語と述語の関係を検査する必要がある。
【0048】
言語解析部33において形態素解析を用いたときは、例えば、構文関係検査ルール31bとして、「動詞を述語とする」、「述語の前にある、「を」助詞を含む文節を、目的語とする」というようなルールがあり、述語と目的語を認識する。
【0049】
次に、ステップS40においては、述語省略診断が実行される。
【0050】
述語省略診断部35は、構文関係検査部34から要注意成分と判定された情報に対して、診断ルール記憶部31内の述語省略診断ルール31cに基づき、要注意成分に対する述語が省略されているかどうかを診断する。述語が省略されている旨を診断した場合、要注意成分毎に省略箇所を省略形式判定部36及び指摘情報生成部37に送出する。
【0051】
例えば、例文1の場合、述語省略診断部35は、構文関係検査部34から要注意成分と判定された目的語「社内用文書」と「客先用文書」に対して、述語省略診断ルール31cに基づいて、述語が省略されているかどうかを診断する。その結果、述語省略診断部35は、「社内用文書」の後に分割記号がないので、適用条件を満たさないため、「社内用文書」の述語が省略されていない旨の診断結果を得る。述語省略診断部35は、「客先用文書」の場合、適用条件を満たし、診断規則も満たすことから、述語が省略された旨の診断結果を得る。省略箇所は「カラー」の直後となる。
【0052】
次に、ステップS50においては、省略形式判定が実行される。
【0053】
省略形式判定部36は、述語省略診断部35から判定された省略箇所に対して、省略箇所直前のノードを取得し、ノードの品詞と付属語を用いて、診断ルール記憶部31内の省略形式判定ルール31dに基づいて省略形式を判定し、得られた省略形式を指摘情報生成部37に送出する。
【0054】
述語の省略形式は、以下の〔名詞で中止〕、〔助詞で中止〕及び〔動詞語幹で中止〕の3種類がある。
【0055】
〔名詞で中止〕の省略形式は、連用中止の述語とその直前の助詞まで省略された文が該当する。例えば、「客先用文書をカラー、内部用文書を白黒で印刷する。」(例文1再掲)のような文が該当する。
【0056】
〔助詞で中止〕の省略形式は、連用中止の述語そのものが省略された文が該当する。例えば、「客先用文書をカラーで、社内用文書を白黒で印刷する。」(例文2)のような文が該当する。
【0057】
〔動詞語幹で中止〕の省略形式は、連用中止の述語の活用語尾が省略された文が該当する。例えば、「客先用文書をカラーで印刷、内部用文書を白黒で印刷する。」(例文3)のような文が該当する。
【0058】
例文1の場合、省略箇所の直前ノード「カラー」の品詞がサ変名詞ではなく、また、ノードの付属語がないことから、省略形式判定部36は、省略形式判定ルール31dにより、省略形式を「名詞で中止」と判定する。
【0059】
例文2の場合、省略箇所の直前ノード「カラーで」の品詞がサ変名詞ではなく、また、ノードの付属語があることから、省略形式判定部36は、省略形式判定ルール31dにより、省略形式を「助詞で中止」と判定する。
【0060】
例3の場合、省略箇所の直前ノード「印刷」の品詞がサ変名詞であるため、省略形式判定部36は、省略形式判定ルール31dにより、省略形式を「動詞で中止」と判定する。
【0061】
なお、ステップS50の省略形式判定は、述語の省略の検出に必須な処理ではないので、省略してもよい。ステップS50の省略形式判定を省略しても、述語が省略された文を検出でき、省略箇所を確定できる。但し、ステップS50の省略形式判定を実行した方が、省略された情報をユーザに詳細に提供できる観点から好ましい。
【0062】
次に、ステップS60においては、指摘情報生成が実行される。
【0063】
指摘情報生成部35は、述語省略診断S40で判定された省略箇所と、省略形式判定S50で判定された省略形式に基づいて、図13〜図15に示すように、省略箇所と省略形式に基づいて、述語が省略されている旨を指摘する指摘情報37aを生成し、この指摘情報37aを出力部38に出力する。なお、図13〜図15は、それぞれ例文1〜3に対する指摘情報37aの例を示している。
【0064】
次に、ステップS70においては、出力が実行される。
【0065】
出力部38は、指摘情報生成部35から出力された指摘情報37aを出力する。出力としては、例えば液晶ディスプレイに表示を行う形態や、CSVファイルで診断結果一覧を出力する形態などによって実行することができる。
【0066】
上述したように本実施形態によれば、言語解析結果と格情報認識ルール31a及び構文関係検査ルール31bとに基づいて要注意成分を送出する構文関係検査部34と、入力を受け付けた文に対し、送出された要注意成分と言語解析結果と述語省略診断ルール31cとに基づいて、要注意成分に対して述語が省略されている場合に該当する場合には省略箇所を示す情報を送出する述語省略診断部35と、送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を出力する指摘情報生成部37とを備えた構成により、人間が気づきにくい述語の省略についても文書処理装置30が発見することができる。
【0067】
また、省略された部分を指摘情報37aに基づいてユーザが修正することにより、構文解析の精度を向上させることができる。
【0068】
さらに、述語の省略は人間の意味理解に障碍となる場合があるので、指摘情報に基づいて、述語の省略を無くすように文を修正することにより、人間に読み易い文書の作成を支援することができる。
【0069】
[第2の実施形態]
図16は第2の実施形態に係る文書処理装置の構成例を示すブロック図であり、図2と略同一部分については同一符号を付してその詳しい説明を省略し、ここでは異なる部分について主に述べる。なお、以下の各実施形態も同様にして重複した説明を省略する。
【0070】
第2の実施形態は、第1の実施形態の変形例であり、副助詞を持つ並列文の述語省略を発見できるものであって、具体的には副助詞パターン診断ルール記憶部39及び副助詞パターン診断部40を更に備えている。
【0071】
ここで、副助詞パターン診断ルール記憶部39は、図17に一例を示すように、副助詞パターン診断ルール39aが予め記憶されている。
【0072】
副助詞パターン診断ルール39aは、副助詞パターンに基づいて、述語の省略を診断する方法として、文に2以上の同一の副助詞があって当該副助詞に対して述語が省略されている場合と述語の省略箇所とを示したルールであり、この例では、適用条件と診断規則が規定されている。適用条件としては、例えば「入力文に同じ副助詞が2つ以上がある。かつ、副助詞の後に分割記号があり、その後にさらに同じ副助詞がある。」等が適宜、使用可能となっている。診断規則としては、例えば「当該副助詞から、直後の副助詞までの分割記号の直前ノードが全て、名詞、代名詞、数詞であれば、当該副助詞のノードに対する述語が省略されている。省略箇所は、当該副助詞の直後の副助詞の直前分割記号の直前である。」等が適宜、使用可能となっている。副助詞は、図18に一例を示すように、「は」、「では」、「には」、「へは」、「も」、「でも」、「にも」及び「へも」のいずれかであれば該当する。この副助詞の定義は、本明細書中で共通に用いられる。この副助詞パターン診断ルール39aによれば、適用条件に当てはまる副助詞に対して、診断規則に当てはまれば、述語が省略されている旨が診断され、述語の省略箇所が示される。
【0073】
副助詞パターン診断部40は、構文関係検査部34による検査の結果、要注意成分がない場合、又は述語省略診断部35による診断の結果、該当しない場合には、入力を受け付けた文に対し、言語解析部33による言語解析結果と副助詞診断ルール39aとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を指摘情報生成部37に送出する機能をもっている。
【0074】
次に、以上のように構成された文書処理装置の動作について図19のフローチャートを参照しながら説明する。
【0075】
始めに、ステップS10の入力文取得及びステップS20の言語解析は、前述同様に実行される。
【0076】
次に、ステップS30の構文関係検査及びステップS40の述語省略診断は、前述同様に実行されるが、ステップS30の構文関係検査部34による検査の結果、要注意成分がない場合、又はステップS40の述語省略診断部35による診断の結果、該当しない場合には、ステップS45に移行する。
【0077】
ステップS45においては、副助詞パターン診断が実行される。
【0078】
副助詞パターン診断部40は、入力を受け付けた文に対して、副助詞パターン診断ルール記憶部39内の副助詞パターン診断ルール39aに基づき、入力文の副助詞パターンを検査し、述語が省略されたかどうかを診断する。述語が省略されている旨を診断した場合、副助詞パターン診断部40は、副助詞毎に省略箇所を示す情報を省略形式判定部36及び指摘情報生成部37に送出する。
【0079】
例えば、図20に示す如き、「装置Aではメモリ容量、装置Bでは処理時間を計算する。」(例文5)の言語解析結果に対して、構文関係検査S30では、図21に示すように述語と目的語の関係が一対一であるため、要注意成分を持たないと判定され、副助詞パターン診断S45が実行される。例文5は、同じ副助詞「では」が二つ存在し、最初の「では」の後に分割記号があり、その後にさらに同じ副助詞「では」があるので、図17に示す副助詞パターン診断ルール39aの適用条件を満たす。次に、副助詞パターン診断部40は、この最初の副助詞に対して、診断規則を適用する。最初の副助詞「では」から次の副助詞「では」までの分割記号の直前ノードは「メモリ容量」なので、当該副助詞「では」のノード「装置A」の述語が省略されたと診断される。省略箇所は「メモリ容量」の直後である。副助詞パターン診断部40は、副助詞「では」毎に省略箇所を示す情報「「メモリ容量」の直後」を省略形式判定部36及び指摘情報生成部37に送出する。
【0080】
なお、例えば「装置Aでは、メモリ容量を計算する装置Bの処理時間を計算する。」(例文6)に対して、副助詞パターン診断S45を行うと、同じ副助詞が2つ以上存在せずに副助詞パターン診断ルール39aの適用条件を満たさないので、副助詞パターン診断部40は、述語が省略された文ではないと判定し、この文に対する処理を終了する。
【0081】
次に、ステップS50の省略形式判定は、前述同様に実行される。
【0082】
このとき、省略形式判定部36は、述語省略診断部35又は副助詞パターン診断部40から判定された省略箇所に対して、省略箇所直前のノードを取得し、ノードの品詞と付属語を用いて、診断ルール記憶部31内の省略形式判定ルール31dに基づいて省略形式を判定し、得られた省略形式を指摘情報生成部37に送出する。
【0083】
例文5の場合、省略箇所の直前ノード「メモリ容量」の品詞がサ変名詞ではなく、また、ノードの付属語がないことから、省略形式判定部36は、省略形式判定ルール31dにより、省略形式を「名詞で中止」と判定する。
【0084】
しかる後、ステップS60の指摘情報生成及びステップS70の出力は、前述同様に実行される。
【0085】
上述したように本実施形態によれば、構文関係検査部34による検査の結果、要注意成分がない場合、又は述語省略診断部35による診断の結果、該当しない場合には、入力を受け付けた文に対し、言語解析部33による言語解析結果と副助詞診断ルール39aとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を指摘情報生成部37に送出する副助詞パターン診断部40を備えた構成により、第1の実施形態の効果に加え、副助詞を持つ並列文の述語省略を発見することができる。
【0086】
補足すると、第1の実施形態では、目的語が存在しない文、あるいは目的語を表す格助詞を省略した文(例えば、例文5)に対して、述語の省略を正しく診断できない。しかしながら、第2の実施形態によれば、これらの文の述語省略を診断できるので、第1の実施形態における述語省略診断の再現率を向上できる。
【0087】
なお、第2の実施形態に、第1の実施形態と同じ構文関係検査部34と述語省略診断部35がなくても、副助詞を持つ並列文の述語省略を発見できる。但し、第1の実施形態の処理を組み込む方が、より網羅性が高い診断ができる観点から好ましい。
【0088】
[第3の実施形態]
図22は第3の実施形態に係る文書処理装置の構成例を示すブロック図である。
【0089】
第3の実施形態は、第1又は第2の実施形態の変形例であり、修正候補を出力できるものであって、具体的には修正候補推定ルール記憶部41及び修正候補推定部42を更に備えている。
【0090】
ここで、修正候補推定ルール記憶部41は、図23及び図24に示すように、修正候補推定用情報決定ルール41a及び修正候補推定ルール41bが予め記憶されている。
【0091】
修正候補推定用情報決定ルール41aは、図23に一例を示すように、述語省略方法に応じて修正候補を推定するための情報を決定する方法として、2つ以上の目的語がある文の述語及び2つ以上の同一の副助詞がある文の述語をそれぞれ示したルールであり、この例では、述語省略診断方法と修正候補推定情報が規定されている。述語省略診断方法としては、例えば「構文関係検査」及び「副助詞パターン検査」等が適宜、使用可能となっている。修正候補推定用情報としては、例えば「目的語が2つ以上ある文の述語ノード」及び「指摘対象とする副助詞に対し、文の最後に出現した述語ノード」等が適宜、使用可能となっている。但し、副助詞パターン診断S45を実行しない場合には、副助詞に関する規定「2つ以上の同一の副助詞がある文の述語」、「副助詞パターン検査」及び「指摘対象とする副助詞に対し、文の最後に出現した述語ノード」等は省略可能となっている。
【0092】
修正候補推定ルール41bは、図24に一例を示すように、修正候補を生成する方法として、修正候補部分情報41b1及び修正候補組立情報41b2が規定されている。
【0093】
修正候補部分情報41b1は、修正候補推定用情報が示す述語に関する品詞、語幹、連用形語尾及び直前助詞を示している。述語に関する品詞としては、例えば「動詞」及び「動詞でない」が適宜、使用可能となっている。述語に関する語幹としては、例えば「ノードの見出し語」及び「あ」が適宜、使用可能となっている。なお、語幹「あ」は「ある。」の「あ」である。述語に関する連用形語尾としては、受動態の場合、「ノードの受動態連用形語尾」及び「り」が適宜、使用可能となっており、受動態ではない場合、「ノードの能動態連用形語尾」及び「り」が適宜、使用可能となっている。述語に関する直前助詞としては、例えば「最も近い子ノードの付属語」及び「で」が適宜、使用可能となっている。
【0094】
修正候補組立情報41b2は、省略形式毎に修正候補部分情報に基づいて組み立てた修正候補を示している。省略形式としては、例えば「助詞で中止」、「名詞で中止」及び「動詞で中止」等が適宜、使用可能となっている。修正候補としては、例えば「語幹+連用形語尾」、「省略助詞+語幹+連用形語尾」及び「連用形語尾」等が適宜、使用可能となっている。修正候補内の「省略助詞」は「直前助詞」と読み替えてもよい。
【0095】
修正候補推定部42は、述語省略診断部35から送出された省略箇所を示す情報を受けると、修正候補推定用情報決定ルール41aに基づいて、言語解析結果から認識される述語を修正候補推定用情報として決定する機能と、決定された修正候補推定用情報と、送出された省略形式と、修正候補部分情報41b1と、修正候補組立情報41b2とに基づいて、省略に対する修正候補を組み立てると共に、当該組み立てた修正候補を指摘情報生成部37に送出する修正候補組立機能とをもっている。
【0096】
これに伴い、指摘情報生成部37は、述語が省略されている旨と、送出された修正候補とを指摘する指摘情報を生成し、この指摘情報を出力部38に出力する機能をもっている。
【0097】
次に、以上のように構成された文書処理装置の動作について図25のフローチャートを参照しながら説明する。
【0098】
始めに、ステップS10の入力文取得からステップS50の省略形式判定までの処理は、前述同様に実行される。なお、本実施形態の省略形式判定S50は、修正候補の推定に必須な処理である。
【0099】
続いて、ステップS55においては、修正候補推定が実行される。
【0100】
修正候補推定部42は、修正候補推定ルール記憶部41内の修正候補推定用情報決定ルール41aに基づき、修正候補推定用情報を決定する。
【0101】
また、修正候補推定部42は、修正候補推定ルール記憶部41内の修正候補推定ルール41bに基づき、修正候補の語幹、活用語尾、直前助詞を推定し、省略形式によって修正候補を推定する。
【0102】
例えば、例文1「客先用文書をカラー、内部用文書を白黒で印刷する。」に対して、省略箇所が「カラー」の直後であると診断された場合、修正候補推定部42は、修正候補推定用情報決定ルール41aに基づき、修正候補推定用情報が文末の「印刷する」ノードであることを決定する。さらに、省略形式判定S50によって、省略形式が「名詞で中止」と判定された場合、修正候補推定部42は、修正候補推定用情報と省略形式に基づき、修正候補推定ルール41bに基づき、修正候補の語幹が「印刷」、活用語尾が「し」、直前助詞が「で」を推定し、省略形式によって修正候補「で印刷し」を組み立てる。
【0103】
同様に、例文2「客先用文書をカラーで、社内用文書を白黒で印刷する。」と例文3「客先用文書をカラーで印刷、内部用文書を白黒で印刷する。」に対しても、修正候補推定部42は、それぞれ修正候補「印刷し」と「し」を生成できる。
【0104】
このように生成された修正候補は、指摘情報生成部37に送出される。
【0105】
続いて、ステップS60の指摘情報生成は、次のように実行される。
【0106】
指摘情報生成部37は、図26〜図28に示すように、述語が省略されている旨と、送出された修正候補とを指摘する指摘情報37bを生成し、この指摘情報37bを出力部38に出力する。なお、図26〜図28は、それぞれ例文1〜3に対する指摘情報37bの例を示している。
【0107】
しかる後、ステップS70の出力は、前述同様に実行される。
【0108】
上述したように本実施形態によれば、省略箇所を示す情報を受けると、修正候補推定用情報決定ルール41aに基づいて、言語解析結果から認識される述語を修正候補推定用情報として決定し、修正候補推定用情報と、送出された省略形式と、修正候補部分情報41b1と、修正候補組立情報41b2とに基づいて、省略に対する修正候補を組み立てると共に、当該組み立てた修正候補を指摘情報生成部37に送出する修正候補推定部42と、述語が省略されている旨と、送出された修正候補とを指摘する指摘情報を出力する指摘情報生成部37とを備えた構成により、人間が気づきにくい述語省略を発見するだけではなく、どのように修正すべきかの修正候補まで提示でき、ユーザによる修正を支援することができる。
【0109】
また、第1の実施形態の効果に加え、指摘した省略箇所に適切な修正候補を提示することによって、人間の修正作業の効率も向上でき、正しく解析できる文、または読み易い文に修正できる可能性を高めることができる。
【0110】
なお、第3の実施形態は、主に第1の実施形態に、修正候補推定ルール記憶部41及び修正候補推定部42を加えた形態として説明したが、これに限らず、例えば図29及び図30に示すように、第2の実施形態に各部41,42を加えた形態としても同様の効果を得ることができる。
【0111】
以上説明した少なくとも一つの実施形態によれば、言語解析結果と格情報認識ルール31a及び構文関係検査ルール31bとに基づいて要注意成分を送出する構文関係検査部34と、入力を受け付けた文に対し、送出された要注意成分と言語解析結果と述語省略診断ルール31cとに基づいて、要注意成分に対して述語が省略されている場合には省略箇所を示す情報を送出する述語省略診断部35と、送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を出力する指摘情報生成部37とを備えた構成により、述語の省略を発見して作成者に修正を促すことができる。
【0112】
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に記憶して頒布することもできる。
【0113】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0114】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0115】
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0116】
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0117】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0118】
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0119】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0120】
10…コンピュータ、20…外部記憶装置、30…文書処理装置、31…診断ルール記憶部、31a…格情報認識ルール、31b…構文関係検査ルール、31c…述語省略診断ルール、31d…省略形式判定ルール、32…入力部、33…言語解析部、34…構文関係検査部、35…述語省略診断部、36…省略形式判定部、37…指摘情報生成部、37a,37b…指摘情報、38…出力部、39…副助詞パターン診断ルール記憶部、39a…副助詞パターン診断ルール、40…副助詞パターン診断部、41…修正候補推定ルール記憶部、41a…修正候補推定用情報決定ルール、41b…修正候補推定ルール、42…修正候補推定部。
【特許請求の範囲】
【請求項1】
入力を受け付けた文において述語が省略されているとき、前記述語が省略されている旨を指摘して修正を促す文書処理装置であって、
前記文の言語解析結果から述語及び目的語を認識するための格情報認識ルールと、前記認識された述語に接続する2つ以上の目的語を要注意成分とする旨を規定した構文関係検査ルールと、前記要注意成分に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとが予め記憶されたルール記憶手段と、
前記入力を受け付けた文を言語解析し、言語解析結果を得る言語解析手段と、
この言語解析結果と前記格情報認識ルール及び前記構文関係検査ルールとに基づいて、前記要注意成分があるか否かを検査し、前記要注意成分がある場合には当該要注意成分を送出する構文関係検査手段と、
前記入力を受け付けた文に対し、前記送出された要注意成分と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該要注意成分に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を送出する述語省略診断手段と、
前記送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する指摘情報生成手段と
を備えたことを特徴とする文書処理装置。
【請求項2】
請求項1に記載の文書処理装置において、
前記文に2以上の同一の副助詞があって前記副助詞に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとが予め記憶された副助詞診断ルール記憶手段と、
前記検査の結果、前記要注意成分がない場合、又は前記診断の結果、該当しない場合には、前記入力を受け付けた文に対し、前記言語解析手段による言語解析結果と前記副助詞診断ルールとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を前記指摘情報生成手段に送出する副助詞診断手段と
を更に備えたことを特徴とする文書処理装置。
【請求項3】
請求項1又は請求項2に記載の文書処理装置において、
前記省略箇所に対する直前の箇所の品詞と付属語の有無とに応じて省略形式を示す省略形式判定ルールを予め記憶した省略形式ルール記憶手段と、
前記2つ以上の目的語がある文の述語及び前記2つ以上の同一の副助詞がある文の述語をそれぞれ示す修正候補推定用情報決定ルールと、前記修正候補推定用情報が示す述語に関する品詞、語幹、連用形語尾及び直前助詞を示す修正候補部分情報と、前記省略形式毎に前記修正候補部分情報に基づいて組み立てた修正候補を示す修正候補組立情報とが予め記憶された修正候補情報記憶手段と、
前記送出された省略箇所を示す情報を受けると、前記修正候補推定用情報決定ルールに基づいて、前記言語解析結果から認識される述語を修正候補推定用情報として決定する手段と、
前記送出された省略箇所を示す情報と前記省略形式判定ルールに基づいて省略形式を判定し、得られた省略形式を送出する省略形式判定手段と、
前記決定された修正候補推定用情報と、前記送出された省略形式と、前記修正候補部分情報と、前記修正候補組立情報とに基づいて、前記省略に対する修正候補を組み立てると共に、当該組み立てた修正候補を前記指摘情報生成手段に送出する修正候補組立手段と
を更に備え、
前記指摘情報生成手段は、前記述語が省略されている旨と、前記送出された修正候補とを指摘する指摘情報を生成し、この指摘情報を出力することを特徴とする文書処理装置。
【請求項4】
メモリを備え、入力を受け付けた文において述語が省略されているとき、前記述語が省略されている旨を指摘して修正を促す文書処理装置に用いられるプログラムであって、
前記文書処理装置を、
前記文の言語解析結果から述語及び目的語を認識するための格情報認識ルールと、前記認識された述語に接続する2つ以上の目的語を要注意成分とする旨を規定した構文関係検査ルールと、前記要注意成分に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとを前記メモリに予め書き込む手段、
前記入力を受け付けた文を言語解析し、言語解析結果を得る言語解析手段、
この言語解析結果と前記格情報認識ルール及び前記構文関係検査ルールとに基づいて、前記要注意成分があるか否かを検査し、前記要注意成分がある場合には当該要注意成分を送出する構文関係検査手段、
前記入力を受け付けた文に対し、前記送出された要注意成分と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該要注意成分に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を送出する述語省略診断手段、
前記送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する指摘情報生成手段、
として機能させるためのプログラム。
【請求項5】
請求項4に記載のプログラムにおいて、
前記文書処理装置を、
前記文に2以上の同一の副助詞があって前記副助詞に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとを前記メモリに予め書き込む手段、
前記検査の結果、前記要注意成分がない場合、又は前記診断の結果、該当しない場合には、前記入力を受け付けた文に対し、前記言語解析手段による言語解析結果と前記副助詞診断ルールとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を前記指摘情報生成手段に送出する副助詞診断手段、
として更に機能させるためのプログラム。
【請求項6】
請求項4又は請求項5に記載のプログラムにおいて、
前記文書処理装置を、
前記省略箇所に対する直前の箇所の品詞と付属語の有無とに応じて省略形式を示す省略形式判定ルールを前記メモリに予め書き込む手段、
前記2つ以上の目的語がある文の述語及び前記2つ以上の同一の副助詞がある文の述語をそれぞれ示す修正候補推定用情報決定ルールと、前記修正候補推定用情報が示す述語に関する品詞、語幹、連用形語尾及び直前助詞を示す修正候補部分情報と、前記省略形式毎に前記修正候補部分情報に基づいて組み立てた修正候補を示す修正候補組立情報とを前記メモリに予め書き込む手段、
前記送出された省略箇所を示す情報を受けると、前記修正候補推定用情報決定ルールに基づいて、前記言語解析結果から認識される述語を修正候補推定用情報として決定する手段、
前記送出された省略箇所を示す情報と前記省略形式判定ルールに基づいて省略形式を判定し、得られた省略形式を送出する省略形式判定手段、
前記決定された修正候補推定用情報と、前記送出された省略形式と、前記修正候補部分情報と、前記修正候補組立情報とに基づいて、前記省略に対する修正候補を組み立てると共に、当該組み立てた修正候補を前記指摘情報生成手段に送出する修正候補組立手段、
として更に機能させ、
前記指摘情報生成手段は、前記述語が省略されている旨と、前記送出された修正候補とを指摘する指摘情報を生成し、この指摘情報を出力する手段を含んでいるプログラム。
【請求項1】
入力を受け付けた文において述語が省略されているとき、前記述語が省略されている旨を指摘して修正を促す文書処理装置であって、
前記文の言語解析結果から述語及び目的語を認識するための格情報認識ルールと、前記認識された述語に接続する2つ以上の目的語を要注意成分とする旨を規定した構文関係検査ルールと、前記要注意成分に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとが予め記憶されたルール記憶手段と、
前記入力を受け付けた文を言語解析し、言語解析結果を得る言語解析手段と、
この言語解析結果と前記格情報認識ルール及び前記構文関係検査ルールとに基づいて、前記要注意成分があるか否かを検査し、前記要注意成分がある場合には当該要注意成分を送出する構文関係検査手段と、
前記入力を受け付けた文に対し、前記送出された要注意成分と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該要注意成分に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を送出する述語省略診断手段と、
前記送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する指摘情報生成手段と
を備えたことを特徴とする文書処理装置。
【請求項2】
請求項1に記載の文書処理装置において、
前記文に2以上の同一の副助詞があって前記副助詞に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとが予め記憶された副助詞診断ルール記憶手段と、
前記検査の結果、前記要注意成分がない場合、又は前記診断の結果、該当しない場合には、前記入力を受け付けた文に対し、前記言語解析手段による言語解析結果と前記副助詞診断ルールとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を前記指摘情報生成手段に送出する副助詞診断手段と
を更に備えたことを特徴とする文書処理装置。
【請求項3】
請求項1又は請求項2に記載の文書処理装置において、
前記省略箇所に対する直前の箇所の品詞と付属語の有無とに応じて省略形式を示す省略形式判定ルールを予め記憶した省略形式ルール記憶手段と、
前記2つ以上の目的語がある文の述語及び前記2つ以上の同一の副助詞がある文の述語をそれぞれ示す修正候補推定用情報決定ルールと、前記修正候補推定用情報が示す述語に関する品詞、語幹、連用形語尾及び直前助詞を示す修正候補部分情報と、前記省略形式毎に前記修正候補部分情報に基づいて組み立てた修正候補を示す修正候補組立情報とが予め記憶された修正候補情報記憶手段と、
前記送出された省略箇所を示す情報を受けると、前記修正候補推定用情報決定ルールに基づいて、前記言語解析結果から認識される述語を修正候補推定用情報として決定する手段と、
前記送出された省略箇所を示す情報と前記省略形式判定ルールに基づいて省略形式を判定し、得られた省略形式を送出する省略形式判定手段と、
前記決定された修正候補推定用情報と、前記送出された省略形式と、前記修正候補部分情報と、前記修正候補組立情報とに基づいて、前記省略に対する修正候補を組み立てると共に、当該組み立てた修正候補を前記指摘情報生成手段に送出する修正候補組立手段と
を更に備え、
前記指摘情報生成手段は、前記述語が省略されている旨と、前記送出された修正候補とを指摘する指摘情報を生成し、この指摘情報を出力することを特徴とする文書処理装置。
【請求項4】
メモリを備え、入力を受け付けた文において述語が省略されているとき、前記述語が省略されている旨を指摘して修正を促す文書処理装置に用いられるプログラムであって、
前記文書処理装置を、
前記文の言語解析結果から述語及び目的語を認識するための格情報認識ルールと、前記認識された述語に接続する2つ以上の目的語を要注意成分とする旨を規定した構文関係検査ルールと、前記要注意成分に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとを前記メモリに予め書き込む手段、
前記入力を受け付けた文を言語解析し、言語解析結果を得る言語解析手段、
この言語解析結果と前記格情報認識ルール及び前記構文関係検査ルールとに基づいて、前記要注意成分があるか否かを検査し、前記要注意成分がある場合には当該要注意成分を送出する構文関係検査手段、
前記入力を受け付けた文に対し、前記送出された要注意成分と前記言語解析手段による言語解析結果と前記述語省略診断ルールとに基づいて、当該要注意成分に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を送出する述語省略診断手段、
前記送出された省略箇所を示す情報に基づいて、述語が省略されている旨を指摘する指摘情報を生成し、この指摘情報を出力する指摘情報生成手段、
として機能させるためのプログラム。
【請求項5】
請求項4に記載のプログラムにおいて、
前記文書処理装置を、
前記文に2以上の同一の副助詞があって前記副助詞に対して述語が省略されている場合と述語の省略箇所とを示す述語省略診断ルールとを前記メモリに予め書き込む手段、
前記検査の結果、前記要注意成分がない場合、又は前記診断の結果、該当しない場合には、前記入力を受け付けた文に対し、前記言語解析手段による言語解析結果と前記副助詞診断ルールとに基づいて、副助詞に対して述語が省略されている場合に該当するか否かを診断し、該当する場合には省略箇所を示す情報を前記指摘情報生成手段に送出する副助詞診断手段、
として更に機能させるためのプログラム。
【請求項6】
請求項4又は請求項5に記載のプログラムにおいて、
前記文書処理装置を、
前記省略箇所に対する直前の箇所の品詞と付属語の有無とに応じて省略形式を示す省略形式判定ルールを前記メモリに予め書き込む手段、
前記2つ以上の目的語がある文の述語及び前記2つ以上の同一の副助詞がある文の述語をそれぞれ示す修正候補推定用情報決定ルールと、前記修正候補推定用情報が示す述語に関する品詞、語幹、連用形語尾及び直前助詞を示す修正候補部分情報と、前記省略形式毎に前記修正候補部分情報に基づいて組み立てた修正候補を示す修正候補組立情報とを前記メモリに予め書き込む手段、
前記送出された省略箇所を示す情報を受けると、前記修正候補推定用情報決定ルールに基づいて、前記言語解析結果から認識される述語を修正候補推定用情報として決定する手段、
前記送出された省略箇所を示す情報と前記省略形式判定ルールに基づいて省略形式を判定し、得られた省略形式を送出する省略形式判定手段、
前記決定された修正候補推定用情報と、前記送出された省略形式と、前記修正候補部分情報と、前記修正候補組立情報とに基づいて、前記省略に対する修正候補を組み立てると共に、当該組み立てた修正候補を前記指摘情報生成手段に送出する修正候補組立手段、
として更に機能させ、
前記指摘情報生成手段は、前記述語が省略されている旨と、前記送出された修正候補とを指摘する指摘情報を生成し、この指摘情報を出力する手段を含んでいるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【公開番号】特開2012−141843(P2012−141843A)
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2011−159(P2011−159)
【出願日】平成23年1月4日(2011.1.4)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願日】平成23年1月4日(2011.1.4)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]