文書データ処理装置およびそのプログラム
【課題】文書データにおける数値情報の正当性の確認を効率よく支援する。
【解決手段】文書データ処理装置100の重要表現抽出部16は、記憶装置12の辞書情報記憶部13から重要表現抽出・メッセージ作成ルール辞書を読み出し、当該辞書の抽出パターンと入力文とが適合した場合には、当該入力文中の抽出パターンとの適合表現をもとに重要表現を抽出する。メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現を用いて、重要表現をユーザに提示するためのメッセージを重要表現抽出・メッセージ作成ルール辞書から参照する。メッセージ作成部18は、参照したメッセージの変数部分に抽出済み重要表現を代入し、重要表現をユーザに提示するためのメッセージの文言を作成する。
【解決手段】文書データ処理装置100の重要表現抽出部16は、記憶装置12の辞書情報記憶部13から重要表現抽出・メッセージ作成ルール辞書を読み出し、当該辞書の抽出パターンと入力文とが適合した場合には、当該入力文中の抽出パターンとの適合表現をもとに重要表現を抽出する。メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現を用いて、重要表現をユーザに提示するためのメッセージを重要表現抽出・メッセージ作成ルール辞書から参照する。メッセージ作成部18は、参照したメッセージの変数部分に抽出済み重要表現を代入し、重要表現をユーザに提示するためのメッセージの文言を作成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書データ(表情報も含む)中の数値情報の校正を支援するための文書データ処理装置およびそのプログラムに関する。
【背景技術】
【0002】
従来、文書データ中の数値の校正支援に用いることのできる技術として、当該文書データ中の数値情報を抽出するものがあった(例えば、特許文献1参照)。この手法では、文章データ中から数値情報を抽出するとともに、文を係り受け解析し、抽出済みの数値情報に係り受けする情報を取得し、数値情報および当該数値情報が表す対象を取得する。
【特許文献1】特開2005−157853号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、文書データ中の数値情報の正当性を確認するためには、数値情報を文章データ中から抽出するのみでは不十分であり、ユーザが文章データ中から数値情報の記述を発見し、更に、その数値情報が何を意味しているのかを表す記述を発見する必要がある。しかし、この作業はユーザにとって容易ではなく、多大な手間を要する。
【0004】
そこで、本発明の目的は、文書データ(表情報も含む)中の数値情報の正当性に関する確認を効率よく支援することが可能になる文書データ処理装置およびそのプログラムを提供することにある。
【課題を解決するための手段】
【0005】
即ち、以上の課題を解決するためになされた本発明は、文書データを入力する文書入力手段と、前記文書データ中から特定の情報を抽出するための規則情報を記憶する記憶手段と、前記文書データ中から前記規則情報に則って抽出した規則要素情報および前記記憶手段に記憶された抽出規則雛型に基づき抽出パターンを生成し、この抽出パターンから特定の情報を生成する抽出規則要素取得手段と、前記文書入力手段により入力した文書データ中の情報から、前記抽出規則要素取得手段により抽出した特定の情報に対応する情報を検索する検索手段と、前記抽出規則要素取得手段により抽出した特定の情報のうち、前記検索手段により検索した情報に対応する情報および当該検索した情報を照合する照合手段と、前記照合手段による照合結果を示すメッセージを作成する作成手段とを備えたことを特徴とする文書データ処理装置およびそのプログラムである。
【0006】
更に、前記記憶手段に記憶する不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行なうとともに、このフィルタリングで選択された抽出規則要素について、抽出パターンを生成する抽出規則要素取得手段へ送る抽出規則要素フィルター手段を有することも特徴とする文書データ処理装置およびそのプログラムである。
【発明の効果】
【0007】
本発明によれば、文書データ(表情報も含む)中の特定の情報(特に数値情報が代表的である)の正当性に関する確認を効率よく支援することができる。従って、文書作成の効率が向上するとともに、質の高い文書の作成を支援することが可能となる。
【発明を実施するための最良の形態】
【0008】
以下では、複数の図面を用いて本発明の実施形態について説明する。
(基本となる実施形態)
まず、本発明の第1の実施形態に係る説明の前に、本発明の基本となる実施形態について説明する。この本発明の基本となる実施形態の動作が、本発明の根幹をなすものであり、本発明の理解を容易にすると考えられるからである。
【0009】
図1は、本発明の基本となる実施形態にしたがった文書データ処理装置1の構成例を示すブロック図である。
図1に示すように、本発明の基本となる実施形態に従った文書データ処理装置1は、装置全体の処理動作を司る制御部11、記憶手段である記憶装置12、入出力インタフェース15、抽出手段である重要表現抽出部16、計算手段である確信度計算部17、作成手段であるメッセージ作成部18を備え、それぞれがバス19を介して相互に接続される。
【0010】
記憶装置12は、例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶媒体である。記憶装置12は、制御部11、重要表現抽出部16、確信度計算部17、メッセージ作成部18による実行対象の制御用プログラムを記憶する。また、記憶装置12は、規則情報である重要表現抽出・メッセージ作成ルール辞書を記憶するための辞書情報記憶部13を有し、更に色・確信度対応情報を記憶するための色対応情報記憶部14も有する。重要表現抽出・メッセージ作成ルール辞書および色・確信度対応情報については後述する。そして、記憶装置12は、制御部11、重要表現抽出部16、確信度計算部17、メッセージ作成部18による各種処理のワークメモリとしても機能する。
【0011】
重要表現抽出部16は、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書を参照しながら入力文書データ中の重要表現を抽出し、抽出した結果を記憶装置12に記憶する。
【0012】
確信度計算部17は、重要表現抽出部16によって抽出されて記憶装置12に記憶された重要表現について、その内容がどれほど信頼できるかを示す確信度を計算し、計算結果を記憶装置12に記憶する。
【0013】
メッセージ作成部18は、重要表現抽出部16によって抽出されて記憶装置12に記憶された重要表現を用い、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書を参照しながら、重要表現のユーザへの確認用メッセージを作成する。
【0014】
図2は、本発明の基本となる実施形態に従った端末装置の構成例を示すブロック図である。
【0015】
端末装置2は、文書データを作成および校閲するユーザが取り扱う装置である。図2に示すように、端末装置2は、装置全体の処理を司る制御部21、記憶装置22、入力装置23、出力装置24、通信インタフェース25を備え、それぞれがバス26を介して相互に接続される。
【0016】
記憶装置22は、例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶媒体である。記憶装置22は、制御部21による実行対象の制御用プログラムを記憶する他、制御部21による各種処理のワークメモリとしても機能する。
【0017】
入力装置23は、例えばキーボードやマウスであり、文書データの新規作成にかかる操作を受け付ける。出力装置24は、例えば液晶ディスプレイであり、ユーザが作成および校閲する文書の表示を行なう。
【0018】
通信インタフェース25は、ケーブルなどを介して文書データ処理装置1の入出力インタフェース15と通信可能に接続され、端末装置2において作成された文書データや文書データ処理装置1の処理結果などのやり取りを行なう。
【0019】
また、通信インタフェース25は、図示しない外部記憶装置とケーブルを介して通信可能に接続可能であり、この外部記憶装置との間で文書データを入出力することもできる。
【0020】
図3は、本発明の基本となる実施形態に従った文書データ処理装置1の記憶装置12に記憶される重要表現抽出・メッセージ作成ルール辞書の一例を表形式で示す図である。
【0021】
図3に示すように、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書では、重要表現の抽出パターンとメッセージが関連付けられて管理される。ここで、抽出パターンとは、抽出対象の各重要表現の組合せを正規表現で記述したものである。また、抽出パターンに従って抽出された各重要表現およびこの表現に対応して、重要表現抽出・メッセージ作成ルール辞書で関連付けられるメッセージを用いて重要表現の確認用メッセージが作成される。そして、この確認用メッセージが端末装置2の出力装置24でユーザに提示される。
【0022】
なお、図3に示した重要表現抽出・メッセージ作成ルール辞書の抽出パターンにおける「.*?」は、0個以上の何らかのキャラクタ、例えば文字や記号を意味する。また、図3に示した重要表現抽出・メッセージ作成ルール辞書のメッセージ中の変数部分である「$1」や「$2」は、当該メッセージに対して重要表現抽出・メッセージ作成ルール辞書で関連付けられる抽出パターンにおける、括弧で囲まれた部分の参照を当該囲まれた部分の記述順に行なう、ということを示している。
【0023】
図3に示した重要表現抽出・メッセージ作成ルール辞書の1行目の抽出パターンは、「(CO2排出量).*?([0−9.,]+トン)」である。このパターンは、「CO2排出量」を含み、この次に0個以上の何らかのキャラクタを含み、当該キャラクタの次に単位がトンである量を示す単語を含む、ということを示している。
【0024】
続いて、2行目の抽出パターンは、「(CO2排出量).*?(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」である。このパターンは、「CO2排出量」を含み、この次に0個以上の何らかのキャラクタを含み、この次に、「米国」、「オーストラリア」および「カナダ」のいずれかを含み、この次に、単位がトンである量を示す単語を含む、ということを示している。
【0025】
また、3行目の抽出パターンは、「(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」である。このパターンは、「米国」、「オーストラリア」および「カナダ」のいずれかを含み、この次に0個以上の何らかのキャラクタを含み、この次に、単位がトンである量を示す単語を含む、ということを示している。
【0026】
図4は、本発明の基本となる実施形態に従った文書データ処理装置1記憶装置に記憶される色・確信度情報の一例を表形式で示す図である。
【0027】
図4に示すように、記憶装置12の色対応情報記憶部14に記憶される色・確信度情報では、確信度の段階を示す数字と当該確信度に固有の色情報とが対応付けられて管理される。
【0028】
次に、図1に示した構成の文書データ処理装置1および図2に示した端末装置2の動作について説明する。図5は、本発明の基本となる実施形態に従った文書データ処理装置1の処理動作の一例を示すフローチャートである。以下の説明では、図5の各ステップに対応させて説明する。
【0029】
図6は、本発明の基本となる実施形態に従った文書データ処理装置による処理対象の重要表現の抽出例を示す図である。
【0030】
まず、端末装置2の入力装置23に対する操作により文書データが入力されると(ステップS1)、制御部21は、この文書データを記憶装置22に記憶する。この実施形態では、入力文書データは、図6に示すように「人口1人当たりのCO2排出量は、先進国の中では、米国が19.8トンで最も多く、オーストラリア、カナダが、それぞれ、18.0トン、14.2トンで続いている。」となっている。
【0031】
制御部21は、入力装置23に対して入力文書データ中の重要表現のチェック要求にかかる入力操作がなされると、記憶装置22に記憶された文書データを、通信インタフェース25を介して文書データ処理装置1に出力する。この文書データは、テキスト情報や位置情報で構成されている。ここで、位置情報とは、文、パラグラフやページのインデックスである。
【0032】
端末装置2からのテキスト情報や位置情報を文書データ処理装置1の入出力インタフェース15が入力すると、重要表現抽出部16は、入力済みのテキスト情報および位置情報をもとに入力文書データ中の重要表現を抽出するために、記憶装置12の辞書情報記憶部13から重要表現抽出・メッセージ作成ルール辞書を読み出し、当該辞書の抽出パターンの1行目を参照し(ステップS2)、入力文書データと当該抽出パターンとを比較して、入力文と抽出パターンとが適合するか否かを判別する(ステップS3)。
【0033】
入力文書データが、図6に示したように「人口1人当たりのCO2排出量は・・」である場合には、重要表現抽出部16は、この入力文書データと図3に示した重要表現抽出・メッセージ作成ルール辞書との照合により、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。それは、当該入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、」が含まれ、この表現に続いて「米国」が含まれ、この表現に続いて「が」が含まれ、この表現に続いて「19.8トン」が含まれるからである。
【0034】
また、重要表現抽出部16は、図6に示した入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、米国が19.8トンで最も多く、」が含まれ、この表現に続いて「オーストラリア」が含まれ、この表現に続いて「、カナダが、それぞれ、」が含まれ、この表現に続いて「18.0トン」が含まれるので、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。
【0035】
そして、重要表現抽出部16は、図6に示した入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、米国が19.8トンで最も多く、オーストラリア、」が含まれ、この表現に続いて「カナダ」が含まれ、この表現に続いて「、それぞれ、18.0トン、」が含まれ、この表現に続いて「14.2トン」が含まれるので、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。
【0036】
重要表現抽出部16は、入力文と照合対象の抽出パターンが適合しなかった場合には(ステップS3のNO)、重要表現抽出・メッセージ作成ルール辞書における次の行の抽出パターンを参照し、ステップS2以降の処理を再度行なう。この実施形態では、入力文は、重要表現抽出・メッセージ作成ルール辞書におけるいずれかの行の抽出パターンと適合するとする。
【0037】
重要表現抽出部16は、入力文と抽出パターンが適合した場合には(ステップS3のYES)、当該入力文中の抽出パターンとの適合表現をもとに重要表現を抽出する(ステップS4)。
【0038】
例を挙げると、重要表現抽出部16は、図6に示した入力文中の表現のうち、図3に示した重要表現抽出・メッセージ作成ルール辞書における抽出パターンの各要素との適合表現のうち抽出パターンにおける括弧で囲まれた表現をもとに、図6に示すように重要表現抽出処理結果の第1のパターンとして「CO2排出量 米国 19.8トン」を抽出し、重要表現抽出処理結果の第2のパターンとして「CO2排出量 オーストラリア 18.0トン」を抽出し、重要表現抽出処理結果の第3のパターンとして「CO2排出量 カナダ 14.2トン」を抽出する。
【0039】
重要表現抽出部16は、入力文の最後までと重要表現抽出・メッセージ作成ルール辞書との照合にともなう重要表現の抽出が終了していない場合には(ステップS5のNO)、ステップS2の処理に戻る。
【0040】
重要表現抽出部16が入力文の最後までと重要表現抽出・メッセージ作成ルール辞書との照合にともなう重要表現の抽出が終了した場合には(ステップS5のYES)、確信度計算部17は、重要表現抽出部16によって抽出された重要表現抽出処理結果の各パターンについて、このパターンに属する重要表現の内容が入力文書データ中の重要表現としてどれほど信頼できるかを示す確信度を計算する(ステップS6)。ここでは確信度の値が大きいほど信頼性が高い。
【0041】
具体的には、確信度計算部17は、抽出されたパターンに含まれる重要表現の数をもとに確信度を計算する。ここでは、抽出されたパターンに含まれる重要表現の数がN個である場合には確信度はN−1となる。
【0042】
つまり、抽出されたパターンが図6に示したように「CO2排出量 米国 19.8トン」であったり、「CO2排出量 オーストラリア 18.0トン」であったり、「CO2排出量 カナダ 14.2トン」であったりする場合には、このパターンに含まれる重要表現が3つであるので、確信度は「2」となる。確信度計算部17は、このように計算した確信度の情報を、対応する重要表現のパターンとともに記憶装置12に記憶する。
【0043】
図7は、本発明の基本となる実施形態に従った文書データ処理装置1による処理対象のメッセージの作成例を示す図である。
【0044】
次に、メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、および確信度計算部17により計算された確信度を用いて、重要表現をユーザに提示するためのメッセージ、つまり重要表現のユーザへの確認用メッセージを作成する。
【0045】
具体的には、メッセージ作成部18は、抽出済みの重要表現抽出の処理結果について、各パターンの一つを選択し、記憶装置12に記憶された重要表現抽出・メッセージ作成ルール辞書における抽出パターンのうち、選択済みの重要表現に関するパターン抽出の際に、重要表現抽出・メッセージ作成ルール辞書中で適合した抽出パターンに対して、重要表現抽出・メッセージ作成ルール辞書で対応付けられるメッセージを参照する(ステップS7)。
【0046】
例えば、抽出済みのパターンが前述したように「CO2排出量 米国 19.8トン」である場合には、この抽出の際に図3に示した重要表現抽出・メッセージ作成ルール辞書中で適合した抽出パターンは、2行目の「(CO2排出量).*?(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」であるので、参照されるメッセージは同じく2行目の「$2の$1は$3で正しいですか?」となる。
【0047】
そして、メッセージ作成部18は、参照したメッセージの変数部分である$1や$2に抽出した重要表現を代入し(ステップS8)、重要表現をユーザに提示するためのメッセージの文言を作成する。
【0048】
前述したように、抽出済みのパターンが「CO2排出量 米国 19.8トン」で、参照されたメッセージが「$2の$1は$3で正しいですか?」である場合には、「$1」に代入される重要表現は、抽出済みパターン中の最初の表現「CO2排出量」であり、「$2」に代入される重要表現は、抽出済みパターン中の2番目の表現「米国」であり、「$3」に代入される重要表現は、抽出済みパターン中の3番目の表現「19.8トン」である。
【0049】
よって、作成されるメッセージの文字列は、「米国のCO2排出量は19.8トンで正しいですか?」となる。
【0050】
また、前述したように抽出済みの第2のパターンが「CO2排出量 オーストラリア 18.0トン」である場合には、作成されるメッセージの文字列は、「オーストラリアのCO2排出量は18.0トンで正しいですか?」となり、前述したように抽出済みの第3のパターンが「CO2排出量 カナダ 14.2トン」である場合には、作成されるメッセージの文字列は、「カナダのCO2排出量は14.2トンで正しいですか?」となる。
【0051】
そして、メッセージ作成部18は、各メッセージについて、確信度計算部17において計算された確信度をもとに、記憶装置12の色対応情報記憶部14に記憶された色・確信度対応情報を参照し、メッセージの強調色を決定する(ステップS9)。
【0052】
抽出済みのパターンが「CO2排出量 米国 19.8トン」や「CO2排出量 オーストラリア 18.0トン」や「CO2排出量 カナダ 14.2トン」である場合、これらのパターンに対応する確信度はいずれも「2」である。当該確信度「2」に対して、図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。よって、作成済みのメッセージは当該コードに対応する色で強調される。
【0053】
このようにして、メッセージ作成部18は、作成した色付きのメッセージを、入出力インタフェース15を介して端末装置2に出力する。
【0054】
なお、メッセージ作成部18では、確信度をもとにメッセージの強調色を区別する代わりに、色・確信度対応情報を別の対応情報として、フォントの大きさや、メッセージの文言自体を区別してもよい。
【0055】
文書データ処理装置1から出力されたメッセージを、端末装置2の通信インタフェース25が入力すると、制御部21は、このメッセージを記憶装置22に記憶する。そして、制御部21は、記憶装置22に記憶されたメッセージを取得し、記憶装置22に記憶される入力文書データと併せて出力装置24に出力する(ステップS10)。
【0056】
図8は、本発明の基本となる実施形態に従った端末装置2によるメッセージ出力例を示す図である。
【0057】
出力装置24はメッセージを図8に示すように入力文書データ中の該当文字列と紐付けるなどしてモニタ表示する。
【0058】
以上のように、本発明の基本となる実施形態における文書データ処理装置1では、ユーザが作成した文書データ中の重要表現を自動的に抽出し、その内容と抽出箇所をユーザに確認用メッセージとして提示するようになっている。そうすることによって、表記内容、特に文書作成者が重要であると判断した表現についての確認・訂正作業の効率が向上すると共に、文書の質が向上させている。
【0059】
また、本発明の基本となる実施形態における文書データ処理装置1は、抽出済みの重要表現の確信度を用いてメッセージの提示形態に変化を持たせている。そうすることによって、各メッセージの注目すべき度合いをユーザに伝えることができるようになっている。従って、ユーザは注目すべきメッセージを視覚的に判別することが可能となっている。
【0060】
(第1の実施形態)
次に、本発明の第1の実施形態について説明する。なお、以下の説明に係る文書データ処理装置100の構成のうち、図1に示したものと同一部分の詳細な説明は省略する。そして、図示はしていないが以下の説明ではもちろん端末装置2も備えていることが前提となっている。
【0061】
図9は、本発明の第1の実施形態に従った文書データ処理装置100の構成例を示すブロック図である。
【0062】
図9に示すように、本発明の基本となる実施形態に従った文書データ処理装置100は、上述した本発明の基本となる実施形態と比較して、表情報検索部31、照合処理部32、抽出規則要素取得部34を更に備え、それぞれがバス19を介して相互に接続される。また、記憶装置12は、抽出規則雛型記憶部33を更に備えている。
【0063】
表情報検索部31は、文書データ中の表情報を取得し、重要表現抽出部16による抽出結果を参照しながら表情報中の項目情報と限定情報を検索し、この検索結果を記憶装置12に記憶する。項目情報とは、重要表現抽出部16により抽出された重要表現の一パターンにおける表現のうち、確認用メッセージの主語に該当する表現である。限定情報とは、当該抽出された重要表現の一パターンにおける表現のうち、当該パターン中の数値の限定に関わる表現である。
【0064】
また、照合処理部32は、記憶装置12に記憶された、重要表現抽出部16による抽出結果と表情報検索部31による抽出結果との比較を行なう。なお、抽出規則雛型記憶部33と抽出規則要素取得部34については後述する。
【0065】
[表情報の抽出プロセス]
最初に、図9に示した構成の文書データ処理装置100を利用した「表情報の抽出プロセス」について説明する。図10は、本発明の第1の実施形態に従った文書データ処理装置100の「表情報の抽出プロセス」に係る処理動作の一例を示すフローチャートである。以下の説明では、図10の各ステップに対応させて説明する。図11は、本発明の第1の実施形態に従った文書データ処理装置100により抽出する数値情報の一例を示す図である。
【0066】
まず、文書データ処理装置100は、本発明の基本となる実施形態で説明したステップS1からステップS5までと同じ処理を行なう(ステップS21〜S25)。
【0067】
そして、文書データ処理装置1の表情報検索部31は、入力文書データに含まれる表情報を取得し、重要表現抽出部16による抽出結果の項目情報と限定情報を参照して、表情報から項目情報と限定情報を取得する(ステップS26)。
【0068】
ここでは、一例として入力文書データ中の表情報の構成は図11に示した構成としている。この表情報の2列1行目に「CO2排出量(トン)」が記述されており、1列2行目に「米国」が記述され、1列4行目「オーストラリア」が記述され、1列6行目に「カナダ」が記述されている。この場合には、表情報検索部31は、「CO2排出量」を表情報中の項目情報として取得し、「米国」、「オーストラリア」、「カナダ」を表情報中の限定情報として取得する。
【0069】
更に、表情報検索部31は、入力文書データ中の表情報から取得済みの項目情報と限定情報をもとに、当該表情報から数値情報を取得する(ステップS27)。
【0070】
表情報検索部31は、入力文書データ中の表情報が図11に示した構成である場合には、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「米国」の記述箇所である1列2行目と同じ行である2列2行目に記述される「19.8」を項目情報「CO2排出量」および限定情報「米国」に対応する数値情報として取得する。
【0071】
また、表情報検索部31は、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「オーストラリア」の記述箇所である1列4行目と同じ行である2列4行目に記述される「18.0」を項目情報「CO2排出量」および限定情報「オーストラリア」に対応する数値情報として取得する。
【0072】
また、表情報検索部31は、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「カナダ」の記述箇所である1列6行目と同じ行である2列6行目に記述される数値情報「15.2」を項目情報「CO2排出量」および限定情報「カナダ」に対応する数値情報として取得する。
【0073】
図12は、「表情報の抽出プロセス」に従った文書データ処理装置100による照合対象の情報の一例を示す図である。
【0074】
この一例に対しては、図12に示すように、重要表現抽出処理結果の第1のパターンは「CO2排出量 米国 19.8トン」であり、重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」である。
【0075】
また、図12に示すように、表情報検索部31は、図11に示すような表情報から取得した項目情報中から単位を外し、数値情報に取得済みの項目情報中の単位を付し、これに取得済みの限定情報を加えた情報を表情報検索処理結果とする。よって、図11に示した表情報をもとにした表情報検索処理結果のパターンは、「CO2排出量 米国 19.8トン」、「CO2排出量 オーストラリア 18.0トン」および「CO2排出量 カナダ 15.2トン」となる。
【0076】
照合処理部32は、記憶装置12に記憶された重要表現抽出部16による抽出結果、および表情報検索部31による表情報検索処理結果を照合する(ステップS28)。
【0077】
そして、メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、表情報検索部31、および照合処理部32による結果を用いて、ユーザに提示するためのメッセージを作成する(ステップS29)。更に、メッセージ作成部18は、作成したメッセージを、入出力インタフェース15を介して端末装置2に出力する。端末装置2の通信インタフェース25がメッセージ作成部18からのメッセージを入力すると、制御部21は、このメッセージを記憶装置22に記憶される入力文書データ中の該当箇所と紐付けて出力装置24にモニタ表示する(ステップS30)。
【0078】
[確信度を加味した表示プロセス]
次に、図9に示した構成の文書データ処理装置100を利用した、「確信度を加味した表示プロセス」について説明する。図13は、本発明の第1の実施形態に従った文書データ処理装置100の「確信度を加味した表示プロセス」に係る処理動作の一例を示すフローチャートである。以下の説明では、図13の各ステップに対応させて説明する。
【0079】
図14は、本発明の第1の実施形態に従った文書データ処理装置100による処理対象の各種データの一例を示す図である。図14に示した重要表現抽出処理結果の一パターンにおける「???」は照合処理部32による照合対象の表情報検索処理結果と比較して抽出がなされなかった表現を意味する。
【0080】
まず、文書データ処理装置100は、「表情報の抽出プロセス」で説明したステップS21からステップS27までの処理と同じ処理を行なう(ステップS41〜S47)。
【0081】
この実施形態では、図14に示すように、重要表現抽出処理結果の第1のパターンは「CO2排出量 19.8トン」であり、重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」である。
【0082】
照合処理部32は、記憶装置12に記憶された重要表現抽出部16による抽出結果、および表情報検索部31による抽出結果を照合する(ステップS48)。この実施形態では、照合処理部32は、抽出済みの重要表現抽出処理結果の一パターン中の各要素と、表情報検索処理結果における照合対象の一パターン中の各要素とを個別に照合し、要素ごとの照合結果を照合順に出力する。
【0083】
照合処理部32は、重要表現抽出処理結果の一パターンおよび表情報検索処理結果における照合対象の一パターンにともに含まれる要素がある場合には「true」を照合結果として出力し、重要表現抽出処理結果の一パターンおよび表情報検索処理結果における照合対象の一パターンのうち片方で欠落している要素があったり、照合対象の双方で一致しない要素があったりする場合には「false」との照合結果を出力する。
【0084】
そして、確信度計算部17は、照合結果をもとに、重要表現抽出部16によって抽出された重要表現抽出処理結果の各パターンについて、このパターンに属する重要表現の内容が入力文書データ中の重要表現としてどれほど信頼できるかを示す確信度を計算する(ステップS49)。
【0085】
具体的には、確信度計算部17は、重要表現抽出処理結果の一パターンに含まれる要素の数をもとに確信度を計算する。ここでは、当該一パターンに含まれる要素の数がN個である場合には確信度はN−1となる。確信度計算部17は、このように計算した確信度の情報を、照合対象の重要表現抽出処理結果のパターンとともに記憶装置12に記憶する。
【0086】
また、メッセージ作成部18は、各メッセージについて、確信度計算部17において計算された確信度をもとに、記憶装置12の色対応情報記憶部14に記憶され、図4に示した色・確信度対応情報を参照し、メッセージの強調色を決定する(ステップS50)。
【0087】
メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、表情報検索部31、および照合処理部32による結果を用いて、ユーザに提示するためのメッセージを作成する(ステップS51)。ここでは、メッセージ作成部18は、重要表現抽出処理結果の一パターン中の各要素と、当該パターンの照合対象である、表情報検索処理結果の一パターンの要素についての照合結果が全て「true」である場合には、「※文中と表中の情報は一致しています。」との文字列をメッセージに含め、一パターンの各要素の照合結果中に「true」と「false」がともに含まれる場合には、「※文中と表中の情報は部分的に一致しています。」との文字列をメッセージに含め、一パターンの各要素の照合結果が全て「false」である場合には、「※文中と表中の情報は一致していません。」との文字列をメッセージに含める。
【0088】
図14には、重要表現抽出処理結果と表情報検索処理結果との照合結果が示されている。この一例では、抽出済みの重要表現抽出処理結果の第1のパターンは「CO2排出量 19.8トン」で、表情報検索処理結果のうち、重要表現抽出処理結果の第1のパターンとの照合対象のパターンは「CO2排出量 米国 19.8トン」であり、「CO2排出量」が双方に含まれ、「米国」は表情報検索処理結果に含まれる一方で重要表現抽出処理結果において欠落しており、「19.8トン」が双方に含まれるので、照合結果は図17に示すように「true false true」となる。
【0089】
この場合、メッセージ作成部18が作成する第1のメッセージの文字列は、「※文中と表中の情報は部分的に一致しています。 文中の情報:CO2排出量 19.8トン 表中の情報:CO2排出量 米国 19.8トン」となる。
【0090】
ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が2つであるので、確信度計算部17が計算する確信度は「1」となる。そしてこの場合、当該確信度「1」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#999999」となる。
【0091】
また、抽出済みの重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、表情報検索処理結果のうち、重要表現抽出処理結果の第2のパターンとの照合対象のパターンは「CO2排出量 オーストラリア 18.0トン」であり、このパターン中の要素は照合対象の双方で全て一致するので照合結果は図17に示すように「true true true」となる。
【0092】
この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致しています。 文中の情報:CO2排出量 オーストラリア 18.0トン 表中の情報:CO2排出量 オーストラリア 18.0トン」となる。
【0093】
ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が3つであるので、確信度計算部17が計算する確信度は「2」となる。この場合当該確信度「2」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。
【0094】
また、抽出済みの重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」であり、表情報検索処理結果のうち、重要表現抽出処理結果の第3のパターンとの照合対象のパターンは「CO2排出量 カナダ 14.2トン」であり、このパターン中の要素は照合対象の双方で全て一致するので照合結果は図14に示すように「true true true」となる。
【0095】
この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致しています。 文中の情報:CO2排出量 カナダ 14.2トン 表中の情報:CO2排出量 カナダ 14.2トン」となる。
【0096】
ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が3つであるので、確信度計算部17が計算する確信度は「2」となる。この場合当該確信度「2」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。
【0097】
メッセージ作成部18は、作成した色付きメッセージを、入出力インタフェース15を介して端末装置2に出力する。端末装置2の通信インタフェース25がメッセージ作成部18からのメッセージを入力すると、制御部21は、このメッセージを入力文書データ中の該当箇所と紐付けて出力装置24にモニタ表示する(ステップS52)。
【0098】
[抽出規則雛形の利用プロセス]
更に、図9に示した構成の文書データ処理装置100を利用した「抽出規則雛形の利用プロセス」について説明する。文書データ処理装置100を構成する抽出規則要素取得部34は、上述したような「表情報の抽出プロセス」を経て文書データ中の表情報を取得し、表の定義情報や表を構成する行列の位置情報を参照しながら、表情報中の軸項目情報および単位情報を抽出し、規則要素情報として分類することができる。
【0099】
ここで、抽出規則要素取得部34は、記憶装置12の抽出規則雛型記憶部33に記憶する抽出規則雛型を取得し、分類された規則要素情報を抽出規則雛型に代入し、抽出パターンを生成する。そして、生成した抽出パターンは、記憶装置12の辞書情報記憶部13に記憶される。
【0100】
なお、軸項目情報とは、表に記述するデータの意味を定義する行および列の見出しであり、単位情報とは、表のデータの単位を表す情報(例えば、百万円、トン)である。つまり、これらの情報は、このようにして抽出された重要表現の一パターンにおける表現のうち、当該パターン中の数値の限定に関わる表現である。
【0101】
そして、抽出規則雛型とは、図16で現れたような抽出パターンを抽象化したものである。この抽出規則雛型は、具体的な要素(例えば、CO2排出量、米国、トン)を記述することなく、Subject(主題)、Country(国)、Branch(部門)、Unit(単位)のような抽出的な分類名のみ、決められた順番および記述規則によって組合せたパターンのモデルである。また、規則要素情報とは、抽出規則雛型を具体化するため、各分類名に代入する具体的な要素情報である。
【0102】
なお、上述した通り、記憶装置12は、抽出規則情報を生成するための抽出規則雛型を記憶するための抽出規則雛型記憶部33、抽出規則要素取得部34から生成された抽出パターンおよびメッセージ作成ルール辞書を記憶するための辞書情報記憶部13を有し、色・確信度対応情報を記憶するための色対応情報記憶部14を有する。
【0103】
図15は、本発明の第1の実施形態に従った文書データ処理装置100の「抽出規則雛形の利用プロセス」に係る処理動作の一例を示すフローチャートである。以下の説明では、図15の各ステップに対応させて説明する。
【0104】
図16は、「抽出規則雛形の利用プロセス」に従った文書データ処理装置100による抽出規則要素情報取得(ステップS52)から重要表現抽出の終了(要否の)判断(ステップS57)までの処理による処理対象の各種データの一例を示す図である。
【0105】
まず、文書データ処理装置100は、「確信度を加味した表示プロセス」で説明したステップS41(即ち、ステップS21=ステップS1)の処理と同じく文書データ入力処理を行なう(ステップS61)。この実施形態では、入力文書データは、図6に示す入力表および入力文「A部門の売上高は520万円である。」である。
【0106】
抽出規則要素取得部34は、入力表に対して、規則要素情報を取得する(ステップS62)。この規則要素情報を取得するために、まず、表の定義情報を参照しながら、表の軸項目情報および単位情報を抽出する。図16に示す例では、列の見出しから「売上高」と「利益」、行見出しから「A部門」、「B部門」、「C部門」、行の数値領域から「百万円」のような情報を抽出する。
【0107】
なお、参照情報とする表の定義情報とは、表に記述された見出しや単位の位置と種類(意味)を明示する外部参照情報、あるいは各要素の位置(行列の番号および順番)による情報の抽出ルールを表わす参照情報である。
【0108】
そして、表の定義情報および各要素の位置情報(行列の番号および順番)を参照し、抽出された情報に対して、情報分類・整理を行なう。そして、図16に示す例では、入力表から抽出した情報に対して、「Subject」、「Branch」、「Unit」の3つの類目を生成する。
【0109】
次に、抽出規則要素取得部34は、記憶装置12の抽出規則雛型記憶部33に記憶する抽出規則雛型を取得し、ステップS62で生成した規則要素情報を抽出規則雛型に代入することで、抽出パターンを生成し、記憶装置12の辞書情報記憶部13に記憶する(ステップS63)。図16に示す例では、抽出規則雛型「Subject.*?([0−9.,]+Unit )」に対して、表から取得した具体的な抽出規則要素を、分類名(Subject、Unit)毎で代入すると、以下の2つの抽出パターンを生成する。
【0110】
1-1 売上高.*?([0−9.,]+万円)
1-2利益.*?([0−9.,]+万円)
また、抽出規則雛型「Subject.*?Branch.*?([0−9.,]+Unit)」に対して、抽出規則要素を代入すると、以下の6つの抽出パターンを生成する。
【0111】
2-1「A部門.*?売上高.*?([0−9.,]+百万円)」
2-2「B部門.*?売上高.*?([0−9.,]+百万円)」
2-3「C部門.*?売上高.*?([0−9.,]+百万円)」
2-4「A部門.*?利益.*?([0−9.,]+百万円)」
2-5「B部門.*?利益.*?([0−9.,]+百万円)」
2-6「C部門.*?利益.*?([0−9.,]+百万円)」
このように生成した抽出パターンを参照し、「確信度を加味した表示プロセス」で説明したステップS42〜S45(即ち、ステップS21〜S25=ステップS1〜S5)の処理と同じ処理を行ない(ステップS64〜S67)、本文から特定の表現(例えば、数値などの重要表現)を抽出する。図16に示す例では、入力文「A部門の売上高は520万円である。」に対して、抽出パターン2-1を参照し、「売上高 A部門 520万円」のような数値その他の重要表現を抽出する。
【0112】
これ以後、「確信度を加味した表示プロセス」で説明したステップS46〜S52の処理と同じ処理を行なう(ステップS68〜74)。
【0113】
以上のように、本発明の第1の実施形態における文書データ処理装置100では、「抽出規則雛形の利用プロセス」に係る処理動作において、ユーザが作成した文書データ中の特定の表現を抽出するための抽出パターンは、事前に作成しなくても、あるいは事前に作成できない場合であっても、文書中他の関連情報(例えば表の情報)を活用することによって、自動的に生成できるようになる。それ故に、文書データの文章部分と表情報との整合性の確認および訂正作業の効率が向上する。
【0114】
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。なお、本実施形態に係る文書データ処理装置200の構成のうち、第1の実施形態に示したものと同一部分についての以下での詳細な説明は省略する。なお、図示はしていないが以下の説明ではもちろん端末装置2も備えていることが前提となっている。
【0115】
図17は、本発明の第2の実施形態に従った文書データ処理装置200の構成例を示すブロック図である。図17に示すように、本発明の第2の実施形態に従った文書データ処理装置200は、第1の実施形態と比較して、抽出規則要素フィルター部36を更に備え、この抽出規則要素フィルター部36がバス19に接続される。また、記憶装置12は、フィルター情報記憶部35を更に有する。従って、基本的な機能は本発明の第1の実施形態と同様であるが、フィルター情報記憶部35および抽出規則要素フィルター部36の機能が付加されたものとなっている。
【0116】
抽出規則要素フィルター部36は、表などの文書データから取得した抽出規則要素に対して、記憶装置12のフィルター情報記憶部35に記憶された不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行ない、選択された抽出規則要素を、抽出規則要素取得部34に送り、抽出パターンを生成する。
【0117】
また、抽出規則要素フィルター部36は、抽出規則要素取得部34が生成した抽出パターンに対して、各抽出パターンの本文の出現頻度を集計し、出現頻度の閾値との比較によって抽出パターンを選択できるよう出現頻度が閾値以上の抽出パターンを抽出規則要素取得部34に送信し、更に選択した結果を記憶装置12の辞書情報記憶部13に記憶する。
【0118】
次に、図17に示した構成の文書データ処理装置200の動作について説明する。図18は、本発明の第2の実施形態に従った文書データ処理装置200の処理動作の一例を示すフローチャートである。以下の説明では、図18の各ステップに対応させて説明する。
【0119】
図19は、本発明の第2の実施形態に従った文書データ処理装置200の抽出規則要素フィルター処理(不要語処理‥ステップS83、選択処理‥ステップS84および出現頻度統計処理‥ステップS86)による処理対象の各種データの一例を示す図である。また、図20は、本発明の第2の実施形態に従った文書データ処理装置の出現頻度統計処理(ステップS86)による処理対象の各種データの一例を示す図である。
【0120】
まず、文書データ処理装置200は、第1の実施形態の「抽出規則雛形の利用プロセス」で説明したステップS61〜S62の処理と同じ処理を行なう(ステップS81〜S82)。この第2の実施形態では、図19に示す例のように、「A部門」、「B部門」、「合計」、「07年度」、「連結」をbranchの抽出規則要素として抽出している。
【0121】
抽出規則要素フィルター部36は、記憶装置12のフィルター情報記憶部35に記憶する不要語リストを参照し、抽出規則要素を選択する(ステップS83)。不要語リストには、抽出規則要素として適切ではないが、表によく(表情報として)記載される一般表現(例えば、合計、平均など)が、予め不要語として登録されている。図19に示す例では、「合計」は不要語リストにあるので、抽出規則要素として適切ではないと判断され、抽出規則要素から排除される。
【0122】
次に、抽出規則要素フィルター部36は、記憶装置12のフィルター情報記憶部35に記憶されている選択ルールを参照し、抽出規則要素を選択する(ステップS84)。ここで、選択ルールとは、抽出規則要素を選択するため、予め定義された選択の際の規則である。例えば、図19に示す例では、「Branchに日付表現は入ってはいけない」という選択ルールがあるので、「07年度」は日付表現と判断されると、抽出規則要素から排除される。
【0123】
そして、不要語処理(ステップS83)および選択処理(ステップS84)によって選択された抽出規則要素を、抽出規則要素取得部34に送信し、第1の実施形態の「抽出規則雛形の利用プロセス」で説明したステップS63の処理と同じ処理を行ない(ステップS85)、抽出パターンを生成し、抽出規則要素フィルター部36に送信する。
【0124】
次に、抽出規則要素フィルター部36は、抽出規則要素取得部34から送信された抽出パターンに対し、各抽出パターンが文書データ中に出現する頻度を集計する。そして、予め決めた閾値を参照し、出現頻度が閾値より多い抽出パターンのみ、抽出規則要素取得部34へ送信するとともに辞書情報記憶部13に登録する(ステップS86)。例えば、図20に示す例では、パターン1、パターン2、パターン3の出現頻度はそれぞれ5回、3回、0回である。ここで、閾値が0回の場合、パターン3は適切ではないパターンとして、抽出規則要素取得部34の生成する抽出パターンから排除される。
【0125】
これ以後、第1の実施形態の「抽出規則雛形の利用プロセス」で説明したステップS64〜S74の処理と同じ処理を行なう(ステップS87〜97)。
【0126】
以上のように、本発明の第2の実施形態における文書データ処理装置200では、表から抽出された抽出規則要素に対して、チェックをかけ、適切ではない要素およびパターンを除くことによって、文書データ中の文章部分と表情報との整合性のチェック精度を向上させることができる。
【0127】
なお、この発明は前記の各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記の各実施形態に開示されている、複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
【図面の簡単な説明】
【0128】
【図1】本発明の基本となる実施形態に従った文書データ処理装置の構成例を示すブロック図。
【図2】本発明の基本となる実施形態に従った端末装置の構成例を示すブロック図。
【図3】本発明の基本となる実施形態に従った文書データ処理装置の記憶装置に記憶される重要表現抽出・メッセージ作成ルール辞書の一例を表形式で示す図。
【図4】本発明の基本となる実施形態に従った文書データ処理装置の記憶装置に記憶される色対応情報の一例を表形式で示す図。
【図5】本発明の基本となる実施形態に従った文書データ処理装置の処理動作の一例を示すフローチャート。
【図6】本発明の基本となる実施形態に従った文書データ処理装置による処理対象の重要表現の抽出例を示す図。
【図7】本発明の基本となる実施形態に従った文書データ処理装置による処理対象のメッセージの作成例を示す図。
【図8】本発明の基本となる実施形態に従った端末装置によるメッセージ出力例を示す図。
【図9】本発明の第1の実施形態に従った文書データ処理装置の構成例を示すブロック図。
【図10】本発明の第1の実施形態に従った文書データ処理装置の「表情報の抽出プロセス」に係る処理動作の一例を示すフローチャート。
【図11】本発明の第1の実施形態に従った文書データ処理装置の「表情報の抽出プロセス」により抽出する数値情報の一例を示す図。
【図12】本発明の第1の実施形態に従った文書データ処理装置の「表情報の抽出プロセス」による照合対象の情報の一例を示す図。
【図13】本発明の第1の実施形態に従った文書データ処理装置の「確信度を加味した表示プロセス」に係る処理動作の一例を示すフローチャート。
【図14】本発明の第1の実施形態に従った文書データ処理装置の「確信度を加味した表示プロセス」による処理対象の各種データの一例を示す図。
【図15】本発明の第1の実施形態に従った文書データ処理装置の「抽出規則雛形の利用プロセス」に係る処理動作の一例を示すフローチャート。
【図16】本発明の第1の実施形態に従った文書データ処理装置の「抽出規則雛形の利用プロセス」により表からパターン要素の抽出処理の一例を示す図。
【図17】本発明の第2の実施形態に従った文書データ処理装置の構成例を示すブロック図。
【図18】本発明の第2の実施形態に従った文書データ処理装置の処理動作の一例を示すフローチャート。
【図19】本発明の第2の実施形態に従った文書データ処理装置によりパターン要素フィルター処理の一例を示す図。
【図20】本発明の第2の実施形態に従った文書データ処理装置により出現頻度統計処理の一例を示す図。
【符号の説明】
【0129】
1…文書データ処理装置、2…端末装置、11,21…制御部、12,22…記憶装置、13…辞書情報記憶部、14…色対応情報記憶部、15…入出力インタフェース、16…重要表現抽出部、17…確信度計算部、18…メッセージ作成部、19,26…バス、23…入力装置、24…出力装置、25…通信インタフェース、31…表情報検索部、32…照合処理部、33…抽出規則雛型記憶部、34…抽出規則要素取得部、35…フィルター情報記憶部、36…抽出規則要素フィルター部。
【技術分野】
【0001】
本発明は、文書データ(表情報も含む)中の数値情報の校正を支援するための文書データ処理装置およびそのプログラムに関する。
【背景技術】
【0002】
従来、文書データ中の数値の校正支援に用いることのできる技術として、当該文書データ中の数値情報を抽出するものがあった(例えば、特許文献1参照)。この手法では、文章データ中から数値情報を抽出するとともに、文を係り受け解析し、抽出済みの数値情報に係り受けする情報を取得し、数値情報および当該数値情報が表す対象を取得する。
【特許文献1】特開2005−157853号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、文書データ中の数値情報の正当性を確認するためには、数値情報を文章データ中から抽出するのみでは不十分であり、ユーザが文章データ中から数値情報の記述を発見し、更に、その数値情報が何を意味しているのかを表す記述を発見する必要がある。しかし、この作業はユーザにとって容易ではなく、多大な手間を要する。
【0004】
そこで、本発明の目的は、文書データ(表情報も含む)中の数値情報の正当性に関する確認を効率よく支援することが可能になる文書データ処理装置およびそのプログラムを提供することにある。
【課題を解決するための手段】
【0005】
即ち、以上の課題を解決するためになされた本発明は、文書データを入力する文書入力手段と、前記文書データ中から特定の情報を抽出するための規則情報を記憶する記憶手段と、前記文書データ中から前記規則情報に則って抽出した規則要素情報および前記記憶手段に記憶された抽出規則雛型に基づき抽出パターンを生成し、この抽出パターンから特定の情報を生成する抽出規則要素取得手段と、前記文書入力手段により入力した文書データ中の情報から、前記抽出規則要素取得手段により抽出した特定の情報に対応する情報を検索する検索手段と、前記抽出規則要素取得手段により抽出した特定の情報のうち、前記検索手段により検索した情報に対応する情報および当該検索した情報を照合する照合手段と、前記照合手段による照合結果を示すメッセージを作成する作成手段とを備えたことを特徴とする文書データ処理装置およびそのプログラムである。
【0006】
更に、前記記憶手段に記憶する不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行なうとともに、このフィルタリングで選択された抽出規則要素について、抽出パターンを生成する抽出規則要素取得手段へ送る抽出規則要素フィルター手段を有することも特徴とする文書データ処理装置およびそのプログラムである。
【発明の効果】
【0007】
本発明によれば、文書データ(表情報も含む)中の特定の情報(特に数値情報が代表的である)の正当性に関する確認を効率よく支援することができる。従って、文書作成の効率が向上するとともに、質の高い文書の作成を支援することが可能となる。
【発明を実施するための最良の形態】
【0008】
以下では、複数の図面を用いて本発明の実施形態について説明する。
(基本となる実施形態)
まず、本発明の第1の実施形態に係る説明の前に、本発明の基本となる実施形態について説明する。この本発明の基本となる実施形態の動作が、本発明の根幹をなすものであり、本発明の理解を容易にすると考えられるからである。
【0009】
図1は、本発明の基本となる実施形態にしたがった文書データ処理装置1の構成例を示すブロック図である。
図1に示すように、本発明の基本となる実施形態に従った文書データ処理装置1は、装置全体の処理動作を司る制御部11、記憶手段である記憶装置12、入出力インタフェース15、抽出手段である重要表現抽出部16、計算手段である確信度計算部17、作成手段であるメッセージ作成部18を備え、それぞれがバス19を介して相互に接続される。
【0010】
記憶装置12は、例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶媒体である。記憶装置12は、制御部11、重要表現抽出部16、確信度計算部17、メッセージ作成部18による実行対象の制御用プログラムを記憶する。また、記憶装置12は、規則情報である重要表現抽出・メッセージ作成ルール辞書を記憶するための辞書情報記憶部13を有し、更に色・確信度対応情報を記憶するための色対応情報記憶部14も有する。重要表現抽出・メッセージ作成ルール辞書および色・確信度対応情報については後述する。そして、記憶装置12は、制御部11、重要表現抽出部16、確信度計算部17、メッセージ作成部18による各種処理のワークメモリとしても機能する。
【0011】
重要表現抽出部16は、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書を参照しながら入力文書データ中の重要表現を抽出し、抽出した結果を記憶装置12に記憶する。
【0012】
確信度計算部17は、重要表現抽出部16によって抽出されて記憶装置12に記憶された重要表現について、その内容がどれほど信頼できるかを示す確信度を計算し、計算結果を記憶装置12に記憶する。
【0013】
メッセージ作成部18は、重要表現抽出部16によって抽出されて記憶装置12に記憶された重要表現を用い、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書を参照しながら、重要表現のユーザへの確認用メッセージを作成する。
【0014】
図2は、本発明の基本となる実施形態に従った端末装置の構成例を示すブロック図である。
【0015】
端末装置2は、文書データを作成および校閲するユーザが取り扱う装置である。図2に示すように、端末装置2は、装置全体の処理を司る制御部21、記憶装置22、入力装置23、出力装置24、通信インタフェース25を備え、それぞれがバス26を介して相互に接続される。
【0016】
記憶装置22は、例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶媒体である。記憶装置22は、制御部21による実行対象の制御用プログラムを記憶する他、制御部21による各種処理のワークメモリとしても機能する。
【0017】
入力装置23は、例えばキーボードやマウスであり、文書データの新規作成にかかる操作を受け付ける。出力装置24は、例えば液晶ディスプレイであり、ユーザが作成および校閲する文書の表示を行なう。
【0018】
通信インタフェース25は、ケーブルなどを介して文書データ処理装置1の入出力インタフェース15と通信可能に接続され、端末装置2において作成された文書データや文書データ処理装置1の処理結果などのやり取りを行なう。
【0019】
また、通信インタフェース25は、図示しない外部記憶装置とケーブルを介して通信可能に接続可能であり、この外部記憶装置との間で文書データを入出力することもできる。
【0020】
図3は、本発明の基本となる実施形態に従った文書データ処理装置1の記憶装置12に記憶される重要表現抽出・メッセージ作成ルール辞書の一例を表形式で示す図である。
【0021】
図3に示すように、記憶装置12の辞書情報記憶部13に記憶される重要表現抽出・メッセージ作成ルール辞書では、重要表現の抽出パターンとメッセージが関連付けられて管理される。ここで、抽出パターンとは、抽出対象の各重要表現の組合せを正規表現で記述したものである。また、抽出パターンに従って抽出された各重要表現およびこの表現に対応して、重要表現抽出・メッセージ作成ルール辞書で関連付けられるメッセージを用いて重要表現の確認用メッセージが作成される。そして、この確認用メッセージが端末装置2の出力装置24でユーザに提示される。
【0022】
なお、図3に示した重要表現抽出・メッセージ作成ルール辞書の抽出パターンにおける「.*?」は、0個以上の何らかのキャラクタ、例えば文字や記号を意味する。また、図3に示した重要表現抽出・メッセージ作成ルール辞書のメッセージ中の変数部分である「$1」や「$2」は、当該メッセージに対して重要表現抽出・メッセージ作成ルール辞書で関連付けられる抽出パターンにおける、括弧で囲まれた部分の参照を当該囲まれた部分の記述順に行なう、ということを示している。
【0023】
図3に示した重要表現抽出・メッセージ作成ルール辞書の1行目の抽出パターンは、「(CO2排出量).*?([0−9.,]+トン)」である。このパターンは、「CO2排出量」を含み、この次に0個以上の何らかのキャラクタを含み、当該キャラクタの次に単位がトンである量を示す単語を含む、ということを示している。
【0024】
続いて、2行目の抽出パターンは、「(CO2排出量).*?(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」である。このパターンは、「CO2排出量」を含み、この次に0個以上の何らかのキャラクタを含み、この次に、「米国」、「オーストラリア」および「カナダ」のいずれかを含み、この次に、単位がトンである量を示す単語を含む、ということを示している。
【0025】
また、3行目の抽出パターンは、「(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」である。このパターンは、「米国」、「オーストラリア」および「カナダ」のいずれかを含み、この次に0個以上の何らかのキャラクタを含み、この次に、単位がトンである量を示す単語を含む、ということを示している。
【0026】
図4は、本発明の基本となる実施形態に従った文書データ処理装置1記憶装置に記憶される色・確信度情報の一例を表形式で示す図である。
【0027】
図4に示すように、記憶装置12の色対応情報記憶部14に記憶される色・確信度情報では、確信度の段階を示す数字と当該確信度に固有の色情報とが対応付けられて管理される。
【0028】
次に、図1に示した構成の文書データ処理装置1および図2に示した端末装置2の動作について説明する。図5は、本発明の基本となる実施形態に従った文書データ処理装置1の処理動作の一例を示すフローチャートである。以下の説明では、図5の各ステップに対応させて説明する。
【0029】
図6は、本発明の基本となる実施形態に従った文書データ処理装置による処理対象の重要表現の抽出例を示す図である。
【0030】
まず、端末装置2の入力装置23に対する操作により文書データが入力されると(ステップS1)、制御部21は、この文書データを記憶装置22に記憶する。この実施形態では、入力文書データは、図6に示すように「人口1人当たりのCO2排出量は、先進国の中では、米国が19.8トンで最も多く、オーストラリア、カナダが、それぞれ、18.0トン、14.2トンで続いている。」となっている。
【0031】
制御部21は、入力装置23に対して入力文書データ中の重要表現のチェック要求にかかる入力操作がなされると、記憶装置22に記憶された文書データを、通信インタフェース25を介して文書データ処理装置1に出力する。この文書データは、テキスト情報や位置情報で構成されている。ここで、位置情報とは、文、パラグラフやページのインデックスである。
【0032】
端末装置2からのテキスト情報や位置情報を文書データ処理装置1の入出力インタフェース15が入力すると、重要表現抽出部16は、入力済みのテキスト情報および位置情報をもとに入力文書データ中の重要表現を抽出するために、記憶装置12の辞書情報記憶部13から重要表現抽出・メッセージ作成ルール辞書を読み出し、当該辞書の抽出パターンの1行目を参照し(ステップS2)、入力文書データと当該抽出パターンとを比較して、入力文と抽出パターンとが適合するか否かを判別する(ステップS3)。
【0033】
入力文書データが、図6に示したように「人口1人当たりのCO2排出量は・・」である場合には、重要表現抽出部16は、この入力文書データと図3に示した重要表現抽出・メッセージ作成ルール辞書との照合により、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。それは、当該入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、」が含まれ、この表現に続いて「米国」が含まれ、この表現に続いて「が」が含まれ、この表現に続いて「19.8トン」が含まれるからである。
【0034】
また、重要表現抽出部16は、図6に示した入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、米国が19.8トンで最も多く、」が含まれ、この表現に続いて「オーストラリア」が含まれ、この表現に続いて「、カナダが、それぞれ、」が含まれ、この表現に続いて「18.0トン」が含まれるので、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。
【0035】
そして、重要表現抽出部16は、図6に示した入力文書データ中に「CO2排出量」が含まれ、この表現に続いて「は、先進国の中では、米国が19.8トンで最も多く、オーストラリア、」が含まれ、この表現に続いて「カナダ」が含まれ、この表現に続いて「、それぞれ、18.0トン、」が含まれ、この表現に続いて「14.2トン」が含まれるので、この入力文書データが図3に示した重要表現抽出・メッセージ作成ルール辞書の2行目の抽出パターンと適合すると判別する。
【0036】
重要表現抽出部16は、入力文と照合対象の抽出パターンが適合しなかった場合には(ステップS3のNO)、重要表現抽出・メッセージ作成ルール辞書における次の行の抽出パターンを参照し、ステップS2以降の処理を再度行なう。この実施形態では、入力文は、重要表現抽出・メッセージ作成ルール辞書におけるいずれかの行の抽出パターンと適合するとする。
【0037】
重要表現抽出部16は、入力文と抽出パターンが適合した場合には(ステップS3のYES)、当該入力文中の抽出パターンとの適合表現をもとに重要表現を抽出する(ステップS4)。
【0038】
例を挙げると、重要表現抽出部16は、図6に示した入力文中の表現のうち、図3に示した重要表現抽出・メッセージ作成ルール辞書における抽出パターンの各要素との適合表現のうち抽出パターンにおける括弧で囲まれた表現をもとに、図6に示すように重要表現抽出処理結果の第1のパターンとして「CO2排出量 米国 19.8トン」を抽出し、重要表現抽出処理結果の第2のパターンとして「CO2排出量 オーストラリア 18.0トン」を抽出し、重要表現抽出処理結果の第3のパターンとして「CO2排出量 カナダ 14.2トン」を抽出する。
【0039】
重要表現抽出部16は、入力文の最後までと重要表現抽出・メッセージ作成ルール辞書との照合にともなう重要表現の抽出が終了していない場合には(ステップS5のNO)、ステップS2の処理に戻る。
【0040】
重要表現抽出部16が入力文の最後までと重要表現抽出・メッセージ作成ルール辞書との照合にともなう重要表現の抽出が終了した場合には(ステップS5のYES)、確信度計算部17は、重要表現抽出部16によって抽出された重要表現抽出処理結果の各パターンについて、このパターンに属する重要表現の内容が入力文書データ中の重要表現としてどれほど信頼できるかを示す確信度を計算する(ステップS6)。ここでは確信度の値が大きいほど信頼性が高い。
【0041】
具体的には、確信度計算部17は、抽出されたパターンに含まれる重要表現の数をもとに確信度を計算する。ここでは、抽出されたパターンに含まれる重要表現の数がN個である場合には確信度はN−1となる。
【0042】
つまり、抽出されたパターンが図6に示したように「CO2排出量 米国 19.8トン」であったり、「CO2排出量 オーストラリア 18.0トン」であったり、「CO2排出量 カナダ 14.2トン」であったりする場合には、このパターンに含まれる重要表現が3つであるので、確信度は「2」となる。確信度計算部17は、このように計算した確信度の情報を、対応する重要表現のパターンとともに記憶装置12に記憶する。
【0043】
図7は、本発明の基本となる実施形態に従った文書データ処理装置1による処理対象のメッセージの作成例を示す図である。
【0044】
次に、メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、および確信度計算部17により計算された確信度を用いて、重要表現をユーザに提示するためのメッセージ、つまり重要表現のユーザへの確認用メッセージを作成する。
【0045】
具体的には、メッセージ作成部18は、抽出済みの重要表現抽出の処理結果について、各パターンの一つを選択し、記憶装置12に記憶された重要表現抽出・メッセージ作成ルール辞書における抽出パターンのうち、選択済みの重要表現に関するパターン抽出の際に、重要表現抽出・メッセージ作成ルール辞書中で適合した抽出パターンに対して、重要表現抽出・メッセージ作成ルール辞書で対応付けられるメッセージを参照する(ステップS7)。
【0046】
例えば、抽出済みのパターンが前述したように「CO2排出量 米国 19.8トン」である場合には、この抽出の際に図3に示した重要表現抽出・メッセージ作成ルール辞書中で適合した抽出パターンは、2行目の「(CO2排出量).*?(米国|オーストラリア|カナダ).*?([0−9.,]+トン)」であるので、参照されるメッセージは同じく2行目の「$2の$1は$3で正しいですか?」となる。
【0047】
そして、メッセージ作成部18は、参照したメッセージの変数部分である$1や$2に抽出した重要表現を代入し(ステップS8)、重要表現をユーザに提示するためのメッセージの文言を作成する。
【0048】
前述したように、抽出済みのパターンが「CO2排出量 米国 19.8トン」で、参照されたメッセージが「$2の$1は$3で正しいですか?」である場合には、「$1」に代入される重要表現は、抽出済みパターン中の最初の表現「CO2排出量」であり、「$2」に代入される重要表現は、抽出済みパターン中の2番目の表現「米国」であり、「$3」に代入される重要表現は、抽出済みパターン中の3番目の表現「19.8トン」である。
【0049】
よって、作成されるメッセージの文字列は、「米国のCO2排出量は19.8トンで正しいですか?」となる。
【0050】
また、前述したように抽出済みの第2のパターンが「CO2排出量 オーストラリア 18.0トン」である場合には、作成されるメッセージの文字列は、「オーストラリアのCO2排出量は18.0トンで正しいですか?」となり、前述したように抽出済みの第3のパターンが「CO2排出量 カナダ 14.2トン」である場合には、作成されるメッセージの文字列は、「カナダのCO2排出量は14.2トンで正しいですか?」となる。
【0051】
そして、メッセージ作成部18は、各メッセージについて、確信度計算部17において計算された確信度をもとに、記憶装置12の色対応情報記憶部14に記憶された色・確信度対応情報を参照し、メッセージの強調色を決定する(ステップS9)。
【0052】
抽出済みのパターンが「CO2排出量 米国 19.8トン」や「CO2排出量 オーストラリア 18.0トン」や「CO2排出量 カナダ 14.2トン」である場合、これらのパターンに対応する確信度はいずれも「2」である。当該確信度「2」に対して、図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。よって、作成済みのメッセージは当該コードに対応する色で強調される。
【0053】
このようにして、メッセージ作成部18は、作成した色付きのメッセージを、入出力インタフェース15を介して端末装置2に出力する。
【0054】
なお、メッセージ作成部18では、確信度をもとにメッセージの強調色を区別する代わりに、色・確信度対応情報を別の対応情報として、フォントの大きさや、メッセージの文言自体を区別してもよい。
【0055】
文書データ処理装置1から出力されたメッセージを、端末装置2の通信インタフェース25が入力すると、制御部21は、このメッセージを記憶装置22に記憶する。そして、制御部21は、記憶装置22に記憶されたメッセージを取得し、記憶装置22に記憶される入力文書データと併せて出力装置24に出力する(ステップS10)。
【0056】
図8は、本発明の基本となる実施形態に従った端末装置2によるメッセージ出力例を示す図である。
【0057】
出力装置24はメッセージを図8に示すように入力文書データ中の該当文字列と紐付けるなどしてモニタ表示する。
【0058】
以上のように、本発明の基本となる実施形態における文書データ処理装置1では、ユーザが作成した文書データ中の重要表現を自動的に抽出し、その内容と抽出箇所をユーザに確認用メッセージとして提示するようになっている。そうすることによって、表記内容、特に文書作成者が重要であると判断した表現についての確認・訂正作業の効率が向上すると共に、文書の質が向上させている。
【0059】
また、本発明の基本となる実施形態における文書データ処理装置1は、抽出済みの重要表現の確信度を用いてメッセージの提示形態に変化を持たせている。そうすることによって、各メッセージの注目すべき度合いをユーザに伝えることができるようになっている。従って、ユーザは注目すべきメッセージを視覚的に判別することが可能となっている。
【0060】
(第1の実施形態)
次に、本発明の第1の実施形態について説明する。なお、以下の説明に係る文書データ処理装置100の構成のうち、図1に示したものと同一部分の詳細な説明は省略する。そして、図示はしていないが以下の説明ではもちろん端末装置2も備えていることが前提となっている。
【0061】
図9は、本発明の第1の実施形態に従った文書データ処理装置100の構成例を示すブロック図である。
【0062】
図9に示すように、本発明の基本となる実施形態に従った文書データ処理装置100は、上述した本発明の基本となる実施形態と比較して、表情報検索部31、照合処理部32、抽出規則要素取得部34を更に備え、それぞれがバス19を介して相互に接続される。また、記憶装置12は、抽出規則雛型記憶部33を更に備えている。
【0063】
表情報検索部31は、文書データ中の表情報を取得し、重要表現抽出部16による抽出結果を参照しながら表情報中の項目情報と限定情報を検索し、この検索結果を記憶装置12に記憶する。項目情報とは、重要表現抽出部16により抽出された重要表現の一パターンにおける表現のうち、確認用メッセージの主語に該当する表現である。限定情報とは、当該抽出された重要表現の一パターンにおける表現のうち、当該パターン中の数値の限定に関わる表現である。
【0064】
また、照合処理部32は、記憶装置12に記憶された、重要表現抽出部16による抽出結果と表情報検索部31による抽出結果との比較を行なう。なお、抽出規則雛型記憶部33と抽出規則要素取得部34については後述する。
【0065】
[表情報の抽出プロセス]
最初に、図9に示した構成の文書データ処理装置100を利用した「表情報の抽出プロセス」について説明する。図10は、本発明の第1の実施形態に従った文書データ処理装置100の「表情報の抽出プロセス」に係る処理動作の一例を示すフローチャートである。以下の説明では、図10の各ステップに対応させて説明する。図11は、本発明の第1の実施形態に従った文書データ処理装置100により抽出する数値情報の一例を示す図である。
【0066】
まず、文書データ処理装置100は、本発明の基本となる実施形態で説明したステップS1からステップS5までと同じ処理を行なう(ステップS21〜S25)。
【0067】
そして、文書データ処理装置1の表情報検索部31は、入力文書データに含まれる表情報を取得し、重要表現抽出部16による抽出結果の項目情報と限定情報を参照して、表情報から項目情報と限定情報を取得する(ステップS26)。
【0068】
ここでは、一例として入力文書データ中の表情報の構成は図11に示した構成としている。この表情報の2列1行目に「CO2排出量(トン)」が記述されており、1列2行目に「米国」が記述され、1列4行目「オーストラリア」が記述され、1列6行目に「カナダ」が記述されている。この場合には、表情報検索部31は、「CO2排出量」を表情報中の項目情報として取得し、「米国」、「オーストラリア」、「カナダ」を表情報中の限定情報として取得する。
【0069】
更に、表情報検索部31は、入力文書データ中の表情報から取得済みの項目情報と限定情報をもとに、当該表情報から数値情報を取得する(ステップS27)。
【0070】
表情報検索部31は、入力文書データ中の表情報が図11に示した構成である場合には、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「米国」の記述箇所である1列2行目と同じ行である2列2行目に記述される「19.8」を項目情報「CO2排出量」および限定情報「米国」に対応する数値情報として取得する。
【0071】
また、表情報検索部31は、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「オーストラリア」の記述箇所である1列4行目と同じ行である2列4行目に記述される「18.0」を項目情報「CO2排出量」および限定情報「オーストラリア」に対応する数値情報として取得する。
【0072】
また、表情報検索部31は、表情報中の項目情報「CO2排出量(トン)」の記述箇所である2列1行目と同じ列で、かつ限定情報「カナダ」の記述箇所である1列6行目と同じ行である2列6行目に記述される数値情報「15.2」を項目情報「CO2排出量」および限定情報「カナダ」に対応する数値情報として取得する。
【0073】
図12は、「表情報の抽出プロセス」に従った文書データ処理装置100による照合対象の情報の一例を示す図である。
【0074】
この一例に対しては、図12に示すように、重要表現抽出処理結果の第1のパターンは「CO2排出量 米国 19.8トン」であり、重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」である。
【0075】
また、図12に示すように、表情報検索部31は、図11に示すような表情報から取得した項目情報中から単位を外し、数値情報に取得済みの項目情報中の単位を付し、これに取得済みの限定情報を加えた情報を表情報検索処理結果とする。よって、図11に示した表情報をもとにした表情報検索処理結果のパターンは、「CO2排出量 米国 19.8トン」、「CO2排出量 オーストラリア 18.0トン」および「CO2排出量 カナダ 15.2トン」となる。
【0076】
照合処理部32は、記憶装置12に記憶された重要表現抽出部16による抽出結果、および表情報検索部31による表情報検索処理結果を照合する(ステップS28)。
【0077】
そして、メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、表情報検索部31、および照合処理部32による結果を用いて、ユーザに提示するためのメッセージを作成する(ステップS29)。更に、メッセージ作成部18は、作成したメッセージを、入出力インタフェース15を介して端末装置2に出力する。端末装置2の通信インタフェース25がメッセージ作成部18からのメッセージを入力すると、制御部21は、このメッセージを記憶装置22に記憶される入力文書データ中の該当箇所と紐付けて出力装置24にモニタ表示する(ステップS30)。
【0078】
[確信度を加味した表示プロセス]
次に、図9に示した構成の文書データ処理装置100を利用した、「確信度を加味した表示プロセス」について説明する。図13は、本発明の第1の実施形態に従った文書データ処理装置100の「確信度を加味した表示プロセス」に係る処理動作の一例を示すフローチャートである。以下の説明では、図13の各ステップに対応させて説明する。
【0079】
図14は、本発明の第1の実施形態に従った文書データ処理装置100による処理対象の各種データの一例を示す図である。図14に示した重要表現抽出処理結果の一パターンにおける「???」は照合処理部32による照合対象の表情報検索処理結果と比較して抽出がなされなかった表現を意味する。
【0080】
まず、文書データ処理装置100は、「表情報の抽出プロセス」で説明したステップS21からステップS27までの処理と同じ処理を行なう(ステップS41〜S47)。
【0081】
この実施形態では、図14に示すように、重要表現抽出処理結果の第1のパターンは「CO2排出量 19.8トン」であり、重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」である。
【0082】
照合処理部32は、記憶装置12に記憶された重要表現抽出部16による抽出結果、および表情報検索部31による抽出結果を照合する(ステップS48)。この実施形態では、照合処理部32は、抽出済みの重要表現抽出処理結果の一パターン中の各要素と、表情報検索処理結果における照合対象の一パターン中の各要素とを個別に照合し、要素ごとの照合結果を照合順に出力する。
【0083】
照合処理部32は、重要表現抽出処理結果の一パターンおよび表情報検索処理結果における照合対象の一パターンにともに含まれる要素がある場合には「true」を照合結果として出力し、重要表現抽出処理結果の一パターンおよび表情報検索処理結果における照合対象の一パターンのうち片方で欠落している要素があったり、照合対象の双方で一致しない要素があったりする場合には「false」との照合結果を出力する。
【0084】
そして、確信度計算部17は、照合結果をもとに、重要表現抽出部16によって抽出された重要表現抽出処理結果の各パターンについて、このパターンに属する重要表現の内容が入力文書データ中の重要表現としてどれほど信頼できるかを示す確信度を計算する(ステップS49)。
【0085】
具体的には、確信度計算部17は、重要表現抽出処理結果の一パターンに含まれる要素の数をもとに確信度を計算する。ここでは、当該一パターンに含まれる要素の数がN個である場合には確信度はN−1となる。確信度計算部17は、このように計算した確信度の情報を、照合対象の重要表現抽出処理結果のパターンとともに記憶装置12に記憶する。
【0086】
また、メッセージ作成部18は、各メッセージについて、確信度計算部17において計算された確信度をもとに、記憶装置12の色対応情報記憶部14に記憶され、図4に示した色・確信度対応情報を参照し、メッセージの強調色を決定する(ステップS50)。
【0087】
メッセージ作成部18は、重要表現抽出部16によって抽出された重要表現、表情報検索部31、および照合処理部32による結果を用いて、ユーザに提示するためのメッセージを作成する(ステップS51)。ここでは、メッセージ作成部18は、重要表現抽出処理結果の一パターン中の各要素と、当該パターンの照合対象である、表情報検索処理結果の一パターンの要素についての照合結果が全て「true」である場合には、「※文中と表中の情報は一致しています。」との文字列をメッセージに含め、一パターンの各要素の照合結果中に「true」と「false」がともに含まれる場合には、「※文中と表中の情報は部分的に一致しています。」との文字列をメッセージに含め、一パターンの各要素の照合結果が全て「false」である場合には、「※文中と表中の情報は一致していません。」との文字列をメッセージに含める。
【0088】
図14には、重要表現抽出処理結果と表情報検索処理結果との照合結果が示されている。この一例では、抽出済みの重要表現抽出処理結果の第1のパターンは「CO2排出量 19.8トン」で、表情報検索処理結果のうち、重要表現抽出処理結果の第1のパターンとの照合対象のパターンは「CO2排出量 米国 19.8トン」であり、「CO2排出量」が双方に含まれ、「米国」は表情報検索処理結果に含まれる一方で重要表現抽出処理結果において欠落しており、「19.8トン」が双方に含まれるので、照合結果は図17に示すように「true false true」となる。
【0089】
この場合、メッセージ作成部18が作成する第1のメッセージの文字列は、「※文中と表中の情報は部分的に一致しています。 文中の情報:CO2排出量 19.8トン 表中の情報:CO2排出量 米国 19.8トン」となる。
【0090】
ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が2つであるので、確信度計算部17が計算する確信度は「1」となる。そしてこの場合、当該確信度「1」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#999999」となる。
【0091】
また、抽出済みの重要表現抽出処理結果の第2のパターンは「CO2排出量 オーストラリア 18.0トン」であり、表情報検索処理結果のうち、重要表現抽出処理結果の第2のパターンとの照合対象のパターンは「CO2排出量 オーストラリア 18.0トン」であり、このパターン中の要素は照合対象の双方で全て一致するので照合結果は図17に示すように「true true true」となる。
【0092】
この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致しています。 文中の情報:CO2排出量 オーストラリア 18.0トン 表中の情報:CO2排出量 オーストラリア 18.0トン」となる。
【0093】
ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が3つであるので、確信度計算部17が計算する確信度は「2」となる。この場合当該確信度「2」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。
【0094】
また、抽出済みの重要表現抽出処理結果の第3のパターンは「CO2排出量 カナダ 14.2トン」であり、表情報検索処理結果のうち、重要表現抽出処理結果の第3のパターンとの照合対象のパターンは「CO2排出量 カナダ 14.2トン」であり、このパターン中の要素は照合対象の双方で全て一致するので照合結果は図14に示すように「true true true」となる。
【0095】
この場合、メッセージ作成部18が作成するメッセージは、「※文中と表中の情報は一致しています。 文中の情報:CO2排出量 カナダ 14.2トン 表中の情報:CO2排出量 カナダ 14.2トン」となる。
【0096】
ここでは、重要表現抽出処理結果の第1のパターン中の要素の数が3つであるので、確信度計算部17が計算する確信度は「2」となる。この場合当該確信度「2」に対して図4に示す色・確信度対応情報で対応付けられる色のコードは「#DCDCDC」となる。
【0097】
メッセージ作成部18は、作成した色付きメッセージを、入出力インタフェース15を介して端末装置2に出力する。端末装置2の通信インタフェース25がメッセージ作成部18からのメッセージを入力すると、制御部21は、このメッセージを入力文書データ中の該当箇所と紐付けて出力装置24にモニタ表示する(ステップS52)。
【0098】
[抽出規則雛形の利用プロセス]
更に、図9に示した構成の文書データ処理装置100を利用した「抽出規則雛形の利用プロセス」について説明する。文書データ処理装置100を構成する抽出規則要素取得部34は、上述したような「表情報の抽出プロセス」を経て文書データ中の表情報を取得し、表の定義情報や表を構成する行列の位置情報を参照しながら、表情報中の軸項目情報および単位情報を抽出し、規則要素情報として分類することができる。
【0099】
ここで、抽出規則要素取得部34は、記憶装置12の抽出規則雛型記憶部33に記憶する抽出規則雛型を取得し、分類された規則要素情報を抽出規則雛型に代入し、抽出パターンを生成する。そして、生成した抽出パターンは、記憶装置12の辞書情報記憶部13に記憶される。
【0100】
なお、軸項目情報とは、表に記述するデータの意味を定義する行および列の見出しであり、単位情報とは、表のデータの単位を表す情報(例えば、百万円、トン)である。つまり、これらの情報は、このようにして抽出された重要表現の一パターンにおける表現のうち、当該パターン中の数値の限定に関わる表現である。
【0101】
そして、抽出規則雛型とは、図16で現れたような抽出パターンを抽象化したものである。この抽出規則雛型は、具体的な要素(例えば、CO2排出量、米国、トン)を記述することなく、Subject(主題)、Country(国)、Branch(部門)、Unit(単位)のような抽出的な分類名のみ、決められた順番および記述規則によって組合せたパターンのモデルである。また、規則要素情報とは、抽出規則雛型を具体化するため、各分類名に代入する具体的な要素情報である。
【0102】
なお、上述した通り、記憶装置12は、抽出規則情報を生成するための抽出規則雛型を記憶するための抽出規則雛型記憶部33、抽出規則要素取得部34から生成された抽出パターンおよびメッセージ作成ルール辞書を記憶するための辞書情報記憶部13を有し、色・確信度対応情報を記憶するための色対応情報記憶部14を有する。
【0103】
図15は、本発明の第1の実施形態に従った文書データ処理装置100の「抽出規則雛形の利用プロセス」に係る処理動作の一例を示すフローチャートである。以下の説明では、図15の各ステップに対応させて説明する。
【0104】
図16は、「抽出規則雛形の利用プロセス」に従った文書データ処理装置100による抽出規則要素情報取得(ステップS52)から重要表現抽出の終了(要否の)判断(ステップS57)までの処理による処理対象の各種データの一例を示す図である。
【0105】
まず、文書データ処理装置100は、「確信度を加味した表示プロセス」で説明したステップS41(即ち、ステップS21=ステップS1)の処理と同じく文書データ入力処理を行なう(ステップS61)。この実施形態では、入力文書データは、図6に示す入力表および入力文「A部門の売上高は520万円である。」である。
【0106】
抽出規則要素取得部34は、入力表に対して、規則要素情報を取得する(ステップS62)。この規則要素情報を取得するために、まず、表の定義情報を参照しながら、表の軸項目情報および単位情報を抽出する。図16に示す例では、列の見出しから「売上高」と「利益」、行見出しから「A部門」、「B部門」、「C部門」、行の数値領域から「百万円」のような情報を抽出する。
【0107】
なお、参照情報とする表の定義情報とは、表に記述された見出しや単位の位置と種類(意味)を明示する外部参照情報、あるいは各要素の位置(行列の番号および順番)による情報の抽出ルールを表わす参照情報である。
【0108】
そして、表の定義情報および各要素の位置情報(行列の番号および順番)を参照し、抽出された情報に対して、情報分類・整理を行なう。そして、図16に示す例では、入力表から抽出した情報に対して、「Subject」、「Branch」、「Unit」の3つの類目を生成する。
【0109】
次に、抽出規則要素取得部34は、記憶装置12の抽出規則雛型記憶部33に記憶する抽出規則雛型を取得し、ステップS62で生成した規則要素情報を抽出規則雛型に代入することで、抽出パターンを生成し、記憶装置12の辞書情報記憶部13に記憶する(ステップS63)。図16に示す例では、抽出規則雛型「Subject.*?([0−9.,]+Unit )」に対して、表から取得した具体的な抽出規則要素を、分類名(Subject、Unit)毎で代入すると、以下の2つの抽出パターンを生成する。
【0110】
1-1 売上高.*?([0−9.,]+万円)
1-2利益.*?([0−9.,]+万円)
また、抽出規則雛型「Subject.*?Branch.*?([0−9.,]+Unit)」に対して、抽出規則要素を代入すると、以下の6つの抽出パターンを生成する。
【0111】
2-1「A部門.*?売上高.*?([0−9.,]+百万円)」
2-2「B部門.*?売上高.*?([0−9.,]+百万円)」
2-3「C部門.*?売上高.*?([0−9.,]+百万円)」
2-4「A部門.*?利益.*?([0−9.,]+百万円)」
2-5「B部門.*?利益.*?([0−9.,]+百万円)」
2-6「C部門.*?利益.*?([0−9.,]+百万円)」
このように生成した抽出パターンを参照し、「確信度を加味した表示プロセス」で説明したステップS42〜S45(即ち、ステップS21〜S25=ステップS1〜S5)の処理と同じ処理を行ない(ステップS64〜S67)、本文から特定の表現(例えば、数値などの重要表現)を抽出する。図16に示す例では、入力文「A部門の売上高は520万円である。」に対して、抽出パターン2-1を参照し、「売上高 A部門 520万円」のような数値その他の重要表現を抽出する。
【0112】
これ以後、「確信度を加味した表示プロセス」で説明したステップS46〜S52の処理と同じ処理を行なう(ステップS68〜74)。
【0113】
以上のように、本発明の第1の実施形態における文書データ処理装置100では、「抽出規則雛形の利用プロセス」に係る処理動作において、ユーザが作成した文書データ中の特定の表現を抽出するための抽出パターンは、事前に作成しなくても、あるいは事前に作成できない場合であっても、文書中他の関連情報(例えば表の情報)を活用することによって、自動的に生成できるようになる。それ故に、文書データの文章部分と表情報との整合性の確認および訂正作業の効率が向上する。
【0114】
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。なお、本実施形態に係る文書データ処理装置200の構成のうち、第1の実施形態に示したものと同一部分についての以下での詳細な説明は省略する。なお、図示はしていないが以下の説明ではもちろん端末装置2も備えていることが前提となっている。
【0115】
図17は、本発明の第2の実施形態に従った文書データ処理装置200の構成例を示すブロック図である。図17に示すように、本発明の第2の実施形態に従った文書データ処理装置200は、第1の実施形態と比較して、抽出規則要素フィルター部36を更に備え、この抽出規則要素フィルター部36がバス19に接続される。また、記憶装置12は、フィルター情報記憶部35を更に有する。従って、基本的な機能は本発明の第1の実施形態と同様であるが、フィルター情報記憶部35および抽出規則要素フィルター部36の機能が付加されたものとなっている。
【0116】
抽出規則要素フィルター部36は、表などの文書データから取得した抽出規則要素に対して、記憶装置12のフィルター情報記憶部35に記憶された不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行ない、選択された抽出規則要素を、抽出規則要素取得部34に送り、抽出パターンを生成する。
【0117】
また、抽出規則要素フィルター部36は、抽出規則要素取得部34が生成した抽出パターンに対して、各抽出パターンの本文の出現頻度を集計し、出現頻度の閾値との比較によって抽出パターンを選択できるよう出現頻度が閾値以上の抽出パターンを抽出規則要素取得部34に送信し、更に選択した結果を記憶装置12の辞書情報記憶部13に記憶する。
【0118】
次に、図17に示した構成の文書データ処理装置200の動作について説明する。図18は、本発明の第2の実施形態に従った文書データ処理装置200の処理動作の一例を示すフローチャートである。以下の説明では、図18の各ステップに対応させて説明する。
【0119】
図19は、本発明の第2の実施形態に従った文書データ処理装置200の抽出規則要素フィルター処理(不要語処理‥ステップS83、選択処理‥ステップS84および出現頻度統計処理‥ステップS86)による処理対象の各種データの一例を示す図である。また、図20は、本発明の第2の実施形態に従った文書データ処理装置の出現頻度統計処理(ステップS86)による処理対象の各種データの一例を示す図である。
【0120】
まず、文書データ処理装置200は、第1の実施形態の「抽出規則雛形の利用プロセス」で説明したステップS61〜S62の処理と同じ処理を行なう(ステップS81〜S82)。この第2の実施形態では、図19に示す例のように、「A部門」、「B部門」、「合計」、「07年度」、「連結」をbranchの抽出規則要素として抽出している。
【0121】
抽出規則要素フィルター部36は、記憶装置12のフィルター情報記憶部35に記憶する不要語リストを参照し、抽出規則要素を選択する(ステップS83)。不要語リストには、抽出規則要素として適切ではないが、表によく(表情報として)記載される一般表現(例えば、合計、平均など)が、予め不要語として登録されている。図19に示す例では、「合計」は不要語リストにあるので、抽出規則要素として適切ではないと判断され、抽出規則要素から排除される。
【0122】
次に、抽出規則要素フィルター部36は、記憶装置12のフィルター情報記憶部35に記憶されている選択ルールを参照し、抽出規則要素を選択する(ステップS84)。ここで、選択ルールとは、抽出規則要素を選択するため、予め定義された選択の際の規則である。例えば、図19に示す例では、「Branchに日付表現は入ってはいけない」という選択ルールがあるので、「07年度」は日付表現と判断されると、抽出規則要素から排除される。
【0123】
そして、不要語処理(ステップS83)および選択処理(ステップS84)によって選択された抽出規則要素を、抽出規則要素取得部34に送信し、第1の実施形態の「抽出規則雛形の利用プロセス」で説明したステップS63の処理と同じ処理を行ない(ステップS85)、抽出パターンを生成し、抽出規則要素フィルター部36に送信する。
【0124】
次に、抽出規則要素フィルター部36は、抽出規則要素取得部34から送信された抽出パターンに対し、各抽出パターンが文書データ中に出現する頻度を集計する。そして、予め決めた閾値を参照し、出現頻度が閾値より多い抽出パターンのみ、抽出規則要素取得部34へ送信するとともに辞書情報記憶部13に登録する(ステップS86)。例えば、図20に示す例では、パターン1、パターン2、パターン3の出現頻度はそれぞれ5回、3回、0回である。ここで、閾値が0回の場合、パターン3は適切ではないパターンとして、抽出規則要素取得部34の生成する抽出パターンから排除される。
【0125】
これ以後、第1の実施形態の「抽出規則雛形の利用プロセス」で説明したステップS64〜S74の処理と同じ処理を行なう(ステップS87〜97)。
【0126】
以上のように、本発明の第2の実施形態における文書データ処理装置200では、表から抽出された抽出規則要素に対して、チェックをかけ、適切ではない要素およびパターンを除くことによって、文書データ中の文章部分と表情報との整合性のチェック精度を向上させることができる。
【0127】
なお、この発明は前記の各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記の各実施形態に開示されている、複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
【図面の簡単な説明】
【0128】
【図1】本発明の基本となる実施形態に従った文書データ処理装置の構成例を示すブロック図。
【図2】本発明の基本となる実施形態に従った端末装置の構成例を示すブロック図。
【図3】本発明の基本となる実施形態に従った文書データ処理装置の記憶装置に記憶される重要表現抽出・メッセージ作成ルール辞書の一例を表形式で示す図。
【図4】本発明の基本となる実施形態に従った文書データ処理装置の記憶装置に記憶される色対応情報の一例を表形式で示す図。
【図5】本発明の基本となる実施形態に従った文書データ処理装置の処理動作の一例を示すフローチャート。
【図6】本発明の基本となる実施形態に従った文書データ処理装置による処理対象の重要表現の抽出例を示す図。
【図7】本発明の基本となる実施形態に従った文書データ処理装置による処理対象のメッセージの作成例を示す図。
【図8】本発明の基本となる実施形態に従った端末装置によるメッセージ出力例を示す図。
【図9】本発明の第1の実施形態に従った文書データ処理装置の構成例を示すブロック図。
【図10】本発明の第1の実施形態に従った文書データ処理装置の「表情報の抽出プロセス」に係る処理動作の一例を示すフローチャート。
【図11】本発明の第1の実施形態に従った文書データ処理装置の「表情報の抽出プロセス」により抽出する数値情報の一例を示す図。
【図12】本発明の第1の実施形態に従った文書データ処理装置の「表情報の抽出プロセス」による照合対象の情報の一例を示す図。
【図13】本発明の第1の実施形態に従った文書データ処理装置の「確信度を加味した表示プロセス」に係る処理動作の一例を示すフローチャート。
【図14】本発明の第1の実施形態に従った文書データ処理装置の「確信度を加味した表示プロセス」による処理対象の各種データの一例を示す図。
【図15】本発明の第1の実施形態に従った文書データ処理装置の「抽出規則雛形の利用プロセス」に係る処理動作の一例を示すフローチャート。
【図16】本発明の第1の実施形態に従った文書データ処理装置の「抽出規則雛形の利用プロセス」により表からパターン要素の抽出処理の一例を示す図。
【図17】本発明の第2の実施形態に従った文書データ処理装置の構成例を示すブロック図。
【図18】本発明の第2の実施形態に従った文書データ処理装置の処理動作の一例を示すフローチャート。
【図19】本発明の第2の実施形態に従った文書データ処理装置によりパターン要素フィルター処理の一例を示す図。
【図20】本発明の第2の実施形態に従った文書データ処理装置により出現頻度統計処理の一例を示す図。
【符号の説明】
【0129】
1…文書データ処理装置、2…端末装置、11,21…制御部、12,22…記憶装置、13…辞書情報記憶部、14…色対応情報記憶部、15…入出力インタフェース、16…重要表現抽出部、17…確信度計算部、18…メッセージ作成部、19,26…バス、23…入力装置、24…出力装置、25…通信インタフェース、31…表情報検索部、32…照合処理部、33…抽出規則雛型記憶部、34…抽出規則要素取得部、35…フィルター情報記憶部、36…抽出規則要素フィルター部。
【特許請求の範囲】
【請求項1】
文書データを入力する文書入力手段と、
前記文書データ中から特定の情報を抽出するための規則情報を記憶する記憶手段と、
前記文書データ中から前記規則情報に則って抽出した規則要素情報および前記記憶手段に記憶された抽出規則雛型に基づき抽出パターンを生成し、この抽出パターンから特定の情報を生成する抽出規則要素取得手段と、
前記文書入力手段により入力した文書データ中の情報から、前記抽出規則要素取得手段により抽出した特定の情報に対応する情報を検索する検索手段と、
前記抽出規則要素取得手段により抽出した特定の情報のうち、前記検索手段により検索した情報に対応する情報および当該検索した情報を照合する照合手段と、
前記照合手段による照合結果を示すメッセージを作成する作成手段と
を備えたことを特徴とする文書データ処理装置。
【請求項2】
前記記憶手段に記憶する不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行なうとともに、このフィルタリングで選択された抽出規則要素について、抽出パターンを生成する抽出規則要素取得手段へ送る抽出規則要素フィルター手段を有することを特徴とする請求項1に記載の文書データ処理装置。
【請求項3】
前記抽出規則要素フィルター手段は、前記抽出規則要素取得手段が生成する抽出パターンが文書データ中に出現する頻度を集計し、前記抽出規則要素取得手段は、前記頻度が閾値以下の場合、前記抽出パターンから前記頻度で発生する表現を排除することを特徴とする請求項2に記載の文書データ処理装置。
【請求項4】
コンピュータを用いて文書データ中から特定の情報を抽出する機能を提供するために、
文書データを入力する文書入力機能と、
前記文書データ中から特定の情報を抽出するための規則情報を記憶する記憶機能と、
前記文書データ中から前記規則情報に則って抽出した規則要素情報および前記コンピュータの記憶部に記憶された抽出規則雛型に基づき抽出パターンを生成し、この抽出パターンから特定の情報を生成する抽出規則要素取得機能と
前記文書入力手段により入力した文書データ中の情報から、前記コンピュータの抽出規則要素取得部により抽出した特定の情報に対応する情報を検索する検索機能と、
前記抽出規則要素取得手段により抽出した特定の情報のうち、前記コンピュータの検索部により検索した情報に対応する情報および当該検索した情報を照合する照合機能と、
前記照合手段による照合結果を示すメッセージを作成する作成機能と
を前記コンピュータに実行させるための文書データ処理プログラム。
【請求項5】
前記コンピュータの記憶部に記憶する不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行なうとともに、このフィルタリングで選択された抽出規則要素について、抽出パターンを生成する抽出規則要素取得手段へ送る抽出規則要素フィルター機能を前記コンピュータに実行させるための請求項4に記載の文書データ処理プログラム。
【請求項1】
文書データを入力する文書入力手段と、
前記文書データ中から特定の情報を抽出するための規則情報を記憶する記憶手段と、
前記文書データ中から前記規則情報に則って抽出した規則要素情報および前記記憶手段に記憶された抽出規則雛型に基づき抽出パターンを生成し、この抽出パターンから特定の情報を生成する抽出規則要素取得手段と、
前記文書入力手段により入力した文書データ中の情報から、前記抽出規則要素取得手段により抽出した特定の情報に対応する情報を検索する検索手段と、
前記抽出規則要素取得手段により抽出した特定の情報のうち、前記検索手段により検索した情報に対応する情報および当該検索した情報を照合する照合手段と、
前記照合手段による照合結果を示すメッセージを作成する作成手段と
を備えたことを特徴とする文書データ処理装置。
【請求項2】
前記記憶手段に記憶する不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行なうとともに、このフィルタリングで選択された抽出規則要素について、抽出パターンを生成する抽出規則要素取得手段へ送る抽出規則要素フィルター手段を有することを特徴とする請求項1に記載の文書データ処理装置。
【請求項3】
前記抽出規則要素フィルター手段は、前記抽出規則要素取得手段が生成する抽出パターンが文書データ中に出現する頻度を集計し、前記抽出規則要素取得手段は、前記頻度が閾値以下の場合、前記抽出パターンから前記頻度で発生する表現を排除することを特徴とする請求項2に記載の文書データ処理装置。
【請求項4】
コンピュータを用いて文書データ中から特定の情報を抽出する機能を提供するために、
文書データを入力する文書入力機能と、
前記文書データ中から特定の情報を抽出するための規則情報を記憶する記憶機能と、
前記文書データ中から前記規則情報に則って抽出した規則要素情報および前記コンピュータの記憶部に記憶された抽出規則雛型に基づき抽出パターンを生成し、この抽出パターンから特定の情報を生成する抽出規則要素取得機能と
前記文書入力手段により入力した文書データ中の情報から、前記コンピュータの抽出規則要素取得部により抽出した特定の情報に対応する情報を検索する検索機能と、
前記抽出規則要素取得手段により抽出した特定の情報のうち、前記コンピュータの検索部により検索した情報に対応する情報および当該検索した情報を照合する照合機能と、
前記照合手段による照合結果を示すメッセージを作成する作成機能と
を前記コンピュータに実行させるための文書データ処理プログラム。
【請求項5】
前記コンピュータの記憶部に記憶する不要語リストや選択ルールを参照しながら、抽出規則要素のフィルタリングを行なうとともに、このフィルタリングで選択された抽出規則要素について、抽出パターンを生成する抽出規則要素取得手段へ送る抽出規則要素フィルター機能を前記コンピュータに実行させるための請求項4に記載の文書データ処理プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【公開番号】特開2010−134766(P2010−134766A)
【公開日】平成22年6月17日(2010.6.17)
【国際特許分類】
【出願番号】特願2008−311263(P2008−311263)
【出願日】平成20年12月5日(2008.12.5)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成22年6月17日(2010.6.17)
【国際特許分類】
【出願日】平成20年12月5日(2008.12.5)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]