説明

データ処理装置、データ処理方法およびデータ処理プログラム

【課題】文書データ中のある単語に関連して記述されるべき単語の記述不足を判定する。
【解決手段】抽出処理部3は、入力文書データの各単語を認識し、この認識した単語と同じ表現がテキストマイニング辞書テーブル上の該当表現として管理されている場合には、これにテキストマイニング辞書テーブル上で関連付けられる項目名を抽出する。抽出処理部3は、抽出済みの項目名に関連情報テーブル上で関連付けられる関連情報を抽出する。判定部4は、抽出済みの関連情報に対応する単語が入力文書データ中に含まれていない場合には、入力文書データ中のある単語に関連して記述されるべき単語が入力文書データ中に含まれていないと判定し、これを示すメッセージを出力装置6に出力させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書データの解析を行なうデータ処理装置、データ処理方法およびデータ処理プログラムに関する。
【背景技術】
【0002】
従来、文書データの作成や校正を支援するために、分野依存辞書を使用して入力文書データ中の記述が対応する分野の単語が優先的に提示する技術や、構文解析により文単位で文法チェックを行なう技術がある。また、例えば特許文献1に開示されるように、入力文書データ中の記述のうち具体性に欠ける部分を提示するものがある。この文献では、入力文書データ中の記述に予め定められた特徴部分が含まれる場合に、この特徴部分を有する文が具体的であるために欠落すべきでない5W1H(when,whereなど)を含んでいる否かを判定する。
【特許文献1】特開2002−183117号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかし、前述したように文書データ中の記述が関わる分野の単語を優先的に表示させたり文法チェックを行なったりする技術では、記述内容の意味的不足を判定することはできない。また、前述したように文書データ中の予め定められた特徴を有する文に5W1Hが含まれているか否かを判定すれば具体性のない文をチェックすることができるが、5W1Hは概念的な要素であるので、文書データが例えば製品の修理報告書である場合に、当該修理報告書に記述されるべき具体的な単語が無い場合にこれを指摘することができない。
【0004】
そこで、本発明の目的は、文書データ中のある単語に関連して記述されるべき単語の記述不足を判定することが可能になるデータ処理装置、データ処理方法およびデータ処理プログラムを提供することにある。
【課題を解決するための手段】
【0005】
すなわち、本発明に係わるデータ処理装置は、予め定められた第1の単語情報とこの第1の単語情報と関連して記述されるべき第2の単語情報とを関連付けて記憶しておき、この記憶された第1の単語情報が入力文書データに含まれる場合に当該第1の単語情報に関連付けられて記憶される第2の単語情報が入力文書データに含まれているか否かを判定して、この判定結果を出力することを特徴とする。
【発明の効果】
【0006】
本発明に係わるデータ処理装置では、文書データ中のある単語に関連して記述されるべき単語の記述不足を判定することができる。
【発明を実施するための最良の形態】
【0007】
以下図面により本発明の実施形態について説明する。
図1は、本発明の実施形態にしたがった文書データ処理装置の構成例を示すブロック図である。
【0008】
図1に示すように、本発明の実施形態にしたがった文書データ処理装置は、装置全体の制御を司る制御部1、記憶装置2、抽出処理部3、判定部4、入力装置5、出力装置6および入出力インタフェース7を備え、それぞれがバス8を介して接続される。
【0009】
記憶装置2は例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成される。記憶装置2は制御部1による実行対象の制御プログラムを記憶するのに加え、制御部1による各種処理のワークメモリとしても機能する。
【0010】
抽出処理部3は、入力文書データ中から予め定められた単語を抽出する。判定部4は、抽出処理部3が抽出した単語情報に関連して記述されるべき単語が入力文書データに含まれているか否かを判定する。入力装置5は例えばキーボードやマウスであり、文書データの新規作成などにかかる操作を受け付ける。出力装置6は例えばディスプレイ装置である。
また、入出力インタフェース7は図示しない外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で文書データを入出力する。
【0011】
図2は、本発明の実施形態にしたがった文書データ処理装置の記憶装置に記憶されるテキストマイニング辞書テーブルの構成例を表形式で示す図である。
このテキストマイニング辞書テーブルは、入力文書データ中に予め定められた単語が含まれているか否かの判別のために用いられるテーブルである。なお、図2に示すテキストマイニング辞書テーブルにおける「項目名」や「該当表現」には「単語」が記述されているが、単語に限定しなくても良い。例えば、文節や文章になっていても良い。図3に示す「項目名」や「関連情報」、さらに図8に示す「項目名」や「関連情報」や「該当表現」においても同様である。
【0012】
このテキストマイニング辞書テーブルでは、コード、項目名および該当表現が関連付けて管理される。コードは項目名ごとに対応する管理番号であり、アルファベットおよび数字からなる。また、テキストマイニング辞書テーブル中の単一の項目名には単一または複数の該当表現が関連付けられる。
【0013】
本発明の実施形態にしたがった文書データ処理装置は、入力文書データ中の単語にテキストマイニング辞書テーブルで管理される該当表現と同じ単語が存在する場合に、これとテーブル上で関連付けられる項目名に対応する単語が入力文書データに含まれていると判定する。また、テキストマイニング辞書テーブルで管理される該当表現はテキスト処理で一般に使用される「正規表現」で記述してもよい。
【0014】
図3は、本発明の実施形態にしたがった文書データ処理装置の記憶装置に記憶される関連情報テーブルの構成例を表形式で示す図である。
この関連情報テーブルでは項目名、関連情報および対象が関連付けられて管理される。関連情報テーブル上で管理される「関連情報」は入力文書データ中に関連情報テーブル項目名に対応する単語が含まれる場合に、この単語に関連して入力文書データ内に含まれるべき単語情報である。「対象」はこれに関連情報テーブル上で関連付けられる関連情報が関わる例えば製品種別などのカテゴリ情報である。
【0015】
本発明の実施形態にしたがった文書データ処理装置は、入力文書データ中の単語にテキストマイニング辞書テーブルで管理される該当表現と同じ単語が存在し、この該当表現と対応する項目名に関連情報テーブル上で関連付けられる関連情報と同じ単語が入力文書データに含まれない場合に、前述した項目名に対応する単語と関連して記述されるべき単語が入力文書データに含まれていないと判定する。
前述したテキストマイニング辞書テーブルや関連情報テーブルで管理される情報は入力装置5に対する予め定められた手順の操作を行なうことで変更することができる。
【0016】
次に、図1に示した構成の文書データ処理装置の動作について説明する。
図4は、本発明の実施形態にしたがった文書データ処理装置の処理動作の一例を示すフローチャートである。
【0017】
まず、文書データ処理装置の入力装置5に対する操作により文書データが作成されると、制御部1はこの文書データを記憶装置2に記憶する。また、外部記憶装置に記憶された作成済みの文書データが入出力インタフェース7に入力されると、制御部1はこの文書データを記憶装置2に記憶する(ステップS1)。
【0018】
図5は、本発明の実施形態にしたがった文書データ処理装置に入力される文書データの構成例を示す図である。
この文書データはエアコンの修理報告書であり、修理対象機器、機種、症状および報告内容が例えば表形式で記述されたものである。入力文書データは図5に示した表形式に限らず、箇条書き形式であってもよいし通常の文章形式であってもよい。
【0019】
抽出処理部3は、記憶装置2に記憶された入力文書データの形態素解析を行なって、文書データ中の単語を認識し、この認識した単語と記憶装置2に記憶されるテキストマイニング辞書テーブルとを照合することにより、認識した単語と同じ単語がテキストマイニング辞書テーブル上の該当表現として管理されている場合には、これにテキストマイニング辞書テーブル上で関連付けられる項目名を抽出する(ステップS2)。
【0020】
このとき、抽出処理部3は図5に示す症状「水漏れ」がテキストマイニング辞書テーブル上に含まれているか否かを照合し、さらに図5に示す報告内容「冷房使用時に水漏れとのことで修理依頼あり。」の中に症状「水漏れ」に対応する該当表現が含まれているか否かを照合するという処理を行ってもよい。つまり、テキストマイニング辞書テーブルの照合対象が入力文書データの全体であっても良いし、その文書データの一部であってもよい。
【0021】
図6は、本発明の実施形態にしたがった文書データ処理装置による項目名抽出結果の一例を示す図である。
この抽出結果における文字列<*****>および</*****>で囲まれた単語が抽出処理部3により抽出された項目名に対応する単語である。「*****」は前述したように囲まれた単語である項目名にテキストマイニング辞書テーブル上で関連付けられたコード名である。
【0022】
図6に示した例では、入力文書データ中の「症状」の項目と連なる項目中の「水漏れ」が当該水漏れにテキストマイニング辞書テーブル上で関連付けられるコード名に対応する文字列<E0001>および</E0001>で囲まれているので、「水漏れ」が抽出処理部3により抽出した項目名に対応する単語である。
【0023】
そして、抽出処理部3は、ステップS2の処理で抽出した項目名と記憶装置2に記憶される関連情報テーブルとを照合することにより、抽出済みの項目名に関連情報テーブル上で関連付けられる関連情報を抽出する(ステップS3)。
【0024】
具体的には、ステップS2の処理で抽出した項目名が図6に示した「水漏れ」であって、照合対象の関連情報テーブルが図3に示した構成である場合には、抽出処理部3は、関連情報テーブル上の項目名「水漏れ」に関連付けられる関連情報「ホース」、「フィルタ」および「破損」を抽出する。
【0025】
そして、抽出処理部3は、抽出済みの関連情報が複数ある場合には、入力文書データ中の記述にしたがった絞込みを行なう。
具体的には、抽出された関連情報が「ホース」、「フィルタ」および「破損」である場合には、これらの情報を、関連情報テーブル上の「対象」のうち限定の無い「(なし)」に関連付けられる「フィルタ」と入力文書データ中の記述と同じ対象である「エアコン」に関連付けられる「破損」に絞り込む。
【0026】
記憶装置2には判定部4による判定条件の情報が記憶されている。ここでは判定条件は「抽出又は絞り込まれた関連情報に対応する単語が入力文書データに記述されていない場合には記述不足と判定する」である。
【0027】
判定部4は、この判定条件にしたがって、前述したように絞り込まれた関連情報の何れかに対応する単語が入力文書データ中に含まれていない場合には、入力文書データ中の「水漏れ」に関連して記述されるべき単語である「フィルタ」および「破損」のいずれも当該入力文書データに記述されていないので、記述が不足していると判定する(ステップS4のYES)。
【0028】
すると判定部4は入力文書データ中の記述が不足している旨を示すメッセージを生成し、このメッセージを含むエラー出力画面を出力装置6に出力させる(ステップS5)。
【0029】
図7は、本発明の実施形態にしたがった文書データ処理装置により出力するエラー出力画面の一例を示す図である。
この出力画面では図5に示した入力文書データ中の「水漏れ」に関連して記述されるべき単語が無いことが示されている。
【0030】
以上のように、本発明の実施形態にしたがった文書データ処理装置では予め定められた第1の単語情報とこれに関連して記述されるべき第2の単語情報を関連付けて記憶装置2に記憶しておき、第1の単語情報が入力文書データ中の記述として存在する場合に、これに関連付けられて記憶装置2に記憶される第2の単語情報が入力文書データ中に存在しない場合には、入力文書データ中の記述が不足している判定するので、文書データ作成時の不備の修正を支援することができる、よってユーザによる文書データ作成の負荷を軽減することができる。
【0031】
前述した実施形態にしたがった文書データ処理装置は、テキストマイニング辞書テーブル上の項目名に対応する単語が入力文書データに存在する場合に、これに関連情報テーブル上で関連付けられる関連情報が入力文書データ中に存在しない場合に、入力文書データ中の記述が不足していると判定した。しかしこれに限らず、図3に示したような関連情報テーブル上の関連情報と同じ単語が当該関連情報テーブル上の項目名として管理されている場合に、この項目名に関連情報テーブル上で関連付けられる関連情報と、前述したように入力文書データに存在する単語の項目名に関連情報テーブル上で関連付けられる関連情報とのいずれかが入力文書データ中に存在しない場合に、入力文書データ中の記述が不足していると判定する形態でもよい。
【0032】
例えば入力文書データに存在する単語である項目名「水漏れ」と図3に示した関連情報テーブル上で関連付けられる関連情報は「ホース」、「フィルタ」、「破損」であるが、このうち「フィルタ」は同じテーブル上の項目名としても管理される。この場合、抽出処理部3は、項目名「フィルタ」とテーブル上で関連付けられる「目詰まり」および前述した「ホース」、「フィルタ」、「破損」をあわせて抽出する。そして判定部4はこれら抽出された単語のいずれかが入力文書データに含まれるか否かを判定する。これにより、項目名「水漏れ」と関連情報「目詰まり」とを関連情報テーブル上で直接関連付けなくとも、直接関連付けた場合と同様の効果が得られるので、関連情報テーブルにおける情報量を最小限にすることができる。
【0033】
次に、本発明の実施形態にしたがった文書データ処理装置の変形例について説明する。
図8は、本発明の実施形態にしたがった文書データ処理装置の記憶装置に記憶される関連情報テーブルの変形例を表形式で示す図である。
この変形例では、記憶装置2に記憶される関連情報テーブルは、図3に示した項目名、関連情報および対象に加え、関連情報の該当表現をさらに関連付けて管理する。
【0034】
図8に示すように、関連情報「フィルタ」に該当表現「(フィルタ|フィルター|filter)」が関連情報テーブル上で関連付けられており、入力文書データ中に項目名「水漏れ」が記述されている場合には、判定部4は、入力文書データ中に「フィルタ」、「フィルター」および「filter」のいずれかが記述されていれば、項目名「水漏れ」に関連して記述されるべき単語が入力文書データ中に記述されていると判別する。よって、入力文書データに記述されるべき単語の判定精度を向上させることができる。
【0035】
なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【図面の簡単な説明】
【0036】
【図1】本発明の実施形態にしたがった文書データ処理装置の構成例を示すブロック図。
【図2】本発明の実施形態にしたがった文書データ処理装置の記憶装置に記憶されるテキストマイニング辞書テーブルの構成例を表形式で示す図。
【図3】本発明の実施形態にしたがった文書データ処理装置の記憶装置に記憶される関連情報テーブルの構成例を表形式で示す図。
【図4】本発明の実施形態にしたがった文書データ処理装置の処理動作の一例を示すフローチャート。
【図5】本発明の実施形態にしたがった文書データ処理装置に入力される文書データの構成例を示す図。
【図6】本発明の実施形態にしたがった文書データ処理装置による項目名抽出結果の一例を示す図。
【図7】本発明の実施形態にしたがった文書データ処理装置により出力するエラー出力画面の一例を示す図。
【図8】本発明の実施形態にしたがった文書データ処理装置の記憶装置に記憶される関連情報テーブルの変形例を表形式で示す図。
【符号の説明】
【0037】
1…制御部、2…記憶装置、3…抽出処理部、4…判定部、5…入力装置、6…出力装置、7…入出力インタフェース、8…バス。

【特許請求の範囲】
【請求項1】
文書データを入力する文書入力手段と、
予め定められた第1の単語情報とこの第1の単語情報と関連して記述されるべき第2の単語情報とを関連付けて記憶する記憶手段と、
前記文書入力手段により入力された文書データに前記記憶手段に記憶された第1の単語情報が含まれる場合に当該第1の単語情報に関連付けられて前記記憶手段に記憶される第2の単語情報が前記入力した文書データに含まれているか否かを判定する判定手段と、
この判定手段による判定結果を出力する出力手段と
を備えたことを特徴とするデータ処理装置。
【請求項2】
前記出力手段は、前記第2の単語情報が前記文書データに含まれていないと前記判定手段が判定した場合に、前記入力した文書データ中の記述が不足している旨のコメントを出力することを特徴とする請求項1に記載のデータ処理装置
【請求項3】
前記記憶手段に記憶される第1の単語情報に前記第2の単語情報と同じ単語情報が含まれており、
前記判定手段は、前記記憶手段に記憶された単語情報のうち、前記第1の単語情報が前記文書入力手段により入力した文書データに含まれる場合で、前記記憶手段に記憶された単語情報のうち、前記第2の単語情報および前記第2の単語情報が第1の単語情報と同じ単語情報である場合における当該第1の単語情報に関連付けられる単語情報のいずれかが前記入力した文書データに含まれるか否かを判定することを特徴とする請求項1に記載のデータ処理装置。
【請求項4】
予め定められた第1の単語情報とこの第1の単語情報と関連して記述されるべき第2の単語情報とを関連付けて記憶する記憶装置を備えた装置で用いられ、
文書データを入力する文書入力ステップと、
この文書入力ステップにより入力された文書データに前記記憶装置に記憶された第1の単語情報が含まれる場合に当該第1の単語情報に関連付けられて前記記憶装置に記憶される第2の単語情報が前記入力した文書データに含まれているか否かを判定する判定ステップと、
この判定ステップによる判定結果を出力する出力ステップと
を有することを特徴とするデータ処理方法。
【請求項5】
予め定められた第1の単語情報とこの第1の単語情報と関連して記述されるべき第2の単語情報とを関連付けて記憶する記憶装置を備えたコンピュータを制御するためのプログラムであって、
前記コンピュータを、
文書データを入力する文書入力手段、
前記文書入力手段により入力された文書データに前記記憶装置に記憶された第1の単語情報が含まれる場合に当該第1の単語情報に関連付けられて前記記憶装置に記憶される第2の単語情報が前記入力した文書データに含まれているか否かを判定する判定手段、および
この判定手段による判定結果を出力する出力手段
として機能させるようにした、コンピュータ読み取り可能なデータ処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2007−310829(P2007−310829A)
【公開日】平成19年11月29日(2007.11.29)
【国際特許分類】
【出願番号】特願2006−141957(P2006−141957)
【出願日】平成18年5月22日(2006.5.22)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】