エラー情報収集装置、方法及びプログラム
【課題】形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集し、形態素解析器及び仮名漢字変換器の機能向上に寄与する仕組みを提供すること。
【解決手段】エラー情報収集装置10の形態素用出力部12は、テキストデータを取得し、形態素解析器31に出力し、読みデータ取得部13は、形態素解析器31の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ、及び読みデータを入力し、分析DB21に記憶する。さらに、読みデータ出力部14は、仮名漢字変換器32に、元の漢字仮名データが記憶されたその読みデータを出力し、変換データ取得部15は、仮名漢字変換器32の出力である読みデータの仮名漢字変換データを入力し、分析DB21に記憶する。そして、判定部16は、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を分析DB21に記憶する。
【解決手段】エラー情報収集装置10の形態素用出力部12は、テキストデータを取得し、形態素解析器31に出力し、読みデータ取得部13は、形態素解析器31の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ、及び読みデータを入力し、分析DB21に記憶する。さらに、読みデータ出力部14は、仮名漢字変換器32に、元の漢字仮名データが記憶されたその読みデータを出力し、変換データ取得部15は、仮名漢字変換器32の出力である読みデータの仮名漢字変換データを入力し、分析DB21に記憶する。そして、判定部16は、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を分析DB21に記憶する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストデータ処理におけるエラー処理に関する。より詳しくは、形態素解析器と仮名漢字変換器のエラー情報を効率よく収集する仕組みに関する。
【背景技術】
【0002】
従来より、テキストデータを解析し、形態素に分解する形態素解析器の動作試験は、任意の漢字仮名混じり文をテストツールにかけ、その出力を目視確認して行っている。そして、その結果を反映させることにより形態素解析器の機能向上を図っている。また、機能を自動的に向上させることを目的として学習辞書を導入している形態素解析器がある(特許文献1参照)。
【0003】
一方、テキストデータを解析し、漢字に変換する仮名漢字変換器の動作試験は、正しい漢字仮名混じり文からひらがなの読みデータを手動で作成し、作成した読みデータを仮名漢字変換器にかけ、変換された結果と元の漢字仮名混じり文とを比較し、自動判定することにより行っている。そして、その結果を反映させることにより仮名漢字変換器の機能向上を図っている。
【0004】
【特許文献1】特開2005−242809号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、形態素解析器のテスト結果は大量であり、テスト結果のエラー確認を行うことは困難である。また、仮名漢字変換器用に大量のテストデータを用意することも困難である。また、自動的に機能を向上させることを目的として学習辞書を導入している形態素解析器では、機能が向上するには学習時間がかかる。
【0006】
本発明は、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集し、形態素解析器及び仮名漢字変換器の機能向上に寄与する仕組みを提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決するために、本発明は、以下のようなものを提供する。
(1) テキストデータ処理に関するエラー情報を収集するエラー情報収集装置であって、テキストデータを取得し、形態素に分解する形態素解析器に出力する形態素用出力部と、前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶する読みデータ取得部と、漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力する読みデータ出力部と、前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶する変換データ取得部と、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶する判定部と、を備えることを特徴とするエラー情報収集装置。
【0008】
(1)の構成によれば、エラー情報収集装置の形態素用出力部は、テキストデータを取得し、形態素解析器に出力し、読みデータ取得部は、形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶する。さらに、読みデータ出力部は、仮名漢字変換器に、元の漢字仮名データが記憶されたその読みデータを出力し、変換データ取得部は、仮名漢字変換器の出力である読みデータの仮名漢字変換データを入力し、記憶装置に記憶する。そして、判定部は、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を記憶装置に記憶する。
【0009】
このことにより、本発明は、形態素解析器の出力である元の漢字仮名データ及び読みデータを記憶し、さらに、元の漢字仮名データが記憶されたその読みデータを仮名漢字変換器に出力し、仮名漢字変換データを記憶し、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を記憶する。よって、同一と判定した場合は、形態素解析器の解析と、仮名漢字変換器の変換とが正常に機能していることを示す確率が高い。異なると判定した場合には、形態素解析器の解析が異常の場合と、仮名漢字変換器の変換が異常の場合がある。この異常の判定があったテキストデータについてのみ目視確認を行えば、形態素解析器の解析異常か、仮名漢字変換器の変換異常かが判明する。したがって、大量のテスト結果の中から、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集することができ、その結果を利用すれば、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【0010】
(2) (1)に記載のエラー情報収集装置であって、前記判定部は、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一でないと判定した場合にのみ、操作者の入力を受付けて、入力された情報を記憶装置に記憶することを特徴とするエラー情報収集装置。
【0011】
(2)の構成によれば、エラー情報収集装置の判定部は、元の漢字仮名データと仮名漢字変換データとを比較し、同一でないと判定した場合にのみ、操作者の入力を受付けて、入力された情報を記憶装置に記憶する。
【0012】
このことにより、元の漢字仮名データと仮名漢字変換データとを比較し、同一でないと判定した場合にのみ、操作者の入力を受付け、形態素解析器のエラーか仮名漢字変換器のエラーかの情報の入力を記憶する。したがって、大量のテスト結果の中から、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集することができ、その結果を利用すれば、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【0013】
(3) テキストデータ処理に関するエラー情報を収集する方法であって、テキストデータを取得し、形態素に分解する形態素解析器に出力するステップと、前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶するステップと、漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力するステップと、前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶するステップと、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶するステップと、を含む方法。
【0014】
(3)の構成によれば、エラー情報を収集する方法は、テキストデータを取得し、形態素に分解する形態素解析器に出力し、形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶する。さらに、漢字に変換する仮名漢字変換器に、元の漢字仮名データが記憶されたその読みデータを出力し、仮名漢字変換器の出力である読みデータの仮名漢字変換データを入力し、記憶装置に記憶し、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を記憶装置に記憶する。
【0015】
このことにより、本発明の方法によれば、形態素解析器の出力である元の漢字仮名データ及び読みデータを記憶し、さらに、元の漢字仮名データが記憶されたその読みデータを仮名漢字変換器に出力し、仮名漢字変換データを記憶し、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を記憶する。よって、同一と判定した場合は、形態素解析器の解析と、仮名漢字変換器の変換とが正常に機能していることを示す確率が高い。異なると判定した場合には、形態素解析器の解析が異常の場合と、仮名漢字変換器の変換が異常の場合がある。この異常の判定があったテキストデータについてのみ目視確認を行えば、形態素解析器の解析異常か、仮名漢字変換器の変換異常かが判明する。したがって、大量のテスト結果の中から、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集することができ、その結果を利用すれば、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【0016】
(4) テキストデータ処理に関するエラー情報を収集するコンピュータ・プログラムであって、テキストデータを取得し、形態素に分解する形態素解析器に出力するステップと、前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶するステップと、漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力するステップと、前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶するステップと、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶するステップと、をコンピュータに実行させるコンピュータ・プログラム。
【0017】
(4)の構成によれば、本発明のコンピュータ・プログラムは、テキストデータを取得し、形態素に分解する形態素解析器に出力するステップと、前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶するステップと、漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力するステップと、前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶するステップと、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶するステップと、をコンピュータに実行させることができる。
【0018】
このことにより、本発明のコンピュータ・プログラムを実行させたコンピュータは、形態素解析器の出力である元の漢字仮名データ及び読みデータを記憶する。さらに、元の漢字仮名データが記憶されたその読みデータを仮名漢字変換器に出力し、仮名漢字変換データを記憶する。そして、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を記憶する。よって、同一と判定した場合は、形態素解析器の解析と、仮名漢字変換器の変換とが正常に機能していることを示す確率が高い。異なると判定した場合には、形態素解析器の解析が異常の場合と、仮名漢字変換器の変換が異常の場合がある。この異常の判定があったテキストデータについてのみ目視確認を行えば、形態素解析器の解析異常か、仮名漢字変換器の変換異常かが判明する。したがって、大量のテスト結果の中から、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集することができ、その結果を利用すれば、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【発明の効果】
【0019】
本発明によれば、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集し、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【発明を実施するための最良の形態】
【0020】
[実施例1]
本発明の1つの実施の形態として、エラー情報収集装置10を例に挙げて説明する。このエラー情報収集装置10は、形態素用出力部12と、読みデータ取得部13と、読みデータ出力部14と、変換データ取得部15と、判定部16と、記憶装置としてハードディスク1070とを備え、形態素解析器31及び仮名漢字変換器32の出力と、判定結果をハードディスク1070上の分析DB(データベース)21に記憶する。以下、本発明の実施形態について、図に従って説明する。
【0021】
図1は、本発明の機能を構成する構成部と、構成部が処理するデータとの関連を示す図である。
【0022】
形態素用出力部12は、テキストデータを取得し、形態素解析器31に出力する。テキストデータは、通信I/F1040を介して、取得することができ、試験用に作成されたテキストデータだけではなく、現実に使用されているテキストデータでも利用することができる。例えば、インターネット上の利用可能な、ニュース、文献、公報等のテキストデータや、利用可能な掲示板やブログのテキストデータであることもできる。現実に使用されているテキストデータを利用することにより、現実的な試験を行うことができ、使用頻度に適合した、タイムリーな機能向上を行うことができる。
【0023】
読みデータ取得部13は、形態素解析器31の出力である読みデータを取得し、ハードディスク1070に記憶する。形態素解析器31は、テキストデータを解析し、形態素に分解し、分解して得た漢字とともに、その漢字の読みを読みデータとして出力する。読みデータ取得部13は、出力された漢字を、その読みデータとともに、分析DB21の「元の漢字仮名データ」と、「読みデータ」として、ハードディスク1070に記憶する(後述する図3参照)。
【0024】
読みデータ出力部14は、読みデータを仮名漢字変換器32に出力する。この仮名漢字変換器32に出力する読みデータは、読みデータと対応した漢字データが、元の漢字仮名データとして記憶されている。
【0025】
変換データ取得部15は、仮名漢字変換器32の出力である仮名漢字変換データを取得し、分析DB21の「仮名漢字変換データ」として、元の漢字仮名データ及び読みデータと関連付けてハードディスク1070に記憶する(後述する図4参照)。
【0026】
判定部16は、元の漢字仮名データと、変換された仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を分析DB21の「全体判定」として、元の漢字仮名データ、読みデータ、仮名漢字変換データと関連付けてハードディスク1070に記憶する(後述する図5参照)。
【0027】
図2は、本発明のハードウェア構成の一例を示す図である。エラー情報収集装置10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU_A1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、ハードディスク1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。
【0028】
BIOS1060は、エラー情報収集装置10の起動時にCPU1010が実行するブートプログラムや、ハードウェアに依存するプログラム等を格納する。
【0029】
ハードディスク1070は、エラー情報収集装置10が機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、さらに必要に応じて各種データベースを構成可能である。
【0030】
表示装置1022は、ユーザにデータの入力を受付ける画面を表示したり、エラー情報収集装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
【0031】
ここで、入力手段は、ユーザによる入力の受付けを行うものであり、キーボード及びマウス1100等により構成する。
【0032】
また、通信I/F1040は、エラー情報収集装置10を専用ネットワーク又は公共ネットワークを介して形態素解析器31、仮名漢字変換器32、及びテキストデータ出力装置等と接続できるようにするためのネットワーク・アダプタである。
【0033】
図3は、本発明の読みデータ取得部13が取得データを分析DB21に記憶した状態を示す図である。図は、読みデータ取得部13が、形態素解析器31の出力である形態素に分解した元の漢字仮名データ及び読みデータを取得し、分析DB21に記憶したことを示している。分析DB21に元の漢字仮名データ及び読みデータとして、例えば、「形態素」と「けいたいもと」、「漢字変換」と「かんじへんかん」、「情報収集」と「じょうほうしゅうしゅう」を記憶したことを示している。分析DB21は、「元の漢字仮名データ」、「読みデータ」、「仮名漢字変換データ」、「全体判定」、及び「読みの判定」のレコードを含んでいる。
【0034】
図4は、本発明の変換データ取得部15が取得データを分析DB21に記憶した状態を示す図である。図は、変換データ取得部15が、仮名漢字変換器32の出力である仮名漢字変換データを取得し、分析DB21に記憶したことを示している。分析DB21の「仮名漢字変換データ」として、例えば、「形態基」、「漢字返還」、「情報収集」を記憶したことを示している。
【0035】
図5は、本発明の判定部16が判定結果を分析DB21に記憶した状態を示す図である。図は、判定部16が、元の漢字仮名データと、仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を分析DB21の「全体判定」に記憶したことを示している。分析DB21の「全体判定」として、判定部16が、「形態素」と「形態基」とを比較し同一ではないと判断したことを「×」で、「漢字変換」と「漢字返還」とを比較し同一ではないと判断したことを「×」で、「情報収集」と「情報収集」とを比較し同一と判断したことを「○」で、示している。
【0036】
図6は、本発明の処理内容を示すフローチャートである。
【0037】
まず、ステップS101において、CPU1010は、テキストデータを取得する。具体的には、通信I/F1040を介してテキストデータを受信し、ハードディスク1070に記憶する。
【0038】
次に、ステップS102において、CPU1010は、テキストデータを形態素解析器31へ出力する。具体的には、通信I/F1040を介して形態素解析器31にテキストデータを送信する。
【0039】
次に、ステップS103において、CPU1010は、形態素解析器31の出力を入力し、記憶する。具体的には、通信I/F1040を介して取得した形態素解析器31の出力である元の漢字仮名データ、及び読みデータを受信し、ハードディスク1070上の分析DB21の「元の漢字仮名データ」及び「読みデータ」に記憶する(図3参照)。
【0040】
次に、ステップS104において、CPU1010は、読みデータを仮名漢字変換器32に出力する。具体的には、分析DB21から、元の漢字仮名データに対応した読みデータを取得し、通信I/F1040を介して仮名漢字変換器32に送信する。
【0041】
次に、ステップS105において、CPU1010は、変換データを入力する。具体的には、通信I/F1040を介して、仮名漢字変換器32が出力した仮名漢字変換データを受信し、ハードディスク1070上の分析DB21の「仮名漢字変換データ」に記憶する(図4参照)。
【0042】
次に、ステップS106において、CPU1010は、データを比較し判定する。具体的には、元の漢字仮名データと、仮名漢字変換データとを比較し、同一か否かを判断し、判定結果をハードディスク1070上の分析DB21の「全体判定」に記憶する(図5参照)。その後処理を終了する。
【0043】
図7は、本発明の全体判定がエラーの場合の一覧表を示す図である。図は、エラー情報収集装置10により、全体判定がエラーである場合の、元の漢字仮名データと、読みデータと、仮名漢字変換データとが一覧表として得られることを示している。
【0044】
[実施例2]
実施例2は、エラー情報収集装置10において、エラー情報を収集し、全体判定がエラーの場合についてのみ、読みデータが正常であるか否かの判定を受付け、受付けた情報を記憶する。
【0045】
図8は、実施例2における、エラー情報収集装置10の処理内容を示すフローチャートである。
【0046】
ステップS201からステップS206は、実施例1のステップS101からステップS106と同様であるので省略する。
【0047】
次に、ステップS207において、CPU1010は、全体判定がエラーか否かを判断する。具体的には、分析DB21の「全体判定」のデータを判断し、エラーでないと判断した場合には、処理を終了する。
【0048】
次に、ステップS208において、CPU1010は、読みデータの判定の受付けを行う。具体的には、元の漢字仮名データと、読みデータと、仮名漢字変換データとを表示し、操作者の判断を受付け、受付けた情報を分析DB21の「読みの判定」に記憶する(後述する図9参照)。その後、処理を終了する。
【0049】
図9は、実施例2において、読みデータの判定を受付け、受付けた情報を分析DB21に記憶した状態を示す図である。例えば、元の漢字仮名データが「形態素」、その読みデータが「けいたいもと」である場合には、読みデータの誤りであるから形態素解析器31のエラーとして「K」を、元の漢字仮名データが「漢字変換」、その読みデータが「かんじへんかん」である場合には、読みデータは正しいから仮名漢字変換器32のエラーとして「H」を、受付け、記憶したことを示している。
【0050】
[実施例3]
実施例3は、エラー情報収集装置10において、判定結果を分析蓄積DBに蓄積し、所定の条件により新語として辞書登録を行う。分析蓄積DBは、ハードディスク1070上に記憶され、本発明が収集したエラー情報を蓄積している。分析蓄積DBは、「元の漢字仮名データ」、「読みデータ」、「仮名漢字変換データ」、「全体判定」、「読みの判定」、及び「頻度」のレコードを含んでいる。
【0051】
図10は、実施例3における、エラー情報収集装置10の処理内容を示すフローチャートである。
【0052】
まず、ステップS301において、元の漢字仮名データと、読みデータと、仮名漢字変換データと、全体判定とを取得する。具体的には、この処理は、実施例1のステップS101からステップS106と同様である。
【0053】
次に、ステップS302において、CPU1010は、全体判定がエラーか否かを判断する。具体的には、分析DB21の「全体判定」のデータを判断し、エラーでないと判断した場合には、処理を終了する。
【0054】
次に、ステップS303において、CPU1010は、同じエラーか否かを判断する。具体的には、元の漢字仮名データ、読みデータ、及び仮名漢字変換データと、分析蓄積DBの「元の漢字仮名データ」、「読みデータ」、及び「仮名漢字変換データ」とを比較し、同一レコードがあるか否かを判断する。同一のレコードはないと判断した場合には、ステップS307へ行く。
【0055】
次に、ステップS304において、CPU1010は、頻度をカウントする。具体的には、分析蓄積DBの同一のレコードに対応する「頻度」をカウントする。
【0056】
次に、ステップS305において、CPU1010は、分析蓄積DBの「頻度」は所定回数以上か否かを判断する。具体的には、分析蓄積DBの「頻度」の値と、予め設定されている所定の回数値とを比較し、分析蓄積DBの「頻度」の値が所定の回数値を超えていないと判断した場合には処理を終了する。
【0057】
次に、ステップS306において、CPU1010は、新語として辞書登録を行う。具体的には、元の漢字仮名データ、及び読みデータを辞書に登録し、登録した元の漢字仮名データ、及び読みデータのレコードは分析蓄積DB上から削除する。その後、処理を終了する。
【0058】
ステップS307において、CPU1010は、分析蓄積DBに記憶する。具体的には、元の漢字仮名データと、読みデータと、仮名漢字変換データとを分析蓄積DBの「元の漢字仮名データ」、「読みデータ」、及び「仮名漢字変換データ」に記憶する。
【0059】
次に、ステップS308において、CPU1010は、読みデータの判定の受付けを行う。具体的には、元の漢字仮名データと、読みデータと、仮名漢字変換データとを表示し、操作者の判断を受付け、受付けた情報を分析蓄積DBの該当するレコードの「読みの判定」に記憶する(後述する図11参照)。その後、処理を終了する。
【0060】
図11は、実施例3における、分析蓄積DBを示す図である。図は、分析蓄積DBとして、全体判定がエラーの場合のデータを蓄積し、同一エラーについては「頻度」がカウントされていることを示している。
【0061】
本実施例によれば、エラー情報収集装置10は、テキストデータを形態素解析器31に出力し、形態素解析器31の出力である元の漢字仮名データ及び読みデータを分析DB21に記憶する。さらに、元の漢字仮名データが記憶されたその読みデータを仮名漢字変換器32に出力し、仮名漢字変換データを分析DB21に記憶する。そして、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を分析DB21に記憶する。同一と判定した場合は、形態素解析器31の解析と、仮名漢字変換器32の変換とが正常に機能していることを示す確率が高い。異なると判定した場合には、形態素解析器31の解析が異常の場合と、仮名漢字変換器32の変換が異常の場合がある。この異常の判定があったテキストデータについてのみ目視確認を行えば、形態素解析器31の解析異常か、仮名漢字変換器32の変換異常かが判明する。また、分析蓄積DBに判定結果を蓄積することにより、新しい語を検出し辞書に登録することができる。したがって、大量のテスト結果の中から、形態素解析器31及び仮名漢字変換器32のエラー情報を効率よく収集することができ、その結果を利用すれば、辞書に新しい語を自動的に追加登録することができ、形態素解析器31及び仮名漢字変換器32の機能向上として文の区切りロジックの改善等に寄与することもできる。
【0062】
なお、本発明の実施例2では、読みデータの判定をエラー情報の収集ごとに受付けるとしたが、エラー情報収集後に一括して受付けることもできる。エラー情報を効率よく収集することができ、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【0063】
なお、本発明の実施例3では、頻度が所定の回数を超えた場合に、新しい語として辞書に登録するとしたが、辞書の登録漢字の読みデータの優先順位を変更することもできる。現実に使用されているテキストデータを用いた結果を利用して、辞書を更新し、形態素解析器31及び仮名漢字変換器32の機能向上に寄与することができる。
【0064】
なお、本発明の実施形態では、実効方法については触れなかったが、定時に自動実行することができる。エラー情報を効率よく収集することができ、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【0065】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
【図面の簡単な説明】
【0066】
【図1】本発明の機能を構成する構成部と、構成部が処理するデータとの関連を示す図である。
【図2】本発明のハードウェア構成の一例を示す図である。
【図3】本発明の読みデータ取得部13が取得データを分析DB21に記憶した状態を示す図である。
【図4】本発明の変換データ取得部15が取得データを分析DB21に記憶した状態を示す図である。
【図5】本発明の判定部16が判定結果を分析DB21に記憶した状態を示す図である。
【図6】本発明の処理内容を示すフローチャートである。
【図7】本発明の全体判定がエラーの場合の一覧表を示す図である。
【図8】実施例2における、エラー情報収集装置10の処理内容を示すフローチャートである。
【図9】実施例2において、読みデータの判定を受付け、受付けた情報を分析DB21に記憶した状態を示す図である。
【図10】実施例3における、エラー情報収集装置10の処理内容を示すフローチャートである。
【図11】実施例3における、分析蓄積DBを示す図である。
【符号の説明】
【0067】
10 エラー情報収集装置
12 形態素用出力部
13 読みデータ取得部
14 読みデータ出力部
15 変換データ取得部
16 判定部
21 分析DB
31 形態素解析器
32 仮名漢字変換器
1010 CPU
1012 CPU_A
1022 表示装置
1040 通信I/F
1050 メインメモリ
1060 BIOS
1070 ハードディスク
1100 キーボード及びマウス
【技術分野】
【0001】
本発明は、テキストデータ処理におけるエラー処理に関する。より詳しくは、形態素解析器と仮名漢字変換器のエラー情報を効率よく収集する仕組みに関する。
【背景技術】
【0002】
従来より、テキストデータを解析し、形態素に分解する形態素解析器の動作試験は、任意の漢字仮名混じり文をテストツールにかけ、その出力を目視確認して行っている。そして、その結果を反映させることにより形態素解析器の機能向上を図っている。また、機能を自動的に向上させることを目的として学習辞書を導入している形態素解析器がある(特許文献1参照)。
【0003】
一方、テキストデータを解析し、漢字に変換する仮名漢字変換器の動作試験は、正しい漢字仮名混じり文からひらがなの読みデータを手動で作成し、作成した読みデータを仮名漢字変換器にかけ、変換された結果と元の漢字仮名混じり文とを比較し、自動判定することにより行っている。そして、その結果を反映させることにより仮名漢字変換器の機能向上を図っている。
【0004】
【特許文献1】特開2005−242809号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、形態素解析器のテスト結果は大量であり、テスト結果のエラー確認を行うことは困難である。また、仮名漢字変換器用に大量のテストデータを用意することも困難である。また、自動的に機能を向上させることを目的として学習辞書を導入している形態素解析器では、機能が向上するには学習時間がかかる。
【0006】
本発明は、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集し、形態素解析器及び仮名漢字変換器の機能向上に寄与する仕組みを提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決するために、本発明は、以下のようなものを提供する。
(1) テキストデータ処理に関するエラー情報を収集するエラー情報収集装置であって、テキストデータを取得し、形態素に分解する形態素解析器に出力する形態素用出力部と、前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶する読みデータ取得部と、漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力する読みデータ出力部と、前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶する変換データ取得部と、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶する判定部と、を備えることを特徴とするエラー情報収集装置。
【0008】
(1)の構成によれば、エラー情報収集装置の形態素用出力部は、テキストデータを取得し、形態素解析器に出力し、読みデータ取得部は、形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶する。さらに、読みデータ出力部は、仮名漢字変換器に、元の漢字仮名データが記憶されたその読みデータを出力し、変換データ取得部は、仮名漢字変換器の出力である読みデータの仮名漢字変換データを入力し、記憶装置に記憶する。そして、判定部は、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を記憶装置に記憶する。
【0009】
このことにより、本発明は、形態素解析器の出力である元の漢字仮名データ及び読みデータを記憶し、さらに、元の漢字仮名データが記憶されたその読みデータを仮名漢字変換器に出力し、仮名漢字変換データを記憶し、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を記憶する。よって、同一と判定した場合は、形態素解析器の解析と、仮名漢字変換器の変換とが正常に機能していることを示す確率が高い。異なると判定した場合には、形態素解析器の解析が異常の場合と、仮名漢字変換器の変換が異常の場合がある。この異常の判定があったテキストデータについてのみ目視確認を行えば、形態素解析器の解析異常か、仮名漢字変換器の変換異常かが判明する。したがって、大量のテスト結果の中から、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集することができ、その結果を利用すれば、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【0010】
(2) (1)に記載のエラー情報収集装置であって、前記判定部は、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一でないと判定した場合にのみ、操作者の入力を受付けて、入力された情報を記憶装置に記憶することを特徴とするエラー情報収集装置。
【0011】
(2)の構成によれば、エラー情報収集装置の判定部は、元の漢字仮名データと仮名漢字変換データとを比較し、同一でないと判定した場合にのみ、操作者の入力を受付けて、入力された情報を記憶装置に記憶する。
【0012】
このことにより、元の漢字仮名データと仮名漢字変換データとを比較し、同一でないと判定した場合にのみ、操作者の入力を受付け、形態素解析器のエラーか仮名漢字変換器のエラーかの情報の入力を記憶する。したがって、大量のテスト結果の中から、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集することができ、その結果を利用すれば、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【0013】
(3) テキストデータ処理に関するエラー情報を収集する方法であって、テキストデータを取得し、形態素に分解する形態素解析器に出力するステップと、前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶するステップと、漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力するステップと、前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶するステップと、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶するステップと、を含む方法。
【0014】
(3)の構成によれば、エラー情報を収集する方法は、テキストデータを取得し、形態素に分解する形態素解析器に出力し、形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶する。さらに、漢字に変換する仮名漢字変換器に、元の漢字仮名データが記憶されたその読みデータを出力し、仮名漢字変換器の出力である読みデータの仮名漢字変換データを入力し、記憶装置に記憶し、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を記憶装置に記憶する。
【0015】
このことにより、本発明の方法によれば、形態素解析器の出力である元の漢字仮名データ及び読みデータを記憶し、さらに、元の漢字仮名データが記憶されたその読みデータを仮名漢字変換器に出力し、仮名漢字変換データを記憶し、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を記憶する。よって、同一と判定した場合は、形態素解析器の解析と、仮名漢字変換器の変換とが正常に機能していることを示す確率が高い。異なると判定した場合には、形態素解析器の解析が異常の場合と、仮名漢字変換器の変換が異常の場合がある。この異常の判定があったテキストデータについてのみ目視確認を行えば、形態素解析器の解析異常か、仮名漢字変換器の変換異常かが判明する。したがって、大量のテスト結果の中から、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集することができ、その結果を利用すれば、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【0016】
(4) テキストデータ処理に関するエラー情報を収集するコンピュータ・プログラムであって、テキストデータを取得し、形態素に分解する形態素解析器に出力するステップと、前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶するステップと、漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力するステップと、前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶するステップと、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶するステップと、をコンピュータに実行させるコンピュータ・プログラム。
【0017】
(4)の構成によれば、本発明のコンピュータ・プログラムは、テキストデータを取得し、形態素に分解する形態素解析器に出力するステップと、前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶するステップと、漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力するステップと、前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶するステップと、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶するステップと、をコンピュータに実行させることができる。
【0018】
このことにより、本発明のコンピュータ・プログラムを実行させたコンピュータは、形態素解析器の出力である元の漢字仮名データ及び読みデータを記憶する。さらに、元の漢字仮名データが記憶されたその読みデータを仮名漢字変換器に出力し、仮名漢字変換データを記憶する。そして、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を記憶する。よって、同一と判定した場合は、形態素解析器の解析と、仮名漢字変換器の変換とが正常に機能していることを示す確率が高い。異なると判定した場合には、形態素解析器の解析が異常の場合と、仮名漢字変換器の変換が異常の場合がある。この異常の判定があったテキストデータについてのみ目視確認を行えば、形態素解析器の解析異常か、仮名漢字変換器の変換異常かが判明する。したがって、大量のテスト結果の中から、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集することができ、その結果を利用すれば、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【発明の効果】
【0019】
本発明によれば、形態素解析器及び仮名漢字変換器のエラー情報を効率よく収集し、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【発明を実施するための最良の形態】
【0020】
[実施例1]
本発明の1つの実施の形態として、エラー情報収集装置10を例に挙げて説明する。このエラー情報収集装置10は、形態素用出力部12と、読みデータ取得部13と、読みデータ出力部14と、変換データ取得部15と、判定部16と、記憶装置としてハードディスク1070とを備え、形態素解析器31及び仮名漢字変換器32の出力と、判定結果をハードディスク1070上の分析DB(データベース)21に記憶する。以下、本発明の実施形態について、図に従って説明する。
【0021】
図1は、本発明の機能を構成する構成部と、構成部が処理するデータとの関連を示す図である。
【0022】
形態素用出力部12は、テキストデータを取得し、形態素解析器31に出力する。テキストデータは、通信I/F1040を介して、取得することができ、試験用に作成されたテキストデータだけではなく、現実に使用されているテキストデータでも利用することができる。例えば、インターネット上の利用可能な、ニュース、文献、公報等のテキストデータや、利用可能な掲示板やブログのテキストデータであることもできる。現実に使用されているテキストデータを利用することにより、現実的な試験を行うことができ、使用頻度に適合した、タイムリーな機能向上を行うことができる。
【0023】
読みデータ取得部13は、形態素解析器31の出力である読みデータを取得し、ハードディスク1070に記憶する。形態素解析器31は、テキストデータを解析し、形態素に分解し、分解して得た漢字とともに、その漢字の読みを読みデータとして出力する。読みデータ取得部13は、出力された漢字を、その読みデータとともに、分析DB21の「元の漢字仮名データ」と、「読みデータ」として、ハードディスク1070に記憶する(後述する図3参照)。
【0024】
読みデータ出力部14は、読みデータを仮名漢字変換器32に出力する。この仮名漢字変換器32に出力する読みデータは、読みデータと対応した漢字データが、元の漢字仮名データとして記憶されている。
【0025】
変換データ取得部15は、仮名漢字変換器32の出力である仮名漢字変換データを取得し、分析DB21の「仮名漢字変換データ」として、元の漢字仮名データ及び読みデータと関連付けてハードディスク1070に記憶する(後述する図4参照)。
【0026】
判定部16は、元の漢字仮名データと、変換された仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を分析DB21の「全体判定」として、元の漢字仮名データ、読みデータ、仮名漢字変換データと関連付けてハードディスク1070に記憶する(後述する図5参照)。
【0027】
図2は、本発明のハードウェア構成の一例を示す図である。エラー情報収集装置10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU_A1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、ハードディスク1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。
【0028】
BIOS1060は、エラー情報収集装置10の起動時にCPU1010が実行するブートプログラムや、ハードウェアに依存するプログラム等を格納する。
【0029】
ハードディスク1070は、エラー情報収集装置10が機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、さらに必要に応じて各種データベースを構成可能である。
【0030】
表示装置1022は、ユーザにデータの入力を受付ける画面を表示したり、エラー情報収集装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
【0031】
ここで、入力手段は、ユーザによる入力の受付けを行うものであり、キーボード及びマウス1100等により構成する。
【0032】
また、通信I/F1040は、エラー情報収集装置10を専用ネットワーク又は公共ネットワークを介して形態素解析器31、仮名漢字変換器32、及びテキストデータ出力装置等と接続できるようにするためのネットワーク・アダプタである。
【0033】
図3は、本発明の読みデータ取得部13が取得データを分析DB21に記憶した状態を示す図である。図は、読みデータ取得部13が、形態素解析器31の出力である形態素に分解した元の漢字仮名データ及び読みデータを取得し、分析DB21に記憶したことを示している。分析DB21に元の漢字仮名データ及び読みデータとして、例えば、「形態素」と「けいたいもと」、「漢字変換」と「かんじへんかん」、「情報収集」と「じょうほうしゅうしゅう」を記憶したことを示している。分析DB21は、「元の漢字仮名データ」、「読みデータ」、「仮名漢字変換データ」、「全体判定」、及び「読みの判定」のレコードを含んでいる。
【0034】
図4は、本発明の変換データ取得部15が取得データを分析DB21に記憶した状態を示す図である。図は、変換データ取得部15が、仮名漢字変換器32の出力である仮名漢字変換データを取得し、分析DB21に記憶したことを示している。分析DB21の「仮名漢字変換データ」として、例えば、「形態基」、「漢字返還」、「情報収集」を記憶したことを示している。
【0035】
図5は、本発明の判定部16が判定結果を分析DB21に記憶した状態を示す図である。図は、判定部16が、元の漢字仮名データと、仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を分析DB21の「全体判定」に記憶したことを示している。分析DB21の「全体判定」として、判定部16が、「形態素」と「形態基」とを比較し同一ではないと判断したことを「×」で、「漢字変換」と「漢字返還」とを比較し同一ではないと判断したことを「×」で、「情報収集」と「情報収集」とを比較し同一と判断したことを「○」で、示している。
【0036】
図6は、本発明の処理内容を示すフローチャートである。
【0037】
まず、ステップS101において、CPU1010は、テキストデータを取得する。具体的には、通信I/F1040を介してテキストデータを受信し、ハードディスク1070に記憶する。
【0038】
次に、ステップS102において、CPU1010は、テキストデータを形態素解析器31へ出力する。具体的には、通信I/F1040を介して形態素解析器31にテキストデータを送信する。
【0039】
次に、ステップS103において、CPU1010は、形態素解析器31の出力を入力し、記憶する。具体的には、通信I/F1040を介して取得した形態素解析器31の出力である元の漢字仮名データ、及び読みデータを受信し、ハードディスク1070上の分析DB21の「元の漢字仮名データ」及び「読みデータ」に記憶する(図3参照)。
【0040】
次に、ステップS104において、CPU1010は、読みデータを仮名漢字変換器32に出力する。具体的には、分析DB21から、元の漢字仮名データに対応した読みデータを取得し、通信I/F1040を介して仮名漢字変換器32に送信する。
【0041】
次に、ステップS105において、CPU1010は、変換データを入力する。具体的には、通信I/F1040を介して、仮名漢字変換器32が出力した仮名漢字変換データを受信し、ハードディスク1070上の分析DB21の「仮名漢字変換データ」に記憶する(図4参照)。
【0042】
次に、ステップS106において、CPU1010は、データを比較し判定する。具体的には、元の漢字仮名データと、仮名漢字変換データとを比較し、同一か否かを判断し、判定結果をハードディスク1070上の分析DB21の「全体判定」に記憶する(図5参照)。その後処理を終了する。
【0043】
図7は、本発明の全体判定がエラーの場合の一覧表を示す図である。図は、エラー情報収集装置10により、全体判定がエラーである場合の、元の漢字仮名データと、読みデータと、仮名漢字変換データとが一覧表として得られることを示している。
【0044】
[実施例2]
実施例2は、エラー情報収集装置10において、エラー情報を収集し、全体判定がエラーの場合についてのみ、読みデータが正常であるか否かの判定を受付け、受付けた情報を記憶する。
【0045】
図8は、実施例2における、エラー情報収集装置10の処理内容を示すフローチャートである。
【0046】
ステップS201からステップS206は、実施例1のステップS101からステップS106と同様であるので省略する。
【0047】
次に、ステップS207において、CPU1010は、全体判定がエラーか否かを判断する。具体的には、分析DB21の「全体判定」のデータを判断し、エラーでないと判断した場合には、処理を終了する。
【0048】
次に、ステップS208において、CPU1010は、読みデータの判定の受付けを行う。具体的には、元の漢字仮名データと、読みデータと、仮名漢字変換データとを表示し、操作者の判断を受付け、受付けた情報を分析DB21の「読みの判定」に記憶する(後述する図9参照)。その後、処理を終了する。
【0049】
図9は、実施例2において、読みデータの判定を受付け、受付けた情報を分析DB21に記憶した状態を示す図である。例えば、元の漢字仮名データが「形態素」、その読みデータが「けいたいもと」である場合には、読みデータの誤りであるから形態素解析器31のエラーとして「K」を、元の漢字仮名データが「漢字変換」、その読みデータが「かんじへんかん」である場合には、読みデータは正しいから仮名漢字変換器32のエラーとして「H」を、受付け、記憶したことを示している。
【0050】
[実施例3]
実施例3は、エラー情報収集装置10において、判定結果を分析蓄積DBに蓄積し、所定の条件により新語として辞書登録を行う。分析蓄積DBは、ハードディスク1070上に記憶され、本発明が収集したエラー情報を蓄積している。分析蓄積DBは、「元の漢字仮名データ」、「読みデータ」、「仮名漢字変換データ」、「全体判定」、「読みの判定」、及び「頻度」のレコードを含んでいる。
【0051】
図10は、実施例3における、エラー情報収集装置10の処理内容を示すフローチャートである。
【0052】
まず、ステップS301において、元の漢字仮名データと、読みデータと、仮名漢字変換データと、全体判定とを取得する。具体的には、この処理は、実施例1のステップS101からステップS106と同様である。
【0053】
次に、ステップS302において、CPU1010は、全体判定がエラーか否かを判断する。具体的には、分析DB21の「全体判定」のデータを判断し、エラーでないと判断した場合には、処理を終了する。
【0054】
次に、ステップS303において、CPU1010は、同じエラーか否かを判断する。具体的には、元の漢字仮名データ、読みデータ、及び仮名漢字変換データと、分析蓄積DBの「元の漢字仮名データ」、「読みデータ」、及び「仮名漢字変換データ」とを比較し、同一レコードがあるか否かを判断する。同一のレコードはないと判断した場合には、ステップS307へ行く。
【0055】
次に、ステップS304において、CPU1010は、頻度をカウントする。具体的には、分析蓄積DBの同一のレコードに対応する「頻度」をカウントする。
【0056】
次に、ステップS305において、CPU1010は、分析蓄積DBの「頻度」は所定回数以上か否かを判断する。具体的には、分析蓄積DBの「頻度」の値と、予め設定されている所定の回数値とを比較し、分析蓄積DBの「頻度」の値が所定の回数値を超えていないと判断した場合には処理を終了する。
【0057】
次に、ステップS306において、CPU1010は、新語として辞書登録を行う。具体的には、元の漢字仮名データ、及び読みデータを辞書に登録し、登録した元の漢字仮名データ、及び読みデータのレコードは分析蓄積DB上から削除する。その後、処理を終了する。
【0058】
ステップS307において、CPU1010は、分析蓄積DBに記憶する。具体的には、元の漢字仮名データと、読みデータと、仮名漢字変換データとを分析蓄積DBの「元の漢字仮名データ」、「読みデータ」、及び「仮名漢字変換データ」に記憶する。
【0059】
次に、ステップS308において、CPU1010は、読みデータの判定の受付けを行う。具体的には、元の漢字仮名データと、読みデータと、仮名漢字変換データとを表示し、操作者の判断を受付け、受付けた情報を分析蓄積DBの該当するレコードの「読みの判定」に記憶する(後述する図11参照)。その後、処理を終了する。
【0060】
図11は、実施例3における、分析蓄積DBを示す図である。図は、分析蓄積DBとして、全体判定がエラーの場合のデータを蓄積し、同一エラーについては「頻度」がカウントされていることを示している。
【0061】
本実施例によれば、エラー情報収集装置10は、テキストデータを形態素解析器31に出力し、形態素解析器31の出力である元の漢字仮名データ及び読みデータを分析DB21に記憶する。さらに、元の漢字仮名データが記憶されたその読みデータを仮名漢字変換器32に出力し、仮名漢字変換データを分析DB21に記憶する。そして、元の漢字仮名データと仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を分析DB21に記憶する。同一と判定した場合は、形態素解析器31の解析と、仮名漢字変換器32の変換とが正常に機能していることを示す確率が高い。異なると判定した場合には、形態素解析器31の解析が異常の場合と、仮名漢字変換器32の変換が異常の場合がある。この異常の判定があったテキストデータについてのみ目視確認を行えば、形態素解析器31の解析異常か、仮名漢字変換器32の変換異常かが判明する。また、分析蓄積DBに判定結果を蓄積することにより、新しい語を検出し辞書に登録することができる。したがって、大量のテスト結果の中から、形態素解析器31及び仮名漢字変換器32のエラー情報を効率よく収集することができ、その結果を利用すれば、辞書に新しい語を自動的に追加登録することができ、形態素解析器31及び仮名漢字変換器32の機能向上として文の区切りロジックの改善等に寄与することもできる。
【0062】
なお、本発明の実施例2では、読みデータの判定をエラー情報の収集ごとに受付けるとしたが、エラー情報収集後に一括して受付けることもできる。エラー情報を効率よく収集することができ、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【0063】
なお、本発明の実施例3では、頻度が所定の回数を超えた場合に、新しい語として辞書に登録するとしたが、辞書の登録漢字の読みデータの優先順位を変更することもできる。現実に使用されているテキストデータを用いた結果を利用して、辞書を更新し、形態素解析器31及び仮名漢字変換器32の機能向上に寄与することができる。
【0064】
なお、本発明の実施形態では、実効方法については触れなかったが、定時に自動実行することができる。エラー情報を効率よく収集することができ、形態素解析器及び仮名漢字変換器の機能向上に寄与することができる。
【0065】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
【図面の簡単な説明】
【0066】
【図1】本発明の機能を構成する構成部と、構成部が処理するデータとの関連を示す図である。
【図2】本発明のハードウェア構成の一例を示す図である。
【図3】本発明の読みデータ取得部13が取得データを分析DB21に記憶した状態を示す図である。
【図4】本発明の変換データ取得部15が取得データを分析DB21に記憶した状態を示す図である。
【図5】本発明の判定部16が判定結果を分析DB21に記憶した状態を示す図である。
【図6】本発明の処理内容を示すフローチャートである。
【図7】本発明の全体判定がエラーの場合の一覧表を示す図である。
【図8】実施例2における、エラー情報収集装置10の処理内容を示すフローチャートである。
【図9】実施例2において、読みデータの判定を受付け、受付けた情報を分析DB21に記憶した状態を示す図である。
【図10】実施例3における、エラー情報収集装置10の処理内容を示すフローチャートである。
【図11】実施例3における、分析蓄積DBを示す図である。
【符号の説明】
【0067】
10 エラー情報収集装置
12 形態素用出力部
13 読みデータ取得部
14 読みデータ出力部
15 変換データ取得部
16 判定部
21 分析DB
31 形態素解析器
32 仮名漢字変換器
1010 CPU
1012 CPU_A
1022 表示装置
1040 通信I/F
1050 メインメモリ
1060 BIOS
1070 ハードディスク
1100 キーボード及びマウス
【特許請求の範囲】
【請求項1】
テキストデータ処理に関するエラー情報を収集するエラー情報収集装置であって、
テキストデータを取得し、形態素に分解する形態素解析器に出力する形態素用出力部と、
前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶する読みデータ取得部と、
漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力する読みデータ出力部と、
前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶する変換データ取得部と、
前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶する判定部と、
を備えることを特徴とするエラー情報収集装置。
【請求項2】
請求項1に記載のエラー情報収集装置であって、
前記判定部は、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一でないと判定した場合にのみ、操作者の入力を受付けて、入力された情報を記憶装置に記憶することを特徴とするエラー情報収集装置。
【請求項3】
テキストデータ処理に関するエラー情報を収集する方法であって、
テキストデータを取得し、形態素に分解する形態素解析器に出力するステップと、
前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶するステップと、
漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力するステップと、
前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶するステップと、
前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶するステップと、
を含む方法。
【請求項4】
テキストデータ処理に関するエラー情報を収集するコンピュータ・プログラムであって、
テキストデータを取得し、形態素に分解する形態素解析器に出力するステップと、
前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶するステップと、
漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力するステップと、
前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶するステップと、
前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶するステップと、
をコンピュータに実行させるコンピュータ・プログラム。
【請求項1】
テキストデータ処理に関するエラー情報を収集するエラー情報収集装置であって、
テキストデータを取得し、形態素に分解する形態素解析器に出力する形態素用出力部と、
前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶する読みデータ取得部と、
漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力する読みデータ出力部と、
前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶する変換データ取得部と、
前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶する判定部と、
を備えることを特徴とするエラー情報収集装置。
【請求項2】
請求項1に記載のエラー情報収集装置であって、
前記判定部は、前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一でないと判定した場合にのみ、操作者の入力を受付けて、入力された情報を記憶装置に記憶することを特徴とするエラー情報収集装置。
【請求項3】
テキストデータ処理に関するエラー情報を収集する方法であって、
テキストデータを取得し、形態素に分解する形態素解析器に出力するステップと、
前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶するステップと、
漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力するステップと、
前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶するステップと、
前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶するステップと、
を含む方法。
【請求項4】
テキストデータ処理に関するエラー情報を収集するコンピュータ・プログラムであって、
テキストデータを取得し、形態素に分解する形態素解析器に出力するステップと、
前記形態素解析器の出力である、少なくとも1つの漢字データを含む元の漢字仮名データ及び読みデータを入力し、記憶装置に記憶するステップと、
漢字に変換する仮名漢字変換器に、前記元の漢字仮名データが記憶された前記読みデータを出力するステップと、
前記仮名漢字変換器の出力である前記読みデータの仮名漢字変換データを入力し、前記記憶装置に記憶するステップと、
前記元の漢字仮名データと前記仮名漢字変換データとを比較し、同一か否かを判定し、判定結果を前記記憶装置に記憶するステップと、
をコンピュータに実行させるコンピュータ・プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2008−293118(P2008−293118A)
【公開日】平成20年12月4日(2008.12.4)
【国際特許分類】
【出願番号】特願2007−135690(P2007−135690)
【出願日】平成19年5月22日(2007.5.22)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】
【公開日】平成20年12月4日(2008.12.4)
【国際特許分類】
【出願日】平成19年5月22日(2007.5.22)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】
[ Back to top ]