説明

文字データを置換する方法

【課題】誤読取される可能性のある文字を正字に置換する。
【解決手段】文字データを置換する方法は、OCR(光学式文字読取装置)にて文字認識された文書データに対して、第1置換テーブル及び第2置換テーブルに登録した文字データと照合させ、文書に含まれる類似単語を正単語または類似文字と識別可能なマークに自動置換し、編集用データとして出力するものである。類似文字と識別可能なマークを正単語に変換した履歴は、データ蓄積部の履歴テーブルに蓄積でき、第1置換テーブルの類似単語データとして自動登録することが可能である文字データを置換する方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、OCR(光学式文字読取装置)にて文字認識された文字データを加工する作業において、誤読取される可能性のある文字(誤読取される可能性のある文字とはカタカナの「カ」と漢字の「力(ちから)」や、カタカナの「ロ」と漢字の「口(くち)」等がそれに相当する。)を正字に置換する方法に関する。
【背景技術】
【0002】
デジタル情報技術が普及した現在であるが、紙原稿は情報伝達の媒体として広く使われている。紙原稿にて入手した情報を簡易にデータ化する方法として、OCR(光学式文字読取装置)で文字データを認識し、データ化する方法が一般的である。OCR(光学式文字読取装置)の読取解像度の向上や画像解析技術の発達により、高い認識精度を得られるようになっているが、誤読取される可能性のある文字(誤読取される可能性のある文字とはカタカナの「カ」と漢字の「力(ちから)」や、カタカナの「ロ」と漢字の「口(くち)」等がそれに相当する。)の識別に至っては、依然誤りが多く、人手を介しての修正に頼らざるを得ない。誤って読み取られた文字の修正のため、一時的に「誤読取される可能性のある文字と認識できるマーク」に変換させた後、事前に用意した類似単語リストを参照し、手入力で正字に差し替える作業を行ってきた。
【0003】
OCR(光学式文字読取装置)での認識後の文書データに対して高精度の修正を施し、後の手作業修正の負荷を軽減する方法として、OCR(光学式文字読取装置)の認識結果に形態素解析を適用し、該当文書の属するカテゴリを推定し、その推定されたカテゴリに係る辞書を優先的に用いて、文書中の用語誤りの修正を行う手法(特許文献1参照)がある。
【0004】
類似した文字の置換としては、日本語漢字かな混じりの文章の形態素解析を行い、分析に必要な単位で分割し、類似文字に相当する「ー(音引き)」や「−(マイナス)」、「-(ハイフン)」を置換する文字置換装置(特許文献2参照)がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2008―225695号公報
【特許文献2】特許第3407293号
【発明の概要】
【発明が解決しようとする課題】
【0006】
書籍や冊子あるいは新聞といった紙媒体を使って世の中に提供される文字情報は、その文字情報が法的な効力を持つ場合や文字情報を読む時、読者に混乱を招いてはならない場合がある。それらの場合は、文字情報に高い正確性が求められ、誤植を含んだままの状態で提供されるようなことがあってはならない。そのため、編集する側で文字データを作成する作業では、誤植箇所数を可能な限り無くす努力をしなければならない。一方、紙媒体による原稿の文字情報から編集用データへ加工及び作成するといった編集工程においては、多大な時間を要する手入力による編集作業の省力化を目的に、OCR(光学式文字読取装置)を利用し、紙媒体の文字情報を読み取って文字データに加工することが多い。従来、OCR(光学式文字読取装置)によって紙原稿から文字データに処理した際に、紙原稿内の文字とは違う文字に誤って処理してしまう場合があるため、OCR(光学式文字読取装置)によって取得された文字データに対しては編集画面上において目視による全文校正を行っている。誤って処理されてしまったとみられる文字が発見された場合は、手入力により正字に差し替えていた。これら編集する工程を経た後、作成された編集データと原稿との整合性を確認するため、編集データとして出力された紙媒体と原稿同士とを突き合わせて目視比較する作業を行うが、この作業の中では、文章を読んで文字或いは単語の意味を考えながら文字を見比べるのではなく、一文字一文字の字形の差だけを比較する作業であり、正字と似たような字形の誤字が含まれている状態の文章であると、編集工程における誤植箇所や見落とし箇所が発見し難く、確認作業に要する時間も多大に掛かってしまう。
本発明が解決すべき課題は、人手を介して行われているこれら編集と校正に要する時間及び作業に対する負荷を軽減させ、誤っていない箇所を修正してしまうことや誤り箇所を見落としてしまうなどのヒューマンエラーを防止することにある。このためには、プログラミング技術を活用したシステムによって編集データ上の誤読取された文字を判断し、誤読取された文字を正字へ自動で置き換える処理を行うなどの、安全で迅速に、且つ確実な方法が望まれる。
【0007】
特許文献1では、使用するカテゴリ(分類・分野)分け及びカテゴリに係る辞書を作成者の恣意的な分類に基づいて生成可能であるとしている。すなわち、扱う情報によってカテゴリ及びカテゴリに係る辞書は果てしなく存在するということである。特殊な業務用途の文書を精度良く校正するために使用するのであれば、その分野に適合した特殊辞書を定義することで利用価値は上がるが、一般的(新聞、一般書籍等)に使用する場合、そのデータのメンテナンスには莫大な時間と労力が必要であり、その整備や保守に大きな問題がある。
【0008】
特許文献2において、効率良くその正確性が保てる条件として、数式、住所、電話番号、かな標記の単語及び外国語の単語等を少なくとも有している特定の規則を持つ文章に限られている。一般的に紙原稿で入稿する文書はこの限りではなく、類似した文字を含む単語の精度を保つための汎用性は低いと考えられる。
【0009】
本発明は、上記課題の解決を目的とするものであり、OCR(光学式文字読取装置)によって読み取られた紙原稿の文字データを編集用データに加工する作業において、誤読取される可能性のある文字を正字に置換する方法を提供することにある。
【課題を解決するための手段】
【0010】
データ記憶部及びデータ生成部を備える文字データ置換システムによって文字データを置換する方法において、前記データ記憶部は、第1置換テーブルと第2置換テーブル及び履歴テーブルとを備えており、前記データ生成部は、文字が記載された画像データを取得するデータ取得手段と、前記データ取得手段により取得した文字データを読み取る光学式文字読取手段と、前記光学式文字読取手段により読み取られたデータに誤読取される可能性のある文字を含んだ単語が存在しているか否かを検索し、存在した場合に前記第1置換テーブルに登録された単語に置換する第1置換手段と、前記第1置換手段において置換されなかった誤読取される可能性のある文字を検索し、前記第2置換処理テーブルの類似文字リストと照合し誤読取される可能性のある文字と認識できるマークに置換する第2置換手段と、前記マークに置換された文字を含むデータを正単語に置換し、前記置換処理されたデータを前記履歴テーブルに格納するとともに、編集用データとして生成する編集用データ生成手段にて文字データを置換する方法である。
【発明の効果】
【0011】
誤読取される可能性のある文字を検出し、プログラム処理によって一時的に誤読取される可能性のある文字と認識できるマークに変換した後、当該箇所を手入力によって差し替えを行った場合の時間と、本願発明による文字データ置換方法を用いた場合、編集作業の効率化による時間短縮が可能となる。また、誰もが扱えるように利便性を考慮したことにより、編集工程におけるヒューマンエラーを未然に防ぐこととなり、これまでよりも信頼及び精度の高い編集データが得られる。
【0012】
修正作業に必要な類似単語リストの作成及びメンテナンスには、既存データ及び新たに発生した誤読取される可能性のある文字を含む文字列パターンの単語を各々管理し、新たに発生した単語の発生頻度及び発生パターンを把握する必要がある。しかし、人間が発生頻度及び発生パターンを把握し集計するには、ある程度の時間が必要であることから、タイムリーにデータの更新を行い、その精度を保ち続けることは難しかった。しかし、新たに発生した誤読取される可能性のある文字を含む文字列パターンの単語を履歴テーブルに都度、蓄積させてデータ管理を行っていくことにより、任意の期間及びタイミングで集計及び加工が可能になり、リストの精度が保てることにより、文字データの置換処理の精度も更に向上していく。
【図面の簡単な説明】
【0013】
【図1】本発明の文字データ置換システムを示すブロック図である。
【図2】文字データ置換方法のフローチャート図である。
【図3】本発明実施形態の流れを示すフローチャート図である。
【図4】第1置換テーブルの類似単語リストを示す図である。
【図5】第1置換テーブルに登録されている単語が読み取られた場合の置換例を示す図である。
【図6】第1置換テーブルデータ(1)の作成方法を示す図である。
【図7】第1置換テーブルのデータ(2)の作成方法を示す図である。
【図8】類似文字リストを示す図である。
【図9】第1置換テーブルに登録されていない単語が読み取られた場合の置換例を示す図である。
【発明を実施するための形態】
【0014】
本発明の実施形態について図面を用いて説明する。しかしながら、本発明は、以下に述べる形態に限定されるものではなく、特許請求の範囲記載における技術的思想の範囲内であれば、その他色々な形態が実施可能である。
【0015】
本発明の文字データ置換システム1のブロック図を図1に示す。図1に示すように文字データ置換システム1は、データ生成部2と、データ記憶部3とを備えてなる。さらに、文字データ置換システム1は、図1の一点鎖線内に示すように更新データ生成部を備えていてもよい。
【0016】
図1に示すようにデータ生成部2はデータ取得手段101、光学式文字読取手段102、第1置換手段103、第2置換手段104及び編集データ生成手段105を備えてなる。データ取得手段101は紙原稿からスキャナ、デジタルカメラ等によって画像データ301を取得する。社外より入手した電子画像データであっても問題はない。画像データ301の保存形式は特に限定されることなく、一般的な画像ファイルの保存形式であるJPEG、BMP、TIFF等に代表される形式である。また、画像データ301は、社内内部又は社外からネットワークを介して取得してもよい。
【0017】
データ生成部2の光学式文字読取手段102は、データ取得手段101によって取得された画像データ301を文書データ302に変換する。光学式文字読取手段102は、一般的な光学式文字読取ソフトウェア(OCRソフト)であれば、特に限定されることない。データ取得手段101によって取得された画像データ301は文字情報以外の不要な画像情報を取り除くための処理を行うことが好ましい。
【0018】
データ生成部2の第1置換手段103は、光学式文字読取手段に102より読み取られた文書データ302に誤読取される可能性のある文字を含んだ単語が存在しているか否かを検索し、誤読取される可能性のある文字を含んだ単語が存在している場合、第1置換テーブル201に登録された類似単語データに置換する。図5に誤読取される可能性のある文字を含む単語が第1置換テーブルに登録されている場合の処理例を示す。
「人口密度」という単語には誤読取される可能性のある文字「口(くち)」が含まれている。第1置換テーブルに「人口密度(じんこうみつど)」と「人ロ密度(じんろみつど)」の2つの単語が登録されており、このいずれかの単語が読み取られた場合、正しい単語である「人口密度(じんこうみつど)」に自動変換される。図6にて第1置換テーブルで使用される類似単語データの作成方法について説明する。
予め類似単語を登録する方法として、類似文字前後における文字種の並びなどの特徴から類似単語として想定できることに着目することで、多くの類似単語リストが作成できる方法がある。その方法として、
(a)漢字と漢字の間にカタカナの入る単語はない。例えば、「重力加速度」のように、漢字の「力(ちから)」がカタカナの「カ」であるような単語を指す。
(b)カタカナとカタカナの間に漢字の入る単語はない。例えば「デジタル」の「タ」が漢字の「夕(ゆう)」であるような単語を指す。
(c)漢字の次の文字がカタカナの「ン」で始まる単語はない。例えば、「タンパク」のように「タ」が漢字の「夕(ゆう)」であるような単語を指す。
(d) 漢字の次の文字が促音「っ」、拗音「ゃ・ゅ・ょ」や音引き「ー」で始まる単語はない。例えば、「ニュー」の「ニ」が漢字の「二(に)」であったり、「ローマ」の「ロ」が漢字の「口(くち)」であるような単語を指す。
(e)一般的に使用される単語に類似文字が含まれる単語はない。例えば、「症候群」の「候」が「侯」であるような単語を指す。
以上のように、誤読取される可能性のある文字を含む単語の文字列パターンを予測することにより類似単語データを充実させることが可能である。
もう1つの例として、例えば、「オペレータ」という単語の場合、カタカナの「ペ」には、ひらながの「ぺ」、カタカナの「ベ」、ひらがなの「べ」の3つの形の似た文字(以下、「へ・ぺ・べ」、「ナ・メ」、「ン・ソ」等のOCR(光学式文字読取装置)にて読み違えやすい文字を類型文字と記載する)があり、音引き「ー」の場合マイナスに類型しており、カタカナの「タ」は漢字の「夕(ゆう)」に類似していることから、「オペレータ」という単語の類型文字パターンは、全部で15パターンあることを整理することにより類似文字リストの更なる充実を図ることが可能である。
【0019】
データ生成部2の第2置換手段104は、第1置換手段103で置換されなかった誤読取される可能性のある文字を検索し、第2置換処理テーブル202の類似文字リストと照合し誤読取される可能性のある文字と認識できるマークに置換する。発明を実施するための形態では、誤読取される可能性のある文字と認識できるマークに「〓(ゲタマーク)」を使用した例を示す。図9では、第1置換手段で置換されなかった誤読取される可能性のある文字の、第2置換手段での処理例を示す。「人口統計」という第1置換テーブル103に登録されていない単語が読み取られた場合、誤読取される可能性のある文字「ロ」または「口」は、それと認識できるマーク「〓」に一時的に置換される。「〓」マークに置換された文字を含む単語は、辞書テーブルから正しい単語「人口統計」を選択し置換することが可能である。さらに、第2置換手段104において作成されたデータはデータ記憶部3の履歴テーブル204に格納される。「〓」マークに置換された文字を含む単語は手入力にて正しい単語に変換することも可能である。
【0020】
データ生成部2の編集用データ生成手段105では、第1置換手段103及び第2置換手段104に置換処理されたデータ303から編集用テキストデータ304を生成する。生成された編集データ304は市販のソフトウェア等でスペルチェックを行い出力することが好ましい。
【0021】
図1に示すようにデータ記憶部3は、第1置換テーブル201、第2置換テーブル202及び履歴テーブル203からなる。第1置換テーブル201、第2置換テーブル202及び履歴テーブル203は一般的なコンピュータのハードディスク等に格納される。
【0022】
データ記憶部3の第1置換テーブル201は類似単語データを保持しており、任意の期間及びタイミングで、履歴テーブル203に蓄積されたデータを流用し類似単語データを更新することが可能である。
【0023】
データ記憶部3の第2置換テーブル202は、誤読取される可能性のある文字を登録した類似文字リストと辞書テーブル205を保持している。この実施例では、第2置換テーブル202に、辞書テーブル205が付随している例を示すが、それに限定されることはない。
【0024】
データ記憶部3の履歴テーブル204は、置換処理を行ったデータを格納することが可能である。
【0025】
図1に示すように更新データ生成部4は、更新データ作成手段106と置換テーブル更新手段107からなる。
【0026】
更新データ生成部4の更新データ作成手段106は履歴テーブル204に格納されたデータをテキストデータに変換しデータの更新及び加工を行う。
【0027】
更新データ生成部4の置換テーブル更新手段107は、更新データ作成手段106で生成されたデータを使用し、第1置換テーブルに保持された類似単語データの更新処理を行う。
【0028】
文字データ置換方法のフローチャートについては図2に示す。
【0029】
第1の工程であるデータ取得手段F101によって、文字が記載された画像データを取得する。
【0030】
第2の工程は、第1の工程で得られた画像データを光学式文字読取手段F102によって文字認識された文書データ(テキストデータ)に変換する。
【0031】
第3の工程は、第1置換手段F103であり、光学式文字読取手段F102によって読み取られたデータに誤読取される可能性のある文字を含む単語が存在しているか検索し、誤読取される可能性のある文字を含む単語が存在している場合、第1置換テーブルに登録された単語を読み出し、登録された正しい単語に置換し文字データを生成する。
【0032】
第4の工程は、第2置換手段F104であり、記憶手段に保存された光学式文字読取手段によって誤読取される可能性のある文字が登録された第2置換テーブル類似文字リストから誤読取される可能性のある文字を読み出し、第3の工程で得られた正しい単語に変換された単語データ以外の第1置換文字データに対して、誤読取される可能性のある文字が存在するか否かを検索し、存在した場合に任意の誤読取される可能性のある文字と認識できるマークに置換する第2置換文字データを生成する。
【0033】
第5の工程は、第4の工程で生成された第2置換文字データを編集用データ生成手段F105によって、編集用データとして生成する。編集用データ生成手段F105は、あらかじめ記憶部に登録されている辞書テーブルを読み出し、任意の誤読取される可能性のある文字と認識できるマークを含む単語を、正しい単語に置換して編集用データとして生成する。
【0034】
第1置換テーブルF103は、データ蓄積手段F106によって、第1置換テーブルF103に登録されていない誤読取される可能性のある文字を含む単語で、編集用データ生成手段F105にて、任意の誤読取される可能性のある文字と認識できるマークを、正しい単語に置換した単語と、正しい単語に置換される前の単語を履歴テーブルに蓄積し、蓄積された更新データを第1置換テーブルF103に更新することができる。
【0035】
上記に示した文字データ置換方法をコンピュータによって実行可能なプログラムが記録された記録媒体とすることができる。
【符号の説明】
【0036】
101 データ取得手段
102 光学式文字読取手段
103 第1置換手段
104 第2置換手段
105 編集データ生成手段
106 更新データ生成手段
107 置換テーブル更新手段
201 第1置換テーブル
202 第2置換テーブル
203 履歴テーブル
301 画像データ
302 文書データ
303 置換済データ
304 編集データ
305 更新データ
306 CSVデータ
S101 紙原稿デジタル変換
S102 OCR読取
S103 文字存在チェック
S104 登録済単語か?
S105 正単語へ自動変換
S106 スペルチェック
S107 編集用テキストデータへ変換
S108 最終文字チェック
S109 編集用データ出力
S201 文字認識「〓」マークへ変換
S202 正単語に修正
S203 置換処理データを履歴テーブルに蓄積
S204 更新用テキストデータ作成
S205 更新ファイルの作成
S206 第1置換テーブルデータ更新
S111 第1置換テーブル
S112 第2置換テーブル
S113 データ記憶部履歴テーブル
S114 類似単語データ追加/修正
S115 類似文字リスト
S116 辞書テーブル

【特許請求の範囲】
【請求項1】
データ記憶部及びデータ生成部を備える文字データ置換システムによって文字データを置換する方法において、
前記データ記憶部は、
第1置換テーブルと第2置換テーブル及び履歴テーブルとを備えており、
前記データ生成部は、
文字が記載された画像データを取得するデータ取得手段と、
前記データ取得手段により取得した文字データを読み取る光学式文字読取手段と、
前記光学式文字読取手段により読み取られたデータに誤読取される可能性のある文字を含んだ単語が存在しているか否かを検索し、存在した場合に前記第1置換テーブルに登録された単語に置換する第1置換手段と、
前記第1置換手段において置換されなかった誤読取される可能性のある文字を検索し、 前記第2置換処理テーブルの類似文字リストと照合し誤読取される可能性のある文字と 認識できるマークに置換する第2置換手段と、
前記マークに置換された文字を含むデータを正単語に置換し、前記置換処理されたデータを前記履歴テーブルに格納するとともに、編集用データとして生成する編集用データ生成手段にて文字データを置換する方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate