説明

文字認識結果表示装置

【課題】
文字認識装置による文字認識結果の確認を行う際の負担を軽減することのできる文字認識結果表示装置を提供する。
【解決手段】
帳票の漢字記載部に記載した漢字および前記帳票の読み仮名記載部に記載した読み仮名を読み取り文字認識を行う文字認識部12と、
文字認識部が認識した前記漢字および読み仮名を表示部に表示し、認識結果の修正情報を入出力する認識結果制御部13と、
読み仮名記載部に記載した読み仮名の認識結果、漢字記載部に記載した漢字の認識結果、および漢字記載部に記載した漢字の読み仮名の文字数を格納した区切りテーブルと、
前記漢字記載部に記載した漢字の読み仮名の文字数にしたがって、読み仮名記載部に記載した読み仮名の認識結果の文字列に区切り文字を挿入する区切り検出部18を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文字認識結果表示装置に係り、特に、文字認識装置による文字認識結果の確認を行う際の負担を軽減することのできる文字認識結果表示装置に関する。
【背景技術】
【0002】
帳票において、例えば住所を記載する箇所などには、漢字で記載する箇所(以降漢字部)とその読み仮名を片仮名または平仮名にて記載する箇所(以降読み仮名部)との両方を備えている場合がある。この場合、通常漢字部については単語と単語の区切りが明確化されている場合が多く、例えば住所の場合、漢字で記載する箇所は、都道府県名、市町村(区、郡)名等ごとに帳票自体に明確な区切りを設けている場合が多い。また、漢字であれば帳票自体に明確な区切りが設けられていない場合においても「都、道、府、県、市、町、村、区、郡」といった漢字をキーに内部処理にて区切りを設けることが可能である。このため漢字部を自動文字認識処理により文字認識をおこない、その結果を表示する場合、特定の区切り単位での表示が可能となる。
【0003】
文字認識結果を目視で確認する作業者は、文字認識結果の表示文字と実際に記載されている文字とを比較する際、文字認識結果の表示箇所から視線を外すことが多い。視線を外す際には、特定の区切りを目処に視線を外すことにより、再度画面に視線を戻す際の目視再開箇所を簡単に見つけ出すことが可能となる。
【0004】
すなわち、文字列に特定の区切りを設けることは、目視確認作業の効率化において大変有効である。しかし、読み仮名部の場合、漢字部と異なり帳票自体に明確な区切りが設けられている場合は少ない。読み仮名部を設ける目的は、漢字部に記載されている項目の読み方を明確にすることにあり、帳票上の限られたスペースを有効に活用する点を優先し、読み易さや文字認識処理のための区切りの設定は省略されているためである。
【0005】
また、例えば住所の場合、漢字のようにある文字をキーに内部処理にて区切りを設けようとしても「ト、フ、シ、ク」などキーとなる文字が一文字の場合、区切りとしてのキーなのか名称の一部なのか判別が不可能であるため、誤った区切り位置を検出する可能性がある。
【0006】
このような理由から、読み仮名部の文字認識結果は長い文字列のまま表示することとなり、目視確認作業者は長い文字列に対して目視確認をしなければならない。このため、一旦視線を外した場合においては、確認作業を再開する場合、再開箇所の探索に時間を要することとなる。
【0007】
長い文字列に対して区切りを自動的に設ける方法としては、辞書機能を用いて区切る方法が知られている(特許文献1参照)。また、漢字および読み仮名の双方が明記されている場合における確認作業軽減策として、漢字および読み仮名を並列表示し、マッチング処理することにより誤認識の抽出、訂正を容易化する方法が知られている(特許文献2参照)。
【特許文献1】特開平6−223219号公報
【特許文献1】特開2003−331214号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
前記辞書機能を用いて区切りを設ける方法では、漢字とかな文字の混在している文章に対しては、辞書機能を用いることにより単語を簡単に抽出することができる。しかし、かな文字のみで構成されている読み仮名の場合は、1文字の単語も多く、区切り方によっては多数の単語が考えられる。このため外部から何らかの情報(例えば「都道府県名」という情報)を与え、それを処理する機能を用いて単語単位の絞込みをおこなうか、あるいは読み仮名部専用の辞書機能を備える必要があり、処理の複雑化を招くこととなる。
【0009】
また、前述の、漢字部と読み仮名部を並列表示し、マッチング処理をおこなうことにより誤認識抽出をおこなう方法は、漢字、読み仮名が単語単位の場合は比較可能である。しかし、長い読み仮名の場合、文字列を区切ることなくそのまま表示すると目視確認に対する負荷軽減にはならない。なお、読み仮名に限らず、片仮名、平仮名の誤認識の検出方法は複数存在するが、いずれも完全に誤認識を抽出することはできない。このため誤認識抽出失敗による誤登録を起こす可能性は存在する。
【0010】
このように、従来の方法は、長い文字列に対して全ての文字を目視確認することを前提とし、しかもこの作業における作業者の負担軽減という観点で考えた場合、適していないものが多い。
【0011】
本発明は、これらの問題点に鑑みてなされたもので、文字認識装置による文字認識結果の確認を行う際の負担を軽減することのできる文字認識結果表示装置を提供するものである。
【課題を解決するための手段】
【0012】
本発明は上記課題を解決するため、次のような手段を採用した。
【0013】
帳票の漢字記載部に記載した漢字および前記帳票の読み仮名記載部に記載した読み仮名を読み取り文字認識を行う文字認識部と、文字認識部が認識した前記漢字および読み仮名を表示部に表示し、認識結果の修正情報を入出力する認識結果制御部と、読み仮名記載部に記載した読み仮名の認識結果、漢字記載部に記載した漢字の認識結果、および漢字記載部に記載した漢字の読み仮名の文字数を格納した区切りテーブルと、前記漢字記載部に記載した漢字の読み仮名の文字数にしたがって、読み仮名記載部に記載した読み仮名の認識結果の文字列に区切り文字を挿入する区切り検出部を備えた。
【発明の効果】
【0014】
本発明は、以上の構成を備えるため、文字認識装置による文字認識結果の確認を行う際の負担を軽減することができる。
【発明を実施するための最良の形態】
【0015】
以下、最良の実施形態を添付図面を参照しながら説明する。図1は、本発明の実施形態に係る文字認識結果表示装置を説明する図である。文字認識結果表示装置は、帳票等を読み取り、読み取ったイメージの入力をおこなう入力部11、入力部11より入力されたイメージに対し文字認識対象箇所を検出し文字認識をおこなう文字認識部12、文字認識部12により文字認識した結果及び文字認識結果に対する修正情報等の入出力を制御する認識結果制御部13、文字認識結果及び文字認識結果の修正情報を表示する表示部14、文字認識結果の修正情報などを入力する打鍵部15を備える。
【0016】
更に、この文字認識結果表示装置は、入力された文字の仮名漢字変換を制御する文字変換制御部16、文字変換に必要な情報を保持する文字変換用データベース17、認識結果制御部13より得られる文字認識結果に対して文字変換制御部16を使用して区切りを付与し、付与した結果を認識結果制御部13に返す区切り検出部18、認識結果及び修正結果を保存しておく認識結果保存データベース19を備える。
【0017】
図2は、本実施形態で使用することのできる帳票の例を説明する図である。図2に示すように、帳票21は住所を記載する欄を備える。この欄は、片仮名で記載する読み仮名記載部22と漢字で記載する漢字記載部23を備える。漢字記載部23は、特定の単位の区切りが設けられており、この例では都道府県名を記載する都・道・府・県名漢字記載部24、区・市・郡名を記載する区・市・郡名漢字記載部25、区・町・村名を記載する区・町・村名漢字記載部26、およびその他情報を記載するその他情報漢字記載部27を備える。この例では、文字認識部12は、読み仮名記載部22および漢字記載部23に記載された全ての情報を文字認識するものとする。
【0018】
図3は、文字認識結果表示装置の処理を説明する図である。まず、入力部11において帳票のイメージデータを読み込む(ステップ101)。文字認識部12において、読み込んだイメージデータにおける文字認識対象箇所を検出する(ステップ102)。次いで、検出した文字認識対象箇所に記載された文字に対して文字認識をおこなう(ステップ103)。
【0019】
文字認識した結果は認識結果制御部13を介して表示部14に表示する(ステップ104)。認識結果制御部13は、表示部14に表示された読み仮名部に対し、目視確認作業者が打鍵部15を操作して区切りの自動設定を要求したか否かを判断する(ステップ105)。
【0020】
目視確認作業者が、読み仮名部の区切りの自動設定を要求した場合、認識結果制御部13は読み仮名部及びそれに該当する漢字部の情報を保持する区切りテーブルを作成する(ステップ106)。作成した区切りテーブルの情報をもとに区切り検出部18は区切り箇所の検出をおこなう(ステップ107)。なお、区切り検出処理については後述(図5)する。
【0021】
認識結果制御部13は、区切り検出部16により区切り情報が追加された区切りテーブルをもとに、区切り文字を含む読み仮名部の文字認識結果を表示部14に表示する(ステップ108)。次いで、目視確認作業者は認識結果を修正し(ステップ109)、修正が終了すると、修正した認識結果を認識結果保存データベース19に保存する(ステップ110)。
【0022】
図4は、図3のステップ106において作成する区切りテーブルの例を説明する図ある。区切りテーブル40は、区切り対象となる読み仮名部の文字認識結果を保持する「読み仮名部認識結果」41、区切り検出処理により区切り情報を付加した読み仮名部の文字認識結果を保持する「読み仮名部区切り情報付加」42、区切りを設けるための情報である漢字部(1〜n)の文字認識結果を保持する「漢字部(1〜n)認識結果」43−1〜43−n、区切り検出処理にて算出される各漢字部の読み仮名文字数を保持する「漢字部(1〜n)読み仮名文字数」44−1〜44−nを備える。なお、読み仮名を区切る情報としては、空白を設けたり、「/」を挿入したり、単語単位に分割して保存したりと、いくつかの方法が考えられるが、本実施形態では区切りとして空白を設ける例を説明する。
【0023】
図5は、区切り検出処理(図3におけるステップ107)の詳細を説明する図である。まず、区切り検出部18は、図4に示す区切りテーブルに設定された情報を参照し、漢字部1(最初の漢字部)の認識結果を読み込む(ステップ201)。区切り検出部18は、読み込んだ漢字部1認識結果を文字変換制御部16に渡す。文字変換制御部16は、文字変換用データベース17を検索して漢字部1に合致する文字列(漢字)を検出する(ステップ202)。検出された文字列に対し読み仮名の文字数を算出する(ステップ203)。なお、算出方法については文字変換データベース17に文字数が保持されていればそれを使用する。保持されていない場合は、合致した文字列を片仮名(あるいは平仮名)に変換し、その文字数をカウントする。算出した文字数を区切り検出テーブルの「漢字部1読み仮名文字数」に保存し(ステップ204)、次の漢字部の認識結果が存在するか否かを判別する(ステップ205)。存在する場合は次の漢字部の文字認識結果を入力し(ステップ206)、以降ステップ202〜ステップ204を漢字部の認識結果が無くなるまで繰り返す。
【0024】
漢字部1ないしnの読み仮名文字数を全て算出した後、読み仮名部に区切りを反映させるため、区切りテーブルから、読み仮名部認識結果41、および「漢字部1読み仮名文字数」(最初の読み仮名文字数)を読み込む(ステップ207,208)。
【0025】
次に、空白文字挿入箇所を検出するためのカウンタである“文字数”を初期化し(ステップ209)、“文字数”に読み仮名文字数+1を加算する(ステップ210)。次に、この“文字数”を使用して空白文字を挿入する(ステップ211)。
【0026】
次いで、次の漢字部の読み仮名文字数が存在するか否かを判別し(ステップ212)、存在する場合は次の漢字部の読み仮名文字数を読み込む(ステップ213)。以降ステップ210〜ステップ211を漢字部の読み仮名文字数がなくなるまで繰り返す。区切り情報の付加が全て終了した後、区切りの空白文字を全て挿入した文字認識結果を区切りテーブルの「読み仮名部区切り情報付加」に保存する(ステップ214)。
【0027】
図6は、表示部14に認識結果を表示する際の画面例31を説明する図である。図において、32は読み仮名部の認識結果をそのまま表示する読み仮名一括表示部、33は区切り情報を付加した読み仮名を表示する読み仮名分割表示部である。34は読み仮名分割実行ボタンであり、目視確認作業者が読み仮名一括表示部に表示された表示結果に対し区切りを設けることを要求する場合に押下する。35は漢字部認識結果1ないしnを表示する漢字表示部である。
【0028】
以上説明したように本実施形態によれば、漢字記載部に記載した漢字および読み仮名記載部に記載した前記漢字の読み仮名を読み取り部を用いて読み取り、さらに、漢字記載部に記載した漢字の認識結果をもとに、その読み仮名の文字数を算出し、算出した文字数を利用して前記読み取り部が読み取った前記読み仮名に区切り文字を付加して表示する。
【0029】
このため、目視確認作業を行う者は、片仮名あるいは平仮名による長い文字列の誤認識を容易に発見することが可能となり、誤登録の危険性を軽減することができる。また、本発明の装置は、汎用の文字認識機能に変更を加える必要がないため幅広く利用することが可能であり、更に独自の辞書機能を有する必要がないため、各種のシステムに簡単に適用することができる。
【図面の簡単な説明】
【0030】
【図1】本発明の実施形態に係る文字認識結果表示装置を説明する図である。
【図2】本実施形態で使用することのできる帳票の例を説明する図である。
【図3】文字認識結果表示装置の処理を説明する図である。
【図4】図3のステップ106において作成する区切りテーブルの例を説明する図ある。
【図5】区切り検出処理の詳細を説明する図である。
【図6】表示部14に認識結果を表示する際の画面例31を説明する図である。
【符号の説明】
【0031】
11 入力部
12 文字認識部
13 認識結果制御部
14 表示部
15 打鍵部
16 文字変換制御部
17 文字変換ようデータベース
18 区切り検出部
19 認識結果保存データベース

【特許請求の範囲】
【請求項1】
帳票の漢字記載部に記載した漢字および前記帳票の読み仮名記載部に記載した読み仮名を読み取り文字認識を行う文字認識部と、
文字認識部が認識した前記漢字および読み仮名を表示部に表示し、認識結果の修正情報を入出力する認識結果制御部と、
読み仮名記載部に記載した読み仮名の認識結果、漢字記載部に記載した漢字の認識結果、および漢字記載部に記載した漢字の読み仮名の文字数を格納した区切りテーブルと、
前記漢字記載部に記載した漢字の読み仮名の文字数にしたがって、読み仮名記載部に記載した読み仮名の認識結果の文字列に区切り文字を挿入する区切り検出部を備えたことを特徴とする文字認識結果表示装置。
【請求項2】
請求項1記載の文字認識結果表示装置において、
帳票の漢字記載部は、複数の漢字記載部に分割されていることを特徴とする文字認識結果表示装置。
【請求項3】
請求項1記載の文字認識結果表示装置において、
表示部は、区切り文字を挿入する処理の開始を指示する実行ボタンを供えたことを特徴とする文字認識結果表示装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2006−178605(P2006−178605A)
【公開日】平成18年7月6日(2006.7.6)
【国際特許分類】
【出願番号】特願2004−369274(P2004−369274)
【出願日】平成16年12月21日(2004.12.21)
【出願人】(504373093)日立オムロンターミナルソリューションズ株式会社 (1,225)
【Fターム(参考)】