説明

画像処理装置、画像処理方法、およびプログラム

【課題】手書き文字のOCR処理結果を、人が修正または確認を行う際に、修正漏れおよび確認漏れが生じにくい画像処理装置を提供する。
【解決手段】表示部と、画像データから文字候補領域を認識し、文字候補領域の文字が手書き文字であるかを判定して、手書き文字と判定した場合に判定結果を手書き文字判定結果として出力する文字判定部と、文字判定部に判定された手書き文字を文字認識候補の文字パターンと関連付けて、関連付けの結果を手書き文字認識結果として出力する文字データ処理部と、画像データを表示部の第1画面領域に表示させ、手書き文字判定結果を表示部の第2画面領域に表示させ、手書き文字認識結果の文字パターンを表示部の第3画面領域に表示させる表示制御部と、ユーザからの修正の指示に基づいて、第3画面領域に表示された文字パターンの修正を受け付けて、文字パターンの変更を行う修正部とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、手書き文字および活字の文字認識を行う画像処理装置、画像処理方法、およびプログラムに関するものである。
【背景技術】
【0002】
従来、画像データから手書き文字と活字とを認識する画像処理、いわゆる光学文字認識(OCR:Optical Character Recognition)処理がある。手書き文字に対するOCR処理の精度は、人ごとに筆跡が異なるために、活字文字の場合よりも大幅に悪い。そこで、特許文献1の技術では、手書き文字と活字とを区別して認識させることにより、手書き文字の検索精度の向上を図っている。
【0003】
しかしながら、特許文献1のように手書き文字のOCR処理として活字のOCR処理とは異なる処理を行わせると、一つの手書き文字に対して複数のOCR処理結果を候補として記憶しておく必要があり、手書き文字ごとに記憶されるOCR処理結果の量が膨大になる。また、手書き文字の文字パターンとして多くのパターンを記憶させることにより手書き文字の認識精度を向上させると、手書き文字の文字パターンを多く記憶しておく必要があるため文字パターンを参照する処理の量が膨大になる。このように、手書き文字に対してOCR処理精度を向上させようとする場合に、OCR処理にかかる負荷が膨大になり、処理時間が長くなってしまう。また、OCR処理にかかる時間が少ない画像処理装置を製造しようとする場合に、演算速度の速い中央処理装置(CPU:Central Processing Unit)、または、容量の大きいメモリを採用する必要がある。このため、これを実現するのに、製造コストが多くかかってしまうという問題がある。
【0004】
また、特に手書き文字の割合が多い原稿に対して文字認識処理を行わせる場合に、多くの処理負荷がかかることになり、このような原稿に対してOCR処理装置を導入して効率化を図ってもほとんど効果がない。例えば、手書き文字の割合が多い原稿には、元の活字の書類に対して手書きで修正の指示(原稿の校正など)を書きこむ場合がある。このように手書き文字の割合が多い原稿に対してOCR処理装置を導入する際に、手書き文字のOCR処理結果に対しては人による確認または修正を行うことは有効であり、そのニーズはある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−312398号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところが、手書き文字のOCR処理結果について人が確認および修正を行うことになると、手書き文字の量が多くなるほど確認漏れまたは修正漏れが生じやすくなるという問題が生じる。
【0007】
そこで、本発明は、このような状況に鑑みてなされたものであり、手書き文字のOCR処理結果を、人が修正または確認を行う際に、修正漏れおよび確認漏れが生じにくい画像処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本発明の一形態に係る画像処理装置は、文書を光学的に読み取って得られる画像データに対して処理を行う画像処理装置であって、表示部と、前記画像データから文字候補領域を認識して、前記文字候補領域に含まれる文字が手書き文字であるか否かを判定して、手書き文字と判定した場合に当該判定の結果を手書き文字判定結果として出力する文字判定部と、前記文字判定部により手書き文字であると判定された文字を文字認識の候補となる文字パターンと関連付けて、当該関連付けた結果を手書き文字認識結果として出力する文字データ処理部と、前記画像データを前記表示部の第1画面領域に表示させ、前記文字判定部により出力された手書き文字判定結果を前記第1画面領域とは異なる前記表示部の第2画面領域に表示させ、前記第2画面領域においてユーザに選択された前記手書き文字判定結果に対応する前記手書き文字認識結果のうちで前記文字データ処理部により関連付けられた文字パターンを前記表示部の第3画面領域に表示させる表示制御部と、ユーザからの修正の指示に基づいて、前記第3画面領域に表示された前記文字パターンの修正を受け付けて、前記手書き文字認識結果のうちで前記文字データ処理部により関連付けられた文字パターンの変更を行う修正部とを備える。
【0009】
これによれば、文書を光学的に読み取って得られた画像データから認識された手書き文字を抽出して、認識された手書き文字判定結果を、画像データが表示される第1画面領域とは異なる第2画面領域に表示させる。そして、修正部が、ユーザからの修正の指示に基づいて、第3画面領域に表示される文字データ処理部により関連付けられた文字パターン(いわゆる、OCR処理結果)の変更を行う。
【0010】
このため、ユーザが、手書き文字認識結果と元の画像データの中の手書き文字とを見比べて修正することができる。また、誤認識が発生しやすい手書き文字のみを抽出して第2画面領域に表示させるため、誤認識されたOCR処理結果の確認漏れまたは修正漏れを防ぐことができる。これにより、ユーザは、OCR処理結果を修正する際に効率よく作業することができる。
【0011】
また、好ましくは、前記文字判定部は、さらに、前記文字候補領域に含まれる文字が、活字であるか否かを判定して、活字であると判定した場合に当該判定の結果を活字判定結果として出力し、前記文字データ処理部は、さらに、前記文字判定部により判定された活字を前記文字パターンと関連付けて、当該関連付けた結果を活字認識結果として出力し、前記表示制御部は、さらに、前記文字判定部により出力された活字判定結果を前記第2画面領域に表示させ、前記活字認識結果のうちで前記文字データ処理部により関連付けられた文字パターンを前記第3画面領域に表示させる。
【0012】
これによれば、文字判定部が活字の文字候補領域に対しても活字判定結果を出力し、また、文字データ処理部が活字認識結果を出力している。つまり、画像処理装置は、活字に対してもOCR処理を行う。
【0013】
このため、抽出された活字判定結果は、手書き文字判定結果と選択可能な状態で表示させることができる。また、例えば、修正部が、ユーザからの修正の指示に基づいて、活字認識結果のうちで活字のOCR処理結果の修正を行っても良い。このように、ユーザは、活字に対しても、OCR処理結果を確認または修正することができる。
【0014】
また、好ましくは、画像処理装置はさらに、第1画像データに基づいて前記文字判定部により判定された第1活字判定結果と前記文字パターンとが前記文字データ処理部により関連付けられた第1活字認識結果と、第2画像データに基づいて前記文字判定部により判定された第2活字判定結果と前記文字パターンとが前記文字データ処理部により関連付けられた第2活字認識結果とが、所定の割合以上で一致するか否かを判定する活字一致判定部と、前記第1活字認識結果と前記第2活字認識結果とが前記所定の割合以上で一致すると前記活字一致判定部が判定した場合に、前記第1画像データに基づいて前記文字判定部により判定された第1手書き文字と前記文字パターンとが前記文字データ処理部により関連付けられた第1手書き文字認識結果と、第2画像データに基づいて前記文字判定部により判定された第2手書き文字と前記文字パターンとが前記文字データ処理部により関連付けられた第2手書き文字認識結果とを統合させて統合手書き文字認識結果として出力するデータ統合部と、を備え、前記表示制御部は、前記統合手書き文字認識結果を前記第2画面領域に表示させ、前記第2画面領域においてユーザに選択された前記統合手書き文字認識結果のうちで前記文字データ処理部により関連付けられた文字パターンを前記第3画面領域に表示させ、前記修正部は、ユーザからの修正指示に基づいて、前記第1手書き文字認識結果のうちで前記文字データ処理部により関連付けられた第1文字パターンの修正を受け付けて、前記統合手書き文字認識結果のうちで前記文字データ処理部により関連付けられた前記第1文字パターンの変更を行う、または、前記第2手書き文字認識結果のうちで前記文字データ処理部により関連付けられた第2文字パターンの修正を受け付けて、前記統合手書き文字認識結果のうちで前記文字データ処理部により関連付けられた前記第2文字パターンの変更を行う。
【0015】
手書き文字を書類に書き込む修正者には、文章の内容のみを修正する修正者もいれば、誤字脱字のみを修正する修正者もいる。このように、修正者が複数人いる場合に、同一の書類を複数印刷し、複数人の修正者がそれぞれの書類に対して手書きで修正する場合に、一部の書類を複数人の修正者で使い回して修正するよりも効率が良い。
【0016】
複数の書類毎に手書き修正箇所(手書き文字の文字列)が抽出されると、ユーザは、同一の書類であるのに、複数の書類毎に処理された結果に基づいてOCR処理結果の確認または修正を行わなくてはならず、作業効率が悪い。また、修正者が複数人いると、画像データも修正者の数だけ作成されることになるため、複数の画像データの保存先が画像データ毎に異なってしまう可能性があり、例えばある一人の修正者の修正すべてを反映できなくなるなどのリスクを伴う。さらに、同一の書類に対して画像データを複数作成することになるため、画像処理後のデータが記憶される容量を多く消費してしまう。
【0017】
この課題を解決するためになされたものであり、複数の画像データに対する複数の活字認識結果が所定の割合以上で一致する場合に、文字データ処理部により出力された複数の画像データに対する複数の手書き文字認識結果を統合する。つまり、画像処理装置は、活字のOCR処理結果が所定の割合以上で一致する場合に、複数の画像データが同一の書類に対して修正が行われたものであるとみなして、手書き文字のOCR処理結果を統合する。そして、表示制御部は、統合された統合手書き文字認識結果を、表示部の第2画面領域に表示させる。
【0018】
これにより、修正者が複数いるような場合であっても、ユーザは、統合手書き文字認識結果と元の画像データの中の手書き文字とを見比べて修正することができる。また、誤認識が発生しやすい手書き文字のみを抽出して第2画面領域に表示させるため、誤認識されたOCR処理結果の確認漏れまたは修正漏れを防ぐことができる。これにより、ユーザは、OCR処理結果を修正する際に効率よく作業することができる。また、複数の修正者による手書きの書き込みを統合して表示させることができるため、1つの書類に対する作業効率を向上させることができる。
【0019】
また、好ましくは、前記第3画面領域は、前記第1画面領域および前記第2画面領域とは異なる画面領域である。
【0020】
これによれば、第2画面領域に表示された手書き文字判定結果に対応するOCR処理結果の修正状況を表示させる画面領域としてさらに別の画面領域である第3画面領域に表示させる。これにより、ユーザは、元の画像データによる手書き文字を参照しながら、手書き文字のOCR処理結果の確認または修正を行うことができる。
【0021】
また、好ましくは、前記表示制御部は、前記第1手書き文字認識結果を第1表示形態により前記第2画面領域に表示させ、前記第2手書き文字認識結果を前記第1表示形態とは異なる第2表示形態により前記第2画面領域に表示させる。
【0022】
これによれば、表示制御部は、例えば複数の修正者が書き込んだ手書き文字である、第1手書き文字判定結果と第2手書き文字判定結果とを異なる表示形態により第2画面領域に表示させる。このため、例えば複数の修正者が、上述したような文章の内容の修正、誤字脱字の修正等のように修正の内容の種別毎に役割分担されている場合に、役割毎の手書き文字による修正をユーザは把握できる。これにより、例えば、ユーザは、手書き文字のOCR処理結果の修正を行う時間が限られるなどの制限がある場合に、優先度の高い役割と認識された手書き文字による修正を選んで手書き文字のOCR処理結果の修正を行うことができる。
【0023】
また、好ましくは、前記文字判定部は、前記手書き文字判定結果としてさらに、手書き文字が含まれると判定された文字候補領域の表示位置および表示範囲を出力する。
【0024】
これによれば、文字判定部は、文字候補領域の表示位置および表示範囲を手書き文字判定結果として出力する。このため、例えば、ユーザが、第2画面領域において表示される文字判定結果を選択したときに、選択された文字判定結果に対応する文字候補領域の表示形態を変更するなどの処理に利用することができる。
【0025】
また、好ましくは、前記文字判定部は、さらに、前記文字候補領域に含まれる文字が、活字であるか否かを判定して、活字であると判定した場合に当該判定の結果を前記画像データにおける活字の表示位置および活字の表示範囲とともに活字判定結果として出力し、前記表示制御部は、前記手書き文字判定結果および前記活字判定結果に基づいて、前記文字判定部により活字が含まれると判定された文字候補領域を第3表示形態により前記第1画面領域に表示させ、前記文字判定部により手書き文字が含まれると判定された文字候補領域を前記第3表示形態とは異なる第4表示形態により前記第1画面領域に表示させる。
【0026】
これによれば、表示制御部は、表示される活字の文字候補領域の表示形態と手書き文字の文字候補領域の表示形態とを異なる表示形態で第1画面領域に表示させる。このため、ユーザは、第1画面領域において、画像データにおける活字の文字候補領域と手書きの文字候補領域とを瞬時に見分けることができる。
【0027】
また、好ましくは、前記表示制御部は、前記第2画面領域に表示される手書き文字判定結果に対して第1の選択をユーザが行った場合に、前記第1の選択の対象となった手書き文字判定結果に対応する文字候補領域を第5表示形態により前記第1画面領域に表示させる。
【0028】
これによれば、第2画面領域において表示される手書き文字判定結果に対して、第1の選択をユーザが行った場合に、第1の選択が行われた手書き文字判定結果に対応する文字候補領域を第5表示形態により第1画面領域に表示させる。具体的には、ユーザが、第2画面領域に表示される手書き文字判定結果の中から修正部によって第1の選択として、例えば、手書き文字判定結果に対応するチェックボックスにチェックを入れる。この場合に、表示制御部は、チェックされた手書き文字判定結果に対応する文字候補領域の表示形態を変更して第1画面領域に表示させる。
【0029】
このため、ユーザは、例えば、OCR処理結果の確認または修正が終了した手書き文字判定結果に対して第1の選択を行うことにより、第1の選択が行われた文字候補領域の表示を変更することができる。これにより、ユーザは、OCR処理結果の確認または修正が終了した手書き文字判定結果に対応する文字候補領域を瞬時に見分けることができ、誤認識されたOCR処理結果の確認漏れまたは修正漏れを防ぐことができる。このため、ユーザは、OCR処理結果を修正する際に効率よく作業することができる。
【0030】
また、好ましくは、前記表示制御部は、さらに、前記第2画面領域に表示される手書き文字判定結果に対して第2の選択をユーザが行った場合に、部前記第2の選択の対象となった手書き文字判定結果に対応する文字候補領域を前記第5表示形態とは異なる第6表示形態により前記第1画面領域に表示させる。
【0031】
これによれば、第2画面領域において表示される手書き文字判定結果に対して、第2の選択をユーザが行った場合に、第2の選択が行われた手書き文字判定結果に対応する文字候補領域を第5表示形態とは異なる第6表示形態により第1画面領域に表示させる。具体的には、ユーザが、第2画面領域に表示される手書き文字判定結果の中から修正部によって第2の選択として、例えば、手書き文字判定結果をマウスなどのポインティングデバイスでクリックして反転表示させる。この場合に、表示制御部は、反転表示された手書き文字判定結果に対応する文字候補領域の表示を第5表示形態とは異なるものにさらに変更して第1表示領域に表示させる。
【0032】
このため、ユーザは、例えば、手書き文字判定結果をマウスなどのポインティングデバイスをクリックするなどして選択することにより、当該選択された手書き文字判定結果に対応する文字候補領域を、第1画面領域において瞬時に見分けることができる。これにより、ユーザは、OCR処理結果を修正する際に効率よく作業することができる。
【0033】
また、好ましくは、画像処理装置はさらに、文書から光学的に前記画像データを取得する画像取得部を備える。
【0034】
これによれば、画像取得部をさらに備えるため、スキャナまたはデジタルカメラなどの画像取得装置を別に用意しなくとも、単独で書類から画像データを取得することができ請求項1から請求項9に対応する処理を行うことができる。
【0035】
また、好ましくは、画像処理装置はさらに、前記文字パターンを記憶している記憶部を備える。
【0036】
これによれば、記憶部をさらに備えるため、ハードディスクまたはメモリなどの記憶装置を別に用意しなくとも、単独でOCR処理を行うことができ請求項1から請求項10に対応する処理を行うことができる。
【0037】
また、本発明は、このような画像処理装置として実現できるだけでなく、画像処理装置が備える特徴的な処理部のそれぞれの動作をステップとして方法として実現することもでき、また、本発明は、各処理部の処理を行う集積回路として実現することもできる。さらに、本発明は、コンピュータに上記各ステップを実行させるためのプログラムとして実現することもできる。そのようなプログラムは、CD−ROM等の記録媒体またはインターネット等の伝送媒体を介して配信することもできる。また、本発明は、このような画像処理装置を内蔵するネットワーク複合機として実現することもできる。
【発明の効果】
【0038】
本発明に係る画像処理装置によれば、ユーザは、誤認識されたOCR処理結果の確認漏れまたは修正漏れを防ぐことができ、OCR処理結果を修正する際に効率よく作業することができる。
【図面の簡単な説明】
【0039】
【図1】本発明の一実施形態における画像処理装置を含むワークフローシステムの構成を示す図である。
【図2】本発明の一実施形態におけるネットワーク複合機のハードウェア構成を示すブロック図である。
【図3】本発明の一実施形態における端末装置のハードウェア構成を示すブロック図である。
【図4】本発明の一実施形態における画像処理装置の画像処理に係る機能構成を示すブロック図である。
【図5】本発明の一実施形態における文字認識結果データの一例を示す図である。
【図6】本発明の一実施形態におけるワークフローシステムによる画像データの画像処理における処理手順を示すフローチャートである。
【図7】本発明の一実施形態における修正作業画面の一例を示す図である。
【図8】本発明の一実施形態におけるユーザが文字認識結果データを修正する際の修正作業の作業手順の一例を示すフローチャートである。
【図9】本発明の一実施形態における画像処理装置の統合処理に係る機能構成を示すブロック図である。
【図10】本実施の一実施形態におけるワークフローシステムにおける文字認識結果データの統合処理における処理手順を示すフローチャートである。
【図11】本発明の他の実施形態における画像処理装置の画像処理に係る機能構成を示すブロック図である。
【発明を実施するための形態】
【0040】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0041】
まず、図1および図2を用いて、本発明の実施の形態における画像処理装置を備えるワークフローシステムの構成の概要について説明する。
【0042】
このワークフローシステムには、作成者と、修正者と、作成者と修正者とを補助する補助者とが介在する。作成者は、PCやワードプロセッサなどにより印字された書類(以下、印字書類とする)を作成する。修正者は、作成者により作成された印字書類を手書きで修正する。このとき修正者により修正された書類を修正書類とする。補助者は、修正者により作成された手書き文字を含む修正書類を、ネットワーク複合機1、2のスキャナ機能やデジタルカメラ7を利用して画像ファイルを取得し、本願の画像処理装置によりOCR処理を行う。補助者は、書類をOCR処理することにより、誤認識されやすい手書き文字の認識処理結果が元の書類に書きこまれた内容と合致しているか否かを確認し、合致していなければ手書き文字の認識処理結果を修正する。つまり、本実施形態のワークフローシステムは補助者が主に利用するため、以下からは補助者をユーザとして説明する。
【0043】
図1は、本実施の形態における画像処理装置を含むワークフローシステムの構成の一例を示す図である。
【0044】
同図に示すように、このワークフローシステムは、ネットワーク複合機1および2、端末装置3および4、PSTN(Public Switched Telephone Networks:公衆電話交換回線網)5、並びにLAN(Local Area Network)6から構成される。このワークフローシステムは、ネットワーク複合機1、2あるいはデジタルカメラ7から取得された書類の画像データ53のOCR処理を行うことが可能なシステムである。
【0045】
端末装置3、4は、本実施の形態における画像処理装置として機能するコンピュータである。端末装置3、4は、本実施の形態では、ネットワーク複合機1、2を利用するユーザ(主に、補助者)が使用するパーソナルコンピュータである。
【0046】
ネットワーク複合機1は、スキャナで読み取った書類を、例えば、PSTN5を介してネットワーク複合機2へファクシミリ送信すること、LAN6を介して端末装置3および4へ送信すること、内蔵されるプリンタでプリントアウトすること等ができる。
【0047】
図2は、本実施の形態におけるネットワーク複合機1のハードウェア構成を示すブロック図である。
【0048】
同図に示すように、ネットワーク複合機1は、CPU(Central Processing Unit)10、ROM(Read Only Memory)11、RAM(Random Access Memory)12、モデム13、NCU(Network Control Unit)14、操作パネル15、ディスプレイ16、スキャナ17、プリンタ18、およびLANI/F(LAN Interface)19を備えている。
【0049】
CPU10は、ROM11に格納された制御プログラム50を実行することにより、ネットワーク複合機1の全体を制御する。
【0050】
ROM11は、CPU10が実行する制御プログラム50を保持する読み出し専用メモリである。
【0051】
RAM12は、CPU10が制御プログラム50を実行する際に用いられるワークデータ、およびスキャナ17から得られた画像データ等を保持する読み書き可能なメモリである。
【0052】
モデム13は、RAM12に保持された画像データ等をファクシミリ信号に変調して送信し、また外部から受信されたファクシミリ信号をラインデータに復調する。モデム13は、例えばG3規格に準拠したファックスモデムである。
【0053】
NCU14は、モデム13とPSTN5との接続を制御する網制御装置である。
【0054】
操作パネル15は、ユーザからの操作を受け付けるタッチパネルである。
【0055】
ディスプレイ16は、ユーザへの操作ガイド、またはネットワーク複合機1の動作状態を表示する表示装置であり、例えばLCD(Liquit Crystal Display:液晶表示装置)である。
【0056】
スキャナ17は、画像読み取り装置であり、CPU10の制御下で、CCDを用いて原稿を光学的に読み取ることによって画像データを生成する。
【0057】
プリンタ18は、印刷装置であり、CPU10の制御下で、例えばRAM12に保持された画像データによって表される画像イメージを印刷出力する。
【0058】
LANI/F19は、ネットワーク複合機1とLAN6とを接続する通信アダプタであり、CPU10の制御下で、例えばRAM12に保持された画像データを端末装置3等へ送信する。
【0059】
図3は、本実施の形態のおける端末装置3、4のハードウェア構成を示すブロック図である。
【0060】
端末装置3は、図3に示されるように、主に、CPU20、ハードディスク21、RAM22、入力装置23、ディスプレイ24、LANI/F25、およびUSBI/F(Universal Serial Bus Interface)26から構成される。なお、ここでは端末装置3についてのみ説明するが、端末装置4についても同様の構成となる。
【0061】
CPU20は、ハードディスク21に格納されたアプリケーションプログラムを実行することにより、端末装置3の全体を制御する。
【0062】
ハードディスク21は、画像処理プログラム51等のプログラム、文字パターンデータ52、スキャナまたはデジタルカメラから得られた画像データ53、文字判定結果データ54、文字認識結果データ55、統合文字認識結果データ60統合文字認識結果データ60等が格納されている。
【0063】
なお、「画像処理プログラム51」とは、画像データに対して後述する画像処理を行うアプリケーションプログラムである。また、「文字パターンデータ52」とは、手書き文字または活字のOCR処理を行うための文字認識の候補となる文字パターンのデータである。「文字パターンデータ52」には、図示しないが手書き文字のOCR処理を行うための手書き文字パターンと、活字のOCR処理を行うための活字パターンとがある。すなわち、活字のOCR処理と手書き文字のOCR処理とは、異なる文字パターンを用いて行われる。また、「画像データ53」とは、ネットワーク複合機1のスキャナ17またはデジタルカメラ7等の画像取得装置により書類から取得される画像データである。また、「文字認識結果データ55」とは、後述する文字データ処理部32によって画像処理中に作成されるデータである。また、「統合文字認識結果データ60」とは、後述するデータ統合部38によって統合処理中に作成されるデータである。
【0064】
RAM22は、CPU20がハードディスク21に格納されているプログラムを実行する際に用いられる文字判定結果データ54、一致データテーブル59等、およびスキャナ17から得られた画像データ53を一時的に保持する読み書き可能なメモリである。なお、「文字判定結果データ54」は、後述する文字判定部31によって画像処理中に作成されるデータである。また、「一致データテーブル59」とは、後述する活字一致判定部37により作成されるデータである。
【0065】
入力装置23は、ユーザからの操作を受け付ける装置であって、キーボードあるいは、マウスやタッチパネル等のポインティングデバイス等である。
【0066】
ディスプレイ24は、RAM22から送信されてきたデータを文字や画像として表示するためのCRTディスプレイ、液晶ディスプレイ、プラズマディスプレイ、あるいは有機ELディスプレイ等である。
【0067】
LANI/F25は、端末装置3とLAN6とを接続する通信アダプタである。LANI/F25は、CPU20の制御下で、例えば端末装置のハードディスク21に保持された画像データ53、文字認識結果データ55、または統合文字認識結果データ60を端末装置4に送信する。LANI/F25はまた、端末装置4およびネットワーク複合機1から端末装置3に送信されてきた画像データ53、文字認識結果データ55等を受信する。
【0068】
USBI/F26は、端末装置3とデジタルカメラ7等とを接続する通信アダプタである。USBI/F26を介することにより、例えばデジタルカメラ7により取得された画像データ53を端末装置3が受信しハードディスク21に記憶させる。
【0069】
図4は、本実施の形態における画像処理装置100の画像処理に係る機能構成を示すブロック図である。つまり、図2および図3に示されるハードウェア構成によって発揮されるネットワーク複合機1および端末装置3、4の機能のうち、主に本実施の形態の画像処理装置100の画像処理に関わる機能の構成を示すブロック図である。
【0070】
画像処理装置100は、機能的には、記憶部30と、文字判定部31と、文字データ処理部32と、表示制御部33と、修正部34と、入力部35と、表示部36とを備え、画像取得装置110としてのネットワーク複合機1またはデジタルカメラ7と通信可能な状態(例えば、LAN、USB等)で接続されている。
【0071】
記憶部30は、図3におけるハードディスク21、RAM22等によって実現される。記憶部30は、文字パターンデータ52を記憶している。記憶部30はまた、画像取得装置110から送信されてきた画像データ53、後述する文字判定部31により出力される文字判定結果データ54、文字データ処理部32により出力される文字認識結果データ55等を記憶する。
【0072】
文字判定部31は、図3におけるCPU20、プログラム等によって実現される判定部である。文字判定部31は、記憶部30に記憶されている画像データ53に基づいて、部分領域切出処理と、手活判定処理とを行う。部分領域切出処理は、画像データから文字候補領域を認識する処理であって、例えば一行等の文字の塊である部分領域毎に画像データ53の文字候補領域を分解して、画像データにおける部分領域の位置および範囲を認識する処理である。手活判定処理は、部分領域切出処理によって分解された部分領域に含まれる文字が手書き文字であるか活字であるかを判定し、手書き文字と判定した場合に手書き文字判定結果データとして出力し、活字であると判定した場合に活字判定結果データとして出力する処理である。以下、部分領域切出処理によって分解された部分領域に含まれる文字のようなOCR処理前の画像として表示される文字のことを「文字画像」と呼ぶ。
【0073】
なお、文字判定部31によって出力される手書き文字判定結果データと活字判定結果データとは、文字判定結果データ54として出力される。つまり、文字判定結果データ54には、図示しないが、手書き文字の文字画像を含む部分領域に対して文字判定部31が出力した手書き文字判定結果データと、活字の文字画像を含む部分領域に対して文字判定部31が出力した活字判定結果データとがある。文字判定部31は、判定された部分領域に対して手書き文字の属性データまたは活字の属性データを追加し、その結果を文字判定結果データ54として出力する。なお、ここで出力される文字判定結果データ54とは、元の画像データ53に対して、部分領域切出処理によって導出された部分領域の位置および範囲の情報と、手書き文字の属性データまたは活字の属性データとが追加されたデータである。
【0074】
文字データ処理部32は、図3におけるCPU20、プログラム等によって実現される処理部である。文字データ処理部32は、記憶部30に格納されている文字パターンデータ52と、文字判定部31により出力された文字判定結果データ54とに基づいて、文字パターン関連付け処理を行う。文字パターン関連付け処理は、文字判定結果データ54の各部分領域に含まれる文字画像に対して文字パターンデータ52を関連付ける処理である。文字パターン関連付け処理では、部分領域毎に処理が行われ、各部分領域に含まれる文字画像に対応する文字列が文字パターンデータから抽出され、文字列データとして各部分領域に含まれる文字画像に関連付けられる。つまり、文字列データは、いわゆるOCR処理である。文字データ処理部32は、文字パターン関連付け処理の結果を文字認識結果データ55として出力する。なお、ここで出力される文字認識結果データ55とは、文字判定結果データ54に対して、文字パターン関連付け処理によって関連付けられた文字列データが追加されたデータである。
【0075】
文字認識結果データ55は、図5に示されるように、部分領域ID、部分領域のデータサイズ、部分領域の位置情報、部分領域の属性データ、部分領域の文字数、および、部分領域に関連付けられた文字列データを保持する。なお、「部分領域ID」とは、S10において区別された部分領域を識別するための識別子である。「部分領域ID」は、位置情報の数値に基づいて所定の演算により算出される値が小さい順に決定される番号である。本実施形態では例えば、位置情報の開始座標の内でY座標が小さいものから順番に決定され、Y座標が同じものではX座標が小さいものから順番に降順に番号が振られることになる。また、「位置情報」とは、画像データにおいて当該部分領域が表示される位置および範囲を示すデータであり、図4に示すように例えば座標データである。座標データは、開始座標と終了座標とにより囲まれる領域をX座標とY座標により数値化されて、位置情報として表している。座標データは、例えば具体的には画素単位で導きだされる数値である。また、「文字列データ」とは、部分領域に含まれる文字画像に対して、文字パターンデータに基づいて関連付けられた文字列である。なお、文字認識結果データ55には、図示しないが、手書き文字について文字パターン関連付け処理を行った手書き文字認識結果データと、活字について文字パターン関連付け処理を行った活字認識結果データとがある。図5に示す文字認識結果データ55は、手書き文字認識結果データと活字認識結果データとが統合されたものである。
【0076】
表示制御部33は、図3におけるCPU20、プログラム等によって実現される処理部である。表示制御部33は、画像データを表示部36の第1画面領域40に表示させる。また、表示制御部33は、文字データ処理部32により出力された文字認識結果データ55を表示部36の第2画面領域41に表示させる。また、表示制御部33は、第2画面領域41においてユーザが入力部35を操作することにより選択した文字認識結果データ55に対応する文字列データを表示部36の第3画面領域42に表示させる。なお、第1画面領域40と、第2画面領域41と、第3画面領域42とは、表示部36において表示される画面領域であって、図7に示すように表示部36の画面内の別々の領域である。
【0077】
修正部34は、ユーザが入力部35を操作することにより送信される入力信号に基づいて、第3画面領域42に表示された文字列データの修正を受け付けて、文字認識結果データ55の各部分領域に関連付けられた文字列データの変更を行う。例えば、画像データから抽出された文字候補領域の各部分領域に含まれる文字画像に対して関連付けられた文字列データが、誤認識によって本来意図していた文字とは異なる文字列データとなる場合がある。このような場合に、修正部34は、ユーザが入力部35を操作することにより、文字認識結果データ55を読み込んで、誤って関連付けられた文字パターンを正しい文字パターンに修正することができる。なお、修正された文字認識結果データ55は、記憶部30に上書き保存される。
【0078】
入力部35は、図3における入力装置23によって実現される。入力部35は、上述したように、ユーザに操作されることにより、表示制御部33または修正部34に対して入力信号を送信して、文字認識結果データ55の文字列データを修正することができる。
【0079】
表示部36は、図3におけるディスプレイ24によって実現される。表示部36は、表示制御部33を介して文字認識結果データ55を表示する。すなわち、表示部36は、入力部35によって修正される前の文字認識結果データ55、入力部35によって修正中である文字認識結果データ55などを表示することにより、ユーザによる文字列データの修正を支援する。表示部36はまた、上述したように、文字認識結果データ55の文字画像と文字列データとを、第1画面領域40と、第2画面領域41と、第3画面領域42とに分けて表示する。
【0080】
次に、以上のように構成された本実施の形態における画像処理の処理手順について説明する。
【0081】
図6は、本実施の形態におけるワークフローシステムによる画像データ53の画像処理における処理手順を示すフローチャートである。
【0082】
図6に示すように、文字判定部31は、記憶部30に記憶されている画像データ53が文字判定部31に入力されると画像処理を開始する。文字判定部31は、入力された画像データ53のページ毎に部分領域切出処理を行う(S10)。
【0083】
次に、文字判定部31は、分解した部分領域毎に、部分領域IDと、位置情報とを追加する(S11)。
【0084】
そして、文字判定部31は、部分領域に含まれる文字画像に対して手活判定処理を行う(S12)。
【0085】
手活判定処理において文字判定部31により手書き文字であると判定された部分領域には、手書き文字の属性データが追加される(S13)。文字判定部31は、手書き文字の属性データが追加された部分領域を手書き文字判定結果データとして出力する。文字判定部31により出力された手書き文字判定結果データは、記憶部30にバッファされる。
【0086】
そして、文字データ処理部32は、記憶部30に格納されている文字パターンデータ52のうちの手書き文字パターンデータと、文字判定部31により出力された手書き文字判定結果データとに基づいて、手書き文字パターン関連付け処理を行う(S14)。なお、この手書き文字パターン関連付け処理とは、いわゆる、手書き文字の部分領域用のOCR処理である。文字データ処理部32により出力された手書き文字認識結果データは、記憶部30にバッファされる。
【0087】
一方、手活判定処理において文字判定部31により活字であると判定された部分領域には、活字の属性データが追加される(S15)。文字判定部31は、活字の属性データが追加された部分領域を活字判定結果データとして出力する。文字判定部31により出力された活字判定結果データは、記憶部30にバッファされる。
【0088】
そして、文字データ処理部32は、記憶部30に格納されている文字パターンデータ52のうちの活字パターンデータと、文字判定部31により出力された活字判定結果データとに基づいて、活字パターン関連付け処理を行う(S16)。なお、この活字パターン関連付け処理とは、いわゆる、活字の部分領域用のOCR処理である。文字データ処理部32により出力された活字認識結果データは、記憶部30にバッファされる。
【0089】
文字判定部31は、手書き文字関連付け処理または活字関連付け処理が行われていない未処理の部分領域があるか否かを判定する(S17)。未処理の部分領域がある場合には、再度、未処理の部分領域に対して画像処理(S11〜S16)を行う。
【0090】
文字データ処理部32は、未処理の部分領域がない場合に、文字パターン関連付け処理が終了したページの画像データに属する全ての部分領域に対応する手書き文字認識結果データと活字認識結果データとを統合する(S18)。
【0091】
文字データ処理部32は、文字パターン関連付け処理が終了していないページがあるか否かを確認する(S19)。ここで、未処理の画像データのページがある場合には、再度、画像処理(S10〜S18)を行う。
【0092】
文字データ処理部32は、未処理の画像データのページがない場合には画像データの全てのページに対して処理が終了したと判断し、全てのページに対して行った画像処理(S10〜S18)の結果を文字認識結果データ55として出力する(S20)。出力された文字認識結果データ55は、記憶部30に記憶されるこの画像処理を終了する。
【0093】
記憶部30に記憶された文字認識結果データ55は、ユーザが入力部35を操作することにより修正部34を動作させると、修正部34に読み込まれて表示部36に表示される。修正部34は、文字認識結果データ55に基づいて、元の画像データ53の部分領域に含まれる文字画像と、当該文字画像に関連付けられた文字列データとを別々に表示部36に表示させる。修正部34はまた、入力部35からの入力信号に基づいて各部分領域に関連付けられた文字列データの修正を受け付ける。
【0094】
以下に、図7に基づいて、具体的な修正部34の処理によって表示部36に表示される画面について説明する。
【0095】
表示部36に表示される画面は、主に第1画面領域40と、第2画面領域41と、第3画面領域42の3つの画面領域に分けられる。
【0096】
第1画面領域40は、メインの画面領域であり、主に元の画像データ53に基づいた表示を行う画像データ表示領域である。第1画面領域40には、元の画像データ53の他に、各部分領域を示す罫線と、各部分領域の部分領域IDとが表示される。すなわち、第1画面領域40には、文字判定部31によって分解された部分領域が、可視化された状態で表示されることになる。また、第1画面領域40では、手書き文字の属性データが追加された部分領域と、活字の属性データが追加された部分領域とにおいて、その表示形態を異なるものとして表示される。本実施の形態では、図7のように、第1画面領域40において表示される手書き属性の文字候補領域を赤色(図7ではグレー表示)で、第1画面領域40において表示される活字属性の文字候補領域を黒色で表示する。
【0097】
第2画面領域41は、第1画面領域40の右側において縦長に表示(サイド表示)される画面領域であり、文字認識結果データ55の文字列データが表示される。第2画面領域41には、第1画面領域40に表示されるページの画像データに含まれる各部分領域に対して関連付けられた文字列データが当該部分領域の部分領域IDと共に表示される。
【0098】
また、第2画面領域41においては、第1画面領域40に表示されるページの画像データに含まれる全ての部分領域に関連付けられている文字列データが表示され、これらの文字列データは部分領域の属性データごとに表示される。例えば、図6においては、プルダウンリスト43において「文字列全て」と、「手書きのみ」と、「活字のみ」とを選択可能である。ユーザが、「文字列全て」をプルダウンリスト43から選択する場合に、複数の文字列データのうちで手書き文字または活字のいずれかの属性データをもつ文字列データが表示されることになり、第2画面領域41において全ての文字パターンが表示される。また、ユーザが、「手書きのみ」をプルダウンリスト43から選択する場合に、複数の文字列データのうちで手書き文字の属性データを有する文字列データのみが第2画面領域41において表示される。また、ユーザが、「活字のみ」をプルダウンリスト43から選択する場合に、複数の文字列データのうちで活字の属性データを有する文字列データのみが第2画面領域41において表示される。
【0099】
また、第2画面領域41においては、表示される文字列データの左側にチェックボックス44が表示される。ユーザは、このチェックボックス44には、ポインティングデバイス等の入力装置23によって選択することによりチェックマークを入力することができるようになっている。そして、チェックボックス44にチェックマークが入力された文字列データに対応する部分領域は、第1画面領域40における表示に取り消し線が表示される。具体的には、図7のように、第2画面領域41の「2:追加!!」のチェックボックス44にチェックマークを入力する場合に、対応する第1画面領域40の「2:追加!!」の表示部分に取り消し線が表示される事になる。
【0100】
また、第2画面領域41においては、表示される複数の文字列データの文字部分を入力部35(具体的にはマウスなどのポインティングデバイス)により選択する場合に図7に示すように白黒が反転表示される。このように反転表示されることにより選択された文字列データに対応する文字列データが第3画面領域42に修正可能な状態で表示される。具体的には、図7に示すように、第2画面領域41の「6:この部分の・・・」を選択して反転表示させると、該当する文字列データが修正可能な状態で第3画面領域42に表示される。さらに、第1画面領域40において、第2画面領域41において選択して反転表示させた文字列データに対応する「6:この部分の図、」で表示される部分領域を示す罫線の枠が太枠で表示されることになる。
【0101】
第3画面領域42は、上述したように、第2画面領域41において入力部35(具体的にはマウスなどのポインティングデバイス)により選択されて反転表示された文字列データが表示される。そして、第3画面領域42においては、入力部35(具体的にはキーボードなどの文字入力装置)によって第2画面領域41において選択された文字列データの修正を受け付ける。すなわち、実際の部分領域に含まれる文字画像と、関連付けられた文字列データとが誤認識により異なる結果となった場合に、ユーザは、第3画面領域42において誤りを含む文字列データを正しい文字列データに修正することができる。
【0102】
図8は、ユーザが文字認識結果データを修正する際の修正作業の作業手順の一例を示すフローチャートである。
【0103】
まず、ユーザが端末装置3、4によって文字認識結果データ55を読み込むと、図7に示すような画像がディスプレイに表示される(S30)。
【0104】
ユーザは、入力部35を操作することにより、プルダウンリスト43から「手書きのみ」を選択して、第2画面領域41において手書き文字の属性データが追加された文字列データのみを表示させる(S31)。
【0105】
ユーザは、入力部35を操作することにより、読み込まれた文字認識結果データ55から第2画面領域41に抽出された複数の文字列データの一つを選択して、反転表示させる(S32)。
【0106】
そして、第2画面領域41において選択されて反転表示となった文字列データは、修正部34により、ユーザの入力部35の操作による修正を受け付ける状態で第3画面領域42に表示される。それと共に、第1画面領域40において、第2画面領域41において選択されて反転表示となった文字列データに対応する部分領域の罫線の枠が太枠で表示される(S33)。
【0107】
ユーザは、第1画面領域40において罫線の枠が太枠で表示される部分領域に表示される文字画像を視認しながら、当該部分領域に関連付けられた文字列データが正しいか否かを第3画面領域42に表示される文字列データと当該文字画像とを比較することにより判定する(S34)。
【0108】
ユーザは、当該部分領域に関連付けられた文字列データが正しいと判定する場合に、第3画面領域42において修正入力を行わずにチェックボックス44にチェックマークを入力する(S35)。
【0109】
ユーザは、当該部分領域に関連付けられた文字列データが誤っていると判定する場合に、第3画面領域42において修正入力を行って正しい文字列データに修正した上でチェックボックス44にチェックマークを入力する(S36)。
【0110】
ユーザは、第2画面領域41において表示される文字列データに対応するチェックボックス44の全てにチェックマークが入力されているか否かを判定する(S37)。ここで、ユーザは、全てにチェックマークが入力されていない場合に、チェックマークが未入力のチェックボックス44に対応する文字列データの修正作業(S31〜S36)を繰り返す。
【0111】
ユーザは、全てのチェックボックス44にチェックマークが入力されている場合に、当該ページの修正作業が終了したと判断して、全てのページにおいて修正作業が行われたか否かを確認する(S38)。ユーザは、未修正のページがある場合には、未修正のページに対して修正作業(S31〜S37)を繰り返す。
【0112】
ユーザは、全てのページに対して修正作業が行われていれば修正作業を終了する。
【0113】
本実施の形態における画像処理装置100は、上記の画像処理として統合処理をさらに行う。統合処理は、同一の書類に対して複数の修正者が手書きで修正した場合に読み込まれた複数の画像データに対して行われるものであって、書類の活字部分が共通する場合に、OCR処理結果を統合する処理である。
【0114】
図9は、本実施の形態における画像処理装置100の統合処理に係る機能構成を示すブロック図である。つまり、図2および図3に示されるハードウェア構成によって発揮されるネットワーク複合機1および端末装置3、4の機能のうち、画像処理装置100の統合処理に関わる機能の構成を示すブロック図である。
【0115】
画像処理装置100は、機能的には、記憶部30と、文字判定部31と、文字データ処理部32と、表示制御部33と、修正部34と、入力部35と、表示部36と、活字一致判定部37と、データ統合部38とを備える。以下、画像処理に係る機能構成の説明と異なる処理部である活字一致判定部37およびデータ統合部38のみについて説明する。
【0116】
活字一致判定部37は、図3におけるCPU、プログラム等によって実現される判定部である。活字一致判定部37は、第1活字認識結果データと第2活字認識結果データとが所定の割合(例えば90%)以上で一致するか否かを判定する。第1活字判定結果データとは、第1画像データに基づいて文字判定部31により判定された第1活字判定結果データと文字パターンとが文字データ処理部32により関連付けられたデータである。第2活字認識結果データとは、第2画像データに基づいて文字判定部31により判定された第2活字判定結果と文字パターンとが文字データ処理部32により関連付けられたデータである。具体的には、活字一致判定部37は、新たに記憶された文字認識結果データ55(以下、新文字認識結果データ56)の活字認識結果データ(以下、新活字認識結果データとする)に基づいて、既に記憶部30に記憶されている複数の文字認識結果データ55(以下、文字認識結果データ群57とする)に含まれる全ての活字認識結果データを照合する。すなわち、新活字認識結果データは、上述の第1活字認識結果データに該当する。そして、活字一致判定部37は、文字認識結果データ群57の中から、新活字認識結果データと一致する活字認識結果データを含む文字認識結果データ55があるか否かを判定する活字一致判定処理を行う。すなわち、文字認識結果データ群57のそれぞれの活字認識結果データが上述の第2活字認識結果データに該当する。
【0117】
なお、活字一致判定処理では、活字認識結果データ同士が所定の割合以上で一致する場合に、一致すると判定する。例えば、活字一致判定処理では、活字の属性データを有する各部分領域の位置情報が一致することと、当該各部分領域に関連付けられた文字列データが一致することの少なくとも2つの要素で判定される。これにより、2つの文字認識結果データの活字認識結果データが一致すると判定される。
【0118】
そして、活字一致判定部37は、活字一致判定処理において一致すると判定された文字認識結果データ55(以下、被一致文字認識結果データ58とする)と新文字認識結果データ56とを関連付けるための一致データテーブル59を出力する。なお、この場合に、被一致文字認識結果データ58が複数ある場合には、全ての被一致文字認識結果データ58と新文字認識結果データ56とが関連付けられるための一致データテーブル59が出力される。
【0119】
データ統合部38は、図3におけるCPU20、プログラム等によって実現される処理部である。データ統合部38は、第1活字認識結果と第2活字認識結果とが所定の割合以上で一致すると活字一致判定部が判定した場合に、第1手書き文字認識結果データと第2手書き文字認識結果データとを統合させて統合手書き文字認識結果データとして出力する。第1手書き文字認識結果データは、第1画像データに基づいて文字判定部31により判定された第1手書き文字と文字パターンとが文字データ処理部32により関連付けられたデータである。第2手書き文字認識結果データは、第2画像データに基づいて文字判定部31により判定された第2手書き文字と文字パターンとが文字データ処理部32により関連付けられたデータである。具体的には、データ統合部38は、記憶部30に格納されている一致データテーブル59に基づいて、活字一致判定部が一致すると判定した新文字認識結果データ56と被一致文字認識結果データ58とを記憶部30から抽出する。そして、データ統合部38は、抽出した新文字認識結果データ56に含まれる手書き文字認識結果データと、被一致文字認識結果データ58に含まれる手書き文字認識結果データとを統合して、統合した結果を統合文字認識結果データ60として出力する。ここで、新文字認識結果データ56に含まれる手書き文字認識結果データは、上述の第1手書き文字認識結果データに該当する。また、被一致文字認識結果データ58に含まれる手書き文字認識結果データは、上述の第2手書き文字認識結果に該当する。統合文字認識結果データ60は、基本的には図5に示す文字認識結果データ55と同じであるが、部分領域の属性データが異なる。統合文字認識結果データ60の部分領域の属性データでは、統合前の手書き文字認識結果データ別に部分領域の属性データが分類される。これについては、例えば第1の文字認識結果データ55と第2の文字認識結果データ55とが統合される場合で説明する。第1の文字認識結果データ55に属する第1手書き文字認識結果データに対応する部分領域の属性データは「第1手書き文字」に分類され、第2の文字認識結果データ55に属する第2手書き文字認識結果データに対応する部分領域の属性データは「第2手書き文字」に分類される。このように、統合文字認識結果データ60では、元の文字認識結果データ55毎に手書き文字認識結果データの部分領域の属性データが分類される。
【0120】
なお、記憶部30は、画像処理に係る機能構成において説明したものと同様であり、さらに、活字一致判定部37により出力される一致データテーブル59と、データ統合部38により出力される統合文字認識結果データ60とを記憶する。
【0121】
また、表示制御部33は、画像処理に係る機能構成において説明したものと同様であり、統合文字認識結果データ60の部分領域に含まれる文字画像と、当該文字画像に関連付けられた文字列データとを別々に表示部36に表示される。
【0122】
修正部34はユーザが入力部35を操作することにより送信される入力信号に基づいて、第3画面領域42に表示された文字列データの修正を受け付けて、統合文字認識結果データ60の各部分領域に関連付けられた文字列データの変更を行う。
【0123】
次に、以上のように構成された本実施の形態における統合処理の処理手順について説明する。
【0124】
図10は、本実施の形態におけるワークフローシステムにおける文字認識結果データ55の統合処理における処理手順を示すフローチャートである。
【0125】
図10に示すように、統合処理は、文字データ処理部32が新文字認識結果データ56を出力した時(画像処理終了時)に開始される。
【0126】
活字一致判定部37は、新文字認識結果データ56が入力されると、記憶部30に文字認識結果データ群57が記憶されているか否かを確認する(S40)。
【0127】
活字一致判定部37は、文字認識結果データ群57がある場合に、記憶部30から新文字認識結果データ56と文字認識結果データ群57とを読み込んで、活字一致判定処理を行う(S41)。
【0128】
活字一致判定部37は一方で、記憶部30に文字認識結果データ群57が記憶されていない場合に、読み込んだ新文字認識結果データ56を文字認識結果データ群57とするための情報を追加する。当該情報を追加された文字認識結果データ55は、文字認識結果データ群57として記憶部30に格納される(S42)。そして、この統合処理を終了する。
【0129】
活字一致判定部37は、活字一致判定処理(S41)において新活字認識結果データと一致する活字認識結果データがあると判定した場合に、被一致文字認識結果データ58と新文字認識結果データ56とを関連付ける(S43)。活字一致判定部37は、当該関連付け処理の結果を一致データテーブル59として出力する。活字一致判定部37により出力された一致データテーブル59は、記憶部30にバッファされる。なお、当該関連付け処理が行われた新文字認識結果データ56には、文字認識結果データ群57とするための情報が追加され、当該情報が追加された文字認識結果データ55は文字認識結果データ群57として記憶部30に格納される。
【0130】
一方、活字一致判定部37は、活字一致判定処理(S41)において新活字認識結果データと一致する活字認識結果データがないと判定した場合に、読み込んだ新文字認識結果データ56を文字認識結果データ群57とするための情報を追加する。当該情報を追加された文字認識結果データ55は、文字認識結果データ群57として記憶部30に格納される(S44)。そして、この統合処理を終了する。
【0131】
そして、データ統合部38は、活字一致判定部37により出力された一致データテーブル59に基づいて、関連付け処理が行われた複数の文字認識結果データ55を記憶部30から抽出する。データ統合部38は、抽出した複数の文字認識結果データ55(すなわち、新文字認識結果データ56および被一致文字認識結果データ58)の各手書き文字認識結果データを統合して、統合した結果を統合文字認識結果データ60として出力する(S45)。データ統合部38に出力された統合文字認識結果データ60は、記憶部に格納されて、統合処理は終了する。
【0132】
表示制御部33は、統合文字認識結果データ60を表示部36に表示させる場合に、次のように表示部36を制御する。統合文字認識結果データ60は、部分領域の属性データが、文字認識結果データ55では「手書き文字」と「活字」との2種類であったのが、「第1手書き文字」、「第2手書き文字」、「活字」の3種類もしくはそれを超える。部分領域の属性データが3種類を超える場合には、活字データが同一と判断される書類の数に応じて異なり、当該書類の数と手書き文字の属性の数とが一致するように増加する。例えば活字データが同一と判断される書類の数が3つであれば、部分領域の属性データは、「第1手書き文字」、「第2手書き文字」、「第3手書き文字」、「活字」の4種類となる。
【0133】
部分領域の属性データが3種類となる場合には、文字認識結果データのプルダウンリスト43の表示は、統合文字認識結果データ60では、「文字列全て」、「手書きのみ」、「手書き1のみ」、「手書き2のみ」、「活字のみ」となる。ここで、「手書きのみ」が選択された場合に、部分領域の属性データが第1手書き文字または第2手書き文字にかかわらず、全ての手書き文字が第2画面領域41において表示される。「手書き1のみ」が選択された場合に、部分領域の属性データが第1手書き文字のみの文字列データが第2画面領域41において表示される。「手書き2のみ」が選択された場合に、部分領域の属性データが第2手書き文字のみの文字列データが第2画面領域41において表示される。
【0134】
さらに、第1画面領域40において表示される文字の色についても、第1手書き文字は赤色、第2手書き文字は青色、活字は黒色に表示される。また、第2画面領域において表示される文字の色についても同様である。ただし、これに限定するものではなく、第1手書き文字、第2手書き文字に関わらず手書き文字全般が赤色で表示されるようにしても良い。
【0135】
以上のように本実施形態の画像処理装置100によれば、文書を光学的に読み取って得られた画像データ53から認識された手書き文字認識結果データを抽出して、手書き文字認識結果データの文字列データを元の画像データ53が表示される第1画面領域40とは異なる第2画面領域41に表示させる。そして、修正部34ユーザからの修正の指示に基づいて、第3画面領域42に表示される文字データ処理部32により関連付けられた文字列データの変更を行う。
【0136】
このため、ユーザが、手書き文字認識結果データと、元の画像データ53の中の手書き文字の属性データを有する文字画像とを見比べて修正することができる。また、誤認識が発生しやすい手書き文字認識結果データのみを抽出して第2画面領域41に表示させるため、手書き文字のOCR処理結果の確認漏れまたは修正漏れを防ぐことができる。これにより、ユーザは、OCR処理結果を修正する際に、効率よく作業することができる。
【0137】
また、本実施形態に係る画像処理装置100によれば、活字の文字候補領域に対してもOCR処理を行なっている。このため、表示制御部33は、活字を抽出して手書き文字と選択可能な状態で表示させることができる。また、修正部34は、ユーザからの修正の指示に基づいて、活字のOCR処理結果に対しても、修正を受け付けて、文字列データの変更を行う。このため、ユーザは、活字に対してもOCR処理結果を修正することができる。
【0138】
また、本実施形態に係る画像処理装置100によれば、複数の画像データ53に対する活字認識結果データが所定の割合以上で一致する場合に、複数の画像データ53が同一の書類に対して修正が行われたものであるとみなす。そして、当該複数の画像データ53に係る複数の手書き文字認識結果データを統合する。統合された統合手書き文字認識結果は、第2画面領域41に表示される。
【0139】
これにより、修正者が複数いるような場合であっても、ユーザは、第2画面領域41に表示される手書き文字認識結果データと第1画面領域40において表示される元の画像データ53の中の部分領域に含まれる文字画像とを見比べて修正することができる。また、誤認識が発生しやすい手書き文字のみを抽出して第2画面領域41に表示させるため、誤認識されたOCR処理結果の確認漏れまたは修正漏れを防ぐことができる。これにより、ユーザは、OCR処理結果を修正する際に効率よく作業することができる。また、複数の修正者による手書きの書き込みを統合して表示させることができるため、1つの原稿に対する作業効率を向上させることができる。
【0140】
また、本実施形態に係る画像処理装置100によれば、第2画面領域41に表示された手書き文字認識結果データの文字列データ(すなわち手書き文字のOCR処理結果)を修正可能なフィールドをさらに別の第3画面領域42に表示させる。これにより、ユーザは、元の画像データ53による手書き文字を参照しながら、手書き文字のOCR処理結果の確認または修正を行うことができる。
【0141】
また、本実施形態に係る画像処理装置100によれば、第1画面領域40において、第1手書き文字認識結果データに対応する文字画像が赤色で表示され、第2手書き文字認識結果データに対応する文字画像が青色で表示される。このことは、第2画面領域41において表示される文字の色についても同様である。
【0142】
このため、複数の修正者が、例えば文章の内容の修正、誤字脱字の修正等の役割毎に分けられている場合に、役割毎の手書き文字による修正をユーザは把握できる。これにより、例えばユーザが手書き文字のOCR処理結果の修正を行う時間が限られるなどの制限がある場合に、優先度の高い役割と認識された手書き文字による修正を選んで手書き文字のOCR処理結果の修正を行うことができる。
【0143】
また、本実施形態に係る画像処理装置100によれば、文字判定部31は、各部分領域の表示位置および表示範囲を文字判定結果データ54として出力する。このため、ユーザが、例えば第2画面領域41において抽出された文字列データを選択したときに、選択された文字列データに対応する部分領域の表示を変更できる。
【0144】
また、本実施形態に係る画像処理装置100によれば、第1画面領域40において、表示される活字の属性データを有する部分領域の文字画像が黒色で表示され、手書き文字の属性データを有する部分領域の文字画像が赤色で表示される。このため、ユーザは、第1画面領域40において、画像データ53における活字の文字画像と手書きの文字画像とを瞬時に見分けることができる。
【0145】
また、本実施形態に係る画像処理装置100によれば、ユーザが、第2画面領域41に表示される文字列データに対応するチェックボックスにチェックを入れると、チェックされた文字列データに対応する部分領域の文字画像の上に取り消し線が表示される。
【0146】
このため、ユーザは、例えばOCR処理結果の確認または修正が終了した文字列データに対応するチェックボックスにチェックを入れることにより、当該文字列データに対応する部分領域の文字画像の表示を変更することができる。これにより、ユーザは、OCR処理結果の確認または修正が終了した文字列データに対応する部分領域の文字画像を瞬時に見分けることができ、誤認識されたOCR処理結果の確認漏れまたは修正漏れを防ぐことができる。これにより、ユーザは、OCR処理結果を修正する際に効率よく作業することができる。
【0147】
また、本実施形態に係る画像処理装置100によれば、ユーザが、第2画面領域41に表示される文字列データをマウスなどのポインティングデバイスでクリックして反転表示させると、反転表示された文字列データに対応する部分領域の文字画像が反転表示される。
【0148】
このため、ユーザは、上述のような選択を第2画面領域41の文字列データに対して行うことにより、当該選択された文字列データに対応する部分領域の文字画像を第1画面領域40において瞬時に見分けることができる。これにより、ユーザは、OCR処理結果を修正する際に効率よく作業することができる。
【0149】
また、本発明は、このような画像処理装置として実現できるだけでなく、画像処理装置が備える特徴的な処理部のそれぞれの動作をステップとして方法として実現することもでき、また、本発明は、各処理部の処理を行う集積回路として実現することもできる。さらに、本発明は、コンピュータに上記各ステップを実行させるためのプログラムとして実現することもできる。そのようなプログラムは、CD−ROM等の記録媒体またはインターネット等の伝送媒体を介して配信することもできる。また、本発明は、このような画像処理装置を内蔵するネットワーク複合機として実現することもできる。
【0150】
以上、本発明に係る画像処理装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。
【0151】
つまり、今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0152】
例えば、上記実施の形態では、第1画面領域において表示される手書き文字の属性データに対応する部分領域の色が赤色で表示され、第1画面領域において表示される活字の属性データに対応する部分領域の色が黒色で表示される。このように、手書き文字の属性データに対応する部分領域と活字の属性データに対応する部分領域との表示形態を異なるものとしているが、これに限らない。例えば、手書き文字の属性データに対応する部分領域を囲う罫線の枠が太線の実線で表示され、活字の属性データに対応する部分領域を囲う罫線の枠が点線で表示されるように、文字候補領域を囲う罫線の枠の表示形態を異なるものとしても良い。また、例えば、手書き文字の属性データに対応する部分領域の文字が斜体表示され、活字の属性データに対応する部分領域の文字が元の画像データ53のままで表示されように、文字のフォントを異なるものとしても良い。
【0153】
また、上記実施の形態では、画像処理装置100には画像取得部39が含まれていないが、これに限らずに図11に示すように、画像取得部39が含まれる構成の画像処理装置200であっても良い。この画像処理装置200によれば、画像取得部39をさらに備えるため、スキャナまたはデジタルカメラなどの画像取得装置を別に用意しなくとも、上述の画像処理を行うことができる。
【0154】
また、本実施の形態では、文字判定部31が文字候補領域の切出処理と手活判定処理とを行っており、文字データ処理部32が文字パターン関連付け処理を行っているが、これに限らない。文字候補領域の切出処理と、手活判定処理と、文字パターン関連付け処理とは、これらの3つの処理を3つの異なる処理部が単独により行っても良いし、1つの処理部が一括して行っても良いし、3つの処理のうちの2つの処理を1つの処理部が行い残りの1つの処理を別の1つの処理部が行っても良い。
【0155】
また、上記実施の形態では、画像処理装置100として端末装置3、4を構成するハードウェアが機能しているが、これに限らずに、ネットワーク複合機1が画像処理装置100として機能しても良い。なお、この場合に、記憶部30は、図2におけるRAM12等によって実現される。文字判定部31、文字データ処理部32、表示制御部33、および修正部34は、図2におけるCPU10、制御プログラム50等によって実現される。入力部35は、図2における操作パネル15によって実現される。表示部36は、図2におけるディスプレイ16によって実現される。また、ネットワーク複合機1が文字認識結果データ55を作成するまでの処理を行い、その後の修正部34による処理を端末装置3、4が行うようにしても良い。
【0156】
また、上記実施の形態では、ユーザのワークフロー処理のステップS21において、ユーザはプルダウンリスト43から「手書きのみ」を選択しているが、これに限らずに、ユーザの必要に応じて「文字列全て」を選択しても良いし、「活字のみ」を選択しても良い。
【0157】
また、上記実施の形態では、統合処理において新文字認識結果データ56が生じると自動的に統合処理が行われているが、これに限らずに、ユーザが選択した複数の文字認識結果データ55に関してのみ統合処理を行うようにしても良い。また、統合処理を行うデータとしては、文字認識結果データに限らずに画像データであっても良く、この場合には、ユーザは画像データを複数選択し画像処理(S10〜S20)の結果として出力される文字認識結果データが利用されることになる。
【0158】
これにより、この場合の画像処理装置は、活字一致判定部37が選択された文字認識結果データ55のみに対して活字一致判定処理を行うこととなる。このため、この場合の画像処理装置は、既に記憶部30に記憶されている全ての文字認識結果データ55に対して活字一致判定処理を行わなくとも良くなり、システムに係る負荷を軽減させることができる。
【0159】
また、上記実施の形態では、各処理部において作成されるデータは、記憶部30(すなわちハードディスク)に記憶されるようにしているが、これに限らずに、例えば記憶部30にバッファされるものについてはRAM22に記憶されるようにしても良い。
【0160】
また、上記実施の形態では、修正部34は、ユーザがプルダウンリスト43から属性データの区分を選択することにより、選択的に手書き文字または活字のいずれかの属性データを有する部分領域の文字列データを表示部36に表示させている。しかし、これに限らず、プルダウンリスト43が無くとも良く、自動的に手書き文字の属性データを有する部分領域の文字列データを表示させても良い。このように、少なくとも手書き文字の属性データを有する部分領域の文字列データを表示させることにより、OCR処理の認識精度が低い手書き文字のOCR処理結果を修正できるため、十分に誤認識されたOCR処理結果の確認漏れまたは修正漏れを防ぐ効果を得ることができる。
【0161】
また、上記実施の形態では、表示制御部33は、部分領域の文字列データを抽出して第2画面領域41に表示させているが、第2画面領域41に表示させるのは文字列データに限らない。例えば、文字判定部31が部分領域切出処理を行うことにより画像データ53から分解された部分領域の文字画像を表示させても良い。すなわち、文字判定部31によって処理された文字判定結果データ54に基づいて、第2画面領域41に手書き文字の部分領域に関する文字情報(文字画像)を抽出して表示すれば良く、上記実施の形態のように文字判定結果データ54がさらに文字データ処理部32によって処理された文字認識結果データ55に基づいて、第2画面領域41に手書き文字の部分領域に関する文字情報(すなわち、文字画像)が抽出されて表示されてもよいし、文字列データが抽出されて表示されても良い。
【0162】
また、上記実施の形態では、修正部34は、ユーザからの修正の指示に基づいて、第3画面領域42において部分領域の文字列データの修正を受け付けて、文字列データの変更を行っているが、この表示を行う画面領域は第3画面領域42に限らない。例えば、ユーザからの文字列データの修正状況を表示する画面領域は、第1画面領域40であってもよいし第2画面領域41であっても良い。
【産業上の利用可能性】
【0163】
本発明は、誤認識されたOCR処理結果の確認漏れまたは修正漏れを防ぐことができる画像処理装置または当該画像処理装置を内蔵したネットワーク複合機等として利用することができる。
【符号の説明】
【0164】
1、2 ネットワーク複合機
3、4 端末装置
5 PSTN
6 LAN
7 デジタルカメラ
10 CPU
11 ROM
12 RAM
13 モデム
14 NCU
15 操作パネル
16 ディスプレイ
17 スキャナ
18 プリンタ
19 LANI/F
20 CPU
21 ハードディスク
22 RAM
23 入力装置
24 ディスプレイ
25 LANI/F
26 USBI/F
30 記憶部
31 文字判定部
32 文字データ処理部
33 表示制御部
34 修正部
35 入力部
36 表示部
37 活字一致判定部
38 データ統合部
39 画像取得部
40 第1画面領域
41 第2画面領域
42 第3画面領域
43 プルダウンリスト
44 チェックボックス
50 制御プログラム
51 画像処理プログラム
52 文字パターンデータ
53 画像データ
54 文字判定結果データ
55 文字認識結果データ
56 新文字認識結果データ
57 文字認識結果データ群
58 被一致文字認識結果データ
59 一致データテーブル
60 統合文字認識結果データ
100 画像処理装置
110 画像取得装置
200 画像処理装置

【特許請求の範囲】
【請求項1】
文書を光学的に読み取って得られる画像データに対して処理を行う画像処理装置であって、
表示部と、
前記画像データから文字候補領域を認識して、前記文字候補領域に含まれる文字が手書き文字であるか否かを判定して、手書き文字と判定した場合に当該判定の結果を手書き文字判定結果として出力する文字判定部と、
前記文字判定部により手書き文字であると判定された文字を文字認識の候補となる文字パターンと関連付けて、当該関連付けた結果を手書き文字認識結果として出力する文字データ処理部と、
前記画像データを前記表示部の第1画面領域に表示させ、前記文字判定部により出力された手書き文字判定結果を前記第1画面領域とは異なる前記表示部の第2画面領域に表示させ、前記第2画面領域においてユーザに選択された前記手書き文字判定結果に対応する前記手書き文字認識結果のうちで前記文字データ処理部により関連付けられた文字パターンを前記表示部の第3画面領域に表示させる表示制御部と、
ユーザからの修正の指示に基づいて、前記第3画面領域に表示された前記文字パターンの修正を受け付けて、前記手書き文字認識結果のうちで前記文字データ処理部により関連付けられた文字パターンの変更を行う修正部と
を備える画像処理装置。
【請求項2】
前記文字判定部は、さらに、前記文字候補領域に含まれる文字が、活字であるか否かを判定して、活字であると判定した場合に当該判定の結果を活字判定結果として出力し、
前記文字データ処理部は、さらに、前記文字判定部により判定された活字を前記文字パターンと関連付けて、当該関連付けた結果を活字認識結果として出力し、
前記表示制御部は、さらに、前記文字判定部により出力された活字判定結果を前記第2画面領域に表示させ、前記活字認識結果のうちで前記文字データ処理部により関連付けられた文字パターンを前記第3画面領域に表示させる
請求項1に記載の画像処理装置。
【請求項3】
さらに、
第1画像データに基づいて前記文字判定部により判定された第1活字判定結果と前記文字パターンとが前記文字データ処理部により関連付けられた第1活字認識結果と、第2画像データに基づいて前記文字判定部により判定された第2活字判定結果と前記文字パターンとが前記文字データ処理部により関連付けられた第2活字認識結果とが、所定の割合以上で一致するか否かを判定する活字一致判定部と、
前記第1活字認識結果と前記第2活字認識結果とが前記所定の割合以上で一致すると前記活字一致判定部が判定した場合に、前記第1画像データに基づいて前記文字判定部により判定された第1手書き文字と前記文字パターンとが前記文字データ処理部により関連付けられた第1手書き文字認識結果と、第2画像データに基づいて前記文字判定部により判定された第2手書き文字と前記文字パターンとが前記文字データ処理部により関連付けられた第2手書き文字認識結果とを統合させて統合手書き文字認識結果として出力するデータ統合部と
を備え、
前記表示制御部は、前記統合手書き文字認識結果を前記第2画面領域に表示させ、前記第2画面領域においてユーザに選択された前記統合手書き文字認識結果のうちで前記文字データ処理部により関連付けられた文字パターンを前記第3画面領域に表示させ、
前記修正部は、ユーザからの修正指示に基づいて、前記第1手書き文字認識結果のうちで前記文字データ処理部により関連付けられた第1文字パターンの修正を受け付けて、前記統合手書き文字認識結果のうちで前記文字データ処理部により関連付けられた前記第1文字パターンの変更を行う、または、前記第2手書き文字認識結果のうちで前記文字データ処理部により関連付けられた第2文字パターンの修正を受け付けて、前記統合手書き文字認識結果のうちで前記文字データ処理部により関連付けられた前記第2文字パターンの変更を行う
請求項2に記載の画像処理装置。
【請求項4】
前記第3画面領域は、前記第1画面領域および前記第2画面領域とは異なる画面領域である
請求項1から3のいずれか1項に記載の画像処理装置。
【請求項5】
前記表示制御部は、前記第1手書き文字認識結果を第1表示形態により前記第2画面領域に表示させ、前記第2手書き文字認識結果を前記第1表示形態とは異なる第2表示形態により前記第2画面領域に表示させる
請求項4に記載の画像処理装置。
【請求項6】
前記文字判定部は、前記手書き文字判定結果としてさらに、手書き文字が含まれると判定された文字候補領域の表示位置および表示範囲を出力する
請求項1から5のいずれか1項に記載の画像処理装置。
【請求項7】
前記文字判定部は、さらに、前記文字候補領域に含まれる文字が、活字であるか否かを判定して、活字であると判定した場合に当該判定の結果を前記画像データにおける活字の表示位置および活字の表示範囲とともに活字判定結果として出力し、
前記表示制御部は、前記手書き文字判定結果および前記活字判定結果に基づいて、前記文字判定部により活字が含まれると判定された文字候補領域を第3表示形態により前記第1画面領域に表示させ、前記文字判定部により手書き文字が含まれると判定された文字候補領域を前記第3表示形態とは異なる第4表示形態により前記第1画面領域に表示させる
請求項6に記載の画像処理装置。
【請求項8】
前記表示制御部は、前記第2画面領域に表示される手書き文字判定結果に対して第1の選択をユーザが行った場合に、前記第1の選択の対象となった手書き文字判定結果に対応する文字候補領域を第5表示形態により前記第1画面領域に表示させる
請求項6または7に記載の画像処理装置。
【請求項9】
前記表示制御部は、さらに、前記第2画面領域に表示される手書き文字判定結果に対して第2の選択をユーザが行った場合に、部前記第2の選択の対象となった手書き文字判定結果に対応する文字候補領域を前記第5表示形態とは異なる第6表示形態により前記第1画面領域に表示させる
請求項8に記載の画像処理装置。
【請求項10】
さらに、
文書から光学的に前記画像データを取得する画像取得部を備える
請求項1から9のいずれか1項に記載の画像処理装置。
【請求項11】
さらに、
前記文字パターンを記憶している記憶部を備える
請求項1から10のいずれか1項に記載の画像処理装置。
【請求項12】
文書を光学的に読み取って得られる画像データに対して処理を行う画像処理方法であって、
前記画像データから文字候補領域を認識して、前記文字候補領域に含まれる文字が手書き文字であるか否かを判定して、手書き文字と判定した場合に当該判定の結果を手書き文字判定結果として出力する文字判定ステップと、
前記文字判定ステップにより判定された手書き文字を文字認識の候補となる文字パターンと関連付けて、当該関連付けた結果を手書き文字認識結果として出力する文字データ処理ステップと、
前記画像データを表示部の第1画面領域に表示させ、前記文字判定ステップにより出力された手書き文字判定結果を前記第1画面領域とは異なる前記表示部の第2画面領域に表示させ、前記第2画面領域においてユーザに選択された前記手書き文字判定結果に対応する前記手書き文字認識結果のうちで前記文字データ処理部により関連付けられた文字パターンを前記表示部の第3画面領域に表示させる表示制御ステップと、
ユーザからの修正の指示に基づいて、前記第3画面領域に表示された前記文字パターンの修正を受け付けて、前記手書き文字認識結果のうちで前記文字データ処理部により関連付けられた文字パターンの変更を行う修正ステップと
を備える画像処理方法。
【請求項13】
請求項12に記載の画像処理方法に含まれるステップをコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate