説明

画像処理装置とその制御方法及び画像処理システム

【課題】 ある文字列を文字認識できる画像処理装置がネットワークに存在しても、たまたまOCR処理を実行した画像処理装置の文字認識能力で、そのOCR処理の結果の精度が決まってしまう。
【解決手段】 MFPにおいて、画像の文字領域に含まれる画像データに基づいて文字認識処理を実行し、その文字認識処理の処理結果に誤認識が含まれている可能性が高いと判定された場合、処理結果に誤認識が含まれている可能性が高いことを示す第1の情報とともに、その処理結果を他のMFPに出力する。より高度の文字認識機能を有する他のMFPは、その処理結果を取得し、第1の情報を含む場合に、その文字領域に含まれる画像データに対して文字認識処理を実行する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像に対して文字認識処理を実行する画像処理装置とその装置の制御方法及び画像処理システムに関するものである。
【背景技術】
【0002】
ネットワークを介して多数の画像処理装置(プリンタ、スキャナ、デジタル複写機、FAX装置等)を接続し、これら画像処理装置を連携して動作させることにより、より高度な機能を実現することが望まれている。そのために画像処理装置間で送受信する画像データを、解像度に依存しない画像データ形式(解像度非依存データ:ベクタデータ)に変換する(ベクタライズ)ことが提案されている。このベクタデータを受信した各画像処理装置は、それをビットマップ画像に変換(ラスタライズ)するため、解像度変換による画像劣化も発生しない。そのため各々の画像処理装置に適したビットマップイメージを生成して高品位な画像を得ることが可能となり、特に能力が異なる各種画像処理装置を相互に連携させる技術として重要である。
【0003】
また、ベクタライズされた画像データの付加情報として、印刷対象外の情報(メタデータ)を管理することも提案されている。このメタデータには、画像データに関連する情報が含まれており、画像処理のヒントにしたり、メタデータの情報をキーワードとして画像検索を行ったりすることが考えられている。
【0004】
更に、スキャナ装置で読み取った原稿のビットマップ画像に対してOCR処理(文字認識処理)を行い、そのOCR処理結果として得られた文字コードをメタデータとして画像データに付加することで、その画像の検索用情報とすることも提案されている。
【0005】
また、入力した画像データを画像処理装置内の二次記憶装置にファイルとして保存しておけば、ユーザが好きな時に取り出して繰り返し出力することができる。このように画像データの再利用を目的として、画像処理装置の二次記憶装置に画像データをファイル形式で保存する機能をボックス機能と呼び、ファイルシステムをボックスと呼ぶ。このボックス機能を用いると、格納された画像データを再度印刷したり、能力の異なる他の画像処理装置に配信したりする等、一度生成した画像データを繰り返し再利用することも可能である。このようにボックスに保存された大量の画像データが、ネットワークを介して接続された多数の画像処理装置に分散して蓄積されている場合、画像データの検索ができれば便利である。その検索方法の一つとして、前述のOCR処理結果をメタデータとして画像データに付加しておき、そのメタデータを検索することで、高速かつ簡単に目的の画像データを探すことが考えられる。しかしながら、OCR処理による文字認識は、画像処理装置が備えるOCR機能がサポートしている言語や、画像処理装置のOCR処理能力等によって、文字の誤認識率が高くなる場合がある。そのため、OCR処理における誤認識の可能性がある場合、OCR処理を実行せず、その領域を入力されたビットマップ画像のまま保存する技術が提案されている(特許文献1)。
【特許文献1】特開2000−339402号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら上述の従来技術において、文字を正確に認識できずビットマップ画像のままとしている領域は、OCR処理能力の異なる別の画像処理装置では正しく文字認識ができる可能性がある。例えば、複写機やプリンタ装置は同一機種がさまざまな言語地域に出荷されるため、そのOCR機能も各言語に対応して一様ではない。よって、英語向けの画像処理装置で日本語の文字を含む画像をOCR処理した場合には文字認識ができない可能性がある。この場合、日本語のOCR処理が可能な画像処理装置があれば、その画像処理装置に画像を転送することで正しいOCR処理結果が得られる可能性が高い。また原稿の文字サイズが極端に小さかったり、文字のかすれがあったりする場合には、文字認識の能力がより高いのOCR機能を備えた装置のほうが適切に文字を認識できる可能性が高い。
【0007】
このように従来の技術では、ある文字列を文字認識できる画像処理装置がネットワークに存在しても、たまたまOCR処理を実行した画像処理装置の文字認識能力で、そのOCR処理の処理結果が決まってしまっていた。このため、たとえ他の画像処理装置がより能力が高いOCR機能を備えていたとしても、その能力を充分に活用できないという問題があった。
【0008】
本発明の目的は、上記従来技術の問題点を解決することにある。
【0009】
また本発明の特徴は、ある画像処理装置において実行された文字認識処理の結果に誤認識が含まれている可能性が高い場合に、より高い文字認識能力を有する他の画像処理装置において文字認識処理を実行できるようにすることである。を提供することにある。
【課題を解決するための手段】
【0010】
上記目的を達成するために本発明の一態様に係る画像処理装置は以下のような構成を備える。即ち、
画像に含まれる文字領域を識別する識別手段と、
前記識別手段により識別された文字領域に含まれる画像データに基づいて、文字認識処理を実行する文字認識手段と、
前記文字認識処理の処理結果を出力する第1の出力手段と、
前記文字認識処理の処理結果に誤認識が含まれている可能性が高いか否かを判定する判定手段と、
前記判定手段により、前記文字認識処理の処理結果に誤認識が含まれている可能性が高いと判定された場合に、前記文字認識処理の処理結果に誤認識が含まれている可能性が高いことを示す第1の情報とともに、前記文字認識処理の処理結果を出力するよう制御する制御手段とを有することを特徴とする。
【0011】
上記目的を達成するために本発明の一態様に係る画像処理システムは以下のような構成を備える。即ち、
ネットワークを介して接続された少なくとも第1と第2の画像処理装置を含む画像処理システムであって、
前記第1の画像処理装置は、
画像に含まれる文字領域を識別する識別手段と、
前記識別手段により識別された文字領域に含まれる画像データに基づいて、第1の文字認識処理を実行する第1の文字認識手段と、
前記第1の文字認識処理の処理結果を出力する出力手段と、
前記第1の文字認識処理の処理結果に誤認識が含まれている可能性が高いか否かを判定する判定手段と、
前記判定手段により、前記第1の文字認識処理の処理結果に誤認識が含まれている可能性が高いと判定された場合に、前記第1の文字認識処理の処理結果に誤認識が含まれている可能性が高いことを示す第1の情報とともに、前記第1の文字認識処理の処理結果を出力するよう制御する制御手段とを備え、
前記第2の画像処理装置は、
前記第1の画像処理装置から出力された前記第1の文字認識処理の処理結果を取得する取得手段と、
前記第1の文字認識手段よりも文字認識能力が高い文字認識手段であって、第2の文字認識処理を実行する第2の文字認識手段とを備え、
前記第2の文字認識手段は、前記取得手段で取得した前記第1の文字認識処理の処理結果に前記第1の情報が含まれている場合に、前記第1の文字認識処理を実行した画像データに対して前記第2の文字認識処理を実行することを特徴とする画像処理システム。
【0012】
上記目的を達成するために本発明の一態様に係る画像処理装置の制御方法は以下のような工程を備える。即ち、
画像に含まれる文字領域を識別する識別工程と、
前記識別工程で識別された文字領域に含まれる画像データに基づいて、文字認識処理を実行する文字認識工程と、
前記文字認識処理の処理結果を出力する第1の出力工程と、
前記文字認識処理の処理結果に誤認識が含まれている可能性が高いか否かを判定する判定工程と、
前記判定工程において、前記文字認識処理の処理結果に誤認識が含まれている可能性が高いと判定された場合に、前記文字認識処理の処理結果に誤認識が含まれている可能性が高いことを示す第1の情報とともに、前記文字認識処理の処理結果を出力するよう制御する制御工程とを有することを特徴とする。
【発明の効果】
【0013】
本発明によれば、ある画像処理装置において実行された文字認識処理の結果に誤認識が含まれている可能性が高い場合に、より高い文字認識能力を有する他の画像処理装置において文字認識処理を実行することができる。
【発明を実施するための最良の形態】
【0014】
以下、添付図面を参照して本発明の好適な実施の形態を詳しく説明する。尚、以下の実施の形態は特許請求の範囲に係る本発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
【0015】
<画像処理装置の構成>
本実施の形態を適用するに好適な1DカラーMFP(Multi Function Peripheral:多機能装置)の構成について、図1を用いて説明する。
【0016】
図1は、本実施の形態に係る画像処理装置(複合機)の構成を示す図である。
【0017】
この画像処理装置は、スキャナ部101、レーザ露光部102、感光ドラム103を有する作像部104、定着部105、給紙/搬送部106及び、これらを制御するプリンタ制御部(不図示)を有している。
【0018】
スキャナ部101は、原稿台に置かれた原稿に対して、光源からの光を照射し原稿上の画像を光学的に読み取り、その像を電気信号に変換して画像データを作成する。レーザ露光部102は、その画像データに応じて変調されたレーザ光等の光線を等角速度で回転する回転多面鏡(ポリゴンミラー)に入射し、その反射光を走査光として感光ドラム103に照射する。作像部104は、感光ドラム103を回転駆動し、帯電器によって帯電させ、レーザ露光部102によって感光ドラム103上に形成された潜像をトナーによって現像化し、そのトナー像をシートに転写する。その際に転写されずに感光ドラム103に残った微小トナーを回収するといった一連の電子写真プロセスを実行して作像する。その際、シートが転写ドラム107の所定位置に巻付く。そして4回転する間に、マゼンタ(M)、シアン(C)、イエロー(Y)、ブラック(K)のトナーを持つそれぞれの現像ユニット(現像ステーション)が入れ替わりで順次前述の電子写真プロセスを繰り返し実行する。4回転の後、4色のフルカラートナー像が転写されたシートは転写ドラム107を離れて定着部105へ搬送される。
【0019】
定着部105は、ローラやベルトの組み合わせによって構成され、ハロゲンヒータ等の熱源を内蔵し、作像部104でトナー像が転写されたシート上のトナーを、熱と圧力によって溶解、定着させる。
【0020】
給紙/搬送部106は、シートカセットやペーパーデッキに代表されるシート収納庫を一つ以上持っており、プリンタ制御部の指示に応じてシート収納庫に収納された複数のシートの中から一枚分離し、作像部104、定着部105へ搬送する。シートは作像部104の転写ドラム107に巻きつけられ、4回転した後に定着部105へ搬送される。4回転する間に前述のYMCK各色のトナー像がシートに転写される。また、シートの両面に画像形成する場合は、定着部105を通過したシートを再度作像部104へ搬送する搬送経路を通るように制御する。
【0021】
プリンタ制御部は、この画像処理装置全体を制御する制御部と通信して、その指示に応じて制御を実行すると共に、前述のスキャナ、レーザ露光、作像、定着、給紙/搬送の各部の状態を管理しながら、全体が調和を保って円滑に動作できるよう指示する。
【0022】
<システム構成>
図2は、本実施の形態に係る画像処理システムの全体構成を示すブロック図である。
【0023】
図において、この画像処理システムは、互いにLAN(Local Area Network)10等を介して接続されたMFP1,MFP2,MFP3を有している。これらMFP1,MFP2,MFP3は、ネットワークプロトコルを使用して互いに通信することができる。尚、LAN10に接続されるこれらのMFPは、上記のような物理的な配置に限定されなくても良い。また、LAN10にはMFP以外の機器(例えばPC、各種サーバ、プリンタ等)が接続されていても良い。各MFPはそれぞれHDD(ハードディスク:二次記憶装置)H1,H2,H3を具備している。
【0024】
ここで各MFPは、それぞれの個々の装置の基本設定として、言語及び仕向け設定を持つ。ここでMFP1は、言語が英語(EN)で北米(US)向け仕様の装置である。MFP2は、言語が日本語(JA)で北米(US)向け仕様の装置であり、MFP3は、言語が日本語(JA)で日本(JP)向け仕様の装置である。更に、各装置が具備するOCRソフトウェアの文字認識能力も異なっている。MFP1とMFP2は同等のOCR処理能力(Level 1)であるが、MFP3は、それよりも優れた(Level 3)OCR処理能力を備えている。このように、様々な仕様、言語、能力をもった画像処理装置がネットワーク10を介して接続されており、ドキュメントを相互に送信し、プリンタで印刷したり、ボックスに保存したりすることが可能に構成されている。
【0025】
<制御部の説明>
図3は、本実施の形態に係る画像処理装置(複合機)の制御部(コントローラ)の構成例を示すブロック図である。
【0026】
図において、制御部200は、画像入力デバイスであるスキャナ部101や画像出力デバイスであるプリンタエンジン202と接続し、画像データの読み取りやプリント出力のための制御を行う。また制御部200は、LAN10や公衆回線204と接続することで、画像情報やデバイス情報をLAN10経由で入出力するための制御を行う。
【0027】
CPU205は、このMFP全体を制御するための中央処理装置である。RAM206にはCPU205が実行するプログラムがロードされ、またCPU205が動作するためのワークメモリを提供している。更に、このRAM206は、入力された画像データを一時記憶するための画像メモリも提供している。ROM207はブートROMであり、システムのブートプログラムを格納している。HDD208はハードディスクドライブで、各種処理のためのシステムソフトウェア及び入力された画像データ等を格納する。操作部I/F209は、画像データ等を表示可能な表示画面を有する操作部210に対するインタフェース部であり、操作部210に対して表示データを出力する。また操作部I/F209は、操作部210から操作者が入力した情報をCPU205に伝える役割をする、各種指示をユーザが入力可能なユーザインタフェース手段を提供する。ネットワークインタフェース211は、例えばLANカード等で実現され、LAN10に接続して外部装置との間で各種情報の入出力を制御する。また、モデム212は公衆回線204に接続し、外部装置との間で情報の入出力を制御する。以上のユニットがシステムバス213上に配置されている。
【0028】
イメージバスI/F214は、画像データを高速で転送する画像バス215とシステムバス213とを接続するためのインタフェースであり、データ構造を変換するバスブリッジである。画像バス215には、ラスタイメージプロセッサ(RIP)216、デバイスI/F217、スキャナ画像処理部218、プリンタ画像処理部219、編集用画像処理部220、カラーマネージメントモジュール(CMM)230が接続される。ラスタイメージプロセッサ(RIP)216は、ページ記述言語(PDL)コードや後述するベクトルデータをイメージデータに展開する。デバイスI/F部217は、スキャナ部101やプリンタエンジン202と制御部200とを接続し、画像データの同期系/非同期系の変換を行う。
【0029】
またスキャナ画像処理部218は、スキャナ部101から入力した画像データに対して、補正、加工、編集等の各種処理を行う。プリンタ画像処理部219は、印刷用の画像データに対して、プリンタエンジン202に応じた補正、解像度変換等の処理を行う。編集用画像処理部220は、画像データの回転や、画像データの圧縮伸長処理等の各種画像処理を行う。CMM230は、画像データに対して、プロファイルやキャリブレーションデータに基づいた、色変換処理(色空間変換処理ともいう)を施す専用ハードウェアモジュールである。プロファイルとは、機器に依存した色空間で表現したカラー画像データを機器に依存しない色空間(例えばLab等)に変換するための関数のような情報である。キャリブレーションデータとは、複合機におけるスキャナ部101やプリンタエンジン202の色再現特性を修正するためのデータである。
【0030】
<ソフトウェア構成>
図4は、本実施の形態に係る画像処理装置の動作を制御するソフトウェアの構成を示すブロック図である。
【0031】
プリンタインターフェイス1200は、ネットワーク10との入出力を制御するインタフェースである。プロトコル制御部1101は、ネットワークプロトコルを解析・送信することによって外部との通信を制御する。ベクタデータ生成部1102は、ビットマップイメージから解像度に依存しない描画記述であるベクタデータを生成(ベクタライズ)する。メタデータ生成部1103は、ベクタデータ生成部1102におけるベクタライズの過程で得られる副次情報をメタデータとして生成する。このメタデータは、描画処理には使用されない付加情報であって、検索などに使用されるデータである。このベクタデータのレンダリングに要する処理量の指数も、メタデータとして生成される。PDL解析部1104は、PDLデータを解析し、より処理しやすい形式の中間コード(DisplayList)に変換する。このPDL解析部1104で生成された中間コードは、データ描画部1105に渡されて処理される。データ描画部1105は、その中間コードをビットマップデータに展開する。こうして展開されたビットマップデータはページメモリ1106に逐次描画される。ページメモリ1106は、データ描画部1105が展開するビットマップデータを一次的に保持する揮発性のメモリである。
【0032】
パネル入出力制御部1020は、操作部210との間でデータの入出力を制御する。ドキュメント記憶部1030は、入力文書の一塊(ジョブ)単位にベクタデータ、ディスプレイリスト、メタデータを包含するデータファイルを記憶するもので、ハードディスク等の二次記憶装置によって実現される。尚、このデータファイルを本実施の形態では「ドキュメント」と呼ぶ。スキャン制御部1500は、スキャナ部101から入力した画像データに対して、補正、加工、編集等の各種処理を実行する。印刷制御部1300は、ページメモリ1106の内容をビデオ信号に変換処理してプリンタエンジン202へ転送する。プリンタエンジン202は、その受け取ったビデオ信号を記録紙(シート)に可視画像を形成するための印刷機構部である。システム制御部1010は、上記の各種ソフト制御部を統合し、システムとして、この画像処理装置全体の制御管理を行う。更に、システム制御部1010は、プリント動作、スキャン動作等の一単位の動作をジョブとして制御し、パネル入出力制御部1020を制御して操作部210にジョブの処理状況やステータスを表示する。
【0033】
<制御部200によるデータ処理>
次に、ドキュメントを構成するベクタデータ、ディスプレイリストDL、メタデータがどのように生成されるのかを説明する。
【0034】
図5及び図6は、本実施の形態における制御部200によるデータの流れを示す図である。
【0035】
図5は、スキャナ部101が原稿を走査して読み取ったデータに基づいてドキュメントを生成し、コピー動作やボックス保存を行う場合のデータの流れを示す図である。
【0036】
原稿露光部にセットされた原稿の画像は、スキャン処理d1によってビットマップデータ501に変換される。次にベクタライズ処理d2とメタデータ生成処理d4によって、ビットマップデータ501からそれぞれ解像度に依存しないベクタデータ502と、それに付随するメタデータ(付加情報)503とが生成される。これらベクタデータ502、メタデータ503の具体な生成方法については後述する。
【0037】
次にドキュメント生成処理d3によって、ベクタデータ502とメタデータ503とが関連付けられたドキュメント504が生成される。次にDL生成処理d5により、ドキュメント504のベクタデータからDL505が生成される。こうして生成されたDL505は、ドキュメントの中に格納されて(d6)、ドキュメント508となる。このドキュメント508は、更にレンダリング処理d7に送られてビットマップデータ506に変換される。このビットマップデータ506は、印刷処理d8によってシートに印刷されて印刷物507となる。尚、印刷された印刷物507をまた原稿露光部にセットすればスキャン処理d1からの処理を行うことができる。
【0038】
図6は、図5のメタデータ生成処理d4の具体的な処理の流れを示す図である。
【0039】
まず領域分割処理601で、ビットマップデータ501の領域分割を行う。この領域分割は、入力されたビットマップ画像データを解析して、画像に含まれるオブジェクトの塊毎に領域に分割し、各領域の属性を識別して分類する処理である。ここで属性としては、文字(TEXT)、画像(PHOTO)、線(LINE)、図形(PICTURE)、表(TABLE)等がある。
【0040】
図7は、入力画像の領域分割を行った場合の一例を示す図である。
【0041】
入力画像701に対して領域分割を行った結果を702で示す。702において、点線で囲った部分が画像を解析した結果のオブジェクトの1単位を表し、各オブジェクトに対して付されている属性の種類が領域分割の判定結果である。
【0042】
再び図6において、属性毎に分類された領域の内、文字属性の領域(文字領域)602として識別された画像データは、OCR処理603により文字認識処理されて文字列604に変換される。つまり、この文字列604は紙面に印刷されている文字列である。
【0043】
一方、属性毎に分類された領域の内、画像属性の領域(画像領域)605は、画像情報抽出処理606を通して画像情報607に変換される。この画像情報607は、画像の特徴を現す文字列であり、例えば「花」や「顔」といった文字列である。この画像情報の抽出には、画像特徴量(画像を構成するピクセルの周波数や濃度等)の検出や顔認識等の一般的な画像処理技術を用いることができる。こうして生成された文字列604と画像情報607、及びそれぞれの処理量指数は、フォーマット変換処理608によって後述するデータフォーマットに整えられてメタデータ503が生成される。
【0044】
<ドキュメントデータの構造>
次に、ドキュメントの構造を説明する。
【0045】
図8〜図10は、本実施の形態の画像処理システムで処理されるドキュメントの構造の一例を示す図である。
【0046】
図8は、ドキュメントのデータ構造を説明する図である。
【0047】
ドキュメントは、複数ページからなるデータであり、大きく分けるとベクタデータ801、メタデータ802、ディスプレイリスト(DL)803で構成されており、ドキュメントヘッダ804を先頭とする階層構造である。ベクタデータ801は更に、各ページのページヘッダ805、サマリ情報806、オブジェクト811で構成されている。メタデータ802は更に、ページ情報807と詳細情報808で構成されている。DL803は更に、ページヘッダ809と、描画展開用のインストラクション810から構成されている。ドキュメントヘッダ804には、ベクタデータ801の格納場所と、DL803の格納場所が記述されているため、ベクタデータ801とDL803とはドキュメントヘッダ804によって関連付けられている。
【0048】
ベクタデータ801は、解像度非依存な描画データであるので、ページヘッダ805にはページの大きさや向き等のレイアウト情報が記述される。オブジェクト811には、ライン、多角形、ベジェ曲線等の描画データが一つずつリンクされており、複数のオブジェクトがまとめてサマリ情報806に関連付けられている。サマリ情報806は、複数のオブジェクトの特徴をまとめて表現するものであり、ここには各分割領域の属性情報等が記述される。
【0049】
メタデータ802は、描画処理には直接的に関係しない付加情報であり、処理量指数、ページ数等の、そのドキュメントの処理時間の予測に必要な情報や、検索用情報等が含まれる。ページ情報807には、そのページに含まれる描画データのレンダリング処理に必要な処理量指数が格納される。また詳細情報808には、OCR処理結果や画像情報として生成された文字列(文字コード列)が記述される。
【0050】
更にメタデータ802には、トータル情報812が、ドキュメントヘッダ804から直接参照可能に含まれている。同様に、ページ単位でも素早く、そのページの付加情報を参照可能なように、各ページヘッダ805からページ情報807が関連付けがされている。またベクタデータ801のサマリ情報806からメタデータ802が参照されており、サマリ情報806から詳細情報808を見つけることができる。
【0051】
DL803は、レンダラがビットマップ展開するための中間コードである。ページヘッダ809には、各ページ内の描画情報(インストラクション)の管理テーブル等が記述され、インストラクション810は、解像度依存な描画情報(ビットマップイメージ)で構成されている。
【0052】
図9(A)(B)は、図8で説明したデータ構造がメモリやファイルにどう配置されるのかを示す図である。
【0053】
図9(A)において、ドキュメント901は、ベクタデータ領域902、メタデータ領域903、DL領域904がメモリ上の任意のアドレスに配置される。従って、ヘッダはアドレス「0xf0000000」から読み出される。またベクタデータはアドレス「0xf000aabb」から読み出される。またベクタデータに対応するメタデータは、ポインタ(*ptr)により関連付けられている。
【0054】
図9(B)では、ドキュメントは、ベクタデータ領域、メタデータ領域、DL領域が一つのファイルにシリアライズされる。従って、ベクタデータ、メタデータ、ディスプレイリストはそれぞれ、先頭アドレスに対するオフセット値に従ってアクセスされる。
【0055】
図10は、本実施の形態で処理される、例えば100ページからなるドキュメントデータの具体例を示す図である。
【0056】
画像処理装置がドキュメントを受信して処理しようとする場合、画像データの内容を解析することなくドキュメントヘッダから直接メタデータの全体情報を参照可能である。
【0057】
1ページ目を例に、各ページの詳細な構成を説明する。1ページ目のサマリ情報には「TEXT」と「IMAGE」が含まれる。「TEXT」のサマリ情報1001には、H,e,l,l,o(オブジェクト1002)とW,o,r,l,d(オブジェクト1003)の文字輪郭がベクタデータとしてリンクされている。更に、このサマリ情報から「Hello」「World」という文字コード列(メタデータ1004)が参照されている。
【0058】
また「IMAGE」のサマリ情報1005には、蝶の写真画像(JPEG)1007がリンクされている。更に、このサマリ情報1005から、「butterfly」という画像情報(メタデータ1006)が参照されている。従って、例えばキーワード「World」で、ページ中のテキストを検索する場合は、以下の手順で検出すればよい。まずドキュメントヘッダ10100から各ページのページデータ1011を順次取得する。そしてページヘッダにリンクされているサマリ情報1001,1005から文字領域「TEXT」にリンクされているメタデータを検索する。そして、そのメタデータにキーワード「World」が含まれているページを取り出す。尚、M1,M2,...,M100のそれぞれは、各ページのページヘッダを示す。
【0059】
<スキャン及び転送に伴うOCR処理>
スキャナ部101で原稿を読み取り、OCR処理を実行してドキュメントを生成する処理、及びそのドキュメントが更に別の装置に転送されて、OCR処理結果の精度を高めていく処理の流れについて説明する。
【0060】
図11は、本実施の形態に係る画像処理装置(MFP)間でドキュメントを転送する場合のシステム構成図である。
【0061】
図において、第1の画像処理装置として機能するMFP1で原稿1301をスキャンし(11010)、OCR処理とドキュメント生成を実行する。このMFP1は、言語が英語(EN)で北米(US)向け仕様の装置で、OCRレベルはレベル1(level 1)である。その後、MFP1からMFP2へ、そのOCR処理結果であるドキュメントデータが送信(又は転送)され(1102)る。MFP2は、言語が日本語(JA)で北米(US)向け仕様の装置で、このMFP2で、再度OCR処理が実行される。このMFP2は、MFP1と同等のOCR能力(Level 1)を有している。また第2の画像処理装置として機能するMFP3は、言語が日本語(JA)で日本(JP)向け仕様の装置で、MFP3は、他のMFPよりも優れた(Level 3)OCR能力を備えている。更にその後、MFP2からMFP3へドキュメントが送信(又は転送)されて(1103)、更にOCR処理が実行される場合を示している。
【0062】
まず、MFP1での原稿のスキャンとドキュメント生成処理11010について、図12乃至図14を参照して説明する。
【0063】
図13は、スキャンする原稿1301の一例を示す図である。
【0064】
この原稿1301は、英語の文字領域1302と、日本語の文字領域1303とを含んでいる。
【0065】
続いて、図12のフローチャートを参照して、OCR処理及びドキュメント生成処理について説明する。
【0066】
図12は、本実施の形態に係る画像処理装置において原稿を読み取ってOCR処理を実行してドキュメントを生成する処理を説明するフローチャートである。尚、この処理を実行するプログラムは、実行時にはHDD208からRAM206にロードされ、CPU205の制御の下に実行される。
【0067】
先ずステップS1にて、ユーザがMFP1のスキャナ部101に原稿をセットし、操作部210からスキャン開始を指示することで原稿が読み取られる。ステップS2では、スキャナ部101でスキャンしたビットマップ画像を解析し、図6の601で示した領域分割処理を実行する。図13の原稿1301は、文字領域1302,1303を含み、ステップS3ではこれらの領域が文字領域(TEXT)として識別される。次にステップS4に進み、第1の文字認識手段として機能するCPU205は、まず文字領域1302に対してOCR処理(第1の文字認識処理)を実行する。
【0068】
上述したようにMFP1の言語、仕向け設定は英語、北米仕向けであるので、英語である文字領域1302内に含まれる文字を正確に認識することができる。次にステップS5に進み、誤認識の可能性は高くないと判断してステップS6に進む。ステップS6では、元画像の文字を再現するためのベクタデータ(フォント情報等)を生成するとともに、ステップS4のOCR処理の処理結果として得られた文字列を、その領域メタデータとして付加する。そして第1の出力手段として機能するCPU205は、この文字認識処理の処理結果を出力する。
【0069】
図14は、本実施の形態に係る画像処理装置の一例であるMFP1でのスキャンで得られるドキュメントデータを説明する図である。
【0070】
原稿1301の文字領域1302から得られるベクタデータが1401,1402で示されている。また1403は、メタデータを示している。
【0071】
次にステップS7に進み、そのページ内の全ての画像領域の処理が終了したかをチェックし、未処理の領域があればステップS3に戻って、前述の処理を実行する。
【0072】
図13の原稿の例では、文字領域1303が未処理であるためステップS3に戻る。
【0073】
この文字領域1303は、ステップS3で文字(TEXT)領域として識別される。次にステップS4で、その文字領域1303に対してOCR処理が実行される。ここで、文字領域1303は、日本語文字で構成されている。この場合、MFP1は、日本語を認識する能力がないため、正確に文字を認識することができない。そのため続くステップS5では「誤認識の可能性が高い」と判定してステップS10へ進む。ステップS10では、誤認識の可能性が高くてもOCR処理を実行するか、或いはOCR処理の処理結果に代えて、その領域をビットマップ画像のままとするかを判断する。ここで、いずれの処理を行うかは、MFP1に予め設定された設定値を用いてもよいし、操作部210を使用してユーザに指示させてもよい。
【0074】
ここではステップS10で操作部210からユーザが「OCR処理を実行しない」を選択するように指示したものとする。この場合はステップS10からステップS11に進み、その文字領域1303をスキャンしたビットマップ画像のままとする。ビットマップ画像のメタデータ1404は、ビットマップ(Image)画像であるが、ここでは文字を含む可能性があることを示す情報(Text(Maybe))(第2の情報)を付加する。これはドキュメントが他のMFPにおいて再度処理される場合において、この文字領域に対してOCR処理を実行すれば文字認識ができる可能性を示すヒント情報として利用される。そして、第2の出力手段として機能するCPU205は、文字認識処理の処理結果に代えて、文字認識処理を実行した画像データを出力する。
【0075】
一方ステップS10で、OCR処理を実行すると設定されているか、或はOCR処理を実行する旨の指示が入力された場合はステップS12に進み、OCR処理を実行してステップS6と同様のベクタデータ生成とメタデータ生成を行う。次にステップS13に進み、そのメタデータに「誤認識が含まれている可能性がある」ことを示す情報(第1の情報)を付加して出力する。そしてステップS14に進み、更に文字領域1303のビットマップ画像もヒント情報として付加する。ここでビットマップ画像も同時に付加するのは、そのドキュメントが別の装置に転送された場合に、再度OCR処理を可能にするためである。
【0076】
こうしてステップS11,S14を実行するとステップS7に進み、1ページの処理が終了したと判断するとステップS8に進み、その処理済みのページが最終ページかどうかを判断する。最終ページでなければステップS1に戻って、次のページの原稿を読み取る。こうしてステップS8で、最終ページであると判断するとステップS9に進み、図13に示すドキュメントデータの生成を完了し、それをハードディスク208(図3)に保存して処理を終了する。
【0077】
次に図11において、MFP1でのスキャンして生成された図13に示すドキュメントデータをMFP2に送信(又は転送)し、MFP2で再度OCR処理を実行する場合(図11の転送(1102))を説明する。
【0078】
図15は、MFP2が、MFP1からドキュメントデータを取得し、それを再度OCR処理することにより生成してMFP2に保存するドキュメントデータの一例を示す図である。尚、図15において、図14と共通する部分は同じ記号で示している。
【0079】
ここで、日本語の文字領域に対してOCR処理を実行した結果、認識された結果のベクタデータ1501及び1502で示している。尚、ここでは、1502に含まれている文字中の1503で示す部分は誤認識した例を示している。従って、ここでは、その文字領域の元のビットマップ画像1504もヒント情報として付加されている。1505はメタデータで、認識した文字のベクタデータや、ヒント情報としての画像であることを示す情報等が付加されている。
【0080】
図17は、本実施の形態に係る画像処理装置において、他の画像処理装置から転送されたドキュメントデータに対してOCR処理を実行する処理を説明するフローチャートである。尚、この処理を実行するプログラムは、実行時にはHDD208からRAM206にロードされ、CPU205の制御の下に実行される。
【0081】
この処理は、MFP1から送信されたドキュメントデータを、MFP2がネットワーク10経由で受信することにより開始される。このドキュメントデータの受信はMFP1からの送信(Push型)でも、MFP2からMFP1への送信要求に基づく転送(Pull型)のいずれでもよい。またネットワーク10に接続された、他の装置(不図示のパーソナルコンピュータ等)からMFP1又はMFP2への動作指示によって開始されてもよい。
【0082】
こうしてドキュメントデータを受信するとステップS21で、そのドキュメントデータのメタデータ1403,1505を検索し、そのドキュメントデータにOCR対象となる画像が含まれているか否かをチェックする。ステップS22,S23では、それぞれOCR処理されていないビットマップ画像、或は誤認識が含まれている可能性があるOCR処理結果が存在しているか否かを判定する。ステップS22或はS23で、該当するデータがあると検出した場合はステップS24に進み、第2の文字認識手段として機能するCPU205が、そのドキュメントデータに含まれるビットマップ画像に対してOCR処理(第2の文字認識処理)を実行する。そしてステップS25で、文字認識に成功したかを判定し、成功したと判定するとステップS26に進み、ベクタデータ生成と、OCR処理結果のメタデータ化を行う。続いてステップS27に進み、取得したメタデータに含まれているOCR未処理、又は誤認識の可能性有り等のメタデータを消去する。尚、ステップS22,S23で、OCR処理されていないビットマップ画像、或は誤認識が含まれている可能性があるOCR処理結果が存在していないと判断するとステップS28に進む。
【0083】
本実施の形態では、MFP2が認識可能な言語は日本語であるが、OCRの認識レベルが高くない(レベル1)ため、そのドキュメントデータに含まれる日本語の文字領域1303を認識できないものとする。この場合はステップS25で、誤認識の可能性ありと判断してステップS30に進む。ステップS30では、OCR処理を実行するかどうかの判断する。ここで、図17のP1701で示す一連の処理は、図12で示したスキャン時の処理フローにおけるP1201の処理と同一である。従って、ステップS30におけるOCR処理を実行するかどうかの指示方法は、図12のステップS10と同様に、予めMFP2に設定された設定値によるか、或は操作部210(ユーザインタフェース)からユーザが選択指示によるかの、いずれであってもよい。
【0084】
ここでは、MFP2においてユーザから「OCR処理を実行する」の選択指示がされたものとし、その場合はステップS32に進む。ステップS32,S33ではOCR処理を実行し、その結果と、誤認識の可能性の有無の情報を、図15の1505で示すメタデータとして生成する。更にステップS34に進み、元のビットマップ画像1504もヒント情報として、そのメタデータに付加する。こうしてメタデータ1505には、ヒント情報としての画像であることを示す情報が付加される。
【0085】
こうしてステップS27,S31,S34のいずれかを実行するとステップS28に進み、1ページの処理が終了したかどうかを判断する。1ページの処理が終了したと判断するとステップS29に進み、その処理済みのページが最終ページかどうかを判断する。最終ページでなければステップS21に戻って、次のメタデータを走査する。こうしてステップS29で、最終ページであると判断すると、図15に示すドキュメントデータをハードディスク208(H2)に保存して、この処理を終了する。
【0086】
図15は、こうしてOCRの結果認識された結果のベクタデータ1501,1502、及びメタデータ1505を示している。
【0087】
MFP2のようにOCR処理能力が比較的低く、OCR処理結果に誤認識が含まれている可能性があるMFPで作成されたメタデータは、逆に誤った検索結果をもたらすおそれがある。このため、本実施の形態で想定するメタデータを用いたドキュメント検索では、このMFPで作成されたメタデータは検索対象外としている。つまりMFP2が生成した、図15に示すドキュメントに対して、元の原稿の文字領域1303に含まれる文字列で検索することが出来ない。
【0088】
そこで図15に示すドキュメントが、より能力が高いOCR機能を有するMFP3に転送され、正しくOCR処理される場合について説明する。
【0089】
前述したMFP1からMFP2へのドキュメントデータの転送時の処理と同様に、MFP2からMFP3に転送されたドキュメントデータに対してMFP3による処理が行われる。その場合の処理の流れは、前述の図17のフローチャートと同一である。
【0090】
こうしてMFP3は、図15に示すような、MFP2が処理したドキュメントデータを受信して処理を実行する。ここでMFP3は、前述したように、言語、仕向けとも日本語、日本向けの設定であり、更にOCR能力がMFP1、MFP2よりも優れているもの(Level 3)である。そのため、MFP2が正確に文字認識できなかった原稿1301の文字領域1303内の文字を正しく認識することができる。そのため図17のステップS25では、領域内の文字を正しく認識でき、OCR処理結果に誤認識が含まれている可能性が高くないと判断してステップS26に進む。ステップS26では、ステップS24のOCR結果を用いて文字のベクタライズとメタデータを生成する。更にステップS27に進み、その文字領域1303のメタデータに付加された「誤認識の可能性あり」及び「ヒントとしてビットマップ画像付き」のメタデータを消去するとともに、ヒントのビットマップ画像本体も削除する。
【0091】
図16は、こうして最終的にMFP3が作成したドキュメントデータの一例を示す図である。尚、図16において、前述の図14,図15と共通する部分は同じ記号で示している。
【0092】
図16では、図14,図15に示すMFP1及びMFP2が正確に文字認識できなかった原稿1301の文字領域1303の文字が正確に文字認識され、ベクタデータ1601,1602、及びメタデータ1603が正しく生成されている。これによって、MFP1、MFP2で処理したドキュメントデータの文字領域1303の検索も、このドキュメントのメタデータを用いて正確に行うことができることがわかる。
【0093】
以上説明したように本実施の形態によれば、あるMFPでは適切なOCR処理結果が得られない場合でも、そのドキュメントデータをより能力が高いOCR機能を有するMFP3に送信して処理することにより、より適切なOCR処理結果を得ることができる。
【0094】
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムを読み出して実行することによっても達成され得る。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
【0095】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明のクレームでは、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0096】
プログラムを供給するための記録媒体としては、様々なものが使用できる。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などである。
【0097】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページからハードディスク等の記録媒体にダウンロードすることによっても供給できる。その場合、ダウンロードされるのは、本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルであってもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。
【0098】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布する形態としても良い。その場合、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムが実行可能な形式でコンピュータにインストールされるようにする。
【0099】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される形態以外の形態でも実現可能である。例えば、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0100】
更に、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれるようにしてもよい。この場合、その後で、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される。
【図面の簡単な説明】
【0101】
【図1】本実施の形態に係る画像処理装置(複合機)の構成を示す図である。
【図2】本実施の形態に係る画像処理システムの全体的な構成を示すブロック図である。
【図3】本実施の形態に係る画像処理装置(複合機)の制御部の構成例を示すブロック図である。
【図4】本実施の形態に係る画像処理装置の動作を制御するソフトウェアの構成を示すブロック図である。
【図5】スキャナ部が原稿を走査して読み取ったデータに基づいてドキュメントを生成し、コピー動作やボックス保存を行う場合のデータの流れを示す図である。
【図6】図5のメタデータ生成処理d4の具体的な処理の流れを示す図である。
【図7】入力画像の領域分割を行った場合の一例を示す図である。
【図8】ドキュメントのデータ構造を説明する図である。
【図9】図8で説明したデータ構造がメモリやファイルにどう配置されるのかを示す図である。
【図10】本実施の形態で処理される、例えば100ページからなるドキュメントデータの具体例を示す図である。
【図11】本実施の形態に係る画像処理装置(MFP)間でドキュメントを転送する場合のシステム構成図である。
【図12】本実施の形態に係る画像処理装置において原稿を読み取ってOCR処理を実行してドキュメントを生成する処理を説明するフローチャートである。
【図13】スキャンする原稿1301の一例を示す図である。
【図14】本実施の形態に係る画像処理装置の一例であるMFP1でのスキャンで得られるドキュメントデータを説明する図である。
【図15】実施の形態に係るMFP2のOCR処理の結果認識されたベクタデータ及びメタデータの一例を示す図である。
【図16】実施の形態に係るMFP2が作成したドキュメントデータの一例を示す図である。
【図17】本実施の形態に係る画像処理装置が、他の画像処理装置から転送されたドキュメントデータにOCR処理を実行する処理を説明するフローチャートである。

【特許請求の範囲】
【請求項1】
画像に含まれる文字領域を識別する識別手段と、
前記識別手段により識別された文字領域に含まれる画像データに基づいて、文字認識処理を実行する文字認識手段と、
前記文字認識処理の処理結果を出力する第1の出力手段と、
前記文字認識処理の処理結果に誤認識が含まれている可能性が高いか否かを判定する判定手段と、
前記判定手段により、前記文字認識処理の処理結果に誤認識が含まれている可能性が高いと判定された場合に、前記文字認識処理の処理結果に誤認識が含まれている可能性が高いことを示す第1の情報とともに、前記文字認識処理の処理結果を出力するよう制御する制御手段と、
を有することを特徴とする画像処理装置。
【請求項2】
前記画像の少なくとも一部の領域を解像度に依存しない解像度非依存データに変換する変換処理を実行する変換手段を更に備え、
前記第1の出力手段は、前記文字認識処理の処理結果を、前記変換処理により得られた解像度非依存データの付加情報として、当該解像度非依存データに付加して出力することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記判定手段は、前記文字認識手段の文字認識能力に基づいて、前記判定を行うことを特徴とする請求項1又は2に記載の画像処理装置。
【請求項4】
前記判定手段は、前記文字認識手段が認識可能な言語に基づいて、前記判定を行うことを特徴とする請求項1又は2に記載の画像処理装置。
【請求項5】
前記文字認識処理の処理結果に代えて、当該文字認識処理を実行した画像データに、当該画像データが文字を含むことを示す第2の情報を付加して出力する第2の出力手段を更に備えることを特徴とする請求項1乃至4のいずれか1項に記載の画像処理装置。
【請求項6】
前記第1の出力手段に前記文字認識処理の処理結果を出力させるか、又は前記第2の出力手段に前記画像データを出力させるかを選択するための指示を入力可能なインタフェース手段を更に有することを特徴とする請求項5に記載の画像処理装置。
【請求項7】
ネットワークを介して接続された少なくとも第1と第2の画像処理装置を含む画像処理システムであって、
前記第1の画像処理装置は、
画像に含まれる文字領域を識別する識別手段と、
前記識別手段により識別された文字領域に含まれる画像データに基づいて、第1の文字認識処理を実行する第1の文字認識手段と、
前記第1の文字認識処理の処理結果を出力する出力手段と、
前記第1の文字認識処理の処理結果に誤認識が含まれている可能性が高いか否かを判定する判定手段と、
前記判定手段により、前記第1の文字認識処理の結果に誤認識が含まれている可能性が高いと判定された場合に、前記第1の文字認識処理の処理結果に誤認識が含まれている可能性が高いことを示す第1の情報とともに、前記第1の文字認識処理の処理結果を出力するよう制御する制御手段とを備え、
前記第2の画像処理装置は、
前記第1の画像処理装置から出力された前記第1の文字認識処理の処理結果を取得する取得手段と、
前記第1の文字認識手段よりも文字認識能力が高い文字認識手段であって、第2の文字認識処理を実行する第2の文字認識手段とを備え、
前記第2の文字認識手段は、前記取得手段で取得した前記第1の文字認識処理の処理結果に前記第1の情報が含まれている場合に、前記第1の文字認識処理を実行した画像データに対して前記第2の文字認識処理を実行することを特徴とする画像処理システム。
【請求項8】
画像に含まれる文字領域を識別する識別工程と、
前記識別工程で識別された文字領域に含まれる画像データに基づいて、文字認識処理を実行する文字認識工程と、
前記文字認識処理の処理結果を出力する第1の出力工程と、
前記文字認識処理の処理結果に誤認識が含まれている可能性が高いか否かを判定する判定工程と、
前記判定工程において、前記文字認識処理の処理結果に誤認識が含まれている可能性が高いと判定された場合に、前記文字認識処理の処理結果に誤認識が含まれている可能性が高いことを示す第1の情報とともに、前記文字認識処理の処理結果を出力するよう制御する制御工程と、
を有することを特徴とする画像処理装置における画像処理装置の制御方法。
【請求項9】
前記画像の少なくとも一部の領域を解像度に依存しない解像度非依存データに変換する変換処理を実行する変換工程を更に備え、
前記第1の出力工程では、前記文字認識処理の処理結果を、前記変換処理により得られた解像度非依存データの付加情報として、当該解像度非依存データに付加して出力することを特徴とする請求項8に記載の画像処理装置の制御方法。
【請求項10】
前記文字認識処理の処理結果に代えて、当該文字認識処理を実行した画像データに、当該画像データが文字を含むことを示す第2の情報を付加して出力する第2の出力工程を更に備えることを特徴とする請求項8又は9に記載の画像処理装置の制御方法。
【請求項11】
前記第1の出力工程で前記文字認識処理により得られた結果を出力させるか、又は前記第2の出力工程で前記画像データを出力させるかを選択する選択工程を更に有することを特徴とする請求項10に記載の画像処理装置の制御方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2009−181465(P2009−181465A)
【公開日】平成21年8月13日(2009.8.13)
【国際特許分類】
【出願番号】特願2008−21646(P2008−21646)
【出願日】平成20年1月31日(2008.1.31)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】