画像処理装置、画像処理方法、制御プログラム及び記録媒体
【課題】文字を含む画像を文字認識することにより文字検索の検索対象として格納する場合に、文字検索の適合率を向上すること。
【解決手段】画像から文字領域を抽出して文字情報を生成し、検索対象情報として格納する画像処理装置であって、画像を取得する入力情報取得部121と、第一の領域抽出方法に基づいて画像から文字領域を抽出して第一の文字情報を生成し、第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて画像から文字領域を抽出して第二の文字情報を生成する文字情報認識部122と、第一の文字情報及び第二の文字情報を検索対象情報として検索対象DB106に登録する情報登録部123とを含むことを特徴とする。
【解決手段】画像から文字領域を抽出して文字情報を生成し、検索対象情報として格納する画像処理装置であって、画像を取得する入力情報取得部121と、第一の領域抽出方法に基づいて画像から文字領域を抽出して第一の文字情報を生成し、第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて画像から文字領域を抽出して第二の文字情報を生成する文字情報認識部122と、第一の文字情報及び第二の文字情報を検索対象情報として検索対象DB106に登録する情報登録部123とを含むことを特徴とする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、制御プログラム及び記録媒体に関し、特に、画像として表示された文字情報を検索対象の文字情報として記憶する処理に関する。
【背景技術】
【0002】
近年、情報の電子化が推進される傾向にある。情報の電子化の一態様として、文章を含む画像をスキャン等によって取得し、その画像に表示されている文字を文字情報として認識する処理がある。このような処理は、OCR(Optical Character Recognition:光学文字認識)と呼ばれている。
【0003】
複数行からなる文章を含む画像に対してOCR処理を実行する場合、OCR処理を実行する前段階の処理として、文字行領域を抽出する処理が必要となる。このような文字行領域を抽出する方法としては、例えば夫々の文字を連結して行を抽出する方法がある。また、他の方法としては、入力された文章画像を二値化した上で論理和縮小し、縮小された画像に含まれる連結成分の縦横比を判定することにより、行を抽出する方法が提案されている(例えば、特許文献1参照)。
【0004】
また、文書のレイアウトが複雑な画像において、単一の抽出条件では抽出が困難な文字行領域を抽出するための方法も提案されている(例えば、特許文献2参照)。特許文献2に開示された方法においては、複数の異なる抽出条件夫々に基づいて複数の文字行領域が抽出される。そして、抽出された複数の文字行領域に対する文字認識結果に基づいて、採用する文字行領域が決定される。
【特許文献1】特開平5−266075号公報
【特許文献2】特開2006−244309号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
従来、上述したような文字認識技術は、主として文字を含む画像を文字情報として再現すること、即ち、再現性を高めることが課題とされていた。しかしながら、近年、情報の検索技術の重要性に伴い、文字認識技術によって文字を含む画像情報を文字検索の対象として格納するという要求がある。この場合、上記の再現性よりも、入力された検索語に基づいて画像に含まれる文字を抽出する適合率が重要視される。
【0006】
上記適合率は、画像に含まれる文字行領域を正確に抽出し、文字認識を正確に実行することにより向上することができる。他方、文字行領域が正確に抽出されない場合、その画像に含まれる文章を正確に文字認識することができない。その結果、画像として含まれている文字を文字情報として格納することが出来ないため、文字検索を実行しても正しい検索結果を得ることができず、適合率が低下する。
【0007】
換言すると、文字認識を実行することにより、文字を含む画像を文字検索の検索対象として格納する場合、再現性と適合率のトレードオフとはならず、適合率が優先される。
【0008】
本発明は、上記実情を考慮してなされたものであり、文字を含む画像を文字認識することにより文字検索の検索対象として格納する場合に、文字検索の適合率を向上することを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決するために、請求項1に記載の発明は、文字領域を含む画像から前記文字領域を抽出して文字情報を生成し、検索対象情報として格納する画像処理装置であって、前記画像を取得する画像取得部と、前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出し、第一の文字情報を生成する第一の文字領域抽出部と、前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出し、第二の文字情報を生成する第二の文字領域抽出部と、前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納する情報格納部とを含むことを特徴とする。
【0010】
また、請求項2に記載の発明は、請求項1に記載の画像処理装置において、前記第1の領域抽出方法は、文字行を認識する方向が前記第2の領域抽出方法とは異なることを特徴とする。
【0011】
また、請求項3に記載の発明は、請求項1または2に記載の画像処理装置において、前記第1の領域抽出方法は、文字の上下を認識する方向が前記第2の領域抽出方法とは異なることを特徴とする。
【0012】
また、請求項4に記載の発明は、請求項1乃至3いずれかに記載の画像処理装置において、前記1の領域抽出方法は、文字行において文字を読み進める方向が前記第2の領域抽出方法とは異なることを特徴とする。
【0013】
また、請求項5に記載の発明は、請求項1乃至4いずれかに記載の画像処理装置において、前記第1の領域抽出方法は、複数の文字行において行を読み進める方向が前記第2の領域抽出方法とは異なることを特徴とする。
【0014】
また、請求項6に記載の発明は、請求項1乃至5いずれか1に記載の画像処理装置において、前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域抽出部が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、前記格納対象除外部は、前記第1の文字領域の全体が前記第2の文字領域に含まれる場合、前記第1の文字情報を前記格納対象から除外することを特徴とする。
【0015】
また、請求項7に記載の発明は、請求項1乃至6いずれか1に記載の画像処理装置において、前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、前記格納対象除外部は、前記第1の文字領域の横方向の範囲全体が前記第2の文字領域の横方向の範囲全体に含まれ、且つ前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が所定の条件を満たす場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0016】
また、請求項8に記載の発明は、請求項7に記載の画像処理装置において、前記格納対象除外部は、前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が横方向である場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0017】
また、請求項9に記載の発明は、請求項1乃至8いずれか1に記載の画像処理装置において、前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、前記格納対象除外部は、前記第1の文字領域の縦方向の範囲全体が前記第2の文字領域の縦方向の範囲全体に含まれ、且つ前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が所定の条件を満たす場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0018】
また、請求項10に記載の発明は、請求項9に記載の画像処理装置において、前記格納対象除外部は、前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が縦方向である場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0019】
また、請求項11に記載の発明は、請求項1乃至10いずれかに記載の画像処理装置において、辞書情報を取得する辞書情報取得部と、前記第一の文字情報若しくは前記第二の文字情報を検索して前記取得された辞書情報に含まれる単語を抽出する辞書検索部と、前記辞書検索部による検索結果に応じて前記第一の文字情報若しくは前記第二の文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部とを有することを特徴とする。
【0020】
また、請求項12に記載の発明は、請求項11に記載の画像処理装置において、前記格納対象除外部は、前記第一の文字情報及び前記第二の文字情報のうち、前記辞書検索部による検索の結果抽出された単語がすべて一文字の単語であるものを前記格納対象から除外することを特徴とする。
【0021】
また、請求項13に記載の発明は、請求項1乃至12に記載の画像処理装置において、前記第1の文字領域抽出部若しくは前記第2の文字領域抽出部が抽出した文字領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、前記格納対象除外部は、前記文字領域の行方向及び当該行方向と平行な方向の前記文字領域の幅の関係に基づいて前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0022】
また、請求項14に記載の発明は、請求項13に記載の画像処理装置において、前記格納対象除外部は、前記文字領域の幅であって前記文字領域の行方向と平行な方向の幅が所定の範囲以下である場合に、前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0023】
また、請求項15に記載の発明は、請求項1乃至14に記載の画像処理装置において、前記第1の文字領域抽出部若しくは前記第2の文字領域抽出部が抽出した文字領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、前記格納対象除外部は、前記文字領域の行方向及び前記文字領域のアスペクト比の関係に基づいて前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0024】
また、請求項16に記載の発明は、文字領域を含む画像から前記文字領域を抽出して文字情報を生成し、検索対象情報として格納する画像処理方法であって、画像取得部が、前記画像を取得し、第一の文字領域抽出部が、前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第一の文字情報を生成し、第二の文字領域抽出部が、前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第二の文字情報を生成し、情報格納部が、前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納することを特徴とする。
【0025】
また、請求項17に記載の発明は、情報処理装置を、文字領域を含む画像から前記文字領域を抽出して文字情報を生成して検索対象情報として格納する画像処理装置として動作させる制御プログラムであって、前記画像を取得するステップと、前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第一の文字情報を生成するステップと、前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第二の文字情報を生成するステップと、前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納するステップとを前記情報処理装置に実行させることを特徴とする。
【0026】
また、請求項18に記載の発明は、記録媒体であって、請求項14に記載の制御プログラムを情報処理装置が読み取り可能な形式で記録したことを特徴とする。
【発明の効果】
【0027】
本発明によれば、文字を含む画像を文字認識することにより文字検索の検索対象として格納する場合に、文字検索の適合率を向上することが可能となる。
【発明を実施するための最良の形態】
【0028】
実施の形態1.
以下、図面を参照して、本発明の実施形態を詳細に説明する。本実施形態においては、現行をスキャンして画像情報を生成し、その画像情報に対して文字認識を実行して画像情報と文字情報とを関連付けて格納する画像処理装置を例として説明する。
【0029】
図1は、本実施形態に係る画像処理装置1のハードウェア構成を示すブロック図である。図1に示すように、本実施形態に係る画像処理装置1は、一般的なサーバやPC(Personal Computer)等の情報処理端末と同様の構成を含む。即ち、本実施形態に係る画像処理装置1は、CPU(Central Processing Unit)10、RAM(Random Access Memory)20、エンジン30、ROM(Read Only Memory)40、NVRAM(Non―Volatile Random Access Memory)50及びI/F60がバス90を介して接続されている。また、I/F60にはLCD(Liquid Crystal Display)70及び操作部80が接続されている。
【0030】
CPU10は演算手段であり、画像処理装置1全体の動作を制御する。RAM20は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU10が情報を処理する際の作業領域として用いられる。エンジン30は、スキャナやプリンタ等の画像処理機能を実行する画像処理エンジンである。ROM40は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。
【0031】
NVRAM50は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーション・プログラム及びアプリケーション・プログラムの動作パラメータの情報等が格納される。I/F60は、バス90と各種のハードウェアやネットワーク等を接続し制御する。LCD70は、ユーザが画像処理装置1の状態を確認するための視覚的ユーザインタフェースである。操作部80は、キーボードやマウス等、ユーザが画像処理装置1に情報を入力するためのユーザインタフェースである。
【0032】
このようなハードウェア構成において、ROM40やNVRAM50若しくは図示しないHDD(Hard Disk Drive)や光学ディスク等の記憶媒体に格納されたプログラムがRAM20に読み出され、RAM20に読み出されたプログラムに従ってCPU10が動作することにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、本実施形態に係る画像処理装置1の機能を実現する機能ブロックが構成される。
【0033】
図2は、本実施形態に係る画像処理装置1の機能構成を示すブロック図である。図2に示すように、本実施例に係る画像処理装置1は、コントローラ100、ADF(Auto Document Feeder:原稿自動搬送装置)101、スキャナユニット102、排紙トレイ103、ネットワークI/F104、ディスプレイパネル105及び検索対象DB106を有する。
【0034】
また、コントローラ100は、主制御部111、エンジン制御部112、入出力制御部113、画像処理部114及び文字認識制御部120を有する。尚、図2においては、電気的接続を実線の矢印で示しており、用紙の流れを破線の矢印で示している。コントローラ100は、図1に示すRAM20にロードされたプログラムに従ってCPU10が動作することにより実現される。
【0035】
ネットワークI/F104は、画像処理装置1がクライアント端末等の他の機器と通信する際のインタフェースである。ネットワークI/F104は、図1に示すI/F60によって実現される。ディスプレイパネル105は、画像処理装置1の状態を視覚的に表示する出力インタフェースであると共に、タッチパネルとしてユーザが画像処理装置1を直接操作する際の入力インタフェースでもある。ディスプレイパネル105は、図1に示すLCD70及び操作部80によって実現される。
【0036】
検索対象DB106は、文字検索の対象となる情報が格納されているデータベースである。検索対象DB106は、図1に示すNVRAM50や図示しないHDD等の不揮発性の記憶媒体に記憶された情報によって実現される。
【0037】
主制御部111は、コントローラ100に含まれる各部を制御する役割を担い、コントローラ100の各部に命令を与える。エンジン制御部112は、スキャナユニット102等を制御若しくは駆動する駆動手段としての役割を担う。入出力制御部113は、ネットワークI/F104若しくはディスプレイパネルを介して入力される情報を主制御部111に入力する。また、入出力制御部113は、主制御部111の命令に従ってネットワークI/F104を介してネットワークに接続された他の装置に情報を送信する。更に入出力制御部113は、主制御部111の命令に従い、ディスプレイパネル105の表示を制御する。
【0038】
画像処理部114は、主制御部111の制御に従い、スキャナユニット102から入力される撮像データを処理し、画像情報を生成する。この画像情報とは、スキャナ動作の結果物として図示しないHDDに格納され若しくはネットワークI/F104を介してクライアント端末等に送信される情報である。
【0039】
文字認識制御部120は、主制御部111の制御に従い、検索対象DB106への登録対象として入力された画像情報を解析し、文字認識を実行する。そして、文字認識制御部120は、実行した文字認識の結果に従い、入力された画像情報と文字認識によって生成された文字情報とを関連付けて検索対象DB106に格納する。文字認識制御部120によって提供される機能が本実施形態の要旨の1つとなる。
【0040】
画像処理装置1がスキャナとして動作する場合は、ユーザによるディスプレイパネル105の操作若しくはネットワークI/F104を介して外部のクライアント装置等から入力されるスキャン実行指示に応じて、入出力制御部113が主制御部111にスキャン実行信号を転送する。主制御部111は、受信したスキャン実行信号に基づき、エンジン制御部112を制御する。
【0041】
エンジン制御部112は、ADF101を駆動し、ADF101にセットされた撮像対象原稿をスキャナユニット102に搬送する。また、エンジン制御部112は、スキャナユニット102を駆動し、ADF101から搬送される原稿を撮像する。また、ADF101に原稿がセットされておらず、スキャナユニット102に直接原稿がセットされた場合、スキャナユニット102は、エンジン制御部112の制御に従い、セットされた原稿を撮像する。即ち、スキャナユニット102が撮像部として動作する。
【0042】
撮像動作においては、スキャナユニット102に含まれるCCD等の撮像素子が原稿を光学的に走査し、光学情報に基づいて生成された撮像情報が生成される。エンジン制御部112は、スキャナユニット102が生成した撮像情報を画像処理部114に転送する。画像処理部114は、主制御部111の制御に従い、エンジン制御部112から受信した撮像情報に基づいて画像情報を生成する。
【0043】
画像処理部114が生成した画像情報はHDD等の画像形成装置1に装着された記憶媒体に保存される。画像処理部114によって生成された画像情報は、ユーザの指示に応じてそのままHDD等に格納され若しくは入出力制御部113及びネットワークI/F108を介して外部の装置に送信される。
【0044】
尚、図1、図2においては、画像処理装置1が単一の装置によって構成される場合を例としている。しかしながら、ネットワークによって接続された複数の装置に分割して図1、図2に示す機能を実現することも可能である。このような画像処理装置1において、上述したように、本実施形態の要旨は、文字認識制御部120による文字認識処理にある。本実施形態に係る文字認識制御部120について、図3を参照して更に詳細に説明する。
【0045】
図3は、本実施形態に係る文字認識制御部120の詳細及び文字認識制御部120と主制御部111、検索対象DB106との接続関係を示すブロック図である。図3に示すように、本実施形態に係る文字認識制御部120は、入力情報取得部121、文字情報認識部122及び情報登録部123を有する。本実施形態に係る情報挿入制御部120は、図1に示すRAM20にロードされたプログラムに従ってCPU10が動作することにより構成される。
【0046】
入力情報取得部121は、検索対象として検索対象DB120に登録すべき画像情報を入力情報として取得する。入力情報は、スキャナユニット102によるスキャン処理によって生成される画像情報若しくはネットワークI/F104を介して入力される画像情報である。入力情報取得部121は、上記入力情報を主制御部111から取得する。入力情報取得部121は、取得した入力情報を文字情報認識部122に入力する。
【0047】
文字情報認識部122は、入力情報取得部121が取得した入力情報に含まれる文字情報を認識する。文字情報認識部122は、入力情報として取得した画像情報から文字行が表示されている文字行領域を抽出した上で、文字認識を実行する。文字情報認識部122は、上記文字行領域を抽出するための方法を複数種類有し、夫々の方法に基づいて文字行を抽出した上で文字認識を実行する。文字情報認識部122による処理は後に詳述する。
【0048】
情報登録部123は、入力情報取得部121が取得した画像情報と文字情報認識部122が文字認識により生成した文字情報とを関連付けて検索対象DB106に登録する。
【0049】
次に、本実施形態に係る画像処理装置1の動作について説明する。図4は、本実施形態に係る画像処理装置1の動作を示すフローチャートである。図4に示すように、まず、入力情報取得部121が、主制御部111から入力情報として画像情報を取得する(S401)。即ち、入力情報取得部121が画像取得部として機能する。図5に、本実施形態のS401において入力情報取得部121が取得する画像の例を示す。図5に示す入力情報は、白地に黒い文字で文章が表示された画像情報である。
【0050】
尚、上述したように、S401において入力情報取得部121が取得する画像情報は、スキャナユニット102によるスキャン若しくはネットワークI/F104を介した情報の入力等により入力される。入力情報取得部121は、取得した入力情報を文字情報認識部122に入力する。
【0051】
図5に示すような入力情報を取得すると、文字情報認識部122は、複数の行抽出方法から一の方法を選択する(S402)。そして、文字情報認識部122は、S402において選択した行抽出方法に基づいて行抽出を実行する(S403)。
【0052】
まず、S402の処理において、黒画素を連結して黒画素の外接矩形を生成し、生成された外接矩形を横方向に連結して行を抽出する方法が選択された場合を説明する。この場合、文字情報認識部122は、S403の処理において、入力情報において連続している黒画素を認識する。そして、文字情報認識部122は、認識した黒画素の外接矩形を抽出する。図6は、文字認識部122による矩形抽出処理の態様を示す図である。
【0053】
図6に示すように外接矩形を抽出すると、文字情報認識部122は、抽出した外接矩形を横方向に連結して文字行を抽出する。図7は、図6に示す外接矩形の抽出結果に基づいて横書きの行が抽出された結果を示す例である。文字行の抽出が完了すると、文字情報認識部122は、抽出した文字行に対して文字認識を実行する(S404)。文字情報認識部122は、S404において、特徴抽出、パターン辞書照合により文字画像に対応するテキストデータを抽出し、文字認識を実行する。文字認識処理においては、公知の技術を用いることが可能であり、本実施形態においては詳細な説明を省略する。
【0054】
図8は、図7のように抽出された文字行に対して文字認識を実行した結果、生成される文字情報を示す図である。図8に示すように、図7のように抽出された文字行に対して文字認識を実行した場合、“文字認識技術は、紙データを電子化する技術の一つです。・・・対する期待は小さくなることはないようです。”という文字情報が生成される。このように、まずは文字情報認識部122が第一の文字領域抽出部として機能する。
【0055】
文字認識を実行して図8に示すような文字情報を生成すると、文字情報認識部122は、実行可能な行抽出方法の全てを選択してS403、S404の処理を実行したか確認する(S405)。全ての行抽出方法を選択していない場合(S405/NO)、文字情報認識部122は、S402からの処理を繰り返す。
【0056】
図9は、S402において縦書きの行抽出方法が選択された場合の行抽出結果の例を示す図である。この場合、文字情報認識部122は、図6に示すように抽出された外接矩形を縦方向に連結し、図9に示すように文字行を抽出する(S403)。文字行の抽出が完了すると、文字情報認識部122は、上記と同様に抽出した文字行に対して文字認識を実行する(S404)。
【0057】
図10は、図9のように抽出された文字行に対して文字認識を実行した結果、生成される文字情報を示す図である。図10に示すように、図9のように抽出された文字行に対して文字認識を実行した場合、“つ日対一今にのだ術段ん技。・・・認。紙期字すもる文でです”という文字情報が生成される。このように、S402において他の行抽出方法が選択された結果、文字情報認識部122が第二の文字領域抽出部として機能する。
【0058】
このように、S403、S404の処理が繰り返されることにより、同一の画像領域が異なる文字行領域として認識され、夫々異なる文字情報が生成される。そして、実行可能な行抽出方法の全てを選択し、S403、S404の処理を終えると(S405/YES)、文字情報認識部122は、入力情報取得部121から取得した画像情報及び図8、図10に示すように生成した文字情報を情報登録部123に入力する。
【0059】
情報登録部123は、文字情報認識部122から入力された情報を検索対象DB106に登録し(S406)、処理を終了する。即ち、情報登録部123が、検索対象DB106に情報を格納する情報格納部として機能する。S406において、情報登録部123は、入力情報取得部121がS401において取得した画像情報と、文字情報認識部122が生成した夫々の文字情報とを関連付けて検索対象DB106に登録する。図11に、検索対象DB106が記憶している情報の例を示す。
【0060】
図11に示すように、検索対象DB106には、画像格納パス、文字情報1、2、3・・・の情報が関連付けられて記憶されている。画像格納パスとは、S401において入力情報取得部121が取得した画像情報の格納パスの情報である。文字情報1、2、3・・・は、文字情報認識部122が生成した文字情報である。検索対象DB106が検索される場合、文字情報1、2、3・・・が文字検索の対象となる。上述したように、文字情報認識部122は、複数の異なる行抽出方法に基づいて文字行領域を抽出し、複数の文字情報を生成する。従って、図11に示すように、複数の文字情報が、画像情報に関連付けられて記憶される。
【0061】
図8、図10の文字情報を人間が参照すれば、図8に係る行抽出方法が正確であって図10に係る行抽出方法が不正確であることは明らかであり、容易に判断できる。しかしながら、情報処理装置にそのような判断を実行させることは困難である。また、新聞や雑誌の誌面等、図12に示すように縦書き、横書き及び画像とが混在した原稿においては、上記の判断はより困難となる。
【0062】
上記判断を行なう方法も各種提案されてはいるが、その精度は十分ではない。従って、誤った文字行領域が採用される場合も多く、その場合、図10に示すような誤った文字情報が採用される。結果的に、図8に示す正確な文字情報が検索対象とならないために検索漏れが生じ、適合率が低下してしまう。
【0063】
本実施形態においては、図11に示すように、複数の行抽出方法を適用して生成された文字情報を全て検索対象として格納する。これにより、正確な文字情報の登録が誤って排除されてしまうようなことがなく、検索対象情報の登録に際して、検索の適合率を向上することが可能となる。
【0064】
以上説明したように、本実施形態に係る画像処理装置1により、文字を含む画像を文字認識することにより文字検索の検索対象として格納する場合に、文字検索の適合率を向上することが可能となる。また、上記実施形態によれば、図10に示すような余分な文字情報も検索対象として登録されることとなる。しかしながら、図10に示すように、誤った行抽出方法によって抽出された文字情報は文章や単語として成立しない情報である。従って、検索に際して検索ノイズが増大することはなく、検索対象情報を登録するという目的において不具合は生じない。
【0065】
尚、上記実施形態においては、S402において選択される行抽出処理の種類の例として、図7、図9において説明したように、行方向が異なる行抽出処理を例として説明した。この他、正確な文字情報の抽出のために、S402において文字情報認識部122が選択可能な行抽出処理の種類は可能な限り多いことが好ましい。
【0066】
例えば、上記実施形態においては、図4のS403の処理として、白黒の画像において黒画素を連結して文字行を抽出する例を説明した。この他、入力画像がカラー画像である場合に、色彩の近い画素を連結して画素集合を生成し、生成した画素集合を連結して文字行を抽出しても良い。即ち、行抽出方法のバリエーションとして、文字を構成する線の認識方法が異なる態様が考えられる。
【0067】
また、上記実施形態においては、図7、図9において説明した行方向に加えて、例えば文字方向が考えられる。図13は、設計図等に見られる紙面上のレイアウトの例を示す図である。図13に含まれる文字情報のうち、“高さ 90mm”という文字情報は、文字方向が270°回転している。このように、行抽出方法のバリエーションとして、文字の上下を認識する方向が異なる態様が考えられる。
【0068】
また、“高さ 90mm”という文字情報の行方向は縦であるが、下から上に読む特殊な行方向である。即ち、レイアウト形式によっては、行方向に加えて文字を読み進める方向(以降、文字読み方向とする)も様々である。従って、行抽出方法のバリエーションとして、文字を読み進める方向が異なる態様が考えられる。
【0069】
同様に、図9に示すように行が抽出された場合であっても、右から左に読むのではなく、左から右に読む場合も考えられる。即ち、レイアウト形式によっては、行を読み進める際の方向(以降、行読み方向とする)も様々である。従って、行抽出方法のバリエーションとして、行を読み進める方向が異なる態様が考えられる。
【0070】
上述したような様々なレイアウト形式に対応するため、行方向、文字方向、文字読み方向及び行読み方向等をパラメータとする行抽出方法のバリエーション情報を、文字情報認識部122に登録しておくことが好ましい。文字情報認識部122は、S402において、上記登録されている行抽出方法のバリエーションの1つを選択することにより、様々な態様での文字認識を実行することが可能となる。
【0071】
図14に、文字情報認識部122に登録される行抽出方法のバリエーション情報の例を示す。図14に示すように、文字情報認識部122に登録される罵詈エーション情報は、行方向、文字方向、文字読み方向及び行読み方向の情報を含む。行方向は、“縦”、“横”のように、示される。文字方向は、“0°”、“270°”のように、文字の回転角度によって示される。図5に示すような文字であれば“0°”であり、“270°”であれば、図13の“高さ・・・”の文字のように回転していることを示す。文字読み方向及び行読み方向は、文字若しくは行を読み進める方向が矢印で示されている。
【0072】
図14の例において、例えばID“001”のバリエーション情報は、行方向が縦であり、文字は図13の“高さ・・・”の文字のように回転していないことを示す。また、文字読み方向は、上から下であり、行読み方向は右から左であることを示す。
【0073】
実施の形態2.
実施の形態1においては、図4に示すように、複数の行抽出方法に基づいて生成した文字情報を全て検索対象DB106に登録することにより、適合率を向上する例を説明した。上述したように、誤った行抽出方法によって生成され登録された文字情報は、検索結果に悪影響を与えることはない。しかしながら、誤った行抽出方法によって登録される文字情報により、余分な記憶領域が必要となる。本実施形態においては、検索の適合率を維持しつつ、誤った行抽出方法によって登録される文字情報を削減することにより、余分に必要となる記憶領域を低減する例を説明する。尚、実施の形態1において説明した符号と同一の符号を付す厚生は、同一または相当部を示し、説明を省略する。
【0074】
本実施形態に係る画像処理装置1は、図1、図2及び図3において説明した態様と略同様の構成を有する。本実施形態に係る画像処理装置1は、文字認識制御部120による検索対象DB106への情報登録処理が異なる。図を参照して、文字認識制御部120による検索対象DB106への情報登録処理について説明する。
【0075】
図15は、本実施形態に係る文字認識制御部120の動作を示すフローチャートである。図15に示すように、S1501〜S1505までは、図4において説明したS401〜S405と同様に処理が実行される。そして、全行抽出方法について文字認識を完了すると(S1505/YES)、文字情報認識部122は、誤認識によって生成された文字情報を削除する(S1506)。S1506の処理は、誤認識によって生成された文字情報を、検索対象DB106への格納対象から除外する処理である。即ち、文字情報認識部122が、格納対象除外部として機能する。
【0076】
S1506において文字情報認識部122が実行する処理の詳細について、図16を参照して説明する。図16は、文字情報認識部122がS1506において誤認識によって生成された文字情報を削除する際の手段(以降、誤検出領域削除手段とする)の一覧を示す情報である。図16に示すように、本実施形態に係る文字情報認識部122は、重複領域削除手段及び辞書検索削除手段を有する。
【0077】
まず、重複領域削除手段について説明する。重複領域削除手段は、異なる行抽出方法によって抽出された複数の文字領域が重複している場合に、所定の条件に基づいて重複している文字領域を削除する。図17(a)〜(d)を参照して、重複領域削除手段による重複領域の削除太陽について説明する。
【0078】
図17(a)は、文字領域Aの中に文字領域Bが含まれている場合を示す図である。図17(a)に示す場合、文字情報認識部122は、文字領域Aと文字領域Bの行方向及び文字方向等が同一であれば、斜線で示す文字領域Bは削除し、文字領域Aの文字情報のみを検索対象DB106に登録する。文字領域Aと文字領域Bの行方向及び文字方向等が同一であれば、文字領域Bに含まれる文字情報は文字領域Aにも含まれている。従って、文字領域Aの文字情報を登録することにより、削除した文字領域Bの文字情報も登録されるため、適合率は低下しない。
【0079】
図17(b)は、文字領域Cの一部と文字領域Dの一部とが重複している場合を示す図である。図17(b)の例においては、文字領域Cの横幅が文字領域Dの横幅よりも広く、且つ文字領域Dの横方向の範囲は文字領域Cの横方向の範囲内に含まれている。この場合、文字情報認識部122は、文字領域C及び文字領域Dの行方向が共に横方向であれば、文字領域Cの全部及び文字領域Dから斜線で示す領域を削除した部分を検索対象DB106に登録する。
【0080】
文字領域C及び文字領域Dの行方向が共に横方向であれば、文字領域Cの文字情報を全部登録することにより、斜線で示す重複部分の文字情報は全て含まれる。従って、文字領域Cの全部を登録することにより、削除した斜線部分の文字情報も登録されるため、適合率は低下しない。
【0081】
図17(c)は、文字領域Eの一部と文字領域Fの一部とが重複している場合を示す図である。図17(c)の例においては、文字領域Eの縦幅が文字領域Fの縦幅よりも広く、且つ文字領域Fの縦方向の範囲は文字領域Eの縦方向の範囲内に含まれている。この場合、文字情報認識部122は、文字領域E及び文字領域Fの行方向が共に縦方向であれば、文字領域Eの全部及び文字領域Fから斜線で示す領域を削除した部分を検索対象DB106に登録する。
【0082】
文字領域E及び文字領域Fの行方向が共に縦方向であれば、文字領域Eの文字情報を全部登録することにより、斜線で示す重複部分の文字情報は全て含まれる。従って、文字領域Eの全部を登録することにより、削除した斜線部分の文字情報も登録されるため、適合率は低下しない。
【0083】
図17(d)は、文字領域Gの一部と文字領域Hの一部とが重複している場合を示す図である。図17(d)の例において、文字領域Gと文字領域Hとは、縦方向及び横方向が共にずれて重なっている。この場合、文字情報認識部122は、文字領域Gの文字情報と文字領域Hの文字情報とを夫々登録する。
【0084】
図17(d)の場合、例えば、文字領域Gの全部と文字領域Hから斜線部を削除した部分の文字情報を登録する場合を考える。この場合、文字領域G及び文字領域Hの行方向が共に横方向であったとしても、文字領域Hから斜線部を削除することにより、斜線部とその右側の領域との文章が切断されてしまう。他方、文字領域G及び文字領域Hの行方向が共に縦方向であったとしても、文字領域Hから斜線部を削除することにより、斜線部とその下側の領域との文章が切断されてしまう。従って、図17(d)に示すような重複態様、即ち、一方の領域と他方の領域との横方向及び縦方向がずれて重複している態様では、重複領域の削除を行なわない。
【0085】
このように、本実施形態に係る重複領域削除手段では、一方の領域の縦若しくは横方向の範囲の全てが他方の領域の縦若しくは横方向の範囲に含まれており、且つ行方向が所定の条件に合致する場合に限り、重複領域を削除する。換言すると、本実施形態においては、削除しても文字行が分割されない場合のみ、重複領域を削除する。これにより、明らかに余分な重複領域のみを削除し、検索時の適合率を維持したまま必要となる記憶領域を低減することが可能となる。
【0086】
次に、辞書検索削除手段について説明する。辞書検索削除手段は、文字認識の結果生成された文字情報に対して辞書検索を実行し、一つも単語がヒットしなかった文字情報を削除する。このため本実施形態に係る文字情報認識部122は、図18に示すように、辞書情報DB107にアクセス可能に構成される。即ち、文字情報認識部122が辞書情報取得部及び辞書検索部として機能する。尚、辞書検索削除手段は、図17に示すような文字領域毎に辞書検索を実行する。
【0087】
例えば、図9において説明したように行抽出が実行されて生成された図10のような文字情報では、辞書に登録された単語が含まれることは少ないと考えられる。他方、“日”、“今”、“文”等の一文字の単語は、誤った行抽出方法によって生成された文字情報であっても含まれる。従って、辞書検索削除手段は、辞書情報DB107に登録された単語のうち、2文字以上の単語が含まれない文字領域を削除する。
【0088】
このように、本実施形態に係る辞書検索削除手段では、辞書に登録されている単語が含まれない文字領域を削除する。これにより、明らかに余分な文字領域を削除し、検索時の適合率を維持したまま必要となる記憶領域を低減することが可能となる。
【0089】
文字情報認識部122は、上述した重複領域削除手段及び辞書検索削除手段により明らかに不要な文字領域の文字情報を削除すると、入力情報取得部121から取得した画像情報及び削除されなかった文字情報を情報登録部123に入力する。情報登録部123は、図4のS406と同様に情報を登録し(S1507)、処理を終了する。
【0090】
重複領域削除手段及び辞書検索削除手段が、明らかに不要と判断される文字領域の文字情報を削除することにより、検索対象DB106に登録される文字情報の量が低減される。検索対象DB106に登録される文字情報の量が低減されることにより、検索対象の情報が低減される。従って、上述したように、明らかに扶養と判断される文字領域の文字情報を削除することにより、検索に要する時間を低減することも可能となる。
【0091】
尚、上記実施形態においては、図16において説明したように、誤認識領域削除手段の一例として重複領域削除手段及び辞書検索削除手段を説明した。この他、明らかに不要と判断される文字領域を削除する手段であれば、誤認識領域削除手段として用いることが可能である。
【0092】
上記誤認識領域削除手段の1つの例として、文字領域の縦若しくは横方向の幅と行方向との関係による削除が考えられる。例えば、横書きの文字領域の場合、横方向の幅が少なくとも数文字から数十文字分の幅を有すると考えられる。従って、横書きの文字領域で且つ横方向の幅が数文字分に満たない場合、例えば、1乃至3文字程度の幅である場合、その文字領域は誤認識された領域であるとして削除する。同様に、縦書きの文字領域の場合、縦方向の幅が少なくとも数文字から数十文字分の幅を有すると考えられる。従って、縦書きの文字領域で且つ縦方向の幅が上記と同様に数文字分に満たない場合、その文字領域を削除する。
【0093】
また、文字領域の行方向とアスペクト比による削除が考えられる。例えば、横書きの文字領域の場合、縦方向よりも横方向の幅の方が広くなると考えられる。従って、横書きの文字領域で且つ横方向よりも縦方向の幅の方が広い文字領域は、誤認識された領域であるとして削除する。同様に縦書きの文字領域の場合、横方向よりも縦方向の幅の方が広くなると考えられる。従って、縦書きの文字領域で且つ縦方向よりも横方向の幅の方が広い文字領域は、上記と同様に削除する。
【図面の簡単な説明】
【0094】
【図1】本発明の実施形態に係る画像処理装置のハードウェア構成を示すブロック図である。
【図2】本発明の実施形態に係る画像処理装置の機能構成を示すブロック図である。
【図3】本発明の実施形態に係る文字認識制御部の機能構成を示すブロック図である。
【図4】本発明の実施形態に係る画像処理装置の動作を示すフローチャートである。
【図5】本発明の実施形態に係る入力情報の例を示す図である。
【図6】本発明の実施形態に係る黒画素の外接矩形の抽出態様を示す図である。
【図7】本発明の実施形態に係る行抽出態様を示す図である。
【図8】本発明の実施形態において文字認識により生成された文字情報の例を示す図である。
【図9】本発明の実施形態に係る行抽出態様を示す図である。
【図10】本発明の実施形態において文字認識により生成された文字情報の例を示す図である。
【図11】本発明の実施形態に係る検索対象DBが記憶している情報の例を示す図である。
【図12】本発明の実施形態に係る読み取り原稿の例を示す図である。
【図13】本発明の実施形態に係る読み取り原稿の例を示す図である。
【図14】本発明の実施形態に係る文字情報認識部が記憶している行抽出方法のバリエーション情報を示す図である。
【図15】本発明の他の実施形態に係る画像処理装置の動作を示す図である。
【図16】本発明の他の実施形態に係る誤認識領域削除手段の一覧を示す図である。
【図17】本発明の他の実施形態に係る誤認識領域の削除態様を示す図である。
【図18】本発明の他の実施形態に係る文字認識制御部の機能構成を示す図である。
【符号の説明】
【0095】
1 画像処理装置
10 CPU
20 RAM
30 エンジン
40 ROM
50 NVRAM
60 I/F
70 LCD
80 操作部
100 コントローラ
101 ADF
102 スキャナユニット
103 排紙トレイ
104 ネットワークI/F
105 ディスプレイパネル
106 検索対象DB
107 辞書情報DB
111 主制御部
112 エンジン制御部
113 入出力制御部
114 画像処理装置
120 文字認識制御部
121 入力情報取得部
122 文字情報認識部
123 情報登録部
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、制御プログラム及び記録媒体に関し、特に、画像として表示された文字情報を検索対象の文字情報として記憶する処理に関する。
【背景技術】
【0002】
近年、情報の電子化が推進される傾向にある。情報の電子化の一態様として、文章を含む画像をスキャン等によって取得し、その画像に表示されている文字を文字情報として認識する処理がある。このような処理は、OCR(Optical Character Recognition:光学文字認識)と呼ばれている。
【0003】
複数行からなる文章を含む画像に対してOCR処理を実行する場合、OCR処理を実行する前段階の処理として、文字行領域を抽出する処理が必要となる。このような文字行領域を抽出する方法としては、例えば夫々の文字を連結して行を抽出する方法がある。また、他の方法としては、入力された文章画像を二値化した上で論理和縮小し、縮小された画像に含まれる連結成分の縦横比を判定することにより、行を抽出する方法が提案されている(例えば、特許文献1参照)。
【0004】
また、文書のレイアウトが複雑な画像において、単一の抽出条件では抽出が困難な文字行領域を抽出するための方法も提案されている(例えば、特許文献2参照)。特許文献2に開示された方法においては、複数の異なる抽出条件夫々に基づいて複数の文字行領域が抽出される。そして、抽出された複数の文字行領域に対する文字認識結果に基づいて、採用する文字行領域が決定される。
【特許文献1】特開平5−266075号公報
【特許文献2】特開2006−244309号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
従来、上述したような文字認識技術は、主として文字を含む画像を文字情報として再現すること、即ち、再現性を高めることが課題とされていた。しかしながら、近年、情報の検索技術の重要性に伴い、文字認識技術によって文字を含む画像情報を文字検索の対象として格納するという要求がある。この場合、上記の再現性よりも、入力された検索語に基づいて画像に含まれる文字を抽出する適合率が重要視される。
【0006】
上記適合率は、画像に含まれる文字行領域を正確に抽出し、文字認識を正確に実行することにより向上することができる。他方、文字行領域が正確に抽出されない場合、その画像に含まれる文章を正確に文字認識することができない。その結果、画像として含まれている文字を文字情報として格納することが出来ないため、文字検索を実行しても正しい検索結果を得ることができず、適合率が低下する。
【0007】
換言すると、文字認識を実行することにより、文字を含む画像を文字検索の検索対象として格納する場合、再現性と適合率のトレードオフとはならず、適合率が優先される。
【0008】
本発明は、上記実情を考慮してなされたものであり、文字を含む画像を文字認識することにより文字検索の検索対象として格納する場合に、文字検索の適合率を向上することを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決するために、請求項1に記載の発明は、文字領域を含む画像から前記文字領域を抽出して文字情報を生成し、検索対象情報として格納する画像処理装置であって、前記画像を取得する画像取得部と、前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出し、第一の文字情報を生成する第一の文字領域抽出部と、前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出し、第二の文字情報を生成する第二の文字領域抽出部と、前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納する情報格納部とを含むことを特徴とする。
【0010】
また、請求項2に記載の発明は、請求項1に記載の画像処理装置において、前記第1の領域抽出方法は、文字行を認識する方向が前記第2の領域抽出方法とは異なることを特徴とする。
【0011】
また、請求項3に記載の発明は、請求項1または2に記載の画像処理装置において、前記第1の領域抽出方法は、文字の上下を認識する方向が前記第2の領域抽出方法とは異なることを特徴とする。
【0012】
また、請求項4に記載の発明は、請求項1乃至3いずれかに記載の画像処理装置において、前記1の領域抽出方法は、文字行において文字を読み進める方向が前記第2の領域抽出方法とは異なることを特徴とする。
【0013】
また、請求項5に記載の発明は、請求項1乃至4いずれかに記載の画像処理装置において、前記第1の領域抽出方法は、複数の文字行において行を読み進める方向が前記第2の領域抽出方法とは異なることを特徴とする。
【0014】
また、請求項6に記載の発明は、請求項1乃至5いずれか1に記載の画像処理装置において、前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域抽出部が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、前記格納対象除外部は、前記第1の文字領域の全体が前記第2の文字領域に含まれる場合、前記第1の文字情報を前記格納対象から除外することを特徴とする。
【0015】
また、請求項7に記載の発明は、請求項1乃至6いずれか1に記載の画像処理装置において、前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、前記格納対象除外部は、前記第1の文字領域の横方向の範囲全体が前記第2の文字領域の横方向の範囲全体に含まれ、且つ前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が所定の条件を満たす場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0016】
また、請求項8に記載の発明は、請求項7に記載の画像処理装置において、前記格納対象除外部は、前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が横方向である場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0017】
また、請求項9に記載の発明は、請求項1乃至8いずれか1に記載の画像処理装置において、前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、前記格納対象除外部は、前記第1の文字領域の縦方向の範囲全体が前記第2の文字領域の縦方向の範囲全体に含まれ、且つ前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が所定の条件を満たす場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0018】
また、請求項10に記載の発明は、請求項9に記載の画像処理装置において、前記格納対象除外部は、前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が縦方向である場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0019】
また、請求項11に記載の発明は、請求項1乃至10いずれかに記載の画像処理装置において、辞書情報を取得する辞書情報取得部と、前記第一の文字情報若しくは前記第二の文字情報を検索して前記取得された辞書情報に含まれる単語を抽出する辞書検索部と、前記辞書検索部による検索結果に応じて前記第一の文字情報若しくは前記第二の文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部とを有することを特徴とする。
【0020】
また、請求項12に記載の発明は、請求項11に記載の画像処理装置において、前記格納対象除外部は、前記第一の文字情報及び前記第二の文字情報のうち、前記辞書検索部による検索の結果抽出された単語がすべて一文字の単語であるものを前記格納対象から除外することを特徴とする。
【0021】
また、請求項13に記載の発明は、請求項1乃至12に記載の画像処理装置において、前記第1の文字領域抽出部若しくは前記第2の文字領域抽出部が抽出した文字領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、前記格納対象除外部は、前記文字領域の行方向及び当該行方向と平行な方向の前記文字領域の幅の関係に基づいて前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0022】
また、請求項14に記載の発明は、請求項13に記載の画像処理装置において、前記格納対象除外部は、前記文字領域の幅であって前記文字領域の行方向と平行な方向の幅が所定の範囲以下である場合に、前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0023】
また、請求項15に記載の発明は、請求項1乃至14に記載の画像処理装置において、前記第1の文字領域抽出部若しくは前記第2の文字領域抽出部が抽出した文字領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、前記格納対象除外部は、前記文字領域の行方向及び前記文字領域のアスペクト比の関係に基づいて前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする。
【0024】
また、請求項16に記載の発明は、文字領域を含む画像から前記文字領域を抽出して文字情報を生成し、検索対象情報として格納する画像処理方法であって、画像取得部が、前記画像を取得し、第一の文字領域抽出部が、前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第一の文字情報を生成し、第二の文字領域抽出部が、前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第二の文字情報を生成し、情報格納部が、前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納することを特徴とする。
【0025】
また、請求項17に記載の発明は、情報処理装置を、文字領域を含む画像から前記文字領域を抽出して文字情報を生成して検索対象情報として格納する画像処理装置として動作させる制御プログラムであって、前記画像を取得するステップと、前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第一の文字情報を生成するステップと、前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第二の文字情報を生成するステップと、前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納するステップとを前記情報処理装置に実行させることを特徴とする。
【0026】
また、請求項18に記載の発明は、記録媒体であって、請求項14に記載の制御プログラムを情報処理装置が読み取り可能な形式で記録したことを特徴とする。
【発明の効果】
【0027】
本発明によれば、文字を含む画像を文字認識することにより文字検索の検索対象として格納する場合に、文字検索の適合率を向上することが可能となる。
【発明を実施するための最良の形態】
【0028】
実施の形態1.
以下、図面を参照して、本発明の実施形態を詳細に説明する。本実施形態においては、現行をスキャンして画像情報を生成し、その画像情報に対して文字認識を実行して画像情報と文字情報とを関連付けて格納する画像処理装置を例として説明する。
【0029】
図1は、本実施形態に係る画像処理装置1のハードウェア構成を示すブロック図である。図1に示すように、本実施形態に係る画像処理装置1は、一般的なサーバやPC(Personal Computer)等の情報処理端末と同様の構成を含む。即ち、本実施形態に係る画像処理装置1は、CPU(Central Processing Unit)10、RAM(Random Access Memory)20、エンジン30、ROM(Read Only Memory)40、NVRAM(Non―Volatile Random Access Memory)50及びI/F60がバス90を介して接続されている。また、I/F60にはLCD(Liquid Crystal Display)70及び操作部80が接続されている。
【0030】
CPU10は演算手段であり、画像処理装置1全体の動作を制御する。RAM20は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU10が情報を処理する際の作業領域として用いられる。エンジン30は、スキャナやプリンタ等の画像処理機能を実行する画像処理エンジンである。ROM40は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。
【0031】
NVRAM50は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーション・プログラム及びアプリケーション・プログラムの動作パラメータの情報等が格納される。I/F60は、バス90と各種のハードウェアやネットワーク等を接続し制御する。LCD70は、ユーザが画像処理装置1の状態を確認するための視覚的ユーザインタフェースである。操作部80は、キーボードやマウス等、ユーザが画像処理装置1に情報を入力するためのユーザインタフェースである。
【0032】
このようなハードウェア構成において、ROM40やNVRAM50若しくは図示しないHDD(Hard Disk Drive)や光学ディスク等の記憶媒体に格納されたプログラムがRAM20に読み出され、RAM20に読み出されたプログラムに従ってCPU10が動作することにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、本実施形態に係る画像処理装置1の機能を実現する機能ブロックが構成される。
【0033】
図2は、本実施形態に係る画像処理装置1の機能構成を示すブロック図である。図2に示すように、本実施例に係る画像処理装置1は、コントローラ100、ADF(Auto Document Feeder:原稿自動搬送装置)101、スキャナユニット102、排紙トレイ103、ネットワークI/F104、ディスプレイパネル105及び検索対象DB106を有する。
【0034】
また、コントローラ100は、主制御部111、エンジン制御部112、入出力制御部113、画像処理部114及び文字認識制御部120を有する。尚、図2においては、電気的接続を実線の矢印で示しており、用紙の流れを破線の矢印で示している。コントローラ100は、図1に示すRAM20にロードされたプログラムに従ってCPU10が動作することにより実現される。
【0035】
ネットワークI/F104は、画像処理装置1がクライアント端末等の他の機器と通信する際のインタフェースである。ネットワークI/F104は、図1に示すI/F60によって実現される。ディスプレイパネル105は、画像処理装置1の状態を視覚的に表示する出力インタフェースであると共に、タッチパネルとしてユーザが画像処理装置1を直接操作する際の入力インタフェースでもある。ディスプレイパネル105は、図1に示すLCD70及び操作部80によって実現される。
【0036】
検索対象DB106は、文字検索の対象となる情報が格納されているデータベースである。検索対象DB106は、図1に示すNVRAM50や図示しないHDD等の不揮発性の記憶媒体に記憶された情報によって実現される。
【0037】
主制御部111は、コントローラ100に含まれる各部を制御する役割を担い、コントローラ100の各部に命令を与える。エンジン制御部112は、スキャナユニット102等を制御若しくは駆動する駆動手段としての役割を担う。入出力制御部113は、ネットワークI/F104若しくはディスプレイパネルを介して入力される情報を主制御部111に入力する。また、入出力制御部113は、主制御部111の命令に従ってネットワークI/F104を介してネットワークに接続された他の装置に情報を送信する。更に入出力制御部113は、主制御部111の命令に従い、ディスプレイパネル105の表示を制御する。
【0038】
画像処理部114は、主制御部111の制御に従い、スキャナユニット102から入力される撮像データを処理し、画像情報を生成する。この画像情報とは、スキャナ動作の結果物として図示しないHDDに格納され若しくはネットワークI/F104を介してクライアント端末等に送信される情報である。
【0039】
文字認識制御部120は、主制御部111の制御に従い、検索対象DB106への登録対象として入力された画像情報を解析し、文字認識を実行する。そして、文字認識制御部120は、実行した文字認識の結果に従い、入力された画像情報と文字認識によって生成された文字情報とを関連付けて検索対象DB106に格納する。文字認識制御部120によって提供される機能が本実施形態の要旨の1つとなる。
【0040】
画像処理装置1がスキャナとして動作する場合は、ユーザによるディスプレイパネル105の操作若しくはネットワークI/F104を介して外部のクライアント装置等から入力されるスキャン実行指示に応じて、入出力制御部113が主制御部111にスキャン実行信号を転送する。主制御部111は、受信したスキャン実行信号に基づき、エンジン制御部112を制御する。
【0041】
エンジン制御部112は、ADF101を駆動し、ADF101にセットされた撮像対象原稿をスキャナユニット102に搬送する。また、エンジン制御部112は、スキャナユニット102を駆動し、ADF101から搬送される原稿を撮像する。また、ADF101に原稿がセットされておらず、スキャナユニット102に直接原稿がセットされた場合、スキャナユニット102は、エンジン制御部112の制御に従い、セットされた原稿を撮像する。即ち、スキャナユニット102が撮像部として動作する。
【0042】
撮像動作においては、スキャナユニット102に含まれるCCD等の撮像素子が原稿を光学的に走査し、光学情報に基づいて生成された撮像情報が生成される。エンジン制御部112は、スキャナユニット102が生成した撮像情報を画像処理部114に転送する。画像処理部114は、主制御部111の制御に従い、エンジン制御部112から受信した撮像情報に基づいて画像情報を生成する。
【0043】
画像処理部114が生成した画像情報はHDD等の画像形成装置1に装着された記憶媒体に保存される。画像処理部114によって生成された画像情報は、ユーザの指示に応じてそのままHDD等に格納され若しくは入出力制御部113及びネットワークI/F108を介して外部の装置に送信される。
【0044】
尚、図1、図2においては、画像処理装置1が単一の装置によって構成される場合を例としている。しかしながら、ネットワークによって接続された複数の装置に分割して図1、図2に示す機能を実現することも可能である。このような画像処理装置1において、上述したように、本実施形態の要旨は、文字認識制御部120による文字認識処理にある。本実施形態に係る文字認識制御部120について、図3を参照して更に詳細に説明する。
【0045】
図3は、本実施形態に係る文字認識制御部120の詳細及び文字認識制御部120と主制御部111、検索対象DB106との接続関係を示すブロック図である。図3に示すように、本実施形態に係る文字認識制御部120は、入力情報取得部121、文字情報認識部122及び情報登録部123を有する。本実施形態に係る情報挿入制御部120は、図1に示すRAM20にロードされたプログラムに従ってCPU10が動作することにより構成される。
【0046】
入力情報取得部121は、検索対象として検索対象DB120に登録すべき画像情報を入力情報として取得する。入力情報は、スキャナユニット102によるスキャン処理によって生成される画像情報若しくはネットワークI/F104を介して入力される画像情報である。入力情報取得部121は、上記入力情報を主制御部111から取得する。入力情報取得部121は、取得した入力情報を文字情報認識部122に入力する。
【0047】
文字情報認識部122は、入力情報取得部121が取得した入力情報に含まれる文字情報を認識する。文字情報認識部122は、入力情報として取得した画像情報から文字行が表示されている文字行領域を抽出した上で、文字認識を実行する。文字情報認識部122は、上記文字行領域を抽出するための方法を複数種類有し、夫々の方法に基づいて文字行を抽出した上で文字認識を実行する。文字情報認識部122による処理は後に詳述する。
【0048】
情報登録部123は、入力情報取得部121が取得した画像情報と文字情報認識部122が文字認識により生成した文字情報とを関連付けて検索対象DB106に登録する。
【0049】
次に、本実施形態に係る画像処理装置1の動作について説明する。図4は、本実施形態に係る画像処理装置1の動作を示すフローチャートである。図4に示すように、まず、入力情報取得部121が、主制御部111から入力情報として画像情報を取得する(S401)。即ち、入力情報取得部121が画像取得部として機能する。図5に、本実施形態のS401において入力情報取得部121が取得する画像の例を示す。図5に示す入力情報は、白地に黒い文字で文章が表示された画像情報である。
【0050】
尚、上述したように、S401において入力情報取得部121が取得する画像情報は、スキャナユニット102によるスキャン若しくはネットワークI/F104を介した情報の入力等により入力される。入力情報取得部121は、取得した入力情報を文字情報認識部122に入力する。
【0051】
図5に示すような入力情報を取得すると、文字情報認識部122は、複数の行抽出方法から一の方法を選択する(S402)。そして、文字情報認識部122は、S402において選択した行抽出方法に基づいて行抽出を実行する(S403)。
【0052】
まず、S402の処理において、黒画素を連結して黒画素の外接矩形を生成し、生成された外接矩形を横方向に連結して行を抽出する方法が選択された場合を説明する。この場合、文字情報認識部122は、S403の処理において、入力情報において連続している黒画素を認識する。そして、文字情報認識部122は、認識した黒画素の外接矩形を抽出する。図6は、文字認識部122による矩形抽出処理の態様を示す図である。
【0053】
図6に示すように外接矩形を抽出すると、文字情報認識部122は、抽出した外接矩形を横方向に連結して文字行を抽出する。図7は、図6に示す外接矩形の抽出結果に基づいて横書きの行が抽出された結果を示す例である。文字行の抽出が完了すると、文字情報認識部122は、抽出した文字行に対して文字認識を実行する(S404)。文字情報認識部122は、S404において、特徴抽出、パターン辞書照合により文字画像に対応するテキストデータを抽出し、文字認識を実行する。文字認識処理においては、公知の技術を用いることが可能であり、本実施形態においては詳細な説明を省略する。
【0054】
図8は、図7のように抽出された文字行に対して文字認識を実行した結果、生成される文字情報を示す図である。図8に示すように、図7のように抽出された文字行に対して文字認識を実行した場合、“文字認識技術は、紙データを電子化する技術の一つです。・・・対する期待は小さくなることはないようです。”という文字情報が生成される。このように、まずは文字情報認識部122が第一の文字領域抽出部として機能する。
【0055】
文字認識を実行して図8に示すような文字情報を生成すると、文字情報認識部122は、実行可能な行抽出方法の全てを選択してS403、S404の処理を実行したか確認する(S405)。全ての行抽出方法を選択していない場合(S405/NO)、文字情報認識部122は、S402からの処理を繰り返す。
【0056】
図9は、S402において縦書きの行抽出方法が選択された場合の行抽出結果の例を示す図である。この場合、文字情報認識部122は、図6に示すように抽出された外接矩形を縦方向に連結し、図9に示すように文字行を抽出する(S403)。文字行の抽出が完了すると、文字情報認識部122は、上記と同様に抽出した文字行に対して文字認識を実行する(S404)。
【0057】
図10は、図9のように抽出された文字行に対して文字認識を実行した結果、生成される文字情報を示す図である。図10に示すように、図9のように抽出された文字行に対して文字認識を実行した場合、“つ日対一今にのだ術段ん技。・・・認。紙期字すもる文でです”という文字情報が生成される。このように、S402において他の行抽出方法が選択された結果、文字情報認識部122が第二の文字領域抽出部として機能する。
【0058】
このように、S403、S404の処理が繰り返されることにより、同一の画像領域が異なる文字行領域として認識され、夫々異なる文字情報が生成される。そして、実行可能な行抽出方法の全てを選択し、S403、S404の処理を終えると(S405/YES)、文字情報認識部122は、入力情報取得部121から取得した画像情報及び図8、図10に示すように生成した文字情報を情報登録部123に入力する。
【0059】
情報登録部123は、文字情報認識部122から入力された情報を検索対象DB106に登録し(S406)、処理を終了する。即ち、情報登録部123が、検索対象DB106に情報を格納する情報格納部として機能する。S406において、情報登録部123は、入力情報取得部121がS401において取得した画像情報と、文字情報認識部122が生成した夫々の文字情報とを関連付けて検索対象DB106に登録する。図11に、検索対象DB106が記憶している情報の例を示す。
【0060】
図11に示すように、検索対象DB106には、画像格納パス、文字情報1、2、3・・・の情報が関連付けられて記憶されている。画像格納パスとは、S401において入力情報取得部121が取得した画像情報の格納パスの情報である。文字情報1、2、3・・・は、文字情報認識部122が生成した文字情報である。検索対象DB106が検索される場合、文字情報1、2、3・・・が文字検索の対象となる。上述したように、文字情報認識部122は、複数の異なる行抽出方法に基づいて文字行領域を抽出し、複数の文字情報を生成する。従って、図11に示すように、複数の文字情報が、画像情報に関連付けられて記憶される。
【0061】
図8、図10の文字情報を人間が参照すれば、図8に係る行抽出方法が正確であって図10に係る行抽出方法が不正確であることは明らかであり、容易に判断できる。しかしながら、情報処理装置にそのような判断を実行させることは困難である。また、新聞や雑誌の誌面等、図12に示すように縦書き、横書き及び画像とが混在した原稿においては、上記の判断はより困難となる。
【0062】
上記判断を行なう方法も各種提案されてはいるが、その精度は十分ではない。従って、誤った文字行領域が採用される場合も多く、その場合、図10に示すような誤った文字情報が採用される。結果的に、図8に示す正確な文字情報が検索対象とならないために検索漏れが生じ、適合率が低下してしまう。
【0063】
本実施形態においては、図11に示すように、複数の行抽出方法を適用して生成された文字情報を全て検索対象として格納する。これにより、正確な文字情報の登録が誤って排除されてしまうようなことがなく、検索対象情報の登録に際して、検索の適合率を向上することが可能となる。
【0064】
以上説明したように、本実施形態に係る画像処理装置1により、文字を含む画像を文字認識することにより文字検索の検索対象として格納する場合に、文字検索の適合率を向上することが可能となる。また、上記実施形態によれば、図10に示すような余分な文字情報も検索対象として登録されることとなる。しかしながら、図10に示すように、誤った行抽出方法によって抽出された文字情報は文章や単語として成立しない情報である。従って、検索に際して検索ノイズが増大することはなく、検索対象情報を登録するという目的において不具合は生じない。
【0065】
尚、上記実施形態においては、S402において選択される行抽出処理の種類の例として、図7、図9において説明したように、行方向が異なる行抽出処理を例として説明した。この他、正確な文字情報の抽出のために、S402において文字情報認識部122が選択可能な行抽出処理の種類は可能な限り多いことが好ましい。
【0066】
例えば、上記実施形態においては、図4のS403の処理として、白黒の画像において黒画素を連結して文字行を抽出する例を説明した。この他、入力画像がカラー画像である場合に、色彩の近い画素を連結して画素集合を生成し、生成した画素集合を連結して文字行を抽出しても良い。即ち、行抽出方法のバリエーションとして、文字を構成する線の認識方法が異なる態様が考えられる。
【0067】
また、上記実施形態においては、図7、図9において説明した行方向に加えて、例えば文字方向が考えられる。図13は、設計図等に見られる紙面上のレイアウトの例を示す図である。図13に含まれる文字情報のうち、“高さ 90mm”という文字情報は、文字方向が270°回転している。このように、行抽出方法のバリエーションとして、文字の上下を認識する方向が異なる態様が考えられる。
【0068】
また、“高さ 90mm”という文字情報の行方向は縦であるが、下から上に読む特殊な行方向である。即ち、レイアウト形式によっては、行方向に加えて文字を読み進める方向(以降、文字読み方向とする)も様々である。従って、行抽出方法のバリエーションとして、文字を読み進める方向が異なる態様が考えられる。
【0069】
同様に、図9に示すように行が抽出された場合であっても、右から左に読むのではなく、左から右に読む場合も考えられる。即ち、レイアウト形式によっては、行を読み進める際の方向(以降、行読み方向とする)も様々である。従って、行抽出方法のバリエーションとして、行を読み進める方向が異なる態様が考えられる。
【0070】
上述したような様々なレイアウト形式に対応するため、行方向、文字方向、文字読み方向及び行読み方向等をパラメータとする行抽出方法のバリエーション情報を、文字情報認識部122に登録しておくことが好ましい。文字情報認識部122は、S402において、上記登録されている行抽出方法のバリエーションの1つを選択することにより、様々な態様での文字認識を実行することが可能となる。
【0071】
図14に、文字情報認識部122に登録される行抽出方法のバリエーション情報の例を示す。図14に示すように、文字情報認識部122に登録される罵詈エーション情報は、行方向、文字方向、文字読み方向及び行読み方向の情報を含む。行方向は、“縦”、“横”のように、示される。文字方向は、“0°”、“270°”のように、文字の回転角度によって示される。図5に示すような文字であれば“0°”であり、“270°”であれば、図13の“高さ・・・”の文字のように回転していることを示す。文字読み方向及び行読み方向は、文字若しくは行を読み進める方向が矢印で示されている。
【0072】
図14の例において、例えばID“001”のバリエーション情報は、行方向が縦であり、文字は図13の“高さ・・・”の文字のように回転していないことを示す。また、文字読み方向は、上から下であり、行読み方向は右から左であることを示す。
【0073】
実施の形態2.
実施の形態1においては、図4に示すように、複数の行抽出方法に基づいて生成した文字情報を全て検索対象DB106に登録することにより、適合率を向上する例を説明した。上述したように、誤った行抽出方法によって生成され登録された文字情報は、検索結果に悪影響を与えることはない。しかしながら、誤った行抽出方法によって登録される文字情報により、余分な記憶領域が必要となる。本実施形態においては、検索の適合率を維持しつつ、誤った行抽出方法によって登録される文字情報を削減することにより、余分に必要となる記憶領域を低減する例を説明する。尚、実施の形態1において説明した符号と同一の符号を付す厚生は、同一または相当部を示し、説明を省略する。
【0074】
本実施形態に係る画像処理装置1は、図1、図2及び図3において説明した態様と略同様の構成を有する。本実施形態に係る画像処理装置1は、文字認識制御部120による検索対象DB106への情報登録処理が異なる。図を参照して、文字認識制御部120による検索対象DB106への情報登録処理について説明する。
【0075】
図15は、本実施形態に係る文字認識制御部120の動作を示すフローチャートである。図15に示すように、S1501〜S1505までは、図4において説明したS401〜S405と同様に処理が実行される。そして、全行抽出方法について文字認識を完了すると(S1505/YES)、文字情報認識部122は、誤認識によって生成された文字情報を削除する(S1506)。S1506の処理は、誤認識によって生成された文字情報を、検索対象DB106への格納対象から除外する処理である。即ち、文字情報認識部122が、格納対象除外部として機能する。
【0076】
S1506において文字情報認識部122が実行する処理の詳細について、図16を参照して説明する。図16は、文字情報認識部122がS1506において誤認識によって生成された文字情報を削除する際の手段(以降、誤検出領域削除手段とする)の一覧を示す情報である。図16に示すように、本実施形態に係る文字情報認識部122は、重複領域削除手段及び辞書検索削除手段を有する。
【0077】
まず、重複領域削除手段について説明する。重複領域削除手段は、異なる行抽出方法によって抽出された複数の文字領域が重複している場合に、所定の条件に基づいて重複している文字領域を削除する。図17(a)〜(d)を参照して、重複領域削除手段による重複領域の削除太陽について説明する。
【0078】
図17(a)は、文字領域Aの中に文字領域Bが含まれている場合を示す図である。図17(a)に示す場合、文字情報認識部122は、文字領域Aと文字領域Bの行方向及び文字方向等が同一であれば、斜線で示す文字領域Bは削除し、文字領域Aの文字情報のみを検索対象DB106に登録する。文字領域Aと文字領域Bの行方向及び文字方向等が同一であれば、文字領域Bに含まれる文字情報は文字領域Aにも含まれている。従って、文字領域Aの文字情報を登録することにより、削除した文字領域Bの文字情報も登録されるため、適合率は低下しない。
【0079】
図17(b)は、文字領域Cの一部と文字領域Dの一部とが重複している場合を示す図である。図17(b)の例においては、文字領域Cの横幅が文字領域Dの横幅よりも広く、且つ文字領域Dの横方向の範囲は文字領域Cの横方向の範囲内に含まれている。この場合、文字情報認識部122は、文字領域C及び文字領域Dの行方向が共に横方向であれば、文字領域Cの全部及び文字領域Dから斜線で示す領域を削除した部分を検索対象DB106に登録する。
【0080】
文字領域C及び文字領域Dの行方向が共に横方向であれば、文字領域Cの文字情報を全部登録することにより、斜線で示す重複部分の文字情報は全て含まれる。従って、文字領域Cの全部を登録することにより、削除した斜線部分の文字情報も登録されるため、適合率は低下しない。
【0081】
図17(c)は、文字領域Eの一部と文字領域Fの一部とが重複している場合を示す図である。図17(c)の例においては、文字領域Eの縦幅が文字領域Fの縦幅よりも広く、且つ文字領域Fの縦方向の範囲は文字領域Eの縦方向の範囲内に含まれている。この場合、文字情報認識部122は、文字領域E及び文字領域Fの行方向が共に縦方向であれば、文字領域Eの全部及び文字領域Fから斜線で示す領域を削除した部分を検索対象DB106に登録する。
【0082】
文字領域E及び文字領域Fの行方向が共に縦方向であれば、文字領域Eの文字情報を全部登録することにより、斜線で示す重複部分の文字情報は全て含まれる。従って、文字領域Eの全部を登録することにより、削除した斜線部分の文字情報も登録されるため、適合率は低下しない。
【0083】
図17(d)は、文字領域Gの一部と文字領域Hの一部とが重複している場合を示す図である。図17(d)の例において、文字領域Gと文字領域Hとは、縦方向及び横方向が共にずれて重なっている。この場合、文字情報認識部122は、文字領域Gの文字情報と文字領域Hの文字情報とを夫々登録する。
【0084】
図17(d)の場合、例えば、文字領域Gの全部と文字領域Hから斜線部を削除した部分の文字情報を登録する場合を考える。この場合、文字領域G及び文字領域Hの行方向が共に横方向であったとしても、文字領域Hから斜線部を削除することにより、斜線部とその右側の領域との文章が切断されてしまう。他方、文字領域G及び文字領域Hの行方向が共に縦方向であったとしても、文字領域Hから斜線部を削除することにより、斜線部とその下側の領域との文章が切断されてしまう。従って、図17(d)に示すような重複態様、即ち、一方の領域と他方の領域との横方向及び縦方向がずれて重複している態様では、重複領域の削除を行なわない。
【0085】
このように、本実施形態に係る重複領域削除手段では、一方の領域の縦若しくは横方向の範囲の全てが他方の領域の縦若しくは横方向の範囲に含まれており、且つ行方向が所定の条件に合致する場合に限り、重複領域を削除する。換言すると、本実施形態においては、削除しても文字行が分割されない場合のみ、重複領域を削除する。これにより、明らかに余分な重複領域のみを削除し、検索時の適合率を維持したまま必要となる記憶領域を低減することが可能となる。
【0086】
次に、辞書検索削除手段について説明する。辞書検索削除手段は、文字認識の結果生成された文字情報に対して辞書検索を実行し、一つも単語がヒットしなかった文字情報を削除する。このため本実施形態に係る文字情報認識部122は、図18に示すように、辞書情報DB107にアクセス可能に構成される。即ち、文字情報認識部122が辞書情報取得部及び辞書検索部として機能する。尚、辞書検索削除手段は、図17に示すような文字領域毎に辞書検索を実行する。
【0087】
例えば、図9において説明したように行抽出が実行されて生成された図10のような文字情報では、辞書に登録された単語が含まれることは少ないと考えられる。他方、“日”、“今”、“文”等の一文字の単語は、誤った行抽出方法によって生成された文字情報であっても含まれる。従って、辞書検索削除手段は、辞書情報DB107に登録された単語のうち、2文字以上の単語が含まれない文字領域を削除する。
【0088】
このように、本実施形態に係る辞書検索削除手段では、辞書に登録されている単語が含まれない文字領域を削除する。これにより、明らかに余分な文字領域を削除し、検索時の適合率を維持したまま必要となる記憶領域を低減することが可能となる。
【0089】
文字情報認識部122は、上述した重複領域削除手段及び辞書検索削除手段により明らかに不要な文字領域の文字情報を削除すると、入力情報取得部121から取得した画像情報及び削除されなかった文字情報を情報登録部123に入力する。情報登録部123は、図4のS406と同様に情報を登録し(S1507)、処理を終了する。
【0090】
重複領域削除手段及び辞書検索削除手段が、明らかに不要と判断される文字領域の文字情報を削除することにより、検索対象DB106に登録される文字情報の量が低減される。検索対象DB106に登録される文字情報の量が低減されることにより、検索対象の情報が低減される。従って、上述したように、明らかに扶養と判断される文字領域の文字情報を削除することにより、検索に要する時間を低減することも可能となる。
【0091】
尚、上記実施形態においては、図16において説明したように、誤認識領域削除手段の一例として重複領域削除手段及び辞書検索削除手段を説明した。この他、明らかに不要と判断される文字領域を削除する手段であれば、誤認識領域削除手段として用いることが可能である。
【0092】
上記誤認識領域削除手段の1つの例として、文字領域の縦若しくは横方向の幅と行方向との関係による削除が考えられる。例えば、横書きの文字領域の場合、横方向の幅が少なくとも数文字から数十文字分の幅を有すると考えられる。従って、横書きの文字領域で且つ横方向の幅が数文字分に満たない場合、例えば、1乃至3文字程度の幅である場合、その文字領域は誤認識された領域であるとして削除する。同様に、縦書きの文字領域の場合、縦方向の幅が少なくとも数文字から数十文字分の幅を有すると考えられる。従って、縦書きの文字領域で且つ縦方向の幅が上記と同様に数文字分に満たない場合、その文字領域を削除する。
【0093】
また、文字領域の行方向とアスペクト比による削除が考えられる。例えば、横書きの文字領域の場合、縦方向よりも横方向の幅の方が広くなると考えられる。従って、横書きの文字領域で且つ横方向よりも縦方向の幅の方が広い文字領域は、誤認識された領域であるとして削除する。同様に縦書きの文字領域の場合、横方向よりも縦方向の幅の方が広くなると考えられる。従って、縦書きの文字領域で且つ縦方向よりも横方向の幅の方が広い文字領域は、上記と同様に削除する。
【図面の簡単な説明】
【0094】
【図1】本発明の実施形態に係る画像処理装置のハードウェア構成を示すブロック図である。
【図2】本発明の実施形態に係る画像処理装置の機能構成を示すブロック図である。
【図3】本発明の実施形態に係る文字認識制御部の機能構成を示すブロック図である。
【図4】本発明の実施形態に係る画像処理装置の動作を示すフローチャートである。
【図5】本発明の実施形態に係る入力情報の例を示す図である。
【図6】本発明の実施形態に係る黒画素の外接矩形の抽出態様を示す図である。
【図7】本発明の実施形態に係る行抽出態様を示す図である。
【図8】本発明の実施形態において文字認識により生成された文字情報の例を示す図である。
【図9】本発明の実施形態に係る行抽出態様を示す図である。
【図10】本発明の実施形態において文字認識により生成された文字情報の例を示す図である。
【図11】本発明の実施形態に係る検索対象DBが記憶している情報の例を示す図である。
【図12】本発明の実施形態に係る読み取り原稿の例を示す図である。
【図13】本発明の実施形態に係る読み取り原稿の例を示す図である。
【図14】本発明の実施形態に係る文字情報認識部が記憶している行抽出方法のバリエーション情報を示す図である。
【図15】本発明の他の実施形態に係る画像処理装置の動作を示す図である。
【図16】本発明の他の実施形態に係る誤認識領域削除手段の一覧を示す図である。
【図17】本発明の他の実施形態に係る誤認識領域の削除態様を示す図である。
【図18】本発明の他の実施形態に係る文字認識制御部の機能構成を示す図である。
【符号の説明】
【0095】
1 画像処理装置
10 CPU
20 RAM
30 エンジン
40 ROM
50 NVRAM
60 I/F
70 LCD
80 操作部
100 コントローラ
101 ADF
102 スキャナユニット
103 排紙トレイ
104 ネットワークI/F
105 ディスプレイパネル
106 検索対象DB
107 辞書情報DB
111 主制御部
112 エンジン制御部
113 入出力制御部
114 画像処理装置
120 文字認識制御部
121 入力情報取得部
122 文字情報認識部
123 情報登録部
【特許請求の範囲】
【請求項1】
文字領域を含む画像から前記文字領域を抽出して文字情報を生成し、検索対象情報として格納する画像処理装置であって、
前記画像を取得する画像取得部と、
前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出し、第一の文字情報を生成する第一の文字領域抽出部と、
前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出し、第二の文字情報を生成する第二の文字領域抽出部と、
前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納する情報格納部とを含むことを特徴とする、画像処理装置。
【請求項2】
前記第1の領域抽出方法は、文字行を認識する方向が前記第2の領域抽出方法とは異なることを特徴とする、請求項1に記載の画像処理装置。
【請求項3】
前記第1の領域抽出方法は、文字の上下を認識する方向が前記第2の領域抽出方法とは異なることを特徴とする、請求項1または2に記載の画像処理装置。
【請求項4】
前記1の領域抽出方法は、文字行において文字を読み進める方向が前記第2の領域抽出方法とは異なることを特徴とする、請求項1乃至3いずれかに記載の画像処理装置。
【請求項5】
前記第1の領域抽出方法は、複数の文字行において行を読み進める方向が前記第2の領域抽出方法とは異なることを特徴とする、請求項1乃至4いずれかに記載の画像処理装置。
【請求項6】
前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域抽出部が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、
前記格納対象除外部は、前記第1の文字領域の全体が前記第2の文字領域に含まれる場合、前記第1の文字情報を前記格納対象から除外することを特徴とする、請求項1乃至5いずれか1に記載の画像処理装置。
【請求項7】
前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、
前記格納対象除外部は、前記第1の文字領域の横方向の範囲全体が前記第2の文字領域の横方向の範囲全体に含まれ、且つ前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が所定の条件を満たす場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項1乃至6いずれか1に記載の画像処理装置。
【請求項8】
前記格納対象除外部は、前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が横方向である場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項7に記載の画像処理装置。
【請求項9】
前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、
前記格納対象除外部は、前記第1の文字領域の縦方向の範囲全体が前記第2の文字領域の縦方向の範囲全体に含まれ、且つ前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が所定の条件を満たす場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項1乃至8いずれか1に記載の画像処理装置。
【請求項10】
前記格納対象除外部は、前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が縦方向である場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項9に記載の画像処理装置。
【請求項11】
辞書情報を取得する辞書情報取得部と、
前記第一の文字情報若しくは前記第二の文字情報を検索して前記取得された辞書情報に含まれる単語を抽出する辞書検索部と、
前記辞書検索部による検索結果に応じて前記第一の文字情報若しくは前記第二の文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部とを有することを特徴とする、請求項1乃至10いずれかに記載の画像処理装置。
【請求項12】
前記格納対象除外部は、前記第一の文字情報及び前記第二の文字情報のうち、前記辞書検索部による検索の結果抽出された単語がすべて一文字の単語であるものを前記格納対象から除外することを特徴とする、請求項11に記載の画像処理装置。
【請求項13】
前記第1の文字領域抽出部若しくは前記第2の文字領域抽出部が抽出した文字領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、
前記格納対象除外部は、前記文字領域の行方向及び当該行方向と平行な方向の前記文字領域の幅の関係に基づいて前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項1乃至12に記載の画像処理装置。
【請求項14】
前記格納対象除外部は、前記文字領域の幅であって前記文字領域の行方向と平行な方向の幅が所定の範囲以下である場合に、前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項13に記載の画像処理装置。
【請求項15】
前記第1の文字領域抽出部若しくは前記第2の文字領域抽出部が抽出した文字領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、
前記格納対象除外部は、前記文字領域の行方向及び前記文字領域のアスペクト比の関係に基づいて前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項1乃至14に記載の画像処理装置。
【請求項16】
文字領域を含む画像から前記文字領域を抽出して文字情報を生成し、検索対象情報として格納する画像処理方法であって、
画像取得部が、前記画像を取得し、
第一の文字領域抽出部が、前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第一の文字情報を生成し、
第二の文字領域抽出部が、前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第二の文字情報を生成し、
情報格納部が、前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納することを特徴とする、画像処理方法。
【請求項17】
情報処理装置を、文字領域を含む画像から前記文字領域を抽出して文字情報を生成して検索対象情報として格納する画像処理装置として動作させる制御プログラムであって、
前記画像を取得するステップと、
前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第一の文字情報を生成するステップと、
前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第二の文字情報を生成するステップと、
前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納するステップとを前記情報処理装置に実行させることを特徴とする、制御プログラム。
【請求項18】
請求項14に記載の制御プログラムを情報処理装置が読み取り可能な形式で記録したことを特徴とする記録媒体。
【請求項1】
文字領域を含む画像から前記文字領域を抽出して文字情報を生成し、検索対象情報として格納する画像処理装置であって、
前記画像を取得する画像取得部と、
前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出し、第一の文字情報を生成する第一の文字領域抽出部と、
前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出し、第二の文字情報を生成する第二の文字領域抽出部と、
前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納する情報格納部とを含むことを特徴とする、画像処理装置。
【請求項2】
前記第1の領域抽出方法は、文字行を認識する方向が前記第2の領域抽出方法とは異なることを特徴とする、請求項1に記載の画像処理装置。
【請求項3】
前記第1の領域抽出方法は、文字の上下を認識する方向が前記第2の領域抽出方法とは異なることを特徴とする、請求項1または2に記載の画像処理装置。
【請求項4】
前記1の領域抽出方法は、文字行において文字を読み進める方向が前記第2の領域抽出方法とは異なることを特徴とする、請求項1乃至3いずれかに記載の画像処理装置。
【請求項5】
前記第1の領域抽出方法は、複数の文字行において行を読み進める方向が前記第2の領域抽出方法とは異なることを特徴とする、請求項1乃至4いずれかに記載の画像処理装置。
【請求項6】
前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域抽出部が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、
前記格納対象除外部は、前記第1の文字領域の全体が前記第2の文字領域に含まれる場合、前記第1の文字情報を前記格納対象から除外することを特徴とする、請求項1乃至5いずれか1に記載の画像処理装置。
【請求項7】
前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、
前記格納対象除外部は、前記第1の文字領域の横方向の範囲全体が前記第2の文字領域の横方向の範囲全体に含まれ、且つ前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が所定の条件を満たす場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項1乃至6いずれか1に記載の画像処理装置。
【請求項8】
前記格納対象除外部は、前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が横方向である場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項7に記載の画像処理装置。
【請求項9】
前記第1の文字領域抽出部が抽出した第1の文字領域と前記第2の文字領域が抽出した第2の文字領域とが重複している場合に、前記重複している領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、
前記格納対象除外部は、前記第1の文字領域の縦方向の範囲全体が前記第2の文字領域の縦方向の範囲全体に含まれ、且つ前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が所定の条件を満たす場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項1乃至8いずれか1に記載の画像処理装置。
【請求項10】
前記格納対象除外部は、前記第1の文字領域の文字行の方向及び前記第2の文字領域の文字行の方向が縦方向である場合に、前記第1の文字情報のうち前記重複している領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項9に記載の画像処理装置。
【請求項11】
辞書情報を取得する辞書情報取得部と、
前記第一の文字情報若しくは前記第二の文字情報を検索して前記取得された辞書情報に含まれる単語を抽出する辞書検索部と、
前記辞書検索部による検索結果に応じて前記第一の文字情報若しくは前記第二の文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部とを有することを特徴とする、請求項1乃至10いずれかに記載の画像処理装置。
【請求項12】
前記格納対象除外部は、前記第一の文字情報及び前記第二の文字情報のうち、前記辞書検索部による検索の結果抽出された単語がすべて一文字の単語であるものを前記格納対象から除外することを特徴とする、請求項11に記載の画像処理装置。
【請求項13】
前記第1の文字領域抽出部若しくは前記第2の文字領域抽出部が抽出した文字領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、
前記格納対象除外部は、前記文字領域の行方向及び当該行方向と平行な方向の前記文字領域の幅の関係に基づいて前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項1乃至12に記載の画像処理装置。
【請求項14】
前記格納対象除外部は、前記文字領域の幅であって前記文字領域の行方向と平行な方向の幅が所定の範囲以下である場合に、前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項13に記載の画像処理装置。
【請求項15】
前記第1の文字領域抽出部若しくは前記第2の文字領域抽出部が抽出した文字領域に表示されている文字情報を前記検索対象情報としての格納対象から除外する格納対象除外部を有し、
前記格納対象除外部は、前記文字領域の行方向及び前記文字領域のアスペクト比の関係に基づいて前記文字領域に表示されている文字情報を前記格納対象から除外することを特徴とする、請求項1乃至14に記載の画像処理装置。
【請求項16】
文字領域を含む画像から前記文字領域を抽出して文字情報を生成し、検索対象情報として格納する画像処理方法であって、
画像取得部が、前記画像を取得し、
第一の文字領域抽出部が、前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第一の文字情報を生成し、
第二の文字領域抽出部が、前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第二の文字情報を生成し、
情報格納部が、前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納することを特徴とする、画像処理方法。
【請求項17】
情報処理装置を、文字領域を含む画像から前記文字領域を抽出して文字情報を生成して検索対象情報として格納する画像処理装置として動作させる制御プログラムであって、
前記画像を取得するステップと、
前記文字領域を抽出するための第一の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第一の文字情報を生成するステップと、
前記第一の領域抽出方法とは異なる第二の領域抽出方法に基づいて前記取得された画像から文字領域を抽出して第二の文字情報を生成するステップと、
前記第一の文字情報及び前記第二の文字情報を前記検索対象情報として記録媒体に格納するステップとを前記情報処理装置に実行させることを特徴とする、制御プログラム。
【請求項18】
請求項14に記載の制御プログラムを情報処理装置が読み取り可能な形式で記録したことを特徴とする記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【公開番号】特開2010−66981(P2010−66981A)
【公開日】平成22年3月25日(2010.3.25)
【国際特許分類】
【出願番号】特願2008−232300(P2008−232300)
【出願日】平成20年9月10日(2008.9.10)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】
【公開日】平成22年3月25日(2010.3.25)
【国際特許分類】
【出願日】平成20年9月10日(2008.9.10)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】
[ Back to top ]