説明

文字検索装置、文字検索方法、及びプログラム

【課題】MRC構造を持った画像データにおけるユーザが指定した文字の検索を、短い処理時間で精度良く実行する。
【解決手段】文書をスキャンすることにより得られた画像データを、画像の特徴に応じて属性が異なる複数のレイヤで表されたMRC構造を持った画像データに分割し(100)、分割された画像データから、文字検索を行うために指定された条件応じて文字認識を行う領域を選択し、(102)、選択された領域に対して文字認識を行い(104)、文字認識結果に対して、指定された条件に応じた文字検索を行う(106)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文字検索装置、文字検索方法、及びプログラムに係り、特に、ユーザが指定した文字の検索を、短い処理時間で精度良く実行することができる文字検索装置、文字検索方法、及びプログラムに関する。
【背景技術】
【0002】
従来では、イメージ画像を色情報に基づいて複数ブロック領域に分割し、分割した各ブロック領域の色情報に基づいて各ブロック領域に項目情報を設定し、設定された各項目情報に基づいて、各ブロック領域毎に文字認識処理の処理条件を設定する技術が知られている(特許文献1)。この技術により、文字認識の精度を上げることができる。
【特許文献1】特開平11−224306号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、色情報として背景色を基準にブロック領域に分割を行うため、適応できる対象が帳票等の所定のフォーマットを有する文書に限られる、という問題がある。また、スキャン画像に対して文字検索を行う場合には、文字検索を行う前に文字認識を必要があるが、画像全体に対して文字認識を行うと長時間を要する、という問題がある。さらに、イメージの解像度と精度良く文字認識が可能な文字サイズとには一定の関係があり、解像度に対して文字サイズが小さすぎると文字認識精度が悪化し、小さな文字に対しては文字検索を行うことができない、という問題がある。
【0004】
本発明は、上記問題点を解消するためになされたもので、MRC(Mixed Raster Content)構造を持った電子ファイル等の画像データにおけるユーザが指定した文字の検索を、短い処理時間で精度良く実行することができる文字検索装置、文字検索方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
上記目的を達成するために本発明の文字検索装置は、画像の特徴に応じて属性が異なる複数のレイヤに分割された画像データから、文字検索を行うために指定された条件応じて文字認識を行う領域を選択する選択手段と、前記選択された領域に対して文字認識を行う文字認識手段と、前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索手段と、を含んで構成したものである。
【0006】
本発明によれば、文字検索を行うために指定された条件応じて文字認識を行う領域が選択され、選択された領域に対して文字認識を行い、文字認識結果に対して文字検索を行うため、短い処理時間で精度良く文字検索を実行することができる。
【0007】
本発明において、画像データが画像の特徴に応じて属性が異なる複数のレイヤに分割されている場合には、この画像データから文字認識を行う領域を選択すればよいが、文書をスキャンして文字検索を行う場合には、文書をスキャンすることにより得られた画像データを、画像の特徴に応じて属性が異なる複数のレイヤに分割する分割手段を更に設けるようにすればよい。
【0008】
分割された画像データとしては、文字色を表す文字色レイヤ、文字形状を表す文字形状レイヤ、及び写真の画像を表す写真レイヤに分割された画像データ、または画像が有する文字色の数の、文字形状と文字色情報を持った文字形状レイヤ、及び写真の画像を表す写真レイヤに分割された画像データを用いることができる。この場合には選択手段によって、文字色及び文字サイズの少なくとも一方に応じて、文字認識を行う領域を選択し、文字検索手段によって、文字色及び文字サイズの少なくとも一方に応じた文字検索を行うようにすることができる。
【0009】
また、文字サイズによって、小さなサイズの文字に対して文字検索を行わないように条件を設定することにより、解像度に対して文字サイズが小さすぎることを原因とする文字認識精度の悪化を防止することができる。
【0010】
本発明の文字検索方法は、画像の特徴に応じて属性が異なる複数のレイヤに分割された画像データから、文字検索を行うために指定された条件応じて文字認識を行う領域を選択する選択工程と、前記選択された領域に対して文字認識を行う文字認識工程と、前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索工程と、を含んで構成されている。
【0011】
また、本発明の文字検索方法は、文書をスキャンすることにより得られた画像データを、画像の特徴に応じて属性が異なる複数のレイヤに分割する分割工程と、文字検索を行うために指定された条件応じて前記分割手段で分割された画像データから文字認識を行う領域を選択する選択工程と、前記選択された領域に対して文字認識を行う文字認識工程と、前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索工程と、を含んで構成することもできる。
【0012】
本発明のプロブラムは、コンピュータを、画像の特徴に応じて属性が異なる複数のレイヤに分割された画像データから、文字検索を行うために指定された条件応じて文字認識を行う領域を選択する選択手段と、前記選択された領域に対して文字認識を行う文字認識手段と、前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索手段と、して機能させるようにしたものである。
【0013】
また、本発明のプログラムは、コンピュータを、文書をスキャンすることにより得られた画像データを、画像の特徴に応じて属性が異なる複数のレイヤに分割する分割手段と、文字検索を行うために指定された条件応じて前記分割手段で分割された画像データから文字認識を行う領域を選択する選択手段と、前記選択された領域に対して文字認識を行う文字認識手段と、前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索手段と、 して機能させるようにすることもできる。
【発明の効果】
【0014】
以上説明したように本発明によれば、MRC構造を持った電子ファイル等の画像データにおけるユーザが指定した文字の検索を、短い処理時間で精度良く実行することができる、という効果が得られる。
【発明を実施するための最良の形態】
【0015】
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1に示すように、本実施の形態の文字検索装置は、原稿に光を照射し、その反射光を読み取って電気信号に変換するスキャナ10、及びスキャナ12で得られた電気信号をnビットの画像データに変換し、バス14を介して他の装置に伝送するためのスキャナインタフェース回路12が設けられている。また、バス14にはインターフェース回路16を介してディスプレイのウインドウ上で所定の座標等を入力するためのマウス等のポインティングデバイス18が接続されると共に、インターフェース回路20を介して入力イメージ及び文字検索結果等を表示するためのCRTまたはLCDで構成されたディスプレイ22が接続されている。
【0016】
そして、バス14には、装置全体の制御及び文字検索処理等を実行するためのCPU24、CPU24が実行する制御プログラム、文字検索処理ルーチン等の各種処理プログラム、及びフォントデータ等を格納しているROM26、CPU24による文字検索処理等のための作業領域等として用いられるRAM28が接続されている。
【0017】
次に、本実施の形態の文字検索処理ルーチンについて説明する。本実施の形態では、指定ポイント数以上でかつ指定された色の文字を検索する、という検索条件の場合の文字検索処理について説明する。
【0018】
まず、文字検索を行おうとする文書(例えば、図3に示す写真と文字とが混在した文書)をスキャナ10で読み込み、nビットのカラー画像データに変換する。得られた入力画像データに対して、ステップ100では、異なる属性をもった複数のレイヤ毎に分割する。
【0019】
図3に文書30の画像データを複数のレイヤに分割した例を示す。図3に示すように、文書30の画像データは、写真の画像データのみを有する写真レイヤ30A、文字の形状を表す画素をON、OFF(または、0,1)の2値データで表した文字形状レイヤ30B、及び文字の色を示す文字の色レイヤ30Cの3つの属性が異なるレイヤに分割されて、MRC構造で表されている。文字形状レイヤ30Bでは、通常、文字部分がON、文字部分以外がOFFで表されている。
【0020】
この3つのレイヤに分割された画像データに基づいて、電子文書を1枚の文書に再構築する際には、文字形状レイヤ30BがON(または1)の画素について、写真レイヤ30Aの上に文字の色レイヤ30Cで示された色で文字を形成することにより再構築する。
【0021】
次のステップ102では、3つのレイヤに分割された画像データから文字認識領域が選択され、次のステップ104において選択された文字認識領域のみに対して文字認識が実施される。
【0022】
ステップ102で実行される文字認識領域の選択について、図4及び図5を参照して更に詳細に説明する。図4のステップ120では、検索する文字のポイント数からウインドウサイズを決定する。このウインドウサイズは、指定されたポイント数未満の文字がウインドウ内に含まれる大きさに決定され、ウインドウサイズは指定されたポイント数が大きくなるに従って大きくなるように決定される。
【0023】
ステップ122では、図6に示すように、サイズが決定されたウインドウ32を文字形状レイヤ30Bの左上角に配置し、ステップ124においてウインドウ内にON画素が存在するか否かを判断する。ウインドウ内にON画素が存在しない場合は、ステップ130に進み、ウインドウ内にON画素が存在している場合は、ステップ126においてウインドウの境界を跨いで連続するON画素が存在しているか否かを判断する。
【0024】
ウインドウの境界を跨いで連続するON画素が存在している場合は、ステップ130に進み、ウインドウの境界を跨いで連続するON画素が存在しない場合、すなわち図7に示すように文字(例えば、A)がウインドウ内に含まれ、かつウインドウの境界と交わっていない場合は、ステップ128においてウインドウ内のON画素をOFFに変換する。これによって、指定されたポイント数未満の文字の形状データが消去される。
【0025】
なお、図7に示すように文字がウインドウ内に含まれ、かつウインドウの境界と交わっている場合、すなわち指定されたポイント数以上の文字の場合、及び指定されたポイント数未満の文字であるがウインドウの境界と交わっている場合は、ON画素をOFF画素に変換することなく、ウインドウによるスキャンを継続する。
【0026】
ステップ130では、ウインドウが文字形状レイヤの右端に到達したか否かを判断し、右端に到達していない場合は、1画素ずつ右方向に移動してウインドウによるスキャンを継続する。ウインドウが文字形状レイヤの右端に到達した場合には、ステップ132で文字形状レイヤの右下端に到達したか否かを判断し、到達した場合には文字形状レイヤの全面の文字認識領域の選択が終了したので、このルーチンを終了する。
【0027】
一方、ウインドウが文字形状レイヤの右下端に到達していない場合には、ウインドウを1行(1画素)下の左端に設定し、文字形状レイヤの文字認識領域の選択を継続する。
【0028】
以上の処理を実行することにより、指定されたポイント数未満のサイズの文字形状データが消去され、指定されたポイント数以上のサイズの文字のON画素が残存し、ON画素が残存した領域が文字認識領域として選択される。
【0029】
図4の処理ルーチンが終了した後、図5のステップ110では、文字色レイヤ30Cに基づいて文字認識領域の文字色が指定色か否かを判断し、文字色が指定色でない場合は、検索対象領域ではないので、ステップ116において、文字色が指定色でない文字認識領域を文字非認識領域として設定し、文字認識及び文字認識後の文字検索が実行されないようにする。
【0030】
文字認識領域の文字色が指定色の場合には、ステップ112において、図4の処理結果に基づいて、文字認識領域の文字サイズが指定されたポイント数以上の文字サイズか否かを判断し、文字サイズが指定されたポイント数以上の文字のみからなる文字認識領域の場合は、ステップ114で文字認識領域として設定し、文字認識及び文字認識後の文字検索が実行されるようにする。
【0031】
そして、ステップ118において文書の全領域について文字認識領域か文字非認識領域かの設定が終了したか否かを判断し、終了していない場合はステップ110に戻って上記の設定処理を継続し、終了した場合にはこのルーチンを終了する。
【0032】
以上の結果、指定されたポイント数以上でかつ指定された文字色の文字を含む領域が、文字認識領域として選択され、文字認識及び文字検索の対象領域として設定される。
【0033】
図2のステップ104では、文字認識領域のみに対して文字認識処理が実行され、次のステップ106では、文字認識により認識された認識文字に対して文字検索を実施し、ステップ108では文字検索結果をディスプレイに表示する。
【0034】
上記では、文字色による選択と文字サイズによる選択とのを両方を実行する場合について説明したが、文字色、及び文字サイズのいずれか一方のみによって文字認識領域の選択を行っても良い。文字サイズによる文字認識領域の選択は、図4の処理ルーチンを実行すれば良く、文字色による文字認識領域の選択は図5からステップ112を除いた処理を実行すれば良い。
【0035】
以上説明したように本実施の形態によれば、スキャン画像において文字認識領域の選択を行うため、文字認識を行う際に、文字認識を行う領域を選択することにより、文字認識に要する時間を短くすることができる。
【0036】
また、文字色に従って文字認識を行う領域を選択すれば、ユーザが希望する領域のみを検索することができる。例えば、章の見出しのみや、強調文字のみの文字検索を実行することができる。
【0037】
さらに、文字の大きさによって文字認識を行う領域を選択すれば、ユーザが希望する領域のみの検索を行ったり、文字認識の精度を上げることができる(文字認識領域の選択に必要ない領域には文字認識を行わない)。
【0038】
また、指定ポイント数未満の文字サイズの文字に対しては検索対象から除外されるので、解像度に対して文字サイズが小さいことを原因とする文字認識精度、従って文字検索制度の悪化を防止することができる。
【0039】
以上説明したように本実施の形態によれば、高速にユーザの希望する文字を精度良く検索することが可能となる。
【0040】
なお、上記では、文書の文字部分を、文字形状レイヤと文字の色レイヤとに分割する例について説明したが、画像が有する文字色の数の、文字形状と文字色情報を持った文字形状レイヤに分割した場合も、各文字形状レイヤの色情報から文字色を選択した後、選択された文字形状レイヤから1つの文字形状レイヤを生成し、上記と同様の方法で文字認識領域を選択すればよい。
【0041】
また、上記では、文書をスキャンすることにより得られた画像データを画像の特徴に応じて、属性が異なる複数のレイヤに分割する例、すなわち文書をスキャナで読み取ってMRC構造の画像データに分割する例について説明したが、予め属性が異なる複数のレイヤに分割されている画像データ(MRC構造の画像データに分割されている画像データ)に対しては、スキャナによるスキャン及び画像データの分割を行うことなくそのまま処理することができる。
【図面の簡単な説明】
【0042】
【図1】本発明の実施の形態の文字検索装置を示すブロック図である。
【図2】本発明の実施の形態のメインルーチンを示す流れ図である。
【図3】文書を3つのレイヤに分割した例を示す図である。
【図4】本発明の実施の形態の文字サイズにより文字認識領域を選択するルーチンを示す流れ図である。
【図5】本発明の実施の形態の文字色及び文字サイズにより文字認識領域を選択するルーチンを示す流れ図である。
【図6】ウインドウの移動状態を説明する図である。
【図7】ウインドウと文字との関係を示す図である。
【符号の説明】
【0043】
10 スキャナ
22 ディスプレイ

【特許請求の範囲】
【請求項1】
画像の特徴に応じて属性が異なる複数のレイヤに分割された画像データから、文字検索を行うために指定された条件応じて文字認識を行う領域を選択する選択手段と、
前記選択された領域に対して文字認識を行う文字認識手段と、
前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索手段と、
を含む文字検索装置。
【請求項2】
文書をスキャンすることにより得られた画像データを、画像の特徴に応じて属性が異なる複数のレイヤに分割する分割手段と、
文字検索を行うために指定された条件応じて前記分割手段で分割された画像データから文字認識を行う領域を選択する選択手段と、
前記選択された領域に対して文字認識を行う文字認識手段と、
前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索手段と、
を含む文字検索装置。
【請求項3】
前記分割された画像データは、文字色を表す文字色レイヤ、文字形状を表す文字形状レイヤ、及び写真の画像を表す写真レイヤに分割されており、
前記選択手段は、文字色及び文字サイズの少なくとも一方に応じて、文字認識を行う領域を選択し、
前記文字検索手段は、文字色及び文字サイズの少なくとも一方に応じた文字検索を行う請求項1または請求項2記載の文字検索装置。
【請求項4】
前記分割された画像データは、前記画像が有する文字色の数の、文字形状と文字色情報を持った文字形状レイヤ、及び写真の画像を表す写真レイヤに分割されており、
前記選択手段は、文字色及び文字サイズの少なくとも一方に応じて、文字認識を行う領域を選択し、
前記文字検索手段は、文字色及び文字サイズの少なくとも一方に応じた文字検索を行う請求項1または請求項2記載の文字検索装置。
【請求項5】
画像の特徴に応じて属性が異なる複数のレイヤに分割された画像データから、文字検索を行うために指定された条件応じて文字認識を行う領域を選択する選択工程と、
前記選択された領域に対して文字認識を行う文字認識工程と、
前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索工程と、
を含む文字検索方法。
【請求項6】
文書をスキャンすることにより得られた画像データを、画像の特徴に応じて属性が異なる複数のレイヤに分割する分割工程と、
文字検索を行うために指定された条件応じて前記分割手段で分割された画像データから文字認識を行う領域を選択する選択工程と、
前記選択された領域に対して文字認識を行う文字認識工程と、
前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索工程と、
を含む文字検索方法。
【請求項7】
コンピュータを、
画像の特徴に応じて属性が異なる複数のレイヤに分割された画像データから、文字検索を行うために指定された条件応じて文字認識を行う領域を選択する選択手段と、
前記選択された領域に対して文字認識を行う文字認識手段と、
前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索手段と、
して機能させるためのプロブラム。
【請求項8】
コンピュータを、
文書をスキャンすることにより得られた画像データを、画像の特徴に応じて属性が異なる複数のレイヤに分割する分割手段と、
文字検索を行うために指定された条件応じて前記分割手段で分割された画像データから文字認識を行う領域を選択する選択手段と、
前記選択された領域に対して文字認識を行う文字認識手段と、
前記文字認識手段の文字認識結果に対して、前記指定された条件に応じた文字検索を行う文字検索手段と、
して機能させるためのプロブラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2007−4724(P2007−4724A)
【公開日】平成19年1月11日(2007.1.11)
【国際特許分類】
【出願番号】特願2005−187183(P2005−187183)
【出願日】平成17年6月27日(2005.6.27)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】