説明

画像検索装置、画像検索プログラムおよび記録媒体

【課題】 検索処理に係る処理速度を高速化し、文書画像データの検索精度を向上させることができる画像検索装置、画像検索プログラムおよび記録媒体を提供することである。
【解決手段】 ステップA1では、前処理部130が、入力された画像データに対する前処理として2値化処理を施す。ステップA2では、2値化された画像データに基づいて、特徴抽出部131が、2値化画像データの特徴量を抽出する。ステップA3では、検索部132が、登録画像データの特徴量と、2値化データの特徴量とを比較して登録画像データの中から入力画像データと類似度が高い画像データを検索する。ステップA4では、検索結果を表示部14に出力する。ここで、特徴量は隣接する2つの単語の単語長の比fnを単語の並び順に沿って並べた配列である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、登録された画像データから特定の画像データを検索する画像検索装置、画像検索プログラムおよび記録媒体に関する。
【背景技術】
【0002】
複写機、ファクシミリ装置、プリンターおよびこれらの機能を複数併せ持つ複合機などの画像形成装置では、入力された原稿画像などの画像データを大容量の記憶装置に記憶しておき、1度入力され、登録された画像データであればいつでも読み出して再出力することができる機能が備えられているものがある。
【0003】
再出力できる機能は便利ではあるが、登録されるデータ量が多くなると再出力したいデータを探すことが困難になるため、複数の画像データの中から所望の画像データを検索する画像検索技術が重要となる。
【0004】
画像データを検索する際には、登録された画像データと、入力された画像データとを比較して類似性を算出する必要があるが、登録された画像データには、文書画像データと、非文書画像データ(写真や図形、イラスト画像など)とがある。
【0005】
文書画像データは、文字画像で構成されているため、文字画像同士を比較することになり、非文書画像データに比べて類似性を判断することが困難である。
【0006】
特許文献1記載の文書画像検索装置は、入力部が入力した文書画像データまたは検索文書データから句読点を認識し、句読点間の文字数を計測し、計測された文字数をインデックスとして登録し、計測された検索文書データの各句読点間の文字数と同一の文字数を持つインデックスを検索する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2008−152502号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献1記載の文書画像検索装置は、句読点間の文字数をインデックスとして検索しており、このようなインデックスは、比較的大きなレイアウト情報を表すものである。句読点間の文字数が同じであっても、文字自体は異なっているという文書画像データは十分にありうるので、句読点間の文字数で判断する場合には、検索精度を十分に高くすることができない。
【0009】
また、句読点は、文字に比べて小さな画像であり、登録された文書画像データ、入力画像データから句読点を認識する際に誤認識が生じる可能性が高く、句読点を認識する段階で誤認識が生じると、登録されるインデックスの正確性に欠けることになる。
【0010】
検索精度を上げるために、句読点の認識精度を向上させようとすると、読み取りの解像度を高くすることが必要であり、その結果1つ1つの文書画像データのデータ量が多くなり、記憶容量の増大、処理速度の低下を招く。
【0011】
本発明の目的は、検索処理に係る処理速度を高速化し、文書画像データの検索精度を向上させることができる画像検索装置、画像検索プログラムおよび記録媒体を提供することである。
【課題を解決するための手段】
【0012】
本発明は、予め登録された文書画像データの中から、入力された文書画像データに類似した文書画像データを検索する画像検索装置であって、
入力された文書画像データに含まれる単語を検出して単語分割を行い、隣接する2つの単語ごとに、当該2つの単語の単語長の比を算出し、算出した単語長の比を単語の並び順に沿って並べた単語長の比の配列を、入力された文書画像データの特徴量として抽出する特徴量抽出部と、
前記登録された文書画像データと、前記登録された文書画像データの前記特徴量とを関連付けて記憶する登録画像記憶部と、
前記登録された文書画像データの特徴量と、前記特徴量抽出部で生成された前記入力された文書画像データの特徴量とに基づいて、前記登録された文書画像データの中から、前記入力された文書画像データに類似した画像データを検索する検索部と、
検索部による検索結果に基づいて、前記登録された文書画像データのうち前記入力された文書画像データに類似した文書画像データを表示する表示部とを備えることを特徴とする画像検索装置である。
【0013】
また本発明は、前記特徴量抽出部は、前記単語を構成する領域の長さを示す画素数を前記単語長として、前記単語長の比を算出することを特徴とする。
【0014】
また本発明は、登録画像記憶部は、前記単語長の比の配列と、前記登録された文書画像データにおける前記単語長の比の配列の位置情報とを関連付けて記憶し、
前記検索部は、検索された文書画像データにおける前記入力された文書画像データの前記単語長の比の配列と一致した部分を検出し、
前記表示部は、検出された前記一致した部分を他の部分から識別可能に表示することを特徴とする。
【0015】
また本発明は、予め登録された文書画像データの中から、入力された文書画像データに類似した文書画像データを検索する画像検索装置であって、
入力された文書画像データに含まれる文字を検出して文字分割を行い、1文字に外接する外接矩形を検出し、文字を構成する画素が前記外接矩形内を占める割合である画素密度を算出し、算出した画素密度を単語の並び順に沿って並べた画素密度の配列を、入力された文書画像データの特徴量として抽出する特徴量抽出部と、
前記登録された文書画像データと、前記登録された文書画像データの前記特徴量とを関連付けて記憶する登録画像記憶部と、
前記登録された文書画像データの特徴量と、前記特徴量抽出部で生成された前記入力された文書画像データの特徴量とに基づいて、前記登録された文書画像データの中から、前記入力された文書画像データに類似した画像データを検索する検索部と、
検索部による検索結果に基づいて、前記登録された文書画像データのうち前記入力された文書画像データに類似した文書画像データを表示する表示部とを備えることを特徴とする画像検索装置である。
【0016】
また本発明は、コンピュータを上記の画像検索装置として機能させるための画像検索プログラムである。
【0017】
また本発明は、コンピュータを上記の画像検索装置として機能させるための画像検索プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0018】
本発明によれば、特徴量抽出部が、入力された文書画像データに含まれる単語を検出して単語分割を行い、隣接する2つの単語ごとに、当該2つの単語の単語長の比を算出し、算出した単語長の比を単語の並び順に沿って並べた単語長の比の配列を、入力された文書画像データの特徴量として抽出する。登録画像記憶部には、前記登録された文書画像データと、前記登録された文書画像データの前記特徴量とが関連付けて記憶されており、検索部は、前記登録された文書画像データの特徴量と、前記特徴量抽出部で生成された前記入力された文書画像データの特徴量とに基づいて、前記登録された文書画像データの中から、前記入力された文書画像データに類似した画像データを検索する。
【0019】
表示部は、検索部による検索結果に基づいて、前記登録された文書画像データのうち前記入力された文書画像データに類似した文書画像データを表示する。
【0020】
隣接する2つの単語の単語長の比を特徴量として用いることにより、従来技術のような句読点間の文字数を特徴量して検索する場合に比べて、異なる文章であっても同じ特徴量となる可能性が低いために、文書画像データの検索精度を向上させることができる。
【0021】
さらに、単語長は、比較的低い解像度で読み取った文書画像データであっても誤検出されないので、低解像度の文書画像データを用いることができ、検索処理に係る処理速度を高速化し、文書画像データを記憶するための記憶容量も削減できる。
【0022】
また、単語長の比は、画像が拡大、縮小された場合であっても変化しないので、画像の変倍率によって検索精度が変化しない。したがって、1ページの画像を1/2または1/4に縮小し、複数ページを1つの画像データとする、いわゆるNアップ画像データを検索の対象とする検索処理にも有効である。
【0023】
また本発明によれば、前記特徴量抽出部は、前記単語を構成する領域の長さを示す画素数を前記単語長として、前記単語長の比を算出する。
【0024】
画素数を用いることにより、容易に単語長を検出することができ、単語長の比も容易に算出することができる。
【0025】
また本発明によれば、登録画像記憶部は、前記単語長の比の配列と、前記登録された文書画像データにおける前記単語長の比の配列の位置情報とを関連付けて記憶しておく。前記検索部は、検索された文書画像データにおける前記入力された文書画像データの前記単語長の比の配列と一致した部分を検出し、前記表示部は、検出された前記一致した部分を他の部分から識別可能に表示する。
【0026】
これにより、登録された文書画像データの中から、特定の文章を含む文書画像データを検索することができ、文章コンテンツの検索を行うことができる。
【0027】
本発明によれば、特徴量抽出部が、入力された文書画像データに含まれる文字を検出して文字分割を行い、1文字に外接する外接矩形を検出し、文字を構成する画素が前記外接矩形内を占める割合である画素密度を算出し、算出した画素密度を単語の並び順に沿って並べた画素密度の配列を、入力された文書画像データの特徴量として抽出する。登録画像記憶部には、前記登録された文書画像データと、前記登録された文書画像データの前記特徴量とが関連付けて記憶されており、検索部は、前記登録された文書画像データの特徴量と、前記特徴量抽出部で生成された前記入力された文書画像データの特徴量とに基づいて、前記登録された文書画像データの中から、前記入力された文書画像データに類似した画像データを検索する。
【0028】
表示部は、検索部による検索結果に基づいて、前記登録された文書画像データのうち前記入力された文書画像データに類似した文書画像データを表示する。
【0029】
文字の画素密度を特徴量として用いることにより、従来技術のような句読点間の文字数を特徴量して検索する場合に比べて、異なる文章であっても同じ特徴量となる可能性が低いために、文書画像データの検索精度を向上させることができる。
【0030】
さらに、画素密度は、比較的低い解像度で読み取った文書画像データであっても誤検出されないので、低解像度の文書画像データを用いることができ、検索処理に係る処理速度を高速化し、文書画像データを記憶するための記憶容量も削減できる。
【0031】
また本発明によれば、コンピュータを上記の画像検索装置として機能させるための画像検索プログラムとして供給することができ、また画像検索プログラムを記録したコンピュータ読み取り可能な記録媒体として供給することができる。
【図面の簡単な説明】
【0032】
【図1】画像検索装置10の機械的構成を示すブロック図である。
【図2】画像検索装置10の機能的構成を示すブロック図である。
【図3】画像検索部13の機能的構成を示すブロック図である。
【図4】画像検索部13による検索処理を示すフローチャートである。
【図5】前処理部130によるステップA1の前処理を示すフローチャートである。
【図6】特徴抽出部131によるステップA2の特徴抽出処理を示すフローチャートである。
【図7】単語長および隣接する2つの単語長の比を示す模式図である。
【図8】画素密度を説明するための模式図である。
【発明を実施するための形態】
【0033】
以下図面を参考にして本発明の好適な実施形態を詳細に説明する。
図1は、画像検索装置10の機械的構成を示すブロック図である。画像検索装置10は、プロセッサ4と、プロセッサ4が実際の処理を行うためのソフトウエアなどを格納する外部記憶装置5とを含む。
【0034】
プロセッサ4は、入力された画像データ(以下では「入力画像データ」という)の特徴量を抽出し、予め登録されている複数の画像データ(以下では「登録画像データ」という)との照合を行い、入力画像データに類似の登録画像データを検索して表示する画像検索処理などを実際に行う。プロセッサ4における実際の処理は、外部記憶装置5に格納されるソフトウエアによって実行される。プロセッサ4は、たとえば通常のコンピュータ本体などで構成される。
【0035】
外部記憶装置5は、たとえば高速アクセスが可能なハードディスクなどで構成することができる。外部記憶装置5は、登録画像データを大量に保持するために光ディスクなどの大容量デバイスを用いるような構成であっても構わない。また、検索処理中に各処理ステップの段階で作成された一時的なデータなどは、外部記憶装置5に記憶してもよいし、プロセッサ4に内蔵される半導体メモリに記憶してもよい。
【0036】
画像検索装置10には、キーボード1が接続されるとともに、表示装置3が接続される。キーボード1は、各種ソフトウエアを実行するための指示の入力などに用いられる。
【0037】
表示装置3は、入力画像データおよび登録画像データに基づく画像の表示、検索結果の表示などを行う。
【0038】
画像検索装置10には、イメージスキャナ2がさらに接続される。イメージスキャナ2は、画像が印刷された原稿を読み取り、入力画像データおよび登録画像データを取り込むために用いられる。
【0039】
入力画像データおよび登録画像データの取得は、イメージスキャナ2からの入力の他に通信I/F(インターフェイス)6を介して、ネットワーク上の他の装置からデータ通信により取得することもできる。通信I/F6は、LAN(Local Area Network)に接続するためのLANカードや、公衆交換電話網に接続してデータ通信を行うためのモデムカードなどで実現される。
【0040】
図2は、画像検索装置10の機能的構成を示すブロック図である。画像検索装置10は、入力部12、画像検索部13、表示部14および登録画像記憶部15を含んで構成される。
【0041】
入力部12は、入力画像データ、登録画像データを入力する。図1に示したハードウエア構成のうち、イメージスキャナ2、通信I/F6などが機能的に入力部12に相当する。登録画像データは、入力画像データが入力されるより前に予め入力されていた画像データであり、登録画像記憶部15に記憶されている。
【0042】
図3は、画像検索部13の機能的構成を示すブロック図である。画像検索部13は、前処理部130、特徴抽出部131、検索部132を含んで構成される。
【0043】
画像検索部13は、入力部12によって入力された入力画像データから特徴量を抽出し、登録画像データに対して予め抽出しておいた特徴量と比較して画像を検索する。
【0044】
図4は、画像検索部13による検索処理を示すフローチャートである。ステップA1では、前処理部130が、入力された画像データに対する前処理として2値化処理を施す。ステップA2では、2値化された画像データに基づいて、特徴抽出部131が、2値化画像データの特徴量を抽出する。ステップA3では、検索部132が、登録画像データの特徴量と、2値化データの特徴量とを比較して登録画像データの中から入力画像データと類似度が高い画像データを検索する。ステップA4では、検索結果を表示部14に出力する。
【0045】
以下では、各ステップについて詳細に説明する。前処理部130によるステップA1の前処理は、たとえば図5のフローチャートに示される。
【0046】
画像データが入力されると、ステップB1で、入力された画像データがカラー画像データかどうかを判断する。カラー画像データであれば、ステップB2に進み、明度成分に基づくグレイ化を行い濃淡画像データに変換し、ステップB3に進む。カラー画像でなければ、ステップB3に進み、濃淡画像データであるかどうかを判断する。濃淡画像データであれば、ステップB4に進み、予め定める閾値を用いて2値化し、濃淡画像データを2値画像データに変換し、ステップB5で2値画像データを出力して処理を終了する。濃淡画像データでなければ、すなわち2値画像データであるので、ステップB5で2値画像データを出力して処理を終了する。
【0047】
2値画像データは、画像データを構成する各画素の画素値を0か1(白画素か黒画素)のいずれかとする、いわゆる白黒画像データであり、濃淡画像データの各画素の濃淡度(濃度)を閾値処理して、全画素を黒画素と白画素とに分類する。
【0048】
文書画像データでは、一般に下地(背景)が白く、文字部分が黒いので、2値化処理によって黒画素に分類された画素が、文字を構成する画素であると言える。
【0049】
特徴抽出部131によるステップA2の特徴抽出処理は、たとえば図6のフローチャートに示される。
【0050】
ステップC1で前処理部130によって2値化処理された2値画像データが入力されると、ステップC2では、2値画像データ中のすべての結合要素を検出する。
【0051】
結合要素とは、連結した同じ色の画素が集合した画素群である。黒画素の結合要素を検出するか、白画素の結合要素を検出するかは、入力された画像データの下地が黒画素であるか白画素であるかに依存する。上記のように、一般的には下地が白画素である場合が多く、文字画像が黒画素で描画されているので、本実施形態では、黒画素の結合要素を検出するものとして説明する。下地が黒画素の場合は、文字画像が白画素で描画される、白抜き文字であり、この場合は、白画素の結合要素を検出すればよい。
【0052】
なお、下地が黒画素であるか白画素であるかは、公知の下地判別処理で判別することができ、たとえば、上記の全体黒画素割合が所定の割合よりも小さいと下地が白画素と判別し、所定の割合よりも大きいと下地が黒画素と判別する。
【0053】
結合要素の検出は、公知の検出方法で検出することができる。たとえば、1ラインについて、そのライン中で互いに隣接する黒画素の連続部分(黒ラン)を検出し、黒ランのランレングスと、黒ランの両端の黒画素の座標とを、ラインごとに記憶しておく。座標は、たとえば、ラインに平行な方向をx軸とし、ラインに直交する方向をy軸として予め決定される。
【0054】
1つの注目ラインをy方向に挟む上下ラインの黒ランについて、その両端の黒画素のx座標が、注目ラインの各黒ランにおける両端の黒画素座標のx座標の範囲内にあれば注目ラインの当該黒ランと、x座標が範囲内となる黒画素を端部画素とする黒ランとはy方向に連結されているものとみなすことができる。このようにして、注目ラインを順次ずらしながらすべての画像データに対して、x方向の連結部分とy方向の連結部分を検出し、黒画素の結合要素を検出する。
【0055】
ステップC3では、検出した結合要素に基づいて、単語分割を行う。単語分割を行うために、まずは検出した結合要素に基づいてテキストライン(文字列)の抽出を行う。入力された原稿画像における単語の位置を検出する前段階としてテキストラインを抽出する。テキストラインの抽出には、たとえばランレングス平滑化アルゴリズム(RLSA)を用いることができる。ここで、検出された結合要素は、RLSAにおけるフォアグランドセパレータとなり、結合要素からテキストラインとして再構築される。
【0056】
テキストラインが抽出されると、テキストラインを単語ごとに分割する。本実施形態では、黒画素によって文字が構成され、文字以外の部分は白画素であるので、横方向の画素列に注目したときに白画素の領域(セグメント)の長さを抽出する。そして抽出されたこれら白画素領域の長さの平均値を算出し、平均値よりも小さい白画素領域を文字間の領域とする。
【0057】
文字間の白画素領域の両側の黒画素領域は、1つの同じ単語に含まれる文字を構成する黒画素領域であるので、これらの白画素領域および黒画素領域の集合が1つの単語となる。
【0058】
このような処理を全てのテキストラインに対して施すことで単語分割を行うことができる。
【0059】
ステップC4では、隣接する2つの単語における単語長の比を算出して画像データの特徴量を抽出する。
【0060】
単語分割によって分割された各単語の単語長は、ラインに沿ったx方向の画素数で表わされる。1つの単語の両端に位置する画素を検出し、この画素間に並ぶ画素数(両端画素を含む)を単語長とする。
【0061】
図7は、単語長および隣接する2つの単語長の比を示す模式図である。図7に示す例は、文書画像データの一部を抜き出して示しており、文書画像データにおいて、「Based on the result」と記載された部分を示す。
【0062】
単語分割によって、「Based」に相当する画素群20、「on」に相当する画素群21、「the」に相当する画素群22および「result」に相当する画素群23に分割される。
【0063】
画素群20の単語長としてd1、画素群21の単語長としてd2、画素群22の単語長としてd3、画素群23の単語長としてd4が検出される。このとき隣接する2つの単語における単語長の比fnは、fn=dn/dn+1で算出される。nは1ラインに含まれる単語数または1ページに含まれる全単語数である。図7に示す例では、単語長の比fnはf1=d1/d2,f2=d2/d3,f3=d3/d4でそれぞれ算出される。
【0064】
これら算出された単語長の比fnの配列は、単語の並び順に沿って単語長の比を並べたものであり、図7の例では、f1,f2,f3,f4の配列が特徴量として抽出される。
【0065】
ラインごとに単語長の比fnの配列を抽出する場合は、1つの画像データに含まれる全ラインについて単語長の比fnの配列をそれぞれ抽出し、全ての配列により1つの画像データの特徴量が構成される。
【0066】
ステップC5では、抽出された特徴量を、検索部132に出力する。検索部132によるステップA3の画像検索処理は、たとえば以下のようにして行われる。
【0067】
検索部132では、上記のようにして得られた入力画像データの検索用の特徴量と、予め抽出された登録画像データの特徴量とを比較し、比較結果によって入力画像データと登録画像データとの類似度を求める。登録画像データの中から最も類似度が高い登録画像データを選択し、検索結果とする。
【0068】
検索結果としては、最も類似度が高い登録画像データのみではなく、類似度の高い方から所定数の登録画像データを選択してこれを検索結果としてもよい。
【0069】
検索部132によって検索結果が出力されると、表示部14が、検索結果として選択された登録画像データを可視化した画像を表示する。
【0070】
登録画像データについては、登録時に上記のような特徴量の抽出を行い、特徴量と関連付けて登録画像記憶部15に記憶しておく。
【0071】
本発明の特徴量は、複数の単語長の比fnで構成される配列であるので、登録画像データに関連付けられた特徴量と、入力画像データの特徴量とが完全一致しなくとも類似度を求めることができる。
【0072】
たとえば、入力画像データが、登録画像データの一部であった場合、入力画像データの特徴量は、登録画像データの特徴量と完全に一致することはなく、入力画像データの特徴量が、登録画像データの特徴量の一部として含まれることになる。
【0073】
また、入力画像データの一部と、登録画像データの一部とが重複するような場合、入力画像データの特徴量は、登録画像データの特徴量と完全に一致することはなく、入力画像データの特徴量の一部が、登録画像データの特徴量の一部と重複することになる。
【0074】
したがって、特徴量が完全一致しなくとも、類似の画像データを登録画像データの中から検索することが可能であり、さらに、入力画像データの特徴が、登録画像データの特徴量とどのように一致するかによって、入力画像データと登録画像データの一致部分をも検出することができる。
【0075】
入力画像データおよび登録画像データについて、単語長の比fnの配列と、各画像データの位置情報(画素座標)とを関連付けて記憶しておけば、一致する単語長の比fnの配列を検出することで、一致した配列に対応する位置情報に基づいて、入力画像データと登録画像データの一致部分を検出できる。
【0076】
入力画像データを文章コンテンツの一部であるとすると、登録画像データ中から一致部分を検出し、検出した一致部分を表示部14などによって表示することでコンテンツ検索も可能となる。
【0077】
ここで、有効な特徴量について説明する。非常に短い文章、すなわち単語数が少ない文章の場合は、同じ単語長比fnの配列を有するにもかかわらず、異なる文章である可能性が高くなる。
【0078】
したがって、比較するための特徴量として、予め定める単語数以上の単語数、すなわち配列に含まれる単語長比fnの数(L)が予め定める数以上の特徴量とすることが有効である。特徴量を有効とするLについては、実験結果により7以上が好ましく、より好ましくは10以上である。
【0079】
なお、隣接する2つの単語長の比fnが特徴量として有効となるのは、単語長が単語ごとに異なるような言語で記載された文書画像である。アルファベットを用いて文章を記載するラテン語系の言語で記載された文書画像がこれに当たる。
【0080】
これに対して日本語、中国語などで用いられる漢字、ひらがなおよび片仮名は、1文字ごとの大きさがほぼ等しく、単語ごとに明確に分割することが難しいので、1文字ごとに画素密度を算出してこれを特徴量とすることが有効である。
【0081】
図8は、画素密度を説明するための模式図である。画素密度は、1文字に外接する外接矩形を検出し、外接矩形に含まれる1つの文字を構成する画素の画素数がこの外接矩形全体を構成する全画素数に対して占める割合である。図8に示すように、漢字の「我」1文字を例として、画素密度の算出について説明する。
【0082】
図8の例では、まず漢字の「我」に外接する外接矩形30を抽出し、この外接矩形30の幅w(画素数)と高さh(画素数)をカウントする。次に外接矩形30に含まれる1文字の漢字「我」を構成する黒画素31の画素数Bをカウントする。画素密度は上記のように外接矩形全体を構成する全画素数に対する1つの文字を構成する黒画素の画素数Bの割合であるから、画素密度をfとしたとき、f=B/(w×h)で算出することができる。
【0083】
このような画素密度fを1文字ごとに算出し、テキストライン上の文字の並び順に複数の画素密度fを並べた配列が特徴量として抽出される。
【0084】
ラインごとに画素密度fの配列を抽出する場合は、1つの画像データに含まれる全ラインについて画素密度fの配列をそれぞれ抽出し、全ての配列により1つの画像データの特徴量が構成される。
【0085】
日本語、中国語で記載された文書画像データを検索する場合には、特徴量を、画素密度fの配列とすること以外は、上記の単語長比fnの配列を特徴量とする検索処理と同様に検索を行うことができる。
【0086】
本発明によれば以下のような効果が得られる。
従来技術のような句読点間の文字数を特徴量して検索する場合に比べて、隣接する2つの単語の単語長の比を特徴量として用いることにより、異なる文章であっても同じ特徴量となる可能性が低いために、文書画像データの検索精度を向上させることができる。
【0087】
また、単語長は、比較的低い解像度で読み取った文書画像データであっても誤検出されないので、低解像度の文書画像データを用いることができ、検索処理に係る処理速度を高速化し、文書画像データを記憶するための記憶容量も削減できる。
【0088】
また、入力された文書画像データと、登録された文書画像データの特徴量が完全一致しなくとも、類似の画像データを登録画像データの中から検索することが可能である。
【0089】
なお、画像検索装置10の各ブロック、特に、入力部12、画像検索部13、表示部14および登録画像記憶部15等は、ハードウエアロジックによって構成してもよいし、次のようにCPUを用いてソフトウエア(画像検索プログラム)によって実現してもよい。
【0090】
すなわち、画像検索装置10は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only
memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリなどの記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウエアである画像検索装置10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記画像検索装置10に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
【0091】
上記記録媒体としては、例えば、磁気テープやカセットテープなどのテープ系、フロッピー(登録商標)ディスク/ハードディスクなどの磁気ディスクやCD−ROM/MO/MD/DVD/CD−Rなどの光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カードなどのカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROMなどの半導体メモリ系などを用いることができる。
【0092】
また、画像検索装置10を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網などが利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線などの有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網などの無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【0093】
本発明は、その精神または主要な特徴から逸脱することなく、他のいろいろな形態で実施できる。したがって、前述の実施形態はあらゆる点で単なる例示に過ぎず、本発明の範囲は特許請求の範囲に示すものであって、明細書本文には何ら拘束されない。さらに、特許請求の範囲に属する変形や変更は全て本発明の範囲内のものである。
【符号の説明】
【0094】
10 画像検索装置
12 入力部
13 画像検索部
14 表示部
15 登録画像記憶部
130 前処理部
131 特徴抽出部
132 検索部

【特許請求の範囲】
【請求項1】
予め登録された文書画像データの中から、入力された文書画像データに類似した文書画像データを検索する画像検索装置であって、
入力された文書画像データに含まれる単語を検出して単語分割を行い、隣接する2つの単語ごとに、当該2つの単語の単語長の比を算出し、算出した単語長の比を単語の並び順に沿って並べた単語長の比の配列を、入力された文書画像データの特徴量として抽出する特徴量抽出部と、
前記登録された文書画像データと、前記登録された文書画像データの前記特徴量とを関連付けて記憶する登録画像記憶部と、
前記登録された文書画像データの特徴量と、前記特徴量抽出部で生成された前記入力された文書画像データの特徴量とに基づいて、前記登録された文書画像データの中から、前記入力された文書画像データに類似した画像データを検索する検索部と、
検索部による検索結果に基づいて、前記登録された文書画像データのうち前記入力された文書画像データに類似した文書画像データを表示する表示部とを備えることを特徴とする画像検索装置。
【請求項2】
前記特徴量抽出部は、前記単語を構成する領域の長さを示す画素数を前記単語長として、前記単語長の比を算出することを特徴とする請求項1記載の画像検索装置。
【請求項3】
登録画像記憶部は、前記単語長の比の配列と、前記登録された文書画像データにおける前記単語長の比の配列の位置情報とを関連付けて記憶し、
前記検索部は、検索された文書画像データにおける前記入力された文書画像データの前記単語長の比の配列と一致した部分を検出し、
前記表示部は、検出された前記一致した部分を他の部分から識別可能に表示することを特徴とする請求項1または2記載の画像検索装置。
【請求項4】
予め登録された文書画像データの中から、入力された文書画像データに類似した文書画像データを検索する画像検索装置であって、
入力された文書画像データに含まれる文字を検出して文字分割を行い、1文字に外接する外接矩形を検出し、文字を構成する画素が前記外接矩形内を占める割合である画素密度を算出し、算出した画素密度を単語の並び順に沿って並べた画素密度の配列を、入力された文書画像データの特徴量として抽出する特徴量抽出部と、
前記登録された文書画像データと、前記登録された文書画像データの前記特徴量とを関連付けて記憶する登録画像記憶部と、
前記登録された文書画像データの特徴量と、前記特徴量抽出部で生成された前記入力された文書画像データの特徴量とに基づいて、前記登録された文書画像データの中から、前記入力された文書画像データに類似した画像データを検索する検索部と、
検索部による検索結果に基づいて、前記登録された文書画像データのうち前記入力された文書画像データに類似した文書画像データを表示する表示部とを備えることを特徴とする画像検索装置。
【請求項5】
コンピュータを請求項1〜4に記載の画像検索装置として機能させるための画像検索プログラム。
【請求項6】
コンピュータを請求項1〜4に記載の画像検索装置として機能させるための画像検索プログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−18311(P2011−18311A)
【公開日】平成23年1月27日(2011.1.27)
【国際特許分類】
【出願番号】特願2010−7497(P2010−7497)
【出願日】平成22年1月15日(2010.1.15)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】