画像処理装置、画像処理方法、プログラムおよび記録媒体

【課題】曖昧な記憶を頼りに既知の画像を文書画像ＤＢから分類、表示して検索するに際して、画像の絞り込みを容易にし、ユーザビリティを向上させる。
【解決手段】ユーザは、文書分類をサーバ１１０へ指示する。状態検出処理部１１７は最初の分類処理を検出したとき、分類キー選択処理部１１８は文書分類を分類キーとして選択し、文書画像ＤＢ１１３内の文書画像をカテゴリに分類して表示１０１する。ユーザは検索対象の文書画像に近いカテゴリを選択すると、サーバ１１０はカテゴリ内のサムネイル一覧の表示画面を作成し表示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書画像のレイアウトによる特徴を重視した類似画像検索機能を備えた画像処理装置、画像処理方法、プログラムおよび記録媒体に関し、例えば、複写機の複合機、ファイルサーバ、画像処理プログラム等に好適な技術に関する。
【背景技術】
【０００２】
紙文書をスキャナ等の入力デバイスを使用して電子化する例えば電子ファイリング等の装置があるが、専ら紙文書を大量に扱う業務用途として使用されていた。近年、スキャナの低価格化やスキャン機能を搭載したＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｒｉｎｔｅｒ）の普及、またｅ−文書法等の法制化により一般的なオフィスにおいてもそのハンドリングの良さや利便性が認知され、紙文書をスキャンして電子化する機会が増えてきている。また、電子化された文書画像データをデータベース（以下ＤＢ）化して管理する画像ＤＢの用途も増えてきている。例えば紙文書の原本を保存しておく必要があっても管理のし易さという点で画像ＤＢを構築する場合もある。
【０００３】
このような文書画像ＤＢにおいては、サーバ装置を設置して多数の人がアクセスする大規模なものから、個人のＰＣ内にＤＢを構築するパーソナル用途のものまで様々である。また、近年のＭＦＰでは内臓のＨＤＤに文書を蓄積する機能を備えており、ＭＦＰをベースとして文書画像ＤＢを構築する例もある。
【０００４】
このような文書画像ＤＢにおいて、大量の文書画像から所望の文書画像を検索するために検索機能を備えたものがある。現在主流の検索機能は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）処理した文字認識結果をキーワードとして全文検索、または概念検索等を行うのが一般的となっている。しかし、このようなテキストベースの検索においては、
（１）ＯＣＲの精度に依存する
（２）検索キーワードが必要
（３）ヒット数が多い場合に絞り込みが困難
という問題点がある。
【０００５】
上記（１）については、ＯＣＲにより１００％の正解を得ることは現状では不可能であるため、入力した検索キーワードの部分にＯＣＲのミスがあればヒットしないという問題が生じる。上記（２）については、テキストベースの検索は、例えば、インターネットのＨＰを検索するような未知のものを検索する場合や、そのキーワードが明らかな場合には有効性が高いが、例えば数年前に入力した記憶が曖昧な文書を検索するような場合には、適切なキーワードが思い浮かばなければ検索することができない。また、ページ全体が写真やグラフィクスで文章が存在しない場合には当然ながら検索することができない。上記（３）については、テキストベースの検索の場合には順位付けが困難であるため、キーワードにヒットしたものは同格に扱われる。そのため、ヒット数が多い場合、ヒットした多数の文書画像を一つ一つ確認する必要があり、ユーザビリティが悪い。
【０００６】
ところで、文書画像の検索方法として、類似画像検索方法と文書画像を複数のカテゴリに分類して徐々に文書画像を絞り込んでいく画像分類方法がある。類似画像検索方法は、例えば特許文献１に開示されているように、問い合わせ画像に対して、色味や輪郭、模様等の画像の性質から特徴量を算出し、それら複数の特徴量に重み付けをして問い合わせ画像との類似度を算出して順位付けをする画像検索方法である。類似画像検索方法の特徴として、検索キーとして問い合わせ画像を使用する必要がある。手元の画像を問い合わせ画像として使用する場合には良いが、画像ＤＢ内の画像を問い合わせ画像に使用する場合は、まず問い合わせ画像を探す手間が必要で操作性が悪いという問題がある。
【０００７】
画像分類方法は、分類した画像の集合を選択すれば良いため操作性は良好となる。画像分類方法を文書画像へ応用した例として、特許文献２がある。特許文献２では、入力画像から抽出された特徴を基に画像をカテゴリに分類し、各カテゴリの代表的な画像を利用者に提示する。ユーザが選択した画像について、さらにサブカテゴリの画像を提示することによって段階的に画像を絞り込むことが可能となり、少ない提示回数で画像を提示することが可能となる。
【０００８】
【特許文献１】特開２０００−２８５１４１号公報
【特許文献２】特開平１０−１６２０２０号公報
【発明の開示】
【発明が解決しようとする課題】
【０００９】
しかし、多様な特徴を持つ文書画像を対象とした画像分類を行う場合、一意に定められた分類キー（特徴量）における分類シーケンスではサブカテゴリでの分類が有効でない場合が発生する。文書画像は多種多様であるため、文書種類によっては、画像のレイアウトが有効な場合や色味や背景色等が有効な場合など様々なケースが存在する。例えば、背景色が白色の文書画像の集合に対して色味で分類を行っても意味がないし、同じフォーマットの帳票等に対して形状やレイアウトで分類を行っても無意味となり、操作性が悪化するという問題がある。
【００１０】
本発明は上記した問題点に鑑みてなされたもので、
本発明の目的は、曖昧な記憶を頼りに既知の画像を文書画像ＤＢから分類、表示して検索するに際して、画像の絞り込みを容易にし、ユーザビリティを向上させ、ユーザの所望の分類キーを選択可能とし、また、いかなる検索状態時においても最適な分類キーを選択可能とした画像処理装置、画像処理方法、プログラムおよび記録媒体を提供することにある。
【課題を解決するための手段】
【００１１】
本発明は、画像データベースに蓄積されている文書画像を検索する機能を有する画像処理装置であって、前記画像データベース内の文書画像データを複数のカテゴリに分類する第一の分類手段と、前記第一の分類手段により分類された態様を表示する表示画面を作成する表示画面制御手段と、前記表示画面の複数のカテゴリのうち一つまたは複数のカテゴリをユーザにより選択可能とし、前記ユーザにより選択されたカテゴリに含まれる文書画像を再度分類する第二の分類手段を備えた画像処理装置において、検索の状態を検出する検出手段を備え、前記検出手段による検出結果に応じて前記第二の分類手段の分類キーを選択する分類キー選択手段を備えたことを最も主要な特徴とする。
【発明の効果】
【００１２】
本発明によると、人の曖昧な記憶を頼りに、既知の画像を文書画像ＤＢから分類、表示して検索する文書画像分類による画像検索手段において、検索の状態を検出し、それに応じて効果的な文書分類キーを使用した分類を行うことによって効率的に文書画像を絞り込むことが可能となり、より早い段階で検索対象画像を見つけ出せる可能性が高くなる。よって操作性が向上し、ユーザビリティの良い画像検索処理を提供することが可能となる。
【００１３】
本発明によると、ユーザが分類キーを選択可能としているので、ユーザの所望の分類キーを使用することが可能となり、例えば分類の初期の段階等で検索対象画像に対してユーザが印象に強く残っている分類キーを使用して検索するような場合に対応することが可能となる。
【００１４】
本発明によると、選択対象分類キーのなかで、データのばらつきの大きな分類キーを選択することが可能となるので、ばらつきの大きな分類キーによる文書分類を行うことによって効率の良い文書画像の絞り込みが可能となる。また、本発明の方法はいかなる検索状態時においても最適な分類キーの選択が可能であり、ひいては常に効率の良い絞込みが可能となり、文書画像検索のユーザビリティが向上する。
【発明を実施するための最良の形態】
【００１５】
以下、発明の実施の形態について図面により詳細に説明する。
【００１６】
実施例１：
図１は、本発明の実施例１のシステム構成を示す。図１において、１００はパーソナルコンピュータ（以下ＰＣ）、ＰＤＡや携帯電話等のモバイル端末等のクライアント装置である。１０１はモニタ等の表示デバイス、１０２はユーザ指示の解釈、サーバ１１０との通信、表示デバイス１０１の制御を行うアプリケーションプログラム、１０３はユーザからの指示入力手段であるキーボードやマウス等の入力デバイス、１０４はＬＡＮやインターネット等の外部通信路である。
【００１７】
１１０はクライアントからのコマンドに応じて文書分類を行い、分類結果をクライアント１００へ出力するサーバ装置、１１１は外部通信路１０４とのインターフェース（以下Ｉ／Ｆ）、１１２は入力文書画像から特徴量を算出する特徴量算出処理部、１１３は登録画像１１９を蓄積するための文書画像ＤＢ、１１４は文書画像ＤＢ１１３に蓄積（登録）されている画像の特徴量を蓄積する特徴量ＤＢ、１１５は特徴量ＤＢ１１４に蓄積されている特徴量から文書画像の分類処理を行う分類処理部、１１６は分類処理部１１５の結果によりクライアント１００へ表示するための表示画面を生成する表示画面制御処理部、１１７は現在の表示状態や分類キー、ユーザに選択された分類カテゴリ等を保持、検出する状態検出処理部、１１８は状態検出処理部１１７の検出結果によって分類キーを選択する分類キー選択処理部、１１９は文書画像ＤＢ１１３へ登録する登録画像データ、１２０はクライアント１００の表示デバイス１０１上へ表示される表示画面データである。図中の点線は、画像登録時のデータの流れを表し、実線は文書分類処理を行って表示画面を生成する時のデータの流れを表している。
【００１８】
図２は、サーバ装置１１０の構成を示す。図２において、２０１はプログラムに応じた演算や処理を行うＣＰＵ、２０２はプログラムのコードや画像の符号データ等のデータを一時的に記憶、保持するワーク領域として使用される揮発性のメモリ、２０３は画像データやプログラム等を保存、蓄積するためのハードディスク（以下ＨＤＤ）であり、画像ＤＢ１１８、特徴量ＤＢ１１７を保持する。２０４はモニタ２０５へ表示するためのデータバッファとなるビデオメモリである。ビデオメモリ２０４に書き込まれた画像データは、定期的にモニタ２０５へ表示される。２０６はマウスやキーボード等の入力デバイス、２０７はインターネットやＬＡＮ等の外部通信路１０４を介してデータを送受信する外部Ｉ／Ｆ、２０８は各々の構成要素を接続するバスである。
【００１９】
本実施例では、サーバ装置１１０がサーバコンピュータにより構成され、文書画像分類等の処理がソフトウェによって実現する例を示す。すなわち、サーバ内の処理は図示しないアプリケーションプログラムによって実現される。本発明の実施形態はこれに限定されず、ＭＦＰ等の装置内にハードウェアによって処理を行うように構成しても良いし、また、サーバ、クライアント構成を採らずに、例えば１つのＰＣやＭＦＰ等の機器内に、図１を構成するようにしても良い。
【００２０】
以下、動作概要を説明する。画像ＤＢは、大別すると二つの動作に分かれている。一つは文書画像の登録動作であり、もう一つは所望の文書画像を検索し、閲覧し、取得（サーバからのダウンロード）する「ＤＢ内の文書画像を利用する」動作である。文書画像の利用においては、所望の文書画像を検索する動作が不可欠であり、その後の動作はアプリケーションのビューアーを使用して画像を閲覧し、ユーザのＰＣ内へ蓄積する動作となるので、本実施例では、文書画像登録時の動作と文書画像の検索動作のみを説明する。
【００２１】
図３は、文書画像登録時の動作フローチャートを示す。図１（破線は登録時の動作を示す）、図３を参照して画像登録動作を説明する。
【００２２】
ステップＳ００１において、ユーザはクライアント装置１００からアプリケーションプログラム１０２を介してサーバ装置１１０へ画像データの登録の指示と登録する登録画像データ１１９を指示する。
【００２３】
ステップＳ００２において、登録画像データ１１９が外部通信路１０４を介してサーバ装置１１０へ入力され、外部Ｉ／Ｆ１１１を経由して文書画像ＤＢ１１３へ登録される。同時に、後述する特徴量算出処理部１１２では登録画像１１９の特徴量を算出し、算出した特徴量を特徴量ＤＢ１１４へ蓄積する。このとき、文書画像ＤＢ１１３への登録画像と特徴量ＤＢ１１４の特徴量は、ＩＤ番号等を使用して関連付けされて各々蓄積される。なお、文書画像ＤＢ１１３と特徴量ＤＢ１１４は上述の機能を満たせば、同じＤＢに例えばＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇａｇｅ）等の言語を使用し階層的なデータ構造等を構築して蓄積しても良く、また、異なるサーバに別々なＤＢとして蓄積してもよい。また、文書画像の登録としては、スキャナやデジタルカメラ等の画像入力装置から直接、画像データをサーバ装置１１０へ登録するようにしても良い。
【００２４】
図４は、文書画像検索時の動作フローチャートを示す。図１、４を参照して、文書分類処理を使用した画像検索動作を説明する。
【００２５】
ステップＳ１０１において、ユーザはクライアント装置１００上でアプリケーションプログラム１０２を使用して、文書分類をサーバ装置１１０へ指示する。指示手段は、例えば図５に示すサムネイル一覧の表示画面をクライアント装置１００の表示デバイス１０１上へ表示する手段である。
【００２６】
図５において、１は文書分類による表示画面を指示する分類ラジオボタン、２はサムネイル表示を指示するサムネイルラジオボタン、３は文書画像を表示するフレーム、４は文書画像のサムネイルである。図５は、複数の文書画像サムネイル４がフレーム３上に表示されていることを示し、一般的な画像ＤＢで使用されるサムネイルの一覧表示となっている。
【００２７】
通常、文書画像ＤＢ１１３には多くの画像が登録されているが、一度に表示しきれない文書画像サムネイルを閲覧する手段としては、フレームに上下のスライダを設けてスクロールして画像を閲覧し、ページ送り機能を設けて表示画像群を変更すれば良い。
【００２８】
ユーザは、入力デバイス１０３のマウス等のポインティングデバイスを使用して分類ラジオボタン１をクリックすることによって、サーバ側に文書分類指示が外部通信路１０４を介して転送される。
【００２９】
ステップＳ１０２において、サーバ装置１１０が文書分類指示を受信すると、後述する状態検出処理部１１７では現在の表示画面の状態やユーザの選択状況等を検出する。
【００３０】
ステップＳ１０３において、状態検出処理部１１７で検出されたステータスが分類キー選択処理部１１８に入力され、ステータスに応じて分類キー（どのような観点で文書分類を行うか）が選択される。
【００３１】
ステップＳ１０４において、後述する分類処理部１１５では、特徴量を特徴量ＤＢ１１４から入力し、選択された分類キーに応じた各々の登録画像に対するカテゴリ識別データを出力する。
【００３２】
ステップＳ１０５において、表示画面制御処理部１１６は、分類処理部１１５の文書分類結果（登録画像毎のカテゴリ識別データ）と分類キー選択データを入力し、カテゴリ毎の文書画像数の集計等を行い、表示画面のレイアウトや表示する文書画像データを決定する。次いで、画像ＤＢ１１３より表示する文書画像データまたは文書画像データのサムネイルを入力し、分類結果の表示画面１２０を生成し、外部Ｉ／Ｆ１１１より外部通信路１０４を経由してクライアント１００へ送信される。表示画面制御処理部１１６は分類キーの履歴データ、カテゴリ毎の文書数、ユーザに選択されたカテゴリ等の検索状態に関するデータを保持する機能も備えている。
【００３３】
図６は、分類結果表示画面の一例を示す。ここでの分類表示は、一回目の分類表示であり、文書画像ＤＢ１１３内に登録されている文書画像の全てが表示の対象となる。また、ここでは文書の種類を分類キーとして分類した結果を示す。５は分類カテゴリを表し、５つのカテゴリ（「論文」「図面」等）に分類した例を示している。また、５の楕円の大きさは各カテゴリ内に含まれる文書数を模式的に表しており（文書数は数字で直接表すようにしても良い）、カテゴリ内のサムネイルは、各カテゴリに含まれる文書画像によるものである。ここで表示される文書サムネイルは、文書画像ＤＢ１１３に登録されている画像数が少ない場合には全ての画像を表示し、そうでない場合には各カテゴリ内のいくつかの代表画像を表示する。このように表示画像数を絞ることによってクライアント装置１００での表示時間や外部転送路を介した転送時間、サーバ装置１１０での処理時間が短縮される。処理速度が十分得られる場合には全ての画像を重ね合わせたりスライダを設ける等して表示しても良い。
【００３４】
上記したような表示画面の作成方法やサーバクライアント間の通信方法には種々の手法があるが、一般的によく使用される手法としてサーバ装置１１０をＷｅｂサーバとしてＷｏｒｌｄＷｉｄｅＷｅｂベースの技術を使用することにより実現可能となる。そして、表示画面１２０はＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇａｇｅ）によって記述され、アプリケーション１０２は一般的なＷｅｂブラウザを使用すれば良い。
【００３５】
ステップＳ１０６において、クライアント装置１００は表示デバイス１０１上に表示画面１２０を表示する。
【００３６】
ステップＳ１０７において、ユーザは、検索している文書画像に近いカテゴリを入力デバイス１０３を使用して選択し、選択したカテゴリデータをサーバ装置１１０へ送信する。例えば、図６のプレゼンテーション資料のカテゴリを選択したとする。選択方法としては、例えばカテゴリ内をマウス等のポインティングデバイスでクリックすることにより、そのカテゴリを選択する。また、カテゴリ毎に選択／非選択を可能とし、複数のカテゴリを選択可能に構成できる。
【００３７】
ステップＳ１０８において、サーバ装置１１０は、カテゴリ内選択指示を表示画面制御処理部１１６で受信し、図６のように選択されたカテゴリ内（プレゼンテーション資料カテゴリ）のサムネイル一覧の表示画面を作成し、クライアント装置１００へ送信する。
【００３８】
ステップＳ１０９において、クライアント装置１００は、表示デバイス１０１上に図５に示す表示画面１２０を表示する。
【００３９】
ステップＳ１１０において、ユーザは図５のサムネイル一覧から検索対象画像を探す。検索対象画像が見つかった場合には処理が終了するが、登録文書画像数が多い文書画像ＤＢの場合は、サムネイル一覧に表示された対象画像、つまりプレゼンテーション資料画像が数多く登録されている場合が多いと予想されるため、この状態から検索対象画像を探し出すのは困難なケースが多い。検索対象画像が見つからない場合には、ユーザは再度ステップＳ１０１〜１０９の動作を繰り返す。
【００４０】
以下、二回目の文書分類の動作について一回目との相違点について説明する。二回目の文書分類では、一回目の文書分類によって選択されたカテゴリに含まれる文書のみを対象として文書分類を行う。すなわち、ステップＳ１０９で表示された文書画像のみを対象として文書分類を行うことになる。これにより徐々に文書数を絞り込むことが可能となり、ユーザは検索対象画像を検索し易くなる。
【００４１】
状態検出処理部１１７によって選択されたカテゴリ情報、分類対象文書数、分類キーの履歴等を検出し、分類キー選択処理部１１８で、二回目の文書分類のための分類キーが選択される。ここでは、プレゼンテーション資料カテゴリが選択されており、プレゼンテーション資料は、一般的に背景色に大きな特徴があるため色味による分類キーが選択されたものとする。図７は、色味による文書分類を行った表示画面の例を示す。
【００４２】
このように再帰的に分類表示を行うことにより徐々に表示対象画像を絞り込むことが可能となり、ユーザは、文書画像登録数の多い画像ＤＢにおいても画像の概観等の特徴を確認しながら検索対象画像を絞り込むことが可能となる。本実施例では、分類のカテゴリ選択後に選択カテゴリのサムネイル表示を介して次の分類画面へ移行する例を示しているが、カテゴリに含まれる文書数が多い場合には、自動的に次の分類画面へと移行するようにしても良い。
【００４３】
図８は、特徴量算出処理部１１２の構成を示す。図８において、３０１は登録画像１１９から色特徴量の算出処理を行う色特徴算出処理部、３０２は登録画像１１９から形状特徴量の算出処理を行う形状特徴量算出処理部、３０３は登録画像１１９からレイアウト特徴量の算出処理を行うレイアウト特徴量算出処理部である。
【００４４】
色特徴量算出処理部３０１は、登録画像１１９から文書画像の背景色や色の分布等の画像の色味に関する特徴量である色特徴量を算出し、形状特徴量算出処理部３０２は、登録画像１１９から文書画像のエッジやテクスチャ等、画像の形状に関する特徴量である形状特徴量を算出する。レイアウト特徴量算出処理部３０３は、画像要素単位でオブジェクトに分割し、オブジェクトの属性を判定してレイアウト情報を得た後、オブジェクト属性（例えばタイトル、文字、図形、写真、表等）毎の配置や面積率等を算出する。これら特徴量の算出処理は公知の手法を用いれば良い。
【００４５】
本実施例における状態検出処理および分類キー選択処理について説明する。図９（１）、（２）は、状態検出処理１１７により検出した「前の分類キー」、「選択されたカテゴリに含まれる文書数」、「選択されたカテゴリ」で選択される分類キーの例を示す。この例では、まず今回の分類処理を行う直前の分類キーと文書数の多少に応じて次の分類キーを図９（１）のように選択する。直前の分類キーがない、つまり一回目の分類処理である場合には文書種類を分類キーとして選択し、直前の分類キーがレイアウトの場合で文書数が多い場合には形状を分類キーとして選択する。直前の分類キーが文書種類の場合には、ユーザにより選択されたカテゴリの内容と文書数に応じて図９（２）のように、選択されたカテゴリに含まれる文書種類に適合した分類キーを選択する。ユーザは、分類画面、カテゴリ選択を繰り返すことによって文書画像を徐々に絞り込み、最終的に検索対象画像を探すことが出来る。このように検索の状態に応じて効果的な文書分類キーを使用して分類することによって、より早い段階で検索対象画像を見つけ出せる可能性が高くなる。再帰的に分類する場合についても、図９（１）、（２）を利用すれば良いが、既に選択された分類キーが選択される場合がある。一度選択された分類キーを再度選択しても効果がないので、その場合は予め定められた優先順位に従って図９（１）、（２）の分類キーを変更するようにすれば良い。例えば、優先順位を「文書種類」＞「レイアウト」＞「形状」＞「色味」として定めておき、既に使用された分類キーが選択された場合には、まだ使用されていない分類キーのなかからより優先順位の高いものを選択すれば良い。
【００４６】
分類キーの選択には様々な例が考えられ、上記した例に限定されるものではない。また、説明の簡素化のためレイアウトは一意に扱っているが、各属性の有無（写真や図形属性の有無、文字のみのもの等）で分類したり、属性のページ上の位置等で分類するなど、レイアウトを複数の分類キーに細分化して利用する等、種々の方法が考えられる。
【００４７】
図１０は、分類処理部１１５の構成を示す。図１０において、４０１は色特徴量を入力して色カテゴリを識別する色カテゴリ識別処理部、４０２は形状特徴量を入力して形状カテゴリを識別する形状カテゴリ識別処理部、４０３はレイアウト特徴量を入力してレイアウトカテゴリを識別するレイアウトカテゴリ識別処理部、４０４はレイアウト特徴量を入力して文書種類カテゴリを識別する文書種類カテゴリ識別処理部、４０５は分類キー選択処理部１１８から出力される分類キー選択データによって各々のカテゴリ識別処理部から出力されるカテゴリ識別データを選択するセレクタである。
【００４８】
分類処理部１１５では、登録文書画像データの特徴量を特徴量ＤＢ１１４から入力し、各カテゴリ識別処理部４０１〜４０４においてカテゴリ識別処理を行って、選択された分類キーに応じた各々の登録画像に対するカテゴリ識別データを出力する。カテゴリ識別に関しては様々な手法が考えられるが以下、カテゴリ識別の手法に関する例を示す。
【００４９】
色カテゴリ識別データは、色特徴量として背景色や最も使用されている色等を代表色等として入力し、赤、青、緑、黄色、白等の複数のカテゴリを設け、近い色へ分類する。
【００５０】
形状カテゴリ識別データは、文書画像のエッジやテクスチャ等、複数の特徴量の類似度から分類を行う。図１１は、Ｘ，Ｙ，Ｚの三つの特徴量から分類を行う例であり、各々の特徴量を軸とした空間に登録画像データ毎の特徴量をプロットしている。特徴量点同士で空間的な距離の近いものを１つのカテゴリとして分類する。図１１では、５０１〜５０３のカテゴリに分類した例を示し、５０１と５０２の２つのカテゴリに跨った特徴点は２つのカテゴリに属するものとして分類する。カテゴリの中心点は、当該カテゴリの見本的な画像データによる特徴点となるので、予め定めておけば良い。また、各特徴量に重みを付け、それによって特徴量軸を変形させれば、特定の重みを重視した分類も容易に可能となる。
【００５１】
レイアウトカテゴリ識別データは、形状カテゴリ識別データと同様に分類すれば良い。文書種類カテゴリ識別データは、レイアウト特徴量の複数の特徴量から段組等の文書種類の性質を用いて二分岐探索的に分類し、あるいは予め機械学習等の学習機によってレイアウトの特徴量データと識別する文書種類の正解データの対を教師データとして学習させ、レイアウト特徴量から学習データを用いて文書種類を識別する。本実施例では、画像特徴量をＤＢ化し分類画面を生成する時に文書分類を行う例を示したが、文書画像登録時に文書分類まで実施して、分類キー毎のカテゴリ識別データをＤＢ化して保持するように構成しても良い。
【００５２】
以上、説明したように本実施例によれば、文書画像ＤＢにおける文書画像分類による画像検索手段において、検索の状態を検出し、それに応じて効果的な文書分類キーを使用して分類することにより効率的に文書画像を絞り込むことが可能となり、より早い段階で検索対象画像を見つけ出せる可能性が高くなる。よって操作性が向上し、ユーザビリティの良い画像検索処理が提供できる。また、分類画面の表示時に分類カテゴリとカテゴリに含まれる文書数を表すことによって、文書画像ＤＢや選択後のカテゴリに含まれる文書群全体の概要を把握でき、文書画像群としての視認性も向上する。
【００５３】
実施例２：
本実施例は、ユーザが所望の分類キーを選択可能とした実施例である。図１２は、本実施例におけるサムネイル一覧の表示画面例を示す。実施例１では、分類を指示するラジオボタン１（以下分類ボタン）は１つであったが、本実施例では実施例１の分類ボタン１と同じ機能を持つ自動分類ボタン６０１、文書種類分類ボタン６０２、レイアウト分類ボタン６０３、形状分類ボタン６０４、色分類ボタン６０５をそれぞれ備えており、ユーザが所望の分類キーを選択可能としている。これにより、例えば分類の初期の段階等で検索対象画像に対してユーザが印象に強く残っている分類キーを使用した検索が可能となる。また、自動分類ボタン６０１を選択することによって実施例１に示した、現在の検索状態に適合した分類キーを選択することが可能となる。
【００５４】
実施例３：
本実施例は、ユーザによって選択されたカテゴリ内の全文書画像における、分類キー毎のばらつき度合いを検出し、分類キーを選択する実施例である。
【００５５】
図１３は、実施例３のシステム構成を示す。本実施例では、特徴量をＤＢ化して蓄積する代わりに、カテゴリ識別データをＤＢ化して蓄積する例を示しているが、どちらの構成にしても良い。本実施例の構成では、分類処理部１１５におけるセレクタ４０５での選択処理を行わず、文書画像毎に全分類キーのカテゴリ識別データを出力し、カテゴリ識別データＤＢ１２１へ蓄積する。これにより、表示画像を生成する段階で分類処理の必要がなくなり、処理が高速化される。
【００５６】
その他の構成要素は、実施例１と同様である。以下、実施例１との相違点のみ説明する。本実施例の状態検出処理部１１７の動作は、表示画面制御処理部より「分類処理対象の登録画像データの情報」を入力し、「選択可能性のある分類キー」についてのデータのばらつき度合いを検出する。
【００５７】
「分類処理対象の登録画像データの情報」とは、例えばユーザに選択されたカテゴリ内の登録画像データのＩＤ等を指す。検索処理の最初の分類表示画面生成時は、画像ＤＢ１１３に登録されている全文書画像データが対象となり、文書種類で分類された後、ユーザにプレゼン資料カテゴリが選択された場合は、プレゼン資料カテゴリに含まれる登録画像データが対象となる。
【００５８】
「選択可能性のある分類キー」とは、既に分類処理された分類キーは対象としないことを意味する。例えば、検索処理の最初の分類表示画面生成時は全分類キーが対象となり、文書種類分類キーのみ実行された場合には文書種類分類キーを除く分類キーが対象となる。
【００５９】
分類キー毎のデータのばらつき度合いをはかる尺度については、種々の方法が考えられるが、本実施例では一つの例として情報エントロピーを算出してばらつきをはかる方法を示す。
【００６０】
図１７は、状態検出処理部１１７の構成を示す。状態検出処理部１１７は、分類処理対象に該当する登録画像のカテゴリ識別データを選択可能性のある分類キー毎に入力し、ヒストグラム作成処理部７０１においてヒストグラムを作成してカテゴリ毎の度数を計数する。ヒストグラムの作成が終了後、ヒストグラムのデータを基にエントロピー算出処理部７０２においてエントロピーの算出を行い、分類キー選択処理部１１８へ出力する。以下、選択可能性のある分類キーについて全て同様にエントロピーを算出して分類キー選択処理部１１８へ出力する。エントロピーＨは式（１）により算出する。
【００６１】
【数１】

ここで、Ｎは当該分類キーのカテゴリ数、Ｐｉはカテゴリの度数（全体における割合）である。
【００６２】
分類キー毎のエントロピーは分類キー選択処理部１１８へ各々入力され、エントロピーの最も大きい分類キーを選択し、選択した分類キーを表示画面制御処理部１１６へ出力する。
【００６３】
表示画面制御処理部１１６では、選択された分類キーにより表示対象登録画像データのカテゴリ識別データをカテゴリ識別データＤＢ１２１より入力し、実施例１と同様に表示画面を生成する。
【００６４】
図１５（１）、（２）は、分類キーによるカテゴリ識別データをカテゴリ毎にヒストグラムをとった例を示す。図１５の横軸はカテゴリを表し、縦軸は度数を表す。（１）は各カテゴリの度数にさほど差がなく分類キーに対するばらつきが大きい状態であり、（２）は特有のカテゴリの度数が大きく偏りがあり、分類キーに対するばらつきが少ない状態を示している。（１）、（２）の状態でエントロピーを算出すると、（１）＞（２）となる。
【００６５】
各々の分類キーを対象として文書画像を分類することを考えると、（１）の方がどのカテゴリが選択されても、文書数をほぼ全体の１／５（１／カテゴリ数）程度に絞り込めるため絞り込みの期待値が大きい。（２）は度数の少ないカテゴリが選択されれば、一度に大きく絞り込めるが度数の大きなカテゴリが選択されればほとんど文書数は絞り込めなくなるため全体としての絞込みの期待値は小さいものとなる。よってエントロピーが大きな分類キーを選択することによって、選択対象分類キーのなかでデータのばらつきの大きな分類キーを選択することが可能となる。
【００６６】
以上、説明したように本実施例によれば、文書画像ＤＢにおける文書画像分類による画像検索手段において、選択対象分類キーのなかでデータのばらつきの大きな分類キーを選択することが可能となるので、ばらつきの大きな分類キーによる文書分類を行うことによって効率の良い文書画像の絞り込みが可能となる。また、本実施例に示す方法はいかなる検索状態時においても最適な分類キーの選択が可能であり、ひいては常に効率の良い絞込みが可能となり、文書画像検索のユーザビリティが向上する。本実施例では、エントロピーの算出を表示画面生成時に行う例で説明したが、文書画像登録時に行うように構成しても良い。
【図面の簡単な説明】
【００６７】
【図１】実施例１のシステム構成を示す。
【図２】実施例１のサーバの構成を示す。
【図３】文書画像登録時の動作フローチャートを示す。
【図４】文書画像検索時の動作フローチャートを示す。
【図５】実施例１のサムネイル一覧表示画面の例を示す。
【図６】分類表示の例を示す。
【図７】色味による分類表示の例を示す。
【図８】特徴量算出処理部の構成を示す。
【図９】状態検出における分類キー選択の例を示す。
【図１０】分類処理部の構成を示す。
【図１１】特徴空間において画像群をカテゴリ分けした例を示す。
【図１２】実施例２のサムネイル一覧表示画面の例を示す。
【図１３】実施例３のシステム構成を示す。
【図１４】状態検出処理部の構成を示す。
【図１５】分類キー毎のヒストグラム例を示す。
【符号の説明】
【００６８】
１００クライアント
１０１表示デバイス
１０２アプリケーション
１０３入力デバイス
１１０サーバ
１１１外部Ｉ／Ｆ
１１２特徴量算出処理部
１１３文書画像ＤＢ
１１４特徴量ＤＢ
１１５分類処理部
１１６表示画面制御処理部
１１７状態検出処理部
１１８分類キー選択処理部
１１９登録画像データ
１２０表示画面データ

【特許請求の範囲】
【請求項１】
画像データベースに蓄積されている文書画像を検索する機能を有する画像処理装置であって、前記画像データベース内の文書画像データを複数のカテゴリに分類する第一の分類手段と、前記第一の分類手段により分類された態様を表示する表示画面を作成する表示画面制御手段と、前記表示画面の複数のカテゴリのうち一つまたは複数のカテゴリをユーザにより選択可能とし、前記ユーザにより選択されたカテゴリに含まれる文書画像を再度分類する第二の分類手段を備えた画像処理装置において、検索の状態を検出する検出手段と、前記検出手段による検出結果に応じて前記第二の分類手段の分類キーを選択する分類キー選択手段を備えたことを特徴とする画像処理装置。
【請求項２】
前記分類キーをユーザにより選択可能としたキー選択手段をさらに備えたことを特徴とする請求項１記載の画像処理装置。
【請求項３】
前記検出手段により検出する検索の状態は、カテゴリに含まれる文書数であることを特徴とする請求項１記載の画像処理装置。
【請求項４】
前記検出手段により検出する検索の状態は、前記分類キー選択手段において選択されたカテゴリの種類であることを特徴とする請求項１記載の画像処理装置。
【請求項５】
前記検出手段により検出する検索の状態は、前記キー選択手段において選択された分類キーであることを特徴とする請求項１または２記載の画像処理装置。
【請求項６】
前記検出手段により検出する検索の状態は、カテゴリに含まれる文書における分類キー毎のばらつき度合いであることを特徴とする請求項１記載の画像処理装置。
【請求項７】
前記第一および第二の分類手段における分類キーは少なくとも文書種類を含むことを特徴とする請求項１記載の画像処理装置。
【請求項８】
前記第一および第二の分類手段における分類キーは少なくとも文書の色味を含むことを特徴とする請求項１記載の画像処理装置。
【請求項９】
前記第一および第二の分類手段における分類キーは少なくとも文書の形状を含むことを特徴とする請求項１記載の画像処理装置。
【請求項１０】
前記第一および第二の分類手段における分類キーは少なくとも文書のレイアウトを含むことを特徴とする請求項１記載の画像処理装置。
【請求項１１】
前記第二の分類手段を再帰的に繰り返し可能とすることを特徴とする請求項１、７〜１０のいずれか１項に記載の画像処理装置。
【請求項１２】
画像データベースに蓄積されている文書画像を検索する機能を有する画像処理方法であって、前記画像データベース内の文書画像データを複数のカテゴリに分類する第一の分類工程と、前記第一の分類手段により分類された態様を表示する表示画面を作成する表示画面制御工程と、前記表示画面の複数のカテゴリのうち一つまたは複数のカテゴリをユーザにより選択可能とし、前記ユーザにより選択されたカテゴリに含まれる文書画像を再度分類する第二の分類工程を有する画像処理方法において、検索の状態を検出する検出工程と、前記検出手段による検出結果に応じて前記第二の分類工程の分類キーを選択する分類キー選択工程を有することを特徴とする画像処理方法。
【請求項１３】
請求項１２記載の画像処理方法をコンピュータに実現させるためのプログラム。
【請求項１４】
請求項１２記載の画像処理方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図１】