画像処理装置、画像処理方法、プログラムおよび記録媒体
【課題】曖昧な記憶を頼りに既知の画像を文書画像DBから分類、表示して検索するに際して、画像の絞り込みを容易にし、ユーザビリティを向上させる。
【解決手段】ユーザは、文書分類をサーバ110へ指示する。状態検出処理部117は最初の分類処理を検出したとき、分類キー選択処理部118は文書分類を分類キーとして選択し、文書画像DB113内の文書画像をカテゴリに分類して表示101する。ユーザは検索対象の文書画像に近いカテゴリを選択すると、サーバ110はカテゴリ内のサムネイル一覧の表示画面を作成し表示する。
【解決手段】ユーザは、文書分類をサーバ110へ指示する。状態検出処理部117は最初の分類処理を検出したとき、分類キー選択処理部118は文書分類を分類キーとして選択し、文書画像DB113内の文書画像をカテゴリに分類して表示101する。ユーザは検索対象の文書画像に近いカテゴリを選択すると、サーバ110はカテゴリ内のサムネイル一覧の表示画面を作成し表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書画像のレイアウトによる特徴を重視した類似画像検索機能を備えた画像処理装置、画像処理方法、プログラムおよび記録媒体に関し、例えば、複写機の複合機、ファイルサーバ、画像処理プログラム等に好適な技術に関する。
【背景技術】
【0002】
紙文書をスキャナ等の入力デバイスを使用して電子化する例えば電子ファイリング等の装置があるが、専ら紙文書を大量に扱う業務用途として使用されていた。近年、スキャナの低価格化やスキャン機能を搭載したMFP(Multi Function Printer)の普及、またe−文書法等の法制化により一般的なオフィスにおいてもそのハンドリングの良さや利便性が認知され、紙文書をスキャンして電子化する機会が増えてきている。また、電子化された文書画像データをデータベース(以下DB)化して管理する画像DBの用途も増えてきている。例えば紙文書の原本を保存しておく必要があっても管理のし易さという点で画像DBを構築する場合もある。
【0003】
このような文書画像DBにおいては、サーバ装置を設置して多数の人がアクセスする大規模なものから、個人のPC内にDBを構築するパーソナル用途のものまで様々である。また、近年のMFPでは内臓のHDDに文書を蓄積する機能を備えており、MFPをベースとして文書画像DBを構築する例もある。
【0004】
このような文書画像DBにおいて、大量の文書画像から所望の文書画像を検索するために検索機能を備えたものがある。現在主流の検索機能は、OCR(Optical Character Reader)処理した文字認識結果をキーワードとして全文検索、または概念検索等を行うのが一般的となっている。しかし、このようなテキストベースの検索においては、
(1)OCRの精度に依存する
(2)検索キーワードが必要
(3)ヒット数が多い場合に絞り込みが困難
という問題点がある。
【0005】
上記(1)については、OCRにより100%の正解を得ることは現状では不可能であるため、入力した検索キーワードの部分にOCRのミスがあればヒットしないという問題が生じる。上記(2)については、テキストベースの検索は、例えば、インターネットのHPを検索するような未知のものを検索する場合や、そのキーワードが明らかな場合には有効性が高いが、例えば数年前に入力した記憶が曖昧な文書を検索するような場合には、適切なキーワードが思い浮かばなければ検索することができない。また、ページ全体が写真やグラフィクスで文章が存在しない場合には当然ながら検索することができない。上記(3)については、テキストベースの検索の場合には順位付けが困難であるため、キーワードにヒットしたものは同格に扱われる。そのため、ヒット数が多い場合、ヒットした多数の文書画像を一つ一つ確認する必要があり、ユーザビリティが悪い。
【0006】
ところで、文書画像の検索方法として、類似画像検索方法と文書画像を複数のカテゴリに分類して徐々に文書画像を絞り込んでいく画像分類方法がある。類似画像検索方法は、例えば特許文献1に開示されているように、問い合わせ画像に対して、色味や輪郭、模様等の画像の性質から特徴量を算出し、それら複数の特徴量に重み付けをして問い合わせ画像との類似度を算出して順位付けをする画像検索方法である。類似画像検索方法の特徴として、検索キーとして問い合わせ画像を使用する必要がある。手元の画像を問い合わせ画像として使用する場合には良いが、画像DB内の画像を問い合わせ画像に使用する場合は、まず問い合わせ画像を探す手間が必要で操作性が悪いという問題がある。
【0007】
画像分類方法は、分類した画像の集合を選択すれば良いため操作性は良好となる。画像分類方法を文書画像へ応用した例として、特許文献2がある。特許文献2では、入力画像から抽出された特徴を基に画像をカテゴリに分類し、各カテゴリの代表的な画像を利用者に提示する。ユーザが選択した画像について、さらにサブカテゴリの画像を提示することによって段階的に画像を絞り込むことが可能となり、少ない提示回数で画像を提示することが可能となる。
【0008】
【特許文献1】特開2000−285141号公報
【特許文献2】特開平10−162020号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかし、多様な特徴を持つ文書画像を対象とした画像分類を行う場合、一意に定められた分類キー(特徴量)における分類シーケンスではサブカテゴリでの分類が有効でない場合が発生する。文書画像は多種多様であるため、文書種類によっては、画像のレイアウトが有効な場合や色味や背景色等が有効な場合など様々なケースが存在する。例えば、背景色が白色の文書画像の集合に対して色味で分類を行っても意味がないし、同じフォーマットの帳票等に対して形状やレイアウトで分類を行っても無意味となり、操作性が悪化するという問題がある。
【0010】
本発明は上記した問題点に鑑みてなされたもので、
本発明の目的は、曖昧な記憶を頼りに既知の画像を文書画像DBから分類、表示して検索するに際して、画像の絞り込みを容易にし、ユーザビリティを向上させ、ユーザの所望の分類キーを選択可能とし、また、いかなる検索状態時においても最適な分類キーを選択可能とした画像処理装置、画像処理方法、プログラムおよび記録媒体を提供することにある。
【課題を解決するための手段】
【0011】
本発明は、画像データベースに蓄積されている文書画像を検索する機能を有する画像処理装置であって、前記画像データベース内の文書画像データを複数のカテゴリに分類する第一の分類手段と、前記第一の分類手段により分類された態様を表示する表示画面を作成する表示画面制御手段と、前記表示画面の複数のカテゴリのうち一つまたは複数のカテゴリをユーザにより選択可能とし、前記ユーザにより選択されたカテゴリに含まれる文書画像を再度分類する第二の分類手段を備えた画像処理装置において、検索の状態を検出する検出手段を備え、前記検出手段による検出結果に応じて前記第二の分類手段の分類キーを選択する分類キー選択手段を備えたことを最も主要な特徴とする。
【発明の効果】
【0012】
本発明によると、人の曖昧な記憶を頼りに、既知の画像を文書画像DBから分類、表示して検索する文書画像分類による画像検索手段において、検索の状態を検出し、それに応じて効果的な文書分類キーを使用した分類を行うことによって効率的に文書画像を絞り込むことが可能となり、より早い段階で検索対象画像を見つけ出せる可能性が高くなる。よって操作性が向上し、ユーザビリティの良い画像検索処理を提供することが可能となる。
【0013】
本発明によると、ユーザが分類キーを選択可能としているので、ユーザの所望の分類キーを使用することが可能となり、例えば分類の初期の段階等で検索対象画像に対してユーザが印象に強く残っている分類キーを使用して検索するような場合に対応することが可能となる。
【0014】
本発明によると、選択対象分類キーのなかで、データのばらつきの大きな分類キーを選択することが可能となるので、ばらつきの大きな分類キーによる文書分類を行うことによって効率の良い文書画像の絞り込みが可能となる。また、本発明の方法はいかなる検索状態時においても最適な分類キーの選択が可能であり、ひいては常に効率の良い絞込みが可能となり、文書画像検索のユーザビリティが向上する。
【発明を実施するための最良の形態】
【0015】
以下、発明の実施の形態について図面により詳細に説明する。
【0016】
実施例1:
図1は、本発明の実施例1のシステム構成を示す。図1において、100はパーソナルコンピュータ(以下PC)、PDAや携帯電話等のモバイル端末等のクライアント装置である。101はモニタ等の表示デバイス、102はユーザ指示の解釈、サーバ110との通信、表示デバイス101の制御を行うアプリケーションプログラム、103はユーザからの指示入力手段であるキーボードやマウス等の入力デバイス、104はLANやインターネット等の外部通信路である。
【0017】
110はクライアントからのコマンドに応じて文書分類を行い、分類結果をクライアント100へ出力するサーバ装置、111は外部通信路104とのインターフェース(以下I/F)、112は入力文書画像から特徴量を算出する特徴量算出処理部、113は登録画像119を蓄積するための文書画像DB、114は文書画像DB113に蓄積(登録)されている画像の特徴量を蓄積する特徴量DB、115は特徴量DB114に蓄積されている特徴量から文書画像の分類処理を行う分類処理部、116は分類処理部115の結果によりクライアント100へ表示するための表示画面を生成する表示画面制御処理部、117は現在の表示状態や分類キー、ユーザに選択された分類カテゴリ等を保持、検出する状態検出処理部、118は状態検出処理部117の検出結果によって分類キーを選択する分類キー選択処理部、119は文書画像DB113へ登録する登録画像データ、120はクライアント100の表示デバイス101上へ表示される表示画面データである。図中の点線は、画像登録時のデータの流れを表し、実線は文書分類処理を行って表示画面を生成する時のデータの流れを表している。
【0018】
図2は、サーバ装置110の構成を示す。図2において、201はプログラムに応じた演算や処理を行うCPU、202はプログラムのコードや画像の符号データ等のデータを一時的に記憶、保持するワーク領域として使用される揮発性のメモリ、203は画像データやプログラム等を保存、蓄積するためのハードディスク(以下HDD)であり、画像DB118、特徴量DB117を保持する。204はモニタ205へ表示するためのデータバッファとなるビデオメモリである。ビデオメモリ204に書き込まれた画像データは、定期的にモニタ205へ表示される。206はマウスやキーボード等の入力デバイス、207はインターネットやLAN等の外部通信路104を介してデータを送受信する外部I/F、208は各々の構成要素を接続するバスである。
【0019】
本実施例では、サーバ装置110がサーバコンピュータにより構成され、文書画像分類等の処理がソフトウェによって実現する例を示す。すなわち、サーバ内の処理は図示しないアプリケーションプログラムによって実現される。本発明の実施形態はこれに限定されず、MFP等の装置内にハードウェアによって処理を行うように構成しても良いし、また、サーバ、クライアント構成を採らずに、例えば1つのPCやMFP等の機器内に、図1を構成するようにしても良い。
【0020】
以下、動作概要を説明する。画像DBは、大別すると二つの動作に分かれている。一つは文書画像の登録動作であり、もう一つは所望の文書画像を検索し、閲覧し、取得(サーバからのダウンロード)する「DB内の文書画像を利用する」動作である。文書画像の利用においては、所望の文書画像を検索する動作が不可欠であり、その後の動作はアプリケーションのビューアーを使用して画像を閲覧し、ユーザのPC内へ蓄積する動作となるので、本実施例では、文書画像登録時の動作と文書画像の検索動作のみを説明する。
【0021】
図3は、文書画像登録時の動作フローチャートを示す。図1(破線は登録時の動作を示す)、図3を参照して画像登録動作を説明する。
【0022】
ステップS001において、ユーザはクライアント装置100からアプリケーションプログラム102を介してサーバ装置110へ画像データの登録の指示と登録する登録画像データ119を指示する。
【0023】
ステップS002において、登録画像データ119が外部通信路104を介してサーバ装置110へ入力され、外部I/F111を経由して文書画像DB113へ登録される。同時に、後述する特徴量算出処理部112では登録画像119の特徴量を算出し、算出した特徴量を特徴量DB114へ蓄積する。このとき、文書画像DB113への登録画像と特徴量DB114の特徴量は、ID番号等を使用して関連付けされて各々蓄積される。なお、文書画像DB113と特徴量DB114は上述の機能を満たせば、同じDBに例えばXML(eXtensible Markup Langage)等の言語を使用し階層的なデータ構造等を構築して蓄積しても良く、また、異なるサーバに別々なDBとして蓄積してもよい。また、文書画像の登録としては、スキャナやデジタルカメラ等の画像入力装置から直接、画像データをサーバ装置110へ登録するようにしても良い。
【0024】
図4は、文書画像検索時の動作フローチャートを示す。図1、4を参照して、文書分類処理を使用した画像検索動作を説明する。
【0025】
ステップS101において、ユーザはクライアント装置100上でアプリケーションプログラム102を使用して、文書分類をサーバ装置110へ指示する。指示手段は、例えば図5に示すサムネイル一覧の表示画面をクライアント装置100の表示デバイス101上へ表示する手段である。
【0026】
図5において、1は文書分類による表示画面を指示する分類ラジオボタン、2はサムネイル表示を指示するサムネイルラジオボタン、3は文書画像を表示するフレーム、4は文書画像のサムネイルである。図5は、複数の文書画像サムネイル4がフレーム3上に表示されていることを示し、一般的な画像DBで使用されるサムネイルの一覧表示となっている。
【0027】
通常、文書画像DB113には多くの画像が登録されているが、一度に表示しきれない文書画像サムネイルを閲覧する手段としては、フレームに上下のスライダを設けてスクロールして画像を閲覧し、ページ送り機能を設けて表示画像群を変更すれば良い。
【0028】
ユーザは、入力デバイス103のマウス等のポインティングデバイスを使用して分類ラジオボタン1をクリックすることによって、サーバ側に文書分類指示が外部通信路104を介して転送される。
【0029】
ステップS102において、サーバ装置110が文書分類指示を受信すると、後述する状態検出処理部117では現在の表示画面の状態やユーザの選択状況等を検出する。
【0030】
ステップS103において、状態検出処理部117で検出されたステータスが分類キー選択処理部118に入力され、ステータスに応じて分類キー(どのような観点で文書分類を行うか)が選択される。
【0031】
ステップS104において、後述する分類処理部115では、特徴量を特徴量DB114から入力し、選択された分類キーに応じた各々の登録画像に対するカテゴリ識別データを出力する。
【0032】
ステップS105において、表示画面制御処理部116は、分類処理部115の文書分類結果(登録画像毎のカテゴリ識別データ)と分類キー選択データを入力し、カテゴリ毎の文書画像数の集計等を行い、表示画面のレイアウトや表示する文書画像データを決定する。次いで、画像DB113より表示する文書画像データまたは文書画像データのサムネイルを入力し、分類結果の表示画面120を生成し、外部I/F111より外部通信路104を経由してクライアント100へ送信される。表示画面制御処理部116は分類キーの履歴データ、カテゴリ毎の文書数、ユーザに選択されたカテゴリ等の検索状態に関するデータを保持する機能も備えている。
【0033】
図6は、分類結果表示画面の一例を示す。ここでの分類表示は、一回目の分類表示であり、文書画像DB113内に登録されている文書画像の全てが表示の対象となる。また、ここでは文書の種類を分類キーとして分類した結果を示す。5は分類カテゴリを表し、5つのカテゴリ(「論文」「図面」等)に分類した例を示している。また、5の楕円の大きさは各カテゴリ内に含まれる文書数を模式的に表しており(文書数は数字で直接表すようにしても良い)、カテゴリ内のサムネイルは、各カテゴリに含まれる文書画像によるものである。ここで表示される文書サムネイルは、文書画像DB113に登録されている画像数が少ない場合には全ての画像を表示し、そうでない場合には各カテゴリ内のいくつかの代表画像を表示する。このように表示画像数を絞ることによってクライアント装置100での表示時間や外部転送路を介した転送時間、サーバ装置110での処理時間が短縮される。処理速度が十分得られる場合には全ての画像を重ね合わせたりスライダを設ける等して表示しても良い。
【0034】
上記したような表示画面の作成方法やサーバクライアント間の通信方法には種々の手法があるが、一般的によく使用される手法としてサーバ装置110をWebサーバとしてWorldWideWebベースの技術を使用することにより実現可能となる。そして、表示画面120はHTML(HyperTextMarkupLangage)によって記述され、アプリケーション102は一般的なWebブラウザを使用すれば良い。
【0035】
ステップS106において、クライアント装置100は表示デバイス101上に表示画面120を表示する。
【0036】
ステップS107において、ユーザは、検索している文書画像に近いカテゴリを入力デバイス103を使用して選択し、選択したカテゴリデータをサーバ装置110へ送信する。例えば、図6のプレゼンテーション資料のカテゴリを選択したとする。選択方法としては、例えばカテゴリ内をマウス等のポインティングデバイスでクリックすることにより、そのカテゴリを選択する。また、カテゴリ毎に選択/非選択を可能とし、複数のカテゴリを選択可能に構成できる。
【0037】
ステップS108において、サーバ装置110は、カテゴリ内選択指示を表示画面制御処理部116で受信し、図6のように選択されたカテゴリ内(プレゼンテーション資料カテゴリ)のサムネイル一覧の表示画面を作成し、クライアント装置100へ送信する。
【0038】
ステップS109において、クライアント装置100は、表示デバイス101上に図5に示す表示画面120を表示する。
【0039】
ステップS110において、ユーザは図5のサムネイル一覧から検索対象画像を探す。検索対象画像が見つかった場合には処理が終了するが、登録文書画像数が多い文書画像DBの場合は、サムネイル一覧に表示された対象画像、つまりプレゼンテーション資料画像が数多く登録されている場合が多いと予想されるため、この状態から検索対象画像を探し出すのは困難なケースが多い。検索対象画像が見つからない場合には、ユーザは再度ステップS101〜109の動作を繰り返す。
【0040】
以下、二回目の文書分類の動作について一回目との相違点について説明する。二回目の文書分類では、一回目の文書分類によって選択されたカテゴリに含まれる文書のみを対象として文書分類を行う。すなわち、ステップS109で表示された文書画像のみを対象として文書分類を行うことになる。これにより徐々に文書数を絞り込むことが可能となり、ユーザは検索対象画像を検索し易くなる。
【0041】
状態検出処理部117によって選択されたカテゴリ情報、分類対象文書数、分類キーの履歴等を検出し、分類キー選択処理部118で、二回目の文書分類のための分類キーが選択される。ここでは、プレゼンテーション資料カテゴリが選択されており、プレゼンテーション資料は、一般的に背景色に大きな特徴があるため色味による分類キーが選択されたものとする。図7は、色味による文書分類を行った表示画面の例を示す。
【0042】
このように再帰的に分類表示を行うことにより徐々に表示対象画像を絞り込むことが可能となり、ユーザは、文書画像登録数の多い画像DBにおいても画像の概観等の特徴を確認しながら検索対象画像を絞り込むことが可能となる。本実施例では、分類のカテゴリ選択後に選択カテゴリのサムネイル表示を介して次の分類画面へ移行する例を示しているが、カテゴリに含まれる文書数が多い場合には、自動的に次の分類画面へと移行するようにしても良い。
【0043】
図8は、特徴量算出処理部112の構成を示す。図8において、301は登録画像119から色特徴量の算出処理を行う色特徴算出処理部、302は登録画像119から形状特徴量の算出処理を行う形状特徴量算出処理部、303は登録画像119からレイアウト特徴量の算出処理を行うレイアウト特徴量算出処理部である。
【0044】
色特徴量算出処理部301は、登録画像119から文書画像の背景色や色の分布等の画像の色味に関する特徴量である色特徴量を算出し、形状特徴量算出処理部302は、登録画像119から文書画像のエッジやテクスチャ等、画像の形状に関する特徴量である形状特徴量を算出する。レイアウト特徴量算出処理部303は、画像要素単位でオブジェクトに分割し、オブジェクトの属性を判定してレイアウト情報を得た後、オブジェクト属性(例えばタイトル、文字、図形、写真、表等)毎の配置や面積率等を算出する。これら特徴量の算出処理は公知の手法を用いれば良い。
【0045】
本実施例における状態検出処理および分類キー選択処理について説明する。図9(1)、(2)は、状態検出処理117により検出した「前の分類キー」、「選択されたカテゴリに含まれる文書数」、「選択されたカテゴリ」で選択される分類キーの例を示す。この例では、まず今回の分類処理を行う直前の分類キーと文書数の多少に応じて次の分類キーを図9(1)のように選択する。直前の分類キーがない、つまり一回目の分類処理である場合には文書種類を分類キーとして選択し、直前の分類キーがレイアウトの場合で文書数が多い場合には形状を分類キーとして選択する。直前の分類キーが文書種類の場合には、ユーザにより選択されたカテゴリの内容と文書数に応じて図9(2)のように、選択されたカテゴリに含まれる文書種類に適合した分類キーを選択する。ユーザは、分類画面、カテゴリ選択を繰り返すことによって文書画像を徐々に絞り込み、最終的に検索対象画像を探すことが出来る。このように検索の状態に応じて効果的な文書分類キーを使用して分類することによって、より早い段階で検索対象画像を見つけ出せる可能性が高くなる。再帰的に分類する場合についても、図9(1)、(2)を利用すれば良いが、既に選択された分類キーが選択される場合がある。一度選択された分類キーを再度選択しても効果がないので、その場合は予め定められた優先順位に従って図9(1)、(2)の分類キーを変更するようにすれば良い。例えば、優先順位を「文書種類」>「レイアウト」>「形状」>「色味」として定めておき、既に使用された分類キーが選択された場合には、まだ使用されていない分類キーのなかからより優先順位の高いものを選択すれば良い。
【0046】
分類キーの選択には様々な例が考えられ、上記した例に限定されるものではない。また、説明の簡素化のためレイアウトは一意に扱っているが、各属性の有無(写真や図形属性の有無、文字のみのもの等)で分類したり、属性のページ上の位置等で分類するなど、レイアウトを複数の分類キーに細分化して利用する等、種々の方法が考えられる。
【0047】
図10は、分類処理部115の構成を示す。図10において、401は色特徴量を入力して色カテゴリを識別する色カテゴリ識別処理部、402は形状特徴量を入力して形状カテゴリを識別する形状カテゴリ識別処理部、403はレイアウト特徴量を入力してレイアウトカテゴリを識別するレイアウトカテゴリ識別処理部、404はレイアウト特徴量を入力して文書種類カテゴリを識別する文書種類カテゴリ識別処理部、405は分類キー選択処理部118から出力される分類キー選択データによって各々のカテゴリ識別処理部から出力されるカテゴリ識別データを選択するセレクタである。
【0048】
分類処理部115では、登録文書画像データの特徴量を特徴量DB114から入力し、各カテゴリ識別処理部401〜404においてカテゴリ識別処理を行って、選択された分類キーに応じた各々の登録画像に対するカテゴリ識別データを出力する。カテゴリ識別に関しては様々な手法が考えられるが以下、カテゴリ識別の手法に関する例を示す。
【0049】
色カテゴリ識別データは、色特徴量として背景色や最も使用されている色等を代表色等として入力し、赤、青、緑、黄色、白等の複数のカテゴリを設け、近い色へ分類する。
【0050】
形状カテゴリ識別データは、文書画像のエッジやテクスチャ等、複数の特徴量の類似度から分類を行う。図11は、X,Y,Zの三つの特徴量から分類を行う例であり、各々の特徴量を軸とした空間に登録画像データ毎の特徴量をプロットしている。特徴量点同士で空間的な距離の近いものを1つのカテゴリとして分類する。図11では、501〜503のカテゴリに分類した例を示し、501と502の2つのカテゴリに跨った特徴点は2つのカテゴリに属するものとして分類する。カテゴリの中心点は、当該カテゴリの見本的な画像データによる特徴点となるので、予め定めておけば良い。また、各特徴量に重みを付け、それによって特徴量軸を変形させれば、特定の重みを重視した分類も容易に可能となる。
【0051】
レイアウトカテゴリ識別データは、形状カテゴリ識別データと同様に分類すれば良い。文書種類カテゴリ識別データは、レイアウト特徴量の複数の特徴量から段組等の文書種類の性質を用いて二分岐探索的に分類し、あるいは予め機械学習等の学習機によってレイアウトの特徴量データと識別する文書種類の正解データの対を教師データとして学習させ、レイアウト特徴量から学習データを用いて文書種類を識別する。本実施例では、画像特徴量をDB化し分類画面を生成する時に文書分類を行う例を示したが、文書画像登録時に文書分類まで実施して、分類キー毎のカテゴリ識別データをDB化して保持するように構成しても良い。
【0052】
以上、説明したように本実施例によれば、文書画像DBにおける文書画像分類による画像検索手段において、検索の状態を検出し、それに応じて効果的な文書分類キーを使用して分類することにより効率的に文書画像を絞り込むことが可能となり、より早い段階で検索対象画像を見つけ出せる可能性が高くなる。よって操作性が向上し、ユーザビリティの良い画像検索処理が提供できる。また、分類画面の表示時に分類カテゴリとカテゴリに含まれる文書数を表すことによって、文書画像DBや選択後のカテゴリに含まれる文書群全体の概要を把握でき、文書画像群としての視認性も向上する。
【0053】
実施例2:
本実施例は、ユーザが所望の分類キーを選択可能とした実施例である。図12は、本実施例におけるサムネイル一覧の表示画面例を示す。実施例1では、分類を指示するラジオボタン1(以下分類ボタン)は1つであったが、本実施例では実施例1の分類ボタン1と同じ機能を持つ自動分類ボタン601、文書種類分類ボタン602、レイアウト分類ボタン603、形状分類ボタン604、色分類ボタン605をそれぞれ備えており、ユーザが所望の分類キーを選択可能としている。これにより、例えば分類の初期の段階等で検索対象画像に対してユーザが印象に強く残っている分類キーを使用した検索が可能となる。また、自動分類ボタン601を選択することによって実施例1に示した、現在の検索状態に適合した分類キーを選択することが可能となる。
【0054】
実施例3:
本実施例は、ユーザによって選択されたカテゴリ内の全文書画像における、分類キー毎のばらつき度合いを検出し、分類キーを選択する実施例である。
【0055】
図13は、実施例3のシステム構成を示す。本実施例では、特徴量をDB化して蓄積する代わりに、カテゴリ識別データをDB化して蓄積する例を示しているが、どちらの構成にしても良い。本実施例の構成では、分類処理部115におけるセレクタ405での選択処理を行わず、文書画像毎に全分類キーのカテゴリ識別データを出力し、カテゴリ識別データDB121へ蓄積する。これにより、表示画像を生成する段階で分類処理の必要がなくなり、処理が高速化される。
【0056】
その他の構成要素は、実施例1と同様である。以下、実施例1との相違点のみ説明する。本実施例の状態検出処理部117の動作は、表示画面制御処理部より「分類処理対象の登録画像データの情報」を入力し、「選択可能性のある分類キー」についてのデータのばらつき度合いを検出する。
【0057】
「分類処理対象の登録画像データの情報」とは、例えばユーザに選択されたカテゴリ内の登録画像データのID等を指す。検索処理の最初の分類表示画面生成時は、画像DB113に登録されている全文書画像データが対象となり、文書種類で分類された後、ユーザにプレゼン資料カテゴリが選択された場合は、プレゼン資料カテゴリに含まれる登録画像データが対象となる。
【0058】
「選択可能性のある分類キー」とは、既に分類処理された分類キーは対象としないことを意味する。例えば、検索処理の最初の分類表示画面生成時は全分類キーが対象となり、文書種類分類キーのみ実行された場合には文書種類分類キーを除く分類キーが対象となる。
【0059】
分類キー毎のデータのばらつき度合いをはかる尺度については、種々の方法が考えられるが、本実施例では一つの例として情報エントロピーを算出してばらつきをはかる方法を示す。
【0060】
図17は、状態検出処理部117の構成を示す。状態検出処理部117は、分類処理対象に該当する登録画像のカテゴリ識別データを選択可能性のある分類キー毎に入力し、ヒストグラム作成処理部701においてヒストグラムを作成してカテゴリ毎の度数を計数する。ヒストグラムの作成が終了後、ヒストグラムのデータを基にエントロピー算出処理部702においてエントロピーの算出を行い、分類キー選択処理部118へ出力する。以下、選択可能性のある分類キーについて全て同様にエントロピーを算出して分類キー選択処理部118へ出力する。エントロピーHは式(1)により算出する。
【0061】
【数1】
ここで、Nは当該分類キーのカテゴリ数、Piはカテゴリの度数(全体における割合)である。
【0062】
分類キー毎のエントロピーは分類キー選択処理部118へ各々入力され、エントロピーの最も大きい分類キーを選択し、選択した分類キーを表示画面制御処理部116へ出力する。
【0063】
表示画面制御処理部116では、選択された分類キーにより表示対象登録画像データのカテゴリ識別データをカテゴリ識別データDB121より入力し、実施例1と同様に表示画面を生成する。
【0064】
図15(1)、(2)は、分類キーによるカテゴリ識別データをカテゴリ毎にヒストグラムをとった例を示す。図15の横軸はカテゴリを表し、縦軸は度数を表す。(1)は各カテゴリの度数にさほど差がなく分類キーに対するばらつきが大きい状態であり、(2)は特有のカテゴリの度数が大きく偏りがあり、分類キーに対するばらつきが少ない状態を示している。(1)、(2)の状態でエントロピーを算出すると、(1)>(2)となる。
【0065】
各々の分類キーを対象として文書画像を分類することを考えると、(1)の方がどのカテゴリが選択されても、文書数をほぼ全体の1/5(1/カテゴリ数)程度に絞り込めるため絞り込みの期待値が大きい。(2)は度数の少ないカテゴリが選択されれば、一度に大きく絞り込めるが度数の大きなカテゴリが選択されればほとんど文書数は絞り込めなくなるため全体としての絞込みの期待値は小さいものとなる。よってエントロピーが大きな分類キーを選択することによって、選択対象分類キーのなかでデータのばらつきの大きな分類キーを選択することが可能となる。
【0066】
以上、説明したように本実施例によれば、文書画像DBにおける文書画像分類による画像検索手段において、選択対象分類キーのなかでデータのばらつきの大きな分類キーを選択することが可能となるので、ばらつきの大きな分類キーによる文書分類を行うことによって効率の良い文書画像の絞り込みが可能となる。また、本実施例に示す方法はいかなる検索状態時においても最適な分類キーの選択が可能であり、ひいては常に効率の良い絞込みが可能となり、文書画像検索のユーザビリティが向上する。本実施例では、エントロピーの算出を表示画面生成時に行う例で説明したが、文書画像登録時に行うように構成しても良い。
【図面の簡単な説明】
【0067】
【図1】実施例1のシステム構成を示す。
【図2】実施例1のサーバの構成を示す。
【図3】文書画像登録時の動作フローチャートを示す。
【図4】文書画像検索時の動作フローチャートを示す。
【図5】実施例1のサムネイル一覧表示画面の例を示す。
【図6】分類表示の例を示す。
【図7】色味による分類表示の例を示す。
【図8】特徴量算出処理部の構成を示す。
【図9】状態検出における分類キー選択の例を示す。
【図10】分類処理部の構成を示す。
【図11】特徴空間において画像群をカテゴリ分けした例を示す。
【図12】実施例2のサムネイル一覧表示画面の例を示す。
【図13】実施例3のシステム構成を示す。
【図14】状態検出処理部の構成を示す。
【図15】分類キー毎のヒストグラム例を示す。
【符号の説明】
【0068】
100 クライアント
101 表示デバイス
102 アプリケーション
103 入力デバイス
110 サーバ
111 外部I/F
112 特徴量算出処理部
113 文書画像DB
114 特徴量DB
115 分類処理部
116 表示画面制御処理部
117 状態検出処理部
118 分類キー選択処理部
119 登録画像データ
120 表示画面データ
【技術分野】
【0001】
本発明は、文書画像のレイアウトによる特徴を重視した類似画像検索機能を備えた画像処理装置、画像処理方法、プログラムおよび記録媒体に関し、例えば、複写機の複合機、ファイルサーバ、画像処理プログラム等に好適な技術に関する。
【背景技術】
【0002】
紙文書をスキャナ等の入力デバイスを使用して電子化する例えば電子ファイリング等の装置があるが、専ら紙文書を大量に扱う業務用途として使用されていた。近年、スキャナの低価格化やスキャン機能を搭載したMFP(Multi Function Printer)の普及、またe−文書法等の法制化により一般的なオフィスにおいてもそのハンドリングの良さや利便性が認知され、紙文書をスキャンして電子化する機会が増えてきている。また、電子化された文書画像データをデータベース(以下DB)化して管理する画像DBの用途も増えてきている。例えば紙文書の原本を保存しておく必要があっても管理のし易さという点で画像DBを構築する場合もある。
【0003】
このような文書画像DBにおいては、サーバ装置を設置して多数の人がアクセスする大規模なものから、個人のPC内にDBを構築するパーソナル用途のものまで様々である。また、近年のMFPでは内臓のHDDに文書を蓄積する機能を備えており、MFPをベースとして文書画像DBを構築する例もある。
【0004】
このような文書画像DBにおいて、大量の文書画像から所望の文書画像を検索するために検索機能を備えたものがある。現在主流の検索機能は、OCR(Optical Character Reader)処理した文字認識結果をキーワードとして全文検索、または概念検索等を行うのが一般的となっている。しかし、このようなテキストベースの検索においては、
(1)OCRの精度に依存する
(2)検索キーワードが必要
(3)ヒット数が多い場合に絞り込みが困難
という問題点がある。
【0005】
上記(1)については、OCRにより100%の正解を得ることは現状では不可能であるため、入力した検索キーワードの部分にOCRのミスがあればヒットしないという問題が生じる。上記(2)については、テキストベースの検索は、例えば、インターネットのHPを検索するような未知のものを検索する場合や、そのキーワードが明らかな場合には有効性が高いが、例えば数年前に入力した記憶が曖昧な文書を検索するような場合には、適切なキーワードが思い浮かばなければ検索することができない。また、ページ全体が写真やグラフィクスで文章が存在しない場合には当然ながら検索することができない。上記(3)については、テキストベースの検索の場合には順位付けが困難であるため、キーワードにヒットしたものは同格に扱われる。そのため、ヒット数が多い場合、ヒットした多数の文書画像を一つ一つ確認する必要があり、ユーザビリティが悪い。
【0006】
ところで、文書画像の検索方法として、類似画像検索方法と文書画像を複数のカテゴリに分類して徐々に文書画像を絞り込んでいく画像分類方法がある。類似画像検索方法は、例えば特許文献1に開示されているように、問い合わせ画像に対して、色味や輪郭、模様等の画像の性質から特徴量を算出し、それら複数の特徴量に重み付けをして問い合わせ画像との類似度を算出して順位付けをする画像検索方法である。類似画像検索方法の特徴として、検索キーとして問い合わせ画像を使用する必要がある。手元の画像を問い合わせ画像として使用する場合には良いが、画像DB内の画像を問い合わせ画像に使用する場合は、まず問い合わせ画像を探す手間が必要で操作性が悪いという問題がある。
【0007】
画像分類方法は、分類した画像の集合を選択すれば良いため操作性は良好となる。画像分類方法を文書画像へ応用した例として、特許文献2がある。特許文献2では、入力画像から抽出された特徴を基に画像をカテゴリに分類し、各カテゴリの代表的な画像を利用者に提示する。ユーザが選択した画像について、さらにサブカテゴリの画像を提示することによって段階的に画像を絞り込むことが可能となり、少ない提示回数で画像を提示することが可能となる。
【0008】
【特許文献1】特開2000−285141号公報
【特許文献2】特開平10−162020号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかし、多様な特徴を持つ文書画像を対象とした画像分類を行う場合、一意に定められた分類キー(特徴量)における分類シーケンスではサブカテゴリでの分類が有効でない場合が発生する。文書画像は多種多様であるため、文書種類によっては、画像のレイアウトが有効な場合や色味や背景色等が有効な場合など様々なケースが存在する。例えば、背景色が白色の文書画像の集合に対して色味で分類を行っても意味がないし、同じフォーマットの帳票等に対して形状やレイアウトで分類を行っても無意味となり、操作性が悪化するという問題がある。
【0010】
本発明は上記した問題点に鑑みてなされたもので、
本発明の目的は、曖昧な記憶を頼りに既知の画像を文書画像DBから分類、表示して検索するに際して、画像の絞り込みを容易にし、ユーザビリティを向上させ、ユーザの所望の分類キーを選択可能とし、また、いかなる検索状態時においても最適な分類キーを選択可能とした画像処理装置、画像処理方法、プログラムおよび記録媒体を提供することにある。
【課題を解決するための手段】
【0011】
本発明は、画像データベースに蓄積されている文書画像を検索する機能を有する画像処理装置であって、前記画像データベース内の文書画像データを複数のカテゴリに分類する第一の分類手段と、前記第一の分類手段により分類された態様を表示する表示画面を作成する表示画面制御手段と、前記表示画面の複数のカテゴリのうち一つまたは複数のカテゴリをユーザにより選択可能とし、前記ユーザにより選択されたカテゴリに含まれる文書画像を再度分類する第二の分類手段を備えた画像処理装置において、検索の状態を検出する検出手段を備え、前記検出手段による検出結果に応じて前記第二の分類手段の分類キーを選択する分類キー選択手段を備えたことを最も主要な特徴とする。
【発明の効果】
【0012】
本発明によると、人の曖昧な記憶を頼りに、既知の画像を文書画像DBから分類、表示して検索する文書画像分類による画像検索手段において、検索の状態を検出し、それに応じて効果的な文書分類キーを使用した分類を行うことによって効率的に文書画像を絞り込むことが可能となり、より早い段階で検索対象画像を見つけ出せる可能性が高くなる。よって操作性が向上し、ユーザビリティの良い画像検索処理を提供することが可能となる。
【0013】
本発明によると、ユーザが分類キーを選択可能としているので、ユーザの所望の分類キーを使用することが可能となり、例えば分類の初期の段階等で検索対象画像に対してユーザが印象に強く残っている分類キーを使用して検索するような場合に対応することが可能となる。
【0014】
本発明によると、選択対象分類キーのなかで、データのばらつきの大きな分類キーを選択することが可能となるので、ばらつきの大きな分類キーによる文書分類を行うことによって効率の良い文書画像の絞り込みが可能となる。また、本発明の方法はいかなる検索状態時においても最適な分類キーの選択が可能であり、ひいては常に効率の良い絞込みが可能となり、文書画像検索のユーザビリティが向上する。
【発明を実施するための最良の形態】
【0015】
以下、発明の実施の形態について図面により詳細に説明する。
【0016】
実施例1:
図1は、本発明の実施例1のシステム構成を示す。図1において、100はパーソナルコンピュータ(以下PC)、PDAや携帯電話等のモバイル端末等のクライアント装置である。101はモニタ等の表示デバイス、102はユーザ指示の解釈、サーバ110との通信、表示デバイス101の制御を行うアプリケーションプログラム、103はユーザからの指示入力手段であるキーボードやマウス等の入力デバイス、104はLANやインターネット等の外部通信路である。
【0017】
110はクライアントからのコマンドに応じて文書分類を行い、分類結果をクライアント100へ出力するサーバ装置、111は外部通信路104とのインターフェース(以下I/F)、112は入力文書画像から特徴量を算出する特徴量算出処理部、113は登録画像119を蓄積するための文書画像DB、114は文書画像DB113に蓄積(登録)されている画像の特徴量を蓄積する特徴量DB、115は特徴量DB114に蓄積されている特徴量から文書画像の分類処理を行う分類処理部、116は分類処理部115の結果によりクライアント100へ表示するための表示画面を生成する表示画面制御処理部、117は現在の表示状態や分類キー、ユーザに選択された分類カテゴリ等を保持、検出する状態検出処理部、118は状態検出処理部117の検出結果によって分類キーを選択する分類キー選択処理部、119は文書画像DB113へ登録する登録画像データ、120はクライアント100の表示デバイス101上へ表示される表示画面データである。図中の点線は、画像登録時のデータの流れを表し、実線は文書分類処理を行って表示画面を生成する時のデータの流れを表している。
【0018】
図2は、サーバ装置110の構成を示す。図2において、201はプログラムに応じた演算や処理を行うCPU、202はプログラムのコードや画像の符号データ等のデータを一時的に記憶、保持するワーク領域として使用される揮発性のメモリ、203は画像データやプログラム等を保存、蓄積するためのハードディスク(以下HDD)であり、画像DB118、特徴量DB117を保持する。204はモニタ205へ表示するためのデータバッファとなるビデオメモリである。ビデオメモリ204に書き込まれた画像データは、定期的にモニタ205へ表示される。206はマウスやキーボード等の入力デバイス、207はインターネットやLAN等の外部通信路104を介してデータを送受信する外部I/F、208は各々の構成要素を接続するバスである。
【0019】
本実施例では、サーバ装置110がサーバコンピュータにより構成され、文書画像分類等の処理がソフトウェによって実現する例を示す。すなわち、サーバ内の処理は図示しないアプリケーションプログラムによって実現される。本発明の実施形態はこれに限定されず、MFP等の装置内にハードウェアによって処理を行うように構成しても良いし、また、サーバ、クライアント構成を採らずに、例えば1つのPCやMFP等の機器内に、図1を構成するようにしても良い。
【0020】
以下、動作概要を説明する。画像DBは、大別すると二つの動作に分かれている。一つは文書画像の登録動作であり、もう一つは所望の文書画像を検索し、閲覧し、取得(サーバからのダウンロード)する「DB内の文書画像を利用する」動作である。文書画像の利用においては、所望の文書画像を検索する動作が不可欠であり、その後の動作はアプリケーションのビューアーを使用して画像を閲覧し、ユーザのPC内へ蓄積する動作となるので、本実施例では、文書画像登録時の動作と文書画像の検索動作のみを説明する。
【0021】
図3は、文書画像登録時の動作フローチャートを示す。図1(破線は登録時の動作を示す)、図3を参照して画像登録動作を説明する。
【0022】
ステップS001において、ユーザはクライアント装置100からアプリケーションプログラム102を介してサーバ装置110へ画像データの登録の指示と登録する登録画像データ119を指示する。
【0023】
ステップS002において、登録画像データ119が外部通信路104を介してサーバ装置110へ入力され、外部I/F111を経由して文書画像DB113へ登録される。同時に、後述する特徴量算出処理部112では登録画像119の特徴量を算出し、算出した特徴量を特徴量DB114へ蓄積する。このとき、文書画像DB113への登録画像と特徴量DB114の特徴量は、ID番号等を使用して関連付けされて各々蓄積される。なお、文書画像DB113と特徴量DB114は上述の機能を満たせば、同じDBに例えばXML(eXtensible Markup Langage)等の言語を使用し階層的なデータ構造等を構築して蓄積しても良く、また、異なるサーバに別々なDBとして蓄積してもよい。また、文書画像の登録としては、スキャナやデジタルカメラ等の画像入力装置から直接、画像データをサーバ装置110へ登録するようにしても良い。
【0024】
図4は、文書画像検索時の動作フローチャートを示す。図1、4を参照して、文書分類処理を使用した画像検索動作を説明する。
【0025】
ステップS101において、ユーザはクライアント装置100上でアプリケーションプログラム102を使用して、文書分類をサーバ装置110へ指示する。指示手段は、例えば図5に示すサムネイル一覧の表示画面をクライアント装置100の表示デバイス101上へ表示する手段である。
【0026】
図5において、1は文書分類による表示画面を指示する分類ラジオボタン、2はサムネイル表示を指示するサムネイルラジオボタン、3は文書画像を表示するフレーム、4は文書画像のサムネイルである。図5は、複数の文書画像サムネイル4がフレーム3上に表示されていることを示し、一般的な画像DBで使用されるサムネイルの一覧表示となっている。
【0027】
通常、文書画像DB113には多くの画像が登録されているが、一度に表示しきれない文書画像サムネイルを閲覧する手段としては、フレームに上下のスライダを設けてスクロールして画像を閲覧し、ページ送り機能を設けて表示画像群を変更すれば良い。
【0028】
ユーザは、入力デバイス103のマウス等のポインティングデバイスを使用して分類ラジオボタン1をクリックすることによって、サーバ側に文書分類指示が外部通信路104を介して転送される。
【0029】
ステップS102において、サーバ装置110が文書分類指示を受信すると、後述する状態検出処理部117では現在の表示画面の状態やユーザの選択状況等を検出する。
【0030】
ステップS103において、状態検出処理部117で検出されたステータスが分類キー選択処理部118に入力され、ステータスに応じて分類キー(どのような観点で文書分類を行うか)が選択される。
【0031】
ステップS104において、後述する分類処理部115では、特徴量を特徴量DB114から入力し、選択された分類キーに応じた各々の登録画像に対するカテゴリ識別データを出力する。
【0032】
ステップS105において、表示画面制御処理部116は、分類処理部115の文書分類結果(登録画像毎のカテゴリ識別データ)と分類キー選択データを入力し、カテゴリ毎の文書画像数の集計等を行い、表示画面のレイアウトや表示する文書画像データを決定する。次いで、画像DB113より表示する文書画像データまたは文書画像データのサムネイルを入力し、分類結果の表示画面120を生成し、外部I/F111より外部通信路104を経由してクライアント100へ送信される。表示画面制御処理部116は分類キーの履歴データ、カテゴリ毎の文書数、ユーザに選択されたカテゴリ等の検索状態に関するデータを保持する機能も備えている。
【0033】
図6は、分類結果表示画面の一例を示す。ここでの分類表示は、一回目の分類表示であり、文書画像DB113内に登録されている文書画像の全てが表示の対象となる。また、ここでは文書の種類を分類キーとして分類した結果を示す。5は分類カテゴリを表し、5つのカテゴリ(「論文」「図面」等)に分類した例を示している。また、5の楕円の大きさは各カテゴリ内に含まれる文書数を模式的に表しており(文書数は数字で直接表すようにしても良い)、カテゴリ内のサムネイルは、各カテゴリに含まれる文書画像によるものである。ここで表示される文書サムネイルは、文書画像DB113に登録されている画像数が少ない場合には全ての画像を表示し、そうでない場合には各カテゴリ内のいくつかの代表画像を表示する。このように表示画像数を絞ることによってクライアント装置100での表示時間や外部転送路を介した転送時間、サーバ装置110での処理時間が短縮される。処理速度が十分得られる場合には全ての画像を重ね合わせたりスライダを設ける等して表示しても良い。
【0034】
上記したような表示画面の作成方法やサーバクライアント間の通信方法には種々の手法があるが、一般的によく使用される手法としてサーバ装置110をWebサーバとしてWorldWideWebベースの技術を使用することにより実現可能となる。そして、表示画面120はHTML(HyperTextMarkupLangage)によって記述され、アプリケーション102は一般的なWebブラウザを使用すれば良い。
【0035】
ステップS106において、クライアント装置100は表示デバイス101上に表示画面120を表示する。
【0036】
ステップS107において、ユーザは、検索している文書画像に近いカテゴリを入力デバイス103を使用して選択し、選択したカテゴリデータをサーバ装置110へ送信する。例えば、図6のプレゼンテーション資料のカテゴリを選択したとする。選択方法としては、例えばカテゴリ内をマウス等のポインティングデバイスでクリックすることにより、そのカテゴリを選択する。また、カテゴリ毎に選択/非選択を可能とし、複数のカテゴリを選択可能に構成できる。
【0037】
ステップS108において、サーバ装置110は、カテゴリ内選択指示を表示画面制御処理部116で受信し、図6のように選択されたカテゴリ内(プレゼンテーション資料カテゴリ)のサムネイル一覧の表示画面を作成し、クライアント装置100へ送信する。
【0038】
ステップS109において、クライアント装置100は、表示デバイス101上に図5に示す表示画面120を表示する。
【0039】
ステップS110において、ユーザは図5のサムネイル一覧から検索対象画像を探す。検索対象画像が見つかった場合には処理が終了するが、登録文書画像数が多い文書画像DBの場合は、サムネイル一覧に表示された対象画像、つまりプレゼンテーション資料画像が数多く登録されている場合が多いと予想されるため、この状態から検索対象画像を探し出すのは困難なケースが多い。検索対象画像が見つからない場合には、ユーザは再度ステップS101〜109の動作を繰り返す。
【0040】
以下、二回目の文書分類の動作について一回目との相違点について説明する。二回目の文書分類では、一回目の文書分類によって選択されたカテゴリに含まれる文書のみを対象として文書分類を行う。すなわち、ステップS109で表示された文書画像のみを対象として文書分類を行うことになる。これにより徐々に文書数を絞り込むことが可能となり、ユーザは検索対象画像を検索し易くなる。
【0041】
状態検出処理部117によって選択されたカテゴリ情報、分類対象文書数、分類キーの履歴等を検出し、分類キー選択処理部118で、二回目の文書分類のための分類キーが選択される。ここでは、プレゼンテーション資料カテゴリが選択されており、プレゼンテーション資料は、一般的に背景色に大きな特徴があるため色味による分類キーが選択されたものとする。図7は、色味による文書分類を行った表示画面の例を示す。
【0042】
このように再帰的に分類表示を行うことにより徐々に表示対象画像を絞り込むことが可能となり、ユーザは、文書画像登録数の多い画像DBにおいても画像の概観等の特徴を確認しながら検索対象画像を絞り込むことが可能となる。本実施例では、分類のカテゴリ選択後に選択カテゴリのサムネイル表示を介して次の分類画面へ移行する例を示しているが、カテゴリに含まれる文書数が多い場合には、自動的に次の分類画面へと移行するようにしても良い。
【0043】
図8は、特徴量算出処理部112の構成を示す。図8において、301は登録画像119から色特徴量の算出処理を行う色特徴算出処理部、302は登録画像119から形状特徴量の算出処理を行う形状特徴量算出処理部、303は登録画像119からレイアウト特徴量の算出処理を行うレイアウト特徴量算出処理部である。
【0044】
色特徴量算出処理部301は、登録画像119から文書画像の背景色や色の分布等の画像の色味に関する特徴量である色特徴量を算出し、形状特徴量算出処理部302は、登録画像119から文書画像のエッジやテクスチャ等、画像の形状に関する特徴量である形状特徴量を算出する。レイアウト特徴量算出処理部303は、画像要素単位でオブジェクトに分割し、オブジェクトの属性を判定してレイアウト情報を得た後、オブジェクト属性(例えばタイトル、文字、図形、写真、表等)毎の配置や面積率等を算出する。これら特徴量の算出処理は公知の手法を用いれば良い。
【0045】
本実施例における状態検出処理および分類キー選択処理について説明する。図9(1)、(2)は、状態検出処理117により検出した「前の分類キー」、「選択されたカテゴリに含まれる文書数」、「選択されたカテゴリ」で選択される分類キーの例を示す。この例では、まず今回の分類処理を行う直前の分類キーと文書数の多少に応じて次の分類キーを図9(1)のように選択する。直前の分類キーがない、つまり一回目の分類処理である場合には文書種類を分類キーとして選択し、直前の分類キーがレイアウトの場合で文書数が多い場合には形状を分類キーとして選択する。直前の分類キーが文書種類の場合には、ユーザにより選択されたカテゴリの内容と文書数に応じて図9(2)のように、選択されたカテゴリに含まれる文書種類に適合した分類キーを選択する。ユーザは、分類画面、カテゴリ選択を繰り返すことによって文書画像を徐々に絞り込み、最終的に検索対象画像を探すことが出来る。このように検索の状態に応じて効果的な文書分類キーを使用して分類することによって、より早い段階で検索対象画像を見つけ出せる可能性が高くなる。再帰的に分類する場合についても、図9(1)、(2)を利用すれば良いが、既に選択された分類キーが選択される場合がある。一度選択された分類キーを再度選択しても効果がないので、その場合は予め定められた優先順位に従って図9(1)、(2)の分類キーを変更するようにすれば良い。例えば、優先順位を「文書種類」>「レイアウト」>「形状」>「色味」として定めておき、既に使用された分類キーが選択された場合には、まだ使用されていない分類キーのなかからより優先順位の高いものを選択すれば良い。
【0046】
分類キーの選択には様々な例が考えられ、上記した例に限定されるものではない。また、説明の簡素化のためレイアウトは一意に扱っているが、各属性の有無(写真や図形属性の有無、文字のみのもの等)で分類したり、属性のページ上の位置等で分類するなど、レイアウトを複数の分類キーに細分化して利用する等、種々の方法が考えられる。
【0047】
図10は、分類処理部115の構成を示す。図10において、401は色特徴量を入力して色カテゴリを識別する色カテゴリ識別処理部、402は形状特徴量を入力して形状カテゴリを識別する形状カテゴリ識別処理部、403はレイアウト特徴量を入力してレイアウトカテゴリを識別するレイアウトカテゴリ識別処理部、404はレイアウト特徴量を入力して文書種類カテゴリを識別する文書種類カテゴリ識別処理部、405は分類キー選択処理部118から出力される分類キー選択データによって各々のカテゴリ識別処理部から出力されるカテゴリ識別データを選択するセレクタである。
【0048】
分類処理部115では、登録文書画像データの特徴量を特徴量DB114から入力し、各カテゴリ識別処理部401〜404においてカテゴリ識別処理を行って、選択された分類キーに応じた各々の登録画像に対するカテゴリ識別データを出力する。カテゴリ識別に関しては様々な手法が考えられるが以下、カテゴリ識別の手法に関する例を示す。
【0049】
色カテゴリ識別データは、色特徴量として背景色や最も使用されている色等を代表色等として入力し、赤、青、緑、黄色、白等の複数のカテゴリを設け、近い色へ分類する。
【0050】
形状カテゴリ識別データは、文書画像のエッジやテクスチャ等、複数の特徴量の類似度から分類を行う。図11は、X,Y,Zの三つの特徴量から分類を行う例であり、各々の特徴量を軸とした空間に登録画像データ毎の特徴量をプロットしている。特徴量点同士で空間的な距離の近いものを1つのカテゴリとして分類する。図11では、501〜503のカテゴリに分類した例を示し、501と502の2つのカテゴリに跨った特徴点は2つのカテゴリに属するものとして分類する。カテゴリの中心点は、当該カテゴリの見本的な画像データによる特徴点となるので、予め定めておけば良い。また、各特徴量に重みを付け、それによって特徴量軸を変形させれば、特定の重みを重視した分類も容易に可能となる。
【0051】
レイアウトカテゴリ識別データは、形状カテゴリ識別データと同様に分類すれば良い。文書種類カテゴリ識別データは、レイアウト特徴量の複数の特徴量から段組等の文書種類の性質を用いて二分岐探索的に分類し、あるいは予め機械学習等の学習機によってレイアウトの特徴量データと識別する文書種類の正解データの対を教師データとして学習させ、レイアウト特徴量から学習データを用いて文書種類を識別する。本実施例では、画像特徴量をDB化し分類画面を生成する時に文書分類を行う例を示したが、文書画像登録時に文書分類まで実施して、分類キー毎のカテゴリ識別データをDB化して保持するように構成しても良い。
【0052】
以上、説明したように本実施例によれば、文書画像DBにおける文書画像分類による画像検索手段において、検索の状態を検出し、それに応じて効果的な文書分類キーを使用して分類することにより効率的に文書画像を絞り込むことが可能となり、より早い段階で検索対象画像を見つけ出せる可能性が高くなる。よって操作性が向上し、ユーザビリティの良い画像検索処理が提供できる。また、分類画面の表示時に分類カテゴリとカテゴリに含まれる文書数を表すことによって、文書画像DBや選択後のカテゴリに含まれる文書群全体の概要を把握でき、文書画像群としての視認性も向上する。
【0053】
実施例2:
本実施例は、ユーザが所望の分類キーを選択可能とした実施例である。図12は、本実施例におけるサムネイル一覧の表示画面例を示す。実施例1では、分類を指示するラジオボタン1(以下分類ボタン)は1つであったが、本実施例では実施例1の分類ボタン1と同じ機能を持つ自動分類ボタン601、文書種類分類ボタン602、レイアウト分類ボタン603、形状分類ボタン604、色分類ボタン605をそれぞれ備えており、ユーザが所望の分類キーを選択可能としている。これにより、例えば分類の初期の段階等で検索対象画像に対してユーザが印象に強く残っている分類キーを使用した検索が可能となる。また、自動分類ボタン601を選択することによって実施例1に示した、現在の検索状態に適合した分類キーを選択することが可能となる。
【0054】
実施例3:
本実施例は、ユーザによって選択されたカテゴリ内の全文書画像における、分類キー毎のばらつき度合いを検出し、分類キーを選択する実施例である。
【0055】
図13は、実施例3のシステム構成を示す。本実施例では、特徴量をDB化して蓄積する代わりに、カテゴリ識別データをDB化して蓄積する例を示しているが、どちらの構成にしても良い。本実施例の構成では、分類処理部115におけるセレクタ405での選択処理を行わず、文書画像毎に全分類キーのカテゴリ識別データを出力し、カテゴリ識別データDB121へ蓄積する。これにより、表示画像を生成する段階で分類処理の必要がなくなり、処理が高速化される。
【0056】
その他の構成要素は、実施例1と同様である。以下、実施例1との相違点のみ説明する。本実施例の状態検出処理部117の動作は、表示画面制御処理部より「分類処理対象の登録画像データの情報」を入力し、「選択可能性のある分類キー」についてのデータのばらつき度合いを検出する。
【0057】
「分類処理対象の登録画像データの情報」とは、例えばユーザに選択されたカテゴリ内の登録画像データのID等を指す。検索処理の最初の分類表示画面生成時は、画像DB113に登録されている全文書画像データが対象となり、文書種類で分類された後、ユーザにプレゼン資料カテゴリが選択された場合は、プレゼン資料カテゴリに含まれる登録画像データが対象となる。
【0058】
「選択可能性のある分類キー」とは、既に分類処理された分類キーは対象としないことを意味する。例えば、検索処理の最初の分類表示画面生成時は全分類キーが対象となり、文書種類分類キーのみ実行された場合には文書種類分類キーを除く分類キーが対象となる。
【0059】
分類キー毎のデータのばらつき度合いをはかる尺度については、種々の方法が考えられるが、本実施例では一つの例として情報エントロピーを算出してばらつきをはかる方法を示す。
【0060】
図17は、状態検出処理部117の構成を示す。状態検出処理部117は、分類処理対象に該当する登録画像のカテゴリ識別データを選択可能性のある分類キー毎に入力し、ヒストグラム作成処理部701においてヒストグラムを作成してカテゴリ毎の度数を計数する。ヒストグラムの作成が終了後、ヒストグラムのデータを基にエントロピー算出処理部702においてエントロピーの算出を行い、分類キー選択処理部118へ出力する。以下、選択可能性のある分類キーについて全て同様にエントロピーを算出して分類キー選択処理部118へ出力する。エントロピーHは式(1)により算出する。
【0061】
【数1】
ここで、Nは当該分類キーのカテゴリ数、Piはカテゴリの度数(全体における割合)である。
【0062】
分類キー毎のエントロピーは分類キー選択処理部118へ各々入力され、エントロピーの最も大きい分類キーを選択し、選択した分類キーを表示画面制御処理部116へ出力する。
【0063】
表示画面制御処理部116では、選択された分類キーにより表示対象登録画像データのカテゴリ識別データをカテゴリ識別データDB121より入力し、実施例1と同様に表示画面を生成する。
【0064】
図15(1)、(2)は、分類キーによるカテゴリ識別データをカテゴリ毎にヒストグラムをとった例を示す。図15の横軸はカテゴリを表し、縦軸は度数を表す。(1)は各カテゴリの度数にさほど差がなく分類キーに対するばらつきが大きい状態であり、(2)は特有のカテゴリの度数が大きく偏りがあり、分類キーに対するばらつきが少ない状態を示している。(1)、(2)の状態でエントロピーを算出すると、(1)>(2)となる。
【0065】
各々の分類キーを対象として文書画像を分類することを考えると、(1)の方がどのカテゴリが選択されても、文書数をほぼ全体の1/5(1/カテゴリ数)程度に絞り込めるため絞り込みの期待値が大きい。(2)は度数の少ないカテゴリが選択されれば、一度に大きく絞り込めるが度数の大きなカテゴリが選択されればほとんど文書数は絞り込めなくなるため全体としての絞込みの期待値は小さいものとなる。よってエントロピーが大きな分類キーを選択することによって、選択対象分類キーのなかでデータのばらつきの大きな分類キーを選択することが可能となる。
【0066】
以上、説明したように本実施例によれば、文書画像DBにおける文書画像分類による画像検索手段において、選択対象分類キーのなかでデータのばらつきの大きな分類キーを選択することが可能となるので、ばらつきの大きな分類キーによる文書分類を行うことによって効率の良い文書画像の絞り込みが可能となる。また、本実施例に示す方法はいかなる検索状態時においても最適な分類キーの選択が可能であり、ひいては常に効率の良い絞込みが可能となり、文書画像検索のユーザビリティが向上する。本実施例では、エントロピーの算出を表示画面生成時に行う例で説明したが、文書画像登録時に行うように構成しても良い。
【図面の簡単な説明】
【0067】
【図1】実施例1のシステム構成を示す。
【図2】実施例1のサーバの構成を示す。
【図3】文書画像登録時の動作フローチャートを示す。
【図4】文書画像検索時の動作フローチャートを示す。
【図5】実施例1のサムネイル一覧表示画面の例を示す。
【図6】分類表示の例を示す。
【図7】色味による分類表示の例を示す。
【図8】特徴量算出処理部の構成を示す。
【図9】状態検出における分類キー選択の例を示す。
【図10】分類処理部の構成を示す。
【図11】特徴空間において画像群をカテゴリ分けした例を示す。
【図12】実施例2のサムネイル一覧表示画面の例を示す。
【図13】実施例3のシステム構成を示す。
【図14】状態検出処理部の構成を示す。
【図15】分類キー毎のヒストグラム例を示す。
【符号の説明】
【0068】
100 クライアント
101 表示デバイス
102 アプリケーション
103 入力デバイス
110 サーバ
111 外部I/F
112 特徴量算出処理部
113 文書画像DB
114 特徴量DB
115 分類処理部
116 表示画面制御処理部
117 状態検出処理部
118 分類キー選択処理部
119 登録画像データ
120 表示画面データ
【特許請求の範囲】
【請求項1】
画像データベースに蓄積されている文書画像を検索する機能を有する画像処理装置であって、前記画像データベース内の文書画像データを複数のカテゴリに分類する第一の分類手段と、前記第一の分類手段により分類された態様を表示する表示画面を作成する表示画面制御手段と、前記表示画面の複数のカテゴリのうち一つまたは複数のカテゴリをユーザにより選択可能とし、前記ユーザにより選択されたカテゴリに含まれる文書画像を再度分類する第二の分類手段を備えた画像処理装置において、検索の状態を検出する検出手段と、前記検出手段による検出結果に応じて前記第二の分類手段の分類キーを選択する分類キー選択手段を備えたことを特徴とする画像処理装置。
【請求項2】
前記分類キーをユーザにより選択可能としたキー選択手段をさらに備えたことを特徴とする請求項1記載の画像処理装置。
【請求項3】
前記検出手段により検出する検索の状態は、カテゴリに含まれる文書数であることを特徴とする請求項1記載の画像処理装置。
【請求項4】
前記検出手段により検出する検索の状態は、前記分類キー選択手段において選択されたカテゴリの種類であることを特徴とする請求項1記載の画像処理装置。
【請求項5】
前記検出手段により検出する検索の状態は、前記キー選択手段において選択された分類キーであることを特徴とする請求項1または2記載の画像処理装置。
【請求項6】
前記検出手段により検出する検索の状態は、カテゴリに含まれる文書における分類キー毎のばらつき度合いであることを特徴とする請求項1記載の画像処理装置。
【請求項7】
前記第一および第二の分類手段における分類キーは少なくとも文書種類を含むことを特徴とする請求項1記載の画像処理装置。
【請求項8】
前記第一および第二の分類手段における分類キーは少なくとも文書の色味を含むことを特徴とする請求項1記載の画像処理装置。
【請求項9】
前記第一および第二の分類手段における分類キーは少なくとも文書の形状を含むことを特徴とする請求項1記載の画像処理装置。
【請求項10】
前記第一および第二の分類手段における分類キーは少なくとも文書のレイアウトを含むことを特徴とする請求項1記載の画像処理装置。
【請求項11】
前記第二の分類手段を再帰的に繰り返し可能とすることを特徴とする請求項1、7〜10のいずれか1項に記載の画像処理装置。
【請求項12】
画像データベースに蓄積されている文書画像を検索する機能を有する画像処理方法であって、前記画像データベース内の文書画像データを複数のカテゴリに分類する第一の分類工程と、前記第一の分類手段により分類された態様を表示する表示画面を作成する表示画面制御工程と、前記表示画面の複数のカテゴリのうち一つまたは複数のカテゴリをユーザにより選択可能とし、前記ユーザにより選択されたカテゴリに含まれる文書画像を再度分類する第二の分類工程を有する画像処理方法において、検索の状態を検出する検出工程と、前記検出手段による検出結果に応じて前記第二の分類工程の分類キーを選択する分類キー選択工程を有することを特徴とする画像処理方法。
【請求項13】
請求項12記載の画像処理方法をコンピュータに実現させるためのプログラム。
【請求項14】
請求項12記載の画像処理方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項1】
画像データベースに蓄積されている文書画像を検索する機能を有する画像処理装置であって、前記画像データベース内の文書画像データを複数のカテゴリに分類する第一の分類手段と、前記第一の分類手段により分類された態様を表示する表示画面を作成する表示画面制御手段と、前記表示画面の複数のカテゴリのうち一つまたは複数のカテゴリをユーザにより選択可能とし、前記ユーザにより選択されたカテゴリに含まれる文書画像を再度分類する第二の分類手段を備えた画像処理装置において、検索の状態を検出する検出手段と、前記検出手段による検出結果に応じて前記第二の分類手段の分類キーを選択する分類キー選択手段を備えたことを特徴とする画像処理装置。
【請求項2】
前記分類キーをユーザにより選択可能としたキー選択手段をさらに備えたことを特徴とする請求項1記載の画像処理装置。
【請求項3】
前記検出手段により検出する検索の状態は、カテゴリに含まれる文書数であることを特徴とする請求項1記載の画像処理装置。
【請求項4】
前記検出手段により検出する検索の状態は、前記分類キー選択手段において選択されたカテゴリの種類であることを特徴とする請求項1記載の画像処理装置。
【請求項5】
前記検出手段により検出する検索の状態は、前記キー選択手段において選択された分類キーであることを特徴とする請求項1または2記載の画像処理装置。
【請求項6】
前記検出手段により検出する検索の状態は、カテゴリに含まれる文書における分類キー毎のばらつき度合いであることを特徴とする請求項1記載の画像処理装置。
【請求項7】
前記第一および第二の分類手段における分類キーは少なくとも文書種類を含むことを特徴とする請求項1記載の画像処理装置。
【請求項8】
前記第一および第二の分類手段における分類キーは少なくとも文書の色味を含むことを特徴とする請求項1記載の画像処理装置。
【請求項9】
前記第一および第二の分類手段における分類キーは少なくとも文書の形状を含むことを特徴とする請求項1記載の画像処理装置。
【請求項10】
前記第一および第二の分類手段における分類キーは少なくとも文書のレイアウトを含むことを特徴とする請求項1記載の画像処理装置。
【請求項11】
前記第二の分類手段を再帰的に繰り返し可能とすることを特徴とする請求項1、7〜10のいずれか1項に記載の画像処理装置。
【請求項12】
画像データベースに蓄積されている文書画像を検索する機能を有する画像処理方法であって、前記画像データベース内の文書画像データを複数のカテゴリに分類する第一の分類工程と、前記第一の分類手段により分類された態様を表示する表示画面を作成する表示画面制御工程と、前記表示画面の複数のカテゴリのうち一つまたは複数のカテゴリをユーザにより選択可能とし、前記ユーザにより選択されたカテゴリに含まれる文書画像を再度分類する第二の分類工程を有する画像処理方法において、検索の状態を検出する検出工程と、前記検出手段による検出結果に応じて前記第二の分類工程の分類キーを選択する分類キー選択工程を有することを特徴とする画像処理方法。
【請求項13】
請求項12記載の画像処理方法をコンピュータに実現させるためのプログラム。
【請求項14】
請求項12記載の画像処理方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2007−286864(P2007−286864A)
【公開日】平成19年11月1日(2007.11.1)
【国際特許分類】
【出願番号】特願2006−112912(P2006−112912)
【出願日】平成18年4月17日(2006.4.17)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】
【公開日】平成19年11月1日(2007.11.1)
【国際特許分類】
【出願日】平成18年4月17日(2006.4.17)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】
[ Back to top ]