画像処理装置、画像処理方法、およびプログラム

【課題】入力画像文書中のオブジェクトにメタデータを付与する際に、全てのオブジェクトを個別に管理すると、付与するメタデータが増えてしまうことからファイルサイズの増加を招き、検索時に該当する候補が増えてしまうことから検索効率の低下につながる。
【解決手段】入力文書を領域に分割する領域分割部と、属性情報を付与する属性情報付与部と、文字情報を得るための文字認識部と、オブジェクトをグループ化する際の階層化レベルを算出する階層化レベル算出部と、前記オブジェクトを、同一のキャプションをもつグループで統合し、該グループごとに個別の識別子を生成するオブジェクト用識別子生成部と、付随するキャプションを前記入力文書より検出することで、該オブジェクトに関連するメタデータを抽出し、オブジェクト用識別子とメタデータを関連付けして記憶領域に記憶するメタデータ抽出部を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書画像より効率的にオブジェクトを検索するためのメタデータ付与の仕方を制御する情報処理装置、情報処理システム、情報出力制御方法、それを実施するためのプログラムを記憶したコンピュータ読出可能な記憶媒体、及び当該プログラムに関するものである。
【背景技術】
【０００２】
入力文書画像を有効利用するために、文書中の文字を除くオブジェクト（例えば、写真、図面、線画、表など）に隣接する文字列がキャプション（オブジェクトを説明している文字列）である場合、該オブジェクトにキャプションをメタデータとして関連付けることが行われている。（以下、オブジェクトは、特に記載がない限り文字を除くオブジェクト（例えば、写真、図面、線画、表など）のことを示すものとする。）これにより、電子化された文書画像をアプリケーション側で利用する際に、該メタデータを検索キーワードとしてオブジェクトを検索することが可能となる。
【０００３】
このオブジェクトに隣接するキャプションが図番（例えば、「図１」や「第１図」など）である場合、一般的な文書画像では、この図番と同じ表現が本文中に記載されている。この場合、図番と本文の同一表現との間にリンクを自動的に生成し、ハイパーテキスト化することが行われている。例えば、オブジェクトに隣接するキャプションが「図１」であり、本文中に「図１は、ＡＡＡである」という記載がある場合、キャプション「図１」と本文中の「図１」は同一表現であるため、リンクが生成される。（特許文献１）
一方、入力された文書画像を解析し、文書要素の幾何情報（例えば、テキスト、図面、写真、表など）に関するレイアウト構造や、文書の論理意味情報（例えば、章、節、文書段落など）に関する論理構造などを持った構造化文書を作成することが行われている。これにより、文書画像に含まれる文章と図表の各領域をグループ化し、上記のキャプション情報をタグ付けして文書構造に指定することが可能となる（特許文献２）
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平１０−２２８４７３号公報
【特許文献２】特開２００３−２８８３３４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記の先行件では、入力画像文書中にサブキャプション（例えば、「図１（ａ）」、「図１（ｂ）など」）で分類されているような関連性の高いオブジェクトが多数存在している場合においても、それぞれのオブジェクトの関連性を検知しない。そのため、全てが独立したオブジェクトとして、オブジェクトと対応するキャプション・サブキャプションがグループ化され、保持される。その結果、全てのオブジェクトに対して画像文書中の説明文中より検出されたキーワードを付与することになり、ファイルサイズが大きくなるという問題がある。また、キーワード検索時に該当する候補数が増えてしまうことから、所望の結果を見つけにくくなり、検索効率の低下につながるという問題がある。
【課題を解決するための手段】
【０００６】
上記課題を解決するために、入力文書を領域に分割する領域分割部と、前記分割領域に属性情報を付与する属性情報付与部と、文字領域に対して文字情報を得るための文字認識部と、前記オブジェクトをグループ化する際の階層化レベルを算出する階層化レベル算出部と、前記オブジェクトを、前記階層化レベルにおいて同一のキャプションをもつグループで統合し、該グループごとに個別の識別子を生成するオブジェクト用識別子生成部と、前記オブジェクトに付随するキャプションを前記入力文書より検出することで、該オブジェクトに関連するメタデータを抽出し、前記オブジェクト用識別子と前記メタデータを関連付けして記憶領域に記憶するメタデータ抽出部を備える画像処理装置とした。
【発明の効果】
【０００７】
本発明は、入力文書画像のファイルサイズや、ユーザによる設定などに応じて、オブジェクトの関連性を考慮してグループ化することで、ファイルサイズの削減ならびに、検索効率を向上することが出来る。
【図面の簡単な説明】
【０００８】
【図１】画像処理システム構成の一例
【図２】ＭＦＰの構成図
【図３】データ処理部構成の一例
【図４】階層化レベルとグループ化の説明図
【図５】第１の実施形態における処理フロー
【図６】領域分割・属性情報付与の説明図
【図７】第１の実施形態における階層化レベル算出処理の一例
【図８】オブジェクトの階層構造解析の説明図
【図９】メタデータ抽出処理の説明図
【図１０】画像検索の説明図
【図１１】階層化レベルＮの違いによる画像検索結果とメタデータの比較（ａ）Ｎ＝１、（ｂ）Ｎ＝２、（ｃ）Ｎ＝３
【図１２】操作画面の一例
【図１３】第２の実施形態における階層化レベル算出処理
【図１４】フォーマットの一例（ａ）Ｎ＝１、（ｂ）Ｎ＝３
【発明を実施するための形態】
【０００９】
（実施例１）
以下、図面を参照して、本発明を実施するための最良の形態について説明する。
【００１０】
実施例１では、効率的な検索を行うために、関連するオブジェクトをグループ化し、グループ化されたオブジェクトに対して、オブジェクトを検索するためのメタデータを関連付ける方法についての説明を行う。
【００１１】
図１は本発明の実施例１の画像処理システムの構成を示すブロック図である。
【００１２】
図１において、オフィスＡ内に構築されたＬＡＮ１０２には、複数の機能（例えばコピー機能、印刷機能、送信機能等）を実現する複合機であるＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）１００が接続されている。また、ＭＦＰ１００からの送信データを受信したり、ＭＦＰ１００が実現する機能を利用したりするクライアントＰＣ１０１及びプロキシサーバ１０３が同じＬＡＮ１０２上に接続されている。ＬＡＮ１０２は、プロキシサーバ１０３を介してネットワーク１０４に接続されている。このクライアントＰＣ１０１では、例えば、印刷データをＭＦＰ１００へ送信することで、その印刷データに基づく印刷物をＭＦＰ１００で印刷することが可能である。
【００１３】
尚、図１の構成は一例であり、オフィスＡと同様の構成要素を有する、複数のオフィスがネットワーク１０４上に接続されていても良い。ネットワーク１０４は、インターネットやＬＡＮやＷＡＮや電話回線、専用デジタル回線、ＡＴＭやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線などである。または、これらの組み合わせにより実現されるいわゆる通信ネットワークで、データの送受信が可能であれば良い。また、クライアントＰＣ１０１、プロキシサーバ１０３の各種端末は、汎用コンピュータに搭載される標準的な構成要素（例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークＩ／Ｆ、ディスプレイ、キーボード、マウスなど）を有する。
【００１４】
次に、ＭＦＰ１００の詳細構成について、図２を用いて説明する。図２は本発明の実施例１のＭＦＰの詳細構成を示す図である。
【００１５】
ＭＦＰ１００は図２に示すように、ネットワークＩ／Ｆ２０４、スキャナ部２００、プリンタ部２０１、操作部２０７、表示部２０８、コントローラ部２０９で構成される。また、コントローラ部２０９にはデータ処理部２０２、記憶部２０３、ＰＤＬ処理部２０５、制御部２０６が含まれる。ＭＦＰ内部における処理の流れを説明する。
【００１６】
オートドキュメントフィーダ（ＡＤＦ）を含むスキャナ部２００は、入力原稿画像を光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスタ状の画像読取信号を所定密度（例えば、６００ＤＰＩ）の画像データとして得る。制御部２０６は、スキャナ部２００で得られた画像データをデータ処理部２０２に送る。
【００１７】
一方、クライアントＰＣ１０１から出力されたＰＤＬデータはネットワークＩ／Ｆ２０４経由でＰＤＬ処理部２０５が受信する。ＰＤＬ処理部２０５は、そのＰＤＬデータをレンダリング処理し、制御部２０６により、レンダリング処理されたＰＤＬデータをデータ処理部２０２に送る。
【００１８】
そして、データ処理部２０２は、受け取った入力信号をプリンタで出力するのに適するように画像処理を行い、記憶部２０４を介してプリンタ部２０１へ送る。
【００１９】
また、ネットワークＩ／Ｆ２０４を介する送信機能は、スキャナ部２００から得られる画像信号を、ＴＩＦＦやＪＰＥＧなどの圧縮画像ファイル形式や、ＰＤＦなどのベクトルデータファイル形式の画像ファイルへ変換し、ネットワークＩ／Ｆ２０４から出力する。出力された画像ファイルは、ＬＡＮ１０２を介してクライアント１０１へ送信されたり、更にネットワーク１０４経由でネットワーク上の外部端末（例えば、別のＭＦＰやクライアントＰＣ）に転送されたりする。
【００２０】
ＭＦＰ１００へのユーザの指示は、ＭＦＰ１００に装備されたキー操作部やタッチパネルからなる操作部２０７及び表示部２０８から行われ、これら一連の動作は制御部２０６で制御される。また、操作入力の状態表示及び処理中の画像データの表示は、表示部２０８で行われる。
【００２１】
記憶部２０３は、例えば、大容量のハードディスクで実現され、スキャナ部２００で読み取った画像データや、ＰＤＬ処理部２０５で処理されたＰＤLデータを記憶管理するデータベースを構成している。特に、本発明では、イメージデータと、そのイメージデータを領域分割することによって得られる領域情報を対応づけて管理することが出来る。
【００２２】
次に、図３を用いて図２のデータ処理部２０２の構成と各構成部の処理の概要について説明を行う。
【００２３】
データ処理部２０２は、領域分割部３００、属性情報付与部３０１、文字認識部３０２、階層化レベル算出部３０３、オブジェクト用識別子生成部３０４、メタデータ抽出部３０５から構成される。そして、スキャナ部２００やＰＤＬ処理部２０５から受けっとったデータに対して領域分割、オブジェクトのグループ化、メタデータ抽出処理などを行い、メタデータの付与されたデータを作成し、記憶部２０３へ送る。
【００２４】
領域分割部３００は、スキャナ部２００やＰＤＬ処理部２０５から受けっとった画像文書を入力とし、領域を分割する。
【００２５】
属性情報付与部３０１は、領域分割部３００によって分割された領域ごとに属性情報を付与する。まず、領域内に文字が含まれているかによって文字領域とオブジェクト領域に分類する。文字領域には「章」、「節」、「本文」、「キャプション」、「サブキャプション」、「ヘッダー・フッター」「文字部」という属性を、オブジェクト領域に対しては「表」、「図」、「ノイズ」という属性を付与する。
【００２６】
文字認識部３０２は、「本文」、「キャプション」、「サブキャプション」、「章」、「節」、「ヘッダー・フッター」、「文字部」といった属性が付与された文字領域に対して文字認識を行う。そして、その結果を対象領域に関連付けを行う。
【００２７】
階層化レベル算出部３０３は、スキャナ部２００やＰＤＬ処理部２０５から受けっとったデータサイズに応じて、階層化レベル（Ｎ）を決定する。階層化レベルとは、後述するオブジェクト用識別子生成時において、複数のオブジェクトを一つのグループとして識別する際の基準として利用する。階層化レベルを小さくすると、より詳細レベルでオブジェクトを分類することになるため、グループ化があまり行われない。一方、階層化レベルを高くすることで、より抽象的なまとまりでオブジェクトは分類される。
【００２８】
オブジェクト用識別子生成部３０４では、関連するオブジェクトのグループ化を行い、それぞれのグループ化されたオブジェクトを識別するためのオブジェクト用識別子を生成と付与を行う。例えば、図４のようにオブジェクトがサブキャプションによって細分化されている場合、階層化レベルが最小であるとき（Ｎ＝１のとき）には、オブジェクトの最小単位であるサブキャプションレベル（Ｆｉｇ１（ａ）とＦｉｇ１（ｂ））で比較を行う。その結果、グループ化が一切行われず、図４（ａ）に示すように２つのオブジェクト４００と４０１がそれぞれ独立オブジェクトとして扱われる。ここで階層化レベルを一つ上げると（Ｎ＝２のとき）、抽象度をあげてキャプションレベル（Ｆｉｇ１）で比較する。結果として、図４（ｂ）に示すように２つのオブジェクト４００と４０１が１つにグループ化され、あたかも１つのオブジェクト４０２であるかのように扱うことがきる。
【００２９】
メタデータ抽出部３０５は、オブジェクトに付与されたキャプションと同一または同義表現を本文領域から検索する。もし見つかった場合には、オブジェクトを検索する際のメタデータとして本文中から抽出し、オブジェクト用識別子と関連付けして保存する。
【００３０】
次に、図５で示すフローチャート図を参照して、本実施形態における第１の実施例の処理の流れならびに、各構成部の詳細な処理について説明する。
【００３１】
まず、ステップＳ５００で領域分割部３００がスキャナ部２００やＰＤＬ処理部２０５から受けっとった画像文書を領域ごとに分割する処理を行う。領域の抽出方法について、一例を説明すると、まず、入力画像をＭ×Ｎ画素毎に分割し、１画素でも画像が存在すれば、そこに画像があるとして間引き画像を作成する。次に、間引き画像が連結する部分をまとめ小矩形を作成していく。縦横比が、大きく短辺同士が接近している矩形は文字行である可能性が高いので、この場合は矩形同士を結合する。また、短辺の長さがほぼ同じで、ほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので結合する。その結果、例えば、図６に示すような領域４１０から領域４１９が抽出される。
【００３２】
ステップＳ５０１では属性情報付与部３０１が分割されたそれぞれの領域に対して、図、表、本文、キャプションなどの属性を付与する。まず、文字が含まれているか否かを判断し、文字領域（文字が含まれる領域）と、オブジェクト領域（文字領域以外）に分類する。続いて文字領域とオブジェクト領域を詳細に分類する。
【００３３】
オブジェクト領域に対しては、領域が小さい部分を「ノイズ」、画素密度の小さい部分を「表」、それ以外を図や写真であるとして「図」といった属性を付与する。
【００３４】
一方、文字領域については、複数の小矩形を結合して作成された領域は本文部である可能性が高いと判断され、「本文」の属性を付加する。また、「表」や「写真」という属性が付与されたオブジェクトの近傍に存在している文字領域は、そのオブジェクトを説明する「キャプション」として属性が付与される。ここでキャプションの近傍にさらに小さな文字領域が存在していた場合、キャプションをさらに説明するキャプションであるとして、「サブキャプション」「キャプション」という関係性に再分類する。残りの領域に対しては、本文部との位置関係や、文字サイズ、文字列の行間によって、「章」、「節」、「ヘッダー・フッター」、「文字部」などの属性を付与する。
【００３５】
以上の分類をもとに図６を分類した結果を示すと、領域４１０は節、領域４１１〜領域４１３は図、領域４１４および領域４１５はキャプション、領域４１６および領域４１７はサブキャプション、領域４１８は本文、領域４１９はページという属性が付与される。
【００３６】
ステップＳ５０２では、文字認識部３０２において、本文やキャプションなどの属性が付与された文字領域に対して文字認識処理を行い、文字領域と関連付けをして保持する。これにより、画像文書中の文章を検索することが出来るようになる。
【００３７】
ステップＳ５０３では、後述するオブジェクト用識別子生成処理Ｓ５０７で必要となる階層化レベルＮを階層化レベル算出部３０３により決定する。階層化レベルを小さくすると、詳細な単位でオブジェクトとメタデータの関係を保持するため、ファイルサイズが必然的に大きくなる。そこで、スキャナ部２００やＰＤＬ処理部２０５から受けっとったデータサイズに応じて、階層化レベルＮを段階的に決定する。判定基準は、例えば図７のようにページ数が５ページ以下ならＮ＝１，１０ページ以下ならＮ＝２、それ以上ならＮ＝３として決定する。あるいはファイルの容量や画像文書中に含まれるオブジェクトの個数などを判定条件にしてもよい。もちろん、これらを複合的に組み合わせて判定してもよい。また、階層化の最大レベルはここでは３としているが、自由に設定することも可能である。ただし、最大レベルを大きくしすぎてしまうと、本来は関連のないオブジェクトであっても、抽象度を上げすぎてしまったためにグループ化され、検索効率を落とす可能性もあるため、最大３〜５程度が適切であると思われる。
【００３８】
続いてオブジェクト用識別子生成部３０４において、関連するオブジェクトをグループ化し、それぞれに対して固有のオブジェクト用識別子を生成する。まず、ステップＳ５０４でキャプション属性の付与されたオブジェクト領域を検出する。検出されなかった場合はステップＳ５０８に進む。検出された場合は、全てのオブジェクトに対して階層構造を分析し（ステップＳ５０５）、ステップＳ５０３で得られた階層化レベルに応じてオブジェクトをグループ化し（ステップＳ５０６）、グループごとに固有のオブジェクト用識別子を算出して付与する（ステップＳ５０７）。
【００３９】
図６に対して、オブジェクトの階層構造を分析した結果を図８に示す。
【００４０】
ステップＳ５０４でキャプション属性の付与されたオブジェクト領域を検出すると、オブジェクト領域４１１〜４１３が該当する。そこで、この３つの領域に対して、レイアウト構造や論理構造を解析し、階層的にキャプションとなる文字列を検出する（ステップＳ５０５）。オブジェクト領域４１２を例に構造化の様子を説明する。まず、オブジェクト領域４１２には詳細な説明を付与するサブキャプションとして「Ｆｉｇ２（ａ）」というオブジェクト領域４１６が存在する。これを第１階層とする。第２階層では、「Ｆｉｇ２」というキャプションを持つオブジェクト領域４１５がサブキャプションをもつオブジェクトを総括していることが分かる。第３階層では、オブジェクト領域４１２は「１．１ＸＸ」という節（オブジェクト領域４１０）に含まれた図としてみなされ、第４階層になると「Ｐａｇｅ１」（オブジェクト領域４１９）という単位に属することがわかる。同様の処理をオブジェクト４１１、オブジェクト４１３に関して解析を行った結果が図８である。
【００４１】
ステップＳ５０６では、この解析結果と、前述の階層化レベル算出部３０３で算出された階層化レベル（Ｎ）を比較し、キャプションが同一もしくは同義であるオブジェクトを、関連性があると判定してグループ化を行う。そして、各グループに固有のオブジェクト用識別子を生成し、付与する（ステップＳ５０７）。例えば、階層化レベルＮ＝１のときは、第１階層において付与されているキャプションで比較をするため、それぞれのオブジェクトが独立したものと判定される。その結果、オブジェクト用識別子ＩＤ＝１，２，３が生成され、それぞれに付与される。また階層化レベルＮ＝３のときは、第３階層で比較を行うため、すべてのオブジェクトに対して「１．１ＸＸ」というキャプションが付与されていることが分かる。その結果、３つのオブジェクトを１つのグループとして統合し、共通のオブジェクト用識別子ＩＤ＝1を生成し、それぞれのオブジェクトに付与する。
【００４２】
その後、メタデータ抽出部３０５において、グループ化されたオブジェクトに付与されたキャプションと同一または同義表現を本文領域から検索する（ステップＳ５０８）。見つからなかった場合はステップＳ５１１へ進む。もし見つかった場合には、ステップＳ５０９へ進み、オブジェクトを検索する際のメタデータとして本文中から抽出する。そして、オブジェクト用識別子と関連付けして保存する（ステップＳ５１０）。例えば、階層化レベルＮ＝３の場合は、３つのオブジェクト領域に付与されているキャプション全てを本文中から検索し、該当したキーワードを抽出し、重複キーワードを削除したものをメタデータとして付与する（図９参照）。
【００４３】
ステップＳ５１１で、入力画像文書に抽出されたメタデータを付与した画像文書を生成する。フォーマットは、オブジェクトにメタデータを関連付けすることが可能なフォーマット（例えば、ＰＤＦ、ＸＰＳ、ＯＯＸＭＬ）である。（「ＰＤＦ」「ＸＰＳ」は登録商標）
図１４にメタデータを付与したフォーマットを作成した一例を示す。
【００４４】
図の属性をもつオブジェクト領域４１１〜４１３は、フォーマット要素８００〜８０３にそれぞれ対応する。そして、領域分割部３００で分割された領域の位置（Ｐｏｓｉｔｉｏｎ）やサイズ（Ｓｉｚｅ）などの情報と、オブジェクト用識別子生成部３０４で生成されたオブジェクト用識別子（ＩＤ）を保持する。また文字領域、例えば、本文属性をもつ本文領域４１８はフォーマット要素８０３として、領域分割部３００で分割された領域の位置（Ｐｏｓｉｔｉｏｎ）やサイズ（Ｓｉｚｅ）などの情報と、文字認識部３０２で認識された文字列情報（Ｄａｔａ）が記述される。オブジェクトに付随するメタデータはオブジェクトとは独立して記述される（８０４〜８０７）。そしてメタデータにはキャプションと本文中から抽出されたキーワードが関連付けられて記述される。このとき、メタデータの番号とオブジェクト領域中に書き込まれたオブジェクト用識別子（ＩＤ）が対応することになる。
【００４５】
図１４（ａ）は、階層化レベルＮ＝１の場合を示している。Ｎ＝１のときはオブジェクト４１１〜４１３が異なるオブジェクト用識別子（ＩＤ＝１，２，３）を持ち、それぞれが個別のメタデータ８０４〜８０６を参照している。一方、図１４（ｂ）は、階層化レベルＮ＝３の場合であり、３つのオブジェクト４１１〜４１３が共通のオブジェクト用識別子（ＩＤ＝１）を持ち、１つのメタデータ８０７を参照するというフォーマットになる。
【００４６】
オブジェクトをキーワード検索するときには、メタデータとして付与されている情報８０４〜８０７に対して検索をかける。そのため、階層化レベルＮ＝１の場合には各メタデータからキーワードが検出され、それに対応した画像が個別の結果として出力される。一方、階層化レベルＮ＝３の場合には、検索されるメタデータは１つなので、対応した画像が同時に検索結果として得られることになる。これにより、あたかも一つのオブジェクトを保持しているように、複数のオブジェクトをグループ化して取り扱うことが出来る。
【００４７】
最後に、前述したメタデータを検索キーワードとしてオブジェクトを検索する例について説明する。図１０にオブジェクトを検索するためのＶｉｅｗｅｒの一例を示す。例えばＡｄｏｂｅのＡｃｒｏｂａｔＲｅａｄｅｒなどがあげられる。
【００４８】
Ｖｉｅｗｅｒ６００でメタデータの付与されたデータを開くと文書表示ウィンドウ６０１内に表示される。検索キーワード入力欄６０２に検索する語句「ＸＸ」を入力すると、画像の検索結果一覧が検索結果表示欄６０３に表示される。ここでは３つのオブジェクトが検索結果としてヒットしている。そして、検索結果１を選択すると、オブジェクト領域４１１が該当箇所として表示される様子を示している。検索語句「ＸＸ」でオブジェクト領域を検索出来る理由については、前述したようにメタデータ「ＸＸ」が、オブジェクト領域４１１を指し示すオブジェクト用識別子と関連付けられているためである。
【００４９】
図１１は階層化レベル（Ｎ）による検索結果と各オブジェクト用識別子に付与されたメタデータを説明する図である。図１１（ａ）〜（ｃ）はそれぞれ、キーワード「ＸＸ」を階層化レベルＮ＝１，Ｎ＝２，Ｎ＝３の場合に検索したときの検索結果ならびにメタデータを示している。
【００５０】
階層化レベルＮ＝１とした場合（図１１（ａ））には３つのオブジェクトがそれぞれ異なるオブジェクト用識別子が割り当てられ、ＸＸというキーワードを持っている。そのため、３個の検索結果が得られる。一方、階層化レベルをＮ＝３とした場合（図１１（ｃ））には３つのオブジェクトが１グループに統合され、画像を検索した場合には文書表示ウィンドウ６０１中に３つが統合された状態で表示される。
【００５１】
階層化レベルを小さく設定することにより、詳細レベルで画像の検索が出来ることになる。しかし、ページ数が多くなってきた場合にはヒットする結果も増えてきてしまい、所望の結果を見つけるのに時間を要してしまう。一方、階層化レベルを大きくすることで詳細な検索は出来なくなってしまうものの、大きなまとまりで検索が出来るため、ページ数が増えた場合にもヒットする個数を大幅に減らすことが出来る。結果として所望の画像が含まれている領域を簡単に見つけることが出来るようになる。
【００５２】
また、階層化レベルＮを大きくすることで、重複していたキーワードを削除することが出来るため、ファイルサイズも小さく抑えることも出来る。
【００５３】
（実施例２）
実施例１ではグループ化する階層化レベルを入力データに応じて自動的に算出して、オブジェクトのグループ化とメタデータ抽出・付与を行う方法について説明を行った。しかし、オブジェクトのグループ化などが自動で行われてしまうと、ユーザの所望の動作と反してしまうことがある。そこで、実施例２では、ユーザがファイルサイズやグループ化の階層化レベルを自由に設定出来る仕組みを提供する。
【００５４】
図１２に操作部２０７における操作画面７００の一例を示す。操作画面７００にはファイルサイズを設定するためのスライダーバー７０１と階層化レベルを設定するためのスライダーバー７０２が設けられている。初期状態としてはオブジェクトをグループ化しないようにするために、階層化レベルを最小（Ｎ＝1）として設定してある。ユーザは２つのスライダーバー７０１と７０２を操作して所望のデータ出力設定を行い、ＯＫボタン７０４を押すことで、ＭＦＰ１００内の制御部２０６が階層化レベル算出部３０２へ設定内容を転送する。なお、Ｃａｎｃｅｌボタン７０３を押すことで操作を取り消すことが可能である。階層化レベル算出部３０３は受信した設定内容に応じて階層化レベルＮを算出する（図１３参照）。
【００５５】
階層化レベル算出処理以外は、実施例１と同様の処理のため、説明を省略する。
【００５６】
（実施例３）
本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体などとしての実施態様をとることが可能である。具体的には、複数の機器を含むシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【００５７】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給する。そして、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
【００５８】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【００５９】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータなどの形態であっても良い。
【００６０】
プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスクがある。また、更に、記録媒体としては、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。
【００６１】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、その接続先のホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスクなどの記録媒体にダウンロードすることによっても供給出来る。また、本発明のプログラムのプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。
【００６２】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭなどの記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【００６３】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。また、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【００６４】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。

【特許請求の範囲】
【請求項１】
入力文書を領域に分割する領域分割部３００と、
前記分割領域に属性情報を付与する属性情報付与部３０１と、
文字領域に対して文字情報を得るための文字認識部３０２と、
前記オブジェクトをグループ化する際の階層化レベルを算出する階層化レベル算出部３０３と、
前記オブジェクトを、前記階層化レベルにおいて同一のキャプションをもつグループで統合し、該グループごとに個別の識別子を生成するオブジェクト用識別子生成部３０４と、
前記オブジェクトに付随するキャプションを前記入力文書より検出することで、該オブジェクトに関連するメタデータを抽出し、前記オブジェクト用識別子と前記メタデータを関連付けして記憶領域に記憶するメタデータ抽出部３０５
を備える画像処理装置。
【請求項２】
前記階層化レベル算出部３０３は、前記入力文書のデータサイズに応じてオブジェクトをグループ化するレベルを自動的に算出することが可能であることを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記階層化レベル算出部３０３は、ユーザの設定に応じてオブジェクトをグループ化するレベルを段階的に変更させることが可能であることを特徴とする請求項１に記載の画像処理装置。
【請求項４】
前記アンカー用識別子生成部３０４は、オブジェクトに付随されたキャプション情報または章または節の論理構造に基づき、前記階層化レベル算出部３０３で決められた階層化レベルで同一または類似表現が含まれるオブジェクトを同一のグループとして認識し、前記グループごとに特有の識別子を付与することを特徴とする請求項１から請求項３に記載の画像処理装置。
【請求項５】
前記属性情報解析部３０１は、文字領域に対しては、章、節、本文、キャプションのいずれかの属性を付与し、文字以外のオブジェクト領域に対しては表、写真、図面、線画のいずれかの属性を付与することを特徴とする請求項１に記載の画像処理装置。
【請求項６】
前記メタデータ抽出部３０５は、オブジェクトに付随されたキャプションと同一または類似表現が含まれる一文あるいはキーワードを本文中より検索し、メタデータとしてオブジェクトに付与することを特徴とする請求項１に記載の画像処理装置。

【図１】