画像処理装置、画像処理方法、およびプログラム
【課題】 入力画像文書中のオブジェクトにメタデータを付与する際に、全てのオブジェクトを個別に管理すると、付与するメタデータが増えてしまうことからファイルサイズの増加を招き、検索時に該当する候補が増えてしまうことから検索効率の低下につながる。
【解決手段】 入力文書を領域に分割する領域分割部と、属性情報を付与する属性情報付与部と、文字情報を得るための文字認識部と、オブジェクトをグループ化する際の階層化レベルを算出する階層化レベル算出部と、前記オブジェクトを、同一のキャプションをもつグループで統合し、該グループごとに個別の識別子を生成するオブジェクト用識別子生成部と、付随するキャプションを前記入力文書より検出することで、該オブジェクトに関連するメタデータを抽出し、オブジェクト用識別子とメタデータを関連付けして記憶領域に記憶するメタデータ抽出部を備える。
【解決手段】 入力文書を領域に分割する領域分割部と、属性情報を付与する属性情報付与部と、文字情報を得るための文字認識部と、オブジェクトをグループ化する際の階層化レベルを算出する階層化レベル算出部と、前記オブジェクトを、同一のキャプションをもつグループで統合し、該グループごとに個別の識別子を生成するオブジェクト用識別子生成部と、付随するキャプションを前記入力文書より検出することで、該オブジェクトに関連するメタデータを抽出し、オブジェクト用識別子とメタデータを関連付けして記憶領域に記憶するメタデータ抽出部を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書画像より効率的にオブジェクトを検索するためのメタデータ付与の仕方を制御する情報処理装置、情報処理システム、情報出力制御方法、それを実施するためのプログラムを記憶したコンピュータ読出可能な記憶媒体、及び当該プログラムに関するものである。
【背景技術】
【0002】
入力文書画像を有効利用するために、文書中の文字を除くオブジェクト(例えば、写真、図面、線画、表など)に隣接する文字列がキャプション(オブジェクトを説明している文字列)である場合、該オブジェクトにキャプションをメタデータとして関連付けることが行われている。(以下、オブジェクトは、特に記載がない限り文字を除くオブジェクト(例えば、写真、図面、線画、表など)のことを示すものとする。)これにより、電子化された文書画像をアプリケーション側で利用する際に、該メタデータを検索キーワードとしてオブジェクトを検索することが可能となる。
【0003】
このオブジェクトに隣接するキャプションが図番(例えば、「図1」や「第1図」など)である場合、一般的な文書画像では、この図番と同じ表現が本文中に記載されている。この場合、図番と本文の同一表現との間にリンクを自動的に生成し、ハイパーテキスト化することが行われている。例えば、オブジェクトに隣接するキャプションが「図1」であり、本文中に「図1は、AAAである」という記載がある場合、キャプション「図1」と本文中の「図1」は同一表現であるため、リンクが生成される。(特許文献1)
一方、入力された文書画像を解析し、文書要素の幾何情報(例えば、テキスト、図面、写真、表など)に関するレイアウト構造や、文書の論理意味情報(例えば、章、節、文書段落など)に関する論理構造などを持った構造化文書を作成することが行われている。これにより、文書画像に含まれる文章と図表の各領域をグループ化し、上記のキャプション情報をタグ付けして文書構造に指定することが可能となる(特許文献2)
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平10−228473号公報
【特許文献2】特開2003−288334号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の先行件では、入力画像文書中にサブキャプション(例えば、「図1(a)」、「図1(b)など」)で分類されているような関連性の高いオブジェクトが多数存在している場合においても、それぞれのオブジェクトの関連性を検知しない。そのため、全てが独立したオブジェクトとして、オブジェクトと対応するキャプション・サブキャプションがグループ化され、保持される。その結果、全てのオブジェクトに対して画像文書中の説明文中より検出されたキーワードを付与することになり、ファイルサイズが大きくなるという問題がある。また、キーワード検索時に該当する候補数が増えてしまうことから、所望の結果を見つけにくくなり、検索効率の低下につながるという問題がある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、入力文書を領域に分割する領域分割部と、前記分割領域に属性情報を付与する属性情報付与部と、文字領域に対して文字情報を得るための文字認識部と、前記オブジェクトをグループ化する際の階層化レベルを算出する階層化レベル算出部と、前記オブジェクトを、前記階層化レベルにおいて同一のキャプションをもつグループで統合し、該グループごとに個別の識別子を生成するオブジェクト用識別子生成部と、前記オブジェクトに付随するキャプションを前記入力文書より検出することで、該オブジェクトに関連するメタデータを抽出し、前記オブジェクト用識別子と前記メタデータを関連付けして記憶領域に記憶するメタデータ抽出部を備える画像処理装置とした。
【発明の効果】
【0007】
本発明は、入力文書画像のファイルサイズや、ユーザによる設定などに応じて、オブジェクトの関連性を考慮してグループ化することで、ファイルサイズの削減ならびに、検索効率を向上することが出来る。
【図面の簡単な説明】
【0008】
【図1】画像処理システム構成の一例
【図2】MFPの構成図
【図3】データ処理部構成の一例
【図4】階層化レベルとグループ化の説明図
【図5】第1の実施形態における処理フロー
【図6】領域分割・属性情報付与の説明図
【図7】第1の実施形態における階層化レベル算出処理の一例
【図8】オブジェクトの階層構造解析の説明図
【図9】メタデータ抽出処理の説明図
【図10】画像検索の説明図
【図11】階層化レベルNの違いによる画像検索結果とメタデータの比較 (a)N=1、(b)N=2、(c)N=3
【図12】操作画面の一例
【図13】第2の実施形態における階層化レベル算出処理
【図14】フォーマットの一例 (a)N=1、(b)N=3
【発明を実施するための形態】
【0009】
(実施例1)
以下、図面を参照して、本発明を実施するための最良の形態について説明する。
【0010】
実施例1では、効率的な検索を行うために、関連するオブジェクトをグループ化し、グループ化されたオブジェクトに対して、オブジェクトを検索するためのメタデータを関連付ける方法についての説明を行う。
【0011】
図1は本発明の実施例1の画像処理システムの構成を示すブロック図である。
【0012】
図1において、オフィスA内に構築されたLAN102には、複数の機能(例えばコピー機能、印刷機能、送信機能等)を実現する複合機であるMFP(Multi Function Peripheral)100が接続されている。また、MFP100からの送信データを受信したり、MFP100が実現する機能を利用したりするクライアントPC101及びプロキシサーバ103が同じLAN102上に接続されている。LAN102は、プロキシサーバ103を介してネットワーク104に接続されている。このクライアントPC101では、例えば、印刷データをMFP100へ送信することで、その印刷データに基づく印刷物をMFP100で印刷することが可能である。
【0013】
尚、図1の構成は一例であり、オフィスAと同様の構成要素を有する、複数のオフィスがネットワーク104上に接続されていても良い。ネットワーク104は、インターネットやLANやWANや電話回線、専用デジタル回線、ATMやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線などである。または、これらの組み合わせにより実現されるいわゆる通信ネットワークで、データの送受信が可能であれば良い。また、クライアントPC101、プロキシサーバ103の各種端末は、汎用コンピュータに搭載される標準的な構成要素(例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークI/F、ディスプレイ、キーボード、マウスなど)を有する。
【0014】
次に、MFP100の詳細構成について、図2を用いて説明する。図2は本発明の実施例1のMFPの詳細構成を示す図である。
【0015】
MFP100は図2に示すように、ネットワークI/F204、スキャナ部200、プリンタ部201、操作部207、表示部208、コントローラ部209で構成される。また、コントローラ部209にはデータ処理部202、記憶部203、PDL処理部205、制御部206が含まれる。MFP内部における処理の流れを説明する。
【0016】
オートドキュメントフィーダ(ADF)を含むスキャナ部200は、入力原稿画像を光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスタ状の画像読取信号を所定密度(例えば、600DPI)の画像データとして得る。制御部206は、スキャナ部200で得られた画像データをデータ処理部202に送る。
【0017】
一方、クライアントPC101から出力されたPDLデータはネットワークI/F204経由でPDL処理部205が受信する。PDL処理部205は、そのPDLデータをレンダリング処理し、制御部206により、レンダリング処理されたPDLデータをデータ処理部202に送る。
【0018】
そして、データ処理部202は、受け取った入力信号をプリンタで出力するのに適するように画像処理を行い、記憶部204を介してプリンタ部201へ送る。
【0019】
また、ネットワークI/F204を介する送信機能は、スキャナ部200から得られる画像信号を、TIFFやJPEGなどの圧縮画像ファイル形式や、PDFなどのベクトルデータファイル形式の画像ファイルへ変換し、ネットワークI/F204から出力する。出力された画像ファイルは、LAN102を介してクライアント101へ送信されたり、更にネットワーク104経由でネットワーク上の外部端末(例えば、別のMFPやクライアントPC)に転送されたりする。
【0020】
MFP100へのユーザの指示は、MFP100に装備されたキー操作部やタッチパネルからなる操作部207及び表示部208から行われ、これら一連の動作は制御部206で制御される。また、操作入力の状態表示及び処理中の画像データの表示は、表示部208で行われる。
【0021】
記憶部203は、例えば、大容量のハードディスクで実現され、スキャナ部200で読み取った画像データや、PDL処理部205で処理されたPDLデータを記憶管理するデータベースを構成している。特に、本発明では、イメージデータと、そのイメージデータを領域分割することによって得られる領域情報を対応づけて管理することが出来る。
【0022】
次に、図3を用いて図2のデータ処理部202の構成と各構成部の処理の概要について説明を行う。
【0023】
データ処理部202は、領域分割部300、属性情報付与部301、文字認識部302、階層化レベル算出部303、オブジェクト用識別子生成部304、メタデータ抽出部305から構成される。そして、スキャナ部200やPDL処理部205から受けっとったデータに対して領域分割、オブジェクトのグループ化、メタデータ抽出処理などを行い、メタデータの付与されたデータを作成し、記憶部203へ送る。
【0024】
領域分割部300は、スキャナ部200やPDL処理部205から受けっとった画像文書を入力とし、領域を分割する。
【0025】
属性情報付与部301は、領域分割部300によって分割された領域ごとに属性情報を付与する。まず、領域内に文字が含まれているかによって文字領域とオブジェクト領域に分類する。文字領域には「章」、「節」、「本文」、「キャプション」、「サブキャプション」、「ヘッダー・フッター」「文字部」という属性を、オブジェクト領域に対しては「表」、「図」、「ノイズ」という属性を付与する。
【0026】
文字認識部302は、「本文」、「キャプション」、「サブキャプション」、「章」、「節」、「ヘッダー・フッター」、「文字部」といった属性が付与された文字領域に対して文字認識を行う。そして、その結果を対象領域に関連付けを行う。
【0027】
階層化レベル算出部303は、スキャナ部200やPDL処理部205から受けっとったデータサイズに応じて、階層化レベル(N)を決定する。階層化レベルとは、後述するオブジェクト用識別子生成時において、複数のオブジェクトを一つのグループとして識別する際の基準として利用する。階層化レベルを小さくすると、より詳細レベルでオブジェクトを分類することになるため、グループ化があまり行われない。一方、階層化レベルを高くすることで、より抽象的なまとまりでオブジェクトは分類される。
【0028】
オブジェクト用識別子生成部304では、関連するオブジェクトのグループ化を行い、それぞれのグループ化されたオブジェクトを識別するためのオブジェクト用識別子を生成と付与を行う。例えば、図4のようにオブジェクトがサブキャプションによって細分化されている場合、階層化レベルが最小であるとき(N=1のとき)には、オブジェクトの最小単位であるサブキャプションレベル(Fig1(a)とFig1(b))で比較を行う。その結果、グループ化が一切行われず、図4(a)に示すように2つのオブジェクト400と401がそれぞれ独立オブジェクトとして扱われる。ここで階層化レベルを一つ上げると(N=2のとき)、抽象度をあげてキャプションレベル(Fig1)で比較する。結果として、図4(b)に示すように2つのオブジェクト400と401が1つにグループ化され、あたかも1つのオブジェクト402であるかのように扱うことがきる。
【0029】
メタデータ抽出部305は、オブジェクトに付与されたキャプションと同一または同義表現を本文領域から検索する。もし見つかった場合には、オブジェクトを検索する際のメタデータとして本文中から抽出し、オブジェクト用識別子と関連付けして保存する。
【0030】
次に、図5で示すフローチャート図を参照して、本実施形態における第1の実施例の処理の流れならびに、各構成部の詳細な処理について説明する。
【0031】
まず、ステップS500で領域分割部300がスキャナ部200やPDL処理部205から受けっとった画像文書を領域ごとに分割する処理を行う。領域の抽出方法について、一例を説明すると、まず、入力画像をM×N画素毎に分割し、1画素でも画像が存在すれば、そこに画像があるとして間引き画像を作成する。次に、間引き画像が連結する部分をまとめ小矩形を作成していく。縦横比が、大きく短辺同士が接近している矩形は文字行である可能性が高いので、この場合は矩形同士を結合する。また、短辺の長さがほぼ同じで、ほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので結合する。その結果、例えば、図6に示すような領域410から領域419が抽出される。
【0032】
ステップS501では属性情報付与部301が分割されたそれぞれの領域に対して、図、表、本文、キャプションなどの属性を付与する。まず、文字が含まれているか否かを判断し、文字領域(文字が含まれる領域)と、オブジェクト領域(文字領域以外)に分類する。続いて文字領域とオブジェクト領域を詳細に分類する。
【0033】
オブジェクト領域に対しては、領域が小さい部分を「ノイズ」、画素密度の小さい部分を「表」、それ以外を図や写真であるとして「図」といった属性を付与する。
【0034】
一方、文字領域については、複数の小矩形を結合して作成された領域は本文部である可能性が高いと判断され、「本文」の属性を付加する。また、「表」や「写真」という属性が付与されたオブジェクトの近傍に存在している文字領域は、そのオブジェクトを説明する「キャプション」として属性が付与される。ここでキャプションの近傍にさらに小さな文字領域が存在していた場合、キャプションをさらに説明するキャプションであるとして、「サブキャプション」「キャプション」という関係性に再分類する。残りの領域に対しては 、本文部との位置関係や、文字サイズ、文字列の行間によって、「章」、「節」、「ヘッダー・フッター」、「文字部」などの属性を付与する。
【0035】
以上の分類をもとに図6を分類した結果を示すと、領域410は節、領域411〜領域413は図、領域414および領域415はキャプション、領域416および領域417はサブキャプション、領域418は本文、領域419はページという属性が付与される。
【0036】
ステップS502では、文字認識部302において、本文やキャプションなどの属性が付与された文字領域に対して文字認識処理を行い、文字領域と関連付けをして保持する。これにより、画像文書中の文章を検索することが出来るようになる。
【0037】
ステップS503では、後述するオブジェクト用識別子生成処理S507で必要となる階層化レベルNを階層化レベル算出部303により決定する。階層化レベルを小さくすると、詳細な単位でオブジェクトとメタデータの関係を保持するため、ファイルサイズが必然的に大きくなる。そこで、スキャナ部200やPDL処理部205から受けっとったデータサイズに応じて、階層化レベルNを段階的に決定する。判定基準は、例えば図7のようにページ数が5ページ以下ならN=1,10ページ以下ならN=2、それ以上ならN=3として決定する。あるいはファイルの容量や画像文書中に含まれるオブジェクトの個数などを判定条件にしてもよい。もちろん、これらを複合的に組み合わせて判定してもよい。また、階層化の最大レベルはここでは3としているが、自由に設定することも可能である。ただし、最大レベルを大きくしすぎてしまうと、本来は関連のないオブジェクトであっても、抽象度を上げすぎてしまったためにグループ化され、検索効率を落とす可能性もあるため、最大3〜5程度が適切であると思われる。
【0038】
続いてオブジェクト用識別子生成部304において、関連するオブジェクトをグループ化し、それぞれに対して固有のオブジェクト用識別子を生成する。まず、ステップS504でキャプション属性の付与されたオブジェクト領域を検出する。検出されなかった場合はステップS508に進む。検出された場合は、全てのオブジェクトに対して階層構造を分析し(ステップS505)、ステップS503で得られた階層化レベルに応じてオブジェクトをグループ化し(ステップS506)、グループごとに固有のオブジェクト用識別子を算出して付与する(ステップS507)。
【0039】
図6に対して、オブジェクトの階層構造を分析した結果を図8に示す。
【0040】
ステップS504でキャプション属性の付与されたオブジェクト領域を検出すると、オブジェクト領域411〜413が該当する。そこで、この3つの領域に対して、レイアウト構造や論理構造を解析し、階層的にキャプションとなる文字列を検出する(ステップS505)。オブジェクト領域412を例に構造化の様子を説明する。まず、オブジェクト領域412には詳細な説明を付与するサブキャプションとして「Fig2(a)」というオブジェクト領域416が存在する。これを第1階層とする。第2階層では、「Fig2」というキャプションを持つオブジェクト領域415がサブキャプションをもつオブジェクトを総括していることが分かる。第3階層では、オブジェクト領域412は「1.1 XX」という節(オブジェクト領域410)に含まれた図としてみなされ、第4階層になると「Page1」(オブジェクト領域419)という単位に属することがわかる。同様の処理をオブジェクト411、オブジェクト413に関して解析を行った結果が図8である。
【0041】
ステップS506では、この解析結果と、前述の階層化レベル算出部303で算出された階層化レベル(N)を比較し、キャプションが同一もしくは同義であるオブジェクトを、関連性があると判定してグループ化を行う。そして、各グループに固有のオブジェクト用識別子を生成し、付与する(ステップS507)。例えば、階層化レベルN=1のときは、第1階層において付与されているキャプションで比較をするため、それぞれのオブジェクトが独立したものと判定される。その結果、オブジェクト用識別子ID=1,2,3が生成され、それぞれに付与される。また階層化レベルN=3のときは、第3階層で比較を行うため、すべてのオブジェクトに対して「1.1 XX」というキャプションが付与されていることが分かる。その結果、3つのオブジェクトを1つのグループとして統合し、共通のオブジェクト用識別子ID=1を生成し、それぞれのオブジェクトに付与する。
【0042】
その後、メタデータ抽出部305において、グループ化されたオブジェクトに付与されたキャプションと同一または同義表現を本文領域から検索する(ステップS508)。見つからなかった場合はステップS511へ進む。もし見つかった場合には、ステップS509へ進み、オブジェクトを検索する際のメタデータとして本文中から抽出する。そして、オブジェクト用識別子と関連付けして保存する(ステップS510)。例えば、階層化レベルN=3の場合は、3つのオブジェクト領域に付与されているキャプション全てを本文中から検索し、該当したキーワードを抽出し、重複キーワードを削除したものをメタデータとして付与する(図9参照)。
【0043】
ステップS511で、入力画像文書に抽出されたメタデータを付与した画像文書を生成する。フォーマットは、オブジェクトにメタデータを関連付けすることが可能なフォーマット(例えば、PDF、XPS、OOXML)である。(「PDF」「XPS」は登録商標)
図14にメタデータを付与したフォーマットを作成した一例を示す。
【0044】
図の属性をもつオブジェクト領域411〜413は、フォーマット要素800〜803にそれぞれ対応する。そして、領域分割部300で分割された領域の位置(Position)やサイズ(Size)などの情報と、オブジェクト用識別子生成部304で生成されたオブジェクト用識別子(ID)を保持する。また文字領域、例えば、本文属性をもつ本文領域418はフォーマット要素803として、領域分割部300で分割された領域の位置(Position)やサイズ(Size)などの情報と、文字認識部302で認識された文字列情報(Data)が記述される。オブジェクトに付随するメタデータはオブジェクトとは独立して記述される(804〜807)。そしてメタデータにはキャプションと本文中から抽出されたキーワードが関連付けられて記述される。このとき、メタデータの番号とオブジェクト領域中に書き込まれたオブジェクト用識別子(ID)が対応することになる。
【0045】
図14(a)は、階層化レベルN=1の場合を示している。N=1のときはオブジェクト411〜413が異なるオブジェクト用識別子(ID=1,2,3)を持ち、それぞれが個別のメタデータ804〜806を参照している。一方、図14(b)は、階層化レベルN=3の場合であり、3つのオブジェクト411〜413が共通のオブジェクト用識別子(ID=1)を持ち、1つのメタデータ807を参照するというフォーマットになる。
【0046】
オブジェクトをキーワード検索するときには、メタデータとして付与されている情報804〜807に対して検索をかける。そのため、階層化レベルN=1の場合には各メタデータからキーワードが検出され、それに対応した画像が個別の結果として出力される。一方、階層化レベルN=3の場合には、検索されるメタデータは1つなので、対応した画像が同時に検索結果として得られることになる。これにより、あたかも一つのオブジェクトを保持しているように、複数のオブジェクトをグループ化して取り扱うことが出来る。
【0047】
最後に、前述したメタデータを検索キーワードとしてオブジェクトを検索する例について説明する。図10にオブジェクトを検索するためのViewerの一例を示す。例えばAdobeのAcrobatReaderなどがあげられる。
【0048】
Viewer600でメタデータの付与されたデータを開くと文書表示ウィンドウ601内に表示される。検索キーワード入力欄602に検索する語句「XX」を入力すると、画像の検索結果一覧が検索結果表示欄603に表示される。ここでは3つのオブジェクトが検索結果としてヒットしている。そして、検索結果1を選択すると、オブジェクト領域411が該当箇所として表示される様子を示している。検索語句「XX」でオブジェクト領域を検索出来る理由については、前述したようにメタデータ「XX」が、オブジェクト領域411を指し示すオブジェクト用識別子と関連付けられているためである。
【0049】
図11は階層化レベル(N)による検索結果と各オブジェクト用識別子に付与されたメタデータを説明する図である。図11(a)〜(c)はそれぞれ、キーワード「XX」を階層化レベルN=1,N=2,N=3の場合に検索したときの検索結果ならびにメタデータを示している。
【0050】
階層化レベルN=1とした場合(図11(a))には3つのオブジェクトがそれぞれ異なるオブジェクト用識別子が割り当てられ、XXというキーワードを持っている。そのため、3個の検索結果が得られる。一方、階層化レベルをN=3とした場合(図11(c))には3つのオブジェクトが1グループに統合され、画像を検索した場合には文書表示ウィンドウ601中に3つが統合された状態で表示される。
【0051】
階層化レベルを小さく設定することにより、詳細レベルで画像の検索が出来ることになる。しかし、ページ数が多くなってきた場合にはヒットする結果も増えてきてしまい、所望の結果を見つけるのに時間を要してしまう。一方、階層化レベルを大きくすることで詳細な検索は出来なくなってしまうものの、大きなまとまりで検索が出来るため、ページ数が増えた場合にもヒットする個数を大幅に減らすことが出来る。結果として所望の画像が含まれている領域を簡単に見つけることが出来るようになる。
【0052】
また、階層化レベルNを大きくすることで、重複していたキーワードを削除することが出来るため、ファイルサイズも小さく抑えることも出来る。
【0053】
(実施例2)
実施例1ではグループ化する階層化レベルを入力データに応じて自動的に算出して、オブジェクトのグループ化とメタデータ抽出・付与を行う方法について説明を行った。しかし、オブジェクトのグループ化などが自動で行われてしまうと、ユーザの所望の動作と反してしまうことがある。そこで、実施例2では、ユーザがファイルサイズやグループ化の階層化レベルを自由に設定出来る仕組みを提供する。
【0054】
図12に操作部207における操作画面700の一例を示す。操作画面700にはファイルサイズを設定するためのスライダーバー701と階層化レベルを設定するためのスライダーバー702が設けられている。初期状態としてはオブジェクトをグループ化しないようにするために、階層化レベルを最小(N=1)として設定してある。ユーザは2つのスライダーバー701と702を操作して所望のデータ出力設定を行い、OKボタン704を押すことで、MFP100内の制御部206が階層化レベル算出部302へ設定内容を転送する。なお、Cancelボタン703を押すことで操作を取り消すことが可能である。階層化レベル算出部303は受信した設定内容に応じて階層化レベルNを算出する(図13参照)。
【0055】
階層化レベル算出処理以外は、実施例1と同様の処理のため、説明を省略する。
【0056】
(実施例3)
本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体などとしての実施態様をとることが可能である。具体的には、複数の機器を含むシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0057】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給する。そして、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
【0058】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0059】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータなどの形態であっても良い。
【0060】
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスクがある。また、更に、記録媒体としては、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
【0061】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、その接続先のホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスクなどの記録媒体にダウンロードすることによっても供給出来る。また、本発明のプログラムのプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
【0062】
また、本発明のプログラムを暗号化してCD−ROMなどの記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0063】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。また、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【0064】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
【技術分野】
【0001】
本発明は、文書画像より効率的にオブジェクトを検索するためのメタデータ付与の仕方を制御する情報処理装置、情報処理システム、情報出力制御方法、それを実施するためのプログラムを記憶したコンピュータ読出可能な記憶媒体、及び当該プログラムに関するものである。
【背景技術】
【0002】
入力文書画像を有効利用するために、文書中の文字を除くオブジェクト(例えば、写真、図面、線画、表など)に隣接する文字列がキャプション(オブジェクトを説明している文字列)である場合、該オブジェクトにキャプションをメタデータとして関連付けることが行われている。(以下、オブジェクトは、特に記載がない限り文字を除くオブジェクト(例えば、写真、図面、線画、表など)のことを示すものとする。)これにより、電子化された文書画像をアプリケーション側で利用する際に、該メタデータを検索キーワードとしてオブジェクトを検索することが可能となる。
【0003】
このオブジェクトに隣接するキャプションが図番(例えば、「図1」や「第1図」など)である場合、一般的な文書画像では、この図番と同じ表現が本文中に記載されている。この場合、図番と本文の同一表現との間にリンクを自動的に生成し、ハイパーテキスト化することが行われている。例えば、オブジェクトに隣接するキャプションが「図1」であり、本文中に「図1は、AAAである」という記載がある場合、キャプション「図1」と本文中の「図1」は同一表現であるため、リンクが生成される。(特許文献1)
一方、入力された文書画像を解析し、文書要素の幾何情報(例えば、テキスト、図面、写真、表など)に関するレイアウト構造や、文書の論理意味情報(例えば、章、節、文書段落など)に関する論理構造などを持った構造化文書を作成することが行われている。これにより、文書画像に含まれる文章と図表の各領域をグループ化し、上記のキャプション情報をタグ付けして文書構造に指定することが可能となる(特許文献2)
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平10−228473号公報
【特許文献2】特開2003−288334号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の先行件では、入力画像文書中にサブキャプション(例えば、「図1(a)」、「図1(b)など」)で分類されているような関連性の高いオブジェクトが多数存在している場合においても、それぞれのオブジェクトの関連性を検知しない。そのため、全てが独立したオブジェクトとして、オブジェクトと対応するキャプション・サブキャプションがグループ化され、保持される。その結果、全てのオブジェクトに対して画像文書中の説明文中より検出されたキーワードを付与することになり、ファイルサイズが大きくなるという問題がある。また、キーワード検索時に該当する候補数が増えてしまうことから、所望の結果を見つけにくくなり、検索効率の低下につながるという問題がある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、入力文書を領域に分割する領域分割部と、前記分割領域に属性情報を付与する属性情報付与部と、文字領域に対して文字情報を得るための文字認識部と、前記オブジェクトをグループ化する際の階層化レベルを算出する階層化レベル算出部と、前記オブジェクトを、前記階層化レベルにおいて同一のキャプションをもつグループで統合し、該グループごとに個別の識別子を生成するオブジェクト用識別子生成部と、前記オブジェクトに付随するキャプションを前記入力文書より検出することで、該オブジェクトに関連するメタデータを抽出し、前記オブジェクト用識別子と前記メタデータを関連付けして記憶領域に記憶するメタデータ抽出部を備える画像処理装置とした。
【発明の効果】
【0007】
本発明は、入力文書画像のファイルサイズや、ユーザによる設定などに応じて、オブジェクトの関連性を考慮してグループ化することで、ファイルサイズの削減ならびに、検索効率を向上することが出来る。
【図面の簡単な説明】
【0008】
【図1】画像処理システム構成の一例
【図2】MFPの構成図
【図3】データ処理部構成の一例
【図4】階層化レベルとグループ化の説明図
【図5】第1の実施形態における処理フロー
【図6】領域分割・属性情報付与の説明図
【図7】第1の実施形態における階層化レベル算出処理の一例
【図8】オブジェクトの階層構造解析の説明図
【図9】メタデータ抽出処理の説明図
【図10】画像検索の説明図
【図11】階層化レベルNの違いによる画像検索結果とメタデータの比較 (a)N=1、(b)N=2、(c)N=3
【図12】操作画面の一例
【図13】第2の実施形態における階層化レベル算出処理
【図14】フォーマットの一例 (a)N=1、(b)N=3
【発明を実施するための形態】
【0009】
(実施例1)
以下、図面を参照して、本発明を実施するための最良の形態について説明する。
【0010】
実施例1では、効率的な検索を行うために、関連するオブジェクトをグループ化し、グループ化されたオブジェクトに対して、オブジェクトを検索するためのメタデータを関連付ける方法についての説明を行う。
【0011】
図1は本発明の実施例1の画像処理システムの構成を示すブロック図である。
【0012】
図1において、オフィスA内に構築されたLAN102には、複数の機能(例えばコピー機能、印刷機能、送信機能等)を実現する複合機であるMFP(Multi Function Peripheral)100が接続されている。また、MFP100からの送信データを受信したり、MFP100が実現する機能を利用したりするクライアントPC101及びプロキシサーバ103が同じLAN102上に接続されている。LAN102は、プロキシサーバ103を介してネットワーク104に接続されている。このクライアントPC101では、例えば、印刷データをMFP100へ送信することで、その印刷データに基づく印刷物をMFP100で印刷することが可能である。
【0013】
尚、図1の構成は一例であり、オフィスAと同様の構成要素を有する、複数のオフィスがネットワーク104上に接続されていても良い。ネットワーク104は、インターネットやLANやWANや電話回線、専用デジタル回線、ATMやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線などである。または、これらの組み合わせにより実現されるいわゆる通信ネットワークで、データの送受信が可能であれば良い。また、クライアントPC101、プロキシサーバ103の各種端末は、汎用コンピュータに搭載される標準的な構成要素(例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークI/F、ディスプレイ、キーボード、マウスなど)を有する。
【0014】
次に、MFP100の詳細構成について、図2を用いて説明する。図2は本発明の実施例1のMFPの詳細構成を示す図である。
【0015】
MFP100は図2に示すように、ネットワークI/F204、スキャナ部200、プリンタ部201、操作部207、表示部208、コントローラ部209で構成される。また、コントローラ部209にはデータ処理部202、記憶部203、PDL処理部205、制御部206が含まれる。MFP内部における処理の流れを説明する。
【0016】
オートドキュメントフィーダ(ADF)を含むスキャナ部200は、入力原稿画像を光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスタ状の画像読取信号を所定密度(例えば、600DPI)の画像データとして得る。制御部206は、スキャナ部200で得られた画像データをデータ処理部202に送る。
【0017】
一方、クライアントPC101から出力されたPDLデータはネットワークI/F204経由でPDL処理部205が受信する。PDL処理部205は、そのPDLデータをレンダリング処理し、制御部206により、レンダリング処理されたPDLデータをデータ処理部202に送る。
【0018】
そして、データ処理部202は、受け取った入力信号をプリンタで出力するのに適するように画像処理を行い、記憶部204を介してプリンタ部201へ送る。
【0019】
また、ネットワークI/F204を介する送信機能は、スキャナ部200から得られる画像信号を、TIFFやJPEGなどの圧縮画像ファイル形式や、PDFなどのベクトルデータファイル形式の画像ファイルへ変換し、ネットワークI/F204から出力する。出力された画像ファイルは、LAN102を介してクライアント101へ送信されたり、更にネットワーク104経由でネットワーク上の外部端末(例えば、別のMFPやクライアントPC)に転送されたりする。
【0020】
MFP100へのユーザの指示は、MFP100に装備されたキー操作部やタッチパネルからなる操作部207及び表示部208から行われ、これら一連の動作は制御部206で制御される。また、操作入力の状態表示及び処理中の画像データの表示は、表示部208で行われる。
【0021】
記憶部203は、例えば、大容量のハードディスクで実現され、スキャナ部200で読み取った画像データや、PDL処理部205で処理されたPDLデータを記憶管理するデータベースを構成している。特に、本発明では、イメージデータと、そのイメージデータを領域分割することによって得られる領域情報を対応づけて管理することが出来る。
【0022】
次に、図3を用いて図2のデータ処理部202の構成と各構成部の処理の概要について説明を行う。
【0023】
データ処理部202は、領域分割部300、属性情報付与部301、文字認識部302、階層化レベル算出部303、オブジェクト用識別子生成部304、メタデータ抽出部305から構成される。そして、スキャナ部200やPDL処理部205から受けっとったデータに対して領域分割、オブジェクトのグループ化、メタデータ抽出処理などを行い、メタデータの付与されたデータを作成し、記憶部203へ送る。
【0024】
領域分割部300は、スキャナ部200やPDL処理部205から受けっとった画像文書を入力とし、領域を分割する。
【0025】
属性情報付与部301は、領域分割部300によって分割された領域ごとに属性情報を付与する。まず、領域内に文字が含まれているかによって文字領域とオブジェクト領域に分類する。文字領域には「章」、「節」、「本文」、「キャプション」、「サブキャプション」、「ヘッダー・フッター」「文字部」という属性を、オブジェクト領域に対しては「表」、「図」、「ノイズ」という属性を付与する。
【0026】
文字認識部302は、「本文」、「キャプション」、「サブキャプション」、「章」、「節」、「ヘッダー・フッター」、「文字部」といった属性が付与された文字領域に対して文字認識を行う。そして、その結果を対象領域に関連付けを行う。
【0027】
階層化レベル算出部303は、スキャナ部200やPDL処理部205から受けっとったデータサイズに応じて、階層化レベル(N)を決定する。階層化レベルとは、後述するオブジェクト用識別子生成時において、複数のオブジェクトを一つのグループとして識別する際の基準として利用する。階層化レベルを小さくすると、より詳細レベルでオブジェクトを分類することになるため、グループ化があまり行われない。一方、階層化レベルを高くすることで、より抽象的なまとまりでオブジェクトは分類される。
【0028】
オブジェクト用識別子生成部304では、関連するオブジェクトのグループ化を行い、それぞれのグループ化されたオブジェクトを識別するためのオブジェクト用識別子を生成と付与を行う。例えば、図4のようにオブジェクトがサブキャプションによって細分化されている場合、階層化レベルが最小であるとき(N=1のとき)には、オブジェクトの最小単位であるサブキャプションレベル(Fig1(a)とFig1(b))で比較を行う。その結果、グループ化が一切行われず、図4(a)に示すように2つのオブジェクト400と401がそれぞれ独立オブジェクトとして扱われる。ここで階層化レベルを一つ上げると(N=2のとき)、抽象度をあげてキャプションレベル(Fig1)で比較する。結果として、図4(b)に示すように2つのオブジェクト400と401が1つにグループ化され、あたかも1つのオブジェクト402であるかのように扱うことがきる。
【0029】
メタデータ抽出部305は、オブジェクトに付与されたキャプションと同一または同義表現を本文領域から検索する。もし見つかった場合には、オブジェクトを検索する際のメタデータとして本文中から抽出し、オブジェクト用識別子と関連付けして保存する。
【0030】
次に、図5で示すフローチャート図を参照して、本実施形態における第1の実施例の処理の流れならびに、各構成部の詳細な処理について説明する。
【0031】
まず、ステップS500で領域分割部300がスキャナ部200やPDL処理部205から受けっとった画像文書を領域ごとに分割する処理を行う。領域の抽出方法について、一例を説明すると、まず、入力画像をM×N画素毎に分割し、1画素でも画像が存在すれば、そこに画像があるとして間引き画像を作成する。次に、間引き画像が連結する部分をまとめ小矩形を作成していく。縦横比が、大きく短辺同士が接近している矩形は文字行である可能性が高いので、この場合は矩形同士を結合する。また、短辺の長さがほぼ同じで、ほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので結合する。その結果、例えば、図6に示すような領域410から領域419が抽出される。
【0032】
ステップS501では属性情報付与部301が分割されたそれぞれの領域に対して、図、表、本文、キャプションなどの属性を付与する。まず、文字が含まれているか否かを判断し、文字領域(文字が含まれる領域)と、オブジェクト領域(文字領域以外)に分類する。続いて文字領域とオブジェクト領域を詳細に分類する。
【0033】
オブジェクト領域に対しては、領域が小さい部分を「ノイズ」、画素密度の小さい部分を「表」、それ以外を図や写真であるとして「図」といった属性を付与する。
【0034】
一方、文字領域については、複数の小矩形を結合して作成された領域は本文部である可能性が高いと判断され、「本文」の属性を付加する。また、「表」や「写真」という属性が付与されたオブジェクトの近傍に存在している文字領域は、そのオブジェクトを説明する「キャプション」として属性が付与される。ここでキャプションの近傍にさらに小さな文字領域が存在していた場合、キャプションをさらに説明するキャプションであるとして、「サブキャプション」「キャプション」という関係性に再分類する。残りの領域に対しては 、本文部との位置関係や、文字サイズ、文字列の行間によって、「章」、「節」、「ヘッダー・フッター」、「文字部」などの属性を付与する。
【0035】
以上の分類をもとに図6を分類した結果を示すと、領域410は節、領域411〜領域413は図、領域414および領域415はキャプション、領域416および領域417はサブキャプション、領域418は本文、領域419はページという属性が付与される。
【0036】
ステップS502では、文字認識部302において、本文やキャプションなどの属性が付与された文字領域に対して文字認識処理を行い、文字領域と関連付けをして保持する。これにより、画像文書中の文章を検索することが出来るようになる。
【0037】
ステップS503では、後述するオブジェクト用識別子生成処理S507で必要となる階層化レベルNを階層化レベル算出部303により決定する。階層化レベルを小さくすると、詳細な単位でオブジェクトとメタデータの関係を保持するため、ファイルサイズが必然的に大きくなる。そこで、スキャナ部200やPDL処理部205から受けっとったデータサイズに応じて、階層化レベルNを段階的に決定する。判定基準は、例えば図7のようにページ数が5ページ以下ならN=1,10ページ以下ならN=2、それ以上ならN=3として決定する。あるいはファイルの容量や画像文書中に含まれるオブジェクトの個数などを判定条件にしてもよい。もちろん、これらを複合的に組み合わせて判定してもよい。また、階層化の最大レベルはここでは3としているが、自由に設定することも可能である。ただし、最大レベルを大きくしすぎてしまうと、本来は関連のないオブジェクトであっても、抽象度を上げすぎてしまったためにグループ化され、検索効率を落とす可能性もあるため、最大3〜5程度が適切であると思われる。
【0038】
続いてオブジェクト用識別子生成部304において、関連するオブジェクトをグループ化し、それぞれに対して固有のオブジェクト用識別子を生成する。まず、ステップS504でキャプション属性の付与されたオブジェクト領域を検出する。検出されなかった場合はステップS508に進む。検出された場合は、全てのオブジェクトに対して階層構造を分析し(ステップS505)、ステップS503で得られた階層化レベルに応じてオブジェクトをグループ化し(ステップS506)、グループごとに固有のオブジェクト用識別子を算出して付与する(ステップS507)。
【0039】
図6に対して、オブジェクトの階層構造を分析した結果を図8に示す。
【0040】
ステップS504でキャプション属性の付与されたオブジェクト領域を検出すると、オブジェクト領域411〜413が該当する。そこで、この3つの領域に対して、レイアウト構造や論理構造を解析し、階層的にキャプションとなる文字列を検出する(ステップS505)。オブジェクト領域412を例に構造化の様子を説明する。まず、オブジェクト領域412には詳細な説明を付与するサブキャプションとして「Fig2(a)」というオブジェクト領域416が存在する。これを第1階層とする。第2階層では、「Fig2」というキャプションを持つオブジェクト領域415がサブキャプションをもつオブジェクトを総括していることが分かる。第3階層では、オブジェクト領域412は「1.1 XX」という節(オブジェクト領域410)に含まれた図としてみなされ、第4階層になると「Page1」(オブジェクト領域419)という単位に属することがわかる。同様の処理をオブジェクト411、オブジェクト413に関して解析を行った結果が図8である。
【0041】
ステップS506では、この解析結果と、前述の階層化レベル算出部303で算出された階層化レベル(N)を比較し、キャプションが同一もしくは同義であるオブジェクトを、関連性があると判定してグループ化を行う。そして、各グループに固有のオブジェクト用識別子を生成し、付与する(ステップS507)。例えば、階層化レベルN=1のときは、第1階層において付与されているキャプションで比較をするため、それぞれのオブジェクトが独立したものと判定される。その結果、オブジェクト用識別子ID=1,2,3が生成され、それぞれに付与される。また階層化レベルN=3のときは、第3階層で比較を行うため、すべてのオブジェクトに対して「1.1 XX」というキャプションが付与されていることが分かる。その結果、3つのオブジェクトを1つのグループとして統合し、共通のオブジェクト用識別子ID=1を生成し、それぞれのオブジェクトに付与する。
【0042】
その後、メタデータ抽出部305において、グループ化されたオブジェクトに付与されたキャプションと同一または同義表現を本文領域から検索する(ステップS508)。見つからなかった場合はステップS511へ進む。もし見つかった場合には、ステップS509へ進み、オブジェクトを検索する際のメタデータとして本文中から抽出する。そして、オブジェクト用識別子と関連付けして保存する(ステップS510)。例えば、階層化レベルN=3の場合は、3つのオブジェクト領域に付与されているキャプション全てを本文中から検索し、該当したキーワードを抽出し、重複キーワードを削除したものをメタデータとして付与する(図9参照)。
【0043】
ステップS511で、入力画像文書に抽出されたメタデータを付与した画像文書を生成する。フォーマットは、オブジェクトにメタデータを関連付けすることが可能なフォーマット(例えば、PDF、XPS、OOXML)である。(「PDF」「XPS」は登録商標)
図14にメタデータを付与したフォーマットを作成した一例を示す。
【0044】
図の属性をもつオブジェクト領域411〜413は、フォーマット要素800〜803にそれぞれ対応する。そして、領域分割部300で分割された領域の位置(Position)やサイズ(Size)などの情報と、オブジェクト用識別子生成部304で生成されたオブジェクト用識別子(ID)を保持する。また文字領域、例えば、本文属性をもつ本文領域418はフォーマット要素803として、領域分割部300で分割された領域の位置(Position)やサイズ(Size)などの情報と、文字認識部302で認識された文字列情報(Data)が記述される。オブジェクトに付随するメタデータはオブジェクトとは独立して記述される(804〜807)。そしてメタデータにはキャプションと本文中から抽出されたキーワードが関連付けられて記述される。このとき、メタデータの番号とオブジェクト領域中に書き込まれたオブジェクト用識別子(ID)が対応することになる。
【0045】
図14(a)は、階層化レベルN=1の場合を示している。N=1のときはオブジェクト411〜413が異なるオブジェクト用識別子(ID=1,2,3)を持ち、それぞれが個別のメタデータ804〜806を参照している。一方、図14(b)は、階層化レベルN=3の場合であり、3つのオブジェクト411〜413が共通のオブジェクト用識別子(ID=1)を持ち、1つのメタデータ807を参照するというフォーマットになる。
【0046】
オブジェクトをキーワード検索するときには、メタデータとして付与されている情報804〜807に対して検索をかける。そのため、階層化レベルN=1の場合には各メタデータからキーワードが検出され、それに対応した画像が個別の結果として出力される。一方、階層化レベルN=3の場合には、検索されるメタデータは1つなので、対応した画像が同時に検索結果として得られることになる。これにより、あたかも一つのオブジェクトを保持しているように、複数のオブジェクトをグループ化して取り扱うことが出来る。
【0047】
最後に、前述したメタデータを検索キーワードとしてオブジェクトを検索する例について説明する。図10にオブジェクトを検索するためのViewerの一例を示す。例えばAdobeのAcrobatReaderなどがあげられる。
【0048】
Viewer600でメタデータの付与されたデータを開くと文書表示ウィンドウ601内に表示される。検索キーワード入力欄602に検索する語句「XX」を入力すると、画像の検索結果一覧が検索結果表示欄603に表示される。ここでは3つのオブジェクトが検索結果としてヒットしている。そして、検索結果1を選択すると、オブジェクト領域411が該当箇所として表示される様子を示している。検索語句「XX」でオブジェクト領域を検索出来る理由については、前述したようにメタデータ「XX」が、オブジェクト領域411を指し示すオブジェクト用識別子と関連付けられているためである。
【0049】
図11は階層化レベル(N)による検索結果と各オブジェクト用識別子に付与されたメタデータを説明する図である。図11(a)〜(c)はそれぞれ、キーワード「XX」を階層化レベルN=1,N=2,N=3の場合に検索したときの検索結果ならびにメタデータを示している。
【0050】
階層化レベルN=1とした場合(図11(a))には3つのオブジェクトがそれぞれ異なるオブジェクト用識別子が割り当てられ、XXというキーワードを持っている。そのため、3個の検索結果が得られる。一方、階層化レベルをN=3とした場合(図11(c))には3つのオブジェクトが1グループに統合され、画像を検索した場合には文書表示ウィンドウ601中に3つが統合された状態で表示される。
【0051】
階層化レベルを小さく設定することにより、詳細レベルで画像の検索が出来ることになる。しかし、ページ数が多くなってきた場合にはヒットする結果も増えてきてしまい、所望の結果を見つけるのに時間を要してしまう。一方、階層化レベルを大きくすることで詳細な検索は出来なくなってしまうものの、大きなまとまりで検索が出来るため、ページ数が増えた場合にもヒットする個数を大幅に減らすことが出来る。結果として所望の画像が含まれている領域を簡単に見つけることが出来るようになる。
【0052】
また、階層化レベルNを大きくすることで、重複していたキーワードを削除することが出来るため、ファイルサイズも小さく抑えることも出来る。
【0053】
(実施例2)
実施例1ではグループ化する階層化レベルを入力データに応じて自動的に算出して、オブジェクトのグループ化とメタデータ抽出・付与を行う方法について説明を行った。しかし、オブジェクトのグループ化などが自動で行われてしまうと、ユーザの所望の動作と反してしまうことがある。そこで、実施例2では、ユーザがファイルサイズやグループ化の階層化レベルを自由に設定出来る仕組みを提供する。
【0054】
図12に操作部207における操作画面700の一例を示す。操作画面700にはファイルサイズを設定するためのスライダーバー701と階層化レベルを設定するためのスライダーバー702が設けられている。初期状態としてはオブジェクトをグループ化しないようにするために、階層化レベルを最小(N=1)として設定してある。ユーザは2つのスライダーバー701と702を操作して所望のデータ出力設定を行い、OKボタン704を押すことで、MFP100内の制御部206が階層化レベル算出部302へ設定内容を転送する。なお、Cancelボタン703を押すことで操作を取り消すことが可能である。階層化レベル算出部303は受信した設定内容に応じて階層化レベルNを算出する(図13参照)。
【0055】
階層化レベル算出処理以外は、実施例1と同様の処理のため、説明を省略する。
【0056】
(実施例3)
本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体などとしての実施態様をとることが可能である。具体的には、複数の機器を含むシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0057】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給する。そして、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
【0058】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0059】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータなどの形態であっても良い。
【0060】
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスクがある。また、更に、記録媒体としては、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
【0061】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、その接続先のホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスクなどの記録媒体にダウンロードすることによっても供給出来る。また、本発明のプログラムのプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
【0062】
また、本発明のプログラムを暗号化してCD−ROMなどの記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0063】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。また、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【0064】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
【特許請求の範囲】
【請求項1】
入力文書を領域に分割する領域分割部300と、
前記分割領域に属性情報を付与する属性情報付与部301と、
文字領域に対して文字情報を得るための文字認識部302と、
前記オブジェクトをグループ化する際の階層化レベルを算出する階層化レベル算出部303と、
前記オブジェクトを、前記階層化レベルにおいて同一のキャプションをもつグループで統合し、該グループごとに個別の識別子を生成するオブジェクト用識別子生成部304と、
前記オブジェクトに付随するキャプションを前記入力文書より検出することで、該オブジェクトに関連するメタデータを抽出し、前記オブジェクト用識別子と前記メタデータを関連付けして記憶領域に記憶するメタデータ抽出部305
を備える画像処理装置。
【請求項2】
前記階層化レベル算出部303は、前記入力文書のデータサイズに応じてオブジェクトをグループ化するレベルを自動的に算出することが可能であることを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記階層化レベル算出部303は、ユーザの設定に応じてオブジェクトをグループ化するレベルを段階的に変更させることが可能であることを特徴とする請求項1に記載の画像処理装置。
【請求項4】
前記アンカー用識別子生成部304は、オブジェクトに付随されたキャプション情報または章または節の論理構造に基づき、前記階層化レベル算出部303で決められた階層化レベルで同一または類似表現が含まれるオブジェクトを同一のグループとして認識し、前記グループごとに特有の識別子を付与することを特徴とする請求項1から請求項3に記載の画像処理装置。
【請求項5】
前記属性情報解析部301は、文字領域に対しては、章、節、本文、キャプションのいずれかの属性を付与し、文字以外のオブジェクト領域に対しては表、写真、図面、線画のいずれかの属性を付与することを特徴とする請求項1に記載の画像処理装置。
【請求項6】
前記メタデータ抽出部305は、オブジェクトに付随されたキャプションと同一または類似表現が含まれる一文あるいはキーワードを本文中より検索し、メタデータとしてオブジェクトに付与することを特徴とする請求項1に記載の画像処理装置。
【請求項1】
入力文書を領域に分割する領域分割部300と、
前記分割領域に属性情報を付与する属性情報付与部301と、
文字領域に対して文字情報を得るための文字認識部302と、
前記オブジェクトをグループ化する際の階層化レベルを算出する階層化レベル算出部303と、
前記オブジェクトを、前記階層化レベルにおいて同一のキャプションをもつグループで統合し、該グループごとに個別の識別子を生成するオブジェクト用識別子生成部304と、
前記オブジェクトに付随するキャプションを前記入力文書より検出することで、該オブジェクトに関連するメタデータを抽出し、前記オブジェクト用識別子と前記メタデータを関連付けして記憶領域に記憶するメタデータ抽出部305
を備える画像処理装置。
【請求項2】
前記階層化レベル算出部303は、前記入力文書のデータサイズに応じてオブジェクトをグループ化するレベルを自動的に算出することが可能であることを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記階層化レベル算出部303は、ユーザの設定に応じてオブジェクトをグループ化するレベルを段階的に変更させることが可能であることを特徴とする請求項1に記載の画像処理装置。
【請求項4】
前記アンカー用識別子生成部304は、オブジェクトに付随されたキャプション情報または章または節の論理構造に基づき、前記階層化レベル算出部303で決められた階層化レベルで同一または類似表現が含まれるオブジェクトを同一のグループとして認識し、前記グループごとに特有の識別子を付与することを特徴とする請求項1から請求項3に記載の画像処理装置。
【請求項5】
前記属性情報解析部301は、文字領域に対しては、章、節、本文、キャプションのいずれかの属性を付与し、文字以外のオブジェクト領域に対しては表、写真、図面、線画のいずれかの属性を付与することを特徴とする請求項1に記載の画像処理装置。
【請求項6】
前記メタデータ抽出部305は、オブジェクトに付随されたキャプションと同一または類似表現が含まれる一文あるいはキーワードを本文中より検索し、メタデータとしてオブジェクトに付与することを特徴とする請求項1に記載の画像処理装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2011−28503(P2011−28503A)
【公開日】平成23年2月10日(2011.2.10)
【国際特許分類】
【出願番号】特願2009−173376(P2009−173376)
【出願日】平成21年7月24日(2009.7.24)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成23年2月10日(2011.2.10)
【国際特許分類】
【出願日】平成21年7月24日(2009.7.24)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]