説明

画像処理装置、画像処理方法、コンピュータプログラム

【課題】 オブジェクトをキーワード検索可能な電子文書の生成において、検索時にユーザが識別しやすい強調表現が可能となる電子文書データを作成できるようにする。
【解決手段】 本発明によれば、入力画像から、文字・写真・線画・表などのオブジェクト領域を得て、当該オブジェクトに関連付けるべきメタデータを取得する。透明なグラフィックス記述を生成するように設定されている属性のオブジェクト領域に関して、透明なグラフィックス記述を生成し、透明なグラフィックス記述と対応するメタデータとを関連付けた電子文書を生成する。透明なグラフィックス記述は任意形状の図形の記述を用いることも可能となる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書画像からオブジェクト検索可能な電子文書データを生成する画像処理装置、画像処理方法、コンピュータプログラムに関する。
【背景技術】
【0002】
従来、文書画像中の文字以外のオブジェクト(例えば、写真、図面、線画、表等)についても利用しやすくするために、当該オブジェクトを検索できるようにすることが考えられている。以下、オブジェクトは、特に記載がない限り文字を除くオブジェクトのことを示すものとする。
【0003】
例えば、まず、文書画像からオブジェクトを抽出し、当該オブジェクトの近傍にキャプション文字列(オブジェクトを説明する文字列)があるかどうか判断する。キャプション文字列がある場合、該オブジェクトに当該キャプション文字列をメタデータとして関連付けすることで、該オブジェクトを検索できるようにすることが考えられている。そして、メタデータが関連付けられた各オブジェクトをJPEG圧縮などして、1つの電子文書に格納しておく。このような電子文書をアプリケーション側で利用する場合、該メタデータを検索キーワードとしてオブジェクトを検索することが可能となる。
【0004】
また、オブジェクトに隣接するキャプションが図番(例えば、「図1」や「第1図」等)である場合、一般的な文書画像では、オブジェクトの説明のために同じ図番の文字列が本文にも記載されている。すなわち、キャプションに記載されている図番と同一表現が本文内にも記述されている。特許文献1では、キャプション中の図番と本文中の図番との間にリンクを自動的に生成し、ハイパーテキスト化することが開示されている。例えば、オブジェクトに隣接するキャプションに図番「図1」が含まれ、本文中に「図1は、AAAである」という記載がある場合、キャプション「図1」と本文中の「図1」との間に、ハイパーリンクが生成される。また、オブジェクトとそれに関連する本文との間にリンクを自動的に生成し、ハイパーテキスト化することも記載されている。
【0005】
一方、MFPにおいて、スキャン入力された文書画像に対して、画像処理及びフォーマット変換処理を施して電子文書を生成し、ネットワークを介してPCへ送信する送信機能が知られている。画像処理としては、文書画像内の文字画像に対して文字認識処理を行って文字コードを取得する処理や、文書画像内の図形をベクトルデータに変換するベクトル化処理などを行うようにすることができる。そして、フォーマット変換処理では、それらの画像処理を行った後のデータを用いて、所定の電子文書フォーマット(例えば、PDF)へ変換して電子文書ファイルを生成する。
【0006】
特許文献2では、文字認識結果を透明テキスト(描画色として透明色を指定するなどして、不可視な状態で描画された文字コード)として画像ファイル中に埋め込み、PDFやXPSなどの電子文書フォーマットへと変換する。このように作成された電子文書ファイルを表示させると、文書画像内の文字画像上に透明テキストが描画されることになる。ここで、ユーザがキーワード検索を行うと透明テキストが検索されるが、ユーザにとって透明テキスト自体は見えていないので、あたかも文書画像内の文字画像部分が検索されているかのように見えることになる。このように、検索キーワードに対応する文字画像部分が強調された状態で表示されるので、ユーザは効率よく記載部分を識別することができる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平10−228473号公報
【特許文献2】特開2009−009526号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
一方、文字以外のオブジェクトを検索できるように、キャプション文字列をメタデータとしてオブジェクトに付与した電子文書において、キーワード検索をおこなった際に、検索結果のオブジェクトが強調表示されるようにすることが望まれている。
【0009】
しかしながら、検索対象となるオブジェクトは、写真、図、表などであり、色・形状ともに多種多様であるので、場合によっては強調効果が目立たず、ユーザが検索でヒットしたオブジェクトを特定するのが困難な場合がある。例えば、検索されたオブジェクトの輪郭を赤で着色するような強調方式であるときに、赤色を多く含む写真のオブジェクトが検索されると、検索結果の強調表示が目立たなくなってしまう。すなわち、ユーザにとっては、検索でヒットしたオブジェクトを特定することが非常に困難になってしまう。
【0010】
また、生成される電子文書データがネットワークを介して送信される場合など、電子文書データのデータサイズを削減することも望まれている。しかしながら、文書画像から抽出した写真などの各オブジェクトを個別に圧縮し、背景の画像データとともに1つの電子ファイルに格納する場合、元の1枚の文書画像を圧縮したファイルよりもファイルサイズが大きくなりやすい。すなわち、写真入りの文書画像を送信する場合、抽出した写真オブジェクトと背景とをそれぞれ別の圧縮画像データとして保持するよりも、写真部分と背景の全体を含む全体画像を1枚の圧縮画像データにした方が総データサイズを小さくできることが多い。なぜなら、そのようなデータは画像情報と圧縮のためのヘッダ情報から構成されており、オブジェクトのデータ数が多くなるとデータ個数分のヘッダ情報が重複して保持されることになるからである。特に、高度な画像圧縮方式ほど、圧縮のためのヘッダ情報が大きくなる傾向がある。したがって、写真などのオブジェクトを多数含む文書画像から電子文書ファイルを生成する場合には、各オブジェクトを別々に圧縮するよりも1枚の画像として圧縮する方が、総データサイズ削減のためには適している。例えば、画像データをJPEG圧縮したストリームとして保持する場合、各ストリームはヘッダ情報として、展開のための量子化テーブル、ハフマンコードなど700byte以上を必ず伴う。もし1ページに写真が100個含まれる画像の場合、写真と背景の両方を1枚の画像データとして圧縮すれば、背景と写真で計101個の画像データを個別に圧縮するよりも、1ページあたり70Kbyte以上のサイズ削減が可能である。しかしながら、オブジェクトと背景とを1枚の画像データとして圧縮すると、検索対象のオブジェクトが背景と同化した状態で電子文書データ化されてしまう。そのため、検索時にオブジェクトを特定して強調させることが困難となっていた。
【課題を解決するための手段】
【0011】
上記課題を解決するために、本発明の画像処理装置は、入力画像からオブジェクト領域を得る領域分割手段と、前記領域分割手段で得たオブジェクト領域の属性を判定する判定手段と、前記領域分割手段で得たオブジェクト領域に関連付けるべきメタデータを取得するメタデータ処理手段と、透明なグラフィックス記述を生成するように設定された属性を有するオブジェクト領域について、透明なグラフィックス記述を生成するグラフィックス記述生成手段と、前記グラフィックス記述生成手段で生成された透明なグラフィックス記述と前記メタデータとを関連付けて、前記入力画像に基づき生成される画像データと、当該メタデータに関連付けられた透明なグラフィックス記述とを含む電子文書を生成する電子文書生成手段と、を備えることを特徴とする。
【発明の効果】
【0012】
文字以外のオブジェクトをキーワード検索可能な電子文書データの作成処理において、検索対象オブジェクトの形状や色、画像圧縮状態などに依存せず、検索時にユーザが識別しやすい強調表現が可能となる電子文書データを作成することができる。
【図面の簡単な説明】
【0013】
【図1】本発明に係る画像処理システムを示すブロック図である
【図2】図1におけるMFP100を示すブロック図である
【図3】図2のデータ処理部218の構成例を示すブロック図である
【図4】本発明の画像処理システムで実行する処理概要を説明するフローチャートである
【図5】図3のフォーマット変換部305の構成例を示すブロック図である
【図6】領域の抽出例を示す図である
【図7】記憶部211に保存される情報の例である
【図8】図3のフォーマット変換部305の制御情報である対応テーブルの例である
【図9】本発明の実施例の入力イメージデータの例である
【図10】図9のイメージデータ例から抽出された情報の例である
【図11】本発明で出力される電子文書データの例である
【図12】図3のメタデータ処理部304の処理を説明するフローチャートである
【図13】図3のフォーマット変換部305の処理を説明するフローチャートである
【図14】電子文書データを閲覧・検索するアプリケーションの表示例である
【図15】キャプション領域のアンカー文字列とメタデータ文字列の例である
【図16】図9のイメージデータの1ページ目を入力した場合に生成されるグラフィックスデータの例である
【図17】電子文書フォーマットによるページ記述の例である
【図18】出力電子文書データの例である
【図19】本発明の実施例2における図3のフォーマット変換部305の処理を説明するフローチャートである
【図20】本発明の実施例2における電子文書データの目的に関するUI画面の一例である
【図21】本発明の実施例3における透明枠記述に関するUI画面の一例である
【図22】本発明の実施例4における顔認識の構成例を示すブロック図である
【図23】本発明の実施例4における図2のデータ処理部218の構成例を示すブロック図である
【図24】本発明の実施例4における電子文書データを閲覧・検索するアプリケーションの表示例である
【発明を実施するための形態】
【0014】
(実施例1)
以下、本発明の実施形態について図面を用いて説明する。
【0015】
図1は本実施例の画像処理システムの構成を示すブロック図である。
図1において、オフィスA内に構築されたLAN102に、複数種類の機能(複写機能、印刷機能、送信機能等)を実現する複合機であるMFP(Multi Function Peripheral)100が接続されている。LAN102は、プロキシサーバ103を介して外部ネットワーク104にも接続されている。クライアントPC101はLAN102を介してMFP100からの送信データを受信したり、MFP100が有する機能を利用したりする。例えば、クライアントPC101は、印刷データをMFP100へ送信することで、その印刷データに基づく印刷物をMFP100で印刷することもできる。尚、図1の構成は一例であり、オフィスAと同様の構成要素を有する、複数のオフィスがネットワーク104上に接続されていても良い。また、ネットワーク104は、典型的にはインターネットやLANやWANや電話回線、専用デジタル回線、ATMやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線などで実現される通信ネットワークである。これは、データの送受信が可能なものであれば、何でも良い。また、クライアントPC101、プロキシサーバ103の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素(例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等)を有している。
【0016】
図2は本実施例の画像処理装置であるMFP100の詳細構成を示す図である。
MFP100は、画像入力デバイスであるスキャナ部201と、画像出力デバイスであるプリンタ部202と、CPU205等で構成される制御ユニット204と、ユーザインタフェースである操作部203等を有する。制御ユニット204は、スキャナ部201、プリンタ部202、操作部203と接続し、一方では、LAN219や一般の電話回線網である公衆回線(WAN)220と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。CPU205は、制御ユニット204に含まれる各ユニットを制御する。RAM206はCPU205が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ROM210はブートROMであり、システムのブートプログラム等のプログラムが格納されている。記憶部211はハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。操作部I/F207は操作部(UI)203とのインターフェース部で、操作部203に表示するための画像データを操作部203に対して出力する。また、操作部I/F207は操作部203から本画像処理装置の使用者が入力した情報を、CPU205に伝える役割をする。ネットワークIF208は本画像処理装置をLAN219に接続し、パケット形式の情報の入出力を行う。モデム209は本画像処理装置を公衆回線220に接続し、データの復調・変調を行うことにより情報の入出力を行う。以上のデバイスがシステムバス221上に配置される。
【0017】
イメージバスインターフェース212はシステムバス221と画像データを高速で転送する画像バス222とを接続し、データ構造を変換するバスブリッジである。画像バス222は、例えば、PCIバスやIEEE1394で構成される。画像バス222上には以下のデバイスが配置される。ラスターイメージプロセッサ(RIP)213はPDL(ページ記述言語)コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。この展開する際には、各画素単位あるいは領域単位で属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定より、画素毎にあるいは領域毎に、文字(テキスト)や線(ライン)、グラフィクス、イメージなどといったオブジェクト種類を示す属性情報が付与される。たとえば、PDLコード内のPDL記述のオブジェクトの種類に応じて、RIP213から像域信号が出力され、その信号値で示される属性に応じた属性情報が、オブジェクトに対応する画素や領域に関連づけて保存される。したがって画像データには、関連づけられた属性情報が付属している。デバイスI/F部214は、信号線223を介して画像入力デバイスであるスキャナ部201、信号線224を介して画像出力デバイスであるプリンタ部202、をそれぞれ制御ユニット204に接続し、画像データの同期系/非同期系の変換を行う。スキャナ画像処理部215は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部216は、プリンタ部202に出力すべきプリント出力画像データに対して、プリンタ部202に応じた補正、解像度変換等を行う。画像回転部217は入力された画像データが正立するように回転を行い出力する。データ処理部218については後述する。
【0018】
次に、図3を用いて、データ処理部218の詳細説明を行う。データ処理部218は、領域分割部(領域抽出部)301、属性情報付加部302、文字認識部303、メタデータ処理部304、フォーマット変換部305から構成される。データ処理部218は、スキャナ部でスキャンしたイメージデータ300が入力されてくると、各処理部301〜305で処理を行うことにより、電子文書データ310を生成して出力する。
【0019】
領域分割部301には、図2のスキャナ部201でスキャンされたイメージデータ、あるいは記憶部211に保存されているイメージデータ(文書画像)が入力される。そして、文字、写真、図、表などページ内に配置されたオブジェクトの領域(オブジェクト領域)を抽出するために、データ中の画素の抽出・グループ化等の処理をおこなう。
【0020】
この際の領域抽出方法(領域分割方法)としては、公知の方法を用いればよい。一例を説明すると、まず、入力画像を2値化して2値画像を生成し、2値画像を低解像度化して間引き画像(縮小画像)を作成する。例えば、1/(M×N)の間引き画像を作成する際には、2値画像をM×N画素毎に分割し、M×N画素内に黒画素が存在すれば縮小後の対応する画素を黒画素とし、存在しなければ白画素とすることにより、間引き画像を作成する。次に、間引き画像において黒画素が連結する部分(連結黒画素)を抽出して当該連結黒画素に外接する矩形を作成していく。文書画像内に含まれている文字画像サイズに近い矩形(1文字の矩形)が並んでいる場合や、縦横のどちらかが文字画像サイズに近い矩形(数文字が繋がった連結黒画素の矩形)で短辺の近くに同様の矩形が並んでいる場合は、1つの文字行を構成している文字画像である可能性が高い。この場合は矩形同士を結合して、1つの文字行を表す矩形を得る。そして、1つの文字行を表す矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので結合して本文領域を抽出する。また、写真領域や図領域や表領域は、文字画像よりも大きいサイズの連結黒画素により抽出される。その結果、例えば、図6の601から605に示す領域が抽出されることとなる。なお、各領域の属性は、後述するように、そのサイズや縦横比や黒画素密度や、連結黒画素内部に含まれる白画素の輪郭追跡結果などに基づいて判断される。
【0021】
属性情報付加部302は、領域分割部301で分割された領域毎に属性を付加する。図6を入力イメージデータの例として処理動作を説明すると、領域605は、そのページ内で文字数や行数がある程度あり、文字数、行数、段落などの形態を保有する点から、総合的に判定して、『本文』の属性を付加する。残りの領域については、まず、文字画像サイズに近い矩形が含まれている領域か否かを判断する。特に、文字画像が含まれている領域は、領域内で文字画像の矩形が周期的に現れるので、領域内に文字が含まれている領域であるか否かを判断することができる。その結果、領域601、領域604、は文字が含まれる領域として、『文字領域』の属性を付加する。ただし、こちらは、文字数、行数、段落などの形態を持たない点から、『本文』の属性を付加されないことになる。一方、それ以外の領域については、領域の大きさが非常に小さければ『ノイズ』と判定する。また、画素密度が小さい連結黒画素について、その内部の白画素輪郭追跡を行ったときに、その白画素輪郭の外接矩形が整然と並んでいる場合は当該領域を『表』と判断し、整然と並んでいない場合は『線画』と判定する。また、それ以外の画素密度の高いものは絵や写真であるとして『写真』の属性を付加する。
【0022】
更に、本文でないと判断された文字領域については、『表』または『線画』または『写真』の属性が付加された領域の近傍(領域の上または下)に存在する場合、当該『表』・『線画』・『写真』の領域を説明する文字領域であると判断し、『キャプション』の属性を付加する。尚、『キャプション』を付加する領域は、その『キャプション』が付随する領域(表/線画/写真)を特定できるように、付随する領域と関連付けて保存する。また、本文部の文字画像より大きく、本文部の段組とは異なる位置にあれば『見出し』の属性を付加する。また、本文部の文字画像より大きく、本文部の段組の上部に存在すれば、属性を『小見出し』とする。更に、本文部の文字画像のサイズ以下の文字画像で、原稿の下端部や上端部に存在すれば『ページ』(もしくは、「ページヘッダ」、「ページフッタ」)の属性を付加する。また、文字領域として判断されたが、『本文』、『見出し』、『小見出し』、『キャプション』、『ページ』のどれにも当てはまらなかった場合、『文字』の属性を付加する。
【0023】
以上のような属性情報付加処理を行うと、図6の例では、領域601は『見出し』、領域602は『表』、領域603は『写真』、領域604は領域603に付随する『キャプション』、領域605は『本文』の属性が付加されることとなる。
【0024】
文字認識部303は、属性『文字』、『本文』、『見出し』、『小見出し』、『キャプション』が付加された領域(すなわち文字画像を含む領域)について、公知の文字認識処理を実行し、その結果となる文字コード列を文字情報として格納するとともに対象領域に関連付けを行う。
【0025】
このように、領域分割部301、属性情報付加部302、文字認識部303において抽出された、領域の位置や大きさや領域属性の情報、ページ情報、文字認識結果の文字情報(文字コード情報)は、記憶部211に保存される。図7は、図6の入力イメージデータ例を処理した場合に記憶部211に保存される情報の例を示す。なお、図6および図7では詳細な説明を省略しているが、表内の文字画像の領域に関しては、『表内文字』の属性を付与して文字認識処理を行って、図7のように情報を保存しておくのが望ましい。
【0026】
メタデータ処理部304は、属性情報付加部302で検出されたキャプションが付随するオブジェクト(写真、線画、表などのオブジェクト)に対し、当該オブジェクトを検索するための情報としてメタデータを関連づけて記憶部211に保管する。本実施形態では、当該オブジェクトのキャプションに記載されている文字列と、当該キャプションの文字(単語)と同じ文字(単語)が記載されている本文中の個所(文章)とが、オブジェクト検索用のメタデータとして関連付けられるように構成する。本実施形態では、メタデータとして使用する文字列を決定するために、キャプション用識別子を用いるものとする。これは、キャプションが付随するオブジェクトと、キャプションおよび本文の文字情報を対応づけるためのものである。このキャプション用識別子としては、オブジェクトを識別するためのID(識別情報)や、キャプションおよび本文の文字情報の格納位置を指定する位置情報(記録位置を示すアドレスやポインタ)や、参照情報(例えばXMLPathやURL)など様々な識別子を用いることが可能である。本実施例では、1ページまたは複数ページを入力とする一連の処理において、キャプション付きのオブジェクトを一意に識別するためのIDを用いるものとし、例えば、通し番号のようなものを使用することとする。
【0027】
そこで、まず、メタデータ処理部304では、属性情報付加部302で検出されたキャプションが付随するオブジェクトに対して、それらを一意に特定する為のキャプション識別子を作成し、この識別子を当該オブジェクトに付与する処理を行う。
【0028】
次に、文字認識部303が出力したキャプションおよび本文の文字情報から、オブジェクトに対する説明文、キーワード等に相当するメタデータ文字列を抽出して、これに対して、対応するキャプション識別子を関連付けて記憶部211に保管する処理を行う。この際に、キャプションが付随するオブジェクトとメタデータ文字列の組み合わせに対して、その対応がわかるようにユニークなIDを付加することで、その対応を表現するのである。
【0029】
これにより、メタデータ処理部304は、属性情報付加部302で検出されたキャプションが付随するオブジェクトに対し、そのメタデータを関係づけて、情報として記憶部211に保管することを実現する。
【0030】
フォーマット変換部305は、入力されたイメージデータ300、及び、領域分割部301と属性情報付加部302と文字認識部303とメタデータ処理部304とから得られた情報(例えば、領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報、メタデータ)を用いて、所定の電子文書フォーマット(例えば、PDF、SVG、XPS、OfficeOpenXMLなど)へ変換する処理をおこなう。フォーマット変換で生成される電子文書は、グラフィックスなどによるページ表示情報(表示用画像など)と、文字などの意味記述による内容情報(メタデータなど)を含むことになる。
【0031】
図5はフォーマット変換部305の構成例を示すブロック図である。画像フィルタ部501は入力された画像データに対して、平坦化やスムージング、エッジ強調、色量子化、二値化などのフィルタ処理を施す。ベクトル変換処理部502は、画像データ(例えば、線画属性が付与された領域に対応する部分の画像)をベクトルパス記述のグラフィックスデータ(ベクトルデータ)へと変換する。ベクトルデータへ変換する技術は公知のベクトル化技術を用いることが可能である。画像切り出し処理部503は、画像データ(例えば、写真属性が付与された領域に対応する部分の画像)を、画像パーツのグラフィックスデータ(例えばJPEGデータ)として切り出す。電子文書記述処理部504では、ベクトル変換処理部502および画像切り出し処理部503の出力するグラフィックスデータと、文字認識部303やメタデータ処理部304で得た文字情報やメタデータなどの意味記述とを、所定フォーマット形式で記述し電子文書を生成する。フォーマット変換制御部505は、図2の記憶部211に保管されている領域情報(位置、大きさ、属性)511、領域内の文字情報512、メタデータ513とに基づいて、イメージデータ300中の各領域を適切な処理部501〜503へと配分し、各処理部から出力されたデータが電子文書記述部504で統合されるように、フォーマット変換部305全体の制御をおこなう。
【0032】
以下に501〜504の各処理部の処理内容例について説明する。
【0033】
画像フィルタ処理部501は、画像に対して、平坦化、スムージング、エッジ強調、色量子化、二値化などいずれも公知の画像フィルタを施す処理部であり、ベクトル変換処理部502や画像切り出し処理部503で処理を行う際に、必要に応じて画像処理を行う。具体的な説明は省略するが、ベクトル変換処理を行う際に適した画像処理や、画像切り出し処理を行う際に適した画像処理が行われるものとする。
【0034】
ベクトル変換処理部502は、線画や表罫線などの画像領域の対象画素集合を、ベクトルパス描画関数によるグラフィックス描画表現、すなわちベクトルパス記述データへと変換する。
【0035】
ベクトル変換処理の1例を説明する。まず変換対象の画像を二値画像データに変換する。例えば、変換対象の画像がグレースケール画像の場合は、画像フィルタ処理部501を用いて各画素の輝度を所定閾値と比較して2値化することによって二値データを得る処理をおこなう。なお、変換対象の画像が複数色を含む場合は、色成分毎に分解して色毎の二値データを生成するようにしてもよい。次に、二値データ内で連結する黒画素集合に対して輪郭追跡をおこなって、集合毎に輪郭の座標点列を取得する。続いて輪郭の座標点列を複数の区間に適応的に分割し、各々の区間を直線関数や曲線関数で近似する。曲線関数の例としてはスプライン曲線、ベジェ曲線などがある。最終的に、始点、直線および曲線、終端の1組からなるベクトルパス記述へと変換する。
【0036】
なおベクトル手法は上記手法に限るものではなく、他の公知のベクトル化手法を用いてもよい。例えば、輪郭を関数近似する代わりに、線図形の芯線を関数近似するベクトル化方法も良く知られている。
【0037】
画像切り出し処理部503は、入力画像中の対象領域に対し、領域内の画素データのみを用いた個別の画像パーツデータを生成する。本処理の際に、領域の特性にあわせて画素データ種別や圧縮方法を変更してもよい。例えば、『線画』や『文字』属性の領域に対しては、画像フィルタ処理部501を用いて色ごとに二値画像(1枚または複数枚の二値画像)へ変換した後に、MMRなど公知の二値圧縮方式でデータ化するともに、各二値画像に対応する色情報を付加したデータを生成する。一方、『写真』属性の領域に対しては、自然画の圧縮に適したJPEGやJPEG2000方式を用いて圧縮する。
【0038】
なお、ベクトル変換処理部によるベクトル変換と、画像切り出し処理部による画像圧縮は、領域の属性に応じて、どちらか一方を行うように設定してもよいし、両方を行うように設定してもよい。また、本文や見だしやキャプションなどの文字領域に関しては、文字認識結果の類似度が高ければ、当該文字認識結果の文字コードと文字のサイズ情報と文字の位置情報などを記述することによって、当該文字領域部分のグラフィックスを再現するように構成してもよい。
【0039】
電子文書記述処理部504は、ベクトル変換処理部502および画像切り出し処理部503の出力するグラフィックスデータと、文字認識部303やメタデータ処理部304で得た文字情報やメタデータなどの意味記述とを、所定フォーマット形式で記述し電子文書を生成する。生成される電子文書データ310の例を図11に示す。図11の例では、図6のイメージデータ300の例を処理した場合に記憶部211に保存された図7のようなデータに基づいて、SVG(Scalable Vector Graphics)フォーマットで記述をおこなった場合の例を示す。図11の記述1101〜1105は、それぞれ図6の領域601〜605に対するグラフィックス記述である。ここで、1101、1104および1105は文字コードによる文字描画記述の例であり、1102はベクトル変換されたベクトルパス記述の例であり、1103は切り出し処理された写真画像を貼り付ける記述の例である。キャプションが付随する写真オブジェクト1103には、キャプション識別子1107(caption_id)として“1”が付与されている。なお、図11の例で、座標値X1、Y1など記号で記述されている部分は実際には数値である。また、1106はメタデータの記述例である。メタデータの記述1106には、キャプション604の文字列と本文の文字列とに基づいて抽出した文字列1109として「AAA」が記述され、キャプション識別子1107と同じ識別子1108が関連づけられている。なお、図11の例では、単語「図1」を含む本文の個所「・・・図1は、AAAである。・・・」という文章から、単語「AAA」を抽出してメタデータ1109としたが、単語に限るものではなく、文章(例えば「図1」を含む1文)をそのままメタデータとして付与してもよい。また、図11の例では、本文から抽出した文字列をメタデータとしているが、これに限るものではなく、キャプションの文字列から抽出した単語をメタデータとして更に追加するように構成してもよい。
【0040】
なお、ここではSVGを例として説明したが、出力フォーマットはSVGに限定されるものではなく、PDF、XPS、Office Open XML、その他のPDL系のデータ形式などに変換してもよい。
【0041】
フォーマット変換制御部505における変換処理制御の例について以下に説明する。フォーマット変換部305において、各領域に施すべき変換処理方法は、領域の属性によって異なる。例えば、ベクトル変換処理は文字や線画のように白黒あるいは数色で構成された図形に対しては好適であるが、写真のように階調性のある画像領域には不適である。このように、各領域の属性に従った適切な変換をおこなうためには、図8のような対応テーブルをあらかじめ設定しておけばよい。
【0042】
例えば、図8(a)の設定に従えば、『文字』、『線画』および『表』属性の領域に対してはベクトル変換処理が、『写真』属性の領域に対しては画像切り出し処理がおこなわれる。
【0043】
さらに、図8の対応テーブルには、該当領域の画素情報をイメージデータ300から消去する処理の有無が記載されている。例えば、図8(a)に従って『文字』属性の領域がベクトルパス記述データに変換される場合、消去処理有りの設定指示が為されているので、イメージデータ300上において、当該変換されたベクトルパスに覆われる部分に対応する画素をその周辺色で塗りつぶす処理が行われる。同様に『写真』属性の領域が矩形の画像パーツとして切り出される際には、イメージデータ300上において、当該切り出された領域に対応する領域範囲内を、その周辺色等で塗りつぶす処理が行われる。このような消去処理を行う目的としては、各領域に対する処理が終了した後(塗りつぶし処理終了後)のイメージデータ300を『背景』の画像パーツデータとして利用できるようにすることである。この背景用の画像データ(背景画像)には、領域分割処理で抽出された領域以外の部分(例えばイメージデータ300中の下地にあたるような画素)が残っている。したがって、電子文書データ記述の際に、ベクトル変換処理部や画像切り出し処理部で得たグラフィックスデータを、背景画像パーツデータ(背景画像)の上に重畳して表示するような記述を行うことで、背景画素(下地の色)の情報欠落がなくなり、かつ冗長性のないグラフィックスデータを構成することが可能となる。
【0044】
図8(b)は対応テーブルの別の例である。図8(b)に従えば、『文字』領域部分に対しては、二値による画像切り出し処理とイメージデータ300からの画素消去処理が行われるが、それ以外の属性の領域に対しては、ベクトル化処理や画像切り出し処理は行われない。すなわち、処理対象外の画素(「写真」や「線画」や「表」属性の領域内の画素情報)は、背景画像パーツデータ内に残っており、この背景画像上に『文字』の画像パーツを重畳するように記述される。
【0045】
また、図8(c)、図8(d)は別の対応テーブルの例であるが、これらの詳細な説明は後述する。
【0046】
なお、図8(a)〜(d)のような対応テーブルを予め複数用意しておき、出力電子文書データの用途(使用目的)や、文書の内容に応じて選択するようにしても良い。例えば、図8(a)の対応テーブルに基づいた出力は、オブジェクトの大半がベクトルパス記述へと変換されているため、拡大縮小時の画質に優れているので、グラフィックエディタ等の再利用用途に好適である。また、図8(b)の対応テーブルは、文字画像を文字色ごとに個別の2値画像を生成して各2値画像を可逆圧縮することで文字画像部分は高品位に再生することができ、且つ、それ以外を背景画像としてJPEG圧縮することでデータサイズの圧縮率を高くすることができる。したがって、図8(b)の場合は、圧縮率を高くしつつ文字画像が読みやすいデータを作成したい場合に適している。
【0047】
次に、実施例の画像処理システムで実行する処理全体の概要を、図4のフローチャートを用いて説明する。図4に示すフローチャートは、図2のデータ処理部218(図3の各処理部)によって実行されるものとする。なお、本実施形態では、CPU205が記憶部211(コンピュータ読取可能な記憶媒体)に格納されたコンピュータプログラムを読み取り実行することによって、データ処理部218(図3の各処理部)として機能するものとするが、これに限るものではない。例えば、データ処理部218(図3の各処理部)を、電子回路等のハードウェアで実現するように構成してもよい。
【0048】
図4は、図1のMFP100で入力された複数ページのイメージデータを、複数ページからなる電子文書データに変換する処理のフローチャートである。尚、複数ページのイメージデータとしては、例えば、図9のページ画像901〜904が入力されるものとする。図9は、4ページで構成される文書画像の一例であり、画像901〜904は順に1〜4ページとする。以下、図4のフローチャートの各説明を行う。
【0049】
ステップS401において、領域分割部301は、入力された1ページ分のイメージデータから領域を抽出する。例えば、図9のイメージデータ901(1ページ目)に対しては、領域905、906を抽出する。
【0050】
ステップS402において、属性情報付加部302は、ステップS401で分割された各領域に属性を付加する。図9の1ページ目の例では、領域905には『写真』、領域906は『キャプション』の属性を付加する。尚、このキャプション906には、付随する領域が905であるという情報も付加する。
【0051】
ステップS403において、文字認識部303は、ステップS402で文字(本文、キャプション、見出し、小見出しなど)の属性を付加した領域に対して、文字認識処理を実行し、その結果を文字情報として対象領域に関連付けて保持する。1ページ目の例では、文字である「キャプション」属性が付加された領域906に対して文字認識処理を行って、文字情報「図1」が得られ、領域906に関連付けを行う。
【0052】
ステップS404において、データ処理部218は、ステップS401〜S403の情報抽出処理を全てのページに対しておこなった否かを判断する。全てのページを処理していればステップS405へ進む。未処理のページがあればステップS401から繰り返す。
【0053】
図9の画像901〜904に対して、ステップS401〜S404の処理を行った結果として、抽出される領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報の例を図10に示す。907〜909はそれぞれ2〜4ページ目から抽出された『本文』属性の領域である。これらの情報は記憶部211に保存されている。
【0054】
ステップS405において、メタデータ処理部304は、メタデータ抽出処理およびメタデータ付与処理を行う。ステップS405でメタデータ処理部304が実行する処理の詳細については、図12のフローチャートを用いて説明する。
【0055】
図12のステップS1201において、記憶部211に保存された領域情報において、『キャプション』属性が付与された領域のうち、本メタデータ処理がおこなわれていないものをひとつ選出する。すなわち、未処理のキャプション領域があれば、当該未処理のキャプション領域を処理対象として選択してステップS1202に進む。キャプション領域が存在しないか、すべて処理済みであった場合は終了する。図9の画像901〜904を入力とした場合、キャプション領域906が選出される。
【0056】
ステップS1202において、当該処理対象のキャプションが付随するオブジェクトに対してキャプション識別子を付与し、さらに記憶部211に当該付与したキャプション識別子用のメタデータ記憶領域を確保する。ここではキャプション906が付随する写真オブジェクト905に対し、キャプション識別子1番が付与され、記憶部211に当該キャプション識別子1番用のメタデータ記憶領域を確保するものとする。
【0057】
ステップS1203において、キャプション領域内の文字認識結果の文字情報から、アンカー文字列およびメタデータ文字列を抽出する。アンカー文字列とは、元の文書中でこのキャプションが付随するオブジェクトを識別するための文字情報であり、メタデータ文字列とはオブジェクトを説明するための文字情報である。図15にアンカー文字列とメタデータ文字列の例をいくつか示す。1501と1502はアンカー文字列、1503と1504はメタデータ文字列の例である。上例が示すように、オブジェクトに付随するキャプションには、アンカー文字列のみが記載される場合、メタデータ文字列のみが記載される場合、さらに両方が記載される場合がある。例えば、アンカー文字列は「図」や「Fig」などの特定の文字列と、番号や記号との組み合わせで表現される場合が多いので、それら特定の文字列を登録したアンカー文字列用辞書を予め用意しておき、キャプション文字列を該辞書と比較してアンカー部分(アンカー文字列+数記号)を特定すればよい。そして、キャプション領域の文字列のうち、アンカー部分以外の文字列をメタデータ文字列として判断すればよい。
【0058】
ステップS1204において、ステップS1203でキャプション領域からメタデータ文字列が抽出されたか否かを判断し、メタデータ文字列が抽出された場合はステップS1205に進み、メタデータ文字列が抽出されなかった場合はステップS1206に進む。
【0059】
ステップS1205において、キャプション領域から抽出されたメタデータ文字列を、ステップS1202で付与したキャプション識別子用の記憶領域に保存し、ステップS1206に進む。すなわち、キャプション領域から抽出されたメタデータ文字列を当該キャプション識別子と関連付ける。
【0060】
ステップS1206では、ステップS1203でキャプション領域からアンカー文字列が抽出されたか否かを判断し、アンカー文字列が抽出された場合はステップS1207に進む。一方、アンカー文字列が抽出されなかった場合はステップS1201に戻って、未処理のキャプション領域があるかどうか判断する。
【0061】
図9の入力例では、キャプション906からはアンカー文字列として「図1」が抽出されるがメタデータ文字列は抽出されないのでステップS1204からS1206、S1207へと進む。
【0062】
ステップS1207では、当該抽出されたアンカー文字列と同等の文字列表現を、記憶部211に格納された『本文』領域の文字情報から検出する。同等の文字列表現を検出した場合は、ステップS1208に進む。検出されなかった場合はステップS1201に戻って未処理のキャプション領域があるかどうか判断する。
【0063】
ステップS1208では、ステップS1207で本文から検出されたアンカー文字列の周辺から、オブジェクトのメタデータに相当する文字列を抽出する。図9の入力例では、本文領域909から、アンカー文字列「図1」906と同じ文字列910が検出されるので、その周辺の文字列「図1は、AAAである」に形態素解析等を行い、単語「AAA」がメタデータ文字列として抽出される。このメタデータ文字列の判断には自然言語処理の形態素解析などで単語切り機能を用いればよい。なお、本実施形態では単語を抽出してメタデータ文字列とする例を示したが、これに限るものではなく、例えば、アンカー文字列を含む1文をそのままメタデータ文字列として用いるようにしても構わない。
【0064】
ステップS1209では、ステップS1208で抽出したメタデータ文字列を、前記キャプション識別子用の記憶領域に追加保存する。そしてS1207に戻って、本文の別の部分に同様のアンカー文字列の記述があるかどうか繰り返し、あれば順次追加保存していく。したがって、1つのキャプション識別子に対して、複数のメタデータが関連づけられる場合もある。
【0065】
図4に戻って、ステップS406において、フォーマット変換部305は、イメージデータ300及び、図10に示すような記憶部211に保存された情報に基づいて、電子文書データ310への変換を行う。なお、図5で説明したように、フォーマット変換部305は、フォーマット変換制御部505の制御により、各領域に施すべき変換処理方法を記した対応テーブルに従って、図5のイメージデータ300内の領域に変換処理を実行する。ここでは、図8(c)の対応テーブルを用いて変換を制御する際の処理フローを、図13のフローチャートを用いて説明する。
【0066】
ステップS1301において、処理ページ番号のカウンタnを1で初期化する。
【0067】
ステップS1302において、図5の領域情報511中のnページ目のデータの中から、未処理の領域のうちのひとつを処理対象領域として選出する。
【0068】
ステップS1303において、当該処理対象領域の属性と対応テーブルと照らしあわせて属性毎に処理を分岐する。本例では、図8(c)対応テーブルを用いて判断するので、文字かどうかの判断が行われる。すなわち、属性が文字(『本文』、『キャプション』、『ページ』、『見出し』)の場合はステップS1304に進み、属性が『写真』、『線画』、『表』の場合はステップS1306に進む。
【0069】
ステップS1304では、図8(c)の対応テーブルの設定に従って、画像切り出し処理部503が、イメージデータ300中の当該処理対象の文字属性領域に対応する部分の二値画像(二値画像パーツ)を作成する。作成された二値画像パーツは、例えばPNGフォーマットなどで圧縮されて図2の記憶部211に保存される。なお、この二値画像パーツ中の文字線に相当する画素には、別途イメージデータ300中の該当文字画素の色より取得された文字色情報が付与され、それ以外の画素には透明色が付与される。
【0070】
ステップS1305において、図8(c)には文字領域の消去処理指示が設定されているので、フォーマット変換制御部505は、図5のイメージデータ300において文字部分に対応する画素を周囲の画素色で塗りつぶす消去処理をおこなう。
【0071】
一方、ステップS1306において、フォーマット変換制御部505は、当該処理対象領域にキャプション識別子が付与されているか否かを調べる。付与されていればステップS1307へ進み、付与されていなければステップS1308に進む。
【0072】
ステップS1307において、フォーマット変換制御部505は、図8(c)の対応テーブルの設定に従って、ベクトル変換処理部502に、当該処理対象領域を囲む枠に相当するベクトルパス記述データを生成させる。当該処理対象領域を囲む枠のベクトルパス記述データは、例えば、図5の領域情報511にある左上座標と大きさ(幅、高さ)に基づいて、当該領域を囲む4直線で記述することができる。本実施形態では、当該処理対象領域の外接矩形よりも少し大き目の矩形の枠を記述するものとする。なお、当該処理対象領域を囲む枠は、矩形枠に限るものではなく、角が曲線になっている枠であってもよいし、枠線を太くしたりするなどして、より目立つ形状に変形させて記述させてもよい。枠形状のその他の記述方法としては、イメージデータ300上の領域内画像からエッジ情報の輪郭(すなわち、オブジェクト画像の輪郭)を抽出し、ベクトル変換処理部502を用いて、その輪郭情報を枠のベクトルパス情報に変換させてもよい。
【0073】
更に、ステップS1307では、当該生成した枠のベクトルパス記述データに対して、当該処理対象領域のキャプション識別子を付与し、その枠のベクトルパス記述データの描画色として透明色を割りあてるものとする。このようにして、生成されたベクトルパス記述データは図2の記憶部211に保存される。
【0074】
ステップS1308において、nページ目において未処理の領域があるかを判断する。未処理領域が残っている場合は、ステップS1302に戻ってステップS1302〜ステップS1308の処理を繰り返す。nページ目の全領域が処理済であればステップS1309に進む。
【0075】
ステップS1309において、フォーマット変換制御部505は、図5のイメージデータ300において、画像切り出し処理部503で切り出した領域に対応する部分をその周辺色で塗りつぶすことにより、背景画像パーツを生成する。背景画像パーツにおいて、ステップS1305でイメージデータ300から画像パーツとして切り出された文字部分の画素(すなわち文字線に相当する画素)は、その周囲の色で塗りつぶされて消去されている。一方、文字以外の領域は未処理のまま残っている。本例ではこの背景画像パーツを、更に1/2の解像度に低解像度化してからJPEG圧縮を施した画像データに変換し、図2の記憶部211に保存するものとするが、スムージングなど他の画像処理を施して別形式による圧縮をおこなってもよい。
【0076】
図16は、図9の1ページ目の画像901に対してステップS1302〜S1309の処理をおこなった場合に生成される画像パーツおよびベクトルパス記述データの例を示す。1601はステップS1309で生成される背景画像パーツの例である。背景画像パーツ1601は、文字画像の部分が周辺色で塗りつぶされて消去されているので、ページ内の文字として抽出された部分以外のすべてを含む1枚の画像で構成されている。1602はステップS1304で生成される文字部分の二値画像パーツの例である。文字色の情報も別途保存しているので、文字部分の二値画像パーツを再生すると、文字線の部分は文字色の画素、それ以外の白い部分は透明色の画素で構成されることになる。なお、本図1602の外枠にあたる線は図示の為の便宜的なものであって、実際の画像パーツは文字の部分を囲む最小の矩形範囲で構成されていてもよい。1603は、ステップS1307で生成される枠のベクトルパス記述データの例である。本図では枠のベクトルパス記述は便宜上点線で書かれているが、実際には透明色によるベクトルパス記述であるので不可視である。また、1603の外枠にあたる線は図示の為の便宜的なものであり実際にデータとしては存在しない。
【0077】
ステップS1310において、フォーマット変換制御部505は、電子文書記述処理部504に、出力となる電子文書データのフォーマットで現在処理中のページを電子文書ページとして記述する処理を行わせる。図9の1ページ目の画像901に対し、本実施例によって記述される電子文書ページの例を図17に示す。図17の1700は電子文書ページをSVG(Scalable Vector Graphics)フォーマットで記述した例である。電子文書ページ1700は、ステップS1309で生成された背景画像データの記述1701、ステップS1304で生成された文字部分の二値画像パーツ記述1702、およびステップS1307で生成された枠(ただし透明色で描画)のベクトルパス記述1703により構成される。ベクトルパス記述1703において、stroke=“transparent”は、枠を透明色で描画させるための記述である。即ち、d=“M440,608 L2040,608 L2040,1880 L440,1880 L440,608 s”でベクトルパス記述された形状の図形を透明色で描画することを意味している。前述したように、このベクトルパス記述は、矩形枠の形状に限るものではなく、対象オブジェクトのオリジナル形状やグラフィックス記述の際の構成には依存させずに任意の形状で記述させることもできる。1701〜1703はそれぞれ図16の1601〜1603に相当するグラフィックス描画記述であり、それらが1701から順番に重畳描画されるようなグラフィックスデータとして構築されている。すなわち、背景画像が一番下に描画され、その上に文字画像が描画され、更にその上に透明の枠が描画されることになる。また、透明なベクトルパス記述(グラフィックス記述)1703にはキャプション識別子1704が付与されている。
【0078】
ステップS1311において、フォーマット変換制御部505は、処理中のページ番号nが最後のページ番号である全ページ数に等しいかどうか判定する。等しい場合は全ページの変換処理が終了したとしてステップS1313へ進み、nの方が全ページ数より小さい場合はステップS1312に進み、nに1を加算し、ステップS1302に戻り次ページに対する処理を繰り返す。
【0079】
ステップS1313において、電子文書記述処理部504は、ステップS1310で記述された各ページの電子文書ページをまとめてひとつにするとともに、メタデータの記述を付与して出力電子文書データを作成する。図18は出力電子文書の記述例である。電子文書データ1800において、1801,1802,1803,1804はそれぞれ1〜4ページ目の電子文書ページ記述であり、1805はメタデータ記述の例である。メタデータ記述1805の中で、メタデータ文字列1806はキャプション識別子1807と関連付けて記述されており、このキャプション識別子は1ページ目のベクトルパス記述1809に付与されたキャプション識別子1808と同じものである。このようにキャプション識別子を介して、メタデータ1806と透明ベクトルパス記述1809とが関連付けられているので、後述するように、キーワード「AAA」で検索を行った場合、透明ベクトルパス記述1809を検索できる。
【0080】
以上が、本発明の実施例1における電子文書データ作成処理に関する説明である。
【0081】
次に、上述した実施例1で作成された電子文書データに対し、前述したメタデータをキーワードとしてオブジェクトを検索する例について図14を用いて説明する。
【0082】
図14(a)〜(d)は、オブジェクトを検索するためのアプリケーションとして、図1のクライアントPC101や、その他のクライアントPCなどで実行されるソフトウェアの表示画面(GUI)の一例である。このようなソフトウェアとしては、例えば、生成する文書のフォーマットがPDFである場合は、Adobe Reader(商標)などを用いることができる。
【0083】
図14(a)は、図11の文書をアプリケーションで表示させたときに表示画面の例である。1401は、検索する語句を入力(指定)するための入力ウインドウであり、1402は、検索する語句を入力した後に検索を実行するための検索実行ボタンである。1403は、図11の電子文書データ1100を表示した様子を示している。その表示内容はグラフィックス記述1101〜1105の描画結果である。
【0084】
図14のアプリケーションは、入力ウインドウ1401に検索語句として入力された文字列が、表示中の電子文書データに付与されたメタデータと一致する場合、そのメタデータに関連づけられたキャプション識別子を有するグラフィックス記述を強調表示する機能を有している。
【0085】
図14(b)は、検索を実行させた結果を示している。1404は、検索する語句として「AAA」を指定した状態を示している。電子文書データ1100ではメタデータ記述1106中の文字列1109、および文字描画記述1105中の文字列「AAA」が、検索語句に一致するので、アプリケーションは検索ヒット時の動作をおこなう。検索結果は、ユーザの指示に応じて、順番に表示させることが可能であるが、ここでは、メタデータ記述1106中の文字列1109がヒットしたときの動作例について説明する。図14のアプリケーションは電子文書1100内から、検索語句と一致するメタデータのキャプション識別子1108を検出し、さらにこれと同一の識別子1107が付与されたグラフィックス記述1102を検出する。そしてページ表示の際、該当部分が強調されるように対象グラフィックス記述を描画する。本例では、グラフィックス記述が画像の貼りつけであるため、当該画像オブジェクトの回りに強調色、たとえば赤色の枠を加えて表示をおこなうものとする。図14(b)中の1405は、検索を実行した結果としてヒットしたオブジェクトの部分が、赤色の枠により強調表示されている状態を示している。なお、強調表示の方法はこの限りでなく、別の枠色や、枠ではなく領域全体に色を付けたり、変色(色反転など)させたりしてもよい。また、ヒットしたオブジェクトの記述が画像貼り付けではなくベクトルパスである場合、同パスを通常とは異なる色や太さで描画するようにしてもよい。
【0086】
図14(c)は、図8(c)の対応テーブルに基づいて図13のフローチャートの処理を行うことによって、図9の4ページの画像から変換された図18の電子文書データ1800の1ページ目を表示した様子を示している。その表示内容は1ページ目のグラフィックス記述1801の描画結果であり、図16の背景画像1601の上に文字の画像1602を重畳したものに等しい。なお、枠のベクトルパス記述である1603は透明色が指定されているため、通常状態では不可視である。
【0087】
図14(d)は、図14(c)で表示されている電子文書データ1800に対して検索を実行させた結果を示している。入力ウインドウ1414には、検索する語句として「AAA」が入力されている。電子文書データ1800ではメタデータ記述1805中の文字列「AAA」と検索語句が一致するので、アプリケーションは検索ヒット時の動作をおこなう。具体的には、先の説明と同様に、一致したメタデータのキャプション識別子1807と同一の値が付与されたグラフィックス記述を検出し、ページ表示の際に該当部分に強調表示をおこなう。この場合、キャプション識別子1808が付与された透明枠のベクトルパス記述1809が強調表示の対象となるので、当該ベクトルパス記述1809の枠は、元々指定されていた透明色ではなく、強調色(例えば赤色)で描画される。したがって、1415のように、検索でヒットしたメタデータに対応するグラフィックス記述が、赤色などの可視状態で強調表示された枠として背景画像上に重ねて表示されることになる。ユーザにとっては、背景画像内の写真部分が検索でヒットしたかのように見えることになる。
【0088】
以上説明したように、図8(c)のような設定に基づいて、文書画像を電子文書データに変換する場合、ステップS401〜S405の処理により、文書画像から抽出した領域オブジェクトのうち、キャプション付きのオブジェクトと、検索に使用するメタデータを関連付けて抽出する。更に、図8(c)の設定では、文字以外のオブジェクトに関しては背景画像に含める設定になっているので、ステップS406(図13)の処理により、検索対象のオブジェクトの代わりに、検索時に強調表示する形状を透明色によるベクトルパス描画記述で付加する。この電子文書データをアプリケーションで閲覧・検索する場合、閲覧時には前記透明色によるベクトルパス記述は不可視であるので背景画像どおりのページ表示が行われる。一方、検索時にメタデータがヒットした際には、アプリケーションによって前記透明色のベクトルパス記述が強調色で表示される。このベクトルパス記述は対象オブジェクトのオリジナル形状やグラフィックス記述の際の構成には依存させずに、任意形状で記述させることも可能であるので、電子文書データ作成側の意図に従った任意形状の強調表示を行わせることが可能である。例えば、対象オブジェクトの外接矩形よりも少し大き目の矩形の枠を記述することにより、検索時には、対象オブジェクトに相当する個所を一回り大きな枠で囲むことができるので、ユーザにとっては識別しやすくなる。また、例えば、ベクトルパス記述を丸囲みの記述にすれば、検索時には対象オブジェクトに相当する個所を丸で強調表示させることができる。
【0089】
すなわち、本発明によれば、文字以外のオブジェクトをキーワード検索可能な電子文書データの作成処理において、検索時に検索対象オブジェクトの形状やデータ状態に依存せず、ユーザがわかりやすい強調表現が可能となる電子文書データを作成することができる。
【0090】
また、文字以外のオブジェクトを背景画像に含めた状態であっても、当該オブジェクトが検索されたかのような表示を行うことができる。その際、文字以外のオブジェクトを個別に圧縮しなくてよいので、データ量を減らすことも可能である。
【0091】
(実施例2)
実施例1では、図8(c)の対応テーブルを用いることで、文字以外のオブジェクト(写真、線画、表)全てを背景画像に含め、キャプション識別子の付与されたオブジェクトに対して、対応する透明のベクトルパス記述を生成していた。実施例2では、文字以外のオブジェクト全てを背景画像に含めるのではなく、一部の属性のオブジェクトは背景画像に含めないでパーツとして記述し、更に、強調表示用の透明ベクトルパス記述を別個に生成する例を示す。
【0092】
実施例2では、図3のフォーマット変換部305が図8(d)の対応テーブルに基づいて制御する場合の処理例を示す。図8(d)の対応テーブルによれば、『写真』のオブジェクトに対しては画像切り出しによる画像パーツ記述を生成する。そして、『線画』、『表』のオブジェクトに対しては、ベクトル変換によるベクトルパス記述を生成し、更にキャプション識別子が付与されたオブジェクトの場合には透明枠のベクトルパス記述が別途付加される。したがって、図8(c)のような設定の場合、『写真』のオブジェクトには自身のグラフィックス記述にキャプション識別子を付与し、『線画』、『表』のオブジェクトに対しては、透明枠の記述にキャプション識別子を付与するものとする。
【0093】
このように変換された電子文書データに対して検索をおこなうと、矩形で切り出された『写真』の領域はそのグラフィックス記述自身の切り出し範囲である矩形が強調され、『線画』、『表』に対しては透明枠として記述された形状で強調されることになる。よって『線画』や『表』自身の形状に依存せず、付加した透明ベクトルパス記述の形状で強調表示されるようになるため、ユーザにとって検索ヒット箇所がよりわかりやすくなるという効果がある。また、透明ベクトルパス記述を用いるオブジェクトの種類を属性に応じて設定することが可能となる。
【0094】
また、電子文書データに対して、または、その検索対象である個々の『写真』、『線画』、『表』の画像切り出しによる画像パーツ記述方式と、それに対するキャプション識別子の付与方式を、ユーザに適時選択させるようにしてもよい。例えば、作成する電子文書データのデータサイズが重要視され且つオブジェクト検索できるようにしたい場合には、図8(c)のように、『写真』などのオブジェクトを『背景』に含め、透明枠の記述を行ってキャプション識別子を付加する。こうすることで、画像内のオブジェクトが検索されたかのような表示をすることができ、且つ、画像データの圧縮率向上が図りやすくなるため、データサイズを小さくすることが可能となる。また、『写真』、『線画』などのオブジェクトを別の文書などで再利用する可能性が高い場合には、図8(a)のように、『写真』を画像パーツとして切り出して画像解像度を上げ、『線画』のベクトル変換によるベクトルパス記述を行い、各オブジェクトに直接キャプション識別子を付与する。また、図8(d)の場合などのように、もっと『写真』などについて、その種別に応じて、より詳細に運用することも可能である。こうすることで、その部分を検索し、他の文書へ情報をコピーすることで、その画像情報をなるべく損なうことなく、利用できるようにする。
【0095】
このように、画像切り出しによる画像パーツ記述方式を適切に選択すると同時に、キャプション識別子の付与方式を適宜選択することで、利用目的に応じた電子文書データの作成が可能となる。これにより、ユーザの使いやすい電子文書データが提供されるという効果がある。
【0096】
なお、このような使い分けをユーザに選択させるのではなく、文書やページ内の『写真』などの数や、各オブジェクトの大きさや特性に応じて、画像切り出しによる画像パーツ記述方式と、キャプション識別子の付与方式を自動的に選択するようにしてもよい。また、その際、文書やページ単位に自動的に切り替えて使用するように構成してもよい。
【0097】
以下、データ処理部218が、図8(d)の対応テーブルを用いて、電子文書データの目的が「ファイルサイズ重視」の場合と、「再利用性重視」の場合によって処理を切り替える方法について、図19のフローチャートを用いて説明を行う。尚、実施例1の図13と同じステップに関しては同じステップ番号を与えており、ここでは説明を省略する。
【0098】
ステップS1901において、データ処理部218は、電子文書データの利用目的である「ファイルサイズ重視」と「再利用性重視」のいずれが選択されたか判断する。図20は、図1のMFP100に装備された図2の操作部203に表示される電子文書データの目的をユーザに選択させるためのユーザインタフェース(UI)画面の一例である。UI画面2001上には、電子文書データのファイルサイズを小さくしたい場合に選択するファイルサイズ重視ボタン2002、『写真』、『線画』などを他の文書で利用することを想定している場合に選択する再利用性重視ボタン2003、選択内容をキャンセルするためのCancelボタン2004、確定するためのOKボタン2005が配置されている。なお、ここでは電子文書データの利用目的を、UI画面2001による操作によって切り替える方法を説明するが、文書やページ内の『写真』や『線画』の数やサイズ、ページ数などに応じて自動的に切り替えるように構成してもよい。
【0099】
ステップS1901で「ファイルサイズ重視」が選択されたと判断した場合には、ステップS1902へと進む。ステップS1902では、前述した図13に記載のフローチャートと同じ処理を行い、電子文書データを作成する。
【0100】
一方、ステップS1901で「再利用性重視」が選択されたと判断した場合は、図8(d)の対応テーブルに従った処理を行うために、図19のステップS1301へと進む。以下、ステップS1301〜ステップS1305は、図13のフローチャートと同様の処理を行うため、説明を省略する。
【0101】
図19のステップS1303で『写真』『線画』『表』と判定された領域に対し、ステップS1903では、図5の画像切り出し処理部503とベクトル変換処理部502とが、図8(d)の対応テーブルに従って、グラフィックス記述を行う。すなわち、『写真』に対しては画像切り出しによる画像パーツ記述が生成され、『線画』、『表』に対しては、ベクトル変換によるベクトルパス記述が生成される。
【0102】
続いてステップS1904では、図8(d)の消去処理指示に従って、図5のフォーマット変換制御部505が、イメージデータ300上で、『写真』『線画』『表』に対応する画素情報を、周囲の画素色で塗りつぶす消去処理をおこなう。
【0103】
ステップS1306において、注目領域にキャプション識別子が付与されているか否かを調べる。付与されていればステップS1905へ、付与されていなければステップS1308に進む。
【0104】
ステップS1905において、領域属性が『写真』か否かを調べる。『写真』属性である場合には、領域オブジェクト自体にキャプション識別子を付与するため、ステップS1308へ進む。一方、『線画』『表』の場合にはステップS1307へ進み、当該オブジェクトに対応する透明のベクトルパス記述を生成する。以降のステップS1307〜ステップS1313では、図13のフローチャートと同様の処理であるため、説明を省略する。
【0105】
これにより、第2の実施形態によれば、利用目的に応じて適切な形態の電子文書を生成することができる。また、透明のベクトルパス記述を利用することにより、検索時に検索対象オブジェクトの形状やデータ状態に依存せず、ユーザがわかりやすい強調表現が可能となる電子文書データを作成することが可能となる。
【0106】
(実施例3)
実施例1では、オブジェクト領域の位置・大きさや、オブジェクトを画像処理して得られる情報(例えばエッジ情報など)を基にしてオブジェクト領域に記述する透明枠を記述していた。本発明の実施例3では、ユーザが記述される透明枠の形状や線幅などを自由に設定することができる仕組みを提供する。
【0107】
図21は、MFP100に装備された操作部203に表示されるユーザインタフェース(UI)画面の一例である。UI画面2101には透明枠の基本形状を選択するためのボタン2102と、線幅を選択するためのボタン2103、強調色を選択するためのボタン2104がある。ユーザはUI画面2101上の選択ボタン2102〜2104を操作して透明枠の記述の仕方を選択し、OKボタン2106を押すことで、データ処理部218内の制御部(不図示)が、当該UIを介してユーザが指定した透明枠の記述に関する情報をフォーマット変換部305へ伝達する。Cancelボタン2105が押されてユーザ設定が為されなかった場合は、デフォルトの設定情報が制御部によってフォーマット変換部305へ送信される。フォーマット変換部305は、受信した情報を基に、ステップS1307において透明枠のベクトル記述を行う。このとき、オブジェクトを特定できるようにするために、オブジェクトのサイズに応じて、当該選択された基本形状のサイズを変更して記述するのが望ましい。
【0108】
透明枠の記述に関する設定はこれに限るものではなく、例えば、サイズや線種(実線や破線、二重線など)でも構わない。また、表示部116がタッチパネル式の場合であれば、表示部116上にユーザが描いた形状をベクトルパス記述データへと変換することで、任意形状の透明枠を記述することも可能である。
【0109】
(実施例4)
実施例1では、オブジェクト領域に関連するメタデータの一例として、メタデータ処理部304によって、文字認識部303が出力したキャプションおよび本文の文字情報から、オブジェクトに対する説明文、キーワード等に相当するメタデータ文字列を抽出していた。しかし、メタデータの抽出方法は、これに限るものではなく、例えば、オブジェクト領域の画像認識結果から得られたオブジェクト領域に関連するメタデータを抽出してもよい。ここで、画像認識とは、顔認識、人名認識のような公知の画像認識技術である。例えば、オブジェクト領域が人の写真のような場合には、画像認識によって、オブジェクト領域に関連するメタデータとして、人名を抽出することも可能である。
【0110】
図22に一般的な画像認識の例として、前述の写真中の人を認識する場合の顔認識方式について説明する。この実施例では、図22のような構成で、顔認識を利用して、個人名を抽出し、これをメタデータとして利用できるようにするものとする。以下の処理は、CPU205を利用して計算処理を行うものである。
【0111】
まず、この場合、実施例1のように写真画像が得られた場合に、これを画像情報2201とし、2202の画像入力部で2203の顔認識エンジンや2205の個人識別情報エンジンで処理しやすいように、画像のサイズや解像度などの変更を行い、これを顔認識エンジン2203に渡す。顔認識エンジン2203は、2204の顔認識辞書を用いて、顔領域の判定を行う。顔認識辞書2204は、あらかじめ、作成しておくもので、図2のROM210や記憶部211などに格納しておく。また、必要に応じて、RAM206にコピーしてCPU205から高速に利用できるようにして使用する。
【0112】
顔認識辞書2204は、多数の人の顔を含む多数の画像を予め収集しておき、これを学習機械(例えば、Support Vector Machine)に与えて、正しい顔領域の判定情報を教師情報として、バックプロパゲーション方式などを用いて、教師付き学習を行わせた結果である。これを予め作成しておく必要がある。
【0113】
顔認識エンジン2203は、図2のCPU205を使用して、その出力として、顔領域があると思われた場合には、その顔領域情報として、画像内の顔領域の左上点と右下点の座標を出力する。複数の顔領域があると判定した場合には、その数だけ、出力することになる。そして、一緒に、画像入力部2202からの入力画像も一緒に渡すものとする。これらの情報を個人顔識別エンジンに渡す。
【0114】
個人顔識別エンジン2205も、機械学習を利用したもので、予め作成されている2206の個人顔識別辞書を利用することで、個人の識別を行う。個人顔識別辞書2206は、識別する必要のある顔の画像情報から、顔特徴量情報(例えば、顔全体領域に対する目と鼻間の相対距離)を抽出し、識別する必要のある顔の個人名と対応づけて、これを教師情報として学習した結果である。個人顔識別エンジン2205は、図2のCPU205を使用して、画像入力部2202からきた画像から、顔認識エンジン2203で示された顔領域を切り取り、それを顔画像として顔特徴量を抽出する。そして、個人顔識別辞書2206内に非常に類似する顔特徴量を保有するものがあれば、その理事顔特徴量を保有する顔の個人名を出力する。顔認識エンジンから、顔領域が複数ある場合には、その個々についてこの処理を行う。そして、その顔の個人名と顔領域の情報を対応づけて出力するが、これを2207の人名(個人識別情報)と呼ぶものとする。
【0115】
個人顔識別辞書2206は、あらかじめ、作成しておくもので、図2の記憶部211などに格納しておく。また、必要に応じて、RAM206にコピーしてCPU205から高速に利用できるようにして使用する。
【0116】
このようにして、顔認識を利用することで、写真内の顔領域とその顔の人名情報が得られることとなる。
【0117】
図23は、図22の顔認識を画像認識部として、使用した場合の本実例の説明をするための図である。これは、図3のブロック図とほとんどの部分が同じであり、それについては図3と同じ番号を使用している。これらについては、図3の説明と同じとなるので、説明は割愛する。図23中、2301が画像認識部であり、図22の顔認識がこの中に入っているものとする。したがって、これを利用することで、写真などに写っている人物の情報をメタデータとして利用できるようになる。
【0118】
特に、透明枠を写真などの画像全体だけでなく、画像内の個人の顔部分に適用することが可能となる。また、顔の外形に合わせて、任意形状の透明枠を記述することも可能である。このようにすることで、写真の中の顔領域だけにメタデータを付加することが可能であり、実施例1の説明したように、写真部分はそのまま1つの画像として扱われることが多いので、この透明枠を画像内の個人の顔部分に適用し、その人名をメタデータとして付加すれば、人名から、その人物が写っている写真がわかり、その写真内における個人の顔領域が示されるようになる。図24は、これを行った場合の検索を実行させた結果を示している。ここで、1413は図14(d)と同様に検索する語句を入力する部分であり、検索する語句として「BBB」を指定している。この場合に、写真2401内の顔領域部分2402にメタデータとして文字列「BBB」(これは顔認識で得られた人名)が付与されていれば、図14(d)の場合と同様に検索語句が一致する。これにより、アプリケーションは検索ヒット時の動作をおこなう。具体的には、先の説明と同様に、一致したメタデータのキャプション識別子と同一の値が付与されたグラフィックス記述を検出し、ページ表示の際に該当部分に強調表示をおこなう。この場合、キャプション識別子1808が付与された透明枠のベクトルパス記述(これは顔領域2402の外周に記述されている)が強調表示の対象となり、枠は指定の透明色ではなく強調色、たとえば赤色によって描画される。したがって2402のように、検索を実行した結果、検索された(ヒットした)オブジェクト部分には枠による強調表示が施されたページ表示が行われている。
【0119】
このようにすることで、文書画像内に含まれる写真領域の内部に含まれる特定部分に関しても検索できるようになる。また、図8(c)のように写真領域を背景画像に含めるような場合であっても、写真領域内部の特定部分に対応する個所が強調表示されるようにすることが可能となる。

【特許請求の範囲】
【請求項1】
入力画像からオブジェクト領域を得る領域分割手段と、
前記領域分割手段で得たオブジェクト領域の属性を判定する判定手段と、
前記領域分割手段で得たオブジェクト領域に関連付けるべきメタデータを取得するメタデータ処理手段と、
透明なグラフィックス記述を生成するように設定された属性を有するオブジェクト領域について、透明なグラフィックス記述を生成するグラフィックス記述生成手段と、
前記グラフィックス記述生成手段で生成された透明なグラフィックス記述と前記メタデータとを関連付けて、前記入力画像に基づき生成される画像データと、当該メタデータに関連付けられた透明なグラフィックス記述とを含む電子文書を生成する電子文書生成手段と、
を備えることを特徴とする画像処理装置。
【請求項2】
前記メタデータ処理手段は、キャプション属性を有するオブジェクト領域が付随するオブジェクト領域に対して関連付けるべきメタデータを、当該キャプション属性を有するオブジェクト領域の文字認識結果に基づいて取得することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記メタデータ処理手段は、前記キャプション属性を有するオブジェクト領域の文字認識結果と、本文属性を有するオブジェクト領域の文字認識結果とに基づいて、前記キャプション属性を有するオブジェクト領域が付随するオブジェクト領域に対して関連付けるべきメタデータを取得することを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記電子文書生成手段は、前記透明なグラフィックス記述と前記メタデータとを、識別子を介して関連付けることを特徴とする請求項1乃至3のいずれかに記載の画像処理装置。
【請求項5】
前記透明なグラフィックス記述を生成するように設定された属性は、文字以外の属性であることを特徴とする請求項1乃至4のいずれかに記載の画像処理装置。
【請求項6】
前記透明なグラフィックス記述を生成するように設定された属性は、文字以外の属性の中から選択された属性であることを特徴とする請求項1乃至4のいずれかに記載の画像処理装置。
【請求項7】
前記入力画像に基づき生成される画像データは、前記オブジェクト領域を背景画像に含めた画像データを含むことを特徴とする請求項1乃至6のいずれかに記載の画像処理装置。
【請求項8】
前記入力画像に基づき生成される画像データは、前記オブジェクト領域の画像パーツのデータまたはベクトル変換したデータを含むことを特徴とする請求項1乃至6のいずれかに記載の画像処理装置。
【請求項9】
前記生成される電子文書の利用目的に応じて、前記透明なグラフィックス記述を生成する属性の設定を行う設定手段を更に有することを特徴とする請求項1乃至8のいずれかに記載の画像処理装置。
【請求項10】
前記生成される電子文書の利用目的をユーザに選択させるためのユーザインタフェースを表示する表示手段を更に有することを特徴とする請求項9に記載の画像処理装置。
【請求項11】
前記透明なグラフィックス記述は、前記オブジェクト領域を囲む枠で記述されることを特徴とする請求項1乃至10のいずれかに記載の画像処理装置。
【請求項12】
前記透明なグラフィックス記述は、予め決められた形状の図形で記述されることを特徴とする請求項1乃至10のいずれかに記載の画像処理装置。
【請求項13】
前記透明なグラフィックス記述は、ユーザにより選択された形状の図形で記述されることを特徴とする請求項1乃至10のいずれかに記載の画像処理装置。
【請求項14】
前記透明なグラフィックス記述の図形の形状、線幅、強調色の少なくともいずれかを、ユーザに選択させるためのユーザインタフェースを表示する表示手段を更に有することを特徴とする請求項13に記載の画像処理装置。
【請求項15】
前記メタデータ処理手段は、更に、当該オブジェクト領域を画像認識することによって、前記メタデータを取得することを特徴とする請求項1乃至14のいずれかに記載の画像処理装置。
【請求項16】
領域分割手段が、入力画像からオブジェクト領域を得る領域分割ステップと、
判定手段が、前記領域分割ステップで得たオブジェクト領域の属性を判定する判定ステップと、
メタデータ処理手段が、前記領域分割ステップで得たオブジェクト領域に関連付けるべきメタデータを取得するメタデータ処理ステップと、
グラフィックス記述生成手段が、透明なグラフィックス記述を生成するように設定された属性を有するオブジェクト領域について、透明なグラフィックス記述を生成するグラフィックス記述生成ステップと、
電子文書生成手段が、前記グラフィックス記述生成ステップで生成された透明なグラフィックス記述と前記メタデータとを関連付けて、前記入力画像に基づき生成される画像データと、当該メタデータに関連付けられた透明なグラフィックス記述とを含む電子文書を生成する電子文書生成ステップと、
を備えることを特徴とする画像処理方法。
【請求項17】
コンピュータを、
入力画像からオブジェクト領域を得る領域分割手段、
前記領域分割手段で得たオブジェクト領域の属性を判定する判定手段、
前記領域分割手段で得たオブジェクト領域に関連付けるべきメタデータを取得するメタデータ処理手段、
透明なグラフィックス記述を生成するように設定された属性を有するオブジェクト領域について、透明なグラフィックス記述を生成するグラフィックス記述生成手段、
前記グラフィックス記述生成手段で生成された透明なグラフィックス記述と前記メタデータとを関連付けて、前記入力画像に基づき生成される画像データと、当該メタデータに関連付けられた透明なグラフィックス記述とを含む電子文書を生成する電子文書生成手段、
として機能させるためのコンピュータプログラム。
【請求項18】
請求項17に記載のコンピュータプログラムを格納した、コンピュータ読取可能な記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate