画像形成装置
【課題】 複写や送信等の処理対象の原稿束内にポータルシートが含まれる場合、ポータルシートに記載されている元原稿の情報に対して当該処理を行う場合と、ポータルシートそのものに対して当該処理を行う場合との判断を行えるようにする。
【解決手段】 スキャンして得られたイメージ情報から、該原稿に付加的に記録された1つ以上の電子ファイルの格納場所示す情報を認識し、該原稿に付加的に記録された電子ファイルの格納場所情報が検出できない場合に、イメージ情報をベクトルデータに変換する。出力イメージを形成する際に、読み取ったページ自体の処理を行うか否かをオペレータに問い合わせて選択させる。
【解決手段】 スキャンして得られたイメージ情報から、該原稿に付加的に記録された1つ以上の電子ファイルの格納場所示す情報を認識し、該原稿に付加的に記録された電子ファイルの格納場所情報が検出できない場合に、イメージ情報をベクトルデータに変換する。出力イメージを形成する際に、読み取ったページ自体の処理を行うか否かをオペレータに問い合わせて選択させる。
【発明の詳細な説明】
【技術分野】
【0001】
本願発明は、画像入力機能、画像処理機能、画像出力機能を有した、複写機などの画像形成装置に関するものである。
【背景技術】
【0002】
近年、環境問題が叫ばれる中、オフィスでのペーパーレス化が急速に進んでいる。即ち、従来からバインダー等で蓄積された紙文書をスキャナで読み取りポータブルドキュメントフォーマット(以降PDFと記す)に変換して画像記憶装置にデータベースとして蓄積し、文書管理システムを構築出来る。一方、機能が拡張されたMFPでは、予め画像を記録する際に、該画像ファイルが存在する画像記憶装置内のポインタ情報を該文書の表紙或いは記載情報中に付加情報として記録して置き、再度、該文書を複写等再利用する際に、このポインタ情報からオリジナル電子ファイルの格納場所を検出し、該電子ファイルの元情報を直接用いる事で、紙文書全体の保存を削減する。
【0003】
このような背景の中で、画像読み取り走査手段で得られるイメージ情報をベクトル化手段でベクトルデータに変換し、該変換されたベクトルデータを紙文書に記載された情報として変換する方法を用いることによって、いかなる紙文書に対しても再利用可能な電子ファイルとして扱える画像処理システムが提案されている。ベクトル化手段を有する画像処理システムでは、スキャン、ファイル検索、ベクトル化を経て、特定または生成された全ページのページ情報、すなわち、サムネイル、タイトル、要約、キーワード、ID、日付、著作者、及び処理結果へのポインタ情報等を含むインデックスシート(以後ポータルシートとする)を生成し、出力している。
【特許文献1】特開2004−252843
【発明の開示】
【発明が解決しようとする課題】
【0004】
ポータルシートは、複数の原稿情報を1枚のシートに集約したものであり、オペレータが、複写または送信しようとしている原稿束内にポータルシートが含まれる場合、ポータルシートに記載されている元原稿の情報を複写または送信する場合と、ポータルシートそのものを複写または送信する場合の判断が付かず、意図しない誤った原稿を出力・送付してしまう問題がある。
【0005】
本発明は、上述の課題に鑑みてなされたものであり、その目的とするところは、ポータルシートと、その他の通常の原稿が混在された原稿を、オペレータの意図する出力結果を得るために、自動的に判別し、オペレータに問い合わせること、また必要な情報のみを出力・送付することで用紙および通信コストの削減が可能な画像形成装置を提供することにある。
【課題を解決するための手段】
【0006】
上記問題を解決するために、本発明の画像形成装置は、原稿をスキャンして得られたイメージ情報から、該原稿に付加的に記録された1つ以上の電子ファイルの格納場所示す情報を認識するファイル特定手段と、該原稿に付加的に記録された電子ファイルの格納場所情報が検出できない場合に、イメージ情報をベクトルデータに変換するベクトル化手段と、出力イメージを形成する出力イメージ形成手段と、前記出力イメージを形成する際に、読み取ったページ自体の処理を行うか否かをオペレータに問い合わせて選択させる出力データ選択手段と、を有する。
【発明の効果】
【0007】
画像形成装置において、原稿を読み取り走査する走査手段と、前記走査手段で得られたイメージ情報から、該原稿に付加的に記録された1つ以上の電子ファイルの格納場所示す情報を認識するファイル特定手段と、該原稿に付加的に記録された電子ファイルの格納場所情報が検出できない場合に、イメージ情報をベクトル化手段でベクトルデータに変換する手段と、読み取ったイメージ情報に所定の画像処理を施して出力イメージを形成する出力イメージ形成手段と、前記出力イメージを形成する際に、読み取ったページ自体の処理を行うか、否かをオペレータに問い合わせる、出力データ選択手段とを有することにより、
1つ以上の原稿の情報を保持するインデックスシートと、その他の通常の原稿が混在された原稿束を処理する際に、必要な情報のみを選択的に出力・送付することで用紙および通信にかかるコスト削減を可能とする効果が得られる。
【発明を実施するための最良の形態】
【0008】
本願発明の実施の形態について説明する。図1は本願発明にかかる画像処理システム構成例を示すブロック図である。この画像処理システムは、オフィス10とオフィス20とをインターネット104で接続された環境で実現する。オフィス10内に構築されたLAN107には、MFP100、MFP100を制御するマネージメントPC101、クライアントPC(外部記憶手段)102文書管理サーバ106、そのデータベース105およびプロキシサーバ103が接続されている。LAN107及びオフィス20内のLAN108はプロキシサーバ13を介してインターネット104に接続される。MFP100は本発明において紙文書の画像読み取り部と読み取った画像信号に対する画像処理の1部を担当し、画像信号はLAN109を用いてマネージメントPC101に入力する。マネージメントPCは通常のPCであり、内部に画像記憶手段、画像処理手段、表示手段、入力手段を有するが、その一部をMFP100に一体化して構成されている。
【0009】
図2はMFP100の構成図である。図2においてオートドキュメントフィーダー(以降ADFと記す)を含む画像読み取り部110は束状の或いは1枚の原稿画像を図示しない光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスター状の画像読み取り信号を600DPIの密度のイメージ情報として得る。通常の複写機能はこの画像信号をデータ処理部115で記録信号へ画像処理し、複数毎複写の場合は記録装置111に一旦1ページ分の記録データを記憶保持した後、記録装置112に順次出力して紙上に画像を形成する。
【0010】
一方クライアントPC102から出力されるプリントデータはLAN107からネットワークIF114を経てデータ処理装置115で記録可能なラスターデータに変換した後、前記記録装置で紙上に記録画像として形成される。
【0011】
MFP100への操作者の指示はMFPに装備されたキー操作部とマネージメントPCに入力されるキーボード及びマウスからなる入力装置113から行われ、これら一連の動作はデータ処理装置115内の図示しない制御部で制御される。
【0012】
一方、操作入力の状態表示及び処理中の画像データの表示は表示装置116で行われる。尚記憶装置111はマネージメントPCからも制御され、これらMFPとマネージメントPCとのデータの授受及び制御はネットワークIF117および直結したLAN109を用いて行われる。
【0013】
[処理概要]
次に本発明による画像処理全体の概要を図3を用いて説明する。
【0014】
図3においてまず、MFP100の画像読み取り部110を動作させ1枚の原稿をラスター状に走査し、イメージ情報入力処理120で600DPI−8ビットの画像信号を得る。該画像信号をデータ処理部115で前処理を施し記憶装置111に1ページ分の画像データとして保存する。マネージメントPC101のCPUは該格納された画像信号から先ず、文字/線画部分とハーフトーンの画像部分とに領域を分離し、文字部は更に段落で塊として纏まっているブロック毎に、或いは、線で構成された表、図形に分離し各々セグメント化する。一方ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等所謂ブロック毎に独立したオブジェクトに分割する(ステップ121)。
【0015】
このとき原稿画像中に付加情報として記録された2次元バーコード、或いはURLに該当するオブジェクトを検出しURLはOCRで文字認識し、或いは2次元バーコードなら該マークを解読して(ステップ122)該原稿のオリジナル電子ファイルが格納されている記憶装置内のポインタ情報を検出する(ステップ123)。尚、ポインタ情報を付加する手段は他に文字と文字の間隔に情報を埋め込む方法、ハーフトーンの画像に埋め込む方法等直接可視化されない所謂電子透かしによる方法も有る。
【0016】
ポインタ情報が検出された場合、ステップ125に分岐し、ポインタで示されたアドレスから元の電子ファイルを検索する。電子ファイルは図1においてクライアントPC内のハードディスク内、或いはオフィス10或いは20のLANに接続された文書管理サーバ105内のデータベース105内、或いはMFP100自体が有する記憶装置111のいずれかに格納されており、ステップ123で得られたアドレス情報に従ってこれらの記憶装置内を検索する。ステップ125で電子ファイルが見つからなかった場合、見つかったがPDFあるいはtiffに代表される所謂イメージファイルであった場合、或いはポインタ情報自体が存在しなかった場合はステップ126に分岐する。
【0017】
ステップ126は所謂文書検索処理ルーチンである。
【0018】
まずステップ122で各文字ブロックに対して行ったOCRの結果から単語を抽出して全文検索、或いは各オブジェクトの配列と各オブジェクトの属性から所謂レイアウト検索を行う。検索の結果、類似度の高い電子ファイルが見つかった場合、サムネイルやバージョン、ファイルのタイムスタンプ等を表示(ステップ127)し、複数の中から操作者の選択が必要なら操作者の入力操作よってファイルの特定や出力形式特定を行う。尚、候補が1ファイルの場合、自動的にステップ128からステップ133に分岐し格納アドレスを通知する。ステップ126の検索処理で電子ファイルが見つからなかった場合、或いは、見つかったがPDFあるいはtiffに代表される所謂イメージファイルであった場合、ステップ129に分岐する。
【0019】
ステップ129はイメージデータからベクトルデータへの変換処理部であり、オリジナル電子ファイルに近い電子ファイルに変換する。先ず、ステップ122でOCRされた文字ブロックに対しては、更に文字のサイズ、スタイル、字体を認識し、原稿を走査して得られた文字に可視的に忠実なフォントデータに変換する。一方線で構成される表、図形ブロックに対してはアウトライン化する。画像ブロックに対してはイメージデータとして個別のJPEGファイルとして処理する。これらのベクトル化処理は各オブジェクト毎に行い、更に各オブジェクトのレイアウト情報を保存して例えば、rtfに変換(ステップ130)して電子ファイルとして記憶装置111に格納(ステップ131)するか否か問い合わせる。
【0020】
今ベクトル化した原稿画像を格納する場合は、以降同様の処理を行う際に直接電子ファイルとして検索出来るように、先ずステップ132において検索の為のインデックス情報を生成して検索用インデックスファイルに追加する。検索処理で電子ファイルが特定できた場合も同様に以降からは直接電子ファイルを特定する為に、ステップ128からステップ132に分岐し、検索の為のインデックス情報を生成して検索用インデックスファイルに追加し、ステップ133にて、格納アドレスをMFP100に通知する。次にステップ134では、MFP100側では、今紙に記録または送信するか否かを判定する。例えば最終ページであったり、圧板からの蓄積でこれ以上原稿がない旨をオペレータが示せば、ステップ135に進む。続きのページがある場合は、次ページを処理するためにステップ120に進む。
【0021】
尚、ステップ125でポインタ情報から電子ファイルが特定できた場合、または検索処理で電子ファイルが特定出来た場合、ステップ133において該電子ファイルの格納アドレスをMFP100に通知する。
【0022】
尚、以上本発明によって得られた電子ファイル自体を用いて、例えば文書の加工、蓄積、伝送、記録をステップ135で行う事が可能になる。これらの処理はイメージデータを用いる場合に比べて、情報量が削減され、蓄積効率が高まり、伝送時間が短縮され、又記録表示する際には高品位なデータとして非常に優位となる。
【0023】
以下、各処理ブロックに対して詳細に説明する。
【0024】
先ずステップ121で示すブロックセレクション処理について説明する。
【0025】
[ブロックセレクション処理]
ブロックセレクション処理とは、図11の右に示すステップ120で読み取った一頁のイメージデータを左に示す様に、各オブジェクト毎の塊として認識し、該ブロック各々を文字/図画/写真/線/表等の属性に判定し、異なる属性を持つ領域に分割する処理である。
【0026】
ブロックセレクション処理の実施例を以下に説明する。
【0027】
先ず、入力画像を白黒に二値化し、輪郭線追跡をおこなって黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡をおこない白画素の塊を抽出、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。
【0028】
このようにして得られた黒画素の塊を、大きさおよび形状で分類し、異なる属性を持つ領域へ分類していく。たとえば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字領域、扁平な画素塊を線領域、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域、不定形の画素塊が散在している領域を写真領域、それ以外の任意形状の画素塊を図画領域、などとする。
【0029】
ブロックセレクション処理で得られた各ブロックに対するブロック情報を図12に示す。
【0030】
これらのブロック毎の情報は以降に説明するベクトル化、或いは検索の為の情報として用いる。
【0031】
[ポインタ情報の検出]
次に、ステップ122で示すファイルの格納位置をイメージ情報から抽出する為のOCR/OMR処理について説明する。
【0032】
図13は原稿画像中に付加された2次元バーコード(QRコードシンボル)を復号して、データ文字列を出力する過程を示すフローチャートである。2次元バーコードの付加された原稿310の一例を図14に示す。
【0033】
まず、データ処理装置115内のページメモリに格納された原稿310を表すイメージ画像をCPU(不図示)で走査して、先に説明したブロックセレクション処理の結果から所定の2次元バーコードシンボル311の位置を検出する。QRコードの位置検出パターンは、シンボルの4隅のうちの3済みに配置される同一の位置検出要素パターンから構成される(ステップ300)。
【0034】
次に、位置検出パターンに隣接する形式情報を復元し、シンボルに適用されている誤り訂正レベルおよびマスクパターンを得る(ステップ301)。
【0035】
シンボルの型番を決定した(ステップ302)後、形式情報で得られたマスクパターンを使って符号化領域ビットパターンをXOR演算することによってマスク処理を解除する(ステップ303)。
【0036】
尚、モデルに対応する配置規則に従い、シンボルキャラクタを読取り、メッセージのデータ及び誤り訂正コード語を復元する(ステップ304)。
【0037】
復元されたコード上に、誤りがあるかどうかの検出を行い(ステップ305)、誤りが検出された場合、ステップ306に分岐し、これを訂正する。
【0038】
誤り訂正されたデータより、モード指示子および文字数指示子に基づいて、データコード語をセグメントに分割する(ステップ307)。
【0039】
最後に、仕様モードに基づいてデータ文字を復号し、結果を出力する(ステップ308)。
【0040】
尚、2次元バーコード内に組み込まれたデータは、対応するファイルのアドレス情報を表しており、例えばファイルサーバ名およびファイル名からなるパス情報で構成される。或いは、対応するファイルへのURLで構成される。
【0041】
本実施例ではポインタ情報が2次元バーコードを用いて付与された原稿310について説明したが、直接文字列でポインタ情報が記録される場合は所定のルールに従った文字列のブロックを先のブロックセレクション処理で検出し、該、ポインタ情報を示す文字列の各文字を文字認識する事で、直接元ファイルのアドレス情報を得る事が可能である。
【0042】
又、或いは図14の文書310の文字ブロック312、或いは313の文字列に対して隣接する文字と文字の間隔等に視認し難い程度の変調を加え、該文字間隔に情報を埋め込むことでもポインタ情報を付与できる。該所謂透かし情報は後述する文字認識処理を行う際に各文字の間隔を検出すれば、ポインタ情報が得られる。又、自然画314の中に電子透かしとしてポインタ情報を付加する事も可能である。
【0043】
[ポインタ情報によるファイル検索]
次に、図3で先に説明したステップ125で示す、ポインタ情報からの電子ファイルの検索について図15のフローチャートを使用して説明する。
【0044】
まず、ポインタ情報に含まれるアドレスに基づいて、ファイルサーバを特定する。(ステップ400)
ここでファイルサーバとは、クライアントPC102や、データベース105を内蔵する文書管理サーバ106や、記憶装置111を内蔵するMFP100自身を指す。
【0045】
ここでアドレスとは、URLや、サーバ名とファイル名からなるパス情報である。
【0046】
ファイルサーバが特定できたら、ファイルサーバに対してアドレスを転送する。(ステップ401)ファイルサーバは、アドレスを受信すると、該当するファイルを検索する。(ステップ402)ファイルが存在しない場合(ステップ403−N)には、MFPに対してその旨通知する。
【0047】
ファイルが存在した場合(ステップ403−Y)には、図3で説明した様に、ファイルのアドレスを通知(ステップ133)すると共に、ユーザの希望する処理が画像ファイルデータの取得であれば、MFPに対してファイルを転送する。(ステップ408)
[ファイル検索処理]
次に、図3のステップ126で示すファイル検索処理の詳細について図12、図16を使用して説明を行う。
【0048】
ステップ126の処理は、前述したように、ステップ124で入力原稿(入力ファイル)にポインタ情報が存在しなかった場合、または、ポインタ情報は在るが電子ファイルが見つからなかった場合、或いは電子ファイルがイメージファイルであった場合に行われる。
【0049】
ここでは、ステップ122の結果、抽出された各ブロック及び入力ファイルが、図12に示す情報(ブロック情報、入力ファイル情報)を備えるものとする。情報内容として、属性、座標位置、幅と高さのサイズ、OCR情報有無を例としてあげる。属性は、文字、線、写真、絵、表その他に分類する。また簡単に説明を行うため、ブロックは座標Xの小さい順、即ち(例、X1 < X2 < X3 < X4< X5< X6)にブロック1、ブロック2、ブロック3、ブロック4、ブロック5、ブロック6と名前をつけている。ブロック総数は、入力ファイル中の全ブロック数であり、図16の場合は、ブロック総数は6である。以下、これらの情報を使用して、データベース内から、入力ファイルに類似したファイルのレイアウト検索を行うフローチャートを図16に示す。ここで、データベースファイルは、図12と同様の情報を備えることを前提とする。
【0050】
フローチャートの流れは、入力ファイルとデータベース中のファイルを順次比較するものである。まず、ステップ510にて、後述する類似率などの初期化を行う。次に、ステップ511にてブロック総数の比較を行い、ここで、真の場合、さらにファイル内のブロックの情報を順次比較する。ブロックの情報比較では、ステップ513,515,518にて、属性類似率、サイズ類似率、OCR類似率をそれぞれ算出し、ステップ522にてそれらをもとに総合類似率を算出する。各類似率の算出方法については、公知の技術が用いられるので説明を省略する。ステップ523にて総合類似率が、予め設定された閾値Thより高ければステップ524にてそのファイルを類似候補としてあげる。但し、図中のN、W、Hは、入力ファイルのブロック総数、各ブロック幅、各ブロック高さとし、ΔN、ΔW、ΔHは、入力ファイルのブロック情報を基準として誤差を考慮したものである。n、w、hは、データベースファイルのブロック総数、各ブロック幅、各ブロック高さとする。また、不図示ではあるが、ステップ514にてサイズ比較時に、位置情報XYの比較などを行ってもよい。
【0051】
以上、検索の結果、類似度が閾値Thより高く、候補として保存されたデータベースファイル(ステップ524)をサムネイル等で表示(ステップ127)する。複数の中から操作者の選択が必要なら操作者の入力操作よってファイルの特定を行う。
【0052】
[ベクトル化処理]
ファイルサーバに元ファイルが存在しない場合は、図11に示すイメージデータを各ブロック毎にベクトル化する。次に、ステップ129で示されるベクトル化について詳説する。まず、文字ブロックに対しては各文字に対して文字認識処理を行う。
【0053】
『文字認識』
文字認識部では、文字単位で切り出された画像に対し、パターンマッチの一手法を用いて認識を行い、対応する文字コードを得る。この認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルと比較し、最も距離の近い字種を認識結果とする処理である。特徴ベクトルの抽出には種々の公知手法があり、たとえば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。
【0054】
ブロックセレクション(ステップ121)で抽出された文字領域に対して文字認識を行う場合は、まず該当領域に対し横書き、縦書きの判定をおこない、各々対応する方向に行を切り出し、その後文字を切り出して文字画像を得る。横書き、縦書きの判定は、該当領域内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き領域、垂直射影の分散が大きい場合は縦書き領域と判断すればよい。文字列および文字への分解は、横書きならば水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことでおこなう。縦書きの文字領域に対しては、水平と垂直を逆にすればよい。尚、この時文字のサイズが検出出来る。
【0055】
『フォント認識』
文字認識の際に用いる、字種数ぶんの辞書特徴ベクトルを、文字形状種すなわちフォント種に対して複数用意し、マッチングの際に文字コードとともにフォント種を出力することで、文字のフォントが認識出来る。
【0056】
『文字のベクトル化』
前記文字認識およびフォント認識よって得られた、文字コードおよびフォント情報を用いて、各々あらかじめ用意されたアウトラインデータを用いて、文字部分の情報をベクトルデータに変換する。なお、元原稿がカラーの場合は、カラー画像から各文字の色を抽出してベクトルデータとともに記録する。
【0057】
以上の処理により、文字ブロックに属するイメージ情報をほぼ形状、大きさ、色が忠実なベクトルデータに変換出来る。
【0058】
『文字以外の部分のベクトル化』
ブロックセレクション処理(ステップ121)で、図画あるいは線、表領域とされた領域を対象に、中で抽出された画素塊の輪郭をベクトルデータに変換する。具体的には、輪郭をなす画素の点列を角と看倣される点で区切って、各区間を部分的な直線あるいは曲線で近似する。角とは曲率が極大となる点であり、曲率が極大となる点は、図17に図示するように、任意点Piに対し左右k個の離れた点Pi−k,Pi+kの間に弦を引いたとき、この弦とPiの距離が極大となる点として求められる。さらに、Pi−k,Pi+k間の弦の長さ/弧の長さをRとし、Rの値が閾値以下である点を角とみなすことができる。角によって分割された後の各区間は、直線は点列に対する最小二乗法など、曲線は3次スプライン関数などを用いてベクトル化することができる。
【0059】
また、対象が内輪郭を持つ場合、ブロックセレクションで抽出した白画素輪郭の点列を用いて、同様に部分的直線あるいは曲線で近似する。
【0060】
以上のように、輪郭の区分線近似を用いれば、任意形状の図形のアウトラインをベクトル化することができる。元原稿がカラーの場合は、カラー画像から図形の色を抽出してベクトルデータとともに記録する。
【0061】
さらに、図18に示す様に、ある区間で外輪郭と、内輪郭あるいは別の外輪郭が近接している場合、2つの輪郭線をひとまとめにし、太さを持った線として表現することができる。具体的には、ある輪郭の各点Piから別輪郭上で最短距離となる点Qiまで線を引き、各距離PQiが平均的に一定長以下の場合、注目区間はPQi中点を点列として直線あるいは曲線で近似し、その太さはPQiの平均値とする。線や線の集合体である表罫線は、前記のような太さを持つ線の集合として効率よくベクトル表現することができる。
【0062】
尚 先に文字ブロックに対する文字認識処理を用いたベクトル化を説明したが、該文字認識処理の結果、辞書からの距離が最も近い文字を認識結果として用いるが、この距離が所定値以上の場合は、必ずしも本来の文字に一致せず、形状が類似する文字に誤認識している場合が多い。従って、本発明では、この様な文字に対しては、上記した様に、一般的な線画と同じに扱い、該文字をアウトライン化する。即ち、従来文字認識処理で誤認識を起こす文字に対しても誤った文字にベクトル化されず、可視的にイメージデータに忠実なアウトライン化によるベクトル化が行える。
【0063】
又、写真と判定されたブロックに対しては本発明では、ベクトル化出来ない為、イメージデータのままとする。
【0064】
[図形認識]
上述したように任意形状の図形のアウトラインをベクトル化した後、これらベクトル化された区分線を図形オブジェクト毎にグループ化する処理について説明する。
【0065】
図19は、ベクトルデータを図形オブジェクト毎にグループ化するまでのフローチャートを示している。まず、各ベクトルデータの始点、終点を算出する(700)。次に各ベクトルの始点、終点情報を用いて、図形要素を検出する(701)。図形要素の検出とは、区分線が構成している閉図形を検出することである。検出に際しては、閉形状を構成する各ベクトルはその両端にそれぞれ連結するベクトルを有しているという原理を応用し、検出を行う。次に図形要素内に存在する他の図形要素、もしくは区分線をグループ化し、一つの図形オブジェクトとする(702)。また、図形要素内に他の図形要素、区分線が存在しない場合は図形要素を図形オブジェクトとする。
【0066】
図20は、図形要素を検出するフローチャートを示している。先ず、ベクトルデータより両端に連結していない不要なベクトルを除去し、閉図形構成ベクトルを抽出する(710)。次に閉図形構成ベクトルの中から該ベクトルの始点を開始点とし、時計回りに順にベクトルを追っていく。開始点に戻るまで行い、通過したベクトルを全て一つの図形要素を構成する閉図形としてグループ化する(711)。また、閉図形内部にある閉図形構成ベクトルも全てグループ化する。さらにまだグループ化されていないベクトルの始点を開始点とし、同様の処理を繰り返す。最後に、710で除去された不要ベクトルのうち、711で閉図形としてグループ化されたベクトルに接合しているものを検出し一つの図形要素としてグループ化する(712)。
【0067】
以上によって図形ブロックを個別に再利用可能な個別の図形オブジェクトとして扱う事が可能になる。
【0068】
[アプリデータへの変換処理]
ところで、一頁分のイメージデータをブロックセレクション処理(121)し、ベクトル化処理(129)した結果は図21に示す様な中間データ形式のファイルとして変換されているが、このようなデータ形式はドキュメント・アナリシス・アウトプット・フォーマット(DAOF)と呼ばれる。
【0069】
図21はDAOFのデータ構造を示す図である。
【0070】
図21において、791はHeaderであり、処理対象の文書画像データに関する情報が保持される。レイアウト記述データ部792では、文書画像データ中のTEXT(文字)、TITLE(タイトル)、CAPTION(キャプション)、LINEART(線画)、EPICTURE(自然画)、FRAME(枠)、TABLE(表)等の属性毎に認識された各ブロックの属性情報とその矩形アドレス情報を保持する。文字認識記述データ部793では、TEXT、TITLE、CAPTION等のTEXTブロックを文字認識して得られる文字認識結果を保持する。表記述データ部794では、TABLEブロックの構造の詳細を格納する。画像記述データ部795は、PICTUREやLINEART等のブロックのイメージデータを文書画像データから切り出して保持する。
【0071】
このようなDAOFは、中間データとしてのみならず、それ自体がファイル化されて保存される場合もあるが、このファイルの状態では、所謂一般の文書作成アプリケーションで個々のオブジェクトを再利用する事は出来ない。そこで、次に このDAOFからアプリデータに変換する処理130について詳説する。
【0072】
図22は、全体の概略フローである。
【0073】
8000は、DAOFデータの入力を行う。
【0074】
8002は、アプリデータの元となる文書構造ツリー生成を行う。
【0075】
8004は、文書構造ツリーを元に、DAOF内の実データを流し込み、実際のアプリデータを生成する。
【0076】
図23は、8002文書構造ツリー生成部の詳細フロー、図24は、文書構造ツリーの説明図である。全体制御の基本ルールとして、処理の流れはミクロブロック(単一ブロック)からマクロブロック(ブロックの集合体)へ移行する。
【0077】
以後ブロックとは、ミクロブロック、及びマクロブロック全体を指す。
【0078】
8100は、ブロック単位で縦方向の関連性を元に再グループ化する。スタート直後はミクロブロック単位での判定となる。
【0079】
ここで、関連性とは、距離が近い、ブロック幅(横方向の場合は高さ)がほぼ同一であることなどで定義することができる。
【0080】
また、距離、幅、高さなどの情報はDAOFを参照し、抽出する。
【0081】
図24(a)は実際のページ構成、(b)はその文書構造ツリーである。8100の結果、T3,T4,T5が一つのグループV1、T6,T7が一つのグループV2が同じ階層のグループとしてまず生成される。
【0082】
8102は、縦方向のセパレータの有無をチェックする。セパレータは、例えば物理的にはDAOF中でライン属性を持つオブジェクトである。また論理的な意味としては、アプリ中で明示的にブロックを分割する要素である。ここでセパレータを検出した場合は、同じ階層で再分割する。
【0083】
8104は、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する。
【0084】
ここで、縦方向のグループ長がページ高さとなっている場合は、文書構造ツリー生成は終了する。
【0085】
図24の場合は、セパレータもなく、グループ高さはページ高さではないので、8106に進む。
【0086】
8106は、ブロック単位で横方向の関連性を元に再グループ化する。ここもスタート直後の第一回目はミクロブロック単位で判定を行うことになる。
【0087】
関連性、及びその判定情報の定義は、縦方向の場合と同じである。
【0088】
図24の場合は、T1,T2でH1、V1,V2でH2、がV1,V2の1つ上の同じ階層のグループとして生成される。
【0089】
8108は、横方向セパレータの有無をチェックする。
【0090】
図24では、S1があるので、これをツリーに登録し、H1,S1,H2という階層が生成される。
【0091】
8110は、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する。
【0092】
ここで、横方向のグループ長がページ幅となっている場合は、文書構造ツリー生成は終了する。
【0093】
そうでない場合は、8102に戻り、再びもう一段上の階層で、縦方向の関連性チェックから繰り返す。
【0094】
図24の場合は、分割幅がページ幅になっているので、ここで終了し、最後にページ全体を表す最上位階層のV0が文書構造ツリーに付加される。
【0095】
文書構造ツリーが完成した後、その情報を元に8006においてアプリデータの生成を行う。
【0096】
図24の場合は、具体的には、以下のようになる。
【0097】
すなわち、H1は横方向に2つのブロックT1とT2があるので、2カラムとし、T1の内部情報(DAOFを参照、文字認識結果の文章、画像など)を出力後、カラムを変え、T2の内部情報出力、その後S1を出力となる。
【0098】
H2は横方向に2つのブロックV1とV2があるので、2カラムとして出力、V1はT3,T4,T5の順にその内部情報を出力、その後カラムを変え、V2のT6,T7の内部情報を出力する。
【0099】
以上によりアプリデータへの変換処理が行える。
【0100】
[ポインタ情報の付加]
次に、ステップ133で示す、ポインタ情報付加処理について説明する。
【0101】
今 処理すべき文書が検索処理で特定された場合、あるいはベクトル化によって元ファイルが再生できた場合において、該文書を記録処理する場合においては、紙への記録の際にポインタ情報を付与する事で、この文書を用いて再度各種処理を行う場合に簡単に元ファイルデータを取得できる。
【0102】
図25はポインタ情報としてのデータ文字列を2次元バーコード(QRコードシンボル:JIS X0510)311にて符号化して画像中に付加する過程を示すフローチャートである。
【0103】
2次元バーコード内に組み込むデータは、対応するファイルのアドレス情報を表しており、例えばファイルサーバ名およびファイル名からなるパス情報で構成される。或いは、対応するファイルへのURLや、対応するファイルの格納されているデータベース105内あるいはMFP100自体が有する記憶装置内で管理されるファイルID等で構成される。
【0104】
まず、符号化する種種の異なる文字を識別するため、入力データ列を分析する。また、誤り検出及び誤り訂正レベルを選択し、入力データが収容できる最小型番を選択する。 (ステップ900)。
【0105】
次に、入力データ列を所定のビット列に変換し、必要に応じてデータのモード(数字、英数字、8ビットバイト、漢字等)を表す指示子や、終端パターンを付加する。さらに所定のビットコード語に変換する。(ステップ901)。
【0106】
この時、誤り訂正を行うため、コード語列を型番および誤り訂正レベルに応じて所定のブロック数に分割し、各ブロック毎に誤り訂正コード語を生成し、データコード語列の後に付加する(ステップ902)。
【0107】
該ステップ902で得られた各ブロックのデータコード語を接続し、各ブロックの誤り訂正コード語、必要に応じて剰余コード語を後続する。(ステップ903)。
【0108】
次に、マトリクスに位置検出パターン、分離パターン、タイミングパターンおよび位置合わせパターン等とともにコード語モジュールを配置する。(ステップ904)。
【0109】
更に、シンボルの符号化領域に対して最適なマスクパターンを選択して、マスク処理パターンをステップ904で得られたモジュールにXOR演算により変換する。(ステップ905)。
【0110】
最後に、ステップ905で得られたモジュールに形式情報および型番情報を生成して、2次元コードシンボルを完成する。(ステップ906)。
【0111】
上記に説明した、アドレス情報の組み込まれた2次元バーコードは、例えば、クライアントPC102から電子ファイルをプリントデータとして記録装置112に紙上に記録画像として形成する場合に、データ処理装置115内で記録可能なラスターデータに変換された後にラスターデータ上の所定の個所に付加されて画像形成される。ここで画像形成された紙を配布されたユーザは、画像読取り部110で読み取ることにより、前述したステップ123にてポインタ情報からオリジナル電子ファイルの格納場所を検出することができる。
【0112】
尚、同様の目的で付加情報を付与する手段は、本実施例で説明した2次元バーコードの他に、例えば、ポインタ情報を直接文字列で文書に付加する方法、文書内の文字列、特に文字と文字の間隔を変調して情報を埋め込む方法、文書中の中間調画像中に埋め込む方法等、一般に電子透かしと呼ばれる方法が適用出来る。
【0113】
[ポータルシート生成部]
以下、図10を参照してポータルシート1901について説明する。
【0114】
図10のポータルシートには、6つの原稿の情報が記録されている。それぞれは、以下の1902−1905の情報からなっている。
【0115】
1903は、原稿の縮小画像(サムネール)で、1ページ目を表している。
【0116】
1902,1904は日付、タイトル、作者、ID、キーワード、要約等の1903のサムネイルに関連する情報で、予め原稿に付随している情報であったり、ユーザが入力した情報であったり、原稿の内容から自動的に抽出された情報であったりする。
【0117】
1905は原稿の蓄積場所等を示すためのポインタである。ここでは二次元バーコードで表されているが、1次元バーコードであったり、電子透かしであっても問わない。
【0118】
[ポータルシート内のインデックス生成(ページ情報として)]
『タイトル』
テキストデータに対してタイトルを抽出する方法としては以下の方法がある。
【0119】
前述の方法により抽出したレイアウト情報およびフォント情報を利用し、テキストデータの最初の部分に現れるフォントの大きい文で、かつテキストデータ中に使用される頻度の高い文がタイトルとして適している。
【0120】
『キーワード』
テキストデータに対してキーワードを抽出する方法としては以下の方法がある。
【0121】
まずテキストデータ全体を形態素解析などにより、単語に分解する。全単語を使用頻度によりソートし、頻度の高いものから順にキーワードとする。さらに、より有効なキーワードを抽出するには、予め用意したキーワード用のデータベースと照合するのも良い。
【0122】
『ID、日付、著作者』
これらの情報に関しては、電子ファイルの検索によりファイルが存在した場合に、そのファイルの属性情報として取得する。
【0123】
『要約』
文字コード列で構成されるテキストデータに対して、その要約を作成する方法としては、次のようなものがある。
【0124】
まずテキストデータを文あるいは文節単位に分解する。これは句読点の文字コードを境界として機械的に分割することができる。次にそれぞれの文あるいは文節に対し重要度を計算して付与する。この重要度の計算方法としては、テキストデータ全体に含まれる単語に対して出現頻度を求め、頻繁に出現する単語に高い点数を与え、各文あるいは文節の重要度は、その中に含まれる各単語の点数の総和とする方法、レイアウト情報やフォント情報を用いて、タイトルや見出しに相当する文を検出し、その文自体の重要度を高めたり、文に含まれる単語の点数を上げて重要度を計算したりする方法、などがある。最後に、重要度が上位の文あるいは文節を抽出することで要約文が作成される。このとき、上位何位まで抽出するかを変化させて、所望のサイズの要約文を生成することが可能である。
【0125】
『目次』
複数ページに渡るようなテキストデータに対して目次を作成するには、テキストをレイアウト上の空白などから段落に分割し、それぞれに要約を施して一行程度の要約文を割りあてればよい。特に、前述のようにレイアウト情報やフォント情報からタイトルや見出しとして抽出された文は、目次として最適である。
【0126】
『ポータルシートへのポインタ情報の付加』
次に、原稿の蓄積場所を示すためのポインタ情報付加処理について説明する。
【0127】
図25はポインタ情報としてのデータ文字列を2次元バーコード(QRコードシンボル:JIS X0510)311にて符号化して画像中に付加する過程を示すフローチャートである。
【0128】
2次元バーコード内に組み込むデータは、対応するファイルのアドレス情報を表しており、例えばファイルサーバ名およびファイル名からなるパス情報で構成される。或いは、対応するファイルへのURLや、対応するファイルの格納されているデータベース105内あるいはMFP100自体が有する記憶装置内で管理されるファイルID等で構成される。
【0129】
まず、符号化する種種の異なる文字を識別するため、入力データ列を分析する。また、誤り検出及び誤り訂正レベルを選択し、入力データが収容できる最小型番を選択する。(ステップ900)。
【0130】
次に、入力データ列を所定のビット列に変換し、必要に応じてデータのモード(数字、英数字、8ビットバイト、漢字等)を表す指示子や、終端パターンを付加する。さらに所定のビットコード語に変換する。(ステップ901)。
【0131】
この時、誤り訂正を行うため、コード語列を型番および誤り訂正レベルに応じて所定のブロック数に分割し、各ブロック毎に誤り訂正コード語を生成し、データコード語列の後に付加する(ステップ902)。
【0132】
該ステップ902で得られた各ブロックのデータコード語を接続し、各ブロックの誤り訂正コード語、必要に応じて剰余コード語を後続する。(ステップ903)。
【0133】
次に、マトリクスに位置検出パターン、分離パターン、タイミングパターンおよび位置合わせパターン等とともにコード語モジュールを配置する。(ステップ904)。
【0134】
更に、シンボルの符号化領域に対して最適なマスクパターンを選択して、マスク処理パターンをステップ904で得られたモジュールにXOR演算により変換する。(ステップ905)。
【0135】
最後に、ステップ905で得られたモジュールに形式情報および型番情報を生成して、2次元コードシンボルを完成する。(ステップ906)。
【0136】
上記に説明した、アドレス情報の組み込まれた2次元バーコードは、例えば、クライアントPC102からポータルシートを生成する場合に、データ処理装置115内で記録可能なラスターデータに変換された後にラスターデータ上の所定の個所に付加されて画像形成される。
【0137】
尚、同様の目的で付加情報を付与する手段は、本実施例で説明した2次元バーコードの他に、例えば、ポインタ情報を直接文字列で文書に付加する方法、文書内の文字列、特に文字と文字の間隔を変調して情報を埋め込む方法、文書中の中間調画像中に埋め込む方法等、一般に電子透かしと呼ばれる方法が適用出来る。
【0138】
以下電子透かしを適用して、ポータルシート上に掲載される中間調画像(サムネール画像)中へコード情報を埋め込む例について説明する。
【0139】
コード情報はバイナリデータ列として画像上の各色成分一画素について一ビットを重み付けて埋め込まれる。画素にコード情報を埋め込む際、近傍画素で構成される一つのブロックに対し一つのコード情報を埋め込む。コード情報は互いに重ならない複数のブロックに対して繰り返し埋め込まれる。ここで、同じコード情報が埋め込まれた複数のブロックが構成するブロックをマクロブロックとよぶ。なお、サムネイル画像全体をマクロブロックとすることも可能である。埋め込まれたコード情報を取り出す際はマクロブロックよりブロック毎の相互相関を求め、その統計量よりコード情報が抽出できる。
【0140】
このような画像へのコード情報の埋め込みは人間の視覚では認識できないレベルで画素を変化させることで十分埋め込み可能であるが、ポータルシートで使用するサムネイル画像では、その目的上画質を気にしないため、より重みを強くして埋め込むことで耐性を持った埋め込みも可能である。
【0141】
[ポインタ情報判定コピーの実施例]
先のポインタ情報検出の実施例において、検索手段で元ファイル群の特定が出来ても、元ファイルをコピーするのに不都合が生じる場合がある。例えば速度低下発生、ポータルシートの一部のみをトリミングしたい場合、またはポータルシートそのものをコピーしたい場合、などがこれに該当する。
【0142】
このような背景から、ポインタ情報判定後にオペレータに問い合わせるコピーの実施例として、図4をもって説明する。ステップ120〜134は前述の処理概要と同等の処理であり、説明を省略する。
【0143】
ステップ124において、ポインタ情報を検出し、ステップ125において電子ファイルの存在を検出した場合、ステップ143において前ページもポインタ情報が含まれる原稿であったか否かを判定する。ステップ143において、前ページもポインタ情報がある場合は、前ページでオペレータが選択した処理に従って、そのままコピーまたは、ポインタ情報で示される電子ファイルの出力を行う。(ステップ142)。一方で、前ページにポインタ情報が含まれない場合、オペレータに問い合わせる。この際の画面例を図6に示す。オペレータがそのままコピーを選択した場合、スキャンした画像をMFP内のメモリに記録し、ステップ134に進む。ステップ134で最終ページまたはオペレータが出力を希望する場合は、ステップ135にて出力画像を形成し、画像出力を行う。ステップ134で続けて読み取る場合は、ステップ120に戻る。次にステップ144でオペレータがオリジナルデータのコピーを選択した場合、ステップ133に進み、ポインタ情報から格納アドレスを通知して、出力対象の文書またはページをMFP内のメモリに蓄積し、ステップ134に進む。
【0144】
次にステップ124において、ポインタ情報が検出されなかった場合、ステップ140に進む。
【0145】
ステップ140では、前ページもポインタ情報が含まれない原稿であったか否かを判定する。前ページもポインタ情報がない場合は、前ページでオペレータが選択した処理に従って、そのままコピーまたは、読み取った原稿をベクトル化し、その結果の電子ファイルの出力を行う。(ステップ142)。一方で前ページにポインタ情報が含まれていた場合、ステップ141に進み、オペレータに問い合わせる。この際の画面例を図7に示す。オペレータがそのままコピーを選択した場合、スキャンした画像をMFP内のメモリに記録し、ステップ134に進む。次にステップ141でオペレータがベクトル化してからコピーを選択した場合、ステップ126に進み同一データの検索、候補選択、ベクトル化などを行い、ステップ133に進む。
【0146】
また、図6および図7において一定時間入力が無い場合は、ユーザ設定に基づいたデフォルトの動作を行ってもよい。
【0147】
また別の実施例では、ステップ143およびステップ140の判定処理を省略し、読み取るたびにオペレータに問い合わせる構成もある。
【0148】
[ポインタ情報判定送信の実施例]
先のポインタ情報判定コピーの実施例を拡張した、ポータルシートの送信を行う場合の実施例を図5を用いて説明する。
【0149】
ステップ120〜134は前述の処理概要と同等の処理であり、説明を省略する。
【0150】
ステップ124において、ポインタ情報を検出し、ステップ125において電子ファイルの存在を検出した場合、ステップ143において前ページもポインタ情報が含まれる原稿であったか否かを判定する。ステップ143において、前ページもポインタ情報がある場合は、前ページでオペレータが選択した処理に従って、そのまま送信または、ポインタ情報で示される電子ファイルの送信または、ポインタ情報の通知を行う。(ステップ151)。一方で、前ページにポインタ情報が含まれない場合、オペレータに問い合わせる。この際の画面例を図8に示す。オペレータがそのまま送信を選択した場合、スキャンした画像をMFP内のメモリに記録し、ステップ134に進む。ステップ134で最終ページまたはオペレータが出力を希望する場合は、ステップ135にて出力画像を形成し、画像送信を行う。ステップ134で続けて読み取る場合は、ステップ120に戻る。次にステップ152でオペレータがオリジナルデータの送信を選択した場合、ステップ133に進み、ポインタ情報から格納アドレスを通知して、出力対象の文書またはページまたはデータをMFP内のメモリに蓄積し、ステップ134、ステップ135に進む。ステップ135においては、送信手段がemailやfile送信など、データを扱える場合は、オリジナルデータを、送信手段がIFAXやFAXなど画像のみを扱う場合は、オリジナルデータを送信可能な画像形式に変換して、それぞれ送信する。一方で、ステップ152でオペレータがオリジナルデータのURLの送信を選択した場合、ステップ133に進み、ポインタ情報から格納アドレスを通知して、MFP内のメモリに蓄積し、ステップ134、ステップ135に進む。ステップ135においては、送信手段がemailやfile送信など、データを扱える場合は、格納アドレスを文字列で、送信手段がIFAXやFAXなど画像のみを扱う場合は、格納アドレスを示す文字列を送信可能な画像形式に変換して、それぞれ送信する。
【0151】
次にステップ124において、ポインタ情報が検出されなかった場合、ステップ140に進む。
【0152】
ステップ140では、前ページもポインタ情報が含まれない原稿であったか否かを判定する。前ページもポインタ情報がない場合は、前ページでオペレータが選択した処理に従って、そのまま送信または、読み取った原稿をベクトル化し、その結果の電子ファイルの送信または、格納アドレスの通知を行う。(ステップ151)。一方で前ページにポインタ情報が含まれていた場合、ステップ150に進み、オペレータに問い合わせる。この際の画面例を図9に示す。オペレータがそのまま送信を選択した場合、スキャンした画像をMFP内のメモリに記録し、ステップ134に進む。次にステップ150でオペレータがベクトル化してから送信を選択した場合、ステップ126に進み同一データの検索、候補選択、ベクトル化などを行い、ステップ133に進む。この場合ステップ135では、送信手段がemailやfile送信など、データを扱える場合は、ベクトル化したデータを、送信手段がIFAXやFAXなど画像のみを扱う場合は、ベクトル化したデータを送信可能な画像形式に変換して、それぞれ送信する。
【0153】
次にステップ150において、オペレータがベクトル化してからURL送信を選択した場合、ステップ126に進み同一データの検索、候補選択、ベクトル化などを行ってデータを格納し、ステップ133に進む。この場合ステップ135においては、送信手段がemailやfile送信など、データを扱える場合は、格納アドレスを文字列で、送信手段がIFAXやFAXなど画像のみを扱う場合は、格納アドレスを示す文字列を送信可能な画像形式に変換して、それぞれ送信する。
【0154】
また、図8および図9において一定時間入力が無い場合は、ユーザ設定に基づいたデフォルトの動作を行ってもよい。
【0155】
また別の実施例では、ステップ143およびステップ140の判定処理を省略し、読み取るたびにオペレータに問い合わせる構成もある。
【図面の簡単な説明】
【0156】
【図1】システム構成図。
【図2】MFP構成図。
【図3】処理概要。
【図4】ポインタ情報判定処理概要フロー図1。
【図5】ポインタ情報判定処理概要フロー図2。
【図6】オペレータ問い合わせ1画面例。
【図7】オペレータ問い合わせ2画面例。
【図8】オペレータ問い合わせ3画面例。
【図9】オペレータ問い合わせ4画面例。
【図10】ポータルシート概念図。
【図11】ブロックセレクション処理の概念図。
【図12】ブロック情報。
【図13】ファイルの格納位置をイメージ情報から抽出するフロー図。
【図14】2次元バーコードの付加された原稿の一例。
【図15】ポインタ情報によるファイル検索フロー図。
【図16】ファイル検索処理フロー図。
【図17】文字以外の部分のベクトル化にまつわる角判定の説明図。
【図18】文字以外の部分のベクトル化にまつわる輪郭の区分線近似の説明図。
【図19】図形オブジェクト認識処理のフロー図。
【図20】図形要素検出処理のフロー図。
【図21】ベクトル化後の中間データ形式の構造を示す図。
【図22】アプリデータ変換処理のフロー図。
【図23】文書構造ツリー生成処理のフロー図。
【図24】文書構造ツリー説明図。
【図25】ポインタ情報としての2次元バーコードを付加する過程を示すフロー図。
【技術分野】
【0001】
本願発明は、画像入力機能、画像処理機能、画像出力機能を有した、複写機などの画像形成装置に関するものである。
【背景技術】
【0002】
近年、環境問題が叫ばれる中、オフィスでのペーパーレス化が急速に進んでいる。即ち、従来からバインダー等で蓄積された紙文書をスキャナで読み取りポータブルドキュメントフォーマット(以降PDFと記す)に変換して画像記憶装置にデータベースとして蓄積し、文書管理システムを構築出来る。一方、機能が拡張されたMFPでは、予め画像を記録する際に、該画像ファイルが存在する画像記憶装置内のポインタ情報を該文書の表紙或いは記載情報中に付加情報として記録して置き、再度、該文書を複写等再利用する際に、このポインタ情報からオリジナル電子ファイルの格納場所を検出し、該電子ファイルの元情報を直接用いる事で、紙文書全体の保存を削減する。
【0003】
このような背景の中で、画像読み取り走査手段で得られるイメージ情報をベクトル化手段でベクトルデータに変換し、該変換されたベクトルデータを紙文書に記載された情報として変換する方法を用いることによって、いかなる紙文書に対しても再利用可能な電子ファイルとして扱える画像処理システムが提案されている。ベクトル化手段を有する画像処理システムでは、スキャン、ファイル検索、ベクトル化を経て、特定または生成された全ページのページ情報、すなわち、サムネイル、タイトル、要約、キーワード、ID、日付、著作者、及び処理結果へのポインタ情報等を含むインデックスシート(以後ポータルシートとする)を生成し、出力している。
【特許文献1】特開2004−252843
【発明の開示】
【発明が解決しようとする課題】
【0004】
ポータルシートは、複数の原稿情報を1枚のシートに集約したものであり、オペレータが、複写または送信しようとしている原稿束内にポータルシートが含まれる場合、ポータルシートに記載されている元原稿の情報を複写または送信する場合と、ポータルシートそのものを複写または送信する場合の判断が付かず、意図しない誤った原稿を出力・送付してしまう問題がある。
【0005】
本発明は、上述の課題に鑑みてなされたものであり、その目的とするところは、ポータルシートと、その他の通常の原稿が混在された原稿を、オペレータの意図する出力結果を得るために、自動的に判別し、オペレータに問い合わせること、また必要な情報のみを出力・送付することで用紙および通信コストの削減が可能な画像形成装置を提供することにある。
【課題を解決するための手段】
【0006】
上記問題を解決するために、本発明の画像形成装置は、原稿をスキャンして得られたイメージ情報から、該原稿に付加的に記録された1つ以上の電子ファイルの格納場所示す情報を認識するファイル特定手段と、該原稿に付加的に記録された電子ファイルの格納場所情報が検出できない場合に、イメージ情報をベクトルデータに変換するベクトル化手段と、出力イメージを形成する出力イメージ形成手段と、前記出力イメージを形成する際に、読み取ったページ自体の処理を行うか否かをオペレータに問い合わせて選択させる出力データ選択手段と、を有する。
【発明の効果】
【0007】
画像形成装置において、原稿を読み取り走査する走査手段と、前記走査手段で得られたイメージ情報から、該原稿に付加的に記録された1つ以上の電子ファイルの格納場所示す情報を認識するファイル特定手段と、該原稿に付加的に記録された電子ファイルの格納場所情報が検出できない場合に、イメージ情報をベクトル化手段でベクトルデータに変換する手段と、読み取ったイメージ情報に所定の画像処理を施して出力イメージを形成する出力イメージ形成手段と、前記出力イメージを形成する際に、読み取ったページ自体の処理を行うか、否かをオペレータに問い合わせる、出力データ選択手段とを有することにより、
1つ以上の原稿の情報を保持するインデックスシートと、その他の通常の原稿が混在された原稿束を処理する際に、必要な情報のみを選択的に出力・送付することで用紙および通信にかかるコスト削減を可能とする効果が得られる。
【発明を実施するための最良の形態】
【0008】
本願発明の実施の形態について説明する。図1は本願発明にかかる画像処理システム構成例を示すブロック図である。この画像処理システムは、オフィス10とオフィス20とをインターネット104で接続された環境で実現する。オフィス10内に構築されたLAN107には、MFP100、MFP100を制御するマネージメントPC101、クライアントPC(外部記憶手段)102文書管理サーバ106、そのデータベース105およびプロキシサーバ103が接続されている。LAN107及びオフィス20内のLAN108はプロキシサーバ13を介してインターネット104に接続される。MFP100は本発明において紙文書の画像読み取り部と読み取った画像信号に対する画像処理の1部を担当し、画像信号はLAN109を用いてマネージメントPC101に入力する。マネージメントPCは通常のPCであり、内部に画像記憶手段、画像処理手段、表示手段、入力手段を有するが、その一部をMFP100に一体化して構成されている。
【0009】
図2はMFP100の構成図である。図2においてオートドキュメントフィーダー(以降ADFと記す)を含む画像読み取り部110は束状の或いは1枚の原稿画像を図示しない光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスター状の画像読み取り信号を600DPIの密度のイメージ情報として得る。通常の複写機能はこの画像信号をデータ処理部115で記録信号へ画像処理し、複数毎複写の場合は記録装置111に一旦1ページ分の記録データを記憶保持した後、記録装置112に順次出力して紙上に画像を形成する。
【0010】
一方クライアントPC102から出力されるプリントデータはLAN107からネットワークIF114を経てデータ処理装置115で記録可能なラスターデータに変換した後、前記記録装置で紙上に記録画像として形成される。
【0011】
MFP100への操作者の指示はMFPに装備されたキー操作部とマネージメントPCに入力されるキーボード及びマウスからなる入力装置113から行われ、これら一連の動作はデータ処理装置115内の図示しない制御部で制御される。
【0012】
一方、操作入力の状態表示及び処理中の画像データの表示は表示装置116で行われる。尚記憶装置111はマネージメントPCからも制御され、これらMFPとマネージメントPCとのデータの授受及び制御はネットワークIF117および直結したLAN109を用いて行われる。
【0013】
[処理概要]
次に本発明による画像処理全体の概要を図3を用いて説明する。
【0014】
図3においてまず、MFP100の画像読み取り部110を動作させ1枚の原稿をラスター状に走査し、イメージ情報入力処理120で600DPI−8ビットの画像信号を得る。該画像信号をデータ処理部115で前処理を施し記憶装置111に1ページ分の画像データとして保存する。マネージメントPC101のCPUは該格納された画像信号から先ず、文字/線画部分とハーフトーンの画像部分とに領域を分離し、文字部は更に段落で塊として纏まっているブロック毎に、或いは、線で構成された表、図形に分離し各々セグメント化する。一方ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等所謂ブロック毎に独立したオブジェクトに分割する(ステップ121)。
【0015】
このとき原稿画像中に付加情報として記録された2次元バーコード、或いはURLに該当するオブジェクトを検出しURLはOCRで文字認識し、或いは2次元バーコードなら該マークを解読して(ステップ122)該原稿のオリジナル電子ファイルが格納されている記憶装置内のポインタ情報を検出する(ステップ123)。尚、ポインタ情報を付加する手段は他に文字と文字の間隔に情報を埋め込む方法、ハーフトーンの画像に埋め込む方法等直接可視化されない所謂電子透かしによる方法も有る。
【0016】
ポインタ情報が検出された場合、ステップ125に分岐し、ポインタで示されたアドレスから元の電子ファイルを検索する。電子ファイルは図1においてクライアントPC内のハードディスク内、或いはオフィス10或いは20のLANに接続された文書管理サーバ105内のデータベース105内、或いはMFP100自体が有する記憶装置111のいずれかに格納されており、ステップ123で得られたアドレス情報に従ってこれらの記憶装置内を検索する。ステップ125で電子ファイルが見つからなかった場合、見つかったがPDFあるいはtiffに代表される所謂イメージファイルであった場合、或いはポインタ情報自体が存在しなかった場合はステップ126に分岐する。
【0017】
ステップ126は所謂文書検索処理ルーチンである。
【0018】
まずステップ122で各文字ブロックに対して行ったOCRの結果から単語を抽出して全文検索、或いは各オブジェクトの配列と各オブジェクトの属性から所謂レイアウト検索を行う。検索の結果、類似度の高い電子ファイルが見つかった場合、サムネイルやバージョン、ファイルのタイムスタンプ等を表示(ステップ127)し、複数の中から操作者の選択が必要なら操作者の入力操作よってファイルの特定や出力形式特定を行う。尚、候補が1ファイルの場合、自動的にステップ128からステップ133に分岐し格納アドレスを通知する。ステップ126の検索処理で電子ファイルが見つからなかった場合、或いは、見つかったがPDFあるいはtiffに代表される所謂イメージファイルであった場合、ステップ129に分岐する。
【0019】
ステップ129はイメージデータからベクトルデータへの変換処理部であり、オリジナル電子ファイルに近い電子ファイルに変換する。先ず、ステップ122でOCRされた文字ブロックに対しては、更に文字のサイズ、スタイル、字体を認識し、原稿を走査して得られた文字に可視的に忠実なフォントデータに変換する。一方線で構成される表、図形ブロックに対してはアウトライン化する。画像ブロックに対してはイメージデータとして個別のJPEGファイルとして処理する。これらのベクトル化処理は各オブジェクト毎に行い、更に各オブジェクトのレイアウト情報を保存して例えば、rtfに変換(ステップ130)して電子ファイルとして記憶装置111に格納(ステップ131)するか否か問い合わせる。
【0020】
今ベクトル化した原稿画像を格納する場合は、以降同様の処理を行う際に直接電子ファイルとして検索出来るように、先ずステップ132において検索の為のインデックス情報を生成して検索用インデックスファイルに追加する。検索処理で電子ファイルが特定できた場合も同様に以降からは直接電子ファイルを特定する為に、ステップ128からステップ132に分岐し、検索の為のインデックス情報を生成して検索用インデックスファイルに追加し、ステップ133にて、格納アドレスをMFP100に通知する。次にステップ134では、MFP100側では、今紙に記録または送信するか否かを判定する。例えば最終ページであったり、圧板からの蓄積でこれ以上原稿がない旨をオペレータが示せば、ステップ135に進む。続きのページがある場合は、次ページを処理するためにステップ120に進む。
【0021】
尚、ステップ125でポインタ情報から電子ファイルが特定できた場合、または検索処理で電子ファイルが特定出来た場合、ステップ133において該電子ファイルの格納アドレスをMFP100に通知する。
【0022】
尚、以上本発明によって得られた電子ファイル自体を用いて、例えば文書の加工、蓄積、伝送、記録をステップ135で行う事が可能になる。これらの処理はイメージデータを用いる場合に比べて、情報量が削減され、蓄積効率が高まり、伝送時間が短縮され、又記録表示する際には高品位なデータとして非常に優位となる。
【0023】
以下、各処理ブロックに対して詳細に説明する。
【0024】
先ずステップ121で示すブロックセレクション処理について説明する。
【0025】
[ブロックセレクション処理]
ブロックセレクション処理とは、図11の右に示すステップ120で読み取った一頁のイメージデータを左に示す様に、各オブジェクト毎の塊として認識し、該ブロック各々を文字/図画/写真/線/表等の属性に判定し、異なる属性を持つ領域に分割する処理である。
【0026】
ブロックセレクション処理の実施例を以下に説明する。
【0027】
先ず、入力画像を白黒に二値化し、輪郭線追跡をおこなって黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡をおこない白画素の塊を抽出、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。
【0028】
このようにして得られた黒画素の塊を、大きさおよび形状で分類し、異なる属性を持つ領域へ分類していく。たとえば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字領域、扁平な画素塊を線領域、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域、不定形の画素塊が散在している領域を写真領域、それ以外の任意形状の画素塊を図画領域、などとする。
【0029】
ブロックセレクション処理で得られた各ブロックに対するブロック情報を図12に示す。
【0030】
これらのブロック毎の情報は以降に説明するベクトル化、或いは検索の為の情報として用いる。
【0031】
[ポインタ情報の検出]
次に、ステップ122で示すファイルの格納位置をイメージ情報から抽出する為のOCR/OMR処理について説明する。
【0032】
図13は原稿画像中に付加された2次元バーコード(QRコードシンボル)を復号して、データ文字列を出力する過程を示すフローチャートである。2次元バーコードの付加された原稿310の一例を図14に示す。
【0033】
まず、データ処理装置115内のページメモリに格納された原稿310を表すイメージ画像をCPU(不図示)で走査して、先に説明したブロックセレクション処理の結果から所定の2次元バーコードシンボル311の位置を検出する。QRコードの位置検出パターンは、シンボルの4隅のうちの3済みに配置される同一の位置検出要素パターンから構成される(ステップ300)。
【0034】
次に、位置検出パターンに隣接する形式情報を復元し、シンボルに適用されている誤り訂正レベルおよびマスクパターンを得る(ステップ301)。
【0035】
シンボルの型番を決定した(ステップ302)後、形式情報で得られたマスクパターンを使って符号化領域ビットパターンをXOR演算することによってマスク処理を解除する(ステップ303)。
【0036】
尚、モデルに対応する配置規則に従い、シンボルキャラクタを読取り、メッセージのデータ及び誤り訂正コード語を復元する(ステップ304)。
【0037】
復元されたコード上に、誤りがあるかどうかの検出を行い(ステップ305)、誤りが検出された場合、ステップ306に分岐し、これを訂正する。
【0038】
誤り訂正されたデータより、モード指示子および文字数指示子に基づいて、データコード語をセグメントに分割する(ステップ307)。
【0039】
最後に、仕様モードに基づいてデータ文字を復号し、結果を出力する(ステップ308)。
【0040】
尚、2次元バーコード内に組み込まれたデータは、対応するファイルのアドレス情報を表しており、例えばファイルサーバ名およびファイル名からなるパス情報で構成される。或いは、対応するファイルへのURLで構成される。
【0041】
本実施例ではポインタ情報が2次元バーコードを用いて付与された原稿310について説明したが、直接文字列でポインタ情報が記録される場合は所定のルールに従った文字列のブロックを先のブロックセレクション処理で検出し、該、ポインタ情報を示す文字列の各文字を文字認識する事で、直接元ファイルのアドレス情報を得る事が可能である。
【0042】
又、或いは図14の文書310の文字ブロック312、或いは313の文字列に対して隣接する文字と文字の間隔等に視認し難い程度の変調を加え、該文字間隔に情報を埋め込むことでもポインタ情報を付与できる。該所謂透かし情報は後述する文字認識処理を行う際に各文字の間隔を検出すれば、ポインタ情報が得られる。又、自然画314の中に電子透かしとしてポインタ情報を付加する事も可能である。
【0043】
[ポインタ情報によるファイル検索]
次に、図3で先に説明したステップ125で示す、ポインタ情報からの電子ファイルの検索について図15のフローチャートを使用して説明する。
【0044】
まず、ポインタ情報に含まれるアドレスに基づいて、ファイルサーバを特定する。(ステップ400)
ここでファイルサーバとは、クライアントPC102や、データベース105を内蔵する文書管理サーバ106や、記憶装置111を内蔵するMFP100自身を指す。
【0045】
ここでアドレスとは、URLや、サーバ名とファイル名からなるパス情報である。
【0046】
ファイルサーバが特定できたら、ファイルサーバに対してアドレスを転送する。(ステップ401)ファイルサーバは、アドレスを受信すると、該当するファイルを検索する。(ステップ402)ファイルが存在しない場合(ステップ403−N)には、MFPに対してその旨通知する。
【0047】
ファイルが存在した場合(ステップ403−Y)には、図3で説明した様に、ファイルのアドレスを通知(ステップ133)すると共に、ユーザの希望する処理が画像ファイルデータの取得であれば、MFPに対してファイルを転送する。(ステップ408)
[ファイル検索処理]
次に、図3のステップ126で示すファイル検索処理の詳細について図12、図16を使用して説明を行う。
【0048】
ステップ126の処理は、前述したように、ステップ124で入力原稿(入力ファイル)にポインタ情報が存在しなかった場合、または、ポインタ情報は在るが電子ファイルが見つからなかった場合、或いは電子ファイルがイメージファイルであった場合に行われる。
【0049】
ここでは、ステップ122の結果、抽出された各ブロック及び入力ファイルが、図12に示す情報(ブロック情報、入力ファイル情報)を備えるものとする。情報内容として、属性、座標位置、幅と高さのサイズ、OCR情報有無を例としてあげる。属性は、文字、線、写真、絵、表その他に分類する。また簡単に説明を行うため、ブロックは座標Xの小さい順、即ち(例、X1 < X2 < X3 < X4< X5< X6)にブロック1、ブロック2、ブロック3、ブロック4、ブロック5、ブロック6と名前をつけている。ブロック総数は、入力ファイル中の全ブロック数であり、図16の場合は、ブロック総数は6である。以下、これらの情報を使用して、データベース内から、入力ファイルに類似したファイルのレイアウト検索を行うフローチャートを図16に示す。ここで、データベースファイルは、図12と同様の情報を備えることを前提とする。
【0050】
フローチャートの流れは、入力ファイルとデータベース中のファイルを順次比較するものである。まず、ステップ510にて、後述する類似率などの初期化を行う。次に、ステップ511にてブロック総数の比較を行い、ここで、真の場合、さらにファイル内のブロックの情報を順次比較する。ブロックの情報比較では、ステップ513,515,518にて、属性類似率、サイズ類似率、OCR類似率をそれぞれ算出し、ステップ522にてそれらをもとに総合類似率を算出する。各類似率の算出方法については、公知の技術が用いられるので説明を省略する。ステップ523にて総合類似率が、予め設定された閾値Thより高ければステップ524にてそのファイルを類似候補としてあげる。但し、図中のN、W、Hは、入力ファイルのブロック総数、各ブロック幅、各ブロック高さとし、ΔN、ΔW、ΔHは、入力ファイルのブロック情報を基準として誤差を考慮したものである。n、w、hは、データベースファイルのブロック総数、各ブロック幅、各ブロック高さとする。また、不図示ではあるが、ステップ514にてサイズ比較時に、位置情報XYの比較などを行ってもよい。
【0051】
以上、検索の結果、類似度が閾値Thより高く、候補として保存されたデータベースファイル(ステップ524)をサムネイル等で表示(ステップ127)する。複数の中から操作者の選択が必要なら操作者の入力操作よってファイルの特定を行う。
【0052】
[ベクトル化処理]
ファイルサーバに元ファイルが存在しない場合は、図11に示すイメージデータを各ブロック毎にベクトル化する。次に、ステップ129で示されるベクトル化について詳説する。まず、文字ブロックに対しては各文字に対して文字認識処理を行う。
【0053】
『文字認識』
文字認識部では、文字単位で切り出された画像に対し、パターンマッチの一手法を用いて認識を行い、対応する文字コードを得る。この認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルと比較し、最も距離の近い字種を認識結果とする処理である。特徴ベクトルの抽出には種々の公知手法があり、たとえば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。
【0054】
ブロックセレクション(ステップ121)で抽出された文字領域に対して文字認識を行う場合は、まず該当領域に対し横書き、縦書きの判定をおこない、各々対応する方向に行を切り出し、その後文字を切り出して文字画像を得る。横書き、縦書きの判定は、該当領域内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き領域、垂直射影の分散が大きい場合は縦書き領域と判断すればよい。文字列および文字への分解は、横書きならば水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことでおこなう。縦書きの文字領域に対しては、水平と垂直を逆にすればよい。尚、この時文字のサイズが検出出来る。
【0055】
『フォント認識』
文字認識の際に用いる、字種数ぶんの辞書特徴ベクトルを、文字形状種すなわちフォント種に対して複数用意し、マッチングの際に文字コードとともにフォント種を出力することで、文字のフォントが認識出来る。
【0056】
『文字のベクトル化』
前記文字認識およびフォント認識よって得られた、文字コードおよびフォント情報を用いて、各々あらかじめ用意されたアウトラインデータを用いて、文字部分の情報をベクトルデータに変換する。なお、元原稿がカラーの場合は、カラー画像から各文字の色を抽出してベクトルデータとともに記録する。
【0057】
以上の処理により、文字ブロックに属するイメージ情報をほぼ形状、大きさ、色が忠実なベクトルデータに変換出来る。
【0058】
『文字以外の部分のベクトル化』
ブロックセレクション処理(ステップ121)で、図画あるいは線、表領域とされた領域を対象に、中で抽出された画素塊の輪郭をベクトルデータに変換する。具体的には、輪郭をなす画素の点列を角と看倣される点で区切って、各区間を部分的な直線あるいは曲線で近似する。角とは曲率が極大となる点であり、曲率が極大となる点は、図17に図示するように、任意点Piに対し左右k個の離れた点Pi−k,Pi+kの間に弦を引いたとき、この弦とPiの距離が極大となる点として求められる。さらに、Pi−k,Pi+k間の弦の長さ/弧の長さをRとし、Rの値が閾値以下である点を角とみなすことができる。角によって分割された後の各区間は、直線は点列に対する最小二乗法など、曲線は3次スプライン関数などを用いてベクトル化することができる。
【0059】
また、対象が内輪郭を持つ場合、ブロックセレクションで抽出した白画素輪郭の点列を用いて、同様に部分的直線あるいは曲線で近似する。
【0060】
以上のように、輪郭の区分線近似を用いれば、任意形状の図形のアウトラインをベクトル化することができる。元原稿がカラーの場合は、カラー画像から図形の色を抽出してベクトルデータとともに記録する。
【0061】
さらに、図18に示す様に、ある区間で外輪郭と、内輪郭あるいは別の外輪郭が近接している場合、2つの輪郭線をひとまとめにし、太さを持った線として表現することができる。具体的には、ある輪郭の各点Piから別輪郭上で最短距離となる点Qiまで線を引き、各距離PQiが平均的に一定長以下の場合、注目区間はPQi中点を点列として直線あるいは曲線で近似し、その太さはPQiの平均値とする。線や線の集合体である表罫線は、前記のような太さを持つ線の集合として効率よくベクトル表現することができる。
【0062】
尚 先に文字ブロックに対する文字認識処理を用いたベクトル化を説明したが、該文字認識処理の結果、辞書からの距離が最も近い文字を認識結果として用いるが、この距離が所定値以上の場合は、必ずしも本来の文字に一致せず、形状が類似する文字に誤認識している場合が多い。従って、本発明では、この様な文字に対しては、上記した様に、一般的な線画と同じに扱い、該文字をアウトライン化する。即ち、従来文字認識処理で誤認識を起こす文字に対しても誤った文字にベクトル化されず、可視的にイメージデータに忠実なアウトライン化によるベクトル化が行える。
【0063】
又、写真と判定されたブロックに対しては本発明では、ベクトル化出来ない為、イメージデータのままとする。
【0064】
[図形認識]
上述したように任意形状の図形のアウトラインをベクトル化した後、これらベクトル化された区分線を図形オブジェクト毎にグループ化する処理について説明する。
【0065】
図19は、ベクトルデータを図形オブジェクト毎にグループ化するまでのフローチャートを示している。まず、各ベクトルデータの始点、終点を算出する(700)。次に各ベクトルの始点、終点情報を用いて、図形要素を検出する(701)。図形要素の検出とは、区分線が構成している閉図形を検出することである。検出に際しては、閉形状を構成する各ベクトルはその両端にそれぞれ連結するベクトルを有しているという原理を応用し、検出を行う。次に図形要素内に存在する他の図形要素、もしくは区分線をグループ化し、一つの図形オブジェクトとする(702)。また、図形要素内に他の図形要素、区分線が存在しない場合は図形要素を図形オブジェクトとする。
【0066】
図20は、図形要素を検出するフローチャートを示している。先ず、ベクトルデータより両端に連結していない不要なベクトルを除去し、閉図形構成ベクトルを抽出する(710)。次に閉図形構成ベクトルの中から該ベクトルの始点を開始点とし、時計回りに順にベクトルを追っていく。開始点に戻るまで行い、通過したベクトルを全て一つの図形要素を構成する閉図形としてグループ化する(711)。また、閉図形内部にある閉図形構成ベクトルも全てグループ化する。さらにまだグループ化されていないベクトルの始点を開始点とし、同様の処理を繰り返す。最後に、710で除去された不要ベクトルのうち、711で閉図形としてグループ化されたベクトルに接合しているものを検出し一つの図形要素としてグループ化する(712)。
【0067】
以上によって図形ブロックを個別に再利用可能な個別の図形オブジェクトとして扱う事が可能になる。
【0068】
[アプリデータへの変換処理]
ところで、一頁分のイメージデータをブロックセレクション処理(121)し、ベクトル化処理(129)した結果は図21に示す様な中間データ形式のファイルとして変換されているが、このようなデータ形式はドキュメント・アナリシス・アウトプット・フォーマット(DAOF)と呼ばれる。
【0069】
図21はDAOFのデータ構造を示す図である。
【0070】
図21において、791はHeaderであり、処理対象の文書画像データに関する情報が保持される。レイアウト記述データ部792では、文書画像データ中のTEXT(文字)、TITLE(タイトル)、CAPTION(キャプション)、LINEART(線画)、EPICTURE(自然画)、FRAME(枠)、TABLE(表)等の属性毎に認識された各ブロックの属性情報とその矩形アドレス情報を保持する。文字認識記述データ部793では、TEXT、TITLE、CAPTION等のTEXTブロックを文字認識して得られる文字認識結果を保持する。表記述データ部794では、TABLEブロックの構造の詳細を格納する。画像記述データ部795は、PICTUREやLINEART等のブロックのイメージデータを文書画像データから切り出して保持する。
【0071】
このようなDAOFは、中間データとしてのみならず、それ自体がファイル化されて保存される場合もあるが、このファイルの状態では、所謂一般の文書作成アプリケーションで個々のオブジェクトを再利用する事は出来ない。そこで、次に このDAOFからアプリデータに変換する処理130について詳説する。
【0072】
図22は、全体の概略フローである。
【0073】
8000は、DAOFデータの入力を行う。
【0074】
8002は、アプリデータの元となる文書構造ツリー生成を行う。
【0075】
8004は、文書構造ツリーを元に、DAOF内の実データを流し込み、実際のアプリデータを生成する。
【0076】
図23は、8002文書構造ツリー生成部の詳細フロー、図24は、文書構造ツリーの説明図である。全体制御の基本ルールとして、処理の流れはミクロブロック(単一ブロック)からマクロブロック(ブロックの集合体)へ移行する。
【0077】
以後ブロックとは、ミクロブロック、及びマクロブロック全体を指す。
【0078】
8100は、ブロック単位で縦方向の関連性を元に再グループ化する。スタート直後はミクロブロック単位での判定となる。
【0079】
ここで、関連性とは、距離が近い、ブロック幅(横方向の場合は高さ)がほぼ同一であることなどで定義することができる。
【0080】
また、距離、幅、高さなどの情報はDAOFを参照し、抽出する。
【0081】
図24(a)は実際のページ構成、(b)はその文書構造ツリーである。8100の結果、T3,T4,T5が一つのグループV1、T6,T7が一つのグループV2が同じ階層のグループとしてまず生成される。
【0082】
8102は、縦方向のセパレータの有無をチェックする。セパレータは、例えば物理的にはDAOF中でライン属性を持つオブジェクトである。また論理的な意味としては、アプリ中で明示的にブロックを分割する要素である。ここでセパレータを検出した場合は、同じ階層で再分割する。
【0083】
8104は、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する。
【0084】
ここで、縦方向のグループ長がページ高さとなっている場合は、文書構造ツリー生成は終了する。
【0085】
図24の場合は、セパレータもなく、グループ高さはページ高さではないので、8106に進む。
【0086】
8106は、ブロック単位で横方向の関連性を元に再グループ化する。ここもスタート直後の第一回目はミクロブロック単位で判定を行うことになる。
【0087】
関連性、及びその判定情報の定義は、縦方向の場合と同じである。
【0088】
図24の場合は、T1,T2でH1、V1,V2でH2、がV1,V2の1つ上の同じ階層のグループとして生成される。
【0089】
8108は、横方向セパレータの有無をチェックする。
【0090】
図24では、S1があるので、これをツリーに登録し、H1,S1,H2という階層が生成される。
【0091】
8110は、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する。
【0092】
ここで、横方向のグループ長がページ幅となっている場合は、文書構造ツリー生成は終了する。
【0093】
そうでない場合は、8102に戻り、再びもう一段上の階層で、縦方向の関連性チェックから繰り返す。
【0094】
図24の場合は、分割幅がページ幅になっているので、ここで終了し、最後にページ全体を表す最上位階層のV0が文書構造ツリーに付加される。
【0095】
文書構造ツリーが完成した後、その情報を元に8006においてアプリデータの生成を行う。
【0096】
図24の場合は、具体的には、以下のようになる。
【0097】
すなわち、H1は横方向に2つのブロックT1とT2があるので、2カラムとし、T1の内部情報(DAOFを参照、文字認識結果の文章、画像など)を出力後、カラムを変え、T2の内部情報出力、その後S1を出力となる。
【0098】
H2は横方向に2つのブロックV1とV2があるので、2カラムとして出力、V1はT3,T4,T5の順にその内部情報を出力、その後カラムを変え、V2のT6,T7の内部情報を出力する。
【0099】
以上によりアプリデータへの変換処理が行える。
【0100】
[ポインタ情報の付加]
次に、ステップ133で示す、ポインタ情報付加処理について説明する。
【0101】
今 処理すべき文書が検索処理で特定された場合、あるいはベクトル化によって元ファイルが再生できた場合において、該文書を記録処理する場合においては、紙への記録の際にポインタ情報を付与する事で、この文書を用いて再度各種処理を行う場合に簡単に元ファイルデータを取得できる。
【0102】
図25はポインタ情報としてのデータ文字列を2次元バーコード(QRコードシンボル:JIS X0510)311にて符号化して画像中に付加する過程を示すフローチャートである。
【0103】
2次元バーコード内に組み込むデータは、対応するファイルのアドレス情報を表しており、例えばファイルサーバ名およびファイル名からなるパス情報で構成される。或いは、対応するファイルへのURLや、対応するファイルの格納されているデータベース105内あるいはMFP100自体が有する記憶装置内で管理されるファイルID等で構成される。
【0104】
まず、符号化する種種の異なる文字を識別するため、入力データ列を分析する。また、誤り検出及び誤り訂正レベルを選択し、入力データが収容できる最小型番を選択する。 (ステップ900)。
【0105】
次に、入力データ列を所定のビット列に変換し、必要に応じてデータのモード(数字、英数字、8ビットバイト、漢字等)を表す指示子や、終端パターンを付加する。さらに所定のビットコード語に変換する。(ステップ901)。
【0106】
この時、誤り訂正を行うため、コード語列を型番および誤り訂正レベルに応じて所定のブロック数に分割し、各ブロック毎に誤り訂正コード語を生成し、データコード語列の後に付加する(ステップ902)。
【0107】
該ステップ902で得られた各ブロックのデータコード語を接続し、各ブロックの誤り訂正コード語、必要に応じて剰余コード語を後続する。(ステップ903)。
【0108】
次に、マトリクスに位置検出パターン、分離パターン、タイミングパターンおよび位置合わせパターン等とともにコード語モジュールを配置する。(ステップ904)。
【0109】
更に、シンボルの符号化領域に対して最適なマスクパターンを選択して、マスク処理パターンをステップ904で得られたモジュールにXOR演算により変換する。(ステップ905)。
【0110】
最後に、ステップ905で得られたモジュールに形式情報および型番情報を生成して、2次元コードシンボルを完成する。(ステップ906)。
【0111】
上記に説明した、アドレス情報の組み込まれた2次元バーコードは、例えば、クライアントPC102から電子ファイルをプリントデータとして記録装置112に紙上に記録画像として形成する場合に、データ処理装置115内で記録可能なラスターデータに変換された後にラスターデータ上の所定の個所に付加されて画像形成される。ここで画像形成された紙を配布されたユーザは、画像読取り部110で読み取ることにより、前述したステップ123にてポインタ情報からオリジナル電子ファイルの格納場所を検出することができる。
【0112】
尚、同様の目的で付加情報を付与する手段は、本実施例で説明した2次元バーコードの他に、例えば、ポインタ情報を直接文字列で文書に付加する方法、文書内の文字列、特に文字と文字の間隔を変調して情報を埋め込む方法、文書中の中間調画像中に埋め込む方法等、一般に電子透かしと呼ばれる方法が適用出来る。
【0113】
[ポータルシート生成部]
以下、図10を参照してポータルシート1901について説明する。
【0114】
図10のポータルシートには、6つの原稿の情報が記録されている。それぞれは、以下の1902−1905の情報からなっている。
【0115】
1903は、原稿の縮小画像(サムネール)で、1ページ目を表している。
【0116】
1902,1904は日付、タイトル、作者、ID、キーワード、要約等の1903のサムネイルに関連する情報で、予め原稿に付随している情報であったり、ユーザが入力した情報であったり、原稿の内容から自動的に抽出された情報であったりする。
【0117】
1905は原稿の蓄積場所等を示すためのポインタである。ここでは二次元バーコードで表されているが、1次元バーコードであったり、電子透かしであっても問わない。
【0118】
[ポータルシート内のインデックス生成(ページ情報として)]
『タイトル』
テキストデータに対してタイトルを抽出する方法としては以下の方法がある。
【0119】
前述の方法により抽出したレイアウト情報およびフォント情報を利用し、テキストデータの最初の部分に現れるフォントの大きい文で、かつテキストデータ中に使用される頻度の高い文がタイトルとして適している。
【0120】
『キーワード』
テキストデータに対してキーワードを抽出する方法としては以下の方法がある。
【0121】
まずテキストデータ全体を形態素解析などにより、単語に分解する。全単語を使用頻度によりソートし、頻度の高いものから順にキーワードとする。さらに、より有効なキーワードを抽出するには、予め用意したキーワード用のデータベースと照合するのも良い。
【0122】
『ID、日付、著作者』
これらの情報に関しては、電子ファイルの検索によりファイルが存在した場合に、そのファイルの属性情報として取得する。
【0123】
『要約』
文字コード列で構成されるテキストデータに対して、その要約を作成する方法としては、次のようなものがある。
【0124】
まずテキストデータを文あるいは文節単位に分解する。これは句読点の文字コードを境界として機械的に分割することができる。次にそれぞれの文あるいは文節に対し重要度を計算して付与する。この重要度の計算方法としては、テキストデータ全体に含まれる単語に対して出現頻度を求め、頻繁に出現する単語に高い点数を与え、各文あるいは文節の重要度は、その中に含まれる各単語の点数の総和とする方法、レイアウト情報やフォント情報を用いて、タイトルや見出しに相当する文を検出し、その文自体の重要度を高めたり、文に含まれる単語の点数を上げて重要度を計算したりする方法、などがある。最後に、重要度が上位の文あるいは文節を抽出することで要約文が作成される。このとき、上位何位まで抽出するかを変化させて、所望のサイズの要約文を生成することが可能である。
【0125】
『目次』
複数ページに渡るようなテキストデータに対して目次を作成するには、テキストをレイアウト上の空白などから段落に分割し、それぞれに要約を施して一行程度の要約文を割りあてればよい。特に、前述のようにレイアウト情報やフォント情報からタイトルや見出しとして抽出された文は、目次として最適である。
【0126】
『ポータルシートへのポインタ情報の付加』
次に、原稿の蓄積場所を示すためのポインタ情報付加処理について説明する。
【0127】
図25はポインタ情報としてのデータ文字列を2次元バーコード(QRコードシンボル:JIS X0510)311にて符号化して画像中に付加する過程を示すフローチャートである。
【0128】
2次元バーコード内に組み込むデータは、対応するファイルのアドレス情報を表しており、例えばファイルサーバ名およびファイル名からなるパス情報で構成される。或いは、対応するファイルへのURLや、対応するファイルの格納されているデータベース105内あるいはMFP100自体が有する記憶装置内で管理されるファイルID等で構成される。
【0129】
まず、符号化する種種の異なる文字を識別するため、入力データ列を分析する。また、誤り検出及び誤り訂正レベルを選択し、入力データが収容できる最小型番を選択する。(ステップ900)。
【0130】
次に、入力データ列を所定のビット列に変換し、必要に応じてデータのモード(数字、英数字、8ビットバイト、漢字等)を表す指示子や、終端パターンを付加する。さらに所定のビットコード語に変換する。(ステップ901)。
【0131】
この時、誤り訂正を行うため、コード語列を型番および誤り訂正レベルに応じて所定のブロック数に分割し、各ブロック毎に誤り訂正コード語を生成し、データコード語列の後に付加する(ステップ902)。
【0132】
該ステップ902で得られた各ブロックのデータコード語を接続し、各ブロックの誤り訂正コード語、必要に応じて剰余コード語を後続する。(ステップ903)。
【0133】
次に、マトリクスに位置検出パターン、分離パターン、タイミングパターンおよび位置合わせパターン等とともにコード語モジュールを配置する。(ステップ904)。
【0134】
更に、シンボルの符号化領域に対して最適なマスクパターンを選択して、マスク処理パターンをステップ904で得られたモジュールにXOR演算により変換する。(ステップ905)。
【0135】
最後に、ステップ905で得られたモジュールに形式情報および型番情報を生成して、2次元コードシンボルを完成する。(ステップ906)。
【0136】
上記に説明した、アドレス情報の組み込まれた2次元バーコードは、例えば、クライアントPC102からポータルシートを生成する場合に、データ処理装置115内で記録可能なラスターデータに変換された後にラスターデータ上の所定の個所に付加されて画像形成される。
【0137】
尚、同様の目的で付加情報を付与する手段は、本実施例で説明した2次元バーコードの他に、例えば、ポインタ情報を直接文字列で文書に付加する方法、文書内の文字列、特に文字と文字の間隔を変調して情報を埋め込む方法、文書中の中間調画像中に埋め込む方法等、一般に電子透かしと呼ばれる方法が適用出来る。
【0138】
以下電子透かしを適用して、ポータルシート上に掲載される中間調画像(サムネール画像)中へコード情報を埋め込む例について説明する。
【0139】
コード情報はバイナリデータ列として画像上の各色成分一画素について一ビットを重み付けて埋め込まれる。画素にコード情報を埋め込む際、近傍画素で構成される一つのブロックに対し一つのコード情報を埋め込む。コード情報は互いに重ならない複数のブロックに対して繰り返し埋め込まれる。ここで、同じコード情報が埋め込まれた複数のブロックが構成するブロックをマクロブロックとよぶ。なお、サムネイル画像全体をマクロブロックとすることも可能である。埋め込まれたコード情報を取り出す際はマクロブロックよりブロック毎の相互相関を求め、その統計量よりコード情報が抽出できる。
【0140】
このような画像へのコード情報の埋め込みは人間の視覚では認識できないレベルで画素を変化させることで十分埋め込み可能であるが、ポータルシートで使用するサムネイル画像では、その目的上画質を気にしないため、より重みを強くして埋め込むことで耐性を持った埋め込みも可能である。
【0141】
[ポインタ情報判定コピーの実施例]
先のポインタ情報検出の実施例において、検索手段で元ファイル群の特定が出来ても、元ファイルをコピーするのに不都合が生じる場合がある。例えば速度低下発生、ポータルシートの一部のみをトリミングしたい場合、またはポータルシートそのものをコピーしたい場合、などがこれに該当する。
【0142】
このような背景から、ポインタ情報判定後にオペレータに問い合わせるコピーの実施例として、図4をもって説明する。ステップ120〜134は前述の処理概要と同等の処理であり、説明を省略する。
【0143】
ステップ124において、ポインタ情報を検出し、ステップ125において電子ファイルの存在を検出した場合、ステップ143において前ページもポインタ情報が含まれる原稿であったか否かを判定する。ステップ143において、前ページもポインタ情報がある場合は、前ページでオペレータが選択した処理に従って、そのままコピーまたは、ポインタ情報で示される電子ファイルの出力を行う。(ステップ142)。一方で、前ページにポインタ情報が含まれない場合、オペレータに問い合わせる。この際の画面例を図6に示す。オペレータがそのままコピーを選択した場合、スキャンした画像をMFP内のメモリに記録し、ステップ134に進む。ステップ134で最終ページまたはオペレータが出力を希望する場合は、ステップ135にて出力画像を形成し、画像出力を行う。ステップ134で続けて読み取る場合は、ステップ120に戻る。次にステップ144でオペレータがオリジナルデータのコピーを選択した場合、ステップ133に進み、ポインタ情報から格納アドレスを通知して、出力対象の文書またはページをMFP内のメモリに蓄積し、ステップ134に進む。
【0144】
次にステップ124において、ポインタ情報が検出されなかった場合、ステップ140に進む。
【0145】
ステップ140では、前ページもポインタ情報が含まれない原稿であったか否かを判定する。前ページもポインタ情報がない場合は、前ページでオペレータが選択した処理に従って、そのままコピーまたは、読み取った原稿をベクトル化し、その結果の電子ファイルの出力を行う。(ステップ142)。一方で前ページにポインタ情報が含まれていた場合、ステップ141に進み、オペレータに問い合わせる。この際の画面例を図7に示す。オペレータがそのままコピーを選択した場合、スキャンした画像をMFP内のメモリに記録し、ステップ134に進む。次にステップ141でオペレータがベクトル化してからコピーを選択した場合、ステップ126に進み同一データの検索、候補選択、ベクトル化などを行い、ステップ133に進む。
【0146】
また、図6および図7において一定時間入力が無い場合は、ユーザ設定に基づいたデフォルトの動作を行ってもよい。
【0147】
また別の実施例では、ステップ143およびステップ140の判定処理を省略し、読み取るたびにオペレータに問い合わせる構成もある。
【0148】
[ポインタ情報判定送信の実施例]
先のポインタ情報判定コピーの実施例を拡張した、ポータルシートの送信を行う場合の実施例を図5を用いて説明する。
【0149】
ステップ120〜134は前述の処理概要と同等の処理であり、説明を省略する。
【0150】
ステップ124において、ポインタ情報を検出し、ステップ125において電子ファイルの存在を検出した場合、ステップ143において前ページもポインタ情報が含まれる原稿であったか否かを判定する。ステップ143において、前ページもポインタ情報がある場合は、前ページでオペレータが選択した処理に従って、そのまま送信または、ポインタ情報で示される電子ファイルの送信または、ポインタ情報の通知を行う。(ステップ151)。一方で、前ページにポインタ情報が含まれない場合、オペレータに問い合わせる。この際の画面例を図8に示す。オペレータがそのまま送信を選択した場合、スキャンした画像をMFP内のメモリに記録し、ステップ134に進む。ステップ134で最終ページまたはオペレータが出力を希望する場合は、ステップ135にて出力画像を形成し、画像送信を行う。ステップ134で続けて読み取る場合は、ステップ120に戻る。次にステップ152でオペレータがオリジナルデータの送信を選択した場合、ステップ133に進み、ポインタ情報から格納アドレスを通知して、出力対象の文書またはページまたはデータをMFP内のメモリに蓄積し、ステップ134、ステップ135に進む。ステップ135においては、送信手段がemailやfile送信など、データを扱える場合は、オリジナルデータを、送信手段がIFAXやFAXなど画像のみを扱う場合は、オリジナルデータを送信可能な画像形式に変換して、それぞれ送信する。一方で、ステップ152でオペレータがオリジナルデータのURLの送信を選択した場合、ステップ133に進み、ポインタ情報から格納アドレスを通知して、MFP内のメモリに蓄積し、ステップ134、ステップ135に進む。ステップ135においては、送信手段がemailやfile送信など、データを扱える場合は、格納アドレスを文字列で、送信手段がIFAXやFAXなど画像のみを扱う場合は、格納アドレスを示す文字列を送信可能な画像形式に変換して、それぞれ送信する。
【0151】
次にステップ124において、ポインタ情報が検出されなかった場合、ステップ140に進む。
【0152】
ステップ140では、前ページもポインタ情報が含まれない原稿であったか否かを判定する。前ページもポインタ情報がない場合は、前ページでオペレータが選択した処理に従って、そのまま送信または、読み取った原稿をベクトル化し、その結果の電子ファイルの送信または、格納アドレスの通知を行う。(ステップ151)。一方で前ページにポインタ情報が含まれていた場合、ステップ150に進み、オペレータに問い合わせる。この際の画面例を図9に示す。オペレータがそのまま送信を選択した場合、スキャンした画像をMFP内のメモリに記録し、ステップ134に進む。次にステップ150でオペレータがベクトル化してから送信を選択した場合、ステップ126に進み同一データの検索、候補選択、ベクトル化などを行い、ステップ133に進む。この場合ステップ135では、送信手段がemailやfile送信など、データを扱える場合は、ベクトル化したデータを、送信手段がIFAXやFAXなど画像のみを扱う場合は、ベクトル化したデータを送信可能な画像形式に変換して、それぞれ送信する。
【0153】
次にステップ150において、オペレータがベクトル化してからURL送信を選択した場合、ステップ126に進み同一データの検索、候補選択、ベクトル化などを行ってデータを格納し、ステップ133に進む。この場合ステップ135においては、送信手段がemailやfile送信など、データを扱える場合は、格納アドレスを文字列で、送信手段がIFAXやFAXなど画像のみを扱う場合は、格納アドレスを示す文字列を送信可能な画像形式に変換して、それぞれ送信する。
【0154】
また、図8および図9において一定時間入力が無い場合は、ユーザ設定に基づいたデフォルトの動作を行ってもよい。
【0155】
また別の実施例では、ステップ143およびステップ140の判定処理を省略し、読み取るたびにオペレータに問い合わせる構成もある。
【図面の簡単な説明】
【0156】
【図1】システム構成図。
【図2】MFP構成図。
【図3】処理概要。
【図4】ポインタ情報判定処理概要フロー図1。
【図5】ポインタ情報判定処理概要フロー図2。
【図6】オペレータ問い合わせ1画面例。
【図7】オペレータ問い合わせ2画面例。
【図8】オペレータ問い合わせ3画面例。
【図9】オペレータ問い合わせ4画面例。
【図10】ポータルシート概念図。
【図11】ブロックセレクション処理の概念図。
【図12】ブロック情報。
【図13】ファイルの格納位置をイメージ情報から抽出するフロー図。
【図14】2次元バーコードの付加された原稿の一例。
【図15】ポインタ情報によるファイル検索フロー図。
【図16】ファイル検索処理フロー図。
【図17】文字以外の部分のベクトル化にまつわる角判定の説明図。
【図18】文字以外の部分のベクトル化にまつわる輪郭の区分線近似の説明図。
【図19】図形オブジェクト認識処理のフロー図。
【図20】図形要素検出処理のフロー図。
【図21】ベクトル化後の中間データ形式の構造を示す図。
【図22】アプリデータ変換処理のフロー図。
【図23】文書構造ツリー生成処理のフロー図。
【図24】文書構造ツリー説明図。
【図25】ポインタ情報としての2次元バーコードを付加する過程を示すフロー図。
【特許請求の範囲】
【請求項1】
原稿をスキャンして得られたイメージ情報から、該原稿に付加的に記録された1つ以上の電子ファイルの格納場所示す情報を認識するファイル特定手段と、該原稿に付加的に記録された電子ファイルの格納場所情報が検出できない場合に、イメージ情報をベクトルデータに変換するベクトル化手段と、出力イメージを形成する出力イメージ形成手段と、前記出力イメージを形成する際に、読み取ったページ自体の処理を行うか否かをオペレータに問い合わせて選択させる出力データ選択手段と、を有することを特徴とする画像形成装置。
【請求項2】
前記出力データ選択に応じた、課金テーブルをさらに有し、出力データに応じた課金方法を設定できることを特徴とする、請求項1に記載の画像形成装置。
【請求項3】
前記出力データ選択手段は、読み取ったページ自体を出力するか、読み取ったページを前記ベクトル化手段でベクトル化して機内または機外のサーバに保存し、その保存場所を出力するか、前記ファイル特定手段で格納元データを取得して処理するか、をオペレータに問い合わせることを特徴とする、請求項1または2に記載の画像形成装置。
【請求項4】
前記出力データ選択手段は、前記ファイル特定手段で、電子ファイルの格納場所情報が検出されない原稿から、電子ファイルの格納場所情報が検出される原稿に状態が変化した際、または、電子ファイルの格納場所情報が検出される原稿から検出されない原稿に変化した際に、オペレータに問い合わせることを特徴とする、請求項1乃至3のいずれかに記載の画像形成装置。
【請求項1】
原稿をスキャンして得られたイメージ情報から、該原稿に付加的に記録された1つ以上の電子ファイルの格納場所示す情報を認識するファイル特定手段と、該原稿に付加的に記録された電子ファイルの格納場所情報が検出できない場合に、イメージ情報をベクトルデータに変換するベクトル化手段と、出力イメージを形成する出力イメージ形成手段と、前記出力イメージを形成する際に、読み取ったページ自体の処理を行うか否かをオペレータに問い合わせて選択させる出力データ選択手段と、を有することを特徴とする画像形成装置。
【請求項2】
前記出力データ選択に応じた、課金テーブルをさらに有し、出力データに応じた課金方法を設定できることを特徴とする、請求項1に記載の画像形成装置。
【請求項3】
前記出力データ選択手段は、読み取ったページ自体を出力するか、読み取ったページを前記ベクトル化手段でベクトル化して機内または機外のサーバに保存し、その保存場所を出力するか、前記ファイル特定手段で格納元データを取得して処理するか、をオペレータに問い合わせることを特徴とする、請求項1または2に記載の画像形成装置。
【請求項4】
前記出力データ選択手段は、前記ファイル特定手段で、電子ファイルの格納場所情報が検出されない原稿から、電子ファイルの格納場所情報が検出される原稿に状態が変化した際、または、電子ファイルの格納場所情報が検出される原稿から検出されない原稿に変化した際に、オペレータに問い合わせることを特徴とする、請求項1乃至3のいずれかに記載の画像形成装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【公開番号】特開2008−84127(P2008−84127A)
【公開日】平成20年4月10日(2008.4.10)
【国際特許分類】
【出願番号】特願2006−264972(P2006−264972)
【出願日】平成18年9月28日(2006.9.28)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成20年4月10日(2008.4.10)
【国際特許分類】
【出願日】平成18年9月28日(2006.9.28)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]