説明

画像処理システム及び画像処理方法

【課題】 著作権保護等の観点から再利用が禁止されている、若しくはむやみに加工されたくない情報をベクトルデータとして第三者に提供しないようにすることによって、再利用が許可されたベクトルデータを好適に提供することができる画像処理システム及び画像処理方法を提供する。
【解決手段】 画像読み取り部110からイメージ情報を入力してデータ処理装置115がベクトルデータを生成する。ここで、データ処理装置115は、当該ベクトルデータの再利用が許可されているか禁止されているかを判定し、ベクトルデータの再利用が禁止されていると判定された場合に、格納されたベクトルデータを破棄する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力されたイメージ情報を汎用の文書作成アプリケーションソフトウェア等で再利用可能なベクトルデータに変換する画像処理システム及び画像処理方法に関する。
【背景技術】
【0002】
近年、環境問題に対する関心が高まっている中、オフィス等でのペーパーレス化が急速に進んでいる。これに伴って、従来からバインダー等で蓄積されていた紙文書をスキャナで読み取ってポータブルドキュメントフォーマット(以下、「PDF」と記す。)に変換して、画像記憶装置にデータベースとして蓄積するようにした文書管理システムが知られている。
【0003】
一方で、機能が拡張されたデジタル複合機(以下、「MFP」と記す。)では、予め画像を記録する際に、当該画像ファイルが存在する画像記憶装置内のポインター情報を当該文書の表紙、或いは記載情報中に付加情報として記録しておき、再度当該文書の複写等を行った際に、このポインター情報からオリジナル電子ファイルの格納場所を検出して再利用することができる。このように、当該電子ファイルとしてオリジナル情報を直接用いることで、紙文書全体の保存を削減することが可能である。また、これまでにも紙文書等の再利用・再編集を容易にするために、原稿を読み取って得た画像データに含まれる文字情報を認識し、フォントデータと関連付けるものが知られている(例えば、特許文献1参照。)。
【特許文献1】特開平5−12402号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、前者の文書管理システムでは、紙文書をコンパクトな情報量のPDFファイルとして保存することは可能であるが、ファイル自体がイメージ情報であるため、電子化された文書の一部のオブジェクトを再利用することができない。従って、当該文書内のデータを再利用するような場合には、図や表等については新たにアプリケーションソフト等を用いて再度作成しなければならない。
【0005】
また、後者のMFPでは、自部門で作成した電子ファイルについては直接オリジナルファイルにアクセスできるため、電子データを容易に再利用することが可能である。しかし、外部から入手した文書や、オリジナルファイルの所在が不明の古い紙文書等については対応することができない。
【0006】
さらに、著作権保護の観点から、無制限に紙文書に記載されたデータの中には再利用可能な電子データとして生成されたくないようなものを含む場合もある。すなわち、著作権の保護が必要とされるようなデータをベクトルデータ化してしまうと、それらに対する改ざんが容易となってしまうからである。そこで、著作権保護等の観点から、改ざんをさせたくないようなデータについては再利用を禁止してベクトルデータとして保存させないようにする必要がある。
【0007】
本発明は、このような事情を考慮してなされたものであり、著作権保護等の観点から再利用が禁止されている、若しくはむやみに加工されたくない情報をベクトルデータとして第三者に提供しないようにすることによって、再利用が許可されたベクトルデータを好適に提供することができる画像処理システム及び画像処理方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明に係る画像処理システムは、
イメージ情報を入力する入力手段と、
前記イメージ情報からベクトルデータを生成するベクトル化手段と、
前記ベクトルデータの再利用が許可されているか禁止されているかを判定する判定手段と、
前記判定手段によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記ベクトル化手段でベクトル化される前記ベクトルデータの再利用禁止処理を実行する制御手段と
を備えることを特徴とする。
【0009】
また、上記課題を解決するために、本発明に係る画像処理方法は、
イメージ情報を画像処理装置に入力する入力工程と、
前記イメージ情報からベクトルデータを生成するベクトル化工程と、
前記ベクトルデータの再利用が許可されているか禁止されているかを判定する判定工程と、
前記判定工程によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記ベクトル化工程でベクトル化される前記ベクトルデータの再利用禁止処理を実行する制御工程と
を有することを特徴とする。
【発明の効果】
【0010】
本発明によれば、著作権保護等の観点から再利用が禁止されている、もしくは容易な加工を防ぎたい情報を、ベクトルデータとして提供しないようにすることによって、再利用が許可されたベクトルデータを好適に提供することができる。
【発明を実施するための最良の形態】
【0011】
以下、図面を参照して、本発明の好適な実施形態に係る画像処理システム及び画像処理方法について説明する。
【0012】
図1は、本発明の一実施形態に係る画像処理システムの構成を示すブロック図である。図1に示す画像処理システムは、一例として、オフィス10とオフィス20とをインターネット等のネットワーク104で接続された環境で実現される。
【0013】
オフィス10内に構築されたLAN107には、MFP100と、MFP100を制御するマネージメントPC101と、クライアントPC102と、文書管理サーバ106aと、そのデータベース105a及びプロキシサーバ103aが接続されている。また、オフィス20内に構築されたLAN108には、文書管理サーバ106bと、そのデータベース105b及びプロキシサーバ103bが接続されている。尚、クライアントPC102は、外部記憶部、検索イメージ入力部及び検索結果出力部を備えている。また、LAN107及びオフィス20内のLAN108は、プロキシサーバ103a、103bを介してインターネット等のネットワーク104に接続されている。
【0014】
MFP100は、本実施形態において紙文書を光学的に読み取って画像信号に変換する画像読み取り処理と、読み取った画像信号に対する画像処理の一部を担当し、画像信号はLAN109を用いてマネージメントPC101に入力する。尚、マネージメントPC101は、通常のPCでも実現可能であり、内部に画像記憶部、画像処理部、表示部及び入力部を備える。尚、マネージメントPC101は、その一部又は全部をMFP100と一体化して構成してもよい。
【0015】
図2は、本発明の一実施形態に係るMFP100の構成を示すブロック図である。尚、MFP100に対する操作者の指示は、MFP100に装備されているキー等の入力装置113、或いはマネージメントPC101のキーボードやマウス等からなる入力装置から行われ、これら一連の動作はデータ処理装置115内の制御部で制御される。
【0016】
図2において118は認証装置であり、ユーザに対して認証情報(例えば、個人IDやパスワード等)の入力を要求し、入力装置113等から入力されたユーザの個人ID及びパスワード等の認証情報に基づいて、当該操作者のMFP100に対するアクセス許可を行う。そして、認証装置118による認証結果を受けて、アクセスが許可されたユーザであることが識別されたことを条件として、オートドキュメントフィーダ(以下、「ADF」と略す。)を含む画像読み取り部110は、束状或いは1枚の原稿画像を内部に備える光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスタ状の画像読み取り信号を例えば600dpiの密度のイメージ情報として得る。そして通常の複写機能を用いる場合は、この画像信号をデータ処理部115で記録信号へ画像処理し、複数毎複写の場合は記憶装置111に一旦1ページ分の記録データを保持した後、印刷装置112に順次出力して紙上に画像を形成する。
【0017】
一方、クライアントPC102から出力されるプリントデータは、LAN107からMFP100に入力され、ネットワークIF114を経てデータ処理装置115で記録可能なラスタデータに変換された後、印刷装置112に出力して紙上に記録画像として形成される。
【0018】
一方、操作入力の状態表示及び処理中の画像データの表示は、MFP100の表示装置116又は、マネージメントPC101、クライアントPC102のモニタ等で行われる。尚、記憶装置111は、画像読み取り部110で読み取られ、データ処理装置115でデータ処理が施された画像データを格納する。また、記憶装置111は、マネージメントPC101からも制御可能であって、MFP100とマネージメントPC101とのデータの授受及び制御は、ネットワークIF117及び直結したLAN109を用いて行われる。
【0019】
[読み取り処理の概要]
次に、本発明の一実施形態に係る画像処理システムによる画像処理全体の概要について説明する。図3は、本発明の一実施形態に係る画像処理システムによる画像処理の手順について説明するためのフローチャートである。ここでは、図3のフローチャートを用いて紙原稿を読み取ってイメージ情報を取得する処理について説明する。
【0020】
まず、入力装置113等から入力されたユーザID及びパスワード等に基づいて認証装置118がユーザ認証を行い、当該画像処理システムにアクセス可能なユーザであるか否かを識別する(ステップS120)。そして、認証結果から当該MFP100の使用が許可されたユーザである場合、以下の処理が可能となる。そこで、まず、MFP100における画像読み取り部110を動作させて1枚の原稿をラスタ走査し、例えば、600dpi、8ビットの画像信号を得る(イメージ情報入力処理:ステップS121)。尚、当該画像信号は、データ処理装置115で前処理を施して記憶装置111に1ページ分の画像データとして保存する。
【0021】
次に、データ処理装置115内のCPU、或いはマネージメントPC101のCPUにより、記憶装置111に格納された画像信号から、まず文字/線画部分とハーフトーンの画像部分とに領域を分離する。そして、文字部分はさらに段落で塊として纏まっているブロック毎に、或いは、線で構成された表、図形に分離し各々セグメント化する。一方、ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等のいわゆるブロック毎に独立したオブジェクトに分割する(BS処理:ステップS122)。
【0022】
次に、OCR処理を行って、文字ブロックに対して、文字のサイズ、スタイル、字体等を認識し(ステップS123)、原稿を走査して読み取られた文字に可視的に忠実なフォントデータに変換することでベクトルデータを生成する(ステップS124)。一方、線で構成される表、図形ブロック等に対してはアウトライン化することでベクトルデータを生成する。また、画像ブロックに対しては、イメージ情報として個別のJPEGファイルとして処理する。尚、これらのベクトル化処理は各オブジェクト毎に行い、さらに各オブジェクトのレイアウト情報を保存しておく。
【0023】
このように、ステップS124の処理によって、イメージ情報からベクトルデータへの変換処理が行われ、オリジナル電子ファイルに近い電子ファイルに変換される。
【0024】
そして、MFP100内の記憶装置111やサーバ等のデータ格納部に(サーバ等に問い合わせたり、内部のHDに保存されている等、構成は問わない)格納されている著作権保護用のロゴ等(ベクトルデータ及びテキストデータ)のデータと、ステップS124におけるベクトル化処理によって得られたベクトルデータとを比較する(ステップS125)。その結果、両データが異なる場合(No)は、ベクトルデータの再利用が許可されているデータであると判定され、例えば、rtfファイル等の汎用の文書作成ソフトウェアで取り扱い可能なフォーマットを有するアプリデータに変換して、電子ファイルとして記憶装置111に格納する(ステップS126)。
【0025】
一方、ステップS125での比較結果から両データが同一であると判断された場合(Yes)は、再利用が禁止されているデータであると判断され、作成されたベクトルデータを破棄(すなわち、システム内から消去)する(ステップS127)。尚、この判断は両データが完全同一の場合のみに限定してもよいが、柔軟な判断をさせるためには完全同一の場合だけでなく、類似している場合等の同一とみなせる場合も含めるようにしてもよい。但し、データの再利用をさせないことが目的であるため、例えばビットマップ等のイメージデータとしてそれらのデータを保存しておくことは可能である。また、ステップS125の具体的な比較手法については、一般的な文字認識の際に用いられる字種数分の辞書特徴ベクトルを文字形状種(例えばフォント種)に対して複数用意しておき、マッチングの際に文字コードとともにフォント種を出力することで、著作権保護されているフォントを認識することができる。
【0026】
また、再利用が禁止されている場合、データの破棄をすることなくベクトル化されたデータの利用を禁止するような属性を与えておき、特定のユーザ以外は利用できないようにしてもよい。そして、ベクトル化されるべき図形、線画等に関して、ベクトル化されたデータの利用が禁止されている場合は、その部分はブランクとしてユーザに提供するか、ビットマップ化された、若しくはそれに基づき加工されたイメージデータのみ利用可能とする。もちろん、図形や線画だけでなく、文字データにも同様の処理を適用してもよいことは言うまでもない。また、上記実施形態ではベクトル化後に再利用が禁止されているかを判断しているが、ベクトル化する前にその内容から判断して、ベクトル化すること自体を禁止するようにしてもよい。
【0027】
以下、各処理ブロックに対して詳細に説明する。
【0028】
まず、ステップS122で示すブロックセレクション(BS)処理について説明する。
【0029】
[ブロックセレクション処理]
図4は、ブロックセレクション処理によって読み取った1枚のイメージデータを属性を判定し複数のブロックに分割する様子を示す図である。すなわち、ブロックセレクション処理とは、符号41に示すステップS121で読み取った一頁のイメージデータを、符号42に示すようにオブジェクト毎の塊として認識し、それぞれのブロックを文字(TEXT)、写真(PHOTO)、線(LINE)、表(TABLE)等の属性に判定し、異なる属性を持つ領域(ブロック)に分割する処理である。
【0030】
ブロックセレクション処理の一実施形態を以下に説明する。
【0031】
まず、入力画像を白黒に2値化して、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。そして、面積の大きい黒画素の塊については、内部にある白画素に対して同様に輪郭線追跡を行って白画素の塊を抽出する。さらに、一定面積以上の白画素の塊の内部からも再帰的に黒画素の塊を抽出する。尚、上記処理は、白地に黒字等で記載されている原稿の場合の処理であって、それ以外の場合は背景に相当する色を「白」、オブジェクトに相当する色を「黒」とすることにより同様に処理することができる。
【0032】
このようにして得られた黒画素の塊を、大きさ及び形状等で分類し、異なる属性を持つ領域へ分類する。例えば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字領域とする。また、扁平な画素塊を線領域、一定の大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域、不定形の画素塊が散在している領域を写真領域、それ以外の任意形状の画素塊を図画領域等とする。これにより、1枚の原稿を読み取って作成した電子データの再利用に対してより高度な制限等を設けることができる。
【0033】
図5は、ブロックセレクション処理で得られた各ブロックに対するブロック情報の一例について示す図である。図5に示されるブロック毎の情報は、後述するベクトル化或いは検索のための情報として用いられる。
【0034】
[ベクトル化処理]
次に、図3のステップS124で示されるベクトル化処理について説明する。まず、文字ブロックに対しては各文字に対して文字認識処理を行う。
【0035】
《文字認識》
文字認識処理のため、本実施形態では文字単位で切り出された画像に対し、パターンマッチングの一手法を用いて認識を行い、対応する文字コードを得る。この認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルと比較し、最も距離の近い字種を認識結果とする処理である。尚、特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法を用いることができる。
【0036】
ブロックセレクション処理(ステップS122)で抽出された文字領域に対して文字認識を行う場合、まず該当領域に対して横書き、縦書きの判定を行い、各々対応する方向に行を切り出し、その後文字を切り出して文字画像を得る。横書き、縦書きの判定は、該当領域内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き領域、垂直射影の分散が大きい場合は縦書き領域と判断すればよい。
【0037】
また、文字列及び文字への分解は、横書きの場合は水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出す。一方、縦書きの文字領域に対しては、水平と垂直を逆にすればよい。尚、文字のサイズは切り出した大きさに基づいて検出することができる。
【0038】
《フォント認識》
文字認識の際に用いられる字種数分の辞書特徴ベクトルを、文字形状種、すなわちフォント種に対して複数用意し、マッチングの際に文字コードとともにフォント種を出力することで、文字のフォントを認識することができる。
【0039】
《文字のベクトル化》
本実施形態では、文字のベクトル化に際して、前述した文字認識及びフォント認識よって得られた文字コード及びフォント情報を用いて、各々あらかじめ用意されたアウトラインデータを用いて、文字部分の情報をベクトルデータに変換する。尚、元の原稿がカラー原稿の場合は、カラー画像から各文字の色を抽出してベクトルデータとともに記録する。
【0040】
以上の処理により、文字ブロックに属するイメージ情報を形状、大きさ、色ともにほぼ忠実なベクトルデータに変換することができる。これにより、高品位な文字データを取り扱うことが可能になる。
【0041】
《文字以外の部分のベクトル化》
ステップS122のブロックセレクション処理で、図画或いは線、表領域とされた領域を対象として、それぞれ抽出された画素塊の輪郭をベクトルデータに変換する。具体的には、輪郭を成す画素の点列を角とみなされる点で区切って、各区間を部分的な直線或いは曲線で近似する。ここで、「角」とは、曲率が極大となる点である。
【0042】
図6は、曲率が極大となる点を説明するための図である。図6に示すように、任意点Piに対して左右k個の離れた点Pi-k〜Pi+kの間に弦を引いたとき、この弦とPiの距離が極大となる点として求められる。さらに、Pi-k〜Pi+k間の弦の長さ/弧の長さをRとし、Rの値が閾値以下である点を角とみなすことができる。角によって分割された後の各区間は、直線は点列に対する最小二乗法等を用いて、曲線は3次スプライン関数等を用いてベクトル化することができる。
【0043】
また、対象が内輪郭を持つ場合、ブロックセレクション処理で抽出した白画素輪郭の点列を用いて、同様に部分的直線或いは曲線で近似する。
【0044】
以上のように、輪郭の区分線近似を用いることによって、任意形状の図形のアウトラインをベクトル化することができる。尚、入力される原稿がカラーの場合は、カラー画像から図形の色を抽出してベクトルデータとともに記録する。
【0045】
図7は、外輪郭が内輪郭又は別の外輪郭と近接している場合に太さを持った線として表現する例について説明するための図である。図7に示すように、ある区間で外輪郭が、内輪郭又は別の外輪郭が近接している場合、2つの輪郭線を一まとめにし、太さを持った線として表現することができる。具体的には、ある輪郭の各点Piから別輪郭上で最短距離となる点Qiまで線を引き、各距離PQiが平均的に一定長以下の場合、注目区間はPQi中点を点列として直線又は曲線で近似し、その太さはPQiの平均値とする。線や線の集合体である表罫線は、前記したような太さを持つ線の集合として、効率よくベクトル表現することができる。
【0046】
尚、文字ブロックに対する文字認識処理を用いたベクトル化については前述したように、当該文字認識処理の結果、辞書からの距離が最も近い文字を認識結果として用いる。ここで、この距離が所定値以上の場合は、必ずしも本来の文字に一致するとは限らず、形状が類似する文字に誤認識するような場合が多い。従って、本実施形態では、このような文字に対しては上記したように、一般的な線画と同様に扱って当該文字をアウトライン化する。すなわち、従来は文字認識処理で誤認識を起こしていたような文字でも、誤った文字にベクトル化されることなく、可視的にイメージデータに忠実なアウトライン化によるベクトル化を行うことができる。また、写真と判定されたブロックに対しては、本実施形態ではベクトル化せずに、イメージデータのままとする。
【0047】
[図形認識]
ここでは、上述したように任意形状の図形のアウトラインをベクトル化した後、これらのベクトル化された区分線を図形オブジェクト毎にグループ化する処理について説明する。
【0048】
図8は、ベクトルデータを図形オブジェクト毎にグループ化するまでの処理手順を説明するためのフローチャートである。まず、各ベクトルデータの始点、終点を算出する(ステップS700)。次に、各ベクトルの始点、終点情報を用いて、図形要素を検出する(ステップS701)。ここで、図形要素の検出とは、区分線が構成している閉図形を検出することである。検出に際しては、閉形状を構成する各ベクトルはその両端にそれぞれ連結するベクトルを有しているという原理を応用して検出を行う。
【0049】
次に、図形要素内に存在する他の図形要素又は区分線をグループ化し、一つの図形オブジェクトとする(ステップS702)。尚、図形要素内に他の図形要素又は区分線が存在しない場合は、図形要素を図形オブジェクトとする。
【0050】
図9は、図形要素を検出する処理手順を説明するためのフローチャートである。まず、ベクトルデータから両端に連結していない不要なベクトルを除去し、閉図形構成ベクトルを抽出する(ステップS710)。次に、閉図形構成ベクトルの中から当該ベクトルの始点を開始点とし、時計回りに順にベクトルを追っていく。そして、開始点に戻るまで追跡を行い、通過したベクトルを全て一つの図形要素を構成する閉図形としてグループ化する(ステップS711)。尚、この際に、閉図形内部にある閉図形構成ベクトルも全てグループ化する。さらに、まだグループ化されていないベクトルの始点を開始点とし、同様の処理を繰り返す。最後に、ステップS710で除去された不要ベクトルのうち、ステップS711で閉図形としてグループ化されたベクトルに接合しているものを検出し、一つの図形要素としてグループ化する(ステップS712)。
【0051】
以上の処理によって、図形ブロックを個別に再利用可能な個別の図形オブジェクトとして扱うことが可能になる。
【0052】
[アプリデータへの変換処理]
図10は、一頁分のイメージデータをブロックセレクション処理(ステップS122)及びベクトル化処理(ステップS124)によって変換された結果として得られる中間データ形式のファイルのデータ構造を示す図である。図10に示すようなデータ形式は、ドキュメント・アナリシス・アウトプット・フォーマット(DAOF)と呼ばれる。すなわち、図10は、DAOFのデータ構造を示す図である。
【0053】
図10において、791はHeader(ヘッダ)であり、処理対象の文書画像データに関する情報が保持される。792はレイアウト記述データ部であり、文書画像データ中のTEXT(文字)、TITLE(タイトル)、CAPTION(キャプション)、LINEART(線画)、PICTURE(自然画)、FRAME(枠)、TABLE(表)等の属性毎に認識された各ブロックの属性情報とその矩形アドレス情報を保持する。
【0054】
このようなDAOFは、中間データとしてのみならず、それ自体がファイル化されて保存される場合もあるが、このファイルの状態では、一般の文書作成アプリケーションで個々のオブジェクトを再利用することはできない。そこで、次に、DAOFからアプリデータに変換する処理(ステップS126)について詳説する。
【0055】
図11は、アプリデータへの変換処理全体の概略手順を説明するためのフローチャートである。まず、DAOFデータを入力する(ステップS800)。次いで、アプリデータの元となる文書構造ツリー生成を行う(ステップS802)。そして、生成した文書構造ツリーに基づいて、DAOF内の実データを流し込み、実際のアプリデータを生成する(ステップS804)。
【0056】
図12は、文書構造ツリー生成処理(ステップS802)の詳細な処理手順を説明するためのフローチャートである。また、図13は、文書構造ツリーの概要を説明するための図である。尚、全体制御の基本ルールとして、処理の流れはミクロブロック(単一ブロック)からマクロブロック(ブロックの集合体)へ移行するものとする。また、以後の説明では、ブロックとは、ミクロブロック及びマクロブロック全体を指す。
【0057】
まず、ブロック単位で縦方向の関連性を元に再グループ化する(ステップS802a)。尚、スタート直後はミクロブロック単位での判定となる。ここで、関連性とは、距離が近く、ブロック幅(横方向の場合は高さ)がほぼ同一であること等で定義することができる。また、距離、幅、高さ等の情報はDAOFを参照して抽出する。
【0058】
図13において、(a)は実際のページ構成、(b)はその文書構造ツリーを示している。ステップS802aのグループ化の結果、T3、T4、T5が一つのグループV1として、T6、T7が一つのグループV2として、それぞれ同じ階層のグループとして生成される。
【0059】
次に、縦方向のセパレータの有無をチェックする(ステップS802b)。セパレータは、例えば、物理的にはDAOF中でライン属性を持つオブジェクトである。また、論理的な意味としては、アプリ中で明示的にブロックを分割する要素である。ここでセパレータを検出した場合は、同じ階層で再分割する。
【0060】
次いで、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する(ステップS802c)。例えば、縦方向のグルーピング長がページ高さか否かを判定する。その結果、縦方向のグループ長がページ高さとなっている場合は(Yes)、文書構造ツリー生成は終了する。例えば、図13に示すような構造の場合は、セパレータもなく、グループ高さはページ高さではないので、Noと判定され、ステップS802dに進む。
【0061】
ステップS802dでは、ブロック単位で横方向の関連性を元に再グループ化する。但し、この再グループ化においてもスタート直後の第一回目は、ミクロブロック単位で判定を行うことになる。また、関連性及びその判定情報の定義は、縦方向の場合と同じである。例えば、図13の構造の場合は、T1とT2でH1、V1とV2でH2が生成され、H1はT1、T2の一つ上、H2はV1、V2の1つ上の同じ階層のグループとして生成される。
【0062】
次いで、横方向セパレータの有無をチェックする(ステップS802e)。図13では、S1があるので、これをツリーに登録し、H1、S1、H2という階層が生成される。そして、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する(ステップS802f)。例えば、横方向のグルーピング長がページ幅か否かを判定する。その結果、横方向のグループ長がページ幅となっている場合(Yes)、文書構造ツリー生成は終了する。一方、ページ幅となっていない場合(No)は、ステップS802bに戻り、再度もう一段上の階層で、縦方向の関連性チェックから繰り返す。例えば、図13の構造の場合は、分割幅がページ幅になっているので、ここで終了し、最後にページ全体を表す最上位階層のV0が文書構造ツリーに付加される。
【0063】
文書構造ツリーが完成した後、その情報に基づいて、ステップS804においてアプリデータの生成を行う。図13の構造の場合は、具体的に以下のようになる。
【0064】
すなわち、H1は横方向に2つのブロックT1、T2があるので、2カラムとし、T1の内部情報(DAOFを参照した文字認識結果の文章や画像等)を出力後、カラムを変えて、T2の内部情報出力し、その後S1を出力する。また、H2は横方向に2つのブロックV1、V2があるので、2カラムとして出力し、V1はT3、T4、T5の順にその内部情報を出力し、その後カラムを変えて、V2のT6、T7の内部情報を出力する。以上により、アプリデータへの変換処理を行うことができる。これにより、ベクトル化したオブジェクトを既存の文書作成アプリケーションソフトウェア等で再利用することが可能となる。
【0065】
上述したように、本実施形態では、ベクトルデータを生成した際に、当該データが再利用可能であるか禁止されているかを判定しているが、再利用可能な場合であっても、ベクトルデータに付加情報として再利用の回数を示すタグ等を付与しておき、システム管理者等が再利用可能な回数を制限するようにしてもよい。例えば、ベクトルデータを再利用した回数を計測しておき、計測回数が所定回数に達した場合に当該ベクトルデータの再利用を制限するようにしてもよい。例えば、制限する手段としては、前述のようにベクトルデータを破棄して再利用できないようにしてもよい。これによって、再利用可能なベクトルデータであっても、無制限の再利用を防止することができる。
【0066】
以上、本発明の一実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0067】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
【0068】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0069】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
【0070】
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
【0071】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
【0072】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0073】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0074】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【図面の簡単な説明】
【0075】
【図1】本発明の一実施形態に係る画像処理システムの構成を示すブロック図である。
【図2】本発明の一実施形態に係るMFP100の構成を示すブロック図である。
【図3】本発明の一実施形態に係る画像処理システムによる画像処理の手順について説明するためのフローチャートである。
【図4】ブロックセレクション処理によって読み取った1枚のイメージデータを属性を判定し複数のブロックに分割する様子を示す図である。
【図5】ブロックセレクション処理で得られた各ブロックに対するブロック情報の一例について示す図である。
【図6】曲率が極大となる点を説明するための図である。
【図7】外輪郭が内輪郭又は別の外輪郭と近接している場合に太さを持った線として表現する例について説明するための図である。
【図8】ベクトルデータを図形オブジェクト毎にグループ化するまでの処理手順を説明するためのフローチャートである。
【図9】図形要素を検出する処理手順を説明するためのフローチャートである。
【図10】一頁分のイメージデータをブロックセレクション処理(ステップS122)及びベクトル化処理(ステップS124)によって変換された結果として得られる中間データ形式のファイルのデータ構造を示す図である。
【図11】アプリデータへの変換処理全体の概略手順を説明するためのフローチャートである。
【図12】文書構造ツリー生成処理(ステップS802)の詳細な処理手順を説明するためのフローチャートである。
【図13】文書構造ツリーの概要を説明するための図である。
【符号の説明】
【0076】
100 デジタル複合機(MFP)
101 マネージメントPC
102 クライアントPC
103a、103b プロキシサーバ
104 ネットワーク
105a、105b データベース
106a、106b 文書管理サーバ
107、108、109 LAN
110 画像読み取り部
111 記憶装置
112 印刷装置
113 入力装置
114、117 ネットワークI/F
115 データ処理装置
116 表示装置

【特許請求の範囲】
【請求項1】
イメージ情報を入力する入力手段と、
前記イメージ情報からベクトルデータを生成するベクトル化手段と、
前記ベクトルデータの再利用が許可されているか禁止されているかを判定する判定手段と、
前記判定手段によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記ベクトル化手段でベクトル化される前記ベクトルデータの再利用禁止処理を実行する制御手段と
を備えることを特徴とする画像処理システム。
【請求項2】
前記ベクトル化手段でベクトル化された前記ベクトルデータを格納する格納手段をさらに備え、
前記制御手段は、前記判定手段によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記格納手段に格納された前記ベクトルデータを破棄する
ことを特徴とする請求項1に記載の画像処理システム。
【請求項3】
再利用を許可しないベクトルデータに関する情報を保持する保持手段をさらに備え、
前記判定手段は、前記格納手段に格納された前記ベクトルデータと前記保持手段に保持された前記情報とが同一であるとみなせる場合に、前記格納手段に格納された前記ベクトルデータの再利用が禁止されていると判定する
ことを特徴とする請求項2に記載の画像処理システム。
【請求項4】
前記ベクトル化手段が、前記イメージ情報から抽出された文字情報の文字コード情報を含むベクトルデータを生成し、
前記保持手段が、再利用を許可しない文字情報の文字コード情報を保持し、
前記判定手段が、前記ベクトルデータに含まれる前記文字コード情報と前記保持手段に保持された前記文字コード情報とが同一の場合に、前記格納手段に格納された前記ベクトルデータの再利用が禁止されていると判定する
ことを特徴とする請求項3に記載の画像処理システム。
【請求項5】
前記イメージ情報を所定の文書作成ソフトウェアで取り扱い可能なフォーマットに変換するフォーマット変換手段をさらに備えることを特徴とする請求項1から4までのいずれか1項に記載の画像処理システム。
【請求項6】
前記イメージ情報を複数のオブジェクトに分割する分割手段をさらに備え、
前記判定手段が、前記分割手段によって分割されたそれぞれのオブジェクトごと独立に前記ベクトルデータの再利用が許可されているか禁止されているかを判定する
ことを特徴とする請求項1から5までのいずれか1項に記載の画像処理システム。
【請求項7】
前記ベクトルデータが再利用された回数を計測する計測手段と、
前記計測手段によって計測された回数が所定回数に達した場合、前記ベクトルデータの再利用を制限する制限手段と
をさらに備えることを特徴とする請求項1から6までのいずれか1項に記載の画像処理システム。
【請求項8】
前記入力手段による前記イメージ情報の入力に先立って、ユーザに対して認証情報の入力を要求する要求手段と、
入力された認証情報に基づいて前記画像処理システムに対するアクセスが許可されたユーザであるか否かを識別する識別手段とをさらに備え、
前記入力手段は、前記識別手段によってアクセス許可されたユーザであると識別されたことを条件として、前記イメージ情報を入力する
ことを特徴とする請求項1から7までのいずれか1項に記載の画像処理システム。
【請求項9】
前記入力手段が、紙原稿を光学的に読み取って得られた前記イメージ情報を入力することを特徴とする請求項1から8までのいずれか1項に記載の画像処理システム。
【請求項10】
前記入力手段により入力された前記イメージ情報を記憶する記憶手段をさらに備え、
前記制御手段は、前記判定手段によって前記ベクトルデータの再利用が禁止されていると判定された場合には前記イメージ情報を利用可能な状態とするとともに前記ベクトルデータを利用不可能な状態とし、前記判定手段によって前記ベクトルデータの再利用が許可されていると判定された場合には前記ベクトルデータの再利用が可能な状態とする
ことを特徴とする請求項1から9までのいずれか1項に記載の画像処理システム。
【請求項11】
イメージ情報を画像処理装置に入力する入力工程と、
前記イメージ情報からベクトルデータを生成するベクトル化工程と、
前記ベクトルデータの再利用が許可されているか禁止されているかを判定する判定工程と、
前記判定工程によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記ベクトル化工程でベクトル化される前記ベクトルデータの再利用禁止処理を実行する制御工程と
を有することを特徴とする画像処理方法。
【請求項12】
コンピュータに、
イメージ情報を入力する入力手順と、
前記イメージ情報からベクトルデータを生成するベクトル化手順と、
前記ベクトルデータの再利用が許可されているか禁止されているかを判定する判定手順と、
前記判定手順によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記ベクトル化工程でベクトル化される前記ベクトルデータの再利用禁止処理を実行する制御手順と
を実行させるためのプログラム。
【請求項13】
請求項12に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2006−25129(P2006−25129A)
【公開日】平成18年1月26日(2006.1.26)
【国際特許分類】
【出願番号】特願2004−200802(P2004−200802)
【出願日】平成16年7月7日(2004.7.7)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】