画像処理システム及び画像処理方法

【課題】著作権保護等の観点から再利用が禁止されている、若しくはむやみに加工されたくない情報をベクトルデータとして第三者に提供しないようにすることによって、再利用が許可されたベクトルデータを好適に提供することができる画像処理システム及び画像処理方法を提供する。
【解決手段】画像読み取り部１１０からイメージ情報を入力してデータ処理装置１１５がベクトルデータを生成する。ここで、データ処理装置１１５は、当該ベクトルデータの再利用が許可されているか禁止されているかを判定し、ベクトルデータの再利用が禁止されていると判定された場合に、格納されたベクトルデータを破棄する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、入力されたイメージ情報を汎用の文書作成アプリケーションソフトウェア等で再利用可能なベクトルデータに変換する画像処理システム及び画像処理方法に関する。
【背景技術】
【０００２】
近年、環境問題に対する関心が高まっている中、オフィス等でのペーパーレス化が急速に進んでいる。これに伴って、従来からバインダー等で蓄積されていた紙文書をスキャナで読み取ってポータブルドキュメントフォーマット（以下、「ＰＤＦ」と記す。）に変換して、画像記憶装置にデータベースとして蓄積するようにした文書管理システムが知られている。
【０００３】
一方で、機能が拡張されたデジタル複合機（以下、「ＭＦＰ」と記す。）では、予め画像を記録する際に、当該画像ファイルが存在する画像記憶装置内のポインター情報を当該文書の表紙、或いは記載情報中に付加情報として記録しておき、再度当該文書の複写等を行った際に、このポインター情報からオリジナル電子ファイルの格納場所を検出して再利用することができる。このように、当該電子ファイルとしてオリジナル情報を直接用いることで、紙文書全体の保存を削減することが可能である。また、これまでにも紙文書等の再利用・再編集を容易にするために、原稿を読み取って得た画像データに含まれる文字情報を認識し、フォントデータと関連付けるものが知られている（例えば、特許文献１参照。）。
【特許文献１】特開平５−１２４０２号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、前者の文書管理システムでは、紙文書をコンパクトな情報量のＰＤＦファイルとして保存することは可能であるが、ファイル自体がイメージ情報であるため、電子化された文書の一部のオブジェクトを再利用することができない。従って、当該文書内のデータを再利用するような場合には、図や表等については新たにアプリケーションソフト等を用いて再度作成しなければならない。
【０００５】
また、後者のＭＦＰでは、自部門で作成した電子ファイルについては直接オリジナルファイルにアクセスできるため、電子データを容易に再利用することが可能である。しかし、外部から入手した文書や、オリジナルファイルの所在が不明の古い紙文書等については対応することができない。
【０００６】
さらに、著作権保護の観点から、無制限に紙文書に記載されたデータの中には再利用可能な電子データとして生成されたくないようなものを含む場合もある。すなわち、著作権の保護が必要とされるようなデータをベクトルデータ化してしまうと、それらに対する改ざんが容易となってしまうからである。そこで、著作権保護等の観点から、改ざんをさせたくないようなデータについては再利用を禁止してベクトルデータとして保存させないようにする必要がある。
【０００７】
本発明は、このような事情を考慮してなされたものであり、著作権保護等の観点から再利用が禁止されている、若しくはむやみに加工されたくない情報をベクトルデータとして第三者に提供しないようにすることによって、再利用が許可されたベクトルデータを好適に提供することができる画像処理システム及び画像処理方法を提供することを目的とする。
【課題を解決するための手段】
【０００８】
上記課題を解決するために、本発明に係る画像処理システムは、
イメージ情報を入力する入力手段と、
前記イメージ情報からベクトルデータを生成するベクトル化手段と、
前記ベクトルデータの再利用が許可されているか禁止されているかを判定する判定手段と、
前記判定手段によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記ベクトル化手段でベクトル化される前記ベクトルデータの再利用禁止処理を実行する制御手段と
を備えることを特徴とする。
【０００９】
また、上記課題を解決するために、本発明に係る画像処理方法は、
イメージ情報を画像処理装置に入力する入力工程と、
前記イメージ情報からベクトルデータを生成するベクトル化工程と、
前記ベクトルデータの再利用が許可されているか禁止されているかを判定する判定工程と、
前記判定工程によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記ベクトル化工程でベクトル化される前記ベクトルデータの再利用禁止処理を実行する制御工程と
を有することを特徴とする。
【発明の効果】
【００１０】
本発明によれば、著作権保護等の観点から再利用が禁止されている、もしくは容易な加工を防ぎたい情報を、ベクトルデータとして提供しないようにすることによって、再利用が許可されたベクトルデータを好適に提供することができる。
【発明を実施するための最良の形態】
【００１１】
以下、図面を参照して、本発明の好適な実施形態に係る画像処理システム及び画像処理方法について説明する。
【００１２】
図１は、本発明の一実施形態に係る画像処理システムの構成を示すブロック図である。図１に示す画像処理システムは、一例として、オフィス１０とオフィス２０とをインターネット等のネットワーク１０４で接続された環境で実現される。
【００１３】
オフィス１０内に構築されたＬＡＮ１０７には、ＭＦＰ１００と、ＭＦＰ１００を制御するマネージメントＰＣ１０１と、クライアントＰＣ１０２と、文書管理サーバ１０６ａと、そのデータベース１０５ａ及びプロキシサーバ１０３ａが接続されている。また、オフィス２０内に構築されたＬＡＮ１０８には、文書管理サーバ１０６ｂと、そのデータベース１０５ｂ及びプロキシサーバ１０３ｂが接続されている。尚、クライアントＰＣ１０２は、外部記憶部、検索イメージ入力部及び検索結果出力部を備えている。また、ＬＡＮ１０７及びオフィス２０内のＬＡＮ１０８は、プロキシサーバ１０３ａ、１０３ｂを介してインターネット等のネットワーク１０４に接続されている。
【００１４】
ＭＦＰ１００は、本実施形態において紙文書を光学的に読み取って画像信号に変換する画像読み取り処理と、読み取った画像信号に対する画像処理の一部を担当し、画像信号はＬＡＮ１０９を用いてマネージメントＰＣ１０１に入力する。尚、マネージメントＰＣ１０１は、通常のＰＣでも実現可能であり、内部に画像記憶部、画像処理部、表示部及び入力部を備える。尚、マネージメントＰＣ１０１は、その一部又は全部をＭＦＰ１００と一体化して構成してもよい。
【００１５】
図２は、本発明の一実施形態に係るＭＦＰ１００の構成を示すブロック図である。尚、ＭＦＰ１００に対する操作者の指示は、ＭＦＰ１００に装備されているキー等の入力装置１１３、或いはマネージメントＰＣ１０１のキーボードやマウス等からなる入力装置から行われ、これら一連の動作はデータ処理装置１１５内の制御部で制御される。
【００１６】
図２において１１８は認証装置であり、ユーザに対して認証情報（例えば、個人ＩＤやパスワード等）の入力を要求し、入力装置１１３等から入力されたユーザの個人ＩＤ及びパスワード等の認証情報に基づいて、当該操作者のＭＦＰ１００に対するアクセス許可を行う。そして、認証装置１１８による認証結果を受けて、アクセスが許可されたユーザであることが識別されたことを条件として、オートドキュメントフィーダ（以下、「ＡＤＦ」と略す。）を含む画像読み取り部１１０は、束状或いは１枚の原稿画像を内部に備える光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスタ状の画像読み取り信号を例えば６００ｄｐｉの密度のイメージ情報として得る。そして通常の複写機能を用いる場合は、この画像信号をデータ処理部１１５で記録信号へ画像処理し、複数毎複写の場合は記憶装置１１１に一旦１ページ分の記録データを保持した後、印刷装置１１２に順次出力して紙上に画像を形成する。
【００１７】
一方、クライアントＰＣ１０２から出力されるプリントデータは、ＬＡＮ１０７からＭＦＰ１００に入力され、ネットワークＩＦ１１４を経てデータ処理装置１１５で記録可能なラスタデータに変換された後、印刷装置１１２に出力して紙上に記録画像として形成される。
【００１８】
一方、操作入力の状態表示及び処理中の画像データの表示は、ＭＦＰ１００の表示装置１１６又は、マネージメントＰＣ１０１、クライアントＰＣ１０２のモニタ等で行われる。尚、記憶装置１１１は、画像読み取り部１１０で読み取られ、データ処理装置１１５でデータ処理が施された画像データを格納する。また、記憶装置１１１は、マネージメントＰＣ１０１からも制御可能であって、ＭＦＰ１００とマネージメントＰＣ１０１とのデータの授受及び制御は、ネットワークＩＦ１１７及び直結したＬＡＮ１０９を用いて行われる。
【００１９】
［読み取り処理の概要］
次に、本発明の一実施形態に係る画像処理システムによる画像処理全体の概要について説明する。図３は、本発明の一実施形態に係る画像処理システムによる画像処理の手順について説明するためのフローチャートである。ここでは、図３のフローチャートを用いて紙原稿を読み取ってイメージ情報を取得する処理について説明する。
【００２０】
まず、入力装置１１３等から入力されたユーザＩＤ及びパスワード等に基づいて認証装置１１８がユーザ認証を行い、当該画像処理システムにアクセス可能なユーザであるか否かを識別する（ステップＳ１２０）。そして、認証結果から当該ＭＦＰ１００の使用が許可されたユーザである場合、以下の処理が可能となる。そこで、まず、ＭＦＰ１００における画像読み取り部１１０を動作させて１枚の原稿をラスタ走査し、例えば、６００ｄｐｉ、８ビットの画像信号を得る（イメージ情報入力処理：ステップＳ１２１）。尚、当該画像信号は、データ処理装置１１５で前処理を施して記憶装置１１１に１ページ分の画像データとして保存する。
【００２１】
次に、データ処理装置１１５内のＣＰＵ、或いはマネージメントＰＣ１０１のＣＰＵにより、記憶装置１１１に格納された画像信号から、まず文字／線画部分とハーフトーンの画像部分とに領域を分離する。そして、文字部分はさらに段落で塊として纏まっているブロック毎に、或いは、線で構成された表、図形に分離し各々セグメント化する。一方、ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等のいわゆるブロック毎に独立したオブジェクトに分割する（ＢＳ処理：ステップＳ１２２）。
【００２２】
次に、ＯＣＲ処理を行って、文字ブロックに対して、文字のサイズ、スタイル、字体等を認識し（ステップＳ１２３）、原稿を走査して読み取られた文字に可視的に忠実なフォントデータに変換することでベクトルデータを生成する（ステップＳ１２４）。一方、線で構成される表、図形ブロック等に対してはアウトライン化することでベクトルデータを生成する。また、画像ブロックに対しては、イメージ情報として個別のＪＰＥＧファイルとして処理する。尚、これらのベクトル化処理は各オブジェクト毎に行い、さらに各オブジェクトのレイアウト情報を保存しておく。
【００２３】
このように、ステップＳ１２４の処理によって、イメージ情報からベクトルデータへの変換処理が行われ、オリジナル電子ファイルに近い電子ファイルに変換される。
【００２４】
そして、ＭＦＰ１００内の記憶装置１１１やサーバ等のデータ格納部に（サーバ等に問い合わせたり、内部のＨＤに保存されている等、構成は問わない）格納されている著作権保護用のロゴ等（ベクトルデータ及びテキストデータ）のデータと、ステップＳ１２４におけるベクトル化処理によって得られたベクトルデータとを比較する（ステップＳ１２５）。その結果、両データが異なる場合（Ｎｏ）は、ベクトルデータの再利用が許可されているデータであると判定され、例えば、ｒｔｆファイル等の汎用の文書作成ソフトウェアで取り扱い可能なフォーマットを有するアプリデータに変換して、電子ファイルとして記憶装置１１１に格納する（ステップＳ１２６）。
【００２５】
一方、ステップＳ１２５での比較結果から両データが同一であると判断された場合（Ｙｅｓ）は、再利用が禁止されているデータであると判断され、作成されたベクトルデータを破棄（すなわち、システム内から消去）する（ステップＳ１２７）。尚、この判断は両データが完全同一の場合のみに限定してもよいが、柔軟な判断をさせるためには完全同一の場合だけでなく、類似している場合等の同一とみなせる場合も含めるようにしてもよい。但し、データの再利用をさせないことが目的であるため、例えばビットマップ等のイメージデータとしてそれらのデータを保存しておくことは可能である。また、ステップＳ１２５の具体的な比較手法については、一般的な文字認識の際に用いられる字種数分の辞書特徴ベクトルを文字形状種（例えばフォント種）に対して複数用意しておき、マッチングの際に文字コードとともにフォント種を出力することで、著作権保護されているフォントを認識することができる。
【００２６】
また、再利用が禁止されている場合、データの破棄をすることなくベクトル化されたデータの利用を禁止するような属性を与えておき、特定のユーザ以外は利用できないようにしてもよい。そして、ベクトル化されるべき図形、線画等に関して、ベクトル化されたデータの利用が禁止されている場合は、その部分はブランクとしてユーザに提供するか、ビットマップ化された、若しくはそれに基づき加工されたイメージデータのみ利用可能とする。もちろん、図形や線画だけでなく、文字データにも同様の処理を適用してもよいことは言うまでもない。また、上記実施形態ではベクトル化後に再利用が禁止されているかを判断しているが、ベクトル化する前にその内容から判断して、ベクトル化すること自体を禁止するようにしてもよい。
【００２７】
以下、各処理ブロックに対して詳細に説明する。
【００２８】
まず、ステップＳ１２２で示すブロックセレクション（ＢＳ）処理について説明する。
【００２９】
［ブロックセレクション処理］
図４は、ブロックセレクション処理によって読み取った１枚のイメージデータを属性を判定し複数のブロックに分割する様子を示す図である。すなわち、ブロックセレクション処理とは、符号４１に示すステップＳ１２１で読み取った一頁のイメージデータを、符号４２に示すようにオブジェクト毎の塊として認識し、それぞれのブロックを文字（TEXT）、写真（PHOTO）、線（LINE）、表（TABLE）等の属性に判定し、異なる属性を持つ領域（ブロック）に分割する処理である。
【００３０】
ブロックセレクション処理の一実施形態を以下に説明する。
【００３１】
まず、入力画像を白黒に２値化して、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。そして、面積の大きい黒画素の塊については、内部にある白画素に対して同様に輪郭線追跡を行って白画素の塊を抽出する。さらに、一定面積以上の白画素の塊の内部からも再帰的に黒画素の塊を抽出する。尚、上記処理は、白地に黒字等で記載されている原稿の場合の処理であって、それ以外の場合は背景に相当する色を「白」、オブジェクトに相当する色を「黒」とすることにより同様に処理することができる。
【００３２】
このようにして得られた黒画素の塊を、大きさ及び形状等で分類し、異なる属性を持つ領域へ分類する。例えば、縦横比が１に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字領域とする。また、扁平な画素塊を線領域、一定の大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域、不定形の画素塊が散在している領域を写真領域、それ以外の任意形状の画素塊を図画領域等とする。これにより、１枚の原稿を読み取って作成した電子データの再利用に対してより高度な制限等を設けることができる。
【００３３】
図５は、ブロックセレクション処理で得られた各ブロックに対するブロック情報の一例について示す図である。図５に示されるブロック毎の情報は、後述するベクトル化或いは検索のための情報として用いられる。
【００３４】
［ベクトル化処理］
次に、図３のステップＳ１２４で示されるベクトル化処理について説明する。まず、文字ブロックに対しては各文字に対して文字認識処理を行う。
【００３５】
《文字認識》
文字認識処理のため、本実施形態では文字単位で切り出された画像に対し、パターンマッチングの一手法を用いて認識を行い、対応する文字コードを得る。この認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルと比較し、最も距離の近い字種を認識結果とする処理である。尚、特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法を用いることができる。
【００３６】
ブロックセレクション処理（ステップＳ１２２）で抽出された文字領域に対して文字認識を行う場合、まず該当領域に対して横書き、縦書きの判定を行い、各々対応する方向に行を切り出し、その後文字を切り出して文字画像を得る。横書き、縦書きの判定は、該当領域内で画素値に対する水平／垂直の射影を取り、水平射影の分散が大きい場合は横書き領域、垂直射影の分散が大きい場合は縦書き領域と判断すればよい。
【００３７】
また、文字列及び文字への分解は、横書きの場合は水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出す。一方、縦書きの文字領域に対しては、水平と垂直を逆にすればよい。尚、文字のサイズは切り出した大きさに基づいて検出することができる。
【００３８】
《フォント認識》
文字認識の際に用いられる字種数分の辞書特徴ベクトルを、文字形状種、すなわちフォント種に対して複数用意し、マッチングの際に文字コードとともにフォント種を出力することで、文字のフォントを認識することができる。
【００３９】
《文字のベクトル化》
本実施形態では、文字のベクトル化に際して、前述した文字認識及びフォント認識よって得られた文字コード及びフォント情報を用いて、各々あらかじめ用意されたアウトラインデータを用いて、文字部分の情報をベクトルデータに変換する。尚、元の原稿がカラー原稿の場合は、カラー画像から各文字の色を抽出してベクトルデータとともに記録する。
【００４０】
以上の処理により、文字ブロックに属するイメージ情報を形状、大きさ、色ともにほぼ忠実なベクトルデータに変換することができる。これにより、高品位な文字データを取り扱うことが可能になる。
【００４１】
《文字以外の部分のベクトル化》
ステップＳ１２２のブロックセレクション処理で、図画或いは線、表領域とされた領域を対象として、それぞれ抽出された画素塊の輪郭をベクトルデータに変換する。具体的には、輪郭を成す画素の点列を角とみなされる点で区切って、各区間を部分的な直線或いは曲線で近似する。ここで、「角」とは、曲率が極大となる点である。
【００４２】
図６は、曲率が極大となる点を説明するための図である。図６に示すように、任意点Ｐiに対して左右ｋ個の離れた点Ｐi-k〜Ｐi+kの間に弦を引いたとき、この弦とＰiの距離が極大となる点として求められる。さらに、Ｐi-k〜Ｐi+k間の弦の長さ／弧の長さをＲとし、Ｒの値が閾値以下である点を角とみなすことができる。角によって分割された後の各区間は、直線は点列に対する最小二乗法等を用いて、曲線は３次スプライン関数等を用いてベクトル化することができる。
【００４３】
また、対象が内輪郭を持つ場合、ブロックセレクション処理で抽出した白画素輪郭の点列を用いて、同様に部分的直線或いは曲線で近似する。
【００４４】
以上のように、輪郭の区分線近似を用いることによって、任意形状の図形のアウトラインをベクトル化することができる。尚、入力される原稿がカラーの場合は、カラー画像から図形の色を抽出してベクトルデータとともに記録する。
【００４５】
図７は、外輪郭が内輪郭又は別の外輪郭と近接している場合に太さを持った線として表現する例について説明するための図である。図７に示すように、ある区間で外輪郭が、内輪郭又は別の外輪郭が近接している場合、２つの輪郭線を一まとめにし、太さを持った線として表現することができる。具体的には、ある輪郭の各点Ｐiから別輪郭上で最短距離となる点Ｑiまで線を引き、各距離ＰＱiが平均的に一定長以下の場合、注目区間はＰＱi中点を点列として直線又は曲線で近似し、その太さはＰＱiの平均値とする。線や線の集合体である表罫線は、前記したような太さを持つ線の集合として、効率よくベクトル表現することができる。
【００４６】
尚、文字ブロックに対する文字認識処理を用いたベクトル化については前述したように、当該文字認識処理の結果、辞書からの距離が最も近い文字を認識結果として用いる。ここで、この距離が所定値以上の場合は、必ずしも本来の文字に一致するとは限らず、形状が類似する文字に誤認識するような場合が多い。従って、本実施形態では、このような文字に対しては上記したように、一般的な線画と同様に扱って当該文字をアウトライン化する。すなわち、従来は文字認識処理で誤認識を起こしていたような文字でも、誤った文字にベクトル化されることなく、可視的にイメージデータに忠実なアウトライン化によるベクトル化を行うことができる。また、写真と判定されたブロックに対しては、本実施形態ではベクトル化せずに、イメージデータのままとする。
【００４７】
［図形認識］
ここでは、上述したように任意形状の図形のアウトラインをベクトル化した後、これらのベクトル化された区分線を図形オブジェクト毎にグループ化する処理について説明する。
【００４８】
図８は、ベクトルデータを図形オブジェクト毎にグループ化するまでの処理手順を説明するためのフローチャートである。まず、各ベクトルデータの始点、終点を算出する（ステップＳ７００）。次に、各ベクトルの始点、終点情報を用いて、図形要素を検出する（ステップＳ７０１）。ここで、図形要素の検出とは、区分線が構成している閉図形を検出することである。検出に際しては、閉形状を構成する各ベクトルはその両端にそれぞれ連結するベクトルを有しているという原理を応用して検出を行う。
【００４９】
次に、図形要素内に存在する他の図形要素又は区分線をグループ化し、一つの図形オブジェクトとする（ステップＳ７０２）。尚、図形要素内に他の図形要素又は区分線が存在しない場合は、図形要素を図形オブジェクトとする。
【００５０】
図９は、図形要素を検出する処理手順を説明するためのフローチャートである。まず、ベクトルデータから両端に連結していない不要なベクトルを除去し、閉図形構成ベクトルを抽出する（ステップＳ７１０）。次に、閉図形構成ベクトルの中から当該ベクトルの始点を開始点とし、時計回りに順にベクトルを追っていく。そして、開始点に戻るまで追跡を行い、通過したベクトルを全て一つの図形要素を構成する閉図形としてグループ化する（ステップＳ７１１）。尚、この際に、閉図形内部にある閉図形構成ベクトルも全てグループ化する。さらに、まだグループ化されていないベクトルの始点を開始点とし、同様の処理を繰り返す。最後に、ステップＳ７１０で除去された不要ベクトルのうち、ステップＳ７１１で閉図形としてグループ化されたベクトルに接合しているものを検出し、一つの図形要素としてグループ化する（ステップＳ７１２）。
【００５１】
以上の処理によって、図形ブロックを個別に再利用可能な個別の図形オブジェクトとして扱うことが可能になる。
【００５２】
［アプリデータへの変換処理］
図１０は、一頁分のイメージデータをブロックセレクション処理（ステップＳ１２２）及びベクトル化処理（ステップＳ１２４）によって変換された結果として得られる中間データ形式のファイルのデータ構造を示す図である。図１０に示すようなデータ形式は、ドキュメント・アナリシス・アウトプット・フォーマット（ＤＡＯＦ）と呼ばれる。すなわち、図１０は、ＤＡＯＦのデータ構造を示す図である。
【００５３】
図１０において、７９１はHeader（ヘッダ）であり、処理対象の文書画像データに関する情報が保持される。７９２はレイアウト記述データ部であり、文書画像データ中のTEXT（文字）、TITLE（タイトル）、CAPTION（キャプション）、LINEART（線画）、PICTURE（自然画）、FRAME（枠）、TABLE（表）等の属性毎に認識された各ブロックの属性情報とその矩形アドレス情報を保持する。
【００５４】
このようなＤＡＯＦは、中間データとしてのみならず、それ自体がファイル化されて保存される場合もあるが、このファイルの状態では、一般の文書作成アプリケーションで個々のオブジェクトを再利用することはできない。そこで、次に、ＤＡＯＦからアプリデータに変換する処理（ステップＳ１２６）について詳説する。
【００５５】
図１１は、アプリデータへの変換処理全体の概略手順を説明するためのフローチャートである。まず、ＤＡＯＦデータを入力する（ステップＳ８００）。次いで、アプリデータの元となる文書構造ツリー生成を行う（ステップＳ８０２）。そして、生成した文書構造ツリーに基づいて、ＤＡＯＦ内の実データを流し込み、実際のアプリデータを生成する（ステップＳ８０４）。
【００５６】
図１２は、文書構造ツリー生成処理（ステップＳ８０２）の詳細な処理手順を説明するためのフローチャートである。また、図１３は、文書構造ツリーの概要を説明するための図である。尚、全体制御の基本ルールとして、処理の流れはミクロブロック（単一ブロック）からマクロブロック（ブロックの集合体）へ移行するものとする。また、以後の説明では、ブロックとは、ミクロブロック及びマクロブロック全体を指す。
【００５７】
まず、ブロック単位で縦方向の関連性を元に再グループ化する（ステップＳ８０２ａ）。尚、スタート直後はミクロブロック単位での判定となる。ここで、関連性とは、距離が近く、ブロック幅（横方向の場合は高さ）がほぼ同一であること等で定義することができる。また、距離、幅、高さ等の情報はＤＡＯＦを参照して抽出する。
【００５８】
図１３において、（ａ）は実際のページ構成、（ｂ）はその文書構造ツリーを示している。ステップＳ８０２ａのグループ化の結果、Ｔ３、Ｔ４、Ｔ５が一つのグループＶ１として、Ｔ６、Ｔ７が一つのグループＶ２として、それぞれ同じ階層のグループとして生成される。
【００５９】
次に、縦方向のセパレータの有無をチェックする（ステップＳ８０２ｂ）。セパレータは、例えば、物理的にはＤＡＯＦ中でライン属性を持つオブジェクトである。また、論理的な意味としては、アプリ中で明示的にブロックを分割する要素である。ここでセパレータを検出した場合は、同じ階層で再分割する。
【００６０】
次いで、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する（ステップＳ８０２ｃ）。例えば、縦方向のグルーピング長がページ高さか否かを判定する。その結果、縦方向のグループ長がページ高さとなっている場合は（Ｙｅｓ）、文書構造ツリー生成は終了する。例えば、図１３に示すような構造の場合は、セパレータもなく、グループ高さはページ高さではないので、Ｎｏと判定され、ステップＳ８０２ｄに進む。
【００６１】
ステップＳ８０２ｄでは、ブロック単位で横方向の関連性を元に再グループ化する。但し、この再グループ化においてもスタート直後の第一回目は、ミクロブロック単位で判定を行うことになる。また、関連性及びその判定情報の定義は、縦方向の場合と同じである。例えば、図１３の構造の場合は、Ｔ１とＴ２でＨ１、Ｖ１とＶ２でＨ２が生成され、Ｈ１はＴ１、Ｔ２の一つ上、Ｈ２はＶ１、Ｖ２の１つ上の同じ階層のグループとして生成される。
【００６２】
次いで、横方向セパレータの有無をチェックする（ステップＳ８０２ｅ）。図１３では、Ｓ１があるので、これをツリーに登録し、Ｈ１、Ｓ１、Ｈ２という階層が生成される。そして、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する（ステップＳ８０２ｆ）。例えば、横方向のグルーピング長がページ幅か否かを判定する。その結果、横方向のグループ長がページ幅となっている場合（Ｙｅｓ）、文書構造ツリー生成は終了する。一方、ページ幅となっていない場合（Ｎｏ）は、ステップＳ８０２ｂに戻り、再度もう一段上の階層で、縦方向の関連性チェックから繰り返す。例えば、図１３の構造の場合は、分割幅がページ幅になっているので、ここで終了し、最後にページ全体を表す最上位階層のＶ０が文書構造ツリーに付加される。
【００６３】
文書構造ツリーが完成した後、その情報に基づいて、ステップＳ８０４においてアプリデータの生成を行う。図１３の構造の場合は、具体的に以下のようになる。
【００６４】
すなわち、Ｈ１は横方向に２つのブロックＴ１、Ｔ２があるので、２カラムとし、Ｔ１の内部情報（ＤＡＯＦを参照した文字認識結果の文章や画像等）を出力後、カラムを変えて、Ｔ２の内部情報出力し、その後Ｓ１を出力する。また、Ｈ２は横方向に２つのブロックＶ１、Ｖ２があるので、２カラムとして出力し、Ｖ１はＴ３、Ｔ４、Ｔ５の順にその内部情報を出力し、その後カラムを変えて、Ｖ２のＴ６、Ｔ７の内部情報を出力する。以上により、アプリデータへの変換処理を行うことができる。これにより、ベクトル化したオブジェクトを既存の文書作成アプリケーションソフトウェア等で再利用することが可能となる。
【００６５】
上述したように、本実施形態では、ベクトルデータを生成した際に、当該データが再利用可能であるか禁止されているかを判定しているが、再利用可能な場合であっても、ベクトルデータに付加情報として再利用の回数を示すタグ等を付与しておき、システム管理者等が再利用可能な回数を制限するようにしてもよい。例えば、ベクトルデータを再利用した回数を計測しておき、計測回数が所定回数に達した場合に当該ベクトルデータの再利用を制限するようにしてもよい。例えば、制限する手段としては、前述のようにベクトルデータを破棄して再利用できないようにしてもよい。これによって、再利用可能なベクトルデータであっても、無制限の再利用を防止することができる。
【００６６】
以上、本発明の一実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【００６７】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
【００６８】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【００６９】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。
【００７０】
プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。
【００７１】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。
【００７２】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【００７３】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【００７４】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【図面の簡単な説明】
【００７５】
【図１】本発明の一実施形態に係る画像処理システムの構成を示すブロック図である。
【図２】本発明の一実施形態に係るＭＦＰ１００の構成を示すブロック図である。
【図３】本発明の一実施形態に係る画像処理システムによる画像処理の手順について説明するためのフローチャートである。
【図４】ブロックセレクション処理によって読み取った１枚のイメージデータを属性を判定し複数のブロックに分割する様子を示す図である。
【図５】ブロックセレクション処理で得られた各ブロックに対するブロック情報の一例について示す図である。
【図６】曲率が極大となる点を説明するための図である。
【図７】外輪郭が内輪郭又は別の外輪郭と近接している場合に太さを持った線として表現する例について説明するための図である。
【図８】ベクトルデータを図形オブジェクト毎にグループ化するまでの処理手順を説明するためのフローチャートである。
【図９】図形要素を検出する処理手順を説明するためのフローチャートである。
【図１０】一頁分のイメージデータをブロックセレクション処理（ステップＳ１２２）及びベクトル化処理（ステップＳ１２４）によって変換された結果として得られる中間データ形式のファイルのデータ構造を示す図である。
【図１１】アプリデータへの変換処理全体の概略手順を説明するためのフローチャートである。
【図１２】文書構造ツリー生成処理（ステップＳ８０２）の詳細な処理手順を説明するためのフローチャートである。
【図１３】文書構造ツリーの概要を説明するための図である。
【符号の説明】
【００７６】
１００デジタル複合機（ＭＦＰ）
１０１マネージメントＰＣ
１０２クライアントＰＣ
１０３ａ、１０３ｂプロキシサーバ
１０４ネットワーク
１０５ａ、１０５ｂデータベース
１０６ａ、１０６ｂ文書管理サーバ
１０７、１０８、１０９ＬＡＮ
１１０画像読み取り部
１１１記憶装置
１１２印刷装置
１１３入力装置
１１４、１１７ネットワークＩ／Ｆ
１１５データ処理装置
１１６表示装置

【特許請求の範囲】
【請求項１】
イメージ情報を入力する入力手段と、
前記イメージ情報からベクトルデータを生成するベクトル化手段と、
前記ベクトルデータの再利用が許可されているか禁止されているかを判定する判定手段と、
前記判定手段によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記ベクトル化手段でベクトル化される前記ベクトルデータの再利用禁止処理を実行する制御手段と
を備えることを特徴とする画像処理システム。
【請求項２】
前記ベクトル化手段でベクトル化された前記ベクトルデータを格納する格納手段をさらに備え、
前記制御手段は、前記判定手段によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記格納手段に格納された前記ベクトルデータを破棄する
ことを特徴とする請求項１に記載の画像処理システム。
【請求項３】
再利用を許可しないベクトルデータに関する情報を保持する保持手段をさらに備え、
前記判定手段は、前記格納手段に格納された前記ベクトルデータと前記保持手段に保持された前記情報とが同一であるとみなせる場合に、前記格納手段に格納された前記ベクトルデータの再利用が禁止されていると判定する
ことを特徴とする請求項２に記載の画像処理システム。
【請求項４】
前記ベクトル化手段が、前記イメージ情報から抽出された文字情報の文字コード情報を含むベクトルデータを生成し、
前記保持手段が、再利用を許可しない文字情報の文字コード情報を保持し、
前記判定手段が、前記ベクトルデータに含まれる前記文字コード情報と前記保持手段に保持された前記文字コード情報とが同一の場合に、前記格納手段に格納された前記ベクトルデータの再利用が禁止されていると判定する
ことを特徴とする請求項３に記載の画像処理システム。
【請求項５】
前記イメージ情報を所定の文書作成ソフトウェアで取り扱い可能なフォーマットに変換するフォーマット変換手段をさらに備えることを特徴とする請求項１から４までのいずれか１項に記載の画像処理システム。
【請求項６】
前記イメージ情報を複数のオブジェクトに分割する分割手段をさらに備え、
前記判定手段が、前記分割手段によって分割されたそれぞれのオブジェクトごと独立に前記ベクトルデータの再利用が許可されているか禁止されているかを判定する
ことを特徴とする請求項１から５までのいずれか１項に記載の画像処理システム。
【請求項７】
前記ベクトルデータが再利用された回数を計測する計測手段と、
前記計測手段によって計測された回数が所定回数に達した場合、前記ベクトルデータの再利用を制限する制限手段と
をさらに備えることを特徴とする請求項１から６までのいずれか１項に記載の画像処理システム。
【請求項８】
前記入力手段による前記イメージ情報の入力に先立って、ユーザに対して認証情報の入力を要求する要求手段と、
入力された認証情報に基づいて前記画像処理システムに対するアクセスが許可されたユーザであるか否かを識別する識別手段とをさらに備え、
前記入力手段は、前記識別手段によってアクセス許可されたユーザであると識別されたことを条件として、前記イメージ情報を入力する
ことを特徴とする請求項１から７までのいずれか１項に記載の画像処理システム。
【請求項９】
前記入力手段が、紙原稿を光学的に読み取って得られた前記イメージ情報を入力することを特徴とする請求項１から８までのいずれか１項に記載の画像処理システム。
【請求項１０】
前記入力手段により入力された前記イメージ情報を記憶する記憶手段をさらに備え、
前記制御手段は、前記判定手段によって前記ベクトルデータの再利用が禁止されていると判定された場合には前記イメージ情報を利用可能な状態とするとともに前記ベクトルデータを利用不可能な状態とし、前記判定手段によって前記ベクトルデータの再利用が許可されていると判定された場合には前記ベクトルデータの再利用が可能な状態とする
ことを特徴とする請求項１から９までのいずれか１項に記載の画像処理システム。
【請求項１１】
イメージ情報を画像処理装置に入力する入力工程と、
前記イメージ情報からベクトルデータを生成するベクトル化工程と、
前記ベクトルデータの再利用が許可されているか禁止されているかを判定する判定工程と、
前記判定工程によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記ベクトル化工程でベクトル化される前記ベクトルデータの再利用禁止処理を実行する制御工程と
を有することを特徴とする画像処理方法。
【請求項１２】
コンピュータに、
イメージ情報を入力する入力手順と、
前記イメージ情報からベクトルデータを生成するベクトル化手順と、
前記ベクトルデータの再利用が許可されているか禁止されているかを判定する判定手順と、
前記判定手順によって前記ベクトルデータの再利用が禁止されていると判定された場合に、前記ベクトル化工程でベクトル化される前記ベクトルデータの再利用禁止処理を実行する制御手順と
を実行させるためのプログラム。
【請求項１３】
請求項１２に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。

【図１】