説明

原稿読取装置

【課題】 読取画像の中から、ユーザが元原稿に書き込んだ書込情報を含む読取画像を自動抽出させることができ、元原稿の内容を編集する際の作業効率を向上させた原稿読取装置を提供する。
【解決手段】 複数の原稿を光学的に読み取り、読取画像をそれぞれ生成する光学読取部と、読取画像に対し、有彩色の書込画像を含むか否かを判定する画像判定部と、画像判定部により書込画像を含むと判定された読取画像を文字認識処理し、文字列からなる文書データを生成する文字認識部と、書込画像を含む読取画像及び当該読取画像から得られた文書データからなる画像ファイルを生成する画像ファイル生成部により構成される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、原稿読取装置に係り、さらに詳しくは、複数の原稿を光学的に読み取り、読取画像をそれぞれ生成する原稿読取装置の改良に関する。
【背景技術】
【0002】
従来、元原稿に対し、色付きのペンを用いて文字などが書き込まれた書込原稿を複数の原稿の中から抜き出す作業は、手作業により行われていた。また、色付きのペンを用いて書き込まれた書込情報を参照して元原稿の内容を編集する場合、元原稿を構成する文字列からなる文書データがあれば、編集作業を効率的に行うことができる。
【0003】
そこで、スキャナ装置を用いて原稿から読み取った読取画像に対し、マーキングペンを用いてマーキングされた一部の画像領域を輝度又は濃度に基づいて抽出する。そして、サムネイル化して元の読取画像に添付し、或いは、文字認識してキーワードを元の読取画像に添付する技術が提案されている(例えば、特許文献1)。この特許文献1に記載の画像処理装置では、複数の読取画像の中から所望の読取画像を抽出する際の読取画像の特定を容易化することができる。しかし、上述した画像処理装置では、マーキングされた一部の画像領域に記載された内容をキーワードにより容易に認識できたとしても、元原稿の内容を編集する場合に、元原稿を構成する文字列を入力し直さなければならなかった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2000−316082号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、上記事情に鑑みてなされたものであり、読取画像の中から、ユーザが元原稿に書き込んだ書込情報を含む読取画像を自動抽出させることができ、元原稿の内容を編集する際の作業効率を向上させた原稿読取装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
第1の本発明による原稿読取装置は、2以上の原稿を光学的に読み取り、読取画像をそれぞれ生成する光学読取部と、上記読取画像に対し、有彩色の書込画像を含むか否かを判定する画像判定部と、上記画像判定部により上記書込画像を含むと判定された読取画像を文字認識処理し、文字列からなる文書データを生成する文字認識部と、上記書込画像を含む上記読取画像及び当該読取画像から得られた上記文書データからなる画像ファイルを生成する画像ファイル生成部とを備えて構成される。
【0007】
この原稿読取装置では、複数の原稿の読取画像のうち、有彩色の書込画像を含む読取画像に対し、読取画像と、当該読取画像を文字認識処理して得られる文書データとから画像ファイルが生成される。この様な構成によれば、複数の原稿から読み取った読取画像の中から、ユーザが元原稿に書込情報として書き込んだ有彩色の書込画像を含む読取画像を自動抽出させることができる。さらに、読取画像を文字認識処理して得られる文書データを含む画像ファイルが生成されるので、文書データを利用して元原稿の内容を編集することができる。
【0008】
第2の本発明による原稿読取装置は、上記構成に加え、上記読取画像を圧縮し、解像度を低下させた低解像度画像を生成する画像圧縮部を備え、上記画像ファイル生成部が、上記書込画像を含む上記読取画像に対し、当該読取画像及び上記文書データからなる上記画像ファイルを生成し、上記書込画像を含まない上記読取画像に対し、当該読取画像から得られた上記低解像度画像からなる画像ファイルを生成するように構成される。
【0009】
この様な構成によれば、有彩色の書込画像を含む読取画像に対し、元原稿の内容を編集する際の作業効率を向上させつつ、書込画像を含まない読取画像に対して画像ファイルのデータサイズを小さくすることができる。
【0010】
第3の本発明による原稿読取装置は、上記構成に加え、上記画像ファイル生成部が、上記読取画像が上記書込画像を含むか否かを示す属性情報をヘッダ情報として含む画像ファイルを生成するように構成される。
【0011】
この様な構成によれば、ヘッダ情報として含まれる属性情報を参照することにより、画像ファイルの中の読取画像が書込画像を含むものであるか否かを容易に識別することができる。
【0012】
第4の本発明による原稿読取装置は、上記構成に加え、上記画像ファイル生成部が、上記書込画像を含む上記読取画像から得られた画像ファイルと、上記書込画像を含まない上記読取画像から得られた画像ファイルとからなる出力ファイルを生成するように構成される。
【0013】
この様な構成によれば、ユーザにより書き込まれた書込画像を含む読取画像が正しく抽出されなかった場合であっても、出力ファイルに含まれる読取画像により、対応する元原稿の内容を確認することができる。
【発明の効果】
【0014】
本発明による原稿読取装置によれば、複数の原稿から読み取った読取画像の中から、ユーザが元原稿に書込情報として書き込んだ有彩色の書込画像を含む読取画像を自動抽出させることができる。さらに、読取画像を文字認識処理して得られる文書データを含む画像ファイルが生成されるので、文書データを利用して元原稿の内容を編集することができる。従って、ユーザによる書込情報を参照しながら元原稿の内容を編集する際の作業効率を向上させることができる。
【図面の簡単な説明】
【0015】
【図1】本発明の実施の形態1による原稿読取装置の動作の一例を模式的に示した説明図であり、原稿読取装置の一例としてMFP100が示されている。
【図2】図1のMFP100における動作の一例を示した図であり、元原稿、書込原稿及び書込原稿の読取画像から得られた文書データ11が示されている。
【図3】図1のMFP100の構成例を示したブロック図であり、MFP100内の機能構成の一例が示されている。
【図4】図3のMFP100における書込ページの抽出時の動作の一例を示したフローチャートである。
【図5】本発明の実施の形態2による原稿読取装置の動作の一例を示した図であり、書込ページ及び非書込ページの画像ファイル2がそれぞれ示されている。
【図6】図5のMFP100の構成例を示したブロック図である。
【発明を実施するための形態】
【0016】
実施の形態1.
<書込ページの抽出>
図1は、本発明の実施の形態1による原稿読取装置の動作の一例を模式的に示した説明図であり、原稿読取装置の一例としてMFP100が示されている。MFP(Multifunction Peripheral:複合機)100は、スキャナ機能、プリンタ機能、FAX(ファクシミリ)機能、複写機能を有し、これらの機能を選択的に実行させることができる画像処理装置である。
【0017】
このMFP100では、複数の原稿を光学的に読み取り、各原稿の読取画像の中から、ユーザが元原稿に書き込んだ書込情報を含む読取画像12が抽出される。そして、抽出した読取画像12と、当該読取画像12を文字認識処理し、文字列からなる文書データ11とから画像ファイル2が生成される。
【0018】
具体的には、「原稿1」、「原稿2」、「原稿3」、・・・が抽出対象原稿1として順次に読み取られ、読取画像がそれぞれ生成される。各抽出対象原稿1は、地色が無彩色であり、文字、記号、図形などの無彩色画像が形成された紙媒体である。また、各抽出対象原稿1は、所定の原稿収容部内に収容され、原稿収容部から1枚ずつ取り出して光学読取部へ給送され、抽出対象原稿1から読取画像が読み取られる。
【0019】
次に、各抽出対象原稿1の読取画像の中から、無彩色画像の一部に有彩色の書込画像が付加された読取画像12が書込ページとして抽出される。例えば、有彩色のペンを用いて書き込まれた文字、記号、図形などの書込画像を書込情報として含む読取画像12が抽出される。
【0020】
書込ページとして抽出された読取画像12は、OCR(Optical Character Reader:光学式文字読取)処理され、文字認識により得られた文字列からなる文書データ11が作成される。OCR処理は、書込ページの読取画像全体に対する画像解析処理であり、画像データを所定の文字パターンと照合することにより行われる。文書データ11は、一連の文字コードからなるテキスト情報であり、書込ページごとに生成される。
【0021】
そして、書込ページとして抽出された読取画像12と、当該読取画像12から得られた文書データ11とは、ファイル化され、1つの画像ファイル2が作成される。例えば、JPEG(Joint Photographic Experts Group)フォーマットのJPEGファイルとして、画像ファイル2が作成される。
【0022】
文書データ11は、この様な画像ファイル2のヘッダ情報として付加される。例えば、文書データ11は、画像ファイル2のヘッダ部分にコメントとして埋め込まれる。出力ファイル3は、書込ページごとの画像ファイル2からなり、所定の文書フォーマットで管理される。
【0023】
この様に構成することにより、有彩色の書込画像を含む読取画像12を書込ページとして自動抽出させることができる。また、読取画像12から得られた文書データ11が、画像ファイル2のヘッダ情報として読取画像12に関連付けて保持されるので、ヘッダ情報の文書データ11を参照することにより、出力ファイル3の中から所望の書込ページを容易に抽出することができる。
【0024】
また、出力ファイル3が、ユーザによる書込情報を含む読取画像12からなるので、抽出対象原稿1から読み取った全ての読取画像からなる場合に比べて、データサイズを小さくすることができる。
【0025】
<書込ページの文字認識>
図2は、図1のMFP100における動作の一例を示した図であり、元原稿、書込原稿及び書込原稿の読取画像から得られた文書データ11が示されている。元原稿は、ユーザにより文字などが書き込まれる前の原稿であり、地色が無彩色である紙媒体に、文字などを表す無彩色画像4が形成されている。例えば、地色が白色である記録紙に、黒色の文字、記号、図形が無彩色画像4として形成されている。
【0026】
書込原稿は、ユーザにより文字などが書き込まれた原稿であり、元原稿に対し、ユーザが有彩色のペンを用いて書き込んだ文字などを表す有彩色の書込画像5が無彩色画像4の一部に付加されている。例えば、赤色の文字、記号、図形が書込画像5として形成されている。この例では、文章中の取消線、文字列「共有フォルダ」、「直接」などが書込画像5である。
【0027】
MFP100では、この様な元原稿及び書込原稿からなる複数の抽出対象原稿1が読み取られ、書込原稿から得られた読取画像が、ユーザによる書込情報を含む書込ページとして抽出される。文書データ11は、書込ページの読取画像をOCR処理することにより得られ、無彩色画像4及び書込画像5により表される文字列によって構成される。この例では、元原稿に記載された文章、ユーザが元原稿に書き込んだ文字列「共有フォルダ」、「直接」によって、文書データ11が構成されている。
【0028】
この様な文書データ11を書込ページとして抽出された読取画像12に関連付けて保持することにより、書込原稿の内容を入力し直さなくて良いので、書込ページを編集する際の作業効率を向上させることができる。
【0029】
<MFP>
図3は、図1のMFP100の構成例を示したブロック図であり、MFP100内の機能構成の一例が示されている。このMFP100は、光学読取部21、画像判定部22、文字認識部23及び画像ファイル生成部24により構成される。光学読取部21は、複数の抽出対象原稿1を光学的に読み取り、読取画像をそれぞれ生成し、画像判定部22へ出力する。
【0030】
画像判定部22は、光学読取部21により生成された読取画像に対し、有彩色の書込画像を含むか否かを判定し、その判定結果を文字認識部23及び画像ファイル生成部24へ出力する。この画像判定部22では、無彩色画像4の一部に有彩色の書込画像5が付加されているか否かが判定される。
【0031】
具体的には、光学読取部21により生成されるRGBデータからなる読取画像を色変換することにより、輝度成分、色相成分及び彩度成分からなるデータが生成される。有彩色の書込画像5が付加されているか否かは、読取画像の彩度成分を所定の閾値と比較し、彩度成分が閾値を越えている有彩色画素が一定数以上存在するか否かに応じて判定される。
【0032】
文字認識部23は、画像判定部22により書込画像5を含むと判定された読取画像12を文字認識処理し、文字列からなる文書データ11を生成し、画像ファイル生成部24へ出力する。
【0033】
画像ファイル生成部24は、画像判定部22により書込画像5を含むと判定された読取画像12と、当該読取画像12から得られた文書データ11とからなる画像ファイル2を生成する。文書データ11は、画像ファイル2のヘッダ部分にコメントとして埋め込まれる。画像ファイル生成部24では、ユーザによる書込情報を含む書込ページの画像ファイル2のみからなる出力ファイル3が生成される。
【0034】
図4のステップS101〜S110は、図3のMFP100における書込ページの抽出時の動作の一例を示したフローチャートである。まず、光学読取部21は、抽出対象原稿1をスキャンし、読取画像を生成する(ステップS101,S102)。画像判定部22は、光学読取部21からの画像データを色変換し、その彩度成分を所定の閾値と比較することにより、有彩色の書込画像5が読取画像に含まれているか否かを判定する(ステップS103〜S105)。
【0035】
このとき、画像判定部22は、書込画像5を含む読取画像12を書込ページとして抽出し、文字認識部23及び画像ファイル生成部24へ出力する(ステップS106)。文字認識部23では、書込ページの読取画像12をOCR処理し、文字列からなる文書データ11を生成する。画像ファイル生成部24では、書込ページに対し、文書データ11をヘッダ部分にコメントとして埋め込んだ画像ファイル2を生成する(ステップS107,S108)。
【0036】
ステップS101からステップS108までの処理手順は、抽出対象原稿1のスキャンが終了するまで繰り返され(ステップS109)、スキャンが終了すれば、画像ファイル生成部24により、書込ページごとの画像ファイル2からなる出力ファイル3が作成される(ステップS110)。
【0037】
本実施の形態によれば、複数の抽出対象原稿1から読み取った読取画像の中から、ユーザが元原稿に書込情報として書き込んだ有彩色の書込画像5を含む読取画像12を自動抽出させることができる。その際、画像データの彩度成分を所定の閾値と比較することにより、無彩色画像4の一部に書込画像5が付加された読取画像12が、ユーザにより元原稿に書き込まれた書込情報を含む書込ページとして抽出される。従って、有彩色であればどのような色の書込画像5であっても、書込画像5を含む書込ページを正しく抽出させることができる。さらに、読取画像12を文字認識処理して得られる文書データ11をヘッダ情報として含む画像ファイル2が生成されるので、文書データ11を利用して元原稿の内容を編集することができる。
【0038】
なお、本実施の形態では、無彩色画像4の一部に有彩色の書込画像5が付加された読取画像を書込ページとして抽出する場合の例について説明したが、本発明はこれに限られるものではない。例えば、予め指定された色の書込画像を含む読取画像を書込ページとして抽出するような構成であっても良い。書込ページとして抽出させる書込画像の色の指定は、例えば、操作キーを操作して予め定められた複数の指定色の中から選択することにより行われる。
【0039】
或いは、原稿内に所定の色指定領域を設け、色指定領域に書込ページとして抽出させたい色のペンでマーキングさせる。そして、マーキングされた原稿の読取画像から色指定領域を抽出することにより、書込画像の色の指定が行われる。この様に構成すれば、元原稿が有彩色画像からなる場合であっても、書込画像を含む読取画像を書込ページとして正しく抽出させることができる。
【0040】
実施の形態2.
実施の形態1では、書込ページごとの画像ファイル2から出力ファイル3が作成される場合の例について説明した。これに対し、本実施の形態では、書込ページの画像ファイル2と非書込ページの画像ファイル2とから出力ファイル3が作成される場合について説明する。
【0041】
図5は、本発明の実施の形態2による原稿読取装置の動作の一例を示した図であり、MFP100により生成される書込ページ及び非書込ページの画像ファイル2がそれぞれ示されている。書込ページの画像ファイル2は、書込画像5を含む読取画像12と、当該読取画像12から得られた文書データ11により構成される。文書データ11は、ヘッダ部分にコメントとして埋め込まれる。
【0042】
一方、非書込ページの画像ファイル2は、書込画像5を含まない読取画像により構成される。これらの画像ファイル2には、読取画像が書込画像5を含むか否かを示す属性情報13がヘッダ情報として含まれている。つまり、画像ファイルの属性情報13を参照すれば、文書データ11がコメントとしてヘッダ部分に埋め込まれているか否かを判別することができる。
【0043】
出力ファイル3は、この様な書込ページの画像ファイル2と、非書込ページの画像ファイル2により構成される。属性情報13を参照することにより、書込ページの画像ファイル2のみを容易に抜き出すことができる。
【0044】
非書込ページの画像ファイル2には、光学読取部21により生成された読取画像をそのまま書き込んでも良いが、ここでは、書込ページの読取画像12に比べて圧縮された低解像度画像が書き込まれる。
【0045】
図6は、図5のMFP100の構成例を示したブロック図である。このMFP100は、図3のMFP100と比較すれば、画像圧縮部25を備えている点で異なる。画像圧縮部25は、光学読取部21からの読取画像を圧縮し、解像度を低下させた低解像度画像を生成し、画像ファイル生成部24へ出力する。読取画像の圧縮は、例えば、画素の間引き処理又は画素値の丸め込みにより行われる。
【0046】
画像ファイル生成部24では、書込画像5を含む読取画像12に対し、当該読取画像12と文書データ11とからなる画像ファイル2を生成する。一方、書込画像5を含まない読取画像に対し、当該読取画像から得られた低解像度画像からなる画像ファイル2が生成される。そして、書込画像5を含む読取画像12から得られた画像ファイル2と、書込画像5を含まない読取画像から得られた画像ファイル2とから出力ファイル3が作成される。
【0047】
本実施の形態によれば、有彩色の書込画像5を含む読取画像12に対し、元原稿の内容を編集する際の作業効率を向上させつつ、書込画像5を含まない読取画像に対して画像ファイル2のデータサイズを小さくすることができる。また、ヘッダ情報として含まれる属性情報13を参照することにより、画像ファイル2の中の読取画像が書込画像5を含むものであるか否かを容易に識別することができる。さらに、ユーザにより書き込まれた書込画像5を含む読取画像12が正しく抽出されなかった場合であっても、出力ファイル3に含まれる読取画像により、対応する元原稿の内容を確認することができる。
【0048】
なお、本実施の形態では、画像ファイル2がヘッダ情報として属性情報13及び文書データ11を含む場合の例について説明したが、本発明はこれに限られるものではない。例えば、画像ファイル2が、読取画像を縮小したサムネイル画像をヘッダ情報として含むものであっても良い。
【0049】
また、本実施の形態では、出力ファイル3が、書込ページの画像ファイル2と非書込ページの画像ファイル2とからなる場合の例について説明したが、本発明はこれに限られるものではない。例えば、出力ファイル3として、書込ページの画像ファイル2のみを出力する動作モードと、書込ページの画像ファイル2と非書込ページの画像ファイル2とを出力する動作モードとが切り替え可能な構成であっても良い。これらの動作モードは、例えば、ユーザによる操作キーの操作に基づいて切り替えられ、或いは、読取ページ数に応じて切り替えられる。
【符号の説明】
【0050】
1 抽出対象原稿
2 画像ファイル
3 出力ファイル
4 無彩色画像
5 有彩色画像
11 文書データ
12 書込ページの読取画像
13 属性情報
21 光学読取部
22 画像判定部
23 文字認識部
24 画像ファイル生成部
25 画像圧縮部
100 MFP

【特許請求の範囲】
【請求項1】
2以上の原稿を光学的に読み取り、読取画像をそれぞれ生成する光学読取部と、
上記読取画像に対し、有彩色の書込画像を含むか否かを判定する画像判定部と、
上記画像判定部により上記書込画像を含むと判定された読取画像を文字認識処理し、文字列からなる文書データを生成する文字認識部と、
上記書込画像を含む上記読取画像及び当該読取画像から得られた上記文書データからなる画像ファイルを生成する画像ファイル生成部とを備えたことを特徴とする原稿読取装置。
【請求項2】
上記読取画像を圧縮し、解像度を低下させた低解像度画像を生成する画像圧縮部を備え、
上記画像ファイル生成部は、上記書込画像を含む上記読取画像に対し、当該読取画像及び上記文書データからなる上記画像ファイルを生成し、上記書込画像を含まない上記読取画像に対し、当該読取画像から得られた上記低解像度画像からなる画像ファイルを生成することを特徴とする請求項1に記載の原稿読取装置。
【請求項3】
上記画像ファイル生成部は、上記読取画像が上記書込画像を含むか否かを示す属性情報をヘッダ情報として含む画像ファイルを生成することを特徴とする請求項2に記載の原稿読取装置。
【請求項4】
上記画像ファイル生成部は、上記書込画像を含む上記読取画像から得られた画像ファイルと、上記書込画像を含まない上記読取画像から得られた画像ファイルとからなる出力ファイルを生成することを特徴とする請求項3に記載の原稿読取装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate