説明

情報処理装置

【課題】原稿に記録可能な情報の容量が制限された中においても、原稿に記録された情報を用いることで、光学的な読み取りによる読み取り画像の劣化を防ぐこと。
【解決手段】原稿から文書画像を取得する画像読取部101と文字レイアウト情報を取得する文字レイアウト情報読取部104と、取得した文書画像に対して文字認識処理を実行してテキストデータを取得する文字認識部103と、取得したテキストデータを取得した文字レイアウト情報に基づいて再構成して復元電子データを取得する文字データ構成部109を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置および紙状記録媒体に関し、より詳細には光学的読み取りによる文字画像の劣化を防止する技術に関する。
【背景技術】
【0002】
原稿を光学的に読み取って原稿のデジタル画像(読み取り画像)を取得する際に、読み取り画像にボケや、ノイズが乗ることによる画質の劣化が生じることがある。また、読み取り時に原稿が傾くなどして、読み取り画像の品位を下げることもある。
【0003】
このような読み取り画像の画質低下を防ぐ方法がいくつか提案されている。例えば、複写装置が、読み取り対象の原稿に対応する電子データを格納するサーバに接続されており、読み取り対象の原稿に印刷されたコード(バーコードや2次元バーコード)、や原稿に付加又は埋め込まれているRFIDチップ、から読み取った原稿を特定するための識別子(ID)を取得して、該原稿に対応する電子データをサーバから読み出してくることにより、読み取り画像の劣化を防ぐことが行われている。しかし、原稿に対応する電子データが格納されたサーバと切り離されているような複写装置では、サーバにアクセスすることができず、読み取り画像の劣化を防ぐことができないという問題があった。
【0004】
さらに、図26のように原稿に付加又は埋め込んだRFIDチップに原稿に対応する電子データを記録しておいて、複写する際には、スキャナで光学的に読み取った読み取り画像に基づいて印刷するのではなく、RFIDチップに記録されているデータを読み出し、読み出したデータに基づいて印刷を実行することにより、読み取り画像の劣化を防ぐというアイディアがある。しかし、原稿に付加又は埋め込むのに不都合のない大きさのRFIDチップに記録できるデータは、現状では数百バイトであり、原稿1ページ分の情報に対応する電子データを記録するには不十分である。
【0005】
また、機械読み取り可能に、原稿に対応する電子データを記録する方法として、原稿を符号化して図27や図28のようにバーコードや2次元コードなどのパターンに置き換えて印刷し、光学的な読み取り手段(スキャナなど)で読み取ったパターンを復号して電子データを取得する方法も提案されているが、バーコードや2次元コードに置き換えることが可能な容量では、一般的な原稿に対応する電子データを記録するのに不十分というのが現状である。
【0006】
また、図29に示すように、原稿に対応する電子データを符号化し、背景ドットパターンとして埋め込んで印刷するという提案もあるが、原稿の文字の判読の邪魔にならないように背景ドットパターンを埋め込むためには、パターンが配置できる領域が限られてしまうので、大きな記憶容量を得ることはできない。
【0007】
上述したような記録方法は、在庫管理や流通管理などで、伝票の機械による読み出しや、FAX番号を記録しておくなどの小さな記憶容量で済むような情報の埋め込みに限られているのが現状である。
【0008】
ここで、オリジナル原稿が印刷されたオリジナル原稿部分と、オリジナル原稿をコード化したコード情報部分が、該印刷物におけるオリジナル原稿部分の余白に印刷された印刷物を利用者が複写機によりコピーする場合、複写機は、印刷物の中から、コード情報を取得し、コード情報を復号してディジタル情報を取得し、このディジタル情報からオリジナル原稿のイメージデータを生成して、コピーを行うことで、繰り返しコピーによる画像劣化を回避し無限にオリジナル原稿又は電子文書情報と同一の画像品質を維持し続ける画像形成システムを提供することができる技術がある(例えば、特許文献1参照)。
【特許文献1】特開2003−244424号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら、上記特許文献1に記載の技術は、原稿に設けられた記録部に、原稿に対応する電子データのすべてを記録しておくため、非常に大きな容量を備えた記録部を必要とするという点において、上述の問題点を解決するものではない。
【0010】
そこで、本発明では、原稿に記録可能な情報の容量が制限された中においても、原稿に記録された情報を用いることで、光学的な読み取りによる読み取り画像の劣化を防ぐことを目的とする。
【課題を解決するための手段】
【0011】
請求項1記載の発明は、原稿から文書画像及び文字レイアウト情報を取得する読取手段と、読取手段で取得した文書画像に対して文字認識処理を実行してテキストデータを取得する文字認識処理手段と、文字認識処理手段で取得したテキストデータを、文字レイアウト情報に基づいて再構成して復元電子データを取得する再構成手段とを備えることを特徴とする情報処理装置である。
【0012】
請求項2記載の発明は、原稿から文書画像及び文字レイアウト情報を取得する読取手段と、読取手段で取得した文書画像に対して読取手段で取得した文字レイアウト情報に基づいて文字認識処理を実行し、テキストデータを取得する文字認識処理手段とを備えることを特徴とする情報処理装置である。
【0013】
請求項3記載の発明は、請求項2記載の情報処理装置において、文字認識手段は、読取手段で取得した文字レイアウト情報に基づいて文字のテンプレートを生成するテンプレート生成部と、読取手段で取得した文書画像とテンプレート生成部にて生成されたテンプレートとを文字ごとに照合して、文字認識処理を行う文字認識処理部とからなることを特徴とする。
【0014】
請求項4記載の発明は、請求項3記載の情報処理装置において、文字認識手段はさらに、読取手段で取得した文字レイアウト情報に基づいて文書画像から文字を切り出す文字分離部を含み、文字認識部は、文字分離部で文書画像から切り出された文字とテンプレート生成部で生成されたテンプレートとを照合して、文字認識処理を行うことを特徴とする。
【0015】
請求項5記載の発明は、請求項3または4記載の情報処理装置において、読取手段は、原稿から文書画像及び文字レイアウト情報に加えて、文書画像に含まれる所定の文字と該文字の原稿における位置を示す位置情報とが対応付けられた文字認識補助情報を取得し、文字認識手段は、文字認識部における文字認識処理において、処理対象の文字の原稿における位置に基づいて文字認識補助情報を参照し、文字認識補助情報に位置に対応する情報が含まれる場合には、文字認識補助情報に含まれる該位置に対応する文字を文字認識処理結果に代えて出力することを特徴とする。
【0016】
請求項6記載の発明は、請求項1乃至5のいずれか1項に記載の情報処理装置において、文字レイアウト情報は、文字のフォントを示す文字フォント情報と、文字のサイズを示す文字サイズ情報とを含むことを特徴とする。
【0017】
請求項7記載の発明は、請求項6記載の情報処理装置において、文字レイアウト情報はさらに、文字に施された修飾を示す文字修飾情報を含むことを特徴とする。
【0018】
請求項8記載の発明は、請求項6または7に記載の情報処理装置において、文字レイアウト情報はさらに、文字列の範囲を示す範囲情報を含むことを特徴とする。
【0019】
請求項9記載の発明は、請求項5に記載の情報処理装置において、文字認識補助情報に含まれる所定の文字は、文字認識処理部が誤認識する可能性がある文字であることを特徴とする。
【0020】
請求項10記載の発明は、請求項5または9に記載の情報処理装置において、文字認識処理部が誤認識する可能性がある文字は、文字のフォント又は文字に対する装飾の有無とに場合分けされて設定されることを特徴とする。
【0021】
請求項11記載の発明は、請求項1乃至10のいずれか1項に記載の情報処理装置において、読取手段は、原稿を光学的にスキャンして、文書画像及び文字レイアウト情報を取得することを特徴とする。
【0022】
請求項12記載の発明は、請求項1乃至10のいずれか1項に記載の情報処理装置において、読取手段は、原稿を光学的にスキャンして文書画像を取得する第1の読取部と、原稿に付された記録部から文字レイアウト情報を取得する第2の読取部とからなることを特徴とする。
【0023】
請求項13記載の発明は、文書画像及び文字レイアウト情報を有する紙状記録媒体に印字して出力する情報処理装置であって、文書画像及び文字レイアウト情報情報は他の情報処理装置の読取手段により取得され、他の情報処理装置の文字認識処理手段により読取手段で取得した文書画像に対して文字認識処理を実行してテキストデータが取得され、他の情報処理装置の再構成手段により文字認識処理手段で取得したテキストデータを、文字レイアウト情報に基づいて再構成して復元電子データが取得されることを特徴とする紙状記録媒体に印字して出力する情報処理装置である。
【0024】
請求項14記載の発明は、文書画像及び文字レイアウト情報を有する紙状記録媒体に印字して出力する情報処理装置であって、文書画像及び文字レイアウト情報情報は他の情報処理装置の読取手段により取得され、他の情報処理装置の文字認識処理手段により読取手段で取得した文書画像に対して読取手段で取得した文字レイアウト情報に基づいて文字認識処理が実行され、テキストデータが取得されることを特徴とする紙状記録媒体に印字して出力する情報処理装置である。
【発明の効果】
【0025】
本発明によれば、原稿に記録可能な情報の容量が制限された中においても、原稿に記録された情報を用いることで、光学的な読み取りによる読み取り画像の劣化を防ぐことができる。
【発明を実施するための最良の形態】
【0026】
次に、本発明の第1の実施の形態の構成について図面を参照して説明する。
【0027】
本発明の第1の実施の形態の情報処理装置の構成例を示す図1を参照すると、情報処理装置は、画像読取部101、画像処理部102、文字認識部103、文字レイアウト情報読取部104、文字レイアウト情報復号部105、書体・配置情報抽出部106、書体・配置情報変換部107、書体・配置情報記録部108、文字データ構成部109、画像データ構成部110、データ記録部111、記録媒体112、データ転送部113およびデータ受信部114からなり、読み取り画像と機械読み取り用データ記録手段の情報から、自動的に文書データを構成できる。また、そのような原稿を印刷するための印刷部115も備える。
【0028】
なお、原稿とは、文書画像、文字レイアウト情報とが記録されている紙状記録媒体を意味する(後述する本発明の第2、第3の実施の形態において同様である)。文字レイアウト情報は、紙状記録媒体に印刷されて記録されていても、紙状記録媒体に付加又は埋め込まれたRFIDなどに電子的に記録されていても良い。文書画像は印刷された文書データを意味する。文書データは、電子の世界におけるデータであって、図形、イメージ、文字、表などの文書データと、文書データ内における文字レイアウトデータとを少なくとも含む。
【0029】
文字レイアウト情報は、文字レイアウトデータが原稿に記録されている状態における情報を意味する。本実施の形態では、文字レイアウトデータは、文書データのうち文字列のデータ(テキストデータ)の、文字フォント情報(文字のフォントを示す情報)、文字サイズ情報(文字のサイズを示す情報)、文字書体情報(文字の書体を示す情報)、配置情報(文字列が配置されている位置を示す情報)、範囲情報(文字列の範囲を示す情報。この情報に含まれている範囲の文字列データは、文字フォント情報、文字サイズ情報、文字書体情報、配置情報、が共通するように設定しておけば、記録に要する容量を少なくできる。)などが含まれる(後述する本発明の第2の実施の形態において同様である)。
【0030】
本実施の形態では、テキストデータとは、読み取り画像に対して文字認識処理を施して得られたデータを意味する。また、本実施の形態では、復元電子データとは、テキストデータを文字レイアウト情報に基づいて再構成した情報を意味する。
【0031】
読み取り画像とは、原稿を光学的に読み取った画像を意味する。
【0032】
紙状記録媒体に付された機械読み取り用データ記録手段には、文字のフォントや大きさなどの文字の書体や行間隔や揃え方などの文字レイアウトに関する情報を記録する。例えば、本実施の形態の機械読み取り用データ記録手段に記録する情報の一例を示す図である図4の(b)のように、行数と桁数とその位置のフォント、大きさなどの情報を記録する。
【0033】
機械読み取り用データ記録手段としては、機械読み取り用データ記録手段の一例を示す図26のようなRFIDチップ、機械読み取り用データ記録手段の一例を示す図27のようなバーコードパターン、機械読み取り用データ記録手段の一例を示す図28のような2次元コードパターン、機械読み取り用データ記録手段の一例を示す図29のような背景ドットパターンなどが考えられる。機械が容易に情報を読み書きできる手段であればこれらに限定されるものではない。RFIDに情報を記録する場合は、情報の読み書きを行うためのアンテナが必要である。文字レイアウト情報を埋め込んだ印刷コードパターンを印刷する場合は、情報の読み取りはスキャナで原稿の読み込みと同時にそれらの情報を読み取り、記録は、プリンタで、文書の印刷と同時に行う。
【0034】
本実施の形態の文書データが印刷される場合の処理動作を図2を参照して説明する。情報処理装置は、印刷の命令を受けると(S201)、文書データから、文書内のフォントや文字の大きさ、配置に関する文字レイアウト情報を抽出する(S202)。印刷コードパターンに文字レイアウト情報を埋め込む場合には、文字レイアウト情報を符号化し、印刷コードパターンを生成する(S203)。文書の印刷時に、文書データと一緒に、その印刷コードパターンを印刷する。機械読み取り用データ記録手段が、RFIDチップである場合は、図3のように、抽出した文字レイアウト情報を、予め規定された記録形式に情報を変換し、RFIDに書き込む準備を行う。次に、文書データから印刷する画像データとしての復元電子データを変換して生成し(S204)、印刷を開始する(S205)。
【0035】
文書データが印刷される場合の他の処理動作を示す図である図3では、図2と基本的に同様である(S301〜S304)が、印刷の直前に、RFIDチップへの書き込みを行う(S305)順序になっているが、装置構成によっては、印刷の直後に、RFIDチップへの書き込みを行うようにしてもよく、また、印刷と並行して、チップへの記録を行うようにしても良い。
【0036】
フォント情報も明朝、ゴシックといったものではなく、明朝体ならば半角のM、ゴシックならば半角のG、斜体ならば半角のI、太字ならば半角のB、と言ったように、対応する記号を決めておけば、字数が減るので文字レイアウトに関する情報量を小さくすることが出来る。最も多いフォントや文字の大きさを一回記録し、それとは異なるフォントや大きさになっている部分の情報を記録するようにすれば、記録するべき量を減らすことが可能である。
【0037】
このようにして印刷したもの(図4の(a))は、画像読取部101と、文字レイアウト情報読取部104によって読み取られ、図4の(b)ように、文字認識処理(=OCR処理)によって抽出したテキストデータと、機械読み取り用データ記録手段に記録された文字のフォント、大きさ、色などの文字レイアウト情報を組み合わせて、復元電子データを構成する(図4の(c))。この復元電子データは、印刷(複写)されたり、テキストデータと文字のフォントなどの情報を含んだワープロのデータとして、他の記憶媒体に保存されたり、他の装置に転送される(図4の(d))。
【0038】
それらの流れを示したものが、図5である。まず、ユーザーが、『複写』『送信』『保存』などのモードを選択すると(S501)、どのモードを選択しても、次に復元電子データの構成をはじめる(S503)。
【0039】
復元電子データ構成の工程では、スキャン(S5031)した読み取り画像から復元電子データを構成する。機械読み出し用記録部に記録されたフォントや文字の大きさ、文字の配置などの文字レイアウト情報を復号し(S5032)、光学的に読み取った読み取り画像に文字認識処理を施し(S5033)、テキストデータを生成する。文字認識によって生成したテキストデータと、機械読み出し用データ記録部からの文字レイアウト情報を組み合わせて、復元電子データを生成する(S5034)。
【0040】
次に、モードの選択が判断され(S502)、『複写』モードが選択された場合は、枚数、縮尺などが更に入力され(S504、S505)、入力された条件に応じて、合成された復元電子データが印刷される(S506)。『送信』モードが選択された場合には、更に、送信先が入力され(S507、S508)、指示された送信先に復元電子データが送信される(S509)。また、『保存』モードが選択された場合には、ファイル名、データを保存するドライブや媒体、フォルダなどが入力され(S510、S511)、合成された復元電子データが保存される(S512)。
【0041】
また、元のデータである読み取り画像にアクセス可能な系の中で複写される場合には、RFIDチップに記録されたりや印刷された印刷コードパターンに埋め込まれているIDから、その元データにアクセスして、元データを印刷するようにしてもよい。そうすれば、文字認識処理が不要となるためより高速で、確実な、画像劣化のない複写作業を行うことができる。
『複写』モードの場合は、読み出したフォントや配置に関する情報を再び、RFIDチップや印刷コードパターンに書き込むようにしてもよい。機械読み取り用データ記録手段が印刷コードパターンの場合は、一度復号したデータをまた符号化して印刷すれば、印刷コードパターンを劣化させずに複写できる。
【0042】
本実施の形態によれば、書類に設けられた記録部に、文書データのすべてを記録しておくわけではないので、限られた容量に必要な情報を残すことが出来る。紙状記録媒体に設けられた記憶手段に蓄えられた文字レイアウト情報と、文字認識処理によって得られるテキストデータを組み合わせることにより、複写による文字の画像劣化を防ぐことが出来る。
【0043】
次に、本発明の第2の実施の形態について説明する。
通常の文字認識は、原稿を光学的に読み取った後で、文字認識処理が行われ、文字列情報を得る。本実施の形態では、テキストデータとは読み取り画像に対して、文字レイアウト情報に基づいて文字認識処理を施して得られたデータを意味する(後述する本発明の第3の実施の形態において同様である)。また、本実施の形態では、復元電子データとは、テキストデータを意味する。(後述する本発明の第3〜第7の実施の形態において同様である)。
【0044】
従来の文字認識処理の一般的な手順は、図6の通りである。まず、光電変換により、文字が画像データとして入力される(S601)。その後で、量子化などの処理が行われ、アナログデータをデジタルデータに変換する。前処理は、文字の認識を行いやすくするための処理を施す工程であり、文字を読み取る際に入り込んでしまう雑音の除去や画像の2値化が行われる(S602)。文字分離の工程では、文字を1つずつに分ける切り出しと、文字の大きさを所定の大きさに揃える正規化が行われる(S603)。
【0045】
文字分離処理がなされた文字データは次の特徴抽出部に送り込まれる。特徴抽出部ではその文字形状の特徴を抽出する(S604)。これは正規化しただけではデータとして次元数が高いため、その文字が表すより次元数の低いデータに圧縮することを行う。特徴抽出の方法としては、特徴抽出の一例を示す図7のように、文字を細線化した(1ドット幅に近づけ)芯線に基づく方法、特徴抽出の一例を示す図8のように輪郭に基づく(直線や曲線、相対位置等による)方法などがある。
【0046】
次に、特徴が抽出された文字データは識別部に送られ、用意されている文字図形パターン(文字図形パターンを集めたものが図中の標準文字辞書である)との照合を行う(S605)。活字認識では、それらの特徴抽出を行わずに、入力されたパターンを直接、基準文字図形と比較して識別する方式も有る。後処理工程(S606)を設け、一般に形態素解析辞書に基づく、形態素解析により、文字認識が行われた文字列が、文として成り立っているかを確認することで、誤認識部分の発見を行おうとする方法もある。
【0047】
従来は画像パターン認識処理のみで行っていた文字認識を、印刷コードパターンや、RFIDチップに記録した、文字レイアウト情報を使うことにより、文字認識の精度と速度の向上に利用する。
【0048】
復元電子データ構成部分の処理の流れを示す図である図9に示すように、復元電子データの構成を行う。図5との違いは、復元電子データの構成に関する部分(S903)で、その前後の動作については同じである。
【0049】
復元電子データを構成する工程(S903)では、原稿を読み込んだら(S9031)、機械読み取り用データ記録手段から、文字レイアウト情報を読み出し、復号する(S9032)。まず、文字の大きさやフォント情報を、文字の切り出しに利用する。使用されているフォントが、等幅フォントであれば、複雑なパターン認識処理をせずに、フォントや文字の大きさに関する情報使って、所定間隔で、切り分けていけば、文字分離を行うことができる(S9033)。そのため「奴」や「双」を女 又、又 又と読み誤ったり、文字分離に時間がかかったりといったことがなくなる。
【0050】
もし全角文字の中に半角文字が混じっていた場合には、その半角文字以降の字の切り出しがずれることを検出できる処理(文字判定で基準文字との一致率が連続して低くなる場合は、一致率が低くなり始めた位置の文字を半角として文字認識を行うなど)を入れれば、半角文字が混じっていても、正確に文字分離が行える。
【0051】
プロポーショナルフォントの場合は、一定ピッチで切り出しを行うことができないが、文字間隔(英文字フォントの場合は、特定部分の間隔になる場合もある)が同じになるので、文字の大きさが決まれば、文字間隔も決まってくる。そのため、決まった文字間隔となるように文字の切り出しを行うようにすればよいので、従来方式に比べ、簡単なパターン認識処理で済ますことができる。以上の点から、フォントや文字の大きさが予め分からずにパターン認識処理によってのみ文字の切り出しを行っていた場合に比べ、精度と速度が向上することが分かる。
【0052】
文字の切り出しが終わった後、従来方式では、図6に示されるように、文字の特徴抽出を行い、候補文字が絞られ、標準文字図形との比較で、最終的に文字の判別が行われる。文字判別の工程(S9037)でも印刷コードパターンやRFIDチップに記録された文字レイアウト情報を利用する。字は記録されていなくとも、書体や文字の大きさは分かるので、標準文字(基準テンプレート)を特定の書体、大きさに限定して、文字照合を行い、識別する。例えば、印刷された印刷コードパターンまたは、付けられたRFIDチップに記録された書体の情報から、文字認識の対象となる文字は、ゴシック体の11ポイントで印刷されていると分かるとする。
【0053】
「永」という字を読み出して、文字の判別をする場合を例にすると、図10のように、読み出された字の画像と、ゴシック体、11ポイントで候補の字(例えば、「永」「水」「氷」など)のテンプレートを生成し、対照する(S9036)。もし、印刷された文字が明朝体であれば、機械読み取り用データ記録手段に記録されたフォント情報から、そのことが分かるので、明朝体のテンプレートを生成させて、対照すればよい。対象の結果最も一致率の高い文字を選択する。テンプレート形状のフォントや文字の大きさを特定できるので、文字認識が正しく出来る場合に、形状の一致率が高くなる。読み込んだ文字の大きさと同じテンプレート画像を生成して比較すればよいので、従来必要であった正規化の工程が不要になる。これらにより、文字認識精度と処理速度を向上させることができる。
【0054】
文字の大きさと書体の種類を1種類に固定すれば、文字認識の精度を向上させられることが知られているが、印刷されている文字に応じて、適切なテンプレートを用意するので、文書の中で複数種類のフォントを使ったとしても、決められたフォントを使ったときと同じ文字認識精度が得られる(情報処理装置側に準備のない特殊なフォントでなければ)。
【0055】
また、一文字ずつ文字の識別が終わった時点でその文字のフォントや位置が分かるので、第1の実施の形態で説明した手順とは異なり、文字認識終了後に、改めて文字認識結果と、文字レイアウト情報の合成を行わない処理手順とすることも可能である。
【0056】
その後の処理は、第1の実施の形態の図5に示すステップS5033、S5034と同じである。
【0057】
本実施の形態によれば、フォントや大きさが限定されるとテンプレートの形状が特定されるので文字認識の精度を向上させることが出来る。活字の文字認識処理は、文字認識の基準となる文字テンプレートと読み込んだ画像を比較する工程を入れて、文字認識の結果を判定しているものが多い。印刷されている文字と、文字テンプレートとして容易されている文字のフォントが異なると、例え同じ字であっても対照したときの一致率が低く、文字認識の精度を高くすることができないので有効である。
【0058】
次に、本発明の第3の実施の形態について説明する。
本実施の形態では、文字レイアウト情報は、文字レイアウトデータが原稿に記録されている状態における情報を意味する。本実施の形態では、文字レイアウトデータは、文書データのうち文字列のデータ(テキストデータ)の、文字フォント情報(文字のフォントを示す情報)、文字サイズ情報(文字のサイズを示す情報)、文字書体情報(文字の書体を示す情報)、配置情報(文字列が配置されている位置を示す情報)、範囲情報(文字列の範囲を示す情報。この情報に含まれている範囲の文字列データは、文字フォント情報、文字サイズ情報、文字書体情報、配置情報、が共通するように設定しておけば、記録に要する容量を少なくできる。)、さらに、文字装飾情報(文字に施された装飾を示す情報、例えば、アンダーラインや取り消し線など)を含む。
フォントや文字の大きさを機械読み取り用データ記録手段に記録しておくのと同様に、アンダーラインや取り消し線を施す部分を、機械読み取り用データ記録手段に記録して印刷する。
【0059】
アンダーラインや取り消し線があると記録された個所の文字認識を行うには、本来の文字に、取り消し線や網掛けなどを付けた文字テンプレートを用意し、読み取り画像と比較を行う。
【0060】
例えば、図11のように、取り消し線がある画像と、取り消し線の無い文字のテンプレートとを比較しようとしても、形が変わってしまい、一致率が下がる。そこで、テンプレート識別の際は、図12のように本来の字の形に、取り消し線を加えた形の基準テンプレートを作成し、読み込んだ画像との比較を行う。取り消し線つきのテンプレートと比較することで、取り消し線が施された文字であっても、文字認識の精度を下げずに済む。
【0061】
本実施の形態によれば、アンダーラインや取り消し線が有っても、アンダーラインのある文字テンプレートや取り消し線と重なった文字テンプレートを用意できるので、文字認識の精度を上げることが出来る。文章中で、部分的にアンダーラインを施したり、文書作成の履歴を残すために取り消し線として、1本か2本の線を文字に重ねたりすることもあるが、これらの線があることで、文字認識が正しく出来ない可能性があるので有効である。取り消し線が施された部分は、文字と取り消し線の分離が行い難く、アンダーラインや取り消し線が引かれている文字と、通常の(取り消し線と重なっていない)文字テンプレートと比較しても一致率が低いので、文字認識の精度が低下してしまうので有効である。
【0062】
次に、本発明の第4の実施の形態について説明する。
原稿は、正しく文字認識されるものがほとんどであるが、中には、画数が多い文字や、似たような形の文字がある(数字の0とアルファベットのOや、ひらがなのへとカタカナのヘ、撤と撒など)などで、文字認識が出来なかったり、誤認識されたりする可能性の高い文字がある。
【0063】
なお、原稿とは、文書画像、文字レイアウト情報に加えて、文字認識補助情報が記録されている紙状記録媒体を意味する(後述する本発明の第5〜第7の実施の形態において同様である)。文字認識部は、文字認識処理に際して誤認識の可能性がある文字を予めリスト化したリスト(誤認識文字リスト)を記録手段に記録しておく。文書データが含む文字列データの文字に誤認識文字リストに含まれる文字があるかをチェックし、誤認識文字リストに含まれる文字については、その文字コードと位置を文字認識補助情報して原稿に記録する。つまり、文字認識補助情報とは、原稿に記録される情報であり、文字認識処理において誤認識される可能性がある文字の文字コードと位置とを示す情報である。文字認識補助情報は、文字レイアウト情報と同様に、紙状記録媒体に印刷されて記録されていても、紙状記録媒体に付加又は埋め込まれたRFIDなどに電子的に記録されていても良い。
【0064】
本実施の形態では、テキストデータとは読み取り画像に対して、文字レイアウト情報と文字認識補助情報に基づいて文字認識処理を施して得られたデータを意味する(後述する本発明の第4〜第7の実施の形態において同様である)。
【0065】
本実施の形態の動作を示す図13を参照すると、印刷の命令を受けると(S1301)、文字レイアウト情報を抽出する(S1302)前後に、印刷される文章中に文字認識が困難な文字がないかを検索する(S1303)。もし、文字認識が困難な文字が文書中に有る場合には、その文字の位置と文字コードを文字認識補助情報として、文字レイアウト情報を記録するのと同様に、印刷コードパターンやRFIDチップなどの記録手段に記録する。
【0066】
印刷された文書を読み取って、文書データを再現する工程を示す図14を参照すると、文字レイアウト情報と文字認識補助情報を読み出し(S14032)、文字認識が困難として印刷コードパターンやRFIDチップに記録された文字に関しては、文字認識処理によらずに、記録しておいた文字と文字認識補助情報に含まれる位置情報を使ってテキストデータを作成する(S14036)。文字認識が困難ではないとして、印刷コードパターンやRFIDチップに記録されていない文字に関しては、文字認識処理を行い(S14035)、テキストデータを生成する。すべての文字についてこれらの処理を行う(S14037)。文字認識が難しい文字は、印刷コードパターンや、RFIDチップに記録されるので、記録されている文字は、誤認識されることがなくなる。
【0067】
図13に戻り、文字認識(機械読み取り用データ記録手段のデータ挿入を含めて)が終わったら復元電子データを変換して生成し(S1305)、RFIDチップへの書き込みを行い(S1306)、印刷を開始する(S1307)。
【0068】
本実施の形態によれば、画数が多かったり、似たような形の字があったりで、読み込んだ文字が、誤って認識され、間違って印刷される可能性を減らすことが出来る。画数が多い文字や、形の似ている文字がある場合などは、機械が文字認識しにくかったり、誤認識したりすることがあり、文字認識に時間がかかったり、文字認識に失敗して、間違った文字で、文書データが構成されたり、印刷されたりしてしまうので有効である。
【0069】
次に、本発明の第5の実施の形態について説明する。
頻繁に文字の書体や大きさなどを変えたりする場合は、文字レイアウト情報が増えてしまい、文字レイアウト以外の情報をわずかしか記録できなくなる。そこで、図15のように、文字認識の難易度のリストを用意しておき、情報を埋め込んだ印刷コードパターンや、RFIDチップの記憶部の空き容量に応じて、文字認識が難しい順に、文字とその位置の情報を記録していく。例えば、ひらがなのヘべぺとカタカナのヘベペ、ひらがなのりとカタカナのリ、カタカナのタと漢字の夕などは、どの組み合わせも、誤認識される可能性が高い。しかし、その中でも、ひらがなのヘべぺとカタカナのヘベペが最も難しいので、文章中に、「へ」と「タ」が有る場合は、「へ」を優先して記録していく。機械読み取り用データ記録手段の容量が足りない場合は優先順位の低い文字(リストアップされた中では文字認識失敗の可能性が低い文字)については機械読み取り用データ記録手段への記録を行わないようにする。
【0070】
文字ごとの文字認識の難易度は、文字認識の方法などよっても変わるので、予め順位付けしておく必要がある。
【0071】
本実施の形態によれば、文字認識を誤りやすい文字のみを記録しておくことで、限られた記録容量で、文字認識の失敗を防ぐことが出来る。印刷コードパターンやRFIDチップの容量が限られているので、文字レイアウト情報のほかに、認識が難しい文字に関する情報をすべて記録しておくことが出来なくなる可能性があるので有効である。
【0072】
次に、本発明の第6の実施の形態について説明する。
本実施の形態での文字認識補助情報は、上記の第4の実施の形態の文字認識補助情報と異なる点はないが、文字認識部が記録している誤認識文字リストが異なる。文字認識部は、文字認識処理に際して誤認識の可能性がある文字を、フォント別に予めリスト化したリスト(誤認識文字リスト)を記録手段に記録しておく。文字認識部は、文書データが含む文字列データの文字とその文字のフォントとを取得して、フォント別に用意された誤認識文字リストにその文字が含まれるかをチェックし、誤認識文字リストに含まれる文字については、その文字コードと位置を文字認識補助情報して原稿に記録する。文字認識補助情報とは、原稿に記録される情報であり、文字認識処理において誤認識される可能性がある文字の文字コードと位置とを示す情報である。
【0073】
フォントの種類によっても、難易度の順番が変わるので、図16のように、フォントごとに、異なる難易度表(誤認識文字リスト)を用意するようにする。使用されるフォントに応じて、文字認識が失敗する可能性の高い文字を優先的に機械読み取り用の記録部に記録していく。ゴシック体と明朝体を比較した場合を例に考えると、へへぺ(ひらがな)とヘベペ(カタカナ)、タ(カタカナ)と夕(漢字)の区別は、ゴシック体よりも明朝体の方が難しい。それに対し、ー(長音記号)と一(漢字)、ト(カタカナ)と卜(漢字)はゴシック体よりも明朝体の方が判別しやすい。そこで、同ページの中の文字に明朝体とゴシック体が混じって印刷されており、文中に明朝体の一(漢字)と、ゴシック体の一(漢字)がある場合には、明朝体の一(漢字)よりも、ゴシック体の一(漢字)を優先して、機械読み取り用の記録部へ記録する。
【0074】
記録部の容量が足りなくなる場合は、第5の実施の形態と同様に、優先順位の低い文字の記録を行わない。
【0075】
本実施の形態によれば、フォントにより、判別しやすい文字とそうではない文字が異なるので、フォントごとに、機械読み取り用の記録部に記録する優先順位を変えることで、文字認識の失敗を減らすことができる。同じ文字であってもフォントの種類によって、文字認識の難易度が異なるので、一律に難易度を設定した場合に、フォントの種類によっては、難易度設定が適さない場合があるので有効である。
【0076】
次に、本発明の第7の実施の形態について説明する。
本実施の形態での文字認識補助情報は、上記の第4、第6の実施の形態の文字認識補助情報と異なる点はないが、文字認識部が記録している誤認識文字リストが異なる。文字認識部は、文字認識処理に際して誤認識の可能性がある文字を、文字の装飾情報の有る無しに場合分けしてリスト化したリスト(誤認識文字リスト)を記録手段に記録しておく。文字認識部は、文書データが含む文字列データの文字とその文字の装飾情報とを取得して、装飾の有る無しに場合分けされて用意された誤認識文字リストにその文字が含まれるかをチェックし、誤認識文字リストに含まれる文字については、その文字コードと位置を文字認識補助情報して原稿に記録する。
【0077】
取り消し線があることが分かっていても、取り消し線が引かれることにより機械による文字認識の影響を受けやすい文字は取り消し線の有無によって文字認識の難易度が変わるリストを作っておき、印刷コードパターンやRFIDチップなどの記録部に記録される優先順位を取り消し線の有無により違えるようにする。
【0078】
例えば、図17のように、誤認識文字リストを作っておく。門、閂という文字は、取り消し線が無い場合や取り消し線があっても縦書きの場合は、識別が容易なので、文字認識難度を低く登録されるが、横書きで、取り消し線が引かれた場合は、識別が困難になるので、文字認識難度を高く登録される。牛と午のようにもともと、間違う可能性の高い文字は、縦書きの取り消し線アリの場合は更に難度が高くなるように設定しておく。
【0079】
機械読み取り用データ記録手段の空き容量に応じて、文字認識難度の高い順から、機械読み取り用データ記録手段に記録する。
【0080】
また、フォントの種類や文字大きさなどによっては、取り消し線の影響が小さいものもあるので、取り消し線がある場合でも、フォントや大きさによって文字認識難易度の設定を変えるようにしても良い。例えば図18に示すように、弌は、フォントが正楷書体の場合、1本の取り消し線の場合はしきがまえの中の横線は取り消し線とほとんど重ならなくなるので、取り消し線の有無により、文字認識難度は変わらない。そのため、記録部の容量によっては、優先順位が下がるので記録しないという調整も可能である。そこで、図19のように、フォントごとに、取り消し線の有無による難易度の設定を変えるようにしてもよい。
【0081】
本実施の形態によれば、取り消し線やアンダーラインの有無により判読難易度が異なる文字の場合、取り消し線やアンダーラインの有無により限られた機械読み取り用データ記録手段に記録する文字の優先順位が変わるので、限られた記憶容量を有効に活用できる。文字を構成する横線の一部が取り消し線の位置に近い文字の場合、取り消し線と、文字を構成する線が重なったり、接近したりすることで、文字認識が難しくなるので有効である。例えば、図30のように門と閂は、取り消し線と閂のもんがまえの中の一が重なる。そのため、取り消し線が有ると分かっている場合でも、その文字が門なのか、閂なのか判定しにくくなる。同様に弋と弌も、取り消し線としきがまえの中の一が重なる場合に、その文字が弋か弌か判定し難い。また、縦書きの場合は、取り消し線が、ちょうど、文字の中心に縦線が通るので、図31のように一と十や、大と木などの文字は、取り消し線があると分かっていても、判定が難しくなるので有効である。
【0082】
次に、本発明の第8の実施の形態について説明する。
図20のように、中央揃えの行があったり、左詰めの行が有ったりする書類も、印刷コードパターンやRFIDチップに配置情報のすべてを記録するのではなく、文字認識の際に、図21のように文字の配置から、空白部分を文字のスペースに置き換えて配置情報を検出する。特殊なレイアウトで無い限り、文字認識処理の文字抽出精度が得られれば、文字の配置から、原稿の文字レイアウト情報を得ることができる。
【0083】
中央揃えの行があったとしても、その行が中央揃えであることを検出せずに、行頭から複数文字分の空白があると認識する。厳密にはもとの文書データを再現したことにはならないが、多くの場合問題はない。文字配列に関する情報を減らす分、文字認識の難しい字に関する情報をより多く記録することができる。
【0084】
本実施の形態によれば、文字認識の際に文字の配列情報も検出できるので、予め文字配列情報を記録せずに済む。そのため、記録部に別の情報を記録することが出来る。文書の各行の配置が、中央揃えになったり、左詰めになったり右詰めになったりするなど、頻繁に、各行の配置が変わる場合は、文字の配置に関する情報が大きくなり、後述するような文字認識の確度を上げるための情報を多く記録できなくなってしまうので有効である。
【0085】
次に、本発明の第9の実施の形態について説明する。
通常の複写のように、読み込んだ画像を文字認識すること無しに、そのまま印刷する複写モードと、読み込んだ画像を文字認識して、文字の部分の画像劣化が生じないように、文書データを構成して印刷するモードを用意しておき、ユーザーが選択できるようにする。
【0086】
紙の文書から読み込んで、ワープロ文書のデータを作成したり、複写された文書が更に複写される可能性が高かったり、複写による画像劣化を嫌ったりする場合は文字認識、文書データ構成の工程を含んだモードで複写し、急いで複写を行いたい場合は、従来の複写機と同様に、光学的に読み込んだ像を文字変換することなく画像として印刷する。複写モードだけではなく、送信モードや、保存モードを選択した場合には、読み込んだ画像をそのまま画像データとして送信したり保存したり、文字認識、文書データ構成処理により構成した文書データを送信したり保存したりできる。
【0087】
本実施の形態によれば、電子的な再編集工程を入れないことを選択するようにして、複写速度を落とさずにすむモードを選択できる。文字認識処理して新たに文書データを構成すると、文字画質の低下を防ぐことが出来るが時間がかかってしまい、そのため、画質よりも、コピーの早さを優先したいユーザーにとっては都合が悪いので有効である。
【0088】
次に、本発明の第10の実施の形態について説明する。
文字認識の失敗などにより紙を介して文書データを構成したデータと元データである読み取り画像が違う可能性があることを明確にするために、コピーしたことを示す情報を、複写印刷された場合は、表示部や、機械読み取り用の記録部に記録し、電子データとして保存される場合は、復元電子データのタグ情報として記録する。
【0089】
図22のように、「この文書は、読み込んだ文字を、文字認識処理して印刷しています」、「文字認識には失敗の可能性があります。」などの文言を、頭注、脚注として印字し、通常の複写や、元データである読み取り画像からの印刷ではないことをしめす(視覚認識のための表示部に記録する場合)。
【0090】
あるいは、復元電子データを印刷する場合に、RFIDチップや印刷コードパターンに記録された、紙に付された固有IDとそのIDの付いた紙を読み取って作ったコピーであることなどを示す情報を、複写された紙に付けられたRFIDチップに記録したり、印刷コードパターンにその情報を埋め込んだりする。
【0091】
図23のように印刷コードパターンにその情報を入れて印刷したりする。図23は、元データである読み取り画像を印刷するときに、例えば、IDとして"717346"が付けられ、そのIDが付けられた文書が、元データである読み取り画像にアクセスできない環境で、読み取られ、複写された場合に、印刷コードパターンにID"717346"をコピーしたことを示すデータを印刷コードパターンに埋め込んだことを示している。例えば"717346"文書を前述の処理を行った場合には、"717346C"のようなIDを付ける。更に、"717346C"を前述の処理によって複写印刷した場合には、"717346CC"とするなど、何代目のコピーであるか分かるようにすることも考えられる。
【0092】
また、読み取り画像から復元電子データを生成し保存する場合、構成された復元電子データのタグ情報として、元データである読み取り画像のIDとそれをコピーしたことを示す情報を記録する。このようにしておけば、元データである読み取り画像にアクセスできる環境で、書類を読み込んだ時や、ネットワークにつながったパソコンに文書データをコピーした場合などに、元データである読み取り画像との関連を確認することができる。
【0093】
本実施の形態によれば、複写した文書や構成された復元電子データがオリジナルではないことが分かる。また、オリジナルのデータにアクセスできる環境で、コピーした書類を読み込ませたり、構成された復元電子データを活用したりするときに、元データである読み取り画像との関連を知る手がかりになる。印刷された紙を介して複製される書類や復元電子データが、オリジナル原稿とすべて一致するわけではないことを認識できるようにしておかなくてはならなく、また、オリジナルのデータにアクセスできる系で、その原稿のコピーや構成された復元電子データを扱う場合に、オリジナルとの関連付けが容易になされることが望ましいので有効である。
【0094】
次に、本発明の第11の実施の形態について説明する。
印刷された文とは別に、余白部分に描き込まれた内容のみを抽出して、印刷したり、画像データとして蓄積したり転送したりするモードを備える。
【0095】
印刷時に、印刷する印刷コードパターン、またはRFIDチップに、文字の配置や大きさを記録して置けば、印刷に文字のある位置が分かる。図24のように、読み込んだ画像から、文字の範囲を分離すれば(図24の(c))、加筆部分を抽出する(図24の(d))ことが可能である。図などの位置も記録しておけば、印刷された時点での、文字や図の領域以外の余白領域も検出することが可能である。
【0096】
本実施の形態によれば、印刷された印刷コードパターンやRFIDチップに蓄積された、文字の配置情報などから、印刷後に描き込まれたと考えられる部分を抽出することが出来る。余白への書き込み部分だけが必要な場合や、元の印刷部分を隠した文書を作成したい場合、元データである読み取り画像との差分を取るような方法であると、元データである読み取り画像が無ければ、元から印刷されている部分と、余白に加筆された部分を機械の処理で分離することができなく、また、紙などを切ってマスクを作る方法もあるが、面倒であるので有効である。
【0097】
次に、本発明の第12の実施の形態について説明する。
図25のように、描き込まれたメモなどは隠しておきたい場合や、書き込みのないきれいな書類が欲しい場合のために、初めに印刷された形で複写するモードを備える。
【0098】
書き加えた部分を排除して複写できるモードを用意しておき、そのモードが選択された場合には、原稿が印刷された直後の状態に印刷される。複写モード以外でも、印刷後の書き込み部を排除した印刷時の文書データとして、送信、保存することもできる。
【0099】
第9の実施の形態と組み合わせて、書き込まれたりする前の元の印刷が行われた領域情報のみを使って、文字認識処理を行わずに、読み込んだ画像から印刷後の書き込みを除いた画像を複写、送信、保存するモードも選択できるようにしておくことも可能である。
【0100】
本実施の形態によれば、文字の配置情報から、印刷後に描き込まれたり、汚れたりした部分を除いた、印刷時と同じ形態を希望する場合に、そのような形態に印刷することが出来る。元データである読み取り画像にアクセスすることが出来ない環境であっても、書き込みや汚れの無い(少ない)オリジナルの原稿が欲しい場合に有効である。
【0101】
なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。本発明は、スキャナ、プリンタ、複写機、複合機などにも適用可能である。
【図面の簡単な説明】
【0102】
【図1】本発明の第1の実施の形態の情報処理装置の構成例を示す図である。
【図2】本発明の第1の実施の形態の動作を示す図である。
【図3】本発明の第1の実施の形態の動作を示す図である。
【図4】本発明の第1の実施の形態の機械読み取り用データ記録手段に記録する情報の一例を示す図である。
【図5】本発明の第1の実施の形態の動作を示す図である。
【図6】文字認識処理の一般的な手順を示す図である。
【図7】特徴抽出の方法を示す図である。
【図8】特徴抽出の方法を示す図である。
【図9】文書データ構成部分の処理の流れを示す図である。
【図10】文書データの再構成を示す図である。
【図11】テンプレートとの比較を示す図である。
【図12】テンプレートとの比較を示す図である。
【図13】本発明の第4の実施の形態の動作を示す図である。
【図14】本発明の第4の実施の形態の動作を示す図である。
【図15】文字認識の難易度のリストを示す図である。
【図16】フォントごとに、異なる難易度表を示す図である。
【図17】優先順位を示す図である。
【図18】本発明の第7の実施の形態の一例を示す図である。
【図19】優先順位を示す図である。
【図20】本発明の第8の実施の形態の一例を示す図である。
【図21】本発明の第8の実施の形態の一例を示す図である。
【図22】本発明の第10の実施の形態の一例を示す図である。
【図23】本発明の第10の実施の形態の一例を示す図である。
【図24】本発明の第11の実施の形態の一例を示す図である。
【図25】本発明の第12の実施の形態の一例を示す図である。
【図26】機械読み取り用データ記録手段としてのRFIDチップを示す図である。
【図27】機械読み取り用データ記録手段としてのバーコードパターンを示す図である。
【図28】機械読み取り用データ記録手段としての2次元コードパターンを示す図である。
【図29】機械読み取り用データ記録手段としての背景ドットパターンを示す図である。
【図30】取り消し線と、文字を構成する線が重なったり、接近したりする一例を示す図である。
【図31】取り消し線と、文字を構成する線が重なったり、接近したりする一例を示す図である。
【符号の説明】
【0103】
101 画像読取部
102 画像処理部
103 文字認識部
104 文字レイアウト情報読取部
105 文字レイアウト情報復号部
106 書体・配置情報抽出部
107 書体・配置情報変換部
108 書体・配置情報記録部
109 文字データ構成部
110 画像データ構成部
111 データ記録部
112 記録媒体
113 データ転送部
114 データ受信部
115 印刷部

【特許請求の範囲】
【請求項1】
原稿から文書画像及び文字レイアウト情報を取得する読取手段と、
前記読取手段で取得した文書画像に対して文字認識処理を実行してテキストデータを取得する文字認識処理手段と、
前記文字認識処理手段で取得したテキストデータを、前記文字レイアウト情報に基づいて再構成して復元電子データを取得する再構成手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
原稿から文書画像及び文字レイアウト情報を取得する読取手段と、
前記読取手段で取得した文書画像に対して前記読取手段で取得した文字レイアウト情報に基づいて文字認識処理を実行し、テキストデータを取得する文字認識処理手段と、
を備えることを特徴とする情報処理装置。
【請求項3】
前記文字認識手段は、
前記読取手段で取得した文字レイアウト情報に基づいて文字のテンプレートを生成するテンプレート生成部と、
前記読取手段で取得した文書画像と前記テンプレート生成部にて生成されたテンプレートとを文字ごとに照合して、文字認識処理を行う文字認識処理部とからなることを特徴とする請求項2記載の情報処理装置。
【請求項4】
前記文字認識手段はさらに、
前記読取手段で取得した文字レイアウト情報に基づいて前記文書画像から文字を切り出す文字分離部を含み、
前記文字認識部は、前記文字分離部で文書画像から切り出された文字と前記テンプレート生成部で生成されたテンプレートとを照合して、文字認識処理を行うことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記読取手段は、原稿から文書画像及び文字レイアウト情報に加えて、前記文書画像に含まれる所定の文字と該文字の前記原稿における位置を示す位置情報とが対応付けられた文字認識補助情報を取得し、
前記文字認識手段は、前記文字認識部における文字認識処理において、処理対象の文字の原稿における位置に基づいて前記文字認識補助情報を参照し、前記文字認識補助情報に前記位置に対応する情報が含まれる場合には、前記文字認識補助情報に含まれる該位置に対応する文字を文字認識処理結果に代えて出力することを特徴とする請求項3または4に記載の情報処理装置。
【請求項6】
前記文字レイアウト情報は、文字のフォントを示す文字フォント情報と、文字のサイズを示す文字サイズ情報とを含むことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
【請求項7】
前記文字レイアウト情報はさらに、文字に施された修飾を示す文字修飾情報を含むことを特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記文字レイアウト情報はさらに、文字列の範囲を示す範囲情報を含むことを特徴とする請求項6または7に記載の情報処理装置。
【請求項9】
前記文字認識補助情報に含まれる所定の文字は、前記文字認識処理部が誤認識する可能性がある文字であることを特徴とする請求項5に記載の情報処理装置。
【請求項10】
前記文字認識処理部が誤認識する可能性がある文字は、文字のフォント又は文字に対する装飾の有無とに場合分けされて設定されることを特徴とする請求項5または9に記載の情報処理装置。
【請求項11】
前記読取手段は、前記原稿を光学的にスキャンして、文書画像及び文字レイアウト情報を取得することを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。
【請求項12】
前記読取手段は、
前記原稿を光学的にスキャンして文書画像を取得する第1の読取部と、
前記原稿に付された記録部から文字レイアウト情報を取得する第2の読取部と、
からなることを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。
【請求項13】
文書画像及び文字レイアウト情報を有する紙状記録媒体に印字して出力する情報処理装置であって、
前記文書画像及び文字レイアウト情報情報は他の情報処理装置の読取手段により取得され、
前記他の情報処理装置の文字認識処理手段により前記読取手段で取得した文書画像に対して文字認識処理を実行してテキストデータが取得され、
前記他の情報処理装置の再構成手段により前記文字認識処理手段で取得したテキストデータを、前記文字レイアウト情報に基づいて再構成して復元電子データが取得されることを特徴とする紙状記録媒体に印字して出力する情報処理装置。
【請求項14】
文書画像及び文字レイアウト情報を有する紙状記録媒体に印字して出力する情報処理装置であって、
前記文書画像及び文字レイアウト情報情報は他の情報処理装置の読取手段により取得され、
前記他の情報処理装置の文字認識処理手段により前記読取手段で取得した文書画像に対して前記読取手段で取得した文字レイアウト情報に基づいて文字認識処理が実行され、テキストデータが取得されることを特徴とする紙状記録媒体に印字して出力する情報処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate


【公開番号】特開2008−193580(P2008−193580A)
【公開日】平成20年8月21日(2008.8.21)
【国際特許分類】
【出願番号】特願2007−28037(P2007−28037)
【出願日】平成19年2月7日(2007.2.7)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】