文書画像処理装置、文書画像処理プログラム、文書画像処理方法
【課題】 図表と文章とが混在する文書をスキャンして文章をOCR化し、図や表とそれらに関連する文章の対応関係が容易に把握されるようなレイアウトの文書画面を提示すること。
【解決手段】 複数の図表と、それら図表と関連する文章とが混在する文書群をスキャンして文書画像データ化する。そして、文書画像データに含まれる文章をテキストデータ化する一方で、図表はイメージデータとしてそのまま切り出す。更に、同じ図番を内包しているテキストデータと図表のイメージデータとを対応付け、対応付けられたテキストデータが示す文字列と図表とが同時に表示されるようにレイアウトし直された文書画面を表示する。
【解決手段】 複数の図表と、それら図表と関連する文章とが混在する文書群をスキャンして文書画像データ化する。そして、文書画像データに含まれる文章をテキストデータ化する一方で、図表はイメージデータとしてそのまま切り出す。更に、同じ図番を内包しているテキストデータと図表のイメージデータとを対応付け、対応付けられたテキストデータが示す文字列と図表とが同時に表示されるようにレイアウトし直された文書画面を表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書画像処理装置に関する。
【背景技術】
【0002】
文書の画像をOCR(optical character reader)変換して得たテキストデータを文字列として表示する際、元の文書のレイアウトを再現したり、又は元の文書とは別のレイアウトで文字列を表示する技術が提案されている。
例えば、特許文献1には、文書画像から得たテキストデータが示す文字列のレイアウト変更を好適に支援する文書画像処理装置が開示されている。同文献によると、この文書画像処理装置は、入力された文書画像のレイアウト構造を解析し、レイアウト構成要素とその位置サイズ情報とを取得する。レイアウト構成要素とは各段落毎に纏められたテキストデータ等を意味し、位置サイズ情報とは各レイアウト構成要素の配置位置と大きさを表すデータを意味する。同装置は、このレイアウト構成要素と位置サイズ情報を基に再現した元の文書を表示したあと、オペレータからのレイアウト変更指示を受け付ける。そして、画面サイズと位置サイズ情報を基に、オペレータの指示内容に合致する新たなレイアウトを求め、この新たなレイアウトに従って加工された文書を再表示する。
【特許文献1】特開2001−101164
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、OCR変換処理の対象となる文書に、図や表などの情報が記されていることがある。この種の文書の場合、文字列として記された文章部分は図や表などを引用した説明や解説などであることが多いが、文章部分で引用された図や表がその部分とは別のページに記されていると、文章部分と図や表との対応関係が把握しにくいという問題があった。
本発明はこのような問題を解決すべく案出されたものであり、テキストデータ化されるべき文章の他に図や表などが記された文書をスキャンし、図や表とそれらに関連する文章の対応関係が容易に把握されるようなレイアウトの文書画面を提示する装置を提供することを目的とする。
【課題を解決するための手段】
【0004】
本発明の好適な態様である文書画像処理装置は、一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、前記入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定手段と、前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分手段と、前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得手段と、前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出手段と、前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られる一連の文書画面を順次表示する表示手段と、第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御手段とを備える。
この態様において、前記テキストデータへの変換を要しない情報を、図、表又は写真としてもよい。
【0005】
更に、前記割付制御手段は、前記図、表又は写真を識別する番号を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ番号を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御するようにしてもよい。
上述した態様において、前記割付制御手段は、前記切り出された画像を割り付けると共に、文書画面において前記画像が割り付けられていない描画領域を特定し、前記割り付けた画像に含まれるものと同じ識別子が検出された前記文字列を、その文字列のすべてが前記特定した描画領域に収まる文字サイズで割り付けるようにしてもよい。
【0006】
更に、前記テキストデータ取得手段が、文字サイズを示すサイズ情報を前記テキストデータと併せて取得し、前記割付制御手段は、前記テキストデータが示す文字列を、当該テキストデータと併せて取得したサイズ情報が示す文字サイズで割り付けると共に、文書画面において前記文字列が割り付けられていない描画領域を特定し、前記割り付けた文字列に含まれるものと同じ識別子が検出された前記画像を前記特定した描画領域に収まる画像サイズに縮小又は拡大して割り付けるようにしてもよい。
【0007】
この発明の別の好適な態様であるプログラムは、一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、情報の表示手段とを備えたコンピュータ装置に、前記入力手段を介して入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定機能と、前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分機能と、前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得機能と、前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出機能と、前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られた一連の文書画面を前記表示手段へ順次出力する出力機能と、第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御機能とを実現させる。
【0008】
この発明の別の好適な態様である文書画像処理方法は、一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、情報の表示手段とを備えた装置による文書画像処理方法であって、前記入力手段を介して入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定工程と、前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分工程と、前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得工程と、前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出工程と、前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られた一連の文書画面を前記表示手段へ順次出力する出力工程と、第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御工程とを有する。
【発明の効果】
【0009】
本発明によると、図や表と文章とが混在する文書の画像データから、図や表とそれらに関連する文章との対応関係が容易に把握されるようにレイアウトされた文書画面を生成して提示することができる。
【発明を実施するための最良の形態】
【0010】
(第1実施形態)
以下、図面を参照しつつ、本願発明の第1実施形態に係る文書画像処理装置について説明する。以降の説明において、「図表」なる用語は、図及び表を総称する意味で用い、「文書」なる用語は、図表又は文章の一方又は両方が記された一枚の原稿の意味で用いる。「段組構成要素」なる用語は、原稿の紙面の一画を占める領域の内部に記された一纏まりの文章又は図表の意味で用いる。また、「図番」なる用語は、図又は表を一意に識別する番号を含んだ文字列を意味し、例えば「図1」や「図2」などが該当する。
ここで、本実施形態に係る文書画像処理装置は、図番が一部に記された複数の図表と、それら各図表の図番を含んだ文章とが混在する一組の文書群をその処理対象として想定する。
【0011】
図1は、本実施形態にかかる文書画像処理装置のハードウェア構成図である。同図に示すように、この装置は、装置全体の動作を制御するCPU10、CPU10のワーク領域として利用されるRAM20、IPL(initial program loader)などを記憶したROM30、各種プログラムやデータファイルなどを記憶するハードディスク40、CPU10の制御の下に各種画面を順次表示するコンピュータディスプレイ50のほか、マウス60、キーボード70、通信インターフェース80、画像データインターフェース90などを備えている。
ハードディスク40には、図示しないOS(operating system)の他、文書画像処理プログラムを予め記憶している。このプログラムをOS上で実行することにより、CPU10には、本実施形態に特有の機能が付与される。
【0012】
図2は、文書画像処理プログラムの作用によってCPU10に実現される各部の論理的構成を示すブロック図である。同図に示すように、文書画像処理プログラムの作用により、CPU10は、レイアウト解析部11、OCR処理部12、図表切出部13、図番文字列探索部14、図表/番号対応付け部15、及びレイアウト再構成部16という6つの機能モジュールとしての役割を果たす。これら各部の振る舞いについて概説する。
a レイアウト解析部
このモジュールは、画像インターフェースから入力される画像から、各段組構成要素の描画領域を夫々特定する。
b OCR処理部
このモジュールは、レイアウト解析部11が特定した各描画領域からテキストデータへの変換を要する情報である文章が記された描画領域を抽出し、抽出した描画領域内の画像に対して文字認識処理を施すことで、各描画領域毎のテキストデータを取得する。
c 図表切出部
このモジュールは、レイアウト解析部11が特定した各描画領域から、テキストデータへの変換を要しない情報である図表が記された描画領域を抽出し、抽出した描画領域内の画像を切り出す。そして、切り出した画像から図番を検出する。
d 図番文字列探索部
このモジュールは、OCR処理部12によって取得された各テキストデータから、図番を含むテキストデータを探索する。
e 図表/番号対応付け部
このモジュールは、同じ図番を内包している図表の画像とテキストデータとを対応付ける。
f レイアウト再構成部
このモジュールは、図表/番号対応付け部15が同じ図番を内包するものとして対応付けた画像と文字列のセットを同時に表示させるべく、コンピュータディスプレイ50に順次出力される一連の文書画面の割り付け態様を制御する。
【0013】
次に、本実施形態の動作を説明する。実施形態の動作は、レイアウト解析処理と、対応付け処理と、レイアウト再構成処理とに大別できる。
図3は、レイアウト解析処理を示すフローチャートである。この処理は、レイアウト解析部11、OCR処理部12、図表切出部13の各機能モジュールが作用することで実行される。
この処理は、一組の文書群を各文書毎に走査して得られた一連の文書画像データが図示しないスキャナ装置から供給されたことをトリガーとして開始される。
【0014】
文書画像処理装置のCPU10は、スキャナ装置から取得した一連の文書画像データをハードディスク40に記憶する(S100)。CPU10は、ハードディスク40に記憶された各文書画像データから処理対象となる文書画像データを特定し、特定した文書画像データをRAM20へ読み出す(S110)。処理対象となる文書データの特定は、取得した順序に従って行なわれる。
CPU10は、ステップ110で読み出した文書画像データから、各段組構成要素の描画領域を夫々特定する(S120)。具体的には、文書画像における黒画素群の外接矩形を抽出し、抽出した各矩形に囲まれた領域を段組構成要素の描画領域として特定する。
【0015】
CPU10は、ステップ120で特定した各描画領域の画調を基に、それら各描画領域を、文章が記された領域と図表が記された領域とに区分する(S130)。具体的には、特定した各描画領域における黒画素のヒストグラムをX方向に走査し、黒画素の数が所定値を下回る区域(つまり、黒画素の谷となる区域)が一定の規則性を持って出現する場合には文章が記された領域に区分する一方で、規則性を持って出現しない場合には図表が記された領域に区分する。
CPU10は、ステップ130にて文章が記された領域に区分された描画領域内の画像を解析してテキストデータを取得する(S140)。取得されたテキストデータの各々は、テキストデータであることを示す「tex」の拡張子を関連付けたファイルとしてハードディスク40に記憶される。なお、これらのテキストデータの各ファイルは、文字サイズを示すサイズ情報を夫々内包する。また、各テキストデータのファイルには、割付順序を示す文字列がファイル名として付与される。例えば、最初に取得された文書画像データの一番上段にある段組構成要素から取得されたテキストデータのファイルであれば、最初に割り付けられるべきことを示す「1.tex」というファイル名が付与され、その下の段にある段組構成要素から取得されたテキストデータのファイルであれば、「2.tex」というファイル名が付与される。
【0016】
CPU10は、ステップ130にて図表が記された領域に区分された描画領域内にある図表の画像を切り出す(S150)。以降の説明では、このステップで取得された画像を表すイメージデータを「図表画像データ」と呼ぶ。図表画像データの各々は、イメージデータであることを示す「img」の拡張子を関連付けたファイルとしてハードディスク40に記憶される。各ファイルに付与されるファイル名は特に問わない。
CPU10は、ステップ110乃至ステップ150の処理を施していない他の文書画像データがハードディスク40に記憶されている場合、別の文書画像データを処理対象としてステップ110以降の処理を実行する。一方、処理を施していない文書画像データが無い場合、レイアウト解析処理が終了し、続いて対応付け処理が開始される。
【0017】
図4は、対応付け処理を示すフローチャートである。
この処理において、CPU10は、ハードディスク40に記憶された各図表画像データから処理対象となる図表画像データを特定し、特定した図表画像データをRAM20へ読み出す(S200)。処理対象となる図表画像データの特定は、ハードディスク40に記憶された順序に従って行なわれる。CPU10は、ステップ200で読み出した図表画像データから図番を検出する(S210)。次に、CPU10は、ステップ210で検出した図番を含んでいるテキストデータをハードディスク40からRAM20へ読み出す(S220)。即ち、「tex」の拡張子と関連付けてハードディスク40に記憶されている各ファイルを参照し、図表画像データから検出された図番を一部に含んだ文章のテキストデータを一意に特定してそのファイルをRAM20へ読み出す。
【0018】
CPU10は、ステップ200で読み出した図表画像データと、ステップ220で読み出したテキストデータとを対応付ける(S230)。この対応付けの手法は問わない。例えば、読み出されたテキストデータのファイル名が「1.tex」であればそれと対応付けられるべき図表画像データのファイル名を「1.img」とするといったように、拡張子を除くファイル名が同一になるように修正を施してもよい。
【0019】
CPU10は、テキストデータと対応付けられていない図表画像データがハードディスク40に記憶されている場合、ステップ200に戻って別の図表画像データのファイルを処理対象として特定し、以降の処理を実行する。一方、すべての図表画像データをテキストデータと対応付けると、CPU10は、ハードディスク40に記憶されている残りのテキストデータをRAM20に読み出す(S240)。即ち、図番を含んでいない文章のテキストデータのファイルをもRAM20に読み出す。このステップを実行すると、対応付け処理が終了し、RAM20に読み出された図表画像データ及びテキストデータに基づくレイアウト再構成処理が開始される。
【0020】
図5は、レイアウト再構成処理を示すフローチャートである。
本処理が実行される間、RAM20の一部には、文字列や図表を割り付けて得られる文書画面の画面番号を一時的に記憶する記憶領域と、文書画面の残余面積を一時的に記憶する記憶領域とが確保される。残余面積とは、1ページに相当する文書画面の全画素面積のうち、文字列又は図表を割り付けることができる残りの画素面積を意味する。本処理では、テキストデータが示す文字列や図面画像データが示す図表の割付位置を決定する毎に、割り付けた文字列や図表が画面内において占めるであろう領域の面積を残余面積から減じて行く。そして、割付位置を決定すべき文字列や図表の面積よりも残余面積が小さくなると、画面番号を1つ増加させると共に残余面積を最大値に初期化する。つまり、本処理では、ある文書画面の残余面積に文字や図表を割り付けるスペースがなくなる毎に、その次の1ページとして表示されるべき別の文書画面に割付対象を順次移行していく。
【0021】
この処理において、CPU10は、対応付け処理にてRAM20に読み出された各テキストデータから、処理対象となるテキストデータを特定する(S310)。処理対象となるテキストデータの特定は、そのファイル名が示す順序に従って行なわれる。続いて、CPU10は、ステップ310で特定したテキストデータと対応付けられている図表画像データが存在するか否か判断する(S320)。
ステップ320の判断結果が「YES」となった場合、文字列と図表とをセットとして割り付け位置を決定するため、ステップ330以降の処理が実行される。一方で、ステップ320の判断結果が「NO」となった場合、文字列単独で割付位置を決定するため、ステップ400以降の処理が実行される。
【0022】
ステップ330にて、CPU10は、テキストデータと対応付けられた図表画像データを特定する。続いて、CPU10は、ステップ310で特定したテキストデータが示す全文字列が文書画面内において占めるであろう領域と、ステップ330で特定した図表画像データが示す図表が文書画面内において占めるであろう領域の合計面積を求める(S340)。なお、合計面積のうち、文字列が占める面積の算出は、特定したテキストデータによって表される全文字列の文字数とそのテキストデータのファイルに内包されているサイズ情報とに基いて行なわれる。
CPU10は、求めた合計面積がRAM20に記憶されている残余面積よりも小さいか否か判断する(S350)。
ステップ350の判断結果が「YES」となったとき、CPU10は、文字列と図表の割付位置を決定する(S380)。このステップでは、図表と文字列とが隣り合うように各々の割付位置を決定し、その際、文字列の行数を、文字列の横幅が図表の隣の空き領域に収まるように適宜調節する。そして、RAM20に記憶されている残余面積からステップ340で求めた合計面積を減じる(S390)。
【0023】
ステップ350の判断結果が「NO」となった場合、文字列と図表を割り付けることができる残余面積が不足しているため、新たな文書画面を割り付け対象とすべく、ステップ360乃至370の処理を実行する。ステップ360では、CPU10が、文書画面レイアウト情報を生成し、その文書画面レイアウト情報をRAM20に記憶されている画面番号と関連付けてハードディスク40に記憶する。文書画面レイアウト情報とは、1つの文書画面の表示内容を制御する情報であり、割り付けられる文字列や図表などを指し示すファイル名、それらの割付位置やフォントサイズといった情報を含む。つまり、このステップでは、それまで文字列や図表が割り付けられた1ページ分の文書画像のレイアウトの内容を文書画面レイアウト情報として保存する。続いて、CPU10は、RAM20に記憶されている画面番号に1を加算すると共に、残余面積を初期化する(S370)。これらの両処理が介在することにより、1ページ分の文書画面のレイアウトの内容が確定すると共に、別の1ページに相当する文書画面を対象としてステップ380に示す割付位置の決定が行なわれる。
【0024】
次に、ステップ400以降の処理について説明する。
ステップ400にて、CPU10は、ステップ310で特定したテキストデータが示す全文字列が画面内において占めるであろう領域の面積を求める。そして、求めた面積がRAM20に記憶されている残余面積よりも小さいか否か判断する(S410)。
ステップ410の判断結果が「YES」となったとき、CPU10は、文字列の割付位置を決定する(S420)。そして、RAM20に記憶されている残余面積からステップ400で求めた面積を減じる(S430)。
また、ステップ410の判断結果が「NO」となったときは、上述したステップ360及びステップ370の処理が実行された後、ステップ420の処理へ進む。
【0025】
このレイアウト再構成処理について、具体的な事例を参照しつつ更に詳述する。ここでは、図6(a)(b)に示す2枚の文書からなる文書群を処理対象として想定する。図6(a)に示す文書には、段組構成要素a乃至gが記されている。これらはすべてテキストデータに変換されるべき文章である。一方、図6(b)に示す文書には段組構成要素h乃至kが記されているが、これらのうち段組構成要素hとiはテキストデータに変換する必要の無い図表であり、段組構成要素jとkは文章である。そして、図6(a)の段組構成要素eには図番を示す文字列である「図1」が、段組構成要素gには図番を示す文字列である「図2」がそれぞれ含まれている。
【0026】
この文書群をスキャナ装置が走査して得た文書画像データに対して図3に示したレイアウト解析処理を実行すると、段組構成要素a乃至g、及びj、kの各描画領域からはテキストデータが取得され、取得されたテキストデータの各ファイルは、割付順序を示す文字列をファイル名としてハードディスク40に記憶される。一方、段組構成要素hとiの描画領域からは、図番を含んだ図表の画像がそのまま切り出される。
続いて、図4に示した対応付け処理を実行すると、段組構成要素eの描画領域から得られたテキストデータと段組構成要素hの描画領域から得られた図表画像データとが対応付けられ、また、段組構成要素gの描画領域から得られたテキストデータと段組構成要素iの描画領域から得られた図表画像データとが対応付けられる。
【0027】
更に、図5に示したレイアウト再構成処理を実行すると、段組構成要素a乃至g、及びj、kの段組構成要素から得られたテキストデータを処理対象として順次特定しつつ図5の一連のステップが繰り返される。この処理において、段組構成要素eとgの描画領域から得たテキストデータが処理対象となった時は、ステップ320の判断結果が「YES」となるため、文字列と図表のセットとして割付位置が決定される(S330乃至S390)。一方で、段組構成要素a乃至d、f、j、kの描画領域から得たテキストデータが処理対象となった時は、ステップ320の判断結果が「NO」となるため、文字列単独で割付位置が決定される(S400乃至S430)。
図7は、図6の文書群について生成された文書画面レイアウト情報を基に生成した文書画面の一例を示す図である。この図は、図6(a)と(b)に示した2枚の文書を、2ページ分に相当する文書画面として表示した状態を示すものである。最初に表示される文書画面である図7(a)の1番下の段には、「図1」を含む文字列と図表とが隣り合わせて表示されている。また、その次に表示される文書画面である図7(b)の上から2つ目の段には、「図2」を含む文字列と図表とが隣り合わせて表示されている。つまり、レイアウト再構成処理により得られた文書画面レイアウト情報に基づいて生成される一連の文書画面では、同じ図番を含む文字列と図表とが、常に同時に表示されることになる。
【0028】
以上説明した本実施形態によると、文書画像処理装置は、文書画像データからテキストデータのファイルと図表画像データのファイルとを取得して各ファイルから図番を検出し、同じ図番を含んだ文字列と図表の画像とを同一の文書画面に割り付けるようになっている。従って、複数の図表とそれらの図表を参照して行なわれる複数の文書が混在する文書群をスキャンする場合であっても、その文書群に含まれる図や表とそれらに関連する文章とが同時に参照されるようにレイアウトが構築し直された文書画面を表示することができる。
【0029】
(第2実施形態)
上記実施形態では、文字列と図表のセットの割付位置を決定する際、文字列と図表の合計面積を求め、求めた合計面積が残余面積よりも大きい場合、つまり空き領域に収まりきらない場合には、その文字列と図表のセットを新たな別の文書画面に割り付けるような取扱となっていた。これに対し、本実施形態では、文字列と図表の合計面積が残余面積よりも大きい場合は、図面と文字列の合計面積を残余面積と一致させるべく、図表を縮小化する。
本実施形態に係る文書画像処理装置のハードウェア構成は第1実施形態と同様なので、ここでは再度の説明を割愛する。
【0030】
次に、本実施形態の動作を説明する。本実施形態の動作は、第1実施形態と同様に、レイアウト解析処理と、対応付け処理と、レイアウト再構成処理とに大別でき、これらのうちレイアウト再構成処理の内容が同実施形態と異なる。
図8は、本実施形態におけるレイアウト再構成処理の内容を示すフローチャートである。第1実施形態では、図5に示した350の判断結果が「NO」となった場合、つまり、図表と文字列のセットが残余面積に収まりきらないと判断された場合、ステップ360乃至ステップ390の一連の処理が行われるが、本実施形態では、これらの処理がステップ361乃至ステップ371の処理に置き換わっている。
【0031】
ステップ361にて、CPU10は、図表と文字列のセットの合計面積を残余面積と一致させるべく、図表のサイズを縮小する。そして、CPU10は、文字列とステップ361で縮小した図表の割付位置を決定する(S362)。続くステップ363では、文書画面レイアウト情報を生成し その後、ステップ371に進み、RAM20に記憶されている画面番号に1を加算すると共に、残余面積を初期化する。つまり、ステップ361で縮小した図表と文字列のセットを割り付けた時点でその文書画面の残余面積は必然的に「0」となるため、直ちに次のページに相当する文書画面の生成に移行する。
【0032】
以上説明した本実施形態によると、文書画像処理装置は、対応付けが成された図表と文字列の合計面積が残余面積よりも大きい場合は、図表を縮小してから割り付けるようになっている。このため、不自然に大きな空き領域を有する文書画面が生成されてしまうといった不都合を回避できる。
【0033】
(他の実施形態)
本願に係る発明は、種々の変形実施が可能である。
上記実施形態では、対応付けが成された文字列と図表とが隣り合うように割り付け位置が決定されるようになっていたが、図表と、その図表と関連する文章の文字列とが同時に参照されるようになっていれば、必ずしも隣に配される必要はない。例えば、図9(a)に示す文書は、「図1」を含む文章と「図2」を含む文章が記されると共に、「図1」を含む図表が記されている。一方で、図9(b)は「図2」を含む図表のみが記されている。このような両文書からなる文書群を処理対象とし、図10に示すような一枚の文書画面を生成してもよい。この図に示す文書画面では、上記実施形態のように同じ図番を含む文字列を図表とを隣り合わせて割り付けるのではなく、「図1」を含む図表の右隣に「図2」を含む図表を割り付け、更に、両図表の上には「図1」を含む文章の文字列を、両図表の下には「図2」を含む文章の文字列をそれぞれ割り付けてなる。このように割付態様を制御することで、本来であれば2ページに渡って表示されるべき文書群の内容を1ページに収めることができる。
【0034】
第1実施形態では、対応付けが成された文字列と図表の合計面積が残余面積よりも小さい場合、その文字列と図表のセットを新規な文書画面に割り付けるようになっていた。また、これを改善した第2実施形態では、合計面積を残余面積と一致させるべく、図表のサイズを縮小していた。これに対し、図表を縮小するのではなく、文字のフォントサイズをより小さいものに変更して割り付けることによって、文字列と図表の合計面積を狭小化してもよい。上記実施形態に示したように、テキストデータのファイルはフォントサイズの情報を内包しているので、この情報をより小さなフォントサイズの情報へ変更するステップを介在させることによって、係る変形例の導入は可能となる。
【0035】
また、図表を縮小するのではなく拡大してから割り付けるようにしてもよい。この種の変形例としては、例えば、図5に示したステップ390で合計面積を減じて得た残余面積が所定値を下回った場合に、ステップ380で割付位置を決定した図表の大きさを幾分拡大させることによって残余面積を埋め合わせ、以降の文字列や文書は別の1ページに相当する文書画面に割り付けるといったものが想定できる。このような変形例を構成することで、文書画面の表示領域をより有効に活用できる。
【0036】
文字列と対応付けられた図表は文書画面内に常に表示し続ける必要は無い。例えば、文字列のみが表示された状態で何らかのアクションを受けた後、対応付けられた図面が表示されるようにしてもよい。この種の変形例としては、図4の対応付け処理において同じ図番を含むテキストデータと図表画像データを対応付けたあと、図表画像データへのリンクが張られた図番を埋め込んだ文字列のみを文書画面に割り付けておき、その文書画面を表示した状態において、図番がクリックされると、対応する図表の画像を文書画面と一部が重なる別ウィンドウとして表示するといったものが想定できる。また、いわゆるNアップ出力によって隣り合う2ページ分の文書画像が同時に表示されるような画面構成とする場合、一方のページの文書画像に図番を含む文章の文字列を割り付けると共に、もう一方のページの文書画像に図表を割り付けるようにしてもよい。要するに、同じ図番を含む図表と文章の対応関係が一意に把握されるようなレイアウトで表示されるものであれば、図表と文章を表示するタイミングのずれや同じ画面として表示されるページ数の如何は問わない。
また、図表だけでなく、「注1」、「注2」などの文字列を冒頭に含む注釈や写真などを文章と対応付けてもよい。注釈の場合はこれをイメージデータとして切出したものを文章のテキストデータと対応付けてもよいし、注釈そのものをテキストデータに変換して対応付けを行ってもよい。
【図面の簡単な説明】
【0037】
【図1】文書画像処理装置のハードウェア構成を示すブロック図である。
【図2】CPUの論理的構成を示すブロック図である。
【図3】レイアウト解析処理を示すフローチャートである。
【図4】対応付け処理を示すフローチャートである。
【図5】レイアウト再構成処理を示すフローチャートである。
【図6】処理対象となる文書群である。
【図7】文書画面の一例を示す図である。
【図8】レイアウト再構成処理の内容を示すフローチャートである。
【図9】処理対象となる文書群である(変形例)。
【図10】文書画面の一例を示す図である。
【符号の説明】
【0038】
10…CPU、11…レイアウト解析部、12…OCR処理部、13…図表切出部、14…図番文字列探索部、15…図表/番号対応付け部、16…レイアウト再構成部、20…RAM、30…ROM、40…ハードディスク、50…コンピュータディスプレイ、60…マウス、80…通信インターフェース、90…画像データインターフェース
【技術分野】
【0001】
本発明は、文書画像処理装置に関する。
【背景技術】
【0002】
文書の画像をOCR(optical character reader)変換して得たテキストデータを文字列として表示する際、元の文書のレイアウトを再現したり、又は元の文書とは別のレイアウトで文字列を表示する技術が提案されている。
例えば、特許文献1には、文書画像から得たテキストデータが示す文字列のレイアウト変更を好適に支援する文書画像処理装置が開示されている。同文献によると、この文書画像処理装置は、入力された文書画像のレイアウト構造を解析し、レイアウト構成要素とその位置サイズ情報とを取得する。レイアウト構成要素とは各段落毎に纏められたテキストデータ等を意味し、位置サイズ情報とは各レイアウト構成要素の配置位置と大きさを表すデータを意味する。同装置は、このレイアウト構成要素と位置サイズ情報を基に再現した元の文書を表示したあと、オペレータからのレイアウト変更指示を受け付ける。そして、画面サイズと位置サイズ情報を基に、オペレータの指示内容に合致する新たなレイアウトを求め、この新たなレイアウトに従って加工された文書を再表示する。
【特許文献1】特開2001−101164
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、OCR変換処理の対象となる文書に、図や表などの情報が記されていることがある。この種の文書の場合、文字列として記された文章部分は図や表などを引用した説明や解説などであることが多いが、文章部分で引用された図や表がその部分とは別のページに記されていると、文章部分と図や表との対応関係が把握しにくいという問題があった。
本発明はこのような問題を解決すべく案出されたものであり、テキストデータ化されるべき文章の他に図や表などが記された文書をスキャンし、図や表とそれらに関連する文章の対応関係が容易に把握されるようなレイアウトの文書画面を提示する装置を提供することを目的とする。
【課題を解決するための手段】
【0004】
本発明の好適な態様である文書画像処理装置は、一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、前記入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定手段と、前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分手段と、前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得手段と、前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出手段と、前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られる一連の文書画面を順次表示する表示手段と、第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御手段とを備える。
この態様において、前記テキストデータへの変換を要しない情報を、図、表又は写真としてもよい。
【0005】
更に、前記割付制御手段は、前記図、表又は写真を識別する番号を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ番号を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御するようにしてもよい。
上述した態様において、前記割付制御手段は、前記切り出された画像を割り付けると共に、文書画面において前記画像が割り付けられていない描画領域を特定し、前記割り付けた画像に含まれるものと同じ識別子が検出された前記文字列を、その文字列のすべてが前記特定した描画領域に収まる文字サイズで割り付けるようにしてもよい。
【0006】
更に、前記テキストデータ取得手段が、文字サイズを示すサイズ情報を前記テキストデータと併せて取得し、前記割付制御手段は、前記テキストデータが示す文字列を、当該テキストデータと併せて取得したサイズ情報が示す文字サイズで割り付けると共に、文書画面において前記文字列が割り付けられていない描画領域を特定し、前記割り付けた文字列に含まれるものと同じ識別子が検出された前記画像を前記特定した描画領域に収まる画像サイズに縮小又は拡大して割り付けるようにしてもよい。
【0007】
この発明の別の好適な態様であるプログラムは、一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、情報の表示手段とを備えたコンピュータ装置に、前記入力手段を介して入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定機能と、前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分機能と、前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得機能と、前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出機能と、前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られた一連の文書画面を前記表示手段へ順次出力する出力機能と、第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御機能とを実現させる。
【0008】
この発明の別の好適な態様である文書画像処理方法は、一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、情報の表示手段とを備えた装置による文書画像処理方法であって、前記入力手段を介して入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定工程と、前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分工程と、前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得工程と、前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出工程と、前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られた一連の文書画面を前記表示手段へ順次出力する出力工程と、第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御工程とを有する。
【発明の効果】
【0009】
本発明によると、図や表と文章とが混在する文書の画像データから、図や表とそれらに関連する文章との対応関係が容易に把握されるようにレイアウトされた文書画面を生成して提示することができる。
【発明を実施するための最良の形態】
【0010】
(第1実施形態)
以下、図面を参照しつつ、本願発明の第1実施形態に係る文書画像処理装置について説明する。以降の説明において、「図表」なる用語は、図及び表を総称する意味で用い、「文書」なる用語は、図表又は文章の一方又は両方が記された一枚の原稿の意味で用いる。「段組構成要素」なる用語は、原稿の紙面の一画を占める領域の内部に記された一纏まりの文章又は図表の意味で用いる。また、「図番」なる用語は、図又は表を一意に識別する番号を含んだ文字列を意味し、例えば「図1」や「図2」などが該当する。
ここで、本実施形態に係る文書画像処理装置は、図番が一部に記された複数の図表と、それら各図表の図番を含んだ文章とが混在する一組の文書群をその処理対象として想定する。
【0011】
図1は、本実施形態にかかる文書画像処理装置のハードウェア構成図である。同図に示すように、この装置は、装置全体の動作を制御するCPU10、CPU10のワーク領域として利用されるRAM20、IPL(initial program loader)などを記憶したROM30、各種プログラムやデータファイルなどを記憶するハードディスク40、CPU10の制御の下に各種画面を順次表示するコンピュータディスプレイ50のほか、マウス60、キーボード70、通信インターフェース80、画像データインターフェース90などを備えている。
ハードディスク40には、図示しないOS(operating system)の他、文書画像処理プログラムを予め記憶している。このプログラムをOS上で実行することにより、CPU10には、本実施形態に特有の機能が付与される。
【0012】
図2は、文書画像処理プログラムの作用によってCPU10に実現される各部の論理的構成を示すブロック図である。同図に示すように、文書画像処理プログラムの作用により、CPU10は、レイアウト解析部11、OCR処理部12、図表切出部13、図番文字列探索部14、図表/番号対応付け部15、及びレイアウト再構成部16という6つの機能モジュールとしての役割を果たす。これら各部の振る舞いについて概説する。
a レイアウト解析部
このモジュールは、画像インターフェースから入力される画像から、各段組構成要素の描画領域を夫々特定する。
b OCR処理部
このモジュールは、レイアウト解析部11が特定した各描画領域からテキストデータへの変換を要する情報である文章が記された描画領域を抽出し、抽出した描画領域内の画像に対して文字認識処理を施すことで、各描画領域毎のテキストデータを取得する。
c 図表切出部
このモジュールは、レイアウト解析部11が特定した各描画領域から、テキストデータへの変換を要しない情報である図表が記された描画領域を抽出し、抽出した描画領域内の画像を切り出す。そして、切り出した画像から図番を検出する。
d 図番文字列探索部
このモジュールは、OCR処理部12によって取得された各テキストデータから、図番を含むテキストデータを探索する。
e 図表/番号対応付け部
このモジュールは、同じ図番を内包している図表の画像とテキストデータとを対応付ける。
f レイアウト再構成部
このモジュールは、図表/番号対応付け部15が同じ図番を内包するものとして対応付けた画像と文字列のセットを同時に表示させるべく、コンピュータディスプレイ50に順次出力される一連の文書画面の割り付け態様を制御する。
【0013】
次に、本実施形態の動作を説明する。実施形態の動作は、レイアウト解析処理と、対応付け処理と、レイアウト再構成処理とに大別できる。
図3は、レイアウト解析処理を示すフローチャートである。この処理は、レイアウト解析部11、OCR処理部12、図表切出部13の各機能モジュールが作用することで実行される。
この処理は、一組の文書群を各文書毎に走査して得られた一連の文書画像データが図示しないスキャナ装置から供給されたことをトリガーとして開始される。
【0014】
文書画像処理装置のCPU10は、スキャナ装置から取得した一連の文書画像データをハードディスク40に記憶する(S100)。CPU10は、ハードディスク40に記憶された各文書画像データから処理対象となる文書画像データを特定し、特定した文書画像データをRAM20へ読み出す(S110)。処理対象となる文書データの特定は、取得した順序に従って行なわれる。
CPU10は、ステップ110で読み出した文書画像データから、各段組構成要素の描画領域を夫々特定する(S120)。具体的には、文書画像における黒画素群の外接矩形を抽出し、抽出した各矩形に囲まれた領域を段組構成要素の描画領域として特定する。
【0015】
CPU10は、ステップ120で特定した各描画領域の画調を基に、それら各描画領域を、文章が記された領域と図表が記された領域とに区分する(S130)。具体的には、特定した各描画領域における黒画素のヒストグラムをX方向に走査し、黒画素の数が所定値を下回る区域(つまり、黒画素の谷となる区域)が一定の規則性を持って出現する場合には文章が記された領域に区分する一方で、規則性を持って出現しない場合には図表が記された領域に区分する。
CPU10は、ステップ130にて文章が記された領域に区分された描画領域内の画像を解析してテキストデータを取得する(S140)。取得されたテキストデータの各々は、テキストデータであることを示す「tex」の拡張子を関連付けたファイルとしてハードディスク40に記憶される。なお、これらのテキストデータの各ファイルは、文字サイズを示すサイズ情報を夫々内包する。また、各テキストデータのファイルには、割付順序を示す文字列がファイル名として付与される。例えば、最初に取得された文書画像データの一番上段にある段組構成要素から取得されたテキストデータのファイルであれば、最初に割り付けられるべきことを示す「1.tex」というファイル名が付与され、その下の段にある段組構成要素から取得されたテキストデータのファイルであれば、「2.tex」というファイル名が付与される。
【0016】
CPU10は、ステップ130にて図表が記された領域に区分された描画領域内にある図表の画像を切り出す(S150)。以降の説明では、このステップで取得された画像を表すイメージデータを「図表画像データ」と呼ぶ。図表画像データの各々は、イメージデータであることを示す「img」の拡張子を関連付けたファイルとしてハードディスク40に記憶される。各ファイルに付与されるファイル名は特に問わない。
CPU10は、ステップ110乃至ステップ150の処理を施していない他の文書画像データがハードディスク40に記憶されている場合、別の文書画像データを処理対象としてステップ110以降の処理を実行する。一方、処理を施していない文書画像データが無い場合、レイアウト解析処理が終了し、続いて対応付け処理が開始される。
【0017】
図4は、対応付け処理を示すフローチャートである。
この処理において、CPU10は、ハードディスク40に記憶された各図表画像データから処理対象となる図表画像データを特定し、特定した図表画像データをRAM20へ読み出す(S200)。処理対象となる図表画像データの特定は、ハードディスク40に記憶された順序に従って行なわれる。CPU10は、ステップ200で読み出した図表画像データから図番を検出する(S210)。次に、CPU10は、ステップ210で検出した図番を含んでいるテキストデータをハードディスク40からRAM20へ読み出す(S220)。即ち、「tex」の拡張子と関連付けてハードディスク40に記憶されている各ファイルを参照し、図表画像データから検出された図番を一部に含んだ文章のテキストデータを一意に特定してそのファイルをRAM20へ読み出す。
【0018】
CPU10は、ステップ200で読み出した図表画像データと、ステップ220で読み出したテキストデータとを対応付ける(S230)。この対応付けの手法は問わない。例えば、読み出されたテキストデータのファイル名が「1.tex」であればそれと対応付けられるべき図表画像データのファイル名を「1.img」とするといったように、拡張子を除くファイル名が同一になるように修正を施してもよい。
【0019】
CPU10は、テキストデータと対応付けられていない図表画像データがハードディスク40に記憶されている場合、ステップ200に戻って別の図表画像データのファイルを処理対象として特定し、以降の処理を実行する。一方、すべての図表画像データをテキストデータと対応付けると、CPU10は、ハードディスク40に記憶されている残りのテキストデータをRAM20に読み出す(S240)。即ち、図番を含んでいない文章のテキストデータのファイルをもRAM20に読み出す。このステップを実行すると、対応付け処理が終了し、RAM20に読み出された図表画像データ及びテキストデータに基づくレイアウト再構成処理が開始される。
【0020】
図5は、レイアウト再構成処理を示すフローチャートである。
本処理が実行される間、RAM20の一部には、文字列や図表を割り付けて得られる文書画面の画面番号を一時的に記憶する記憶領域と、文書画面の残余面積を一時的に記憶する記憶領域とが確保される。残余面積とは、1ページに相当する文書画面の全画素面積のうち、文字列又は図表を割り付けることができる残りの画素面積を意味する。本処理では、テキストデータが示す文字列や図面画像データが示す図表の割付位置を決定する毎に、割り付けた文字列や図表が画面内において占めるであろう領域の面積を残余面積から減じて行く。そして、割付位置を決定すべき文字列や図表の面積よりも残余面積が小さくなると、画面番号を1つ増加させると共に残余面積を最大値に初期化する。つまり、本処理では、ある文書画面の残余面積に文字や図表を割り付けるスペースがなくなる毎に、その次の1ページとして表示されるべき別の文書画面に割付対象を順次移行していく。
【0021】
この処理において、CPU10は、対応付け処理にてRAM20に読み出された各テキストデータから、処理対象となるテキストデータを特定する(S310)。処理対象となるテキストデータの特定は、そのファイル名が示す順序に従って行なわれる。続いて、CPU10は、ステップ310で特定したテキストデータと対応付けられている図表画像データが存在するか否か判断する(S320)。
ステップ320の判断結果が「YES」となった場合、文字列と図表とをセットとして割り付け位置を決定するため、ステップ330以降の処理が実行される。一方で、ステップ320の判断結果が「NO」となった場合、文字列単独で割付位置を決定するため、ステップ400以降の処理が実行される。
【0022】
ステップ330にて、CPU10は、テキストデータと対応付けられた図表画像データを特定する。続いて、CPU10は、ステップ310で特定したテキストデータが示す全文字列が文書画面内において占めるであろう領域と、ステップ330で特定した図表画像データが示す図表が文書画面内において占めるであろう領域の合計面積を求める(S340)。なお、合計面積のうち、文字列が占める面積の算出は、特定したテキストデータによって表される全文字列の文字数とそのテキストデータのファイルに内包されているサイズ情報とに基いて行なわれる。
CPU10は、求めた合計面積がRAM20に記憶されている残余面積よりも小さいか否か判断する(S350)。
ステップ350の判断結果が「YES」となったとき、CPU10は、文字列と図表の割付位置を決定する(S380)。このステップでは、図表と文字列とが隣り合うように各々の割付位置を決定し、その際、文字列の行数を、文字列の横幅が図表の隣の空き領域に収まるように適宜調節する。そして、RAM20に記憶されている残余面積からステップ340で求めた合計面積を減じる(S390)。
【0023】
ステップ350の判断結果が「NO」となった場合、文字列と図表を割り付けることができる残余面積が不足しているため、新たな文書画面を割り付け対象とすべく、ステップ360乃至370の処理を実行する。ステップ360では、CPU10が、文書画面レイアウト情報を生成し、その文書画面レイアウト情報をRAM20に記憶されている画面番号と関連付けてハードディスク40に記憶する。文書画面レイアウト情報とは、1つの文書画面の表示内容を制御する情報であり、割り付けられる文字列や図表などを指し示すファイル名、それらの割付位置やフォントサイズといった情報を含む。つまり、このステップでは、それまで文字列や図表が割り付けられた1ページ分の文書画像のレイアウトの内容を文書画面レイアウト情報として保存する。続いて、CPU10は、RAM20に記憶されている画面番号に1を加算すると共に、残余面積を初期化する(S370)。これらの両処理が介在することにより、1ページ分の文書画面のレイアウトの内容が確定すると共に、別の1ページに相当する文書画面を対象としてステップ380に示す割付位置の決定が行なわれる。
【0024】
次に、ステップ400以降の処理について説明する。
ステップ400にて、CPU10は、ステップ310で特定したテキストデータが示す全文字列が画面内において占めるであろう領域の面積を求める。そして、求めた面積がRAM20に記憶されている残余面積よりも小さいか否か判断する(S410)。
ステップ410の判断結果が「YES」となったとき、CPU10は、文字列の割付位置を決定する(S420)。そして、RAM20に記憶されている残余面積からステップ400で求めた面積を減じる(S430)。
また、ステップ410の判断結果が「NO」となったときは、上述したステップ360及びステップ370の処理が実行された後、ステップ420の処理へ進む。
【0025】
このレイアウト再構成処理について、具体的な事例を参照しつつ更に詳述する。ここでは、図6(a)(b)に示す2枚の文書からなる文書群を処理対象として想定する。図6(a)に示す文書には、段組構成要素a乃至gが記されている。これらはすべてテキストデータに変換されるべき文章である。一方、図6(b)に示す文書には段組構成要素h乃至kが記されているが、これらのうち段組構成要素hとiはテキストデータに変換する必要の無い図表であり、段組構成要素jとkは文章である。そして、図6(a)の段組構成要素eには図番を示す文字列である「図1」が、段組構成要素gには図番を示す文字列である「図2」がそれぞれ含まれている。
【0026】
この文書群をスキャナ装置が走査して得た文書画像データに対して図3に示したレイアウト解析処理を実行すると、段組構成要素a乃至g、及びj、kの各描画領域からはテキストデータが取得され、取得されたテキストデータの各ファイルは、割付順序を示す文字列をファイル名としてハードディスク40に記憶される。一方、段組構成要素hとiの描画領域からは、図番を含んだ図表の画像がそのまま切り出される。
続いて、図4に示した対応付け処理を実行すると、段組構成要素eの描画領域から得られたテキストデータと段組構成要素hの描画領域から得られた図表画像データとが対応付けられ、また、段組構成要素gの描画領域から得られたテキストデータと段組構成要素iの描画領域から得られた図表画像データとが対応付けられる。
【0027】
更に、図5に示したレイアウト再構成処理を実行すると、段組構成要素a乃至g、及びj、kの段組構成要素から得られたテキストデータを処理対象として順次特定しつつ図5の一連のステップが繰り返される。この処理において、段組構成要素eとgの描画領域から得たテキストデータが処理対象となった時は、ステップ320の判断結果が「YES」となるため、文字列と図表のセットとして割付位置が決定される(S330乃至S390)。一方で、段組構成要素a乃至d、f、j、kの描画領域から得たテキストデータが処理対象となった時は、ステップ320の判断結果が「NO」となるため、文字列単独で割付位置が決定される(S400乃至S430)。
図7は、図6の文書群について生成された文書画面レイアウト情報を基に生成した文書画面の一例を示す図である。この図は、図6(a)と(b)に示した2枚の文書を、2ページ分に相当する文書画面として表示した状態を示すものである。最初に表示される文書画面である図7(a)の1番下の段には、「図1」を含む文字列と図表とが隣り合わせて表示されている。また、その次に表示される文書画面である図7(b)の上から2つ目の段には、「図2」を含む文字列と図表とが隣り合わせて表示されている。つまり、レイアウト再構成処理により得られた文書画面レイアウト情報に基づいて生成される一連の文書画面では、同じ図番を含む文字列と図表とが、常に同時に表示されることになる。
【0028】
以上説明した本実施形態によると、文書画像処理装置は、文書画像データからテキストデータのファイルと図表画像データのファイルとを取得して各ファイルから図番を検出し、同じ図番を含んだ文字列と図表の画像とを同一の文書画面に割り付けるようになっている。従って、複数の図表とそれらの図表を参照して行なわれる複数の文書が混在する文書群をスキャンする場合であっても、その文書群に含まれる図や表とそれらに関連する文章とが同時に参照されるようにレイアウトが構築し直された文書画面を表示することができる。
【0029】
(第2実施形態)
上記実施形態では、文字列と図表のセットの割付位置を決定する際、文字列と図表の合計面積を求め、求めた合計面積が残余面積よりも大きい場合、つまり空き領域に収まりきらない場合には、その文字列と図表のセットを新たな別の文書画面に割り付けるような取扱となっていた。これに対し、本実施形態では、文字列と図表の合計面積が残余面積よりも大きい場合は、図面と文字列の合計面積を残余面積と一致させるべく、図表を縮小化する。
本実施形態に係る文書画像処理装置のハードウェア構成は第1実施形態と同様なので、ここでは再度の説明を割愛する。
【0030】
次に、本実施形態の動作を説明する。本実施形態の動作は、第1実施形態と同様に、レイアウト解析処理と、対応付け処理と、レイアウト再構成処理とに大別でき、これらのうちレイアウト再構成処理の内容が同実施形態と異なる。
図8は、本実施形態におけるレイアウト再構成処理の内容を示すフローチャートである。第1実施形態では、図5に示した350の判断結果が「NO」となった場合、つまり、図表と文字列のセットが残余面積に収まりきらないと判断された場合、ステップ360乃至ステップ390の一連の処理が行われるが、本実施形態では、これらの処理がステップ361乃至ステップ371の処理に置き換わっている。
【0031】
ステップ361にて、CPU10は、図表と文字列のセットの合計面積を残余面積と一致させるべく、図表のサイズを縮小する。そして、CPU10は、文字列とステップ361で縮小した図表の割付位置を決定する(S362)。続くステップ363では、文書画面レイアウト情報を生成し その後、ステップ371に進み、RAM20に記憶されている画面番号に1を加算すると共に、残余面積を初期化する。つまり、ステップ361で縮小した図表と文字列のセットを割り付けた時点でその文書画面の残余面積は必然的に「0」となるため、直ちに次のページに相当する文書画面の生成に移行する。
【0032】
以上説明した本実施形態によると、文書画像処理装置は、対応付けが成された図表と文字列の合計面積が残余面積よりも大きい場合は、図表を縮小してから割り付けるようになっている。このため、不自然に大きな空き領域を有する文書画面が生成されてしまうといった不都合を回避できる。
【0033】
(他の実施形態)
本願に係る発明は、種々の変形実施が可能である。
上記実施形態では、対応付けが成された文字列と図表とが隣り合うように割り付け位置が決定されるようになっていたが、図表と、その図表と関連する文章の文字列とが同時に参照されるようになっていれば、必ずしも隣に配される必要はない。例えば、図9(a)に示す文書は、「図1」を含む文章と「図2」を含む文章が記されると共に、「図1」を含む図表が記されている。一方で、図9(b)は「図2」を含む図表のみが記されている。このような両文書からなる文書群を処理対象とし、図10に示すような一枚の文書画面を生成してもよい。この図に示す文書画面では、上記実施形態のように同じ図番を含む文字列を図表とを隣り合わせて割り付けるのではなく、「図1」を含む図表の右隣に「図2」を含む図表を割り付け、更に、両図表の上には「図1」を含む文章の文字列を、両図表の下には「図2」を含む文章の文字列をそれぞれ割り付けてなる。このように割付態様を制御することで、本来であれば2ページに渡って表示されるべき文書群の内容を1ページに収めることができる。
【0034】
第1実施形態では、対応付けが成された文字列と図表の合計面積が残余面積よりも小さい場合、その文字列と図表のセットを新規な文書画面に割り付けるようになっていた。また、これを改善した第2実施形態では、合計面積を残余面積と一致させるべく、図表のサイズを縮小していた。これに対し、図表を縮小するのではなく、文字のフォントサイズをより小さいものに変更して割り付けることによって、文字列と図表の合計面積を狭小化してもよい。上記実施形態に示したように、テキストデータのファイルはフォントサイズの情報を内包しているので、この情報をより小さなフォントサイズの情報へ変更するステップを介在させることによって、係る変形例の導入は可能となる。
【0035】
また、図表を縮小するのではなく拡大してから割り付けるようにしてもよい。この種の変形例としては、例えば、図5に示したステップ390で合計面積を減じて得た残余面積が所定値を下回った場合に、ステップ380で割付位置を決定した図表の大きさを幾分拡大させることによって残余面積を埋め合わせ、以降の文字列や文書は別の1ページに相当する文書画面に割り付けるといったものが想定できる。このような変形例を構成することで、文書画面の表示領域をより有効に活用できる。
【0036】
文字列と対応付けられた図表は文書画面内に常に表示し続ける必要は無い。例えば、文字列のみが表示された状態で何らかのアクションを受けた後、対応付けられた図面が表示されるようにしてもよい。この種の変形例としては、図4の対応付け処理において同じ図番を含むテキストデータと図表画像データを対応付けたあと、図表画像データへのリンクが張られた図番を埋め込んだ文字列のみを文書画面に割り付けておき、その文書画面を表示した状態において、図番がクリックされると、対応する図表の画像を文書画面と一部が重なる別ウィンドウとして表示するといったものが想定できる。また、いわゆるNアップ出力によって隣り合う2ページ分の文書画像が同時に表示されるような画面構成とする場合、一方のページの文書画像に図番を含む文章の文字列を割り付けると共に、もう一方のページの文書画像に図表を割り付けるようにしてもよい。要するに、同じ図番を含む図表と文章の対応関係が一意に把握されるようなレイアウトで表示されるものであれば、図表と文章を表示するタイミングのずれや同じ画面として表示されるページ数の如何は問わない。
また、図表だけでなく、「注1」、「注2」などの文字列を冒頭に含む注釈や写真などを文章と対応付けてもよい。注釈の場合はこれをイメージデータとして切出したものを文章のテキストデータと対応付けてもよいし、注釈そのものをテキストデータに変換して対応付けを行ってもよい。
【図面の簡単な説明】
【0037】
【図1】文書画像処理装置のハードウェア構成を示すブロック図である。
【図2】CPUの論理的構成を示すブロック図である。
【図3】レイアウト解析処理を示すフローチャートである。
【図4】対応付け処理を示すフローチャートである。
【図5】レイアウト再構成処理を示すフローチャートである。
【図6】処理対象となる文書群である。
【図7】文書画面の一例を示す図である。
【図8】レイアウト再構成処理の内容を示すフローチャートである。
【図9】処理対象となる文書群である(変形例)。
【図10】文書画面の一例を示す図である。
【符号の説明】
【0038】
10…CPU、11…レイアウト解析部、12…OCR処理部、13…図表切出部、14…図番文字列探索部、15…図表/番号対応付け部、16…レイアウト再構成部、20…RAM、30…ROM、40…ハードディスク、50…コンピュータディスプレイ、60…マウス、80…通信インターフェース、90…画像データインターフェース
【特許請求の範囲】
【請求項1】
一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、
前記入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定手段と、
前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分手段と、
前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得手段と、
前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出手段と、
前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られる一連の文書画面を順次表示する表示手段と、
第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御手段と
を備えた文書画像処理装置。
【請求項2】
請求項1記載の文書画像処理装置において、
前記テキストデータへの変換を要しない情報は、図、表又は写真である
文書画像処理装置。
【請求項3】
請求項2記載の文書画像処理装置において、
前記割付制御手段は、
前記図、表又は写真を識別する番号を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ番号を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する
文書画像処理装置。
【請求項4】
請求項1記載の文書画像処理装置において、
前記テキストデータ取得手段は、
文字サイズを示すサイズ情報を前記テキストデータと併せて取得し、
前記割付制御手段は、
前記テキストデータが示す文字列を、当該テキストデータと併せて取得したサイズ情報が示す文字サイズで割り付けると共に、文書画面において前記文字列が割り付けられていない描画領域を特定し、前記割り付けた文字列に含まれるものと同じ識別子が検出された前記画像を前記特定した描画領域に収まる画像サイズに縮小又は拡大して割り付ける
文書画像処理装置。
【請求項5】
請求項1記載の文書画像処理装置において、
前記割付制御手段は、
前記切り出された画像を割り付けると共に、文書画面において前記画像が割り付けられていない描画領域を特定し、前記割り付けた画像に含まれるものと同じ識別子が検出された前記文字列を、その文字列のすべてが前記特定した描画領域に収まる文字サイズで割り付ける
文書画像処理装置。
【請求項6】
一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、
情報の表示手段と
を備えたコンピュータ装置に、
前記入力手段を介して入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定機能と、
前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分機能と、
前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得機能と、
前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出機能と、
前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られた一連の文書画面を前記表示手段へ順次出力する出力機能と、
第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御機能と
を実現させるプログラム。
【請求項7】
一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、
情報の表示手段と
を備えた装置による文書画像処理方法であって、
前記入力手段を介して入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定工程と、
前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分工程と、
前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得工程と、
前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出工程と、
前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られた一連の文書画面を前記表示手段へ順次出力する出力工程と、
第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御工程と
を有する文書画像処理方法。
【請求項1】
一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、
前記入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定手段と、
前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分手段と、
前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得手段と、
前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出手段と、
前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られる一連の文書画面を順次表示する表示手段と、
第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御手段と
を備えた文書画像処理装置。
【請求項2】
請求項1記載の文書画像処理装置において、
前記テキストデータへの変換を要しない情報は、図、表又は写真である
文書画像処理装置。
【請求項3】
請求項2記載の文書画像処理装置において、
前記割付制御手段は、
前記図、表又は写真を識別する番号を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ番号を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する
文書画像処理装置。
【請求項4】
請求項1記載の文書画像処理装置において、
前記テキストデータ取得手段は、
文字サイズを示すサイズ情報を前記テキストデータと併せて取得し、
前記割付制御手段は、
前記テキストデータが示す文字列を、当該テキストデータと併せて取得したサイズ情報が示す文字サイズで割り付けると共に、文書画面において前記文字列が割り付けられていない描画領域を特定し、前記割り付けた文字列に含まれるものと同じ識別子が検出された前記画像を前記特定した描画領域に収まる画像サイズに縮小又は拡大して割り付ける
文書画像処理装置。
【請求項5】
請求項1記載の文書画像処理装置において、
前記割付制御手段は、
前記切り出された画像を割り付けると共に、文書画面において前記画像が割り付けられていない描画領域を特定し、前記割り付けた画像に含まれるものと同じ識別子が検出された前記文字列を、その文字列のすべてが前記特定した描画領域に収まる文字サイズで割り付ける
文書画像処理装置。
【請求項6】
一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、
情報の表示手段と
を備えたコンピュータ装置に、
前記入力手段を介して入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定機能と、
前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分機能と、
前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得機能と、
前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出機能と、
前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られた一連の文書画面を前記表示手段へ順次出力する出力機能と、
第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御機能と
を実現させるプログラム。
【請求項7】
一又は複数の段組で情報が記された文書の文書画像を入力する入力手段と、
情報の表示手段と
を備えた装置による文書画像処理方法であって、
前記入力手段を介して入力された文書画像から、各段組構成要素の描画領域を夫々特定する特定工程と、
前記各段組構成要素の描画領域の画調を基に、それらの各描画領域を、テキストデータへの変換を要する情報が記された第1の領域とテキストデータへの変換を要しない情報が記された第2の領域とに区分する区分工程と、
前記第1の領域に区分された各描画領域内の画像を解析してテキストデータを夫々取得するテキストデータ取得工程と、
前記第2の領域に区分された各描画領域内の画像を前記文書画像から夫々切り出す切出工程と、
前記テキストデータが示す文字列と前記切り出した画像とを割り付けて得られた一連の文書画面を前記表示手段へ順次出力する出力工程と、
第1の領域に記された情報と第2の領域に記された情報との対応付けを示す所定の識別子を前記取得されたテキストデータが示す文字列及び前記切り出された画像から検出し、同じ識別子を含む文字列と画像とを同時に表示させるべく前記各文書画面における割り付けの態様を制御する割付制御工程と
を有する文書画像処理方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2006−11746(P2006−11746A)
【公開日】平成18年1月12日(2006.1.12)
【国際特許分類】
【出願番号】特願2004−186865(P2004−186865)
【出願日】平成16年6月24日(2004.6.24)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成18年1月12日(2006.1.12)
【国際特許分類】
【出願日】平成16年6月24日(2004.6.24)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]