説明

入力画像を分析する方法、入力画像を分析する装置およびコンピューター読み取り可能な媒体

【課題】メモリーに記憶されたデジタル化画像またはスキャナーからスキャンされた画像の1つである入力画像を分析する方法及び装置を提供すること。
【解決手段】入力画像を複数のピクセルのブロックに分割することにより入力画像から特徴画像を形成し、それにより入力画像における各ピクセルのブロックを特徴画像における1つのピクセルに結び付け、特徴画像をさらなる分析またはメモリーに記憶するために出力する。文書画像から特徴を抽出して分析することによりページ領域、歪み領域、および書物の背領域に結び付いて特定の特徴を検出する。抽出された特徴をさらに分析して段落、行、言葉、および文字レベルにおける文書の特徴を検出することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は文書のスキャンおよび特に書物のスキャンに関する。
【背景技術】
【0002】
書物のページをスキャンした画像はスキャンにより生成される3種類の歪みをしばしば有する。スキャンの方向に対し書物がスキャン面の上に伏せられた時の配向および面上における書物の背の隆起により、これら3種類の歪みは異なるレベルで出現する。図1に示すように、書物の背がスキャン面の上にある場合、スキャンされた画像は通常画像において背に近いところに影を有する。他の2種類の歪みは同じ理由から起こるが、「平行スキャン状況」と呼ばれる、背がスキャナーのセンサーバーに平行してスキャンされる場合にのみ起こる。この場合、ページ画像は背に向かって絞られ、その結果背により近いテキストは薄くなり見分けにくくなる(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許第6307962号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
この「絞り」歪みに加えて、背に近いテキストはさらにページの中央に向かい曲がる。この主の歪みは本明細書において「湾曲歪み」と呼ばれる。上述の歪みは画像の影響された部分の視覚的な読み易さに影響を与えるのみならず、スキャンされた視覚的情報を対応するテキストに変換するのに通常用いられる自動光学式文字認識(OCR)方法の失敗の原因となる。本発明はデジタル文書分析に関し、スキャンされた書物に適用されると、このような分析はページ領域、ページ配向、テキスト領域、および書物の背など、スキャンされた文書の特徴の検出に用いることができるものを提供することを目的とする。
【課題を解決するための手段】
【0005】

【0006】

【0007】

【0008】

【0009】

【0010】

【0011】

【0012】

【0013】
また、本発明の入力画像を分析する方法において、前記プロセッサーは前記オブジェクトを分析し前記オブジェクトの高さを前記オブジェクトの幅と比較して前記入力画像xにおけるページ配向を検出することを特徴とする。
【0014】
また、本発明の入力画像を分析する方法において、前記プロセッサーは前記オブジェクトを分析して前記入力画像xにおける書物の背を検出することを特徴とする。
【0015】

【0016】

【0017】

【0018】

【0019】
また、本発明の入力画像を分析する装置において、前記画像取り込み部はスキャン部であることを特徴とする。
【0020】

【0021】

【0022】

【0023】

【0024】

【図面の簡単な説明】
【0025】
【図1】背がスキャナーのセンサーバーに平行している厚い書物を示す図である。
【図2】本発明を利用する画像取り込み装置およびシステムの全般的ブロック図である。
【図3】本発明の全般的方法のフローチャートを示す図である。
【発明を実施するための形態】
【0026】
本発明の概要としては以下となる。すなわち、本発明はデジタル化またはスキャンされた文書画像を分析する方法および装置を提供するものであり、本発明はブロックに基づく処理を用いて文書画像の背景および前景の空間特性を示す2チャンネルの特徴画像を作成する。この特徴画像に基づき検出アルゴリズムをデザインしてページ領域、ページ配向、テキスト領域、および書物の背を検出する。
【0027】
より具体的に、スキャンされた書物の画像は特徴画像を用いて区分され、ページ領域に対応するピクセルをマップしてページオブジェクトを作成する。ページオブジェクトは例えばページ配向を判定し書物の背を検出するのに用いられる。
本発明はそのコンポーネントを用いてさまざまな拡張および分割化ソリューションを構築できるので、デジタル文書画像処理および操作用のスキャナーおよび画像ソフトウェアに適用される。
【0028】
発明のより完全な理解とともに他の目的および達成は添付図面と併せて以下の説明およびクレームを参照することにより明らかになり、理解されよう。
【0029】
以下の詳細な説明において、例示として発明の実施形態例を示す添付図面が参照される。図面において、各々の図を通し類似した数字は実質的に類似した部分を説明する。これらの実施形態は当業者が発明を実施し得るよう充分に詳しく説明される。本発明の範囲から逸脱することなく他の実施形態も利用することができ、構造的、論理的、および電気的な変更もなすことができる。さらに、発明のさまざまな実施形態は異なっていても、必ずしも互いに排他的ではないことが理解されよう。例えば、1つの実施形態において記述される特定の特徴、構造、または特質は他の実施形態内に含まれ得る。従って以下の詳細な説明は限定的な意味で捉えるものではなく、本発明の範囲は添付クレーム、およびこれらのクレームに与えられる全範囲の等価物によってのみ定義される。
【0030】
一般的に、実施形態例は画像、特にデジタル化またはスキャンされた文書、から特徴を抽出する方法、装置、およびコンピューター読み取り可能な媒体に関する。次にこれら抽出された特徴は例えばページ領域、歪み、および書物の背を検出するために文書を分析するのに用いることができる。
【0031】
実施形態例はデジタル化またはスキャンされた画像から特徴を抽出し、特定の特質を検出するために文書を分析する。ページ領域、歪み領域、および書物の背領域を示すこれらの特質は次にさらなる画像分析および補正用に出力することができる。本発明の一部ではないが、このような補正は強度およびねじれの補正を含むことができる。発明と一貫している方法は中でもフラットベッドスキャナーなどの画像取り込み装置とともにプリンタードライバーまたは画像編集ソフトウェアを含むソフトウェアモジュールにおいて実施されることができる。
【0032】
これらの方法はコンピューター実行可能な命令またはデータ構造を保存して搭載または有する非一時的なコンピューター読み取り可能な媒体を用いて実施することができる。このようなコンピューター読み取り可能な媒体は汎用または特殊用途のコンピューターのプロセッサーによりアクセスできる任意の入手可能な媒体であって良い。限定ではなく例として、このようなコンピューター読み取り可能な媒体はRAM、ROM、EEPROM、CD‐ROMもしくは他の光ディスク記憶、磁気ディスク記憶もしくは他の磁気記憶装置、またはコンピューター実行可能な命令またはデータ構造の形でプログラムコードを搭載または記憶するのに用いることができ、汎用または特殊用途のコンピューターのプロセッサーによりアクセスできる他の任意の媒体を含み得る。上記の組み合わせもコンピューター読み取り可能な媒体の範囲に含めるべきである。
【0033】
コンピューター実行可能な命令は例えば汎用コンピューターまたは特殊用途のコンピューターのプロセッサーに特定の機能または機能のグループを実施させる命令およびデータを有する。本明細書において要旨は方法行為固有の言葉で説明されているが、添付クレームで定義される要旨は必ずしも本明細書に説明される具体的な行為に限定されないことが理解されよう。むしろ、本明細書に説明される具体的な行為はクレームを実施する形態例として開示される。
【0034】
特殊用途のコンピューターの例はデジタルカメラ(例としては長野県諏訪市大和に本社を置くセイコーエプソン(株)製のデジタルカメラR‐D1が含まれるが、これに限定されない)、デジタルカムコーダー、プロジェクター、プリンタースキャナー、コピー機、携帯フォトビューアー(例としてはセイコーエプソン(株)製のEpson P‐3000またはP‐5000携帯フォトビューアーを含むがこれらに限定されない)、または携帯映画プレイヤー、またはプリンター/スキャナー/コピー機の組み合わせ(または「オール・イン・ワン」(例としてはセイコーエプソン(株)製のEpson Stylus Photo RX580、RX595、またはRX680、Epson Stylus CX4400、CX7400、CX8400、またはCX9400Fax、およびEpson AcuLaser(登録商標)CX11NFが含まれるが、これらに限定されない)、またはプリンター/スキャナーの組み合わせ(例としてはすべてセイコーエプソン(株)製のEpson TM‐J9000、TM‐J9100、TM‐J7000、TM‐J7100、およびTM‐H6000IIIが含まれるが、これらに限定されない)、またはデジタルカメラ/カムコーダーの組み合わせなどこれらの何らかの組み合わせのような画像処理装置を含む。画像処理装置は例えば画像から特徴を抽出し、次に抽出された特徴を用いて画像を分析する特徴抽出機能を含むことができる。例えば、この特徴抽出および分析機能を有するフラットベッドスキャナーなどの画像取り込み装置は方法例300を実施する1つ以上のコンピューター読み取り可能な媒体を含むことができる。あるいは、画像取り込み装置に接続されるコンピューターが方法例300を実施する1つ以上のコンピューター読み取り可能な媒体を含むことができる。
【0035】
図2に画像取り込み装置例200の概略図を示す。画像取り込み装置例200は介在インターフェイス202経由でホストコンピューター250とデータを交換する。ホストコンピューター250上のアクセスのためにアプリケーションプログラムおよび画像取り込みドライバーも記憶されることができる。例えば画像検索命令がアプリケーションプログラムから受信されると、画像取り込み装置ドライバーは命令データの画像取り込み装置200向けに適したフォーマットへの転換を制御し、転換された命令データを画像取り込み装置200に送信する。トライバーはさらにさまざまな信号およびデータを画像取り込み装置200から受信し解釈し、ホストコンピューター250経由でユーザーに必要な情報を提供する。
【0036】
ホストコンピューター250からデータが送信されると、インターフェイス202はデータを受信し、RAM204の一部を形成する受信バッファーに記憶する。RAM204は例えばアドレス指定を通していくつかの部分に分け、受信バッファーまたは送信バッファーなどの異なるバッファーとして割り当てることができる。デジタル画像データなどのデータも画像取り込み装置200により取り込み機構212、フラッシュEEPROM210、またはROM208から得ることができる。例えば、取り込み機構212は書物などの出所文書をスキャンすることによりデジタル画像を生成することができる。このデジタル画像を次にRAM204の受信バッファーまたは送信バッファーに記憶することができる。
【0037】
プロセッサー206は例えばROM208上またはフラッシュEEPROM210上に記憶されたコンピューター実行可能な命令を用いて例えば本発明の方法など特定の機能または機能のグループを実施する。RAM204の受信バッファーにおけるデータが例えばデジタル画像である場合、プロセッサー206は本発明の方法における方法行為をデジタル画像に対し実施し、デジタル画像における特徴を抽出し、さらに抽出された特徴に基づき画像を分析することができる。次に画像が例えばLCDディスプレイなどのディスプレイ214上で表示される前にデジタル画像に対しさらに画像化パイプラインにおいて処理を実施し、またはプリンター262で印刷するためにホストコンピューター250に転送し、または例えばプロジェクター264で投影し、またはハードディスク260に記憶することができる。
【0038】
次に図3に関連して画像における特徴を抽出し、さらに抽出された特徴に基づき画像を分析する方法例300を考察する。方法300を実施する前に、さまざまな処理操作用に入力画像を的にすることができる。入力画像はグレースケール画像、バイナリー画像、デジタルカラー画像、またはカラー画像のデジタル化もしくはスキャンされたものであることができる。方法300が実施される前に入力画像に対しさまざまな画像処理手法を適用することができる。
【0039】
理解を容易にするために、以下の考察は次の項に分けられる。
A.入力画像
B.特徴画像の形成
C.特徴画像の分析および分割
D.ページ領域、ページ配向、およびテキスト領域の検出
E.書物の背の検出、および
F.まとめの考察。
【0040】
A.入力画像

【0041】
B.特徴画像の形成
スキャナーは通常スキャン領域の表面全体をスキャンし、スキャナーの表面におけるスキャンされた文書のサイズおよび位置双方とも相当変化し得るので、本発明は特徴抽出(図3、ステップ304)を用いて後の分析用に特徴画像を形成する。スキャンプロセスの際デジタル化された文書画像に導入されるさまざまなスキャンの欠点および雑音に対し頑強さを達成するために、本発明は入力画像をブロック毎に処理する。

【0042】

【0043】

【0044】
C.特徴画像の分析および分割
分析の目的および意図される用途双方により、上述の特徴抽出手順は特定寸法の特徴画像または1つ以上の特徴画像を形成するのに用いることができる。

【0045】

【0046】

【0047】

【0048】

【0049】
D.ページ領域、ページ配向、およびテキスト領域の検出(ステップ314、図3)

従って、例えばオブジェクトのサイズおよび形状などのさまざまな幾何学的制約といった単純な制約のセットを用いて望ましくないオブジェクトを検討から外すことができる。このような幾何学的制約の具体的な形式は分割化の目標(例、テキストのページ領域の分割化対文字の分割化)および実施ストラテジーによりかなり異なることができる。例えば、本発明の用途の1つであるテキストのページ領域の検出の目的において、目標は小さなオブジェクトおよび不規則なアスペクト比の境界箱を有するオブジェクトを取り除くことが目標である。
【0050】

【0051】
これらのパラメーターは望まれる性能を達成するよう予め決定することができ(例えばスキャン装置の較正においてまたは画像ソフトウェアの最適化の際)またはオブジェクトのセットから適応的に決定することができる(例えば、すべての分割化オブジェクトにわたる平均または加重平均としてで、より大きい加重はより大きいオブジェクトに結び付いている)。
方程式(5)における1つ以上の条件を満足するオブジェクトはオブジェクトリストから取り除かれ、これはバイナリーマップdにおける対応ピクセルd(m,n)をゼロに設定することを伴うことができる。方程式(5)は実施例であり、本発明は上述の実施形態に限定されないことが特記される。
【0052】

【0053】
一旦オブジェクト除去ステップが完了すると、更新されたオブジェクトのセットは通常望ましいオブジェクトのみで構成される。スキャンされた書物文書の場合、結果はスキャンされたページの数により常に1つまたは2つのオブジェクトである。分割化の結果が2つのオブジェクトの場合、ページ配向はこれらのオブジェクトの相対的位置および/または寸法に基づき判定することができる。結果は1ページのみの場合、ページ配向はオブジェクトの高さと幅を比較することにより判定することができる。疑わしい場合および/またはページ分割化およびページ配向検出結果の確認の目的から、ページ領域の代わりにページのテキスト領域を検出することができる。
【0054】

【0055】
E.書物の背の検出(ステップ316、図3)

【0056】

【0057】

【0058】
F.まとめの考察

【0059】
いくつかの特徴画像を作成する必要がある場合、演算上効率的な方法はまず最も大きい目標寸法の特徴画像を作成し、次により大きい特徴画像から別の(より小さい)特徴画像を作成することである。他の特徴画像の目標寸法により、この方法を反復的に繰り返し特徴画像のピラミッドをもたらすことができる。
【0060】
いずれの特徴画像も2つのチャンネルのいずれかにおける異常値を排除するために分析の前に低域通過フィルターを用いて向上させることができる。ページ配向が分かっている場合、望まれる向上は方向(例えば垂直または水平)フィルターを用いて実現することができる。
【0061】
前景ピクセルが例えば画像ヒストグラムから容易に判定できるように背景ピクセルより高い強度を示す場合、元の文書画像の逆のものを作成し提案される方法の入力として使用する必要がある。
【0062】
最後に、本明細書はグレースケール画像の実施形態のみを呈示しているが、本発明に提案される枠組みはバイナリーおよびカラー画像にも容易に採用できる。バイナリー画像の場合、提案される枠組みの適用は簡単である。カラー画像の場合いくつかの方法が可能である。例えば、1つは3成分の色データを単一の値に変換し(例、カラーからグレースケールの転換を用いて)、次にこのようなスカラーデータをグレースケールまたはバイナリーデータと同じように処理することである。別の可能性は提案された枠組みを3つの色チャンネルの各々に成分毎の方法で別個に適用し、次に中間結果を組み合わせることである。
【0063】
発明はいくつかの具体的な実施形態と併せて説明されたが、当業者であれば前述の説明に照らしさらに多くの代替、改変、および変形が明らかになることは明白であろう。従って、本明細書に説明される発明は添付クレームの精神および範囲に入るこのような代替、改変、用途、および変形のすべてを包含することが意図される。
【符号の説明】
【0064】
200・・・画像取り込み装置例、202・・・インターフェイス、204・・・RAM、206・・・プロセッサー、208・・・ROM、210・・・フラッシュEEPROM、212・・・取り込み機構、214・・・ディスプレイ、250・・・ホストコンピューター、260・・・ハードディスク、262・・・プリンター、264・・・プロジェクター。

【特許請求の範囲】
【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】
前記プロセッサーは前記オブジェクトを分析し前記オブジェクトの高さを前記オブジェクトの幅と比較して前記入力画像xにおけるページ配向を検出する請求項7に記載の入力画像を分析する方法。
【請求項10】
前記プロセッサーは前記オブジェクトを分析して前記入力画像xにおける書物の背を検出する請求項7に記載の入力画像を分析する方法。
【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】
前記画像取り込み部はスキャン部である請求項11に記載の入力画像を分析する装置。
【請求項16】

【請求項17】

【請求項18】

【請求項19】

【請求項20】


【図2】
image rotate

【図3】
image rotate

【図1】
image rotate


【公開番号】特開2012−212425(P2012−212425A)
【公開日】平成24年11月1日(2012.11.1)
【国際特許分類】
【出願番号】特願2012−34850(P2012−34850)
【出願日】平成24年2月21日(2012.2.21)
【出願人】(000002369)セイコーエプソン株式会社 (51,324)
【Fターム(参考)】