画像処理方法、画像処理装置、およびプログラム

【課題】画像中のメインの被写体である代表文字列領域に対して、代表文字列領域以外の文字列情報を欠落させずに再利用する。
【解決手段】代表文字列領域抽出手段が、入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出工程と、非代表文字列領域抽出手段が、入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出工程と、関連付け手段が、前記非代表文字列領域抽出工程において抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け工程と、保持手段が、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持工程とを有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理方法、画像処理装置、およびプログラムに関するものである。
【背景技術】
【０００２】
近年、名刺、はがき、ホワイトボード、ポスターなど、矩形の文字領域を斜め方向から撮影し、文字領域の歪みを補正した画像をファイリングする、或いは画像から文字認識処理を行って画像内の文字情報を再利用する手法が提案されている。例えば、ホワイトボードに書かれた会議記録をビデオカメラで取り込み、ホワイトボードに書き込まれた内容を分離して電子データとして記憶する技術がある（特許文献１）。
【０００３】
また、デジタルカメラで取り込んだ文書画像から文書画像領域を切り出して歪み補正画像を生成し、生成した画像の輝度情報を元に画像種類の判定を行い明度補正などの画像効果パラメータを適切に選択して画像補正を行う技術がある（特許文献２）。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００５−２５３０６７号公報
【特許文献２】特開２００５−１２２３１９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記従来の技術では、特徴の異なる画像に対して同等な電子ファイル生成処理を行うため、メインの被写体である代表文字列外にある文字情報が欠落してしまい、代表文字列領域に関連のある文字を有効利用することができなかった。
【０００６】
本発明は、上記のような従来技術の問題を解消するためになされたものであり、撮影した画像中に存在する代表文字列領域と代表文字列領域以外の文字列を適切に関連付けることにより、情報の欠落を防止し、文字情報の再利用性を向上させることを目的とする。
【課題を解決するための手段】
【０００７】
上記の問題を解決するために、本発明は、以下の構成を有する。文字を含む画像中の文字領域の歪みを検出し、検出した歪みを補正した文字列領域に含まれる情報を保持する画像処理方法であって、代表文字列領域抽出手段が、入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出工程と、非代表文字列領域抽出手段が、入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出工程と、関連付け手段が、前記非代表文字列領域抽出工程において抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け工程と、保持手段が、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持工程とを有する。
【発明の効果】
【０００８】
本発明により、入力画像中に存在する重要な文字列を文書領域と関連付けて検索等に再利用することが可能となる。
【図面の簡単な説明】
【０００９】
【図１】本発明に係るシステムのブロック図。
【図２】本発明に係る処理の流れを示すフローチャートの図。
【図３】本発明に係る処理の流れを示すフローチャートの図。
【図４】本発明に係る台形歪み補正処理の例を示す図。
【図５】本発明に係る処理の流れを示すフローチャートの図。
【図６】本発明に係る処理の流れを示すフローチャートの図。
【図７】本発明に係る処理の流れを示すフローチャートの図。
【図８】本発明に係る消失点スコア算出式を示す図。
【図９】本発明に係る相対位置スコア算出の例を示す図。
【図１０】本発明に係る距離スコア算出の例を示す図。
【図１１】本発明に係るメタデータ格納方法の例を示す図。
【図１２】本発明に係る処理の流れを示すフローチャートの図。
【図１３】本発明に係る処理の流れを示すフローチャートの図。
【図１４】本発明に係る入力画像のイメージを示す図。
【発明を実施するための形態】
【００１０】
［システム構成］
図１は、本発明を適用可能なシステムのブロック図である。ＣＰＵ１０１は、ＲＯＭ１０２に格納されている制御プログラムを実行することにより本装置全体の制御を行う。ＲＯＭ１０２は、ＣＰＵ１０１が実行するプログラムや各種パラメータを格納する。プログラムは、ＲＯＭ１０２から読み出され、ＣＰＵ１０１で実行されることにより、後述するフローチャートに示す各処理を実行するための各種手段として、当該装置を機能させる。
【００１１】
ＲＡＭ１０３は、処理対象となる画像や各種データを記憶する。また、格納されたプログラムは展開され、ＣＰＵ１０１によって実行される。記憶装置１０４は、本発明の処理対象となる画像データや出力電子ファイルを格納する。画像入力装置１０５は、デジタルカメラなど、本発明の処理対象となる画像が入力される。画像出力装置１０６は、本発明の各処理部にて処理された画像を外部に出力する。
【００１２】
デジタルカメラなどの画像入力装置１０５から入力された文書画像は、ハードディスクなどの記憶装置１０４に一時記憶される。文書画像は、ＲＡＭ１０３に展開された処理プログラムによって、画像処理を施され、処理結果が再びハードディスクなどの記憶装置１０４に記憶される。
【００１３】
なお、本実施形態では後述するフローチャートの各ステップに対応する処理は、コンピュータ（ＣＰＵ）を用いてソフトウェアで実現しているが、その処理の一部又は全部を電子回路などのハードウェアで実現するようにしても良い。
【００１４】
［文字列領域関連付け処理］
図２〜図５を参照して、本発明の文字列領域関連付け方法について説明する。図２は、本発明の文字列領域関連付け方法の一実施例の全体系を示す処理フローチャートである。本処理フローも特に記載している場合を除き、ＣＰＵ１０１が実行しているものとする。Ｓ２０１では、撮像装置で撮影された画像が入力され、記憶部に読み込まれる。Ｓ２０２では、Ｓ２０１で入力された画像が文字を含む文書画像であるか、文字を含まない自然画であるかを判定する。文書画像であるか否かを判定する際に、用いられる画像データから文字を抽出する方法に関しては、例えば特開２００２−０４２０５５号公報「カラー文書からの文字認識方法」などを用いることができる。Ｓ２０３では、Ｓ２０２で判定した画像が文書画像であるか自然画であるかによって分岐する。文書画像であれば（Ｓ２０３にてＹＥＳ）、Ｓ２０４へ進む。文書画像でなければ（Ｓ２０３にてＮＯ）、Ｓ２０７へ進む。
【００１５】
Ｓ２０４では、Ｓ２０１で入力された文書画像から名刺やホワイトボードなどの代表文字列領域と、それ以外の文字列領域を区別し、複数の文字列領域を抽出する。文字列領域抽出は、まず画像中に存在する複数の文字列領域を抽出し、その中から画像の主被写体であると推定される代表文字列領域を決定する処理を行う。Ｓ２０４における文書領域抽出処理の詳細については、図３を用いて後に説明する。
【００１６】
Ｓ２０５では、Ｓ２０４で抽出した代表文字列領域の歪みを補正したテキスト画像を生成する。抽出された代表文字列領域の枠を利用して画像全体の歪みを補正することで、代表文字列領域内に存在する文字の歪みを補正することができる。歪み補正技術としては透視変換などによる台形歪み補正技術が知られており、例えば特開２００８−２５７７１３号公報「透視変換歪み発生文書画像補正装置および方法」により文字領域枠を台形歪みとした画像補正が可能である。
【００１７】
Ｓ２０６では、Ｓ２０５で歪みが補正された代表文字列領域のテキスト画像に対して非代表文字列領域をメタデータとして付与する。ここで、元の入力画像の代表文字列領域と非代表文字列領域の位置関係から、非代表文字列領域の、代表文字列領域に対する関連度を算出して電子ファイルのメタデータとして保持する。Ｓ２０６の詳細については図５を用いて後で説明する。Ｓ２０７では、Ｓ２０６で生成した画像／ファイルを出力する。以上の流れにより、本発明における処理を行う。
【００１８】
［文書領域抽出処理］
図３は、図２のＳ２０４文書領域抽出処理の詳細フローチャートである。本処理フローも特に記載している場合を除き、ＣＰＵ１０１が実行しているものとする。ここでは、まず入力画像中に存在する複数の文字列を抽出し、抽出した文字列が、画像の主被写体である代表文字列領域か、それ以外の非代表文字列領域かを判定する。
【００１９】
Ｓ３０１では、図２のＳ２０３で文書画像であると判定された画像を読み込む。図１４に入力画像のイメージを示す。図１４は、展示会のポスターを斜め方向から撮影した画像１４００の例を示している。画像１４００には、ポスター本体であり領域ｂとして示された文字領域１４０２、ポスターのタイトルであり領域ａとして示された文字領域１４０１、その他画像に写り込んだ文字オブジェクトであり領域ｃ、ｄで示された文字領域１４０３、１４０４が存在する。
【００２０】
Ｓ３０２では、入力画像から複数の文字列領域を抽出する。入力画像から文字列領域を抽出する方法は、特開２００４−９６４３５号公報「画像解析装置、画像解析方法、および画像解析プログラム」あるいは、特開２００６−１０７０１８号公報「画像解析方法及び装置、画像処理方法及びシステム、これらの動作プログラム」などを用いて抽出することができる。このステップで図１４に含まれる文字領域１４０１，１４０２，１４０３，１４０４が抽出される。
【００２１】
Ｓ３０３では、Ｓ３０２で抽出した文字列領域から１つを取得する。Ｓ３０４では、画像中の文字列領域の位置を判定する。図４のように抽出された文字領域の４つの頂点Ｐ１，Ｐ２，Ｐ３，Ｐ４の座標と、画像中央の座標を比較する。ここで画像中央とは、図１４における画像１４００の対角線の交点である。Ｓ３０５では、Ｓ３０４において、文字列領域が画像の中央を含むか否かを判定して分岐する。取得した文字列領域が画像中央の座標を含む位置に存在すれば（Ｓ３０５にてＹＥＳ）Ｓ３０６へ、含まなければ（Ｓ３０５にてＮＯ）Ｓ３０９へ進む。
【００２２】
Ｓ３０６では、入力画像中の文字列領域の面積を判定する。文字領域の面積は、図４（ａ）における文字領域枠の４つの頂点Ｐ１，Ｐ２，Ｐ３，Ｐ４の内部に存在する画素数により求める。Ｓ３０７では、Ｓ３０６により得られた文字列領域の面積が所与の閾値より大きいか否かを判定する。閾値よりも大きければ（Ｓ３０７にてＹＥＳ）Ｓ３０８へ、小さければ（Ｓ３０７にてＮＯ）Ｓ３０９へ進む。
【００２３】
Ｓ３０８では、画像の中央かつある閾値よりも面積比が大きいと判定された文字列領域を画像の被写体であるポスターやホワイトボードなどの代表文字列領域として設定する。Ｓ３０９では、取得した文字列領域を画像の中央を含まない、あるいは面積が小さい文字列領域を被写体でない非代表文字列領域として設定する。Ｓ３１０では、全ての文字列領域について、いずれの文字列領域であるかを調べたか否かを判定する。全ての文字列領域に対し、調べたならば（Ｓ３１０にてＹＥＳ）終了する。また、まだ調べていない文字列領域があれば（Ｓ３１０にてＮＯ）Ｓ３１１へ進み、次の文字列領域を取得してＳ３０４へ戻る。
【００２４】
以上の処理により、画像から文字列領域を抽出し、抽出された文字列領域に対し、代表文字列領域抽出と非代表文字列領域抽出を行って分類する。図１４の例では、文字領域１４０２が代表文字列領域と、文字領域１４０１，１４０３，１４０４が非文字列領域と判定される。
【００２５】
［歪み補正処理］
図４は、Ｓ２０５における歪み補正画像の生成を説明するための図である。図４（ａ）は、入力した画像に対し、図２のＳ２０４で抽出した文書領域境界線の４つの頂点、ｐ１（ｘ１，ｙ１）、ｐ２（ｘ２，ｙ２）、ｐ３（ｘ３，ｙ３）、ｐ４（ｘ４，ｙ４）で囲まれた部分画像を切り出し、図４（ｂ）の画像を生成する。次に、切り出した文字領域枠４０１から水平方向の辺を延長した線４０２、４０３から水平方向の消失点４０４を求める。同様に、文字領域枠４０１の垂直方向の辺を延長した線４０５、４０６から垂直方向の消失点４０７を求める。
【００２６】
上記の処理によって求めた消失点により逆透視変換を行い、文字領域枠を補正することによって図４（ｃ）のような長方形の文字領域を有する画像を生成する。図４（ａ）の歪みのある文字領域の４つの頂点ｐ１（ｘ１，ｙ１）、ｐ２（ｘ２，ｙ２）、ｐ３（ｘ３，ｙ３）、ｐ４（ｘ４，ｙ４）が、それぞれｐ１’（ｘ１’，ｙ１’）、ｐ２’（ｘ２’，ｙ２’）、ｐ３’（ｘ３’，ｙ３’）、ｐ４’（ｘ４’，ｙ４’）の長方形の頂点に対応するように補正される。
【００２７】
［関連度付きメタデータ付与処理］
図５は、図２のＳ２０６を詳細化した処理のフローチャートである。本処理フローも特に記載している場合を除き、ＣＰＵ１０１が実行しているものとする。Ｓ５０１では、図２のＳ２０５で歪み補正された代表文字列領域を含む文書画像を入力する。Ｓ５０２では、Ｓ５０１で入力された文書画像に対してＯＣＲ処理を行い、文字を抽出する。Ｓ５０３では、Ｓ５０１で入力された文書画像に対して非代表文字列領域をメタデータとして付与する。Ｓ５０３の詳細は図６を用いて詳細に説明する。Ｓ５０４では、文書画像を出力する。ここで文書画像は、ビットマップ画像として出力される。
【００２８】
図６は、図５のＳ５０３の処理を詳細化したフローチャートである。本処理フローも特に記載している場合を除き、ＣＰＵ１０１が実行しているものとする。Ｓ６０１では、図３で示した処理の中で、入力された代表文字列領域と同じ画像から抽出された複数の非代表文字列領域のうちの１つを取得する。Ｓ６０２では、Ｓ６０１で選択した非代表文字列領域と代表文字列領域との関連度を算出する。関連度算出の詳細については図７を用いて説明する。Ｓ６０３では、Ｓ６０１で選択した非代表文字列領域を代表文字列領域から生成した文書画像のメタデータとして格納する。Ｓ６０４では、画像中の全ての非代表文字列領域について調べたかどうか判定する。全てを調べていないならば（Ｓ６０４にてＮＯ）、Ｓ６０５へ進み次の非代表文字列領域を取得する。そして、Ｓ６０２へ戻る。全ての非代表文字列領域を調べ終わったならば（Ｓ６０４にてＹＥＳ）、終了する。
【００２９】
ここで図１１を用いて、図６のＳ６０３にて用いられるメタデータの格納方法を説明する。図１１（ａ）は、非代表文字列領域と代表文字列領域とから生成した文書画像との関連度を格納するテーブルである。図１１の構造は、リレーショナルデータベース内の検索インデックスとして保持する。
【００３０】
カラム１１０１には、非代表文字列ＩＤを格納する。検索対象となる全ての文書画像に対する非代表文字列領域に対して一意に識別可能なＩＤを付与して格納する。カラム１１０２は、カラム１１０１に格納されたそれぞれの非代表文字列領域が関連付けられている文書ＩＤである。図１１では、撮影画像から本発明の処理で歪み補正を行って生成した文書画像１に対して非代表文字列領域１及び２が対応付けられている。カラム１１０３は、Ｓ６０２で算出された、カラム１１０２に格納されている文書とカラム１１０１に格納されている非代表文字列領域との関連度を示している。ここで、関連度は、０から１の間の値をとり、１が関連度最大となるように正規化する。
【００３１】
図１１（ｂ）は、検索キーワードと非代表文字列領域との対応付けを格納するためのテーブルである。カラム１１０４には、検索対象となる文書及び非代表文字列領域から抽出したキーワードＩＤを格納する。キーワードは、文書に形態素解析を適用して単語を抽出し、出現頻度の高いものを抽出して一意に識別可能なキーワードＩＤを付与され、対応するキーワードの文字列をカラム１１０５に格納する。
【００３２】
カラム１１０６は、カラム１１０１に格納されているものと同じ非代表文字列領域であり、カラム１１０４のキーワードが含まれている非代表文字列領域を列挙する。カラム１１０７は、文書ＩＤであり、カラム１１０４のキーワードが含まれている文書を列挙する。図１１（ｂ）の構造により、検索キーワードから文書及び非代表文字列領域を検索することが可能となる。
【００３３】
なお、ここで挙げたメタデータの格納方法については、あくまで一例であり、検索に用いられる他の方法、構成で格納されてもよい。
【００３４】
［関連度算出処理］
図７は、図６のＳ６０２における代表文字列領域との関連度算出処理の詳細を表すフローチャートである。本処理フローも特に記載している場合を除き、ＣＰＵ１０１が実行しているものとする。ここで非代表文字列領域の代表文字列領域に対する関連度は、例えば次のような基準により決定される。
【００３５】
（ａ）非代表文字列領域の消失点が代表文字列領域の消失点に近いほど高い。つまり、２つの文字オブジェクトが同一平面上にある場合に関連度が高いと推定する。
【００３６】
（ｂ）非代表文字列領域の代表文字列領域に対する相対的位置関係においてが上部にあるものの関連度が高い。
【００３７】
（ｃ）代表文字列領域の近傍にある非代表文字列領域の関連度は高い。
【００３８】
Ｓ７０１では、消失点スコアを算出する。ここでの消失点スコアとは、上記（ａ）の基準により定められる関連度を示すスコアである。
【００３９】
図８において消失点スコア算出方法を説明する。図８（ａ）は、代表文字列領域と非代表文字列領域の消失点の距離算出方法を説明する図である。入力画像８００には、非代表文字列領域ａである文字領域８０１と代表文字列領域ｂである文字領域８０４が写っている。文字領域８０１から水平方向の辺を延長した線８０２から水平方向の消失点８０３を、文字領域８０１から垂直方向の辺を延長した線８０７から垂直方向の消失点８０８を求める。文字領域８０４に対しても同様に、水平方向の辺を延長した線８０５から水平方向の消失点８０６を、垂直方向の辺を延長した線８０９から垂直方向の消失点８１０を求める。
【００４０】
次に、文字領域８０１と文字領域８０４との水平方向の消失点間の距離ｄｈ（ｂ，ａ）、垂直方向の消失点間の距離ｄｖ（ｂ，ａ）をそれぞれ求める。図８（ｂ）は、消失点スコアの算出式である。消失点スコアＳ＿ｖは式８１１により求められ、０から１の値をとり、最大が１になるように正規化する。式８１１における定数αは、所定の重み付け係数である。
【００４１】
Ｓ７０２では、非代表文字列領域である文字領域と代表文字列領域である文字領域との相対位置スコアを算出する。相対位置スコアとは、上記（ｂ）の基準に基づく関連度を示すスコアである。
【００４２】
図９において相対位置スコアを説明する。図９（ａ）は、入力画像の文字領域を示す図である。入力画像９００は、展示会などのポスターを斜めから撮影した画像の例を示し、文字領域ｂとして示された文字領域９０２は、ポスター本体であり、文字領域ａとして示された文字領域９０１は文字領域９０２のタイトルである。図３の処理により、文字領域９０２が代表文字列領域、文字領域９０１が非代表文字列領域と判定される。図９（ｂ）は、代表文字列領域である文字領域９０２との相対位置を検出するための領域分割を説明する図である。
【００４３】
まず、文字領域９０２の中心を求める。文字領域９０２の対角線を画像の端まで伸ばした線９０３、９０４のＰで示される交点９０５を求める。次に、対角線の交点９０５を通り、画像の垂直方向に画像の端まで伸ばした線９０６と、交点９０５を通り画像の水平方向に端まで伸ばした線９０７を作成する。すると、画像上の線９０３、９０４、９０６、９０７によって画像が、領域Ａ、領域Ｂ、領域Ｃ、領域Ｄ、領域Ｅ、領域Ｆ、領域Ｇ、領域Ｈの８つの領域に分割される。相対位置スコアは、非代表文字列領域が、これらの８つの領域に対してどの領域に存在するかに基づいて決定する。ここで、各領域の範囲、もしくは面積の値なども併せて決定する。
【００４４】
図９（ｃ）は、代表文字列領域に対する非代表文字列領域の相対位置スコアを示す表である。カラム９０８は、図９（ｂ）で求めた８つの領域の種類であり、それぞれの領域に対して相対位置スコア９０９が定義される。非代表文字列領域の面積が最も大きく含まれる領域をその非代表文字列領域の代表文字列領域に対する相対位置と判定し、対応する相対位置スコア９０９を該当非代表文字列領域の相対位置スコアＳ＿ｌとする。決定した領域の情報と図３のＳ３０６にて求めた値に基づいて、文字領域がいずれの領域に最も大きく含まれるかの判定を行う。例えば、図９（ａ）の非代表文字列領域である文字領域９０１はその面積の大部分が領域Ａに含まれるため、相対位置スコアは１．０である。なお、表で定義される値は、図９（ｃ）に示したものに限定されるものではなく、画像の配置や各位置に属する文字領域の役割を鑑み、経験的に定義しても良い。
【００４５】
Ｓ７０３は、非代表文字列領域である文字領域と代表文字列領域である文字領域との距離スコアを算出する処理である。距離スコアは、非代表文字列領域である文字領域と代表文字列領域である文字領域との距離が小さいほど大きくなる。
【００４６】
図１０において、距離スコアの算出方法を説明する。図１０（ａ）にて、入力画像１０００を示している。入力画像１０００は、文字領域ｂで示されたメイン文字領域１００２、文字領域ａおよびｃで示された周辺文字領域１００１、１００３から構成される。
【００４７】
図１０（ｂ）は、距離スコアを説明する図である。まず、メイン文字領域ｂを構成する１つの辺を画像の端まで伸ばした線１００４を作成する。線１００４を画像の垂直方向に動かして周辺文字領域ａに最初に接した線を１００５とする。周辺文字領域ａとメイン文字領域ｂの距離スコアＳ＿ｄは、線１００４と線１００５の垂直方向の距離ｄ（ｂ，ａ）を用いて、以下の用に定義される。ここで、Ｓ＿ｄは０と１の間の値をとり、最大が１になるように正規化する。
【００４８】
［式１］
Ｓ＿ｄ＝１−β／ｄ（ｂ，ａ）（βは定数）
Ｓ７０４で、Ｓ７０１〜Ｓ７０３で算出した消失点スコアＳｖ、相対位置スコアＳ＿ｌ、距離スコアＳ＿ｄを統合して代表文字列領域と非代表文字列領域の関連度Ｒを求める。関連度Ｒは、以下のように消失点スコア、相対位置スコア、距離スコアの積で表す。
【００４９】
［式２］
Ｒ＝Ｓｖ×Ｓ＿ｌ×Ｓ＿ｄ
関連度は、非代表文字列領域と代表文字列領域の消失点が近く距離が近いほど大きくなる。また、関連度は０から１の値をとり、１が最大となるように設定される。
【００５０】
［検索処理］
図１２は、本発明に係る検索処理の流れを説明するフローチャートである。ここでの検索処理とは、ここまでの処理により生成された各文字領域に対するデータベースを検索するための工程である。また、本処理はＣＰＵ１０１が記憶装置１０４等の記憶部に格納されたプログラムを実行することにより実現される。
【００５１】
Ｓ１２０１では、検索ユーザがキーワードを入力して検索実行命令を指示したことを検出する。Ｓ１２０２では、Ｓ１２０１で入力された検索キーワードが含まれる文書を取得する。検索キーワードが含まれる文書は、図１１（ｂ）に示した構造により、キーワードＩＤに対応する文書ＩＤから取得できる。Ｓ１２０３では、Ｓ１２０１で入力された検索キーワードが含まれる非代表文字列領域を取得する処理である。検索キーワードが含まれる非代表文字列領域は、図１１（ｂ）に示した構造により、キーワードＩＤに対応する非代表文字列ＩＤから取得できる。Ｓ１２０４は、Ｓ１２０２で取得した文書の検索ランキングを算出する処理である。本処理の詳細は、図１３を用いて説明する。Ｓ１２０５は、検索結果をユーザに提示する処理である。
【００５２】
図１３は、図１２のＳ１２０４にて示した検索ランキング算出処理の詳細を示すフローチャートである。Ｓ１３０１は、図１２のＳ１２０２で取得した、検索キーワードにヒットした文書及び、検索キーワードにヒットした非代表文字列領域に関連付けられた文書から１つを取得する。Ｓ１３０２では、Ｓ１３０１で取得した文書が非代表文字列領域にヒットしたものであるか否か判定する。非代表文字列領域にヒットしていれば（Ｓ１３０２にてＹＥＳ）、Ｓ１３０３に進む。ヒットしていなければ（Ｓ１３０２にてＮＯ）、Ｓ１３０５へ進む。
【００５３】
Ｓ１３０３では、文書と非代表文字列領域との関連度を取得する。関連度は、図１１（ａ）に示したカラム１１０３から取得することができる。Ｓ１３０４では、Ｓ１３０３で取得した関連度を該当文書の検索ランキングに設定する。Ｓ１３０５では、該当文書に含まれる検索キーワードの出現頻度を示すｔｆを計算する。なお、ｔｆの算出方法は公知の計算式を用いるものとする。Ｓ１３０６では、Ｓ１３０５で計算したｔｆを検索ランキングに設定する。これにより、検索キーワードが文書中に含まれている場合は、検索キーワードの出現頻度が高いほど検索ランキングが高くなる。
【００５４】
Ｓ１３０７では、全ての文書を調べたか否かを判定する。全ての文書を調べていないならば（Ｓ１３０７にてＮＯ）、Ｓ１３０９へ進む。Ｓ１３０９では、次の未調査のヒット文書を取得し、Ｓ１３０２へ戻る。全てのヒット文書を調べたならば（Ｓ１３０７にてＹＥＳ）、Ｓ１３０８へ進む。Ｓ１３０８では、上述の処理で求めた検索ランキング順に検索キーワードにヒットした文書を並び替える。
【００５５】
このような処理により、文書画像から代表文字列領域を抽出して生成したテキスト文書に対して、本文中に検索キーワードがヒットしていなくても関連付けられている非代表文字列にヒットしていれば検索ランキング上位に表示される。なお、本実施形態では検索キーワードが文書にヒットした場合の検索ランキングをｔｆにより算出したが、ｔｆ・ｉｄｆなどの他の手法によって算出してもよい。また、非代表文字列にヒットした場合でもｔｆなどの手法を組み合わせてランキングを作成してもよい。
【００５６】
以上説明したように、本発明によれば、撮影した歪みのある複数の文字領域を持つ画像に対して代表文字列領域と代表文字列領域以外の文字列領域を適切に関連付けることにより、代表文字列領域以外の文字列領域を欠落させずに検索に再利用することができる。
【００５７】
＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項１】
文字を含む画像中の文字領域の歪みを検出し、検出した歪みを補正した文字列領域に含まれる情報を保持する画像処理方法であって、
代表文字列領域抽出手段が、入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出工程と、
非代表文字列領域抽出手段が、入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出工程と、
関連付け手段が、前記非代表文字列領域抽出工程において抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け工程と、
保持手段が、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持工程と
を有することを特徴とする画像処理方法。
【請求項２】
前記関連付け工程において更に、前記代表文字列領域と前記非代表文字列領域とを関連付ける際に、前記代表文字列領域と前記非代表文字列領域の関連度を算出し、
前記保持工程において、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域と併せて前記関連度を保持する
ことを特徴とする請求項１に記載の画像処理方法。
【請求項３】
前記関連付け工程において更に、前記関連度を、前記非代表文字列領域と前記代表文字列領域との距離、相対的位置関係のうち、少なくとも一つを用いて推定することを特徴とする請求項２に記載の画像処理方法。
【請求項４】
前記関連付け工程において更に、前記関連度を、前記非代表文字列領域に含まれる単語が前記代表文字列領域に含まれているか否かを基準として推定することを特徴とする請求項２または３に記載の画像処理方法。
【請求項５】
検索手段が、検索キーワードを用いて文書を検索し、検索ランキングを決定する検索工程を更に有し、
前記検索工程において、前記検索キーワードが含まれる前記非代表文字列領域と、前記代表文字列領域との前記関連度が高い前記文書が上位となるように前記検索ランキングを決定することを特徴とする請求項２乃至４のいずれか一項に記載の画像処理方法。
【請求項６】
文字を含む画像中の文字領域の歪みを検出し、検出した歪みを補正した文字領域に含まれる情報を保持する画像処理装置であって、
入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出手段と、
入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出手段と、
前記非代表文字列領域抽出手段により抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け手段と、
前記関連付け手段により関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持手段と
を有することを特徴とする画像処理装置。
【請求項７】
コンピュータを、
入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出手段、
入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出手段、
前記非代表文字列領域抽出手段により抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け手段、
前記関連付け手段により関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持手段
として機能させるためのプログラム。

【図１】