画像処理方法、画像処理装置、およびプログラム
【課題】画像中のメインの被写体である代表文字列領域に対して、代表文字列領域以外の文字列情報を欠落させずに再利用する。
【解決手段】代表文字列領域抽出手段が、入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出工程と、非代表文字列領域抽出手段が、入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出工程と、関連付け手段が、前記非代表文字列領域抽出工程において抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け工程と、保持手段が、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持工程とを有する。
【解決手段】代表文字列領域抽出手段が、入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出工程と、非代表文字列領域抽出手段が、入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出工程と、関連付け手段が、前記非代表文字列領域抽出工程において抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け工程と、保持手段が、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持工程とを有する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理方法、画像処理装置、およびプログラムに関するものである。
【背景技術】
【0002】
近年、名刺、はがき、ホワイトボード、ポスターなど、矩形の文字領域を斜め方向から撮影し、文字領域の歪みを補正した画像をファイリングする、或いは画像から文字認識処理を行って画像内の文字情報を再利用する手法が提案されている。例えば、ホワイトボードに書かれた会議記録をビデオカメラで取り込み、ホワイトボードに書き込まれた内容を分離して電子データとして記憶する技術がある(特許文献1)。
【0003】
また、デジタルカメラで取り込んだ文書画像から文書画像領域を切り出して歪み補正画像を生成し、生成した画像の輝度情報を元に画像種類の判定を行い明度補正などの画像効果パラメータを適切に選択して画像補正を行う技術がある(特許文献2)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−253067号公報
【特許文献2】特開2005−122319号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記従来の技術では、特徴の異なる画像に対して同等な電子ファイル生成処理を行うため、メインの被写体である代表文字列外にある文字情報が欠落してしまい、代表文字列領域に関連のある文字を有効利用することができなかった。
【0006】
本発明は、上記のような従来技術の問題を解消するためになされたものであり、撮影した画像中に存在する代表文字列領域と代表文字列領域以外の文字列を適切に関連付けることにより、情報の欠落を防止し、文字情報の再利用性を向上させることを目的とする。
【課題を解決するための手段】
【0007】
上記の問題を解決するために、本発明は、以下の構成を有する。文字を含む画像中の文字領域の歪みを検出し、検出した歪みを補正した文字列領域に含まれる情報を保持する画像処理方法であって、代表文字列領域抽出手段が、入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出工程と、非代表文字列領域抽出手段が、入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出工程と、関連付け手段が、前記非代表文字列領域抽出工程において抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け工程と、保持手段が、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持工程とを有する。
【発明の効果】
【0008】
本発明により、入力画像中に存在する重要な文字列を文書領域と関連付けて検索等に再利用することが可能となる。
【図面の簡単な説明】
【0009】
【図1】本発明に係るシステムのブロック図。
【図2】本発明に係る処理の流れを示すフローチャートの図。
【図3】本発明に係る処理の流れを示すフローチャートの図。
【図4】本発明に係る台形歪み補正処理の例を示す図。
【図5】本発明に係る処理の流れを示すフローチャートの図。
【図6】本発明に係る処理の流れを示すフローチャートの図。
【図7】本発明に係る処理の流れを示すフローチャートの図。
【図8】本発明に係る消失点スコア算出式を示す図。
【図9】本発明に係る相対位置スコア算出の例を示す図。
【図10】本発明に係る距離スコア算出の例を示す図。
【図11】本発明に係るメタデータ格納方法の例を示す図。
【図12】本発明に係る処理の流れを示すフローチャートの図。
【図13】本発明に係る処理の流れを示すフローチャートの図。
【図14】本発明に係る入力画像のイメージを示す図。
【発明を実施するための形態】
【0010】
[システム構成]
図1は、本発明を適用可能なシステムのブロック図である。CPU101は、ROM102に格納されている制御プログラムを実行することにより本装置全体の制御を行う。ROM102は、CPU101が実行するプログラムや各種パラメータを格納する。プログラムは、ROM102から読み出され、CPU101で実行されることにより、後述するフローチャートに示す各処理を実行するための各種手段として、当該装置を機能させる。
【0011】
RAM103は、処理対象となる画像や各種データを記憶する。また、格納されたプログラムは展開され、CPU101によって実行される。記憶装置104は、本発明の処理対象となる画像データや出力電子ファイルを格納する。画像入力装置105は、デジタルカメラなど、本発明の処理対象となる画像が入力される。画像出力装置106は、本発明の各処理部にて処理された画像を外部に出力する。
【0012】
デジタルカメラなどの画像入力装置105から入力された文書画像は、ハードディスクなどの記憶装置104に一時記憶される。文書画像は、RAM103に展開された処理プログラムによって、画像処理を施され、処理結果が再びハードディスクなどの記憶装置104に記憶される。
【0013】
なお、本実施形態では後述するフローチャートの各ステップに対応する処理は、コンピュータ(CPU)を用いてソフトウェアで実現しているが、その処理の一部又は全部を電子回路などのハードウェアで実現するようにしても良い。
【0014】
[文字列領域関連付け処理]
図2〜図5を参照して、本発明の文字列領域関連付け方法について説明する。図2は、本発明の文字列領域関連付け方法の一実施例の全体系を示す処理フローチャートである。本処理フローも特に記載している場合を除き、CPU101が実行しているものとする。S201では、撮像装置で撮影された画像が入力され、記憶部に読み込まれる。S202では、S201で入力された画像が文字を含む文書画像であるか、文字を含まない自然画であるかを判定する。文書画像であるか否かを判定する際に、用いられる画像データから文字を抽出する方法に関しては、例えば特開2002−042055号公報「カラー文書からの文字認識方法」などを用いることができる。S203では、S202で判定した画像が文書画像であるか自然画であるかによって分岐する。文書画像であれば(S203にてYES)、S204へ進む。文書画像でなければ(S203にてNO)、S207へ進む。
【0015】
S204では、S201で入力された文書画像から名刺やホワイトボードなどの代表文字列領域と、それ以外の文字列領域を区別し、複数の文字列領域を抽出する。文字列領域抽出は、まず画像中に存在する複数の文字列領域を抽出し、その中から画像の主被写体であると推定される代表文字列領域を決定する処理を行う。S204における文書領域抽出処理の詳細については、図3を用いて後に説明する。
【0016】
S205では、S204で抽出した代表文字列領域の歪みを補正したテキスト画像を生成する。抽出された代表文字列領域の枠を利用して画像全体の歪みを補正することで、代表文字列領域内に存在する文字の歪みを補正することができる。歪み補正技術としては透視変換などによる台形歪み補正技術が知られており、例えば特開2008−257713号公報「透視変換歪み発生文書画像補正装置および方法」により文字領域枠を台形歪みとした画像補正が可能である。
【0017】
S206では、S205で歪みが補正された代表文字列領域のテキスト画像に対して非代表文字列領域をメタデータとして付与する。ここで、元の入力画像の代表文字列領域と非代表文字列領域の位置関係から、非代表文字列領域の、代表文字列領域に対する関連度を算出して電子ファイルのメタデータとして保持する。S206の詳細については図5を用いて後で説明する。S207では、S206で生成した画像/ファイルを出力する。以上の流れにより、本発明における処理を行う。
【0018】
[文書領域抽出処理]
図3は、図2のS204文書領域抽出処理の詳細フローチャートである。本処理フローも特に記載している場合を除き、CPU101が実行しているものとする。ここでは、まず入力画像中に存在する複数の文字列を抽出し、抽出した文字列が、画像の主被写体である代表文字列領域か、それ以外の非代表文字列領域かを判定する。
【0019】
S301では、図2のS203で文書画像であると判定された画像を読み込む。図14に入力画像のイメージを示す。図14は、展示会のポスターを斜め方向から撮影した画像1400の例を示している。画像1400には、ポスター本体であり領域bとして示された文字領域1402、ポスターのタイトルであり領域aとして示された文字領域1401、その他画像に写り込んだ文字オブジェクトであり領域c、dで示された文字領域1403、1404が存在する。
【0020】
S302では、入力画像から複数の文字列領域を抽出する。入力画像から文字列領域を抽出する方法は、特開2004−96435号公報「画像解析装置、画像解析方法、および画像解析プログラム」あるいは、特開2006−107018号公報「画像解析方法及び装置、画像処理方法及びシステム、これらの動作プログラム」などを用いて抽出することができる。このステップで図14に含まれる文字領域1401,1402,1403,1404が抽出される。
【0021】
S303では、S302で抽出した文字列領域から1つを取得する。S304では、画像中の文字列領域の位置を判定する。図4のように抽出された文字領域の4つの頂点P1,P2,P3,P4の座標と、画像中央の座標を比較する。ここで画像中央とは、図14における画像1400の対角線の交点である。S305では、S304において、文字列領域が画像の中央を含むか否かを判定して分岐する。取得した文字列領域が画像中央の座標を含む位置に存在すれば(S305にてYES)S306へ、含まなければ(S305にてNO)S309へ進む。
【0022】
S306では、入力画像中の文字列領域の面積を判定する。文字領域の面積は、図4(a)における文字領域枠の4つの頂点P1,P2,P3,P4の内部に存在する画素数により求める。S307では、S306により得られた文字列領域の面積が所与の閾値より大きいか否かを判定する。閾値よりも大きければ(S307にてYES)S308へ、小さければ(S307にてNO)S309へ進む。
【0023】
S308では、画像の中央かつある閾値よりも面積比が大きいと判定された文字列領域を画像の被写体であるポスターやホワイトボードなどの代表文字列領域として設定する。S309では、取得した文字列領域を画像の中央を含まない、あるいは面積が小さい文字列領域を被写体でない非代表文字列領域として設定する。S310では、全ての文字列領域について、いずれの文字列領域であるかを調べたか否かを判定する。全ての文字列領域に対し、調べたならば(S310にてYES)終了する。また、まだ調べていない文字列領域があれば(S310にてNO)S311へ進み、次の文字列領域を取得してS304へ戻る。
【0024】
以上の処理により、画像から文字列領域を抽出し、抽出された文字列領域に対し、代表文字列領域抽出と非代表文字列領域抽出を行って分類する。図14の例では、文字領域1402が代表文字列領域と、文字領域1401,1403,1404が非文字列領域と判定される。
【0025】
[歪み補正処理]
図4は、S205における歪み補正画像の生成を説明するための図である。図4(a)は、入力した画像に対し、図2のS204で抽出した文書領域境界線の4つの頂点、p1(x1,y1)、p2(x2,y2)、p3(x3,y3)、p4(x4,y4)で囲まれた部分画像を切り出し、図4(b)の画像を生成する。次に、切り出した文字領域枠401から水平方向の辺を延長した線402、403から水平方向の消失点404を求める。同様に、文字領域枠401の垂直方向の辺を延長した線405、406から垂直方向の消失点407を求める。
【0026】
上記の処理によって求めた消失点により逆透視変換を行い、文字領域枠を補正することによって図4(c)のような長方形の文字領域を有する画像を生成する。図4(a)の歪みのある文字領域の4つの頂点p1(x1,y1)、p2(x2,y2)、p3(x3,y3)、p4(x4,y4)が、それぞれp1’(x1’,y1’)、p2’(x2’,y2’)、p3’(x3’,y3’)、p4’(x4’,y4’)の長方形の頂点に対応するように補正される。
【0027】
[関連度付きメタデータ付与処理]
図5は、図2のS206を詳細化した処理のフローチャートである。本処理フローも特に記載している場合を除き、CPU101が実行しているものとする。S501では、図2のS205で歪み補正された代表文字列領域を含む文書画像を入力する。S502では、S501で入力された文書画像に対してOCR処理を行い、文字を抽出する。S503では、S501で入力された文書画像に対して非代表文字列領域をメタデータとして付与する。S503の詳細は図6を用いて詳細に説明する。S504では、文書画像を出力する。ここで文書画像は、ビットマップ画像として出力される。
【0028】
図6は、図5のS503の処理を詳細化したフローチャートである。本処理フローも特に記載している場合を除き、CPU101が実行しているものとする。S601では、図3で示した処理の中で、入力された代表文字列領域と同じ画像から抽出された複数の非代表文字列領域のうちの1つを取得する。S602では、S601で選択した非代表文字列領域と代表文字列領域との関連度を算出する。関連度算出の詳細については図7を用いて説明する。S603では、S601で選択した非代表文字列領域を代表文字列領域から生成した文書画像のメタデータとして格納する。S604では、画像中の全ての非代表文字列領域について調べたかどうか判定する。全てを調べていないならば(S604にてNO)、S605へ進み次の非代表文字列領域を取得する。そして、S602へ戻る。全ての非代表文字列領域を調べ終わったならば(S604にてYES)、終了する。
【0029】
ここで図11を用いて、図6のS603にて用いられるメタデータの格納方法を説明する。図11(a)は、非代表文字列領域と代表文字列領域とから生成した文書画像との関連度を格納するテーブルである。図11の構造は、リレーショナルデータベース内の検索インデックスとして保持する。
【0030】
カラム1101には、非代表文字列IDを格納する。検索対象となる全ての文書画像に対する非代表文字列領域に対して一意に識別可能なIDを付与して格納する。カラム1102は、カラム1101に格納されたそれぞれの非代表文字列領域が関連付けられている文書IDである。図11では、撮影画像から本発明の処理で歪み補正を行って生成した文書画像1に対して非代表文字列領域1及び2が対応付けられている。カラム1103は、S602で算出された、カラム1102に格納されている文書とカラム1101に格納されている非代表文字列領域との関連度を示している。ここで、関連度は、0から1の間の値をとり、1が関連度最大となるように正規化する。
【0031】
図11(b)は、検索キーワードと非代表文字列領域との対応付けを格納するためのテーブルである。カラム1104には、検索対象となる文書及び非代表文字列領域から抽出したキーワードIDを格納する。キーワードは、文書に形態素解析を適用して単語を抽出し、出現頻度の高いものを抽出して一意に識別可能なキーワードIDを付与され、対応するキーワードの文字列をカラム1105に格納する。
【0032】
カラム1106は、カラム1101に格納されているものと同じ非代表文字列領域であり、カラム1104のキーワードが含まれている非代表文字列領域を列挙する。カラム1107は、文書IDであり、カラム1104のキーワードが含まれている文書を列挙する。図11(b)の構造により、検索キーワードから文書及び非代表文字列領域を検索することが可能となる。
【0033】
なお、ここで挙げたメタデータの格納方法については、あくまで一例であり、検索に用いられる他の方法、構成で格納されてもよい。
【0034】
[関連度算出処理]
図7は、図6のS602における代表文字列領域との関連度算出処理の詳細を表すフローチャートである。本処理フローも特に記載している場合を除き、CPU101が実行しているものとする。ここで非代表文字列領域の代表文字列領域に対する関連度は、例えば次のような基準により決定される。
【0035】
(a)非代表文字列領域の消失点が代表文字列領域の消失点に近いほど高い。つまり、2つの文字オブジェクトが同一平面上にある場合に関連度が高いと推定する。
【0036】
(b)非代表文字列領域の代表文字列領域に対する相対的位置関係においてが上部にあるものの関連度が高い。
【0037】
(c)代表文字列領域の近傍にある非代表文字列領域の関連度は高い。
【0038】
S701では、消失点スコアを算出する。ここでの消失点スコアとは、上記(a)の基準により定められる関連度を示すスコアである。
【0039】
図8において消失点スコア算出方法を説明する。図8(a)は、代表文字列領域と非代表文字列領域の消失点の距離算出方法を説明する図である。入力画像800には、非代表文字列領域aである文字領域801と代表文字列領域bである文字領域804が写っている。文字領域801から水平方向の辺を延長した線802から水平方向の消失点803を、文字領域801から垂直方向の辺を延長した線807から垂直方向の消失点808を求める。文字領域804に対しても同様に、水平方向の辺を延長した線805から水平方向の消失点806を、垂直方向の辺を延長した線809から垂直方向の消失点810を求める。
【0040】
次に、文字領域801と文字領域804との水平方向の消失点間の距離dh(b,a)、垂直方向の消失点間の距離dv(b,a)をそれぞれ求める。図8(b)は、消失点スコアの算出式である。消失点スコアS_vは式811により求められ、0から1の値をとり、最大が1になるように正規化する。式811における定数αは、所定の重み付け係数である。
【0041】
S702では、非代表文字列領域である文字領域と代表文字列領域である文字領域との相対位置スコアを算出する。相対位置スコアとは、上記(b)の基準に基づく関連度を示すスコアである。
【0042】
図9において相対位置スコアを説明する。図9(a)は、入力画像の文字領域を示す図である。入力画像900は、展示会などのポスターを斜めから撮影した画像の例を示し、文字領域bとして示された文字領域902は、ポスター本体であり、文字領域aとして示された文字領域901は文字領域902のタイトルである。図3の処理により、文字領域902が代表文字列領域、文字領域901が非代表文字列領域と判定される。図9(b)は、代表文字列領域である文字領域902との相対位置を検出するための領域分割を説明する図である。
【0043】
まず、文字領域902の中心を求める。文字領域902の対角線を画像の端まで伸ばした線903、904のPで示される交点905を求める。次に、対角線の交点905を通り、画像の垂直方向に画像の端まで伸ばした線906と、交点905を通り画像の水平方向に端まで伸ばした線907を作成する。すると、画像上の線903、904、906、907によって画像が、領域A、領域B、領域C、領域D、領域E、領域F、領域G、領域Hの8つの領域に分割される。相対位置スコアは、非代表文字列領域が、これらの8つの領域に対してどの領域に存在するかに基づいて決定する。ここで、各領域の範囲、もしくは面積の値なども併せて決定する。
【0044】
図9(c)は、代表文字列領域に対する非代表文字列領域の相対位置スコアを示す表である。カラム908は、図9(b)で求めた8つの領域の種類であり、それぞれの領域に対して相対位置スコア909が定義される。非代表文字列領域の面積が最も大きく含まれる領域をその非代表文字列領域の代表文字列領域に対する相対位置と判定し、対応する相対位置スコア909を該当非代表文字列領域の相対位置スコアS_lとする。決定した領域の情報と図3のS306にて求めた値に基づいて、文字領域がいずれの領域に最も大きく含まれるかの判定を行う。例えば、図9(a)の非代表文字列領域である文字領域901はその面積の大部分が領域Aに含まれるため、相対位置スコアは1.0である。なお、表で定義される値は、図9(c)に示したものに限定されるものではなく、画像の配置や各位置に属する文字領域の役割を鑑み、経験的に定義しても良い。
【0045】
S703は、非代表文字列領域である文字領域と代表文字列領域である文字領域との距離スコアを算出する処理である。距離スコアは、非代表文字列領域である文字領域と代表文字列領域である文字領域との距離が小さいほど大きくなる。
【0046】
図10において、距離スコアの算出方法を説明する。図10(a)にて、入力画像1000を示している。入力画像1000は、文字領域bで示されたメイン文字領域1002、文字領域aおよびcで示された周辺文字領域1001、1003から構成される。
【0047】
図10(b)は、距離スコアを説明する図である。まず、メイン文字領域bを構成する1つの辺を画像の端まで伸ばした線1004を作成する。線1004を画像の垂直方向に動かして周辺文字領域aに最初に接した線を1005とする。周辺文字領域aとメイン文字領域bの距離スコアS_dは、線1004と線1005の垂直方向の距離d(b,a)を用いて、以下の用に定義される。ここで、S_dは0と1の間の値をとり、最大が1になるように正規化する。
【0048】
[式1]
S_d=1−β/d(b,a) (βは定数)
S704で、S701〜S703で算出した消失点スコアSv、相対位置スコアS_l、距離スコアS_dを統合して代表文字列領域と非代表文字列領域の関連度Rを求める。関連度Rは、以下のように消失点スコア、相対位置スコア、距離スコアの積で表す。
【0049】
[式2]
R=Sv×S_l×S_d
関連度は、非代表文字列領域と代表文字列領域の消失点が近く距離が近いほど大きくなる。また、関連度は0から1の値をとり、1が最大となるように設定される。
【0050】
[検索処理]
図12は、本発明に係る検索処理の流れを説明するフローチャートである。ここでの検索処理とは、ここまでの処理により生成された各文字領域に対するデータベースを検索するための工程である。また、本処理はCPU101が記憶装置104等の記憶部に格納されたプログラムを実行することにより実現される。
【0051】
S1201では、検索ユーザがキーワードを入力して検索実行命令を指示したことを検出する。S1202では、S1201で入力された検索キーワードが含まれる文書を取得する。検索キーワードが含まれる文書は、図11(b)に示した構造により、キーワードIDに対応する文書IDから取得できる。S1203では、S1201で入力された検索キーワードが含まれる非代表文字列領域を取得する処理である。検索キーワードが含まれる非代表文字列領域は、図11(b)に示した構造により、キーワードIDに対応する非代表文字列IDから取得できる。S1204は、S1202で取得した文書の検索ランキングを算出する処理である。本処理の詳細は、図13を用いて説明する。S1205は、検索結果をユーザに提示する処理である。
【0052】
図13は、図12のS1204にて示した検索ランキング算出処理の詳細を示すフローチャートである。S1301は、図12のS1202で取得した、検索キーワードにヒットした文書及び、検索キーワードにヒットした非代表文字列領域に関連付けられた文書から1つを取得する。S1302では、S1301で取得した文書が非代表文字列領域にヒットしたものであるか否か判定する。非代表文字列領域にヒットしていれば(S1302にてYES)、S1303に進む。ヒットしていなければ(S1302にてNO)、S1305へ進む。
【0053】
S1303では、文書と非代表文字列領域との関連度を取得する。関連度は、図11(a)に示したカラム1103から取得することができる。S1304では、S1303で取得した関連度を該当文書の検索ランキングに設定する。S1305では、該当文書に含まれる検索キーワードの出現頻度を示すtfを計算する。なお、tfの算出方法は公知の計算式を用いるものとする。S1306では、S1305で計算したtfを検索ランキングに設定する。これにより、検索キーワードが文書中に含まれている場合は、検索キーワードの出現頻度が高いほど検索ランキングが高くなる。
【0054】
S1307では、全ての文書を調べたか否かを判定する。全ての文書を調べていないならば(S1307にてNO)、S1309へ進む。S1309では、次の未調査のヒット文書を取得し、S1302へ戻る。全てのヒット文書を調べたならば(S1307にてYES)、S1308へ進む。S1308では、上述の処理で求めた検索ランキング順に検索キーワードにヒットした文書を並び替える。
【0055】
このような処理により、文書画像から代表文字列領域を抽出して生成したテキスト文書に対して、本文中に検索キーワードがヒットしていなくても関連付けられている非代表文字列にヒットしていれば検索ランキング上位に表示される。なお、本実施形態では検索キーワードが文書にヒットした場合の検索ランキングをtfにより算出したが、tf・idfなどの他の手法によって算出してもよい。また、非代表文字列にヒットした場合でもtfなどの手法を組み合わせてランキングを作成してもよい。
【0056】
以上説明したように、本発明によれば、撮影した歪みのある複数の文字領域を持つ画像に対して代表文字列領域と代表文字列領域以外の文字列領域を適切に関連付けることにより、代表文字列領域以外の文字列領域を欠落させずに検索に再利用することができる。
【0057】
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【技術分野】
【0001】
本発明は、画像処理方法、画像処理装置、およびプログラムに関するものである。
【背景技術】
【0002】
近年、名刺、はがき、ホワイトボード、ポスターなど、矩形の文字領域を斜め方向から撮影し、文字領域の歪みを補正した画像をファイリングする、或いは画像から文字認識処理を行って画像内の文字情報を再利用する手法が提案されている。例えば、ホワイトボードに書かれた会議記録をビデオカメラで取り込み、ホワイトボードに書き込まれた内容を分離して電子データとして記憶する技術がある(特許文献1)。
【0003】
また、デジタルカメラで取り込んだ文書画像から文書画像領域を切り出して歪み補正画像を生成し、生成した画像の輝度情報を元に画像種類の判定を行い明度補正などの画像効果パラメータを適切に選択して画像補正を行う技術がある(特許文献2)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−253067号公報
【特許文献2】特開2005−122319号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記従来の技術では、特徴の異なる画像に対して同等な電子ファイル生成処理を行うため、メインの被写体である代表文字列外にある文字情報が欠落してしまい、代表文字列領域に関連のある文字を有効利用することができなかった。
【0006】
本発明は、上記のような従来技術の問題を解消するためになされたものであり、撮影した画像中に存在する代表文字列領域と代表文字列領域以外の文字列を適切に関連付けることにより、情報の欠落を防止し、文字情報の再利用性を向上させることを目的とする。
【課題を解決するための手段】
【0007】
上記の問題を解決するために、本発明は、以下の構成を有する。文字を含む画像中の文字領域の歪みを検出し、検出した歪みを補正した文字列領域に含まれる情報を保持する画像処理方法であって、代表文字列領域抽出手段が、入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出工程と、非代表文字列領域抽出手段が、入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出工程と、関連付け手段が、前記非代表文字列領域抽出工程において抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け工程と、保持手段が、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持工程とを有する。
【発明の効果】
【0008】
本発明により、入力画像中に存在する重要な文字列を文書領域と関連付けて検索等に再利用することが可能となる。
【図面の簡単な説明】
【0009】
【図1】本発明に係るシステムのブロック図。
【図2】本発明に係る処理の流れを示すフローチャートの図。
【図3】本発明に係る処理の流れを示すフローチャートの図。
【図4】本発明に係る台形歪み補正処理の例を示す図。
【図5】本発明に係る処理の流れを示すフローチャートの図。
【図6】本発明に係る処理の流れを示すフローチャートの図。
【図7】本発明に係る処理の流れを示すフローチャートの図。
【図8】本発明に係る消失点スコア算出式を示す図。
【図9】本発明に係る相対位置スコア算出の例を示す図。
【図10】本発明に係る距離スコア算出の例を示す図。
【図11】本発明に係るメタデータ格納方法の例を示す図。
【図12】本発明に係る処理の流れを示すフローチャートの図。
【図13】本発明に係る処理の流れを示すフローチャートの図。
【図14】本発明に係る入力画像のイメージを示す図。
【発明を実施するための形態】
【0010】
[システム構成]
図1は、本発明を適用可能なシステムのブロック図である。CPU101は、ROM102に格納されている制御プログラムを実行することにより本装置全体の制御を行う。ROM102は、CPU101が実行するプログラムや各種パラメータを格納する。プログラムは、ROM102から読み出され、CPU101で実行されることにより、後述するフローチャートに示す各処理を実行するための各種手段として、当該装置を機能させる。
【0011】
RAM103は、処理対象となる画像や各種データを記憶する。また、格納されたプログラムは展開され、CPU101によって実行される。記憶装置104は、本発明の処理対象となる画像データや出力電子ファイルを格納する。画像入力装置105は、デジタルカメラなど、本発明の処理対象となる画像が入力される。画像出力装置106は、本発明の各処理部にて処理された画像を外部に出力する。
【0012】
デジタルカメラなどの画像入力装置105から入力された文書画像は、ハードディスクなどの記憶装置104に一時記憶される。文書画像は、RAM103に展開された処理プログラムによって、画像処理を施され、処理結果が再びハードディスクなどの記憶装置104に記憶される。
【0013】
なお、本実施形態では後述するフローチャートの各ステップに対応する処理は、コンピュータ(CPU)を用いてソフトウェアで実現しているが、その処理の一部又は全部を電子回路などのハードウェアで実現するようにしても良い。
【0014】
[文字列領域関連付け処理]
図2〜図5を参照して、本発明の文字列領域関連付け方法について説明する。図2は、本発明の文字列領域関連付け方法の一実施例の全体系を示す処理フローチャートである。本処理フローも特に記載している場合を除き、CPU101が実行しているものとする。S201では、撮像装置で撮影された画像が入力され、記憶部に読み込まれる。S202では、S201で入力された画像が文字を含む文書画像であるか、文字を含まない自然画であるかを判定する。文書画像であるか否かを判定する際に、用いられる画像データから文字を抽出する方法に関しては、例えば特開2002−042055号公報「カラー文書からの文字認識方法」などを用いることができる。S203では、S202で判定した画像が文書画像であるか自然画であるかによって分岐する。文書画像であれば(S203にてYES)、S204へ進む。文書画像でなければ(S203にてNO)、S207へ進む。
【0015】
S204では、S201で入力された文書画像から名刺やホワイトボードなどの代表文字列領域と、それ以外の文字列領域を区別し、複数の文字列領域を抽出する。文字列領域抽出は、まず画像中に存在する複数の文字列領域を抽出し、その中から画像の主被写体であると推定される代表文字列領域を決定する処理を行う。S204における文書領域抽出処理の詳細については、図3を用いて後に説明する。
【0016】
S205では、S204で抽出した代表文字列領域の歪みを補正したテキスト画像を生成する。抽出された代表文字列領域の枠を利用して画像全体の歪みを補正することで、代表文字列領域内に存在する文字の歪みを補正することができる。歪み補正技術としては透視変換などによる台形歪み補正技術が知られており、例えば特開2008−257713号公報「透視変換歪み発生文書画像補正装置および方法」により文字領域枠を台形歪みとした画像補正が可能である。
【0017】
S206では、S205で歪みが補正された代表文字列領域のテキスト画像に対して非代表文字列領域をメタデータとして付与する。ここで、元の入力画像の代表文字列領域と非代表文字列領域の位置関係から、非代表文字列領域の、代表文字列領域に対する関連度を算出して電子ファイルのメタデータとして保持する。S206の詳細については図5を用いて後で説明する。S207では、S206で生成した画像/ファイルを出力する。以上の流れにより、本発明における処理を行う。
【0018】
[文書領域抽出処理]
図3は、図2のS204文書領域抽出処理の詳細フローチャートである。本処理フローも特に記載している場合を除き、CPU101が実行しているものとする。ここでは、まず入力画像中に存在する複数の文字列を抽出し、抽出した文字列が、画像の主被写体である代表文字列領域か、それ以外の非代表文字列領域かを判定する。
【0019】
S301では、図2のS203で文書画像であると判定された画像を読み込む。図14に入力画像のイメージを示す。図14は、展示会のポスターを斜め方向から撮影した画像1400の例を示している。画像1400には、ポスター本体であり領域bとして示された文字領域1402、ポスターのタイトルであり領域aとして示された文字領域1401、その他画像に写り込んだ文字オブジェクトであり領域c、dで示された文字領域1403、1404が存在する。
【0020】
S302では、入力画像から複数の文字列領域を抽出する。入力画像から文字列領域を抽出する方法は、特開2004−96435号公報「画像解析装置、画像解析方法、および画像解析プログラム」あるいは、特開2006−107018号公報「画像解析方法及び装置、画像処理方法及びシステム、これらの動作プログラム」などを用いて抽出することができる。このステップで図14に含まれる文字領域1401,1402,1403,1404が抽出される。
【0021】
S303では、S302で抽出した文字列領域から1つを取得する。S304では、画像中の文字列領域の位置を判定する。図4のように抽出された文字領域の4つの頂点P1,P2,P3,P4の座標と、画像中央の座標を比較する。ここで画像中央とは、図14における画像1400の対角線の交点である。S305では、S304において、文字列領域が画像の中央を含むか否かを判定して分岐する。取得した文字列領域が画像中央の座標を含む位置に存在すれば(S305にてYES)S306へ、含まなければ(S305にてNO)S309へ進む。
【0022】
S306では、入力画像中の文字列領域の面積を判定する。文字領域の面積は、図4(a)における文字領域枠の4つの頂点P1,P2,P3,P4の内部に存在する画素数により求める。S307では、S306により得られた文字列領域の面積が所与の閾値より大きいか否かを判定する。閾値よりも大きければ(S307にてYES)S308へ、小さければ(S307にてNO)S309へ進む。
【0023】
S308では、画像の中央かつある閾値よりも面積比が大きいと判定された文字列領域を画像の被写体であるポスターやホワイトボードなどの代表文字列領域として設定する。S309では、取得した文字列領域を画像の中央を含まない、あるいは面積が小さい文字列領域を被写体でない非代表文字列領域として設定する。S310では、全ての文字列領域について、いずれの文字列領域であるかを調べたか否かを判定する。全ての文字列領域に対し、調べたならば(S310にてYES)終了する。また、まだ調べていない文字列領域があれば(S310にてNO)S311へ進み、次の文字列領域を取得してS304へ戻る。
【0024】
以上の処理により、画像から文字列領域を抽出し、抽出された文字列領域に対し、代表文字列領域抽出と非代表文字列領域抽出を行って分類する。図14の例では、文字領域1402が代表文字列領域と、文字領域1401,1403,1404が非文字列領域と判定される。
【0025】
[歪み補正処理]
図4は、S205における歪み補正画像の生成を説明するための図である。図4(a)は、入力した画像に対し、図2のS204で抽出した文書領域境界線の4つの頂点、p1(x1,y1)、p2(x2,y2)、p3(x3,y3)、p4(x4,y4)で囲まれた部分画像を切り出し、図4(b)の画像を生成する。次に、切り出した文字領域枠401から水平方向の辺を延長した線402、403から水平方向の消失点404を求める。同様に、文字領域枠401の垂直方向の辺を延長した線405、406から垂直方向の消失点407を求める。
【0026】
上記の処理によって求めた消失点により逆透視変換を行い、文字領域枠を補正することによって図4(c)のような長方形の文字領域を有する画像を生成する。図4(a)の歪みのある文字領域の4つの頂点p1(x1,y1)、p2(x2,y2)、p3(x3,y3)、p4(x4,y4)が、それぞれp1’(x1’,y1’)、p2’(x2’,y2’)、p3’(x3’,y3’)、p4’(x4’,y4’)の長方形の頂点に対応するように補正される。
【0027】
[関連度付きメタデータ付与処理]
図5は、図2のS206を詳細化した処理のフローチャートである。本処理フローも特に記載している場合を除き、CPU101が実行しているものとする。S501では、図2のS205で歪み補正された代表文字列領域を含む文書画像を入力する。S502では、S501で入力された文書画像に対してOCR処理を行い、文字を抽出する。S503では、S501で入力された文書画像に対して非代表文字列領域をメタデータとして付与する。S503の詳細は図6を用いて詳細に説明する。S504では、文書画像を出力する。ここで文書画像は、ビットマップ画像として出力される。
【0028】
図6は、図5のS503の処理を詳細化したフローチャートである。本処理フローも特に記載している場合を除き、CPU101が実行しているものとする。S601では、図3で示した処理の中で、入力された代表文字列領域と同じ画像から抽出された複数の非代表文字列領域のうちの1つを取得する。S602では、S601で選択した非代表文字列領域と代表文字列領域との関連度を算出する。関連度算出の詳細については図7を用いて説明する。S603では、S601で選択した非代表文字列領域を代表文字列領域から生成した文書画像のメタデータとして格納する。S604では、画像中の全ての非代表文字列領域について調べたかどうか判定する。全てを調べていないならば(S604にてNO)、S605へ進み次の非代表文字列領域を取得する。そして、S602へ戻る。全ての非代表文字列領域を調べ終わったならば(S604にてYES)、終了する。
【0029】
ここで図11を用いて、図6のS603にて用いられるメタデータの格納方法を説明する。図11(a)は、非代表文字列領域と代表文字列領域とから生成した文書画像との関連度を格納するテーブルである。図11の構造は、リレーショナルデータベース内の検索インデックスとして保持する。
【0030】
カラム1101には、非代表文字列IDを格納する。検索対象となる全ての文書画像に対する非代表文字列領域に対して一意に識別可能なIDを付与して格納する。カラム1102は、カラム1101に格納されたそれぞれの非代表文字列領域が関連付けられている文書IDである。図11では、撮影画像から本発明の処理で歪み補正を行って生成した文書画像1に対して非代表文字列領域1及び2が対応付けられている。カラム1103は、S602で算出された、カラム1102に格納されている文書とカラム1101に格納されている非代表文字列領域との関連度を示している。ここで、関連度は、0から1の間の値をとり、1が関連度最大となるように正規化する。
【0031】
図11(b)は、検索キーワードと非代表文字列領域との対応付けを格納するためのテーブルである。カラム1104には、検索対象となる文書及び非代表文字列領域から抽出したキーワードIDを格納する。キーワードは、文書に形態素解析を適用して単語を抽出し、出現頻度の高いものを抽出して一意に識別可能なキーワードIDを付与され、対応するキーワードの文字列をカラム1105に格納する。
【0032】
カラム1106は、カラム1101に格納されているものと同じ非代表文字列領域であり、カラム1104のキーワードが含まれている非代表文字列領域を列挙する。カラム1107は、文書IDであり、カラム1104のキーワードが含まれている文書を列挙する。図11(b)の構造により、検索キーワードから文書及び非代表文字列領域を検索することが可能となる。
【0033】
なお、ここで挙げたメタデータの格納方法については、あくまで一例であり、検索に用いられる他の方法、構成で格納されてもよい。
【0034】
[関連度算出処理]
図7は、図6のS602における代表文字列領域との関連度算出処理の詳細を表すフローチャートである。本処理フローも特に記載している場合を除き、CPU101が実行しているものとする。ここで非代表文字列領域の代表文字列領域に対する関連度は、例えば次のような基準により決定される。
【0035】
(a)非代表文字列領域の消失点が代表文字列領域の消失点に近いほど高い。つまり、2つの文字オブジェクトが同一平面上にある場合に関連度が高いと推定する。
【0036】
(b)非代表文字列領域の代表文字列領域に対する相対的位置関係においてが上部にあるものの関連度が高い。
【0037】
(c)代表文字列領域の近傍にある非代表文字列領域の関連度は高い。
【0038】
S701では、消失点スコアを算出する。ここでの消失点スコアとは、上記(a)の基準により定められる関連度を示すスコアである。
【0039】
図8において消失点スコア算出方法を説明する。図8(a)は、代表文字列領域と非代表文字列領域の消失点の距離算出方法を説明する図である。入力画像800には、非代表文字列領域aである文字領域801と代表文字列領域bである文字領域804が写っている。文字領域801から水平方向の辺を延長した線802から水平方向の消失点803を、文字領域801から垂直方向の辺を延長した線807から垂直方向の消失点808を求める。文字領域804に対しても同様に、水平方向の辺を延長した線805から水平方向の消失点806を、垂直方向の辺を延長した線809から垂直方向の消失点810を求める。
【0040】
次に、文字領域801と文字領域804との水平方向の消失点間の距離dh(b,a)、垂直方向の消失点間の距離dv(b,a)をそれぞれ求める。図8(b)は、消失点スコアの算出式である。消失点スコアS_vは式811により求められ、0から1の値をとり、最大が1になるように正規化する。式811における定数αは、所定の重み付け係数である。
【0041】
S702では、非代表文字列領域である文字領域と代表文字列領域である文字領域との相対位置スコアを算出する。相対位置スコアとは、上記(b)の基準に基づく関連度を示すスコアである。
【0042】
図9において相対位置スコアを説明する。図9(a)は、入力画像の文字領域を示す図である。入力画像900は、展示会などのポスターを斜めから撮影した画像の例を示し、文字領域bとして示された文字領域902は、ポスター本体であり、文字領域aとして示された文字領域901は文字領域902のタイトルである。図3の処理により、文字領域902が代表文字列領域、文字領域901が非代表文字列領域と判定される。図9(b)は、代表文字列領域である文字領域902との相対位置を検出するための領域分割を説明する図である。
【0043】
まず、文字領域902の中心を求める。文字領域902の対角線を画像の端まで伸ばした線903、904のPで示される交点905を求める。次に、対角線の交点905を通り、画像の垂直方向に画像の端まで伸ばした線906と、交点905を通り画像の水平方向に端まで伸ばした線907を作成する。すると、画像上の線903、904、906、907によって画像が、領域A、領域B、領域C、領域D、領域E、領域F、領域G、領域Hの8つの領域に分割される。相対位置スコアは、非代表文字列領域が、これらの8つの領域に対してどの領域に存在するかに基づいて決定する。ここで、各領域の範囲、もしくは面積の値なども併せて決定する。
【0044】
図9(c)は、代表文字列領域に対する非代表文字列領域の相対位置スコアを示す表である。カラム908は、図9(b)で求めた8つの領域の種類であり、それぞれの領域に対して相対位置スコア909が定義される。非代表文字列領域の面積が最も大きく含まれる領域をその非代表文字列領域の代表文字列領域に対する相対位置と判定し、対応する相対位置スコア909を該当非代表文字列領域の相対位置スコアS_lとする。決定した領域の情報と図3のS306にて求めた値に基づいて、文字領域がいずれの領域に最も大きく含まれるかの判定を行う。例えば、図9(a)の非代表文字列領域である文字領域901はその面積の大部分が領域Aに含まれるため、相対位置スコアは1.0である。なお、表で定義される値は、図9(c)に示したものに限定されるものではなく、画像の配置や各位置に属する文字領域の役割を鑑み、経験的に定義しても良い。
【0045】
S703は、非代表文字列領域である文字領域と代表文字列領域である文字領域との距離スコアを算出する処理である。距離スコアは、非代表文字列領域である文字領域と代表文字列領域である文字領域との距離が小さいほど大きくなる。
【0046】
図10において、距離スコアの算出方法を説明する。図10(a)にて、入力画像1000を示している。入力画像1000は、文字領域bで示されたメイン文字領域1002、文字領域aおよびcで示された周辺文字領域1001、1003から構成される。
【0047】
図10(b)は、距離スコアを説明する図である。まず、メイン文字領域bを構成する1つの辺を画像の端まで伸ばした線1004を作成する。線1004を画像の垂直方向に動かして周辺文字領域aに最初に接した線を1005とする。周辺文字領域aとメイン文字領域bの距離スコアS_dは、線1004と線1005の垂直方向の距離d(b,a)を用いて、以下の用に定義される。ここで、S_dは0と1の間の値をとり、最大が1になるように正規化する。
【0048】
[式1]
S_d=1−β/d(b,a) (βは定数)
S704で、S701〜S703で算出した消失点スコアSv、相対位置スコアS_l、距離スコアS_dを統合して代表文字列領域と非代表文字列領域の関連度Rを求める。関連度Rは、以下のように消失点スコア、相対位置スコア、距離スコアの積で表す。
【0049】
[式2]
R=Sv×S_l×S_d
関連度は、非代表文字列領域と代表文字列領域の消失点が近く距離が近いほど大きくなる。また、関連度は0から1の値をとり、1が最大となるように設定される。
【0050】
[検索処理]
図12は、本発明に係る検索処理の流れを説明するフローチャートである。ここでの検索処理とは、ここまでの処理により生成された各文字領域に対するデータベースを検索するための工程である。また、本処理はCPU101が記憶装置104等の記憶部に格納されたプログラムを実行することにより実現される。
【0051】
S1201では、検索ユーザがキーワードを入力して検索実行命令を指示したことを検出する。S1202では、S1201で入力された検索キーワードが含まれる文書を取得する。検索キーワードが含まれる文書は、図11(b)に示した構造により、キーワードIDに対応する文書IDから取得できる。S1203では、S1201で入力された検索キーワードが含まれる非代表文字列領域を取得する処理である。検索キーワードが含まれる非代表文字列領域は、図11(b)に示した構造により、キーワードIDに対応する非代表文字列IDから取得できる。S1204は、S1202で取得した文書の検索ランキングを算出する処理である。本処理の詳細は、図13を用いて説明する。S1205は、検索結果をユーザに提示する処理である。
【0052】
図13は、図12のS1204にて示した検索ランキング算出処理の詳細を示すフローチャートである。S1301は、図12のS1202で取得した、検索キーワードにヒットした文書及び、検索キーワードにヒットした非代表文字列領域に関連付けられた文書から1つを取得する。S1302では、S1301で取得した文書が非代表文字列領域にヒットしたものであるか否か判定する。非代表文字列領域にヒットしていれば(S1302にてYES)、S1303に進む。ヒットしていなければ(S1302にてNO)、S1305へ進む。
【0053】
S1303では、文書と非代表文字列領域との関連度を取得する。関連度は、図11(a)に示したカラム1103から取得することができる。S1304では、S1303で取得した関連度を該当文書の検索ランキングに設定する。S1305では、該当文書に含まれる検索キーワードの出現頻度を示すtfを計算する。なお、tfの算出方法は公知の計算式を用いるものとする。S1306では、S1305で計算したtfを検索ランキングに設定する。これにより、検索キーワードが文書中に含まれている場合は、検索キーワードの出現頻度が高いほど検索ランキングが高くなる。
【0054】
S1307では、全ての文書を調べたか否かを判定する。全ての文書を調べていないならば(S1307にてNO)、S1309へ進む。S1309では、次の未調査のヒット文書を取得し、S1302へ戻る。全てのヒット文書を調べたならば(S1307にてYES)、S1308へ進む。S1308では、上述の処理で求めた検索ランキング順に検索キーワードにヒットした文書を並び替える。
【0055】
このような処理により、文書画像から代表文字列領域を抽出して生成したテキスト文書に対して、本文中に検索キーワードがヒットしていなくても関連付けられている非代表文字列にヒットしていれば検索ランキング上位に表示される。なお、本実施形態では検索キーワードが文書にヒットした場合の検索ランキングをtfにより算出したが、tf・idfなどの他の手法によって算出してもよい。また、非代表文字列にヒットした場合でもtfなどの手法を組み合わせてランキングを作成してもよい。
【0056】
以上説明したように、本発明によれば、撮影した歪みのある複数の文字領域を持つ画像に対して代表文字列領域と代表文字列領域以外の文字列領域を適切に関連付けることにより、代表文字列領域以外の文字列領域を欠落させずに検索に再利用することができる。
【0057】
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【特許請求の範囲】
【請求項1】
文字を含む画像中の文字領域の歪みを検出し、検出した歪みを補正した文字列領域に含まれる情報を保持する画像処理方法であって、
代表文字列領域抽出手段が、入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出工程と、
非代表文字列領域抽出手段が、入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出工程と、
関連付け手段が、前記非代表文字列領域抽出工程において抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け工程と、
保持手段が、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持工程と
を有することを特徴とする画像処理方法。
【請求項2】
前記関連付け工程において更に、前記代表文字列領域と前記非代表文字列領域とを関連付ける際に、前記代表文字列領域と前記非代表文字列領域の関連度を算出し、
前記保持工程において、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域と併せて前記関連度を保持する
ことを特徴とする請求項1に記載の画像処理方法。
【請求項3】
前記関連付け工程において更に、前記関連度を、前記非代表文字列領域と前記代表文字列領域との距離、相対的位置関係のうち、少なくとも一つを用いて推定することを特徴とする請求項2に記載の画像処理方法。
【請求項4】
前記関連付け工程において更に、前記関連度を、前記非代表文字列領域に含まれる単語が前記代表文字列領域に含まれているか否かを基準として推定することを特徴とする請求項2または3に記載の画像処理方法。
【請求項5】
検索手段が、検索キーワードを用いて文書を検索し、検索ランキングを決定する検索工程を更に有し、
前記検索工程において、前記検索キーワードが含まれる前記非代表文字列領域と、前記代表文字列領域との前記関連度が高い前記文書が上位となるように前記検索ランキングを決定することを特徴とする請求項2乃至4のいずれか一項に記載の画像処理方法。
【請求項6】
文字を含む画像中の文字領域の歪みを検出し、検出した歪みを補正した文字領域に含まれる情報を保持する画像処理装置であって、
入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出手段と、
入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出手段と、
前記非代表文字列領域抽出手段により抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け手段と、
前記関連付け手段により関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持手段と
を有することを特徴とする画像処理装置。
【請求項7】
コンピュータを、
入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出手段、
入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出手段、
前記非代表文字列領域抽出手段により抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け手段、
前記関連付け手段により関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持手段
として機能させるためのプログラム。
【請求項1】
文字を含む画像中の文字領域の歪みを検出し、検出した歪みを補正した文字列領域に含まれる情報を保持する画像処理方法であって、
代表文字列領域抽出手段が、入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出工程と、
非代表文字列領域抽出手段が、入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出工程と、
関連付け手段が、前記非代表文字列領域抽出工程において抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け工程と、
保持手段が、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持工程と
を有することを特徴とする画像処理方法。
【請求項2】
前記関連付け工程において更に、前記代表文字列領域と前記非代表文字列領域とを関連付ける際に、前記代表文字列領域と前記非代表文字列領域の関連度を算出し、
前記保持工程において、前記関連付け工程において関連付けられた前記代表文字列領域と前記非代表文字列領域と併せて前記関連度を保持する
ことを特徴とする請求項1に記載の画像処理方法。
【請求項3】
前記関連付け工程において更に、前記関連度を、前記非代表文字列領域と前記代表文字列領域との距離、相対的位置関係のうち、少なくとも一つを用いて推定することを特徴とする請求項2に記載の画像処理方法。
【請求項4】
前記関連付け工程において更に、前記関連度を、前記非代表文字列領域に含まれる単語が前記代表文字列領域に含まれているか否かを基準として推定することを特徴とする請求項2または3に記載の画像処理方法。
【請求項5】
検索手段が、検索キーワードを用いて文書を検索し、検索ランキングを決定する検索工程を更に有し、
前記検索工程において、前記検索キーワードが含まれる前記非代表文字列領域と、前記代表文字列領域との前記関連度が高い前記文書が上位となるように前記検索ランキングを決定することを特徴とする請求項2乃至4のいずれか一項に記載の画像処理方法。
【請求項6】
文字を含む画像中の文字領域の歪みを検出し、検出した歪みを補正した文字領域に含まれる情報を保持する画像処理装置であって、
入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出手段と、
入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出手段と、
前記非代表文字列領域抽出手段により抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け手段と、
前記関連付け手段により関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持手段と
を有することを特徴とする画像処理装置。
【請求項7】
コンピュータを、
入力された画像から当該画像の中央に位置し、所定の大きさを有する文字領域である代表文字列領域を抽出する代表文字列領域抽出手段、
入力された前記画像において、前記代表文字列領域の外にある文字領域である非代表文字列領域を抽出する非代表文字列領域抽出手段、
前記非代表文字列領域抽出手段により抽出された前記非代表文字列領域それぞれを、前記非代表文字列領域と前記代表文字列領域のそれぞれの消失点の位置関係に基づいて、前記代表文字列領域に関連付ける関連付け手段、
前記関連付け手段により関連付けられた前記代表文字列領域と前記非代表文字列領域の情報を保持する保持手段
として機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2012−18490(P2012−18490A)
【公開日】平成24年1月26日(2012.1.26)
【国際特許分類】
【出願番号】特願2010−154362(P2010−154362)
【出願日】平成22年7月6日(2010.7.6)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成24年1月26日(2012.1.26)
【国際特許分類】
【出願日】平成22年7月6日(2010.7.6)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]