画像処理装置、制御方法、及びプログラム
【課題】カメラなどの撮影装置で文書を撮影した場合、傾きから文書に台形状の歪みが発生する。これを補正するために文書枠を検出する必要があるが、文書領域外に直線成分が多数ある場合などには、文書枠の推定が困難である。
【解決手段】直線成分の組み合わせから文書枠候補を推定する際に、直線の直交方向への色の勾配を加味することで、余分な文書枠候補を絞り込むことを可能とする。
【解決手段】直線成分の組み合わせから文書枠候補を推定する際に、直線の直交方向への色の勾配を加味することで、余分な文書枠候補を絞り込むことを可能とする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、制御方法、及びプログラムに関し、特に、文書画像処理における前処理に関する。
【背景技術】
【0002】
近年、ネットワークの広がりにより、文書が電子的に配布される機会も増え、それに伴い紙の文書をスキャンにより電子文書化して配布可能とする技術が普及している。しかし、掲示されているポスターや、会議で用いたホワイトボード、サイズの大きな模造紙など、スキャンすることが困難な被写体(文書)が存在する。そこで、カメラで撮影した画像を電子文書化する技術が開発されている。ここで、カメラと被写文書との位置関係により得られる画像に台形状の歪みが生じるため、歪みを補正する技術が必要となる。
【0003】
例えば、色差からエッジを取得し、一定以上の長さの線分を文書枠として検出し、歪みを補正する技術がある(特許文献1等参照)。また、台座上にある文書を撮影した場合に、検出した線分候補の撮影画像平面上の相対位置から隣接辺を求めていく技術がある(特許文献2等参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2003−058877号公報
【特許文献2】特開2007−58634号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
文書やホワイトボードなどの長方形の撮影対象をカメラにより撮影した場合、当該撮影対象とカメラを正確に正対させるのが困難であるため、撮影画像中の文書には3次元的な傾きにより、台形状の歪みが生じる。そのため撮影画像中から文書(ホワイトボード)を読みやすい形で抽出する為には、文書枠(ホワイトボードの枠)を正確に抽出する必要がある。文書枠を抽出する方法として、ハフ変換などを用いて直線成分を検出し、4直線から文書枠を推定する方法がある。しかし、文書の背景によっては、直線が多数抽出され、文書枠を構成する組み合わせの数が増大し、正しい文書枠の推定が困難となる問題があった。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本願発明は、以下の構成を有する。文字を含む四辺からなる領域を有し、前記領域の四辺の全てが画像に収まる画像データを入力とし、前記領域の四辺が示す文書枠を抽出する画像処理装置であって、入力された前記画像データから直線成分を検出する検出手段と、前記検出手段にて検出された前記直線成分に対する直交方向において、画素情報の高低による勾配方向を算出する算出手段と、前記検出手段にて検出された前記直線成分の中から四辺を選択し、選択された当該四辺からなる1以上の文書枠候補を抽出する抽出手段と、前記抽出手段にて抽出された前記文書枠候補のうち、文書枠の四辺の勾配方向が当該文書枠の内側もしくは外側のいずれかの方向に対して同一の向きとならない文書枠候補を抽出された前記文書枠候補から除く絞り込み手段とを有する。
【発明の効果】
【0007】
直線が多数検出される煩雑な背景を持つ文書画像から精度よく文書枠の候補を絞り込むことが可能である。
【図面の簡単な説明】
【0008】
【図1】実施形態1の入力画像取得環境の例を示す図。
【図2】実施形態1における入力画像の例を示す図。
【図3】実施形態1の構成例を示す図。
【図4】実施形態1における文書領域抽出のフローチャートの図。
【図5】実施形態1の動作を示すブロック図。
【図6】実施形態1における直線検出処理の例を示す図。
【図7】実施形態1における勾配方向算出処理の例を示す図。
【図8】実施形態1における対辺候補作成処理の例を示す図。
【図9】実施形態1における文書枠座標算出処理の例を示す図。
【図10】実施形態1における文書枠候補抽出処理結果の例を示す図。
【図11】実施形態1における文書枠補正結果の例を示す図。
【図12】実施形態2における文書領域抽出のフローチャートの図。
【図13】実施形態2における縦方向線・横方向線判別処理結果の例を示す図。
【発明を実施するための形態】
【0009】
<実施形態1>
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。図1は、本発明の実施例の画像処理装置へと入力される画像が取得される環境を示す図である。文書媒体101は、撮影対象となる矩形状の白板(ホワイトボード)やポスター、紙文書などであり、本発明ではこれらをまとめて文書と呼ぶこととする。撮影装置102は、文書媒体101を撮影するデジタルカメラなどの撮影装置である。撮影装置102で撮影して得られた画像が、処理対象の画像(入力画像)となる。表示部103は、撮影装置102に備えられ、撮影対象等を表示する。操作部104は、撮影装置102に備えられ、撮影装置102をユーザが操作する際に用いられる。
【0010】
図2に入力画像の例を示す。画像200は、例えば表示部103に表示される。撮影装置102により撮影された画像200は、文書領域210(被写体の文書が写っている領域)と、文書領域以外の部分である背景領域220から構成される。文書領域210には文字領域211が含まれている。また、撮影位置と対象物の位置関係が正対していない場合(すなわち、斜め方向から撮影した場合)、文書領域210には傾き、すなわち線形歪みが生じる。ここでは、文書領域210は実際には直方形であるが、線形歪みにより、台形状の画像となっている。
【0011】
[システム構成]
図3に本発明を実施する画像処理装置300の構成例を示す。画像処理装置300は、撮影画像データの入力を行う画像入力部301と、画像データに本発明の処理を施す画像処理プログラムを実行し、制御するCPU302と、該プログラムを実行する際のワークメモリやデータの一時保存などに利用されるRAM303と、該プログラムやデータを格納する記憶部304とから成る。
【0012】
ここで、画像処理装置300の構成は一例であり、ここで示した以外の構成要素を含んでいても良い。また、外部の汎用コンピュータなどを用いて画像処理を実行しても良いし、撮影装置102などの電子回路上で画像処理を実行しても構わない。
【0013】
図5は本実施形態の全体を説明するブロック図である。撮影画像501は、撮影装置102により撮影された画像を示す。画像判別部502は、撮影画像501が文書領域を含むか否かの判別を行う。文書領域抽出部503は、文書領域を含む撮影画像501から文書領域の枠を抽出する。ここでは、この枠を“文書枠”と記載する。歪み補正部504は、文書領域抽出部503で得た文書枠の撮影画像501上の座標をパラメータとして文書領域に対して逆透視変換を行い、直方形形状へと補正する。電子文書生成部505は、歪み補正部504により補正した画像から外部プログラムにて扱える電子文書506を生成する。電子文書506は、電子文書生成部505により生成された電子文書を示す。
【0014】
[処理の流れ]
以下、撮影画像501の例として、図2に示した画像200を用いた場合の処理を説明する。なお、本処理は、本実施形態において画像処理装置300に備えられたCPU302がRAM303や記憶部304等に格納されたプログラムを読み込み、実行するものである。また、抽出される直線の情報や勾配情報は、RAM303や記憶部304の記憶手段に保持される。
【0015】
画像判別部502により、撮影画像501に文書が含まれるか否かの判定を行う。画像データから文字を抽出する方法に関しては、例えば特開2002−042055号公報などの方法を用いて抽出することができる。処理の結果、画像200から文字領域211が得られ、文書画像を含む画像であると判定される。また、ユーザインターフェースを用いて、ユーザによって画像種別を切り替えても良い。
【0016】
文書領域抽出部503の詳細な処理について、図4のフローチャートを用いて説明する。S401にて、文書領域抽出部503は、画像200から直線成分を検出する。直線成分の検出は、公知の手法を用いて、例えば次のように行うことができる。すなわち、SobelフィルタやLaplacianフィルタなどを用いたエッジ強調手法により、画像200中の文書の境界部分に該当する画素を強調する。このエッジを強調した画像に対し、ハフ変換や最小近似法などの公知の直線抽出法を用いることで、直線を検出することが可能である。検出した直線は、例えば画像データにおける端点と端点の座標を保持し、そのベクトルを算出することで直線の向きを取得することができる。なお、直線のベクトルを求める際には、例えば、画像において左から右へ向かってx座標が増加し、上から下へ向かってy座標が増加する場合、直線の両端のうち、x座標の値が小さい端点を始点とし、他点を終点として求めても良い。同じx座標の値である場合には、y座標の値が小さい端点を始点とする。
【0017】
直線成分を抽出するための処理を適用した結果を図6に示す。図6(a)に示す画像600は、図2に示した画像200に対してエッジ強調を行った例である。図6(b)に示す画像610は、画像600に対してハフ変換を適用し、得られた直線成分を表した図である。この直線抽出の処理の結果、線分611から線分618までの計8本の線分が得られる。
【0018】
S402では、文書領域抽出部503は、S401により得られた全直線成分に対して直交方向の画素情報の変化から勾配方向を算出する。例えば、図7(a)に示す方法では、抽出された直線を含む領域700において、直線に対し、直交方向に走査することで輝度のヒストグラムを取得する。ここで、直交方向に走査するとは、例えば、直交方向の画素の値を順に読み出し、その値を抽出することを意味する。そして、直線と直交線の交点位置でのヒストグラムの傾きから輝度の勾配の方向を取得する。また、S401におけるエッジ画像生成時に、副次的に得られる輝度の勾配情報を用いても良い。
【0019】
具体的には図7(a)に示すように、直線に対し直交する方向において、左から右に走査した結果、輝度が直線の左側と比較し、直線の右側において高くなっている。この場合、直線を基準として輝度の高低により、値の高い方向を向くとして、右向きの勾配情報が取得される。具体的には、直線のベクトルから、そのベクトルに直交する直交ベクトルを求める。そして、その直交ベクトルに沿って画素値(本実施形態では輝度情報)を走査し、ヒストグラムを求める。ここで、図7(a)に示した直線の上部を始点とし、下部を終点とすると、直線のベクトルは下を向いていることとなる。この方向に基づいて画素値を走査する方向を一意とする。このヒストグラムと着目する直線に対する直交ベクトルとから、着目する直線の勾配情報(輝度の勾配)を取得する。そして、先に抽出された直線の情報と勾配情報とを対応付けて、記憶手段に保持する。勾配情報を表現するデータ構造については特に限定するものではないが、例えば直線が示すベクトルに向かって右側の画素値が高ければ“1”、左側が高ければ“0”というフラグを付与してもよい。
【0020】
図7(b)に示す画像710は、画像600で図示した線分に勾配情報を付加した結果である。各線分に付随する矢印は輝度の上向き方向を示す。例えば図7(b)で示す線分611は上向きの矢印に示されている。これは、線分611の位置を基準として下から上方向へ画像の輝度が高くなっている、つまり線分611に対して上側が明るくなっていることを示す。なお、本実施形態において、勾配方向の算出において、輝度情報を用いているが、これに限定されるものではない。例えば、直線を基準として、その近傍の画素値により変化を算出できれば他の情報を用いても良い。
【0021】
S403では、文書領域抽出部503は、S401により得られた線分の一つを処理対象線として選択する。ここでは、処理対象線分として線分611が選択されたとする。S404では、文書領域抽出部503は、未処理の線分全てに対して、S403にて選択された処理対象線分と対辺を成すかを、S402で算出した勾配情報を基に判定する。処理対象線分と対辺を成すと判定された全ての線分を対辺候補として対辺候補リストを作成する。
【0022】
対辺の判定方法について、図8(a)の線分801と線分802を用いて説明する。最初に、線分801、802の座標から“内側”を求める。ここで“内側”とは、線分801の両端、線分802の両端の4点を4頂点とする四角形803を描き、四角形の内部方向を“内側”とする。次に、線分801、802の勾配情報において、勾配方向がいずれも内側へ、または外側へと向いている勾配であれば対辺候補と判定する。つまり、勾配情報としては、対辺となる線分において、逆方向の値を有することとなる。例えば、輝度の上向き方向を表す矢印804、805はそれぞれ内側を向いているため、線分801と線分802は対辺候補と判定される。なお、2線分が作る内側方向へ輝度が高くなる対辺候補を“山型対辺”、内側方向へ輝度が低くなる対辺候補を“谷型対辺”と便宜上呼ぶこととする。例えば画像800における対辺は山型対辺、画像810における対辺は谷型対辺となる。
【0023】
図8(b)に示す画像820は、処理対象である線分611に対して、未処理の線分、つまり線分611以外の全ての直線から対辺となり得る直線を表した図である。対辺候補として線分612、614、616、618が、いずれも谷型対辺として得られた。これらをそれぞれ、対辺種類(線分a,線分b)の命名規則を用いて、谷型対辺(611,612)、谷型対辺(611,614)、谷型対辺(611,616)、谷型対辺(611,618)と表す。なお、実際のデータ構造は、各直線の情報を対応付けて、記憶手段にて保持することとなる。もしくはテーブルを作成し、対応する直線間の情報を保持しても良い。
【0024】
S405では、文書領域抽出部503は、S401により得られた全ての線分に対してS404の処理を行ったか否かを判定する。行っていなければS403へ戻り、他の線分に対しても処理を行う。全ての線分に対して処理が終了していればS406へ進む。すなわち、残りの未処理直線である線分612から618に関しても同様にS404で対辺候補リストを作成する。この処理の結果、谷型対辺(611,612)、谷型対辺(611,614)、谷型対辺(611,616)、谷型対辺(611,618)、山型対辺(612,613)、山型対辺(612,615)、山型対辺(612,617)、谷型対辺(613,614)、山型対辺(613,615)、山型対辺(613,617)、谷型対辺(614,616)、谷型対辺(614,618)、谷型対辺(615,616)、山型対辺(615,617)、谷型対辺(616,618)の15個の対辺候補リストが得られる。そして、全ての直線に対して処理をした後にS406へ進む。
【0025】
S406では、文書領域抽出部503は、S404により得られた対辺候補を1つ処理対象として選択する。ここでは、処理対象の対辺候補として、谷型対辺(611,612)が選択されたとする。
【0026】
S407では、文書領域抽出部503は、S404により得られた対辺候補リストの内、未処理の対辺候補から処理対辺候補と山谷同型の対辺候補を組み合わせて文書枠候補リストを作成する。また、処理対象対辺候補と、同じ辺を持つ対辺候補については文書枠を形成できないため、除外する。なお、2つの谷型対辺から構成される文書枠候補を“谷型枠”、2つの山型対辺から構成される文書枠候補を“山型枠”と呼ぶこととする。これらの文書枠は、いずれも四辺の勾配方向が、文書枠の内側外側を基準として、同一の向きとなっている。すなわち、山型枠は、四辺の勾配方向が全て文書枠の内側を向いており、谷型枠は、四辺の勾配方向が全て文書枠の外側を向いている。
【0027】
処理対象の対辺候補である谷型対辺(611,612)に対しては、同じ谷型対辺であり、線分611、612を含まない対辺候補である、谷型対辺(613,614)、谷型対辺(614,616)、谷型対辺(614,618)、谷型対辺(615,616)、谷型対辺(616,618)が谷型枠候補として得られる。
【0028】
これらをそれぞれ、枠種類(線分a,線分a’,線分b,線分b’)の命名規則を用いて、谷型枠(611,612,613,614)、谷型枠(611,612,614,616)、谷型枠(611,612,614,618)、谷型枠(611,612,615,616)、谷型枠(611,612,616,618)と表す。
【0029】
S408では、文書領域抽出部503は、S404により得られた全ての対辺候補に対して、S407の処理を行ったか否かを判定する。全ての対辺候補に対する処理が終了していなければS406へ戻り、未処理の対辺候補に対して処理を適用する。全ての対辺候補への処理が終了していればS409へ進む。
【0030】
このように、残りの未処理対辺に関しても同様にS407で文書枠候補リストを作成する。この処理により谷型枠(611,612,613,614)、谷型枠(611,612,614,616)、谷型枠(611,612,614,618)、谷型枠(611,612,615,616)、谷型枠(611,612,616,618)、谷型枠(611,614,615,616)、谷型枠(611,614,616,618)、谷型枠(611,616,613,614)、谷型枠(611,618,613,614)、谷型枠(611,618,614,616)、谷型枠(613,614,615,616)、谷型枠(614,618,615,616)、山型枠(612,613,615,617)、山型枠(612,615,613,617)、山型枠(612,617,613,615)の15の文書枠候補リストが得られる。そして、全ての直線に対して処理をした後、S409へ進む。
【0031】
S409では、文書枠候補の4線分から実際に文書枠となる四角形を算出する。直線検出で求めた線分はレンズの歪みやノイズなどの影響から、通常は実際の枠辺と同一にはならない。そのため、線分を延伸することにより4線分のそれぞれの交点を計算し、頂点とする。
【0032】
例えば、以下の4つの線分について説明する。ここで、x、yはそれぞれ線分の端点のx座標、y座標を示す。
【0033】
線分A(Ax1,Ay1)−(Ax2,Ay2)
線分a(ax1,ay1)−(ax2,ay2) (線分Aの対辺)
線分B(Bx1,By1)−(Bx2,By2)
線分b(bx1,by1)−(bx2,by2) (線分Bの対辺)
上記の4線分からなる四角形の頂点は、隣接辺である線分AとB、線分Aとb、線分aとB、線分aとb、の交点を求める事でわかる。図9(a)に示す計算式900は、線分A(Ax1,Ay1)−(Ax2,Ay2)と線分B(Bx1,By1)−(Bx2,By2)との交点座標(ABx,ABy)を求める計算式である。
【0034】
ここで、条件として、
(−Ay1+Ay2)*(Bx1−Bx2)−(Ax1−Ax2)*(−By1+By2)=0
であった場合は隣接辺が平行となり、解は存在しないため、文書枠候補から除外する。
【0035】
また、画像910で示す、線分911,912,913,914から算出した4つの頂点915,916,917,918が作る四角形のように、四角形の各辺に線分が重ならない場合も候補のリストから除外する。S408で作成した14の文書枠候補リストの内、谷型枠(611,612,613,614)、谷型枠(611,612,614,616)、谷型枠(611,612,614,618)、谷型枠(611,612,615,616)、谷型枠(611,612,616,618)、谷型枠(611,614,615,616)、谷型枠(611,614,616,618)、谷型枠(611,616,613,614)、谷型枠(611,618,613,614)、谷型枠(613,614,615,616)、谷型枠(614,618,615,616)、山型枠(612,613,615,617)、山型枠(612,615,613,617)の13枠候補は含まれる四辺が文書枠を成さないため除外される。図10(a)の画像1000に示す、谷型枠(611,614,616,618)1001と山型枠(612,617,613,615)1002の2枠候補へと最終的に絞り込まれ、図4のフローチャートの全処理が完了する。なお、本フローチャートでは説明の為に対辺単位での処理を行ったが、最初から4線分を網羅的に組み合わせ、勾配情報に基づいて文書枠候補を判定しても良い。
【0036】
図10(b)に示す画像1010は、表示部103に文書枠候補の絞り込み結果を表示した例である。オリジナル画像表示部1011は、撮影画像上に文書枠候補をオーバーレイ表示する。候補サムネイル部1012は、それぞれの文書枠候補について歪み補正した結果をサムネイルで表示する。この表示部103に表示された画像を参照して、ユーザが操作部104で選択操作を行うことにより、補正に使用する文書枠候補を決定することができる。ここでは、補正に使用する文書枠として山型枠(612,617,613,615)1002がユーザにより選択されたとする。なお、表示部103に表示する画像1010の構成は一例であり、パーソナルコンピューター上で決定しても良いし、1以上の文書枠候補全てに対して歪み補正処理をかけ、電子文書化しても良い。
【0037】
歪み補正部504では、文書領域抽出部503で得られた文書枠の頂点情報から歪みを補正する。ここでの歪み補正とは、矩形領域を3次元的な角度をもって2次元平面に投影した場合に生成される不等辺四角形領域を、元の矩形領域へと補正する演算、いわゆる逆透視変換演算である。用いられる変換行列のパラメータについては、例えば特開2003−288588に開示されているように、逆透視変換の演算式に4頂点の座標を与える事で、得られる連立方程式を解くことにより抽出できる。その他、本発明に適用できれば、どのような手法を用いても良い。
【0038】
電子文書生成部505では、補正した画像を電子文書506として生成し出力する。ここでは、電子文書506としてJPEG形式により出力する。なお、JPEG形式の出力は一例であり、電子デバイスの取り扱い可能な形式に応じた変換や、再利用可能な電子文書、例えばワードプロセッシング文書やプレゼンテーション文書などへ変換しても良い。
【0039】
図11(a)に示す画像1100は、実施形態1を適用した結果、出力される電子文書506の例である。対象物との傾きから台形状に歪んだ部分が、正対した長方形の状態で電子文書化される。
【0040】
また、図11(b)の画像1110は勾配情報を用いなかった場合の例である。線分612、614、615、618からなる文書枠1111のような文書枠まで余分に検出される。この場合には、合計16通りから文書枠候補の選択をする必要がある。
【0041】
以上説明したように、本発明を適用することで、適用しない場合と比較し、好適な文書枠候補を残したまま削減することが可能となり、後段の処理の負荷を軽減することができる。
【0042】
<実施形態2>
実施形態1では、単純に全ての直線から総当たりで対辺候補の検索を行った。しかし、実際の文書画像では背景領域などから直線が多く検出されれば、その分負荷が増大する。そこで、縦方向の線分と横方向の線分を分類する方法を組み合わせることで絞り込みの処理をさらに高速化することが可能である。
【0043】
図12は本実施形態の文書領域抽出部503における文書領域抽出処理をフローチャートにより説明した図である。以下、入力される撮影画像501の例に、図2に示した画像200を用いて処理を説明する。なお、本処理フローは例えば、CPU302がRAM303や記憶部304に格納されたプログラムやデータを読み出し、実行することで実現される。S1201では、文書領域抽出部503は、直線成分を検出する。詳細な処理方法はS401と同様であるため省略する。図6(b)に示す画像610が直線検出した結果である。ここでは線分611から618まで8本の直線が検出される。S1202では、文書領域抽出部503は、直線の勾配方向を算出する。詳細な処理方法はS402と同様であるため省略する。図7(b)に示す画像710が勾配情報を付加した結果である。
【0044】
S1203では、文書領域抽出部503は、縦方向線及び横方向線の判定を行う。画像平面上での水平に対する線分の相対角度から、縦方向線および横方向線の判定を行う。ここでは、水平に対して相対的に0度以上45度未満、135度以上180度未満であれば横方向線、45度以上135度未満であれば縦方向線と判定する。なお、縦方向線もしくは横方向線を判定するための基準は、上記の値に限定されるものではなく、必要に応じて変更して良い。また、本発明を適用可能であれば、他の方法を用いても良い。図13に示す画像1300が縦方向線と横方向線を判定した結果である。ここでは、縦方向線を実線、横方向線を破線で表す。
【0045】
S1204では、文書領域抽出部503は、処理対象となる線分を選択する。ここでは線分611が選択されたとする。S1205では、文書領域抽出部503は、処理対象線分が縦方向線か横方向線かによる分岐処理を行う。縦方向線であればS1206へ、横方向線であればS1207へ進む。ここで、線分611は横方向線であるので、S1207へ進む。
【0046】
S1207では、文書領域抽出部503は、未処理の横方向線に対して上下対辺候補を作成する。ここでは未処理の横方向線として線分612、617、618が対象となる。対辺候補の判定自体はS404と同様であるため省略する。結果、対辺候補として612、618が、いずれも横方向の谷型対辺として得られた。これらをそれぞれ、上下谷型対辺(611,612)、上下谷型対辺(611,618)と表す。なお、上下谷型対辺、上下山型対辺は“上下対辺”であり、左右谷型対辺、左右山型対辺は“左右対辺”となる。
【0047】
S1208の終了判定に従い、線分612から618まで繰り返し処理を行う。S1204で線分613(縦方向線)が選択されたとする。S1205で縦方向線と判定され、S1206へ進む。S1206では、未処理の縦方向線として線分614、615、616を対象として左右対辺候補を作成する。処理の結果、谷型対辺候補として線分614、山型対辺候補として線分615が取得される。これらをそれぞれ、左右谷型対辺(613,614)、左右山型対辺(613,615)と表す。
【0048】
同様に残りの線分に対してS1204からS1208を繰り返す。処理の結果、上下谷型対辺(611,612)、上下谷型対辺(611,618)、上下谷型対辺(617,618)、上下山型対辺(612,617)、左右谷型対辺(613,614)、左右谷型対辺(614,616)、左右谷型対辺(615,616)、左右山型対辺(613,615)の8個の対辺候補リストが作成された。全ての線分に対して処理が完了した後、S1209へ進む。
【0049】
S1209では、文書領域抽出部503は、上下谷型対辺(611,612)を処理対象対辺として選択し、S1210へ進む。S1210では、文書領域抽出部503は、上下対辺か左右対辺かで処理の分岐を行う。ここで、上下谷型対辺(611,612)は“上下対辺”であるため、S1211へ進む。
【0050】
S1211では、文書領域抽出部503は、未処理の左右対辺に対して文書枠候補リストを作成する。ここでは、左右谷型対辺(613,614)、左右谷型対辺(614,616)、左右谷型対辺(615,616)、左右山型対辺(613,615)が対象となる。詳細な処理はS407と同様であるため省略する。処理の結果、左右谷型対辺(613,614)、左右谷型対辺(614,616)、左右谷型対辺(615,616)が文書枠候補として得られた。これらをそれぞれ谷型枠候補(611,612,613,614)、谷型枠候補(611,612,614,616)、谷型枠候補(611,612,615,616)と表す。
【0051】
S1213の終了判定に従い、未処理の対辺について処理を行う。S1209で左右谷型対辺(613,614)が選択されたとする。S1210で左右対辺と判断されS1212へ進む。S1212では、未処理の上下対辺に対して文書枠候補リストを作成する。ここでは、上下谷型対辺(611,618)、上下谷型対辺(617,618)、上下山型対辺(612,617)が対象となる。処理の結果、谷型枠候補(611,618,613,614)、谷型枠候補(617,618,613,614)が得られる。
【0052】
同様に残りの対辺に対してS1209からS1213を繰り返す。結果、谷型枠候補(611,612,613,614)、谷型枠候補(611,612,614,616)、谷型枠候補(611,612,615,616)、谷型枠候補(611,618,613,614)、谷型枠候補(611,618,614,616)、谷型枠候補(611,618,615,616)、谷型枠候補(617,618,613,614)、谷型枠候補(617,618,614,616)、谷型枠候補(617,618,615,616)、山型枠候補(612,617,613,615)の10個の文書枠候補リストが作成された。全ての線分に対して処理が完了した後、S1209へ進む。
【0053】
S1214では、文書領域抽出部503は、4線分から文書枠の頂点の算出を行う。詳細な処理はS409と同様であるため省略する。処理の結果、谷型枠(611,614,616,618)1001と山型枠(612,617,613,615)1002の2枠候補へと最終的に絞り込まれ、図12のフローチャートの全処理が完了する。歪み補正部504、電子文書生成部505の処理に関しては、実施形態1と同様であるため省略する。
【0054】
以上説明したように、実施形態1と比較して、対辺候補数が15から8へ、文書枠候補数が15から10へ、いずれも削減することができた。対辺候補作成処理時には、実施形態1では8本中2本の線分の組み合わせである28通りで探索するのに対し、実施形態2では、縦方向線4本中2本の組み合わせと、横方向線4本中2本の組み合わせとの計12通りの探索で済む。このことから、実施形態1の効果に加え、更に処理コストを削減することができる。
【0055】
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【技術分野】
【0001】
本発明は、画像処理装置、制御方法、及びプログラムに関し、特に、文書画像処理における前処理に関する。
【背景技術】
【0002】
近年、ネットワークの広がりにより、文書が電子的に配布される機会も増え、それに伴い紙の文書をスキャンにより電子文書化して配布可能とする技術が普及している。しかし、掲示されているポスターや、会議で用いたホワイトボード、サイズの大きな模造紙など、スキャンすることが困難な被写体(文書)が存在する。そこで、カメラで撮影した画像を電子文書化する技術が開発されている。ここで、カメラと被写文書との位置関係により得られる画像に台形状の歪みが生じるため、歪みを補正する技術が必要となる。
【0003】
例えば、色差からエッジを取得し、一定以上の長さの線分を文書枠として検出し、歪みを補正する技術がある(特許文献1等参照)。また、台座上にある文書を撮影した場合に、検出した線分候補の撮影画像平面上の相対位置から隣接辺を求めていく技術がある(特許文献2等参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2003−058877号公報
【特許文献2】特開2007−58634号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
文書やホワイトボードなどの長方形の撮影対象をカメラにより撮影した場合、当該撮影対象とカメラを正確に正対させるのが困難であるため、撮影画像中の文書には3次元的な傾きにより、台形状の歪みが生じる。そのため撮影画像中から文書(ホワイトボード)を読みやすい形で抽出する為には、文書枠(ホワイトボードの枠)を正確に抽出する必要がある。文書枠を抽出する方法として、ハフ変換などを用いて直線成分を検出し、4直線から文書枠を推定する方法がある。しかし、文書の背景によっては、直線が多数抽出され、文書枠を構成する組み合わせの数が増大し、正しい文書枠の推定が困難となる問題があった。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本願発明は、以下の構成を有する。文字を含む四辺からなる領域を有し、前記領域の四辺の全てが画像に収まる画像データを入力とし、前記領域の四辺が示す文書枠を抽出する画像処理装置であって、入力された前記画像データから直線成分を検出する検出手段と、前記検出手段にて検出された前記直線成分に対する直交方向において、画素情報の高低による勾配方向を算出する算出手段と、前記検出手段にて検出された前記直線成分の中から四辺を選択し、選択された当該四辺からなる1以上の文書枠候補を抽出する抽出手段と、前記抽出手段にて抽出された前記文書枠候補のうち、文書枠の四辺の勾配方向が当該文書枠の内側もしくは外側のいずれかの方向に対して同一の向きとならない文書枠候補を抽出された前記文書枠候補から除く絞り込み手段とを有する。
【発明の効果】
【0007】
直線が多数検出される煩雑な背景を持つ文書画像から精度よく文書枠の候補を絞り込むことが可能である。
【図面の簡単な説明】
【0008】
【図1】実施形態1の入力画像取得環境の例を示す図。
【図2】実施形態1における入力画像の例を示す図。
【図3】実施形態1の構成例を示す図。
【図4】実施形態1における文書領域抽出のフローチャートの図。
【図5】実施形態1の動作を示すブロック図。
【図6】実施形態1における直線検出処理の例を示す図。
【図7】実施形態1における勾配方向算出処理の例を示す図。
【図8】実施形態1における対辺候補作成処理の例を示す図。
【図9】実施形態1における文書枠座標算出処理の例を示す図。
【図10】実施形態1における文書枠候補抽出処理結果の例を示す図。
【図11】実施形態1における文書枠補正結果の例を示す図。
【図12】実施形態2における文書領域抽出のフローチャートの図。
【図13】実施形態2における縦方向線・横方向線判別処理結果の例を示す図。
【発明を実施するための形態】
【0009】
<実施形態1>
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。図1は、本発明の実施例の画像処理装置へと入力される画像が取得される環境を示す図である。文書媒体101は、撮影対象となる矩形状の白板(ホワイトボード)やポスター、紙文書などであり、本発明ではこれらをまとめて文書と呼ぶこととする。撮影装置102は、文書媒体101を撮影するデジタルカメラなどの撮影装置である。撮影装置102で撮影して得られた画像が、処理対象の画像(入力画像)となる。表示部103は、撮影装置102に備えられ、撮影対象等を表示する。操作部104は、撮影装置102に備えられ、撮影装置102をユーザが操作する際に用いられる。
【0010】
図2に入力画像の例を示す。画像200は、例えば表示部103に表示される。撮影装置102により撮影された画像200は、文書領域210(被写体の文書が写っている領域)と、文書領域以外の部分である背景領域220から構成される。文書領域210には文字領域211が含まれている。また、撮影位置と対象物の位置関係が正対していない場合(すなわち、斜め方向から撮影した場合)、文書領域210には傾き、すなわち線形歪みが生じる。ここでは、文書領域210は実際には直方形であるが、線形歪みにより、台形状の画像となっている。
【0011】
[システム構成]
図3に本発明を実施する画像処理装置300の構成例を示す。画像処理装置300は、撮影画像データの入力を行う画像入力部301と、画像データに本発明の処理を施す画像処理プログラムを実行し、制御するCPU302と、該プログラムを実行する際のワークメモリやデータの一時保存などに利用されるRAM303と、該プログラムやデータを格納する記憶部304とから成る。
【0012】
ここで、画像処理装置300の構成は一例であり、ここで示した以外の構成要素を含んでいても良い。また、外部の汎用コンピュータなどを用いて画像処理を実行しても良いし、撮影装置102などの電子回路上で画像処理を実行しても構わない。
【0013】
図5は本実施形態の全体を説明するブロック図である。撮影画像501は、撮影装置102により撮影された画像を示す。画像判別部502は、撮影画像501が文書領域を含むか否かの判別を行う。文書領域抽出部503は、文書領域を含む撮影画像501から文書領域の枠を抽出する。ここでは、この枠を“文書枠”と記載する。歪み補正部504は、文書領域抽出部503で得た文書枠の撮影画像501上の座標をパラメータとして文書領域に対して逆透視変換を行い、直方形形状へと補正する。電子文書生成部505は、歪み補正部504により補正した画像から外部プログラムにて扱える電子文書506を生成する。電子文書506は、電子文書生成部505により生成された電子文書を示す。
【0014】
[処理の流れ]
以下、撮影画像501の例として、図2に示した画像200を用いた場合の処理を説明する。なお、本処理は、本実施形態において画像処理装置300に備えられたCPU302がRAM303や記憶部304等に格納されたプログラムを読み込み、実行するものである。また、抽出される直線の情報や勾配情報は、RAM303や記憶部304の記憶手段に保持される。
【0015】
画像判別部502により、撮影画像501に文書が含まれるか否かの判定を行う。画像データから文字を抽出する方法に関しては、例えば特開2002−042055号公報などの方法を用いて抽出することができる。処理の結果、画像200から文字領域211が得られ、文書画像を含む画像であると判定される。また、ユーザインターフェースを用いて、ユーザによって画像種別を切り替えても良い。
【0016】
文書領域抽出部503の詳細な処理について、図4のフローチャートを用いて説明する。S401にて、文書領域抽出部503は、画像200から直線成分を検出する。直線成分の検出は、公知の手法を用いて、例えば次のように行うことができる。すなわち、SobelフィルタやLaplacianフィルタなどを用いたエッジ強調手法により、画像200中の文書の境界部分に該当する画素を強調する。このエッジを強調した画像に対し、ハフ変換や最小近似法などの公知の直線抽出法を用いることで、直線を検出することが可能である。検出した直線は、例えば画像データにおける端点と端点の座標を保持し、そのベクトルを算出することで直線の向きを取得することができる。なお、直線のベクトルを求める際には、例えば、画像において左から右へ向かってx座標が増加し、上から下へ向かってy座標が増加する場合、直線の両端のうち、x座標の値が小さい端点を始点とし、他点を終点として求めても良い。同じx座標の値である場合には、y座標の値が小さい端点を始点とする。
【0017】
直線成分を抽出するための処理を適用した結果を図6に示す。図6(a)に示す画像600は、図2に示した画像200に対してエッジ強調を行った例である。図6(b)に示す画像610は、画像600に対してハフ変換を適用し、得られた直線成分を表した図である。この直線抽出の処理の結果、線分611から線分618までの計8本の線分が得られる。
【0018】
S402では、文書領域抽出部503は、S401により得られた全直線成分に対して直交方向の画素情報の変化から勾配方向を算出する。例えば、図7(a)に示す方法では、抽出された直線を含む領域700において、直線に対し、直交方向に走査することで輝度のヒストグラムを取得する。ここで、直交方向に走査するとは、例えば、直交方向の画素の値を順に読み出し、その値を抽出することを意味する。そして、直線と直交線の交点位置でのヒストグラムの傾きから輝度の勾配の方向を取得する。また、S401におけるエッジ画像生成時に、副次的に得られる輝度の勾配情報を用いても良い。
【0019】
具体的には図7(a)に示すように、直線に対し直交する方向において、左から右に走査した結果、輝度が直線の左側と比較し、直線の右側において高くなっている。この場合、直線を基準として輝度の高低により、値の高い方向を向くとして、右向きの勾配情報が取得される。具体的には、直線のベクトルから、そのベクトルに直交する直交ベクトルを求める。そして、その直交ベクトルに沿って画素値(本実施形態では輝度情報)を走査し、ヒストグラムを求める。ここで、図7(a)に示した直線の上部を始点とし、下部を終点とすると、直線のベクトルは下を向いていることとなる。この方向に基づいて画素値を走査する方向を一意とする。このヒストグラムと着目する直線に対する直交ベクトルとから、着目する直線の勾配情報(輝度の勾配)を取得する。そして、先に抽出された直線の情報と勾配情報とを対応付けて、記憶手段に保持する。勾配情報を表現するデータ構造については特に限定するものではないが、例えば直線が示すベクトルに向かって右側の画素値が高ければ“1”、左側が高ければ“0”というフラグを付与してもよい。
【0020】
図7(b)に示す画像710は、画像600で図示した線分に勾配情報を付加した結果である。各線分に付随する矢印は輝度の上向き方向を示す。例えば図7(b)で示す線分611は上向きの矢印に示されている。これは、線分611の位置を基準として下から上方向へ画像の輝度が高くなっている、つまり線分611に対して上側が明るくなっていることを示す。なお、本実施形態において、勾配方向の算出において、輝度情報を用いているが、これに限定されるものではない。例えば、直線を基準として、その近傍の画素値により変化を算出できれば他の情報を用いても良い。
【0021】
S403では、文書領域抽出部503は、S401により得られた線分の一つを処理対象線として選択する。ここでは、処理対象線分として線分611が選択されたとする。S404では、文書領域抽出部503は、未処理の線分全てに対して、S403にて選択された処理対象線分と対辺を成すかを、S402で算出した勾配情報を基に判定する。処理対象線分と対辺を成すと判定された全ての線分を対辺候補として対辺候補リストを作成する。
【0022】
対辺の判定方法について、図8(a)の線分801と線分802を用いて説明する。最初に、線分801、802の座標から“内側”を求める。ここで“内側”とは、線分801の両端、線分802の両端の4点を4頂点とする四角形803を描き、四角形の内部方向を“内側”とする。次に、線分801、802の勾配情報において、勾配方向がいずれも内側へ、または外側へと向いている勾配であれば対辺候補と判定する。つまり、勾配情報としては、対辺となる線分において、逆方向の値を有することとなる。例えば、輝度の上向き方向を表す矢印804、805はそれぞれ内側を向いているため、線分801と線分802は対辺候補と判定される。なお、2線分が作る内側方向へ輝度が高くなる対辺候補を“山型対辺”、内側方向へ輝度が低くなる対辺候補を“谷型対辺”と便宜上呼ぶこととする。例えば画像800における対辺は山型対辺、画像810における対辺は谷型対辺となる。
【0023】
図8(b)に示す画像820は、処理対象である線分611に対して、未処理の線分、つまり線分611以外の全ての直線から対辺となり得る直線を表した図である。対辺候補として線分612、614、616、618が、いずれも谷型対辺として得られた。これらをそれぞれ、対辺種類(線分a,線分b)の命名規則を用いて、谷型対辺(611,612)、谷型対辺(611,614)、谷型対辺(611,616)、谷型対辺(611,618)と表す。なお、実際のデータ構造は、各直線の情報を対応付けて、記憶手段にて保持することとなる。もしくはテーブルを作成し、対応する直線間の情報を保持しても良い。
【0024】
S405では、文書領域抽出部503は、S401により得られた全ての線分に対してS404の処理を行ったか否かを判定する。行っていなければS403へ戻り、他の線分に対しても処理を行う。全ての線分に対して処理が終了していればS406へ進む。すなわち、残りの未処理直線である線分612から618に関しても同様にS404で対辺候補リストを作成する。この処理の結果、谷型対辺(611,612)、谷型対辺(611,614)、谷型対辺(611,616)、谷型対辺(611,618)、山型対辺(612,613)、山型対辺(612,615)、山型対辺(612,617)、谷型対辺(613,614)、山型対辺(613,615)、山型対辺(613,617)、谷型対辺(614,616)、谷型対辺(614,618)、谷型対辺(615,616)、山型対辺(615,617)、谷型対辺(616,618)の15個の対辺候補リストが得られる。そして、全ての直線に対して処理をした後にS406へ進む。
【0025】
S406では、文書領域抽出部503は、S404により得られた対辺候補を1つ処理対象として選択する。ここでは、処理対象の対辺候補として、谷型対辺(611,612)が選択されたとする。
【0026】
S407では、文書領域抽出部503は、S404により得られた対辺候補リストの内、未処理の対辺候補から処理対辺候補と山谷同型の対辺候補を組み合わせて文書枠候補リストを作成する。また、処理対象対辺候補と、同じ辺を持つ対辺候補については文書枠を形成できないため、除外する。なお、2つの谷型対辺から構成される文書枠候補を“谷型枠”、2つの山型対辺から構成される文書枠候補を“山型枠”と呼ぶこととする。これらの文書枠は、いずれも四辺の勾配方向が、文書枠の内側外側を基準として、同一の向きとなっている。すなわち、山型枠は、四辺の勾配方向が全て文書枠の内側を向いており、谷型枠は、四辺の勾配方向が全て文書枠の外側を向いている。
【0027】
処理対象の対辺候補である谷型対辺(611,612)に対しては、同じ谷型対辺であり、線分611、612を含まない対辺候補である、谷型対辺(613,614)、谷型対辺(614,616)、谷型対辺(614,618)、谷型対辺(615,616)、谷型対辺(616,618)が谷型枠候補として得られる。
【0028】
これらをそれぞれ、枠種類(線分a,線分a’,線分b,線分b’)の命名規則を用いて、谷型枠(611,612,613,614)、谷型枠(611,612,614,616)、谷型枠(611,612,614,618)、谷型枠(611,612,615,616)、谷型枠(611,612,616,618)と表す。
【0029】
S408では、文書領域抽出部503は、S404により得られた全ての対辺候補に対して、S407の処理を行ったか否かを判定する。全ての対辺候補に対する処理が終了していなければS406へ戻り、未処理の対辺候補に対して処理を適用する。全ての対辺候補への処理が終了していればS409へ進む。
【0030】
このように、残りの未処理対辺に関しても同様にS407で文書枠候補リストを作成する。この処理により谷型枠(611,612,613,614)、谷型枠(611,612,614,616)、谷型枠(611,612,614,618)、谷型枠(611,612,615,616)、谷型枠(611,612,616,618)、谷型枠(611,614,615,616)、谷型枠(611,614,616,618)、谷型枠(611,616,613,614)、谷型枠(611,618,613,614)、谷型枠(611,618,614,616)、谷型枠(613,614,615,616)、谷型枠(614,618,615,616)、山型枠(612,613,615,617)、山型枠(612,615,613,617)、山型枠(612,617,613,615)の15の文書枠候補リストが得られる。そして、全ての直線に対して処理をした後、S409へ進む。
【0031】
S409では、文書枠候補の4線分から実際に文書枠となる四角形を算出する。直線検出で求めた線分はレンズの歪みやノイズなどの影響から、通常は実際の枠辺と同一にはならない。そのため、線分を延伸することにより4線分のそれぞれの交点を計算し、頂点とする。
【0032】
例えば、以下の4つの線分について説明する。ここで、x、yはそれぞれ線分の端点のx座標、y座標を示す。
【0033】
線分A(Ax1,Ay1)−(Ax2,Ay2)
線分a(ax1,ay1)−(ax2,ay2) (線分Aの対辺)
線分B(Bx1,By1)−(Bx2,By2)
線分b(bx1,by1)−(bx2,by2) (線分Bの対辺)
上記の4線分からなる四角形の頂点は、隣接辺である線分AとB、線分Aとb、線分aとB、線分aとb、の交点を求める事でわかる。図9(a)に示す計算式900は、線分A(Ax1,Ay1)−(Ax2,Ay2)と線分B(Bx1,By1)−(Bx2,By2)との交点座標(ABx,ABy)を求める計算式である。
【0034】
ここで、条件として、
(−Ay1+Ay2)*(Bx1−Bx2)−(Ax1−Ax2)*(−By1+By2)=0
であった場合は隣接辺が平行となり、解は存在しないため、文書枠候補から除外する。
【0035】
また、画像910で示す、線分911,912,913,914から算出した4つの頂点915,916,917,918が作る四角形のように、四角形の各辺に線分が重ならない場合も候補のリストから除外する。S408で作成した14の文書枠候補リストの内、谷型枠(611,612,613,614)、谷型枠(611,612,614,616)、谷型枠(611,612,614,618)、谷型枠(611,612,615,616)、谷型枠(611,612,616,618)、谷型枠(611,614,615,616)、谷型枠(611,614,616,618)、谷型枠(611,616,613,614)、谷型枠(611,618,613,614)、谷型枠(613,614,615,616)、谷型枠(614,618,615,616)、山型枠(612,613,615,617)、山型枠(612,615,613,617)の13枠候補は含まれる四辺が文書枠を成さないため除外される。図10(a)の画像1000に示す、谷型枠(611,614,616,618)1001と山型枠(612,617,613,615)1002の2枠候補へと最終的に絞り込まれ、図4のフローチャートの全処理が完了する。なお、本フローチャートでは説明の為に対辺単位での処理を行ったが、最初から4線分を網羅的に組み合わせ、勾配情報に基づいて文書枠候補を判定しても良い。
【0036】
図10(b)に示す画像1010は、表示部103に文書枠候補の絞り込み結果を表示した例である。オリジナル画像表示部1011は、撮影画像上に文書枠候補をオーバーレイ表示する。候補サムネイル部1012は、それぞれの文書枠候補について歪み補正した結果をサムネイルで表示する。この表示部103に表示された画像を参照して、ユーザが操作部104で選択操作を行うことにより、補正に使用する文書枠候補を決定することができる。ここでは、補正に使用する文書枠として山型枠(612,617,613,615)1002がユーザにより選択されたとする。なお、表示部103に表示する画像1010の構成は一例であり、パーソナルコンピューター上で決定しても良いし、1以上の文書枠候補全てに対して歪み補正処理をかけ、電子文書化しても良い。
【0037】
歪み補正部504では、文書領域抽出部503で得られた文書枠の頂点情報から歪みを補正する。ここでの歪み補正とは、矩形領域を3次元的な角度をもって2次元平面に投影した場合に生成される不等辺四角形領域を、元の矩形領域へと補正する演算、いわゆる逆透視変換演算である。用いられる変換行列のパラメータについては、例えば特開2003−288588に開示されているように、逆透視変換の演算式に4頂点の座標を与える事で、得られる連立方程式を解くことにより抽出できる。その他、本発明に適用できれば、どのような手法を用いても良い。
【0038】
電子文書生成部505では、補正した画像を電子文書506として生成し出力する。ここでは、電子文書506としてJPEG形式により出力する。なお、JPEG形式の出力は一例であり、電子デバイスの取り扱い可能な形式に応じた変換や、再利用可能な電子文書、例えばワードプロセッシング文書やプレゼンテーション文書などへ変換しても良い。
【0039】
図11(a)に示す画像1100は、実施形態1を適用した結果、出力される電子文書506の例である。対象物との傾きから台形状に歪んだ部分が、正対した長方形の状態で電子文書化される。
【0040】
また、図11(b)の画像1110は勾配情報を用いなかった場合の例である。線分612、614、615、618からなる文書枠1111のような文書枠まで余分に検出される。この場合には、合計16通りから文書枠候補の選択をする必要がある。
【0041】
以上説明したように、本発明を適用することで、適用しない場合と比較し、好適な文書枠候補を残したまま削減することが可能となり、後段の処理の負荷を軽減することができる。
【0042】
<実施形態2>
実施形態1では、単純に全ての直線から総当たりで対辺候補の検索を行った。しかし、実際の文書画像では背景領域などから直線が多く検出されれば、その分負荷が増大する。そこで、縦方向の線分と横方向の線分を分類する方法を組み合わせることで絞り込みの処理をさらに高速化することが可能である。
【0043】
図12は本実施形態の文書領域抽出部503における文書領域抽出処理をフローチャートにより説明した図である。以下、入力される撮影画像501の例に、図2に示した画像200を用いて処理を説明する。なお、本処理フローは例えば、CPU302がRAM303や記憶部304に格納されたプログラムやデータを読み出し、実行することで実現される。S1201では、文書領域抽出部503は、直線成分を検出する。詳細な処理方法はS401と同様であるため省略する。図6(b)に示す画像610が直線検出した結果である。ここでは線分611から618まで8本の直線が検出される。S1202では、文書領域抽出部503は、直線の勾配方向を算出する。詳細な処理方法はS402と同様であるため省略する。図7(b)に示す画像710が勾配情報を付加した結果である。
【0044】
S1203では、文書領域抽出部503は、縦方向線及び横方向線の判定を行う。画像平面上での水平に対する線分の相対角度から、縦方向線および横方向線の判定を行う。ここでは、水平に対して相対的に0度以上45度未満、135度以上180度未満であれば横方向線、45度以上135度未満であれば縦方向線と判定する。なお、縦方向線もしくは横方向線を判定するための基準は、上記の値に限定されるものではなく、必要に応じて変更して良い。また、本発明を適用可能であれば、他の方法を用いても良い。図13に示す画像1300が縦方向線と横方向線を判定した結果である。ここでは、縦方向線を実線、横方向線を破線で表す。
【0045】
S1204では、文書領域抽出部503は、処理対象となる線分を選択する。ここでは線分611が選択されたとする。S1205では、文書領域抽出部503は、処理対象線分が縦方向線か横方向線かによる分岐処理を行う。縦方向線であればS1206へ、横方向線であればS1207へ進む。ここで、線分611は横方向線であるので、S1207へ進む。
【0046】
S1207では、文書領域抽出部503は、未処理の横方向線に対して上下対辺候補を作成する。ここでは未処理の横方向線として線分612、617、618が対象となる。対辺候補の判定自体はS404と同様であるため省略する。結果、対辺候補として612、618が、いずれも横方向の谷型対辺として得られた。これらをそれぞれ、上下谷型対辺(611,612)、上下谷型対辺(611,618)と表す。なお、上下谷型対辺、上下山型対辺は“上下対辺”であり、左右谷型対辺、左右山型対辺は“左右対辺”となる。
【0047】
S1208の終了判定に従い、線分612から618まで繰り返し処理を行う。S1204で線分613(縦方向線)が選択されたとする。S1205で縦方向線と判定され、S1206へ進む。S1206では、未処理の縦方向線として線分614、615、616を対象として左右対辺候補を作成する。処理の結果、谷型対辺候補として線分614、山型対辺候補として線分615が取得される。これらをそれぞれ、左右谷型対辺(613,614)、左右山型対辺(613,615)と表す。
【0048】
同様に残りの線分に対してS1204からS1208を繰り返す。処理の結果、上下谷型対辺(611,612)、上下谷型対辺(611,618)、上下谷型対辺(617,618)、上下山型対辺(612,617)、左右谷型対辺(613,614)、左右谷型対辺(614,616)、左右谷型対辺(615,616)、左右山型対辺(613,615)の8個の対辺候補リストが作成された。全ての線分に対して処理が完了した後、S1209へ進む。
【0049】
S1209では、文書領域抽出部503は、上下谷型対辺(611,612)を処理対象対辺として選択し、S1210へ進む。S1210では、文書領域抽出部503は、上下対辺か左右対辺かで処理の分岐を行う。ここで、上下谷型対辺(611,612)は“上下対辺”であるため、S1211へ進む。
【0050】
S1211では、文書領域抽出部503は、未処理の左右対辺に対して文書枠候補リストを作成する。ここでは、左右谷型対辺(613,614)、左右谷型対辺(614,616)、左右谷型対辺(615,616)、左右山型対辺(613,615)が対象となる。詳細な処理はS407と同様であるため省略する。処理の結果、左右谷型対辺(613,614)、左右谷型対辺(614,616)、左右谷型対辺(615,616)が文書枠候補として得られた。これらをそれぞれ谷型枠候補(611,612,613,614)、谷型枠候補(611,612,614,616)、谷型枠候補(611,612,615,616)と表す。
【0051】
S1213の終了判定に従い、未処理の対辺について処理を行う。S1209で左右谷型対辺(613,614)が選択されたとする。S1210で左右対辺と判断されS1212へ進む。S1212では、未処理の上下対辺に対して文書枠候補リストを作成する。ここでは、上下谷型対辺(611,618)、上下谷型対辺(617,618)、上下山型対辺(612,617)が対象となる。処理の結果、谷型枠候補(611,618,613,614)、谷型枠候補(617,618,613,614)が得られる。
【0052】
同様に残りの対辺に対してS1209からS1213を繰り返す。結果、谷型枠候補(611,612,613,614)、谷型枠候補(611,612,614,616)、谷型枠候補(611,612,615,616)、谷型枠候補(611,618,613,614)、谷型枠候補(611,618,614,616)、谷型枠候補(611,618,615,616)、谷型枠候補(617,618,613,614)、谷型枠候補(617,618,614,616)、谷型枠候補(617,618,615,616)、山型枠候補(612,617,613,615)の10個の文書枠候補リストが作成された。全ての線分に対して処理が完了した後、S1209へ進む。
【0053】
S1214では、文書領域抽出部503は、4線分から文書枠の頂点の算出を行う。詳細な処理はS409と同様であるため省略する。処理の結果、谷型枠(611,614,616,618)1001と山型枠(612,617,613,615)1002の2枠候補へと最終的に絞り込まれ、図12のフローチャートの全処理が完了する。歪み補正部504、電子文書生成部505の処理に関しては、実施形態1と同様であるため省略する。
【0054】
以上説明したように、実施形態1と比較して、対辺候補数が15から8へ、文書枠候補数が15から10へ、いずれも削減することができた。対辺候補作成処理時には、実施形態1では8本中2本の線分の組み合わせである28通りで探索するのに対し、実施形態2では、縦方向線4本中2本の組み合わせと、横方向線4本中2本の組み合わせとの計12通りの探索で済む。このことから、実施形態1の効果に加え、更に処理コストを削減することができる。
【0055】
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【特許請求の範囲】
【請求項1】
文字を含む四辺からなる領域を有し、前記領域の四辺の全てが画像に収まる画像データを入力とし、前記領域の四辺が示す文書枠を抽出する画像処理装置であって、
入力された前記画像データから直線成分を検出する検出手段と、
前記検出手段にて検出された前記直線成分に対する直交方向において、画素情報の高低による勾配方向を算出する算出手段と、
前記検出手段にて検出された前記直線成分の中から四辺を選択し、選択された当該四辺からなる1以上の文書枠候補を抽出する抽出手段と、
前記抽出手段にて抽出された前記文書枠候補のうち、文書枠の四辺の勾配方向が当該文書枠の内側もしくは外側のいずれかの方向に対して同一の向きとならない文書枠候補を抽出された前記文書枠候補から除く絞り込み手段と
を有する画像処理装置。
【請求項2】
前記抽出手段は、
前記直線成分を、入力された前記画像データに対する相対的な傾きから、文書枠における、上下の辺となる横方向線と、左右の辺となる縦方向線に分類する分類手段と、
ある縦方向線と逆方向の勾配方向を有する他の縦方向線とを左右対辺とし、ある横方向線と逆方向の勾配方向を有する他の横方向線とを上下対辺として選択する選択手段と
を更に有し、
前記上下対辺と前記左右対辺とを組み合わせることにより、四辺からなる前記文書枠候補として抽出することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記算出手段は、前記画素情報として輝度の値を用いて勾配方向を算出することを特徴とする請求項1に記載の画像処理装置。
【請求項4】
前記文書枠とは、ホワイトボード、ポスター、紙文書のいずれかの枠であることを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
【請求項5】
文字を含む四辺からなる領域を有し、前記領域の四辺の全てが画像に収まる画像データを入力とし、前記領域の四辺が示す文書枠を抽出する画像処理装置の制御方法であって、
前記画像処理装置の検出手段が、入力された前記画像データから直線成分を検出する検出工程と、
前記画像処理装置の算出手段が、前記検出工程において検出された前記直線成分に対する直交方向において、画素情報の高低による勾配方向を算出する算出工程と、
前記画像処理装置の抽出手段が、前記検出工程において検出された前記直線成分の中から四辺を選択し、選択された当該四辺からなる1以上の文書枠候補を抽出する抽出工程と、
前記画像処理装置の絞り込み手段が、前記抽出工程において抽出された前記文書枠候補のうち、文書枠の四辺の勾配方向が当該文書枠の内側もしくは外側のいずれかの方向に対して同一の向きとならない文書枠候補を抽出された前記文書枠候補から除く絞り込み工程と
を有する制御方法。
【請求項6】
コンピュータを、
入力された画像データから直線成分を検出する検出手段、
前記検出手段にて検出された前記直線成分に対する直交方向において、画素情報の高低による勾配方向を算出する算出手段、
前記検出手段にて検出された前記直線成分の中から四辺を選択し、選択された当該四辺からなる1以上の文書枠候補を抽出する抽出手段、
前記抽出手段にて抽出された前記文書枠候補のうち、文書枠の四辺の勾配方向が当該文書枠の内側もしくは外側のいずれかの方向に対して同一の向きとならない文書枠候補を抽出された前記文書枠候補から除く絞り込み手段
として機能させるためのプログラム。
【請求項1】
文字を含む四辺からなる領域を有し、前記領域の四辺の全てが画像に収まる画像データを入力とし、前記領域の四辺が示す文書枠を抽出する画像処理装置であって、
入力された前記画像データから直線成分を検出する検出手段と、
前記検出手段にて検出された前記直線成分に対する直交方向において、画素情報の高低による勾配方向を算出する算出手段と、
前記検出手段にて検出された前記直線成分の中から四辺を選択し、選択された当該四辺からなる1以上の文書枠候補を抽出する抽出手段と、
前記抽出手段にて抽出された前記文書枠候補のうち、文書枠の四辺の勾配方向が当該文書枠の内側もしくは外側のいずれかの方向に対して同一の向きとならない文書枠候補を抽出された前記文書枠候補から除く絞り込み手段と
を有する画像処理装置。
【請求項2】
前記抽出手段は、
前記直線成分を、入力された前記画像データに対する相対的な傾きから、文書枠における、上下の辺となる横方向線と、左右の辺となる縦方向線に分類する分類手段と、
ある縦方向線と逆方向の勾配方向を有する他の縦方向線とを左右対辺とし、ある横方向線と逆方向の勾配方向を有する他の横方向線とを上下対辺として選択する選択手段と
を更に有し、
前記上下対辺と前記左右対辺とを組み合わせることにより、四辺からなる前記文書枠候補として抽出することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記算出手段は、前記画素情報として輝度の値を用いて勾配方向を算出することを特徴とする請求項1に記載の画像処理装置。
【請求項4】
前記文書枠とは、ホワイトボード、ポスター、紙文書のいずれかの枠であることを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
【請求項5】
文字を含む四辺からなる領域を有し、前記領域の四辺の全てが画像に収まる画像データを入力とし、前記領域の四辺が示す文書枠を抽出する画像処理装置の制御方法であって、
前記画像処理装置の検出手段が、入力された前記画像データから直線成分を検出する検出工程と、
前記画像処理装置の算出手段が、前記検出工程において検出された前記直線成分に対する直交方向において、画素情報の高低による勾配方向を算出する算出工程と、
前記画像処理装置の抽出手段が、前記検出工程において検出された前記直線成分の中から四辺を選択し、選択された当該四辺からなる1以上の文書枠候補を抽出する抽出工程と、
前記画像処理装置の絞り込み手段が、前記抽出工程において抽出された前記文書枠候補のうち、文書枠の四辺の勾配方向が当該文書枠の内側もしくは外側のいずれかの方向に対して同一の向きとならない文書枠候補を抽出された前記文書枠候補から除く絞り込み工程と
を有する制御方法。
【請求項6】
コンピュータを、
入力された画像データから直線成分を検出する検出手段、
前記検出手段にて検出された前記直線成分に対する直交方向において、画素情報の高低による勾配方向を算出する算出手段、
前記検出手段にて検出された前記直線成分の中から四辺を選択し、選択された当該四辺からなる1以上の文書枠候補を抽出する抽出手段、
前記抽出手段にて抽出された前記文書枠候補のうち、文書枠の四辺の勾配方向が当該文書枠の内側もしくは外側のいずれかの方向に対して同一の向きとならない文書枠候補を抽出された前記文書枠候補から除く絞り込み手段
として機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2012−14430(P2012−14430A)
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願番号】特願2010−150264(P2010−150264)
【出願日】平成22年6月30日(2010.6.30)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願日】平成22年6月30日(2010.6.30)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]