説明

筆跡復元方法、筆跡復元装置および筆跡復元処理プログラム

【課題】文書画像検索技術を用いて筆跡を復元するカメラペンシステムにおける筆跡復元の精度を高める手法を提供する。
【解決手段】ペン先と、その周辺を撮影する動画カメラとを有するペン部を用いて紙面に筆記がされるとき、その紙面に予め記された文書画像を前記動画カメラに撮影させ、撮影された動画の各フレームを文書画像検索のクエリとして取得する撮影ステップと、画像データベースに予め登録された登録画像を参照し、前記登録画像の中から各クエリに対応する登録画像を検索する検索ステップと、検索された登録画像とクエリとを照合して前記登録画像の中でのクエリの撮影範囲を特定する特定ステップと、各撮影範囲のフレーム順の変位に基づいて前記ペン先の軌跡を復元する筆跡復元ステップの各ステップをコンピュータが実行し、各クエリに対応する登録画像を見出すことを特徴とする筆跡復元方法。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、筆跡復元方法、筆跡復元装置および筆跡復元処理プログラムに関する。より詳細には、画像データベースに登録された文書画像が印刷等された紙面に描かれた筆跡を、局所特徴量を用いた文書画像検索の技術を用いて復元する技術に関する。
【背景技術】
【0002】
デジタル機器が普及した現在でも、メモを取る時に紙に書き込む機会が多く存在する。この理由として、手軽に利用できることや、資料への関連情報の記入ができるということが挙げられる。そこで、紙に書き込む便利さと、デジタル化の便利さを兼ね備えたシステムがあれば、記録方法の観点でも、記録した情報の利用という観点でも便利になると考えられる。
【0003】
これらの課題を満たす実用的なシステムの一つにスウェーデンのAnoto社が開発したデジタルペン、(製品名 Anoto penDocuments。以下、簡単のためアノトシステムという。例えば、[2009年2月12日検索]インターネット<URL:http://www.anoto.com/>、参照)がある。これは、特殊な用紙とカメラを組み込んだペンを用いることで、筆跡を復元するシステムである。アノトシステムは、紙に筆記するため手軽に使用できるが、特殊な紙がなければそのシステムを利用できないという問題がある。
【0004】
そこで、アノトシステムとは異なる技術を用い、印刷文書への筆跡をデジタルデータとして復元するカメラペンシステムが開発されている(例えば、非特許文献1参照)。このカメラペンシステムは、ペンと一体に固定されペン先付近を撮影する動画カメラによって撮影された撮影画像を用いる点では、アノトシステムと共通している。しかし、前記カメラペンシステムは、撮影画像をクエリとして画像データベースにアクセスし、その画像データベースには文書画像が予め登録されている点でアノトシステムと異なる。以下、画像データベースに予め登録されている文書画像を登録画像と呼ぶ。カメラペンシステムは、登録画像の中からクエリに対応する文書画像を検索する。この点もアノトシステムと異なる。さらに、クエリに対応する文書画像が見出されたら、その文書画像中のクエリの範囲(撮影範囲)を動画のフレーム順に決定し、決定された撮影範囲に基づいて前記文書画像中でのペン先の変位を得る。得られたペン先の変位が筆跡である。
【0005】
非特許文献1で、文書画像中の撮影範囲の特定に、ローカリー・ライクリー・アレンジメント・ハッシング(Locally Likely Arrangement HashingあるいはLLAH、詳細は、例えば、非特許文献2、特許文献1参照)による文書画像検索法を用いている。この点もアノトシステムと異なる。ここで、文書画像検索法とは、カメラでの撮影画像に対応する文書画像を、データベースから探し出す手法である。文書画像検索法の一つである前記LLAHは、紙面に記された文字から特徴点を求め、特徴点の配置から得られる特徴量に基づいて検索を行う。
なお、以下に述べる特徴量の改良の基礎となるものに、例えば、特許文献2がある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】国際公開第2006/092957号パンフレット
【特許文献2】特開2009−032109号公報
【非特許文献】
【0007】
【非特許文献1】Kazumasa Iwata, Koichi Kise, Tomohiro Nakai, Masakazu Iwamura, Seiichi Uchida, Shinichiro Omachi, "Capturing Digital Ink as Retrieving Fragments of Document Images", Proceedings of the 10th International Conference on Document Analysis and Recognition ,pp.1236-1240,Jul.2009.
【非特許文献2】中居 友弘、黄瀬 浩一、岩村 雅一、"Webカメラを用いたリアルタイム文書画像検索"、 電子情報通信学会論文誌D,J90-D,8,pp.2262-2265,Aug.2007.
【発明の概要】
【発明が解決しようとする課題】
【0008】
前述のカメラペンシステムにLLAHを適用する際、二つの問題点がある。その一つは、ペンと一体に固定された動画カメラによって得られる画像は、一般の文書画像検索で用いられる画像に比べてその画像が文書画像全体に占める範囲、即ち撮影範囲が狭いという点である。従って、文書画像検索における識別性が低く、異なる文書画像を除外する能力が必ずしも十分でない。もう一つは、筆記時の紙面に対するペンの傾きのためにクエリとして撮影された文書画像が射影歪みを含んでおり、射影歪みのない場合に比べて文書画像検索の精度が低下する点である。
この発明は、以上のような事情を考慮してなされたものであって、文書画像検索技術を用いて筆跡を復元するカメラペンシステムにおける筆跡復元の精度を高める手法を提供するものである。
【課題を解決するための手段】
【0009】
この発明では、これらの問題を解決するため、対応する及び/または関連する三つの新たな手法を提案する。三つの手法のうちの二つは、クエリ及び/または登録画像に射影歪みを付加したものを加えて文書画像検索を行う手法である。異なる表現をすれば、クエリ及び/又は登録画像を拡張する拡張手法である。拡張手法のうちの一つは、クエリに1種類以上の射影歪みを付加したものを元のクエリに加えた拡張クエリを用いて文書画像検索を行う、クエリ拡張手法である。もう一つは、登録画像を射影変換し、データベースを拡張する手法である。三つの手法のうち最後の一つは、特徴点の識別性を上げるため、特徴量を改良することである。
【0010】
前述の課題を解決するために、この発明は、ペン先と、その周辺を撮影する動画カメラとを有するペン部を用いて紙面に筆記がされるとき、その紙面に予め記された文書画像を前記動画カメラに撮影させ、撮影された動画の各フレームを文書画像検索のクエリとして取得する撮影ステップと、画像データベースに予め登録された登録画像を参照し、前記登録画像の中から各クエリに対応する登録画像を検索する検索ステップと、検索された登録画像とクエリとを照合して前記登録画像の中でのクエリの撮影範囲を特定する特定ステップと、各撮影範囲のフレーム順の変位に基づいて前記ペン先の軌跡を復元する筆跡復元ステップの各ステップをコンピュータが実行し、前記画像データベースは、登録画像としての文書画像とそれから抽出された複数の登録特徴量とが関連付けられて登録されてなり、前記検索ステップは、(1)射影歪みを受けた状態で前記クエリに写る紙面上の文書画像から局所的特徴を表す複数の特徴点を抽出し、近接する所定数の特徴点の組み合わせから1つのクエリ特徴量を生成する特徴量生成ステップと、(2)前記射影歪みを受けた文書画像からその射影ひずみを除去するための射影変換パラメータを推定するパラメータ推定ステップと、(3)推定された射影変換パラメータを用いて前記クエリ特徴量を補正し補正クエリ特徴量を算出するクエリ拡張ステップとを含み、各クエリから少なくとも一つの補正クエリ特徴量を求め、その補正クエリ特徴量と各登録特徴量とを照合して各クエリに対応する登録画像を見出すことを特徴とする筆跡復元方法を提供する。
【0011】
また、異なる観点から、この発明は、ペン先と、その周辺を撮影する動画カメラとを有するペン部と、前記ペン部で紙面に筆記がされるとき、その紙面に予め記された文書画像を前記動画カメラに撮影させ、撮影された動画の各フレームを文書画像検索のクエリとして取得する撮影処理部と、画像データベースに予め登録された登録画像を参照し、前記登録画像の中から各クエリに対応する登録画像を検索する検索処理部と、検索された登録画像とクエリとを照合して前記登録画像の中でのクエリの撮影範囲を特定する特定処理部と、各撮影範囲のフレーム順の変位に基づいて前記ペン先の軌跡を復元する筆跡復元部とを備え、前記画像データベースは、登録画像としての文書画像とそれから抽出された複数の登録特徴量とが関連付けられて登録され、前記検索処理部は、(1)射影歪みを受けた状態で前記クエリに写る紙面上の文書画像から局所的特徴を表す複数の特徴点を抽出し、近接する所定数の特徴点の組み合わせから1つのクエリ特徴量を生成する特徴量生成部と、(2)前記射影歪みを受けた文書画像からその射影ひずみを除去するための射影変換パラメータを推定するパラメータ推定部と、(3)推定された射影変換パラメータを用いて前記クエリ特徴量を補正し補正クエリ特徴量を算出するクエリ拡張部とを含んでなり、各クエリから少なくとも一つの補正クエリ特徴量を求め、その補正クエリ特徴量と各登録特徴量とを照合して各クエリに対応する登録画像を見出すことを特徴とする筆跡復元装置を提供する。
【0012】
さらに、異なる観点から、この発明は、ペン先と、その周辺を撮影する動画カメラとを有するペン部を用いて紙面に筆記がされるとき、その紙面に予め記された文書画像を前記動画カメラに撮影させ、撮影された動画の各フレームを文書画像検索のクエリとして取得する撮影処理部と、画像データベースに予め登録された登録画像を参照し、前記登録画像の中から各クエリに対応する登録画像を検索する検索処理部と、検索された登録画像とクエリとを照合して前記登録画像の中でのクエリの撮影範囲を特定する特定処理部と、各撮影範囲のフレーム順の変位に基づいて前記ペン先の軌跡を復元する筆跡復元部としての機能をコンピュータに実行させ、前記画像データベースは、登録画像としての文書画像とそれから抽出された複数の登録特徴量とが関連付けられて登録され、前記検索処理部は、(1)射影歪みを受けた状態で前記クエリに写る紙面上の文書画像から局所的特徴を表す複数の特徴点を抽出し、近接する所定数の特徴点の組み合わせから1つのクエリ特徴量を生成する特徴量生成部と、(2)前記射影歪みを受けた文書画像からその射影ひずみを除去するための射影変換パラメータを推定するパラメータ推定部と、(3)推定された射影変換パラメータを用いて前記クエリ特徴量を補正し補正クエリ特徴量を算出するクエリ拡張部とを含んでなり、各クエリから少なくとも一つの補正クエリ特徴量を求め、その補正クエリ特徴量と各登録特徴量とを照合して各クエリに対応する登録画像を見出すことを特徴とする筆跡復元処理プログラムを提供する。
【発明の効果】
【0013】
この発明の筆跡復元方法によれば、クエリ拡張ステップが各クエリから少なくとも一つの補正クエリ特徴量を求め、その補正クエリ特徴量と各登録特徴量とを照合して各クエリに対応する登録画像を見出すので、射影歪みを含んだクエリの画像に係る特徴量から射影ひずみを除き、登録画像と同じ状態に射影変換された特徴量が文書画像検索に用いられる。即ち、対応する登録画像の特徴量にクエリの特徴量を近づけた状態で文書画像検索を行うので、クエリ拡張ステップを含まない従来の手法に比べて文書画像検索の精度が向上し、その結果として筆跡復元の精度を高めることができる。
【0014】
この発明の筆跡復元装置、筆跡復元処理プログラムも同様の作用効果を奏する。
この発明において、ペン部は、筆記可能なペン本体と動画カメラとが一体となったものである。筆記可能であれば、ペンの種類は問わない。前記動画カメラは、ペンを用いて筆記が行われるときにペン先の周辺の紙面、特に紙面にあらかじめ記された文書画像を時系列的な複数のフレームとして撮影するものである。各フレームの画像は、文書画像検索のクエリとして用いられる。
【0015】
この発明に係る撮影ステップ、検索ステップ、特定ステップ及び筆跡復元ステップの各ステップは、コンピュータによって実行される処理である。前記コンピュータの具体的態様は、ペン部に内蔵されたマイクロコンピュータであってもよいし、ペン部と通信可能な外部機器、例えば、ホストあるいはサーバとしての機能を有するパーソナルコンピュータであってもよい。あるいは、ペン部に内蔵されたコンピュータと外部のコンピュータとが通信で接続され、両者が協働して各ステップを実行してもよい。各ステップが実行可能であればその形態は限定されない。
なお、通常、一つのクエリや一つの文書画像からは数百〜数万といった多数の特徴量を抽出する。多数の特徴量を用いて文書画像検索を行うことで、クエリのうち幾つかのクエリ特徴量が正しい登録特徴量に対応付けられなかったとしても、各クエリ特徴量に係る対応関係を統計的に処理していわゆるノイズを除去し、正しい登録画像が検索されるようにしている。
【0016】
この発明の筆跡復元装置において、検索処理部、特定処理部及び筆跡復元処理部の各部は、コンピュータが各ステップを実行することによって実現される機能を装置の構成要素として捉えたものである。なお、一部の構成要素がペン部と通信可能な外部のコンピュータにより実現されるシステムとしての構成もこの発明の範囲に含まれるべきものである。例えば、ペン部にメモリを内蔵し、そのメモリ中に検索のための特徴点あるいは特徴量を格納しておき、その後外部のコンピュータと有線あるいは無線による通信が可能になったときに前記メモリに格納された特徴量のデータをコンピュータに送信して筆跡を復元するといった態様である。
【図面の簡単な説明】
【0017】
【図1】この発明に係るカメラペンの外観及び使用状態を示す説明図である。
【図2】この発明に係る筆跡復元の処理の流れを示す説明図である。
【図3】この実施形態で用いた特徴量の計算方法を示す説明図である。
【図4】従来の付加特徴量の例を示す説明図である。
【図5】この発明に係る付加特徴量の例を示す説明図である。
【図6】この発明において、登録画像から切り出された画像から三つの射影画像を生成する例を示す説明図である。
【図7】この発明に係るクエリ拡張手法の流れを示す説明図である。
【図8】この発明において、補正クエリに微少な射影変換を加えた画像を生成する第1の手法を示す説明図である。
【図9】この発明において、補正クエリに微少な射影変換を加えた画像を生成する第2の手法を示す説明図である。
【図10】この発明において、補正クエリに微少な射影変換を加えた画像を生成する第3の手法を示す説明図である。
【図11】この発明の付加特徴量の算出に関し、射影変換された連結成分の内包面積を得る簡易的な手順を示す説明図である。
【図12】この発明に係る実験例で用いた、仰角の異なるクエリの例を示す説明図である。
【図13】この発明に係る実験例で用いたカメラペンシステムの処理と、各処理がクライアント側とサーバ側で時系列的に実行される例を示す説明図である。
【図14】この発明に係る実験例による文書画像検索精度の結果を示すグラフである。
【図15】この発明に係る実験結果による仰角75°,60°での筆跡の復元精度を示すグラフである。
【図16】この発明に係る実験例によるクライアントとサーバの処理時間を示すグラフである。
【図17】この発明に係る実験例による筆跡復元の結果を示す説明図である。
【発明を実施するための形態】
【0018】
以下、この発明の好ましい態様について説明する。
この発明の筆跡復元方法において、前記クエリ拡張ステップは、前記補正クエリ特徴量にさらに所定の射影変換を施して射影クエリ特徴量を算出し、前記射影クエリ特徴量および前記補正クエリ特徴量と前記登録特徴量とを照合し、対応する登録画像を見出してもよい。前フレームの射影変換パラメータの推定に誤差があったり、ペン部の傾きが前フレームから変化していたりするため、推定に基づいて得られる補正クエリの射影ひずみの状態は、登録画像として画像データベースに登録された文書画像の状態に一致するとは限らない。この態様によれば、補正クエリ特徴量に射影変換を施した射影クエリ特徴量を含めて文書画像検索を行うので、クエリ拡張ステップを含まない手法に比べて、変化や誤差があっても検索結果となるべき登録画像に対応付けられる可能性を高めることができる。
【0019】
さらに、前記クエリ拡張ステップは、前記補正クエリ特徴量に予め定められた複数の方向への射影変換を施して各方向に対応した射影クエリ特徴量を算出してもよい。このようにすれば、一方向にのみ射影クエリ特徴量を算出する場合に比べ、検索結果となるべき登録画像に対応付けられる可能性をさらに高めることができる。
【0020】
なお、一般に、文書画像を正面から見た正対の状態で登録画像として登録されることが多いと考えられる。文書処理ソフトで作成されたデータやイメージスキャナで取り込んだデータが登録画像とされることが多いからである。以下の実施例では簡単のために、登録画像が正対状態の文書画像であるとしている。ただし、この発明の本質はそれに限定されない。即ち、後述する好ましい態様によれば、前のフレームのクエリと登録画像とが文書画像検索によって対応付けられたとき、両者の対応に基づいて現フレームの射影変換パラメータを推定する。前述の推定は、登録画像が正対状態であるか否かによらず同じ手順で行うことができる。
【0021】
また、前記パラメータ推定ステップは、前フレームにおいてクエリに対応する登録画像が見出されているとき、前フレームのクエリの特徴点と見出された登録画像の特徴点との対応に基づく射影変換パラメータを求め、現フレームの射影変換パラメータとして推定してもよい。このようにすれば、クエリと登録画像との間で特徴点の対応がとれた前フレームの対応関係に基づいて、現フレームの射影変換パラメータを推定することができる。
【0022】
前記特徴量生成ステップは、文書画像を構成する線が一つに連なる連結成分から一つの特徴点を抽出すると共にその連結成分に内包される内包面積を算出し、前記連結成分の近傍にある連結成分の内包面積との面積比を算出し、所定数の連結成分を組として面積比の順位を決定し、その面積比の順位を特徴量の一部として用いてもよい。面積比の順位は、面積比の比(面積複比)で決まる。面積複比は射影変換に対する不変量である。この態様によれば、射影変換にロバストな特徴量を用いて正確な文書画像検索を行うことができ、よって、高い精度で筆跡を復元することができる。
【0023】
また、前記画像データベースは、各登録画像から複数の部分画像を切り出し、各部分画像を予め定められた少なくとも一つの方向に射影変換してその方向の射影画像を生成し、その射影画像から特徴量を抽出し、登録画像から抽出された特徴量と共に前記登録特徴量としたものであってもよい。このようにすれば、射影歪みを受けたクエリに近い射影画像を生成して特徴量を抽出、登録しておくので、射影画像を生成しない場合に比べてクエリ特徴量により近い特徴量が用いられ、従って、クエリと登録画像とが正しく対応付けられる可能性を高めることができる。
ここで示した種々の好ましい態様は、それら複数を組み合わせることもできる。
以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この発明を限定するものと解されるべきではない。
【0024】
≪カメラペンシステムの構成≫
図1は、この発明に係るカメラペンの外観及び使用状態を示す説明図である。図1に示す様に、この発明に係るカメラペン31は、紙面に予め記された文書への筆跡を復元するために小型の動画カメラ33がペン本体35に取り付けられている。カメラペン31は、動画カメラ33により撮影された各フレームの画像を画像処理する外部のコンピュータ(図示せず)と接続されている。なお、前記コンピュータに代えて、CPUあるいはマイクロコンピュータ(以下、単にCPU)をペン本体35に内蔵してもよい。また、画像データベースを格納するメモリを内蔵していてもよい。あるいは、前記カメラペン31は、無線あるいは有線で外部のサーバと通信が可能であり、動画カメラ33により撮影された各フレームの画像やデータをサーバ(図示せず)へ送信し、サーバ側で画像処理や文書画像検索を行ってもよい。また、サーバ側が画像データベースを格納してもよい。
【0025】
図2は、この発明に係る筆跡復元の処理の流れを示す説明図である。画像データベースDBには、n個の文書画像d1〜dnが登録されている。そのうちの文書画像d1が印刷された用紙上に、カメラペン31を用いて線を描くと、動画カメラ33は、ペン先付近の画像を撮影し、クエリとして各フレームの画像q1,q2,q3…を時系列的に生成する。クエリq1は、線を描き始めた初期の状態であり、その後、クエリq2、クエリq3が生成される。なお、実際には、図2に示したクエリq1,q2,q3…よりもフレーム間隔は密である。
筆跡復元の処理は、カメラペン31に内蔵されたCPUが実行してもよく、前記CPUとサーバとが協働して実行してもよい。あるいは、カメラペン31は単にクエリを取得する入力端末に過ぎずサーバが筆跡復元の処理を実行してもよい。
CPUは、動画カメラ33で撮影された各フレームの画像をそれぞれクエリとし、画像データベースからクエリに対応する文書画像を検索する。クエリq1から画像データベースDB中の登録画像d1が検索されると、さらにCPUは、登録画像d1中のクエリq1の撮影範囲を決定する。CPUは、クエリq2からも登録画像d1を検索し、さらに登録画像d1中のクエリq2の撮影範囲を決定する。同様に、クエリq3についても、登録画像d1中の撮影範囲が決定される。そして、各クエリの撮影範囲に基づいて決定された登録画像d1中のペン先の位置を時系列の順につなぎ合わせることで筆跡を復元する。このカメラペンシステムは、文書画像d1に対するペン先の位置を特定するので、筆跡だけでなくその筆跡が残された文書画像との関連性も得ることができる。
【0026】
≪文書画像検索≫
この発明を理解しやすくするため、まず、実施形態で用いる文書画像検索の詳細と問題点の詳細についてここで説明する。
この発明の好ましい実施形態によれば、文書画像検索にLLAHを適用する。LLAHは実時間での文書画像検索が可能な点でこの発明に好適な手法である。このカメラペンシステムは、紙面に記された文書画像から抽出した複数の特徴点を組み合わせ、特徴点の配置のユニークさを用いて文書画像を検索する。以下に、この実施形態に係る文書画像検索の詳細な処理の流れを示す。
【0027】
文書画像検索の前提となる画像データベースを構築する際、それぞれの登録画像から特徴点を抽出する処理を行う。次に抽出された特徴点を対象にLLAHの手法に沿って特徴量を求め、求められた特徴量を登録画像と関連付けて画像データベースに登録する。ここで、LLAHで求められる特徴量はベクトル量であり、特徴ベクトルとも呼ばれる。
次に、構築された画像データベースを用いた文書画像検索について説明する。カメラペン31の動画カメラ33で撮影された各フレームの画像が文書画像検索のクエリとして用いられる。文書画像検索は、これらのクエリからその特徴点を抽出し、登録処理と同じくLLAHの手法を用いてクエリから特徴量を計算する。そして、求めた特徴量を用いて、画像データベースにアクセスし、クエリの各特徴量に最もよく対応する文書画像を登録画像の中から見出すことにより実現される。
【0028】
この実施形態では、登録画像およびクエリから特徴点を抽出する具体例として、文字や図形を構成する線(黒色の線であれば黒画素)が途切れずに連なった一塊の連結成分に内包された領域の重心を用いることとする。ここで、ある画素の上下左右及び斜め4方向のいずれかに画素があれば、途切れずに連なっているとして扱う。一つの連結成分は、通常、一文字あるいはその一部を構成する線に相当する。連結成分は前記黒画素の数として求める。連結成分の内包領域の重心として求められた各特徴点は、その近傍にある特徴点を用いて、多次元の特徴量で表わされる。ここで、文字“O”など、内部に黒画素でない穴領域がある場合に穴領域を内包領域に含めるか否かが問題となる。発明の本質からすれば、いずれでもよい。ただし、何れか一方の規則に基づき一貫した処理を行うことが肝要である。いずれの規則を採用しても、文書画像検索の精度に大差はないと思われる。ただし、重心を求めるときの簡便さを考慮すると、穴領域を内包領域に含めるほうが有利であると考えられる。
【0029】
図3は、この実施形態で用いた特徴量の計算方法を示す説明図である。LLAHでは、登録したい特徴点の近傍にあるn個の特徴点を求める。図3の例では、鎖線の円の中心の特徴点が、登録したい特徴点である。この特徴点は、文書画像中の単語“retrieval"の末尾の文字“l"を構成する連結成分の内包領域の重心として得られる特徴点l(エル)である。その特徴点l(エル)の近傍にあるn個の特徴点を求める。図3は、n=7の例を示している。前述の鎖線の円内には7個の近傍特徴点が含まれている。そのうちの6点は、説明のみを目的とする1〜6の番号が図3中に記されている。1〜6の順に文字“s",“y",“s",“v",“d",“e”を構成する連結成分の内包領域の重心である。なお、実際の紙面に1〜6の番号が記されている訳ではない。残る1点は、特徴点l(エル)の左方にある文字“a"に係る連結成分の内包領域の重心である。次に、n点から求められるm点の全ての組み合わせを求める。
【0030】
図3は、m=6の場合であって、7点から6点を選ぶ76=7通りの組合せのうちの1つが1〜6の番号が記された組合せである。登録したい特徴点l(エル)は、nm個の特徴ベクトルを用いて表される。つまり、これにより、m個の組み合わせが決まると、m点から求められる全ての4点の組み合わせを求める。この4点を用い、図3の左下に示すように、二つの三角形の面積比を求める。面積比はアフィン不変量として知られている。このようにして求めたm4個のアフィン不変量を要素とする特徴ベクトルをハッシュテーブルへ登録する。以下、この特徴量を基本特徴量と呼ぶ。このようにして求めた特徴ベクトルは、アフィン不変量からなるのでアフィン変換に対してロバストである。アフィン変換は、扇形変形を含まない点で射影変形よりも自由度が低い幾何学的変換ではあるが(例えば、佐藤 淳著、「コンピュータビジョン−視覚の幾何学−」、初版、株式会社コロナ社、2003年7月30日、p.42-65参照)、扇形変形の程度が小さい射影変換に対しては十分にロバストであるといえる。
【0031】
一方、面積比に変えて射影不変量である複比を用いてもよい。登録したい特徴点の近傍5点A〜Eがあるとき、複比は、例えば以下の式で求められる(中居 友弘、 黄瀬 浩一、 岩村 雅一、 "特徴点の局所的配置に基づくデジタルカメラを用いた高速文書画像検索"、 電子情報通信学会論文誌D,J89-D,9,pp.2045-2054,Sep.2006.参照)。
【数1】

【0032】
(1)式で、P(x, y, z)は頂点xyzからなる三角形の面積を表す。(1)式で表される複比は、アフィン変換よりも自由度の高い射影変換に対して不変であるので、射影変換に対してロバストである。しかし、前記面積比は4個の特徴点から定まるが、(1)式の複比はそれより一つ多い5個の特徴点から定まる。
【0033】
さらに、この実施形態では、文書画像の識別性を上げるために、基本特徴量と異なる特徴量を併用する。この特徴量を付加特徴量と呼ぶ。図4は、前記特許文献2に記載された従来の付加特徴量を示す説明図である。この付加特徴量は、登録したい特徴点の近傍点を用い、その連結成分の内包面積が大きい順位を付加特徴量としている。面積値ではなく、順位を用いることで、幾何学的変換に対するロバスト性を高めている。後述するように、この発明は、ロバスト性をさらに高めた付加特徴量を用いる。
【0034】
連結成分の内包面積は、連結成分の外延(輪郭)に囲まれる内包領域内の面積(画素数)である。ここで、文字“O”など、内部に黒画素でない穴領域がある場合に穴領域を内包面積に含めるか否かが問題となる。発明の本質からすれば、いずれでもよい。ただし、何れか一方の規則に基づき一貫した処理を行うことが肝要である。いずれの規則を採用しても、文書画像検索の精度に大差はないと思われる。ただし、内包面積を計算するときの簡便さを考慮すると、穴領域を内包面積に含めたほうが有利であると考えられる。
【0035】
以下、この発明ではLLAHの手法をカメラペンシステムに適用する場合に生じる二つの問題点に焦点を当て、その解決を提案している。LLAHの手法を一般の文書画像検索のために用いる場合と比べて、この発明に係るカメラペンシステムでは、(1)クエリの撮影範囲が狭く、(2)クエリに含まれる射影歪みの影響が大きくなるといった問題点がある。そのうち(1)では、特に撮影範囲に含まれる行数が限られると、基本特徴量の計算に必要な特徴点数が十分得られず、識別性が低下し、文書画像検索に失敗してしまう。また(2)では、強い射影歪みを受けたクエリからは、正対した状態と同じ特徴点を抽出するのが難しいために文書画像検索に失敗してしまう。
【0036】
≪第1の解決手法−特徴量の改良≫
第1の解決手法は、特徴点の識別性を上げるための特徴量の改良である。具体的には、従来の付加特徴量である近傍点の連結成分の面積の順位に代えて、面積比の順位を用いる手法である。
従来の付加特徴量(日本語文書への対応を行った際に考案したもの)は、図4に示すような面積の順位であった。面積の大小関係は面積比として表されるため、アフィン不変量である。図4に示す従来の付加特徴量は、面積比そのものではなく、順位という順序関係だけを記録することによって、様々な変動に対してロバストな付加特徴量としている。ただし、元はアフィン不変量であるため、その枠を超える射影変換が加わると、もはや不変ではなくなり、特徴量が安定しなくなることが予想される。
【0037】
図5は、この実施形態に係る付加特徴量を示す説明図である。図5に示す様に、隣接する連結成分の面積比が大きい順位を基本特徴量に付加し、付加特徴量とする。図5で番号「1」の付加特徴量は、第1の特徴点に係る連結成分としての文字“p”と、続く第2の特徴点に係る“n”との面積比を表す。同様に、番号「2」は第2と第3の特徴点に係る面積比を示している。また、番号「6」は第6と第1の特徴点に係る“c”と“p”との面積比を示している。付加特徴量は、このようにして定まる番号1〜6の面積比を大きい順に並べたものである。
面積比の順位は面積比の比(面積複比)の値によって求まるものであり、面積複比は射影不変量である。面積比そのものではなくその順位を導入することによって、様々な変動に対し、従来の付加特徴量よりもさらにロバストな付加特徴量を得ている。
【0038】
≪第2の解決手法−画像データベース拡張≫
第2の解決手法は、登録画像、即ち、画像データベースを拡張する手法である。この手法は、登録画像を予め射影変換し、射影変換された特徴点に係る基本特徴量及び付加特徴量を元の登録画像に係る基本特徴量及び付加特徴量と共に登録しておく。即ち、登録画像の特徴量を拡張し、元の特徴量と共にデータベースに登録しておく。一般に登録画像に係る特徴点は正対した状態で登録画像から抽出される。一方、紙面に対して強い射影歪みを受けた状態のクエリから抽出される特徴点は、同じ文書画像であっても正対した状態で抽出される特徴点と対応し難い。画像データベースを拡張するのは、登録画像の特徴量を射影歪みを受けたクエリの特徴量に近づけるためである。
【0039】
クエリにどのような射影変換が加わるかは予めわからないため、様々な可能性を試す必要がある。文書画像のどの部分を射影変換の対象とするのかも問題である。クエリに写った文書画像に含まれる射影歪みは、ペン先が置かれる位置によって異なるからである。しかし、射影画像を限りなく生成すると、登録画像の格納に要するメモリ量が増加してしまう。このため、射影画像の生成に係るペン先の位置を妥当な範囲に制限することを考える。
【0040】
本手法では簡単のため、次のような処理を行う。いま、登録文書画像に対し縦線X本、横線Y本を等間隔に引くと、X×Y個の交点ができる。これらの各交点を切り出しの中心として登録画像の一定領域を切り出す。次に、それに射影変換を施した画像を生成する。クエリに含まれる射影歪みは、カメラ33の向き、即ち、ペンの傾き具合にも因る。このため、切り出されたX×Y個の画像の各々について、複数の方向に射影変換を行って複数の射影画像を生成する。
【0041】
図6は、この実施形態において、登録画像から切り出された画像について、三つの方向に射影変換を行って射影画像を生成する例を示す説明図である。図6の上側の画像11は、登録画像から切り出された画像を示す。即ち、X×Y個の交点の何れか一つが中心となるように切り出された画像である。図6の下側の三つの画像13a、13b、及び13cは、異なる方向に生成された射影画像を示す。
そして、各射影画像から特徴点を抽出し、特徴量を計算した上でデータベースに登録しておく。射影変換画像を生成した後で特徴点を抽出する理由は、そうすることによって、射影変換の影響で文字同士が連結するような効果を評価できるためである。
【0042】
≪第3の解決手法−クエリ拡張≫
この発明が提供する第3の解決手法は、クエリを拡張する手法である。クエリの拡張では、射影歪みを含むクエリ画像から抽出された特徴量を正面から撮影した状態(正対の状態)の特徴量に射影変換し、クエリとして文書画像検索に用いる。対応する登録画像の特徴量にクエリの特徴量を近づけ、(2)の問題点を解決するためである。そのためには、クエリがどのような射影歪みを受けているのかを知る必要がある。クエリが受けた射影ひずみがわかれば、その逆変換を行う射影変換パラメータが決定できる。しかし、クエリが受けた射影歪みを正確に求めることは困難である。
【0043】
発明者らは、クエリ拡張を実現するために、次の二つの特性に着目した。
(1)筆記時に、クエリの前後のフレーム間でペンの傾きが急激に変わる状況は少ない。
(2)あるフレームのクエリに対応する登録画像が正しく検索できれば、両者の特徴点配置の対応から、射影変換パラメータが精度よく推定できる。文書画像検索が成功するということは、クエリと登録画像との特徴点間で対応がとれているはずであり、最低4点の特徴点間の対応が分かれば射影変換パラメータが計算できる。それ以降のフレームについては、前のフレームでの射影変換パラメータ推定を利用して妥当な歪み推定ができる。
【0044】
これらの特性に基づいて、この発明では以下の処理を行う。あるフレームのクエリに対する登録画像が見出されたら、その後のフレームの文書画像検索については、前のフレームのクエリに係る特徴点と登録画像に係る特徴点との対応関係を用いて、射影変換パラメータを推定する。この処理には、公知のRANSACの手法(例えば、M. A. Fischler and R. C. Bolles. Random sample consensus: A paradigm for model fitting with applications to image analysis and automated cartography. Comm. of the ACM, pages 381-395, June 1981.参照)を用いる。前のフレームで推定された射影変換パラメータを用いて、クエリが正対の状態になるように射影変換する。
【0045】
図7は、この発明に係るクエリ拡張手法の流れを示す説明図である。図7で、クエリ21は、カメラペン31の動画カメラ33によって撮影された、あるフレームの画像、である。補正クエリ23は、クエリ21が正対の状態になるように射影変換された画像である。補正クエリ23の画像の例は、後述する図8、図9に示されている。
【0046】
前フレームの検索によって推定された射影変換パラメータをクエリ21に適用し、補正クエリ23を得る。
カメラペン31の傾きが時間とともに変化せず、かつ推定された射影変換パラメータが正しいものであれば、得られた補正クエリ23はまさに文書画像を正面からみた状態の画像である。ところが、実際には、カメラペン31の傾きが前フレームから変化していたり、射影変換パラメータの推定に誤差があったりするため、補正クエリ23は正対の文書画像に一致するとは限らない。
【0047】
そこで、補正クエリ23に微少な射影変換を加えた画像25a、25b、25c、あるいは、27a、27b、27cを生成することによって、正対の文書画像が得られる可能性をさらに向上させる。様々な微少変換を試すことによって、そのうちどれかが正対の文書画像により近いことを期待するのである。
【0048】
以上のようにして元の各クエリから求められた有限なk個の拡張クエリ(k≧1)を、元のクエリと共に文書画像検索に用いる。後述する図8、図9は、補正クエリ1個とそれに異なる傾きを与えた三つの画像の合計4つの画像に係る特徴量をそれぞれ生成するので、k=4に相当する。
補正クエリ23に微少な射影変換を加える方法として、ここでは以下の2つの方法のうちいずれかを用いる。
【0049】
[第1の拡張クエリ生成方法]
補正クエリ23から射影画像を得る第一の方法は、簡易的な射影変換を施す方法である。
図8は、クエリ21を射影変換して得られた補正クエリ23に微少な射影変換を加えた画像を生成する第1の手法を示す説明図である。
図8の射影画像25a、25b、25cに注目していただきたい。頂点付近の太線の矢印は、画像を引き伸ばす処理を表している。画像の一つの角、あるいは2つの角の位置を変更し、変更後の形にあうように画像を変換することによって、射影変換が実現できる。
【0050】
実際には、画像自体を変換するのではなく、補正クエリ23の特徴点の座標だけを変換するのである。これにより、画像自体を変換する場合に比べて、処理時間の短縮が可能となる。
前述のデータベース拡張の場合は、画像自体を変換した上で特徴点抽出を行っていたが、クエリ拡張の手法では画像を変換しない。その理由は、処理時間の短縮にあるのだが、そもそも加える変換自体が微少であるため、画像自体を変換した後に特徴点抽出をしてもさほど変化しないこともその理由である。
図9は、補正クエリ23に微少な射影変換を加えた画像を生成する第2の手法を示す説明図である。画像の角の位置については、図8のように引き延ばす場合(外側に移動する場合)と異なり、図9のように縮小する場合(内側に移動する場合)が考えられる。
【0051】
[第2の拡張クエリ生成方法]
補正クエリ23から射影画像を得る第2の方法は、画像を実際に回転させるものである。図10は、補正クエリに微少な射影変換を加えた画像を生成する第3の手法を示す説明図である。図10を参照しながら、具体的な方法について述べる。
まずクエリ21の底辺をB、中心点をCとする。次に、クエリ21に対応する補正クエリ23に対して直線L1、L2を次の手順で定める。まず、補正クエリ23の底辺をB'、補正クエリ23中で前記中心点Cに対応する点をC'とする。点C'を通り、底辺B'に平行な直線をL1とし、点C'を通り底辺B'に垂直な直線をL2とする。
【0052】
射影画像の生成は、下の回転方向の図に示す回転処理を補正クエリ23に施すことによって行う。以下に述べる三つの回転方向の射影画像を生成する。そのうち二つの射影画像は、補正クエリ23を直線L2回りに回転処理して生成する。図10に示す様に、回転方向としてR1とR2の2通りがあるので、二つの射影画像が得られる。なお、ここでの回転処理は以下のものも含めてすべて3次元空間上での回転であることに注意されたい。
【0053】
もう一つの射影画像は、補正クエリ23を直線L1回りに回転させて生成する。この回転処理は、図10にR3で示す回転方向のみである。これはペンとカメラの関係により、こちら側に回転する可能性が高いためである。
【0054】
以上の手順で、第2の方法においても補正クエリ23に加えて、3通りの射影画像が生成される。なお、第1の拡張クエリ生成方法と同様、実際には射影画像を生成するのではなく、クエリ21の特徴点の座標を変換するだけである。そうすることによって、画像を生成する場合に比べて処理時間が短縮される。
なお、第2の拡張クエリ生成方法でk=7の場合は、R1、R2、R3の回転角を2通りずつ試せばよい。
【0055】
≪付加特徴量抽出手順の詳細≫
付加特徴量を求めるために用いる、面積の変換について述べる。
データベース拡張手法における切り出し画像11やクエリ拡張手法における補正クエリ23、ならびにそれに微少な射影変換を加えた画像上の特徴点の座標は、これまでに述べた座標変換によって得られる。特徴点の座標が決まれば、LLAH手法に係る基本特徴量は計算できる。しかし、付加特徴量は特徴点の座標から求めることができない。付加特徴量の計算には連結成分の面積が必要である。
【0056】
射影変換後の画像において面積を求める最も単純な方法は、画像自体を射影変換し、その後、連結成分を抽出して面積を得ることである。ところが、先にも述べたとおり、画像自体を射影変換すると、計算処理に時間を要し実用的でなくなる。
そこでこの発明においては、画像を射影変換せずに、射影変換された連結成分の面積の近似値を得る手法を提供する。
【0057】
図11は、この発明の付加特徴量の算出に関し、射影変換された連結成分の面積を得る簡易的な手順を示す説明図である。射影変換前の画像の連結成分の内包領域の重心であって、その連結成分に係る特徴点をEとする。図11(a)で、連結成分は、文字“S"の黒画素である。そして、文字“S"を囲む矩形をABCDとする。A, B, C, Dは矩形の頂点である。いま、図11(a)に示す射影変換前の画像が、クエリ21であるとする。図11(b)に示す射影変換後の画像は、補正クエリ23に相当するものとする。クエリ21を補正クエリに射影変換するための射影変換パラメータは、前のフレームの対応関係に基づいて得られる。その射影変換パラメータを用いて、クエリ21の点A, B, C, D, Eに対応する補正クエリ23中の点A', B', C', D', E'を得ることができる。そうすると、クエリ21中の矩形ABCDの面積Sと、変換後の四角形A'B'C'D'の面積S'の比を求めることができる。
【0058】
クエリ21中の連結成分の面積Rと補正クエリ23の対応する連結成分の面積R'とするとき、両者の比は、先に求めた面積の比S'/Sにほぼ等しいと想定すると、面積R'は、R'=R*S'/Sと推定することができる。この推定に必要な点の座標変換は4点(ABCD)のみである。この手順による推定は、連結成分を構成する画素をすべて座標変換する場合、すなわち画像を射影変換する場合に比べて処理時間が圧倒的に少ないので、高速な変換が実現できる。
【0059】
以上に述べた三つの解決手法がこの発明の特徴的な側面である。
以下の表1は、この発明に係る三つの解決手法の組み合わせを示している。これらの手法の中で、どれが最も有効であるかを検証する実験を行った。実験の内容を以下に述べる。
【表1】

【0060】
≪実験例≫
[実験条件]
この発明では、クエリ拡張手法、特徴量の改良手法およびデータベース拡張手法を表1のように組み合わせた全9種類を用いた。LLAHのパラメータn,mは以下のように設定した。アフィン不変量を基本特徴量として用いた場合、n=7,m=6とした。つまり、一つの特徴点に対する基本特徴量(特徴ベクトル)の要素の数は64=15となる。複比を基本特徴量とした場合は、n=8,m=7とした。特徴ベクトルの要素の数は、75=21となる。
【0061】
データベースへの登録画像として英文書画像1000枚を使用した。登録画像のサイズは5100×6600画素である。検索に用いるクエリには、紙面に対するカメラペン31の仰角を4種類(90°,75°,60°,45°)のいずれかで撮影した各1500フレームの画像を用いた。図12は、この実験例で用いた仰角の異なるクエリの例を示す説明図である。(a)〜(d)は、仰角がそれぞれ90°,75°,60°,45°の例を示す。各クエリの画像サイズは480×640画素である。データベースの拡張手法では、登録画像から切り出した画像のサイズは720×960画素とした。クエリに対して縦横がそれぞれ1.5倍のサイズである。画像切り出し時のパラメータはX=8,Y=7とした。射影画像の生成に係る仰角は60°、方位角は0°±15°の3通りとし、1枚の登録画像につき合計で8×7×3=168通りの射影画像を生成し、それらの射影画像から得られた特徴量を、各登録画像から得られた特徴量と共にデータベースに登録した。また、ハッシュテーブルへの登録において衝突数が多いリストは除去した。
【0062】
クエリの拡張手法では、各クエリから抽出される特徴量に加えて各クエリが正対の状態になるように射影変換し、さらに射影変換されたクエリにk通りの傾きを与えてそれぞれ特徴量を抽出した拡張クエリを用いて検索処理を行った。kの数として1,4,7の3通りを用いた。k=1は、クエリが正対するように射影変換パラメータで変換した特徴量(補正クエリ、図7の符号23に相当)を用いる。k=4は、補正クエリ23に加えて、補正クエリ23を仰角10°で傾けたもの及び方位角±10°で傾けたもの(図7の画像25a、25b、25cに相当)からそれぞれ抽出された特徴量を用いた。k=7では、k=4の特徴量に加え、補正クエリ23を仰角20°で傾けたもの及び方位角±20°で傾けたものからそれぞれ抽出された特徴量を使用した。
【0063】
実験結果として、(1)文書画像検索精度、(2)筆跡の復元精度、(3)処理時間、(4)メモリ使用量を求めた。文書画像検索精度は、ハッシュテーブルに登録した文書IDが正しく検索された割合とする。筆跡の復元は、文書画像検索が連続したフレームで成功してはじめて求めることができる。そのため、文書画像検索が高精度で行われることが、筆跡復元において重要な鍵を握っている。筆跡の復元精度は、このシステムで復元した筆跡画像と、解答画像を重ね合わせたときの画素の一致割合とする。この発明では、復元画像を画素単位で段階的に太くし、その画像と解答画像を重ねた時の画素の一致割合をそれぞれ求めた。
【0064】
これにより得られる解答画像とのずれ幅と一致割合の関係を実験結果に示す。解答画像には、動画の撮影時にペンタブレットを用いて得られた筆跡を使用した。ただし、ペンタブレットにより得られた筆跡は、印刷時に紙面が傾くことや、余白の設定等により、実際の筆跡とはずれが生じる。そこで、目視により、ずれの許容範囲を設定し評価を行った。本実験では、許容範囲を2mmとする。このペンタブレットによるずれを修正する作業は、
筆跡を太くする前に行い、ずれの修正後に、筆跡を太くして精度を求めた。
【0065】
図13は、この実験例で用いたカメラペンシステムの処理と、各処理がクライアント側とサーバ側で時系列的に実行される例を示す説明図である。筆跡復元に係る処理は、(1)撮影画像の取込み、(2)特徴点抽出、(3)クエリ拡張、(4)文書画像検索、(5)射影変換パラメータ推定、(6)ペン先位置の特定の6つに大別できる。このカメラペンシステムは、一態様としてクライアントサーバモデルを使用している。各処理のうち、クライアント側では、(1)撮影画像の取込み、(2)特徴点抽出、(3)クエリ拡張を行う。そして、検索処理のため特徴量をサーバ側へ送る。その後、このフレームの検索結果を受信するまでの間に、クライアント側は次のフレームの処理に移る。一方、サーバ側は、クライアント側から受け取った特徴量を用いて(4)文書画像検索処理、(5)射影変換パラメータの推定を行い、その結果をクライアント側へ送る。(6)クライアント側は、送られた結果に基づいてペン先の位置(座標)を求める。
【0066】
このようにクライアント側とサーバ側とで並列処理を行うこと、また、各フレームについてパイプライン処理を行うことで、図13の(1)、(2)、(3)、(4)’、(5)’、(6)’’に要する処理時間を短縮できる。この実験例では、サーバ側での処理時間のほうが短い場合が多かった、この場合は送受信のタイミングを合わせるために、待機時間が生じる。この実施態様では、図13に示すように、両側で待機時間を除いた1フレームにかかる処理時間を求めた。実験に用いた計算機は、サーバ側が、CPUがOpteron(登録商標)2220SE(2.8GHz)、メモリが32GBであり、クライアント側は、Intel(登録商標) Core 2 Duo T7700(2.40GHz)、メモリが4GBである。
【0067】
[実験結果(1)−文書画像検索精度]
図14は、この実験例による文書画像検索精度の結果を示すグラフである。また、表2は、文書画像検索の精度を示す表である。表2で、太字は最高の精度を示し、アンダーラインは第2位の精度を表す。
【表2】

【0068】
図14に示すように、紙面に対するカメラペン31の仰角が90°のときは、従来手法とこの発明に係る手法の検索精度の差はほとんどないことが分かる。この理由として、90°では傾きがないため、大部分で元の登録画像と撮影画像の特徴点が対応付き、拡張手法が及ぼした影響が少なかったためであると考えられる。仰角75°,65°,45°では、従来手法に比べ、全ての拡張手法で精度が向上したが、仰角45°では射影歪みの影響が大きく、大幅な上昇には至らなかった。データベース拡張の手法では、拡張した画像と同じ60°だけでなく、75°でも精度が向上した。角度は異なるものの、射影歪みを受けた部分には、元の登録画像より、拡張データベースの方が類似しており、その特徴点が対応付いたためであると考えられる。クエリ拡張の手法では、データベース拡張以上の精度の向上が見られた。
【0069】
拡張クエリの個数による精度を比較すると、k=1の場合に比べk=4、7のときの方が精度がよかった。このことから、射影変換パラメータを用いて生成した補正クエリだけでなく、それに傾きを与えたものを含めた拡張クエリを用いることが、精度向上に大きな影響を与えていることが分かる。クエリ拡張もデータベース拡張もなく、特徴量の改良のみの手法(b1,b2,b3)を比較すると、特徴量にアフィン不変量と、面積比の順位を用いたb2が最も精度がよくなった。基本特徴量にアフィン不変量を用いたほうが射影不変量を用いた場合より精度が向上した理由は、特徴量計算に必要な特徴点数が少ないこと、従って同一画像から得られる特徴ベクトルの数が多いことが挙げられる。特徴ベクトルは、近傍の特徴点の配置を用いて求める。したがって、データベース画像からも、クエリ画像からも、同じ近傍特徴点を得られなければ検索できない。そのため、特徴量計算に必要な特徴点数が多いと、全く同じ近傍特徴点を得られる確率が低くなってしまい、射影不変量は精度が低下したと考えられる。
【0070】
[実験結果(2)−筆跡の復元精度]
図15は、この実験結果による仰角75°,60°での筆跡の復元精度を示すグラフである。図15の横軸は、復元した筆跡と解答画像とのずれの画素数である。縦軸は、精度である。仰角75°では、従来手法に比べ全ての手法で精度が向上した。さらに仰角60°では、ほとんど復元できなかった拡張なしの手法に比べると、拡張手法では精度が大きく向上した。クエリ拡張の手法では、データベース拡張の手法に比べて、精度の向上率が大きいことが分かる。データベース拡張の手法では、あらかじめ定められた傾きの射影画像に係る特徴量を登録する。その射影画像の傾きが、クエリの傾きと等しいとは限らない。射影画像の傾きとクエリの傾きの差が大きいと、文書画像検索によって求められるクエリと登録画像の間の対応点数が少なくなる。一方、クエリ拡張の手法では、フレーム毎の傾きの変化を考慮している。このため、データベース拡張の手法に比べて対応点数が増える。対応点数が増えると、射影変換パラメータ推定がより正確に行えるため、結果的にクエリ拡張手法の場合の復元精度が向上したと考えられる。このように筆跡の復元は、文書画像検索の精度に依存する。文書画像検索の精度がよいと、筆跡の復元精度もよくなる。
【0071】
図17は、この実験例による筆跡復元の結果を示す説明図である。図17の筆跡の復元例を見ると、従来手法のb1では復元できずに欠けている部分も、拡張手法のd2, q2-1, q2-4, q2-7では復元できていることが分かる。拡張手法のうち、データベース拡張手法に係るd2では、復元された筆跡に欠けやノイズが多いが、クエリ拡張手法に係る q2-1, q2-4, q2-7では、拡張に係るkの数が増えるにつれて正確に筆跡が復元できていることが分かる。さらに、従来手法b1では全く復元できなかった60°での筆跡も、クエリ拡張手法に係るq2-4,q2-7では復元できている。
ただし、クエリ拡張手法に係るq2-4,q2-7といえども、復元された筆跡に含まれるブレやノイズ、欠けなどをさらに改善すべき余地がある。
【0072】
[実験結果(3)−処理時間]
図16は、この実験例によるクライアントとサーバの処理時間を示すグラフである。データベース拡張手法の処理時間は、両側とも従来手法と同等であった。クエリ拡張手法では、クライアントで傾きが大きくなるにつれて、処理時間が増加した。図16(a)に示すように、60°でクエリ拡張に係るk=7のとき、クライアントの処理時間が増加した。ただし、k=4の場合は、増加時間は6ms程度であり、実時間処理に大きな影響を及ぼさないと考えられる。一方、サーバでは、クエリの拡張数が増えるほど検索に要する時間が増えるため、処理時間が増加した。クエリを拡張に係るk=4の場合、仰角60°における処理時間は、従来手法の約5倍に増加していることが分かる。しかし、サーバの処理時間(36.29ms)はクライアントの処理時間(45.20ms)を下回っており、ユーザーから見たカメラペンシステム全体の処理時間には影響を与えない。
【0073】
[実験結果(4)−メモリ使用量]
表3は、表1に示す各手法のメモリ使用量を示している。
【表3】

【0074】
表3のように、データベース拡張手法により、メモリ使用量は大幅に増加した。これは、データベースを大規模化する上で大きな問題となる。クエリ拡張手法では、メモリ使用量は従来手法と同じであった。基本特徴量に射影不変量を使用した手法では、アフィン不変量を使用した手法に比べ、メモリ使用量が大きくなった。この理由として、特徴量の要素数が多いことが挙げられる。
【0075】
[実験結果の考察]
基本特徴量に射影不変量を用いる場合は、特徴量計算により多くの特徴点数を必要とするため、撮影範囲が狭い場合には精度、メモリ使用量共に、アフィン不変量の方が適していると考えられる。基本特徴量をアフィン不変量とした場合、付加特徴量には、射影不変量である面積比の順位を用いる方が精度が良い結果が得られた。データベース拡張は、処理時間を従来手法と同等に保てたものの、メモリ使用量の増大が問題として残った。それに対し、クエリ拡張手法は、メモリ使用量が従来手法と同じであった。拡張するクエリの個数により処理時間は増加したが、実時間処理を維持できるようにクエリの拡張個数を抑えても、精度を大幅に改善できるため有効であるといえる。これらの組み合わせを考慮すると、この実施形態では、特徴量にアフィン不変量と面積比の順位を用い、クエリ拡張に係るkの数を4とする手法、q2-4の条件がよいと考えられる。ただし、カメラペンシステムの用途として、筆跡の復元精度は十分とはいえず、更なる精度の向上が必要となる。
【0076】
前述した実施の形態の他にも、この発明について種々の変形例があり得る。それらの変形例は、この発明の範囲に属さないと解されるべきものではない。この発明には、請求の範囲と均等の意味および前記範囲内でのすべての変形とが含まれるべきである。
【産業上の利用可能性】
【0077】
この発明は、用紙上に文書画像が印刷等されたものにメモなどを書き込むとき、文書画像検索技術を利用して書き込まれた筆跡をデジタルデータとして復元し、かつ、前記文書画像との位置的な関連を得るカメラペンシステムに関するものである。
【0078】
LLAHを用いたカメラペンシステムには、(1)撮影範囲が狭く識別性が低下する問題と、(2)ペンが傾くことにより撮影画像に射影歪みが生じ、検索精度が低下する問題がある。この発明では、これらの問題を解決する三つの手法を提案した。第1は、射影歪みを含むクエリに対して射影変換画像を用い、クエリを拡張する手法である。第2は、射影歪みの影響を低減するために特徴量を改良する手法である。第3は、射影歪みを含むクエリに近づけるように登録画像を拡張する手法である。
【0079】
これら手法とその組み合わせの有効性を実験により検証した結果、従来手法に比べ、カメラペン31の紙面に対する仰角が75°,60°のときに、文書画像検索精度、筆跡の復元精度が共に向上した。特に、基本特徴量をアフィン不変量とし、付加特徴量を面積比の順位とし、クエリを拡張する手法と組み合わせた場合に最も精度の向上がみられた。
【符号の説明】
【0080】
11、13a、13b、13c、25a、25b、25c:画像
21:クエリ
23:補正クエリ
31:カメラペン
33:動画カメラ
35:ペン本体
DB:画像データベース
d1、d2、d3、…、dn:登録画像
q1、q2、q3:クエリ

【特許請求の範囲】
【請求項1】
ペン先と、その周辺を撮影する動画カメラとを有するペン部を用いて紙面に筆記がされるとき、その紙面に予め記された文書画像を前記動画カメラに撮影させ、撮影された動画の各フレームを文書画像検索のクエリとして取得する撮影ステップと、
画像データベースに予め登録された登録画像を参照し、前記登録画像の中から各クエリに対応する登録画像を検索する検索ステップと、
検索された登録画像とクエリとを照合して前記登録画像の中でのクエリの撮影範囲を特定する特定ステップと、
各撮影範囲のフレーム順の変位に基づいて前記ペン先の軌跡を復元する筆跡復元ステップの各ステップをコンピュータが実行し、
前記画像データベースは、登録画像としての文書画像とそれから抽出された複数の登録特徴量とが関連付けられて登録されてなり、
前記検索ステップは、
(1)射影歪みを受けた状態で前記クエリに写る紙面上の文書画像から局所的特徴を表す複数の特徴点を抽出し、近接する所定数の特徴点の組み合わせから1つのクエリ特徴量を生成する特徴量生成ステップと、
(2)前記射影歪みを受けた文書画像からその射影ひずみを除去するための射影変換パラメータを推定するパラメータ推定ステップと、
(3)推定された射影変換パラメータを用いて前記クエリ特徴量を補正し補正クエリ特徴量を算出するクエリ拡張ステップとを含み、
各クエリから少なくとも一つの補正クエリ特徴量を求め、その補正クエリ特徴量と各登録特徴量とを照合して各クエリに対応する登録画像を見出すことを特徴とする筆跡復元方法。
【請求項2】
前記クエリ拡張ステップは、前記補正クエリ特徴量にさらに所定の射影変換を施して射影クエリ特徴量を算出し、前記射影クエリ特徴量および前記補正クエリ特徴量と前記登録特徴量とを照合し、対応する登録画像を見出す請求項1に記載の筆跡復元方法。
【請求項3】
前記クエリ拡張ステップは、前記補正クエリ特徴量に予め定められた複数の方向への射影変換を施して各方向に対応した射影クエリ特徴量を算出する請求項2に記載の筆跡復元方法。
【請求項4】
前記パラメータ推定ステップは、前フレームにおいてクエリに対応する登録画像が見出されているとき、前フレームのクエリの特徴点と見出された登録画像の特徴点との対応に基づく射影変換パラメータを求め、現フレームの射影変換パラメータとして推定する請求項1〜3のいずれか一つに記載の筆跡復元方法。
【請求項5】
前記特徴量生成ステップは、文書画像を構成する画素が一塊に連なる連結成分から一つの特徴点を抽出すると共にその連結成分に内包される内包面積を算出し、前記連結成分の近傍にある連結成分の内包面積との面積比を算出し、所定数の連結成分を組として面積比の順位を決定し、その面積比の順位を特徴量の一部として用いる請求項1〜4のいずれか一つに記載の筆跡復元方法。
【請求項6】
前記画像データベースは、各登録画像から複数の部分画像を切り出し、各部分画像を予め定められた少なくとも一つの方向に射影変換してその方向の射影画像を生成し、その射影画像から特徴量を抽出し、登録画像から抽出された特徴量と共に前記登録特徴量としたものである請求項1〜5のいずれか一つに記載の筆跡復元方法。
【請求項7】
ペン先と、その周辺を撮影する動画カメラとを有するペン部と、
前記ペン部で紙面に筆記がされるとき、その紙面に予め記された文書画像を前記動画カメラに撮影させ、撮影された動画の各フレームを文書画像検索のクエリとして取得する撮影処理部と、
画像データベースに予め登録された登録画像を参照し、前記登録画像の中から各クエリに対応する登録画像を検索する検索処理部と、
検索された登録画像とクエリとを照合して前記登録画像の中でのクエリの撮影範囲を特定する特定処理部と、
各撮影範囲のフレーム順の変位に基づいて前記ペン先の軌跡を復元する筆跡復元部とを備え、
前記画像データベースは、登録画像としての文書画像とそれから抽出された複数の登録特徴量とが関連付けられて登録され、
前記検索処理部は、
(1)射影歪みを受けた状態で前記クエリに写る紙面上の文書画像から局所的特徴を表す複数の特徴点を抽出し、近接する所定数の特徴点の組み合わせから1つのクエリ特徴量を生成する特徴量生成部と、
(2)前記射影歪みを受けた文書画像からその射影ひずみを除去するための射影変換パラメータを推定するパラメータ推定部と、
(3)推定された射影変換パラメータを用いて前記クエリ特徴量を補正し補正クエリ特徴量を算出するクエリ拡張部とを含んでなり、
各クエリから少なくとも一つの補正クエリ特徴量を求め、その補正クエリ特徴量と各登録特徴量とを照合して各クエリに対応する登録画像を見出すことを特徴とする筆跡復元装置。
【請求項8】
ペン先と、その周辺を撮影する動画カメラとを有するペン部を用いて紙面に筆記がされるとき、その紙面に予め記された文書画像を前記動画カメラに撮影させ、撮影された動画の各フレームを文書画像検索のクエリとして取得する撮影処理部と、
画像データベースに予め登録された登録画像を参照し、前記登録画像の中から各クエリに対応する登録画像を検索する検索処理部と、
検索された登録画像とクエリとを照合して前記登録画像の中でのクエリの撮影範囲を特定する特定処理部と、
各撮影範囲のフレーム順の変位に基づいて前記ペン先の軌跡を復元する筆跡復元部としての機能をコンピュータに実行させ、
前記画像データベースは、登録画像としての文書画像とそれから抽出された複数の登録特徴量とが関連付けられて登録され、
前記検索処理部は、
(1)射影歪みを受けた状態で前記クエリに写る紙面上の文書画像から局所的特徴を表す複数の特徴点を抽出し、近接する所定数の特徴点の組み合わせから1つのクエリ特徴量を生成する特徴量生成部と、
(2)前記射影歪みを受けた文書画像からその射影ひずみを除去するための射影変換パラメータを推定するパラメータ推定部と、
(3)推定された射影変換パラメータを用いて前記クエリ特徴量を補正し補正クエリ特徴量を算出するクエリ拡張部とを含んでなり、
各クエリから少なくとも一つの補正クエリ特徴量を求め、その補正クエリ特徴量と各登録特徴量とを照合して各クエリに対応する登録画像を見出すことを特徴とする筆跡復元処理プログラム。

【図12】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図13】
image rotate


【公開番号】特開2011−186604(P2011−186604A)
【公開日】平成23年9月22日(2011.9.22)
【国際特許分類】
【出願番号】特願2010−49153(P2010−49153)
【出願日】平成22年3月5日(2010.3.5)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成21年10月28日 平成21年電気関係学会 関西支部連合大会実行委員会発行の「平成21年電気関係学会関西支部連合大会プログラム・講演論文集(CD)」において発表
【出願人】(505127721)公立大学法人大阪府立大学 (688)
【Fターム(参考)】