説明

手書きパターンの取得システムおよび取得方法

【課題】特別な用紙を必要とせず、用紙に手書きされたコンテンツをデータベースに取り込むことのできる手法を提供する。
【解決手段】ペン先とその付近を撮影する動画カメラ3とを有してなるペン部1と、撮影された動画像の一連のフレーム間において移動するペン先の軌跡を求める処理部とを備え、前記ペン部は、前記用紙が抄かれて紙面に形成された凹凸模様である紙指紋を前記カメラが撮影し、前記処理部は、各フレーム画像に写った紙指紋の局所的特徴をそれぞれ表す複数の特徴点を抽出する抽出処理部、前後のフレーム画像間で対応する各特徴点を決定する対応処理部、対応する各特徴点の前後フレームでの位置変化に基づいて紙面に対するペン先の位置変化を決定しペン先の軌跡としての手書きパターンを求める軌跡処理部を備えてなることを特徴とする手書きパターン取得システム。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、カメラが搭載されたペンを用いて、手書きパターンをリアルタイムに取得する手書きパターンの取得システムおよび取得方法に関する。
【背景技術】
【0002】
「紙とペン」による手書き(手書きコンテンツ)は我々人類にとって最も歴史ある情報の生成・記録メディアである。ペーパレス化が叫ばれ、様々な情報革新がありながら、未だに紙の手帳を愛用する人も多く、講義メモも紙のノートに取る人も多い。そこでこうした手書きコンテンツをデジタル化してデータベースに取り込むことができれば、保存、検索、データの複製が容易になり、日常の手書き内容を保存できるライフログ、いわばライティング・ライフ・ログ("writing-life-log")を実現できる。
【0003】
この発想に基づいて、手書きパターンをリアルタイムに取得する機器が既にいくつか提案されている。その一例は、これはスウェーデンのAnoto社が開発したデジタルペン、製品名 Anoto penDocuments(以下、簡単のためアノトペンあるいはアノトシステムという)である(例えば、[2009年2月12日検索]インターネット<URL:http://www.anoto.com/>、参照)。アノトシステムは、紙面に予め印刷された細かいドットパターンをペンのカメラで読み取ることで、どの紙のどの位置に記述しているかを判断し、ペン先の軌跡(筆跡)を保存するものである。文書を紙に印刷する際に、紙と文書を関連付けておけば、筆跡を文書上に正しく配置することも可能となる。
【0004】
より詳細には、アノトシステムとは、ドットパターンが印刷された専用紙"ANOTO paper"と小型カメラ・Bluetooth対応通信機能を内蔵した"ANOTO pen"からなるシステムである。専用紙のドットパターンをペンのカメラで認識することで、筆跡情報を入手する。ドットパターンは約0.3mmの間隔で格子状に配置されており、直交する格子からわずかにずれるようになっている。ずれは上下左右の4方向となっており、このずれのパターンをペンに内蔵されたカメラによって読み取る。カメラが一回に読み取る範囲は6×6の36ドットであり、36個のずれの組み合わせによって、異なる位置情報を得られる。この特徴は272通りの組み合わせとなり、ユーラシア大陸と同程度の広さの領域からある一点を認識できる。また、ドットパターンの組み合わせにより紙に様々な機能を与えることも可能となる。例えば、蓄積されたデータをPCなどに送信する領域を作成することで、データ送信を容易に行うことなどが考えられる。
【0005】
他のカメラ付きペンの例として、AraiらによるPaperLinkが挙げられる(例えば、非特許文献1参照)。これは、ペン型の小型カメラと蛍光ラインマーカーを組み合わせたもので、紙の文書をハイパーテキストのように扱うことができる。具体的には、ペンのボタンを押しながら蛍光ラインマーカーで紙の上をなぞり、その部分のパターンをカメラで切り出しておく。そして切り出された領域に対するアクションを定義しておけば、後でその領域を撮影することで定義しておいたアクションが起動される。
【0006】
また、Iwataらは紙面に記された文書及び/又は画像(以下、文書画像)を検索する文書画像検索技術を利用した筆跡の復元と文書上への配置を行う手法を提案している(例えば、非特許文献3参照)。
【0007】
カメラで撮影された画像から実際に手書き内容を得るためには、動画像の各フレームに断片的に撮影された手書きパターンからその全体像を復元する必要がある。これに用いられる技術は、いわゆるビデオモザイキングと呼ばれるものである(例えば、非特許文献2参照)。具体的には、現在フレーム画像と直前フレーム画像との隣接する2フレーム間で特徴点の対応関係を求め、それに基づいてフレーム間の姿勢変化を求める。この姿勢変化を全ての隣接フレームに渡って求めれば、全フレーム分の姿勢変化系列が把握できる。そしてそれらを用いて各フレーム画像を貼り合わせることで、手書きパターンの全体像を復元した1枚の画像を生成できる。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】T. Arai, D. Aust, S. E. Hudson, "PaperLink: a technique for hyperlinking from real paper to electronic content," Proc. ACM Conf. Human Factors in Computing Systems (CHI'97), pp. 327-334, 1997.
【非特許文献2】M. Irani and P. Anandan, "Video indexing based on mosaic representations," Proc. IEEE, vol. 86, no. 5, pp. 905-921, 1998.
【非特許文献3】Kazumasa Iwata, Koichi Kise, Tomohiro Nakai, Masakazu Iwamura, Seiichi Uchida, Shinichiro Omachi, "Capturing Digital Ink as Retrieving Fragments of Document Images," Proceedings of the 10th International Conference on Document Analysisand Recognition (ICDAR2009), pp.1236-1240, (2009-7).
【発明の概要】
【発明が解決しようとする課題】
【0009】
以上のように、手書きパターンを画像として自動的にデータベース登録できれば、前述のライティング・ライフ・ログを実現できる。
ただし、アノトシステムは、特殊なドットパターンが印刷されていない紙を用いることはできないため、利便性を損ねているという問題点もある。即ち、専用紙が必要になることによる利便性の低下が課題として挙げられる。ドットパターンは普通紙に印刷して利用できるが、約0.3mmごとに配置されており、高精度な専用のプリンタが必要となる。また、ノートとして購入するにしても高価であり、入手方法にも限りがある。このような理由により、アノトシステムを日常的に利用するのは費用と手間がかかる。
【0010】
特殊なドットパターンを用いることなく、上記と同様の機能、すなわち、白紙上の筆跡の復元と文書への筆跡配置を行えるカメラペンシステムが望まれている。
また、前述のPaperLinkやIwataらの手法は、ラインマーカーでなぞる紙面上に文書等が記載されていることが前提である。
【0011】
この発明は、以上のような事情を考慮してなされたものであって、第1の課題として、特別な用紙を必要とせず、用紙に手書きされた筆跡をコンテンツとしてデータベースに取り込むことのできる手法を提供するものである。
【0012】
第2の課題として、この発明は、用紙上の筆跡を得るという上記第1の課題を解決する手法と文書画像検索技術を利用して文書上への配置を行う手法との巧みな統合により、白紙上の筆跡を復元できかつ予め文書画像が記された用紙上に筆記がなされたときその文書画像に対する筆記位置を得ることのできる手法を提供するものである。
【課題を解決するための手段】
【0013】
上記の第1の課題を解決するため、この発明では、各フレーム画像から特徴点を検出する際、紙指紋に着目する。紙指紋とは、抄かれた紙の表面に観察される紙の微細構造による凹凸模様のことである。紙面を接写すれば、紙を形成する植物繊維の絡み具合がランダム状の模様を生成していることがわかる。この模様中の例えばコーナー点やエッジ点を検出できれば、それを特徴点として対応付けに利用できる。こうした紙面に自然に存在する特徴点は従来あまり利用されることはなかった。従ってこの発明の特徴の一つであるといえる。
【0014】
なお、この紙指紋という名称は、その模様により紙の同一性を検証する技術に由来する。例えば、富士ゼロックスが開発した紙指紋照合技術XAYA(例えば、[2009年2月12日検索]インターネット<URL:http://www.fujixerox.co.jp/company/technical/xaya/>参照)では、紙表面の模様すなわち紙指紋をスキャナで光学的に読み取ってデータベースなどに記録しておき、識別時には入力された紙画像の紙指紋と照合する。高精度で用紙を識別できるとしている。
【0015】
この発明は、前述の第1の課題を解決する第1発明として、ペン先とその付近を撮影する動画カメラとを有してなるペン部と、撮影された動画像の一連のフレーム間において移動するペン先の軌跡を求める処理部とを備え、前記ペン部は、前記用紙が抄かれて紙面に形成された凹凸模様である紙指紋を前記カメラが撮影し、前記処理部は、各フレーム画像に写った紙指紋の局所的特徴をそれぞれ表す複数の特徴点を抽出する抽出処理部、前後のフレーム画像間で対応する各特徴点を決定する対応処理部、対応する各特徴点の前後フレームでの位置変化に基づいて紙面に対するペン先の位置変化を決定しペン先の軌跡としての手書きパターンを求める軌跡処理部を備えることを特徴とする手書きパターン取得システムを提供する。
【0016】
また、異なる観点から、前記第1発明は、ペン先とその付近を撮影する動画カメラとを有してなるペン部を用いた手書きが用紙にされるとき前記動画カメラがペン先付近の紙面を撮影する工程と、処理部が、撮影された動画像の一連のフレーム間において移動するペン先の軌跡を求める工程とを備え、前記カメラ部は、前記用紙が抄かれて紙面に形成された凹凸模様である紙指紋を撮影し、前記処理部は、各フレーム画像に写った紙指紋の局所的特徴をそれぞれ表す複数の特徴点を抽出し、前後のフレーム画像間で対応する各特徴点を決定し、対応する各特徴点の前後フレームでの位置変化に基づいて紙面に対するペン先の位置変化を決定し、ペン先の軌跡としての手書きパターンを求めることを特徴とする手書きパターン取得方法を提供する。
【0017】
また、第2の課題を解決すべく、この発明は上記第1の課題を解決する第1発明と文書画像検索技術を利用して文書上の位置を得る手法とを統合するのであるが、前記統合で最も大きな障害となる事項は、動作に必要な撮影範囲の違いにある。即ち、第1発明による手法が狭い範囲を捉えた高精細画像を要求するのに対して、Iwataらの手法には多くの文字を捉えた広い範囲の画像が必要である。広角カメラを用い、接写をしつつ広い範囲の画像を得ることも考えられるが、広角カメラによる幾何学的歪みは大きな問題となり、解像度、歪み、色収差等の要求を満たすためには高価なカメラが要求される。この相反する問題に対して、発明者らは異なる解決手法を見出すべく検討を重ねた結果、画像のモザイキング技術によって対処できることを見出した。即ち、狭い範囲を撮影して筆跡を復元しつつ、画像をモザイキングすることにより、より大きな画像を構成していく。そして、十分な大きさの画像が得られたら、文書画像検索を用いて筆跡の文書内での位置を求めるというものである。後述するように、発明者らはプロトタイプシステムを用いた実験に基づいて第2の課題を解決する手法につきその有効性を評価した。
【0018】
以上のように、この発明はまた、第2の課題を解決する第2発明として、ペン先とその付近を撮影する動画カメラとを有し、用紙が抄かれて紙面に形成された凹凸模様である紙指紋及び前記紙面に記された文書画像を前記動画カメラで撮影するペン部と、撮影された動画の各フレームから紙指紋の局所的特徴を紙面特徴点として抽出し、前後のフレームで対応する紙面特徴点の移動量に基づいて前記ペン先の紙面に対する軌跡を得る第1軌跡処理部と、各フレームに文書画像が写っているとき、その文書画像の局所的特徴を文書画像特徴点として抽出し、前後のフレームで対応する文書画像特徴点の移動量に基づいて文書画像に対する前記軌跡の位置を得る第2軌跡処理部と、前記第2軌跡処理部は、対応する文書画像特徴点が重なるように各フレームを組み合わせて1つのフレームより広い領域の文書画像特徴点の配置を決定し、前記配置に基づいて文書画像に対する前記軌跡の位置を得ることを特徴とする手書きパターン取得システムを提供する。
【発明の効果】
【0019】
前記第1発明による手書きパターン取得システムにおいて、前記ペン部は、前記用紙が抄かれて紙面に形成された凹凸模様である紙指紋を前記カメラが撮影し、前記処理部は、各フレーム画像に写った紙指紋の局所的特徴をそれぞれ表す複数の特徴点を抽出する抽出処理部、前後のフレーム画像間で対応する各特徴点を決定する対応処理部、対応する各特徴点の前後フレームでの位置変化に基づいて紙面に対するペン先の位置変化を決定しペン先の軌跡としての手書きパターンを求める軌跡処理部を備えてなるので、特別な用紙を必要とせず、用紙に手書きされたコンテンツをデータベースに取り込むことができる。また、手書きパターンそれ自体から軌跡を決定する手法でないため、手書きパターンの隠蔽に強い。さらに、ペン先が移動してもフレーム画像間に写る手書きパターンが変化しない状態、いわゆる開口問題を回避することができるという優れた利点を有する。
前記第1発明による手書きパターン取得方法も、同様の利点を有する。
【0020】
また、前記第2発明による手書きパターン取得システムにおいて、前記第2軌跡処理部は、対応する文書画像特徴点が重なるように各フレームを組み合わせて1つのフレームより広い領域の文書画像特徴点の配置を決定し、前記配置に基づいて文書画像に対する前記軌跡の位置を得るので、紙指紋の撮影とそれよりも広い領域の撮影が要求される文書画像の撮影を1つの動画カメラでまかなうことができる。従って、紙面に特殊な加工を行わずに白紙上でもペン先の軌跡を取得でき、かつ、予め紙面に記された文書画像にマークや注記等の筆記がなされたときには、その文書画像に対する前記軌跡の位置を求めることができる。
【0021】
この発明において、ペン部は、実際に筆記具として一般の用紙に文字、数字、図形やパターンなどを描くために使用される。即ち、ボールペン、鉛筆あるいはフェルトペンなどである。ペン部が有する動画カメラは、例えば携帯電話やコンピュータに内蔵されるような小型のカメラが好ましいが、時系列のフレーム画像を撮影できるものであれば、特にその大きさ、撮像素子等の限定はない。
【0022】
第1発明に係る前記処理部、及び、第2発明に係る第1及び第2軌跡処理部は、ペンと一体であってもよいが、別体であってもよい。一体型の場合は、求まった手書きパターンのデータを記憶する記憶装置を有しており、好ましくは無線、あるいは有線でホストのコンピュータと通信して記憶されたデータをホストへ入力してもよい。あるいは、規格化されたメモリーカード等の媒体を介してホストへデータをコピーあるいは移動できるように構成されていてもよい。処理部は、マイクロコンピュータ、メモリを主としたハードウェアで構成され、前記マイクロコンピュータが所定の制御プログラムを実行することによりその機能が実現されてもよい。
【0023】
ペン部と処理部が別体の場合、両者は好ましくは無線、あるいは優先で処理部と通信するように構成されてもよい。処理部は、マイクロコンピュータ、メモリを主としたハードウェアで構成され、前記マイクロコンピュータが所定の制御プログラムを実行することによりその機能が実現されてもよい。あるいは、パーソナルコンピュータ等汎用の情報処理装置上でCPUが所定のアプリケーションプログラムを実行することによりその機能が実現されてもよい。
【0024】
この発明の第1発明及び/又は第2発明による手書きパターン取得システムにより取得された手書きパターンは、パターンデータとして外部のデータベースに蓄積され、使用されてもよいが、例えば、本システムの外部で公知の文字認識処理によって文字データに変換され、文字データとして使用されてもよい。
【図面の簡単な説明】
【0025】
【図1】この発明によるライティング・ライフ・ログ実現のコンセプトを示す説明図である。
【図2】図2は、この実施形態におけるペン先カメラで実際に撮影された画像の一例である。
【図3】この発明に係る紙指紋の一例を示す画像である。
【図4】この発明の実施形態において、隣接するフレーム画像間で点対応の関係を実際に求めた結果を示す説明図である。
【図5】この発明に係るカメラ付きペンを用いて数字の"2"を筆記した際のペン先画像のフレーム系列を示す画像である。
【図6】図5の各フレーム画像に基づくビデオモザイクの結果を示す説明図である。
【図7】図5のフレーム系列で実際に書かれた"2"をイメージスキャナでスキャンした画像である。
【図8】図5の各フレームにおけるSURF特徴点対の数を示すグラフである。
【図9】図7と異なる手書き文字"2"(図10の手書き文字である)を筆記した場合のビデオモザイクの結果を示す説明図である。
【図10】図7と異なる手書き文字"2"をイメージスキャナでスキャンした画像である。
【図11】図9の手書き文字の各フレームにおける特徴点対応数を示すグラフある。
【図12】この発明で用いられる紙指紋のSURF特徴点を白紙から抽出した結果を示す説明図である。
【図13】この発明で、2つのフレーム間のSURF特徴点の対応関係を視覚化した説明図である。
【図14】この発明のうち第2発明に係るモザイク画像から抽出されたLLAH特徴点の様子を示す説明図である。
【図15】第2発明に係る実施態様で使用したカメラペンの外観を示す説明図である。
【図16】第2発明に係る処理の流れを示す説明図である。
【図17】第2発明に係る実験例2において、文書領域に50個の筆記を行い復元した筆跡を評価する実験の結果を示すグラフである。
【図18】実験例2において、筆跡の復元結果が回転した一例を示す説明図である。
【図19】実験例2において、文書中の余白に筆記を行ったときの筆跡の復元結果を示す説明図である。
【図20】実験例2において、文書領域に広く筆記をしたときの筆跡の復元結果を示す説明図である。
【図21】実験例2において、小さな領域に筆記したときの筆跡の復元結果を示す説明図である。
【発明を実施するための形態】
【0026】
以下、この発明の好ましい態様について説明する。
前記抽出処理部は、異なるフレーム画像間で位置が変化する特徴点を紙面の特徴点と判断し位置が変化しない特徴点をペン先部の特徴点と判断し、各フレーム画像に写るペン先部からは特徴点を抽出しないようにしてもよい。このようにすれば、ペン先部から特徴点を抽出しないよう処理するので、紙面に対する位置変化を求める際にノイズとなる特徴点の抽出が抑制され、より正確に特徴点の対応関係を求めることができる。
【0027】
また、前記対応処理部は、後のフレームのペン先から所定範囲内の領域は、特徴点の対応をとらないようにしてもよい。このようにすれば、前のフレームに対応する特徴点が存在しない手書きパターン部から特徴点を抽出しないよう処理するので、紙面に対する位置変化を求める際にノイズとなり得る特徴点の抽出が抑制され、より正確に特徴点の対応関係を求めることができる。
【0028】
さらにまた、前記対応処理部は、決定するとき、各フレーム画像に写る紙面の射影歪みを補正した後、前後フレーム画像間で対応する特徴点の位置変化を決定してもよい。このようにすれば、用紙へ手書きする際にペン部が用紙に対し傾いた状態であっても、それによる射影歪みが補正されるので、補正しない場合にくらべて軌跡の位置をより正確に求めることができる。
【0029】
前記対応処理部は、射影歪みを補正すべく各フレーム画像に対応する射影変換行列をそれぞれ算出し、前および/または後フレームの射影変換行列と要素が不連続なフレームはペン先の軌跡を求めるフレームから除外してもよい。このようにすれば、ペン先の軌跡が不連続になるようなフレームがノイズとして除去されるので、当該処理を行わない場合に比べてより適切に手書きパターンを抽出することができる。
【0030】
また、前記対応処理部は、誤った対応関係のノイズ除去処理を行ってもよい。このようにすれば、当該処理を行わない場合に比べて、前後フレーム画像間での位置変化をより正確に決定することができる。
【0031】
さらにまた、前記抽出処理部は、特徴点の抽出手法として、SURFのアルゴリズムを用いてもよい。SURFの手法により抽出された特徴点は、特徴量は回転やスケール変化に対して不変であり、また照明変化にも頑健という性質を持っている。また、SURFの基礎となったSIFTの手法に比べて処理が軽いため、SIFTよりも動画への適用に好適である。ただし、紙面特徴点の抽出手法は必ずしもSURFに限られるものではなく、他の局所特徴量、例えば、SIFT, PCA-SIFTなどを用いることもできると考えられる。
さらに、前述のSIFT, SURFなどは領域検出器(region detector)と特徴記述子(feature descriptor)としての機能を兼ね備えるものであるが、両者の機能を分離し、何れか一方あるいは両方をたの手法に置換してもよい。適用可能な領域検出器としては、harris-affine, hessian-affine, MSERなどが考えられ、この発明に適用可能な特徴記述子としてはSIFTなどのほかにshape contextなどが考えられる。
【0032】
前記第2発明において、複数の文書画像がその文書画像から抽出された文書画像特徴点と関連付けられ登録されてなる文書画像データベースの中から、前記配置に対応する文書画像を検索する文書画像検索部をさらに備え、第2軌跡処理部は、前記配置と前記検索部により検索された文書画像に関連付けられた文書画像特徴点との対応関係に基づいて、各フレームに写った文書画像の幾何学的歪みの歪量を決定し、その歪量を用いて前記軌跡を補正してもよい。このようにすれば、文書画像の検索に成功したとき紙面と正対した平面への射影変換ができるので、紙指紋のみから得られる筆跡よりも誤差のより小さい筆跡が得られる。
【0033】
第1軌跡処理部は、紙面特徴点の抽出手法として、SURFのアルゴリズムを用いることが好ましい。ただし、紙面特徴点の抽出手法は必ずしもSURFに限られるものではなく、他の局所特徴量、例えば、SIFT, PCA-SIFTなどを用いることもできると考えられる。
さらに、前述のSIFT, SURFなどは領域検出器(region detector)と特徴記述子(feature descriptor)としての機能を兼ね備えるものであるが、両者の機能を分離し、何れか一方あるいは両方を他の手法に置換してもよい。適用可能な領域検出器としては、harris-affine, hessian-affine, MSERなどが考えられ、この発明に適用可能な特徴記述子としてはSIFTなどのほかにshape contextなどが考えられる。
【0034】
また、第2軌跡処理部は、文書画像特徴点の抽出手法として、連結成分の重心を抽出しLLAHのアルゴリズムを用いて各特徴点を表してもよい。なお、この発明はLLAHに必ずしも限定されず、SURFやSIFTのアルゴリズムを適用して抽出した特徴量を用い、近似最近傍探索に下で参照する野口らの手法などを用いて実現することも不可能ではないと考えられる。ただし、LLAHを適用して得られる特徴量(LLAH特徴点)がコンパクトで容量を必要としないのに対して,SURFやSIFTなどを適用して得られる特徴量は大きな容量を必要とする。SURFやSIFTなどを適用して得られる特徴量を用いる場合は、LLAH特徴量に比べて処理に長い時間を要したりデータベースが大きくなったりすることが予想される。従って、LLAH特徴量を用いることが好ましい。
ここで示した種々の好ましい態様は、それら複数を組み合わせることもできる。
【0035】
以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この発明を限定するものと解されるべきではない。
まず、この発明の前記第1発明に対応する実施形態を説明する。
この実施形態において、カメラ付きペンから手書きパターン全体を得るための原理について述べる。次に紙指紋からの特徴点検出について述べ、さらにその特徴点を手がかりにフレーム間の姿勢変化の推定を行う方法を述べ、最後にビデオモザイキングによりパターン全体を1枚の画像として得る方法を説明する。そして実験結果を示し、最後に今後の課題について述べる。
【0036】
≪カメラ付きペンの構成および処理の概要≫
図1は、この発明によるライティング・ライフ・ログ実現のコンセプトを示す説明図である。図1(a)は、この実施形態に係るカメラ付きペンの概略構成を示す斜視図である。
図(b)は、手書きされたコンテンツを、ビデオモザイキング技術を用いてデータベースに取り込む様子を示す説明図である。図1(a)に示すように、この実施形態ではペン先に超小型CCDカメラ(製品名:プラムネット ハンディミニ、型名:CCN3412Y)を搭載したカメラつきペンを用いた。このペン先カメラで筆記途中の手書きパターンおよび紙面を撮影する。カメラはペンに固定されているため、ペンは視野内で常に同じ位置にある。図2は、この実施形態におけるペン先カメラで実際に撮影された画像の一例を示す。
【0037】
実際に手書き内容全体を得るためには、図1(b)に示すように、動画像の各フレーム画像として撮影された断片的な手書きパターンからその全体像を復元する必要がある。この処理が、いわゆるビデオモザイキング処理と呼ばれるものである。このため、この実施形態では、処理対象のフレーム画像と直前のフレーム画像の隣接する2フレームの画像上でそれぞれ対応する特徴点を公知のSIFT(より詳細にはSURF、SURFの詳細は、例えば、H. Bay,T. Tuytelaars, and L. V. Gool, "SURF: speeded up robust features," Proc. ECCV2006 (LNCS volume 3951), part 1, pp. 404-417, 2006.参照)の手法を用いて検出する。両フレーム画像に共通する特徴点を抽出することができれば、それらの対応関係からフレーム間の紙面に対する位置的変化を推定できる。詳細には、紙面が射影歪みを受けた状態の各フレーム画像と紙面との対応関係を示す射影変換行列をすべての隣接フレーム間において求める。そして、各フレーム画像の射影歪みを補正したうえで、紙面上での位置的変化を推定する。それらの結果に基づき、一連のフレームに渡る紙面上の位置的変化、すなわちペン先の移動の軌跡を求めることができる。
【0038】
ところで、カメラの位置については、様々な形態が考えられる。例えば、ペン尻付近にカメラをつければ、より広範囲の文字領域を撮影できると想定できる。従って、文字全体(さらには紙面全体)を一括して捉えられる可能性があり、その意味ではモザイキングが必要なペン先カメラより有利である。しかし、ペン尻カメラにはペンを持つ手によるオクルージョン(閉鎖、隠蔽)が発生し得る。またペンの動きそのものが必要とされるようなアプリケーションの場合、振幅の大きなペン尻では動き推定が困難になる可能性がある。
【0039】
このように、ペン先カメラは、その取り付け位置に応じて相補的な役割を為す。ペン先にカメラを搭載することで、より確実に手書きパターン付近を撮影することができる。さらに、後述するように紙指紋を有効に利用できるため、詳細なペン先の動きを推定することが可能となる。このようにペン先とペン尻のカメラでは役割が違う点に留意しつつ、処理目的にふさわしい取り付け位置を決定すべきである。
【0040】
≪紙指紋からの特徴点検出≫
この発明では、紙面上の位置を取得するための基準として紙指紋に着目する。前述のように、紙には表面上に幾何学的模様がある。図3は、この発明に係る紙指紋の一例を示す画像である。図3の画像は、図2の一部を拡大したもの。ただし、見やすいように輝度を調整のうえ、コントラストを強調してある。この紙指紋を用いて、各フレーム画像の位置関係(すなわちフレーム間移動量および方向)を把握することができれば、手書きパターンがうまく撮影されてなくても紙面に手書きされた軌跡を取得できる。この手法は次の二つの意味で極めて有効である。
【0041】
第一に、ペン先による隠蔽問題の回避がある。例えば、図2のようにペン先が見えているとき、ペンが紙面の右から左に動いたとすると手書きパターンはペン先部分に隠蔽されて全く見えない。従って手書きパターンに注目して移動量推定をしようとしても不可能である。これに対し、紙指紋から移動量がわかれば手書きパターンが見えなかったとしても問題ない。
【0042】
第二に、手書きパターンの開口問題回避がある。手書きパターンとして紙面の左から右へ水平線を書き続けた状況を考える。この場合、画面内の手書きパターンは常に同じのものが見え、従ってペンが動いているのか静止しているのか判断できない。これは動き推定における開口問題である。水平線は極端な例であるが、文字を筆記する際にも局所的に変化のないパターンは頻繁に発生しているので、その箇所で不自然な移動量推定が発生し、結果的に手書きパターン形状は非線形に伸縮したものとなり得る。これに対し、紙指紋に着目すれば、ペンが動いている場合は紙指紋も動き、逆にペンが静止していれば紙指紋も静止しているため、この開口問題を回避できる。
【0043】
特徴点としては、回転・スケール不変量かつ明るさ変化に頑強なものが望ましい。前者はペンが回転することによってフレーム画像が回転するためであり、さらにカメラ位置と紙面の距離関係も運筆によって変わるためである。こうした状況でも安定して特徴点を抽出するためには、回転およびスケール変化に対する不変量(回転・スケール不変量)が望ましい。厳密には射影変換に対する不変量が望ましいが、隣接フレーム間での変位はそう大きくないので、回転・スケール不変量であれば、近似的に対応できるものと考えられる。一方、後者は各フレーム画像の一部に現れる影の影響を排除したいためである。
【0044】
この実施形態ではこれらの要求を満たすものとしてSIFT(Scale-Invariant Feature Transform)の枠組みによる特徴点検出ならびに特徴記述を利用した。よく知られているように、SIFTで記述される特徴量は回転やスケール変化に対して不変であり、また照明変化にも頑健という性質を持っている。この明細書ではSIFTの高速版であるSURF(Speed-up Robust Features)を用いることとした。
【0045】
≪ビデオモザイキング≫
隣接フレーム間で極めて類似したSURF特徴を持つ点の対を複数求めることで、隣接フレーム間の姿勢変化を推定することができる。紙面が平面の場合、カメラ付きペンで撮影したフレーム画像は、互いに射影変換(幾何学的変換の一種で、3次元空間内の奥行き方向の矩形が2次元平面上で台形など任意の凸型矩形で表される変換、射影変換以外に、奥行き方向の矩形が平行四辺形で表されるアフィン変換等がある。)の関係にある。そこで、隣接フレーム間の点対応関係から射影変換を推定すれば、それを用いて隣接フレームを重ね合わせることができる。この処理をすべてのフレームにわたって行えば、一連のフレームを重ね合わせることができる。いわゆるビデオモザイキングである。
【0046】
隣接フレーム間で対応する点を求めるにあたり、SURF特徴の類似性に基づいて点対応を求めることの技術的意義について説明する。
ビデオモザイキングの説明で述べたように、当該処理の最初のステップは、隣接フレーム間に幾つかの点対応関係を定めることである。
すなわち、第tフレーム画像内のある点Aに注目したとき、それが第t+1フレーム画像内のどこの点Bに対応しているかを、それら2点の類似性を手がかりに見つける。この時点では、2フレーム間の射影変換はまだ推定されていないので、2点A,Bが元々紙面上の同一点であったとしても、それらの周りの見えは同一ではない。従って、そうした射影変換の影響があっても、極力安定して類似点対を見つける必要がある。
この点、SURFは回転およびスケール不変であるため、点AおよびB付近の特徴をそれぞれSURFで記述しておけば、射影変換が大きくない限り、ほぼそれらのSURF特徴は類似したものとなる。このため、Aと似た特徴を持つ点を第t+1フレーム画像内に探せば、対応点Bを見つけられると期待できる。
実際の処理では、両フレームにおいてそれぞれ大量にSURF特徴点を一旦検出しておき、そして単純に特徴間のユークリッド距離が閾値以下となる点対を複数見つけることで、フレーム間の点対応関係を定めることになる。
【0047】
図4は、この発明の実施形態において、隣接するフレーム画像間で点対応の関係を実際に求めた結果を示す説明図である。類似したSURF特徴を持つ点を線分で結んで表示している。SURF特徴点は紙面に多数検出されるので図として見難くなっているが、良く見ると同じ紙面上の位置どうしを対応付けているものが多いことがわかる。
【0048】
同図を見ると、全く誤った点対応を与えている場合があることもわかる。この大きく誤った点対応を含めて射影変換行列を求めた場合、手法によってはその悪影響が拡大し、誤った射影変換行列が得られる可能性もある。紙指紋にも限界があると予想されるため、こうした誤った点対応はむしろ不可避と考えるのが妥当であろう。
【0049】
このため、射影変換行列の推定には、いわゆるロバスト推定法が必要になる。そこでこの明細書ではRANSAC (M. A. Fischler and R. C. Bolles, "Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography," Comm. of the ACM, vol. 24, no .6, pp. 381-395, 1981.参照)を利用する。RANSACは少数の点対応で射影変換行列を求め、その射影変換行列によりどの程度他の点対応を説明できるかを評価する方法である。射影変換行列を求める点対応の組をランダムに変えながらこの評価を行うことで、ロバストに射影変換行列を求めることが可能である。
【0050】
フレーム間画像で特徴点の対応関係から射影変換を推定する際には、この発明特有の工夫が3つある。これらを以下に列挙する。
第一は、ペン先部分に現れる特徴点の除去である。カメラがペンに固定されているために、ペン部分は画像内で常に一定の位置にある。従って、紙指紋部分の特徴点はフレーム間で動きを見せたとしても、ペン部分の特徴点は静止しているように見える。このため、これらを総合して移動量を推定してしまうと、ペンの特徴点が悪影響を及ぼし、誤った結果が得られる。このため、ペン部分に現れるSIFT特徴点は無視する必要がある。
【0051】
第二は、ペン先付近の手書きパターン(黒インク)の除去である。このペン先付近の手書きパターンは、直前のフレームから現在のフレームまでの時間の間に新たに筆記された部分である。このため、直前のフレームには対応する点がなく、最悪の場合は誤対応を生じることになる。従って、この部分も、ペン先部分と同様に無視して考える必要がある。今回のペン先画像のビデオモザイキングと通常のビデオモザイキングとの違いは、このようにこの発明では動的に生成されつつあるパターンを対象としている点である。
【0052】
第三は、誤った射影変換行列の無視である。基本的に手書きは連続的に行われるので、射影変換自体も連続的なものが得られるはずである。しかし、SURF特徴点対応の不安定性などの理由に、突発的に全く誤った射影変換行列が得られる場合がある。このような場合、現在のフレームをスキップして、一つ前のフレームと次のフレーム間で射影変換をすればよい。フレームの大部分はオーバーラップしているので、数フレームスキップしてもあまり影響はないといえる。ただし、連続スキップにより間が開きすぎると、2フレーム間には大きな姿勢変化が発生し、それだけSURF特徴の対応が難しくなるので、注意が必要である。
【0053】
≪実験例1≫
図5は、この発明に係るカメラ付きペンを用いて数字の"2"を筆記した際のペン先画像のフレーム系列を示す画像である。用いた紙はコピー用紙(非再生紙)であり、筆記した"2"のサイズはおよそ3.5cm2.5cmであった。フレーム数はおよそ340フレームであった。カメラのフレームレートが30fpsであるため、これはおよそ11秒に相当する、これは動きボケを避けるべく、ゆっくり筆記したためである。
【0054】
図6は、図5の各フレーム画像に基づくビデオモザイクの結果を示す説明図である。モザイク画像の上に、各フレームでのペン先位置に小さな黒丸(●)をプロットしている。この黒丸の系列がすなわち復元された手書きパターンである。また、図7は、図5のフレーム系列で実際に書かれた"2"をイメージスキャナでスキャンした画像である。
【0055】
図7と比べると、図6の復元画像はかなりジャギーであるが、それでも"2"であるとは見て取れる。今回の場合、単純に逐次的に貼り合せてモザイク画像を作ったため、射影変換の推定誤差が蓄積していく。また初期フレームが紙面に正対していなければ、それが全体に影響する。このため、原理的に形状が不安定になりやすい。それでもこの程度の復元ができているということは、紙指紋の特徴点を用いたモザイキングに見込みがあることを示している。
【0056】
図8は、図5の各フレームにおけるSURF特徴点対の数を示すグラフである。横軸は各フレームのIDであり、縦軸はSURF特徴点対の数である。同図の縦線は、そのフレームで不自然な射影変換行列が求まったためにスキップしたことを表している。詳細な吟味は今後の課題であるが、図6と併せて考えると、特徴点対が少なくなり、スキップが起こる付近では、精度が落ち易いという傾向があるように見える。具体的には"2"の屈曲点付近および上部付近においてスキップが多く見られ、特に後者付近の復元パターンはやはりジャギーになっている。
【0057】
図10は、図7と異なる手書き文字"2"をイメージスキャナでスキャンした画像である。図9は、図10の"2"を筆記した場合のビデオモザイクの結果を示す説明図である。この"2"はおよそ1.6cm 1.1cmのサイズであり、図6のものより小さい。全体で118フレーム、すなわち4秒程度で書かれたものである。若干の非線形伸縮が見られるが、"2"であることは明瞭にわかる程度の精度は保っている。図11は、図9の手書き文字の各フレームにおける特徴点対応数を示すグラフある。
【0058】
今回は黒インク部分に重みを置くといったような処理は一切しておらず、紙面・インクの区別無く求めたSURF特徴で射影変換を推定している。発明者らが次の文献、「伊東克啓、内田誠一、岩村雅一、大町真一郎、黄瀬浩一、 "ペン先カメラ画像からの手書きパターンの復元、" 電子情報通信学会2008年総合大会ISS特別企画学生ポスターセッション、ISS-P-323, 2008.」で示したように、実際には黒インク部分の重ね合わせ評価だけでもかなりの精度でモザイキングは可能である。従って、今後は黒インクがペン先に隠蔽されている場合にだけ紙指紋を使うといった工夫も可能と思われる。
【0059】
また、この発明に係る技術は、次の文献、「田中一弘, 内田誠一, 岩村雅一, 大町真一郎, 黄瀬浩一, "データ埋め込みペンに関する基礎的検討," ヒューマンインタフェース学会論文誌, vol. 10, no. 4, pp. 559-567, 2008.」で提案されている「情報埋め込みペン」と組み合わせて利用できる。この情報埋め込みペンでは、紙への筆記と同時に微小インクドットの塗布により様々な情報(例えばURLや筆記者IDなど)を手書きコンテンツに埋め込むことができる。この発明で得られる手書きコンテンツの全体形状と埋め込んだ情報をペアにしてライティング・ライフ・ログに登録しておくことで、手書きコンテンツにサイバーメディア的機能を付加することが可能となる。
【0060】
以上の説明のごとく、この発明は、ペン先に取り付けたカメラからの映像から手書きパターンを復元することを目的としたビデオモザイキング法の具体的な手法を提供する。この発明の最大の特徴は紙面の模様(紙指紋)を利用することにある。紙指紋からSURF特徴点を抽出し、それをビデオモザイキングに利用することで、例えば手書きパターンそのものがペン先に隠蔽されているような状況であっても、ペンの動きすなわち手書きパターンを復元できる。極めて初期的な検討段階ではあるが、このような単純な方式でも手書きパターンの概略が復元できることがわかった。
【0061】
今後の改良の可能性としては以下が挙げられる。まずは、SURF特徴を求める前に紙指紋を強調するための画質変換を行ったり、黒インク部分の対応関係を重要視しながら紙指紋特徴点による対応と組み合わせたりするなど、SURFによる特徴点対応の安定化を図ることが考えられる。さらに、ビデオモザイキングの方法の改良が重要と考えられる。この明細書では隣接フレーム間の位置合わせを繰り返す手法を採ったので、後のフレームになるほど誤差が蓄積してしまい、モザイキング結果が崩れてしまう場合があった。再出現点の利用(池谷彰彦, 佐藤智和, 池田 聖, 神原誠之, 中島 昇, 横矢直和, "カメラパラメータ推定による紙面を対象とした超解像ビデオモザイキング," 信学論, vol. J88-D-II, no. 8, pp. 1490-1498, 2005.参照)などによる安定化が必須と思われる。動きボケの除去の検討も重要であろう。ペンの移動速度によっては、動きボケが顕著になり、SURF特徴点を検出できなくなり、結果としてマッチングもできなくなってしまう。従って動きボケの除去が重要になって来るが、手書きが写っているフレームでは手書きが線状パターンであることを活かしたボケ除去(例えば、X. Y. Qi, L. Zhang, C. L. Tan, "Motion deblurring for optical character recognition," Proc. ICDAR2005, pp. 389-393, 2005.参照)も考えられる。
【0062】
評価についても、復元精度の定量的な評価や、筆記速度に対する耐性測定が考えられる。またこの発明では紙指紋を手がかりにモザイク画像を求めているので、紙の質の影響についても調査すれば、その結果得られる知見に基づいた改良も考えられる。
【0063】
続いて、前記第2発明について説明する。説明を理解し易くするため、まず、第2発明の基礎となる第1発明および文書画像検索技術を用いる手法の2つについて説明する。
【0064】
≪第1発明による手法≫
第1発明の手法を、改めて簡単にまとめておく。第1発明では、白紙や余白部分に対応するため、紙指紋を利用する。紙の表面を接写することで紙指紋を撮影できる。この模様から特徴点を抽出し、各フレーム間でのペン先の移動量を求めれば、筆記の動きを把握できる。これにより、専用紙を必要としない筆跡の復元が可能である。
【0065】
ここで、抽出される特徴点には、回転やスケール変化への不変性が必要となる。これは、筆記中には、ペンの回転や紙面に対する角度の変化が起きるためである。そのため、特徴点抽出および特徴記述としてSURFを用いる。SURF特徴量は、回転やスケール変化に不変であり、また照明変化にも頑健な性質を持つ。図12は、白紙からSURF特徴点を抽出した結果を示す。
【0066】
ペン先の座標の移動量は、SURF特徴点の点対応関係から、射影変換行列を求めることで計算できる。図13は、点対応関係を視覚化したものである。類似したSURF特徴点を線で結んでおり、多くの点は対応が正しく取れていると分かる。しかし、誤った点対応を取る場合も存在する。このような誤った点対応を含めて射影変換行列を求めると、誤った射影変換行列が求まる可能性がある。そのため、ロバスト推定法として、RANSACを利用する。RANSACはランダムに選択した点対応から射影変換行列を求め、その射影変換行列により他の点対応をどの程度説明できるかを評価する手法である。この評価を繰り返すことで、ロバストに射影変換行列が求められる。
【0067】
≪文書画像検索技術を用いる手法≫
筆記の復元を文書上に行うカメラ付きペンシステムとして、LLAH(Locally Likely Arrangement Hashing)を用いた手法がある(中居 友弘、黄瀬 浩一、岩村 雅一、"Webカメラを用いたリアルタイム文書画像検索"、 電子情報通信学会論文誌D,J90-D,8,pp.2262-2265, Aug.2007. 参照)。この手法は以下の手順で筆記情報を得る。
1. ペンに取り付けられたカメラで紙面上の文書を撮影する。
2. 得られた画像から連結成分の重心(LLAH特徴点)を抽出し、LLAHを用いた文書画像検索を行う。その結果、対応する文書画像と、その画像に対する射影変換行列が得られる。
3. 射影変換行列より、ペン先が文書画像のどの座標に位置するかを推定する。
4. 推定されたペン先の座標が妥当かを評価し、妥当であれば座標を記録する。
【0068】
上記のプロセスを繰り返し、推定されたペン先の位置を結ぶことで筆跡情報が得られる(前記非特許文献3参照)。このシステムは、紙面に印刷された文書から特徴点を得るため、筆記の対象として専用紙を必要としない。また、筆記した文書と、筆記位置を特定できる。
【0069】
≪両者を統合するときの問題点≫
両者の問題点として、各々単独では日常的な筆記すべてに対応できないことが挙げられる。日常的な筆記には、白紙に対するメモ書きから、文書への下線部など様々なものがある。そのため、白紙に対する筆記に対応しつつ、文書に筆記したときは、その文書名、文書上での筆記位置が求まるシステムが必要である。第1発明による手法は、紙指紋から抽出される特徴点を用いて筆記を復元する。紙指紋を利用することで、一般的な紙における筆記の復元を可能とするが、紙面に印刷された文書と筆記の関係性を見ることを考慮していない。一方で、文書画像検索技術を用いた手法では、筆記と文書の関係性を見ることを可能とする。ただし、文書画像検索手法として用いるLLAHは、印刷文字から検索に必要なLLAH特徴点を抽出するため、文書が印刷されている領域を撮影しなければ、筆記の復元が不可能である。
【0070】
≪第2発明による解決≫
第2発明で提案するシステムは、紙面に特殊な加工を行わずに白紙上でも筆跡を取得でき、筆記先が文書であるときには、文書上での筆記位置を求めることを可能とするものである。第2発明を実装するには、第1発明による手法と文書画像検索を用いた手法の間にある問題を解決する必要がある。
【0071】
2つの手法の間にある大きな問題点として、カメラの設置位置の問題が挙げられる。カメラの設置位置が問題になるのは、白紙の紙面から情報を多く得るときと、文書の情報を多く得るときに、異なる視野が求められるためである。例えば、紙指紋は紙の繊維であり、非常に細かな特徴であるため、撮影には高い解像度の画像が必要となる。したがって、カメラをペン先に近づけて設置することで、安定して紙指紋が撮影でき、高い精度での筆跡復元が可能となる。一方で、文書画像検索を行うときは、多くの文書領域が撮影できれば、文書の違いを区別しやすくなる。そのため、カメラをペン先から遠ざけて設置することで、検索精度が向上する。このように、筆跡の復元と文書画像検索の精度を高くするためには、相反するカメラの設置位置が求められる。このとき、2つのカメラをペンに取り付けることも考えられるが、実用性を考えると、カメラは1つであるべきだと言える。
【0072】
また、第1発明による手法の問題として、射影変換行列を連続して求めていく中での誤差の蓄積がある。隣接フレーム間のみの情報を用いて射影変換を繰り返すと、後のフレームになるほど誤差が蓄積され、正確なペン先の位置を推定できなくなる。そのため、実際の筆記と比較して文字の形状が崩れてしまう。
【0073】
1.カメラ設置位置問題への対処法
カメラの設置位置問題に対しては、画像モザイキング技術を用いることで対処する。画像モザイキング技術とは、撮影されたフレームを組み合わせていき、広い範囲を撮影したに等しい画像を作り出す技術である(例えば、佐藤 智和、 池谷 彰彦、 池田 聖、 神原 誠之、 中島 昇、 横矢 直和、 "カメラ外部パラメータ推定による平面を対象とした超解像ビデオモザイキング、" 第9回パターン計測シンポジウム講演論文集、 pp. 13-20, Nov. 2004. 参照)。第2発明では、SURF特徴点の対応から、フレームごとの射影変換行列が求まる。そこで、各フレーム画像を射影変換し、モザイク画像を得ることで、広い視野の撮影画像が得られる。図14に、モザイク画像から抽出されたLLAH特徴点の様子を示す。これにより、LLAH特徴点の数を増やすことができ、文書画像検索の精度を高められる。
【0074】
実際に第2発明で使用したカメラペンを図15に示す。超小型CCDカメラ(株式会社アサヒ電子研究所 NCM03-K)をペン本体11の半ばに取り付ける(図15のカメラ13)。また、カメラ13の上部には紫外線ライト15を取り付ける。紫外線ライト15を取り付ける理由は、白色光環境下では紙指紋から特徴点が得にくいためである。自然光や蛍光灯のような白色光は、紙面で強く反射するため、カメラ13で撮影する紙面は明るくなり、紙指紋が光によって隠されてしまう。そのため、紙指紋から特徴点を抽出しやすくするためには、強く反射しない光を紙面に当てる必要がある。そこで、ペン本体11に、紫外線ライト15を取り付けることで、紙面から離れた位置にカメラ13を設置しても紙指紋から特徴点が得られるようにする。
【0075】
2.特徴点の再出現
誤差の蓄積による筆跡のズレの問題に対しては、SURF特徴点の再出現を調べることで対処する。これは、文字は交差したり元の位置に戻ったりすることが多くあるため、同じ領域を撮影するときに、過去に抽出したSURF特徴点との対応を取ることができれば、蓄積誤差の少ない射影変換が可能となるからである。例えば'8'のように途中で交差し元の線に繋げる文字は、カメラ13が同じ領域を撮影する。そのため、一度出現したSURF特徴点を保存しておき、同じ領域を再度通過する際に、保存されたすべてのSURF特徴点と対応を取ることで誤差の補正をすることができる。
【0076】
ここで、過去のSURF特徴点をすべて保存していくと、時間がたつにつれて膨大な数となる。SURF特徴点が増えるほど、点対応の計算にかかる時間が増える。そのため、ハッシュを用いて対応点の検索を高速化する(例えば、野口 和人、 黄瀬 浩一、 岩村 雅一、 "近似最近傍探索の多段階化による物体の高速認識、" 画像の認識・理解シンポジウム(MIRU2007)論文集、 OS-B2-02, pp.111-118, July, 2007. 参照)。ハッシュ値は、64次元あるSURF特徴量の16次元を用いて計算する。SURF特徴量が、
【数1】

【0077】
であるとき、
【数2】

【0078】
を用いて2値化を行い、ビットベクトル
【数3】

を作成する。ここで、μj は、事前実験用に撮影した画像から得た特徴量各次元の中央値である。そして、
【数4】

によってハッシュ値を求める。ここで、mod は剰余演算、Hsizeは、ハッシュ表のサイズである。
【0079】
≪処理の流れ≫
第2発明における、具体的な処理の流れを述べる。処理の流れを図16に示す。まず、撮影した紙面の紙指紋や印刷文字からSURF特徴点を抽出する。次に、ハッシュ表から取り出された特徴量との比較を行い、点対応を求める。この点対応関係より、基準とするフレーム画像との射影変換行列が求められる。そして、この行列を用いて、平面上でのペン先17の位置を求める。同時に、対応点が見つからなかった特徴点も、座標を射影変換し、ハッシュ表に登録する。この処理を繰り返すことで、一連のペン先17の座標を得ることができる。また、m(>1)フレーム間隔ごとに画像のモザイキングをする。そして、n(>m)フレーム間隔ごとに、モザイク画像からLLAH特徴点を抽出し、一定量の特徴点が得られれば文書画像検索をする。特徴点が一定量を超えないときは、引き続き画像モザイキングを続ける。そして、検索を行った時には、結果が正しいと判断されれば、求めてきたペン先17の座標を射影変換し繋げることで、筆跡を文書画像上に復元する。また、文書画像検索を行ったときには、モザイキング画像を初期化する。これは、射影変換の誤差が蓄積されることを防ぐためである。
【0080】
≪実験例≫
文書に対して筆記を行い、結果を評価した。対象用紙には、コピー用紙(再生紙)を用いた。ペン本体11に取り付けたカメラ13のフレームレートは30fpsである。モザイキングは10フレームごとに行い、文書画像検索は30フレームごとに行った。この値は、予備実験から得た知識を元に設定した。また、1文字あたりの筆記速度は5〜10秒であり、比較的ゆっくりとした筆記を行った。これはモーションブラーを避けるためである。文字や図形は、連続した一つの線で筆記した。連続した一つの線であるのは、現状ではペン先17のアップダウンは考慮していないためである。また、文字や図形の大きさや形は統一せず任意とした。実験中の筆記には、白紙領域と文書領域に渡って撮影したものも含む。
【0081】
実験結果の評価は、ペンタブレットにより得られる筆跡情報との比較によって行った。評価値として、ペンタブレットにより作成された解答と、第2発明よりできる筆跡の一致割合を求めた。ただし、ペンタブレットから得る筆跡情報は、実際の筆記と比較するとズレがある。これは、印刷時におきる、紙面の傾き、余白の設定などにより、所持する画像ファイルと紙面での座標が一致しないためである。そのため、目視で同程度の復元と判断できるズレを許容して評価を行った。実験では、許容するズレの範囲を約3mmとした。
【0082】
文書領域に50個の筆記を行った結果を図17に示す。図17では、実験結果として筆跡が回答と一致した度合い(精度)を0〜100%の範囲に渡り10%刻みの10段階に分けて表している。なお、1フレームあたりの平均処理時間は128msであった。
図15はSURF特徴点の点対応から。復元した筆跡を評価した結果である。ここで、多くの結果の評価値が30%前後にある理由として、得られる筆跡は、ペン本体11の傾きやカメラ13の回転を補正できないことが挙げられる。図18に、筆跡の復元結果が回転した一例を示す。実験では、基準となるフレーム画像を定め、そのフレーム画像の平面に対して筆跡を復元する。この基準となるフレームが紙面の縦横との傾きがあるときは、図17のように結果が傾いて表現される。そのため、図15の評価値は、射影変換の誤差による筆跡の乱れだけでなく、カメラ13の位置関係による歪みや回転により評価値が下がった。
【0083】
図15は、文書画像検索を行い、文書上に筆跡を復元したときの、解答画像との一致した割合を示す。図15では、図15と比較して、評価値が上昇した。これは、文書画像検索に成功したとき、紙面と正対した平面への射影変換ができるためである。紙面上に射影変換されることで、図18のような、筆跡の回転や歪みが補正でき、解答画像に近づいた。文書中の余白に筆記を行った復元結果を図19に示す。図19のように、周囲の文書領域が撮影できれば、余白領域の筆記も文書上での位置を求めることができた。また、評価値が高い結果の例として、図20を示す。図20のように、文書領域に広く筆記をしたときは、文書画像検索の精度が高くなった。これは、ペン先17が大きく動くことで、モザイキングにより多くの特徴点が抽出できたからである。一方で、評価値が低くなった例を、図21に示す。図21のように、小さな領域に筆記したときは、文書画像検索の精度が低下し、位置のズレが発生した。これは、同じ領域を捉えたフレーム画像が多く、モザイキングを行っても特徴点の数が増えないためである。この問題を解決するためには、LLAHの改良が必要である。具体的には、特徴量に改良を加えることで、特徴点数が少ない状況でも精度の高い検索を可能とする必要がある。
【0084】
図17において、評価値が0%になる結果は、筆跡の追跡や、LLAHによる文書画像検索に失敗したものである。本実験で、追跡や検索に失敗した最も大きな理由として、実験環境による撮影画像の変化が大きいことが挙げられる。撮影画像に最も影響を与えるものとして、自然光や蛍光灯の強い光がある。実験においては、対策として紫外線ライト15を取り付けたカメラペンを用いた。しかし、図15のカメラペンは、外からの光を遮る作りになっていない。そのため、実験において、撮影する画像ごとに外から入ってくる光の度合いが違い、それによって結果が左右される。この問題は、本実験から得た結果を元に、カメラペンを外乱に影響されない形に作ることで解決できると考えられる。
【0085】
前述した実施の形態の他にも、この発明について種々の変形例があり得る。それらの変形例は、この発明の範囲に属さないと解されるべきものではない。この発明には、請求の範囲と均等の意味および前記範囲内でのすべての変形とが含まれるべきである。
【符号の説明】
【0086】
1:ペン部
2:動画カメラ
5:データベース
11:ペン本体
13:カメラ
15:紫外線ライト
17:ペン先

【特許請求の範囲】
【請求項1】
ペン先とその付近を撮影する動画カメラとを有してなるペン部と、
撮影された動画像の一連のフレーム間において移動するペン先の軌跡を求める処理部とを備え、
前記ペン部は、前記用紙が抄かれて紙面に形成された凹凸模様である紙指紋を前記カメラが撮影し、
前記処理部は、各フレーム画像に写った紙指紋の局所的特徴をそれぞれ表す複数の特徴点を抽出する抽出処理部、前後のフレーム画像間で対応する各特徴点を決定する対応処理部、対応する各特徴点の前後フレームでの位置変化に基づいて紙面に対するペン先の位置変化を決定しペン先の軌跡としての手書きパターンを求める軌跡処理部を備えてなることを特徴とする手書きパターン取得システム。
【請求項2】
前記抽出処理部は、異なるフレーム画像間で位置が変化する特徴点を紙面の特徴点と判断し位置が変化しない特徴点をペン先部の特徴点と判断し、各フレーム画像に写るペン先部からは特徴点を抽出しないようにする請求項1に記載のシステム。
【請求項3】
前記対応処理部は、後のフレームのペン先から所定範囲内の領域は、特徴点の対応をとらないようにする請求項1または2に記載のシステム。
【請求項4】
前記対応処理部は、決定するとき、各フレーム画像に写る紙面の射影歪みを補正した後、前後フレーム画像間で対応する特徴点の位置変化を決定する請求項1〜3のいずれか一つに記載のシステム。
【請求項5】
前記対応処理部は、射影歪みを補正すべく各フレーム画像に対応する射影変換行列をそれぞれ算出し、前および/または後フレームの射影変換行列と要素が不連続なフレームはペン先の軌跡を求めるフレームから除外する請求項4に記載のシステム。
【請求項6】
前記対応処理部は、誤った対応関係のノイズ除去処理を行う請求項1〜5のいずれか一つに記載のシステム。
【請求項7】
前記抽出処理部は、特徴点の抽出手法として、SURFのアルゴリズムを用いる請求項1〜6のいずれか一つに記載のシステム。
【請求項8】
ペン先とその付近を撮影する動画カメラとを有してなるペン部を用いた手書きが用紙にされるとき前記動画カメラがペン先付近の紙面を撮影する工程と、
処理部が、撮影された動画像の一連のフレーム間において移動するペン先の軌跡を求める工程とを備え、
前記カメラ部は、前記用紙が抄かれて紙面に形成された凹凸模様である紙指紋を撮影し、前記処理部は、各フレーム画像に写った紙指紋の局所的特徴をそれぞれ表す複数の特徴点を抽出し、前後のフレーム画像間で対応する各特徴点を決定し、対応する各特徴点の前後フレームでの位置変化に基づいて紙面に対するペン先の位置変化を決定し、ペン先の軌跡としての手書きパターンを求めることを特徴とする手書きパターン取得方法。
【請求項9】
ペン先とその付近を撮影する動画カメラとを有し、用紙が抄かれて紙面に形成された凹凸模様である紙指紋及び前記紙面に記された文書画像を前記動画カメラで撮影するペン部と、
撮影された動画の各フレームから紙指紋の局所的特徴を紙面特徴点として抽出し、前後のフレームで対応する紙面特徴点の移動量に基づいて前記ペン先の紙面に対する軌跡を得る第1軌跡処理部と、
各フレームに文書画像が写っているとき、その文書画像の局所的特徴を文書画像特徴点として抽出し、前後のフレームで対応する文書画像特徴点の移動量に基づいて文書画像に対する前記軌跡の位置を得る第2軌跡処理部と、
前記第2軌跡処理部は、対応する文書画像特徴点が重なるように各フレームを組み合わせて1つのフレームより広い領域の文書画像特徴点の配置を決定し、前記配置に基づいて文書画像に対する前記軌跡の位置を得ることを特徴とする手書きパターン取得システム。
【請求項10】
複数の文書画像がその文書画像から抽出された文書画像特徴点と関連付けられ登録されてなる文書画像データベースの中から、前記配置に対応する文書画像を検索する文書画像検索部をさらに備え、
第2軌跡処理部は、前記配置と前記検索部により検索された文書画像に関連付けられた文書画像特徴点との対応関係に基づいて、各フレームに写った文書画像の幾何学的な歪量を決定し、その歪量を用いて前記軌跡を補正する請求項9に記載のシステム。
【請求項11】
第1軌跡処理部は、紙面特徴点の抽出手法として、SURFのアルゴリズムを用いる請求項9または10に記載のシステム。
【請求項12】
第2軌跡処理部は、文書画像特徴点の抽出手法として、連結成分の重心を抽出しLLAHのアルゴリズムを用いて各特徴点を表す請求項9〜11のいずれか一つに記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate


【公開番号】特開2011−34548(P2011−34548A)
【公開日】平成23年2月17日(2011.2.17)
【国際特許分類】
【出願番号】特願2010−26729(P2010−26729)
【出願日】平成22年2月9日(2010.2.9)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成21年2月12日 社団法人 電子情報通信学会発行の「電子情報通信学会 技術研究報告、Vol.108、No.432」において発表
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Bluetooth
【出願人】(505127721)公立大学法人大阪府立大学 (688)
【Fターム(参考)】