画像投影装置ならびに画像投影制御装置およびプログラム
【課題】対象表面とプロジェクターの間の相対位置及び向きの変化に応じて投影画像を変形させる。
【解決手段】対象物からの反射光量に対応する画像である色画像を取得するとともに、当該対象物との距離に対応する画像である距離画像を取得するカメラシステムと、前記対象物に画像を投影するプロジェクターと、以下の(1)ないし(3)の処理を行うプロセッサーとを備えることを特徴とする。(1)ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出し、(2)前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出し、(3)処理(1)で検出したジェスチャーに応じて異なる画像を、処理(2)で検出した表面の位置および向きに応じて変形し、これを当該表面に投影する。
【解決手段】対象物からの反射光量に対応する画像である色画像を取得するとともに、当該対象物との距離に対応する画像である距離画像を取得するカメラシステムと、前記対象物に画像を投影するプロジェクターと、以下の(1)ないし(3)の処理を行うプロセッサーとを備えることを特徴とする。(1)ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出し、(2)前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出し、(3)処理(1)で検出したジェスチャーに応じて異なる画像を、処理(2)で検出した表面の位置および向きに応じて変形し、これを当該表面に投影する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像を対象物に投影する画像投影装置ならびに画像投影制御装置およびプログラムに関する。
【背景技術】
【0002】
非特許文献1及び2には、文書中の文字列等の領域ではなく、文書全体またはページ全体をハイパーリンクに見立てた、紙文書とコンピュータの間のインタラクションに関する技術が記載されている。
【0003】
非特許文献3には、カメラを用いて机の上の文書を認識し、電子文書との対応付けを行う技術が記載されている。
【0004】
非特許文献4には、カメラを用いてOCRを行い、認識したテキストを転写する技術が記載されている。
【0005】
非特許文献5には、カメラとプロジェクターを組み合わせた装置を使って、ユーザーのペン操作を入力とプロジェクターによる出力で、紙文書とのインタラクションを行う技術が記載されている。
【0006】
非特許文献6には、紙文書とのインタラクションのために特別のマークを付加する技術が記載されている。
【0007】
非特許文献7には、紙に書いたキャラクターをテーブルの上で動かすことで、アニメーションを作る技術が記載されている。
【0008】
非特許文献8には、画像の局所特徴量を算出してそれを基に画像を比較する技術が記載されている。
【0009】
非特許文献9および10には、画像の局所特徴量を用いて、格納してある画像とのマッチングを行う技術が記載されている。
【先行技術文献】
【非特許文献】
【0010】
【非特許文献1】ウィルソン(Wilson)、「どこでも再生:コンパクト・インタラクティブ・テーブルトップ・プロジェクション・ビジョン・システム(PlayAnywhere: a compact interactive tabletop projection−vision system)、UIST抄録(Proceedings of UIST)、2005年、p.83〜92
【非特許文献2】ケーン(Kane)ら、「焚き火:ハイブリッド・ラップトップ・テーブルトップ・インタラクションのためのノーマディック・システム(Bonfire: a nomadic system for hybrid laptop−tabletop interaction)、UIST抄録(Proceedings of UIST)、2009年、p.129〜138
【非特許文献3】キム(Kim)ら、「ビデオ・ベース・ドキュメント追跡:物理的デスクトップと電子的デスクトップとの統一(Video−based document tracking: unifying your physical and electronic desktops)」、UIST抄録(Proceedings of UIST)、2004年、p.99〜107
【非特許文献4】ニューマン(Newman)ら、「カムワークス:ペーパ・ソース・ドキュメントから効率的にキャプチャするためのビデオ・ベース・ツール(CamWorks: A Video−based Tool for Efficient Capture from Paper Source Documents)、IEEE マルチメディア・システム抄録(Proceedings of IEEE Multimedia System)、1999年、p.647〜653
【非特許文献5】ウェルナー(Wellner)、「デジタルデスク上のペーパとのインタラクション(Interacting with paper on the DigitalDesk)」、ACM通信(Communications of the ACM)、36(7)、1993年、p.1〜107
【非特許文献6】ソング(Song)ら、「ペンおよび空間感知モバイル・プロジェクタを用いたデジタル・ペーパのバイマニュアル・インタラクション(MouseLight:Bimanual Interactions on Digital Paper Using a Pen and a Spatially−aware Mobile Projector)、CHI抄録(Proceedings of CHI)、2010年
【非特許文献7】バーンズ(Barnes)ら、「ビデオ・パペット:切り絵アニメのための遂行的インタフェース(Video Puppetry: A Performative Interface for Cutout Animation)」、グラフィックに関するACMトランザクション(ACM Transaction on Graphics)、Vol.27、No.5、2008年
【非特許文献8】リウ(Liu)ら、「FITによる高精度・言語非依存ドキュメント検索(High Accuracy And Language Independent Document Retrieval With A Fast Invariant Transform)」、ICME抄録(Proceedings of ICME)、2009年
【非特許文献9】ヘア(Hare)ら、「マップスナッパー:モバイル・フォンのマップ 画像をマッチングするための効率的なアルゴリズム処理(MapSnapper: Engineering an Efficient Algorithm for Matching Images of Maps from Mobile Phones)」、マルチメディア・コンテンツ・アクセス抄録(Proceedings of Multimedia Content Access)、アルゴリズムおよびシステムII(Algorithms and Systems II)第6820巻、2008年、p.68200L.1〜68200L.11
【非特許文献10】リウ(Liu)ら、「埋め込みメディア・マーカ:関連メディアを示すペーパ上のマーク(Embedded Media Markers: Marks on Paper that Signify Associated Media)」、IUI抄録(Proceedings of IUI)、2010年、p.149〜158
【発明の概要】
【発明が解決しようとする課題】
【0011】
対象表面に記載されたコンテンツに対するジェスチャーによって、当該コンテンツに関する電子的な操作を行った結果を、プロジェクターを用いて当該対象表面に投影する場合において、対象表面とプロジェクターの間の相対位置及び向きの変化したときに、従来技術は対応できなかった。
【0012】
本発明は、対象表面とプロジェクターの間の相対位置及び向きの変化に応じて対象表面に投影された画像を変形させることができる、画像投影装置ならびに画像投影制御装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明の第1の態様は、対象物からの反射光量に対応する画像である色画像を取得するとともに、当該対象物との距離に対応する画像である距離画像を取得するカメラシステムと、前記対象物に画像を投影するプロジェクターと、以下の(1)ないし(3)の処理を行うプロセッサーとを備えることを特徴とする。(1)ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出し、(2)前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出し、(3)処理(1)で検出したジェスチャーに応じて異なる画像を、処理(2)で検出した表面の位置および向きに応じて変形し、これを当該表面に投影する。
【0014】
本発明の第2の態様は、外部のカメラから対象物の反射光量に対応する画像である色画像、および、当該対象物との距離に対応する画像である距離画像を取得する手段と、ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出する第1の検出手段と、前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出する第2の検出手段と第1の検出手段で検出したジェスチャーに応じて異なる画像を、第2の検出手段で検出した表面の位置および向きに応じて変形し、これを外部のプロジェクターに出力する出力手段と、を備えることを特徴とする。
【0015】
本発明の第3の態様は、外部のカメラから対象物の反射光量に対応する画像である色画像、および、当該対象物との距離に対応する画像である距離画像を取得するステップと、ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出するステップと、前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出するステップと、検出したジェスチャーに応じて異なる画像を、検出した表面の位置および向きに応じて変形し、これを外部のプロジェクターに出力するステップと、をコンピュータに実行させることを特徴とする。
【発明の効果】
【0016】
本発明によれば、プロジェクターによる投影内容による誤検知をすることなく、対象表面の追跡が可能となる。
【図面の簡単な説明】
【0017】
【図1】FACTの実装例を示している。
【図2】FACTの使用例を示している。
【図3】本発明の使用例を示している。
【図4】カメラ及びプロジェクターを備えた入出力装置に用いられるカメラの例を示している。
【図5】距離画像(depth image)の例を示している。
【図6】カメラによって得られた画像であって、距離画像を抽出する前のものを示している。
【図7】二値化した距離画像の例を示している。
【図8】本発明で実現可能な機能の例を示している。
【図9】本発明における処理の一例を示すフローチャートである。
【図10】対象表面の特定法の一例を示すフローチャートである。
【図11】本発明を実装するコンピュータシステムの例を示すブロック図である。
【図12】紙文書、カメラ、プロジェクター、電子文書の間の相対的な位置関係のマッピングを行う方法の一例を示している。
【発明を実施するための形態】
【0018】
本発明の実施の形態を以下に説明するが、本実施形態は、本発明者が開発したFACTという技術(特願2011−003883として出願)を基にしている。ここで、FACTは、マーカー無しの紙文書を認識及び拡張するカメラ付きプロジェクタユニットである。また、これによって、ユーザーは、紙上の微細なコンテンツを選択することで、キーワード検索、ウェブ検索、マルチメディアアノテーション等のコンピュータの機能を実行することができる。FACTでは、紙文書を固定しておく必要は無く、紙の持つ本質的な柔軟性を損なうことがない。図1は、FACTの実装例を示している。FACTは、紙を使った対話型のシステム100である。このシステムは、カメラおよびプロジェクターを備えた入出力ユニット101、ノート型のコンピュータ102、機械読取のためのバーコードや標識の付されていない通常の紙文書103を利用する。
【0019】
図2は、FACTの使用例を示している。FACTは、カメラとプロジェクターを備えた入出力ユニットを活用して、コンテンツに基づく画像認識および座標変換を行う。これによって、ユーザーのペンを操作する動作(ジェスチャー)によって指定された、紙文書中のコンテンツ(文章、印、アイコン、図、任煮の領域等)を認識し、コンピュータで処理できるようにするのである。例えば、紙文書中の単語によるキーワード検索を行う場合、ユーザーは、同図(a)に示すようにペン先201で検索対象とする単語202をポイント(指し示すこと)した上で、「キーワード検索」コマンドの起動を指示する。この入力を受けたシステムは、同図(b)に示すように、その紙文書の元となった電子文書を対象としてその単語を検索し、検索された単語203の紙文書中の位置をプロジェクターで特定の色の光を照射することによりハイライト表示するのである。同図(c)は、同図(b)において「3D」という単語を紙文書103においてハイライト表示した様子を示す拡大図である。
【0020】
FACTは、紙文書に対応する文書画像に対してSIFT(Scale Invariant Feature Transrom)のような局所特徴量を算出し比較することで、対応する(元となった)電子文書を特定する。また、この局所特徴量の文書画像と電子文書との間の対応関係はまた、カメラ、プロジェクターおよび文書の間のホモグラフィック座標変換にも用いる。また、カメラで撮影した画像からのペン先の検出には、色情報を基準とした方法を用いる。紙文書上におけるペンの動き(ジェスチャー)は、同様のマウスポインターの操作に対応付けられる。この方法は、通常の紙文書に何らかの標識をつけたり、何らかの変更を加えたりする必要がない。
【0021】
しかしながら、特願2011−003883に記載したFACTでは、カメラ、プロジェクターおよび紙文書が載っている平面それぞれの相対的位置は、一連の操作の間固定されていることが必要である。したがって、紙文書は固定された平面上に置かなければならず(例:テーブルの上)、また、カメラ及びプロジェクターを備えた入出力ユニットは、どこかに固定されていなければならない(例:本棚に固定)。すなわち、手に持った紙を使ってFACTの機能を使うことが出来ない。また、プロジェクターやカメラで入出力可能な領域の制限から、テーブル上における紙の位置すら限られたものになっている。
【0022】
そこで、本発明の実施例においては、通常のRGBの色画像(色毎の光センサー(RGB等)で検出した画素毎の色情報を有する画像)に距離画像(depth image:各画素が対象物とセンサーとの間の距離情報を有する画像)を組み合わせて、紙文書の表面の認識および追跡を行う。
【0023】
ここで、本実施例では、図3に示すような、3つの典型的なインタラクションの形態をサポートする。第1に、同図(a)に示すように、カメラ及びプロジェクターを備えた入出力ユニット301が固定されているが、紙文書303は固定されておらず自由な位置及び向き(テーブルの上に置いてあってもよいし、空中でユーザー302が保持していてもよい)にあることを前提としている形態である。ユーザー302は、紙文書303を動かしたり、また、紙文書303に対してポイントやタッチ等の手を使ったジェスチャーをすることによって操作を行うのである。第2に、同図(b)に示すように、入出力ユニット301を、固定された投影表面304(紙文書が貼ってある壁等)に向けてユーザーが保持し、これを動かすことによって、また体を使ったジェスチャーによって操作を行う形態である。第3に、同図(c)に示すように、一方の手で紙文書303を保持し、他方の手で入出力ユニット301を保持した上で、両者を両手の動きで連動させる形態である。
【0024】
以下では、大きく分けて5つの技術を実施例を用いて説明する。(1)3次元空間における紙文書の認識及び姿勢推定、(2)紙文書を操作するための指によるジェスチャー、(3)情報媒体が混在する環境における体を使ったジェスチャー、(4)手持ち型のプロジェクターの利用、(5)両手持ちによる操作、の5つである。
【0025】
本実施例におけるシステムでは、カメラからビデオフレームを取得し、その局所特徴量(例:SIFTやFIT)を用いて紙文書の特定を行う。この際に、紙文書に特殊なコードやマークを付加しておく必要は無い。本実施例のシステムでは、クアッドコア2.8GHZのCPUと4GBのRAMを搭載したコンピュータを用いて、640×480画素のフレームの認識処理を行ったところ、0.5fps程度での処理が可能であった。認識等を行っている最中に、ユーザーが紙文書をわざわざ高速で動かすことは想定しなくても良いと考えられるので、この処理スピードは許容可能な数字であろう。
【0026】
各ビデオフレーム(色画像)と予め設定した紙文書モデルの間の局所特徴量の対応を検出することで、紙文書の3次元空間における姿勢の認識及び推定処理(3次元姿勢推定)を行うことができる。しかしながら、ビデオフレームの視覚的な特徴量(色情報等)のみを用いて姿勢の認識及び推定処理を行うことには、いくつか問題がある。
【0027】
(1)現在知られている認識アルゴリズムは、文書画像の大きな射影歪み(perspective distortion)に対応できない。一方で、これは紙文書を空中に保持して取り扱う際には頻繁に生じる問題である。
【0028】
(2)紙文書へのプロジェクターによる投影が、紙文書の局所特徴量を変えてしまうかも知れない。これによって、紙文書の認識及び姿勢推定に失敗することもある。この問題は、紙文書のコンテンツが少なく、結果として抽出できる特徴量が少ない場合に特に顕著である。紙の姿勢推定は、RGBセンサーの色情報による画像(色画像)からその頂点を検出することでも可能であるが、それには背景と紙の間に大きなコントラストの差があることが条件となる。
【0029】
(3)特徴量抽出に係る計算が複雑で、これをリアルタイムで行えない可能性がある。その場合には、紙文書の姿勢推定がユーザーの紙を動かす動作に遅れてしまうことになる。
【0030】
これらの問題を解決するために、マイクロソフト(登録商標)のKINECT(登録商標)から得られるような距離情報(depth information)を用いて、色情報による紙文書の認識処理及び追跡処理を補完する。
【0031】
本システムは各シーンの距離画像を取得し、これを用いて3次元空間における(平らな)紙文書の姿勢を推定するのである。認識モジュールでの処理の前に、姿勢情報を用いて、色画像の射影歪みが少なくなるように補正することもできる。3次元姿勢推定には距離画像のみを用いる。距離画像は、文書の局所特徴量とは無関係である。本実施例の場合、距離画像の取得、およびこの距離画像からの紙の3次元姿勢推定は、60fps程度で行える。3次元姿勢推定及び文書認識に関しては、それぞれ別のスレッドで処理を行い、それぞれが独立して、紙文書・カメラ・プロジェクターを含む「世界」のモデルを更新する。
【0032】
本実施例のシステムは、図4に示すように、距離画像の生成および通常の色画像の生成が可能なカメラシステム400と一体となって、または連携して処理を行うことが出来る。距離を検出するカメラ401(距離検出カメラ)は、例えば、赤外線の光源403から投影された構造化された赤外光(例えば格子縞の赤外光)の反射光のパターンの歪みを解析することで、対象までの距離を面状に計測することができる。その計測の結果が距離画像である。そして、この距離画像と、RGBカメラ402で撮影した色画像とを重ね合わせることで、色画像の各点が距離情報を有することになる。ここで、各点の距離情報を色で表すこともできる(以下、この画像をカラー距離画像という)。このように、3次元座標系にRGBカメラからの色情報をマッピングしたものが得られるので、これをカメラ・プロジェクター・紙文書が存在する現実の座標系に変換するのである。
【0033】
なお、RGBカメラ402はまた、紙文書のコンテンツの特定や、特定された面における特徴量の検出に用いることも出来る。ユーザーが何らかの指示のための動き(ジェスチャー)をすると(例:ペンで単語をなぞって単語を指定)、RGBカメラ402が、特定された面上で検出されたコンテンツに関連するものとして、このジェスチャーを検出する。
【0034】
図5は、距離画像とRGBカメラからの色画像とを組み合わせて、カラー距離画像500を作成した例を示している。ここでは、色がRGBカメラから対象物表面までの距離を表している。図5の例では、カメラから近い距離を赤で、遠い距離を青で、そして、その間の距離を両者の間の波長を持つ色で表している。この例では、赤い部分501は、青で表現されている背景502よりもRGBカメラに近いことを示している。
【0035】
このシステムでは対象物が平面状でない場合であってもカラー距離画像の生成が可能ではあるが、本実施例では、対象すなわち紙文書が平面状である場合を前提とし、3次元空間中の平面としてモデル化する。この前提の下で、本システムは、紙文書に対応する面を検出及び特定して(例えば、紙の四つの頂点から定める)、これを追跡する。例えば、図6の画像600は、ユーザーが空中で持っている1枚の紙を表している。本システムでは、この紙の4つの頂点を検出する。ここで、この頂点の位置を示す丸印は、飽くまでも説明のためのものであってこのような画像が生成されるわけではない。また、必ずしも4つの頂点を検出する必要は無く、3つでも良いし、また検出するポイントが頂点である必要も無い。また、より多数の点までの距離から平面を求めてもよい。
【0036】
また、本実施例では、環境光の変化による影響を受けにくいことから、距離画像を用いて紙の頂点を検出している。この検出においてはまず、背景のオブジェクトを切り捨てるべく、閾値以上の距離を有する点を除外する(背景として取り扱う)フィルタ処理を行う。
【0037】
図7は、この閾値処理、およびいわゆるブロブ検出(blob detection)を適用した距離画像700の例を示している。ここでブロブ検出とは、周囲の画素値に対して大きい又は小さい画素値を有し且つ一定以上の大きさを持つ領域を検出することであり、一般に結果としての画像を二値化してブロブの部分とそうでない部分を区別するようにする。この例は、図6の画像に対して一定の閾値によるフィルタリング処理を行い、その結果に対してブロブ検出を行ったところ、対象物(この場合は紙)とこれを保持している腕とが距離画像700として残ったものである。
【0038】
距離画像700を用いて紙の頂点を検出するアルゴリズムは以下の通りである。
【0039】
(1)まず、弱い結合をしているオブジェクトの分割を行う。すなわち、画像中のオブジェクトの弱い結合を検出して、それを断ち切り、個別のオブジェクトに分割する。ここで、弱い結合とは、画像中の領域同士が、その領域に比べて細い部分で結合していることである。図7の例で言えば、紙と腕とがそれぞれ弱い結合をしている。この処理は、例えば以下の3つの基本的な画像処理で実現できる。まず、強いブラー処理(ぼかし処理)を行う。すると、弱い結合をしている部分の画素値が低い値(背景に近い値)となる。次に、閾値による2値化を行って、低い値となった結合部分を背景と同化させる。最後に、モルフォロジー演算のopeningとclosingを行って、オブジェクトの境界を明確にする。
【0040】
(2)次に、対象オブジェクトの内部特徴点の検出を行う。ステップ(1)の結果画像は、オブジェクト同士が分離されてはいるものの、前段の画像処理によってその領域(およびその境界)が狭くなってしまっている。とはいえ、ブロブ検出を行うことで、この狭くなった領域を検出することができる。そこで、まずは回転不変な外接矩形を算出する。そして、この矩形の頂点を次の処理における入力(内部特徴点)として用いる。
【0041】
(3)次に、内部特徴点の元の頂点への割り付けを行う。ステップ(2)で求めた内部特徴点を、図6で認識されたオブジェクトの輪郭を使って、元の(縮小されていない)オブジェクト(紙文書)の頂点に割り当てる。具体的には、外接矩形(すなわち内部特徴頂点)を、元の対象オブジェクトの頂点に近付けるように繰り返し拡張する。そして、両者の距離が予め定めた閾値以下となった場合に、紙の頂点が距離画像上で特定されたことになる。
【0042】
このように特定された紙の頂点を、距離画像を用いてフレーム単位で追跡する。これは、ステップ(2)の回転不変な外接矩形算出に用いた処理と類似した方法で、対象オブジェクトの向きを推定することによって行う。この追跡結果に基づいて、画像を追跡対象の領域に、且つその対象の向きに合わせてリアルタイムに投影するのである。
【0043】
紙文書が認識され3次元空間で追跡されると、本実施例のシステムは、ユーザーのジェスチャーによる操作の検出を始める。ユーザーの操作としては、例えば、ユーザーが人差し指を使って紙文書中の図をポイントし近くのディスプレイに表示させることや、地図上の領域の周りを囲むように指でなぞってその領域内のホテルを検索すること、等がある。このような指によるジェスチャーを検出するために、2つの技術が用いられる。ポイントの検出と、タッチ(接触)の検出である。
【0044】
ポイントの検出は、距離画像ではなく(例えばRGBカメラからの)色画像を用いて行う。例えば、背景から指先やペンの色が識別可能であるという前提の下に、色画像から特定の色を検出することにより、ユーザーの指先やペン先の検出及び追跡を行うことができる。指先の検出においては、指の色として定めた一定の色の検出を行えばよい。また、ペン先の検出においては、予め取得しておいたペン先の画像から色相ヒストグラムの逆射影法を用いて検出すればよい。
【0045】
タッチの検出は、指先の位置およびポイントされているオブジェクト表面が距離画像中で特定されると、平面を特定するのに必要な3点を、指先の周りからその表面上で選択する。この、指先と特定された平面との距離を計算することで、指先がオブジェクトの表面にタッチしているか否かを判定する。
【0046】
本実施例のシステムはまた、前述のFACTと同様に、紙文書上においてポイントされたコンテンツを特定し、そのコンテンツに対するユーザーのジェスチャーを検出し、そのジェスチャーに対応した電子的な処理を行う。図8には、このジェスチャーによる選択操作の例を示した。ここで、ポインター801は文字列の選択操作を、アンダーライン802は楽譜の一部の選択操作を、ブラケット803およびバーティカルバー804は複数行に渡る文字列の選択操作を、ラッソ805は閉曲線による領域選択操作を、マーキー806は対角線の指定による矩形領域の選択操作を、パス807は開曲線による経路の選択操作を、そしてフリーフォーム808は任意形状の選択操作をそれぞれ表している。こうしてコンテンツが選択された後に、ユーザーによる他のジェスチャー(例えばコマンド選択メニューからのコマンド指定)を受けて、そのジェスチャーに対応する処理を選択された領域に対して適用する。
【0047】
図12は、紙文書、カメラ、プロジェクター、電子文書の間の相対的な位置関係のマッピングを行う方法の一例を示す図である。ここでHrは、カメラの基準フレーム1236と電子文書1238との間のホモグラフィック変換(ホモグラフィ行列)を表す。これは、カメラ画像の特徴点と電子文書の特徴点との対応から求めることができる。これには、少なくとも4対以上の特徴点のペアが必要である。変換行列を求めるために、最小二乗法を用いることができる。このHrによって、カメラで検出された文書上のコンテンツやジェスチャーに用いる指先が電子文書1238の座標系にマッピングされる。次に、Hcは、対象表面を通る平面状に設定される基準フレームとカメラの基準フレームとのホモグラフィック変換である。これも、同様の4対以上の特徴点のペアの対応関係から求めることができる。Hpは、カメラの基準フレーム1236とプロジェクターの基準フレーム1248との間のホモグラフィック変換である。これも同様に4つ以上のペアの対応関係から求めることができる。
【0048】
これら3つの変換行列をそれぞれの間の相対的位置関係として、リアルタイムで求めることで、紙文書、カメラ、プロジェクターおよび電子文書の間の座標の相互変換が可能となる。そして、この座標変換によって、対象表面の位置および向きに応じて投影すべき画像を変形させて、対象表面(紙文書)上に投影するのである。
【0049】
本実施例の技術は、他のインタラクティブペーパーやデバイス(例えばディスプレイやプリンタ)と組み合わせることで、複合メディア環境を作ることができる。複合メディア環境においては、共に電子的インタラクション(双方向のコミュニケーション)が可能という意味で、紙と電子デバイスとが等価に扱われる。また、このような複数のデバイスにまたがったインタラクションには、体を使ったジェスチャーを検出するようにしても良い。このジェスチャーの例としては、メモ用紙上に描かれた絵をコピーしてディスプレイ上に表示させる、書籍の図をディスプレイに表示させたスライドにリンクさせる、印刷物を再度プリンターに転送してもう一部印刷する等が挙げられる。
【0050】
複合メディア環境の概念はよく知られているが、本実施例のシステムは、通常の何のマークも付されていない紙文書に対する3次元空間における操作をサポートしているという点で、それら従来のシステムとは異なる。
【0051】
本実施例はさらに別のシナリオにも適用可能である。すなわち、追跡対象の投影面が固定された紙文書(例えば、テーブルの上や壁上に固定されている)であり、入出力ユニット(カメラ及びプロジェクターを備える)の方が3次元空間で動く場合である。この場合においても本実施例が適用できる理由は、紙(より一般的には、プロジェクターの投影面)と入出力ユニットの間の、動的に変化する相対的な位置関係を特定して処理を行うという意味では、入出力ユニットが動く場合は紙の方が動く場合と技術的に変わりが無いからである。また、この場合、入出力ユニットのプロジェクターから領域選択用のカーソル(注目位置を示す記号。例えば矢印型。)を投影した上で、入出力ユニットそのものが動いたことによるそのカーソルの軌跡から選択範囲を特定し、その選択範囲に対して、上述のような何らかの操作を行うこともできる。例えば、壁に表示した地図の上で、入出力ユニットを動かし、カーソルの閉曲線の軌跡によって選択された範囲に対応する地図上の領域に存在するホテルを検索し、当該プロジェクターによってその位置を地図上に示すことが考えられる。
【0052】
図9は、本実施例の処理の一例を示すフローチャートである。まず、プロジェクターによる映像の投影、および追跡の対象となる表面(対象表面)を特定する(901)。次に、カメラ(距離検出カメラ等)によって、その表面に関する3次元情報(距離、形状、向き等)を取得する(902)。この情報から、対象表面上に、当該表面に合わせて、向きや大さを調整した画像を投影する(903)。
【0053】
図10は、対象表面を特定する処理(901)の詳細な方法の一例を示すフローチャートである。まず、距離検出カメラで取得した距離情報から距離画像を生成する(901−1)。次に、距離画像を解析して、弱い結合をしている要素を分離し、それぞれを対象表面の候補とする(901−2)。次に、先の分離処理で縮小されたそれぞれの対象表面の候補に関して、特徴点(内部特徴点)を特定する(901−3)。次に、内部特徴点を、縮小されていない対象表面の特徴点に割り当てる処理を行い、対象表面に対応する距離画像中の表面を対象表面として特定する(901−4)。そして、特定された距離画像中の対象表面を追跡する(901−5)。
【0054】
ここで、対象表面の特徴点は、通常の四角い紙を検出する場合であれば、その4つの頂点を用いることができる。一方で、他の種類の表面を検出する場合には、その表面の形状に合わせた点を予め定義する必要がある。
【0055】
図11は、本実施例を実装するコンピュータシステムの例を示すブロック図である。システム1000は、指示を実行するための作業を行うプロセッサー(処理手段)1002およびメモリ(記憶手段)1003を含むコンピュータ/サーバ・プラットフォーム1001を含む。「コンピュータ可読記憶媒体」は、たとえば、ディスク、半導体メモリなどの任意の有形の媒体であってよい。該コンピュータ記憶媒体はプロセッサ1002に実行のための指示を提供する際に使用される。さらに、コンピュータ・プラットフォーム1001は、キーボード、マウス、タッチ・デバイス、音声命令入力装置など、複数の入力デバイス(入力手段)1004からの入力を受信する。コンピュータ・プラットフォーム1001は、ポータブル・ハード・ディスク・ドライブ、光メディア(CD、DVD)、ディスク媒体、その他の任意の有形な媒体など、コンピュータが実行コードを読み取ることができる脱着可能な記憶デバイス(脱着可能記憶手段)1005にさらに接続されていてもよい。コンピュータ・プラットフォームはさらにインターネットもしくはローカル・パブリック・ネットワークもしくはローカル・プライベート・ネットワークのその他の構成要素に接続するネットワーク・リソース1006に接続していてもよい。ネットワーク・リソース1006は指示およびデータをネットワーク1007の遠隔位置からコンピュータ・プラットフォームに提供してもよい。ネットワーク・リソース1006への接続は、たとえば、802.11規格、ブルートゥース、ワイヤレス・プロトコル、セルラー・プロトコルなどのワイヤレス・プロトコルを介してもよいし、たとえば、金属ケーブルや光学繊維ケーブルなどの物理的な送信媒体を介してもよい。ネットワーク・リソースは、データや実行可能な指示を記憶する、コンピュータ・プラットフォーム1001とは別個の位置にある記憶デバイスを含んでもよい。コンピュータは、その他の指示およびユーザからの入力を要求し、ユーザへデータやその他の情報を出力するためのディスプレイ(表示手段)1008とインタラクションを行う。表示手段1008はユーザとのインタラクションを行うための入力手段として機能してもよい。
【技術分野】
【0001】
本発明は、画像を対象物に投影する画像投影装置ならびに画像投影制御装置およびプログラムに関する。
【背景技術】
【0002】
非特許文献1及び2には、文書中の文字列等の領域ではなく、文書全体またはページ全体をハイパーリンクに見立てた、紙文書とコンピュータの間のインタラクションに関する技術が記載されている。
【0003】
非特許文献3には、カメラを用いて机の上の文書を認識し、電子文書との対応付けを行う技術が記載されている。
【0004】
非特許文献4には、カメラを用いてOCRを行い、認識したテキストを転写する技術が記載されている。
【0005】
非特許文献5には、カメラとプロジェクターを組み合わせた装置を使って、ユーザーのペン操作を入力とプロジェクターによる出力で、紙文書とのインタラクションを行う技術が記載されている。
【0006】
非特許文献6には、紙文書とのインタラクションのために特別のマークを付加する技術が記載されている。
【0007】
非特許文献7には、紙に書いたキャラクターをテーブルの上で動かすことで、アニメーションを作る技術が記載されている。
【0008】
非特許文献8には、画像の局所特徴量を算出してそれを基に画像を比較する技術が記載されている。
【0009】
非特許文献9および10には、画像の局所特徴量を用いて、格納してある画像とのマッチングを行う技術が記載されている。
【先行技術文献】
【非特許文献】
【0010】
【非特許文献1】ウィルソン(Wilson)、「どこでも再生:コンパクト・インタラクティブ・テーブルトップ・プロジェクション・ビジョン・システム(PlayAnywhere: a compact interactive tabletop projection−vision system)、UIST抄録(Proceedings of UIST)、2005年、p.83〜92
【非特許文献2】ケーン(Kane)ら、「焚き火:ハイブリッド・ラップトップ・テーブルトップ・インタラクションのためのノーマディック・システム(Bonfire: a nomadic system for hybrid laptop−tabletop interaction)、UIST抄録(Proceedings of UIST)、2009年、p.129〜138
【非特許文献3】キム(Kim)ら、「ビデオ・ベース・ドキュメント追跡:物理的デスクトップと電子的デスクトップとの統一(Video−based document tracking: unifying your physical and electronic desktops)」、UIST抄録(Proceedings of UIST)、2004年、p.99〜107
【非特許文献4】ニューマン(Newman)ら、「カムワークス:ペーパ・ソース・ドキュメントから効率的にキャプチャするためのビデオ・ベース・ツール(CamWorks: A Video−based Tool for Efficient Capture from Paper Source Documents)、IEEE マルチメディア・システム抄録(Proceedings of IEEE Multimedia System)、1999年、p.647〜653
【非特許文献5】ウェルナー(Wellner)、「デジタルデスク上のペーパとのインタラクション(Interacting with paper on the DigitalDesk)」、ACM通信(Communications of the ACM)、36(7)、1993年、p.1〜107
【非特許文献6】ソング(Song)ら、「ペンおよび空間感知モバイル・プロジェクタを用いたデジタル・ペーパのバイマニュアル・インタラクション(MouseLight:Bimanual Interactions on Digital Paper Using a Pen and a Spatially−aware Mobile Projector)、CHI抄録(Proceedings of CHI)、2010年
【非特許文献7】バーンズ(Barnes)ら、「ビデオ・パペット:切り絵アニメのための遂行的インタフェース(Video Puppetry: A Performative Interface for Cutout Animation)」、グラフィックに関するACMトランザクション(ACM Transaction on Graphics)、Vol.27、No.5、2008年
【非特許文献8】リウ(Liu)ら、「FITによる高精度・言語非依存ドキュメント検索(High Accuracy And Language Independent Document Retrieval With A Fast Invariant Transform)」、ICME抄録(Proceedings of ICME)、2009年
【非特許文献9】ヘア(Hare)ら、「マップスナッパー:モバイル・フォンのマップ 画像をマッチングするための効率的なアルゴリズム処理(MapSnapper: Engineering an Efficient Algorithm for Matching Images of Maps from Mobile Phones)」、マルチメディア・コンテンツ・アクセス抄録(Proceedings of Multimedia Content Access)、アルゴリズムおよびシステムII(Algorithms and Systems II)第6820巻、2008年、p.68200L.1〜68200L.11
【非特許文献10】リウ(Liu)ら、「埋め込みメディア・マーカ:関連メディアを示すペーパ上のマーク(Embedded Media Markers: Marks on Paper that Signify Associated Media)」、IUI抄録(Proceedings of IUI)、2010年、p.149〜158
【発明の概要】
【発明が解決しようとする課題】
【0011】
対象表面に記載されたコンテンツに対するジェスチャーによって、当該コンテンツに関する電子的な操作を行った結果を、プロジェクターを用いて当該対象表面に投影する場合において、対象表面とプロジェクターの間の相対位置及び向きの変化したときに、従来技術は対応できなかった。
【0012】
本発明は、対象表面とプロジェクターの間の相対位置及び向きの変化に応じて対象表面に投影された画像を変形させることができる、画像投影装置ならびに画像投影制御装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明の第1の態様は、対象物からの反射光量に対応する画像である色画像を取得するとともに、当該対象物との距離に対応する画像である距離画像を取得するカメラシステムと、前記対象物に画像を投影するプロジェクターと、以下の(1)ないし(3)の処理を行うプロセッサーとを備えることを特徴とする。(1)ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出し、(2)前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出し、(3)処理(1)で検出したジェスチャーに応じて異なる画像を、処理(2)で検出した表面の位置および向きに応じて変形し、これを当該表面に投影する。
【0014】
本発明の第2の態様は、外部のカメラから対象物の反射光量に対応する画像である色画像、および、当該対象物との距離に対応する画像である距離画像を取得する手段と、ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出する第1の検出手段と、前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出する第2の検出手段と第1の検出手段で検出したジェスチャーに応じて異なる画像を、第2の検出手段で検出した表面の位置および向きに応じて変形し、これを外部のプロジェクターに出力する出力手段と、を備えることを特徴とする。
【0015】
本発明の第3の態様は、外部のカメラから対象物の反射光量に対応する画像である色画像、および、当該対象物との距離に対応する画像である距離画像を取得するステップと、ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出するステップと、前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出するステップと、検出したジェスチャーに応じて異なる画像を、検出した表面の位置および向きに応じて変形し、これを外部のプロジェクターに出力するステップと、をコンピュータに実行させることを特徴とする。
【発明の効果】
【0016】
本発明によれば、プロジェクターによる投影内容による誤検知をすることなく、対象表面の追跡が可能となる。
【図面の簡単な説明】
【0017】
【図1】FACTの実装例を示している。
【図2】FACTの使用例を示している。
【図3】本発明の使用例を示している。
【図4】カメラ及びプロジェクターを備えた入出力装置に用いられるカメラの例を示している。
【図5】距離画像(depth image)の例を示している。
【図6】カメラによって得られた画像であって、距離画像を抽出する前のものを示している。
【図7】二値化した距離画像の例を示している。
【図8】本発明で実現可能な機能の例を示している。
【図9】本発明における処理の一例を示すフローチャートである。
【図10】対象表面の特定法の一例を示すフローチャートである。
【図11】本発明を実装するコンピュータシステムの例を示すブロック図である。
【図12】紙文書、カメラ、プロジェクター、電子文書の間の相対的な位置関係のマッピングを行う方法の一例を示している。
【発明を実施するための形態】
【0018】
本発明の実施の形態を以下に説明するが、本実施形態は、本発明者が開発したFACTという技術(特願2011−003883として出願)を基にしている。ここで、FACTは、マーカー無しの紙文書を認識及び拡張するカメラ付きプロジェクタユニットである。また、これによって、ユーザーは、紙上の微細なコンテンツを選択することで、キーワード検索、ウェブ検索、マルチメディアアノテーション等のコンピュータの機能を実行することができる。FACTでは、紙文書を固定しておく必要は無く、紙の持つ本質的な柔軟性を損なうことがない。図1は、FACTの実装例を示している。FACTは、紙を使った対話型のシステム100である。このシステムは、カメラおよびプロジェクターを備えた入出力ユニット101、ノート型のコンピュータ102、機械読取のためのバーコードや標識の付されていない通常の紙文書103を利用する。
【0019】
図2は、FACTの使用例を示している。FACTは、カメラとプロジェクターを備えた入出力ユニットを活用して、コンテンツに基づく画像認識および座標変換を行う。これによって、ユーザーのペンを操作する動作(ジェスチャー)によって指定された、紙文書中のコンテンツ(文章、印、アイコン、図、任煮の領域等)を認識し、コンピュータで処理できるようにするのである。例えば、紙文書中の単語によるキーワード検索を行う場合、ユーザーは、同図(a)に示すようにペン先201で検索対象とする単語202をポイント(指し示すこと)した上で、「キーワード検索」コマンドの起動を指示する。この入力を受けたシステムは、同図(b)に示すように、その紙文書の元となった電子文書を対象としてその単語を検索し、検索された単語203の紙文書中の位置をプロジェクターで特定の色の光を照射することによりハイライト表示するのである。同図(c)は、同図(b)において「3D」という単語を紙文書103においてハイライト表示した様子を示す拡大図である。
【0020】
FACTは、紙文書に対応する文書画像に対してSIFT(Scale Invariant Feature Transrom)のような局所特徴量を算出し比較することで、対応する(元となった)電子文書を特定する。また、この局所特徴量の文書画像と電子文書との間の対応関係はまた、カメラ、プロジェクターおよび文書の間のホモグラフィック座標変換にも用いる。また、カメラで撮影した画像からのペン先の検出には、色情報を基準とした方法を用いる。紙文書上におけるペンの動き(ジェスチャー)は、同様のマウスポインターの操作に対応付けられる。この方法は、通常の紙文書に何らかの標識をつけたり、何らかの変更を加えたりする必要がない。
【0021】
しかしながら、特願2011−003883に記載したFACTでは、カメラ、プロジェクターおよび紙文書が載っている平面それぞれの相対的位置は、一連の操作の間固定されていることが必要である。したがって、紙文書は固定された平面上に置かなければならず(例:テーブルの上)、また、カメラ及びプロジェクターを備えた入出力ユニットは、どこかに固定されていなければならない(例:本棚に固定)。すなわち、手に持った紙を使ってFACTの機能を使うことが出来ない。また、プロジェクターやカメラで入出力可能な領域の制限から、テーブル上における紙の位置すら限られたものになっている。
【0022】
そこで、本発明の実施例においては、通常のRGBの色画像(色毎の光センサー(RGB等)で検出した画素毎の色情報を有する画像)に距離画像(depth image:各画素が対象物とセンサーとの間の距離情報を有する画像)を組み合わせて、紙文書の表面の認識および追跡を行う。
【0023】
ここで、本実施例では、図3に示すような、3つの典型的なインタラクションの形態をサポートする。第1に、同図(a)に示すように、カメラ及びプロジェクターを備えた入出力ユニット301が固定されているが、紙文書303は固定されておらず自由な位置及び向き(テーブルの上に置いてあってもよいし、空中でユーザー302が保持していてもよい)にあることを前提としている形態である。ユーザー302は、紙文書303を動かしたり、また、紙文書303に対してポイントやタッチ等の手を使ったジェスチャーをすることによって操作を行うのである。第2に、同図(b)に示すように、入出力ユニット301を、固定された投影表面304(紙文書が貼ってある壁等)に向けてユーザーが保持し、これを動かすことによって、また体を使ったジェスチャーによって操作を行う形態である。第3に、同図(c)に示すように、一方の手で紙文書303を保持し、他方の手で入出力ユニット301を保持した上で、両者を両手の動きで連動させる形態である。
【0024】
以下では、大きく分けて5つの技術を実施例を用いて説明する。(1)3次元空間における紙文書の認識及び姿勢推定、(2)紙文書を操作するための指によるジェスチャー、(3)情報媒体が混在する環境における体を使ったジェスチャー、(4)手持ち型のプロジェクターの利用、(5)両手持ちによる操作、の5つである。
【0025】
本実施例におけるシステムでは、カメラからビデオフレームを取得し、その局所特徴量(例:SIFTやFIT)を用いて紙文書の特定を行う。この際に、紙文書に特殊なコードやマークを付加しておく必要は無い。本実施例のシステムでは、クアッドコア2.8GHZのCPUと4GBのRAMを搭載したコンピュータを用いて、640×480画素のフレームの認識処理を行ったところ、0.5fps程度での処理が可能であった。認識等を行っている最中に、ユーザーが紙文書をわざわざ高速で動かすことは想定しなくても良いと考えられるので、この処理スピードは許容可能な数字であろう。
【0026】
各ビデオフレーム(色画像)と予め設定した紙文書モデルの間の局所特徴量の対応を検出することで、紙文書の3次元空間における姿勢の認識及び推定処理(3次元姿勢推定)を行うことができる。しかしながら、ビデオフレームの視覚的な特徴量(色情報等)のみを用いて姿勢の認識及び推定処理を行うことには、いくつか問題がある。
【0027】
(1)現在知られている認識アルゴリズムは、文書画像の大きな射影歪み(perspective distortion)に対応できない。一方で、これは紙文書を空中に保持して取り扱う際には頻繁に生じる問題である。
【0028】
(2)紙文書へのプロジェクターによる投影が、紙文書の局所特徴量を変えてしまうかも知れない。これによって、紙文書の認識及び姿勢推定に失敗することもある。この問題は、紙文書のコンテンツが少なく、結果として抽出できる特徴量が少ない場合に特に顕著である。紙の姿勢推定は、RGBセンサーの色情報による画像(色画像)からその頂点を検出することでも可能であるが、それには背景と紙の間に大きなコントラストの差があることが条件となる。
【0029】
(3)特徴量抽出に係る計算が複雑で、これをリアルタイムで行えない可能性がある。その場合には、紙文書の姿勢推定がユーザーの紙を動かす動作に遅れてしまうことになる。
【0030】
これらの問題を解決するために、マイクロソフト(登録商標)のKINECT(登録商標)から得られるような距離情報(depth information)を用いて、色情報による紙文書の認識処理及び追跡処理を補完する。
【0031】
本システムは各シーンの距離画像を取得し、これを用いて3次元空間における(平らな)紙文書の姿勢を推定するのである。認識モジュールでの処理の前に、姿勢情報を用いて、色画像の射影歪みが少なくなるように補正することもできる。3次元姿勢推定には距離画像のみを用いる。距離画像は、文書の局所特徴量とは無関係である。本実施例の場合、距離画像の取得、およびこの距離画像からの紙の3次元姿勢推定は、60fps程度で行える。3次元姿勢推定及び文書認識に関しては、それぞれ別のスレッドで処理を行い、それぞれが独立して、紙文書・カメラ・プロジェクターを含む「世界」のモデルを更新する。
【0032】
本実施例のシステムは、図4に示すように、距離画像の生成および通常の色画像の生成が可能なカメラシステム400と一体となって、または連携して処理を行うことが出来る。距離を検出するカメラ401(距離検出カメラ)は、例えば、赤外線の光源403から投影された構造化された赤外光(例えば格子縞の赤外光)の反射光のパターンの歪みを解析することで、対象までの距離を面状に計測することができる。その計測の結果が距離画像である。そして、この距離画像と、RGBカメラ402で撮影した色画像とを重ね合わせることで、色画像の各点が距離情報を有することになる。ここで、各点の距離情報を色で表すこともできる(以下、この画像をカラー距離画像という)。このように、3次元座標系にRGBカメラからの色情報をマッピングしたものが得られるので、これをカメラ・プロジェクター・紙文書が存在する現実の座標系に変換するのである。
【0033】
なお、RGBカメラ402はまた、紙文書のコンテンツの特定や、特定された面における特徴量の検出に用いることも出来る。ユーザーが何らかの指示のための動き(ジェスチャー)をすると(例:ペンで単語をなぞって単語を指定)、RGBカメラ402が、特定された面上で検出されたコンテンツに関連するものとして、このジェスチャーを検出する。
【0034】
図5は、距離画像とRGBカメラからの色画像とを組み合わせて、カラー距離画像500を作成した例を示している。ここでは、色がRGBカメラから対象物表面までの距離を表している。図5の例では、カメラから近い距離を赤で、遠い距離を青で、そして、その間の距離を両者の間の波長を持つ色で表している。この例では、赤い部分501は、青で表現されている背景502よりもRGBカメラに近いことを示している。
【0035】
このシステムでは対象物が平面状でない場合であってもカラー距離画像の生成が可能ではあるが、本実施例では、対象すなわち紙文書が平面状である場合を前提とし、3次元空間中の平面としてモデル化する。この前提の下で、本システムは、紙文書に対応する面を検出及び特定して(例えば、紙の四つの頂点から定める)、これを追跡する。例えば、図6の画像600は、ユーザーが空中で持っている1枚の紙を表している。本システムでは、この紙の4つの頂点を検出する。ここで、この頂点の位置を示す丸印は、飽くまでも説明のためのものであってこのような画像が生成されるわけではない。また、必ずしも4つの頂点を検出する必要は無く、3つでも良いし、また検出するポイントが頂点である必要も無い。また、より多数の点までの距離から平面を求めてもよい。
【0036】
また、本実施例では、環境光の変化による影響を受けにくいことから、距離画像を用いて紙の頂点を検出している。この検出においてはまず、背景のオブジェクトを切り捨てるべく、閾値以上の距離を有する点を除外する(背景として取り扱う)フィルタ処理を行う。
【0037】
図7は、この閾値処理、およびいわゆるブロブ検出(blob detection)を適用した距離画像700の例を示している。ここでブロブ検出とは、周囲の画素値に対して大きい又は小さい画素値を有し且つ一定以上の大きさを持つ領域を検出することであり、一般に結果としての画像を二値化してブロブの部分とそうでない部分を区別するようにする。この例は、図6の画像に対して一定の閾値によるフィルタリング処理を行い、その結果に対してブロブ検出を行ったところ、対象物(この場合は紙)とこれを保持している腕とが距離画像700として残ったものである。
【0038】
距離画像700を用いて紙の頂点を検出するアルゴリズムは以下の通りである。
【0039】
(1)まず、弱い結合をしているオブジェクトの分割を行う。すなわち、画像中のオブジェクトの弱い結合を検出して、それを断ち切り、個別のオブジェクトに分割する。ここで、弱い結合とは、画像中の領域同士が、その領域に比べて細い部分で結合していることである。図7の例で言えば、紙と腕とがそれぞれ弱い結合をしている。この処理は、例えば以下の3つの基本的な画像処理で実現できる。まず、強いブラー処理(ぼかし処理)を行う。すると、弱い結合をしている部分の画素値が低い値(背景に近い値)となる。次に、閾値による2値化を行って、低い値となった結合部分を背景と同化させる。最後に、モルフォロジー演算のopeningとclosingを行って、オブジェクトの境界を明確にする。
【0040】
(2)次に、対象オブジェクトの内部特徴点の検出を行う。ステップ(1)の結果画像は、オブジェクト同士が分離されてはいるものの、前段の画像処理によってその領域(およびその境界)が狭くなってしまっている。とはいえ、ブロブ検出を行うことで、この狭くなった領域を検出することができる。そこで、まずは回転不変な外接矩形を算出する。そして、この矩形の頂点を次の処理における入力(内部特徴点)として用いる。
【0041】
(3)次に、内部特徴点の元の頂点への割り付けを行う。ステップ(2)で求めた内部特徴点を、図6で認識されたオブジェクトの輪郭を使って、元の(縮小されていない)オブジェクト(紙文書)の頂点に割り当てる。具体的には、外接矩形(すなわち内部特徴頂点)を、元の対象オブジェクトの頂点に近付けるように繰り返し拡張する。そして、両者の距離が予め定めた閾値以下となった場合に、紙の頂点が距離画像上で特定されたことになる。
【0042】
このように特定された紙の頂点を、距離画像を用いてフレーム単位で追跡する。これは、ステップ(2)の回転不変な外接矩形算出に用いた処理と類似した方法で、対象オブジェクトの向きを推定することによって行う。この追跡結果に基づいて、画像を追跡対象の領域に、且つその対象の向きに合わせてリアルタイムに投影するのである。
【0043】
紙文書が認識され3次元空間で追跡されると、本実施例のシステムは、ユーザーのジェスチャーによる操作の検出を始める。ユーザーの操作としては、例えば、ユーザーが人差し指を使って紙文書中の図をポイントし近くのディスプレイに表示させることや、地図上の領域の周りを囲むように指でなぞってその領域内のホテルを検索すること、等がある。このような指によるジェスチャーを検出するために、2つの技術が用いられる。ポイントの検出と、タッチ(接触)の検出である。
【0044】
ポイントの検出は、距離画像ではなく(例えばRGBカメラからの)色画像を用いて行う。例えば、背景から指先やペンの色が識別可能であるという前提の下に、色画像から特定の色を検出することにより、ユーザーの指先やペン先の検出及び追跡を行うことができる。指先の検出においては、指の色として定めた一定の色の検出を行えばよい。また、ペン先の検出においては、予め取得しておいたペン先の画像から色相ヒストグラムの逆射影法を用いて検出すればよい。
【0045】
タッチの検出は、指先の位置およびポイントされているオブジェクト表面が距離画像中で特定されると、平面を特定するのに必要な3点を、指先の周りからその表面上で選択する。この、指先と特定された平面との距離を計算することで、指先がオブジェクトの表面にタッチしているか否かを判定する。
【0046】
本実施例のシステムはまた、前述のFACTと同様に、紙文書上においてポイントされたコンテンツを特定し、そのコンテンツに対するユーザーのジェスチャーを検出し、そのジェスチャーに対応した電子的な処理を行う。図8には、このジェスチャーによる選択操作の例を示した。ここで、ポインター801は文字列の選択操作を、アンダーライン802は楽譜の一部の選択操作を、ブラケット803およびバーティカルバー804は複数行に渡る文字列の選択操作を、ラッソ805は閉曲線による領域選択操作を、マーキー806は対角線の指定による矩形領域の選択操作を、パス807は開曲線による経路の選択操作を、そしてフリーフォーム808は任意形状の選択操作をそれぞれ表している。こうしてコンテンツが選択された後に、ユーザーによる他のジェスチャー(例えばコマンド選択メニューからのコマンド指定)を受けて、そのジェスチャーに対応する処理を選択された領域に対して適用する。
【0047】
図12は、紙文書、カメラ、プロジェクター、電子文書の間の相対的な位置関係のマッピングを行う方法の一例を示す図である。ここでHrは、カメラの基準フレーム1236と電子文書1238との間のホモグラフィック変換(ホモグラフィ行列)を表す。これは、カメラ画像の特徴点と電子文書の特徴点との対応から求めることができる。これには、少なくとも4対以上の特徴点のペアが必要である。変換行列を求めるために、最小二乗法を用いることができる。このHrによって、カメラで検出された文書上のコンテンツやジェスチャーに用いる指先が電子文書1238の座標系にマッピングされる。次に、Hcは、対象表面を通る平面状に設定される基準フレームとカメラの基準フレームとのホモグラフィック変換である。これも、同様の4対以上の特徴点のペアの対応関係から求めることができる。Hpは、カメラの基準フレーム1236とプロジェクターの基準フレーム1248との間のホモグラフィック変換である。これも同様に4つ以上のペアの対応関係から求めることができる。
【0048】
これら3つの変換行列をそれぞれの間の相対的位置関係として、リアルタイムで求めることで、紙文書、カメラ、プロジェクターおよび電子文書の間の座標の相互変換が可能となる。そして、この座標変換によって、対象表面の位置および向きに応じて投影すべき画像を変形させて、対象表面(紙文書)上に投影するのである。
【0049】
本実施例の技術は、他のインタラクティブペーパーやデバイス(例えばディスプレイやプリンタ)と組み合わせることで、複合メディア環境を作ることができる。複合メディア環境においては、共に電子的インタラクション(双方向のコミュニケーション)が可能という意味で、紙と電子デバイスとが等価に扱われる。また、このような複数のデバイスにまたがったインタラクションには、体を使ったジェスチャーを検出するようにしても良い。このジェスチャーの例としては、メモ用紙上に描かれた絵をコピーしてディスプレイ上に表示させる、書籍の図をディスプレイに表示させたスライドにリンクさせる、印刷物を再度プリンターに転送してもう一部印刷する等が挙げられる。
【0050】
複合メディア環境の概念はよく知られているが、本実施例のシステムは、通常の何のマークも付されていない紙文書に対する3次元空間における操作をサポートしているという点で、それら従来のシステムとは異なる。
【0051】
本実施例はさらに別のシナリオにも適用可能である。すなわち、追跡対象の投影面が固定された紙文書(例えば、テーブルの上や壁上に固定されている)であり、入出力ユニット(カメラ及びプロジェクターを備える)の方が3次元空間で動く場合である。この場合においても本実施例が適用できる理由は、紙(より一般的には、プロジェクターの投影面)と入出力ユニットの間の、動的に変化する相対的な位置関係を特定して処理を行うという意味では、入出力ユニットが動く場合は紙の方が動く場合と技術的に変わりが無いからである。また、この場合、入出力ユニットのプロジェクターから領域選択用のカーソル(注目位置を示す記号。例えば矢印型。)を投影した上で、入出力ユニットそのものが動いたことによるそのカーソルの軌跡から選択範囲を特定し、その選択範囲に対して、上述のような何らかの操作を行うこともできる。例えば、壁に表示した地図の上で、入出力ユニットを動かし、カーソルの閉曲線の軌跡によって選択された範囲に対応する地図上の領域に存在するホテルを検索し、当該プロジェクターによってその位置を地図上に示すことが考えられる。
【0052】
図9は、本実施例の処理の一例を示すフローチャートである。まず、プロジェクターによる映像の投影、および追跡の対象となる表面(対象表面)を特定する(901)。次に、カメラ(距離検出カメラ等)によって、その表面に関する3次元情報(距離、形状、向き等)を取得する(902)。この情報から、対象表面上に、当該表面に合わせて、向きや大さを調整した画像を投影する(903)。
【0053】
図10は、対象表面を特定する処理(901)の詳細な方法の一例を示すフローチャートである。まず、距離検出カメラで取得した距離情報から距離画像を生成する(901−1)。次に、距離画像を解析して、弱い結合をしている要素を分離し、それぞれを対象表面の候補とする(901−2)。次に、先の分離処理で縮小されたそれぞれの対象表面の候補に関して、特徴点(内部特徴点)を特定する(901−3)。次に、内部特徴点を、縮小されていない対象表面の特徴点に割り当てる処理を行い、対象表面に対応する距離画像中の表面を対象表面として特定する(901−4)。そして、特定された距離画像中の対象表面を追跡する(901−5)。
【0054】
ここで、対象表面の特徴点は、通常の四角い紙を検出する場合であれば、その4つの頂点を用いることができる。一方で、他の種類の表面を検出する場合には、その表面の形状に合わせた点を予め定義する必要がある。
【0055】
図11は、本実施例を実装するコンピュータシステムの例を示すブロック図である。システム1000は、指示を実行するための作業を行うプロセッサー(処理手段)1002およびメモリ(記憶手段)1003を含むコンピュータ/サーバ・プラットフォーム1001を含む。「コンピュータ可読記憶媒体」は、たとえば、ディスク、半導体メモリなどの任意の有形の媒体であってよい。該コンピュータ記憶媒体はプロセッサ1002に実行のための指示を提供する際に使用される。さらに、コンピュータ・プラットフォーム1001は、キーボード、マウス、タッチ・デバイス、音声命令入力装置など、複数の入力デバイス(入力手段)1004からの入力を受信する。コンピュータ・プラットフォーム1001は、ポータブル・ハード・ディスク・ドライブ、光メディア(CD、DVD)、ディスク媒体、その他の任意の有形な媒体など、コンピュータが実行コードを読み取ることができる脱着可能な記憶デバイス(脱着可能記憶手段)1005にさらに接続されていてもよい。コンピュータ・プラットフォームはさらにインターネットもしくはローカル・パブリック・ネットワークもしくはローカル・プライベート・ネットワークのその他の構成要素に接続するネットワーク・リソース1006に接続していてもよい。ネットワーク・リソース1006は指示およびデータをネットワーク1007の遠隔位置からコンピュータ・プラットフォームに提供してもよい。ネットワーク・リソース1006への接続は、たとえば、802.11規格、ブルートゥース、ワイヤレス・プロトコル、セルラー・プロトコルなどのワイヤレス・プロトコルを介してもよいし、たとえば、金属ケーブルや光学繊維ケーブルなどの物理的な送信媒体を介してもよい。ネットワーク・リソースは、データや実行可能な指示を記憶する、コンピュータ・プラットフォーム1001とは別個の位置にある記憶デバイスを含んでもよい。コンピュータは、その他の指示およびユーザからの入力を要求し、ユーザへデータやその他の情報を出力するためのディスプレイ(表示手段)1008とインタラクションを行う。表示手段1008はユーザとのインタラクションを行うための入力手段として機能してもよい。
【特許請求の範囲】
【請求項1】
対象物からの反射光量に対応する画像である色画像を取得するとともに、当該対象物との距離に対応する画像である距離画像を取得するカメラシステムと、
前記対象物に画像を投影するプロジェクターと、
プロセッサーと、を備え、
前記プロセッサーは、
(1)ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出し、
(2)前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出し、
(3)処理(1)で検出したジェスチャーに応じて異なる画像を、処理(2)で検出した表面の位置および向きに応じて変形し、これを当該表面に投影する、
処理を行うことを特徴とする、画像投影装置。
【請求項2】
外部のカメラから対象物の反射光量に対応する画像である色画像、および、当該対象物との距離に対応する画像である距離画像を取得する手段と、
ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出する第1の検出手段と、
前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出する第2の検出手段と、
第1の検出手段で検出したジェスチャーに応じて異なる画像を、第2の検出手段で検出した表面の位置および向きに応じて変形し、これを外部のプロジェクターに出力する出力手段と、を備えることを特徴とする画像投影制御装置。
【請求項3】
外部のカメラから対象物の反射光量に対応する画像である色画像、および、当該対象物との距離に対応する画像である距離画像を取得するステップと、
ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出するステップと、
前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出するステップと、
検出したジェスチャーに応じて異なる画像を、検出した表面の位置および向きに応じて変形し、これを外部のプロジェクターに出力するステップと、をコンピュータに実行させるためのプログラム。
【請求項1】
対象物からの反射光量に対応する画像である色画像を取得するとともに、当該対象物との距離に対応する画像である距離画像を取得するカメラシステムと、
前記対象物に画像を投影するプロジェクターと、
プロセッサーと、を備え、
前記プロセッサーは、
(1)ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出し、
(2)前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出し、
(3)処理(1)で検出したジェスチャーに応じて異なる画像を、処理(2)で検出した表面の位置および向きに応じて変形し、これを当該表面に投影する、
処理を行うことを特徴とする、画像投影装置。
【請求項2】
外部のカメラから対象物の反射光量に対応する画像である色画像、および、当該対象物との距離に対応する画像である距離画像を取得する手段と、
ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出する第1の検出手段と、
前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出する第2の検出手段と、
第1の検出手段で検出したジェスチャーに応じて異なる画像を、第2の検出手段で検出した表面の位置および向きに応じて変形し、これを外部のプロジェクターに出力する出力手段と、を備えることを特徴とする画像投影制御装置。
【請求項3】
外部のカメラから対象物の反射光量に対応する画像である色画像、および、当該対象物との距離に対応する画像である距離画像を取得するステップと、
ユーザーのジェスチャーを前記色画像及び距離画像の少なくとも一方から検出するステップと、
前記色画像を用いずに前記距離画像から、画像を投影する対象物の表面の、プロジェクターに対する相対的な位置及び向きを検出するステップと、
検出したジェスチャーに応じて異なる画像を、検出した表面の位置および向きに応じて変形し、これを外部のプロジェクターに出力するステップと、をコンピュータに実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図6】
【図11】
【図5】
【図7】
【図8】
【図9】
【図10】
【図12】
【図2】
【図3】
【図4】
【図6】
【図11】
【図5】
【図7】
【図8】
【図9】
【図10】
【図12】
【公開番号】特開2013−34168(P2013−34168A)
【公開日】平成25年2月14日(2013.2.14)
【国際特許分類】
【出願番号】特願2012−11191(P2012−11191)
【出願日】平成24年1月23日(2012.1.23)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成25年2月14日(2013.2.14)
【国際特許分類】
【出願日】平成24年1月23日(2012.1.23)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]