情報処理システム、情報処理方法、およびコンピュータプログラム
【課題】物理的ドキュメントとコンピュータとを連動させる。
【解決手段】カメラ手段が、少なくとも一つの物理的ドキュメントのコンテンツを処理し、該少なくとも一つの物理的ドキュメントへのユーザ・インタラクションを検出する。プロジェクタ処理手段が、前記少なくとも一つの物理的ドキュメントへの視覚可能なフィードバックを提供する。表示手段を備えた計算処理装置は、前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションと該計算処理装置上の作業とを連動する。前記カメラ処理手段は前記少なくとも一つの物理的ドキュメントの細かい粒度のコンテンツを処理してもよい。前記細かい粒度のコンテンツは、個別の単語、文字、図形を含む。
【解決手段】カメラ手段が、少なくとも一つの物理的ドキュメントのコンテンツを処理し、該少なくとも一つの物理的ドキュメントへのユーザ・インタラクションを検出する。プロジェクタ処理手段が、前記少なくとも一つの物理的ドキュメントへの視覚可能なフィードバックを提供する。表示手段を備えた計算処理装置は、前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションと該計算処理装置上の作業とを連動する。前記カメラ処理手段は前記少なくとも一つの物理的ドキュメントの細かい粒度のコンテンツを処理してもよい。前記細かい粒度のコンテンツは、個別の単語、文字、図形を含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物理的ドキュメント(physical documents 紙などの表示媒体上にユーザの視覚によるコンテンツの閲覧が物理的に既に可能となっている状態で提示されているドキュメント。ドキュメントの電子ファイルのようにデータの表示処理なしにはコンテンツの閲覧が不可能な状態のドキュメントと対比されるもの。)とコンピュータ(計算処理装置)とをインタラクトさせる(interact)情報処理システム、方法およびプログラムに関する。詳細には、ペーパとコンピュータとのハイブリッド・ベース・インタフェースで、物理的ドキュメントのユーザ・インタラクション(user interaction)とコンピュータ上の関連コンテンツのユーザ・インタラクションとを関連付けることに関する。
【背景技術】
【0002】
ペーパおよびコンピュータは、ドキュメント処理のためにもっともよく使用される2つの主要な媒体である。ペーパは読むこと、および、注釈を書き込むことに適しており、軽量であるため運搬が容易であり、スペースに合わせて大きさを柔軟に変更することができ、様々な環境での使用において頑健性を有し、社会的環境に受け入れられやすい。コンピュータは、マルチメディア・プレゼンテーション、ドキュメント編集、アーカイビング、共有、検索において便利である。これらのユニークなまたは相補的な効果によって、ペーパとコンピュータとは多くの場面において共に使用されている。ペーパをコンピュータと完全に置き替えることは技術的に困難であり、費用効率に懸念があるため、予測可能な将来において、この状態は継続しそうである。
【0003】
一般的なワークステーションの環境では、ユーザはペーパとコンピュータとを同時に使用することを所望するかもしれない。特に、図1に示すように、台の上にペーパ・ドキュメント112とコンピュータ106とが隣り合わせに置かれている場合には、ユーザは、ペーパ・ドキュメント112とコンピュータ106とを同時に使用することを所望するだろう。たとえば、物理的な紙片の記事を読み、コンピュータで要約を作成する(書く)ために、図1のような環境がよく使用される。読み書きのアクティビティとともに、特定の内容についての追加情報をインターネットで検索したり、文章を引用したり、記事の図をコピーしたり、電子メールやインスタント・メッセージ([IM」)によって記事の興味深い部分を友人と共有したりすることが必要となることがユーザにはよくある。
【0004】
しかしながら、ペーパとコンピュータとを同時に使用する場合、この2つの媒体の間で移動やインタラクションを容易に行う技術は存在しない。ペーパのコンテンツは、遠隔共有、ハイパーリンク、コピー・アンド・ペースト、インターネット検索、キーワード検出などのコンピュータ・ベース・デジタル・ツールとは絶縁されている。ペーパとコンピュータとの間のこのようなギャップは、ペーパをコンピュータと組み合わせて使用する場合に効率を低下し、ユーザ・エクスペリエンスを劣化する。たとえば、ビジネス・パーソンにとって、払い戻しのためにペーパ・レシートを手で書き写すことは退屈な作業であるし、経理担当者にとっても、払い戻しのための書類とオリジナルのレシートとを照合のために比較することは退屈な作業である。その他の例では、ユーザが、ある未知の外国語をどのようにコンピュータに入力するのか知らない場合、書籍の中の当該未知の外国語の単語をインターネットで検索することは困難が伴う。同様に、ペーパ・ドキュメントからコンピュータのデジタル・ドキュメントに写真をコピーすることも容易ではない。
【0005】
ペーパとコンピュータとの境界に対処するために努力がなされてきたが、いまだ、これらの間のギャップは埋められていない。第一に、たとえば、非特許文献1および非特許文献2などの現在のシステムのほとんどは頁全体もしくはドキュメント全体とのインタラクションに焦点を当てており、ドキュメント内の細かい粒度(ページ全体よりも精細で、たとえば、個別の単語、記号、任意の領域、などの小さい範囲)の操作をサポートしていない。第2に、これらのシステム(たとえば、ページ・レベル・ハイパーリンク(非特許文献1および非特許文献2)、空間配置的追跡(非特許文献3)、テキスト転写(非特許文献4および非特許文献5)など)は、ペーパへのデジタル機能を限定的にしかサポートしておらず、上記問題に対処するには十分ではない。第3に、ハードウェア構成が柔軟性を有さず、さらに、特別にマークが付されたペーパのために何かを必要とすることによって(たとえば、非特許文献6)、これらは既存のワーク・フローに干渉するかもしれない。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】ウィルソン(Wilson)、「どこでも再生:コンパクト・インタラクティブ・テーブルトップ・プロジェクション・ビジョン・システム(PlayAnywhere: a compact interactive tabletop projection-vision system)、UIST抄録(Proceedings of UIST)、2005年、頁83〜92
【非特許文献2】ケーン(Kane)ら、「焚き火:ハイブリッド・ラップトップ・テーブルトップ・インタラクションのためのノーマディック・システム(Bonfire: a nomadic system for hybrid laptop-tabletop interaction)、UIST抄録(Proceedings of UIST)、2009年、頁129〜138
【非特許文献3】キム(Kim)ら、「ビデオ・ベース・ドキュメント追跡:物理的デスクトップと電子的デスクトップとの統一(Video-based document tracking: unifying your physical and electronic desktops)」、UIST抄録(Proceedings of UIST)、2004年、頁99〜107
【非特許文献4】ニューマン(Newman)ら、「カムワークス:ペーパ・ソース・ドキュメントから効率的にキャプチャするためのビデオ・ベース・ツール(CamWorks: A Video-based Tool for Efficient Capture from Paper Source Documents)、IEEE マルチメディア・システム抄録(Proceedings of IEEE Multimedia System)、1999年、頁647〜653
【非特許文献5】ウェルナー(Wellner)、「デジタルデスク上のペーパとのインタラクション(Interacting with paper on the DigitalDesk)」、ACM通信(Communications of the ACM)、36(7)、1993年、頁87〜96
【非特許文献6】ソング(Song)ら、「ペンおよび空間感知モバイル・プロジェクタを用いたデジタル・ペーパのバイマニュアル・インタラクション(Bimanual Interactions on Digital Paper Using a Pen and a Spatially-aware Mobile Projector)、CHI抄録(Proceedings of CHI)、2010年
【非特許文献7】バーンズ(Barnes)ら、「ビデオ・パペット:切り絵アニメのための遂行的インタフェース(Video Puppetry: A Performative Interface for Cutout Animation)」、グラフィックに関するACMトランザクション(ACM Transaction on Graphics)、Vol.27、No.5、2008年
【非特許文献8】リウ(Liu)ら、「FITによる高精度・言語非依存ドキュメント検索(High Accuracy And Language Independent Document Retrieval With A Fast Invariant Transform)」、ICME抄録(Proceedings of ICME)、2009年
【非特許文献9】ヘア(Hare)ら、「マップスナッパー:モバイル・フォンのマップ画像をマッチングするための効率的なアルゴリズム処理(MapSnapper: Engineering an Efficient Algorithm for Matching Images of Maps from Mobile Phones)」、マルチメディア・コンテンツ・アクセス抄録(Proceedings of Multimedia Content Access)、アルゴリズムおよびシステムII(Algorithms and Systems II)、2008年
【非特許文献10】バートン(Burton)ら、「遠近法で考える:思考過程の研究についての批評的エッセイ(Thinking in Perspective: Critical Essays in the Study of Thought Processes)、ルートレッジ(Routledge)、1978年
【非特許文献11】リウ(Liu)ら、「埋め込みメディア・マーカ:関連メディアを示すペーパ上のマーク(Embedded Media Markers: Marks on Paper that Signify Associated Media)」、IUI抄録(Proceedings of IUI)、2010年、頁149〜158
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記したように、コンピュータ上のアクティビティとペーパ・ドキュメントを関連付ける現在のシステムは多くの制限を有している。したがって、物理的ドキュメントとコンピュータとで関連付けられた作業を従来に比べて高い自由度で実現するための改善が必要とされている。
【課題を解決するための手段】
【0008】
本発明の第1の態様は、情報処理システムであって、少なくとも一つの物理的ドキュメントを撮影して得られる画像に基づいて、前記画像中の前記物理的ドキュメントに含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をするとともに、前記画像特徴点の位置に基づいて特定される、該少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出するカメラ処理手段と、前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影することで提供するプロジェクタ処理手段と、を備える。
【0009】
本発明の第2の態様は、第1の態様の情報処理システムであって、前記カメラ処理手段は前記少なくとも一つの物理的ドキュメントの細かい粒度のコンテンツを処理し、前記細かい粒度のコンテンツは、個別の単語、文字、図形を含み、前記カメラ処理手段は前記細かい粒度のコンテンツに関連するユーザ・インタラクションを検出する。
【0010】
本発明の第3の態様は、第1の態様の情報処理システムであって、前記プロジェクタ処理手段によって提供される視覚可能なフィードバックは前記物理的ドキュメントへのユーザ・インタラクションにもとづく。
【0011】
本発明の第4の態様は、第1の態様の情報処理システムであって、前記ユーザ・インタラクションは前記少なくとも一つの物理的ドキュメントに対して行われるジェスチャを含み、前記ジェスチャは前記計算処理装置上の作業に対応する。
【0012】
本発明の第5の態様は、第4の態様の情報処理システムであって、前記ジェスチャは所定のタイプの視覚可能なフィードバックをもたらす所定の命令に対応する。
【0013】
本発明の第6の態様は、第1の態様の情報処理システムであって、前記計算処理装置へのユーザ・インタラクションを、前記プロジェクタ処理手段によって前記少なくとも一つの物理的ドキュメントへ提供される視覚可能なフィードバックに変換する。
【0014】
本発明の第7の態様は、第1の態様の情報処理システムであって、前記プロジェクタ処理手段は前記物理的ドキュメント以外の物理的面に視覚可能なフィードバックを提供する。
【0015】
本発明の第8の態様は、第1の態様の情報処理システムであって、折り畳み可能なフレームに統合されており、運搬可能であるカメラおよびプロジェクタと、少なくとも一つのミラーと、をさらに備え、前記少なくとも一つのミラーは、前記フレームに取り付けられており、前記カメラおよびプロジェクタの光路を前記少なくとも一つの物理的ドキュメントへ反射するように、該少なくとも一つの物理的ドキュメントの上に配置されている。
【0016】
本発明の第9の態様は、第1の態様の情報処理システムであって、前記カメラ処理手段は前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、前記表示手段に表示するために該コンテンツに対応するデジタル・ドキュメントを取得する。
【0017】
本発明の第10の態様は、第9の態様の情報処理システムであって、前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションは前記対応するデジタル・ドキュメントへの対応インタラクションをもたらす。
【0018】
本発明の第11の態様は、第1の態様の情報処理システムであって、前記カメラ処理手段は、前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、該少なくとも一つの物理的ドキュメントに関連するデジタル・コンテンツを取得する。
【0019】
本発明の第12の態様は情報処理方法であって、撮影された少なくとも一つの物理的ドキュメントの画像中に含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をし、前記画像に基づいて、前記画像特徴点の位置に基づいて特定される、前記少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出し、前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影し、表示手段を有する計算処理装置へのインタラクションと前記少なくとも一つの物理的ドキュメントへの前記ユーザ・インタラクションとを連動させる。
【0020】
本発明の第13の態様は、第12の態様の情報処理方法であって、細かい粒度のコンテンツを識別するために前記少なくとも一つの物理的ドキュメントを処理し、前記細かい粒度のコンテンツに関連するユーザ・インタラクションを検出する、ことをさらに含み、前記細かい粒度のコンテンツは個別の単語、文字、図形を含む。
【0021】
本発明の第14の態様は、第12の態様の情報処理方法であって、前記視覚可能なフィードバックは前記物理的ドキュメントへのユーザ・インタラクションにもとづく。
【0022】
本発明の第15の態様は、第12の態様の情報処理方法であって、前記ユーザ・インタラクションは前記少なくとも一つの物理的ドキュメントに対して行われるジェスチャを含み、前記ジェスチャは前記計算処理装置上の作業に対応する。
【0023】
本発明の第16の態様は、第15の態様の情報処理方法であって、前記ジェスチャは所定のタイプの視覚可能なフィードバックをもたらす所定の命令に対応する。
【0024】
本発明の第17の態様は、第12の態様の情報処理方法であって、前記物理的ドキュメント以外の物理的面に視覚可能なフィードバックを提供する。
【0025】
本発明の第18の態様は、第12の態様の情報処理方法であって、前記計算処理装置へのユーザ・インタラクションを前記少なくとも一つの物理的ドキュメントへの視覚可能なフィードバックに変換する。
【0026】
本発明の第19の態様は、第18の態様の情報処理方法であって、前記少なくとも一つの物理的ドキュメントの詳細なコンテンツを操作するために、前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションを、該少なくとも一つの物理的ドキュメントへのユーザ・インタラクションと同時の前記計算処理装置へのユーザ・インタラクションに変換する。
【0027】
本発明の第20の態様は、第12の態様の情報処理方法であって、前記物理的ドキュメントの詳細なコンテンツは、前記少なくとも一つの物理的ドキュメントとインタラクトするために第一の手を用いたユーザ・インタラクションによって操作され、前記計算処理装置とインタラクトするために第二の手を用いたユーザ・インタラクションによって操作される。
【0028】
本発明の第21の態様は、第12の態様の情報処理方法であって、デジタル・ドキュメントの詳細なコンテンツは、前記物理的ドキュメントとインタラクトするために第一の手を用いたユーザ・インタラクションによって操作され、計算処理装置とインタラクトするために第2の手を用いたユーザ・インタラクションによって操作される。
【0029】
本発明の第22の態様は、第12の態様の情報処理方法であって、前記少なくとも一つの物理的ドキュメントとインタラクトするために、第一の手を用い、前記計算処理装置上のデジタル・ドキュメントとインタラクトするために、第二の手を用いて、該物理的ドキュメントの詳細なコンテンツと該デジタル・ドキュメントとを同時に操作する。
【0030】
本発明の第23の態様は、第12の態様の情報処理方法であって、前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、前記表示手段に表示するために前記コンテンツに対応するデジタル・ドキュメントを取得する。
【0031】
本発明の第24の態様は、第23の態様の情報処理方法であって、前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションは前記対応するデジタル・ドキュメントへの対応インタラクションをもたらす。
【0032】
本発明の第25の態様は、第12の態様の情報処理方法であって、前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、前記少なくとも一つの物理的ドキュメントに関連するデジタル・コンテンツを取得する。
【0033】
本発明の第26の態様はプログラムであって、コンピュータを、撮影された少なくとも一つの物理的ドキュメントの画像中に含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をし、前記画像に基づいて、前記画像特徴点の位置に基づいて特定される、前記少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出し、前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影し、表示手段を有する計算処理装置へのインタラクションと前記少なくとも一つの物理的ドキュメントへの前記ユーザ・インタラクションとを連動させるように機能させる。
【0034】
以上および以下の記載は、説明および例示だけを目的としており、本発明もしくは本発明の応用を制限することを意図するものではない。
【発明の効果】
【0035】
本発明のシステム、方法およびプログラムによれば、物理的ドキュメントとコンピュータとを連動させた処理を、従来と比較してより精細に実現することができる。
【図面の簡単な説明】
【0036】
【図1】画面を有するラップトップ・コンピュータとペーパ・ドキュメントを含むノートとを含む従来のワークステーション環境を例示する。
【図2】本発明の実施形態における、カメラ、プロジェクタ、画面を備えたコンピュータを用いた物理的ドキュメントとデジタル・ドキュメントとをインタラクトさせるシステムを例示する。
【図3】本発明の実施形態において、ユーザがペーパ・マップとコンピュータとに同時にインタラクトすることができるワークスペースを例示する。コンピュータは、マップ上のユーザの指で選択されたある位置に関連付けられた画像を表示する。
【図4】本発明の実施形態において、少なくとも一つの物理的ドキュメントとコンピュータとをインタラクトさせる方法を例示する。
【図5】本発明の実施形態における、折り畳み可能なフレームに接続されている少なくとも一つのミラーを含む運搬可能なカメラ・プロジェクタ・ユニットを例示する。
【図6】従来のデジタル・ドキュメントとプリントアウト・ドキュメントのマッピングを例示する。
【図7】本発明の実施形態において、カメラ基準フレームと認識されたドキュメント基準フレームとのホモグラフィック変換を決定する方法を例示する。
【図8】本発明の実施形態において、物理的ドキュメントとインタラクトする方法のデータ・フローを例示する。
【図9】本発明の実施形態において、単語、記号およびその他のドキュメント・コンテンツを選択するために、ユーザがペーパ上で行うことができるジェスチャを例示する。
【図10】選択されたコンテンツの外郭を強調するプロジェクタからのフィードバックを例示する。
【図11】本発明の実施形態において、物理的ドキュメントにメニューを投影する際に適応的に配置する方法を例示する。
【図12】本発明の実施形態において、コンピュータ上で物理的ドキュメントを制御するデジタル・プロキシ方法を例示する。
【図13】本発明の実施形態における、第一の手による物理的ドキュメントの操作と、第二の手によるコンピュータの操作と、の両手による操作の連動を例示する。
【図14】本発明の実施形態における、物理的ドキュメントとの両手によるインタラクションを例示する。第二の手によって制御されるコンピュータ入力デバイスは第一の手による制御ドキュメントの操作に貢献する。
【図15】本発明の実施形態における、コンピュータ画面との両手によるインタラクションを例示する。物理的ドキュメント上の第一の手の動きは第二の手によるコンピュータ画面の操作に貢献する。
【図16】本発明の実施形態における、ペーパ・レシートの情報を処理するための本発明のシステムの適用を例示する。
【図17】本発明の実施形態における本発明のシステムのキーワード検出アプリケーションを例示する。
【図18】本発明の実施形態における本発明のシステムのマップ・ナビゲーション・アプリケーションを例示する。
【図19】本発明の実施形態において本発明のシステムが実装されるコンピュータ・システムのブロック図を例示する。
【発明を実施するための形態】
【0037】
以下の詳細な記載において、図面を参照する。図面は例を示すためのものであり、本発明を制限するものではない。特定の実施形態および実装は本発明の原理と一貫性を有する。以下の実施形態は当業者が本発明を実施することができる程度に十分詳細に記載されている。また、以下の実施形態以外の実施形態も利用可能であり、本発明の範囲および思想から逸脱することなく、構成の変更、および/もしくは、様々な構成要素の置き替えが可能である。したがって、以下の詳細な記載は、限定的に解釈されるべきではない。さらに、本発明の様々な実施形態は汎用目的コンピュータで稼働するソフトウェアの形態で実装されてもよいし、特定目的ハードウェアの形態で実装されてもよいし、ソフトウェアおよびハードウェアの組み合わせによって実装されてもよい。
【0038】
以下に記載される本発明の実施形態は、物理的ドキュメントとコンピュータとのインタラクションを提供する。詳細には、物理的ドキュメントとコンピュータとの間のユーザ・インタラクションを改善するために、コンピュータ上のオペレーションと統合される物理的ドキュメントの細かい粒度のコンテンツとの詳細なインタラクションが提供される。本発明の実施形態は、ハイブリッド・カメラ・プロジェクタ・インタフェースを使用して物理的ドキュメントとデジタル・コンテンツとの両手による(two-handed)細かい粒度のインタラクションもサポートする。
【0039】
実施形態のいくつかにおいて、図2に例示するシステム100は、カメラ102、プロジェクタ104および画面108を有するコンピュータ(計算処理装置)106を含む。カメラ102およびプロジェクタ104は物理的ドキュメント・ワークスペース110の上に配置されている。物理的ドキュメント・ワークスペースには少なくとも一つの物理的ドキュメント112(たとえば、紙片など)が配置されている。このようなフレームワークにおいて、カメラ102は物理的ドキュメント112、ユーザの指のジェスチャ、および/もしくは、ペン・ジェスチャを撮影し、コンピュータ106のカメラ処理手段が撮影画像を解析処理することで、コンテンツやジェスチャを認識することができる。次に、該ジェスチャにもとづいて、特定のオペレーションが実行される。プロジェクタ104はジェスチャもしくはコンピュータ106からの入力にもとづいて物理的ドキュメント112に、直接、視覚可能なフィードバックを提供する。コンピュータ106はプロセッサおよびメモリを備え、物理的ドキュメントに対応するデジタル・ドキュメント、ウェブ・ページ、アプリケーションなどを画面108に表示する。コンピュータ106のプロジェクタ処理手段では、カメラ102によって受信された視覚可能な入力をプロジェクタ104の適当なフィードバックに変換するように、もしくは、コンピュータ106自身への入力に変換するように、支援してもよい。カメラ102およびプロジェクタ104もプロセッサおよびメモリを備えカメラもしくはプロジェクタ処理手段として動作してもよく、カメラ102およびプロジェクタ104が個々にカメラ102によって受信される入力を処理し、該入力をプロジェクタ104の視覚可能なフィードバックに変換してもよい。
【0040】
図5に示すように、カメラおよびプロジェクタは、単一のポータブルなカメラ・プロジェクタ・ユニットに統合されてもよい。これにより、ハードウェア・システムの運搬が容易になり、柔軟性が増す。ラップトップ、タブレットなどのポータブル・コンピュータ・デバイスもしくは携帯電話に一体的に組み合わせた場合には、システム全体がポータブルとなり得る。物理的ドキュメントは、既存のワークフローと完全に共存可能な、テキスト、図形を含む一般的なプリントされたペーパであってよい。
【0041】
システムは、ユーザが、個別の単語、文字、記号、アイコン、ユーザによって特定された任意の領域を含む物理的なドキュメントの細部とインタラクトすることができるように細かい粒度のインタラクションを提供する。システムは、さらに、ペーパに対する多くのコンピュータの機能の提供をサポートする。たとえば、テキストや図形コンテンツをペーパ・ドキュメントからコンピュータにコピー・アンド・ペーストするため、コンピュータのウェブ・ページに物理的ドキュメントの単語をリンクするため、物理的ドキュメントの特定のキーワードをコンピュータで検索するため、ペーパ・マップの特定の場所を指示することによってコンピュータの視覚可能なストリート・レベル・マップで道案内をするため、に、ユーザはペン・ジェスチャもしくは指のジェスチャをペーパ・ドキュメントに適用することができる。これらのすべての実施形態の詳細を以下に記載する。
【0042】
物理的ドキュメントとの細かい粒度のインタラクションにもとづいて、システムは物理的ドキュメントおよびコンピュータの両手によるクロス・メディア・インタラクションをサポートすることができる。該システムは、ペーパおよびコンピュータの情報を相補的に結合する。たとえば、物理的ドキュメントとの指もしくはペンを用いたカメラ・ベース・ユーザ・インタラクションは比較的粗く、比較的信頼できない。このインタラクションを忠実性が高くロバストなコンピュータ上でのキーボードもしくはマウス入力によって拡張することができる。その他の実施形態では、コンピュータ上でのマルチ・ポインタ・オペレーションのために、物理的ドキュメントへの指もしくはペンによる入力をコンピュータへのマウスもしくはキーボードによる入力と結合することができる。このようなハイブリッド・クロス・メディア・インタラクションによって、システムは、ペーパとコンピュータの境界を埋めることができる。
【0043】
システムのフレームワークについてさらに記載し、次に、システムの構成要素についてさらに詳細に記載する。様々なアプリケーションの例示およびフレームワークによって可能となるインタラクションについてもさらに詳細に記載する。
【0044】
I.システム概観
図3に示されるように、システムは物理的ドキュメント・ワークスペース110とデジタル・ドキュメント・ワークスペース114との間のブリッジとして働く。実施形態のいくつかにおいて、フレームワークは3つの主要な構成要素を含む。3つの構成要素とはカメラ102、プロジェクタ104、およびペーパ・コンピュータ連動プロセッサ116である。実施形態のいくつかにおいて、カメラ102はカメラ・デバイスによって取得される画像を処理する対応ソフトウェア・モジュールを含む。同様に、実施形態のいくつかにおいて、プロジェクタ104は処理を実行する対応ソフトウェア・モジュールを含む。カメラ102は物理的ドキュメント112(たとえば、図3のプリントされたマップ)を認識し、追跡し、ユーザの指先もしくはペン先の位置および移動の軌跡を追跡する。カメラ102からの入力にもとづいて、プロジェクタ104は物理的ドキュメント112への投影画像を生成する。該投影画像は、ユーザへ視覚可能なフィードバックを直接的に提供するために、物理的ドキュメントのコンテンツと正確に揃えられる。カメラ102は、認識された物理的ドキュメントのコンピュータ上にあるデジタル・バージョン(デジタル・ドキュメント)118を検出するプロセッサおよびメモリを備えていてもよい。カメラ102は、デジタル・ドキュメント・ワークスペース114に示されるドキュメントのデジタル・バージョンへの対応ポインタ操作として指先/ペン先によるオペレーションを解釈してもよい。
【0045】
必要であれば、ペーパ・コンピュータ連動プロセッサ116は、デジタル・バージョン118もしくはコンピュータ106のその他のコンテンツを操作するために、デジタル・ドキュメント・ワークスペース114と物理的ドキュメント・ワークスペース110とのアクションを連動させる。図3において、ペーパ・コンピュータ連動プロセッサ116は物理的ドキュメント・ワークスペース110におけるペーパ・マップ112でユーザによって選択された位置の道路に沿って予め多方向に向けて撮影記録した風景写真120を表示するために、コンピュータ106との連動を行う。
【0046】
物理的ドキュメントとコンピュータとのインタラクションを行う方法を図4に例示する。第1のステップS101において、カメラを用いて、システムは少なくとも一つの物理的ドキュメントを処理する。第2のステップS102において、物理的ドキュメントとのユーザ・インタラクション(たとえば、指先もしくはペン先による選択もしくはジェスチャなど)を検出する。ステップS103において、プロジェクタはユーザ・インタラクションに対応する物理的ドキュメントに視覚可能なフィードバックを投影してもよい。その他のステップS104において、たとえば、対応デジタル・ドキュメントを操作することによって、もしくは、物理的ドキュメントに関するその他のアプリケーションを制御することによって、コンピュータもしくはその他のプロセッサは、コンピュータとのユーザ・インタラクションとを連動させる。
【0047】
本発明の実施例に係るシステムは、包括的なドキュメント認識、細かい粒度のドキュメント・コンテンツ検出、正確な投影補正、両手によるハイブリッド・ペーパ・コンピュータ入力など、のユニークな処理を可能にする。これらのすべてについて、以下により詳細に記載する。
II.ポータブル・ユーザ・インタフェース・ハードウェア
【0048】
実施形態のいくつかにおいて、カメラおよびプロジェクタは、図5に示されるように、カメラ・プロジェクタ・ユニット122として統合されていてもよい。本実施形態では、たとえば、USBケーブルによってコンピュータ106と接続されるスタンドアローン・ユニットとして記載されているが、カメラおよびプロジェクタはコンピュータ106に部分として埋め込まれていてもよい。スタンドアローンの形態であることは構成要素、物理的ワークスペース、デジタル・ワークスペースの空間的配置により柔軟性を付与する。図2の実施形態はフレームワークの単なる例示に過ぎず、本発明はこれに限定されるものではない。図5に示すように、カメラ・プロジェクタ・ユニット122はフレームワークおよびワークスペース全体にわたる底面に水平に配置されていてもよい。カメラ・プロジェクタ・ユニット122の光路124は、コンパクトな形態で物理的デスクトップ・ワークスペース110の比較的大きなエリアをカバーするように、2つのミラー126によって(図示しない)折畳み可能なフレーム上に拡張される。この特徴はモバイル環境にあるユーザにとって重要である。実施形態のいくつかにおいて、物理的ドキュメント・ワークスペース110の表面への指先またはペン先130の接触を検出するために、タッチ検出手段128をカメラ・プロジェクタ・ユニット122の底面に配置してもよい。本発明のシステムの一つでは、無害な拡散レーザ光132のたいへん薄いシートがテーブル上に広げられる。これにより、物理的ドキュメント・ワークスペース110の表面をタッチする指130は、カメラによって取得されるビデオ・フレームにおいて赤色ドット134として示される。
【0049】
III.カメラ処理手段
カメラ処理手段は、コンテンツを含む物理的ドキュメントを認識し、プロジェクタの視覚可能な出力を調整するために、ドキュメントの動きを追跡する。カメラ処理手段は、以下でより詳細に記載する指先およびペン先の検出、追跡、座標系変換も実行する。既存のプラクティスと共存することができるように、コンテンツ・ベース・ドキュメント認識アルゴリズムがカメラの視野におけるペーパ・ドキュメントを認識するために選択される。実施形態のいくつかにおいて、物理的ドキュメントと区別可能であるような、何も付けていない指先またはペン先を検出し、追跡するために、カラー・ベース・アルゴリズムが使用される。この解析にもとづいて、指もしくはペンの物理的ドキュメントとのインタラクションが、ドキュメントのコンピュータ画面に表示されている対応デジタル・バージョンへのマウス・ポインティング・オペレーションに変換(マッピング)されてもよい。リアル・タイム処理を実行するために、比較的遅いが比較的正確な認識アルゴリズムと、比較的早いが比較的不正確なフレーム間追跡アルゴリズムと、を組み合わせてもよい。比較的正確な認識は、ユーザのリクエストに応じて、もしくは、固定時間間隔(たとえば、1〜2秒間隔)で自動的に、実行される。この結果にもとづいて、カメラによって取得されたビデオ・フレームにおけるペーパ・ドキュメントの正確な位置を、2つの連続的なフレームの追跡結果によって推定する。認識セッションの各々が、累積エラーを低減するために追跡手段をリセットする。追跡アルゴリズムはカメラ画像のオプティカル・フローもしくはコーナー特徴にもとづいていてもよい。実施形態のいくつかにおいて、使用されるアルゴリズムは非特許文献7に開示されているものであってもよいが、その他のアルゴリズムをドキュメントの位置および動きを追跡するために使用してもよい。
【0050】
「物理的ドキュメント認識」
本発明のシステムの実施形態は、バーコードや特別なデジタル・ペーパを使用することを必要とせずに、通常の一般的なプリントされたドキュメントをそのまま識別するコンテンツ・ベース・ドキュメント画像認識アプローチを利用する。したがって、本発明のシステムは、既存のドキュメント処理プラクティスと完全に共存可能であり、新聞、レシート、一般的なプリントアウトなどの任意のタイプのドキュメントに使用可能となるので、広い範囲に適用可能である。ドキュメント画像を認識するために使用することができるアルゴリズムはいくつかあるが、この実施形態では、FIT(Fast Invariant Transform)処理を選択する(非特許文献8)。FITは汎用的な画像特徴記述子の一つであり、したがって、適用することができるドキュメント・タイプの範囲が広く(たとえば、テキスト、図形、写真など)、言語に依存しない。FITは検索時間および特徴記憶の点からも効率的である。部分的なオクルージョン、輝度変化、拡大縮小、回転、遠近歪みにロバストであるように、画像特徴点における局所特徴を、FITでは利用する。
【0051】
本発明のシステムの実施形態の一つにおいて、ユーザがドキュメントをプリントする場合、特別な機器を搭載したプリンタ・ドライバがドキュメントデータを取得し、該ドキュメントデータをサーバに送信する。サーバはドキュメント中の各ページの画像特徴点を識別し、各点における40次元のFIT特徴ベクトルを計算する。ベクトルは、ANN(Approximate Nearest Neighbor:最近傍)対応探索のツリー構造にクラスタリングされる。ドキュメントの各ページのテキスト、図、ホットスポット(hot spots)などのその他のメタデータを抽出し、サーバでインデックスを付与する。同様な特徴計算を続くクエリ画像に適用し、結果として取り出された特徴をツリー構造と比較する。クエリ画像の特徴点がインデックスの特徴点と(いくつかの数値的な類似度測定によって)類似するならば、2つの点は適合し、それらは「対応する」ものと見なされる。(ある閾値より高く)もっとも適合するページは、画像のオリジナル・デジタル・ページとして使用される。
【0052】
「ペン先および指先の検出」
実施形態のいくつかにおいて、カラー・ベース(色基準)の方法は、一般的には物理的ドキュメント自身である背景と対照的な指もしくはペンの色にもとづいて指先もしくはペン先を追跡する。カラー・ベースの方法は、指先もしくはペン先の色が背景と区別可能であることを前提とする。指先を検出するために、固定カラー・モデルを肌色検出のため使用し、ペン先を検出するために、色相ヒストグラム逆射影(back-projection)のために予め取得したペン先画像を使用する。しかしながら、本発明は上記に限定されるものではなく、その他の方法を使用してもよい。
【0053】
検出点Ptの位置におけるノイズを低減するために、ポスト・フィルタがPt値に適用される。Ptは、指先もしくはペン先の動きが閾値を越える場合のみ更新される。さらに、指もしくはペンによるオクルージョンを避けるために、検出される指先もしくはペン先の上に固定の距離を離隔して投影されるカーソルを設定するようにしてもよい。ペン先および指先の処理は同様なので、以下に記載するペン関連技術は特に注釈が付されない限り、指先によるインタラクションにも適用可能である。
【0054】
「タッチ検出」
本発明のシステムにおいて、ペンおよび指によるタッチを検出する多くの既知の手段がある。既知の手段は、指の影を用いて指から表面までの距離のおおよその値を求めることや、前述の形態で示したように、台に近いオブジェクトを容易に検出するために台上に薄いシート状のレーザ光を拡散させること、を含む。
【0055】
「細かい粒度でのデジタル・インタラクションと物理的インタラクションとのマッピング」
細かい粒度で、カメラによって取得されたペン・ペーパ・インタラクション(たとえば、ペーパ・ドキュメント上の単語をペンで指し示す)を解釈するために、少なくとも一つのカメラ画像から少なくとも一つの同一のデジタル・ドキュメント・ページへの正確な座標変換を決定すべきである。これにより、プリント・スタイルやペーパ・シートの空間的配置の変更に対応することが可能となる。既存のシステムは紙片の境界を検出し、囲まれている四角形を矩形のデジタル画像へマッピングする。この方法は粗い粒度のインタラクション(たとえば、ビデオを何も記載されていない一枚の用紙上に投影する)には十分よい。しかしながら、この方法は、粒度が、単語レベルでのインタラクションや記号レベルでのインタラクションに十分な程正確ではない。なぜならば、図6に示すように、プリントアウトの周囲のマージンは、プリントされたコンテンツ112と対応するデジタル・ドキュメント・ページ118との間のマッピングを不正確にするからである。マージンはプリンタ毎に異なるかもしれない。(紙片の一方の面に複数のデジタル・ページをプリントする)Nアップ・プリントおよびページの重なりは、この状況を悪化させるが、Nアップ・プリントやページの重なりはかなり一般的に発生する。
【0056】
既存システムの限界に対処するために、図7に示すように、カメラ基準フレーム136と認識されたデジタル・ドキュメント基準フレーム138との間のホモグラフィック変換Hrを導き出すために、カメラ画像の特徴点と認識されたデジタル・ドキュメント・ページの特徴点との間の対応を利用する。変換行列は、カメラ基準フレーム(カメラ・ビデオ・フレーム)136と認識されたデジタル・ドキュメント基準フレーム(デジタル・ドキュメント画像)138との間の一対一特徴点対応から導き出される。認識対象となるドキュメント画像はコンピュータのデータベースに記憶されてもよい。実施形態のいくつかにおいて、少なくとも4対の特徴点ペアが必要とされる。N(N>4)対のペアについて、最適な変換行列を検出するために、最小二乗法を用いることができる。マッピングの精度を向上させるために、外れ値(outliers)を除去するように、RANSAC(RANdom SAmple Consensus)に類似したアルゴリズムを適用する(たとえば、非特許文献9)。Hrによって、カメラ・ビデオ・フレーム136において検出された指先もしくはペン先は、認識されたデジタル・ドキュメント画像138の座標系のポイント140に容易にマッピングされる。このマッピングにもとづいて、ペーパ・ドキュメント上の指/ペン・インタラクション142はコンピュータのデジタル・オペレーションに変換される。
【0057】
実施形態のいくつかにおいて、一般的に、物理的ドキュメント・ワークスペース上の任意のポイントとのインタラクションをサポートするために、任意のポイントはペーパ・ドキュメント内にある必要はない。アンカー・パッド144をテーブル基準フレームを決定するために使用する。アンカー・パッド144はサイズが既知である、たとえば、矩形の濃色のペーパ・シートであってよく、その4つのコーナーはテーブル基準フレームの固定座標の4つのポイント(たとえば、(1,1)、(1,2)、(2,1)、(2,2))を決定する。較正を行う間に、カメラはその視野におけるアンカー・パッドの4つのコーナーを検出し、図7に示すように、台(もしくは物理的ドキュメント・ワークスペース110)とカメラ基準フレーム136との間のホモグラフィック変換Hcを導き出す。台の表面(物理的ドキュメント・ワークスペース)110はつねに平面であり、台に対するカメラの姿勢は固定されているものと仮定する。したがって、Hcは一定であり、一度だけ較正すればよい。
【0058】
「セミ・リアル・タイム処理」
ペーパ上のリアル・タイム・インタラクションは、15フレーム毎秒(fps)より早い画像処理速度を必要とするかもしれない。しかしながら、一実施形態のシステムは、計算処理がたいへん複雑であるため、その画像処理速度は現在おおよそ1fpsである。一方、オプティカル・フローなどのドキュメント追跡技術はリアル・タイムでページの相対的移動を推定することができるが、累積的な誤差が生じるかもしれない。オプティカル・フローとは、(オブザーバ(目もしくはカメラ)とシーンとの間の相対的な動きによって生じる)視覚可能なシーンにおけるオブジェクト、面およびエッジの明確な動きのパターンである(非特許文献10参照)。ドキュメント認識およびドキュメント追跡はハイブリッド・ドキュメント追跡のために組み合わされてもよい。実施形態のいくつかにおいて、本発明のシステムは一定期間ごとにビデオ・フレームを認識し、Hrを導き出す。その結果にもとづいて、以降のビデオ・フレームのHrが2つの連続するフレーム間のオプティカル・フローによって推定される。累積誤差を低減するために、認識セッション毎にオプティカル・フロー検出をリセットする。
【0059】
IV.プロジェクタ・プロセッサ
プロジェクタ104は、物理的ドキュメント112および物理的ドキュメント・ワークスペース110に、直接、視覚可能な動的フィードバックを行うことができる。2つの投影タイプ、すなわち、局所投影と大域投影とがある。
【0060】
「局所投影」
図7に示すように、局所投影によれば、投影される画像146はつねにペーパ・ドキュメント112のプリントアウト基準フレームに揃えられる。しかしながら、ペーパ・ドキュメントはユーザ・インタラクションの間に動かされるかもしれない。局所投影は、通常、特定のペーパ・ドキュメント・コンテンツのトップに情報を重ね、ペーパとともに移動しなければならない。一例として、投影された境界ボックス146は、図7に示すように、ペーパ・ドキュメント112の単語「FACT」を強調する。
【0061】
局所投影は、通常、(対応するデジタル・ドキュメント基準フレームのポインタ・オペレーションにまずマッピングされる)ペン・ペーパ・インタラクションの結果として行われる。プロジェクタのフィードバック情報は同様の基準フレームにおいて直接的に決定される。たとえば、図7に示すドキュメント基準フレーム110の位置(5,5)で単語「FACT」を指し示すペン先142を検出すると、基準フレームの位置(5,5)にサイズ10×5の矩形ボックス146をフィードバックとして生成する。ペーパ・ドキュメント112の単語に合わせられた正しい矩形投影を生成するためにプロジェクタ基準フレーム148にこのボックス146を正確にマッピングすることが課題である。
【0062】
ハードウェア環境はマッピングを決定する際に適している。カメラ、プロジェクタ、台表面の相対的な位置は固定されており、台は平面であると仮定する。したがって、カメラ基準フレーム136とプロジェクタ基準フレーム148との間のホモグラフィック変換Hpは固定されている。その結果として、ドキュメントとプロジェクタとのマッピングはHp−1*Hr−1と記述することができる。実施形態のいくつかにおいて、Hpは単純な一度の較正で導き出される。既知のパターンを含む予め記憶されている画像が台表面に投影され、カメラによって取得される。投影された画像と取得された画像との間の(N個の対応ペア:N≧4)特徴対応を検出することによって、Hpの値が取得される。
【0063】
投影変換はコンテンツ・ベース・カメラ・ドキュメント変換を基礎とする。ドキュメント・ページが変わると(複数のドキュメント・ページを一つのビデオ・フレームにおいて認識してもよい)、もしくは、カメラの視野において移動しているドキュメントの位置が変わると、投影変換は変化する。投影変換はプリント・マージン、Nアップ・プリント、部分的オクルージョンに影響されにくい。投影変換がこのように影響を受けにくいことは、下地となるドキュメントの詳細に投影される視覚可能なフィードバック146を正確に合わせる上で重要である。
【0064】
「大域投影」
局所投影と異なり、大域投影は、台基準フレーム110に投影146を合わせる。大域投影はペーパの動きに影響されない。全体ドキュメントの生成時間、関連基準などの特定のドキュメント・ページに関連しない大局的情報のいくつかが、通常、採用される。電子メール報知、インスタント・メッセージ・ダッシュボード、システム・パフォーマンス・モニタなどのアプリケーションのために、コンピュータ表示を拡張するために、周辺表示手段として使用されてもよい。
【0065】
大域投影の主な問題は、プロジェクタの光軸と投影面の法線(もしくは、投影面に垂直な方向)とが位置合わせされていないと、投影された画像に遠近歪みが生じることである。実施形態のいくつかにおいて、投影されている画像146の逆歪み(reverse-distortion)によって、該投影された画像を修正することができる。投影平面110(すなわち、台)からプロジェクタ基準フレーム148への座標変換を決定することが重要である。上記したように、台カメラ変換Hcおよびプロジェクタ・カメラ変換Hpはすでに知られている。したがって、台プロジェクタ・ホモグラフィック変換はHp−1*Hcから導き出すことができる。
【0066】
V.ページ上の細かい粒度のインタラクション
基礎となるカメラ・プロジェクタ入力/出力手段にもとづいて、本発明の実施形態は、ペーパ・ドキュメントの柔軟性および有利性を犠牲にすることなく、コンピュータと同等のユーザ・エクスペリエンスを達成するために、ペーパでの細かい粒度のドキュメント・コンテンツ操作のためのインタラクション技術を提供する。実施形態のいくつかにおいて、物理的ドキュメント・ワークスペースにおける第一の手からのカメラ入力と、デジタル・ドキュメント・ワークスペースを操作するための第二の手からのキーボード入力およびマウス入力と、を混合することによって両手によるクロス・メディア・インタラクションを提供することもできる。両手によるインタラクションは、密に結合されたインタラクティブ・スペースとしてペーパとコンピュータとをさらに統合する。
【0067】
図8は、ペーパ上で細かい粒度のインタラクションを行う方法の実施形態におけるデータ・フローの概観を示す。第1のステップS201において、局所的視覚可能特徴セット{F1,...,Fn}を取得するために画像特徴抽出手段にカメラ画像が提供される。ステップS202において、特徴とドキュメント画像特徴データベースの特徴とをマッチングする。カメラ画像において物理的ドキュメントのオリジナル・デジタル・ページとして、閾値を越える適合特徴{Vi:ページiの適合特徴セット,i=1,...,m}を有するm個のドキュメント・ページ{P1,...Pn}を採用する。特徴点対応にもとづいて、本発明のシステムは、ステップS203において、カメラ画像から適合デジタル・ページJ,J=1,...,mまでのホモグラフィック変換を導き出す。ペン先の位置がステップS204で検出される。ステップS205において、この変換は、注目されている(ペン先が指し示している)特定のドキュメント・ページPfを決定するために、カメラ画像において検出されたペン先の位置Tpと組み合わされる。次に、ペン指示は、デジタル・ページPfにおいて、位置Tf=Hf*Tpにおける等価なマウス指示として解釈される。ステップS206のジェスチャ処理において、ペン・ベース・コンピュータのように、システムはジェスチャ・ストロークとしてポイントのサンプルを累積し、メタデータ・データベースから特定のドキュメント・コンテンツ{T1,...,Tk}を選択する。メタデータ・データベースは、登録されているドキュメント・ページの各々について、高解像度バージョン、テキスト、単語および記号の境界ボックス、ハイパーリンクなどを記憶する。ステップS207では、システムは、現在のカーソル、注目されているページ、変換精度、ジェスチャおよび選択されたドキュメント・コンテンツを示すためにフィードバック情報を生成する。ステップS208で、該フィードバック情報はペーパに視覚可能なフィードバックを重ねるために投影画像に変換される。
【0068】
実施形態のいくつかにおいて、システム100は、ペーパ112から対応するデジタル・ドキュメント138にペン先入力142をマッピングし、視覚可能なフィードバック146をペーパに投影する。この機構によって、ペーパ・ドキュメントおよび物理的ドキュメント・ワークスペースは触覚ディスプレイのように扱われる。したがって、従来のペンもしくはスタイラス・タイプのコンピュータ・オペレーションが物理的ドキュメントに拡張される。
【0069】
実施形態のいくつかにおいて、現在の入力モードが「インク」であるか「ジェスチャ」であるか、に応じて、ペン入力は自由形式の手描きであるか、コマンド・ジェスチャであるか、が解釈されてもよい。「インク」モードにおいて、入力は書き込まれた注釈として記録される。該入力は対応するデジタル・ドキュメントに記憶され、その後、レビューのために取り出されてもよいし、該デジタル・ドキュメントを見る遠隔の共同作業者とネットワークを介して共有されてもよい。本物のインク・ペンが使用される場合、ペーパに残されるインクは、デジタル・バージョンより忠実度が高い。したがって、代替的な実施形態においては、ペーパからインクによる注釈を抽出するためにインク・リフト技術(ink lifting techniques)が使用されてもよい。「ジェスチャ」モードにおいては、ペン入力がコンピュータ・コマンドを構築するために使用される。該コンピュータ・コマンドは、ドキュメント・セグメント上に実行されるべきコマンドおよび所望されるアクションのためのターゲット・セクションとして一つ以上のドキュメント・セグメントを含む。ユーザは、個別の単語、文字、記号、画像、アイコン、様々な機能のための任意の領域もしくは形状を選択するために、物理的ドキュメントにペン・ストロークを描いてもよい。
【0070】
「コマンド・ターゲットの選択」
通常のペン・ベース・インタフェースのように、入力には2つの基本的な状態がある。すなわち、「ホバー」と「タッチ」である。実施形態のいくつかにおいて、「ホバー」状態ではペンは表面に接触することなく、ペーパの上にある。ユーザは、意図する単語に、投影されたカーソルを向かわせるために、ペンを動かすことができる。任意のタイミングで、ポインタ(ペン先)に最も近い1つの単語全体がプロジェクタ・フィードバックによって強調される(146)。実施形態のいくつかにおいて、入力モードが「タッチ」状態に変更され、ペンが物理的ドキュメントの表面に接触(タッチ)すると、ペン入力は次のアクションのためにドキュメント・コンテンツを選択するためのジェスチャとして解釈される。表面からペンが離されると、該ジェスチャは終了する。
【0071】
単語、記号、その他のドキュメント・コンテンツを選択するための多くのタイプのジェスチャがある。図9(A)に示すように、「ポインタ」150は所定のオブジェクト(たとえば、単語、東アジアの文字、数学記号、アイコン)とのポイント・アンド・クリック・インタラクションに適している。図9(B)に示すように、「アンダーライン」152はテキスト行もしくは楽譜の小節154を選択するために使用される。図9(C)に示す「曲線(bracket)」156および図9(D)に示す「縦線」158が文および複数行のテキストのセクションを選択するために使用される。図9(E)に示す「囲み線(lasso)」162および図9(F)に示す「斜め線(marquee)」164が任意のドキュメント領域166および168を選択するために使用される。図9(G)に示すように、「経路」170がマップ172の経路を設定するために使用されてもよい。図9(H)に示す「フリーフォーム」174は任意のタイプの入力ジェスチャであってよく、アプリケーション特定の方法で解釈されてよい。理解が容易となるように、ジェスチャおよび選択されたドキュメント・コンテンツが図9(A)〜図9(H)において強調されている。しかしながら、本発明のシステムにおいて、ジェスチャはプロジェクタから投影されるフィードバックによってペーパに描かれる。
【0072】
実施形態のいくつかにおいては、システム実装を単純にするために、マルチ・ストロークをサポートせず、ジェスチャ認識も実行しない。しかしながら、所望されるのであれば、システムはマルチ・ストロークをサポートし、ジェスチャ認識を実行してもよい。このような実施形態において、ユーザは、ジェスチャを行う前に、手動でジェスチャ・タイプを選択する必要がある。
【0073】
上記オペレーションを実装するために、メタデータがシステム・データベースに記憶されているデジタル・ドキュメントの各々から抽出される。このようなメタデータは、ドキュメント基準フレームの単語、文字、アイコンの境界ボックス(位置およびサイズ)、ドキュメント基準フレームの単語、文字、アイコンのテキスト、および、もしあれば、関連するURL(uniform resource locations)を含んでもよい。メタデータはコマンド・ターゲット(たとえば、アンダーラインを引くジェスチャによって選択された単語)を設定するためにペン入力と結合され、ペーパへの視覚可能なフィードバック(たとえば、選択された単語を強調するための白い矩形ブロック)を生成するためにも使用される。
【0074】
VI.ジェスチャのコンテキスト・アウェア(前後関係感知)・フィードバック
ジェスチャに応じて投影されるフィードバックはペーパ・ドキュメントのオリジナルの視覚可能な特徴に生じ得る干渉を制限するように特別に設計される。さもなくば、物理的デジタル・インタラクション・マッピングの正確さが落ちるかもしれない。第一に、ジェスチャ・ストロークの描画は、可能であれば、行わない。たとえば、フィードバックは、アンダーライン、曲線(Bracket)、縦線ジェスチャによって選択されたテキストについてのみ投映し、未処理ジェスチャ・ストロークについては描画しない。第二に、可能な限り、(囲み線(lasso)およびフリーフォーム・ジェスチャを除いて、)細い直線セグメントを投影に使用する。細い直線は、複雑なパターンに比べて少ない特徴点を生成するからである。第三に、大きい強調領域を明るい色で塗りつぶさない。大きい強調領域を明るい色で塗りつぶすことによって生じるグレア(glare)はオリジナルのドキュメントの視覚的特徴を歪曲するかもしれないからである。最後に、実施形態のいくつかにおいて、一般的なコンピュータ・インタフェースのように、コンテンツの個別の部分を別個に強調する代わりに、投影されるフィードバックは、図10に示されるように、選択されたコンテンツ177のもっとも外側の輪郭175のみに配置してもよい。輪郭強調は所望されない画像特徴をさらに低減するために有用である。
【0075】
「コマンド・アクションの選択」
図11(A)において、コマンド・ターゲット176が特定された後、ユーザはメニュー178から所望のアクションを選択する必要がある。アクション・メニュー178は、図11(A)に示すように、ペーパ112上でジェスチャ180の終端点の右隣に、直接投影されてもよい。このような「インプレース(in-place)」・メニュー178は、ペンおよび指の動きをあまり必要とせず、ジェスチャおよび選択を滑らかに行うことができるようになる。しかしながら、図11(A)に示すように、投影されたメニュー178は下にあるテキストや写真によって隠されてしまうかもしれず、この場合、アクション・メニュー178のテキストを読むことは困難になる。このような状況は、(現実の作業環境ではよくあるように、)周囲の環境が明るく、プロジェクタの輝度が限定されている場合、さらに悪化する。いくつかの適応的放射分析補償方法(adaptive radiometric compensation methods)が、オリジナル画像とほぼ同様の最終投影外観を生成するように投影画像を調整するために提案されているが、これらの方法は、テキストやマップなどのように、コントラストが高く背景領域が複雑である場合適正に働かない。
【0076】
解決方法の一つはメニューを適応的に配置することである。この場合、システムは自動的にもっともオクルージョンが少ない領域にメニュー178を投影する。実施形態のいくつかにおいて、これは、テクスチャがもっとも少なく投影領域内のコマンド・ターゲットから最短の領域を探索することによって実行される。基準の双方を満足する領域がない場合、最適な領域を選択するために重み付け関数を採用することができる。テキストの空間的分布は、図11(B)にドットで示すように、カメラ画像の上記FIT特徴ポインタ182の分布によって近似されてもよい。FIT特徴ポインタはドキュメント認識の副産物であり、追加時間はほとんどかからない。図11(C)に示すように、アルゴリズムは空いている適当な領域184を検出し、該領域に適合するようにメニュー178の大きさを(該メニューが判読できる程度に)調整する。実施形態のいくつかにおいて、このようなアルゴリズムは非特許文献11に開示されているアルゴリズムに類似するものであってよい。さらに、たとえば、図11(D)の分割されたメニュー186によって示されるように、インタフェースの整合性が維持される限り、メニュー・ウィンドウ178自身が、オクルージョンがない一つ以上の領域にもっともよく適合するように変更されてもよい。実施形態のいくつかにおいて、ユーザがメニューを見付けることが容易となるように、コマンド・ターゲットから該メニューへの矢印が投影されてもよい。
【0077】
メニューを配置するために適した場所がない場合、コマンド・アクション・メニューは、オクルージョンの問題に影響されないコンピュータ画面に表示されてもよい。一貫性のあるユーザ・エクスペリエンスのためにコンピュータ画面上の固定された位置にメニューを表示することができる。ユーザは通常ペーパ・ドキュメントに実行されるコマンド・ターゲットの結果を知るためにコンピュータ画面を見る必要があるが、該コンピュータ画面にメニューを表示することによって、ペーパと該コンピュータ画面との間で目の焦点を切り替える必要性を低減することができる。
【0078】
「認識の失敗に対する処理」
上記細かい粒度のインタラクションは正確なドキュメント認識および座標変換に依存する。しかしながら、認識は照明条件がよくなかったり、ペーパに歪みがあったり、ドキュメントに索引が付与されていなかったりすることによって、失敗することもあるかもしれない。また、行列変換は特徴点対応が不十分であるために不正確なものであるかもしれない。このようなエラーを補うように、ペーパ・インタラクションを強化するためにコンピュータを利用することができる。
【0079】
ペーパ・ドキュメント認識が失敗すると(すなわち、適合する特徴点の数が閾値より少ないと)、本発明のシステムによる実施形態のいくつかにおいて、ユーザは上位N個のリストもしくはデータベース全体から対応するデジタル・バージョンを選択することができる。データベースに存在しないインデックスを付与されていないドキュメントの場合、ユーザはカメラを静止画像モードに切り替え、ドキュメントの高解像度写真を撮影し、該写真に手動でインデックスを付与してデータベースに記憶する。本発明のシステムは、テキスト・メタデータを生成するために写真(picture)に文字認識(OCR)を適用してもよい。
【0080】
物理的ドキュメントの対応デジタル・バージョンが検出され、(適合する特徴点の数の推定にもとづく)変換行列の正確さが十分でない場合、本発明のシステムはデジタル・プロキシ技術を使用する。該デジタル・プロキシ技術は初期の粗いインタラクションにペーパ・ドキュメントを使用し、細かいインタラクションにコンピュータを使用する。図12に示すように、第一の手188がペーパ・ドキュメント112上に現れると、対応デジタル・ドキュメント・ページ138の全体が検索して取り出され、画面108のポップアップ・ウィンドウ190に表示される。ユーザは、次に、たとえば、ページの選択領域196をコピーすることによって、細かい粒度でデジタル・ドキュメント138を操作するように、マウス194などのコンピュータ入力デバイスを操作するために第二の手を使用することができる。
【0081】
上記した指もしくはペンによるジェスチャも同様にコンピュータに適用することができる。(図示しない)コンピュータにジェスチャを適用する方法の実施形態のいくつかにおいて、指もしくはペンによるジェスチャ操作が行われると、ユーザは第一の手をカメラの視野の外に出す。これに応じて、デジタル・プロキシ・ウィンドウを縮小してアイコンに変化させ、画面は、たとえば、コピーされた図を他のドキュメント・ファイルにペーストするような、クロス・メディア・オペレーションの次のステップのために以前の状態に戻る。ペーパ・ドキュメントの操作は迂回されるので、変換Hrが不正確であることは重要ではない。
【0082】
VII.物理的ドキュメントおよびデジタル・ドキュメントとの両手同時インタラクション
ドキュメントへの作業者による操作に関する以前の研究を見ると、ドキュメントの使用に関連する作業者は、参照、比較、照合、要約などの複数のドキュメントへの作業に時間の半分を費やしている。画面のサイズが限定されているポータブル・コンピュータの場合、マルチ・ドキュメント・インタラクションの画面を拡張するために、ペーパ・ドキュメントがよく使用される。しかしながら、このようなインタラクションは、画面上の通常のマルチ・ウィンドウ・オペレーションより複雑である。なぜならば、ドキュメントは異なるメディア(媒体)にあり、入力方法が異なるかもしれないからである。たとえば、ユーザはペーパからコンピュータへ図をコピーすることを所望したり、ウェブ・ページとペーパ上の単語とを関連付けることを所望したり、ペーパ・マップ上の位置を検出するためにコンピュータ上のストリート・ビュー・マップを使用することを所望したりするかもしれない。ペーパへの入力デバイスは、主に、指もしくはペンであり、コンピュータへの入力デバイスは、主に、キーボードもしくはマウスである。これらのクロス・メディアな複数のドキュメント・オペレーションにおいて、片方の手によるインタラクションはユーザに入力デバイスを切り替えることや身体の姿勢を変えることを要求するが、これは、不便である。
【0083】
したがって、本発明の実施形態のいくつかは、ユーザがペーパ上のオペレーションを実行すために一方の手を使用し、コンピュータ上のオペレーションを実行するために他方の手を使用することができるように、クロス・メディアな両手インタラクションをサポートする。カメラおよびコンピュータからの2つの入力ストリームは複数のドキュメント操作をサポートするために連動される。
【0084】
クロス・メディア・インタラクションのための方法の実施形態のいくつかにおいて、情報転送をサポートするために両手によるクロス・メディア・インタラクションを使用してもよい。たとえば、ユーザがよく知らない言語が日本語であって「富士」という単語がペーパ・ドキュメント上にあり、該単語についての情報を取得するために、ユーザは第一の手で該文字もしくは単語を指し示す。次に、ユーザは、第二の手で「ウェブ検索」などのコンピュータ上のコマンドを選択する。これに応じて、システムは選択されたテキストをコンピュータに送信する。コンピュータはウェブ検索を実行し、結果をユーザに表示する。同様に、ユーザは、ペーパ・ドキュメント上の写真を囲み線で容易に囲むことができ、次に、該写真をコンピュータ上のワープロ・ドキュメントもしくはその他のドキュメントにコピーすることができる。その他の実施形態において、情報転送の向きが逆であってもよい。マルチメディア注釈がコンピュータからペーパ・ドキュメントに投影されてもよい。該注釈はペーパに投影されるアイコンによって示され、ダブル・クリックによって再生されてもよい。ペーパとコンピュータとの境界にわたって、2つのドキュメント・セグメントをリンクする情報の関連を自然に確立するために、両手が使用されてもよい。たとえば、将来、ペーパの日本語を選択すると、コンピュータ画面のリンクされたウェブ・ページが表示されるように、ユーザはペーパ上の日本語に百科事典もしくは辞書のウェブ・ページをリンクしてもよい。ユーザは複数の表示を操作するために、同時に同一の複合ドキュメント(compound document)の異なる表示を操作することができる。たとえば、図13に示すように、コンピュータ画面108の対応位置にあるストリート・ビュー画像120を表示するために、第一の手188によってプリントされているマップ172の位置198を選択し、次に、マウス194を制御し、選択されたマップの位置198に対応する対応ストリート・ビュー表示120の周囲をナビゲートするために第二の手192を使用してもよい。
【0085】
VIII.ペーパ・ドキュメント・インタラクションのための両手ハイブリッド入力
両手入力はクロス・メディア・オペレーションのためだけでなく、単一メディア・オペレーションにも使用することができる。本発明のシステムはコンピュータ入力によるペーパ・オペレーションの拡張をサポートする。これは、カメラ・プロジェクタ・ユニットおよびコンピュータの相補的な情報によって動機付けされる。カメラ・ベースの指による入力は、ペーパ操作において自然ではあるが、通常あまりロバストではなく、マウスやキーボードによる入力に比べて入力サンプリング・レートが低い。これは、ペーパ・インタラクション(特に、細かい粒度のインタラクション)についてのユーザ・エクスペリエンスを比較的低下させる。(たとえば、両手クロス・メディア・インタラクションを行っており、)ペーパ上で一方の手だけでジェスチャを行う場合、指もしくはペン入力による問題は大きくなるかもしれない。なぜならば、コンピュータに入力を提供する他方の手の指とペーパとの接触による干渉がペーパ・シートの所望しない動きの原因となるかもしれないからである。
【0086】
ハイブリッド・システムの利用可能な情報を最適に使用するために、実施形態のいくつかにおいて、キーボードおよびマウス入力はリダイレクトされる入力であってよく、ペーパ・ドキュメントにフィードバックされてもよい。該入力は、次の細かい粒度のインタラクションのために、カメラ入力と結合されてもよい。たとえば、図14(A)〜(C)に示すように、ペーパ・ドキュメント112の矩形領域200を選択するために、マウス194に第二の手192を置いたまま、図14(A)に示すように、ユーザは、該領域のおおよその位置を第一の手188で指し示す。図14(B)において、カメラの視野で第一の手188の存在が検出されると、システムは、ペーパ・ドキュメント112上の指先204が検出されている位置にマウス・カーソル202を移動する。マウス・カーソル202はペーパ・ドキュメント112に投影されている。ユーザは、矩形領域200の上でマウスをクリックし、ドラッグするために、マウス194を操作する。これにより、図14(C)に示すように、初期の粗い選択からより高い忠実性で領域200を選択し直す。第一の手188は、ペーパの意図しない動きを避けるために、ペーパ・ドキュメント112の上にただ置いておかれればよい。
【0087】
(図示しない)コンピュータ・キーボードはペーパ・ドキュメントに高い忠実性のあるテキスト情報を付加するために使用されてもよい。たとえば、ユーザは、ペーパ上のドキュメント・セグメントを選択し、セグメントのテキスト注釈をタイプ入力してもよいし、選択されたペーパ・ドキュメント領域のOCRエラーを修正するためにキーボードを使用してもよい。たとえば、このようなキーボード入力は、半自動ペーパ・レシート転写アプリケーションにおいて特に有用である。本発明のシステムは、それゆえ、コンピュータ・ドキュメントとのインタラクションを拡張するだけでなく、ペーパ・ドキュメントとのインタラクションも拡張することができる。
【0088】
IX.物理的ドキュメントおよびデジタル・ドキュメントとの同時両手インタラクション
他の実施形態においては、カメラ入力とコンピュータ入力との融合を画面だけのインタラクションにも適用することができる。本発明のシステムは、デジタル・ドキュメントを制御するために、ペーパ・ドキュメント上のペン・ベースもしくは指ベースの指示をコンピュータにリダイレクトすることができる。ペン・ベースおよび指ベースの指示は、他のハードウェアを追加することなく、画面上でのマルチ・ポインタ・インタラクションのために、マウス入力と結合することができる。たとえば、物理的ドキュメント・ベース・ポインタおよびコンピュータ・ベース・ポインタによって、ユーザは写真を同時に拡大縮小するとともに回転することができる。その他の例において、図15に示すように、ユーザはペーパ上で第一の手188をフリックする(206:画面上を素早く払うようにタッチする)ことによって、ドキュメントをパンし(ドキュメントの表示を振り)、第二の手192でマウス194を操作することによって特定のコンテンツ208を選択することができる。その他の指ベースの入力を必要とせず、マウスをパンと選択タスクとの間で切り替える必要もない。上記両手インタラクションはマルチ・タッチ・インタラクションをサポートしない通常のコンピュータで有用である。
【0089】
X.応用
上記様々な実施形態におけるインタラクション技術はペーパとコンピュータとを混在して使用するための多くのシナリオに適用することができる。たとえば、ペーパ・レシート処理、ドキュメント操作およびマップ・ナビゲーションなどについて以下で詳細に記載する。しかしながら、これらは例示であり、本発明を限定するものではない。
【0090】
「レシート処理」
ペーパ・レシートはシンプルで、ロバストであり、かつ、既存のペーパ・ベース・ワーク・フローと適合性を有するために広範囲にわたって使用されている。しかしながら、ペーパ・レシートを新しいデジタル財務ドキュメント・ワーク・フローと統合することは(当事者にとって)退屈であり、時間を要する。多くのリサーチおよび様々な商用製品がこの領域で進展している。しかしながら、これらの多くは出費額、日付などの情報をレシートから完全に手書きで転写することを必要とする。OCRによってレシートから情報を自動的に抽出する場合もあるが、使いやすいエラー修正インタフェースがなく、他の制限も経理担当者の検証を困難にする。
【0091】
レシート処理の方法の実施形態のいくつかにおいて、本発明の上記システムは図16(A)〜(F)に示すようにレシートを処理することができる。図16(A)に示すように、レシート210がカメラの視野に置かれると、システムは以前検出したレシートを記憶している既存レシート・データベースから該レシートと同一のレシートのデジタル・バージョンを検出することによって該レシート210を認識しようとする。適合するデジタル・バージョンが検出されない場合、レシート210は新規なものとして扱われることになり、図16(B)に示すように、投影メッセージ212によってユーザにその旨を報知する("Your receipt is new")。システムは、レシートの高解像度写真214を撮影する。該写真は図16(C)に示すようにコンピュータ画面108に表示される。次に、高解像度写真214をシステム・データベースに記憶する。ペーパ・レシート処理の問題は、正確な座標変換のために十分な特徴点をレシートが有さないかもしれないことである。レシートのコンテンツは一般に通常のドキュメントより少ないからである。この場合、上記デジタル・プロキシ・ストラテジを使用することによって、ユーザは、類似のジェスチャおよび修正機構によって画面108上のレシート210を操作することができる。たとえば、図16(D)に示すように、OCRの特定の領域216(ここでは、日付)を選択するために、ユーザは(図示しない)アンダーラインを引くジェスチャを画面108上のレシートの写真214に直接行うことができる。実施形態のいくつかにおいて、OCRの結果218が検証のために領域216の隣に表示される。OCRの結果218が不正確であれば、ユーザは(図示しない)キーボードを使用して修正することができる。さらに、図16(E)に示すように、レシート処理アプリケーションはレシートの情報を入力するセル222を有するデータ入力ソフトウェア・アプリケーション220を含んでもよい。この実施形態では、ソフトウェア・アプリケーション220において転写されたセル値の各々は、情報が導き出されたレシートの写真214の関連する領域224にリンクされてもよい。これにより、ユーザは、図16(F)に示すように、セルを選択することによって、レシートの関連する領域224を強調して、該レシート210の写真214を検索して取り出し、セル222の各々の情報を容易に検証することができる。
【0092】
「ドキュメント操作」
上記したように、本発明のシステムは、ユーザがペーパ上で細かい粒度のドキュメント・オペレーションを行うことを支援する。ドキュメント・オペレーションには、たとえば、キーワード検出、コピー・アンド・ペースト、インターネット検索などがあるが、本発明はこれらに限定されるものではない。図17(A)に示すように、キーワード検出アプリケーションの実施形態において、ユーザは、ペーパ・ドキュメント112の単語230を選択するためにペン先228を使用することができるし、図17(B)に示すように、ドキュメントにわたるその(選択された単語の)存在232を検出するために(図示しない)キーボードを用いて任意の単語をタイプ入力してもよい。システムはドキュメントのフル・テキスト検索を実行し、(図示しない)プロジェクタを介して存在232の正確な位置を強調表示する。実施形態のいくつかにおいて、存在232のいくつかは投影領域の外側にあってもよい。その場合、プロジェクタは、図17(C)に示すように、特定の方向にある(選択された単語の)存在を示すために投影境界の付近に矢印234を表示してもよい。ユーザは、ドキュメントにおいてさらなる存在232を明らかにするために矢印234によって示される方向にドキュメント112を移動させてもよい。
【0093】
「マップ・ナビゲーション」
ペーパ・マップは、大きく、ロバストで、高品質の表示を提供するが、デジタル・マップで利用可能な動的な情報(道路周辺風景画像や動的交通情報など)は有さない。システムの実施形態のいくつかにおいて、図18(A)に示すように、ペーパ・マップ172とのインタラクションはコンピュータ画面108上のデジタル・マップ236と統合することができる。図18(B)に示すように、任意の特定のポイント238もしくは経路がペーパ・マップ172上で選択され、システムはユーザの選択を処理し、図18(C)に示すように、選択されたポイント238もしくは経路まで画面108上に対応するストリート・ビュー画像120をナビゲートする。その他の実施形態において、ユーザは、街路を車両で移動するためにストリート・ビュー・マップ・アプリケーションを操作してもよい。このような動きはペーパ・マップ上にプロジェクタによって強調して表示される。
【0094】
XI. コンピュータによる実施形態
図19は、本発明の手法が実装されるコンピュータ/サーバ・システム700の実施形態を例示するブロック図である。システム700は、指示を実行するための作業を行うプロセッサ(処理手段)702およびメモリ(記憶手段)703を含むコンピュータ/サーバ・プラットフォーム701を含む。「コンピュータ可読記憶媒体」は、たとえば、ディスク、半導体メモリなどの任意の有形の媒体であってよい。該コンピュータ記憶媒体はプロセッサ702に実行のための指示を提供する際に使用される。さらに、コンピュータ・プラットフォーム701は、キーボード、マウス、タッチ・デバイス、音声命令入力装置など、複数の入力デバイス(入力手段)704からの入力を受信する。コンピュータ・プラットフォーム701は、ポータブル・ハード・ディスク・ドライブ、光メディア(CD、DVD)、ディスク媒体、その他の任意の有形な媒体など、コンピュータが実行コードを読み取ることができる脱着可能な記憶デバイス(脱着可能記憶手段)705にさらに接続されていてもよい。コンピュータ・プラットフォームはさらにインターネットもしくはローカル・パブリック・ネットワークもしくはローカル・プライベート・ネットワークのその他の構成要素に接続するネットワーク・リソース706に接続していもよい。ネットワーク・リソース706は指示およびデータをネットワーク707の遠隔位置からコンピュータ・プラットフォームに提供してもよい。ネットワーク・リソース706への接続は、たとえば、802.11規格、ブルートゥース、ワイヤレス・プロトコル、セルラー・プロトコルなどのワイヤレス・プロトコルを介してもよいし、たとえば、金属ケーブルや光学繊維ケーブルなどの物理的な送信媒体を介してもよい。ネットワーク・リソースは、データや実行可能な指示を記憶する、コンピュータ・プラットフォーム701とは別個の位置にある記憶デバイスを含んでもよい。コンピュータは、その他の指示およびユーザからの入力を要求し、ユーザへデータやその他の情報を出力するためのディスプレイ(表示手段)708とインタラクションを行う。表示手段708はユーザとのインタラクションを行うための入力手段として機能してもよい。
【符号の説明】
【0095】
102 カメラ
104 プロジェクタ
110 物理的ドキュメント・ワークスペース
112 ペーパ
114 デジタル・ドキュメント・ワークスペース
116 ペーパ・コンピュータ調整手段
118 デジタル・バージョン
【技術分野】
【0001】
本発明は、物理的ドキュメント(physical documents 紙などの表示媒体上にユーザの視覚によるコンテンツの閲覧が物理的に既に可能となっている状態で提示されているドキュメント。ドキュメントの電子ファイルのようにデータの表示処理なしにはコンテンツの閲覧が不可能な状態のドキュメントと対比されるもの。)とコンピュータ(計算処理装置)とをインタラクトさせる(interact)情報処理システム、方法およびプログラムに関する。詳細には、ペーパとコンピュータとのハイブリッド・ベース・インタフェースで、物理的ドキュメントのユーザ・インタラクション(user interaction)とコンピュータ上の関連コンテンツのユーザ・インタラクションとを関連付けることに関する。
【背景技術】
【0002】
ペーパおよびコンピュータは、ドキュメント処理のためにもっともよく使用される2つの主要な媒体である。ペーパは読むこと、および、注釈を書き込むことに適しており、軽量であるため運搬が容易であり、スペースに合わせて大きさを柔軟に変更することができ、様々な環境での使用において頑健性を有し、社会的環境に受け入れられやすい。コンピュータは、マルチメディア・プレゼンテーション、ドキュメント編集、アーカイビング、共有、検索において便利である。これらのユニークなまたは相補的な効果によって、ペーパとコンピュータとは多くの場面において共に使用されている。ペーパをコンピュータと完全に置き替えることは技術的に困難であり、費用効率に懸念があるため、予測可能な将来において、この状態は継続しそうである。
【0003】
一般的なワークステーションの環境では、ユーザはペーパとコンピュータとを同時に使用することを所望するかもしれない。特に、図1に示すように、台の上にペーパ・ドキュメント112とコンピュータ106とが隣り合わせに置かれている場合には、ユーザは、ペーパ・ドキュメント112とコンピュータ106とを同時に使用することを所望するだろう。たとえば、物理的な紙片の記事を読み、コンピュータで要約を作成する(書く)ために、図1のような環境がよく使用される。読み書きのアクティビティとともに、特定の内容についての追加情報をインターネットで検索したり、文章を引用したり、記事の図をコピーしたり、電子メールやインスタント・メッセージ([IM」)によって記事の興味深い部分を友人と共有したりすることが必要となることがユーザにはよくある。
【0004】
しかしながら、ペーパとコンピュータとを同時に使用する場合、この2つの媒体の間で移動やインタラクションを容易に行う技術は存在しない。ペーパのコンテンツは、遠隔共有、ハイパーリンク、コピー・アンド・ペースト、インターネット検索、キーワード検出などのコンピュータ・ベース・デジタル・ツールとは絶縁されている。ペーパとコンピュータとの間のこのようなギャップは、ペーパをコンピュータと組み合わせて使用する場合に効率を低下し、ユーザ・エクスペリエンスを劣化する。たとえば、ビジネス・パーソンにとって、払い戻しのためにペーパ・レシートを手で書き写すことは退屈な作業であるし、経理担当者にとっても、払い戻しのための書類とオリジナルのレシートとを照合のために比較することは退屈な作業である。その他の例では、ユーザが、ある未知の外国語をどのようにコンピュータに入力するのか知らない場合、書籍の中の当該未知の外国語の単語をインターネットで検索することは困難が伴う。同様に、ペーパ・ドキュメントからコンピュータのデジタル・ドキュメントに写真をコピーすることも容易ではない。
【0005】
ペーパとコンピュータとの境界に対処するために努力がなされてきたが、いまだ、これらの間のギャップは埋められていない。第一に、たとえば、非特許文献1および非特許文献2などの現在のシステムのほとんどは頁全体もしくはドキュメント全体とのインタラクションに焦点を当てており、ドキュメント内の細かい粒度(ページ全体よりも精細で、たとえば、個別の単語、記号、任意の領域、などの小さい範囲)の操作をサポートしていない。第2に、これらのシステム(たとえば、ページ・レベル・ハイパーリンク(非特許文献1および非特許文献2)、空間配置的追跡(非特許文献3)、テキスト転写(非特許文献4および非特許文献5)など)は、ペーパへのデジタル機能を限定的にしかサポートしておらず、上記問題に対処するには十分ではない。第3に、ハードウェア構成が柔軟性を有さず、さらに、特別にマークが付されたペーパのために何かを必要とすることによって(たとえば、非特許文献6)、これらは既存のワーク・フローに干渉するかもしれない。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】ウィルソン(Wilson)、「どこでも再生:コンパクト・インタラクティブ・テーブルトップ・プロジェクション・ビジョン・システム(PlayAnywhere: a compact interactive tabletop projection-vision system)、UIST抄録(Proceedings of UIST)、2005年、頁83〜92
【非特許文献2】ケーン(Kane)ら、「焚き火:ハイブリッド・ラップトップ・テーブルトップ・インタラクションのためのノーマディック・システム(Bonfire: a nomadic system for hybrid laptop-tabletop interaction)、UIST抄録(Proceedings of UIST)、2009年、頁129〜138
【非特許文献3】キム(Kim)ら、「ビデオ・ベース・ドキュメント追跡:物理的デスクトップと電子的デスクトップとの統一(Video-based document tracking: unifying your physical and electronic desktops)」、UIST抄録(Proceedings of UIST)、2004年、頁99〜107
【非特許文献4】ニューマン(Newman)ら、「カムワークス:ペーパ・ソース・ドキュメントから効率的にキャプチャするためのビデオ・ベース・ツール(CamWorks: A Video-based Tool for Efficient Capture from Paper Source Documents)、IEEE マルチメディア・システム抄録(Proceedings of IEEE Multimedia System)、1999年、頁647〜653
【非特許文献5】ウェルナー(Wellner)、「デジタルデスク上のペーパとのインタラクション(Interacting with paper on the DigitalDesk)」、ACM通信(Communications of the ACM)、36(7)、1993年、頁87〜96
【非特許文献6】ソング(Song)ら、「ペンおよび空間感知モバイル・プロジェクタを用いたデジタル・ペーパのバイマニュアル・インタラクション(Bimanual Interactions on Digital Paper Using a Pen and a Spatially-aware Mobile Projector)、CHI抄録(Proceedings of CHI)、2010年
【非特許文献7】バーンズ(Barnes)ら、「ビデオ・パペット:切り絵アニメのための遂行的インタフェース(Video Puppetry: A Performative Interface for Cutout Animation)」、グラフィックに関するACMトランザクション(ACM Transaction on Graphics)、Vol.27、No.5、2008年
【非特許文献8】リウ(Liu)ら、「FITによる高精度・言語非依存ドキュメント検索(High Accuracy And Language Independent Document Retrieval With A Fast Invariant Transform)」、ICME抄録(Proceedings of ICME)、2009年
【非特許文献9】ヘア(Hare)ら、「マップスナッパー:モバイル・フォンのマップ画像をマッチングするための効率的なアルゴリズム処理(MapSnapper: Engineering an Efficient Algorithm for Matching Images of Maps from Mobile Phones)」、マルチメディア・コンテンツ・アクセス抄録(Proceedings of Multimedia Content Access)、アルゴリズムおよびシステムII(Algorithms and Systems II)、2008年
【非特許文献10】バートン(Burton)ら、「遠近法で考える:思考過程の研究についての批評的エッセイ(Thinking in Perspective: Critical Essays in the Study of Thought Processes)、ルートレッジ(Routledge)、1978年
【非特許文献11】リウ(Liu)ら、「埋め込みメディア・マーカ:関連メディアを示すペーパ上のマーク(Embedded Media Markers: Marks on Paper that Signify Associated Media)」、IUI抄録(Proceedings of IUI)、2010年、頁149〜158
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記したように、コンピュータ上のアクティビティとペーパ・ドキュメントを関連付ける現在のシステムは多くの制限を有している。したがって、物理的ドキュメントとコンピュータとで関連付けられた作業を従来に比べて高い自由度で実現するための改善が必要とされている。
【課題を解決するための手段】
【0008】
本発明の第1の態様は、情報処理システムであって、少なくとも一つの物理的ドキュメントを撮影して得られる画像に基づいて、前記画像中の前記物理的ドキュメントに含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をするとともに、前記画像特徴点の位置に基づいて特定される、該少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出するカメラ処理手段と、前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影することで提供するプロジェクタ処理手段と、を備える。
【0009】
本発明の第2の態様は、第1の態様の情報処理システムであって、前記カメラ処理手段は前記少なくとも一つの物理的ドキュメントの細かい粒度のコンテンツを処理し、前記細かい粒度のコンテンツは、個別の単語、文字、図形を含み、前記カメラ処理手段は前記細かい粒度のコンテンツに関連するユーザ・インタラクションを検出する。
【0010】
本発明の第3の態様は、第1の態様の情報処理システムであって、前記プロジェクタ処理手段によって提供される視覚可能なフィードバックは前記物理的ドキュメントへのユーザ・インタラクションにもとづく。
【0011】
本発明の第4の態様は、第1の態様の情報処理システムであって、前記ユーザ・インタラクションは前記少なくとも一つの物理的ドキュメントに対して行われるジェスチャを含み、前記ジェスチャは前記計算処理装置上の作業に対応する。
【0012】
本発明の第5の態様は、第4の態様の情報処理システムであって、前記ジェスチャは所定のタイプの視覚可能なフィードバックをもたらす所定の命令に対応する。
【0013】
本発明の第6の態様は、第1の態様の情報処理システムであって、前記計算処理装置へのユーザ・インタラクションを、前記プロジェクタ処理手段によって前記少なくとも一つの物理的ドキュメントへ提供される視覚可能なフィードバックに変換する。
【0014】
本発明の第7の態様は、第1の態様の情報処理システムであって、前記プロジェクタ処理手段は前記物理的ドキュメント以外の物理的面に視覚可能なフィードバックを提供する。
【0015】
本発明の第8の態様は、第1の態様の情報処理システムであって、折り畳み可能なフレームに統合されており、運搬可能であるカメラおよびプロジェクタと、少なくとも一つのミラーと、をさらに備え、前記少なくとも一つのミラーは、前記フレームに取り付けられており、前記カメラおよびプロジェクタの光路を前記少なくとも一つの物理的ドキュメントへ反射するように、該少なくとも一つの物理的ドキュメントの上に配置されている。
【0016】
本発明の第9の態様は、第1の態様の情報処理システムであって、前記カメラ処理手段は前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、前記表示手段に表示するために該コンテンツに対応するデジタル・ドキュメントを取得する。
【0017】
本発明の第10の態様は、第9の態様の情報処理システムであって、前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションは前記対応するデジタル・ドキュメントへの対応インタラクションをもたらす。
【0018】
本発明の第11の態様は、第1の態様の情報処理システムであって、前記カメラ処理手段は、前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、該少なくとも一つの物理的ドキュメントに関連するデジタル・コンテンツを取得する。
【0019】
本発明の第12の態様は情報処理方法であって、撮影された少なくとも一つの物理的ドキュメントの画像中に含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をし、前記画像に基づいて、前記画像特徴点の位置に基づいて特定される、前記少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出し、前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影し、表示手段を有する計算処理装置へのインタラクションと前記少なくとも一つの物理的ドキュメントへの前記ユーザ・インタラクションとを連動させる。
【0020】
本発明の第13の態様は、第12の態様の情報処理方法であって、細かい粒度のコンテンツを識別するために前記少なくとも一つの物理的ドキュメントを処理し、前記細かい粒度のコンテンツに関連するユーザ・インタラクションを検出する、ことをさらに含み、前記細かい粒度のコンテンツは個別の単語、文字、図形を含む。
【0021】
本発明の第14の態様は、第12の態様の情報処理方法であって、前記視覚可能なフィードバックは前記物理的ドキュメントへのユーザ・インタラクションにもとづく。
【0022】
本発明の第15の態様は、第12の態様の情報処理方法であって、前記ユーザ・インタラクションは前記少なくとも一つの物理的ドキュメントに対して行われるジェスチャを含み、前記ジェスチャは前記計算処理装置上の作業に対応する。
【0023】
本発明の第16の態様は、第15の態様の情報処理方法であって、前記ジェスチャは所定のタイプの視覚可能なフィードバックをもたらす所定の命令に対応する。
【0024】
本発明の第17の態様は、第12の態様の情報処理方法であって、前記物理的ドキュメント以外の物理的面に視覚可能なフィードバックを提供する。
【0025】
本発明の第18の態様は、第12の態様の情報処理方法であって、前記計算処理装置へのユーザ・インタラクションを前記少なくとも一つの物理的ドキュメントへの視覚可能なフィードバックに変換する。
【0026】
本発明の第19の態様は、第18の態様の情報処理方法であって、前記少なくとも一つの物理的ドキュメントの詳細なコンテンツを操作するために、前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションを、該少なくとも一つの物理的ドキュメントへのユーザ・インタラクションと同時の前記計算処理装置へのユーザ・インタラクションに変換する。
【0027】
本発明の第20の態様は、第12の態様の情報処理方法であって、前記物理的ドキュメントの詳細なコンテンツは、前記少なくとも一つの物理的ドキュメントとインタラクトするために第一の手を用いたユーザ・インタラクションによって操作され、前記計算処理装置とインタラクトするために第二の手を用いたユーザ・インタラクションによって操作される。
【0028】
本発明の第21の態様は、第12の態様の情報処理方法であって、デジタル・ドキュメントの詳細なコンテンツは、前記物理的ドキュメントとインタラクトするために第一の手を用いたユーザ・インタラクションによって操作され、計算処理装置とインタラクトするために第2の手を用いたユーザ・インタラクションによって操作される。
【0029】
本発明の第22の態様は、第12の態様の情報処理方法であって、前記少なくとも一つの物理的ドキュメントとインタラクトするために、第一の手を用い、前記計算処理装置上のデジタル・ドキュメントとインタラクトするために、第二の手を用いて、該物理的ドキュメントの詳細なコンテンツと該デジタル・ドキュメントとを同時に操作する。
【0030】
本発明の第23の態様は、第12の態様の情報処理方法であって、前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、前記表示手段に表示するために前記コンテンツに対応するデジタル・ドキュメントを取得する。
【0031】
本発明の第24の態様は、第23の態様の情報処理方法であって、前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションは前記対応するデジタル・ドキュメントへの対応インタラクションをもたらす。
【0032】
本発明の第25の態様は、第12の態様の情報処理方法であって、前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、前記少なくとも一つの物理的ドキュメントに関連するデジタル・コンテンツを取得する。
【0033】
本発明の第26の態様はプログラムであって、コンピュータを、撮影された少なくとも一つの物理的ドキュメントの画像中に含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をし、前記画像に基づいて、前記画像特徴点の位置に基づいて特定される、前記少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出し、前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影し、表示手段を有する計算処理装置へのインタラクションと前記少なくとも一つの物理的ドキュメントへの前記ユーザ・インタラクションとを連動させるように機能させる。
【0034】
以上および以下の記載は、説明および例示だけを目的としており、本発明もしくは本発明の応用を制限することを意図するものではない。
【発明の効果】
【0035】
本発明のシステム、方法およびプログラムによれば、物理的ドキュメントとコンピュータとを連動させた処理を、従来と比較してより精細に実現することができる。
【図面の簡単な説明】
【0036】
【図1】画面を有するラップトップ・コンピュータとペーパ・ドキュメントを含むノートとを含む従来のワークステーション環境を例示する。
【図2】本発明の実施形態における、カメラ、プロジェクタ、画面を備えたコンピュータを用いた物理的ドキュメントとデジタル・ドキュメントとをインタラクトさせるシステムを例示する。
【図3】本発明の実施形態において、ユーザがペーパ・マップとコンピュータとに同時にインタラクトすることができるワークスペースを例示する。コンピュータは、マップ上のユーザの指で選択されたある位置に関連付けられた画像を表示する。
【図4】本発明の実施形態において、少なくとも一つの物理的ドキュメントとコンピュータとをインタラクトさせる方法を例示する。
【図5】本発明の実施形態における、折り畳み可能なフレームに接続されている少なくとも一つのミラーを含む運搬可能なカメラ・プロジェクタ・ユニットを例示する。
【図6】従来のデジタル・ドキュメントとプリントアウト・ドキュメントのマッピングを例示する。
【図7】本発明の実施形態において、カメラ基準フレームと認識されたドキュメント基準フレームとのホモグラフィック変換を決定する方法を例示する。
【図8】本発明の実施形態において、物理的ドキュメントとインタラクトする方法のデータ・フローを例示する。
【図9】本発明の実施形態において、単語、記号およびその他のドキュメント・コンテンツを選択するために、ユーザがペーパ上で行うことができるジェスチャを例示する。
【図10】選択されたコンテンツの外郭を強調するプロジェクタからのフィードバックを例示する。
【図11】本発明の実施形態において、物理的ドキュメントにメニューを投影する際に適応的に配置する方法を例示する。
【図12】本発明の実施形態において、コンピュータ上で物理的ドキュメントを制御するデジタル・プロキシ方法を例示する。
【図13】本発明の実施形態における、第一の手による物理的ドキュメントの操作と、第二の手によるコンピュータの操作と、の両手による操作の連動を例示する。
【図14】本発明の実施形態における、物理的ドキュメントとの両手によるインタラクションを例示する。第二の手によって制御されるコンピュータ入力デバイスは第一の手による制御ドキュメントの操作に貢献する。
【図15】本発明の実施形態における、コンピュータ画面との両手によるインタラクションを例示する。物理的ドキュメント上の第一の手の動きは第二の手によるコンピュータ画面の操作に貢献する。
【図16】本発明の実施形態における、ペーパ・レシートの情報を処理するための本発明のシステムの適用を例示する。
【図17】本発明の実施形態における本発明のシステムのキーワード検出アプリケーションを例示する。
【図18】本発明の実施形態における本発明のシステムのマップ・ナビゲーション・アプリケーションを例示する。
【図19】本発明の実施形態において本発明のシステムが実装されるコンピュータ・システムのブロック図を例示する。
【発明を実施するための形態】
【0037】
以下の詳細な記載において、図面を参照する。図面は例を示すためのものであり、本発明を制限するものではない。特定の実施形態および実装は本発明の原理と一貫性を有する。以下の実施形態は当業者が本発明を実施することができる程度に十分詳細に記載されている。また、以下の実施形態以外の実施形態も利用可能であり、本発明の範囲および思想から逸脱することなく、構成の変更、および/もしくは、様々な構成要素の置き替えが可能である。したがって、以下の詳細な記載は、限定的に解釈されるべきではない。さらに、本発明の様々な実施形態は汎用目的コンピュータで稼働するソフトウェアの形態で実装されてもよいし、特定目的ハードウェアの形態で実装されてもよいし、ソフトウェアおよびハードウェアの組み合わせによって実装されてもよい。
【0038】
以下に記載される本発明の実施形態は、物理的ドキュメントとコンピュータとのインタラクションを提供する。詳細には、物理的ドキュメントとコンピュータとの間のユーザ・インタラクションを改善するために、コンピュータ上のオペレーションと統合される物理的ドキュメントの細かい粒度のコンテンツとの詳細なインタラクションが提供される。本発明の実施形態は、ハイブリッド・カメラ・プロジェクタ・インタフェースを使用して物理的ドキュメントとデジタル・コンテンツとの両手による(two-handed)細かい粒度のインタラクションもサポートする。
【0039】
実施形態のいくつかにおいて、図2に例示するシステム100は、カメラ102、プロジェクタ104および画面108を有するコンピュータ(計算処理装置)106を含む。カメラ102およびプロジェクタ104は物理的ドキュメント・ワークスペース110の上に配置されている。物理的ドキュメント・ワークスペースには少なくとも一つの物理的ドキュメント112(たとえば、紙片など)が配置されている。このようなフレームワークにおいて、カメラ102は物理的ドキュメント112、ユーザの指のジェスチャ、および/もしくは、ペン・ジェスチャを撮影し、コンピュータ106のカメラ処理手段が撮影画像を解析処理することで、コンテンツやジェスチャを認識することができる。次に、該ジェスチャにもとづいて、特定のオペレーションが実行される。プロジェクタ104はジェスチャもしくはコンピュータ106からの入力にもとづいて物理的ドキュメント112に、直接、視覚可能なフィードバックを提供する。コンピュータ106はプロセッサおよびメモリを備え、物理的ドキュメントに対応するデジタル・ドキュメント、ウェブ・ページ、アプリケーションなどを画面108に表示する。コンピュータ106のプロジェクタ処理手段では、カメラ102によって受信された視覚可能な入力をプロジェクタ104の適当なフィードバックに変換するように、もしくは、コンピュータ106自身への入力に変換するように、支援してもよい。カメラ102およびプロジェクタ104もプロセッサおよびメモリを備えカメラもしくはプロジェクタ処理手段として動作してもよく、カメラ102およびプロジェクタ104が個々にカメラ102によって受信される入力を処理し、該入力をプロジェクタ104の視覚可能なフィードバックに変換してもよい。
【0040】
図5に示すように、カメラおよびプロジェクタは、単一のポータブルなカメラ・プロジェクタ・ユニットに統合されてもよい。これにより、ハードウェア・システムの運搬が容易になり、柔軟性が増す。ラップトップ、タブレットなどのポータブル・コンピュータ・デバイスもしくは携帯電話に一体的に組み合わせた場合には、システム全体がポータブルとなり得る。物理的ドキュメントは、既存のワークフローと完全に共存可能な、テキスト、図形を含む一般的なプリントされたペーパであってよい。
【0041】
システムは、ユーザが、個別の単語、文字、記号、アイコン、ユーザによって特定された任意の領域を含む物理的なドキュメントの細部とインタラクトすることができるように細かい粒度のインタラクションを提供する。システムは、さらに、ペーパに対する多くのコンピュータの機能の提供をサポートする。たとえば、テキストや図形コンテンツをペーパ・ドキュメントからコンピュータにコピー・アンド・ペーストするため、コンピュータのウェブ・ページに物理的ドキュメントの単語をリンクするため、物理的ドキュメントの特定のキーワードをコンピュータで検索するため、ペーパ・マップの特定の場所を指示することによってコンピュータの視覚可能なストリート・レベル・マップで道案内をするため、に、ユーザはペン・ジェスチャもしくは指のジェスチャをペーパ・ドキュメントに適用することができる。これらのすべての実施形態の詳細を以下に記載する。
【0042】
物理的ドキュメントとの細かい粒度のインタラクションにもとづいて、システムは物理的ドキュメントおよびコンピュータの両手によるクロス・メディア・インタラクションをサポートすることができる。該システムは、ペーパおよびコンピュータの情報を相補的に結合する。たとえば、物理的ドキュメントとの指もしくはペンを用いたカメラ・ベース・ユーザ・インタラクションは比較的粗く、比較的信頼できない。このインタラクションを忠実性が高くロバストなコンピュータ上でのキーボードもしくはマウス入力によって拡張することができる。その他の実施形態では、コンピュータ上でのマルチ・ポインタ・オペレーションのために、物理的ドキュメントへの指もしくはペンによる入力をコンピュータへのマウスもしくはキーボードによる入力と結合することができる。このようなハイブリッド・クロス・メディア・インタラクションによって、システムは、ペーパとコンピュータの境界を埋めることができる。
【0043】
システムのフレームワークについてさらに記載し、次に、システムの構成要素についてさらに詳細に記載する。様々なアプリケーションの例示およびフレームワークによって可能となるインタラクションについてもさらに詳細に記載する。
【0044】
I.システム概観
図3に示されるように、システムは物理的ドキュメント・ワークスペース110とデジタル・ドキュメント・ワークスペース114との間のブリッジとして働く。実施形態のいくつかにおいて、フレームワークは3つの主要な構成要素を含む。3つの構成要素とはカメラ102、プロジェクタ104、およびペーパ・コンピュータ連動プロセッサ116である。実施形態のいくつかにおいて、カメラ102はカメラ・デバイスによって取得される画像を処理する対応ソフトウェア・モジュールを含む。同様に、実施形態のいくつかにおいて、プロジェクタ104は処理を実行する対応ソフトウェア・モジュールを含む。カメラ102は物理的ドキュメント112(たとえば、図3のプリントされたマップ)を認識し、追跡し、ユーザの指先もしくはペン先の位置および移動の軌跡を追跡する。カメラ102からの入力にもとづいて、プロジェクタ104は物理的ドキュメント112への投影画像を生成する。該投影画像は、ユーザへ視覚可能なフィードバックを直接的に提供するために、物理的ドキュメントのコンテンツと正確に揃えられる。カメラ102は、認識された物理的ドキュメントのコンピュータ上にあるデジタル・バージョン(デジタル・ドキュメント)118を検出するプロセッサおよびメモリを備えていてもよい。カメラ102は、デジタル・ドキュメント・ワークスペース114に示されるドキュメントのデジタル・バージョンへの対応ポインタ操作として指先/ペン先によるオペレーションを解釈してもよい。
【0045】
必要であれば、ペーパ・コンピュータ連動プロセッサ116は、デジタル・バージョン118もしくはコンピュータ106のその他のコンテンツを操作するために、デジタル・ドキュメント・ワークスペース114と物理的ドキュメント・ワークスペース110とのアクションを連動させる。図3において、ペーパ・コンピュータ連動プロセッサ116は物理的ドキュメント・ワークスペース110におけるペーパ・マップ112でユーザによって選択された位置の道路に沿って予め多方向に向けて撮影記録した風景写真120を表示するために、コンピュータ106との連動を行う。
【0046】
物理的ドキュメントとコンピュータとのインタラクションを行う方法を図4に例示する。第1のステップS101において、カメラを用いて、システムは少なくとも一つの物理的ドキュメントを処理する。第2のステップS102において、物理的ドキュメントとのユーザ・インタラクション(たとえば、指先もしくはペン先による選択もしくはジェスチャなど)を検出する。ステップS103において、プロジェクタはユーザ・インタラクションに対応する物理的ドキュメントに視覚可能なフィードバックを投影してもよい。その他のステップS104において、たとえば、対応デジタル・ドキュメントを操作することによって、もしくは、物理的ドキュメントに関するその他のアプリケーションを制御することによって、コンピュータもしくはその他のプロセッサは、コンピュータとのユーザ・インタラクションとを連動させる。
【0047】
本発明の実施例に係るシステムは、包括的なドキュメント認識、細かい粒度のドキュメント・コンテンツ検出、正確な投影補正、両手によるハイブリッド・ペーパ・コンピュータ入力など、のユニークな処理を可能にする。これらのすべてについて、以下により詳細に記載する。
II.ポータブル・ユーザ・インタフェース・ハードウェア
【0048】
実施形態のいくつかにおいて、カメラおよびプロジェクタは、図5に示されるように、カメラ・プロジェクタ・ユニット122として統合されていてもよい。本実施形態では、たとえば、USBケーブルによってコンピュータ106と接続されるスタンドアローン・ユニットとして記載されているが、カメラおよびプロジェクタはコンピュータ106に部分として埋め込まれていてもよい。スタンドアローンの形態であることは構成要素、物理的ワークスペース、デジタル・ワークスペースの空間的配置により柔軟性を付与する。図2の実施形態はフレームワークの単なる例示に過ぎず、本発明はこれに限定されるものではない。図5に示すように、カメラ・プロジェクタ・ユニット122はフレームワークおよびワークスペース全体にわたる底面に水平に配置されていてもよい。カメラ・プロジェクタ・ユニット122の光路124は、コンパクトな形態で物理的デスクトップ・ワークスペース110の比較的大きなエリアをカバーするように、2つのミラー126によって(図示しない)折畳み可能なフレーム上に拡張される。この特徴はモバイル環境にあるユーザにとって重要である。実施形態のいくつかにおいて、物理的ドキュメント・ワークスペース110の表面への指先またはペン先130の接触を検出するために、タッチ検出手段128をカメラ・プロジェクタ・ユニット122の底面に配置してもよい。本発明のシステムの一つでは、無害な拡散レーザ光132のたいへん薄いシートがテーブル上に広げられる。これにより、物理的ドキュメント・ワークスペース110の表面をタッチする指130は、カメラによって取得されるビデオ・フレームにおいて赤色ドット134として示される。
【0049】
III.カメラ処理手段
カメラ処理手段は、コンテンツを含む物理的ドキュメントを認識し、プロジェクタの視覚可能な出力を調整するために、ドキュメントの動きを追跡する。カメラ処理手段は、以下でより詳細に記載する指先およびペン先の検出、追跡、座標系変換も実行する。既存のプラクティスと共存することができるように、コンテンツ・ベース・ドキュメント認識アルゴリズムがカメラの視野におけるペーパ・ドキュメントを認識するために選択される。実施形態のいくつかにおいて、物理的ドキュメントと区別可能であるような、何も付けていない指先またはペン先を検出し、追跡するために、カラー・ベース・アルゴリズムが使用される。この解析にもとづいて、指もしくはペンの物理的ドキュメントとのインタラクションが、ドキュメントのコンピュータ画面に表示されている対応デジタル・バージョンへのマウス・ポインティング・オペレーションに変換(マッピング)されてもよい。リアル・タイム処理を実行するために、比較的遅いが比較的正確な認識アルゴリズムと、比較的早いが比較的不正確なフレーム間追跡アルゴリズムと、を組み合わせてもよい。比較的正確な認識は、ユーザのリクエストに応じて、もしくは、固定時間間隔(たとえば、1〜2秒間隔)で自動的に、実行される。この結果にもとづいて、カメラによって取得されたビデオ・フレームにおけるペーパ・ドキュメントの正確な位置を、2つの連続的なフレームの追跡結果によって推定する。認識セッションの各々が、累積エラーを低減するために追跡手段をリセットする。追跡アルゴリズムはカメラ画像のオプティカル・フローもしくはコーナー特徴にもとづいていてもよい。実施形態のいくつかにおいて、使用されるアルゴリズムは非特許文献7に開示されているものであってもよいが、その他のアルゴリズムをドキュメントの位置および動きを追跡するために使用してもよい。
【0050】
「物理的ドキュメント認識」
本発明のシステムの実施形態は、バーコードや特別なデジタル・ペーパを使用することを必要とせずに、通常の一般的なプリントされたドキュメントをそのまま識別するコンテンツ・ベース・ドキュメント画像認識アプローチを利用する。したがって、本発明のシステムは、既存のドキュメント処理プラクティスと完全に共存可能であり、新聞、レシート、一般的なプリントアウトなどの任意のタイプのドキュメントに使用可能となるので、広い範囲に適用可能である。ドキュメント画像を認識するために使用することができるアルゴリズムはいくつかあるが、この実施形態では、FIT(Fast Invariant Transform)処理を選択する(非特許文献8)。FITは汎用的な画像特徴記述子の一つであり、したがって、適用することができるドキュメント・タイプの範囲が広く(たとえば、テキスト、図形、写真など)、言語に依存しない。FITは検索時間および特徴記憶の点からも効率的である。部分的なオクルージョン、輝度変化、拡大縮小、回転、遠近歪みにロバストであるように、画像特徴点における局所特徴を、FITでは利用する。
【0051】
本発明のシステムの実施形態の一つにおいて、ユーザがドキュメントをプリントする場合、特別な機器を搭載したプリンタ・ドライバがドキュメントデータを取得し、該ドキュメントデータをサーバに送信する。サーバはドキュメント中の各ページの画像特徴点を識別し、各点における40次元のFIT特徴ベクトルを計算する。ベクトルは、ANN(Approximate Nearest Neighbor:最近傍)対応探索のツリー構造にクラスタリングされる。ドキュメントの各ページのテキスト、図、ホットスポット(hot spots)などのその他のメタデータを抽出し、サーバでインデックスを付与する。同様な特徴計算を続くクエリ画像に適用し、結果として取り出された特徴をツリー構造と比較する。クエリ画像の特徴点がインデックスの特徴点と(いくつかの数値的な類似度測定によって)類似するならば、2つの点は適合し、それらは「対応する」ものと見なされる。(ある閾値より高く)もっとも適合するページは、画像のオリジナル・デジタル・ページとして使用される。
【0052】
「ペン先および指先の検出」
実施形態のいくつかにおいて、カラー・ベース(色基準)の方法は、一般的には物理的ドキュメント自身である背景と対照的な指もしくはペンの色にもとづいて指先もしくはペン先を追跡する。カラー・ベースの方法は、指先もしくはペン先の色が背景と区別可能であることを前提とする。指先を検出するために、固定カラー・モデルを肌色検出のため使用し、ペン先を検出するために、色相ヒストグラム逆射影(back-projection)のために予め取得したペン先画像を使用する。しかしながら、本発明は上記に限定されるものではなく、その他の方法を使用してもよい。
【0053】
検出点Ptの位置におけるノイズを低減するために、ポスト・フィルタがPt値に適用される。Ptは、指先もしくはペン先の動きが閾値を越える場合のみ更新される。さらに、指もしくはペンによるオクルージョンを避けるために、検出される指先もしくはペン先の上に固定の距離を離隔して投影されるカーソルを設定するようにしてもよい。ペン先および指先の処理は同様なので、以下に記載するペン関連技術は特に注釈が付されない限り、指先によるインタラクションにも適用可能である。
【0054】
「タッチ検出」
本発明のシステムにおいて、ペンおよび指によるタッチを検出する多くの既知の手段がある。既知の手段は、指の影を用いて指から表面までの距離のおおよその値を求めることや、前述の形態で示したように、台に近いオブジェクトを容易に検出するために台上に薄いシート状のレーザ光を拡散させること、を含む。
【0055】
「細かい粒度でのデジタル・インタラクションと物理的インタラクションとのマッピング」
細かい粒度で、カメラによって取得されたペン・ペーパ・インタラクション(たとえば、ペーパ・ドキュメント上の単語をペンで指し示す)を解釈するために、少なくとも一つのカメラ画像から少なくとも一つの同一のデジタル・ドキュメント・ページへの正確な座標変換を決定すべきである。これにより、プリント・スタイルやペーパ・シートの空間的配置の変更に対応することが可能となる。既存のシステムは紙片の境界を検出し、囲まれている四角形を矩形のデジタル画像へマッピングする。この方法は粗い粒度のインタラクション(たとえば、ビデオを何も記載されていない一枚の用紙上に投影する)には十分よい。しかしながら、この方法は、粒度が、単語レベルでのインタラクションや記号レベルでのインタラクションに十分な程正確ではない。なぜならば、図6に示すように、プリントアウトの周囲のマージンは、プリントされたコンテンツ112と対応するデジタル・ドキュメント・ページ118との間のマッピングを不正確にするからである。マージンはプリンタ毎に異なるかもしれない。(紙片の一方の面に複数のデジタル・ページをプリントする)Nアップ・プリントおよびページの重なりは、この状況を悪化させるが、Nアップ・プリントやページの重なりはかなり一般的に発生する。
【0056】
既存システムの限界に対処するために、図7に示すように、カメラ基準フレーム136と認識されたデジタル・ドキュメント基準フレーム138との間のホモグラフィック変換Hrを導き出すために、カメラ画像の特徴点と認識されたデジタル・ドキュメント・ページの特徴点との間の対応を利用する。変換行列は、カメラ基準フレーム(カメラ・ビデオ・フレーム)136と認識されたデジタル・ドキュメント基準フレーム(デジタル・ドキュメント画像)138との間の一対一特徴点対応から導き出される。認識対象となるドキュメント画像はコンピュータのデータベースに記憶されてもよい。実施形態のいくつかにおいて、少なくとも4対の特徴点ペアが必要とされる。N(N>4)対のペアについて、最適な変換行列を検出するために、最小二乗法を用いることができる。マッピングの精度を向上させるために、外れ値(outliers)を除去するように、RANSAC(RANdom SAmple Consensus)に類似したアルゴリズムを適用する(たとえば、非特許文献9)。Hrによって、カメラ・ビデオ・フレーム136において検出された指先もしくはペン先は、認識されたデジタル・ドキュメント画像138の座標系のポイント140に容易にマッピングされる。このマッピングにもとづいて、ペーパ・ドキュメント上の指/ペン・インタラクション142はコンピュータのデジタル・オペレーションに変換される。
【0057】
実施形態のいくつかにおいて、一般的に、物理的ドキュメント・ワークスペース上の任意のポイントとのインタラクションをサポートするために、任意のポイントはペーパ・ドキュメント内にある必要はない。アンカー・パッド144をテーブル基準フレームを決定するために使用する。アンカー・パッド144はサイズが既知である、たとえば、矩形の濃色のペーパ・シートであってよく、その4つのコーナーはテーブル基準フレームの固定座標の4つのポイント(たとえば、(1,1)、(1,2)、(2,1)、(2,2))を決定する。較正を行う間に、カメラはその視野におけるアンカー・パッドの4つのコーナーを検出し、図7に示すように、台(もしくは物理的ドキュメント・ワークスペース110)とカメラ基準フレーム136との間のホモグラフィック変換Hcを導き出す。台の表面(物理的ドキュメント・ワークスペース)110はつねに平面であり、台に対するカメラの姿勢は固定されているものと仮定する。したがって、Hcは一定であり、一度だけ較正すればよい。
【0058】
「セミ・リアル・タイム処理」
ペーパ上のリアル・タイム・インタラクションは、15フレーム毎秒(fps)より早い画像処理速度を必要とするかもしれない。しかしながら、一実施形態のシステムは、計算処理がたいへん複雑であるため、その画像処理速度は現在おおよそ1fpsである。一方、オプティカル・フローなどのドキュメント追跡技術はリアル・タイムでページの相対的移動を推定することができるが、累積的な誤差が生じるかもしれない。オプティカル・フローとは、(オブザーバ(目もしくはカメラ)とシーンとの間の相対的な動きによって生じる)視覚可能なシーンにおけるオブジェクト、面およびエッジの明確な動きのパターンである(非特許文献10参照)。ドキュメント認識およびドキュメント追跡はハイブリッド・ドキュメント追跡のために組み合わされてもよい。実施形態のいくつかにおいて、本発明のシステムは一定期間ごとにビデオ・フレームを認識し、Hrを導き出す。その結果にもとづいて、以降のビデオ・フレームのHrが2つの連続するフレーム間のオプティカル・フローによって推定される。累積誤差を低減するために、認識セッション毎にオプティカル・フロー検出をリセットする。
【0059】
IV.プロジェクタ・プロセッサ
プロジェクタ104は、物理的ドキュメント112および物理的ドキュメント・ワークスペース110に、直接、視覚可能な動的フィードバックを行うことができる。2つの投影タイプ、すなわち、局所投影と大域投影とがある。
【0060】
「局所投影」
図7に示すように、局所投影によれば、投影される画像146はつねにペーパ・ドキュメント112のプリントアウト基準フレームに揃えられる。しかしながら、ペーパ・ドキュメントはユーザ・インタラクションの間に動かされるかもしれない。局所投影は、通常、特定のペーパ・ドキュメント・コンテンツのトップに情報を重ね、ペーパとともに移動しなければならない。一例として、投影された境界ボックス146は、図7に示すように、ペーパ・ドキュメント112の単語「FACT」を強調する。
【0061】
局所投影は、通常、(対応するデジタル・ドキュメント基準フレームのポインタ・オペレーションにまずマッピングされる)ペン・ペーパ・インタラクションの結果として行われる。プロジェクタのフィードバック情報は同様の基準フレームにおいて直接的に決定される。たとえば、図7に示すドキュメント基準フレーム110の位置(5,5)で単語「FACT」を指し示すペン先142を検出すると、基準フレームの位置(5,5)にサイズ10×5の矩形ボックス146をフィードバックとして生成する。ペーパ・ドキュメント112の単語に合わせられた正しい矩形投影を生成するためにプロジェクタ基準フレーム148にこのボックス146を正確にマッピングすることが課題である。
【0062】
ハードウェア環境はマッピングを決定する際に適している。カメラ、プロジェクタ、台表面の相対的な位置は固定されており、台は平面であると仮定する。したがって、カメラ基準フレーム136とプロジェクタ基準フレーム148との間のホモグラフィック変換Hpは固定されている。その結果として、ドキュメントとプロジェクタとのマッピングはHp−1*Hr−1と記述することができる。実施形態のいくつかにおいて、Hpは単純な一度の較正で導き出される。既知のパターンを含む予め記憶されている画像が台表面に投影され、カメラによって取得される。投影された画像と取得された画像との間の(N個の対応ペア:N≧4)特徴対応を検出することによって、Hpの値が取得される。
【0063】
投影変換はコンテンツ・ベース・カメラ・ドキュメント変換を基礎とする。ドキュメント・ページが変わると(複数のドキュメント・ページを一つのビデオ・フレームにおいて認識してもよい)、もしくは、カメラの視野において移動しているドキュメントの位置が変わると、投影変換は変化する。投影変換はプリント・マージン、Nアップ・プリント、部分的オクルージョンに影響されにくい。投影変換がこのように影響を受けにくいことは、下地となるドキュメントの詳細に投影される視覚可能なフィードバック146を正確に合わせる上で重要である。
【0064】
「大域投影」
局所投影と異なり、大域投影は、台基準フレーム110に投影146を合わせる。大域投影はペーパの動きに影響されない。全体ドキュメントの生成時間、関連基準などの特定のドキュメント・ページに関連しない大局的情報のいくつかが、通常、採用される。電子メール報知、インスタント・メッセージ・ダッシュボード、システム・パフォーマンス・モニタなどのアプリケーションのために、コンピュータ表示を拡張するために、周辺表示手段として使用されてもよい。
【0065】
大域投影の主な問題は、プロジェクタの光軸と投影面の法線(もしくは、投影面に垂直な方向)とが位置合わせされていないと、投影された画像に遠近歪みが生じることである。実施形態のいくつかにおいて、投影されている画像146の逆歪み(reverse-distortion)によって、該投影された画像を修正することができる。投影平面110(すなわち、台)からプロジェクタ基準フレーム148への座標変換を決定することが重要である。上記したように、台カメラ変換Hcおよびプロジェクタ・カメラ変換Hpはすでに知られている。したがって、台プロジェクタ・ホモグラフィック変換はHp−1*Hcから導き出すことができる。
【0066】
V.ページ上の細かい粒度のインタラクション
基礎となるカメラ・プロジェクタ入力/出力手段にもとづいて、本発明の実施形態は、ペーパ・ドキュメントの柔軟性および有利性を犠牲にすることなく、コンピュータと同等のユーザ・エクスペリエンスを達成するために、ペーパでの細かい粒度のドキュメント・コンテンツ操作のためのインタラクション技術を提供する。実施形態のいくつかにおいて、物理的ドキュメント・ワークスペースにおける第一の手からのカメラ入力と、デジタル・ドキュメント・ワークスペースを操作するための第二の手からのキーボード入力およびマウス入力と、を混合することによって両手によるクロス・メディア・インタラクションを提供することもできる。両手によるインタラクションは、密に結合されたインタラクティブ・スペースとしてペーパとコンピュータとをさらに統合する。
【0067】
図8は、ペーパ上で細かい粒度のインタラクションを行う方法の実施形態におけるデータ・フローの概観を示す。第1のステップS201において、局所的視覚可能特徴セット{F1,...,Fn}を取得するために画像特徴抽出手段にカメラ画像が提供される。ステップS202において、特徴とドキュメント画像特徴データベースの特徴とをマッチングする。カメラ画像において物理的ドキュメントのオリジナル・デジタル・ページとして、閾値を越える適合特徴{Vi:ページiの適合特徴セット,i=1,...,m}を有するm個のドキュメント・ページ{P1,...Pn}を採用する。特徴点対応にもとづいて、本発明のシステムは、ステップS203において、カメラ画像から適合デジタル・ページJ,J=1,...,mまでのホモグラフィック変換を導き出す。ペン先の位置がステップS204で検出される。ステップS205において、この変換は、注目されている(ペン先が指し示している)特定のドキュメント・ページPfを決定するために、カメラ画像において検出されたペン先の位置Tpと組み合わされる。次に、ペン指示は、デジタル・ページPfにおいて、位置Tf=Hf*Tpにおける等価なマウス指示として解釈される。ステップS206のジェスチャ処理において、ペン・ベース・コンピュータのように、システムはジェスチャ・ストロークとしてポイントのサンプルを累積し、メタデータ・データベースから特定のドキュメント・コンテンツ{T1,...,Tk}を選択する。メタデータ・データベースは、登録されているドキュメント・ページの各々について、高解像度バージョン、テキスト、単語および記号の境界ボックス、ハイパーリンクなどを記憶する。ステップS207では、システムは、現在のカーソル、注目されているページ、変換精度、ジェスチャおよび選択されたドキュメント・コンテンツを示すためにフィードバック情報を生成する。ステップS208で、該フィードバック情報はペーパに視覚可能なフィードバックを重ねるために投影画像に変換される。
【0068】
実施形態のいくつかにおいて、システム100は、ペーパ112から対応するデジタル・ドキュメント138にペン先入力142をマッピングし、視覚可能なフィードバック146をペーパに投影する。この機構によって、ペーパ・ドキュメントおよび物理的ドキュメント・ワークスペースは触覚ディスプレイのように扱われる。したがって、従来のペンもしくはスタイラス・タイプのコンピュータ・オペレーションが物理的ドキュメントに拡張される。
【0069】
実施形態のいくつかにおいて、現在の入力モードが「インク」であるか「ジェスチャ」であるか、に応じて、ペン入力は自由形式の手描きであるか、コマンド・ジェスチャであるか、が解釈されてもよい。「インク」モードにおいて、入力は書き込まれた注釈として記録される。該入力は対応するデジタル・ドキュメントに記憶され、その後、レビューのために取り出されてもよいし、該デジタル・ドキュメントを見る遠隔の共同作業者とネットワークを介して共有されてもよい。本物のインク・ペンが使用される場合、ペーパに残されるインクは、デジタル・バージョンより忠実度が高い。したがって、代替的な実施形態においては、ペーパからインクによる注釈を抽出するためにインク・リフト技術(ink lifting techniques)が使用されてもよい。「ジェスチャ」モードにおいては、ペン入力がコンピュータ・コマンドを構築するために使用される。該コンピュータ・コマンドは、ドキュメント・セグメント上に実行されるべきコマンドおよび所望されるアクションのためのターゲット・セクションとして一つ以上のドキュメント・セグメントを含む。ユーザは、個別の単語、文字、記号、画像、アイコン、様々な機能のための任意の領域もしくは形状を選択するために、物理的ドキュメントにペン・ストロークを描いてもよい。
【0070】
「コマンド・ターゲットの選択」
通常のペン・ベース・インタフェースのように、入力には2つの基本的な状態がある。すなわち、「ホバー」と「タッチ」である。実施形態のいくつかにおいて、「ホバー」状態ではペンは表面に接触することなく、ペーパの上にある。ユーザは、意図する単語に、投影されたカーソルを向かわせるために、ペンを動かすことができる。任意のタイミングで、ポインタ(ペン先)に最も近い1つの単語全体がプロジェクタ・フィードバックによって強調される(146)。実施形態のいくつかにおいて、入力モードが「タッチ」状態に変更され、ペンが物理的ドキュメントの表面に接触(タッチ)すると、ペン入力は次のアクションのためにドキュメント・コンテンツを選択するためのジェスチャとして解釈される。表面からペンが離されると、該ジェスチャは終了する。
【0071】
単語、記号、その他のドキュメント・コンテンツを選択するための多くのタイプのジェスチャがある。図9(A)に示すように、「ポインタ」150は所定のオブジェクト(たとえば、単語、東アジアの文字、数学記号、アイコン)とのポイント・アンド・クリック・インタラクションに適している。図9(B)に示すように、「アンダーライン」152はテキスト行もしくは楽譜の小節154を選択するために使用される。図9(C)に示す「曲線(bracket)」156および図9(D)に示す「縦線」158が文および複数行のテキストのセクションを選択するために使用される。図9(E)に示す「囲み線(lasso)」162および図9(F)に示す「斜め線(marquee)」164が任意のドキュメント領域166および168を選択するために使用される。図9(G)に示すように、「経路」170がマップ172の経路を設定するために使用されてもよい。図9(H)に示す「フリーフォーム」174は任意のタイプの入力ジェスチャであってよく、アプリケーション特定の方法で解釈されてよい。理解が容易となるように、ジェスチャおよび選択されたドキュメント・コンテンツが図9(A)〜図9(H)において強調されている。しかしながら、本発明のシステムにおいて、ジェスチャはプロジェクタから投影されるフィードバックによってペーパに描かれる。
【0072】
実施形態のいくつかにおいては、システム実装を単純にするために、マルチ・ストロークをサポートせず、ジェスチャ認識も実行しない。しかしながら、所望されるのであれば、システムはマルチ・ストロークをサポートし、ジェスチャ認識を実行してもよい。このような実施形態において、ユーザは、ジェスチャを行う前に、手動でジェスチャ・タイプを選択する必要がある。
【0073】
上記オペレーションを実装するために、メタデータがシステム・データベースに記憶されているデジタル・ドキュメントの各々から抽出される。このようなメタデータは、ドキュメント基準フレームの単語、文字、アイコンの境界ボックス(位置およびサイズ)、ドキュメント基準フレームの単語、文字、アイコンのテキスト、および、もしあれば、関連するURL(uniform resource locations)を含んでもよい。メタデータはコマンド・ターゲット(たとえば、アンダーラインを引くジェスチャによって選択された単語)を設定するためにペン入力と結合され、ペーパへの視覚可能なフィードバック(たとえば、選択された単語を強調するための白い矩形ブロック)を生成するためにも使用される。
【0074】
VI.ジェスチャのコンテキスト・アウェア(前後関係感知)・フィードバック
ジェスチャに応じて投影されるフィードバックはペーパ・ドキュメントのオリジナルの視覚可能な特徴に生じ得る干渉を制限するように特別に設計される。さもなくば、物理的デジタル・インタラクション・マッピングの正確さが落ちるかもしれない。第一に、ジェスチャ・ストロークの描画は、可能であれば、行わない。たとえば、フィードバックは、アンダーライン、曲線(Bracket)、縦線ジェスチャによって選択されたテキストについてのみ投映し、未処理ジェスチャ・ストロークについては描画しない。第二に、可能な限り、(囲み線(lasso)およびフリーフォーム・ジェスチャを除いて、)細い直線セグメントを投影に使用する。細い直線は、複雑なパターンに比べて少ない特徴点を生成するからである。第三に、大きい強調領域を明るい色で塗りつぶさない。大きい強調領域を明るい色で塗りつぶすことによって生じるグレア(glare)はオリジナルのドキュメントの視覚的特徴を歪曲するかもしれないからである。最後に、実施形態のいくつかにおいて、一般的なコンピュータ・インタフェースのように、コンテンツの個別の部分を別個に強調する代わりに、投影されるフィードバックは、図10に示されるように、選択されたコンテンツ177のもっとも外側の輪郭175のみに配置してもよい。輪郭強調は所望されない画像特徴をさらに低減するために有用である。
【0075】
「コマンド・アクションの選択」
図11(A)において、コマンド・ターゲット176が特定された後、ユーザはメニュー178から所望のアクションを選択する必要がある。アクション・メニュー178は、図11(A)に示すように、ペーパ112上でジェスチャ180の終端点の右隣に、直接投影されてもよい。このような「インプレース(in-place)」・メニュー178は、ペンおよび指の動きをあまり必要とせず、ジェスチャおよび選択を滑らかに行うことができるようになる。しかしながら、図11(A)に示すように、投影されたメニュー178は下にあるテキストや写真によって隠されてしまうかもしれず、この場合、アクション・メニュー178のテキストを読むことは困難になる。このような状況は、(現実の作業環境ではよくあるように、)周囲の環境が明るく、プロジェクタの輝度が限定されている場合、さらに悪化する。いくつかの適応的放射分析補償方法(adaptive radiometric compensation methods)が、オリジナル画像とほぼ同様の最終投影外観を生成するように投影画像を調整するために提案されているが、これらの方法は、テキストやマップなどのように、コントラストが高く背景領域が複雑である場合適正に働かない。
【0076】
解決方法の一つはメニューを適応的に配置することである。この場合、システムは自動的にもっともオクルージョンが少ない領域にメニュー178を投影する。実施形態のいくつかにおいて、これは、テクスチャがもっとも少なく投影領域内のコマンド・ターゲットから最短の領域を探索することによって実行される。基準の双方を満足する領域がない場合、最適な領域を選択するために重み付け関数を採用することができる。テキストの空間的分布は、図11(B)にドットで示すように、カメラ画像の上記FIT特徴ポインタ182の分布によって近似されてもよい。FIT特徴ポインタはドキュメント認識の副産物であり、追加時間はほとんどかからない。図11(C)に示すように、アルゴリズムは空いている適当な領域184を検出し、該領域に適合するようにメニュー178の大きさを(該メニューが判読できる程度に)調整する。実施形態のいくつかにおいて、このようなアルゴリズムは非特許文献11に開示されているアルゴリズムに類似するものであってよい。さらに、たとえば、図11(D)の分割されたメニュー186によって示されるように、インタフェースの整合性が維持される限り、メニュー・ウィンドウ178自身が、オクルージョンがない一つ以上の領域にもっともよく適合するように変更されてもよい。実施形態のいくつかにおいて、ユーザがメニューを見付けることが容易となるように、コマンド・ターゲットから該メニューへの矢印が投影されてもよい。
【0077】
メニューを配置するために適した場所がない場合、コマンド・アクション・メニューは、オクルージョンの問題に影響されないコンピュータ画面に表示されてもよい。一貫性のあるユーザ・エクスペリエンスのためにコンピュータ画面上の固定された位置にメニューを表示することができる。ユーザは通常ペーパ・ドキュメントに実行されるコマンド・ターゲットの結果を知るためにコンピュータ画面を見る必要があるが、該コンピュータ画面にメニューを表示することによって、ペーパと該コンピュータ画面との間で目の焦点を切り替える必要性を低減することができる。
【0078】
「認識の失敗に対する処理」
上記細かい粒度のインタラクションは正確なドキュメント認識および座標変換に依存する。しかしながら、認識は照明条件がよくなかったり、ペーパに歪みがあったり、ドキュメントに索引が付与されていなかったりすることによって、失敗することもあるかもしれない。また、行列変換は特徴点対応が不十分であるために不正確なものであるかもしれない。このようなエラーを補うように、ペーパ・インタラクションを強化するためにコンピュータを利用することができる。
【0079】
ペーパ・ドキュメント認識が失敗すると(すなわち、適合する特徴点の数が閾値より少ないと)、本発明のシステムによる実施形態のいくつかにおいて、ユーザは上位N個のリストもしくはデータベース全体から対応するデジタル・バージョンを選択することができる。データベースに存在しないインデックスを付与されていないドキュメントの場合、ユーザはカメラを静止画像モードに切り替え、ドキュメントの高解像度写真を撮影し、該写真に手動でインデックスを付与してデータベースに記憶する。本発明のシステムは、テキスト・メタデータを生成するために写真(picture)に文字認識(OCR)を適用してもよい。
【0080】
物理的ドキュメントの対応デジタル・バージョンが検出され、(適合する特徴点の数の推定にもとづく)変換行列の正確さが十分でない場合、本発明のシステムはデジタル・プロキシ技術を使用する。該デジタル・プロキシ技術は初期の粗いインタラクションにペーパ・ドキュメントを使用し、細かいインタラクションにコンピュータを使用する。図12に示すように、第一の手188がペーパ・ドキュメント112上に現れると、対応デジタル・ドキュメント・ページ138の全体が検索して取り出され、画面108のポップアップ・ウィンドウ190に表示される。ユーザは、次に、たとえば、ページの選択領域196をコピーすることによって、細かい粒度でデジタル・ドキュメント138を操作するように、マウス194などのコンピュータ入力デバイスを操作するために第二の手を使用することができる。
【0081】
上記した指もしくはペンによるジェスチャも同様にコンピュータに適用することができる。(図示しない)コンピュータにジェスチャを適用する方法の実施形態のいくつかにおいて、指もしくはペンによるジェスチャ操作が行われると、ユーザは第一の手をカメラの視野の外に出す。これに応じて、デジタル・プロキシ・ウィンドウを縮小してアイコンに変化させ、画面は、たとえば、コピーされた図を他のドキュメント・ファイルにペーストするような、クロス・メディア・オペレーションの次のステップのために以前の状態に戻る。ペーパ・ドキュメントの操作は迂回されるので、変換Hrが不正確であることは重要ではない。
【0082】
VII.物理的ドキュメントおよびデジタル・ドキュメントとの両手同時インタラクション
ドキュメントへの作業者による操作に関する以前の研究を見ると、ドキュメントの使用に関連する作業者は、参照、比較、照合、要約などの複数のドキュメントへの作業に時間の半分を費やしている。画面のサイズが限定されているポータブル・コンピュータの場合、マルチ・ドキュメント・インタラクションの画面を拡張するために、ペーパ・ドキュメントがよく使用される。しかしながら、このようなインタラクションは、画面上の通常のマルチ・ウィンドウ・オペレーションより複雑である。なぜならば、ドキュメントは異なるメディア(媒体)にあり、入力方法が異なるかもしれないからである。たとえば、ユーザはペーパからコンピュータへ図をコピーすることを所望したり、ウェブ・ページとペーパ上の単語とを関連付けることを所望したり、ペーパ・マップ上の位置を検出するためにコンピュータ上のストリート・ビュー・マップを使用することを所望したりするかもしれない。ペーパへの入力デバイスは、主に、指もしくはペンであり、コンピュータへの入力デバイスは、主に、キーボードもしくはマウスである。これらのクロス・メディアな複数のドキュメント・オペレーションにおいて、片方の手によるインタラクションはユーザに入力デバイスを切り替えることや身体の姿勢を変えることを要求するが、これは、不便である。
【0083】
したがって、本発明の実施形態のいくつかは、ユーザがペーパ上のオペレーションを実行すために一方の手を使用し、コンピュータ上のオペレーションを実行するために他方の手を使用することができるように、クロス・メディアな両手インタラクションをサポートする。カメラおよびコンピュータからの2つの入力ストリームは複数のドキュメント操作をサポートするために連動される。
【0084】
クロス・メディア・インタラクションのための方法の実施形態のいくつかにおいて、情報転送をサポートするために両手によるクロス・メディア・インタラクションを使用してもよい。たとえば、ユーザがよく知らない言語が日本語であって「富士」という単語がペーパ・ドキュメント上にあり、該単語についての情報を取得するために、ユーザは第一の手で該文字もしくは単語を指し示す。次に、ユーザは、第二の手で「ウェブ検索」などのコンピュータ上のコマンドを選択する。これに応じて、システムは選択されたテキストをコンピュータに送信する。コンピュータはウェブ検索を実行し、結果をユーザに表示する。同様に、ユーザは、ペーパ・ドキュメント上の写真を囲み線で容易に囲むことができ、次に、該写真をコンピュータ上のワープロ・ドキュメントもしくはその他のドキュメントにコピーすることができる。その他の実施形態において、情報転送の向きが逆であってもよい。マルチメディア注釈がコンピュータからペーパ・ドキュメントに投影されてもよい。該注釈はペーパに投影されるアイコンによって示され、ダブル・クリックによって再生されてもよい。ペーパとコンピュータとの境界にわたって、2つのドキュメント・セグメントをリンクする情報の関連を自然に確立するために、両手が使用されてもよい。たとえば、将来、ペーパの日本語を選択すると、コンピュータ画面のリンクされたウェブ・ページが表示されるように、ユーザはペーパ上の日本語に百科事典もしくは辞書のウェブ・ページをリンクしてもよい。ユーザは複数の表示を操作するために、同時に同一の複合ドキュメント(compound document)の異なる表示を操作することができる。たとえば、図13に示すように、コンピュータ画面108の対応位置にあるストリート・ビュー画像120を表示するために、第一の手188によってプリントされているマップ172の位置198を選択し、次に、マウス194を制御し、選択されたマップの位置198に対応する対応ストリート・ビュー表示120の周囲をナビゲートするために第二の手192を使用してもよい。
【0085】
VIII.ペーパ・ドキュメント・インタラクションのための両手ハイブリッド入力
両手入力はクロス・メディア・オペレーションのためだけでなく、単一メディア・オペレーションにも使用することができる。本発明のシステムはコンピュータ入力によるペーパ・オペレーションの拡張をサポートする。これは、カメラ・プロジェクタ・ユニットおよびコンピュータの相補的な情報によって動機付けされる。カメラ・ベースの指による入力は、ペーパ操作において自然ではあるが、通常あまりロバストではなく、マウスやキーボードによる入力に比べて入力サンプリング・レートが低い。これは、ペーパ・インタラクション(特に、細かい粒度のインタラクション)についてのユーザ・エクスペリエンスを比較的低下させる。(たとえば、両手クロス・メディア・インタラクションを行っており、)ペーパ上で一方の手だけでジェスチャを行う場合、指もしくはペン入力による問題は大きくなるかもしれない。なぜならば、コンピュータに入力を提供する他方の手の指とペーパとの接触による干渉がペーパ・シートの所望しない動きの原因となるかもしれないからである。
【0086】
ハイブリッド・システムの利用可能な情報を最適に使用するために、実施形態のいくつかにおいて、キーボードおよびマウス入力はリダイレクトされる入力であってよく、ペーパ・ドキュメントにフィードバックされてもよい。該入力は、次の細かい粒度のインタラクションのために、カメラ入力と結合されてもよい。たとえば、図14(A)〜(C)に示すように、ペーパ・ドキュメント112の矩形領域200を選択するために、マウス194に第二の手192を置いたまま、図14(A)に示すように、ユーザは、該領域のおおよその位置を第一の手188で指し示す。図14(B)において、カメラの視野で第一の手188の存在が検出されると、システムは、ペーパ・ドキュメント112上の指先204が検出されている位置にマウス・カーソル202を移動する。マウス・カーソル202はペーパ・ドキュメント112に投影されている。ユーザは、矩形領域200の上でマウスをクリックし、ドラッグするために、マウス194を操作する。これにより、図14(C)に示すように、初期の粗い選択からより高い忠実性で領域200を選択し直す。第一の手188は、ペーパの意図しない動きを避けるために、ペーパ・ドキュメント112の上にただ置いておかれればよい。
【0087】
(図示しない)コンピュータ・キーボードはペーパ・ドキュメントに高い忠実性のあるテキスト情報を付加するために使用されてもよい。たとえば、ユーザは、ペーパ上のドキュメント・セグメントを選択し、セグメントのテキスト注釈をタイプ入力してもよいし、選択されたペーパ・ドキュメント領域のOCRエラーを修正するためにキーボードを使用してもよい。たとえば、このようなキーボード入力は、半自動ペーパ・レシート転写アプリケーションにおいて特に有用である。本発明のシステムは、それゆえ、コンピュータ・ドキュメントとのインタラクションを拡張するだけでなく、ペーパ・ドキュメントとのインタラクションも拡張することができる。
【0088】
IX.物理的ドキュメントおよびデジタル・ドキュメントとの同時両手インタラクション
他の実施形態においては、カメラ入力とコンピュータ入力との融合を画面だけのインタラクションにも適用することができる。本発明のシステムは、デジタル・ドキュメントを制御するために、ペーパ・ドキュメント上のペン・ベースもしくは指ベースの指示をコンピュータにリダイレクトすることができる。ペン・ベースおよび指ベースの指示は、他のハードウェアを追加することなく、画面上でのマルチ・ポインタ・インタラクションのために、マウス入力と結合することができる。たとえば、物理的ドキュメント・ベース・ポインタおよびコンピュータ・ベース・ポインタによって、ユーザは写真を同時に拡大縮小するとともに回転することができる。その他の例において、図15に示すように、ユーザはペーパ上で第一の手188をフリックする(206:画面上を素早く払うようにタッチする)ことによって、ドキュメントをパンし(ドキュメントの表示を振り)、第二の手192でマウス194を操作することによって特定のコンテンツ208を選択することができる。その他の指ベースの入力を必要とせず、マウスをパンと選択タスクとの間で切り替える必要もない。上記両手インタラクションはマルチ・タッチ・インタラクションをサポートしない通常のコンピュータで有用である。
【0089】
X.応用
上記様々な実施形態におけるインタラクション技術はペーパとコンピュータとを混在して使用するための多くのシナリオに適用することができる。たとえば、ペーパ・レシート処理、ドキュメント操作およびマップ・ナビゲーションなどについて以下で詳細に記載する。しかしながら、これらは例示であり、本発明を限定するものではない。
【0090】
「レシート処理」
ペーパ・レシートはシンプルで、ロバストであり、かつ、既存のペーパ・ベース・ワーク・フローと適合性を有するために広範囲にわたって使用されている。しかしながら、ペーパ・レシートを新しいデジタル財務ドキュメント・ワーク・フローと統合することは(当事者にとって)退屈であり、時間を要する。多くのリサーチおよび様々な商用製品がこの領域で進展している。しかしながら、これらの多くは出費額、日付などの情報をレシートから完全に手書きで転写することを必要とする。OCRによってレシートから情報を自動的に抽出する場合もあるが、使いやすいエラー修正インタフェースがなく、他の制限も経理担当者の検証を困難にする。
【0091】
レシート処理の方法の実施形態のいくつかにおいて、本発明の上記システムは図16(A)〜(F)に示すようにレシートを処理することができる。図16(A)に示すように、レシート210がカメラの視野に置かれると、システムは以前検出したレシートを記憶している既存レシート・データベースから該レシートと同一のレシートのデジタル・バージョンを検出することによって該レシート210を認識しようとする。適合するデジタル・バージョンが検出されない場合、レシート210は新規なものとして扱われることになり、図16(B)に示すように、投影メッセージ212によってユーザにその旨を報知する("Your receipt is new")。システムは、レシートの高解像度写真214を撮影する。該写真は図16(C)に示すようにコンピュータ画面108に表示される。次に、高解像度写真214をシステム・データベースに記憶する。ペーパ・レシート処理の問題は、正確な座標変換のために十分な特徴点をレシートが有さないかもしれないことである。レシートのコンテンツは一般に通常のドキュメントより少ないからである。この場合、上記デジタル・プロキシ・ストラテジを使用することによって、ユーザは、類似のジェスチャおよび修正機構によって画面108上のレシート210を操作することができる。たとえば、図16(D)に示すように、OCRの特定の領域216(ここでは、日付)を選択するために、ユーザは(図示しない)アンダーラインを引くジェスチャを画面108上のレシートの写真214に直接行うことができる。実施形態のいくつかにおいて、OCRの結果218が検証のために領域216の隣に表示される。OCRの結果218が不正確であれば、ユーザは(図示しない)キーボードを使用して修正することができる。さらに、図16(E)に示すように、レシート処理アプリケーションはレシートの情報を入力するセル222を有するデータ入力ソフトウェア・アプリケーション220を含んでもよい。この実施形態では、ソフトウェア・アプリケーション220において転写されたセル値の各々は、情報が導き出されたレシートの写真214の関連する領域224にリンクされてもよい。これにより、ユーザは、図16(F)に示すように、セルを選択することによって、レシートの関連する領域224を強調して、該レシート210の写真214を検索して取り出し、セル222の各々の情報を容易に検証することができる。
【0092】
「ドキュメント操作」
上記したように、本発明のシステムは、ユーザがペーパ上で細かい粒度のドキュメント・オペレーションを行うことを支援する。ドキュメント・オペレーションには、たとえば、キーワード検出、コピー・アンド・ペースト、インターネット検索などがあるが、本発明はこれらに限定されるものではない。図17(A)に示すように、キーワード検出アプリケーションの実施形態において、ユーザは、ペーパ・ドキュメント112の単語230を選択するためにペン先228を使用することができるし、図17(B)に示すように、ドキュメントにわたるその(選択された単語の)存在232を検出するために(図示しない)キーボードを用いて任意の単語をタイプ入力してもよい。システムはドキュメントのフル・テキスト検索を実行し、(図示しない)プロジェクタを介して存在232の正確な位置を強調表示する。実施形態のいくつかにおいて、存在232のいくつかは投影領域の外側にあってもよい。その場合、プロジェクタは、図17(C)に示すように、特定の方向にある(選択された単語の)存在を示すために投影境界の付近に矢印234を表示してもよい。ユーザは、ドキュメントにおいてさらなる存在232を明らかにするために矢印234によって示される方向にドキュメント112を移動させてもよい。
【0093】
「マップ・ナビゲーション」
ペーパ・マップは、大きく、ロバストで、高品質の表示を提供するが、デジタル・マップで利用可能な動的な情報(道路周辺風景画像や動的交通情報など)は有さない。システムの実施形態のいくつかにおいて、図18(A)に示すように、ペーパ・マップ172とのインタラクションはコンピュータ画面108上のデジタル・マップ236と統合することができる。図18(B)に示すように、任意の特定のポイント238もしくは経路がペーパ・マップ172上で選択され、システムはユーザの選択を処理し、図18(C)に示すように、選択されたポイント238もしくは経路まで画面108上に対応するストリート・ビュー画像120をナビゲートする。その他の実施形態において、ユーザは、街路を車両で移動するためにストリート・ビュー・マップ・アプリケーションを操作してもよい。このような動きはペーパ・マップ上にプロジェクタによって強調して表示される。
【0094】
XI. コンピュータによる実施形態
図19は、本発明の手法が実装されるコンピュータ/サーバ・システム700の実施形態を例示するブロック図である。システム700は、指示を実行するための作業を行うプロセッサ(処理手段)702およびメモリ(記憶手段)703を含むコンピュータ/サーバ・プラットフォーム701を含む。「コンピュータ可読記憶媒体」は、たとえば、ディスク、半導体メモリなどの任意の有形の媒体であってよい。該コンピュータ記憶媒体はプロセッサ702に実行のための指示を提供する際に使用される。さらに、コンピュータ・プラットフォーム701は、キーボード、マウス、タッチ・デバイス、音声命令入力装置など、複数の入力デバイス(入力手段)704からの入力を受信する。コンピュータ・プラットフォーム701は、ポータブル・ハード・ディスク・ドライブ、光メディア(CD、DVD)、ディスク媒体、その他の任意の有形な媒体など、コンピュータが実行コードを読み取ることができる脱着可能な記憶デバイス(脱着可能記憶手段)705にさらに接続されていてもよい。コンピュータ・プラットフォームはさらにインターネットもしくはローカル・パブリック・ネットワークもしくはローカル・プライベート・ネットワークのその他の構成要素に接続するネットワーク・リソース706に接続していもよい。ネットワーク・リソース706は指示およびデータをネットワーク707の遠隔位置からコンピュータ・プラットフォームに提供してもよい。ネットワーク・リソース706への接続は、たとえば、802.11規格、ブルートゥース、ワイヤレス・プロトコル、セルラー・プロトコルなどのワイヤレス・プロトコルを介してもよいし、たとえば、金属ケーブルや光学繊維ケーブルなどの物理的な送信媒体を介してもよい。ネットワーク・リソースは、データや実行可能な指示を記憶する、コンピュータ・プラットフォーム701とは別個の位置にある記憶デバイスを含んでもよい。コンピュータは、その他の指示およびユーザからの入力を要求し、ユーザへデータやその他の情報を出力するためのディスプレイ(表示手段)708とインタラクションを行う。表示手段708はユーザとのインタラクションを行うための入力手段として機能してもよい。
【符号の説明】
【0095】
102 カメラ
104 プロジェクタ
110 物理的ドキュメント・ワークスペース
112 ペーパ
114 デジタル・ドキュメント・ワークスペース
116 ペーパ・コンピュータ調整手段
118 デジタル・バージョン
【特許請求の範囲】
【請求項1】
少なくとも一つの物理的ドキュメントを撮影して得られる画像に基づいて、前記画像中の前記物理的ドキュメントに含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をするとともに、前記画像特徴点の位置に基づいて特定される、該少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出するカメラ処理手段と、
前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影することで提供するプロジェクタ処理手段と、
を備える、情報処理システム。
【請求項2】
前記カメラ処理手段は前記少なくとも一つの物理的ドキュメントの細かい粒度のコンテンツを処理し、
前記細かい粒度のコンテンツは、個別の単語、文字、図形を含み、
前記カメラ処理手段は前記細かい粒度のコンテンツに関連するユーザ・インタラクションを検出する、
請求項1に記載の情報処理システム。
【請求項3】
前記プロジェクタ処理手段によって提供される視覚可能なフィードバックは前記物理的ドキュメントへのユーザ・インタラクションにもとづく、
請求項1に記載の情報処理システム。
【請求項4】
前記ユーザ・インタラクションは前記少なくとも一つの物理的ドキュメントに対して行われるジェスチャを含み、
前記ジェスチャは前記計算処理装置上の作業に対応する、
請求項1に記載の情報処理システム。
【請求項5】
前記ジェスチャは所定のタイプの視覚可能なフィードバックをもたらす所定の命令に対応する、
請求項4に記載の情報処理システム。
【請求項6】
前記計算処理装置へのユーザ・インタラクションを、前記プロジェクタ処理手段によって前記少なくとも一つの物理的ドキュメントへ提供される視覚可能なフィードバックに変換する、
請求項1に記載の情報処理システム。
【請求項7】
前記プロジェクタ処理手段は前記物理的ドキュメント以外の物理的面に視覚可能なフィードバックを提供する、
請求項1に記載の情報処理システム。
【請求項8】
折り畳み可能なフレームに統合されており、運搬可能であるカメラおよびプロジェクタと、
少なくとも一つのミラーと、
をさらに備え、
前記少なくとも一つのミラーは、前記フレームに取り付けられており、前記カメラおよびプロジェクタの光路を前記少なくとも一つの物理的ドキュメントへ反射するように、該少なくとも一つの物理的ドキュメントの上に配置されている、
請求項1に記載の情報処理システム。
【請求項9】
前記カメラ処理手段は前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、前記表示手段に表示するために該コンテンツに対応するデジタル・ドキュメントを取得する、
請求項1に記載の情報処理システム。
【請求項10】
前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションは前記対応するデジタル・ドキュメントへの対応インタラクションをもたらす、
請求項9に記載の情報処理システム。
【請求項11】
前記カメラ処理手段は、前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、該少なくとも一つの物理的ドキュメントに関連するデジタル・コンテンツを取得する、
請求項1に記載の情報処理システム。
【請求項12】
撮影された少なくとも一つの物理的ドキュメントの画像中に含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をし、
前記画像に基づいて、前記画像特徴点の位置に基づいて特定される、前記少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出し、
前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影し、
表示手段を有する計算処理装置へのインタラクションと前記少なくとも一つの物理的ドキュメントへの前記ユーザ・インタラクションとを連動させる情報処理方法。
【請求項13】
細かい粒度のコンテンツを識別するために前記少なくとも一つの物理的ドキュメントを処理し、
前記細かい粒度のコンテンツに関連するユーザ・インタラクションを検出する、
ことをさらに含み、
前記細かい粒度のコンテンツは個別の単語、文字、図形を含む、
請求項12に記載の情報処理方法。
【請求項14】
前記視覚可能なフィードバックは前記物理的ドキュメントへのユーザ・インタラクションにもとづく、
請求項12に記載の情報処理方法。
【請求項15】
前記ユーザ・インタラクションは前記少なくとも一つの物理的ドキュメントに対して行われるジェスチャを含み、
前記ジェスチャは前記計算処理装置上の作業に対応する、
請求項12に記載の情報処理方法。
【請求項16】
前記ジェスチャは所定のタイプの視覚可能なフィードバックをもたらす所定の命令に対応する、
請求項15に記載の情報処理方法。
【請求項17】
前記物理的ドキュメント以外の物理的面に視覚可能なフィードバックを提供する、
請求項12に記載の情報処理方法。
【請求項18】
前記計算処理装置へのユーザ・インタラクションを前記少なくとも一つの物理的ドキュメントへの視覚可能なフィードバックに変換する、
請求項12に記載の情報処理方法。
【請求項19】
前記少なくとも一つの物理的ドキュメントの詳細なコンテンツを操作するために、前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションを、該少なくとも一つの物理的ドキュメントへのユーザ・インタラクションと同時の前記計算処理装置へのユーザ・インタラクションに変換する、
請求項18に記載の情報処理方法。
【請求項20】
前記物理的ドキュメントの詳細なコンテンツは、前記少なくとも一つの物理的ドキュメントとインタラクトするために第一の手を用いたユーザ・インタラクションによって操作され、前記計算処理装置とインタラクトするために第二の手を用いたユーザ・インタラクションによって操作される、
請求項12に記載の情報処理方法。
【請求項21】
デジタル・ドキュメントの詳細なコンテンツは、前記物理的ドキュメントとインタラクトするために第一の手を用いたユーザ・インタラクションによって操作され、計算処理装置とインタラクトするために第2の手を用いたユーザ・インタラクションによって操作される、
請求項12に記載の情報処理方法。
【請求項22】
前記少なくとも一つの物理的ドキュメントとインタラクトするために、第一の手を用い、前記計算処理装置上のデジタル・ドキュメントとインタラクトするために、第二の手を用いて、該物理的ドキュメントの詳細なコンテンツと該デジタル・ドキュメントとを同時に操作する、
請求項12に記載の情報処理方法。
【請求項23】
前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、
前記表示手段に表示するために前記コンテンツに対応するデジタル・ドキュメントを取得する、
請求項12に記載の情報処理方法。
【請求項24】
前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションは前記対応するデジタル・ドキュメントへの対応インタラクションをもたらす、
請求項23に記載の情報処理方法。
【請求項25】
前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、
前記少なくとも一つの物理的ドキュメントに関連するデジタル・コンテンツを取得する、
請求項12に記載の情報処理方法。
【請求項26】
コンピュータを、
撮影された少なくとも一つの物理的ドキュメントの画像中に含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をし、
前記画像に基づいて、前記画像特徴点の位置に基づいて特定される、前記少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出し、
前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影し、
表示手段を有する計算処理装置へのインタラクションと前記少なくとも一つの物理的ドキュメントへの前記ユーザ・インタラクションとを連動させるように機能させるためのプログラム。
【請求項1】
少なくとも一つの物理的ドキュメントを撮影して得られる画像に基づいて、前記画像中の前記物理的ドキュメントに含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をするとともに、前記画像特徴点の位置に基づいて特定される、該少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出するカメラ処理手段と、
前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影することで提供するプロジェクタ処理手段と、
を備える、情報処理システム。
【請求項2】
前記カメラ処理手段は前記少なくとも一つの物理的ドキュメントの細かい粒度のコンテンツを処理し、
前記細かい粒度のコンテンツは、個別の単語、文字、図形を含み、
前記カメラ処理手段は前記細かい粒度のコンテンツに関連するユーザ・インタラクションを検出する、
請求項1に記載の情報処理システム。
【請求項3】
前記プロジェクタ処理手段によって提供される視覚可能なフィードバックは前記物理的ドキュメントへのユーザ・インタラクションにもとづく、
請求項1に記載の情報処理システム。
【請求項4】
前記ユーザ・インタラクションは前記少なくとも一つの物理的ドキュメントに対して行われるジェスチャを含み、
前記ジェスチャは前記計算処理装置上の作業に対応する、
請求項1に記載の情報処理システム。
【請求項5】
前記ジェスチャは所定のタイプの視覚可能なフィードバックをもたらす所定の命令に対応する、
請求項4に記載の情報処理システム。
【請求項6】
前記計算処理装置へのユーザ・インタラクションを、前記プロジェクタ処理手段によって前記少なくとも一つの物理的ドキュメントへ提供される視覚可能なフィードバックに変換する、
請求項1に記載の情報処理システム。
【請求項7】
前記プロジェクタ処理手段は前記物理的ドキュメント以外の物理的面に視覚可能なフィードバックを提供する、
請求項1に記載の情報処理システム。
【請求項8】
折り畳み可能なフレームに統合されており、運搬可能であるカメラおよびプロジェクタと、
少なくとも一つのミラーと、
をさらに備え、
前記少なくとも一つのミラーは、前記フレームに取り付けられており、前記カメラおよびプロジェクタの光路を前記少なくとも一つの物理的ドキュメントへ反射するように、該少なくとも一つの物理的ドキュメントの上に配置されている、
請求項1に記載の情報処理システム。
【請求項9】
前記カメラ処理手段は前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、前記表示手段に表示するために該コンテンツに対応するデジタル・ドキュメントを取得する、
請求項1に記載の情報処理システム。
【請求項10】
前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションは前記対応するデジタル・ドキュメントへの対応インタラクションをもたらす、
請求項9に記載の情報処理システム。
【請求項11】
前記カメラ処理手段は、前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、該少なくとも一つの物理的ドキュメントに関連するデジタル・コンテンツを取得する、
請求項1に記載の情報処理システム。
【請求項12】
撮影された少なくとも一つの物理的ドキュメントの画像中に含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をし、
前記画像に基づいて、前記画像特徴点の位置に基づいて特定される、前記少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出し、
前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影し、
表示手段を有する計算処理装置へのインタラクションと前記少なくとも一つの物理的ドキュメントへの前記ユーザ・インタラクションとを連動させる情報処理方法。
【請求項13】
細かい粒度のコンテンツを識別するために前記少なくとも一つの物理的ドキュメントを処理し、
前記細かい粒度のコンテンツに関連するユーザ・インタラクションを検出する、
ことをさらに含み、
前記細かい粒度のコンテンツは個別の単語、文字、図形を含む、
請求項12に記載の情報処理方法。
【請求項14】
前記視覚可能なフィードバックは前記物理的ドキュメントへのユーザ・インタラクションにもとづく、
請求項12に記載の情報処理方法。
【請求項15】
前記ユーザ・インタラクションは前記少なくとも一つの物理的ドキュメントに対して行われるジェスチャを含み、
前記ジェスチャは前記計算処理装置上の作業に対応する、
請求項12に記載の情報処理方法。
【請求項16】
前記ジェスチャは所定のタイプの視覚可能なフィードバックをもたらす所定の命令に対応する、
請求項15に記載の情報処理方法。
【請求項17】
前記物理的ドキュメント以外の物理的面に視覚可能なフィードバックを提供する、
請求項12に記載の情報処理方法。
【請求項18】
前記計算処理装置へのユーザ・インタラクションを前記少なくとも一つの物理的ドキュメントへの視覚可能なフィードバックに変換する、
請求項12に記載の情報処理方法。
【請求項19】
前記少なくとも一つの物理的ドキュメントの詳細なコンテンツを操作するために、前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションを、該少なくとも一つの物理的ドキュメントへのユーザ・インタラクションと同時の前記計算処理装置へのユーザ・インタラクションに変換する、
請求項18に記載の情報処理方法。
【請求項20】
前記物理的ドキュメントの詳細なコンテンツは、前記少なくとも一つの物理的ドキュメントとインタラクトするために第一の手を用いたユーザ・インタラクションによって操作され、前記計算処理装置とインタラクトするために第二の手を用いたユーザ・インタラクションによって操作される、
請求項12に記載の情報処理方法。
【請求項21】
デジタル・ドキュメントの詳細なコンテンツは、前記物理的ドキュメントとインタラクトするために第一の手を用いたユーザ・インタラクションによって操作され、計算処理装置とインタラクトするために第2の手を用いたユーザ・インタラクションによって操作される、
請求項12に記載の情報処理方法。
【請求項22】
前記少なくとも一つの物理的ドキュメントとインタラクトするために、第一の手を用い、前記計算処理装置上のデジタル・ドキュメントとインタラクトするために、第二の手を用いて、該物理的ドキュメントの詳細なコンテンツと該デジタル・ドキュメントとを同時に操作する、
請求項12に記載の情報処理方法。
【請求項23】
前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、
前記表示手段に表示するために前記コンテンツに対応するデジタル・ドキュメントを取得する、
請求項12に記載の情報処理方法。
【請求項24】
前記少なくとも一つの物理的ドキュメントへのユーザ・インタラクションは前記対応するデジタル・ドキュメントへの対応インタラクションをもたらす、
請求項23に記載の情報処理方法。
【請求項25】
前記少なくとも一つの物理的ドキュメントのコンテンツを処理し、
前記少なくとも一つの物理的ドキュメントに関連するデジタル・コンテンツを取得する、
請求項12に記載の情報処理方法。
【請求項26】
コンピュータを、
撮影された少なくとも一つの物理的ドキュメントの画像中に含まれるコンテンツに基づく画像特徴点の位置を特定する解析処理をし、
前記画像に基づいて、前記画像特徴点の位置に基づいて特定される、前記少なくとも一つの物理的ドキュメントの所定箇所に対するユーザ・インタラクションを検出し、
前記少なくとも一つの物理的ドキュメントに対して、前記カメラ処理手段により特定された前記所定箇所への前記ユーザ・インタラクションに対応する投影光を、視覚的なフィードバックとして投影し、
表示手段を有する計算処理装置へのインタラクションと前記少なくとも一つの物理的ドキュメントへの前記ユーザ・インタラクションとを連動させるように機能させるためのプログラム。
【図1】
【図2】
【図4】
【図5】
【図6】
【図7】
【図18】
【図19】
【図3】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図4】
【図5】
【図6】
【図7】
【図18】
【図19】
【図3】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公開番号】特開2012−43400(P2012−43400A)
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願番号】特願2011−3883(P2011−3883)
【出願日】平成23年1月12日(2011.1.12)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願日】平成23年1月12日(2011.1.12)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]