物体形状認識システム及び物体形状認識方法

【課題】容易に物体の形状を認識する。
【解決手段】物体形状認識装置１０は、形状の認識対象となる物体を撮像するカメラ１１と、物体から発生した音を検出するマイク１２及び音検出部１３と、音が検出されたタイミングでカメラ１１によって撮像された画像における、音が発生した位置を検出する位置検出部１４と、検出された位置から物体の形状を推定する形状推定部１６と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、物体の形状を認識する物体形状認識システム及び物体形状認識方法に関する。
【背景技術】
【０００２】
プロジェクタやＨＭＤ（ヘッドマウントディスプレイ）で、映像を投影あるいは実際の物体に重畳（Augmented Reality（ＡＲ）、Mixed Reality（ＭＲ））する際には、通常、例えばスクリーンや決められた机など、あらかじめ決められた範囲や物体に映像を投影、重畳する。
【０００３】
しかしながら、あらかじめ決められた物体や範囲にしか映像が、投影、重畳できないと、使用できる場所が限られてしまう。形状が分かっていない物体や範囲を認識し、その物体や範囲に対して映像を投影、重畳することができれば、いつでもどこでも映像を投影、重畳できるようになる。
【０００４】
物体の形状を認識する方法として以下のようなものがある。例えば、特許文献１には距離画像を用いて物体の三次元形状を認識する方法が示されている。また、特許文献２にはあらかじめ背景を撮像しておく方法が、特許文献３には、認識する物体のモデルを作成しておく方法が、それぞれ示されている。
【特許文献１】特開平２−１８１８８０号公報
【特許文献２】特開２００７−２６３２７号公報
【特許文献３】特開２００７−４２１３６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、上述の技術として知られるように、あらかじめ形状の分かっていない物体の形状のみを特定するのは非常に困難である。例えば、特許文献１に記載された技術では、物体の形状を認識することはできても、認識したい物体を特定することはできない。また、特許文献２及び３に記載された技術では、物体を認識させる前に、事前準備が必要であり、例えば、物体の形状や物体が利用される状況（背景）があらかじめわかっていなければならない。
【０００６】
本発明は、上記の状況を鑑みてなされたものであり、容易に物体の形状を認識することができる物体形状認識システム及び物体形状認識方法を提供することを目的とする。ここで、認識対象となる物体の形状には、上述したような映像を投影、重畳させる物体の一部の範囲を含む。
【課題を解決するための手段】
【０００７】
上記目的を達成するために、本発明に係る物体形状認識システムは、形状の認識対象となる物体を撮像する撮像手段と、所定の音を検出する音検出手段と、音検出手段によって音が検出されたタイミングで撮像手段によって撮像された画像における、物体の形状に応じた位置を検出する位置検出手段と、位置検出手段によって検出された位置から物体の形状を推定する形状推定手段と、を備えることを特徴とする。
【０００８】
本発明に係る物体形状認識システムにおいて物体の形状が認識される際には、ユーザ等によって音が発生される。一方で、上記の音が発生したタイミングにおいて当該物体は撮像されており、撮像された画像における、物体の形状に応じた位置が検出される。検出された位置から物体の形状が特定される。上記のように、本発明に係る物体形状認識システムでは、物体の撮像、音の検出及び物体の形状に応じた位置の検出によって物体の形状の推定を行う。これらは従来の形状の認識に比べて簡易に行うことができ、結果として、本発明に係る物体形状認識システムによれば容易に物体の形状を認識することができる。
【０００９】
音検出手段は、物体から発生した音を所定の音として検出して、位置検出手段は、音が発生した位置を物体の形状に応じた位置として検出する、ことが望ましい。この構成においては、ユーザ等によって形状の認識対象となる物体の所定位置から音が発生される。一方で、上記の音が発生したタイミングにおいて当該物体は撮像されており、撮像された画像における音が発生した位置が検出される。検出された位置から物体の形状が特定される。即ち、この構成によれば、物体の撮像、音の検出及び音が発生した位置の検出によって物体の形状の推定を行う。結果として、この構成によれば、より容易に物体の形状を認識することができる。
【００１０】
物体から発生した音は、当該物体が叩かれた音であり、位置検出手段は、物体を叩くものに係る情報をあらかじめ記憶しておき、当該情報に基づいて物体が叩かれた位置を、音が発生した位置として検出する、ことが望ましい。形状の認識対象となる物体を叩くことにより音を容易かつ確実に発生させることができる。また、何で物体を叩くかを決めておくことにより、上記の構成により確実に音が発生した位置が検出される。即ち、上記の構成によれば、より容易かつ確実に物体の形状を認識することができる。
【００１１】
音検出手段は、検出する音に係る情報をあらかじめ記憶しておき、当該情報に基づいて所定の音を検出することが望ましい。この構成によれば、所定の音の検出を確実に行うことができ、確実に物体の形状を認識することができる。
【００１２】
位置検出手段は、複数の物体の形状に応じた位置を検出し、形状推定手段は、位置検出手段によって検出された複数の位置から物体の形状を推定する、ことが望ましい。この構成によれば、複数の位置から物体の形状が推定されるので、適切に物体の形状を認識することができる。
【００１３】
撮像手段は、複数の時刻にわたって物体を撮像し、撮像手段によって撮像された時間変化した画像における、位置検出手段によって検出された位置に対応する位置を検出する位置追従手段を更に備え、形状推定手段は、位置追従手段によって検出された位置から物体の形状を推定する、ことが望ましい。この構成によれば、検出された位置が追尾されて、例えば、複数の位置を検出する間に物体自体や撮像方向が動いたとしても、適切な位置に基づいて物体の形状を推定することができる。即ち、上記の構成によれば、より適切に物体の形状を認識することができる。
【００１４】
物体形状認識システムは、形状推定手段によって推定された物体の形状に応じて、映像を投影する投影手段を更に備えることが望ましい。この構成によれば、認識された形状に対して映像の投影を行うことができ、上述した投影や重畳を適切に行うことができる。
【００１５】
撮像手段は、複数の時刻にわたって物体を撮像し、撮像手段によって撮像された時間変化した画像における、形状推定手段によって推定された物体の形状に対応する形状を検出する形状追従手段を更に備え、投影手段は、位置追従手段によって検出された形状に応じて、映像を投影する、ことが望ましい。この構成によれば、物体自体や撮像方向が動いたとしても、上述した投影や重畳を適切に行うことができる。
【００１６】
ところで、本発明は、上記のように物体形状認識システムの発明として記述できる他に、以下のように物体形状認識方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
【００１７】
即ち、本発明に係る物体形状認識方法は、形状の認識対象となる物体を撮像する撮像ステップと、所定の音を検出する音検出ステップと、音検出ステップにおいて音が検出されたタイミングで撮像ステップにおいて撮像された画像における、物体の形状に応じた位置を検出する位置検出ステップと、位置検出ステップにおいて検出された位置から物体の形状を推定する形状推定ステップと、を含むことを特徴とする。
【発明の効果】
【００１８】
本発明では、形状の認識対象となる物体の撮像、音の検出及び音が発せられた位置の検出によって物体の形状の推定を行う。これらは従来の形状の認識に比べて簡易に行うことができ、結果として、本発明によれば容易に物体の形状を認識することができる。
【発明を実施するための最良の形態】
【００１９】
以下、図面と共に本発明による物体形状認識システム及び物体形状認識方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【００２０】
図１に、本発明に係る物体形状認識システムの実施形態である物体形状認識装置１０の外観構成を模式的に示す。物体形状認識装置１０は、物体の形状を認識する装置であるが、本実施形態においては、具体的には以下のような機能を有している。図１に示すように、物体形状認識装置１０は、眼鏡型ディスプレイであり、ユーザが装着できるような形状となっている。物体形状認識装置１０は、コンピュータの入力デバイスの機能を有している。具体的には、物体形状認識装置１０は、所定の物体２０に重畳されるように、例えば、（仮想的な）キーボードやタッチパネルなどの入力デバイスの映像３０を投影して、ユーザに当該入力デバイスの映像の映像を認識させる。物体形状認識装置１０は、ユーザによる当該映像（に対応する箇所）への指やペンでの操作を検出して、コンピュータへの入力とする。
【００２１】
入力デバイスの映像３０を重畳させる上記の所定の物体２０は、平面を有するものが望ましく、例えば、ユーザが所持しているノートや手帳あるいは固定されている壁などである。また、入力デバイスの映像３０は、物体２０に対して投影が行われて重畳されてもよい。また、眼鏡型ディスプレイが光学式シースルー型のものである場合、眼鏡型ディスプレイのレンズに対して、ユーザが当該レンズを通して物体２０を見たときに重畳して見えるように、入力デバイスの映像３０のみ投影されてもよい。また、眼鏡型ディスプレイがビデオシースルー型のものである場合、カメラで撮像した物体２０も同時にレンズに投影されてもよい。このとき、両目に同じ映像を投影してもよいし、右目と左目の距離からそれぞれの目から見える映像を推定して、それぞれの目に投影する映像を別々に用意してもよい。それぞれの目に合わせて別々の映像を投影すると立体感（奥行き）のある映像をユーザに見せることができる。
【００２２】
ここで、映像３０を投影する物体２０の形状（又は範囲）は、ユーザが指定する。この指定は、図２に示すように、例えば、物体２０の形状のすみ（特徴点）２１を指で叩いて音を出すことによって行われる。指定された物体２０の形状は、物体形状認識装置１０において認識される。即ち、本実施形態における形状の認識対象となるのは、映像３０を重畳させる物体２０である。形状の認識については、より詳細に後述する。
【００２３】
引き続いて、物体形状認識装置１０の機能について説明する。図３に示すように、物体形状認識装置１０は、カメラ１１と、マイク１２と、音検出部１３と、位置検出部１４と、位置追従部１５と、形状推定部１６と、形状追従部１７と、ディスプレイ１８と、映像蓄積部１９とを備える。
【００２４】
カメラ１１は、形状の認識対象となる物体２０を撮像する撮像手段である。カメラ１１は、複数の時刻にわたって物体２０の撮像を行う。即ち、カメラ１１は、動画として物体２０を撮像する。カメラ１１は、その撮像方向が、ユーザの視線方向、即ち、眼鏡型ディスプレイのレンズの光軸方向と同様の方向となるように設けられている。従って、カメラ１１は、ユーザが物体２０の方向に視線を向けることによって物体２０を撮像する（ユーザが物体２０の方向に視線を向けることによって、撮像方向が物体２０に向かう方向になる）。なお、カメラ１１は、眼鏡型ディスプレイと一体に設けられていても、別体として周囲に備え付けられ又はユーザに携帯されて設けられていてもよい。カメラ１１は、撮像した画像（データ）を位置検出部１４に出力する。また、後述する位置及び形状の追従を行うため、カメラ１１は、当該画像を位置追従部１５及び形状追従部１７に出力する。
【００２５】
マイク１２は、物体２０から発生した音を検出する音検出手段の一機能である。マイク１２は、物体２０を含む物体２０の周囲で発生した音を集音する。マイク１２は、集音した音（のデータ）を音検出部１３に出力する。
【００２６】
音検出部１３は、マイク１２によって集音された音に、物体２０から発生した特定の音が含まれていることを検出する音検出手段の一機能である。物体２０から発生した特定の音とは、ユーザによって物体２０が叩かれた音である。具体的には、音検出部１３は、物体２０が叩かれた音に係る情報、例えば、音のパターン（リズム、音声、音量）をあらかじめ記憶しておき、その音のパターンとマイク１２から入力された音とが一致する（部分がある）かを判断することによって上記の検出を行う。即ち、音検出部１３は、検出する音をあらかじめ記憶（登録）しておき、記憶した音を物体２０から発生した音として検出する。この登録は物体形状認識装置１０の開発者が行ってもよいし、ユーザが自分自身で好みのパターンを登録することとしてもよい。音検出部１３は、特定の音が検出されるとその旨を位置検出部１４に通知する。
【００２７】
位置検出部１４は、音検出部１３によって上記の特定の音が検出されたタイミングでカメラ１１によって撮像された画像における、上記の特定の音が発生した位置（特徴点）を検出する位置検出手段である。具体的には、位置検出部１４は、特定の音が検出された旨が音検出部１３から通知されたタイミングでカメラ１１から入力された画像から上記の位置の検出を行う。位置検出部１４は、物体２０を叩くものに係る情報をあらかじめ記憶しておき、上記のタイミングの画像から当該情報に基づいて物体２０を叩くものの位置（物体２０が叩かれた位置）を検出して、検出された位置を上記の特定の音が発生した位置とする。物体２０を叩くものとは、例えば、ユーザの指やユーザに用いられる棒などの道具などであり、あらかじめ指定されたものである。
【００２８】
ユーザの指などの物体２０を叩くものの画像中の位置の検出は、画像処理によって行われる。具体的には、例えば、物体２０を叩くものに係る情報として指の色である肌色をあらかじめ位置検出部１４が記憶しておき、画像中の肌色の領域のうち最も大きい領域（画素数の多い領域）を検出して、その最も上の座標を検出する位置とする。また、肌色の領域の凹凸を検出して、あらかじめ位置検出部１４が記憶した特定の形状（例えば、楕円）を認識して、その形状のうちの所定の点を検出する位置としてもよい。また、手のモデルを作成しておき、あらかじめ位置検出部１４に記憶させておき、その情報に基づいて指先を検出して、指先の点を検出する位置としてもよい。位置検出部１４は、画像における、上記のように検出した位置の（二次元）座標データを位置追従部１５及び形状推定部１６に出力する。上記の位置の検出は、（一つの）物体２０の形状の検出に対して複数回（例えば３回）行われる。この回数が多いほど、物体２０の形状の、より詳細な認識が可能になる。
【００２９】
なお、位置検出部１４は、画像から位置を検出するタイミングを音検出部１３から通知されていたが、必ずしも当該通知が行われなくてもよい。例えば、カメラ１１によって撮像された画像に撮像された時刻の情報を対応付けておき、音検出部１３から上述した特定の音が検出された時刻の通知を受けて、当該時刻に基づいて位置を検出する画像を特定してもよい。
【００３０】
位置追従部１５は、カメラ１１によって撮像された画像における、位置検出部１４によって検出された位置に対応する位置を検出（追従）する位置追従手段である。カメラ１１による撮像は、位置検出部１４による複数の位置検出が行われている間行われており、撮像された画像は時間変化する。一点目の位置検出が行われた後、次の点の検出が行われるまでに物体２０を手で持っていたりすると画像における検出した点の位置が動いてしまうことがある。また、カメラ１１の撮像方向が動いてしまい、画像における検出した点の位置が動いてしまうことがある。位置追従部１５における位置の検出（追従）は、上記のように位置の特定を複数の時刻にわたる画像を用いて行う場合に適切に形状の推定を行えるようにするためのものである。
【００３１】
具体的には、位置追従部１５は、位置検出部１４による検出に用いられた画像から、位置検出部１４によって検出された座標近傍の所定の範囲の画像を抽出する。位置追従部１５は、当該所定の範囲の画像を、検出された位置の特徴を示す画像として記憶する。続いて、位置追従部１５は、追従対象となる画像から、上記記憶した所定の範囲の画像に対応する部分を検出して、当該部分から追従した位置（画像上の二次元座標）を特定する。この検出は、具体的には例えば、オプティカルフロー等を用いた特徴点追従方法等が用いられて行われる。位置追従部１５は、追従した位置の座標データを形状推定部１６に出力する。
【００３２】
形状推定部１６は、位置検出部１４によって検出された位置、及び位置追従部１５によって追従された位置から物体２０の形状を推定する形状推定手段である。ここで推定される形状は、二次元の形状（カメラ１１によって撮像された画像内での形状）である。また、ここでの形状の推定には、（カメラ１１によって撮像された画像内での）形状の位置を推定することも含む。形状推定部１６は、位置検出部１４に検出された（位置追従部１５によって追従された）位置が所定の数（例えば３点）になったら形状推定を行う。位置をいくつ用いて形状推定を行うかについては、あらかじめ形状推定部１６に記憶されている。
【００３３】
形状推定部１６は、具体的には例えば、検出された位置を結ぶことによって物体２０の形状を推定する。また、形状推定部１６は、検出された位置を結んだ形状の図形に内接する図形（例えば四角形）、検出された位置を全て含む図形を推定する形状としてもよい。また、上記の投影を行う範囲の画像上の大きさをあらかじめ設定しておき、検出された位置が当該範囲に収まるように近似して、形状を推定してもよい。形状推定部１６は、形状を推定するための情報（例えば、四角形等の形状が決まっている場合はその情報）又はルールをあらかじめ記憶しておき、その情報又はルールを用いて形状の推定を行う。形状推定部１６は、推定した形状を示す情報を形状追従部１７及びディスプレイ１８に出力する。ここで、推定した形状を示す情報には、画像内での形状の位置を示す情報も含む。
【００３４】
形状追従部１７は、カメラによって撮像された画像における、形状推定部１６によって推定された物体２０の形状に対応する形状を検出（追従）する形状追従手段である。カメラ１１による撮像は、後述するディスプレイ１８による映像の投影が行われている間行われており、撮像された画像は時間変化する。上述したように撮像された画像内における、検出された形状は、物体２０やカメラ１１の方向の移動により変化しうる。ディスプレイ１８による映像の投影は、検出された物体２０の形状に応じて行われるものであり、複数の時刻にわたって映像の投影を行う場合に適切に映像の投影を行えるようにするためのものである。
【００３５】
具体的には、形状追従部１７は、形状推定部１６による形状の推定が行われた時点の画像から、当該形状の特徴を示す情報を取得する。例えば、形状推定部１６によって推定された形状の範囲の画像を抽出する。形状追従部１７は、当該所定の範囲の画像を検出された形状の特徴を示す画像（のテンプレート）として記憶する。続いて、形状追従部１７は、追従対象となる画像から上記記憶した所定の範囲の画像（のテンプレート）に対応する部分を検出して、当該部分を追従対象となる画像における物体２０の形状とする。この検出は、具体的には例えば、パターンマッチング（テンプレートマッチング）の手法等が用いられて行われる。位置追従部１５は、追従した形状を示す情報をディスプレイ１８に出力する。
【００３６】
追従対象の画像と比較する、上記の形状の特徴を示す情報は画像自体でなくともよい。例えば、抽出した範囲の画像の色情報（ヒストグラムや色の平均）を上記の形状の特徴を示す情報として、追従対象の画像の同様の色情報を持つ領域を追従することとしてもよい。また、物体２０のエッジ（端部）の特徴を示す情報をテンプレートとして用いてもよい。また、上述した位置追従部１５と同様に、位置検出部１４によって検出された各位置を全て追従して、追従された位置から形状推定部１６と同様に形状の推定を行い、形状の追従を行うこととしてもよい。形状追従部１７は、追従した形状を示す情報をディスプレイ１８に出力する。ここで、追従した形状を示す情報には、画像内での形状の位置を示す情報も含む。
【００３７】
ディスプレイ１８は、形状推定部１６によって推定された物体２０の形状及び形状追従部１７によって追従された物体２０の形状（以下、これらを認識形状と呼ぶ）に応じて、映像３０を投影する投影手段である。ディスプレイ１８は、映像蓄積部１９から投影する映像を取得して投影を行う。ディスプレイ１８は上述したように例えば、眼鏡型ディスプレイのレンズに設けられており、映像の投影は、上述したように物体２０に重畳するように行われる。ディスプレイ１８は、形状推定部１６又は形状追従部１７から入力された情報に基づいて、映像蓄積部１９から取得した映像を認識形状に合うように変換して、変換後の映像３０を投影する。例えば、映像蓄積部１９に蓄積された投影すべき画像が図４（ａ）に示すように長方形の範囲に並べられた同じ大きさの文字が投影されるものであり、認識形状が台形形状であった場合には図４（ｂ）に示すように短辺（左側の辺）側の文字が長辺（右側の辺）側の文字よりも小さくなるように変換が行われる。また、ディスプレイ１８は、形状推定部１６又は形状追従部１７から入力された情報に基づいて、カメラ１１により撮像される画像において物体２０が位置する箇所に（ユーザが視認されるように）映像３０を投影する。
【００３８】
この変換及び位置合わせは、ディスプレイ１８が、映像蓄積部１９から取得した映像に対して、拡大、縮小、回転移動及び平行移動等を行う既存の画像変換処理を行うことにより実現される。例えば、画像変換処理は、以下の変換行例Ｍで映像蓄積部１９から取得した映像（データ）を変換することによって行われる。
【数１】

上記の式において、Ｒ_１ｘ，Ｒ_２ｘ，Ｒ_３ｘ，Ｒ_１ｙ，Ｒ_２ｙ，Ｒ_３ｙ，Ｒ_１ｚ，Ｒ_２ｚ，Ｒ_３ｚは回転パラメータであり、ΔＸ，ΔＹ，ΔＺは平行移動パラメータである。変換行例Ｍは、物体２０の認識形状の座標（ｘ，ｙ，ｚ）に合わせて、投影すべき画像の座標（Ｘ，Ｙ，Ｚ）をそれぞれの軸に対して回転移動及び平行移動させるための行列である。ここで、認識形状及び投影すべき画像は二次元であるのでｚ＝Ｚ＝０である。ディスプレイ１８が、これらのパラメータを、認識形状及び映像蓄積部１９から取得した映像の形状とそれぞれの位置を示す情報とから算出して変換を行う。認識形状が回転している場合は、回転軸毎に回転パラメータＲ部分が、認識形状の回転角度θａから求めることができる。平行移動認識形状が平行移動している場合は、平行移動分ΔＸ，ΔＹ，ΔＺのうちその移動軸に沿ったパラメータが設定される。
【００３９】
ディスプレイ１８は、上記のように映像に対して変換処理を行い投影する。こうすることによって、図４（ｂ）に示すように物体２０の傾きに合わせて、重畳する画像３０が傾く。
【００４０】
映像蓄積部１９は、ディスプレイ１８によって投影される映像（データ）３０を蓄積しており、ディスプレイ１８からの要求に従って映像をディスプレイ１８に出力する。
【００４１】
物体形状認識装置１０は、ディスプレイ１８によって投影された（仮想的な）キーボードやタッチパネル等の画像（に対応する部分）に対して、ユーザが行った入力動作を検出して、入力情報とする機能等も有している（図示せず）。この認識は、例えばカメラ１１によって撮像された画像を利用した、上述したような音と指の位置の認識等によっても行うことができる。指の位置の検出は、カメラ１１による画像における物体２０の（検出又は追従された）形状の範囲内のみで行われればよく、画像全体から指を探すよりも早く、精度よく検出を行うことができる。以上が、物体形状認識装置１０の機能である。
【００４２】
図５に示すように、物体形状認識装置１０は、ＣＰＵ（Central Processing Unit）１０１、主記憶装置であるＲＡＭ（Random Access Memory）１０２及びＲＯＭ（Read Only Memory）１０３、並びにハードディスク等の補助記憶装置１０４等のハードウェアを備えるコンピュータを備えて構成される。また、それ以外のハードウェアとして、物体形状認識装置１０は、上述したカメラ１１、マイク１２及びディスプレイ１８とを備えて構成される。これらの構成要素が、動作することにより、物体形状認識装置１０の上述した機能が発揮される。
【００４３】
引き続いて、図６のフローチャートを用いて本実施形態に係る物体形状認識装置１０により実行される処理（物体形状認識方法）について説明する。本処理は、ユーザが、物体形状認識装置１０の上述した入力デバイスの機能を用いる際に行われる。ユーザが物体形状認識装置１０を装着して、当該物体形状認識装置１０に対して当該機能を開始させる操作を行うことによって、本処理は開始される。
【００４４】
まず、物体形状認識装置１０では、カメラ１１による、形状の認識対象となる物体２０の撮像が開始される（Ｓ０１、撮像ステップ）。この際、物体形状認識装置１０を装着したユーザが物体２０の方を向くことによって、カメラ１１の撮像方向は物体２０の方向となる。この撮像は、本処理中継続して行われる。撮像された画像は、撮像される毎に位置検出部１４、位置追従部１５及び形状追従部１７に出力される。
【００４５】
続いて、ユーザが、指等のあらかじめ設定されたもので物体２０を叩く。ユーザにより叩かれる物体２０の箇所は、上述したように物体２０のすみ２１等、物体２０の形状を認識できる位置である。物体２０がユーザに叩かれると、物体形状認識装置１０では、その音がマイク１２によって集音されて、その音がマイク１２から音検出部１３に入力される。続いて、音検出部１３によって物体２０が叩かれた音が検出される（Ｓ０２、音検出ステップ）。音が検出されるとその旨が音検出部１３から位置検出部１４に通知される。
【００４６】
音検出部１３から位置検出部１４に音が検出された旨が通知されると、位置検出部１４によって、カメラによって撮像された画像における音が発生した位置（特徴点）が検出される（Ｓ０３、位置検出ステップ）。検出された特徴点を示す情報は、位置検出部１４から位置追従部１５及び形状推定部１６に出力される。ここで、検出された特徴点の数が形状の推定に必要な数である３になったか否かにより以下のように処理が分岐される（Ｓ０４）。
【００４７】
検出された特徴点の数が３未満である場合は、位置追従部１５によって、カメラ１１による画像における、検出された位置に対応する位置が追従される（Ｓ０５、位置追従ステップ）。追従された位置を示す情報は、位置追従部１５から形状推定部１６に出力される。上記の位置の追従は、検出される特徴点の数が３になるまで継続して行われる。また、上記の音の検出（Ｓ０２）及び位置の検出（Ｓ０３）が行われる
【００４８】
一方、Ｓ０３の処理の後、検出された特徴点の数が３以上となった場合、形状推定部１６によって物体２０の形状が推定される（Ｓ０６、形状推定ステップ）。推定された形状を示す情報は、形状推定部１６から形状追従部１７及びディスプレイ１８に出力される。形状追従部１７では、推定した形状の追従のため推定された形状を示す情報に基づいて、当該形状の特徴を示す情報が取得されて保存される（Ｓ０７、形状追従ステップ）。
【００４９】
続いて、ディスプレイ１８によって、投影される映像が、映像蓄積部１９から取得される。続いて、ディスプレイ１８によって、形状推定部１６及び形状追従部１７から入力された、物体２０の形状を示す情報に基づいて、上記の映像を変換処理するためのパラメータが算出される（Ｓ０８、投影ステップ）。続いて、ディスプレイ１８によって、算出されたパラメータを用いて投影する画像の変換処理が行われる（Ｓ０９、投影ステップ）。続いて、ディスプレイ１８によって、変換処理された映像３０が、上述したように物体２０に重畳されるように投影される（Ｓ１０、投影ステップ）。
【００５０】
上記の投影された映像は（仮想的な）キーボードやタッチパネル等の画像であり、当該画像（に対応する部分）に対してユーザは入力動作を行う。当該入力動作が行われた場合、物体形状認識装置１０では入力動作が検出され入力情報とされる（Ｓ１１）。
【００５１】
また、物体形状認識装置１０では、ディスプレイ１８による上記の映像の投影が行われている間、形状追従部１７によって、カメラ１１による画像における、物体２０の形状の追従が行われる（Ｓ１２、形状追従ステップ）。追従された形状を示す情報は、ディスプレイ１８に出力されて、映像の投影処理等（Ｓ０８〜Ｓ１１）が当該追従された形状に基づいて行われる。以上が本実施形態に係る物体形状認識装置１０により実行される処理である。
【００５２】
上述したように本実施形態では物体２０の形状が認識される際には、ユーザ等が物体２０を叩くことによって音が発生される。一方で、上記の音が発生したタイミングにおいて当該物体２０は撮像されており、撮像された画像における、音が発生した位置が検出される。検出された位置から物体２０の形状が特定される。即ち、本実施形態では、物体２０の撮像、音の検出、及び音が発生した位置の検出によって物体２０の形状の推定を行う。これらは従来の形状の認識に比べて簡易に行うことができ、結果として、本実施形態によれば容易に物体２０の形状を認識することができる。
【００５３】
本実施形態のように物体２０を叩いて音を発生させることとすれば、容易に物体２０から音を発生させることができる。何で物体を叩くか（例えば、ユーザの指）を決めておくことにより、あらかじめ指等の情報を記憶させておき、確実に音が発生した位置が検出される。このような構成とすることによって、より容易かつ確実に物体２０の形状を認識することができる。
【００５４】
また、本実施形態のようにユーザが指で叩いた部分が形状として認識されるため、本実施形態のように当該形状がディスプレイ１８によって映像が投影される範囲として利用される場合、ユーザが任意かつ容易に投影範囲を指定することができる。即ち、本実施形態では、適切な形状の認識を行うことができる。また、この際、認識対象となる物体２０や撮像される画像の背景に係る情報をあらかじめ保持しておく必要はないため、この点においても本実施形態の実施は容易である。
【００５５】
更に、本実施形態のように検出する音の情報をあらかじめ記憶させておくことによって、発生する音の検出を確実に行うことができ、確実に物体２０の形状を認識することができる。ただし、必ずしも音の情報の記憶は必ずしも必要ではなく、例えば、一定量の大きさの音（あらかじめ設定した閾値を超える音量を有する音）が発生した場合に音を検出する等の構成としてもよい。
【００５６】
また、本実施形態のように検出された複数の位置から、形状を推定することが好ましい。この構成によれば、適切に物体の形状を認識することができる。本実施形態では、３点の位置から形状を推定しているがそれ以上の位置から形状を推定してもよい。
【００５７】
また、本実施形態のように検出した位置を追尾することが好ましい。この構成によれば、例えば、複数の位置を検出する間に物体２０自体やカメラ１１の撮像方向が動いたとしても、適切な位置に基づいて物体２０の形状を推定することができる。即ち、より適切に物体２０の形状を認識することができる。ただし、物体２０やカメラ１１が固定されている場合や１つの画像からや短時間に複数の位置を検出する場合等は、必ずしも上記の構成をとる必要はない。
【００５８】
また、本実施形態のような構成を取れば、ユーザが投影したい物体２０に応じて映像が投影され、上述した投影や重畳を適切に行うことができる。例えば、ユーザが所持しているノートや手帳等に違和感無く映像の投影が行われる。また、上述したように形状を追従した上で投影を行うこととすれば、物体２０自体やカメラ１１の撮像方向が動いたとしても、上述した投影や重畳を適切に行うことができる。ただし、位置の追従と同様に物体２０やカメラ１１が固定されている場合等には、必ずしも上記の構成をとる必要はない。
【００５９】
また、上述したように物体２０の形状の認識、及び映像の投影を（上記の追従処理を含めて）一連の処理として行なうことによって、リアルタイムに映像の投影を行うことができ、上述した仮想的な入力デバイスとしてのユーザの利用性を高めることができる。
【００６０】
なお、上述した実施形態では、ユーザが物体２０を叩く等して、物体２０から音を発生させることとしたが、必ずしも物体２０から音を発生させることを前提としなくてもよい。例えば、ユーザの入力音の認識において、周囲が騒がしく物体２０を叩く音が取得できない場合、ユーザの声がマイク１２及び音検出部１３によって音が検出されてもよい。その場合、位置検出部１４は、ユーザの声が検出されたタイミングでカメラ１１によって撮像された画像において、ユーザの指が指している点を検出する。検出される点は、物体２０の形状に応じた位置である。
【００６１】
また、周囲が騒がしい際、マイク１２でリアルタイムに雑音を解析し、雑音モデルを作成することによって雑音除去を行うこともできる。
【００６２】
また、上述した実施形態では、物体２０の形状を推定するために検出するための位置はすべてユーザが叩いた位置を検出していたが、あらかじめ物体２０に設けてあるマーカを併用してもよい。即ち、物体２０に設けられるマーカの位置を、従来の方法と同様に検出して、形状推定部１６による形状の推定に用いる位置としてもよい。例えば、マーカを物体２０に１つ設けておき、他の２つの位置をユーザが物体２０を叩くことで検出してもよい。マーカとしては、例えば、特徴的な色や形状のしるしが用いられる。
【００６３】
また、本実施形態では、カメラ１１によって撮像されて得られる画像は、通常の（可視光により撮像される）画像であることとしたが、必ずしも上記の画像でなくてもよく、物体２０及び物体２０を叩くもの（ユーザの指等）の特徴が認識できるものであればよい。具体的には例えば、赤外線による画像、距離画像、サーモグラフィ（温度分布）による画像等でもよい。
【図面の簡単な説明】
【００６４】
【図１】本発明の実施形態における物体形状認識装置の外観構成を模式的に示す図である。
【図２】物体の形状を認識する際にユーザによって物体が叩かれて音が発生する様子を示す図である。
【図３】本発明の実施形態における物体形状認識装置の機能構成を示す図である。
【図４】物体形状認識装置において投影される映像を示す図である。
【図５】本発明の実施形態における物体形状認識装置のハードウェア構成を示す図である。
【図６】本発明の実施形態における物体形状認識装置で実行される処理（物体形状認識方法）を示すフローチャートである。
【符号の説明】
【００６５】
１０…物体形状認識装置、１１…カメラ、１２…マイク、１３…音検出部、１４…位置検出部、１５…位置追従部、１６…形状推定部、１７…形状追従部、１８…ディスプレイ、１９…映像蓄積部、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…補助記憶装置、２０…物体、３０…映像。

【特許請求の範囲】
【請求項１】
形状の認識対象となる物体を撮像する撮像手段と、
所定の音を検出する音検出手段と、
前記音検出手段によって前記音が検出されたタイミングで前記撮像手段によって撮像された画像における、前記物体の形状に応じた位置を検出する位置検出手段と、
前記位置検出手段によって検出された位置から前記物体の形状を推定する形状推定手段と、
を備える物体形状認識システム。
【請求項２】
前記音検出手段は、前記物体から発生した音を前記所定の音として検出して、
前記位置検出手段は、前記音が発生した位置を前記物体の形状に応じた位置として検出する、
ことを特徴とする請求項１に記載の物体形状認識システム。
【請求項３】
前記物体から発生した音は、当該物体が叩かれた音であり、
前記位置検出手段は、前記物体を叩くものに係る情報をあらかじめ記憶しておき、当該情報に基づいて前記物体が叩かれた位置を、前記音が発生した位置として検出する、
ことを特徴とする請求項２に記載の物体形状認識システム。
【請求項４】
前記音検出手段は、検出する音に係る情報をあらかじめ記憶しておき、当該情報に基づいて前記所定の音を検出することを特徴とする請求項１〜３のいずれか一項に記載の物体形状認識システム。
【請求項５】
前記位置検出手段は、複数の前記物体の形状に応じた位置を検出し、
前記形状推定手段は、前記位置検出手段によって検出された複数の位置から前記物体の形状を推定する、
ことを特徴とする請求項１〜４のいずれか一項に記載の物体形状認識システム。
【請求項６】
前記撮像手段は、複数の時刻にわたって前記物体を撮像し、
前記撮像手段によって撮像された時間変化した画像における、前記位置検出手段によって検出された位置に対応する位置を検出する位置追従手段を更に備え、
前記形状推定手段は、前記位置追従手段によって検出された位置から前記物体の形状を推定する、
ことを特徴とする請求項１〜５のいずれか一項に記載の物体形状認識システム。
【請求項７】
前記形状推定手段によって推定された前記物体の形状に応じて、映像を投影する投影手段を更に備える請求項１〜６のいずれか一項に記載の物体形状認識システム。
【請求項８】
前記撮像手段は、複数の時刻にわたって前記物体を撮像し、
前記撮像手段によって撮像された時間変化した画像における、前記形状推定手段によって推定された前記物体の形状に対応する形状を検出する形状追従手段を更に備え、
前記投影手段は、前記位置追従手段によって検出された形状に応じて、映像を投影する、
ことを特徴とする請求項７に記載の物体形状認識システム。
【請求項９】
形状の認識対象となる物体を撮像する撮像ステップと、
所定の音を検出する音検出ステップと、
前記音検出ステップにおいて前記音が検出されたタイミングで前記撮像ステップにおいて撮像された画像における、前記物体の形状に応じた位置を検出する位置検出ステップと、
前記位置検出ステップにおいて検出された位置から前記物体の形状を推定する形状推定ステップと、
を含む物体形状認識方法。

【図１】