説明

物体形状認識システム及び物体形状認識方法

【課題】 容易に物体の形状を認識する。
【解決手段】 物体形状認識装置10は、形状の認識対象となる物体を撮像するカメラ11と、物体から発生した音を検出するマイク12及び音検出部13と、音が検出されたタイミングでカメラ11によって撮像された画像における、音が発生した位置を検出する位置検出部14と、検出された位置から物体の形状を推定する形状推定部16と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体の形状を認識する物体形状認識システム及び物体形状認識方法に関する。
【背景技術】
【0002】
プロジェクタやHMD(ヘッドマウントディスプレイ)で、映像を投影あるいは実際の物体に重畳(Augmented Reality(AR)、Mixed Reality(MR))する際には、通常、例えばスクリーンや決められた机など、あらかじめ決められた範囲や物体に映像を投影、重畳する。
【0003】
しかしながら、あらかじめ決められた物体や範囲にしか映像が、投影、重畳できないと、使用できる場所が限られてしまう。形状が分かっていない物体や範囲を認識し、その物体や範囲に対して映像を投影、重畳することができれば、いつでもどこでも映像を投影、重畳できるようになる。
【0004】
物体の形状を認識する方法として以下のようなものがある。例えば、特許文献1には距離画像を用いて物体の三次元形状を認識する方法が示されている。また、特許文献2にはあらかじめ背景を撮像しておく方法が、特許文献3には、認識する物体のモデルを作成しておく方法が、それぞれ示されている。
【特許文献1】特開平2−181880号公報
【特許文献2】特開2007−26327号公報
【特許文献3】特開2007−42136号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述の技術として知られるように、あらかじめ形状の分かっていない物体の形状のみを特定するのは非常に困難である。例えば、特許文献1に記載された技術では、物体の形状を認識することはできても、認識したい物体を特定することはできない。また、特許文献2及び3に記載された技術では、物体を認識させる前に、事前準備が必要であり、例えば、物体の形状や物体が利用される状況(背景)があらかじめわかっていなければならない。
【0006】
本発明は、上記の状況を鑑みてなされたものであり、容易に物体の形状を認識することができる物体形状認識システム及び物体形状認識方法を提供することを目的とする。ここで、認識対象となる物体の形状には、上述したような映像を投影、重畳させる物体の一部の範囲を含む。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明に係る物体形状認識システムは、形状の認識対象となる物体を撮像する撮像手段と、所定の音を検出する音検出手段と、音検出手段によって音が検出されたタイミングで撮像手段によって撮像された画像における、物体の形状に応じた位置を検出する位置検出手段と、位置検出手段によって検出された位置から物体の形状を推定する形状推定手段と、を備えることを特徴とする。
【0008】
本発明に係る物体形状認識システムにおいて物体の形状が認識される際には、ユーザ等によって音が発生される。一方で、上記の音が発生したタイミングにおいて当該物体は撮像されており、撮像された画像における、物体の形状に応じた位置が検出される。検出された位置から物体の形状が特定される。上記のように、本発明に係る物体形状認識システムでは、物体の撮像、音の検出及び物体の形状に応じた位置の検出によって物体の形状の推定を行う。これらは従来の形状の認識に比べて簡易に行うことができ、結果として、本発明に係る物体形状認識システムによれば容易に物体の形状を認識することができる。
【0009】
音検出手段は、物体から発生した音を所定の音として検出して、位置検出手段は、音が発生した位置を物体の形状に応じた位置として検出する、ことが望ましい。この構成においては、ユーザ等によって形状の認識対象となる物体の所定位置から音が発生される。一方で、上記の音が発生したタイミングにおいて当該物体は撮像されており、撮像された画像における音が発生した位置が検出される。検出された位置から物体の形状が特定される。即ち、この構成によれば、物体の撮像、音の検出及び音が発生した位置の検出によって物体の形状の推定を行う。結果として、この構成によれば、より容易に物体の形状を認識することができる。
【0010】
物体から発生した音は、当該物体が叩かれた音であり、位置検出手段は、物体を叩くものに係る情報をあらかじめ記憶しておき、当該情報に基づいて物体が叩かれた位置を、音が発生した位置として検出する、ことが望ましい。形状の認識対象となる物体を叩くことにより音を容易かつ確実に発生させることができる。また、何で物体を叩くかを決めておくことにより、上記の構成により確実に音が発生した位置が検出される。即ち、上記の構成によれば、より容易かつ確実に物体の形状を認識することができる。
【0011】
音検出手段は、検出する音に係る情報をあらかじめ記憶しておき、当該情報に基づいて所定の音を検出することが望ましい。この構成によれば、所定の音の検出を確実に行うことができ、確実に物体の形状を認識することができる。
【0012】
位置検出手段は、複数の物体の形状に応じた位置を検出し、形状推定手段は、位置検出手段によって検出された複数の位置から物体の形状を推定する、ことが望ましい。この構成によれば、複数の位置から物体の形状が推定されるので、適切に物体の形状を認識することができる。
【0013】
撮像手段は、複数の時刻にわたって物体を撮像し、撮像手段によって撮像された時間変化した画像における、位置検出手段によって検出された位置に対応する位置を検出する位置追従手段を更に備え、形状推定手段は、位置追従手段によって検出された位置から物体の形状を推定する、ことが望ましい。この構成によれば、検出された位置が追尾されて、例えば、複数の位置を検出する間に物体自体や撮像方向が動いたとしても、適切な位置に基づいて物体の形状を推定することができる。即ち、上記の構成によれば、より適切に物体の形状を認識することができる。
【0014】
物体形状認識システムは、形状推定手段によって推定された物体の形状に応じて、映像を投影する投影手段を更に備えることが望ましい。この構成によれば、認識された形状に対して映像の投影を行うことができ、上述した投影や重畳を適切に行うことができる。
【0015】
撮像手段は、複数の時刻にわたって物体を撮像し、撮像手段によって撮像された時間変化した画像における、形状推定手段によって推定された物体の形状に対応する形状を検出する形状追従手段を更に備え、投影手段は、位置追従手段によって検出された形状に応じて、映像を投影する、ことが望ましい。この構成によれば、物体自体や撮像方向が動いたとしても、上述した投影や重畳を適切に行うことができる。
【0016】
ところで、本発明は、上記のように物体形状認識システムの発明として記述できる他に、以下のように物体形状認識方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
【0017】
即ち、本発明に係る物体形状認識方法は、形状の認識対象となる物体を撮像する撮像ステップと、所定の音を検出する音検出ステップと、音検出ステップにおいて音が検出されたタイミングで撮像ステップにおいて撮像された画像における、物体の形状に応じた位置を検出する位置検出ステップと、位置検出ステップにおいて検出された位置から物体の形状を推定する形状推定ステップと、を含むことを特徴とする。
【発明の効果】
【0018】
本発明では、形状の認識対象となる物体の撮像、音の検出及び音が発せられた位置の検出によって物体の形状の推定を行う。これらは従来の形状の認識に比べて簡易に行うことができ、結果として、本発明によれば容易に物体の形状を認識することができる。
【発明を実施するための最良の形態】
【0019】
以下、図面と共に本発明による物体形状認識システム及び物体形状認識方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【0020】
図1に、本発明に係る物体形状認識システムの実施形態である物体形状認識装置10の外観構成を模式的に示す。物体形状認識装置10は、物体の形状を認識する装置であるが、本実施形態においては、具体的には以下のような機能を有している。図1に示すように、物体形状認識装置10は、眼鏡型ディスプレイであり、ユーザが装着できるような形状となっている。物体形状認識装置10は、コンピュータの入力デバイスの機能を有している。具体的には、物体形状認識装置10は、所定の物体20に重畳されるように、例えば、(仮想的な)キーボードやタッチパネルなどの入力デバイスの映像30を投影して、ユーザに当該入力デバイスの映像の映像を認識させる。物体形状認識装置10は、ユーザによる当該映像(に対応する箇所)への指やペンでの操作を検出して、コンピュータへの入力とする。
【0021】
入力デバイスの映像30を重畳させる上記の所定の物体20は、平面を有するものが望ましく、例えば、ユーザが所持しているノートや手帳あるいは固定されている壁などである。また、入力デバイスの映像30は、物体20に対して投影が行われて重畳されてもよい。また、眼鏡型ディスプレイが光学式シースルー型のものである場合、眼鏡型ディスプレイのレンズに対して、ユーザが当該レンズを通して物体20を見たときに重畳して見えるように、入力デバイスの映像30のみ投影されてもよい。また、眼鏡型ディスプレイがビデオシースルー型のものである場合、カメラで撮像した物体20も同時にレンズに投影されてもよい。このとき、両目に同じ映像を投影してもよいし、右目と左目の距離からそれぞれの目から見える映像を推定して、それぞれの目に投影する映像を別々に用意してもよい。それぞれの目に合わせて別々の映像を投影すると立体感(奥行き)のある映像をユーザに見せることができる。
【0022】
ここで、映像30を投影する物体20の形状(又は範囲)は、ユーザが指定する。この指定は、図2に示すように、例えば、物体20の形状のすみ(特徴点)21を指で叩いて音を出すことによって行われる。指定された物体20の形状は、物体形状認識装置10において認識される。即ち、本実施形態における形状の認識対象となるのは、映像30を重畳させる物体20である。形状の認識については、より詳細に後述する。
【0023】
引き続いて、物体形状認識装置10の機能について説明する。図3に示すように、物体形状認識装置10は、カメラ11と、マイク12と、音検出部13と、位置検出部14と、位置追従部15と、形状推定部16と、形状追従部17と、ディスプレイ18と、映像蓄積部19とを備える。
【0024】
カメラ11は、形状の認識対象となる物体20を撮像する撮像手段である。カメラ11は、複数の時刻にわたって物体20の撮像を行う。即ち、カメラ11は、動画として物体20を撮像する。カメラ11は、その撮像方向が、ユーザの視線方向、即ち、眼鏡型ディスプレイのレンズの光軸方向と同様の方向となるように設けられている。従って、カメラ11は、ユーザが物体20の方向に視線を向けることによって物体20を撮像する(ユーザが物体20の方向に視線を向けることによって、撮像方向が物体20に向かう方向になる)。なお、カメラ11は、眼鏡型ディスプレイと一体に設けられていても、別体として周囲に備え付けられ又はユーザに携帯されて設けられていてもよい。カメラ11は、撮像した画像(データ)を位置検出部14に出力する。また、後述する位置及び形状の追従を行うため、カメラ11は、当該画像を位置追従部15及び形状追従部17に出力する。
【0025】
マイク12は、物体20から発生した音を検出する音検出手段の一機能である。マイク12は、物体20を含む物体20の周囲で発生した音を集音する。マイク12は、集音した音(のデータ)を音検出部13に出力する。
【0026】
音検出部13は、マイク12によって集音された音に、物体20から発生した特定の音が含まれていることを検出する音検出手段の一機能である。物体20から発生した特定の音とは、ユーザによって物体20が叩かれた音である。具体的には、音検出部13は、物体20が叩かれた音に係る情報、例えば、音のパターン(リズム、音声、音量)をあらかじめ記憶しておき、その音のパターンとマイク12から入力された音とが一致する(部分がある)かを判断することによって上記の検出を行う。即ち、音検出部13は、検出する音をあらかじめ記憶(登録)しておき、記憶した音を物体20から発生した音として検出する。この登録は物体形状認識装置10の開発者が行ってもよいし、ユーザが自分自身で好みのパターンを登録することとしてもよい。音検出部13は、特定の音が検出されるとその旨を位置検出部14に通知する。
【0027】
位置検出部14は、音検出部13によって上記の特定の音が検出されたタイミングでカメラ11によって撮像された画像における、上記の特定の音が発生した位置(特徴点)を検出する位置検出手段である。具体的には、位置検出部14は、特定の音が検出された旨が音検出部13から通知されたタイミングでカメラ11から入力された画像から上記の位置の検出を行う。位置検出部14は、物体20を叩くものに係る情報をあらかじめ記憶しておき、上記のタイミングの画像から当該情報に基づいて物体20を叩くものの位置(物体20が叩かれた位置)を検出して、検出された位置を上記の特定の音が発生した位置とする。物体20を叩くものとは、例えば、ユーザの指やユーザに用いられる棒などの道具などであり、あらかじめ指定されたものである。
【0028】
ユーザの指などの物体20を叩くものの画像中の位置の検出は、画像処理によって行われる。具体的には、例えば、物体20を叩くものに係る情報として指の色である肌色をあらかじめ位置検出部14が記憶しておき、画像中の肌色の領域のうち最も大きい領域(画素数の多い領域)を検出して、その最も上の座標を検出する位置とする。また、肌色の領域の凹凸を検出して、あらかじめ位置検出部14が記憶した特定の形状(例えば、楕円)を認識して、その形状のうちの所定の点を検出する位置としてもよい。また、手のモデルを作成しておき、あらかじめ位置検出部14に記憶させておき、その情報に基づいて指先を検出して、指先の点を検出する位置としてもよい。位置検出部14は、画像における、上記のように検出した位置の(二次元)座標データを位置追従部15及び形状推定部16に出力する。上記の位置の検出は、(一つの)物体20の形状の検出に対して複数回(例えば3回)行われる。この回数が多いほど、物体20の形状の、より詳細な認識が可能になる。
【0029】
なお、位置検出部14は、画像から位置を検出するタイミングを音検出部13から通知されていたが、必ずしも当該通知が行われなくてもよい。例えば、カメラ11によって撮像された画像に撮像された時刻の情報を対応付けておき、音検出部13から上述した特定の音が検出された時刻の通知を受けて、当該時刻に基づいて位置を検出する画像を特定してもよい。
【0030】
位置追従部15は、カメラ11によって撮像された画像における、位置検出部14によって検出された位置に対応する位置を検出(追従)する位置追従手段である。カメラ11による撮像は、位置検出部14による複数の位置検出が行われている間行われており、撮像された画像は時間変化する。一点目の位置検出が行われた後、次の点の検出が行われるまでに物体20を手で持っていたりすると画像における検出した点の位置が動いてしまうことがある。また、カメラ11の撮像方向が動いてしまい、画像における検出した点の位置が動いてしまうことがある。位置追従部15における位置の検出(追従)は、上記のように位置の特定を複数の時刻にわたる画像を用いて行う場合に適切に形状の推定を行えるようにするためのものである。
【0031】
具体的には、位置追従部15は、位置検出部14による検出に用いられた画像から、位置検出部14によって検出された座標近傍の所定の範囲の画像を抽出する。位置追従部15は、当該所定の範囲の画像を、検出された位置の特徴を示す画像として記憶する。続いて、位置追従部15は、追従対象となる画像から、上記記憶した所定の範囲の画像に対応する部分を検出して、当該部分から追従した位置(画像上の二次元座標)を特定する。この検出は、具体的には例えば、オプティカルフロー等を用いた特徴点追従方法等が用いられて行われる。位置追従部15は、追従した位置の座標データを形状推定部16に出力する。
【0032】
形状推定部16は、位置検出部14によって検出された位置、及び位置追従部15によって追従された位置から物体20の形状を推定する形状推定手段である。ここで推定される形状は、二次元の形状(カメラ11によって撮像された画像内での形状)である。また、ここでの形状の推定には、(カメラ11によって撮像された画像内での)形状の位置を推定することも含む。形状推定部16は、位置検出部14に検出された(位置追従部15によって追従された)位置が所定の数(例えば3点)になったら形状推定を行う。位置をいくつ用いて形状推定を行うかについては、あらかじめ形状推定部16に記憶されている。
【0033】
形状推定部16は、具体的には例えば、検出された位置を結ぶことによって物体20の形状を推定する。また、形状推定部16は、検出された位置を結んだ形状の図形に内接する図形(例えば四角形)、検出された位置を全て含む図形を推定する形状としてもよい。また、上記の投影を行う範囲の画像上の大きさをあらかじめ設定しておき、検出された位置が当該範囲に収まるように近似して、形状を推定してもよい。形状推定部16は、形状を推定するための情報(例えば、四角形等の形状が決まっている場合はその情報)又はルールをあらかじめ記憶しておき、その情報又はルールを用いて形状の推定を行う。形状推定部16は、推定した形状を示す情報を形状追従部17及びディスプレイ18に出力する。ここで、推定した形状を示す情報には、画像内での形状の位置を示す情報も含む。
【0034】
形状追従部17は、カメラによって撮像された画像における、形状推定部16によって推定された物体20の形状に対応する形状を検出(追従)する形状追従手段である。カメラ11による撮像は、後述するディスプレイ18による映像の投影が行われている間行われており、撮像された画像は時間変化する。上述したように撮像された画像内における、検出された形状は、物体20やカメラ11の方向の移動により変化しうる。ディスプレイ18による映像の投影は、検出された物体20の形状に応じて行われるものであり、複数の時刻にわたって映像の投影を行う場合に適切に映像の投影を行えるようにするためのものである。
【0035】
具体的には、形状追従部17は、形状推定部16による形状の推定が行われた時点の画像から、当該形状の特徴を示す情報を取得する。例えば、形状推定部16によって推定された形状の範囲の画像を抽出する。形状追従部17は、当該所定の範囲の画像を検出された形状の特徴を示す画像(のテンプレート)として記憶する。続いて、形状追従部17は、追従対象となる画像から上記記憶した所定の範囲の画像(のテンプレート)に対応する部分を検出して、当該部分を追従対象となる画像における物体20の形状とする。この検出は、具体的には例えば、パターンマッチング(テンプレートマッチング)の手法等が用いられて行われる。位置追従部15は、追従した形状を示す情報をディスプレイ18に出力する。
【0036】
追従対象の画像と比較する、上記の形状の特徴を示す情報は画像自体でなくともよい。例えば、抽出した範囲の画像の色情報(ヒストグラムや色の平均)を上記の形状の特徴を示す情報として、追従対象の画像の同様の色情報を持つ領域を追従することとしてもよい。また、物体20のエッジ(端部)の特徴を示す情報をテンプレートとして用いてもよい。また、上述した位置追従部15と同様に、位置検出部14によって検出された各位置を全て追従して、追従された位置から形状推定部16と同様に形状の推定を行い、形状の追従を行うこととしてもよい。形状追従部17は、追従した形状を示す情報をディスプレイ18に出力する。ここで、追従した形状を示す情報には、画像内での形状の位置を示す情報も含む。
【0037】
ディスプレイ18は、形状推定部16によって推定された物体20の形状及び形状追従部17によって追従された物体20の形状(以下、これらを認識形状と呼ぶ)に応じて、映像30を投影する投影手段である。ディスプレイ18は、映像蓄積部19から投影する映像を取得して投影を行う。ディスプレイ18は上述したように例えば、眼鏡型ディスプレイのレンズに設けられており、映像の投影は、上述したように物体20に重畳するように行われる。ディスプレイ18は、形状推定部16又は形状追従部17から入力された情報に基づいて、映像蓄積部19から取得した映像を認識形状に合うように変換して、変換後の映像30を投影する。例えば、映像蓄積部19に蓄積された投影すべき画像が図4(a)に示すように長方形の範囲に並べられた同じ大きさの文字が投影されるものであり、認識形状が台形形状であった場合には図4(b)に示すように短辺(左側の辺)側の文字が長辺(右側の辺)側の文字よりも小さくなるように変換が行われる。また、ディスプレイ18は、形状推定部16又は形状追従部17から入力された情報に基づいて、カメラ11により撮像される画像において物体20が位置する箇所に(ユーザが視認されるように)映像30を投影する。
【0038】
この変換及び位置合わせは、ディスプレイ18が、映像蓄積部19から取得した映像に対して、拡大、縮小、回転移動及び平行移動等を行う既存の画像変換処理を行うことにより実現される。例えば、画像変換処理は、以下の変換行例Mで映像蓄積部19から取得した映像(データ)を変換することによって行われる。
【数1】


上記の式において、R1x,R2x,R3x,R1y,R2y,R3y,R1z,R2z,R3zは回転パラメータであり、ΔX,ΔY,ΔZは平行移動パラメータである。変換行例Mは、物体20の認識形状の座標(x,y,z)に合わせて、投影すべき画像の座標(X,Y,Z)をそれぞれの軸に対して回転移動及び平行移動させるための行列である。ここで、認識形状及び投影すべき画像は二次元であるのでz=Z=0である。ディスプレイ18が、これらのパラメータを、認識形状及び映像蓄積部19から取得した映像の形状とそれぞれの位置を示す情報とから算出して変換を行う。認識形状が回転している場合は、回転軸毎に回転パラメータR部分が、認識形状の回転角度θaから求めることができる。平行移動認識形状が平行移動している場合は、平行移動分ΔX,ΔY,ΔZのうちその移動軸に沿ったパラメータが設定される。
【0039】
ディスプレイ18は、上記のように映像に対して変換処理を行い投影する。こうすることによって、図4(b)に示すように物体20の傾きに合わせて、重畳する画像30が傾く。
【0040】
映像蓄積部19は、ディスプレイ18によって投影される映像(データ)30を蓄積しており、ディスプレイ18からの要求に従って映像をディスプレイ18に出力する。
【0041】
物体形状認識装置10は、ディスプレイ18によって投影された(仮想的な)キーボードやタッチパネル等の画像(に対応する部分)に対して、ユーザが行った入力動作を検出して、入力情報とする機能等も有している(図示せず)。この認識は、例えばカメラ11によって撮像された画像を利用した、上述したような音と指の位置の認識等によっても行うことができる。指の位置の検出は、カメラ11による画像における物体20の(検出又は追従された)形状の範囲内のみで行われればよく、画像全体から指を探すよりも早く、精度よく検出を行うことができる。以上が、物体形状認識装置10の機能である。
【0042】
図5に示すように、物体形状認識装置10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(Random Access Memory)102及びROM(Read Only Memory)103、並びにハードディスク等の補助記憶装置104等のハードウェアを備えるコンピュータを備えて構成される。また、それ以外のハードウェアとして、物体形状認識装置10は、上述したカメラ11、マイク12及びディスプレイ18とを備えて構成される。これらの構成要素が、動作することにより、物体形状認識装置10の上述した機能が発揮される。
【0043】
引き続いて、図6のフローチャートを用いて本実施形態に係る物体形状認識装置10により実行される処理(物体形状認識方法)について説明する。本処理は、ユーザが、物体形状認識装置10の上述した入力デバイスの機能を用いる際に行われる。ユーザが物体形状認識装置10を装着して、当該物体形状認識装置10に対して当該機能を開始させる操作を行うことによって、本処理は開始される。
【0044】
まず、物体形状認識装置10では、カメラ11による、形状の認識対象となる物体20の撮像が開始される(S01、撮像ステップ)。この際、物体形状認識装置10を装着したユーザが物体20の方を向くことによって、カメラ11の撮像方向は物体20の方向となる。この撮像は、本処理中継続して行われる。撮像された画像は、撮像される毎に位置検出部14、位置追従部15及び形状追従部17に出力される。
【0045】
続いて、ユーザが、指等のあらかじめ設定されたもので物体20を叩く。ユーザにより叩かれる物体20の箇所は、上述したように物体20のすみ21等、物体20の形状を認識できる位置である。物体20がユーザに叩かれると、物体形状認識装置10では、その音がマイク12によって集音されて、その音がマイク12から音検出部13に入力される。続いて、音検出部13によって物体20が叩かれた音が検出される(S02、音検出ステップ)。音が検出されるとその旨が音検出部13から位置検出部14に通知される。
【0046】
音検出部13から位置検出部14に音が検出された旨が通知されると、位置検出部14によって、カメラによって撮像された画像における音が発生した位置(特徴点)が検出される(S03、位置検出ステップ)。検出された特徴点を示す情報は、位置検出部14から位置追従部15及び形状推定部16に出力される。ここで、検出された特徴点の数が形状の推定に必要な数である3になったか否かにより以下のように処理が分岐される(S04)。
【0047】
検出された特徴点の数が3未満である場合は、位置追従部15によって、カメラ11による画像における、検出された位置に対応する位置が追従される(S05、位置追従ステップ)。追従された位置を示す情報は、位置追従部15から形状推定部16に出力される。上記の位置の追従は、検出される特徴点の数が3になるまで継続して行われる。また、上記の音の検出(S02)及び位置の検出(S03)が行われる
【0048】
一方、S03の処理の後、検出された特徴点の数が3以上となった場合、形状推定部16によって物体20の形状が推定される(S06、形状推定ステップ)。推定された形状を示す情報は、形状推定部16から形状追従部17及びディスプレイ18に出力される。形状追従部17では、推定した形状の追従のため推定された形状を示す情報に基づいて、当該形状の特徴を示す情報が取得されて保存される(S07、形状追従ステップ)。
【0049】
続いて、ディスプレイ18によって、投影される映像が、映像蓄積部19から取得される。続いて、ディスプレイ18によって、形状推定部16及び形状追従部17から入力された、物体20の形状を示す情報に基づいて、上記の映像を変換処理するためのパラメータが算出される(S08、投影ステップ)。続いて、ディスプレイ18によって、算出されたパラメータを用いて投影する画像の変換処理が行われる(S09、投影ステップ)。続いて、ディスプレイ18によって、変換処理された映像30が、上述したように物体20に重畳されるように投影される(S10、投影ステップ)。
【0050】
上記の投影された映像は(仮想的な)キーボードやタッチパネル等の画像であり、当該画像(に対応する部分)に対してユーザは入力動作を行う。当該入力動作が行われた場合、物体形状認識装置10では入力動作が検出され入力情報とされる(S11)。
【0051】
また、物体形状認識装置10では、ディスプレイ18による上記の映像の投影が行われている間、形状追従部17によって、カメラ11による画像における、物体20の形状の追従が行われる(S12、形状追従ステップ)。追従された形状を示す情報は、ディスプレイ18に出力されて、映像の投影処理等(S08〜S11)が当該追従された形状に基づいて行われる。以上が本実施形態に係る物体形状認識装置10により実行される処理である。
【0052】
上述したように本実施形態では物体20の形状が認識される際には、ユーザ等が物体20を叩くことによって音が発生される。一方で、上記の音が発生したタイミングにおいて当該物体20は撮像されており、撮像された画像における、音が発生した位置が検出される。検出された位置から物体20の形状が特定される。即ち、本実施形態では、物体20の撮像、音の検出、及び音が発生した位置の検出によって物体20の形状の推定を行う。これらは従来の形状の認識に比べて簡易に行うことができ、結果として、本実施形態によれば容易に物体20の形状を認識することができる。
【0053】
本実施形態のように物体20を叩いて音を発生させることとすれば、容易に物体20から音を発生させることができる。何で物体を叩くか(例えば、ユーザの指)を決めておくことにより、あらかじめ指等の情報を記憶させておき、確実に音が発生した位置が検出される。このような構成とすることによって、より容易かつ確実に物体20の形状を認識することができる。
【0054】
また、本実施形態のようにユーザが指で叩いた部分が形状として認識されるため、本実施形態のように当該形状がディスプレイ18によって映像が投影される範囲として利用される場合、ユーザが任意かつ容易に投影範囲を指定することができる。即ち、本実施形態では、適切な形状の認識を行うことができる。また、この際、認識対象となる物体20や撮像される画像の背景に係る情報をあらかじめ保持しておく必要はないため、この点においても本実施形態の実施は容易である。
【0055】
更に、本実施形態のように検出する音の情報をあらかじめ記憶させておくことによって、発生する音の検出を確実に行うことができ、確実に物体20の形状を認識することができる。ただし、必ずしも音の情報の記憶は必ずしも必要ではなく、例えば、一定量の大きさの音(あらかじめ設定した閾値を超える音量を有する音)が発生した場合に音を検出する等の構成としてもよい。
【0056】
また、本実施形態のように検出された複数の位置から、形状を推定することが好ましい。この構成によれば、適切に物体の形状を認識することができる。本実施形態では、3点の位置から形状を推定しているがそれ以上の位置から形状を推定してもよい。
【0057】
また、本実施形態のように検出した位置を追尾することが好ましい。この構成によれば、例えば、複数の位置を検出する間に物体20自体やカメラ11の撮像方向が動いたとしても、適切な位置に基づいて物体20の形状を推定することができる。即ち、より適切に物体20の形状を認識することができる。ただし、物体20やカメラ11が固定されている場合や1つの画像からや短時間に複数の位置を検出する場合等は、必ずしも上記の構成をとる必要はない。
【0058】
また、本実施形態のような構成を取れば、ユーザが投影したい物体20に応じて映像が投影され、上述した投影や重畳を適切に行うことができる。例えば、ユーザが所持しているノートや手帳等に違和感無く映像の投影が行われる。また、上述したように形状を追従した上で投影を行うこととすれば、物体20自体やカメラ11の撮像方向が動いたとしても、上述した投影や重畳を適切に行うことができる。ただし、位置の追従と同様に物体20やカメラ11が固定されている場合等には、必ずしも上記の構成をとる必要はない。
【0059】
また、上述したように物体20の形状の認識、及び映像の投影を(上記の追従処理を含めて)一連の処理として行なうことによって、リアルタイムに映像の投影を行うことができ、上述した仮想的な入力デバイスとしてのユーザの利用性を高めることができる。
【0060】
なお、上述した実施形態では、ユーザが物体20を叩く等して、物体20から音を発生させることとしたが、必ずしも物体20から音を発生させることを前提としなくてもよい。例えば、ユーザの入力音の認識において、周囲が騒がしく物体20を叩く音が取得できない場合、ユーザの声がマイク12及び音検出部13によって音が検出されてもよい。その場合、位置検出部14は、ユーザの声が検出されたタイミングでカメラ11によって撮像された画像において、ユーザの指が指している点を検出する。検出される点は、物体20の形状に応じた位置である。
【0061】
また、周囲が騒がしい際、マイク12でリアルタイムに雑音を解析し、雑音モデルを作成することによって雑音除去を行うこともできる。
【0062】
また、上述した実施形態では、物体20の形状を推定するために検出するための位置はすべてユーザが叩いた位置を検出していたが、あらかじめ物体20に設けてあるマーカを併用してもよい。即ち、物体20に設けられるマーカの位置を、従来の方法と同様に検出して、形状推定部16による形状の推定に用いる位置としてもよい。例えば、マーカを物体20に1つ設けておき、他の2つの位置をユーザが物体20を叩くことで検出してもよい。マーカとしては、例えば、特徴的な色や形状のしるしが用いられる。
【0063】
また、本実施形態では、カメラ11によって撮像されて得られる画像は、通常の(可視光により撮像される)画像であることとしたが、必ずしも上記の画像でなくてもよく、物体20及び物体20を叩くもの(ユーザの指等)の特徴が認識できるものであればよい。具体的には例えば、赤外線による画像、距離画像、サーモグラフィ(温度分布)による画像等でもよい。
【図面の簡単な説明】
【0064】
【図1】本発明の実施形態における物体形状認識装置の外観構成を模式的に示す図である。
【図2】物体の形状を認識する際にユーザによって物体が叩かれて音が発生する様子を示す図である。
【図3】本発明の実施形態における物体形状認識装置の機能構成を示す図である。
【図4】物体形状認識装置において投影される映像を示す図である。
【図5】本発明の実施形態における物体形状認識装置のハードウェア構成を示す図である。
【図6】本発明の実施形態における物体形状認識装置で実行される処理(物体形状認識方法)を示すフローチャートである。
【符号の説明】
【0065】
10…物体形状認識装置、11…カメラ、12…マイク、13…音検出部、14…位置検出部、15…位置追従部、16…形状推定部、17…形状追従部、18…ディスプレイ、19…映像蓄積部、101…CPU、102…RAM、103…ROM、104…補助記憶装置、20…物体、30…映像。

【特許請求の範囲】
【請求項1】
形状の認識対象となる物体を撮像する撮像手段と、
所定の音を検出する音検出手段と、
前記音検出手段によって前記音が検出されたタイミングで前記撮像手段によって撮像された画像における、前記物体の形状に応じた位置を検出する位置検出手段と、
前記位置検出手段によって検出された位置から前記物体の形状を推定する形状推定手段と、
を備える物体形状認識システム。
【請求項2】
前記音検出手段は、前記物体から発生した音を前記所定の音として検出して、
前記位置検出手段は、前記音が発生した位置を前記物体の形状に応じた位置として検出する、
ことを特徴とする請求項1に記載の物体形状認識システム。
【請求項3】
前記物体から発生した音は、当該物体が叩かれた音であり、
前記位置検出手段は、前記物体を叩くものに係る情報をあらかじめ記憶しておき、当該情報に基づいて前記物体が叩かれた位置を、前記音が発生した位置として検出する、
ことを特徴とする請求項2に記載の物体形状認識システム。
【請求項4】
前記音検出手段は、検出する音に係る情報をあらかじめ記憶しておき、当該情報に基づいて前記所定の音を検出することを特徴とする請求項1〜3のいずれか一項に記載の物体形状認識システム。
【請求項5】
前記位置検出手段は、複数の前記物体の形状に応じた位置を検出し、
前記形状推定手段は、前記位置検出手段によって検出された複数の位置から前記物体の形状を推定する、
ことを特徴とする請求項1〜4のいずれか一項に記載の物体形状認識システム。
【請求項6】
前記撮像手段は、複数の時刻にわたって前記物体を撮像し、
前記撮像手段によって撮像された時間変化した画像における、前記位置検出手段によって検出された位置に対応する位置を検出する位置追従手段を更に備え、
前記形状推定手段は、前記位置追従手段によって検出された位置から前記物体の形状を推定する、
ことを特徴とする請求項1〜5のいずれか一項に記載の物体形状認識システム。
【請求項7】
前記形状推定手段によって推定された前記物体の形状に応じて、映像を投影する投影手段を更に備える請求項1〜6のいずれか一項に記載の物体形状認識システム。
【請求項8】
前記撮像手段は、複数の時刻にわたって前記物体を撮像し、
前記撮像手段によって撮像された時間変化した画像における、前記形状推定手段によって推定された前記物体の形状に対応する形状を検出する形状追従手段を更に備え、
前記投影手段は、前記位置追従手段によって検出された形状に応じて、映像を投影する、
ことを特徴とする請求項7に記載の物体形状認識システム。
【請求項9】
形状の認識対象となる物体を撮像する撮像ステップと、
所定の音を検出する音検出ステップと、
前記音検出ステップにおいて前記音が検出されたタイミングで前記撮像ステップにおいて撮像された画像における、前記物体の形状に応じた位置を検出する位置検出ステップと、
前記位置検出ステップにおいて検出された位置から前記物体の形状を推定する形状推定ステップと、
を含む物体形状認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−38879(P2010−38879A)
【公開日】平成22年2月18日(2010.2.18)
【国際特許分類】
【出願番号】特願2008−205609(P2008−205609)
【出願日】平成20年8月8日(2008.8.8)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【Fターム(参考)】