コンピュータプログラムとのインタフェース時に深さと方向の検出を可能とする方法およびシステム

【課題】コンピュータプログラムとの相互対話を容易にする装置および方法を提供する。
【解決手段】コンピュータプログラムとのインタフェース時に指し示す方向を検出する方法は、二つ以上の対応する画像取得装置の前に現れた二つ以上の画像を取得することができる。各画像取得装置は座標空間内の取得位置を有している。画像取得装置を、各画像取得装置にとって可視のストロボ信号と同期させることができる。画像内に人が捕らえられたとき、画像内の人の第１体部位および第２体部位を特定し、座標空間内の第１位置および第２位置を割り当てることができる。取得位置から観察するとき、第１位置と第２位置の間の座標空間内で、深さの寸法を含む相対位置を特定することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
（優先権の主張）
この出願は、２００３年９月１５日に出願された、「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＡＤＪＵＳＴＩＮＧＡＶＩＥＷＯＦＡＳＣＥＮＥＢＥＩＮＧＤＩＳＰＬＡＹＥＤＡＣＣＯＲＤＩＮＧＴＯＴＲＡＣＫＥＤＨＥＡＤＭＯＴＩＯＮ」と題する米国一部継続特許出願第１０／６６３，２３６号であり、参照により本明細書に援用される。この出願は、２００４年１月１６日に出願された、「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＬＩＧＨＴＩＮＰＵＴＤＥＶＩＣＥ」と題する米国一部継続特許出願第１０／７５９，７８２号であり、参照により本明細書に援用される。この出願は、本願と同時に出願された、ＲｉｃｈａｒｄＬ．ＭａｒｋｓおよびＨｒｉｓｈｉｋｅｓｈＲ．Ｄｅｓｈｐａｎｄｅを発明者とする「ＭＥＴＨＯＤＳＡＮＤＳＹＳＴＥＭＳＦＯＲＥＮＡＢＬＩＮＧＤＩＲＥＣＴＩＯＮＤＥＴＥＣＴＩＯＮＷＨＥＮＩＮＴＥＲＦＡＣＩＮＧＷＩＴＨＡＣＯＭＰＵＴＥＲＰＲＯＧＲＡＭ」と題する米国特許出願第１１／３０１，６７３号（代理人整理番号ＳＯＮＹＰ０５１）にも関連しており、参照により本明細書に援用される。
【背景技術】
【０００２】
ビデオゲーム産業は、長年にわたって多くの変化を見てきた。計算能力が拡大するにつれ、ビデオゲームの開発者は、計算能力の増加を利用するゲームソフトを同様に作成してきた。このために、ビデオゲーム開発者は、高度な演算と数学とを取り入れて非常に現実的なゲーム経験をもたらすゲームをコーディングした。
【０００３】
ゲームプラットホームの例はソニー・プレイステーションまたはソニー・プレイステーション２（ＰＳ２）を含み、それぞれゲーム機の形で販売されている。周知のように、ゲーム機はモニタ（通常はテレビ）に接続され、ハンドヘルドのコントローラによってユーザインタラクションを可能にするように設計されている。ゲーム機は、ＣＰＵ、処理集約型のグラフィックス演算用のグラフィックス・シンセサイザー、ジオメトリ変換を実行するためのベクトル演算ユニット、および他のハードウェア、ファームウェア、ソフトウェアを含む、専用の処理ハードウェアを用いて設計される。ゲーム機は、ゲーム機によってローカルでプレイをするためのゲーム用コンパクトディスクを受け入れる光ディスクトレイを有するようさらに設計される。ユーザがインターネットを介して他のユーザとインタラクティブに遊ぶことができる、オンラインゲームも可能である、
【０００４】
ゲームの複雑さがプレーヤの興味をそそり続けてきたので、ゲームメーカとハードウェアメーカはさらなる相互対話を可能にするために革新を続けてきた。しかしながら、現実には、ユーザとゲームが相互対話する方法は、長年にわたって劇的には変化しなかった。通常、ユーザは依然としてハンドヘルドのコントローラを用いてコンピュータゲームをプレイしているし、またはマウス・ポインティング・デバイスを用いてプログラムと対話している。
【発明の概要】
【発明が解決しようとする課題】
【０００５】
上述の観点から、ゲームプレイのより高度なユーザインタラクティブ性を可能にする方法およびシステムが必要とされている。
【課題を解決するための手段】
【０００６】
大まかに言って、本発明は、コンピュータプログラムとの相互対話を容易にする装置および方法を提供することによって、これらのニーズを満たす。一実施形態では、コンピュータプログラムはゲームプログラムであるが、これに限定されず、本装置および方法は、ユーザとの相互対話を必要とする任意の消費者向け電子装置に対して適用性を発見することができる。本発明は、インタフェースのポイントに基づく機械認識可能なジェスチャ、トリガキューを含む要因に基づく命令の識別、および手またはユーザの制御下にある物体の位置決定を通して、ユーザのインタラクション体験を簡単にする。
【０００７】
一実施形態では、コンピュータプログラムとのインタフェース時に方向を検出する方法が説明される。この方法は、画像取得装置の前に提示される画像を取得することを含む。画像取得装置は、座標空間内に取得位置を有している。本方法は、人物が画像内に捕らえられると、画像内の人の頭を特定し、人の頭に座標空間内の頭位置を割り当てることを含む。本方法は、画像内の人によって保持される物体を特定し、物体に座標空間内の物体位置を割り当てることを含む。本方法は、取得位置から観察するとき、頭位置と物体位置の間の座標空間内での相対位置を特定することをさらに含む。相対的な位置は、深さの寸法を含む。この深さの寸法は、２台のカメラを用いて、または音声定位技術を用いて、またはそれらの組み合わせによって、立体的に決定することができる。
【０００８】
別の実施形態では、コンピュータプログラムのグラフィックスを描画可能な表示スクリーンに向けられた物体の指し示す方向を検出する方法が提供される。本方法は、画像取得装置の前に提示される画像を取得することを含む。画像取得装置は、表示スクリーンに近接して座標空間内に取得位置を有している。本方法は、人が画像に捕らえられると、画像内の人の第１体部位を特定し、第１体部位に座標空間内の第１位置を割り当てることを含む。本方法は、画像内で人の第２体部位を特定し、第２体部位に座標空間内の第２位置を割り当てることを含む。第１体部位および第２体部位が特定されると、本方法は、取得位置から観察したとき第１位置と第２位置の間の座標空間内での相対位置を特定することへと移る。相対位置は、２台のカメラを用いて、または音声定位技術を用いて、またはそれらの組み合わせを用いて、例えば立体的に決定することができる深さの寸法を含む。
【０００９】
一実施形態では、コンピュータプログラムとの対話中に画像および音声を取得する装置が提供される。本装置は、一つまたは複数の画像フレームを取得するように構成される画像取得装置を含む。これらの画像フレームは、人の頭と人の手を特定するために分析される。手と頭の相対的な位置決めに基づいて、本装置はポイント方向を確かめることができ、ポイント方向は表示スクリーン上のポイント位置として解釈することができる。
【００１０】
本発明の他の態様および利点は、本発明の原理の例示として示す添付の図面とともに解釈される、以下の詳細な説明から明らかになるだろう。
【００１１】
本発明は、そのさらなる利点と共に、添付の図面とともに解釈される以下の説明を参照することによって、最もよく理解することができる。
【図面の簡単な説明】
【００１２】
【図１Ａ】本明細書で説明するポイント方向の決定を利用する、本発明の一実施形態の環境を示す図である。
【図１Ｂ】本明細書で説明するポイント方向の決定を利用する、本発明の一実施形態の環境を示す図である。
【図２】ポイント方向を決定するときの、人の頭と人の手（または人の保持する物体）の間の相対位置の分析を示す図である。
【図３】ポイント方向を決定するときの、人の頭と人の手（または人の保持する物体）の間の相対位置の分析を示す図である。
【図４】ポイント方向を決定するときの、人の頭と人の手（または人の保持する物体）の間の相対位置の分析を示す図である。
【図５Ａ】本発明の一実施形態にしたがって、取得された画像データの分析によってコンピュータプログラムにより特定可能である追跡またはトリガの実施形態を示す。
【図５Ｂ】本発明の一実施形態にしたがって、取得された画像データの分析によってコンピュータプログラムにより特定可能である追跡またはトリガの実施形態を示す。
【図５Ｃ】本発明の一実施形態にしたがって、取得された画像データの分析によってコンピュータプログラムにより特定可能である追跡またはトリガの実施形態を示す。
【図６Ａ】本発明の一実施形態にしたがって、物体自身の相対方位に基づき物体を検出および物体の変化を検出する別の実施形態を示す図である。
【図６Ｂ】本発明の一実施形態にしたがって、物体自身の相対方位に基づき物体を検出および物体の変化を検出する別の実施形態を示す図である。
【図６Ｃ】本発明の一実施形態にしたがって、物体自身の相対方位に基づき物体を検出および物体の変化を検出する別の実施形態を示す図である。
【図６Ｄ】本発明の一実施形態にしたがって、物体自身の相対方位に基づき物体を検出および物体の変化を検出する別の実施形態を示す図である。
【図６Ｅ】本発明の一実施形態にしたがって、物体自身の相対方位に基づき物体を検出および物体の変化を検出する別の実施形態を示す図である。
【図６Ｆ】本発明の一実施形態にしたがって、物体自身の相対方位に基づき物体を検出および物体の変化を検出する別の実施形態を示す図である。
【図７】本発明の一実施形態にしたがって、手の位置と形状が分析されてコンピュータプログラムにより所望の起動または追跡の応答が決定されるときの手の位置の例を示す図である。
【図８Ａ】本発明の一実施形態にしたがって、手の位置と形状が分析されてコンピュータプログラムにより所望の起動または追跡の応答が決定されるときの手の位置の例を示す図である。
【図８Ｂ】本発明の一実施形態にしたがって、手の位置と形状が分析されてコンピュータプログラムにより所望の起動または追跡の応答が決定されるときの手の位置の例を示す図である。
【図９】本発明の一実施形態にしたがって、ポイント方向の決定時に実行可能な動作の例示的なフローチャートを示す図である。
【図１０】本発明の一実施形態にしたがって、ポイント方向の決定時に実行可能な動作の例示的なフローチャートを示す図である。
【図１１】本発明の一実施形態にしたがって請求項の動作を実行するために必要なコンピュータコードを処理する際に使用できるハードウェアの例示的な実施形態を示す図である。
【図１２】本発明の一実施形態にしたがって請求項の動作を実行するために必要なコンピュータコードを処理する際に使用できるハードウェアの例示的な実施形態を示す図である。
【図１３Ａ】本発明の一実施形態にしたがってポイント方向を確かめるときに必要なシステムとのインタフェースするときに、追跡する物体を特定する際に深さ情報を考慮する実施形態を示す図である。
【図１３Ｂ】本発明の一実施形態にしたがってポイント方向を確かめるときに必要なシステムとのインタフェースするときに、追跡する物体を特定する際に深さ情報を考慮する実施形態を示す図である。
【図１３Ｃ】本発明の一実施形態にしたがってポイント方向を確かめるときに必要なシステムとのインタフェースするときに、追跡する物体を特定する際に深さ情報を考慮する実施形態を示す図である。
【図１４Ａ】物体の深さを決定するために立体視技術を用いる本発明の一実施形態を示す図である。
【図１４Ｂ】物体の深さを決定するために立体視技術を用いる本発明の一実施形態を示す図である。
【図１４Ｃ】物体の深さを決定するために立体視技術を用いる本発明の一実施形態を示す図である。
【図１５Ａ】音声定位を用いて物体の深さを決定するよう適応される画像取得装置を示す図である。
【図１５Ｂ】音声定位を用いて物体の深さを決定するよう適応される画像取得装置を示す図である。
【図１５Ｃ】音声定位を利用して物体の深さを決定する対話的なゲームのセットアップを示す図である。
【発明を実施するための形態】
【００１３】
以下の説明では、本発明の完全な理解を与えるために多数の特定の詳細が述べられる。しかしながら、本発明はこれらの特定の詳細の一部またはすべてを用いずに実施可能であることは当業者にとって明らかである。別の事例では、本発明を不明確なものとしないように、周知のプロセスステップは詳述しなかった。
【００１４】
図１Ａは、本発明の一実施形態による双方向ゲーム構成１００を例示する。双方向ゲーム構成１００は、表示スクリーン１１０に接続されたコンピュータ１０２を含む。画像取得装置１０５は表示スクリーン１１０の上部に配置され、コンピュータ１０２に接続される。一実施形態では、コンピュータ１０２は、ユーザがビデオゲームをプレイしコントローラ１０８を用いてビデオゲームとインタフェースすることができるゲームシステムコンソールである。画像取得装置１０５は表示スクリーン１１０の上に置かれて示されているが、画像取得装置１０５は、表示スクリーン１１０の前あたりに位置する画像を取得可能である任意の他の近接位置にも配置可能であることを理解すべきである。これらの運動とインタラクションを捕らえる技術は様々であるが、典型的な技術は、２００３年２月２１日に出願された、英国特許出願ＧＢ０３０４０２４．３（ＰＣＴ／ＧＢ２００４／０００６９３）およびＧＢ０３０４０２２．７（ＰＣＴ／ＧＢ２００４／０００７０３）に記述されており、それぞれ参照により本明細書に援用される。
【００１５】
特定の実施例では、しかしいずれのブランドにも限定されることなく、ゲーム機はソニー・コンピュータエンターテインメント、任天堂、マイクロソフトまたは他の任意のメーカ製のものであってよい。画像取得装置１０５は、標準的なウェブカムと同程度に単純であってもよいし、より多くの先進技術を含んでいてもよい。一実施形態では、画像取得装置は、画像を取得し、画像をデジタル化し、画像データをコンピュータ１０２へ戻すことができなければならない。一部の実施形態では、画像取得装置は、デジタル化を実行するためのロジックをその中に内蔵している。別の実施形態では、画像取得装置１０５は、取得したデータをデジタル化のために単にコンピュータ１０２へと送り返す。いずれにせよ、画像取得装置１０５は、画像取得装置１０５の前に位置する任意の物体のカラー画像または白黒画像のいずれかを捕らえることができる。
【００１６】
図１Ｂは、本発明の例示的な実施形態を示しており、コンピュータ１０２が画像取得装置１０５により提供される画像データを処理して、画像取得装置１０５の前に置かれた物体のポイント方向を確認している。図示の通り、コンピュータ１０２は画像取得装置１０５に接続されている。画像取得装置１０５は、取得領域１０５ａに焦点を置くように設計されている。この例では、人１１２はコンピュータ１０２で実行されているコンピュータプログラムと対話することを意図している。この例では、コンピュータプログラムは、表示スクリーン１１０により秒がされ表示されるビデオゲームである。
【００１７】
例示のみを目的として、このビデオゲームは、人１１２が標的を狙って自身のパフォーマンスに相応した点を獲得する標的シューティングゲームである。表示スクリーン１１０に示されているように、ゲームプレイの間、人１１２の画像１１２’も表示スクリーン１１０上に配置することができる。代替的に、制御下にある特定のデバイスまたはプレイ中のゲームに応じて、人の画像１１２’を表示スクリーンから省略してもよい。この例では、標的シューティング運動の間、人１１２の画像１１２’を示してゲームプレイ中の現実感を高めることによって、ユーザ体験を強化することができる。標的シューティングゲームの特徴は、表示スクリーン１１０上の特定の対話的なグラフィックスに対して、人１１２が物体１２４をポイントするすなわち向けることができる点である。
【００１８】
物体１２４（この場合、例示目的として銃である）の正確なポイント方向を実現するために、人１１２は自分の手１２２で物体１２４を保持する。手１２２は、表示スクリーン１１０の方に向けて指し示される。画像取得装置１０５は、この時点で、人の１１２のデジタル画像キャプチャを解析して、人１１２の頭１２０の位置と、人１１２の手１２２の位置を決定する。図示するように、人１１２の手は体の前に伸ばされており、画像取得装置は、取得されたデジタル画像を調べるときに物体１２４を特定する。取得されたデジタル画像は、コンピュータ１０２で実行されるコードによっても調べられ、人１１２の頭１２０の位置が確認される。一実施形態では、頭の追跡は、顔発見コードに結合されたテンプレートマッチング（速度性能のため）の組合せで完了される。顔発見コードは、ユーザの目と他の顔の特徴を見つけることによって、ユーザの顔の位置を基本的に特定する。頭と顔の検出に関するさらなる情報については、２００３年９月１５日に出願された、「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＡＤＪＵＳＴＩＮＧＡＶＩＥＷＯＦＡＳＣＥＮＥＢＥＩＮＧＤＩＳＰＬＡＹＥＤＡＣＣＯＲＤＩＮＧＴＯＴＲＡＣＫＥＤＨＥＡＤＭＯＴＩＯＮ」と題する同時係属米国特許出願第１０／６６３，２３６号を参照することができる。
【００１９】
一実施形態では、物体１２４は、取得されたデジタル画像を分析するプログラムが物体１２４の位置を簡単に特定できるように、物体に結合した色または光であってよい識別器（例えば、発光ダイオード「ＬＥＤ」）を有している。コンピュータプログラムが人の頭（Ｈ）１２０の位置と人の手（ｈ）１２２の位置を特定すると、コンピュータプログラムは、画像取得装置の位置から、検出された物体１２４と頭１２０の間の相対角度を決定するための演算を実行する。
【００２０】
図１Ｂに示すように、物体１２４と頭１２０の相対位置は、画像取得装置１０５に対して計算される。これは、二つの角度パラメータ（θとΦ）を生じる。方位角θは、Ｘ軸に沿った頭１２０と物体１２４の間の水平位置を定める。角Φは、頭１２０の高さと手１２２の高さの間の相対角度である高度角を生じる。一実施形態では、ゲーム動作が表示スクリーン１１０上で物体のポイントする位置を調整し始める前に、初期較正動作が実行されてもよい。例えば、表示スクリーン１１０上の特定の位置に物体１２４をユーザにポイントさせることによって、ポイントアルゴリズムを調整するようユーザを促してもよい。較正が完了すると、画像取得装置１０５で取得中の連続フレームのそれぞれに対して、コンピュータ１０２は、人の頭１２０と人の手１２２の相対位置を定める方位角と高度角（θとΦ）を計算することができる。ポイント動作に必要な精度に応じて、頭と手の間の相対位置決めは、取得されたフレームそれぞれに対して計算されてもよいし、他のフレームごとに取得してもよいし、または複数のフレームが取得された後に計算されてもよい。例えば、ゲームが射撃場ゲームであるならば、ビデオゲーム・コンテストで良い成績を確保しようとするとき人１１２が正確な狙いと射撃ができるようにするために、頭１２０と手１２２の相対位置の決定は重要である。
【００２１】
図２は、本発明の一実施形態による、表示スクリーン１１０の前に位置する人１１２の上面図である。この例では、最初の方位角（θ１）は、手１２２（物体１２４を保持）と頭１２０の位置の間の相対角度として測定されるよう示されている。人１１２は、コンピュータプログラムとの対話プレイの間、表示スクリーン１１０の方を向き、おそらく、自分の体を表示スクリーン１１０とほぼ平行に保つ。人１１２が体を表示スクリーン１１０とほぼ平行に保つと、方向１２３の手１２２の動きによって方位角が再計算され、新しい方位角θ２を生じる。
【００２２】
この例では、人１１２はほぼ腕の長さの位置で体の前に物体１２４を保持している。この距離はおよその腕の長さであると検出され（ＡＬＤ）、これは、画像取得装置１０５が手１２２と関連する物体１２４の位置を取得しようと試みるおおよその場所の位置を定める。おおよその腕の長さの検出（ＡＬＤ）は、ユーザの腕の長さに応じて様々であるが、通常は、頭１２０の位置と手１２２の間の距離関係のために提供されなければならない。例えば、表示スクリーン１１０の異なる位置をポイントするためには、人の体の前で手１２２の微少な予測が少なくとも必要である。
【００２３】
図３は、取得されたデジタル画像から頭１２０と手１２２が特定された人１１２の正面図を示す。この例では、点線は人１１２の方向を向く表示スクリーン１１０と画像取得装置１０５を表す。この例では、画像取得装置１０５は座標空間（０、０、０）に位置するように示されているが、これは画像取得装置１０５の基準点と座標空間における位置とを表している。頭１２０のおよその位置は、関連する座標空間（ｘＨ、ｙＨ、ｚＨ）を有している。同様に、手１２２と、手１２２が保持する関連物体１２４は、画像取得装置１０５に対してある座標空間（ｘｈ、ｙｈ、ｚｈ）を有している。
【００２４】
図４は、物体１２４を表示スクリーン１１０にポイントしている人１１２を示す。この例では、頭１２０の座標空間は、取得装置１０５で取得されたデジタル画像の中で特定される。人１１２が表示スクリーン１１０をポイントしているとき、手１２２の座標空間内での位置も、画像取得装置１０５で取得されたデジタル画像内で捕らえられる。画像取得装置１０５は、座標空間（０、０、０）にある基準点である。したがって、高度角Φは、手１２２の位置に対する頭１２０の位置の間として計算される。一例では、角度は以下のように計算される。
高度角＝ａｒｃｔａｎ（（ｙｈ−ｙＨ）／（ｚｈ−ｚＨ））
【００２５】
同様にして、図２の方位角θは以下のように計算される。
方位角＝ａｒｃｔａｎ（（ｘｈ−ｘＨ）／（ｚｈ−ｚＨ））
【００２６】
図４に示すように、ユーザが手を下に下ろすと（例えば、後のフレームで取得されるとき）、新しい角度Φ２が生じて、人１１２の手１２２と頭１２０の間の新たな相対位置を定義する。頭と手のこの新しい相対位置決めに基づいて、コンピュータ１０２は表示スクリーン上にポイント方向を再移動する。
【００２７】
図５Ａは、物体１２４が銃である実施形態を示す。銃は、表示スクリーン１１０の方向にポイントして、表示スクリーン１１０上の特定物体を撃つかまたは物体と相互作用するように構成された、簡略化された銃オブジェクトであってもよい。この例では、銃１２４は検出領域１２４ａを含む。検出領域１２４ａは、表示スクリーン１１０に方向的に向けられる領域である。検出領域１２４ａは、コンピュータ１０２によるデジタル画像解析をするために画像取得装置１０５による取得される領域でもある。一実施形態では、検出領域１２４ａは、コンピュータ１０２により実行中であり表示スクリーン１１０に表示されるコンピュータプログラムとの対話性を援助する一対の照明物を含むように構成される。この例では、検出領域１２４ａに存在する光または色オブジェクトとして追跡インジケータ１３０が設けられている。追跡インジケータ１３０に基づき、画像取得装置１０５は、コンピュータ１０２で解析されるデジタル画像を生成し、物体１２４の座標空間内での位置を特定する。この例では、追跡インジケータ１３０を提供することによって、コンピュータ１０２で実行中のコンピュータプログラムは、物体１２４の位置およびコンピュータプログラムと対話している人の頭１２０に関する位置を迅速に特定することができる。
【００２８】
追跡インジケータ１３０は、いくつかの実装例として提供することができる。一実装例は、取得されたデジタル画像を解析するコンピュータプログラムによって追跡可能な光インジケータであってもよいし、または、取得されたデジタル画像からコンピュータが迅速に特定可能である色インジケータの形態であってもよい。手そのものが追跡インジケータ１３０であってもよい。さらに別の実施形態では、追跡インジケータ１３０は、画像取得装置１０５に示されるときに表示されうる角度に応じて異なる色または輝度を有する反射テープとして提供されてもよい。この例では、ユーザが手１２２を表示スクリーン１１０上でポイントされる異なる領域に動かすと、物体１０４が追跡される。
【００２９】
一実施形態では、ユーザが頭１２０に対して手１２２を動かす間、追跡インジケータ１３０により、コンピュータプログラムが表示スクリーン１１０上に視覚インジケータを提供することが可能になる。表示スクリーン１１０上のこの視覚インジケータによって、ユーザは、表示スクリーン１１０上で現在物体がどこをポイントしているかを理解することができる。
【００３０】
別の実施形態では、検出領域１２４ａは、引き金インジケータ１３２も含む。引き金インジケータ１３２は、ユーザが物体１２４の引き金を引くときにオンオフされる光の形態であってもよい。例えば、引き金が引かれた後の検出領域１２４ａが図５Ｂに示されており、引き金インジケータ１３２が点灯する。引き金インジケータ１３２が図５Ｂで示すように点灯するとき、コンピュータ１０２で実行中のコンピュータプログラムは、コンピュータゲームのオブジェクトを自分のポイントが正確にヒットしたか否かをユーザが確認できるように、表示スクリーン１１０上にインジケータを提供する。図５Ｃにおいて、引き金インジケータ１３２は、物体１２４が依然としてアクティブに追跡されていることを表すオフ位置にあるように示されている。しかし、連続的または断続的であってよい銃撃は、ユーザが物体１２４の引き金から指を外すときに中止することができる。引き金インジケータ１３２は、音声、超音波、可視光、赤外線および無線を含む任意の周波数領域にあってもよい。受動的な引き金表示も引き金インジケータ１３２で実行することができる。例えば、引き金を作動させると機械音が発生し、その音が音声入力としてコンピュータ１０２で受信されデコードされて、引き金が作動したか否かを判定することができる。
【００３１】
図６Ａは、追跡／引き金インジケータ１３０ａと１３２ａが提供される現在の創作のもう一つの実施例を例示する。この例では、距離（ｄ１）で示す二つのインジケータの間の相対距離を決定できるように、追跡／引き金インジケータ１３０ａと１３２ａが提供される。一実施例では、画像取得装置１０５でポイントされたとき、物体は、コンピュータ１０２で実行されているコンピュータプログラムに、距離ｄ１を確認させ、表示スクリーン上の対話的動作を実行させることによって反応することができる。物体１２４ｂが図６Ｂの開始位置に対して傾けられると、第２の距離（ｄ２）が計算される。この距離は、追跡／引き金インジケータ１３０ａおよび１３２ａの間の新しい距離である。図６Ｃで示すように、ユーザが物体１２４ｂを傾け続けると、距離（ｄ３）で示すように距離が減り続ける。物体１２４ｂが図６Ａの垂直位置に対して水平位置に置かれると、追跡インジケータ１３０ａと引き金インジケータ１３２ａの間の距離はおよそ０となる。この時点で、プログラムはユーザが引き金動作を発生させるつもりであると考えてもよいし、または、ｄ１からｄ４間での検出距離が検出されたときに他の任意の動作が開始可能であると考えてもよい。
【００３２】
別の実施形態では、検出領域１２４ｂが傾けられる角度に応じて、コンピュータプログラムによる反応が徐々に変化してもよい。例えば、傾きが開始され、図６Ｂの傾きと図６Ｄの傾きの間で行われるとき、ユーザは直ちに銃の射撃（または、銃の引き金を引く）を開始してもよい。ユーザが元の位置に銃の傾きを戻すとき、銃は銃撃動作を中止してもよい。従って、追跡インジケータ１３０ａと引き金インジケータ１３２ｂのパターンまたは色解析により生じる銃撃動作によって、コンピュータプログラムを様々な対話的態様で反応させることができる。
【００３３】
この対話性の例は、ビデオゲームで使用される銃またはビデオゲームプログラムで使用される銃タイプの変更のために、再装填動作を誘発する場合がある。これらの変更が処理されると、画像取得装置で提供され検出される制御に応じて、ビデオ表示スクリーン１１０は異なるグラフィカルアニメーションをユーザのために生成する。
【００３４】
命令および引き金状態は、オンとオフのパラメータに限られているわけではなく、引き金および追跡インジケータの相対位置と角度に応じて、増分変化してもよい。例えば、引き金の状態は、オンまたはオフとは対照的に、線形にまたは可変状態として決定されてもよい。遠隔制御のレーストラックで加速をコントロールするのに用いられる抵抗タイプを含む、相対的な引き金位置を決定するために任意の既知の技術を使用することができる。デバイス、すなわちこの例での銃は、当分野で既知の複数の方法により、その値をコード化して送信することによって、引き金の状態を通信することができる。デバイスの引き金状態と位置に基づき、様々な命令とジェスチャを形成することができる。これには、すべての既知の機械で認識可能なジェスチャに基づくものが含まれる。これらは以下で本発明によって具体化され、様々な状態インジケータを用いて、制御下にあるデバイスのユーザコントロールのさらなる指標を確立する。
【００３５】
図６Ｅおよび図６Ｆは、異なる色を使用して、検出領域１２４ｃの位置の間の傾きまたは相対傾きを追跡可能である別の実施形態を示す。この例では、追跡インジケータ１３０および引き金インジケータ１３２ｂは、正方形または長方形の範囲を有し、カラーテープ、バーコード、光インジケータ、ＬＥＤなどによって定義されることができる。ユーザが図６Ｅの位置から図６Ｆの位置まで検出領域１２４ｃを操作すなわち傾けると、コンピュータ表示スクリーン上に表示されるコンピュータゲームによる反応が変化する。
【００３６】
図７は、手１２２を用いて表示スクリーン上の対話を制御する、本発明の別の実施形態を示す。ユーザは画像取得装置１０５の前に手１２２を位置づけるために手首１４４を配置してもよく、人１１２の頭に対して手が追跡される。この例では、ユーザの手は、表示スクリーン１１０をポイントする人さし指１４０があるように開かれている。ユーザの親指１４２は上方を向いており、コンピュータ１０２で実行中のコンピュータプログラムに対して、引き金装置が作動していないことを示してもよい。ユーザの親指１４２が１２２ａの方向に人さし指１４０に向けて下に動かされると、コンピュータ１０２で実行中のコンピュータプログラムは、取得されたデジタル画像から、表示スクリーン上の特定領域をユーザが撃つか、引き金を引くか、またはインタラクティブにポイントすると意図したことを検出してもよい。このように、異なる位置に置かれているユーザの手は、イベントを起動することができ、または、実行中であり表示スクリーン１１０に表示されているコンピュータプログラムに対話命令を与えることができる。例えば、ユーザが特定のゲームプログラムと対話しているときに、ユーザは、手の異なるジェスチャによって銃撃することができるし、異なるジェスチャにより銃を再装填することができるし、また、ユーザの手の異なる位置または異なる方向によって、表示スクリーン上のユーザまたは銃のグラフィック描画を異ならせることができる。この実施形態では、上述したように引き金の状態はオンまたはオフで決定されてもよいし、または、引き金を可変状態で決定してもよい。後者では、ユーザの親指の相対位置は、例えば、親指が指し指とほぼ垂直である位置から、親指が指し指とほぼ水平である位置までの範囲を持っていてもよく、この場合、システムは、親指の相対状態を得るために手の画像分析を実行する。この状態は、マウスのスクロールホイールに関するものを含む様々な制御スキームにマップされてもよい。
【００３７】
図８Ａおよび図８Ｂは、ユーザの手１２２を用いて表示スクリーン上の異なる動作を特定または起動する別の例を示す。この例では、図８Ａは、ユーザが表示スクリーン１１０を直接ポイントし、実行中のコンピュータプログラムが、取得装置で取得されたデジタル画像上でこの手の方位を特定することを示している。以降の取得期間が異なる時点で発生するとき、図８Ｂの画像をコンピュータプログラムで取得して解析してもよい。この例では、親指１４２が上向きの状態から親指１４２が横向きの状態までユーザの手が傾いて示されている。この方位において、ユーザは表示スクリーン上の銃の銃撃またはグラフィック表示に関するアイコンの選択を開始可能であってもよい。
【００３８】
従って、ユーザの頭の検出とユーザの手の方位の検出とを使用して、ユーザの頭に対するユーザの手の位置および表示スクリーン上のポイント動作を解析するときに必要な対話性を提供することができる。ポイント動作によって、ユーザは、操作するデバイスを制御し、アイコンを選択し、グラフィック物体を射撃し、グラフィック物体を選択またはスクロールし、グラフィック物体の選択を解除し、グラフィック物体をオンオフし、グラフィック物体を拡散させ、または表示スクリーン１１０上に表示中のコンピュータプログラムのグラフィックアイコンおよびフィーチャと単にインタフェースすることが可能になる。しかしながら、特定の構成では、本発明を採用するシステムは、表示スクリーン上の最小のアイコンとともに動作したり、アイコンがないことが望ましいこともある。その代わりに、システムは単にユーザのジェスチャのみを認識して、操作下にあるデバイスに制御入力を与えてもよい。例えば、本発明を用いて構成または統合されるテレビまたは周辺機器を、本発明によって制御することができる。例えば、本発明で提示するスキームにしたがってジェスチャ命令を認識するのとは対照的に、チャンネルの変更は必ずしもアイコンとの相互作用を伴う必要がないかもしれない。
【００３９】
図９は、本発明の一実施形態による、ポイント方向を特定するプロセスが記述されるフローチャート図２００を示す。動作２０２において、方法は画像フレームを取得する取得装置を提供することから始まる。フレームの取得速度は特定の実装例に依存しており、本明細書で述べる発明を限定しない。一実施形態では、取得装置は座標空間内に取得位置を含む。図４で示すように、画像取得装置の座標空間は（０、０、０）である。動作２０４において、コンピュータプログラムのインタラクティブなグラフィックスを描画し表示する表示スクリーンが提供される。
【００４０】
コンピュータプログラムのインタラクティブなグラフィックスは、コンピュータゲームに関連するものであってよいが、ユーザによる対話を必要とする任意の他のプログラムまたはインタフェースに関連するものであってもよい。例えば、対話には、物体の選択または選択の解除、ファイルを開く、チャンネルを変える、テレビ番組を記録する、ファイルを閉じる、ネットワークを介してファイルにアクセスする、インターネット、電子メールまたは電子ビデオメールによりユーザと相互通信する、消費者向け電子装置の選択、デバイスのオンオフが含まれる。次に、動作２０６は、画像取得装置のほぼ前に提示される画像を取得数ｒことを含む。一実施形態では、画像は、取得される空間の一部である人物を含み、この人物は表示スクリーンと取得装置の前に存在する。
【００４１】
動作２０６で画像が取得されると、動作２０８は、取得画像内で見つけられた人の頭の特定を含む。したがって、特定された人の頭は、取得位置に対する座標空間内の頭一を確認するために解析される。続いて、方法は、画像内の人により保持された物体を特定する動作２１０へ移る。物の座標空間が取得位置の座標空間に対して特定されるように、物体の一が特定される。特定された頭の位置と特定された物体の位置をメモリに記憶し、動作２１２で、コンピュータプログラムは、取得位置の基準点（例えば、座標（０，０，０））から観察するときの、頭位置と物体位置の間の座標空間内での相対位置を特定することができる。上記のように、画像取得装置に対する頭と手の相対位置のために方位角と高度角を計算することができる。座標空間内のこの相対位置は、取得されたフレームに対して計算される。以下に述べるように、座標空間内の相対位置は、取得位置基準点に対する深さの寸法を含んでもよい。そのような深さの寸法は、以下で詳細に述べる立体視画像または音声定位技術、またはそれら技術の組み合わせを用いて決定することができる。
【００４２】
動作２１４において、物体位置と頭位置の間で特定される相対位置を用いて、物体のポイント方向が決定される。コンピュータプログラムにより提供され表示スクリーン上に表示されるインタラクティブなグラフィックスとの相互作用を可能にするために、ポイント方向が表示スクリーン上に表示される。
【００４３】
図１０は、コンピュータプログラムとの対話中に表示スクリーンに対して向けれる物体のポイント方向を決定するときに実施可能であるより詳細なプロセス図２５０を示す。方法は、画像フレームを取得する取得装置が提供される動作２５２から始まる。取得装置は、座標空間内に取得位置を有している。取得位置の座標空間は、ポイント方向を特定するプロセスにおいて相対位置を決定する動作を実行するための基準点である。
【００４４】
方法は、コンピュータプログラムのインタラクティブなグラフィックスを描画するための表示スクリーンが提供される動作２５４へ移る。既に定義したように、インタラクティブなグラフィックスはコンピュータゲームであってもよいし、任意の他のプログラムであってもよい。動作２５６において、画像取得装置の前で画像が取得され、画像内の人物が取得される。取得された画像は、ビデオのデジタルフレームの画像であってもよい。一実施形態では、ビデオのデジタルフレームは、ＪＰＥＧフレームであってもよいし、圧縮ビデオフレーム（例えば、ＭＰＥＧなど）の一部であってもよい。
【００４５】
次に、動作２５８において取得された画像内の人物の頭の特定へと移る。取得画像上で人の頭が解析され、画像取得装置に対する頭位置と座標空間が決定される。動作２６０において、方法は、画像内の人が保持する物体の特定と、座標空間内の物体位置の決定へと移る。動作２６２において、取得装置の取得位置から観察したときの、頭位置と物体位置の間の座標空間内での相対位置が特定される。相対位置は、画像取得装置に対する方位角と高度角の計算を含む。以下に述べるように、座標空間内の物体位置は、取得位置基準点に対する深さの寸法を含んでもよい。そのような深さの寸法は、以下で詳細に述べる立体視イメージングまたは音声定位技術、またはそれら技術の組み合わせを用いて決定することができる。
【００４６】
動作２６４において、コンピュータプログラムの性能に対して望まれる速度に応じて、コンピュータプログラムの実行の間、動作２５６、２５８、２６０、２６２に対応するＡ、Ｂ、Ｃ、Ｄで識別される動作が繰り返しかつ連続的に実行される。例えば、各フレームが取得されるたびに一回だけの割合で、または特定数のフレームが取得された後にのみ、ＡからＤの動作の実行が発生する。したがって、ＡからＤの動作の実行速度は、特定の環境、ポインタ位置の検出精度の必要性、および表示スクリーン上の対話オブジェクトの選択性能に応じて決まる。高速度で移動する物体を有するビデオゲームを表示スクリーンが処理している場合、追跡動作は、ビデオ表示スクリーン上に表示される各フレームに対してＡからＤの動作を実行するよう要求してもよい。
【００４７】
動作２６６において、方法は、相対位置を用いた物体のポイントおよび方向の継続的な更新を示す。点の継続的な最新版と相対的な位置を用いたオブジェクトの方向を示す。ポイント方向が表示スクリーン上に表示されることで、コンピュータプログラムのインタラクティブなグラフィックスとの対話が可能になる。ポイント方向により、ユーザは、アイコンの選択、アイコンの選択解除、アイコンの移動、オブジェクトを開く、ファイルを開く、ファイルの保存、ファイルの移動、ファイルデータベースの一部であるファイルとの相互作用、またはコンピュータデスクトップのグラフィカルユーザインタフェースの一部との相互作用などが可能になることを再び理解すべきである。
【００４８】
図１１は、本発明の実施形態を実施するために使用可能である、グラフィック表示上の物体と対話するための例示的なユーザ入力システムのブロック図である。図１１に示すように、ユーザ入力システムは、映像取得装置３００、入力画像処理部３０２、出力画像処理部３０４、および映像表示装置３０６からなる。映像取得装置３００は、一連のビデオ画像を取得可能である任意の装置であってよく、一実施形態では（ウエブカメラなどの）デジタルビデオカメラまたは同様の画像取得装置である。上述のように、映像取得装置は深さ画像を提供するように構成されてもよい。入力画像処理部３０２は、制御オブジェクトの取得されたビデオ画像を、出力画像処理部に配信される信号に変換する。一実施形態では、入力画像処理部３０２は、深さ情報を通して取得したビデオ画像内の背景から制御オブジェクトを分離して、制御オブジェクトの位置および／または動きに応答する出力信号を生成するようにプログラムされる。出力画像処理部３０４は、入力画像処理部３０２から受け取った信号に応じて、映像表示装置３０６上でオブジェクトの並進運動および／または回転運動を生じさせるようにプログラムされる。
【００４９】
本発明のこれらおよび追加の態様は、ソフトウェア命令を実行する一つ以上のプロセッサによって実装されてもよい。本発明の一実施形態では、入力画像処理と出力画像処理の両方を単一のプロセッサが実行する。しかしながら、図示するように、また説明を簡単にするために、処理動作が入力画像処理部３０２と出力画像処理部３０４で分割されて行われるように示されている。二つ以上のプロセッサなどの任意の特別なプロセッサ構成に本発明が限定されるように解釈されることが決してないことに注意されたい。図１１の複数の処理ブロックは、説明の便宜のためだけに示されている。
【００５０】
図１２は、本明細書で説明する本発明の実施形態を実行するように構成されるコンピュータ処理システムの単純化されたブロック図である。処理システムは、メインメモリ４２０およびグラフィック処理装置（ＧＰＵ）４２６に結合された中央演算処理装置（ＣＰＵ）４２４を含むコンピュータベースのエンターテイメントシステム形態であってもよい。ＣＰＵ４２４は、入出力プロセッサ（ＩＯＰ）バス４２８にも接続される。一実施形態では、ＧＰＵ４２６は、ピクセルベースのグラフィックデータを高速処理するための内部バッファを含む。さらに、ＧＰＵ４２６は、エンターテインメントシステムまたはその要素の外部に接続される表示装置４２７に送信するために、出力処理部、すなわち、例えばＮＴＳＣまたはＰＡＬなどの標準的なテレビ信号へと処理される画像データを変換する機能を備えてもよい。あるいは、データ出力信号を、テレビモニタ以外の表示装置、例えばコンピュータモニタ、ＬＣＤ（液晶ディスプレイ）装置または他のタイプの表示装置）に提供することができる。
【００５１】
ＩＯＰバス４２８は、ＣＰＵ４２４を様々な入出力装置および他のバスまたはデバイスに接続する。ＩＯＰバス４２８は、入出力プロセッサメモリ４３０、コントローラ４３２、メモリカード４３４、ユニバーサルシリアルバス（ＵＳＢ）ポート４３６、ＩＥＥＥ１３９４（別名Ｆｉｒｅｗｉｒｅインタフェース）ポート４３８、バス４５０に接続している。バス４５０はいくつかの他のシステム構成要素をＣＰＵ４２４に接続する。システム構成要素には、オペレーティングシステム（ＯＳ）ＲＯＭ４４０、フラッシュメモリ４４２、音声処理ユニット（ＳＰＵ）４４４、光ディスク制御部４４６、およびハードディスクドライブ（ＨＤＤ）４４８が含まれる。この実施形態の一態様では、ＣＰＵ４２４を通した通信のために、ＩＯＰバス４２８に直接映像取得装置を接続することができる。この場合、映像取得装置からのデータを使用して、ＧＰＵ４２６内のグラフィック画像を生成するために用いられる値を変更または更新することができる。さらに、本発明の実施形態は、様々な画像処理構成および技術を使用することができる。その例は、２００３年２月１１日に出願された、「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＲＥＡＬＴＩＭＥＭＯＴＩＯＮＣＡＰＴＵＲＥ」と題する米国特許出願第１０／３６５，１２０号に記述されており、その全体が参照により本明細書に援用される。コンピュータ処理システムは、セルプロセッサ上で動作してもよい。
【００５２】
本発明の態様を実現するプログラムまたはコンピュータ命令は、いくつかの異なる方法によって提供されることができる。例えば、グラフィック画像を用いて相互対話するユーザ入力方法は、ＨＤＤ４４８、フラッシュメモリ４４２、ＯＳＲＯＭ４４０またはメモリカード４３２に格納されるプログラムの形で提供することができる。あるいは、ＣＰＵ４２４に接続された一つ以上の入力ポートでプログラムを処理装置にダウンロードすることができる。入力方法を定義するプログラムモジュールは、ＣＰＵ４２４により実行され表示装置４２７に表示されるゲームまたはアプリケーションプログラムで提供することができ、または、ローカルメインメモリ４２０から実行するなど、アプリケーションプログラムとは別に提供することも可能である。
【００５３】
さらに別の実施形態では、一部はインターネットに接続されたサーバーで、一部はローカルコンピュータ（例えば、ゲーム機、デスクトップ、ラップトップまたはワイヤレス携帯装置）でプログラムを実行してもよい。さらに、リモートのサーバまたは処理装置で完全に実行し、実行結果をローカルの表示スクリーンに提供してもよい。この場合、ローカルディスプレイまたはシステムには、ネットワーク（例えば、インターネット）を介してデータを受け取り、スクリーン上にグラフィックデータを描画するための最小限の処理能力がなければならない。取得装置によるユーザの入力はサーバに戻され、続いてスクリーン上に反応が表示される。
【００５４】
図１３Ａ〜１３Ｃは、方向ポインティングを実行するのに用いられる物体をよりよく特定するために深さデータが考慮される実施形態を示す。物体は、人が保持する何かであってもよいし、人の手であってもよい。この説明では、「深さカメラ」および「三次元カメラ」という用語は、二次元ピクセル情報の他に距離または深さ情報を取得可能な任意のカメラのことを指す。例えば、深さカメラは、距離情報を得るために制御された赤外線照明を利用することができる。もう一つの典型的な深さカメラは、一組のステレオカメラ一組であってもよく、これは２台の標準的なカメラを用いて距離情報を三角測量する。同様に、「深さ検出装置」という用語は、二次元のピクセル情報の他に距離情報を取得できる任意の種類の装置のことを指す。
【００５５】
三次元イメージの最近の進歩は、リアルタイム・インタラクティブ・コンピュータ・アニメーションにおける可能性を高めるためのドアを開けた。特に、新しい「深さカメラ」は、通常の二次元のビデオイメージに加えて第三次元を捕らえてマップにする能力を提供する。新たな深さデータを用いると、本発明の実施形態により、リアルタイムの映像シーンの中の様々な位置（他の物体の背後を含む）にコンピュータが生成した物体を配置することが可能になる。
【００５６】
さらに、本発明の実施形態は、リアルタイムの双方向ゲーム体験をユーザに提供する。例えば、ユーザはリアルタイムに様々なコンピュータが生成した物体と対話することができる。さらに、映像シーンをリアルタイムに変更してユーザのゲーム体験を高めることができる。例えば、コンピュータ生成のコスチュームをユーザの衣類の上に挿入することができるし、コンピュータ生成の光源を利用して映像シーンの中に仮想の影を投影することができる。それゆえ、本発明の実施形態と深さカメラを用いて、ユーザは自分のリビングルームの中でインタラクティブなゲーム環境を体験することができる。
【００５７】
図１３Ａは、本発明の一実施形態による、リアルタイム三次元インタラクティブ環境を提供するための典型的なシステム５００のブロック図である。図１３Ａに示すように、システム５００は深さカメラ５０２、入力画像処理部５０４、出力画像処理部５０６および映像表示装置５０８を含む。
【００５８】
上述のように、深さカメラ５０２は、通常の二次元の映像イメージに加えて三次元を捕らえてマップ化する能力を提供する。図１３Ｂおよび図１３Ｃは、典型的な深さカメラ５０２により生成される画像を示す。特に、図１３Ｂは典型的な深さカメラを用いて取得される二次元のデータ５２０を示す例である。通常のカメラと同様に、深さカメラはビデオ画像からなる複数のピクセルのために二次元のデータを取得する。これらの値はピクセルの色値であり、通常は各ピクセルに対して赤、緑、青（ＲＧＢ）の値である。このように、カメラで取得された物体はモニタ上に二次元の物体として現れる。例えば、図１３Ｂにおいて、典型的な場面はテーブル５２６に配置された円柱物体５２２と球物体５２４を含み、これらは丘５２８に間に位置していてもよい。
【００５９】
しかしながら、従来のカメラとは異なり、深さカメラは場面のために深さ値を取得する。図１３Ｃは、典型的な深さカメラを用いて取得された深さデータ５５０を示す例である。図１３Ｂに示すように、深さカメラは場面の中の各ピクセルのＲＧＢ値を用いて、場面のｘ成分とｙ成分を取得する。しかし、図１３Ｃに示すように、深さカメラは場面のｚ成分も取得し、これは場面の深さ値を表す。深さ値がｚ軸と一致するので、深さ値はｚ値と呼ばれることが多い。
【００６０】
動作において、ｚ値が場面の各ピクセルに対して取得される。各ｚ値は、カメラから、関連するピクセルに対応する場面内の特定の物体までの距離を表している。例えば、図１３Ｃにおいて、ｚ値は、円柱物体５５２、球物体５５４およびテーブル５５６の一部のために示される。さらに、その範囲を越えると深さ値が検出されない最大検出範囲が定義される。例えば、図１３Ｃにおいて、最大深さ範囲５５８は、すべてのピクセルが同じ深さ値を与えられる垂直面として現れる。後詳細に述べるように、本発明の実施形態によりこの最大深さ範囲平面を利用して、ユーザ定義の物体追跡を提供することができる。このように、深さカメラを使用して、各物体を三次元で追跡することができる。その結果、本発明の実施形態のコンピュータシステムは、二次元のピクセルデータとともにｚ値を利用して、ユーザのために強化された三次元インタラクティブ環境を作成することができる。深さ解析に関するより詳細な情報については、２００３年５月２９日に出願された、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＰｒｏｖｉｄｉｎｇａＲｅａｌ−ｔｉｍｅｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌｉｎｔｅｒａｃｔｉｖｅｅｎｖｉｒｏｎｍｅｎｔ」と題する米国特許出願第１０／４４８，６１４号を参照することができ、その内容は参照により本明細書に援用される。
【００６１】
本発明の実施形態によると、図１４Ａ−１４Ｃに示すように、深さカメラ５０２はステレオ・アイカメラであってもよい。例えば、双方向ゲーム構成１４００は、既知の距離Ｄだけ互いに離れている第１カメラ１４０５Ａと第２カメラ１４０５Ｂを含んでもよい。カメラは表示スクリーン１１０の上部に取り付けられ、例えばケーブルまたは無線媒体でコンピュータ１０２に接続されてもよい。各カメラ１０５Ａ、１０５Ｂは視野を持ち、その境界は図１４Ａの中で点線によって示される。２台のカメラの光軸は、互いに平行に配置されてもよい。各カメラの視野がわずかに異なるので、それらは物体１２４と頭１２０のわずかに異なる画像を生成する。これらの異なる視野を用いて、２台のカメラ１４０５Ａ、１４０５Ｂを含む平面に対する物体の深さｚを決定することができる。
【００６２】
深さを測定する能力を追加することで、双方向ゲーム構成１００は、例えば頭１２０と物体１２４の間の相対距離を決定することができる。そのような能力は、例えば、頭１２０と物体１２４の相対位置がゲームにとって重要である状況で有用である。例えば、物体１２４が銃である場合、頭１２０と銃の運動から銃の角度を測定することができる。あるいは、頭１２０の方へ銃をそらせることで、銃を再装填するゲームプログラムを起動するように動作させることができる。
【００６３】
一例として、図１４Ｂに示すように、第１カメラ１４０５Ａが頭１２０と物体１２４の画像を生成するとき、物体１２４は、第１カメラ１４０５Ａの視野の端から距離ｄ１の位置に現れるかもしれない。同様に、第２カメラ１４０５Ｂが頭１２０と物体１２４の画像を生成するとき、物体１２４は、第２カメラ１４０５Ｂの視野の端から距離ｄ２の位置に現れるかもしれない。二つの距離ｄ１、ｄ２を使用して、例えば三角測量を用いて、深さｚを決定することができる。
【００６４】
一例として、本発明を限定することなく、第１カメラ１４０５Ａと第２カメラ１４０５Ｂは、標準的なウェブカムと同程度に単純であってもよいし、より多くの先進技術を含んでもよい。一実施形態では、カメラ１４０５Ａと１４０５Ｂは、画像を取得し、画像をデジタル化し、画像をコンピュータ１０２へと戻すことができる。各カメラ１４０５Ａ、１４０５Ｂは、毎秒およそ１２０コマのフレームレートで画像を取得可能であってもよい。各カメラは、およそ７５度の視野とおよそ１．５のＦストップを有してもよい。
【００６５】
一例として、限定することなく、カメラ１４０５Ａ、１０４５Ｂは、コンピュータビジョンを用いてカメラで撮られる画像を処理するカラーデジタルカメラであってもよい。そのようなカメラによって、プレーヤは、動作、色検出を用いて、さらにビルトインマイクロフォンを介して音声を用いて、ゲームと対話することができる。特定の実施形態では、カメラ１４０５Ａ、１４０５Ｂは、カリフォルニア州フリーモントのＬｏｇｉｔｅｃｈ社が販売する一対のＥｙｅＴｏｙカメラである。カメラ１４０５Ａ、１４０５Ｂは、デジタル化を実行するためのロジックが内部に統合されていてもよい。あるいは、カメラ１４０５Ａ、１４０５Ｂは、取得したデータをデジタル化のために単にコンピュータ１０２に送信してもよい。いずれの場合も、カメラ１４０５Ａ、１４０５Ｂは、前方に位置する任意の物体の色画像または白黒画像を取得することが可能である。
【００６６】
２台のカメラ１４０５Ａ、１４０５Ｂからの画像のタイミングタイミングを同期させることが望ましい場合が多い。そうするためのいくつかの異なるスキームが存在する。例えば、共通の発振器を用いてカメラを動かしてそれぞれの電子機器を同期させてもよい。あるいは、ストロボタワー１４０２を用いて、独立した発振器を有する２台のカメラを同期させてもよい。ストロボタワー１４０２は、両方のカメラ１４０５Ａ、１４０５Ｂの視野内に置かれる。ストロボタワーは、例えば既知のシーケンスで点滅する発光ダイオード（ＬＥＤ）１４０４であるストロボ信号発生器の配列を備える。例えば、前のＬＥＤが点滅した後、左のＬＥＤから開始する各ＬＥＤが短時間Δｔだけ点滅してもよい。一例として、システム１４００のビデオ画像フレーム間のタイムステップの二倍に等しくなるように、Δｔを設定してもよい。各カメラ１４０５Ａ、１４０５Ｂはストロボタワー１４０２を「見る」ことができるので、画像内でいずれのＬＥＤ１４０４が点灯するかに基づいて、２台のカメラの間で画像を同期させることができる。
【００６７】
他の実施形態では、ストロボタワー１４０２は、時間に対して変化する周波数を有する光信号を発する一つ以上のＬＥＤを含んでもよい。この場合には、ストロボタワー１４０２からの信号の周波数（または色）から画像の同期を得ることができる。
【００６８】
ストロボタワー１４０２を利用することで、異なる既知の時間に撮影された画像の間で補間をすることが可能になる。例えば、二つの異なる既知の時間に決定された物体１２４の二つの異なる位置がある場合、画像間の位置および時間における変化から、物体１２４の速度を決定することができる。
【００６９】
本発明の特定の実施形態では、物体の位置を決定するために音を利用することができる。例えば、図１５Ａ−１５Ｂは、上述のタイプの双方向ゲーム構成で使用可能な画像取得装置１５００を表す。装置１５００は、例えば上述のタイプの任意のデジタルカメラである光学画像取得装置１５０５と、既知の距離だけ互いに間隔を空けて配置されるマイクロフォンの列１５０２を含む。例えば、マイクロフォン１５０２は、隣接するマイクロフォンと中心間でおよそ２センチメートルだけ離して配置される線形配列であってよい。各マイクロフォンは、およそ４８キロヘルツの共振周波数を有してもよい。
【００７０】
本発明の特定の実施形態では、マイクロフォン１５０２は画像取得装置１５０５とともに移動することが望ましい。例えば、マイクロフォン１５０２は、画像取得装置に対して（例えば、レンズ１５０６に対して）マイクロフォンを一定の位置関係に保つフレーム１５０４に取り付けられてもよい。マイクロフォンが水平方向の線形配置として配列されるものとして示しているが、代わりに、垂直方向または斜め方向に向けられたり、または二次元態様で配置されてもよい。
【００７１】
マイクロフォン１５０２は、コンピュータ１０２に接続されてもよいし、あるいは、装置１５００がマイクロフォン１５０２で受け取られる音声信号を解釈するためのロジックを含んでもよい。ビデオゲームで用いられる物体１２４（例えば、銃）は、音声発生部１５０３を含んでもよい。音声発生部１５０３が音を出すと、結果として生じる音波は、物体１２４の位置に応じて異なる時間にマイクロフォンに到達する。異なる到着時間を用いて、物体の位置を決定することができる。音声発生器は、コンピュータ１０２への音声トリガ信号として機能してもよい。
【００７２】
各画像取得装置は、上述したようにデジタルカメラであってもよい。そのようなカメラは、およそ７５度の視野とおよそ１．５のＦストップを有してもよく、毎秒最大およそ１２０コマのフレームレートで画像を取得できてもよい。
【００７３】
一部の実施形態では、装置１５００は可視光ＬＥＤ１５０８と赤外線ＬＥＤ１５１０を含んでもよい。これらは、画像取得装置１５０５の視野内の物体を照明するのに用いられてもよい。赤外線の画像のキャプチャを容易にするために、レンズ１５０６は、可視光と選択された周波数の赤外線（例えば、約９４０ｎｍの周波数）を透過するいわゆる「デイナイト」コーティングを含んでいてもよい。
【００７４】
特定の実施形態では、図１５Ａ、図１５Ｂに示されるタイプの２台の画像取得装置１５００Ａ、１５００Ｂを、双方向ゲーム構成１５５０において図１５Ｃで示すようなステレオで使用してもよい。これは、上述したようなストロボタワー１４０２を含んでもよい。２台の画像取得装置１５００Ａ、１５００Ｂを表したが、代わりに、１台の装置を使用して、単一装置からの視覚情報とともにマイクロフォン１５０２を使用して、深さ情報を決定してもよい。
【００７５】
本発明の実施形態は、分散画像処理構成を考慮する。例えば、本発明は、取得された画像、および、ＣＰＵや他の要素などの一つまたは二つの場所で発生する表示画像処理に限定されない。例えば、入力画像処理は、処理を実行可能な関連するＣＰＵ、プロセッサまたはデバイスで直ちに実行することができる。画像処理の基本的に全ては、相互に連結したシステムを通して分配することができる。このように、本発明は、任意の特定の画像処理ハードウェア回路および／またはソフトウェアに限定されない。本明細書に記述される実施形態は、一般的なハードウェア回路および／またはソフトウェアの任意の特定の組み合わせに限定されず、また、処理要素により実行される任意の特定の命令ソースにも限定されない。
【００７６】
上述の実施形態を考えるとき、本発明は、コンピュータシステムに格納されるデータを含む様々なコンピュータで実施される動作を使用できることを理解すべきである。これらの動作は、物理的な量の物理的な操作を必要とする動作も含む。通常、必須ではないが、これらの量は、格納され、移動され、結合され、比較され、または他の方法で操作することが可能である電気信号または磁気信号の形をとる。さらに、実行される操作は、生成、特定、決定、または比較などの用語で呼ばれることが多い。
【００７７】
上述の発明は、携帯用デバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家電、ミニコンピュータ、メインフレームコンピュータなどを含む他のコンピュータシステム構成でも実施可能である。本発明は、タスクが通信ネットワークで結ばれる遠隔処理装置で実行される分散コンピューティング環境でも実施可能である。
【００７８】
本発明は、コンピュータで読取り可能な媒体のコンピュータで読取り可能なコードとして表されることもできる。コンピュータで読取り可能な媒体は、電磁波キャリヤを含むコンピュータシステムで読み取り可能なデータを格納することができる任意のデータ記憶装置である。コンピュータで読取り可能な媒体の例は、ハードディスク、ネットワーク付属記憶装置（ＮＡＳ）、読出し専用メモリ、ランダムアクセスメモリ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、および他の光学または非光学データ記憶装置を含む。コンピュータで読取り可能なコードが配布形態で格納され実行できるように、コンピュータで読取り可能な媒体をネットワーク結合コンピュータシステムを介して分配してもよい。
【００７９】
理解の明快さを目的として発明をいくつか詳細に説明したが、特定の変更及び改造を添付の特許請求の範囲内で実施可能であることは明らかである。したがって、本実施形態は例示であり限定でないと見なされるべきであり、本発明は、上述の詳細に限定されることはなく、添付の特許請求の範囲内およびその等価物で修正可能である。

【特許請求の範囲】
【請求項１】
コンピュータプログラムとのインタフェース時に深さと方向を検出する方法であって、
（ａ）それぞれが座標空間内で取得位置を有している二つ以上の対応する画像取得装置の前に現れた二つ以上の画像を取得し、
（ｂ）前記画像取得装置と各画像取得装置にとって可視のストロボ信号とを同期させ、
画像内に人が捕らえられたとき、
（ｃ）画像内の人の第１体部位を特定し、該第１体部位に座標空間内の第１位置を割り当て、
（ｄ）画像内の人の第２体部位を特定し、該第２体部位に座標空間内の第２位置を割り当て、
（ｅ）前記取得位置から観察するとき前記第１位置と前記第２位置の間の座標空間内での相対位置を特定することを含み、前記相対位置は深さの寸法を含むことを特徴とする方法。
【請求項２】
前記相対位置は、前記画像取得装置により観察されるときの物体の指し示す方向を定義する請求項１に記載の方法。
【請求項３】
前記深さの寸法は、空間を空けた位置に配置された第１および第２画像取得装置を用いて第１および第２画像を撮影し、各画像内の基準に対する各画像内の物体の距離を測定することによって決定される請求項１または２に記載の方法。
【請求項４】
前記取得位置が表示スクリーンの近接位置にあり、前記表示スクリーンがインタラクティブなグラフィックスを描画可能である請求項１ないし３のいずれかに記載の方法。
【請求項５】
前記指し示す方向が表示スクリーンに向かう方向である請求項４に記載の方法。
【請求項６】
（ａ）−（ｄ）を継続的に繰り返して前記指し示す方向を更新し、継続的に更新された指し示す方向を前記表示スクリーンに表示することをさらに含む請求項４または５に記載の方法。
【請求項７】
表示された指し示す方向を用いて、特定のインタラクティブなグラフィックスの選択を可能にすることをさらに含む請求項６に記載の方法。
【請求項８】
前記選択が、検出された引き金イベントに応答する請求項７に記載の方法。
【請求項９】
前記検出された引き金イベントは画像内で特定され、この特定は、第１の時点で人により保持された物体の第１特性を特定し、第２の時点で人により保持された物体の第２特性を特定することを含み、
第１時点と第２時点の間で調べるとき、第１特性と第２特性の間にある程度の差異が存在すると判定される場合に、前記引き金イベントが起動されることを特徴とする請求項８に記載の方法。
【請求項１０】
起動中の前記引き金イベントは、インタラクティブなグラフィックスとの対話性を示す請求項９に記載の方法。
【請求項１１】
前記対話性は、グラフィック、グラフィックの射撃、グラフィックへの接触、グラフィックの移動、グラフィックの起動、グラフィックの始動、グラフィックとの作用のうち一つまたは複数の選択を含むことが可能である請求項１０に記載の方法。
【請求項１２】
前記相対位置は、表示スクリーンに近接する取得位置にある前記画像取得装置によって観察するとき、前記第２体部位の指し示す方向を定義する請求項１に記載の方法。
【請求項１３】
前記第１体部位が人の頭であり、前記第２体部位が人の手である請求項１に記載の方法。
【請求項１４】
コンピュータプログラムの実行中に（ａ）−（ｄ）を継続的に繰り返し、（ａ）−（ｄ）を繰り返す間に前記人の手の形状を検査して特定の形状変化を判定することを特徴とする請求項１に記載の方法。
【請求項１５】
特定の形状変化が、前記コンピュータプログラムのインタラクティブなグラフィックスとの対話性を起動する請求項１に記載の方法。
【請求項１６】
前記対話性が、グラフィックの選択、グラフィックの射撃、グラフィックの接触、グラフィックの移動、グラフィックの起動、グラフィックの始動、グラフィックとの作用のうち一つまたは複数を含むことができる請求項１５に記載の方法。
【請求項１７】
前記第２体部位が人の手により保持される物体として特定される請求項１に記載の方法。
【請求項１８】
前記物体が色を含む請求項１ないし１７のいずれかに記載の方法。
【請求項１９】
前記色は、コンピュータプログラムのインタラクティブなグラフィックスとの対話性を起動するための状態の間で切り替わることが可能である請求項１８に記載の方法。
【請求項２０】
追加の色が前記物体上に存在し、これらの色は、前記コンピュータプログラムのインタラクティブなグラフィックスとの対話性を起動するために切り替わることが可能である請求項１９に記載の方法。
【請求項２１】
前記色は、前記コンピュータプログラムのインタラクティブなグラフィックスとの対話性を起動するためにオン／オフ状態に切り替わることが可能である請求項１８に記載の方法。
【請求項２２】
前記コンピュータプログラムがビデオゲームである請求項１ないし２１のいずれかに記載の方法。
【請求項２３】
前記第１体部位が人の頭であり、
前記相対位置は、前記取得位置に対する前記頭の位置と前記物体位置との間の方位角および高度角を計算することによって特定される請求項１に記載の方法。
【請求項２４】
前記人の頭を特定することが、顔発見コードと組み合わされたテンプレートマッチングを使用して処理される請求項１に記載の方法。
【請求項２５】
前記人によって保持される物体を特定することが、該物体の一部のカラートラッキングによって容易化される請求項１に記載の方法。
【請求項２６】
カラートラッキングは、色の違いを識別すること、および色のオン／オフ状態を識別することのうちの一つ、またはその組み合わせを含む請求項２５に記載の方法。
【請求項２７】
前記人によって保持される物体を特定することが、（ａ）−（ｅ）を繰り返すときに前記物体の位置変化を識別することによって容易化される請求項２５に記載の方法。
【請求項２８】
前記ストロボ信号が、既知のシーケンスで点滅するストロボ信号発生器の配列によって発生される請求項１に記載の方法。
【請求項２９】
（ｂ）が、いずれのストロボ信号が前記二つ以上の画像内で点灯するかに基づき、前記二つ以上の画像取得装置間で同期をとることを含む請求項２８に記載の方法。
【請求項３０】
コンピュータプログラムのグラフィックスを描画可能な表示スクリーンの方向に向けられた物体の指し示す方向を検出するシステムであって、
プロセッサと、
前記プロセッサに接続されたメモリであって、実行時にコンピュータプログラムと相互作用するときに深さおよび方向を検出する方法を実装するように構成された一つ以上のコンピュータ実行可能命令が具現化されたメモリと、を備え、
前記方法は、
（ａ）それぞれが座標空間内で取得位置を有している二つ以上の対応する画像取得装置の前に現れた二つ以上の画像を取得し、
（ｂ）前記画像取得装置と各画像取得装置にとって可視のストロボ信号とを同期させ、
画像内に人が捕らえられたとき、
（ｃ）画像内の人の第１体部位を特定し、該第１体部位に座標空間内の第１位置を割り当て、
（ｄ）画像内の人の第２体部位を特定し、該第２体部位に座標空間内の第２位置を割り当て、
（ｅ）前記取得位置から観察するとき前記第１位置と前記第２位置の間の座標空間内での相対位置を特定することを含み、前記相対位置は深さの寸法を含むことを特徴とするシステム。
【請求項３１】
実行時にコンピュータプログラムと相互作用するときに深さおよび方向を検出する方法を実装するように構成された一つ以上のコンピュータ実行可能命令が具現化された、非一時的なコンピュータ可読記録媒体であって、
前記方法は、
（ａ）それぞれが座標空間内で取得位置を有している二つ以上の対応する画像取得装置の前に現れた二つ以上の画像を取得し、
（ｂ）前記画像取得装置と各画像取得装置にとって可視のストロボ信号とを同期させ、
画像内に人が捕らえられたとき、
（ｃ）画像内の人の第１体部位を特定し、該第１体部位に座標空間内の第１位置を割り当て、
（ｄ）画像内の人の第２体部位を特定し、該第２体部位に座標空間内の第２位置を割り当て、
（ｅ）前記取得位置から観察するとき前記第１位置と前記第２位置の間の座標空間内での相対位置を特定することを含み、前記相対位置は深さの寸法を含むことを特徴とする非一時的なコンピュータ可読記録媒体。

【図１Ａ】

【図１Ｂ】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３Ａ】

【図１３Ｂ】

【図１３Ｃ】

【図１４Ａ】

【図１４Ｂ】

【図１４Ｃ】

【図１５Ａ】

【図１５Ｂ】

【図１５Ｃ】

【公開番号】特開２０１１−４４１６０（Ｐ２０１１−４４１６０Ａ）
【公開日】平成２３年３月３日（２０１１．３．３）
【国際特許分類】

【出願番号】特願２０１０−２１５８９７（Ｐ２０１０−２１５８９７）
【出願日】平成２２年９月２７日（２０１０．９．２７）
【分割の表示】特願２００８−５４５８９８（Ｐ２００８−５４５８９８）の分割
【原出願日】平成１８年１１月１７日（２００６．１１．１７）
【出願人】（３１００２１７６６）株式会社ソニー・コンピュータエンタテインメント (417)
【Ｆターム（参考）】

[ Back to top ]

コンピュータプログラムとのインタフェース時に深さと方向の検出を可能とする方法およびシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

コンピュータプログラムとのインタフェース時に深さと方向の検出を可能とする方法およびシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク