深度データを用いたビジュアルトラッキング

【課題】深度感知撮像技術を用いたリアルタイムビジュアル画像トラッキングにより、照度不変のトラッキング性能が得られる。深度感知(タイムオブフライト)カメラによって、同じ場面がリアルタイムで深度と色を持つ画像として提供される。深度ウィンドウはシャッター速度を制御してトラッキングする領域を調整する。深度画像データからポテンシャル領域が導き出され、トラッキングする目標物体の周縁部の情報が得られる。数学的に表される輪郭はトラッキングする目的物体をモデリングすることができる。この輪郭とトラッキングする目的物体の周縁部との間の適合度を決定し、深度データに基づいて、トラッキングのための位置情報が得られる。画像トラッキングに基づいて深度センサを用いる用途としては、頭部トラッキング、手のトラッキング、姿勢推定、ロボットの命令画定および、その他の人間とコンピュータの相互関係システムが挙げられる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は一般にリアルタイムのコンピュータビジョンに関し、特にコンピュータを用いた移動する対象物のコンピュータビジュアルトラッキングに関する。
【背景技術】
【０００２】
人間とコンピュータとの相互関係「ＨＣＩ（Human-Computer Interaction）」等のリアルのタイムコンピュータビジョンの多くの分野において、トラッキングは重要な構成要素である。ＨＣＩの一応用例としては、運転者のモニタが挙げられる。この分野では、頭部の向きや身体の傾斜を測定するために様々な技術が用いられてきた。この情報は、例えばエアバッグ展開システムや安全システムにおける注意喚起や疲労監視に用いることができる。運転者の頭部およびその他の身体部分の空間位置のトラッキングすることで、これら及びその他のＨＣＩシステムの操作が容易となっている。
【０００３】
従来のトラッキングシステムは、通常、二次元（２Ｄ）のグレーまたはカラー画像に基づく。テンプレートあるいは確率論的画像フレームワークを用いる方法が、十分に機能しない状況がある。従来のトラッキングアルゴリズムは、周囲環境が混乱していると失敗することが多い。その失敗の原因は、検証されている仮定が真の目標の物体を識別できないからである。目標の物体が周囲（例えば背景）と比べて明らかに深度が異なる場合でも、目標の物体ではない周囲の環境物体に起因する周縁部の不確定性により、この問題が主に起こっている。この影響は、例えば頭部トラッキング、人体トラッキング、手の動きのトラッキングなどを含む、多くの重要なトラッキング用途に共通している。従って従来のシステムを用い、前景の目標の物体を背景物体と区別することは簡単な作業ではない。
【０００４】
従来のトラッキング法に共通するこの問題は、基本的には、目標の物体の周囲環境の背景が乱れている時に目標の物体が失われてしまうことである。トラッキングアルゴリズムの基礎となる輪郭またはパターンを乱す照明条件が変化する時にも類似の問題が生じる。このトラッキング問題を解決するため多くの種々の手法が採られている。ある従来システムは輪郭情報を用い、他の手法では立体画像システムからの深度、強度および色分布やこれらの特徴の組み合わせを用いている。
【０００５】
いくつかのシステムは、トラッキング機能を支援するために目標の物体の深度の特徴を用いることを試みている。例えば、立体（デュアルカメラ）システムをモデルフィッティング手法によって頭部をトラッキングするために用いている。これらの中のいくつかは、立体画像を用いているが、依然として他の強度を基本とする情報に依存しているか、あるいは、立体画像だけを用いるのであれば、計算を多用したアルゴリズムと共に用いられている。
【発明の開示】
【発明が解決しようとする課題】
【０００６】
このように、（１）リアルタイムの画像データと、（２）計算を多用しないアルゴリズムの使用と、（３）簡単で、かつ単一のカメラシステムの使用と、に基づくトラッキング方法およびシステムが求められている。
【課題を解決するための手段】
【０００７】
深度感知カメラを用いて目標の物体のリアルタイムトラッキングを行うためのコンピュータ処理を用いた方法が記載されている。この方法は、リアルタイムで映像イメージストリームの深度情報を受信することを含んでいる。この映像深度情報は、トラッキングする目標の物体の画像を含んでいる。深度情報に基づいて深度画像における目標の物体の外周縁部が見出される。次に目標の物体の形状をモデリングする数学的に表わされる輪郭をその画像中の異なる位置に合わせ、目標の物体の縁部に最適合するものを見つける。この画像内の輪郭と位置から目標の物体のトラッキングが行われる。
【０００８】
これらの動作原理に基づく人間とコンピュータとの相互関係システムは、コンピュータ制御入力として人間の運動を視覚的にトラッキングすることができる。このシステムは、人間の深度画像を取り込むための能動深度センサを備える。演算装置は、深度画像を受取って制御入力情報を取り出す。このため演算装置は、どの光電素子（ピクセル）がトラッキングする人物の周縁部に相当するかを画像データから決定するように構成された周縁部検出モジュールを備える。次に、トラッキングする人物（または人物の身体の部分）を描いている輪郭を用いて、トラッキングモジュールは、画像内の周縁部に対してその輪郭を最も良く適合する方法を決定する。最適合部分に基づいて、取り込まれた深度画像内の目標の物体の位置が与えられる。この位置情報は、次いで例えば手振り、腕の運動等をコンピュータの命令に応じて認識する他の機械的視認技術を用いるために使用することができる。
【０００９】
さらに、この人間とコンピュータとの相互関係システムは、胴体の傾斜を決定するモジュールを備え、位置情報を得て、能動センサに関する一つまたはそれ以上の胴体部分の平均距離をそれぞれ計算する。その後にそれぞれの胴体部分の平均距離を他の胴体部分に関連させることによって、モジュールは胴体の傾斜情報を決定する。この胴体の傾斜情報は、例えばエアバッグの展開を制御する車両制御装置に用いることができる。
【００１０】
一実施形態では、自動車は様々な目的のために、搭乗者の胴体の傾斜情報をトラッキングするよう構成されている。自動車は搭乗者の深度画像を取り込むために能動深度センサを装備している。上記のモジュールと類似の周縁部検出モジュールとトラッキングモジュールとを備えた演算装置は、車両の他の制御ロジックにトラッキングデータを提供することができる。このトラッキングデータは、運転者支援技術、エアバッグ展開等に用いることができる。
【００１１】
本明細書に記載された特徴および利点はすべてを包括しているわけではなく、特に、他の多くの特徴および利点が、図面、明細書および特許請求の範囲より当業者にとって自明であろう。さらに本明細書で用いた用語は、原則として読みやすさと教示を目的として選択されたものであり、本発明の主題を叙述または制限するため選択されたものではない事に留意されたい。
【発明を実施するための最良の形態】
【００１２】
図面と以下の記述は、単に例示による本発明の好ましい実施形態に関する。以下の考察から本明細書で開示されている構造ならびに方法についての代替の実施形態は、本願が請求する原理から逸脱することなしに用いることのできる実施可能な代替であるとして容易に認識されよう。
【００１３】
図１Ａを参照すると、上半身の位置が異なる運転者の深度画像が、楕円トラッキングシステムの出力によって示されている。深度画像は、深度値に基づくピクセル強度の変化を用いてビジュアル的に示されている。すなわち、カメラに近い物体は明るく、順次暗くなり、最後に深度ウィンドウより外側の背景は黒色として示される。特定の距離範囲、もしくは深度ウィンドウ内の物体についての深度情報を取り込む、または感知するため、深度センサを取り付けることができる。この深度情報の取り込み、または感知がリアルタイムで行われ、深度画像または画像フレームのストリームが生成される。この深度センサは、例えばビデオ、フィルム、デジタルビデオ等の映画用カメラとして機能するが、これは複合画像情報を出力する。この複合画像情報にはそれぞれのピクセルの深度情報が含まれている。例えば、複合画像または深度画像は一般にピクセルの座標、色度、深度値およびその他の一般的な画像データを含んでいる。深度感知型カメラを用いる利点は、シャッタ速度を制御して深度ウィンドウを設定可能なことある。例えば図１Ｂは、人物の右手をトラッキングするトラッキング装置の一実施形態の出力画像を示している。画像に示すように、トラッキング目標の右手１０１がトラッキングされる一方で、人物の胴体１０２と頭部１０３は距離範囲の周縁部にあり、トラッキングされていない物体によって深度情報が乱れることを避けるために背景は除外している。別の例として、運転者の姿勢トラッキングの（例えば図１Ａに示すような）応用例では、カメラの深度ウィンドウを、ハンドルの領域から（Ｄｍｉｎ）運転者のヘッドレスト１１０（Ｄｍａｘ）までの範囲に設定することができ、これにより例えば後部座席の乗員の動きに基づく深度データによって深度情報が乱れることを避けている。
【００１４】
図２は、深度感知カメラを用いたトラッキングシステムの一例を示す。深度感知カメラ２０２は飛行時間（time-of-flight）の原理に従って動作するため、タイムオブフライトカメラと呼ばれる。トラッキングシステム２００の一実施形態は、例えば３ＤＶＳｙｓｔｅｍｓ社（イスラエル、Yokneam）、またはＣａｎｅｓｔａ株式会社（カリフォルニア州、San Jose）により製造された１台の深度感知カメラ２０２を備える。タイムオブフライトカメラ２０２は、トラッキングされている目標の物体２０６が動き回るＤｍｉｎからＤｍａｘの領域を含む深度ウィンドウ２０４に撮像設定される。この手法の利点の一つは、トラッキングしない物体２０８、例えば、背景物体の深度画像情報を作らないことである。深度感知カメラ２０２はトラッキングコンピュータ２１０に接続される。一実施形態において、トラッキングコンピュータ２１０は、例えばＩｎｔｅｌ社（カリフォルニア州、Santa Clara）のＩｎｔｅｌ画像処理ライブラリーのような画像処理ライブラリーを含み、Ｉｎｔｅｌ社製の１．２ＧＨｚ、ペンティアム（登録商標）ＩＩＩプロセッサ上で毎秒１４フレーム（３２０×２４０ピクセル）で動作する。別の実施形態においては、深度感知カメラ２０２はロボットの視覚装置の一部であって、トラッキングコンピュータはロボット、例えば本田技研工業株式会社（日本、東京）の人間型ロボットＡＳＩＭＯ（登録商標）の制御ロジック内のモジュールである。さらに車両内のデータプロセス制御におけるトラッキングモジュール２１０に接続された、例えばエアバッグ展開制御用の車両室内のタイムオブフライトカメラ２０２を含む。
【００１５】
飛行時間の原理に従って動作する深度感知カメラ２０２は、同じ光学軸を用いてリアルタイムで深度と色の情報を同時に取得することができる。さらに、タイムオブフライトカメラは深度情報が記録される作動範囲（Ｄｍｉｎ〜Ｄｍａｘ）に相当する深度ウィンドウ２０４を設定するという有利な特徴を備えている。この独特な特徴は、Ｄｍａｘを画像化される主題または目標の物体２０６の背後に設定することによって取り込む画像から所定深度を超えている目的物体を取り除き、背景の乱れを除去する。
【００１６】
画像取得方法は深度感知カメラ２０２による能動感知に基づくもので、赤外線発光パルスが目標の物体２０６に投影され、センサが目標の物体２０６から反射されたエコー信号を読み取る。さらにこの装置は高速シャッタを備え、それによりそのエコー信号がセンサに入力される目的物体に対する感知範囲、すなわち深度ウィンドウ２０４を制御する。遠方の物体２０８に対しては、エコーはシャッタが閉じた後に装置に達するので、この物体に対しては信号が記録されない。すなわち背景となる物体２０８の殆どは、記録場面には現われない。
【００１７】
立体システムと比較して深度感知トラッキングシステム２００はいくつかの改良された特徴を備えている。例えば、室内の周囲環境にセンサが用いるパルスと同じ波長の光が含れていない限り、画像は照明によって変化しない。任意の設定範囲における性能も立体システムより改善されている。すなわち、距離の誤差は、０．５〜３ｍの範囲の深度ウィンドウ２０４で５〜１５ｍｍ程度である。別々に対応する深度画像（例えば、それぞれのピクセルに対し８個の追加ビット）において、リアルタイムで深度情報を記録することができる。この定義により、例えば身振り認識に用いられるシステム２００における手と胴体の他の部分などの画像要素の間の十分な間隔が得られる。更に深度情報と色情報とがリアルタイム速度（例えば３０フレーム／秒）で取り込まれ、事実上同一場面の深度と色の画像を生成する。（壁のような）テクスチャーを用いずに目的物体の距離を感知する性能は、それぞれのカメラの画像間の違いを区別できない立体システムより遥かに優れている。これら総ての改良された特徴およびその他の特徴は、従来の立体システムの複数のカメラではなく、単一カメラトラッキングシステム２００によって得られる。また、単一カメラシステム２００を用いることによって、２台もしくはそれ以上の従来の立体式システムにおける複数のカメラ間の校正が不要になるという、更なる利点が得られる。
【００１８】
（ポテンシャル領域）
図３は、サンプルエッジポテンシャル変換マップを伴う深度画像を示す。変換マップ３００はポテンシャル領域中でアトラクタとして描かれている、トラッキングする目標の物体２０６を含む。目標の物体の周縁から外側のそれぞれの点３０２は、その点が、基準値（例えばポテンシャル「０」）を与えている目標の物体の周縁部３０１からどれだけ離れているかを示す値と関連している。アトラクタの正確な位置は分からないが、すなわち、これがトラッキングされているので、画像の周縁部を用いて近似的なポテンシャル領域を作成する。（ポテンシャル領域として表わされた）「風景」の形状を定義するポテンシャル関数には多少のばらつきがある。一実施形態においては計算を速めるため距離変換を用いる。特に点ｐと一連の点Ｙの間の距離Ｄは、ｐとｐに最も近いＹの中の点（すなわち、距離Ｄが計算される外側の点３０２に最も近い目標の物体の周縁部３０１の外郭線上の点）との間のマンハッタン距離として定義される。
【００１９】
【数１】

【００２０】
この基準を用いて、目標の物体の周縁部のそれぞれの点３０１が基準値、例えば値「０」ポテンシャルであり、目標の物体の周縁部外の各点３０２が、例えば図３に示すような最も接近している周縁部の点３０１までのマンハッタン距離に対応する値Ｄであるポテンシャル領域を決定することができる。一連のポテンシャル値によって定義された輪郭の目視表示を図４Ａに示す。
【００２１】
図４Ａは、目標の物体の深度画像に対応するポテンシャル領域のプロファイル、すなわち「景色」を示している。最も低い点すなわち谷間４０２は対応する深度画像における目標の物体の周縁部３０１に対応している。この輪郭のその他の点は深度画像における隣接点のポテンシャル値（例えばＤ）をグラフ表示してある。従って、「丘」４０４は完全に「谷間」によって囲まれているので、例えば目標の物体の頭部４０４の表示を検出し、目標の物体の胴部４０６と判別することができる。点の同心状等距離線は、縁部の点３０１から最も遠い点３０２に対応している「丘」の頂きで局地的最大値に到達するよう定義することができる。反対方向では、点３０２は一般に画像の周縁部に向かって緩い傾斜４０２の形で増大する。「谷間」４０２は、周縁部の点３０１によって形成され、最もポテンシャルの低い領域４０８を形成する。この領域は、本参考実施形態では楕円形の数学的に表示可能な輪郭４１０に合わせることができる。以下にさらに詳述するような画像データ解析をすると、目標の物体を含んでいそうな画像（調査領域Ｓ）の座標軸が得られる。このようにして例えば図４Ａにおいて、胴部の反対側にある人物の頭部をトラッキングするのであれば（すなわち頭部が目標の物体となる）、調査領域Ｓは輪郭４００の右側を含まないようになる。このようにして、一般的な調査領域Ｓに制限を加えることによって、ポテンシャルの低い領域４０８ａだけがこの制限に適合し、胴部に対応するポテンシャルの低い領域４０８ｂを無視することができる。
【００２２】
ポテンシャル領域を計算する場合、輪郭４１０とポテンシャルの低い領域４０８ａとの近接度合は距離の関数によって与えられる。例えば数学的に表現可能な輪郭４１０（Ｘ）の点は、全体として目標とするポテンシャルの低い領域４０８ａを構成する一連の点３０１（Ｙ）と比較されるべきものであるとすると、一実施形態において、二組の点Ｘ（例えば輪郭４１０）とＹ（例えば目標の物体周縁部４０８ａ）との間の距離は、面取り距離と呼ばれる式で定義される。
【００２３】
【数２】

【００２４】
この場合、集合Ｘの各点ｘと、集合Ｙとの間のマンハッタン距離Ｄを、集合Ｘの一連の点にわたって加算する。この尺度は、以下に記載する最良の適合を決定するための、いくつかの「最も妥当な」輪郭４１０の位置または状態の比較に用いることができる。
【００２５】
一実施形態によれば、目標の物体をトラッキングするアルゴリズムは次の基準を含んでいる。
【００２６】
【数３】

【００２７】
この実施形態において、ｓは輪郭４１０の状態に対応し、一方、Ｓは総ての想定される状態を含む輪郭ｓの調査スペースで、ｓは現在の状態の近傍を取り込むことができる。符号Ｉは特別な深度画像またはフレームに対応する周縁部マップ４００を表すために用いられる。最初のフレームに対して目標位置ｓが推定され、以降のフレームに対しては、画像位置ｓ_ｔの近傍におけるｔ＋１における次の目標の状態ｓ、すなわちｓ_ｔ＋１を見つけるための調査領域を画定するため、先行する画像ｓ_ｔからの最終位置が用いられる。
【００２８】
それぞれの目標状態ｓの候補に対し、現実の目標の物体周縁部４０８ａとの輪郭４１０の全体的な適合性が査定され、最も小さい全体的整合値（ポテンシャル値）を有するものが最も適合性の高い輪郭として選択される。例えば、この適合値は周縁部の点４０８ａ（Ｙ）から輪郭４１０（Ｘ）までのポイント距離ｄｉｓｔ（）の合計とすることができる。輪郭４１０としては、多くの数学的に示すことのできる形状または曲線は、いずれのものでも用いることができ、例えば楕円、矩型、正方形、卵型、自由形状の曲線などが挙げられる。一実施形態においては、軸に対する一定のアスペクト比率を用いることでその位置とサイズを容易に変化させることができるため、楕円を用いている。
【００２９】
（楕円形の頭部トラッキング）
頭部の検出とトラッキングの一実施形態において、人物の頭部の二次元投影を一定のアスペクト比率１．２の垂直楕円としてモデリングする。これは長軸がｈ、短軸がｈ／１．２のことである。そして、所定の瞬間における頭部（楕円）ｓの状態は三重項（ｘ，ｙ，ｈ）で表わされる。ここでは、（ｘ，ｙ）は画像座標システムにおける頭部の中心位置で、ｈは画像における頭部の投影モデルを描くため用いた楕円の長軸の長さである。他の実施形態においては、トラッキングされた目標の物体は、例えば中心位置と半径、すなわち円形（ｘ、ｙ、ｃ）と、中心位置と側部の長さ、すなわち正方形（ｘ，ｙ，ｌ）、または別の位置と、一連の点の間に関連する数学的な関係（すなわち輪郭４１０）等の数学的に表わすことのできる状態ｓにより、そのモデリングをすることができる。以下に論じるように、この実施形態においては、予想される頭部の状態の近傍の調査領域Ｓで楕円測定の最適化を試みることにより頭部トラッキングが行われる。
【００３０】
図４Ｂは、楕円形頭部のトラッキングの実施形態を示している。楕円４１０の状態ｓ＝（ｘ，ｙ，ｈ）および深度画像Ｄに対応する勾配画像Ｉが４０８であるとして、Ｉに関するｓの測定を行なうと、画像Ｉの位置（ｘ，ｙ）において、サイズｈの楕円計測がなされる。一実施形態では、この楕円に対する計測は、ニシハラ氏等が「Real-time Tracking of People Using Stereo and Motion」と言う題目で、SPIE ProceedingsのＶｏｌ．２１８３（１９９４）に提案したものであり、参照することにより本明細書に援用する。このため状態ｓの楕円計測は次式により行なわれる。
【００３１】
【数４】

【００３２】
式中、Ｉｓ（ｉ）は、画像Ｉにおける状態ｓの楕円のｉ番目の周辺ピクセルにおける距離勾配である。Ｎ_ｈはサイズｈの楕円の外周上のピクセルの数である。ｎ_ｈ（ｉ）は、同じｉ番目の周辺ピクセルにおけるサイズｈの楕円に対する標準的なユニットベクトルであり、「・」はドット積を表わす。この計測は、勾配の方向と距離との不連続性の大きさを考慮している。ｉとｊの２点について図４Ｂに示すように、この計測値ＥＭは、ドット積で求められているような距離の勾配の大きさと、楕円周縁との整列状態に比例する。例えば、楕円の状態ｓが目標頭部Ｉの輪郭と一致すると（すなわち点ｊ）、そのような楕円の周縁の点でユニットベクトルｎ_ｈ（ｊ）は距離勾配ベクトルＩｓ（ｊ）（すなわちｃｏｓ０゜＝１）と同じ方向となり、このためこの計測値ＥＭは距離勾配ベクトルの大きさに比例する（すなわち、

）。さらに、完全な整合点であればあるほど、すなわち、輪郭と目標の物体周縁部との間の適合が良くなるほど、ＥＭ値は大きくなる。なぜなら、背景に対して深度が大きく変化するために、距離勾配の大きさが目標の物体周縁部で最大になるからである。したがって、可能な一連の状態の内で最も適合性の高いものを、得られたＥＭ値と比較して決定することができる。これについては以下に述べる。
【００３３】
トラッキングを行なう目的で、時刻ｔおよびｔ−１における頭部の状態をそれぞれ、ｓ_ｔ＝（ｘ_ｔ，ｙ_ｔ，ｈ_ｔ）、ｓ_ｔ−１＝（ｘ_ｔ−１，ｙ_ｔ−１，ｈ_ｔ−１）とすると、時刻ｔ＋１における頭部の位置は、速度が一定と仮定して予測される。頭部のサイズは変わらないものとして予測する。
【００３４】
【数５】

【００３５】
この簡単な運動モデルは、頭部の側方への速度についての制限を取り除くことにより、トラッキングシステムの性能を大きく向上させる。一定速度のモデルは加速量を制限するが、強固な入力特徴と、十分な調査ウィンドウがこれを補っている。頭部のサイズについては、実施してみると徐々に変化し、定量変化モデルには従わないことが分かった。調査スペースＳは徐々に時々頭部サイズが変化することを考慮している。
【００３６】
楕円計測ＥＭは時刻ｔ＋１における勾配画像Ｉについて、調査スペースＳの総ての状態について計算する。（Ｓは予測される状態ｓ_ｔ＋１の内の幾つかの範囲についてはその総てを含んでいる。）この調査における最大の楕円計測に対応する状態が、フレームｔ＋１における頭部の状態として選択される。
【００３７】
【数６】

【００３８】
図４Ｂにおいて、輪郭４１０は最適合のもの（ｍａｘ．ＥＭ）が輪郭４１０から周縁部４０８までの距離計測が最小になる状態に対応しているため、目標の物体４０４の周縁部に対応するポテンシャルの低い谷間４０８に「落ち込んでいる」。これは輪郭４１０の周囲が目標の物体周縁部４０８と一致している時に起こる。
【００３９】
さらに本発明の一実施形態においては、例えば、トラッキングシステムを停止させたり、検出モジュールを始動させて新たな目標の物体頭部の予測位置を得たりするための基礎として、ドリフトティングを防止するための信頼性指標（ＣＭ）を計算する。画像Ｉについての状態ｓの信頼性指標は次のように定義される。
【００４０】
【数７】

【００４１】
式中、ｍａｘ．ＥＭ（ｈ_ｔ＋１）とｍｉｎ．ＥＭ（ｈ_ｔ＋１）は、サイズｈ_ｔ＋１の楕円に対してこれまで観察されているＥＭの最大値と最小値である。信頼性指標が所定のしきい値より低くなると、適切な行動（例えばトラッキング装置の停止や検出モジュールのスタート等）をとる。
【００４２】
（画像構成成分に基づくポテンシャル領域のトラッキング）
特に深度情報を用いる物体のトラッキングに適した別の実施形態において、画像構成成分に基づくトラッキング法が実行される。構成成分を用いない実施形態とは異なり、目標の物体周縁部の「側面」が判別される、すなわち輪郭４１０のどちら側が高く（カメラから遠いか）またはどちら側が低いか（カメラに近いか）によって、輪郭４１０は目標の物体周縁部４０８の縁部断片に引き寄せられる。深度分布図における周縁部は、その向きが「どちらの側の周縁部４８０の深度値が大きいか」ということに基づいて自然に定義される。すなわち深度値が高いと外側の周縁部であり、他方で深度値が低いと内側、つまり目標の物体自身の部分である。
【００４３】
例えば、輪郭４１０（例えば楕円、矩型、正方形、円などを画定する一連の点Ｘ）をｋ個の部分に分割する（例えば、ｋ側の楕円）。ここにｋは通常は偶数（例えば２、４、６、８等）である。ｋ個の部分は同じ部分に在るピクセルが同方向に配列されているように、それぞれ外側（深度値の高い部分）と内側（深度値の低い部分）とに画定され、各部分は配列方向が一致している時にだけ目標の物体の周縁部４０８の縁部セグメントに適合する。つまり縁部セグメントの外側の深度値が内側の深度値よりの大きい時にだけ輪郭の部分に適合する。このようにして、特に目標の物体の近くに真のものではない縁部が多数存在する時には、適合を修正する可能性が大きくなる。
【００４４】
ｄｉｓｔ（）の計算はそれぞれの方向に対して１回、計ｋ回行なわれる。例えば一実施形態においては、Ｉ^ｉとｓ^ｉはそれぞれ、ｉ番目の方向に対する周縁部画像と、ｉ番目の方向のｓの部分である。これは画像Ｉ^ｉ（と部分ｓ^ｉ）が相互に関連していない（Ｉ＝ＵＩ^ｉ、同様にｓ＝ＵＳ^ｉ）ということである。この実施形態によるトラッキング法は以下のように表わされる。
【００４５】
【数８】

【００４６】
さらに一実施形態においては、ｋ個の部分または構成成分に、特定の目標の物体への方向に対する重要性を表わすために重み付けを行うことができる。例えば、人体トラッキングは水平側より垂直側に大きい重み付けが行われる。
【００４７】
図５は、単に二つの領域（上部の遠い領域と下部の近い領域）を含む単純な場面を示している。位置ａにおける輪郭５１０（５１０ａとして示す）が正しくトラッキング目標の物体５０８に適合しているとする。位置ｂにおける輪郭５１０（５１０ｂとして示される）は適合ミスであるが、周縁部の方向を区分しない実施形態では適合していると考えてもよい。位置ｃにおける輪郭５１０（５１０ｃとして示す）もまた適合ミスであるが、ｓ_ｔ＋１がその一般的領域にあると予測する調査領域Ｓの評価が位置（ａ）にあるよりも低い局所的最低限度と考えられる。画像構成成分に基づかない実施形態では、位置（ａ）における輪郭５１０ａと（位置（ｂ）における）輪郭５１０ｂは殆ど等しい「適合点数」を得るだろう。しかし、この実施形態によれば輪郭５１０ｂは輪郭ｓ^ｉの部分のそれぞれに対する適切な方向に合致していないため切り捨てられると考えられる。例えば、間違った方向で目標の物体に適合した輪郭の部分に対応する適合点に対してより大きい重み付けを与えて位置（ａ）で輪郭５１０ａを形成したとしても、全体では、示された３個の輪郭の中で最も低い適合点を得ることになる。
【００４８】
図６は、トラッキング法の一実施形態を示す。この実施形態によれば、入力としてビデオ深度画像ストリームを受信する（ステップ６０１）。処理の対象となるストリーム中の最初のフレームを選択する（ステップ６０２）。最初のフレームに対しトラッキングされる目標の物体の周縁部が決定される（ステップ６０３）。決定された周縁部に基づいて目標の物体の全体的な調査領域を決定する（ステップ６０４）。調査領域内で対応するポテンシャル領域に基づいて、輪郭を目標の物体周縁部に重ねて適合させる（ステップ６０５）。例えば対応する楕円に適合する６個の代替する状態が得られ、これら６個の状態の中から最も適合性の良いものが選択される。「最適合」すなわち光学的な適合性が輪郭と目標の物体との間で決定すると、例えば光学座標値（ｘ，ｙ）ならびに関連する描画輪郭（例えば楕円輪郭のｈ）をトラッキングデータとして出力する（ステップ６０６）。推測される次のフレームの調査領域を決定する（ステップ６０７）。調査領域Ｓは次のフレームにおける予測される目標位置の近傍で確率的あるいは確定的に選択される。予測位置は、例えばカルマンフィルタを用いる定速仮定に基づくものである。停止命令が与えられないと（ステップ６０８）、次のフレームが選択され、適合ステップが繰り返される（ステップ６０９）。後続フレームを伴う調査領域の画定ステップ６０４は、この予測された調査領域と当面の画像フレームとをマッチングさせることを含む。ステップ６０８で停止命令を受け取ると、トラッキングは終了する（ステップ６１０）。
【００４９】
一実施形態において、ポテンシャル領域は輪郭適合プロセスを単純化するために用いられる。図７は、深度映像画像ストリームの所定のフレームのポテンシャル領域決定プロセス（７００）の実施形態を示している。図３に示した例のように、フレーム画像をセグメント（例えばピクセル、ピクセルのセットなど）に分解する（ステップ７０２）。深度データ値をセグメント内で比較し、目標の物体の周縁部に対応するセグメントを決定する（ステップ７０４）。例えば隣接するセグメントと比較した時に深度差分が最大しきい値以上になるセグメントを、周縁部セグメントとみなす。これら周縁部セグメントに基準値が割り当て（ステップ７０６）、周縁部セグメント以外の他のセグメントに値を割り当てるためには、ある種の変換（一例として、ピクセル値に基づくマンハッタン距離変換）を用いる（ステップ７０８）。結果として得られる深度画像のポテンシャル領域は、数学的に表わされる輪郭に適合させるために用いることが出来る。例えば一実施形態では勾配ベクトルをポテンシャル領域に基づいて計算することができる。
【００５０】
図８を参照して、一実施形態においては、任意のフレームの輪郭適合プロセス（８００）は、数学的に表わされる輪郭を、方向が固定された多数の部分に分割することを含む（ステップ８０２）。例えば、楕円は中心方向に対向し、凹面側に向く４個のアーチに分割することができる。まず、上述したような目標の物体の深度ビデオ画像フレームに対応する深度データまたはポテンシャル領域データを用いて、一部分を適合させる（ステップ８０４）。次に輪郭の部分が残っている限り次の部分を選択し（ステップ８０８）、上記のように目標の物体と重ねて適合する（ステップ８０４）。そして、適合する部分が他に残っていないと（ステップ８０６）、次の部分を選択し（ステップ８０８）、上記同様に目標の物体と重ねて適合する（ステップ８０４）。適合する部分が他に残っていないと（ステップ８０６）、第１予測状態における輪郭部分の組み合わせに対する適合値を計算する（ステップ８１０）。チェックすべき状態のある限り（ステップ８１２）、同じステップをそれぞれの状態において繰り返す。それぞれの状態に対する適合値は、調査領域Ｓ内の他の場所または状態における別の適合値と比較して、それらの中から目標の物体をトラッキングするための「最適合」を決定する（ステップ８１４）ために用いる。トラッキングデータを出力し（ステップ８１６）、このステップをストリームの後続フレームで繰り返す。
【００５１】
一実施形態においては、トラッキングシステムは部分的、かつ一時的な遮閉に対しても強固性を示している。図９はトラッキングされている目標の物体の手が完全に遮閉状態にあるフレームを示している。このフレーム９００において、目標の物体の手１０１は完全にトラッキングされていない腕１０４の背後にある。トラッキング装置は目標の物体１０１の位置（例えば１０６で囲んだ位置）を予測し、再び手１０１が少し見えるようになると直ちに捕捉している（例えば図１Ｂ参照）。トラッキング装置は手１０１の部分的な遮閉に対しても強固性があることを証明している。他の実施形態ではトラッキング装置は、乗客の頭部が運転者によって遮ぎられてもトラッキング動作を継続し、また乗客が運転者の肩の上で眠っていて、長期にわたって頭部を覆い隠すような極端な場合の後にも動作している。この実施形態ではトラッキング装置は深度データからの形状だけに頼っているために、遮閉物体が全体的に同じ形状でないと、捕捉した目標の物体から動かなくする（部分的に遮られた場合）か、または完全に遮られた後に目標の物体を検出することができる。さらに上述のように、一実施形態において、本トラッキングシステムによって楕円計測に基づいて例えば信頼性指標ＣＭが得られる。この実施形態においては、トラッキング装置は完全に遮閉されている間は追い払われてしまうのではなく、その代わりに遮閉の終了するまでトラッキング性能の信頼性指標ＣＭの値を下げる（すなわち、更に高い信頼性指標値が得られる）。
【００５２】
（胴体の傾斜予測）
頭部トラッキングシステムの一実施形態は胴体傾斜予測装置を含む。胴体傾斜の予測は、例えばエアバッグ展開システムを補助するものとして用いられる。エアバッグは世界中で毎年何千人もの生命を救っているが、ある例ではエアバッグの展開は傷害を起こす危険がある。胴体傾斜の予測は、エアバッグ展開制御用に使われる乗員の位置についての有用な情報提供である。
【００５３】
胴体傾斜の予測システムにおいては、トラッキング装置の出力は車両乗員の頭部（複数）の平均距離（カメラからの距離）を計算するために用いられる。頭部の位置は深度画像中の身体の全体的な位置を決定するために用いられる。身体に対応する深度データは、さらにカメラからの胴体の平均距離を計算するために用いられる。これら２個の平均深度値は胴体の傾斜（前方、後方または傾斜していない）を決定するために用いられる。カメラからの頭部の距離（平均距離）とカメラからの胴体の距離の差の絶対値が一定のしきい値よりも大きいと、人物は後方または前方に傾斜しており、そのいずれかは差の符号に基づいて決めることができる（より奥に頭部がある時は後方に傾斜していることを意味し、より奥に胴体がある時は前方に傾斜していることを意味している）。ピクセルの強度は実際の距離に直すことができ、しきい値の選択は実際の深度差に基づくもので、この値が身体の傾斜を定義するため用いられる。
【００５４】
タイムオブフライト式深度感知カメラを備えた深度計測ウィンドウを用いる利点は、単一のカメラを運転者および後部座席の乗客の胴体傾斜トラッキングに用いることができることを含む。例えば車両の片側（すなわち運転者側）に対し一台のカメラが２個の距離計測装置を交互に操作して、二本の深度画像ストリームを、一本は運転者（距離の近い方の深度計測ウィンドウ）、そして他方は後部座席の乗客（乗客のいる場合、遠い方の深度計測ウィンドウ）について提供する。これに加えて調査領域Ｓの解析は、運転者側の乗員と前部乗客側の乗員をトラッキングする深度情報を、例えば画像を縦方向中心線に沿って分割することによって分離するため、深度画像フレームを縦方向に分割することを含むことが出来る。このようにして単一の深度感知カメラからの深度画像ストリームを、少なくとも車両の４領域に対してそれぞれ独立してトラッキングを行なうために用いることができる。
【００５５】
図１０は胴体傾斜予測方法を示している。この方法（１０００）の一実施形態によると、頭部の深度、すなわち頭部からカメラまでの距離を予測するために、トラッキング装置はそれぞれのフレーム毎に、適合された輪郭に対応する頭部の現在の状態ｓを出力として提供する。例えばｓに対応する楕円は深度分布図に重畳される。この出力が胴体傾斜予測方法（１０００）に対する入力となる（ステップ１００２）。輪郭内部のピクセル値の中央値を頭部からカメラまでの深度あるいは距離として選択する。平均深度値を用いることはできるけれども、ノイズや異常値に対する強固性のため中央値を選ぶ。何らかの理由、例えば急な加速によってトラッキング装置が目標の物体を正常に捕捉しないか、あるいは輪郭モデルが頭部の実際の形に正確に適合しないような場合でも、輪郭内の少なくとも半分のピクセルがトラッキングされている頭部に属しているのであれば、中央値は正しい深度を示す値である。これにより、距離予測システムを、トラッキング装置の偶発的な不正確さに対して極めて強固となる。
【００５６】
基準として頭部の位置に基づいて、胴体の深度、すなわち胴体からカメラまでの距離を推定するためには、深度分布図の上で連結された成分の解析が用いられ、頭部がトラッキングされている人、すなわち目標の物体の胴体に対応する画像領域を決定する（ステップ１００６）。この領域の深度値の中央値を計算し（ステップ１００８）、胴体の深度、すなわち胴体からカメラまでの距離として用いられる。上述の理由から、中央値を選択することによってシステムがノイズ、遮閉、および不完全な輪郭の分割に対して強固になる。
【００５７】
上述のように、人物の傾斜（前方、後方あるいは方向無し）を決定するために頭部深度中央値と胴体深度中央値を用いる（ステップ１０１０）。胴体傾斜情報を出力する（ステップ１０１２）。例えば、一実施形態において、胴体傾斜データは車両の制御装置に出力される。この出力は所定の発生頻度に基づく特定の時刻、または連続ベースで、必要に応じて制御装置が使用するために送信される。乗員の身体の傾斜と全体的なトラッキング情報は、自動車の制御ロジックあるいは制御装置により、例えばエアバッグの展開、衝突防止、運転者支援、注意、検出等のいくつかの用途に用いられる。
【００５８】
（手および身体のトラッキング）
その他のトラッキングシステムの用途には、手のトラッキングとコンピュータに基づく手話認識を含む認識、コンピュータによる身振りの理解等が含まれる。身振り認識システムの一実施形態には、上述した人間型ロボットＡＳＩＭＯ（登録商標）のようなロボットにおける指示視認用モジュールが含まれる。その他の機械的な視覚技術をトラッキング目標の物体画像に応用して、手ぶり、腕の運動等を認識することができる。画像認識技術は、人間の行動とコンピュータの命令の間の応答を決めることができる。この実施形態によって、使用者が例えばロボットの行動制御用の手ぶり命令を与えて、方向転換、運動、追従、待機などを行うことできる。
【００５９】
手およびその他の胴体部分も人間とコンピュータの相互関係の他の用途（例えば、コンピュータゲーム、歩行者検出など）に用いることが出来る。この用途ならびに類似の用途についてのこれらの技術は、本発明の範囲で実施されるものである。
【００６０】
本発明の特定の実施形態ならびにその用途は本明細書に例示され、記載されているが、本発明は本明細書に開示されている詳細な構成と構成要素に限定されるものではなく、添付の特許請求の範囲に定義されている本発明の精神と範囲を逸脱することなしに、本願発明の構成、操作、ならびに方法と装置の詳細における様々な変更、変形が可能なことは理解されるであろう。
【図面の簡単な説明】
【００６１】
【図１Ａ】上体が異なる位置にある運転者の深度画像を示す図である。
【図１Ｂ】トラッキング装置の一実施形態の出力画像を示す図で、人間の右手がトラッキング目標である。
【図２】深度感知カメラを用いるサンプルトラッキングシステムの一実施形態を示す図である。
【図３】対応する周縁部のポテンシャル変換マップを備えた深度画像を示す図である。
【図４Ａ】一連のポテンシャル値により定義された可視像を示す図である。
【図４Ｂ】楕円形の頭部トラッキングの実施形態に対応する一連のポテンシャル値で定義された像を可視像で示した図である。
【図５】２個の領域だけ（上部の遠方領域と下部の近接領域）を含む簡単な場面と、一連の交互に入れ替わるトラッキング出力を示す図である。
【図６】トラッキング法の実施形態を示す図である。
【図７】目標の物体のポテンシャル領域画定手順の実施形態を示す図である。
【図８】輪郭適合手順の実施形態を示す図である。
【図９】トラッキング中の目標の物体の手を完全に取り囲んだ画像フレームを示す図である。
【図１０】身体の傾斜推定方法の一実施形態を示す図である。

【特許請求の範囲】
【請求項１】
深度感知カメラを用いて目標物体をトラッキングするためのコンピュータを使用した方法であって、
トラッキングする目標物体を含んだ領域の深度画像を受信するステップと、
前記深度画像中の前記目標物体の周縁部を決定するステップと、
前記トラッキングする目標物体に対応する前記決定された周縁部に対して、数学的に表わされる輪郭の最適合を決定するステップと、
を含む方法。
【請求項２】
前記周縁部を決定するステップは、複数の深度画像部分の深度値をそれぞれ比較して、隣接する深度画像部分と比べて最大のしきい値を越える深度変化を有する周縁深度画像部分を見出すステップを含むことを特徴とする請求項１に記載のコンピュータを使用した方法。
【請求項３】
前記周縁部を決定するステップは、
前記周縁深度画像部分に基準値を割り当てるステップと、
最も近接している周縁深度画像部分の基準値を求めるために変換方式を適用することにより、前記隣接する深度画像部分に値を割り当てるステップと、
をさらに含むことを特徴とする請求項２に記載のコンピュータを使用した方法。
【請求項４】
前記深度画像部分は、深度画像ピクセルであることを特徴とする請求項３に記載の方法。
【請求項５】
前記周縁部を決定するステップは、深度勾配ベクトルを求めるステップを含むことを特徴とする請求項１に記載の方法。
【請求項６】
前記数学的に表わされる輪郭は、グラフ表示の可能な数学関数であることを特徴とする請求項１に記載の方法。
【請求項７】
前記数学的に表わされる輪郭は、平行四辺形、卵型、楕円、円、曲線からなるグループの一つであることを特徴とする請求項６に記載の方法。
【請求項８】
前記目標物体は、１以上の身体部分を含むことを特徴とする請求項１に記載の方法。
【請求項９】
前記１以上の身体部分は、人間の頭部を含むことを特徴とする請求項８に記載の方法。
【請求項１０】
前記最適合を決定するステップは、
複数の適合値を算出するステップであって、前記適合値は、想定される状態のそれぞれに対応し、かつ前記数学的に表わされる輪郭と前記深度画像の前記目標物体の前記周縁部との間の距離標準値の全体に相当する、算出するステップと、
前記複数の適合値を比較するステップと、
前記輪郭と前記目標物体の前記周縁部との間の前記距離標準値が最小を示す前記適合値を有する前記状態を選択するステップと、
をさらに含むことを特徴とする請求項１に記載の方法。
【請求項１１】
前記最適合を決定するステップにおいて、前記輪郭に対する異なる位置を試みることにより、前記深度画像の調査領域を決定するステップをさらに含むことを特徴とする請求項１に記載の方法。
【請求項１２】
前記調査領域の決定するステップは、前記目標物体の運動が定速であることを前提として、次の画像フレームの目標物体の位置を予測するステップを含むことを特徴とする請求項１１に記載の方法。
【請求項１３】
深度感知カメラを用いて目標物体をトラッキングするためのコンピュータ可読媒体であって、コンピュータプロセッサによって実行されると、
トラッキングする目標物体を含んだ領域の深度画像を受信するステップと、
前記深度画像中の前記目標物体の周縁部を決定するステップと、
前記トラッキングする目標物体に対応する前記決定された周縁部に対して、数学的に表わされる輪郭の最適合を決定するステップと、
を実施するコンピュータプログラムを備えたことを特徴とするコンピュータ可読媒体。
【請求項１４】
深度感知カメラを用いた目標物体をトラッキングするシステムであって、
トラッキングする目標物体を含んだ領域の深度画像を受信する手段と、
前記深度画像中の前記目標物体の周縁部を決定する手段と、
前記トラッキングする目標物体に対応する前記決定された周縁部に対して、数学的に表わされる輪郭の最適合を決定する手段と、
を備えることを特徴とするシステム。
【請求項１５】
視覚的に人間の移動をトラッキングする人間とコンピュータとの相互関係システムであって、
人間の身体部分の深度画像を取り込む能動深度センサと、
前記能動深度センサに接続され、前記深度画像を受信する処理装置と、を備え、この処理装置は、
周縁部検出モジュールと、
前記周縁部検出モジュールに接続され、１以上の身体部分に対して、数学的に表わされる輪郭の最適合を決定し、前記取り込んだ深度画像内の前記１以上の身体部分の位置を特定するトラッキングモジュールと、
を備えることを特徴とするシステム。
【請求項１６】
前記処理装置は、前記トラッキングモジュールに接続された胴体傾斜決定モジュールをさらに備え、この胴体傾斜画定モジュールは、前記１以上の身体部分の前記決定された位置を受け取り、かつ前記能動センサに対する前記１以上の身体部分それぞれの距離を求め、他の身体部分について前記１以上の身体部分の前記距離を関連させ、前記身体部分の相互位置を含む傾斜データを決定するように構成されていることを特徴とする請求項１５記載の人間とコンピュータとの相互関係システム。
【請求項１７】
車両のエアバッグを展開するかどうかを決定するように構成された制御ロジックに、前記傾斜データを送ることを特徴とする請求項１５に記載の人間とコンピュータとの相互関係システム。
【請求項１８】
前記１以上の身体部分の前記位置を、ソフトウエアアプリケーションに対するユーザ制御入力として提供することを特徴とする請求項１５に記載の人間とコンピュータとの相互関係システム。
【請求項１９】
前記ソフトウエアアプリケーションはコンピュータゲームであることを特徴とする請求項１８記載の人間とコンピュータとの相互関係システム。
【請求項２０】
乗員の胴体傾斜情報をトラッキングするように構成された自動車であって、
人間の身体部分の深度画像を取り込む能動深度センサと、
前記能動深度センサに接続され、前記深度画像を受信する処理装置と、を備え、この処理装置は、
周縁部検出モジュールと、
前記周縁部検出モジュールに接続され、１以上の身体部分に対して、数学的に表わされる輪郭の最適合を決定し、前記取り込んだ深度画像内の前記１以上の身体部分の位置を特定するトラッキングモジュールと、
を備えることを特徴とする自動車。
【請求項２１】
前記トラッキングモジュールに接続された胴体傾斜決定モジュールをさらに備え、この胴体傾斜画定モジュールは、前記１以上の身体部分の前記決定された位置を受け取り、かつ前記能動センサに対する前記１以上の身体部分それぞれの距離を求め、他の身体部分について前記１以上の身体部分の前記距離を関連させ、前記身体部分の相互位置を含む傾斜データを決定するように構成されていることを特徴とする請求項２０に記載の自動車。
【請求項２２】
エアバッグを展開するかどうかを決定するように構成された制御ロジックに、傾斜データを送信することを特徴とする請求項２１に記載の自動車。

【図１Ａ】

【図１Ｂ】

【図２】

【図３】

【図４Ａ】

【図４Ｂ】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【公表番号】特表２００７−５１４２１１（Ｐ２００７−５１４２１１Ａ）
【公表日】平成１９年５月３１日（２００７．５．３１）
【国際特許分類】

【出願番号】特願２００６−５３０７１５（Ｐ２００６−５３０７１５）
【出願日】平成１６年５月２８日（２００４．５．２８）
【国際出願番号】ＰＣＴ／ＩＢ２００４／００２１２８
【国際公開番号】ＷＯ２００４／１０７２６６
【国際公開日】平成１６年１２月９日（２００４．１２．９）
【出願人】（０００００５３２６）本田技研工業株式会社 (23,863)
【Ｆターム（参考）】

[ Back to top ]

深度データを用いたビジュアルトラッキング

メニュー

スポンサーリンク

次の公報 »

« 前の公報

深度データを用いたビジュアルトラッキング

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク