説明

ジェスチャー認識方法

【課題】ジェスチャー認識処理を高速化して複数の人物のジェスチャー認識を可能にする。
【解決手段】全方位視覚センサにより複数の被写体を撮像し、その撮像結果から個々の被写体画像を取り出して、画像処理装置によりジェスチャー認識する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、被写体を撮像装置により撮影し、画像処理装置において上記撮影画像の特徴パターンを解析することにより被写体のジェスチャーを認識するジェスチャー認識方法および装置に関する。
【背景技術】
【0002】
人間の身ぶり手振りを認識する技術は、柔軟なMan−Mchine Interface System(マンマシンインタフェース システム)を構築する上で重要である(黒川隆夫、ノンバーバルインターフェース、オーム社、1994)。特に、動作者にデータグローブ等の接触型センサやマーカーを装着させることなく、人間の動作を捉えた動画像を用いたジェスチャー認識が試みられている(高橋勝彦、関進、小島浩、岡隆一、ジェスチャー動画像のスポッティング認識、信学論(D−II)、Vol.J77−D−IIno.8,pp1552−1561,1994.)。
【0003】
これまでは、1人の人物のジェスチャー認識が試みられているが、近年では複数人物と計算機のマルチモーダル対話(伊藤慶明、木山次郎、関進、小島浩、帳健新、岡隆一、同時複数対話者の会話音声およびジェスチャーのリアルタイム統合理解によるNovel Interface System、音声言語処理7―3、pp17−22、1995)が重要になっている。すなわち、複数人物間におけるジェスチャーや音声による対話を認識理解し、この対話の円滑化に必要な情報をデータベースから提供するシステムが求められている。そのためには、実時間かつ同時的に複数人物のジェスチャーと音声を認識する必要があった。複数人物間での音声と単一人物のジェスチャー認識については統合が実現されている。また長屋等(長屋茂喜、関進、岡隆一、多重解像度特徴によるジェスチャー認識、信学技報、PRU95−99、pp121−126および長屋茂喜、関進、岡隆一、ジェスチャー認識のための動作軌跡特徴の提案、信学技報、NLC95−37、PRU95ー142、pp45−50)により動作者の位置や人数を特定する手法が提案されている。しかしながら複数人物の実時間ジェスチャー認識システムの実現には現在、到っていない。
【0004】
このようなシステムの実現において第1に問題となることは、対象とされる人間の数に等しいカメラと認識システムを用意するかどうかと言うことである。なぜなら上記のジェスチャー動画像のスポッティング認識の報告にも述べられていたように、単一人物の4種類のジェスチャー認識の実時間化に汎用画像処理ボード(Imaging Tchnology Series 150/40)とワークステーション(Iris Crimson)を用いるという負担を強いられるからである。
【0005】
さらにカメラ毎に特定の人物を捉えることは極めて不便であり、対話者が互いに顔を見て話す場合に、それらを捉えることはさらに困難を増すといった状況がある。
【0006】
なお、従来技術として、単一人物のジェスチャー認識を目的とした研究についてはいくつか報告されている。大和ら(J.Yamto,J.Ohya,K.Isii,Recognizing Human Action in Time−Sequential Images Using Hidden Markov Model,Proc.CVPR、pp379―385、1992)は、テニスプレーヤーのスイング動作を対象として、Hidden Markov Modelを用いた動作認識法を提案している。この方法では、動作モデルの学習が可能であるが、動作を行っている時間空間のセグメンテーションを人手で行う必要がある。
【0007】
また、Darrellら(T.J.Darell and A.P.Pentland,Space−Time Gestures,Proc.IJCAI’93 Looking at People Workshop(Aug.1993))は手のひらの動きをその見え方の遷移系列で表し、観測された見え方系列と動作モデルとの対応付けをDynamic Time Warpingで行うことで複数のジェスチャーを認識した。しかしながらこの提案では入力画像の背景が無地である必要が有り、また、同作間の時間的セグメンテーションの方法が示されていない。
【0008】
また、石井ら(H.Ishi,K.Mochizuki and F.Kshino,A Motion Recognition Method from Stereo Images for Human Image Synthesis,The Trans.of the ETC,J76−D−II,8,pp1805−1812(1993−08))は、カラー画像処理とステレオマッチングにより手や顔などの肌色部分の3次元位置を求め、その移動量を計測している。しかし、専用の画像処理装置を用いている石井やDarellらのシステムでもビデオレートでの動作認識は実現されていない。
【発明の開示】
【発明が解決しようとする課題】
【0009】
複数人物のジェスチャーを同時に認識する場合、その使用環境を自然で良好なものとするために以下の2つの制約を満足する必要がある。
【0010】
制約1 複数人物が自然な形で対話できる環境を保証する単一カメラの使用できること
これは、例えば、複数の人物を単一のカメラで撮影しようとすると、顔を正面にして複数人物が一列にならなければならず、これは自然な形で対話できる環境ではない。例えば、3人が互いに向き合っている姿を側面から撮影しようとすると、2人のジェスチャーをカメラで撮影することはできないであろう。
【0011】
制約2 複数人物のジェスチャリングをリアルタイムでジェスチャー認識すること
これは複数人物のジェスチャー認識に限らないが、認識対象の数が複数になるほど、ジェスチャー認識処理の高速に行わないとリアルタイムで認識結果を得ることはできない。
【0012】
そこで、本発明の目的は、単一カメラで互いに向き合っている複数人物のジェスチャーを撮影するに好適なコミュニケーション用撮影方法および装置、画像処理装置ならびにジェスチャー認識方法および装置を提供することにある。
【課題を解決するための手段】
【0013】
本発明の目的を達成するために、請求項1の発明は、複数の人物が撮像できる位置に設置された単一の全方位視覚センサによりコミュニケーションの様子を撮影することを特徴とする。
【0014】
請求項2の発明は、複数の人物が撮像できる位置に設置された単一の全方位視覚センサを有し、前記全方位視覚センサによりコミュニケーションの様子を撮影することを特徴とする。
【0015】
請求項3の発明は、複数の人物が撮像できる位置に設置された単一の全方位視覚センサによりコミュニケーションの様子をとらえた映像データの中から、各人物の映っている領域を分割して画像処理することを特徴とする。
【0016】
請求項4の発明は、複数の人物が撮像できる位置に設置された単一の全方位視覚センサによりコミュニケーションの様子をとらえた映像データの中から、各人物の映っている領域を分割してジェスチャー認識することを特徴とする。
【0017】
請求項5の発明は、複数の人物が撮像できる位置に設置された単一の全方位視覚センサと、該全方位視覚センサによりによりコミュニケーションの様子をとらえた映像データの中から、各人物の映っている領域を分割する分割手段と、当該分割された領域に映っている人物のジェスチャーを認識するジェスチャー認識手段とを備えたことを特徴とする。
【発明の効果】
【0018】
請求項1〜5の発明は、全方位視覚センサにより複数の被写体のジェスチャー画像が重複することなく、撮像されるので、その撮像結果を分割することで個々の被写体の画像を取得できる。この結果、単一の撮像装置でも複数の被写体のジェスチャーを認識できる。
【0019】
請求項1〜5の発明により、円形に並ぶ複数の人間のジェスチャーをすべて認識できることによりたとえば、手話による会話を認識したり、市場のせりの内容を認識し、その認識結果を通信することに遠隔地の人間にもその場の内容を知らせることができる。
【発明を実施するための最良の形態】
【0020】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では全方位視覚センサを使用して複数の被写体を撮像したことに第1の特徴がある。
【0021】
全方位視覚センサは双曲面ミラー(円錐形ミラー)を介してCCDカメラに全方位の画像を導く撮像装置(図13の符号106参照)であり、最近は移動ロボットに搭載することが提案されている(山沢一誠、八木康史等、移動ロボットのナビゲーションのための全方位視覚センサHyperOmni Visionの提案、信学論(D−II)、VolJ79−D−II,no5,pp698−707,1996)。この全方位視覚センサをジェスチャー認識に適用する。また、特徴パターンの抽出時に飽和処理(後述)を施すようにしたことに第2の特徴がある。
【0022】
図1に全方位視覚センサの設置例を示す。符号(a)は円卓での会議中の環境で中央に置かれた全方位視覚センサ1が全ての出席者のジェスチャーを一つの画像中で捕捉している。符号(b)は自律走行ロボット3の上部に全方位視覚センサ1が設置され。自律走行ロボット3周辺の複数人物のジェスチャーが1つの画像中に撮影される。参考のために全方位視覚センサ1により撮影された映像を図8に示す。
【0023】
このように取得されたイメージは画像処理装置において個々の被写体毎に分割され、次に個々の被写体画像からジェスチャーの特徴パターンが抽出される。この抽出プロセスを従来手法と比較しながら説明する。図2に従来の処理プロセスを示す。図3に本実施の形態の処理プロセスを示す。撮像装置はたとえば、時刻tにおいてi×j画素の画像データを取得するものとする。
【0024】
ある時刻tの入力画像I(i,j,t)が得られると、前時刻t−1の入力画像I(i,j,t−1)との時間差分画像が作成され。この時間差分画像をしきい値と比較すると2値画像Ib (i,j,t)(0≦i,j<L,0≦t)が求められる。これを数式で表すと数1式となる。
【0025】
【数1】

【0026】
ただし、hc は画素値が変化したかを決定するしきい値である。さらに2値画像Ib(i,j,t) をN ×N に空間リダクションし、特徴ベクトルf(k,v,t)(0≦k,v<N )を求める。
【0027】
【数2】

【0028】
ここで、pとqはともに整数、h=N /N である。この特徴ベクトルf(k,v,t)はサイズN ×N のリダクション画像中の各領域において画素値が変化した割合、つまり、被写体の身体部分が動いた画像の割合を示す。この特徴ベクトルf(k,v,t)3フレーム分の平均をとって、その対数をとったものがジェスチャー認識に使用する特徴パターンとなる。
【0029】
図2の例では64×64画素の入力画像を16×16個のデータに圧縮する例を示している。
【0030】
これに対して、本実施の形態では、空間リダクションした各領域のデータ、すなわち、特徴ベクトルの値の内、しきい値hmより多き値を飽和させて、しきい値に押さえる。これを式で表すと次式となる。
【0031】
【数3】

【0032】
このようにして時刻tの特徴パターンが得られ、次の時刻t+1でも同様の処理を行って、特徴パターンが抽出される。ジェスチャー認識に使用する標準パターンも同様の処理で特徴パターンが抽出される。
【0033】
ジェスチャー認識では上記標準パターンの時系列的な複数組の特徴パターンと認識対象の被写体の映像から抽出した複数組の特徴パターンとマッチングが行われる。このマッチング手法としては連続DPと呼ばれる手法がよく知られている。
【0034】
連続DPによるスポッティング認識では、上述のようにして入力画像から特徴抽出を行い特徴ベクトルを求める。次に、この入力された特徴ベクトル列と、各ジェスチャーに対応した標準パターンとを連続DPでマッチングする。この標準パターンは、事前に標準動作を捕らえた画像列から入力画像と同様の特徴抽出法で作成した特徴ベクトル列である。最後に、すべての標準パターンとの連続DPマッチングの結果を比較し、最も適合したものをその時点のマッチング結果として出力する。
【0035】
以下に、連続DPによる特徴ベクトル列のマッチング方法を具体的に示す。入力の特徴パターンと標準パターンのフレーム間距離をd(t,τ)として累積距離S(t,τ)を以下のように適宜する。
初期条件:
【0036】
【数4】

【0037】
【数5】

【0038】
【数6】

【0039】
【数7】

【0040】
ここで、tは入力の離散時刻を表し、τは標準パターンの長さに対応するパラメータで1≦τ≦T(Tはパターン長)である。連続DPの出力A(t)は
【0041】
【数8】

【0042】
として定める。
【0043】
このようなジェスチャー認識を行うための実験装置として、SGI社のIndy(R4400 200MHz)と、付属のIndyComというカメラを用いた。実験は、オフィス内で椅子に座った1人の被験者に対して行った。カメラの視野は被験者のジェスチャーが適切に入るように設定した。また、照明は建物の天井に設置されている蛍光灯のみを用いた。
【0044】
CCDカメラの出力映像をAD変換して得られる画像は、サイズ160×120、1画素256階調のRGB画像であるが、認識には比較的輝度に強い影響を与えるグリーン成分のみを用いた。この画像を空間的リダクションしサイズN ×N の画像を特徴抽出部への入力とした。また、数3式の特徴ベクトルを飽和させるhm は0.3とした。
【0045】
実験に用いたジェスチャーは、(1)ばんざい(両手)、(2)バイバイ(右手)、(3)まる(両手)、(4)手をたたく(両手)、(5)こちらへ(右手)、(6)左へ(左手)、(7)右へ(右手)、(8)いいえ(右手)の8種類である。これを、ジェスチャーv(v=1,2,…,8)と表記する。図4に各ジェスチャーのスナップショット、図5にジェスチャー「バンザイ」の画像系列を示す。被験者は各動作を通常のスピードで行い、画像は15Hzでサンプリングした。また、数1式の閾値hc はカメラの熱雑音を考慮し10とした。
【0046】
標準パターンv(v=1,2,…,8)は、それぞれのジェスチャーを捉えた画像系列から人手でジェスチャー部分のみを切り出し作成した。この実験で用いた標準パターンのフレーム長Tは11から15であった。また、同じジェスチャーを20回繰り返した入力画像列vを作成した。次に、入力画像列vを認識システムに入力し、1位認識率と正解候補率を求めた。
【0047】
【数9】

【0048】
【数10】

【0049】
ここで、正答ジェスチャー数vは入力画像列v中の20個のジェスチャーの内で正しく認識できたジェスチャー数である。また、3フレーム以上連続して同じ認識結果になった場合に「検出」されたとした。
【0050】
ここで、入力画像サイズN =64として、特徴ベクトルの次元数(N ×N )の最適な値を求めるため、N ={1,2,3,4,5,7,10,16}と変化させた。ここで得られた最適値を用いて入力サイズをN ={3,6,9,12,15,30,64}と変化させ最適値を求めた。ここで、衣服および背景の影響を調べるため、
S1 標準パターンの作成時と衣服および背景が等しい場合
S2 標準パターンの作成時と衣服および背景の明るさがともに異なる場合を設定した(図6)。衣服の色はS1のときに灰色、S2のときに黄色であった。標準パターンはS1の場合に作成し、しきい値hvはS1の1位認識率が極力大きくなるよう人手で設定した。S2にはこのS1で作成した標準パターンとしきい値を用いて認識実験を行った。
【0051】
認識実験の結果を図7に示す。衣服と背景が異なる場合(S2)でも、N =3,4,5で約80%と高い1位認識率が得られたため、本手法が衣服と背景の変化にロバストであることが示せた。
【0052】
約20%の誤差の原因は、衣服と背景が異なる場合に生じる。(1)服のしわのできかたの違い、(2)手の影の違い、(3)着膨れによる人物の大きさの違いが考えられる。計算量を考慮すると、N が3のときに今回用いた8種類のジェスチャーに対する最適な認識システムとなる。また、N が7以上で1位認識率が低下しているがこれはリダクションサイズが大きすぎて動作の軌跡の変動を吸収できなかったためと考えられる。
【0053】
次にN =3に固定してN を変化させたときの認識結果を表1に示す。
【0054】
【表1】

【0055】
この結果から12≦N において約80%の認識率があり、N ≦9では認識率が低下している。N =12のとき、特徴ベクトル値はN /N =12/3=4となり、4×4=16段階となっており、連続DPによる認識には十分であるために認識率が悪化しなかったと思われる。
【0056】
この結果からN =12程度と小さな人物画像からでも高い認識率でジェスチャーを認識することが示せた。
【0057】
複数人物の認識実験をも行った。実験は自律移動ロボット上に全方位視覚センサを設置し(図1(b)参照)、自律移動ロボットの周辺に椅子に座った4人の被験者を配置した。書く被験者は自律移動ロボットの方を向いて、ジェスチャーを行う。光源、画像サイズ、しきい値などの実験条件は上述の認識実験と同様とした。このときの全方位視覚センサの映像の一例を図8に模式的に示す。
【0058】
4人の人物は図9に示すように映っている。各人物のセグメンテーションは人物範囲内を3×3に等分割し、各分割領域内に重心がある画素を用いて特徴抽出を行った。この図8のように全方位視覚センサまでの距離により人物の大きさが異なるため、各人物の特徴抽出部bへの入力サイズN ×N は異なる。もっとも離れた人物(符号51)までの距離が4mであり、そのときの人物の画像サイズは18×15であった。この入力画像から上述の特徴パターンの抽出方法により3×3次元の特徴ベクトルを算出した。なお、全方位視覚センサの歪みは修正していない。
【0059】
実験に用いたジェスチャーは上述の実験と同様で8種類とした。図10にジェスチャー“ばんざい”の3フレーム毎の画像系列を示す。入力画像系列は標準パターンの撮影時と同じ服装にて4人の人物が思い思いにジェスチャーを行い撮影した。この入力画像系列のフレーム数は457、この間に4人が行ったジェスチャーは10回から13回であった。
【0060】
表2に各人物の認識率を示す。
【0061】
【表2】

【0062】
服装と背景が標準パターン作成時と同様であるものの、約80%という高い認識率で認識できており、本実施の形態のジェスチャー認識方法が有効であることが示せた。
【0063】
さらに、図11に4人の人物動作に対する連続DPの出力値例を示す。横軸はフレーム数であり、この上に描かれた横線は実際に被験者が行ったジェスチャーとその時間区間を示している。また、縦軸のCDP(連続DP)出力はそれぞれのしきい値を引いた値である。したがって、CDP出力の値が負になった場合に認識されたことになる。図11から認識もれの場合でも適切な標準パターンのCDP出力が減少していることがわかる。
Indyを1台を用い本手法を用い本手法を用いた実時間ジェスチャー認識システムを作成した。図12にその外観を示す。
=12、N =3、サンプリングレートは15Hzであり、入力画像を実時間で表示、認識し結果を表示する。実時間での認識実験を行った結果、衣服、背景が異なっても約7割の認識率が得られた。
【0064】
図13に本実施の形態の一システム構成を示す。図13において、CPU100はシステムメモリ101の中のシステムプログラムに基づきシステム全体の制御を行うほか、システムメモリ101にローディングされたジェスチャー認識プログラムに従って本発明に係わるジェスチャー認識処理を実行する。
【0065】
システムメモリ101はROMおよびRAMを有し、上記システムプログラム、システム制御に使用するパラメータ、CPU100に対する入出力データおよびディスプレイ102に表示するイメージをも格納する。ディスプレイ102は全方位視覚センサ106から入力された撮影画像を表示する。また、後述の入力装置105から入力された情報、ジェスチャー認識結果等を表示する。
【0066】
ハードディスク記憶装置(HDD)103は保存用のジェスチャー認識プログラム(図14、図15)およびジェスチャー認識に使用する標準パターンを記憶する。なお、標準パターンは予め1人の被写体が動作の判明しているジェスチャーを行い、その撮影画像から上述の特徴パターン抽出方法により取得する。標準パターンはジェスチャーの異なる特徴パターンと対応のジェスチャー内容を示す識別コードとから構成される。
【0067】
入出力インタフェース(I/O)104は全方位視覚センサ106と接続し、撮影画像をCPU100に引き渡す。入力装置105はキーボードおよびマウスを有し、情報入力を行う。
【0068】
このようなシステム構成において、実行するジェスチャー認識処理を図13および図14を参照して説明する。ジェスチャー認識処理の起動が入力装置105により指示されると、CPU100はHDD103からジェスチャー認識プログラムを読み出してシステムメモリ101にローディングし、実行を開始する。
【0069】
最初に、CPU100はジェスチャー認識処理で使用する各種パラメータを初期化する(ステップS10)。CPU100はI/O104を介して1画面分の撮影画像(フレームとも称す)を取り込み、複数の被写体を画像分割してシステムメモリ101に一時記憶する(ステップS20)。
【0070】
次に2番目の撮影画像が同様に画像分割されたシステムメモリ101に格納される。CPU100は最初に取得したフレームの第1番目の被写体の画像とと2番目に取得したフレームの第1番目の被写体の時間差分画像を作成し、その作成結果をシステムメモリ101に記憶する(ステップS30→40)。
【0071】
CPU100は時間差分画像を2値化用のしきい値と比較してビット1/0のデータに変換する。1画面が16×16個の画素から構成されているとすると、次に予めパラメータとして用意されている圧縮率にしたがって、16×16の画素群を4つの領域、すなわち、縦横2分割した4つの領域に分割する。これにより1つの領域には8×8個の画素が含まれることになる。この1つの領域の中に含まれるビット1の個数をCPU100により計数する。同様にして全ての領域についてビット1の個数を計数する。この個数として仮に1、201、100、59が得られたとする。これにより16×16個の多値(たとえば16ビット)の画像データが4個の16ビットのデータに空間圧縮される(ステップS60)。
【0072】
次にCPU100は上記空間圧縮されたデータ、(1、201、100、59)をしきい値150と個々に比較する。これにより150を超える値201はしきい値と同じ値に変換され、ビット1の個数が150とみなされる。したがって、このような飽和処理の後の空間圧縮データは(1、150、100、59)となる。この空間圧縮データが第1の被写体の時刻tのジェスチャーの特徴パターンとして、システムメモリ101に格納される。
【0073】
CPU100は連続DPの手法と、取得した上記特徴パターンおよび前の時刻に取得した特徴パターンを使用して標準パターンのパターンマッチングを行う。被写体が1人の場合のジェスチャー認識のためのパターンマッチング処理は先に簡単に説明したが周知であり、詳細な説明を要しないであろう(ステップS80)。
【0074】
パターンマッチングの結果、特定の標準パターンに類似していると判定された場合には、その識別コードがディスプレイ102に表示される(ステップS90→S100)。
【0075】
以下、時刻tのフレームについて他の被写体のジェスチャー認識がステップS40〜S110のループ処理により実行される。このようにして時刻tの全被写体のジェスチャー認識処理が行われると、次に時刻t+1での全方位視覚センサ106の撮影画像が取り込まれ、上述と同様にしてジェスチャー認識処理が行われる(ステップS30〜S120のループ処理)。
【0076】
入力装置105から終了の指示に応じて図14および図15の処理手順を終了する。
【0077】
以上、述べた実施の形態の他に次の形態を実施できる。
1)上記実施の形態では、個々の被写体に画像分割する際に、手動操作で分割位置を知らせていたが、画像処理装置において自動的に画像分割することができる。その一例としては、時間差分画像では静止画部分が除去される。その除去部分は2値化画像においてビット0となって現れる。この性質を利用すると、被写体と他の被写体の間は静止画像なので、この間隙部分は2値画像においてはビット0の集合となる。そこで、画像の中心位置から画像の外端部までビット0が連続する画素群を画像処理装置により検出する。この画素群が個々の被写体の区切り部分となるので区切り部分で区切られる画像データを取り出す。
2)全方位視覚センサでは被写体画像をセンサに導くミラーを使用するがミラーの形状は円錐に限らずこれまでに知られている種々のものを使用することができる。
3)図13の処理手順では、被写体ごとの画像分割処理を全方位視覚センサ106からの入力画像について行っているが2値化処理までを1画面全体で行って、2値画像について被写体ごとの画像分割を行うこともできる。
4)本実施の形態では入力画像の画素数や空間リダクション後のデータ数を固定的に使用したが任意の値に可変設定できる。この場合には、入力装置105から所望の値を入力し、HDD103にパラメータとして保存しておけばよい。
【図面の簡単な説明】
【0078】
【図1】全方位視覚センサの設置例を示す斜視図である。
【図2】飽和処理を行わない場合の画像処理プロセスをお示す説明図である。
【図3】飽和処理を行う場合の画像処理プロセスを示す説明図である。
【図4】時系列的な撮像結果を示す説明図である。
【図5】時系列的な撮像結果を示す説明図である。
【図6】衣服と背景の異なる標準パターンを説明すための説明図である。
【図7】リダクションサイズと認識率の関係を示す説明図である。
【図8】コンピュータの画像処理対象となる全方位視覚センサの撮像結果を示す写真である。
【図9】全方位視覚センサの撮像結果の中の被写体の位置を模式的に示す写真である。
【図10】ばんざいのジェスチャー画像を示す説明図である。
【図11】連続DPの出力値を示す説明図である。
【図12】実時間ジェスチャー認識システムの正面外観をを示す正面図である。
【図13】実時間ジェスチャー認識システムのシステム構成を示すブロック図である。
【図14】特徴パターン抽出処理手順およびジェスチャー認識処理手順を示すフローチャートである。
【図15】特徴パターン抽出処理手順およびジェスチャー認識処理手順を示すフローチャートである。
【符号の説明】
【0079】
1 全方位視覚センサ
2 対話者
3 自律走行ロボット
100 CPU
101 システムメモリ
103 HDD
104 I/O
105 入力装置
106 全方位視覚センサ

【特許請求の範囲】
【請求項1】
複数の人物が撮像できる位置に設置された単一の全方位視覚センサによりコミュニケーションの様子を撮影することを特徴とするコミュニケーション用撮影方法。
【請求項2】
複数の人物が撮像できる位置に設置された単一の全方位視覚センサを有し、前記全方位視覚センサによりコミュニケーションの様子を撮影することを特徴とするコミュニケーション用撮影装置。
【請求項3】
複数の人物が撮像できる位置に設置された単一の全方位視覚センサによりコミュニケーションの様子をとらえた映像データの中から、各人物の映っている領域を分割して画像処理することを特徴とする画像処理装置。
【請求項4】
複数の人物が撮像できる位置に設置された単一の全方位視覚センサによりコミュニケーションの様子をとらえた映像データの中から、各人物の映っている領域を分割してジェスチャー認識することを特徴とするジェスチャー認識方法。
【請求項5】
複数の人物が撮像できる位置に設置された単一の全方位視覚センサと、
該全方位視覚センサによりによりコミュニケーションの様子をとらえた映像データの中から、各人物の映っている領域を分割する分割手段と、
当該分割された領域に映っている人物のジェスチャーを認識するジェスチャー認識手段と
を備えたことを特徴とするジェスチャー認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2006−127541(P2006−127541A)
【公開日】平成18年5月18日(2006.5.18)
【国際特許分類】
【出願番号】特願2005−352676(P2005−352676)
【出願日】平成17年12月6日(2005.12.6)
【分割の表示】特願平8−309338の分割
【原出願日】平成8年11月20日(1996.11.20)
【出願人】(000004237)日本電気株式会社 (19,353)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】