説明

画像処理システム、画像処理装置、画像処理方法及びプログラム

【課題】複数人によるコミュニケーションにおいて、視線方向が異なるユーザが指し示した場所を正確に又は容易に認識することを可能とすること。
【解決手段】他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第1の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の前記画像内での位置を表す位置データ、を受信する通信部と、実空間を撮影した入力画像を取得する入力画像取得部と、取得される前記入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成する特徴量生成部と、前記第1の特徴量と前記第2の特徴量とを照合し、当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記入力画像内での位置を特定する特定部と、特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、を備える画像処理装置を提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理システム、画像処理装置、画像処理方法及びプログラムに関する。
【背景技術】
【0002】
複数人の人間同士のコミュニケーションにおいて、視界に映る何らかの場所(例えば話題の対象となっている人物又は物体などが存在する場所)についての認識を共有しようとする場合、その場所を指で指し示すことがよく行われる。しかし、対象の場所に直接指を触れることができるようなケースを除いて、指示者がどの場所を指し示しているのかを聞き手が正しく認識できない場合は少なくない。この場合、対象の場所を言葉で表現することができるときには、指差しと共に言葉でその場所を表現することで、認識の共有はより容易となる。しかし、言葉で表現することの難しい場所については、このような複合的なやり方は通用しない。また、例えば、会議のような場面においては、レーザポインタを用いて出席者が認識を共有すべき場所を指し示すことも行われる。しかし、実世界の一般的な場面において、ユーザがレーザポインタを常に所持しているわけではなく、仮にレーザポインタを所持していてもこれを濫用することは危険である。
【0003】
ところで、撮像画像に映るユーザの手指を検出し、検出された手指の形状、位置又はジェスチャに基づいて電子機器を操作しようとする技術が存在する。例えば、下記特許文献1は、撮像画像に映る腕の中心軸に基づいて設定される走査線に沿って腕の幅を走査することにより、高い精度でユーザの手指の形状等を検出することのできる技術を開示している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−63091号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、撮像画像に映るユーザの手指を検出する従来の手法は、複数人の人間同士のコミュニケーションに直接的に応用し得るものではなかった。その主な理由は、ユーザ間の視線方向の違いである。指示者が対象の場所を指で指し示したとしても、その1つの指を見る指示者の視線と聞き手の視線とは1点で交わる2本の直線となり、異ならざるを得ない。そのため、例えば、聞き手の視線方向に向けた撮像装置から取得される画像内で指示者の指を高い精度で検出したとしても、その指が重なる場所はもはや指示者が伝えようとした場所ではない。
【0006】
そこで、本発明は、複数人によるコミュニケーションにおいて、視線方向が異なるユーザが指し示した場所を正確に又は容易に認識することを可能とする、新規かつ改良された画像処理システム、画像処理装置、画像処理方法及びプログラムを提供しようとするものである。
【課題を解決するための手段】
【0007】
本発明のある実施形態によれば、実空間を撮影した入力画像を取得する入力画像取得部、をそれぞれ備える2つの画像処理装置を含む画像処理システムであって、第1の画像処理装置は、上記第1の画像処理装置において取得される第1の入力画像に映る指示子であって、実空間内の場所を指し示すために用いられる上記指示子を認識する画像認識部と、上記第1の入力画像内に設定される複数の特徴点の座標を含む第1の特徴量を生成する第1の特徴量生成部と、上記第1の入力画像について生成される上記第1の特徴量、及び上記画像認識部により認識される上記指示子の位置を表す位置データを送信する第1の通信部と、をさらに備え、第2の画像処理装置は、上記第2の画像処理装置において取得される第2の入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成する第2の特徴量生成部と、上記第1の特徴量及び上記位置データを受信する第2の通信部と、上記第1の特徴量と上記第2の特徴量とを照合し、当該照合の結果及び上記位置データに基づいて、上記指示子により指し示されている実空間内の場所の上記第2の入力画像内での位置を特定する特定部と、上記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、をさらに備える、画像処理システムが提供される。
【0008】
また、上記第1の画像処理装置は、ユーザの指を上記指示子として認識するための指画像を記憶している記憶部、をさらに備え、上記画像認識部は、上記第1の入力画像に映る上記指画像を検出することにより、上記指示子を認識してもよい。
【0009】
また、上記第1の特徴量は、複数の視線方向ごとに上記第1の入力画像を回転させた場合に上記第1の入力画像内にそれぞれ設定される特徴点の座標のセットを複数含み、上記特定部は、上記第1の特徴量に含まれる特徴点の座標のセットの各々と上記第2の特徴量とを照合することにより、上記複数の視線方向のうちのいずれか1つを選択してもよい。
【0010】
また、上記特定部は、複数の視線方向ごとに上記第1の入力画像を回転させた場合に上記第1の入力画像内にそれぞれ設定される特徴点の座標のセットを上記第1の特徴量から複数生成し、生成した特徴点の座標のセットの各々と上記第2の特徴量とを照合することにより、上記複数の視線方向のうちのいずれか1つを選択してもよい。
【0011】
また、上記特定部は、選択した視線方向と上記位置データとに基づいて、上記指示子により指し示されている実空間内の場所の上記第2の入力画像内での位置を特定してもよい。
【0012】
また、上記出力画像生成部は、上記特定部により特定される位置を囲む図形を上記標識として表示する上記出力画像を生成してもよい。
【0013】
また、本発明の別の実施形態によれば、他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第1の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の上記画像内での位置を表す位置データ、を受信する通信部と、実空間を撮影した入力画像を取得する入力画像取得部と、上記入力画像取得部により取得される上記入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成する特徴量生成部と、上記第1の特徴量と上記第2の特徴量とを照合し、当該照合の結果及び上記位置データに基づいて、上記指示子により指し示されている実空間内の場所の上記入力画像内での位置を特定する特定部と、上記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、を備える画像処理装置が提供される。
【0014】
また、上記第1の特徴量は、複数の視線方向ごとに上記画像を回転させた場合に当該画像内にそれぞれ設定される特徴点の座標のセットを複数含み、上記特定部は、上記第1の特徴量に含まれる特徴点の座標のセットの各々と上記第2の特徴量とを照合することにより、上記複数の視線方向のうちのいずれか1つを選択してもよい。
【0015】
また、上記特定部は、複数の視線方向ごとに上記画像を回転させた場合に当該画像内にそれぞれ設定される特徴点の座標のセットを上記第1の特徴量から複数生成し、生成した特徴点の座標のセットの各々と上記第2の特徴量とを照合することにより、上記複数の視線方向のうちのいずれか1つを選択してもよい。
【0016】
また、上記特定部は、選択した視線方向と上記位置データとに基づいて、上記指示子により指し示されている実空間内の場所の上記入力画像内での位置を特定してもよい。
【0017】
また、上記出力画像生成部は、上記特定部により特定される位置を囲む図形を上記標識として表示する上記出力画像を生成してもよい。
【0018】
また、本発明の別の実施形態によれば、実空間を撮影した入力画像をそれぞれ取得する2つの画像処理装置により実行される画像処理方法であって、第1の画像処理装置において、第1の入力画像を取得するステップと、取得した上記第1の入力画像に映る指示子であって、実空間内の場所を指し示すために用いられる上記指示子を認識するステップと、上記第1の入力画像内に設定される複数の特徴点の座標を含む第1の特徴量を生成するステップと、上記第1の入力画像について生成した上記第1の特徴量、及び認識した上記指示子の位置を表す位置データを送信するステップと、第2の画像処理装置において、上記第1の特徴量及び上記位置データを受信するステップと、第2の入力画像を取得するステップと、取得した上記第2の入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成するステップと、上記第1の特徴量と上記第2の特徴量とを照合するステップと、当該照合の結果及び上記位置データに基づいて、上記指示子により指し示されている実空間内の場所の上記第2の入力画像内での位置を特定するステップと、特定した位置を指し示す標識を表示する出力画像を生成するステップと、を含む、画像処理方法が提供される。
【0019】
また、本発明の別の実施形態によれば、画像処理装置により実行される画像処理方法であって、他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第1の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の上記画像内での位置を表す位置データ、を受信するステップと、実空間を撮影した入力画像を取得するステップと、取得した上記入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成するステップと、上記第1の特徴量と上記第2の特徴量とを照合するステップと、当該照合の結果及び上記位置データに基づいて、上記指示子により指し示されている実空間内の場所の上記入力画像内での位置を特定するステップと、特定した位置を指し示す標識を表示する出力画像を生成するステップと、を含む、画像処理方法が提供される。
【0020】
また、本発明の別の実施形態によれば、画像処理装置を制御するコンピュータを、他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第1の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の上記画像内での位置を表す位置データ、を受信する通信部と、実空間を撮影した入力画像を取得する入力画像取得部と、上記入力画像取得部により取得される上記入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成する特徴量生成部と、上記第1の特徴量と上記第2の特徴量とを照合し、当該照合の結果及び上記位置データに基づいて、上記指示子により指し示されている実空間内の場所の上記入力画像内での位置を特定する特定部と、上記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、として機能させるための、プログラムが提供される。
【発明の効果】
【0021】
以上説明したように、本発明に係る画像処理システム、画像処理装置、画像処理方法及びプログラムによれば、複数人によるコミュニケーションにおいて、視線方向が異なるユーザが指し示した場所を正確に又は容易に認識することを可能とすることができる。
【図面の簡単な説明】
【0022】
【図1】一実施形態に係る画像処理システムの概要を示す模式図である。
【図2】一実施形態に係る画像処理装置の構成の一例を示すブロック図である。
【図3】一実施形態に係る入力画像の第1の例を示す説明図である。
【図4A】一実施形態に係る指示子の一例を示す模式図である。
【図4B】一実施形態に係る指示子の他の例を示す模式図である。
【図5】一実施形態において第1の入力画像内に設定される特徴点について説明するための説明図である
【図6】一実施形態に係る入力画像の第2の例を示す説明図である。
【図7】一実施形態において第2の入力画像内に設定される特徴点について説明するための説明図である
【図8】一実施形態に係る特徴量の照合処理について説明するための説明図である。
【図9】一実施形態において生成される出力画像の一例について説明するための説明図である
【図10】一実施形態に係る指示側の画像処理の流れの一例を示すフローチャートである。
【図11】一実施形態に係る被指示側の画像処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0023】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付すことにより重複説明を省略する。
【0024】
また、以下の順序にしたがって当該「発明を実施するための形態」を説明する。
1.一実施形態に係る画像処理システムの概要
2.一実施形態に係る画像処理装置の構成例
2−1.全体的な構成
2−2.指示側
2−3.被指示側
3.一実施形態に係る画像処理の流れ
3−1.指示側
3−2.被指示側
4.まとめ
【0025】
<1.一実施形態に係る画像処理システムの概要>
まず、図1を用いて、本発明の一実施形態に係る画像処理システムの概要を説明する。図1は、本発明の一実施形態に係る画像処理システム1の概要を示す模式図である。図1を参照すると、画像処理システム1は、ユーザUaが使用する画像処理装置100a、及びユーザUbが使用する画像処理装置100bを含む。
【0026】
画像処理装置100aは、例えば、ユーザUaの頭部に装着される撮像装置102a及びヘッドマウントディスプレイ(HMD:Head Mounted Display)104aと接続される。撮像装置102aは、ユーザUaの視線方向を向いて実空間3を撮像し、一連の入力画像を画像処理装置100aへ出力する。HMD104aは、画像処理装置100aから入力される画像をユーザUaに表示する。HMD104aにより表示される画像は、画像処理装置100aにより生成される出力画像である。HMD104aは、シースルー型のディスプレイであってもよく、又は非シースルー型のディスプレイであってもよい。
【0027】
画像処理装置100bは、例えば、ユーザUbの頭部に装着される撮像装置102b及びHMD104bと接続される。撮像装置102bは、ユーザUbの視線方向を向いて実空間3を撮像し、一連の入力画像を画像処理装置100bへ出力する。HMD104bは、画像処理装置100bから入力される画像をユーザUbに表示する。HMD104bにより表示される画像は、画像処理装置100bにより生成される出力画像である。HMD104bもまた、シースルー型のディスプレイであってもよく、又は非シースルー型のディスプレイであってもよい。
【0028】
画像処理装置100a及び100bは、有線又は無線による通信接続を介して、互いに通信することができる。画像処理装置100aと画像処理装置100bとの間の通信は、例えば、P2P(Peer to Peer)方式により直接行われてもよく、ルータ又はサーバなどの他の装置(図示せず)を介して間接的に行われてもよい。
【0029】
図1の例において、ユーザUa及びUbは、共に実空間3の方向を向いている。そして、ユーザUaは、例えば話題の対象となっている人物又は物体などが存在する場所を指で指し示している。このとき、撮像装置102aから画像処理装置100aに入力される入力画像においては、ユーザUaの指はまさにその対象の場所を指し示しているであろう。しかし、撮像装置102bから画像処理装置100bに入力される入力画像においては、ユーザUaの指は対象の場所からずれている可能性がある。そこで、本実施形態に係る画像処理システム1において、以下に詳しく説明する仕組みにより、ユーザUaが指し示した対象の場所をユーザUbが正確かつ容易に認識することを可能とする。
【0030】
なお、画像処理装置100a及び100bは、図1に示した例に限定されない。例えば、カメラ付き携帯端末を用いて画像処理装置100a又は100bが実現されてもよい。その場合には、カメラ付き携帯端末のカメラが実空間を撮像し、端末により画像処理が行われた後、端末の画面上に出力画像が表示される。また、画像処理装置100a又は100bは、PC(Personal Computer)又はゲーム端末などのその他の種類の装置であってもよい。
【0031】
本明細書のこれ以降の説明において、画像処理装置100a及び100bを互いに区別する必要がない場合には、符号の末尾のアルファベットを省略することにより、画像処理装置100a及び100bを画像処理装置100と総称する。また、撮像装置102a及び102b(撮像装置102)、HMD104a及び104b(HMD104)、並びにその他の要素についても同様とする。また、画像処理システム1に参加可能な画像処理装置100の数は、図1の例に限定されず、3つ以上であってもよい。即ち、例えば、第3のユーザが使用する第3の画像処理装置100が、画像処理システム1にさらに含まれてもよい。
【0032】
<2.一実施形態に係る画像処理装置の構成例>
[2−1.全体的な構成]
次に、図2〜図9を用いて、本実施形態に係る画像処理装置100の構成を説明する。図2は、本実施形態に係る画像処理装置100の構成の一例を示すブロック図である。図2を参照すると、画像処理装置100は、入力画像取得部110、記憶部120、画像認識部130、特徴量生成部140、通信部150、特定部160、出力画像生成部170及び表示部180を備える。
【0033】
なお、画像処理装置100が対象の場所を指し示す指示者ユーザの側(例えば図1におけるユーザUa。以下、指示側という)として動作する場合、図2に示した画像処理装置100の構成要素のうち、主に入力画像取得部110、記憶部120、画像認識部130、特徴量生成部140及び通信部150が画像処理に関与する。一方、画像処理装置100が対象の場所を指し示される聞き手ユーザの側(例えば図1におけるユーザUb。以下、被指示側という)として動作する場合、図2に示した画像処理装置100の構成要素のうち、主に入力画像取得部110、特徴量生成部140、通信部150、特定部160、出力画像生成部170及び表示部180が画像処理に関与する。
【0034】
本節では、画像処理装置100が指示側の構成及び被指示側の構成を共に備える例について説明する。しかしながら、かかる例に限定されず、指示側の構成及び被指示側の構成のいずれか一方のみを備える画像処理装置が提供されてもよい。
【0035】
[2−2.指示側]
(入力画像取得部)
入力画像取得部110は、撮像装置102を用いて撮像される一連の入力画像を取得する。図3は、入力画像取得部110により取得される一例としての入力画像IM01を示している。入力画像IM01には、実空間3に存在する様々な対象物が映っている。図3の例では、実空間3は駅の構内の空間であり、店舗T1、案内板T2、看板T3及び人物T4などが入力画像IM01に映っている。さらに、入力画像IM01には、指示子Maが映っている。ここでは、指示子MaはユーザUaの指である。入力画像取得部110は、取得したこのような入力画像を、画像認識部130及び特徴量生成部140へ順次出力する。
【0036】
(記憶部)
記憶部120は、ハードディスク又は半導体メモリなどの記憶媒体を用いて、入力画像に映る指示子を認識するための画像認識に用いられる指示子画像を予め記憶する。本明細書において、指示子とは、実空間内の任意の場所をユーザが指し示すために用いる物体又は人体の一部である。
【0037】
図4A及び図4Bは、本実施形態に係る指示子の一例をそれぞれ示す模式図である。図4Aの例では、指示子M1は、ユーザの指(手指)である。記憶部120は、例えば、このようなユーザの指を映した画像を指示子画像として予め記憶する。記憶部120は、例えば、異なる複数の方向からユーザの指を映した一群の画像を指示子画像として記憶してもよい。
【0038】
図4Bの例では、指示子M2は、ユーザの指に装着される立方体状のマーカである。マーカの各面の中央部には空洞が開けられており、ユーザは、その空洞に指を挿入してマーカを動かすことができる。この場合、記憶部120は、マーカを映した画像を指示子画像として予め記憶する。その代わりに、例えば、マーカと当該マーカに挿入された指とを含む全体を指示子とし、それらを映した画像が指示子画像として記憶されてもよい。
【0039】
なお、指示子は、図4A及び図4Bの例に限定されず、例えば、ユーザの足又はユーザに把持される棒状の物体など、実世界に存在する人体の一部又は任意の物体であってよい。記憶部120は、画像認識部130からの要求に応じて、かかる指示子画像を画像認識部130へ出力する。
【0040】
(画像認識部)
画像認識部130は、入力画像取得部110により取得される入力画像に映る指示子を認識する。画像認識部130は、例えば、記憶部120により記憶されている指示子画像と入力画像とを公知のパターンマッチングの手法を用いて照合することにより、入力画像に映る指示子を認識してもよい。その代わりに、画像認識部130は、指示子画像を用いることなく、例えば上記特許文献1に記載された手法を用いて入力画像に映る指示子としてのユーザの手指を認識してもよい。
【0041】
画像認識部130は、入力画像に指示子が映っていることを認識すると、さらに指示子が指し示している場所の入力画像内における位置を判定する。例えば、画像認識部130は、図4Aに例示された指示子M1における人差し指の先端の位置を、指示子M1が指し示している場所の入力画像内における位置であると判定してもよい。また、例えば、画像認識部130は、図4Bに例示された指示子M2におけるマーカの重心の位置を、指示子M2が指し示している場所の入力画像内における位置であると判定してもよい。
【0042】
画像認識部130は、上述した手法により認識した指示子の位置(指示子が指し示している位置の入力画像内の座標)を表す位置データを、ユーザからの要求に応じて、通信部150へ出力する。ユーザからの要求は、例えば、指示子を用いたジェスチャにより画像処理装置100に入力され得る。例えば、画像認識部130は、入力画像内で指示子のサイズの変化を監視する。そして、例えば、一定の閾値以上のサイズを有する指示子が継続して検出されている場合において、当該指示子のサイズが一時的に小さくなったときに、画像認識部130は、ユーザが何らかの場所をタップしたものと認識することができる。このようなタップジェスチャは、ユーザが指し示している場所についての情報の転送の要求を表すユーザ入力の一例である。このほか、画像認識部130は、例えば、指示子の先端が円軌道を描くジェスチャ、又は特定の手指の形状などを情報転送の要求を表すユーザ入力として扱ってもよい。また、画像認識部130による画像認識の代わりに、情報処理装置100に設けられるボタン又はスイッチなどのユーザインタフェースを介して、情報転送の要求が入力されてもよい。
【0043】
画像認識部130は、ユーザからの要求を検知すると、指示子の位置を表す位置データを通信部150へ出力すると共に、特徴量生成部140に入力画像についての特徴量の生成を要求する。
【0044】
(特徴量生成部)
特徴量生成部140は、画像認識部130からの要求に応じて、入力画像取得部110により取得される入力画像内に複数の特徴点を設定し、設定した特徴点の座標を含む特徴量を生成する。特徴量生成部140は、例えば、公知のHarris作用素若しくはMoravec作用素を用いる手法、又はFAST特徴検出法(FAST feature detection)などの任意の手法に従って、入力画像内に特徴点を設定してよい。特徴量生成部140が生成する特徴量には、各特徴点の座標に加えて、特徴点ごとの輝度、コントラスト及び方向などの追加的なパラメータ値が含まれてもよい。特徴量として、例えば、David G. Loweによる“Distinctive Image Features from Scale-Invariant Keypoints”(the International Journal of Computer Vision, 2004)に記載された特有不変特徴量(distinctive invariant Features)を用いることにより、画像内のノイズ、大きさの変化、回転及び照明の変化などに対する画像処理の高いロバスト性が実現される。
【0045】
図5は、本実施形態に係る特徴量生成部140により入力画像内に設定される特徴点について説明するための説明図である。図5を参照すると、図3に例示した入力画像IM01内に、×印で示した多数の特徴点が設定されている。特徴点は、例えば、実空間3の内部の様々な物体のエッジ及びコーナー上に設定され得る。特徴量生成部140は、このような特徴点の入力画像内の座標値と、上述した追加的なパラメータ値とを1つのデータセットとして格納した特徴量を、通信部150へ出力する。
【0046】
(通信部)
通信部150は、画像処理装置100が他の装置と通信するための通信インタフェースとして動作する。例えば、通信部150は、画像認識部130により情報転送の要求を表すユーザ入力が検知されると、画像認識部130から入力される指示子の位置データと特徴量生成部140から入力される入力画像についての特徴量とを、他の画像処理装置100へ送信する。
【0047】
[2−3.被指示側]
(入力画像取得部)
画像処理装置100が被指示側として動作する場合にも、入力画像取得部110は、指示側と同様に、撮像装置102を用いて撮像される一連の入力画像を取得する。そして、入力画像取得部110は、取得した入力画像を特徴量生成部140へ順次出力する。
【0048】
図6は、入力画像取得部110により取得される他の例としての入力画像IM02を示している。入力画像IM02には、図3に例示した入力画像IM01と同様、実空間3に存在する店舗T1、案内板T2、看板T3及び人物T4などの様々な対象物が映っている。さらに、入力画像IM02には、ユーザUaの指である指示子Maが映っている。但し、視線方向の違いが原因となり、入力画像IM02において、指示子Maは、入力画像IM01のように看板T3の上ではなく、人物T4の上に位置している。従って、単純に入力画像IM02を見たユーザは、指示子Maが実際にどの場所を指し示しているのかを正しく認識できない。
【0049】
(通信部)
被指示側の通信部150は、指示側の装置から送信される上述した特徴量及び位置データを受信する。本明細書のこれ以降の説明では、指示側の通信部150により送信され被指示側の通信部150により受信される特徴量を第1の特徴量という。通信部150は、第1の特徴量及び位置データを受信すると、当該第1の特徴量及び位置データを特定部160へ出力すると共に、第1の特徴量と照合すべき入力画像についての第2の特徴量の生成を特徴量生成部140に要求する。
【0050】
(特徴量生成部)
被指示側の特徴量生成部140は、通信部150からの要求に応じて、入力画像取得部110により取得される入力画像について生成した特徴量を、第1の特徴量と照合すべき第2の特徴量として特定部160へ出力する。第2の特徴量は、第1の特徴量と同様に、入力画像内に設定される複数の特徴点の座標を含む。さらに、第2の特徴量もまた特徴点ごとの輝度、コントラスト及び方向などの追加的なパラメータ値を含んでよい。
【0051】
(特定部)
特定部160は、通信部150から入力される第1の特徴量と特徴量生成部140から入力される第2の特徴量とを照合する。そして、特定部160は、当該照合の結果及び通信部150から入力される位置データに基づいて、指示子により指し示されている実空間内の場所の入力画像内での位置を特定する。
【0052】
図7は、図6に例示した入力画像IM02内に設定される特徴点について説明するための説明図である。図7を参照すると、入力画像IM02内に、×印で示した多数の特徴点が設定されている。入力画像IM02における各特徴点の座標値は、入力画像IM01における対応する特徴点の座標値と異なる。座標値の相違は、視線方向の違いを原因とする。そこで、特定部160は、第1の特徴量に含まれる座標値を複数の視線方向ごとにそれぞれ回転させた各特徴点座標のセットを照合のために利用する。特定部160は、特徴点座標のセットの各々と第2の特徴量とを照合し、特徴量が最も適合した特徴点座標のセットに対応する視線方向を選択する。そして、特定部160は、選択した視線方向とその視線方向に応じた指示子の位置とに基づいて、指示子により指し示されている実空間内の場所の被指示側の入力画像内での位置を特定する。
【0053】
図8は、本実施形態に係る特定部160による特徴量の照合処理について説明するための説明図である。図8の中央には、第1の特徴量に含まれる特徴点座標のセットFS0及び指示子の位置P0が示されている。特定部160は、このような特徴点座標のセットFS0及び指示子の位置P0の各座標値をアフィン変換又は3D回転することにより、複数の視線方向にそれぞれ対応する複数の特徴点座標のセット及び複数の位置データを生成する。図8の例では、視線方向α1〜α8にそれぞれ対応する8個の特徴点座標のセットFS1〜FS8及び指示子の位置P1〜P8が示されている。そして、特定部160は、例えば、基本的な特徴点座標のセットFS0及び特徴点座標のセットFS1〜FS8の各々と第2の特徴量とを照合する。このとき、例えば、特徴点座標のセットFS4が第2の特徴量に最も小さな誤差で適合した場合には、特定部160は、被指示側の入力画像内の位置P4に対応する場所を指示子が指し示していると特定する。特定部160による特徴量の照合は、例えば、上述した“Distinctive Image Features from Scale-Invariant Keypoints”に記載されたSIFT(Scale Invariant Feature Transform)法に従って行われてもよい。また、特定部160による特徴量の照合は、例えば、Mustafa Oezuysalらによる“Fast Keypoint Recognition using Random Ferns”(IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.32, Nr.3, pp.448-461, March 2010)に記載されたRandom Ferns法に従って行われてもよい。
【0054】
なお、指示側の入力画像についての特徴量から視線方向ごとの特徴点座標のセットを生成する処理は、指示側の画像処理装置100の特徴量生成部140により行われてもよい。その場合には、被指示側の通信部150が受信する第1の特徴量は、視線方向ごとの複数の特徴点座標のセットと対応する指示子の位置データとを含む。
【0055】
特定部160は、指示子により指し示されている場所の被指示側の入力画像内での位置をこのように特定し、特定した当該位置の座標値を出力画像生成部170へ出力する。
【0056】
(出力画像生成部)
出力画像生成部170は、特定部160により特定される位置を指し示す標識を表示する出力画像を生成する。例えば、本実施形態において、出力画像生成部170は、特定部160により特定される位置を囲む図形を上記標識として表示する出力画像を生成し、生成した出力画像を表示部180へ出力する。その代わりに、上記標識は、特定部160により特定される位置を指す矢印などであってもよい。また、特定部160により特定される位置の周囲の一定のサイズの領域と他の領域との間に色又は輝度の差を設けて、その差を上記標識としてもよい。
【0057】
(表示部)
表示部180は、出力画像生成部170により生成される出力画像を、HMD104を用いてユーザに向けて表示する。
【0058】
(出力画像の例)
図9は、出力画像生成部170により生成される出力画像の一例について説明するための説明図である。図9を参照すると、一例としての出力画像IM11が示されている。出力画像IM11において、指示子Maは人物T4の上に位置している一方、看板T3の上に標識INDが表示されている。標識INDが表示される位置は、図8を用いて説明した処理により特定部160が特定した位置である。このような出力画像IM11を参照することにより、被指示側のユーザ(例えば図1のユーザUb)は、指示側のユーザ(例えば図1のユーザUa)が指示子Maにより看板T3を指し示していることを容易に認識することができる。
【0059】
なお、例えば、HMD104がシースルー型である場合には、出力画像生成部170は、標識INDのみの画像を出力画像として生成する。一方、HMD104が非シースルー型である場合には、出力画像生成部160は、入力画像に標識INDを重畳させた出力画像を生成する。
【0060】
<3.一実施形態に係る画像処理の流れ>
次に、図10及び図11を用いて、本実施形態に係る画像処理装置100による画像処理の流れを説明する。図10は、画像処理装置100による指示側の画像処理の流れの一例を示すフローチャートである。図11は、画像処理装置100による被指示側の画像処理の流れの一例を示すフローチャートである。
【0061】
[3−1.指示側]
図10は、指示側の画像処理装置100において一連の入力画像の各フレームについて行われる画像処理の流れの一例を示している。まず、入力画像取得部110は、撮像装置102から入力画像を取得する(ステップS102)。次に、画像認識部130は、例えば記憶部120により記憶されている指示子画像と入力画像とを照合することにより、入力画像内の指示子を認識する(ステップS104)。次に、画像認識部130は、例えば指示子を用いたジェスチャにより表されるユーザ入力を認識する。ここで、情報転送を要求するユーザ入力が検出された場合には、処理はステップS108へ進む。一方、ユーザ入力が検出されない場合には、その後の処理はスキップされる(ステップS106)。
【0062】
ステップS106において画像認識部130が情報転送を要求するユーザ入力を検出すると、特徴量生成部140は、入力画像内に複数の特徴点を設定し、第1の特徴量を生成する(ステップS108)。そして、通信部150は、画像認識部130により認識された指示子の位置を表す位置データと特徴量生成部140により生成された第1の特徴量とを送信する(ステップS110)。
【0063】
[3−2.被指示側]
図11に例示する画像処理は、典型的には、指示側の画像処理装置100からの上述した第1の特徴量及び位置データの受信をきっかけとして、被指示側の画像処理装置100において行われる。
【0064】
まず、通信部150は、指示側の画像処理装置100から送信された第1の特徴量及び位置データを受信する(ステップS202)。次に、特徴量生成部140は、入力画像取得部110により取得される入力画像内に複数の特徴点を設定し、第2の特徴量を生成する(ステップS204)。次に、特定部160は、第1の特徴量から、複数の視線方向ごとに特徴点の座標値をそれぞれ変換した複数の特徴点座標のセットを生成する(ステップS206)。そして、特定部160は、第1の特徴量から生成した複数の特徴点座標のセットの各々と第2の特徴量とを照合する(ステップS208)。ここで、いずれの特徴点座標のセットも第2の特徴量と十分に適合しない(例えば誤差の総和が所定の閾値を下回らない)場合には、指示子により指し示されている場所を特定できないため、その後の処理はスキップされる。一方、いずれかの特徴点座標のセットが第2の特徴量と適合する場合には、処理はステップS212へ進む(ステップS210)。
【0065】
次に、特定部160は、第2の特徴量に最もよく適合した特徴点座標のセットに対応する視線方向に応じて、指示子により指し示されている場所の被指示側の入力画像内の位置を特定する(ステップS212)。次に、出力画像生成部170は、特定部160により特定された位置を指し示す標識を表示する出力画像を生成するステップ(ステップS214)。そして、表示部180は、出力画像生成部170により生成された出力画像をHMD104に表示する(ステップS216)。
【0066】
なお、図11に例示した画像処理のうちステップS204〜S216は、例えば、第1の特徴量及び位置データが受信された後、所定の期間にわたって各入力画像について繰返し実行され得る。その際、前のフレームから入力画像の内容が変化していない(即ち、被指示側のユーザの視線方向が変化していない)フレームについては、特徴量の照合処理が省略されてもよい。この場合、前のフレームにおいて特定された位置を指し示す標識が出力画像により表示される。
【0067】
<4.まとめ>
ここまで、図1〜図11を用いて、本発明の一実施形態に係る画像処理システム1及び画像処理装置100について説明した。本実施形態によれば、指示側の第1の画像処理装置100が、入力画像に映る指示子を認識すると共に、第1の入力画像についての特徴点座標を含む第1の特徴量を生成し、生成した第1の特徴量と指示子の位置を表す位置データとを送信する。そして、被指示側の第2の画像処理装置100が、第2の入力画像についての特徴点座標を含む第2の特徴量を生成し、第1の画像処理装置100から受信される第1の特徴量と当該第2の特徴量とを照合する。かかる照合の結果に応じて、第2の画像処理装置100は、指示子により指し示されている実空間内の場所を第2の入力画像内で特定し、その場所を指し示す標識を出力画像内に表示する。それにより、第1の画像処理装置100のユーザが指し示した場所を、第2の画像処理装置100のユーザが正確かつ容易に認識することが可能となる。
【0068】
また、本実施形態において、第1の特徴量と第2の特徴量との照合は、一方の特徴量に含まれる特徴点座標のセットを複数の視線方向ごとにそれぞれ回転させて生成した複数の特徴点座標のセットの各々と、他方の特徴量とをマッチングさせる形で行われる。そして、最もよく適合した特徴点座標のセットに応じて、複数の視線方向のうちのいずれか1つが選択される。ここで選択される視線方向は、ユーザ間の視線方向の相対的なズレに相当する。そのため、当該選択される視線方向に応じて指示子が指し示す場所を特定することにより、視線方向が異なるユーザが指し示した場所を正確に認識することができる。
【0069】
なお、本明細書では、指示子が指し示す場所を囲む図形を標識として表示する例について説明した。しかしながら、例えば、さらにパターンマッチングに基づくオブジェクト認識技術を応用し、指示子が指し示すオブジェクトの形状を認識した上で、オブジェクトの形状に沿った枠などを出力画像において表示してもよい。また、認識したオブジェクトの名称及び属性などの追加的な情報を出力画像において表示してもよい。
【0070】
本明細書において説明した画像処理装置100による一連の処理は、典型的には、ソフトウェアを用いて実現される。一連の処理を実現するソフトウェアを構成するプログラムは、例えば、画像処理装置100の内部又は外部に設けられる記憶媒体に予め格納される。そして、各プログラムは、例えば、実行時に画像処理装置100のRAM(Random Access Memory)に読み込まれ、CPU(Central Processing Unit)などのプロセッサにより実行される。
【0071】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0072】
100 画像処理装置
102 撮像装置
104 HMD
110 入力画像取得部
120 記憶部
130 画像認識部
140 特徴量生成部
150 通信部
160 特定部
170 出力画像生成部
180 表示部


【特許請求の範囲】
【請求項1】
実空間を撮影した入力画像を取得する入力画像取得部、をそれぞれ備える2つの画像処理装置を含む画像処理システムであって、
第1の画像処理装置は、
前記第1の画像処理装置において取得される第1の入力画像に映る指示子であって、実空間内の場所を指し示すために用いられる前記指示子を認識する画像認識部と、
前記第1の入力画像内に設定される複数の特徴点の座標を含む第1の特徴量を生成する第1の特徴量生成部と、
前記第1の入力画像について生成される前記第1の特徴量、及び前記画像認識部により認識される前記指示子の位置を表す位置データを送信する第1の通信部と、
をさらに備え、
第2の画像処理装置は、
前記第2の画像処理装置において取得される第2の入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成する第2の特徴量生成部と、
前記第1の特徴量及び前記位置データを受信する第2の通信部と、
前記第1の特徴量と前記第2の特徴量とを照合し、当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記第2の入力画像内での位置を特定する特定部と、
前記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、
をさらに備える、
画像処理システム。
【請求項2】
前記第1の画像処理装置は、ユーザの指を前記指示子として認識するための指画像を記憶している記憶部、をさらに備え、
前記画像認識部は、前記第1の入力画像に映る前記指画像を検出することにより、前記指示子を認識する、
請求項1に記載の画像処理システム。
【請求項3】
前記第1の特徴量は、複数の視線方向ごとに前記第1の入力画像を回転させた場合に前記第1の入力画像内にそれぞれ設定される特徴点の座標のセットを複数含み、
前記特定部は、前記第1の特徴量に含まれる特徴点の座標のセットの各々と前記第2の特徴量とを照合することにより、前記複数の視線方向のうちのいずれか1つを選択する、
請求項2に記載の画像処理システム。
【請求項4】
前記特定部は、複数の視線方向ごとに前記第1の入力画像を回転させた場合に前記第1の入力画像内にそれぞれ設定される特徴点の座標のセットを前記第1の特徴量から複数生成し、生成した特徴点の座標のセットの各々と前記第2の特徴量とを照合することにより、前記複数の視線方向のうちのいずれか1つを選択する、請求項2に記載の画像処理システム。
【請求項5】
前記特定部は、選択した視線方向と前記位置データとに基づいて、前記指示子により指し示されている実空間内の場所の前記第2の入力画像内での位置を特定する、請求項3又は請求項4に記載の画像処理システム。
【請求項6】
前記出力画像生成部は、前記特定部により特定される位置を囲む図形を前記標識として表示する前記出力画像を生成する、請求項1に記載の画像処理システム。
【請求項7】
他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第1の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の前記画像内での位置を表す位置データ、を受信する通信部と、
実空間を撮影した入力画像を取得する入力画像取得部と、
前記入力画像取得部により取得される前記入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成する特徴量生成部と、
前記第1の特徴量と前記第2の特徴量とを照合し、当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記入力画像内での位置を特定する特定部と、
前記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、
を備える画像処理装置。
【請求項8】
前記第1の特徴量は、複数の視線方向ごとに前記画像を回転させた場合に当該画像内にそれぞれ設定される特徴点の座標のセットを複数含み、
前記特定部は、前記第1の特徴量に含まれる特徴点の座標のセットの各々と前記第2の特徴量とを照合することにより、前記複数の視線方向のうちのいずれか1つを選択する、
請求項7に記載の画像処理装置。
【請求項9】
前記特定部は、複数の視線方向ごとに前記画像を回転させた場合に当該画像内にそれぞれ設定される特徴点の座標のセットを前記第1の特徴量から複数生成し、生成した特徴点の座標のセットの各々と前記第2の特徴量とを照合することにより、前記複数の視線方向のうちのいずれか1つを選択する、請求項7に記載の画像処理装置。
【請求項10】
前記特定部は、選択した視線方向と前記位置データとに基づいて、前記指示子により指し示されている実空間内の場所の前記入力画像内での位置を特定する、請求項8又は請求項9に記載の画像処理装置。
【請求項11】
前記出力画像生成部は、前記特定部により特定される位置を囲む図形を前記標識として表示する前記出力画像を生成する、請求項7に記載の画像処理装置。
【請求項12】
実空間を撮影した入力画像をそれぞれ取得する2つの画像処理装置により実行される画像処理方法であって、
第1の画像処理装置において、
第1の入力画像を取得するステップと、
取得した前記第1の入力画像に映る指示子であって、実空間内の場所を指し示すために用いられる前記指示子を認識するステップと、
前記第1の入力画像内に設定される複数の特徴点の座標を含む第1の特徴量を生成するステップと、
前記第1の入力画像について生成した前記第1の特徴量、及び認識した前記指示子の位置を表す位置データを送信するステップと、
第2の画像処理装置において、
前記第1の特徴量及び前記位置データを受信するステップと、
第2の入力画像を取得するステップと、
取得した前記第2の入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成するステップと、
前記第1の特徴量と前記第2の特徴量とを照合するステップと、
当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記第2の入力画像内での位置を特定するステップと、
特定した位置を指し示す標識を表示する出力画像を生成するステップと、
を含む、画像処理方法。
【請求項13】
画像処理装置により実行される画像処理方法であって、
他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第1の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の前記画像内での位置を表す位置データ、を受信するステップと、
実空間を撮影した入力画像を取得するステップと、
取得した前記入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成するステップと、
前記第1の特徴量と前記第2の特徴量とを照合するステップと、
当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記入力画像内での位置を特定するステップと、
特定した位置を指し示す標識を表示する出力画像を生成するステップと、
を含む、画像処理方法。
【請求項14】
画像処理装置を制御するコンピュータを、
他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第1の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の前記画像内での位置を表す位置データ、を受信する通信部と、
実空間を撮影した入力画像を取得する入力画像取得部と、
前記入力画像取得部により取得される前記入力画像内に設定される複数の特徴点の座標を含む第2の特徴量を生成する特徴量生成部と、
前記第1の特徴量と前記第2の特徴量とを照合し、当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記入力画像内での位置を特定する特定部と、
前記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、
として機能させるための、プログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2011−227649(P2011−227649A)
【公開日】平成23年11月10日(2011.11.10)
【国際特許分類】
【出願番号】特願2010−95877(P2010−95877)
【出願日】平成22年4月19日(2010.4.19)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】