画像処理システム、画像処理装置、画像処理方法及びプログラム

【課題】複数人によるコミュニケーションにおいて、視線方向が異なるユーザが指し示した場所を正確に又は容易に認識することを可能とすること。
【解決手段】他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第１の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の前記画像内での位置を表す位置データ、を受信する通信部と、実空間を撮影した入力画像を取得する入力画像取得部と、取得される前記入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成する特徴量生成部と、前記第１の特徴量と前記第２の特徴量とを照合し、当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記入力画像内での位置を特定する特定部と、特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、を備える画像処理装置を提供する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理システム、画像処理装置、画像処理方法及びプログラムに関する。
【背景技術】
【０００２】
複数人の人間同士のコミュニケーションにおいて、視界に映る何らかの場所（例えば話題の対象となっている人物又は物体などが存在する場所）についての認識を共有しようとする場合、その場所を指で指し示すことがよく行われる。しかし、対象の場所に直接指を触れることができるようなケースを除いて、指示者がどの場所を指し示しているのかを聞き手が正しく認識できない場合は少なくない。この場合、対象の場所を言葉で表現することができるときには、指差しと共に言葉でその場所を表現することで、認識の共有はより容易となる。しかし、言葉で表現することの難しい場所については、このような複合的なやり方は通用しない。また、例えば、会議のような場面においては、レーザポインタを用いて出席者が認識を共有すべき場所を指し示すことも行われる。しかし、実世界の一般的な場面において、ユーザがレーザポインタを常に所持しているわけではなく、仮にレーザポインタを所持していてもこれを濫用することは危険である。
【０００３】
ところで、撮像画像に映るユーザの手指を検出し、検出された手指の形状、位置又はジェスチャに基づいて電子機器を操作しようとする技術が存在する。例えば、下記特許文献１は、撮像画像に映る腕の中心軸に基づいて設定される走査線に沿って腕の幅を走査することにより、高い精度でユーザの手指の形状等を検出することのできる技術を開示している。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００５−６３０９１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、撮像画像に映るユーザの手指を検出する従来の手法は、複数人の人間同士のコミュニケーションに直接的に応用し得るものではなかった。その主な理由は、ユーザ間の視線方向の違いである。指示者が対象の場所を指で指し示したとしても、その１つの指を見る指示者の視線と聞き手の視線とは１点で交わる２本の直線となり、異ならざるを得ない。そのため、例えば、聞き手の視線方向に向けた撮像装置から取得される画像内で指示者の指を高い精度で検出したとしても、その指が重なる場所はもはや指示者が伝えようとした場所ではない。
【０００６】
そこで、本発明は、複数人によるコミュニケーションにおいて、視線方向が異なるユーザが指し示した場所を正確に又は容易に認識することを可能とする、新規かつ改良された画像処理システム、画像処理装置、画像処理方法及びプログラムを提供しようとするものである。
【課題を解決するための手段】
【０００７】
本発明のある実施形態によれば、実空間を撮影した入力画像を取得する入力画像取得部、をそれぞれ備える２つの画像処理装置を含む画像処理システムであって、第１の画像処理装置は、上記第１の画像処理装置において取得される第１の入力画像に映る指示子であって、実空間内の場所を指し示すために用いられる上記指示子を認識する画像認識部と、上記第１の入力画像内に設定される複数の特徴点の座標を含む第１の特徴量を生成する第１の特徴量生成部と、上記第１の入力画像について生成される上記第１の特徴量、及び上記画像認識部により認識される上記指示子の位置を表す位置データを送信する第１の通信部と、をさらに備え、第２の画像処理装置は、上記第２の画像処理装置において取得される第２の入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成する第２の特徴量生成部と、上記第１の特徴量及び上記位置データを受信する第２の通信部と、上記第１の特徴量と上記第２の特徴量とを照合し、当該照合の結果及び上記位置データに基づいて、上記指示子により指し示されている実空間内の場所の上記第２の入力画像内での位置を特定する特定部と、上記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、をさらに備える、画像処理システムが提供される。
【０００８】
また、上記第１の画像処理装置は、ユーザの指を上記指示子として認識するための指画像を記憶している記憶部、をさらに備え、上記画像認識部は、上記第１の入力画像に映る上記指画像を検出することにより、上記指示子を認識してもよい。
【０００９】
また、上記第１の特徴量は、複数の視線方向ごとに上記第１の入力画像を回転させた場合に上記第１の入力画像内にそれぞれ設定される特徴点の座標のセットを複数含み、上記特定部は、上記第１の特徴量に含まれる特徴点の座標のセットの各々と上記第２の特徴量とを照合することにより、上記複数の視線方向のうちのいずれか１つを選択してもよい。
【００１０】
また、上記特定部は、複数の視線方向ごとに上記第１の入力画像を回転させた場合に上記第１の入力画像内にそれぞれ設定される特徴点の座標のセットを上記第１の特徴量から複数生成し、生成した特徴点の座標のセットの各々と上記第２の特徴量とを照合することにより、上記複数の視線方向のうちのいずれか１つを選択してもよい。
【００１１】
また、上記特定部は、選択した視線方向と上記位置データとに基づいて、上記指示子により指し示されている実空間内の場所の上記第２の入力画像内での位置を特定してもよい。
【００１２】
また、上記出力画像生成部は、上記特定部により特定される位置を囲む図形を上記標識として表示する上記出力画像を生成してもよい。
【００１３】
また、本発明の別の実施形態によれば、他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第１の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の上記画像内での位置を表す位置データ、を受信する通信部と、実空間を撮影した入力画像を取得する入力画像取得部と、上記入力画像取得部により取得される上記入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成する特徴量生成部と、上記第１の特徴量と上記第２の特徴量とを照合し、当該照合の結果及び上記位置データに基づいて、上記指示子により指し示されている実空間内の場所の上記入力画像内での位置を特定する特定部と、上記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、を備える画像処理装置が提供される。
【００１４】
また、上記第１の特徴量は、複数の視線方向ごとに上記画像を回転させた場合に当該画像内にそれぞれ設定される特徴点の座標のセットを複数含み、上記特定部は、上記第１の特徴量に含まれる特徴点の座標のセットの各々と上記第２の特徴量とを照合することにより、上記複数の視線方向のうちのいずれか１つを選択してもよい。
【００１５】
また、上記特定部は、複数の視線方向ごとに上記画像を回転させた場合に当該画像内にそれぞれ設定される特徴点の座標のセットを上記第１の特徴量から複数生成し、生成した特徴点の座標のセットの各々と上記第２の特徴量とを照合することにより、上記複数の視線方向のうちのいずれか１つを選択してもよい。
【００１６】
また、上記特定部は、選択した視線方向と上記位置データとに基づいて、上記指示子により指し示されている実空間内の場所の上記入力画像内での位置を特定してもよい。
【００１７】
また、上記出力画像生成部は、上記特定部により特定される位置を囲む図形を上記標識として表示する上記出力画像を生成してもよい。
【００１８】
また、本発明の別の実施形態によれば、実空間を撮影した入力画像をそれぞれ取得する２つの画像処理装置により実行される画像処理方法であって、第１の画像処理装置において、第１の入力画像を取得するステップと、取得した上記第１の入力画像に映る指示子であって、実空間内の場所を指し示すために用いられる上記指示子を認識するステップと、上記第１の入力画像内に設定される複数の特徴点の座標を含む第１の特徴量を生成するステップと、上記第１の入力画像について生成した上記第１の特徴量、及び認識した上記指示子の位置を表す位置データを送信するステップと、第２の画像処理装置において、上記第１の特徴量及び上記位置データを受信するステップと、第２の入力画像を取得するステップと、取得した上記第２の入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成するステップと、上記第１の特徴量と上記第２の特徴量とを照合するステップと、当該照合の結果及び上記位置データに基づいて、上記指示子により指し示されている実空間内の場所の上記第２の入力画像内での位置を特定するステップと、特定した位置を指し示す標識を表示する出力画像を生成するステップと、を含む、画像処理方法が提供される。
【００１９】
また、本発明の別の実施形態によれば、画像処理装置により実行される画像処理方法であって、他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第１の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の上記画像内での位置を表す位置データ、を受信するステップと、実空間を撮影した入力画像を取得するステップと、取得した上記入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成するステップと、上記第１の特徴量と上記第２の特徴量とを照合するステップと、当該照合の結果及び上記位置データに基づいて、上記指示子により指し示されている実空間内の場所の上記入力画像内での位置を特定するステップと、特定した位置を指し示す標識を表示する出力画像を生成するステップと、を含む、画像処理方法が提供される。
【００２０】
また、本発明の別の実施形態によれば、画像処理装置を制御するコンピュータを、他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第１の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の上記画像内での位置を表す位置データ、を受信する通信部と、実空間を撮影した入力画像を取得する入力画像取得部と、上記入力画像取得部により取得される上記入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成する特徴量生成部と、上記第１の特徴量と上記第２の特徴量とを照合し、当該照合の結果及び上記位置データに基づいて、上記指示子により指し示されている実空間内の場所の上記入力画像内での位置を特定する特定部と、上記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、として機能させるための、プログラムが提供される。
【発明の効果】
【００２１】
以上説明したように、本発明に係る画像処理システム、画像処理装置、画像処理方法及びプログラムによれば、複数人によるコミュニケーションにおいて、視線方向が異なるユーザが指し示した場所を正確に又は容易に認識することを可能とすることができる。
【図面の簡単な説明】
【００２２】
【図１】一実施形態に係る画像処理システムの概要を示す模式図である。
【図２】一実施形態に係る画像処理装置の構成の一例を示すブロック図である。
【図３】一実施形態に係る入力画像の第１の例を示す説明図である。
【図４Ａ】一実施形態に係る指示子の一例を示す模式図である。
【図４Ｂ】一実施形態に係る指示子の他の例を示す模式図である。
【図５】一実施形態において第１の入力画像内に設定される特徴点について説明するための説明図である
【図６】一実施形態に係る入力画像の第２の例を示す説明図である。
【図７】一実施形態において第２の入力画像内に設定される特徴点について説明するための説明図である
【図８】一実施形態に係る特徴量の照合処理について説明するための説明図である。
【図９】一実施形態において生成される出力画像の一例について説明するための説明図である
【図１０】一実施形態に係る指示側の画像処理の流れの一例を示すフローチャートである。
【図１１】一実施形態に係る被指示側の画像処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【００２３】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付すことにより重複説明を省略する。
【００２４】
また、以下の順序にしたがって当該「発明を実施するための形態」を説明する。
１．一実施形態に係る画像処理システムの概要
２．一実施形態に係る画像処理装置の構成例
２−１．全体的な構成
２−２．指示側
２−３．被指示側
３．一実施形態に係る画像処理の流れ
３−１．指示側
３−２．被指示側
４．まとめ
【００２５】
＜１．一実施形態に係る画像処理システムの概要＞
まず、図１を用いて、本発明の一実施形態に係る画像処理システムの概要を説明する。図１は、本発明の一実施形態に係る画像処理システム１の概要を示す模式図である。図１を参照すると、画像処理システム１は、ユーザＵａが使用する画像処理装置１００ａ、及びユーザＵｂが使用する画像処理装置１００ｂを含む。
【００２６】
画像処理装置１００ａは、例えば、ユーザＵａの頭部に装着される撮像装置１０２ａ及びヘッドマウントディスプレイ（ＨＭＤ：Head Mounted Display）１０４ａと接続される。撮像装置１０２ａは、ユーザＵａの視線方向を向いて実空間３を撮像し、一連の入力画像を画像処理装置１００ａへ出力する。ＨＭＤ１０４ａは、画像処理装置１００ａから入力される画像をユーザＵａに表示する。ＨＭＤ１０４ａにより表示される画像は、画像処理装置１００ａにより生成される出力画像である。ＨＭＤ１０４ａは、シースルー型のディスプレイであってもよく、又は非シースルー型のディスプレイであってもよい。
【００２７】
画像処理装置１００ｂは、例えば、ユーザＵｂの頭部に装着される撮像装置１０２ｂ及びＨＭＤ１０４ｂと接続される。撮像装置１０２ｂは、ユーザＵｂの視線方向を向いて実空間３を撮像し、一連の入力画像を画像処理装置１００ｂへ出力する。ＨＭＤ１０４ｂは、画像処理装置１００ｂから入力される画像をユーザＵｂに表示する。ＨＭＤ１０４ｂにより表示される画像は、画像処理装置１００ｂにより生成される出力画像である。ＨＭＤ１０４ｂもまた、シースルー型のディスプレイであってもよく、又は非シースルー型のディスプレイであってもよい。
【００２８】
画像処理装置１００ａ及び１００ｂは、有線又は無線による通信接続を介して、互いに通信することができる。画像処理装置１００ａと画像処理装置１００ｂとの間の通信は、例えば、Ｐ２Ｐ（Peer to Peer）方式により直接行われてもよく、ルータ又はサーバなどの他の装置（図示せず）を介して間接的に行われてもよい。
【００２９】
図１の例において、ユーザＵａ及びＵｂは、共に実空間３の方向を向いている。そして、ユーザＵａは、例えば話題の対象となっている人物又は物体などが存在する場所を指で指し示している。このとき、撮像装置１０２ａから画像処理装置１００ａに入力される入力画像においては、ユーザＵａの指はまさにその対象の場所を指し示しているであろう。しかし、撮像装置１０２ｂから画像処理装置１００ｂに入力される入力画像においては、ユーザＵａの指は対象の場所からずれている可能性がある。そこで、本実施形態に係る画像処理システム１において、以下に詳しく説明する仕組みにより、ユーザＵａが指し示した対象の場所をユーザＵｂが正確かつ容易に認識することを可能とする。
【００３０】
なお、画像処理装置１００ａ及び１００ｂは、図１に示した例に限定されない。例えば、カメラ付き携帯端末を用いて画像処理装置１００ａ又は１００ｂが実現されてもよい。その場合には、カメラ付き携帯端末のカメラが実空間を撮像し、端末により画像処理が行われた後、端末の画面上に出力画像が表示される。また、画像処理装置１００ａ又は１００ｂは、ＰＣ（Personal Computer）又はゲーム端末などのその他の種類の装置であってもよい。
【００３１】
本明細書のこれ以降の説明において、画像処理装置１００ａ及び１００ｂを互いに区別する必要がない場合には、符号の末尾のアルファベットを省略することにより、画像処理装置１００ａ及び１００ｂを画像処理装置１００と総称する。また、撮像装置１０２ａ及び１０２ｂ（撮像装置１０２）、ＨＭＤ１０４ａ及び１０４ｂ（ＨＭＤ１０４）、並びにその他の要素についても同様とする。また、画像処理システム１に参加可能な画像処理装置１００の数は、図１の例に限定されず、３つ以上であってもよい。即ち、例えば、第３のユーザが使用する第３の画像処理装置１００が、画像処理システム１にさらに含まれてもよい。
【００３２】
＜２．一実施形態に係る画像処理装置の構成例＞
［２−１．全体的な構成］
次に、図２〜図９を用いて、本実施形態に係る画像処理装置１００の構成を説明する。図２は、本実施形態に係る画像処理装置１００の構成の一例を示すブロック図である。図２を参照すると、画像処理装置１００は、入力画像取得部１１０、記憶部１２０、画像認識部１３０、特徴量生成部１４０、通信部１５０、特定部１６０、出力画像生成部１７０及び表示部１８０を備える。
【００３３】
なお、画像処理装置１００が対象の場所を指し示す指示者ユーザの側（例えば図１におけるユーザＵａ。以下、指示側という）として動作する場合、図２に示した画像処理装置１００の構成要素のうち、主に入力画像取得部１１０、記憶部１２０、画像認識部１３０、特徴量生成部１４０及び通信部１５０が画像処理に関与する。一方、画像処理装置１００が対象の場所を指し示される聞き手ユーザの側（例えば図１におけるユーザＵｂ。以下、被指示側という）として動作する場合、図２に示した画像処理装置１００の構成要素のうち、主に入力画像取得部１１０、特徴量生成部１４０、通信部１５０、特定部１６０、出力画像生成部１７０及び表示部１８０が画像処理に関与する。
【００３４】
本節では、画像処理装置１００が指示側の構成及び被指示側の構成を共に備える例について説明する。しかしながら、かかる例に限定されず、指示側の構成及び被指示側の構成のいずれか一方のみを備える画像処理装置が提供されてもよい。
【００３５】
［２−２．指示側］
（入力画像取得部）
入力画像取得部１１０は、撮像装置１０２を用いて撮像される一連の入力画像を取得する。図３は、入力画像取得部１１０により取得される一例としての入力画像ＩＭ０１を示している。入力画像ＩＭ０１には、実空間３に存在する様々な対象物が映っている。図３の例では、実空間３は駅の構内の空間であり、店舗Ｔ１、案内板Ｔ２、看板Ｔ３及び人物Ｔ４などが入力画像ＩＭ０１に映っている。さらに、入力画像ＩＭ０１には、指示子Ｍａが映っている。ここでは、指示子ＭａはユーザＵａの指である。入力画像取得部１１０は、取得したこのような入力画像を、画像認識部１３０及び特徴量生成部１４０へ順次出力する。
【００３６】
（記憶部）
記憶部１２０は、ハードディスク又は半導体メモリなどの記憶媒体を用いて、入力画像に映る指示子を認識するための画像認識に用いられる指示子画像を予め記憶する。本明細書において、指示子とは、実空間内の任意の場所をユーザが指し示すために用いる物体又は人体の一部である。
【００３７】
図４Ａ及び図４Ｂは、本実施形態に係る指示子の一例をそれぞれ示す模式図である。図４Ａの例では、指示子Ｍ１は、ユーザの指（手指）である。記憶部１２０は、例えば、このようなユーザの指を映した画像を指示子画像として予め記憶する。記憶部１２０は、例えば、異なる複数の方向からユーザの指を映した一群の画像を指示子画像として記憶してもよい。
【００３８】
図４Ｂの例では、指示子Ｍ２は、ユーザの指に装着される立方体状のマーカである。マーカの各面の中央部には空洞が開けられており、ユーザは、その空洞に指を挿入してマーカを動かすことができる。この場合、記憶部１２０は、マーカを映した画像を指示子画像として予め記憶する。その代わりに、例えば、マーカと当該マーカに挿入された指とを含む全体を指示子とし、それらを映した画像が指示子画像として記憶されてもよい。
【００３９】
なお、指示子は、図４Ａ及び図４Ｂの例に限定されず、例えば、ユーザの足又はユーザに把持される棒状の物体など、実世界に存在する人体の一部又は任意の物体であってよい。記憶部１２０は、画像認識部１３０からの要求に応じて、かかる指示子画像を画像認識部１３０へ出力する。
【００４０】
（画像認識部）
画像認識部１３０は、入力画像取得部１１０により取得される入力画像に映る指示子を認識する。画像認識部１３０は、例えば、記憶部１２０により記憶されている指示子画像と入力画像とを公知のパターンマッチングの手法を用いて照合することにより、入力画像に映る指示子を認識してもよい。その代わりに、画像認識部１３０は、指示子画像を用いることなく、例えば上記特許文献１に記載された手法を用いて入力画像に映る指示子としてのユーザの手指を認識してもよい。
【００４１】
画像認識部１３０は、入力画像に指示子が映っていることを認識すると、さらに指示子が指し示している場所の入力画像内における位置を判定する。例えば、画像認識部１３０は、図４Ａに例示された指示子Ｍ１における人差し指の先端の位置を、指示子Ｍ１が指し示している場所の入力画像内における位置であると判定してもよい。また、例えば、画像認識部１３０は、図４Ｂに例示された指示子Ｍ２におけるマーカの重心の位置を、指示子Ｍ２が指し示している場所の入力画像内における位置であると判定してもよい。
【００４２】
画像認識部１３０は、上述した手法により認識した指示子の位置（指示子が指し示している位置の入力画像内の座標）を表す位置データを、ユーザからの要求に応じて、通信部１５０へ出力する。ユーザからの要求は、例えば、指示子を用いたジェスチャにより画像処理装置１００に入力され得る。例えば、画像認識部１３０は、入力画像内で指示子のサイズの変化を監視する。そして、例えば、一定の閾値以上のサイズを有する指示子が継続して検出されている場合において、当該指示子のサイズが一時的に小さくなったときに、画像認識部１３０は、ユーザが何らかの場所をタップしたものと認識することができる。このようなタップジェスチャは、ユーザが指し示している場所についての情報の転送の要求を表すユーザ入力の一例である。このほか、画像認識部１３０は、例えば、指示子の先端が円軌道を描くジェスチャ、又は特定の手指の形状などを情報転送の要求を表すユーザ入力として扱ってもよい。また、画像認識部１３０による画像認識の代わりに、情報処理装置１００に設けられるボタン又はスイッチなどのユーザインタフェースを介して、情報転送の要求が入力されてもよい。
【００４３】
画像認識部１３０は、ユーザからの要求を検知すると、指示子の位置を表す位置データを通信部１５０へ出力すると共に、特徴量生成部１４０に入力画像についての特徴量の生成を要求する。
【００４４】
（特徴量生成部）
特徴量生成部１４０は、画像認識部１３０からの要求に応じて、入力画像取得部１１０により取得される入力画像内に複数の特徴点を設定し、設定した特徴点の座標を含む特徴量を生成する。特徴量生成部１４０は、例えば、公知のＨａｒｒｉｓ作用素若しくはＭｏｒａｖｅｃ作用素を用いる手法、又はＦＡＳＴ特徴検出法（FAST feature detection）などの任意の手法に従って、入力画像内に特徴点を設定してよい。特徴量生成部１４０が生成する特徴量には、各特徴点の座標に加えて、特徴点ごとの輝度、コントラスト及び方向などの追加的なパラメータ値が含まれてもよい。特徴量として、例えば、David G. Loweによる“Distinctive Image Features from Scale-Invariant Keypoints”（the International Journal of Computer Vision, 2004）に記載された特有不変特徴量（distinctive invariant Features）を用いることにより、画像内のノイズ、大きさの変化、回転及び照明の変化などに対する画像処理の高いロバスト性が実現される。
【００４５】
図５は、本実施形態に係る特徴量生成部１４０により入力画像内に設定される特徴点について説明するための説明図である。図５を参照すると、図３に例示した入力画像ＩＭ０１内に、×印で示した多数の特徴点が設定されている。特徴点は、例えば、実空間３の内部の様々な物体のエッジ及びコーナー上に設定され得る。特徴量生成部１４０は、このような特徴点の入力画像内の座標値と、上述した追加的なパラメータ値とを１つのデータセットとして格納した特徴量を、通信部１５０へ出力する。
【００４６】
（通信部）
通信部１５０は、画像処理装置１００が他の装置と通信するための通信インタフェースとして動作する。例えば、通信部１５０は、画像認識部１３０により情報転送の要求を表すユーザ入力が検知されると、画像認識部１３０から入力される指示子の位置データと特徴量生成部１４０から入力される入力画像についての特徴量とを、他の画像処理装置１００へ送信する。
【００４７】
［２−３．被指示側］
（入力画像取得部）
画像処理装置１００が被指示側として動作する場合にも、入力画像取得部１１０は、指示側と同様に、撮像装置１０２を用いて撮像される一連の入力画像を取得する。そして、入力画像取得部１１０は、取得した入力画像を特徴量生成部１４０へ順次出力する。
【００４８】
図６は、入力画像取得部１１０により取得される他の例としての入力画像ＩＭ０２を示している。入力画像ＩＭ０２には、図３に例示した入力画像ＩＭ０１と同様、実空間３に存在する店舗Ｔ１、案内板Ｔ２、看板Ｔ３及び人物Ｔ４などの様々な対象物が映っている。さらに、入力画像ＩＭ０２には、ユーザＵａの指である指示子Ｍａが映っている。但し、視線方向の違いが原因となり、入力画像ＩＭ０２において、指示子Ｍａは、入力画像ＩＭ０１のように看板Ｔ３の上ではなく、人物Ｔ４の上に位置している。従って、単純に入力画像ＩＭ０２を見たユーザは、指示子Ｍａが実際にどの場所を指し示しているのかを正しく認識できない。
【００４９】
（通信部）
被指示側の通信部１５０は、指示側の装置から送信される上述した特徴量及び位置データを受信する。本明細書のこれ以降の説明では、指示側の通信部１５０により送信され被指示側の通信部１５０により受信される特徴量を第１の特徴量という。通信部１５０は、第１の特徴量及び位置データを受信すると、当該第１の特徴量及び位置データを特定部１６０へ出力すると共に、第１の特徴量と照合すべき入力画像についての第２の特徴量の生成を特徴量生成部１４０に要求する。
【００５０】
（特徴量生成部）
被指示側の特徴量生成部１４０は、通信部１５０からの要求に応じて、入力画像取得部１１０により取得される入力画像について生成した特徴量を、第１の特徴量と照合すべき第２の特徴量として特定部１６０へ出力する。第２の特徴量は、第１の特徴量と同様に、入力画像内に設定される複数の特徴点の座標を含む。さらに、第２の特徴量もまた特徴点ごとの輝度、コントラスト及び方向などの追加的なパラメータ値を含んでよい。
【００５１】
（特定部）
特定部１６０は、通信部１５０から入力される第１の特徴量と特徴量生成部１４０から入力される第２の特徴量とを照合する。そして、特定部１６０は、当該照合の結果及び通信部１５０から入力される位置データに基づいて、指示子により指し示されている実空間内の場所の入力画像内での位置を特定する。
【００５２】
図７は、図６に例示した入力画像ＩＭ０２内に設定される特徴点について説明するための説明図である。図７を参照すると、入力画像ＩＭ０２内に、×印で示した多数の特徴点が設定されている。入力画像ＩＭ０２における各特徴点の座標値は、入力画像ＩＭ０１における対応する特徴点の座標値と異なる。座標値の相違は、視線方向の違いを原因とする。そこで、特定部１６０は、第１の特徴量に含まれる座標値を複数の視線方向ごとにそれぞれ回転させた各特徴点座標のセットを照合のために利用する。特定部１６０は、特徴点座標のセットの各々と第２の特徴量とを照合し、特徴量が最も適合した特徴点座標のセットに対応する視線方向を選択する。そして、特定部１６０は、選択した視線方向とその視線方向に応じた指示子の位置とに基づいて、指示子により指し示されている実空間内の場所の被指示側の入力画像内での位置を特定する。
【００５３】
図８は、本実施形態に係る特定部１６０による特徴量の照合処理について説明するための説明図である。図８の中央には、第１の特徴量に含まれる特徴点座標のセットＦＳ０及び指示子の位置Ｐ０が示されている。特定部１６０は、このような特徴点座標のセットＦＳ０及び指示子の位置Ｐ０の各座標値をアフィン変換又は３Ｄ回転することにより、複数の視線方向にそれぞれ対応する複数の特徴点座標のセット及び複数の位置データを生成する。図８の例では、視線方向α１〜α８にそれぞれ対応する８個の特徴点座標のセットＦＳ１〜ＦＳ８及び指示子の位置Ｐ１〜Ｐ８が示されている。そして、特定部１６０は、例えば、基本的な特徴点座標のセットＦＳ０及び特徴点座標のセットＦＳ１〜ＦＳ８の各々と第２の特徴量とを照合する。このとき、例えば、特徴点座標のセットＦＳ４が第２の特徴量に最も小さな誤差で適合した場合には、特定部１６０は、被指示側の入力画像内の位置Ｐ４に対応する場所を指示子が指し示していると特定する。特定部１６０による特徴量の照合は、例えば、上述した“Distinctive Image Features from Scale-Invariant Keypoints”に記載されたＳＩＦＴ（Scale Invariant Feature Transform）法に従って行われてもよい。また、特定部１６０による特徴量の照合は、例えば、Mustafa Oezuysalらによる“Fast Keypoint Recognition using Random Ferns”（IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.32, Nr.3, pp.448-461, March 2010）に記載されたRandom Ferns法に従って行われてもよい。
【００５４】
なお、指示側の入力画像についての特徴量から視線方向ごとの特徴点座標のセットを生成する処理は、指示側の画像処理装置１００の特徴量生成部１４０により行われてもよい。その場合には、被指示側の通信部１５０が受信する第１の特徴量は、視線方向ごとの複数の特徴点座標のセットと対応する指示子の位置データとを含む。
【００５５】
特定部１６０は、指示子により指し示されている場所の被指示側の入力画像内での位置をこのように特定し、特定した当該位置の座標値を出力画像生成部１７０へ出力する。
【００５６】
（出力画像生成部）
出力画像生成部１７０は、特定部１６０により特定される位置を指し示す標識を表示する出力画像を生成する。例えば、本実施形態において、出力画像生成部１７０は、特定部１６０により特定される位置を囲む図形を上記標識として表示する出力画像を生成し、生成した出力画像を表示部１８０へ出力する。その代わりに、上記標識は、特定部１６０により特定される位置を指す矢印などであってもよい。また、特定部１６０により特定される位置の周囲の一定のサイズの領域と他の領域との間に色又は輝度の差を設けて、その差を上記標識としてもよい。
【００５７】
（表示部）
表示部１８０は、出力画像生成部１７０により生成される出力画像を、ＨＭＤ１０４を用いてユーザに向けて表示する。
【００５８】
（出力画像の例）
図９は、出力画像生成部１７０により生成される出力画像の一例について説明するための説明図である。図９を参照すると、一例としての出力画像ＩＭ１１が示されている。出力画像ＩＭ１１において、指示子Ｍａは人物Ｔ４の上に位置している一方、看板Ｔ３の上に標識ＩＮＤが表示されている。標識ＩＮＤが表示される位置は、図８を用いて説明した処理により特定部１６０が特定した位置である。このような出力画像ＩＭ１１を参照することにより、被指示側のユーザ（例えば図１のユーザＵｂ）は、指示側のユーザ（例えば図１のユーザＵａ）が指示子Ｍａにより看板Ｔ３を指し示していることを容易に認識することができる。
【００５９】
なお、例えば、ＨＭＤ１０４がシースルー型である場合には、出力画像生成部１７０は、標識ＩＮＤのみの画像を出力画像として生成する。一方、ＨＭＤ１０４が非シースルー型である場合には、出力画像生成部１６０は、入力画像に標識ＩＮＤを重畳させた出力画像を生成する。
【００６０】
＜３．一実施形態に係る画像処理の流れ＞
次に、図１０及び図１１を用いて、本実施形態に係る画像処理装置１００による画像処理の流れを説明する。図１０は、画像処理装置１００による指示側の画像処理の流れの一例を示すフローチャートである。図１１は、画像処理装置１００による被指示側の画像処理の流れの一例を示すフローチャートである。
【００６１】
［３−１．指示側］
図１０は、指示側の画像処理装置１００において一連の入力画像の各フレームについて行われる画像処理の流れの一例を示している。まず、入力画像取得部１１０は、撮像装置１０２から入力画像を取得する（ステップＳ１０２）。次に、画像認識部１３０は、例えば記憶部１２０により記憶されている指示子画像と入力画像とを照合することにより、入力画像内の指示子を認識する（ステップＳ１０４）。次に、画像認識部１３０は、例えば指示子を用いたジェスチャにより表されるユーザ入力を認識する。ここで、情報転送を要求するユーザ入力が検出された場合には、処理はステップＳ１０８へ進む。一方、ユーザ入力が検出されない場合には、その後の処理はスキップされる（ステップＳ１０６）。
【００６２】
ステップＳ１０６において画像認識部１３０が情報転送を要求するユーザ入力を検出すると、特徴量生成部１４０は、入力画像内に複数の特徴点を設定し、第１の特徴量を生成する（ステップＳ１０８）。そして、通信部１５０は、画像認識部１３０により認識された指示子の位置を表す位置データと特徴量生成部１４０により生成された第１の特徴量とを送信する（ステップＳ１１０）。
【００６３】
［３−２．被指示側］
図１１に例示する画像処理は、典型的には、指示側の画像処理装置１００からの上述した第１の特徴量及び位置データの受信をきっかけとして、被指示側の画像処理装置１００において行われる。
【００６４】
まず、通信部１５０は、指示側の画像処理装置１００から送信された第１の特徴量及び位置データを受信する（ステップＳ２０２）。次に、特徴量生成部１４０は、入力画像取得部１１０により取得される入力画像内に複数の特徴点を設定し、第２の特徴量を生成する（ステップＳ２０４）。次に、特定部１６０は、第１の特徴量から、複数の視線方向ごとに特徴点の座標値をそれぞれ変換した複数の特徴点座標のセットを生成する（ステップＳ２０６）。そして、特定部１６０は、第１の特徴量から生成した複数の特徴点座標のセットの各々と第２の特徴量とを照合する（ステップＳ２０８）。ここで、いずれの特徴点座標のセットも第２の特徴量と十分に適合しない（例えば誤差の総和が所定の閾値を下回らない）場合には、指示子により指し示されている場所を特定できないため、その後の処理はスキップされる。一方、いずれかの特徴点座標のセットが第２の特徴量と適合する場合には、処理はステップＳ２１２へ進む（ステップＳ２１０）。
【００６５】
次に、特定部１６０は、第２の特徴量に最もよく適合した特徴点座標のセットに対応する視線方向に応じて、指示子により指し示されている場所の被指示側の入力画像内の位置を特定する（ステップＳ２１２）。次に、出力画像生成部１７０は、特定部１６０により特定された位置を指し示す標識を表示する出力画像を生成するステップ（ステップＳ２１４）。そして、表示部１８０は、出力画像生成部１７０により生成された出力画像をＨＭＤ１０４に表示する（ステップＳ２１６）。
【００６６】
なお、図１１に例示した画像処理のうちステップＳ２０４〜Ｓ２１６は、例えば、第１の特徴量及び位置データが受信された後、所定の期間にわたって各入力画像について繰返し実行され得る。その際、前のフレームから入力画像の内容が変化していない（即ち、被指示側のユーザの視線方向が変化していない）フレームについては、特徴量の照合処理が省略されてもよい。この場合、前のフレームにおいて特定された位置を指し示す標識が出力画像により表示される。
【００６７】
＜４．まとめ＞
ここまで、図１〜図１１を用いて、本発明の一実施形態に係る画像処理システム１及び画像処理装置１００について説明した。本実施形態によれば、指示側の第１の画像処理装置１００が、入力画像に映る指示子を認識すると共に、第１の入力画像についての特徴点座標を含む第１の特徴量を生成し、生成した第１の特徴量と指示子の位置を表す位置データとを送信する。そして、被指示側の第２の画像処理装置１００が、第２の入力画像についての特徴点座標を含む第２の特徴量を生成し、第１の画像処理装置１００から受信される第１の特徴量と当該第２の特徴量とを照合する。かかる照合の結果に応じて、第２の画像処理装置１００は、指示子により指し示されている実空間内の場所を第２の入力画像内で特定し、その場所を指し示す標識を出力画像内に表示する。それにより、第１の画像処理装置１００のユーザが指し示した場所を、第２の画像処理装置１００のユーザが正確かつ容易に認識することが可能となる。
【００６８】
また、本実施形態において、第１の特徴量と第２の特徴量との照合は、一方の特徴量に含まれる特徴点座標のセットを複数の視線方向ごとにそれぞれ回転させて生成した複数の特徴点座標のセットの各々と、他方の特徴量とをマッチングさせる形で行われる。そして、最もよく適合した特徴点座標のセットに応じて、複数の視線方向のうちのいずれか１つが選択される。ここで選択される視線方向は、ユーザ間の視線方向の相対的なズレに相当する。そのため、当該選択される視線方向に応じて指示子が指し示す場所を特定することにより、視線方向が異なるユーザが指し示した場所を正確に認識することができる。
【００６９】
なお、本明細書では、指示子が指し示す場所を囲む図形を標識として表示する例について説明した。しかしながら、例えば、さらにパターンマッチングに基づくオブジェクト認識技術を応用し、指示子が指し示すオブジェクトの形状を認識した上で、オブジェクトの形状に沿った枠などを出力画像において表示してもよい。また、認識したオブジェクトの名称及び属性などの追加的な情報を出力画像において表示してもよい。
【００７０】
本明細書において説明した画像処理装置１００による一連の処理は、典型的には、ソフトウェアを用いて実現される。一連の処理を実現するソフトウェアを構成するプログラムは、例えば、画像処理装置１００の内部又は外部に設けられる記憶媒体に予め格納される。そして、各プログラムは、例えば、実行時に画像処理装置１００のＲＡＭ（Random Access Memory）に読み込まれ、ＣＰＵ（Central Processing Unit）などのプロセッサにより実行される。
【００７１】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【００７２】
１００画像処理装置
１０２撮像装置
１０４ＨＭＤ
１１０入力画像取得部
１２０記憶部
１３０画像認識部
１４０特徴量生成部
１５０通信部
１６０特定部
１７０出力画像生成部
１８０表示部

【特許請求の範囲】
【請求項１】
実空間を撮影した入力画像を取得する入力画像取得部、をそれぞれ備える２つの画像処理装置を含む画像処理システムであって、
第１の画像処理装置は、
前記第１の画像処理装置において取得される第１の入力画像に映る指示子であって、実空間内の場所を指し示すために用いられる前記指示子を認識する画像認識部と、
前記第１の入力画像内に設定される複数の特徴点の座標を含む第１の特徴量を生成する第１の特徴量生成部と、
前記第１の入力画像について生成される前記第１の特徴量、及び前記画像認識部により認識される前記指示子の位置を表す位置データを送信する第１の通信部と、
をさらに備え、
第２の画像処理装置は、
前記第２の画像処理装置において取得される第２の入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成する第２の特徴量生成部と、
前記第１の特徴量及び前記位置データを受信する第２の通信部と、
前記第１の特徴量と前記第２の特徴量とを照合し、当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記第２の入力画像内での位置を特定する特定部と、
前記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、
をさらに備える、
画像処理システム。
【請求項２】
前記第１の画像処理装置は、ユーザの指を前記指示子として認識するための指画像を記憶している記憶部、をさらに備え、
前記画像認識部は、前記第１の入力画像に映る前記指画像を検出することにより、前記指示子を認識する、
請求項１に記載の画像処理システム。
【請求項３】
前記第１の特徴量は、複数の視線方向ごとに前記第１の入力画像を回転させた場合に前記第１の入力画像内にそれぞれ設定される特徴点の座標のセットを複数含み、
前記特定部は、前記第１の特徴量に含まれる特徴点の座標のセットの各々と前記第２の特徴量とを照合することにより、前記複数の視線方向のうちのいずれか１つを選択する、
請求項２に記載の画像処理システム。
【請求項４】
前記特定部は、複数の視線方向ごとに前記第１の入力画像を回転させた場合に前記第１の入力画像内にそれぞれ設定される特徴点の座標のセットを前記第１の特徴量から複数生成し、生成した特徴点の座標のセットの各々と前記第２の特徴量とを照合することにより、前記複数の視線方向のうちのいずれか１つを選択する、請求項２に記載の画像処理システム。
【請求項５】
前記特定部は、選択した視線方向と前記位置データとに基づいて、前記指示子により指し示されている実空間内の場所の前記第２の入力画像内での位置を特定する、請求項３又は請求項４に記載の画像処理システム。
【請求項６】
前記出力画像生成部は、前記特定部により特定される位置を囲む図形を前記標識として表示する前記出力画像を生成する、請求項１に記載の画像処理システム。
【請求項７】
他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第１の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の前記画像内での位置を表す位置データ、を受信する通信部と、
実空間を撮影した入力画像を取得する入力画像取得部と、
前記入力画像取得部により取得される前記入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成する特徴量生成部と、
前記第１の特徴量と前記第２の特徴量とを照合し、当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記入力画像内での位置を特定する特定部と、
前記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、
を備える画像処理装置。
【請求項８】
前記第１の特徴量は、複数の視線方向ごとに前記画像を回転させた場合に当該画像内にそれぞれ設定される特徴点の座標のセットを複数含み、
前記特定部は、前記第１の特徴量に含まれる特徴点の座標のセットの各々と前記第２の特徴量とを照合することにより、前記複数の視線方向のうちのいずれか１つを選択する、
請求項７に記載の画像処理装置。
【請求項９】
前記特定部は、複数の視線方向ごとに前記画像を回転させた場合に当該画像内にそれぞれ設定される特徴点の座標のセットを前記第１の特徴量から複数生成し、生成した特徴点の座標のセットの各々と前記第２の特徴量とを照合することにより、前記複数の視線方向のうちのいずれか１つを選択する、請求項７に記載の画像処理装置。
【請求項１０】
前記特定部は、選択した視線方向と前記位置データとに基づいて、前記指示子により指し示されている実空間内の場所の前記入力画像内での位置を特定する、請求項８又は請求項９に記載の画像処理装置。
【請求項１１】
前記出力画像生成部は、前記特定部により特定される位置を囲む図形を前記標識として表示する前記出力画像を生成する、請求項７に記載の画像処理装置。
【請求項１２】
実空間を撮影した入力画像をそれぞれ取得する２つの画像処理装置により実行される画像処理方法であって、
第１の画像処理装置において、
第１の入力画像を取得するステップと、
取得した前記第１の入力画像に映る指示子であって、実空間内の場所を指し示すために用いられる前記指示子を認識するステップと、
前記第１の入力画像内に設定される複数の特徴点の座標を含む第１の特徴量を生成するステップと、
前記第１の入力画像について生成した前記第１の特徴量、及び認識した前記指示子の位置を表す位置データを送信するステップと、
第２の画像処理装置において、
前記第１の特徴量及び前記位置データを受信するステップと、
第２の入力画像を取得するステップと、
取得した前記第２の入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成するステップと、
前記第１の特徴量と前記第２の特徴量とを照合するステップと、
当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記第２の入力画像内での位置を特定するステップと、
特定した位置を指し示す標識を表示する出力画像を生成するステップと、
を含む、画像処理方法。
【請求項１３】
画像処理装置により実行される画像処理方法であって、
他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第１の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の前記画像内での位置を表す位置データ、を受信するステップと、
実空間を撮影した入力画像を取得するステップと、
取得した前記入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成するステップと、
前記第１の特徴量と前記第２の特徴量とを照合するステップと、
当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記入力画像内での位置を特定するステップと、
特定した位置を指し示す標識を表示する出力画像を生成するステップと、
を含む、画像処理方法。
【請求項１４】
画像処理装置を制御するコンピュータを、
他の画像処理装置において取得される画像内に設定される複数の特徴点の座標を含む第１の特徴量、及び、実空間内の場所を指し示すために用いられる指示子の前記画像内での位置を表す位置データ、を受信する通信部と、
実空間を撮影した入力画像を取得する入力画像取得部と、
前記入力画像取得部により取得される前記入力画像内に設定される複数の特徴点の座標を含む第２の特徴量を生成する特徴量生成部と、
前記第１の特徴量と前記第２の特徴量とを照合し、当該照合の結果及び前記位置データに基づいて、前記指示子により指し示されている実空間内の場所の前記入力画像内での位置を特定する特定部と、
前記特定部により特定される位置を指し示す標識を表示する出力画像を生成する出力画像生成部と、
として機能させるための、プログラム。

【図１】