映像表示装置

【課題】映像表示装置の用途の拡大に伴って必要となるより複雑な機能を簡単に利用できるようにするため、ユーザが直感的に行える新しい操作方式、ユーザの属性や状況を汲み先回りすることでユーザの負担を軽減する自律動作方式の実現が必要である。
【解決手段】映像表示装置は、１以上のユーザにより操作される映像表示装置であって、１以上のユーザを識別するユーザ識別手段１０２と、１以上のユーザの位置と動作を検出する手位置・形状検出手段１０４等と、映像を表示する画面１１１と、識別された１以上のユーザのうち、検出したユーザの位置と動作により、表示映像の視聴対象である１以上のユーザを判別する視聴状態判別手段１０７Ｄと、映像を表示するアプリケーションを制御するアプリケーション制御手段１０６とを備え、アプリケーション制御手段１０６は、１以上の視聴対象ユーザにそれぞれ対応し、映像を表示するアプリケーションを制御する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明はＴＶ等の映像表示装置であって、特に、従来のボタンによる入力だけでなく、ユーザの位置・向き、視線、ハンドジェスチャ、ユーザの手・腕の動き等のユーザセンシング情報に基づき制御される映像表示装置に関する。
【０００２】
また、本発明は映像表示装置により提供されるアプリケーション・サービスを複数人による操作を前提とし、そのような操作の組合せにより制御する方法に関する。
【０００３】
さらに、本発明は映像表示装置の大画面を活かした実物大表示や自然なインタラクションによりあたかもその場所にいるかのような臨場感を醸し出す方式に関する。
【背景技術】
【０００４】
大画面化・薄型化に伴い、ＴＶを単に番組や映画などを視聴するだけでなく、複数の情報の同時利用、大量の情報の一覧、実物大の臨場感を利用したコミュニケーション、常に情報を提示する掲示板、壁紙や額縁のような室内装飾、といったような新しい利用方法への可能性が広がりつつある。
【０００５】
また家庭内ネットワークの立ち上がりとともに、各機器で検知されたユーザの操作履歴や状態をネットワークを介して共有し総合的にユーザのコンテキスト・状況をセンシングすることも現実味を帯びてきている（例えば、特許文献１参照）。
【０００６】
このような状況下で従来の番組や映画を視聴するだけでなく、上記のような新しい利用方法で必要となるより複雑な機能を簡単に利用できるようにするため、直感的に行える新しい操作方式、ユーザセンシング情報に基づきユーザの状況や意図を汲み先回りすることでユーザの明示的な操作量・負担を軽減する自律動作方式の実現が必要となる。
【０００７】
また、リビングルームなどの家族の共有空間に設置されるＴＶの特徴を活かしつつ受身的に視聴するのみでない使い方に対応するために、複数人による操作を前提とした入力方式、操作体系を採用することが望まれる。
【特許文献１】特開２００４−２４６８５６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００８】
本発明は上記課題を解決するためのものであり、その目的とするところは、１以上の視聴対象ユーザにそれぞれ対応し、前記映像を表示するアプリケーションを制御することにより、複数人による直感的な操作が可能な映像表示装置を提供することである。
【０００９】
さらに、そのような映像表示装置により提供されるサービス・アプリケーションを制御する方法を提供することにある。
【課題を解決するための手段】
【００１０】
上記課題を解決するため、本発明の映像表示装置は、１以上のユーザにより操作される映像表示装置であって、１以上のユーザを識別する識別手段と、１以上のユーザの位置と動作を検出する検出手段と、映像を表示する表示手段と、識別された１以上のユーザのうち、検出したユーザの位置と動作により、表示映像の視聴対象である１以上のユーザを判別する判別手段と、映像を表示するアプリケーションを制御する制御手段とを備え、前記制御手段は、１以上の視聴対象ユーザにそれぞれ対応し、前記映像を表示するアプリケーションを制御することを特徴とする。
【００１１】
また、本発明の映像表示装置は、前記制御手段が、１以上の視聴対象ユーザの少なくとも視聴位置に対応し、視聴対象となる映像の表示位置及び又はサイズを修正することを特徴とする。
【００１２】
また、本発明の映像表示装置は、ユーザの属性情報を格納するユーザデータベースを備え、前記属性情報には、少なくとも身長情報を含む身体特徴情報が含まれ、前記制御手段は、１以上の視聴対象ユーザの前記属性情報にそれぞれ対応し、前記映像を表示するアプリケーションを制御することを特徴とする。
【００１３】
また、本発明の映像表示装置は、前記視聴対象のユーザが立位か座位かのそれぞれの視聴状態を管理する管理手段を備え、前記身体特徴情報には、立位での身長と目の高さ、座位での身長と目の高さ情報が含まれ、前記制御手段は、前記視聴対象ユーザの視聴状態と身体特徴情報に基づき、前記映像を表示するアプリケーションを制御することを特徴とする。
【００１４】
また、本発明の映像表示装置は、前記身体特徴情報には、利き目情報、視力情報が含まれ、前記制御手段は、前記視聴対象ユーザの前記利き目情報、視力情報に基づき、前記映像を表示するアプリケーションを制御することを特徴とする。
【発明の効果】
【００１５】
本発明の映像表示装置によれば、１以上の視聴対象ユーザにそれぞれ対応し、前記視聴対象ユーザの属性や状況に応じて、前記映像を表示するアプリケーションを制御することにより、前記視聴対象ユーザが複数のモーダルをシームレスに切り替えられるため、ＰＣと比較したときのＴＶの手軽さが担保された上で、従来の番組や映画の視聴にとどまらない複数人での多様なＴＶの楽しみ方の基盤が提供される。
【発明を実施するための最良の形態】
【００１６】
以下、添付の図面を用いて本発明に係る映像表示装置及び制御方法を実施するための最良の形態について説明する。
【００１７】
（実施の形態１）
図１は、本実施の形態における映像表示装置の外観と関連機器とのインタフェースの一例を説明する図である。映像表示装置は、放送番組を受信するためのアンテナのほか、一つまたは複数のユーザ検出カメラなどを含む。ユーザ検出カメラにより撮影された画像情報の解析により検出されるユーザの位置・動きにより映像表示装置を制御する。
【００１８】
ジェスチャ入力リモコンを保持したユーザの手の動きや同リモコン上に配置されたボタンの押下といったユーザのリモコン操作に基づき、映像表示装置を制御してもよい。
【００１９】
また、図１では示していないが、映像表示装置における複数のスピーカーは映像表示装置の上端と下端、左端と右端というように離れて配置されてもよい。
【００２０】
ユーザの属性や位置、アプリケーションの状態などに応じてスピーカー出力を制御すれば、ユーザにより大きな臨場感を与えることが可能である。
【００２１】
また、映像表示装置はその他の家電機器、例えばデジタルスチルカメラ、デジタルカムコーダなどと無線、ルータ／ハブなどを介してネットワーク接続されている。
【００２２】
映像表示装置は、それらの機器から受信したデジタル情報・操作メニューを画面に提示するとともに、画面に提示されたメニューに対するユーザの操作情報をそれらの機器に送信することができる。
【００２３】
さらに、映像表示装置が他の場所に設置された映像表示装置とネットワーク接続することで、映像表示装置を介して、離れた場所にいるユーザ同士が写真や映像などのデジタル情報を共有することができる。
【００２４】
なお、映像表示装置により、ユーザ同士が、複数の写真でスライドショーを構成するといった共同作業をすることもできる。
【００２５】
ネットワーク接続の手段として、特にインターネットを用いれば、遠方のユーザ同士が情報共有や共同作業をすることができる。
【００２６】
（実施の形態２）
図２は、本実施の形態における映像表示装置を有する室内において複数のユーザが位置している状況の一例を示す図である。
【００２７】
また、図３は、映像表示装置の機能を示すブロック図であり、図４は、図３のユーザ情報ＤＢ（データベース）のデータ構成の概略を説明する図である。また、図５は、映像表示装置の処理の概略を示すフローチャートである。
【００２８】
以下、図３の各ブロックの機能を説明する。
ユーザ検出カメラ１００は映像表示装置の前方に存在するユーザを撮影する。ユーザ位置検出手段１０１は、ユーザ検出カメラ１００で撮影した複数の映像からユーザ領域の抽出を行った後、複数の映像におけるユーザ領域の対応関係からステレオ視の原理により、ユーザと映像表示装置との相対位置を算出する。ユーザ識別手段１０２は、顔領域の抽出を行った後、あらかじめ登録された顔画像と抽出した顔画像の照合を行うことで、ユーザを特定するユーザ識別情報を出力する。視線検出手段１０３はユーザの目の黒目領域の位置に基づきユーザの視線方向を算出する。手位置・形状検出手段１０４は、ユーザの手領域を抽出した後、手の位置と手の形状があらかじめ規定されたどの形状に合致するか照合して、例えば「グー」「パー」「右選択」「左選択」などの手形状情報を出力する。
【００２９】
またジェスチャ入力リモコン１０５は、配置されたボタンのうちいずれがユーザに押下されているかのボタン状態を出力するボタン入力手段１０５１、ジェスチャ入力リモコン１０５を保持するユーザの手の動きを検出するモーションセンサ１０５２、ジェスチャ識別手段１０５３から構成される。モーションセンサ１０５２は移動と回転からなる手の動き情報を出力する。ジェスチャ識別手段１０５３は、モーションセンサからの出力と、あらかじめ規定された手の動き（ジェスチャ）情報とを照合して、「振る」「回す」「投げる」などのジェスチャ種別情報と操作量を出力する。
【００３０】
アプリケーション制御手段１０６は、ユーザ位置検出手段１０１が出力するユーザ位置、ユーザ識別手段１０２が出力するユーザ識別情報、視線検出手段１０３が出力する視線方向、手位置・形状検出手段１０４が出力する手位置・手形状情報、ボタン入力手段１０５１が出力するボタン状態、ジェスチャ識別手段１０５３が出力するジェスチャ種別情報を入力情報として解釈する。アプリケーション制御手段１０６は、これらの入力情報に加えて、ユーザ情報ＤＢ１０７Ａ、ユーザ状態管理手段１０７Ｂ、モーダル制御手段１０７Ｃ、視聴状態判別手段１０７Ｄからの入力情報により、アプリケーションの制御を行う。
【００３１】
ユーザ情報ＤＢ１０７Ａは、図４に示すとおり、基本属性情報と身体特徴情報、人間関係情報などを格納する。基本属性情報は例えば氏名、性別、年齢、誕生日、続柄などである。ユーザ状態管理手段１０７Ｂは各々のユーザ毎にユーザ状態を管理する。モーダル制御手段１０７Ｃは、各々のユーザ毎に該当するモーダルを選択した上で、現在の状態との組み合わせに基づき、次に実行すべき機能、遷移すべき状態を決定する。視聴状態判別手段１０７Ｄは、識別された１以上のユーザのうち、少なくとも検出したユーザの位置あるいは動作も鑑みて、表示映像の視聴対象であるユーザを判別する。
【００３２】
画面の描画内容の更新を行う場合は、アプリケーション制御手段１０６は、その描画内容の更新情報を画面描画手段１１０に出力する。画面描画手段１１０は描画された画面内容を画面１１１へ提示する。
【００３３】
アプリケーション制御手段１０６は、基本属性情報に基づいてユーザに提示する情報を選択することができる。これにより、映像表示装置は、例えば、各ユーザの年齢や職業を踏まえて各々に関連する、或いは興味を持つであろうニュースを選択して表示できる。また、図４のユーザを例にとると、松下花子さんの誕生日である１２月２１日の２週間前になると夫である太郎さんに対して花子さんへの誕生日プレゼントの購入を促すメッセージを表示する、過去のプレゼント履歴やプレゼントのおすすめ候補を表示するなどができる。また、誕生日当日の１２月２１日には、花子さんへのお祝いメッセージを表示したりすることもできる。
【００３４】
また、ユーザ情報ＤＢ１０７Ａに格納される身体特徴情報は、立位での身長と目の高さ、座位での身長と目の高さ、利き手、利き目、視力、聴力など、ユーザの姿勢別の身体形状、および視聴能力などを含む。
【００３５】
アプリケーション制御手段１０６は、この身体特徴情報に基づいてユーザの見やすい位置や大きさ、聞きやすい音量で情報を提示することができる。例えば、ユーザが立位であることを認識すると、映像表示装置は、立位での目の高さの情報に基づいて、ユーザの目の高さ位置を中心として情報を表示できる。また、映像表示装置は視力の悪いユーザに対して表示サイズを大きくできる。利き目情報に基づいて表示の微調整を行ってもよい。
【００３６】
また、片手でのハンドジェスチャを利き手で行うとすれば、利き手情報に基づいてハンドジェスチャを促すアイコン等の表示位置を決定することができる。すなわち、右利きのユーザに対してはユーザの位置の右寄りに対応する画面上の位置に、左利きのユーザに対してはユーザの位置の左寄り対応する画面上の位置にハンドジェスチャを促すアイコン等を表示することで、より自然なインタラクションを実現することができる。
【００３７】
さらに、ユーザ情報ＤＢ１０７Ａに格納される人間関係情報は、例えば図４（ｃ）のように該データベースに登録済みのユーザ間の親密度を０．０〜１．０で格納している。アプリケーション制御手段１０６は、この親密度に基づいて、ユーザ間の情報の共有の可否などを制御することができる。
【００３８】
このように、本発明の映像表示装置は、１以上の視聴対象ユーザにそれぞれに対応する映像を表示するアプリケーションを制御する。
【００３９】
また、他の場所に設置されネットワーク接続された映像表示装置との連携動作を行うアプリケーションの場合は、データ受信手段１０８は相手方映像表示装置から送信されてきた操作情報を受信する。等身大表示変換手段１０９は当該操作情報のうち表示サイズに依存するもの（相手方映像表示装置で撮影された等身大映像など実物大での提示を行うオブジェクトの情報、及びそのオブジェクトに対する操作情報）について提示画面サイズに基づきスケール変換を行う。アプリケーション制御手段１０６は、入力情報と共に、スケール変換後の操作情報を処理した後、アプリケーションの制御を行う。
【００４０】
また、アプリケーション制御手段１０６は、相手方映像表示装置に対する操作情報の生成を行う。また、アプリケーション制御手段１０６は、ユーザ識別手段１０２より入力されたユーザ識別情報に基づいてユーザ情報ＤＢ１０７Ａより取得したユーザの大きさ情報、ユーザ位置検出手段１０１より入力されたユーザ位置情報を等身大情報付加手段１１２に入力してもよい。入力された操作情報がユーザ検出カメラ１００で撮影された等身大映像である場合には、等身大情報付加手段１１２は、ユーザの大きさ情報とユーザ位置情報に基づき、相手方映像表示装置での等身大表示に必要となる等身大情報を操作情報に付加する。データ送信手段１１３は等身大情報を付加された操作情報及び等身大映像を相手方映像表示装置に対して送信する。
【００４１】
ここで、図５のフローチャートに沿って、映像表示装置の処理の流れを説明する。
まずユーザ検出カメラ１００が顔を検出すると、あらかじめ登録されたユーザ情報ＤＢ１０７Ａに格納される身体特徴情報との照合により、ユーザ識別手段１０２はユーザ識別を行う（Ｓ２０１）。そして、識別された各ユーザに対して、ユーザ位置検出手段１０１はユーザ位置情報を、視線検出手段１０３は視線方向情報を、手位置・形状検出手段１０４は手位置・手形状情報をそれぞれ算出する（Ｓ２０２）。そして、Ｓ２０１で識別された１以上のユーザのうち、少なくとも検出したユーザの位置あるいは動作も鑑みて、視聴状態判別手段１０７Ｄは表示映像の視聴対象であるユーザを判別する（Ｓ２０３）。
【００４２】
例えば、図２に示すユースシーンを例にとると、ユーザＡは立位で映像表示装置の近辺を移動中であることから視聴対象ユーザと判別する。ユーザＢはソファに座って映像表示装置の方を向いていることから視聴対象ユーザと判別する。ユーザＣは立位で映像表示装置に背を向けて当該装置から離れる方向に移動しているので、視聴対象ユーザではないと判別する。
【００４３】
視聴対象ユーザと判別されたユーザ数が複数の場合（Ｓ２０４でＹＥＳ）には、モーダル制御手段１０７Ｃは、ユーザ位置情報や現在のアプリケーション情報から、コラボレーション作業の形態を判定する（Ｓ２０５）。
【００４４】
コラボレーション作業の形態には、複数人が同時に同じ作業を分担して行う形態と複数人が同時に別々の作業をする形態がある。前者には、さらに一人が主導権を握り、もう一人が助言する形態や、複数人が同じ立場で作業する形態などがある。
【００４５】
そして、Ｓ２０２で算出されたユーザ位置情報、視線方向情報、手位置・手形状情報や現在のアプリケーション状態から、モーダル制御手段１０７Ｃは、各々のユーザ毎に操作モーダルを判定する（Ｓ２０６）。ここで言う操作モーダルとは、以下に説明する４つの方式、すなわち「ユーザ位置による操作方式」「視線・顔向きによる操作方式」「フリーハンドジェスチャによる操作方式」「ジェスチャ入力リモコンによる操作方式」のいずれかである。操作モーダルが判定されると、対応する入力情報、例えば、フリーハンドジェスチャによる操作方式であれば、「グー」「パー」「右選択」「左選択」などの手形状情報から操作コマンドを生成する（Ｓ２０７）。
【００４６】
また、等身大表示が必要なアプリケーションであれば（Ｓ２０８のＹＥＳ）、等身大表示に必要なスケール情報を取得し（Ｓ２０９）、等身大表示情報を生成する（Ｓ２１０）。
【００４７】
そして、アプリケーション制御手段１０６はＳ２０７で生成した操作コマンドと現在のアプリケーションの状態から次に実行すべき機能を決定し（Ｓ２１１）、その機能を実行する（Ｓ２１２）。
【００４８】
（実施の形態３）
図６は本実施の形態におけるユーザ位置検出手段１０１におけるステレオ視の原理に基づくユーザ位置算出方法を示したものである。
【００４９】
図６（ａ）に示すように、ユーザ検出カメラ１００が２台一組にして間隔Ｂをおいて映像表示装置の画面に対して平行に設置され、ユーザ位置検出手段１０１はそれぞれのカメラで撮影された画像内の対応するユーザ領域の位置のずれを基に、ユーザと映像表示装置の画面との距離Ｄを算出する。各カメラで撮影された画像内のユーザが写っている領域の抽出は、例えば、あらかじめユーザのいない状態でそれぞれのカメラで撮影した画像を保存しておき、ユーザが現れたときの画像との差分を求めることにより実現できる。また、顔画像検出及び顔画像の照合によりユーザの顔領域を求め、前記顔領域をユーザ領域とすることもできる。
【００５０】
図６（ｂ）は二つの画像上の対応するユーザ領域を基にユーザとカメラ設置面（映像表示装置の画面）との距離Ｄを求めるステレオ視の原理を示したものである。２台のカメラで撮影された画像それぞれで対応するユーザ領域を位置測定対象とすると、その像は二つの画像上に図６（ｂ）に示すように投影される。対応する像の画像上のずれをＺとすると、カメラの焦点距離ｆとカメラの光軸間の距離Ｂとから、ユーザと映像表示装置との距離Ｄは、
Ｄ＝ｆ×Ｂ／Ｚ
で求められる。また、映像表示装置の画面に平行な方向のユーザ位置については、画像中のユーザ領域の位置と上記の距離Ｄを基に求めることができる。このようにして求めた映像表示装置に対するユーザの相対的な位置がユーザ位置検出手段１０１からアプリケーション制御手段１０６に入力される。
【００５１】
アプリケーション制御手段１０６は、このユーザ位置情報に基づいて、例えば当該ユーザに提示すべき情報の映像表示装置の画面上の表示位置を決定することで、図７（ａ）と図７（ｂ）に示すようにユーザが動いても常にユーザから見やすい位置に情報を提示し続けることが可能である。例えば、図７（ａ）に示すようにユーザが映像表示装置の前方で移動すれば、ユーザの位置に近い画面上の位置に情報を表示するようにすることができる。また、図７（ｂ）に示すようにユーザが映像表示装置に対して近づく、または遠ざかる場合は、アプリケーション制御手段１０６が情報の表示サイズを縮小または拡大し、ユーザにとって見やすい大きさで表示することができる。特に、ユーザが映像表示装置に対して近づき、表示されている情報に興味を抱いていると判断できる場合には、アプリケーション制御手段１０６が表示する情報をより詳細なものに設定し、表示してもよい。さらに、図７（ｃ）に示すように、各ユーザの顔の高さ位置に応じて、見やすい高さに情報を表示するようにすることができる。このようにユーザの位置に応じて映像表示装置を操作する方式を、ユーザ位置による操作方式と呼ぶ。
【００５２】
（実施の形態４）
図８、図９は本実施の形態における視線検出手段１０３における視線方向検出方法を示したものである。
【００５３】
視線方向は顔の向きと、目の中の黒目部分の方向の組み合わせを基に計算される。そこでまず人物の三次元の顔向きを推定し、次に黒目の向き推定を行い、２つを統合して視線方向を計算する。
【００５４】
図８（ａ）に示すように、視線検出手段１０３は、ユーザ検出カメラ１００で撮影された画像から、まずは顔の顔向きの推定を行う。顔向き推定の方法としては例えば以下に図８（ｂ）および図９（ａ）、（ｂ）を用いて説明する方法を用いることで推定できる。図８（ｂ）は、全体のフローを示すものである。あらかじめ、検出された顔領域における目・鼻・口などの顔部品特徴点の領域をいくつかの顔向きごとに用意する。図９（ａ）の例では顔向き正面および左右±２０度における顔部品特徴点の領域を用意している。また、各顔部品特徴点周辺領域を切り出したテンプレート画像を用意しておく。
【００５５】
まず、ユーザ検出カメラ１００が映像表示装置の前方に存在するユーザを撮影し（Ｓ４０１）、撮影画像から顔領域の検出を行う（Ｓ４０２）。次に、検出された顔領域に対し、各顔向きに対応した顔部品特徴点の領域を当てはめ（Ｓ４０３）、各顔部品特徴点の領域画像を切り出す。切り出された領域画像と、あらかじめ用意したテンプレート画像の相関を計算し（Ｓ４０４）、各顔向きの角度を相関の比で重み付けした重み付け和を求め、これを検出顔の顔向きとする（Ｓ４０５）。図９（ａ）の例では、顔向き＋２０度に対する相関が０．８５、正面向きに対する相関が０．１４、−２０度に対する相関が０．０１であるので、顔向きは２０×０．８５＋０×０．１４＋−２０×０．０１＝１６．８度と算出される。
【００５６】
ここでは各顔部品領域を相関計算の対象としたが、これに限らず例えば顔領域全体を相関計算の対象としてもよい。またその他の方法としては、顔画像から目・鼻・口などの顔部品特徴点を検出し、顔部品特徴点の位置関係から顔の向きを計算する方法が知られている。顔部品特徴点の位置関係から顔向きを計算する方法としては、１つのカメラから得られた顔部品特徴点に最も一致するように、あらかじめ用意した顔部品特徴点の三次元モデルを回転・拡大縮小してマッチングし、得られた三次元モデルの回転量から顔向きを計算する方法や、実施の形態３で述べたように２台のカメラにより撮影された画像を基にステレオ視の原理を用いて、左右のカメラにおける顔部品特徴点位置の画像上のずれから各顔部品特徴点の三次元位置を計算し、得られた顔部品特徴点の位置関係から顔の向きを計算する方法がある。例えば両目および口の三次元座標点で張られる平面の法線方向を顔向きとする、などの方法が知られている。
【００５７】
視線検出手段１０３は、顔向きが決定した後、黒目の向き推定を行う。黒目方向は例えば以下の方法を用いることで推定できる。推定方法の概要を図８（ｂ）、図９（ｂ）を用いて説明する。
【００５８】
本手法では、視線方向基準面の算出、黒目中心の検出、視線方向の算出の手順で、視線検出を行う。
【００５９】
まず、視線方向基準面の算出に関して、本手法における視線方向基準面とは、視線方向を算出する際に基準となる面のことで，顔の左右対称面と同一である。本手法では、目頭が、目尻や口角、眉など他の顔部品に比べて表情による変動が少なく、また誤検出が少ないことを利用し、顔の左右対称面を目頭の３次元位置から算出する。
【００６０】
目頭の３次元位置は、ステレオカメラで撮影した２枚の画像に対して、顔検出モジュールと顔部品検出モジュールを用いて目頭を検出し、これらをステレオ計測することで、３次元位置を計測する（Ｓ４０６）。図９（ｂ）に示すように、視線方向基準面は検出した左右の目頭を端点とする線分の垂直二等分面として取得される。
【００６１】
次に、黒目中心の検出に関してだが、人が見ているものは、瞳孔から入った光が網膜に届き、電気信号となって脳に伝達されたものである。したがって、視線方向を検出する場合には、瞳孔の動きを見ればよい。しかし、日本人の場合、虹彩が黒または茶色のため、画像上では瞳孔との判別が付きにくい。そこでここでは、瞳孔の中心と黒目（虹彩）の中心がほぼ一致することから、視線方向特徴として黒目中心の検出を行う。黒目中心はまず目尻と目頭を検出し、図９（ｃ−１）のような目尻と目頭を含む目領域から輝度が最小となる領域を、黒目領域として検出する。次に、図９（ｃ−２）のような領域１，２からなる黒目検出フィルタを設定し、領域１，２内の画素の輝度の領域間分散が最大となるような円中心を探索し、これを黒目中心とする。最後に先ほどと同様に、黒目中心の３次元位置をステレオ計測によって取得する（Ｓ４０７）。
【００６２】
さらに、視線方向の検出に関してだが、算出した視線方向基準面と、黒目中心の３次元位置を用いて、視線方向を検出する。人の眼球直径は成人の場合はほとんど個人差がないことが知られており、日本人の場合約２４ｍｍである。したがって、基準となる方向（たとえば正面）を向いたときの黒目中心の位置が分かっていれば、そこから現在の黒目中心位置までの変位を求めることで視線方向に変換算出することができる。従来手法では基準となる方向を向いた時の黒目中心の位置が既知ではないため、キャリブレーションを必要としていたが、本手法では、正面を向いたときは、左右の黒目中心の中点が顔の中心、すなわち視線方向基準面上に存在することを利用し、左右の黒目中心の中点と視線方向基準面との距離を計測することで視線方向を計算する（Ｓ４０８）。
【００６３】
この手法では、視線方向は、顔正面に対する左右方向の回転角θとして取得される。回転角θは、以下の式で求められる。
【００６４】
Ｒ：眼球半径（１２ｍｍ）
ｄ：視線方向基準面と黒目中点の距離
【００６５】
以上の手順に基づいて算出した顔の三次元向きと、顔における黒目の向きを合わせることで、実空間における視線方向の検出を行うことができる（Ｓ４０９）。
【００６６】
アプリケーション制御手段１０６は、上記の手順で視線検出手段１０３が検出した視線方向情報に基づいて、例えば当該ユーザに提示すべき情報の映像表示装置の画面上の表示位置を決定する。これにより、本映像表示装置は、ユーザの視線・顔向きが動いても常にユーザから見やすい位置に情報を提示し続けることができる。このようにユーザが視線・顔向き方向を変えることにより映像表示装置を操作する方式を、視線・顔向き方向による操作方式と呼ぶ。
【００６７】
（実施の形態５）
図１０は本実施の形態における手位置・形状検出手段１０４における手位置・形状検出方法を示したものである。
【００６８】
図１０（ａ）に示すように、ユーザ検出カメラ１００で撮影された画像から、まずは人物位置を検出し、人物位置の周辺で手の位置・形状の検出を行う。手位置・形状の推定の方法としては例えば以下の方法を用いることで推定できる。以下、図１０（ｂ）を用いて説明する。
【００６９】
まずオフライン処理として、手位置・形状検出手段１０４は検出したい手の学習画像を大量に用意する（Ｓ５０１）。学習画像における照明環境、向きなどの条件は、実際に検出する環境になるべく沿った条件のものを揃える。次に、Ｓ５０１で用意した学習画像から、主成分分析を用いて手の主成分を構成する固有空間を作成する（Ｓ５０２）。また、検出したい手のサンプルとして手のテンプレート画像を用意する。テンプレート画像は用意した手の平均画像でもよいし、グー、パーなど、いくつかの手の画像を用意してもよい。作成した固有空間への射影行列および、手のテンプレート画像を手テンプレートデータベースに格納する（Ｓ５０３）。
【００７０】
次に実際の検出を行うオンライン処理について説明する。
まず、ユーザ検出カメラ１００が映像表示装置の前方に存在するユーザを撮影し(Ｓ５０４)、撮影画像から顔領域の検出を行う(Ｓ５０５)。
【００７１】
Ｓ５０５で顔領域が検出されると、その領域の周辺で手の検出を行う。顔領域の周辺において、用意した手のテンプレートに類似した領域を、手テンプレートデータベースに格納した手テンプレートを用いて走査する（Ｓ５０６）。顔の周辺領域の決定は、顔位置を基準としてあらかじめ設定したサイズの範囲でもよいし、カメラを２つ用いたステレオ視の原理により顔の周辺領域で顔と奥行き距離が近い領域を走査して探索範囲を削減してもよい。マッチングを行うための類似度の計算としては、ここではまず切り出した手の候補領域画像と、手のテンプレート画像をあらかじめ用意した固有空間への射影行列を使って固有空間に射影し、固有空間上での両者の距離を比較する手法を行う。手の主成分を表す空間上で距離を比較することで背景などノイズの影響を低減した検出が可能である。探索領域内で、あらかじめ定めた閾値を満たし、かつ最も手テンプレートに近い距離が得られた領域を手位置とする。また最も距離が近い手テンプレートの形状（例えばグー、パー等）を検出手形状とする（Ｓ５０７）。
【００７２】
探索領域内で閾値を満たす領域が無い場合には、手を出していないものとして検出を終了する。
【００７３】
この例では手位置・形状の検出にテンプレートマッチングの手法を用いたが、その他の手法、例えばブースティング（Ｂｏｏｓｔｉｎｇ）などの手法を用いてもよい。
【００７４】
アプリケーション制御手段１０６は、この手の位置・形状情報に基づいて、例えば当該ユーザに複数の選択肢と各選択肢に対応した手位置・形状を提示しておき、ユーザの手の位置・形状の変化に応じて対応する選択肢が選ばれたことを判断することができる。このようにユーザが手の形状・位置を変えることにより映像表示装置を操作する方式を、フリーハンドジェスチャによる操作方式と呼ぶ。
【００７５】
（実施の形態６）
図１１は本実施の形態におけるジェスチャ入力リモコン１０５による操作方式を示したものである。
【００７６】
図１１（ａ）に示すように、ユーザはジェスチャ入力リモコン１０５を手に把持した状態で、振る、回すなどといったあらかじめ規定された手の動き（ジェスチャ）や、映像表示装置の所望の位置を指すことにより映像表示装置を操作することができる。
【００７７】
図１１（ｂ）はジェスチャ入力リモコン１０５の構成を示すものである。該リモコンは、その内部に、該リモコンを把持するユーザの手の動きを検出するモーションセンサ１０５２を備える。また、該リモコンは、図１１（ｂ）に示すようにその表面にボタンを備えてもよい。
【００７８】
モーションセンサ１０５２は、加速度センサ、角加速度センサ（レートジャイロ）、地磁気センサ（電子コンパス）のいずれか、もしくは２つ以上の組み合わせにより構成される。加速度センサは、所定の軸に対する加速度を検知するものであり、例えば図１１（ｂ）に示すようにＸ軸、Ｙ軸、Ｚ軸の直交する３軸の各軸に対して加速度を検知するものである。ユーザが手でジェスチャ入力リモコン１０５を把持した状態で手首および／または腕を動かし、ジェスチャ入力リモコンの位置および／または姿勢が変更されると、ジェスチャ識別手段１０５３があらかじめ規定された手の動き（ジェスチャ）のデータと照合を行い、識別結果がジェスチャ識別手段１０５３からアプリケーション制御手段１０６に入力される。
【００７９】
ここでは、ジェスチャ入力リモコン１０５の位置および／または姿勢の検出手段として、加速度センサを用いる例を示したが、同様の目的で、角加速度センサ（レートジャイロ）、地磁気センサ（電子コンパス）を利用することができる。
【００８０】
アプリケーション制御手段１０６は、この識別されたジェスチャに基づいて、例えば図１２（ａ）に示すように「回す」というジェスチャに対応して画面をスクロールする、といったアプリケーションの制御を行う。
【００８１】
また、モーションセンサ１０５２に地磁気センサを用いることで、同業者が容易に推測できるように、ユーザが映像表示装置の所望の位置を指した際に、映像表示装置の画面上の対応する位置を算出し、その算出結果をアプリケーション制御手段１０６に入力することができる。
【００８２】
アプリケーション制御手段１０６は、この映像表示装置の画面上の対応する位置の入力に基づいて、例えば図１２（ｂ）に示すようにフォーカスをあてる、またはその位置に対応するアプリケーションを起動するなどのアプリケーションの制御を行う。
【００８３】
このようにユーザがジェスチャ入力リモコン１０５を手に把持した状態で、あらかじめ規定された手の動き（ジェスチャ）や、映像表示装置の所望の位置を指すことにより映像表示装置を操作する方式を、ジェスチャ入力リモコン１０５による操作方式と呼ぶ。
【００８４】
なお、ジェスチャ入力リモコン１０５の形状は、図１１のような平面矩形の長手形状に限らず、平面形状が楕円形などの長手形状でもよく、断面形状も矩形に限らず円形や他の多角形であってもよい。さらに、該リモコンの形状は、図１３のような球であってもよい。
【００８５】
球状のジェスチャ入力リモコンでは、図１３に示すような１つ以上の球状ジェスチャ入力リモコンを、（ａ−１）拘束された面上で転がす、（ａ−２）手の中で握って、手首を中心に回す、移動する、（ａ−３）空中に浮かんだボールを両手あるいは片手で押す、回転させる、ことにより画面上の対象物（ＧＵＩのオブジェクト等）をジェスチャに応じて操作することが可能である。これらの操作は、複数人で同じ目的のＧＵＩを協同で操作する場面でも実行されうる。図１３（ａ）に示した球状ジェスチャ入力リモコンの構造として、図１３（ｂ）に示すものが考えられる。球状の外形に加えて、モーションセンサ（加速度センサ、角加速度センサ（レートジャイロ）、地磁気センサ（電子コンパス）など）と、握った時の手の力をセンシングする圧力センサ、さらに機器側からの情報を提示する表示機構（ＬＥＤなど）、振動用モータ等の球状ジェスチャ入力リモコンの信号を受信側に双方向で通信する仕組み、及び駆動機構、電源を備える。また、図１３（ｂ−２）に示すように、空中に浮かぶタイプの球状ジェスチャ入力リモコンの構造として、透明或いは半透明の弾力性のある樹脂の中にヘリウムガスなどを充填し、内部には図１３（ｂ−１）に示すようなセンサ群、回転機構、通信機構、表示機構などを備える。ＬＥＤやプロジェクタなどの表示機構はシステム側からの状態をフィードバックとしてさりげなく投影する仕組みも兼ねる。
【００８６】
これらの球状ジェスチャ入力リモコンを用いた操作系の一例は図１４（ａ）に示すように、ユーザが球状ジェスチャ入力リモコンを手の中に把持し、手首を回転あるいは移動することで、スクリーン内の３次元キャラクタ（アバター）や物体をマリオネットのように操作するといったものである。この場合、キャラクタは、骨格構造のような階層構造で定義し、その先端の並進移動量（Ｘ，Ｙ，Ｚの３自由度）と回転量（Ｘ，Ｙ，Ｚの３自由度）を該球状ジェスチャ入力リモコンの位置を移動することで先端の軌跡として指定する。先端を除く各関節の位置は逆運動学（インバースキネマティックス）などの手法を使って計算で求めることも可能である。これにより、例えば、サファリパークを模した仮想空間を表示するアプリケーションにおいて、該サファリ仮想空間内に表示されている実物大の動物（例えばキリン）にえさを差し出す、といったインタラクションが実現される。すなわち、ユーザが球状ジェスチャ入力リモコンを手の中に把持しながら手をユーザの前方に所定の距離以上差し出す動作をすると、該サファリ仮想空間内に表示されている実物大のキリンの近くにえさが表示され、キリンの口の近くにえさが移動するようにユーザが自身の手を移動させて、キリンの口からの所定の近傍内にえさが移動されると、キリンがえさを食べる、といったインタラクションである。このような映像表示装置の大画面を活かした実物大表示や自然なインタラクションにより、あたかもその場所（サファリパーク）にいるかのような臨場感を醸し出すことができる。また、手中の球状ジェスチャ入力リモコンを軽く握ることで画面上のＧＵＩを掴んで、さらにボールを手中で回転及び移動することでＧＵＩを移動、変形することも可能である。
【００８７】
さらにユーザが空中を浮遊する球状ジェスチャ入力リモコンを掴んで或いは回して、画面上のバブル型のＧＵＩを選択、移動することも可能である。この場合、ユーザが実際の球を掴む、回す動作と、そのジェスチャによる画面上のＧＵＩの動作との一体感が臨場感として感じられるところが特徴である。さらに、球状ジェスチャ入力リモコンを用いた操作の別の例として図１４（ｂ）に示すように、球状ジェスチャ入力リモコンを映像表示装置に向かって転がす、或いは投げることで、例えばユーザが入力した情報（ボイスメールなど）が所定の相手先に送信される、といったインタラクションが可能である。これにより、従来はＧＵＩのメニューに沿って操作していたものを、球を転がすといった直感的なジェスチャで行うことが可能となり、高齢者や子どもなど従来ＧＵＩの複雑な操作が難しかったユーザ層も、該球状ジェスチャリモコンを利用することで容易に操作することが可能である。また、球状ジェスチャ入力リモコンを振る、投げることで、画面上のＧＵＩオブジェクト或いはコンテンツが、例えばユーザが入力した情報（ボイスメールなど）を送受信するように移動してもよい。或いは複数の球状ジェスチャ入力リモコン同士を物理的に近づけたり、接触させる、もしくは交換することで、ボールに予め与えられた属性の融合や交換を実現することで、該球形ジェスチャ入力リモコンを用いた、ユーザの実感を伴った直感的な操作が実現される。この場合、画面上のＧＵＩとしては、メタボールのような球形ＧＵＩ或いはコンテンツが核融合のように融合或いは分離することでその属性の変化を明示することも可能である。
【産業上の利用可能性】
【００８８】
本発明は映像表示装置として、特に、従来のボタンによる入力だけでなく、ユーザの位置・向き、視線、ハンドジェスチャ、ユーザの手・腕の動き等のユーザセンシング情報に基づき制御される映像表示装置として、例えば、リビングルームなどの家族の共有空間に設置されるＴＶとして利用することができる。
【図面の簡単な説明】
【００８９】
【図１】映像表示装置の外観と関連機器とのインタフェースの一例を説明する図
【図２】映像表示装置を有する室内において複数のユーザが位置している状況の一例を示す図
【図３】映像表示装置の主要機能ブロック図
【図４】ユーザ情報ＤＢのデータ構成の概略を説明する図
【図５】映像表示装置の処理の概略を示すフローチャート
【図６】ユーザ位置による操作方法とその実現方法の概略を説明する図
【図７】ユーザ位置による操作方法の動作例を説明する図
【図８】視線・顔向きによる操作方式とその実現方法の概略を説明する図
【図９】視線・顔向きによる操作方式とその実現方法の概略を説明する図
【図１０】フリーハンドジェスチャによる操作方式とその実現方法の概略を説明する図
【図１１】ジェスチャ入力リモコンによる操作方式とその実現方法の概略を説明する図
【図１２】ジェスチャ入力リモコンによる操作の動作例を説明する図
【図１３】球状ジェスチャ入力リモコンによる操作方式とその実現方法の概略を説明する図
【図１４】球状ジェスチャ入力リモコンによる操作の動作例を説明する図
【符号の説明】
【００９０】
１００ユーザ検出カメラ
１０１ユーザ位置検出手段
１０２ユーザ識別手段
１０３視線検出手段
１０４手位置・形状検出手段
１０５ジェスチャ入力リモコン
１０６アプリケーション制御手段
１０７Ａユーザ情報ＤＢ
１０７Ｂユーザ状態管理手段
１０７Ｃモーダル制御手段
１０７Ｄ視聴状態判別手段
１０８データ受信手段
１０９等身大表示変換手段
１１０画面描画手段
１１１画面
１１２等身大情報付加手段
１１３データ送信手段

【特許請求の範囲】
【請求項１】
１以上のユーザにより操作される映像表示装置であって、
１以上のユーザを識別する識別手段と、
１以上のユーザの位置と動作を検出する検出手段と、
映像を表示する表示手段と、
識別された１以上のユーザのうち、検出したユーザの位置と動作により、表示映像の視聴対象である１以上のユーザを判別する判別手段と、
映像を表示するアプリケーションを制御する制御手段とを備え、
前記制御手段は、１以上の視聴対象ユーザにそれぞれ対応し、前記映像を表示するアプリケーションを制御することを特徴とする、映像表示装置。
【請求項２】
前記制御手段は、１以上の視聴対象ユーザの少なくとも視聴位置に対応し、視聴対象となる映像の表示位置及び又はサイズを修正する、請求項１記載の映像表示装置。
【請求項３】
前記映像表示装置は、さらに、ユーザの属性情報を格納するユーザデータベースを備え、
前記属性情報には、少なくとも身長情報を含む身体特徴情報が含まれ、
前記制御手段は、１以上の視聴対象ユーザの前記属性情報にそれぞれ対応し、前記映像を表示するアプリケーションを制御することを特徴とする、請求項２記載の映像表示装置。
【請求項４】
前記映像表示装置は、さらに、前記視聴対象のユーザが立位か座位かのそれぞれの視聴状態を管理する管理手段を備え、
前記身体特徴情報には、立位での身長と目の高さ、座位での身長と目の高さ情報が含まれ、
前記制御手段は、前記視聴対象ユーザの視聴状態と身体特徴情報に基づき、前記映像を表示するアプリケーションを制御することを特徴とする、請求項３記載の映像表示装置。
【請求項５】
前記身体特徴情報には、利き目情報、視力情報が含まれ、
前記制御手段は、前記視聴対象ユーザの前記利き目情報、視力情報に基づき、前記映像を表示するアプリケーションを制御することを特徴とする、請求項３記載の映像表示装置。

【図１】