情報出力装置、遠隔制御方法、及びプログラム

【課題】ユーザの直感的なジェスチャによる制御を容易に実現することができる情報出力装置、遠隔制御方法、及び、プログラムを提供すること。
【解決手段】撮像部４４によって撮像した画像から、ＣＰＵ３２が、顔を検出し、さらに検出した顔から目、耳、口を検出し、さらに目、耳、口付近においてどのようなジェスチャを行っているかを検出し、ジェスチャの対象となった特徴物（目、耳、口）と関連した処理、及び該検出したジェスチャに対応付けられた指示を特定し、この指示に基づいて検出した特徴物（目、耳、口）と関連した処理の制御を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、人間の動作を検出して制御を行う情報出力装置、遠隔制御方法、及びプログラムに関する。
【背景技術】
【０００２】
従来より、人間が機械を操作するマンマシンインタフェースとして多様なユーザインタフェース（ＵＩ：ＵｓｅｒＩｎｔｅｒｆａｃｅ）が提案されている。このようなインタフェースとして、例えば、多くの電化製品や電子機器に設けられた操作パネルがあげられる。ユーザはこの操作パネルを操作することによって、当該電化製品や電子機器に各種の指示を入力をする。また、遠隔から電化製品や電子機器を操作するためのリモートコントローラ（以後、「リモコン」と言う）も存在している。リモコンは、ユーザが電化製品や電子機器に近づいて操作パネルを直接操作する作業を不要にしている。
【０００３】
遠隔操作に関する技術として、例えば、特許文献１に、カメラより入力した入力画像から被撮影者を特定し、被撮影者が行う身振り手振りによるジェスチャによって、カメラ及び雲台を制御するものが開示されている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００５−５１４７２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、特許文献１に記載の手法では、ジェスチャに応じて操作する設定項目を特定するため、操作する設定項目の数が増加すると、覚える必要のあるジェスチャの数も増加し、一つ一つのジェスチャと設定項目の関係を覚えきれなくなる可能性がある。また、ユーザが操作しようとする設定項目に対して、必要とするジェスチャが思い出せず、操作に時間と手間がかかることがある。
【０００６】
本発明は、このような課題に対して鑑みなされたものであり、ユーザの直感的なジェスチャによる制御を容易に実現することができる情報出力装置、遠隔制御方法、及び、プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００７】
上述の目的を達成するため、請求項１に記載の発明に係る情報出力装置は、撮像手段と、情報を出力する出力手段と前記撮像手段によって撮像した画像から、遠隔制御する者が有する前記情報の種類に対応する感覚器官の像を検出する検出手段と、前記検出手段によって前記感覚器官の像を検出すると、前記遠隔制御する者による前記感覚器官に対する所定の動作を検出する動作検出手段と、前記動作検出手段によって所定の動作を検出すると、前記出力手段による前記情報の出力を、前記動作検出手段によって検出した動作で特定される制御内容で制御する制御手段と、を備えたことを特徴とする。
【０００８】
請求項２に記載の発明に係る情報出力装置は、前記情報とは画像であるとともに、前記情報の種類に対応する感覚器官とは前記遠隔制御する者の目であることを特徴とする。
【０００９】
請求項３に記載の発明に係る情報出力装置は、前記情報とは音声であるとともに、前記情報の種類に対応する感覚器官とは前記遠隔制御する者の口若しくは耳であることを特徴とする。
【００１０】
請求項４に記載の発明に係る情報出力装置は、前記出力手段が情報を出力した際に、前記検出手段による検出があったか否かを判断する検出判断手段と、この検出判断手段によって検出があったと判断されると、付加情報を入力する付加情報入力手段と、この付加情報入力手段によって入力された付加情報と前記出力手段が出力した情報に付加する情報付加手段と、を更に備えたことを特徴とする。
【００１１】
請求項５に記載の発明に係る情報出力装置は、音声入力手段を更に備え、前記情報付加手段は、前記音声入力手段によって入力された音声を前記情報に付加することを特徴とする。
【００１２】
請求項６に記載の発明に係る遠隔制御方法は、複数種の機能を実現する装置の制御方法であって、撮像した画像から所定の特徴物を検出する検出ステップと、前記検出ステップにて所定の特徴物を検出すると、遠隔制御する者による当該特徴物に対する所定の動作を検出する動作検出ステップと、前記動作検出ステップにて所定の動作を検出すると、前記複数種の機能のうち前記所定の特徴物で特定される機能を、前記動作検出ステップにて検出した動作で特定される制御内容で制御する制御ステップとを有することを特徴とする。
【００１３】
請求項７に記載の発明に係る遠隔制御プログラムは、撮像した画像から所定の特徴物を検出する検出手段、前記検出手段によって所定の特徴物を検出すると、遠隔制御する者による当該特徴物に対する所定の動作を検出する動作検出手段、前記動作検出手段によって所定の動作を検出すると、前記複数種の機能のうち前記所定の特徴物で特定される機能を、前記動作検出手段によって検出した動作で特定される制御内容で制御する制御手段として機能をコンピュータに実行させることを特徴とする。
【発明の効果】
【００１４】
本発明によれば、ジェスチャによる設定項目の制御を容易に実現することができる。
【図面の簡単な説明】
【００１５】
【図１】本発明の第１の実施の形態の情報出力装置であるジェスチャ入力装置を備えたデジタルフォトフレームの外観斜視図である。
【図２】図１のデジタルフォトフレーム１の内部の電気的構成を示すブロック図である。
【図３】図１のデジタルフォトフレームの制御回路３０が実行する指示入力処理を示すフォローチャートである。
【図４】画像における感覚器官の検出を説明する図である。
【図５】ジェスチャ入力用テーブルを示す図である。
【図６】ジェスチャの例を示す図である。
【図７】デジタルフォトフレーム１の動作例を示す図である。
【図８】本発明の第２の実施の形態の情報出力装置である遠隔制御装置からなるシステムの概要を示す図である。
【図９】図８の遠隔制御装置の内部の電気的構成を示すブロック図である。
【発明を実施するための形態】
【００１６】
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。
【００１７】
［第１の実施の形態］
まず、本発明の第１の実施の形態について説明する。
【００１８】
［基本構成］
図１は本発明の第１の実施の形態の情報出力装置であるジェスチャ入力装置を備えたデジタルフォトフレームの外観斜視図である。デジタルフォトフレーム１は、本体ケース５に、液晶表示装置１０、カメラレンズ１２、複数の押しボタンからなる操作パネル１４、スピーカ１６、制御回路（図２参照）を構成する回路基板等を組み込むことによって構成されている。本体ケース５の表側には液晶表示装置１０、カメラレンズ１２、スピーカ１６などを配設している。本体ケース５の裏側には、デジタルフォトフレーム１を立てた姿勢で維持するための支持部材１９が取り付けられている。本体ケース５の側部には、メモリカード５０（図２参照）を挿入するためのスロット（図示せず）を開閉させる開閉部材２０や、操作パネル１４が設けられている。
【００１９】
［電気的構成］
図２は、デジタルフォトフレーム１の内部の電気的構成を示すブロック図である。デジタルフォトフレーム１は、制御回路３０と、制御回路３０に接続された撮像部４４と、液晶表示装置１０と、操作パネル１４と、スピーカ１６と、マイク１８等を備える。制御回路３０は、ＣＰＵ３２と、ＲＯＭ３４と、ＲＡＭ３６と、液晶表示装置１０を駆動するための表示制御回路３８と、スピーカ１６やマイク１８を駆動するための音声制御回路４０と、カードＩ／Ｆ４２等から構成されている。カードＩ／Ｆ４２には、デジタルフォトフレーム１本体のカードスロット（図示せず）によってメモリカード５０が着脱可能に接続される。本実施の形態の情報出力装置であるジェスチャ入力装置は、撮像部４４及び制御回路３０によって構成され、撮像部４４によって撮像された画像データに基づいて制御回路３０が、撮影されている遠隔操作者の動作、例えばジェスチャを検出し、検出した動作に対応する処理を実行して液晶表示装置１０及びスピーカ１６等の制御の対象となる機能を持った構成部を制御する。
【００２０】
撮像部４４は、カメラレンズ１２と、撮像素子であるＣＣＤ４６と、ユニット回路（ＣＤＳ／ＡＧＣ／ＡＤ）４８を有する。
【００２１】
ＣＣＤ４６は、カメラレンズ１２を介して投影された被写体の光を電気信号に変換し、撮像信号としてユニット回路４８に出力する。
【００２２】
ユニット回路４８は、ＣＣＤ４６から出力される撮像信号を相関二重サンプリングして保持するＣＤＳ（ＣｏｒｒｅｌａｔｅｄＤｏｕｂｌｅＳａｍｐｌｉｎｇ）回路と、ＣＤＳ回路によりサンプリングを行った撮像信号の自動利得調整を行うＡＧＣ（ＡｕｔｏｍａｔｉｃＧａｉｎＣｏｎｔｒｏｌ）回路と、ＡＣＧ回路によって自動利得調整を行ったアナログの撮像信号をデジタル信号に変換するＡ／Ｄ変換器とを有し、ＣＣＤ４６から出力される撮像信号は、ユニット回路４８を介してデジタル信号としてＣＰＵ３２に送られる。
【００２３】
ＣＰＵ３２は、ＲＯＭ３４に記憶されたアプリケーションプログラムを実行して、ユニット回路４８から送られてきた画像データの画像処理、振れ補正処理、画像データの圧縮・伸張（例えば、ＪＰＥＧ形式の圧縮・伸張）の処理等を行う機能を実行するとともに、デジタルフォトフレーム１の各部をＲＯＭ３４に記憶された制御プログラムにしたがって制御するワンチップマイコンである。
【００２４】
ＲＯＭ３４には、デジタルフォトフレーム１の各部を制御するための制御プログラム、ジェスチャを検出し、検出したジェスチャに対応する処理を含む、各種機能を実行するためのアプリケーションプログラム、画像認識処理を行うための顔全般、口、耳、目など感覚器官の像の特徴データ、ジェスチャを検出するための特徴データを含む各種機能を実行するための各種情報が記憶されている。
【００２５】
ＲＡＭ３６は、ＣＣＤ４６によって撮像され、ＣＰＵ３２に送られてきた画像データを一時記憶するバッファメモリとして、さらに、ＣＰＵ３２のワーキングメモリとして使用される。また、情報として液晶表示装置１０にスライドショーとして表示させる画像の画像データベース、同じく情報としてスピーカ１６に音声出力させる音声の音声データベース、必要に応じて人間の感覚器官に関連するジェスチャと、対応する処理との関係を示すジェスチャ入力用テーブルなども記憶されている。
【００２６】
表示制御回路３８は液晶表示装置１０を制御して、ＣＰＵ３２の指示に基づいてＲＡＭ３６の画像データベースから読み出した画像データを液晶表示装置１０に表示させる。液晶表示装置１０は、表示制御回路３８の制御に基づいて画像表示を行う。
【００２７】
音声制御回路４０はスピーカ１６を制御して、ＣＰＵ３２の指示に基づいてＲＡＭ３６の音声データベースから読み出された音声データをスピーカ１６に音声出力させる。スピーカ１６は、音声制御回路４０の制御に基づいて音声出力を行う。また、音声制御回路４０は、ＣＰＵ３２の指示に基づいてマイク１８から入力されるアナログの音声データを付加すべき情報として、デジタル変換して表示出力されている画像と対応付けてＲＡＭ３６に記憶する。
【００２８】
操作パネル１４には、電源ボタン、選択ボタン、決定ボタン、モード選択ボタン等の複数の押しボタン等が含まれており、ユーザのボタン操作に応じて対応する操作信号をＣＰＵ３２に入力する。
【００２９】
メモリカード５０には、情報として画像データや音声データ等が記憶されている。操作パネル１４の操作により、画像データあるいは音声データの読み出し先を、メモリカード５０とＲＡＭ３６のいずれか一方又は両方に設定することができる。
【００３０】
［指示入力処理］
このようにして構成された本実施の形態の情報出力装置であるジェスチャ入力装置は、撮像部４４で検出した動作（ジェスチャ）に応じてユーザ（遠隔操作者）の指示を特定し、デジタルフォトフレーム１の該当する機能を持った構成部を制御して、指示に対応する様々な処理をデジタルフォトフレーム１に行わせることができる。本実施の形態では、撮像部４４が検出する動作を、人間のジェスチャとして説明する。以下、デジタルフォトフレーム１がスライドショーを行っている状態で、撮像部４４により人間のジェスチャを検出した場合に、制御回路３０において実行される指示入力処理について、図３を参照して説明する。
【００３１】
図３に示すように、まず、ＣＰＵ３２は、スライドショーを開始する処理を行う（ステップＳ１０）。すなわち、ＣＰＵ３２は、ＲＡＭ３６に記憶されている画像データベースから一定時間ごとに一枚ずつ画像データを読み出して、液晶表示装置１０に表示させる。
【００３２】
次に、ＣＰＵ３２は、撮像部４４を制御して、所定の周期間隔で繰り返しの撮像を開始する処理を行う（ステップＳ１２）。この処理において、ＣＰＵ３２は、ＣＣＤ４６から出力される撮像信号をユニット回路４８で処理してデジタル信号の画像データとして取得し、こうして取得した画像データをＲＡＭ３６に順次一時記憶する。
【００３３】
次に、ＣＰＵ３２は、ＲＡＭ３６に一時記憶した画像データに画像認識処理を実行して、画像中に人間の顔があるか否かを判定する（ステップＳ１４）。人間の顔があると判定した場合には（ステップＳ１４でＹＥＳ）、ステップＳ１６に処理を移し、人間の顔がないと判定した場合には（ステップＳ１４でＮＯ）、ステップＳ２４に処理を移す。ここで実行する画像認識処理として様々な処理が可能である。本実施の形態では、ＣＰＵ３２は、例えば、ＲＡＭ３６に一次記憶した画像データから撮像された被写体の輪郭や特徴点の認識、及び、それらの位置関係等を認識し、それらを数値化した数値データである特徴データを算出し、こうして算出した特徴データを、予めＲＯＭ３４に記憶してある画像認識用の被写体の特徴データと比較照合して行う。したがって、ステップＳ１４で、ＣＰＵ３２は、ＲＡＭ３６に一次記憶した画像データから特徴データを算出し、算出した特徴データを、予めＲＯＭ３４に記憶してある画像認識用の顔の特徴データと比較照合して行う。
【００３４】
ステップＳ１４において、ＣＰＵ３２は、画像中に人間の顔があると判断すると（ステップＳ１４でＹＥＳ）、ステップＳ１６に進み、ＣＰＵ３２は、画像に感覚器官、例えば、口、耳、目の何れかが含まれているか否かを判定する（ステップＳ１６）。具体的には、ＣＰＵ３２は、図４（ａ）に示すように、ＲＡＭ３６に一時記憶した画像データの顔の領域Ｆを特定し、この領域Ｆに上述の画像認識処理を実行して口、耳、目があるか否かを判定する。口、耳、目の少なくともいずれかがあると判定した場合には（ステップＳ１６でＹＥＳ）、ステップＳ１８に処理を移し、口、耳、目のいずれもないと判定した場合には（ステップＳ１６でＮＯ）、ステップＳ２４に処理を移す。
【００３５】
次にステップＳ１８において、ＣＰＵ３２は、ステップＳ１６で検出した感覚器官に対するジェスチャを検出し、どのようなジェスチャを行っているかを判定する（ステップＳ１８）。ここでＣＰＵ３２は、ステップＳ１６において、例えば、感覚器官として「口」があると判定した場合には、ＲＡＭ３６に一時記憶した画像データから、図４（ｂ）に示すように、口を基準とする口周辺の領域Ｂの画像を切り出し、ＲＡＭ３６に記憶する処理を行う。同様に、「目」があると判定された場合には、ＲＡＭ３６に一時記憶した画像データから、図４（ｂ）に示すように、目を基準とする目周辺の領域Ａの画像を切り出し、ＲＡＭ３６に記憶する処理を行い、「耳」があると判定された場合には、ＲＡＭ３６に一時記憶した画像データから、図４（ｂ）に示すように、耳を基準とする耳周辺の領域Ｃの画像を切り出し、ＲＡＭ３６に記憶する処理を行う。そして、所定の期間の領域Ａ、領域Ｂ、領域Ｃの画像データを複数枚蓄積し（例えば、所定の期間が３秒であり、撮像部４４が１／４秒に１枚の撮像を行っている場合には、１２枚の領域Ａ、領域Ｂ、領域Ｃの画像がＲＡＭ３６に蓄積されることになる）、所定の期間における領域Ａ、領域Ｂ、領域Ｃの画像の変化から動きベクトルを算出する。動きベクトルは、例えば、代表点マッチング法や、ブロックマッチング法などを用いて算出してもよい。ＣＰＵ３２は、こうして取得した画像データと動きベクトルをＲＯＭ３４に記憶した特徴データと照合してジェスチャを検出する。なお、口周辺の画像の範囲としては、両手の手のひらが収まる程度の範囲あるいはそれよりも若干大きい範囲であることが考えられる。耳周辺や目周辺の画像の範囲も同様に、両手の手のひらが収まる程度の範囲あるいはそれよりも若干大きい範囲であることが考えられるが、これらの範囲については、ＣＰＵの処理能力、想定するジェスチャの大きさなどを考慮して、実装に応じて決定してもよい。この処理が終了した場合には、ステップＳ２０に処理を移す。
【００３６】
ステップＳ２０において、ＣＰＵ３２は、ステップＳ１８において検出したジェスチャと、ＲＯＭ３４のジェスチャ入力用テーブルに登録されているステップＳ１６で検出した感覚器官に対応するジェスチャとを比較し、ステップＳ１８において検出したジェスチャの中に、ジェスチャ入力用テーブルに登録されているジェスチャと一致しているジェスチャがあるか否かを判定する処理を行う。一致しているジェスチャがあると判定した場合には（ステップＳ２０でＹＥＳ）、ステップＳ２２に処理を移す。一致しているジェスチャがあると判定しない場合には（ステップＳ２０でＮＯ）、ステップＳ２４に処理を移す。
【００３７】
ステップＳ２２において、ＣＰＵ３２は、ステップＳ１８において一致していると判定したジェスチャに対応する処理プログラムに基づいて、液晶表示装置１０あるいはスピーカ１６を制御する処理を行う。次に、ステップＳ２４に処理を移す。
【００３８】
ステップＳ２４において、ＣＰＵ３２は、スライドショー終了の指示があるか否かを判定する処理を行う。例えば、ＣＰＵ３２は、操作パネル１４の操作によってスライドショー終了の指示が入力されたか否かを判定する。スライドショー終了の指示があると判定した場合には、本ルーチンの処理を終了する。スライドショー終了の指示がないとした場合には、ステップＳ１２に処理を移し、スライドショーを続行する。なお、ステップＳ２４の処理を実行する前に、ジェスチャの検出に用いた撮像部４４の撮影画像データを消去してもよい。
【００３９】
すなわち、デジタルフォトフレーム１においてスライドショーの表示が実行されている間は、ＣＰＵ３２は、撮像部４４によって撮像部４４の撮影範囲内における人間の口、耳、目に対するジェスチャを検出する。そして、ＣＰＵ３２が、それら人間の感覚器官に対するジェスチャを検知した場合には、ＣＰＵ３２は、ジェスチャ入力用テーブルを参照して実行する処理の内容を決定し、決定した処理にしたがって、液晶表示装置１０の表示制御、あるいはスピーカ１６の音声出力制御あるいはマイク１８の音声入力制御を実行する。
【００４０】
次に、図５を用いて、ＲＯＭ３４に記憶されているジェスチャ入力用テーブルの内容について説明する。
【００４１】
ジェスチャ入力用テーブルは、人間の感覚器官、すなわち、目、耳、口に対するジェスチャと、液晶表示装置１０あるいはスピーカ１６に対してＣＰＵ３２が行うべき処理に関する指示とを対応付けたものである。ＣＰＵ３２は、液晶表示装置１０あるいはスピーカ１６に対する指示を特定すると、この指示に対応する処理をＲＯＭ３４から読み出して、液晶表示装置１０及びスピーカ１６の制御を行う。具体的には、本実施の形態における人間の感覚器官としては、目、耳、口が該当しており、人間の感覚器官に対するジェスチャとしては、例えば、目付近における手のひらあるいは指の動作、耳付近における手のひらあるいは指の動作、口付近における手のひらあるいは指の動作が該当する。
【００４２】
ジェスチャ入力用テーブルから、本実施の形態においてジェスチャと、ジェスチャに対応してＣＰＵ３２が行うべき処理の一例として、次のものがあげられる。図５（ａ）に示すように、目付近のジェスチャが、顔の前に両手で眼鏡の形を作るものである場合には（図６（ａ）参照）、写真の表示（スライドショー）を実行する。また、目付近のジェスチャが、手の平をのばし、両目の上でひさしの様にするというものである場合には、スライドショーを停止して、同じ写真をしばらく表示させたままの状態にする。また、目付近のジェスチャが、目の前で、親指と人差し指をくっつけては離すというものである場合には、画像の一部を拡大表示する。目付近のジェスチャが、まぶたを手のひらで覆うというものである場合には、液晶表示装置１０のバックライトをオフにする（ＭＵＴＥ）。
【００４３】
また、図５（ｂ）に示すように、口付近のジェスチャが、口の前で、人差し指と親指で○のマークを作るというものである場合には、ＢＧＭの再生を実行する。また、口付近のジェスチャが、人差し指１本を口の前で立てる『し−っ』という動作である場合には（図６（ｂ）参照）、音量を小さくする。また、口付近のジェスチャが、くっつけた人差し指と親指を口の前で離すというものである場合には、音量を大きくする。口付近のジェスチャが、口で両耳を覆うというものである場合には、音声出力を停止する（ＭＵＴＥ）。また、耳付近のジェスチャが、人差し指で、耳をふさぐというものである場合には（図６（ｃ）参照）、音量を小さくする。また、耳付近のジェスチャが、耳に手のひらをかざすというものである場合には、音量を大きくする。また、耳付近のジェスチャが、手の平で両耳を覆うというものである場合には、音声出力を停止する（ＭＵＴＥ）。
【００４４】
また、図５（ｃ）に示すように、口付近のジェスチャが、口の前でマイクを握ったまねをするというものである場合には（図６（ｄ）参照）、写真への音声の追加記録を実行する。また、口付近のジェスチャが、マイクを口から遠ざけるまねをするというものである場合には、録音音量を下げる。また、口付近のジェスチャが、マイクを口に近づけるまねをするというものである場合には、録音音量を上げる。
【００４５】
図７は、本実施の形態の情報出力装置であるジェスチャ入力装置を備えたデジタルフォトフレーム１の使用例を示すものである。デジタルフォトフレーム１から出力されているＢＧＭの音量を小さくしたい場合には、図７に示すように、口の前に人差し指を立てて「しーっ」という動作をすることにより、ＢＧＭの音量が小さくなる。なお、本実施の形態の情報出力装置であるジェスチャ入力装置においては、図６（ｃ）に示すように、人差し指で耳をふさぐ動作をしても、ＢＧＭの音量を小さくすることができる。
【００４６】
以上説明したように、本実施の形態では、撮像部４４によって撮像した画像から、ＣＰＵ３２が、顔を検出し、さらに顔から特徴物、例えば目、耳、口を検出し、さらに目、耳、口においてどのようなジェスチャを行っているかを検出し、ＲＯＭ３４に記憶されているジェスチャ入力用テーブルを参照して、該特徴物と関連した処理へのジェスチャに対応付けられた処理内容を特定し、この処理内容に基づいて検出した特徴物と関連した処理への制御を行う。このため、例えば、図５に示すように、くっつけた親指と人差し指を離すというジェスチャを、目の前で行えば目と関連した表示処理の制御（例えば写真表示を拡大）を行い、同様のジェスチャを口の前で行えば口と関連した音声出力処理の制御（例えばＢＧＭの音量調整）を行うというようにして、同一のジェスチャであっても行う対象が、例えば、目、耳、口などと異なれば別の操作指示を指定することができるので、操作を指示する項目が多い場合であっても、対応するジェスチャの数は抑制できる。また、ジェスチャを行う対象である感覚器官と関連した処理を該ジェスチャに応じて制御するようにしたので、操作を指示したいときに直感的に対応することができる。
【００４７】
また、本実施の形態においては、検出された特徴物及びその周辺領域の画像から、特徴物に対するジェスチャを検出している。このため、撮像部４４によって撮像した画像の画像データを全てジェスチャの検出に用いることなく、少ない画像データに基づいてジェスチャの検出を行うことが可能になり、ＣＰＵ３２の処理負担を軽減することができる。
【００４８】
また、ジェスチャ入力用テーブルは、図５に示したものではなく、対応関係はこれに限らない。例えば、一方の手で口の前に指で○を作り、他方の手で耳の側に指で○を作れば通信オン、また、一方の手で口を覆い、他方の手で耳を覆うと通信オフというように、複数の感覚器官のジェスチャに１つのパラメータを対応させてもよい。
【００４９】
ジェスチャ入力用テーブルはユーザが自由に設定できるようにしてもよい。また、本実施の形態では、ジェスチャ入力テーブルをＲＯＭ３４に記憶するとして説明したが、本発明はこれに限定されず、電気的にデータの書き換えが可能なメモリ、例えば、ＲＡＭ３６に記憶してもよい。このようにして、ユーザが操作パネル１４を操作することによって、ユーザの好みに応じて、ジェスチャと、対応する処理とを、ジェスチャ入力用テーブルに自由に設定できるようにしてもよい。
【００５０】
さらに、本実施の形態においては、ＣＰＵ３２が検出する特徴物を人間の感覚器官としているため、例えば、表示関連の操作を指示する場合であれば目付近のジェスチャに対応させ、音量関連の操作を指示する場合であれば耳付近のジェスチャに対応させ、音声関連の操作を指示する場合であれば口付近のジェスチャに対応させるというように、操作の指示内容を感覚器官別に分類することができる。このように、感覚器官の機能に関連性のある操作とジェスチャとを対応させることによって、ジェスチャを親しみやすくし、かつ、覚えやすくすることができる。また、感覚器官を基にしたインタフェースとなるので、言語や文化が異なる世界中の国々で共通のインタフェースとして用いることが可能になる。さらに、リモコンなどの第３の機器を用いることなく、制御の対象となる機能を持った構成部を遠隔操作することができるになる。
【００５１】
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限るものではない。例えば、撮像部４４の撮影画像の中に、複数の顔が含まれている場合には、最も中央よりの顔、あるいは最も大きく写されている顔を選択し、選択した顔の目、耳、口付近のジェスチャに基づいて、そのジェスチャの対象となっている感覚器官によって特定される機能を制御するようにしてもよい。
【００５２】
また、最初に検出する特徴物を、人間の感覚器官としたが、本発明はこれに限定されず、撮像部４４の撮影範囲に含むことができ、ＣＰＵ３２が認識可能であれば、特徴物は眼鏡などのように、該感覚器官と関連している物体でもよい。この場合、ＣＰＵ３２は、設定した特徴物付近のジェスチャを検出して、操作の指示を決定して、その物体と関連している感覚器官（眼鏡であった場合は、目）によって特定される機能（目であった場合は、表示機能）を制御するようにしてもよい。
【００５３】
また、予め所有者の画像を登録し、撮像画像から顔を検出する時に、所有者の顔であるか否かを判別し、所有者の顔である場合に目、耳、口の検出を行うようにすることによって、所有者のみのジェスチャによって制御の対象となる機能を制御するようにしてもよい。
【００５４】
上述の実施の形態では、本発明をデジタルフォトフレームに適用した場合について説明したが、本発明はこれに限定されず、例えば、テレビ、冷蔵庫、エアコンなどの電気製品や電子機器の制御部として適用してもよく、また上述の実施の形態で示した目、耳、口のうちの少なくとも何れか１つを検出し、その検出した感覚器官によって特定される機能を制御するものであればよい。あるいはＣＰＵとメモリを含む、撮像部が有するコンピュータを上述した各手段として機能させるプログラムによって動作させることができる。プログラムは、通信回線を介して配布することも可能であるし、ＣＤ−ＲＯＭ等の記録媒体に書き込んで配布することも可能である。
【００５５】
さらに、図１に示すデジタルフォトフレーム１においては、本体ケース５の内部に情報出力装置であるジェスチャ入力装置と液晶表示装置１０及びスピーカ１６等の制御対象となる機能を持った構成部とを設けているが、情報出力装置と制御の対象となる機能を持った構成部とを分離してもよい。ジェスチャ入力装置と制御の対象となる機能を持った構成部とを分離した場合については次の実施の形態で説明する。
【００５６】
［第２の実施の形態］
図８は本発明の第２の実施の形態の情報出力装置である遠隔制御装置を含むシステムの概要を示す図で、図９は本発明の第２の実施の形態の情報出力装置である遠隔制御装置の制御ブロック図である。第１の実施の形態と同様の構成には、同様の符号を付して詳細な説明を省略する。本実施の形態の情報出力装置である遠隔制御装置は、第１の実施の形態情報出力装置であるジェスチャ入力装置の特徴に加えて、遠隔制御装置と制御の対象となる機能を持った構成部とを分離しているという特徴を有する。図８に示すように、遠隔制御装置７０は、デジタルテレビ受信装置１５０、ＤＶＤ記録再生装置１６０、ビデオ記録再生装置１７０、衛星放送用チューナ１８０、地上デジタル放送用チューナ１９０のＡＶ機器等をコントロールするためのコマンドを赤外線送信する機能、及び、例えば、図示していない浴室の湯沸器をオンオフするためのコマンドを無線送信する機能が備えられている。遠隔制御装置７０からのコマンドを直接ＡＶ機器に赤外線送信できない場合には、遠隔制御装置７０からのコマンドを中継装置１２０を介してＡＶ機器に送信する。
【００５７】
遠隔制御装置７０は、図９に示すように、制御回路１００と、制御回路１００に接続した撮像部１１０、操作パネル１１２、赤外線発生部１０４、アンテナ１０８とから構成されている。制御回路１００は、ＣＰＵ３２と、ＲＯＭ３４と、ＲＡＭ３６と、赤外線送信回路１０２と、無線送信回路１０６とを有する。なお、図９に示す遠隔制御装置７０の構成において、図２を参照して説明した制御回路３０における構成要素と同様の構成要素については、同一の符号を付して詳細な説明を省略する。また、撮像部１１０についても、図２を参照して説明した撮像部４４と同様の構成で実現可能であるため、詳細な説明を省略する。なお、本実施の形態では、制御回路１００のＲＯＭ３４に記憶されたジェスチャ入力用テーブルには、図５を参照した人間の感覚器官に関連するジェスチャと、ジェスチャに対応する処理の項目に加えて、処理を実行する機器と送信方法も含んでいる。
【００５８】
制御回路１００を構成するＣＰＵ３２は、図２を参照して説明した制御回路３０と同様に、撮像部１１０によって撮影された画像データに基づいて、撮像部１１０の撮影範囲内における人間の感覚器官、例えば、口、耳、目、及び人間の口、耳、目付近のジェスチャを検出する。そして、ＣＰＵ３２が、人間の感覚器官に対するジェスチャを検知すると、ＣＰＵ３２は、ジェスチャ入力用テーブルを参照して、その感覚器官に対応する機器と送信方法及び処理の内容を決定する。そして、ＣＰＵ３２は、検出した感覚器官が赤外線で情報を送受信する機器に対するものであれば、赤外線送信回路１０２を制御して、赤外線発生部１０４から、決定した処理内容を赤外線信号によって該当する機器に送信する。該当する機器は、こうして送信された赤外線信号を受信すると、赤外線信号が示す処理コマンドを実行して、指定された処理を実行する。また、ＣＰＵ３２は、検出した感覚器官が無線通信で情報を送受信する機器に対するものであれば、無線送信回路１０６を制御して、アンテナ１０８から、決定した処理内容を無線信号によって該当する機器に送信する。該当する機器は、こうして送信された無線信号を受信すると、無線信号が示す検知したジェスチャに対応した処理コマンドを実行して、指定された処理を実行する。
【００５９】
さらに、制御回路１００のＲＯＭ３４には、ジェスチャ入力用テーブルに加えて、さらに、それぞれの処理を赤外線リモコン又は無線リモコンによって各種の機器を遠隔操作するためのコマンドを記憶している。
【００６０】
ジェスチャ入力用テーブルはユーザが自由に設定できるようにしてもよい。本実施の形態では、ジェスチャ入力テーブルをＲＯＭ３４に記憶するとしたが、本発明はこれに限定されず、例えば、電気的にデータの書き換えが可能なメモリ、例えば、ＲＡＭ３６に記憶してもよい。このようにして、ユーザが操作パネル１１２を操作することによって、ユーザの好みに応じて、ジェスチャと、遠隔操作したい機種の機能に対応するコマンドとを関連付けて、ジェスチャ入力用テーブルに設定入力を行うことができる。例えば、目付近のジェスチャは、ＤＶＤ記録再生装置１６０の制御を行う操作の指示に対応させ、口付近のジェスチャはデジタルテレビ受信装置１５０の制御を行う操作の指示に対応させるように、デジタルテレビ受信装置１５０やＤＶＤ記録再生装置１６０を遠隔操作する際のユーザのジェスチャを分類してもよい。
【００６１】
本発明は、上述の実施の形態に限定されるものでは無く、その趣旨を逸脱しない範囲で、上述の実施の形態を種々に組み合わせ、さらには上述の実施の形態に種々に変形を加えた形態とすることができる。
【符号の説明】
【００６２】
１デジタルフォトフレーム
１０液晶表示装置
１２カメラレンズ
１４、１１２操作パネル
１６スピーカ
１８マイク
３０、１００制御回路
３２ＣＰＵ
３４ＲＯＭ
３６ＲＡＭ
４４、１１０撮像部
７０遠隔制御装置（第２の実施の形態）
１０２赤外線送信回路
１０４赤外線発生部
１０６無線送信回路
１０８アンテナ
１２０中継装置
１５０デジタルテレビ受信装置
１６０ＤＶＤ記録再生装置

【特許請求の範囲】
【請求項１】
撮像手段と、
情報を出力する出力手段と
前記撮像手段によって撮像した画像から、遠隔制御する者が有する前記情報の種類に対応する感覚器官の像を検出する検出手段と、
前記検出手段によって前記感覚器官の像を検出すると、前記遠隔制御する者による前記感覚器官に対する所定の動作を検出する動作検出手段と、
前記動作検出手段によって所定の動作を検出すると、前記出力手段による前記情報の出力を、前記動作検出手段によって検出した動作で特定される制御内容で制御する制御手段と、
を備えたことを特徴とする情報出力装置。
【請求項２】
前記情報とは画像であるとともに、前記情報の種類に対応する感覚器官とは前記遠隔制御する者の目であることを特徴とする請求項１記載の情報出力装置。
【請求項３】
前記情報とは音声であるとともに、前記情報の種類に対応する感覚器官とは前記遠隔制御する者の口若しくは耳であることを特徴とする請求項１又は２記載の情報出力装置。
【請求項４】
前記出力手段が情報を出力した際に、前記検出手段による検出があったか否かを判断する検出判断手段と、
この検出判断手段によって検出があったと判断されると、付加情報を入力する付加情報入力手段と、
この付加情報入力手段によって入力された付加情報と前記出力手段が出力した情報に付加する情報付加手段と、
を更に備えたことを特徴とする請求項１乃至３の何れか記載の情報出力装置。
【請求項５】
音声入力手段を更に備え、
前記情報付加手段は、前記音声入力手段によって入力された音声を前記情報に付加することを特徴とする請求項４記載の情報出力装置。
【請求項６】
複数種の機能を実現する装置の制御方法であって、
撮像した画像から所定の特徴物を検出する検出ステップと、
前記検出ステップにて所定の特徴物を検出すると、遠隔制御する者による当該特徴物に対する所定の動作を検出する動作検出ステップと、
前記動作検出ステップにて所定の動作を検出すると、前記複数種の機能のうち前記所定の特徴物で特定される機能を、前記動作検出ステップにて検出した動作で特定される制御内容で制御する制御ステップとを有することを特徴とする遠隔制御方法。
【請求項７】
コンピュータを、
撮像した画像から所定の特徴物を検出する検出手段、
前記検出手段によって所定の特徴物を検出すると、遠隔制御する者による当該特徴物に対する所定の動作を検出する動作検出手段、
前記動作検出手段によって所定の動作を検出すると、複数種の機能のうち前記所定の特徴物で特定される機能を、前記動作検出手段によって検出した動作で特定される制御内容で制御する制御手段、
として機能させることを特徴とするプログラム。

【図１】