画像認識による機器制御方法それを用いたコンテンツ作成方法および装置

【課題】講師が自分の講義を、講義の進捗と並行して講師自身によって記録編集することができれば、イーラーニング用のコンテンツとして有用である。そのためには講師の出す指の本数を認識し、機器制御の合図にできれば便利である。講師は教壇上を歩き回ることが予想されるため、ある程度広角の画像しか期待できず、低い解像度で指の本数を判定しなければならない。
【解決手段】指の１本１本を認識するのではなく、手の幅と伸ばされた指先の幅の比に基づいて指の数を判定する。本発明の方法では、多くの計算量を必要とせず、また、指の開き具合もある程度まで、寛容に判定できるので、コンテンツを講義者自身で記録編集するのに好適な方法を提供できる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、指示者の動作を画像により認識し、その動作に基づいて機器を制御する方法および装置に関する。特に教育用コンテンツを講義者が講義をしながら作成し編集する際に好適に利用することのできる画像認識による機器制御方法および装置に関する。本発明では、指示者の手の指の数を判断し、その指の数を識別することで機器を制御する。
【背景技術】
【０００２】
従来教育や研修の場においては、本やコンパクトディスク（ＣＤ）といった教材を用いていたが、これらの媒体は、量がかさばり、また大量に作成した場合は修正がやりにくいといった問題点があった。
【０００３】
近年イーラーニング（ｅ−ｌｅａｒｎｉｎｇ）と呼ばれるインターネットを利用した教育および研修形態が普及している。イーラーニングでは、学習者がインターネットから提供される教材を用いるため、端末さえあればいつでもどこでも学習ができ、また教材の嵩（かさ）や修正といった問題点も簡単に解決できる。
【０００４】
このイーラーニングの更なる普及には教材となるコンテンツの充実が不可欠となる。できるだけわかりやすく、視覚的にも質の高いコンテンツの整備が望まれる。
【０００５】
しかし、コンテンツの作成には高価な機器の整備、担当者の周到な準備、十分な時間をかけた撮影、さらに事後の編集作業が必要になる。一方、それほど質が高くなくても、必要に応じて簡便にコンテンツを作成できる環境があれば、イーラーニングを気軽に普及させることに役立つ。
【０００６】
例えば、講義において、講師が学習者に提供するのは、講師の映像、資料の映像、板書の映像、講師の音声であり、これらを適切な順番に記録することができればイーラーニングの教材としては役に立つ。これらの情報は講義の進行に伴って講師が演出して学習者に示すものであるから、講師自身がこれらの情報を適宜記録すれば、イーラーニング用の教材を講義と同時に作ることが可能である。
【０００７】
講師は講義に集中しているので、講師によるこれらの情報の選択はできるだけ容易な方法で、しかも違和感なく行えることが必要である。特に、講師は黒板に板書をするため教壇上を動き回る。また、手には資料やチョーク、差し棒を持っている。従って、講義を行いながら通常機器操作手段として考えられるリモコンを使うのは容易でない。
【０００８】
上記のような要求に応えられる方法としては、講師の動作を認識して映像情報等を切換記録できるようにする方法が有力である。特に講師の手の形によって機器を選択制御することができれば、煩雑な操作も必要なく、また教壇の上でリモコンを持ち歩くこともない。
【０００９】
人の手の形を認識して機器制御を行う方法は古くから提案されている。特許文献１では、手の形自体を認識するために手の幾何学的特長と、輪郭線の特徴の２つを併用して、特徴を抽出し、予め用意した候補掌形と比較することで、掌形を認識する掌形認識方法が開示されている。
【００１０】
特許文献２には、キーボードやマウス等の入力装置の代わりに手の形状を認識することによるインターフェース装置が開示されている。ここでは、指の本数の認識方法としては、テンプレートマッチング、形状モデルとのマッチング、ニューラルネットワークを用いた認識方法の存在を開示している。
【００１１】
特許文献３には、人の体を所要の部分領域に分け、部分領域毎の個別の認識処理を行うことで認識率を上げる方法が開示されている。ここでは主として画素の累積画素数を算出することで、画像を認識しようとしている。
【００１２】
特許文献４には、人を含む画像を撮影し、肌色部分を顔および手として分離し、比較的小さな略長方形の領域を抽出し、掌領域との位置関係や大きさの比較を行うことで指の本数を判定する方法が開示されている。
【００１３】
また、特許文献５には、やはり同じく肌色の部分を検出することで、手領域を求め、指同士が重なり合わないようにして得た画像から、指を線分で近似することで伸ばした指の本数を認識する方法が開示されている。
【特許文献１】特開昭６２−３２５８１号公報
【特許文献２】特開平９−１８５４５６号公報
【特許文献３】特開平１１−１９１１５８号公報
【特許文献４】特開２００１−２８０４６号公報
【特許文献５】特開２００３−３４６１６２号公報
【発明の開示】
【発明が解決しようとする課題】
【００１４】
講義の進行自体をイーラーニング用の教材として講師自身が記録編集するには、いくつかの制約がある。具体的には、教壇上を動き回る講師の動作から指の本数を判断しなければならない。すなわち、講師の動作を認識させるカメラは教壇全体が入るような広角レンズを用いる必要がある。従って、あまり高い解像度の画像を得ることは期待できない。
【００１５】
また、講義の進行と同時に機器の選択操作を行うので、講師の動作に対してリアルタイムに反応する必要がある。すなわち、指の数を認識するために複雑で膨大な計算が必要では利用できない。
【００１６】
このような制約条件に対して、手の指の本数を認識する特許文献１、３、４、５は指の輪郭を直線などで近似するため低い解像度の画像データを用いるのは認識精度が低下するおそれがある。
【００１７】
本発明は上記のように、講師が自らの講義を進めながらイーラーニング用の教材として編集を行うという条件の下で、手の指の本数若しくは手の形状を判断する方法を提供する。
【課題を解決するための手段】
【００１８】
上記の課題を解決するために、本発明は指示者の差し出した手の幅（掌形幅）と指先の幅（指先幅）を映像データ上で求めその比（掌形比）から指の本数を判定する。そして判定した指の本数に対応する制御信号を出力する。若しくは掌形比から直接対応する制御信号を求め出力する。
【発明の効果】
【００１９】
本発明は、指の数を認識するのに、手の幅と差し出された指の幅の比で、指の本数を判断するので、低解像度の画像からでも、指の数を判断できる。また、処理の計算量も多くなく、標準となる掌形の候補も用いないため、講師の動作に対して短い時間で反応させることができる。また、講師が差し出した手がカメラに対して多少傾いていても指の本数を誤認識することが少ない。
【００２０】
そのため、指示を出す講師は、簡単な動作で編集操作ができ、講義をしながら自分で、自分の講義を編集しイーラーニング教材を作成することができるという効果を有する。
【発明を実施するための最良の形態】
【００２１】
以下に本発明を説明するための実施の形態について説明を行うが、以下の説明だけに限定されるものではなく、本発明の範囲内で適宜変更若しくは公知の技術を追加することができる。また、実施の形態１での説明は適宜他の実施の形態２にも適用でき、その逆も同様である。
【００２２】
（実施の形態１）
図１に本実施の形態の画像認識による機器制御装置（以下「画像処理装置」という。）を用いたコンテンツ作製システムの全容を示す。本システムには、講師の指の本数を求めるために、講師を撮影しているサブカメラ１２と、サブカメラ１２からの映像を取得し、講師の指の本数を判断する画像処理装置１０と、画像処理装置１０が制御するビデオセレクタ１４と、ビデオセレクタからの信号を記録するレコーダ１８を有する。なお、本明細書および特許請求の範囲において、指の本数を「指数」ともいう。
【００２３】
また、ビデオセレクタ１４には、講師の顔を映すカメラ２０と、黒板を映すカメラ２２と、講義資料を映し出すプロジェクタ２４とが接続されている。
【００２４】
また、ビデオセレクタ１４の出力とマイク２６の出力は合成器１６に接続されている。合成器１６の出力はレコーダ１８に接続されている。
【００２５】
合成器１６の出力はまた分配器３２にも接続されており、講師自身が見ることのできる映像モニタ３４と受講生たちが見る映像モニタ４０や４２を有する。
画像処理装置１０からは、制御信号の状態を示す制御表示器３０が接続されている。
【００２６】
次に各構成機器を詳細に説明する。
サブカメラ１２は、講師（以下「指示者」という。）を常に撮影する。サブカメラ１２からの映像は、指示者が機器制御のための指示（以下「制御指示」という。）を出す合図として示す指の本数を判断するために使われる。従って、できるだけ分解能の高いカメラが望ましい。一方、指示者は教壇の上を左右に動く事が想定される。そこで、サブカメラ１２を固定カメラとした場合は、教壇の端から端までが写せるように、画角の広い映像を写せる広角のレンズを持ったカメラがよい。
【００２７】
サブカメラ１２で写した指示者の画像データＶｍは、画像処理装置１０に送られる。画像処理装置１０では、画像データＶｍから指示者の指の本数を抽出する。指の本数の抽出の仕方についての詳細は後述する。
【００２８】
そして、指示者の指の本数に応じた制御信号Ｓｃｖ、Ｓｃｐをビデオセレクタ１４とプロジェクタ制御器２５へ出力する。制御信号Ｓｃｖは、ビデオセレクタ１４へ入力されるカメラ２０からの映像信号Ｖｃ１、カメラ２２からの映像信号Ｖｃ２およびプロジェクタ２４からの映像信号Ｖｐｊのうちのどの映像信号を出力させるかを制御する。
【００２９】
制御信号Ｓｃｐはプロジェクタ制御器２５から映像を、出力させるまたは出力する画像を変えるといった動作を制御する。
【００３０】
カメラ２０とカメラ２２はそれぞれ指示者を追うカメラと、板書を写すカメラである。指示者を追うカメラ２０は、話をしている指示者を写すためのものであり、サブカメラ１２とは役割が異なる。従って、視聴しにくい範囲でない限り画角の狭い、望遠タイプのカメラであってもよい。
【００３１】
カメラ２２は板書を写すカメラである。黒板に書いたチョークの文字や白板に書いた黒マジックの文字が判別できるように撮影できるカメラがよい。また、黒板全体を一度に写せるカメラであるのが好ましい。
【００３２】
プロジェクタ２４は、説明用の資料などを教壇前に設置したスクリーン４５に映すためのプロジェクタである。プロジェクタ制御器２５からの出力を教壇の前に設置されたスクリーンなどに映写する。
【００３３】
プロジェクタ制御器２５は、描画ソフトウェアが搭載された小型のコンピュータなどで構成され、制御信号Ｓｃｐによって、画像の出力や出力画像の変更を行う。
【００３４】
カメラ２０、カメラ２２、プロジェクタ２４の映像出力信号はそれぞれＶｃ１、Ｖｃ２、Ｖｐｊであり、ビデオセレクタ１４に送られる。
【００３５】
ビデオセレクタ１４は、Ｖｃ１、Ｖｃ２、Ｖｐｊを入力し、そのうちの１つ、若しくは複数の信号を整形して１にした信号Ｖｓｉｇを出力する。つまり映像選択を行う。複数の信号を整形して１つにした信号とは、複数の信号を１画面に入るように整形した信号をいう。すなわち、Ｖｓｉｇは、Ｖｃ１、Ｖｃ２、Ｖｐｊのうちの１つの信号でもあるし、また、Ｖｃ１とＶｃ２といった複数の映像信号を１つの画面に入るように修正し１つの映像信号とした信号も含む。Ｖｓｉｇは、合成器１６に入力される。
【００３６】
マイク２６は、指示者の音声を拾うマイクである。このマイク２６の出力Ａｓｉｇは合成器１６に入力される。図１には特に示していないが、マイク２６の出力を合成器１６までの間で分割したり、また適当なアンプやエフェクターを接続しても構わない。
【００３７】
合成器１６はビデオセレクタ１４の出力Ｖｓｉｇとマイク２６の出力Ａｓｉｇを合成し映像音声信号ＡＶｓｉｇとして出力する。合成器１６は、使用するＶｓｉｇやＡｓｉｇの信号の形式の種類によって適宜構成を変えてもよい。しかし、出力信号となる映像音声信号ＡＶｓｉｇは、再生されることが前提であるので、既存のフォーマットに準じた形式やプロトコルであるのが望ましい。映像音声信号ＡＶｓｉｇは、レコーダ１８と分配器３２に入力される。
【００３８】
レコーダ１８は、合成器１６の出力である映像音声信号ＡＶｓｉｇが入力され記録する。レコーダ１８は、指示者の行う講義の内容を音声と映像で記録するものである。公知のアナログ映像音声記録装置やデジタル映像音声記録装置を利用することができる。
【００３９】
分配器３２は、合成器１６からの映像音声信号ＡＶｓｉｇを分配する。公知の分配器を利用することができる。また、分配器３２には１つ若しくは複数のモニタが接続される。図ではモニタ３４、モニタ４０、モニタ４２の３台のモニタが接続されている様子を示す。このうち、モニタ３４は、指示者用のモニタである。指示者はこのモニタの映像を見て、教材として記録されるコンテンツの内容を確認できる。モニタ４０、モニタ４２は、講義を直接受ける受講生のためのモニタである。なお、受講生のためのモニタはインターネットを介して国内外の遠隔地にも設置してもよい。
【００４０】
制御表示器３０は、画像処理装置１０が指示者の指示をどのように判定したかを指示者に示す機器である。指示者は教壇の上で一定のポーズを取ることで、画像処理装置１０に制御指示を出す。しかし、その指示は指示者用のモニタ３４を見ただけでは分からない場合もある。そこで、制御表示器３０は、指示者の行ったポーズを画像処理装置１０がどのように判定したかを表示する。
【００４１】
制御表示器３０は画像処理装置１０からの制御表示信号Ｓｉｄを受け取る。このＳｉｄを指示者に見える形態で表示する。可視状態に表示すると言っても良い。具体的には、モニタ上に映し出すようにしてもよいし、予め決められたランプを点灯させるような形態であってもよい。また、この制御表示信号Ｓｉｄには、指示されたことを認識したが、指の本数を識別できなかった場合の信号を含む。
【００４２】
例えば、指示者の指示があまりに早かったために指の数を識別できなかった場合などにこの信号をＳｉｄとして出力する。このような表示は、指示者に再度制御指示を行うように促す信号であるともいえる。
【００４３】
なお、制御表示器３０は、指示者に画像処理装置１０の識別状態を伝えるためのものであるので、指示者用のモニタ３４だけに出力できるように構成してもよい。この場合は、合成器１６からの映像音声信号による画面表示に重なるようにＳｉｄの表示を映出してもよい。
【００４４】
以上のようなコンテンツ作製システムの動作について詳細な説明を行う。まず、コンテンツ作成システムの全体の動作を図２のフローを参照して説明する。
【００４５】
図２を参照して、コンテンツ作成システムが起動すると（Ｓ１０００）、システムを終了するか否かを判断する（Ｓ１００２）。この判断は、電源がオフにされたといったハードウェア的な割り込み処理でもよい。システムを終了する場合は、処理を停止する（Ｓ１００５）。サブカメラ１２は、指示者の映像Ｖｍを画像処理装置１０へ送る（Ｓ１１００）。画像処理装置１０は、画像毎に指示者の映像を分析し（Ｓ１２００）、制御指示のポーズであるか否かを判断する（Ｓ１３００）。制御信号を出力するポーズである場合は、指示者の指の本数を抽出する（Ｓ１４００）。そして、指示者の指の本数に応じた制御信号を出力する（Ｓ１５００）。
【００４６】
指示者は、自らが受講生に語りかけるような場面では、カメラ２０を選択し、板書する際にはカメラ２２を選択し、資料に基づいて説明を行う際はプロジェクタを選択する。そして、これらの選択制御は指示者の制御指示のポーズによって切り替えられる。
【００４７】
次に指示者のポーズを認識し、指の数に対応する制御信号を出力する部分について詳細に説明する。
【００４８】
図３に画像処理装置１０の構成を示す。画像処理装置１０は、コンピュータで構成され、画像処理はほとんどソフトウェアで実現される場合が多い。従って、具体的にはＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｏｒＵｎｉｔ）とメモリと入出力部だけで構成される場合が多い。ここでは、処理の流れが理解しやすいように処理単位での構成を示して説明を進める。なお、それぞれの処理を半導体などの実際のハードウェアで構成してもよい。
【００４９】
画像処理装置１０は、制御部１００とメモリ２００、メモリ２０２、メモリ２０４、カウンタ２５０と信号変換器３００および出力ポート部４００を含む。３つのメモリは１つのメモリ中の領域で区別してもよい。メモリ２００には指の本数を判断するための対応テーブルＴＲｗ−ｆｇが記憶されている。メモリ２０２には、判定された指の本数と出力すべき制御信号の対応表である制御信号対応テーブルＴｆｇ−Ｓｃが記憶されている。メモリ２０４には、指示者のいない場合の背景画面Ｄｂｋが記録されている。
【００５０】
なお、この背景画面はコンテンツ作成システムを使用する前に予め記憶されているものとする。また、図示していないが、制御部１００が使用するワークエリアおよび制御部１００の処理を行うプログラムを格納するためのメモリ領域は別途有する。カウンタ２５０は、指示者のポーズが一定時間継続する事を確認するために用いる。タイマーで時間を測定することで代用することもできる。また、図３ではメモリを制御部１００の中に含めたが、メモリは制御部１００の外にあってもよい。
【００５１】
信号処理器３００は入力された指示者の映像Ｖｍを、画像処理のための画像データＤｚに変換する装置である。例えばＶｍがアナログ信号の場合は、適当なＡＤ変換によってデジタルデータに変換する装置である。元々の入力信号Ｖｍがデジタル信号で直接画像処理に使える場合は、信号変換器３００はなくてもよい。
【００５２】
出力ポート部４００は、制御部１００からの制御信号Ｓｃを接続された機器へ正しく送信する。ここでは、画像処理装置１０は、ビデオセレクタ１４への制御信号Ｓｃｖとプロジェクタ制御器への制御信号Ｓｃｐを出力するので、制御信号Ｓｃは、ＳｃｖとＳｃｐを含んでいる。また、出力ポート部４００は、制御表示器３０への表示信号Ｓｉｄも出力する。
【００５３】
制御部１００は、人物データ検出部１３０、重心線検出部１３２、腕先データ検出部１１０と、掌形幅検出部１１２、指先幅検出部１１４、指数判定部１１６、制御信号出力部１１８を含む。
【００５４】
以下これらの動作を図３の構成図と図４のフローを参照しつつ説明する。画像処理装置１０への入力信号はサブカメラ１２からの指示者映像信号Ｖｍであった。これは信号処理器３００で入力画像データＤｚに変換され、制御部１００に入力される（図２のＳ１１００）。画像データＤｚが入力されると、人物データ検出部１３０が、入力画像データＤｚからメモリ２０４に記憶された背景データＤｂｋを差し引き、人物データＤｄを抽出する（Ｓ１２１１）。
【００５５】
この際、人物データＤｄは２値化される。２値化は入力画像データＤｚから背景データＤｂｋを差し引いた値に対して背景部分の値をゼロと判定できる適当な閾値を設け、その閾値との比較で行えばよい。すなわち、人物データＤｄでは人物の部分は1の値になり、背景の部分は値がゼロとなる。
【００５６】
次に重心線検出部１３２で、人物データＤｄ中の重心線を求める（Ｓ１２１２）。重心線とは、画面に映った人物のシルエットの重心を通るＹ軸に平行な縦方向の線である。
【００５７】
図６を参照して重心線を説明する。図６は重心線が付加された人物データＤｄｃの例である。Ｄｄｃは人物データＤｄの重心を求めたデータをいう。枠線５３は人物データＤｄの１単位を示す。例えば１フィールドであってもよいし、１フレームであってもよい。人物データＤｄは２次元のデータであり、それぞれの画素点は座標によって区別される。ここでは、画面横方向をＸ軸５０とし、画面縦方向をＹ軸５１とする。
【００５８】
背景データＤｂｋを差し引いてあるので、背景部分５４は、値がゼロの部分である。図６では白であらわした。指示者の映像５５は２値化された結果すべて値が１の画素となる。図６では黒であらわした。もちろん、白と黒を逆にしてもよい。人物データＤｄは、人物のシルエットとして得ることができる。上半身しかないのは、腰から下は机などの背景データに隠れてしまったからである。
【００５９】
重心は、２値化した人物データＤｄの画面上の座標データを用い、ｘ座標、ｙ座標それぞれの座標の平均を求めることで得ることができる。また最小２乗法などの方法で求めてもよい。図５に、重心５６を示す。重心を通るＹ軸に平行な直線を重心線５７とする。
【００６０】
図３および図４に戻って、次に腕先データ検出部１１０によって腕から先のデータである腕先データＤａｒｍを抽出する（Ｓ１２１３）。これは重心を付加した人物データＤｄｃの重心線から所定の距離だけ離れた部分を切り出すことによって行う。すなわち、人物データから腕先データを抽出する。また、重心に基づいて人物データを分割するとも言える。これからわかるように、指示者は画像処理装置１０に対して制御指示を出す場合は、体から一定の距離だけ離れた空間まで腕を伸ばしそこで必要な本数の指を伸ばすポーズをとる。
【００６１】
ここでの一定距離の決め方には特に限定されるものではない。例えば、固定値を最初から決めておいてもよいし、人物データのシルエットの横幅に基づいてその都度求めてもよい。固定値としては、４０〜６０ｃｍが好適である。この程度の距離であれば、指示者は違和感なく腕を伸ばして制御指示の合図を出せるからである。
【００６２】
もし、指示者の腕が下がっていたり、若しくは体の近くにあって、制御信号を出す合図でない場合には、腕先データＤａｒｍには、２値化された背景のデータであるゼロしかない。すなわち、腕先データＤａｒｍが値を持つか否か（Ｓ１３１１）で、指示者が所定のポーズをしたか否かを判断できる。
【００６３】
なお、腕先データＤａｒｍの値とは、人物画像データＤｄの重心線から所定の距離だけ離れた一定の領域を切り出した中に含まれる値が１の画素数の総和である。また、偶然に指示者の腕の一部が切り出した領域に入る場合もあり、Ｄａｒｍが所定の値を越えるか否かで判断しても良い。図４で説明すると、ステップＳ１３１１では、Ｄａｒｍの値と「Ｌａ」を比較しているが、「Ｌａ」はゼロでもよいし、所定の値でも構わない。
【００６４】
図７には腕先データＤａｒｍを検出した状態を示す。重心を求めた人物データＤｄｃの重心線５７から所定の距離６０離れた部分画像データ６２を切り出す。部分画像データ６２が腕先データＤａｒｍに相当する。図７の状態では、部分画像データ６２の領域中に指示者の腕の部分６４がある。この部分の画素データは値が１であるので、部分画像データ６２全体での画素データを総和すると値を持つ。この値を腕先データＤａｒｍの値とする。
【００６５】
腕先データＤａｒｍがあった場合は、さらに、それが一定時間継続しているかを判断する（Ｓ１３１２）。図３の構成図では、腕先データ検出部１１０は、腕先データＤａｒｍを検出した場合は、カウンタ２５０をインクリメントし、カウンタの値が一定以上になっているかどうかを確認する。また、タイマーを用いて所定時間の経過を検出してもよい。
【００６６】
これは、指示者の動きのなかで、体の重心線から一定距離だけ離れた位置に腕が移動する場合もあり、そのようなポーズは制御指示のポーズから排除するためである。従って、指示者は制御指示のためのポーズを一定時間維持しなければならない。この時間が余り長いと指示者は講義のリズムを崩してしまう。０．３から１．５秒が好適である。０．３秒より短いと、制御指示を意図しない動作でも、指示があったものと誤認してしまう場合がある。
【００６７】
また１．５秒を超えると、指示者は講義のリズムを崩してしまう。０．４秒から０．６秒がより好適である。一定時間指示者の指示ポーズが継続している場合（Ｓ１３１２のＹ分岐）は、腕先データＤａｒｍを出力する（Ｓ１３１３）。
【００６８】
本発明の特徴は、この腕先データから掌形の幅と指先の幅を抽出し、その比を予め記憶させておいた閾値と比較することで指の本数を判定し、その比若しくは判定した指の本数に対応する制御信号を出力する点にある。腕先データＤａｒｍは、掌形幅検出部１１２と指先幅検出部１１４に送られる。
【００６９】
掌形幅検出部１１４では、掌形データＤａｒｍの最も幅の広い部分の長さを掌形幅データＤｗｈとして抽出する（Ｓ１４１１）。図８では、７０の部分が掌形幅データＤｗｈである。この抽出方法に特に限定された方法はないが、腕先データＤａｒｍのＸ軸上の１点において、値が１であるＹ座標の数が最も多い点を見つけ、そのときのＹ座標の数を掌形幅データＤｗｈとするなどの方法が利用できる。
【００７０】
一方、指先幅検出部１１４は、腕先データＤａｒｍに対して、重心線から遠い方の端部の幅を指先幅データＤｗｆとして検出する（Ｓ１４１１）。図８では７１の部分が指先幅データＤｗｆである。ＤｗｆをどのＸ座標で抽出するかについては、特に限定されるものではない。例えば、腕先データＤａｒｍの中で最もＹ軸から離れた点の距離の９５％の点のＸ座標上で抽出するなどが考えられる。
【００７１】
図３の構成図においては、掌形幅検出部１１２と指先幅検出部１１４は並列になるように記載したが、ソフトウェア的に行う場合は、どちらかを先に処理してもよい。なお、図４のフローでは、ＤｗｈとＤｗｆの抽出を１つの処理（Ｓ１４１１）として記載したが、どちらを先に行ってもよい。
【００７２】
再び図３、図４を参照して、掌形幅データＤｗｈと指先幅データＤｗｆは、指数判定部１１６に送られる。指数幅判定部１１６は、ＤｗｈとＤｗｆの比である掌形比Ｒｗを求め、メモリ２００に記憶している指数判定テーブルＴＲｗ−ｆｇのそれぞれの閾値と比較し指数Ｎｆを判定する（Ｓ１４１２）。
【００７３】
図９に指数判定テーブルＴＲｗ−ｆｇの例を示す。掌形幅と指先幅の比であるＲｗ（＝Ｄｗｆ／Ｄｗｈ）は０から１までの間の値で４つの区間を設定してある。それぞれの区間に対して指の数Ｎｆが対応している。例えばＲｗの値が、０．４１であった場合は、指の数Ｎｆは２本と判断される。
【００７４】
指数判定テーブルＴＲｗ−ｆｇの区間の境界となる閾値は、個人や性別により異なるため、いくつかの掌形データを測定し、統計的な平均を求めて決めるのが好適である。なお、図９の指数判定テーブルの閾値は例示であって、これに限定されるものではない。
【００７５】
このように本発明では、伸ばされた指の本数を数えるのに、実際の指を認識して本数を決めるのではなく、伸ばされた指のシルエットの幅と手の幅の比によって判定する。そのため、判定のための計算量が少なく、また解像度が高くない掌形データからも指数を判別することができる。
【００７６】
また、本発明の指の本数の判定方法は、指先幅と掌形幅の比Ｒｗを用いるので、指先が多少開いている場合や差し出された手が多少傾いていても計算量が増えることなく判断できる。また、個々の指を認識するのではないので誤認識することも少ない。これは、指示者が自然に出した指の本数を判定できることを意味する。従って、指示者は、制御指示を出す際に、画像処理装置に指の本数を認識させようと、強く意識する必要がなく、講義に集中できる。
【００７７】
指数Ｎｆを判定したらその値を出力する（同Ｓ１４１２）。この指数Ｎｆは、図１で示した制御表示器３０への通知信号Ｓｉｄとしても出力される。図３では指数判定部１１６からの指数Ｎｆを出力ポート部４００を介して制御表示器３０への信号Ｓｉｄとして出力しているように記したが、１例を示したものである。指示者はこの表示を見て、自分行ったポーズによって、自分の意思通りの指示が認識されたか否かを知ることができる。
【００７８】
以上のＳ１２１１からＳ１２１３は、図２のポーズ検出処理Ｓ１２００に含まれる。また、Ｓ１３１１からＳ１３１３は図２の制御指示か否かの判断Ｓ１３００に含まれる。また、Ｓ１４１１からＳ１４１２は図２の指の本数を抽出する処理Ｓ１４００に含まれる。
【００７９】
次に図３と図５を参照して、続く処理を説明する。制御部１００の指数判定部１１６からは、指数Ｎｆが出力される。制御信号出力部１１８は、指数Ｎｆを受け取り、メモリ２０２に記憶されている、制御信号対応テーブルＴｆｇ−Ｓｃと比較し、出力すべき制御信号を決定し、出力する。
【００８０】
ここでは、指示者の指は１本から４本まで区別できる場合で説明を進める。１本の場合はカメラ１（２０）、２本の場合はカメラ２（２２）、３本の場合はプロジェクタ２４、のそれぞれの出力をビデオセレクタ１４で選択する。また４本の場合はプロジェクタ制御器２５に次の画像を出力させる。以上のような取り決めは予め決めておく必要がある。
【００８１】
指示者の指の本数が１本の場合は（Ｓ１５１０）、画像処理装置１０は制御信号Ｓｃｖでカメラ１（２０）の出力Ｖｃ１を選択し出力するようにビデオセレクタを制御する（Ｓ１５１１）。
【００８２】
指示者の指の本数が２本の場合は（Ｓ１５１５）、画像処理装置１０は制御信号Ｓｃｖでカメラ２（２２）の出力Ｖｃ１を選択し出力するようにビデオセレクタを制御する（Ｓ１５１６）。
【００８３】
指示者の指の本数が３本の場合は（Ｓ１５２０）、画像処理装置１０は制御信号Ｓｃｖでプロジェクタ２４の出力Ｖｐｊを選択し出力するようにビデオセレクタを制御する（Ｓ１５２１）。
【００８４】
また、指示者の指の本数が４本の場合は（Ｓ１５２５）、画像処理装置１０は制御信号Ｓｃｐでプロジェクタ制御器２５に次の画像を出力するように制御を行う（Ｓ１５２６）。
【００８５】
これらのいずれでもない場合は、再指示表示を制御表示器３０に出力し（Ｓ１５３０）、処理を戻す。処理は、図２の終了判定（Ｓ１００２）へ戻る。
【００８６】
制御信号出力部１１８は、出力すべき制御信号Ｓｃ（Ｓｃｖ若しくはＳｃｐ）を出力ポート部４００に出力する。出力ポート部４００は、複数の出力ポートを有し、制御信号の種類によって正しい出力先に制御信号を送る。ここでは、ビデオセレクタの制御信号Ｓｃｖはビデオセレクタ１４へ、またプロジェクタ制御器への制御信号Ｓｃｐはプロジェクタ制御器２５へ送る。
【００８７】
制御信号Ｓｃは、制御する機器毎に出力できるようにしてもよいし、制御対象機器にアドレスなどを割り当て、アドレスとコード化した制御信号を送り出してもよい。
図１０には、メモリ２０２に記憶された制御信号対応テーブルＴｆｇ−Ｓｃの例を示す。指数Ｎｆに対する制御信号Ｓｃが記録されている。例えば、指数Ｎｆが２本の場合はＶｃ２を選択する制御信号Ｓｃである旨が記録してある。なお、実際にはＳｃの内容は所定のコードで記載してある。このテーブルの内容は予め記憶させておく。
【００８８】
図９および図１０を参照すると、指数Ｎｆは、掌形比Ｒｗの範囲と制御信号Ｓｃを関係付ける付ける変数となっている。そこで、掌形比Ｒｗを制御信号Ｓｃと直接関連付けてもよい。この場合は、図３の指数対応テーブル２００には、掌形比と制御信号の対応テーブルが記載され、指数判定部１１６からの出力は制御信号Ｓｃとなる。また、制御信号出力部１１８と制御対応テーブル２０２は省略することができる。図１１には、その具体的な対応テーブルＴＲｗ−Ｓｃを示す。
【００８９】
また、図４の処理フローでは、Ｓ１０４３の指数Ｎｆを判定し出力する処理で、制御信号Ｓｃ自体を出力する。それを受けて図５のＳ１５１０乃至Ｓ１５２５の判断処理は、制御信号Ｓｃ自体を判断する処理に置き換わる。具体的な例としては、Ｓ１５１０では、「指の本数が１本であるか否か」を判断するが、これを「制御信号ＳｃはＶｃ１を選択する信号か否か」を判断する処理に置き換わる。
【００９０】
以上の動作を行うコンテンツ作成システムを用いると、講師である指示者は、講義を進めながら、同時に適宜制御指示のポーズを取るだけで、講師、板書、プロジェクタ出力の映像を切り替え、指示者の音声による説明とともに記録することができる。このようにして作成されたコンテンツは、そのままイーラーニングの教材として利用することができる。すなわち、機器制御のための補助者や後からの編集作業をすることなく、講師が講義を行いながら１人で教材を作成することができる。
【００９１】
なお、ビデオセレクタにつないだ機器は３つとしたが、それ以上であってもよい。また、画像処理装置１０は、より多くの機器を制御してもよい。また、指示者の制御指示を得るためのサブカメラ１２は、赤外線カメラであってもよい。特に近赤外線を感知できるカメラであれば、背景の映像のコントラストを低くすることができ、背景データＤｂｋを差し引いて人物データＤｄを得る際のＳＮＲを高くすることが可能である。また、背景の映像のコントラストを十分に低くできる場合は、人物データを得る際に背景データを差し引く必要がなく、２値化を行うだけで人物データＤｄを得ることも可能である。
【００９２】
また、サブカメラ１２は固定カメラとして説明を行ったが、指示者を自動追尾するようにしてもよい。この場合はサブカメラ１２の回転アングルに応じた背景データを予め取得しておき、指示者を撮影したアングルに対応する背景データを使って人物データを取得するようにすればよい。
【００９３】
また、上記の赤外線カメラを用いて背景データを省略できる場合は、サブカメラ１２を赤外線カメラとして指示者を自動追尾してもよい。また、上記の説明では人物データとして指示者の上半身が入る画像で説明をしたが、サブカメラ１２の前に差し出した制御指示の手の形を認識させるようにしてもよい。
【００９４】
また、以上に説明した処理は適当なプログラム言語で記載し、画像処理装置１０に格納し、実行させることで実現することができる。また、そのようなプログラムを記載した記録媒体を外部記憶手段等に用意し、そのプログラムを読み込んで実行させてもよい。
【００９５】
（実施の形態２）
本実施の形態では、指示者の出す制御指示の種類を増やす方法を例示する。実施の形態１では、人物データＤｄに対して重心線を求め、重心線から一定の距離を離れた領域部分に指示者の腕（腕先データＤａｒｍ）があるか否かを判断していた。ここで腕先データＤａｒｍの存在領域をより細かくすることで、多くの指示を出すことができる。
【００９６】
図１２には、重心を求めた人物データＤｄｃに対して腕先データＤａｒｍの検出位置を増やした例を示す。人物データＤｄに対して例えば４つの領域を定義した場合を示す。この領域を定義するために、実施の形態１求めた重心線５７に加え、頭上線８７を求める。これは人物データＤｄの中でＹ軸方向の最も高い値を見つければよい。
【００９７】
そして、重心線５７と頭上線８７で区切られる領域を識別のための領域とする。領域８０は実施の形態１と同じ方向にある領域である。ただし、領域８１は新しく定義された領域である。
【００９８】
領域８３は、領域８０と同じように重心線５７から所定の距離だけ離れた領域を切り出す。領域８１、８２は、人物のシルエットの左右であって、頭上線８７より高い部分である。
【００９９】
以上の領域を定義しておき、図４および図５の処理に修正を加える。図１２および図１３に修正を加えた処理のフローを示す。なお、図３に示す制御部１００の各構成要素も本実施の形態の処理に従って変更される。ここでは図３の各構成要素に補足的な説明を加える。重心線検出部１３２では、重心線だけでなく頭上線も求め、これらの線によって人物データを領域に分ける（Ｓ１２２２）。
【０１００】
このとき、領域毎の識別データ（以後「領域データＤａｒｅ」とする。）を付与する。ここでは、領域データＤａｒｅは領域８０から領域８２の符号と一致させ、それぞれ８０乃至８２とする。すなわち、例えば領域８０のＤａｒｅは「８０」である。腕先データ検出部１１０では、４つの領域毎に腕先データＤａｒｍの有無を調べる（Ｓ１３２１）。ある領域でＤａｒｍが存在した場合は、所定時間の経過を確認して（Ｓ１３２２）、Ｄａｒｍの存在する領域データＤａｒｅと腕先データＤａｒｍを出力する（Ｓ１３２３）。これは腕先データＤａｒｍが存在する領域データＤａｒｅを検出する工程とも言える。
【０１０１】
掌形幅検出部１１２および指先幅検出部１１４では、各領域データを参考にして掌形幅と指先幅を求める（Ｓ１４２１）。そして掌形比Ｒｗを求め、指先対応テーブルに基づいて指数Ｎｆと領域データＤａｒｅを出力する（Ｓ１４２２）。ここで指数対応テーブルは実施の形態１の場合と同じでも良いが、各領域毎の指数対応テーブルを用意してもよい。手を体の横に出した時と、頭の上に伸ばした時では、カメラの解像度が変化する場合もあり、それぞれの手の方向で掌形比に対する指数の閾値が変化する場合もあるからである。
【０１０２】
図１５に領域毎の指数対応テーブルの例を示す。この指数対応テーブルが図３の指数対応テーブル２００の代わりにメモリに記録され用いられる。領域データが８０と８３は左右の違いはあるが体の横方向なので、同じ掌形比で指数を判断できる。領域８１と８２は手を上に上げた場合であるので、横方向と縦方向のカメラの解像度の違いで少し閾値が変っている。使用するシステムやカメラによって、全ての領域毎に指数対応テーブルを有していても構わない。
【０１０３】
図１４を参照して、制御信号出力部１１８は、まず領域データＤｒａｒが領域８０、領域８１、領域８２、領域８３のいずれの領域にあるかを確認し（Ｓ１５５０、Ｓ１５６０、Ｓ１５７０、Ｓ１５８０）、それぞれに対応する制御信号を制御信号対応テーブルから選び出力する（Ｓ１５５５、Ｓ１５６５，Ｓ１５７５、Ｓ１５８５）。なお、Ｓ１５５５、Ｓ１５６５，Ｓ１５７５、Ｓ１５８５の処理は図５の処理と同様に、指の本数毎に制御信号を選択する。
【０１０４】
図１６には領域データと指数に対応する制御信号テーブルを例示する。この制御信号対応テーブルは図３の制御信号対応テーブル２０２に代えてメモリに記録され用いられる。そして、制御信号出力部１１８は、Ｓ１５５５、Ｓ１５６５，Ｓ１５７５、Ｓ１５８５での処理を行う場合は、このテーブルに従って、制御信号を出力する。
【０１０５】
領域８０から８３に対して指数が１から４まで識別することができる。指示者が右利きの場合、左手は比較的空いているので左手を上げて、映像信号の選択を行えるよう、領域データが８２の場合にＶｃ１の選択などの映像信号選択関係の制御信号を割り当ててある。未定義の部分は画像処理装置１０が指示者の動作を識別しても特に制御信号を出力しない。ただし、制御表示信号Ｓｉｄは出力する。指示者に制御指示を認識はしている点を通知するためである。
【０１０６】
カメラ２は板書を映すカメラであるが、左右に腕を広げて指を２本出すことで、カメラ２が左右にパンする制御信号を定義してある。具体的には領域データが８０で指数Ｎｆが２の場合と領域データが８３で指数Ｎｆが２の場合である。
【０１０７】
また領域データが８０で指が１本の場合にカメラ２のズームアウトを領域データが８１で指が１本の場合にカメラ２のズームインを割り当ててある。これによって指示者が右手を上げて指を１本伸ばすと、カメラ２はズームインし、そのまま右腕を体の横まで下ろすとカメラ２はズームアウトする。なお、この場合、図３においては、画像処理装置１０からカメラ２へパンやズームを制御するための信号線が用意されるのは言うまでもない。
【０１０８】
以上のように、指示者の人物データを複数の領域に分割し、分割された領域で指示者の出した指数を識別することで、指示の種類を多くすることができ、より細かい制御を一人で行うことができる。
【０１０９】
なお、掌形比と制御信号を直接関連付けてもよいのは実施の形態１の場合と同じである。図１７に領域データと掌形比に対する制御信号を直接関連付けたテーブルを例示する。また、頭上線は頭の頂点でなく、頭の中心や首、若しくは肩の高さにしてもよい。
【０１１０】
また、本発明では掌形幅と指先幅を映像から取得したが、掌形幅や指先幅をより細かく判断するようにしてもよい。例えば、親指の出し方で掌形幅が変わる。従って親指の出し方を識別するようにしてもよい。また、掌形の小指に沿ったラインと伸ばした指との段差を識別するようにしてもよい。このようにより細かく識別を行うと、より正確な認識をすることができる。
【０１１１】
また、本発明の掌形比に基く機器制御方法に、他の画像認識を組み合わせてもよい。例えば、指示者の腕の屈伸状態や、指示者の手のひらの向き、また、手や腕の動きを動的に認識するなどが含まれる。
【０１１２】
また、所定の時間内に制御指示を複数回行うことで、２桁若しくはそれ以上の桁数の制御信号の種類を定義してもよい。また、領域の分割は重心線や頭上線による分割に限定しないし、より多くの分割をおこなってもよい。また、本発明の機器制御方法は、一般家庭のテレビ等の機器制御に利用できるのは言うまでもない。
【産業上の利用可能性】
【０１１３】
コンテンツを一人で作成するシステムに好適に利用することができる。
【図面の簡単な説明】
【０１１４】
【図１】本発明のコンテンツ作成システムの構成を示す図である。
【図２】本発明のコンテンツ作成方法のフローを示す図である。
【図３】本発明の画像処理装置の構成を示す図である。
【図４】本発明の画像処理装置での動作のフローを示す図である。
【図５】本発明の画像処理装置での動作のフローを示す図である。
【図６】人物データを例示する図である。
【図７】腕先データを例示する図である。
【図８】掌形幅と指先幅を求める様子を例示する図である。
【図９】指数対応テーブルを例示する図である。
【図１０】制御信号対応テーブルを例示する図である。
【図１１】掌形比と制御信号を対応させたテーブルを例示する図である。
【図１２】人物データを４つの領域に分けた状態を例示する図である。
【図１３】領域を複数に分けた場合の処理のフローを示す図である。
【図１４】領域を複数に分けた場合の処理のフローを示す図である。
【図１５】領域毎の指数対応テーブルを例示する図である。
【図１６】領域データと指数に対応する制御信号テーブルを例示する図である。
【図１７】領域データと掌形比に対する制御信号を直接関連付けたテーブルを例示する図である。
【符号の説明】
【０１１５】
１０画像処理装置
１２サブカメラ
１４ビデオセレクタ
１６合成器
１８レコーダ
２０カメラ
３０制御表示器
３２分配器
３４モニタ
４５スクリーン

【特許請求の範囲】
【請求項１】
指示者の腕先データを検出する工程と、
前記腕先データから掌形幅を検出する工程と、
前記腕先データから指先幅を検出する工程と、
前記指先幅と前記掌形幅の比を掌形比として求める工程と、
前記掌形比に対応した制御信号を出力する工程を有する画像認識による機器制御方法。
【請求項２】
指示者の腕先データを検出する工程と、
前記腕先データから掌形幅を検出する工程と、
前記腕先データから指先幅を検出する工程と、
前記指先幅と前記掌形幅の比を掌形比として求める工程と、
前記掌形比から指数を判定する工程と、
前記指数に対応した制御信号を出力する工程を有する画像認識による機器制御方法。
【請求項３】
指示者の上半身を含む画像データを得る工程と、
前記指示者の背景の画像データを前記上半身を含む画像データから差し引き、人物データを得る工程と、
前記人物データから腕先データを得る工程と、
前記腕先データから掌形幅を検出する工程と、
前記腕先データから指先幅を検出する工程と、
前記指先幅と前記掌形幅の比を掌形比として求める工程と、
前記掌形比に対応した制御信号を出力する工程を有する画像認識による機器制御方法。
【請求項４】
前記人物データを複数の領域に分割する工程と、
前記腕先データは前記複数の領域のどの領域に存在したかを示す領域データを検出する工程をさらに含み
前記制御信号を出力する工程は、
前記掌形比と前記領域データに対応した制御信号を出力する工程である請求項３記載の画像認識による機器制御方法。
【請求項５】
指示者の上半身を含む画像データを得る工程と、
前記指示者の背景の画像データを前記上半身を含む画像データから差し引き、人物データを得る工程と、
前記人物データから腕先データを得る工程と、
前記腕先データから掌形幅を検出する工程と、
前記腕先データから指先幅を検出する工程と、
前記指先幅と前記掌形幅の比を掌形比として求める工程と、
前記掌形比から指数を判定する工程と、
前記指数に対応した制御信号を出力する工程を有する画像認識による機器制御方法。
【請求項６】
前記人物データを複数の領域に分割する工程と、
前記腕先データは前記複数の領域のどの領域に存在したかを示す領域データを検出する工程をさらに含み
前記制御信号を出力する工程は、
前記指数と前記領域データに対応した制御信号を出力する工程である請求項５記載の画像認識による機器制御方法。
【請求項７】
前記領域に分割する工程は、
前記人物データの重心を求める工程と、
前記重心に基づいて前記人物データを複数の領域に分割する工程を含む請求項４または６の何れかの請求項に記載された画像認識による機器制御方法。
【請求項８】
前記制御信号は可視状態に表示する工程を含む請求項１乃至７のいずれかの請求項に記載された画像認識による機器制御方法。
【請求項９】
請求項１乃至８のいずれかの請求項に記載された工程を実行するプログラム。
【請求項１０】
請求項９のプログラムを記録した記録媒体。
【請求項１１】
複数の映像信号のうちの少なくとも１の映像信号を制御信号により選択する映像選択工程と、
前記制御信号を請求項１乃至７のいずれかの画像認識による機器制御方法によって得る工程を有するコンテンツ作成方法。
【請求項１２】
前記映像選択工程で選択された前記映像信号を記録する工程を含む請求項１１記載のコンテンツ作成方法。
【請求項１３】
前記記録する工程は音声を記録する工程も含んだ請求項１２記載のコンテンツ作成方法。
【請求項１４】
指示者の掌形幅と指先幅の比率である掌形比と前記掌形比に対応する制御信号を記した制御信号テーブルを記憶したメモリと、
前記指示者の腕先データが入力され、
前記腕画像データから掌形幅と指先幅を求め、
前記掌形幅および指先幅の比率である掌形比を求め、
前記掌形比と前記制御信号テーブルから制御信号を得て、
前記制御信号を出力する制御部と
を有する画像認識による機器制御装置。
【請求項１５】
指示者の掌形幅と指先幅の比率である掌形比と前記掌形比に対応する指数を記した指数判定テーブルと、
前記指数に対応する制御信号を記した制御信号テーブルとを記憶したメモリと、
前記指示者の腕から先の腕先データが入力され、
前記腕先データから掌形幅と指先幅を求め、
前記掌形幅および指先幅から求めた掌形比と前記指数判定テーブルから指数を求め、
前記指数と前記制御信号テーブルから対応する制御信号を得て、
前記制御信号を出力する制御部と
を有する画像認識による機器制御装置。
【請求項１６】
指示者の掌形幅と指先幅の比率である掌形比と前記掌形比に対応する制御信号を記した制御信号テーブルと、前記指示者の背景の画像からなる背景データを記録したメモリと、
前記指示者の前記上半身を含む画像データが入力され、
前記画像データから前記背景データを差し引いて人物データを抽出し、
前記人物データから腕先データを抽出し、
前記腕先データから掌形幅と指先幅を求め、
前記掌形幅および指先幅の比率である掌形比を求め、
前記掌形比と前記制御信号テーブルから制御信号を得て、
前記制御信号を出力する制御部と
を有する画像認識による機器制御装置。
【請求項１７】
前記制御信号テーブルは、前記人物データの中で前記腕先データを抽出した領域を示す領域データと前記掌形比に対応した制御信号を記した制御信号テーブルであり、
前記制御装置は、さらに
前記人物データを複数の領域に分割し、
前記腕先データは前記複数の領域のどの領域に存在したかを示す領域データを検出し、
前記制御信号を、
前記掌形比と前記領域データに基づき前記制御信号テーブルから得て出力する請求項１６記載の画像認識による機器制御装置。
【請求項１８】
指示者の掌形幅と指先幅の比率である掌形比と前記掌形比に対応する指数を記した指数判定テーブルと、
前記指数に対応する制御信号を記した制御信号テーブルと、
前記指示者の背景の画像からなる背景データ
を記録したメモリと、
前記指示者の前記上半身を含む画像データが入力され、
前記画像データから前記背景データを差し引いて人物データを抽出し、
前記人物データから腕先データを抽出し、
前記腕先データから掌形幅と指先幅を求め、
前記掌形幅および指先幅から求めた掌形比と前記指数判定テーブルから指数を求め、
前記指数と前記制御信号テーブルから対応する制御信号を得て、
前記制御信号を出力する制御部と
を有する画像認識による機器制御装置。
【請求項１９】
前記制御信号テーブルは、前記人物データの中で前記腕先データを抽出した領域を示す領域データと前記指数に対応した制御信号を記した制御信号テーブルであり、
前記制御装置は、さらに
前記人物データを複数の領域に分割し、
前記腕先データは前記複数の領域のどの領域に存在したかを示す領域データを検出し、
前記制御信号を、
前記指数と前記領域データに基づき前記制御信号テーブルから得て出力する請求項１８記載の画像認識による機器制御装置。
【請求項２０】
前記制御信号は可視状態に表示する制御信号表示器をさらに有する請求項１４ないし１９のいずれかの請求項に記載された画像認識による機器制御装置。
【請求項２１】
請求項１３乃至１８のいずれかに記載の画像認識による機器制御装置と、
前記画像認識による機器制御装置からの制御信号によって、
複数の映像信号のうちの少なくとも１の映像信号を選択するビデオセレクタとを有するコンテンツ作成システム。
【請求項２２】
前記ビデオセレクタの出力を記録するレコーダをさらに有する請求項２１記載のコンテンツ作成システム。
【請求項２３】
前記レコーダは、さらに音声をも記録する請求項２２記載のコンテンツ作成システム。

【図１】