通信端末装置、通信制御装置、通信端末装置の通信制御方法、通信制御プログラム

【課題】ユーザの動作に応じて送信するユーザ画像を変更できる通信端末装置、通信制御装置、通信端末装置の通信制御方法、通信制御プログラムを提供する。
【解決手段】遠隔会議中に、端末装置のユーザが、ジェスチャーを行っているか否かを検出する（Ｓ４）。ユーザがジェスチャーを行っていない場合には（Ｓ５：ＮＯ）、相手ユーザの端末装置に対して、ユーザの顔画像を送信する（Ｓ３）。ユーザがジェスチャーを行っている場合には（Ｓ５：ＹＥＳ）、相手ユーザの端末装置に対して、ユーザの上半身画像を送信する（Ｓ７）。ユーザがジェスチャーで感情を表現しようとした場合、相手ユーザはユーザのジェスチャーを確認することができる。ユーザがジェスチャーを行わない場合、相手ユーザは、ユーザの顔の表情を確認できる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、他拠点の端末との間で、画像と音声を双方向に送受信できる通信端末装置、通信制御装置、前記通信端末装置の通信制御方法、通信制御プログラムに関する。
【背景技術】
【０００２】
従来、複数の端末をネットワークを介して接続し、画像と音声を双方向に送受信することで、遠隔の地にある者同士の会議を実現するテレビ会議システムが知られている。このシステムでは、会議参加者は表示画面に表示された相手と会議を行う。画像を介して情報を伝達できるため、会議参加者は、表示画面に表示された相手画像から相手の表情を読み取り、相手の感情などを推測することができる。例えば、入力音声から発言者を推定し、自動的にクローズアップ撮影することができるカメラ制御方法及び装置並びに記憶媒体が提案されている（例えば、特許文献１参照）。この制御方法では、発言者がクローズアップ撮影されるので、相手端末の表示画面には発言者の表情を確実に表示させることができる。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開平１１−３４１３３４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、会議参加者は、感情を表現する場合に会話に身振り手振り等のジェスチャーを交えることがある。特許文献１に記載のカメラ制御方法では、表示画面には会議参加者の顔画像のみが表示されるため、会議参加者がジェスチャーで感情を表現しようとしても、表示画面にジェスチャーが映らない問題点があった。表示画面にジェスチャーを映すために撮影範囲を広げると、会議参加者の顔画像が相対的に小さくなってしまい、表情が確認できなくなってしまうという問題点があった。
【０００５】
本発明は、上記課題を解決するためになされたものであり、ユーザの動作に応じて送信するユーザ画像を変更できる通信端末装置、通信制御装置、通信端末装置の通信制御方法、通信制御プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
上記目的を達成するために、請求項１に係る発明の通信端末装置は、ネットワークを介して接続された他の通信端末装置と画像及び音声を介した通信を行う通信端末装置であって、ユーザを撮影する撮影手段と、前記撮影手段により撮影された撮影画像から、前記ユーザの掌及び腕の少なくともいずれかの動きが所定量以上ある状態を前記ユーザの動作として検出する動作検出手段と、前記動作検出手段によって前記動作が検出された場合に、前記撮影手段によって撮影された撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定手段と、前記動作検出手段によって前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域の画像の範囲を第二画像範囲として決定する第二画像範囲決定手段と、前記第一画像範囲決定手段によって決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段によって決定された前記第二画像範囲の画像を、前記他の通信端末装置に送信する画像送信手段と、前記他の通信端末装置から送信された前記画像を受信する画像受信手段と、前記画像受信手段によって前記画像が受信された場合に、前記画像を表示画面に表示させる画像表示制御手段とを備えている。
【０００７】
また、請求項２に係る発明の通信端末装置は、請求項１に記載の発明の構成に加え、前記動作検出手段は、前記掌及び前記腕の両方に所定量以上の動きがある状態を前記動作として検出することを特徴とする。
【０００８】
また、請求項３に係る発明の通信端末装置は、請求項１又は２に記載の発明の構成に加え、前記動作検出手段は、前記掌の形状に所定量以上の変化がある状態を前記掌の動きとして検出することを特徴とする。
【０００９】
また、請求項４に係る発明の通信端末装置は、請求項１乃至３のいずれかに記載の発明の構成に加え、前記動作検出手段は、前記腕の位置が所定量以上変化した状態を前記腕の動きとして検出することを特徴とする。
【００１０】
また、請求項５に係る発明の通信端末装置は、請求項１乃至４のいずれかに記載の発明の構成に加え、前記撮影画像から前記対象ユーザの鼻位置を検出する鼻位置検出手段をさらに備え、前記第一画像範囲決定手段は、前記鼻位置検出手段によって検出された前記鼻位置が、前記第一画像範囲の水平方向における中心点となるように、前記第一画像範囲を決定することを特徴とする。
【００１１】
また、請求項６に係る発明の通信端末装置は、請求項１乃至５のいずれかに記載の発明の構成に加え、複数のユーザの中から発言者を特定する発言者特定手段を備え、前記動作検出手段は、前記発言者特定手段によって特定された前記発言者の掌及び腕の少なくともいずれかの動きが前記所定量以上ある状態を前記発言者の動作として検出し、前記第一画像範囲決定手段は、前記発言者の顔領域と掌領域と腕領域とを含む上半身画像の範囲を前記第一画像範囲として決定し、前記第二画像範囲決定手段は、前記発言者の前記顔領域を含む顔画像の範囲を前記第二画像範囲として決定することを特徴とする。
【００１２】
また、請求項７に係る発明の通信端末装置は、請求項６に記載の発明の構成に加え、前記撮影手段により撮影された前記撮影画像から人物を認識する人物認識手段と、前記人物認識手段によって認識された前記人物の口形の変化を検出する口形検出手段とを備え、前記発言者特定手段は、前記口形検出手段によって前記口形の変化が所定量以上検出された人物を前記発言者として特定することを特徴とする。
【００１３】
また、請求項８に係る発明の通信端末装置は、請求項６又は７に記載の発明の構成に加え、前記ユーザの音声を検出するとともに、前記音声の方向を検出する音声検出手段を備え、前記発言者特定手段は、前記音声検出手段により検出された前記方向にいる人物を前記発言者として特定することを特徴とする。
【００１４】
また、請求項９に係る発明の通信制御装置は、ネットワークを介して複数の通信端末装置に接続され、前記通信端末装置間で行われる通信を制御する通信制御装置であって、前記通信端末装置の撮影手段によって撮影され、前記通信端末装置から送信される撮影画像を受信する撮影画像受信手段と、前記撮影画像受信手段によって受信された前記撮影画像に基づき、前記ユーザの掌及び腕の少なくともいずれかの動きがある状態を前記ユーザの動作として検出する動作検出手段と、前記動作検出手段によって前記動作が検出された場合に、前記撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定手段と、前記動作検出手段によって前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域を含む顔画像の範囲を第二画像範囲として決定する第二画像範囲決定手段と、前記第一画像範囲決定手段によって決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段によって決定された前記第二画像範囲の画像を、前記通信端末装置に送信する画像送信手段とを備えている。
【００１５】
また、請求項１０に係る発明の通信端末装置の通信制御方法は、ネットワークを介して接続された他の通信端末装置と、画像及び音声を介した通信を行う通信端末装置の通信制御方法であって、ユーザの掌及び腕の少なくともいずれかの動きがある状態を前記ユーザの動作として検出する動作検出ステップと、前記動作検出ステップにおいて前記動作が検出された場合に、ユーザを撮影する撮影手段によって撮影された撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定ステップと、前記動作検出ステップにおいて前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域の画像の範囲を第二画像範囲として決定する第二画像範囲決定ステップと、前記第一画像範囲決定ステップにおいて決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段において決定された前記第二画像範囲の画像を、前記他の通信端末装置に送信する画像送信ステップと、前記他の通信端末装置から送信された前記画像を受信する画像受信ステップと、前記画像受信ステップにおいて前記画像が受信された場合に、前記画像を表示画面に表示させる画像表示制御ステップとを備えている。
【００１６】
また、請求項１１に係る発明の通信制御プログラムは、請求項１乃至８のいずれかに記載の通信端末装置の各種処理手段としてコンピュータを機能させることを特徴とする。
【発明の効果】
【００１７】
請求項１に係る発明の通信端末装置では、ネットワークを介して接続された他の通信端末装置と画像及び音声を介した通信が行われる。撮影手段はユーザを撮影する。動作検出手段は、撮影手段により撮影された撮影画像から、ユーザの掌及び腕の少なくともいずれかの動きが所定量以上ある状態をユーザの動作として検出する。第一画像範囲決定手段は、動作検出手段によって動作が検出された場合に、撮影手段によって撮影された撮影画像の中から、ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する。第二画像範囲決定手段は、動作検出手段によって動作が検出されなかった場合に、撮影画像の中から、ユーザの顔領域の画像の範囲を第二画像範囲として決定する。画像送信手段は、第一画像範囲決定手段によって決定された第一画像範囲の画像、又は第二画像範囲決定手段によって決定された第二画像範囲の画像を、他の通信端末装置に送信する。画像受信手段は、他の通信端末装置から送信された画像を受信する。画像表示制御手段は、画像受信手段によって画像が受信された場合に、その画像を表示画面に表示させる。このように、動作検出手段によって動作が検出されなかった場合は、ユーザの顔領域の画像が他の通信端末装置に送信され、動作が検出された場合は、上半身領域の画像が他の通信端末装置に送信される。よって、他の通信端末装置では、ユーザがジェスチャーを行っている場合には、ユーザの上半身領域の画像が表示画面に表示され、ユーザがジェスチャーを行っていない場合には、ユーザの顔領域の画像が表示される。よって、ユーザがジェスチャーで感情を表現しようとした場合、相手ユーザはユーザのジェスチャーを確認することができる。また、ユーザがジェスチャーを行わない場合、相手ユーザは、ユーザの顔の表情を確認できる。よって、異なる拠点にいる会議参加者同士で良好なコミュニケーションをとることができる。また、ユーザがジェスチャーを行わないときは、上半身画像よりもデータ量の小さい顔画像を送信するので、通信負荷を軽減できる。
【００１８】
また、請求項２に係る発明の通信端末装置では、請求項１に記載の発明の効果に加え、動作検出手段は、掌及び腕の両方に所定量以上の動きがある状態を動作として検出する。つまり、ユーザの上半身の小さな揺れ等の動作として検出せず、ユーザの所定量以上の大きな動作のみを検出することができる。
【００１９】
また、請求項３に係る発明の通信端末装置では、請求項１又は２に記載の発明の効果に加え、動作検出手段は、掌の形状に所定量以上の変化がある状態を掌の動きとして検出する。これにより、ユーザが掌を動かして感情表現している場合に、掌の画像を含む上半身画像を表示画面に表示させることができる。さらに、掌の形状に所定量以上の変化があった場合にのみ検出するので、掌の形状の小さな変化があった場合には、掌の動きとして検出することがない。
【００２０】
また、請求項４に係る発明の通信端末装置では、請求項１乃至３のいずれかに記載の発明の効果に加え、動作検出手段は、腕の位置が所定量以上変化した状態を腕の動きとして検出する。これにより、ユーザが腕を動かして感情表現している場合に、腕の画像を含む上半身画像を表示画面に表示させることができる。さらに、腕の位置に所定量以上の変化があった場合にのみ検出するので、腕の位置の小さな変化があった場合には、腕の動きとして検出することがない。
【００２１】
また、請求項５に係る発明の通信端末装置では、請求項１乃至４のいずれかに記載の発明の効果に加え、第一画像範囲決定手段は、鼻位置検出手段をさらに備えている。鼻位置検出手段は、撮影画像から対象ユーザの鼻位置を検出する。第一画像範囲決定手段は、鼻位置検出手段によって検出された鼻位置が、第一画像範囲の水平方向における中心点となるように、第一画像範囲を決定する。これにより、ユーザの顔画像を表示画面の中心に常に位置させることができる。
【００２２】
また、請求項６に係る発明の通信端末装置では、請求項１乃至５のいずれかに記載の発明の効果に加え、発言者特定手段は、複数のユーザの中から発言者を特定する。動作検出手段は、発言者特定手段によって特定された発言者の掌及び腕の少なくともいずれかの動きが所定量以上ある状態を前記発言者の動作として検出する。第一画像範囲決定手段は、発言者の顔領域と掌領域と腕領域とを含む上半身画像の範囲を第一画像範囲として決定する。第二画像範囲決定手段は、発言者の顔領域を含む顔画像の範囲を第二画像範囲として決定する。従って、複数のユーザが一拠点にいる場合は、その中の発言者について第一画像範囲又は第二画像範囲を指定することができる。
【００２３】
また、請求項７に係る発明の通信端末装置では、請求項６に記載の発明の効果に加え、人物認識手段は、撮影手段により撮影された撮影画像から人物を認識する。口形検出手段は、人物認識手段によって認識された人物の口形の変化を検出する。発言者特定手段は、
口形検出手段によって口形の変化が所定量以上検出された人物を発言者として特定する。これにより一拠点に複数のユーザがいる場合でもその中から発言者を的確に特定できる。
【００２４】
また、請求項８に係る発明の通信端末装置では、請求項６又は７に記載の発明の効果に加え、音声検出手段は、ユーザの音声を検出するとともに、音声の方向を検出する。発言者特定手段は、音声検出手段により検出された方向にいる人物を発言者として特定する。これにより一拠点に複数のユーザがいる場合でもその中から発言者を的確に特定できる。
【００２５】
また、請求項９に係る発明の通信制御装置では、ネットワークを介して複数の通信端末装置に接続され、通信端末装置間で行われる通信を制御する。撮影画像受信手段は、通信端末装置の撮影手段によって撮影され、通信端末装置から送信される撮影画像を受信する。動作検出手段は、撮影画像受信手段によって受信された撮影画像に基づき、ユーザの掌及び腕の少なくともいずれかの動きがある状態をユーザの動作として検出する。第一画像範囲決定手段は、動作検出手段によって動作が検出された場合に、撮影画像の中から、ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する。第二画像範囲決定手段は、動作検出手段によって動作が検出されなかった場合に、撮影画像の中から、ユーザの顔領域を含む顔画像の範囲を第二画像範囲として決定する。画像送信手段は、第一画像範囲決定手段によって決定された第一画像範囲の画像、又は第二画像範囲決定手段によって決定された第二画像範囲の画像を、通信端末装置に送信する。これにより、動作検出手段によって動作が検出されなかった場合は、ユーザの顔領域の画像を通信端末装置の表示画面に表示させ、動作が検出された場合は、ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像を表示画面に表示させることができる。ユーザの動作に応じてユーザの画像サイズを調節できるので、ユーザの動作に応じて表情や動作を通信端末装置の表示画面に確実に表示できる。従って、ユーザの感情を豊かに表現できるので、相手と良好なコミュニケーションをとることができる。また、ユーザが動作しないときは、第一画像範囲の画像よりもデータ量の小さい第二画像範囲の画像を送信するので、通信負荷を軽減できる。
【００２６】
また、請求項１０に係る発明の通信端末装置の通信制御方法では、動作検出ステップにおいて、ユーザの掌及び腕の少なくともいずれかの動きがある状態をユーザの動作として検出する。第一画像範囲決定ステップにおいて、動作検出ステップにて動作が検出された場合に、ユーザを撮影する撮影手段によって撮影された撮影画像の中から、ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する。第二画像範囲決定ステップにおいて、動作検出ステップにて動作が検出されなかった場合に、撮影画像の中から、ユーザの顔領域の画像の範囲を第二画像範囲として決定する。画像送信ステップにおいて、第一画像範囲決定ステップにて決定された第一画像範囲の画像、又は第二画像範囲決定手段において決定された第二画像範囲の画像を、他の通信端末装置に送信する。画像受信ステップにおいて、他の通信端末装置から送信された画像を受信する。画像表示制御ステップにおいて、画像受信ステップにて画像が受信された場合に、画像を表示画面に表示させる。このように、動作検出手段によって動作が検出されなかった場合は、ユーザの顔領域の画像が表示画面に表示され、動作が検出された場合は、ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像が表示画面に表示される。これにより、ユーザの動作に応じてユーザの画像サイズを調節できるので、ユーザの動作に応じて表情や動作を表示画面に確実に表示できる。従って、ユーザの感情を豊かに表現できるので、相手と良好なコミュニケーションをとることができる。また、ユーザが動作しないときは、第二画像範囲の画像よりもデータ量の小さい第一画像範囲の画像を送信するので、通信負荷を軽減できる。
【００２７】
また、請求項１１に係る発明の通信制御プログラムでは、請求項１乃至８のいずれかに記載の通信端末装置の各種処理手段としてコンピュータを機能させるので、請求項１乃至８のいずれかに記載の効果を得ることができる。
【図面の簡単な説明】
【００２８】
【図１】テレビ会議システム１の構成を示すブロック図である。
【図２】端末装置３の電気的構成を示すブロック図である。
【図３】ＨＤＤ３１の各種記憶エリアを示す概念図である。
【図４】ＲＡＭ２２の各種記憶エリアを示す概念図である。
【図５】ディスプレイ２８における一表示態様を示す図である（相手ユーザがジェスチャーを行っていない場合）。
【図６】ディスプレイ２８における一表示態様を示す図である（相手ユーザがジェスチャーを行っている場合）。
【図７】撮影画像５０における顔画像５１の範囲を示す図である。
【図８】撮影画像５０における上半身画像５２の範囲を示す図である。
【図９】ＣＰＵ２０による画像送信処理のフローチャートである。
【図１０】ＣＰＵ２０による顔画像範囲決定処理のフローチャートである。
【図１１】ＣＰＵ２０による動作検出処理のフローチャートである。
【図１２】ＣＰＵ２０による掌動作検出処理のフローチャートである。
【図１３】ＣＰＵ２０による腕動作検出処理のフローチャートである。
【図１４】ＣＰＵ２０による上半身画像範囲決定処理のフローチャートである。
【図１５】ＣＰＵ２０による画像受信処理のフローチャートである。
【図１６】第二実施形態の端末装置１３０の電気的構成を示すブロック図である。
【図１７】ＲＡＭ１２２の各種記憶エリアを示す概念図である。
【図１８】ＣＰＵ１２０による画像送信処理のフローチャートである。
【発明を実施するための形態】
【００２９】
以下、本発明の第一実施形態である端末装置３について、図面を参照して説明する。はじめに、端末装置３を構成要素とするテレビ会議システム１の構成について、図１を参照して説明する。
【００３０】
テレビ会議システム１は、ネットワーク２を介して相互に接続された端末装置３、４を備えている。端末装置３、４は、別拠点に設けられている。このテレビ会議システム１では、端末装置３、４間において、ネットワーク２を介して、画像、音声が互いに送受信されることで、別拠点にあるユーザ同士の遠隔会議が実施される。本実施形態では、端末装置３が設けられた拠点を自拠点、端末装置４が設けられた拠点を他拠点として説明する。
【００３１】
なお、本実施形態では、端末装置３においてユーザがジェスチャーを交えながら会話をしている場合には、端末装置３のユーザの上半身画像を端末装置４に送信し、ユーザがジェスチャーをせずに会話している場合には、ユーザの顔画像を端末装置４に送信する点に特徴がある。
【００３２】
端末装置３の電気的構成について、図２を参照して説明する。図２は、端末装置３の電気的構成を示すブロック図である。なお、端末装置３と端末装置４とは全て同じ構成であるので、ここでは端末装置３の構成についてのみ説明し、端末装置４については説明を省略する。
【００３３】
端末装置３には、端末装置３の制御を司るコントローラとしてのＣＰＵ２０が設けられている。ＣＰＵ２０には、ＢＩＯＳ等を記憶したＲＯＭ２１と、各種データを一時的に記憶するＲＡＭ２２と、データの受け渡しの仲介を行うＩ／Ｏインタフェイス３０とが接続されている。Ｉ／Ｏインタフェイス３０には、各種記憶エリアを有するハードディスクドライブ３１（以下、ＨＤＤ３１）が接続されている。
【００３４】
Ｉ／Ｏインタフェイス３０には、ネットワーク２と通信するための通信装置２５と、マウス２７と、ビデオコントローラ２３と、キーコントローラ２４と、ユーザを撮影するためのカメラ３４と、ユーザの音声を取り込むためのマイク３５と、ＣＤ−ＲＯＭドライブ２６とが各々接続されている。ビデオコントローラ２３には、端末装置４を使用する相手ユーザを表示するディスプレイ２８が接続されている。キーコントローラ２４には、キーボード２９が接続されている。
【００３５】
なお、ＣＤ−ＲＯＭドライブ２６に挿入されるＣＤ−ＲＯＭ１１４には、端末装置３のメインプログラムや、本発明の通信制御プログラム等が記憶されている。ＣＤ−ＲＯＭ１１４の導入時には、これら各種プログラムが、ＣＤ−ＲＯＭ１１４からＨＤＤ３１にセットアップされて、後述するプログラム記憶エリア３１３（図３参照）に記憶される。
【００３６】
次に、ＨＤＤ３１の各種記憶エリアについて、図３を参照して説明する。ＨＤＤ３１には、カメラ３４によって撮影された撮影画像５０（図７、図８参照）を記憶する撮影画像データ記憶エリア３１１と、端末装置３のディスプレイ２８に表示される画面データを記憶する表示画面データ記憶エリア３１２と、各種プログラムを記憶するプログラム記憶エリア３１３と、プログラムの実行に必要な所定値を記憶する所定値記憶エリア３１４と、その他の情報記憶エリア３１５とが少なくとも設けられている。
【００３７】
プログラム記憶エリア３１３には、端末装置３のメインプログラムや、端末装置４との間で遠隔会議を実行するための会議支援プログラム、画像表示に係る本発明の通信制御プログラム等が記憶されている。その他の情報記憶エリア３１５には、端末装置３で使用されるその他の情報が記憶されている。なお、端末装置３がＨＤＤ３１を備えていない専用機の場合は、ＲＯＭ２１に各種プログラムが記憶される。
【００３８】
次に、ＲＡＭ２２の各種記憶エリアについて、図４を参照して説明する。ＲＡＭ２２には、画像範囲記憶エリア２２１と、掌動作記憶エリア２２２と、腕動作記憶エリア２２３と、動作検出記憶エリア２２４と、接続端末記憶エリア２２５と、処理画像記憶エリア２２６が少なくとも設けられている。画像範囲記憶エリア２２１には、撮影画像５０における送信画像の画像範囲が記憶される。掌動作記憶エリア２２２には、撮影画像５０におけるユーザの掌面積が記憶される掌面積記憶エリア２２２１と、撮影画像５０に基づいて検出されたユーザの掌の形状変化の有無を記憶する掌変化記憶エリア２２２２とが設けられている。腕動作記憶エリア２２３には、ユーザの腕の輪郭データが記憶される輪郭データ記憶エリア２２３１と、ユーザの腕の位置が変化しているか否かを記憶する腕変化記憶エリア２２３２とが設けられている。動作検出記憶エリア２２４には、ユーザの動作が検出されたか否かが記憶される。接続端末記憶エリア２２５には、ネットワーク２を介して現在接続している接続端末の端末ＩＤが記憶される。処理画像記憶エリア２２６には、画像処理を行うための画像データが記憶される。
【００３９】
次に、端末装置３のディスプレイ２８に表示される画面について、図５および図６を参照して説明する。端末装置３のディスプレイ２８には、端末装置４から送信される相手ユーザの画像が表示される。相手ユーザがジェスチャーを行っていない場合には、図５に示すように、ディスプレイ２８には相手ユーザの顔の画像が表示される。相手ユーザがジェスチャーを行っている場合には、図６に示すように、ディスプレイ２８には相手ユーザの上半身の画像が表示される。
【００４０】
次に、ユーザのジェスチャーを検出する方法について説明する。本実施形態においては、ユーザが掌と腕との両方を動かしている状態を、ユーザがジェスチャーを行っている状態として検出する。
【００４１】
はじめに、ユーザの掌の動きを検出する方法について説明する。掌の動きの検出は、カメラ３４によって撮影されたユーザの撮影画像５０（図７参照）に基づいて行われる。まず、ユーザの撮影画像５０から、ユーザの掌領域を抽出する。そして、抽出された掌領域の面積に一定以上の変化がある場合には、掌の動きがあるとして検出する。
【００４２】
掌領域の抽出方法は、周知の様々な方法が適用可能であり、例えば、特開２００３−３４６１６２に記載された方法が適用可能である。まず、ＲＧＢ表色系で表示される撮影画像５０をＨＳＶ表色系に変換する。ＨＳＶ表色系は、色の種類を表す色相Ｈ（ｈｕｅ）、色の鮮やかさを表す彩度Ｓ（ｓａｔｕｒａｔｉｏｎ）、そして明るさの程度を表す明度Ｖ（ｖａｌｕｅ）の3つの要素からなる。ＲＧＢ表色系からＨＳＶ表色系への変換方法は、例えば高木・下田監修「画像解析ハンドブック」（東京大学出版会，ｐｐ．４８５−４９１，１９９１年発行）に記載されている。なお、Ｈ、Ｓ、Ｖの値の範囲は、下記の通りである。
・０≦Ｈ≦２π
・０≦Ｓ≦１
・０≦Ｖ≦１
【００４３】
次に、画像中の手領域である場所を抽出するために、肌色抽出を行う。本実施形態では、肌色領域の閾値を下記のように設定する。
・０．１１＜Ｈ＜０．２２、
・０．２＜Ｓ＜０．５
色相Ｈと、彩度Ｓとが、上述の閾値内にある画素を、肌色画素として抽出する。
【００４４】
手領域と背景とを分離するために、肌色画素と非肌色画素とに２値化する。そして、得られた２値画像において、所定範囲内の面積を有する肌色画素部分を掌領域として抽出する。掌領域の抽出は１／３０秒ごとに行われる。
【００４５】
抽出された掌の面積に所定値以上の変化がある場合には、掌の形状に変化があると検出され、面積に所定値以上の変化がない場合には、掌の形状に変化がないと検出される。
【００４６】
次に、ユーザの腕の動きを検出する方法について説明する。腕の動きの検出は、カメラ３４によって撮影されたユーザの撮影画像５０（図７参照）に基づいて行われる。腕の動きの検出は、周知の方法によって行われ、たとえば、『オプティカルフローを用いた複雑背景下における人物の腕領域の抽出と運動パラメータ推定』（電気学会論文誌Ｃ分冊、Ｖｏｌ．１２０−Ｃ、Ｎｏ．１２、ｐｐ．１８０１−１８０８（２０００１２））を用いた方法や、ユーザの撮影画像５０から輪郭データを抽出して、輪郭データをもとに検出する方法や、撮影画像５０からユーザの掌を検出して、掌の位置の変化をもとに検出する方法が適用可能である。本実施形態では、ユーザの撮影画像５０から、ユーザの腕の輪郭データを抽出し、抽出した輪郭データの位置に一定以上の変化がある場合には、腕の動きがあるとして検出する方法を適用する。
【００４７】
この方法では、まず、撮影画像５０の中から、ユーザの腕の輪郭データを抽出するための抽出領域が指定される。ここでは、ユーザの撮影画像５０に存在する一定面積以上の肌色部分が顔領域として抽出され、顔領域より下に存在する肌色部分が掌領域として抽出され、上下方向における顔領域と掌領域との間の領域が、腕の輪郭データを抽出するための抽出領域として指定される。肌色部分の抽出方法は、上述したとおりである。
【００４８】
次に、撮影画像５０に対してグレースケール化を行い、輪郭データを抽出する。輪郭データを抽出する際は、周知の一次微分法を使用する。一次微分法の輪郭抽出では、各画素における濃度の勾配を求めることによって輪郭の強さと方向とを算出し、濃度値が急激に変化する部分を輪郭データとして抽出する。抽出領域の指定および輪郭データの抽出は、１／３０秒ごとに行われる。
【００４９】
抽出された輪郭データに変化があれば腕の動きがあると検出され、輪郭データに所定値以上の変化がなければ、腕の動きがないと検出される。
【００５０】
次に、撮影画像５０の中から、ユーザの顔領域の画像（顔画像５１）の範囲を決定する方法について、図７を参照して説明する。顔画像範囲の決定方法は、周知の方法であり、例えば、特開平１０−３３４２１３に記載された方法が適用可能である。
【００５１】
はじめに、ユーザの上半身が撮影された撮影画像５０から、ユーザの顔領域が抽出される。撮影画像５０からユーザの顔領域を抽出する場合、まず、ＲＧＢ表色系で表示される撮影画像５０をＨＳＶ表色系に変換する。そして、ＨＳＶ表色系に変換された変換画像から、色相Ｈと、彩度Ｓとが、上述の閾値内にある画素を、肌色画素として抽出する。顔領域と背景とを分離するために、肌色画素と非肌色画素とに２値化する。ＨＳＶ表色系への変換方法、肌色画素の抽出方法、２値化の方法は、掌領域の抽出方法で説明した方法と同様である。そして、得られた２値画像において、画像の上半分に存在する肌色画素部分を顔領域として抽出する。
【００５２】
次に、顔画像５１を切り出すための顔画像範囲を決定する。顔画像範囲を決定する場合、まず、撮影画像５０の中から、ユーザの鼻位置を特定する。鼻位置の特定は、顔領域の中心部において隣り合ったふたつの鼻孔部分を検出することにより行う。鼻孔部分には光が照射されないため、暗く撮影される。撮影画像において、顔領域の中心部で暗く撮影された部分を鼻孔として検出し、検出された鼻孔の中心位置を鼻位置として特定する。そして、撮影画像５０の画像領域の左下部分を撮影画像５０におけるＸＹ座標の原点として、鼻位置の撮影画像５０におけるＸＹ座標（ｘ３、ｙ３）を特定する。
【００５３】
次に、抽出された顔領域のＸ座標の最大値と最小値、Ｙ座標の最大値と最小値を検出し、それぞれの値について、鼻位置（ｘ３、ｙ３）との差分を算出する。算出された差分のうちの最も大きい値を第一差分αとし、第一差分αに所定値を加算した第一拡大値Ｎを算出する。第一拡大値Ｎを用いて、鼻位置（ｘ３、ｙ３）が顔画像５１の中心となるように、顔画像５１の範囲を決定する。具体的には、顔画像５１の４隅の座標を下記のように決定する。
・（ｘ３＋Ｎ、ｙ３＋Ｎ）
・（ｘ３＋Ｎ、ｙ３−Ｎ）
・（ｘ３−Ｎ、ｙ３＋Ｎ）
・（ｘ３−Ｎ、ｙ３−Ｎ）
【００５４】
次に、撮影画像５０の中から、ユーザの上半身領域の画像（上半身画像５２）の範囲を決定する方法について、図８を参照して説明する。まず、撮影画像５０の中から、撮影画像の色、幾何学的な形状、濃淡パターン、動きなどが、パラメータとして抽出される。次いで、予めＨＤＤ３１のその他の情報記憶エリア３１５に記憶された人物画像のパラメータのデータベースが参照されて、抽出された上述の各パラメータと、データベースに記憶されている人物画像のパラメータとのマッチング処理が実行される。そして、データベースに記憶されている人物画像のパラメータと良好に一致する撮影画像の部分が特定される。特定された部分の画像が、ユーザ領域として特定される。次に、撮影画像５０の画像領域の左下部分を撮影画像５０におけるＸＹ座標の原点として、ユーザ領域のＸ座標の最大値と最小値とが検出される。
【００５５】
次に、撮影画像５０の中から、ユーザの鼻位置が検出される。鼻位置の特定方法は上述のとおりである。そして、検出された鼻位置のＸ座標ｘ３と、検出されたユーザ領域のＸ座標の最大値と最小値との差分がそれぞれ算出される。差分のうちの大きい値が、第二差分βとされ、第二差分βと所定値Ｕとを加算した値である第二拡大値Ｍが算出される。
【００５６】
そして、鼻位置（ｘ３、ｙ３）と、第二拡大値Ｍとをパラメータとして、上半身画像５２の範囲が決定される。本実施形態では、鼻位置（ｘ３、ｙ３）が、上半身画像５２の左右方向（Ｘ方向）において中心に位置し、上下方向（Ｙ方向）において、下端から２／３のところに位置するように、上半身画像５２が決定される。具体的には、上半身画像５２の４隅の座標は下記のように表される。
・（ｘ３＋Ｍ、ｙ３＋（Ｍ×（２／３）））
・（ｘ３＋Ｍ、ｙ３−（Ｍ×（４／３）））
・（ｘ３−Ｍ、ｙ３＋（Ｍ×（２／３）））
・（ｘ３−Ｍ、ｙ３−（Ｍ×（４／３）））
【００５７】
テレビ会議システム１におけるユーザのジェスチャーを考慮した通信制御処理について図９乃至図１５のフローチャートを参照して説明する。本説明では、自拠点側にある端末装置３と、他拠点側にある端末装置４とが会議を行う場合を想定する。端末装置３、４では、カメラ３４により撮影された撮影画像５０から、ユーザの顔画像５１又は上半身画像５２を切り出して、他の端末装置に対して送信する「画像送信処理」と、他の端末装置が送信した画像を受信して表示する「画像受信処理」との両方が行われる。そこで、説明の便宜上、自拠点側の端末装置３において「画像送信処理」が実行され、他拠点側の端末装置４において「画像受信処理」が実行される場合を例に説明する。
【００５８】
まず、自拠点側の端末装置３のＣＰＵ２０において実行される画像送信処理について、説明する。端末装置３と端末装置４とが各々ネットワークに接続し、互いに通信を開始すると、図９に示す画像送信処理が開始される。画像送信処理が開始されると、はじめに、カメラ３４が駆動され、カメラ３４により撮影された撮影画像５０の取得が開始される（Ｓ１）。カメラ３４により撮影された撮影画像５０の画像データは、撮影画像データ記憶エリア３１１に記憶される。
【００５９】
撮影画像の取得が開始されると（Ｓ１）、顔画像範囲決定処理が行われる（Ｓ２）。顔画像範囲決定処理について、図１０を参照して説明する。この顔画像範囲決定処理は、図９の画像送信処理のＳ２で実行されるサブルーチンである。
【００６０】
顔画像範囲決定処理が開始されると、まず、ＲＧＢ表色系である撮影画像５０がＨＳＶ表色系に変換されて、変換画像として処理画像記憶エリア２２６に記憶される（Ｓ１５１）。ＨＳＶ表色系への変換方法は上述のとおりである。そして、処理画像記憶エリア２２６に記憶された変換画像から、色相Ｈと、彩度Ｓとが、上述の閾値内にある画素が、肌色画素として抽出される（Ｓ１５２）。肌色画素の抽出方法は上述のとおりである。顔領域と背景とを分離するために、肌色画素と非肌色画素とが２値化される（Ｓ１５３）。画像の上半分に存在する肌色画素の部分が顔領域として特定される。
【００６１】
次に、処理画像記憶エリア２２６が参照されて、ユーザの鼻位置が特定される（Ｓ１５４）。鼻位置の特定は、顔領域の中心部において隣り合ったふたつの鼻孔部分を検出することにより行われる。鼻孔部分には光が照射されないため、暗く撮影される。顔領域の中心部において暗く撮影された部分が鼻孔として検出され、検出された鼻孔の中心位置が鼻位置として特定される。そして、撮影画像５０の画像領域の左下部分を撮影画像５０におけるＸＹ座標の原点として、鼻位置の撮影画像５０におけるＸＹ座標（ｘ３、ｙ３）が特定され、画像範囲記憶エリア２２１の鼻位置記憶エリア（図示省略）に記憶される。
【００６２】
次に、顔領域について、Ｘ座標における最大値ｘ１と最小値ｘ２、Ｙ座標における最大値ｙ１と最小値ｙ２が検出される（Ｓ１５５）。検出されたｘ１、ｘ２、ｙ１、ｙ２は、画像範囲記憶エリア２２１の顔領域記憶エリア（図示省略）に記憶される。そして、顔領域記憶エリアと鼻位置記憶エリアとが参照されて、ｘ１とｘ３との差分ａ、ｘ３とｘ２との差分ｂ、ｙ１とｙ３との差分ｃ、ｙ３とｙ２との差分ｄが算出される（Ｓ１５６）。なお、差分ａ、ｂ、ｃ、ｄは、下記の式で表すことができる。
・ａ＝ｘ１−ｘ３
・ｂ＝ｘ３−ｘ２
・ｃ＝ｙ１−ｙ３
・ｄ＝ｙ３−ｙ２
算出された４つの差分ａ、ｂ、ｃ、ｄのうちの最も大きい値が、第一差分αとされ、画像範囲記憶エリア２２１の第一差分記憶エリア（図示省略）に記憶される。
【００６３】
そして、第一差分αと所定値記憶エリア３１４に記憶された所定値Ｋとを加算した値である第一拡大値Ｎが算出される（Ｓ１５７）。第一拡大値Ｎは、下記の式で表される。
・Ｎ＝α＋Ｋ
算出された第一拡大値は、画像範囲記憶エリア２２１の第一拡大値記憶エリア（図示省略）に記憶される。
【００６４】
次に、第一拡大値記憶エリアと、鼻位置記憶エリアとが参照されて、鼻位置のＸ座標ｘ３から、Ｎ大きいＸ座標（ｘ３＋Ｎ）と、Ｎ小さいＸ座標（ｘ３−Ｎ）とが算出される。鼻位置のＹ座標ｙ３から、Ｎ大きいＹ座標（ｙ３＋Ｎ）と、Ｎ小さいＹ座標（ｙ３−Ｎ）とが算出される。（ｘ３＋Ｎ）が、顔画像５１におけるＸ座標の最大値となり、（ｘ３−Ｎ）が、顔画像５１におけるＸ座標の最小値となる。（ｙ３＋Ｎ）が、顔画像５１におけるＹ座標の最大値となり、（ｙ３−Ｎ）が顔画像５１におけるＹ座標の最小値となる。そして、このＸ座標、Ｙ座標の組み合わせからなる４点の座標が算出される。４点の座標は下記のように表される。
・（ｘ３＋Ｎ、ｙ３＋Ｎ）
・（ｘ３＋Ｎ、ｙ３−Ｎ）
・（ｘ３−Ｎ、ｙ３＋Ｎ）
・（ｘ３−Ｎ、ｙ３−Ｎ）
【００６５】
４点の座標は、顔画像５１の範囲を示す情報として、画像範囲記憶エリア２２１に記憶される（Ｓ１５８）。そして、顔画像範囲決定処理を終了して、画像送信処理（図９参照）に戻る。
【００６６】
顔画像範囲決定処理（Ｓ２）が終了すると、撮影画像データ記憶エリア３１１と画像範囲記憶エリア２２１とが参照されて、ユーザの顔画像５１に対応する画像データが相手ユーザの使用する端末装置４に送信される（Ｓ３）。顔画像５１に対応する画像データが端末装置４に送信されると（Ｓ３）、ユーザの動作の有無を検出する動作検出処理が行われる（Ｓ４）。
【００６７】
動作検出処理について、図１１を参照して説明する。動作検出処理は、図９の画像送信処理のＳ４で実行されるサブルーチンである。動作検出処理が開始されると、まず、掌動作検出処理が開始される（Ｓ５１）。掌動作検出処理は、図１１に示す動作検出処理のＳ５１で実行されるサブルーチンである。
【００６８】
掌動作検出処理について、図１２を参照して説明する。掌動作検出処理が開始されると、まず、ＲＧＢ表色系である撮影画像５０がＨＳＶ表色系に変換されて、変換画像として処理画像記憶エリア２２６に記憶される（Ｓ１０１）。次に、処理画像記憶エリア２２６が参照されて、変換画像から肌色抽出が行われる（Ｓ１０２）。そして、肌色画素と非肌色画素とが２値化され、得られた２値画像が処理画像記憶エリア２２６に記憶される（Ｓ１０３）。そして、所定値記憶エリア３１４と処理画像記憶エリア２２６とが参照されて、２値画像において、所定範囲の面積を有する肌色画素部分を掌領域として抽出する（Ｓ１０４）。掌領域の抽出は１／３０秒ごとに行われる。
【００６９】
そして、抽出された掌領域の面積が算出され、掌動作記憶エリア２２２の掌面積記憶エリア２２２１に記憶される（Ｓ１０５）。掌面積記憶エリア２２２１には、例えば６０の記憶エリアが設けられ、１／３０秒ごとに、それぞれの記憶エリアに掌領域の面積（掌面積）が記憶される。６０番目の記憶エリアに掌面積が記憶されると、次は、１番目の記憶エリアに最新の掌面積が上書きされる。そして、所定量のデータが蓄積された段階で、掌面積記憶エリア２２２１が参照されて、記憶された最大掌面積に対する最小掌面積の割合が、一例として、３／４未満であるか否かが判断される（Ｓ１０６）。記憶された最大掌面積に対する最小掌面積の割合が、一例として３／４未満であれば、掌の形状に変化がある（掌の動きが検出された）として、掌変化記憶エリア２２２２に「１」が記憶される（Ｓ１０７）。一方、記憶された最大掌面積に対する最小掌面積の割合が、３／４以上であれば、掌の形状には変化がなかった（掌の動きが検出されなかった）として、掌変化記憶エリア２２２２に「０」が記憶される（Ｓ１０８）。そして、掌動作検出処理を終了して、動作検出処理（図１１参照）に戻る。
【００７０】
掌動作検出処理（Ｓ５１）が終了すると、掌変化記憶エリア２２２２が参照されて、掌の動きが検出されたか否かが判断される（Ｓ５２）。掌変化記憶エリア２２２２に、「０」が記憶されており、掌の動きが検出されなかったと判断された場合には（Ｓ５２：ＮＯ）、ユーザの動作は検出されなかったとして、動作検出記憶エリア２２４に「０」が記憶される（Ｓ５６）。掌変化記憶エリア２２２２に、「１」が記憶されており、掌の動きが検出されたと判断された場合には（Ｓ５２：ＹＥＳ）、続いて腕動作検出処理が行われる（Ｓ５３）。
【００７１】
腕動作検出処理について、図１３を参照して説明する。腕動作検出処理は、図１１の動作検出処理のＳ５３で実行されるサブルーチンである。動作検出処理が開始されると、まず、ユーザの腕の輪郭データを抽出するための抽出領域が指定される（Ｓ１３１）。ユーザの撮影画像５０に存在する一定面積以上の肌色部分が顔領域として抽出され、顔領域より下に存在する肌色部分が掌領域として抽出され、上下方向における顔領域と掌領域との間の領域が、腕の輪郭データを抽出するための抽出領域として指定される。肌色部分の抽出方法は、上述したとおりである。
【００７２】
次に、撮影画像５０に対してグレースケール化を行い、輪郭データが抽出される（Ｓ１３２）。輪郭データを抽出する際は、周知の一次微分法を使用する。一次微分法の輪郭抽出では、各画素における濃度の勾配を求めることによって輪郭の強さと方向とを算出し、濃度値が急激に変化する部分が輪郭データとして抽出される。抽出領域の指定および輪郭データの抽出は、１／３０秒ごとに行われる。
【００７３】
抽出された輪郭データは、ＲＡＭ２２の腕動作記憶エリア２２３の輪郭データ記憶エリア２２３１に記憶される（Ｓ１３３）。輪郭データ記憶エリア２２３１には、例えば６０の記憶エリアが設けられ、１／３０秒ごとに、それぞれの記憶エリアに輪郭データが記憶される。６０番目の記憶エリアに輪郭データが記憶されると、次は、１番目の記憶エリアに最新の輪郭データが上書きされる。輪郭データ記憶エリア２２３１に、所定量のデータが蓄積されると、６０の記憶エリアが参照されて、記憶された複数の輪郭データのうちのＸ座標における最大値と最小値との差分△Ｘ１、Ｙ座標の最大値と最小値との差分△Ｙ１とが算出される（Ｓ１３４）。
【００７４】
そして、差分△Ｘ１、又は差分△Ｙ１のいずれかが、ＨＤＤ３１の所定値記憶エリア３１４に記憶された所定値よりも大きいか否かが判断される（Ｓ１３５）。差分△Ｘ１、又は差分△Ｙ１のいずれかが、ＨＤＤ３１の所定値記憶エリア３１４に記憶された所定値よりも大きければ（Ｓ１３５：ＹＥＳ）、腕の位置に変化がある（腕の動きが検出された）として、腕変化記憶エリア２２３２に、「１」が記憶される（Ｓ１３６）。差分△Ｘ１、又は差分△Ｙ１のいずれも、ＨＤＤ３１の所定値記憶エリア３１４に記憶された所定値よりも小さければ（Ｓ１３５：ＮＯ）、腕の位置に変化がない（腕の動きが検出されなかった）として、腕変化記憶エリア２２３２に、「０」が記憶される（Ｓ１３７）。そして、腕動作検出処理を終了して、動作検出処理（図１１参照）に戻る。
【００７５】
そして、動作検出処理では、腕動作検出処理が終了すると（Ｓ５３）、腕変化記憶エリア２２３２が参照されて、腕の動きが検出されたか否かが判断される（Ｓ５４）。腕変化記憶エリア２２３２に「０」が記憶されており、腕の動きが検出されていない場合には（Ｓ５４：ＮＯ）、ユーザの動作は検出されなかったとして、動作検出記憶エリア２２４に「０」が記憶される（Ｓ５６）。腕変化記憶エリア２２３２に「１」が記憶されており、腕の動きが検出されたと判断された場合には（Ｓ５４：ＹＥＳ）、ユーザの動作が検出されたとして、動作検出記憶エリア２２４に「１」が記憶される（Ｓ５５）。そして、動作検出処理を終了して、画像送信処理（図９参照）へ戻る。
【００７６】
図９に戻り、動作検出処理（Ｓ４）が終了すると、動作検出記憶エリア２２４が参照されて、ユーザの動作が検出されたか否かが判断される（Ｓ５）。動作検出記憶エリア２２４に、「０」が記憶されている場合、動作が検出されなかったと判断されて（Ｓ５：ＮＯ）、会議終了であるか否かが判断される（Ｓ１２）。会議終了であるか否かの判断は、ネットワーク２に接続されている端末装置が、自身のほかに１以上あるか否かがを判断することによって行われる。
【００７７】
端末装置３、４では、ネットワーク２に接続すると、ネットワーク２に接続したことを示す接続信号が相手側の端末装置に送信される。他の端末装置からの接続信号を受信した場合、接続信号を送信した端末装置の端末ＩＤが、ＲＡＭ２２の接続端末記憶エリア２２５に記憶される。一方、ネットワーク２への接続を切断すると、ネットワークへの接続を切断したことを示す切断信号が相手側の端末装置に送信される。ネットワーク２に接続されている端末装置が、自身の他には０である場合（Ｓ１２：ＹＥＳ）、処理を終了する。一方、ネットワーク２に接続されている端末装置が、自身のほかに１以上ある場合（Ｓ１２：ＮＯ）、Ｓ１〜Ｓ５の処理が繰り返される。すなわち、端末装置３において、ユーザのジェスチャーが検出されない場合（Ｓ５：ＮＯ）、引き続き、ユーザの顔画像５１が端末装置４に送信される（Ｓ３）。
【００７８】
動作検出記憶エリア２２４に、「１」が記憶されている場合、動作が検出されたと判断されて（Ｓ５：ＹＥＳ）、撮影画像データ記憶エリア３１１に記憶された撮影画像５０からユーザの上半身画像５２の範囲が決定される上半身画像範囲決定処理が行われる（Ｓ６）。
【００７９】
上半身画像範囲決定処理について、図１４を参照して説明する。上半身画像範囲決定処理は、図９の画像送信処理のＳ６で実行されるサブルーチンである。図１４に示すように、上半身画像範囲決定処理が開始されると、まず、撮影画像におけるユーザ領域が特定される（Ｓ１７１）。具体的には、撮影画像データ記憶エリア３１１が参照されて、撮影画像の色、幾何学的な形状、濃淡パターン、動きなどがパラメータとして抽出される。予めＨＤＤ３１のその他の情報記憶エリア３１５に記憶された人物画像のパラメータのデータベースが参照されて、抽出された上述の各パラメータと、データベースに記憶されている人物画像のパラメータとのマッチング処理が実行される。そして、データベースに記憶されている人物画像のパラメータと良好に一致する撮影画像の部分が特定される。特定された部分の画像が、ユーザ領域として特定される。次に、撮影画像５０の画像領域の左下部分を撮影画像５０におけるＸＹ座標の原点として、ユーザ領域のＸ座標における最大値ｘ４と最小値ｘ５が検出される（Ｓ１７２）。検出されたｘ４、ｘ５は、画像範囲記憶エリア２２１のユーザ領域記憶エリア（図示省略）に記憶される。
【００８０】
次に、撮影画像５０の中から、ユーザの鼻位置が特定される（Ｓ１７３）。鼻位置の特定方法は上述のとおりである。検出された鼻位置のＸ座標ｘ３は、画像範囲記憶エリア２２１の鼻位置記憶エリア（図示省略）に記憶される。そして鼻位置記憶エリアとユーザ領域記憶エリアとが参照されて、ｘ３、ｘ４、ｘ５から、ｘ４とｘ３との差分ｅ、ｘ３とｘ５との差分ｆが算出される（Ｓ１７４）。なお、差分ｅ、ｆは、下記の式で表すことができる。
・ｅ＝ｘ４−ｘ３
・ｆ＝ｘ３−ｘ５
【００８１】
算出された２つの差分ｅ、ｆのうちの大きい値が、第二差分βとされて、画像範囲記憶エリア２２１の第二差分記憶エリア（図示省略）に記憶される。第二差分βと所定値記憶エリア３１４に記憶された所定値Uとを加算した値である第二拡大値Ｍが算出される（Ｓ１７５）。第二拡大値Ｍは、下記の式で表される。
・Ｍ＝β＋U
算出された第二拡大値Ｍは、画像範囲記憶エリア２２１の第二拡大値記憶エリア（図示省略）に記憶される。
【００８２】
次に、第二拡大値記憶エリアと、鼻位置記憶エリアとが参照されて、鼻位置のＸ座標ｘ３から、Ｍ大きいＸ座標（ｘ３＋Ｍ）と、Ｍ小さいＸ座標（ｘ３−Ｍ）とが算出される。鼻位置のＹ座標ｙ３から、（Ｍ×（２／３））大きいＹ座標（ｙ３＋（Ｍ×（２／３）））と、（Ｍ×（４／３））小さいＹ座標（ｙ３−（Ｍ×（４／３）））とが算出される。（ｘ３＋Ｍ）が、上半身画像５２におけるＸ座標の最大値となり、（ｘ３−Ｍ）が、上半身画像５２におけるＸ座標の最小値となる。（ｙ３＋（Ｍ×（２／３）））が、上半身画像５２におけるＹ座標の最大値となり、（ｙ３−（Ｍ×（４／３）））が上半身画像５２におけるＹ座標の最小値となる。そして、このＸ座標、Ｙ座標の組み合わせからなる４点の座標が算出される。４点の座標は下記のように表される。
・（ｘ３＋Ｍ、ｙ３＋（Ｍ×（２／３）））
・（ｘ３＋Ｍ、ｙ３−（Ｍ×（４／３）））
・（ｘ３−Ｍ、ｙ３＋（Ｍ×（２／３）））
・（ｘ３−Ｍ、ｙ３−（Ｍ×（４／３）））
【００８３】
４点の座標は、上半身画像５２の範囲を示す情報として、画像範囲記憶エリア２２１に記憶される（Ｓ１７６）。そして、上半身画像範囲決定処理が終了して、画像送信処理（図９参照）に戻る。
【００８４】
図９に戻り、上半身画像範囲決定処理（Ｓ６）が終了すると、撮影画像データ記憶エリア３１１と画像範囲記憶エリア２２１とが参照されて、撮影画像５０から上半身画像５２の範囲が切り出されて端末装置４に送信される（Ｓ７）。つまり、端末装置３のユーザがジェスチャーを行っていると判断された場合には（Ｓ５：ＹＥＳ）、端末装置４に、ユーザの上半身の画像が送信される（Ｓ７）。
【００８５】
ユーザの上半身画像５２が、端末装置４に送信されると（Ｓ７）、接続端末記憶エリア２２５が参照されて、ネットワーク２に接続されている端末装置が、自身の他に１以上あるか否かが判断される（Ｓ８）。ネットワーク２に接続されている端末装置が、自身の他には０である場合、会議終了であるとして（Ｓ８：ＹＥＳ）、処理を終了する。一方、ネットワーク２に接続されている端末装置が、自身のほかに１以上ある場合、会議は終了していないとして（Ｓ８：ＮＯ）、ユーザの動作の有無を検出する動作検出処理が再度行われる（Ｓ９）。Ｓ９の処理はＳ４と同様であるため説明を省略する。
【００８６】
動作検出処理（Ｓ９）が終了すると、動作検出記憶エリア２２４が参照されて、ユーザの動作が検出されたか否かが判断される（Ｓ１０）。動作検出記憶エリア２２４に、「１」が記憶されている場合、動作が検出されたと判断され（Ｓ１０：ＹＥＳ）、ユーザの顔領域および掌領域が、切り出された上半身画像５２の範囲に含まれているか否かが判断される（Ｓ１１）具体的には、まず、撮影画像データ記憶エリア３１１が参照されて、撮影画像５０においてユーザの顔領域および掌領域が抽出される。顔領域と掌領域との抽出方法は上述のとおりである。そして、抽出された顔領域および掌領域のＸ座標、Ｙ座標の最大値と最小値が検出される。検出された最大値と最小値とが、画像範囲記憶エリア２２１に記憶された画像範囲内にあるか否かが判断される。
【００８７】
検出された掌領域および顔領域が、いずれも画像範囲記憶エリア２２１に記憶された画像範囲内にあるか否かが判断されると（Ｓ１１：ＹＥＳ）、Ｓ８に戻って会議終了であるか否かが判断される。顔領域および掌領域のいずれかが、画像範囲記憶エリア２２１に記憶された画像範囲からはみ出していると判断されると（Ｓ１１：ＮＯ）、再度、撮影画像データ記憶エリア３１１に記憶された撮影画像５０からユーザの上半身画像５２の範囲が決定される（Ｓ６）。決定された上半身画像５２の範囲は、最新の画像範囲として画像範囲記憶エリア２２１に上書きされる。
【００８８】
一方、Ｓ１０において、動作検出記憶エリア２２４に、「０」が記憶されている場合、ユーザの動作が検出されなかったと判断されて（Ｓ１０：ＮＯ）、会議終了であるか否かが判断される（Ｓ１２）。ネットワーク２に接続されている端末装置が、自身の他には０である場合、会議終了であるとして（Ｓ１２：ＹＥＳ）、処理を終了する。ネットワーク２に接続されている端末装置が、自身のほかに１以上ある場合、会議は終了していないとして（Ｓ１２：ＮＯ）、Ｓ１の処理に戻る。すなわち、端末装置３において、ユーザの動作が検出されず（Ｓ１０：ＮＯ）、会議が終了していない場合（Ｓ１２：ＮＯ）ユーザの上半身画像５２ではなくユーザの顔画像５１が、端末装置４に送信される（Ｓ３）。
【００８９】
次に、他拠点側の端末装置４のＣＰＵ２０において実行される画像受信処理について、図１５のフローチャートを参照して説明する。端末装置３と端末装置４とが各々ネットワークに接続し、互いに通信を開始すると、図１５に示す画像受信処理が開始される。画像受信処理が開始されると、端末装置３から送信された画像が受信されたか否かが判断される（Ｓ３１）。画像が受信されていない場合（Ｓ３１：ＮＯ）、画像が受信されるまで、Ｓ３１の処理が繰り返される。画像が受信された場合（Ｓ３１：ＹＥＳ）、受信された画像がビデオコントローラ２３によってディスプレイ２８に表示される（Ｓ３２）。
【００９０】
上述のように、端末装置３のユーザがジェスチャーを行っている場合には、端末装置３からは、ユーザの上半身画像５２に対応する画像データが送信される。一方、端末装置３のユーザがジェスチャーを行っていない場合には、端末装置３からは、ユーザの顔画像５１に対応する画像データが送信される。よって、端末装置４のディスプレイ２８には、端末装置３のユーザがジェスチャーを行っている場合、ユーザの上半身の画像が表示され（図５参照）、ジェスチャーを行っていない場合、ユーザの顔の画像が表示される（図６参照）。
【００９１】
そして、接続端末記憶エリア２２５が参照されて、ネットワーク２に接続されている端末装置が、自身の他に１以上あるか否かが判断される（Ｓ３３）。ネットワーク２に接続されている端末装置が、自身の他には０である場合（Ｓ３３：ＹＥＳ）、処理を終了する。一方、ネットワーク２に接続されている端末装置が、自身のほかに１以上ある場合（Ｓ３３：ＮＯ）、Ｓ３１に戻り、Ｓ３１〜Ｓ３３の処理が繰り返される。
【００９２】
以上説明したように、第一実施形態である端末装置３は、ネットワーク２を介して他の端末装置４と相互に接続される。これら端末装置間で、画像、音声を互いに送受信することで遠隔会議を実施するテレビ会議システム１を構成する。このテレビ会議システム１では、遠隔会議中に、端末装置３（又は４）のユーザの動作（ジェスチャー）を検出する。そして、ユーザがジェスチャーを行っていない場合には、相手ユーザの端末装置４（又は３）に対して、ユーザの顔画像５１に対応するデータを送信する。ユーザがジェスチャーを行っている場合には、相手ユーザの端末装置４（又は３）に対して、ユーザの上半身画像５２に対応するデータを送信する。
【００９３】
よって、端末装置３のユーザがジェスチャーを行っている場合、端末装置４のディスプレイ２８にはユーザの上半身の画像が表示され（図５参照）、ジェスチャーを行っていない場合、ディスプレイ２８にはユーザの顔の画像が表示される（図６参照）。従って、ユーザがジェスチャーで感情を表現しようとした場合、相手ユーザはユーザのジェスチャーを確認することができる。また、ユーザがジェスチャーを行わない場合、相手ユーザは、ユーザの顔の表情を確認できる。よって、異なる拠点にいる会議参加者同士で良好なコミュニケーションをとることができる。また、ユーザがジェスチャーを行わないときは、上半身画像５２よりもデータ量の小さい顔画像５１の画像データを送信するので、通信負荷を軽減できる。
【００９４】
なお、以上説明において、図２に示すカメラ３４が本発明の「ユーザ撮影手段」に相当する。図２に示すディスプレイ２８が本発明の「表示画面」に相当する。図１０に示す顔画像範囲決定処理を実行するＣＰＵ２０が本発明の「第二画像範囲決定手段」に相当する。図１１に示す動作検出処理を実行するＣＰＵ２０が本発明の「動作検出手段」に相当する。図１４に示す上半身画像範囲決定処理を実行するＣＰＵ２０が本発明の「第一画像範囲決定手段」に相当する。図９に示すＳ３およびＳ７の処理を実行するＣＰＵ２０が本発明の「画像送信手段」に相当する。図１４に示すＳ１７２の処理を実行するＣＰＵ２０、および図１０に示すＳ１５４の処理を実行するＣＰＵ２０が、本発明の「鼻位置検出手段」に相当する。図１５に示すＳ３１の処理を実行するＣＰＵ２０が本発明の「画像受信手段」に相当する。図１５に示すＳ３２の処理を実行するＣＰＵ２０が本発明の「表示制御手段」に相当する。
【００９５】
次に、本発明の第二実施形態である端末装置１３０について説明する。第一実施形態では、端末装置３、４にユーザが一人ずつの条件で行われる会議を想定している。第二実施形態は、各拠点の端末装置３、４に複数のユーザがいる場合に、その中の発言者を特定し、その発言者をカメラ３４の撮影対象とする点が第一実施形態と異なる。なお、第二実施形態の端末装置１３０は、第一実施形態の端末装置３と同様に、図１に示すテレビ会議システム１を構成するものである。
【００９６】
まず、端末装置１３０の電気的構成について、図１６を参照して説明する。端末装置１３０には、端末装置１３０の制御を司るコントローラとしてのＣＰＵ１２０が設けられている。ＣＰＵ１２０には、ＢＩＯＳ等を記憶したＲＯＭ１２１と、各種データを一時的に記憶するＲＡＭ１２２と、データの受け渡しの仲介を行うＩ／Ｏインタフェイス３０とが接続されている。Ｉ／Ｏインタフェイス３０には、各種記憶エリアを有するハードディスクドライブ１３１（以下、ＨＤＤ１３１）と、音声方向検出装置３６と、駆動回路３７とが接続されている。音声方向検出装置３６には、ユーザの音声が入力されるマイク３５が接続されている。音声方向検出装置３６は、マイク３５に入力される音声の位相差に基づき、音声が発せられた音源の方向を検出する。駆動回路３７には、カメラ３４を回転移動させるカメラ移動装置３８が接続されている。
【００９７】
ＲＡＭ１２２には、図１７に示すように、第一実施形態のＲＡＭ２２と同様の各種記憶エリア（図４参照）に加えて、音源の方向が検出される音源方向記憶エリア２２７が設けられている。端末装置１３０のその他の電気的構成は、第一実施形態の端末装置３（図２参照）と同様の構成を備えている。
【００９８】
発言者特定方法について説明する。発言者特定方法としては、周知の種々の方法が適用可能である。例えば、特開平１１−３４１３３４に記載された方法や、特開２００１−３３９７０３が適用可能である。本変形例では、はじめに、マイク３５に入力される音声の位相差に基づき、音声方向検出装置３６によって、音声が発せられた音源の方向を検出する。そして、カメラ移動装置３８によって、カメラ３４が検出された音源の方向を撮影するように撮影される。次いで、カメラ３４の撮影範囲が狭められる。
【００９９】
そして、撮影画像の色、幾何学的な形状、濃淡パターン、動きなどがパラメータとして抽出される。次いで、予めＨＤＤ３１のその他の情報記憶エリア３１５に記憶された人物画像のパラメータのデータベースが参照されて、抽出された上述の各パラメータと、データベースに記憶されている人物画像のパラメータとのマッチング処理が実行される。そして、データベースに記憶されている人物画像のパラメータと良好に一致する撮影画像の部分が特定される。特定された部分の画像が、発言者の画像として特定される。
【０１００】
次に、ＣＰＵ１２０による画像送信処理について、図１８のフローチャートを参照して説明する。本実施形態においても、端末装置１３０、端末装置４では、画像を送信する「画像送信処理」と、画像を受信する「画像受信処理」との両方が行われる。「画像受信処理」は、第一実施形態と同様であるため、説明を省略する。
【０１０１】
端末装置１３０と端末装置４とが各々ネットワークに接続し、互いに通信を開始すると、図１８に示す画像送信処理が開始される。画像送信処理が開始されると、はじめに、カメラ３４が駆動され、カメラ３４により撮影された撮影画像の取得が開始される（Ｓ７１）。カメラ３４により撮影された撮影画像は、撮影画像データ記憶エリア３１１に記憶される。
【０１０２】
次に、マイク３５から音声が入力されたか否かが判断される（Ｓ８４）。マイク３５から音声が入力されていない場合、自拠点側に発言者がいないと判断されて（Ｓ８４：ＮＯ）、Ｓ７１およびＳ８４の処理が繰り返される。
【０１０３】
一方、マイク３５から音声が入力されている場合、自拠点側に発言者がいると判断されて（Ｓ８４：ＹＥＳ）、マイク３５から入力された音声の位相差に基づき、音声方向検出装置３６によって音声が発せられた音源の方向が検出される。音源の方向は、音源方向記憶エリア２２７に記憶される。そして、音源方向記憶エリア２２７が参照されて駆動回路３７によってカメラ移動装置３８が駆動され、カメラ３４の撮影方向が音源の方向に向けられる。そして、マッチング処理により、発言者の画像が特定される（Ｓ８５）。特定された発言者の画像は、撮影画像データ記憶エリア３１１に記憶される。
【０１０４】
次に、撮影画像データ記憶エリア３１１に記憶された撮影画像から発言者の顔画像の範囲を決定する顔画像範囲決定処理が行われる（Ｓ７２）。顔画像範囲決定処理は、第一実施形態と同様のため、説明を省略する。顔画像範囲決定処理が終了すると（Ｓ７２）、撮影画像データ記憶エリア３１１と画像範囲記憶エリア２２１とが参照されて、発言者の顔画像が、送信画像として撮影画像から切り出され、端末装置４に送信される（Ｓ７３）。
【０１０５】
発言者の顔画像が端末装置４に送信されると（Ｓ７３）、発言者の動作の有無を検出する動作検出処理が行われる（Ｓ７４）。動作検出処理は、第一実施形態と同様であるため説明を省略する。動作検出処理（Ｓ７４）が終了すると、動作検出記憶エリア２２４が参照されて、発言者の動作が撮影画像に基づき検出されたか否かが判断される（Ｓ７５）。動作検出記憶エリア２２４に、「０」が記憶されている場合、動作が検出されなかったと判断されて（Ｓ７５：ＮＯ）、会議終了であるか否かが判断される（Ｓ８２）。
【０１０６】
会議終了である場合（Ｓ８２：ＹＥＳ）、処理を終了する。一方、ネットワーク２に接続されている端末が、自身のほかに１以上ある場合（Ｓ８２：ＮＯ）、Ｓ７１〜Ｓ７５の処理が繰り返される。すなわち、端末装置１３０において、発言者の動作が検出されず（Ｓ７５：ＮＯ）、会議終了でない場合（Ｓ８２：ＮＯ）、引き続き、発言者の顔画像が送信画像として端末装置４に送信される（Ｓ７３）。
【０１０７】
動作検出記憶エリア２２４に、「１」が記憶されている場合、動作が検出されたと判断されて（Ｓ７５：ＹＥＳ）、撮影画像データ記憶エリア３１１に記憶された撮影画像から発言者の上半身画像の範囲を決定する上半身画像範囲決定処理が行われる（Ｓ７６）。上半身画像範囲決定処理は、第一実施形態と同様のため、説明を省略する。上半身画像範囲決定処理が終了すると、撮影画像データ記憶エリア３１１と画像範囲記憶エリア２２１とが参照されて、発言者の上半身画像が、送信画像として撮影画像から切り出され、端末装置４に送信される（Ｓ７７）。すなわち、端末装置１３０において、発言者の動作が検出された場合（Ｓ７５：ＮＯ）、発言者の上半身画像が端末装置４に送信される（Ｓ７７）。
【０１０８】
発言者の上半身画像が、端末装置４に送信されると（Ｓ７７）、接続端末記憶エリア２２５が参照されて、ネットワーク２に接続されている端末が、自身の他に１以上あるか否かが判断される（Ｓ７８）。ネットワーク２に接続されている端末が、自身の他には０である場合、会議終了であるとして（Ｓ７８：ＹＥＳ）、処理を終了する。一方、ネットワーク２に接続されている端末が、自身のほかに１以上ある場合、会議は終了していないとして（Ｓ７８：ＮＯ）、発言者の動作の有無を検出する動作検出処理が再度行われる（Ｓ７９）。
【０１０９】
動作検出処理（Ｓ７９）が終了すると、動作検出記憶エリア２２４が参照されて、発言者の動作が検出されたか否かが判断される（Ｓ８０）。動作検出記憶エリア２２４に、「１」が記憶されている場合、動作が検出されたと判断される（Ｓ８０：ＹＥＳ）。動作が検出されたと判断されると（Ｓ８０：ＹＥＳ）、発言者の顔領域および掌領域が、切り出された上半身画像範囲に含まれているか否かが、第一実施形態と同一の方法で判断される（Ｓ８１）。
【０１１０】
検出された掌領域および顔領域の最大値と最小値とが、すべて画像範囲記憶エリア２２１に記憶された画像範囲内にあるか否かが判断されると（Ｓ８１：ＹＥＳ）、Ｓ７８に戻って会議終了であるか否かが判断される。顔領域および掌領域のいずれかが、画像範囲記憶エリア２２１に記憶された画像範囲からはみ出していると判断されると（Ｓ８１：ＮＯ）、Ｓ７１に戻って、処理が繰り返される。
【０１１１】
Ｓ８０において、動作検出記憶エリア２２４に、「０」が記憶されている場合、発言者の動作が検出されなかったと判断され（Ｓ８０：ＮＯ）、会議終了であるか否かが判断される（Ｓ８２）。ネットワーク２に接続されている端末が、自拠点の端末装置以外に無い場合、会議終了であるとして（Ｓ８２：ＹＥＳ）、処理を終了する。一方、ネットワーク２に接続されている端末が、自身のほかに１以上ある場合、会議は終了していないとして（Ｓ８２：ＮＯ）、Ｓ７１の処理に戻る。
【０１１２】
以上説明したように、第二実施形態である端末装置１３０は、一拠点に複数のユーザがいる場合は、その中から発言者を特定し、発言者の顔画像又は上半身画像を他の端末装置に送信する。よって、発言者がジェスチャーで感情を表現しようとした場合、他拠点にいるユーザは発言者のジェスチャーを確認することができる。また、発言者がジェスチャーを行わない場合、相手ユーザは、発言者の顔の表情を確認できる。よって、異なる拠点にいる会議参加者同士で、良好なコミュニケーションをとることができる。
【０１１３】
なお、図１８に示すＳ８５の処理を行うＣＰＵ１２０が本発明の「発言者特定手段」に相当する。図１８に示すＳ８５の処理において、撮影画像から人物画像を認識するＣＰＵ１２０が本発明の「人物認識手段」に相当する。図１６に示す音声方向検出装置３６が、本発明の「音声検出手段」に相当する。
【０１１４】
なお、本発明は上記第一、第二実施形態に限定されるものではなく、種々の変更が可能である。上述の実施の形態では、端末装置３において、取得された撮影画像から顔画像又は上半身画像を切り出して、切り出した画像を他の端末装置４に対して送信する画像送信処理が行われていた。また、端末装置４において、他の端末装置３から送信された撮影画像を受信した。しかしながら本発明はこの構成に限定されず、他の構成であってもよい。
【０１１５】
例えば、テレビ会議全体を制御するＭＣＵ（ＭｕｌｔｉｐｏｉｎｔＣｏｎｔｒｏｌＵｎｉｔ）がネットワーク２に接続されている場合には、端末装置３、端末装置４、ＭＣＵで以下の処理を行っても良い。端末装置３は、ＭＣＵに対して撮影画像を送信する処理を行う。ＭＣＵは、端末装置３から送信された撮影画像から、上述の方法により顔画像又は上半身画像を切り出して、切り出した画像を端末装置４に対して送信する処理を行う。端末装置４では、ＭＣＵから送信された撮影画像を受信し、ディスプレイ２８に表示するする処理を行う。なお、説明の便宜上、端末装置３において画像が送信され、端末装置４において画像が受信される場合を例に説明したが、端末装置３、４では、撮影画像をＭＣＵに対して送信する処理と、ＭＣＵから送信された画像を受信する画像受信処理との両方が行われる。
【０１１６】
また、上述した第一、第二実施形態では、説明の便宜上、２つの端末装置３、４を構成とするテレビ会議システムを一例として説明したが、２つ以上の端末装置を構成とするテレビ会議システムにも適用可能である。
【０１１７】
また、第二実施形態では、会議に参加する複数ユーザの中から発言者を特定する方法として、マイク３５に入力される音声の方向を検出して、検出された方向に発言者が存在すると推定する方法を用いた。発言者の特定方法はこれに限定されず、たとえば、カメラの撮影画像から複数のユーザの唇形の変化をそれぞれ検出して、唇形に変化があるユーザを発言者として特定してもよい。
【０１１８】
そこで、唇形の変化から、発言者を特定する方法について説明する。この方法では、はじめに、カメラ３４の撮影画像から、撮影画像の色、幾何学的な形状、濃淡パターン、動きなどがパラメータとして抽出される。次いで、予めＨＤＤ３１のその他の情報記憶エリア３１５に記憶された人物画像のパラメータのデータベースが参照されて、抽出された上述の各パラメータと、データベースに記憶されている人物画像のパラメータとのマッチング処理が実行される。そして、データベースに記憶されている人物画像のパラメータと良好に一致する撮影画像の部分が特定される。特定された部分の画像が、人物の画像として特定される。
【０１１９】
次に、特定された複数の人物の画像から、それぞれ顔領域が検出される。そして、特定された人物画像の輪郭データが抽出され、顔領域の下側半分において、抽出された輪郭データに変化がある場合には、唇形に変化があるとして検出される。なお、顔領域の検出方法、輪郭データの抽出方法は上述のとおりである。そして、唇形に変化がある人物の画像を発言者の画像として特定する。このようにして、複数の会議参加者から発言者を特定することができる。
【０１２０】
また、第一、第二実施形態では、掌及び腕の両方の動きが検出された場合に、ユーザの動作が検出されたものとされたが、掌及び腕の動きの少なくともいずれかの動きが検出された場合に、ユーザの動作が検出されたものとしても良い。具体的には、第一、第二実施形態の動作検出処理（図１１参照）では、掌の動きが検出され（Ｓ５２：ＹＥＳ）、かつ腕の動きが検出された場合に（Ｓ５４：ＹＥＳ）、ユーザの動作が検出されたものとされた（Ｓ５５）。しかし、Ｓ５３及びＳ５４の処理は行われず、掌の動きが検出された場合には（Ｓ５２：ＹＥＳ）、ユーザの動作が検出されたとし（Ｓ５５）、掌の動きが検出されなければ（Ｓ５２：ＮＯ）、ユーザの動作が検出されなかったとしてもよい（Ｓ５６）。Ｓ５１及びＳ５２の処理は行われず、腕の動きが検出された場合には（Ｓ５４：ＹＥＳ）、ユーザの動作が検出されたとし（Ｓ５５）、腕の動きが検出されなければ（Ｓ５４：ＮＯ）、ユーザの動作が検出されなかったとしてもよい（Ｓ５６）。掌の動きが検出されるか（Ｓ５２：ＹＥＳ）、又は腕の動きが検出された場合（Ｓ５４：ＹＥＳ）、ユーザの動作が検出されたものとしてもよい（Ｓ５５）。
【符号の説明】
【０１２１】
１テレビ会議システム
２ネットワーク
３端末装置
４端末装置
２０ＣＰＵ
２３ビデオコントローラ
２５通信装置
２８ディスプレイ
３０インタフェイス
３１ハードディスクドライブ
３４カメラ
３５マイク
３６音声方向検出装置
２２１画像範囲記憶エリア
２２２掌動作記憶エリア
２２３腕動作記憶エリア
２２４動作検出記憶エリア
３１１撮影画像データ記憶エリア
３１２表示画面データ記憶エリア

【特許請求の範囲】
【請求項１】
ネットワークを介して接続された他の通信端末装置と画像及び音声を介した通信を行う通信端末装置であって、
ユーザを撮影する撮影手段と、
前記撮影手段により撮影された撮影画像から、前記ユーザの掌及び腕の少なくともいずれかの動きが所定量以上ある状態を前記ユーザの動作として検出する動作検出手段と、
前記動作検出手段によって前記動作が検出された場合に、前記撮影手段によって撮影された撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定手段と、
前記動作検出手段によって前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域の画像の範囲を第二画像範囲として決定する第二画像範囲決定手段と、
前記第一画像範囲決定手段によって決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段によって決定された前記第二画像範囲の画像を、前記他の通信端末装置に送信する画像送信手段と、
前記他の通信端末装置から送信された前記画像を受信する画像受信手段と、
前記画像受信手段によって前記画像が受信された場合に、前記画像を表示画面に表示させる画像表示制御手段と
を備えた通信端末装置。
【請求項２】
前記動作検出手段は、前記掌及び前記腕の両方に所定量以上の動きがある状態を前記動作として検出することを特徴とする請求項１に記載の通信端末装置。
【請求項３】
前記動作検出手段は、前記掌の形状に所定量以上の変化がある状態を前記掌の動きとして検出することを特徴とする請求項１又は２に記載の通信端末装置。
【請求項４】
前記動作検出手段は、前記腕の位置が所定量以上変化した状態を前記腕の動きとして検出することを特徴とする請求項１乃至３のいずれかに記載の通信端末装置。
【請求項５】
前記撮影画像から前記対象ユーザの鼻位置を検出する鼻位置検出手段をさらに備え、
前記第一画像範囲決定手段は、
前記鼻位置検出手段によって検出された前記鼻位置が、前記第一画像範囲の水平方向における中心点となるように、前記第一画像範囲を決定することを特徴とする請求項１乃至４のいずれかに記載の通信端末装置。
【請求項６】
複数のユーザの中から発言者を特定する発言者特定手段を備え、
前記動作検出手段は、前記発言者特定手段によって特定された前記発言者の掌及び腕の少なくともいずれかの動きが前記所定量以上ある状態を前記発言者の動作として検出し、
前記第一画像範囲決定手段は、前記発言者の顔領域と掌領域と腕領域とを含む上半身画像の範囲を前記第一画像範囲として決定し、
前記第二画像範囲決定手段は、前記発言者の前記顔領域を含む顔画像の範囲を前記第二画像範囲として決定することを特徴とする請求項１乃至５のいずれかに記載の通信端末装置。
【請求項７】
前記撮影手段により撮影された前記撮影画像から人物を認識する人物認識手段と、
前記人物認識手段によって認識された前記人物の口形の変化を検出する口形検出手段と
を備え、
前記発言者特定手段は、
前記口形検出手段によって前記口形の変化が所定量以上検出された人物を前記発言者として特定することを特徴とする請求項６に記載の通信端末装置。
【請求項８】
前記ユーザの音声を検出するとともに、前記音声の方向を検出する音声検出手段を備え、
前記発言者特定手段は、
前記音声検出手段により検出された前記方向にいる人物を前記発言者として特定することを特徴とする請求項６又は７に記載の通信端末装置。
【請求項９】
ネットワークを介して複数の通信端末装置に接続され、前記通信端末装置間で行われる通信を制御する通信制御装置であって、
前記通信端末装置の撮影手段によって撮影され、前記通信端末装置から送信される撮影画像を受信する撮影画像受信手段と、
前記撮影画像受信手段によって受信された前記撮影画像に基づき、前記ユーザの掌及び腕の少なくともいずれかの動きがある状態を前記ユーザの動作として検出する動作検出手段と、
前記動作検出手段によって前記動作が検出された場合に、前記撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定手段と、
前記動作検出手段によって前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域を含む顔画像の範囲を第二画像範囲として決定する第二画像範囲決定手段と、
前記第一画像範囲決定手段によって決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段によって決定された前記第二画像範囲の画像を、前記通信端末装置に送信する画像送信手段と
を備えた通信制御装置。
【請求項１０】
ネットワークを介して接続された他の通信端末装置と、画像及び音声を介した通信を行う通信端末装置の通信制御方法であって、
ユーザの掌及び腕の少なくともいずれかの動きがある状態を前記ユーザの動作として検出する動作検出ステップと、
前記動作検出ステップにおいて前記動作が検出された場合に、ユーザを撮影する撮影手段によって撮影された撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定ステップと、
前記動作検出ステップにおいて前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域の画像の範囲を第二画像範囲として決定する第二画像範囲決定ステップと、
前記第一画像範囲決定ステップにおいて決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段において決定された前記第二画像範囲の画像を、前記他の通信端末装置に送信する画像送信ステップと、
前記他の通信端末装置から送信された前記画像を受信する画像受信ステップと、
前記画像受信ステップにおいて前記画像が受信された場合に、前記画像を表示画面に表示させる画像表示制御ステップと
を備えた通信端末装置の通信制御方法。
【請求項１１】
請求項１乃至８のいずれかに記載の通信端末装置の各種処理手段としてコンピュータを機能させるための通信制御プログラム。

【図１】