説明

視野方向の動きを制御する方法及び装置、ビデオ会議システム、端末、並びに、この方法を実装するプログラム

本発明は、ビデオ会議モバイル端末に取り付けられたカメラの視野方向の動きを制御する方法に関するものであり、この方法は、(a)モバイル端末と一体である少なくとも2つの互いに離隔したマイクロフォンにより、モバイル端末のユーザーから発せられた少なくとも1つの共通音響を録音する段階(72)と、(b)ユーザーの口が位置している方向をそれぞれのマイクロフォンの録音に基づいて確定する段階(74)と、(c)段階(b)において確定された方向に基づいて視野方向の動きを制御する段階(76)と、を含んでいる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視野方向の動きを制御する方法及び装置、ビデオ会議システム、端末、並びに、この方法を実装するプログラムに関するものである。
【背景技術】
【0002】
モバイルビデオ会議端末に取り付けられたビデオカメラの視野方向の動きを制御する方法は、存在している。例えば、1つの既存の方法は、ビデオカメラによってキャプチャされた画像内のターゲットエリアの位置を判定した後に、このように判定された位置の関数としてビデオカメラの視野方向の動きを制御することにより、ターゲットエリアを視野方向が追跡するようにしており、ターゲットエリアは、通常は、モバイルビデオ会議端末のユーザーの顔面である。この場合には、ユーザーの顔面が常に画像の中央に位置している。
【0003】
しかしながら、モバイル端末又はユーザーが突然に動いた場合には、ターゲットエリアがキャプチャされた画像のフレームを逸脱する可能性がある。この結果、視野方向の動きの制御が、もはや不可能となる。
【発明の開示】
【発明が解決しようとする課題】
【0004】
本発明は、視野方向の動きを制御する別の方法を提案し、視野方向をユーザーの顔面に向かって自動的に方向付けできるようにすることにより、この欠点を改善することを目的としている。
【課題を解決するための手段】
【0005】
従って、本発明は、前述の種類の制御方法を有しており、この方法は、(a)三次元的に互いに離隔しており、且つ、モバイル端末のユーザーから発せられた音響をピックアップするべくモバイル端末に装着された少なくとも2つのマイクロフォンを使用する段階と、(b)マイクロフォンからの信号に応答し、ユーザーの口が位置している方向を確定する段階と、(c)段階(b)において確定された方向の関数として視野方向の動きを制御する段階と、を有している。
【0006】
前述の制御方法は、キャプチャされた画像の分析を必要とはしておらず、且つ、モバイル端末及びユーザーが互いに迅速に動いている場合にも機能可能である。
【0007】
前述の制御方法の実装は、(d)段階(a)においてマイクロフォンによってピックアップされた音響をモバイル端末の命令指示と関連付けられた自然言語における予め定義された表現と比較する段階と、(e)ピックアップ及び比較された音響が、予め定義された表現に対応している場合に、その予め定義された表現と関連付けられているそれぞれの命令指示を実行する段階と、(f)ビデオカメラによってキャプチャされた画像内のターゲットエリアの位置を判定する段階と、(g)ターゲットエリアが、カメラによってキャプチャされた画像の中央に向かって動くように、段階(f)において判定された位置の関数として視野方向の動きを制御する段階と、という特徴の中の1つ又は複数のものを具備可能であり、段階(a)〜(c)は、段階(f)においてターゲットの位置を判定できない場合に、自動的に実行され、段階(c)又は(g)は、視野方向を形成している光学軸を具備したビデオカメラのレンズを動かすモーターを制御しており、段階(c)又は(g)は、ビデオカメラの1つ又は複数の固定レンズによってキャプチャされた画像のみを選択することにより、視野方向と一致する光学軸を具備したビデオカメラレンズによってキャプチャされるものに対応した画像を取得している。
【0008】
この制御方法のこれらの実装は、次のような利点を具備している。
【0009】
マイクロフォンによってピックアップされた同一の音響を使用して視野方向の動き及び端末のその他の機能を制御することにより、ユーザーは、同一の音声表現を使用して2つの異なるタスクの実行をトリガ可能であり、これにより、端末の使用法が容易になっている。
【0010】
モバイル端末のユーザーから発せられた音響の関数としてビデオカメラの視野方向の動きを制御することにより、ターゲットエリアの追跡に基づいた別の制御方法の機能上の問題点が軽減されている。
【0011】
又、本発明は、モバイルビデオ会議端末に取り付けられたビデオカメラの視野方向の動きを制御する制御装置をも有している。この制御装置は、空間的に互いに離隔しており、且つ、モバイル端末のユーザーから発せられた音響をピックアップするべくモバイル端末に装着された少なくとも2つのマイクロフォンと、マイクロフォンからの信号に応答し、ユーザーの口が位置している方向を確定するモジュールと、マイクロフォンからの信号に応答してユーザーの口が位置している方向を確定するモジュールによって確定された方向の関数として視野方向の動きを制御するモジュールと、を含んでいる。
【0012】
前述の制御装置の実施例は、マイクロフォンによってピックアップされた音響をモバイル端末の命令指示と関連付けられた自然言語における予め定義された表現と比較し、且つ、ピックアップされた音響がその予め定義された表現に対応している場合に、予め定義された表現と関連付けられている命令指示のモバイル端末による実行をトリガする音声認識モジュールという特徴を具備可能である。
【0013】
本発明は、ビデオ会議システムを更に有しており、このシステムは、伝送ネットワークを介してビデオ会議データ情報を交換するべく適合され、且つ、制御下において移動可能である視野方向を具備した少なくとも1つのビデオカメラをそれぞれが具備している第1及び第2モバイルビデオ会議端末を含んでおり、このシステムは、第1及び第2端末のビデオカメラの中の1つのものの視野方向の動きを制御する装置を含んでいる。
【0014】
本発明は、前述の制御装置を具備したモバイルビデオ会議端末を更に有している。
【0015】
本発明は、前述の制御方法を実装するコンピュータプログラムを更に有している。
【0016】
本発明については、一例として付与されているに過ぎない以下の説明、並びに、添付の図面を参照することにより、更に理解することができよう。
【発明を実施するための最良の形態】
【0017】
図1は、情報伝送ネットワーク8を介して2つのモバイルビデオ会議端末4及び6をリンクしているビデオ会議システム2を表している。
【0018】
ネットワーク8は、例えば、GSM(Global・System・for・Mobile・Communicatio)、GPRS(General・Packet・Radio・Services)、UMTS(Universal・Mobile・Telecommunication・System)ネットワーク、又はWiFiネットワーク(無線ローカルネットワーク)である。
【0019】
説明を簡単にするべく、端末4及び6は、同一であるものと見なすと共に、端末4について詳細に説明することとする。
【0020】
端末4は、ネットワーク8を介して端末6とビデオ会議データを交換している。この場合には、端末4は、タッチスクリーン10及びアンテナ12を具備した携帯電話機である。
【0021】
尚、本明細書においては、本発明について理解するのに必要な端末4の要素についてのみ、詳述することとする。
【0022】
端末4は、端末4のユーザーの顔面をキャプチャするための2つのビデオカメラ14及び16を具備している。ビデオカメラ14、16は、個別のレンズ18及び20を有している。レンズ18及び20の光学軸は、ビデオカメラ14及び16の個々の視野方向22及び24を形成している。
【0023】
レンズ18、20は、視野方向22、24を移動させるべく、2つの直交軸26及び28を中心として回転可能である。軸26及び28は、端末4との関係において固定されている。
【0024】
レンズ18、20は、個別のモーター30及び32によって軸26を中心として回転する。
【0025】
ビデオカメラ14及び16、並びに、モーター30及び32は、軸28を中心として回転する梁34に取り付けられている。
【0026】
端末4は、軸28を中心として梁34を回転させるモーター36を含んでいる。
【0027】
レンズ18、29の動きは、それぞれのレンズがもう1つのレンズの視点から空間的に離隔した視点から同一の物体をキャプチャし、これにより、キャプチャした2つの画像から三次元画像を構築できるように、制御されている。
【0028】
又、端末4は、視野方向22及び24の動きを制御する装置をも含んでいる。この制御装置は、具体的には、それぞれのビデオカメラによってキャプチャされた画像内のターゲットエリアの位置を判定するモジュール42と、モジュール42によって判定された位置の関数として視野方向22及び24の動きを制御するモジュール44と、空間的に互いに離隔しており、且つ、端末4のユーザーの音声をピックアップするべくそれぞれが適合されたマイクロフォンのペア44、45と、マイクロフォン44、45からの信号に応答し、端末4のユーザーの口が位置している方向を確定するモジュール48と、視野方向22及び24の動きを制御することにより、これらをモジュール48によって確定された方向にアライメントさせるモジュール50と、を含んでいる。
【0029】
又、端末4は、マイクロフォン44、45によってピックアップされた音響を自然言語における予め録音された表現と比較すると共に、端末4及び6のいずれか又は両方による命令指示の実行を自動的にトリガする音声認識モジュール54をも具備している。
【0030】
更に正確には、モジュール54は、マイクロフォン44及び45によってピックアップされた音響内において「hello」という予め定義された表現を認識するかどうかを自動的にピックアップするべく適合されている。又、モジュール54は、マイクロフォン44及び45によってピックアップされた音響内において「call」などの別の予め定義された表現をモジュール54が認識した場合に、予め選択された電話番号のダイヤリングを自動的にトリガするべく適合されている。
【0031】
モジュール42、44、48、及び50は、視野方向22及び24の動きを制御するモーター30、32、及び36用の制御ユニット56内において1つにグループ化されている。
【0032】
制御ユニット56及びモジュール54は、端末4の電子コンピュータ58内において実装されている。コンピュータ58は、図2の方法を実装するコード命令を含むコンピュータプログラムを実行するべく適合されたプログラム可能なコンピュータである。コンピュータプログラムは、例えば、コンピュータ58に接続されているメモリ60内に保存されている。又、メモリ60は、モジュール54によって認識可能な自然言語における予め定義された表現と、予め定義された表現のそれぞれと関連付けられている端末4又は6の命令指示と、を収容する辞書62をも保持している。
【0033】
最後に、端末4の制御装置は、端末4のユーザーが操作可能であるボタン66を含んでいる。このボタン66は、コンピュータ58に接続されており、且つ、端末6のモジュール48及び50の手動による起動のための命令を端末6に送信するべく使用されている。
【0034】
以下、図2の方法を参照し、具体的に端末4を参照することにより、システム2の動作について説明することとする。
【0035】
プロセスの開始時点においては、段階68において、端末4のユーザーが、電話番号を入力又は選択した後に、「call」と発話している。
【0036】
次いで、端末は、視野方向22、24を音声に向かって方向付ける段階70に自動的に進行している。
【0037】
段階70の開始時点においては、段階72において、マイクロフォン44及び45が、端末4のユーザーから発せられた音響をピックアップしている。この場合には、これらの音響は、「call」という表現に対応している。
【0038】
次いで、段階74において、モジュール48が、段階72においてピックアップされた音響からユーザーの口が位置している方向を確定している。これは、ユーザーの口の位置の関数としてユーザーから発せられた音響がマイクロフォン44及び45に伝播するのに同一の時間を所要しないように、マイクロフォン44及び45が空間的に互いに離隔しているために、可能であり、この結果、ユーザーの口が位置している方向を確定可能である。
【0039】
方向の確定が完了したら、段階76において、モジュール50が、モーター30、32、及び36を制御することにより、予め確定された方向とアライメントした位置に対して視野方向22、24を移動させており、この結果、レンズ18、20が、ユーザーの口と対向することになる。
【0040】
従って、段階70は、まず、視野方向22及び24を端末4のユーザーの顔面に向かって方向付けしている。
【0041】
段階70と並行し、端末4は、段階72においてピックアップした同一の音響からの命令指示の音声認識段階78をも同時に実行している。
【0042】
段階78の開始時点においては、動作80において、音声認識モジュール54が、マイクロフォン44及び45によってピックアップされた音響を辞書62内に収容されている表現と比較している。
【0043】
ピックアップされた音響が辞書62内の表現の中の1つに対応している場合には、モジュール54は、動作82において、認識された予め定義された表現と関連付けられている命令指示の実行をトリガする。この場合には、例えば、「call」という表現が認識されており、従って、動作82においては、端末4は、段階68において入力又は選択された番号を自動的にダイヤルしている。
【0044】
以下、この説明においては、段階68において入力又は選択された番号が端末6のものであると仮定することとする。
【0045】
従って、段階78の後には、端末6のベルが鳴ることになる。
【0046】
ピックアップするべく、端末6のユーザーは、段階84において、「hello」と発話している。
【0047】
次いで、端末6は、そのビデオカメラの視野方向を音声に向かって方向付けする段階86と、命令指示の音声認識段階88と、を並行して実行している。
【0048】
段階86及び段階88は、例えば、それぞれ、段階70及び段階79と同一である。但し、辞書62内に保存されている「hello」という表現は、端末が回線を占有(ピックアップ)できるようにする命令指示と関連付けられていることに留意されたい。従って、段階88及び段階86の結果とし、端末6の視野方向は、この端末のユーザーの顔面に向かって方向付けされ、且つ、端末6は、ラインを占有している。
【0049】
段階70及び段階78の後に、段階90においては、キャプチャしたターゲットエリアを追跡することにより、視野方向22、24の向きを制御している。
【0050】
デフォルトとして、ターゲットエリアは顔面に対応している。但し、段階92において、端末6のユーザーは、電話機のタッチスクリーンに触れることにより、別のターゲットエリアを選択することも可能である。この結果、このようにして選択されたターゲットエリアの特性が端末4に送信され、端末4は、デフォルトで保存されているものの代わりに、これらを使用することになる。
【0051】
段階94において、このターゲットエリアの位置をモジュール42によって自動的に判定している。
【0052】
次いで、段階96において、モジュール44は、このように判定された位置の関数としてモーター30、32、及び36を制御することにより、ターゲットエリアの中央を通過するように視野方向22及び24を移動させている。
【0053】
段階94及び96は、ビデオカメラ14及び16によってキャプチャされた画像の中心に端末4のユーザーの顔面を維持するべく継続的に反復される。
【0054】
ターゲットエリアの位置の判定に使用される画像処理は低速である。従って、ユーザーが端末を突然に移動させたり、或いは、ユーザー又はユーザーの顔面が突然に動いた場合には、ターゲットエリアが、ビデオカメラ14及び16によってキャプチャされた画像のフレームから逸脱する可能性があり、この結果、段階94は不可能となる。このため、端末4は、例えば、段階70に自動的に戻ることになる。
【0055】
ターゲットエリアが、キャプチャされた画像内に再度位置すると、即座に、本方法は、段階90に自動的に戻ることになる。
【0056】
又、ターゲットエリアが、キャプチャされた画像のフレームから逸脱した場合には、端末6のユーザーは、段階98において、端末のボタン66を押下することにより、端末4の視野方向を音声に向かって方向付けする段階70を再起動することも可能である。
【0057】
図3は、別のビデオ会議システム120を示している。このシステム120は、ビデオカメラ14、16、梁34、及びモーター30、32、及び36が、複数のレンズを有する単一のビデオカメラ122によって置換されていることを除いて、システム2と同一である。
【0058】
図2を参照して既に説明済みである図3の要素には、同一の参照符号を付与している。
【0059】
ビデオカメラ122は、例えば、空間的に異なる方向に方向付けされた視野方向に対応する9つのレンズ124を具備している。図3においては、9つのレンズ124の中の7つのみが可視状態となっている。これらのレンズ124は、固定されており、且つ、端末4の本体との関係において移動可能ではない。
【0060】
端末4のその他の要素は、それぞれ、モジュール130及び132によって置換されているモジュール44及び50を除いて、図1との関連において説明したものと同一である。これらのモジュール130及び132は、ビデオカメラ122の視野方向を移動させる段階が、必要な視野方向に最も近接した1つ又は複数のレンズ124を選択した後に、選択されたレンズによってキャプチャされた画像を合成することにより、必要な視野方向を使用してキャプチャされた画像と同一の画像を構築する段階を有しているという点において、それぞれ、モジュール44及び50と異なっている。従って、図3の実施例においては、レンズの機械的な移動を伴うことなしに、ビデオカメラの視野方向の移動が得られている。
【0061】
システム2及び120の多数のその他の実施例が可能である。例えば、視野方向22及び26の動きを制御するための本装置のモジュール42、44、48、50、及び54をリモート端末内に、即ち、端末6内に実装することにより、これらの視野方向の動きを遠隔制御するようにする。端末4内に保持することを要するのは、マイクロフォン44、45のみである。この結果、マイクロフォン44、45によってピックアップされた信号が、ネットワーク8を介して、対応するモジュールに送信される。
【0062】
三次元画像を構築する必要がない場合には、ビデオカメラ14又は16のいずれかを除去することにより、端末4を単純化可能である。
【0063】
システム120の端末4内において、レンズ124の数が非常に大きく、且つ、実質的にすべての可能な視野方向を十分な精度でカバーしている場合には、視野方向を移動させる段階は、必要な視野方向に最も近接したその光学軸を具備したレンズを選択する段階のみを有している。
【0064】
以上においては、ビデオ会議が2つの端末間においてのみ実現される特定の状況において、システム2及び120について説明した。しかしながら、ビデオ会議は、この代わりに、2つを上回る数の端末間において実現することも可能である。
【0065】
音声に応答して視野方向を移動させる段階は、本明細書に記述されている視野方向の移動を制御するもう1つの手段とは無関係に実装可能である。例えば、段階90を除去すると共に段階70を複数回にわたって反復することにより、ユーザーの顔面に向かって方向付けされた視野方向を維持可能である。
【図面の簡単な説明】
【0066】
【図1】ビデオ会議システムの概略図である。
【図2】図1のシステム内において使用されるビデオ会議方法のフローチャートである。
【図3】ビデオ会議システムの別の実施例の概略図である。

【特許請求の範囲】
【請求項1】
モバイルビデオ会議端末に取り付けられたビデオカメラの視野方向の動きを制御する方法において、
(a)三次元的に互いに離隔しており、且つ、前記モバイル端末のユーザーから発せられた音響をピックアップするべく前記モバイル端末に装着された少なくとも2つのマイクロフォンを使用する段階(72)と、
(b)前記マイクロフォンからの信号に応答し、前記ユーザーの口が位置している方向を確定する段階(74)と、
(c)段階(b)において確定された前記方向の関数として前記視野方向の動きを制御する段階(76)と、
を有することを特徴とする方法。
【請求項2】
(d)段階(a)において前記マイクロフォンによってピックアップされた音響を前記モバイル端末の命令指示と関連付けられた自然言語における予め定義された表現と比較する段階(80)と、
(e)前記ピックアップ及び比較された音響が、予め定義された表現に対応している場合に、前記予め定義された表現と関連付けられたそれぞれの命令指示を実行する段階(82)と、
を含むことを特徴とする、請求項1記載の方法。
【請求項3】
(f)前記ビデオカメラによってキャプチャされた画像内のターゲットエリアの位置を判定する段階(82)と、
(g)前記ターゲットエリアが、前記カメラによってキャプチャされた前記画像の中央に向かって移動するように、段階(f)において判定された前記位置の関数として前記視野方向の動きを制御する段階(84)と、
を含んでおり、
前記ターゲットエリアの前記位置を段階(f)において判定できない場合に、段階(a)〜(c)を自動的に実行することを特徴とする、請求項1または2に記載の方法。
【請求項4】
段階(c)又は(g)は、前記視野方向を形成する光学軸を具備した前記ビデオカメラのレンズを移動させるモーターを制御していることを特徴とする、請求項1乃至3の何れか1項に記載の方法。
【請求項5】
段階(c)又は(g)は、前記ビデオカメラの1つ又は複数の固定レンズによってキャプチャされた画像のみを選択することにより、前記視野方向と一致した光学軸を具備したビデオカメラレンズによってキャプチャされるものに対応した画像を取得することを特徴とする、請求項1乃至3の何れか1項に記載の方法。
【請求項6】
モバイルビデオ会議端末に取り付けられたビデオカメラ(14、16;122)の視野方向の動きを制御する装置において、
空間的に互いに離隔しており、且つ、前記モバイル端末のユーザーから発せられた音響をピックアップするべく前記モバイル端末に装着された少なくとも2つのマイクロフォン(44、45)と、
前記マイクロフォンからの信号に応答し、前記ユーザーの口が位置している方向を確定するモジュール(48)と、
前記マイクロフォンからの前記信号に応答して前記ユーザーの口が位置している方向を確定する、前記モジュールによって確定された前記方向の関数として前記視野方向の動きを制御するモジュール(50)と、
を含むことを特徴とする装置。
【請求項7】
前記マイクロフォンによってピックアップされた音響を前記モバイル端末の命令指示と関連付けられた自然言語における予め定義された表現と比較し、且つ、前記ピックアップ及び比較された音響が前記予め定義された表現に対応している場合に、予め定義された表現と関連付けられた前記命令指示の前記モバイル端末による実行をトリガする音声認識モジュール(54)を含むことを特徴とする、請求項6記載の装置。
【請求項8】
ビデオ会議データ情報を伝送ネットワーク(8)を介して交換するべく適合されており、且つ、制御下において移動可能である視野方向を具備した少なくとも1つのビデオカメラをそれぞれが具備している第1及び第2モバイルビデオ会議端末(4、6)を含むビデオ会議システムにおいて、
前記第1又は第2端末の前記ビデオカメラの中の1つのものの前記視野方向の動きを制御するために、請求項6又は請求項7記載の装置を含んでいることを特徴とする、システム。
【請求項9】
視野方向の動きを制御する請求項6又は請求項7記載の装置を具備することを特徴とするモバイルビデオ会議端末。
【請求項10】
命令が電子コンピュータによって実行された際に請求項1乃至5の何れか1項に記載の制御方法を実行する前記命令を含んでいることを特徴とする、コンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2008−543196(P2008−543196A)
【公表日】平成20年11月27日(2008.11.27)
【国際特許分類】
【出願番号】特願2008−514149(P2008−514149)
【出願日】平成18年6月2日(2006.6.2)
【国際出願番号】PCT/FR2006/001257
【国際公開番号】WO2006/129023
【国際公開日】平成18年12月7日(2006.12.7)
【出願人】(591034154)フランス テレコム (290)
【Fターム(参考)】