話者識別による音声追跡カメラ

【課題】ビデオ会議中の参加者の映像を会議環境、参加者の配置、誰が発言しているかに基づいて動的に調整できることができるビデオ会議装置を提供する。
【解決手段】室内の話者を自動的に追跡し、制御された出席者ビューカメラ５０Ｂと固定式の室内ビューカメラ５０Ａとの間を動的に切り換える。誰も発言していない場合、本装置１０は遠端に室内ビューを示す。室内に優勢な話者がいる場合、本装置は、出席者ビューカメラを優勢な話者に向け、室内ビューカメラから出席者ビューカメラに切り換える。室内に新しい話者がいる場合、本装置は、最初に室内ビューカメラに切り換え、出席者ビューカメラを新しい話者に向け、そして新しい話者に向けられた出席者ビューカメラに切り換える。会話中の２人の近端話者がいる場合、本装置は、これらを追跡し、話者がともにビュー内に納まるように出席者ビューカメラをズームインする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、話者識別による音声追跡カメラに関する。
関連出願の説明
本願は、代理人整理番号１９９−０７１６ＵＳ、発明の名称「Videoconferencing Endpoint Having Multiple Voice-Tracking Cameras（複数の音声追跡カメラを有するビデオ会議端末）」および代理人整理番号１９９−０７１７ＵＳ、発明の名称「Automatic Camera Framing for Videoconferencing（ビデオ会議のための自動カメラフレーミング）」の米国特許出願と同時に出願されており、その全文を引用して本明細書に組み込む。
【背景技術】
【０００２】
ビデオ会議のカメラは参加者全員を収めるビューを捕捉するのが普通である。残念ながら、遠端参加者は、遠端で表示される近端参加者のサイズがあまりに小さくなって、ビデオ内の沢山の重要なものを把握できないことがある。場合によって、遠端参加者には近端参加者の表情が見えず、誰が実際に発言しているのか分からないことがある。これらの問題により、ビデオ会議は使いにくいという印象を与え、参加者が有意義な会議をするのが妨げられる。
【０００３】
貧弱なフレーミング（framing: 画面構成、画面作成）を補うために、参加者は、カメラをパン、チルト、およびズームして良好なビューを捕捉するための一連の操作を立ち入って実行しなければならない。当然ながら、リモコンによるカメラの手動操作は面倒である。参加者がわざわざカメラのビュー調整をしなくて済むように、既定の広角に設定しておくだけのこともある。無論、参加者が手動でカメラのビューのフレーミングをする場合、参加者がビデオ会議中に場所を変えたり、次のビデオ会議で座席配置を変更したらその手順を繰り返さなければならない。
【０００４】
マイクロホンアレイを有する音声追跡カメラは、ビデオ会議中に発言している参加者にカメラを向けるのを支援できる。この種のカメラは非常に便利ではあるが、幾つか問題を生じることがある。例えば、話者がマイクロホンから顔を背けると、音声追跡カメラは話者の追跡を見失うことがある。残響音が非常に多い環境では、実際の音源ではなく反射点に音声追跡カメラが向けられることがある。話者がカメラから顔を背けた時や、話者がテーブルの端に座った時に典型的な反射が生じやすい。反射が大きすぎると、音声追跡カメラは、実際の話者ではなく、壁、テーブル等の表面を指すよう仕向けられる。
【０００５】
これらの理由から、ビデオ会議中の参加者の映像を会議環境、参加者の配置、誰が発言しているかに基づいて動的に調整できることが望まれている。本開示の主題は、上記問題の影響の内の１つ以上を克服するか、少なくとも減らすようにすることである。
【発明の概要】
【０００６】
ビデオ会議自動化技法を実施するための方法、該方法をプログラム可能な制御装置に実行させるためりプログラムを格納したプログラム格納装置、およびビデオ会議装置について開示する。
【０００７】
一技法では、端末の少なくとも２台のカメラが、誰が発言しているかの動的性質に適応する制御法により環境内の参加者のビデオを捕捉（撮影）する。例えば、端末の第１カメラは広角ビューでビデオ会議環境の第１ビデオを捕捉（撮影）する。参加者が発言し、その位置を端末で特定すると、端末の第２カメラが話者の方を向き、端末は、第１カメラで捕捉（撮影）した広角ビューの環境から、第２カメラで捕捉（撮影）した狭角ビューの話者にビデオ会議の出力を切り換える。
【０００８】
次いで、別の参加者が話し始めると、端末は新しい話者の位置を特定する。但し、端末は、ビデオ会議の出力を第２カメラの狭角ビューから第１カメラの広角ビューに切り換えてから、第２カメラを新しい話者の位置に向ける。この広角ビューが出力されている間に、第２カメラは新しい話者の位置に向けられる。それが済むと、端末は、第１カメラの広角ビューから第２カメラが捕捉した狭角ビューの新しい話者に、ビデオ会議の出力を切り換える。モーション検出法、肌色検出法、および顔認識法を含む各種技法を用いて、狭角ビューの話者をカメラでフレーミングする。同様に、端末は、ビデオ出力を切り換え、音源に第２カメラを向けた時に適用される各種規定を用いることができる。
【０００９】
別の技法では、端末の１台以上のカメラで捕捉されたビデオを用いて、ビデオ会議の間、１台以上のカメラによる広角および狭角ビューで環境を自動的にフレーミングする。例えば、ビデオ会議環境の広角ビューを幾つかの狭角ビューにセグメント化（区分け）できる。端末は、これらの各狭角ビューをフレーミングするよう第１カメラを向け、ビデオを撮影する。次いで、端末は、第１カメラが捕捉（撮影）したビデオを各狭角ビューで解析することにより、各狭角ビューの関連性を決定する。各狭角ビューの関連性はモーション検出、肌色検出、および顔認識に基づいて決定することができる。関連する狭角ビューをこのプロセスで決定すると、端末は、関連する狭角ビューにより画成される全体ビューのフレーミングを決定する。例えば、このフレーミングされたビューは、関連している上端、左端、および右端の狭角ビューで区分される。この方法で、このフレーミングされたビューをフレーミングするよう同一カメラまたは別のカメラを向けることができるので、ビデオ会議の良好なフレーミングビデオを出力することができる。
【００１０】
更に別の技法では、ビデオ会議中に、端末はスピーチ認識法を用いて１台以上のカメラを制御する。この技法では、参加者が関係する環境内の位置に沿って、ビデオ会議参加者の最初のスピーチ特徴を格納する。ビデオ会議の進行につれて、端末は、スピーチを示す音声を検出し、その検出音声の現在のスピーチ特徴を判定する。次いで、現在のスピーチ特徴を、格納してあるスピーチ特徴の内の１つと一致させる。一致する参加者が関係する位置が分かると、端末は、一致する参加者が関係する位置にカメラを向ける。この方法によれば、端末は、端末の音声追跡能力とそのマイクロホンアレイだけに依存しなくてもよくなる。というより、その音声追跡能力により判明した音源位置と併せて参加者のスピーチ特徴を格納することができる。従って、音声追跡に失敗した場合、つまり音源を探知できなかった場合、スピーチ認識技法を用いて話者の位置にカメラを向けることができる。
【００１１】
上記概要には、それぞれの可能性のある実施の形態または本開示の全ての態様を要約する意図はない。
【図面の簡単な説明】
【００１２】
【図１Ａ】本実施例の特定の教示によるビデオ会議端末を示す図。
【００１３】
【図１Ｂ】図１Ａのビデオ会議端末のコンポーネントを示す図。
【００１４】
【図１Ｃ】ビデオ会議端末の平面図。
【図１Ｄ】ビデオ会議端末の平面図。
【図１Ｅ】ビデオ会議端末の平面図。
【００１５】
【図２】図２（Ａ）は本実施例による端末のビデオ会議装置を示す図。
【００１６】
図２（Ｂ）〜（Ｄ）はビデオ会議装置の代替の構成を示す図。
【００１７】
【図３】図２（Ａ）〜図２（Ｄ）のビデオ会議装置のコンポーネントを示す図。
【００１８】
【図４Ａ】本実施例の端末用のオーディオ処理とビデオ処理の両方を用いる制御方式を示す図。
【００１９】
【図４Ｂ】ビデオ会議中に音声キューに基づいてビデオを処理するための決定プロセスを示す図。
【００２０】
【図５】本実施例の少なくとも２台のカメラを有する端末を操作するためのプロセスを示す図。
【００２１】
【図６Ａ】本実施例の端末のマイクロホンアレイによる話者探知の平面図。
【図６Ｂ】本実施例の端末のマイクロホンアレイによる話者探知の側面図。
【００２２】
【図７Ａ】話者を探知する際の音声エネルギー対方位角のグラフを示す図。
【図７Ｂ】話者を探知する際の音声エネルギー対方位角のグラフを示す図。
【００２３】
【図８Ａ】マイクロホンアレイで捕捉した音声内に検出されたスピーチおよびノイズを処理するプロセスを示す図。
【００２４】
【図８Ｂ】本実施例による過渡信号検出器のスピーチおよびノイズを処理するためのブロック図。
【００２５】
【図８Ｃ】スピーチおよびノイズを処理するためのパン対チルト座標のクラスタ化を示す図。
【００２６】
【図９Ａ】本実施例の端末により話者を探知するときにフレーミングされるビューを示す図。
【図９Ｂ】本実施例の端末により話者を探知するときにフレーミングされるビューを示す図。
【００２７】
【図１０】本実施例の端末を用いて参加者のビューを自動フレーミングするプロセスを示す図。
【００２８】
【図１１Ａ】自動フレーミングの関連ブロックを決定するためのプロセスを示す図。
【図１１Ｂ】自動フレーミングの関連ブロックを決定するためのプロセスを示す図。
【図１１Ｃ】自動フレーミングの関連ブロックを決定するためのプロセスを示す図。
【００２９】
【図１２Ａ】本実施例の端末による自動フレーミングにおけるビューを示す図。
【図１２Ｂ】本実施例の端末による自動フレーミングにおけるビューを示す図。
【図１２Ｃ】本実施例の端末による自動フレーミングにおけるビューを示す図。
【００３０】
【図１３】モーション検出が解析されているブロックを示す図。
【００３１】
【図１４】本実施例の特定の教示による別のビデオ会議端末を示す図。
【００３２】
【図１５】話者認識用のデータベーステーブルを示す図。
【００３３】
【図１６】本実施例の端末を用いてビデオ会議中に話者を識別するプロセスを示す図。
【発明を実施するための形態】
【００３４】
Ａ．ビデオ会議端末
図１Ａのビデオ会議装置つまり端末（endpoint: エンドポイント）１０は、ネットワーク１２上の１つ以上の遠隔の端末１４と通信する。幾つかの共通コンポーネントの内で、端末１０は、オーディオコーデック２２をもつオーディオモジュール２０と、ビデオコーデック３２をもつビデオモジュール３０を有する。これらのモジュール２０、３０は、制御モジュール４０およびネットワークモジュール６０と接続されて動作する。
【００３５】
ビデオ会議中は、２台以上のカメラ５０Ａ、５０Ｂがビデオ映像を捕捉し（撮り）、処理用のビデオモジュール３０およびコーデック３２に、捕捉（撮影）したビデオを渡す。更に、１つ以上のマイクロホン２８が音声（オーディオ音）を捕捉して、処理用のオーディオモジュール２０およびコーデック（ＣＯＤＥＣ）２２にその音声を渡す。これらのマイクロホン２８は、テーブルまたは天井のマイクロホン、またはマイクロホンポッド等の一部でもよい。端末１０は、主として会議音声用のこれらマイクロホン２８で捕捉した音声を使用する。
【００３６】
それとは別に、直交配置されたマイクロホン６２を有するマイクロホンアレイ６０Ａ、６０Ｂも音声を捕捉し、処理するためにオーディオモジュール２２にその音声を渡す。好適には、マイクロホンアレイ６０Ａ、６０Ｂは、ビデオ会議中に音声源の位置（ソース位置）を決定するための垂直配置と水平配置の両方のマイクロホン６２を含む。従って、端末１０は、これらのアレイ６０Ａ、６０Ｂからの音声を、会議音声用ではなく主としてカメラ追跡目的に使用する（会議にも使用できる）。
【００３７】
音声およびビデオを捕捉した後、端末１０は、ＭＰＥＧ−１、ＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６１、Ｈ．２６３およびＨ．２６４等の一般的な符号化規格の何れかを使用してそれを符号化する。次いで、ネットワークモジュール７０が、符号化された音声およびビデオを任意の適切なプロトコルを用いて、ネットワーク１２を経由して遠隔端末１４に出力する。同様に、ネットワークモジュール７０は、遠隔端末１４から会議の音声およびビデオをネットワーク１２を経由して受信し、処理のためにこれらをコーデック２２、３２のそれぞれに送る。最後に、スピーカ２６が会議の音声を出力し、ディスプレイ３４が会議ビデオを出力する。これらのモジュールおよび他のコンポーネントの多くは、当技術分野で周知の方法で動作させることができるので、詳細については説明しない。
【００３８】
従来編成とは対照的に、端末１０は、２台以上のカメラ５０Ａ、５０Ｂを自動的な、かつ協働した方法で使用して、ビデオおよびビデオ会議環境のビューを動的に扱う。第１カメラ５０Ａは固定式カメラまたは室内ビューカメラとし、第２カメラ５０Ｂは制御式ビューカメラまたは出席者ビューカメラとすることができる。例えば、端末１０は、室内ビューカメラ５０Ａを用いて、室内のビデオを捕捉するか、またはビデオ会議の参加者全員および周囲の一部を含むのが典型的な少なくとも室内の広角ビューつまりズームアウトしたビューを捕捉する。固定式カメラとして説明したが、実際には、室内ビューカメラ５０Ａは、パン、チルト、およびズームを調整して、そのビューを制御し、環境をフレーミング（フレーム画面内への撮り込み方の調整）できる。
【００３９】
対照的に、端末１０は、出席者ビューカメラ５０Ｂを用いて、１人以上の参加者、好ましくは、１人以上の現在の話者のビデオを狭角ビューつまりズームインしたビューで捕捉する。従って、出席者ビューカメラ５０Ｂは特に、パン、チルト、およびズームが可能である。
【００４０】
一編成では、出席者ビューカメラ５０Ｂは、操舵可能なパン・チルト・ズーム（ＰＴＺ）カメラであり、一方、室内ビューカメラ５０Ａは、電子式パン・チルト・ズーム（ＥＰＴＺ）カメラである。このように、出席者ビューカメラ５０Ｂは操舵可能であるが、室内ビューカメラ５０Ａは、操舵可能というより電子的に操作してそのビューの向きを変更する。但し、端末１０は他の編成および形式のカメラを使用してもよい。実際には、両方のカメラ５０Ａ、５０Ｂともに操舵可能なＰＴＺカメラとしてもよい。更に、広角ビューとズームしたビューの切換えを２台の操舵可能なカメラ５０Ａ、５０Ｂで分担して、交互に切り換えることができ、それにより、一方は、適切なら広角ビューを捕捉し、他方はズームインしたビューを捕捉することができ、逆もまた可である。
【００４１】
本開示のために、一方のカメラ５０Ａを室内ビューカメラと称し、他方のカメラ５０Ｂを出席者ビューカメラと称する。話者の狭角ビューと室内の広角ビューとの間を交互に切り換えることが望ましいこともあるが、端末１０が、同一または異なる話者の２つの狭角ビューを交互に切換えできる状況があってもよい。そうするには、先に説明したように、ともに操舵可能なＰＴＺカメラである２台のカメラ５０Ａ、５０Ｂを持つことが望ましい。従って、別の編成では、第１および第２カメラ５０Ａ、５０Ｂをともに、操舵可能なＰＴＺカメラ等の、制御式カメラ、つまり出席者ビューカメラ５０Ｂとすることができる。端末１０は、これらのカメラ５０Ａ、５０Ｂをそれぞれ使用して、１人以上の特定の参加者、好ましくは１人以上の現在の話者のビデオを、狭角ビュー、つまりズームインビューで捕捉でき、かつ必要な時に室内の広角ビュー、つまりズームアウトビューを提供できる。
【００４２】
一実施の形態では、端末１０は、任意の特定時間に２台のカメラ５０Ａ、５０Ｂの内の１台からのビデオだけを出力する。ビデオ会議が進行すると、端末１０からの出力ビデオは、室内ビューカメラと出席者ビューカメラ５０Ａ、５０Ｂを時々切り換えることができる。システム１０は概して、発言している参加者がいない時（または、運営能力が低下した時）は、室内ビューカメラ５０Ａからのビデオを出力し、端末１０は、１人以上の参加者が発言している時は、出席者ビューカメラ５０Ｂからのビデオを出力する。利点の一つは、これらのカメラビューの切換えにより、ビデオ会議の遠端（当該端末１０とは別の端末の側）に、発言中の話者がズームインビューで伝えられ、その一方で会議室の広角ビューも時々伝えられるようになるということである。
【００４３】
代替として、端末１０は、両方のカメラからのビデオを同時に送信でき、特に、端末１０がどちらかのカメラビューを選択するための命令を幾つか送信する場合は、どのビューを表示するかを遠隔端末７６に決定させることができる。更に別の代替では、端末１０は、ビデオ画像の内の一方が他方のビデオ画像のピクチャーインピクチャーとして合成できるように、両方のカメラからのビデオを同時に送信できる。例えば、カメラ５０Ｂからの出席者ビュービデオをカメラ５０Ａからの室内ビューと合成して、ピクチャーインピクチャー（ＰＩＰ）フォーマットで遠くに送信することができる。
【００４４】
２台のカメラ５０Ａ、５０Ｂで捕捉したビューを制御するために、端末１０は、オーディオベース探知器４２とビデオベース探知器４４とを用いて、参加者の位置ならびに環境および参加者のフレームビューを決定する。次いで、オーディオとビデオのモジュール２０、３０とに接続されて動作する制御モジュール４０が、オーディオとビデオの探知器４２、４４からのオーディオおよび／またはビデオの情報を用いて、カメラ５０Ａ、５０Ｂのどちらかまたは両方に、カメラの向きおよび捕捉するビューを変更するようカメラコマンドを送る。出席者ビューカメラ５０Ｂでは、これらのカメラコマンドは、カメラ５０Ｂを機械的に操舵するモータ、サーボ等を有するアクチュエータまたはローカルの制御ユニット５２で実行可能である。出席者ビューカメラ５０Ｂでは、これらのカメラコマンドはカメラ５０Ｂにより処理される電子信号として実行できる。
【００４５】
どちらのカメラ５０Ａ、５０Ｂを使用すべきか、およびそのビューをどのように構成すべきかを決定するために、制御モジュール４０は、オーディオベース探知器４２から得られるオーディオ情報および／またはビデオベース探知器４４から得られるビデオ情報を用いる。例えば、以下に詳細に説明するように、制御モジュール４０は、水平および垂直に配置したマイクロホンアレイ２４からのオーディオベース探知器４２により処理されるオーディオ情報を使用する。オーディオベース探知器４２はスピーチ検出器４３を用いて、アレイ２４から捕捉された音声内のスピーチを検出し、次いで、現在の話者の位置を決定する。制御モジュール４０は、決定された位置を用いて出席者ビューカメラ５０Ｂをその位置に向けるよう操舵する。以下でも詳細に説明するように、制御モジュール４０は、カメラ５０Ａ、５０Ｂからのビデオベース探知４４により処理されるビデオ情報を用いて参加者の位置を決定し、そのビューのフレーミングを決定し、出席者ビューカメラ５０Ｂをその参加者に向けて操舵する。
【００４６】
室内ビューカメラ５０Ａからの広角ビューは、出席者ビューカメラ５０Ｂの状況を補足することができ、出席者ビューカメラ５０Ｂが参加者に向かって移動しているとき、そのカメラからのビデオが遠端（当該端末１０とは別の端末の側）にいる参加者に見えないように使用できる。更に、近端（当該端末１０の側）の多数の参加者が発言している場合、または出席者ビューカメラ５０Ｂが多数の話者に向かって移動している場合に、広角ビューを遠端に表示できる。カメラ５０Ａ、５０Ｂからの２つのビューの移行は、カメラビューを切り換える時に急に変化しないように、望むままにフェードし、ブレンド処理することができる。
【００４７】
出席者ビューカメラ５０Ｂが話者に向かって移動している場合、例えば、このカメラ５０Ｂからの移動中のビデオは、ビデオ会議の遠端に送信しない方が好ましい。その代わりに、室内ビューカメラ５０Ａからのビデオを送信する。但し、出席者ビューカメラ５０Ｂが現在の話者を適切にフレーミングし終えたら、端末１０は、カメラ５０Ａ、５０Ｂからのビデオ間を切り換える。
【００４８】
全く同様に、端末１０は話者のビュー捕捉を単純に自動切換えしない方が好ましい。その代わりに、カメラ変更はタイミングを調整する方が好ましい。ある時間経過を越えてカメラ切換えが多くなり過ぎると、会議参加者の気が散ることがある。従って、端末１０は、これらの話者を、彼らの位置、彼らの声の特性、彼らの発言頻度等を用いて追跡するのが好ましい。従って、ある話者が話し始めた場合、端末１０は、出席者ビューカメラ５０Ｂをその高頻度話者に直ちに向けることができるが、短い返答またはコメントしかしない別の話者へ向けるのを避けたり、または遅らせたりすることができる。
【００４９】
端末１０は、ユーザーが介入しなくても好適に動作するが、ユーザーの介入および制御が可能であってもよい。従って、遠端および近端のいずれかまたは両方からのカメラコマンドを用いて、カメラ５０Ａ、５０Ｂを制御することができる。例えば、参加者は、誰も発言していないときに表示すべき最良の広角ビューを決定できる。一方、動的なカメラコマンドにより、ビデオ会議の進行に応じて出席者ビューカメラ５０Ｂを制御することができる。この方法では、出席者ビューカメラ５０Ｂで提供されるビューを端末１０で自動的に制御してもよい。
【００５０】
図１Ｂは、図１Ａのビデオ会議端末１０用の例示のコンポーネントを幾つか示す。先に図示し、説明したように、端末１０は、２台以上のカメラ５０Ａ、５０Ｂおよび幾つかのマイクロホン２８、６２Ａ、６２Ｂを有する。これらに加え、端末１０は、全てバス１０１を介して接続されている処理ユニット１００、ネットワークインターフェース１０２、メモリ１０４、および一般的な入力／出力（Ｉ／Ｏ）インターフェース１０８を有する。
【００５１】
メモリ１０４は、ＳＤＲＡＭ等の任意の従来型メモリでよく、端末１０を制御するためのソフトウエアおよびファームウエアの形式でモジュール１０６を格納できる。上記したビデオおよびオーディオのコーデック、ならびに他のモジュールに加えて、モジュール１０６には、オペレーティングシステムと、ユーザーが端末１０を制御可能なグラフィカルユーザーインターフェース（ＧＵＩ）と、オーディオ／ビデオ信号を処理し、カメラ５０Ａ、５０Ｂを制御するための後述するアルゴリズムとを含めることができる。
【００５２】
ネットワークインターフェース１０２は、端末１０と遠隔端末（不図示）との間の通信を提供する。対照的に、一般的なＩ／Ｏインターフェース１０８は、キーボード、マウス、プリンタ、オーバーヘッドプロジェクタ、ディスプレイ、外部スピーカ、追加カメラ、マイクロホンポッド等のローカル装置とのデータ伝送を提供する。端末１０が内部スピーカ２６を備えることもある。
【００５３】
カメラ５０Ａ、５０Ｂおよびマイクロホンアレイ６０Ａ、６０Ｂは、ビデオ会議環境内でビデオおよび音声をそれぞれ捕捉し、バス１０１を介して処理ユニット１００に送信されるビデオ信号および音声信号を生成する。ここでは、処理ユニット１００がモジュール１０６内のアルゴリズムを用いてビデオおよび音声を処理する。例えば、端末１０は、マイクロホン２８、６２Ａ、６２Ｂで捕捉した音声、およびカメラ５０Ａ、５０Ｂで捕捉したビデオを処理して、参加者の探知を決定し、カメラ５０Ａ、５０Ｂのビューを向ける。最終的に、処理された音声およびビデオは、インターフェース１０２、１０８に接続されているローカルおよび遠隔の装置に送られる。
【００５４】
図１Ｃの平面図では、端末１０の一実施の形態は、統合されたマイクロホンアレイ６０Ａ、６０Ｂと２台のカメラ５０Ａ、５０Ｂとを有するビデオ会議装置８０を使用する。マイクロホンポッド２８は、テーブル上に配置できるが、天井マイクロホン、個々のテーブルマイクロホン等のような他の形式のマイクロホンを用いることもできる。マイクロホンポッド２８は、ビデオ会議装置８０に接続されて通信し、ビデオ会議の音声を捕捉する。一例として、装置８０はディスプレイおよび／またはビデオ会議ユニット（不図示）に統合するか、またはそれらに取り付けることができる。
【００５５】
図１Ｄは、端末１０の別の編成の平面図を示す。この場合、端末１０は、室内の周囲に取り付けられた幾つかの装置８０、８１を有し、テーブル上にマイクロホンポッド２８を有する。一方の主装置８０は、上記のようなマイクロホンアレイ６０Ａ、６０Ｂおよび２台のカメラ５０Ａ、５０Ｂを有し、ディスプレイおよび／またはビデオ会議ユニット（不図示）に統合されるか、またはそれらに取り付けられる。他方の装置８１は、主装置８０に接続され、ビデオ会議環境の側方に配置することができる。
【００５６】
補助装置８１は、少なくとも出席者ビューカメラ５０Ｂを有するが、室内ビューカメラ５０Ａ、マイクロホンアレイ６０Ａ、６０Ｂ、またはそれら両方を有してもよく、主装置８０と同一とすることもできる。何れにせよ、本明細書で説明する音声およびビデオの処理は、どの出席者ビューカメラ５０Ｂが環境内の話者の最良のビューを持つかを識別できる。従って、話者に対して最良の出席者ビューカメラ５０Ｂを会議室周囲のこれらカメラから選択することができるので、正面ビュー（または、このビューに最も近いもの）を会議ビデオ用に使用することができるようになる。
【００５７】
図１Ｅで、端末１０の別の編成には、ビデオ会議装置８０およびリモート発信器６４が含まれる。この編成は、プレゼンテーションの間に移動する話者を追跡するのに便利である。繰り返すが、装置８０はカメラ５０Ａ、５０Ｂおよびマイクロホンアレイ６０Ａ、６０Ｂを有する。但し、この編成では、マイクロホンアレイ６０Ａ、６０Ｂは、発信器６４から発信される超音波に応答してプレゼンタを追跡する。この方法では、装置８０は、プレゼンタが移動する時に、かつ発信器６４が超音波を発信し続けると、その人を追跡できる。マイクロホンアレイ６０Ａ、６０Ｂは超音波に加えて音声にも応答できるので、装置８０は超音波追跡に加えて音声追跡を利用できるようになる。装置８０が自動的に超音波を検出するか、または装置８０が超音波追跡するために手動で構成されている場合、装置８０は超音波追跡モードで動作することができる。
【００５８】
図示のように、発信器６４はプレゼンタが装着する小さな箱とすることができる。発信器６４は、超音波を発生する１つ以上の超音波トランスジューサ６６を有し、一体化したマイクロホン６８および無線周波数（ＲＦ）発信器６７を備えることができる。使用する時は、一体化したマイクロホン６８がプレゼンタのスピーチを拾った場合、発信器ユニット６４が動作する。代替として、プレゼンタは発信器ユニット６４を手動で作動させ、それにより、ＲＦ信号をＲＦユニット９７に送信して、この特定プレゼンタを追跡するよう指示できる。超音波に基づいてカメラを追跡することに関する詳細は米国特許公開第２００８／００９５４０１号に開示され、その全文を引用して本明細書に組み込む。
Ｂ．ビデオ会議装置
【００５９】
ビデオ会議中の端末１０の動作に入る前に、最初に、本開示によるビデオ会議装置を詳細に説明する。図２（Ａ）に示すように、ビデオ会議装置８０はハウジングを有し、その上にマイクロホン６２Ａの水平アレイ６０Ａが配置されている。このハウジングから延びている垂直アレイ６０Ｂも幾つかのマイクロホン６２Ｂを有する。図示のように、これらのアレイ６０Ａ、６０Ｂは、それぞれ３つのマイクロホン６２Ａ、６２Ｂを備えることができるが、アレイ６０Ａ、６０Ｂのいずれも、図示と異なる数を備えていてもよい。
【００６０】
第１カメラ５０Ａは、ビデオ会議環境の広角ビューつまりズームアウトビューを捕捉するための室内ビューカメラである。第２カメラ５０Ｂは、ビデオ会議参加者の狭角ビューつまりズームインビューを捕捉するための出席者ビューカメラである。これら２つのカメラ５０Ａ、５０Ｂは、装置８０のハウジング上に取付けられ、ハウジングと一体化することができる。室内ビューカメラ５０Ａは、ＥＰＴＺカメラでない場合、アクチュエータを備えることが可能な画像処理コンポーネント５２Ａを有する。出席者ビューカメラ５０Ｂも、パン・チルト・ズームのカメラ操作を制御するアクチュエータを含む画像処理コンポーネント５２Ｂを有する。これらのコンポーネント５２Ａ、５２Ｂは、装置８０内に収容されているローカル制御ユニット９０と接続されて動作可能である。
【００６１】
一方、制御ユニット９０には、オーディオおよびビデオのモジュール、ネットワークモジュール、カメラ制御モジュール等を含むビデオ会議を運営するのに必要なコンポーネント全てまたは一部を含めることができる。代替として、必要なビデオ会議コンポーネントの全てまたは幾つかを、装置８０と接続された別体のビデオ会議ユニット９５に収納してもよい。このように、装置８０は、カメラ５０Ａ、５０Ｂ、マイクロホンアレイ６０Ａ、６０Ｂ、および関連するコンポーネントを有するスタンドアロンユニットでもよく、一方、ビデオ会議ユニット９５は全てのビデオ会議機能を扱う。無論、装置８０およびユニット９５は所望するなら１つのユニットに組み合せることができる。
【００６２】
図２（Ａ）に示すような２台以上の組み込まれたカメラ５０Ａ、５０Ｂを備えるのではなく、本開示の装置８０が図２（Ｂ）に示すように一体化されたカメラ５３を持っていてもよい。代替として、図２（Ｃ）、図２（Ｄ）に示すように、装置８０は、マイクロホンアレイ６０Ａ、６０Ｂ、通信ポート（不図示）、および他の処理コンポーネント（不図示）を有するベースユニット８５を備えてもよい。２台以上の別体のカメラユニット５５Ａ、５５Ｂをベースユニット８５に連結して装置８０（図２（Ｃ））を形成してもよく、あるいは１台の別体のカメラユニット５５を連結してもよい（図２（Ｄ））。従って、ベースユニット８５は、マイクロホンアレイ６０Ａ、６０Ｂならびに他の全ての必要な電子回路および信号処理コンポーネントを保持し、適切な取付け法を用いて１台以上のカメラユニット５５を支持できる。
【００６３】
装置８０が互いに隣接配置される２台のカメラ５０Ａ、５０Ｂを有するとして図示してあるが、カメラ５０Ａ、５０Ｂの何れかまたは両方を装置８０とは完全に別体として、ハウジングの入力に接続してもよい。更に、装置８０は、２台だけでなく追加のカメラをサポートするよう構成してもよい。この方法で、ユーザーは他のカメラを実装でき、装置８０に無線で接続して、室内周囲に配置できるので、装置８０は話者の最良のビューを常に選択できるようになる。
【００６４】
図３は、図２（Ａ）〜図２（Ｄ）の装置８０の一部となる幾つかの例示のコンポーネントの略図を示す。図示のように、装置８０には、マイクロホンアレイ６０Ａ、６０Ｂ、制御プロセッサ１１０、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）１２０、オーディオプロセッサ１３０、およびビデオプロセッサ１４０が含まれる。上記したように、装置８０は、それと一体化した２台以上のカメラ５０Ａ、５０Ｂを有する統合ユニットとするか（図２（Ａ）参照）、またはこれらのカメラ５０Ａ、５０Ｂを、自身のコンポーネントを有し、装置のベースユニットに接続される別体のユニットとすることができる（図２（Ｃ）参照）。更に、装置８０は、１台の一体型カメラ（図２（Ｂ）の５３）または１台の別体のカメラ（図２（Ｄ）の５５）を持つようにしてもよい。
【００６５】
動作中は、ＦＰＧＡ１２０は、カメラ５０Ａ、５０Ｂからのビデオ入力を取得し、ビデオ会議ユニット９５のための出力ビデオを生成し、ビデオプロセッサ１４０に入力ビデオを送る。ＦＰＧＡ１２０は、ビデオおよびグラフィックスのオーバーレイを拡大縮小し、合成することもできる。デジタル信号プロセッサとすることも可能なオーディオプロセッサ１３０は、マイクロホンアレイ６０Ａ、６０Ｂからの音声を取得し、エコーキャンセル、音声フィルタ処理、および音源（音声の発生源＝話者）追跡を含む音声処理を行う。オーディオプロセッサ１３０は、スピーチパターンを検出するため、および本明細書で開示する他の目的のためにカメラビューを切り換える規定も取り扱う。
【００６６】
デジタル信号プロセッサ（ＤＳＰ）とすることも可能なビデオプロセッサ１４０は、ＦＰＧＡ１２０からのビデオを取得し、モーション（動き）検出、顔検出、および他のビデオ処理を取り扱って話者追跡を支援する。より詳細に以下に説明するように、例えば、ビデオプロセッサ１４０は、出席者ビューカメラ５０Ｂから取得したビデオにモーション検出アルゴリズムを実行して、話者追跡アルゴリズムにより判明した現在ビュー内における候補話者の位置のモーションをチェックできる。これにより、壁、テーブル等からの反射にカメラ５０Ｂが向けられるのを回避できる。更に、ビデオプロセッサ１４０は、顔検出アルゴリズムを用いて、候補の話者の位置が実際に人の顔を含むフレーミングをすることを確認することにより、追跡精度を更に上げることができる。
【００６７】
汎用プロセッサ（ＧＰＰ）とすることも可能な制御プロセッサ１１０は、ビデオ会議ユニット９５との通信を扱い、装置８０のカメラ制御およびシステムの全体制御を行う。例えば、制御プロセッサ１１０は、カメラコンポーネントのパン・チルト・ズーム通信を制御し、ＦＰＧＡ１２０でカメラ切換えを制御する。
Ｃ．制御スキーム
【００６８】
上記のビデオ会議の端末およびコンポーネントを理解するために、本開示の端末１０の動作説明に移る。最初に、図４Ａは、本開示の端末１０がビデオ会議を運営する制御スキーム１５０を示す。先に触れたように、制御スキーム１５０は、ビデオ処理１６０およびオーディオ処理１７０をともに用いて、ビデオ会議中のカメラ５０Ａ、５０Ｂの動作を制御する。処理１６０、１７０は、個々に、または組み合せて実行して端末１０の運営を強化することができる。以下に簡単に説明するが、オーディオおよびビデオ処理１６０、１７０の各種技法の内の幾つかは、更に詳しく後述する。
【００６９】
簡単に言うと、ビデオ処理１６０は、カメラ５０Ａ、５０Ｂからの焦点距離を用いて参加者までの距離を決定し、カラーのモーション、および顔認識に基づくビデオベース技法を用いて参加者を追跡できる。従って、図示のように、ビデオ処理１６０は、モーション検出、肌色検出、顔検出、および他のアルゴリズムを用いてカメラ５０Ａ、５０Ｂのビデオおよび制御動作を処理することができる。ビデオ会議中に得られた記録情報の履歴データをビデオ処理１６０で用いることもできる。
【００７０】
一方、オーディオ処理１７０は、マイクロホンアレイ６０Ａ、６０Ｂによるスピーチ追跡を用いる。追跡精度を上げるために、オーディオ処理１７０は当技術分野で周知の幾つかのフィルタ操作を使用できる。例えば、オーディオ処理１７０は、スピーチ追跡を実行する時に、端末のスピーカからの結合音が、優勢な話者であるかのように収音されないように、エコーキャンセルを実行するのが好ましい。オーディオ処理１７０は、音声追跡から人の声ではない音声を除去し、反射によるかもしれない音量の大きな音声を無視するフィルタ処理も用いる。
【００７１】
オーディオ処理１７０は、テーブルトップマイクロホン素子、つまりポッド（図１、２８）を使用する等の、追加の音声キューによる処理を使用できる。例えば、オーディオ処理１７０は、音声認識法を実行して話者の声を識別し、ビデオ会議中の発言のスピーチパターンを特定することができる。別の例では、オーディオ処理１７０は、別のマイクロホンポッド（２８）から音源の向き（すなわち、パン）を得て、マイクロホンアレイ６０Ａ、６０Ｂから得られた位置情報とこれを組み合せることができる。マイクロホンポッド（２８）は、異なる方向に配置された幾つかのマイクロホンを備えることができるので、これらの方向に対する音源の位置を決定することができる。
【００７２】
マイクロホンポッド（２８）は、参加者が最初に発言した時に、マイクロホンポッド（２８）に対する参加者の方向を知ることができる。これをマッピングテーブル等の、アレイ（６０Ａ、６０Ｂ）で得られた参加者の位置にマッピングできる。ある時間が経つと、マイクロホンポッド（２８）だけが現在の話者を検出できるので、話者の方向情報しか得られない。但し、端末１０は、マッピングテーブルに基づき、マッピング情報を用いて話者をカメラによりフレーミングするために、現在の話者の位置（パン・チルト・ズームの各座標）を探知できる。
Ｄ．動作の概観
【００７３】
この概略の制御スキームを鑑み、ビデオ会議中における本開示端末の図４Ｂの動作について、更に詳細なプロセス１８０の説明に移る。ビデオ会議が開始されると、端末１０は、ビデオを捕捉し（ブロック１８２）、ビデオ会議に含めるために現在ビューを出力する（ブロック１８４）。典型的には、室内ビューカメラ５０Ａは、ビデオ会議の開始時に室内をフレーミングし、カメラ５０Ａのパン、チルトおよびズームが、可能なら全ての参加者が含まれるように適切に調整される。
【００７４】
ビデオ会議が継続された時、端末１０は、幾つか発生した内の１つの捕捉した音声をモニタする（ブロック１８６）。音声をモニタすると、端末１０は、各種の判定および規則を用いて端末１０の振る舞いを管理し、どのカメラ５０Ａ、５０Ｂを会議ビデオに出力するかを決定する。各種の判定および規則が、所与の実装に合った特定の方法で配列され、構成されることができる。１つの判定は別の判定に影響を与え、１つの規則は別の規則に影響するので、判定および規則が図４Ｂに示すものと異なって編成されてもよい。
１．一話者
【００７５】
ビデオ会議の幾つかのポイントで、室内の近端にいる参加者の内の１人が話し始め、端末１０は一人の話者が確実にいると判定する（判定１９０）。一人の話者がいる場合、端末１０は各種の規定１９１を適用し、端末１０により出力される現在ビューを別のビューに切り換えるかどうかを判定し（判定１８８）、その結果、現在ビューを出力するか（ブロック１８４）またはビューを変更する（ブロック１８９）。
【００７６】
１人だけの参加者が発言している状況では、例えば、端末１０は出席者ビューカメラ５０Ｂを向けてその話者をフレーミングする（「頭部と肩」のクローズアップ捕捉が好ましい）。カメラ５０Ｂを移動している間は、端末１０は、室内カメラ５０Ａからの広角ビューを出力し、移動が済んで現在の話者をフレーミングし終わったら出席者ビューカメラ５０Ｂからのビデオだけを出力することが好ましい。更に、端末１０は、話者が最初に話し始めた後、終了するまでの待ち時間を命じてから、出席者ビューカメラ５０Ｂを実際に移動させる方が好ましい。これにより、特に現在の話者が手短かに発言するだけの場合の頻繁なカメラ移動を避けることができる。
【００７７】
精度に関しては、端末１０は多数のアルゴリズムを用いて話者を探知し、フレーミングできるが、その幾つかをここで詳細に説明する。概して、端末１０は、マイクロホンアレイ６０Ａ、６０Ｂで捕捉された音声を解析することにより、現在の話者の方位角およびターゲット距離を予測できる。出席者ビューカメラ５０Ｂからのヘッドショットが一貫性をもつように、カメラ５０Ｂのズームファクタが顔認識技法を用いて調整される。
２．話者なし
【００７８】
ビデオ会議のある時点では、室内で参加者がだれも発言していないこともあり、端末１０は話者が確実にいないと判定する（判定１９２）。これは、最後のスピーチ音声がビデオ会議環境内で検出された後の特定の時間経過に基づいて判定できる。話者が現在いない場合、端末１０は、各種の規定（規則）１９３を適用し、端末１０により出力される現在ビューを別のビューに切り換えるべきかどうかを判定し（判定１８８）、それにより現在ビューを出力するか（１８４）またはビューを変更する（１８９）。
【００７９】
例えば、出力されている現在のビューが、現在発言中の参加者の出席者ビューカメラ５０Ｂからのズームインビューからなることもある。端末１０は、この参加者が発言を止めたが、そのビューを保持するかまたは室内カメラ５０Ａからのズームアウトビューに切り換えるかどうかを決定できる。ビューを切り換えるべきかどうかの判定は、特定の時間経過内に他の参加者が誰も話し始めないか、あるいは近端または遠端の参加者が特定の時間経過内に話し始めるかどうかに依存することになる。言いかえると、ズームインビューでフレーミングされた（フレーム画面内に撮られた）近端の参加者が発言を止めた途端に、遠端の参加者が、延長時間の間に、話し始めるかもしれない。この場合、端末１０は、ズームインビューから、全ての参加者を含むように室内ショットに切り換えることができる。
３．新規または前の話者
【００８０】
ビデオ会議のある時点で、新規または前の話者が話し始めることがあり、端末１０は新規または前の話者がいると判定する（判定１９４）。新規または前の話者の判定は、ビデオ会議環境内の異なる音源の位置を決定するマイクロホンアレイ６０Ａ、６０Ｂからのスピーチ追跡法に基づいて行うことができる。追跡することにより音源（ソース）を探知すると、端末１０はこれを新規または前の話者と判定できる。代替として、新規または前の話者の決定は、話者の声の特性を検出する音声認識に基づいてもよい。
【００８１】
時間が経つと、端末１０は、ビデオ会議環境で発言する参加者達の位置を記録できる。これらの記録した位置はカメラ座標（例えば、パン、チルト、およびズーム）と関連付けることができる。端末１０は、探知した参加者からのスピーチ特徴、参加者が発言した時間量および回数、および他の履歴データも記録できる。次いで、端末１０は、規定および判定に基づいてこの履歴データを使用し、カメラ５０Ａ、５０Ｂを参加者に向けるべき条件、時、場所、方法を決定することができる。
【００８２】
どのイベントでも、端末１０は各種規定（規則）１９５を適用し、端末１０により出力される現在ビューを別のビューに切り換えるべきかどうかを判定し（判定１８８）、それにより、現在ビュー（１８４）を出力するかまたはビューを変更する（１８９）。例えば、新規または前の話者がいたとしても、端末１０は、少なくともその参加者が特定の時間が経過するまで話し続けてやっと、新規または前の話者のズームインビューに切り換える。これにより、参加者のショットと広角ショットの間のカメラビューの不必要なジャンプを避けることができる。
４．近端での対話
【００８３】
ビデオ会議中のある時点で、２人以上の話者が、近端で互いにほぼ同時に発言していることがある。この時点で、端末１０は近端での対話または音声交換が発生しているかどうかを判定できる（判定１９６）。例えば、近端の多数の参加者が互いに話し始めるか、または同時に話すことがある。参加者が対話で結ばれている場合、端末１０は、同時に両方の参加者のビデオを捕捉するのが好ましい。参加者が対話で結ばれてなく、一方の参加者が他方の後に簡単な言葉を差し挟んでいるだけの場合、端末１０は、優勢な話者の現在ビューを維持することが好ましい。
【００８４】
近端での対話に応答して、出席者ビューカメラ５０Ｂは、両方の話者をフレーミングすることによりビデオを捕捉する。代替として、出席者ビューカメラ５０Ｂが一人の話者のズームインビューを捕捉し、室内ビューカメラ５０Ａが他の話者のズームインビューを捕捉してもよい。次いで、端末１０の合成ソフトウエアが、これら２つのビデオフィードを遠端に出力するために合成レイアウトに入れるか、または端末１０が、どのカメラのビデオを現在の話者に基づいて出力するかを切り換えてもよい。３人以上の参加者が近端で発言している他の状況では、端末１０は、代わりに全ての参加者を含む室内ビューに切り換えることができる。
【００８５】
いずれにせよ、端末１０は、幾つかの規定を用いて、近端での対話が始まり、それが終了した時を決定できる。例えば、ビデオ会議が進行している時、端末１０は、初回フレーミング内で各参加者が少なくとも２度、発言中の話者となるようにすれば（例えば、最後の１０秒位で）、指名されて発言する話者が同一の２人の参加者（のカメラ位置）間で交代したと判定できる。これが判定されると、端末１０は、少なくとも第３の話者が活発になるか、２人の参加者の内の一方が第２の時間枠（例えば、１５秒位）を越える間、ただ１人の話者となるまで、これら参加者両方をフレーミングするよう出席者ビューカメラ５０Ｂを向けることが好ましい。
【００８６】
判定を支援するために、端末１０は、高頻度の話者、彼らの位置、および彼らが別の１人と話す傾向があるかどうかの指標を格納することが好ましい。高頻度の話者が、対話を終えてすぐ後の特定の時間経過（例えば、５分間）内に、対話を続け始める場合、端末１０は、第２の話者が対話で話し始めるとすぐに、過去に使用した前の対話フレーミングに直接戻ることができる。
【００８７】
別の考察として、端末１０は、対話している話者間のビュー角度を判定してもよい。４５°を超える位のビュー角度だけ彼らが離れている場合、出席者ビューカメラ５０Ｂを向けてズームアウトするのは、完了まで思いのほか時間を要する。この場合には、端末１０は、代わりに、室内ビューカメラ５０Ａに切り換えて、室内の広角ビューまたは対話する参加者達のフレームビュー（対話する参加者達を１フレーム画面内に撮ったビュー）を捕捉してもよい。
５．遠端との対話
【００８８】
ビデオ会議中のある時点で、近端の参加者の内の１人が、遠端の参加者と対話することがあり、端末１０は、遠端との対話または音声交換が行われていると判定し（判定１９８）、特定の規定が適用される（１９９）。近端の話者が遠端の話者と会話をしている時、例えば、近端の話者が遠端の話者の話に耳を傾けるためにしばしば話を中断することがある。この状況を近端の話者がいないと認識して室内ビューに切り換えるのではなく、端末１０は、遠端との対話としてこれを識別し、近端の参加者の現在の出席者ビューのままとすることができる。
【００８９】
このようにするため、端末１０は、ビデオ会議ユニット９５が遠端から得た音声情報を使用できる。この音声情報は、会議中に遠端から検出されたスピーチ音声の経過時間および頻度を指示できる。近端では端末１０は、スピーチの同様な経過時間および頻度を得て、それと遠端の音声情報との相関をとることができる。その相関に基づいて、端末１０は、近端の参加者が遠端と対話していると判定し、端末１０は、何人もの他の参加者が近端の室内にいるにも拘わらず、近端の話者がスピーチを止めても室内ビューに切り換えない。
Ｅ．ビュー切換えおよび話者のフレーミング
【００９０】
ビデオ会議中に予想されるように、発言中の話者（達）が互いに、遠端と対話している時に、参加者間で動的に交代することがある。従って、どのビデオを出力するかを決める各種の判定および規則は、カメラビュー間の切換え過ぎを防ぎ、あまり重要ではないビュー、全体の流れから外れたビューを見せないような方法で、ビデオ会議環境の動的な性質に対処することが好ましい。
【００９１】
図５に移って、プロセス２００は、端末１０がどのようにビュー間を切り換え、発言中の話者をフレーミングするかについての更なる詳細を提供する。動作は、１台または両方のカメラ５０Ａ、５０Ｂ（ブロック２０２）を用いてビデオを捕捉する端末１０から始まる。参加者がスピーチしていない時、端末１０は、室内ビューカメラ５０Ａからの広角ビューを使用し、特にビデオ会議の開始時に、このビデオを出力することができる（ブロック２０４）。
【００９２】
ビデオ会議の進行につれて、端末１０は、マイクロホンアレイ２８および／またはアレイ６０Ａ、６０Ｂ（２０６）で捕捉した音声を解析し、参加者の１人が発言しているときを判定する（判定２０８）。この判定は、認識可能な特性に基づいてスピーチを検出し、追跡により音源を探知するための、当技術分野で周知の処理技術を用いることができる。参加者が発言を開始すると（判定２０８）、端末１０は、これが新しい話者かどうかを判定する（判定２１０）。ビデオ会議が開始されたばかりの場合にはこうなるのが普通である。但し、その後で処理する間は、端末１０は、概要を後述する話者認識に基づいて、または分析されたブロック内での最後の話者の位置が、現在の話者の推定現在位置と異なるかどうかの比較に基づいて、発言している人が新しい話者であると判定できる。
【００９３】
新しい話者が判定される（または、何らかの他の理由で処理が必要となる）場合、端末１０は、話者の位置を決定し（ブロック２１２）、決定した位置に向けて出席者ビューカメラ５０Ｂを操舵する（ブロック２１４）。幾つかの技法を用いて、出席者ビューカメラ５０Ｂに対する話者の位置を判定できる。これらの内の幾つかを以下説明する。
【００９４】
一実施例では、端末１０は、各種マイクロホンアレイ６０Ａ、６０Ｂからの音声信号を処理し、音源を探知する技法を用いて発言中の話者を探知する。これらの技法の詳細は、米国特許第５，７７８，０８２号、第６，９２２，２０６号、および第６，９８０，４８５号に記載されており、これらを引用して本明細書に組み込む。別の実施例では、話者認識技法および履歴情報を用いて、話者のスピーチ特徴に基づいて話者を識別できる。従って、端末１０は、認識された話者と関連する最後の位置が少なくとも話者の現在位置と一致（マッチ）する限り、その最後の位置にカメラ５０Ｂを操舵できる。
【００９５】
話者が探知されると、端末１０は、話者の候補位置をカメラコマンド（パン・チルト・ズームの各座標）に変換し、出席者ビューカメラ５０Ｂを操舵して、発言している参加者を捕捉する（ブロック２１４）。発言中の話者が移動すると、彼はカメラのビュー内にフレーミングされる（ブロック２１６）。
【００９６】
話者をフレーミングするのは重要な課題であるので、端末１０は、発言中の話者が現在のビューに適切にフレーミングされる（フレーム画面内に撮られる）かどうかを判定する（判定２１８）。適切でない場合、端末１０は、アクティブなビューおよび／またはカメラビューの近接部分を探索して調整し、話者の実際の物理的な位置をフレーミングするが、これはスピーチ追跡で決定された位置と異なることもある（ブロック２２０）。ビューの調整は、必要に応じて何回でも繰り返すことができる。最終的に、話者の位置が決定できないか、または話者が適切にフレーミングできない場合、端末１０は、出席者ビューカメラ５０Ｂに切り換えるのではなく、室内ビューカメラ５０Ａからの広角ビューの表示を続けてもよい（ブロック２０４）。
【００９７】
出席者ビューカメラ５０Ｂの現在ビューが、現在の話者を適切にフレーミングしているかどうかを判定する幾つかの技法を本明細書で開示する。例えば、出席者ビューカメラ５０Ｂが操舵されると、端末１０は、後述のモーションベースビデオ処理を用いて話者をフレーミングすることができる。フレーミングが良好である（判定２１８）とアルゴリズムが報告すると、端末１０は、広角ビュー（室内ビューカメラ５０Ａが提供）から方向を定めたビュー（出席者ビューカメラ５０Ｂが提供）へ切り換え、遠隔端末へ出力するためにこのカメラ５０Ｂからの現在ビューを選択する。フレーミングが良好であると報告されない場合、出席者ビューカメラ５０Ｂの位置を微調整して、良好なフレーミングの探索を継続する（ブロック２２２）。良好なフレーミングをまだ発見できない場合、端末１０は、室内ビューカメラ５０Ａの広角ビューを保持する（ブロック２０４）。
１．自動追跡の詳細
【００９８】
上記のように、話者を探知し、出席者ビューカメラ５０Ｂを向けるのは、直交編成したアレイ６０Ａ、６０Ｂのマイクロホン６２Ａ、６２Ｂを使用する。例えば、図６Ａは、ビデオ会議環境における水平アレイ６０Ａの平面図を、図６Ｂは、垂直アレイ６０Ｂの立面図を示す。端末１０は、水平アレイ６０Ａを用いて話者の水平方位角を決定し、垂直アレイ６０Ｂを用いて垂直方位角を決定する。配置の差異によりマイクロホン６２Ａ、６２Ｂのそれぞれは、他のマイクロホン６２Ａ、６２Ｂが捕捉する音声信号と位相および振幅が僅かに異なる音声信号を捕捉する。これらの差異の音声処理は、引用して本明細書に組み込む米国特許第５，７７８，０８２号、第６，９２２，２０６号、および第６，９８０，４８５号で開示されているような技法を形成するビームを用いて、話者の水平、垂直の方位角を決定する。
【００９９】
簡単に説明すると、音声処理は、複数の位置の各点と関係付けられるビーム形成パラメータを、マイクロホンアレイ６０Ａ、６０Ｂから送られた音声信号に適用する。次に、音声処理は、パラメータを形成するビームのどのセットがマイクロホンアレイ６０Ａ、６０Ｂにより受信される音声信号の合計振幅を最大化するかを判定する。次いで、音声処理は、マイクロホンアレイの信号の合計振幅を最大化するパラメータを形成するビームセットと関係付けられる水平および垂直の方位角を識別する。これらの水平および垂直の方位角を用いて、音声処理は、出席者ビューカメラ５０Ｂの対応するパン・チルト・ズーム座標を最終的に決定する。
【０１００】
動的環境に依存して、アレイ６０Ａ、６０Ｂによる音源追跡に基づいて出席者ビューカメラ５０Ｂで現在の話者をフレーミングするのはある種の難問を抱える可能性がある。上記したように、周囲の物体の反射により、カメラ５０Ｂが音源の反射方向に間違って向いてしまうことがあり、それにより、話者がカメラビュー内に適切にフレーミングされなくなる。
【０１０１】
図６Ｂに示すように、例えば、音声が反射点（例えば、テーブル上面）で反射するので、パン座標を正しく決定するのが複雑になる。マイクロホンアレイ６０Ｂに対する反射点が、あたかも音源から向けられているかのように見える。発言している参加者の方向からの音より大きなエネルギーの音を反射点の方向から受けると、端末１０は、追跡すべき音源として間違って反射の方を判定する可能性がある。
【０１０２】
これを克服するために、端末１０は、このような反射を認識する検出技法を用いることができる。例えば図７Ａ、図７Ｂに示すように、アレイ６０Ａ、６０Ｂの一方が検出したエネルギーを方位角に対してグラフ化する。図７Ａから分かるように、音源（発生源、ソース）からの音および該音源からの反射により、１つは音源から、もう１つは反射（通常は遅れている）からの２つのエネルギーピークが現れる。これは反射がない図７Ｂのグラフと対照的である。方位角に対するエネルギーを解析すると、端末１０は、音源からの反射があると判定でき、反射の方を無視する。結局、これにより、出席者ビューカメラ５０Ｂが反射点の方を向くのを避けるよう支援できる。
【０１０３】
反射と類似の問題で、話者の探知およびカメラ５０Ａ、５０Ｂによる話者のフレーミングは、ビデオ会議環境において発生する他の雑音により複雑化する。キーボードタイピング、鉛筆で叩く音、椅子のねじり等からの雑音が参加者からのスピーチと混じることがある。例えば、参加者がビデオ会議にノート型パソコンを持ち込んで、Ｅメールに応答したり、ノートを取ったり等、することもある。所与の時間に捕捉された音声が、この雑音（タイピング等）を含むスピーチからなることもあるので、オーディオベース探知器４２のスピーチ検出器４３は、このような余分な雑音に対処する必要がある。
【０１０４】
上記のように、端末１０は、スピーチ検出器４３（図１Ａ）を用いて、マイクロホンアレイ２４が捕捉した信号がスピーチか非スピーチであるかを判定する。典型的には、信号がスピーチまたはキーボード雑音の場合、スピーチ検出器４３が効果的に働き、オーディオ信号を非スピーチとして検出すると、端末１０は捕捉したオーディオ信号だけを無視する。但し、スピーチ検出器４３は、スピーチと雑音が混合されている場合、効果を低下させることができる。エラーが発生した場合、端末１０は、誤って出席者ビューカメラ５０Ｂを雑音源（例えばキーボード）に向けることがある。
【０１０５】
開示する端末１０の幾つかの利点は、外部雑音と混合されたスピーチを処理するのを支援する。上記のように、端末１０は、カメラ５０Ａ、５０Ｂの移動頻度を少なくして、ビューを過度に切り換えるのを避ける方が好ましい。そのために、端末１０は、音源位置をカメラ５０Ａ、５０Ｂに送る前に、待ち時間（例えば、２秒）を用いることが好ましい。つまり、端末１０は、マイクロホンアレイ６０Ａ、６０Ｂから捕捉した音声を２秒間蓄積できてから出席者ビューカメラ５０Ｂに音源位置を宣言する。キーボード雑音とスピーチとは、全待ち時間（２秒）にわたってはオーバーラップせず２回の連続するキーボードタイピング動作の時間間隔は、大部分の人々では少なくとも１００ｍｓであるのが典型的である。従って、２秒間の待ち時間で十分であるが、他の時間間隔を用いてもよい。
【０１０６】
図８Ａは、スピーチ検出でスピーチと非スピーチの音声を処理するためのプロセス３００を示す。一実施の形態では、端末１０は、２０ｍｓ毎に捕捉した音声をサンプリングする（ブロック３０４）ことにより、マイクロホンアレイ６０Ａ、６０Ｂが捕捉した音声の、待ち時間内の蓄積を開始する（ブロック３０２）。端末１０は、これらの２０ｍｓサンプルを用いてスピーチ追跡技法に基づいて音源のパン・チルト座標を計算する（ブロック３０６）。これらのパン・チルト座標はまだ、出席者ビューカメラ５０Ｂに音源位置として渡されない。その代わりに、端末１０は、幾つかのステップで２０ｍｓサンプルを処理して、スピーチおよび／または雑音の元となった音源位置を識別する。
【０１０７】
２０ｍｓサンプルの見なし音源のパン・チルト座標の計算に加えて、端末１０は、過渡信号検出器（ＴＳＤ）を用いて、２０ｍｓサンプルそれぞれの過渡信号値を計算する（ブロック３０８）。図８Ｂは、過渡信号検出器３４０のブロック図を示す。図示のように、検出器３４０は、４０００Ｈｚ未満の周波数をカットする４０００Ｈｚの高域通過フィルタを有する。高域通過フィルタの後の検出器３４０は、一致フィルタのテンプレート信号と、未知の２０ｍｓサンプルの信号との相関をとるために使用される一致フィルタ（一致フィルタの形状をブロック下に示す）を有する。２０ｍｓサンプル毎に、検出器３４０の出力はスカラー値、すなわち一致フィルタ出力における最大値である。
【０１０８】
この過渡信号処理に基づいて、検出器３４０から得られた値は、この２０ｍｓサンプルがスピーチまたは非スピーチを示すかどうかを指示する。例えば、検出器３４０が大きな過渡信号値を発生する場合、２０ｍｓサンプルはキーボード雑音と対応する可能性がある。検出器３４０が小さな過渡信号値を発生する場合、２０ｍｓサンプルはスピーチと対応する可能性がある。過渡信号値が発生すると、その信号値は２０ｍｓサンプルのパン・チルト座標と関係付けられる。
【０１０９】
２秒間の待ち時間（図８Ａ内の判定３１０）が終わるまでに、パン・チルト座標および過渡信号値を有する２０ｍｓサンプルが１００ほどある（背景雑音しかないこれらのサンプルは正当な座標値を生み出さない）。ガウス混合モデル（ＧＭＭ）アルゴリズム等のクラスタ化技法を用いて、端末１０は、２０ｍｓサンプルのパン・チルト座標をクラスタ化し（ブロック３１２）、クラスタの数を見つけて、各クラスタの値を平均する（ブロック３１４）。Ｌｉｎｄｅ−Ｂｕｚｏ−Ｇｒａｙ（ＬＢＧ）アルゴリズム等の他のクラスタ化技法を用いることもできる。
【０１１０】
例えば、図８Ｃは、待ち時間中の２０ｍｓサンプルのパン・チルト座標をクラスタ化した後の結果を示す。各パン・チルト座標は、「ｘ」で示され、各クラスタの平均値（すなわち、音源位置）は「＊」で示される。この実施例では、クラスタ化は、２つのクラスタ内に互いにグループ化される２つの音源を示す。
【０１１１】
２つの音源がビデオ会議環境の別々の部分にあると推定されるので、これらのクラスタは異なるパン・チルト座標を有する。更に、話者がタイピングしながらスピーチしていたとしても、クラスタ化により、それらのクラスタが同じパン座標であっても、チルト座標が異なるクラスタは区別できる。このように、端末１０は、ある参加者がタイピングとスピーチを同時に行っても、出席者ビューカメラ５０Ｂを向けるためのスピーチ音源を探知できる。
【０１１２】
上記のようにクラスタ化が完了すると、図８Ａのプロセス３００にある端末１０は、判定されたそれぞれのクラスタの過渡信号値の平均値を計算する（ブロック３１６）。クラスタの平均過渡信号値が定義済みのしきい値未満の場合（判定３１８）、端末１０は、スピーチに対応する可能性があるとしてクラスタを宣言する（ブロック３２０）。そうではない場合、端末１０は、キーボードのタイピング雑音等の過渡音としてクラスタを宣言する。しきい値の値および他の変数は、精査すべき雑音の種類（例えば、キーボードタイピング）および過渡信号検出器３４０からの一致フィルタの出力に依存する。従ってこれら変数の特定値は実施の形態ごとに設定することができる。
【０１１３】
全てのクラスタの平均値をしきい値と比較し終えると、端末１０は、どのクラスタもスピーチを示していないかどうかを判定し（判定３２４）、どれも示さなければ終了する。ただ一つのクラスタがスピーチを示す場合、端末１０は、平均のパン・チルト座標をもつこのクラスタがスピーチ源の位置と一致すると直ちに判定できる（ブロック３２８）。２つ以上のクラスタがスピーチを示す場合（判定３２６）、端末１０は、最大のパン・チルト座標をもつクラスタをスピーチ音源の位置として宣言する（ブロック３３０）。
【０１１４】
従って、図８Ｃに示すクラスタ化は、以下のように４つの結果を有する可能性がある。（１）クラスタＡはスピーチ、クラスタＢは雑音。（２）クラスタＡは雑音、クラスタＢはスピーチ。（３）クラスタＡはスピーチ、クラスタＢもスピーチ。（４）クラスタＡは雑音、クラスタＢも雑音。図８Ｃは本実施例の２つのクラスタを示すが、スピーチおよび雑音の任意の音源数で動作するよう端末１０を拡張してもよい。
【０１１５】
図８Ｃの本実施例では、端末１０は、クラスタＡまたはＢが第１および第２の組合せでスピーチ音源に対応すると直ちに判定できる。これらの状況では、端末１０は、音源の位置（スピーチクラスタの平均パン・チルト座標）を２秒の待ち時間が終了した後に出席者ビューカメラ５０Ｂに伝えることができ、それにより、必要ならカメラ５０Ｂを音源に向けることができる。
【０１１６】
両クラスタＡおよびＢがスピーチを示す第３の組合せが発生する場合、端末１０は、クラスタ内のパン・チルト座標「ｘ」の数値を用いて、どのクラスタが優勢な話者を表すかを判定する。こうして、待ち時間の間の２０ｍｓのサンプルについて計算された最大のパン・チルト座標を有するクラスタは、音源の位置を宣言される。何れのクラスタもスピーチを示さない第４の組合せでは、端末１０のスピーチ検出器４３は、検出された音が全て（または、ほとんど）雑音であると既に示されている。
【０１１７】
上記で明らかなように、端末１０は、待ち時間を用いて、スピーチおよび／または雑音がマイクロホンアレイ６０Ａ、６０Ｂにより収音されているかどうかを検出する。最後に、過渡信号値のフィルタ処理および座標のクラスタ化を通じて、端末１０は、パン・チルト座標がスピーチの音源と対応する可能性があると判定できる。こうして、端末１０は、より信頼性の高い音源位置情報を提供して、操作中に出席者ビューカメラ５０Ｂを方向付ける可能性がより高い。
２．フレーミング詳細
【０１１８】
不正確な方位決定を伴う問題に対処するために、端末１０は、会議中の話者の自動フレーミングのためのモーションベース技法および本明細書で開示する他の技法を用いることもできる。更に、端末１０は、カメラのビュー内に構成可能な非捕捉領域を持つことができる。この方法で、ユーザは、カメラのビューフィールド内に、ビデオを捕捉するためにカメラ５０Ａ、５０Ｂを向けるべきでないセクションを定義できる。典型的には、これらの非捕捉セクションは、テーブル、壁等が主として捕捉されるビューのフィールド内領域となる。
【０１１９】
図９Ａ、図９Ｂに移って、室内ビューカメラ（５０Ａ）からの広角ビュー２３０Ａを示す。更に、不正な方位周りの第１フレーミング決定の後、ビデオ会議参加者周りをフレーミングしている出席者ビューカメラ（５０Ｂ）からの狭角ビュー２３０Ｂが示されている。参照用に、非捕捉領域２３２が、広角ビュー２３０Ａ内に定義されている。これらの領域２３２は、特定の室内用に端末（１０）の校正に際して実装され、会議毎に変えなくてもよい。
【０１２０】
図９Ａでは、出席者ビューカメラ（５０Ｂ）は、スピーチが開始されてから、狭角ビュー２３０Ｂ内のビデオ会議参加者に照準を合わせている。何らかのエラーにより（すなわち、反射、話者が顔をそらす等）、狭角ビュー２３０Ｂは、参加者を適切にフレーミングしていない。適切なフレーミングを検証するために、端末（１０）は、狭角ビュー２３０Ｂの捕捉ビデオ内のモーション、肌色、または顔の特徴等の特徴を調べる。
【０１２１】
モーションを検出するために、端末（１０）は、出席者ビューカメラ（５０Ｂ）により捕捉された狭角ビュー２３０Ｂのビデオから順次サンプリングされた各フレームを比較して、モーションによる差異を識別する。より詳細に後述するように、例えば、端末（１０）は、１フレームまたはその一部の画素の輝度値を合計し、隣接する順次フレーム間でその合計値を互いに比較することによりモーション（動き）を判定する。２つの合計値間の差異が所定の閾値を超える場合、モーションがある領域として当該フレームまたはその一部にマークする。最終的には、繰返しプロセスにて、この検出されたモーションの周囲で狭角ビュー２３０Ｂを調整するか、または中央に寄せる。
【０１２２】
例えば、出席者ビューカメラ５０Ｂは、上下左右に寄りすぎている狭角ビュー２３０Ｂの話者をフレーミングできる。最初に、カメラ５０Ｂの照準をモーション画素に基づいて調整する。カメラ５０Ｂが話者の上を狙いすぎる場合（すなわち、話者頭部がビュー２３０Ｂの下半分に示されている）、カメラの照準をモーション画素（すなわち、処理により見つけられた最も上のモーションブロック）に基づいて下げる。
【０１２３】
カメラ５０Ｂによりフレーミングされる狭角ビュー２３０Ｂと関係するモーションブロックが全くない場合、端末（１０）は、アレイ６０Ａ、６０Ｂが捕捉する音声内の第２のサウンドピークに向けるようにできる。現在のカメラ（すなわち、出席者ビューカメラ５０Ｂ）が自動機能（例えば、自動焦点、自動ゲイン、自動絞り等）を有する場合、端末１０は、上記モーション検出を実行するときにこれらの機能を無効にできる。これにより、モーション検出の信頼性向上が支援される。
【０１２４】
モーション検出の代替として、端末（１０）は、当技術分野で周知の技法を用いて狭角ビュー２３０Ｂのビデオ内の肌色を検出する。簡単に説明すると、端末（１０）は、フレームまたはその一部の中のクロミナンス値の平均を求めることができる。その平均値が肌色と関係する範囲内の場合、フレームまたはその一部が肌色特性をもつと見なされる。更に、端末（１０）は、顔認識技法を用いて、カメラビュー２３０Ｂ内の顔を検出し、探知することができる。例えば、端末（１０）は、人の肌を含む可能性がある領域を探し、これらから、ビュー内の顔の位置を示す領域を探して顔を見つけることができる。肌色および顔の検出（および音声探知）に関する詳細は、米国特許第６，５９３，９５６号、発明の名称「ＬｏｃａｔｉｎｇａｎＡｕｄｉｏＳｏｕｒｃｅ（音源探知法）」に開示されており、これを引用して本明細書に組み込む。次いで、狭角ビュー２３０Ｂは、繰返しプロセスでこの検出した肌色および／または顔認識の周囲を調整し、中央に寄せる。
【０１２５】
フレーミングを検証する際に、端末（１０）は、カメラ（５０Ａ、５０Ｂ）からの両方のビュー２３０Ａ、２３０Ｂを用いて、モーション、肌色、または顔等の特性を分析する。出席者ビューカメラ（５０Ｂ）からの広角ビュー２３０Ｂのモーション、肌色または顔を分析して、そのカメラが参加者に現在向けられているかどうかを判定できる。例えば、出席者ビューカメラ（５０Ｂ）が壁または天井を指している場合、狭角ビュー２３０Ｂ内のモーション、肌色、または顔のビデオ処理はこの事実を判定できるので、端末（１０）は、このような望ましくないビューが出力されるのを回避できる。次いで、出席者ビューカメラ（５０Ｂ）を周辺領域に操舵して、これら周辺領域の後続のモーション、肌色または顔の判定からの値が大きい故に、より良好なフレーミングが達成できるかどうかを判定できる。
【０１２６】
代替として、スピーチ追跡により得られた現在フレーミングされているビュー２３０Ｂを取り巻くモーション、肌色、または顔を判定するために、室内ビューカメラ５０Ａからの広角ビュー２３０Ａを分析することができる。これらの周囲領域のモーション、肌色、または顔の判定からの大きな値が広角ビュー２３０Ａ内で発見された場合、端末（１０）は、出席者ビューカメラ（５０Ｂ）を周囲の領域に向けて操舵することができる。２台のカメラ（５０Ａ、５０Ｂ）間の設定距離および２つのビューの相対的な方位が分かると、端末（１０）は、出席者ビューカメラ（５０Ｂ）を移動させて適切な領域をフレーミングするために、ビュー２３０Ａ、２３０Ｂ間の領域を座標に変換できる。
【０１２７】
周囲の領域を分析する方法は、フレーミングされている環境の量を変化させるように出席者ビューカメラ（５０Ｂ）をズームインおよびズームアウトさせることを含む。次いで、ビデオ処理は、異なるズームビュー間のモーション、肌色、または顔の判定における差異を決定できる。代替として、出席者ビューカメラ（５０Ｂ）のパンおよび／またはチルトは、最初のフレームビュー２３０Ｂから調整済みのフレームビューに自動的に調整される。この場合には、ビデオ処理は、調整が異なるビュー間のモーション、肌色、または顔の判定における差異を決定して、どのビューが参加者をより良好にフレーミングするかを見つけることができる。更に、モーション、肌色、または顔の判定のそれぞれを互いに組み合せることができ、出席者ビューカメラ（５０Ｂ）の現在のフレーミングの調整と室内ビューカメラ（５０Ａ）の使用との組合せも用いることができる。
【０１２８】
最後に、フレーミング技法は、出席者ビューカメラ（５０Ｂ）と室内ビューカメラ（５０Ａ）との間で情報を交換して、話者のフレーミングを支援することができる。１台のカメラの操作（パン、チルト、ズーム）を、他のカメラの操作（パン、チルト、ズーム）と直接関連付けることができるように、２台のカメラ（５０Ａ、５０Ｂ）の物理的な位置を知って、固定することができる。例えば、出席者ビューカメラ（５０Ｂ）を用いて、話者をフレーミングできる。次いで、その情報を室内ビューカメラ（５０Ａ）と共有して（室内ビューカメラ５０Ａを電子的に制御して）、このカメラ（５０Ａ）の室内フレーミングに役立てることができる。更に、室内ビューカメラ（５０Ａ）からの情報を出席者ビューカメラ（５０Ｂ）と共有して、良好な話者フレーミングに役立てることができる。
【０１２９】
これらのフレーミング技法を用いて、ビデオ会議端末１０は、話者ではなく、または良好にフレーミングされていない何らかのズームインビューを端末１０が生成する可能性を低下させる。言いかえると、端末１０は、従来システムで発生することもある不適切なフレーミング（会議机や何もない壁にズームインしたり、またはマイクロホンアレイが生成した不完全な音声結果により話者の膝にズームインしたりする等）の可能性を低下させる。事実、従来システムの幾つかは、何人かの話者を探知することは決してできない。例えば、従来システムは、マイクロホンアレイ６０Ａ、６０Ｂに対する直接音響パスがテーブルの反射により不明瞭になるテーブル端の話者を探知できない。開示する端末１０は、本明細書で開示するビデオとオーディオの処理を両方用いることにより、このような話者へのズームインを成功させることができる。
Ｆ．自動フレーミング処理
【０１３０】
簡単に上記したように、出席者ビューカメラ５０Ｂを現在の話者に動的に向ける場合、本実施例で開示する端末１０は、モーション、肌色、および顔認識を用いて、参加者を適切にフレーミングすることができる。フレーミング技法の一部として、開示する端末１０は、ビデオ会議開始時または別の時間間隔で捕捉した室内のビデオ内の関連ブロックを検出することにより、参加者の位置を最初に予測できる。これらの関連ブロックを、モーション、肌色、顔認識または捕捉したビデオ内のこれらの組合せを見ることにより判定できる。自動フレーミングのプロセスは、会議の開始または他の適切な時間にビデオ会議参加者により開始できる。代替として、自動フレーミングプロセスは、ビデオ会議通話の開始時に、または何らかの他のトリガーされた時間の何れかに自動的に起動させてもよい。参加者の位置と対応して捕捉されたビデオ内の関連ブロックを知ることにより、端末１０はその後、カメラ５０Ａ、５０Ｂにより室内の周囲の参加者を自動的にフレーミングする場合に、これらの既知の関連ブロックを用いることができる。
【０１３１】
図１０は、本開示による自動フレーミングを用いるためのプロセス４００を示す。図１Ａ、図２Ａに開示するような２台のカメラシステム用のこのプロセス４００を以下に説明する。但し、自動フレーミング技法は、図２Ｂ、図２Ｄに開示するような１台のカメラを有するビデオ会議システムでも同様に使用可能である。
【０１３２】
ビデオ会議が開始される前の初期状態で（すなわち、通話が接続されていて参加者の準備ができている時）、端末１０は、時間枠を開始し（ブロック４０２）、カメラの内の１台が捕捉するビデオをサンプリングする（ブロック４０４）。これを行うために、端末１０が幅広くカメラをズームして室内全体のビデオを捕捉するか、または端末１０が最も広角の環境ビューのためのカメラの全てのパン・チルト・ズーム範囲を直接調べてもよい。室内の広角ビューを捕捉してから、端末１０は、その広角ビューを別の分析をするために複数のブロックにセグメント化（区分け）する（ブロック４０６）。言いかえると、対象となる室内空間の既定の広角ビューは、複数のセクションまたはブロックに「分割」される（Ｎ＝２、３等）。これらのブロックはそれぞれ、カメラの特定の狭角ビューを表す。このようにして、ブロックをカメラの特定のパン、チルト、およびズーム座標として識別できる。
【０１３３】
２台のカメラ５０Ａ、５０Ｂがある場合、端末１０は、カメラ５０Ａ、５０Ｂの１台または両方を、全体の広角ビューを捕捉するようズームできる。好適には、パン・チルト・ズームの操舵可能な出席者ビューカメラ５０Ｂを用いて、最も広くできる環境のビューを捕捉できる。上記のように、このカメラ５０Ｂのパン、チルト、およびズームの全範囲は、端末１０には既に既知である。従って、端末１０は、最も広くできるビューを、それぞれがカメラ５０Ｂの特定のパン、チルト、およびズーム座標により表される複数のブロックつまり狭角ビューに自動的にセグメント化できる。
【０１３４】
代替として、出席者ビューカメラ５０Ｂは、様々な方向で別々に幾つかのビデオ画像を捕捉し、それらを互いにつなぎ合わせて室内の広角ビューを作成してもよい。例えば、図１２Ａは、出席者ビューカメラ５０Ｂで捕捉されたビデオ会議環境の４分割の４枚の捕捉画像４６０を示す。この画像４６０を得るには、出席者ビューカメラ５０Ｂを広角ズームして様々な４分割にパンし、室内の最も広くできるビューを捕捉できる。これにより、探索領域を拡げることができる。画像４６０間のオーバーラップは図示していないが、実際にはオーバーラップさせることができ、これは処理により適切に取り扱うことができる。
【０１３５】
各画像４６０を幾つかのブロック４６２に分割して示す（この例では１５枚だが他の枚数でもよい）。ブロック４６２は、少なくとも１画素と同じ大きさであり、ビデオ圧縮アルゴリズムにより普通に使用されるマクロブロックのサイズとしてもよい。繰返しになるが、これらのブロック４６２はそれぞれ、カメラ５０Ｂの特定のパン、チルト、およびズーム座標と関連付けられ、所与の幾何寸法により決定することができる。
【０１３６】
図１０において複数ブロックに分割された室内の広角ビューを用いて、端末１０は、各ブロックを選択し（ブロック４０８）、かつ、各ブロックを精査して、自動フレーミングの目的に対する当該ブロックの関連性（妥当性）を判定する。各ブロック４６２を精査するために、出席者ビューカメラ５０Ｂを、そのブロックを包含する１つの狭角ビューにズームインして（ブロック４１０）、このブロックが、室内の全体ビュー内でどのような関連性（すなわち、モーション、肌色、顔認識等、自動フレーミング目的に対する関連性）を有するかを判定する。ズームインされると、出席者ビューカメラ５０Ｂにより得られたビデオ画像は、モーション、肌色、および他の詳細をより良好に検出できる。
【０１３７】
従って、端末１０は、選択されたブロック（狭角ビュー）からのズームイン画像が関連している（妥当である）かどうかを判定する（判定４１２）。もし或るブロックが関連している（妥当である）と判定された場合、端末１０は、関連している（妥当である）としてこのブロックにマークし（ブロック４１４）、後で使用するために、その関連位置情報（カメラのパン、チルト、およびズーム座標）をメモリに格納する。
【０１３８】
関連する（妥当性を有する）ブロックは、ビデオ会議中に動的に必要とされる場合、カメラ５０Ａ、５０Ｂによるビューを適切にフレーミングするために対象の領域をそれらが定義するので、重要である。言いかえると、関連する（妥当性を有する）ブロックは、それが少なくとも興味の対象の一部であることをビデオ会議の参加者へ示す特性を有するビューの一部を含んでいる。ビデオ会議では、参加者が興味の対象であることが多い。このような場合、ビデオ会議参加者を示す探索可能な特性には、上記のように、モーション、肌色、および顔の特徴を含めることができる。
【０１３９】
ブロック全ての精査（判定４１６）および時間経過が終了後（判定４１８）、ビデオ処理は、最も外側の関連ブロックを決定する（ブロック４２０）。これらには、最も左、最も右、および最も上の関連ブロックが含まれる。最も下の関連ブロックは、望むなら無視してもよい。このような最も外側のブロックから、端末１０は、環境内の参加者の最も適合するビューをフレーミングする（１フレーム画面に入れる）ためにパン・チルト・ズーム座標を計算する（ブロック４２２）。例えば、最も左、最も右、および最も上の関連ブロックの位置を、三角計算およびメモリに格納されたブロックカメラ位置データを用いて自動フレーミングするためのパン・チルト・ズーム座標に変換することができる。
【０１４０】
最後に、端末１０は、分析されたブロックから得られた複合結果に基づいて室内をフレーミングする。説明用に過ぎないが、図１２Ｂは、広角ビュー４６０内における複数の関連ブロック４６２のフレーミングされた領域４７０を示す。領域４７０内の最も左、最も右、および最も上の関連ブロック４６２を考慮した後、図１２Ｃは、広角ビュー４６０内においてその結果として得られる１つのフレーミングビュー４７２（妥当であると判定された１又は複数のブロック４６２を１つのフレーム画面に納めた最良のビュー）を示す。最良ビュー４７２を知ることにより、端末（１０）は、ビデオ会議室の不要な部分が捕捉されないように、室内ビューカメラ（５０Ａ）のパン・チルト・ズーム座標を調整して、このビュー４７２をフレーミングできる。同様に、端末（１０）が出席者ビューカメラ（５０Ｂ）に対して実行する参加者のスピーチ追跡および自動フレーミングは、一般に、このフレーミングされたビュー４７２に制限される。この方法で、端末（１０）は、フレーミングされたビュー４７２の外側の音源反射に向けられるのを避け、フレーミングされたビュー４７２の外側でスピーチしている参加者を適切にフレーミングしようと試みる場合、その参加者を囲む隣接領域を探索するのを避けることができる。
１．モーションを用いる自動フレーミング
【０１４１】
あるブロックを関連があるとして判定するために、上記のような幾つかの技法を用いることができる。図１１Ａに示す一実施の形態では、ビデオ処理は、どのブロックが移動している参加者を指示するかを判定することにより、関連ブロックを識別する。図示のように、ビデオ処理は、ブロックを選択し（ブロック４０８）、上記のように狭角ビューでそれにズームインする（ブロック４１０）。次いで、ビデオ処理は、選択したブロックのズームインカメラ５０Ｂが捕捉したビデオフレームレートを下げて、計算が複雑にならないようにする。例えば、フレームレートは、一実施の形態では約６フレーム／秒まで低下させることができる。この時点または他の時点で、時間フィルタおよび空間フィルタを適用して、検出を改良し、雑音または干渉を除去することができる。
【０１４２】
連続したフレームを用いて、ビデオ処理は、ブロックのフレームの内の１つにある画素の輝度値を合計し、この値をブロックのフレームの内の別の１つにある輝度値の合計値と比較する（ブロック４３４）。２つの合計値の差が所定のしきい値より大きい場合（判定４３６）、ビデオ処理は、対象ブロックを関連性があり、モーションを含む可能性があるとしてマークする（ブロック４１４）。
【０１４３】
最後に、連続フレーム間の輝度値の差を、ブロック毎に全てのブロックが分析されるまで計算する（判定４１６）。それが済むと、端末１０は、ブロックの内のどれがモーションに基づいて関連付けられているかを判定したことになる。この時点で、端末１０は、図１０のプロセスステップを続けて、関連するブロックに基づいて室内の広角ビューを自動フレーミングする。
【０１４４】
説明に過ぎないが、図１３は、第１位置に参加者がいるブロックの第１フレーム４６４、および参加者が動いたブロックの後続のフレーム４６５を示す。上記のモーションベース技法は、これら２つのフレーム４６４、４６５の輝度を平均化し、それらを比較する。輝度の差がしきい値を超える場合、これらのフレーム４６４、４６５と関係するブロックを、フレーミングビューの一部として指定される関連モーションブロックと判定する。
【０１４５】
対照的に、フレーム４６６、４６７は、静的なままのビデオ会議室の一部を示す。輝度の平均値をこれらのフレーム４６６、４６７間で比較すると、その差はしきい値未満になるので、これらのフレーム４６６、４６７と関係するブロックに関連性があるとは判定されない。
【０１４６】
輝度の差のしきい値は、使用するカメラ、ホワイトバランス、光量、および他の要因に依存する。従って、しきい値は、自動または手動で構成可能とすることができる。例えば、端末１０は、低いしきい値を利用して、ビデオ会議参加者の意識的、無意識的なモーションに基づく関連ブロックを検出することができる。ビデオ処理がこのような低いしきい値を用いる場合は、処理はモーションに対するより高い感度をもつことになる。逆に、しきい値が高くなると、端末のモーションに対する感度は低下する。従って、スピーチに関わるビデオ会議参加者を探知するのに必要な最小しきい値は、受動的なモーションを示すだけのビデオ会議参加者を探知するのに必要な最小しきい値より高くなる。従って、しきい値を調整することにより、ビデオ処理は、スピーチしている間のビデオ会議参加者を検出でき、座っているだけの場合の検出をせずに済む。これらの理由から、モーション検出に関わる何らかのしきい値を構成可能とし、かつ操作中は自動的に調整可能とすることができる。
２．肌色を用いる自動フレーミング
【０１４７】
図１１Ｂに示す別の実施の形態では、ビデオ処理は、画素が肌色を含むかどうかに基づいて関連ブロックを判定する。画像内の肌色を見つけるための多数の方法が当技術分野で周知である。本実施例では、あるブロックをビデオ処理が選択し（ブロック４０８）、上記のように狭角ビューにそれをズームインする（ブロック４１０）。次いで、ビデオ処理は、ブロックまたはその一部の取得ビデオ内の１つ以上のフレームをサンプリングし（ブロック４４０）、必要に応じてフィルタ処理し（ブロック４４２）、対象ブロック内のクロミナンスの平均値を計算する（ブロック４４４）。その平均値が人の肌色と関係する範囲内にある場合（判定４４４）、ブロックを関連性ありとしてマークする（ブロック４１４）。
【０１４８】
肌色検出に関する詳細は、組み込まれる米国特許第６，５９３，９５６号に開示されている。肌色検出は、幾つかの因子に依存し、手動および自動で構成可能とすることもできる。何らかのイベントで、全てのブロックが関連性について分析されるまで、ブロック毎に平均クロミナンス値が計算される（判定４１６）。この時点で、端末１０は、図１０のプロセスステップを後続して、関連するブロックに基づいて室内の広角ビューを自動でフレーミングする。
Ｇ．顔認識法を用いる自動フレーミング
【０１４９】
図１１Ｃに示す更に別の実施の形態では、ビデオ処理は、顔認識法を用いて関連ブロックを判定する。顔の特徴を認識するための多数の方法が当技術分野で周知である。顔検出に関する詳細は、組み込まれる米国特許第６，５９３，９５６号に開示されている。本実施例では、ビデオ処理は、肌色を持つとして既に分析され、マークされている隣接ブロックを選択する（ブロック４５０）。次いで、顔認識アルゴリズムが、顔の特徴について隣接するブロックのセットを分析する（ブロック４５２）。検出された場合（判定４５４）、後で自動フレーミングに使用できるように、関連する顔のブロックとしてこの隣接ブロックのセットをマークする（ブロック４５６）。
【０１５０】
最後に、顔を認識するために全ての隣接ブロックをセット毎に、全ブロックを分析し終えるまで分析する（判定４１６）。この時点で、端末１０は、図１０のプロセスステップを続けて、関連するブロックに基づいて室内の広角ビューを自動フレーミングする。
Ｈ．追加の自動フレーミングの詳細
【０１５１】
動作中に、ビュー内の条件が変化すると、端末１０は、カメラ（５０Ａ、５０Ｂ）の１台または両方により得られた現在ビューを再フレーミングする必要がある。例えば、ビデオ会議参加者がビデオ会議中にビューから去ったり、または新しい参加者が入室したりすることがある。端末１０は、広角ビューを周期的に再スキャンして、何らかの変化（すなわち、新しいか、またはふるい何らかの関連ブロック）を発見できる。再スキャンの時、ビデオ処理は、参加者を含むか、または含まないこれらのブロックを探知できるので、カメラビューのパン・チルト・ズーム座標を再計算する際にそれらを考慮できる。代替として、ビデオ会議参加者は、ユーザーインターフェースまたはリモコンを用いて再フレーミングシーケンスを開始してもよい。
【０１５２】
再スキャンでは、少なくとも２台のカメラ５０Ａ、５０Ｂを有する端末１０を用いると特に有利である。例えば、２台のカメラの端末１０では、出席者ビューカメラ５０Ｂは、図１０のプロセスにより周期的に室内の広角ビュー全体を再スキャンでき、一方、室内ビューカメラ５０Ａは、会議ビデオを捕捉し、出力する。代替として、出席者ビューカメラ５０Ｂが現在の話者を追跡し、ズームインしている時に、室内ビューカメラ５０Ａは再スキャン手順を開始して、広角ビューで関連ブロックを判定してもよい。
【０１５３】
これらのフレーミング技法は、上記開示のカメラ２台の端末１０に有利であるが、図２Ｂ、図２Ｄに開示するように、カメラ１台の装置を持つシステムで使用することもできる。更に、これらのフレーミング技法を上記開示のマイクロホンアレイを持つシステムとともに、または他のマイクロホン編成とともに用いてもよい。
１．話者認識
【０１５４】
スピーチ追跡、モーション、肌色、および顔の認識に追加して、またはそれらの代替として、端末１０は、話者認識を用いてどの参加者がビデオ会議環境でスピーチしているかを識別できる。話者認識技法は、上記のカメラ２台の端末１０により用いられるが、更に多いかまたは少ないカメラを有する他のビデオ会議システムで使用できる。カメラ２台の端末１０では、室内ビューカメラ５０Ａをズームアウトした室内ビューにセットでき、一方、出席者ビューカメラ５０Ｂは、上記したように、現在の話者を追跡およびズームインできる。次いで、端末１０は、話者認識に一部基づいて、どのカメラビューを出力するかを決定できる。
【０１５５】
参考のために、図１４に、２台のカメラ５０Ａ、５０Ｂ、マイクロホンアレイ６０Ａ、６０Ｂ、外部マイクロホン２８、および他のコンポーネントを有するビデオ会議の端末１０を示す。端末１０は話者認識機能も有し、話者認識モジュール２４およびデータベース２５を含む。これらは、外部マイクロホン２８およびアレイ６０Ａ、６０Ｂからの音声を処理するために使用されるオーディオモジュール２０と関係付けることができる。
【０１５６】
話者認識モジュール２４は、主として外部マイクロホン２８によりサンプリングされる音声を分析する。この音声を用いて、話者認識モジュール２４は、ビデオ会議中にどの参加者が現在スピーチしているかを判定し、識別することができる。一方、データベース２５はこの判定または識別を行うための情報を貯蔵する。
【０１５７】
図１５に示すように、図１４の話者認識モジュール２４が使用できる幾つかの情報を含むデータベーステーブル４８０を示す。このデータベーステーブル４８０は、説明のために提供するだけであり、当該分野の技術者には言うまでもなく、話者認識モジュール２４のための各種の情報を当技術分野で周知の利用可能な任意の方法で格納できる。
【０１５８】
図示のように、データベーステーブル４８０は、ビデオ会議内の近端参加者それぞれについての幾つかの記録を保持できる。データベーステーブル４８０は、参加者毎に、参加者の識別情報（名前、タイトル等）、その参加者の決定された位置（パン・チルト・ズーム座標）、およびその参加者のスピーチの特性を含む。
【０１５９】
これに加えて、データベーステーブル４８０には、参加者がビデオ会議中にスピーチした平均経過時間、参加者がビデオ会議中にスピーチした回数、およびスピーチしている参加者を追跡し、認識するのに有用な他の詳細情報が含まれている。この情報は会議の統計値を捕捉し、報告するためにも使用できる。これらの情報は、例えば、会議の話者の人数、各人がスピーチした時間の長さ、その話者がいつ会議に参加したか等を示すことができる。最後に、これらの情報を用いて、会議の記録を精査するときに、ビデオ会議の特定のセクションを素早く探すことができる。
【０１６０】
データベーステーブル４８０に含まれているような情報を用いて、図１４の端末１０の話者認識モジュール２４は、スピーチを検出した時、ビデオ会議の様々な参加者から特定話者を識別できる。例えば、図１６は、ビデオ会議中に実装できる話者認識プロセス５００を示す。最初に、端末１０がビデオ会議を開始する（ブロック５０２）。会議設定の一部として、参加者は話者認識インターフェースに登録する（ブロック５０４）が、これは、本明細書で開示する話者認識には厳密には必要ない。
【０１６１】
登録手続きを使う時は、参加者は、名前、肩書き等の、識別情報をユーザーインターフェースを用いて入力する。次いで、参加者は、話者認識モジュール２４に１つ以上のスピーチサンプルを提供する。このサンプルを得るために、モジュール２４は、参加者に特定のスクリプト、フレーズ、ワード等を言うように要求しても、しなくてもよい。いずれにせよ、モジュール２４は、参加者のスピーチサンプルを分析し、参加者のスピーチの特性を判定する。登録が終了すると、モジュール２４は、後で使用するために参加者毎のスピーチ特徴および識別情報をデータベース２５に格納する（ブロック５０６）。
【０１６２】
一実施の形態では、モジュール２４が提供する話者認識は、データベース２５に格納されたスピーチ特徴がメル周波数ケプストラム係数（ＭＦＣＣ）を含むように、メル周波数ケプストラム（ＭＦＣ）に基づいて行うことができる。これらの係数を導く技法は当技術分野で周知なので、本明細書では詳細を説明しない。但し、モジュール２４は、スピーチ特徴を識別し、そこから話者を認識するために当技術分野で周知の任意の他の技法を使用してもよい。
【０１６３】
参加者の登録により、端末１０はビデオ会議の運営を開始する（ブロック５０８）。出席者ビューカメラ５０Ａを話者に向ける前に、端末１０は、ビデオを捕捉し、室内ビューカメラ５０Ａからの広角ビューを最初に出力する（ブロック５１０）。その間に、端末１０は、外部マイクロホン２８および／またはマイクロホンアレイ６０Ａ、６０Ｂが捕捉したローカルの音声を分析する（ブロック５１２）。
【０１６４】
幾つかのポイントで、端末１０は、当技術分野で周知のスピーチ検出技法を用いてスピーチが検出されるかどうかを判定する（判定５１４）。これを行うためには、端末１０のスピーチ検出器４３が、捕捉した音声をサンプリングし、その音声をフィルターバンクで複数帯域にフィルタ処理できる。スピーチに関するこれらの帯域のインパルスまたは振幅を分析すれば、現在のサンプリングした音声がスピーチを示すかどうかが判定できる。好適には、分析される捕捉した音声は、アレイ６０Ａ、６０Ｂで得られるものではなく外部マイクロホン２８により得られる会議の音声であるが、アレイからの音声を用いることもできる。
【０１６５】
スピーチが検出されると、話者認識モジュール２４は、検出したスピーチをサンプリングしてその特徴を判定し、次いで、モジュール２４は、これらの特徴を有する参加者についてのデータベース２５を探索する（ブロック５１４）。繰返しになるが、モジュール２４は、当技術分野で周知の技法を用いて現在のスピーチのメル周波数ケプストラム係数（ＭＦＣＣ）を判定できる。それが済むと、端末１０は、現在導き出されている特徴を、様々な参加者のデータベース２５に格納された特徴と比較することにより、現在の話者を識別する。従って、現在の話者の識別をこれらの特性の最良一致（マッチ）に基づいて得ることができる。
【０１６６】
参加者が登録されると、例えば、モジュール２４は、データベース内のその話者を探索し（判定５１８）、次いで、端末１０は、出席者ビューカメラ５０Ｂをその話者の座標または方向に向ける（ブロック５２０）。この方法で、端末１０は、スピーチを検出し、アレイ６０Ａ、６０Ｂによるビーム形成法を用いて話者の位置を判定し、現在の話者の識別を判定し、出席者ビューカメラ５０Ｂを現在の話者のズームインビューに向ける。この時点で、遠端に出力されるビデオ上に話者の名前を自動的に表示できるようになる。言うまでもなく、遠端での現在の話者の名前表示は、特に、近端と遠端で参加者同士が互いに知らない場合に便利である。
【０１６７】
追加の尺度として、マイクロホンアレイ６０Ａ、６０Ｂによるビーム形成法により得られた現在の話者の決定位置（出席者ビューカメラ５０Ｂのパン・チルトおよびズーム）（既に既知でなければ）を、話者識別およびスピーチ特徴と併せてデータベース２５に格納できる。この方法では、この話者がその後に会議でスピーチを開始すると、モジュール２４は、スピーチ特徴から話者を識別でき、次いで、端末１０は、出席者ビューカメラ５０Ｂを、データベース２５から得られた格納位置（パン、チルト、およびズーム）に直接向けることができる。従って、端末１０は、話者認識を用いて、難しい状況で話者を探知する信頼性を向上させることができるが、アレイ６０Ａ、６０Ｂによる話者の音声追跡を実行しないで済ませることができる。
【０１６８】
例えば、現在の話者の位置が既知で、かつスピーチ特徴と関係付けられている場合、端末１０は、現在の音源の位置を、データベース２５内の話者の格納位置に対して検証できる（ブロック５２２）。話者認識およびデータベース記入項目との一致（マッチング）が、参加者の１人を現在の話者として間違って識別している状況が存在することがある。出席者ビューカメラ５０Ｂを間違った人または反射ポイントに向けるのを避けるために、端末１０は、チェックを行って、判定した位置が以前にデータベース２５内に格納された位置と一致するかどうかを判定する（判定５２４）。これは、参加者人数が多い場合、および現在のスピーチと格納特性との間の一致の確定性が低い場合に有用である。このチェックは更に、参加者がビデオ会議中に移動して、データベース２５に格納された位置が不正確になるか、またはデータが無意味になると予想される場合に有用なことがある。
【０１６９】
既に登録した話者のデータベース２５内に現在の話者を見つけようと試みる場合（判定５１８）、モジュール２４は、その話者がデータベース２５に含まれないと判定することができる。例えば、誰かが、会議に遅れて到着し、話者識別プロセスで未登録のこともある。代替として、端末１０は、登録プロセスを使用せず、会議の進行につれて新規の話者を識別するだけとすることができる。
【０１７０】
何らかのイベントで、モジュール２４は、現在の話者から導き出されたスピーチ特徴が、データベース２５内に格納されたスピーチ特徴および識別の何れとも最良一致しないと判定する。この場合、モジュール２４は、データベース２５内にそのスピーチ特徴を格納する（ブロック５２６）。この場合の話者の名前は、端末１０が会議中に記入を促さない限り、データベース記入項目に付帯させなくてもよい。この時点で、端末１０は、上記のマイクロホンアレイ６０Ａ、６０Ｂおよびビーム形成技法を用いて話者の位置を判定でき、それをデータベース２５内に格納する（ブロック５２８）。このステップは、探知した話者と格納した座標とを一致させるのに端末１０が失敗した場合にも実行される（判定５２４）。同様に、話者の現在位置が以前の処理により既に既知のこともあり、その場合、端末１０は話者の位置を初めからやり直して判定しなくてもよい。
【０１７１】
全体として、端末１０はそれぞれの利用可能な方法を用いて現在の話者を探知し、その話者の位置を正しくフレーミングできる。この方法で、マイクロホンアレイ（６０Ａ、６０Ｂ）、カメラ（５０Ａ、５０Ｂ）の捕捉ビデオ、マイクロホンポッド（２８）の音声、および話者認識からの情報は、１つが失敗した場合に相互に補うことができ、それらを用いて互いの結果を確認することができる。例えば、マイクロホンポッド（２８）により得られる方向検出は、話者認識をチェックすることができる。
【０１７２】
位置が直接または記憶装置から決定されると（ブロック５２８）、端末１０は、出席者ビューカメラ５０Ｂをその決定した位置に向けて操舵し（ブロック５３０）、そのカメラのビュー内にその話者をフレーミングするプロセスを進行させる（ブロック５３２）。上記のように、端末１０は、話者がモーション、肌色、顔認識等に基づいて適切にフレーミングされるかどうかを判定し（判定５３４）、カメラのビューおよび必要なら隣接部分を探索し（判定５３６）、必要に応じて、話者をフレーミングする選択ビューが遠端に出力されるまで、これらのステップを繰り返す（ブロック５３８）。
【０１７３】
現在の話者がデータベース内に見つからず、その位置がビーム形成法により決定できない場合、端末１０は、室内ビューカメラ５０Ａからのビデオ出力に戻る。結局、端末１０は、全ての探知および識別の技法が失敗しても、出席者ビューカメラ５０Ｂの会議室またはモーションの好ましくない出力を避けることができる。
【０１７４】
話者認識は、スピーチしている時に参加者名の表示を支援したり、またはビーム形成法が正しい位置を決定したことを検証する際に支援したりするだけでなく、話者認識は、ビーム形成法等を通じて直ぐに探知できない場合の状況においても支援する。例えば、現在の話者が頭部の向きをマイクロホンアレイ６０Ａ、６０Ｂから変えた場合、端末１０は、ビーム形成法等を用いても現在の話者を探知できない。それにもかかわらず、話者認識モジュール２４は、どの参加者が、スピーチ特徴に基づいて格納された話者と一致するかを依然として識別できる。この一致から、端末１０は、出席者ビューカメラ５０Ｂを現在の話者に向けるために既に格納されている位置（パン、チルト、およびズーム）を見つける。
【０１７５】
更に、話者認識モジュール２４は、端末１０がビデオ会議中のビューをいたずらに切り換えるのを防ぐ。例えば、現在の話者がマイクロホンアレイ６０Ａ、６０Ｂから頭部を背けたある時点で、何らかの環境の変化が、新しい反射点を作り出すか、または何らかの他の変化を起こすので、端末１０は、もはや現在の話者を探知できず、または現在の話者の異なる位置を発見できなくなる。アレイ６０Ａ、６０Ｂを用いる端末１０は、誰かがスピーチしていることは分かるが、同一人物が話し続けているのか、新しい話者が話し始めたのかは判定できない。この事例では、話者認識モジュール２４は、同一話者がスピーチしているかどうかを端末１０に指示することができる。従って、端末１０は、出席者ビューカメラ５０Ｂを別のビューに切り換えずに、現在の話者のズームインビューを継続できる。
【０１７６】
説明した動作方法の詳細における多様な変更が、以下のクレームの範囲から逸脱することなく可能である。例えば、説明用のフロー図のステップまたはプロセスステップは、本明細書で開示された順序と異なる順序で規定されたステップを実行してもよい。代替として、幾つかの実施の形態は、本明細書で説明した動作を別々のステップであるとして組み合せてもよい。同様に、１つ以上の説明したステップは、その方法が実装されている特定の動作環境によっては省略してもよい。
【０１７７】
更に、フロー図またはプロセスステップによる作用は、恒久的なプログラム可能記憶装置上の１つ以上のプログラムモジュールに編成された命令を実行する、プログラム可能な制御装置により実行されてもよい。プログラム可能な制御装置は、単一のコンピュータープロセッサ、専用プロセッサ（例えば、デジタル信号プロセッサ「ＤＳＰ」）、通信リンクで結合された複数のプロセッサまたはカスタム設計の状態マシンでもよい。カスタム設計の状態マシンは、特定用途向け集積回路（ＡＳＩＣ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を含むが限定はされない集積回路等のハードウエア装置内で実装されていてもよい。プログラム命令を確実に実施するのに適したコンピュータ読取り可能媒体と呼ばれることもある恒久的なプログラム可能記憶装置は、磁気ディスク（固定、フレキシブル、およびリムーバブル）および磁気テープ；ＣＤ−ＲＯＭおよびデジタルビデオディスク（ＤＶＤ）等の光媒体；および電気的プログラム可能ＲＯＭ（ＥＰＲＯＭ）等の半導体メモリ装置、電気的消去・プログラム可能ＲＯＭ（ＥＥＰＲＯＭ）、プログラム可能ゲートアレイおよびフラッシュ装置を含むが限定はされない。
【０１７８】
好適な実施の形態等の上記説明には、出願人が抱いた発明概念の範囲または適用性を制限または限定する意図はない。本明細書に含まれる本発明の概念を開示するのと引き替えに、出願人は、付帯のクレームで与えられる全ての特許権利を要求する。従って、意図しているのは、付帯のクレームが、以下のクレームまたはその均等物の範囲内にある限りの全ての改変および代替を含むということである。

【特許請求の範囲】
【請求項１】
自動化されたビデオ会議のための方法であって、
或る環境におけるビデオ会議の参加者のスピーチの特徴とソース位置を記憶するステップと、
前記環境において検出されたスピーチを示す第１音声の第１スピーチ特徴を決定するステップと、
前記記憶された参加者のスピーチの特徴のいずれかと前記第１スピーチ特徴とをマッチングするステップと、
前記第１スピーチ特徴にマッチしている前記記憶された参加者のスピーチの特徴に対応する前記ソース位置に第１カメラを向けるステップと
を備える方法。
【請求項２】
前記参加者の識別情報を前記記憶された参加者のスピーチの特徴に対応付けるステップと、
マッチしている前記第１スピーチ特徴に対応付けられた前記識別情報を、前記第１カメラで撮影した第１ビデオに組み込むステップと
を更に備える、請求項１の方法。
【請求項３】
前記ビデオ会議を開始するときに前記記憶された参加者のスピーチの特徴を取得するステップを更に備える、請求項１又は２の方法。
【請求項４】
前記ビデオ会議を開始するときに前記記憶された参加者のスピーチの特徴に対応する前記記憶されたソース位置を決定するステップを更に備える、請求項１乃至３のいずれかの方法。
【請求項５】
前記ビデオ会議の最中に前記記憶された参加者のスピーチの特徴を取得するステップを更に備える、請求項１又は２の方法。
【請求項６】
前記ビデオ会議の最中に前記記憶された参加者のスピーチの特徴に対応する前記記憶されたソース位置を決定するステップを更に備える、請求項１、２及び５のいずれかの方法。
【請求項７】
前記参加者のスピーチの特徴とソース位置を記憶する前記ステップは、
前記環境において検出されたスピーチを示す現在の音声の現在の発生源の位置を決定するステップと、
前記検出された音声の現在のスピーチ特徴を決定するステップと、
前記現在のスピーチ特徴を前記記憶されたスピーチの特徴とマッチングするステップと、
前記現在のソース位置を、前記記憶されたスピーチの特徴とマッチングするスピーチ特徴に対応するソース位置として記憶するステップと
を含む、請求項１乃至６のいずれかの方法。
【請求項８】
前記第１カメラは操舵可能なカメラであり、前記第１カメラを向ける前記ステップは、該操舵可能なカメラのパン、チルト及びズームの少なくとも１以上を調整するステップを含む、請求項１乃至７のいずれかの方法。
【請求項９】
前記環境において検出されたスピーチを示す第２音声の第２スピーチ特徴を決定するステップと、
前記記憶された参加者のスピーチの特徴のいずれかと前記第２スピーチ特徴とをマッチングするステップと、
マッチしている前記記憶された参加者のスピーチの特徴のいずれかに対応する前記記憶されたソース位置に前記第１カメラを向けるステップと
を更に備える、請求項１乃至８のいずれかの方法。
【請求項１０】
前記第１カメラを向ける前に、前記第１カメラで撮影した前記第１ビデオから第２カメラで撮影した第２ビデオに出力を切り替えるステップを備える、請求項９の方法。
【請求項１１】
前記第２ビデオは、前記環境の広角ビューを前記第２カメラで撮影したものである、請求項１０の方法。
【請求項１２】
前記第１カメラを向けた後に、前記第２ビデオから前記第１カメラで撮影した第３ビデオにビデオ会議用出力を切り替えるステップを備える、請求項９の方法。
【請求項１３】
前記第３ビデオは、前記記憶されたソース位置の挟角ビューを前記第１カメラで撮影したものである、請求項１２の方法。
【請求項１４】
前記第１カメラを向ける前記ステップは、検出された第１及び第２音声に対応する前記記憶されたソース位置の両方に前記第１カメラを向けるステップを含む、請求項９の方法。
【請求項１５】
請求項１乃至１４のいずれかの方法における各ステップをプログラム可能な制御装置に実行させるためのプログラム命令を格納するプログラム格納装置。
【請求項１６】
自動化されたビデオ会議のための方法であって、
或る環境におけるビデオ会議の最中に、スピーチを示す第１音声を検出するステップと、
前記第１音声の第１スピーチ特徴を決定するステップと、
前記環境における前記第１音声の第１ソース位置を決定するステップと、
前記第１ソース位置にカメラを向けるステップと、
前記第１ソース位置と共に前記第１スピーチ特徴を記憶するステップと
を備える方法。
【請求項１７】
前記環境におけるスピーチを示す第２音声を検出するステップと、
前記第２音声の第２スピーチ特徴を決定するステップと、
前記第２スピーチ特徴を前記記憶された第１スピーチ特徴と比較するステップと
を更に備える、請求項１６の方法。
【請求項１８】
前記第２スピーチ特徴が前記記憶された第１スピーチ特徴にマッチするならば、前記記憶された第１ソース位置に前記カメラを向けるステップを更に備える、請求項１７の方法。
【請求項１９】
前記第２スピーチ特徴が前記記憶された第１スピーチ特徴にマッチしていないならば、
前記環境における前記第２音声の第２ソース位置を決定するステップと、
前記第２ソース位置に前記カメラを向けるステップと、
前記第２ソース位置と共に前記第２スピーチ特徴を記憶するステップと
を更に備える、請求項１７の方法。
【請求項２０】
パン、チルト及びズームの制御可能な少なくとも１台のカメラと、
近端の音声を捕捉するための１以上のマイクロホンと、
或る環境内の複数の参加者のスピーチ特徴を記憶し、かつ、該記憶したスピーチ特徴に対応付けられた参加者のソース位置を記憶するメモリと、
前記少なくとも１台のカメラ、前記１以上のマイクロホン、及び前記メモリに結合して動作する処理ユニットと
を備え、
前記処理ユニットは、
近端の音声の現在のスピーチ特徴を前記複数の参加者の記憶されたスピーチ特徴とマッチングし、
このマッチングに基づき、どの参加者が話しているかを判定し、
話していると判定された参加者に対応付けられた前記記憶されたソース位置を取得し、
該取得したソース位置に前記少なくとも１台のカメラを向ける
という動作を行うことを特徴とするビデオ会議装置。

【図１Ａ】