説明

話者識別による音声追跡カメラ

【課題】ビデオ会議中の参加者の映像を会議環境、参加者の配置、誰が発言しているかに基づいて動的に調整できることができるビデオ会議装置を提供する。
【解決手段】室内の話者を自動的に追跡し、制御された出席者ビューカメラ50Bと固定式の室内ビューカメラ50Aとの間を動的に切り換える。誰も発言していない場合、本装置10は遠端に室内ビューを示す。室内に優勢な話者がいる場合、本装置は、出席者ビューカメラを優勢な話者に向け、室内ビューカメラから出席者ビューカメラに切り換える。室内に新しい話者がいる場合、本装置は、最初に室内ビューカメラに切り換え、出席者ビューカメラを新しい話者に向け、そして新しい話者に向けられた出席者ビューカメラに切り換える。会話中の2人の近端話者がいる場合、本装置は、これらを追跡し、話者がともにビュー内に納まるように出席者ビューカメラをズームインする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話者識別による音声追跡カメラに関する。
関連出願の説明
本願は、代理人整理番号199−0716US、発明の名称「Videoconferencing Endpoint Having Multiple Voice-Tracking Cameras(複数の音声追跡カメラを有するビデオ会議端末)」および代理人整理番号199−0717US、発明の名称「Automatic Camera Framing for Videoconferencing(ビデオ会議のための自動カメラフレーミング)」の米国特許出願と同時に出願されており、その全文を引用して本明細書に組み込む。
【背景技術】
【0002】
ビデオ会議のカメラは参加者全員を収めるビューを捕捉するのが普通である。残念ながら、遠端参加者は、遠端で表示される近端参加者のサイズがあまりに小さくなって、ビデオ内の沢山の重要なものを把握できないことがある。場合によって、遠端参加者には近端参加者の表情が見えず、誰が実際に発言しているのか分からないことがある。これらの問題により、ビデオ会議は使いにくいという印象を与え、参加者が有意義な会議をするのが妨げられる。
【0003】
貧弱なフレーミング(framing: 画面構成、画面作成)を補うために、参加者は、カメラをパン、チルト、およびズームして良好なビューを捕捉するための一連の操作を立ち入って実行しなければならない。当然ながら、リモコンによるカメラの手動操作は面倒である。参加者がわざわざカメラのビュー調整をしなくて済むように、既定の広角に設定しておくだけのこともある。無論、参加者が手動でカメラのビューのフレーミングをする場合、参加者がビデオ会議中に場所を変えたり、次のビデオ会議で座席配置を変更したらその手順を繰り返さなければならない。
【0004】
マイクロホンアレイを有する音声追跡カメラは、ビデオ会議中に発言している参加者にカメラを向けるのを支援できる。この種のカメラは非常に便利ではあるが、幾つか問題を生じることがある。例えば、話者がマイクロホンから顔を背けると、音声追跡カメラは話者の追跡を見失うことがある。残響音が非常に多い環境では、実際の音源ではなく反射点に音声追跡カメラが向けられることがある。話者がカメラから顔を背けた時や、話者がテーブルの端に座った時に典型的な反射が生じやすい。反射が大きすぎると、音声追跡カメラは、実際の話者ではなく、壁、テーブル等の表面を指すよう仕向けられる。
【0005】
これらの理由から、ビデオ会議中の参加者の映像を会議環境、参加者の配置、誰が発言しているかに基づいて動的に調整できることが望まれている。本開示の主題は、上記問題の影響の内の1つ以上を克服するか、少なくとも減らすようにすることである。
【発明の概要】
【0006】
ビデオ会議自動化技法を実施するための方法、該方法をプログラム可能な制御装置に実行させるためりプログラムを格納したプログラム格納装置、およびビデオ会議装置について開示する。
【0007】
一技法では、端末の少なくとも2台のカメラが、誰が発言しているかの動的性質に適応する制御法により環境内の参加者のビデオを捕捉(撮影)する。例えば、端末の第1カメラは広角ビューでビデオ会議環境の第1ビデオを捕捉(撮影)する。参加者が発言し、その位置を端末で特定すると、端末の第2カメラが話者の方を向き、端末は、第1カメラで捕捉(撮影)した広角ビューの環境から、第2カメラで捕捉(撮影)した狭角ビューの話者にビデオ会議の出力を切り換える。
【0008】
次いで、別の参加者が話し始めると、端末は新しい話者の位置を特定する。但し、端末は、ビデオ会議の出力を第2カメラの狭角ビューから第1カメラの広角ビューに切り換えてから、第2カメラを新しい話者の位置に向ける。この広角ビューが出力されている間に、第2カメラは新しい話者の位置に向けられる。それが済むと、端末は、第1カメラの広角ビューから第2カメラが捕捉した狭角ビューの新しい話者に、ビデオ会議の出力を切り換える。モーション検出法、肌色検出法、および顔認識法を含む各種技法を用いて、狭角ビューの話者をカメラでフレーミングする。同様に、端末は、ビデオ出力を切り換え、音源に第2カメラを向けた時に適用される各種規定を用いることができる。
【0009】
別の技法では、端末の1台以上のカメラで捕捉されたビデオを用いて、ビデオ会議の間、1台以上のカメラによる広角および狭角ビューで環境を自動的にフレーミングする。例えば、ビデオ会議環境の広角ビューを幾つかの狭角ビューにセグメント化(区分け)できる。端末は、これらの各狭角ビューをフレーミングするよう第1カメラを向け、ビデオを撮影する。次いで、端末は、第1カメラが捕捉(撮影)したビデオを各狭角ビューで解析することにより、各狭角ビューの関連性を決定する。各狭角ビューの関連性はモーション検出、肌色検出、および顔認識に基づいて決定することができる。関連する狭角ビューをこのプロセスで決定すると、端末は、関連する狭角ビューにより画成される全体ビューのフレーミングを決定する。例えば、このフレーミングされたビューは、関連している上端、左端、および右端の狭角ビューで区分される。この方法で、このフレーミングされたビューをフレーミングするよう同一カメラまたは別のカメラを向けることができるので、ビデオ会議の良好なフレーミングビデオを出力することができる。
【0010】
更に別の技法では、ビデオ会議中に、端末はスピーチ認識法を用いて1台以上のカメラを制御する。この技法では、参加者が関係する環境内の位置に沿って、ビデオ会議参加者の最初のスピーチ特徴を格納する。ビデオ会議の進行につれて、端末は、スピーチを示す音声を検出し、その検出音声の現在のスピーチ特徴を判定する。次いで、現在のスピーチ特徴を、格納してあるスピーチ特徴の内の1つと一致させる。一致する参加者が関係する位置が分かると、端末は、一致する参加者が関係する位置にカメラを向ける。この方法によれば、端末は、端末の音声追跡能力とそのマイクロホンアレイだけに依存しなくてもよくなる。というより、その音声追跡能力により判明した音源位置と併せて参加者のスピーチ特徴を格納することができる。従って、音声追跡に失敗した場合、つまり音源を探知できなかった場合、スピーチ認識技法を用いて話者の位置にカメラを向けることができる。
【0011】
上記概要には、それぞれの可能性のある実施の形態または本開示の全ての態様を要約する意図はない。
【図面の簡単な説明】
【0012】
【図1A】本実施例の特定の教示によるビデオ会議端末を示す図。
【0013】
【図1B】図1Aのビデオ会議端末のコンポーネントを示す図。
【0014】
【図1C】ビデオ会議端末の平面図。
【図1D】ビデオ会議端末の平面図。
【図1E】ビデオ会議端末の平面図。
【0015】
【図2】図2(A)は本実施例による端末のビデオ会議装置を示す図。
【0016】
図2(B)〜(D)はビデオ会議装置の代替の構成を示す図。
【0017】
【図3】図2(A)〜図2(D)のビデオ会議装置のコンポーネントを示す図。
【0018】
【図4A】本実施例の端末用のオーディオ処理とビデオ処理の両方を用いる制御方式を示す図。
【0019】
【図4B】ビデオ会議中に音声キューに基づいてビデオを処理するための決定プロセスを示す図。
【0020】
【図5】本実施例の少なくとも2台のカメラを有する端末を操作するためのプロセスを示す図。
【0021】
【図6A】本実施例の端末のマイクロホンアレイによる話者探知の平面図。
【図6B】本実施例の端末のマイクロホンアレイによる話者探知の側面図。
【0022】
【図7A】話者を探知する際の音声エネルギー対方位角のグラフを示す図。
【図7B】話者を探知する際の音声エネルギー対方位角のグラフを示す図。
【0023】
【図8A】マイクロホンアレイで捕捉した音声内に検出されたスピーチおよびノイズを処理するプロセスを示す図。
【0024】
【図8B】本実施例による過渡信号検出器のスピーチおよびノイズを処理するためのブロック図。
【0025】
【図8C】スピーチおよびノイズを処理するためのパン対チルト座標のクラスタ化を示す図。
【0026】
【図9A】本実施例の端末により話者を探知するときにフレーミングされるビューを示す図。
【図9B】本実施例の端末により話者を探知するときにフレーミングされるビューを示す図。
【0027】
【図10】本実施例の端末を用いて参加者のビューを自動フレーミングするプロセスを示す図。
【0028】
【図11A】自動フレーミングの関連ブロックを決定するためのプロセスを示す図。
【図11B】自動フレーミングの関連ブロックを決定するためのプロセスを示す図。
【図11C】自動フレーミングの関連ブロックを決定するためのプロセスを示す図。
【0029】
【図12A】本実施例の端末による自動フレーミングにおけるビューを示す図。
【図12B】本実施例の端末による自動フレーミングにおけるビューを示す図。
【図12C】本実施例の端末による自動フレーミングにおけるビューを示す図。
【0030】
【図13】モーション検出が解析されているブロックを示す図。
【0031】
【図14】本実施例の特定の教示による別のビデオ会議端末を示す図。
【0032】
【図15】話者認識用のデータベーステーブルを示す図。
【0033】
【図16】本実施例の端末を用いてビデオ会議中に話者を識別するプロセスを示す図。
【発明を実施するための形態】
【0034】
A.ビデオ会議端末
図1Aのビデオ会議装置つまり端末(endpoint: エンドポイント)10は、ネットワーク12上の1つ以上の遠隔の端末14と通信する。幾つかの共通コンポーネントの内で、端末10は、オーディオコーデック22をもつオーディオモジュール20と、ビデオコーデック32をもつビデオモジュール30を有する。これらのモジュール20、30は、制御モジュール40およびネットワークモジュール60と接続されて動作する。
【0035】
ビデオ会議中は、2台以上のカメラ50A、50Bがビデオ映像を捕捉し(撮り)、処理用のビデオモジュール30およびコーデック32に、捕捉(撮影)したビデオを渡す。更に、1つ以上のマイクロホン28が音声(オーディオ音)を捕捉して、処理用のオーディオモジュール20およびコーデック(CODEC)22にその音声を渡す。これらのマイクロホン28は、テーブルまたは天井のマイクロホン、またはマイクロホンポッド等の一部でもよい。端末10は、主として会議音声用のこれらマイクロホン28で捕捉した音声を使用する。
【0036】
それとは別に、直交配置されたマイクロホン62を有するマイクロホンアレイ60A、60Bも音声を捕捉し、処理するためにオーディオモジュール22にその音声を渡す。好適には、マイクロホンアレイ60A、60Bは、ビデオ会議中に音声源の位置(ソース位置)を決定するための垂直配置と水平配置の両方のマイクロホン62を含む。従って、端末10は、これらのアレイ60A、60Bからの音声を、会議音声用ではなく主としてカメラ追跡目的に使用する(会議にも使用できる)。
【0037】
音声およびビデオを捕捉した後、端末10は、MPEG−1、MPEG−2、MPEG−4、H.261、H.263およびH.264等の一般的な符号化規格の何れかを使用してそれを符号化する。次いで、ネットワークモジュール70が、符号化された音声およびビデオを任意の適切なプロトコルを用いて、ネットワーク12を経由して遠隔端末14に出力する。同様に、ネットワークモジュール70は、遠隔端末14から会議の音声およびビデオをネットワーク12を経由して受信し、処理のためにこれらをコーデック22、32のそれぞれに送る。最後に、スピーカ26が会議の音声を出力し、ディスプレイ34が会議ビデオを出力する。これらのモジュールおよび他のコンポーネントの多くは、当技術分野で周知の方法で動作させることができるので、詳細については説明しない。
【0038】
従来編成とは対照的に、端末10は、2台以上のカメラ50A、50Bを自動的な、かつ協働した方法で使用して、ビデオおよびビデオ会議環境のビューを動的に扱う。第1カメラ50Aは固定式カメラまたは室内ビューカメラとし、第2カメラ50Bは制御式ビューカメラまたは出席者ビューカメラとすることができる。例えば、端末10は、室内ビューカメラ50Aを用いて、室内のビデオを捕捉するか、またはビデオ会議の参加者全員および周囲の一部を含むのが典型的な少なくとも室内の広角ビューつまりズームアウトしたビューを捕捉する。固定式カメラとして説明したが、実際には、室内ビューカメラ50Aは、パン、チルト、およびズームを調整して、そのビューを制御し、環境をフレーミング(フレーム画面内への撮り込み方の調整)できる。
【0039】
対照的に、端末10は、出席者ビューカメラ50Bを用いて、1人以上の参加者、好ましくは、1人以上の現在の話者のビデオを狭角ビューつまりズームインしたビューで捕捉する。従って、出席者ビューカメラ50Bは特に、パン、チルト、およびズームが可能である。
【0040】
一編成では、出席者ビューカメラ50Bは、操舵可能なパン・チルト・ズーム(PTZ)カメラであり、一方、室内ビューカメラ50Aは、電子式パン・チルト・ズーム(EPTZ)カメラである。このように、出席者ビューカメラ50Bは操舵可能であるが、室内ビューカメラ50Aは、操舵可能というより電子的に操作してそのビューの向きを変更する。但し、端末10は他の編成および形式のカメラを使用してもよい。実際には、両方のカメラ50A、50Bともに操舵可能なPTZカメラとしてもよい。更に、広角ビューとズームしたビューの切換えを2台の操舵可能なカメラ50A、50Bで分担して、交互に切り換えることができ、それにより、一方は、適切なら広角ビューを捕捉し、他方はズームインしたビューを捕捉することができ、逆もまた可である。
【0041】
本開示のために、一方のカメラ50Aを室内ビューカメラと称し、他方のカメラ50Bを出席者ビューカメラと称する。話者の狭角ビューと室内の広角ビューとの間を交互に切り換えることが望ましいこともあるが、端末10が、同一または異なる話者の2つの狭角ビューを交互に切換えできる状況があってもよい。そうするには、先に説明したように、ともに操舵可能なPTZカメラである2台のカメラ50A、50Bを持つことが望ましい。従って、別の編成では、第1および第2カメラ50A、50Bをともに、操舵可能なPTZカメラ等の、制御式カメラ、つまり出席者ビューカメラ50Bとすることができる。端末10は、これらのカメラ50A、50Bをそれぞれ使用して、1人以上の特定の参加者、好ましくは1人以上の現在の話者のビデオを、狭角ビュー、つまりズームインビューで捕捉でき、かつ必要な時に室内の広角ビュー、つまりズームアウトビューを提供できる。
【0042】
一実施の形態では、端末10は、任意の特定時間に2台のカメラ50A、50Bの内の1台からのビデオだけを出力する。ビデオ会議が進行すると、端末10からの出力ビデオは、室内ビューカメラと出席者ビューカメラ50A、50Bを時々切り換えることができる。システム10は概して、発言している参加者がいない時(または、運営能力が低下した時)は、室内ビューカメラ50Aからのビデオを出力し、端末10は、1人以上の参加者が発言している時は、出席者ビューカメラ50Bからのビデオを出力する。利点の一つは、これらのカメラビューの切換えにより、ビデオ会議の遠端(当該端末10とは別の端末の側)に、発言中の話者がズームインビューで伝えられ、その一方で会議室の広角ビューも時々伝えられるようになるということである。
【0043】
代替として、端末10は、両方のカメラからのビデオを同時に送信でき、特に、端末10がどちらかのカメラビューを選択するための命令を幾つか送信する場合は、どのビューを表示するかを遠隔端末76に決定させることができる。更に別の代替では、端末10は、ビデオ画像の内の一方が他方のビデオ画像のピクチャーインピクチャーとして合成できるように、両方のカメラからのビデオを同時に送信できる。例えば、カメラ50Bからの出席者ビュービデオをカメラ50Aからの室内ビューと合成して、ピクチャーインピクチャー(PIP)フォーマットで遠くに送信することができる。
【0044】
2台のカメラ50A、50Bで捕捉したビューを制御するために、端末10は、オーディオベース探知器42とビデオベース探知器44とを用いて、参加者の位置ならびに環境および参加者のフレームビューを決定する。次いで、オーディオとビデオのモジュール20、30とに接続されて動作する制御モジュール40が、オーディオとビデオの探知器42、44からのオーディオおよび/またはビデオの情報を用いて、カメラ50A、50Bのどちらかまたは両方に、カメラの向きおよび捕捉するビューを変更するようカメラコマンドを送る。出席者ビューカメラ50Bでは、これらのカメラコマンドは、カメラ50Bを機械的に操舵するモータ、サーボ等を有するアクチュエータまたはローカルの制御ユニット52で実行可能である。出席者ビューカメラ50Bでは、これらのカメラコマンドはカメラ50Bにより処理される電子信号として実行できる。
【0045】
どちらのカメラ50A、50Bを使用すべきか、およびそのビューをどのように構成すべきかを決定するために、制御モジュール40は、オーディオベース探知器42から得られるオーディオ情報および/またはビデオベース探知器44から得られるビデオ情報を用いる。例えば、以下に詳細に説明するように、制御モジュール40は、水平および垂直に配置したマイクロホンアレイ24からのオーディオベース探知器42により処理されるオーディオ情報を使用する。オーディオベース探知器42はスピーチ検出器43を用いて、アレイ24から捕捉された音声内のスピーチを検出し、次いで、現在の話者の位置を決定する。制御モジュール40は、決定された位置を用いて出席者ビューカメラ50Bをその位置に向けるよう操舵する。以下でも詳細に説明するように、制御モジュール40は、カメラ50A、50Bからのビデオベース探知44により処理されるビデオ情報を用いて参加者の位置を決定し、そのビューのフレーミングを決定し、出席者ビューカメラ50Bをその参加者に向けて操舵する。
【0046】
室内ビューカメラ50Aからの広角ビューは、出席者ビューカメラ50Bの状況を補足することができ、出席者ビューカメラ50Bが参加者に向かって移動しているとき、そのカメラからのビデオが遠端(当該端末10とは別の端末の側)にいる参加者に見えないように使用できる。更に、近端(当該端末10の側)の多数の参加者が発言している場合、または出席者ビューカメラ50Bが多数の話者に向かって移動している場合に、広角ビューを遠端に表示できる。カメラ50A、50Bからの2つのビューの移行は、カメラビューを切り換える時に急に変化しないように、望むままにフェードし、ブレンド処理することができる。
【0047】
出席者ビューカメラ50Bが話者に向かって移動している場合、例えば、このカメラ50Bからの移動中のビデオは、ビデオ会議の遠端に送信しない方が好ましい。その代わりに、室内ビューカメラ50Aからのビデオを送信する。但し、出席者ビューカメラ50Bが現在の話者を適切にフレーミングし終えたら、端末10は、カメラ50A、50Bからのビデオ間を切り換える。
【0048】
全く同様に、端末10は話者のビュー捕捉を単純に自動切換えしない方が好ましい。その代わりに、カメラ変更はタイミングを調整する方が好ましい。ある時間経過を越えてカメラ切換えが多くなり過ぎると、会議参加者の気が散ることがある。従って、端末10は、これらの話者を、彼らの位置、彼らの声の特性、彼らの発言頻度等を用いて追跡するのが好ましい。従って、ある話者が話し始めた場合、端末10は、出席者ビューカメラ50Bをその高頻度話者に直ちに向けることができるが、短い返答またはコメントしかしない別の話者へ向けるのを避けたり、または遅らせたりすることができる。
【0049】
端末10は、ユーザーが介入しなくても好適に動作するが、ユーザーの介入および制御が可能であってもよい。従って、遠端および近端のいずれかまたは両方からのカメラコマンドを用いて、カメラ50A、50Bを制御することができる。例えば、参加者は、誰も発言していないときに表示すべき最良の広角ビューを決定できる。一方、動的なカメラコマンドにより、ビデオ会議の進行に応じて出席者ビューカメラ50Bを制御することができる。この方法では、出席者ビューカメラ50Bで提供されるビューを端末10で自動的に制御してもよい。
【0050】
図1Bは、図1Aのビデオ会議端末10用の例示のコンポーネントを幾つか示す。先に図示し、説明したように、端末10は、2台以上のカメラ50A、50Bおよび幾つかのマイクロホン28、62A、62Bを有する。これらに加え、端末10は、全てバス101を介して接続されている処理ユニット100、ネットワークインターフェース102、メモリ104、および一般的な入力/出力(I/O)インターフェース108を有する。
【0051】
メモリ104は、SDRAM等の任意の従来型メモリでよく、端末10を制御するためのソフトウエアおよびファームウエアの形式でモジュール106を格納できる。上記したビデオおよびオーディオのコーデック、ならびに他のモジュールに加えて、モジュール106には、オペレーティングシステムと、ユーザーが端末10を制御可能なグラフィカルユーザーインターフェース(GUI)と、オーディオ/ビデオ信号を処理し、カメラ50A、50Bを制御するための後述するアルゴリズムとを含めることができる。
【0052】
ネットワークインターフェース102は、端末10と遠隔端末(不図示)との間の通信を提供する。対照的に、一般的なI/Oインターフェース108は、キーボード、マウス、プリンタ、オーバーヘッドプロジェクタ、ディスプレイ、外部スピーカ、追加カメラ、マイクロホンポッド等のローカル装置とのデータ伝送を提供する。端末10が内部スピーカ26を備えることもある。
【0053】
カメラ50A、50Bおよびマイクロホンアレイ60A、60Bは、ビデオ会議環境内でビデオおよび音声をそれぞれ捕捉し、バス101を介して処理ユニット100に送信されるビデオ信号および音声信号を生成する。ここでは、処理ユニット100がモジュール106内のアルゴリズムを用いてビデオおよび音声を処理する。例えば、端末10は、マイクロホン28、62A、62Bで捕捉した音声、およびカメラ50A、50Bで捕捉したビデオを処理して、参加者の探知を決定し、カメラ50A、50Bのビューを向ける。最終的に、処理された音声およびビデオは、インターフェース102、108に接続されているローカルおよび遠隔の装置に送られる。
【0054】
図1Cの平面図では、端末10の一実施の形態は、統合されたマイクロホンアレイ60A、60Bと2台のカメラ50A、50Bとを有するビデオ会議装置80を使用する。マイクロホンポッド28は、テーブル上に配置できるが、天井マイクロホン、個々のテーブルマイクロホン等のような他の形式のマイクロホンを用いることもできる。マイクロホンポッド28は、ビデオ会議装置80に接続されて通信し、ビデオ会議の音声を捕捉する。一例として、装置80はディスプレイおよび/またはビデオ会議ユニット(不図示)に統合するか、またはそれらに取り付けることができる。
【0055】
図1Dは、端末10の別の編成の平面図を示す。この場合、端末10は、室内の周囲に取り付けられた幾つかの装置80、81を有し、テーブル上にマイクロホンポッド28を有する。一方の主装置80は、上記のようなマイクロホンアレイ60A、60Bおよび2台のカメラ50A、50Bを有し、ディスプレイおよび/またはビデオ会議ユニット(不図示)に統合されるか、またはそれらに取り付けられる。他方の装置81は、主装置80に接続され、ビデオ会議環境の側方に配置することができる。
【0056】
補助装置81は、少なくとも出席者ビューカメラ50Bを有するが、室内ビューカメラ50A、マイクロホンアレイ60A、60B、またはそれら両方を有してもよく、主装置80と同一とすることもできる。何れにせよ、本明細書で説明する音声およびビデオの処理は、どの出席者ビューカメラ50Bが環境内の話者の最良のビューを持つかを識別できる。従って、話者に対して最良の出席者ビューカメラ50Bを会議室周囲のこれらカメラから選択することができるので、正面ビュー(または、このビューに最も近いもの)を会議ビデオ用に使用することができるようになる。
【0057】
図1Eで、端末10の別の編成には、ビデオ会議装置80およびリモート発信器64が含まれる。この編成は、プレゼンテーションの間に移動する話者を追跡するのに便利である。繰り返すが、装置80はカメラ50A、50Bおよびマイクロホンアレイ60A、60Bを有する。但し、この編成では、マイクロホンアレイ60A、60Bは、発信器64から発信される超音波に応答してプレゼンタを追跡する。この方法では、装置80は、プレゼンタが移動する時に、かつ発信器64が超音波を発信し続けると、その人を追跡できる。マイクロホンアレイ60A、60Bは超音波に加えて音声にも応答できるので、装置80は超音波追跡に加えて音声追跡を利用できるようになる。装置80が自動的に超音波を検出するか、または装置80が超音波追跡するために手動で構成されている場合、装置80は超音波追跡モードで動作することができる。
【0058】
図示のように、発信器64はプレゼンタが装着する小さな箱とすることができる。発信器64は、超音波を発生する1つ以上の超音波トランスジューサ66を有し、一体化したマイクロホン68および無線周波数(RF)発信器67を備えることができる。使用する時は、一体化したマイクロホン68がプレゼンタのスピーチを拾った場合、発信器ユニット64が動作する。代替として、プレゼンタは発信器ユニット64を手動で作動させ、それにより、RF信号をRFユニット97に送信して、この特定プレゼンタを追跡するよう指示できる。超音波に基づいてカメラを追跡することに関する詳細は米国特許公開第2008/0095401号に開示され、その全文を引用して本明細書に組み込む。
B.ビデオ会議装置
【0059】
ビデオ会議中の端末10の動作に入る前に、最初に、本開示によるビデオ会議装置を詳細に説明する。図2(A)に示すように、ビデオ会議装置80はハウジングを有し、その上にマイクロホン62Aの水平アレイ60Aが配置されている。このハウジングから延びている垂直アレイ60Bも幾つかのマイクロホン62Bを有する。図示のように、これらのアレイ60A、60Bは、それぞれ3つのマイクロホン62A、62Bを備えることができるが、アレイ60A、60Bのいずれも、図示と異なる数を備えていてもよい。
【0060】
第1カメラ50Aは、ビデオ会議環境の広角ビューつまりズームアウトビューを捕捉するための室内ビューカメラである。第2カメラ50Bは、ビデオ会議参加者の狭角ビューつまりズームインビューを捕捉するための出席者ビューカメラである。これら2つのカメラ50A、50Bは、装置80のハウジング上に取付けられ、ハウジングと一体化することができる。室内ビューカメラ50Aは、EPTZカメラでない場合、アクチュエータを備えることが可能な画像処理コンポーネント52Aを有する。出席者ビューカメラ50Bも、パン・チルト・ズームのカメラ操作を制御するアクチュエータを含む画像処理コンポーネント52Bを有する。これらのコンポーネント52A、52Bは、装置80内に収容されているローカル制御ユニット90と接続されて動作可能である。
【0061】
一方、制御ユニット90には、オーディオおよびビデオのモジュール、ネットワークモジュール、カメラ制御モジュール等を含むビデオ会議を運営するのに必要なコンポーネント全てまたは一部を含めることができる。代替として、必要なビデオ会議コンポーネントの全てまたは幾つかを、装置80と接続された別体のビデオ会議ユニット95に収納してもよい。このように、装置80は、カメラ50A、50B、マイクロホンアレイ60A、60B、および関連するコンポーネントを有するスタンドアロンユニットでもよく、一方、ビデオ会議ユニット95は全てのビデオ会議機能を扱う。無論、装置80およびユニット95は所望するなら1つのユニットに組み合せることができる。
【0062】
図2(A)に示すような2台以上の組み込まれたカメラ50A、50Bを備えるのではなく、本開示の装置80が図2(B)に示すように一体化されたカメラ53を持っていてもよい。代替として、図2(C)、図2(D)に示すように、装置80は、マイクロホンアレイ60A、60B、通信ポート(不図示)、および他の処理コンポーネント(不図示)を有するベースユニット85を備えてもよい。2台以上の別体のカメラユニット55A、55Bをベースユニット85に連結して装置80(図2(C))を形成してもよく、あるいは1台の別体のカメラユニット55を連結してもよい(図2(D))。従って、ベースユニット85は、マイクロホンアレイ60A、60Bならびに他の全ての必要な電子回路および信号処理コンポーネントを保持し、適切な取付け法を用いて1台以上のカメラユニット55を支持できる。
【0063】
装置80が互いに隣接配置される2台のカメラ50A、50Bを有するとして図示してあるが、カメラ50A、50Bの何れかまたは両方を装置80とは完全に別体として、ハウジングの入力に接続してもよい。更に、装置80は、2台だけでなく追加のカメラをサポートするよう構成してもよい。この方法で、ユーザーは他のカメラを実装でき、装置80に無線で接続して、室内周囲に配置できるので、装置80は話者の最良のビューを常に選択できるようになる。
【0064】
図3は、図2(A)〜図2(D)の装置80の一部となる幾つかの例示のコンポーネントの略図を示す。図示のように、装置80には、マイクロホンアレイ60A、60B、制御プロセッサ110、フィールドプログラマブルゲートアレイ(FPGA)120、オーディオプロセッサ130、およびビデオプロセッサ140が含まれる。上記したように、装置80は、それと一体化した2台以上のカメラ50A、50Bを有する統合ユニットとするか(図2(A)参照)、またはこれらのカメラ50A、50Bを、自身のコンポーネントを有し、装置のベースユニットに接続される別体のユニットとすることができる(図2(C)参照)。更に、装置80は、1台の一体型カメラ(図2(B)の53)または1台の別体のカメラ(図2(D)の55)を持つようにしてもよい。
【0065】
動作中は、FPGA120は、カメラ50A、50Bからのビデオ入力を取得し、ビデオ会議ユニット95のための出力ビデオを生成し、ビデオプロセッサ140に入力ビデオを送る。FPGA120は、ビデオおよびグラフィックスのオーバーレイを拡大縮小し、合成することもできる。デジタル信号プロセッサとすることも可能なオーディオプロセッサ130は、マイクロホンアレイ60A、60Bからの音声を取得し、エコーキャンセル、音声フィルタ処理、および音源(音声の発生源=話者)追跡を含む音声処理を行う。オーディオプロセッサ130は、スピーチパターンを検出するため、および本明細書で開示する他の目的のためにカメラビューを切り換える規定も取り扱う。
【0066】
デジタル信号プロセッサ(DSP)とすることも可能なビデオプロセッサ140は、FPGA120からのビデオを取得し、モーション(動き)検出、顔検出、および他のビデオ処理を取り扱って話者追跡を支援する。より詳細に以下に説明するように、例えば、ビデオプロセッサ140は、出席者ビューカメラ50Bから取得したビデオにモーション検出アルゴリズムを実行して、話者追跡アルゴリズムにより判明した現在ビュー内における候補話者の位置のモーションをチェックできる。これにより、壁、テーブル等からの反射にカメラ50Bが向けられるのを回避できる。更に、ビデオプロセッサ140は、顔検出アルゴリズムを用いて、候補の話者の位置が実際に人の顔を含むフレーミングをすることを確認することにより、追跡精度を更に上げることができる。
【0067】
汎用プロセッサ(GPP)とすることも可能な制御プロセッサ110は、ビデオ会議ユニット95との通信を扱い、装置80のカメラ制御およびシステムの全体制御を行う。例えば、制御プロセッサ110は、カメラコンポーネントのパン・チルト・ズーム通信を制御し、FPGA120でカメラ切換えを制御する。
C.制御スキーム
【0068】
上記のビデオ会議の端末およびコンポーネントを理解するために、本開示の端末10の動作説明に移る。最初に、図4Aは、本開示の端末10がビデオ会議を運営する制御スキーム150を示す。先に触れたように、制御スキーム150は、ビデオ処理160およびオーディオ処理170をともに用いて、ビデオ会議中のカメラ50A、50Bの動作を制御する。処理160、170は、個々に、または組み合せて実行して端末10の運営を強化することができる。以下に簡単に説明するが、オーディオおよびビデオ処理160、170の各種技法の内の幾つかは、更に詳しく後述する。
【0069】
簡単に言うと、ビデオ処理160は、カメラ50A、50Bからの焦点距離を用いて参加者までの距離を決定し、カラーのモーション、および顔認識に基づくビデオベース技法を用いて参加者を追跡できる。従って、図示のように、ビデオ処理160は、モーション検出、肌色検出、顔検出、および他のアルゴリズムを用いてカメラ50A、50Bのビデオおよび制御動作を処理することができる。ビデオ会議中に得られた記録情報の履歴データをビデオ処理160で用いることもできる。
【0070】
一方、オーディオ処理170は、マイクロホンアレイ60A、60Bによるスピーチ追跡を用いる。追跡精度を上げるために、オーディオ処理170は当技術分野で周知の幾つかのフィルタ操作を使用できる。例えば、オーディオ処理170は、スピーチ追跡を実行する時に、端末のスピーカからの結合音が、優勢な話者であるかのように収音されないように、エコーキャンセルを実行するのが好ましい。オーディオ処理170は、音声追跡から人の声ではない音声を除去し、反射によるかもしれない音量の大きな音声を無視するフィルタ処理も用いる。
【0071】
オーディオ処理170は、テーブルトップマイクロホン素子、つまりポッド(図1、28)を使用する等の、追加の音声キューによる処理を使用できる。例えば、オーディオ処理170は、音声認識法を実行して話者の声を識別し、ビデオ会議中の発言のスピーチパターンを特定することができる。別の例では、オーディオ処理170は、別のマイクロホンポッド(28)から音源の向き(すなわち、パン)を得て、マイクロホンアレイ60A、60Bから得られた位置情報とこれを組み合せることができる。マイクロホンポッド(28)は、異なる方向に配置された幾つかのマイクロホンを備えることができるので、これらの方向に対する音源の位置を決定することができる。
【0072】
マイクロホンポッド(28)は、参加者が最初に発言した時に、マイクロホンポッド(28)に対する参加者の方向を知ることができる。これをマッピングテーブル等の、アレイ(60A、60B)で得られた参加者の位置にマッピングできる。ある時間が経つと、マイクロホンポッド(28)だけが現在の話者を検出できるので、話者の方向情報しか得られない。但し、端末10は、マッピングテーブルに基づき、マッピング情報を用いて話者をカメラによりフレーミングするために、現在の話者の位置(パン・チルト・ズームの各座標)を探知できる。
D.動作の概観
【0073】
この概略の制御スキームを鑑み、ビデオ会議中における本開示端末の図4Bの動作について、更に詳細なプロセス180の説明に移る。ビデオ会議が開始されると、端末10は、ビデオを捕捉し(ブロック182)、ビデオ会議に含めるために現在ビューを出力する(ブロック184)。典型的には、室内ビューカメラ50Aは、ビデオ会議の開始時に室内をフレーミングし、カメラ50Aのパン、チルトおよびズームが、可能なら全ての参加者が含まれるように適切に調整される。
【0074】
ビデオ会議が継続された時、端末10は、幾つか発生した内の1つの捕捉した音声をモニタする(ブロック186)。音声をモニタすると、端末10は、各種の判定および規則を用いて端末10の振る舞いを管理し、どのカメラ50A、50Bを会議ビデオに出力するかを決定する。各種の判定および規則が、所与の実装に合った特定の方法で配列され、構成されることができる。1つの判定は別の判定に影響を与え、1つの規則は別の規則に影響するので、判定および規則が図4Bに示すものと異なって編成されてもよい。
1.一話者
【0075】
ビデオ会議の幾つかのポイントで、室内の近端にいる参加者の内の1人が話し始め、端末10は一人の話者が確実にいると判定する(判定190)。一人の話者がいる場合、端末10は各種の規定191を適用し、端末10により出力される現在ビューを別のビューに切り換えるかどうかを判定し(判定188)、その結果、現在ビューを出力するか(ブロック184)またはビューを変更する(ブロック189)。
【0076】
1人だけの参加者が発言している状況では、例えば、端末10は出席者ビューカメラ50Bを向けてその話者をフレーミングする(「頭部と肩」のクローズアップ捕捉が好ましい)。カメラ50Bを移動している間は、端末10は、室内カメラ50Aからの広角ビューを出力し、移動が済んで現在の話者をフレーミングし終わったら出席者ビューカメラ50Bからのビデオだけを出力することが好ましい。更に、端末10は、話者が最初に話し始めた後、終了するまでの待ち時間を命じてから、出席者ビューカメラ50Bを実際に移動させる方が好ましい。これにより、特に現在の話者が手短かに発言するだけの場合の頻繁なカメラ移動を避けることができる。
【0077】
精度に関しては、端末10は多数のアルゴリズムを用いて話者を探知し、フレーミングできるが、その幾つかをここで詳細に説明する。概して、端末10は、マイクロホンアレイ60A、60Bで捕捉された音声を解析することにより、現在の話者の方位角およびターゲット距離を予測できる。出席者ビューカメラ50Bからのヘッドショットが一貫性をもつように、カメラ50Bのズームファクタが顔認識技法を用いて調整される。
2.話者なし
【0078】
ビデオ会議のある時点では、室内で参加者がだれも発言していないこともあり、端末10は話者が確実にいないと判定する(判定192)。これは、最後のスピーチ音声がビデオ会議環境内で検出された後の特定の時間経過に基づいて判定できる。話者が現在いない場合、端末10は、各種の規定(規則)193を適用し、端末10により出力される現在ビューを別のビューに切り換えるべきかどうかを判定し(判定188)、それにより現在ビューを出力するか(184)またはビューを変更する(189)。
【0079】
例えば、出力されている現在のビューが、現在発言中の参加者の出席者ビューカメラ50Bからのズームインビューからなることもある。端末10は、この参加者が発言を止めたが、そのビューを保持するかまたは室内カメラ50Aからのズームアウトビューに切り換えるかどうかを決定できる。ビューを切り換えるべきかどうかの判定は、特定の時間経過内に他の参加者が誰も話し始めないか、あるいは近端または遠端の参加者が特定の時間経過内に話し始めるかどうかに依存することになる。言いかえると、ズームインビューでフレーミングされた(フレーム画面内に撮られた)近端の参加者が発言を止めた途端に、遠端の参加者が、延長時間の間に、話し始めるかもしれない。この場合、端末10は、ズームインビューから、全ての参加者を含むように室内ショットに切り換えることができる。
3.新規または前の話者
【0080】
ビデオ会議のある時点で、新規または前の話者が話し始めることがあり、端末10は新規または前の話者がいると判定する(判定194)。新規または前の話者の判定は、ビデオ会議環境内の異なる音源の位置を決定するマイクロホンアレイ60A、60Bからのスピーチ追跡法に基づいて行うことができる。追跡することにより音源(ソース)を探知すると、端末10はこれを新規または前の話者と判定できる。代替として、新規または前の話者の決定は、話者の声の特性を検出する音声認識に基づいてもよい。
【0081】
時間が経つと、端末10は、ビデオ会議環境で発言する参加者達の位置を記録できる。これらの記録した位置はカメラ座標(例えば、パン、チルト、およびズーム)と関連付けることができる。端末10は、探知した参加者からのスピーチ特徴、参加者が発言した時間量および回数、および他の履歴データも記録できる。次いで、端末10は、規定および判定に基づいてこの履歴データを使用し、カメラ50A、50Bを参加者に向けるべき条件、時、場所、方法を決定することができる。
【0082】
どのイベントでも、端末10は各種規定(規則)195を適用し、端末10により出力される現在ビューを別のビューに切り換えるべきかどうかを判定し(判定188)、それにより、現在ビュー(184)を出力するかまたはビューを変更する(189)。例えば、新規または前の話者がいたとしても、端末10は、少なくともその参加者が特定の時間が経過するまで話し続けてやっと、新規または前の話者のズームインビューに切り換える。これにより、参加者のショットと広角ショットの間のカメラビューの不必要なジャンプを避けることができる。
4.近端での対話
【0083】
ビデオ会議中のある時点で、2人以上の話者が、近端で互いにほぼ同時に発言していることがある。この時点で、端末10は近端での対話または音声交換が発生しているかどうかを判定できる(判定196)。例えば、近端の多数の参加者が互いに話し始めるか、または同時に話すことがある。参加者が対話で結ばれている場合、端末10は、同時に両方の参加者のビデオを捕捉するのが好ましい。参加者が対話で結ばれてなく、一方の参加者が他方の後に簡単な言葉を差し挟んでいるだけの場合、端末10は、優勢な話者の現在ビューを維持することが好ましい。
【0084】
近端での対話に応答して、出席者ビューカメラ50Bは、両方の話者をフレーミングすることによりビデオを捕捉する。代替として、出席者ビューカメラ50Bが一人の話者のズームインビューを捕捉し、室内ビューカメラ50Aが他の話者のズームインビューを捕捉してもよい。次いで、端末10の合成ソフトウエアが、これら2つのビデオフィードを遠端に出力するために合成レイアウトに入れるか、または端末10が、どのカメラのビデオを現在の話者に基づいて出力するかを切り換えてもよい。3人以上の参加者が近端で発言している他の状況では、端末10は、代わりに全ての参加者を含む室内ビューに切り換えることができる。
【0085】
いずれにせよ、端末10は、幾つかの規定を用いて、近端での対話が始まり、それが終了した時を決定できる。例えば、ビデオ会議が進行している時、端末10は、初回フレーミング内で各参加者が少なくとも2度、発言中の話者となるようにすれば(例えば、最後の10秒位で)、指名されて発言する話者が同一の2人の参加者(のカメラ位置)間で交代したと判定できる。これが判定されると、端末10は、少なくとも第3の話者が活発になるか、2人の参加者の内の一方が第2の時間枠(例えば、15秒位)を越える間、ただ1人の話者となるまで、これら参加者両方をフレーミングするよう出席者ビューカメラ50Bを向けることが好ましい。
【0086】
判定を支援するために、端末10は、高頻度の話者、彼らの位置、および彼らが別の1人と話す傾向があるかどうかの指標を格納することが好ましい。高頻度の話者が、対話を終えてすぐ後の特定の時間経過(例えば、5分間)内に、対話を続け始める場合、端末10は、第2の話者が対話で話し始めるとすぐに、過去に使用した前の対話フレーミングに直接戻ることができる。
【0087】
別の考察として、端末10は、対話している話者間のビュー角度を判定してもよい。45°を超える位のビュー角度だけ彼らが離れている場合、出席者ビューカメラ50Bを向けてズームアウトするのは、完了まで思いのほか時間を要する。この場合には、端末10は、代わりに、室内ビューカメラ50Aに切り換えて、室内の広角ビューまたは対話する参加者達のフレームビュー(対話する参加者達を1フレーム画面内に撮ったビュー)を捕捉してもよい。
5.遠端との対話
【0088】
ビデオ会議中のある時点で、近端の参加者の内の1人が、遠端の参加者と対話することがあり、端末10は、遠端との対話または音声交換が行われていると判定し(判定198)、特定の規定が適用される(199)。近端の話者が遠端の話者と会話をしている時、例えば、近端の話者が遠端の話者の話に耳を傾けるためにしばしば話を中断することがある。この状況を近端の話者がいないと認識して室内ビューに切り換えるのではなく、端末10は、遠端との対話としてこれを識別し、近端の参加者の現在の出席者ビューのままとすることができる。
【0089】
このようにするため、端末10は、ビデオ会議ユニット95が遠端から得た音声情報を使用できる。この音声情報は、会議中に遠端から検出されたスピーチ音声の経過時間および頻度を指示できる。近端では端末10は、スピーチの同様な経過時間および頻度を得て、それと遠端の音声情報との相関をとることができる。その相関に基づいて、端末10は、近端の参加者が遠端と対話していると判定し、端末10は、何人もの他の参加者が近端の室内にいるにも拘わらず、近端の話者がスピーチを止めても室内ビューに切り換えない。
E.ビュー切換えおよび話者のフレーミング
【0090】
ビデオ会議中に予想されるように、発言中の話者(達)が互いに、遠端と対話している時に、参加者間で動的に交代することがある。従って、どのビデオを出力するかを決める各種の判定および規則は、カメラビュー間の切換え過ぎを防ぎ、あまり重要ではないビュー、全体の流れから外れたビューを見せないような方法で、ビデオ会議環境の動的な性質に対処することが好ましい。
【0091】
図5に移って、プロセス200は、端末10がどのようにビュー間を切り換え、発言中の話者をフレーミングするかについての更なる詳細を提供する。動作は、1台または両方のカメラ50A、50B(ブロック202)を用いてビデオを捕捉する端末10から始まる。参加者がスピーチしていない時、端末10は、室内ビューカメラ50Aからの広角ビューを使用し、特にビデオ会議の開始時に、このビデオを出力することができる(ブロック204)。
【0092】
ビデオ会議の進行につれて、端末10は、マイクロホンアレイ28および/またはアレイ60A、60B(206)で捕捉した音声を解析し、参加者の1人が発言しているときを判定する(判定208)。この判定は、認識可能な特性に基づいてスピーチを検出し、追跡により音源を探知するための、当技術分野で周知の処理技術を用いることができる。参加者が発言を開始すると(判定208)、端末10は、これが新しい話者かどうかを判定する(判定210)。ビデオ会議が開始されたばかりの場合にはこうなるのが普通である。但し、その後で処理する間は、端末10は、概要を後述する話者認識に基づいて、または分析されたブロック内での最後の話者の位置が、現在の話者の推定現在位置と異なるかどうかの比較に基づいて、発言している人が新しい話者であると判定できる。
【0093】
新しい話者が判定される(または、何らかの他の理由で処理が必要となる)場合、端末10は、話者の位置を決定し(ブロック212)、決定した位置に向けて出席者ビューカメラ50Bを操舵する(ブロック214)。幾つかの技法を用いて、出席者ビューカメラ50Bに対する話者の位置を判定できる。これらの内の幾つかを以下説明する。
【0094】
一実施例では、端末10は、各種マイクロホンアレイ60A、60Bからの音声信号を処理し、音源を探知する技法を用いて発言中の話者を探知する。これらの技法の詳細は、米国特許第5,778,082号、第6,922,206号、および第6,980,485号に記載されており、これらを引用して本明細書に組み込む。別の実施例では、話者認識技法および履歴情報を用いて、話者のスピーチ特徴に基づいて話者を識別できる。従って、端末10は、認識された話者と関連する最後の位置が少なくとも話者の現在位置と一致(マッチ)する限り、その最後の位置にカメラ50Bを操舵できる。
【0095】
話者が探知されると、端末10は、話者の候補位置をカメラコマンド(パン・チルト・ズームの各座標)に変換し、出席者ビューカメラ50Bを操舵して、発言している参加者を捕捉する(ブロック214)。発言中の話者が移動すると、彼はカメラのビュー内にフレーミングされる(ブロック216)。
【0096】
話者をフレーミングするのは重要な課題であるので、端末10は、発言中の話者が現在のビューに適切にフレーミングされる(フレーム画面内に撮られる)かどうかを判定する(判定218)。適切でない場合、端末10は、アクティブなビューおよび/またはカメラビューの近接部分を探索して調整し、話者の実際の物理的な位置をフレーミングするが、これはスピーチ追跡で決定された位置と異なることもある(ブロック220)。ビューの調整は、必要に応じて何回でも繰り返すことができる。最終的に、話者の位置が決定できないか、または話者が適切にフレーミングできない場合、端末10は、出席者ビューカメラ50Bに切り換えるのではなく、室内ビューカメラ50Aからの広角ビューの表示を続けてもよい(ブロック204)。
【0097】
出席者ビューカメラ50Bの現在ビューが、現在の話者を適切にフレーミングしているかどうかを判定する幾つかの技法を本明細書で開示する。例えば、出席者ビューカメラ50Bが操舵されると、端末10は、後述のモーションベースビデオ処理を用いて話者をフレーミングすることができる。フレーミングが良好である(判定218)とアルゴリズムが報告すると、端末10は、広角ビュー(室内ビューカメラ50Aが提供)から方向を定めたビュー(出席者ビューカメラ50Bが提供)へ切り換え、遠隔端末へ出力するためにこのカメラ50Bからの現在ビューを選択する。フレーミングが良好であると報告されない場合、出席者ビューカメラ50Bの位置を微調整して、良好なフレーミングの探索を継続する(ブロック222)。良好なフレーミングをまだ発見できない場合、端末10は、室内ビューカメラ50Aの広角ビューを保持する(ブロック204)。
1.自動追跡の詳細
【0098】
上記のように、話者を探知し、出席者ビューカメラ50Bを向けるのは、直交編成したアレイ60A、60Bのマイクロホン62A、62Bを使用する。例えば、図6Aは、ビデオ会議環境における水平アレイ60Aの平面図を、図6Bは、垂直アレイ60Bの立面図を示す。端末10は、水平アレイ60Aを用いて話者の水平方位角を決定し、垂直アレイ60Bを用いて垂直方位角を決定する。配置の差異によりマイクロホン62A、62Bのそれぞれは、他のマイクロホン62A、62Bが捕捉する音声信号と位相および振幅が僅かに異なる音声信号を捕捉する。これらの差異の音声処理は、引用して本明細書に組み込む米国特許第5,778,082号、第6,922,206号、および第6,980,485号で開示されているような技法を形成するビームを用いて、話者の水平、垂直の方位角を決定する。
【0099】
簡単に説明すると、音声処理は、複数の位置の各点と関係付けられるビーム形成パラメータを、マイクロホンアレイ60A、60Bから送られた音声信号に適用する。次に、音声処理は、パラメータを形成するビームのどのセットがマイクロホンアレイ60A、60Bにより受信される音声信号の合計振幅を最大化するかを判定する。次いで、音声処理は、マイクロホンアレイの信号の合計振幅を最大化するパラメータを形成するビームセットと関係付けられる水平および垂直の方位角を識別する。これらの水平および垂直の方位角を用いて、音声処理は、出席者ビューカメラ50Bの対応するパン・チルト・ズーム座標を最終的に決定する。
【0100】
動的環境に依存して、アレイ60A、60Bによる音源追跡に基づいて出席者ビューカメラ50Bで現在の話者をフレーミングするのはある種の難問を抱える可能性がある。上記したように、周囲の物体の反射により、カメラ50Bが音源の反射方向に間違って向いてしまうことがあり、それにより、話者がカメラビュー内に適切にフレーミングされなくなる。
【0101】
図6Bに示すように、例えば、音声が反射点(例えば、テーブル上面)で反射するので、パン座標を正しく決定するのが複雑になる。マイクロホンアレイ60Bに対する反射点が、あたかも音源から向けられているかのように見える。発言している参加者の方向からの音より大きなエネルギーの音を反射点の方向から受けると、端末10は、追跡すべき音源として間違って反射の方を判定する可能性がある。
【0102】
これを克服するために、端末10は、このような反射を認識する検出技法を用いることができる。例えば図7A、図7Bに示すように、アレイ60A、60Bの一方が検出したエネルギーを方位角に対してグラフ化する。図7Aから分かるように、音源(発生源、ソース)からの音および該音源からの反射により、1つは音源から、もう1つは反射(通常は遅れている)からの2つのエネルギーピークが現れる。これは反射がない図7Bのグラフと対照的である。方位角に対するエネルギーを解析すると、端末10は、音源からの反射があると判定でき、反射の方を無視する。結局、これにより、出席者ビューカメラ50Bが反射点の方を向くのを避けるよう支援できる。
【0103】
反射と類似の問題で、話者の探知およびカメラ50A、50Bによる話者のフレーミングは、ビデオ会議環境において発生する他の雑音により複雑化する。キーボードタイピング、鉛筆で叩く音、椅子のねじり等からの雑音が参加者からのスピーチと混じることがある。例えば、参加者がビデオ会議にノート型パソコンを持ち込んで、Eメールに応答したり、ノートを取ったり等、することもある。所与の時間に捕捉された音声が、この雑音(タイピング等)を含むスピーチからなることもあるので、オーディオベース探知器42のスピーチ検出器43は、このような余分な雑音に対処する必要がある。
【0104】
上記のように、端末10は、スピーチ検出器43(図1A)を用いて、マイクロホンアレイ24が捕捉した信号がスピーチか非スピーチであるかを判定する。典型的には、信号がスピーチまたはキーボード雑音の場合、スピーチ検出器43が効果的に働き、オーディオ信号を非スピーチとして検出すると、端末10は捕捉したオーディオ信号だけを無視する。但し、スピーチ検出器43は、スピーチと雑音が混合されている場合、効果を低下させることができる。エラーが発生した場合、端末10は、誤って出席者ビューカメラ50Bを雑音源(例えばキーボード)に向けることがある。
【0105】
開示する端末10の幾つかの利点は、外部雑音と混合されたスピーチを処理するのを支援する。上記のように、端末10は、カメラ50A、50Bの移動頻度を少なくして、ビューを過度に切り換えるのを避ける方が好ましい。そのために、端末10は、音源位置をカメラ50A、50Bに送る前に、待ち時間(例えば、2秒)を用いることが好ましい。つまり、端末10は、マイクロホンアレイ60A、60Bから捕捉した音声を2秒間蓄積できてから出席者ビューカメラ50Bに音源位置を宣言する。キーボード雑音とスピーチとは、全待ち時間(2秒)にわたってはオーバーラップせず 2回の連続するキーボードタイピング動作の時間間隔は、大部分の人々では少なくとも100msであるのが典型的である。従って、2秒間の待ち時間で十分であるが、他の時間間隔を用いてもよい。
【0106】
図8Aは、スピーチ検出でスピーチと非スピーチの音声を処理するためのプロセス300を示す。一実施の形態では、端末10は、20ms毎に捕捉した音声をサンプリングする(ブロック304)ことにより、マイクロホンアレイ60A、60Bが捕捉した音声の、待ち時間内の蓄積を開始する(ブロック302)。端末10は、これらの20msサンプルを用いてスピーチ追跡技法に基づいて音源のパン・チルト座標を計算する(ブロック306)。これらのパン・チルト座標はまだ、出席者ビューカメラ50Bに音源位置として渡されない。その代わりに、端末10は、幾つかのステップで20msサンプルを処理して、スピーチおよび/または雑音の元となった音源位置を識別する。
【0107】
20msサンプルの見なし音源のパン・チルト座標の計算に加えて、端末10は、過渡信号検出器(TSD)を用いて、20msサンプルそれぞれの過渡信号値を計算する(ブロック308)。図8Bは、過渡信号検出器340のブロック図を示す。図示のように、検出器340は、4000Hz未満の周波数をカットする4000Hzの高域通過フィルタを有する。高域通過フィルタの後の検出器340は、一致フィルタのテンプレート信号と、未知の20msサンプルの信号との相関をとるために使用される一致フィルタ(一致フィルタの形状をブロック下に示す)を有する。20msサンプル毎に、検出器340の出力はスカラー値、すなわち一致フィルタ出力における最大値である。
【0108】
この過渡信号処理に基づいて、検出器340から得られた値は、この20msサンプルがスピーチまたは非スピーチを示すかどうかを指示する。例えば、検出器340が大きな過渡信号値を発生する場合、20msサンプルはキーボード雑音と対応する可能性がある。検出器340が小さな過渡信号値を発生する場合、20msサンプルはスピーチと対応する可能性がある。過渡信号値が発生すると、その信号値は20msサンプルのパン・チルト座標と関係付けられる。
【0109】
2秒間の待ち時間(図8A内の判定310)が終わるまでに、パン・チルト座標および過渡信号値を有する20msサンプルが100ほどある(背景雑音しかないこれらのサンプルは正当な座標値を生み出さない)。ガウス混合モデル(GMM)アルゴリズム等のクラスタ化技法を用いて、端末10は、20msサンプルのパン・チルト座標をクラスタ化し(ブロック312)、クラスタの数を見つけて、各クラスタの値を平均する(ブロック314)。Linde−Buzo−Gray(LBG)アルゴリズム等の他のクラスタ化技法を用いることもできる。
【0110】
例えば、図8Cは、待ち時間中の20msサンプルのパン・チルト座標をクラスタ化した後の結果を示す。各パン・チルト座標は、「x」で示され、各クラスタの平均値(すなわち、音源位置)は「*」で示される。この実施例では、クラスタ化は、2つのクラスタ内に互いにグループ化される2つの音源を示す。
【0111】
2つの音源がビデオ会議環境の別々の部分にあると推定されるので、これらのクラスタは異なるパン・チルト座標を有する。更に、話者がタイピングしながらスピーチしていたとしても、クラスタ化により、それらのクラスタが同じパン座標であっても、チルト座標が異なるクラスタは区別できる。このように、端末10は、ある参加者がタイピングとスピーチを同時に行っても、出席者ビューカメラ50Bを向けるためのスピーチ音源を探知できる。
【0112】
上記のようにクラスタ化が完了すると、図8Aのプロセス300にある端末10は、判定されたそれぞれのクラスタの過渡信号値の平均値を計算する(ブロック316)。クラスタの平均過渡信号値が定義済みのしきい値未満の場合(判定318)、端末10は、スピーチに対応する可能性があるとしてクラスタを宣言する(ブロック320)。そうではない場合、端末10は、キーボードのタイピング雑音等の過渡音としてクラスタを宣言する。しきい値の値および他の変数は、精査すべき雑音の種類(例えば、キーボードタイピング)および過渡信号検出器340からの一致フィルタの出力に依存する。従ってこれら変数の特定値は実施の形態ごとに設定することができる。
【0113】
全てのクラスタの平均値をしきい値と比較し終えると、端末10は、どのクラスタもスピーチを示していないかどうかを判定し(判定324)、どれも示さなければ終了する。ただ一つのクラスタがスピーチを示す場合、端末10は、平均のパン・チルト座標をもつこのクラスタがスピーチ源の位置と一致すると直ちに判定できる(ブロック328)。2つ以上のクラスタがスピーチを示す場合(判定326)、端末10は、最大のパン・チルト座標をもつクラスタをスピーチ音源の位置として宣言する(ブロック330)。
【0114】
従って、図8Cに示すクラスタ化は、以下のように4つの結果を有する可能性がある。(1)クラスタAはスピーチ、クラスタBは雑音。(2)クラスタAは雑音、クラスタBはスピーチ。(3)クラスタAはスピーチ、クラスタBもスピーチ。(4)クラスタAは雑音、クラスタBも雑音。図8Cは本実施例の2つのクラスタを示すが、スピーチおよび雑音の任意の音源数で動作するよう端末10を拡張してもよい。
【0115】
図8Cの本実施例では、端末10は、クラスタAまたはBが第1および第2の組合せでスピーチ音源に対応すると直ちに判定できる。これらの状況では、端末10は、音源の位置(スピーチクラスタの平均パン・チルト座標)を2秒の待ち時間が終了した後に出席者ビューカメラ50Bに伝えることができ、それにより、必要ならカメラ50Bを音源に向けることができる。
【0116】
両クラスタAおよびBがスピーチを示す第3の組合せが発生する場合、端末10は、クラスタ内のパン・チルト座標「x」の数値を用いて、どのクラスタが優勢な話者を表すかを判定する。こうして、待ち時間の間の20msのサンプルについて計算された最大のパン・チルト座標を有するクラスタは、音源の位置を宣言される。何れのクラスタもスピーチを示さない第4の組合せでは、端末10のスピーチ検出器43は、検出された音が全て(または、ほとんど)雑音であると既に示されている。
【0117】
上記で明らかなように、端末10は、待ち時間を用いて、スピーチおよび/または雑音がマイクロホンアレイ60A、60Bにより収音されているかどうかを検出する。最後に、過渡信号値のフィルタ処理および座標のクラスタ化を通じて、端末10は、パン・チルト座標がスピーチの音源と対応する可能性があると判定できる。こうして、端末10は、より信頼性の高い音源位置情報を提供して、操作中に出席者ビューカメラ50Bを方向付ける可能性がより高い。
2.フレーミング詳細
【0118】
不正確な方位決定を伴う問題に対処するために、端末10は、会議中の話者の自動フレーミングのためのモーションベース技法および本明細書で開示する他の技法を用いることもできる。更に、端末10は、カメラのビュー内に構成可能な非捕捉領域を持つことができる。この方法で、ユーザは、カメラのビューフィールド内に、ビデオを捕捉するためにカメラ50A、50Bを向けるべきでないセクションを定義できる。典型的には、これらの非捕捉セクションは、テーブル、壁等が主として捕捉されるビューのフィールド内領域となる。
【0119】
図9A、図9Bに移って、室内ビューカメラ(50A)からの広角ビュー230Aを示す。更に、不正な方位周りの第1フレーミング決定の後、ビデオ会議参加者周りをフレーミングしている出席者ビューカメラ(50B)からの狭角ビュー230Bが示されている。参照用に、非捕捉領域232が、広角ビュー230A内に定義されている。これらの領域232は、特定の室内用に端末(10)の校正に際して実装され、会議毎に変えなくてもよい。
【0120】
図9Aでは、出席者ビューカメラ(50B)は、スピーチが開始されてから、狭角ビュー230B内のビデオ会議参加者に照準を合わせている。何らかのエラーにより(すなわち、反射、話者が顔をそらす等)、狭角ビュー230Bは、参加者を適切にフレーミングしていない。適切なフレーミングを検証するために、端末(10)は、狭角ビュー230Bの捕捉ビデオ内のモーション、肌色、または顔の特徴等の特徴を調べる。
【0121】
モーションを検出するために、端末(10)は、出席者ビューカメラ(50B)により捕捉された狭角ビュー230Bのビデオから順次サンプリングされた各フレームを比較して、モーションによる差異を識別する。より詳細に後述するように、例えば、端末(10)は、1フレームまたはその一部の画素の輝度値を合計し、隣接する順次フレーム間でその合計値を互いに比較することによりモーション(動き)を判定する。2つの合計値間の差異が所定の閾値を超える場合、モーションがある領域として当該フレームまたはその一部にマークする。最終的には、繰返しプロセスにて、この検出されたモーションの周囲で狭角ビュー230Bを調整するか、または中央に寄せる。
【0122】
例えば、出席者ビューカメラ50Bは、上下左右に寄りすぎている狭角ビュー230Bの話者をフレーミングできる。最初に、カメラ50Bの照準をモーション画素に基づいて調整する。カメラ50Bが話者の上を狙いすぎる場合(すなわち、話者頭部がビュー230Bの下半分に示されている)、カメラの照準をモーション画素(すなわち、処理により見つけられた最も上のモーションブロック)に基づいて下げる。
【0123】
カメラ50Bによりフレーミングされる狭角ビュー230Bと関係するモーションブロックが全くない場合、端末(10)は、アレイ60A、60Bが捕捉する音声内の第2のサウンドピークに向けるようにできる。現在のカメラ(すなわち、出席者ビューカメラ50B)が自動機能(例えば、自動焦点、自動ゲイン、自動絞り等)を有する場合、端末10は、上記モーション検出を実行するときにこれらの機能を無効にできる。これにより、モーション検出の信頼性向上が支援される。
【0124】
モーション検出の代替として、端末(10)は、当技術分野で周知の技法を用いて狭角ビュー230Bのビデオ内の肌色を検出する。簡単に説明すると、端末(10)は、フレームまたはその一部の中のクロミナンス値の平均を求めることができる。その平均値が肌色と関係する範囲内の場合、フレームまたはその一部が肌色特性をもつと見なされる。更に、端末(10)は、顔認識技法を用いて、カメラビュー230B内の顔を検出し、探知することができる。例えば、端末(10)は、人の肌を含む可能性がある領域を探し、これらから、ビュー内の顔の位置を示す領域を探して顔を見つけることができる。肌色および顔の検出(および音声探知)に関する詳細は、米国特許第6,593,956号、発明の名称「Locating an Audio Source(音源探知法)」に開示されており、これを引用して本明細書に組み込む。次いで、狭角ビュー230Bは、繰返しプロセスでこの検出した肌色および/または顔認識の周囲を調整し、中央に寄せる。
【0125】
フレーミングを検証する際に、端末(10)は、カメラ(50A、50B)からの両方のビュー230A、230Bを用いて、モーション、肌色、または顔等の特性を分析する。出席者ビューカメラ(50B)からの広角ビュー230Bのモーション、肌色または顔を分析して、そのカメラが参加者に現在向けられているかどうかを判定できる。例えば、出席者ビューカメラ(50B)が壁または天井を指している場合、狭角ビュー230B内のモーション、肌色、または顔のビデオ処理はこの事実を判定できるので、端末(10)は、このような望ましくないビューが出力されるのを回避できる。次いで、出席者ビューカメラ(50B)を周辺領域に操舵して、これら周辺領域の後続のモーション、肌色または顔の判定からの値が大きい故に、より良好なフレーミングが達成できるかどうかを判定できる。
【0126】
代替として、スピーチ追跡により得られた現在フレーミングされているビュー230Bを取り巻くモーション、肌色、または顔を判定するために、室内ビューカメラ50Aからの広角ビュー230Aを分析することができる。これらの周囲領域のモーション、肌色、または顔の判定からの大きな値が広角ビュー230A内で発見された場合、端末(10)は、出席者ビューカメラ(50B)を周囲の領域に向けて操舵することができる。2台のカメラ(50A、50B)間の設定距離および2つのビューの相対的な方位が分かると、端末(10)は、出席者ビューカメラ(50B)を移動させて適切な領域をフレーミングするために、ビュー230A、230B間の領域を座標に変換できる。
【0127】
周囲の領域を分析する方法は、フレーミングされている環境の量を変化させるように出席者ビューカメラ(50B)をズームインおよびズームアウトさせることを含む。次いで、ビデオ処理は、異なるズームビュー間のモーション、肌色、または顔の判定における差異を決定できる。代替として、出席者ビューカメラ(50B)のパンおよび/またはチルトは、最初のフレームビュー230Bから調整済みのフレームビューに自動的に調整される。この場合には、ビデオ処理は、調整が異なるビュー間のモーション、肌色、または顔の判定における差異を決定して、どのビューが参加者をより良好にフレーミングするかを見つけることができる。更に、モーション、肌色、または顔の判定のそれぞれを互いに組み合せることができ、出席者ビューカメラ(50B)の現在のフレーミングの調整と室内ビューカメラ(50A)の使用との組合せも用いることができる。
【0128】
最後に、フレーミング技法は、出席者ビューカメラ(50B)と室内ビューカメラ(50A)との間で情報を交換して、話者のフレーミングを支援することができる。1台のカメラの操作(パン、チルト、ズーム)を、他のカメラの操作(パン、チルト、ズーム)と直接関連付けることができるように、2台のカメラ(50A、50B)の物理的な位置を知って、固定することができる。例えば、出席者ビューカメラ(50B)を用いて、話者をフレーミングできる。次いで、その情報を室内ビューカメラ(50A)と共有して(室内ビューカメラ50Aを電子的に制御して)、このカメラ(50A)の室内フレーミングに役立てることができる。更に、室内ビューカメラ(50A)からの情報を出席者ビューカメラ(50B)と共有して、良好な話者フレーミングに役立てることができる。
【0129】
これらのフレーミング技法を用いて、ビデオ会議端末10は、話者ではなく、または良好にフレーミングされていない何らかのズームインビューを端末10が生成する可能性を低下させる。言いかえると、端末10は、従来システムで発生することもある不適切なフレーミング(会議机や何もない壁にズームインしたり、またはマイクロホンアレイが生成した不完全な音声結果により話者の膝にズームインしたりする等)の可能性を低下させる。事実、従来システムの幾つかは、何人かの話者を探知することは決してできない。例えば、従来システムは、マイクロホンアレイ60A、60Bに対する直接音響パスがテーブルの反射により不明瞭になるテーブル端の話者を探知できない。開示する端末10は、本明細書で開示するビデオとオーディオの処理を両方用いることにより、このような話者へのズームインを成功させることができる。
F.自動フレーミング処理
【0130】
簡単に上記したように、出席者ビューカメラ50Bを現在の話者に動的に向ける場合、本実施例で開示する端末10は、モーション、肌色、および顔認識を用いて、参加者を適切にフレーミングすることができる。フレーミング技法の一部として、開示する端末10は、ビデオ会議開始時または別の時間間隔で捕捉した室内のビデオ内の関連ブロックを検出することにより、参加者の位置を最初に予測できる。これらの関連ブロックを、モーション、肌色、顔認識または捕捉したビデオ内のこれらの組合せを見ることにより判定できる。自動フレーミングのプロセスは、会議の開始または他の適切な時間にビデオ会議参加者により開始できる。代替として、自動フレーミングプロセスは、ビデオ会議通話の開始時に、または何らかの他のトリガーされた時間の何れかに自動的に起動させてもよい。参加者の位置と対応して捕捉されたビデオ内の関連ブロックを知ることにより、端末10はその後、カメラ50A、50Bにより室内の周囲の参加者を自動的にフレーミングする場合に、これらの既知の関連ブロックを用いることができる。
【0131】
図10は、本開示による自動フレーミングを用いるためのプロセス400を示す。図1A、図2Aに開示するような2台のカメラシステム用のこのプロセス400を以下に説明する。但し、自動フレーミング技法は、図2B、図2Dに開示するような1台のカメラを有するビデオ会議システムでも同様に使用可能である。
【0132】
ビデオ会議が開始される前の初期状態で(すなわち、通話が接続されていて参加者の準備ができている時)、端末10は、時間枠を開始し(ブロック402)、カメラの内の1台が捕捉するビデオをサンプリングする(ブロック404)。これを行うために、端末10が幅広くカメラをズームして室内全体のビデオを捕捉するか、または端末10が最も広角の環境ビューのためのカメラの全てのパン・チルト・ズーム範囲を直接調べてもよい。室内の広角ビューを捕捉してから、端末10は、その広角ビューを別の分析をするために複数のブロックにセグメント化(区分け)する(ブロック406)。言いかえると、対象となる室内空間の既定の広角ビューは、複数のセクションまたはブロックに「分割」される(N=2、3等)。これらのブロックはそれぞれ、カメラの特定の狭角ビューを表す。このようにして、ブロックをカメラの特定のパン、チルト、およびズーム座標として識別できる。
【0133】
2台のカメラ50A、50Bがある場合、端末10は、カメラ50A、50Bの1台または両方を、全体の広角ビューを捕捉するようズームできる。好適には、パン・チルト・ズームの操舵可能な出席者ビューカメラ50Bを用いて、最も広くできる環境のビューを捕捉できる。上記のように、このカメラ50Bのパン、チルト、およびズームの全範囲は、端末10には既に既知である。従って、端末10は、最も広くできるビューを、それぞれがカメラ50Bの特定のパン、チルト、およびズーム座標により表される複数のブロックつまり狭角ビューに自動的にセグメント化できる。
【0134】
代替として、出席者ビューカメラ50Bは、様々な方向で別々に幾つかのビデオ画像を捕捉し、それらを互いにつなぎ合わせて室内の広角ビューを作成してもよい。例えば、図12Aは、出席者ビューカメラ50Bで捕捉されたビデオ会議環境の4分割の4枚の捕捉画像460を示す。この画像460を得るには、出席者ビューカメラ50Bを広角ズームして様々な4分割にパンし、室内の最も広くできるビューを捕捉できる。これにより、探索領域を拡げることができる。画像460間のオーバーラップは図示していないが、実際にはオーバーラップさせることができ、これは処理により適切に取り扱うことができる。
【0135】
各画像460を幾つかのブロック462に分割して示す(この例では15枚だが他の枚数でもよい)。ブロック462は、少なくとも1画素と同じ大きさであり、ビデオ圧縮アルゴリズムにより普通に使用されるマクロブロックのサイズとしてもよい。繰返しになるが、これらのブロック462はそれぞれ、カメラ50Bの特定のパン、チルト、およびズーム座標と関連付けられ、所与の幾何寸法により決定することができる。
【0136】
図10において複数ブロックに分割された室内の広角ビューを用いて、端末10は、各ブロックを選択し(ブロック408)、かつ、各ブロックを精査して、自動フレーミングの目的に対する当該ブロックの関連性(妥当性)を判定する。各ブロック462を精査するために、出席者ビューカメラ50Bを、そのブロックを包含する1つの狭角ビューにズームインして(ブロック410)、このブロックが、室内の全体ビュー内でどのような関連性(すなわち、モーション、肌色、顔認識等、自動フレーミング目的に対する関連性)を有するかを判定する。ズームインされると、出席者ビューカメラ50Bにより得られたビデオ画像は、モーション、肌色、および他の詳細をより良好に検出できる。
【0137】
従って、端末10は、選択されたブロック(狭角ビュー)からのズームイン画像が関連している(妥当である)かどうかを判定する(判定412)。もし或るブロックが関連している(妥当である)と判定された場合、端末10は、関連している(妥当である)としてこのブロックにマークし(ブロック414)、後で使用するために、その関連位置情報(カメラのパン、チルト、およびズーム座標)をメモリに格納する。
【0138】
関連する(妥当性を有する)ブロックは、ビデオ会議中に動的に必要とされる場合、カメラ50A、50Bによるビューを適切にフレーミングするために対象の領域をそれらが定義するので、重要である。言いかえると、関連する(妥当性を有する)ブロックは、それが少なくとも興味の対象の一部であることをビデオ会議の参加者へ示す特性を有するビューの一部を含んでいる。ビデオ会議では、参加者が興味の対象であることが多い。このような場合、ビデオ会議参加者を示す探索可能な特性には、上記のように、モーション、肌色、および顔の特徴を含めることができる。
【0139】
ブロック全ての精査(判定416)および時間経過が終了後(判定418)、ビデオ処理は、最も外側の関連ブロックを決定する(ブロック420)。これらには、最も左、最も右、および最も上の関連ブロックが含まれる。最も下の関連ブロックは、望むなら無視してもよい。このような最も外側のブロックから、端末10は、環境内の参加者の最も適合するビューをフレーミングする(1フレーム画面に入れる)ためにパン・チルト・ズーム座標を計算する(ブロック422)。例えば、最も左、最も右、および最も上の関連ブロックの位置を、三角計算およびメモリに格納されたブロックカメラ位置データを用いて自動フレーミングするためのパン・チルト・ズーム座標に変換することができる。
【0140】
最後に、端末10は、分析されたブロックから得られた複合結果に基づいて室内をフレーミングする。説明用に過ぎないが、図12Bは、広角ビュー460内における複数の関連ブロック462のフレーミングされた領域470を示す。領域470内の最も左、最も右、および最も上の関連ブロック462を考慮した後、図12Cは、広角ビュー460内においてその結果として得られる1つのフレーミングビュー472(妥当であると判定された1又は複数のブロック462を1つのフレーム画面に納めた最良のビュー)を示す。最良ビュー472を知ることにより、端末(10)は、ビデオ会議室の不要な部分が捕捉されないように、室内ビューカメラ(50A)のパン・チルト・ズーム座標を調整して、このビュー472をフレーミングできる。同様に、端末(10)が出席者ビューカメラ(50B)に対して実行する参加者のスピーチ追跡および自動フレーミングは、一般に、このフレーミングされたビュー472に制限される。この方法で、端末(10)は、フレーミングされたビュー472の外側の音源反射に向けられるのを避け、フレーミングされたビュー472の外側でスピーチしている参加者を適切にフレーミングしようと試みる場合、その参加者を囲む隣接領域を探索するのを避けることができる。
1.モーションを用いる自動フレーミング
【0141】
あるブロックを関連があるとして判定するために、上記のような幾つかの技法を用いることができる。図11Aに示す一実施の形態では、ビデオ処理は、どのブロックが移動している参加者を指示するかを判定することにより、関連ブロックを識別する。図示のように、ビデオ処理は、ブロックを選択し(ブロック408)、上記のように狭角ビューでそれにズームインする(ブロック410)。次いで、ビデオ処理は、選択したブロックのズームインカメラ50Bが捕捉したビデオフレームレートを下げて、計算が複雑にならないようにする。例えば、フレームレートは、一実施の形態では約6フレーム/秒まで低下させることができる。この時点または他の時点で、時間フィルタおよび空間フィルタを適用して、検出を改良し、雑音または干渉を除去することができる。
【0142】
連続したフレームを用いて、ビデオ処理は、ブロックのフレームの内の1つにある画素の輝度値を合計し、この値をブロックのフレームの内の別の1つにある輝度値の合計値と比較する(ブロック434)。2つの合計値の差が所定のしきい値より大きい場合(判定436)、ビデオ処理は、対象ブロックを関連性があり、モーションを含む可能性があるとしてマークする(ブロック414)。
【0143】
最後に、連続フレーム間の輝度値の差を、ブロック毎に全てのブロックが分析されるまで計算する(判定416)。それが済むと、端末10は、ブロックの内のどれがモーションに基づいて関連付けられているかを判定したことになる。この時点で、端末10は、図10のプロセスステップを続けて、関連するブロックに基づいて室内の広角ビューを自動フレーミングする。
【0144】
説明に過ぎないが、図13は、第1位置に参加者がいるブロックの第1フレーム464、および参加者が動いたブロックの後続のフレーム465を示す。上記のモーションベース技法は、これら2つのフレーム464、465の輝度を平均化し、それらを比較する。輝度の差がしきい値を超える場合、これらのフレーム464、465と関係するブロックを、フレーミングビューの一部として指定される関連モーションブロックと判定する。
【0145】
対照的に、フレーム466、467は、静的なままのビデオ会議室の一部を示す。輝度の平均値をこれらのフレーム466、467間で比較すると、その差はしきい値未満になるので、これらのフレーム466、467と関係するブロックに関連性があるとは判定されない。
【0146】
輝度の差のしきい値は、使用するカメラ、ホワイトバランス、光量、および他の要因に依存する。従って、しきい値は、自動または手動で構成可能とすることができる。例えば、端末10は、低いしきい値を利用して、ビデオ会議参加者の意識的、無意識的なモーションに基づく関連ブロックを検出することができる。ビデオ処理がこのような低いしきい値を用いる場合は、処理はモーションに対するより高い感度をもつことになる。逆に、しきい値が高くなると、端末のモーションに対する感度は低下する。従って、スピーチに関わるビデオ会議参加者を探知するのに必要な最小しきい値は、受動的なモーションを示すだけのビデオ会議参加者を探知するのに必要な最小しきい値より高くなる。従って、しきい値を調整することにより、ビデオ処理は、スピーチしている間のビデオ会議参加者を検出でき、座っているだけの場合の検出をせずに済む。これらの理由から、モーション検出に関わる何らかのしきい値を構成可能とし、かつ操作中は自動的に調整可能とすることができる。
2.肌色を用いる自動フレーミング
【0147】
図11Bに示す別の実施の形態では、ビデオ処理は、画素が肌色を含むかどうかに基づいて関連ブロックを判定する。画像内の肌色を見つけるための多数の方法が当技術分野で周知である。本実施例では、あるブロックをビデオ処理が選択し(ブロック408)、上記のように狭角ビューにそれをズームインする(ブロック410)。次いで、ビデオ処理は、ブロックまたはその一部の取得ビデオ内の1つ以上のフレームをサンプリングし(ブロック440)、必要に応じてフィルタ処理し(ブロック442)、対象ブロック内のクロミナンスの平均値を計算する(ブロック444)。その平均値が人の肌色と関係する範囲内にある場合(判定444)、ブロックを関連性ありとしてマークする(ブロック414)。
【0148】
肌色検出に関する詳細は、組み込まれる米国特許第6,593,956号に開示されている。肌色検出は、幾つかの因子に依存し、手動および自動で構成可能とすることもできる。何らかのイベントで、全てのブロックが関連性について分析されるまで、ブロック毎に平均クロミナンス値が計算される(判定416)。この時点で、端末10は、図10のプロセスステップを後続して、関連するブロックに基づいて室内の広角ビューを自動でフレーミングする。
G.顔認識法を用いる自動フレーミング
【0149】
図11Cに示す更に別の実施の形態では、ビデオ処理は、顔認識法を用いて関連ブロックを判定する。顔の特徴を認識するための多数の方法が当技術分野で周知である。顔検出に関する詳細は、組み込まれる米国特許第6,593,956号に開示されている。本実施例では、ビデオ処理は、肌色を持つとして既に分析され、マークされている隣接ブロックを選択する(ブロック450)。次いで、顔認識アルゴリズムが、顔の特徴について隣接するブロックのセットを分析する(ブロック452)。検出された場合(判定454)、後で自動フレーミングに使用できるように、関連する顔のブロックとしてこの隣接ブロックのセットをマークする(ブロック456)。
【0150】
最後に、顔を認識するために全ての隣接ブロックをセット毎に、全ブロックを分析し終えるまで分析する(判定416)。この時点で、端末10は、図10のプロセスステップを続けて、関連するブロックに基づいて室内の広角ビューを自動フレーミングする。
H.追加の自動フレーミングの詳細
【0151】
動作中に、ビュー内の条件が変化すると、端末10は、カメラ(50A、50B)の1台または両方により得られた現在ビューを再フレーミングする必要がある。例えば、ビデオ会議参加者がビデオ会議中にビューから去ったり、または新しい参加者が入室したりすることがある。端末10は、広角ビューを周期的に再スキャンして、何らかの変化(すなわち、新しいか、またはふるい何らかの関連ブロック)を発見できる。再スキャンの時、ビデオ処理は、参加者を含むか、または含まないこれらのブロックを探知できるので、カメラビューのパン・チルト・ズーム座標を再計算する際にそれらを考慮できる。代替として、ビデオ会議参加者は、ユーザーインターフェースまたはリモコンを用いて再フレーミングシーケンスを開始してもよい。
【0152】
再スキャンでは、少なくとも2台のカメラ50A、50Bを有する端末10を用いると特に有利である。例えば、2台のカメラの端末10では、出席者ビューカメラ50Bは、図10のプロセスにより周期的に室内の広角ビュー全体を再スキャンでき、一方、室内ビューカメラ50Aは、会議ビデオを捕捉し、出力する。代替として、出席者ビューカメラ50Bが現在の話者を追跡し、ズームインしている時に、室内ビューカメラ50Aは再スキャン手順を開始して、広角ビューで関連ブロックを判定してもよい。
【0153】
これらのフレーミング技法は、上記開示のカメラ2台の端末10に有利であるが、図2B、図2Dに開示するように、カメラ1台の装置を持つシステムで使用することもできる。更に、これらのフレーミング技法を上記開示のマイクロホンアレイを持つシステムとともに、または他のマイクロホン編成とともに用いてもよい。
1.話者認識
【0154】
スピーチ追跡、モーション、肌色、および顔の認識に追加して、またはそれらの代替として、端末10は、話者認識を用いてどの参加者がビデオ会議環境でスピーチしているかを識別できる。話者認識技法は、上記のカメラ2台の端末10により用いられるが、更に多いかまたは少ないカメラを有する他のビデオ会議システムで使用できる。カメラ2台の端末10では、室内ビューカメラ50Aをズームアウトした室内ビューにセットでき、一方、出席者ビューカメラ50Bは、上記したように、現在の話者を追跡およびズームインできる。次いで、端末10は、話者認識に一部基づいて、どのカメラビューを出力するかを決定できる。
【0155】
参考のために、図14に、2台のカメラ50A、50B、マイクロホンアレイ60A、60B、外部マイクロホン28、および他のコンポーネントを有するビデオ会議の端末10を示す。端末10は話者認識機能も有し、話者認識モジュール24およびデータベース25を含む。これらは、外部マイクロホン28およびアレイ60A、60Bからの音声を処理するために使用されるオーディオモジュール20と関係付けることができる。
【0156】
話者認識モジュール24は、主として外部マイクロホン28によりサンプリングされる音声を分析する。この音声を用いて、話者認識モジュール24は、ビデオ会議中にどの参加者が現在スピーチしているかを判定し、識別することができる。一方、データベース25はこの判定または識別を行うための情報を貯蔵する。
【0157】
図15に示すように、図14の話者認識モジュール24が使用できる幾つかの情報を含むデータベーステーブル480を示す。このデータベーステーブル480は、説明のために提供するだけであり、当該分野の技術者には言うまでもなく、話者認識モジュール24のための各種の情報を当技術分野で周知の利用可能な任意の方法で格納できる。
【0158】
図示のように、データベーステーブル480は、ビデオ会議内の近端参加者それぞれについての幾つかの記録を保持できる。データベーステーブル480は、参加者毎に、参加者の識別情報(名前、タイトル等)、その参加者の決定された位置(パン・チルト・ズーム座標)、およびその参加者のスピーチの特性を含む。
【0159】
これに加えて、データベーステーブル480には、参加者がビデオ会議中にスピーチした平均経過時間、参加者がビデオ会議中にスピーチした回数、およびスピーチしている参加者を追跡し、認識するのに有用な他の詳細情報が含まれている。この情報は会議の統計値を捕捉し、報告するためにも使用できる。これらの情報は、例えば、会議の話者の人数、各人がスピーチした時間の長さ、その話者がいつ会議に参加したか等を示すことができる。最後に、これらの情報を用いて、会議の記録を精査するときに、ビデオ会議の特定のセクションを素早く探すことができる。
【0160】
データベーステーブル480に含まれているような情報を用いて、図14の端末10の話者認識モジュール24は、スピーチを検出した時、ビデオ会議の様々な参加者から特定話者を識別できる。例えば、図16は、ビデオ会議中に実装できる話者認識プロセス500を示す。最初に、端末10がビデオ会議を開始する(ブロック502)。会議設定の一部として、参加者は話者認識インターフェースに登録する(ブロック504)が、これは、本明細書で開示する話者認識には厳密には必要ない。
【0161】
登録手続きを使う時は、参加者は、名前、肩書き等の、識別情報をユーザーインターフェースを用いて入力する。次いで、参加者は、話者認識モジュール24に1つ以上のスピーチサンプルを提供する。このサンプルを得るために、モジュール24は、参加者に特定のスクリプト、フレーズ、ワード等を言うように要求しても、しなくてもよい。いずれにせよ、モジュール24は、参加者のスピーチサンプルを分析し、参加者のスピーチの特性を判定する。登録が終了すると、モジュール24は、後で使用するために参加者毎のスピーチ特徴および識別情報をデータベース25に格納する(ブロック506)。
【0162】
一実施の形態では、モジュール24が提供する話者認識は、データベース25に格納されたスピーチ特徴がメル周波数ケプストラム係数(MFCC)を含むように、メル周波数ケプストラム(MFC)に基づいて行うことができる。これらの係数を導く技法は当技術分野で周知なので、本明細書では詳細を説明しない。但し、モジュール24は、スピーチ特徴を識別し、そこから話者を認識するために当技術分野で周知の任意の他の技法を使用してもよい。
【0163】
参加者の登録により、端末10はビデオ会議の運営を開始する(ブロック508)。出席者ビューカメラ50Aを話者に向ける前に、端末10は、ビデオを捕捉し、室内ビューカメラ50Aからの広角ビューを最初に出力する(ブロック510)。その間に、端末10は、外部マイクロホン28および/またはマイクロホンアレイ60A、60Bが捕捉したローカルの音声を分析する(ブロック512)。
【0164】
幾つかのポイントで、端末10は、当技術分野で周知のスピーチ検出技法を用いてスピーチが検出されるかどうかを判定する(判定514)。これを行うためには、端末10のスピーチ検出器43が、捕捉した音声をサンプリングし、その音声をフィルターバンクで複数帯域にフィルタ処理できる。スピーチに関するこれらの帯域のインパルスまたは振幅を分析すれば、現在のサンプリングした音声がスピーチを示すかどうかが判定できる。好適には、分析される捕捉した音声は、アレイ60A、60Bで得られるものではなく外部マイクロホン28により得られる会議の音声であるが、アレイからの音声を用いることもできる。
【0165】
スピーチが検出されると、話者認識モジュール24は、検出したスピーチをサンプリングしてその特徴を判定し、次いで、モジュール24は、これらの特徴を有する参加者についてのデータベース25を探索する(ブロック514)。繰返しになるが、モジュール24は、当技術分野で周知の技法を用いて現在のスピーチのメル周波数ケプストラム係数(MFCC)を判定できる。それが済むと、端末10は、現在導き出されている特徴を、様々な参加者のデータベース25に格納された特徴と比較することにより、現在の話者を識別する。従って、現在の話者の識別をこれらの特性の最良一致(マッチ)に基づいて得ることができる。
【0166】
参加者が登録されると、例えば、モジュール24は、データベース内のその話者を探索し(判定518)、次いで、端末10は、出席者ビューカメラ50Bをその話者の座標または方向に向ける(ブロック520)。この方法で、端末10は、スピーチを検出し、アレイ60A、60Bによるビーム形成法を用いて話者の位置を判定し、現在の話者の識別を判定し、出席者ビューカメラ50Bを現在の話者のズームインビューに向ける。この時点で、遠端に出力されるビデオ上に話者の名前を自動的に表示できるようになる。言うまでもなく、遠端での現在の話者の名前表示は、特に、近端と遠端で参加者同士が互いに知らない場合に便利である。
【0167】
追加の尺度として、マイクロホンアレイ60A、60Bによるビーム形成法により得られた現在の話者の決定位置(出席者ビューカメラ50Bのパン・チルトおよびズーム)(既に既知でなければ)を、話者識別およびスピーチ特徴と併せてデータベース25に格納できる。この方法では、この話者がその後に会議でスピーチを開始すると、モジュール24は、スピーチ特徴から話者を識別でき、次いで、端末10は、出席者ビューカメラ50Bを、データベース25から得られた格納位置(パン、チルト、およびズーム)に直接向けることができる。従って、端末10は、話者認識を用いて、難しい状況で話者を探知する信頼性を向上させることができるが、アレイ60A、60Bによる話者の音声追跡を実行しないで済ませることができる。
【0168】
例えば、現在の話者の位置が既知で、かつスピーチ特徴と関係付けられている場合、端末10は、現在の音源の位置を、データベース25内の話者の格納位置に対して検証できる(ブロック522)。話者認識およびデータベース記入項目との一致(マッチング)が、参加者の1人を現在の話者として間違って識別している状況が存在することがある。出席者ビューカメラ50Bを間違った人または反射ポイントに向けるのを避けるために、端末10は、チェックを行って、判定した位置が以前にデータベース25内に格納された位置と一致するかどうかを判定する(判定524)。これは、参加者人数が多い場合、および現在のスピーチと格納特性との間の一致の確定性が低い場合に有用である。このチェックは更に、参加者がビデオ会議中に移動して、データベース25に格納された位置が不正確になるか、またはデータが無意味になると予想される場合に有用なことがある。
【0169】
既に登録した話者のデータベース25内に現在の話者を見つけようと試みる場合(判定518)、モジュール24は、その話者がデータベース25に含まれないと判定することができる。例えば、誰かが、会議に遅れて到着し、話者識別プロセスで未登録のこともある。代替として、端末10は、登録プロセスを使用せず、会議の進行につれて新規の話者を識別するだけとすることができる。
【0170】
何らかのイベントで、モジュール24は、現在の話者から導き出されたスピーチ特徴が、データベース25内に格納されたスピーチ特徴および識別の何れとも最良一致しないと判定する。この場合、モジュール24は、データベース25内にそのスピーチ特徴を格納する(ブロック526)。この場合の話者の名前は、端末10が会議中に記入を促さない限り、データベース記入項目に付帯させなくてもよい。この時点で、端末10は、上記のマイクロホンアレイ60A、60Bおよびビーム形成技法を用いて話者の位置を判定でき、それをデータベース25内に格納する(ブロック528)。このステップは、探知した話者と格納した座標とを一致させるのに端末10が失敗した場合にも実行される(判定524)。同様に、話者の現在位置が以前の処理により既に既知のこともあり、その場合、端末10は話者の位置を初めからやり直して判定しなくてもよい。
【0171】
全体として、端末10はそれぞれの利用可能な方法を用いて現在の話者を探知し、その話者の位置を正しくフレーミングできる。この方法で、マイクロホンアレイ(60A、60B)、カメラ(50A、50B)の捕捉ビデオ、マイクロホンポッド(28)の音声、および話者認識からの情報は、1つが失敗した場合に相互に補うことができ、それらを用いて互いの結果を確認することができる。例えば、マイクロホンポッド(28)により得られる方向検出は、話者認識をチェックすることができる。
【0172】
位置が直接または記憶装置から決定されると(ブロック528)、端末10は、出席者ビューカメラ50Bをその決定した位置に向けて操舵し(ブロック530)、そのカメラのビュー内にその話者をフレーミングするプロセスを進行させる(ブロック532)。上記のように、端末10は、話者がモーション、肌色、顔認識等に基づいて適切にフレーミングされるかどうかを判定し(判定534)、カメラのビューおよび必要なら隣接部分を探索し(判定536)、必要に応じて、話者をフレーミングする選択ビューが遠端に出力されるまで、これらのステップを繰り返す(ブロック538)。
【0173】
現在の話者がデータベース内に見つからず、その位置がビーム形成法により決定できない場合、端末10は、室内ビューカメラ50Aからのビデオ出力に戻る。結局、端末10は、全ての探知および識別の技法が失敗しても、出席者ビューカメラ50Bの会議室またはモーションの好ましくない出力を避けることができる。
【0174】
話者認識は、スピーチしている時に参加者名の表示を支援したり、またはビーム形成法が正しい位置を決定したことを検証する際に支援したりするだけでなく、話者認識は、ビーム形成法等を通じて直ぐに探知できない場合の状況においても支援する。例えば、現在の話者が頭部の向きをマイクロホンアレイ60A、60Bから変えた場合、端末10は、ビーム形成法等を用いても現在の話者を探知できない。それにもかかわらず、話者認識モジュール24は、どの参加者が、スピーチ特徴に基づいて格納された話者と一致するかを依然として識別できる。この一致から、端末10は、出席者ビューカメラ50Bを現在の話者に向けるために既に格納されている位置(パン、チルト、およびズーム)を見つける。
【0175】
更に、話者認識モジュール24は、端末10がビデオ会議中のビューをいたずらに切り換えるのを防ぐ。例えば、現在の話者がマイクロホンアレイ60A、60Bから頭部を背けたある時点で、何らかの環境の変化が、新しい反射点を作り出すか、または何らかの他の変化を起こすので、端末10は、もはや現在の話者を探知できず、または現在の話者の異なる位置を発見できなくなる。アレイ60A、60Bを用いる端末10は、誰かがスピーチしていることは分かるが、同一人物が話し続けているのか、新しい話者が話し始めたのかは判定できない。この事例では、話者認識モジュール24は、同一話者がスピーチしているかどうかを端末10に指示することができる。従って、端末10は、出席者ビューカメラ50Bを別のビューに切り換えずに、現在の話者のズームインビューを継続できる。
【0176】
説明した動作方法の詳細における多様な変更が、以下のクレームの範囲から逸脱することなく可能である。例えば、説明用のフロー図のステップまたはプロセスステップは、本明細書で開示された順序と異なる順序で規定されたステップを実行してもよい。代替として、幾つかの実施の形態は、本明細書で説明した動作を別々のステップであるとして組み合せてもよい。同様に、1つ以上の説明したステップは、その方法が実装されている特定の動作環境によっては省略してもよい。
【0177】
更に、フロー図またはプロセスステップによる作用は、恒久的なプログラム可能記憶装置上の1つ以上のプログラムモジュールに編成された命令を実行する、プログラム可能な制御装置により実行されてもよい。プログラム可能な制御装置は、単一のコンピュータープロセッサ、専用プロセッサ(例えば、デジタル信号プロセッサ「DSP」)、通信リンクで結合された複数のプロセッサまたはカスタム設計の状態マシンでもよい。カスタム設計の状態マシンは、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)を含むが限定はされない集積回路等のハードウエア装置内で実装されていてもよい。プログラム命令を確実に実施するのに適したコンピュータ読取り可能媒体と呼ばれることもある恒久的なプログラム可能記憶装置は、磁気ディスク(固定、フレキシブル、およびリムーバブル)および磁気テープ;CD−ROMおよびデジタルビデオディスク(DVD)等の光媒体;および電気的プログラム可能ROM(EPROM)等の半導体メモリ装置、電気的消去・プログラム可能ROM(EEPROM)、プログラム可能ゲートアレイおよびフラッシュ装置を含むが限定はされない。
【0178】
好適な実施の形態等の上記説明には、出願人が抱いた発明概念の範囲または適用性を制限または限定する意図はない。本明細書に含まれる本発明の概念を開示するのと引き替えに、出願人は、付帯のクレームで与えられる全ての特許権利を要求する。従って、意図しているのは、付帯のクレームが、以下のクレームまたはその均等物の範囲内にある限りの全ての改変および代替を含むということである。

【特許請求の範囲】
【請求項1】
自動化されたビデオ会議のための方法であって、
或る環境におけるビデオ会議の参加者のスピーチの特徴とソース位置を記憶するステップと、
前記環境において検出されたスピーチを示す第1音声の第1スピーチ特徴を決定するステップと、
前記記憶された参加者のスピーチの特徴のいずれかと前記第1スピーチ特徴とをマッチングするステップと、
前記第1スピーチ特徴にマッチしている前記記憶された参加者のスピーチの特徴に対応する前記ソース位置に第1カメラを向けるステップと
を備える方法。
【請求項2】
前記参加者の識別情報を前記記憶された参加者のスピーチの特徴に対応付けるステップと、
マッチしている前記第1スピーチ特徴に対応付けられた前記識別情報を、前記第1カメラで撮影した第1ビデオに組み込むステップと
を更に備える、請求項1の方法。
【請求項3】
前記ビデオ会議を開始するときに前記記憶された参加者のスピーチの特徴を取得するステップを更に備える、請求項1又は2の方法。
【請求項4】
前記ビデオ会議を開始するときに前記記憶された参加者のスピーチの特徴に対応する前記記憶されたソース位置を決定するステップを更に備える、請求項1乃至3のいずれかの方法。
【請求項5】
前記ビデオ会議の最中に前記記憶された参加者のスピーチの特徴を取得するステップを更に備える、請求項1又は2の方法。
【請求項6】
前記ビデオ会議の最中に前記記憶された参加者のスピーチの特徴に対応する前記記憶されたソース位置を決定するステップを更に備える、請求項1、2及び5のいずれかの方法。
【請求項7】
前記参加者のスピーチの特徴とソース位置を記憶する前記ステップは、
前記環境において検出されたスピーチを示す現在の音声の現在の発生源の位置を決定するステップと、
前記検出された音声の現在のスピーチ特徴を決定するステップと、
前記現在のスピーチ特徴を前記記憶されたスピーチの特徴とマッチングするステップと、
前記現在のソース位置を、前記記憶されたスピーチの特徴とマッチングするスピーチ特徴に対応するソース位置として記憶するステップと
を含む、請求項1乃至6のいずれかの方法。
【請求項8】
前記第1カメラは操舵可能なカメラであり、前記第1カメラを向ける前記ステップは、該操舵可能なカメラのパン、チルト及びズームの少なくとも1以上を調整するステップを含む、請求項1乃至7のいずれかの方法。
【請求項9】
前記環境において検出されたスピーチを示す第2音声の第2スピーチ特徴を決定するステップと、
前記記憶された参加者のスピーチの特徴のいずれかと前記第2スピーチ特徴とをマッチングするステップと、
マッチしている前記記憶された参加者のスピーチの特徴のいずれかに対応する前記記憶されたソース位置に前記第1カメラを向けるステップと
を更に備える、請求項1乃至8のいずれかの方法。
【請求項10】
前記第1カメラを向ける前に、前記第1カメラで撮影した前記第1ビデオから第2カメラで撮影した第2ビデオに出力を切り替えるステップを備える、請求項9の方法。
【請求項11】
前記第2ビデオは、前記環境の広角ビューを前記第2カメラで撮影したものである、請求項10の方法。
【請求項12】
前記第1カメラを向けた後に、前記第2ビデオから前記第1カメラで撮影した第3ビデオにビデオ会議用出力を切り替えるステップを備える、請求項9の方法。
【請求項13】
前記第3ビデオは、前記記憶されたソース位置の挟角ビューを前記第1カメラで撮影したものである、請求項12の方法。
【請求項14】
前記第1カメラを向ける前記ステップは、検出された第1及び第2音声に対応する前記記憶されたソース位置の両方に前記第1カメラを向けるステップを含む、請求項9の方法。
【請求項15】
請求項1乃至14のいずれかの方法における各ステップをプログラム可能な制御装置に実行させるためのプログラム命令を格納するプログラム格納装置。
【請求項16】
自動化されたビデオ会議のための方法であって、
或る環境におけるビデオ会議の最中に、スピーチを示す第1音声を検出するステップと、
前記第1音声の第1スピーチ特徴を決定するステップと、
前記環境における前記第1音声の第1ソース位置を決定するステップと、
前記第1ソース位置にカメラを向けるステップと、
前記第1ソース位置と共に前記第1スピーチ特徴を記憶するステップと
を備える方法。
【請求項17】
前記環境におけるスピーチを示す第2音声を検出するステップと、
前記第2音声の第2スピーチ特徴を決定するステップと、
前記第2スピーチ特徴を前記記憶された第1スピーチ特徴と比較するステップと
を更に備える、請求項16の方法。
【請求項18】
前記第2スピーチ特徴が前記記憶された第1スピーチ特徴にマッチするならば、前記記憶された第1ソース位置に前記カメラを向けるステップを更に備える、請求項17の方法。
【請求項19】
前記第2スピーチ特徴が前記記憶された第1スピーチ特徴にマッチしていないならば、
前記環境における前記第2音声の第2ソース位置を決定するステップと、
前記第2ソース位置に前記カメラを向けるステップと、
前記第2ソース位置と共に前記第2スピーチ特徴を記憶するステップと
を更に備える、請求項17の方法。
【請求項20】
パン、チルト及びズームの制御可能な少なくとも1台のカメラと、
近端の音声を捕捉するための1以上のマイクロホンと、
或る環境内の複数の参加者のスピーチ特徴を記憶し、かつ、該記憶したスピーチ特徴に対応付けられた参加者のソース位置を記憶するメモリと、
前記少なくとも1台のカメラ、前記1以上のマイクロホン、及び前記メモリに結合して動作する処理ユニットと
を備え、
前記処理ユニットは、
近端の音声の現在のスピーチ特徴を前記複数の参加者の記憶されたスピーチ特徴とマッチングし、
このマッチングに基づき、どの参加者が話しているかを判定し、
話していると判定された参加者に対応付けられた前記記憶されたソース位置を取得し、
該取得したソース位置に前記少なくとも1台のカメラを向ける
という動作を行うことを特徴とするビデオ会議装置。

【図1A】
image rotate

【図1B】
image rotate

【図1C】
image rotate

【図1D】
image rotate

【図1E】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図5】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図7A】
image rotate

【図7B】
image rotate

【図8A】
image rotate

【図8B】
image rotate

【図8C】
image rotate

【図9A】
image rotate

【図9B】
image rotate

【図10】
image rotate

【図11A】
image rotate

【図11B】
image rotate

【図11C】
image rotate

【図12A】
image rotate

【図12B】
image rotate

【図12C】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2011−244456(P2011−244456A)
【公開日】平成23年12月1日(2011.12.1)
【国際特許分類】
【出願番号】特願2011−110882(P2011−110882)
【出願日】平成23年5月17日(2011.5.17)
【出願人】(509270096)ポリコム,インク. (18)
【Fターム(参考)】