ビデオ会議のための自動カメラ選択
【課題】ビデオ会議において適切にカメラを選択する。
【解決手段】ビデオ会議用のカメラに関連した複数の音声入力の各々が、第1および第2の周波数範囲のそれぞれについての第1および第2の音声エネルギに処理(加工)される。カメラ選択は、前記音声入力のうちのどれが、前記第2の音声エネルギに対する前記第1の音声エネルギの比率が最も高いかが判定し、ビデオ会議のための映像を出力するための関連したカメラ視野を選択する。さらに、前記選択は、単独でまたは音声処理との組合せで、前記カメラからの映像入力を処理することができる。いずれにしても、前記選択は、少なくとも1つの顔の特性について各前記映像入力を処理し、前記映像入力のうちのどれが人の顔を映している可能性が最も高いかを判定する。結局、前記選択は、少なくとも部分的にこの映像に基づく判定に基づいて、ビデオ会議のための映像を出力するための関連したカメラ視野を選択する。
【解決手段】ビデオ会議用のカメラに関連した複数の音声入力の各々が、第1および第2の周波数範囲のそれぞれについての第1および第2の音声エネルギに処理(加工)される。カメラ選択は、前記音声入力のうちのどれが、前記第2の音声エネルギに対する前記第1の音声エネルギの比率が最も高いかが判定し、ビデオ会議のための映像を出力するための関連したカメラ視野を選択する。さらに、前記選択は、単独でまたは音声処理との組合せで、前記カメラからの映像入力を処理することができる。いずれにしても、前記選択は、少なくとも1つの顔の特性について各前記映像入力を処理し、前記映像入力のうちのどれが人の顔を映している可能性が最も高いかを判定する。結局、前記選択は、少なくとも部分的にこの映像に基づく判定に基づいて、ビデオ会議のための映像を出力するための関連したカメラ視野を選択する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオ会議のための自動カメラ選択に関する。
【背景技術】
【0002】
ビデオ会議中に話をする参加者の制限された表示画像は、室内または他の環境において利用されるほとんどのビデオ会議にとって従来より継続している未解決の課題である。例えば、図1Aは、典型的な構成からなるビデオ会議室の平面図である。1つのカメラ14の上には、ビデオ会議システム10用のディスプレイ12が取り付けられている。前記カメラ14によって捕捉された映像が遠端に送られると、該遠端における表示は、該カメラ(すなわち、東側のカメラ)の映像に制限される。南側の椅子に座っている参加者が前記ビデオ会議室内の他の人に話しかけている場合、前記遠端の視聴者は、前記話し手のより理想的な正面画像とは異なる横顔画像を見ることになる。これは、前記カメラ14のパン、チルトおよびズームが制御可能である場合も同様である。結局、前記参加者の制限された画像は、前記遠端の視聴者にとって望ましくない。
【0003】
これらの問題点を軽減するために、前記ビデオ会議システム10は、図1Bに示すように、前記ビデオ会議環境に多数のカメラ14を使用することができる。ここで、参加者のより多くの画像を得るために前記会議室の周囲に多数のカメラ14(N,S,E,W)が配置される。テーブル上のマイクロホンポッド16の複数のマイクロホンで受け取ったフルバンド(full-band)エネルギを使用することによって、前記システム10は、現在話している参加者の方向を知ることができる。これを実現するために、最大のエネルギを取得する前記ポッド16におけるマイクロホンは、現在の話し手の方向を示すことができる。これに基づき、前記システム10は、前記方向に対応付けられた画像を有するカメラ14(N,S,E,W)を選択する。
【0004】
不幸にも、エネルギだけが、話し手が話している間に該話し手の頭がどの方向に向いているのかを示す信頼できるインジケータではない。例えば、南側の椅子に座っている参加者が話し中である場合、前記マイクロホンポッド16から判定された最大の音声エネルギを有する方向が、北側のカメラ14Nが該参加者の最良の画像を得るものであることを示す。これに基づいて、前記ビデオ会議システム10は、前記北側のカメラ150Nを映像(ビデオ)出力用に選択する。
【0005】
しかしながら、実際には、前記南側の椅子に座っている参加者は、彼の頭を東側の椅子に座っている参加者の方向またはディスプレイ12の方向に向けて彼の話を東方向に向けながら話すこともある。前記テーブルにおけるマイクロホンの最強のエネルギに依存する前記ビデオ会議システム10は、前記参加者の頭がどのように向きを変えているかを判定できない。前記参加者は東方向(東側の椅子またはディスプレイ12の方向)に向いているが、前記ビデオ会議システム10は、該参加者が話している際、彼の横顔の画像を北側のカメラ14Nから送る。そして、遠端の視聴者には、話している前記参加者のより望ましくない画像が与えられることになる。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は上述の問題の少なくとも1つを解決する、あるいは少なくとも軽減するためになされたものである。
【課題を解決するための手段】
【0007】
自動化されたビデオ会議技術を実行するための方法、プログラマブル記憶装置およびビデオ会議装置が開示される。本発明に係るビデオ会議装置は、様々なマイクロホンに接続されたオーディオインターフェースを使用して、ビデオ会議のための音声入力を得る。前記音声入力の各々は、複数のカメラのうちの1つに対応づけられている。例えば、様々なカメラは、ビデオ会議環境の周りに任意に配置されてよく、前記カメラの各々には、1または複数のマイクロホンを近接度によって対応付けることができる。
【0008】
閾値判定として、前記装置は、先ず、前記音声入力の各々を処理する前に、スピーチを示す音声を検出する。このために、人のスピーチに関する予想レベルおよび予想周波数にある音声エネルギを検出するスピーチ検出技術を使用することができる。
【0009】
いずれにせよ、前記装置は、前記音声入力の各々を、第1および第2の周波数範囲についての第1および第2の音声エネルギに処理する。一般的に、前記第1の周波数範囲は、前記第2の周波数範囲より高い。より具体的には、前記第1の周波数範囲は約4000Hz〜約7000Hzであってよく、前記第2の周波数範囲は約500Hz〜約1000Hzであってよい。
【0010】
前記エネルギを判定した後、前記装置は、前記音声入力のうちのどれが、これらの異なるエネルギの最大比率を有するのかを判定する。この比率の判定結果を使用して、前記装置は、前記ビデオ会議のための映像を出力するために、前記最大比率に対応したカメラを選択する。話し中の人の頭の方向は高い周波数でより適切に識別され得るので、前記選択されたカメラは、現在話し中のビデオ会議参加者の顔の方向に向くことが可能な視野を有する可能性が高い。
【0011】
前記ビデオ会議が進行するのに伴い、前記装置は、どの参加者が話し中なのか、および、参加者がどのカメラの方向に向いていると判定されるのかに応じて、出力のために前記様々なカメラ間の切り替えを行うことができる。この音声に基づくカメラの判定は、単独で使用されてもよいし、以下に記載する映像に基づく決定と共に使用されてもよい。同様に、前記映像に基づく判定も単独で使用されてよい。
【0012】
前記映像に基づく解決策において、前記装置は、各々が前記カメラのうちの1つに関連した映像入力を得る。これらから、前記装置は、少なくとも1つの顔の特性について前記映像入力の各々を処理し、前記映像入力のどれが人の顔を映している可能性が最も高いのか判定する。少なくとも部分的にこの映像判定に基づいて、前記装置は、前記ビデオ会議の映像を出力するためのカメラを選択する。一般的に、前記顔の特性は、前記人の顔の特徴、人の肌を示す色合い、カメラの視野にある人の動き、および、これらの組合せを含むことができる。前記音声に基づく判定と共に使用される場合、この映像に基づく判定は、前記カメラ選択の精度を更に上げることができる。
上記した概要は、本発明の各潜在的な実施の形態および特徴を要約することを意図するものではない。
【図面の簡単な説明】
【0013】
【図1A】従来のビデオ会議システムの配置構成を有するビデオ会議室の平面図。
【0014】
【図1B】従来のビデオ会議システムの他の配置構成を有するビデオ会議室の平面図。
【0015】
【図2】本発明に従うビデオ会議システムを有するビデオ会議室の平面図。
【0016】
【図3A】本発明のある特定の教示内容に従うビデオ会議システムを示す図。
【0017】
【図3B】図3Aのビデオ会議システムの構成要素を示す図。
【0018】
【図4】前記本発明に従うビデオ会議システムのためのマイクロホン、カメラおよび制御モジュールの配置構成を略示する図。
【0019】
【図5A】前記本発明に従うビデオ会議システムの前記制御モジュールによって実行される音声に基づくカメラ選択処理を略示する図。
【0020】
【図5B】音声の音声周波数が、周波数スペクトルおよび発声について、どのように方向情報に関係するのかを示す図。
【0021】
【図6】前記本発明に従うビデオ会議システムの前記制御モジュールによって実行される映像に基づくカメラ選択処理を略示する図。
【0022】
【図7】前記カメラ選択技術をより詳細に説明するために役立つよう、参加者に対するカメラおよびマイクロホン、ならびに、マイクロホンポッドの他の配置構成示す図である。
【0023】
【図8A】図7の配置構成における参加者のカメラ画像の例を示す図。
【図8B】図7の配置構成における参加者のカメラ画像の例を示す図。
【0024】
【図9A】カメラ、マイクロホンならびにカメラ操作および処理要素を有するカメラモジュールを示す図。
【0025】
【図9B】図9Aにおけるカメラモジュールからの捕捉画像を示す図。
【発明を実施するための形態】
【0026】
A. 多数のカメラおよびマイクロホンを有するビデオ会議システムの概略
図2は、本発明に従うビデオ会議システム100を有するビデオ会議室の平面図である。前記システム100は、前記会議室の周囲に配設された多数のカメラ150(N,S,E,W)を有する。4つのカメラ150(N,S,E,W)が示されているが、実施の態様に応じて4つ未満または4つを超えるカメラが使用されてよい。例えば、1つの制御可能なカメラ150が多数のカメラ画像を担当してもよい。
【0027】
さらに、図2における前記カメラ150は、前記会議室の周囲に、対象的にまたは組織化された状態で配列されている。前記ビデオ会議システム100は、様々異なる画像を得るために多くの位置にカメラ150が配設された状態に、任意に設定可能であり、前記配列は、異なるビデオ会議に応じて、または、ビデオ会議が進行するのに応じて変化してよい。故に、本出願の開示内容は多数の任意の配列に適用可能であり、図示のビデオ会議システム100の規則正しい、予め設定された配置のみに適用される必要はない。
【0028】
一般的に、前記カメラ150は、ビデオ会議に利用可能ないかなる適当なカメラであってよく、固定された視野を有するものであってよく、または、可動のパン・チルト・ズーム(PTZ)カメラもしくは電子パン・チルト・ズーム(EPTZ)カメラを含むものであってよい。従って、前記ビデオ会議システム100は、当該技術において公知の自動化技術に従って、様々なカメラ150のパン、チルトおよびズームを命令する特徴を含んでいてよい。例えば、任意のカメラ150が、音源を検出し位置を特定し、該音源を映すために必要なパン、チルトおよびズームを自動的に実行することができるものであってよい。
【0029】
各前記カメラ150には、1または複数のマイクロホン160(N,S,E,W)が対応付けられている。これらのマイクロホン160は、前記カメラ150に対して別体に取り付けられていてよく、または、所望の場合には前記カメラ150に組み込まれていてもよい。前記カメラ150に組み込まれている場合、前記対応付けられたマイクロホン160は、前記カメラ150が公知の技術を使用して自動的に音源にパン、チルトおよびズームできるよう、前記音源の方向を検出するために使用されることができる。しかしながら、概して、前記対応付けられたマイクロホン160は、前記室内において任意に配置されてよい。従って、特定のカメラ150に接近したこれらのマイクロホン160は、該特定のカメラ150に対応付けられる。このような対応付けは、前記会議室のために予め設定されていてよく、または、前記システム100のユーザによってマニュアルに設定されてよく、または、ピング(ping)音声信号、赤外線信号等の自動検出技術を使用して前記システム100によって自動的に検出されてよい。
【0030】
さらに、マイクロホンポッド128は、ビデオ会議のための主要音声を得るために前記テーブル上で使用可能である。このようにして、カメラに対応付けられたマイクロホン160は、ここで開示するカメラ方向およびカメラ選択について使用可能である。もちろん、前記システム100は、ここで開示する会議音声およびカメラ選択の両方について前記カメラに対応付けられたマイクロホン160のみを使用してもよい。
【0031】
ビデオ会議時において、前記カメラおよびマイクロホンの信号は、前記ビデオ会議システム100に送られる。前記信号を処理すると、前記ビデオ会議システム100は、どのカメラ画像を通信ネットワークを介して前記遠端(図示せず)に出力すべきかを選択する。後述するように、前記カメラ選択は、どの参加者が話しているのか、および、参加者がどちらを向いているのかに応じて決まる。前記ビデオ会議システム100がどのカメラ視野(画像)を選択すべきかを判定する方法を説明する前に、前記ビデオ会議システム100の更なる詳細を図3Aおよび3Bを参照して説明する。
B. ビデオ会議システムの詳細
【0032】
図3Aに示すように、前記ビデオ会議システム100は、ネットワーク22を介して1または複数のリモートエンドポイントと通信する。いくつかの一般的な構成要素の例として、前記システム100は、オーディオコーデックを有するオーディオモジュール120と、ビデオコーデック132を有するビデオモジュール130とを含む。これらのモジュール120,130は、制御モジュール140とネットワークモジュールとに接続されている。前記制御モジュール140は、独立した別体の構成要素であってもよく、または、前記システム100に組み込まれていてもよい。
【0033】
ビデオ会議時において、前記カメラ150は、映像を捕捉し、該捕捉した映像を処理するために前記ビデオモジュール130およびコーデック132に送る。さらに、前記マイクロホン128/160は、音声を捕捉し、該音声を処理するために前記オーディオモジュール120およびコーデック122に送る。前述の如く、前記マイクロホンポッド128はテーブル上に載置可能であり(または天井マイクロホンポッドが使用されてもよい)、前記システム100は、主に会議音声を得るために、前記マイクロホンポッド128によって捕捉された音声を使用してよい。
【0034】
それとは別に、前記マイクロホン160は、音声を捕捉するために前記カメラ150に対応付けられており、上述の如く処理のために該捕捉した音声を前記オーディオモジュール120に送る。例えば、各カメラ150は1または複数の前記マイクロホン160を有していてもよく、前記対応付けられたマイクロホン160は、ビデオ会議時に音声源の位置を検出できるよう直交配列されていてよい。代案として、前記マイクロホン160は、前記カメラ150とは別個の構成要素であってもよく、前記カメラ150に対する接近度合に基づいて該カメラ150と対応付けられるものであってもよい。一般的に、前記ビデオ会議システム100は、会議音声を得るためではなく、主にカメラトラッキングおよびカメラ選択目的のために、これらのマイクロホン160からの音声を使用してもよい。しかし、前記マイクロホン160からの音声を会議に使用してもよい。
【0035】
例えば、前記カメラトラッキングのために、前記ビデオ会議システム100は、前記マイクロホンポッド128/160によって拾われた音声信号、および、前記カメラ150によって生成された映像信号を処理して、ビデオ会議中に話している参加者の位置を判定することができる1または複数のカメラコントローラ152を有していてよい。前記1または複数のカメラコントローラ152は、前記カメラ150とは別体でも、該カメラユニットに組み込まれていても、または、前記ビデオ会議システム100の一部であってもよい。このようにして、自動カメラ制御を使用する前記ビデオ会議システム100は、参加者の顔の正確な位置を判定することができ、この位置に自動的に“ズームイン” することができる。これを実現するためのシステムの一例は、“Method And Apparatus for Localization of an Acoustic Source”というタイトルの米国特許NO.5,778,082、“Locating an Audio Source”というタイトルの米国特許NO.6,593,956、“Automatic Camera Tracking using Beamforming”というタイトルの米国特許NO.6,980,485に開示されており、これらの文献は、その出典を示すことによってこの明細書の一部とされる。これらのおよびその他の公知技術は、ここで説明される本発明のカメラ選択技術と共に採用可能である。
【0036】
音声および映像が捕捉されると、前記システム100は、MPEG-1, MPEG-2, MPEG-4, H.261, H.263およびH.264等の一般的なエンコード基準のいずれかを使用して該音声および映像の信号をエンコードする。そして、ネットワークモジュール166は、任意の適当なプロトコルを使用して、ネットワーク22を介して前記エンコードされた音声および映像をリモートエンドポイント20に出力する。同様に、前記ネットワークモジュール166は、前記ネットワーク22を介して前記リモートエンドポイント20から会議音声および映像を受信して、処理のために該会議音声および映像をそれぞれのコーデック122,132に送る。そして、スピーカ126は会議音声を出力し、ディスプレイ134は会議映像を出力する。これらのモジュールおよび他の構成要素の多くは当該技術分野で周知の一般的な方法で動作可能であるので、ここでは更なる詳細を述べない。
【0037】
従来より公知の特徴とは対照的な、前記システム100は、前記制御モジュール140を使用して、自動的で調和された方法で、前記カメラ150からの映像出力を選択する。一般的に、前記システム100は、ビデオ会議中の任意の特定の時点において、前記数個のカメラ150のうちの1つからの映像のみを出力し、好ましくは、前記出力用の映像は、現在話しているビデオ会議参加者を捕捉するものである。前記ビデオ会議が進行するのに伴い、前記システム100からの出力映像は、随時、どの参加者が話し中かに応じて随時、前記カメラ150の画像を切り替えることができる。
【0038】
前記カメラ150によって捕捉された画像を選択して出力するために、前記システム100は、音声に基づくロケータ(locator)142および映像に基づくロケータ144を使用して、参加者の位置を検出し、前記会議室と参加者との画像を映す。その後、前記音声およびビデオモジュール120,130に接続された前記制御モジュール140は、前記ロケータ142、144からの音声および/または映像情報を使用して、出力すべきカメラ150の視野(画像)を選択し、および/または、前記カメラ150の方向および該カメラ150が捕捉する画像を変更するためのカメラコマンドを出力する。
【0039】
例えば、後述する如く、前記制御モジュール140は、遠隔のマイクロホン160から前記音声に基づくロケータ142によって処理された音声情報を使用する。非スピーチ関連の音声に焦点が合うのを回避するために、前記音声に基づくロケータ142は、スピーチ検出器143を使用して、前記マイクロホン160からの捕捉された音声におけるスピーチを検出する。ビデオ会議中にノイズまたは外部音が無視され得るよう、該スピーチ検出技術は、人間のスピーチに関して予想されるレベルおよび周波数範囲の音声エネルギを検出することができる。
【0040】
前記制御モジュール140は、前記音声に基づくロケータ142からの現在の話し手の検出された位置を使用して、最良の視野のカメラ150に切り替え、および/または、該最良の視野のカメラ150を前記現在の話し手に向ける。後で更に詳述するように、前記制御モジュール140は、前記カメラ150からの画像を使用して前記映像に基づくロケータ144によって処理された映像情報を使用して、前記参加者の位置を検出し、前記映像のフレーミングを決定し、前記カメラ150を前記参加者の顔に向ける。
【0041】
図3Bは、図3Aのビデオ会議システム100のための構成要素のいくつかの例を示す。図示し上述したように、前記システム100は、2個または3個以上のカメラ150、および、数個のマイクロホン128/160を有する。さらに、前記システム100は、処理ユニット110と、ネットワークインターフェース112と、メモリ114と、汎用入力/出力(I/O)インターフェース(I/O)118とを有しもこれらの構成要素のすべてはバス111を介して接続されている。
【0042】
前記メモリ114は、SDRAMのような一般的なメモリであってよく、前記システム100を制御するためのソフトウエアおよびファームウエアからなるモジュール116を記憶することができる。上述したビデオコーデックおよびオーディオコーデックならびにその他のモジュールに加えて、前記モジュール116は、オペレーティングシステム、ユーザが前記システム100を制御することを可能にするグラティカルユーザインターフェース(GUI)と、後述するように音声/映像信号を処理し前記カメラ150を制御するためのアルゴリズムを有する。
【0043】
前記ネットワークインターフェース112は、前記システム100とリモートエンドポイント(図示せず)との間における通信を提供する。一方、前記汎用I/Oインターフェース118は、キーボード、マウス、プリンタ、オーバヘッドプロジェクタ、ディスプレイ、外部スピーカ、追加的なカメラ、マイクロホンポッド等のローカル装置とのデータ送信を提供する。前記システム100は、内部スピーカ126を更に含む。
【0044】
前記カメラ150および前記マイクロホン160は、前記ビデオ会議環境において映像および音声をそれぞれ捕捉し、前記バス111を介して前記処理ユニット110に送信される映像および音声信号を生成する。ここで、前記処理ユニット110は、前記モジュール116におけるアルゴリズムを使用して、前記映像および音声を処理する。例えば、前記処理ユニット110は、前記カメラ150によって捕捉された映像のみならず前記マイクロホン128/160によって捕捉された音声を処理して、参加者の位置を検出し、前記カメラ150の画像を導く。最後に、処理された音声および映像は、前記インターフェース112、118に接続されたローカルおよびリモートの装置に送られることができる。
【0045】
上述した前記ビデオ会議システム100の理解に基づいて、前記ビデオ会議システム100が、いかにして、音声および映像に基づく技術を使用して、ビデオ会議中に現在話している参加者を捕捉する最良のカメラ視野(画像)を選択するのかを説明する。
C. ビデオ会議システムのためのカメラ選択
【0046】
上述したように、ビデオ会議中の前記カメラおよびマイクロホンの信号は、前記ビデオ会議システム100の前記制御モジュール140に送られる。これは、図2の構成例に基づく図4に略示されている。前記制御モジュール140は、前記ビデオ会議のための捕捉映像供給を現在話している参加者の顔に向けられたカメラ150に切り替える。前記カメラ選択の結果、前記制御モジュール140は、前記選択されたカメラ150からの捕捉された映像を、遠端に対する出力として送信するために、前記システムのビデオエンコーダ170に導く。
【0047】
従来より行われていたようにどのマイクロホンが最強のエネルギを有するのかに基づいてカメラ視野(画像)を選択する代わりに、前記制御モジュール140は、現在話している参加者が実際どのように向いているのかを判定する。このようにして、図2の南側の椅子に座っている参加者が彼の顔を東側の椅子またはディスプレイ(134)に向けて話している場合、前記制御モジュール140は、前記マイクロホンポッド(128)によって検出されたマイクロホンエネルギはそうでない旨示しているかもしれないが、前記参加者の映像を捕捉するために東側のカメラ(160E)をより適切に選択することができる。これ行うために、前記制御モジュール140は、図4のカメラ選択処理146を使用して、前記参加者が話し中にどのカメラ方向に向いているのかを判定する。
【0048】
一配置構成例において、前記カメラ選択処理146は、前記会議室内において前記マイクロホン(128/160)によって捕捉された音響特性に基づく音声に基づく処理200を使用して、前記参加者がどのカメラ方向に向いているのかを判定することができる。図5A〜5Bは、前記音声に基づく処理200の特徴を示す。前記音声に基づく処理200に代えて、または、該音声に基づく処理200と併せて、前記カメラ選択処理146は、前記様々なカメラ(150)によって捕捉された映像に基づく処理300を使用する。図6は、前記映像に基づく処理300の特徴を示す。
1. 音声に基づく選択処理
【0049】
図5Aは、前記制御モジュール140によって実行される前記音声に基づくカメラ選択処理200の一例を略示する図である。前記様々なカメラ(150)に対応付けられたマイクロホン(160)からの音声信号206(N, S, E, W)は、前記システム(100)に対する入力として到達し、前記システムの音声構成要素のうちのフィルタバンク210は、前記入力した音声信号206の各々を適当な周波数帯域にフィルタする。前記音声信号206をフィルタするために、任意の数の適当な周波数帯域が用いられてよく、好ましくは、前記周波数帯域およびそれらの範囲は、ここで開示されたスピーチ処理および検出目的を容易にする。
【0050】
前記様々な帯域における音声は適当な間隔(一般的には20 ms)でサンプリングされ、該サンプルのエネルギレベルが、当該技術分野で公知の技術を使用して計算される。このようなサンプリングおよび計算によって得られたエネルギレベル信号212は、後の処理に使用される。前記サンプリングおよびエネルギレベル計算は、この例の場合、北、南、東および西を含む方向の前記対応付けられたマイクロホン(160)およびそれらの信号206毎に行われるが、任意の配置構成が適用されてよい。
【0051】
この時点において、前記音声に基づくカメラ選択処理200は、エネルギレベル信号212(N, S, E, W)の各々の比較処理220を行う。ここでは、前記比較処理220は、2つの異なる周波数範囲222, 224における各エネルギレベル信号212を比較する。この比較処理において、ある特定の信号212の高周波数範囲222におけるエネルギは、該特定の信号212の低周波数範囲224におけるエネルギと比較される。後述のように、前記周波数範囲は、話をしている参加者がどの方向に向いているのかを最適に判定するよう選択される。
【0052】
図5Bに示されるように、人間の声の方向(従って、人が向いている方向)は、低周波数より高周波数において最適に判定される。例えば、図5Bにおいて、曲座標グラフは、様々な周波数および様々異なる発声での水平面内における人の声の方向を示す。この例において、前記人の声は様々異なる母音で歌っており、前記曲座標グラフは、2007年9月にマドリードで行われた第19回International Congress on Acoustics (ICA'2007)の議事録における、Katz, Brian F.G. & d'Alessandro, Christopheの“Directivity Measurements of the Singing Voice”から得られる。
【0053】
これらの曲座標グラフが示すように、発声時における人の頭の方向は、高周波数で最適に判定され得る。例えば、160Hzの周波数において、前記曲座標グラフは、前記音声は一般的に無指向性であることを示す。これに対して、8,000Hzの周波数の前記曲座標グラフは、かなりより指向性がある。
【0054】
この相関関係に基づいて、図5Aの音声に基づくカメラ選択処理200は、前記マイクロホン(160)によって捕捉された人の声の音声周波数を、前記参加者の頭の方向情報に関連付ける。この目的のために、前記比較処理220は、前述の如く、周波数のスペクトラムを使用し、各前記マイクロホン(160)における低周波音響エネルギ224に対する高周波音響エネルギ222の比率を比較する。一般的に、高周波数範囲は約2,500Hzの閾値より高く、低周波数範囲は前記閾値より低い。
【0055】
しかしながら、実験的に、各カメラ(150)に対応付けられたマイクロホン(160)に関して、約500Hz〜1000Hzの低周波エネルギ224によって除算された約4000Hz〜7000Hzの高周波エネルギ222のエネルギ比率を採用することによって、最大のエネルギ比率を有するカメラ(150)は、話し中の参加者が向いているカメラ(150)である可能性が高い、ということが分かった。これらの周波数範囲は、ビデオ会議環境におけるスピーチに特に適しているということが分かった。しかしながら、前記周波数範囲は、実施の態様に応じて可変であり、会議エリアの大きさ、参加者の数、使用されるマイクロホンの数等に基づいて可変である。
【0056】
従って、前記比較処理220は、前記北側のカメラに対応付けられたマイクロホンの約4000Hz〜7000Hzの第1の高周波音響エネルギ222を得て、これを、同じマイクロホン(160)の約500Hz〜1000Hzの低周波音響エネルギ222で割る。その結果230において、得られた比率値R1は、対応する前記カメラ位置(すなわち、北側のカメラ)に対応付けられて記憶される。そして、前記処理200は、前記結果230において最高の比率Rを有するカメラ(150)が現在話し中の参加者に向いているカメラである可能性が最も高いので、該最高の比率Rを有するカメラ(150)を選択する。
【0057】
図2に戻り、前記カメラ150が選択されたので、前記制御モジュール140は、該選択されたカメラ150からの捕捉映像が前記遠端への出力の一部となるよう、前記システム100の処理を指示する。もちろん、前記制御モジュール140は、スイッチングの前に遅延を実現でき、前記結果を確認でき、カメラ映像間の誤ったまたは頻繁なスイッチングを回避するための他の共通機能を実行する。同様に、上述した自動カメラ制御処理は、前記参加者を最適に撮影するために、前記選択されたカメラ(150)のパン、チルトおよびズームを制御することができる。全体的に見れば、前記カメラ画像間のスイッチングは、好機を捉えた且つ自然なものになるよう、また、該カメラ画像等における頻繁な変更を回避することを目的としている。
2. 映像に基づく選択処理
【0058】
上述した音響構成に代えて、または、該音響配置構成と共に、前記制御モジュール140は、前記様々なカメラが補足した映像に基づいて映像に基づく選択処理300を使用することができる。図6において、この映像に基づく選択処理300の詳細が示されている。
【0059】
この処理300において、前記様々なカメラ(150)(例えば、N,S,E,W)の各々からの映像信号305が、ビデオインターフェース310に対する入力として入力される。そして、前記ビデオインターフェース310は、前記入力された映像信号305に対して、顔認識312のための映像(ビデオ)処理を実行する。この映像処理は、前記補足した映像が人の顔を含んでいるか否かを示す態様で、動き検出、肌の色合い検出、顔検出および他のアルゴリズムを使用して前記映像信号305を処理する。
【0060】
例えば、前記ビデオ処理は、前記カメラの視野における顔を検出しその位置を特定するための顔認識技術を使用できる。これを行うために、人の肌の色合いを含む可能性がある領域を見つけることによって顔を見つけ、そして、これから、カメラ視野内の顔の位置を示す領域を見つける。肌色合いおよび顔検出(ならびに音声位置特定)に関する詳細は、ここにその出典を示すことによって本明細書の一部とする“Locating an Audio Source”というタイトルの米国特許No.6,593,956に開示されている。
【0061】
さらに、前記顔認識312のためのビデオ処理は、現在のカメラ視野が実際に人の顔を有する画像を映していることを確認することによってトラッキング精度を上げる顔検出または顔発見アルゴリズムを使用することができる。前記顔検出は、顔正面画像を検出でき、該顔の左右の側面画像を検出できる。映像による顔検出に利用可能なアルゴリズムの1つは、リアルタイムコンピュータ映像のためのプログラミング機能のライブラリであるOpenCV(Open Source Computer Vision)である。顔認識のためにはOpenCVが好ましいが、当該技術において利用可能な多数のアルゴリズムのうちの任意のものが使用可能である。
【0062】
このような顔認識処理を使用して、話し中の参加者が向いているカメラ(150)は、正面顔検出器の最も高い信頼スコアを有することになる。顔認識は、正面顔の捕捉画像を判定する際に最適に作用するので有用である。前記顔の他の方向はより低い信頼度で検出されるので、前記顔認識は、処理中の捕捉カメラ画像の閾測定として使用可能である。
【0063】
さらに、前記顔認識312のためのビデオ処理は、当該技術において公知の技術を使用して、前記映像信号305における肌の色合いを検出でき、現在の画像における動きをチェックするために、前記カメラ(150)によって捕捉された映像に対して、動き検出アルゴリズムを実行することができる。これらの技術の一例として、顔の像は、前記カメラ(150)によって捕捉された画像のフレームにおいて肌色を有する領域を特定することによって検出される。簡単に言うと、前記ビデオ処理は、1つのフレームまたは1つのフレームの一部内のクロミナンス値の平均値をとることができる。前記平均値が肌の色合いに対応付けられた範囲内にある場合、前記フレームまたは該フレームの一部は、肌の色合いの特性を有すると考えられる。また、前記カメラ(150)によって捕捉された映像は、例えば、前記映像のフレームを前の映像のフレームと比較して前記映像における動きによる変化(おそらく参加者の動きによるもの)を検出することによって検出された、動いている顔を示すことがある。
【0064】
顔認識312のためのこれらの技術の1または複数を使用して、前記処理300は、関連したカメラ(150)に関する顔重み付け値314を算出する。この顔重み付け値314は、前記処理の結果がどのようにして得られるかに応じて、任意の数の態様で算出可能である。このように、顔重み付け値314を決定するために、閾値、信頼レベル、比較値、平均値またはその他を使用可能である。
【0065】
その後、前記処理300は、これらの顔重み付け値314を使用して比較を行い、比較結果335において、現在の話し手の顔を映している可能性が最も高いカメラ(150)を見つける。結局、少なくとも部分的にこれらの比較結果に基づいて、カメラ選択340がなされ得る。
【0066】
前記映像に基づく処理300は全面的に映像に基づくことができるが、2つ以上のカメラ(150)が1人の参加者の顔を映していてよく、顔認識312のみでは該人が現在話しているか否かを判定できないかもしれない。故に、音声に基づく処理320を、前記映像に基づく選択に対する付加として、図6の処理300に含めることができる。このため、音声信号322がオーディオインターフェース324に入力可能であり、ここで開示された技術に従う処理が該入力された音声信号の音声エネルギを判定でき、その後、該音声エネルギが前記比較330に使用され得る。前記音声に基づく処理320は、ここで開示された様々な技術のうちのいずれかを使用して、当該会議でどの参加者が話しているのかを判定し、該参加者がどの方向を向いているのかを判定することができる。これは、従来のビーム形成技術、または、図5Aの周波数エネルギ比率比較(220)を含むことができる。
【0067】
一例として、例えばテーブル上のマイクロホンポッド(128)における捕捉エネルギは、どの人が話し中なのかを示すことができ、この情報は、前記カメラ選択340についての結果335をより高精度にするために、前記ビデオ処理と共に前記比較330に組み込むことができる。故に、前記顔認識312のためのビデオ処理は、潜在的に南側の椅子および西側の椅子の参加者を映す図2の北側のカメラ150Nおよび東側のカメラ150Eに高い顔重み付け値を与える。その場合、前記マイクロホンポッド128からの音声を使用する前記音声処理は、南側の椅子の参加者が現在話し中であることを示す。このようにして、前記システム100は、前記北側のカメラ150Nを選択することができる。
【0068】
代案として、前記マイクロホンポッド128からの音声信号を使用する前記音声処理が南側の椅子の参加者が現在話し中であることを示す場合、前記カメラ(150)間における顔認識重み付け値314は、他のカメラとは対照的に、前記南側の椅子の参加者が東側のカメラ(150E)に向いていることを示す。前記東側のカメラ(150E)からの映像についての顔重み付け値は、前記話し手が他のカメラとは対照的にこの東側のカメラ(150E)に向いている高い可能性を示ので、そうことになる。
【0069】
上述の如く、前記マイクロホンポッド(128)における捕捉エネルギおよびビーム形成は、現在の話し手がどの方向を向いているのかについての信頼できるインジケータではないかもしれない。故に、図6の前記音声に基づく処理320は、ここで記載したようなカメラに対応付けられたマイクロホン(160)を使用することができ、図5A〜5Bに記載された前記音声に基づく処理に従って、低い周波数に対する高い周波数の比率を調べることができる。そして、図6の前記音声に基づく処理320は、人が話しながらどのカメラの方に向いているのかを見つけるための他の処理レイヤを提供するために、前記比較330において、(例えば、ここで記載した顔認識またはその他を使用する)前記ビデオ処理に付加されることができる。
【0070】
そして、前記カメラに対応付けられたマイクロホン(160)における捕捉されたエネルギは、どの人が話し中なのかを示すことができ、この情報は、前記カメラ選択340についての結果335を高精度化するために、前記ビデオ処理と共に前記比較330に組み込むことができる。例えば、前記音声に基づく判定は最も確実なものではないので、前記カメラに対応付けられたマイクロホン(160)からの音声信号を使用する前記音声処理は、図2の南側の椅子の参加者が現在北側のカメラ(150N)、東側のカメラ(150E)または該2つのカメラの中間点方向に向いていることを示すかもしれない。この場合、前記顔認識312のためのビデオ処理は、北側のカメラ150Nに対して東側のカメラ(150E)より高い顔重み付け地314を与える。この場合、前記参加者は前記北側のカメラ150N方向に向いている可能性が最も高いので、前記システム100は、南側の椅子の現在の話し手の映像を出力するために前記北側のカメラ(150N)を選択する。
D. 多数のカメラおよびマイクロホンを有するビデオ会議システムの付加的な配置構成
【0071】
図2を参照して上述したように、前記カメラ150およびマイクロホン160の配置構成はかなり規則正しく対称的である。上述の如く、これは必ずしもそうではなく、前記ビデオ会議システム100は、会議環境において任意に構成されてもよい。しかしながら、ここで開示されたカメラ選択技術は、このような任意の配置構成において特に有利である。
【0072】
例えば、図7は、参加者に対して配置されたカメラ150およびマイクロホン160と、マイクロホンポッド128を有する前記システム100の他の構成例を示す図である。この配置構成例は、前記様々なカメラ150が前記部屋、テーブルおよび参加者の周りに対称的に配置されていないので、ここで開示されたカメラ選択技術を更に詳細に説明するのに役立つであろう。従って、前記カメラ150のうちの他の1つが現在話し中の参加者の前、近くまたは該話し中の参加者の方に略向いているかもしれないが、前側カメラ150(R,C,L)のうちの1つまたは横側のカメラ150Sが前記現在話し中の参加者を最適に捕捉し映すことができる。しかしながら、ここで開示された前記音声および/または映像に基づく処理を使用して、前記ビデオ会議システム100および制御モジュール140は、このおよび他の同等の構成において、よりきめ細かいカメラ選択を実現できる。
【0073】
1つの簡易な例において、参加者P3が話し中であるとする。マイクロホンポッド128を使用する通常のビーム形成技術は、前記話し中の参加者P3の前記ポッド128に対する方向を示すことによって、参加者P3が話し中であることを示す。(例えば、ビーム形成を使用した自動カメラトラッキングに関する詳細は、その出典を示すことによってこの明細書の一部とする米国特許NO.6,980,485に開示されている)。このようなカメラトラッキング技術は、横側のカメラ150Sからの画像を使用して前記参加者P3を映すために使用可能である。しかし、前記参加者P3は彼女の頭を回した(捻った)状態で話していることもあり、その場合、他のカメラによるフレーミングによって前記話し手の顔を捕捉することがより適当となる。
【0074】
前記マイクロホン160を使用して、前記制御モジュール140は、話し中の参加者P3が現在どのカメラ150の方に向いているのかを判定するここに開示された音声処理技術に基づいて、カメラ選択を行うことができる。この例において、その特定のカメラはカメラ150Lであり、ビデオ会議の映像を出力するために使用可能である。
【0075】
例えば、図8Aは、カメラ150Sおよび150Lからの画像を示す。カメラ150Sからの第1の画像は、話しながら彼女の頭を少し捻った状態の参加者P3を示し、カメラ150Nからの第2の画像は、前記話し中の参加者のより正面の像を示す。ここで開示された前記音声に基づく処理技術は、参加者P3が左側のカメラ150Lの方に向いている可能性があり、従って、前記システム100は前記ビデオ会議の映像を出力するために前記左側のカメラ150Lの視野(画像)を選択することができる旨を示すのに役立つことができる。このように選択されると、前記カメラ150Lの視野は、公知の技術を使用して、更に前記参加者P3に向いて該参加者P3を映すよう方向づけられる。もちろん、前記映像に基づく選択技術は、ここで記載したように使用されることもできる。
【0076】
他の簡易な例においては、参加者P1が話し中であるとする。マイクロホンポッド128を使用する通常のビーム形成技術は、前記話し中の参加者P1の前記ポッド128に対する方向を示すことによって、参加者P1が話し中であることを示す。これは、前方のカメラ150(R,C,L)のいずれかからの画像を使用して、前記参加者P1を映すために使用可能である。しかし、前記参加者P1は彼の頭を捻った状態で話していることもあり、その場合、他のカメラによるフレーミングによって前記参加者の顔を捕捉することがより適当となる。
【0077】
前記対応付けられたマイクロホン160を使用して、前記制御モジュール140は、話し中の参加者P1が現在どのカメラ150の方に向いているのかを判定するここに開示された前記音声処理技術に基づいて、カメラ選択を行うことができる。この例において、その特定のカメラはカメラ150Lであり、ビデオ会議の映像を出力するために使用可能である。
【0078】
例えば、図8Bは、カメラ150L,150Cおよび150Rからの画像を示す。左側のカメラ150Lからの第1の画像は、彼の頭を該カメラ150Lの方向に向けた状態の参加者P1を示し、中央のカメラ150Cからの第2の画像は、少し捻った状態の参加者P1の顔を示し、右側のカメラ150Rからの第3の画像は、より捻った状態の参加者P1の顔を示す。前記音声に基づく処理技術は、参加者P1が左側のカメラ150Lの方に向いている可能性があり、従って、前記システム100は前記ビデオ会議の映像を出力するために前記左側のカメラ150Lを選択することができる旨を示すのに役立つことができる。このように選択されると、前記カメラ150Lの視野は、公知の技術を使用して、更に前記参加者P1に向いて該参加者P1を映すよう方向づけられる。
【0079】
しかしながら、前記参加者P1の頭の方向が前記カメラ150(R,C,L) のうちの1つを断定的に選択するほど明白に識別可能でない場合、ここに記載された前記映像に基づく処理技術は、前記判定結果の精度を更に上げるよう使用され得る。特に、ここに記載された前記顔認識技術は、1つのカメラ(すなわち、150L)が、前記参加者の顔の部分的な横顔を捕捉している他のカメラ(すなわち、150R,150C)より、前記参加者の顔の正面画像を捕捉している可能性がより高い、ことを示すことができる。結局、この付加的な判定は、どのカメラ150Lを前記話し中の参加者P1の捕捉された映像を出力するために使用すべきかをより適当に示すことができる。
E. 音声/映像処理能力を有するカメラモジュール
【0080】
上述の実施の形態において、前記ビデオ会議システム100は、多数のカメラおよびマイクロホンを有し、出力用のカメラを選択するここで開示された前記音声および映像に基づく処理技術を使用した。多数のカメラおよびマイクロホン用に大きい規模で使用可能であるが、上記開示された技術は、より大きいビデオ会議システムの一部である個々のカメラモジュールを使用してより個別の態様で使用可能である。例えば、図9Aは、制御可能なカメラ450を有するカメラモジュール450とマイクロホン460のアレイとを示す。前記カメラモジュール450は、該カメラモジュール450に一体的に組み込まれ、または、該カメラモジュール450とは別体のカメラ操縦要素454および音声/映像処理要素456を有する。このような要素454,456は、より大きいビデオ会議システムの処理ユニットによって操作可能であり、または、前記モジュール450によって操作可能である。
【0081】
動作時において、前記カメラ操縦要素454は、前記マイクロホン460のアレイからの音声入力を使用して、カメラ452を話し中の参加者の方向に向ける。これは、例えば上記米国特許No.6,593,956に開示されたもののような、マイクロホンアレイによるビーム操作に向けられた技術のうちの多くを使用可能である。このような技術に加えて、前記モジュール450は、ここで開示された前記音声―映像処理技術を使用して、前記カメラ452を話し中の参加者の方向に向ける動作の精度を上げることができる。
【0082】
特に、前記音声/映像処理要素456は、様々に異なる周波数範囲についてのエネルギ比率を測定する前記音声に基づく処理を使用して、前記参加者の頭の方向を判定する。例えば、前記モジュール上における前記マイクロホン460のうちの1つからの音声が、フィルタされサンプルされることができる。高い周波数範囲(例えば、4000Hz〜7000Hz)についての第1のエネルギレベルが、判定され、話し中の参加者の頭の方向に関連付けられることができる。
【0083】
代案として、前記マイクロホン460のうちの2つ以上からの音声が、前記第1のエネルギレベルおよびより低い周波数範囲(例えば、500Hz〜1000Hz)についての第2のエネルギレベルを判定するために処理されてよい。前記第1のエネルギレベルを前記第2のエネルギレベルで割った比率の最大値を有するマイクロホン460は、どのマイクロホン460の方向に話し中の参加者の頭が向いている可能性が最も高いかを示すことができる。
【0084】
最後に、前記カメラモジュール450は、前記アレイにおける固定されたマイクロホン460とは対照的に、前記カメラ452と共に動くマイクロホン462を含むことができる。前記カメラ操縦要素454が前記カメラ452を話し中の参加者の方向に向けるのに伴い、この動くマイクロホン462からの音声は、前記高い周波数範囲および低い周波数範囲についての第1のエネルギレベルおよび第2のエネルギレベルの比率を求めるためにフィルタされ、サンプルされ得る。前記カメラ452およびマイクロホン462が動くのに伴い、前記処理要素456は、前記比率が減少する前に最大または最高のレベルに達した時を判定することができる。このような地点における前記カメラ452の位置は、該カメラ452が話し中の参加者の頭の方向と最も整列していることを示す。
【0085】
前記精度が上げられたカメラ操作を説明するのに役立つよう、図9Bは、カメラ操作および処理時における、図9Aのカメラモジュール450からの捕捉された画像を示す。該画像470に示されるように、前記カメラモジュール450は、前記話し中の参加者の画像を捕捉している。しかしながら、前記参加者の頭は、前記カメラの視野角の方向から捻られまたは少しそれる向きにある可能性がある。上述した音声―映像処理技術を使用して、前記カメラモジュール450は、前記カメラの視野角がより適当に前記参加者の頭の方向と整列するよう、カメラ452の向きを更に変え、前記参加者の頭の方向を判定する。これにより、図9Bに示すように、より高精度の画像475が得られる。
【0086】
上記の音声に基づく処理技術に加えて、ここで開示された前記映像に基づく技術も、前記カメラ452をより適切に前記話し中の参加者の顔に向けて、“ズームインし”、前記話し中の参加者のよりよい画像を得るために採用可能である。これは、例えば米国特許NO.6,593,956等のここで出典が示された開示技術、ならびに、前に開示された顔認識技術のうちの多くを使用可能である。
F. 結論
【0087】
上記から理解されるように、ここに開示された前記音声に基づくおよび映像に基づくカメラ選択技術は、話し中の参加者の映像を出力するために使用すべきカメラを判定して、前記参加者の顔を最適に捕捉するために、単独でまたは相互に組み合わせて使用可能である。ここで開示された本発明の利点により、当業者は、これらの技術がいかにしてカメラ150、マイクロホン160/128、参加者、席の配置等の任意の配置構成と共に使用可能であるかを理解することができる。
【0088】
ここで説明された操作方法の詳細における様々な変更が、次の請求項の範囲から逸脱することなく可能である。例えば、説明のためのフローチャートのステップまたは処理ステップは、ここで開示されたものとは異なる順序で上記ステップを実行してよい。代案として、いくつかの実施の形態は、ここで記載された動作を個々のステップとして組み合わせてもよい。同様に、前記方法が実施される特定の動作環境に応じて、上記ステップの1または複数が省略されてよい。
【0089】
さらに、フローチャートのステップまたは処理ステップに従う行為は、持続的なプログラマブル記憶装置上で1または複数のプログラムモジュールにまとめられた命令を実行するプログラマブル制御装置によって実行されてよい。プログラマブル制御装置は、単一のコンピュータプロセッサ、専用のプロセッサ(例えば、ディジタル信号プロセッサ“DSP”)、通信リンクによって接続された複数のプロセッサ、または、カスタム設計されたステートマシーンである。カスタム設計されたステートマシーンは、用途別の集積回路(“ASIC”)またはフィールド・プログラマブル・ゲート・アレイ(“EPGA”)を含む (しかし、これに限らない)集積回路である。プログラム命令を具体的に実施するのに適した、時にはコンピュータによって読み取り可能な媒体と呼ばれる持続的なプログラマブル記憶装置は、(固定、フレキシブルおよび着脱可能な)磁気ディスクおよびテープ、CD-ROMおよびディジタルビデオディスク(DVD)等の光媒体、電気的にプログラマブルな読み取り専用メモリ(“EPROM”) 、電気的に消去可能なプログラマブルな読み取り専用メモリ(“EEPROM”)、プログラマブルなゲートアレイおよびフラッシュ装置等の半導体メモリ装置を含む (しかし、これらに限らない)。
【0090】
好ましい実施の形態および他の実施の形態についての上記説明は、本出願人によって考えられた発明の概念の範囲または適用可能性を制限するものではない。ここに含まれる発明の概念を開示する代わりに、本出願人は添付の請求項によって提供されるすべての特許権を所望する。故に、添付の請求項は、以下の請求項またはその均等物の範囲内のすべての変形および変更を含むものである。
【符号の説明】
【0091】
100 ビデオ会議システム
120 オーディオモジュール
130 ビデオモジュール
134 ディスプレイ
140 制御モジュール
150 カメラ
160 マイクロホン
【技術分野】
【0001】
本発明は、ビデオ会議のための自動カメラ選択に関する。
【背景技術】
【0002】
ビデオ会議中に話をする参加者の制限された表示画像は、室内または他の環境において利用されるほとんどのビデオ会議にとって従来より継続している未解決の課題である。例えば、図1Aは、典型的な構成からなるビデオ会議室の平面図である。1つのカメラ14の上には、ビデオ会議システム10用のディスプレイ12が取り付けられている。前記カメラ14によって捕捉された映像が遠端に送られると、該遠端における表示は、該カメラ(すなわち、東側のカメラ)の映像に制限される。南側の椅子に座っている参加者が前記ビデオ会議室内の他の人に話しかけている場合、前記遠端の視聴者は、前記話し手のより理想的な正面画像とは異なる横顔画像を見ることになる。これは、前記カメラ14のパン、チルトおよびズームが制御可能である場合も同様である。結局、前記参加者の制限された画像は、前記遠端の視聴者にとって望ましくない。
【0003】
これらの問題点を軽減するために、前記ビデオ会議システム10は、図1Bに示すように、前記ビデオ会議環境に多数のカメラ14を使用することができる。ここで、参加者のより多くの画像を得るために前記会議室の周囲に多数のカメラ14(N,S,E,W)が配置される。テーブル上のマイクロホンポッド16の複数のマイクロホンで受け取ったフルバンド(full-band)エネルギを使用することによって、前記システム10は、現在話している参加者の方向を知ることができる。これを実現するために、最大のエネルギを取得する前記ポッド16におけるマイクロホンは、現在の話し手の方向を示すことができる。これに基づき、前記システム10は、前記方向に対応付けられた画像を有するカメラ14(N,S,E,W)を選択する。
【0004】
不幸にも、エネルギだけが、話し手が話している間に該話し手の頭がどの方向に向いているのかを示す信頼できるインジケータではない。例えば、南側の椅子に座っている参加者が話し中である場合、前記マイクロホンポッド16から判定された最大の音声エネルギを有する方向が、北側のカメラ14Nが該参加者の最良の画像を得るものであることを示す。これに基づいて、前記ビデオ会議システム10は、前記北側のカメラ150Nを映像(ビデオ)出力用に選択する。
【0005】
しかしながら、実際には、前記南側の椅子に座っている参加者は、彼の頭を東側の椅子に座っている参加者の方向またはディスプレイ12の方向に向けて彼の話を東方向に向けながら話すこともある。前記テーブルにおけるマイクロホンの最強のエネルギに依存する前記ビデオ会議システム10は、前記参加者の頭がどのように向きを変えているかを判定できない。前記参加者は東方向(東側の椅子またはディスプレイ12の方向)に向いているが、前記ビデオ会議システム10は、該参加者が話している際、彼の横顔の画像を北側のカメラ14Nから送る。そして、遠端の視聴者には、話している前記参加者のより望ましくない画像が与えられることになる。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は上述の問題の少なくとも1つを解決する、あるいは少なくとも軽減するためになされたものである。
【課題を解決するための手段】
【0007】
自動化されたビデオ会議技術を実行するための方法、プログラマブル記憶装置およびビデオ会議装置が開示される。本発明に係るビデオ会議装置は、様々なマイクロホンに接続されたオーディオインターフェースを使用して、ビデオ会議のための音声入力を得る。前記音声入力の各々は、複数のカメラのうちの1つに対応づけられている。例えば、様々なカメラは、ビデオ会議環境の周りに任意に配置されてよく、前記カメラの各々には、1または複数のマイクロホンを近接度によって対応付けることができる。
【0008】
閾値判定として、前記装置は、先ず、前記音声入力の各々を処理する前に、スピーチを示す音声を検出する。このために、人のスピーチに関する予想レベルおよび予想周波数にある音声エネルギを検出するスピーチ検出技術を使用することができる。
【0009】
いずれにせよ、前記装置は、前記音声入力の各々を、第1および第2の周波数範囲についての第1および第2の音声エネルギに処理する。一般的に、前記第1の周波数範囲は、前記第2の周波数範囲より高い。より具体的には、前記第1の周波数範囲は約4000Hz〜約7000Hzであってよく、前記第2の周波数範囲は約500Hz〜約1000Hzであってよい。
【0010】
前記エネルギを判定した後、前記装置は、前記音声入力のうちのどれが、これらの異なるエネルギの最大比率を有するのかを判定する。この比率の判定結果を使用して、前記装置は、前記ビデオ会議のための映像を出力するために、前記最大比率に対応したカメラを選択する。話し中の人の頭の方向は高い周波数でより適切に識別され得るので、前記選択されたカメラは、現在話し中のビデオ会議参加者の顔の方向に向くことが可能な視野を有する可能性が高い。
【0011】
前記ビデオ会議が進行するのに伴い、前記装置は、どの参加者が話し中なのか、および、参加者がどのカメラの方向に向いていると判定されるのかに応じて、出力のために前記様々なカメラ間の切り替えを行うことができる。この音声に基づくカメラの判定は、単独で使用されてもよいし、以下に記載する映像に基づく決定と共に使用されてもよい。同様に、前記映像に基づく判定も単独で使用されてよい。
【0012】
前記映像に基づく解決策において、前記装置は、各々が前記カメラのうちの1つに関連した映像入力を得る。これらから、前記装置は、少なくとも1つの顔の特性について前記映像入力の各々を処理し、前記映像入力のどれが人の顔を映している可能性が最も高いのか判定する。少なくとも部分的にこの映像判定に基づいて、前記装置は、前記ビデオ会議の映像を出力するためのカメラを選択する。一般的に、前記顔の特性は、前記人の顔の特徴、人の肌を示す色合い、カメラの視野にある人の動き、および、これらの組合せを含むことができる。前記音声に基づく判定と共に使用される場合、この映像に基づく判定は、前記カメラ選択の精度を更に上げることができる。
上記した概要は、本発明の各潜在的な実施の形態および特徴を要約することを意図するものではない。
【図面の簡単な説明】
【0013】
【図1A】従来のビデオ会議システムの配置構成を有するビデオ会議室の平面図。
【0014】
【図1B】従来のビデオ会議システムの他の配置構成を有するビデオ会議室の平面図。
【0015】
【図2】本発明に従うビデオ会議システムを有するビデオ会議室の平面図。
【0016】
【図3A】本発明のある特定の教示内容に従うビデオ会議システムを示す図。
【0017】
【図3B】図3Aのビデオ会議システムの構成要素を示す図。
【0018】
【図4】前記本発明に従うビデオ会議システムのためのマイクロホン、カメラおよび制御モジュールの配置構成を略示する図。
【0019】
【図5A】前記本発明に従うビデオ会議システムの前記制御モジュールによって実行される音声に基づくカメラ選択処理を略示する図。
【0020】
【図5B】音声の音声周波数が、周波数スペクトルおよび発声について、どのように方向情報に関係するのかを示す図。
【0021】
【図6】前記本発明に従うビデオ会議システムの前記制御モジュールによって実行される映像に基づくカメラ選択処理を略示する図。
【0022】
【図7】前記カメラ選択技術をより詳細に説明するために役立つよう、参加者に対するカメラおよびマイクロホン、ならびに、マイクロホンポッドの他の配置構成示す図である。
【0023】
【図8A】図7の配置構成における参加者のカメラ画像の例を示す図。
【図8B】図7の配置構成における参加者のカメラ画像の例を示す図。
【0024】
【図9A】カメラ、マイクロホンならびにカメラ操作および処理要素を有するカメラモジュールを示す図。
【0025】
【図9B】図9Aにおけるカメラモジュールからの捕捉画像を示す図。
【発明を実施するための形態】
【0026】
A. 多数のカメラおよびマイクロホンを有するビデオ会議システムの概略
図2は、本発明に従うビデオ会議システム100を有するビデオ会議室の平面図である。前記システム100は、前記会議室の周囲に配設された多数のカメラ150(N,S,E,W)を有する。4つのカメラ150(N,S,E,W)が示されているが、実施の態様に応じて4つ未満または4つを超えるカメラが使用されてよい。例えば、1つの制御可能なカメラ150が多数のカメラ画像を担当してもよい。
【0027】
さらに、図2における前記カメラ150は、前記会議室の周囲に、対象的にまたは組織化された状態で配列されている。前記ビデオ会議システム100は、様々異なる画像を得るために多くの位置にカメラ150が配設された状態に、任意に設定可能であり、前記配列は、異なるビデオ会議に応じて、または、ビデオ会議が進行するのに応じて変化してよい。故に、本出願の開示内容は多数の任意の配列に適用可能であり、図示のビデオ会議システム100の規則正しい、予め設定された配置のみに適用される必要はない。
【0028】
一般的に、前記カメラ150は、ビデオ会議に利用可能ないかなる適当なカメラであってよく、固定された視野を有するものであってよく、または、可動のパン・チルト・ズーム(PTZ)カメラもしくは電子パン・チルト・ズーム(EPTZ)カメラを含むものであってよい。従って、前記ビデオ会議システム100は、当該技術において公知の自動化技術に従って、様々なカメラ150のパン、チルトおよびズームを命令する特徴を含んでいてよい。例えば、任意のカメラ150が、音源を検出し位置を特定し、該音源を映すために必要なパン、チルトおよびズームを自動的に実行することができるものであってよい。
【0029】
各前記カメラ150には、1または複数のマイクロホン160(N,S,E,W)が対応付けられている。これらのマイクロホン160は、前記カメラ150に対して別体に取り付けられていてよく、または、所望の場合には前記カメラ150に組み込まれていてもよい。前記カメラ150に組み込まれている場合、前記対応付けられたマイクロホン160は、前記カメラ150が公知の技術を使用して自動的に音源にパン、チルトおよびズームできるよう、前記音源の方向を検出するために使用されることができる。しかしながら、概して、前記対応付けられたマイクロホン160は、前記室内において任意に配置されてよい。従って、特定のカメラ150に接近したこれらのマイクロホン160は、該特定のカメラ150に対応付けられる。このような対応付けは、前記会議室のために予め設定されていてよく、または、前記システム100のユーザによってマニュアルに設定されてよく、または、ピング(ping)音声信号、赤外線信号等の自動検出技術を使用して前記システム100によって自動的に検出されてよい。
【0030】
さらに、マイクロホンポッド128は、ビデオ会議のための主要音声を得るために前記テーブル上で使用可能である。このようにして、カメラに対応付けられたマイクロホン160は、ここで開示するカメラ方向およびカメラ選択について使用可能である。もちろん、前記システム100は、ここで開示する会議音声およびカメラ選択の両方について前記カメラに対応付けられたマイクロホン160のみを使用してもよい。
【0031】
ビデオ会議時において、前記カメラおよびマイクロホンの信号は、前記ビデオ会議システム100に送られる。前記信号を処理すると、前記ビデオ会議システム100は、どのカメラ画像を通信ネットワークを介して前記遠端(図示せず)に出力すべきかを選択する。後述するように、前記カメラ選択は、どの参加者が話しているのか、および、参加者がどちらを向いているのかに応じて決まる。前記ビデオ会議システム100がどのカメラ視野(画像)を選択すべきかを判定する方法を説明する前に、前記ビデオ会議システム100の更なる詳細を図3Aおよび3Bを参照して説明する。
B. ビデオ会議システムの詳細
【0032】
図3Aに示すように、前記ビデオ会議システム100は、ネットワーク22を介して1または複数のリモートエンドポイントと通信する。いくつかの一般的な構成要素の例として、前記システム100は、オーディオコーデックを有するオーディオモジュール120と、ビデオコーデック132を有するビデオモジュール130とを含む。これらのモジュール120,130は、制御モジュール140とネットワークモジュールとに接続されている。前記制御モジュール140は、独立した別体の構成要素であってもよく、または、前記システム100に組み込まれていてもよい。
【0033】
ビデオ会議時において、前記カメラ150は、映像を捕捉し、該捕捉した映像を処理するために前記ビデオモジュール130およびコーデック132に送る。さらに、前記マイクロホン128/160は、音声を捕捉し、該音声を処理するために前記オーディオモジュール120およびコーデック122に送る。前述の如く、前記マイクロホンポッド128はテーブル上に載置可能であり(または天井マイクロホンポッドが使用されてもよい)、前記システム100は、主に会議音声を得るために、前記マイクロホンポッド128によって捕捉された音声を使用してよい。
【0034】
それとは別に、前記マイクロホン160は、音声を捕捉するために前記カメラ150に対応付けられており、上述の如く処理のために該捕捉した音声を前記オーディオモジュール120に送る。例えば、各カメラ150は1または複数の前記マイクロホン160を有していてもよく、前記対応付けられたマイクロホン160は、ビデオ会議時に音声源の位置を検出できるよう直交配列されていてよい。代案として、前記マイクロホン160は、前記カメラ150とは別個の構成要素であってもよく、前記カメラ150に対する接近度合に基づいて該カメラ150と対応付けられるものであってもよい。一般的に、前記ビデオ会議システム100は、会議音声を得るためではなく、主にカメラトラッキングおよびカメラ選択目的のために、これらのマイクロホン160からの音声を使用してもよい。しかし、前記マイクロホン160からの音声を会議に使用してもよい。
【0035】
例えば、前記カメラトラッキングのために、前記ビデオ会議システム100は、前記マイクロホンポッド128/160によって拾われた音声信号、および、前記カメラ150によって生成された映像信号を処理して、ビデオ会議中に話している参加者の位置を判定することができる1または複数のカメラコントローラ152を有していてよい。前記1または複数のカメラコントローラ152は、前記カメラ150とは別体でも、該カメラユニットに組み込まれていても、または、前記ビデオ会議システム100の一部であってもよい。このようにして、自動カメラ制御を使用する前記ビデオ会議システム100は、参加者の顔の正確な位置を判定することができ、この位置に自動的に“ズームイン” することができる。これを実現するためのシステムの一例は、“Method And Apparatus for Localization of an Acoustic Source”というタイトルの米国特許NO.5,778,082、“Locating an Audio Source”というタイトルの米国特許NO.6,593,956、“Automatic Camera Tracking using Beamforming”というタイトルの米国特許NO.6,980,485に開示されており、これらの文献は、その出典を示すことによってこの明細書の一部とされる。これらのおよびその他の公知技術は、ここで説明される本発明のカメラ選択技術と共に採用可能である。
【0036】
音声および映像が捕捉されると、前記システム100は、MPEG-1, MPEG-2, MPEG-4, H.261, H.263およびH.264等の一般的なエンコード基準のいずれかを使用して該音声および映像の信号をエンコードする。そして、ネットワークモジュール166は、任意の適当なプロトコルを使用して、ネットワーク22を介して前記エンコードされた音声および映像をリモートエンドポイント20に出力する。同様に、前記ネットワークモジュール166は、前記ネットワーク22を介して前記リモートエンドポイント20から会議音声および映像を受信して、処理のために該会議音声および映像をそれぞれのコーデック122,132に送る。そして、スピーカ126は会議音声を出力し、ディスプレイ134は会議映像を出力する。これらのモジュールおよび他の構成要素の多くは当該技術分野で周知の一般的な方法で動作可能であるので、ここでは更なる詳細を述べない。
【0037】
従来より公知の特徴とは対照的な、前記システム100は、前記制御モジュール140を使用して、自動的で調和された方法で、前記カメラ150からの映像出力を選択する。一般的に、前記システム100は、ビデオ会議中の任意の特定の時点において、前記数個のカメラ150のうちの1つからの映像のみを出力し、好ましくは、前記出力用の映像は、現在話しているビデオ会議参加者を捕捉するものである。前記ビデオ会議が進行するのに伴い、前記システム100からの出力映像は、随時、どの参加者が話し中かに応じて随時、前記カメラ150の画像を切り替えることができる。
【0038】
前記カメラ150によって捕捉された画像を選択して出力するために、前記システム100は、音声に基づくロケータ(locator)142および映像に基づくロケータ144を使用して、参加者の位置を検出し、前記会議室と参加者との画像を映す。その後、前記音声およびビデオモジュール120,130に接続された前記制御モジュール140は、前記ロケータ142、144からの音声および/または映像情報を使用して、出力すべきカメラ150の視野(画像)を選択し、および/または、前記カメラ150の方向および該カメラ150が捕捉する画像を変更するためのカメラコマンドを出力する。
【0039】
例えば、後述する如く、前記制御モジュール140は、遠隔のマイクロホン160から前記音声に基づくロケータ142によって処理された音声情報を使用する。非スピーチ関連の音声に焦点が合うのを回避するために、前記音声に基づくロケータ142は、スピーチ検出器143を使用して、前記マイクロホン160からの捕捉された音声におけるスピーチを検出する。ビデオ会議中にノイズまたは外部音が無視され得るよう、該スピーチ検出技術は、人間のスピーチに関して予想されるレベルおよび周波数範囲の音声エネルギを検出することができる。
【0040】
前記制御モジュール140は、前記音声に基づくロケータ142からの現在の話し手の検出された位置を使用して、最良の視野のカメラ150に切り替え、および/または、該最良の視野のカメラ150を前記現在の話し手に向ける。後で更に詳述するように、前記制御モジュール140は、前記カメラ150からの画像を使用して前記映像に基づくロケータ144によって処理された映像情報を使用して、前記参加者の位置を検出し、前記映像のフレーミングを決定し、前記カメラ150を前記参加者の顔に向ける。
【0041】
図3Bは、図3Aのビデオ会議システム100のための構成要素のいくつかの例を示す。図示し上述したように、前記システム100は、2個または3個以上のカメラ150、および、数個のマイクロホン128/160を有する。さらに、前記システム100は、処理ユニット110と、ネットワークインターフェース112と、メモリ114と、汎用入力/出力(I/O)インターフェース(I/O)118とを有しもこれらの構成要素のすべてはバス111を介して接続されている。
【0042】
前記メモリ114は、SDRAMのような一般的なメモリであってよく、前記システム100を制御するためのソフトウエアおよびファームウエアからなるモジュール116を記憶することができる。上述したビデオコーデックおよびオーディオコーデックならびにその他のモジュールに加えて、前記モジュール116は、オペレーティングシステム、ユーザが前記システム100を制御することを可能にするグラティカルユーザインターフェース(GUI)と、後述するように音声/映像信号を処理し前記カメラ150を制御するためのアルゴリズムを有する。
【0043】
前記ネットワークインターフェース112は、前記システム100とリモートエンドポイント(図示せず)との間における通信を提供する。一方、前記汎用I/Oインターフェース118は、キーボード、マウス、プリンタ、オーバヘッドプロジェクタ、ディスプレイ、外部スピーカ、追加的なカメラ、マイクロホンポッド等のローカル装置とのデータ送信を提供する。前記システム100は、内部スピーカ126を更に含む。
【0044】
前記カメラ150および前記マイクロホン160は、前記ビデオ会議環境において映像および音声をそれぞれ捕捉し、前記バス111を介して前記処理ユニット110に送信される映像および音声信号を生成する。ここで、前記処理ユニット110は、前記モジュール116におけるアルゴリズムを使用して、前記映像および音声を処理する。例えば、前記処理ユニット110は、前記カメラ150によって捕捉された映像のみならず前記マイクロホン128/160によって捕捉された音声を処理して、参加者の位置を検出し、前記カメラ150の画像を導く。最後に、処理された音声および映像は、前記インターフェース112、118に接続されたローカルおよびリモートの装置に送られることができる。
【0045】
上述した前記ビデオ会議システム100の理解に基づいて、前記ビデオ会議システム100が、いかにして、音声および映像に基づく技術を使用して、ビデオ会議中に現在話している参加者を捕捉する最良のカメラ視野(画像)を選択するのかを説明する。
C. ビデオ会議システムのためのカメラ選択
【0046】
上述したように、ビデオ会議中の前記カメラおよびマイクロホンの信号は、前記ビデオ会議システム100の前記制御モジュール140に送られる。これは、図2の構成例に基づく図4に略示されている。前記制御モジュール140は、前記ビデオ会議のための捕捉映像供給を現在話している参加者の顔に向けられたカメラ150に切り替える。前記カメラ選択の結果、前記制御モジュール140は、前記選択されたカメラ150からの捕捉された映像を、遠端に対する出力として送信するために、前記システムのビデオエンコーダ170に導く。
【0047】
従来より行われていたようにどのマイクロホンが最強のエネルギを有するのかに基づいてカメラ視野(画像)を選択する代わりに、前記制御モジュール140は、現在話している参加者が実際どのように向いているのかを判定する。このようにして、図2の南側の椅子に座っている参加者が彼の顔を東側の椅子またはディスプレイ(134)に向けて話している場合、前記制御モジュール140は、前記マイクロホンポッド(128)によって検出されたマイクロホンエネルギはそうでない旨示しているかもしれないが、前記参加者の映像を捕捉するために東側のカメラ(160E)をより適切に選択することができる。これ行うために、前記制御モジュール140は、図4のカメラ選択処理146を使用して、前記参加者が話し中にどのカメラ方向に向いているのかを判定する。
【0048】
一配置構成例において、前記カメラ選択処理146は、前記会議室内において前記マイクロホン(128/160)によって捕捉された音響特性に基づく音声に基づく処理200を使用して、前記参加者がどのカメラ方向に向いているのかを判定することができる。図5A〜5Bは、前記音声に基づく処理200の特徴を示す。前記音声に基づく処理200に代えて、または、該音声に基づく処理200と併せて、前記カメラ選択処理146は、前記様々なカメラ(150)によって捕捉された映像に基づく処理300を使用する。図6は、前記映像に基づく処理300の特徴を示す。
1. 音声に基づく選択処理
【0049】
図5Aは、前記制御モジュール140によって実行される前記音声に基づくカメラ選択処理200の一例を略示する図である。前記様々なカメラ(150)に対応付けられたマイクロホン(160)からの音声信号206(N, S, E, W)は、前記システム(100)に対する入力として到達し、前記システムの音声構成要素のうちのフィルタバンク210は、前記入力した音声信号206の各々を適当な周波数帯域にフィルタする。前記音声信号206をフィルタするために、任意の数の適当な周波数帯域が用いられてよく、好ましくは、前記周波数帯域およびそれらの範囲は、ここで開示されたスピーチ処理および検出目的を容易にする。
【0050】
前記様々な帯域における音声は適当な間隔(一般的には20 ms)でサンプリングされ、該サンプルのエネルギレベルが、当該技術分野で公知の技術を使用して計算される。このようなサンプリングおよび計算によって得られたエネルギレベル信号212は、後の処理に使用される。前記サンプリングおよびエネルギレベル計算は、この例の場合、北、南、東および西を含む方向の前記対応付けられたマイクロホン(160)およびそれらの信号206毎に行われるが、任意の配置構成が適用されてよい。
【0051】
この時点において、前記音声に基づくカメラ選択処理200は、エネルギレベル信号212(N, S, E, W)の各々の比較処理220を行う。ここでは、前記比較処理220は、2つの異なる周波数範囲222, 224における各エネルギレベル信号212を比較する。この比較処理において、ある特定の信号212の高周波数範囲222におけるエネルギは、該特定の信号212の低周波数範囲224におけるエネルギと比較される。後述のように、前記周波数範囲は、話をしている参加者がどの方向に向いているのかを最適に判定するよう選択される。
【0052】
図5Bに示されるように、人間の声の方向(従って、人が向いている方向)は、低周波数より高周波数において最適に判定される。例えば、図5Bにおいて、曲座標グラフは、様々な周波数および様々異なる発声での水平面内における人の声の方向を示す。この例において、前記人の声は様々異なる母音で歌っており、前記曲座標グラフは、2007年9月にマドリードで行われた第19回International Congress on Acoustics (ICA'2007)の議事録における、Katz, Brian F.G. & d'Alessandro, Christopheの“Directivity Measurements of the Singing Voice”から得られる。
【0053】
これらの曲座標グラフが示すように、発声時における人の頭の方向は、高周波数で最適に判定され得る。例えば、160Hzの周波数において、前記曲座標グラフは、前記音声は一般的に無指向性であることを示す。これに対して、8,000Hzの周波数の前記曲座標グラフは、かなりより指向性がある。
【0054】
この相関関係に基づいて、図5Aの音声に基づくカメラ選択処理200は、前記マイクロホン(160)によって捕捉された人の声の音声周波数を、前記参加者の頭の方向情報に関連付ける。この目的のために、前記比較処理220は、前述の如く、周波数のスペクトラムを使用し、各前記マイクロホン(160)における低周波音響エネルギ224に対する高周波音響エネルギ222の比率を比較する。一般的に、高周波数範囲は約2,500Hzの閾値より高く、低周波数範囲は前記閾値より低い。
【0055】
しかしながら、実験的に、各カメラ(150)に対応付けられたマイクロホン(160)に関して、約500Hz〜1000Hzの低周波エネルギ224によって除算された約4000Hz〜7000Hzの高周波エネルギ222のエネルギ比率を採用することによって、最大のエネルギ比率を有するカメラ(150)は、話し中の参加者が向いているカメラ(150)である可能性が高い、ということが分かった。これらの周波数範囲は、ビデオ会議環境におけるスピーチに特に適しているということが分かった。しかしながら、前記周波数範囲は、実施の態様に応じて可変であり、会議エリアの大きさ、参加者の数、使用されるマイクロホンの数等に基づいて可変である。
【0056】
従って、前記比較処理220は、前記北側のカメラに対応付けられたマイクロホンの約4000Hz〜7000Hzの第1の高周波音響エネルギ222を得て、これを、同じマイクロホン(160)の約500Hz〜1000Hzの低周波音響エネルギ222で割る。その結果230において、得られた比率値R1は、対応する前記カメラ位置(すなわち、北側のカメラ)に対応付けられて記憶される。そして、前記処理200は、前記結果230において最高の比率Rを有するカメラ(150)が現在話し中の参加者に向いているカメラである可能性が最も高いので、該最高の比率Rを有するカメラ(150)を選択する。
【0057】
図2に戻り、前記カメラ150が選択されたので、前記制御モジュール140は、該選択されたカメラ150からの捕捉映像が前記遠端への出力の一部となるよう、前記システム100の処理を指示する。もちろん、前記制御モジュール140は、スイッチングの前に遅延を実現でき、前記結果を確認でき、カメラ映像間の誤ったまたは頻繁なスイッチングを回避するための他の共通機能を実行する。同様に、上述した自動カメラ制御処理は、前記参加者を最適に撮影するために、前記選択されたカメラ(150)のパン、チルトおよびズームを制御することができる。全体的に見れば、前記カメラ画像間のスイッチングは、好機を捉えた且つ自然なものになるよう、また、該カメラ画像等における頻繁な変更を回避することを目的としている。
2. 映像に基づく選択処理
【0058】
上述した音響構成に代えて、または、該音響配置構成と共に、前記制御モジュール140は、前記様々なカメラが補足した映像に基づいて映像に基づく選択処理300を使用することができる。図6において、この映像に基づく選択処理300の詳細が示されている。
【0059】
この処理300において、前記様々なカメラ(150)(例えば、N,S,E,W)の各々からの映像信号305が、ビデオインターフェース310に対する入力として入力される。そして、前記ビデオインターフェース310は、前記入力された映像信号305に対して、顔認識312のための映像(ビデオ)処理を実行する。この映像処理は、前記補足した映像が人の顔を含んでいるか否かを示す態様で、動き検出、肌の色合い検出、顔検出および他のアルゴリズムを使用して前記映像信号305を処理する。
【0060】
例えば、前記ビデオ処理は、前記カメラの視野における顔を検出しその位置を特定するための顔認識技術を使用できる。これを行うために、人の肌の色合いを含む可能性がある領域を見つけることによって顔を見つけ、そして、これから、カメラ視野内の顔の位置を示す領域を見つける。肌色合いおよび顔検出(ならびに音声位置特定)に関する詳細は、ここにその出典を示すことによって本明細書の一部とする“Locating an Audio Source”というタイトルの米国特許No.6,593,956に開示されている。
【0061】
さらに、前記顔認識312のためのビデオ処理は、現在のカメラ視野が実際に人の顔を有する画像を映していることを確認することによってトラッキング精度を上げる顔検出または顔発見アルゴリズムを使用することができる。前記顔検出は、顔正面画像を検出でき、該顔の左右の側面画像を検出できる。映像による顔検出に利用可能なアルゴリズムの1つは、リアルタイムコンピュータ映像のためのプログラミング機能のライブラリであるOpenCV(Open Source Computer Vision)である。顔認識のためにはOpenCVが好ましいが、当該技術において利用可能な多数のアルゴリズムのうちの任意のものが使用可能である。
【0062】
このような顔認識処理を使用して、話し中の参加者が向いているカメラ(150)は、正面顔検出器の最も高い信頼スコアを有することになる。顔認識は、正面顔の捕捉画像を判定する際に最適に作用するので有用である。前記顔の他の方向はより低い信頼度で検出されるので、前記顔認識は、処理中の捕捉カメラ画像の閾測定として使用可能である。
【0063】
さらに、前記顔認識312のためのビデオ処理は、当該技術において公知の技術を使用して、前記映像信号305における肌の色合いを検出でき、現在の画像における動きをチェックするために、前記カメラ(150)によって捕捉された映像に対して、動き検出アルゴリズムを実行することができる。これらの技術の一例として、顔の像は、前記カメラ(150)によって捕捉された画像のフレームにおいて肌色を有する領域を特定することによって検出される。簡単に言うと、前記ビデオ処理は、1つのフレームまたは1つのフレームの一部内のクロミナンス値の平均値をとることができる。前記平均値が肌の色合いに対応付けられた範囲内にある場合、前記フレームまたは該フレームの一部は、肌の色合いの特性を有すると考えられる。また、前記カメラ(150)によって捕捉された映像は、例えば、前記映像のフレームを前の映像のフレームと比較して前記映像における動きによる変化(おそらく参加者の動きによるもの)を検出することによって検出された、動いている顔を示すことがある。
【0064】
顔認識312のためのこれらの技術の1または複数を使用して、前記処理300は、関連したカメラ(150)に関する顔重み付け値314を算出する。この顔重み付け値314は、前記処理の結果がどのようにして得られるかに応じて、任意の数の態様で算出可能である。このように、顔重み付け値314を決定するために、閾値、信頼レベル、比較値、平均値またはその他を使用可能である。
【0065】
その後、前記処理300は、これらの顔重み付け値314を使用して比較を行い、比較結果335において、現在の話し手の顔を映している可能性が最も高いカメラ(150)を見つける。結局、少なくとも部分的にこれらの比較結果に基づいて、カメラ選択340がなされ得る。
【0066】
前記映像に基づく処理300は全面的に映像に基づくことができるが、2つ以上のカメラ(150)が1人の参加者の顔を映していてよく、顔認識312のみでは該人が現在話しているか否かを判定できないかもしれない。故に、音声に基づく処理320を、前記映像に基づく選択に対する付加として、図6の処理300に含めることができる。このため、音声信号322がオーディオインターフェース324に入力可能であり、ここで開示された技術に従う処理が該入力された音声信号の音声エネルギを判定でき、その後、該音声エネルギが前記比較330に使用され得る。前記音声に基づく処理320は、ここで開示された様々な技術のうちのいずれかを使用して、当該会議でどの参加者が話しているのかを判定し、該参加者がどの方向を向いているのかを判定することができる。これは、従来のビーム形成技術、または、図5Aの周波数エネルギ比率比較(220)を含むことができる。
【0067】
一例として、例えばテーブル上のマイクロホンポッド(128)における捕捉エネルギは、どの人が話し中なのかを示すことができ、この情報は、前記カメラ選択340についての結果335をより高精度にするために、前記ビデオ処理と共に前記比較330に組み込むことができる。故に、前記顔認識312のためのビデオ処理は、潜在的に南側の椅子および西側の椅子の参加者を映す図2の北側のカメラ150Nおよび東側のカメラ150Eに高い顔重み付け値を与える。その場合、前記マイクロホンポッド128からの音声を使用する前記音声処理は、南側の椅子の参加者が現在話し中であることを示す。このようにして、前記システム100は、前記北側のカメラ150Nを選択することができる。
【0068】
代案として、前記マイクロホンポッド128からの音声信号を使用する前記音声処理が南側の椅子の参加者が現在話し中であることを示す場合、前記カメラ(150)間における顔認識重み付け値314は、他のカメラとは対照的に、前記南側の椅子の参加者が東側のカメラ(150E)に向いていることを示す。前記東側のカメラ(150E)からの映像についての顔重み付け値は、前記話し手が他のカメラとは対照的にこの東側のカメラ(150E)に向いている高い可能性を示ので、そうことになる。
【0069】
上述の如く、前記マイクロホンポッド(128)における捕捉エネルギおよびビーム形成は、現在の話し手がどの方向を向いているのかについての信頼できるインジケータではないかもしれない。故に、図6の前記音声に基づく処理320は、ここで記載したようなカメラに対応付けられたマイクロホン(160)を使用することができ、図5A〜5Bに記載された前記音声に基づく処理に従って、低い周波数に対する高い周波数の比率を調べることができる。そして、図6の前記音声に基づく処理320は、人が話しながらどのカメラの方に向いているのかを見つけるための他の処理レイヤを提供するために、前記比較330において、(例えば、ここで記載した顔認識またはその他を使用する)前記ビデオ処理に付加されることができる。
【0070】
そして、前記カメラに対応付けられたマイクロホン(160)における捕捉されたエネルギは、どの人が話し中なのかを示すことができ、この情報は、前記カメラ選択340についての結果335を高精度化するために、前記ビデオ処理と共に前記比較330に組み込むことができる。例えば、前記音声に基づく判定は最も確実なものではないので、前記カメラに対応付けられたマイクロホン(160)からの音声信号を使用する前記音声処理は、図2の南側の椅子の参加者が現在北側のカメラ(150N)、東側のカメラ(150E)または該2つのカメラの中間点方向に向いていることを示すかもしれない。この場合、前記顔認識312のためのビデオ処理は、北側のカメラ150Nに対して東側のカメラ(150E)より高い顔重み付け地314を与える。この場合、前記参加者は前記北側のカメラ150N方向に向いている可能性が最も高いので、前記システム100は、南側の椅子の現在の話し手の映像を出力するために前記北側のカメラ(150N)を選択する。
D. 多数のカメラおよびマイクロホンを有するビデオ会議システムの付加的な配置構成
【0071】
図2を参照して上述したように、前記カメラ150およびマイクロホン160の配置構成はかなり規則正しく対称的である。上述の如く、これは必ずしもそうではなく、前記ビデオ会議システム100は、会議環境において任意に構成されてもよい。しかしながら、ここで開示されたカメラ選択技術は、このような任意の配置構成において特に有利である。
【0072】
例えば、図7は、参加者に対して配置されたカメラ150およびマイクロホン160と、マイクロホンポッド128を有する前記システム100の他の構成例を示す図である。この配置構成例は、前記様々なカメラ150が前記部屋、テーブルおよび参加者の周りに対称的に配置されていないので、ここで開示されたカメラ選択技術を更に詳細に説明するのに役立つであろう。従って、前記カメラ150のうちの他の1つが現在話し中の参加者の前、近くまたは該話し中の参加者の方に略向いているかもしれないが、前側カメラ150(R,C,L)のうちの1つまたは横側のカメラ150Sが前記現在話し中の参加者を最適に捕捉し映すことができる。しかしながら、ここで開示された前記音声および/または映像に基づく処理を使用して、前記ビデオ会議システム100および制御モジュール140は、このおよび他の同等の構成において、よりきめ細かいカメラ選択を実現できる。
【0073】
1つの簡易な例において、参加者P3が話し中であるとする。マイクロホンポッド128を使用する通常のビーム形成技術は、前記話し中の参加者P3の前記ポッド128に対する方向を示すことによって、参加者P3が話し中であることを示す。(例えば、ビーム形成を使用した自動カメラトラッキングに関する詳細は、その出典を示すことによってこの明細書の一部とする米国特許NO.6,980,485に開示されている)。このようなカメラトラッキング技術は、横側のカメラ150Sからの画像を使用して前記参加者P3を映すために使用可能である。しかし、前記参加者P3は彼女の頭を回した(捻った)状態で話していることもあり、その場合、他のカメラによるフレーミングによって前記話し手の顔を捕捉することがより適当となる。
【0074】
前記マイクロホン160を使用して、前記制御モジュール140は、話し中の参加者P3が現在どのカメラ150の方に向いているのかを判定するここに開示された音声処理技術に基づいて、カメラ選択を行うことができる。この例において、その特定のカメラはカメラ150Lであり、ビデオ会議の映像を出力するために使用可能である。
【0075】
例えば、図8Aは、カメラ150Sおよび150Lからの画像を示す。カメラ150Sからの第1の画像は、話しながら彼女の頭を少し捻った状態の参加者P3を示し、カメラ150Nからの第2の画像は、前記話し中の参加者のより正面の像を示す。ここで開示された前記音声に基づく処理技術は、参加者P3が左側のカメラ150Lの方に向いている可能性があり、従って、前記システム100は前記ビデオ会議の映像を出力するために前記左側のカメラ150Lの視野(画像)を選択することができる旨を示すのに役立つことができる。このように選択されると、前記カメラ150Lの視野は、公知の技術を使用して、更に前記参加者P3に向いて該参加者P3を映すよう方向づけられる。もちろん、前記映像に基づく選択技術は、ここで記載したように使用されることもできる。
【0076】
他の簡易な例においては、参加者P1が話し中であるとする。マイクロホンポッド128を使用する通常のビーム形成技術は、前記話し中の参加者P1の前記ポッド128に対する方向を示すことによって、参加者P1が話し中であることを示す。これは、前方のカメラ150(R,C,L)のいずれかからの画像を使用して、前記参加者P1を映すために使用可能である。しかし、前記参加者P1は彼の頭を捻った状態で話していることもあり、その場合、他のカメラによるフレーミングによって前記参加者の顔を捕捉することがより適当となる。
【0077】
前記対応付けられたマイクロホン160を使用して、前記制御モジュール140は、話し中の参加者P1が現在どのカメラ150の方に向いているのかを判定するここに開示された前記音声処理技術に基づいて、カメラ選択を行うことができる。この例において、その特定のカメラはカメラ150Lであり、ビデオ会議の映像を出力するために使用可能である。
【0078】
例えば、図8Bは、カメラ150L,150Cおよび150Rからの画像を示す。左側のカメラ150Lからの第1の画像は、彼の頭を該カメラ150Lの方向に向けた状態の参加者P1を示し、中央のカメラ150Cからの第2の画像は、少し捻った状態の参加者P1の顔を示し、右側のカメラ150Rからの第3の画像は、より捻った状態の参加者P1の顔を示す。前記音声に基づく処理技術は、参加者P1が左側のカメラ150Lの方に向いている可能性があり、従って、前記システム100は前記ビデオ会議の映像を出力するために前記左側のカメラ150Lを選択することができる旨を示すのに役立つことができる。このように選択されると、前記カメラ150Lの視野は、公知の技術を使用して、更に前記参加者P1に向いて該参加者P1を映すよう方向づけられる。
【0079】
しかしながら、前記参加者P1の頭の方向が前記カメラ150(R,C,L) のうちの1つを断定的に選択するほど明白に識別可能でない場合、ここに記載された前記映像に基づく処理技術は、前記判定結果の精度を更に上げるよう使用され得る。特に、ここに記載された前記顔認識技術は、1つのカメラ(すなわち、150L)が、前記参加者の顔の部分的な横顔を捕捉している他のカメラ(すなわち、150R,150C)より、前記参加者の顔の正面画像を捕捉している可能性がより高い、ことを示すことができる。結局、この付加的な判定は、どのカメラ150Lを前記話し中の参加者P1の捕捉された映像を出力するために使用すべきかをより適当に示すことができる。
E. 音声/映像処理能力を有するカメラモジュール
【0080】
上述の実施の形態において、前記ビデオ会議システム100は、多数のカメラおよびマイクロホンを有し、出力用のカメラを選択するここで開示された前記音声および映像に基づく処理技術を使用した。多数のカメラおよびマイクロホン用に大きい規模で使用可能であるが、上記開示された技術は、より大きいビデオ会議システムの一部である個々のカメラモジュールを使用してより個別の態様で使用可能である。例えば、図9Aは、制御可能なカメラ450を有するカメラモジュール450とマイクロホン460のアレイとを示す。前記カメラモジュール450は、該カメラモジュール450に一体的に組み込まれ、または、該カメラモジュール450とは別体のカメラ操縦要素454および音声/映像処理要素456を有する。このような要素454,456は、より大きいビデオ会議システムの処理ユニットによって操作可能であり、または、前記モジュール450によって操作可能である。
【0081】
動作時において、前記カメラ操縦要素454は、前記マイクロホン460のアレイからの音声入力を使用して、カメラ452を話し中の参加者の方向に向ける。これは、例えば上記米国特許No.6,593,956に開示されたもののような、マイクロホンアレイによるビーム操作に向けられた技術のうちの多くを使用可能である。このような技術に加えて、前記モジュール450は、ここで開示された前記音声―映像処理技術を使用して、前記カメラ452を話し中の参加者の方向に向ける動作の精度を上げることができる。
【0082】
特に、前記音声/映像処理要素456は、様々に異なる周波数範囲についてのエネルギ比率を測定する前記音声に基づく処理を使用して、前記参加者の頭の方向を判定する。例えば、前記モジュール上における前記マイクロホン460のうちの1つからの音声が、フィルタされサンプルされることができる。高い周波数範囲(例えば、4000Hz〜7000Hz)についての第1のエネルギレベルが、判定され、話し中の参加者の頭の方向に関連付けられることができる。
【0083】
代案として、前記マイクロホン460のうちの2つ以上からの音声が、前記第1のエネルギレベルおよびより低い周波数範囲(例えば、500Hz〜1000Hz)についての第2のエネルギレベルを判定するために処理されてよい。前記第1のエネルギレベルを前記第2のエネルギレベルで割った比率の最大値を有するマイクロホン460は、どのマイクロホン460の方向に話し中の参加者の頭が向いている可能性が最も高いかを示すことができる。
【0084】
最後に、前記カメラモジュール450は、前記アレイにおける固定されたマイクロホン460とは対照的に、前記カメラ452と共に動くマイクロホン462を含むことができる。前記カメラ操縦要素454が前記カメラ452を話し中の参加者の方向に向けるのに伴い、この動くマイクロホン462からの音声は、前記高い周波数範囲および低い周波数範囲についての第1のエネルギレベルおよび第2のエネルギレベルの比率を求めるためにフィルタされ、サンプルされ得る。前記カメラ452およびマイクロホン462が動くのに伴い、前記処理要素456は、前記比率が減少する前に最大または最高のレベルに達した時を判定することができる。このような地点における前記カメラ452の位置は、該カメラ452が話し中の参加者の頭の方向と最も整列していることを示す。
【0085】
前記精度が上げられたカメラ操作を説明するのに役立つよう、図9Bは、カメラ操作および処理時における、図9Aのカメラモジュール450からの捕捉された画像を示す。該画像470に示されるように、前記カメラモジュール450は、前記話し中の参加者の画像を捕捉している。しかしながら、前記参加者の頭は、前記カメラの視野角の方向から捻られまたは少しそれる向きにある可能性がある。上述した音声―映像処理技術を使用して、前記カメラモジュール450は、前記カメラの視野角がより適当に前記参加者の頭の方向と整列するよう、カメラ452の向きを更に変え、前記参加者の頭の方向を判定する。これにより、図9Bに示すように、より高精度の画像475が得られる。
【0086】
上記の音声に基づく処理技術に加えて、ここで開示された前記映像に基づく技術も、前記カメラ452をより適切に前記話し中の参加者の顔に向けて、“ズームインし”、前記話し中の参加者のよりよい画像を得るために採用可能である。これは、例えば米国特許NO.6,593,956等のここで出典が示された開示技術、ならびに、前に開示された顔認識技術のうちの多くを使用可能である。
F. 結論
【0087】
上記から理解されるように、ここに開示された前記音声に基づくおよび映像に基づくカメラ選択技術は、話し中の参加者の映像を出力するために使用すべきカメラを判定して、前記参加者の顔を最適に捕捉するために、単独でまたは相互に組み合わせて使用可能である。ここで開示された本発明の利点により、当業者は、これらの技術がいかにしてカメラ150、マイクロホン160/128、参加者、席の配置等の任意の配置構成と共に使用可能であるかを理解することができる。
【0088】
ここで説明された操作方法の詳細における様々な変更が、次の請求項の範囲から逸脱することなく可能である。例えば、説明のためのフローチャートのステップまたは処理ステップは、ここで開示されたものとは異なる順序で上記ステップを実行してよい。代案として、いくつかの実施の形態は、ここで記載された動作を個々のステップとして組み合わせてもよい。同様に、前記方法が実施される特定の動作環境に応じて、上記ステップの1または複数が省略されてよい。
【0089】
さらに、フローチャートのステップまたは処理ステップに従う行為は、持続的なプログラマブル記憶装置上で1または複数のプログラムモジュールにまとめられた命令を実行するプログラマブル制御装置によって実行されてよい。プログラマブル制御装置は、単一のコンピュータプロセッサ、専用のプロセッサ(例えば、ディジタル信号プロセッサ“DSP”)、通信リンクによって接続された複数のプロセッサ、または、カスタム設計されたステートマシーンである。カスタム設計されたステートマシーンは、用途別の集積回路(“ASIC”)またはフィールド・プログラマブル・ゲート・アレイ(“EPGA”)を含む (しかし、これに限らない)集積回路である。プログラム命令を具体的に実施するのに適した、時にはコンピュータによって読み取り可能な媒体と呼ばれる持続的なプログラマブル記憶装置は、(固定、フレキシブルおよび着脱可能な)磁気ディスクおよびテープ、CD-ROMおよびディジタルビデオディスク(DVD)等の光媒体、電気的にプログラマブルな読み取り専用メモリ(“EPROM”) 、電気的に消去可能なプログラマブルな読み取り専用メモリ(“EEPROM”)、プログラマブルなゲートアレイおよびフラッシュ装置等の半導体メモリ装置を含む (しかし、これらに限らない)。
【0090】
好ましい実施の形態および他の実施の形態についての上記説明は、本出願人によって考えられた発明の概念の範囲または適用可能性を制限するものではない。ここに含まれる発明の概念を開示する代わりに、本出願人は添付の請求項によって提供されるすべての特許権を所望する。故に、添付の請求項は、以下の請求項またはその均等物の範囲内のすべての変形および変更を含むものである。
【符号の説明】
【0091】
100 ビデオ会議システム
120 オーディオモジュール
130 ビデオモジュール
134 ディスプレイ
140 制御モジュール
150 カメラ
160 マイクロホン
【特許請求の範囲】
【請求項1】
ビデオ会議のための、各々が複数のカメラ視野のうちの1つに関連した複数の音声入力を得るステップと、
各前記音声入力を第1の周波数範囲についての第1の音声エネルギ、および、第2の周波数範囲についての第2の音声エネルギに処理するステップであって、前記第1の周波数範囲が前記第2の周波数範囲より高いものと、
前記音声入力のうちのどの音声入力が、前記第2の音声エネルギに対する前記第1の音声エネルギの最も高い比率を有する判定するステップと、
前記最も高い比率を有する前記音声入力に関連したカメラ視野を選択するステップと、
前記選択されたカメラ視野の映像をビデオ会議のために出力するステップと、
を具備したビデオ会議カメラ選択方法。
【請求項2】
前記第1の周波数が約2500Hzの閾値より高く、前記第2の周波数が前記閾値より低い請求項1に記載の方法。
【請求項3】
各前記音声入力を第1の周波数範囲についての第1の音声エネルギに処理することが、約4000Hz〜約7000Hzの第1の周波数範囲を使用することからなる請求項1に記載の方法。
【請求項4】
各前記音声入力を第2の周波数範囲についての第2の音声エネルギに処理することが、約500Hz〜約1000Hzの第2の周波数範囲を使用することからなる請求項3に記載の方法。
【請求項5】
各前記音声入力を処理する前提条件として、スピーチを示す音声を検出するステップを更に具備した請求項1に記載の方法。
【請求項6】
前記関連したカメラ視野を選択するステップが、出力用に、前記カメラ視野のうちの1つから前記カメラ視野のうちの他の1つに切り替えることからなる請求項1に記載の方法。
【請求項7】
前記選択されたカメラ視野のパン、チルトおよびズームのうちの1または複数を調節するステップを更に具備した請求項1に記載の方法。
【請求項8】
各々が前記カメラ視野のうちの1つに関連した複数の映像入力を得るステップと、
少なくとも1つの顔の特性について、各前記映像入力を処理するステップと、
前記処理に基づき、前記映像入力のうちのどれが人の顔を映している可能性を有しているかを判定するステップと、
を具備し、
前記カメラ視野を選択するステップが、前記最も高い可能性を有する映像入力に関連した前記カメラ視野に少なくとも部分的に基づく
ことを特徴とする請求項1に記載の方法。
【請求項9】
前記少なくとも1つの顔の特性が、人の顔の特徴、人の肌を示す色合い、人の動きおよびこれらの組合せからなる一群から選択される請求項8に記載の方法。
【請求項10】
前記複数のカメラ視野は、任意に配置された複数のカメラに関連したものである請求項1に記載の方法。
【請求項11】
各前記音声入力は、接近度合によって前記カメラのうちの少なくとも1つに対応付けられた1または複数のマイクロホンからなる請求項10に記載の方法。
【請求項12】
前記複数のカメラ視野は、少なくとも1つの制御可能なカメラに関連したものである請求項1に記載の方法。
【請求項13】
プログラマブル制御装置に請求項1に記載した方法を実行させるためのプログラム命令を記憶したプログラム記憶装置。
【請求項14】
複数のカメラ視野の映像入力を受け取るビデオインターフェースと、
各々が複数のカメラ視野のうちの1つに関連した複数の音声入力を受け取るオーディオインターフェースと、
ネットワークに通信可能に接続するネットワークインターフェースと、
前記ビデオインターフェース、オーディオインターフェースおよびネットワークインターフェースに接続された処理ユニットであって、
各前記音声入力を第1の周波数範囲についての第1の音声エネルギ、および、第2の周波数範囲についての第2の音声エネルギに処理し、前記第1の周波数範囲が前記第2の周波数範囲より高く、
前記音声入力のうちのどの音声入力が、前記第2の音声エネルギに対する前記第1の音声エネルギの比率が最も高いかを判定し、
前記最も高い比率を有する前記音声入力に関連したカメラ視野を選択し、
前記ネットワークインターフェースによって、前記選択されたカメラ視野の映像入力を出力する前記処理ユニットと、
を具備したビデオ会議装置。
【請求項15】
前記処理ユニットは、
少なくとも1つの顔の特性について、各前記映像入力を処理し、
前記処理に基づき、前記映像入力のうちのどれが人の顔を映している最も高い可能性を有しているかを判定し、
前記カメラ視野の選択が、前記最も高い可能性を有する映像入力に関連した前記カメラ視野に少なくとも部分的に基づくことを特徴とする請求項14に記載の装置。
【請求項16】
前記ビデオインターフェースに通信可能に接続され、各々が前記カメラ視野のうちの1つに関連したものである、任意に配置された複数のカメラを更に具備した請求項14に記載の装置。
【請求項17】
前記オーディオインターフェースに通信可能に接続されていて、各々が接近度合によって前記任意に配置されたカメラのうちの少なくとも1つに対応付けられた複数のマイクロホンを更に具備した請求項16に記載の装置。
【請求項18】
ビデオ会議のための、各々が複数のカメラ視野のうちの1つに関連した複数の映像入力を得るステップと、
少なくとも1つの顔の特性について、各前記映像入力を処理するステップと、
前記処理に基づき、前記映像入力のうちのどれが人の顔を映している最も高い可能性を有するかを判定するステップと、
前記最も高い可能性を有する前記映像入力に関連したカメラ視野を選択するステップと、
前記選択されたカメラ視野の映像入力をビデオ会議のために出力するステップと
を具備したビデオ会議カメラ選択方法。
【請求項19】
ビデオ会議のための、各々が前記複数のカメラ視野のうちの1つに関連した複数の音声入力を得るステップと、
各前記音声入力を第1の周波数範囲についての第1の音声エネルギ、および、第2の周波数範囲についての第2の音声エネルギに処理するステップであって、前記第1の周波数範囲が前記第2の周波数範囲より高いものと、
前記音声入力のうちのどの音声入力が、前記第2の音声エネルギに対する前記第1の音声エネルギの最も高い比率を有しているかを判定するステップと、
を更に具備し、
前記カメラ視野を選択するステップが、前記最も高い比率を有する音声入力に関連した前記カメラ視野に少なくとも部分的に基づくことを特徴とする請求項18に記載の方法。
【請求項20】
方向づけられた視野を有する映像を得るための少なくとも1つの制御可能なカメラと、
音声を得るための少なくとも1つのマイクロホンと、
前記少なくとも1つの制御可能なカメラおよび前記少なくとも1つのマイクロホンに作動的に接続された処理ユニットであって、
前記少なくとも1つの制御可能なカメラからの音声を第1の周波数範囲についての第1の音声エネルギ、および、第2の周波数範囲についての第2の音声エネルギに処理し、前記第1の周波数範囲が前記第2の周波数範囲より高く、
前記第2の音声エネルギに対する前記第1の音声エネルギの比率を求め、
前記求められた比率に基づいて、前記少なくとも1つの制御可能なカメラの前記方向づけられた視野を制御する処理ユニットと、
を具備したビデオ会議装置。
【請求項1】
ビデオ会議のための、各々が複数のカメラ視野のうちの1つに関連した複数の音声入力を得るステップと、
各前記音声入力を第1の周波数範囲についての第1の音声エネルギ、および、第2の周波数範囲についての第2の音声エネルギに処理するステップであって、前記第1の周波数範囲が前記第2の周波数範囲より高いものと、
前記音声入力のうちのどの音声入力が、前記第2の音声エネルギに対する前記第1の音声エネルギの最も高い比率を有する判定するステップと、
前記最も高い比率を有する前記音声入力に関連したカメラ視野を選択するステップと、
前記選択されたカメラ視野の映像をビデオ会議のために出力するステップと、
を具備したビデオ会議カメラ選択方法。
【請求項2】
前記第1の周波数が約2500Hzの閾値より高く、前記第2の周波数が前記閾値より低い請求項1に記載の方法。
【請求項3】
各前記音声入力を第1の周波数範囲についての第1の音声エネルギに処理することが、約4000Hz〜約7000Hzの第1の周波数範囲を使用することからなる請求項1に記載の方法。
【請求項4】
各前記音声入力を第2の周波数範囲についての第2の音声エネルギに処理することが、約500Hz〜約1000Hzの第2の周波数範囲を使用することからなる請求項3に記載の方法。
【請求項5】
各前記音声入力を処理する前提条件として、スピーチを示す音声を検出するステップを更に具備した請求項1に記載の方法。
【請求項6】
前記関連したカメラ視野を選択するステップが、出力用に、前記カメラ視野のうちの1つから前記カメラ視野のうちの他の1つに切り替えることからなる請求項1に記載の方法。
【請求項7】
前記選択されたカメラ視野のパン、チルトおよびズームのうちの1または複数を調節するステップを更に具備した請求項1に記載の方法。
【請求項8】
各々が前記カメラ視野のうちの1つに関連した複数の映像入力を得るステップと、
少なくとも1つの顔の特性について、各前記映像入力を処理するステップと、
前記処理に基づき、前記映像入力のうちのどれが人の顔を映している可能性を有しているかを判定するステップと、
を具備し、
前記カメラ視野を選択するステップが、前記最も高い可能性を有する映像入力に関連した前記カメラ視野に少なくとも部分的に基づく
ことを特徴とする請求項1に記載の方法。
【請求項9】
前記少なくとも1つの顔の特性が、人の顔の特徴、人の肌を示す色合い、人の動きおよびこれらの組合せからなる一群から選択される請求項8に記載の方法。
【請求項10】
前記複数のカメラ視野は、任意に配置された複数のカメラに関連したものである請求項1に記載の方法。
【請求項11】
各前記音声入力は、接近度合によって前記カメラのうちの少なくとも1つに対応付けられた1または複数のマイクロホンからなる請求項10に記載の方法。
【請求項12】
前記複数のカメラ視野は、少なくとも1つの制御可能なカメラに関連したものである請求項1に記載の方法。
【請求項13】
プログラマブル制御装置に請求項1に記載した方法を実行させるためのプログラム命令を記憶したプログラム記憶装置。
【請求項14】
複数のカメラ視野の映像入力を受け取るビデオインターフェースと、
各々が複数のカメラ視野のうちの1つに関連した複数の音声入力を受け取るオーディオインターフェースと、
ネットワークに通信可能に接続するネットワークインターフェースと、
前記ビデオインターフェース、オーディオインターフェースおよびネットワークインターフェースに接続された処理ユニットであって、
各前記音声入力を第1の周波数範囲についての第1の音声エネルギ、および、第2の周波数範囲についての第2の音声エネルギに処理し、前記第1の周波数範囲が前記第2の周波数範囲より高く、
前記音声入力のうちのどの音声入力が、前記第2の音声エネルギに対する前記第1の音声エネルギの比率が最も高いかを判定し、
前記最も高い比率を有する前記音声入力に関連したカメラ視野を選択し、
前記ネットワークインターフェースによって、前記選択されたカメラ視野の映像入力を出力する前記処理ユニットと、
を具備したビデオ会議装置。
【請求項15】
前記処理ユニットは、
少なくとも1つの顔の特性について、各前記映像入力を処理し、
前記処理に基づき、前記映像入力のうちのどれが人の顔を映している最も高い可能性を有しているかを判定し、
前記カメラ視野の選択が、前記最も高い可能性を有する映像入力に関連した前記カメラ視野に少なくとも部分的に基づくことを特徴とする請求項14に記載の装置。
【請求項16】
前記ビデオインターフェースに通信可能に接続され、各々が前記カメラ視野のうちの1つに関連したものである、任意に配置された複数のカメラを更に具備した請求項14に記載の装置。
【請求項17】
前記オーディオインターフェースに通信可能に接続されていて、各々が接近度合によって前記任意に配置されたカメラのうちの少なくとも1つに対応付けられた複数のマイクロホンを更に具備した請求項16に記載の装置。
【請求項18】
ビデオ会議のための、各々が複数のカメラ視野のうちの1つに関連した複数の映像入力を得るステップと、
少なくとも1つの顔の特性について、各前記映像入力を処理するステップと、
前記処理に基づき、前記映像入力のうちのどれが人の顔を映している最も高い可能性を有するかを判定するステップと、
前記最も高い可能性を有する前記映像入力に関連したカメラ視野を選択するステップと、
前記選択されたカメラ視野の映像入力をビデオ会議のために出力するステップと
を具備したビデオ会議カメラ選択方法。
【請求項19】
ビデオ会議のための、各々が前記複数のカメラ視野のうちの1つに関連した複数の音声入力を得るステップと、
各前記音声入力を第1の周波数範囲についての第1の音声エネルギ、および、第2の周波数範囲についての第2の音声エネルギに処理するステップであって、前記第1の周波数範囲が前記第2の周波数範囲より高いものと、
前記音声入力のうちのどの音声入力が、前記第2の音声エネルギに対する前記第1の音声エネルギの最も高い比率を有しているかを判定するステップと、
を更に具備し、
前記カメラ視野を選択するステップが、前記最も高い比率を有する音声入力に関連した前記カメラ視野に少なくとも部分的に基づくことを特徴とする請求項18に記載の方法。
【請求項20】
方向づけられた視野を有する映像を得るための少なくとも1つの制御可能なカメラと、
音声を得るための少なくとも1つのマイクロホンと、
前記少なくとも1つの制御可能なカメラおよび前記少なくとも1つのマイクロホンに作動的に接続された処理ユニットであって、
前記少なくとも1つの制御可能なカメラからの音声を第1の周波数範囲についての第1の音声エネルギ、および、第2の周波数範囲についての第2の音声エネルギに処理し、前記第1の周波数範囲が前記第2の周波数範囲より高く、
前記第2の音声エネルギに対する前記第1の音声エネルギの比率を求め、
前記求められた比率に基づいて、前記少なくとも1つの制御可能なカメラの前記方向づけられた視野を制御する処理ユニットと、
を具備したビデオ会議装置。
【図1A】
【図1B】
【図2】
【図3A】
【図3B】
【図4】
【図5A】
【図5B】
【図6】
【図7】
【図8A】
【図8B】
【図9A】
【図9B】
【図1B】
【図2】
【図3A】
【図3B】
【図4】
【図5A】
【図5B】
【図6】
【図7】
【図8A】
【図8B】
【図9A】
【図9B】
【公開番号】特開2013−5451(P2013−5451A)
【公開日】平成25年1月7日(2013.1.7)
【国際特許分類】
【出願番号】特願2012−137371(P2012−137371)
【出願日】平成24年6月18日(2012.6.18)
【出願人】(509270096)ポリコム,インク. (18)
【Fターム(参考)】
【公開日】平成25年1月7日(2013.1.7)
【国際特許分類】
【出願日】平成24年6月18日(2012.6.18)
【出願人】(509270096)ポリコム,インク. (18)
【Fターム(参考)】
[ Back to top ]