説明

会議出席者間の相互作用に従ってCP配置を適合させるための方法およびシステム

【課題】会議出席者間の相互作用に従って、画面分割ビデオ会議のレイアウトを適用するシステムおよび方法を提供する。
【解決手段】ビデオ画像内に見出される関心領域を使用して、会議出席者の画像の配置は、エンドポイントによって表示される際に動的に配置される。配置は、部屋における会議出席者の位置とビデオ会議内の支配的な会議出席者を含め、様々な測定基準に応じる構成とする。ビデオ画像は、ビデオ画像のトリミングおよび鏡像化を含め、配置の一部として操作される。会議出席者間の相互作用が変化するに従い、レイアウトは、変更された相互作用に対応して自動的に再配置される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信分野に関連し、特にビデオ会議のための方法およびシステムに関連する。
【0002】
本出願は、2007年5月21日出願の米国特許出願第11/751,558号の一部継続出願である2010年1月7日出願の米国特許出願第12/683,806号の一部継続出願であり、2009年11月25日出願の米国特許仮出願第61/264,310号に対する優先権を主張し、その全てを全体を目的に引用して本明細書中に組み込む。
【背景技術】
【0003】
ビデオ会議は、相互に遠隔に位置する個人が、音声および映像の通信を使用し、直前の通知であっても向かい合って会議を行うことを可能とする。ビデオ会議は、2箇所(2地点)のみを含んでもよく、または複数のサイト(マルチポイント)を含んでもよい。単独の参加者が会議サイトに位置していてもよく、または数名の参加者が、会議室等のサイトにいてもよい。また、ビデオ会議は、書類、情報等を共有するために使用されてもよい。
【0004】
ビデオ会議において参加者は、ビデオ会議のエンドポイントを経由し、他のサイトの参加者と相互作用する。エンドポイントは、ネットワーク上の端末であり、他の端末またはマルチポイントコントロールユニット(MCU、以下に詳述する)とリアルタイムの双方向音声/映像/データ通信を提供できる。エンドポイントは、会話のみ、会話および映像、または会話、データおよび映像通信等を提供してもよい。ビデオ会議のエンドポイントは、典型的には、1箇所以上の遠隔地からのビデオ画像を表示できる表示ユニットを備える。例となるエンドポイントは、POLYCOM(登録商標)VSX(登録商標)およびHDX(登録商標)シリーズを含み、それぞれPolycom,Inc.から入手可能である(POLYCOM、VSX、およびHDXは、Polycom,Inc.の登録商標である)。ビデオ会議のエンドポイントは、ローカルサイトから遠隔サイトに音声、映像、および/またはデータを送信し、画面上に遠隔サイトから受信した映像および/またはデータを表示する。
【0005】
ビデオ会議のエンドポイントにおいて画面上に表示されるビデオ画像は、レイアウト内に配置されてもよい。このレイアウトは、ビデオ画像を表示するための1個以上のセグメントを含んでもよい。セグメントは、そのセッションに参加しているサイトのひとつから受信されるビデオ画像に割り当てられる受信エンドポイントの画面の一部分である。例えば、参加者2人の間のビデオ会議において、セグメントは、ローカルのエンドポイントの画面の全表示範囲に及んでもよい。他の例は、その会議の動きに応じて、1箇所の他の遠隔サイトのみからの映像が、一時点においてローカルサイトで表示され、表示される遠隔サイトが切り替えられるように、ビデオ会議がスイッチモードで実施される、ローカルサイトおよび複数の他の遠隔サイトの間のビデオ会議である。対照的に、コンティニュアンスプレゼンス(CP)会議において、端末の会議出席者が、会議における数箇所の他の参加者のサイトを同時に観察できる。それぞれのサイトは、レイアウトの異なるセグメント内に表示されてもよく、ここで各セグメントは、同じ大きさであるか、または異なる大きさであってもよい。表示され、レイアウトのセグメントに関連付けられるサイトの選択は、同じセッション内に参加する、異なる会議出席者の間で異なっていてもよい。コンティニュアンスプレゼンス(CP)レイアウトにおいて、あるサイトから受信されるビデオ画像は、セグメントのサイズに合わせるために縮小またはトリミングされてもよい。
【0006】
MCUはビデオ会議を管理するために使用されてもよい。MCUは、ネットワークのノード、端末、または他のサイトに配置されてもよい会議管理体である。MCUは、ある基準に従って、アクセスポートから数個のメディアチャンネルを受信し、処理し、これらを他のポートを経由して接続されているチャンネルに分配してもよい。MCUの例としては、Polycom Inc.から入手可能な、MGC−100およびRMX(登録商標)2000を含む(RMX2000はPolycom,Inc.の登録商標である)。いくつかのMCUは、メディアコントローラ(MC)およびメディアプロセッサ(MP)の2つの論理ユニットを含む。エンドポイントおよびMCUの更に完全な定義は、H.320、H.324、およびH.323規格等だが、これらに限定されない国際電気通信連合(「ITU」)の規格において見出すことができる。ITU規格に関する付加的な情報は、ITUのウェブサイトであるwww.itu.intで見出すことができる。
【0007】
受信エンドポイント(サイト)の画面レイアウトのセグメント内にビデオ画像を提示するために、全ての受信ビデオ画像は、操作され、縮小され、表示されてもよく、またはビデオ画像の一部分は、MCUによってトリミングされ、表示されてもよい。MCUは、ビデオ会議のレイアウト内のセグメントの範囲に受信される会議出席者のビデオ画像を合わせるために、そのひとつ以上の端部から、行または列をトリミングしてもよい。他のトリミング技術としては、その全内容を引用して本明細書に取り込む米国特許出願第11/751,558号において開示されるように、画像内の重要な領域によって、受信画像の端部をトリミングしてもよい。
【0008】
ビデオ会議セッションにおいて、レイアウト内のセグメントの大きさは、そのセッションのために選択されたレイアウトに従って定義されてもよい。例えば、2X2のレイアウトにおいて、各セグメントは、図1に示されるように、実質上表示の四分の一であってもよい。レイアウト100は、セグメント112、114、116および118を含む。2X2のレイアウトにおいて、5個所がセッションに参加している場合、各サイトの会議出席者は普通、他の4箇所を見ることができる。
【0009】
CPビデオ会議セッションにおいて、サイトとセグメント間の関連性は、会議に関与している活動に従って動的に変更されてもよい。いくつかのレイアウトにおいて、セグメントのひとつは現在の発言者に割り当てられてもよく、他のセグメントは他のサイト、すなわち提示される会議出席者として選択されたサイトに割り当てられてもよい。発言者は、典型的には、観察期間のある特定の割合の間の最も声の大きな発言者等、特定基準に従って選択される。(他のセグメント内の)他のサイトは、前回の発言者、他を超える音声エネルギーを伴うサイト、運営上の判定が可視化されるために必要とされる特定の会議参加者等を含んでもよい。
【0010】
図1に示す例において、表示領域の四分の三のみが、セグメント112、114、および116として使用されており、第4の四分の一118は、背景色によって占められている。かかる状況は、4箇所のみがアクティブであり、各サイトが、他の3箇所を見ている場合に発生する。更にセグメント116は、空いている部屋を表示する一方で、セグメント112および114において提示されるサイトは、それぞれ単一の会議出席者を含んでいる(会議出席者120および130)。このため、セッションのこの期間において、画面領域の半分のみが効果的に使用されており、他の半分は非効果的に使用されている。セグメント116およびセグメント118の領域は、会議出席者の体験に寄与せず、このため、賢明かつ効果的な方法において利用されていない。
【0011】
更に、セグメント112および114両方において見られることがあるように、画像の主要な範囲は冗長的である。ビデオ画像は、部屋の大きな部分を取り込んでいる一方で、会議参加者の画像120および130が小さく、小さな範囲に配置されている。こうして、表示範囲のかなりの部分が、重要ではない範囲で無駄になっている。このため、会議参加者の画像が取り込まれている範囲に悪影響が及び、ビデオ会議のレイアウトを見ている会議出席者の体験は、最適ではない。
【0012】
更に、いくつかの会議セッションにおいて、1箇所以上のサイトに単一の参加者がいる一方で、他のサイトにおいて、2人以上の参加者がいる。現在利用可能なレイアウトにおいて、各サイトは、類似のセグメントサイズを受信しており、その結果、複数の会議出席者がいるサイトでの各出席者は、より少数の参加者がいるサイトにおける会議出席者よりも小さな範囲に表示されており、閲覧者の体験を低質化している。
【0013】
いくつかのビデオ会議セッションにおいて、複数の会議出席者のうちの一人のみが積極的であり、他のサイトと会話をしているサイトがある。通例、部屋のビデオカメラは全室内を捉え、複数の会議参加者を伴って、小さな画面領域を、活動的な会議参加者を含め、会議参加者の各1人に割り当てている。他のセッションにおいて、コンテンツ(データ)はレイアウトの一部として、典型的には、他のセグメント内に提示されるビデオ画像から独立してセグメントのひとつに提示される。
【0014】
会議電話の間に、会議参加者の1人がカメラから離れると、その会議参加者の画像はより小さく見え、またしてもビデオ会議のレイアウトを見ている会議参加者の体験は低質化される。同様に、表示されているサイトの参加者がある時間その部屋を離れ、後に帰ってくると、空いている部屋は、参加者が不在中、レイアウト上に表示される。
【0015】
いくつかの既知の技術において、他のサイトで見ている会議参加者は、自らのエンドポイントで見られるレイアウトを手動によって変更して、会議の動きに対して調整を行うこともあるが、これは、会議出席者が彼らの行っていることを止め、レイアウトメニューを扱ってかかる調整を行うことを必要とする。
【発明の概要】
【0016】
CPビデオ会議のレイアウト内にセグメントを配置するための既存の方法は、異なるサイトに配置されている会議出席者およびそのレイアウトを見ている会議出席者間の相互作用(interaction)を無視している。図1の従来技術のCPレイアウト100を見る会議出席者は、2人の会議出席者120および130が背中合わせに座っているような会議の不自然な光景を見る。影響は、2人の会議出席者が、セッション内で支配的な会議出席者であり、発言のほとんどが彼らの間で行われると、更に悪化することもある。かかるレイアウトは、同僚間の会議を反映していない。
【0017】
異なるサイトにおいて提示される会議出席者間の相互作用に従ったレイアウトを適用し、配置することは、レイアウトに基づいてCPビデオ画像の視聴者となる体験を改善できる。異なるサイトにおいて異なる会議出席者間の相互作用に従ったレイアウトを適用し、配置することは、会議出席者が互いを見るような、実際の会議に類似する体験を提供することができる。更に、異なるサイトにおける会議出席者間の相互作用に対してレイアウトを適用することは、レイアウトに基づいたCPビデオ画像を観察する他のサイトにおける会議出席者の体験を改善することができる。例えば、1人のみが活動的であるような、複数の会議出席者を伴うサイトは、ひとつが会議出席者の全グループを提示し、他が活動的な会議出席者をより大きなサイズにおいて提示するというように、2つのセグメント内で提示されてもよい。
【0018】
図2は、図1と同様にビデオ会議のセッションの例であるレイアウト200を示しており、レイアウト200において、サイトBおよびAから来るビデオ画像の位置が交換されており、会議のより忠実な感覚を与える。会議出席者130を伴うサイトBは、セグメント114内に提示されるのではなくセグメント112に提示され、サイトAからの画像120は、セグメント112内に提示されるのではなくセグメント114に提示されている。新たな配置は、部屋において着席している2人の会議出席者120および130の間の相互作用をよりよく反映する。新たな配置は、背中合わせに座っている会議出席者と比較すると、快適な感覚を与える。更に、レイアウト配置は、彼もまた会議出席者の1人であるという、閲覧者の体験を強固にする。なぜならば、レイアウト内の新たな配置における提示される会議出席者は、視聴者に対して向いているかのように、レイアウトの中央に向いているからである。いくつかの実施の形態において、サイトCからのビデオ画像を伴うセグメント116は、中央に移動されてもよい。
【0019】
提示されるサイト間の相互作用は、あるサイトにおける人(達)の配置/相対位置、その人(達)が向いている方向等といった、会議において支配的な2箇所以上のサイトを含んでもよい。異なる技術としては、部屋の中心に関する会議出席者のサイトを発見することを支援してもよい。ある技法の一実施の形態としては、会議出席者の視線の方向に関する情報を用いてもよい。複数のビデオ会議のセッションを観察することから、我々は、両者が部屋の中心に向きながら、画像の左側部分に配置される会議出席者は典型的には右側を見ており、これに対して右側部分の会議出席者は左側を見ていることを発見した。(左および右の方向は、その画像を見ている人の視点による。)異なるサイトにおいて着席している会議出席者の間の相互作用を判定するために、実施の形態は、セッション内に参加している異なるサイトからの、復号され、受信されるビデオ画像を処理してもよい。
【0020】
周期的に(各判定期間)、各ビデオ画像内の関心領域(ROI)が見出されてもよく、それぞれ受信されるビデオ画像内のROIの相対的な配置に関して判定がなされてもよい。結果に基づき、一実施の形態において、会議出席者が部屋の左側の区域内に着席しているサイトに対して左側のセグメントを割り当て、会議出席者が部屋の右側の区域内に着席しているサイトに対して右側のセグメントを割り当ててもよい。図2に示すように、セグメント112は会議出席者130を伴うサイトBに割り当てられ、これに対してセグメント114はサイトAに割り当てられる。
【0021】
いくつかの実施の形態において、異なるサイトにおける会議出席者が同じ相対位置において着席しており(その部屋の中心に対して左側または右側)、ひとつ以上の画像が鏡像化されてもよい。画像の鏡像化は、例えば、映像データを各列の右端から左端へと読み取り、映像データをCPレイアウト内の関連するセグメント内の適切な列の左端から右端へと書き出すことによって、いくつかの実施の形態においてCPレイアウトを構築しながら行ってもよい。レイアウト内の配置は、直前に支配的であったサイトのひとつに代わって、他のサイトが支配的になる等、動的に変更されてもよい。支配的なサイトは、例えば、残りの提示される会議出席者が無言である間に、会議のある期間において、意見交換としての会話を行っているいずれかの2箇所のサイトであってもよい。
【0022】
異なるアルゴリズムが、それぞれのサイトのビデオ画像内のROIを判定するために使用されてもよい。時宜に応じて、実施の形態において、異なるサイトから受信されるビデオ画像のそれぞれひとつから、単一のフレームを格納してもよい。それぞれ格納されたフレームは、ROIを定義するために分析されてもよい。アルゴリズムの実施の形態において、ビデオ画像の範囲の色調を分析し、会議出席者が表示されるような区域を定義するために肌の色を探してもよい。かかる実施の形態において、会議出席者を検出するために、肌の色調の蓄積を含んでもよい。
【0023】
他の実施の形態において、ROIの配置を判定するための動作検出を使用してもよい。一実施の形態において、動作検出は、圧縮された映像ファイルに関連付けられた動作ベクトルを基礎としてもよい。動作検出の他の実施の形態において、連続した複合されたフレームの間の変化領域の領域を検索してもよい。
【0024】
他の実施の形態において、会議出席者の顔の配置を判定するための顔検出ソフトウェアを使用してもよい。顔検出ソフトウェアのひとつの例は、Fraunhofer IISのSHOREソフトウェアである。SHOREは、顔および物の検出ならびに微細な分析のための、最適化されたソフトウェアライブラリーである。(SHOREは、Fraunhofer IISの登録商標である。)他のかかるソフトウェアは、NeurotechnologyのVeriLook SDKである。更に他の顔検出ソフトウェアは、Intel Corp.によってもともと開発されたOpenCVである。
【0025】
読者は、顔検出ソフトウェアの更なる情報を、www.consortium.ri.cmu.edu/projOmega.phpおよびwww.consortium.ri.cmu.edu/projFace.phpで見つけることができる。検出される顔の大きさおよび配置に基づいて、ある実施の形態において、ビデオ画像の中心に対するROIの配置を見積もってもよい。
【0026】
他の実施の形態において2つ以上のマイクを使用し、話者の配置を判定することを可能とするとともに、複数のマイクから受け取る音声エネルギーを処理することによって部屋の中の画像のROIを判定することを可能とし、部屋の中の話者の相対位置を判定する。
【0027】
いくつかの実施の形態において、サイトは複数のマイクを有し、それぞれのマイクから受け取る音声信号のエネルギーは、部屋の残りの会議出席者が受動的または無言である間、一人の会議出席者が活動的な会議出席者であるか否かを判定するために使用されてもよい。活動的な会議出席者は、ある期間の時間(例えば、数秒から数分)に、その部屋内において、ある割合(例えば、70パーセントから90パーセント)を超えて発言を行った会議出席者として定義されてもよい。活動的な会議出席者が定義されると、活動的な会議出席者の周囲においてトリミングされた、サイトからのビデオ画像の一部が提示されるような、映像セグメントが配置されてもよい。このセグメントは、全てのサイトを提示するセグメントに加えて、レイアウトに追加されることができる。
【0028】
いくつかの実施の形態において、活動的な会議出席者の周囲の、トリミングされる領域の境界についての判定は、複数のマイクから受け取る音声エネルギーを分析することと相互関係をもつ顔検出装置を使用することによって実施されてもよい。他の実施の形態において、かかるサイトに2つのセグメントを割り当て、1つを会議出席者のグループ全体のビデオ画像に割り当て、更に1つを活動的な会議出席者の周囲においてトリミングされる領域に割り当てるかわりに、単一のセグメントが、活動的な会議出席者に割り当てられてもよい。更に、分割されたセグメント内において活動的な会議出席者は処理され、レイアウトの中央に面するレイアウト内に置かれてもよい。
【0029】
いくつかの実施の形態において、ROI検出装置はエンドポイントにあってもよく、ROIの相対位置は、プロプリエタリメッセージまたはヘッダ内のビデオ画像とともに送信されてもよい。
【0030】
更に他の実施の形態において、RFトラッカーが、部屋の中の加入者の配置を定義するために使用されてもよい。信号は、エンドポイントと関連付けられた部屋の中に配置される2つ以上のアンテナによって受信されてもよい。受信されたRF信号は、エンドポイントによって処理されてもよく、その配置は、プロプリエタリメッセージまたはヘッダ内のビデオ画像とともに送信されてもよい。
【0031】
いくつかの実施の形態において、他の技術が、異なるサイトの間の相互作用を定義するために使用されてもよい。例えば、それぞれのサイトから受け取る音声エネルギーの表示が処理されてもよい。その処理は、ある期間の時間に、話者間の相互作用を追跡してもよい。相互作用が2箇所のサイト間にあれば、その2箇所のサイトからの画像は、レイアウト200の画像112および114のように、相互に向き合う上方列に置かれてもよい。サイトは、支配的なサイトまたは支配的な会議出席者として言及されてもよい。いくつかの実施の形態において、支配的なサイトは、より大きなセグメント内に提示されてもよい。
【0032】
いくつかの実施の形態において、例えば、異なるサイトからのビデオ画像に割り当てられるセグメントに加えて、コンテンツが1つのセグメントにおいて提示されるようなビデオ会議セッションにおいて、異なるサイト間の相互作用を定義するために他の技法が使用されてもよい。コンテンツは、レイアウトの中心のセグメントにおいて提示されてもよく、これに対して、異なるサイトからのビデオ画像がコンテンツのセグメントの周囲において提示されてもよい。割り当てられているセグメント内のそれぞれのビデオ画像は、会議出席者がコンテンツに向いているように、操作されてもよい。更に、コンテンツを生成するエンドポイントは、コンテンツの一方の側に提示されることができ、これに対して、他のサイトは、コンテンツの他の側に提示されることができる。
【0033】
他の実施の形態において、ROIの相対位置は、手作業によって定義されてもよい。かかる実施の形態において、クリック・アンド・ビュー機能が、各サイトのビデオ画像内のROIを指示するために使用されてもよい。クリック・アンド・ビュー機能について更に知りたいと希望する読者は、米国特許第7,542,068号を読むことを薦められるが、その全体を目的として本明細書に引用して組み込む。代替として、いくつかの実施の形態において、サイト間の相互作用は、クリック・アンド・ビュー機能を使用することにより、会議出席者の一人によって手作業で定義されてもよい。
【0034】
開示のこれらおよび他の様態は、添付図面および詳細な説明に照らして明白となる。前述の概要は、それぞれ可能な実施の形態または本発明のすべての様態を要約することを意図したものではなく、本発明の他の特長および利点は、以下の添付図面および特許請求の範囲とともに実施の形態の詳細な説明を通読することによって明白となる。更に、従来のビデオ会議における上述の課題は、いかなる方法においても発明の概念の範囲を限定することを意図するものではなく、説明のためのみに提示されている。
【0035】
更に、具体的な実施の形態は当該技術に精通する者に対して発明の概念を示すために詳細に説明されるが、かかる実施の形態は、種々の変更および代替様式の余地がある。従って、図面および記載の説明は、いかなる方法によっても発明の概念の範囲を限定することを意図するものではない。
【0036】
添付図面は、本明細書に組み込まれ、その一部を構成するものであり、本発明と一致する装置および方法の実施を示し、詳細な説明とともに、本発明と一致する利点および原理を説明するものである。
【図面の簡単な説明】
【0037】
【図1】従来の技術である2X2の表示されるレイアウトの例を示す図。
【0038】
【図2】本発明の一実施の形態による、異なるサイトにおいて参加者の相互作用に従って適用されるレイアウトを示す図。
【0039】
【図3】本発明の一実施の形態による、マルチメディア・マルチポイント会議システムの関連要素を持つブロック図を示す図。
【0040】
【図4】本発明の一実施の形態による、異なるサイトにおいて参加者の相互作用に従ってCPレイアウトを動的かつ自動的に適用できるMCUの関連要素を示す図。
【0041】
【図5】本発明の一実施の形態による、相互作用検知出コンポーネント(IDC)の関連要素を持つブロック図を示す図。
【0042】
【図6】本発明の一実施の形態による、ビデオ会議システムにおける異なるサイトにおけるサイト間の相互作用を定義する技術のためのフローチャートを示す図。
【0043】
【図7A】本発明の一実施の形態による、1つ以上のCPレイアウトを自動的かつ動的に適用する技術のためのフローチャートを示す図。
【図7B】本発明の一実施の形態による、1つ以上のCPレイアウトを自動的かつ動的に適用する技術のためのフローチャートを示す図。
【発明を実施するための形態】
【0044】
以下の説明において説明を目的とし、本発明に対する十分な理解を提供するために、多くの具体的な詳細を述べる。しかしながら、当該技術に精通する者にとって、本発明を、これらの具体的な詳細を要せずに実施できることは明白である。他の場合において、本発明を不明瞭なものとすることを避けるために、構成および装置をブロック図で示す。下付き文字を伴わない数字に対する参照は、参照される数字に対応する下付き文字の全ての場合を参照するものとして理解される。更に、本開示において使用される言語は、主として判読性および説明的目的のために選択されており、本発明の主題を画定または制限するために選択されておらず、請求範囲によりかかる発明の主題を判定するよう必要とする。「一実施の形態」または「実施の形態」に対する本明細書における参照は、実施の形態に関して説明される特定の特長、構成、または特性が、本発明の少なくとも一実施の形態に含まれることを意味し、「一実施の形態」または「実施の形態」に対する複数の参照の全てが、必ずしも同じ実施の形態を参照しているものとして理解されてはならない。
【0045】
以下の説明のいくつかは、ソフトウェアまたはファームウェアに関する用語で記載されてはいるが、実施の形態において、ソフトウェア、ファームウェア、およびハードウェアのすべての組み合わせを含む、望みのソフトウェア、ファームウェア、またはハードウェアの、本明細書に記載される特長および機能を実施してもよい。デーモン、ドライバ、エンジン、モジュール、またはルーチンに対する参照は、実施の形態をいかなる種類の実行にも限定することを意味するものとして考えてはならない。
【0046】
同じ番号が、開示されるシステムおよび方法のいくつかの視野、実施の形態、局面および特長を通して、同じ要素を指示する図面について述べる。利便性のために、同じグループの同じ要素のみが番号によって指示されることがある。図の目的は、実施の形態を説明することであり、作製または限定することではない。
【0047】
図1および図2は上述されており、更に説明されることはない。図3は、一実施の形態による、マルチメディア・マルチポイント会議システム300の一部の関連要素を持つブロック図を示している。システム300は、1つ以上のMCU320を接続するネットワーク310および複数のエンドポイント(サイト)330A_Nを含んでもよい。ネットワーク310が複数のMCU320を含むいくつかの実施の形態において、仮想MCUが、複数のMCUを制御するために使用されてもよい。仮想MCUの更なる情報は、米国特許第7,174,365号において見出すことができ、そのすべてを目的として引用して本明細書に組み込む。エンドポイント330(端末として言及されることもある)は、ネットワーク上の実体であり、他のエンドポイント330またはMCU320とのリアルタイム、双方向音声および/または視覚通信を提供することができる。エンドポイント330は、コンピューター、PDA(携帯情報端末)、携帯電話、マイクおよびカメラを持つテレビ等として実施されてもよい。
【0048】
MCUは、ビデオ会議を管理するために使用されてもよい。MCUは、ネットワークのノード、端末、または他のいずれかに配置されても良いような会議を制御する実体である。MCUは、ある基準に従って、アクセスポートからいくつかのメディアチャンネルを受信し、処理し、他のポートを介してそれらを接続されているチャンネルに配信する。MCUの例としては、Polycom Inc.から利用可能なMGC−100および RMX(登録商標)2000を含む(RMX 2000は、Polycom, Inc.の登録商標である)。いくつかのMCUは、メディアコントローラ(MC)およびメディアプロセッサ(MP)の2つの論理ユニットを含む。エンドポイントおよびMCUの更に完全な定義は、H.320、H.324、およびH.323規格等だが、これらに限定されない国際電気通信連合(「ITU」)規格において見出すことができる。ITU規格に関する付加的な情報は、ITUのウェブサイトwww.itu.intで見出すことができる。
【0049】
ネットワーク310は、単一ネットワークまたは2つ以上のネットワークの組み合わせを表わしてもよい。ネットワーク310は、パケット切換ネットワーク、サーキット切換ネットワーク、およびサービス総合ディジタル網(ISDN)ネットワーク、公衆電話交換回線網(PSTN)、非同期転送モード(ATM)ネットワーク、インターネット、またはイントラネットを含むいかなる種類のネットワークであってもよい。ネットワーク上のマルチメディア通信は、H.320、H.324、H.323、SIP等を含むいかなる通信プロトコルに基づいてもよい。
【0050】
エンドポイント(EP)330A_NおよびMCU320の間で通信される情報は、信号発信および制御、音声情報、映像情報、および/またはデータを含んでもよい。エンドポイント330A_Nの異なる組み合わせが会議に参加してもよい。エンドポイント330A_Nは、発話、データ、映像、信号発信、制御、またはそれらの組み合わせを提供してもよい。
【0051】
エンドポイント330A_Nは、EP330およびMCU320におけるユーザー間のインターフェイスとして動作してもよいリモートコントロール(不図示)を備えてもよい。リモートコントロールは、DTMF(デュアルトーンマルチ周波数)信号、遠隔カメラ制御、制御パケット等を使用してもよいダイヤルキーボード(例えば、電話のキーパッド)を備えてもよい。
【0052】
エンドポイント330A_Nは、会議内においてエンドポイントでユーザーが発言できるよう、または他のユーザーによって聞かれる音および雑音に供される1つ以上のマイク(不図示)、エンドポイント330A_Nが生の映像データを会議に入力できるカメラ、1つ以上のスピーカーおよびディスプレイ(画面)も備えてもよい。
【0053】
システム300の説明部分は、もっとも関係のある要素のみを備え、説明している。システム300の他の部分は説明しない。システムの構成および必要に応じて、各システム300がその他の数のエンドポイント330、ネットワーク310、およびMCU320を有してもよいということは、当該技術に精通する者にとって明白であろう。しかしながら、明確化のために、複数のMCU320を伴うネットワーク310を示す。
【0054】
MCU320およびエンドポイント330A_Nは、 本開示の種々の実施の形態に従って動作して、マルチポイントビデオ会議のCPビデオ画像を見ている会議出席者の体験を改善するよう適用されてもよい。集中アーキテクチャを実行する実施の形態において、MCU320は、本明細書に説明される自動表示適用技術を行うよう適用されてもよい。代替として、分散アーキテクチャにおいて、MCU320と同様にエンドポイント330A_Nは、自動表示適用技術を行うよう適用されてもよい。異なる実施の形態によるMCU320およびエンドポイント330A_Nの動作についての更なる情報を、以下に説明する。
【0055】
図4は、一実施の形態によるMCU400を示している。MCU400は、ネットワークインターフェイスモジュール(NI)420、音声モジュール430、制御モジュール440、および映像モジュール450を含んでいてもよい。MCU400の代替の実施の形態は、他のコンポーネントを有してもよく、および/または図4に示す全てのコンポーネントを含んでもよい。ネットワークインターフェイスモジュール420は、ネットワーク310を介して複数のエンドポイント330A_Nから通信を受信してもよい。NI420は、H.320、H.321、H.323、H.324、セッションイニシエーションプロトコル(SIP)等を含む、1つ以上の通信規格に従って通信を処理してもよい。ネットワークインターフェイス420はまた、H.261、H.263、H.264、G.711、G.722、MPEG等を含む1つ以上の圧縮規格に従って通信を処理してもよい。ネットワークインターフェイス420は、他のMCUおよびエンドポイントへ、および他のMCUおよびエンドポイントから、制御およびデータ情報を受信および送信してもよい。ネットワーク310上でのエンドポイントおよびMCUの間の通信に関する更なる情報、ならびに信号発信、制御、圧縮、およびビデオ電話を説明している情報は、国際電気通信連合(「ITU」)の規格であるH.320、H.321、H.323、H.261、H.263、H.264、G.711、G.722、およびMPEG等、またはIETFネットワークワーキンググループのウェブサイト(SIPについての情報)から見出すことができる。
【0056】
MCU400は、提示したサイト間で検出された相互作用に従ってCPレイアウトを動的かつ自動的に適用する。提示したサイト間の相互作用は、会議において支配的な2つ以上のサイト、あるサイトにおける人(達)の配置、その人(達)が向いている方向等を含んでもよい。
【0057】
ネットワークインターフェイスモジュール420は、異なる信号、メディア、および/またはエンドポイント330A_NおよびMCU320の間で通信される「信号発信および制御」を多重送信化または多重分離化してもよい。圧縮された音声信号は、音声モジュール430へ、および音声モジュール430から送信されてもよい。圧縮された映像信号は、映像モジュール450へ、および映像モジュール450から送信されてもよい。「制御および信号発信」信号は、モジュール440へ、およびモジュール440から転送されてもよい。更に、分散アーキテクチャが使用される場合、ネットワークインターフェイスモジュール420は、制御モジュール440およびエンドポイント330A_Nの間において転送される、自動的かつ動的なCPレイアウト適用関連情報を扱うことができてもよい。
【0058】
動的CPレイアウト適用情報がRTP(リアルタイムトランスポートプロトコル)パケットのペイロードの、所定のヘッダの一部として送信される実施の形態において、NI420は、所定のヘッダを処理して、RTPパケットに自動的かつ動的CPレイアウト適用情報を付加し、更にRTPパケットをエンドポイント330A_N等に向けて送信するよう成されてもよい。実施の形態において、いくつかの動的CPレイアウト適用情報は、エンドポイントのディスプレイで表示されるレイアウトに関する、エンドポイントからの要求を含んでもよい。代替の実施の形態において、動的CPレイアウト適用情報は、遠隔カメラ操作(FECC)チャンネル(図4に不図示)を経由して送信されてもよく、またはプロプリエタリプロトコルに応じる専用パケットのペイロードとして送信されてもよい。更に他の実施の形態において、動的CPレイアウト適用情報は、MCUの内部モジュールによって検出され、送信されてもよい。動的CPレイアウト適用情報は、ROI(関心領域)、ROIが面している方向、ビデオ画像の中心と比較したROIの相対位置、および/またはサイト間の相互作用等を含んでもよい。
【0059】
音声モジュール430は、NI420を介し、更に音声ライン422を通じて、複数のエンドポイント330A_Nのから圧縮された音声ストリームを受信してもよい。音声モジュール430は、受信される圧縮された音声ストリームを処理してもよい。音声モジュール430は、受信される音声ストリームから関連する音声ストリームを解凍、復号、および合成してもよい。音声モジュール430は、圧縮され、エンコードされている合成された信号を、エンコードし、圧縮し、音声ライン422およびNI420を介して1つ以上のエンドポイント330A_Nに転送してもよい。
【0060】
音声モジュール430は、ネットワークインターフェイス420を介して、複数のエンドポイント330A_Nから圧縮されている音声ストリームを受信してもよい。音声モジュール430は、圧縮されている音声ストリームを復号し、復号されたストリームを分析し、特定のストリームを選択し、選択されたストリームを合成してもよい。合成されたストリームは圧縮されてもよく、圧縮された音声ストリームはネットワークインターフェイス420に送信されてもよく、ネットワークインターフェイスは圧縮された音声ストリームを異なるエンドポイント330A_Nへと送信する。異なるエンドポイントへと送信される音声ストリームは、異なってもよい。例えば、音声ストリームは、異なる通信規格に従い、更に個々のエンドポイントの必要に従い、フォーマットされてもよい。音声ストリームは、音声ストリームが送信されるエンドポイントと関連付けられる会議出席者の音声を含まなくてもよい。しかし、会議出席者の音声は、他の全ての音声ストリーム内に含まれてもよい。
【0061】
実施の形態において、音声モジュール430は、少なくとも1つのDTMFモジュール435を含んでもよい。DTMFモジュール435は、受信された音声ストリームからDTMF(デュアルトーンマルチ周波数)信号を検出および/または捕捉してもよい。DTMFモジュール435は、DTMF信号をDTMF制御データに変換してもよい。DTMFモジュール435は、DTMF制御データを、制御ライン444を介して制御モジュール440に転送してもよい。DTMF制御データは、相互作用型音声応答(IVR)等であるが、これに限定されない相互作用型インターフェイスを使用する会議を制御するために使用されてもよい。他の実施の形態において、DTMF制御データは、クリック・アンド・ビュー機能を介して使用されてもよい。本発明の他の実施の形態において、DTMFモジュール435に加えて、またはDTMFモジュール435に代えて会話認識モジュール(不図示)を使用してもよい。これらの実施の形態において、会話認識モジュールは、ビデオ会議のパラメータを制御するために会議出席者の音声コマンドを使用してもよい。
【0062】
音声モジュール430は、エンドポイントから受け取られる音声信号を分析し、それぞれの音声信号のエネルギーを判定するよう成されていてもよい。信号のエネルギーの情報は、制御ライン444を介して制御モジュール440に転送されてもよい。いくつかの他の実施の形態において、2つ以上のマイクが、特定のサイトにおいて使用されてもよい。かかる実施の形態おいて、音声モジュール430は、音声相互作用型検出コンポーネント(AIDC)437を備えてもよい。各マイクからのエネルギーは、AIDC437に転送されてもよく、更に関心領域(ROI)の配置および/または特定のサイトにおけるROIの相対位置を判定するために使用されてもよい。いくつかの実施の形態において、エネルギーレベルは、ビデオ会議内において合成される音声源として適切な1箇所以上のエンドポイントを選択するための選択パラメータとして使用されてもよい。エンドポイントは、選択されたエンドポイントまたは提示されるエンドポイントとして参照されてもよい。分散アーキテクチャの他の実施の形態において、エンドポイント330A_Nは、音声モジュール430の機能のいくつかを有してもよい。
【0063】
典型的なMCUの共通の動作に加えて、MCU400は、制御モジュール(CM)444を有する結果として付加的な動作を行うことができる。制御モジュール440は、MCU400の動作およびその内部のモジュールの動作を制御してもよい。そのような内部モジュールは、音声モジュール、映像モジュール450等であるが、これに限定されない。制御モジュール440は、MCU400の異なる内部モジュールから受信した指示を処理してもよい論理モジュールを含んでもよい。制御モジュール440の実施の形態は、制御ライン444を介してDTMFモジュール435から受信した指示を処理してもよい。制御信号は、制御ライン444、446、および/または448を介して送信、受信されてもよい。そのような制御信号は、クリック・アンド・ビュー機能を介して参加者から受信したコマンド、映像モジュール450からの検出されたステータス情報等であるが、ただしこれに限定されない。
【0064】
制御モジュール440は、MCU400の動作を制御する論理ユニットであってもよい。典型的なMCUの共通の動作に加えて、MCU400は、制御モジュール440を有する結果として付加的な機能を行うことができてもよい。制御モジュール440は、各サイトにおいて表示されるレイアウトを適用する相互作用型レイアウトコントローラ(ILC)442を含んでもよい。ILC442は、会議電話に参加するサイトの数、どのサイトが退出したのか、どのサイトが会議から去ったのか、どのサイトが会議に加えられたのか等を含め、NI420から情報および更新を受信してもよい。他の種類の情報には、一人以上の参加者が要求するレイアウト等に関するコマンドを含んでもよい。
【0065】
一実施の形態において、ILC422は、1つ以上のエンドポイント330A_Nにおいて表示されるレイアウトを判定および/または制御してもよい。ILC442は、NI420および/またはDTMF 435を介してエンドポイント330A_Nから制御情報を受信してもよい。ILC442は、また、音声モジュール430、映像モジュール450を含むMCU400の内部ユニットから検出された情報、および異なるビデオ画像におけるROIの相対位置を受信してもよい。異なる情報および制御情報に従って、ILC442は、各レイアウトを配置し、制御ライン448を介して映像モジュール450の内部ユニットに制御コマンドを送信する方法を判定してもよい。コマンドの例としては、どのビデオ画像を表示するのか、レイアウト内の各ビデオ画像の配置、画像を鏡像化するための要求、特定のサイトからの画像の拡大または縮小、ある数のセグメントを伴うレイアウトの構築または更新等を含んでもよい。ILC442の更なる情報は、図7との関連で開示される。
【0066】
映像モジュール450は、複数のエンドポイント330A_Nからの圧縮された映像ストリームを受信してもよく、それはネットワーク310を介し、NI420によって処理されてMCU400へと送信される。映像モジュール450は、MCU400によって現在実施されている一件以上の会議と関連付けられる1つ以上のレイアウトに従って、1つ以上の圧縮されたCPビデオ画像を作成してもよい。
【0067】
映像モジュール450の実施の形態は、1つ以上の入力モジュール451A_X、1つ以上の出力モジュール455A_X、および映像共通インターフェイス454を含んでもよい。入力モジュール451A_X は、1箇所以上の参加しているエンドポイント330A_Nからの、圧縮された入力映像ストリームを扱ってもよい。出力モジュール455A_Xは、1箇所以上のエンドポイント330A_Nに、CPビデオ画像の映像ストリームの、構成されている圧縮された出力を生成してもよい。
【0068】
圧縮された出力映像ストリームは、いくつかの入力ストリームから構成されて、指定されたエンドポイントのための会議を表す映像ストリームを形成してもよい。入力ストリームは、修正されてもよい。圧縮されていない映像データは、共通インターフェイス454上の入力モジュール451A_Xおよび出力モジュール455A_Xによって共有されてもよく、それは時分割多重(TDM)インターフェイス、非同期転送モード(ATM)インターフェイス、パケットに基づくインターフェイス、および/または共有メモリを含む、何らかの適する種類のインターフェイスを備えてもよい。共通インターフェイス454上のデータは、まったく圧縮されていないか、または部分的に圧縮されていなくてもよい。一例となる映像モジュール450の動作は、米国特許第6,300,973号において説明されている。
【0069】
各入力モジュール451A_Xは、圧縮された入力映像ストリームを復号するためのデコーダ452を備えていてもよい。一実施の形態において、各入力モジュール451A_Xは、相互作用型デコーダコンポーネント(IDC)453も備えていてもよい。代替の実施の形態において、全入力モジュール452に対して1つのIDC453があってもよい。IDC453の実施の形態は、ビデオ画像内のROIおよび/またはROIの相対位置を検出してもよい。IDC453は、異なるサイト330A_N間の相互作用を検出してもよい。IDC453は、異なる入力映像ストリームから、検出された情報を、ILC442に通知してもよい。その情報は、制御ライン448を介して送信されてもよい。
【0070】
時宜に応じて、定期的に、および/またはILC442からコマンドを受信した際、IDC453の実施の形態は、デコーダ452によって出力されたデータを捕捉し、サンプリングし、分析してもよい。IDC453の実施の形態は、関連付けられたエンドポイント330から受信した、復号されたビデオ画像を分析するよう成されていてもよく、ビデオ画像における1つ以上のROIおよび/またはそれらの相対位置の座標を定義するよう成されていてもよい。IDC453の分析は更に、異なるエンドポイント間の相互作用を判定するために使用されてもよい。
【0071】
検出は、1種類以上の異なる技術、動作検出、肌色検出装置、同じ室内に配置された複数のマイクから受信した音声信号の音声エネルギー、顔検出装置または異なる検出装置の異なる組み合わせによって行われてもよい。音声信号の表示は、音声モジュール430から受け取ってもよい。IDC453は、検出された情報を、制御ライン448を介してILC442に出力してもよい。IDC453の動作についての更なる情報を、図5と関連して開示する。
【0072】
一実施の形態において、エンドポイント330A_Nのそれぞれに対して映像入力モジュール451がある。同様に、映像モジュール450は、エンドポイント330A_Nのそれぞれに対して、1つの映像モジュールを含んでもよい。各出力モジュール455は、エディタモジュール456を備えていてもよい。エディタモジュール456は、情報および/または制御コマンドをILC442から受信してもよい。各映像出力モジュール455は、複数のエンドポイント330A_Nの特定のエンドポイントに対して特化させた画像レイアウトを生成してもよい。各映像モジュール455は更に、出力映像ストリームをエンコードできるエンコーダ458を備えていてもよい。他の実施の形態において、1つの出力ビデオ455モジュールは、複数のエンドポイント330A_N、または会議に参加しているエンドポイント330A_Nのすべてさえも支援してもよい。
【0073】
入力モジュール451A_Xからの映像データは、ILC442から受信されるコマンドに従って、適切な出力モジュール455A_Xにより、共通インターフェイス454から受信されてもよい。
【0074】
エディタ456は、CP画像の、構成された映像に関連付けられたレイアウト内の画像の配置および大きさに従って、エディタフレームメモリ内にて、それぞれ選択される会議出席者の映像データを修正、拡大縮小、トリミング、および配置をしてもよい。修正は、ILC442から受信される指示に従って行われてもよい。その指示には、エンドポイント間で特定される相互作用および画像内において特定されるROIの配置を考慮してもよい。画面レイアウト上の各長方形(セグメント、ウィンドウ)は、異なるエンドポイント330からの修正された画像を含んでいてもよい。
【0075】
エディタフレームメモリがすべての選択され、修正された会議参加者の画像とともに準備される場合、フレームメモリ内のデータは、エンコーダ458によってエンコードされるために準備される。エンコードされたデータ映像ストリームは、その関連するエンドポイント330に向かって送信されてもよい。構成され、エンコードされ、圧縮されたCP出力映像ストリームは、映像ライン424を介してNI420へ送信されてもよい。NI420は、1つ以上のCPの圧縮映像ストリームを、関係する1つ以上のエンドポイント330A_Nに対して転送してもよい。
【0076】
代替の実施の形態において、リレーMCU320が実行され、エンドポイント330は、そこで表示されるCP映像イメージを構築することができる。かかる実施の形態において、ILC442は、エンドポイント330A_Nそのものにコマンドを提供することができてもよい。リレーMCUの一実施の形態は、米国特許出願等12/542,450号において開示されており、その内容全体を目的として引用して本明細書に組み込む。かかる実施の形態において、あるセグメントサイズを持つある数のセグメント、各セグメントの配置、画像に対する何らかの修正等が表示されるように、各画像のROIの、例えばピクセル単位の大きさ、およびレイアウト内のセグメント間の相互作用が、エンドポイント330に対する要求とともに、レイアウトを提示するためにエンドポイント330に送信される。エンドポイントとのかかる通信は、例えば、インターネットプロトコル(IP)接続上での帯域外であってもよい。他の実施の形態において、通信は、例えば、RTPパケット、またはFECCのペイロードの所定のヘッダの一部として、帯域内であってもよい。
【0077】
リレーMCU400の更に他の実施の形態において、IDC453および/またはAIDC437は、エンドポイント330のエンコーダ前方のエンドポイント330内に埋め込まれてもよい。相対位置情報は、検出されたパケットのペイロードとして、ネットワーク310およびNI420を介して、MCU400上のILC442に送信されてもよい。かかる実施の形態において、ILC442は、エンドポイント330内のエディタにレイアウトの指示を送ってもよい。エンドポイント330内のエディタは、CPレイアウトを構成し、それをエンドポイントの表示ユニットによって提示してもよい。
【0078】
リレーMCU400の他の実施の形態において、各エンドポイント330A_Nは、そのデコーダの後にIDC453と、エンドポイント制御ユニット内にILC442を有してもよい。エンドポイントのIDC453は、それぞれ複合された画像内のROIの相対位置についての情報を、エンドポイント内のILCモジュール442に送ってもよい。ILC442は、レイアウトを判定し、これに従って構成するよう、エンドポイントのエディタに対して指示してもよい。かかるリレーMCU400において、各エンドポイント330A_Nは、そのレイアウトをスタンドアロンユニットとして制御してもよい。IDC453、AIDC437、およびILC442の配置は、実施の形態ごとに異なってもよい。
【0079】
当該技術において既知である映像モジュール450の様々な要素の通常の機能は、本明細書において説明しない。異なる映像モジュールは、米国特許出願等10/144,561号、11/684,271号、11/751,558号、および12/683,806号、米国特許第6,300,973号、ならびに国際特許出願シリアル番号第PCT/IL01/00757号において説明されており、その内容の全てを目的として組み込む。制御バス444、448、446、圧縮映像バス424、および圧縮音声バス422は、時分割多重(TDM)インターフェイス、非同期転送モード(ATM)インターフェイス、パケットに基づくインターフェイス、および/または共有メモリを含む、何らかの望みの種類のインターフェイスであってもよい。
【0080】
図5は、一実施の形態に従った相互作用型デコーダコンポーネント(IDC)453のいくつかの要素を伴うブロック図を示している。IDC453は、会議において支配的な2つ以上のサイト間の相互作用、ビデオ画像内の人(達)の配置/相対位置、その人(達)が向いている方向等を含め、提示されるサイト間の相互作用を検出するために使用されてもよい。IDC453は、スケーラならびに1つ以上のフレームメモリ(SCFM)モジュール510、顔検出プロセッサ(FDP)520、およびROI相対位置定義装置(RRLD)530を含んでいてもよい。顔検出プロセッサ(FDP)520は、SHORE、VeriLook SDK、またはOpenCVによって提供されるような、既知の顔検出装置技術を実行するよう成されるDSP上で実施されてもよい。代替の実施の形態において、FDP520は、Texas InstrumentsからのDM365を含め、顔検出能力をもつハードウェアにおいて実行されてもよい。集中アーキテクチャを活用する一実施の形態において、IDC453は、MCU400に組み込んでもよい。かかる実施の形態において、IDC453は、上述のように、映像ユニット450の一部でもよく、関係する入力モジュール451A_Xから、復号された映像データを取得してもよい。代替の実施の形態において、IDC453は、各入力モジュール451A_Xの一部でもよく、それに関連付けられたデコーダ452から復号された映像を取得してもよい。
【0081】
更に他の実施の形態において、IDC453は、エンドポイント330A_N内に埋め込まれていてもよい。かかるエンドポイントにおいて、IDC453は、エンドポイント330によって生成されるビデオ画像内の、ROIおよびROIの相対位置を判定するために使用されてもよい。IDC453は、エンドポイント330のエンコーダ(不図示)の入力に関連付けられてもよい。IDC453は、エンドポイントのエンコーダの入力において使用されるフレームメモリから、ビデオ画像のフレームをサンプリングしてもよい。ROIの指示および/またはROIの相対位置の指示は、NI420を介してILC442に転送されてもよい。その指示は、プロプリエタリのプロトコルに一致する専用パケット内において、または標準ヘッダに情報を加えて送信されてもよい。代替の実施の形態において、情報は、所定のキーのストリング等を使用するDTMF信号として送信されてもよい。ILC442は、ROI(関心領域)についての情報を使用して、次のCPレイアウトを適用する方法を判定してもよい。
【0082】
図5の実施の形態において、ROI相対位置定義装置(RRLD)530は、コマンドをILC442から受信してもよい。例となるコマンドは、ROIの検出および定義、サイトのROIの相対位置の検出および配置等を行ってもよい。ILC442は、音声信号の強さ、レイアウトを変更する手動コマンド、加わった新たなサイトについての情報等を含め、どのサイトにおいて異なるパラメータに従ってROIおよび/またはROIの相対位置を検索するのかを判定してもよい。RRLD530は、顔検出プロセッサ(FDP)520にコマンドを送り、ROIの配置に基づいてROIを発見および判定してもよい。RRLD530は、特定のサイトから受信したビデオ画像のフレーム内のROIの相対位置(その画像の左、右、または中央)を計算してもよい。
【0083】
FDP520は、関連するサイトから復号化されたビデオ画像のフレームをサンプリングするようSCFM510に命じてもよい。復号化されたビデオ画像は、そのサイトに関連付けられた入力モジュール451A_Xの共通インターフェイス454から、またはデコーダ452からSCFM510によって取り出されてもよい。次いで、SCFM510は、FDP520の要件に従ってビデオ画像を縮小し、その結果をフレームメモリに保存してもよい。
【0084】
一実施の形態において、FDP520とSCFM510の間にループが生じてもよい。FDP520は、SCFM510に対して、再度画像を縮小、画像を拡大、および/または他のサンプルを取り出す等の要求を行ってもよい。このループは、所定回数のサイクルに制限されてもよい。サイクルの終了時に、FDP520は、ROIについての情報をRRLD530に転送してもよい。ROIが見つからない場合、メッセージ(例えば、ROIなし等)がRRLD530に送信されてもよい。RRLD530は、関連する配置についての専用の情報を、制御ライン448を介してILC442に出力してもよい。更に他の実施の形態において、IDC453は、左上からのピクセル単位のROI座標の配置を、例えばILC442に転送してもよく、ILC442は、その相対位置(左、右、中央)を計算してもよい。
【0085】
IDC453の他の実施の形態は、動作検出装置、肌色検出装置、および/または異なる検出装置の異なる組み合わせを含む技術を使用して、ビデオ画像内のROIの配置を判定する他のモジュールを備えていてもよい。動作検出装置に基づくいくつかの実施の形態(不図示)は、時計、ファン、モニター等の干渉的な動作を取り除くために、帯域フィルター、ローパスフィルター、またはノッチフィルター等、1つ以上のフィルターを含んでもよい。他の実施の形態は、複数のマイクから受信した音声エネルギーの表示を処理してもよい。異なるROI検出装置ついて更に知りたいと望む者は、米国特許出願第11/751,558号、米国特許出願第12/683,806号を読むことができ、またはwww.consortium.ri.cmu.edu/projOmega.phpもしくはwww.consortium.ri.cmu.edu/projFace.phpを閲覧することができる。
【0086】
いくつかの実施の形態において、動作検出装置は、ROIを判定するために使用される。一実施の形態において、動作検出装置は、変化がある領域を定義するために、2つの連続するフレームを減算してもよい。ビデオ会議において、変化は、典型的には頭、手等の動きによる。ROIは、2つの連続するフレームの間で異なる領域を取り囲む大きな長方形として定義されてもよい。連続するフレームは、1つ以上のSCFM510内に格納されてもよい。
【0087】
IDC453のいくつかの実施の形態において、他の技術が、異なるサイト間の相互作用を定義するために使用されてもよい。例えば、各サイトから受信される音声エネルギーの表示は、音声モジュール430によって処理されてもよく、情報はIDCに送信されてもよい。処理は、ある期間の時間にともない、話者間の相互作用に続いてもよい。相互作用が支配的なサイト間の音声的な相互作用である場合、それら2箇所のサイトは、支配的なサイトと考えられる。2つの支配的なサイトからの画像は、レイアウト200の画像120および130のように、相互に面する上部の列に配置されてもよい。本実施の形態において、IDC453は、音声モジュール430および/または制御モジュール440から音声エネルギーについての情報を受け取ってもよい。
【0088】
一実施の形態において、サイトは複数のマイクを有し、その部屋の話者の配置およびその画像のROIは、複数のマイクから受信される音声エネルギーを処理することによって判定され、部屋の話者の相対位置が判定されてもよい。いくつかの実施の形態において、ROIおよび/またはROI相対位置検出装置は、エンドポイント330内にあってもよく、ROIの相対位置は、プロプリエタリメッセージまたはヘッダ内のビデオ画像とともに送信されてもよい。
【0089】
RRLD530および制御モジュール440の間の通信は、使用されるアーキテクチャに依存してもよい。例えば、IDC453がMCU400の映像ユニット450内に埋め込まれているならば、RRLD530と制御モジュール440間の通信は、映像モジュール450に制御モジュール440を接続する制御ライン448上で実行されてもよい。
【0090】
代替として、制御モジュール440がMCU400に配置されている一方でIDC453がエンドポイント330A_Nに配置されている実施の形態において、通信は、帯域外または帯域内で実施されてもよい。帯域外通信は、インターネットプロトコル(IP)ネットワーク上でエンドポイント330A_NおよびMCU400の間の接続を介して扱われてもよい。エンドポイント330を伴うマルチメディア通信がパケット切換ネットワークを介するならば、IDC453(エンドポイント330上)および制御モジュール440間の通信は、リアルタイムトランスポートプロトコル(RTP)映像パケットのペイロードの所定のヘッダを使用しながら実施されてもよい。かかる実施の形態において、サンプリングコマンドと同様にROIおよび/またはROIの相対位置の座標は、RTP映像パケットのペイロードの所定ヘッダ内に埋め込まれていてもよい。他の実施の形態は、DTMFおよび/またはFECCチャンネルを使用してもよい。
【0091】
上述のように、太字のエンドポイント330上のIDC453および制御モジュール440の間の通信がマルチメディア通信を介するならば、ネットワークインターフェイス(NI)310は、受信した情報を解析し、IDC453から受信したROIおよび/またはROIの相対位置の座標を取り出すよう成されてもよい。NI310は、情報を、制御モジュール440およびNI420を接続する制御バス446上の制御モジュール440に配信してもよい。NI420は、サンプリングコマンドを受け取り、それを使用される通信技術に従って処理し、更にそれをネットワーク310を介してIDC453に送信するよう成されてもよい。
【0092】
結果に基づき、一実施の形態によるILC442は、検出されたROIおよび/またはその相対的相互作用および相対位置を考慮して、更新されるレイアウトを設計してもよい。更新されるレイアウトを構築する方法の指示は、関連するエディタ456に転送されてもよい。更新されたレイアウトに従って、エディタ456は、会議出席者が部屋の左部分に着席しているサイトを、左側のセグメントに配置し、更にその逆も行い、図2に示すように、セグメント112が会議出席者130を伴うサイトBに割り当てられてもよい。一方、セグメント114は、その画像の右側部分に着席している会議出席者120を有するサイトCに割り当てられる。
【0093】
異なるサイトの会議出席者が同じ相対位置(部屋の中央に対して左側または右側)に着席しているいくつかの場合において、ILC442は、関係するエディタにコマンドを送り、1つ以上の画像を鏡像化してもよい。一実施の形態において、画像を鏡像化することは、各列の右端から左端へ映像データを読み取ることにより、CPレイアウトを構築し、CPのレイアウト内の関連するセグメント内の適切な列の左端から、左から右へと映像データを書き込む間に実施されてもよい。レイアウト内の配置は、他のサイトが、直前に支配的であるサイトのひとつに代わって支配的になる場合に、動的に変更されてもよい。
【0094】
更に他の実施の形態において、ひとつのRFトラッカーは、RRLD530によって使用されて、部屋の加入者の相対位置を定義してもよい。信号は、エンドポイント330と関連付けられている部屋に配置されている2つ以上のアンテナによって受信されてもよい。受信されたRF信号は、エンドポイント330によって処理されてもよく、情報は、プロプリエタリメッセージ内またはヘッダ内でビデオ画像とともに送信されてもよい。
【0095】
図6は、IDC453によって実行されてもよい一実施の形態による技法600に対するフローチャートを図示している。技法600は、ビデオ画像における関心領域(ROI)およびその相対位置を定義するために使用されてもよい。技法600は、会議の開始と同時にブロック602において開始されてもよい。開始後、技法600は、ブロック604においてフレームカウンター(Fcnt)およびレイアウト変更フラグをリセットしてもよい。一実施の形態において、フレームカウンター(Fcnt)は、入力モジュール451A_Xの出力時に、フレームをカウントしてもよい。レイアウト変更フラグ(CLF)の値は、0または1でもよい。CLFの値は、レイアウト表示の変更がILC442から受信された場合、1となる。変更表示は、新たなレイアウトに関する情報、提示される会議出席者ならびに関連付けられている入力および出力モジュール(それぞれ451A_Xおよび455A_X)についての情報を含んでもよい。ILC442は、サイトの画像内のROIおよびその相対位置の検索をRRLD530に要求してもよい。レイアウト内の変更は、音声信号の強さ、管理要求、新たな会議出席者等の結果として発生してもよい。CLFの値は、レイアウト内に何の変更もないことが表示された場合、0となる。いくつかの実施の形態において、CLFは、CM440から、またはクリック・アンド・ビュー機能を使用して会議出席者のひとりから任意に設定されてもよい。
【0096】
続いて、技法600は、ブロック610において、新たなフレームを受信するために待機してもよい。ブロック610において、新たなフレームが待機期間に受信されなければ、技法600は、ブロック610に戻る。ブロック610において、新たなフレームが受信されれば、技法600は、ブロック612へと進み、Fcntを1インクリメントさせてもよい。続いて、ブロック620は、Fcntの値が所定値N1よりも大きいか否か、またはCLFの値が1に等しいのかを判定する。一実施の形態において、N1は、1から1000までの範囲の設定された数字でもよい。ブロック620において、Fcntの値がN1以下であり、CLFの値が0に等しければ、技法600は、ブロック610に戻る。ブロック620において、Fcntの値がN1よりも大きく、および/またはCLFの値が1に等しければ、技法600は、ブロック622に進む。一実施の形態において、Fcntに代えて、またはFcntに加えて、タイマーが使用されてもよい。タイマーは、例えば数秒または数分の望みの期間の時間に設定できる。
【0097】
ブロック622では、技法600は、FDP520に指示してROIを検索し、定義してもよい。技法600は、FDP520がROIを定義するか、またはROIが見つからなかったことをIDC453に通知するまで、ブロック624にて待機する。FDPがROIのメッセージを出力すると、技法600はブロック626に進み、FDP520から、分析されたデータを収集し、処理する。ブロック626は、ROIの存在、その大きさ、配置(例えば、上部左からピクセル単位で)およびその画像内の相対位置(例えば右、左、中央)を判定してもよい。代替の実施の形態において、ROIが見つからなければ、N1の値を、後続のROI検索を加速させるために減少してもよい。
【0098】
技法600は、FDP520およびILC442間のアプリケーションプログラムインターフェイス(API)として動作してもよい。その結果は、ブロック626において、ILC442へと転送されてもよく、技法600は、ブロック604に戻ってもよい。いくつかの実施の形態において、技法600は、ブロック622から626を繰り返し、結果が同様であることを確認し、もしそうであれば、ILC442に平均ROIおよびROIの相対位置を転送してもよい。
【0099】
図7Aは、ビデオ会議において使用されるレイアウトのひとつを自動的かつ動的に適用するための技法700の一実施の形態に対するフローチャートを示している。一実施の形態において、2つ以上のレイアウトが関わる場合、並列タスクがCP画像の各レイアウトにつき一回開始されてもよい。他の実施の形態において、技法700は、セッション内において使用される各レイアウトにつき1サイクル繰り返し実行されてもよい。技法700は、ブロック702において、ILC442および/またはRRLD530(図5)によって開始されてもよい。開始時、技法700は、ブロック704において、前回相対位置メモリ(PRLM)をリセットしてもよい。PRLMは、ROIの前回見出された相対位置についての情報を格納して、ROIの現在の相対位置との相違を判定するために使用されてもよい。続いて、技法700は、ブロック706において、タイマー(T)をリセットし、ブロック710においてタイマーTの値がT1に等しくなるのを待ってもよい。一実施の形態において、T1は、数百ミリ秒から数秒の範囲でもよい。他の実施の形態において、構成されたCP画像のフレームは、カウントされ、時間の代わりに使用されてもよい。タイマーTの値がT1に等しくなり、および/またはレイアウト内に変化が発生すると、技法700は、ブロック712に進んでもよい。レイアウトにおける変化は、更なる会議出席者が会議に加わったとき、他の会議出席者の音声エネルギーにおける変更のために提示されるサイトが変更される必要がある場合等に発生してもよい。
【0100】
ブロック712において、技法700は、関連する会議出席者のビデオ画像内のROI相対位置(ROIRL)情報についての情報を収集してもよい。関連する会議出席者のビデオ画像は、レイアウト内における提示のために選択されたビデオ画像である。続いて、音声エネルギー情報が、ブロック714において、それぞれ提示されるサイトにつき取得されてもよい。音声情報を使用しながら、2箇所の支配的なサイトが検出されてもよく、および/または、異なるエンドポイント間の相互作用についての更なる情報等が検出されてもよい。管理および制御情報は、ブロック715において取得されてもよい。管理および制御情報は、受信される会議出席者の基本設定(構成されるCP画像を監視するもの)および強制的会議出席者(音声エネルギーから独立して、CP画像内に提示されなければならない会議出席者)等の情報を含んでいてもよい。それぞれ提示される会議出席者の画像につき、技法700は、ブロック716において現在受信されているROIRLおよび(PRLMメモリに保存されている)前回のROIRL間の相違を計算してもよい。技法700はまた、ブロック716において、支配的なサイトに相違があるのかを判定してもよい。
【0101】
前回のROIRLに対して今回のROIRLに有意な変更があるか否か、および/または、支配的なサイトに有意な変更があるのかという判定が、ブロック720において行われる。有意な変更は、ピクセル、パーセンテージ、音声の強さ等における所定の変化量でもよい。一実施の形態において、有意な変化は、5から10パーセントの範囲でもよい。ブロック720において、有意な変更があれば、技法700は、ブロック722において現在のROIRLおよび支配的なサイトをPRLMに格納してもよい。技法700は、更に図7B内のブロック750に進む。ブロック720において、有意な変更がなければ、技法700はブロック706に戻る。
【0102】
図7Bを参照すると、ブロック750において、ループがブロック760から790において、技法700によって設計された同じレイアウトを実行する各出力モジュール455A_Xに対して開始されてもよい。ブロック760から始まり、各出力モジュール455A_Xに対して、技法700は、ブロック762において現在の出力モジュールに関連付けられているCPレイアウトに関係するパラメータについての情報を取り出してもよい。一実施の形態におけるパラメータは、ピクセル数の幅および高さ(WxH)でのレイアウトの大きさ、レイアウトのフォーマット(2X2、3X3等)、管理上の判定に基づいてどのサイトが選択されて提示されるのか、および/または音声エネルギー等を含んでもよい。技法700はまた、ブロック762において、試行回数をカウントするカウンター(Cnt)をリセットしてもよい。
【0103】
次の技法700は、ブロック764において、関連する出力モジュール455A_Xの適用可能なレイアウト内に提示されるべく選択されたそれぞれのサイトに対するROIRL(ROI相対位置)情報およびパラメータを取得してもよい。一実施の形態において、その情報は、PRLMから取り出されてもよい。一実施の形態において、パラメータは、ROIのピクセル数(ROIの高さおよび幅)、ROIの相対位置、支配的なサイト、サイト間の相互作用等を含んでもよい。取り出された情報を使用して、技法700は、ブロック770において、2箇所の支配的なサイトがあるのかを判定してもよい。2箇所の支配的なサイトがなければ、技法700は、ブロック774に進んでもよい。2箇所の支配的なサイトがあれば、技法700はブロック772に進んでもよい。
【0104】
ブロック772において、支配的なサイトは、一実施の形態において提示されるレイアウト内のセグメントの上方列に配置されてもよい。代替の実施の形態において、それらは、下方列または望みの他のサイトに配置されてもよい。左側のROIRLを持つ支配的なビデオ画像は、ブロック772において、レイアウトの左セグメント内に配置されてもよい。ビデオ画像の右側のROIRLを持つ支配的なビデオ画像は、ブロック772において、レイアウトの右側のセグメント内に配置されてもよい。両方の支配的なサイトが同じROIRLを有するならば(両方とも左、または両方とも右)、支配的なサイトのひとつがブロック772において鏡像化されてもよい。両方の支配的なサイトが中央に画像を有するならば、それらは並べて配置されてもよい。
【0105】
提示されるべく選択された他のサイトは、右側のROIRLを持つビデオ画像は右に配置され、左側のROIRLを持つビデオ画像は左に配置され、中央のROIRLを持つビデオ画像は中央または残りの位置に配置される等といったように、ブロック774において配置されてもよい。残りのセグメント内に配置できない1箇所以上の選択サイトがある場合、技法700は、ブロック774においてそれらを鏡像化し、相応に配置してもよい。続いて、カウンター(Cnt)は、ブロック776において1インクリメントされてもよい。
【0106】
ブロック780において、Cntの値が2に等しいか否か、またはブロック774の手順が成功裏に完了したかという判定がなされてもよく、その結果、全ての選択された会議出席者がレイアウトの適切な相対位置において提示されてもよい。これらの条件が満たされない場合、技法700は、ブロック782において、ブロック772において判定された支配的サイトの配置要件を無視してもよく、更にブロック774において選択されているサイトの全ての配置を再試行してもよい。ブロック780において、Cntの値が2に等しいか、またはブロック774の手順が成功裏に完了した場合、技法700はブロック784に進む。
【0107】
ブロック784において、ブロック774の手順が成功裏に完了したのか否かという判定がなされてもよい。一実施の形態において、「成功裏に」とは、見るために選択された全てのサイトが、その全てがレイアウトの中心に面しているように配置されたことを意味する。ブロック784の条件が満たされない場合、技法700は、ブロック786において、特定された相互作用を無視し、表示されるサイトの数に見合う共通のレイアウトを選択し、ROIRLを無視してレイアウトを配置してもよい。ブロック774の手順が成功裏に完了したことをブロック784が判定した場合、技法700は、ブロック788においてレイアウト配置に関する指示を作成してもよく、その結果、提示されるサイトがレイアウトの中心に向く。レイアウトの指示は、ブロック788において、適切な出力モジュール455A_X内のエディタ456に送信されてもよい。他の実施の形態において、ブロック786において、技法700は、計算されたレイアウトのひとつを選択してもよく、これが会議出席者間のある相互作用を提示する。
【0108】
続いて、技法700は、ブロック790において、レイアウトの配置についての指示を受ける必要がある付加的な映像出力モジュール455A_Xがあるか否かを確認する。もしあれば、技法700は、ブロック760に戻ってもよい。それがなければ、技法700は、図7A内のブロック706に戻ってもよい。
【0109】
本開示において、「ユニット」、「装置」、「コンポーネント」、「モジュール」、および「論理モジュール」の用語は、相互に交換可能に使用されてもよい。ユニットまたはモジュールとして設計される全てのものは、スタンドアロンモジュールまたは専用もしくは統合モジュールであってもよい。モジュールは、モジュール式またはモジュール式局面をもっていてもよく、簡易に取り外され、他の類似のユニットまたはモジュールと交換されることを可能とする。各モジュールは、ソフトウェア、ハードウェア、および/またはファームウェアのいずれのひとつ、またはいずれかの組み合わせであってもよい。論理モジュールのソフトウェアは、読み出し/書き込みハードディスク、CDROM、フラッシュメモリー、ROM等、コンピューター可読媒体上に実現されてもよい。特定のタスクを実行するために、ソフトウェアプログラムは、必要に応じて適切なプロセッサに読み込まれてもよい。
【0110】
本開示の説明および特許請求の範囲において、「備える」、「含む」、「有する」およびそれらの活用諸変化は、その動詞の目的語が、その動詞の主語である部材、構成部分、要素、または部品の必ずしも完全な列記ではないことを示すために使用されている。
【0111】
上記の装置、システム、および方法が、手順の変更、および使用される正確な実施を含め、様々な方式において変更されてもよいことは明白である。説明されている実施の形態は、異なる特長を含み、その全てが本開示のすべての実施の形態において必要とされるわけではない。更に、本開示のいくつかの実施の形態は、その特長のいくつかのみ、またはその特長の可能な組み合わせのみを使用する。説明されている実施の形態において表記されている特長の異なる組み合わせは、当該技術に精通する者により行われる。更に、本開示のいくつかの実施の形態は、その開示とともに、異なる実施の形態との関連において説明された特長および要素の組み合わせにより、実施されてもよい。本発明の適用範囲は、下記の請求の範囲およびこれと同等のものによってのみ制限される。
【0112】
特定の実施の形態が詳細に説明され、添付図面において示されているが、かかる実施の形態は単にその例示であり、後に続く特許請求の範囲によって決定されるその基本範囲から逸脱することなく考案されるものでないことは言うまでもない。
【符号の説明】
【0113】
200 レイアウト
300 マルチメディア・マルチポイント会議システム
310 ネットワーク
320 MCU
330A〜330N エンドポイント(サイト)

【特許請求の範囲】
【請求項1】
第1の会議出席者と第2の会議出席者との間の相互作用に反応する画面分割ビデオ会議の第1のエンドポイントのために自動的に画面分割ビデオ画像をデザインすることと、
前記画面分割ビデオ会議の前記第1のエンドポイントで前記画面分割ビデオ画像を表示すること、
を備える方法。
【請求項2】
前記画面分割ビデオ画像をデザインすることは、
前記第1の会議出席者と前記第2の会議出席者との間の相互作用を自動的に判定することと、
前記画面分割ビデオ画像内の前記第1の会議出席者に対応する第1のビデオ画像を配置することと、
前記第1の会議出席者と前記第2の会議出席者との間の相互作用に応答して、前記画面分割ビデオ画像内の前記第1のビデオ画像に関連する前記第2の会議出席者に対応する第2のビデオ画像を配置すること、
を含む請求項1の方法。
【請求項3】
前記画面分割ビデオ画像をデザインすることは、更に、
前記第1の会議出席者に対応するエンドポイントからのコンテンツを受信すること、および
前記画面分割ビデオ画像内のコンテンツを提示すること、を含み、
前記第1のビデオ画像を配置することは、前記コンテンツの第1の側に前記第1のビデオ画像を配置することを含み、
前記第2のビデオ画像を配置する動作は、前記コンテンツの第2の側に前記第2のビデオ画像を配置することを含む、
請求項2の方法。
【請求項4】
前記第1の会議出席者と前記第2の会議出席者が前記コンテンツの方に向くように提示されるように、前記第1のビデオ画像および前記第2のビデオ画像を処理することを更に備える請求項3の方法。
【請求項5】
前記画面分割ビデオ画像をデザインすることは、
前記第1の会議出席者と前記第2の会議出席者との間の相互作用を自動的に判定することと、
前記第1の会議出席者と前記第2の会議出席者との間の相互作用に反応する前記第1のエンドポイントで前記画面分割ビデオ画像を作成するために、前記画面分割ビデオ会議の前記第1のエンドポイントに対する指示を生成することと、
前記画面分割ビデオ会議の前記第1のエンドポイントに前記指示を送信することと、
前記指示に反応する前記第1のエンドポイントで前記画面分割ビデオ画像を作成すること、
を含む請求項1の方法。
【請求項6】
前記画面分割ビデオ画像をデザインすることは、
前記第1の会議出席者と前記第2の会議出席者との間の相互作用を自動的に判定することと、
前記第1の会議出席者と前記第2の会議出席者との間の前記相互作用に反応する前記第1のエンドポイントのために、前記画面分割ビデオ画像を作成することと、
前記第1のエンドポイントに前記画面分割ビデオ画像を送信すること、
を含む請求項1の方法。
【請求項7】
複数の会議出席者間の相互作用に自動的に反応する前記画面分割ビデオ会議の第2のエンドポイントのための画面分割ビデオ画像をデザインすることであって、前記第2のエンドポイントのための前記画面分割ビデオ画像は前記第1のエンドポイントのための前記画面分割ビデオ画像とは異なることと、
前記画面分割ビデオ会議の前記第2のエンドポイントで前記画面分割ビデオ画像を表示すること、
を更に備える請求項1の方法。
【請求項8】
前記画面分割ビデオ画像をデザインすることは、
前記第1の会議出席者に対応する第1のビデオ画像を分析することと、
前記第2の会議出席者に対応する第2のビデオ画像を分析することと、
前記第1のビデオ画像を分析する動作および前記第2のビデオ画像を分析する動作に反応する前記第1の会議出席者と前記第2の会議出席者との間の相互作用を自動的に判定することと、
前記第1の会議出席者と前記第2の会議出席者との間の相互作用に反応する前記第1のエンドポイントのために、前記画面分割ビデオ画像内の前記第1のビデオ画像に関連する前記第1のビデオ画像および前記第2のビデオ画像を配置すること、
を含む請求項1の方法。
【請求項9】
前記第1のエンドポイントに、前記第1のエンドポイントのための前記画面分割ビデオ画像を送信することを更に備える請求項8の方法。
【請求項10】
更に、
前記第1のエンドポイントのための前記画面分割ビデオ画像を作成するための指示を生成することと、
前記第1のエンドポイントに、前記第1のエンドポイントのための前記画面分割ビデオ画像を作成するための指示を送信すること、
を備える請求項8の方法。
【請求項11】
前記画面分割ビデオ画像をデザインすることは、更に、
前記第1の会議出席者と前記第2の会議出席者との間の相互作用に反応する前記第1のビデオ画像を修正すること、
を含む請求項8の方法。
【請求項12】
前記第1のビデオ画像を修正することは、前記第1のビデオ画像を鏡像化することを含む請求項11の方法。
【請求項13】
前記画面分割ビデオ画像をデザインすることは、
複数の会議出席者中の支配的な会議出席者を判定することと、
前記複数の会議出席者中の支配的でない会議出席者を判定することと、
前記画面分割ビデオ画像内において前記支配的な会議出席者に対応して第1のビデオ画像を自動的に配置すること、および前記画面分割ビデオ画像内において前記第1の映像に関連する前記支配的でない会議出席者に対応して第2のビデオ画像を自動的に配置すること、
を含む請求項1の方法。
【請求項14】
前記画面分割ビデオ画像をデザインすることは、
前記第1の会議出席者と前記第2の会議出席者との間の第1の相互作用に自動的に応答する第1の画面分割ビデオ画像をデザインすること、および
前記第1の相互作用に続く、第3の会議出席者と第4の会議出席者との間の第2の相互作用に自動的に反応する第2の画面分割ビデオ画像をデザインすることを含み、
前記画面分割ビデオ画像を表示することは、
前記第1の画面分割ビデオ画像を表示すこと、および
前記第1の画面分割ビデオ画像に続く前記第2の画面分割ビデオ画像を表示することを含む、
請求項1の方法。
【請求項15】
前記画面分割ビデオ画像をデザインすることは、
前記第1の会議出席者に対応する第1の音声エネルギーを分析することと、
前記第2の会議出席者に対応する第2の音声エネルギーを分析することと、
前記第1の音声エネルギーを分析する動作および前記第2の音声エネルギーを分析する動作に反応する前記第1の会議出席者と前記第2の会議出席者との間の相互作用を自動的に判定することと、
前記第1の会議出席者と前記第2の会議出席者との間の前記相互作用に反応する前記第1のエンドポイントのための前記画面分割ビデオ画像内において、前記第1の会議出席者に対応する第1のビデオ画像と、該第1のビデオ画像に関連する前記第2の会議出席者に対応する第2のビデオ画像を配置すること、
を含む請求項1の方法。
【請求項16】
前記画面分割ビデオ画像をデザインすることは、
前記第1の会議出席者に対応する第1のビデオ画像内において、第1の関心領域の第1の相対位置を特定することと、
前記第2の会議出席者に対応する第2のビデオ画像内において、第2の関心領域の第2の相対位置を特定することと、
前記第1のビデオ画像内の前記第1の関心領域の前記第1の相対位置および前記第2のビデオ画像内の前記第2の関心領域の前記第2の相対位置に応じた、前記第1の会議出席者と前記第2の会議出席者との間の相互作用を判定することと、
前記画面分割ビデオ画像内に前記第1のビデオ画像を配置し、前記第1の会議出席者と前記第2の会議出席者との間の前記相互作用に応じた前記第1のビデオ画像に関連する前記第2のビデオ画像を前記画面分割ビデオ画像内に配置すること、
を含む請求項1の方法。
【請求項17】
前記画面分割ビデオ画像をデザインすることは、
前記第1の会議出席者および前記第2の会議出席者が相互に向かい合わせに現れるように、前記第2の会議出席者に対応する前記第2のビデオ画像に関連する前記第1の会議出席者に対応する第1のビデオ画像を配置すること、
を含む請求項1の方法。
【請求項18】
前記画面分割ビデオ画像をデザインすることは、更に、
前記第1のビデオ画像を鏡像化すること、を含む請求項17の方法。
【請求項19】
更に、
第1のサイトの複数の会議出席者の会議出席者を活動的な会議出席者として指定することと、
前記第1のサイトから受信したビデオ画像から前記活動的な会議出席者の画像を複製することと、
前記画面分割ビデオ画像内に、前記活動的な会議出席者と前記第1のサイトから受信した前記ビデオ画像を提示すること、
を備える請求項17の方法。
【請求項20】
更に、
第1のサイトの複数の会議出席者の会議出席者を活動的な会議出席者として指定することと、
前記第1のサイトから受信したビデオ画像から前記活動的な会議出席者の画像を複製することと、
前記第1のサイトから受信した前記ビデオ画像の代わりに、前記画面分割ビデオ画像内に、前記活動的な会議出席者の画像を提示すること、
を備える請求項17の方法。
【請求項21】
第1の会議出席者に対応する第1のエンドポイント、および、第2の会議出席者に対応する第2のエンドポイント、を含む複数のエンドポイントと、
前記第1の会議出席者と前記第2の会議出席者との間の相互作用に応答する画面分割ビデオ画像をデザインするよう構成されたレイアウトコントローラと、
を備えるビデオ会議システム。
【請求項22】
前記レイアウトコントローラは、マルチポイントコントロールユニット(MCU)のモジュールである、請求項21のビデオ会議システム。
【請求項23】
更に、前記第1のエンドポイントから受信した第1のビデオ画像および前記レイアウトコントローラに反応する第2のビデオ画像を操作するよう成されるエディタモジュールを備える請求項21のビデオ会議システム。
【請求項24】
前記レイアウトコントローラが、更に、前記レイアウトコントローラによってデザインされた前記画面分割ビデオ画像を表示するための指示を前記複数のエンドポイントに送信するよう構成されている、請求項21のビデオ会議システム。
【請求項25】
前記レイアウトコントローラに反応する、前記画面分割ビデオ画像をエンコードするよう成される映像モジュールを更に備える、請求項21のビデオ会議システム。
【請求項26】
前記第1の会議出席者に対応する第1のビデオ画像、および前記第1のビデオ画像に関連する前記第2の会議出席者に対応する第2のビデオ画像を、前記画面分割ビデオ画像内に配置するよう成され、レイアウトコントローラに反応する映像レイアウトエディタモジュールを更に備える、請求項21のビデオ会議システム。
【請求項27】
前記映像レイアウトエディタモジュールが、更に、前記第1のビデオ画像を操作するよう構成されている、請求項26のビデオ会議システム。
【請求項28】
前記映像レイアウトエディタモジュールが、更に、前記第1のビデオ画像を鏡像化するよう構成されている、請求項26のビデオ会議システム。
【請求項29】
前記第1の会議出席者と前記第2の会議出席者との間の前記相互作用を検出し、前記相互作用を前記レイアウトコントローラに通知するよう構成された相互作用デコーダを備える、請求項21のビデオ会議システム。
【請求項30】
前記相互作用デコーダは、前記第1の会議出席者に対応する第1のビデオ画像内の関心領域の相対位置を特定するよう成される映像相互作用デコーダを備える、請求項29のビデオ会議システム。
【請求項31】
前記相互作用デコーダは、前記第1の会議出席者が支配的な会議出席者であることを検出するよう構成されている、請求項29のビデオ会議システム。
【請求項32】
前記相互作用デコーダは、音声エネルギーを分析し、前記音声エネルギーに応じた前記相互作用を前記レイアウトコントローラに通知するよう構成された音声相互作用デコーダを備える、請求項29のビデオ会議システム。
【請求項33】
前記レイアウトコントローラは、前記第1の会議出席者および前記第2の会議出席者が相互に向かい合わせに現れるように、前記画面分割ビデオ画像をデザインするよう構成されている、請求項21のビデオ会議システム。
【請求項34】
画面分割ビデオ会議における第1の会議出席者に対応する第1のエンドポイントからの第1のビデオ画像と、前記画面分割ビデオ会議における第2の会議出席者に対応する第2のエンドポイントからの第2のビデオ画像を処理する装置であって、
前記第1の会議出席者と前記第2の会議出席者との間の相互作用に応答して画面分割ビデオ会議のビデオ画像をデザインするよう構成された制御モジュールと、
前記制御モジュールによってデザインされた前記画面分割ビデオ会議のビデオ画像を作成するよう構成された第1の映像モジュールと、
を備える装置。
【請求項35】
前記第1の会議出席者と前記第2の会議出席者との間の前記相互作用を検出し、前記相互作用を前記制御モジュールに通知するよう構成された相互作用デコーダ、を更に備える請求項34の装置。
【請求項36】
前記相互作用デコーダは、前記第1のビデオ画像内の関心領域の相対位置を特定するよう構成された映像相互作用デコーダである、請求項34の装置。
【請求項37】
前記相互作用デコーダは、前記第1の会議出席者に対応する第1の音声エネルギーおよび前記第2の会議出席者に対応する第2の音声エネルギーを分析するよう構成された音声相互作用デコーダである、請求項34の装置。
【請求項38】
前記相互作用デコーダは、前記第1の会議出席者が支配的な会議出席者であることを検出するよう構成されている、請求項34の装置。
【請求項39】
前記装置は、マルチポイント制御ユニットである、請求項34の装置。
【請求項40】
前記第1の映像モジュールは、前記第1のエンドポイントに関連付けられる、請求項34の装置。
【請求項41】
前記制御モジュールに反応する前記第1のビデオ画像を操作するよう構成されたエディタモジュールを更に備える、請求項34の装置。
【請求項42】
前記エディタモジュールは、前記制御モジュールに反応する前記第1のビデオ画像を鏡像化するよう構成されている、請求項41の装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7A】
image rotate

【図7B】
image rotate


【公開番号】特開2011−217374(P2011−217374A)
【公開日】平成23年10月27日(2011.10.27)
【国際特許分類】
【出願番号】特願2011−76605(P2011−76605)
【出願日】平成23年3月30日(2011.3.30)
【出願人】(509270096)ポリコム,インク. (18)
【Fターム(参考)】