説明

マルチポイント・ビデオ会議における空間相関オーディオ

【課題】表示上の会議出席者の位置を会議出席者の声と関係付けることにより、マルチメディア・マルチポイント・ユーザの体験を改善する。
【解決手段】エンドポイントに表示されるビデオ会議レイアウト内の話者エンドポイントの位置に最も近い1つ又は複数のスピーカを介してオーディオ・ストリームのブロードキャストを強調するようにオーディオ・ストリームを差異化させる。例えば、画面の遠位側に配置されたスピーカでブロードキャストされるオーディオを、表示の近位側に配置されたスピーカでブロードキャストされるオーディオと比較して減衰又は遅延させることもできる。エンドポイントのレイアウト内の位置によって2つ以上のエンドポイントからのオーディオ信号を処理し、次いで、エンドポイントが空間相関オーディオをブロードキャストする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はマルチメディア・マルチポイント会議の分野に関する。特に、本発明は、マルチポイント・ビデオ会議においてオーディオ位置知覚を提供する方法及び装置に関する。
【背景技術】
【0002】
マルチポイント・ビデオ会議は通常、数名の会議出席者又はいくつかのエンドポイントを伴う。エンドポイントは、音声を提供することが可能であり、音声及びビデオを提供することが可能であり、又は音声、データ及びビデオを提供することが可能である。2名以上の会議出席者に同時に提示するために、ビデオ会議を実施するマルチポイント制御装置(MCU)は2つ以上の位置から来るビデオ画像を、別々の参加者に転送される単一のレイアウトに構成する。MCUはいつかのメディア・チャンネルをアクセス・ポートから受信する。特定の基準によって、MCUは視聴覚信号及びデータ信号を処理し、接続チャンネルに配信する。そうした構成レイアウトは、連続表示(CP)レイアウトとも呼ばれている。MCUの例として、Polycom, Inc.から入手可能なMGC−100がある。MGC−100についての更なる情報は、内容を本明細書及び特許請求の範囲に援用するwww.polycom.comのウェブサイトで見つけることが可能である。エンドポイント(端末)及びMCUのより徹底的な定義は、内容を本明細書及び特許請求の範囲に援用するH.320標準、H.324標準、H.323標準に限定されないがそれらのものなどの国際電気通信連合(「ITU」)標準において見つけることが可能である。(ITUは電気通信の分野における、国際連合の専門機関である。ITUに関する更なる情報は、内容を本明細書及び特許請求の範囲に援用するwww.itu.intのウェブサイト・アドレスで見つけることが可能である。)
通常、CP表示における参加者の位置は、会議のダイナミクスに応じて会議中に動的に変動する。図1は、会議の別々の期間中の別々の2x2レイアウト・スナップショットを示す。2x2レイアウトは、合計現行参加者数のうちの最大4参加者が表示されるレイアウトである。現行参加者の数は4以上であり得るが、特定の時点で、最大4名の会議出席者を表示することが可能である。特定の時点でどの会議出席者が表示されるかは、会議を予約するか、又は会議を設定する場合に規定することが可能な選択基準によって変わってくる。例えば、一基準は、現在声が最も大きな会議出席者が表示されるというものであり得る。
【0003】
2x2レイアウトで送信されるミクシング・オーディオは、表示された4名の参加者のミクシング・オーディオを含み得る。声のより大きな4名の会議出席者は変わってくることがあり得るので、表示上の位置は、会議のダイナミクスによって動的に変動する。
【0004】
例えば、レイアウト100は、会議出席者A、B、C及びDが、声が最も大きな会議出席者であり、よって表示上に表示される。レイアウト110は、会議出席者EがBよりも声が大きく、よって、会議出席者Bがレイアウトから除外され、会議出席者Eが会議出席者Bを置き換える、同じ会議における別の期間のスナップショットである。レイアウト110は会議出席者A、E、C及びDを含む。レイアウト120は、会議出席者BがCよりも声が大きく、よって、会議出席者Cがレイアウトから除外され、会議出席者Bが会議出席者Cを置き換えるスナップショットである。上記3つのレイアウトは、会議のダイナミクスを表す。
【0005】
通常のマルチポイント会議システムでは、ミクシング・オーディオはモノであり、そのソースの画像の位置に関する印象を画面上で何ら伝えることが可能でない。しかし、ユーザ体験を向上させるために、参加者の声を聴くことが可能な方向を、表示上の参加者の位置と関係付けることができることが望ましい。
【0006】
仮想位置に関する合成ステレオ・オーディオを生成するための方法及び/又はシステムを教示する従来技術の参照文献は少ない。例えば、内容全体を本明細書及び特許請求の範囲に援用する米国特許第6,408,327号明細書には、ローカル・エリア・ネットワーク又はワイド・エリア・ネットワークを介して複数のユーザの合成ステレオ・オーディオ会議を容易にする方法及びシステムを開示している。しかし、従来技術は、ミクシング・ステレオ・オーディオが現行の会議レイアウトにわたる話者の位置の関数であるビデオ会議システムを提供するものでない。
【発明の概要】
【発明が解決しようとする課題】
【0007】
よって、表示上の会議出席者の位置を会議出席者の声と関係付けることによって、マルチメディア・マルチポイント・ユーザの体験を改善する必要性が存在している。
【課題を解決するための手段】
【0008】
本願の開示は、マルチポイント・ビデオ会議であって、エンドポイントでブロードキャストされるオーディオが、エンドポイントで表示されるレイアウト内の、オーディオのソースの位置(すなわち、発話エンドポイント)に空間的に相当する。よって、エンドポイントのユーザは、空間的に解決されたオーディオを楽しむことが可能である(すなわち、ユーザが聴くオーディオが、オーディオのソースが位置する、表示上の位置から発せられるように思われることになる)。
【0009】
本願で開示する方法は、エンドポイントに複数のオーディオ・ストリームも供給することによってエンドポイントに対してオーディオ位置の知覚を提供する。オーディオ・ストリームのそれぞれは、エンドポイントでの複数のスピーカのうちの1つに相当する。オーディオ・ストリームは、エンドポイントで表示される、ビデオ会議レイアウト内の発話エンドポイントの位置に最も近い1つ又は複数のスピーカを介してオーディオ・ストリームのブロードキャストを強調するように差異化される。例えば、画面の遠位側にあるスピーカでブロードキャストされるオーディオを、表示の近位側にあるスピーカでブロードキャストされるオーディオと比較して減衰させる、及び/又は遅延させることもできる。
【0010】
上記開示は、ビデオ会議に参加している種々のエンドポイントからのオーディオ信号及びビデオ信号を受信し、処理するMCUも提供する。MCUはオーディオ信号及びビデオ信号を復号化し、処理し、種々のエンドポイントに送信されるビデオ・レイアウトを構成する。レイアウトは、レイアウト内に配置された種々のエンドポイントのビデオからの画像を含む。特定のエンドポイントの位置は、セッションのダイナミクスに応じてビデオ会議セッション中にレイアウト内で変動し得る。MCUはどのエンドポイントが、オーディオのソースであるかをどの特定の時点でも判定する。このエンドポイントを本明細書及び特許請求の範囲では「発話エンドポイント」として表す。2つ以上のエンドポイントが特定の時点でオーディオを供給し得るので、2つ以上の発話エンドポイントが存在し得る。MCUはオーディオを種々のエンドポイントに送信し、オーディオ・ストリームを、発話エンドポイントのレイアウト内の位置に最も近い1つ又は複数のスピーカを介してオーディオ・ストリームのブロードキャストを強調するように差異化させる。
【図面の簡単な説明】
【0011】
【図1】ビデオ会議セッション中のビデオ会議レイアウト内の別々の会議出席者の位置における変動を示す図である。
【図2】マルチメディア会議システムのエレメントを示す簡易構成図である。
【図3a】非モノ・オーディオ・ポートのエレメントを示す簡易構成図である。
【図3b】合成ステレオ効果をもたらす例示的なアルゴリズム(パラメータ)を示す図である。
【図4a】エンドポイントとの接続を設定する例示的な方法における工程を示す流れ図である。
【図4b】IVR(相互作用音声応答)セッションを用いて非モノ・エンドポイントの話者を調節するためのビデオ・クリップ内のレイアウト例を示す図である。
【図5】ビデオ内の位置変動にオーディオのソースの位置を適合させる例示的な方法における工程を示す流れ図である。 本発明の例示的な実施例は、以下の説明を検討し、添付図面を参照することによってより容易に理解されるであろう。
【実施例】
【0012】
本開示の一局面は、ビデオ会議システムであり、エンドポイントのユーザが、空間的に解決されたオーディオを楽しむことが可能である、すなわち、ユーザが聴くオーディオは、オーディオのソースがある、ディスプレイ上の位置から発せられるように思われることになる。図2は、マルチメディア会議システム200の一般的なトポロジにおけるエレメントを示す簡易構成図である。会議システム200は、複数のエンドポイント210a−n及びマルチメディア線220a−nのそれぞれを有し得る。会議システム200は、マルチメディア線220q、ネットワーク230及びビデオ制御装置(VCU)240を更に有する。VCU240は、ネットワーク・インタフェース(NI)モジュール242、1つ又は複数のモノ・オーディオ・ポート262及び1つ又は複数の非モノ・オーディオ・ポート264を有するオーディオ・モジュール260、制御線274、276、278を備えた制御モジュール270、圧縮ビデオ線298、圧縮オーディオ線268、及び入力295モジュール、出力モジュール296を有するビデオ・モジュール294を含む。出力モジュール296のそれぞれは、エディタ299を含み得る。
【0013】
制御線274、276、278、ビデオ線298、オーディオ線268、並びにマルチメディア線220a−n及び220qはそれぞれ、制御信号、ビデオ信号、オーディオ信号及びマルチメディア信号の搬送のために特に企図され、それらに特化された線であり得る。あるいは、上記線は、信号を搬送する汎用ケーブルから構成することもできる。制御線274、276、278、ビデオ線298、オーディオ線268、並びにマルチメディア線220a−n及び220qは、本明細書記載の信号に加えて他の信号を搬送することが可能である。例えば、光信号及び/又は電気信号を搬送することが可能であり、無線電波の経路であり得るものであり、又はそれらの組み合わせであり得る。こうした線はそれぞれ、実際に、相当する信号が通って進む、複雑な回路アレイ及び/若しくは部品アレイであり得るものであるか、又は、情報を交換するのに用いる共通メモリ・バッファであり得る。こうした線の何れかによって接続されるモジュールがソフトウェア構成部分である実施例において、こうした線は情報の交換を表し得る。
【0014】
エンドポイント210a−nとVCU240との間で通信される情報は、表示子、制御、オーディオ情報、ビデオ情報、及びデータを含む。マルチメディア線220a−nは情報をネットワーク230に伝達し、マルチメディア線220qは情報をVCU240に伝達する。
【0015】
何れかの組み合わせのエンドポイント210a−nが何れかの特定の会議に参加することが可能である。エンドポイント210a−nは、音声、データ、ビデオ、又はそれらの何れかの組み合わせを供給することができる。よって、各エンドポイント210a−nは、ユーザ制御装置212a−n、1つ又は複数のマイクロフォン214a−n、カメラ216a−n、表示218a−n、及び1つ又は複数のスピーカ211a−nをエンドポイントのタイプによって有し得る。エンドポイント210a−nのそれぞれは、こうした構成部分の別の組み合わせを含み得る。通常、モノ・エンドポイント210aは、1つのスピーカ211a及び1つのマイクロフォン214a−nを有する。ステレオ・エンドポイント210bは2つのスピーカ(右側に211br及び左側に211bl)と1つ又は2つのマイクロフォン(左側及び右側それぞれに214bL及び214bR)とを有する。エンドポイントは、3つ以上のスピーカ(例えば、4チャンネル・ステレオ・システムにおける4つのスピーカ)を有し得る。例えば、エンドポイントは、2次元のスピーカ・アレイを有し得る。
【0016】
ユーザ制御装置212a−nは、ユーザとエンドポイントとの間のインタフェースとしてふるまう。ユーザ制御装置212a−nは、DTMF信号を用いるダイヤル・キーボード(例えば、電話機のキーパッド)、DTMF信号に加えて他の制御信号を用い得る専用制御装置、又は、例えば、ITU標準H.224及びH.281を利用する遠位端カメラ制御信号装置であり得る。一実施例では、ユーザ制御装置212a−nはキーパッドである、及び/又は、会議画像(すなわち、会議に関連した画像)上でカーソルをたどるか、又は会議画像の位置をシフトさせるための上下左右の矢印キーを有する。あるいは、ユーザ制御装置212a−nは、表示218a−n上に仮想キーパッドを表示するソフトウェアであり得る。更に別の実施例では、ユーザ制御装置212a−nは、タッチトーン電話機の共通キーパッドなどのDTMF生成器及び/又はリモコン(TV受信機に用いられるリモコンなど)を含み得る。
【0017】
マイクロフォン214a−nによって、エンドポイント210a−nにいるユーザが会議内で話すか、又は、他のユーザに聞こえる音声及び雑音に寄与することが可能になる。スピーカ211a−nによって、エンドポイント210a−nのユーザが会議を聴くことが可能になる。非モノ・エンドポイント(エンドポイント210bなど)の場合、2つ以上のスピーカ211br及び211blは、表示218b上の話者の位置によって位置知覚を提供することが可能である。カメラ216a−nは、生のビデオ・デ―タ(エンドポイント210a−nに関連したユーザの画像や展示の画像など)をエンドポイント210a−nによって入力することを可能にする。表示218a−nによって、会議をエンドポイント210a−nで視ることが可能になる。構成部分の1つを欠いているエンドポイント210a−nは、会議に参加することが可能な方法において制限され得る。
【0018】
複数のエンドポイント210a−nがネットワーク230を介してビデオ制御装置(VCU)240に接続される。VCU240は例えば、MCU又はメディア・プロセッサであり得る。MCUは会議制御エンティティである。例示的な実施例では、MCUはネットワーク230のノードにあるか、又は端末内にある、アクセス・ポートからいくつかのチャンネルを受信し、特定の基準によって、視聴覚信号を処理し、接続チャンネルに配信する機器である。MCUの一例として、Polycom,Inc.の製品であるMGC−100がある。ネットワーク230は、単一のネットワーク(統合サービス・ディジタル・ネットワーク(ISDN)、公衆交換電話ネットワーク(PSTN)、非同期転送モード(ATM)、インターネット及び/又はイントラネットなど)、又は2つ以上の上記ネットワークの組み合わせであり得る。
【0019】
以下では、多くの場合、本発明のVCU240の例としてMCUを表す。しかし、メディア・プロセッサ(MP)をMCUの代わりに用いることができ、以下の記載におけるMCUを置き換えることができる。
【0020】
ネットワーク・インタフェース(NI)モジュール242は論理装置であり得る。論理モジュール又は論理装置は、特定の機能を行うモジュール又は装置である。本明細書では、論理モジュール、論理装置の語、及びこれらの語の変形は同義で使用する。論理モジュールはハードウェア及び/又はソフトウェアであり得る1つ又は複数のエレメントを含み得る。論理モジュールは、一エンティティ(ディジタル信号処理、印刷回路基板(DSP、PCB)、プロセッサ、又はコンピュータ・プログラムに限定されないが、それらなど)に配置されてもよく、別々の上記エンティティにわたって分散させてもよい。NI242はネットワーク230を介して複数のエンドポイント210a−nからマルチメディア通信を受信し、通信標準(H.323、H.321、H.324、シップ(SIP)、及び/又はH.320に限定されないが、それらなど)によってマルチメディア通信を処理する。NI242はオーディオ・ストリーム、ビデオ・ストリーム、データ・ストリーム及び制御ストリームをVCU240の適切な構成部分に配信する。着信マルチメディア通信をオーディオ・ストリーム、ビデオ・ストリーム、データ・ストリーム及び制御ストリームに多重化する工程をNI242の処理が含むことを一部の通信標準は必要とする。情報をエンドポイント210a−nに送信すると、NI242は別個のストリームをVCU240の種々の装置から受信し、適切な通信標準によってストリームを処理する。NI242は次いで、マルチメディア線220qを介してストリームをネットワーク230に送信し、ネットワーク230は同様に、ストリームをマルチメディア線220a−nを介してエンドポイント210a−nに送信する。別々のネットワークにわたるエンドポイント及び/又はMCU間での通信に関する更なる情報、並びに、例えば、信号、制御、圧縮、及びビデオ通話を設定する方法に関する更なる情報は、国際電気通信連合(「ITU」)標準H.320、H.321、H.323、H.324、H.324M、H.261及びH.263、H264、MPEGで見つけることができ、又はSIPウェブサイト(3gpp.org)で見つけることができる。オーディオ圧縮標準には、G.711、G.722、AMR、AMR−WB等が含まれる。
【0021】
オーディオ・モジュール260は、複数のエンドポイント210a−nの圧縮オーディオ・ストリームをNI242からオーディオ線268を介して受信する。オーディオ・モジュール260は圧縮オーディオ・ストリームを処理し、(エンドポイント210a−nからの)適切なオーディオ・ストリームをミクシングし得るものであり、圧縮されたミクシング信号をもう一度NI242にオーディオ線268を介して送る。処理済オーディオは、エンドポイント210a−nにもう一度送られる。個々のエンドポイント210a−nのニーズによる別々の通信標準によってオーディオ・ストリームをフォーマッティングすることができるという点で、エンドポイント210a−nのそれぞれに送られるオーディオ・ストリームは、お互いに異なり得る。例えば、オーディオ・ストリームは、エンドポイントが有するスピーカ211a−n、及び現行ビデオ表示等の数によってフォーマッティングすることができる。別の例として、特定のエンドポイントに送られるオーディオ・ストリームは、そのエンドポイントに関連したユーザの音声を含まない場合があるが、音声を他のオーディオ・ストリーム全てに含み得る。
【0022】
例示的な実施例として、オーディオ・モジュール260は、モジュールのうちでもとりわけ、少なくとも1つのモノ・オーディオ・ポート(MAP)262、少なくとも1つの非モノ・オーディオ・ポート(NMAP)264、圧縮オーディオ共通インタフェース(CACI)及び復号化オーディオ共通インタフェース(DACI)を含み得る。CACI及びDACIは図2に示していない。CACI及びDACIは両方のタイプのオーディオ・ポート(MAP262及びNMAP264)に接続され、MAP262及びNMAP264の別々のモジュール間で圧縮オーディオ又は復号化オーディオを搬送する。MAP262又はNMAP264のそれぞれは、エンドポイントでのスピーカの数によってエンドポイントと関連付けられる。各オーディオ・ポートは、その関連エンドポイントからNI242、オーディオ・バス268を介して来る符号化オーディオ・ストリームを取り込む。CACIは取り込んだ符号化ストリームを復号化し、DACI上に復号化ストリームを配置させる。
【0023】
制御モジュール270からの受信コマンド、及び会議の現状に基づいて、別々の会議出席者に属する1つ又は複数の適切な復号化ストリームがDACIから取り込まれる。取り込まれた復号化ストリームは、処理され、ミクシングされ、符号化され、CACIを介して関連エンドポイントに送られる。選択された復号化オーディオ・ストリームの操作は、オーディオ・ポートのタイプ(すなわち、MAP262かNMAP264か)によって変わってくる。MAP262の動作に関する更なる情報は、内容全体を本明細書及び特許請求の範囲に援用する、米国特許出願公開第2002/0123895号、米国特許出願公開第2002/0188731号、米国特許出願公開2005/0069114号、及び米国特許出願公開第10/909,446号において見つけることが可能である。NMAP264に関する更なる情報は、図3a及び図b、図4&図5に関して以下に開示する。
【0024】
制御モジュール270は、VCU240の動作を制御する論理装置であり得る。通常のMCUの共通動作に加えて、VCU240は、制御モジュール270を有することの結果として更なる動作が可能である。特に、エンドポイント210a−nのそれぞれとの接続の設定中に、制御モジュール270は、エンドポイントに割り当てられるオーディオ・ポートのタイプ、特定のNMAP264が必要になる、スピーカのチャンネルの数、2つ(スピーカ毎1つ)以上の符号化ストリームを送る方法、別々のオーディオ・ストリームにCACI及びDACIを分離する方法等を判定することができる。会議中、レイアウトのタイプ、及び会議出席者のそれぞれの音声活動についての継続情報に基づいて、制御モジュール270は、レイアウトにおける特定の会議出席者の画像の位置を変更するようビデオ・モジュール290に指示することができる。よって、位置命令もNMAP264に転送することが可能である。制御モジュール270の一部の一意の動作は、図3a及び図3b、図4及び図5に関して以下に詳細に説明する。
【0025】
ビデオ・モジュール294は、圧縮ビデオ・ストリームを受信し、送る論理モジュールであり得る。例示的なビデオ・モジュール294は、参加エンドポイントから圧縮入力ビデオ・ストリームを受信する1つ又は複数の入力モジュール、及びいくつかの入力ストリームから構成される、構成された圧縮出力ビデオ・ストリームを生成して、1つ又は複数の選択レイアウトに基づいて会議を表す1つ又は複数のビデオ・ストリームを構成する1つ又は複数の出力モジュールを含み得る。図2では、入力モジュール295は少なくとも1つのビデオ入力モジュールを含むが、何れかの数のビデオ入力モジュールを含み得る。例えば、エンドポイント210a−nのそれぞれ毎に1つのビデオ入力モジュールがあり得る。同様に、ビデオ出力モジュール296は何れかの数のビデオ出力モジュールを含み得る。例えば、エンドポイント210a−n毎に1つのビデオ出力モジュールがあり得る。各ビデオ出力モジュールのエディタ299は、複数のエンドポイント210a−nの特定のエンドポイントに個別化させることが可能な表示レイアウトを生成する。レイアウト、及びレイアウト内の選択会議出席者は、制御モジュール270によって動的に制御することができる。例示的なビデオ・モジュール294についての更なる情報は、内容を本明細書及び特許請求の範囲に援用する米国特許第6,300,973号明細書、米国特許出願公開第10/344,762号明細書及び米国特許出願公開第2003/0174202号明細書に記載されている。
【0026】
次いで図3aを参照すれば、非モノ・オーディオ・ポート(NMAP)300を、2つ以上のスピーカ210b(図2)を有するエンドポイントと関連付けることが可能である。例示的なNMAP300は、他のモジュールのうちでもとりわけ、非モノ・コデック(NMC)310及び非モノ・ブリッジ(NMB)320を利用することが可能である。NMC310はCACI302に接続され、DACI304に接続される一方、NMB320はDACI304に接続される。両方の装置310及びNMB320を制御モジュール270(図2)に接続(図3に図示せず)することが可能である。
【0027】
NMC310は、(関連エンドポイントによって送られる入力ストリーム数「g」によって)1つ又は複数の復号器313a−gを備え、関連エンドポイントが有するスピーカの数「k」によって2つ以上の符号器316a−kを備えることが可能である。ステレオ・エンドポイントの場合、NMC310は通常、2つの復号器313a及びb、並びに2つの符号器316a及びbを備える。四つ組のエンドポイントの場合、符号器316a−dの数は通常4つであり、復号器の数は、例えば、2つ(313a及びb)又は4つ(復号器)であり得る。例示的なNMB320は、解析及びエンハンスのモジュール(A&E)322、スイッチ(セレクタ)324、ストリーム複製器325、複製器共通インタフェース326、2つ以上のスピーカのチャンネル330a−k、メモリ(LUT)329に関連した制御装置(CU)328を含み得る。スピーカのチャンネルの数「k」は、関連エンドポイントでのスピーカの数によって変わってくる。各スピーカのチャンネルは、遅延モジュール(DM)322、利得モジュール(GM)334及びミクサ336を含み得る。
【0028】
CACI302及びDACI304はそれぞれ、共通インタフェース(時分割多重化(TDM)バス、非同期転送(ATM)バス、パケット・バス、及び/又は共有メモリに限定されないがそれらのものなど)であり得る。CACI302は、オーディオ・モジュール260において用いられる複数のMAP262及び/又はNMAP264によって共有される(図2)。CACI302は、オーディオ・バス268の延長であり得る(図2)。CACI302は、別々のエンドポイントとその関連オーディオ・ポートとのそれぞれの間で圧縮オーディオ・ストリームを搬送する。DACI304は、オーディオ・モジュール260において用いられる複数のMAP262及び/又はNMAP264によって共有される(図2)。DACI304は、複数のコデック(モノ及び非モノ)と複数のブリッジ(モノ及び非モノ)との間で復号化オーディオ・ストリームを搬送する。一部の例示的な実施例では、CACI302及びDACI304は、同じ物理資源を共有することができる、例えば、同じTDMバス又は同じ共有メモリを共有することが可能である。
【0029】
非モノ・エンドポイントの1つとの接続を設定する処理中に、エンドポイントの要件に適合されたNMAP300が、エンドポイントと関連付けられる。エンドポイントの要件は、スピーカの数、オーディオ・ストリーム(マイクロフォン)の数、又は圧縮パラメータ(符号化アルゴリズム、ビットレート等に限定されないが、それらのものなど)であり得る。NMAP302に適切な、CACI302及びDACI302内の位置に関する情報はオーディオ・ポートに転送される。情報は、CACI及び/又はDACIのタイプによって変わってくる。例えば、共通インタフェースがTDMバスの場合、情報は、適切な符号化ストリーム及び復号化ストリームの時間スロットを含み得る。共通インタフェースがパケット・バスの場合、適切な情報は、符号化ストリーム及び復号化ストリームの適切なソース及びデスティネーションのアドレスを含み得る。共有メモリ共通インタフェースの場合、適切な情報は、共有メモリ内の別々のキューのアドレス等を含み得る。接続の設定に関する更なる情報は、図4に関して以下に開示する。
【0030】
会議中、1つ又は複数の復号器313a−gは、NI242、オーディオ・バス268(図2)、及びCACIを介してその関連エンドポイントから符号化オーディオ・ストリームを受信する。復号器313a−gは、関連エンドポイントによって用いられる圧縮アルゴリズムによって符号化ストリームを復号化する。例示的なオーディオ圧縮手法は、G.711、G.723、G.729、及び動画像専門家グループ(MPEG)のオーディオ圧縮標準に限定されないがそれらを含む。1つ又は複数の復号化ストリームは、適切な復号器313a−gに割り当てられたスロット(アドレス)にDACI304を介して配置される。
【0031】
NMB320のA&Eモジュール322は、別々のエンドポイントによって生成された復号化ストリームをDACI304から受信する。A&Eモジュール322は、復号化オーディオ・ストリームを解析するアルゴリズム群及び品質を向上させるストリーム・エンハンス・アルゴリズムを用いて復号化(復元)オーディオ・ストリームに対してストリーム解析を行う。例示的なエンハンス処理は、例えば、国際電気通信連合(ITU)G.165によるエコー・キャンセリング、デュアル・トーン複数周波数(DTMF)抑制等を含む。A&Eモジュール322の機能は、2つの論理装置(解析装置及びエンハンス装置)に分けることが可能である。ストリーム・エンハンスによってエンハンス・オーディオ信号が生成される。ストリーム解析によって、制御情報(VAD(音声活動検出)、信号エネルギ、及び信号品質の尺度に限定されないがそれらなど)が生成される。制御装置328は、A&Eモジュール322のストリーム解析から制御情報を受信し、現在アクティブな参加者(図示せず)を判定する。この情報に基づいて、制御命令が作成され、VCU240(図2)の制御モジュール270、スイッチ324、メモリ329、及び別々のスピーカのチャンネル330a−kに送られる。関連エンドポイントが2つ以上のストリームを配信する場合、A&Eモジュール322のエンハンス部分を複製することが可能である。各オーディオ・ストリームは別のエンハンス部分によってエンハンスさせることができる。あるいは、解析部分は、2つ以上の復号化ストリームを(モノ・エンドポイントをエミュレートする)1つのストリームに合成することが可能であり、合成ストリームを解析する。
【0032】
スイッチ324は、制御命令を制御装置(CU)328から受信し、エンハンス・オーディオ・ストリームをA&Eモジュール322から受信する。制御命令に基づいて、スイッチ324は、CU328によって行われる選択判定によって選択し、設定数の選択された非圧縮オーディオ・ストリームを供給する。選択判定は、種々の基準(例えば、会議のプロファイル)に基づくものであり得る。プロファイルは、オーディオ・ストリームのVADに無関係に特定の会議出席者が聴かれることになることを規定し得る。別のプロファイルは、声が最も大きな話者のみが聴かれることになるか、又は声が大きな4名の会議出席者のストリームが選択されることになること等を規定し得る。
【0033】
選択されたエンドポイント210b(図2)が2つ以上のオーディオ・ストリーム(例えば、左右)を供給する場合、両方のストリームがスイッチ324によって選択され、ストリーム複製器325によって複製される。スピーカのチャンネル330a−kでは、構成レイアウトに配置されたように、エンドポイントから送られたオーディオのソースの画像の位置をエミュレートするよう各ストリームが処理される。
【0034】
選択されたストリームを、スピーカのチャンネルの数「k」によって複製する対象のストリーム複製器(SD)325に転送する。ストリーム複製器325は、別々のスピーカのチャンネル330a−kによって共有される共通インタフェースであり得る。チャンネル330a−kのそれぞれは、選択された会議出席者に属する複製オーディオ・ストリーム群を取り出す。共通インタフェースは、TDMバス等などの共有メモリ・インタフェースであり得る。
【0035】
関連エンドポイントとの接続設定中に、CU328はエンドポイントでのスピーカの数、スピーカのおおよその位置(右、左、左上、右下等)、圧縮アルゴリズム、圧縮パラメータ、適切な符号化ストリーム及び復号化ストリームのCACI302及びDACI304における(スロットの)アドレス、スイッチ324のストリーム選択基準、当初のビデオ・レイアウト、及び当初レイアウトにおける適切な会議出席者の開始位置に関する情報を受信する。更に、CU328は、表示上の位置、及びオーディオのソースの方向に係わる合成オーディオを作成することができる。パラメータ群は、レイアウトと、スピーカの数「k」と、エンドポイントに対するその位置によって変わってくる。パラメータ群は、スピーカのチャンネル330a−kのそれぞれについての曲線群(一振幅曲線及び一遅延曲線)によって示すことが可能である。パラメータ(曲線)群はメモリ(LUT)329に記憶することが可能である。
【0036】
一実施例によれば、位置知覚をもたらすことは、他方のスピーカに対して、一方のスピーカに送られるオーディオの振幅及び遅延(位相シフト)を制御することによって行われる。遅延及び振幅は、レイアウト内のオーディオのソースの位置、及びエンドポイントでのスピーカ(左右)の位置によって変わってくる。ステレオ・エンドポイントの例示的なパラメータ群は図3bに示す。図3bは、左のスピーカ・チャンネル330bの入力でのオーディオ・ストリームと比較した、左のスピーカに関連した、スピーカのチャンネル330bのミクサ336に送られるオーディオ・ストリームの遅延及び減衰を表す。
【0037】
図3bの上部340では、エンドポイントの表示をXY軸上に配置している。表示の幅をX軸上に配置しており、表示の高さをY軸に配置している。表示の寸法は、横縦それぞれW、Hである。左のスピーカのチャンネル330bの場合、位置知覚をもたらすのに用いることが可能な例示的なパラメータ群を、図3bの350及び360に示す。中心(X=W/2、図示せず)を中心とした、350及び360に対する対称曲線群を右のスピーカのチャンネル330aに用いることが可能である。例示的なパラメータ群によれば、会議出席者の画像の中心(Xi:Yi)が中央にあるか、又はレイアウトの左側にある(Xi≦W/2)場合、そのオーディオ・ストリームの振幅及び遅延は変更なしの状態に留まる。遅延はゼロに等しく、振幅は、左のスピーカのチャンネル330bの入口における振幅と同じ振幅である。画像が表示されていない会議出席者のオーディオ・ストリームは、画像の中心がレイアウトの中心(W/2:H/2)に配置されているかのように処理することが可能である。
【0038】
会議出席者の画像の中心(Xi:Yi)がレイアウトの右側(Xi>W/2)に配置されている場合、線分352によって示されているようにそのオーディオ・ストリームの遅延は増加する。例えば、Xi=3/4Wである場合、遅延は約1/2D1である。D1はエンドポイント(スピーカの位置及び距離)に依存し得る。D1の通常の値は、約数ミリ秒、例えば、約3msec、5msec、9msec等の範囲であり得る。振幅は例示的な曲線362によって減衰させ得る。例えば、Xi=3/4Wである場合、振幅はスピーカ・チャンネル330bの入口での同じ会議出席者の信号の振幅の約70%であり得る。
【0039】
本発明の他の例示的な実施例は、オーディオ・ストリームのソースの表示上の位置をエミュレートするために、適切なオーディオ・ストリームを処理する「ヘッド関連伝達関数」を実施することができる。
【0040】
選択された会議出席者のうちの1名がステレオ・オーディオ(MCUに入力される左入力ストリーム及び右入力ストリーム)を供給する場合、各ストリームは複製され、スピーカのチャンネル330a−kのうちのそれぞれに転送される。各スピーカのチャンネルは、左複製ストリーム及び右複製ストリームを違ったふうに処理する。例えば、左スピーカのチャンネル330aの右複製ストリームを、左複製ストリームに対して遅延させ、減衰させることができ、逆も同様である。別の実施例(図面では図示せず)では、2つ以上の復号器313a−gの出力での復号化ストリームは、モノ入力復号化ストリームをエミュレートする一ストリームに合成される。モノ入力復号化ストリームはDACI304上に配置される。この時点からステレオ・エンドポイントからの入力オーディオはモノ入力として処理される。
【0041】
一実施例は、エンドポイントのタイプによって複数の別々の曲線350及び360を備えたデータベースを含む。これらの曲線は、ベンダで事前に作成することが可能であり、かつ/又は操作者によって修正することが可能である。別の例示的な実施例によって、データベース内の優先度に応じてユーザによって作成及び調節された別々の曲線の群を保存することができる。こうした曲線は、適切なエンドポイントとの将来の接続に再使用することが可能である。レイアウトの数、及び各レイアウトにおける画像の数が限定的であるので、各曲線における点の数も限定的である。したがって、複数の曲線を備えたデータベースの作成及び管理が達成可能である。
【0042】
他の実施例は、振幅のみを制御し、遅延を無視するか、又は遅延を制御し、振幅を無視することができる。他の実施例は他の曲線を用いることができる。例えば、点0:0からW:Hへの、表示の幅全体に沿って表示の中心(W/2:W/2)以外の点から遅延及び振幅に影響を及ぼし始める曲線の群を用いることが可能である。
【0043】
エンドポイントが4つのスピーカ(すなわち、表示の各隅に1つ)を有する場合、一方法は、エンドポイントが2つのスピーカのみ(左側に1つと右側に1つ)を有するかのように信号を左のスピーカへ処理し、信号を右のスピーカに処理することができる。次いで、上部スピーカか、若しくは下部スピーカか、又は両方を用いるかについての判定が行われる。判定はHiの値に基づくものであり得る。Hi>H/2である場合、上部スピーカを用いることが可能であり、下部スピーカへの信号の利得がゼロに設定される。Hi<H/2である場合、下部スピーカを用いることが可能であり、上部スピーカへの信号の(適切なGM336における)利得がゼロに設定される。Hi=H/2である場合、両方のスピーカが用いられ、上部スピーカへの信号の利得は、下部スピーカへの信号の利得に等しい。他の例示的な実施例は、4つのスピーカを処理する他の方法を用いることができる。例えば、4つのスピーカのチャンネル330a−dを(スピーカ毎に1つ)用いることができる。曲線350及び360によって示す同様なパラメータ群を、幅の代わりに高さに用いることが可能であり、「W」の値は「H」によって置き換えることが可能である。軸「X」は「Y」によって置き換えることができる。
【0044】
次いで、図3a中の、スピーカのチャンネル330a−kに戻れば、遅延モジュール(DM)332は、先入先出(FIFO)メモリ群(スイッチ324によって選択され、ストリーム複製器325によって選択された選択ストリーム(モノ入力会議出席者の場合、「i」であり、ステレオ・エンドポイントの場合、「iL」及び「iR」の場合、2つのストリームになる)毎の一FIFO)であり得る。読み取りコマンドは書き込みコマンドに対して遅延させる。FIFO(選択されたストリーム、「i」又はiL&iR)毎の遅延はDi又はDiL及びDiRであり得る。Di又はDiL及びDiRの値はレイアウトにおける会議出席者「i」の画像の中心、及びチャンネル330(図3bに関して前述)の関連スピーカの位置Xi:Yiによって変わってくる。値Di又はDiL及びDiRは、制御装置CU328を介してLUT329から取り出され、選択される会議出席者が変更される場合に会議中に動的に変えられる。
【0045】
利得モジュール(GM)334は、乗算子群(スイッチ324によって選択され、ストリーム複製器325によって複製された選択ストリーム(モノ入力会議出席者の場合、「i」であり、ステレオ・エンドポイントの場合、2つのストリーム「iL」及び「iR」になる)毎に1つ)であり得る。各選択ストリームは、係数Mi、又はMiL及びMiRによって乗算される。Mi又はMiL及びMiRの値は、レイアウトにおける会議出席者「i」の画像の中心、及びチャンネル330(図3bに関して前述)の関連スピーカの位置Xi:Yiによって変わってくる。値Mi又はMiL及びMiRはCU328によってLUT329から取り出され、選択会議出席者が変更されると会議中に動的に変更される。
【0046】
GM334の出力でのストリームは、ミクサ336によって取り込まれ、ミクシングされる。各スピーカのチャンネル330のミクシング・オーディオは、相当するチャンネル330a−kに関連したアドレス(スロット)内にDACI304上で配置される。符号器316a−kのそれぞれは、相当するスピーカのチャンネル330a−kによって処理及びミクシングが行われ、関連エンドポイントを目標とする復号化ミクシング・ストリームをDACI304から受信する。別々の選択ストリームの操作は、エンドポイントにおける関連スピーカの位置、及びレイアウトにおける適切なオーディオ・ソースの位置に基づくものである。例えば、右スピーカ211br(図2)に関連した符号器316aは、スピーカのチャンネル330aによって作成された復号化ミクシング・ストリームを受信する。スピーカのチャンネル330aは、ユーザによって聴かれるべきであるように、レイアウトにおけるそのソースの位置をエミュレートするよう選択ストリームを処理する。オーディオ信号の上記処理は、発話エンドポイントのレイアウト内の位置に最も近い1つ又は複数のスピーカを介してオーディオ・ストリームのブロードキャストを強調するよう差異化されたオーディオ・ストリームを生成するものとして一般化することが可能である。
【0047】
符号化ストリームは、このストリームに割り当てられたスロット(アドレス)においてCACI302を介して配置される。別の実施例(図示せず)では、MUXをNMC310に追加することができる。MUXは2つ以上の符号化ストリームを符号器316a−kから収集し、1つの合成符号化ストリームを供給することができる。合成符号化ストリームは、一符号器316aからの符号化フレームと、例えば、これに続く、他の符号器316bからの符号化フレームとを含む。合成符号化ストリームは、適切な時間スロット(又はアドレス)でCACI302上に配置される。
【0048】
会議中に、CU328は、特定の選択オーディオ・ソースを別のものに置き換える旨のコマンドを受信し得る。コマンドは、レイアウト内の新たなオーディオ・ソースの位置に関する情報を含み得る。この情報によれば、CU328はLUT329からDi及びMi(スピーカ330a−kのそれぞれについて1対のDi及びMi)の値群を取り出すことが可能である。次いで、適切な群が、新たなオーディオ・ソースを選択するようスイッチ324に送られるコマンドと並列に、各チャンネル330のDM332及びGM334にロードされる。
【0049】
図4は、エンドポイントとの接続を設定する例示的な方法400における工程を示す流れ図を示す。方法400は、制御モジュール270(図2)及び適切な制御装置328(図3)によって実施することができる。方法400は、VCU240(図2)とエンドポイント210a−nとの間の接続の起動によって開始(420)することができる。起動され次第、方法400は、適切なパラメータをエンドポイントから取り出す(402)ことができる。パラメータは、エンドポイントでのスピーカの数、圧縮アルゴリズム、エンドポイントが送るオーディオ・ストリーム(すなわち、左入力オーディオ・ストリーム及び右入力オーディオ・ストリーム)の数等であり得る。エンドポイントがモノ・エンドポイントか又は非モノ・エンドポイントかについての判定が行われる(410)。410でエンドポイントがモノ・エンドポイントである場合、モノ・オーディオ・ポート262(図2)を割り当てて(412)、このエンドポイントに対応し、方法(400)は、共通接続設定処理において進む(414)。設定(414)の終わりに、共通接続方法(400)が終結する。
【0050】
410でエンドポイントが非モノ・ポイントである場合、他のパラメータのうちでもとりわけ、VCUは非モノ・パラメータ群416を収集する。非モノ・パラメータ群は、スピーカの数、エンドポイントが送るオーディオ・ストリーム(すなわち、左入力オーディオ・ストリーム及び右入力オーディオ・ストリーム)の数、表示上の位置及びオーディオのソースの方向に関連した合成オーディオを作成するために好ましいステレオ・パラメータ群(存在する場合)、更なるオーディオ・ストリームを転送するための通信プロトコルを含み得る。例示的な通信プロトコルは、圧縮オーディオのフレーム毎に右ストリームが左ストリームに続くことになることを規定し得る。
【0051】
収集情報に基づいて、制御モジュール270(図2)は、エンドポイントと関連付ける対象の非モノ・オーディオ・ポートのリソースを割り当てる(416)。更に、CACI302及びDACI304(図3)上のスロット/アドレス群を割り当てることができる。非モノ・ポートは、適切な非モノ・コデック310及び適切なNMB320を含み得る。非モノ・コデック310は、各入力ストリーム毎に、かつ符号器数に対して復号器を含む。符号器の数「k」はエンドポイントのスピーカの数に等しい。NMB310は、「k」個のスピーカのチャンネル330を含む。符号器のタイプはエンドポイントの圧縮標準に一致する。
【0052】
割り当て(416)後、適切な非モノ・オーディオ・ポート300、現行レイアウトに関する情報、オーディオ・ストリーム(会議出席者)の予備選択を備えた、スイッチ324のストリーム選択基準、及び予備ステレオ・パラメータ群がCU328を介してLUT329にロードされる。予備ステレオ・パラメータ群は種々の方法で選択することが可能である。例えば、VCUが複数のステレオ・パラメータ群を含む場合、連番、ユーザ名等によって識別可能な、適切なエンドポイントに関連したパラメータ群がサーチされる。そうしたパラメータ群は、存在する場合、予備パラメータ群としてロードされる。そうしたステレオ・パラメータ群がデータベース内に存在しない場合、エンドポイントのタイプに適した汎用のステレオ・パラメータ群を選択することが可能である。そうした汎用パラメータ群が存在しない場合、スピーカ数に一致するデフォールト・パラメータ群が選択され、ロードされる。
【0053】
適切なモジュール(1つ又は複数の復号器313a−g、A&E322、DM332、及び符号器316a−k)のそれぞれは、適切なオーディオ・ストリームがそこから配置されるそのCACI302又はDACI304上のアドレス/スロットが通知される。選択された会議出席者のストリームのそれぞれのレイアウト内の位置の情報に基づいて、選択された会議出席者のストリームのそれぞれのDi(遅延)及びMi(利得係数)の適切な値が適切なDM332及びGM334にロードされる。こうした値は、適切なDM332及びGM334を含むスピーカのチャンネル330に関連したスピーカに関連した位置からのLUT329から取り出される。非モノ・オーディオ・ポートはよっていつでも、その関連エンドポイントから来る/その関連エンドポイントに送るオーディオを処理し始めることができる。
【0054】
420では、別々のスピーカのオーディオを調節する処理が必要か否かについての判定が行われる。この判定は、ロードされた予備ステレオ・パラメータ群のタイプに基づき得る。選択された予備ステレオ・パラメータ群が適切なエンドポイントと関連付けられる場合、再調節の必要はなく、方法400は終結する(442)ことが可能である。予備ステレオ・パラメータ群が汎用の場合、個別化された調節が必要であり得るものであり、方法400は、Di及びMiの別々の値を調節する工程422に進む。
【0055】
工程422では、IVR(相互作用音声応答)セッションに付随した例示的な調節ビデオ・クリップを起動させることが可能である。以降使用するように、ビデオ・クリップは例えば、アニメーションを含む。複数のビデオ・クリップを、制御モジュール270(図2)に関連したデータベース(図示せず)に記憶することが可能である。ビデオ・クリップは、複数の会議出席者を備えたビデオ会議を表す。レイアウトは、エンドポイントが有するスピーカの数によって変わってくる場合がある。図4bを参照すれば、レイアウト450は、2つのスピーカ(左に1つ、及び右に1つ)を備えたステレオ・エンドポイントの例示的なレイアウトを表す。よって、レイアウト450は、1名の会議出席者C1を表示の中央に含み、更なる4名の会議出席者(L1、L2、R1及びR2)(表示の各側に2名の会議出席者)を含む。L1及びL2は表示の左側に配置され、R1及びR2は表示の右側に配置される。他の例示的なレイアウトを、ステレオ・パラメータ群を調節するよう用いることが可能である。別の例(図示せず)は各側に4名の会議出席者を含むことが可能である。別の例示的な方法400はレイアウトの組み合わせ(図示せず)を用いることができる。各側に1名の会議出席者を備えた粗い設定から開始し、各側に2名の会議出席者を備えた細かい設定に続き、各側に4名の会議出席者を備えた最も細かいレイアウトによって終結し得る。他の例示的な方法は、L1及びL2の適切な値間の内挿を用いることによってか、又は、例えば、画像の中心がL1と比較して表示の中心に近いか、又はL2と比較して左縁部に近い場合に外挿を用いることによって(例えば、L1とL2との間の)中間位置についてDi及びMiの値を評価することができる。
【0056】
レイアウト460は、4つのスピーカ(エンドポイントの各隅に1つ)を備えたエンドポイントの例示的なレイアウトを表す。レイアウト460は、1名の会議出席者C11を中央に含み、2名の会議出席者を表示の上部線の各側に含み、L1T及びL2Tは表示の上部の左側に配置され、R1T及びR2Tは表示の上部の右側に配置され、2名の会議出席者を表示の下部線の各側に含み、L1B及びL2Bは表示の下部の左側に配置され、R1B及びR2Bは表示の下部の右側に配置され、2名の会議出席者を表示の中間部の高さそれぞれに含み、L2MUは表示の中間部の左側に配置され、R2MUは表示の中間部の右側に配置され、L2MDは表示の中間下部の左側に配置され、R2MDは表示の中間下部の右側に配置される。
【0057】
別の例(図示せず)は4名の会議出席者を各側及び各高さに含むことが可能である。別の例示的なレイアウトは、4つのスピーカのパラメータ群の調節に用いることが可能である。別の例示的な方法400はレイアウトの組み合わせ(図示せず)を用いることができる。各側及び各高さに1名の会議出席者を備えた粗い設定から開始し、各側に2名の会議出席者を備えた細かいレイアウトに続き、各側及び高さにおける4名の会議出席者を備えた最も細かいレイアウトによって終結し得る。
【0058】
例示的なビデオ・クリップは、表示上の位置及び音声の方向に一致するためにパラメータの容易な設定を可能にする方法で企図されている。例示的なクリップは複数のセッションを含み得る。各セッションは、特定の会議出席者(レイアウト内の位置)の専用となり、この間は、適切な会議出席者のみが話している。セッションは命令がユーザから受信されるまでループさせることが可能である。別の例示的なクリップでは、現行話者をマーキングしたあかしを表示することができる。ビデオ・クリップに付随するIVRセッションはユーザに指示し、選好(設定)を収集する。
【0059】
ビデオ・クリップを開始した後、ループが工程430から440まで開始される。ループはレイアウト内の会議出席者のそれぞれに対して実行する。ステレオ・エンドポイントの例示的なループは中央の会議出席者C1から開始(430)することができる。他の例示的なループは縁部から中央に開始し得る。各会議出席者のセッションの開始では、セッションは、存在する場合、適切なMi及びDiの先行設定を備えて開始(432)することができる。存在しない場合、セッションはデフォールト設定によって開始することが可能である。次いで、特定の会議出席者がこのセッション中に話すことをIVRセッションはユーザに通知し、この会議出席者に適切な設定を調節するためのオプションについてユーザに指示する。ユーザは、例えば、振幅を増加させるために「3」を押すよう指示され、振幅を減少させるために「9」を押すよう指示され、遅延を増加させるために「1」を押すよう指示され、適切な会議出席者の遅延を減少させるために「7」を押すよう指示されることがある。適切な設定に達すると、ユーザは「0」を押し、次の会議出席者に移るか、先行工程に戻るために「」を押すこと等ができる。
【0060】
ユーザ選択は、例えば、DTMF信号を介してVCUに転送することができる。その選択に基づいて、適切な遅延(Di)及び適切な乗数が再算出され、変更される。適切なDi及びMiは、レイアウト内の現行会議出席者「i」の位置及び適切なスピーカのチャンネルに関連したものである。工程432は、現行「i」の会議出席者の設定が満足である(例えば、「0」が受信された場合)というあかしまで進む。最終の設定434が保存される。設定は、この会議中に用いるために、LUT329(図3)に保存することが可能である。並行して、上記値を、将来の会議に用いる対象の制御モジュール270(図2)に関連したデータベース内に、及び/又は、将来の会議に用いる対象のエンドポイントに保存することが可能である。
【0061】
工程440では、レイアウト内に、調節されていない会議出席者が存在するか否かについての判定が行われる。肯定の場合、方法400はループを続け、レイアウト内の次の会議者を処理するために工程430に戻る。更なる会議出席者が存在しない場合、方法400を終結させる(442)ことができる。本発明の別の実施例では、440で、更なる会議出席者が存在しない場合、ループを終結させるか、又は、細かい調節、若しくは再検査のために再起動させるか否かについての判定を要求する旨の質問をユーザに向けて出すことができる。ユーザの判定に基づいて、方法400は終結させることができ(442)、又は、方法400は工程430に戻り、先行ループにおいて行われた設定を備えたループを起動させることができる。
【0062】
図5は、会議中に生じる、レイアウトにおける変更に、オーディオのソースの位置を適合させる例示的な方法500における工程を示す流れ図である。方法500は、レイアウトにおける変更が行われたというあかしを受信し次第、起動させる(510)ことが可能である。あかしは、新たな会議出席者群、及び表示(レイアウト)上のその位置、又は新たなレイアウト構成を含み得る。あかしを制御モジュール270(図2)から制御装置328(図3)に送ることが可能である。例えば、提示される会議出席者の数は、4名の会議出席者(図1に示す2x2のレイアウト)からレイアウト450(図4b)の構成のような5名の会議出席者のレイアウトに変更されている場合がある。あかしは、新たなレイアウト構成に一致するDi350及びMi360それぞれ(図3b)の新たなパラメータ(曲線)群も含み得る。こうしたパラメータ群はLUT329(図3)内の先行パラメータを置き換えることが可能である。別の実施例では、LUT329内のパラメータ群は変更されず、特定の会議出席者「i」の中心(Xi:Yi)がLUT329内に存在しない場合、Xi及びYiに最も近い1つ又は2つの位置がLUT329から取り出され、Di及びMiの値が、Xi及びYiに対して最も近い1つ又は2つの点の位置に応じた内挿又は外挿を用いて評価される。他の方法は、LUT329内に存在する、Xi及びYiに最も近い位置の値を用いることが可能である。
【0063】
工程520では、ミクシングする対象の、スイッチ324(図3)を介して選択された会議出席者毎にループを起動させることが可能である。選択基準は、現行レイアウトに依存してもしなくてもよい。例示的な選択基準は上記に開示している。ループ内の現行会議出席者の中心位置Xi:Yiが、レイアウト内の変更についての命令とともに受信された情報から取り出される(522)。ループ内の現行会議出席者が現在表示されていない場合、方法500は、レイアウトの中心にあるようにこの会議出席者の位置を参照する。よって、非表示会議出席者の中心位置は、Xi=W/2及びYi=H/2である。
【0064】
ループ内の現行会議出席者の現行レイアウト内の画像のXi及びYiに基づいて、スピーカのチャンネル330a−c(図3)毎の適切なDi及びMiがLUT329(図3)から取り出されるか、LUTから取り出される、最も近い1つ又は複数の値に基づいて評価される。Di及びMiの値は、スピーカ330a−cのそれぞれにおいて会議出席者「i」のストリームを処理する適切な遅延モジュール332(図3)及び利得モジュール334(それぞれ)にロードされる(524)。
【0065】
スピーカのチャンネル330a−c全ての値Di及びMiの設定後、スピーカのチャンネルを設定しなければならない、ループ内の会議出席者が更に存在しているか否かについての判定が行われる(530)。工程の場合、方法500はループを続け、次の会議出席者「i+1」の、各スピーカのチャンネル330a−cにおけるDi+1及びMi+1の設定を処理するよう、工程520に戻る。530で、設定を必要とする会議出席者がもう存在しない場合、方法500は終結し(532)、NMB320(図3)は、レイアウト(表示)上の現行位置によって音声に位置知覚を与える合成非モノ・ミクシング・オーディオを供給するよう設定され、準備される。
【0066】
本明細書に開示した方法を行うための、MCU内に常駐する更なるソフトウェア、MCUに追加された更なるハードウェア、又はMCU間で分散させた更なるソフトウェア若しくはハードウェアの形態で本願の開示を実施することができることを当業者は認識するであろう。
【0067】
工程の順序の変更、及び使用するまさにその実施形態を含む、多くの方法において前述の方法を変えることができることは認識されよう。上記方法及び装置の上記記載が上記方法を行う装置、及び上記装置を用いる方法を含むものとして解されるべきであることも認識されよう。
【0068】
前述の実施例は、別々の特徴を備え、それら全てが本発明の実施例全てにおいて必要な訳でない。本発明の一部の実施例は、特徴の一部のみ、又は特徴の、考えられる組み合わせのみを利用するものである。前述の実施例記載の別々の組み合わせを当業者は思いつくはずである。
【符号の説明】
【0069】
210a モノ・エンドポイント
210b ステレオ・エンドポイント
210n エンドポイント
211n スピーカ
218a 表示
218b 表示
218n 表示

【特許請求の範囲】
【請求項1】
複数のエンドポイント間のマルチポイント・ビデオ会議を制御する方法であって、
前記エンドポイントのうちの少なくとも1つは、画面に対して空間的に配置される複数のスピーカを備える非モノ・エンドポイントであり、
前記複数のエンドポイントからの、オーディオ信号及びビデオ画像信号を有する符号化データ・ストリームを、マルチポイント会議装置(MCU)において受信する工程と、
前記データ・ストリームを復号化して前記オーディオ及びビデオ画像信号を生成する工程と、
前記複数のエンドポイントのうちで発話エンドポイントを備えるエンドポイントを前記オーディオ信号から評価する工程と、
前記エンドポイントそれぞれのビデオ・レイアウトを生成する工程であって、前記レイアウトが、該レイアウト内の別々の位置での前記複数のエンドポイントのうちの1つ又は複数からのビデオ画像を配置する工程と、
混ぜる対象の1つ又は複数の復号化オーディオ・ストリームを選択する工程と、
前記選択された1つ又は複数の復号化オーディオ・ストリームを前記MCUの2つ以上のチャンネルに転送する工程であって、前記チャンネルそれぞれが、前記少なくとも1つの非モノ・エンドポイントにおけるスピーカに対応する工程と、
前記発話エンドポイントからのビデオ画像に対応する、前記レイアウト内の位置から前記オーディオ・ストリームが発せられるという知覚を生成するように、前記選択された復号化オーディオ・ストリームを前記2つ以上のチャンネルにおいて処理する工程と、
前記処理されたオーディオ・ストリーム、及び前記ビデオ・レイアウトを符号化する工程と、
前記符号化されたオーディオ・ストリーム及びオーディオ・ストリームを前記非モノ・エンドポイントに送信する工程とを含み、
前記差異化が、前記第1のエンドポイントのユーザによって調節可能であることを特徴とする方法。
【請求項2】
請求項1記載の方法であって、前記発話エンドポイントは前記画面上に表示されず、前記レイアウトの中心に前記発話エンドポイントからの前記ビデオ画像が配置されるように前記オ―ディオ・ストリームを差異化させることを特徴とする方法。
【請求項3】
請求項1記載の方法であって、前記オーディオ・ストリームを、前記レイアウト内の前記発話エンドポイントからの前記ビデオ画像の位置から遠いスピーカを介してブロードキャストされるオーディオ・ストリームを、前記レイアウト内の前記発話エンドポイントからの前記ビデオ画像の前記位置に近いスピーカを介してブロードキャストされるオーディオ・ストリームと比較して減衰させるように音量によって差異化させることを特徴とする方法。
【請求項4】
請求項1記載の方法であって、前記オーディオ・ストリームを、前記レイアウト内の前記発話エンドポイントからの前記ビデオ画像の位置から遠いスピーカを介してブロードキャストされるオーディオ・ストリームを、前記レイアウト内の前記発話エンドポイントからの前記ビデオ画像の位置に近いスピーカを介してブロードキャストされるオーディオ・ストリームと比較して遅延させるように差異化させることを特徴とする方法。
【請求項5】
請求項1記載の方法であって、生成された複数のオーディオ・ストリームを多重化させることを特徴とする方法。
【請求項6】
請求項1記載の方法であって、前記ビデオ・レイアウト内の前記発話エンドポイントからの前記ビデオ画像の位置がビデオ会議の過程中に変動することを特徴とする方法。
【請求項7】
請求項1記載の方法であって、前記差異化が、前記第1のエンドポイントのユーザによって調節可能であることを特徴とする方法。
【請求項8】
請求項1記載の方法であって、前記第1のエンドポイントの前記スピーカを調節する工程を更に含むことを特徴とする方法。
【請求項9】
請求項1記載の方法であって、前記第1のエンドポイントの話者を調節する相互作用音声応答(IRV)セッションを提供する工程を更に含むことを特徴とする方法。
【請求項10】
請求項1記載の方法であって、前記マルチポイント・ビデオ会議における第2のエンドポイントを制御する工程を更に含み、前記第2のエンドポイントは、画面に対して空間的に配置される複数のスピーカを備え、前記制御する工程は、
前記第2のエンドポイントのビデオ・レイアウトを生成する工程であって、前記レイアウトが、前記レイアウト内の別々の位置での前記複数のエンドポイントのうちの1つ又は複数からのビデオ画像を配置する工程と、
前記第2のエンドポイントの複数のオーディオ・ストリームを生成する工程であって、前記複数のオーディオ・ストリームのそれぞれは、前記第2のエンドポイントの前記複数のスピーカのうちの1つに相当し、前記発話エンドポイントからのビデオ画像に相当する、前記第2のエンドポイントの前記レイアウト内の位置から前記第2のエンドポイントの前記オーディオ・ストリームが発せられるという知覚を生成するように差異化される工程と、
前記ビデオ・レイアウト及び前記オーディオ・ストリームを前記第2のエンドポイントに送信する工程とによることを特徴とする方法。
【請求項11】
請求項1記載の方法であって、
前記第1のエンドポイントのスピーカに関する1つ又は複数のパラメータを前記第1のエンドポイントから受信する工程と、
前記第1のエンドポイントが非モノ・エンドポイントであるかを前記1つ又は複数のパラメータから判定する工程と、
前記第1のエンドポイントが非モノ・エンドポイントである場合、前記第1のエンドポイントの非モノ・オーディオ・ポートを割り当てる工程であって、前記非モノ・オーディオ・ポートが、前記エンドポイントのスピーカの数に等しい符号器の数を有する非モノ・コデックを有する工程とを更に含むことを特徴とする方法。
【請求項12】
請求項11記載の方法であって、
前記第1のエンドポイントが非モノ・エンドポイントである場合、前記第1のエンドポイントの非モノ・オーディオ・ブリッジを割り当てる工程であって、前記非モノ・オーディオ・ブリッジが、前記エンドポイントのスピーカの数に等しいチャンネルの数を有する工程を更に備えることを特徴とする方法。
【請求項13】
請求項1記載の方法であって、少なくとも1つの送出エンドポイントは、2つ以上のオーディオ・ストリームを前記MCUに配信することを特徴とする方法。

【図1】
image rotate

【図2】
image rotate

【図3a】
image rotate

【図3b】
image rotate

【図4a】
image rotate

【図4b】
image rotate

【図5】
image rotate


【公開番号】特開2012−213214(P2012−213214A)
【公開日】平成24年11月1日(2012.11.1)
【国際特許分類】
【出願番号】特願2012−139705(P2012−139705)
【出願日】平成24年6月21日(2012.6.21)
【分割の表示】特願2009−66601(P2009−66601)の分割
【原出願日】平成18年9月6日(2006.9.6)
【出願人】(500080720)ポリコム・インコーポレイテッド (22)
【Fターム(参考)】