説明

ビデオ会議に翻訳を追加するための方法及びシステム

【課題】会議参加者の発話を所望の1又は複数の言語にリアルタイム翻訳する多言語多地点ビデオ会議システムを提供する。
【解決手段】発話を含む音声ストリームがテキストに変換され(220,250)、ビデオストリームに字幕として挿入される(250,240)。発話は或る言語から別の言語に翻訳され(240)、翻訳された発話がビデオストリームに挿入され、字幕を選ぶか、又は、音声合成エンジンによって生成された別の言語の発話に、元の音声ストリームを置き換える(220,240,250)。種々の会議参加者は、それぞれ会議参加者により提供された所望の言語の情報に基づく同じ発話の種々の翻訳を受信する(210)。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、ビデオ会議通信に関し、特に多言語多地点ビデオ会議の分野に関する。
【背景技術】
【0002】
ビデオ会議は多くの境界を取り除く。ビデオ会議が取り除く物理的境界の1つは、或る位置(エンドポイント/端末)から別の位置への物理的距離である。ビデオ会議は、世界中の種々の場所の会議出席者が1つの部屋にいるかのような体験を作り出す。ビデオ会議は、或る場所から別の場所へ旅行する必要なしに、世界中の人々が互いに簡単に話し合うことを可能とする。旅行は、費用がかかり、時間がかかり、また、大気を汚染する(車及び/又は飛行機を使う必要性のため)ものである。ビデオ会議は、物理的距離ばかりでなく時間要素も取り除く。種々のネットワークにわたり使用できるビデオ会議設備の多様性が増えるに従い、より多くの人々がビデオ会議を彼らのコミュニケーションツールとして使用している。
【0003】
多くの場合、ビデオ会議は多言語会議であり、地球上のさまざまな場所の人々が、互いに多数の言語で話す必要がある。異なる言語を話す、異なる国に、エンドポイントが配置されている多地点ビデオ会議においては、幾人かの会議参加者はそのセッション中に、別の位置(エンドポイント)の会議参加者と話し合い、理解するために、彼らの母国語とは別の言語を話す必要があるだろう。時には、同じ言語を話すが異なるアクセントを持つ人々も、他の会議参加者の理解において問題を持ちうる。この状況は、不便、及び/又は、理解の間違いを引き起こしうる。
【0004】
別のセッションにおいては、1又は複数の会議参加者は聴取に問題を持っているかもしれない(例えば聾又は聴覚障害者)。聾又は聴覚障害者は、話者の唇を読むことができるならば、ビデオ会議に事実上参加できる。しかし、話者の唇を読むことは、話している人がディスプレイに現れていない、又は、ズーム機能が有効でないならば、困難になるだろう。
【0005】
聴覚障害を持つ、又は、外国語を話す会議参加者のために使用される手法の1つは、ミーティングの内容を伝達する通訳者に頼ることである。典型的には、人間の通訳者は、聴覚障害者が通訳者を見ることができるよう、聴覚障害者に対して会議室の前方付近に立つ。
【0006】
別の手法は、1又は複数のエンドポイントにてクローズドキャプション(表示・非表示切り替え可能な字幕)エンジンを使用することである。1又は複数のクローズドキャプション入力装置は1又は複数のエンドポイントに組み込まれる。クローズドキャプション入力装置は、コンピュータ使用のリアルタイム翻訳機、携帯情報端末(PDA)、一般的なパーソナルコンピュータなどの、コンピュータ使用のトランスクリプション装置である。クローズドキャプション機能を起動するために、クローズドキャプション入力装置のWebブラウザの入力フィールドに、キャプション入力者(キャプショナー)のエンドポイントのIPアドレスが入力される。そのエンドポイントに関連付けられたWebページが現れ、ユーザは関連付けられたクローズドキャプションページにアクセスできる。キャプション入力者はひとたびクローズドキャプションページを選択すれば、該キャプション入力者はカレントフィールドへのテキストの入力を開始できる。テキストは、ビデオ会議に参加している1又は複数のエンドポイントに表示される。例えば、テキストは、1番目のエンドポイント、コンピューティング装置、携帯情報端末(PDA)などに表示される。
【0007】
キャプション入力者は、クローズドキャプションテキストを誰に表示するかを選択できる。キャプション入力者は、例えば「場所2」と「場所3」を除いて会議に参加している全ての場所に、テキストを表示することを決定できる。別の例として、ユーザは、クローズドキャプションテキストを、「場所5」にのみ表示することを選択できる。言い換えれば、クローズドキャプションテキストは、キャプション入力者が選ぶ会議参加者と同数にマルチキャストされる。
【0008】
前述の通り、キャプション入力者は、例えば特定のエンドポイントのIPアドレスを入力して、Webページにアクセスできる。クローズドキャプションテキスト入力ページは、クローズドキャプションテキストを受信するために表示される。キャプション入力者は、クローズドキャプション入力装置からカレントテキスト入力ボックスにテキストを入力する。キャプション入力者が、エンターキー又はそれに類するボタンを、画面上で又はクローズドキャプション入力装置で、押したとき、カレントテキスト入力ボックスに入力されたテキストが、当該ビデオ会議に組み込まれた1又は複数のエンドポイントに表示される。
【0009】
多言語ビデオ会議においては、聴覚障害者の通訳者は複数の問題に直面する。1つの問題は、例えば、1人以上の人が話している状況で生じる。通訳者は、どの話者を聴覚障害者に通訳するか、及び、どのようにして現在通訳している話者を示すかを決めねばならない。
【0010】
人間の通訳者に頼ることはビデオ会議の体験を低下させる。というのも、会議の音声ミックスにおいて、通訳者の声が通訳されている人の声と同時に聞こえてしまうからである。同時通訳のために1以上の通訳者が必要な場合、その害は耐え難い。さらには、長時間のセッションにおいて、人間の通訳者の注意力は低減し、そして、通訳者は間違いを犯し始めて、セッションの間に休むだろう。
【0011】
更に、キャプション入力者によるクローズドキャプション機能が使用され、キャプション入力者が翻訳を表示すべきテキストとして入力するところでは、キャプション入力者は、誰がクローズドキャプションテキストを見るべきかを識別できなければならない。キャプション入力者は、当該ビデオ会議に組み込まれた1又は複数のエンドポイントにおいて表示すべきテキストを入力しなければならない。そのため、キャプション入力者は、常に注意深く在らねばらず、人的間違いを犯さないように努めるべきである。
【0012】
多地点制御ユニット(MCU)はビデオ通信セッション(すなわちビデオ会議)を管理するために使用される。MCUは、会議を制御するエンティティ(実体)であり、ネットワークのノード、端末あるいは他の場所に配置される。MCUは、所定の基準に従いアクセスポートから種々のメディアチャンネルを受信して処理し、そして、それらを別のポートを介して接続されたチャンネルに分配する。MCUの一例には、ポリコム株式会社(Polycom Inc.)から提供されているMGC−100,RMX 2000(登録商標)が含まれる(RMX 2000はポリコム株式会社の登録商標である)。周知のMCUは、例えば米国特許第6,300,973号、第6,496,216号、第5,600,646号、第5,838,664号、及び/又は、第7,542,068号など、種々の特許及び特許出願に開示されている。この引用によってその明細書に全体を組み込む。いくつかのMCUは、2つの論理モジュール:メディアコントローラ(MC)とメディアプロセッサ(MP)により構成される。
【0013】
端末(エンドポイントとも呼ばれる)は、ネットワーク上のエンティティ(実体)であり、他の端末又はMCUとの、リアルタイム、双方向の、音声及び/又はオーディオヴィジュアル情報を提供できるものである。エンドポイント(端末)及びMCUの、より徹底的な定義は、国際電気通信連合("ITU")規格H.320、H.324、及びH.323規格などにあるが、これに限らない。
【0014】
画面分割(コンティニュアス・プレゼンス(CP))ビデオ会議は、端末の会議参加者が、当該会議における幾人かの別の会議参加者のサイトを、同時に見る視聴できるビデオ会議である。各サイトは、レイアウト上の異なるセグメント(区画)に表示され、各セグメントは、同じサイズ又は異なるサイズ又は1又は複数のディスプレイである。レイアウトのセグメントに表示され組み込まれたサイトの選択は、同じセッションに参加中の、異なる会議参加者の間で多様であってよい。画面分割(CP)レイアウトにおいて、サイトから受信したビデオ画像は、セグメントのサイズに合わせるように、縮小又は切り取られる。
【発明の概要】
【0015】
以下に述べる実施形態は、前述した多言語ビデオ会議における幾つかの不備を解決するものである。しかし、前述したビデオ会議における不備は、いかなる方法でも本発明概念の範囲を限定しない。前記不備は単に例証として挙げたに過ぎない。
【0016】
一実施形態において、新規のシステム及び方法は、多地点制御ユニット(MCU)に実装され、周知のMCUを全ての効能について、多言語翻訳ビデオ会議MCU(MLTV−MCU)に変容させる。
【0017】
多言語翻訳ビデオ会議MCU(MLTV−MCU)の一実施形態において、MLTV−MCUは、多地点ビデオ会議において受信した1又は複数の音声ストリーム(オーディオストリーム)のいずれの音声ストリームが翻訳されるべきか、及び、種々の音声ストリームがどの言語に翻訳されるべきかを通知される。MLTV−MCUは、人間の干渉を要することなく、必要とされる各音声ストリームを所望の1又は複数の言語に翻訳する。MLTV−MCUは、1又は複数の音声ストリームの1又は複数の翻訳を、例えば字幕として、1又は複数のエンドポイントの画面に表示する。
【0018】
一実施形態に係るMLTV−MCUは各エンドポイントから個別の音声ストリームを受信するものである。従って、MLTV−MCUは、受信した各音声ストリームを、それらストリームを混合する前に個別に翻訳し、高品質な音声ストリームの翻訳を保証する。
【0019】
会議参加者が多地点セッションに参加するとき、MLTV−MCUは翻訳が必要であるか尋ねる。一実施形態において、質問は音声自動応答(IVR)セッションにより行われ、会議参加者は何らかの問いかけに応じて何らかのキーを押すよう指示される。一実施形態として、"クリックとビュー"("click and view")オプションが使用される場合には、前記会議参加者のエンドポイントにメニューが表示される。前記メニューは、種々の翻訳オプションを提供する。複数のオプションは、複数の言語及び関連する複数のサイトとに関連付けられており、例えば、会議参加者の言語、該会議参加者の発話を翻訳すべき複数の言語、音声が該会議参加者の言語に翻訳されるべきエンドポイント、該会議参加者が翻訳を望む複数の言語、字幕を用いた文字による翻訳又は音声の翻訳、音声の翻訳の場合、当該翻訳が女性又は男性の声のいずれにより行われるか、どの"なまり"(アクセント)により行われるか、などである。会議参加者は、例えばカーソルを用いて質問に答える。"クリックとビュー"方法の一例は、米国特許第7,542,068号に開示されている。この引用によってその明細書に全体を組み込む。
【0020】
MLTV−MCUの一例は音声較正フェーズを用いるもので、そこにおいて、関連するサイトの会議参加者は、IVR又は別の手法を用いて、画面分割(CP)ビデオ会議において一般的な手続きであるところの"名乗ること"に加えて、幾つかの予め決められた言葉を言うことを求められる。音声較正フェーズの間、MLTV−MCUは、翻訳されるべき音声の特徴("なまり")に関連する情報を集める。これは、会議参加者に所定数の言葉(例えば"おはよう"、"はい"、"いいえ"、"日"など)を発言させることで行われる。較正情報は、今後の使用に備えてデータベースに保存される。
【0021】
いくつかの実施形態においては、較正フェーズは、受信した音声ストリームの言語を特定するために使用される。かかる実施形態において、受信機エンドポイントは、或る言語、例えば英語で話している何れのエンドポイントも、例えば中国語に翻訳するようMLTV−MCUに通知する。かかるMLTV−MCUは、受信した複数の較正語の音声列を、探索テーブル中の複数の収録項目と比較する。探索テーブルは、予め決められた複数の言葉の列を種々の言語で具備している。受信した音声列と、探索テーブル中の収録項目とも一致を受け取ったとき、MLTV−MCUは、受信した音声ストリームの言語を、自動的に決定できる。MLTV−MCUは、今後に使用のするための情報を記憶しているデータベースへのアクセスを有する。MLTV−MCUの別の実施形態は、受信している音声ストリームを自動的に特定できる市販品を使うことである。自動言語認識の情報は、1991年の音響・音声・信号処理国際会議で発行された、M. スギヤマ著、題名“Automat language recognition using acoustic features,”という記事に記載されている。いくつかの実施例では、フィードバック機構が実装され、自身の言語を自動特定される会議参加者に対して通知を行い、自動決定を無効にできるようにする。指示と無効化の情報は、"クリックとビュー"オプションを用いて実行される。
【0022】
MLTV−MCUは、複数の受信した音声ストリームを同時に翻訳し、且つ、字幕として表示する。翻訳されるべき複数の受信した音声ストリームは、一実施形態において、予め決められた数の音声ストリームであり、或る閾値よりも高い音声エネルギーを持つ。前記予め決められた数は例えば3〜5の範囲である。一実施形態において、翻訳される音声ストリームは、ユーザがMLTV−MCUに翻訳するよう要求したエンドポイントからの音声ストリームである。各音声ストリームの翻訳は、異なるライン上に表示されるか、又は、異なる識別物により区別される。
【0023】
一実施形態において、前記識別物は、音声ストリーム毎の異なる色と、当該字幕の先頭部に翻訳された会議参加者/エンドポイントの名前とを有する字幕とを含む。混合されるべく現在選択されている音声ストリームの字幕は、ボールド体(太字)で表示される。メイン話者が下線とボールド体で示されてよい。各音声ストリーム翻訳字幕毎に、それらの受信した/測定された信号エネルギーに従い、種々の文字サイズが使用される。一実施形態において、メイン話者とは、エネルギーレベルが或る期間の或る割合で他の会議参加者を上回っていた会議参加者である。メイン話者のビデオ画像は、画面分割(CP)ビデオ画像中で最も大きいウィンドウに表示される。いくつかの実施形態では、メイン話者のビデオ画像は色つき枠で示される。
【0024】
MLTV−MCUは、翻訳する必要のある音声ストリームを特定すると、該音声ストリームの言語を特定し、該音声ストリームが、どの言語に翻訳されるべきかを特定して、該音声ストリームを文字テキストに変換する。この実施形態において、MLTV−MCUは、音声ストリームをテキストに変換する音声認識エンジン(STTE)にアクセスできる。STTEは、例えばマイクロソフト (Microsoft Corporation)が提供するMicrosoft Speech SDK、アイビーエム(International Business Machines Corporation)が提供するIBM Embedded ViaVoiceあるいは、その他の市販のコンポーネントを使うことができる。
【0025】
一実施形態に係るMLTV−MCUは各エンドポイントから個別の音声ストリームを受信するものである。従って、MLTV−MCUは、要求された受信中の音声ストリームを、それぞれ、ストリームを混合する前に、個別にテキストに変換でき、音声ストリームをテキストへ変換する品質を向上させる。MLTV−MCUの一実施形態において、音声ストリームは、STTEに伝送される前に、1又は複数の周知のMCUノイズフィルターを通過し、STTEの結果の品質が向上するよう音声ストリームにフィルタをかける。MCU音声モジュールは、音声と非音声とを区別できる。それゆえ、一実施形態に係る前記MCUは、音声ストリームの非音声部分を除去し、さらに高品質の結果を保証する。
【0026】
一実施形態において、MLTV−MCUは、更に、フィードバック機構を備え、会議参加者が、当該会議参加者の言葉に関する視覚的評価指標を受け取る。もしSTTEが会議参加者の発話を異なる2通りの方法で通訳しているならば、それは、例えば信頼度指標50%のごとき信頼度指標としてリポートされる。STTEは、その信頼度評価をMLTV−MCUに報告し、MLTV−MCUは、それを等級として会議参加者の画面に表示する。別の実施形態において、MLTV−MCUは、発話している会議参加者の画面上に、STTEが変換したテキストを(元の言語で)表示し、STTE翻訳を確認させる話者へのフィードバックを可能とする。いくつかの実施形態では、STTEが或る音声区間の変換に失敗したときに、標示がスピーカ及び/又は字幕受信者に送信される。
【0027】
音声ストリームがSTTEによってテキストに変換された後、一実施形態に係るMLTV−MCUは、翻訳エンジン(TE)によりテキストを別の言語に翻訳する。種々の翻訳エンジン(TE)が種々の実施形態に使用される。いくつかの実施形態では、TEは、Google(登録商標)翻訳(Googleはグーグル株式会社の登録商標)や、YAHOO!(登録商標)Babel fishウェブサイト(YAHOO!はヤフー株式会社の登録商標)などのウェブサイトである。別の実施形態は、例えばバビロン社が提供するもののごとき市販の翻訳エンジンを使用できる。翻訳エンジンがMLTV−MCUの一部であるか、又は、別の実施形態では、MLTV−MCUが翻訳エンジンへのアクセスを有するか、又は、その両方である。
【0028】
MLTV−MCUは、1又は複数の種々の言語のテキストを、1又は複数の種々の言語のテキストに、同時に翻訳できる。翻訳テキストは、適宜のフォーマットで、適宜のエンドポイントに、適宜のタイミングでMLTV−MCUにより字幕として表示されるよう、経路制御(ルート)される。MLTV−MCUは、各エンドポイントの画面に、1又は複数の他の会議参加者の複数の字幕を、同時に表示できる。前記複数の字幕は、種々の音声ストリームの翻訳テキストであり、各音声ストリームは例えば種々の言語の音声ストリームである。
【0029】
いくつかの実施形態において、MCUは、音声ストリームを遅延して、音声とビデオストリームを同期させる(というのも、ビデオ処理は音声処理よりも長い時間がかかるからである)。したがって、一実施形態に係るMLTV−MCUは、前記遅延を発話からテキストへの変換及び翻訳に利用し、ビデオ及び音声との字幕の同期化を可能とする。
【0030】
いくつかの実施形態において、MLTV−MCUは、受信した複数の種々の音声ストリームを同時に翻訳するが、所定値よりも音声エネルギーが高い音声ストリームのみを、字幕として表示するよう構成される。
【0031】
更に別の実施形態において、会議参加者(参加者/エンドポイント)はテキストを書く、又は、文字テキストをMLTV−MCUに送る。前記MLTV−MCUは、受信した文字テキストを所定の信号エネルギーの音声ストリームに変換し、該音声ストリームをミキサにて混合する。文字テキストは、一例として、受信した音声ストリームの翻訳などである。更に別の実施形態において、前記MLTV−MCUは、テキストを別の言語に翻訳し、翻訳したテキストを所定の信号エネルギーの音声ストリームに変換し、該音声ストリームをミキサにて混合する。前記MLTV−MCUは、テキストを音声ストリームに変換できる(音声合成エンジン)、又は、かかるコンポーネント又はWebサービスにアクセスできるか、又は、そのいずれの選択肢も有する。かかる実施形態において、その音声を翻訳されていない会議参加者の音声は、混合する前に遅延されて、翻訳されるストリームと音声を同期させる。
【0032】
翻訳が発話に変換されるMLTV−MCUの一実施形態において、発話の音量は、受信した音声ストリームの音声エネルギーに従う。
【0033】
一実施形態において、テキストに変換され且つ翻訳された音声は、会議録として保存される。会議録は、例えば会議の要約として利用される。会議録は、テキストに変換された各音声のテキスト、又は、メイン話者の音声のテキストなどを含む。会議録は、異なる複数のエンドポイントに送信される。各エンドポイントは、会議参加者によって選択された言語の会議録を受信できる。会議録において、テキストがどの会議参加者により発言されたか、どのテキストが聴取されたか(会議通話に混合されたか)、どのテキストが全ての会議参加者によって聴かれていないか、などの標識があるとよい。標識は、当該行の先頭に音声がテキストに変換された人物の名前を標識すること、メイン話者のためにボールド体を用いること、測定された信号エネルギーに応じて異なる文字サイズを使うことなどを含む。
【0034】
本開示のこれら及びその他の側面は、参照図面の参照と詳細な説明により明らかになる。前述の概要は、各潜在的な実施形態又は本願発明の全ての側面を要約することをいとしておらず、本願発明のその他の特徴や利点は、添付図面と請求範囲とともに、以下の実施形態の詳細な説明を読むことで、明らかになる。
【0035】
更に、詳細な実施形態は、当業者に発明概念を説明するために詳細に記述されており、かかる実施形態は、種々の変形や別の形態が可能である。したがって、図面と説明記述は、いかなる方法でも発明概念の範囲を限定することを意図していない。
【図面の簡単な説明】
【0036】
本明細書に組み込まれ、本明細書の一部をなす添付図面は、本発明を構成する装置及び方法の実施例を描いており、本発明の利点と原則を説明するために用いる。
【図1】一実施形態に係る、マルチメディア多地点会議システムの一部分を描くブロック図。
【図2】一実施形態に係る、多言語翻訳ビデオ会議MCU(MLTV−MCU)の一部分の関連要素を描くブロック図。
【図3】一実施形態に係る、MLTV−MCUにおける音声モジュールの一部分の関連要素を描くブロック図。
【図4A】一実施形態に係る、MLTV−MCUのディスプレイレイアウトを字幕とともに描く図。
【図4B】一実施形態に係る、MLTV−MCUのディスプレイレイアウトを字幕とともに描く図。
【図5】一実施形態に係る、音声翻訳制御の関連ステップを示すフローチャート。
【図6】一実施形態に係る、メニュー生成制御の関連ステップを示すフローチャート。
【発明を実施するための形態】
【0037】
以下の説明において、詳細な説明のために、この発明の完全な理解を提供するよう複数の具体的な詳細が記述される。当業者にとって、これら具体的な詳細なしにこの発明を実施できることは、明白である。別の例では、構造と装置は、発明を不明瞭にすることを避けるために、ブロック図の形式で示されている。添字のない番号への言及は、当該番号に対応する添字の全ての例示を言及することと理解されたい。さらに、この開示で使用される言語は、原則的に、読みやすさと、教唆の目的のために選択されており、発明の本質を叙述したり制限したりするよう選択されているのではなく、そのような発明の本質を定義するする必要がある請求項に頼るものである。明細書中の「一実施形態」又は「実施形態」との言及は、当該実施形態に関して記載した特定の特徴、構造、あるいは性質を意味しており、複数の「一実施形態」又は「実施形態」は、必要に応じて、全て同じ実施形態への言及と理解されるべきではない。
【0038】
また、以下の記載のいくつかは、ソフトウェアマテャファームウェアに関連する用語で記載されているが、複数の実施形態は、ここに描かれた特徴及び機能を、所望のソフトウェア、ファームウェア又はハードウェアとして実装してよく、ソフトウェア、ファームウェア又はハードウェアのいずれの組み合わせをも含む。デーモン(Daemon)、ドライバー、エンジン、モジュール、或は、ルーティンへの言及は、いずれのタイプの実装でも、実施形態の限界の提示ともみなされるべきでない。
【0039】
図面において同様な数字が同様な要素を表しており、図面により、開示された方法、システム及び装置の様々な視点、実施形態の例、外観、及び特徴が描かれている。便宜上、同じグループのいくつかの要素のみが、番号で示されている。図の目的は、実施形態の一例を記述することであり、限定のため、あるいは、製造に用いるためではない。図面に示された特徴は、図示の判りやすさと便宜のためにのみ選ばれている。
【0040】
図1は、一実施形態に係るマルチメディア多地点会議システム100の例示部分の関連要素を示すブロック図を描いている。システム100は、ネットワーク110、1又は複数のMCU120A〜C、及び、複数のエンドポイント130A〜Nを含む。いくつかの実施形態では、ネットワークは、負荷分散装置(LB)122を含む。これは、全てのMCU120A〜Cの有効な使用を促す。というのも、MCU120A〜Cは1地点から制御及び計画されるからである。加えて、MCU120A〜Cと1地点からそれらを制御することの組み合わせることにより、準備なしのビデオ会議を首尾よく計画立てすることの蓋然性が大いに向上する。一実施形態において、LB122は、Polycom DMA 7000(DMAはポリコム株式会社の登録商標である)。LB122の更なる情報は、米国特許第7,174,365号にあり、その全体が明細書に組み込まれたものとする。
【0041】
エンドポイントは、ネットワーク上の端末であり、リアルタイムの、他の端末又は多地点制御モジュール(MCU、詳細は後述する)との双方向の音声/ヴィジュアル/データ情報を提供することができる。エンドポイントは、発話情報のみ、発話及びビデオ情報、あるいは、発話、データ及びビデオ情報などを提供できる。ビデオ会議のエンドポイントは、典型的には、1又は複数のリモートサイトからのビデオ画像が表示されるディスプレイモジュールを備える。エンドポイントの一例としては、POLYCOM(登録商標)VSX(登録商標)及びHDX(登録商標)シリーズ(POLYCOM、VSX,及びHDXはポリコム株式会社の登録商標である)がある。複数のエンドポイント(EP)130A〜Nは、ネットワーク110経由で、1又は複数のMCU120A〜Cに接続される。LB122が存在する実施形態では、各EP130は、MCU120A〜Cの1つと接続される前にLB122と通信する。
【0042】
MCU120A〜Cは、会議制御エンティティ(実体)である。一実施形態において、MCU120A〜Cは、ネットワーク110のノードに、又はアクセスポートからの種々のチャンネルを受信する端末に配置され、或る判断基準に従い、オーディオヴィジュアル信号を処理し、接続されたチャンネルに分配する。MCU120A〜Cの実施形態は、ポリコム株式会社(Polycom Inc.)の製品であるMGC−100、RMX 2000(RMX 2000はポリコム株式会社の登録商標である)。一実施形態において、MCU120A〜Cは、IPネットワーク上で動作するサーバーであるIP MCUである。IP MCU120A〜Cは、種々の異なるネットワークサーバのいくつかのみであり、当該開示が教唆しているものを実装するネットワークサーバである。従って、当該開示は、IP MCUの実施形態に限定されない。
【0043】
一実施形態において、1又は複数の MCU120A〜Cは、MLTV−MCU120である。LB122は、更に、1又は複数のMLTV−MCU120により、例えば翻訳能力など該MLTV−MCU120の能力が通知される。したがって、エンドポイント130が字幕又は翻訳を要求するとき、LB122は、EP130に、MLTV−MCUであるMCUを参照させる。
【0044】
ネットワーク110は、サービス総合ディジタル網(ISDN)、公衆交換電話網(PSTN)、非同期転送モード(ATM)、インターネット、回線交換ネットワーク、イントラネットなど、1つのネットワーク又は2以上のネットワークの組み合わせを表す。前記ネットワーク越しのマルチメディア通信は、国際電気通信連合(ITU)規格H.320、H.324、及びH.323,SIP規格など通信プロトコルに準拠する。
【0045】
エンドポイント130A〜Nは、EP130の会議参加者とMCU120A−Cの間のインターフェースとして機能するユーザ操作装置(図示外)を備る。ユーザ操作装置は、DTMF(デュアルトーンマルチ周波数)信号を用いるダイアリングキーボード(例えば電話機のキーボード)と、DTMF信号に加えて他の信号に用いる専用の操作装置、及び、例えばITU規格H.224及びH.281に準拠して信号処理するモジュールである遠隔カメラ操作(FECC)を含む。
【0046】
エンドポイント130A〜Nは、そのエンドポイントの会議参加者に会議で発言させ、また、他の参加者に聴取される音とノイズに寄与するマイクロフォン(明りょうさのため図示されていない)と、該エンドポイント130A〜Nにて該会議にライブビデオデータを入力するカメラと、会議を聴取するための1又は複数のスピーカと、該エンドポイント130A〜Nにて会議を閲覧させるディスプレイとを備える。前記コンポーネントの1つを欠損しているエンドポイント130A〜Nは、会議に参加する方法が制限される。
【0047】
記述されたシステム100の部分は、関連要素のみを備え且つ記述している。システム100の他の部分は記述されていない。システムの構成及び必要に応じて、各システム100が別の数のエンドポイント130、ネットワーク110、LB122及びMCU120を有することが、当業者によって認められうる。しかし、簡潔さと理解の目的で、4つのエンドポイント130と、3つのMCU120を有する1つのネットワーク110が示されている。
【0048】
図2は、MLTV−MCU200の一実施形態の部分の関連要素に関するブロック図を描いている。MLTV−MCU200の別の実施形態は、別のコンポーネントを有する、及び/又は、図2に示されたコンポーネント全てを含むのではない。
【0049】
MLTV−MCU200は、ネットワークインターフェース(NI)210を備える。NI210は、複数のエンドポイントと、MLTV−MCU200内部モジュールの間のインターフェースとして機能する。一方の方向において、NI210は、ネットワーク110経由で、複数のエンドポイント130A〜Nからのマルチメディア情報を受信する。NI210は、受信したマルチメディア情報を、例えばH.320、H.323、H.321、H.324及びセッション確立プロトコル(SIP)などのネットワーク通信規格に従って処理する。NI210は、受信したマルチメディア情報を処理した圧縮音声、圧縮ビデオ、データ、及び制御ストリームを、MLTV−MCU200の適宜のモジュールに、伝達する。いくつかの通信規格は、NI210の処理が、圧縮音声、圧縮ビデオ、データ、及び制御ストリームに入ってくるマルチメディア情報をデマルチプレクスすることを含むことを要求する。いくつかの実施形態では、メディアは、まず圧縮され、それからMLTV−MCU200に送出する前に、暗号化される。
【0050】
他方の方向では、NI210は、ネットワーク110経由で、MLTV−MCU200内部モジュールからのマルチメディア情報を、複数のエンドポイント130A〜Nに、伝送する。NI210は、MLTV−MCU200の種々のモジュールからの独立したストリームを受信できる。NI210は、通信規格に従いストリームをマルチメディア情報にマルチプレクス(多重化)及び処理する。NI210は、マルチメディア情報を、前記ストリームを1又は複数のエンドポイント130A〜Nに運ぶネットワーク110に伝送する。
【0051】
複数の異なるネットワーク越しの複数のエンドポイント及び/又は複数のMCUの間の通信に関する更なる情報、及び、信号処理、制御、圧縮及びビデオ通話をいかにセットするかを記載している情報は、例えばITU規格H.320、H.321、H.323、H.261、H.263及びH.264にある。
【0052】
MLTV−MCU200は、また、音声モジュール220を備える。音声モジュール220は、NI210経由で且つ音声リンク226を通じて、複数のエンドポイント130A〜Nからの圧縮音声ストリームを受信する。音声モジュール220は、受信した圧縮音声ストリームを処理し、関連する音声ストリームを復元(デコード)及び混合し、エンコード(圧縮)して、圧縮、エンコード、混合された信号を、音声リンク226及びNI210経由でエンドポイント130A〜Nへ伝送する。
【0053】
一実施形態において、各エンドポイント130A〜Nに送信された音声ストリームは、各エンドポイント130A〜Nそれぞれの要求に応じて異なっている。例えば、音声ストリームは、各エンドポイント毎の異なる通信規格に応じてフォーマットされる。更に、1つのエンドポイント130に送信された音声ストリームは、このエンドポイントに関連付けられた会議参加者の音声を含んでおらず、当該会議参加者の音声は混合された他の全ての音声ストリームには含まれる。
【0054】
一実施形態において、音声モジュール220は、少なくとも1つのDTMFモジュール225を含む。DTMFモジュール225は、受信した音声ストリームからDTMF信号を検出し、取り出す。DTMFモジュール225は、前記DTMF信号をDTMF制御データに変換する。DTMFモジュール225は、前記DTMF制御データをコントロールリンク232経由で制御モジュール230に伝送する。DTMF制御データは、当該会議の制御機能に使用される。DTMF制御データは、例えばクリックとビュー(click and view)機能経由で会議参加者により送信されるコマンドである。別の複数の実施形態は、モジュール225に加えて、又は、モジュール225に換えて、音声認識モジュール(図示しない)を用いる。これら実施形態において、音声認識モジュールは、音声コマンド及び会議参加者の応答を、ビデオ会議のパラメータ制御に用いる。
【0055】
更なる実施形態は、視覚的メニューに加えて、又は、それに換えて、会議参加者に指示する音声自動応答(IVR)モジュールを使用する又は持つ。例えば、音声モジュール220は、どうやって会議に参加するか、及び/又は、どうやって会議のパラメータを操作するかに関して、会議参加者に教えるための、音声メニューを生成する。IVRモジュールは、図2には示されていない。
【0056】
典型的なMCUの周知の動作に加えて、MLTV−MCU200の複数実施形態は、会議翻訳モジュール(CTM)222を持つ結果として、追加的動作が可能である。CTM222は、受信した音声ストリームのいずれが翻訳されるべきかを決定する。CTM222は、特定した翻訳されるべき音声ストリームを、例えば音声認識エンジンと翻訳エンジンに伝送する。翻訳テキストは、メニュー生成部250に伝送される。CTM222及び音声モジュール220の更なる情報は後述の図3と組み合わせ述べる。
【0057】
典型的なMCUの周知の動作に加えて、MLTV−MCU200は、制御モジュール230を持つ結果として、追加的動作が可能である。制御モジュール230は、MLTV−MCU200の動作、及び、音声モジュール220、メニュー生成部250、ビデオモジュール240などその内部モジュールの動作を制御する。制御モジュール230は、MLTV−MCU200の異なる内部モジュールから受信した指示を処理し、同様にLB122又はEP130など外部装置からの指示を処理する論理モジュールを含む。制御モジュール230は、制御リンク232経由でDTMFモジュール225から、及び/又は、制御リンク236経由でCTM222から受信した指示を処理する。制御信号は、例えばクリックとビュー(click and view)機能又は音声コマンド経由で会議参加者から受信した信号処理及び制御コマンド、表示すべき字幕に関してCTM222から受信したコマンドなどを含む。
【0058】
制御モジュール230は、制御リンク232経由でメニュー生成部250を制御する。一実施形態において、制御モジュール230は、メニュー生成部250に、どの字幕を、どのサイトに、どの言語で、及び、どのフォーマットで表示するかを指示する。制御モジュール230は、ビデオモジュール240に例えば要求されるレイアウトに関して指示する。制御モジュール230のいくつかの特有の動作は、後述の図3,5及び6と組み合わせて述べる。
【0059】
一実施形態において、メニュー生成部(MG)250は、エンドポイントのディスプレイに表示されるメニュー、及び/又は、字幕を生成する論理モジュールである。MG250は、MLTV−MCU200の異なる内部モジュールから、例えば、制御リンク239経由で制御モジュール230から、あるいは、制御リンク254経由で音声モジュール220から、コマンドを受信する。一実施形態において、MG250は、表示すべきテキストを受信し、同様に、テキストリンク252経由で音声モジュール220から、及び、バス239経由で制御モジュール230からグラフィク化指示を受信する。受信したテキストは、音声ミックス中に音声ストリームがある会議参加者の発言の翻訳である。MG250は、字幕、及び/又は、メニューフレームを生成する。前記字幕は、音声モジュールから受信したテキストの視覚的グラフィクスである。メニュー生成部の更なる情報は、米国特許7,542,068号にある。いくつかの実施形態において、市販のメニュー生成部を、“Qtopia”との名前で知られるQt Extendedなどを、MG250として使用できる。
【0060】
字幕は、一実施形態において、どの字幕がどの会議参加者の発言の翻訳であるかを簡単に識別できるような方法でフォーマットされる。字幕に関する更なる情報は、後述図4に組み合わせて述べる。前記メニューフレームは、会議参加者による選択のための適宜のオプションを含む。
【0061】
字幕は、ビデオモジュール240が処理できるサイズ及びフォーマットのグラフィカル画像である。字幕は、ビデオリンク249経由でビデオモジュール240に送信される。字幕は、制御モジュール230及び/又はMG250から受信した制御情報に従い、エンドポイント130A〜Nのディスプレイに表示される。
【0062】
字幕は、テキスト、グラフィック及び透過情報(ビデオ画像上の字幕の位置に関する情報、どの会議参加者にビデオ画像が、部分的に透過的な前面の字幕を通して、背景として見られるのか)を含む。字幕は、会議参加者の共通ビデオ画像の一部に、追加的に、又は、それに代えて、表示される。別の実施形態では、MG250は、ビデオモジュール240の一部である。MG250の更に詳しい動作は、後述図4に組み合わせて述べる。
【0063】
ビデオモジュール240は、圧縮ビデオストリームを受信し、変更し、送信する論理モジュールである。ビデオモジュール240は、1又は複数の参加しているエンドポイント130A〜Nから受信した圧縮入力音声ストリームを処理する1又は複数の入力モジュール242と、構成された圧縮出力ビデオストリームを生成する1又は複数の出力モジュール244を含む。圧縮出力ビデオストリームは、種々の入力ストリームと種々の字幕、及び/又は、メニューから構成され、複数のエンドポイント130A〜Nのうちの指定された1又は複数のエンドポイント130A〜Nのために会議を再現するビデオストリームを形成する。構成された圧縮出力ビデオストリームは、ビデオリンク246経由でNI210に送信される。NI210は、1又は複数の構成された圧縮出力ビデオストリームを、関連する1又は複数のエンドポイント130A〜Nに伝送する。
【0064】
一実施形態において、各ビデオ入力モジュールは、1つのエンドポイント130に関連付けられる。各ビデオ出力モジュール244は、同じレイアウトの同じ圧縮パラメータを受信している1又は複数のエンドポイント130に関連付けられる。各ビデオ出力モジュール244は、1つのエディタモジュール245を備える。各ビデオ出力モジュール244は、個々のエンドポイント又はエンドポイント130A〜Nのグループ毎に個別化されたレイアウトに従い、構成されたビデオ画像を作成する。各ビデオ出力モジュール244は、複数のエンドポイント130A〜Nから、個々のエンドポイント又はエンドポイント130A〜Nのグループ毎に個別化された字幕を表示する。
【0065】
入力モジュール242から送られた非圧縮ビデオデータは、共通インターフェース248において、ビデオ出力モジュール244に共有される。共通インターフェース248は、時分割多重化(TDM)インターフェース、パケットに基づくインターフェース、非同期転送モード(ATM)及び/又は共有メモリを含む。共通インターフェース248上のデータは、全て非圧縮か又は部分的に非圧縮である。
【0066】
一実施形態において、複数の出力モジュール244のそれぞれは、1つのエディタ245(編集部)を含む。MG250からのビデオデータは、例えば制御モジュール230から受信したコマンドに従い、共通インターフェース248から適宜の出力モジュール244に取り出される。適宜の出力モジュールのそれぞれは、エディタ245にビデオデータを送る。エディタ245は、種々のビデオソースから出力ビデオフレームを組み立てて、また、次フレームメモリに、暗号化すべきメニュー及び/又は字幕フレームを形成する。エディタ245は、各字幕を、共通インターフェース248経由で受信した、種々のビデオソースの1つとして処理する。エディタ245は、字幕のビデオデータを、矩形又はビデオイメージのウィンドウの1つとして、レイアウトに、加える。
【0067】
画面レイアウト上の各矩形(セグメント(区画))又はウィンドウは、それぞれ異なるエンドポイント130から受信したビデオ画像を掲載しており、ビデオ画像は例えばそのエンドポイント130に関連付けられた会議参加者のビデオ画像である。一実施形態において、MG250からのビデオデータ(例えば字幕)は、表示される当該字幕を生成した会議参加者のビデオ画像を表示するウィンドウの上又は下に配置される。
【0068】
別のエディタ245は、MG250からのビデオデータを特別なビデオソースとして処理し、字幕を部分的に透過的なものとして、関連する会議参加者のビデオ画像の前面に表示して、該ビデオ画像がメニューの背後に見えているようにする。ビデオモジュール240の動作の例は、既に引用した米国特許第6,300,973号に記載されている。ビデオモジュール240の別の実施形態の例は、米国特許第7,535,485号、及び米国特許第7,542,068号に記載されている。
【0069】
いくつかの実施形態において、MG250は、独立したモジュールであり、複数の出力モジュール244のうちの1つ以上への要求された字幕を生成する。別の実施形態では、MG250は、各出力モジュール244毎に1つのモジュールであり、出力モジュール244毎に個別にメニュー及び/又は字幕を生成する。
【0070】
一実施形態において、字幕は完全に個別化される。例えば、字幕は、個々のエンドポイント130A〜Nの要求に従い、姿、形及び外観において、個別化される。別の例では、字幕の形が、本質的には均一であり、字幕が現れるときに関しては個別化される。
【0071】
一実施形態に係るエンドポイント130A〜Nのヴィジュアル制御の表示は、会議のモデレータ(図示外)により選択されるオプションであり、モデレータが会議参加者のプロファイルを取っておき定義する。モデレータは、エンドポイント130A〜Nの1つに関連付けられ、ユーザ制御装置(図示外)を使用して、選択を行い、会議参加者のプロファイルを定義する。モデレータは、(それぞれに対応するユーザ制御装置を使って)会議参加者が会議の設定(パラメータ)を会議の間に制御する能力を有するかどうか決定する。一致実施形態において、会議参加者に会議の設定を制御する能力を持つことを会議参加者に許可しているとき、モデレータは、当該会議プロファイルにおいて、対応するオプション「ON」を選択する。
【0072】
制御リンク234,236,232,238及び239、ビデオリンク246及び249、音声リンク226は、それぞれ、制御信号、ビデオ信号、音声信号、及び、マルチメディア信号を運ぶよう、特別に設計され、且つ、専念するリンクである。これらリンクは、時分割多重化(TDM)インターフェース、パケットに基づくインターフェース、非同期転送モード(ATM)及び/又は共有メモリを含む。別の例として、これらリンクは一般的なケーブルにより構成される。別の実施形態では、これらリンクは、例えば、光学式であるか、あるいは、ラジオ波の経路であるか、あるいは、それらの組み合わせである。
【0073】
図3は、一実施形態に係る、音声モジュール300の部分の一例の関連要素を示すブロック図である。音声モジュール300の別の実施形態は、別のコンポーネントを有する、及び/又は、図3に示されたコンポーネント全てを含むのではない。音声モジュール300は、複数のセッション音声モジュール305A〜Nを備えており、音声モジュール300が処理する各セッション毎に1つのセッション音声モジュール305A〜Nである。各セッション音声モジュール305A〜Nは、1又は複数のからのポイント130A〜Nからの複数の音声ストリームを、NI210経由で圧縮音声共通インターフェース302を通じて、受信する。各受信した音声ストリームは、音声デコーダ(AD)310A〜Nにより、復元され、デコードされる。
【0074】
一実施形態に係るAD310は非音声信号を検出して、音声と非音声を区別する。例えば、DTMF信号として検出された音声ストリームは、DTMFモジュール225に伝送され、デジタルデータに変換される。デジタルデータは、制御モジュール230に伝送される。デジタルデータは、例えば、エンドポイント130からMLTV−MCU120A−Cに伝送されたコマンドである。
【0075】
各音声ストリームは、ADモジュール310A〜Nにより、復元され、及び/又はデコードされる。デコードは、受信した圧縮音声ストリームで使用された圧縮規格に従い行われる。圧縮規格は、ITU規格G.719,G.722などを含む。一実施形態に係るADモジュール310A〜Nは、音声を他の種類のノイズからフィルタする周知のスピーチフィルタを備える。AD310A〜Nのスピーチフィルタは、オーディオ品質を向上する。AD310A〜Nは、フィルタをかけて、復元及び/又はデコードした音声データを、1又は複数の音声リンク312経由で、出力する。
【0076】
デコードされた音声データは、一実施形態において、信号エネルギー分析及び制御部(SEAC)320によりリンク322経由でサンプルされる。SEAC320は、最も高い信号エネルギーを持つ所定数の音声ストリーム(例えば3〜5ストリームの間)を特定する。検出した信号エネルギーに応じて、SEAC320は1又は複数の制御コマンドを、翻訳‐セレクタモジュール(TSM)360と、1又は複数のミキシングセレクタ330A〜Nに、制御リンク324経由で送信する。
【0077】
ミキシングセレクタ330への制御コマンドは、例えば、どの音声ストリームを混合されるものとして選択するかを指示する。別の実施形態では、混合する音声ストリームに関連するコマンドは、制御モジュール230から、制御リンク326経由で受信される。別の実施形態では、決定は、SEAC320及び制御モジュール230からの制御コマンドの組み合わせである。SEAC320は、例えば、所定時間周期毎に及び/又は所定数のフレーム毎に、音声リンク312をサンプルする。
【0078】
TSM360は、音声リンク312経由でAD310A〜Nからデコードされた音声ストリームを受信する。加えて、TSM360は、SEAC320から、どの音声ストリームが翻訳されるべきかを指示するコマンドを受信する。コマンドに応じて、TSM360は、選択されたデコードされた音声ストリームを1又は複数のSTTE365A〜Xに伝送する。別の実施形態では、TSM360は、翻訳されるべき音声ストリームを1つずつコピーして、該音声ストリームのコピーをSTTE365A〜Xに伝送し、オリジナルの音声ストリームをミキシングセレクタ330に伝送する。
【0079】
一実施形態において、STTE365A〜Xは、音声ストリームを受信して、該音声ストリームをテキストのストリームに変換する。STTE365A〜Xは、例えばマイクロソフト (Microsoft Corporation)が提供する Microsoft Speech SDK、アイビーエム(International Business Machines Corporation)が提供するIBM Embedded ViaVoice、及び、マックスピーチ株式会社(MacSpeech,Inc)のアイリッスン(iListen)など、市販のコンポーネントである。一実施形態において、STTE365は、Google(登録商標)翻訳や、YAHOO!(登録商標)Babel fishウェブサイトなどのウェブサイトである。別の実施形態は、STTE365は、上記の組み合わせである。各STTE365は、1又は複数の言語のために使用される。STTE365がリモートサイトに配置されたいくつかの実施形態において、翻訳のために選択された音声ストリームは、STTE365A〜Xに送信される前に、圧縮される。
【0080】
各STTE365A〜Xが幾つかの複数言語に使用される一実施形態において、TSM360は、音声ストリームの言語に従い、どの音声ストリームをどのSTTE365A〜Xに伝送するかを決定する。TSM360は、STTE365A〜Xに、音声ストリームとともに、コマンド情報を送信する。コマンド情報は、音声ストリームリの言語と、当該ストリームが翻訳されるべき言語の情報を含む。別の実施形態において、SEAC320は、その音声ストリームのために目的先言語を、各STTE365A〜Xに直接指示する。別の実施形態では、STTE365A〜Xは、音声ストリームの言語を特定でき、それ自身、受信した音声を必要とされる言語に翻訳できるようになっている。必要とされる言語は、一実施形態では、SEAC320によって定義される。係る実施形態は、言語を特定することができる市販品を使用でき、例えば、1991年の音響・音声・信号処理国際会議で発行された“Automat language recognition using acoustic features,”という記事に記載されたものを使用できる。
【0081】
別の実施形態は、音声ストリームの言語と、該ストリームが翻訳されるべき言語を決定するための別の方法を用いる。1つの手法は、音声ストリームのソースであるエンドポイント(サイト)と、音声ストリームが送信されるべきエンドポイントとを特定することによるものである。この情報は、NI210(図2)及び/又は制御モジュール230から受信され、SEAC320に送信される情報に含まれる。
【0082】
別の実施形態は、トレーニングフェーズを使うものであり、MLTV−MCU200は音声較正フェーズを実行して、画面分割(CP)ビデオ会議において一般的な手続きであるところの"名乗ること"の要求に加えて、幾つかの予め決められた言葉を言うことを、会議参加者に要求する。
【0083】
音声較正フェーズは、ビデオ会議セッションの開始時に行われるか、又は、会議参加者がセッションに参加するときに行われる。音声較正フェーズは、また、例えば会議参加者により開始される。音声較正フェーズの間、TSM360は、どの会議参加者の音声が翻訳される必要があるかを学習する。これは、一実施形態において、例えば、音声較正フェーズの開始時に、会議参加者に所定数の言葉(例えば「おはよう」、「はい」、「いいえ」など)を発言させることにより実行される。TSM360は、言葉の音声列を探索テーブル中の複数の収録項目と比較する。前記探索テーブルは、前記予め決められた複数の言葉の列を種々の言語で具備する。受信した音声列と、探索テーブル中の収録項目との一致が受信されたとき、TSM360は、受信した音声ストリームの言語を決定する。一実施形態においてTSM360は、今後に使用のするための情報を記憶しているデータベースへのアクセスを有する。
【0084】
一実施形態において、TSM360は、クリックとビュー(clik and view)機能を使って1又は複数のエンドポイントから言語の情報を受信する。会議参加者は、その会議参加者の言語及び/又はその会議参加者の言葉を翻訳したい言語、又は、その会議参加者の言語に翻訳して欲しいエンドポイント、その会議参加者がどの言語への翻訳を望むかなどの情報を入力する。別の実施形態では、受信している会議参加者は、その会議参加者が望む字幕取得元の言語、及び/又は、エンドポイントを定義する。会議参加者は、一実施形態において、会議中のどの局面において、クリックとビュー機能を使って、上記情報を入力できる。前記情報は、例えばDTMF信号を使って伝送される。別の実施形態では、特定は、種々の方法の組み合わせによって行われる。
【0085】
更なる実施形態において、TSM360は、発話された言語を特定してTSM360に言語に関する情報を伝えるモジュールにアクセスすることで言語を特定する。前記モジュールは、内部又は外部モジュールである。前記モジュールは、例えばアイリッスン(iListen)又はViaVoiceのごとき市販品である。TSM360は、上述した手法又は言及されなかった手法の組み合わせにより実行する。
【0086】
STTE365A〜Xが音声ストリームをテキストストリームに変換した後、STTE365は、読点と句点を適宜の位置に持つよう該テキストを整理して、TE367A〜Xが該テキストをより正確に翻訳することを援助する。STTE365は、それから、翻訳テキストフレーズを、1又は複数のTE367A〜Xに転送する。TE367A〜Xは、例えばシストランソフトウェア株式会社(systran software,Inc)が提供するシストラン(Systran)、バビロン社(Babylon Ltd.)が提供するバビロン(Babylon)及びマックスピーチ株式会社(MacSpeech,Inc)のアイリッスン(iListen)など、市販品を用いる。別の実施形態では、TE367は、Google翻訳やYahoo! Babel fishウェブサイトなどのウェブサイトにアクセスする。更に別の実施形態は、上記を組み合わせるものである。各TE367は、異なる言語又は複数の言語を受け持つ。
【0087】
各テキストをどの言語に翻訳するかの決定は、どのエンドポイント(サイト)にテキストのストリームが字幕として表示されるかを特定することによって、又は、エンドポイント130の会議参加者に翻訳されるべきものと要求された言語の情報を受信することによって行われる。会議参加者は、目的先言語を特定するために、クリックとビュー機能を使う。会議参加者は、当該会議参加者の言語、及び/又は、翻訳されるべきエンドポイント、翻訳されるべき言語などの情報を、入力する。会議参加者は、一実施形態において、会議中のどの局面において、クリックとビュー機能を使って、上記情報を入力できる。前記情報は、例えばDTMF信号を使って伝送される。別の実施形態では、特定は、種々の方法の組み合わせによって行われる。
【0088】
TE367は、翻訳テキストを、メニュー生成部250に、及び/又は、音声合成モジュール(TTSs)369A〜X、及び/又は、会議録レコーダ370に出力する。メニュー生成部250は、翻訳テキストを受信して、該テキストをビデオフレームに変換する。メニュー生成部250は、例えば、テキスト文字とそのグラフィカルビデオ(字幕)とを照合する探索テーブルを持つ。メニュー生成部250は、制御モジュール230及び/又は音声モジュール300からコマンドを受信する。コマンドは、一実施形態においては、どの字幕を表示するか、どのエンドポイントにどの字幕を表示するか、どのフォーマット(色、サイズなど)で各字幕を表示するかなどを含む。
【0089】
メニュー生成部250は、受信したコマンドを実行し、字幕を変更し、そして、それらを適宜のビデオ出力モジュール244に伝送する。メニュー生成部250についての更なる情報は、前述の図2と後述の図6とに組み合わせて記述されている。
【0090】
一実施形態において、TE367A〜Xは、翻訳テキストを会議録レコーダ370に出力する。会議録レコーダ370は、会議の議論の記録として使用される。会議録レコーダ370に保存された内容は、全ての又は幾人かの会議参加者に、それぞれ会議参加者の言語で、送信される。会議録には、どのテキストがメイン話者によって発言されたのか、どのテキストが聴かれたのか(会議通話に混合されているか)、どのテキストが全ての会議参加者によって聴かれていないのかなどの標識がある。一実施形態において、標識は、当該行の先頭に音声がテキストに変換された人物の名前を標識すること、メイン話者のためにボールド体を用いること、測定された信号エネルギーに応じて異なる文字サイズを使うことなどを含む。
【0091】
一実施形態において、TE367A〜Xは、翻訳テキストをTTS369A〜Xに出力する。TTS369A〜Xは、受信した翻訳テキストを音声(テキストと同じ言語の音声)に変換する。TTS369A〜Xは、変換された音声をTSM360に伝送する。TSM360は、一実施形態において、どのTTS369A〜Xからのどの音声信号をどのミキシングセレクタ330A〜Nに伝送するかに関するコマンドを受信する。TSM360は、SEAC320から前記コマンドを受信する。TTS369A〜Xは、一実施形態において、マイクロソフト (Microsoft Corporation)が提供するMicrosoft SAPI、エイ ティ アンド ティ(AT&T Corporation)が提供するNatural Voices(登録商標)(「Natural Voices」は、AT&T知的財産IIリミテッドパートナーシップの登録商標)など、市販のコンポーネントである。
【0092】
いくつかの実施形態において、TSM360は、翻訳が不要な音声データのストリームを遅延するためのバッファを含み、混合された音声と字幕を同期できるようになっている。これらバッファは、音声とビデオを同期するためにも使用される。
【0093】
混合されるよう選択された音声ストリーム(TTS367A〜Xからの選択された音声ストリームを含む)は、適宜の1又は複数のミキシングセレクタ330A〜Nに出力される。一実施形態において、各受信側のエンドポイントイ130A〜Nのために1つのミキシングセレクタ330がある。ミキシングセレクタ330A〜Nは、受信した変更後音声ストリームを、適宜のミキサ340に転送する。別の実施形態では、1つのセレクタがTSM360とミキシングセレクタ330A〜Nとの2つのセレクタの機能を備える。2つのセレクタ、TSM360とミキシングセレクタ330A〜Nが、本開示の説明を簡略化するために描かれている。
【0094】
一実施形態において、各エンドポイント130A〜N毎に1つのミキサがある。各ミキサ340A〜Nは、選択された複数の入力音声ストリームを1つの混合された音声ストリームに混合する。混合された音声ストリームは、エンコーダ350A〜Nに送信される。エンコーダ350A〜Nは、受信した混合音声ストリームをエンコードして、エンコードされた混合音声ストリーム(出力音声ストリーム)をNI210へ出力する。エンコードは、例えばG.719、G.722など要求された音声圧縮規格に従って行われる。
【0095】
図4A及び図4Bは、一実施形態に係る、多言語翻訳ビデオ会議の画面分割ビデオ画像のスナップショットを描いている。図4A及び図4Bはスナップショット400及び420を描いている。各スナップショットは、4つのセグメント(区画)を有する。スナップショット400はセグメント401,402,403及び404を有し、スナップショット420はセグメント421,422,423及び424を有する(図中の翻訳テキストは例示的なものであり、単なる一例であり、オリジナル言語からの可能な最良の翻訳を意図しているのではない)。図4Aは、日本のエンドポイントに表示されている。セグメント402及び403は、日本語以外の言語(この例においてはそれぞれロシア語と英語)を話す会議参加者に関連付けられており、従って、日本語に翻訳された字幕410及び412が追加されている。この実施形態において、字幕は、各翻訳されたセグメントの下側にある。別の実施形態としては、例えば全ての字幕が、1つのエリアに種々の色で表示される等、がある。セグメント401は、無音の(その信号エネルギーが他よりも低い)エンドポイント130に関連付けられており、その音声が聴こえて(混合されて)おらず、字幕も示されていない。セグメント404は、別のエンドポイントのセグメントであり、その話者が日本語を話しており、これが日本の端末(エンドポイント)130で閲覧されているのでその音声は翻訳されない。
【0096】
図4Bは、例えば米国のエンドポイント(端末)に表示されたスナップショットである。セグメント422、423及び424は、英語以外の言語を話すエンドポイントからの音声及びビデオであり、従って、翻訳字幕414,416及び418がセグメント422、423及び424に追加される。セグメント421に関連付けられた会議参加者の音声信号エネルギーが他よりも低いので、その音声は聴こえず、字幕も示されていない。この実施形態では、各字幕は、当該字幕の翻訳元の言語の名前の表示から始まる。メイン話者(日本人の会議参加者)(例えば、或る期間で或る割合で最高の音声信号エネルギーを持つ者)の下の字幕418は、下線付き字幕で示される。
【0097】
字幕は、テキスト、グラフィック及び透過情報(会議ビデオ画像が、部分的に透過的な前面画像を通して、背景として見られる範囲に関する情報)を含む。
【0098】
図5は、一実施形態に係る音声翻訳手法500の関連ステップを描くフローチャートである。一実施形態において、手法500はSEAC320に実装される。手法500は、どの音声ストリームが混合される、又は、メイン話者として定義されるかを決定するための共通工程は含まない。手法500は、翻訳工程を処理するためにのみ用いられる。会議を開始と同時に、ブロック502において手法500は開始される。ブロック504において、手法500は、会議に参加している種々の会議参加者(エンドポイント)によって使用される言語の情報を取得する。言語情報は、会議参加者によって使用される言語、及び、会議参加者に要求されている翻訳先の言語の情報を含む。種々の手法が、上述されなかった手法を含み、言語情報を決定するために使用される。
【0099】
次に、手法500は、ブロック506において、TSM360に、取得した言語情報について通知する。TSM360は、また、種々のパラメータについても通知を受け、そこには、各エンドポイントに設定された字幕色の情報、各エンドポイントのための音声ミキシング情報、及び、適宜の1又は複数のSTTE365A〜X及びTE367A〜Xへの音声経路制御(ルーティング)を含む。
【0100】
ブロック508において、翻訳される必要がある音声ストリーム毎に(翻訳される会議参加者毎に)、複数の並列スレッドが開始される。図5は、ブロック508において開始された複数の並列スレッドの1つのみを描く。各スレッドは、ブロック510〜522又は524を含む。ブロック510において、決定サイクル毎に、ループ処理が開始される。ループ処理は、ブロック510において待機期間Dを待つことにより始まる。一実施形態において、Dは数十ミリ秒から数百ミリ秒の範囲である。待機期間Dの最後に、手法500は、ブロック514で、関連する翻訳される会議参加者の音声ストリームが音声ミックスにあるかどうか確認する。音声ストリームが音声ミックスにあるか否かの決定は、例えばその音声エネルギーを他の音声ストリームの音声エネルギーと比較することに基づく。ブロック514において、関連する会議参加者の音声ストリームが音声ミックスにない場合には、手法500はブロック510に戻り待機する。ブロック514において、関連する会議参加者の音声ストリームが音声ミックスにある場合には、手法500はブロック516に進む。
【0101】
ブロック516において、TSMは、関連する音声ストリームを適宜のSTTE365A〜Z及びTE367A〜Xに伝送するよう指示される。適宜のSTTE365A〜Z及びTE367A〜Xは、関連する翻訳される会議参加者の音声ストリームの話している言語と、それが翻訳されるべき言語に、それぞれ、基づいている。その後、ブロック520において、関連する翻訳される会議参加者がメイン話者かどうかの決定を行う。ブロック520の決定が肯定(YES)の場合、メニュー生成部250は、関連する翻訳される会議参加者と関連付けられた1又は複数のTE367A〜Xからテキストを取得するよう指示され(ブロック524)、ブロック524において、異なる色、異なるフォント、異なる文字サイズ、下線などを含むメイン話者フォーマットの字幕としてテキストを提示するよう指示される。次に、手法500はブロック510に戻る。ブロック520において関連する翻訳される会議参加者がメイン話者ではない場合、手法500はブロック522に進む。ブロック522において、メニュー生成部250は、ブロック522で、関連する1又は複数のTE367A〜Xからテキストを取得するよう指示され、且つ、ブロック522において、色、フォント、文字サイズ、下線などを含む通常フォーマットの字幕としてテキストを提示するよう指示される。次に、手法500はブロック510に戻る。
【0102】
図6は、一実施形態に係る、MG250によるメニュー生成手法600の関連動作を描くフローチャートである。一実施形態において、手法500はSEAC320に実装される。手法600は、会議を開始と同時に、ブロック602において開始される。手法600は、ブロック604において、どのTE367A〜Xが字幕表示のためのエンドポイント130の要求に関連付けられているかを含む各会議参加者(エンドポイント)の情報、及び、TE367A〜Xを出力モジュール244に関連付ける情報を取得する。
【0103】
ブロック608において、翻訳を要求する受信側のエンドポイント130の出力モジュール244毎に1スレッドずつ、複数のスレッドが開始される。図6は、ブロック608において開始された複数の並列スレッドの1つのみを描く。次に、手法600は、ブロック610において、指示を待つ。一実施形態において、指示は、手法500のブロック522又は524により与えられる。ブロック610において指示が受信された場合、手法600はブロック612に進む。ブロック612において、前記受信した指示における各TE367A〜Xのために、関連するTE367A〜Xからのテキストストリームが収集される。前記テキストストリームは、ブロック612において、適宜の設定(色、ボールド体、下線、など)のビデオ情報に変換される。前記ビデオ情報は、ブロック612において、適宜の出力モジュールのエディタ245へ伝送される。次に、手法600はブロック610に戻る。
【0104】
この出願において、「モジュール」、「装置」、「コンポーネント」及び「モジュール」は、交換可能に使用されている。モジュールとして名指されたいかなるものも、スタンドアローン型のモジュールでもよいし、また、専用モジュールでもよい。モジュールは、取り外し、及び、他の同種のモジュールとの取り替えが簡単にできるように、モジュラ又はモジュラ態様であってよい。各モジュールは、ソフトウェア、ハードウェア及び/又はファームウェアのいずれか1つ、又は、いずれの組み合わせであってよい。論理モジュールのソフトウェアは、読み書き可能なハードディスク、CDROM、フラッシュメモリ、ROMなどコンピュータ読み取り可能な媒体に収録される。或るタスクを実行するために、ソフトウェアは、必要に応じて、適宜のプロセッサにロードされる。
【0105】
本開示の詳細説明と特許請求範囲において、「備える」、「含む」、「持つ」及びそれらの変化(活用)は、動詞の対象が部材、コンポーネント、要素又は、又は、動詞の主体の部分を完全には列挙する必要がないことを示すよう使用されている。
【0106】
上述した装置、システム、及び、方法は、ステップ順の変更、及び、正確な実施使用を含む、多くの方法で変更されうる。前述した実施形態は種々の特徴を含むが、本願の全実施形態の全てではない。更に、本開示の幾つか実施形態は、特徴の幾つか、又は、可能な特徴の組み合わせの幾つかのみ使用している。特徴の種々の組み合わせが、当業者に想到される。更に、本開示の幾つか実施形態は、本開示において異なる実施形態に関連した説明された特徴と要素の組み合わせによって実施されうる。発明の範囲は、特許請求範囲とその均等物によってのみ制限される。
【0107】
いくつかの実施形態が詳細に説明されて、添付図面に示されたが、かかる実施形態は例示であり、特許請求範囲によって定義される基本範囲から出発することなしに考案されない。
【符号の説明】
【0108】
100 マルチメディア多地点会議システム、110 ネットワーク、120 多地点制御ユニット(MCU)、122 負荷分散装置、130 エンドポイント、200 多言語翻訳ビデオ会議多地点制御ユニット(MLTV−MCU)、210 ネットワークインターフェース(NI)、220 音声モジュール、222 会議翻訳モジュール(CTM),225 DTMFモジュール(DTMF)、230 制御モジュール230、240 ビデオモジュール、24II 入力モジュール、244 出力モジュール、245 エディタモジュール、250 メニュー生成部、300 音声モジュール、302 圧縮音声共通インターフェース、305 セッション音声モジュール、310 音声デコーダモジュール、320 信号エネルギー分析及び制御部、330 ミキシングセレクタ、340 ミキサ、350 エンコーダ、360 翻訳セレクタモジュール(TSM)、365 音声認識エンジン(STTE)、367 翻訳エンジン(TE)、369 音声合成モジュール(TTS)、370 会議録レコーダ、400,420 スナップショット、401〜404,421〜424 セグメント、410,412 字幕、414,416,418 翻訳字幕

【特許請求の範囲】
【請求項1】
ビデオ会議多地点制御ユニットのためのリアルタイム音声翻訳機であって、
複数の音声ストリームを調べて、翻訳のために、前記複数の音声ストリームのサブセットを選択する制御部と、
前記音声ストリームのサブセットに含まれる発話を翻訳する複数の翻訳機リソースと、
前記制御部に接続され、該制御部によって選択された前記複数の音声ストリームの前記サブセットを、翻訳のために、前記複数の翻訳機リソースに渡す翻訳機リソースセレクタ
を備えることを特徴とするリアルタイム音声翻訳機。
【請求項2】
前記複数の翻訳機リソースが、
それぞれ、前記複数の音声ストリームの1又は複数の前記サブセットにおける発話を、1又は複数の言語のテキストに変換する複数の音声認識エンジンと、
前記複数の音声認識エンジンに接続され、それぞれ、テキストを1又は複数の言語から1又は複数の別の言語に翻訳する複数の翻訳エンジン
を備えることを特徴とする請求項1に記載のリアルタイム音声翻訳機。
【請求項3】
前記複数の翻訳機リソースが、さらに、
前記複数の翻訳エンジンに接続され、それぞれ、1又は複数の言語のテキストを、翻訳された音声ストリームに変換する複数の音声合成エンジン
を備えることを特徴とする請求項2に記載のリアルタイム音声翻訳機。
【請求項4】
前記翻訳機リソースセレクタに接続され、コマンドに応じて複数の音声ストリームを、出力音声ストリームにミキシングするために、選択するミキシングセレクタを更に備え、
前記ミキシングセレクタが、前記複数の音声ストリームの前記サブセットと、前記複数の音声合成エンジンの前記翻訳された複数の音声ストリームとから選択することを特徴する請求項3に記載のリアルタイム音声翻訳機。
【請求項5】
前記複数の音声認識エンジンの1つが、1つの音声ストリームの発話を複数の言語のテキストに変換することを特徴とする請求項2に記載のリアルタイム音声翻訳機。
【請求項6】
前記複数の音声ストリームの前記サブセットが、該複数の音声ストリームの該サブセットの音声エネルギーレベルに応じて、前記制御部により選択されることを特徴とする請求項1に記載のリアルタイム音声翻訳機。
【請求項7】
前記翻訳機リソースセレクタが、更に、前記複数の音声ストリームの前記サブセットを前記複数の翻訳機リソースに伝送することを特徴とする請求項1に記載のリアルタイム音声翻訳機。
【請求項8】
前記翻訳機リソースセレクタに接続され、コマンドに応じて複数の音声ストリームを、1つの出力音声ストリームにミキシングするために選択するミキシングセレクタ
を更に備えることを特徴する請求項1に記載のリアルタイム音声翻訳機。
【請求項9】
前記コマンドが前記制御部により生成されることを特徴とする請求項8に記載のリアルタイム音声翻訳機。
【請求項10】
前記複数の翻訳機リソースに接続され、前記複数の翻訳機リソースによって発話から変換されたテキストを記録する会議録レコーダを更に備えることを特徴する請求項1に記載のリアルタイム音声翻訳機。
【請求項11】
複数の入力音声ストリームと複数の会議参加者からの複数の入力ビデオストリームとを受信して、複数の出力音声ストリームと複数の会議参加者への複数の出力ビデオストリームとを送信する多地点制御ユニットであって、
前記複数の入力音声ストリームと前記複数の会議参加者からの複数の入力ビデオストリームとを受信して、前記複数の出力音声ストリームと前記複数の会議参加者への複数の出力ビデオストリームとを送信するネットワークインターフェースと、
前記ネットワークインターフェースに接続され、少なくとも幾つかの前記複数の音声ストリームに含まれる発話を翻訳するリアルタイム翻訳モジュールを備える音声モジュール
を備える多地点制御ユニット。
【請求項12】
前記音声モジュールに接続され、前記リアルタイム翻訳モジュールにより翻訳された前記発話に対応する字幕を生成するメニュー生成モジュールと、
前記複数の入力ビデオストリームのうち1つの入力ビデオストリームと、前記メニュー生成モジュールにより生成された字幕を組み合わせて、前記複数の出力ビデオストリームのうち1つの出力ビデオストリームを作成するビデオモジュール
を備えることを特徴とする請求項11に記載の多地点制御ユニット。
【請求項13】
前記リアルタイム翻訳モジュールが、
前記複数の入力音声ストリームを調べて、翻訳のために、該複数の入力音声ストリームのサブセットを選択する制御部と、
前記入力音声ストリームのサブセットに含まれる発話を翻訳する複数の翻訳機リソースであって、
それぞれ、前記複数の音声ストリームの1又は複数の前記サブセットにおける発話を、1又は複数の言語のテキストに変換する複数の音声認識エンジンと、
前記複数の音声認識エンジンに接続され、それぞれ、テキストを1又は複数の言語から1又は複数の別の言語に翻訳する複数の翻訳エンジンと、
前記複数の翻訳エンジンに接続され、それぞれ、1又は複数の言語のテキストを、翻訳された音声ストリームに変換する複数の音声合成エンジンを備える翻訳機リソースと、
前記制御部に接続され、該制御部によって選択された前記複数の音声ストリームの前記サブセットを、翻訳のために、前記複数の翻訳機リソースに渡す翻訳機リソースセレクタ
を備えることを特徴とする請求項11に記載の多地点制御ユニット。
【請求項14】
前記複数の音声ストリームの前記サブセットが、該複数の音声ストリームの該サブセットの音声エネルギーレベルに応じて、前記制御部により選択されることを特徴とする請求項13に記載の多地点制御ユニット。
【請求項15】
前記複数の音声認識エンジンの1つが、1つの音声ストリームの発話を複数の言語のテキストに変換することを特徴とする請求項13に記載の多地点制御ユニット。
【請求項16】
前記翻訳機リソースセレクタが、更に、前記複数の音声ストリームの前記サブセットを前記複数の翻訳機リソースに伝送することを特徴とする請求項13に記載の多地点制御ユニット。
【請求項17】
前記翻訳機リソースセレクタに接続され、コマンドに応じて複数の音声ストリームを、1つの出力音声ストリームにミキシングするために選択するミキシングセレクタ
を更に備えることを特徴する請求項13に記載の多地点制御ユニット。
【請求項18】
前記コマンドが前記制御部により生成されることを特徴とする請求項17に記載の多地点制御ユニット。
【請求項19】
前記ミキシングセレクタが、前記複数の音声ストリームの前記サブセットと、前記複数の音声合成エンジンの前記翻訳された複数の音声ストリームとから選択することを特徴する請求項17に記載の多地点制御ユニット。
【請求項20】
前記複数の翻訳機リソースに接続され、前記複数の翻訳機リソースによって発話から変換されたテキストを記録する会議録レコーダを更に備えることを特徴する請求項13に記載の多地点制御ユニット。
【請求項21】
ビデオ会議における複数の会議参加者のためのリアルタイム音声翻訳方法であって、
前記複数の会議参加者からの複数の音声ストリームを受信するステップと、
前記複数の会議参加者のうちの第1の会議参加者からの第1の音声ストリームを、前記複数の会議参加者のうちの第2の会議参加者のために翻訳されるべきものとして特定するステップと、
前記第1の音声ストリームを翻訳リソースにルーティングするステップと、
前記第1の音声ストリームの翻訳を生成するステップと、
前記第2の会議参加者へ前記翻訳を送信するステップ
を備えることを特徴とする方法。
【請求項22】
前記複数の会議参加者のうちの第1の会議参加者からの第1の音声ストリームを、前記複数の会議参加者のうちの第2の会議参加者のために翻訳されるべきものとして特定する前記ステップが、
前記第1の会議参加者によって話されている第1の言語を特定するステップと、
前記第2の会議参加者によって望まれる第2の言語を特定するステップと、
前記第1の音声ストリームが翻訳されるべき第1の言語の発話を含んでいるかどうか決定するステップ
を備えることを特徴とする請求項21に記載の方法。
【請求項23】
前記第1の会議参加者によって話されている第1の言語を特定する前記ステップが、
前記第1の会議参加者に所定の複数の言葉を発することを要求するステップと、
前記第1の会議参加者による前記所定の複数の言葉の発言に応じて、自動的に、第1の言語を認識するステップ
を備えることを特徴とする請求項22に記載の方法。
【請求項24】
前記第1の音声ストリームを翻訳リソースにルーティングする前記ステップが、
前記第1の音声ストリームを音声認識エンジンにルーティングするステップを備えることを特徴とする請求項21に記載の方法。
【請求項25】
前記第1の音声ストリームの翻訳を生成する前記ステップが、
前記第1の音声ストリームに含まれる発話を第1のテキストストリームに変換するステップと、
前記第1のテキストストリームを前記第2の言語の第2のテキストストリームに翻訳するステップ
を備えることを特徴とする請求項21に記載の方法。
【請求項26】
前記第1の音声ストリームの翻訳を生成する前記ステップが、更に、
前記第2のテキストストリームを第2の音声ストリームに変換するステップを備え、
前記第2の会議参加者へ前記翻訳を送信する前記ステップが、
前記第2の音声ストリームを前記複数の音声ストリームのサブセットとミキシングして、混合音声ストリームを作成するステップと、
前記混合音声ストリームを前記第2の会議参加者に送信するステップと
を備えることを特徴とする請求項25に記載の方法。
【請求項27】
前記第1の音声ストリームの翻訳を生成する前記ステップが、
会議録レコーダによって第1の音声ストリームの翻訳を記録するステップを備えることを特徴とする請求項21に記載の方法。
【請求項28】
前記第1の音声ストリームの翻訳を生成する前記ステップが、
前記第1の音声ストリームに含まれる発話を第1のテキストストリームに変換するステップと、
前記第1のテキストストリームを第2の言語の第2のテキストストリームに翻訳するステップと、
前記第2の言語の前記第2のテキストストリームを複数の字幕に変換するステップ
を備え、
前記第2の会議参加者へ前記翻訳を送信する前記ステップが、
ビデオストリームに前記複数の字幕を挿入するステップと、
前記ビデオストリームと前記複数の字幕を第2の会議参加者に送信するステップ
を備えることを特徴とする請求項21に記載の方法。
【請求項29】
前記第1の音声ストリームの翻訳を生成する前記ステップが、
前記第1の会議参加者をメイン会議参加者として特定するステップと、
前記第1の音声ストリームに含まれる発話を第1のテキストストリームに変換するステップと、
前記第1のテキストストリームを第2の言語の第2のテキストストリームに翻訳するステップと、
前記第2の言語の前記第2のテキストストリームを複数の字幕に変換するステップと、
前記第1の会議参加者が前記メイン会議参加者であることを示す識別物を前記複数の字幕と関連付けるステップ
を備えることを特徴とする請求項21に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2011−209731(P2011−209731A)
【公開日】平成23年10月20日(2011.10.20)
【国際特許分類】
【出願番号】特願2011−76604(P2011−76604)
【出願日】平成23年3月30日(2011.3.30)
【出願人】(509270096)ポリコム,インク. (18)
【Fターム(参考)】