説明

会議通信システム、会議通信方法及びプログラム

【課題】発言の衝突を減らして会話を円滑に進めることができるようにし、これにより通信会議のさらなる活性化を可能にする。
【解決手段】取り込んだ映像データ及び音声データをもとに、動作検出部13により聞き手としての特徴的動作を検出する。またそれと共に、会議サーバSVから受信した会議用音声データの無音区間長から、話し手の発言に対し聞き手が発言権を得ようとする動作を行うであろうタイミングを動作タイミング推定部16により推定する。そして、同調判定部14において、上記推定された動作タイミングと、上記検出された聞き手の特徴的動作とをもとに、話し手の発言に対する聞き手の同調の有無と同調の度合いを検出する。さらに、各クライアント端末で検出された同調の有無と同調の度合いを表す情報をもとに次発言候補選択部17により次の発言者の候補を選択し、当該候補者の映像を強調表示する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、複数の会議参加者が通信ネットワークを介して映像と音声を用いた会議通信を行う会議通信システム、会議通信方法及びプログラムに関する。
【背景技術】
【0002】
世界的な不況の進行、感染症の流行、CO2 排出削減意識の高まり等の背景により遠隔会議の需要が高まり、市場は成長傾向にある。特にWeb会議は、導入が手軽で、会議室に移動せず自席で会議を実施することができるため、空間的制約も少なく大変便利である。
【0003】
その反面、Web会議は自席のブラウザ上で会議を行う必要があるという特性上の制約がある。例えば、通信容量の保証されていない通信ネットワークを通じて会議通信を行うため、遅延やフレームレートの低下を生じやすい。また、端末の表示画面を分割して複数の参加者の映像を表示するため一人当たりの映像が小さくなる。それに加え、Web会議は一般に映像よりも音声を優先する。このため、Web会議では参加者の表情が読み取り難いという課題がある。映像を使う利点の一つは非言語情報を伝えられることであるが、既存のWeb会議ではその利点を十分に活かすことができていない。
【0004】
また、Web会議では、会話の間が掴みづらく、発言するタイミングを計りにくい。そして、いざ発言すると他の参加者と発言が衝突するといった問題が発生しやすい。発言の衝突が発生しないようにしようとすると、沈黙時間が増えて白けた会議になってしまう。また、会話が込み入った内容になると「会って話そう」という場面はよく見受けられる。人は、対面した場面では非言語情報をうまく伝達し合うことでコミュニケーションを円滑に行っているが、上記の理由によりWeb会議では映像チャネルを通じて充分な非言語情報の伝達ができていないため、このような問題が起こりやすい。
【0005】
一方、表示画面上に仮想的な会議室を作り、会議参加者がアバタに扮して会議(会話)を行うものがある。例えば、非特許文献1では、発言音声のON/OFFのリズムに基づいて頷きのタイミングを予測し、聞き手役のアバタに頷き動作をさせている。しかし、このシステムでは、遠隔地に存在する参加者の意図や反応にかかわらず、擬似的に動作が作り出されてしまう。このため、参加者間の認識のずれが起こり易くなり、これがコミュニケーションの失敗の原因になる可能性があり好ましくない。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】渡辺富夫、夏井武雄、昭和63年度厚生省心身障害研究、「家庭保健と小児の成長・発達に関する総合的研究」、ヒューマン・インタフェースへの音声対話時の引き込み現象の応用に関する研究:うなずき反応を視覚的に模擬する音声反応システムの開発、pp.64-70
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記したように従来のWeb会議システムでは、表示画面において会議参加者の映像が小さく分割されて表示されるため会議相手の非言語情報を認識しにくく、またネットワーク遅延等の影響により発言のタイミングを判断しにくいことから、発言の衝突が起こりやすい。
【0008】
この発明は上記事情に鑑みてなされたもので、発言の衝突を減らして会話を円滑に進めることができるようにし、これにより通信会議のさらなる活性化を可能にした会議通信システム、会議通信方法及びプログラムを提供しようとするものである。
【課題を解決するための手段】
【0009】
一般に、コミュニケーションを円滑化させる相槌や、頷き又は手振り等で示される非言語情報は、相手の言動に対して時系列的な関係性を持っている。すなわち、人は単に非言語情報等を独立したタイミングで発するのではなく、コミュニケーションをとる相手の言動のタイミングに影響を受け、発するタイミングを選んでいる。例を挙げると、話し手の発言に対し、聞き手は相槌を打ったりまた頷きや胴体等の動きを示すことにより、自身の発言の意志を示す。すなわち、発言しようとする場合聞き手は、話し手の発言に対し動きのタイミングを合わせるいわゆる「同調」を行っている。したがって、話し手の発言に対する聞き手の同調の度合いをシステムが検出して会議通信に利用すれば、参加者間の発言の衝突が減少して会話が円滑に進むことが期待できる。
【0010】
この発明は以上の点に着目し、参加者が会議端末として使用する会議通信装置が以下の動作を実行するようにしたものである。すなわち、先ず第1の参加者の映像及び音声をそれぞれ映像信号及び音声信号として取り込み、この取り込んだ映像信号及び音声信号をもとに第1の参加者の聞き手としての特徴的動作を検出する。またそれと共に、第2の参加者の発言による音声信号を受信し、この受信された第2の参加者の音声信号からその有音区間及び無音区間を検出し、この検出された有音区間及び無音区間をもとに第1の参加者が発言権を得ようとする動作を行う期間を推定する。そして、この推定された期間と、上記検出された第1の参加者の特徴的動作とをもとに、上記第2の参加者の発言に対する上記第1の参加者の同調の度合いを表す情報を求める。
【0011】
したがって、話し手の発言に対しタイミングが合った聞き手の特徴的動作が、同調の度合いを表す情報として自動的に検出されることになる。このため会議参加者は、この検出された動作の情報をもとに次に発言しようとしている参加者を容易に推測することが可能となる。したがって、参加者間の発言の衝突は減少して会話が円滑に進むようになり、これにより通信会議をさらに活性化することが可能となる。
【0012】
またこの発明は、以下の態様を備えることも特徴とする。
第1の態様は、複数の会議通信装置のうち、参加者が会議端末として使用する会議通信装置及び会議サーバとして使用される会議通信装置の少なくとも一つが、以下の動作を実行するようにしたものである。すなわち、会議端末として使用される各会議通信装置において得られた同調の度合いを表す情報を受け取り、この受け取った各同調の度合いを表す情報をもとに次の発言者の候補を選択し、この選択された次の発言者の候補を表す情報を第1の参加者に提示する。
【0013】
このようにすると、聞き手となっている複数の参加者の発言者に対する同調の度合いを表す情報をもとに、次に発言しようとしている参加者の候補が選択されて各参加者に提示される。このため、各参加者は次に発言しようとしている参加者を自身で推測することなく正確に認識することが可能となり、これにより参加者間の発言の衝突をさらに減らすことができる。
また、参加者が頷いている様子をそのまま映像として伝送することや、胴体の動きをフレームを間引くことなく伝送することは、伝送情報量が増大して伝送遅延が生じやすくなる。しかし、この発明によれば同調の度合いを表す情報を伝送すればよいので、伝送情報量を大幅に削減することができ、これにより伝送遅延等を生じることなく、次に発言しようとしている参加者を各参加者に通知することが可能となる。
【0014】
第2の態様は、次発言候補を表す情報を提示する際に、上記選択された次の発言者の候補を表す情報に基づいて、当該候補となる参加者に対応する映像を他の参加者の映像に比べて強調して表示するものである。
このようにすると、各参加者は自身の会議通信装置において、会議に参加している各参加者の映像を見るだけで、次に発言しようとしている参加者の候補を簡単かつ正確に認識することが可能となる。
【発明の効果】
【0015】
すなわちこの発明によれば、参加者間の発言の衝突を減らして会話を円滑に進めることができるようになり、これにより通信会議のさらなる活性化を可能にした会議通信システム、会議通信方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0016】
【図1】この発明の一実施形態に係わる会議通信システムの概略構成図である。
【図2】図1に示した会議通信システムのクライアント端末の機能構成を示すブロック図である。
【図3】図2に示したクライアント端末による、全体の処理手順と処理内容を示すフローチャートである。
【図4】図3に示した全体処理のうち、動きタイミング推定処理の手順と内容を示すフローチャートである。
【図5】図3に示した全体処理のうち、次の発言候補者の選択・表示処理の手順と内容を示すフローチャートである。
【図6】図3に示した全体処理のうち、同調レベルの算出処理の手順と内容を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、図面を参照してこの発明に係わる実施形態を説明する。
図1は、この発明の一実施形態に係わる会議通信システムの概略構成図である。
この会議通信システムは、会議参加者がそれぞれ使用する複数のクライアント端末UT1〜UTnを、通信ネットワークNWを介して会議サーバSVに接続可能としたものである。
【0018】
通信ネットワークNWは、例えばIP(Internet Protocol)網と、このIP網にアクセスするためのアクセス網とから構成される。アクセス網としては、光公衆通信網、携帯電話網、LAN(Local Area Network)、無線LAN、CATV(Cable Television)網等が用いられる。
【0019】
会議サーバSVは、例えばWebサーバからなる。そして、クライアント端末UT1〜UTnからそれぞれ送信された各参加者の映像及び音声データを受信して合成することにより会議用映像及び音声データを生成し、この会議用映像及び音声データをクライアント端末UT1〜UTnへそれぞれ送信する機能を有する。また会議サーバSVは、クライアント端末UT1〜UTn間で、当該クライアント端末UT1〜UTnにより生成される後述する会議用制御データを中継転送する機能も有する。
【0020】
クライアント端末UT1〜UTnは、例えば据え置き型又は持ち運び可能なパーソナル・コンピュータからなり、以下のように構成される。図2はその機能構成を示すブロック図である。
すなわち、クライアント端末UT1〜UTnは、端末本体10と、この端末本体10に接続される付属デバイスとしてのマイクロホン21、カメラ22、スピーカ23及び表示器24とから構成される。
【0021】
端末本体10は、ハードウエアとしてCPU(Central Processing Unit)、プログラムメモリ、データメモリ、通信インタフェース及び上記各付属デバイス用のI/Oポートを備え、またソフトウエアとしてWebブラウザを備える。さらに、この発明を実施する上で必要な機能として、映像音声取込部11と、送受信部12と、動作検出部13と、同調判定部14と、発言音声解析部15と、動作タイミング推定部16と、次発言候補選択部17と、映像・音声加工部18を備えている。これらの機能部11〜18はいずれも、プログラムメモリに格納されたアプリケーション・プログラムをCPUに実行させることにより動作する。
【0022】
映像音声取込部11は、会議通信期間中にマイクロホン21及びカメラ22からそれぞれ参加者の音声及び映像を音声信号及び映像信号として取り込んで図示しないバッファメモリに保存する。送受信部12は、上記映像音声取込部11により取り込まれた参加者の映像及び音声データと後述する制御データを、通信ネットワークNWを介して会議サーバSVへ送信する。またそれと共に、会議サーバSVから送信される、会議用の映像及び音声データと制御データを、通信ネットワークNWを介して受信する。
【0023】
動作検出部13は、上記映像音声取込部11により取り込まれた参加者の映像及び音声データから、聞き手側の参加者が発言権を得ようとする際の特徴的動作を検出する処理を行う。具体的には、取り込まれた映像から参加者の頷きと胴体の動きを検知し、音声から相槌を検知する。頷きと胴体の動作の検知は、先ず映像から背景差分によりユーザの映像領域を求める。そして、このユーザの映像領域が、t1 秒間の間隔を持たせたフレーム間の差分で見たときに、上下方向へ変化があれば、例えばy1 ピクセル以上移動していれば、頷きと判断する。また、左右方向へ変化があれば、例えばx1 ピクセル以上移動していれば、胴体の動作と判断する。また相槌に関しては、t2 秒以下の音声入力があった場合にこれを相槌と判断する。
【0024】
発言音声解析部15は、上記送受信部15により受信された会議用映像及び音声データのうちの音声データから、発言音声の有音区間及び無音区間を検出する。具体的には、音声の音圧を二乗した値を計算し、この計算値を予め定められたしきい値と比較する。そして、計算値がしきい値を超えれば有音(ON)、しきい値未満であれば無音(OFF)と判断する。
【0025】
動作タイミング推定部16は、上記発言音声解析部15により検出された発言音声の有音区間及び無音区間の長さ、つまり発言音声のON/OFFのリズムをもとに、聞き手側の参加者が発言権を得ようとするときに特徴的な動作、例えば頷き、相槌、胴体の動きを行うであろう期間(以後動作タイミングと呼称)を推定する。具体的には、音声のOFF区間がt3 秒以上続いたときに、この期間を上記動作タイミングとする。
【0026】
同調判定部14は、上記動作検出部13により検出された、聞き手側の参加者が発言権を得ようとする際の特徴的動作と、上記動作タイミング推定部16により推定された動作タイミングとをもとに、聞き手側の参加者が話し手の発言に対し同調しているか否かと、同調している場合には同調の度合いを算出する。具体的には、推定された期間の前後t4 秒間に頷き、相槌、胴体の動きのいずれかが検知されれば、同調していると判定してその判定結果を同調フラグとして出力する。また、上記頷き、相槌、胴体の動きの検出数を累積加算し、その加算値を同調の度合いを表す情報(同調レベル)として出力する。
【0027】
次発言候補選択部17は、会議サーバSVから配信された、すべてのクライアント端末UT1〜UTnにおいて得られた同調フラグと同調レベルを、送受信部12を介して取り込む。そして、この取り込んだ各クライアント端末UT1〜UTnの同調フラグ及び同調レベルをもとに、次の発言者の候補を選択する。選択方法には、同調フラグが“1”の参加者すべてを選択する方法と、同調フラグが“1”の参加者のうち同調レベルが高い上位n2 人の参加者を選択する方法と、同調フラグが“1”の参加者の中から同調レベルが最も高い参加者を選択する方法が考えられる。
【0028】
映像・音声加工部18は、上記次発言候補選択部17による選択結果に基づいて、会議サーバSVから受信した会議用映像・音声データに含まれる各参加者の映像のうち、上記次の発言者の候補として選択された参加者の映像を強調するための処理を行う。そして、上記強調表示のための加工がなされた会議用映像・音声データのうち、映像データを表示器24に供給して表示させ、音声データをスピーカ23から音声として出力させる。
【0029】
なお、強調表示の方法としては、以下の方法のいずれかが用いられる。
(1) 強調する参加者の映像の枠に色をつける。
(2) 強調する参加者の映像の表示サイズをn3倍にする。
(3) 強調する参加者の映像を振動させる。
(4) 強調する参加者の映像を放射方向へ伸縮させる。
(5) 強調する参加者の映像を光らせる。
(6) 強調する参加者の映像領域の4つの隅の内いずれかに、頷きの動作を絵で表したアイコンを表示させる。
(7) 強調する参加者の映像のみをカラー表示し、その他の参加者の映像は白黒表示する。
【0030】
次に、以上のように構成された会議通信システムの動作を、クライアント端末UT1〜UTnの動作を中心に説明する。
いまクライアント端末UT1〜UTnが会議サーバSVを介して会議通信を行っているものとする。このとき、クライアント端末UT1〜UTnでは、参加者の映像及び音声がそれぞれカメラ22及びマイクロホン21から映像・音声取込部11に映像・音声データとして取り込まれ、送受信部12から会議サーバSVへ送信される。会議サーバSVでは、各クライアント端末UT1〜UTnから送信された映像・音声データが受信されると、これらの映像・音声信号が合成されて会議用の映像・音声データが生成され、この会議用の映像・音声データが各クライアント端末UT1〜UTnへそれぞれ送信される。クライアント端末UT1〜UTnでは、上記会議サーバSVから送信された会議用映像・音声データが送受信部12で受信され、映像・音声加工部18を介して表示器24及びスピーカ23に供給されて、会議映像及び音声としてそれぞれ表示及び拡声出力される。
【0031】
さて、この状態でクライアント端末UT1〜UTnでは、次に発言しようとする参加者を特定し表示するための一連の動作が次のように行われる。図3乃至図6は、その処理手順と処理内容を示すフローチャートである。
クライアント端末UT1〜UTnは、先ずステップS1において動きタイミングの推定処理を行う。この動きタイミングの推定処理は、発話音声解析部15及び動作タイミング推定部16により以下のように行われる。図4はその処理手順と処理内容を示すフローチャートである。
【0032】
すなわち、ステップS11により、会議サーバSVから受信した会議用映像・音声データの音声部分を送受信部12から発話音声解析部15に取り込み、ステップS12により先ず発言音声の有音(ON)区間及び無音(OFF)区間を検出する。そして、ステップS13により、上記検出された発言音声のOFF区間がt3 秒以上続いたときに、この区間を聞き手側の参加者が発言権を得ようとするときに特徴的な動作(頷き、相槌、胴体の動き)を行うであろう期間(動作タイミング)として検出する。
【0033】
またクライアント端末UT1〜UTnは、上記動きタイミングの推定処理と並行して、ステップS2により映像・音声取込部11から映像・音声信号を取り込み、ステップS3において聞き手側の参加者が発言権を得ようとする際の特徴的動作を検出する。具体的には、先に述べたように、取り込まれた映像から参加者の頷きと胴体の動きを検知し、音声から相槌を検知する。
【0034】
クライアント端末UT1〜UTnは、次にステップS4により同調判定部14を起動し、上記動作検出部13により検出された、聞き手側の参加者が発言権を得ようとする際の特徴的動作と、上記動作タイミング推定部16により推定された動作タイミングとをもとに、聞き手側の参加者が話し手の発言に対し同調しているか否かと、同調している場合には同調の度合いを算出する。この処理は具体的には以下のように行われる。図6はその処理手順と処理内容を示すフローチャートである。
【0035】
すなわち、同調判定部14は、ステップS41により同調レベルを零(=0)に初期化した後、先ずステップS42において、n1 個前に検出された動きタイミングにおいて上記動作検出部13により聞き手の特徴的な動作(頷き、相槌、胴体の動き)が検出されたか否かを判定する。そして、頷き、相槌、胴体の動きのいずれか一つでも検出された場合には、ステップS43に移行してこの検出された動きの数だけ同調レベルをカウントアップする。例えば、「頷き」だけが検出された場合には同調レベルを+1、「頷き」と「相槌」が検出された場合には同調レベルを+2、「頷き」、「相槌」、「胴体の動き」がすべて検出された場合には同調レベルを+3する。これに対し、頷き、相槌、胴体の動きが一つも検出されなかった場合には、ステップS44に移行して同調レベルを−1する。ただし、同調レベルの最小値は零(=0)とする。
【0036】
同調判定部14は、次にステップS45において、n1−1 個前に検出された動きタイミングにおいて上記動作検出部13により聞き手の特徴的な動作(頷き、相槌、胴体の動き)が検出されたか否かを判定する。そして、頷き、相槌、胴体の動きのいずれか一つでも検出された場合には、ステップS46に移行してこの検出された動きの数だけ同調レベルをカウントアップする。このカウントアップ動作は、先に述べたステップS43の場合と同じである。これに対し、頷き、相槌、胴体の動きが一つも検出されなかった場合には、ステップS47に移行して同調レベルを−1する。この動作も先に述べたステップS44と同じである。
以下同様に同調判定部14は、n1−2 個前、n1−3 個前、…の各動きタイミングにおいてそれぞれ聞き手の特徴的な動作(頷き、相槌、胴体の動き)が検出されたか否かを判定し、その判定結果に応じて同調レベルをカウントアップ又はカウントダウンする。
【0037】
最後に同調判定部14は、最新の動き検出タイミングにおいて聞き手の特徴的な動作(頷き、相槌、胴体の動き)が検出されたか否かをステップS48により判定する。そして、頷き、相槌、胴体の動きのいずれか一つでも検出されればステップS49により動きの検出数だけ同調レベルをカウントアップし、一方頷き、相槌、胴体の動きが一つも検出されなければステップS50により同調レベルをカウントダウンする。そして、以上のカウントアップ及びカウントダウンの結果、最終的なカウント値を同調レベルとして確定する。
【0038】
以上述べた同調レベルの算出処理が終了すると、クライアント端末UT1〜UTnは続いて図4に示すようにステップS5に移行し、ここで上記確定された同調レベルの値が2以上であるか否かを判定する。この判定の結果、同調レベルが2以上であればステップS6により同調フラグを“1”に設定し、一方同調レベルが2未満であればステップS7により同調フラグを“0”に設定する。そして、最後にステップS8により、上記確定された同調レベル及び上記設定された同調フラグを、クライアント端末の識別情報又は参加者の識別情報と共に、会議用の制御データとして送受信部12から会議サーバSVへ送信する。会議サーバSVは、各クライアント端末UT1〜UTnからそれぞれ送信された同調レベル及び同調フラグを受信すると、これらをまとめて各クライアント端末UT1〜UTnへ配信する。
【0039】
クライアント端末UT1〜UTnは、ステップS9により次発言候補選択部17を起動し、上記会議サーバSVから配信される各クライアント端末UT1〜UTnの同調フラグ及び同調レベルをもとに、次の発言候補者の選択・表示処理を以下のように実行する。図5はその処理手順と処理内容を示すフローチャートである。
【0040】
すなわち、先ずステップS91により、上記会議サーバSVから配信された各クライアント端末UT1〜UTnの同調フラグ及び同調レベルを送受信部12から取り込む。そしてステップS92において、上記取り込んだ各クライアント端末UT1〜UTnの同調フラグ及び同調レベルをもとに、先ず同調フラグが“1”となっているクライアント端末を選択し、さらにこの選択されたクライアント端末の中から同調レベルが最大となるクライアント端末を選択する。そして、この選択されたクライアント端末に該当する映像の強調指示を映像・音声加工部18に与える。
【0041】
映像・音声加工部18は、上記強調指示を受け取ると、ステップS93において、会議サーバSVから受信した会議用映像データに含まれる各参加者の映像のうち、上記強調指示により指示されたクライアント端末に対応する参加者の映像を強調するための処理を行う。例えば、強調する参加者の映像の枠に色を付けたり、強調する参加者の映像の表示サイズをn3 倍に拡大する。そして、ステップS94において、上記強調表示のための加工がなされた会議用映像データを表示器24に供給し表示させる。
かくして、表示器24には次に発言しようとしている参加者の映像が強調表示され、参加者はこの強調表示された映像を見ることで次に発言しようとしている参加者を確認することが可能となる。
【0042】
以上詳述したようにこの実施形態では、マイクロホン21及びカメラ22から取り込んだ映像データ及び音声データをもとに、動作検出部13により聞き手としての特徴的動作を検出する。またそれと共に、会議サーバSVから受信した会議用音声データの無音区間長から、話し手の発言に対し聞き手が発言権を得ようとする動作を行うであろう期間を、動作タイミング推定部16により推定する。そして、同調判定部14において、上記推定された動作タイミングと、上記検出された聞き手の特徴的動作とをもとに、話し手の発言に対する聞き手の同調の有無と同調の度合いを検出する。さらに、各クライアント端末UT1〜UTnで検出された同調の有無と同調の度合いを表す情報を会議サーバSVを介して受信し、この受信した同調の有無と同調の度合いを表す情報をもとに次発言候補選択部17により次の発言者の候補を選択し、この選択された次の発言者の候補となる参加者に対応する映像を映像・音声加工部18により強調して表示するようにしている。
【0043】
したがって、話し手の発言に対しタイミングが合った頷きや相槌、胴体の動き等の聞き手の特徴的動作が、同調の度合いを表す情報として検出される。そして、この同調の度合いを表す情報をもとに、次に発言しようとしている参加者の候補が選択されて、この選択された候補者の映像が強調されて各参加者に提示される。このため会議参加者は、次に発言しようとしている参加者を正確かつ簡単に把握することができる。このため、参加者間の発言の衝突は減少して会話が円滑に進むようになり、これにより通信会議をさらに活性化することが可能となる。
しかも、参加者が頷いている様子をそのまま映像として伝送することや、胴体の動きをフレームを間引くことなく伝送することは、伝送情報量が増大して伝送遅延が生じやすくなる。しかし、この実施形態によれば同調の度合いを表す情報として同調フラグと同調レベルを表す情報のみを伝送すればよいので、伝送情報量を大幅に削減することができ、これにより伝送遅延等を生じることなく、次に発言しようとしている参加者を各参加者に通知することが可能となる。
【0044】
なお、この発明は上記実施形態に限定されるものではない。例えば、前記実施形態では、次の発言候補者の選択処理と、当該候補者に対応する映像を強調させる処理を各クライアント端末UT1〜UTnにより行うようにしたが、これらの処理を会議サーバSVにより行うようにしてもよい。このようにすると、各クライアント端末UT1〜UTnは、会議サーバSVから配信される強調処理後の会議映像データを受信してそのまま表示するだけで済むことになり、その分処理負荷が軽減される。
その他、参加者が使用する会議通信装置の種類とその構成、処理手順と処理内容等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
【0045】
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【0046】
UT1〜UTn…クライアント端末、NW…通信ネットワーク、SV…会議サーバ、10…クライアント端末本体、11…映像・音声取込部、12…送受信部、13…動作検出部、14…同調判定部、15…発言音声解析部、16…動作タイミング推定部、17…次発言候補選択部、18…映像・音声加工部、21…マイクロホン、22…カメラ、23…スピーカ、24…表示器。

【特許請求の範囲】
【請求項1】
複数の会議通信装置間で通信ネットワークを介して映像と音声を用いた会議通信を行うシステムであって、
前記複数の会議通信装置のうち参加者が会議端末として使用する各会議通信装置は、
第1の参加者の映像及び音声をそれぞれ映像信号及び音声信号として取り込む手段と、
前記取り込んだ映像信号及び音声信号をもとに、前記第1の参加者が聞き手として発言権を得ようとする際の特徴的動作を検出する手段と、
第2の参加者の発言による音声信号を受信する手段と、
前記受信された第2の参加者の音声信号からその有音区間及び無音区間を検出する手段と、
前記検出された有音区間及び無音区間をもとに、前記第1の参加者が発言権を得ようとする動作を行う期間を推定する手段と、
前記推定された期間と、前記検出された第1の参加者の特徴的動作とをもとに、前記第2の参加者の発言に対する前記第1の参加者の同調の度合いを表す情報を求める手段と
を具備することを特徴とする会議通信システム。
【請求項2】
前記複数の会議通信装置のうち、参加者が会議端末として使用する会議通信装置及び会議サーバとして使用される会議通信装置のいずれか一方は、
前記会議端末として使用される各会議通信装置において得られた同調の度合いを表す情報を取得する手段と、
前記取得された、各会議通信装置において得られた同調の度合いを表す情報をもとに次の発言者の候補を選択する手段と、
前記選択された次の発言者の候補を表す情報を前記第1の参加者に提示する次発言候補提示手段と
を、さらに具備することを特徴とする請求項1記載の会議通信システム。
【請求項3】
前記次発言候補提示手段は、前記選択された次の発言者の候補を表す情報に基づいて、当該候補となる参加者に対応する映像を他の参加者の映像に比べて強調して表示することを特徴とする請求項2記載の会議通信システム。
【請求項4】
複数の会議通信装置間で通信ネットワークを介して映像と音声を用いた会議通信を行う会議通信方法であって、
前記複数の会議通信装置のうち、参加者が会議端末として使用する第1の会議通信装置が、
第1の参加者の映像及び音声をそれぞれ映像信号及び音声信号として取り込み、
前記取り込んだ映像信号及び音声信号をもとに、前記第1の参加者が聞き手として発言権を得ようとする際の特徴的動作を検出し、
第2の参加者の発言による音声信号を受信し、
前記受信された第2の参加者の音声信号からその有音区間及び無音区間を検出し、
前記検出された有音区間及び無音区間をもとに、前記第1の参加者が発言権を得ようとする動作を行う期間を推定し、
前記推定された期間と、前記検出された第1の参加者の特徴的動作とをもとに、前記第2の参加者の発言に対する前記第1の参加者の同調の度合いを表す情報を求める
ことを特徴とする会議通信方法。
【請求項5】
前記複数の会議通信装置のうち、参加者が会議端末として使用する会議通信装置及び会議サーバとして使用される会議通信装置のいずれか一方が、さらに
前記会議端末として使用される各会議通信装置において得られた同調の度合いを表す情報を取得し、
前記取得された、各会議通信装置において得られた同調の度合いを表す情報をもとに次の発言者の候補を選択し、
前記選択された次の発言者の候補を表す情報を前記第1の参加者に提示する
ことを特徴とする請求項4記載の会議通信方法。
【請求項6】
前記次発言候補を表す情報を提示する手段は、前記選択された次の発言者の候補を表す情報に基づいて、当該候補となる参加者に対応する映像を他の参加者の映像に比べて強調して表示することを特徴とする請求項5記載の会議通信方法。
【請求項7】
請求項1乃至請求項3のいずれかに記載の会議通信システムにおいて、会議通信装置が具備する各手段の処理をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2011−61450(P2011−61450A)
【公開日】平成23年3月24日(2011.3.24)
【国際特許分類】
【出願番号】特願2009−208346(P2009−208346)
【出願日】平成21年9月9日(2009.9.9)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】