会議通信システム、会議通信方法及びプログラム

【課題】発言の衝突を減らして会話を円滑に進めることができるようにし、これにより通信会議のさらなる活性化を可能にする。
【解決手段】取り込んだ映像データ及び音声データをもとに、動作検出部１３により聞き手としての特徴的動作を検出する。またそれと共に、会議サーバＳＶから受信した会議用音声データの無音区間長から、話し手の発言に対し聞き手が発言権を得ようとする動作を行うであろうタイミングを動作タイミング推定部１６により推定する。そして、同調判定部１４において、上記推定された動作タイミングと、上記検出された聞き手の特徴的動作とをもとに、話し手の発言に対する聞き手の同調の有無と同調の度合いを検出する。さらに、各クライアント端末で検出された同調の有無と同調の度合いを表す情報をもとに次発言候補選択部１７により次の発言者の候補を選択し、当該候補者の映像を強調表示する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、複数の会議参加者が通信ネットワークを介して映像と音声を用いた会議通信を行う会議通信システム、会議通信方法及びプログラムに関する。
【背景技術】
【０００２】
世界的な不況の進行、感染症の流行、ＣＯ2 排出削減意識の高まり等の背景により遠隔会議の需要が高まり、市場は成長傾向にある。特にＷｅｂ会議は、導入が手軽で、会議室に移動せず自席で会議を実施することができるため、空間的制約も少なく大変便利である。
【０００３】
その反面、Ｗｅｂ会議は自席のブラウザ上で会議を行う必要があるという特性上の制約がある。例えば、通信容量の保証されていない通信ネットワークを通じて会議通信を行うため、遅延やフレームレートの低下を生じやすい。また、端末の表示画面を分割して複数の参加者の映像を表示するため一人当たりの映像が小さくなる。それに加え、Ｗｅｂ会議は一般に映像よりも音声を優先する。このため、Ｗｅｂ会議では参加者の表情が読み取り難いという課題がある。映像を使う利点の一つは非言語情報を伝えられることであるが、既存のＷｅｂ会議ではその利点を十分に活かすことができていない。
【０００４】
また、Ｗｅｂ会議では、会話の間が掴みづらく、発言するタイミングを計りにくい。そして、いざ発言すると他の参加者と発言が衝突するといった問題が発生しやすい。発言の衝突が発生しないようにしようとすると、沈黙時間が増えて白けた会議になってしまう。また、会話が込み入った内容になると「会って話そう」という場面はよく見受けられる。人は、対面した場面では非言語情報をうまく伝達し合うことでコミュニケーションを円滑に行っているが、上記の理由によりＷｅｂ会議では映像チャネルを通じて充分な非言語情報の伝達ができていないため、このような問題が起こりやすい。
【０００５】
一方、表示画面上に仮想的な会議室を作り、会議参加者がアバタに扮して会議（会話）を行うものがある。例えば、非特許文献１では、発言音声のＯＮ／ＯＦＦのリズムに基づいて頷きのタイミングを予測し、聞き手役のアバタに頷き動作をさせている。しかし、このシステムでは、遠隔地に存在する参加者の意図や反応にかかわらず、擬似的に動作が作り出されてしまう。このため、参加者間の認識のずれが起こり易くなり、これがコミュニケーションの失敗の原因になる可能性があり好ましくない。
【先行技術文献】
【非特許文献】
【０００６】
【非特許文献１】渡辺富夫、夏井武雄、昭和６３年度厚生省心身障害研究、「家庭保健と小児の成長・発達に関する総合的研究」、ヒューマン・インタフェースへの音声対話時の引き込み現象の応用に関する研究：うなずき反応を視覚的に模擬する音声反応システムの開発、pp.64-70
【発明の概要】
【発明が解決しようとする課題】
【０００７】
上記したように従来のＷｅｂ会議システムでは、表示画面において会議参加者の映像が小さく分割されて表示されるため会議相手の非言語情報を認識しにくく、またネットワーク遅延等の影響により発言のタイミングを判断しにくいことから、発言の衝突が起こりやすい。
【０００８】
この発明は上記事情に鑑みてなされたもので、発言の衝突を減らして会話を円滑に進めることができるようにし、これにより通信会議のさらなる活性化を可能にした会議通信システム、会議通信方法及びプログラムを提供しようとするものである。
【課題を解決するための手段】
【０００９】
一般に、コミュニケーションを円滑化させる相槌や、頷き又は手振り等で示される非言語情報は、相手の言動に対して時系列的な関係性を持っている。すなわち、人は単に非言語情報等を独立したタイミングで発するのではなく、コミュニケーションをとる相手の言動のタイミングに影響を受け、発するタイミングを選んでいる。例を挙げると、話し手の発言に対し、聞き手は相槌を打ったりまた頷きや胴体等の動きを示すことにより、自身の発言の意志を示す。すなわち、発言しようとする場合聞き手は、話し手の発言に対し動きのタイミングを合わせるいわゆる「同調」を行っている。したがって、話し手の発言に対する聞き手の同調の度合いをシステムが検出して会議通信に利用すれば、参加者間の発言の衝突が減少して会話が円滑に進むことが期待できる。
【００１０】
この発明は以上の点に着目し、参加者が会議端末として使用する会議通信装置が以下の動作を実行するようにしたものである。すなわち、先ず第１の参加者の映像及び音声をそれぞれ映像信号及び音声信号として取り込み、この取り込んだ映像信号及び音声信号をもとに第１の参加者の聞き手としての特徴的動作を検出する。またそれと共に、第２の参加者の発言による音声信号を受信し、この受信された第２の参加者の音声信号からその有音区間及び無音区間を検出し、この検出された有音区間及び無音区間をもとに第１の参加者が発言権を得ようとする動作を行う期間を推定する。そして、この推定された期間と、上記検出された第１の参加者の特徴的動作とをもとに、上記第２の参加者の発言に対する上記第１の参加者の同調の度合いを表す情報を求める。
【００１１】
したがって、話し手の発言に対しタイミングが合った聞き手の特徴的動作が、同調の度合いを表す情報として自動的に検出されることになる。このため会議参加者は、この検出された動作の情報をもとに次に発言しようとしている参加者を容易に推測することが可能となる。したがって、参加者間の発言の衝突は減少して会話が円滑に進むようになり、これにより通信会議をさらに活性化することが可能となる。
【００１２】
またこの発明は、以下の態様を備えることも特徴とする。
第１の態様は、複数の会議通信装置のうち、参加者が会議端末として使用する会議通信装置及び会議サーバとして使用される会議通信装置の少なくとも一つが、以下の動作を実行するようにしたものである。すなわち、会議端末として使用される各会議通信装置において得られた同調の度合いを表す情報を受け取り、この受け取った各同調の度合いを表す情報をもとに次の発言者の候補を選択し、この選択された次の発言者の候補を表す情報を第１の参加者に提示する。
【００１３】
このようにすると、聞き手となっている複数の参加者の発言者に対する同調の度合いを表す情報をもとに、次に発言しようとしている参加者の候補が選択されて各参加者に提示される。このため、各参加者は次に発言しようとしている参加者を自身で推測することなく正確に認識することが可能となり、これにより参加者間の発言の衝突をさらに減らすことができる。
また、参加者が頷いている様子をそのまま映像として伝送することや、胴体の動きをフレームを間引くことなく伝送することは、伝送情報量が増大して伝送遅延が生じやすくなる。しかし、この発明によれば同調の度合いを表す情報を伝送すればよいので、伝送情報量を大幅に削減することができ、これにより伝送遅延等を生じることなく、次に発言しようとしている参加者を各参加者に通知することが可能となる。
【００１４】
第２の態様は、次発言候補を表す情報を提示する際に、上記選択された次の発言者の候補を表す情報に基づいて、当該候補となる参加者に対応する映像を他の参加者の映像に比べて強調して表示するものである。
このようにすると、各参加者は自身の会議通信装置において、会議に参加している各参加者の映像を見るだけで、次に発言しようとしている参加者の候補を簡単かつ正確に認識することが可能となる。
【発明の効果】
【００１５】
すなわちこの発明によれば、参加者間の発言の衝突を減らして会話を円滑に進めることができるようになり、これにより通信会議のさらなる活性化を可能にした会議通信システム、会議通信方法及びプログラムを提供することができる。
【図面の簡単な説明】
【００１６】
【図１】この発明の一実施形態に係わる会議通信システムの概略構成図である。
【図２】図１に示した会議通信システムのクライアント端末の機能構成を示すブロック図である。
【図３】図２に示したクライアント端末による、全体の処理手順と処理内容を示すフローチャートである。
【図４】図３に示した全体処理のうち、動きタイミング推定処理の手順と内容を示すフローチャートである。
【図５】図３に示した全体処理のうち、次の発言候補者の選択・表示処理の手順と内容を示すフローチャートである。
【図６】図３に示した全体処理のうち、同調レベルの算出処理の手順と内容を示すフローチャートである。
【発明を実施するための形態】
【００１７】
以下、図面を参照してこの発明に係わる実施形態を説明する。
図１は、この発明の一実施形態に係わる会議通信システムの概略構成図である。
この会議通信システムは、会議参加者がそれぞれ使用する複数のクライアント端末ＵＴ１〜ＵＴｎを、通信ネットワークＮＷを介して会議サーバＳＶに接続可能としたものである。
【００１８】
通信ネットワークＮＷは、例えばＩＰ（Internet Protocol）網と、このＩＰ網にアクセスするためのアクセス網とから構成される。アクセス網としては、光公衆通信網、携帯電話網、ＬＡＮ（Local Area Network）、無線ＬＡＮ、ＣＡＴＶ（Cable Television）網等が用いられる。
【００１９】
会議サーバＳＶは、例えばＷｅｂサーバからなる。そして、クライアント端末ＵＴ１〜ＵＴｎからそれぞれ送信された各参加者の映像及び音声データを受信して合成することにより会議用映像及び音声データを生成し、この会議用映像及び音声データをクライアント端末ＵＴ１〜ＵＴｎへそれぞれ送信する機能を有する。また会議サーバＳＶは、クライアント端末ＵＴ１〜ＵＴｎ間で、当該クライアント端末ＵＴ１〜ＵＴｎにより生成される後述する会議用制御データを中継転送する機能も有する。
【００２０】
クライアント端末ＵＴ１〜ＵＴｎは、例えば据え置き型又は持ち運び可能なパーソナル・コンピュータからなり、以下のように構成される。図２はその機能構成を示すブロック図である。
すなわち、クライアント端末ＵＴ１〜ＵＴｎは、端末本体１０と、この端末本体１０に接続される付属デバイスとしてのマイクロホン２１、カメラ２２、スピーカ２３及び表示器２４とから構成される。
【００２１】
端末本体１０は、ハードウエアとしてＣＰＵ（Central Processing Unit）、プログラムメモリ、データメモリ、通信インタフェース及び上記各付属デバイス用のＩ／Ｏポートを備え、またソフトウエアとしてＷｅｂブラウザを備える。さらに、この発明を実施する上で必要な機能として、映像音声取込部１１と、送受信部１２と、動作検出部１３と、同調判定部１４と、発言音声解析部１５と、動作タイミング推定部１６と、次発言候補選択部１７と、映像・音声加工部１８を備えている。これらの機能部１１〜１８はいずれも、プログラムメモリに格納されたアプリケーション・プログラムをＣＰＵに実行させることにより動作する。
【００２２】
映像音声取込部１１は、会議通信期間中にマイクロホン２１及びカメラ２２からそれぞれ参加者の音声及び映像を音声信号及び映像信号として取り込んで図示しないバッファメモリに保存する。送受信部１２は、上記映像音声取込部１１により取り込まれた参加者の映像及び音声データと後述する制御データを、通信ネットワークＮＷを介して会議サーバＳＶへ送信する。またそれと共に、会議サーバＳＶから送信される、会議用の映像及び音声データと制御データを、通信ネットワークＮＷを介して受信する。
【００２３】
動作検出部１３は、上記映像音声取込部１１により取り込まれた参加者の映像及び音声データから、聞き手側の参加者が発言権を得ようとする際の特徴的動作を検出する処理を行う。具体的には、取り込まれた映像から参加者の頷きと胴体の動きを検知し、音声から相槌を検知する。頷きと胴体の動作の検知は、先ず映像から背景差分によりユーザの映像領域を求める。そして、このユーザの映像領域が、ｔ1 秒間の間隔を持たせたフレーム間の差分で見たときに、上下方向へ変化があれば、例えばｙ1 ピクセル以上移動していれば、頷きと判断する。また、左右方向へ変化があれば、例えばｘ1 ピクセル以上移動していれば、胴体の動作と判断する。また相槌に関しては、ｔ2 秒以下の音声入力があった場合にこれを相槌と判断する。
【００２４】
発言音声解析部１５は、上記送受信部１５により受信された会議用映像及び音声データのうちの音声データから、発言音声の有音区間及び無音区間を検出する。具体的には、音声の音圧を二乗した値を計算し、この計算値を予め定められたしきい値と比較する。そして、計算値がしきい値を超えれば有音（ＯＮ）、しきい値未満であれば無音（ＯＦＦ）と判断する。
【００２５】
動作タイミング推定部１６は、上記発言音声解析部１５により検出された発言音声の有音区間及び無音区間の長さ、つまり発言音声のＯＮ／ＯＦＦのリズムをもとに、聞き手側の参加者が発言権を得ようとするときに特徴的な動作、例えば頷き、相槌、胴体の動きを行うであろう期間（以後動作タイミングと呼称）を推定する。具体的には、音声のＯＦＦ区間がｔ3 秒以上続いたときに、この期間を上記動作タイミングとする。
【００２６】
同調判定部１４は、上記動作検出部１３により検出された、聞き手側の参加者が発言権を得ようとする際の特徴的動作と、上記動作タイミング推定部１６により推定された動作タイミングとをもとに、聞き手側の参加者が話し手の発言に対し同調しているか否かと、同調している場合には同調の度合いを算出する。具体的には、推定された期間の前後ｔ4 秒間に頷き、相槌、胴体の動きのいずれかが検知されれば、同調していると判定してその判定結果を同調フラグとして出力する。また、上記頷き、相槌、胴体の動きの検出数を累積加算し、その加算値を同調の度合いを表す情報（同調レベル）として出力する。
【００２７】
次発言候補選択部１７は、会議サーバＳＶから配信された、すべてのクライアント端末ＵＴ１〜ＵＴｎにおいて得られた同調フラグと同調レベルを、送受信部１２を介して取り込む。そして、この取り込んだ各クライアント端末ＵＴ１〜ＵＴｎの同調フラグ及び同調レベルをもとに、次の発言者の候補を選択する。選択方法には、同調フラグが“１”の参加者すべてを選択する方法と、同調フラグが“１”の参加者のうち同調レベルが高い上位n2 人の参加者を選択する方法と、同調フラグが“１”の参加者の中から同調レベルが最も高い参加者を選択する方法が考えられる。
【００２８】
映像・音声加工部１８は、上記次発言候補選択部１７による選択結果に基づいて、会議サーバＳＶから受信した会議用映像・音声データに含まれる各参加者の映像のうち、上記次の発言者の候補として選択された参加者の映像を強調するための処理を行う。そして、上記強調表示のための加工がなされた会議用映像・音声データのうち、映像データを表示器２４に供給して表示させ、音声データをスピーカ２３から音声として出力させる。
【００２９】
なお、強調表示の方法としては、以下の方法のいずれかが用いられる。
(1) 強調する参加者の映像の枠に色をつける。
(2) 強調する参加者の映像の表示サイズをn3倍にする。
(3) 強調する参加者の映像を振動させる。
(4) 強調する参加者の映像を放射方向へ伸縮させる。
(5) 強調する参加者の映像を光らせる。
(6) 強調する参加者の映像領域の４つの隅の内いずれかに、頷きの動作を絵で表したアイコンを表示させる。
(7) 強調する参加者の映像のみをカラー表示し、その他の参加者の映像は白黒表示する。
【００３０】
次に、以上のように構成された会議通信システムの動作を、クライアント端末ＵＴ１〜ＵＴｎの動作を中心に説明する。
いまクライアント端末ＵＴ１〜ＵＴｎが会議サーバＳＶを介して会議通信を行っているものとする。このとき、クライアント端末ＵＴ１〜ＵＴｎでは、参加者の映像及び音声がそれぞれカメラ２２及びマイクロホン２１から映像・音声取込部１１に映像・音声データとして取り込まれ、送受信部１２から会議サーバＳＶへ送信される。会議サーバＳＶでは、各クライアント端末ＵＴ１〜ＵＴｎから送信された映像・音声データが受信されると、これらの映像・音声信号が合成されて会議用の映像・音声データが生成され、この会議用の映像・音声データが各クライアント端末ＵＴ１〜ＵＴｎへそれぞれ送信される。クライアント端末ＵＴ１〜ＵＴｎでは、上記会議サーバＳＶから送信された会議用映像・音声データが送受信部１２で受信され、映像・音声加工部１８を介して表示器２４及びスピーカ２３に供給されて、会議映像及び音声としてそれぞれ表示及び拡声出力される。
【００３１】
さて、この状態でクライアント端末ＵＴ１〜ＵＴｎでは、次に発言しようとする参加者を特定し表示するための一連の動作が次のように行われる。図３乃至図６は、その処理手順と処理内容を示すフローチャートである。
クライアント端末ＵＴ１〜ＵＴｎは、先ずステップＳ１において動きタイミングの推定処理を行う。この動きタイミングの推定処理は、発話音声解析部１５及び動作タイミング推定部１６により以下のように行われる。図４はその処理手順と処理内容を示すフローチャートである。
【００３２】
すなわち、ステップＳ１１により、会議サーバＳＶから受信した会議用映像・音声データの音声部分を送受信部１２から発話音声解析部１５に取り込み、ステップＳ１２により先ず発言音声の有音（ＯＮ）区間及び無音（ＯＦＦ）区間を検出する。そして、ステップＳ１３により、上記検出された発言音声のＯＦＦ区間がｔ3 秒以上続いたときに、この区間を聞き手側の参加者が発言権を得ようとするときに特徴的な動作（頷き、相槌、胴体の動き）を行うであろう期間（動作タイミング）として検出する。
【００３３】
またクライアント端末ＵＴ１〜ＵＴｎは、上記動きタイミングの推定処理と並行して、ステップＳ２により映像・音声取込部１１から映像・音声信号を取り込み、ステップＳ３において聞き手側の参加者が発言権を得ようとする際の特徴的動作を検出する。具体的には、先に述べたように、取り込まれた映像から参加者の頷きと胴体の動きを検知し、音声から相槌を検知する。
【００３４】
クライアント端末ＵＴ１〜ＵＴｎは、次にステップＳ４により同調判定部１４を起動し、上記動作検出部１３により検出された、聞き手側の参加者が発言権を得ようとする際の特徴的動作と、上記動作タイミング推定部１６により推定された動作タイミングとをもとに、聞き手側の参加者が話し手の発言に対し同調しているか否かと、同調している場合には同調の度合いを算出する。この処理は具体的には以下のように行われる。図６はその処理手順と処理内容を示すフローチャートである。
【００３５】
すなわち、同調判定部１４は、ステップＳ４１により同調レベルを零（＝０）に初期化した後、先ずステップＳ４２において、n1 個前に検出された動きタイミングにおいて上記動作検出部１３により聞き手の特徴的な動作（頷き、相槌、胴体の動き）が検出されたか否かを判定する。そして、頷き、相槌、胴体の動きのいずれか一つでも検出された場合には、ステップＳ４３に移行してこの検出された動きの数だけ同調レベルをカウントアップする。例えば、「頷き」だけが検出された場合には同調レベルを＋１、「頷き」と「相槌」が検出された場合には同調レベルを＋２、「頷き」、「相槌」、「胴体の動き」がすべて検出された場合には同調レベルを＋３する。これに対し、頷き、相槌、胴体の動きが一つも検出されなかった場合には、ステップＳ４４に移行して同調レベルを−１する。ただし、同調レベルの最小値は零（＝０）とする。
【００３６】
同調判定部１４は、次にステップＳ４５において、n1−1 個前に検出された動きタイミングにおいて上記動作検出部１３により聞き手の特徴的な動作（頷き、相槌、胴体の動き）が検出されたか否かを判定する。そして、頷き、相槌、胴体の動きのいずれか一つでも検出された場合には、ステップＳ４６に移行してこの検出された動きの数だけ同調レベルをカウントアップする。このカウントアップ動作は、先に述べたステップＳ４３の場合と同じである。これに対し、頷き、相槌、胴体の動きが一つも検出されなかった場合には、ステップＳ４７に移行して同調レベルを−１する。この動作も先に述べたステップＳ４４と同じである。
以下同様に同調判定部１４は、n1−2 個前、n1−3 個前、…の各動きタイミングにおいてそれぞれ聞き手の特徴的な動作（頷き、相槌、胴体の動き）が検出されたか否かを判定し、その判定結果に応じて同調レベルをカウントアップ又はカウントダウンする。
【００３７】
最後に同調判定部１４は、最新の動き検出タイミングにおいて聞き手の特徴的な動作（頷き、相槌、胴体の動き）が検出されたか否かをステップＳ４８により判定する。そして、頷き、相槌、胴体の動きのいずれか一つでも検出されればステップＳ４９により動きの検出数だけ同調レベルをカウントアップし、一方頷き、相槌、胴体の動きが一つも検出されなければステップＳ５０により同調レベルをカウントダウンする。そして、以上のカウントアップ及びカウントダウンの結果、最終的なカウント値を同調レベルとして確定する。
【００３８】
以上述べた同調レベルの算出処理が終了すると、クライアント端末ＵＴ１〜ＵＴｎは続いて図４に示すようにステップＳ５に移行し、ここで上記確定された同調レベルの値が２以上であるか否かを判定する。この判定の結果、同調レベルが２以上であればステップＳ６により同調フラグを“１”に設定し、一方同調レベルが２未満であればステップＳ７により同調フラグを“０”に設定する。そして、最後にステップＳ８により、上記確定された同調レベル及び上記設定された同調フラグを、クライアント端末の識別情報又は参加者の識別情報と共に、会議用の制御データとして送受信部１２から会議サーバＳＶへ送信する。会議サーバＳＶは、各クライアント端末ＵＴ１〜ＵＴｎからそれぞれ送信された同調レベル及び同調フラグを受信すると、これらをまとめて各クライアント端末ＵＴ１〜ＵＴｎへ配信する。
【００３９】
クライアント端末ＵＴ１〜ＵＴｎは、ステップＳ９により次発言候補選択部１７を起動し、上記会議サーバＳＶから配信される各クライアント端末ＵＴ１〜ＵＴｎの同調フラグ及び同調レベルをもとに、次の発言候補者の選択・表示処理を以下のように実行する。図５はその処理手順と処理内容を示すフローチャートである。
【００４０】
すなわち、先ずステップＳ９１により、上記会議サーバＳＶから配信された各クライアント端末ＵＴ１〜ＵＴｎの同調フラグ及び同調レベルを送受信部１２から取り込む。そしてステップＳ９２において、上記取り込んだ各クライアント端末ＵＴ１〜ＵＴｎの同調フラグ及び同調レベルをもとに、先ず同調フラグが“１”となっているクライアント端末を選択し、さらにこの選択されたクライアント端末の中から同調レベルが最大となるクライアント端末を選択する。そして、この選択されたクライアント端末に該当する映像の強調指示を映像・音声加工部１８に与える。
【００４１】
映像・音声加工部１８は、上記強調指示を受け取ると、ステップＳ９３において、会議サーバＳＶから受信した会議用映像データに含まれる各参加者の映像のうち、上記強調指示により指示されたクライアント端末に対応する参加者の映像を強調するための処理を行う。例えば、強調する参加者の映像の枠に色を付けたり、強調する参加者の映像の表示サイズをn3 倍に拡大する。そして、ステップＳ９４において、上記強調表示のための加工がなされた会議用映像データを表示器２４に供給し表示させる。
かくして、表示器２４には次に発言しようとしている参加者の映像が強調表示され、参加者はこの強調表示された映像を見ることで次に発言しようとしている参加者を確認することが可能となる。
【００４２】
以上詳述したようにこの実施形態では、マイクロホン２１及びカメラ２２から取り込んだ映像データ及び音声データをもとに、動作検出部１３により聞き手としての特徴的動作を検出する。またそれと共に、会議サーバＳＶから受信した会議用音声データの無音区間長から、話し手の発言に対し聞き手が発言権を得ようとする動作を行うであろう期間を、動作タイミング推定部１６により推定する。そして、同調判定部１４において、上記推定された動作タイミングと、上記検出された聞き手の特徴的動作とをもとに、話し手の発言に対する聞き手の同調の有無と同調の度合いを検出する。さらに、各クライアント端末ＵＴ１〜ＵＴｎで検出された同調の有無と同調の度合いを表す情報を会議サーバＳＶを介して受信し、この受信した同調の有無と同調の度合いを表す情報をもとに次発言候補選択部１７により次の発言者の候補を選択し、この選択された次の発言者の候補となる参加者に対応する映像を映像・音声加工部１８により強調して表示するようにしている。
【００４３】
したがって、話し手の発言に対しタイミングが合った頷きや相槌、胴体の動き等の聞き手の特徴的動作が、同調の度合いを表す情報として検出される。そして、この同調の度合いを表す情報をもとに、次に発言しようとしている参加者の候補が選択されて、この選択された候補者の映像が強調されて各参加者に提示される。このため会議参加者は、次に発言しようとしている参加者を正確かつ簡単に把握することができる。このため、参加者間の発言の衝突は減少して会話が円滑に進むようになり、これにより通信会議をさらに活性化することが可能となる。
しかも、参加者が頷いている様子をそのまま映像として伝送することや、胴体の動きをフレームを間引くことなく伝送することは、伝送情報量が増大して伝送遅延が生じやすくなる。しかし、この実施形態によれば同調の度合いを表す情報として同調フラグと同調レベルを表す情報のみを伝送すればよいので、伝送情報量を大幅に削減することができ、これにより伝送遅延等を生じることなく、次に発言しようとしている参加者を各参加者に通知することが可能となる。
【００４４】
なお、この発明は上記実施形態に限定されるものではない。例えば、前記実施形態では、次の発言候補者の選択処理と、当該候補者に対応する映像を強調させる処理を各クライアント端末ＵＴ１〜ＵＴｎにより行うようにしたが、これらの処理を会議サーバＳＶにより行うようにしてもよい。このようにすると、各クライアント端末ＵＴ１〜ＵＴｎは、会議サーバＳＶから配信される強調処理後の会議映像データを受信してそのまま表示するだけで済むことになり、その分処理負荷が軽減される。
その他、参加者が使用する会議通信装置の種類とその構成、処理手順と処理内容等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
【００４５】
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【００４６】
ＵＴ１〜ＵＴｎ…クライアント端末、ＮＷ…通信ネットワーク、ＳＶ…会議サーバ、１０…クライアント端末本体、１１…映像・音声取込部、１２…送受信部、１３…動作検出部、１４…同調判定部、１５…発言音声解析部、１６…動作タイミング推定部、１７…次発言候補選択部、１８…映像・音声加工部、２１…マイクロホン、２２…カメラ、２３…スピーカ、２４…表示器。

【特許請求の範囲】
【請求項１】
複数の会議通信装置間で通信ネットワークを介して映像と音声を用いた会議通信を行うシステムであって、
前記複数の会議通信装置のうち参加者が会議端末として使用する各会議通信装置は、
第１の参加者の映像及び音声をそれぞれ映像信号及び音声信号として取り込む手段と、
前記取り込んだ映像信号及び音声信号をもとに、前記第１の参加者が聞き手として発言権を得ようとする際の特徴的動作を検出する手段と、
第２の参加者の発言による音声信号を受信する手段と、
前記受信された第２の参加者の音声信号からその有音区間及び無音区間を検出する手段と、
前記検出された有音区間及び無音区間をもとに、前記第１の参加者が発言権を得ようとする動作を行う期間を推定する手段と、
前記推定された期間と、前記検出された第１の参加者の特徴的動作とをもとに、前記第２の参加者の発言に対する前記第１の参加者の同調の度合いを表す情報を求める手段と
を具備することを特徴とする会議通信システム。
【請求項２】
前記複数の会議通信装置のうち、参加者が会議端末として使用する会議通信装置及び会議サーバとして使用される会議通信装置のいずれか一方は、
前記会議端末として使用される各会議通信装置において得られた同調の度合いを表す情報を取得する手段と、
前記取得された、各会議通信装置において得られた同調の度合いを表す情報をもとに次の発言者の候補を選択する手段と、
前記選択された次の発言者の候補を表す情報を前記第１の参加者に提示する次発言候補提示手段と
を、さらに具備することを特徴とする請求項１記載の会議通信システム。
【請求項３】
前記次発言候補提示手段は、前記選択された次の発言者の候補を表す情報に基づいて、当該候補となる参加者に対応する映像を他の参加者の映像に比べて強調して表示することを特徴とする請求項２記載の会議通信システム。
【請求項４】
複数の会議通信装置間で通信ネットワークを介して映像と音声を用いた会議通信を行う会議通信方法であって、
前記複数の会議通信装置のうち、参加者が会議端末として使用する第１の会議通信装置が、
第１の参加者の映像及び音声をそれぞれ映像信号及び音声信号として取り込み、
前記取り込んだ映像信号及び音声信号をもとに、前記第１の参加者が聞き手として発言権を得ようとする際の特徴的動作を検出し、
第２の参加者の発言による音声信号を受信し、
前記受信された第２の参加者の音声信号からその有音区間及び無音区間を検出し、
前記検出された有音区間及び無音区間をもとに、前記第１の参加者が発言権を得ようとする動作を行う期間を推定し、
前記推定された期間と、前記検出された第１の参加者の特徴的動作とをもとに、前記第２の参加者の発言に対する前記第１の参加者の同調の度合いを表す情報を求める
ことを特徴とする会議通信方法。
【請求項５】
前記複数の会議通信装置のうち、参加者が会議端末として使用する会議通信装置及び会議サーバとして使用される会議通信装置のいずれか一方が、さらに
前記会議端末として使用される各会議通信装置において得られた同調の度合いを表す情報を取得し、
前記取得された、各会議通信装置において得られた同調の度合いを表す情報をもとに次の発言者の候補を選択し、
前記選択された次の発言者の候補を表す情報を前記第１の参加者に提示する
ことを特徴とする請求項４記載の会議通信方法。
【請求項６】
前記次発言候補を表す情報を提示する手段は、前記選択された次の発言者の候補を表す情報に基づいて、当該候補となる参加者に対応する映像を他の参加者の映像に比べて強調して表示することを特徴とする請求項５記載の会議通信方法。
【請求項７】
請求項１乃至請求項３のいずれかに記載の会議通信システムにおいて、会議通信装置が具備する各手段の処理をコンピュータに実行させるプログラム。

【図１】