会議記録装置、会議記録方法および会議記録プログラム

【課題】テレビ会議システムにて実行されるテレビ会議を、一のユーザの発言に対する他のユーザの反応が同期して再生されるように記録可能な会議記録装置を提供する。
【解決手段】テレビ会議システム１では、端末装置３，４，５間で相互に交換される動画データが、端末装置３にて時刻データに対応付けて記憶される。動画データに対応付けられる時刻データは、ネットワーク２の遅延時間に基づいて算出される記録遅延時間のバッファリングによって調整される。端末装置３では、動画データを時刻データに基づいて時系列に合成することによって、端末装置３にて生成された動画データと、その動画データの受信時に端末装置４，５にて生成された動画データとが同期して再生される会議記録データが作成される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数拠点に設けられたコンピュータ間で行われる遠隔会議を記録する会議記録装置、会議記録方法および会議記録プログラムに関する。
【背景技術】
【０００２】
従来、ユーザが存在する複数拠点に設けられた会議端末をネットワーク経由で接続し、これらの会議端末を用いて遠隔会議を行うテレビ会議システムが存在する。このようなテレビ会議システムにおいて、遠隔会議を記録しておくことによって、のちに遠隔会議を再生することができるようにした会議記録機能が提供されている。例えば、複数のビデオカメラを用いて会合の様子を撮影した各動画像を、時間軸上で同期をとりながら統合して記録・管理するようにしたコンテンツ処理システムが知られている（例えば、特許文献１参照）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００５−２６０５１２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来のテレビ会議システムでは、各会議端末がそれぞれ遠く離れた拠点に設置されている場合に、ネットワークの遅延によってリアルタイムに出力される会議映像にタイミングのズレが生じることがある。具体的には、遠隔会議において、一拠点のユーザが行った発言に対して、他拠点のユーザが何らかの反応（例えば、頷きや首傾げなど）を示すことがある。このとき、会議映像中にネットワークの遅延が発生していると、一拠点のユーザの発言が出力されてから大幅に遅れて他拠点のユーザの反応が出力される。この場合、遠隔会議を記録再生したとしても、同様に会議映像中にタイミングのズレが生じていることから、会議映像中のユーザの反応がどの発言に対するものなのかを判断できないおそれがあった。
【０００５】
本発明は、上記課題を解決するためになされたものであり、テレビ会議システムにて実行されるテレビ会議を、一のユーザの発言に対する他のユーザの反応が同期して再生されるように記録可能な会議記録装置、会議記録方法および会議記録プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
上記課題を解決するために、請求項１に係る発明の会議記録装置は、遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられ、前記遠隔会議を記録した会議記録データを作成する会議記録装置であって、前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換手段と、前記動画データ交換手段によって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて記憶する動画記憶手段と、前記動画データ交換手段によって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正手段と、前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成手段と、前記会議記録データ作成手段によって作成された前記会議記録データを出力する会議記録データ出力手段とを備えている。
【０００７】
請求項２に係る発明の会議記録装置は、請求項１に記載の発明の構成に加えて、前記遅延時間補正手段は、前記会議端末間における前記ネットワークの伝送時間を計測する問い合わせ信号に基づいて前記遅延時間を特定し、前記動画記憶手段において前記動画データに対応付けられている前記時間情報を、前記遅延時間に基づいて前記動画データが受信された現実のタイミングよりも遅延させることを特徴とする。
【０００８】
請求項３に係る発明の会議記録装置は、請求項１に記載の発明の構成に加えて、前記時間情報は、前記動画データが送信または受信された時刻を示すタイムスタンプであり、前記遅延時間補正手段は、前記動画記憶手段に記憶される前記動画データに対応付けられるタイムスタンプに基づいて、前記動画データの再生タイミングを調整することを特徴とする。
【０００９】
請求項４に係る発明の会議記録装置は、請求項１〜３のいずれかに記載の発明の構成に加えて、前記会議端末にて検出された前記ユーザに関する所定の反応を含む反応データを、前記ネットワークを介して前記会議端末間で送受信して交換する反応データ交換手段と、前記反応データ交換手段によって取得された前記反応データを、前記会議端末にて前記反応データの生成時に受信された前記動画データに含まれる前記時間情報と対応付けて記憶する反応記憶手段とを備え、前記会議記録データ作成手段は、前記動画記憶手段に記憶された前記動画データおよび前記反応記憶手段に記憶された前記反応データを前記時間情報に基づいて時系列に合成することによって、前記会議記録データの再生時において前記動画データと同期して前記所定の反応が表示される前記会議記録データを作成することを特徴とする。
【００１０】
請求項５に係る発明の会議記録装置は、請求項４に記載の発明の構成に加えて、前記会議端末の各々は、前記会議端末を使用して前記遠隔会議に参加する前記ユーザに装着され、前記ユーザによる肯定的な頭部の動きである頷き、および、前記ユーザによる否定的な頭部の動きである首傾げの少なくとも一方を、前記所定の反応として検出するセンサ手段と、前記センサ手段によって前記所定の反応が検出された場合、前記センサ手段によって検出された前記所定の反応を含む前記反応データを生成する反応データ生成手段とを備えている。
【００１１】
請求項６に係る発明の会議記録装置は、請求項４に記載の発明の構成に加えて、前記会議端末の各々は、前記会議端末を使用して前記遠隔会議に参加する前記ユーザを撮像する撮像手段と、前記撮像手段によって撮像された前記ユーザの画像を解析することによって、前記ユーザによる肯定的な頭部の動きである頷き、および、前記ユーザによる否定的な頭部の動きである首傾げの少なくとも一方を、前記所定の反応として検出する画像解析手段と、前記画像解析手段によって前記所定の反応が検出された場合、前記画像解析手段によって検出された前記所定の反応を含む前記反応データを生成する反応データ生成手段とを備えている。
【００１２】
請求項７に係る発明の会議記録装置は、請求項４〜６のいずれかに記載の発明の構成に加えて、前記会議端末の各々は、さらに、前記動画データ交換手段によって受信された前記動画データに含まれる音声を解析して、前記音声が所定音量よりも大きいか否かを判断する音量判断手段を備え、前記反応データ生成手段は、前記音量判断手段によって前記音声が所定音量よりも大きいと判断された場合に前記反応データを生成することを特徴とする。
【００１３】
請求項８に係る発明の会議記録装置は、請求項４〜７のいずれかに記載の発明の構成に加えて、前記会議記録データ作成手段は、前記反応記憶手段に記憶された前記反応データの時間情報に基づいて、前記動画記憶手段に記憶された前記動画データのうちで、前記所定の反応が含まれない前記動画データを前記所定の反応が含まれる前記動画データに差し替えて合成することを特徴とする。
【００１４】
請求項９に係る発明の会議記録方法は、遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられ、前記遠隔会議を記録する会議記録方法であって、前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換ステップと、前記動画データ交換ステップによって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて動画記憶手段に記憶させる動画記憶ステップと、前記動画データ交換ステップによって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正ステップと、前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成ステップと、前記会議記録データ作成ステップによって作成された前記会議記録データを出力する会議記録データ出力ステップとを備えている。
【００１５】
請求項１０に係る発明の会議記録プログラムは、遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられる会議記録プログラムであって、コンピュータを、前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換手段、前記動画データ交換手段によって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて動画記憶手段に記憶させる記憶実行手段、前記動画データ交換手段によって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正手段、前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成手段、前記会議記録データ作成手段によって作成された前記会議記録データを出力する会議記録データ出力手段として機能させることを特徴とする。
【発明の効果】
【００１６】
請求項１に係る発明の会議記録装置では、会議端末間で相互に交換される動画データが、会議記録データの再生時における動画データの再生タイミングを示す時間情報に対応付けて記憶される。動画データに対応付けられる時間情報は、ネットワーク経由で伝送されるのに要する遅延時間に基づいて調整される。動画データを時間情報に基づいて時系列に合成することによって、一の会議端末にて生成された一の動画データと、一の動画データの受信時に他の会議端末にて生成された他の動画データとが同期して再生される会議記録データが作成される。これにより、会議記録データを再生したときに、一のユーザの発言に対する他のユーザの反応を同期して出力することができる。
【００１７】
請求項２に係る発明の会議記録装置では、ネットワークの伝送時間を計測する問い合わせ信号に基づいて遅延時間が特定され、その遅延時間に基づいて動画データが受信された現実のタイミングよりも時間情報が遅延される。これにより、請求項１に記載の発明の効果に加え、問い合わせ信号によって特定されるネットワークの伝送時間に基づいて、動画データに対応付けられた時間情報を遅延させることで、一のユーザの発言に対する他のユーザの反応をネットワーク遅延に関係なく正確に同期させることができる。
【００１８】
請求項３に係る発明の会議記録装置では、動画データが送信または受信された時刻を示すタイムスタンプに基づいて、動画データの再生タイミングが調整される。これにより、請求項１に記載の発明の効果に加え、タイムスタンプに基づいて動画データが送信または受信された時刻が特定されるため、一のユーザの発言に対する他のユーザの反応をネットワーク遅延に関係なく正確に同期させることができる。
【００１９】
請求項４に係る発明の会議記録装置では、会議端末にて検出されたユーザに関する所定の反応を含む反応データに基づいて、会議記録データの再生時において動画データと同期して所定の反応が表示される会議記録データが作成される。これにより、請求項１〜３のいずれかに記載の発明の効果に加え、会議記録データの再生時において一のユーザの発言に対する他のユーザの反応を正確に判別することができる。
【００２０】
請求項５に係る発明の会議記録装置では、各会議端末において、ユーザに装着されるセンサ手段によって所定の反応として頷きおよび首傾げの少なくとも一方が検出され、所定の反応が検出された場合に反応データが生成される。これにより、請求項４に記載の発明の効果に加え、会議記録データの再生時において、ユーザの反応が肯定的および否定的のいずれであるかを表示することができる。
【００２１】
請求項６に係る発明の会議記録装置では、各会議端末において、画像解析によって所定の反応として頷きおよび首傾げの少なくとも一方が検出され、所定の反応が検出された場合に反応データが生成される。これにより、請求項４に記載の発明の効果に加え、会議記録データの再生時において、ユーザの反応が肯定的および否定的のいずれであるかを表示することができる。
【００２２】
請求項７に係る発明の会議記録装置では、各会議端末が受信した動画データに含まれる音声を解析して、その音声が所定音量よりも大きい場合に反応データが生成される。これにより、請求項４〜６のいずれかに記載の発明の効果に加え、一のユーザの発言が行われていないにも関わらず、他のユーザについて反応データが生成されるといった不具合を防止することができる。
【００２３】
請求項８に係る発明の会議記録装置では、会議記録データの作成時に反応データに基づいて、所定の反応が含まれない動画データが、所定の反応が含まれる動画データに差し替えて合成される。これにより、請求項４〜７のいずれかに記載の発明の効果に加え、会議記録データにおける一部の動画データを差し替えるだけで、一のユーザの発言に対する他のユーザの反応を正確に同期させることができる。
【００２４】
請求項９に係る発明の会議記録方法では、会議端末間で相互に交換される動画データが、会議記録データの再生時における動画データの再生タイミングを示す時間情報に対応付けて記憶される。動画データに対応付けられる時間情報は、ネットワーク経由で伝送されるのに要する遅延時間に基づいて調整される。動画データを時間情報に基づいて時系列に合成することによって、一の会議端末にて生成された一の動画データと、一の動画データの受信時に他の会議端末にて生成された他の動画データとが同期して再生される会議記録データが作成される。これにより、会議記録データを再生したときに、一のユーザの発言に対する他のユーザの反応を同期して出力することができる。
【００２５】
請求項１０に係る発明の会議記録プログラムでは、会議端末間で相互に交換される動画データが、会議記録データの再生時における動画データの再生タイミングを示す時間情報に対応付けて記憶される。動画データに対応付けられる時間情報は、ネットワーク経由で伝送されるのに要する遅延時間に基づいて調整される。動画データを時間情報に基づいて時系列に合成することによって、一の会議端末にて生成された一の動画データと、一の動画データの受信時に他の会議端末にて生成された他の動画データとが同期して再生される会議記録データが作成される。これにより、会議記録データを再生したときに、一のユーザの発言に対する他のユーザの反応を同期して出力することができる。
【図面の簡単な説明】
【００２６】
【図１】第１の実施形態に係るテレビ会議システム１の全体構成を示す図である。
【図２】端末装置３の電気的構成を示すブロック図である。
【図３】ＨＤＤ３１のメモリ構成を示す図である。
【図４】端末装置３で実行される遅延算出処理のフローチャートである。
【図５】端末装置３，４，５間におけるデータ送受を時系列に示す図である。
【図６】テレビ会議画面２８０の一具体例を示す図である。
【図７】端末装置３で実行される会議記録処理のフローチャートである。
【図８】会議再生画面２９０の一具体例を示す図である。
【図９】第２の実施形態に係るテレビ会議システム１の全体構成を示す図である。
【図１０】ＭＵＣ７の全体構成を示す図である。
【図１１】ＨＤＤ５１のメモリ構成を示す図である。
【図１２】端末装置３，４，５およびＭＵＣ７間におけるデータ送受を時系列に示す図である。
【図１３】端末装置３で実行される反応データ送信処理のフローチャートである。
【図１４】ＭＵＣ７で実行される会議記録処理のフローチャートである。
【図１５】ＭＵＣ７で実行される反応表示加工処理のフローチャートである。
【図１６】ＭＵＣ７で実行される反応表示付加処理のフローチャートである。
【図１７】会議再生画面３００の一具体例を示す図である。
【図１８】変形例に係る遅延算出処理のフローチャートである。
【図１９】変形例に係る端末装置３の電気的構成を示すブロック図である。
【図２０】変形例に係る反応データ送信処理のフローチャートである。
【発明を実施するための形態】
【００２７】
以下、本発明を具現化した実施の形態について、図面を参照して説明する。なお、参照する図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、それのみに限定する趣旨ではなく、単なる説明例である。
【００２８】
＜第１の実施形態＞
図１を参照して、第１の実施形態に係るテレビ会議システム１の全体構成について説明する。図１に示すように、第１の実施形態に係るテレビ会議システム１は、ユーザが存在する複数の拠点にそれぞれ設けられた複数の端末装置が、ネットワーク２に接続されている。なお、図１では、テレビ会議システム１に３つの端末装置３，４，５が設けられている場合を示しているが、テレビ会議システム１には複数の端末装置が設けられていればよい。
【００２９】
第１の実施形態に係るテレビ会議システム１では、各拠点に設けられた端末装置３，４，５で取得された映像および音声が、ネットワーク２を介して互いに送受信される。各端末装置３，４，５では、各拠点にて取得された映像および音声を合成した会議データが作成および出力される。これにより、各端末装置３，４，５では、各拠点に存在するユーザの映像および音声がリアルタイムに合成出力されて遠隔会議（ここでは、テレビ会議）が実施される。また、各端末装置３，４，５では、テレビ会議システム１にて実行されるテレビ会議が、テレビ会議の終了後に再生可能な会議記録データとして記録される。以下では、テレビ会議システム１にて実行されるテレビ会議が、端末装置３にて記録される場合を例示して説明する。
【００３０】
図２および図３を参照して、端末装置３の電気的構成について説明する。なお、端末装置３，４，５は全て同様の構成であるため、ここでは端末装置３の構成についてのみ説明し、他の端末装置４，５については説明を省略する。
【００３１】
端末装置３には、端末装置３の制御を司るコントローラとしてのＣＰＵ２０が設けられている。ＣＰＵ２０には、ＢＩＯＳ等を記憶したＲＯＭ２１と、各種データを一時的に記憶するＲＡＭ２２と、データの受け渡しの仲介を行うＩ／Ｏインタフェイス３０とが接続されている。Ｉ／Ｏインタフェイス３０には、各種記憶エリアを有するハードディスクドライブ３１（以下、ＨＤＤ３１）が接続されている。
【００３２】
Ｉ／Ｏインタフェイス３０には、ネットワーク２に通信接続するための通信装置２５と、マウス２７と、ビデオコントローラ２３と、キーコントローラ２４と、ユーザを撮影するためのカメラ３４と、ユーザの音声を取り込むためのマイク３５と、音声を出力するためのスピーカ３６と、ＣＤ−ＲＯＭドライブ２６とが各々接続されている。ビデオコントローラ２３には、ディスプレイ２８が接続されている。キーコントローラ２４には、キーボード２９が接続されている。
【００３３】
図３に示すように、ＨＤＤ３１には、各端末装置３，４，５で生成された動画データを記憶する動画データ記憶エリア３１ａと、後述の記録遅延時間を記憶する記録遅延時間記憶エリア３１ｂと、テレビ会議を記録した会議記録データを記憶する会議記録データ記憶エリア３１ｃと、端末装置３にて実行される各種プログラムを記憶するプログラム記憶エリア３１ｄと、その他の情報記憶エリア３１ｅとが設けられている。会議記録データ記憶エリア３１ｃに記憶される会議記録データは、動画データ記憶エリア３１ａに記憶される複数の動画データに基づいて作成されるが、詳細は後述する。
【００３４】
なお、プログラム記憶エリア３１ｄには、テレビ会議を実行するための会議実行プログラムや、テレビ会議を記録するための会議記録プログラムが記憶されている。ＣＤ−ＲＯＭドライブ２６に挿入されるＣＤ−ＲＯＭ１１４には、上記の会議実行プログラムおよび会議記録プログラムが記憶されている。端末装置３では、ＣＤ−ＲＯＭドライブ２６からＣＤ−ＲＯＭ１１４を読み込ませることで、これらのプログラムやデータをＨＤＤ３１にセットアップしてプログラム記憶エリア３１ｄに格納することができる。
【００３５】
図４〜図８を参照して、第１の実施形態に係るテレビ会議システム１における、テレビ会議の記録に関する処理について説明する。以下に説明する各種処理は、ＨＤＤ３１に記憶されている会議記録プログラムに基づいて、ＣＰＵ２０によって実行される。ここでは端末装置３にて実行される処理を説明するが、他の端末装置４，５にてテレビ会議を記録する場合も同様である。
【００３６】
図４を参照して、端末装置３にて各拠点間のネットワーク遅延を計測する遅延算出処理について説明する。なお、遅延算出処理（図４）は、テレビ会議システム１にてテレビ会議が開始される前に、任意のタイミングで実行されればよい。第１の実施形態に係る端末装置３では、遅延算出処理（図４）がテレビ会議の開始が指示されたタイミングで実行され、遅延算出処理（図４）が終了したのちに各端末装置３，４，５間でテレビ会議が開始されるものとする。
【００３７】
図４に示すように、遅延算出処理では、まず自拠点を基準として、各拠点との遅延時間が計測される（Ｓ１）。具体的には、自拠点の端末装置３と各拠点の端末装置３，４，５との間における、ネットワーク２を経由するデータの伝送時間（つまり、ネットワーク遅延）が、他拠点ごとに算出される。各拠点間のネットワーク遅延は公知の手法で計測されればよいが、例えばＰＩＮＧ（ＰａｃｋｅｔＩＮｔｅｒｎｅｔＧｒｏｐｅｒ）を用いてネットワーク遅延が算出されるものとする。
【００３８】
具体的には、図５に示すように、端末装置３から時刻ｔ１のタイミングで送信されたＰＩＮＧが、端末装置４に時刻ｔ２のタイミングで到達し、端末装置４からの応答が時刻ｔ３のタイミングで端末装置３に到達したものとする。この場合、時刻ｔ３から時刻ｔ１を減じた時間差が、拠点１を基準とした拠点２との遅延時間Δｔ１２として算出される。また、端末装置３から時刻ｔ１のタイミングで送信されたＰＩＮＧが、端末装置５に時刻ｔ４のタイミングで到達し、端末装置５からの応答が時刻ｔ５のタイミングで端末装置３に到達したものとする。この場合、時刻ｔ５から時刻ｔ１を減じた時間差が、拠点１を基準とした拠点３との遅延時間Δｔ１３として算出される。なお、拠点１は自拠点であるため、拠点１との遅延時間Δｔ１１は「０」とされる。
【００３９】
Ｓ１で算出された各拠点との遅延時間に基づいて、拠点毎の記録遅延時間が算出される（Ｓ３）。記録遅延時間は、後述する会議記録データにおける、各拠点で生成された動画データの記録位置を調整するためのデータである。Ｓ３では、Ｓ１で取得された遅延時間のうちで最長の遅延時間から拠点毎の遅延時間をそれぞれ減じることで、拠点毎の記録遅延時間が算出される。
【００４０】
具体的には、図５の例では、各拠点１〜３との遅延時間Δｔ１１，Δｔ１２，Δｔ１３のうちで最長の遅延時間は、拠点３との遅延時間Δｔ１３である。そのため、拠点２の記録遅延時間は「Δｔ１３―Δｔ１２」となる。拠点３の記録遅延時間は「Δｔ１３―Δｔ１３」、すなわち「０」となる。拠点１の記録遅延時間は「Δｔ１３―Δｔ１１」、すなわち「Δ１３」となる。Ｓ３で算出された拠点毎の記録遅延時間は、ＨＤＤ３１の記録遅延時間記憶エリア３１ｂに記憶される。
【００４１】
全拠点について記録遅延時間が算出および記憶されると、遅延算出処理（図４）が終了する。そして、各拠点間（つまり、端末装置３，４，５）で、ネットワーク２を介してテレビ会議が実行される。端末装置３では、ＨＤＤ３１に記憶されている会議実行プログラムに基づいて、ＣＰＵ２０によって公知の手法でテレビ会議が実行される。例えば、端末装置３では、カメラ３４にて撮像される規定時間単位（例えば、１秒毎）の映像と、マイク３５にて取得される規定時間単位（例えば、１秒毎）の音声とが、拠点１の動画データとして生成される。拠点１の動画データは、ネットワーク２を介して他拠点に送信される。同様に端末装置４，５でも、それぞれ拠点２，３の動画データが生成されて、ネットワーク２を介して他拠点に送信される。端末装置３では、自拠点１で生成した動画データと、他拠点２，３から受信した動画データとを合成した会議データが作成されて、その会議データがディスプレイ２８およびスピーカ３６から出力される。同様に端末装置４，５でも、それぞれ自拠点で生成した動画データと、他拠点から受信した動画データとを合成した会議データが作成および出力される。
【００４２】
例えば、テレビ会議システム１で実行されるテレビ会議では、拠点１の端末装置３にて作成された会議データに基づいて、図６に示すようなテレビ会議画面２８０がディスプレイ２８に表示される。テレビ会議画面２８０（図６）には、自拠点１のユーザの映像が表示されるユーザ表示領域２８１のほか、他拠点２，３のユーザの映像がユーザ表示領域２８２，２８３にそれぞれ表示される。また、テレビ会議画面２８０に同期して、スピーカ３６から各拠点１〜３のユーザの音声が出力される。同様に拠点２，３でも、端末装置４，５にて作成された会議データに基づいて、各拠点１〜３のユーザの映像および音声が合成出力される。
【００４３】
ただし、各端末装置３，４，５で作成される会議データは、自拠点で生成された動画データと、他拠点から受信した動画データとがリアルタイムに合成されたものである。一方、自拠点の動画データが送信された時点から起算して、自拠点の動画データが他拠点に到達し、さらにその到達時に生成された他拠点の動画データが自拠点に到達するまでには、先述したようにネットワーク２での伝送時間分を要する。そのため、実際のテレビ会議では、例えば自拠点のユーザの発言に対する他拠点のユーザの反応が、他拠点においてユーザが現実に反応を示した時点よりも遅れてテレビ会議に出力される。
【００４４】
図６に示す例では、上記のテレビ会議の実行時において、自拠点１のユーザが行った「私の意見に賛成ですか？」という発言に対して、他拠点２，３のユーザの反応がネットワーク遅延のために出力されていない。この拠点１のユーザの発言に対して、拠点２のユーザの反応が出力されるのは先述の遅延時間Δ１２が経過した時点となり、拠点３のユーザの反応が出力されるのは先述の遅延時間Δ１３が経過した時点となる。このようにテレビ会議では、各拠点のユーザの映像および音声がリアルタイムに合成出力されるものの、実際には各拠点とのネットワーク遅延によって出力タイミングにズレが生じることがある。そうすると、テレビ会議をそのまま記録して会議記録データを作成した場合に、その会議記録データを再生しても自拠点のユーザに発言に対する他拠点のユーザの反応が分かりにくいままである。第１の実施形態では、テレビ会議を記録する端末装置３にて以下の処理を実行することで、会議記録データの再生時に自拠点のユーザの発言と他拠点のユーザの反応とを同期して出力可能にしている。
【００４５】
図７を参照して、端末装置３にてテレビ会議を記録するための会議記録処理について説明する。会議記録処理（図７）は、拠点１（端末装置３）のユーザが参加するテレビ会議が開始されると、ＣＰＵ２０によって開始実行される。
【００４６】
図７に示すように、会議記録処理では、まず各拠点から動画データが取得される（Ｓ１１）。Ｓ１１では、テレビ会議の実行中に自拠点で生成された動画データや他拠点から受信した動画データが、ＲＡＭ２２に一時的に記憶される。なお、動画データには、その動画データが生成された拠点（生成元拠点）にて取得された規定時間単位の映像および音声のほか、その生成元拠点を示す識別データが含まれている。
【００４７】
ＲＡＭ２２に一時記憶された動画データは、拠点毎の記録遅延時間に応じてバッファリングされる（Ｓ１３）。Ｓ１３では、Ｓ１１で取得された動画データに示される生成元拠点を参照して、記録遅延時間記憶エリア３１ｂから生成元拠点の記録遅延時間が取得される。そして、ＲＡＭ２２に一時記憶された動画データが生成元拠点の記録遅延時間分のバッファリングが行われる。記録遅延時間分のバッファリングは、公知の遅延回路や遅延プログラムなどによって実行されればよい。
【００４８】
記録遅延時間分のバッファリングが行われたのち、ＲＡＭ２２に一時記憶された動画データがＨＤＤ３１の動画データ記憶エリア３１ａに記録される（Ｓ１５）。動画データ記憶エリア３１ａでは、バッファリングが終了した時点の現実の時刻を示す時刻データと対応付けて、動画データが記憶される。なお、動画データ記憶エリア３１ａに動画データが保存されると、ＲＡＭ２２に一時記憶された動画データは削除される。
【００４９】
そして、テレビ会議が終了されたか否かが判断される（Ｓ１７）。例えば端末装置３にてテレビ会議の終了指示がなされた場合、（Ｓ１７：ＹＥＳ）、動画データ記憶エリア３１ａに記憶されている複数の動画データを合成して、そのテレビ会議を記録した会議記録データが作成される（Ｓ１９）。一方、テレビ会議の終了指示がない場合（Ｓ１７：ＮＯ）、引き続き動画データの取得、バッファリング、記録が実行される（Ｓ１１〜Ｓ１５）。
【００５０】
Ｓ１９では、動画データ記憶エリア３１ａに記憶されている複数の動画データを、各動画データに対応付けられている時刻データに基づいて時系列に合成することによって、テレビ会議が記録された会議記録データが作成される。そのため、会議記録データの再生時には、各動画データに対応付けられている時刻データが一致する動画データが同タイミングで（つまり、同期して）出力される。Ｓ１９で作成された会議記録データが、ＨＤＤ３１の会議記録データ記憶エリア３１ｃに保存されると（Ｓ２１）、会議記録処理（図７）が終了する。
【００５１】
より具体的には、会議記録処理（図７）のＳ１３では、各拠点１〜３にて生成された動画データのうち、自拠点１から取得された動画データに「Δｔ１３」秒のバッファリングが実行される。他拠点２から取得された動画データに「Δｔ１３―Δｔ１２」秒のバッファリングが実行される。他拠点３から取得された動画データに「０」秒のバッファリングが実行される。つまり、ネットワーク遅延の少ない拠点（例えば、自拠点１）で生成された動画データほど、Ｓ１３でのバッファリング時間が長くなる。そのため、Ｓ１５ではネットワーク遅延の少ない拠点で生成された動画データほど、実際に生成されたタイミングを基準として遅延幅が大きい時刻データが対応付けられる。一方、ネットワーク遅延の大きい拠点（例えば、他拠点３）で生成された動画データほど、Ｓ１３でのバッファリング時間が短くなる。そのため、Ｓ１５ではネットワーク遅延の大きい拠点で生成された動画データほど、実際に生成されたタイミングを基準として遅延幅が小さい時刻データが対応付けられる。その結果、動画データ記憶エリア３１ａでは、ネットワーク遅延の最も大きい他拠点で生成された動画データが自拠点で受信された時刻を基準として、自拠点から送信された動画データと、その動画データが到達したときに他拠点で生成された動画データとに、同一の時刻データが付与される。
【００５２】
これにより、Ｓ１９およびＳ２１では、動画データ記憶エリア３１ａに記憶された複数の動画データを時刻データに沿って合成することで、テレビ会議において自拠点１のユーザの発言と、他拠点２，３にてその発言を受けたユーザの反応とが、それぞれ同期して出力されるような会議記録データが作成および保存される。そして、テレビ会議の終了後に任意のタイミングで、ユーザが端末装置３にて保存されている会議記録データを再生すると、例えば図８に示すような会議再生画面２９０がディスプレイ２８に表示される。
【００５３】
会議再生画面２９０（図８）は、基本的にはテレビ会議で表示されるテレビ会議画面２８０（図６）と同様であるが、テレビ会議とは異なりネットワーク遅延に起因する出力タイミングのズレが抑制されている。図８に示す例では、自拠点１のユーザが「私の意見に賛成ですか？」という発言に同期して、他拠点２のユーザが頷きという肯定的な反応を示し、他拠点３のユーザが首傾げという否定的な反応を示したことが表示されている。また、会議再生画面２９０（図８）に同期して、テレビ会議での実際の発話タイミングによって、スピーカ３６から各ユーザの音声が出力される。
【００５４】
第１の実施形態に係るテレビ会議システム１によれば、端末装置３，４，５間で相互に交換される動画データが、端末装置３にて時刻データに対応付けて記憶される。動画データに対応付けられる時刻データは、ネットワーク経由で伝送されるのに要する遅延時間に基づいて算出される記録遅延時間のバッファリングによって調整される。動画データを時刻データに基づいて時系列に合成することによって、端末装置３にて生成された動画データと、その動画データの受信時に端末装置４，５にて生成された動画データとが同期して再生される会議記録データが作成される。これにより、会議記録データを再生したときに、一のユーザの発言に対する他のユーザの反応を同期して出力することができる。
【００５５】
さらに、ネットワークの伝送時間を計測する問い合わせ信号（ＰＩＮＧ）に基づいて遅延時間が特定され、その遅延時間に基づいて算出される記録遅延時間のバッファリングによって、動画データに対応付けられる時刻データが遅延される。よって、一のユーザの発言に対する他のユーザの反応を、ネットワーク遅延に関係なく正確に同期させることができる。
【００５６】
＜第２の実施形態＞
図９を参照して、第２の実施形態に係るテレビ会議システム１の全体構成について説明する。図９に示すように、第２の実施形態に係るテレビ会議システム１は、各拠点に設けられる複数の端末装置と多拠点接続装置７とがネットワーク２に接続される。なお、図９では、テレビ会議システム１に３つの端末装置３，４，５が設けられている場合を示しているが、テレビ会議システム１には複数の端末装置が設けられていればよい。
【００５７】
多拠点接続装置７は、ネットワーク２を介して複数の拠点に備えられたユーザ端末に接続され、映像、音声、データ等を中継することにより、多拠点間のテレビ会議を実現する装置である。以下では、多拠点接続装置（ＭｕｌｔｉｐｏｉｎｔＣｏｎｔｒｏｌＵｎｉｔ）７を、ＭＣＵ７と略称する。
【００５８】
第２の実施形態に係るテレビ会議システム１では、各拠点に設けられた端末装置３，４，５で生成された動画データが、ネットワーク２を介してＭＣＵ７に送信される。ＭＣＵ７では、各拠点から受信した動画データを合成した会議データが作成されて、その会議データが端末装置３，４，５にネットワーク２を介して送信される。端末装置３，４，５では、ＭＣＵ７から受信した会議データが出力される。これにより、各端末装置３，４，５では、各拠点に存在するユーザの映像および音声がリアルタイムに合成出力されて、遠隔会議（ここでは、テレビ会議）が実施される。また、ＭＣＵ７では、テレビ会議システム１にて実行されるテレビ会議が、テレビ会議の終了後に再生可能な会議記録データとして記録される。以下では、テレビ会議システム１にて実行されるテレビ会議が、ＭＵＣ７にて記録される場合を例示して説明する。
【００５９】
端末装置３，４，５は、第１の実施形態（図３）と同様の構成をなすが、少なくともＭＣＵ７によって実行されるテレビ会議に参加するクライアントとしての機能（詳細には、ＭＣＵ７に映像や音声を送信する機能や、ＭＣＵ７から送信される会議データを出力する機能など）を有していればよい。そのため、先述の会議実行プログラム、会議記録プログラム、および、テレビ会議の記録に必要な各種記憶エリア（動画データ記憶エリア３１ａ、記録遅延時間記憶エリア３１ｂ、会議記録データ記憶エリア３１ｃ）を具備しない。ただし、プログラム記憶エリア３１ｄには、テレビ会議中のユーザの反応を検出するための反応検出プログラムが記憶されている。
【００６０】
図１０および図１１を参照して、ＭＵＣ７の電気的構成について説明する。図１０に示すように、ＭＵＣ７は、先述の端末装置３とほぼ同様の構成をなし、ＣＰＵ４０，ＲＯＭ４１，ＲＡＭ４２，Ｉ／Ｏインタフェイス５０，ＨＤＤ５１を有している。Ｉ／Ｏインタフェイス５０には、ネットワーク２と通信するための通信装置４５と、マウス４７と、キーボード４９でのキー入力を受け付けるキーコントローラ４４と、ディスプレイ４８の表示制御を行うビデオコントローラ４３とがそれぞれ接続されている。
【００６１】
図１１に示すように、ＨＤＤ５１には、各端末装置３，４，５で生成された動画データを記憶する動画データ記憶エリア５１ａと、各拠点のユーザの反応を示す反応データを記憶する反応データ記憶エリア５１ｂと、テレビ会議を記録した会議記録データを記憶する会議記録データ記憶エリア５１ｃと、ＭＵＣ７にて実行される各種プログラムを記憶するプログラム記憶エリア５１ｄと、その他の情報記憶エリア５１ｅとが設けられている。会議記録データ記憶エリア５１ｃに記憶される会議記録データは、動画データ記憶エリア５１ａに記憶される動画データと、反応データ記憶エリア５１ｂに記憶されている反応データとに基づいて作成されるが、詳細は後述する。なお、プログラム記憶エリア５１ｄには、テレビ会議を実行するための会議実行プログラムや、テレビ会議を記録するための会議記録プログラムが記憶されている。
【００６２】
ところで、第２の実施形態に係るテレビ会議システム１において、ＭＵＣ７で作成される会議データは、各拠点から受信した動画データがリアルタイムに合成されたものである。一方、ＭＵＣ７でテレビ会議を実行した場合、ＭＵＣ７が一の拠点の動画データを受信した時点から起算して、その動画データを含む会議データが別の拠点に到達し、さらにその到達時に生成された別の拠点の動画データをＭＵＣ７が受信するまでには、ネットワーク２での伝送時間分を要する。そのため、実際のテレビ会議では、例えば一の拠点のユーザの発言に対する別の拠点のユーザの反応が、その別の拠点においてユーザが現実に反応を示した時点よりも遅れてテレビ会議に出力される。
【００６３】
具体的には、図１２に示すように、端末装置３から時刻ｔ１１のタイミングで送信された動画データが、ＭＵＣ７に時刻ｔ１２のタイミングで到達する。ＭＵＣ７が時刻ｔ１２のタイミングで受信した複数の動画データを合成して会議データを作成し、各端末装置３，４，５に会議データを送信する。端末装置４に時刻ｔ１３のタイミングで会議データが到達し、端末装置４から返信された動画データが時刻ｔ１４のタイミングでＭＣＵ７に到達する。この場合、時刻ｔ１４から時刻ｔ１２を減じた時間差が、例えば拠点１でのユーザの発話に対する拠点２のユーザの反応をＭＵＣ７が取得するのに必要な遅延時間Δｔ２１となる。また、端末装置５に時刻ｔ１５のタイミングで会議データが到達し、端末装置５から返信された動画データが時刻ｔ１６のタイミングでＭＣＵ７に到達する。この場合、時刻ｔ１６から時刻ｔ１２を減じた時間差が、例えば拠点１でのユーザの発話に対する拠点３のユーザの反応をＭＵＣ７が取得するのに必要な遅延時間Δｔ２２となる。
【００６４】
図１３〜図１７を参照して、第２の実施形態に係るテレビ会議システム１における、テレビ会議の記録に関する処理について説明する。以下では、テレビ会議の記録に関する処理のうち、端末装置３で実行される処理とＭＵＣ７で実行される処理とを分けて説明する。また、ここでは端末装置３にて実行される処理を説明するが、他の端末装置４，５にて実行される処理も同様である。
【００６５】
図１３を参照して、端末装置３にて実行される反応データ送信処理について説明する。反応データ送信処理（図１３）は、ＭＵＣ７から取得された会議データの出力時におけるユーザの反応を、ＭＵＣ７に反応データとして返信するための処理である。反応データ送信処理（図１３）は、拠点１（端末装置３）のユーザが参加するテレビ会議が開始されると、先述の反応検出プログラムに基づいてＣＰＵ２０によって実行される。
【００６６】
図１３に示すように、反応データ送信処理では、まずＭＣＵ７から送信された会議データが受信される（Ｓ５１）。先述したように、テレビ会議の実行中は、各端末装置３，４，５で取得された映像および音声を含む動画データがＭＵＣ７に送信され、ＭＵＣ７ではこれらの動画データを合成した会議データが作成される。ＭＵＣ７から送信された会議データは、各端末装置３，４，５にて出力される。Ｓ５１では、ＭＵＣ７から端末装置３に送信された会議データが受信される。
【００６７】
Ｓ５１で受信された会議データから反応用タイムスタンプが抽出される（Ｓ５３）。反応用タイムスタンプは、会議データがＭＵＣ７から送信された現実の時刻を示すが、詳細は後述する。そして、端末装置３を使用するユーザの反応が検出される（Ｓ５５）。Ｓ５５では、カメラ３４にて撮影された画像を解析することで、その画像に含まれるユーザの反応が検出される。一例として、ユーザの反応として「頷き」や「首傾げ」を検出する場合には、周知の画像処理によってユーザの頭部の振れが検出される。「頷き」は、話者が話している内容に聞き手が納得したときに、聞き手の頭部が上下方向に所定量以上に振れる状態をいう。「首傾げ」は、話者が話している内容に聞き手が納得しないときに、聞き手の頭部が左右方向に所定量以上に振れる状態をいう。これらの反応は、例えば特開２００７−９７６６８号公報に記載された状態識別装置による識別方法で検出可能である。
【００６８】
Ｓ５５にてユーザの反応が検出された場合（Ｓ５７：ＹＥＳ）、そのユーザの反応に関する反応データが生成される（Ｓ５９）。反応データは、Ｓ５３で抽出された反応用タイムスタンプと、Ｓ５５で検出された反応の種類（例えば、頷きや首傾げ等）と、自拠点を示す識別データとを含む。Ｓ５９で生成された反応データは、ネットワーク２を介してＭＣＵ７に返信される（Ｓ６１）。Ｓ５５にてユーザの反応が検出されなかった場合は（Ｓ５７：ＮＯ）、Ｓ３７，Ｓ３９がスキップされるため、Ｓ５３で抽出された反応用タイムスタンプは破棄される。そして、テレビ会議が終了されたか否かが判断される（Ｓ６３）。例えばＭＵＣ７からテレビ会議の終了指示がなされた場合、（Ｓ６３：ＹＥＳ）、反応データ送信処理（図１３）が終了する。テレビ会議の終了指示がなければ（Ｓ６３：ＮＯ）、Ｓ５１に戻る。
【００６９】
図１４を参照して、ＭＵＣ７にてテレビ会議を記録する会議記録処理について説明する。ＭＣＵ７にて実行されるテレビ会議の記録に関する処理について説明する。会議記録処理（図１４）は、テレビ会議システム１にてテレビ会議が開始されると、先述の会議記録プログラムに基づいてＣＰＵ４０によって実行される。
【００７０】
図１４に示すように、ＭＵＣ７にてテレビ会議を記録する会議記録処理では、まず端末装置３，４，５のいずれかからデータを受信した場合（Ｓ１０１：ＹＥＳ）、Ｓ１０１での受信データが動画データであるか否かが判断される（Ｓ１０３）。受信データが動画データである場合（Ｓ１０３：ＹＥＳ）、その動画データが記録用タイムスタンプと関連付けて動画データ記憶エリア５１ａに記憶される（Ｓ１０５）。Ｓ１０５にて動画データに関連付けられる記録用タイムスタンプは、その動画データがＭＣＵ７にて受信された現実の時刻を示す情報である。
【００７１】
一方、ＭＵＣ７では、先述したように各端末装置３，４，５から同タイミングで受信した動画データがリアルタイムに合成されて、各端末装置３，４，５に会議データが送信される。このとき、Ｓ１０５にて記憶された動画データを含む会議データは、反応用タイムスタンプが付与されたうえで各端末装置３，４，５に送信される（Ｓ１０７）。反応用タイムスタンプは、その会議データがＭＵＣ７から送信される現実の時刻を示す情報である。なお、第２の実施形態に係るＭＵＣ７では、動画データが受信された時点と会議データが送信される時点とのタイムラグがほとんどないため、Ｓ１０７にて付与される反応用タイムスタンプはＳ１０５で関連付けられた記録用タイムスタンプと同一の時刻を示す。これにより、各端末装置３，４，５では、先述のＳ５３にてＭＵＣ７で管理される記録用タイムスタンプと同一タイミングを示す反応用タイムスタンプが取得される。
【００７２】
Ｓ１０１での受信データが動画データでない場合（Ｓ１０３：ＮＯ）、Ｓ１０１での受信データが反応データであるか否かが判断される（Ｓ１０９）。受信データが反応データである場合（Ｓ１０９：ＹＥＳ）、その反応データが記録用タイムスタンプおよび反応用タイムスタンプと関連付けて反応データ記憶エリア５１ｂに記憶される（Ｓ１１１）。Ｓ１１１にて反応データに関連付けられる記録用タイムスタンプは、その反応データがＭＣＵ７にて受信された現実の時刻を示す。また、Ｓ１１１にて反応データに関連付けられる反応用タイムスタンプは、送信元の拠点（つまり、反応拠点）にて抽出された反応用タイムスタンプ（Ｓ５３参照）である。
【００７３】
Ｓ１０７またはＳ１１１が実行されたのち、あるいは、受信データが反応データでない場合（Ｓ１０９：ＮＯ）、テレビ会議が終了されたか否かが判断される（Ｓ１１３）。例えば各端末装置３，４，５にてテレビ会議の終了指示がなされた場合、（Ｓ１１３：ＹＥＳ）、動画データ記憶エリア５１ａに記憶されている複数の動画データを合成して、そのテレビ会議を記録した会議記録データが作成される（Ｓ１１５）。Ｓ１１５で作成された会議記録データは、ＨＤＤ５１の会議記録データ記憶エリア５１ｃに保存される（Ｓ１１７）。このとき、会議記録データ記憶エリア５１ｃでは、会議記録データと関連付けて、その会議記録データの生成時に各拠点から取得された動画データがそれぞれ表示される位置（拠点別表示位置）が記憶される。テレビ会議の終了指示がなければ（Ｓ１１３：ＮＯ）、Ｓ１０１に戻る。
【００７４】
Ｓ１１５では、動画データ記憶エリア５１ａに記憶されている複数の動画データを、各動画データに対応付けられている記録用タイムスタンプに基づいて時系列に合成することによって、テレビ会議が記録された会議記録データが作成される。そのため、会議記録データの再生時には、各動画データに対応付けられている記録用タイムスタンプが一致する動画データが同タイミングで（つまり、同期して）出力される。ただし、先述したように記録用タイムスタンプは、ＭＵＣ７での受信時を基準として動画データに付与される時刻データである。そのため、ＭＵＣ７と各拠点とのネットワーク遅延によって、各動画データがテレビ会議において実際に生成された時点とは異なるタイミングで出力されることがある。
【００７５】
例えば、図６に示すようなテレビ会議を記録した会議記録データの再生時には、一の拠点１のユーザが「私の意見に賛成ですか？」という発言に対して、別の拠点２，３のユーザの反応が同タイミングでは出力されない。この拠点１のユーザの発言に対して、拠点２のユーザの反応が出力されるのは先述の遅延時間Δ２２が経過した時点となり、拠点３のユーザの反応が出力されるのは先述の遅延時間Δ２３が経過した時点となる。このように、ＭＵＣ７の受信時を基準とする記録用タイムスタンプに基づいて作成された会議記録データでは、各拠点のユーザの映像および音声が合成して出力されるものの、実際には各拠点とのネットワーク遅延によって再生タイミングにズレが生じることがある。そうすると、会議記録データを再生しても、一の拠点のユーザに発言に対する別の拠点のユーザの反応が分かりにくいままである。第２の実施形態では、ＭＵＣ７にて以下の反応表示加工処理（Ｓ１１９）を実行することで、会議記録データの再生時に一の拠点のユーザに発言とその発言に対する別の拠点のユーザの反応とを同期して出力可能にしている。
【００７６】
図１５に示すように、反応表示加工処理（Ｓ１１９）では、まず反応データ記憶エリア５１ｂに未処理の反応データが存在するか否かが判断される（Ｓ１２１）。未処理の反応データが存在する場合（Ｓ１２１：ＹＥＳ）、その反応データからタイムスタンプが抽出される（Ｓ１２３）。Ｓ１２３では、反応データ記憶エリア５１ｂにて各反応データに関連付けられている２つのタイムスタンプ（記録用タイムスタンプおよび反応用タイムスタンプ）が取得される。そして、会議記録データにユーザの反応を付加する反応表示付加処理が実行される（Ｓ１２５）。
【００７７】
図１６に示すように、反応表示付加処理（Ｓ１２５）では、まず会議記録データからユーザが反応を示した時点の動画データが切り出される（Ｓ１３１）。Ｓ１３１では、会議記録データ記憶エリア５１ｃに保存されている会議記録データから、Ｓ１２３で抽出された反応データの記録用タイムスタンプと一致する動画データが切り出される。会議記録データに合成された個々の動画データは、会議記録データ中で拠点別に規定時間単位（例えば、１秒毎）の再生時間を占める。ここでは、会議記録データに含まれる動画データのうちで、Ｓ１２３で抽出された反応データと生成元の拠点（反応拠点）が共通する動画データが、各拠点を示す識別データに基づいて共通の拠点別表示位置から切り出される。
【００７８】
次に、会議記録データに含まれる動画データのうち、会議データ送信時の動画データがＳ１３１で切り出された動画データに差し替えられる（Ｓ１３３）。Ｓ１３３では、会議記録データ記憶エリア５１ｃに保存されている会議記録データにおいて、Ｓ１２３で抽出された反応データの反応用タイムスタンプと一致する記録用タイムスタンプに対応する動画データが、Ｓ１３１で切り出された動画データに差し替えられる。これにより、一の拠点におけるユーザの発言と、その発言に対する別の拠点でのユーザの反応とが、会議記録データの再生時に同期して再生される。さらに、Ｓ１３３では、反応データに示されるユーザの反応が文字または図柄によって表示されるように、会議記録データに含まれる差し替え後の動画データが加工される。
【００７９】
最後に、会議記録データにおけるＳ１３１で動画データが切り出された部分に、その動画データが切り出される直前の停止画像が挿入される（Ｓ１３５）。すなわち、会議記録データ記憶エリア５１ｃに保存されている会議記録データのうち、Ｓ１３１で動画データが切り出された部分はデータなしの状態となるため、会議記録データの再生時にその切り出し部分は表示なしとされる。そこで、Ｓ１３５では、会議記録データの再生時にその切り出し部分の直前に表示される画像が、その切り出し部分に亘って表示される停止画像として挿入される。これにより、会議記録データからの動画データの切り出しに伴うブランクの発生を防止することができる。Ｓ１３５が実行されたのち、反応表示加工処理（図１５）に戻る。
【００８０】
図１５に戻り、反応表示付加処理（Ｓ１２５）が実行されたのち、Ｓ１２１に戻って未処理の反応データが存在するか否かが判断される。つまり、反応データ記憶エリア５１ｂに未処理の反応データが存在しなくなるまで、その未処理の反応データごとにＳ１２３，Ｓ１２５が繰り返し実行される。未処理の反応データが存在しない場合（Ｓ１２１：ＮＯ）、会議記録データ記憶エリア５１ｃに加工済みの会議記録データが保存されて（Ｓ１２７）、会議記録処理（図１４）に戻る。会議記録処理（図１４）は、反応表示加工処理（Ｓ１１９）が実行されたのちに終了する。
【００８１】
そして、テレビ会議の終了後に任意のタイミングで、各端末装置３，４，５のユーザがＭＵＣ７にて保存されている会議記録データをネットワーク２経由で取得する。具体的には、端末装置３のユーザがＭＵＣ７から取得した会議記録データを再生すると、例えば図１７に示すような会議再生画面３００がディスプレイ２８に表示される。会議再生画面３００（図１７）は、基本的にはテレビ会議で表示されるテレビ会議画面２８０（図６）と同様であるが、テレビ会議とは異なりネットワーク遅延に起因する出力タイミングのズレが抑制されている。
【００８２】
図１７に示す例では、拠点１のユーザが「私の意見に賛成ですか？」という発言に同期して、拠点２のユーザが頷きという肯定的な反応を示し、拠点３のユーザが首傾げという否定的な反応を示したことが表示されている。さらに、拠点２のユーザの反応が「傾きあり」というポップアップで表示され、拠点３のユーザの反応が「首傾げあり」というポップアップで表示される。また、会議再生画面３００（図１７）に同期して、テレビ会議での実際の発話タイミングによって、スピーカ３６から各ユーザの音声が出力される。なお、ポップアップに替えて、ユーザの反応に応じて予め登録されている映像や、ユーザの反応の強弱や履歴等を示すグラフを表示してもよい。
【００８３】
第２の実施形態に係るテレビ会議システム１によれば、端末装置３，４，５間で相互に交換される動画データが、ＭＵＣ７にて記録用タイムスタンプに対応付けて記憶される。動画データに対応付けられる記録用タイムスタンプは、会議データが送信されるタイミングに応じて付与される。動画データを記録用タイムスタンプに基づいて時系列に合成することによって、テレビ会議を記録した会議記録データが作成される。そして、会議記録データの作成時には、反応データに含まれる記録用タイムスタンプおよび反応用タイムスタンプに基づいて、ユーザの反応が含まれない動画データが、所定の反応が含まれる動画データに差し替えて合成される。これにより、会議記録データにおける一部の動画データを差し替えるだけで、一のユーザの発言に対する他のユーザの反応をネットワーク遅延に関係なく同期させることができる。
【００８４】
さらに、ＭＣＵ７では、端末装置３，４，５にて検出されたユーザの反応を示す反応データに基づいて、会議記録データの再生時において動画データと同期してユーザの反応が表示される会議記録データが作成される。これにより、会議記録データの再生時において、一のユーザの発言に対する他のユーザの反応を正確に判別することができる。さらに、ユーザの反応が肯定的（頷き等）および否定的（首傾げ等）のいずれであるかを表示することができる。
【００８５】
ところで、上記実施形態において、テレビ会議システム１が本発明の「遠隔会議システム」に相当し、端末装置３，４，５が「会議端末」に相当し、端末装置３およびＭＵＣ７が本発明の「会議記録装置」にそれぞれ相当する。Ｓ１１等を実行するＣＰＵ２０と、Ｓ１０１等を実行するＣＰＵ４０とが、本発明の「動画データ交換手段」にそれぞれ相当する。動画データ記憶エリア３１ａと動画データ記憶エリア５１ａとが、本発明の「動画記憶手段」にそれぞれ相当する。Ｓ１，Ｓ３，Ｓ１３を実行するＣＰＵ２０と、Ｓ１２５を実行するＣＰＵ４０とが、本発明の「遅延時間補正手段」にそれぞれ相当する。Ｓ１９を実行するＣＰＵ２０と、Ｓ１１５，Ｓ１２５を実行するＣＰＵ４０とが、本発明の「会議記録データ作成手段」にそれぞれ相当する。Ｓ２１を実行するＣＰＵ２０と、Ｓ１１７，Ｓ１２７を実行するＣＰＵ４０とが、本発明の「会議記録データ出力手段」にそれぞれ相当する。Ｓ１０１等を実行するＣＰＵ４０が本発明の「反応データ交換手段」に相当する。反応データ記憶エリア５１ｂが本発明の「反応記憶手段」に相当する。カメラ３４が本発明の「撮像手段」に相当する。Ｓ５５を実行するＣＰＵ２０が本発明の「画像解析手段」に相当する。Ｓ５９を実行するＣＰＵ２０が本発明の「反応データ生成手段」に相当する。
【００８６】
また、Ｓ１１等とＳ１０１等とが、本発明の「動画データ交換ステップ」にそれぞれ相当する。Ｓ１５とＳ１０５とが、本発明の「動画記憶ステップ」にそれぞれ相当する。１，Ｓ３，Ｓ１３とＳ１２５とが、本発明の「遅延時間補正ステップ」にそれぞれ相当する。Ｓ１９と、Ｓ１１５，Ｓ１２５とが、本発明の「会議記録データ作成ステップ」にそれぞれ相当する。Ｓ２１と、Ｓ１１７，Ｓ１２７とが、本発明の「会議記録データ出力ステップ」にそれぞれ相当する。なお、ＣＰＵ２０に遅延算出処理（図４）および会議記録処理（図７）を実行させる会議記録プログラムと、ＣＰＵ４０に会議記録処理（図１４）を実行させる会議記録プログラムとが、本発明の「会議記録プログラム」に相当する。
【００８７】
なお、本発明は上記実施形態に限定されるものではなく、発明の要旨を変更しない範囲での変更が可能である。以下、図１８〜図２０を参照して、本発明の変形例について説明する。
【００８８】
例えば、第１の実施形態では、先述した遅延算出処理（図４）に替えて、図１８に示す遅延算出処理を実行してもよい。図１８に示す遅延算出処理は、テレビ会議が開始されると実行され、まず先述と同様に各拠点との遅延時間が計測される（Ｓ１）。Ｓ１で計測された各拠点との遅延時間は、ＨＤＤ３１のその他の情報記憶エリア３１ｅに履歴として記憶される。そして、Ｓ１で計測された最新の遅延時間を前回に計測された遅延時間と拠点別に比較して、所定の閾値（例えば、１秒）以上変化した拠点があるか否かが判断される（Ｓ２）。なお、テレビ会議が開始された直後では、全ての拠点について遅延時間が閾値以上変化したと判断される（Ｓ２：ＹＥＳ）。そして、先述と同様に、拠点毎の記録遅延時間が算出されて、ＨＤＤ３１の記録遅延時間記憶エリア３１ｂに記憶される（Ｓ３）。その後、テレビ会議の終了指示がなされた場合は（Ｓ５：ＹＥＳ）、遅延算出処理（図１８）は終了する。
【００８９】
一方、テレビ会議の終了指示がない場合は（Ｓ５：ＮＯ）、所定時間（例えば、５分）待機されたのちにＳ１に戻る。そして、Ｓ１では各拠点との遅延時間が計測され、Ｓ２では最新の遅延時間が前回の遅延時間よりも閾値以上変化した拠点があるか否かが判断される。ここで、遅延時間が閾値以上変化した拠点がある場合は（Ｓ２：ＹＥＳ）、その拠点についてのネットワーク遅延状況が大きく変化したことを意味する。そこで、遅延時間が閾値以上変化した拠点について記録遅延時間が算出されて、記録遅延時間記憶エリア３１ｂに記憶されるその拠点の記録遅延時間が更新される（Ｓ３）。一方、遅延時間が閾値以上変化した拠点がない場合は（Ｓ２：ＮＯ）、前回の遅延時間計測時と比較してネットワーク遅延状況の変化が乏しいことから、各拠点の記録遅延時間は更新されずにＳ５に進む。
【００９０】
図１８に示す遅延算出処理によれば、テレビ会議の進行中に各拠点とのネットワーク遅延状況が大きく変化しても、それに対応して記録遅延時間が更新される。そのため、レビ会議中のネットワーク遅延状況の変化に影響を受けることなく、一のユーザの発言に対する他のユーザの反応を正確に同期させることができる。
【００９１】
また、第１の実施形態では、問い合わせ信号であるＰＩＮＧに替えて、先述のタイムスタンプを送受信して各拠点との遅延時間を計測してもよい。この場合は、遅延算出処理（図４）にて、自拠点から送信時の時刻を示すタイムスタンプを他拠点に送信し、他拠点は自拠点に対してそのタイムスタンプを返信する。自拠点では、他拠点から返信されたタイムスタンプが受信された時刻と、そのタイムスタンプが示す時刻との時間差を、その他拠点との遅延時間として算出すればよい。
【００９２】
また、第２の実施形態では、各端末装置３，４，５にて画像解析でユーザの反応を検出するのに替えて、ユーザに装着されるセンサによって反応を検出してもよい。具体的には、図１９に示す端末装置３では、公知の加速度センサ３３がセンサ制御部３２を介してＩ／Ｏインタフェイス３０に接続されている。加速度センサ３３は図示外のヘッドホンに内蔵されており、テレビ会議の実行中はユーザがそのヘッドホンを装着する。すると、反応データ送信処理（図１３）では、加速度センサ３３からの検出信号に応じてユーザの反応（頷きや首傾げ等）が検出される（Ｓ５５）。このように、ユーザの反応を検出する手法としては、各種の手法を適用することができる。
【００９３】
また、第２の実施形態では、先述した反応データ送信処理（図１３）に替えて、図２０に示す反応データ送信処理を実行してもよい。図２０に示す反応データ送信処理は、先述した反応データ送信処理（図１３）と同様であるが、ユーザに反応があった場合に（Ｓ５７：ＹＥＳ）、端末装置３で出力されている会議データに基づく音声が、所定の音量以上であるか否かが判断される（Ｓ５８）。所定の音量は、例えばテレビ会議における過去のユーザ音声の平均音量とすればよい。音声が所定の音量以上であれば（Ｓ５８：ＹＥＳ）、反応データが生成される一方（Ｓ５９）、音声が所定の音量に満たなければ（Ｓ５８：ＮＯ）、Ｓ５９，Ｓ６１がスキップされる。
【００９４】
図２０に示す反応データ送信処理によれば、各端末装置３，４，５にて会議データに基づいて出力される音声が小さいときは、テレビ会議においてユーザの発言が行われていないものとみなされる。このような状態でユーザの反応が検出された場合には、そのユーザの反応はテレビ会議における他のユーザの発言に対するものではないとされる。これにより、テレビ会議にてユーザの発言が行われていないにも関わらず、各端末装置３，４，５にて反応データが生成されるといった誤検知を防止することができる。
【符号の説明】
【００９５】
１テレビ会議システム
２ネットワーク
３端末装置
４端末装置
５端末装置
７ＭＵＣ
２０ＣＰＵ
２１ＲＯＭ
２２ＲＡＭ
３１ＨＤＤ
３１ａ動画データ記憶エリア
３１ｂ記録遅延時間記憶エリア
３１ｃ会議記録データ記憶エリア
３３加速度センサ
３４カメラ
３５マイク
３６スピーカ
４０ＣＰＵ
４１ＲＯＭ
４２ＲＡＭ
５１ＨＤＤ
５１ａ動画データ記憶エリア
５１ｂ反応データ記憶エリア
５１ｃ会議記録データ記憶エリア
２８０テレビ会議画面
２９０会議再生画面
３００会議再生画面

【特許請求の範囲】
【請求項１】
遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられ、前記遠隔会議を記録した会議記録データを作成する会議記録装置であって、
前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換手段と、
前記動画データ交換手段によって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて記憶する動画記憶手段と、
前記動画データ交換手段によって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正手段と、
前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成手段と、
前記会議記録データ作成手段によって作成された前記会議記録データを出力する会議記録データ出力手段と
を備えたことを特徴とする会議記録装置。
【請求項２】
前記遅延時間補正手段は、
前記会議端末間における前記ネットワークの伝送時間を計測する問い合わせ信号に基づいて前記遅延時間を特定し、
前記動画記憶手段において前記動画データに対応付けられている前記時間情報を、前記遅延時間に基づいて前記動画データが受信された現実のタイミングよりも遅延させることを特徴とする請求項１に記載の会議記録装置。
【請求項３】
前記時間情報は、前記動画データが送信または受信された時刻を示すタイムスタンプであり、
前記遅延時間補正手段は、前記動画記憶手段に記憶される前記動画データに対応付けられるタイムスタンプに基づいて、前記動画データの再生タイミングを調整することを特徴とする請求項１に記載の会議記録装置。
【請求項４】
前記会議端末にて検出された前記ユーザに関する所定の反応を含む反応データを、前記ネットワークを介して前記会議端末間で送受信して交換する反応データ交換手段と、
前記反応データ交換手段によって取得された前記反応データを、前記会議端末にて前記反応データの生成時に受信された前記動画データに含まれる前記時間情報と対応付けて記憶する反応記憶手段とを備え、
前記会議記録データ作成手段は、前記動画記憶手段に記憶された前記動画データおよび前記反応記憶手段に記憶された前記反応データを前記時間情報に基づいて時系列に合成することによって、前記会議記録データの再生時において前記動画データと同期して前記所定の反応が表示される前記会議記録データを作成することを特徴とする請求項１〜３のいずれかに記載の会議記録装置。
【請求項５】
前記会議端末の各々は、
前記会議端末を使用して前記遠隔会議に参加する前記ユーザに装着され、前記ユーザによる肯定的な頭部の動きである頷き、および、前記ユーザによる否定的な頭部の動きである首傾げの少なくとも一方を、前記所定の反応として検出するセンサ手段と、
前記センサ手段によって前記所定の反応が検出された場合、前記センサ手段によって検出された前記所定の反応を含む前記反応データを生成する反応データ生成手段と
を備えた特徴とする請求項４に記載の会議記録装置。
【請求項６】
前記会議端末の各々は、
前記会議端末を使用して前記遠隔会議に参加する前記ユーザを撮像する撮像手段と、
前記撮像手段によって撮像された前記ユーザの画像を解析することによって、前記ユーザによる肯定的な頭部の動きである頷き、および、前記ユーザによる否定的な頭部の動きである首傾げの少なくとも一方を、前記所定の反応として検出する画像解析手段と、
前記画像解析手段によって前記所定の反応が検出された場合、前記画像解析手段によって検出された前記所定の反応を含む前記反応データを生成する反応データ生成手段と
を備えた特徴とする請求項４に記載の会議記録装置。
【請求項７】
前記会議端末の各々は、
さらに、前記動画データ交換手段によって受信された前記動画データに含まれる音声を解析して、前記音声が所定音量よりも大きいか否かを判断する音量判断手段を備え、
前記反応データ生成手段は、前記音量判断手段によって前記音声が所定音量よりも大きいと判断された場合に前記反応データを生成することを特徴とする請求項４〜６のいずれかに記載の会議記録装置。
【請求項８】
前記会議記録データ作成手段は、前記反応記憶手段に記憶された前記反応データの時間情報に基づいて、前記動画記憶手段に記憶された前記動画データのうちで、前記所定の反応が含まれない前記動画データを前記所定の反応が含まれる前記動画データに差し替えて合成することを特徴とする請求項４〜７のいずれかに記載の会議記録装置。
【請求項９】
遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられ、前記遠隔会議を記録する会議記録方法であって、
前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換ステップと、
前記動画データ交換ステップによって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて動画記憶手段に記憶させる動画記憶ステップと、
前記動画データ交換ステップによって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正ステップと、
前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成ステップと、
前記会議記録データ作成ステップによって作成された前記会議記録データを出力する会議記録データ出力ステップと
を備えた特徴とする会議記録方法。
【請求項１０】
遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられる会議記録プログラムであって、
コンピュータを、
前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換手段、
前記動画データ交換手段によって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて動画記憶手段に記憶させる記憶実行手段、
前記動画データ交換手段によって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正手段、
前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成手段、
前記会議記録データ作成手段によって作成された前記会議記録データを出力する会議記録データ出力手段
として機能させることを特徴とする会議記録プログラム。

【図１】