説明

会議記録装置、会議記録方法および会議記録プログラム

【課題】テレビ会議システムにて実行されるテレビ会議を、一のユーザの発言に対する他のユーザの反応が同期して再生されるように記録可能な会議記録装置を提供する。
【解決手段】テレビ会議システム1では、端末装置3,4,5間で相互に交換される動画データが、端末装置3にて時刻データに対応付けて記憶される。動画データに対応付けられる時刻データは、ネットワーク2の遅延時間に基づいて算出される記録遅延時間のバッファリングによって調整される。端末装置3では、動画データを時刻データに基づいて時系列に合成することによって、端末装置3にて生成された動画データと、その動画データの受信時に端末装置4,5にて生成された動画データとが同期して再生される会議記録データが作成される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数拠点に設けられたコンピュータ間で行われる遠隔会議を記録する会議記録装置、会議記録方法および会議記録プログラムに関する。
【背景技術】
【0002】
従来、ユーザが存在する複数拠点に設けられた会議端末をネットワーク経由で接続し、これらの会議端末を用いて遠隔会議を行うテレビ会議システムが存在する。このようなテレビ会議システムにおいて、遠隔会議を記録しておくことによって、のちに遠隔会議を再生することができるようにした会議記録機能が提供されている。例えば、複数のビデオカメラを用いて会合の様子を撮影した各動画像を、時間軸上で同期をとりながら統合して記録・管理するようにしたコンテンツ処理システムが知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−260512号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来のテレビ会議システムでは、各会議端末がそれぞれ遠く離れた拠点に設置されている場合に、ネットワークの遅延によってリアルタイムに出力される会議映像にタイミングのズレが生じることがある。具体的には、遠隔会議において、一拠点のユーザが行った発言に対して、他拠点のユーザが何らかの反応(例えば、頷きや首傾げなど)を示すことがある。このとき、会議映像中にネットワークの遅延が発生していると、一拠点のユーザの発言が出力されてから大幅に遅れて他拠点のユーザの反応が出力される。この場合、遠隔会議を記録再生したとしても、同様に会議映像中にタイミングのズレが生じていることから、会議映像中のユーザの反応がどの発言に対するものなのかを判断できないおそれがあった。
【0005】
本発明は、上記課題を解決するためになされたものであり、テレビ会議システムにて実行されるテレビ会議を、一のユーザの発言に対する他のユーザの反応が同期して再生されるように記録可能な会議記録装置、会議記録方法および会議記録プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、請求項1に係る発明の会議記録装置は、遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられ、前記遠隔会議を記録した会議記録データを作成する会議記録装置であって、前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換手段と、前記動画データ交換手段によって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて記憶する動画記憶手段と、前記動画データ交換手段によって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正手段と、前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成手段と、前記会議記録データ作成手段によって作成された前記会議記録データを出力する会議記録データ出力手段とを備えている。
【0007】
請求項2に係る発明の会議記録装置は、請求項1に記載の発明の構成に加えて、前記遅延時間補正手段は、前記会議端末間における前記ネットワークの伝送時間を計測する問い合わせ信号に基づいて前記遅延時間を特定し、前記動画記憶手段において前記動画データに対応付けられている前記時間情報を、前記遅延時間に基づいて前記動画データが受信された現実のタイミングよりも遅延させることを特徴とする。
【0008】
請求項3に係る発明の会議記録装置は、請求項1に記載の発明の構成に加えて、前記時間情報は、前記動画データが送信または受信された時刻を示すタイムスタンプであり、前記遅延時間補正手段は、前記動画記憶手段に記憶される前記動画データに対応付けられるタイムスタンプに基づいて、前記動画データの再生タイミングを調整することを特徴とする。
【0009】
請求項4に係る発明の会議記録装置は、請求項1〜3のいずれかに記載の発明の構成に加えて、前記会議端末にて検出された前記ユーザに関する所定の反応を含む反応データを、前記ネットワークを介して前記会議端末間で送受信して交換する反応データ交換手段と、前記反応データ交換手段によって取得された前記反応データを、前記会議端末にて前記反応データの生成時に受信された前記動画データに含まれる前記時間情報と対応付けて記憶する反応記憶手段とを備え、前記会議記録データ作成手段は、前記動画記憶手段に記憶された前記動画データおよび前記反応記憶手段に記憶された前記反応データを前記時間情報に基づいて時系列に合成することによって、前記会議記録データの再生時において前記動画データと同期して前記所定の反応が表示される前記会議記録データを作成することを特徴とする。
【0010】
請求項5に係る発明の会議記録装置は、請求項4に記載の発明の構成に加えて、前記会議端末の各々は、前記会議端末を使用して前記遠隔会議に参加する前記ユーザに装着され、前記ユーザによる肯定的な頭部の動きである頷き、および、前記ユーザによる否定的な頭部の動きである首傾げの少なくとも一方を、前記所定の反応として検出するセンサ手段と、前記センサ手段によって前記所定の反応が検出された場合、前記センサ手段によって検出された前記所定の反応を含む前記反応データを生成する反応データ生成手段とを備えている。
【0011】
請求項6に係る発明の会議記録装置は、請求項4に記載の発明の構成に加えて、前記会議端末の各々は、前記会議端末を使用して前記遠隔会議に参加する前記ユーザを撮像する撮像手段と、前記撮像手段によって撮像された前記ユーザの画像を解析することによって、前記ユーザによる肯定的な頭部の動きである頷き、および、前記ユーザによる否定的な頭部の動きである首傾げの少なくとも一方を、前記所定の反応として検出する画像解析手段と、前記画像解析手段によって前記所定の反応が検出された場合、前記画像解析手段によって検出された前記所定の反応を含む前記反応データを生成する反応データ生成手段とを備えている。
【0012】
請求項7に係る発明の会議記録装置は、請求項4〜6のいずれかに記載の発明の構成に加えて、前記会議端末の各々は、さらに、前記動画データ交換手段によって受信された前記動画データに含まれる音声を解析して、前記音声が所定音量よりも大きいか否かを判断する音量判断手段を備え、前記反応データ生成手段は、前記音量判断手段によって前記音声が所定音量よりも大きいと判断された場合に前記反応データを生成することを特徴とする。
【0013】
請求項8に係る発明の会議記録装置は、請求項4〜7のいずれかに記載の発明の構成に加えて、前記会議記録データ作成手段は、前記反応記憶手段に記憶された前記反応データの時間情報に基づいて、前記動画記憶手段に記憶された前記動画データのうちで、前記所定の反応が含まれない前記動画データを前記所定の反応が含まれる前記動画データに差し替えて合成することを特徴とする。
【0014】
請求項9に係る発明の会議記録方法は、遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられ、前記遠隔会議を記録する会議記録方法であって、前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換ステップと、前記動画データ交換ステップによって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて動画記憶手段に記憶させる動画記憶ステップと、前記動画データ交換ステップによって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正ステップと、前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成ステップと、前記会議記録データ作成ステップによって作成された前記会議記録データを出力する会議記録データ出力ステップとを備えている。
【0015】
請求項10に係る発明の会議記録プログラムは、遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられる会議記録プログラムであって、コンピュータを、前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換手段、前記動画データ交換手段によって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて動画記憶手段に記憶させる記憶実行手段、前記動画データ交換手段によって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正手段、前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成手段、前記会議記録データ作成手段によって作成された前記会議記録データを出力する会議記録データ出力手段として機能させることを特徴とする。
【発明の効果】
【0016】
請求項1に係る発明の会議記録装置では、会議端末間で相互に交換される動画データが、会議記録データの再生時における動画データの再生タイミングを示す時間情報に対応付けて記憶される。動画データに対応付けられる時間情報は、ネットワーク経由で伝送されるのに要する遅延時間に基づいて調整される。動画データを時間情報に基づいて時系列に合成することによって、一の会議端末にて生成された一の動画データと、一の動画データの受信時に他の会議端末にて生成された他の動画データとが同期して再生される会議記録データが作成される。これにより、会議記録データを再生したときに、一のユーザの発言に対する他のユーザの反応を同期して出力することができる。
【0017】
請求項2に係る発明の会議記録装置では、ネットワークの伝送時間を計測する問い合わせ信号に基づいて遅延時間が特定され、その遅延時間に基づいて動画データが受信された現実のタイミングよりも時間情報が遅延される。これにより、請求項1に記載の発明の効果に加え、問い合わせ信号によって特定されるネットワークの伝送時間に基づいて、動画データに対応付けられた時間情報を遅延させることで、一のユーザの発言に対する他のユーザの反応をネットワーク遅延に関係なく正確に同期させることができる。
【0018】
請求項3に係る発明の会議記録装置では、動画データが送信または受信された時刻を示すタイムスタンプに基づいて、動画データの再生タイミングが調整される。これにより、請求項1に記載の発明の効果に加え、タイムスタンプに基づいて動画データが送信または受信された時刻が特定されるため、一のユーザの発言に対する他のユーザの反応をネットワーク遅延に関係なく正確に同期させることができる。
【0019】
請求項4に係る発明の会議記録装置では、会議端末にて検出されたユーザに関する所定の反応を含む反応データに基づいて、会議記録データの再生時において動画データと同期して所定の反応が表示される会議記録データが作成される。これにより、請求項1〜3のいずれかに記載の発明の効果に加え、会議記録データの再生時において一のユーザの発言に対する他のユーザの反応を正確に判別することができる。
【0020】
請求項5に係る発明の会議記録装置では、各会議端末において、ユーザに装着されるセンサ手段によって所定の反応として頷きおよび首傾げの少なくとも一方が検出され、所定の反応が検出された場合に反応データが生成される。これにより、請求項4に記載の発明の効果に加え、会議記録データの再生時において、ユーザの反応が肯定的および否定的のいずれであるかを表示することができる。
【0021】
請求項6に係る発明の会議記録装置では、各会議端末において、画像解析によって所定の反応として頷きおよび首傾げの少なくとも一方が検出され、所定の反応が検出された場合に反応データが生成される。これにより、請求項4に記載の発明の効果に加え、会議記録データの再生時において、ユーザの反応が肯定的および否定的のいずれであるかを表示することができる。
【0022】
請求項7に係る発明の会議記録装置では、各会議端末が受信した動画データに含まれる音声を解析して、その音声が所定音量よりも大きい場合に反応データが生成される。これにより、請求項4〜6のいずれかに記載の発明の効果に加え、一のユーザの発言が行われていないにも関わらず、他のユーザについて反応データが生成されるといった不具合を防止することができる。
【0023】
請求項8に係る発明の会議記録装置では、会議記録データの作成時に反応データに基づいて、所定の反応が含まれない動画データが、所定の反応が含まれる動画データに差し替えて合成される。これにより、請求項4〜7のいずれかに記載の発明の効果に加え、会議記録データにおける一部の動画データを差し替えるだけで、一のユーザの発言に対する他のユーザの反応を正確に同期させることができる。
【0024】
請求項9に係る発明の会議記録方法では、会議端末間で相互に交換される動画データが、会議記録データの再生時における動画データの再生タイミングを示す時間情報に対応付けて記憶される。動画データに対応付けられる時間情報は、ネットワーク経由で伝送されるのに要する遅延時間に基づいて調整される。動画データを時間情報に基づいて時系列に合成することによって、一の会議端末にて生成された一の動画データと、一の動画データの受信時に他の会議端末にて生成された他の動画データとが同期して再生される会議記録データが作成される。これにより、会議記録データを再生したときに、一のユーザの発言に対する他のユーザの反応を同期して出力することができる。
【0025】
請求項10に係る発明の会議記録プログラムでは、会議端末間で相互に交換される動画データが、会議記録データの再生時における動画データの再生タイミングを示す時間情報に対応付けて記憶される。動画データに対応付けられる時間情報は、ネットワーク経由で伝送されるのに要する遅延時間に基づいて調整される。動画データを時間情報に基づいて時系列に合成することによって、一の会議端末にて生成された一の動画データと、一の動画データの受信時に他の会議端末にて生成された他の動画データとが同期して再生される会議記録データが作成される。これにより、会議記録データを再生したときに、一のユーザの発言に対する他のユーザの反応を同期して出力することができる。
【図面の簡単な説明】
【0026】
【図1】第1の実施形態に係るテレビ会議システム1の全体構成を示す図である。
【図2】端末装置3の電気的構成を示すブロック図である。
【図3】HDD31のメモリ構成を示す図である。
【図4】端末装置3で実行される遅延算出処理のフローチャートである。
【図5】端末装置3,4,5間におけるデータ送受を時系列に示す図である。
【図6】テレビ会議画面280の一具体例を示す図である。
【図7】端末装置3で実行される会議記録処理のフローチャートである。
【図8】会議再生画面290の一具体例を示す図である。
【図9】第2の実施形態に係るテレビ会議システム1の全体構成を示す図である。
【図10】MUC7の全体構成を示す図である。
【図11】HDD51のメモリ構成を示す図である。
【図12】端末装置3,4,5およびMUC7間におけるデータ送受を時系列に示す図である。
【図13】端末装置3で実行される反応データ送信処理のフローチャートである。
【図14】MUC7で実行される会議記録処理のフローチャートである。
【図15】MUC7で実行される反応表示加工処理のフローチャートである。
【図16】MUC7で実行される反応表示付加処理のフローチャートである。
【図17】会議再生画面300の一具体例を示す図である。
【図18】変形例に係る遅延算出処理のフローチャートである。
【図19】変形例に係る端末装置3の電気的構成を示すブロック図である。
【図20】変形例に係る反応データ送信処理のフローチャートである。
【発明を実施するための形態】
【0027】
以下、本発明を具現化した実施の形態について、図面を参照して説明する。なお、参照する図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、それのみに限定する趣旨ではなく、単なる説明例である。
【0028】
<第1の実施形態>
図1を参照して、第1の実施形態に係るテレビ会議システム1の全体構成について説明する。図1に示すように、第1の実施形態に係るテレビ会議システム1は、ユーザが存在する複数の拠点にそれぞれ設けられた複数の端末装置が、ネットワーク2に接続されている。なお、図1では、テレビ会議システム1に3つの端末装置3,4,5が設けられている場合を示しているが、テレビ会議システム1には複数の端末装置が設けられていればよい。
【0029】
第1の実施形態に係るテレビ会議システム1では、各拠点に設けられた端末装置3,4,5で取得された映像および音声が、ネットワーク2を介して互いに送受信される。各端末装置3,4,5では、各拠点にて取得された映像および音声を合成した会議データが作成および出力される。これにより、各端末装置3,4,5では、各拠点に存在するユーザの映像および音声がリアルタイムに合成出力されて遠隔会議(ここでは、テレビ会議)が実施される。また、各端末装置3,4,5では、テレビ会議システム1にて実行されるテレビ会議が、テレビ会議の終了後に再生可能な会議記録データとして記録される。以下では、テレビ会議システム1にて実行されるテレビ会議が、端末装置3にて記録される場合を例示して説明する。
【0030】
図2および図3を参照して、端末装置3の電気的構成について説明する。なお、端末装置3,4,5は全て同様の構成であるため、ここでは端末装置3の構成についてのみ説明し、他の端末装置4,5については説明を省略する。
【0031】
端末装置3には、端末装置3の制御を司るコントローラとしてのCPU20が設けられている。CPU20には、BIOS等を記憶したROM21と、各種データを一時的に記憶するRAM22と、データの受け渡しの仲介を行うI/Oインタフェイス30とが接続されている。I/Oインタフェイス30には、各種記憶エリアを有するハードディスクドライブ31(以下、HDD31)が接続されている。
【0032】
I/Oインタフェイス30には、ネットワーク2に通信接続するための通信装置25と、マウス27と、ビデオコントローラ23と、キーコントローラ24と、ユーザを撮影するためのカメラ34と、ユーザの音声を取り込むためのマイク35と、音声を出力するためのスピーカ36と、CD−ROMドライブ26とが各々接続されている。ビデオコントローラ23には、ディスプレイ28が接続されている。キーコントローラ24には、キーボード29が接続されている。
【0033】
図3に示すように、HDD31には、各端末装置3,4,5で生成された動画データを記憶する動画データ記憶エリア31aと、後述の記録遅延時間を記憶する記録遅延時間記憶エリア31bと、テレビ会議を記録した会議記録データを記憶する会議記録データ記憶エリア31cと、端末装置3にて実行される各種プログラムを記憶するプログラム記憶エリア31dと、その他の情報記憶エリア31eとが設けられている。会議記録データ記憶エリア31cに記憶される会議記録データは、動画データ記憶エリア31aに記憶される複数の動画データに基づいて作成されるが、詳細は後述する。
【0034】
なお、プログラム記憶エリア31dには、テレビ会議を実行するための会議実行プログラムや、テレビ会議を記録するための会議記録プログラムが記憶されている。CD−ROMドライブ26に挿入されるCD−ROM114には、上記の会議実行プログラムおよび会議記録プログラムが記憶されている。端末装置3では、CD−ROMドライブ26からCD−ROM114を読み込ませることで、これらのプログラムやデータをHDD31にセットアップしてプログラム記憶エリア31dに格納することができる。
【0035】
図4〜図8を参照して、第1の実施形態に係るテレビ会議システム1における、テレビ会議の記録に関する処理について説明する。以下に説明する各種処理は、HDD31に記憶されている会議記録プログラムに基づいて、CPU20によって実行される。ここでは端末装置3にて実行される処理を説明するが、他の端末装置4,5にてテレビ会議を記録する場合も同様である。
【0036】
図4を参照して、端末装置3にて各拠点間のネットワーク遅延を計測する遅延算出処理について説明する。なお、遅延算出処理(図4)は、テレビ会議システム1にてテレビ会議が開始される前に、任意のタイミングで実行されればよい。第1の実施形態に係る端末装置3では、遅延算出処理(図4)がテレビ会議の開始が指示されたタイミングで実行され、遅延算出処理(図4)が終了したのちに各端末装置3,4,5間でテレビ会議が開始されるものとする。
【0037】
図4に示すように、遅延算出処理では、まず自拠点を基準として、各拠点との遅延時間が計測される(S1)。具体的には、自拠点の端末装置3と各拠点の端末装置3,4,5との間における、ネットワーク2を経由するデータの伝送時間(つまり、ネットワーク遅延)が、他拠点ごとに算出される。各拠点間のネットワーク遅延は公知の手法で計測されればよいが、例えばPING(Packet INternet Groper)を用いてネットワーク遅延が算出されるものとする。
【0038】
具体的には、図5に示すように、端末装置3から時刻t1のタイミングで送信されたPINGが、端末装置4に時刻t2のタイミングで到達し、端末装置4からの応答が時刻t3のタイミングで端末装置3に到達したものとする。この場合、時刻t3から時刻t1を減じた時間差が、拠点1を基準とした拠点2との遅延時間Δt12として算出される。また、端末装置3から時刻t1のタイミングで送信されたPINGが、端末装置5に時刻t4のタイミングで到達し、端末装置5からの応答が時刻t5のタイミングで端末装置3に到達したものとする。この場合、時刻t5から時刻t1を減じた時間差が、拠点1を基準とした拠点3との遅延時間Δt13として算出される。なお、拠点1は自拠点であるため、拠点1との遅延時間Δt11は「0」とされる。
【0039】
S1で算出された各拠点との遅延時間に基づいて、拠点毎の記録遅延時間が算出される(S3)。記録遅延時間は、後述する会議記録データにおける、各拠点で生成された動画データの記録位置を調整するためのデータである。S3では、S1で取得された遅延時間のうちで最長の遅延時間から拠点毎の遅延時間をそれぞれ減じることで、拠点毎の記録遅延時間が算出される。
【0040】
具体的には、図5の例では、各拠点1〜3との遅延時間Δt11,Δt12,Δt13のうちで最長の遅延時間は、拠点3との遅延時間Δt13である。そのため、拠点2の記録遅延時間は「Δt13―Δt12」となる。拠点3の記録遅延時間は「Δt13―Δt13」、すなわち「0」となる。拠点1の記録遅延時間は「Δt13―Δt11」、すなわち「Δ13」となる。S3で算出された拠点毎の記録遅延時間は、HDD31の記録遅延時間記憶エリア31bに記憶される。
【0041】
全拠点について記録遅延時間が算出および記憶されると、遅延算出処理(図4)が終了する。そして、各拠点間(つまり、端末装置3,4,5)で、ネットワーク2を介してテレビ会議が実行される。端末装置3では、HDD31に記憶されている会議実行プログラムに基づいて、CPU20によって公知の手法でテレビ会議が実行される。例えば、端末装置3では、カメラ34にて撮像される規定時間単位(例えば、1秒毎)の映像と、マイク35にて取得される規定時間単位(例えば、1秒毎)の音声とが、拠点1の動画データとして生成される。拠点1の動画データは、ネットワーク2を介して他拠点に送信される。同様に端末装置4,5でも、それぞれ拠点2,3の動画データが生成されて、ネットワーク2を介して他拠点に送信される。端末装置3では、自拠点1で生成した動画データと、他拠点2,3から受信した動画データとを合成した会議データが作成されて、その会議データがディスプレイ28およびスピーカ36から出力される。同様に端末装置4,5でも、それぞれ自拠点で生成した動画データと、他拠点から受信した動画データとを合成した会議データが作成および出力される。
【0042】
例えば、テレビ会議システム1で実行されるテレビ会議では、拠点1の端末装置3にて作成された会議データに基づいて、図6に示すようなテレビ会議画面280がディスプレイ28に表示される。テレビ会議画面280(図6)には、自拠点1のユーザの映像が表示されるユーザ表示領域281のほか、他拠点2,3のユーザの映像がユーザ表示領域282,283にそれぞれ表示される。また、テレビ会議画面280に同期して、スピーカ36から各拠点1〜3のユーザの音声が出力される。同様に拠点2,3でも、端末装置4,5にて作成された会議データに基づいて、各拠点1〜3のユーザの映像および音声が合成出力される。
【0043】
ただし、各端末装置3,4,5で作成される会議データは、自拠点で生成された動画データと、他拠点から受信した動画データとがリアルタイムに合成されたものである。一方、自拠点の動画データが送信された時点から起算して、自拠点の動画データが他拠点に到達し、さらにその到達時に生成された他拠点の動画データが自拠点に到達するまでには、先述したようにネットワーク2での伝送時間分を要する。そのため、実際のテレビ会議では、例えば自拠点のユーザの発言に対する他拠点のユーザの反応が、他拠点においてユーザが現実に反応を示した時点よりも遅れてテレビ会議に出力される。
【0044】
図6に示す例では、上記のテレビ会議の実行時において、自拠点1のユーザが行った「私の意見に賛成ですか?」という発言に対して、他拠点2,3のユーザの反応がネットワーク遅延のために出力されていない。この拠点1のユーザの発言に対して、拠点2のユーザの反応が出力されるのは先述の遅延時間Δ12が経過した時点となり、拠点3のユーザの反応が出力されるのは先述の遅延時間Δ13が経過した時点となる。このようにテレビ会議では、各拠点のユーザの映像および音声がリアルタイムに合成出力されるものの、実際には各拠点とのネットワーク遅延によって出力タイミングにズレが生じることがある。そうすると、テレビ会議をそのまま記録して会議記録データを作成した場合に、その会議記録データを再生しても自拠点のユーザに発言に対する他拠点のユーザの反応が分かりにくいままである。第1の実施形態では、テレビ会議を記録する端末装置3にて以下の処理を実行することで、会議記録データの再生時に自拠点のユーザの発言と他拠点のユーザの反応とを同期して出力可能にしている。
【0045】
図7を参照して、端末装置3にてテレビ会議を記録するための会議記録処理について説明する。会議記録処理(図7)は、拠点1(端末装置3)のユーザが参加するテレビ会議が開始されると、CPU20によって開始実行される。
【0046】
図7に示すように、会議記録処理では、まず各拠点から動画データが取得される(S11)。S11では、テレビ会議の実行中に自拠点で生成された動画データや他拠点から受信した動画データが、RAM22に一時的に記憶される。なお、動画データには、その動画データが生成された拠点(生成元拠点)にて取得された規定時間単位の映像および音声のほか、その生成元拠点を示す識別データが含まれている。
【0047】
RAM22に一時記憶された動画データは、拠点毎の記録遅延時間に応じてバッファリングされる(S13)。S13では、S11で取得された動画データに示される生成元拠点を参照して、記録遅延時間記憶エリア31bから生成元拠点の記録遅延時間が取得される。そして、RAM22に一時記憶された動画データが生成元拠点の記録遅延時間分のバッファリングが行われる。記録遅延時間分のバッファリングは、公知の遅延回路や遅延プログラムなどによって実行されればよい。
【0048】
記録遅延時間分のバッファリングが行われたのち、RAM22に一時記憶された動画データがHDD31の動画データ記憶エリア31aに記録される(S15)。動画データ記憶エリア31aでは、バッファリングが終了した時点の現実の時刻を示す時刻データと対応付けて、動画データが記憶される。なお、動画データ記憶エリア31aに動画データが保存されると、RAM22に一時記憶された動画データは削除される。
【0049】
そして、テレビ会議が終了されたか否かが判断される(S17)。例えば端末装置3にてテレビ会議の終了指示がなされた場合、(S17:YES)、動画データ記憶エリア31aに記憶されている複数の動画データを合成して、そのテレビ会議を記録した会議記録データが作成される(S19)。一方、テレビ会議の終了指示がない場合(S17:NO)、引き続き動画データの取得、バッファリング、記録が実行される(S11〜S15)。
【0050】
S19では、動画データ記憶エリア31aに記憶されている複数の動画データを、各動画データに対応付けられている時刻データに基づいて時系列に合成することによって、テレビ会議が記録された会議記録データが作成される。そのため、会議記録データの再生時には、各動画データに対応付けられている時刻データが一致する動画データが同タイミングで(つまり、同期して)出力される。S19で作成された会議記録データが、HDD31の会議記録データ記憶エリア31cに保存されると(S21)、会議記録処理(図7)が終了する。
【0051】
より具体的には、会議記録処理(図7)のS13では、各拠点1〜3にて生成された動画データのうち、自拠点1から取得された動画データに「Δt13」秒のバッファリングが実行される。他拠点2から取得された動画データに「Δt13―Δt12」秒のバッファリングが実行される。他拠点3から取得された動画データに「0」秒のバッファリングが実行される。つまり、ネットワーク遅延の少ない拠点(例えば、自拠点1)で生成された動画データほど、S13でのバッファリング時間が長くなる。そのため、S15ではネットワーク遅延の少ない拠点で生成された動画データほど、実際に生成されたタイミングを基準として遅延幅が大きい時刻データが対応付けられる。一方、ネットワーク遅延の大きい拠点(例えば、他拠点3)で生成された動画データほど、S13でのバッファリング時間が短くなる。そのため、S15ではネットワーク遅延の大きい拠点で生成された動画データほど、実際に生成されたタイミングを基準として遅延幅が小さい時刻データが対応付けられる。その結果、動画データ記憶エリア31aでは、ネットワーク遅延の最も大きい他拠点で生成された動画データが自拠点で受信された時刻を基準として、自拠点から送信された動画データと、その動画データが到達したときに他拠点で生成された動画データとに、同一の時刻データが付与される。
【0052】
これにより、S19およびS21では、動画データ記憶エリア31aに記憶された複数の動画データを時刻データに沿って合成することで、テレビ会議において自拠点1のユーザの発言と、他拠点2,3にてその発言を受けたユーザの反応とが、それぞれ同期して出力されるような会議記録データが作成および保存される。そして、テレビ会議の終了後に任意のタイミングで、ユーザが端末装置3にて保存されている会議記録データを再生すると、例えば図8に示すような会議再生画面290がディスプレイ28に表示される。
【0053】
会議再生画面290(図8)は、基本的にはテレビ会議で表示されるテレビ会議画面280(図6)と同様であるが、テレビ会議とは異なりネットワーク遅延に起因する出力タイミングのズレが抑制されている。図8に示す例では、自拠点1のユーザが「私の意見に賛成ですか?」という発言に同期して、他拠点2のユーザが頷きという肯定的な反応を示し、他拠点3のユーザが首傾げという否定的な反応を示したことが表示されている。また、会議再生画面290(図8)に同期して、テレビ会議での実際の発話タイミングによって、スピーカ36から各ユーザの音声が出力される。
【0054】
第1の実施形態に係るテレビ会議システム1によれば、端末装置3,4,5間で相互に交換される動画データが、端末装置3にて時刻データに対応付けて記憶される。動画データに対応付けられる時刻データは、ネットワーク経由で伝送されるのに要する遅延時間に基づいて算出される記録遅延時間のバッファリングによって調整される。動画データを時刻データに基づいて時系列に合成することによって、端末装置3にて生成された動画データと、その動画データの受信時に端末装置4,5にて生成された動画データとが同期して再生される会議記録データが作成される。これにより、会議記録データを再生したときに、一のユーザの発言に対する他のユーザの反応を同期して出力することができる。
【0055】
さらに、ネットワークの伝送時間を計測する問い合わせ信号(PING)に基づいて遅延時間が特定され、その遅延時間に基づいて算出される記録遅延時間のバッファリングによって、動画データに対応付けられる時刻データが遅延される。よって、一のユーザの発言に対する他のユーザの反応を、ネットワーク遅延に関係なく正確に同期させることができる。
【0056】
<第2の実施形態>
図9を参照して、第2の実施形態に係るテレビ会議システム1の全体構成について説明する。図9に示すように、第2の実施形態に係るテレビ会議システム1は、各拠点に設けられる複数の端末装置と多拠点接続装置7とがネットワーク2に接続される。なお、図9では、テレビ会議システム1に3つの端末装置3,4,5が設けられている場合を示しているが、テレビ会議システム1には複数の端末装置が設けられていればよい。
【0057】
多拠点接続装置7は、ネットワーク2を介して複数の拠点に備えられたユーザ端末に接続され、映像、音声、データ等を中継することにより、多拠点間のテレビ会議を実現する装置である。以下では、多拠点接続装置(Multipoint Control Unit)7を、MCU7と略称する。
【0058】
第2の実施形態に係るテレビ会議システム1では、各拠点に設けられた端末装置3,4,5で生成された動画データが、ネットワーク2を介してMCU7に送信される。MCU7では、各拠点から受信した動画データを合成した会議データが作成されて、その会議データが端末装置3,4,5にネットワーク2を介して送信される。端末装置3,4,5では、MCU7から受信した会議データが出力される。これにより、各端末装置3,4,5では、各拠点に存在するユーザの映像および音声がリアルタイムに合成出力されて、遠隔会議(ここでは、テレビ会議)が実施される。また、MCU7では、テレビ会議システム1にて実行されるテレビ会議が、テレビ会議の終了後に再生可能な会議記録データとして記録される。以下では、テレビ会議システム1にて実行されるテレビ会議が、MUC7にて記録される場合を例示して説明する。
【0059】
端末装置3,4,5は、第1の実施形態(図3)と同様の構成をなすが、少なくともMCU7によって実行されるテレビ会議に参加するクライアントとしての機能(詳細には、MCU7に映像や音声を送信する機能や、MCU7から送信される会議データを出力する機能など)を有していればよい。そのため、先述の会議実行プログラム、会議記録プログラム、および、テレビ会議の記録に必要な各種記憶エリア(動画データ記憶エリア31a、記録遅延時間記憶エリア31b、会議記録データ記憶エリア31c)を具備しない。ただし、プログラム記憶エリア31dには、テレビ会議中のユーザの反応を検出するための反応検出プログラムが記憶されている。
【0060】
図10および図11を参照して、MUC7の電気的構成について説明する。図10に示すように、MUC7は、先述の端末装置3とほぼ同様の構成をなし、CPU40,ROM41,RAM42 ,I/Oインタフェイス50,HDD51を有している。I/Oインタフェイス50には、ネットワーク2と通信するための通信装置45と、マウス47と、キーボード49でのキー入力を受け付けるキーコントローラ44と、ディスプレイ48の表示制御を行うビデオコントローラ43とがそれぞれ接続されている。
【0061】
図11に示すように、HDD51には、各端末装置3,4,5で生成された動画データを記憶する動画データ記憶エリア51aと、各拠点のユーザの反応を示す反応データを記憶する反応データ記憶エリア51bと、テレビ会議を記録した会議記録データを記憶する会議記録データ記憶エリア51cと、MUC7にて実行される各種プログラムを記憶するプログラム記憶エリア51dと、その他の情報記憶エリア51eとが設けられている。会議記録データ記憶エリア51cに記憶される会議記録データは、動画データ記憶エリア51aに記憶される動画データと、反応データ記憶エリア51bに記憶されている反応データとに基づいて作成されるが、詳細は後述する。なお、プログラム記憶エリア51dには、テレビ会議を実行するための会議実行プログラムや、テレビ会議を記録するための会議記録プログラムが記憶されている。
【0062】
ところで、第2の実施形態に係るテレビ会議システム1において、MUC7で作成される会議データは、各拠点から受信した動画データがリアルタイムに合成されたものである。一方、MUC7でテレビ会議を実行した場合、MUC7が一の拠点の動画データを受信した時点から起算して、その動画データを含む会議データが別の拠点に到達し、さらにその到達時に生成された別の拠点の動画データをMUC7が受信するまでには、ネットワーク2での伝送時間分を要する。そのため、実際のテレビ会議では、例えば一の拠点のユーザの発言に対する別の拠点のユーザの反応が、その別の拠点においてユーザが現実に反応を示した時点よりも遅れてテレビ会議に出力される。
【0063】
具体的には、図12に示すように、端末装置3から時刻t11のタイミングで送信された動画データが、MUC7に時刻t12のタイミングで到達する。MUC7が時刻t12のタイミングで受信した複数の動画データを合成して会議データを作成し、各端末装置3,4,5に会議データを送信する。端末装置4に時刻t13のタイミングで会議データが到達し、端末装置4から返信された動画データが時刻t14のタイミングでMCU7に到達する。この場合、時刻t14から時刻t12を減じた時間差が、例えば拠点1でのユーザの発話に対する拠点2のユーザの反応をMUC7が取得するのに必要な遅延時間Δt21となる。また、端末装置5に時刻t15のタイミングで会議データが到達し、端末装置5から返信された動画データが時刻t16のタイミングでMCU7に到達する。この場合、時刻t16から時刻t12を減じた時間差が、例えば拠点1でのユーザの発話に対する拠点3のユーザの反応をMUC7が取得するのに必要な遅延時間Δt22となる。
【0064】
図13〜図17を参照して、第2の実施形態に係るテレビ会議システム1における、テレビ会議の記録に関する処理について説明する。以下では、テレビ会議の記録に関する処理のうち、端末装置3で実行される処理とMUC7で実行される処理とを分けて説明する。また、ここでは端末装置3にて実行される処理を説明するが、他の端末装置4,5にて実行される処理も同様である。
【0065】
図13を参照して、端末装置3にて実行される反応データ送信処理について説明する。反応データ送信処理(図13)は、MUC7から取得された会議データの出力時におけるユーザの反応を、MUC7に反応データとして返信するための処理である。反応データ送信処理(図13)は、拠点1(端末装置3)のユーザが参加するテレビ会議が開始されると、先述の反応検出プログラムに基づいてCPU20によって実行される。
【0066】
図13に示すように、反応データ送信処理では、まずMCU7から送信された会議データが受信される(S51)。先述したように、テレビ会議の実行中は、各端末装置3,4,5で取得された映像および音声を含む動画データがMUC7に送信され、MUC7ではこれらの動画データを合成した会議データが作成される。MUC7から送信された会議データは、各端末装置3,4,5にて出力される。S51では、MUC7から端末装置3に送信された会議データが受信される。
【0067】
S51で受信された会議データから反応用タイムスタンプが抽出される(S53)。反応用タイムスタンプは、会議データがMUC7から送信された現実の時刻を示すが、詳細は後述する。そして、端末装置3を使用するユーザの反応が検出される(S55)。S55では、カメラ34にて撮影された画像を解析することで、その画像に含まれるユーザの反応が検出される。一例として、ユーザの反応として「頷き」や「首傾げ」を検出する場合には、周知の画像処理によってユーザの頭部の振れが検出される。「頷き」は、話者が話している内容に聞き手が納得したときに、聞き手の頭部が上下方向に所定量以上に振れる状態をいう。「首傾げ」は、話者が話している内容に聞き手が納得しないときに、聞き手の頭部が左右方向に所定量以上に振れる状態をいう。これらの反応は、例えば特開2007−97668号公報に記載された状態識別装置による識別方法で検出可能である。
【0068】
S55にてユーザの反応が検出された場合(S57:YES)、そのユーザの反応に関する反応データが生成される(S59)。反応データは、S53で抽出された反応用タイムスタンプと、S55で検出された反応の種類(例えば、頷きや首傾げ等)と、自拠点を示す識別データとを含む。S59で生成された反応データは、ネットワーク2を介してMCU7に返信される(S61)。S55にてユーザの反応が検出されなかった場合は(S57:NO)、S37,S39がスキップされるため、S53で抽出された反応用タイムスタンプは破棄される。そして、テレビ会議が終了されたか否かが判断される(S63)。例えばMUC7からテレビ会議の終了指示がなされた場合、(S63:YES)、反応データ送信処理(図13)が終了する。テレビ会議の終了指示がなければ(S63:NO)、S51に戻る。
【0069】
図14を参照して、MUC7にてテレビ会議を記録する会議記録処理について説明する。MCU7にて実行されるテレビ会議の記録に関する処理について説明する。会議記録処理(図14)は、テレビ会議システム1にてテレビ会議が開始されると、先述の会議記録プログラムに基づいてCPU40によって実行される。
【0070】
図14に示すように、MUC7にてテレビ会議を記録する会議記録処理では、まず端末装置3,4,5のいずれかからデータを受信した場合(S101:YES)、S101での受信データが動画データであるか否かが判断される(S103)。受信データが動画データである場合(S103:YES)、その動画データが記録用タイムスタンプと関連付けて動画データ記憶エリア51aに記憶される(S105)。S105にて動画データに関連付けられる記録用タイムスタンプは、その動画データがMCU7にて受信された現実の時刻を示す情報である。
【0071】
一方、MUC7では、先述したように各端末装置3,4,5から同タイミングで受信した動画データがリアルタイムに合成されて、各端末装置3,4,5に会議データが送信される。このとき、S105にて記憶された動画データを含む会議データは、反応用タイムスタンプが付与されたうえで各端末装置3,4,5に送信される(S107)。反応用タイムスタンプは、その会議データがMUC7から送信される現実の時刻を示す情報である。なお、第2の実施形態に係るMUC7では、動画データが受信された時点と会議データが送信される時点とのタイムラグがほとんどないため、S107にて付与される反応用タイムスタンプはS105で関連付けられた記録用タイムスタンプと同一の時刻を示す。これにより、各端末装置3,4,5では、先述のS53にてMUC7で管理される記録用タイムスタンプと同一タイミングを示す反応用タイムスタンプが取得される。
【0072】
S101での受信データが動画データでない場合(S103:NO)、S101での受信データが反応データであるか否かが判断される(S109)。受信データが反応データである場合(S109:YES)、その反応データが記録用タイムスタンプおよび反応用タイムスタンプと関連付けて反応データ記憶エリア51bに記憶される(S111)。S111にて反応データに関連付けられる記録用タイムスタンプは、その反応データがMCU7にて受信された現実の時刻を示す。また、S111にて反応データに関連付けられる反応用タイムスタンプは、送信元の拠点(つまり、反応拠点)にて抽出された反応用タイムスタンプ(S53参照)である。
【0073】
S107またはS111が実行されたのち、あるいは、受信データが反応データでない場合(S109:NO)、テレビ会議が終了されたか否かが判断される(S113)。例えば各端末装置3,4,5にてテレビ会議の終了指示がなされた場合、(S113:YES)、動画データ記憶エリア51aに記憶されている複数の動画データを合成して、そのテレビ会議を記録した会議記録データが作成される(S115)。S115で作成された会議記録データは、HDD51の会議記録データ記憶エリア51cに保存される(S117)。このとき、会議記録データ記憶エリア51cでは、会議記録データと関連付けて、その会議記録データの生成時に各拠点から取得された動画データがそれぞれ表示される位置(拠点別表示位置)が記憶される。テレビ会議の終了指示がなければ(S113:NO)、S101に戻る。
【0074】
S115では、動画データ記憶エリア51aに記憶されている複数の動画データを、各動画データに対応付けられている記録用タイムスタンプに基づいて時系列に合成することによって、テレビ会議が記録された会議記録データが作成される。そのため、会議記録データの再生時には、各動画データに対応付けられている記録用タイムスタンプが一致する動画データが同タイミングで(つまり、同期して)出力される。ただし、先述したように記録用タイムスタンプは、MUC7での受信時を基準として動画データに付与される時刻データである。そのため、MUC7と各拠点とのネットワーク遅延によって、各動画データがテレビ会議において実際に生成された時点とは異なるタイミングで出力されることがある。
【0075】
例えば、図6に示すようなテレビ会議を記録した会議記録データの再生時には、一の拠点1のユーザが「私の意見に賛成ですか?」という発言に対して、別の拠点2,3のユーザの反応が同タイミングでは出力されない。この拠点1のユーザの発言に対して、拠点2のユーザの反応が出力されるのは先述の遅延時間Δ22が経過した時点となり、拠点3のユーザの反応が出力されるのは先述の遅延時間Δ23が経過した時点となる。このように、MUC7の受信時を基準とする記録用タイムスタンプに基づいて作成された会議記録データでは、各拠点のユーザの映像および音声が合成して出力されるものの、実際には各拠点とのネットワーク遅延によって再生タイミングにズレが生じることがある。そうすると、会議記録データを再生しても、一の拠点のユーザに発言に対する別の拠点のユーザの反応が分かりにくいままである。第2の実施形態では、MUC7にて以下の反応表示加工処理(S119)を実行することで、会議記録データの再生時に一の拠点のユーザに発言とその発言に対する別の拠点のユーザの反応とを同期して出力可能にしている。
【0076】
図15に示すように、反応表示加工処理(S119)では、まず反応データ記憶エリア51bに未処理の反応データが存在するか否かが判断される(S121)。未処理の反応データが存在する場合(S121:YES)、その反応データからタイムスタンプが抽出される(S123)。S123では、反応データ記憶エリア51bにて各反応データに関連付けられている2つのタイムスタンプ(記録用タイムスタンプおよび反応用タイムスタンプ)が取得される。そして、会議記録データにユーザの反応を付加する反応表示付加処理が実行される(S125)。
【0077】
図16に示すように、反応表示付加処理(S125)では、まず会議記録データからユーザが反応を示した時点の動画データが切り出される(S131)。S131では、会議記録データ記憶エリア51cに保存されている会議記録データから、S123で抽出された反応データの記録用タイムスタンプと一致する動画データが切り出される。会議記録データに合成された個々の動画データは、会議記録データ中で拠点別に規定時間単位(例えば、1秒毎)の再生時間を占める。ここでは、会議記録データに含まれる動画データのうちで、S123で抽出された反応データと生成元の拠点(反応拠点)が共通する動画データが、各拠点を示す識別データに基づいて共通の拠点別表示位置から切り出される。
【0078】
次に、会議記録データに含まれる動画データのうち、会議データ送信時の動画データがS131で切り出された動画データに差し替えられる(S133)。S133では、会議記録データ記憶エリア51cに保存されている会議記録データにおいて、S123で抽出された反応データの反応用タイムスタンプと一致する記録用タイムスタンプに対応する動画データが、S131で切り出された動画データに差し替えられる。これにより、一の拠点におけるユーザの発言と、その発言に対する別の拠点でのユーザの反応とが、会議記録データの再生時に同期して再生される。さらに、S133では、反応データに示されるユーザの反応が文字または図柄によって表示されるように、会議記録データに含まれる差し替え後の動画データが加工される。
【0079】
最後に、会議記録データにおけるS131で動画データが切り出された部分に、その動画データが切り出される直前の停止画像が挿入される(S135)。すなわち、会議記録データ記憶エリア51cに保存されている会議記録データのうち、S131で動画データが切り出された部分はデータなしの状態となるため、会議記録データの再生時にその切り出し部分は表示なしとされる。そこで、S135では、会議記録データの再生時にその切り出し部分の直前に表示される画像が、その切り出し部分に亘って表示される停止画像として挿入される。これにより、会議記録データからの動画データの切り出しに伴うブランクの発生を防止することができる。S135が実行されたのち、反応表示加工処理(図15)に戻る。
【0080】
図15に戻り、反応表示付加処理(S125)が実行されたのち、S121に戻って未処理の反応データが存在するか否かが判断される。つまり、反応データ記憶エリア51bに未処理の反応データが存在しなくなるまで、その未処理の反応データごとにS123,S125が繰り返し実行される。未処理の反応データが存在しない場合(S121:NO)、会議記録データ記憶エリア51cに加工済みの会議記録データが保存されて(S127)、会議記録処理(図14)に戻る。会議記録処理(図14)は、反応表示加工処理(S119)が実行されたのちに終了する。
【0081】
そして、テレビ会議の終了後に任意のタイミングで、各端末装置3,4,5のユーザがMUC7にて保存されている会議記録データをネットワーク2経由で取得する。具体的には、端末装置3のユーザがMUC7から取得した会議記録データを再生すると、例えば図17に示すような会議再生画面300がディスプレイ28に表示される。会議再生画面300(図17)は、基本的にはテレビ会議で表示されるテレビ会議画面280(図6)と同様であるが、テレビ会議とは異なりネットワーク遅延に起因する出力タイミングのズレが抑制されている。
【0082】
図17に示す例では、拠点1のユーザが「私の意見に賛成ですか?」という発言に同期して、拠点2のユーザが頷きという肯定的な反応を示し、拠点3のユーザが首傾げという否定的な反応を示したことが表示されている。さらに、拠点2のユーザの反応が「傾きあり」というポップアップで表示され、拠点3のユーザの反応が「首傾げあり」というポップアップで表示される。また、会議再生画面300(図17)に同期して、テレビ会議での実際の発話タイミングによって、スピーカ36から各ユーザの音声が出力される。なお、ポップアップに替えて、ユーザの反応に応じて予め登録されている映像や、ユーザの反応の強弱や履歴等を示すグラフを表示してもよい。
【0083】
第2の実施形態に係るテレビ会議システム1によれば、端末装置3,4,5間で相互に交換される動画データが、MUC7にて記録用タイムスタンプに対応付けて記憶される。動画データに対応付けられる記録用タイムスタンプは、会議データが送信されるタイミングに応じて付与される。動画データを記録用タイムスタンプに基づいて時系列に合成することによって、テレビ会議を記録した会議記録データが作成される。そして、会議記録データの作成時には、反応データに含まれる記録用タイムスタンプおよび反応用タイムスタンプに基づいて、ユーザの反応が含まれない動画データが、所定の反応が含まれる動画データに差し替えて合成される。これにより、会議記録データにおける一部の動画データを差し替えるだけで、一のユーザの発言に対する他のユーザの反応をネットワーク遅延に関係なく同期させることができる。
【0084】
さらに、MCU7では、端末装置3,4,5にて検出されたユーザの反応を示す反応データに基づいて、会議記録データの再生時において動画データと同期してユーザの反応が表示される会議記録データが作成される。これにより、会議記録データの再生時において、一のユーザの発言に対する他のユーザの反応を正確に判別することができる。さらに、ユーザの反応が肯定的(頷き等)および否定的(首傾げ等)のいずれであるかを表示することができる。
【0085】
ところで、上記実施形態において、テレビ会議システム1が本発明の「遠隔会議システム」に相当し、端末装置3,4,5が「会議端末」に相当し、端末装置3およびMUC7が本発明の「会議記録装置」にそれぞれ相当する。S11等を実行するCPU20と、S101等を実行するCPU40とが、本発明の「動画データ交換手段」にそれぞれ相当する。動画データ記憶エリア31aと動画データ記憶エリア51aとが、本発明の「動画記憶手段」にそれぞれ相当する。S1,S3,S13を実行するCPU20と、S125を実行するCPU40とが、本発明の「遅延時間補正手段」にそれぞれ相当する。S19を実行するCPU20と、S115,S125を実行するCPU40とが、本発明の「会議記録データ作成手段」にそれぞれ相当する。S21を実行するCPU20と、S117,S127を実行するCPU40とが、本発明の「会議記録データ出力手段」にそれぞれ相当する。S101等を実行するCPU40が本発明の「反応データ交換手段」に相当する。反応データ記憶エリア51bが本発明の「反応記憶手段」に相当する。カメラ34が本発明の「撮像手段」に相当する。S55を実行するCPU20が本発明の「画像解析手段」に相当する。S59を実行するCPU20が本発明の「反応データ生成手段」に相当する。
【0086】
また、S11等とS101等とが、本発明の「動画データ交換ステップ」にそれぞれ相当する。S15とS105とが、本発明の「動画記憶ステップ」にそれぞれ相当する。1,S3,S13とS125とが、本発明の「遅延時間補正ステップ」にそれぞれ相当する。S19と、S115,S125とが、本発明の「会議記録データ作成ステップ」にそれぞれ相当する。S21と、S117,S127とが、本発明の「会議記録データ出力ステップ」にそれぞれ相当する。なお、CPU20に遅延算出処理(図4)および会議記録処理(図7)を実行させる会議記録プログラムと、CPU40に会議記録処理(図14)を実行させる会議記録プログラムとが、本発明の「会議記録プログラム」に相当する。
【0087】
なお、本発明は上記実施形態に限定されるものではなく、発明の要旨を変更しない範囲での変更が可能である。以下、図18〜図20を参照して、本発明の変形例について説明する。
【0088】
例えば、第1の実施形態では、先述した遅延算出処理(図4)に替えて、図18に示す遅延算出処理を実行してもよい。図18に示す遅延算出処理は、テレビ会議が開始されると実行され、まず先述と同様に各拠点との遅延時間が計測される(S1)。S1で計測された各拠点との遅延時間は、HDD31のその他の情報記憶エリア31eに履歴として記憶される。そして、S1で計測された最新の遅延時間を前回に計測された遅延時間と拠点別に比較して、所定の閾値(例えば、1秒)以上変化した拠点があるか否かが判断される(S2)。なお、テレビ会議が開始された直後では、全ての拠点について遅延時間が閾値以上変化したと判断される(S2:YES)。そして、先述と同様に、拠点毎の記録遅延時間が算出されて、HDD31の記録遅延時間記憶エリア31bに記憶される(S3)。その後、テレビ会議の終了指示がなされた場合は(S5:YES)、遅延算出処理(図18)は終了する。
【0089】
一方、テレビ会議の終了指示がない場合は(S5:NO)、所定時間(例えば、5分)待機されたのちにS1に戻る。そして、S1では各拠点との遅延時間が計測され、S2では最新の遅延時間が前回の遅延時間よりも閾値以上変化した拠点があるか否かが判断される。ここで、遅延時間が閾値以上変化した拠点がある場合は(S2:YES)、その拠点についてのネットワーク遅延状況が大きく変化したことを意味する。そこで、遅延時間が閾値以上変化した拠点について記録遅延時間が算出されて、記録遅延時間記憶エリア31bに記憶されるその拠点の記録遅延時間が更新される(S3)。一方、遅延時間が閾値以上変化した拠点がない場合は(S2:NO)、前回の遅延時間計測時と比較してネットワーク遅延状況の変化が乏しいことから、各拠点の記録遅延時間は更新されずにS5に進む。
【0090】
図18に示す遅延算出処理によれば、テレビ会議の進行中に各拠点とのネットワーク遅延状況が大きく変化しても、それに対応して記録遅延時間が更新される。そのため、レビ会議中のネットワーク遅延状況の変化に影響を受けることなく、一のユーザの発言に対する他のユーザの反応を正確に同期させることができる。
【0091】
また、第1の実施形態では、問い合わせ信号であるPINGに替えて、先述のタイムスタンプを送受信して各拠点との遅延時間を計測してもよい。この場合は、遅延算出処理(図4)にて、自拠点から送信時の時刻を示すタイムスタンプを他拠点に送信し、他拠点は自拠点に対してそのタイムスタンプを返信する。自拠点では、他拠点から返信されたタイムスタンプが受信された時刻と、そのタイムスタンプが示す時刻との時間差を、その他拠点との遅延時間として算出すればよい。
【0092】
また、第2の実施形態では、各端末装置3,4,5にて画像解析でユーザの反応を検出するのに替えて、ユーザに装着されるセンサによって反応を検出してもよい。具体的には、図19に示す端末装置3では、公知の加速度センサ33がセンサ制御部32を介してI/Oインタフェイス30に接続されている。加速度センサ33は図示外のヘッドホンに内蔵されており、テレビ会議の実行中はユーザがそのヘッドホンを装着する。すると、反応データ送信処理(図13)では、加速度センサ33からの検出信号に応じてユーザの反応(頷きや首傾げ等)が検出される(S55)。このように、ユーザの反応を検出する手法としては、各種の手法を適用することができる。
【0093】
また、第2の実施形態では、先述した反応データ送信処理(図13)に替えて、図20に示す反応データ送信処理を実行してもよい。図20に示す反応データ送信処理は、先述した反応データ送信処理(図13)と同様であるが、ユーザに反応があった場合に(S57:YES)、端末装置3で出力されている会議データに基づく音声が、所定の音量以上であるか否かが判断される(S58)。所定の音量は、例えばテレビ会議における過去のユーザ音声の平均音量とすればよい。音声が所定の音量以上であれば(S58:YES)、反応データが生成される一方(S59)、音声が所定の音量に満たなければ(S58:NO)、S59,S61がスキップされる。
【0094】
図20に示す反応データ送信処理によれば、各端末装置3,4,5にて会議データに基づいて出力される音声が小さいときは、テレビ会議においてユーザの発言が行われていないものとみなされる。このような状態でユーザの反応が検出された場合には、そのユーザの反応はテレビ会議における他のユーザの発言に対するものではないとされる。これにより、テレビ会議にてユーザの発言が行われていないにも関わらず、各端末装置3,4,5にて反応データが生成されるといった誤検知を防止することができる。
【符号の説明】
【0095】
1 テレビ会議システム
2 ネットワーク
3 端末装置
4 端末装置
5 端末装置
7 MUC
20 CPU
21 ROM
22 RAM
31 HDD
31a 動画データ記憶エリア
31b 記録遅延時間記憶エリア
31c 会議記録データ記憶エリア
33 加速度センサ
34 カメラ
35 マイク
36 スピーカ
40 CPU
41 ROM
42 RAM
51 HDD
51a 動画データ記憶エリア
51b 反応データ記憶エリア
51c 会議記録データ記憶エリア
280 テレビ会議画面
290 会議再生画面
300 会議再生画面

【特許請求の範囲】
【請求項1】
遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられ、前記遠隔会議を記録した会議記録データを作成する会議記録装置であって、
前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換手段と、
前記動画データ交換手段によって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて記憶する動画記憶手段と、
前記動画データ交換手段によって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正手段と、
前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成手段と、
前記会議記録データ作成手段によって作成された前記会議記録データを出力する会議記録データ出力手段と
を備えたことを特徴とする会議記録装置。
【請求項2】
前記遅延時間補正手段は、
前記会議端末間における前記ネットワークの伝送時間を計測する問い合わせ信号に基づいて前記遅延時間を特定し、
前記動画記憶手段において前記動画データに対応付けられている前記時間情報を、前記遅延時間に基づいて前記動画データが受信された現実のタイミングよりも遅延させることを特徴とする請求項1に記載の会議記録装置。
【請求項3】
前記時間情報は、前記動画データが送信または受信された時刻を示すタイムスタンプであり、
前記遅延時間補正手段は、前記動画記憶手段に記憶される前記動画データに対応付けられるタイムスタンプに基づいて、前記動画データの再生タイミングを調整することを特徴とする請求項1に記載の会議記録装置。
【請求項4】
前記会議端末にて検出された前記ユーザに関する所定の反応を含む反応データを、前記ネットワークを介して前記会議端末間で送受信して交換する反応データ交換手段と、
前記反応データ交換手段によって取得された前記反応データを、前記会議端末にて前記反応データの生成時に受信された前記動画データに含まれる前記時間情報と対応付けて記憶する反応記憶手段とを備え、
前記会議記録データ作成手段は、前記動画記憶手段に記憶された前記動画データおよび前記反応記憶手段に記憶された前記反応データを前記時間情報に基づいて時系列に合成することによって、前記会議記録データの再生時において前記動画データと同期して前記所定の反応が表示される前記会議記録データを作成することを特徴とする請求項1〜3のいずれかに記載の会議記録装置。
【請求項5】
前記会議端末の各々は、
前記会議端末を使用して前記遠隔会議に参加する前記ユーザに装着され、前記ユーザによる肯定的な頭部の動きである頷き、および、前記ユーザによる否定的な頭部の動きである首傾げの少なくとも一方を、前記所定の反応として検出するセンサ手段と、
前記センサ手段によって前記所定の反応が検出された場合、前記センサ手段によって検出された前記所定の反応を含む前記反応データを生成する反応データ生成手段と
を備えた特徴とする請求項4に記載の会議記録装置。
【請求項6】
前記会議端末の各々は、
前記会議端末を使用して前記遠隔会議に参加する前記ユーザを撮像する撮像手段と、
前記撮像手段によって撮像された前記ユーザの画像を解析することによって、前記ユーザによる肯定的な頭部の動きである頷き、および、前記ユーザによる否定的な頭部の動きである首傾げの少なくとも一方を、前記所定の反応として検出する画像解析手段と、
前記画像解析手段によって前記所定の反応が検出された場合、前記画像解析手段によって検出された前記所定の反応を含む前記反応データを生成する反応データ生成手段と
を備えた特徴とする請求項4に記載の会議記録装置。
【請求項7】
前記会議端末の各々は、
さらに、前記動画データ交換手段によって受信された前記動画データに含まれる音声を解析して、前記音声が所定音量よりも大きいか否かを判断する音量判断手段を備え、
前記反応データ生成手段は、前記音量判断手段によって前記音声が所定音量よりも大きいと判断された場合に前記反応データを生成することを特徴とする請求項4〜6のいずれかに記載の会議記録装置。
【請求項8】
前記会議記録データ作成手段は、前記反応記憶手段に記憶された前記反応データの時間情報に基づいて、前記動画記憶手段に記憶された前記動画データのうちで、前記所定の反応が含まれない前記動画データを前記所定の反応が含まれる前記動画データに差し替えて合成することを特徴とする請求項4〜7のいずれかに記載の会議記録装置。
【請求項9】
遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられ、前記遠隔会議を記録する会議記録方法であって、
前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換ステップと、
前記動画データ交換ステップによって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて動画記憶手段に記憶させる動画記憶ステップと、
前記動画データ交換ステップによって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正ステップと、
前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成ステップと、
前記会議記録データ作成ステップによって作成された前記会議記録データを出力する会議記録データ出力ステップと
を備えた特徴とする会議記録方法。
【請求項10】
遠隔会議に参加するユーザの画像および音声を取得して、前記ユーザの画像および音声を含む動画データを生成する会議端末が、前記ユーザが存在する複数拠点にそれぞれ設置され、前記会議端末の各々において、ネットワークを介して前記動画データが相互に交換されるとともに、前記動画データに基づいて合成された画像および音声が出力される遠隔会議システムに用いられる会議記録プログラムであって、
コンピュータを、
前記会議端末間で相互に前記動画データを送受信して交換する動画データ交換手段、
前記動画データ交換手段によって取得された前記動画データを、前記会議記録データの再生時における前記動画データの再生タイミングを示す時間情報に対応付けて動画記憶手段に記憶させる記憶実行手段、
前記動画データ交換手段によって取得された前記動画データが前記会議端末間を前記ネットワーク経由で伝送されるのに要する遅延時間に基づいて、前記動画記憶手段に記憶されている動画データと時間情報との対応を補正することによって、前記動画データの再生タイミングを調整する遅延時間補正手段、
前記動画記憶手段に記憶された前記動画データを前記時間情報に基づいて時系列に合成することによって、一の前記会議端末にて生成された一の前記動画データと、前記一の動画データの受信時に他の前記会議端末にて生成された他の前記動画データとが同期して再生される前記会議記録データを作成する会議記録データ作成手段、
前記会議記録データ作成手段によって作成された前記会議記録データを出力する会議記録データ出力手段
として機能させることを特徴とする会議記録プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate


【公開番号】特開2010−219733(P2010−219733A)
【公開日】平成22年9月30日(2010.9.30)
【国際特許分類】
【出願番号】特願2009−62557(P2009−62557)
【出願日】平成21年3月16日(2009.3.16)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】