テレビ会議装置

【課題】発言者の特定を簡単に行い、画面上の発言者を強調表示できるテレビ会議装置を提供すること。
【解決手段】各部屋の参加者が他方の部屋の参加者の位置を表示部の表示を確認しながら操作部を操作して、各参加者に対してパーソナルエリアを設定しておくことにより、ＣＰＵは、音声入力部から出力された音声データから計算した音源の方向とパーソナルエリアの座標情報とを比較することによって、どのパーソナルエリアの参加者が話者であるかを簡易に特定することができる。そして、ＣＰＵは、表示部に表示されている映像のうち、特定した参加者に対応するパーソナルエリアの部分を強調表示させることによって、会議相手の参加者のうち誰が話者であるかを確認することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像データを送受信する技術に関する。
【背景技術】
【０００２】
ネットワーク経由で映像データや音声データの通信を行うことにより、遠隔地において会議を行うことができるテレビ会議システムがある。遠隔地にいながら音声だけでなく映像も確認しながら会議を行うことができる一方、複数人の参加者と会議を行う場合に、参加者から発言があっても、画面に表示されている参加者のうち誰が発言しているのか、わからないことがあった。このような状況を改善して発言者を特定する目的で、特許文献１には、音の発生方向を検出して、その方向に人間がいるかどうか画像認識を行うことにより判断し、人間がいる場合には、その人間が発言者であるとして、画面上の発言者の近くにマーカを表示させる技術を用いたテレビ会議システムが開示されている。
【特許文献１】特開２００３−１８９２７３号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかし、特許文献１のように、画像認識において人間がいるかどうかを判断する処理は、その会議システムの制御部であるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの負担が非常に大きく、高性能なＣＰＵを用いなくてはならず、高価なテレビ会議システムとなっていた。
【０００４】
本発明は、上述の事情に鑑みてなされたものであり、発言者の特定を簡単に行い、画面上の発言者を強調表示できるテレビ会議装置を提供することを目的とする。
【課題を解決するための手段】
【０００５】
上述の課題を解決するため、本発明は、撮影範囲の映像を示す映像データと、前記撮影範囲の一部分の範囲であるパーソナルエリアを示す情報とを通信網を介して他の端末装置から受信する受信手段と、前記受信手段が前記パーソナルエリアを示す情報を受信した場合には、前記映像データを再生して得られる映像の前記パーソナルエリアに対応する部分が、予め設定された態様になるように前記映像データを加工する映像データ加工手段とを具備することを特徴とするテレビ会議装置を提供する。
【０００６】
また本発明は、他のテレビ会議装置と通信網を介して送受信を行うテレビ会議装置であって、撮影範囲の映像を映像データとして生成する撮影手段と、前記撮影範囲の一部分の範囲をパーソナルエリアとして複数設定するエリア設定手段と、音源からの音を収音して音声データを生成する収音手段と、前記収音手段によって生成された音声データに基づいて、前記音源の方向を特定する音源方向特定手段と、複数設定されたパーソナルエリアから、前記特定された音源の方向に対応する位置を含むパーソナルエリアを選定する選定手段と、前記選定手段によって選定されたパーソナルエリアを示す情報と前記映像データとを前記他のテレビ会議装置へ送信する送信手段と、前記他のテレビ会議装置から前記パーソナルエリアを示す情報と前記映像データとを受信する受信手段と、前記受信手段が前記パーソナルエリアを示す情報を受信した場合には、前記映像データを再生して得られる映像の前記パーソナルエリアに対応する部分が、予め設定された態様になるように前記映像データを加工する映像データ加工手段とを具備することを特徴とするテレビ会議装置を提供する。
【０００７】
また、別の好ましい態様において、前記送信手段は、前記音源方向特定手段が前記音源の方向の特定を開始したことを示す開始情報と特定が終了したことを示す終了情報を前記選定手段によって選定されたパーソナルエリアを示す情報と組にして送信し、前記映像データ加工手段は、前記開始情報を受信してから前記終了情報を受信するまでの間、前記パーソナルエリアに対応する部分が予め設定された態様になるように前記映像データを加工してもよい。
【０００８】
また本発明は、撮影範囲の映像を映像データとして生成する撮影手段と、前記撮影範囲の一部分の範囲をパーソナルエリアとして複数設定するエリア設定手段と、音源からの音を収音して音声データを生成する収音手段と、前記収音手段によって生成された音声データに基づいて、前記音源の方向を特定する音源方向特定手段と、複数設定されたパーソナルエリアから、前記特定された音源の方向に対応する位置を含むパーソナルエリアを選定する選定手段と、前記映像データを再生して得られる映像の前記選定手段が選定したパーソナルエリアに対応する部分が、予め設定された態様になるように前記映像データを加工する映像データ加工手段とを具備することを特徴とするテレビ会議装置を提供する。
【０００９】
また、別の好ましい態様において、前記選定手段は、複数のパーソナルエリアを選定し、前記映像データ加工手段は、前記複数のパーソナルエリアに対応する部分が予め設定された態様になるように前記映像データを加工してもよい。
【００１０】
また、別の好ましい態様において、前記収音手段は、複数のマイクロフォンを有し、前記音源方向特定手段は、前記複数のマイクロフォンが音源からの音を収音することによって生成された各音声データに基づいて、前記音源の方向を特定してもよい。
【発明の効果】
【００１１】
本発明によれば、発言者の特定を簡単に行い、画面上の発言者を強調表示できるテレビ会議装置を提供することができる。
【発明を実施するための最良の形態】
【００１２】
以下、本発明の一実施形態について説明する。
【００１３】
＜実施形態＞
図１は、本発明の本実施形態に係るテレビ会議装置を含むテレビ会議システム１の構成を示すブロック図である。テレビ会議システム１は、テレビ会議装置１００ａとテレビ会議装置１００ｂと通信網１０とを有し、テレビ会議装置１００ａおよびテレビ会議装置１００ｂは、通信網１０に有線接続または無線接続されている。テレビ会議装置１００ａおよびテレビ会議装置１００ｂは同じ構成であって、以下、テレビ会議装置１００ａおよびテレビ会議装置１００ｂを区別する必要が無いときには、両者をテレビ会議装置１００という。なお、ここでは２台のテレビ会議装置１００が通信網１０に接続されているが、３台以上のテレビ会議装置１００が接続されていてもよい。
【００１４】
次に、テレビ会議装置１００の構成について説明する。図２は、テレビ会議装置１００の構成を示すブロック図である。なお、以下の説明において、テレビ会議装置１００の構成がテレビ会議装置１００ａまたはテレビ会議装置１００ｂのいずれかに属するものであるかを区別する必要があるときには、テレビ会議装置１００ａのＣＰＵ１０１をＣＰＵ１０１ａのようにアルファベットを付して記載する。
【００１５】
ＣＰＵ１０１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２に記憶されているプログラムを読み出して、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３にロードして実行することにより、テレビ会議装置１００の各部について、バス１１０を介して制御する。ＲＡＭ１０３は、さらに音声入力部１０４から出力された音声データ、映像入力部１０５から出力された映像データ、通信網１０を介して受信した音声データ、映像データなどを記憶する。また、ＣＰＵ１０１が記憶された各データの加工などを行う際のワークエリアとして機能する。
【００１６】
音声入力部１０４は、マイクアレイとＡ／Ｄコンバータを有する。Ａ／Ｄコンバータは、マイクアレイから入力されたアナログ信号の音声信号をアナログデジタル変換してデジタル信号の音声データを生成する。マイクアレイは、水平方向に並んだ複数のマイクロフォンを有している。ＣＰＵ１０１は、ある音源からの放音を複数のマイクロフォンで収音してそれぞれ生成された音声データを解析し、各マイクロフォンへの音の到達時間のずれを計算して、音源の位置についてテレビ会議装置１００から見た場合の水平方向の角度として特定することができる。
【００１７】
例えば、図３に示すように、特定の音源Ｓからの放音を４台のマイクロフォン１０４１、１０４２、１０４３、１０４４によって収音した場合、音源Ｓから各マイクロフォン１０４１、１０４２、１０４３、１０４４までの距離の違いから、音の到達時間がずれることになる。例えば、音源Ｓからマイクロフォン１０４１までの距離はマイクロフォン１０４４までの距離よりｄだけ長いので、マイクロフォン１０４１は、音源Ｓから放出された音をマイクロフォン１０４４よりｄ／ｖ（ｖ：音速）だけ遅く収音する。すなわち、ＣＰＵ１０１は、音声出力部１０８から出力された音声データを解析し、この時間のずれを計算することにより、音源Ｓから各マイクロフォン１０４１、１０４２、１０４３、１０４４までの距離の違いをそれぞれ算出できることになり、音源Ｓの位置について水平方向の角度θを特定することができる。ここで、θは、水平方向に並んだ複数のマイクロフォンと垂直な方向Ｍ（本実施形態においては、テレビ会議装置１００の正面方向）を０度として規定されている。なお、音源Ｓの方向だけでなく、距離についても算出することは可能であるが、本実施形態においては、方向のみ特定するものとする。また、複数の音源から放音されていても、それぞれの音源の方向を特定することが可能であるが、本実施形態においては、最も音量の大きい方向を音源の方向として特定する。
【００１８】
映像入力部１０５は、ＣＣＤやＣＭＯＳなどのイメージセンサを有し、イメージセンサによって所定の画像サイズ（ピクセル数）および単位時間あたりのフレーム数で撮影し、映像データを生成する。本実施形態においては、映像入力部１０５のイメージセンサと音声入力部１０４のマイクロフォンは、テレビ会議装置１００に固定されている。このように固定することにより、イメージセンサの撮影範囲に存在する音源とＣＰＵ１０１が特定する音源の方向との位置関係が保たれることになる。例えば、図４に示すように、水平方向の角度θはイメージセンサの撮影範囲の中心方向Ｍを０度し、図中の右側については正の値、左側は負の値とする。ここで、図４は、イメージセンサの撮影範囲について、水平に並んだ複数のマイクロフォンを含む面によって切ったときの断面図であり、図中の右側は以下に示す表示部１０７に映像を表示したときには、画面の右側に表示される。
【００１９】
操作部１０６は、例えばキーボードやマウスなどであり、テレビ会議装置１００の操作者が操作部１０６を操作すると、その操作内容を表すデータがＣＰＵ１０１へ出力される。
【００２０】
表示部１０７は、映像を画面に表示する液晶ディスプレイなどの表示デバイスであって、入力された映像データに基づいて表示を行う。
【００２１】
音声出力部１０８は、入力された音声データを放音するものであって、スピーカとＤ／Ａコンバータを有している。Ｄ／Ａコンバータは、入力されたデジタル信号の音声データをデジタルアナログ変換してアナログ信号の音声信号を生成しスピーカへ出力する。スピーカは、入力された音声信号を放音する。
【００２２】
通信ＩＦ（インタフェイス）１０９は、例えば、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）であり、通信網１０に接続されている。この通信ＩＦ１０９は、送信すべき音声データ及び映像データなどの各種データを通信網１０へ送信する。また、通信ＩＦ１０９は、通信網１０から音声データ及び映像データなどの各種データを受信しＣＰＵ１０１に出力する。
【００２３】
次に、テレビ会議システム１を用いて遠隔会議を行う際に、テレビ会議装置１００のＣＰＵ１０１が、ＲＯＭ１０２に記憶されているプログラムを実行することにより実現する動作について説明する。
【００２４】
図５は、テレビ会議装置１００ａの映像入力部１０５ａの撮影対象を示している図であり、この撮影範囲の映像データがテレビ会議装置１００ｂに送信されることにより、テレビ会議装置１００ｂの表示部１０７ｂに表示される映像となる。図６は、テレビ会議装置１００ｂの映像入力部１０５ｂの撮影対象を示している図であり、この撮影範囲の映像データがテレビ会議装置１００ａに送信されることにより、テレビ会議装置１００ａの表示部１０７ａに表示される映像となる。
ここで、本実施形態においては、部屋ａと部屋ｂとの間において遠隔会議が行われ、部屋ａにはテレビ会議装置１００ａが設置され、５名の参加者２０１、２０２、・・・、２０５が会議に参加しており、部屋ｂにはテレビ会議装置１００ｂが設置され、３名の参加者３０１、３０２、３０３が会議に参加しているものとする。そして、それぞれのテレビ会議装置１００は、映像入力部１０５のイメージセンサによって机２００、３００付近に座っている参加者を撮影するように設置されている。
【００２５】
まず、遠隔会議の開始前にパーソナルエリアの設定が行われる。ここで、パーソナルエリアの設定について図５、図６を用いて説明する。まず、各テレビ会議装置１００は、撮影して生成した映像データをもう一方のテレビ会議装置１００に送信する。部屋ａの参加者は、表示部１０７ａの映像を確認しながら操作部１０６ａを操作して、部屋ｂにいる参加者の位置を指定する。この位置の指定は、図６の破線で示したように、表示部１０７ａに表示されている参加者３０１、３０２、３０３を四角で囲むようにして行われる。ＣＰＵ１０１ａは、このそれぞれの四角の範囲をそれぞれのパーソナルエリアとして認識する。この際、ＣＰＵ１０１ａは、パーソナルエリアを四角の左上と右下の点の座標（ピクセル単位）によって認識する。これは、画面の位置をピクセル数で表した際に、画面の左上を（０，０）として、その点から右にｘピクセル、下にｙピクセル移動した点が（ｘ，ｙ）とした場合に、左上の座標（ｘＬ，ｙＬ）と右下の座標（ｘＲ，ｙＲ）として、１つのパーソナルエリアが認識される。以下、画面の右方向をｘ方向とし、その座標をｘ座標、下方向をｙ方向とし、その座標をｙ座標という。
【００２６】
そして、テレビ会議装置１００ａのＣＰＵ１０１ａは、テレビ会議装置１００ｂに対して認識した３つのパーソナルエリアに関する情報を送信して、テレビ会議装置１００ｂの映像入力部１０５ｂの撮影範囲におけるパーソナルエリアの位置をＣＰＵ１０１ｂに認識させる。部屋ｂについても、部屋ａと同様にテレビ会議装置１００ｂの操作が行われ、テレビ会議装置１００ａの映像入力部１０５ａの撮影範囲におけるパーソナルエリアの位置をＣＰＵ１０１ａに認識させる。以下、参加者２０１に対応するパーソナルエリアはＰＳＡ２０１、参加者２０２に対応するパーソナルエリアはＰＳＡ２０２として表記し、他の参加者に対応するパーソナルエリアも同様にして表記し、ＰＳＡ２０１の左上の座標は（ｘＬ２０１，ｙＬ２０１）とし、右下の座標は（ｘＲ２０１，ｙＬ２０１）という。また、各参加者で区別する必要が無い場合は、単にパーソナルエリアといい、左上の座標は（ｘＬ，ｙＬ）、右下の座標は（ｘＲ，ｙＲ）というものとする。
【００２７】
ここで、表示部１０７に表示される画面には、撮影範囲全体が表示され、左上の座標は（０，０）、右下の座標は（ｘｍａｘ，ｙｍａｘ）となる。ここで、ｘｍａｘは撮影範囲全体のｘ方向のピクセル数から１引いた数字、ｙｍａｘは撮影範囲全体のｙ方向のピクセル数から１引いた数字となり、撮影範囲のピクセル数が６４０×４８０である場合には、ｘｍａｘ＝６３９、ｙｍａｘ＝４７９となる。これにより、各テレビ会議装置１００の各ＣＰＵ１０１は、各テレビ会議装置１００が設置された部屋についての各パーソナルエリアを座標として認識することになる。
【００２８】
パーソナルエリアの設定が終了すると、映像データと音声データの通信が開始される。以下、本発明の特徴である発言している参加者（以下、話者という）を強調表示する方法について、テレビ会議装置１００ａがテレビ会議装置１００ｂに送信を行うとき、すなわちテレビ会議装置１００ｂの表示部１０７ｂに表示されている参加者のうち、話者に対応する参加者を強調表示する場合を例として説明する。なお、テレビ会議装置１００ｂからテレビ会議装置１００ａに送信を行うときについては、以下の説明と同様に行われるため説明を省略する。
【００２９】
まず、テレビ会議装置１００ａのＣＰＵ１０１ａは、通信ＩＦ１０９ａを介して、テレビ会議装置１００ｂに対して映像データの送信が開始される。そして、部屋ａの参加者のうち、話をしている参加者（以下、話者という）に対応するパーソナルエリアを選定する。この選定は、上述したように、音声入力部１０４ａのマイクアレイが話者の声を収音して、その音声データをＣＰＵ１０１ａが解析して、話者の方向（水平方向の角度θ）を特定し、パーソナルエリアの座標と対応させて、話者に対応するパーソナルエリアを選定する。
【００３０】
ここで、水平方向の角度θとパーソナルエリアの座標との対応は、以下のように行われる。水平方向の角度θは、水平方向のみを示しているため、角度θを水平方向の座標であるｘ座標に変換することができる。この変換について図７を用いて説明する。図７は、ｙ方向から見た撮影範囲を示したものである。αは映像入力部１０５のイメージセンサの受光面であり、焦点Ｆは撮影範囲の端部と受光面αの端部をそれぞれ結んだときの交点を示している。受光面αの左端の点Ｏはｘ座標の原点であり、右端の点のｘ座標はｘｍａｘである。マイクアレイを用いて特定した話者の水平方向の角度θは、本実施形態に置いては、焦点Ｆから受光面αへの垂線ＦＭからの角度とほぼ同じになっている。ここで、焦点Ｆから話者の方向への直線は、受光面α上の点Ｐと交わり、その座標ｘｓはｘｍ＋ｆａ×ｔａｎθとして計算できる。ｘｍは受光面の中心Ｍの座標（ｘｍ＝ｘｍａｘ／２）であり、ｆａは中心Ｍと焦点Ｆの距離である。ＣＰＵ１０１ａは、このようにして得られた座標ｘｓと各パーソナルエリアの座標ｘＬ、ｘＲとを比較し、ｘｓがｘＬとｘＲの間になるパーソナルエリアを選定する。例えば、ｘｓがｘＬ２０４以上ｘＲ２０４以下であれば、ＰＳＡ２０４が選定されることになる。
【００３１】
ＣＰＵ１０１ａは、話者に対応するパーソナルエリアを選定すると、当該パーソナルエリアの左上の座標（ｘＬ，ｙＬ）と右下の座標（ｘＲ，ｙＲ）を示す座標情報を通信ＩＦ１０９ａに出力し、テレビ会議装置１００ｂへ送信させる。そして、ＣＰＵ１０１ａは、話者が変わったことを検出すると、変わったことにより選定したパーソナルエリアの座標情報を再び通信ＩＦ１０９ａに出力し、テレビ会議装置１００ｂへ送信させる。
【００３２】
そして、いずれかの部屋の参加者がテレビ会議装置１００の操作部１０６を操作して、通信を終了させる指示を出すまで以上の処理を続けることになる。
【００３３】
以上、映像データの送信方法について説明したが、テレビ会議装置１００ａから送信された映像データとパーソナルエリアの座標情報をテレビ会議装置１００ｂが受信して、表示部１０７ｂに表示中の話者の強調表示について説明する。
【００３４】
まず、通信が開始されると、テレビ会議装置１００ｂは、オールエリアの映像データを受信し、ＣＰＵ１０１ｂは、その映像を表示部１０７ｂに表示させる。その後、ＣＰＵ１０１ｂは、パーソナルエリアの座標情報を受信すると、表示されている映像のうち、そのパーソナルエリアの外周を太線で囲うように強調表示させる。例えば、ＰＳＡ２０２に対応する座標情報を受信した場合には、図８に示すように表示される。そして、ＣＰＵ１０１ｂは、別のパーソナルエリアの座標情報を受信したときに、太線で囲う場所を新たに受信したパーソナルエリアの外周に移動させて表示させる。このようにして、パーソナルエリアの座標情報を受信するたびに強調表示される場所が移動することによって、部屋ａの参加者のうち誰が話者であるかについて、部屋ｂの参加者が確認することができる。
【００３５】
以上、テレビ会議装置１００ａからテレビ会議装置１００ｂへ、映像データを送信した場合について説明したが、これらの処理は、テレビ会議装置１００ｂからテレビ会議装置１００ａに対しても行われ、テレビ会議装置１００ａとテレビ会議装置１００ｂとの間において双方向で行われることになる。そして、音声入力部１０４において収音されて生成された音声データについても、映像データと並行して双方向に通信が行われる。
【００３６】
このようにして、各部屋の参加者が他方の部屋の参加者の位置を表示部１０７の表示を確認しながら操作部１０６を操作して、各参加者に対してパーソナルエリアを設定しておくことにより、ＣＰＵ１０１は、音声入力部１０４から出力された音声データから計算した音源の方向とパーソナルエリアの座標情報とを比較することによって、どのパーソナルエリアの参加者が話者であるかを簡単に特定することができる。そして、ＣＰＵ１０１は、表示部１０７に表示されている映像のうち、特定した参加者に対応するパーソナルエリアの部分を強調表示させることによって、会議相手の参加者のうち誰が話者であるかを確認することができる。
【００３７】
以上、本発明の実施形態について説明したが、本発明は以下のように、さまざまな態様で実施可能である。
【００３８】
＜変形例１＞
実施形態においては、音声入力部１０４が、複数の話者からの放音を収音した場合には、ＣＰＵ１０１ａは、最大の音量の方向を話者の方向として計算したが、それぞれの話者の方向を計算してもよい。この場合は、ＣＰＵ１０１ａは、パーソナルエリアの選定を複数行うことになるが、当該複数のパーソナルエリアの座標情報を出力し、通信ＩＦ１０９ａに送信させればよい。そして、ＣＰＵ１０１ｂは、複数のパーソナルエリアの座標情報を受信した後に、表示部１０７ｂに表示されている映像のうち、複数のパーソナルエリアの外周を太線で囲うように強調表示させればよい。このようにすると、複数の話者がいてもそれぞれの話者に対応するパーソナルエリアを強調表示することができる。
【００３９】
＜変形例２＞
実施形態においては、参加者が設定したパーソナルエリアについては、ｘ座標の範囲が重複しないように設定されていたが、重複するように設定してもよい。例えば、図９に示すように、ＰＳＡ２０２とＰＳＡ２０３において重複する場合、すなわちｘＲ２０２よりｘＬ２０３が小さくなる場合には、重複部分の中心のｘ座標（ｘＲ２０２＋ｘＬ２０３）／２として、ＣＰＵ１０１ａは、ＰＳＡ２０２とＰＳＡ２０３の境界を認識すればよい。なお、中心部分で分けずに、この重複部分に話者がいると計算された場合は、ＣＰＵ１０１ａは、両方のパーソナルエリアを選定し、変形例１のような複数のパーソナルエリアが選定されたものとして処理してもよい。
【００４０】
なお、ＰＳＡ２０２とＰＳＡ２０３に関する座標情報をＣＰＵ１０１ｂが受信したときには、ＣＰＵ１０１ｂは、図中の２点鎖線で示すようなエリアを強調表示させてもよい。このようなエリアは、複数のパーソナルエリアを含み、かつ最小の大きさになる四角の範囲になるように決定すればよい。すなわち、左上の座標は、複数のパーソナルエリアの左上の座標のうち最小のｘＬ（ｘＬｍｉｎ）と最小のｙＬ（ｙＬｍｉｎ）によって決まり、右下の座標は、同パーソナルエリアの右下の座標のうち最大のｘＲ（ｘＲｍａｘ）とｙＲ（ｙＲｍａｘ）によって決まることにより、左上の座標は（ｘＬｍｉｎ，ｙＬｍｉｎ）、右下の座標は（ｘＲｍａｘ，ｙＲｍａｘ）となる。そのため図９の場合には、左上の座標は（ｘＬ２０２，ｙＬ２０３）、右下の座標は（ｘＲ２０３，ｙＲ２０２）となり、ＣＰＵ１０１ｂは、このエリアの外周を強調表示させればよい。このようにすれば、参加者が多い場合に、パーソナルエリアの設定が困難であっても、実施形態と同様な効果を得ることができる。
【００４１】
＜変形例３＞
実施形態においては、音声入力部１０４にはマイクアレイを用い、これを利用して話者の方向をＣＰＵ１０１が計算していたが、マイクアレイの代わりにそれぞれ参加者の前にマイクロフォンを用意し、これらのマイクロフォンの収音によって生成された音声データの音量からＣＰＵ１０１が話者を特定するようにしてもよい。この場合は、各マイクロフォンとパーソナルエリアの対応を参加者が操作部１０６を操作して、ＣＰＵ１０１に認識させればよい。このようにすると、より正確な話者の位置を特定することができる。
【００４２】
＜変形例４＞
実施形態においては、部屋ａの参加者に係るパーソナルエリアの設定は、部屋ｂの参加者によって行われたが、部屋ａの参加者が自ら設定するようにしてもよい。この場合は、パーソナルエリア設定時においてテレビ会議装置１００ａの映像入力部１０５ａが撮影した映像データをテレビ会議装置１００ａの表示部１０７ａに表示させることによって、部屋ａの参加者は自らの映像を確認しながら設定することができる。ここで、設定を行いやすくするために映像を左右反転して、表示部１０７ａに表示された映像が鏡を見ているような感覚になるようにすれば、参加者は設定を簡易に行うことができる。
【００４３】
＜変形例５＞
実施形態においては、映像入力部１０５のイメージセンサと音声入力部１０４のマイクアレイはテレビ会議装置１００に固定されていたが、別々に移動可能にしてもよい。この場合は、イメージセンサの撮影範囲とマイクアレイの方向の対応について、参加者が操作部１０６を操作して、ＣＰＵ１０１に認識させればよい。このようにすると、テレビ会議装置１００の設置が様々な態様で行うことができる。
【００４４】
＜変形例６＞
実施形態においては、ＣＰＵ１０１ａが話者の方向を計算して、対応するパーソナルエリアの選定し、選定するパーソナルエリアが変わったら、新たに選定したパーソナルエリアの座標情報をテレビ会議装置１００ｂに送信するようにしているため、テレビ会議装置１００ｂの表示部１０７ｂには、一度強調表示がされると、発言が無くなっても直前に発言していた参加者に対応するパーソナルエリアが強調表示される。そこで、選定したパーソナルエリアの座標情報を送信する際に、発言が開始されたことを示す開始情報を送信するようにし、発言が終了したときにはパーソナルエリアの座標情報とともに発言が終了したことを示す終了情報を送信するようにして、テレビ会議装置１００ｂのＣＰＵ１０１ｂが開始情報を受信したときには、対応するパーソナルエリアの外周を強調表示するようにし、終了情報を受信したときには、当該強調表示を消すようにしてもよい。このようにすると、一時的に話者がいなくなった状態においては、強調表示がなくなるようにすることができる。なお、話者が発言を少し止めただけで強調表示がなくならないように、発言が所定の時間以上止まっている場合にのみ終了情報を送信するようにしてもよい。
【００４５】
なお、発言が行なわれている間は、各テレビ会議装置１００は、パーソナルエリアの座標情報の送信を所定の時間ごとに送信するようにし、発言が終了した場合には送信を停止するようにしてもよい。この場合は、各テレビ会議装置１００がパーソナルエリアの座標情報を受信している間は強調表示を行い、所定の時間以上、パーソナルエリアの座標情報を受信しなかった場合には、強調表示を停止するようにすればよい。このようにしても、同様の効果を得ることができる。
【００４６】
＜変形例７＞
実施形態においては、強調表示については、話者に対応するパーソナルエリアの外周部分を太線で囲うようにして強調表示を行っていたが、以下のように様々な態様によって強調表示が可能である。様々な態様の例としては、話者に対応するパーソナルエリア以外の部分をモノクロ表示、暗転表示、薄く表示、網掛け表示する、また、話者に対応するパーソナルエリアを矢印で指すような表示がある。また、図１０に示すように、話者に対応するパーソナルエリア（図中においてはＰＳＡ２０４）を拡大表示するようにしてもよい。この際の表示は、もとの映像に対して、拡大表示されたパーソナルエリアが上書きされるようにして行われる。以上の表示をさせるための処理は、プログラムに予め設定された態様に基づいてＣＰＵ１０１ｂによって行われる。また、プログラムにこれらの態様全てを予め設定しておき、参加者が操作部１０６を操作することによって、強調表示の態様を選択して設定するようにしてもよい。
【００４７】
＜変形例８＞
実施形態においては、ＣＰＵ１０１は、パーソナルエリアの座標情報を受信することにより、強調表示する部分を認識していたが、座標ではなく、各エリアを番号によって認識するようにしてもよい。この場合には、各テレビ会議装置１００において、パーソナルエリアの座標の情報を送受信する際に、各パーソナルエリアに対応させてエリア番号を付加して送受信するようにすればよい。このようにすると、対応関係を簡易に送受信することができ、ネットワークの負荷を低減することができる。
【００４８】
＜変形例９＞
実施形態においては、パーソナルエリアの座標情報を受信することにより、当該パーソナルエリアに対応する部分を強調表示していたが、パーソナルエリアの座標情報を送信する代わりに、強調表示させた映像データを送信するようにしてもよい。この場合は、ＣＰＵ１０１はパーソナルエリアの選定を行なった後、当該パーソナルエリアに対応する部分を強調した映像データを生成し、その映像データを他のテレビ会議装置１００に送信するようにすればよい。そして、変形例４のようにパーソナルエリアの設定を行なえばよい。このようにすると、映像データを送信するだけで、他のテレビ会議装置１００の表示部１０７に強調表示された映像を再生することができる。また、会議に参加しないが会議の状況を確認したい場合には、映像データを受信して再生することにより表示できる一般的な表示装置を用いることができる。
【００４９】
＜変形例１０＞
実施形態においては、テレビ会議装置１００は、映像データとＣＰＵ１０１が選定したパーソナルエリアの座標情報を送信するまでの機能を有する送信機能部と、これらを受信して映像データを加工することで表示する受信機能部を具備していたが、受信機能部だけを具備したテレビ会議装置としてもよい。この場合、テレビ会議装置は、送信機能部を具備する通信端末から映像データとパーソナルエリアの座標情報を受信して、当該パーソナルエリアに対応する部分を強調した映像データを生成すればよい。このように別個の装置としても、本発明の効果を得ることができる。
【図面の簡単な説明】
【００５０】
【図１】テレビ会議システムの構成を示すブロック図である。
【図２】実施形態に係るテレビ会議装置の構成を示すブロック図である。
【図３】マイクアレイと音源の距離と方向の計算に関する説明図である。
【図４】イメージセンサの撮影範囲と音源の方向の関係を示す説明図である。
【図５】部屋ｂにおける画面表示を示す説明図である。
【図６】部屋ａにおける画面表示を示す説明図である。
【図７】話者の方向をｘ座標で表す際の計算に関する説明図である。
【図８】部屋ｂにおいての表示において、強調表示されている状態を示す説明図である。
【図９】変形例２に係るパーソナルエリアとアクティブエリアに関する説明図である。
【図１０】変形例７に係る強調表示の一例を示す説明図である。
【符号の説明】
【００５１】
１…テレビ会議システム、１０…通信網、１００…テレビ会議装置、１０１…ＣＰＵ、１０２…ＲＯＭ、１０３…ＲＡＭ、１０４…音声入力部、１０４１、・・・１０４４…マイクロフォン、１０５…映像入力部、１０６…操作部、１０７…表示部、１０８…音声出力部、１０９…通信ＩＦ、１１０…バス、２０１、・・・２０５、３０１、３０２、３０３…参加者、２００、３００…机

【特許請求の範囲】
【請求項１】
撮影範囲の映像を示す映像データと、前記撮影範囲の一部分の範囲であるパーソナルエリアを示す情報とを通信網を介して他の端末装置から受信する受信手段と、
前記受信手段が前記パーソナルエリアを示す情報を受信した場合には、前記映像データを再生して得られる映像の前記パーソナルエリアに対応する部分が、予め設定された態様になるように前記映像データを加工する映像データ加工手段と
を具備することを特徴とするテレビ会議装置。
【請求項２】
他のテレビ会議装置と通信網を介して送受信を行うテレビ会議装置であって、
撮影範囲の映像を映像データとして生成する撮影手段と、
前記撮影範囲の一部分の範囲をパーソナルエリアとして複数設定するエリア設定手段と、
音源からの音を収音して音声データを生成する収音手段と、
前記収音手段によって生成された音声データに基づいて、前記音源の方向を特定する音源方向特定手段と、
複数設定されたパーソナルエリアから、前記特定された音源の方向に対応する位置を含むパーソナルエリアを選定する選定手段と、
前記選定手段によって選定されたパーソナルエリアを示す情報と前記映像データとを前記他のテレビ会議装置へ送信する送信手段と、
前記他のテレビ会議装置から前記パーソナルエリアを示す情報と前記映像データとを受信する受信手段と、
前記受信手段が前記パーソナルエリアを示す情報を受信した場合には、前記映像データを再生して得られる映像の前記パーソナルエリアに対応する部分が、予め設定された態様になるように前記映像データを加工する映像データ加工手段と
を具備することを特徴とするテレビ会議装置。
【請求項３】
前記送信手段は、前記音源方向特定手段が前記音源の方向の特定を開始したことを示す開始情報と特定が終了したことを示す終了情報を前記選定手段によって選定されたパーソナルエリアを示す情報と組にして送信し、
前記映像データ加工手段は、前記開始情報を受信してから前記終了情報を受信するまでの間、前記パーソナルエリアに対応する部分が予め設定された態様になるように前記映像データを加工することを特徴とする請求項２に記載のテレビ会議装置。
【請求項４】
撮影範囲の映像を映像データとして生成する撮影手段と、
前記撮影範囲の一部分の範囲をパーソナルエリアとして複数設定するエリア設定手段と、
音源からの音を収音して音声データを生成する収音手段と、
前記収音手段によって生成された音声データに基づいて、前記音源の方向を特定する音源方向特定手段と、
複数設定されたパーソナルエリアから、前記特定された音源の方向に対応する位置を含むパーソナルエリアを選定する選定手段と、
前記映像データを再生して得られる映像の前記選定手段が選定したパーソナルエリアに対応する部分が、予め設定された態様になるように前記映像データを加工する映像データ加工手段と
を具備することを特徴とするテレビ会議装置。
【請求項５】
前記選定手段は、複数のパーソナルエリアを選定し、
前記映像データ加工手段は、前記複数のパーソナルエリアに対応する部分が予め設定された態様になるように前記映像データを加工することを特徴とする請求項２乃至請求項４のいずれかに記載のテレビ会議装置。
【請求項６】
前記収音手段は、複数のマイクロフォンを有し、
前記音源方向特定手段は、前記複数のマイクロフォンが音源からの音を収音することによって生成された各音声データに基づいて、前記音源の方向を特定することを特徴とする請求項２乃至請求項５のいずれかに記載のテレビ会議装置。

【図１】