多地点接続装置、映像音声端末、通信システム、及び信号処理方法

【課題】３地点以上の遠隔地を接続して行われる多地点間会議であっても、各映像音声端末にて各地点のマイクロフォン音量を別々に表示する。
【解決手段】多地点接続装置２００は、映像音声端末１００から映像音声信号を受信する映像音声信号受信手段２０１と、映像音声信号から音量値を計算する音量値計算手段２０５と、音量値から音量を示す音量表示画像を生成する音量表示画像生成手段２０７と、映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段２０９と、レイアウト設定情報に基づいて、映像音声信号と音量表示画像とを合成して合成映像音声信号を生成する合成映像音声信号生成手段２１１と、映像音声信号を映像音声端末に送信する送信手段２１５と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明はビデオ会議システム等、遠隔地にネットワークを利用して映像や音声を配信するシステムに適用可能な多地点接続装置、映像音声端末、通信システム及び、信号処理方法に関する。
【背景技術】
【０００２】
近年、ネットワークの発達などに伴い、遠隔地にいる相手と映像や音声などの送受信をするビデオ会議システムが普及している。
ビデオ会議システムには、自分の声が相手側に適切な音量で届いているか否かを判別しにくく、話していて心理的に不安になってしまうという課題がある。この課題の解決法として、画面上に自分の声量を示すメータなどを表示する方法がある。
例えば特許文献１には、他地点に設置された相手側端末から送信された相手側端末のスピーカ音量（出力音声の音量レベル）情報を、自地点の端末である自分側端末にて受信して画面上に表示し、合わせて自分側端末のマイクロフォン音量（入力音声の音量レベル）とスピーカ音量も画面上に同時に表示する構成が開示されている。
特許文献２には、相手側端末のスピーカ音量設定情報を自分側端末に送信する構成が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【０００３】
しかし、特許文献１や特許文献２に記載された発明では、相手側端末が自分側端末と異なる構成である場合、相手側端末のスピーカ音量情報を相手側から取得することが出来ないという問題がある。つまり、自分側端末と相手側端末が同様の構成を有している場合にのみしか適用できないという問題がある。
また、相手側端末のスピーカ音量や自分側端末のマイクロフォン音量は、自地点から相手側の地点に送信される音声に関する情報である。このような情報だけでなく、自分側端末のスピーカ音量や相手側端末のマイクロフォン音量といった相手側の地点から自地点に送信される音声に関する情報も同時に表示すれば、自分側のスピーカ音声の聞こえ具合と、相手側の音声に係る音量表示との対応から、自分側の音声に係る音量表示を見ながらの発話音量レベルの調節がやりやすくなる。さらに障害発生時に原因を特定する際の参考情報として使用できるというメリットがある。
【０００４】
ところで、３地点以上の多地点間会議においては通常、多地点接続装置を経由した通信が行われる。多地点接続装置では各地点から受信した映像音声が合成され、合成された信号が各地点へと送信される。従って、自分側端末において各地点のマイクロフォン音量を別々に計算することは非常に困難であり、実質的に、各地点のマイクロフォン音量を別々に表示することができないという問題がある。
本発明は、上述の事情に鑑みてなされたものであり、３地点以上の遠隔地を接続して行われる多地点間会議であっても、各映像音声端末にて各地点のマイクロフォン音量を別々に表示することが可能となる多地点接続装置、映像音声端末、通信システム及び、信号処理方法を提供することを目的とする。
【課題を解決するための手段】
【０００５】
上記の課題を解決するために、第一の発明は、複数の映像音声端末が接続された多地点接続装置であって、前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、前記映像音声信号から音量値を計算する音量値計算手段と、前記音量値計算手段により計算された音量値に基づいて音量を示す音量表示画像を生成する音量表示画像生成手段と、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、前記レイアウト設定情報に基づいて、前記映像音声信号と前記音量表示画像とを合成して合成映像音声信号を生成する合成映像音声信号生成手段と、前記合成映像音声信号を前記映像音声端末に送信する送信手段と、を備えることを特徴とする。
第二の発明は、複数の映像音声端末が接続される多地点接続装置であって、前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、前記映像音声信号から音量値を計算する音量値計算手段と、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成手段と、前記合成情報信号を前記映像音声端末に送信する送信手段と、を備えることを特徴とする。
【０００６】
第三の発明は、第二の発明の多地点接続装置に接続される映像音声端末であって、前記合成情報信号を受信する合成情報信号受信手段と、前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段と、前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成手段と、を備えることを特徴とする。
第四の発明は、多地点接続装置と１つ以上の映像音声端末とが通信ネットワークを介して接続される通信システムであって、前記多地点接続装置は、前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、前記映像音声信号から音量値を計算する音量値計算手段と、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成手段と、前記合成情報信号を前記映像音声端末に送信する送信手段と、を備え、前記映像音声端末は、前記合成情報信号を受信する合成情報信号受信手段と、前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段と、前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成手段と、を備えることを特徴とする。
【０００７】
第五の発明は、複数の映像音声端末から送信される映像音声信号を多地点接続装で処理する信号処理方法であって、映像音声信号受信手段が、前記各映像音声端末から送信される前記映像音声信号を夫々受信する映像音声信号受信ステップと、音量値計算手段が、映像音声信号受信ステップにて受信された前記映像音声信号から音量値を計算する音量計算ステップと、音量表示画像生成手段が、音量計算ステップにて計算された前記音量値から音量を示す音量表示画像を生成する音量表示画像生成ステップと、レイアウト設定情報受信手段が、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信ステップと、合成映像音声信号生成手段が、前記レイアウト設定情報に基づいて、前記映像音声信号と前記音量表示画像とを合成して合成映像音声信号を生成する合成映像音声信号生成ステップと、合成映像音声信号生成ステップにて合成された前記合成映像音声信号を前記映像音声端末に送信する送信ステップと、を有することを特徴とする。
第六の発明は、複数の映像音声端末から送信される映像音声信号を多地点接続装置で処理する信号処理方法であって、映像音声信号受信手段が、前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信ステップと、音量値計算手段が、前記映像音声信号から音量値を計算する音量値計算ステップと、レイアウト設定情報受信手段が、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信ステップと、合成情報信号生成手段が、前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成ステップと、送信手段が前記合成情報信号を前記映像音声端末に送信する送信ステップと、を備えることを特徴とする。
【０００８】
第七の発明は、多地点接続装置から送信される合成情報信号を前記多地点接続装置に接続された映像音声端末で処理する信号処理方法であって、合成情報信号受信手段が、前記合成情報信号を受信する合成情報信号受信ステップと、音量表示画像生成手段が、前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段ステップと、映像音声合成手段が、前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成ステップと、を備えることを特徴とする。
【発明の効果】
【０００９】
本発明によれば、各映像音声端末から送信された映像音声信号から音量値を計算し、音量値から音量表示画像を生成し、音量表示画像と各映像音声端末から送信された映像音声信号と合成した信号を生成するので、３地点以上の遠隔地を接続して行われる多地点間会議であっても、各映像音声端末にて各地点のマイクロフォン音量を別々に表示することができる。
【図面の簡単な説明】
【００１０】
【図１】本発明が適用される通信システムの全体構成図である。
【図２】第一の実施形態に係る通信システムの構成を示すブロック図である。
【図３】一実施形態に係る復号手段の内部構成を示すブロック図である。
【図４】一実施形態に係る映像音声信号から音量値を計算する方法を示す図である。
【図５】（ａ）、（ｂ）は、一実施形態に係る音量表示画像生成手段にて生成される音量表示画像の図である。
【図６】（ａ）、（ｂ）は、一実施形態に係る映像レイアウトの図である。
【図７】（ａ）、（ｂ）は、一実施形態に係る合成映像音声信号生成手段によって合成される映像の図である。
【図８】（ａ）、（ｂ）は、第一の実施形態に係る通信システムの動作を示したシーケンスチャート図である。
【図９】第二の実施形態に係る通信システムの構成を示すブロック図である。
【図１０】（ａ）、（ｂ）は、一実施形態に係る付加情報のデータ構造の図である。
【図１１】（ａ）、（ｂ）は、一実施形態に係る音量表示画像生成手段によって合成される画像の図である。
【図１２】第二の実施形態に係る通信システムの動作を示したシーケンスチャート図である。
【図１３】第三の実施形態に係る通信システムの構成を示すブロック図である。
【図１４】第三の実施形態に係る通信システムの動作を示したシーケンスチャート図である。
【発明を実施するための形態】
【００１１】
〔第一の実施形態〕
本発明の第一の実施形態について図１及び図２に基づいて説明する。図１は、本発明が適用される通信システムの全体構成図である。図２は、第一の実施形態に係る通信システムの構成を示すブロック図である。本実施形態においては、多地点接続装置が、合成映像音声信号生成手段の前に音量値計算手段を備えている点に特徴がある。
【００１２】
通信システム１は、複数の映像音声端末１００−１〜１００−ｎと、各映像音声端末１００−１〜１００−ｎにより送受信される映像音声信号や各種情報を中継する多地点接続装置２００とが、互いに通信ネットワークにて接続された構成である。また、多地点接続装置２００には、レイアウト設定情報送信手段３００が、通信ネットワークを介して接続されている。レイアウト設定情報送信手段３００は、映像音声端末１００の表示手段に表示される映像や情報のレイアウトに関する情報であるレイアウト設定情報を多地点接続装置２００に送信する手段である。
図示する多地点接続装置２００には、ｎ個（ｎは２以上の任意の数）の映像音声端末１００−１〜１００−ｎが接続されている。図１に示すように、各映像音声端末１００は、各地点の映像を撮影するカメラ（撮影手段）、会議中の音声の入力を受け付けるとともに音声を電気信号に変換するマイク（音声入力手段）、及び、各地点からの映像等を表示するディスプレイやプロジェクタ（表示手段）等を有している。図２には、映像音声端末１００−１〜１００−ｎ−１が映像及び音声を送信する送信端末として機能し、映像音声端末１００−ｎが映像音声端末１００−１〜１００−ｎ−１から送信された映像及び音声を受信する受信端末として機能する場合について示されている。
多地点接続装置２００は、映像音声信号受信手段２０１、復号手段２０３、音量値計算手段２０５、音量表示画像生成手段２０７、レイアウト設定情報受信手段２０９、合成映像音声信号生成手段２１１、符号化手段２１３、及び送信手段２１５を備える。
【００１３】
映像音声信号受信手段２０１は、映像音声端末１００−１〜１００−ｎより送信された映像音声信号を受信する。ここで、一般的に映像音声端末１００から送信される映像音声信号は、圧縮された状態である。
復号手段２０３は、映像音声信号受信手段２０１にて受信した各圧縮された映像音声信号を復号する。ここで、復号手段の一例について説明する。図３は、一実施形態に係る復号手段の内部構成を示すブロック図である。復号手段２０３は、数種類の符号化方式に対応できるよう図３に示すような構成になっていてもよい。
復号手段２０３は、判定手段２２１と、復号方式選択手段２２３と、複数の単方式復号手段２２５ａ〜２２５ｃ・・・を有する単方式復号手段群２２７と、を備えている。判定手段２２１は圧縮された映像音声信号の符号化方式を判定し、判定結果を復号方式選択手段２２３に出力する。復号方式選択手段２２３は、判定手段２２１から出力される判定結果にもとづき、単方式復号手段２２５ａ〜２２５ｃ・・・の中から選択した１の単方式復号手段に、圧縮された映像音声信号を出力する。選択された単方式復号手段は、入力された圧縮された映像音声信号を復号し、映像音声信号を出力する。
【００１４】
音量値計算手段２０５（図２）は、復号手段２０３において復号された各映像音声信号から、各音量値を計算して音量値情報として出力する。音量値の算出方法は種々存在するが、例えば、単位時間あたりの音声信号の最大振幅値や、実効値を用いて算出することなどが例として挙げられる。ここで「最大振幅値」とは、ある区間における、信号値の絶対値の最大値をさす。また「実効値」とは、ある区間における、信号値の二乗平均の平方根の値をさす。図４は、一実施形態に係る映像音声信号から音量値を計算する方法を示す図である。
例えば、音声信号をｓ（ｔ）、単位時間をΔｔとして、音声信号ｓ（ｔ）が時間の経過と共に図４のように推移する場合について考えると、最大振幅値を用いる場合の音量値ｖｏｌ_ｍａｘは、以下の式で計算できる。
【００１５】
【数１】

また、実効値を用いる場合の音量値ｖｏｌ_ｒｍｓは、以下の式で計算できる。
【００１６】
【数２】

【００１７】
また、音量値は必ずしも実際の最大振幅値などである必要はない。例えば０を無音状態、１０を０ｄＢの状態に対応させて、デシベル値を０〜１０のように、所定の範囲の整数に正規化及び量子化したものを出力するといった方式でもよい。なお、「正規化」とは、一定の規則に従い、データを変形し利用しやすくすることをさす。
音量表示画像生成手段２０７（図２）は、音量値計算手段２０５から出力された音量値情報をもとに、音量を表す画像である音量表示画像を生成する。図５（ａ）、（ｂ）は、一実施形態に係る音量表示画像生成手段にて生成される音量表示画像の図である。
【００１８】
例えば、図５（ａ）において、音量表示画像２３１は、横に長い長方形の音量表示領域２３１ａと、音量表示領域２３１ａ内に表示される長方形２３１ｂと、から構成されている。音量表示領域２３１ａは所定の下地色にて表示される。また、長方形２３１ｂは、音量表示領域２３１ａと少なくとも３辺で接するとともに音量表示領域２３１ａの下地色とは異なる色で表示される。音量は、音量表示領域２３１ａ内の長方形２３１ｂの面積によって表現される。すなわち、音量表示領域２３１ａのうち、音量値に応じた面積だけ色を変化させることにより、音量を表現する。例えば、（ａ−２）に示すように、音量最小時には長方形２３１ｂの面積がゼロとなり、音量表示領域２３１ａのみが示された状態となる。また、（ａ−３）に示すように、音量最大時には長方形２３１ｂの面積が最大となり、音量表示領域２３１ａの全てが長方形２３１ｂとなる。
また、図５（ｂ）において音量表示画像２３３は、縦一列に整列した複数の長方形２３５ａから構成される音量表示領域２３５（長方形列）と、音量を示す色付きの長方形２３７と、から構成されている。各長方形２３５ａは所定の下地色にて表示される。また、長方形２３７は、音量表示領域２３５のうちの一部の長方形２３５ａを下地色とは異なる色で塗りつぶしたものである。（ｂ）において音量は長方形２３７の個数で表示される。すなわち、音量表示領域２３５のうち、音量値に応じた数の長方形２３５ａの色を変化させることにより、音量を表現する。例えば、（ｂ−２）に示すように、音量最小時に長方形２３７の数はゼロとなる。また（ｂ−３）に示すように、音量最大時には、音量表示領域２３５の全ての長方形２３５ａが長方形２３７となる。
なお、音量が視覚的に認識可能な画像であれば、図５に挙げた例以外のものでもよい。例えば、長方形以外の四角形、楕円、円、三角形など他の形態でもよい。
【００１９】
レイアウト設定情報受信手段２０９（図２）は、レイアウト設定情報送信手段３００から送信されたレイアウト設定情報を受信する。ここでレイアウト設定情報は、映像の配置情報を示す情報である。具体的には、映像音声端末１００ｎにおいて、映像音声端末１００−１〜１００−ｎの映像をどのようなレイアウト、つまり配置で表示するかを表した情報である。なお、一般的にレイアウト設定情報送信手段３００は映像音声端末１００−ｎの内部に含まれており、レイアウト設定は映像音声端末１００−ｎのユーザが映像音声端末１００−ｎの操作ボタン等から自由に選択、指定できるようになっている。
【００２０】
図６（ａ）、（ｂ）は、一実施形態に係る映像レイアウトの図である。２地点の映像を１つの画面に表示する例を示している。具体的には、２地点間の会議において他地点の映像と自地点の映像を表示する場合、または、３地点間の会議において他地点の２つの映像を表示する場合の例である。
（ａ）の表示画面２４１は、画面全体を占める領域２４１Ａと、領域２４１Ａ上に重ねて表示され且つ領域２４１Ａよりも小さい領域２４１Ｂと、からなるレイアウトの例である。領域２４１Ａには、ある一地点の映像が表示され、領域２４１Ｂには他の地点の映像が表示される。（ａ）において領域２４１Ｂは、領域２４１Ａの右下の部分に重ねて表示されているが、領域２４１Ｂの表示位置はこれに限定されるものではない。同様のレイアウトとして例えば、領域２４１Ｂが左下、左上、または右上に配置されていても良い。
また、（ｂ）の表示画面２４３は、画面を横に２分割した左側の領域２４３Ｃと、右側の領域２４３Ｄと、からなるレイアウトの例である。領域２４３Ｃには、ある一地点の映像が表示され、領域２４３Ｄには他の地点の映像が表示される。同様のレイアウトとして、表示する映像の縦横比を保つため、各領域２４３Ｃ、２４３Ｄの上下部分をカットしたものも挙げられる。
もちろん、映像レイアウトには、図６（ａ）、（ｂ）に挙げた例以外のものを用いてもよい。
【００２１】
合成映像音声信号生成手段２１１（図２）は、レイアウト設定情報受信手段２０９で受信したレイアウト設定情報をもとに、復号手段２０３で復号した映像音声信号と、音量表示画像生成手段２０７で生成した音量表示画像とを合成する。なお、合成映像音声信号とは、少なくとも複数の映像音声端末からの映像音声信号が合成された信号である。本実施形態における合成映像音声信号は、映像音声信号の他に、更に映像音声信号も合成されている。図７（ａ）、（ｂ）は、一実施形態に係る合成映像音声信号生成手段によって合成される映像の図である。
例えば（ａ）に示す合成映像は、図６（ｂ）のレイアウトに対応したレイアウト設定情報を受信し、図５（ａ）のような音量表示画像を用いた場合の例である。表示画面２４３の各領域２４３Ｃ、２４３Ｄの下方に、音量表示画像２３１が表示されている。
【００２２】
同様に、例えば（ｂ）に示す合成映像は、図６（ａ）のレイアウトに対応したレイアウト設定情報を受信し、図５（ｂ）のような音量表示画像を用いた場合の例である。表示画面２４１を構成する領域２４１Ａの左端部と領域２４１Ｂの右端部に、それぞれ音量表示画像２３３が表示されている。
符号化手段２１３（図２）は、合成映像音声信号生成手段２１１から出力された合成映像音声信号を符号化して、データサイズを圧縮する。
送信手段２１５は、符号化手段２１３により圧縮された合成映像音声信号を映像音声端末１００−ｎへと送信する。
映像音声端末１００−ｎは、受信した合成映像音声信号をもとに図７（ａ）又は（ｂ）のように合成された映像を、ディスプレイやプロジェクタなどの表示手段に出力する。なお、実際には映像音声端末１００−１〜１００−ｎ−１も各映像音声端末１００からの映像音声信号を受信するため、レイアウト設定情報受信手段２０９、合成映像音声信号生成手段２１１、符号化手段２１３、送信手段２１５の入出力はｎ個の信号となる。
【００２３】
通信システム１の動作をシーケンスチャートに基づいて説明する。図８は、第一の実施形態に係る通信システムの動作を示したシーケンスチャート図である。
まず、レイアウト設定情報の処理に関する動作について（ａ）に基づいて説明する。レイアウト設定情報送信手段３００は、多地点接続装置２００にレイアウト設定情報を送信する（ステップＳ１）。多地点接続装置２００のレイアウト設定情報受信手段２０９は、レイアウト設定情報を受信し（ステップＳ２）、記憶手段（不図示）に記憶する（ステップＳ３）。
【００２４】
次に、映像音声の処理に関する動作を（ｂ）に基づいて説明する。
映像音声端末１００−１〜１００−ｎは、多地点接続装置２００に対して圧縮された映像音声信号を送信する（ステップＳ１１、Ｓ１２）。
多地点接続装置２００の映像音声信号受信手段２０１は、映像音声端末１００−１〜１００−ｎからｎ個の圧縮された映像音声信号を受信する（ステップＳ１３）。復号手段２０３は、圧縮された映像音声信号からのｎ個の圧縮された映像音声信号を復号する（ステップＳ１４）。音量値計算手段２０５は、復号手段２０３にて復号されたｎ個の映像音声信号からｎ個の音量値を計算する（ステップＳ１５）。音量表示画像生成手段２０７は、音量値計算手段２０５から出力されたｎ個の音量値情報からｎ個の音量表示画像を生成する（ステップＳ１６）。合成映像音声信号生成手段２１１は、図８（ａ）のステップＳ３にて保存したレイアウト設定情報を取り出し、ｎ個の映像音声信号とｎ個の音量表示画像を合成する（ステップＳ１７）。符号化手段２１３は、合成映像音声信号生成手段２１１にて合成された合成映像音声信号を符号化する（ステップＳ１８）。送信手段２１５は、符号化手段２１３により生成された圧縮合成映像音声信号を映像音声端末１００−ｎに対して送信する（ステップＳ１９）。
映像音声端末１００−ｎは、圧縮合成映像音声信号を受信して（ステップＳ２０）、復号し（ステップＳ２１）、得られた圧縮された映像音声信号を表示手段に表示する（ステップＳ２２）。
【００２５】
以上のように本実施形態によれば、多地点接続装置は音量値計算手段と音量表示画像生成手段を備え、合成映像音声信号生成手段によって音量表示画像の合成された合成映像音声信号を、映像音声端末に対して送信する。映像音声端末では、既に音量表示画像の含まれた合成映像音声信号を受信することができる。従って、映像音声端末の構成に依存せず、他の映像音声端末のマイクロフォン音量を受信側の映像音声端末にて個別に表示することが可能である。
また、音量値を計算する際に最大振幅を利用することで、音量値として適切な値を用いることが出来る。また、音量値を計算する際に実効値を利用することで扱いやすい値を音量値として用いることが出来る。また、音量値を正規化及び量子化して利用することで音量を直感的で分かりやすく表示することが出来る。
なお、本実施形態においては説明を分かりやすくするため、映像音声端末１００−ｎの受信動作についてのみ述べた。しかし、実際には映像音声端末１００−１〜１００−ｎ−１も映像音声信号を受信しており、上述した処理と同様の処理が行われる。
【００２６】
〔第二の実施形態〕
本発明の第二の実施形態について図９に基づいて説明する。図９は、第二の実施形態に係る通信システムの構成を示すブロック図である。本実施形態においては、音量表示画像の生成と、生成された音量表示画像と映像音声の合成と、を映像音声端末にて行う点に特徴がある。
通信システム２の多地点接続装置２５０には、ｎ個（ｎは２以上の任意の数）の映像音声端末１１０−１〜１１０−ｎが接続されている。図９には、映像音声端末１１０−ｎで各映像音声端末１１０−１〜１１０−ｎ−１からの映像音声を受信する場合について示してある。なお、映像音声端末１１０−１〜１１０−ｎ−１については、第一の実施形態と同一構成の端末を用いても構わない。
多地点接続装置２５０は、映像音声信号受信手段２０１、復号手段２０３、音量値計算手段２０５、合成情報信号生成手段２５１、符号化手段２５３、レイアウト設定情報受信手段２０９、及び送信手段２５５を備える。ここで、映像音声信号受信手段２０１、復号手段２０３、音量値計算手段２０５、レイアウト設定情報受信手段２０９は、それぞれ第一の実施形態の多地点接続装置２００中にある各手段と同様であるため、第一の実施形態と同一の符号を付してその説明を省略する。
【００２７】
合成情報信号生成手段２５１は、レイアウト設定情報受信手段２０９で受信したレイアウト設定情報をもとに、復号手段２０３で復号した各映像音声信号を合成する。さらに、合成により生成された信号に、音量値計算手段２０５で計算した各音量値の情報（音量値情報；付加情報）を、レイアウト設定情報（付加情報）とともに埋め込んで合成情報信号を生成する。ここで付加情報の埋め込みは、復号した際に元の映像音声信号との差が少なくなるように行う。例えば映像音声信号の高周波成分に埋め込む。こうすることで、特別な構成ではない映像音声端末、具体的には後述する音量表示画像生成手段１１５や映像音声合成手段１１７を備えていない映像音声端末（例えば映像音声端末１１０）であっても映像音声信号を取得し、利用することが可能となり、データサイズの増加も防ぐことが出来る。
【００２８】
図１０（ａ）、（ｂ）は、一実施形態に係る付加情報のデータ構造の図である。音量値情報とレイアウト設定情報は、例えば図１０（ａ）のように、各映像音声端末の音量値情報とそのレイアウト情報が対応づけられたデータ構造となっている。各映像音声端末のレイアウト位置情報の表現としては、例えば、映像表示位置のＸＹ座標値などがある。実際の値を入れた一例を図１０（ｂ）に示す。ここでは、図７（ａ）に対応した値を例として入れている。端末番号１、２については、音量表示画像２３１の左上の点の座標（１６０，５６０）、（８００，５６０）と、右下の点の座標（３２０，６２０）、（９６０，６２０）が、それぞれレイアウト設定情報として入力されている。端末番号３についてレイアウト設定が負の値になっているのは、この番号に対応する映像音声端末の映像を表示しないことを表現している。
符号化手段２５３（図９）は、合成情報信号生成手段２５１の出力した合成情報信号を符号化して、データサイズを圧縮する。
送信手段２５５は、符号化手段２５３により圧縮された合成情報信号を映像音声端末１１０−ｎへと送信する。
【００２９】
映像音声端末１１０−ｎは、合成情報信号受信手段１１１、復号手段１１３、音量表示画像生成手段１１５、及び映像音声合成手段１１７を備える。
合成情報信号受信手段１１１は、多地点接続装置２５０から送信された圧縮合成情報信号を受信する。
復号手段１１３は、圧縮されている合成情報信号を復号する。
音量表示画像生成手段１１５は、合成情報信号に埋め込まれた音量値情報とレイアウト設定情報をもとに、音量を示す音量表示画像を含む表示画面を生成する。図１１（ａ）、（ｂ）は、一実施形態に係る音量表示画像生成手段によって合成される画像の図である。
例えば、（ａ）に示す合成画像は、図５（ａ）のような音量表示方法と図６（ｂ）に対応したレイアウト設定情報から生成される画像の例である。表示画面１２１の下方には、端末番号１、２に対応する映像音声端末の音量を示す音量表示画像２３１がそれぞれ表示される。
同様に、例えば（ｂ）に示す合成画像は、図５（ｂ）のような音量表示方法と図６（ａ）に対応したレイアウト設定情報から生成される画像の例である。表示画面１２３の左右端部下方には、端末番号１、２に対応する映像音声端末の音量を示す音量表示画像２３３がそれぞれ表示される。
もちろん、音量値と表示画像、レイアウト設定情報と表示位置が対応していれば、図１１に挙げた例以外の映像を合成によって得てもよい。
【００３０】
映像音声合成手段１１７（図９）は、復号手段１１３にて復号された合成情報信号と、音量表示画像生成手段１１５にて生成された音量表示画像と、を合成する。つまり映像音声合成手段１１７では、音量値情報が含まれた合成情報信号を映像音声信号とみなし、合成情報信号から映像音声信号のみを分離する処理を行わずにそのまま利用する。例えば、映像音声信号とみなした合成情報信号を図１１（ａ）のような音量表示画像と合成すれば、図７（ａ）のような映像音声信号が得られる。
映像音声端末１１０−ｎは、合成した映像音声信号をもとに図７のような映像をディスプレイやプロジェクタなどの表示手段に出力する。
【００３１】
以上説明した通信システム２の動作をシーケンスチャートに基づいて説明する。図１２は、第二の実施形態に係る通信システムの動作を示したシーケンスチャート図である。この図には映像音声の処理に関する動作のみを示している。レイアウト設定情報の処理に関する動作については第一の実施形態（図８（ａ）参照）と同様であるため、その説明を省略する。また、第一の実施形態と同様の処理には同一のステップ番号を付してその説明を省略する。
映像音声端末１１０−１〜１１０−ｎは、多地点接続装置２５０に対して圧縮された映像音声信号を送信する（ステップＳ１１、Ｓ１２）。
多地点接続装置２５０では、ステップＳ１３からステップＳ１５までの処理を行う。
多地点接続装置２５０の合成情報信号生成手段２５１は、図８（ａ）のステップＳ３にて保存したレイアウト設定情報を取り出して、レイアウト設定情報をもとにｎ個の映像音声信号を合成する（ステップＳ３１）。さらに、レイアウト設定情報と音量値情報とを含む付加情報を、合成された映像音声信号に埋め込み、合成情報信号を生成する（ステップＳ３２）。
【００３２】
得られた合成情報信号の符号化及び送信を行う（ステップＳ１８’、Ｓ１９’）。
映像音声端末１１０−ｎの合成情報信号受信手段１１１は、圧縮合成情報信号を受信する（ステップＳ２０’）。復号手段１１３は、圧縮合成情報信号を復号する（ステップＳ２１’）。音量表示画像生成手段１１５は、復号された合成情報信号に埋め込まれている音量値情報とレイアウト設定情報をもとに、音量表示画像を生成する（ステップＳ３３）。映像音声合成手段１１７は、合成情報信号と音量表示画像を合成する（ステップＳ３４）。得られた映像音声を表示手段に表示する（ステップＳ２２’）。
【００３３】
以上のように本実施形態によれば、複数の地点のマイクロフォン音量を個別に表示することが可能となる。また、送信端末となる他地点の映像音声端末の構成如何に関わらず、上記表示が可能である。
また、多地点接続装置の合成情報信号生成手段が、レイアウト設定情報及び音量値を含む付加情報を映像音声信号内に埋め込んで合成情報信号を生成し、合成情報信号を映像音声端末に送信するので、元の映像音声信号のデータサイズを大きくすることなく、音量値及びレイアウト設定情報の送受信を行うことができる。
また、第一の実施形態では映像音声端末の構成に関わらず、各映像音声端末において同様の映像を得られるが、映像音声端末に独自の音量表示手段があった場合などに、音量表示の多重化が起こることになってしまう。一方、第二の実施形態では映像音声端末に音量表示画像生成手段と映像音声合成手段とを備えたため、そのような事態は発生しない。
【００３４】
〔第三の実施形態〕
第二の実施形態の変形である第三の実施形態について説明する。第二の実施形態に係る通信システム２（図９）においては、音量値情報とレイアウト設定情報を映像音声端末に送信するために、合成情報信号に音量値情報とレイアウト設定情報からなる付加情報を埋め込んだ。これとは異なり、埋め込みを行わずに、合成映像音声を第一のチャネル、付加情報を第二のチャネルとして映像音声端末に送信するようにしてもよい。図１３は、第三の実施形態に係る通信システムの構成を示すブロック図である。第一及び第二の実施形態と同一の構成には同一の符号を付してその説明を省略する。
通信システム３の多地点接続装置２６０において、合成情報信号生成手段２５１は、付加情報生成手段２６１と合成映像音声信号生成手段２６３の２つを有している。付加情報生成手段２６１は、音量値とレイアウト設定情報から図１０のようなデータ構造の付加情報を生成する。合成映像音声信号生成手段２６３は、レイアウト設定情報に基づいて、各映像音声端末１３０の映像音声信号を合成した合成映像音声信号を出力する。なお、本実施形態の合成情報信号生成手段２５１から出力される付加情報と合成映像音声信号とを合わせて合成情報信号と呼ぶ。
【００３５】
符号化手段２５３は、付加情報符号化手段２６５と合成映像音声信号符号化手段２６７と、を備えている。付加情報符号化手段２６５は付加情報を符号化し、合成映像音声信号符号化手段２６７は合成映像音声信号を符号化して、データサイズを圧縮する。
送信手段２５５は付加情報送信手段２６９と合成映像音声信号送信手段２７７とを備えている。付加情報送信手段２６９は圧縮付加情報を送信し、合成映像音声信号送信手段２７７は圧縮合成映像音声信号を送信する。
映像音声端末１３０−ｎの合成情報信号受信手段１１１は付加情報受信手段１３１と合成映像音声信号受信手段１３３とを備える。付加情報受信手段１３１は、圧縮付加情報を受信し、合成映像音声信号受信手段１３３は、圧縮合成映像音声信号を受信する。
復号手段１１３は、付加情報復号手段１３５と合成映像音声信号復号手段１３７と、を備えている。付加情報復号手段１３５は圧縮付加情報を復号し、合成映像音声信号復号手段１３７は、圧縮合成映像音声信号を復号する。
【００３６】
以上説明した通信システム３の動作をシーケンスチャートに基づいて説明する。図１４は、第三の実施形態に係る通信システムの動作を示したシーケンスチャート図である。この図には映像音声の処理に関する動作のみを示している。レイアウト設定情報の処理に関する動作については第一の実施形態（図８（ａ）参照）と同様であるため、その説明を省略する。また、第一及び第二の実施形態と同様の処理には同一のステップ番号を付してその説明を省略する。
映像音声端末１３０−１〜１３０−ｎは、多地点接続装置２６０に対して圧縮された映像音声信号を送信する（ステップＳ１１、Ｓ１２）。
多地点接続装置２６０では、ステップＳ１３からステップＳ１５までの処理を行う。
多地点接続装置２６０の第一のチャネルでは、映像音声信号の処理を行う。合成映像音声信号生成手段２６３は、図８（ａ）のステップＳ３にて保存したレイアウト設定情報を取り出して、レイアウト設定情報をもとにｎ個の映像音声信号を合成する（ステップＳ４１）。合成映像音声信号符号化手段２６７は、合成映像音声信号生成手段２６３にて合成された合成映像音声信号を符号化する（ステップＳ４２）。合成映像音声信号送信手段２７１は、合成映像音声信号符号化手段２６７にて符号化された圧縮合成映像音声信号を映像音声端末１３０−ｎに対して送信する（ステップＳ４３）。
【００３７】
他方、多地点接続装置２６０の第二のチャネルでは、付加情報の処理を行う。付加情報生成手段２６１は、図８（ａ）のステップＳ３にて保存したレイアウト設定情報を取り出して、レイアウト設定情報と音量値情報とを含む付加情報を生成する（ステップＳ４４）。付加情報符号化手段２６５は、付加情報生成手段２６１にて生成された付加情報を符号化する（ステップＳ４５）。付加情報送信手段２６９は、付加情報符号化手段２６５にて符号化された圧縮付加情報を映像音声端末１３０−ｎに対して送信する（ステップＳ４６）。
映像音声端末１３０−ｎの第一のチャネルでは、映像音声信号の処理を行う。合成映像音声信号受信手段１３３は、圧縮合成映像音声信号を受信する（ステップＳ４７）。合成映像音声信号復号手段１３７は、圧縮合成映像音声信号を復号する（ステップＳ４８）。
【００３８】
他方、映像音声端末１３０−ｎの第二のチャネルでは、付加情報の処理を行う。付加情報受信手段１３１は、圧縮付加情報を受信する（ステップＳ４９）。付加情報復号手段１３５は、圧縮付加情報を復号する（ステップＳ５０）。音量表示画像生成手段１１５は、復号された付加情報に含まれる音量値情報とレイアウト設定情報をもとに、音量表示画像を生成する（ステップＳ３３’）。
映像音声合成手段１１７は、合成映像音声信号復号手段１３７にて復号された合成映像音声信号と、音量表示画像生成手段１１５にて生成された音量表示画像とを合成する（ステップＳ３４’）。そして得られた映像音声信号を表示手段に表示する（ステップＳ２２”）。
【００３９】
以上のように、本実施形態においては、付加情報と映像音声信号とを異なるチャネルにて送信するので、元の映像音声信号に変化を加えずに音量値情報を送受信することができる。
また、第一の実施形態では映像音声端末の構成に関わらず同様の映像を得られるが、映像音声端末に独自の音量表示手段があった場合などに、音量表示の多重化が起こることになってしまう。一方、第二の実施形態では映像音声端末に映像音声端末に音量表示画像生成手段と映像音声合成手段とを備えたため、そのような事態は発生しない。
【符号の説明】
【００４０】
１、２、３…通信システム、１００、１１０、１３０…映像音声端末、１１１…合成情報信号受信手段、１１３…復号手段、１１５…音量表示画像生成手段、１１７…映像音声合成手段、１２１、１２３…表示画面、１３１…付加情報受信手段、１３３…合成映像音声信号受信手段、１３５…付加情報復号手段、１３７…合成映像音声信号復号手段、２００、２５０、２６０…多地点接続装置、２０１…映像音声信号受信手段、２０３…復号手段、２０５…音量値計算手段、２０７…音量表示画像生成手段、２０９…レイアウト設定情報受信手段、２１１…合成映像音声信号生成手段、２１３…符号化手段、２１５…送信手段、２２１…判定手段、２２３…復号方式選択手段、２２５…単方式復号手段、２２７…単方式復号手段群、２３１…音量表示画像、２３１ａ…音量表示領域、２３１ｂ…長方形、２３３…音量表示画像、２３５…音量表示領域、２３５ａ…長方形、２３７…長方形、２４１、２４３…表示画面、２５１…合成情報信号生成手段、２５３…符号化手段、２５５…送信手段、２６１…付加情報生成手段、２６３…合成映像音声信号生成手段、２６５…付加情報符号化手段、２６７…合成映像音声信号符号化手段、２６９…付加情報送信手段、２７７…合成映像音声信号送信手段、２７１…合成映像音声信号送信手段、３００…レイアウト設定情報送信手段
【先行技術文献】
【特許文献】
【００４１】
【特許文献１】特開２００４−１８６８７０公報
【特許文献２】特開平７−２２６８００号公報

【特許請求の範囲】
【請求項１】
複数の映像音声端末が接続された多地点接続装置であって、
前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、
前記映像音声信号から音量値を計算する音量値計算手段と、
前記音量値計算手段により計算された音量値に基づいて音量を示す音量表示画像を生成する音量表示画像生成手段と、
前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、
前記レイアウト設定情報に基づいて、前記映像音声信号と前記音量表示画像とを合成して合成映像音声信号を生成する合成映像音声信号生成手段と、
前記合成映像音声信号を前記映像音声端末に送信する送信手段と、を備えることを特徴とする多地点接続装置。
【請求項２】
複数の映像音声端末が接続される多地点接続装置であって、
前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、
前記映像音声信号から音量値を計算する音量値計算手段と、
前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、
前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成手段と、
前記合成情報信号を前記映像音声端末に送信する送信手段と、を備えることを特徴とする多地点接続装置。
【請求項３】
請求項２に記載の多地点接続装置に接続される映像音声端末であって、
前記合成情報信号を受信する合成情報信号受信手段と、
前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段と、
前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成手段と、を備えることを特徴とする映像音声端末。
【請求項４】
多地点接続装置と１つ以上の映像音声端末とが通信ネットワークを介して接続される通信システムであって、
前記多地点接続装置は、
前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、
前記映像音声信号から音量値を計算する音量値計算手段と、
前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、
前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成手段と、
前記合成情報信号を前記映像音声端末に送信する送信手段と、を備え、
前記映像音声端末は、
前記合成情報信号を受信する合成情報信号受信手段と、
前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段と、
前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成手段と、を備えることを特徴とする通信システム。
【請求項５】
前記音量値は、単位時間あたりの音声信号の最大振幅値であることを特徴とする請求項１又は２に記載の多地点接続装置。
【請求項６】
前記音量値は、単位時間あたりの音声信号の最大振幅値であることを特徴とする請求項３に記載の映像音声端末。
【請求項７】
前記音量値は、単位時間あたりの音声信号の最大振幅値であることを特徴とする請求項４に記載の通信システム。
【請求項８】
前記音量値は、単位時間あたりの音声信号の実効値であることを特徴とする請求項１又は２に記載の多地点接続装置。
【請求項９】
前記音量値は、単位時間あたりの音声信号の実効値であることを特徴とする請求項３に記載の映像音声端末。
【請求項１０】
前記音量値は、単位時間あたりの音声信号の実効値であることを特徴とする請求項４に記載の通信システム。
【請求項１１】
前記合成情報信号は、前記レイアウト設定情報と前記音量値を前記映像音声信号内に埋め込んだ信号であることを特徴とする請求項２に記載の多地点接続装置。
【請求項１２】
前記合成情報信号は、前記レイアウト設定情報と前記音量値を前記映像音声信号内に埋め込んだ信号であることを特徴とする請求項４、７、又は１０に記載の通信システム。
【請求項１３】
前記合成情報信号は、前記レイアウト設定情報に基づいて前記映像音声信号が合成された合成映像音声信号と、前記レイアウト設定情報と前記音量値により構成された付加情報と、を含み、
前記合成情報信号生成手段は、前記合成映像音声信号を第一のチャネルとして出力し、前記付加情報を第二のチャネルとして出力し、
前記送信手段は前記音声映像端末に対して、前記合成映像音声信号を第一のチャネルとして送信し、前記付加情報を第二のチャネルとして送信することを特徴とする請求項２に記載の多地点接続装置。
【請求項１４】
前記合成情報信号は、前記レイアウト設定情報に基づいて前記映像音声信号が合成された合成映像音声信号と、前記レイアウト設定情報と前記音量値により構成された付加情報と、を含み、
前記合成情報信号受信手段は、前記合成映像音声信号を第一のチャネルにて受信し、前記付加情報を第二のチャネルにて受信し、
前記音量表示画像生成手段は、前記付加情報から音量を示す音量表示画像を生成し、
前記映像音声合成手段は、前記合成映像音声信号に前記音量表示画像を合成することを特徴とする、請求項３、６、又は９に記載の映像音声端末。
【請求項１５】
前記合成情報信号は、前記レイアウト設定情報に基づいて前記映像音声信号が合成された合成映像音声信号と、前記レイアウト設定情報と前記音量値により構成された付加情報と、を含み、
前記合成情報信号生成手段は、前記合成映像音声信号を第一のチャネルとして出力し、前記付加情報を第二のチャネルとして出力し、
前記送信手段は前記音声映像端末に対して、前記合成映像音声信号を第一のチャネルとして送信し、前記付加情報を第二のチャネルとして送信し、
前記合成情報信号受信手段は、前記合成映像音声信号を第一のチャネルにて受信し、前記付加情報を第二のチャネルにて受信し、
前記音量表示画像生成手段は、前記付加情報から音量を示す音量表示画像を生成し、
前記映像音声合成手段は、前記合成映像音声信号に前記音量表示画像を合成することを特徴とする請求項４、７、又は１０に記載の通信システム。
【請求項１６】
複数の映像音声端末から送信される映像音声信号を多地点接続装で処理する信号処理方法であって、
映像音声信号受信手段が、前記各映像音声端末から送信される前記映像音声信号を夫々受信する映像音声信号受信ステップと、
音量値計算手段が、映像音声信号受信ステップにて受信された前記映像音声信号から音量値を計算する音量計算ステップと、
音量表示画像生成手段が、音量計算ステップにて計算された前記音量値から音量を示す音量表示画像を生成する音量表示画像生成ステップと、
レイアウト設定情報受信手段が、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信ステップと、
合成映像音声信号生成手段が、前記レイアウト設定情報に基づいて、前記映像音声信号と前記音量表示画像とを合成して合成映像音声信号を生成する合成映像音声信号生成ステップと、
合成映像音声信号生成ステップにて合成された前記合成映像音声信号を前記映像音声端末に送信する送信ステップと、を有することを特徴とする信号処理方法。
【請求項１７】
複数の映像音声端末から送信される映像音声信号を多地点接続装置で処理する信号処理方法であって、
映像音声信号受信手段が、前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信ステップと、
音量値計算手段が、前記映像音声信号から音量値を計算する音量値計算ステップと、
レイアウト設定情報受信手段が、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信ステップと、
合成情報信号生成手段が、前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成ステップと、
送信手段が前記合成情報信号を前記映像音声端末に送信する送信ステップと、を備えることを特徴とする信号処理方法。
【請求項１８】
多地点接続装置から送信される合成情報信号を前記多地点接続装置に接続された映像音声端末で処理する信号処理方法であって、
合成情報信号受信手段が、前記合成情報信号を受信する合成情報信号受信ステップと、
音量表示画像生成手段が、前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段ステップと、
映像音声合成手段が、前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成ステップと、を備えることを特徴とする信号処理方法。

【図１】