説明

多地点接続装置、映像音声端末、通信システム、及び信号処理方法

【課題】3地点以上の遠隔地を接続して行われる多地点間会議であっても、各映像音声端末にて各地点のマイクロフォン音量を別々に表示する。
【解決手段】多地点接続装置200は、映像音声端末100から映像音声信号を受信する映像音声信号受信手段201と、映像音声信号から音量値を計算する音量値計算手段205と、音量値から音量を示す音量表示画像を生成する音量表示画像生成手段207と、映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段209と、レイアウト設定情報に基づいて、映像音声信号と音量表示画像とを合成して合成映像音声信号を生成する合成映像音声信号生成手段211と、映像音声信号を映像音声端末に送信する送信手段215と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はビデオ会議システム等、遠隔地にネットワークを利用して映像や音声を配信するシステムに適用可能な多地点接続装置、映像音声端末、通信システム及び、信号処理方法に関する。
【背景技術】
【0002】
近年、ネットワークの発達などに伴い、遠隔地にいる相手と映像や音声などの送受信をするビデオ会議システムが普及している。
ビデオ会議システムには、自分の声が相手側に適切な音量で届いているか否かを判別しにくく、話していて心理的に不安になってしまうという課題がある。この課題の解決法として、画面上に自分の声量を示すメータなどを表示する方法がある。
例えば特許文献1には、他地点に設置された相手側端末から送信された相手側端末のスピーカ音量(出力音声の音量レベル)情報を、自地点の端末である自分側端末にて受信して画面上に表示し、合わせて自分側端末のマイクロフォン音量(入力音声の音量レベル)とスピーカ音量も画面上に同時に表示する構成が開示されている。
特許文献2には、相手側端末のスピーカ音量設定情報を自分側端末に送信する構成が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかし、特許文献1や特許文献2に記載された発明では、相手側端末が自分側端末と異なる構成である場合、相手側端末のスピーカ音量情報を相手側から取得することが出来ないという問題がある。つまり、自分側端末と相手側端末が同様の構成を有している場合にのみしか適用できないという問題がある。
また、相手側端末のスピーカ音量や自分側端末のマイクロフォン音量は、自地点から相手側の地点に送信される音声に関する情報である。このような情報だけでなく、自分側端末のスピーカ音量や相手側端末のマイクロフォン音量といった相手側の地点から自地点に送信される音声に関する情報も同時に表示すれば、自分側のスピーカ音声の聞こえ具合と、相手側の音声に係る音量表示との対応から、自分側の音声に係る音量表示を見ながらの発話音量レベルの調節がやりやすくなる。さらに障害発生時に原因を特定する際の参考情報として使用できるというメリットがある。
【0004】
ところで、3地点以上の多地点間会議においては通常、多地点接続装置を経由した通信が行われる。多地点接続装置では各地点から受信した映像音声が合成され、合成された信号が各地点へと送信される。従って、自分側端末において各地点のマイクロフォン音量を別々に計算することは非常に困難であり、実質的に、各地点のマイクロフォン音量を別々に表示することができないという問題がある。
本発明は、上述の事情に鑑みてなされたものであり、3地点以上の遠隔地を接続して行われる多地点間会議であっても、各映像音声端末にて各地点のマイクロフォン音量を別々に表示することが可能となる多地点接続装置、映像音声端末、通信システム及び、信号処理方法を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記の課題を解決するために、第一の発明は、複数の映像音声端末が接続された多地点接続装置であって、前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、前記映像音声信号から音量値を計算する音量値計算手段と、前記音量値計算手段により計算された音量値に基づいて音量を示す音量表示画像を生成する音量表示画像生成手段と、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、前記レイアウト設定情報に基づいて、前記映像音声信号と前記音量表示画像とを合成して合成映像音声信号を生成する合成映像音声信号生成手段と、前記合成映像音声信号を前記映像音声端末に送信する送信手段と、を備えることを特徴とする。
第二の発明は、複数の映像音声端末が接続される多地点接続装置であって、前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、前記映像音声信号から音量値を計算する音量値計算手段と、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成手段と、前記合成情報信号を前記映像音声端末に送信する送信手段と、を備えることを特徴とする。
【0006】
第三の発明は、第二の発明の多地点接続装置に接続される映像音声端末であって、前記合成情報信号を受信する合成情報信号受信手段と、前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段と、前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成手段と、を備えることを特徴とする。
第四の発明は、多地点接続装置と1つ以上の映像音声端末とが通信ネットワークを介して接続される通信システムであって、前記多地点接続装置は、前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、前記映像音声信号から音量値を計算する音量値計算手段と、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成手段と、前記合成情報信号を前記映像音声端末に送信する送信手段と、を備え、前記映像音声端末は、前記合成情報信号を受信する合成情報信号受信手段と、前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段と、前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成手段と、を備えることを特徴とする。
【0007】
第五の発明は、複数の映像音声端末から送信される映像音声信号を多地点接続装で処理する信号処理方法であって、映像音声信号受信手段が、前記各映像音声端末から送信される前記映像音声信号を夫々受信する映像音声信号受信ステップと、音量値計算手段が、映像音声信号受信ステップにて受信された前記映像音声信号から音量値を計算する音量計算ステップと、音量表示画像生成手段が、音量計算ステップにて計算された前記音量値から音量を示す音量表示画像を生成する音量表示画像生成ステップと、レイアウト設定情報受信手段が、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信ステップと、合成映像音声信号生成手段が、前記レイアウト設定情報に基づいて、前記映像音声信号と前記音量表示画像とを合成して合成映像音声信号を生成する合成映像音声信号生成ステップと、合成映像音声信号生成ステップにて合成された前記合成映像音声信号を前記映像音声端末に送信する送信ステップと、を有することを特徴とする。
第六の発明は、複数の映像音声端末から送信される映像音声信号を多地点接続装置で処理する信号処理方法であって、映像音声信号受信手段が、前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信ステップと、音量値計算手段が、前記映像音声信号から音量値を計算する音量値計算ステップと、レイアウト設定情報受信手段が、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信ステップと、合成情報信号生成手段が、前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成ステップと、送信手段が前記合成情報信号を前記映像音声端末に送信する送信ステップと、を備えることを特徴とする。
【0008】
第七の発明は、多地点接続装置から送信される合成情報信号を前記多地点接続装置に接続された映像音声端末で処理する信号処理方法であって、合成情報信号受信手段が、前記合成情報信号を受信する合成情報信号受信ステップと、音量表示画像生成手段が、前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段ステップと、映像音声合成手段が、前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成ステップと、を備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、各映像音声端末から送信された映像音声信号から音量値を計算し、音量値から音量表示画像を生成し、音量表示画像と各映像音声端末から送信された映像音声信号と合成した信号を生成するので、3地点以上の遠隔地を接続して行われる多地点間会議であっても、各映像音声端末にて各地点のマイクロフォン音量を別々に表示することができる。
【図面の簡単な説明】
【0010】
【図1】本発明が適用される通信システムの全体構成図である。
【図2】第一の実施形態に係る通信システムの構成を示すブロック図である。
【図3】一実施形態に係る復号手段の内部構成を示すブロック図である。
【図4】一実施形態に係る映像音声信号から音量値を計算する方法を示す図である。
【図5】(a)、(b)は、一実施形態に係る音量表示画像生成手段にて生成される音量表示画像の図である。
【図6】(a)、(b)は、一実施形態に係る映像レイアウトの図である。
【図7】(a)、(b)は、一実施形態に係る合成映像音声信号生成手段によって合成される映像の図である。
【図8】(a)、(b)は、第一の実施形態に係る通信システムの動作を示したシーケンスチャート図である。
【図9】第二の実施形態に係る通信システムの構成を示すブロック図である。
【図10】(a)、(b)は、一実施形態に係る付加情報のデータ構造の図である。
【図11】(a)、(b)は、一実施形態に係る音量表示画像生成手段によって合成される画像の図である。
【図12】第二の実施形態に係る通信システムの動作を示したシーケンスチャート図である。
【図13】第三の実施形態に係る通信システムの構成を示すブロック図である。
【図14】第三の実施形態に係る通信システムの動作を示したシーケンスチャート図である。
【発明を実施するための形態】
【0011】
〔第一の実施形態〕
本発明の第一の実施形態について図1及び図2に基づいて説明する。図1は、本発明が適用される通信システムの全体構成図である。図2は、第一の実施形態に係る通信システムの構成を示すブロック図である。本実施形態においては、多地点接続装置が、合成映像音声信号生成手段の前に音量値計算手段を備えている点に特徴がある。
【0012】
通信システム1は、複数の映像音声端末100−1〜100−nと、各映像音声端末100−1〜100−nにより送受信される映像音声信号や各種情報を中継する多地点接続装置200とが、互いに通信ネットワークにて接続された構成である。また、多地点接続装置200には、レイアウト設定情報送信手段300が、通信ネットワークを介して接続されている。レイアウト設定情報送信手段300は、映像音声端末100の表示手段に表示される映像や情報のレイアウトに関する情報であるレイアウト設定情報を多地点接続装置200に送信する手段である。
図示する多地点接続装置200には、n個(nは2以上の任意の数)の映像音声端末100−1〜100−nが接続されている。図1に示すように、各映像音声端末100は、各地点の映像を撮影するカメラ(撮影手段)、会議中の音声の入力を受け付けるとともに音声を電気信号に変換するマイク(音声入力手段)、及び、各地点からの映像等を表示するディスプレイやプロジェクタ(表示手段)等を有している。図2には、映像音声端末100−1〜100−n−1が映像及び音声を送信する送信端末として機能し、映像音声端末100−nが映像音声端末100−1〜100−n−1から送信された映像及び音声を受信する受信端末として機能する場合について示されている。
多地点接続装置200は、映像音声信号受信手段201、復号手段203、音量値計算手段205、音量表示画像生成手段207、レイアウト設定情報受信手段209、合成映像音声信号生成手段211、符号化手段213、及び送信手段215を備える。
【0013】
映像音声信号受信手段201は、映像音声端末100−1〜100−nより送信された映像音声信号を受信する。ここで、一般的に映像音声端末100から送信される映像音声信号は、圧縮された状態である。
復号手段203は、映像音声信号受信手段201にて受信した各圧縮された映像音声信号を復号する。ここで、復号手段の一例について説明する。図3は、一実施形態に係る復号手段の内部構成を示すブロック図である。復号手段203は、数種類の符号化方式に対応できるよう図3に示すような構成になっていてもよい。
復号手段203は、判定手段221と、復号方式選択手段223と、複数の単方式復号手段225a〜225c・・・を有する単方式復号手段群227と、を備えている。判定手段221は圧縮された映像音声信号の符号化方式を判定し、判定結果を復号方式選択手段223に出力する。復号方式選択手段223は、判定手段221から出力される判定結果にもとづき、単方式復号手段225a〜225c・・・の中から選択した1の単方式復号手段に、圧縮された映像音声信号を出力する。選択された単方式復号手段は、入力された圧縮された映像音声信号を復号し、映像音声信号を出力する。
【0014】
音量値計算手段205(図2)は、復号手段203において復号された各映像音声信号から、各音量値を計算して音量値情報として出力する。音量値の算出方法は種々存在するが、例えば、単位時間あたりの音声信号の最大振幅値や、実効値を用いて算出することなどが例として挙げられる。ここで「最大振幅値」とは、ある区間における、信号値の絶対値の最大値をさす。また「実効値」とは、ある区間における、信号値の二乗平均の平方根の値をさす。図4は、一実施形態に係る映像音声信号から音量値を計算する方法を示す図である。
例えば、音声信号をs(t)、単位時間をΔtとして、音声信号s(t)が時間の経過と共に図4のように推移する場合について考えると、最大振幅値を用いる場合の音量値volmaxは、以下の式で計算できる。
【0015】
【数1】

また、実効値を用いる場合の音量値volrmsは、以下の式で計算できる。
【0016】
【数2】

【0017】
また、音量値は必ずしも実際の最大振幅値などである必要はない。例えば0を無音状態、10を0dBの状態に対応させて、デシベル値を0〜10のように、所定の範囲の整数に正規化及び量子化したものを出力するといった方式でもよい。なお、「正規化」とは、一定の規則に従い、データを変形し利用しやすくすることをさす。
音量表示画像生成手段207(図2)は、音量値計算手段205から出力された音量値情報をもとに、音量を表す画像である音量表示画像を生成する。図5(a)、(b)は、一実施形態に係る音量表示画像生成手段にて生成される音量表示画像の図である。
【0018】
例えば、図5(a)において、音量表示画像231は、横に長い長方形の音量表示領域231aと、音量表示領域231a内に表示される長方形231bと、から構成されている。音量表示領域231aは所定の下地色にて表示される。また、長方形231bは、音量表示領域231aと少なくとも3辺で接するとともに音量表示領域231aの下地色とは異なる色で表示される。音量は、音量表示領域231a内の長方形231bの面積によって表現される。すなわち、音量表示領域231aのうち、音量値に応じた面積だけ色を変化させることにより、音量を表現する。例えば、(a−2)に示すように、音量最小時には長方形231bの面積がゼロとなり、音量表示領域231aのみが示された状態となる。また、(a−3)に示すように、音量最大時には長方形231bの面積が最大となり、音量表示領域231aの全てが長方形231bとなる。
また、図5(b)において音量表示画像233は、縦一列に整列した複数の長方形235aから構成される音量表示領域235(長方形列)と、音量を示す色付きの長方形237と、から構成されている。各長方形235aは所定の下地色にて表示される。また、長方形237は、音量表示領域235のうちの一部の長方形235aを下地色とは異なる色で塗りつぶしたものである。(b)において音量は長方形237の個数で表示される。すなわち、音量表示領域235のうち、音量値に応じた数の長方形235aの色を変化させることにより、音量を表現する。例えば、(b−2)に示すように、音量最小時に長方形237の数はゼロとなる。また(b−3)に示すように、音量最大時には、音量表示領域235の全ての長方形235aが長方形237となる。
なお、音量が視覚的に認識可能な画像であれば、図5に挙げた例以外のものでもよい。例えば、長方形以外の四角形、楕円、円、三角形など他の形態でもよい。
【0019】
レイアウト設定情報受信手段209(図2)は、レイアウト設定情報送信手段300から送信されたレイアウト設定情報を受信する。ここでレイアウト設定情報は、映像の配置情報を示す情報である。具体的には、映像音声端末100nにおいて、映像音声端末100−1〜100−nの映像をどのようなレイアウト、つまり配置で表示するかを表した情報である。なお、一般的にレイアウト設定情報送信手段300は映像音声端末100−nの内部に含まれており、レイアウト設定は映像音声端末100−nのユーザが映像音声端末100−nの操作ボタン等から自由に選択、指定できるようになっている。
【0020】
図6(a)、(b)は、一実施形態に係る映像レイアウトの図である。2地点の映像を1つの画面に表示する例を示している。具体的には、2地点間の会議において他地点の映像と自地点の映像を表示する場合、または、3地点間の会議において他地点の2つの映像を表示する場合の例である。
(a)の表示画面241は、画面全体を占める領域241Aと、領域241A上に重ねて表示され且つ領域241Aよりも小さい領域241Bと、からなるレイアウトの例である。領域241Aには、ある一地点の映像が表示され、領域241Bには他の地点の映像が表示される。(a)において領域241Bは、領域241Aの右下の部分に重ねて表示されているが、領域241Bの表示位置はこれに限定されるものではない。同様のレイアウトとして例えば、領域241Bが左下、左上、または右上に配置されていても良い。
また、(b)の表示画面243は、画面を横に2分割した左側の領域243Cと、右側の領域243Dと、からなるレイアウトの例である。領域243Cには、ある一地点の映像が表示され、領域243Dには他の地点の映像が表示される。同様のレイアウトとして、表示する映像の縦横比を保つため、各領域243C、243Dの上下部分をカットしたものも挙げられる。
もちろん、映像レイアウトには、図6(a)、(b)に挙げた例以外のものを用いてもよい。
【0021】
合成映像音声信号生成手段211(図2)は、レイアウト設定情報受信手段209で受信したレイアウト設定情報をもとに、復号手段203で復号した映像音声信号と、音量表示画像生成手段207で生成した音量表示画像とを合成する。なお、合成映像音声信号とは、少なくとも複数の映像音声端末からの映像音声信号が合成された信号である。本実施形態における合成映像音声信号は、映像音声信号の他に、更に映像音声信号も合成されている。図7(a)、(b)は、一実施形態に係る合成映像音声信号生成手段によって合成される映像の図である。
例えば(a)に示す合成映像は、図6(b)のレイアウトに対応したレイアウト設定情報を受信し、図5(a)のような音量表示画像を用いた場合の例である。表示画面243の各領域243C、243Dの下方に、音量表示画像231が表示されている。
【0022】
同様に、例えば(b)に示す合成映像は、図6(a)のレイアウトに対応したレイアウト設定情報を受信し、図5(b)のような音量表示画像を用いた場合の例である。表示画面241を構成する領域241Aの左端部と領域241Bの右端部に、それぞれ音量表示画像233が表示されている。
符号化手段213(図2)は、合成映像音声信号生成手段211から出力された合成映像音声信号を符号化して、データサイズを圧縮する。
送信手段215は、符号化手段213により圧縮された合成映像音声信号を映像音声端末100−nへと送信する。
映像音声端末100−nは、受信した合成映像音声信号をもとに図7(a)又は(b)のように合成された映像を、ディスプレイやプロジェクタなどの表示手段に出力する。なお、実際には映像音声端末100−1〜100−n−1も各映像音声端末100からの映像音声信号を受信するため、レイアウト設定情報受信手段209、合成映像音声信号生成手段211、符号化手段213、送信手段215の入出力はn個の信号となる。
【0023】
通信システム1の動作をシーケンスチャートに基づいて説明する。図8は、第一の実施形態に係る通信システムの動作を示したシーケンスチャート図である。
まず、レイアウト設定情報の処理に関する動作について(a)に基づいて説明する。レイアウト設定情報送信手段300は、多地点接続装置200にレイアウト設定情報を送信する(ステップS1)。多地点接続装置200のレイアウト設定情報受信手段209は、レイアウト設定情報を受信し(ステップS2)、記憶手段(不図示)に記憶する(ステップS3)。
【0024】
次に、映像音声の処理に関する動作を(b)に基づいて説明する。
映像音声端末100−1〜100−nは、多地点接続装置200に対して圧縮された映像音声信号を送信する(ステップS11、S12)。
多地点接続装置200の映像音声信号受信手段201は、映像音声端末100−1〜100−nからn個の圧縮された映像音声信号を受信する(ステップS13)。復号手段203は、圧縮された映像音声信号からのn個の圧縮された映像音声信号を復号する(ステップS14)。音量値計算手段205は、復号手段203にて復号されたn個の映像音声信号からn個の音量値を計算する(ステップS15)。音量表示画像生成手段207は、音量値計算手段205から出力されたn個の音量値情報からn個の音量表示画像を生成する(ステップS16)。合成映像音声信号生成手段211は、図8(a)のステップS3にて保存したレイアウト設定情報を取り出し、n個の映像音声信号とn個の音量表示画像を合成する(ステップS17)。符号化手段213は、合成映像音声信号生成手段211にて合成された合成映像音声信号を符号化する(ステップS18)。送信手段215は、符号化手段213により生成された圧縮合成映像音声信号を映像音声端末100−nに対して送信する(ステップS19)。
映像音声端末100−nは、圧縮合成映像音声信号を受信して(ステップS20)、復号し(ステップS21)、得られた圧縮された映像音声信号を表示手段に表示する(ステップS22)。
【0025】
以上のように本実施形態によれば、多地点接続装置は音量値計算手段と音量表示画像生成手段を備え、合成映像音声信号生成手段によって音量表示画像の合成された合成映像音声信号を、映像音声端末に対して送信する。映像音声端末では、既に音量表示画像の含まれた合成映像音声信号を受信することができる。従って、映像音声端末の構成に依存せず、他の映像音声端末のマイクロフォン音量を受信側の映像音声端末にて個別に表示することが可能である。
また、音量値を計算する際に最大振幅を利用することで、音量値として適切な値を用いることが出来る。また、音量値を計算する際に実効値を利用することで扱いやすい値を音量値として用いることが出来る。また、音量値を正規化及び量子化して利用することで音量を直感的で分かりやすく表示することが出来る。
なお、本実施形態においては説明を分かりやすくするため、映像音声端末100−nの受信動作についてのみ述べた。しかし、実際には映像音声端末100−1〜100−n−1も映像音声信号を受信しており、上述した処理と同様の処理が行われる。
【0026】
〔第二の実施形態〕
本発明の第二の実施形態について図9に基づいて説明する。図9は、第二の実施形態に係る通信システムの構成を示すブロック図である。本実施形態においては、音量表示画像の生成と、生成された音量表示画像と映像音声の合成と、を映像音声端末にて行う点に特徴がある。
通信システム2の多地点接続装置250には、n個(nは2以上の任意の数)の映像音声端末110−1〜110−nが接続されている。図9には、映像音声端末110−nで各映像音声端末110−1〜110−n−1からの映像音声を受信する場合について示してある。なお、映像音声端末110−1〜110−n−1については、第一の実施形態と同一構成の端末を用いても構わない。
多地点接続装置250は、映像音声信号受信手段201、復号手段203、音量値計算手段205、合成情報信号生成手段251、符号化手段253、レイアウト設定情報受信手段209、及び送信手段255を備える。ここで、映像音声信号受信手段201、復号手段203、音量値計算手段205、レイアウト設定情報受信手段209は、それぞれ第一の実施形態の多地点接続装置200中にある各手段と同様であるため、第一の実施形態と同一の符号を付してその説明を省略する。
【0027】
合成情報信号生成手段251は、レイアウト設定情報受信手段209で受信したレイアウト設定情報をもとに、復号手段203で復号した各映像音声信号を合成する。さらに、合成により生成された信号に、音量値計算手段205で計算した各音量値の情報(音量値情報;付加情報)を、レイアウト設定情報(付加情報)とともに埋め込んで合成情報信号を生成する。ここで付加情報の埋め込みは、復号した際に元の映像音声信号との差が少なくなるように行う。例えば映像音声信号の高周波成分に埋め込む。こうすることで、特別な構成ではない映像音声端末、具体的には後述する音量表示画像生成手段115や映像音声合成手段117を備えていない映像音声端末(例えば映像音声端末110)であっても映像音声信号を取得し、利用することが可能となり、データサイズの増加も防ぐことが出来る。
【0028】
図10(a)、(b)は、一実施形態に係る付加情報のデータ構造の図である。音量値情報とレイアウト設定情報は、例えば図10(a)のように、各映像音声端末の音量値情報とそのレイアウト情報が対応づけられたデータ構造となっている。各映像音声端末のレイアウト位置情報の表現としては、例えば、映像表示位置のXY座標値などがある。実際の値を入れた一例を図10(b)に示す。ここでは、図7(a)に対応した値を例として入れている。端末番号1、2については、音量表示画像231の左上の点の座標(160,560)、(800,560)と、右下の点の座標(320,620)、(960,620)が、それぞれレイアウト設定情報として入力されている。端末番号3についてレイアウト設定が負の値になっているのは、この番号に対応する映像音声端末の映像を表示しないことを表現している。
符号化手段253(図9)は、合成情報信号生成手段251の出力した合成情報信号を符号化して、データサイズを圧縮する。
送信手段255は、符号化手段253により圧縮された合成情報信号を映像音声端末110−nへと送信する。
【0029】
映像音声端末110−nは、合成情報信号受信手段111、復号手段113、音量表示画像生成手段115、及び映像音声合成手段117を備える。
合成情報信号受信手段111は、多地点接続装置250から送信された圧縮合成情報信号を受信する。
復号手段113は、圧縮されている合成情報信号を復号する。
音量表示画像生成手段115は、合成情報信号に埋め込まれた音量値情報とレイアウト設定情報をもとに、音量を示す音量表示画像を含む表示画面を生成する。図11(a)、(b)は、一実施形態に係る音量表示画像生成手段によって合成される画像の図である。
例えば、(a)に示す合成画像は、図5(a)のような音量表示方法と図6(b)に対応したレイアウト設定情報から生成される画像の例である。表示画面121の下方には、端末番号1、2に対応する映像音声端末の音量を示す音量表示画像231がそれぞれ表示される。
同様に、例えば(b)に示す合成画像は、図5(b)のような音量表示方法と図6(a)に対応したレイアウト設定情報から生成される画像の例である。表示画面123の左右端部下方には、端末番号1、2に対応する映像音声端末の音量を示す音量表示画像233がそれぞれ表示される。
もちろん、音量値と表示画像、レイアウト設定情報と表示位置が対応していれば、図11に挙げた例以外の映像を合成によって得てもよい。
【0030】
映像音声合成手段117(図9)は、復号手段113にて復号された合成情報信号と、音量表示画像生成手段115にて生成された音量表示画像と、を合成する。つまり映像音声合成手段117では、音量値情報が含まれた合成情報信号を映像音声信号とみなし、合成情報信号から映像音声信号のみを分離する処理を行わずにそのまま利用する。例えば、映像音声信号とみなした合成情報信号を図11(a)のような音量表示画像と合成すれば、図7(a)のような映像音声信号が得られる。
映像音声端末110−nは、合成した映像音声信号をもとに図7のような映像をディスプレイやプロジェクタなどの表示手段に出力する。
【0031】
以上説明した通信システム2の動作をシーケンスチャートに基づいて説明する。図12は、第二の実施形態に係る通信システムの動作を示したシーケンスチャート図である。この図には映像音声の処理に関する動作のみを示している。レイアウト設定情報の処理に関する動作については第一の実施形態(図8(a)参照)と同様であるため、その説明を省略する。また、第一の実施形態と同様の処理には同一のステップ番号を付してその説明を省略する。
映像音声端末110−1〜110−nは、多地点接続装置250に対して圧縮された映像音声信号を送信する(ステップS11、S12)。
多地点接続装置250では、ステップS13からステップS15までの処理を行う。
多地点接続装置250の合成情報信号生成手段251は、図8(a)のステップS3にて保存したレイアウト設定情報を取り出して、レイアウト設定情報をもとにn個の映像音声信号を合成する(ステップS31)。さらに、レイアウト設定情報と音量値情報とを含む付加情報を、合成された映像音声信号に埋め込み、合成情報信号を生成する(ステップS32)。
【0032】
得られた合成情報信号の符号化及び送信を行う(ステップS18’、S19’)。
映像音声端末110−nの合成情報信号受信手段111は、圧縮合成情報信号を受信する(ステップS20’)。復号手段113は、圧縮合成情報信号を復号する(ステップS21’)。音量表示画像生成手段115は、復号された合成情報信号に埋め込まれている音量値情報とレイアウト設定情報をもとに、音量表示画像を生成する(ステップS33)。映像音声合成手段117は、合成情報信号と音量表示画像を合成する(ステップS34)。得られた映像音声を表示手段に表示する(ステップS22’)。
【0033】
以上のように本実施形態によれば、複数の地点のマイクロフォン音量を個別に表示することが可能となる。また、送信端末となる他地点の映像音声端末の構成如何に関わらず、上記表示が可能である。
また、多地点接続装置の合成情報信号生成手段が、レイアウト設定情報及び音量値を含む付加情報を映像音声信号内に埋め込んで合成情報信号を生成し、合成情報信号を映像音声端末に送信するので、元の映像音声信号のデータサイズを大きくすることなく、音量値及びレイアウト設定情報の送受信を行うことができる。
また、第一の実施形態では映像音声端末の構成に関わらず、各映像音声端末において同様の映像を得られるが、映像音声端末に独自の音量表示手段があった場合などに、音量表示の多重化が起こることになってしまう。一方、第二の実施形態では映像音声端末に音量表示画像生成手段と映像音声合成手段とを備えたため、そのような事態は発生しない。
【0034】
〔第三の実施形態〕
第二の実施形態の変形である第三の実施形態について説明する。第二の実施形態に係る通信システム2(図9)においては、音量値情報とレイアウト設定情報を映像音声端末に送信するために、合成情報信号に音量値情報とレイアウト設定情報からなる付加情報を埋め込んだ。これとは異なり、埋め込みを行わずに、合成映像音声を第一のチャネル、付加情報を第二のチャネルとして映像音声端末に送信するようにしてもよい。図13は、第三の実施形態に係る通信システムの構成を示すブロック図である。第一及び第二の実施形態と同一の構成には同一の符号を付してその説明を省略する。
通信システム3の多地点接続装置260において、合成情報信号生成手段251は、付加情報生成手段261と合成映像音声信号生成手段263の2つを有している。付加情報生成手段261は、音量値とレイアウト設定情報から図10のようなデータ構造の付加情報を生成する。合成映像音声信号生成手段263は、レイアウト設定情報に基づいて、各映像音声端末130の映像音声信号を合成した合成映像音声信号を出力する。なお、本実施形態の合成情報信号生成手段251から出力される付加情報と合成映像音声信号とを合わせて合成情報信号と呼ぶ。
【0035】
符号化手段253は、付加情報符号化手段265と合成映像音声信号符号化手段267と、を備えている。付加情報符号化手段265は付加情報を符号化し、合成映像音声信号符号化手段267は合成映像音声信号を符号化して、データサイズを圧縮する。
送信手段255は付加情報送信手段269と合成映像音声信号送信手段277とを備えている。付加情報送信手段269は圧縮付加情報を送信し、合成映像音声信号送信手段277は圧縮合成映像音声信号を送信する。
映像音声端末130−nの合成情報信号受信手段111は付加情報受信手段131と合成映像音声信号受信手段133とを備える。付加情報受信手段131は、圧縮付加情報を受信し、合成映像音声信号受信手段133は、圧縮合成映像音声信号を受信する。
復号手段113は、付加情報復号手段135と合成映像音声信号復号手段137と、を備えている。付加情報復号手段135は圧縮付加情報を復号し、合成映像音声信号復号手段137は、圧縮合成映像音声信号を復号する。
【0036】
以上説明した通信システム3の動作をシーケンスチャートに基づいて説明する。図14は、第三の実施形態に係る通信システムの動作を示したシーケンスチャート図である。この図には映像音声の処理に関する動作のみを示している。レイアウト設定情報の処理に関する動作については第一の実施形態(図8(a)参照)と同様であるため、その説明を省略する。また、第一及び第二の実施形態と同様の処理には同一のステップ番号を付してその説明を省略する。
映像音声端末130−1〜130−nは、多地点接続装置260に対して圧縮された映像音声信号を送信する(ステップS11、S12)。
多地点接続装置260では、ステップS13からステップS15までの処理を行う。
多地点接続装置260の第一のチャネルでは、映像音声信号の処理を行う。合成映像音声信号生成手段263は、図8(a)のステップS3にて保存したレイアウト設定情報を取り出して、レイアウト設定情報をもとにn個の映像音声信号を合成する(ステップS41)。合成映像音声信号符号化手段267は、合成映像音声信号生成手段263にて合成された合成映像音声信号を符号化する(ステップS42)。合成映像音声信号送信手段271は、合成映像音声信号符号化手段267にて符号化された圧縮合成映像音声信号を映像音声端末130−nに対して送信する(ステップS43)。
【0037】
他方、多地点接続装置260の第二のチャネルでは、付加情報の処理を行う。付加情報生成手段261は、図8(a)のステップS3にて保存したレイアウト設定情報を取り出して、レイアウト設定情報と音量値情報とを含む付加情報を生成する(ステップS44)。付加情報符号化手段265は、付加情報生成手段261にて生成された付加情報を符号化する(ステップS45)。付加情報送信手段269は、付加情報符号化手段265にて符号化された圧縮付加情報を映像音声端末130−nに対して送信する(ステップS46)。
映像音声端末130−nの第一のチャネルでは、映像音声信号の処理を行う。合成映像音声信号受信手段133は、圧縮合成映像音声信号を受信する(ステップS47)。合成映像音声信号復号手段137は、圧縮合成映像音声信号を復号する(ステップS48)。
【0038】
他方、映像音声端末130−nの第二のチャネルでは、付加情報の処理を行う。付加情報受信手段131は、圧縮付加情報を受信する(ステップS49)。付加情報復号手段135は、圧縮付加情報を復号する(ステップS50)。音量表示画像生成手段115は、復号された付加情報に含まれる音量値情報とレイアウト設定情報をもとに、音量表示画像を生成する(ステップS33’)。
映像音声合成手段117は、合成映像音声信号復号手段137にて復号された合成映像音声信号と、音量表示画像生成手段115にて生成された音量表示画像とを合成する(ステップS34’)。そして得られた映像音声信号を表示手段に表示する(ステップS22”)。
【0039】
以上のように、本実施形態においては、付加情報と映像音声信号とを異なるチャネルにて送信するので、元の映像音声信号に変化を加えずに音量値情報を送受信することができる。
また、第一の実施形態では映像音声端末の構成に関わらず同様の映像を得られるが、映像音声端末に独自の音量表示手段があった場合などに、音量表示の多重化が起こることになってしまう。一方、第二の実施形態では映像音声端末に映像音声端末に音量表示画像生成手段と映像音声合成手段とを備えたため、そのような事態は発生しない。
【符号の説明】
【0040】
1、2、3…通信システム、100、110、130…映像音声端末、111…合成情報信号受信手段、113…復号手段、115…音量表示画像生成手段、117…映像音声合成手段、121、123…表示画面、131…付加情報受信手段、133…合成映像音声信号受信手段、135…付加情報復号手段、137…合成映像音声信号復号手段、200、250、260…多地点接続装置、201…映像音声信号受信手段、203…復号手段、205…音量値計算手段、207…音量表示画像生成手段、209…レイアウト設定情報受信手段、211…合成映像音声信号生成手段、213…符号化手段、215…送信手段、221…判定手段、223…復号方式選択手段、225…単方式復号手段、227…単方式復号手段群、231…音量表示画像、231a…音量表示領域、231b…長方形、233…音量表示画像、235…音量表示領域、235a…長方形、237…長方形、241、243…表示画面、251…合成情報信号生成手段、253…符号化手段、255…送信手段、261…付加情報生成手段、263…合成映像音声信号生成手段、265…付加情報符号化手段、267…合成映像音声信号符号化手段、269…付加情報送信手段、277…合成映像音声信号送信手段、271…合成映像音声信号送信手段、300…レイアウト設定情報送信手段
【先行技術文献】
【特許文献】
【0041】
【特許文献1】特開2004−186870公報
【特許文献2】特開平7−226800号公報

【特許請求の範囲】
【請求項1】
複数の映像音声端末が接続された多地点接続装置であって、
前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、
前記映像音声信号から音量値を計算する音量値計算手段と、
前記音量値計算手段により計算された音量値に基づいて音量を示す音量表示画像を生成する音量表示画像生成手段と、
前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、
前記レイアウト設定情報に基づいて、前記映像音声信号と前記音量表示画像とを合成して合成映像音声信号を生成する合成映像音声信号生成手段と、
前記合成映像音声信号を前記映像音声端末に送信する送信手段と、を備えることを特徴とする多地点接続装置。
【請求項2】
複数の映像音声端末が接続される多地点接続装置であって、
前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、
前記映像音声信号から音量値を計算する音量値計算手段と、
前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、
前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成手段と、
前記合成情報信号を前記映像音声端末に送信する送信手段と、を備えることを特徴とする多地点接続装置。
【請求項3】
請求項2に記載の多地点接続装置に接続される映像音声端末であって、
前記合成情報信号を受信する合成情報信号受信手段と、
前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段と、
前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成手段と、を備えることを特徴とする映像音声端末。
【請求項4】
多地点接続装置と1つ以上の映像音声端末とが通信ネットワークを介して接続される通信システムであって、
前記多地点接続装置は、
前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信手段と、
前記映像音声信号から音量値を計算する音量値計算手段と、
前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信手段と、
前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成手段と、
前記合成情報信号を前記映像音声端末に送信する送信手段と、を備え、
前記映像音声端末は、
前記合成情報信号を受信する合成情報信号受信手段と、
前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段と、
前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成手段と、を備えることを特徴とする通信システム。
【請求項5】
前記音量値は、単位時間あたりの音声信号の最大振幅値であることを特徴とする請求項1又は2に記載の多地点接続装置。
【請求項6】
前記音量値は、単位時間あたりの音声信号の最大振幅値であることを特徴とする請求項3に記載の映像音声端末。
【請求項7】
前記音量値は、単位時間あたりの音声信号の最大振幅値であることを特徴とする請求項4に記載の通信システム。
【請求項8】
前記音量値は、単位時間あたりの音声信号の実効値であることを特徴とする請求項1又は2に記載の多地点接続装置。
【請求項9】
前記音量値は、単位時間あたりの音声信号の実効値であることを特徴とする請求項3に記載の映像音声端末。
【請求項10】
前記音量値は、単位時間あたりの音声信号の実効値であることを特徴とする請求項4に記載の通信システム。
【請求項11】
前記合成情報信号は、前記レイアウト設定情報と前記音量値を前記映像音声信号内に埋め込んだ信号であることを特徴とする請求項2に記載の多地点接続装置。
【請求項12】
前記合成情報信号は、前記レイアウト設定情報と前記音量値を前記映像音声信号内に埋め込んだ信号であることを特徴とする請求項4、7、又は10に記載の通信システム。
【請求項13】
前記合成情報信号は、前記レイアウト設定情報に基づいて前記映像音声信号が合成された合成映像音声信号と、前記レイアウト設定情報と前記音量値により構成された付加情報と、を含み、
前記合成情報信号生成手段は、前記合成映像音声信号を第一のチャネルとして出力し、前記付加情報を第二のチャネルとして出力し、
前記送信手段は前記音声映像端末に対して、前記合成映像音声信号を第一のチャネルとして送信し、前記付加情報を第二のチャネルとして送信することを特徴とする請求項2に記載の多地点接続装置。
【請求項14】
前記合成情報信号は、前記レイアウト設定情報に基づいて前記映像音声信号が合成された合成映像音声信号と、前記レイアウト設定情報と前記音量値により構成された付加情報と、を含み、
前記合成情報信号受信手段は、前記合成映像音声信号を第一のチャネルにて受信し、前記付加情報を第二のチャネルにて受信し、
前記音量表示画像生成手段は、前記付加情報から音量を示す音量表示画像を生成し、
前記映像音声合成手段は、前記合成映像音声信号に前記音量表示画像を合成することを特徴とする、請求項3、6、又は9に記載の映像音声端末。
【請求項15】
前記合成情報信号は、前記レイアウト設定情報に基づいて前記映像音声信号が合成された合成映像音声信号と、前記レイアウト設定情報と前記音量値により構成された付加情報と、を含み、
前記合成情報信号生成手段は、前記合成映像音声信号を第一のチャネルとして出力し、前記付加情報を第二のチャネルとして出力し、
前記送信手段は前記音声映像端末に対して、前記合成映像音声信号を第一のチャネルとして送信し、前記付加情報を第二のチャネルとして送信し、
前記合成情報信号受信手段は、前記合成映像音声信号を第一のチャネルにて受信し、前記付加情報を第二のチャネルにて受信し、
前記音量表示画像生成手段は、前記付加情報から音量を示す音量表示画像を生成し、
前記映像音声合成手段は、前記合成映像音声信号に前記音量表示画像を合成することを特徴とする請求項4、7、又は10に記載の通信システム。
【請求項16】
複数の映像音声端末から送信される映像音声信号を多地点接続装で処理する信号処理方法であって、
映像音声信号受信手段が、前記各映像音声端末から送信される前記映像音声信号を夫々受信する映像音声信号受信ステップと、
音量値計算手段が、映像音声信号受信ステップにて受信された前記映像音声信号から音量値を計算する音量計算ステップと、
音量表示画像生成手段が、音量計算ステップにて計算された前記音量値から音量を示す音量表示画像を生成する音量表示画像生成ステップと、
レイアウト設定情報受信手段が、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信ステップと、
合成映像音声信号生成手段が、前記レイアウト設定情報に基づいて、前記映像音声信号と前記音量表示画像とを合成して合成映像音声信号を生成する合成映像音声信号生成ステップと、
合成映像音声信号生成ステップにて合成された前記合成映像音声信号を前記映像音声端末に送信する送信ステップと、を有することを特徴とする信号処理方法。
【請求項17】
複数の映像音声端末から送信される映像音声信号を多地点接続装置で処理する信号処理方法であって、
映像音声信号受信手段が、前記各映像音声端末から出力された映像音声信号を受信する映像音声信号受信ステップと、
音量値計算手段が、前記映像音声信号から音量値を計算する音量値計算ステップと、
レイアウト設定情報受信手段が、前記映像音声端末に表示される映像の配置情報を示すレイアウト設定情報を受信するレイアウト設定情報受信ステップと、
合成情報信号生成手段が、前記映像音声信号、前記音量値、及び前記レイアウト設定情報から合成情報信号を生成する合成情報信号生成ステップと、
送信手段が前記合成情報信号を前記映像音声端末に送信する送信ステップと、を備えることを特徴とする信号処理方法。
【請求項18】
多地点接続装置から送信される合成情報信号を前記多地点接続装置に接続された映像音声端末で処理する信号処理方法であって、
合成情報信号受信手段が、前記合成情報信号を受信する合成情報信号受信ステップと、
音量表示画像生成手段が、前記合成情報信号に含まれる音量値とレイアウト設定情報とから音量を示す音量表示画像を生成する音量表示画像生成手段ステップと、
映像音声合成手段が、前記合成情報信号に含まれる映像音声信号に前記音量表示画像を合成する映像音声合成ステップと、を備えることを特徴とする信号処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2013−21633(P2013−21633A)
【公開日】平成25年1月31日(2013.1.31)
【国際特許分類】
【出願番号】特願2011−155690(P2011−155690)
【出願日】平成23年7月14日(2011.7.14)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】