説明

映像送受信システム及び映像送信方法

【課題】ネットワークの状態に合わせて送信データ量を調整するネットワーク帯域制御技術と、送信する映像にどのようなものが映っているかを検知する画像認識技術を組み合わせることにより、映像にとって重要な情報を優先して送信することのできる映像送信システムを提供する。
【解決手段】映像送信装置(14A)は、ネットワーク40の状態を検知し、ネットワークの状態に合った送信データ量を算出するネットワーク状態検知手段20Aと、映像データを送信するに当たり映像データの内容を判別して優先される映像パラメータを決定する映像判別手段22と、ネットワーク状態検知手段により算出された送信データ量(D3)と映像判別手段により決定された映像パラメータ(D7)とに基づいて映像データを圧縮符号化するエンコーダー16Aと、を備えたことを特徴とする映像送受信システム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遠隔地にて開催される会議をネットワークにより中継するTV会議システム等における映像の送受信システムに関し、特に、ネットワークの状態に応じて映像の品質を調整した上で送信する映像送信装置を備えた映像送受信システム及び映像送信方法に関する。
【背景技術】
【0002】
TV会議システムでは大容量のデータをリアルタイムに送受信するため、使用するネットワークの品質が保証されていない場合においては、十分な性能を発揮できないことがある。そこで、端末装置と端末装置間の通信を中継するサーバーは通信パケットの損失や通信遅延時間などの情報を交換し、使用できるネットワークの状態を検知する。この検知したネットワークの状態情報に合わせて、端末装置は送受信する映像の解像度やフレームレートを調整するという制御技術が考えられ既に知られている。
例えば、特許文献1には、音声品質の劣化や遅延を抑える目的で、ネットワークの状態や各クライアントのCPUの状態の変化によって、クライアントまたは各サーバーに対してビットレート、フレームレート、解像度およびフレーム間引きの少なくとも1つを含む映像の品質を調整するように制御する映像音声制御装置が開示されている。
【0003】
図4は、従来のTV会議システムの構成を示す図である。図4においては、TV会議システムのうち、特に映像データに関する部分のみを記載している。
TV会議システム100は、第一の拠点に設置されたカメラ110A、ディスプレイ112A、端末装置114Aと、第二の拠点に設置されたカメラ110B、ディスプレイ112B、端末装置114Bと、端末装置114Aと114Bとの間を中継するサーバー130により構成されている。端末装置114Aと端末装置114Bとサーバー130とは、インターネットやイントラネット等のネットワーク140にて接続されている。
【0004】
以下、例えばカメラ110Aとカメラ110Bとをまとめて「カメラ110」と表記する。他の装置についても同様に表記する。
カメラ110は、TV会議をしている際の映像を撮影する。ディスプレイ112は他拠点の映像を表示する。端末装置114は、画像データ等の通信を行う。
端末装置114は、エンコーダー116、デコーダー118、及びネットワーク状態検知部120を備えている。エンコーダー116は自拠点の映像を圧縮符号化して送信し、デコーダー118は他拠点から受信した画像データを復号化する。ネットワーク状態検知部120は、ネットワーク140の状態(使用可能な通信帯域、パケット損失率など)を検知し、その状態に合った送信データ量をエンコーダー116に伝える。
サーバー130は異なる拠点に存在する端末装置間(端末装置114Aと端末装置114B)の画像データ等を中継する。
【0005】
送信側の端末装置114Aはカメラ110Aによって撮影した映像データ(映像データD11)を自らが備えるエンコーダー116Aにより圧縮符号化してサーバー130に送信する(符号化データD14)。サーバー130は、端末装置114Aから受け取った映像データ(符号化データD14)を受信側の端末装置114Bに中継する(中継データD15)。映像データ(中継データD15)を受け取った端末装置114Bは、自らが備えるデコーダー118Bにより映像データを復号化し(復号データD16)、ディスプレイ112Bに映し出す。これを双方向に行うことにより、互いの映像を送受信している。
ここで、送信側の端末装置114Aのネットワーク状態検知部120Aは端末装置114A、114B間を中継するサーバー130とネットワーク140の状態の情報(状態情報D12)を交換している。状態情報D12から、ネットワーク状態検知部120Aは、ネットワーク140の状態に合った送信データ量をエンコーダー116Aに伝える(データ量情報D13)。データ量情報D13を受けて、エンコーダー116Aはパラメータを調節し、映像データD11を圧縮符号化する。
【0006】
図5は、従来のTV会議システムの動作を示したフローチャート図である。
従来のTV会議システム100においては、ステップS101:ネットワーク状態検知部120Aが、サーバー130とネットワーク140の状態に関する情報を交換し、ネットワーク140の状態を検知する。
ステップS102:検知されたネットワーク140の状態に関する情報から、ネットワーク状態検知部120Aが、送信可能なデータ量を算出してエンコーダー116Aに伝える。
ステップS103:エンコーダー116Aは、送信可能なデータ量に合わせて、カメラ110Aにて撮影された映像データの圧縮符号化を行う。
ステップS104:エンコーダー116Aは、圧縮符号化された映像データをサーバー130に送信する。
ステップS105:エンコーダー116Aから映像データを受信したサーバー130は、他拠点の端末装置114Bに映像データを送信する。
ステップS106:デコーダー118Bは、サーバー130から受け取った映像データを復号する。
ステップS107:復号された映像データをディスプレイ112Bに表示する。
というステップでTV会議の映像配信を実施している。このようにTV会議システム100においては、ネットワーク140の状態を考慮して適宜映像品質を調整しているので、音声品質の劣化や遅延を防止することができる。
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1に記載された映像音声制御装置や、上述のTV会議システム100等、従来の制御技術では、ネットワークの状態や端末装置のCPU負荷のみに基づいて送信する映像データの品質を調節しており、例えば、解像度とフレームレートの何れを優先するべきかについては考慮されていなかった。そのため、解像度が重要な映像であるにも関わらず、解像度を下げることでシステムが利用するネットワーク帯域を減らすといった調整が行われる結果、映像データにとって最適ではない品質調整が行われるといった問題があった。
本発明は、上述の事情に鑑みてなされたものであり、ネットワークの状態に合わせて送信データ量を調整するネットワーク帯域制御技術と、送信する映像にどのようなものが映っているかを検知する画像認識技術を組み合わせることにより、映像にとって重要な情報を優先して送信することのできる映像送信装置を備えた映像送受信システム及び映像送信方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、請求項1に記載の発明は、映像データを送信する映像送信装置と、前記映像データを受信して表示する映像受信装置と、がネットワークを介して接続されている映像送受信システムであって、前記映像送信装置は、前記ネットワークの状態を検知し、該ネットワークの状態に合った送信データ量を算出するネットワーク状態検知手段と、前記映像データを送信するに当たり該映像データの内容を判別して優先される映像パラメータを決定する映像判別手段と、前記ネットワーク状態検知手段により算出された送信データ量と前記映像判別手段により決定された映像パラメータとに基づいて前記映像データを圧縮符号化するエンコーダーと、を備えた映像送受信システムを特徴とする。
請求項2に記載の発明は、前記映像判別手段は、前記映像データの内容を画像認識手段により判別する請求項1記載の映像送受信システムを特徴とする。
【0009】
請求項3に記載の発明は、前記画像認識手段により前記映像データが動的な映像と判別された場合、前記映像判別手段は、映像パラメータのうちフレームレートを前記優先される映像パラメータとして決定する請求項2記載の映像送受信システムを特徴とする。
請求項4に記載の発明は、前記画像認識手段により前記映像データが静的な映像と判別された場合、前記映像判別手段は、映像パラメータのうち解像度を前記優先される映像パラメータとして決定する請求項2記載の映像送受信システムを特徴とする。
請求項5に記載の発明は、映像データを送信する映像送信装置と、前記映像データを受信して表示する映像受信装置と、がネットワークを介して接続されている映像送受信システムにおける映像送信方法であって、ネットワーク状態検知手段が、前記ネットワークの状態を検知し、該ネットワークの状態に合った送信データ量を算出するステップと、映像判別手段が、前記映像データを送信するに当たり該映像データの内容を判別して優先される映像パラメータを決定するステップと、エンコーダーが、前記ネットワーク状態検知手段により算出された送信データ量と前記映像判別手段により決定された映像パラメータとに基づいて前記映像データを圧縮符号化するステップと、を有する映像送信方法を特徴とする。
【発明の効果】
【0010】
本発明によれば、端末装置は送信する映像の内容を判別し、優先される映像パラメータを残すように映像の調整を行うようエンコーダーに指示するので、ネットワークの状態に合わせて送信する映像を調整する際に、送信する映像の内容を考慮した調整を行うことで、映像にとって重要な情報を優先して送信することができる。
【図面の簡単な説明】
【0011】
【図1】本発明に係るTV会議システムの構成を示す図である。
【図2】本発明に係るTV会議システムの映像エンコード方法を示す図である。
【図3】本発明に係るTV会議システムの動作を示したフローチャートである。
【図4】従来のTV会議システムの構成を示す図である。
【図5】従来のTV会議システムの動作を示したフローチャートである。
【発明を実施するための形態】
【0012】
本発明の実施の形態を説明する。本発明は、TV会議システムのようなリアルタイムで映像を送受信するシステムにおいて、端末装置や端末装置間を中継するサーバーが行う送信映像の調整に際して、以下の特徴を有する。
要するに、端末装置は送信する映像の内容を判別し、その映像にとって重要な映像パラメータを残すように映像の調整を行うようエンコーダーに指示することが特徴になっている。そのため、本発明における端末装置は映像判別部を備えている。
上記記載の本発明の特徴について、以下の図面を用いて詳細に解説する。
【0013】
図1は、本発明に係るTV会議システムの構成を示す図である。図1においては、TV会議システムのうち、特に映像データに関する部分のみを記載している。
TV会議システム1は、第一の拠点に設置されたカメラ10A、ディスプレイ12A、端末装置14Aと、第二の拠点に設置されたカメラ10B、ディスプレイ12B、端末装置14Bと、端末装置14Aと14Bとの間を中継するサーバー30により構成されている。端末装置14Aと端末装置14Bとサーバー30とは、インターネットやイントラネット等のネットワーク40にて接続されている。
なお、図1においては、第一の拠点を送信側、第二の拠点を受信側として説明するが、実際には、各拠点に設置された夫々の装置は同一の構成を有しており、ともに送受信が可能である。以下、例えばカメラ10Aとカメラ10Bとをまとめて「カメラ10」と表記する。他の装置についても同様に表記する。
【0014】
カメラ10は、TV会議をしている際の映像を撮影する。ディスプレイ12は他拠点の映像を表示する。端末装置14は、画像データ等の通信を行う。
端末装置14は、エンコーダー16、デコーダー18、ネットワーク状態検知部20、及び映像判別部22を備えている。エンコーダー16は自拠点の映像を圧縮符号化して送信し、デコーダー18は他拠点から受信した画像データを復号化する。ネットワーク状態検知部20は、ネットワーク40の状態(使用可能な通信帯域、パケット損失率など)を検知し、その状態に合った送信データ量、即ちビットレートをエンコーダー16に伝える。ネットワーク状態検知部20の具体的なネットワーク40の状態の検知方法は、特許文献2に記載される方法で実現される。本発明の特徴的な構成である映像判別部22は、周知の画像認識技術(画像認識手段)を利用して映像の内容を判別し、解像度又はフレームレートの何れが映像にとって重要であるかを判定する。
サーバー30は異なる拠点に存在する端末装置間(端末装置14Aと端末装置14B)の画像データ等を中継する。
【0015】
送信側のカメラ10Aによって撮影された映像データ(映像データD1)は、エンコーダー16Aと映像判別部22Aに入力される。送信側の端末装置14Aはカメラ10Aによって撮影した映像データ(映像データD1)を自らが備えるエンコーダー16Aにより圧縮符号化してサーバー30に送信する(符号化データD4)。サーバー30は、端末装置14Aから受け取った映像データ(符号化データD4)を受信側の端末装置14Bに中継する(中継データD5)。映像データ(中継データD5)を受け取った端末装置14Bは、自らが備えるデコーダー18Bにより映像データを復号化し(復号データD6)、ディスプレイ12Bに映し出す。これを双方向に行うことにより、互いの映像を送受信している。
このとき、送信側の端末装置14Aのネットワーク状態検知部20Aは端末装置14A、14B間を中継するサーバー30とネットワーク40の状態の情報(状態情報D2)を交換している。状態情報D2から、ネットワーク状態検知部20Aは、ネットワーク40の状態に合った送信データ量をエンコーダー16Aに伝える(データ量情報D3)。
ここで検知したネットワークの状態が悪く、送信できるデータ量に制限のある時に本発明は効力を示す。映像判別部22Aは映像データD1から映像の内容を判別し、映像パラメータのうち解像度又はフレームレートのどちらがその映像にとって重要であるものかを判定し、重要性の高いパラメータを残すようにエンコーダー16Aに伝える(優先情報D7)。エンコーダー16Aは、ネットワークの状態に合った送信データ量(データ量情報D3)と優先情報D7とに基づいて、映像データD1を圧縮符号化する。
【0016】
図2は本発明に係るTV会議システムの映像エンコード方法を示す図である。映像データD1を解像度優先でエンコードした場合、フレームレートは下げ、解像度は大きなままでエンコードを行う(解像度優先エンコードE1)。フレームレート優先でエンコードした場合、フレームレートは下げないで、解像度を小さくしてエンコードを行う(フレームレート優先エンコードE2)。以上のようにして、ネットワーク状態が悪く、送信できるデータ量に制限のある場合においても、送信できるデータ量に合わせながら映像における優先パラメータを落とさずに映像を送信することが可能になる。
なお、映像判別部22Aでは既存の顔検出技術などの画像認識技術を用いて、撮影した映像の内容を判別する。
【0017】
例えば、非特許文献1に記載された顔認識技術を用いて、顔が認識されれば、映像内に人物がいると判断できるため、動きのある映像(動的な映像)だということが分かる。このときには、フレームレートが重要であると判断し、優先的にフレームレートを残すようにエンコーダー16Aに伝える。逆に、顔が検出されなければ動きのない静的な映像である可能性が高い。TV会議の場合、フレームレートよりも解像度の方が重要であると判断し、優先的に解像度を残すようにエンコーダー16Aに伝える。
また、同様の顔検出技術を用いて、映像内に人物が何人いるかをフレームレート優先度の指標として用いることも可能である。つまり、映像内の人物が増えればその分動きが多くなると判断し、更にフレームレートを優先するようにエンコーダー16Aに伝える。逆に人が少なければ、それだけ動きが少なくなるものと判断し、解像度を優先するようにエンコーダー16Aに伝える。
【0018】
顔を検出してトラッキングすることにより映像内の人物の動きを検出する方法を使うと、人物に動きがあればフレームレートを、人物に動きが無ければ解像度を優先することが可能である。例えば、映像内に人物が増える、または人物の動きを検知して、一時的にフレームレートを優先するようにエンコーダー16Aに伝えていたが、人物の動きが無くなった時には、顔検出後のトラッキングからその人物の動きが無くなったことを検知し、解像度を優先するようにエンコーダー16Aに伝えるといったようにもできる。
顔検出技術以外にも動きを検出する方法はある。例えば、前のフレームと現在のフレームとの差分を算出し、その大小で映像内に動きがあるかどうかを検知すれば、例え映像内に人物がいない場合においても動きを検出でき、フレームレートと解像度のどちらを優先するか判断が可能である。
【0019】
図3は、本発明に係るTV会議システムの動作を示したフローチャート図である。
本発明を利用し、映像内に人物がいるかどうかを判断できるTV会議システム1では、
ステップS1:ネットワーク状態検知部20Aが、サーバー30とネットワーク40の状態に関する情報(状態情報D2)を交換し、ネットワーク40の状態を検知する。
ステップS2:検知されたネットワーク40の状態に関する状態情報D2から、ネットワーク状態検知部20Aが、送信可能なデータ量を算出し、データ量情報D3としてエンコーダー16Aに伝える。
ステップS3:映像判別部22Aは、撮影された映像データD1内に人物がいるかどうか判別する。
ステップS4:映像データD1内に人物がいる場合(ステップS3でyes)、映像判別部22Aは、優先的にフレームレートを残すようにエンコーダー16Aに伝え(優先情報D7)、エンコーダー16Aは優先情報D7に基づいてフレームレート優先で送信可能なデータ量に合わせて映像データD1の圧縮符号化を行う。
【0020】
ステップS5:映像データD1内に人物がいない場合(ステップS3でno)、映像判別部22Aは、優先的に解像度を残すようにエンコーダー16Aに伝え(優先情報D7)、エンコーダー16Aは優先情報D7に基づいて解像度優先で送信可能なデータ量に合わせて映像データD1の圧縮符号化を行う。
ステップS6:エンコーダー16Aは、圧縮符号化された映像データをサーバー30に送信する。
ステップS7:エンコーダー16Aから映像データを受信したサーバー30は、他拠点の端末装置14Bに映像データを送信する。
ステップS8:デコーダー18Bは、サーバー30から受け取った映像データを復号化する。
ステップS9:復号された映像データをディスプレイ12Aに表示する。
というステップでTV会議の映像配信を実施できる。
【0021】
この実施形態においては、映像内の人物を認識する画像認識技術を用いて映像の内容(どのようなものが映っている映像であるか)を判別しているが、撮影する状況、目的に合わせて他の画像認識技術に組み替えることで、様々な映像の内容を判別することが可能である。そして、判別された映像の内容に基づいて、優先的に残す映像パラメータを決定する。特に、動的な映像の場合にはフレームレートを優先的に残すようにし、静的な映像の場合には解像度を優先的に残すようにする。
このような構成においては、映像データはネットワーク40の状態だけではなく、撮影した映像の内容を考慮することができるので、解像度が重要な映像においては解像度を優先的に残し、フレームレートを下げて圧縮符号化することで利用するネットワーク帯域を減らすといったような、映像にとって最適な調整を行うことができる。
【符号の説明】
【0022】
1…TV会議システム、10…カメラ、12…ディスプレイ、14…端末装置、16…エンコーダー、18…デコーダー、20…ネットワーク状態検知部、22…映像判別部、30…サーバー、40…ネットワーク、100…TV会議システム、110…カメラ、112…ディスプレイ、114…端末装置、116…エンコーダー、118…デコーダー、120…ネットワーク状態検知部、130…サーバー、140…ネットワーク
【先行技術文献】
【特許文献】
【0023】
【特許文献1】特開2007−194823公報
【特許文献2】特開2006−128997公報
【非特許文献】
【0024】
【非特許文献1】社団法人電子情報通信学会 信学技報PRMU2005-99(2005-10)「GMMによる肌モデルを用いた背景にロバストな人物検出」

【特許請求の範囲】
【請求項1】
映像データを送信する映像送信装置と、前記映像データを受信して表示する映像受信装置と、がネットワークを介して接続されている映像送受信システムであって、
前記映像送信装置は、前記ネットワークの状態を検知し、該ネットワークの状態に合った送信データ量を算出するネットワーク状態検知手段と、前記映像データを送信するに当たり該映像データの内容を判別して優先される映像パラメータを決定する映像判別手段と、前記ネットワーク状態検知手段により算出された送信データ量と前記映像判別手段により決定された映像パラメータとに基づいて前記映像データを圧縮符号化するエンコーダーと、を備えたことを特徴とする映像送受信システム。
【請求項2】
前記映像判別手段は、前記映像データの内容を画像認識手段により判別することを特徴とする請求項1記載の映像送受信システム。
【請求項3】
前記画像認識手段により前記映像データが動的な映像と判別された場合、前記映像判別手段は、映像パラメータのうちフレームレートを前記優先される映像パラメータとして決定することを特徴とする請求項2記載の映像送受信システム。
【請求項4】
前記画像認識手段により前記映像データが静的な映像と判別された場合、前記映像判別手段は、映像パラメータのうち解像度を前記優先される映像パラメータとして決定することを特徴とする請求項2記載の映像送受信システム。
【請求項5】
映像データを送信する映像送信装置と、前記映像データを受信して表示する映像受信装置と、がネットワークを介して接続されている映像送受信システムにおける映像送信方法であって、
ネットワーク状態検知手段が、前記ネットワークの状態を検知し、該ネットワークの状態に合った送信データ量を算出するステップと、
映像判別手段が、前記映像データを送信するに当たり該映像データの内容を判別して優先される映像パラメータを決定するステップと、
エンコーダーが、前記ネットワーク状態検知手段により算出された送信データ量と前記映像判別手段により決定された映像パラメータとに基づいて前記映像データを圧縮符号化するステップと、を有することを特徴とする映像送信方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−80518(P2012−80518A)
【公開日】平成24年4月19日(2012.4.19)
【国際特許分類】
【出願番号】特願2011−148960(P2011−148960)
【出願日】平成23年7月5日(2011.7.5)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】