説明

画像処理サーバ、画像処理端末及びビデオ会議システム

【課題】システム全体の負荷を低減するとともに、消費電力を低減する。
【解決手段】サーバ27は、端末A21及び端末B24から受信した映像ストリームをシンタックス解析し、シンタックス解析結果を用いて、映像フレームの前景と背景を判定して背景マップ情報を生成し、シンタックス解析結果及び背景マップ情報を用いて、映像ストリームをデコードするデコーダ27a、27bと、デコードされた映像を合成する画像合成部27cと、合成された映像をエンコードするエンコーダ27d、27eを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理を行う画像処理サーバ、画像処理端末及びそれを具備するビデオ会議システムに関する。
【背景技術】
【0002】
ビデオ会議システムにおいて、各端末と通信を中継するサーバには、動画像コーデックが必要である。近年、動画像圧縮技術として、H.264/AVCやH.264/SVC等が広く用いられている。ビデオ会議システムでは、端末で撮影した映像をエンコーダで符号化してサーバに送信する。また、サーバで符号化されたビットストリームを端末のデコーダで復号化する。サーバは複数コーデックを利用して、各端末からの映像を1つに合成して、それぞれの端末に配信する。しかし、H.264/AVCやH.264/SVC等の複雑度の高いコーデックをシステムに導入すると、端末とサーバの両方が高負荷になってしまい、ビデオ会議の高品質や低遅延の要求に応えることが難しい。そこで、端末やサーバの負荷又は消費電力を下げることができるビデオ会議システムが考えられている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
従来のビデオ会議システムでは、撮影された映像内容に関わらず、圧縮技術を使って全ての映像フレームを端末からサーバに送信する。ビデオ会議の特徴は、会議用のカメラは長時間固定されて、画面に背景の部分が多くなることである。もしその背景部分の検知ができれば、低負荷のビデオ会議システムが実現可能となる。しかし、現在の背景検知技術は高複雑度のアルゴリズムを利用しているので、ビデオ会議システムにネガティブな影響を与える。例えば、GMM(Gaussian Mixture Model)という背景検知技術では、各ピクセルのガウシアン分布を計算するので、最低3つのフレームを保存することが必要である。更に、GMMのような背景検知技術は演算量が多く、低負荷のビデオ会議システムを目標としても、逆に高負荷の背景検知処理が追加されるので、システム全体の負荷又は消費電力が増加するという問題があった。
【0004】
関連する技術として、特許文献1には、異種のネットワーク環境/端末上で低遅延と高品質のビデオ会議を行う目的で、サーバ側でスケーラブルなビデオ符号化(SVC)フォーマットを用いて、各端末からの映像情報を1つに合成する技術が開示されている。スケーラブルなビデオ符号化としては、サーバ側の合成した映像ストリーム中に複数レイヤを含める技術を用い、この複数レイヤを使って、エラーや帯域不足やパケットロスのような問題による各端末への映像ストリームへの影響が低減される。これにより、ビデオ会議の遅延時間の増加やエラーを抑制するビデオ会議システムが開示されている。しかしながら、特許文献1掲載のビデオ会議システムでは、上述した高演算量や高負荷や高消費電力という問題は解消できていない。
【0005】
本発明は、上記に鑑みてなされたものであって、システム全体の負荷を低減するとともに、消費電力を低減することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明は、画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、前記背景マップ情報を前記画像処理端末に送信する送信手段と、を備えたことを特徴とする。
【0007】
また、本発明は、画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、前記背景マップ情報を前記画像処理端末に送信する送信手段と、入力情報として複数の画像を合成した合成画像と前記背景マップ情報を受け取り、前記背景マップ情報に従って、エンコード方法を切り換えて前記合成画像のエンコードを行うエンコーダ手段と、を備えた画像処理サーバから前記背景マップ情報を受信する背景マップ情報受信手段と、前記背景マップ情報に従ってデコード方法を切り換えて、前記画像処理サーバによってエンコードされた映像ストリームを受信してデコードするデコーダ手段と、を備えることを特徴とする。
【0008】
また、本発明は、画像処理サーバと、画像処理端末とを備えるビデオ会議システムであって、前記画像処理サーバは、画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、前記背景マップ情報を前記画像処理端末に送信する送信手段と、入力情報として複数の画像を合成した合成画像と前記背景マップ情報を受け取り、前記背景マップ情報に従って、エンコード方法を切り換えて前記合成画像のエンコードを行うエンコーダ手段と、を備え、前記画像処理端末は、前記画像処理サーバから前記背景マップ情報を受信する背景マップ情報受信手段と、前記背景マップ情報に従ってデコード方法を切り換えて、前記画像処理サーバによってエンコードされた映像ストリームを受信してデコードするデコーダ手段と、を備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、システム全体の負荷を低減するとともに、消費電力を低減することができるという効果を奏する。
【図面の簡単な説明】
【0010】
【図1−1】図1−1は、本発明の比較例のビデオ会議システムの構成を示す図である。
【図1−2】図1−2は、図1のデコーダの内部構成を示す図である。
【図2】図2は、本発明の比較例のビデオ会議システムの処理を示すフローチャートである。
【図3】図3は、本発明の実施の形態にかかるビデオ会議システムの構成を示す図である。
【図4−1】図4−1は、本発明の実施の形態にかかるビデオ会議システムの構成を示す図である。
【図4−2】図4−2は、図4−1のデコーダの内部構成を示す図である。
【図5】図5は、背景マップ情報の一例を示す図である。
【図6】図6は、本発明の実施の形態にかかるビデオ会議システムの処理を示すフローチャートである。
【図7】図7は、本発明の実施の形態にかかるビデオ会議システムの処理を示すフローチャートである。
【図8−1】図8−1は、背景マップ情報の修正を行うケースを示す図である。
【図8−2】図8−2は、背景マップ情報の修正を行うケースを示す図である。
【図8−3】図8−3は、背景マップ情報の修正を行うケースを示す図である。
【図9】図9は、本発明の実施の形態にかかるビデオ会議システムの処理を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下に添付図面を参照して、この発明にかかるビデオ会議システムの最良な実施の形態を詳細に説明する。
【0012】
図1−1及び図1−2は、本実施の形態の比較例としてのビデオ会議システムの構成を示す図である。このビデオ会議システムは、端末A1、カメラ2、ディスプレイ3、端末B4、カメラ5、ディスプレイ6及びサーバ7を含んでいる。ビデオ会議を行う際、カメラ2、5がリアルタイムで撮影した所在地の映像がサーバ7に送信される。また、ディスプレイ3、6には、サーバ7から送信される合成画像が表示される。
【0013】
端末A1は、符号化処理を行うエンコーダ1aと、復号化処理を行うデコーダ1cと、コーデック(エンコーダ及びデコーダ)の参照フレームを保存するためのコーデックフレームバッファ1bと、を備えている。同様に、端末B4は、符号化処理を行うエンコーダ4aと、復号化処理を行うデコーダ4cと、コーデックの参照フレームを保存するためのコーデックフレームバッファ4bと、を備えている。サーバ7は、端末A1及び端末B4の要求によって、複数の入力画像を1つに合成して、端末A1及び端末B4に送信する。そのため、サーバ7は、デコーダ7a、7bと、画像合成部7cと、エンコーダ7d、7eと、を含んでいる。
【0014】
Aさんが利用する端末A1は、カメラ2で撮影された画像信号S1をエンコーダ1aで符号化したストリームS3をサーバ7に送信する。同様に、Bさんが利用する端末B4は、カメラ5で撮影された画像信号S2をエンコーダ4aで符号化したストリームS4をサーバ7に送信する。
【0015】
サーバ7は、端末A1から受信したストリームS3をデコーダ7aで復号化してピクセルレベル映像信号S5を生成する。図1−2は、デコーダ7aの内部構成を示す図である。デコーダ7aは、画像回復部8と、デコーダフレームバッファ9と、を含んでいる。画像回復部8は、シンタックス解析部8aと、画素回復部8bと、を含んでいる。デコーダ7aによるストリームS3の復号化の際、まず、シンタックス解析部8aは、ストリームS3をシンタックス単位で解析する。シンタックス解析部8aは、復号化用のマクロブロック(MB)モードや動きベクトル(Motion Vector)や非零係数(Coefficient)等の情報S13を生成する。画素回復部8bは、デコーダフレームバッファ9に記憶される前フレームのMBの情報S14と情報S13を用いて、フレームの画素を回復する。デコーダ7bの内部構成も、デコーダ7aと同様であり、デコーダ7bは、ストリームS4を復号化してピクセルレベル映像信号S6を生成する。
【0016】
画像合成部7cは、端末A1及び端末B4の合成フォーマットによる会議画面を合成し、合成結果の信号S7、S8をエンコーダ7d、7eに出力する。エンコーダ7d、7eは、信号S7、S8をそれぞれ符号化し、端末A1及び端末B4への合成ビットストリームS9、S10をそれぞれ生成する。生成された合成ビットストリームS9、S10は、端末A1及び端末B4にそれぞれ送信される。端末A1は、デコーダ1cで合成ビットストリームS9を復号化して得られた信号S11に基づく画像をディスプレイ3に表示する。同様に、端末B4は、デコーダ4cで合成ビットストリームS10を復号化して得られた信号S12に基づく画像をディスプレイ6に表示する。
【0017】
図2は、このビデオ会議システムの処理を示すフローチャートである。まず、端末A1及び端末B4は、ステップS110として、カメラ2、5を使用して会議画面を撮影する。次に、端末A1及び端末B4は、ステップS112として、撮影された映像をエンコーダ1a、4aで符号化し、ストリームにする。次に、端末A1及び端末B4は、ステップS114として、符号化されたストリームをサーバ7に送信する。上記ステップS110〜ステップS114は、端末A1及び端末B4で実行される。
【0018】
次に、サーバ7は、ステップS116として、シンタックス解析部8aで入力ビットストリームのシンタックスを解析する。次に、サーバ7は、ステップS118として、画素回復部8bで入力フレームのピクセルを回復する。次に、サーバ7は、ステップS120として、端末A1からの画像と端末B4からの画像とを画像合成部7cで合成する。次に、サーバ7は、ステップS122として、合成された画像をエンコーダ7d、7eで符号化し、ストリームにする。次に、サーバ7は、ステップS124として、合成して符号化されたストリームを端末A1及び端末B4に送信する。上記ステップS116〜ステップS124は、サーバ7で実行される。
【0019】
次に、端末A1及び端末B4は、ステップS126として、受信したストリームをデコーダ1c、4cで復号化し、得られた画像をディスプレイ3、6に表示する。このステップS126は、端末A1及び端末B4で実行される。
【0020】
このビデオ会議システムにおいては、ビデオ会議の特徴が考慮されていないので、端末A1、端末B4及びサーバ7はいつも満負荷で動作している。実際は、ビデオ会議の過程中、前景として動いている画像部分と背景として動かない画像部分とが存在しているので、いつも満負荷で動作する必要はない。
【0021】
次に、本発明の実施の形態にかかるビデオ会議システムについて説明する。図3は、本発明の実施の形態にかかるビデオ会議システムの構成を示す図である。このビデオ会議システム20は、端末A21と、カメラ22と、ディスプレイ23と、端末B24と、カメラ25と、ディスプレイ26と、サーバ27と、を備えている。端末A21、端末B24及びサーバ27は、有線又は無線の通信回線Cを介して通信可能である。ビデオ会議を行う際、カメラ22、25がリアルタイムで撮影した所在地の映像が、サーバ27に送信される。また、ディスプレイ23、26にはサーバ27から送信される合成画像が表示される。
【0022】
図4−1及び図4−2は、ビデオ会議システム20の内部構成を示す図である。端末A21は、符号化処理を行うエンコーダ21aと、復号化処理を行うデコーダ21cと、コーデック(エンコーダ及びデコーダ)の参照フレームを保存するためのコーデックフレームバッファ21bと、を備えている。同様に、端末B24は、符号化処理を行うエンコーダ24aと、復号化処理を行うデコーダ24cと、コーデックの参照フレームを保存するためのコーデックフレームバッファ24bと、を備えている。サーバ27は、端末A21及び端末B24の要求によって、複数の入力画像を1つに合成して、端末A21及び端末B24に送信する。そのため、サーバ27は、デコーダ27a,27bと、画像合成部27cと、エンコーダ27d、27eと、を含んでいる。
【0023】
Aさんが利用する端末A21は、カメラ22で撮影された画像信号S1をエンコーダ21aで符号化したストリームS3をサーバ27に送信する。同様に、Bさんが利用する端末B24は、カメラ25で撮影された画像信号S2をエンコーダ24aで符号化したストリームS4をサーバ27に送信する。
【0024】
サーバ27は、端末A21から受信したストリームS3をデコーダ27aで復号化してピクセルレベル映像信号S5を生成する。図4−2は、デコーダ27aの内部構成を示す図である。デコーダ27aは、画像回復部28と、デコーダフレームバッファ29と、背景生成部30と、背景情報バッファ31と、を含んでいる。画像回復部28は、シンタックス解析部28aと、画素回復部28bと、を含んでいる。
【0025】
デコーダ27aによるストリームS3の復号化の際、まず、シンタックス解析部28aは、ストリームS3をシンタックス単位で解析する。シンタックス解析部28aは、復号化用のマクロブロック(MB)モードや動きベクトル(Motion Vector)や非零係数(Coefficient)等の情報S13を生成し、画素回復部28bに出力する。また、シンタックス解析部28aは、復号化用のマクロブロック(MB)モード情報やMVP(Motion Vector Predictor)や非零係数の数(Total Coefficient、以下TCoeffという。)等の情報S15を生成し、背景生成部30に出力する。
【0026】
H.264/AVCやH.264/SVC等で符号化された映像ストリームには、符号化情報(Syntax Element:SE)と呼ばれる情報が含まれている。例えば、マクロブロックモードは、1つのSEである。各SEは符号化されたストリーム中の並べる順番が規格書で決められている。符号化情報によって、ビット化プロセスが異なっている。ここで、ビット化プロセスとは、ある情報(例えば、マクロブロック分割モードは2)を符号化ツールで二進法(例えば、101bのような形式)のアウトプットに変換することである。現在存在している符号化ツールは、UVLC(Universal Variable Length Coding)、CAVLC(Context Adaptive Variable Length Coding)、CABAC(Context Adaptive Binary Arithmetic Coding)の3種類である。デコーダ27aは、入力ストリームを受信して、規格書で決められた通りの順番で各SEの解析を1つずつ行う(対応する符号化ツールの逆処理で、二進法ビット列から符号化情報に戻す。)。
【0027】
背景生成部30は、情報S15に基づいて、今のフレームの一時的な背景マップ情報を表す一時背景マップ情報S18を生成し、生成した一時背景マップ情報S18を背景情報バッファ31に保存する。
【0028】
背景マップ情報とは、各MBが背景であるか前景であるかを判定した結果を表す情報である。図5は、背景マップ情報の一例を示す図である。図5は、1フレームが16個のMBを含む場合の例を示す。また、図5は、内側の4個のMBが前景であり、他の12個のMBが背景であると判定された場合の例を示す。このように判定された場合、背景マップ情報には、例えば、背景と判定されたMBに対して「0」、前景と判定されたMBに対して「1」が設定される。なお、図5の背景マップ情報は一例であり、各MBが背景であるか前景であるかを判定した結果を表す情報であればどのような形式であってもよい。背景マップ情報は、例えばMBの個数に応じたビット数で表現できる。図5では、16個のMBの判定結果を表す16ビットの背景マップ情報の例が示されている。
【0029】
背景生成部30は、次に、一時背景マップ情報S18中の前景MBと背景MBの分布を分析して、一時背景マップ情報S18を更新する。背景生成部30は、更新した一時背景マップ情報S18を、今のフレームの最終の背景マップ情報S16として、背景情報バッファ31に保存する。
【0030】
画素回復部28bは、情報S13及び背景マップ情報S16を参照して、アダプティブにフレームの画素を回復する。なお、生成された背景マップ情報S16をサーバ27のエンコーダ27d、27eと端末A21のエンコーダ21aと端末B24側のエンコーダ24aとに送信して、低負荷処理ができる。そうすると、ビデオ会議画面の特徴を考慮して、端末A21、端末B24及びサーバ27を低消費電力化することができる。デコーダ27bの内部構成も、デコーダ27aと同様であり、デコーダ27bは、ストリームS4を復号化してピクセルレベル映像信号S6及び背景マップ情報S17を生成する。
【0031】
図6は、背景生成部30の処理を示すフローチャートである。H.264/AVCやH.264/SVC等の圧縮標準により、フレームには、イントラフレームとインターフレームが存在する。イントラフレームでは、全てのマクロブロック(MB)はイントラMBである。インターフレームでは、イントラMBとインターMBの両方が存在する。背景生成部30は、処理単位がMBで、インターフレームに向けて、イントラフレームを前景フレームにする。図6を参照すると、背景生成部30は、ステップS30として、処理対象であるMBがインターMBか否かを判定する。背景生成部30は、ステップS30で処理対象であるMBがインターMBであると判定したら(Yes)、ステップS32として、Skipモードであるか否かを判定する。Skipモードは、インターモードの1つの種類であって、符号化された残差が無く、MVPの情報だけが残っているモードである。
【0032】
背景生成部30は、ステップS32でSkipモードであると判定したら(Yes)、ステップS34として、MVPが所定値より小さいか否かを判定する。背景生成部30は、ステップS34でMVPが所定値より小さくないと判定したら(No)、ステップS36として、処理対象であるMBを前景MBにする。背景生成部30は、ステップS34でMVPが所定値より小さいと判定したら(Yes)、ステップS38として、処理対象であるMBを背景MBにする。
【0033】
背景生成部30は、ステップS30でインターMBではないと判定したら(No)、又は、ステップS32でSkipモードではないと判定したら(No)、ステップS40として、前背景MB判断サブルーチンを実行する。
【0034】
図7は、前背景MB判断サブルーチンの処理を示すフローチャートである。H.264/AVC等の圧縮技術では、空間特性におけるイントラモードと時間特性におけるインターモードが含まれている。ビデオ会議への応用について、イントラモードはイントラ16x16(I16MB)とイントラ4x4(I4MB)とが使われ、インターモードはSkipモード、インター16x16からイントラ4x4までの7つの非Skipモードが使われている。符号化プロセスのエントロピーコーディング前に、トランスフォームと量子化が順番に行われる。トランスフォームは4x4単位で実行して、1つのMBは16個の4x4ブロックに分けている。トランスフォームした4x4ブロックは、左上の値が直流(DC)係数で、残った部分が交流(AC)係数としている。トランスフォームした4x4ブロックは量子化して、CAVLC(Context Adaptive Variable Length Coding)のようなエントロピーツールでエントロピーコーディングを実行してビットストリームができあがる。特には、I16MBはトランスフォームした16個の4x4ブロックのDC係数を抽出されて、独立の4x4サイズのDCブロックになって、符号化処理を実行される。前背景MB判断サブルーチンでは、このI16MBのDCブロックの係数(以下、I16MB_DC_TCoeffという。)をチェックする。
【0035】
図7を参照すると、背景生成部30は、ステップS50として、処理対象MBがI16MBであるか否かを判定する。背景生成部30は、ステップS50で処理対象MBがI16MBであると判定したら(Yes)、ステップS52として、I16MB_DC_TCoeffがゼロであるか否かを判定する。背景生成部30は、ステップS52でI16MB_DC_TCoeffがゼロであると判定したら(Yes)、ステップS56として、処理対象MBを背景MBにする。
【0036】
背景生成部30は、ステップS50で処理対象MBがI16MBではないと判定したら(No)、ステップS54として、処理対象MBがI4MBであるか否かを判定する。背景生成部30は、ステップS52でI16MB_DC_TCoeffがゼロではないと判定したら(No)、又は、ステップS54で処理対象MBがI4MBであると判定したら(Yes)、ステップS58として、処理対象MBを前景MBにする。
【0037】
背景生成部30は、ステップS54で処理対象MBがI4MBではないと判定したら(No)、ステップS60として、MBモードが3より大きいか否かを判定する。インターMBとしては、モード1は16x16モード、モード2は16x8モード、モード3は8x16モードである。モード3以降は8x8モードから4x4モードまで更に小さいモードに分かれていく。一般に、運動が複雑なら、モードが小さくなるということが知られている。そこで、本実施の形態では、処理対象MBがインターMBなら、そのMBのモードとTCoeff情報をチェックする。
【0038】
背景生成部30は、ステップS60でMBモードが3より大きくないと判定したら(No)、ステップS62として、インターMBのTCoeffはゼロであるか否かを判定する。背景生成部30は、ステップS62でインターMBのTCoeffはゼロであると判定したら(Yes)、ステップS64として、処理対象MBを背景MBにする。本実施の形態において、TCoeffは全部輝度のTCoeffとしている。
【0039】
背景生成部30は、ステップS60でMBモードが3より大きいと判定したら(Yes)、又は、ステップS62でインターMBのTCoeffはゼロではないと判定したら(No)、ステップS66として、処理対象MBを前景MBにする。背景生成部30は、以上の前背景MB判断サブルーチンを実行したら、図6のステップS40にリターンする。
【0040】
背景生成部30は、例えば、ステップS36、S38、又は、S40の実行により、各処理対象MBの判定結果を表す一時背景マップ情報を生成する。すなわち、背景生成部30は、例えば、背景MBと判定した処理対象MBに対して「0」、前景MBと判定した処理対象MBに対して「1」を設定した一時背景マップ情報を生成する。
【0041】
再び図6を参照すると、背景生成部30は、ステップS36、S38、又は、S40を実行したら、ステップS42として、フレームが終了したか否かを判定する。背景生成部30は、ステップS42でフレームが終了していないと判定したら(No)、処理をステップS30に進める。
【0042】
背景生成部30は、ステップS42でフレームが終了したと判定したら(Yes)、ステップS44として、背景マップ情報(一時背景マップ情報S18)の修正を行う。先に説明した前背景MB判断サブルーチン(図7参照)では、MB単位で1フレームの背景と前景を判定した。通常、ビデオ会議を行うときに画面中の人物は前景としてフレームに連続MB空間を占めている。しかし、MBモードとTCoeff情報での前背景MB判断はビデオ会議の前景連続性を必ず守るわけではない。また、カメラ撮影するときのノイズのため、背景の部分が前景になってしまう可能性もある。そのため、本実施の形態では、3つのケースに対して背景マップ情報の修正を行う。
【0043】
図8−1〜図8−3は、背景マップ情報の修正を行う3つのケースを示す図である。まず図8−1を参照すると、これはノイズ防止向けの背景マップ情報の修正を示している。或る前景MB101があり、その周囲の8個のMBが全て背景MBである場合、背景生成部30は、前景MB101を背景MBに修正する。
【0044】
次に図8−2を参照すると、これはビデオ会議の行内連続性向けの背景マップ情報の修正を示している。或る1行の中に前景MB111、背景MB112、背景MB113、前景MB114、前景MB115、背景MB116、前景MB117が順に位置している場合、背景生成部30は、最も先頭の前景MB111から最も後の前景MB117までを全て前景MBに修正する。つまり、背景生成部30は、背景MB112、背景MB113、背景MB116を前景MBに修正する。
【0045】
次に図8−3を参照すると、これはビデオ会議の行間連続性向けの背景マップ情報の修正を示している。背景生成部30は、或る1行の中のMBが全て背景MBなら、当該行の上の行と下の行をチェックする。そして、背景生成部30は、当該行の上の行と下の行に前景MBが存在すれば、当該行の一部を前景MBに変更する。その場合、当該行の前景MBの開始位置は、当該行の上の行の前景MBの開始位置と当該行の下の行の前景MBの開始位置との平均にする。同様に、当該行の前景MBの終了位置は、当該行の上の行の前景MBの終了位置と当該行の下の行の前景MBの終了位置との平均にする。図8−3では、第2行目の中のMBが全て背景MBである。そして、第1行目及び第3行目の中には前景MBが存在する。そのため、背景生成部30は、第2行目の中のMBの一部を前景MBに修正する。具体的には、第1行目の第4列のMB121〜第10列のMB127が前景MBであり、第3行目の第2列のMB141〜第8列のMB147が前景MBである。そこで、背景生成部30は、第2行目の第3列のMB131〜第9列のMB137を前景MBに修正する。背景生成部30は、以上で図6の処理を終了する。
【0046】
図9は、ビデオ会議システム20の全体の処理を示すフローチャートである。まず、端末A21及び端末B24は、ステップS200として、会議画面を撮影し、次いでステップS202として、撮影された映像をエンコーダ21a、24aを利用して符号化する。次に、端末A21及び端末B24は、ステップS204として、符号化されたストリームをサーバ27に送信する。なお、この際、端末A21及び端末B24は、端末側で表示したい画面構成スペック(フォーマット)を一緒にサーバ27に送信しても良い。上記ステップS200〜ステップS204は、端末A21及び端末B24で実行される。
【0047】
次に、サーバ27は、ステップS206として、入力ビットストリームのシンタックスをシンタックス解析部28aで解析し、次いでステップS208として、解析された情報の一部を抽出する。解析された情報の一部とは、例えば、復号化用のMBモード、MVP、および、非零係数の数等の情報S15である。次に、サーバ27は、ステップS210として、抽出された情報と背景情報バッファ31に保存された背景マップ情報とを利用して、入力フレームの背景マップ情報を背景生成部30で生成する。次に、サーバ27は、ステップS212として、生成された背景マップ情報を背景情報バッファ31に保存する。
【0048】
次に、サーバ27は、ステップS214として、フレームの回復が完了したか否かを判定する。サーバ27は、ステップS214でフレームの回復が完了していないと判定したら(No)、ステップS216として、現在のMBが背景MBであるか否かを判定する。サーバ27は、ステップS216で現在のMBが背景MBであると判定したら(Yes)、ステップS218として、デコーダフレームバッファ29を利用して、アダプティブに画素回復を実行する。例えば、画素回復部28bは、デコーダフレームバッファ29に保存された前フレームの対応するMBの情報S14を、現在のMBの情報として画素を回復する。すなわち、画素回復部28bは、ビットストリームから復号化用の動きベクトルや予測モード等を算出する処理、および、残差を取得するための逆トランスフォームや逆量子化等の計算処理を全部省略させる。一方、サーバ27は、ステップS216で現在のMBが背景MBではないと判定したら(No)、ステップS220として、通常の画素回復を実行する。
【0049】
サーバ27は、ステップS214でフレームの回復が完了したと判定したら(Yes)、ステップS222として、端末A21からの画像と端末B24からの画像とを合成する。次に、サーバ27は、ステップS224として、合成された画像の符号化が完了したか否かを判定する。サーバ27は、ステップS224で合成された画像の符号化が完了していないと判定したら(No)、ステップS226として、現在のMBが背景MBであるか否かを判定する。サーバ27は、ステップS226で現在のMBが背景MBであると判定したら(Yes)、ステップS228として、現在のMBを符号化せずスキップする。一方、サーバ27は、ステップS226で現在のMBが背景MBではないと判定したら(No)、ステップS230として、現在のMBに通常の符号化を実行する。
【0050】
サーバ27は、ステップS224で合成された画像の符号化が完了したと判定したら(Yes)、ステップS232として、合成して符号化したビットストリームと背景マップ情報を端末A21及び端末B24に送信する。上記ステップS206〜ステップS232は、サーバ27で実行される。
【0051】
端末A21及び端末B24は、ステップS234として、合成されたフレームの回復が完了したか否かを判定する。端末A21及び端末B24は、ステップS234で合成されたフレームの回復が完了していないと判定したら(No)、ステップS236として、現在のMBが背景MBであるか否かを判定する。端末A21及び端末B24は、ステップS236で現在のMBが背景MBであると判定したら(Yes)、ステップS238として、受信したビットストリームの背景マップ情報を参考にし、それぞれコーデックフレームバッファ21b及び24bに保存された前フレームの情報を利用して、現在のMBをアダプティブに復号化する。例えば、端末A21及び端末B24は、コーデックフレームバッファ21b及び24bに保存された前フレームの対応するMBの情報を、現在のMBの情報として復号化する。すなわち、端末A21及び端末B24は、ビットストリームから復号化用の動きベクトルや予測モード等を算出する処理、および、残差を取得するための逆トランスフォームや逆量子化等の計算処理を全部省略させる。一方、端末A21及び端末B24は、ステップS236で現在のMBが背景MBではないと判定したら(No)、ステップS240として、現在のMBに通常の画素回復を実行する。端末A21及び端末B24は、ステップS234で合成されたフレームの回復が完了したと判定したら(Yes)、処理を終了する。上記ステップS234〜ステップS240は、端末A21及び端末B24で実行される。
【0052】
以上説明したように、本実施の形態によれば、背景MBに対しては、符号化及び復号化を行わず、バッファに保存された前フレームの情報を利用することで、端末A21及び端末B24の状況と映像の特徴が考慮されているので、端末A21及び端末B24及びサーバ27の処理負荷を軽減するとともに消費電力を低減することができる。
【0053】
一般に、ビデオ会議画面の作成として、サーバは各端末からのストリームを復号化し、ピクセルレベルで映像を合成して、合成した結果の画像を符号化して、各端末に送信する。これにより、高品質の合成画面を提供することができるが、これではビデオ会議システムの特徴が考慮されていない。ビデオ会議の進行時には、会議用のカメラが長時間固定され、被写体にスポーツのような大きい動きが少なく、背景の部分が多い。よって、各入力画面の背景を軽い処理で検知できれば、システム全体の処理負荷の低減及び消費電力の低減ができる。H.264/AVCやH.264/SVC等の圧縮標準では、符号化情報はシンタックスとしてビットストリームに保存されている。これらのシンタックスの値は上述したビデオ会議の特徴と関連しているので、サーバ側で復号化するときに解析されたシンタックス情報を利用して画面の前景と背景の情報を低負荷で検知することができる。本実施の形態では、サーバ27で復号化するときに解析されたシンタックス情報を利用してフレームの前景と背景を低負荷で検知する。検知された情報を参考にして、サーバ27のデコーダ27a、27bや端末A21のデコーダ21cや端末B24のデコーダ24cにおいて、背景の部分を処理せずに、バッファされたデータを活用しているので、端末A21及び端末B24及びサーバ27の処理負荷を軽減するとともに消費電力を低減することができる。
【0054】
本実施の形態のサーバ27は、CPUなどの制御装置と、ROM(Read Only Memory)やRAMなどの記憶装置と、HDD、CDドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。本実施の形態のサーバ27で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。また、本実施の形態のサーバ27で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施の形態のサーバ27で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。また、本実施の形態のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
【0055】
本実施の形態のサーバ27で実行されるプログラムは、上述した各部(デコーダ27a、27b、画像合成部27c、エンコーダ27d、27e)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、デコーダ27a、27b、画像合成部27c、エンコーダ27d、27eが主記憶装置上に生成されるようになっている。
【符号の説明】
【0056】
1、4、21、24 端末
2、5、22、25 カメラ
3、6、23、26 ディスプレイ
7、27 サーバ
20 ビデオ会議システム
21a、24a、27d、27e エンコーダ
21c、24c、27a、27b デコーダ
27c 画像合成部
28 画像回復部
28a シンタックス解析部
28b 画素回復部
29 デコーダフレームバッファ
30 背景生成部
31 背景情報バッファ
【先行技術文献】
【特許文献】
【0057】
【特許文献1】特表2009−521880号公報

【特許請求の範囲】
【請求項1】
画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、
前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、
前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、
前記背景マップ情報を前記画像処理端末に送信する送信手段と、
を備えたことを特徴とする画像処理サーバ。
【請求項2】
前記画素回復手段は、前記背景マップ情報に従ってデコード方法を切り換えて、前記シンタックス解析結果及び前記背景マップ情報を用いて前記映像フレームの画素を回復すること、
を特徴とする請求項1に記載の画像処理サーバ。
【請求項3】
前記画素回復手段は、前記背景マップ情報に従って、前記映像フレームの背景と判定された部分の画素を、該映像フレームの前の映像フレームの画素により回復すること、
を特徴とする請求項2に記載の画像処理サーバ。
【請求項4】
入力情報として複数の画像を合成した合成画像と前記背景マップ情報を受け取り、前記背景マップ情報に従って、エンコード方法を切り換えて前記合成画像のエンコードを行うエンコーダ手段をさらに備えること、
を特徴とする請求項1に記載の画像処理サーバ。
【請求項5】
画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、前記背景マップ情報を前記画像処理端末に送信する送信手段と、入力情報として複数の画像を合成した合成画像と前記背景マップ情報を受け取り、前記背景マップ情報に従って、エンコード方法を切り換えて前記合成画像のエンコードを行うエンコーダ手段と、を備えた画像処理サーバから前記背景マップ情報を受信する背景マップ情報受信手段と、
前記背景マップ情報に従ってデコード方法を切り換えて、前記画像処理サーバによってエンコードされた映像ストリームを受信してデコードするデコーダ手段と、
を備えること
を特徴とする画像処理端末。
【請求項6】
画像処理サーバと、画像処理端末とを備えるビデオ会議システムであって、
前記画像処理サーバは、
画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、
前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、
前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、
前記背景マップ情報を前記画像処理端末に送信する送信手段と、
入力情報として複数の画像を合成した合成画像と前記背景マップ情報を受け取り、前記背景マップ情報に従って、エンコード方法を切り換えて前記合成画像のエンコードを行うエンコーダ手段と、
を備え、
前記画像処理端末は、
前記画像処理サーバから前記背景マップ情報を受信する背景マップ情報受信手段と、
前記背景マップ情報に従ってデコード方法を切り換えて、前記画像処理サーバによってエンコードされた映像ストリームを受信してデコードするデコーダ手段と、
を備えること
を特徴とするビデオ会議システム。

【図1−1】
image rotate

【図1−2】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4−1】
image rotate

【図4−2】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8−1】
image rotate

【図8−2】
image rotate

【図8−3】
image rotate

【図9】
image rotate


【公開番号】特開2013−78100(P2013−78100A)
【公開日】平成25年4月25日(2013.4.25)
【国際特許分類】
【出願番号】特願2012−15056(P2012−15056)
【出願日】平成24年1月27日(2012.1.27)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】