説明

個人向けのビデオサービスを提供するシステムおよび方法

【課題】テレビ会議参加者の写真のようにリアルな描写のアバタ表現を作成するビデオ処理システムを提供する。
【解決手段】アバタ表現は、テレビ会議参加者を現わすビデオストリームの一部に基づく。顔検出器が、顔を識別、追跡および分類するのに用いられる。検出された顔に基づいて、密度、構造、変形、外観および明るさのモデルを含むオブジェクトモデルが作成される。機械学習顔検出技法を用いるオブジェクト基礎のビデオ圧縮アルゴリズムが、密度、構造、変形、外観および明るさのモデルから導出されるパラメータから写真のようにリアルな描写のアバタ表現を作成する。

【発明の詳細な説明】
【関連出願】
【0001】
本出願は、2007年1月23日出願の米国仮特許出願第60/881,979号の優先権を主張する。本出願は、2007年1月23日出願で発明の名称が「画像データを処理するコンピュータ方法および装置」の米国仮特許出願第60/991,966号および2006年1月8日出願で発明の名称が「画像データを処理する装置および方法」の米国仮特許出願第60/811,890号に関連する。本出願は、また、2005年7月28日出願の米国特許出願第11/191,562号の部分継続出願である、2005年9月20日出願の米国特許出願第11/230,686号の部分継続出願である、2005年11月16日出願の米国特許出願第11/280,625号の部分継続出願である、2006年1月20日出願の米国特許出願第11/336,366号の部分継続出願である、2006年3月31日出願の米国特許出願第11/396,010号に関連する。上記各出願の全内容は参照により本明細書に引用したものとする。
【技術分野】
【0002】
本発明はビデオデータを処理において、個人向けのビデオサービスを提供するシステムに関する。
【背景技術】
【0003】
ディジタルビデオの最近の人気によって、ビデオ圧縮の需要が劇的に増加している。ビデオ圧縮はディジタル媒体の格納および転送に必要とされるビット数を低減する。ビデオデータは空間および時間の冗長性(重複)を含み、これら空間および時間の類似性はフレーム(空間)内およびフレーム間(時間)における差分を記録することによってコード化される。圧縮を実行するハードウェアまたはソフトウェアは、CODEC(コーデック)(符号化器(エンコーダ)/復号化器(デコーダ))と呼ばれる。コーデックは、ディジタル信号に符号化および復号化を実行できる装置またはソフトウェアである。データを大量に使用するディジタルビデオアプリケーションが広く普及してきているため、信号をエンコード化するのにより効率的な方法が必要とされている。このようにして、ビデオ圧縮は、記憶装置および通信の技術における中心的なコンポーネントとなっている。
【0004】
コーデックは、テレビ会議やビデオブログのようなストリーミング媒体アプリケーション(例えば、ビデオポッドキャスト)などの多くの異なる技術において用いられることが多い。典型的には、テレビ会議やビデオブログのシステムは、リアルタイムに音声のディジタル圧縮およびビデオストリームを提供する。テレビ会議やビデオブログにおける問題の1つは、多くの参加者が外観の認識(appearance consciousness)に苦慮している点である。ただし、画面上に許容できる外観を表示する負担は、音のみの通信においては問題ではない。
【0005】
テレビ会議やビデオブログの表示の別の問題は、情報の圧縮がビデオ品質を低下させる点である。圧縮比はテレビ会議において最も重要なファクタの1つである。これは、圧縮比が高ければ、テレビ会議の情報が高速で転送されるからである。残念なことに、従来のビデオ圧縮方法では、圧縮比を高くするとビデオ品質が低くなる。圧縮されたビデオストリームは、画像も音も品質が劣悪なことが多い。
【発明の概要】
【発明が解決しようとする課題】
【0006】
一般に、従来のビデオ処理方法では、遅いデータ通信速度、大きな記憶容量条件、および妨害となる知覚に影響を及ぼすものの形態で現れる、多くの非効率に苦しんでいる。ビデオデータの品質を犠牲にせずに容易かつ効率的に操作する必要がある様々なユーザにとって、これら障害は重大な問題となる可能性がある。特に、何らかの形式の視覚情報に対して人間が生得的感受性を有することに鑑みれば、特に重要である。
【0007】
ビデオ圧縮において、複数の重要なファクタが一般的に考慮される。これらファクタには、ビデオ品質およびビットレート、エンコード化およびデコード化アルゴリズムの計算の複雑さ、データの損失および誤差に対するロバスト性、ならびに待ち時間が含まれる。ビデオデータ量がインターネット上で急増しているため、コンピュータに対するのみでなく、テレビや携帯電話などの手持ち式装置に対しても、輻輳を大幅に緩和して品質を向上させる技術が著しい進展となる。
【課題を解決するための手段】
【0008】
ビデオを処理するシステムおよび方法が、現在の最新技術に対して計算および分析における利点をもたらす。ビデオ圧縮方法によって、テレビ会議やビデオブログのアプリケーションでディジタル媒体を格納して転送するのに必要とされるビット数を低減できる。テレビ会議の参加者の写真のようにリアルな描写のアバタ(人の分身として表示されるキャラクタ)の表現が作成される。アバタ表現は、会議の参加者を描画するビデオストリーム部分に基づいてもよい。ビデオ圧縮アルゴリズムに基づくオブジェクトは、Viola-Jonesの顔検出器のような顔検出器を用いて、会議参加者の顔を検出、追跡、かつ分類する。構造、変形、外観および明るさについてのオブジェクトモデルが、一般的な顔についての事前定義されたオブジェクトモデルの登録と組み合わされて、検出された顔に基づいて作成される。これらオブジェクトモデルは、陰的表現(implicit representation:暗黙的な表現つまり明白ではないが判別可能な表現)を作成するのに用いられて、これにより、テレビ会議参加者の写真のようにリアルな描画のアバタを生成する。
【0009】
この描画は、テレビ会議参加者の顔の実物そっくりのタイプである。これは、ユーザの外観および表情に関して正確である。最初に取り込まれたフレームのその他の部分が、もしかすると低い正確度で描画される。固有のユーザに1回実行される短い較正セッションが起動される。これにより、システムは、圧縮アルゴリズムを初期化でき、オブジェクトモデルを作成できる。好ましくは、後続のテレビ会議セッションはさらなる較正を必要としない。
【0010】
従来のビデオ描写と同程度信頼できるビデオ表現をユーザが要求するならば、システムは、さらなる較正期間を必要として、ユーザの外観にさらに合致するように格納されたモデルを調整する。代わりに、ユーザは、現在のオブジェクトモデルよりも好ましいオブジェクトモデルを用いることを好むかもしれない。好ましいモデルは、ユーザの何らかの有利な表現、例えば、最良の照明および格好の良い外観であってもよい。別の好ましいオブジェクトモデルは、顔に適用される「再照明(re-lit)」および「平滑化」での較正モデルであり、「高品質」の対象の表現を達成するための両方の処理ステップである。
【0011】
テレビ会議/ビデオブログのシステムは、クライアントサーバフレームワークを用いて実現される。クライアントノードにおけるユーザは、ビデオカメラおよびヘッドフォンを使用して通信し、テレビ会議セッションを開始する。ユーザそれぞれの顔の写真のようにリアルな描写のアバタの表現が生成される。作成された写真のようにリアルな描写のアバタ表現は、テレビ会議参加者の顔の陰的表現である。
【0012】
上記の内容は、添付図面に示される本発明の例の実施形態のより詳細な説明から明らかになるであろう。図面では、同一参照符号はそれぞれの図全体を通して同一部分を指す。図面は必ずしも縮尺どおりでなく、本発明の実施形態を説明することに重点が置かれている。
【図面の簡単な説明】
【0013】
【図1】本発明の実施形態において用いられるビデオ圧縮(一般に画像処理)システムのブロック図である。
【図2】本発明の実施形態において用いられるハイブリッド空間正規化圧縮方法を示すブロック図である。
【図3】好ましい実施形態において、会議参加者の写真のようにリアルな描写のアバタの表現を作成する処理を示すフローチャートである。
【図4】写真のようにリアルな描写のアバタを生成するのに関連して用いられるシステムコンポーネントの例を示すブロック図である。
【図5A】インスタントメッセージサーバを用いた、本発明のテレビ会議システムの例を示す概略図である。
【図5B】本発明のテレビ会議/ビデオブログのシステムの例を示す概略図である。
【図6】コンピュータネットワークまたは類似のディジタル処理環境を示し、本発明の実施形態が実現される環境の概略図である
【図7】図6のネットワークのコンピュータの内部構造のブロック図である。
【発明を実施するための形態】
【0014】
本発明の例示的な実施形態を以下に記述する。
【0015】
<オブジェクトモデルの作成>
ビデオ信号データでは、画像シーケンスにビデオフレームが組み立てられる。ビデオの対象は、通常カメラの2次元画像表面に射影された3次元シーンである。合成されて生成されたビデオの場合、解釈には「仮想」カメラが用いられる。アニメーション(動画)の場合、アニメ製作者は参考のこのカメラフレームを管理する役割を担う。各フレームすなわち画像は、サンプル信号に対する画像センサ応答を表現する画素(pel)から構成されている。多くの場合、サンプル信号は、2次元センサアレイにおいてカメラのコンポーネントからサンプル化される特定の反射、屈折または放射されたエネルギ(例えば、電磁エネルギ、音響エネルギなど)に相当する。連続的な時系列サンプリングによって、フレーム当たりの空間2次元と、ビデオシーケンスにおけるフレーム順序に対応する時間次元とを備える、時空間データストリームを得ることができる。この処理は、通常「画像」処理と称される。
【0016】
本発明は、ビデオ信号データが効率的に1つ以上の有用な表現に処理される手段を提供する。本発明は、ビデオ信号において多くの共通に繰り返されるデータセットを処理するのに有効である。ビデオ信号が解析され、そのデータの1つ以上の簡潔な表現が提供されてその処理およびエンコード化を容易にする。新しくてより簡潔なデータ表現によって、計算処理、伝送帯域幅および記憶装置の多くの用途に対する要件が軽減される。処理には、限定されるわけではないが、ビデオ信号のコード化、圧縮、伝送、解析、記憶および表示が含まれる。雑音のような不必要な信号部分は低い優先度に識別されて、さらなる処理はビデオ信号の優先度の高い部分を解析して表現することに重点が置かれる。その結果、ビデオ信号は、それまでよりも、より簡潔に表現される。そして、正確さの損失は、知覚的に重要でないビデオ信号部分に集中される。
【0017】
2006年1月20日出願の米国特許出願第11/336,366号および2007年1月23日出願で発明の名称が「画像データを処理するコンピュータ方法および装置」である米国特許出願(代理人の管理番号4060.1009-000)(全内容はここで引用されているものとする)に記載のように、ビデオ信号データは解析されて顕著なコンポーネントが識別される。空間時間的なストリームは、たいていは独特なオブジェクトである顕著なコンポーネント(例えば顔)を明らかにする。識別処理は、顕著なコンポーネントの存在および重要度を特定して、特定された顕著なコンポーネントのうちの最も重要な1つ以上を選択する。これは、ここで説明されている処理後または処理と同時に行われる、顕著性がより小さい他の顕著なコンポーネントの識別および処理を制限するわけではない。上述の顕著なコンポーネントはその後さらに解析され、変化するサブコンポーネントおよび不変のサブコンポーネントが識別される。不変サブコンポーネントの識別は、コンポーネントの特定の様相のモデル化処理である。これにより、コンポーネントを所望の正確度に合成できるモデルのパラメータ表現が明らかになる。
【0018】
一実施形態において、PCA/ウェーブレットのエンコード化技法が前処理されたビデオ信号に適用されて、所望の圧縮ビデオ信号を形成する。前処理によってビデオ信号の複雑さを減少させて、主成分分析(PCA)/ウェーブレットのエンコード化(圧縮)が向上した作用で適用されるようにする。PCA/ウェーブレットのコード化については、同時係属の出願である、2006年1月20日出願の米国特許出願第11/336,366号および2007年1月23日出願で発明の名称が「画像データを処理するコンピュータ方法および装置」である米国特許出願(代理人の管理番号4060.1009-000)に詳細に説明されている。
【0019】
図1は本発明の原理を採用する例示的な画像処理システム100のブロック図である。ソースビデオ信号101が入力されて前処理プロセッサ102によって受信される。前処理プロセッサ102は、ソースビデオ信号101における対象コンポーネント(顕著なオブジェクト)を判別するために帯域消費を用いるか、または顔/オブジェクト検出器のような他の基準を用いる。特に、前処理プロセッサ102は、ビデオ信号101において、不均衡な帯域幅を用いる部分のその他の部分に対する比を判別する。この判別を行うセグメンタ(セグメント化器、セグメント化部)103に関する方法は、以下の通りである。
【0020】
セグメンタ103が、上述の画素の微分における時間および/または空間の差分を用いて、時間および/空間に渡って画像勾配を分析する。コヒーレンスに監視するために、ビデオ信号の逐次的なフレームに渡って、互いに対応するビデオ信号部分が追跡されて注目される。これらコヒーレントな(一貫した)信号コンポーネントの微分場の有限差分が統合されて、ビデオ信号の判別された部分を生成する。この判別された部分とは、他の部分に対して不均衡な帯域幅を用いる部分である。すなわち、対象コンポーネントを判別する。好ましい実施形態では、後続フレームにおける空間不連続に対応する空間不連続が1つのフレームにおいて発見されると、画像勾配の急激さまたは平滑さが解析されて、一意の対応(時間コヒーレンシ(時間的な一貫性))を生じさせる。さらに、このような対応(相関関係)の集まりも、ビデオフレームの離散的なコンポーネントの時間コヒーレンシに一意に帰するように同一の方法で採用される。急峻な画像勾配についてはエッジが存在すると判別される。このような空間不連続を画定するエッジが2つ存在する場合、コーナーが決定される。これら識別された空間不連続は勾配フローと組み合わされて、ビデオデータの複数のフレームに渡る対応画素間の動きベクトルを生成する。動きベクトルが識別された空間不連続と一致する場合、本発明のセグメンタ103は、対象のコンポーネント(顕著なオブジェクト)が存在すると判別する。
【0021】
他のセグメント化技法がセグメンタ103を実現するのに適している。
【0022】
図1において、前処理プロセッサ102(セグメンタ103)が、対象のコンポーネント(顕著なオブジェクト)を判別すると(すなわち、ソースビデオ信号101から対象のコンポーネントをセグメント化すると)、判別した対象のコンポーネントの複雑さを正規化器(正規化部)105が低減する。好ましくは、正規化器105は、判別された対象のコンポーネントから、全体の動きおよび姿勢、全体構造、局所変形、外観ならびに明るさの変動を取り除く。これまでに述べた関連出願に記載された前述の正規化技法がこのために利用される。これにより、正規化器105は対象のコンポーネントの構造モデル107および外観モデル108を確立する。
【0023】
構造モデル107は、数学的には以下のように表現される。
【0024】
【数1】

【0025】
ここで、σは、顕著なオブジェクト(判別された対象のコンポーネント)であり、SM()はそのオブジェクトの構造モデルである。vx,yは、経時的に位置合せされたオブジェクトにおける、区分(piece-wise)線形正規化メッシュの2次元メッシュ頂点である。Δtは、期間tにおける頂点の変化であり、複数のビデオフレーム間のオブジェクトの拡大縮小(すなわち局所変形)、回転および並進を経時的に表現する。Zは、全体動きである。式1から、全体の固定の構造モデル、全体動き、姿勢および局所的に導出された変形が引き出される。構造部分の候補構造(経時のビデオフレームの対象のコンポーネント)を判定するために、動きから構造を推定する既知の技法が用いられて、動き検出と組み合わされる。これにより、顕著なオブジェクトの空間における位置および方向が決定されて、構造モデル107および動きモデル111がもたらされる。
【0026】
外観モデル108は、次に、構造モデル107および動きモデル111によって集合的ではなくモデル化される顕著なオブジェクトの特性および様相を表現する。一実施形態では、外観モデル108は経時的な構造変化の線形分解であり、構造モデル107から全体動きおよび局所変形を除去することによって決定される。出願人は、各ビデオフレームにおけるオブジェクト外観を取得し、構造モデル107を用いて、「正規化された姿勢」に再射影する。「正規化された姿勢」は、また、1以上の「基本的な(cardinal)」姿勢と称される。再射影は、オブジェクトの正規化されたバージョンを表現し、外観における任意の変化を生成する。所与のオブジェクトが複数のビデオフレーム間で回転しているかまたは空間的に並進されているので、外観は単一の基本的な姿勢(すなわち、平均の正規化された表現)に位置付けられる。外観モデル108は、また、基本的な姿勢の基本的な変形(例えば、目が開く/閉じられる、口が開く/閉じられるなど)を明らかにする。したがって、外観モデル108 AM(σ)は、基本的な姿勢Pおよび基本的な姿勢Pの基本的な変形Δによって表現される。
【0027】
【数2】

【0028】
外観モデル108の画素は、好ましくは、カメラの投影軸に対する距離および入射角度に基づく。バイアスをかけることで、モデルの最終形式に対する各画素の寄与の相対加重を判別する。したがって、好ましくは、この「サンプルバイアス(sampling bias)」が全てのモデルの全ての処理を組み込む。候補構造の(構造モデル107からの)経時追跡は、姿勢、動きおよび変形の推定量からの示唆によって、全画素の動きの予測を構成して可能とする。
【0029】
さらに、外観および明るさのモデル化に関して、画像処理における持続的な挑戦の1つは、変化する明暗条件のもとで、オブジェクトを追跡している。画像処理において、コントラストの正規化は、ピクセル輝度(pixel intensity)値の変化を、明暗/明るさの変化以外の因子に起因するよりもむしろ、明暗/明るさの変化に起因するものとしてモデル化する処理である。好ましい実施形態では、ビデオが取り込まれる際の顕著なオブジェクトの明るさ条件の任意の変化を推定する(すなわち、オブジェクトに当たる明るさをモデル化する)。これは、ランベルト反射の線形部分空間(Lambertian Reflectance Linear Subspace (LRLS))理論からの原理にオプティカルフローを組み合わせて達成される。LRLS理論によれば、オブジェクトが固定されて好ましくは明るさの変化のみが許容されると、反射画像のセットは最初の9つの球面調和関数の線形な組合せによって近似される。これにより、画像は、周囲「画像」ベクトル空間における9D線形部分空間に近接する。さらに、画像ピクセル(x,y)の反射輝度は、次のように近似される。
【0030】
【数3】

【0031】
LRLSおよびオプティカルフローを用いて、いかに明暗がオブジェクトと相互作用するかを判定するために期待値が計算される。これら期待値は、オプティカルフロー場における変化を説明できるオブジェクトの動きを拘束するのに役立つ。明るさモデル化を用いるオブジェクトの外観を記述するのにLRLSを用いると、さらに、明るさモデルの予測の範囲から外れる任意の外観変化を処理することを外観モデルに許可する必要がある。
【0032】
対象のコンポーネントの複雑さが対応する元のビデオ信号から低減されるが対象のコンポーネントの顕著性は維持される限り、外観モデル108および構造モデル107の他の数学的表現も適切である。
【0033】
図1を参照して、PCA/ウェーブレットのエンコード化が、次にアナライザ(分析器)110によって構造オブジェクトモデル107および外観オブジェクトモデル108に適用される。より詳細には、アナライザ110は、対象のコンポーネントに対応するビデオデータを圧縮(エンコード化)するために、幾何学的データ解析を採用する。得られる圧縮された(エンコード化された)ビデオデータは、図2の画像処理システムにおいて用いられることができる。より詳細には、これらオブジェクトモデル107,108は、図2のコード化側232およびデコード化側236において蓄積されてもよい。構造モデル107および外観モデル108から、有限状態マシンが生成されてもよい。従来のコード化232およびデコード化236も、従来のウェーブレットビデオコード化デコード化方法として実装されてもよい。
【0034】
PCAコード化が両側232,236において正規化された画素データに適用される。これにより、各側232,236において同一の基底ベクトルセットを形成する。好ましい実施形態では、PCA/ウェーブレットが画像処理中に基底関数に適用されて、所望の圧縮ビデオデータを生成する。ウェーブレット技法(DWT)は、全体画像および部分画像を変換し、外観モデル108および構造モデル107を線形分解する。そして、所望のしきい値目標(EZT式またはSPIHT式)を満たすように、この分解されたモデルは正常に打ち切られる。これによって、拡大縮小可能なビデオデータ処理が容易になり、これは、ビデオデータの「正規化」性質による従来のシステムや方法とは異なる。
【0035】
図2に示すように、1つ以上のオブジェクト230,250についての圧縮されていないビデオストリームの先に検出されたオブジェクトインスタンスが、従来のビデオ圧縮方法232の別個のインスタンスでそれぞれ処理される。さらに、オブジェクト230,250のセグメント化から生じた非オブジェクト202も、従来のビデオ圧縮232を用いて圧縮される。これら別個の圧縮エンコード化232のそれぞれの結果は、各ビデオストリームに別々に対応する従来の方法でエンコード化された別個のストリーム234である。おそらくは伝送の後である、ある時点で、これら中間のコード化されたストリーム234が、正規化された非オブジェクト210および多数の正規化されたオブジェクト238,258の合成に、デコーダ236で解凍される。画素が空間において相対的に正しく位置するように、これら合成された画素は、これらの各非正規化バージョン222、242および262に非正規化240されることができる。これにより、合成処理270が、オブジェクトおよび非オブジェクトの画素を組み合わせて完全なフレームの合成272とすることができる。
【0036】
<写真のようにリアルな描写のアバタの表現>
図3は、テレビ会議の写真のようにリアルな描写のアバタを生成するシステム300によって実行されるステップを示すフローチャートである。このシステム300は、テレビ会議またはビデオブログの参加者の写真のようにリアルな描写のアバタ表現を作成する。図3に示すように、ステップ302において、テレビ会議参加者の一人の顔が、テレビ会議データストリームの1つ以上のビデオフレームから検出される。顔は、Viola-Jones顔検出器(またはその他の任意の顔検出器)を用いて検出される。
【0037】
ステップ304において、システム100は顔が以前に較正されているか否かを判別する。較正がなければ、ステップ306において顔が較正される。較正情報は、顔の方向についての情報(どこに顔が集中しているかを特定する位置(x,y))、拡大縮小情報、ならびに構造、変形、外観および明るさの情報を含む。これらパラメータは、ハイブリッド3次元モーフィング(変形可能)モデルおよびLRLSアルゴリズム、ならびに構造、変形、外観および明るさのモデルを用いて、導出される。これらモデルについては、2006年1月20日出願の米国特許出願第11/336,366号および2007年1月23日出願で発明の名称が「画像データを処理するコンピュータ方法および装置」である米国特許出願(代理人の管理番号4060.1009-000)に詳細に説明されている。これら出願の全内容はここで引用されているものとする。別の既知のモデル化技法が、これらパラメータ(例えば、3次元モーフィングモデル化、アクティブ外観モデルなど)を判別するのに用いられてもよい。これら近似が、ビデオの各フレームについて、顔の姿勢および構造、ならびに明るさ条件を推定するのに用いられる。個人の顔についての構造、変形、外観および明るさの基礎(例えば、較正情報)が解決されると、ステップ308において、これら陽的モデル(明白なモデル(explicit model))が個人の顔を検出、追跡かつモデル化するのに用いられる。
【0038】
ステップ310において、これらパラメータ(例えば、構造、変形、外観および明るさの基礎)が、陰的モデル化(暗黙的なモデル化)の初期化に用いられる。陰的モデル化は、陽的モデル化から得られた情報を基準としたモデルを確立し、個人の顔のコンパクトなエンコード化をもたらす。陽的モデル化から得られたパラメータは、陰的モデルを推定するための評価(ground truth)として用いられる。例えば、陽的モデル化パラメータは、明暗が顔の構造といかに相互作用するかについての予測を確立するために用いられる。そして、顔はサンプル化されて、これら拘束条件は、陰的アルゴリズムについての探索空間を制限する手段を提供する。ステップ312において、個人の顔が、陰的モデルを用いて検出、追跡および分類されて、写真のようにリアルな描写のアバタの表現が生成される。陰的モデル化を用いて生成されたフレームは、陽的モデルに比較して、フレームに対してエンコード化を少ししか使用せず、必要なパラメータが少ない。写真のようにリアルな描写のアバタの表現は、会議参加者の顔の合成表現(例えば、プロキシアバタ)である。合成表現の忠実度は、元のビデオキャプチャ(ビデオ取り込み)における参加者の忠実な表現から、先の較正セッションによってサポートされた表現にまで及ぶ。
【0039】
システム300は、周期的にチェックを行い、そのモデル化を現実的な近似に基づかせることを確実なものとする。したがって、ステップ314においてシステム300はチェックを行い、その陰的オブジェクトモデル化が適切に作用していることを確認する。一定時間について再射影エラーが小さい場合、システムは、陰的オブジェクトモデル化は作用していると判別する。再射影エラーが小さくて大きい動きがある場合、陰的オブジェクトが適切に作用していると考えられる。しかし、再射影エラーが大きい場合、陰的モデル化は最適に作用していないとシステム300は判別する。同様に、システム300が不均衡な帯域量を検出すると、陰的モデル化は最適に作用していないとシステムは判別する。
【0040】
陰的モデル化が作用していないと判別されると、ステップ316において、システムはチェックして顔が検出されたか否かを判別する。顔が検出されている場合、ステップ304において、システム300は、顔についての現在の較正情報を検索(発見)して、それに従って処理を行う。顔が検出されない場合、システムはステップ302に進み、Viola-Jones顔検出器を用いて顔を検出する。
【0041】
別の好ましい実施形態では、本発明は、陰的モデル化を再確立するのに陽的モデル化を用いる。陽的モデル化は、陰的モデルを再初期化するのに必要なモデルパラメータを再確立する。顔検出器の実行を含む全再確立が、陽的モデル化が参加者のモデル化を再確立できない場合に実行される。
【0042】
なお、顔検出の誘導は、較正に対して陰的モデル化を用いる。この場合、陰的モデルは、陽的モデルを「較正する」のに用いられる。その後、陽的モデルはその処理を開始し、同様に陰的モデルの初期化を誘導する。
【0043】
この周期的なチェックによって、システム300は現実のオブジェクトである人間の顔を実際にモデル化することを再確認でき、システム300は周期的にその設定をリセットする。この構成によって、顔検出器402、較正器404、陽的モデル化器(陽的モデラ)406および陰的モデル化器(陰的モデラ)408の間の密な結合が実現される。このようにして、周期的に、陽的モデル化器406からのフィードバックが陰的モデル化器408を再初期化するのに用いられる。このシステム300の例示的な実装のブロック図が図4に示されている。
【0044】
<写真のようにリアルな描写のアバタの基本設定>
写真のようにリアルな描写のアバタの生成システム300は、会議の参加者にとってそのテレビ会議の経験がより楽しいものとなるように、その参加者の基本設定のホストを提供する。例えば、会議参加者は、自分の写真のようにリアルな描写のアバタの表現がカメラに常に直接見えることを要求するように、基本設定を選択できる。これによって、アバタ表現が別の会議参加者を直視しているように見える。採用されたモデル化が仮想カメラに対して任意のモデルの再ポーズを許容しているため、共同設置されていないカメラおよびモニタに必要とされるゲージ調整が補償される。会議参加者は、また、特有の背景モデルを選択できる。不変の背景モデルを選択することによって、システム300は、さらに効率的に圧縮されたバージョンのビデオストリームを提供できる。例えば、モデルは、予め定義された背景または現実の背景の低解像度であってもよい。顔検出および較正の間、会議参加者は、また、写真のようにリアルな描写のアバタ表現における自分の特質に関連した特徴をカスタマイズできる。これらカスタマイズの例として、しわの除去、ヘアスタイル/ヘア効果の選択、洋服の選択などがある。
【0045】
会議参加者の写真のようにリアルな描写のアバタ表現を提供することによって、システム300は、従来のテレビ会議システムでは一般に利用できない追加のセキュリティ層を実現する。詳細には、写真のようにリアルな描写のアバタ表現は合成表現であるため、会議参加者は他の会議参加者が場合によっては秘密情報を知ってしまうことを気にする必要がない。このような情報には、会議参加者がテレビ会議中に注目する書類や、テレビ会議が記録される特別な環境を眺めることによって推理される秘密情報などがある。
【0046】
<テレビ会議システム>
図5Aは、非同期またはほぼ同期のテレビ会議システム500の例を示す図である。このシステム500は、インスタントメッセージサーバ502と称される非同期またはほぼ同期のテレビ会議サーバを用いる。この例では、3つのノードが、インスタントメッセージサーバ502および2つのクライアントマシン504,506で示されている。各マシン504,506に位置しているユーザは、テレビ会議セッションを開始することができ、ビデオカメラおよびヘッドフォンを使用して通信する。各ユーザの顔の写真のようにリアルな描写のアバタ表現が、各ユーザの前に現われる。この表現はユーザの外観および表情の点において正確であることが意図されている。最初に取り込まれたフレームのその他の部分が、好ましくは低い正確度で表現される。固有のユーザに1回実行される短い較正セッションが起動される。これにより、システムは、圧縮アルゴリズムを初期化して、オブジェクトモデルを作成できる。後続のテレビ会議セッションはさらなる較正を必要としない。各ユーザは、交換のために非同期通信のシーケンスを「再生する」。このようにして、各ユーザは、ユーザ入力、検出されたスピーチなどのキュー(合図)に基づいて、セッション記録にキュー(合図)を出す。さらに、この相互作用は多くの同時の「会話」を考慮する。これは、完全に同時の状況で生じるかもしれない「中断」なしに、相互作用が行われるためである。
【0047】
非同期または準同期のメッセージシステム環境500が、複数の参加者が互いに対話できる手段を提供する。これは、使いやすさの点において重要な要素である。インスタントメッセージセッション構成によって、ユーザは、自己のビデオを「編集」でき、他のユーザに「送信」する前に見直すことができる。重要な、制御および帯域低減の構成が存在する。将来的に他の目的に使用される「高」品質のビデオセグメントを生成するために、編集および制御の構成が用いられてもよい。例えば、ビデオにおける音素または音フレーズパターンを関連付けることによって、ビデオセッションは、共にステッチされた「以前の」セグメントを用いることによって、カメラなしで提供される。
【0048】
図5Bは、テレビ会議/ビデオブログシステム540の例を示す図である。この例では、クライアントシステム551はアプリケーションサーバ556に接続する。このサーバ556は、図3および4で参照された写真のようにリアルな描写のアバタの生成システム300のホストとして動作する。このアプリケーションサーバ556は、以前に生成されたオブジェクト(密度、構造、外観、明るさなど)モデル552をオブジェクトモデルアーカイブ554に格納する。図3および4に関連して述べたように、システム540のユーザについて写真のようにリアルな描写のアバタ表現を生成するように、これらオブジェクトモデル552が作成される。写真のようにリアルな描写のアバタ表現は、クライアントシステム551のビデオブログ(vlog)558にストリームされる。
【0049】
<処理環境>
図6は、本発明が実現される、コンピュータネットワークまたは同様のディジタル処理環境を示す。クライアントコンピュータ/装置50およびサーバコンピュータ60が、アプリケーションプログラムなどを実行する、処理装置、記憶装置、および入力/出力装置を設ける。クライアントコンピュータ/装置50は、通信ネットワーク70を介して、別のクライアント装置/プロセッサ50およびサーバコンピュータ60などのその他のコンピュータ装置にリンクされてもよい。通信ネットワーク70は、リモートアクセスネットワーク、グローバルネットワーク(例えば、インターネット)、コンピュータのワールドワイドの集合形態、ローカルエリアもしくはワイドエリアのネットワーク、およびプロトコル(TCP/IP、Bluetoothなど)を用いるゲートウェイの一部であってもよい。その他の電子的装置/コンピュータネットワークアーキテクチャも適している。
【0050】
図7は、図6のコンピュータシステムにおけるコンピュータ(例えば、クライアントプロセッサ/装置50またやサーバコンピュータ60)の内部構造の図である。各コンピュータ50,60は、システムバス79を含む。ここで、バスはコンピュータまたは処理システムの要素間のデータ転送に用いられるハードウェアラインのセットである。バス79は、基本的には、コンピュータシステムの異なる要素を接続する共有の電線である。これら要素は、例えば、プロセッサ、ディスクストレージ、メモリ、入力/出力ポート、ネットワークポートなどである。このバスによって、要素間の情報の転送が可能となる。システムバス79には、入力/出力(I/O)装置インタフェース82が取り付けられており、様々な入力および出力装置をコンピュータ50,60に接続する。これら入力および出力装置は、例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカなどである。ネットワークインタフェース86によって、コンピュータは、ネットワーク(例えば、図6のネットワーク70)に取り付けられた様々なその他の装置に接続される。メモリ90は、本発明の実施形態(例えば、個人用のビデオサービス)を実装するのに用いられる、コンピュータソフトウェア命令92およびデータ94用の揮発性ストレージである。ディスクストレージ95は、本発明の実施形態を実装するのに用いられるコンピュータソフトウェア命令92およびデータ94用の不揮発性ストレージである。中央処理装置ユニット84もシステムバス79に取り付けられており、コンピュータ命令を実行する。
【0051】
一実施形態では、プロセッサルーチン92およびデータ94は、コンピュータプログラム製品であり、この製品はコンピュータ読み取り可能な媒体(例えば、1つ以上の、DVD−ROM、CD−ROM、ディスケット、テープ、ハードドライブなどの交換可能ストレージ)を含む。コンピュータプログラム製品は、この分野で周知のように、適切なソフトウェアインストール手続きによってインストールされる。別の実施形態では、少なくとも一部のソフトウェア命令が、ケーブル通信および/または無線通信でダウンロードされてもよい。その他の実施形態では、本発明のプログラムが、伝播媒体(例えば、ラジオ電波、赤外線、レーザ光線、音波、またはインターネットなどのグローバルネットワークを伝播される電磁波)の伝播信号に組み込まれるコンピュータプログラム伝播信号製品107である。このようなキャリア媒体または信号は、本発明のルーチン/プログラム92に、ソフトウェア命令の少なくとも一部を提供する。
【0052】
別の実施形態では、伝播信号は、アナログキャリア波または伝播媒体で運ばれるディジタル信号である。例えば、伝播信号は、グローバルネットワーク(例えば、インターネット)、電気通信ネットワークなどのネットワークを伝播されるディジタル信号であってもよい。一実施形態では、伝播信号は、ミリ秒、秒、分またはそれ以上の期間にわたってネットワークをパケットで送信されるソフトウェアアプリケーションの命令のような、所定期間に伝播媒体を転送される信号である。別の実施形態では、コンピュータプログラム製品のコンピュータ読み取り可能な媒体は、伝播媒体を受信して、上述のコンピュータプログラム伝播信号製品のような、伝播媒体に組み込まれた伝播信号を特定することによって、受信および読み取りをコンピュータシステムが行う、伝播媒体であってもよい。
【0053】
一般的に言えば、用語「キャリア媒体」すなわち遷移キャリアは、前述の遷移信号、伝播信号、伝播媒体、記憶媒体などを包含する。
【0054】
本発明は、本発明の好ましい実施形態に関連して詳細に示され説明されているが、当業者であれば、添付の特許請求の範囲に包含される本発明の範囲から逸脱することなく、形態および細部に様々な変更が可能であることは理解されるであろう。
【0055】
たとえば、本発明は、様々なコンピュータアーキテクチャにおいて実装される。図5A,5B,6および7に示されたコンピュータネットワークは、例示のためであり、本発明はこれに限定されるわけではない。
【0056】
本発明は、完全なハードウェア実施形態、完全なソフトウェア実施形態、またはハードウェア要素およびソフトウェア要素の両方を含む実施形態であってもよい。好ましい実施形態では、本発明はソフトウェアに実装され、このソフトウェアは、これに限定されるわけではないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含む。
【0057】
さらに、本発明は、コンピュータまたは任意の命令実行システムによって、またはこれらに組み合わされて使用するためのプログラムコードを提供するコンピュータ使用可能またはコンピュータ読み取り可能な媒体からアクセス可能なコンピュータプログラム製品の形体をとる。この記述のために、コンピュータ使用可能またはコンピュータ読み取り可能な媒体は任意の装置であってもよく、この装置は、命令実行システム、装置または機器によって、またはこれらに組み合わされて使用するためのプログラムを含み、記憶し、通信し、伝播し、または移植する。
【0058】
媒体は電気、磁気、光、電磁、赤外線、または半導体のシステム(または装置もしくは機器)または伝播システムである。コンピュータ読み取り可能な媒体の例として、半導体もしくは固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、読み取り専用メモリ、(ROM)、硬質の磁気ディスクおよび光ディスクが挙げられる。光ディスクの例には、コンパクトディスク、つまり読み取り専用(CD−ROM)、読み取り/書き込み(CD−R/W)およびDVDが含まれる。
【0059】
プログラムコードを格納および/または実行するのに適したデータ処理システムは、メモリ要素にシステムバスを介して直接的または間接的に結合された少なくとも1つのプロセッサを含む。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、大容量記憶装置、およびキャッシュメモリを含む。ここで、キャッシュメモリは、実行中に大容量記憶装置から取り出されるコードの回数を低減するために、少なくともプログラムコードの一時的な格納を提供する。
【0060】
入力/出力すなわちI/O装置(これらに限定されるわけではないが、キーボード、ディスプレイ、ポインティング装置などを含む)が、システムに、直接またはI/Oコントローラを介して結合される。
【0061】
ネットワークアダプタがシステムに結合されてもよく、これにより、データ処理システムは他の処理システムまたは遠隔プリンタもしくは記憶装置に、プライベートまたは公共のネットワークを介して結合される。モデム、ケーブルモデムおよびイーサネット(登録商標)カードは、現在利用可能なタイプのネットワークアダプタのほんの一部にすぎない。

【特許請求の範囲】
【請求項1】
ビデオストリームの一部に現われたテレビ会議参加者の顔を検出する工程と、
前記テレビ会議参加者の前記顔をモデル化するように、1つ以上のオブジェクトモデルを作成する行程と、
前記オブジェクトモデルを用いて、前記テレビ会議参加者の写真のようにリアルな描写のアバタ表現を作成する工程とを備えた、テレビ会議提供方法。
【請求項2】
請求項1において、前記テレビ会議参加者の前記顔が、Viola/Jones顔検出アルゴリズムを用いて検出および追跡される、テレビ会議提供方法。
【請求項3】
請求項1において、前記写真のようにリアルな描写のアバタ表現のオブジェクトモデルが、前記テレビ会議参加者の前記顔の陰的表現として作成される、テレビ会議提供方法。
【請求項4】
請求項3において、前記テレビ会議参加者の前記陰的表現が、前記テレビ会議参加者の前記顔のシミュレーションされた表現である、テレビ会議提供方法。
【請求項5】
請求項3において、Viola/Jones顔検出アルゴリズムを用いた前記検出および追跡が、
前記ビデオストリームから2つ以上のビデオフレームにおける前記顔に関連した少なくとも1つのオブジェクトの対応する要素を識別する工程と、
予め較正されてモデル化された顔に基づいて、対応する要素間の関係を識別するように、対応する要素を追跡および分類する工程とを有する、テレビ会議提供方法。
【請求項6】
請求項1において、前記オブジェクトモデルが、構造、変形、姿勢、動き、明るさ、および外観についてのオブジェクトモデルを含む、テレビ会議提供方法。
【請求項7】
ビデオストリームにおけるテレビ会議参加者の顔を検出する顔検出器と、
前記テレビ会議参加者の前記顔を較正する較正モデルを生成する較正器と、
前記較正記および前記顔検出器に組み合わされたオブジェクトモデルであって、前記較正モデルに基づいて、前記テレビ会議参加者の前記顔を現わす前記ビデオストリームの一部をモデル化する、オブジェクトモデルと、
前記テレビ会議参加者の写真のようにリアルな描写のアバタ表現であって、前記顔検出器、較正器およびオブジェクトモデルから生成される、写真のようにリアルな描写のアバタ表現とを備えた、テレビ会議システム。
【請求項8】
テレビ会議の少なくとも1人の参加者を現わすビデオストリームの一部をモデル化するようにオブジェクトモデルを提供する手段と、
前記テレビ会議参加者の写真のようにリアルな描写のアバタ表現を作成するように、前記オブジェクトモデルを用いる手段とを備えた、テレビ会議用のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図6】
image rotate

【図7】
image rotate


【公表番号】特表2010−517427(P2010−517427A)
【公表日】平成22年5月20日(2010.5.20)
【国際特許分類】
【出願番号】特願2009−547253(P2009−547253)
【出願日】平成20年1月4日(2008.1.4)
【国際出願番号】PCT/US2008/000092
【国際公開番号】WO2008/091485
【国際公開日】平成20年7月31日(2008.7.31)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Bluetooth
【出願人】(507030416)ユークリッド・ディスカバリーズ・エルエルシー (11)
【氏名又は名称原語表記】EUCLID DISCOVERIES,LLC
【Fターム(参考)】