説明

モバイルビデオ通信用アバターデータベース

アバターモバイルビデオ通信方法及びシステムが開示されている。アバターの作成及び現実的な駆動は、例えば携帯電話などの携帯通信機器(60)では完全に自動的にはできないため、現実的な駆動メカニズムと共に、アバターデータベース(80)が設けられる。モバイル発呼者は、モバイルビデオ通信中、使用する適切なダウンロード可能なアバターを選択することができる。アバターデータベースは、モバイルビデオ通信システム用のグローバルリソースとして設けられる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モバイルビデオ通信の分野に係り、特に、モバイルビデオ通信ネットワークと共に用いられるグローバルアバターデータベースを含む方法及びシステムに関する。
【背景技術】
【0002】
ビデオ通信ネットワークは、仮想環境における情報の交換を可能にする。これを容易にする1つの方法がアバターの利用である。アバターにより、ユーザは、仮想世界において他人とコミュニケーションをとり、交流することができる。
【0003】
アバターは、例えば、トーキングヘッド(話す人)、マンガ(cartoon)、動物、又は、ユーザの立体映像など、ユーザの希望に応じて様々な形をとることができる。アバターは、仮想世界における他のユーザに対するユーザのグラフィック表現である。アバターは、例えば、ユーザが例えばパソコンや携帯電話を通じてアバターを制御しているユーザが仮想世界にログオンしている又はインタラクトしているときに、バーチャルリアリティーにおいて用いられる。
【0004】
上述のように、トーキングヘッドは、例えば、人の頭の立体表現であって、発話と同期して唇が動くものである。トーキングヘッドは、用いられている接続が音声チャネルであっても、仮想相互接続の幻影を作り出すのに用いることができる。
【0005】
例えば、オーディオビジュアルスピーチシステムにおいては、様々なアプリケーションについて、「トーキングヘッド」の統合を用いることができる。このようなアプリケーションは、例えばテレビ電話や、プレゼンテーションや、バーチャル会議室におけるアバターや、電子メール読み上げやゲームなどのインテリジェントコンピュータユーザインターフェースや、他の多くのオペレーションなど用のモデルベースの画像圧縮などである。このようなインテリジェントユーザインターフェースの一例は、送信されるオーディオメッセージを表現するのにトーキングヘッドを用いるモバイルビデオ通信システムである。
【0006】
オーディオビデオシステムにおいて、オーディオは音素及びタイミング情報を得るために処理され、次いで、フェイスアニメーションシンセサイザーに送られる。フェイスアニメーションシンセサイザーは、(N群の中の)適切なビゼム(viseme)画像を音素及び変形体を用いて一音素ずつ表示するために用いる。これは、オーディオに同期した顔の動き(例えば、唇)の様子を伝達する。このような従来のシステムは、非特許文献1及び2に記載されている。
【非特許文献1】T.Ezzatら、「Miketalk:A talking facial display based on morphing visemes」、Proc Computer Animation Conf. 1998(ペンシルバニア州フィラデルフィア)、96〜102頁
【非特許文献2】E.Cosattoら、「Photo−realistic talking−heads from image samples」、IEEE Trans. On Multimedia,Vol.2,No.3、2000年9月
【発明の開示】
【発明が解決しようとする課題】
【0007】
顔のアニメーション画像についてのモデル化手法は2つ存在する。1つは、ジオメトリをベースする方法であり、もう1つは画像をベースにする方法である。写真による実際のトーキングヘッドを用いる画像ベースのシステムは、よりパーソナルなインターフェースであること、マンガアニメーションなどの他の方法よりわかりやすいこと、音声部分の品質が向上すること、などの多くの利点を有する。
【0008】
3次元(3D)モデル化技術を用いることもできる。3Dモデルは柔軟性を提供する。なぜなら、3Dモデルは、発話及び感情の様々な表情に適応するように変えることができるからである。残念ながら、これら3Dモデルは、通常、コンピュータシステムによる自動認識には適していない。3Dモデル化のプログラミングの複雑さは増加してきている。なぜなら、現在のモデルはより多くの現実主義を容易にする高性能なものであるからである。このような3Dモデル化手法において、情景に同期した3Dを生成するのに用いられるポリゴン数は、指数関数的に増加してきている。これは、必要とされるメモリ及びコンピュータの処理能力を大幅に増やす。したがって、3Dモデル化手法は、一般的には、携帯電話などの機器においては実施できない。
【0009】
現在、インターネットチャットのようなアプリケーションやビデオ電子メールアプリケーション用として2Dアバターが用いられている。CrazyTalkやFaceMailなどの従来のシステムは、アバターを駆動させてテキストを音声アプリケーションに合成したものである。ユーザは、複数の既存のアバターの中から1つを選んでもよく、或いは、ユーザ自身を提供して、顔の特徴点をユーザ自身のアバターに調整してもよい。テキストが入力されると、アバターは、そのテキストに応じて話す真似をする。しかしながら、このシンプルな2Dアバターモデルが生成するビデオシーケンスは現実的ではない。
【0010】
3Dアバターモデルを作り出すためには、上述のように、通常、平均的なユーザにとっては難しすぎる複雑でインタラクティブな手法が必要となる。
【0011】
したがって、本発明の目的は、アバターベースのリアルタイムビデオモバイル通信用のビジネスモデルを提供することである。
【0012】
本発明の別の目的は、モバイルビデオ通信と共に用いられるアバターのグローバルリソースデータベースを提供することである。
【課題を解決するための手段】
【0013】
本発明の一実施形態は、モバイル通信ネットワークと、ディスプレイを備え、該モバイル通信ネットワークを通じて別の通信機器と情報交換が可能な携帯通信機器と、複数のアバターを含むデータベースとを有するビデオ通信システムに関する。このデータベースは、該モバイル通信ネットワーク用のグローバルリソースである。上記携帯通信機器は、上記複数のアバターの中の少なくとも1つにアクセスできる。
【0014】
本発明の別の一実施形態は、モバイルビデオ通信用アバターの使用方法に関する。本方法は、携帯通信機器のユーザが別のビデオ通信機器のユーザへビデオ通信を開始する工程と、複数のアバターを含むグローバルリソースデータベースにアクセスする工程と、このデータベースの上記複数のアバターの中から1つのアバターを選択する工程とを有する。本方法は、更に、上記1つのアバターを上記別のビデオ通信機器のユーザへ送る工程を更に有する。
【発明を実施するための最良の形態】
【0015】
本発明の更に別の特徴及び態様並びに本発明の様々な利点は、添付図面及び以下の好ましい実施形態の詳細な説明からより明らかにされる。
【0016】
以下の説明においては、限定する目的ではなくあくまで説明の便宜上、本発明の完全な理解を提供するために特定のアーキティチャ、インターフェース、手法などの具体的な詳細が説明されている。しかしながら、当業者には明らかなように、本発明は、これら具体的詳細から逸脱した他の実施形態においても実現可能である。さらに、便宜上、不要な詳細の説明により本発明の説明がぼやけないように、周知の機器、回路、及び方法の詳細な説明は省略する。
【実施例】
【0017】
図1には、モバイル通信システム10の概略図が示されている。このネットワークは、様々な基地局サブシステム30と接続可能な移動曲(MS)20を含む。基地局(BS)30は、ネットワーク40によって、相互接続されている。ネットワーク40は、公衆電話網や携帯電話交換網などのワイドエリアネットワークであってもよく、或いは、TCP/IPデータグラムをルーティングするインターネットルータネットワークであってもよい。
【0018】
また、様々なサービスノード50もネットワーク40を経由して接続することができる。図示するように、設けることができるこのようなサービスの1つは、ビデオ通信用サービスである。サービスノード50は、ビデオ通信を提供するように構成されると共に、グローバルリソースとしてネットワーク40に接続される。
【0019】
各MS20は、契約者の識別を可能にすると共に呼接続を容易にする従来通りのモバイル送受信機を有する。例えば、発呼者があるセル(すなわち、ネットワーク40のBS30によってカバーされるエリア)に電話を掛けようとするとき、MS20及びBS30は互いに発呼者情報を交換する。このとき、サポートされたサービス又は契約されたサービスのリストもネットワーク40を通じて交換されてもよい。例えば、発呼者は、ディスプレイ61を備えた携帯電話60を通じてモバイルビデオ通信を契約することができる。
【0020】
しかしながら、上述のように、発呼者にとっては、このようなモバイルビデオ通信と共に用いられるアバター70を作るのがもっともやっかいなことであり得る。本発明の一実施形態は、発呼者が必要に応じてアクセスし、ダウンロードできる、サービスノード50に記憶されたアバターのデータベース80に関する。現実的な模倣発話に対するアバター70用の駆動メカニズムも発呼者に提供される。
【0021】
データベース80は、例えば、2次元の、3次元の、マンガ調の、又は、ジメトリーベース若しくは画像ベースのアバターなど、様々な種類のアバター70を含み得る。
【0022】
サービスノード50は、すべてのBS30及びMS20用のグローバルリソースであることにも注意。したがって、各BS30及び/又はMS20は、個々にアバター情報を記憶している必要はない。これにより、すべてのアバター70にとって更新、メンテナンス、及び制御のための中央アクセスポイントが可能となる。また、複数の接続されたサービスノード70の各々に、すべてのアバター60のサブセットを備えるようにしてもよい。このような構成においては、1つのサービスノード70が、モバイルビデオ通信呼が容易になるように、必要に応じて別のサービスノード70のデータへアクセスできる。
【0023】
データベース(DB)80は、少なくとも、アニメーションライブラリと同時調音(coarticulation)ライブラリとを含む。一方のライブラリのデータは、他方のライブラリからサンプルを抽出するのに用いることができる。例えば、サービスノード50は、同時調音ライブラリから抽出されたデータを用いて、アニメーションライブラリから発呼者へ提供される適切なフレームパラメータを選択することができる。
【0024】
同時調音も実行されることにも注意。同時調音の目的は、最終的な同期された出力における同時調音の効果を調整することである。同時調音の原理は、音素に対応する口の形が話された音素自体だけでなく、その瞬間の音素の前に(まれに後に)話された音素にも依存することを認識している。同時調音効果を考慮していないアニメーション方法は、観測者に対して人工的であるとの印象を与え得る。なぜなら、口の形は、その口の形をしたのとは一致しない理由で話された音素と共に用いられるかもしれないからである。
【0025】
また、サービスノード50は、画像ベース同期ソフトウェアなどのアニメーション同期ソフトウェアを含んでもよい。この実施形態においては、発呼者のためにカスタマイズされたアバターを作成することができる。これは、通常、他人に携帯電話を掛けようとする前に行われる。
【0026】
カスタマイズされたアバターを作成するために、発呼者が自然に話している間に、少なくとも発呼者の動き及び画像のサンプルが取り込まれる。これは、例えば、携帯電話内のビデオ入力インターフェースを通じて行われてもよく、或いは、オーディオ画像データが別の方法で(例えば、パソコン経由で)取り込まれ、サービスノード50へダウンロードされてもよい。サンプルは、話者の特徴(例えば、特定の音素を話すときに生成している音、口の形の形状、音素間の移行を表す方法、など)を取り込む。画像サンプルは、サービスノード50のアニメーションライブラリにおいて処理され、記憶される。
【0027】
別の実施形態において、発呼者は、将来の利用に備えてサービスノード50へ提供可能な(アップロード可能な)特定のアバターを既に持っていてもよい。
【0028】
図2は、アバターデータベース80へのアクセス及び使用法を示すフローチャートを示している。ステップ100において、発呼者は携帯電話で電話を掛け始める。次いで、システム10の契約者として発呼者を識別すると共に、発呼者がいずれのサービスを利用可能であるかを判断する情報がMS20とBS30の間で交換される。発呼者は携帯電話60に関連付けられた固有の番号に基づいて識別されてもよいことに注意。
【0029】
次いで、ステップ110において、アバターデータベース80がアクセスされる。
【0030】
発呼者がビデオ通信サービスを契約している場合、発呼者は(ステップ121において)データベース80からアバター70を選択できる。発呼者は、予め選択されたデフォルトのアバターをすべての呼で用いてもよく、或いは、電話を掛けた相手に応じて異なるアバターを用いてもよい。例えば、発呼者が予めプログラムした短縮ダイヤル番号の各々に特定のアバターを関連付けてもよい。
【0031】
適切なアバター70が判断されると(ステップ120)、サービスノード50は、ステップ130において、アバター70をダウンロードする。このアバターは、呼セットアップ手続きの一部として、着呼者へ送られる。これは、例えば、発呼者IDタイプ情報の送信と同様の方法で実行することができる。
【0032】
この時点で、サービスノード50は、着信先が発呼者に対して用いられるデフォルトのアバターを持っているか否かを判断してもよい。再記するが、着呼者は、所定のデフォルトアバター60をすべての呼について用いてもよく、或いは、デフォルトアバター60は、所定の関連性に基づいて(例えば、発呼者の電話番号に基づいて)いてもよい。この所定のデフォルトアバターは発呼者に送られる。着呼者についてデフォルトアバターを決定できない場合、別の所定のシステムデフォルトアバターを発呼者に送ることができる。
【0033】
ステップ140において、呼が確立され、継続しているとき、データベース80において、発呼者及び着呼者の様々な(例えば顔)パラメータがアクセスされ、両者に送られる。これにより、アバター60は、受信した発話及びそれに応じた顔の表情を真似するようになる。
【0034】
呼中(ステップ150)、発呼者及び/又は着呼者は、使用中のアバター60を動的に変えることができる。
【0035】
システム10に関連した様々な機能上のオペレーションは、一部又は全部がメモリに記憶された1以上のソフトウェアプログラムとして実現され、(例えば、MS20、BS30、又は、サービスノード50において)プロセッサによって実行されてもよい。
【0036】
以上、本発明を具体的実施形態について説明したが、本発明はここに開示した実施形態に制限される又は限定されることが意図されていないことは明らかである。逆に、本発明は、請求項の意図及び範囲内に含まれる本発明の様々な構造及び変形例をカバーすることが意図されている。
【図面の簡単な説明】
【0037】
【図1】本発明の好ましい実施形態を実施可能なシステムの概念図である。
【図2】本発明の好ましい実施形態に係る方法を示すフローチャートである。

【特許請求の範囲】
【請求項1】
ビデオ通信システムであって、
モバイル通信ネットワークと、
ディスプレイを備え、前記モバイル通信ネットワークを通じて別の通信機器と情報交換が可能な携帯通信機器と、
複数のアバターを含み、前記モバイル通信ネットワーク用のグローバルリソースであるデータベースとを有し、
前記携帯通信機器は、前記複数のアバターの中の少なくとも1つにアクセスできる、ことを特徴とするビデオ通信システム。
【請求項2】
請求項1記載のビデオ通信システムであって、
前記モバイル通信ネットワークは、複数の移動局と少なくとも1つの基地局とを含む携帯電話ネットワークである、ことを特徴とするビデオ通信システム。
【請求項3】
請求項2記載のビデオ通信システムであって、
前記携帯通信機器は携帯電話である、ことを特徴とするビデオ通信システム。
【請求項4】
請求項1記載のビデオ通信システムであって、
前記複数のアバターは、少なくとも1つの、人間の頭部の3次元表現を含む、ことを特徴とするビデオ通信システム。
【請求項5】
請求項1記載のビデオ通信システムであって、
前記複数のアバターは、少なくとも1つの、人間の頭部の2次元表現を含む、ことを特徴とするビデオ通信システム。
【請求項6】
請求項1記載のビデオ通信システムであって、
前記複数のアバターは、少なくとも1つの、人間の頭部の画像ベースの表現を含む、ことを特徴とするビデオ通信システム。
【請求項7】
請求項1記載のビデオ通信システムであって、
前記携帯通信機器は、更に、ビデオ入力インターフェースを有する、ことを特徴とするビデオ通信システム。
【請求項8】
請求項1記載のビデオ通信システムであって、
前記データベースは、前記モバイル通信ネットワークに通信可能に接続されたビデオサービスノードの一部である、ことを特徴とするビデオ通信システム。
【請求項9】
請求項8記載のビデオ通信システムであって、
前記ビデオサービスノードは、更に、前記ビデオ通信システムの契約者がカスタマイズされたアバターを作ることを可能にするアニメーション合成ソフトウェアを有する、ことを特徴とするビデオ通信システム。
【請求項10】
モバイルビデオ通信用アバターの使用方法であって、
携帯通信機器のユーザが別のビデオ通信機器のユーザへビデオ通信を開始する工程と、
複数のアバターを含むグローバルリソースデータベースにアクセスする工程と、
前記データベースの前記複数のアバターの中から1つのアバターを選択する工程と、
前記1つのアバターを前記別のビデオ通信機器のユーザへ送る工程と、を有することを特徴とする方法。
【請求項11】
請求項10記載の方法であって、
前記携帯通信機器は携帯電話である、ことを特徴とする方法。
【請求項12】
請求項10記載の方法であって、
前記複数のアバターは、少なくとも1つの、人間の頭部の3次元表現を含む、ことを特徴とする方法。
【請求項13】
請求項10記載の方法であって、
前記複数のアバターは、少なくとも1つの、人間の頭部の2次元表現を含む、ことを特徴とする方法。
【請求項14】
請求項10記載の方法であって、
前記複数のアバターは、少なくとも1つの、人間の頭部の画像ベースの表現を含む、ことを特徴とする方法。
【請求項15】
請求項10記載の方法であって、
ビデオ情報を提供することによって前記携帯通信機器のユーザがカスタマイズされたアバターを作ることができるようにする工程を更に有する、ことを特徴とする方法。
【請求項16】
請求項10記載の方法であって、
前記選択工程は、所定のデフォルトアバターを用いることを含む、ことを特徴とする方法。
【請求項17】
請求項16記載の方法であって、
着信先の2人のビデオ通信機器のユーザと共に少なくとも2つの異なる所定のデフォルトアバターが用いられる、ことを特徴とする方法。
【請求項18】
請求項10記載の方法であって、
所定のアバターを前記携帯通信機器のユーザへ送る工程を更に有する、ことを特徴とする方法。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2006−510249(P2006−510249A)
【公表日】平成18年3月23日(2006.3.23)
【国際特許分類】
【出願番号】特願2004−558253(P2004−558253)
【出願日】平成15年12月4日(2003.12.4)
【国際出願番号】PCT/IB2003/005685
【国際公開番号】WO2004/054216
【国際公開日】平成16年6月24日(2004.6.24)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【氏名又は名称原語表記】Koninklijke Philips Electronics N.V.
【住所又は居所原語表記】Groenewoudseweg 1,5621 BA Eindhoven, The Netherlands
【Fターム(参考)】