説明

ビデオホン画像における頭部姿勢を補正する方法及び装置

ディスプレイ上に正面画像が表示されるようビデオ画像における頭部姿勢を補正する画像処理システム(250)及び方法(300)を開示する。開示する頭部姿勢補正器(250)は、頭部の向きを推定し、正面画像を提示するために、必要である場合には、その頭部姿勢の向きを調整する。頭部姿勢の向きは、顔表面の3次元モデルを生成し、所望の正面画像を与えるようその3次元顔モデルの向き調整することにより調整される。頭部姿勢補正器は、送信又は受信画像(又は両方)の頭部姿勢を補正するようビデオホン(100)内に組み込まれるか、又は、ビデオホン通信の1人以上の参加者の頭部画像を自動的に調整するようネットワーク上のサーバ内に組み込まれてもよい。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオホンシステム、より具体的には、ビデオホン画像における頭部姿勢を補正する方法及び装置に係る。
【背景技術】
【0002】
消費者市場は、様々な通信及び媒体選択肢を提供する。例えば、電話線を介して接続されるユーザ間のオーディオ及びビデオ通信を可能にする様々なビデオホンが知られている。ビデオホンシステムは、一般的に、双方向オーディオ通信を可能にするマイクロホン及びスピーカと、双方向ビデオ通信を可能にするカメラ及びディスプレイを有する。
【0003】
ビデオホン用途用の技術は、ビデオホン選択肢が、多くの無線電話サービスプロバイダによって提供される程度まで進歩している。従って、ワイヤレスビデオホンは、ワイヤレスリンクを介して接続されるユーザ間のオーディオ及びビデオ通信を可能にする。特に移動するユーザでは問題となるビデオホン通信における1つの一般的な問題は、ビデオホン呼の片方の又は両方の参加者が、常にカメラに顔の正面画像を提示できるわけではないということである。例えば、ユーザが、ビデオホンのカメラ部分を手に持ちながら歩き歩道を見ている場合、遠隔にいる参加者は、一般的に、ユーザの顔のうちの「あごの画像」を見ることになる。同様に、ビデオホンのカメラ部分がユーザの机上に置かれる場合に、ユーザが机に着席し、コンピュータディスプレイを見るために頭を動かすと、遠隔にいる参加者は、ユーザの顔の「横顔の画像」を見ることになる。
【発明の開示】
【発明が解決しようとする課題】
【0004】
従って、ビデオホン画像における頭部姿勢を補正し、それにより、遠隔にいる参加者が、相手方の参加者の適切な正面画像を見るようにする方法及び装置が必要である。更に、ワイヤレスホンでの実施に適した頭部姿勢を推定及び補正する改良された技術が必要である。
【課題を解決するための手段】
【0005】
一般的に、ディスプレイ上に正面画像が表示されるようビデオ画像における頭部姿勢を補正する画像処理システム及び方法を開示する。開示する頭部姿勢補正器は、頭部の向きを推定し、正面画像を提示するために、必要である場合には、その頭部姿勢の向きを調整する。頭部姿勢の向きは、顔表面の3次元モデルを生成し、所望の正面画像を与えるようその3次元顔モデルの向き調整することにより調整される。開示する頭部姿勢補正器は、送信又は受信画像(又は両方)の頭部姿勢を補正するようユーザのビデオホン内に組み込まれるか、又は、ビデオホン通信の1人以上の参加者の頭部画像を自動的に調整するようネットワーク上のサーバ内に組み込まれてもよい。頭部姿勢補正器の計算要件は、ワイヤレスビデオホンでの実施に適している。
【0006】
本発明のより完全な理解、並びに本発明の更なる特徴及び利点は、以下の詳細な説明及び図面を参照することによって得られるであろう。
【発明を実施するための最良の形態】
【0007】
図1は、従来のビデオホンシステム100を示す。図1に示すように、例示的な従来のビデオホンシステム100は、2人以上のユーザ間でのオーディオ及びビデオ通信を可能にするマイクロホン110、スピーカ120、カメラ130、及びディスプレイ140を有する。従来のビデオホンシステム100は、例えば、ソニー・エリクソン・モバイルコミュニケーションズ社から市販されるもののような任意の入手可能なビデオホンシステムとして具現化し得る。当業者には明らかであるように、マイクロホン110、スピーカ120、カメラ130、及びディスプレイ140は、デスクトップホンのように1つのユニットに一体化されても、又は、2つ以上のモジュラーユニットとして具現化されてもよい。例えば、カメラ130及びディスプレイ140は、マイクロホン110及びスピーカ120を有する従来の電話機へのモジュラー取付け部品として具現化され得る。1つの特定の実施では、従来のビデオホンシステム100は、ソニー・エリクソン・モバイルコミュニケーションズ社から市販されるカメラ付属品を有するT68iビデオホンシステムとして具現化され得る。
【0008】
図2は、本発明がその中で動作可能なネットワーク環境200を示す。図2に示すように、本発明の特徴を組み込む第1のビデオホンシステム210は、ネットワーク220を介して、1つ以上の追加のビデオホンシステム、例えばビデオホンシステム270と通信する。ネットワーク22は、1つ以上の有線或いは無線ネットワーク、又はそれらの組み合わせとして具現化され得る。第1のビデオホンシステム210は、図1に示すビデオホンシステム100といった従来のビデオホンシステムとして具現化されてもよく、本発明の特徴及び機能を与えるよう変更される。追加のビデオホンシステム270は、従来のビデオホンシステムであっても本発明の特徴を組み込むビデオホンシステムであってもよい。
【0009】
本発明の1つの面では、ビデオホンシステム210は、図3と共に以下に説明する頭部姿勢推定及び補正処理300を行う頭部姿勢補正器250を有する。頭部姿勢補正器250は、当業者には明らかであるように、デスクトップホンのように1つのユニットに従来のビデオホンシステム100と共に一体にされても、又は、従来のビデオホンシステム100へのモジュラー取付け部品として具現化されてもよい。
【0010】
頭部姿勢補正器250は、例示的な実施例では、第2のユーザに対する表示のために伝送されるローカルユーザの画像を処理するよう第1のユーザのビデオホン210内に実装されるが、頭部姿勢補正器250は、或いは、第1のビデオホン210のユーザに対する表示のために1つ以上の追加のビデオホンシステム270から受信した遠隔ユーザの画像を処理し得る。更なる変形では、頭部姿勢補正器250は、本発明の教示内容に従ってビデオホン通信の全参加者の頭部画像を自動的に調整するようサービスプロバイダによってネットワーク220上のサーバ内に実装されることも可能である。
【0011】
図3は、頭部姿勢推定及び補正処理300の例示的な実施を説明するフローチャートである。一般的に、頭部姿勢推定及び補正処理300は、ビデオホン画像がユーザの適切な正面画像であることを確実にする。頭部姿勢推定及び補正処理300の計算要件は、ワイヤレスホンでの実施に適している。
【0012】
図3に示すように、頭部姿勢推定及び補正処理300は最初に、段階310において、ビデオホンシステム210のカメラから画像のシーケンスを得る。その後、頭部推定及び補正処理300は、段階320において、例えば、Y. Li、S. Gong、及びH. Liddellによる「Support Vector Regression and Classification Based Multi-View Face Detection and Recognition」(自動顔及びジェスチャ認識についてのIEEE会議、200年)に記載される分類技術といったパターン認識技術を用いて頭部姿勢を推定する。この文書は、本願に参照として組み込む。一般的に、段階320において使用される分類技術は、正面画像、あごの画像、又は横顔の画像といった頭部姿勢の特徴を与える。1つの変形では、分類技術は更に、真の正面画像からあごの画像又は横顔画像がはずれる程度も与える。頭部姿勢を推定する多くの方法は、計算集約的であり、ノイズの影響を受けやすいが、本発明は、多くの場合、顔画像が予想されるビデオホン環境においては、現実的な解決方法があることを認識する。次に、段階330において、頭部姿勢が正面画像であるか否かを判断するためにテストが行われる。段階330において、頭部姿勢は正面画像であると判断されると、本発明の頭部姿勢補正技術は必要ではなく、段階340において、無修正画像が伝送される。
【0013】
しかし、段階330において、頭部姿勢は正面画像ではないと判断されると、段階350において、「動作からの構築化(structure from motion)」技術といったコンピュータビジョン技術を用いて顔画像のシーケンスから顔表面の3次元モデルが計算される。顔画像のシーケンスから顔表面の3次元モデルを計算する好適な技術の詳細な説明は、例えば、M. Brandによる「Morphable 3D Models from Video」(コンピュータビジョン&パターン認識(CVPR)(2001))又はM. Brandによる「Flexible Flow for 3D Nonrigid Tracking and Shape Recovery」(コンピュータビジョン&パターン認識(CVPR)(2001))を参照されたい。これらはそれぞれ本願に参照として組み込む。一般的な表面を推定する多くの方法は、計算集約的であり、ノイズの影響を受けやすいが、本発明は、多くの場合は、顔表面が予想されるビデオホン環境においては、現実的な解決方法があることを認識する。
【0014】
次に、段階360において、頭部姿勢が横顔画像であるか否かを判断するためにテストが行われる。段階360において、頭部姿勢は横顔画像であると判断されると、段階370において、横顔画像には示されていない頭部の残りの部分を推定するよう対称顔仮定が使用される。プログラム制御は次に、段階380に進む。
【0015】
段階360において、頭部姿勢が横顔画像ではなく、画像は、あご画像又は額画像であると判断されると、プログラム制御は、段階380に直接進む。段階380において、3次元顔表面の向きが調整されて、正面画像が与えられる。
【0016】
具体的には、3次元顔表面の基点は、入力画像が撮られた場所から顔表面の鼻先の前の点まで動かされる。例えば、あごの画像は、所望の基点より下から撮られる。従って、基点補正が、3次元座標を上方向に動かすことによって達成される。同様に、額画像は、3次元座標を下方向に動かすことによって補正される。横顔画像は、顔表面の3次元座標を、顔表面の垂直軸について90度回転させることによって補正される。次に、標準の透視投影を適用することにより、正面画像を得ることができる。
【0017】
次に、段階390において、修正画像が、遠隔ユーザに伝送される。その後、プログラム制御は終了する。
【0018】
尚、本願において図示及び説明した実施例及び変形は、本発明の原理を説明するに過ぎず、本発明の範囲及び精神から逸脱することなく当業者による様々な修正が可能であることを理解するものとする。
【図面の簡単な説明】
【0019】
【図1】従来のビデオホンシステムを示す図である。
【図2】本発明がその中で動作可能なネットワーク環境を示す図である。
【図3】図2の画像補正処理の例示的な実施を説明するフローチャートである。

【特許請求の範囲】
【請求項1】
ビデオホンシステムにおいて人間の頭部の少なくとも一部分を含む画像を処理する方法であって、
パターン認識技術を用いて前記画像における前記頭部の向きを推定する段階と、
コンピュータビジョン技術を用いて前記人間の顔表面の3次元モデルを計算する段階と、
正面画像を供給するよう前記3次元顔表面モデルの向きを調整する段階と、
を有する方法。
【請求項2】
前記計算段階は更に、横顔画像に対し、完全な3次元顔表面モデルを得るために対称顔仮定を使用する段階を有する請求項1記載の方法。
【請求項3】
前記計算段階は更に、前記3次元顔表面モデルを得るために動作からの構築化技術を使用する段階を有する請求項1記載の方法。
【請求項4】
前記推定段階は、分類技術を使用する請求項1記載の方法。
【請求項5】
前記計算段階は、変形可能な3次元モデルを生成する請求項1記載の方法。
【請求項6】
調整された向きを有する前記3次元顔表面モデルを、2次元空間にマッピングする段階を更に有する請求項1記載の方法。
【請求項7】
前記調整された画像を、遠隔ユーザに伝送する段階を更に有する請求項1記載の方法。
【請求項8】
前記調整された画像を、ローカルユーザに提示する段階を更に有する請求項1記載の方法。
【請求項9】
ビデオホンシステムにおいて使用するための画像プロセッサであって、
人間の頭部の少なくとも一部分を含む画像を格納するメモリと、
(i)パターン認識技術を用いて前記画像における前記頭部の向きを推定し、(ii)コンピュータビジョン技術を用いて前記人間の顔表面の3次元モデルを計算し、(iii)正面画像を供給するよう前記3次元顔表面モデルの向きを調整する頭部姿勢補正器と、
を有する画像プロセッサ。
【請求項10】
前記頭部姿勢補正器は更に、横顔画像に対し、完全な3次元顔表面モデルを得るために対称顔仮定を使用するよう構成される請求項9記載の画像プロセッサ。
【請求項11】
前記頭部姿勢補正器は更に、前記3次元顔表面モデルを得るために動作からの構築化技術を使用するよう構成される請求項9記載の画像プロセッサ。
【請求項12】
前記頭部姿勢補正器は更に、前記頭部の向きを得るために、分類技術を使用するよう構成される請求項9記載の画像プロセッサ。
【請求項13】
前記3次元顔表面モデルは、変形可能な3次元モデルである請求項9記載の画像プロセッサ。
【請求項14】
前記頭部姿勢補正器は更に、調整された向きを有する前記3次元顔表面モデルを、2次元修正画像にマッピングするよう構成される請求項9記載の画像プロセッサ。
【請求項15】
前記2次元修正画像は、遠隔ユーザに伝送される請求項14記載の画像プロセッサ。
【請求項16】
前記2次元修正画像は、ローカルユーザに提示される請求項14記載の画像プロセッサ。
【請求項17】
人間の頭部の少なくとも一部分を含む画像を格納するメモリと、
(i)パターン認識技術を用いて前記画像における前記頭部の向きを推定し、(ii)コンピュータビジョン技術を用いて前記人間の顔表面の3次元モデルを計算し、(iii)正面画像を供給するよう前記3次元顔表面モデルの向きを調整する頭部姿勢補正器と、
を有するビデオホンシステム。
【請求項18】
前記頭部姿勢補正器は更に、横顔画像に対し、完全な3次元顔表面モデルを得るために対称顔仮定を使用するよう構成される請求項17記載のビデオホンシステム。
【請求項19】
前記頭部姿勢補正器は更に、前記3次元顔表面モデルを得るために動作からの構築化技術を使用するよう構成される請求項17記載のビデオホンシステム。
【請求項20】
前記頭部姿勢補正器は更に、前記頭部の向きを得るために、分類技術を使用するよう構成される請求項17記載のビデオホンシステム。
【請求項21】
前記頭部姿勢補正器は更に、調整された向きを有する前記3次元顔表面モデルを、2次元修正画像にマッピングするよう構成される請求項17記載のビデオホンシステム。
【請求項22】
前記2次元修正画像は、遠隔ユーザに伝送される請求項21記載のビデオホンシステム。
【請求項23】
前記2次元修正画像は、ローカルユーザに提示される請求項21記載のビデオホンシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2006−510081(P2006−510081A)
【公表日】平成18年3月23日(2006.3.23)
【国際特許分類】
【出願番号】特願2004−558270(P2004−558270)
【出願日】平成15年12月8日(2003.12.8)
【国際出願番号】PCT/IB2003/005773
【国際公開番号】WO2004/053795
【国際公開日】平成16年6月24日(2004.6.24)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【氏名又は名称原語表記】Koninklijke Philips Electronics N.V.
【住所又は居所原語表記】Groenewoudseweg 1,5621 BA Eindhoven, The Netherlands
【Fターム(参考)】