説明

画像処理システム

本発明は、画像処理システム(100)における方法に関し、前記方法は、第一人物の第一画像(I)を取得する段階(S1)と、前記第一人物の少なくとも目を含む前記第一画像(I)内の第一部分(202、204)を検出する段階(S2)と、第二人物の第二画像(I)を取得する段階(S3)と、前記第二人物の少なくとも目を含む前記第二画像(I)内の第二部分(206、208)であって、相対的な位置及びサイズに関して、前記第一部分(202、204)に対応する前記第二部分(206、208)を検出する段階(S4)と、前記第一部分(202、204)と前記第二部分(206、208)とを比較する段階と、前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像(I)の前記第二部分(206、208)を前記第一部分(202、204)で置き換える段階と、を含む。本発明は、例えば、近端ユーザと遠端ユーザとのビデオ会議システムにおいて目と目とのコンタクトを改良するために、顔の部分を、特徴を有する、既に保存された対応部分に置き換えることを許容する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理システムにおける方法に関する。また、本発明は、同様の画像処理システムにも関する。
【背景技術】
【0002】
面と向かってのコミュニケーションにおいて、視線を合わせる意識は、社交的な重要性が高い。しかしながら、典型的なビデオ会議やビデオ電話方式アプリケーションでは、近端ユーザ(near-end user)と遠端ユーザ(far-end user)との間で、視線を合わせる意識がしばしば失われる。
【0003】
これは、一般的には、画像を撮影するビデオカメラは表示画面の上に置かれ、ユーザは、カメラよりも相手側の参加者が映っている表示画面を直感的にまっすぐ見るという事実に起因する。その結果として、近端ユーザ側でビデオカメラを用いて撮影された画像や遠端ユーザの表示画面に表示された画像において、近端ユーザは、正面からずれた方向を見ているように見えるだろう。したがって、近端の参加者は正面からずれた方向を見ているように見えるので、遠端ユーザは、見られているとは感じないだろう。
【0004】
視線方向における「誤差角度」α(例えば、ディスプレイの上にあるカメラと、表示画面をまっすぐ見るユーザとの位置からなる角)が8度を超えると、アイコンタクトが失われ得るという研究結果が既に示されている。
【0005】
上記問題の対処法として、さまざまな方法が紹介され、その一例としては、US
5,675,376(特許文献1)に開示された方法がある。特許文献1において、ユーザの両目の虹彩位置が、それぞれの視線方向を決定するために検出される。視線方向の訂正が必要とされるときに、虹彩位置に対応する画像の画素が、目と目とのコンタクトが達成するようにシフトされる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許第5,675,376号明細書
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1に開示された方法は、上記問題の改良法を提供しているが、虹彩位置の分析や画素シフト動作のために必要とされる精度のせいで、要求されていない複雑性や信頼性の問題を紹介している。したがって、近端ユーザと遠端ユーザとの間でのビデオ会議やビデオ電話方式アプリケーションにおいて、アイコンタクトが失われることに伴う問題を少なくとも軽減する改良方法の必要性がまだまだ存在する。
【課題を解決するための手段】
【0008】
本発明のある態様によれば、画像処理システムにおける方法であって、第一人物の第一画像を取得する段階と、前記第一人物の少なくとも目を含む前記第一画像内の第一部分を検出する段階と、第二人物の第二画像を取得する段階と、前記第二人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出する段階と、前記第二部分を、前記第一部分と比較する段階と、及び前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換える段階と、を含む方法により上記問題は少なくとも部分的には解消される。
【0009】
本発明は、全て肌であるために、目の境界付近の領域は均一である、すわなち、その目の領域付近の領域は、ほぼ全て同じ色の値(同じ輝度値と色差値)を有するという事実を利用する。この事実は、その領域を不自然に見せるようにはせずに、顔の画素を部分的に上書きしたり、空間的に隣接する部分へ移行したりすることを容易にする。加えて、目のビットマップの位置における小さな誤差は、めったに視認できない目のわずかな不整合を生じるだけである。さらに、第二部分を第一部分に置き換えることは、それらの部分の比較が、所定の閾値よりも小さい差が生じる場合にのみ行われる。この置き換えは、結果画像(自然に見える結果画像)の容認において改良するために提供する。例えばユーザがまばたきをしたり、彼の/彼女の頭がサイドからサイドへ移動したりする場合は排除されるだろう。すなわち、この場合、置き換えは行われないだろう。したがって、本発明は、例えば、近端ユーザ/遠端ユーザのビデオ会議システムにおいて、目と目とのコンタクトを改良するために、顔の部分を、既に保存された、特徴を有する同様の部分と置き換えることができる。
【0010】
第一画像は、例えば、ユーザに「カメラをまっすぐ見るように」お願いをする「訓練段階」で取得されるようにしてもよい。これにより、例えば、第一部分の視線方向は、第一画像の画像面に対して略直角となる。しかしながら、第一画像は、自動処理で取得されてもよい。その自動処理は、第一人物の複数の画像が取得され、第一人物の視線方向が画像面に対して略直角となる、つまり、第一人物がカメラをまっすぐ見ている画像が選択されるまで行う。
【0011】
さらに、ユーザがカメラをまっすぐ見ている第一画像の全てを保存しておく必要ななく、可能であれば、対応する眉毛を含む第一部分のみを記憶しておけばよい。これにより、画像処理システムで必要とされる記憶容量を最小限にすることができる。第一及び/又は第二画像は、1つの静止画、又はビデオストリームのような連続する画像として撮影されてもよい。さらに、本方法は、例えばビデオ会議システム及び/又はビデオ電話方式アプリケーションからのリアルタイムビデオシークエンスのようなビデオシークエンスと、静止画との両方に関連して用いられうる。
【0012】
他の実施の態様では、第一画像はあるカメラで取得され、第二画像は異なるカメラで取得される処理の間に、第一画像は取得されてもよい。したがって、第一人物と第二人物とは、同じ人物でなければならないことはない。第二人物の目を第一人物の目に置き換えることに対し、例えば、第二人物の目を著名人の目に置き換えることもできる。しかしながら、典型的には第一人物と第二人物とは同じ人物である。
【0013】
結果画像を自然に見せるようにするためのさらなる改良として、第二画像内の第二部分を第一部分に置き換える方法と同じように、第二部分に第一部分を混合(ブレンド)することもできる。このようなブレンディングは、第一部分と第二部分とのアルファブレンドを行うために所定のルックアップテーブルを用いることを含みうる。
【0014】
本発明の他の態様によれば、通信可能に接続された制御ユニットとカメラとを含む画像処理システムであって、前記制御ユニットは、前記カメラを用いて人物の第一画像を取得し、前記人物の少なくとも目を含む前記第一画像内の第一部分を検出し、前記人物の第二画像を取得し、前記人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出し、前記第二部分を、前記第一部分と比較し、及び前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換える、画像処理システムがある。この発明の態様は、本発明の前の態様と関連して、上述された同様の利点を提供する。
【0015】
画像処理システムは、1つの実施の態様によれば、コンピュータの形態としての制御ユニットと、コンピュータに接続されるウェブカメラでもよいカメラを含む。しかしながら、制御ユニットは、カメラと一体として統合されてもよい。これにより、独立した単品の実機を形成することができる。
【0016】
本発明のさらなる態様によれば、画像処理方法を提供するためにコンピュータに実行させるコンピュータプログラムであって、人物の第一画像を取得するための命令と、前記人物の少なくとも目を含む前記第一画像内の第一部分を検出するための命令と、前記人物の第二画像を取得するための命令と、前記人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出するための命令と、前記第二部分を、前記第一部分と比較するための命令と、及び前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換えるための命令と、を含むコンピュータプログラムがある。本発明のこの態様は、本発明の前の態様と関連して、上述された同様の利点を提供する。
【0017】
コンピュータは、好ましくはパーソナルコンピュータであり、コンピュータ可読媒体は、取り外し可能な不揮発性のランダムアクセスメモリのいずれかであり、例えばハードディスクドライブ、フロッピー(登録商標)ディスク、CD−ROM、DVD−ROM、USB(ユニバーサル・シリアル・バス)メモリ、又は当業者に知られている同様のコンピュータ可読媒体である。また、第一画像と第二画像とは、コンピュータに接続されたカメラを用いて取得されてもよい。
【0018】
さらに、本発明の特徴及び特性は、添付された請求項と以下の記載を考慮した上で明らかとなるだろう。当業者は、本発明の異なる特徴が、本発明の範囲から逸脱しない範囲で、以下に記載された態様と異なる態様を想像するために結合し得ることを認識できる。
【図面の簡単な説明】
【0019】
発明の特徴と利点を含む本発明のさまざまな態様は、次の詳細な説明と、添付された図面から容易に理解されるであろう。
【図1】典型的なビデオ会議システムにおける空間的な視線のズレ問題を説明するための図である。
【図2】本発明による方法の概念的なフローチャートを示す図である。
【発明を実施するための形態】
【0020】
以下に、添付図面を参照して、本発明の着想に従った実施態様をより十分に記載する。添付図面には、本発明の特定の実施態様が示されている。しかしながら、本発明を多くの異なる形態において具体化し得る。本発明はここに示される実施態様に限定されるものとして解釈されてはならない。むしろ、この開示が網羅的で完全であり且つ本発明の範囲を当業者に十分に伝えるよう、これらの実施態様は一例として提供されている。実施態様を通じて、同様の番号は同様の要素を示している。
【0021】
図面、特に図1を参照すれば、典型的な画像処理システム、例えばビデオ会議システム100の一部が例示されている。ビデオ会議システム100は、制御ユニット、例えばパーソナルコンピュータ102と、カメラ104と、表示画面106とを含む。図1では、第一の近端ユーザ108と、第二の遠端ユーザ110との二人のユーザがビデオ会議システム100を用いてビデオ会議を行っている。近端ユーザ108の表示画面106に表示された遠端ユーザ110の画像から分かるように、遠端ユーザ側にも、同様の装置、例えば、コンピュータと、カメラと、表示画面とが備えられる。ビデオ会議システム100を使う近端ユーザ108と遠端ユーザ110との間で情報の伝達に用いられる通信は、例えば、LAN(Local Area Network)やグローバルエリアネットワークなどのようなインターネットが用いられる。
【0022】
典型的なビデオ会議システム100の動作において、近端ユーザ108は、近端ユーザの表示画面106に表示される遠端ユーザ110の画像をほぼまっすぐ見るだろう。よって、カメラ104をまっすぐ見る場合と比較して誤差角度αで彼の視線方向が集中するであろう。その結果、遠端ユーザ110には、そのユーザ110の表示画面上に、近端ユーザ108が下方向を見ており、遠端ユーザ110をまっすぐ見ていないその近端ユーザ108の画像が提供されるだろう。視線における誤差角度はαであるだろう。
【0023】
図2を並行して参照しつつ、本発明の方法を使用するビデオ会議システム100の動作において、視線方向の誤差角度αを補償する方法と、近端ユーザ108と遠端ユーザ110との間のアイコンタクトを改良する方法とが提供される。
【0024】
第1ステップS1で、人物の第一画像Iが、カメラ104のようなカメラを用いて撮影される。第一画像Iの撮影は、好ましくは、ユーザが、カメラを実際に見るときに撮られるのがよい。すなわち、視線における誤差角度αが、おおよそ0に等しいときである。しかし、誤差角度は、いくらかのズレを許容し得る。ユーザは、カメラを見ている間、又は自動的な視線推定をトリガにして第一画像Iの撮影を行ってもよい。
【0025】
第2ステップS2で、第一画像I内の第一部分(例えば、図示された実施の形態では、それぞれの目に対する第一部分)202、204が見つけ出され、それぞれの第一部分202、204は、少なくとも人物のそれぞれの目を含む。顔領域は、例えば顔に対するActive Appearance Model(AAM)のような、顔領域の座標を提供する顔検出、抽出アルゴリズムにより決定され得る。そのAAMは、顔特徴点の複数の(x,y)座標を提供する。AAMによる顔特徴点座標から、例えば2つの三角形の形をした、目とまゆげを含む部分202、204の座標を計算することができ得る。三角形の角の座標は、顔における顔特徴の不変座標の予め固定された線形結合により計算される。三角形の中にある画素値は、後で使用されるために保存される。
【0026】
ステップS1とS2は、任意の時間で行われ、第一画像I及び/又は第一部分202、204だけが後で使用されるために保存されればよい。第3ステップS3で、ステップS1とS2に続けて行われなくてもよいが、例えば本発明の機能を含むビデオ会議システム100を使うとき、時間をおいて行われる方がよい。したがって、ステップS3では、第二画像Iは、第一画像Iを取得するために使われたカメラと同じ(又は別の)カメラを使って、人物が撮影されるだろう。第二画像Iは、ビデオ会議システム100が使われているときにリアルタイムで取得され、処理されることが好ましい。ステップS3とS4とは、それぞれステップS1とS2とに本質的に対応しているが、ステップS4で、第二部分206、208の検出は、人物が会議中にカメラを見ていないであろうときや視線誤差角度αが存在するであろうときに行われる。上記の通り、第二部分は、相対的な位置及びサイズに関して第一部分に対応する。加えて、第二部分は、第一部分の向きにも対応してもよい。第一の三角形の部分202、204の形と位置に対応する第二の三角形の部分206、208を決定する方法は、ステップS2で用いた方法に対応してもよい。
【0027】
第一の三角形の部分202、204に関連した第二の三角形の部分206、208の位置やおおよその角度の違いは、例えばモーフィング法(morphing method)などの手段により扱われうることに注目すべきである。モーフィング法によれば、第一の三角形の部分202、204の位置やサイズが、それぞれ第二の三角形の部分206、208と適合される。モーフィング法は、第一の三角形の部分202、204のアフィン変換により行われうる。
【0028】
ステップS4に続いてステップS5で、比較が行われる。この比較では、第二の三角形の部分206、208のそれぞれが、第一の三角形の部分202、204と比較される。例えば、比較誤差数は、差分絶対値和(SAD)を計算することで決定することができる。この差分絶対値和は、(可能であればモーフィングされた)第一の三角形の部分202、204と、(例えばライブビデオから得られる)それぞれの第二の三角形の部分206、208との間での、三角形の目の領域内における画素の輝度値の差分絶対値和である。
【0029】
最後に、ステップS6で、第二画像I内の第二の三角形の部分206、208は、それぞれ第一の三角形の部分202、204に置き換えられる。それによって、第一の三角形の部分202、204を含む第二画像が形成される。しかしながら、その置き換えは、比較が、所定の閾値よりも小さい差を与える場合にのみ行われる。このことにより、シェイプモデルが不整合の場合、ユーザがまばたきをする場合、及び/又は第二画像I内の顔が前を向いていない場合に、画素が不適切に置き換えられてしまうことから保護することが、第二画像Iに対して保証される。元の画素と、置き換えられた(すなわち、第二部分から第一部分にそれぞれ置き換えられた)画素との間での変換処理の視認性を保護するため、例えばブレンディングアルゴリズムを用いて各部分の画素を混合することを可能としてもよい。
【0030】
本発明の例示的な実施態様をここに記載したが、ここに記載されたような発明に対する数多くの変更、修正、又は、改変を行い得ることが当業者に明らかであるはずである。開示された実施態様の他の変法等は、図面、明細書及び添付された特許請求の範囲から、請求された発明を実施し得る当業者に理解され、達成されるものである。例えば、本発明の方法は、例えばユーチューブでインターネット上に公開するために、ビデオシークエンスの「セルフレコーディング」と関連して用いられ得る。この場合、結果としてのビデオシークエンスは遠端ユーザに送信されるのではなく、後で公開するために記録され、保存される。したがって、本方法は、例えば面白い目、色の異なる目、影や黒線によってライブビデオ内の目を置き換えることに代替して用いられ得る。この特徴は、ビデオ電話中に、あなた自身の個性を変えたり隠したりすることにも用いることができる。
【0031】
さらに、請求項において、「有する/含む」の語が他の要素やステップを排除するものではなく、単数形の表現が複数を排除するものではない。請求項におけるいかなる参照符号も、単に明確さと便利さのために与えられたものである。

【特許請求の範囲】
【請求項1】
画像処理システムにおける方法であって:
第一人物の第一画像を取得する段階と;
前記第一人物の少なくとも目を含む前記第一画像内の第一部分を検出する段階と;
第二人物の第二画像を取得する段階と;
前記第二人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出する段階と;
前記第二部分を、前記第一部分と比較する段階と;及び
前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換える段階と;
を含む方法。
【請求項2】
前記第一人物と前記第二人物とは同じ人物である、請求項1に記載の方法。
【請求項3】
前記第一部分と前記第二部分とは、対応する眉毛をさらに含む、請求項1又は2に記載の方法。
【請求項4】
前記第一部分に含まれる目の視線方向は、前記第一画像の画像面に対して略直角である、請求項1乃至3いずれか一項に記載の方法。
【請求項5】
前記第一人物の複数の画像を取得する段階と;
前記複数の画像それぞれに対して前記第一人物の目の視線方向を決定する段階と;及び
前記第一人物の目の視線方向が、前記第一画像の画像面に対して略直角である画像を、前記複数の画像の中から1つ選択する段階と;
をさらに含む請求項1乃至3いずれか一項に記載の方法。
【請求項6】
前記置き換える段階は、
前記第二部分に前記第一部分を混合することを含む、請求項1乃至5いずれか一項に記載の方法。
【請求項7】
通信可能に接続された制御ユニットとカメラとを含む画像処理システムであって:
前記制御ユニットは、
前記カメラを用いて人物の第一画像を取得し;
前記人物の少なくとも目を含む前記第一画像内の第一部分を検出し;
前記人物の第二画像を取得し;
前記人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出し;
前記第二部分を、前記第一部分と比較し;及び
前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換える、画像処理システム。
【請求項8】
前記カメラは、ウェブカメラである、請求項7に記載の画像処理システム。
【請求項9】
前記制御ユニットは、前記カメラと統合される、請求項1又は8に記載の画像処理システム。
【請求項10】
画像処理方法を提供するためにコンピュータに実行させるためのコンピュータプログラムであって:
人物の第一画像を取得するための命令と;
前記人物の少なくとも目を含む前記第一画像内の第一部分を検出するための命令と;
前記人物の第二画像を取得するための命令と;
前記人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出するための命令と;
前記第二部分を、前記第一部分と比較するための命令と;及び
前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換えるための命令と;
を含むコンピュータプログラム。
【請求項11】
前記第一画像と前記第二画像とは、前記コンピュータに接続されたカメラを用いて取得される、請求項10記載のコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2013−504918(P2013−504918A)
【公表日】平成25年2月7日(2013.2.7)
【国際特許分類】
【出願番号】特願2012−528478(P2012−528478)
【出願日】平成22年9月2日(2010.9.2)
【国際出願番号】PCT/IB2010/053953
【国際公開番号】WO2011/030263
【国際公開日】平成23年3月17日(2011.3.17)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】