画像処理システム

本発明は、画像処理システム（１００）における方法に関し、前記方法は、第一人物の第一画像（Ｉ_１）を取得する段階（Ｓ１）と、前記第一人物の少なくとも目を含む前記第一画像（Ｉ_１）内の第一部分（２０２、２０４）を検出する段階（Ｓ２）と、第二人物の第二画像（Ｉ_２）を取得する段階（Ｓ３）と、前記第二人物の少なくとも目を含む前記第二画像（Ｉ_２）内の第二部分（２０６、２０８）であって、相対的な位置及びサイズに関して、前記第一部分（２０２、２０４）に対応する前記第二部分（２０６、２０８）を検出する段階（Ｓ４）と、前記第一部分（２０２、２０４）と前記第二部分（２０６、２０８）とを比較する段階と、前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像（Ｉ_２）の前記第二部分（２０６、２０８）を前記第一部分（２０２、２０４）で置き換える段階と、を含む。本発明は、例えば、近端ユーザと遠端ユーザとのビデオ会議システムにおいて目と目とのコンタクトを改良するために、顔の部分を、特徴を有する、既に保存された対応部分に置き換えることを許容する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理システムにおける方法に関する。また、本発明は、同様の画像処理システムにも関する。
【背景技術】
【０００２】
面と向かってのコミュニケーションにおいて、視線を合わせる意識は、社交的な重要性が高い。しかしながら、典型的なビデオ会議やビデオ電話方式アプリケーションでは、近端ユーザ（near-end user）と遠端ユーザ（far-end user）との間で、視線を合わせる意識がしばしば失われる。
【０００３】
これは、一般的には、画像を撮影するビデオカメラは表示画面の上に置かれ、ユーザは、カメラよりも相手側の参加者が映っている表示画面を直感的にまっすぐ見るという事実に起因する。その結果として、近端ユーザ側でビデオカメラを用いて撮影された画像や遠端ユーザの表示画面に表示された画像において、近端ユーザは、正面からずれた方向を見ているように見えるだろう。したがって、近端の参加者は正面からずれた方向を見ているように見えるので、遠端ユーザは、見られているとは感じないだろう。
【０００４】
視線方向における「誤差角度」α（例えば、ディスプレイの上にあるカメラと、表示画面をまっすぐ見るユーザとの位置からなる角）が８度を超えると、アイコンタクトが失われ得るという研究結果が既に示されている。
【０００５】
上記問題の対処法として、さまざまな方法が紹介され、その一例としては、US
5,675,376（特許文献１）に開示された方法がある。特許文献１において、ユーザの両目の虹彩位置が、それぞれの視線方向を決定するために検出される。視線方向の訂正が必要とされるときに、虹彩位置に対応する画像の画素が、目と目とのコンタクトが達成するようにシフトされる。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】米国特許第5,675,376号明細書
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、特許文献１に開示された方法は、上記問題の改良法を提供しているが、虹彩位置の分析や画素シフト動作のために必要とされる精度のせいで、要求されていない複雑性や信頼性の問題を紹介している。したがって、近端ユーザと遠端ユーザとの間でのビデオ会議やビデオ電話方式アプリケーションにおいて、アイコンタクトが失われることに伴う問題を少なくとも軽減する改良方法の必要性がまだまだ存在する。
【課題を解決するための手段】
【０００８】
本発明のある態様によれば、画像処理システムにおける方法であって、第一人物の第一画像を取得する段階と、前記第一人物の少なくとも目を含む前記第一画像内の第一部分を検出する段階と、第二人物の第二画像を取得する段階と、前記第二人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出する段階と、前記第二部分を、前記第一部分と比較する段階と、及び前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換える段階と、を含む方法により上記問題は少なくとも部分的には解消される。
【０００９】
本発明は、全て肌であるために、目の境界付近の領域は均一である、すわなち、その目の領域付近の領域は、ほぼ全て同じ色の値（同じ輝度値と色差値）を有するという事実を利用する。この事実は、その領域を不自然に見せるようにはせずに、顔の画素を部分的に上書きしたり、空間的に隣接する部分へ移行したりすることを容易にする。加えて、目のビットマップの位置における小さな誤差は、めったに視認できない目のわずかな不整合を生じるだけである。さらに、第二部分を第一部分に置き換えることは、それらの部分の比較が、所定の閾値よりも小さい差が生じる場合にのみ行われる。この置き換えは、結果画像（自然に見える結果画像）の容認において改良するために提供する。例えばユーザがまばたきをしたり、彼の／彼女の頭がサイドからサイドへ移動したりする場合は排除されるだろう。すなわち、この場合、置き換えは行われないだろう。したがって、本発明は、例えば、近端ユーザ／遠端ユーザのビデオ会議システムにおいて、目と目とのコンタクトを改良するために、顔の部分を、既に保存された、特徴を有する同様の部分と置き換えることができる。
【００１０】
第一画像は、例えば、ユーザに「カメラをまっすぐ見るように」お願いをする「訓練段階」で取得されるようにしてもよい。これにより、例えば、第一部分の視線方向は、第一画像の画像面に対して略直角となる。しかしながら、第一画像は、自動処理で取得されてもよい。その自動処理は、第一人物の複数の画像が取得され、第一人物の視線方向が画像面に対して略直角となる、つまり、第一人物がカメラをまっすぐ見ている画像が選択されるまで行う。
【００１１】
さらに、ユーザがカメラをまっすぐ見ている第一画像の全てを保存しておく必要ななく、可能であれば、対応する眉毛を含む第一部分のみを記憶しておけばよい。これにより、画像処理システムで必要とされる記憶容量を最小限にすることができる。第一及び／又は第二画像は、１つの静止画、又はビデオストリームのような連続する画像として撮影されてもよい。さらに、本方法は、例えばビデオ会議システム及び／又はビデオ電話方式アプリケーションからのリアルタイムビデオシークエンスのようなビデオシークエンスと、静止画との両方に関連して用いられうる。
【００１２】
他の実施の態様では、第一画像はあるカメラで取得され、第二画像は異なるカメラで取得される処理の間に、第一画像は取得されてもよい。したがって、第一人物と第二人物とは、同じ人物でなければならないことはない。第二人物の目を第一人物の目に置き換えることに対し、例えば、第二人物の目を著名人の目に置き換えることもできる。しかしながら、典型的には第一人物と第二人物とは同じ人物である。
【００１３】
結果画像を自然に見せるようにするためのさらなる改良として、第二画像内の第二部分を第一部分に置き換える方法と同じように、第二部分に第一部分を混合（ブレンド）することもできる。このようなブレンディングは、第一部分と第二部分とのアルファブレンドを行うために所定のルックアップテーブルを用いることを含みうる。
【００１４】
本発明の他の態様によれば、通信可能に接続された制御ユニットとカメラとを含む画像処理システムであって、前記制御ユニットは、前記カメラを用いて人物の第一画像を取得し、前記人物の少なくとも目を含む前記第一画像内の第一部分を検出し、前記人物の第二画像を取得し、前記人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出し、前記第二部分を、前記第一部分と比較し、及び前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換える、画像処理システムがある。この発明の態様は、本発明の前の態様と関連して、上述された同様の利点を提供する。
【００１５】
画像処理システムは、１つの実施の態様によれば、コンピュータの形態としての制御ユニットと、コンピュータに接続されるウェブカメラでもよいカメラを含む。しかしながら、制御ユニットは、カメラと一体として統合されてもよい。これにより、独立した単品の実機を形成することができる。
【００１６】
本発明のさらなる態様によれば、画像処理方法を提供するためにコンピュータに実行させるコンピュータプログラムであって、人物の第一画像を取得するための命令と、前記人物の少なくとも目を含む前記第一画像内の第一部分を検出するための命令と、前記人物の第二画像を取得するための命令と、前記人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出するための命令と、前記第二部分を、前記第一部分と比較するための命令と、及び前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換えるための命令と、を含むコンピュータプログラムがある。本発明のこの態様は、本発明の前の態様と関連して、上述された同様の利点を提供する。
【００１７】
コンピュータは、好ましくはパーソナルコンピュータであり、コンピュータ可読媒体は、取り外し可能な不揮発性のランダムアクセスメモリのいずれかであり、例えばハードディスクドライブ、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＵＳＢ（ユニバーサル・シリアル・バス）メモリ、又は当業者に知られている同様のコンピュータ可読媒体である。また、第一画像と第二画像とは、コンピュータに接続されたカメラを用いて取得されてもよい。
【００１８】
さらに、本発明の特徴及び特性は、添付された請求項と以下の記載を考慮した上で明らかとなるだろう。当業者は、本発明の異なる特徴が、本発明の範囲から逸脱しない範囲で、以下に記載された態様と異なる態様を想像するために結合し得ることを認識できる。
【図面の簡単な説明】
【００１９】
発明の特徴と利点を含む本発明のさまざまな態様は、次の詳細な説明と、添付された図面から容易に理解されるであろう。
【図１】典型的なビデオ会議システムにおける空間的な視線のズレ問題を説明するための図である。
【図２】本発明による方法の概念的なフローチャートを示す図である。
【発明を実施するための形態】
【００２０】
以下に、添付図面を参照して、本発明の着想に従った実施態様をより十分に記載する。添付図面には、本発明の特定の実施態様が示されている。しかしながら、本発明を多くの異なる形態において具体化し得る。本発明はここに示される実施態様に限定されるものとして解釈されてはならない。むしろ、この開示が網羅的で完全であり且つ本発明の範囲を当業者に十分に伝えるよう、これらの実施態様は一例として提供されている。実施態様を通じて、同様の番号は同様の要素を示している。
【００２１】
図面、特に図１を参照すれば、典型的な画像処理システム、例えばビデオ会議システム１００の一部が例示されている。ビデオ会議システム１００は、制御ユニット、例えばパーソナルコンピュータ１０２と、カメラ１０４と、表示画面１０６とを含む。図１では、第一の近端ユーザ１０８と、第二の遠端ユーザ１１０との二人のユーザがビデオ会議システム１００を用いてビデオ会議を行っている。近端ユーザ１０８の表示画面１０６に表示された遠端ユーザ１１０の画像から分かるように、遠端ユーザ側にも、同様の装置、例えば、コンピュータと、カメラと、表示画面とが備えられる。ビデオ会議システム１００を使う近端ユーザ１０８と遠端ユーザ１１０との間で情報の伝達に用いられる通信は、例えば、ＬＡＮ（Local Area Network）やグローバルエリアネットワークなどのようなインターネットが用いられる。
【００２２】
典型的なビデオ会議システム１００の動作において、近端ユーザ１０８は、近端ユーザの表示画面１０６に表示される遠端ユーザ１１０の画像をほぼまっすぐ見るだろう。よって、カメラ１０４をまっすぐ見る場合と比較して誤差角度αで彼の視線方向が集中するであろう。その結果、遠端ユーザ１１０には、そのユーザ１１０の表示画面上に、近端ユーザ１０８が下方向を見ており、遠端ユーザ１１０をまっすぐ見ていないその近端ユーザ１０８の画像が提供されるだろう。視線における誤差角度はαであるだろう。
【００２３】
図２を並行して参照しつつ、本発明の方法を使用するビデオ会議システム１００の動作において、視線方向の誤差角度αを補償する方法と、近端ユーザ１０８と遠端ユーザ１１０との間のアイコンタクトを改良する方法とが提供される。
【００２４】
第１ステップＳ１で、人物の第一画像Ｉ_１が、カメラ１０４のようなカメラを用いて撮影される。第一画像Ｉ_１の撮影は、好ましくは、ユーザが、カメラを実際に見るときに撮られるのがよい。すなわち、視線における誤差角度αが、おおよそ０に等しいときである。しかし、誤差角度は、いくらかのズレを許容し得る。ユーザは、カメラを見ている間、又は自動的な視線推定をトリガにして第一画像Ｉ_１の撮影を行ってもよい。
【００２５】
第２ステップＳ２で、第一画像Ｉ_１内の第一部分（例えば、図示された実施の形態では、それぞれの目に対する第一部分）２０２、２０４が見つけ出され、それぞれの第一部分２０２、２０４は、少なくとも人物のそれぞれの目を含む。顔領域は、例えば顔に対するActive Appearance Model（ＡＡＭ）のような、顔領域の座標を提供する顔検出、抽出アルゴリズムにより決定され得る。そのＡＡＭは、顔特徴点の複数の（ｘ，ｙ）座標を提供する。ＡＡＭによる顔特徴点座標から、例えば２つの三角形の形をした、目とまゆげを含む部分２０２、２０４の座標を計算することができ得る。三角形の角の座標は、顔における顔特徴の不変座標の予め固定された線形結合により計算される。三角形の中にある画素値は、後で使用されるために保存される。
【００２６】
ステップＳ１とＳ２は、任意の時間で行われ、第一画像Ｉ_１及び／又は第一部分２０２、２０４だけが後で使用されるために保存されればよい。第３ステップＳ３で、ステップＳ１とＳ２に続けて行われなくてもよいが、例えば本発明の機能を含むビデオ会議システム１００を使うとき、時間をおいて行われる方がよい。したがって、ステップＳ３では、第二画像Ｉ_２は、第一画像Ｉ_１を取得するために使われたカメラと同じ（又は別の）カメラを使って、人物が撮影されるだろう。第二画像Ｉ_２は、ビデオ会議システム１００が使われているときにリアルタイムで取得され、処理されることが好ましい。ステップＳ３とＳ４とは、それぞれステップＳ１とＳ２とに本質的に対応しているが、ステップＳ４で、第二部分２０６、２０８の検出は、人物が会議中にカメラを見ていないであろうときや視線誤差角度αが存在するであろうときに行われる。上記の通り、第二部分は、相対的な位置及びサイズに関して第一部分に対応する。加えて、第二部分は、第一部分の向きにも対応してもよい。第一の三角形の部分２０２、２０４の形と位置に対応する第二の三角形の部分２０６、２０８を決定する方法は、ステップＳ２で用いた方法に対応してもよい。
【００２７】
第一の三角形の部分２０２、２０４に関連した第二の三角形の部分２０６、２０８の位置やおおよその角度の違いは、例えばモーフィング法（morphing method）などの手段により扱われうることに注目すべきである。モーフィング法によれば、第一の三角形の部分２０２、２０４の位置やサイズが、それぞれ第二の三角形の部分２０６、２０８と適合される。モーフィング法は、第一の三角形の部分２０２、２０４のアフィン変換により行われうる。
【００２８】
ステップＳ４に続いてステップＳ５で、比較が行われる。この比較では、第二の三角形の部分２０６、２０８のそれぞれが、第一の三角形の部分２０２、２０４と比較される。例えば、比較誤差数は、差分絶対値和（ＳＡＤ）を計算することで決定することができる。この差分絶対値和は、（可能であればモーフィングされた）第一の三角形の部分２０２、２０４と、（例えばライブビデオから得られる）それぞれの第二の三角形の部分２０６、２０８との間での、三角形の目の領域内における画素の輝度値の差分絶対値和である。
【００２９】
最後に、ステップＳ６で、第二画像Ｉ_２内の第二の三角形の部分２０６、２０８は、それぞれ第一の三角形の部分２０２、２０４に置き換えられる。それによって、第一の三角形の部分２０２、２０４を含む第二画像が形成される。しかしながら、その置き換えは、比較が、所定の閾値よりも小さい差を与える場合にのみ行われる。このことにより、シェイプモデルが不整合の場合、ユーザがまばたきをする場合、及び／又は第二画像Ｉ_２内の顔が前を向いていない場合に、画素が不適切に置き換えられてしまうことから保護することが、第二画像Ｉ_２に対して保証される。元の画素と、置き換えられた（すなわち、第二部分から第一部分にそれぞれ置き換えられた）画素との間での変換処理の視認性を保護するため、例えばブレンディングアルゴリズムを用いて各部分の画素を混合することを可能としてもよい。
【００３０】
本発明の例示的な実施態様をここに記載したが、ここに記載されたような発明に対する数多くの変更、修正、又は、改変を行い得ることが当業者に明らかであるはずである。開示された実施態様の他の変法等は、図面、明細書及び添付された特許請求の範囲から、請求された発明を実施し得る当業者に理解され、達成されるものである。例えば、本発明の方法は、例えばユーチューブでインターネット上に公開するために、ビデオシークエンスの「セルフレコーディング」と関連して用いられ得る。この場合、結果としてのビデオシークエンスは遠端ユーザに送信されるのではなく、後で公開するために記録され、保存される。したがって、本方法は、例えば面白い目、色の異なる目、影や黒線によってライブビデオ内の目を置き換えることに代替して用いられ得る。この特徴は、ビデオ電話中に、あなた自身の個性を変えたり隠したりすることにも用いることができる。
【００３１】
さらに、請求項において、「有する／含む」の語が他の要素やステップを排除するものではなく、単数形の表現が複数を排除するものではない。請求項におけるいかなる参照符号も、単に明確さと便利さのために与えられたものである。

【特許請求の範囲】
【請求項１】
画像処理システムにおける方法であって：
第一人物の第一画像を取得する段階と；
前記第一人物の少なくとも目を含む前記第一画像内の第一部分を検出する段階と；
第二人物の第二画像を取得する段階と；
前記第二人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出する段階と；
前記第二部分を、前記第一部分と比較する段階と；及び
前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換える段階と；
を含む方法。
【請求項２】
前記第一人物と前記第二人物とは同じ人物である、請求項１に記載の方法。
【請求項３】
前記第一部分と前記第二部分とは、対応する眉毛をさらに含む、請求項１又は２に記載の方法。
【請求項４】
前記第一部分に含まれる目の視線方向は、前記第一画像の画像面に対して略直角である、請求項１乃至３いずれか一項に記載の方法。
【請求項５】
前記第一人物の複数の画像を取得する段階と；
前記複数の画像それぞれに対して前記第一人物の目の視線方向を決定する段階と；及び
前記第一人物の目の視線方向が、前記第一画像の画像面に対して略直角である画像を、前記複数の画像の中から１つ選択する段階と；
をさらに含む請求項１乃至３いずれか一項に記載の方法。
【請求項６】
前記置き換える段階は、
前記第二部分に前記第一部分を混合することを含む、請求項１乃至５いずれか一項に記載の方法。
【請求項７】
通信可能に接続された制御ユニットとカメラとを含む画像処理システムであって：
前記制御ユニットは、
前記カメラを用いて人物の第一画像を取得し；
前記人物の少なくとも目を含む前記第一画像内の第一部分を検出し；
前記人物の第二画像を取得し；
前記人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出し；
前記第二部分を、前記第一部分と比較し；及び
前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換える、画像処理システム。
【請求項８】
前記カメラは、ウェブカメラである、請求項７に記載の画像処理システム。
【請求項９】
前記制御ユニットは、前記カメラと統合される、請求項１又は８に記載の画像処理システム。
【請求項１０】
画像処理方法を提供するためにコンピュータに実行させるためのコンピュータプログラムであって：
人物の第一画像を取得するための命令と；
前記人物の少なくとも目を含む前記第一画像内の第一部分を検出するための命令と；
前記人物の第二画像を取得するための命令と；
前記人物の少なくとも目を含む前記第二画像内の第二部分であって、相対的な位置及びサイズに関して、前記第一部分に対応する前記第二部分を検出するための命令と；
前記第二部分を、前記第一部分と比較するための命令と；及び
前記比較が、所定の閾値より小さい差を与える場合に、前記第二画像の前記第二部分を前記第一部分で置き換えるための命令と；
を含むコンピュータプログラム。
【請求項１１】
前記第一画像と前記第二画像とは、前記コンピュータに接続されたカメラを用いて取得される、請求項１０記載のコンピュータプログラム。

【図１】

【図２】

【公表番号】特表２０１３−５０４９１８（Ｐ２０１３−５０４９１８Ａ）
【公表日】平成２５年２月７日（２０１３．２．７）
【国際特許分類】

電気 (1,674,590)
- 電気通信技術 (544,871)
  - 画像通信，例．テレビジョン (280,882)
    - テレビジョン方式［４，２０１１．０１］ (43,981)
      - 双方向動作方式 (1,933)
        
        会議方式 (1,304)

【出願番号】特願２０１２−５２８４７８（Ｐ２０１２−５２８４７８）
【出願日】平成２２年９月２日（２０１０．９．２）
【国際出願番号】ＰＣＴ／ＩＢ２０１０／０５３９５３
【国際公開番号】ＷＯ２０１１／０３０２６３
【国際公開日】平成２３年３月１７日（２０１１．３．１７）
【出願人】（５９００００２４８）コーニンクレッカ　フィリップス　エレクトロニクス　エヌ　ヴィ (12,071)
【Ｆターム（参考）】

双方向ＴＶ、動画像配信等 (137,112)

[ Back to top ]

画像処理システム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

画像処理システム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク