説明

撮影者を利用した画像の分類

長期間にわたって撮影したディジタル画像コレクションの中から興味の対象である特定の少なくとも一人の人物を同定する方法は、それぞれのディジタル画像に一人以上の人物が含まれているディジタル画像コレクションを用意するステップと;興味の対象である特定の人物に付随する1セットの特徴を有する外見モデルと、特定の撮影者による画像にその興味の対象である人物が現われる事前確率とをディジタル・データベースに記憶させるステップと;その外見モデルを、ディジタル画像コレクションの中のディジタル画像から取り出した特徴と比較し、事前確率とその外見モデルを利用して、興味の対象である特定の人物がディジタル画像コレクションの中の1つ以上のディジタル画像の中に存在しているかどうかを決定するステップを含んでいる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理に関するものであり、より詳細には、たまったディジタル画像またはビデオに含まれる興味の対象となる人物の同定または認識に関する。
【背景技術】
【0002】
ディジタル写真の出現に伴い、消費者はディジタル画像とビデオを大量に抱えるようになっている。1人の人がディジタル・カメラで撮影する画像の平均数は、年々増加している。その結果、その典型的な消費者にとって、画像とビデオの整理と検索がすでに問題となっている。現在のところ、典型的な消費者が撮影したディジタル画像の撮影期間はほんの数年である。整理と検索の問題とその複雑さは、ディジタル画像とビデオがたまる期間が長くなるにつれて大きくなり続けるであろうし、画像に含まれる対象物も増えていく。
【0003】
撮影者の記述子(例えば生体計測データ)を画像撮影装置(例えばディジタル・カメラ)で検出すること、および/または画像撮影装置に記録することができる。
【0004】
アメリカ合衆国特許出願公開2003/235411 A1にはイメージング装置が開示されており、このイメージング装置では撮影者の生物学的情報が生物学的記録手段によって記録され、後にこの情報を利用してこのイメージング装置が制御される。
【0005】
アメリカ合衆国特許第6,433,818号には、ユーザーとなる可能性のある一人の人に関して測定された生体計測データを取得し、そのデータを、カメラに入力されている対応する生体計測署名データと比較し、両者が一致する場合だけカメラが作動するようにする内蔵装置を備えたカメラが記載されている。この機能によって安全性が提供され、カメラに記憶されているデータに許可なくアクセスすることが阻止されるため、盗難しようとする意欲を失わせる。
【0006】
アメリカ合衆国特許出願公開2002/0080256 A1には、撮影者を生体計測によって同定するとともに、ある画像の撮影者が誰であるかを記録する内蔵装置を備えるディジタル・カメラが記載されている。さらに、この特徴を利用し、カメラを盗む意欲を失わせることができる。撮影者の虹彩の画像を取得して撮影者が誰であるかを明らかにすることが好ましい。
【0007】
写真に写される最も一般的な対象の1つは、人物である。さらに、ディジタル画像とビデオのコレクションがあると、人物が頻繁に現われる傾向がある。例えば新しく親になった人が撮影するたいていの画像には、彼らの間に新しく生まれた赤ん坊が含まれているのが一般的である。消費者は、自分のコレクションから特定の人物が含まれたすべての画像を見いだす能力を望んでいる。
【発明の開示】
【発明が解決しようとする課題】
【0008】
本発明の1つの目的は、特定の撮影者があるコレクションに含まれる画像を撮影したという事実を利用し、そのコレクションに含まれる興味の対象を見いだすことである。
【課題を解決するための手段】
【0009】
この目的は、長期間にわたって撮影したディジタル画像コレクションの中から興味の対象である特定の少なくとも一人の人物を同定する方法であって、
それぞれのディジタル画像に一人以上の人物が含まれているディジタル画像コレクションを用意するステップと;
興味の対象である特定の人物に付随する1セットの特徴を有する外見モデルと、特定の撮影者による画像にその興味の対象である人物が現われる事前確率とをディジタル・データベースに記憶させるステップと;
その外見モデルを、ディジタル画像コレクションの中のディジタル画像から取り出した特徴と比較し、事前確率とその外見モデルを利用して、興味の対象である特定の人物がディジタル画像コレクションの中の1つ以上のディジタル画像の中に存在しているかどうかを決定するステップを含む方法によって達成される。
【発明の効果】
【0010】
本発明の1つの利点は、既知の撮影者があるコレクションに含まれる画像を撮影したとき、その事実を利用して興味の対象となる画像を見いだせることである。これが可能なのは、興味の対象がある画像に現われる確率が、撮影者の身元と関係しているからである。
【0011】
本発明のさらに別の利点は、ある画像に関して特定の撮影者が誰であるかがわかっていることを利用し、撮影された画像の向きと、その画像が室内で撮影されたのか屋外で撮影されたのかを決定できることである。
【発明を実施するための最良の形態】
【0012】
本発明の上記の特徴と目的、他の特徴と目的、それを実現する方法は、添付の図面を参照した本発明の一実施態様に関する以下の説明からより明瞭になろう。さらに、本発明そのものも、この説明からよりよく理解されよう。
【0013】
以下の説明では、本発明のいくつかの実施態様をソフトウエア・プログラムおよび/またはアルゴリズム式のフロー・ダイヤグラムとして説明する。当業者であれば、そのようなソフトウエアと同等なハードウエアも構成できることが理解できよう。画像処理アルゴリズムと画像処理システムはよく知られているため、ここでの説明は、特に、本発明による方法の一部を形成するアルゴリズムとシステム、または本発明による方法とより直接に組み合わせて利用されるアルゴリズムとシステムに向けることにする。このようなアルゴリズムおよびシステムの他の側面と、そこに関与する画像信号を生成させたり処理したりするためのハードウエアおよび/またはソフトウエアは、ここに特に示しもしないし説明もしないが、従来技術で知られているシステム、アルゴリズム、部品、素子の中から選択することができる。この明細書の以下の部分に示した説明からわかるように、説明内容をすべてソフトウエアで実現することは一般的であり、当業者であれば可能である。
【0014】
本発明は、コンピュータのハードウエアとコンピュータ化された装置として実現できる。例えば本発明の方法は、ディジタル・カメラまたは他のディジタル画像取得装置、ディジタル・プリンタ、インターネット・サーバ、キオスク、パーソナル・コンピュータで実施することができる。図1を参照すると、本発明を実現するコンピュータ・システムが示してある。このコンピュータ・システムは好ましい一実施態様を説明する目的で示してあるが、本発明が図示したコンピュータ・システムに限定されることはなく、任意の電子処理システム(例えばディジタル・カメラ、携帯電話、携帯用計算装置、家庭のコンピュータ、キオスク、小型または大型の写真仕上げ店で見られるもの)や、ディジタル画像を処理するための他の任意のシステムで本発明を利用することができる。このコンピュータ・システムは、ソフトウエア・プログラムのインストールと処理、ならびに他の処理機能を実施するため、マイクロプロセッサをベースとしたユニット20(この明細書ではディジタル画像プロセッサとも呼ぶ)を備えている。ディジタル画像プロセッサ20は、画像撮影装置10(例えばカメラ、スキャナ、コンピュータ画像生成ソフトウエア)からの画像を処理する。ディジタル画像プロセッサ20を利用してディジタル画像を処理することで、そのディジタル画像の全体の明るさ、色調のスケール、画像の構造などを調節し、見て満足できる画像が画像出力装置30から生成されるようにできる。ディジタル画像プロセッサ20は、全体制御用コンピュータ40(マイクロプロセッサをベースとしたユニットでもよい)とのインターフェイスとしてデータと命令を交換する。全体制御用コンピュータ40とディジタル画像プロセッサ20を異なる2つのマイクロプロセッサにすること、またはそれぞれの機能を単一のマイクロプロセッサで実施させることができる。ディジタル画像プロセッサ20は画像出力装置30(例えば画像を印刷するプリンタ)に画像をしばしば出力する。ディスプレイ装置50がディジタル画像プロセッサ20に電気的に接続されていて、ソフトウエアに付随するユーザー関連情報を例えばグラフィカル・ユーザー・インターフェイスによって表示する。全体制御用コンピュータ40を通じてキーボード60もマイクロプロセッサをベースとしたユニット20に接続されているため、ユーザーはソフトウエアに情報を入力することができる。従来技術でよく知られているように、入力するのにキーボード60の代わりにマウスを利用してディスプレイ装置50上のセレクタを移動させ、そのセレクタが重なったアイテムを選択することができる。
【0015】
ソフトウエア・プログラムとそれ以外の情報を全体制御用コンピュータ40とディジタル画像プロセッサ20に入力する手段として、一般にソフトウエアが収容されているコンパクト・ディスク-読み出し専用メモリ(CD-ROM)を全体制御用コンピュータ40に挿入する。それに加え、フロッピー(登録商標)・ディスクもソフトウエア・プログラムを収容することができるため、そのソフトウエア・プログラムを入力するのにそのフロッピー(登録商標)・ディスクを全体制御用コンピュータ40に挿入する。さらに、従来技術でよく知られているように、全体制御用コンピュータ40をプログラムしてソフトウエア・プログラムを内部に記憶させることができる。全体制御用コンピュータ40は、外部ネットワーク(例えばローカル・エリア・ネットワークやインターネット)に接続することができる(例えば電話線や無線接続)。
【0016】
画像は、パーソナル・コンピュータ・カード(PCカード)を通じてディスプレイ装置50に表示することもできる。PCカードは例えば以前知られていた(パーソナル・コンピュータ・メモリ・カード国際協会の仕様に基づく)PCMCIAカードであり、ディジタル化された画像が電子的な形態でそのカードの中に含まれている。
【0017】
画像出力装置30は最終画像を提供する。画像出力装置30は、プリンタにすること、または紙や他のハード・コピー最終画像を提供する他の出力手段にすることができる。画像出力装置30は、ディジタル・ファイルとして最終画像を提供する出力装置にすることもできる。画像出力装置30は、出力を組み合わせること(CDやDVDといったメモリ・ユニット上のプリントされた画像と、ディジタル・ファイル)もできる。ディジタル画像とそれ以外のデータは、オフラインのメモリ装置70(例えば外部ハード・ドライブ、フラッシュ・メディア、CD-ROMやDCDなどの媒体に書き込むためのドライブ)に記憶される。
【0018】
ディジタル画像は、1つ以上のディジタル画像チャネルまたはカラー成分を含んでいる。各ディジタル画像チャネルは、画素の2次元アレイである。各画素値は、画像撮影装置が画素の物理的領域に対応して受け取る光の量と関係している。カラー画像の用途では、ディジタル画像は、赤、緑、青のディジタル画像チャネルからなることがしばしばある。一連のディジタル画像として動画の用途を考えることができる。当業者であれば、この明細書で言及した任意の用途のために本発明をディジタル画像チャネルなどに適用できることが理解できよう。ディジタル画像チャネルを行と列に配置した画素値の2次元アレイとして説明しているが、当業者であれば、本発明を、同じ効果を持つ直線で囲まれていないアレイに適用できることが理解できよう。当業者であれば、元の画素値を以下に説明するディジタル画像処理ステップにおいて処理した画素値で置き換えることは、同じ処理ステップを、元の画素値を保持しながら処理した画素値を有する新しいディジタル画像を生成させると記述することと機能的に同等であることも理解できよう。
【0019】
本発明をソフトウエアとハードウエアの組み合わせで実現できることと、本発明が、互いに物理的に接続された複数の装置や、同じ物理的位置に存在している複数の装置に限定されないことにも注意されたい。図1に示した装置のうちの1つ以上を離して配置し、ネットワークを通じて接続することができる。その装置のうちの1つ以上を、直接に、またはネットワークを通じ、例えばラジオ周波数のリンクによって無線接続することができる。
【0020】
本発明は、ユーザーのさまざまな文脈と環境で利用することができる。文脈と環境の例として、大型のディジタル写真仕上げ店(例えばフィルムを受け取り、ディジタル処理し、プリント・アウトするといった処理ステップまたは処理段階が含まれる)、小型のディジタル写真仕上げ店(フィルムを受け取り、ディジタル処理し、プリント・アウトする)、家庭でのプリント(家庭でフィルムまたはディジタル画像を走査し、ディジタル処理し、プリント・アウトする)、デスクトップ・ソフトウエア(アルゴリズムをディジタル印刷に適用して品質を向上させる、または単にディジタル印刷を変化させるソフトウエア)、ディジタル処理の実行(媒体から、またはウェブを通じてディジタル画像を受け取り、ディジタル処理し、画像をディジタル形態で媒体に出力するか、画像をディジタル形態でウェブに出力するか、ハード-コピー・プリントにする)、キオスク(ディジタル入力または走査された入力を受け取り、ディジタル処理し、ディジタル形態またはハード・コピーで出力する)、携帯装置(例えば、処理ユニット、表示ユニット、処理の指示を与えるためのユニットのいずれかとして使用できるPDAまたは携帯電話)、ワールド・ワイド・ウェブを通じて提供されるサービスなどがある。
【0021】
本発明は、それぞれの場合に、独立型のものにすること、またはより大きなシステム・ソリューションの1つの要素にすることができる。さらに、人とのインターフェイス(例えば走査や入力、ディジタル処理、ユーザーに対する表示(必要な場合)、ユーザーの要求または処理命令の入力(必要な場合)、出力)は、それぞれ、同じ装置上と同じ物理的位置にあってもよいし、異なる装置上と異なる物理的位置にあってもよく、装置間と場所間の通信は、公的なネットワーク接続、私的なネットワーク接続、媒体に基づいたやり取りのいずれかを通じて実現できる。本発明の上記の説明に合致している場合には、本発明の方法を完全に自動化すること、ユーザー入力にすること(完全な手入力または一部を手入力にすること)、結果をユーザーまたは操作者が許諾/拒絶すること、メタデータ(ユーザーが供給できるメタデータ、測定装置(例えばカメラ)によって供給されるメタデータ、アルゴリズムによって決定されるメタデータ)による支援が受けられるようにすることができる。さらに、作業の流れに関するさまざまなユーザー・インターフェイス・スキームとのインターフェイスにアルゴリズムを用いることができる。
【0022】
本発明には、この明細書に記載した実施態様の組み合わせが含まれる。“特別な1つの実施態様”などへの言及は、本発明の少なくとも1つの実施態様に存在する特徴への言及を意味する。“一実施態様”または“特別な実施態様”などに別々に言及している場合、必ずしも同じ実施態様に言及しているわけではない。しかしそのような実施態様は、特に断わっている場合や当業者にとって明らかである場合を除き、互いに両立しないわけではない。
【0023】
この方法の第1の実施態様を図2に示してある。たまったディジタル画像とビデオ104が分析され、その中に含まれている人物が誰であるかが認識される。たまったディジタル画像またはビデオ104に含まれる人物を認識することで、ディジタル画像またはビデオ104に関するデータベース120を作ることと、ディジタル画像またはビデオ104に含まれる人物が誰であるかを明らかにすることができる。その結果、データベース120に質問122を投げかけることにより、探している人物を含む画像とビデオを見いだすことができる。データベース120は任意の形態にできる。例えばディジタル画像またはビデオ104のファイルのヘッダに人物分類118を挿入することにより、データベース120を多くのファイルに分散させることができる。例えば“ジム”という画像を探す質問122により、興味の対象である人物“ジム”を含む一群のディジタル画像またはビデオ104を含む質問回答124が返ってくる。その質問回答124は戻すことができる。質問回答124は、求める人物を含む一群のディジタル画像またはビデオ104である。質問回答124のディジタル画像とビデオ104は、ユーザーが確認するために図1に示したディスプレイ装置50に表示することができる。
【0024】
このシステムでは、ディジタル画像またはビデオ104は撮影情報取出装置108に移される。撮影情報取出装置108は、コレクションのディジタル画像またはビデオ104の撮影に関する撮影情報112を明らかにし、得られた情報を出力する。その情報では、特定のディジタル画像またはビデオ104に関する撮影情報112が、その特定のディジタル画像またはビデオ104と関係づけられている。撮影情報112は、特定のディジタル画像またはビデオ104が撮影された時刻、その画像またはビデオが撮影された場所、焦点距離、対象までの距離、画素行と画素列の数、拡大率、フラッシュを使ったかどうか、セルフ-タイマーを作動させたかどうかなどにすることができる。特定の画像またはビデオのための撮影情報112は、撮影情報取出装置108によっていくつかある方法のうちの1つを利用して明らかにされる。撮影情報112はディジタル画像またはビデオ104のファイルのヘッダに埋め込まれていることがしばしばある。画像またはビデオの撮影装置は、その画像またはビデオに付随する情報を例えば(www.exif.orgに記載されている)EXIF画像形式でファイルのヘッダに記憶させることができる。“日付/時刻”入力は、画像が撮影された日付と時刻に関する。ディジタル画像またはビデオが走査フィルムから得られ、その画像の通常は左下隈に印刷されている日付(撮影時刻になされることがしばしばある)を検出することによって画像撮影時刻が明らかになる場合がある。写真が印刷される日付は、そのプリントの背面に印刷されることがしばしばある。あるいはフィルムが撮影の日付などの情報を記憶するための磁気層を備えているようなフィルム・システムもある。撮影情報取出装置108は、画像の撮影情報112を取り出すための最適な方法を利用する。ディジタル画像とビデオの供給源はディジタル・カメラであることが好ましく、撮影情報取出装置108は画像ファイル情報から撮影情報を取り出すことが好ましい。
【0025】
たまった画像とビデオは撮影者判定装置138によっても分析され、各画像とビデオの特定の撮影者が誰であるかが明らかにされる。EXIFファイル形式を利用する場合には、撮影者が誰であるかは、例えば“カメラの所有者”、“画像生成者”、“撮影者”、“コピーライト”というタグに記憶させることができる。画像またはビデオの撮影者が誰であるかは、そのビデオの撮影前、撮影中、撮影後に手で入力することができる。さらに、生体計測情報を撮影者から取り出し、撮影者が誰であるかを明らかにした後、その画像に撮影者が誰であるかの注釈を付ける手段を備えるカメラがいくつか報告されている(例えばアメリカ合衆国特許出願公開2002/0080256 A1)。いずれにせよ、撮影者判定装置138は、撮影者132が誰であるかを発見し、その情報を個人認識分類装置114に送る。撮影者132を撮影者判定装置138によって同定できない場合がある。その場合には、撮影者132は“不明”である。この状況は、例えばカメラの所有者が休暇中であり、その人(休暇中のカメラ所有者)のカメラを利用してあるランドマークの前でその人を撮影することを知らない人に依頼する場合に起こる可能性がある。アメリカ合衆国特許出願公開2002/0080256 A1に記載されているカメラは、そのカメラの利用者となる可能性があってそのカメラにプロフィールが記憶されている小さな集団(例えば第1のユーザーはカメラの所有者であり、2番目のユーザーはそのカメラの所有者の友人または家族である)から撮影者を同定できる可能性があるだけである。この場合には、知らない人がこのカメラを用いて撮影した画像は、撮影者判定装置138によって単に撮影者132“不明”と判断されるだけであろう。
【0026】
画像撮影時刻を撮影情報112に含めることができ、2004年3月27日午前10時17分のように時刻を分まで正確に示すことができる。あるいは画像撮影時刻は、2004年や2004年3月などのように、そこまでは細かくしないこともできる。画像撮影時刻は、95%の信頼度で2004年3月27日±2日のように確率分布関数の形態にすることができる。画像撮影時刻は、個人認識分類装置114に入力される。
【0027】
人物発見装置106は、そのディジタル・ビデオまたはディジタル画像に含まれる1人以上の人物を同定する。人物は顔の検出によって見いだされることが好ましい。人の顔を検出する方法はディジタル画像処理の分野でよく知られている。例えば画像に含まれる人の顔を見いだす1つの顔検出法が以下の論文に記載されている:Jones, M.J.、Viola, P.、「迅速なマルチ-ビュー顔検出」、コンピュータ・ビジョンとパターン認識に関するIEEE会議(CVPR)、2003年6月。さらに、顔が検出されると、よく知られた方法(例えばYuille他、「変形可能なテンプレートを用いた顔からの特徴取り出し」、Int. Journal of Comp. Vis.、第8巻、第2号、1992年、99〜111ページ)を利用して顔の特徴(例えば目、鼻、口など)がある位置を特定することもできる。著者は、口、目、虹彩/強膜の境界を特定するためにテンプレートの一致によるエネルギー最少化を利用した方法を記載している。顔の特徴は、T.F. CootesとC.J. Taylorが「制約のあるアクティブな外見モデル」(第8回コンピュータ・ビジョンに関する国際会議、第1巻、748〜754ページ、IEEEコンピュータ学会出版、2001年7月)に記載しているアクティブな外見モデルを利用して見いだすこともできる。
【0028】
あるいはいろいろな顔の特徴を利用することもできる。例えば1つの方法として、M. TurkとA. Pentlandが「認識のための固有顔」(Journal of Cognitive Neuroscience、第3巻、第1号、71〜86ページ、1991年)に記載している顔の類似性計量に基づいたものが可能である。顔記述子は、1つの顔の画像を、顔の外見の変動を記述する一群の主要成分関数に射影することによって得られる。任意の2つの顔の類似性は、それぞれの顔を同じ関数群に射影することによって得られた特徴についてユークリッド距離を計算することによって測定される。この場合、外見モデルは、同じ顔に関する複数の画像をこれら主要成分関数に射影したものの平均値と共分散を示すことができる。(例えば図4の比較器140によって計算される)類似性計量は、モデルの平均値に対する新しい顔のマハラノビス距離を計算することができる。
【0029】
外見モデルと類似性測定は、互いに共通性のないいくつかのタイプの特徴(例えば固有顔、顔の測定値、色/肌理の情報、ウエーブレットの特徴など)の組み合わせを含むことができよう。
【0030】
人物発見装置106が、この人物発見装置106によって検出された人物の定量的な記述である人物の特徴110を出力する。人物発見装置106は、検出されたそれぞれの人について1セットの人物の特徴110を出力することが好ましい。人物の特徴は、特定の顔の特徴に関する82個の特徴点の位置であることが好ましい。その特徴点は、Cootesらの上記のアクティブな外見モデルと同様の方法を用いて見いだされる。ある1つの顔の画像に関する顔の特徴点をイラストとして図3Aと図3Bに示してある。あるいは人物の特徴110はさらに、目の色、皮膚の色、顔の形などの定量化可能な記述子を用いて表現することができる。人物の特徴は、特定の特徴点の間の距離、または特定の特徴点を接続した線同士がなす角度にすることもできる。色の情報は、人物発見装置106によって人物と顔の特徴が特定されると、ディジタル画像またはビデオ104から容易に取り出すことができる。人物の特徴110は、個人認識分類装置114に入力される。
【0031】
記憶されているディジタル・データベースから興味の対象であるM人の人物の外見モデル1161〜116Mのセットが個人認識分類装置114に入力され、人物発見装置106によって検出されて人物の特徴110によって表わされた各人物が誰であるかが決定される。外見モデル1161〜116Mは、興味の対象である特定の人物に付随する特徴のセットを含んでいる。興味の対象である人物のための各外見モデルは、多数のサブモデルを含むことができる。それは例えば、同時係属中のアメリカ合衆国特許出願シリアル番号第11/116,729号に記載されているように、興味の対象である人物の外見を異なる年齢において記述する複数のモデルである。あるいはサブモデルは、興味の対象である人物のさまざまな外見を記述することもできよう(例えば1つのサブモデルは興味の対象である人物がひげを生やした外見を表わし、別のサブモデルは興味の対象である人物にひげがない外見を表わす)。外見モデルについては以下により詳しく説明する。興味の対象である人物は、たまったディジタル画像とビデオ104の中で同定することが重要な人物である。例えば小さな子どものいる家庭では、それぞれの子どもが興味の対象である人物となるであろう。なぜならその家庭の主にとって、ディジタル媒体コレクションのそれぞれの写真とビデオ104にそれぞれの子どもが現われるのを確認することが有用かつ意味のあることだからである。第1の撮影者としての上記のカメラ所有者は、任意の第2の撮影者(すなわちカメラ所有者の友人や家族)と同様、興味の対象である人物になることができる。個人認識分類装置114の目的は、1つ以上の外見モデル1161〜116Mと、画像撮影情報112と、人物の特徴110とを利用し、人物発見装置106によって検出された人物が興味の対象である特定の人物であるかどうかを決定することである。これは、検出された人物の人物の特徴110を、興味の対象である特定の人物に関する外見モデル116の特徴と比較することによってなされる。個人認識分類装置114は人物分類118を出力する。一般に、個人認識分類装置は、人物発見装置106によって検出された人物に付随する人物の特徴110が、興味の対象である特定の人物mに関係する外見モデル116mと似ている場合に、検出されたその人物が興味の対象である特定の人物mである確率が大きいことを出力する。人物分類118は、人物発見装置106によって検出された人物が興味の対象である人物である確からしさ(確率)であることが好ましい。人物分類118は、人物の特徴110に関係する人物が興味の対象である人物であるかどうかに関する個人認識分類装置114の決定を示す2値インディケータ(例えば真または偽)にすることができる。
【0032】
個人認識分類装置114をたまったそれぞれのディジタル画像またはビデオ104の中で検出された各人物に適用する操作を繰り返すことで、人物発見装置106によって検出されたすべての人物が、特定の興味の対象である人物であることの確かさに関して分類される。
【0033】
すると人物分類118を、検出された人物を含むディジタル画像またはビデオに付随させることができる。例えばある画像に、興味の対象である人物“メアリー”が含まれているというタグまたは注釈を付け、データベース120に入れることができる。さらに、人物分類118情報には、人物の特徴110を付随させることができる。さらに、その画像には、人物発見装置106によって検出されて興味の対象である人物であることが個人認識分類装置114によって明らかにされた人物のディジタル画像またはビデオに含まれる場所に関するタグを付けることもできる。さらに、人物分類118の確からしさまたは確率を、データベース120に含まれる注釈に付加することもできる。質問122が興味の対象である特定の人物を含むディジタル画像またはビデオ104に関してなされる場合には、データベース120が検索され、適切な質問回答124がユーザーのユーザー・インターフェイス(例えば図1のディスプレイ装置50)に戻される。
【0034】
個人認識分類装置では、撮影者132の情報が以下のように利用される。画像撮影情報112が、カメラのセルフ-タイマーが使用されて特定の画像またはビデオが撮影されたことを示している場合、個人認識分類装置114は、ディジタル画像またはビデオ104が撮影者132を含んでいることが大いにありうること(確率)を示す人物分類118を出力する。例えばその確率は、特定の撮影者132が誰であるかに応じ、0.75〜1.0の範囲である。これは、カメラのセルフ-タイマーを用いると、たいていの場合、撮影者132がカメラのスイッチを入れた後に走っていき、そのカメラで撮影される光景に入る時間が取れるという事実に由来する。
【0035】
同様に、画像撮影情報112が、カメラによる画像またはビデオの撮影がリモート・コントロールによってなされたことを示している場合には、個人認識分類装置114は、そのディジタル画像またはビデオ104が撮影者132を含んでいることが中程度確からしいこと(確率)を示す人物分類118を出力する。これは、カメラによる画像またはビデオの撮影をリモート・コントロールを利用して行なうと、撮影されるそのディジタル画像またはビデオ104の中に含まれる光景に撮影者132が入る時間が取れることがしばしばあるという事実による。しかしカメラによる撮影シークエンスのリモート・コントロールは、カメラがぶれるのを避けるためにも利用できる。この理由により、撮影者132がディジタル画像またはビデオ104に含まれることを示す、人物分類118に付随する確率は、個々の撮影者132が誰であるかに応じ、0.5〜0.9の範囲である。
【0036】
図4は、個人認識分類装置114のより詳細な図である。人物発見装置106によって取り出された人物の特徴110の各セットに関し、比較器140が、人物の特徴110を、興味の対象であるM人の人物を表わすM個の外見モデル1161〜116Mのそれぞれと比較し、人物発見装置よって見いだされた人物がm番目の興味の対象である人物であることの確からしさまたは確率を表わすM個の得点からなる得点セット142を出力する。比較器140は、例えば、人物の特徴110とM個の外見モデルのそれぞれの間のユークリッド距離を計算する。あるいは比較器140は、M個の外見モデルのそれぞれからマハラノビス距離を計算し、得点セット142を生成させることができる。さらに、比較器140はどのような分類装置でもよく、例えばガウス分布最尤推定装置、ニューラル・ネットワーク、サポート・ベクトル機械などがある。得点セット142のm番目の入力は、人物の特徴110のセットに対応する特定の顔がm番目の興味の対象である人物であることの確率を示すことが好ましい。
【0037】
得点セット142は得点調節装置144に送られ、撮影者132に関する情報と撮影情報112に従って得点が調節され、調節された得点セットが生成される。得点調節装置144は、得点セットの確からしさまたは確率を考慮し、得点を以下のように微調整する。得点セット142の得点は、撮影情報112に従って調節される。ディジタル画像またはビデオ104を撮影するのにセルフ-タイマー・フラグが使用されたことを撮影情報112が示している場合、m番目の興味の対象である人物がそのディジタル画像またはビデオ104の撮影者132であるならば、そのm番目の人物の得点を大きくする。このようにして、得点調節装置144は、ディジタル画像またはビデオ104を撮影するのにセルフ-タイマーが使用された場合、そのディジタル画像またはビデオ104に現われる撮影者132の事前確率(すなわちイベントAの事前確率は、他のデータがないときにAが起こる確率である)を考慮する。同様に、ディジタル画像またはビデオ104が、カメラの撮影機構を作動させる遠隔信号を用いて撮影されたことを撮影情報112が示している場合、m番目の興味の対象である人物がそのディジタル画像またはビデオ104の撮影者132であるならば、そのm番目の人物の得点を大きくする。得点調節装置144は、人物発見装置106によって検出された人物に関する人物分類118を出力する。人物分類118は、得点調節装置144によって調節された後の得点セット142にすることができる。あるいは人物分類118は、調節された得点セットの中の最高点に対応する興味の対象である人物が誰であるかにすることができる。ただしその得点は、閾値T0よりも大きくなければならない。
【0038】
理論上は、人物分類118を生成させるため、個人認識分類装置114は、P (x = m | f) 、すなわち人物の特徴110fという事実が与えられているとして、人物発見装置106によって検出された人物が人物mである確率を計算することが好ましい。ベイズの規則によると、この量は、興味の対象であるm人の人物それぞれに関して以下の式で計算することができる。
P (x = m | f) = P (f | x = m) P (x = m)/P (f)
項P (f | x = m)は、人物がm番目の興味の対象である人物であることがわかっている場合に人物の特徴fが観測される確率である。これは、m番目の興味の対象である人物に関してこの人物の外見の変化を記述する外見モデル116を考慮することによって見いだせる。項P (x = m)は事前確率であり、画像またはビデオの中の人物がm番目の興味の対象である人物である確率を表わす。事前確率は、撮影者132が誰であるかによって変化する。例えば妻と夫は1台のカメラを共有する。妻が撮影者である画像に現われる人物のうちで60%が赤ん坊であり、20%が夫であり、20%がそれ以外の人である。夫が撮影者である場合には、写真に現われる人物の40%が赤ん坊であり、20%が妻であり、5%が夫であり、35%がそれ以外の人である。したがって撮影者132が誰であるかを個人認識分類装置114がわかっていると、得点調節装置144は、その撮影者132に付随する撮影者内容プロファイル130を用いて得点セット142を適切なやり方で適切に調節することができる。この好ましい実施態様では、撮影者内容プロファイル130は、特定の撮影者による画像またはビデオに現われる興味の対象である人物の事前確率を含んでいる。得点セット142が確率P (f | x = m)を含んでいて、得点調節装置144が、撮影者内容プロファイル130に指定されている事前確率P (x = m)を用いた重み付け乗算によって得点を調節することが好ましい。
【0039】
特定の撮影者に関する撮影者内容プロファイル130は、その特定の撮影者が撮影した一群の画像またはビデオの中の人物が誰であるかをユーザーが手作業で確認することによって生成される。次に、事前確率が計算されて撮影者内容プロファイル130に記憶される。この事前確率には、撮影情報112を考慮することができる。例えば撮影者132は、撮影情報112が示すようにセルフ-タイマー機能がオンであるときにある人物がm番目の興味の対象である人物であることの確率を記述する1つの事前確率セットと、セルフ-タイマー機能がオフである事前確率の第2のセットを持っている。例えば以下の表に、2人の異なる撮影者について、画像またはビデオに含まれる所定の人物がm番目の興味の対象である人物である事前確率を、セルフ-タイマー機能がオンとオフの場合について示す。
【0040】
【表1】

【0041】
したがってディジタル画像またはビデオ104の撮影者132が、そのディジタル画像またはビデオ104に関する撮影情報112とともに明らかにされる。撮影者132に対応する撮影者内容プロファイル130を利用し、そのディジタル画像またはビデオ104に含まれる人物が誰であるかが決定される。
【0042】
図5は、撮影者132が誰であるかを利用してディジタル画像またはビデオ104に含まれる物体を同定するための、またはそのディジタル画像またはビデオそのものを分類するための別の一実施態様である。あるコレクションからのディジタル画像またはビデオ104が特徴取出装置152に送られて特徴160が取り出され、その特徴160が物体分類装置164に送られる。
【0043】
さらに、興味の対象である物体に関する外見モデル1171〜117Mが物体分類装置に送られる。比較器140が、画像またはビデオから取り出された特徴160を、興味の対象である物体に関する外見モデル1171〜117Mと比較し、得点セット142を生成させる。得点セット142は、特徴160が特定の興味の対象である物体mと関係している確率を含むことが好ましい。
【0044】
撮影者132が誰であるかと撮影情報112が、得点調節装置144に送られる。得点調節装置144は、特定の対象mが画像またはビデオに含まれる事前確率を記述する撮影者内容プロファイル130をロードし、それに応じて得点セット142を調節して調節された得点セットを生成させる。その結果として人物分類118が得られてデータベース120に記憶されることで、上に説明したのと同様に質問する準備が整う。あるいは撮影者内容プロファイル130は、画像が興味の対象である物体である事前確率を示す。撮影者132に付随する撮影者内容プロファイル130は、画像が興味の対象である物体を表わす確率を示す。
【0045】
例えば物体分類装置164は、ある画像が“室内”画像であるか“屋外”画像であるかを判断する。しかし撮影者が異なると、室内画像と屋外画像の比率が異なる。例えば撮影者0では、30%が室内画像で70%が屋外画像だが、撮影者1では30%が室内画像で70%が屋外画像である。この情報は、撮影者132が誰であるかに対応した撮影者内容プロファイル130によって供給される。したがって特定の撮影者に関する事前確率がわかると、得点調節装置144はその事前確率を十分に考慮し、物体分類装置164の全体的な性能を向上させることができる。
【0046】
この実施態様では、物体分類装置164は、画像の状態を、室内画像または屋外画像として分類する。他の物体分類装置164を使用し、ある画像が自然の光景であるか人工的な光景であるかを判断することができる。さらに、物体分類装置164を使用してある画像が日没の画像であるか日没の画像でないかを判断することができる。
【0047】
物体分類装置164を用いて画像に含まれる特定の物体を見いだすこともできる。例えば個人認識分類装置114は、ある光景に含まれる個々の物体を認識するのに使用される物体分類装置の一例である。別の一実施態様では、物体分類装置164を用い、(単一の画像の中で0回、1回、多数回起こる可能性がある)目が赤く写る欠陥の存在を検出する。物体分類装置164は、ある画像が興味の対象である物体を表わしているかどうかを判断する。
【0048】
さらに、撮影者内容プロファイル130は、撮影者132が誰であるかに加え、撮影情報112にも依存している可能性がある。例えば以下の表は撮影者内容プロファイル130であり、所定の撮影者が撮影した所定の画像またはビデオが“室内”であるか“屋外”の確率を、撮影情報112に含まれる画像撮影の月に基づいて示している。この場合、“室内”と“屋外”は、ある画像が室内画像であるか屋外画像であるかを物体分類装置164が分類するのに用いる外見モデルで記述される興味の対象である物体に関する。
【0049】
【表2】

【0050】
撮影者内容プロファイル130は、単一の画像またはビデオの分類に関する事前確率情報を含んでいることがわかっている。さらに、撮影者内容プロファイル130は、例えば直前の画像が屋外であった場合にある特定の画像(またはビデオ)が屋外である確率に関する情報を含むことができる。この情報は、マルコフ連鎖と隠れマルコフ・モデルの研究で一般に利用されている状態推移行列として記憶される。状態推移行列は、撮影者が誰であるかに依存する。なぜなら状態推移行列は、撮影者の行動に関係しているからである。例えば撮影者2の状態推移行列は以下のようになる。
【0051】
【表3】

【0052】
推移行列は、事前確率の特別な場合である。推移行列は、撮影情報112(例えば画像nと画像n+1の時間間隔)に依存する可能性がある。例えば2つの画像の時間間隔が大きい(例えば3日間)場合には、状態推移行列は以下のようになる。
【0053】
【表4】

【0054】
正しい撮影者内容プロファイル130がわかると、隠れマルコフ・モデルを状態推移行列とともに利用して画像の状態(この場合、画像が室内であるか屋外であるか)を明らかにすることができる。
【0055】
撮影情報112と撮影者132が誰であるかとを利用し、正しい撮影者内容プロファイル130を選択して物体分類装置164を入力する。さらに別の一実施態様では、撮影者が誰であるかがわかると、より正確な画像の方向検出が可能になる。一般に、長方形の画像は、見る方向として可能な4つの方向のうちの1つの方向で正しく見ることができる。Luoらは、アメリカ合衆国特許出願公開2003/0152289 A1に、ある画像についてこれら4つの方向のどれが正確であるかを、意味のある物体と光景のレイアウトの検出に基づき、画像の方向を評価するアービトレーション法を利用して自動的に判断する方法を記載している。水平、鉛直1、鉛直2、上下逆になった水平である事前確率は、70%-14%-14%-2%にされている。図6Aに、水平方向の画像の一例を示してある。図6B〜図6Dは、それぞれ、方向が鉛直1、鉛直2、上下逆になった水平である画像を示している。
【0056】
一般に、撮影者は、景色は水平方向で撮影する(すなわち撮影者は、光景を撮影するときにはカメラを上下逆に持つことが稀である)。しかし幅よりも高さが大きいアスペクト比を持つ縦長の光景や肖像では、カメラの方向には2つの可能性がある。たいていの撮影者は、そのうちの1つの状態だけを利用して“縦長の”写真を撮影する。撮影者が誰であるかがわかると、撮影者の個人的な挙動が明確になり、その結果として画像の向きを決定する性能が改善される。
【0057】
方向の確率と撮影者の関係を示す行列(図5の撮影者内容プロファイル130)を以下に示す。
【0058】
【表5】

【0059】
画像の方向決定性能が向上すると、方向が事前にわかっていることを利用するその後の画像理解アルゴリズムの性能が向上する。撮影者に特有の他の撮影特性(光景のタイプ、カメラの設定、典型的な場所、撮影時刻)がわかると追加の情報が得られるため、その後の画像品質向上、画像組織化、画像管理のアルゴリズムの性能を向上させることができる。例えば撮影者の手が安定していない(その結果、画像撮影中にカメラが過剰に動く)ことがわかっていると、その後の画像品質向上アルゴリズムに、画像のぼけをより強力に補正させる信号を送ることができよう。さらに別の例は、特定の撮影者がカメラを水平に保持しない傾向があるかどうかであり、撮影者が誰であるかがわかると、画像品質向上アルゴリズムに、画像を水平にさせる信号を送ることができよう。
【図面の簡単な説明】
【0060】
【図1】本発明を実現できるコンピュータ・システムの概略図である。
【図2】本発明の一実施態様のフロー・チャートである。
【図3A】付随する時刻が異なる興味の対象となる一人の人物の外見モデルである。
【図3B】付随する時刻が異なる興味の対象となる一人の人物の外見モデルである。
【図4】本発明の一実施態様のより詳細なフロー・チャートである。
【図5】本発明の別の実施態様のフロー・チャートである。
【図6A】画像の4つの異なる向きを示す。
【図6B】画像の4つの異なる向きを示す。
【図6C】画像の4つの異なる向きを示す。
【図6D】画像の4つの異なる向きを示す。
【符号の説明】
【0061】
10 画像撮影装置
20 マイクロプロセッサをベースとしたユニット(akaディジタル画像プロセッサ)
30 画像出力装置
40 全体制御用コンピュータ
50 ディスプレイ装置
60 キーボード
70 オフラインのメモリ装置
104 ディジタル画像またはビデオ
106 人物発見装置
108 撮影情報取出装置
110 人物の特徴
112 撮影情報
114 個人認識分類装置
116 興味の対象となる人物の外見モデル
117 興味の対象となる物体
118 人物分類
120 データベース
122 質問または問い合わせ
124 質問回答
130 撮影者内容プロファイル
132 撮影者
138 撮影者判定装置
140 比較器
142 得点セット
144 得点調節装置
160 特徴
164 物体分類装置

【特許請求の範囲】
【請求項1】
長期間にわたって撮影したディジタル画像コレクションの中から興味の対象である特定の少なくとも一人の人物を同定する方法であって、
それぞれのディジタル画像に一人以上の人物が含まれているディジタル画像コレクションを用意するステップと;
興味の対象である特定の人物に付随する1セットの特徴を有する外見モデルと、特定の撮影者による画像にその興味の対象である人物が現われる事前確率とをディジタル・データベースに記憶させるステップと;
上記外見モデルを、上記ディジタル画像コレクションの中のディジタル画像から取り出した特徴と比較し、事前確率とその外見モデルを利用して、興味の対象である上記特定の人物が上記ディジタル画像コレクションの中の1つ以上のディジタル画像の中に存在しているかどうかを決定するステップを含む方法。
【請求項2】
興味の対象となる上記特定の人物が撮影者であり、上記ディジタル画像コレクションにその特定の撮影者が含まれる事前確率を変えるため、その特定の撮影者が利用するカメラの設定に関する画像撮影情報を用意する操作をさらに含む、請求項1に記載の方法。
【請求項3】
上記画像撮影情報が、カメラのセルフ-タイマー・モードをさらに含む、請求項2に記載の方法。
【請求項4】
興味の対象となる上記人物が撮影者であり、上記カメラのセルフ-タイマー・モードがオンである場合に上記事前確率を大きくする、請求項3に記載の方法。
【請求項5】
興味の対象となる上記人物が撮影者であり、上記カメラのセルフ-タイマー・モードがオフである場合に上記事前確率を小さくする、請求項3に記載の方法。
【請求項6】
興味の対象となる上記人物が上記特定の撮影者でない場合に上記事前確率を大きくする、請求項3に記載の方法。
【請求項7】
画像を分類する方法であって、
特定の撮影者が撮影したディジタル画像のコレクションを用意し;
興味の対象である物体に関する1セットの特徴を有する外見モデルをディジタル・データベースに記憶させ;
画像が興味の対象である物体を表わしている確率を記述する、撮影者に付随する撮影者内容プロファイルを用意し;
上記外見モデルと上記撮影者内容プロファイルを利用して上記コレクションの中のディジタル画像を分類する方法。
【請求項8】
上記特定の撮影者が利用するカメラの設定に関する画像撮影情報を提供する操作をさらに含む、請求項7に記載の方法。
【請求項9】
上記撮影者内容プロファイルに、上記撮影者が撮影したディジタル画像の方向の分布に関する情報が含まれる、請求項7に記載の方法。
【請求項10】
興味の対象であるディジタル画像の画像の内容と上記撮影者内容プロファイルを利用し、興味の対象であるそのディジタル画像の方向を決定する、請求項9に記載の方法。
【請求項11】
上記撮影者内容プロファイルに、上記撮影者によって室内または屋外で撮影されたディジタル画像の割合に関する情報が含まれる、請求項7に記載の方法。
【請求項12】
興味の対象であるディジタル画像の画像の内容と上記撮影者内容プロファイルを利用し、興味の対象であるそのディジタル画像が室内の画像であるか屋外の画像であるかを決定する、請求項11に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図6C】
image rotate

【図6D】
image rotate


【公表番号】特表2008−543224(P2008−543224A)
【公表日】平成20年11月27日(2008.11.27)
【国際特許分類】
【出願番号】特願2008−514746(P2008−514746)
【出願日】平成18年5月30日(2006.5.30)
【国際出願番号】PCT/US2006/020712
【国際公開番号】WO2006/130542
【国際公開日】平成18年12月7日(2006.12.7)
【出願人】(590000846)イーストマン コダック カンパニー (1,594)
【Fターム(参考)】