説明

ピクチャ位置に基づく画像領域の分類

画像キャプチャ装置によってキャプチャされたデジタル画像又はビデオ内の領域を分類する方法であって、当該方法は、該画像キャプチャ装置と連携する地理的位置検出装置を用意し;実質上該デジタル画像又はビデオがキャプチャされた時に、該画像キャプチャ位置を測定するために、該位置検出装置を使用し;そして該キャプチャされたデジタル画像又はビデオ内の領域を、該画像キャプチャ位置に基づいて、1つ又は2つ以上のクラスに分類することを含んで成る。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の分野は、デジタル画像キャプチャ装置、及び記録されたピクチャ撮影位置情報に基づいて画像領域を分類することに関する。
【背景技術】
【0002】
画像を理解する上での1つの基本タスクは、画像の領域(結合された画素位置群)又は画素が領域分類又は領域ラベリングとも呼ばれる特定の素材を表す尤度(likelihood)をコンピュータにより割り出すことである。このタスクは、特にコンピュータがその画像に関する文脈情報を欠くときには極めて難しいことがある。現在の技術は、確信度マップ(belief map)を生成するために画像から導出された特徴を使用する(例えば、空検出の場合における、同一譲受人による米国特許出願第10/747,597号明細書)。例えば、画像内の白い領域は雪を表すことも表さないこともある。このような技術はしばしば、主に多くの素材が同様の色及びテクスチャ特性を共有する(例えば、雪と雲)という理由から、ロバストな分類のために使用することができる特徴を生成するのが難しいという不適当な結果をもたらす。
【0003】
関連タスクにおいて、画像全体を既知のカテゴリーのうちの1つに分類することが必要なことがある。例えば、多くの場合、デジタル画像を屋外画像又は屋内画像として分類することが有用である。この画像データだけを使用することによりこのタスクを実施することも、極めて難しく、エラーを被りやすい。
【0004】
米国特許第6,504,571号明細書において、画像は、関連する地理的なキャプチャ情報を有している。問い合わせ(queries)は、緯度及び経度の問い合わせに変換される。例えば、海辺でキャプチャされた画像を探索すると、システムは、海辺のリストを表示することになる。スタジアム、公園、又は湖のような場所も同様に処理される。この方法は特定の場所でキャプチャされた画像を見いだすための実用性を提供はするものの、画像自体内部の内容の割り出し、すなわち領域ラベリングを助けることにはならない。例えば、このシステムは、海辺の家の中でキャプチャされた画像を、同じ場所でキャプチャされた海の画像から区別することはない。さらに、画像と関連する位置情報を記述する他のシステム、例えば、米国特許第5,506,644号明細書及び同第5,247,356号明細書に記載されたシステムも、画像の内容、又は画像内部に表された素材の割り出しを助けることはない。例えば、このシステムは画像内の家屋又は砂地の位置を検出することはない。
【0005】
従って、画像とともにキャプチャされた地理的位置情報を活用しながら、特定の素材の領域及びデジタル画像内のオブジェクトを分類する方法を設計する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、キャプチャされた地理的位置情報を使用して、デジタル画像キャプチャ装置によってキャプチャされたデジタル画像の領域を分類するのを容易にすることである。
【課題を解決するための手段】
【0007】
この目的は、画像キャプチャ装置によってキャプチャされたデジタル画像又はビデオ内の領域を分類する方法であって、該画像キャプチャ装置と連携する地理的位置検出装置を用意し、実質上該デジタル画像又はビデオがキャプチャされた時に、該画像キャプチャ位置を測定するために、該位置検出装置を使用し、そして該キャプチャされたデジタル画像又はビデオ内の領域を、該画像キャプチャ位置に基づいて、1つ又は2つ以上のクラスに分類する、ことを含む、画像キャプチャ装置によってキャプチャされたデジタル画像又はビデオ内の領域を分類する方法によって達成される。
【図面の簡単な説明】
【0008】
【図1】図1は、本発明を実施することができるデジタル画像キャプチャ装置を表すブロックダイヤグラムである。
【図2】図2は、複数のクラスラベルのための素材確信度マップを生成するための、図1のデジタル画像キャプチャ装置の動作を表すブロックダイヤグラムである。
【図3】図3は、デジタル画像を改善するために、図2のデジタル画像キャプチャ装置の出力を使用する動作を表すブロックダイヤグラムである。
【図4】図4は、デジタル画像内の領域を分類する動作を表すブロックダイヤグラムである。
【図5】図5は、地理的位置情報を組み込むための場面構成モデルを示すグラフである。
【発明を実施するための形態】
【0009】
図1は、従来技術のデジタル画像キャプチャ装置10、例えば、デジタルカメラ、デジタルビデオカメラ、又はカメラ付き携帯電話機を示す。画像キャプチャ装置はユーザー入力部22を含む。図示のように、ユーザー入力部22はボタンであるが、しかしユーザー入力部22は、例えば、ジョイスティック又はタッチスクリーンであってもよい。ユーザーは、例えば、画像キャプチャ装置10の動作モードを選択することにより、ユーザー入力部22を介して、画像キャプチャ装置10の動作を命令する。画像キャプチャ装置10はまたディスプレイ30を含み、ディスプレイ30上で、ユーザーは、キャプチャ・ボタン15が押し下げられると、画像キャプチャ装置10によってキャプチャされた画像を下見することができる。ディスプレイ30も、ユーザーがメニューを通してナビゲートできるように、ユーザー入力部22とともに使用される。ディスプレイ30は、デジタル画像キャプチャ装置上で一般に使用されているように、液晶ディスプレイ(LCD)又は有機発光ダイオード(OLED)スクリーンであることが可能である。メニューは、ユーザーが、画像キャプチャ装置の動作に対する好みを選択するのを可能にする。画像キャプチャ装置は静止画像、又は間断なく続く画像、例えば、ビデオ・ストリームをキャプチャすることができる。
【0010】
図1に示された汎用制御コンピュータ40は、コンピュータ可読記憶媒体内のコンピュータ・プログラムとして本発明を記憶している。この記憶媒体は、例えば:磁気記憶媒体、例えば、磁気ディスク(例えば、フロッピー(登録商標)ディスク)又は磁気テープ;光学記憶媒体、例えば、光学ディスク、光学テープ、又は機械可読バーコード;又は固体電子記憶装置、例えば、ランダム・アクセス・メモリー(RAM)、又は読み取り専用メモリー(ROM)を含んでいてよい。本発明の関連コンピュータ・プログラムは、任意の他の物理的装置上、又はメモリー装置70によって指示されたコンピュータ・プログラムを記憶するために採用される媒体上に記憶されてもよい。制御コンピュータ40は、画像キャプチャ装置10の成分間におけるデータの転送を制御するのに関与する。例えば、制御コンピュータ40は、キャプチャ・ボタン15がユーザーによって押し下げられることを割り出し、そして画像センサ34による画像のキャプチャを開始する。
【0011】
画像プロセッサ36は、見場のよい画像が画像表示装置30によって生成されるような形で、デジタル画像の全体的な明るさ、トーンスケール、又は画像構造を調節するべくデジタル画像を処理するために使用される。本発明が、これらの上述の画像処理機能だけに限定されないことは当業者には明らかである。
【0012】
データ・プロセッサ20は、画像プロセッサ36のための、又は制御コンピュータ40のためのメタデータを生成するために、デジタル画像からの画像情報を処理し、また地理的位置検出子325からの位置情報363を処理するために使用される。データ・プロセッサ20の動作をより詳細に下で説明する。
【0013】
また本発明は、ソフトウェア又はハードウェアの組み合わせで実施することができ、物理的に接続された装置、又は同じ物理的場所内に配置された装置に限定されない。図1に示された装置のうちの1つ又は2つは、互いに遠く離れて配置されてもよく、そして無線接続を介して接続されていてもよい。
【0014】
デジタル画像は、1つ又は2つ以上のデジタル画像チャネルから成っている。各デジタル画像チャネルは二次元画素アレイから成っている。各画素値は、物理的画素領域に対応する、画像キャプチャ装置によって受容された光の量に関連する。カラー撮像用途の場合、デジタル画像はしばしば、赤、緑、及び青のデジタル画像チャネルから成ることになる。動画像撮影用途は、一連のデジタル画像として考えることができる。当業者には明らかなように、本発明は、上記用途のうちのいずれかのためのデジタル画像チャネルに適用することができるが、しかしこれに限定されるものではない。デジタル画像チャネルは、行と列とによって配列された画素値の二次元アレイとして記述されるが、本発明を、等しい効果を有する非直線アレイに適用できることは当業者には明らかであろう。下記デジタル画像処理ステップのために、元の画素値を処理された画素値で置換することは、元の画素値を維持しつつ、処理された画素値を有する新しいデジタル画像を生成することと機能的に等価であることも、当業者には明らかであろう。
【0015】
画像キャプチャ装置10は、位置検出子325を含む。この位置検出子325、又は地理的位置検出装置は、位置情報363を受信する位置情報受信器を含む。位置情報363は次いで、画像と関連して記憶される。位置情報363は好ましくは、使用されることになるマップ上で直接的読み取り可能である座標として記憶され;例えば、地理的マップ位置は一般に、緯度及び経度の単位で好都合に記憶される。変換器は、位置を表す種々異なる方法を関連付ける変換地理的データベース327を含むことができる。例えば、場所の名称(例えば、ドーラおばさんの家)、緯度及び経度、並びに所在地住所が関連する。変換地理的データベース327は、画像キャプチャ装置自体上に配置することができ、或いは、ネットワーク・インターフェイス、例えば、ドック・インターフェイス362又は無線モデム350を介したリモート・アクセスを有する画像キャプチャ装置の外部に配置することもできる。ドック・インターフェイスは、ドック充電器364に接続することができる。位置検出子325はこれに加えて、又はこれの代わりに、ユーザーが入力マップ位置又は位置情報363を入力するのを可能にするユーザー・インターフェイス22、例えば、マイクロフォン又はキーボードからの入力を含むこともできる。
【0016】
位置情報363は、画像キャプチャ時に検出された(適切なトレランス内の)正確な位置を画定することができるが、しかしその情報が利用可能でない場合、利用可能な最良のデータ(下で論じる)に基づいて位置を割り当てることができる。キャプチャ記録集合と関連する位置のトレランスは、全て同じであるか又は変わることができる。許容し得るトレランス、及び種々異なるトレランス範囲の混合体は、特定の用途に合わせて発見的に割り出すことができる。
【0017】
位置情報363は、物理的位置の異なるサイズを画定することもできる。例えば、GPS座標は狭い地理的エリアを画定する一方、通信セルによって画定された地理的エリアは、出力又はアンテナ形態のようなファクターに応じて、比較的広い。ユーザー入力位置情報は狭いエリア、例えば、2つの道路の交差点、又はより大きなエリア、例えば、都市又は郡を画定することができる。
【0018】
位置情報363は、データ伝送の形態で、キャプチャ時に提供することができる。データ伝送は、キャプチャ装置の位置、又はキャプチャ時のキャプチャされた被写体の位置を識別する情報の任意の伝送である。データ伝送のタイプは:局所的且つ遠隔的に伝送された位置座標、セル・サイトの識別、有線及び無線ネットワーク・アドレス、及び遠隔伝送されユーザーによって入力された識別を含む。GPS(グローバル・ポジショニング・システム)座標は、特定の座標が狭い地理的エリアを識別するので特に好都合である。
【0019】
位置検出子325によって検出された位置情報363は、数多くの方法のうちのいずれかによって検出することができる。例えば、地理的位置は、よく知られているグローバル・ポジショニング衛星(GPS)からの通信を受信することにより検出することができる。携帯電話機は、或る管轄区域では、GPS又はその他の位置検出データが利用可能であり、これらのデータはマップ位置を提供するために使用することができる。或いは、位置情報363は、伝送塔の識別及び三角測量の利用によって示すことができる。伝送塔の特徴はデータベース内に保持することができ、このデータベースは、受信された通信から位置情報363を割り出す際に調べることができる。
【0020】
マップ位置を識別するために、ネットワーク・ノード情報を使用することができる。この場合、位置情報363は、ネットワーク・インターフェイス、例えば、ドック・インターフェイス362又は無線モデム350を介して供給される。例えば、ドック・インターフェイスは、無線ネットワークに接続するためにIEEE 802.11無線インターフェイス・プロトコルのうちの1つを使用することができる。位置検出子は、MACアドレスをマップ位置に関連付けるデータベースを使用してマップ位置に変換することができる位置情報を提供するために、無線アクセスポイントのMAC(Media Access Control)アドレスを使用することもできる。MACアドレスは、無線アクセスポイント設備のハードウェア内に永久的に記録される。例えば、MACアドレス48-3F-0A-91-00-BBは、北緯43.15度、西経77.62度の位置と関連付けることができる。このアプローチは、データベース内のマップ位置がMACアドレスを提供する設備の実際の位置に相当するという想定に基づいている。同様に、米国特許第6,757,740号明細書(Parekh他)(これを参考のため本明細書中に引用する)に記載されているように、地理的位置の近似的な知識を得るために、インターネットを介して特定のメッセージを運ぶ、クライアント・コンピュータからリモート・ホストへの全てのルーターのIPアドレス(TCP/IPプロトコルによって規定される)を割り出す「トレースルート」の実用性を用いることもできる。
【0021】
マップ位置又は位置情報363は、これに加えて、又はこれの代わりに、ユーザーによって供給することもできる。例えば、ユーザーは、画像と関連する地理的位置を画定するために、緯度及び経度の情報又は郵便番号を入手することができる。
【0022】
位置情報363は、単一点としてよりもむしろ確率分布として表すことができる。上記(GPS)の最も正確な(現在利用可能な)位置検出システムは、少なくとも数メートルの誤差を被りやすい。地理的位置は、点及び関連する不確実性として、又は確率分布として表すことができる。例えば、地理的位置が郵便番号である場合、郵便番号によって画定された領域全体にわたる一様な確率分布を用いることができる。
【0023】
他の態様の場合、画像キャプチャ装置又はその他のキャプチャ装置は、画像キャプチャ装置10とは別個の外部位置認識装置329からのキャプチャ画像と関連する位置情報を受信して記憶する位置検出子325を有している。
【0024】
その場合、地理的位置は、位置認識装置329によって検出され、次いで、ドック・インターフェイス362又は無線モデム350を介して画像キャプチャ装置10に伝送される。位置認識装置329は、位置情報受信器、例えば、自動車内に組み入れられたGPS受信器によってその位置を知る装置であり、又はその位置を知る定置の物体、例えば、高周波ビーコンである。位置検出子325は、外部位置認識装置329をその位置に関してポーリングすることができ、或いは、位置検出子325は、外部位置認識装置329を特定の時間におけるその位置に関してポーリングすることができる(例えば、特定の時間は画像キャプチャ時間である)。この別の態様は、例えば、位置認識装置329が位置信号を画像キャプチャ装置に伝送する自動車内のGPS受信器である場合のように、位置認識装置329が画像キャプチャ装置10に近接している場合に効果的である。
【0025】
特定の態様の場合、位置検出子325は、さもなければマップ位置を欠いてしまうキャプチャ記録のマップ位置を推定する。例えば、GPSは、屋内にいるときに信号を検出し損なうことがしばしばある。このような受信器を含む位置検出器325は、時間的に最も近い利用可能な位置情報、又は画像キャプチャの前又は後の時点における複数の地理的位置間の補間を用いることができる。1つの選択肢としては、デジタル・プロセッサは、画像キャプチャに対する一時的な関係でだけ記憶するのではなく、位置検出子325によって検出される地理的位置を連続的に記憶することができる。このアプローチは、データ伝送が利用不能であるときに位置を評価するためのデータを提供し、そして画像キャプチャ装置が、キャプチャされた画像の位置だけでなく、画像キャプチャ間にユーザーによってとられた経路をも表示するのを可能にするという追加の利点を有する。
【0026】
画像キャプチャ装置10は、画像又はビデオがキャプチャされると位置情報363Lを検出し、そして、位置情報363Lを画像又はビデオと関連付ける。
【0027】
画像キャプチャ装置10がビデオ・ストリームをキャプチャする場合、ビデオ・ストリームの各デジタル画像毎に位置情報363Lがあることが可能である。或いは、ビデオ・ストリームのいくつかのフレームに対して1つの位置情報363Lがあることが可能である。ビデオ・ストリームの各フレーム毎に、いくつかの位置情報363ベクトルLがあることも可能である。
【0028】
画像キャプチャ装置10は内部に、任意の時点におけるピクチャ撮影位置情報363を記録するための位置検出子325を一体的に含んでいる。測定される空気特性はベクトルAとして表される。周囲空気センサ(図示せず)は、画像をキャプチャする必要なしに、画像キャプチャ装置を取り囲む周囲空気の特性を検出することができる。これらの空気特性はデジタル画像と関連付けられ、そして画像ノイズ特性を改善し、これらの領域が表す素材に従って画像の領域を分類し、画像を屋内又は屋外として分類し、関連画像を事象にクラスタリングし、そして特定の画像を探索するために本発明によって使用される。
【0029】
図2を参照すると、地球に対して画像キャプチャ装置が向いている方向、すなわちカメラが向いている方法を割り出すために、画像キャプチャ装置10と一体的な追加の方向センサ44を任意選択的に使用することができる。方向センサ44は好ましくは、画像キャプチャ装置の光軸の傾斜及びコンパス配向を検出する。一般に、位置認識装置329はこのような方向情報を提供しない。この追加の情報は、環境が所与の地理的位置において等方性からはほど遠い場合に、有用であり得る。例えば、その人がマイアミ・ビーチで東に向いていれば大抵は空と海とを見ているはずであるのに対して、西に向いていれば建物と木とを見ているはずである。
【0030】
再び図2を参照すると、画像センサ34は、デジタル画像102をキャプチャし、画像プロセッサ36に渡される原画像を生成する。画像プロセッサ36は、画像センサ34から欠けている画素値を補間し、色補正マトリックスを適用し、画像をレンダリングすることなどによって、観察のための原画像を調製する。加えて、データ・プロセッサ20は、位置情報363、及び方向センサ44からの方向情報、及び場合によってはデジタル画像102(又は画像プロセッサ36からのデジタル画像の部分補正バージョン)を分析することにより、素材確信度マップ124を生成する。素材確信度マップ124は、画像内の各素材領域毎のラベリング及び関連付け確率を表すために使用される。これは画像領域分類の結果であり、画像エンハンスメント及び画像検索を含む多種多様な用途にとって有用であり得る。
【0031】
図3において、素材確信度マップは、エンハンス又は改良された画像120を形成するように、選択された画像変換60を制御するために使用される。例えば、澄んだ空の領域には、より重度のノイズ除去が施されるべきであるのに対して、草地領域は、所望のテクスチャを保存するためにそのままにされるべきである。画像エンハンスメント及び操作においてこのマップをどのように使用するかに関する詳細は、Luo他による“Method And System For Selectively Applying Enhancement To An Image”と題される、2001年12月10日付けで出願された米国特許出願第10/016,601号明細書に見いだすことができる。当業者には明らかなように、本発明は上記画像エンハンスメントに限定されることはなく、他の画像エンハンスメント、操作、探索、インデキシング、検索、及び編成用途を含んでよい。例えば、領域分類は、上記技術を用いることにより、データベースの画像探索、例えば、「青空を有する画像を見つける」又は「青空及び緑の草地を有する画像を見つける」画像探索を容易にすることができる。
【0032】
メタデータは、画素データを含まない画像に関連する情報である。ピクチャ撮影時間における画像キャプチャ装置10の地理的位置363は、メタデータの一例である。いくつかの追加のメタデータ項目も、データ・プロセッサ20に入力される。デジタル画像102のキャプチャ日時、及び例えば、デジタル画像のキャプチャに関連する他のデータ、例えば、画像キャプチャ時間における露光時間(秒)及び焦点距離f1(画素数)が含まれる。加えて、メタデータは、目下の画像キャプチャ装置設定値、例えば、ユーザーによって選択されたメニュー項目の状態、又は動作モードを含む。デジタル画像102と関連する全てのこのような情報は、デジタル画像102と関連するメタデータとして記憶し、そして後続の画像処理において有用になる。空、草地、開放水域、及び雪原を含むいくつかの最も有用な素材の定義が、表1に示されている(下記)。他の素材、例えば、雲、舗道、及び壁が当業者に示唆されることになる。素材を分類する詳細は、同一譲受人によるLuo他による米国特許第7,062,085号明細書に見いだすことができる。画像プロセッサ36は、画像102の領域又は画素に対して計算された特徴、例えば、色、テクスチャ、形状、又は画像内部の位置に基づいて、クラス確率(確信度値としても知られる)を割り当て、そして、上述の確信度マップ124の形態で結果を出力する。
【0033】
【表1】

【0034】
一般に、画像プロセッサ36内に存在する素材検出器の全て(又は領域分類子又は領域ラベラー)は、図4に示されているものと同様のアプローチに従う。先ず、色特徴401及びテクスチャ特徴402が、入力画像102の低分解能、すなわち256x384バージョンで抽出される。好ましくは、計算された特徴は、関連する素材クラスの画素を他の素材クラスの画素から区別する上で効果的となる。次いで特徴は分類子403、例えばトレーニングされたニューラル・ネットワークに供給される。この分類子403は、素材の色及びテクスチャ特性に従って、クラス確率又は確信度値を画像内の各画素に関連付ける画素確信度マップ404を生成する。次いで、画素確信度マップから空間的に隣接する同質領域を得るために、閾値が使用される。最後に、関連する素材クラスの、特定の固有領域に基づく特性に従って、各空間的に隣接する領域がさらに分析され(405)、そして確認された領域は、初期領域確信度マップ406を形成する。この初期領域確信度マップ406では、各領域が一様な確信度値と関連付けられる。領域分類子の詳細は米国特許第7,062,085号明細書に見いだすことができる。推論プロセスに関して、これらの方法は、文脈モデルが課せられないので、本質的にボトムアップ戦略を用いる。
【0035】
残念ながら、画像特徴だけを使用すると、曖昧な結果を招くおそれがある。例えば、或る領域の強度が明るく、飽和度が極めて低く、そしてテクスチャが低いと仮定する。その領域が雪を表す確率は、P(領域=雪|特徴)であり、ここで特徴は例えば、領域の平均強度、飽和度、及びテクスチャ規模である。しかしながら、最も精巧な分類システムでさえ、これらの分布、例えば、P(特徴|領域=雪)とP(特徴|領域=白いカーペット)とがオーバラップするときのクラス間を正確に区別することはできない。
【0036】
曖昧さの量、及びその結果生じる、素材領域を個別に分類することに関連する誤分類を低減するように規則化メカニズムを提供するためには、トップダウン戦略が必要である。文脈情報を使用することにより、トップダウン推論を容易にすることができ、このトップダウン推論は、同様の色及びテクスチャを有する「紛らわしい」素材クラス間を区別するのを助けることができる。文脈情報は、場面全体の記述全体、すなわち場面文脈に由来することができ、或いは、何が場面タイプなのかを正確に知っていることなしに、場面内の種々異なる素材の位置、すなわち空間文脈の中からの通常の関係に由来することができる。場面文脈の場合、屋外又は海辺の場面に関する知識が、どの素材クラスが場面内に存在するか、そしてどこでこれらの素材が場面内で生じる可能性が高いかに対して強い制約を課すことができる。空間文脈の使用によって課せられる制約は、場面文脈の使用によって課せられるものよりも弱いが、しかし、相反する素材検出器の中から曖昧さを低減し、そして、素材検出に際してありそうもない空間的形態を排除するには、多くの場合なおも十分である。この利点は、正確な場面タイプを知っていることに依存しないことである。他方において、場面に関するより多くの情報、例えば、この場合にはピクチャ撮影位置が知られている場合、素材領域の分類により強い制約を提供するために、文脈モデルを豊富にすることができる。少なくとも2つのタイプの空間文脈関係が自然の画像内に存在する。第1に、自然の画像内の特定の素材の共出現間に関係が存在し;例えば、高い確率で草地を検出することが、低い雪の確率を暗示する。第2に、画像内の素材の空間的位置間に関係が存在し;空は草地の上方に、木の葉は草地の上方に、又は空が雪の上方に生じる傾向がある。
【0037】
低レベル素材検出器から得られた素材確信度を評価して調節するように空間文脈を使用するために、本発明は、画像内の領域全ての間で空間制約情報を表すためにグラフィカル・モデルに依存し、そして最終的には、空間制約と元の素材確信度値との間の最良の妥協となる新しい素材確信度値を生成する。
【0038】
本発明の1つの態様の場合、ペアワイズ(pair-wise)空間的関係の集合は、{上方、遙かに上方、下方、遙かに下方、傍ら、取り囲まれる、及び取り囲む}を含む。上方と、遙かに上方と(下方と、遙かに下方との関して同様)の間を区別するために、2つの領域の最も近い画層間の距離の閾値が使用される。
【0039】
空間文脈モデルは、上記空間的関係に対応する確率密度関数を学習することにより形成される。種々の素材クラスに対応する、収集された広範囲のグラウンド・トゥルースを含有するデータベースから、空間的関係全てに対応する不連続確率密度関数P(空間的関係|位置)を生成するためには、単純な頻度カウント・アプローチで十分である。一例として表2(下記)の「遙か上方」のペアワイズ関係に対応する確率密度関数を使用して、下記観察を行うことができる:
【0040】
1. 領域が空領域の遙か上方にある場合、これは別の空領域、木の葉領域、又は背景(他のクラス)領域でしかあり得ない。
2. 領域が草地領域の遙か上方にある場合、これは木の葉又は空領域である可能性が最も高い。
3. 領域が木の葉領域の遙か上方にある場合、これは空領域である可能性が最も高い。
【0041】
4. 領域が雪領域の遙か上方にある場合、これは別の雪又は空領域である可能性が最も高い。
5. 領域が背景(その他の)領域の遙か上方にある場合、これは事実上いずれの領域であることも可能であり、空領域である可能性が最も高い。
【0042】
【表2】

【0043】
他の確率密度関数を形成し、そして同様に解釈することができる。確率密度関数は、画像内の全ての領域間の空間的関係を記述する確率的グラフィカル・ネットワークを構成するために使用され、そして空間文脈モデルと関連する条件付き確率を明らかにするために解くことができる。
【0044】
表2のモデルの利点は、このモデルが任意の位置に適用可能であることである。しかしこのモデルは、地理的位置情報を利用することはなく、位置が未知であるものと想定することにより位置を事実上無視する。表3(下記)は、米国キーウェスト(Key West)の位置特異的条件付き確率モデルの一例を示す。位置非認識モデルに対する最も注目すべき変化は次のものを含む:
【0045】
1. 領域が空領域の遙か上方にある場合、これは木の葉領域、又は背景(他のクラス)領域であるよりも、別の空領域である可能性が僅かに高い。
2. 領域が草地領域の遙か上方にある場合、これは木の葉領域であるよりも、空領域である可能性が僅かに高く、また、水領域である可能性も高い。
3. 領域が水領域の遙か上方にある場合、これは木の葉領域であるよりも、空領域である可能性が僅かに高い。
【0046】
4. 領域が雪領域の遙か上方にある場合には、そもそも雪領域を有することがほとんど不可能なので、適用されない。
5. 領域が背景(その他の)領域の遙か上方にある場合、これは空領域又は水領域である可能性がより高く、雪領域であることはほとんど不可能である。
【0047】
【表3】

【0048】
さらに、地理的位置情報はまた、或る特定の素材クラスを見る事前確率、すなわちP(素材|位置)に影響を与える。表4(下記)は、消費者の写真における種々の素材クラスの統計を示す。具体的には、
【0049】
1. 写真の31%が眼に見える空の有意な断片を含有し、そしてその尤度は屋外画像の場合の55%においてさらに高くなる。
2. 全ての画像の29%及び屋外画像の52%は草地を含有し;
3. 全ての画像の35%及び屋外画像の65%は木の葉を含有し;
4. 全ての画像の10%及び屋外画像の19%は開放水域を含有し;
5. 全ての画像の2.4%及び屋外画像の4.5%は積雪を含有する。
【0050】
【表4】

【0051】
表5(下記)は、米国キーウェストの位置特異的な事前確率の一例を示す。位置非認識モデルに対する最も注目すべき変化は次のものを含む:
【0052】
1. 写真の75%が眼に見える空の有意な断片を含有し、そしてその尤度は屋外画像の場合の95%においてさらに高くなるのに対して、屋内画像において空を見る尤度も3.1%から10%に増大し;
2. 草地の尤度は同様であり;
3. 木の葉の尤度は減少し(その代わりに空を見る可能性が高くなる);
4. 開放水域の尤度は有意に増大し;
5. 雪の尤度は、ほとんど存在しなくなるまで減少する。
【0053】
【表5】

【0054】
なお、位置も、画像内の各素材クラスに対応する画素のパーセンテージに対して同様の効果を有している。
【0055】
本発明の種々の態様の場合、所与の地理的位置における1日又は季節の経過中に環境が変化する場合、時に関する追加の情報が有用であり得る。なぜならば、或る特定の素材、例えば、草地、木の葉、雪、氷、及び水が気候に対して敏感だからである。例えば、山の積雪は、行楽地では、夏の間溶け去ることがあり、そして同様に、木の葉はこの場所では冬以外の季節にしか見られない。このような情報は、確率値、例えば、表3及び5に相応に示された確率値を改変することにより、事前確率P(素材|位置、季節−時間)及び条件付き確率P(空間的関係|位置、季節−時間)の両方に容易に形成することができる。
【0056】
この場合、画像キャプチャ時間及び位置情報363はまた、確信度マップ124を生成するために、データ・プロセッサ20に提供される。この情報は、大きな助けとなる。直感的な例として、全段落に記載された領域に関して再考察する。デジタル画像102がフロリダ州マイアミでキャプチャされたと位置情報363が示し、そしてデジタル画像102が2002年6月26日正午にキャプチャされたと画像キャプチャ時間が示す場合、画像が雪という素材を表す任意の画素又は領域を含有する確率は、極度に低い。或いは、画像キャプチャ時間は、確信度マップ124を生成するために単独で使用することもできる。それというのも、事前確率P(素材|季節−時間)及び条件付き確率P(空間的関係|季節−時間)の両方を同様に導出し利用することができるからである。
【0057】
図5をここで参照すると、事前確率P(素材|位置)及び条件付き確率P(素材の空間的配列|位置)の両方の地理的位置情報を組み入れるむための場面構成モデルを表すグラフが示されている。このグラフは、一般に因子グラフと呼ばれる。事前因子ノードP501は上記事前確率を採用し、場面ノードS502は、場面文脈モデルを組み込み、空間因子ノードF503は、個々の領域間のペアワイズ関係から成っている。画像内のn個の領域のそれぞれに対して、領域ノードR504がある。n個の領域間にはn2個の対があるので、同じ数の空間因子ノードがある。グラフの底部レベルは検出子因子D505を含有し、やはりn個のこのようなノードがある。このグラフ・モデルのノードは先ず事前確率及び条件付き確率で初期化され、次いで、素材検出子からの素材確信度値でインスタンス生成される。全ての入力(初期クラス確率、事前確率、及び条件付き確率を含む証拠としても知られる)を組み合わせる各領域毎に事後確率、すなわち最終確信度値を計算するために、確信度伝搬と呼ばれる手順が用いられる。一般に、最高事後確率を与える素材クラスに、各領域がラベリングされる。上記確率によってどのように領域分類が影響されるかに関する詳細は、Singhal、Luo、及びZhu、“Probabilistic spatial context models for scene content understanding”(Proceedings of Computer Vision and Pattern Recognition, 第235-241頁、2003)に見いだすことができる。当業者には明らかであるように、本発明は上記特定のグラフ・モデルに限定されるものではない。
【0058】
図2に戻ってこれを参照すると、本発明の変化態様において、方向センサ44からの追加の情報は、環境が所与の地理的位置において等方性からはほど遠い場合に、有用であり得る。例えば、その人がマイアミ・ビーチで東に向いていれば大抵は空と海とを見ているはずであるのに対して、西に向いていれば建物と木とを見ているはずである。このような情報は、確率値、例えば、表3及び5に相応に示された確率値を改変することにより、事前確率P(素材|位置、方向)及び条件付き確率P(素材の空間的配列|位置、方向)の両方に容易に形成することができる。
【符号の説明】
【0059】
10 画像キャプチャ装置
15 キャプチャ・ボタン
20 データ・プロセッサ
22 ユーザー入力インターフェイス
30 ディスプレイ装置
34 画像センサ
36 画像プロセッサ
40 制御コンピュータ
44 方向センサ
60 変換
70 メモリー装置
102 デジタル画像
120 改善されたデジタル画像
124 素材確信度マップ
325 位置検出子
327 地理的データベース
329 外部位置認識装置
350 無線モデム
362 ドック・インターフェイス
363 位置情報
364 ドック/充電器
401 色変換
402 コンピュータ・テクスチャ特徴
403 ニューラル・ネットワーク分類子
404 画素確信度マップ
405 領域分析
406 領域確信度マップ
501 事前因子
502 場面ノード
503 空間因子
504 領域ノード
505 検出子因子

【特許請求の範囲】
【請求項1】
画像キャプチャ装置によってキャプチャされたデジタル画像又はビデオ内の領域を分類する方法であって、当該方法は、
a) 該画像キャプチャ装置と連携する地理的位置検出装置を用意し;
b) 実質上該デジタル画像又はビデオがキャプチャされた時に、該画像キャプチャ位置を測定するために、該位置検出装置を使用し;そして
c) 該キャプチャされたデジタル画像又はビデオ内の領域を、該画像キャプチャ位置に基づいて、1つ又は2つ以上のクラスに分類する
ことを含んで成る。
【請求項2】
該1つ又は2つ以上のクラスが、空、草地、水、雲、舗道、雪、又は壁を含む請求項1に記載の方法。
【請求項3】
ステップ(c)が:
i) 該キャプチャされたデジタル画像又は該ビデオのフレームから同質の領域を得て;
ii) 該同質の領域から特徴を抽出し;そして
iii) 該画像キャプチャ位置及び該抽出された特徴に基づいて、関連するクラス確率を用いて、該領域を1つ又は2つ以上のクラスに分類する
ことをさらに含む請求項1に記載の方法。
【請求項4】
該抽出された特徴が、該領域と関連する色特徴又はテクスチャ特徴を含む請求項3に記載の方法。
【請求項5】
ステップ(c)が、該デジタル画像の領域を分類するために該画像キャプチャ時間を使用することをさらに含む請求項1に記載の方法。
【請求項6】
ステップ(ii)がさらに、該デジタル画像の領域を分類するために該画像キャプチャ時間を使用することを含む請求項1に記載の方法。
【請求項7】
ステップ(c)が、該デジタル画像の領域を分類するために、カメラが向いている方向を使用することをさらに含む請求項1に記載の方法。
【請求項8】
ステップ(ii)が、該デジタル画像の領域を分類するために、カメラが向いている方向を使用することをさらに含む請求項3に記載の方法。
【請求項9】
ステップ(iii)が、地理的位置に従ってクラスの事前確率を関連付けて、そして領域のクラスを割り出すためにこのような事前確率を使用することを含む請求項3に記載の方法。
【請求項10】
ステップ(iii)が、地理的位置に従ってクラス間の条件付き確率を関連付けて、そして、各領域のそれぞれのクラスを割り出すためにこのような条件付き確率を使用することを含む請求項3に記載の方法。
【請求項11】
該クラス間の条件付き確率が、上方、遙かに上方、下方、遙かに下方、傍ら、取り囲まれる、又は取り囲むを含む空間的関係の1つ又は2つ以上に従って、ペアワイズ確率として特定される請求項10に記載の方法。
【請求項12】
ステップ(iii)が、
(i) 該抽出された特徴にのみ基づいて初期クラス確率を生成し;
(ii) 地理的位置に従って、該事前確率及びクラス間の該条件付き確率に対応する事後クラス確率を生成するように該初期クラス確率を改変するために、グラフィカル・モデルを使用する
ことをさらに含む請求項3に記載の方法。
【請求項13】
最高の事後クラス確率を有するクラスとして、領域をラベリングすることをさらに含む請求項3に記載の方法。
【請求項14】
画像キャプチャ装置によってキャプチャされたデジタル画像又はビデオフレーム内の領域をエンハンスする方法であって、当該方法は、
a) 該画像キャプチャ装置と連携する地理的位置検出装置を用意し;
b) 実質上該デジタル画像又はビデオがキャプチャされた時に、該画像キャプチャ位置を測定するために、該地理的位置検出装置を使用し;
c) 該キャプチャされたデジタル画像又はビデオ内の領域を、該画像キャプチャ位置に基づいて、1つ又は2つ以上のクラスに分類し;そして
d) 各領域のクラスに応じて、分類された領域に画像エンハンスメントを施す
ことを含んで成る。
【請求項15】
画像キャプチャ装置によってキャプチャされたデジタル画像又はビデオフレームをデータベース内で探索する方法であって、当該方法は、
a) 該画像キャプチャ装置と連携する地理的位置検出装置を用意し;
b) 実質上該デジタル画像又はビデオがキャプチャされた時に、該画像キャプチャ位置を測定するために、該地理的位置検出装置を使用し;
c) 該キャプチャされたデジタル画像又はビデオ内の領域を、該画像キャプチャ位置に基づいて、1つ又は2つ以上のクラスに分類し;そして
d) 1つ又は2つ以上の予め決められたクラスの領域を含有する画像をデータベース内で探索する
ことを含んで成る。
【請求項16】
画像キャプチャ装置によってキャプチャされたデジタル画像又はビデオ内の領域を分類する方法であって、当該方法は、
a) 該画像キャプチャ装置と連携する時間検出装置を用意し;
b) 実質上該デジタル画像又はビデオがキャプチャされた時に、該画像キャプチャ時間を測定するために、該時間検出装置を使用し;
c) 該キャプチャされたデジタル画像又はビデオ内の領域を、該画像キャプチャ時間に基づいて、1つ又は2つ以上のクラスに分類する
ことを含んで成る。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公表番号】特表2009−541896(P2009−541896A)
【公表日】平成21年11月26日(2009.11.26)
【国際特許分類】
【出願番号】特願2009−518145(P2009−518145)
【出願日】平成19年6月14日(2007.6.14)
【国際出願番号】PCT/US2007/013907
【国際公開番号】WO2008/002396
【国際公開日】平成20年1月3日(2008.1.3)
【出願人】(590000846)イーストマン コダック カンパニー (1,594)
【Fターム(参考)】