ポータブル・デバイス上での画像アノテーション
画像およびビデオの自動アノテーションのためのシステムは、モバイル・デバイスを建造物または景観などの対象物に向けると、対象物のアノテーションを有するシーンの画像がデバイスに表示されるようにする。アノテーションは、名称、歴史的情報、ならびに画像、ビデオ、およびオーディオ・ファイルのデータベースへのリンクを備えることができる。アノテーションの位置的配置を決定するための異なる技法を使用することができ、複数の技法を使用することによって、位置付けをより正確で信頼性の高いものにすることができる。アノテーション情報の詳細さのレベルは、使用する技法の精度に従って調整することができる。必要とされる計算は、モバイル・デバイス、サーバ、および相互接続ネットワークを備えるアノテーション・システム内に分散させることができ、アノテーションの付いた画像を複雑さのレベルが異なるモバイル・デバイスに適合させることを可能にする。アノテーションの精度と、通信コスト、遅延、および/または電力消費との間のトレードオフを考慮することができる。アノテーション・データベースは、自己組織的な方法で更新することができる。ウェブ上で入手できるような公開情報をアノテーション・データに変換することができる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ポータブル表示デバイス上で、より詳細には、ワイヤレス通信ネットワーク内のそのようなデバイス上で、画像およびビデオにアノテーションを付ける(annotate)ための方法に関する。
【背景技術】
【0002】
スマートフォン、パームトップ・コンピュータ、ポータブル・メディアプレーヤ、および携帯情報端末(PDA)デバイスなど、ハンドヘルド・ポータブル・デバイスの開発が急速に進展したことによって、画像処理に関わる新規な機能およびアプリケーションを備えることが提案されるようになった。そのようなアプリケーションの1つ、すなわち、画像アノテーション(image annotation)およびキャプショニング(captioning)では、ユーザが、例えば、山岳風景、建造物、または美術館の絵画など、シーン(風景)にポータブル・デバイスを向けると、ディスプレイは、そのシーンに関する情報が一緒に重ね合わされた画像を表示する。そのような情報は、例えば山岳および居住物の名称、建造物の歴史的情報、ならびに例えばレストランのメニューを広告するなどの商業的情報を備えることができる。
【0003】
アノテーション情報は、ワイヤレス通信ネットワーク内のサーバによって、ポータブル・デバイスに供給することができる。サーバおよびポータブル・デバイスを有する通信ネットワークの対応する機能的構成は、本明細書では、アノテーション・システム(annotation system)と呼ばれる。
【0004】
アノテーション・システムでは、アノテーション位置の精度およびロバスト性が、特有の問題となる。精度は、センサベースの技法と画像ベースの技法など、異なる技法の同時使用によって、ロバスト性は、アノテーション位置を決定するための技法の選択によって向上させることができる。画像がモバイル・デバイスによって獲得されると、画像内におけるアノテーションの配置を決定するために、異なる技法を使用することができる。画像にアノテーションを付けるための異なる技法を使用する方法およびシステムの例が、とりわけ、特許文献1および特許文献2で説明されている。
【0005】
特許文献3は、ビデオ画像内に含まれる対象物を認識し、この対象物にアノテーションを付けるための、ビデオ対象物認識デバイスについて説明している。候補検索手段は、対象物認識デバイスの位置情報と、データベース内に保存された地理的候補対象物の位置情報とを読み取る。その後、このデバイスは、画像に表示されている可能性のある地理的対象物を検索し、それらの候補対象物と画像との視覚的比較を実行する。存在確率計算手段は、候補対象物の画像がキャプチャされている確率を計算し、類似度計算手段は、候補対象物とビデオ画像内の視覚的な特徴物(feature)との間の類似度を計算する。その後、存在確率および類似度は、対象物の画像がキャプチャされているか否かを決定するために使用される。この方法は、特定の対象物にアノテーションを付けるべきかどうかを決定するのに役立つが、際立った点の最尤位置(最適位置)、つまりアノテーションを追加すべき画像内の位置を指示しない。
【0006】
特許文献4は、モバイル電話およびリモート認識サーバを備える、モバイル画像ベース情報検索システムについて説明している。このシステムでは、モバイルフォンのカメラで撮影された画像が、リモート・サーバに転送され、認識プロセスが実行される。これは、画像を転送するために高い帯域幅を必要とし、サーバにおいてアノテーションを計算し、それらをモバイルフォンに返送するために遅延をもたらす。やはり、このシステムも、画像内で対象物が見えているか否かを決定するために、事前定義された閾値と比較される、類似度スコアを提供するが、画像内におけるこの対象物の最尤位置を指示しない。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】米国特許第6208353号
【特許文献2】欧州特許第1246080号
【特許文献3】欧州特許第1622081号
【特許文献4】国際公開第05114476号
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、デバイスのおよび画像に表示された対象物の位置および方位を決定するための、モバイル・アノテーティング・デバイスで利用可能な異なるセンサおよび方法をより有効に使用することである。
【0009】
別の目的は、特に、画像内における最適位置に関して異なる位置が考えられる場合または曖昧性が存在する場合に、画像内におけるアノテーションの配置を向上させることである。
【課題を解決するための手段】
【0010】
好ましい方法は、指定された対象物が画像の各点に表されている確率を表す、本明細書で確率マスク(probability mask)と呼ばれる、2Dまたは3D確率分布を決定する。この確率は、画像内における際立った対象物(salient object)の位置を決定するために使用される方法に依存する。例えば、コンピュータ・ビジョンを使用して、参照候補対象物と画像の特徴物の間の類似度を計算する画像ベースの方法は、通常の照明条件の下では、対象物の位置を高い精度で決定することができる。しかし、照度が低すぎる場合、または外見が類似した多くの対象物が同じシーン内に存在する場合、この方法は、いくつかの候補を、すなわち、候補対象物であることを表す確率が非ゼロのいくつかの領域を生成することがあり得る。他の状況では、コンピュータ・ビジョン方法は、画像内に存在する候補対象物を認識することができず、ゼロまたは著しく一様の確率分布を提供する。
【0011】
確率マスクは、測位センサによって提供される情報に基づいて生成することもできる。例えば、アノテーティング・デバイスにおいて、3軸上の方位磁石および傾斜計と一緒に、GPSなどの測位システムが利用可能である場合、デバイスの位置および方位は、高い精度で計算することができ、確率マスクの高い確率値は、ある画像点の周囲に分布する。非ゼロ領域のサイズは、位置および方位角(orientation angle)の精度から決定される。異なるポータブル・デバイスは、センサの異なる組を備え、異なる形状およびサイズを有する確率マスクをもたらすことができる。例えば、アノテーティング・デバイスが、GPSおよび傾斜計を有するが、方位磁石を有さない場合、デバイスのヨー角およびロール角だけを決定することができ、方向は決定できない。このケースは、縞の形状または3Dでは円盤の形状を有する確率マスクの非ゼロ領域に対応する。
【0012】
アノテーティング・デバイスに取り付けること、または備えることができる他のセンサは、多軸加速度計(multi−axis accelerometer)および/またはジャイロスコープなどであり、それらから、デバイスの過去軌道に加えて、垂直方向も決定することができる。
【0013】
他のセンサは、アノテーションを付ける対象物にも取り付けることができ、画像獲得デバイスによって受信される信号を発することができる。それらのセンサは、例えば、RFIDタグ、ビーコン、またはBluetooth、WIFI、もしくはZigBee送信機などの無線発信器などとすることができる。アノテーション・デバイスは、方向と、場合によっては、例えば飛行時間および/または振幅測定に基づいて、このセンサまでの距離とを決定することができ、無線信号内に備えられた対象物を識別するための情報を使用することができる。この場合、確率マスクの非ゼロ領域は、それぞれ直径が相対的に大きい円、球となることができる。
【0014】
画像ベースの方法および/またはセンサを使用することに加えて、モバイル・デバイスの位置および方位は、通信ネットワークの局または構成要素から入手可能な情報を使用することによって決定することができる。例えば、アノテーティング・デバイスの位置は、異なる位置にあるネットワーク基地局によって送信または受信される信号の飛行時間および/または振幅を使用して、三角法によって計算することができる。
【0015】
別の可能性は、複数のモバイル・デバイスの位置および方位を同時に決定することである。デバイスのいくつかは、ネットワーク内の他のアノテーティング・デバイスの利益にもなり得る高精度の決定に役立つ、1つまたは別のタイプのセンサを有することができる。例えば、あるデバイスは、GPSを有することができ、GPSを備えていない第2のデバイスの近くに存在する。2つのデバイスが、例えば、近距離ワイヤレス・インタフェースを介して通信できる場合、それらの間の距離を決定するために、測距技法を使用することができ、第2のデバイスの位置の推定値を第1のデバイスに提供することができる。
【0016】
位置および方位を決定するために使用される技法に関わらず、結果的には、確率マスクによって表される精度で、際立った対象物が画像平面上にマッピングされることとなる。
【0017】
各技法の精度とは関係なく、いくつかの技法は、他の技法よりも信頼性が高い。例えば、センサベースの技法は、フォールス・ポジティブまたはフォールス・ネガティブを引き起こし得る画像ベースの技法よりも通常は信頼性が高い。特定の技法の信頼性は、事前に分かることがあり、アルゴリズムによって引き出された事前定義された値として保存することができる。または、特定の技法の信頼性は、画像および/または条件に依存することがあり、異なる技法によって使用される対応するセンサまたはアルゴリズムによって提供することができる。例えば、画像ベースの方法の信頼性は、コンピュータ・ビジョン・アルゴリズムの出力として提供することができ、画像獲得条件に依存することがある。別の例では、衛星ベースの位置センサの信頼性は、GPSチップセットおよびアルゴリズムによって出力することができ、とりわけ、受信されるGPS信号の数および衛星の位置に依存することがある。
【0018】
さらに、画像の異なる部分および異なる候補対象物に関連する信頼性は、異なることがあり、例えば、ある画像は、コンピュータ・ビジョン・アルゴリズムが信頼性の高い結果を提供できる、照明が良好な部分と、方法の信頼性がより疑わしい、露出不足もしくは露出過度の、または焦点がよく合っていない他の部分とを備えることがある。さらに、いくつかの対象物は、他の特色の乏しい対象物よりも高い信頼性で認識することが、より容易である。別の例では、アノテーションを付ける対象物とアノテーティング・デバイスの間の無線経路に基づいた方法の信頼性は、とりわけ、距離、障害物、および反射に依存することがある。したがって、画像の各点における測定の信頼性を示す信頼性分布関数(reliability distribution function)を計算することができる。
【0019】
加えて、位置付けの精度は、異なる測定に依存し、場合によっては、各候補対象物におよび画像の各点に依存する。例えば、鮮明なエッジを有する候補対象物は、高い精度で参照画像上に位置付けることが、不鮮明なエッジを有する別の対象物よりも容易なことがある。同様に、GPS測位システムの精度は、一定とは言い難い。したがって、精度(または平均位置誤差)は、各画像、各候補対象物、および/または画像の各点に関連することがある。
【0020】
ロバスト性および精度は、確率マスクと、場合によっては、信頼性マスク(reliability mask)を考慮して、異なる技法によって生成された推定値を組み合わせることによって最大化することができる。ロバスト性を向上させる1つの方法は、異なる技法の確率マスクの間の共通部分(intersection)を計算することである。共通部分が空である場合、または2つの技法によって提供される高い確率の領域が重なり合わない場合、2つの技法は、整合性がない。この場合、例えば画像ベースの技法など、信頼性のより低い技法の結果は、廃棄するべきであり、または少なくともより小さな重みを与えるべきである。
【0021】
より一般的には、異なる技法に対して、信頼性の階層を定義することができる。技法の結果に整合性がない場合、すなわち、確率マスクの共通部分が空である場合、信頼性の最も低い(または他の技法によって示された高い確率の領域について信頼性のより低い)技法は、廃棄するべきであり、この手順は、残りの技法の組に対しても繰り返し適用される。整合性のある技法の組が決定されると、その組に属する技法によって生成された測定値を組み合わせることによって、際立った対象物の位置の正確な投影を決定することができる。例えば、測定値を組み合わせるための簡単な方法は、確率マスクから導出される重みを用いた加重平均によるものである。
【0022】
入力画像上への際立った対象物のマッピングの最終精度は、アノテーションの詳細さのレベルを決定するために使用することができる。例えば、対象物のグループの位置が低い精度で決定できるにすぎない場合、各個別対象物にアノテーションを付ける代わりに、そのグループを単一のユニットとしてアノテーションを付けることができる。これは、対象物の多重解像度表現(multi−resolution representation)を使用することによって達成することができる。例えば、歴史的建造物は、建物自体とは独立にアノテーションを付けることができる、例えば、彫像および建築要素など、異なるサブパーツを有することができる。それらのサブパーツは、建物全体に対するアノテーションに関連付けられた単一の対象物にグループ化することができる。または、建物のグループは、例えば、町の一部に対応する単一のアノテーションに関連付けることができる。アノテーションを付けるとき、アノテーションの解像度のレベルは、各解像度レベルにおける対象物の位置の精度を確認することによって決定することができる。選択されるレベルは、最大解像度を与えるレベルであるが、アノテーションを付ける対象物の位置の錯乱領域(region of confusion)が重なり合わないようなレベルである。
【0023】
要約すると、方法の各々またはいくつかは、以下の異なる値を提供することができる。
1)特定の位置および/または画像全体に特定の対象物を有する確率。この値は、画像全体について、および/または画像もしくは3Dシーンの各点について計算することができる。各点について計算された確率の場合、特定の位置に対象物を有する確率を示す確率密度関数(または確率マスク)が計算される。この確率密度関数は、画像平面内の2つの次元において、および/またはシーンのもしくはシーン内の対象物の3次元モデルが利用可能である場合は3つの次元において計算することができる。この確率は、例えば百分率として、実数値によって示すことができる。特定の候補を有する確率が非ゼロである点、または少なくとも閾値よりも高い点は、一緒になって、いわゆる錯乱領域を形成する。
2)信頼性、すなわち、画像または画像の点に関連する際立った対象物がフォールス・ポジティブでなく、この対象物が実際に存在する確率。やはり、この信頼性は、画像全体について、画像の異なる部分について、画像内の各点について、および/または与えられた候補対象物について、事前に分かることがあり、または計算することができる。信頼性は、例えば百分率として、実数値によって示すことができる。
3)精度、すなわち、位置の誤差の標準偏差。やはり、この精度は、画像全体について、画像内の領域について、画像内の各点について、または与えられた候補について、計算することができ、または事前に分かることがある。
【0024】
それらの異なる値は、例えばビデオ画像のアノテーションの場合、時間に応じてさらに変化することがある。
【0025】
画像アノテーション・デバイスの位置および方位を決定し、際立った対象物を画像上にマッピングするための異なる技法を適用し、最終結果を生成するために必要とされる計算は、アノテーション・システム全体の異なる構成要素に分散させることができる。そのような分散は、モバイル・デバイスと、システムの他の構成要素、すなわち、サーバおよび他のモバイル・デバイスの計算能力を考慮することによって最適化することができる。最適化は、例えば、アノテーションを付ける画像を獲得するときの遅延を最小化するため、または通信コストを最小化するためとすることができる。簡単なケースでは、非常に限定された処理能力を有するモバイル・デバイスは、獲得した画像をセンサ情報と一緒に、サーバの1つに単純に送信することができ、サーバは、結果の画像を生成し、それをモバイル・デバイスに返送する。より強力なモバイル・デバイスの場合、サーバによる処理に頼ることなく、すべての処理をモバイル・デバイスによって実行するために、デバイスの近くのアノテーションを付ける対象物についてのモデルをダウンロードすることができる。第1の代替形態は、サーバが過負荷となることがあるので、第2のものよりも低速になりがちである。第2の代替形態は、ダウンロードされたモデルの多くが使用されないことがあるので、通信コストの観点から見て、よりコスト高であるが、アノテーションは、非常に迅速に実行することができる。ある意味で2つの代替形態の中間を取って、計算負荷をサーバとモバイル・デバイスの間に分散させることができる。
【0026】
アノテーション位置の精度と、遅延、通信コスト、または消費エネルギーなどのコストの間のトレードオフをさらに決定することが有利である。実際に、複数の技法の組み合わせは、精度の向上をもたらすことができるが、総コストも増加させる。トレードオフは、各技法のコストおよび対応する精度を計算し、その後、技法間への利用可能な予算の最適な割り当てを見出すことによって決定することができる。
【0027】
アノテーション・システムの商業的な実行可能性は、ユーザが利用可能なアノテーションの付いた対象物の数に依存する。アノテーションを付ける対象物をデータベースに提供する場合、以下のような3つの例示的な技法が存在する。第1の技法は、ユーザがアノテーションを付ける画像または3Dモデルをアップロードできるようにする。これは、モバイル・デバイスから直接的に、またはワールド・ワイド・ウェブを介して行うことができる。自己組織化されるならば、この技法は、潜在的に非常に多くのアノテーションの付いた対象物を提供することができるが、サービスの品質を保証することは難しくなることがある。第2の技法では、中央機関が、例えば町などの領域についてのアノテーションの付いた対象物の組を生成し、したがって、整合性およびコンテンツの品質を保証する。第3の例示的な技法は、ワールド・ワイド・ウェブなどの既存の画像およびビデオのデータベースから引き出された画像およびビデオの使用を伴う。これらはしばしば、位置情報、キーワード、およびウェブ・サイトへのリンクに関連付けられていることが分かっている。そのような情報には、モバイル・デバイスのためのアノテーションの付いた対象物を生成するために、自動的にアクセスすることができる。生成は、シーンまたは対象エリアに関する要求が発生したときに、リアルタイムに行うことができ、データ重複を未然に防ぎ、アノテーションの簡易的な更新に役立つ。
【図面の簡単な説明】
【0028】
【図1】例示的なアノテーション・システムの概略図である。
【図2】建造物を指し示しているアノテーション・システムのアノテーティング・モバイル・デバイスの図である。
【図3】際立った対象物のエントリを備えるデータベースを表で表した図である。
【図4A】地形の標高を示す等高線地図である。
【図4B】シーンの対象物の概略図である。
【図5】モバイル・デバイスの画像平面への際立った点のマッピングの概略図である。
【図6A】図6Bの際立った対象物の位置Pについての確率マスクまたは「錯乱領域」を図形で表した図である。
【図6B】際立った位置を備えるシーンのスケッチの図である。
【図7A】方位磁石情報が利用可能でない場合の、候補対象物の例示的な確率マスクの図である。
【図7B】図7Aに示される対象物の可能な位置を示すスケッチの図である。
【図8A】他の類似した対象物を有するシーン内において候補対象物を画像ベースで検出した場合の、3つの極大値を有する確率マスクの図である。
【図8B】図8Aの確率マスクに対応する、類似した外見を有する3つの対象物を備えるシーンの図である。
【図9A】複数の技法を使用する際立った対象物の検出の図である。
【図9B】複数の技法を使用する際立った対象物の検出の図である。
【図9C】複数の技法を使用する際立った対象物の検出の図である。
【図10A】センサベースの方法による単一の候補の確率マスクと画像ベースの方法による3つの候補の確率マスクを比較する図である。
【図10B】上段にアノテーション・データベース内に保存される画像の獲得を、下段に異なる方位で撮影された画像のアノテーションを示す図である。
【図11】表1に対応する際立った対象物の3つのレベルの解像度についてのアノテーションの図である。
【図12】コストの関数としてのアノテーション位置の最終誤差のグラフである。
【発明を実施するための形態】
【0029】
画像/ビデオ・アノテーション・システムにおける画像獲得のために、異なる技法を使用することができる。技法は、ポータブル・アノテーション・デバイスに付属するセンサの使用に基づくことができ、例えば、センサは、デバイスの位置および方位に関する情報を提供する。利用可能なセンサは、異なる精度および信頼性によって特徴付けられる。例えば、GPSシステムは、視界内の衛星の数に依存する精度で、位置を決定することを可能にする。しかし、デバイスが建物内にある場合、GPS決定は、信頼性が低くなり、必要な位置は、モバイルフォン・ネットワーク・インフラストラクチャによる位置の決定など、代替的な、おそらくはより精度の低いタイプのセンサを使用して獲得しなければならない。
【0030】
センサ情報から、アノテーション・システムは、アノテーティング・デバイスによって観察されているシーンを推定し、1組の可視の際立った対象物およびそれらのアノテーションをデータベースから取り出すことができる。シーンの画像上の際立った対象物に対応する位置にアノテーションを重ね合わせる目的で、1組の際立った対象物の位置を画像座標にマッピングするために、センサ情報をさらに使用することができる。
【0031】
他のセンサは、アノテーションを付ける対象物に取り付けることができ、アノテーション・デバイスによって受信される信号を発することができる。例えば、シーンは、無線周波数、赤外線、または可聴/超音波信号を発する、RFID、Bluetooth、もしくはZigBee送信機、または任意の送信機、あるいはビーコンで標識付けされた、またはそれらを装備した(人間も加えた)対象物を備えることができ、信号は、画像アノテーション・デバイスによって受信し、それらの対象物を識別するため、および/または獲得された画像内におけるそれらの位置を決定するために使用することができる。この技法は、例えば、無線モバイル機器を有するユーザおよび車両を識別し、位置を特定するために使用することができる。
【0032】
センサの使用の代替形態として、参照画像またはモデルと画像の特徴物の間の類似度を計算するために、(顔認識アルゴリズムを備えた)画像処理およびコンピュータ・ビジョン技法を使用することができる。アノテーティング・デバイスによって獲得された画像は、データベース内に保存された参照画像と比較され、データベース内では、各画像は、アノテーションを付ける対象物に対応している。実際の視角および照明条件は、データベース内に保存された画像とは異なり得るので、比較アルゴリズムは、これらのパラメータの影響を除去すべきである。代替的に、異なる視角および照明条件に対応する複数の画像を保存することもできる。
【0033】
さらにより精巧な画像アノテーション技法は、3D参照モデルを使用する。この技法は、特に、ポータブル・デバイスがアノテーションを付ける対象物に近い場合、すなわち、視差が著しい場合に有利である。例えば、建造物の場合、対象物の構造は、アノテーションを付ける細部と一緒にデータベース内に保存される。ポータブル・デバイスによって獲得される画像は、3D対象物の可能な見え方(view)と比較され、見え方の1つと一致する場合、その対象物が認識され、対応するアノテーションが画像上に重ね合わされる。
【0034】
センサベースの技法と画像ベースの技法の間の選択に加えて、計算タスクをポータブル・デバイスとサーバ・デバイスの間で分配し、分散させることに関する選択も提供される。ポータブル・デバイスが低い計算能力を有する場合、アノテーションは、もっぱらサーバ側で実行することができる。反対に、ポータブル・デバイスがアノテーション・タスクを実行することが可能な場合、サーバ側での処理を必要としないように、アノテーション情報のデータベースの全部または一部をデバイス上にダウンロードすることができる。第1のケースでは、サーバとのデータ交換における遅延と、サーバ上でのより高い計算負荷の形で、コストが生じる。第2のケースでは、サーバからダウンロードされるより大量の情報に起因して、コストが発生する。
【0035】
図1は、(例えば、アノテーティング・ソフトウェアおよびハードウェア機能を有するモバイルフォンなど、1つまたは複数のアノテーティング・デバイスを備える)4つのモバイル・デバイス1と、4つの基地局2とを備える、アノテーション・システムを示している。基地局の各々は、モバイル・デバイス1と通信するためのアンテナ20を有する。局の2つは、各々が、衛星4と通信するための衛星通信パラボラ・アンテナ21など、別のアンテナ21をさらに備え、衛星4は、通信を中継するために、および例えば全地球測位システム(GPS:Global Positioning System)を使用したモバイル・デバイスの測位のために役立てることができる。いくつかのモバイル・デバイスは、例えば独自のGPS受信機など、独自の衛星測位システムを備えることもできる。基地局は、例えば地上電話接続など、通信リンクによって相互接続される。基地局は、例えばインターネットを介して、サーバ3および関連するデータベース30に接続される。モバイル・デバイス1の少なくとも1つは、デジタル・カメラ、画像アノテーティング・ソフトウェア、および/またはアノテーション・データベースを備えることができる。モバイル・デバイス1は、自らの位置、対象物の位置を決定し、アノテーションの付いた画像を生成するために、基地局2およびサーバ3と、また場合によってはモバイル・デバイスどうしで通信することができる。
【0036】
図2は、ここではスイス、ローザンヌの大聖堂である、少なくとも1つの際立った対象物40を備えるシーン4の眺め10を獲得し、表示しているアノテーティング・モバイル・デバイス1を示しており、表示された眺め10には、ここでは「大聖堂(ローザンヌ)」と読まれるテキスト11でアノテーションが付けられている。画像に追加される他のアノテーションは、リンク、ビットマップ画像、または例えば、矢印、アイコン、絵文字、強調表示要素などのグラフィカル要素を備えることができる。
【0037】
最初に、モバイル・デバイス1によって獲得された眺め10にアノテーションを付けるため、眺めの中において際立った対象物40が識別される。基本的な実施では、際立った対象物は、2次元または3次元座標系内に配置された点によって表され、例えば、その位置において、データベース内のアノテーションが入手可能である。または、際立った対象物は、面パッチ(surface patch)または領域によって表すことができ、ユーザは、アノテーションを獲得するために、領域上でクリックすることが可能である。どちらのケースも、際立った対象物に関連付けられた主な情報は、対応するアノテーションと一緒に1つまたは複数のデータベースから獲得できる対象物の位置である。識別を容易にするため、際立った対象物の複数の表現を使用することができる。
【0038】
図3は、サーバ3および/またはアノテーティング・デバイス1に保存できる、例示的なアノテーション・データベース30の一部を示している。各参照対象物について、データベース・エントリは、緯度、経度、および標高を使用する地理位置、対象物の1つまたは複数の画像、3Dモデル(オプション)、ならびに例えばここで示されるようなテキストなど、所望のアノテーションのうちの1つまたは複数を備える。いくつかの対象物に、共通の画像および/または3Dモデルを関連付けることもできる。また、画像を獲得したカメラの位置および方位、写真が撮影された時刻および日付、ならびにカメラの設定など、ある種のサイド情報も保存される。際立った対象物が、点ではなく面パッチである場合、各画像上への面の投影も保存される。代替的な表現では、際立った対象物を表示する1組の画像を備えることができる。
【0039】
例えば建造物のさらなる表現は、3Dモデルの形を取ることができる。3Dモデルを表現するための1つの方法は、実際の対象物の表面を近似するワイヤフレームを使用することである。加えて、テクスチャも参考として保存することができる。際立った対象物は、3Dモデル上の3つの次元に位置付けられる。2D画像の場合と同様に、位置は、点または3D面パッチもしくは立体によって示すことができる。後者のケースでは、際立った対象物の領域を決定するために、パッチを画像上に投影することができる。
【0040】
いくつかのケースで有利なように、ある位置からどの対象物が見えるかの決定を容易にするために、追加のデータベースまたはデータベース・エントリを使用することができる。そのようなデータベースは、好ましくは、モバイル・デバイスの周囲の面の標高を備える。標高は、図4Aによって例示されるような地形図によって、または図4Bにおけるようなシーンの対象物40の幾何学的近似によって表すことができる。実際の実施では、効率を高めるため、2つのデータベースを異なるように組織することができる。実際には、画像および3Dモデルは、複数の際立った対象物を有することがあるので、3Dアノテーション位置、画像、および3Dモデルのための異なるデータベースを有することが有利であることがあり得る。各データベースのエントリは、アノテーションに対応する1つまたは複数の識別子に関連付けられる。
【0041】
センサベースのアノテーションの場合、モバイル・アノテーティング・デバイスの位置および方位の決定に絡んで、デバイスからどの対象物が見えており、どの対象物が隠れているかを決定するために、地理位置を使用することができる。例えば、これは、GPS、方位磁石、および傾斜計を使用することによって獲得することができる。デバイスから見える際立った対象物は、図5に示されるように、モバイル・デバイス・カメラの視野41の中に入る対象物40をデータベース内で選択することによって獲得される。視野の中にあり、他の物体によって隠されていない対象物については、獲得された画像上への投影を決定することができる。この投影は、対象物のアノテーションが配置されるべき位置に対応する。
【0042】
各センサの精度は、投影の位置の精度に影響する。例えば、図6Bでは、位置Pは、アノテーションを付ける対象物の1つに対応する。位置Pの不確実性は、図6Aに示される確率分布によって表され、黒色は、この位置に対象物を有することについての高い確率に対応し、白色は、低い確率に対応する。確率分布は、正しい位置がその内部に存在する錯乱領域42に対応し、領域内の各点では、候補対象物Pを有する確率は、ゼロよりも大きい。
【0043】
センサの数および/または精度が、対象物の位置を曖昧さなしに決定するのに十分でない場合、それでも、対象物が存在する領域と、対応する確率分布を決定することは可能である。例えば、GPSおよび傾斜計が利用可能であるが、方位磁石は利用可能でない場合、対象物が存在する、水平線と平行な線状の錯乱領域を決定することが可能である。これは、図7Aおよび図7Bに示されている。それに対応して、線状の領域内では、確率値は非ゼロである。対象物の位置が正確には決定されない場合でも、最終的なアノテーション位置をより高い精度および信頼性で獲得するために、この確率マスクを、センサ技法および画像ベースの技法など他の技法によって提供される確率マスクと組み合わせることができる。
【0044】
画像ベースの技法では、獲得された画像は、1組の2D参照画像と、および/または候補対象物の3Dモデルの投影と比較される。例えば、図3に示されるデータベースでは、サンプル画像および3Dモデルは、際立った対象物の少なくともいくつかと関連付けられている。画像、または候補対象物の投影が、入力画像内のある位置に見出された場合、その位置は、考察中の際立った対象物のアノテーションのための可能な候補として記録される。画像内の際立った対象物の位置を見出すために使用されるアルゴリズムは、位置のある精度によって特徴付けられ、その精度は、例えば、鮮明さ、照明条件、対象物自体、ならびにサンプル画像の数および品質に依存する。候補対象物の検索は、シーン内に存在する尤度が最も高い対象物に限定することができ、例えば、1つまたは複数のセンサからの情報に基づいた視野のおおよその推定に依存する。
【0045】
コンピュータ・ビジョン・アルゴリズムは、同じ際立った対象物に対して、いくつかの候補位置を決定することができる。例えば、図8Bでは、1つの候補対象物に対して、(A、B、Cとして示される)3つの可能な位置が決定される。センサベースの技法の場合と同様に、各候補の位置の精度は、確率分布によって表される。例えば、図8Aでは、1つの候補の確率分布が示されている。この確率分布は、候補の参照画像と類似した、画像の3つの特徴物A、B、Cに対応する3つの局所的な極大値を備える。
【0046】
シーン内に該当する対象物が存在するのに、コンピュータ・ビジョン・アルゴリズムが、マッチする候補対象物および候補対象物の尤度の高い位置を見出さないという、他の状況が生じることもある。画像ベースの技法の信頼性は、特に、画像獲得条件に難がある場合、または同じシーン内に外見が類似したいくつかの対象物が存在する場合、他の技法よりも低くなる傾向がある。
【0047】
上で説明されたように、際立った対象物の候補位置は、アノテーション・システムにおいて利用可能なすべての情報を使用することによって決定することができる。例えば、アノテーティング・モバイル・デバイス1の位置、ならびに最終的には際立った対象物Pの正体および位置を推定するために、基地局2によって受信された信号の測定値を使用することができる。考察中のモバイル・デバイスの近くにいるモバイル・デバイス1によって、追加的な測定値を獲得することもできる。システムの構成および適用されるアルゴリズムに応じて、各候補位置は、異なる確率分布によって特徴付けられる。
【0048】
さらに、方法には、アルゴリズムがどれほどの尤度(精度)で有意な結果を与えるかを示す固有の信頼性が関連付けられる。信頼性は、センサベースの技法については、すなわち、アノテーションを付ける対象物が自らの正体および位置を示すことができる場合は、非常に高く、モバイル・デバイスのGPSベースおよびネットワークベースの地理位置特定(geolocalisation)などの技法については中程度であり、画像ベースの技法についてはより低い。
【0049】
センサベース(図9A)、地理位置特定ベース(図9B)、および画像ベース(図9C)の技法という異なる技法によって与えられた結果の例が、図9に示されている。各技法について、不確実性領域(すなわち、候補対象物を有する確率が閾値よりも高い画像部分)の典型的な形状が示されている。
【0050】
第1の方法(図9A)は、モバイル・デバイスおよび/またはアノテーションを付ける対象物40に組み込まれたセンサを使用し、結果は非常に信頼性が高いが、対象物の垂直座標だけが計算され、不確実性領域は縞状である。第2の技法(図9B)は、モバイル・ネットワークの基地局2において送信および/または受信される信号の測定に基づいている。このケースでは、モバイル・アノテーティング・デバイス1および対象物の位置は、完全に計算されるが、精度は低く、すなわち、錯乱領域は大きい。いくつかの稀なケースでは、マルチパスが、モバイル・デバイスの位置特定を不正確にすることがあるので、信頼性は中程度である。第3の技法(図9C)は、画像ベースであり、同じ対象物に対していくつかの候補を生成する。各候補の位置は、高い精度で計算されるが、方法が画像獲得条件に依存するので、信頼性は低い。
【0051】
どの方法についても、信頼性は、条件に依存し得、各画像に対して、または画像の各点に対してさえも決定することができる。例えば、先に言及されたように、コンピュータ・ビジョン・ベースの技法の信頼性は、照明条件、焦点、および視野内の候補の数に強く依存する。GPSベースの技法の信頼性は、とりわけ、信号がそこから受信される衛星の数に依存する。したがって、アノテーションを付ける各画像および各技法について、新しい信頼性インデックスを計算し、この技法が有益な結果を提供するかどうかを決定するために、閾値と比較することができる。
【0052】
ピクチャ上の際立った対象物を識別し、位置を特定するための異なる方法の候補は、最も信頼性の高い方法と整合性のない候補を除外するために、分析することができる。画像内に候補対象物を配置するための第1の可能な手順は、以下の通りである。
1.信頼性の高い順に各方法Mを検討する。
2.対象物についてのMによって与えられた可能な各位置を検討し、他の方法によって与えられた位置と矛盾しないかどうかをチェックする。矛盾する場合、その位置を除外する。
3.Mについて、可能な位置が残っているか? 残っていない場合、方法Mを除外する。
4.分析されていない方法が存在する場合、ステップ1に戻る。
【0053】
例えば、図10Aでは、画像ベースのアルゴリズムの円形の不確実性領域42が、センサベースの方法によって提供された縞状の不確実性領域42’と比較されている。画像ベースの技法の候補Aだけが、確率マスクがともに非ゼロである領域が存在するので、センサベースの技法の不確実性領域と矛盾しない。このケースでは、画像ベースの技法の候補BおよびCは、廃棄される。アルゴリズムは、2つの不確実性領域が重なり合う部分内の、組み合わされた確率または重みを付けて組み合わされた確率が最高となる点に、際立った対象物を位置付ける。
【0054】
画像内に候補対象物を配置するための別の可能な手順は、以下の通りである。
1.各方法Mを検討する。
2.現在の画像の信頼性インデックスが事前定義された閾値を下回るすべての方法を除外する。
3.視野内で識別される各際立った対象物について、画像内における最尤位置を決定する。この最尤位置は、好ましくは、異なる残りの技法によって提供される確率分布関数に基づいている。これは、各点について各技法によって提供される確率を平均する、または重みを付けて平均するステップを備えることができ、各確率に関連付けられる重みは、各技法の信頼性に依存する。
【0055】
特に、各点における各方法またはいくつかの方法の信頼性を示す信頼性分布関数が利用可能である場合、第3の方法を使用することができる。
1.画像の各点を連続的に検討する。
2.その点における信頼性が事前定義された閾値を下回る各方法を除外する。
3.残った方法によって与えられる、その点に際立った対象物の1つの候補を有する確率の平均を計算する。
4.画像内にさらなる点が存在するか。存在する場合は、ステップ1に戻る。
5.最も高い平均確率が、与えられた閾値よりも高い場合は、この平均確率が最も高い点に依存する、アノテーションのための位置を選択し、それ以外の場合は、アノテーションを廃棄する。
【0056】
したがって、すべての方法において、候補対象物は、確率が最も高い点に、すなわち、その候補の最尤位置を示す点に位置付けられる。確率が最も高いこの点は、例えば、確率分布関数を平均することによるなど、異なるセンサに関連付けられた確率マスクに基づいている。信頼性が十分に高くない方法、または特定の点において信頼性が高くない方法は、廃棄される。方法は、シーン内に見出すことができるすべての候補対象物について繰り返される。
【0057】
より一般的には、1組の矛盾しない候補が決定されると、異なる方法によって与えられた位置を組み合わせることによって、アノテーションの最終位置が計算される。
【0058】
一実施形態では、最尤位置の計算は、各方法の精度を考慮する。例えば、以下のような加重平均を使用することができ、
【0059】
【数1】
ここで、(xi,yi)は、候補位置iの位置であり、(x,y)は、アノテーションの最終位置である。パラメータσxi、σyiは、候補iの位置の誤差の標準偏差であり、錯乱領域のサイズに関連し、それらの偏差は、各方法に、またしばしば各測定に依存する。最終位置の精度は、矛盾しない候補の確率分布から計算することができる。例えば、これは、最終位置の標準偏差の推定を計算することによって達成することができる。
【0060】
最終アノテーション位置の精度およびロバスト性を高めるための別の方法は、複数の技法を単独ではなく合同で適用することである。この方法では、例えば、センサ測定と画像ベースの技法を組み合わせることが可能である。実際に、言及されたように、画像ベースの技法は、観察者の位置に敏感なことがある。例えば、入力画像のある領域と参照画像の間のマッチを決定するために、2Dモデルが使用される場合、モバイル・デバイスの3D回転が、不正確なマッチまたはマッチの見落としをもたらすことがある。これは図10Bに示されている。上段の画像は、アノテーション・データベース30内に保存される参照画像の獲得を表す。アノテーションを付ける対象物40は、データベース内に保存される参照画像45を生成するカメラ1の画像平面に平行な平らな面上にあり、参照画像45は、この特定の視角から眺めたアノテーションを付ける対象物の2D縮小表現である。一方、下段の画像に示されるように、アノテーションを付ける画像を生成するために、モバイル・デバイス1が使用される場合、カメラ平面は、参照画像の生成中に使用された平面およびアノテーションを付ける画像に必ずしも平行でなく、別の対象物47に平行であることがある。方位が異なる場合、データベース内の画像と獲得された画像の間のマッチングにおいて、透視投影(perspective projection)が考慮されず、例えば、2D平行移動が使用されると、正しい対象物40が見落とされることがあり、または別の対象物47との誤ったマッチが生成されることがある。
【0061】
このリスクを取り除くために、獲得された画像とアノテーション・データベース内の画像の間の正しいマッチを検出する確率を高めるための補償を使用することができる。この補償は、異なる視角、異なる照明条件(明度/色温度/影など)、およびより一般的に画像獲得の異なる条件を補償するために、例えば、アノテーション・デバイス1によって獲得された画像の前処理を備えることができる。この補償は、位置センサを始めとする他のセンサによって提供されるデータ、時刻および日付情報などに、また参照画像または3Dモデルに関連付けられた対応する情報に基づくことができる。例えば、日付および1日の時刻についての知識は、照明および光色の補償に使用することができ、GPSおよび方位磁石からの位置および方位についての知識は、視角の変化によって生じる幾何学的変形および視差を補償するために使用することができる。一般に、この補償の目的は、マッチング・プロセスをより容易、より高速、およびよりロバストにするために、獲得された画像から、別の画像またはデータを、例えば、参照画像またはモデルの画像獲得条件に一致する画像を計算することである。したがって、補償は、獲得された画像とアノテーション・データベース内の画像の間の正しいマッチを検出する確率を高める。
【0062】
位置および方位は、ある誤差を伴って決定され、補償された画像を計算する方法に不確実性をもたらす。補償された画像の計算のため、尤度の高い位置および方位からなる空間をサンプリングすることができる。各サンプルに対して、補償された画像が計算され、画像ベースの技法が適用される。最終候補の数を減らすため、以下のようないくつかの技法が実行可能である。
カメラの最尤位置および方位に対応する補償された画像の候補を残す。
データベース画像との最良マッチを与える候補、例えば、最小平均2乗誤差を与える候補を残す。
すべての候補を残し、上で説明された他の技法、例えば、他のセンサベースの技法または3D画像ベースの技法による結果と比較する。
【0063】
際立った対象物の位置の精度は、結果の画像上にどのアノテーションを表示すべきかを決定するために使用することができる。実際に、位置の精度があまり高くない場合、アノテーションの詳細さのレベルを引き下げたほうがより適切である。それを行う方法は、異なる解像度に対応する1組の階層レベルに、際立った対象物を組織化することである。
【0064】
表1には、3つのレベルの例が示されている。際立った対象物は、ツリー状に組織化され、各ノードは、子孫ノードの全般的な説明に対応する。適切なレベルの選択は、ツリーの各対象物について錯乱領域を計算し、領域が重なり合わない最高レベルを見出すことによって決定される。各レベルについて、図11は、確率分布および結果のアノテーションを示している。レベル2は、獲得された精度に関して、高すぎる詳細さのレベルを与えることが明らかであり、異なる対象物の不確実性領域が重なり合い、したがって、アノテーションはピクチャ内の誤った対象物に関連付けられることがある。レベル0は、多くの際立った対象物にアノテーションが付けられないので、粗すぎる。レベル1が、最適な妥協を表す。詳細さのレベルの決定は、ユーザが影響を与えることもできる。例えば、ユーザは、際立った対象物の階層内の検討すべきレベルの範囲を決定することができる。代替形態は、アノテーション位置の局所的な精度に従って、画像の異なる部分に対して、異なるレベルの詳細さを可能にすることである。さらに、詳細さのレベルは、アノテーションのオーバラップを回避するために、アノテーションのサイズ、アノテーション間の距離、および/または回復(restitution)中のズーム係数にも依存することがある。
【0065】
【表1】
【0066】
モバイル・アノテーティング・デバイス1と、サーバ3と、データベース30によって構成されるアノテーション・システムは、計算、アノテーション・データ、標高データ、通信、およびセンシング能力をシステムの異なる構成要素に分散させることができる、統一されたエンティティと考えることができる。各リソースへのアクセスおよび使用には、コストがかかり、コストは、通信コスト、リソースを獲得するときの遅延、および消費エネルギーのうちの全部または一部などとすることができる。例えば、コストcは、
c=K_c×C+K_d×t_d
として計算することができ、ここで、Cは、通信コストであり、t_dは、遅延であり、K_c、K_dは、各項の重みをコントロールする定数である。
【0067】
コストは、所望の戦略に従って、各ポータブル・デバイスごとに異なる方法で割り当てることができる。例えば、表2は、異なるモバイル・デバイス、異なる基地局、および異なるサーバに関連付けられたコストを示している。
【0068】
【表2】
【0069】
表において、無限大の記号は、当該デバイスでは利用可能でないリソースに対して使用される。この例では、コストは、通信コスト、遅延、および電力消費を考慮している。当該リソースが利用可能でない場合、コストは無限大に設定される。例えば、「モバイル1」は、GPSを有しておらず、したがって、位置の決定に関連するコストは、このリソースについては無限大に設定される。しかし、このデバイスの位置は、遅延および通信に関する代償を支払うことによって、「モバイル2」などの近くの別のデバイスから獲得することができる。
【0070】
対象物にアノテーションを付けるのに必要とされる情報も、システムの構成要素に分散される。例えば、表2では、2つの際立った要素が考察されている。要素1にアノテーションを付けるためのデータは、「モバイル1」で利用可能であり、したがって、低い代償を支払うことによって、そのデータにアクセスすることができる。第2の要素にアノテーションを付けるためのデータは、このモバイルでは利用可能ではなく、コストは無限大である。このアノテーティング・データが必要とされる場合、通信コストおよび遅延を支払うことによって、「モバイル2」または「サーバ1」から引き出すことができる。
【0071】
画像にアノテーションを付けるため、モバイル・デバイスは、多くのパラメータを必要とする。例えば、センサベースのアノテーションの場合、モバイル・デバイスは、位置および方位を必要とする。この情報を獲得するためのいくつかの方法が存在することがある。情報は、センサを用いてデバイス上で直接的に入手可能とすることができ、近くのデバイスから受け取ることができ、または通信ネットワークから受け取ることができる。いずれの選択肢にも、上で説明されたコストおよびある種の性能パラメータが関連する。このパラメータは、例えば、関連する信頼性の表示、および/または標準偏差など、誤差振幅の尺度とすることができる。「モバイル1」の位置および方位の計算に関連する例示的な性能パラメータが、表3に示されている。性能は、例えば、誤差標準偏差を使用することによって、測定することができる。無限大に設定される値は、デバイスが所望の数量を生成できないことを示す。
【0072】
【表3】
【0073】
いくつかのケースでは、性能は、異なるソースを組み合わせることによって改善することができる。例えば、上で説明されたような、センサベースの技法と画像ベースの技法の組み合わせは、標準偏差および他のパラメータを改善することができる。これは、より高い総コストを支払うことによって行うことができる。
【0074】
与えられた総コストに対して、性能を最大化するリソースの最適な割り当てを決定することが可能である。その結果であるアノテーション位置の最終誤差は、総コストの関数である。総コストの関数としての最終誤差を示す例が、図12に示されている。割り当てられるリソースおよびその結果の誤差についての最終的な決定は、各アノテーティング・モバイル・デバイスによって、またはアノテーション・システム全体のレベルにおいて、動的に行うことができる。決定は、各アノテーティング・デバイスごとに、またアノテーションを付ける各画像ごとに異なることがある。
【0075】
したがって、異なるモバイル・デバイスとサーバの間での計算の分散は、アノテーションの精度、通信コスト、遅延、および/または電力消費の間のトレードオフを改善するために、各ピクチャまたは各画像アノテーティング・セッションについて動的かつ自動的に調整することができる。
【0076】
一実施形態では、システムの1つのデバイスまたはサーバの1つから残りのデバイスへの、あるリソースの配布に関連するコストが計算される。与えられたコストにおいて代替形態を分析し、最小誤差を有する代替形態を選択することによって、システムの各ノードについて、図12に示された関数と類似の関数を決定することができる。この手順は、デバイスの移動またはシステムの変更を考慮して、定期的に繰り返すことができる。アルゴリズムの簡易バージョンを適用することによって、例えば、類似したコストおよび性能を有するリソースまたはデバイスをグループ化することによって、複雑さを低減させることができる。
【0077】
上で説明されたように、アノテーション・システムは、図3および図4に表されたデータベースのような、際立った対象物のデータベースおよび標高データベース内に保存された情報に基づいている。これらのデータベースは、サービス・プロバイダによって、またはアノテーション・システムのユーザによって作成することができる。ユーザが、対応するアノテーションとともに、新しい際立った対象物を追加できるようにすることも可能である。さらに、ユーザは、将来の画像ベースのアノテーションの精度およびロバスト性を改善するために、新しい画像および3Dモデルをある際立った対象物に関連付け、それらの画像およびモデルを中央サーバ内に保存することができる。この操作は、アノテーションを付ける画像を生成するために使用されるのと同じポータブル・デバイス、またはこの目的のために特別に設計されたデバイスを使用して実施することができる。ユーザが、際立った対象物の方向にデバイスを向けると、システムが、画像またはビデオ・シーケンスを獲得する。デバイスの位置および方位は、上で言及された技法を使用することによって計算され、これは、デバイスによって指された領域を識別する。同じ領域の異なる眺めを、同じユーザまたは異なるユーザによって、経時的に収集することができる。これらの眺めは、シーンの3D構造を再構成するために、システムによって使用することができる。それを行う1つの方法は、異なる眺めの対応する点において、三角法を使用することである。再構成された3D構造は、標高データベースを作成または更新するために使用される。さらに、既存の際立った対象物が眺めの中に存在する場合、画像および3Dモデルを追加することによって、際立った対象物のデータベース内の対応するエントリを更新することができる。ユーザが、新しい際立った対象物を選択し、対応するアノテーションを入力した場合、新しいエントリが、データベース内に作成される。これは、新しい眺めが収集された場合、後で更新される。これは、アノテーションのために定期的に獲得される画像を使用することによっても実現できることに留意されたい。
【0078】
可能な代替形態は、計算の回数またはデータベースのサイズを低減させるために、提示される方法の簡易化を備える。特に関心を引くバージョンは、ポータブル・デバイスからの距離に基づいて画像にアノテーションを付けることである。各ユーザは、周辺の対象物のアノテーションの付いた画像を受け取り、既存のアノテーションを変更する可能性、または新しいアノテーションの付いた画像を更新する可能性を有する。図3に表されたデータベースに関しては、アノテーションを付ける画像の集まりと、対応する視点位置だけを保存する必要がある。標高データベースは必要とされない。
【0079】
内容、位置、およびロバスト性の観点から見たアノテーションの品質を高めるため、地形データ、ジオタグ付き(geotagged)の高品質ビデオおよび画像、ならびに3Dカメラなど、追加的な情報ソースを使用することができる。このデータは、アノテーション・システムにアップロードすること、またはリンクすることができ、また既存のデータベースに統合すること、または既存のデータベースで利用可能とすることができる。
【0080】
アノテーション・データベースの内容を生成するための高度な方法は、ウェブ上で利用可能な情報を使用することである。それを行うための第1の方法は、地理位置に関連する画像のデータベースを使用することである。そのようなデータベースの例には、「panoramio」、「street view」、および「flickr」などがある。これらのデータベースは、際立った対象物のデータベースのエントリを生成するために分析することができる。エントリは、画像に関連付けられたインデックスをアノテーション・テキストとして、また画像を画像ベースのアノテーションのためのモデルとして使用することによって、作成/更新することができる。
【0081】
別の可能性は、アノテーション情報および地理位置に関連する画像を見出すために、ウェブをスキャンするプログラムを使用することである。これらのプログラムは、例えば、主要都市のウェブ・サイトを分析して、歴史的建造物、公的機関、美術館、および店舗などのアノテーション・データを生成することができる。
【0082】
本発明の方法およびシステムは、例えば、人々のパーソナル・デバイスによって発せられたBluetoothおよび他の信号の検出と組み合わされた顔認識アルゴリズムを使用して、人物にアノテーションを付けるために使用することもできる。このケースでは、アノテーティング・データおよび参照画像は、例えば、ソーシャル・ネットワーク・プラットフォームから引き出すことができる。
【技術分野】
【0001】
本発明は、ポータブル表示デバイス上で、より詳細には、ワイヤレス通信ネットワーク内のそのようなデバイス上で、画像およびビデオにアノテーションを付ける(annotate)ための方法に関する。
【背景技術】
【0002】
スマートフォン、パームトップ・コンピュータ、ポータブル・メディアプレーヤ、および携帯情報端末(PDA)デバイスなど、ハンドヘルド・ポータブル・デバイスの開発が急速に進展したことによって、画像処理に関わる新規な機能およびアプリケーションを備えることが提案されるようになった。そのようなアプリケーションの1つ、すなわち、画像アノテーション(image annotation)およびキャプショニング(captioning)では、ユーザが、例えば、山岳風景、建造物、または美術館の絵画など、シーン(風景)にポータブル・デバイスを向けると、ディスプレイは、そのシーンに関する情報が一緒に重ね合わされた画像を表示する。そのような情報は、例えば山岳および居住物の名称、建造物の歴史的情報、ならびに例えばレストランのメニューを広告するなどの商業的情報を備えることができる。
【0003】
アノテーション情報は、ワイヤレス通信ネットワーク内のサーバによって、ポータブル・デバイスに供給することができる。サーバおよびポータブル・デバイスを有する通信ネットワークの対応する機能的構成は、本明細書では、アノテーション・システム(annotation system)と呼ばれる。
【0004】
アノテーション・システムでは、アノテーション位置の精度およびロバスト性が、特有の問題となる。精度は、センサベースの技法と画像ベースの技法など、異なる技法の同時使用によって、ロバスト性は、アノテーション位置を決定するための技法の選択によって向上させることができる。画像がモバイル・デバイスによって獲得されると、画像内におけるアノテーションの配置を決定するために、異なる技法を使用することができる。画像にアノテーションを付けるための異なる技法を使用する方法およびシステムの例が、とりわけ、特許文献1および特許文献2で説明されている。
【0005】
特許文献3は、ビデオ画像内に含まれる対象物を認識し、この対象物にアノテーションを付けるための、ビデオ対象物認識デバイスについて説明している。候補検索手段は、対象物認識デバイスの位置情報と、データベース内に保存された地理的候補対象物の位置情報とを読み取る。その後、このデバイスは、画像に表示されている可能性のある地理的対象物を検索し、それらの候補対象物と画像との視覚的比較を実行する。存在確率計算手段は、候補対象物の画像がキャプチャされている確率を計算し、類似度計算手段は、候補対象物とビデオ画像内の視覚的な特徴物(feature)との間の類似度を計算する。その後、存在確率および類似度は、対象物の画像がキャプチャされているか否かを決定するために使用される。この方法は、特定の対象物にアノテーションを付けるべきかどうかを決定するのに役立つが、際立った点の最尤位置(最適位置)、つまりアノテーションを追加すべき画像内の位置を指示しない。
【0006】
特許文献4は、モバイル電話およびリモート認識サーバを備える、モバイル画像ベース情報検索システムについて説明している。このシステムでは、モバイルフォンのカメラで撮影された画像が、リモート・サーバに転送され、認識プロセスが実行される。これは、画像を転送するために高い帯域幅を必要とし、サーバにおいてアノテーションを計算し、それらをモバイルフォンに返送するために遅延をもたらす。やはり、このシステムも、画像内で対象物が見えているか否かを決定するために、事前定義された閾値と比較される、類似度スコアを提供するが、画像内におけるこの対象物の最尤位置を指示しない。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】米国特許第6208353号
【特許文献2】欧州特許第1246080号
【特許文献3】欧州特許第1622081号
【特許文献4】国際公開第05114476号
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、デバイスのおよび画像に表示された対象物の位置および方位を決定するための、モバイル・アノテーティング・デバイスで利用可能な異なるセンサおよび方法をより有効に使用することである。
【0009】
別の目的は、特に、画像内における最適位置に関して異なる位置が考えられる場合または曖昧性が存在する場合に、画像内におけるアノテーションの配置を向上させることである。
【課題を解決するための手段】
【0010】
好ましい方法は、指定された対象物が画像の各点に表されている確率を表す、本明細書で確率マスク(probability mask)と呼ばれる、2Dまたは3D確率分布を決定する。この確率は、画像内における際立った対象物(salient object)の位置を決定するために使用される方法に依存する。例えば、コンピュータ・ビジョンを使用して、参照候補対象物と画像の特徴物の間の類似度を計算する画像ベースの方法は、通常の照明条件の下では、対象物の位置を高い精度で決定することができる。しかし、照度が低すぎる場合、または外見が類似した多くの対象物が同じシーン内に存在する場合、この方法は、いくつかの候補を、すなわち、候補対象物であることを表す確率が非ゼロのいくつかの領域を生成することがあり得る。他の状況では、コンピュータ・ビジョン方法は、画像内に存在する候補対象物を認識することができず、ゼロまたは著しく一様の確率分布を提供する。
【0011】
確率マスクは、測位センサによって提供される情報に基づいて生成することもできる。例えば、アノテーティング・デバイスにおいて、3軸上の方位磁石および傾斜計と一緒に、GPSなどの測位システムが利用可能である場合、デバイスの位置および方位は、高い精度で計算することができ、確率マスクの高い確率値は、ある画像点の周囲に分布する。非ゼロ領域のサイズは、位置および方位角(orientation angle)の精度から決定される。異なるポータブル・デバイスは、センサの異なる組を備え、異なる形状およびサイズを有する確率マスクをもたらすことができる。例えば、アノテーティング・デバイスが、GPSおよび傾斜計を有するが、方位磁石を有さない場合、デバイスのヨー角およびロール角だけを決定することができ、方向は決定できない。このケースは、縞の形状または3Dでは円盤の形状を有する確率マスクの非ゼロ領域に対応する。
【0012】
アノテーティング・デバイスに取り付けること、または備えることができる他のセンサは、多軸加速度計(multi−axis accelerometer)および/またはジャイロスコープなどであり、それらから、デバイスの過去軌道に加えて、垂直方向も決定することができる。
【0013】
他のセンサは、アノテーションを付ける対象物にも取り付けることができ、画像獲得デバイスによって受信される信号を発することができる。それらのセンサは、例えば、RFIDタグ、ビーコン、またはBluetooth、WIFI、もしくはZigBee送信機などの無線発信器などとすることができる。アノテーション・デバイスは、方向と、場合によっては、例えば飛行時間および/または振幅測定に基づいて、このセンサまでの距離とを決定することができ、無線信号内に備えられた対象物を識別するための情報を使用することができる。この場合、確率マスクの非ゼロ領域は、それぞれ直径が相対的に大きい円、球となることができる。
【0014】
画像ベースの方法および/またはセンサを使用することに加えて、モバイル・デバイスの位置および方位は、通信ネットワークの局または構成要素から入手可能な情報を使用することによって決定することができる。例えば、アノテーティング・デバイスの位置は、異なる位置にあるネットワーク基地局によって送信または受信される信号の飛行時間および/または振幅を使用して、三角法によって計算することができる。
【0015】
別の可能性は、複数のモバイル・デバイスの位置および方位を同時に決定することである。デバイスのいくつかは、ネットワーク内の他のアノテーティング・デバイスの利益にもなり得る高精度の決定に役立つ、1つまたは別のタイプのセンサを有することができる。例えば、あるデバイスは、GPSを有することができ、GPSを備えていない第2のデバイスの近くに存在する。2つのデバイスが、例えば、近距離ワイヤレス・インタフェースを介して通信できる場合、それらの間の距離を決定するために、測距技法を使用することができ、第2のデバイスの位置の推定値を第1のデバイスに提供することができる。
【0016】
位置および方位を決定するために使用される技法に関わらず、結果的には、確率マスクによって表される精度で、際立った対象物が画像平面上にマッピングされることとなる。
【0017】
各技法の精度とは関係なく、いくつかの技法は、他の技法よりも信頼性が高い。例えば、センサベースの技法は、フォールス・ポジティブまたはフォールス・ネガティブを引き起こし得る画像ベースの技法よりも通常は信頼性が高い。特定の技法の信頼性は、事前に分かることがあり、アルゴリズムによって引き出された事前定義された値として保存することができる。または、特定の技法の信頼性は、画像および/または条件に依存することがあり、異なる技法によって使用される対応するセンサまたはアルゴリズムによって提供することができる。例えば、画像ベースの方法の信頼性は、コンピュータ・ビジョン・アルゴリズムの出力として提供することができ、画像獲得条件に依存することがある。別の例では、衛星ベースの位置センサの信頼性は、GPSチップセットおよびアルゴリズムによって出力することができ、とりわけ、受信されるGPS信号の数および衛星の位置に依存することがある。
【0018】
さらに、画像の異なる部分および異なる候補対象物に関連する信頼性は、異なることがあり、例えば、ある画像は、コンピュータ・ビジョン・アルゴリズムが信頼性の高い結果を提供できる、照明が良好な部分と、方法の信頼性がより疑わしい、露出不足もしくは露出過度の、または焦点がよく合っていない他の部分とを備えることがある。さらに、いくつかの対象物は、他の特色の乏しい対象物よりも高い信頼性で認識することが、より容易である。別の例では、アノテーションを付ける対象物とアノテーティング・デバイスの間の無線経路に基づいた方法の信頼性は、とりわけ、距離、障害物、および反射に依存することがある。したがって、画像の各点における測定の信頼性を示す信頼性分布関数(reliability distribution function)を計算することができる。
【0019】
加えて、位置付けの精度は、異なる測定に依存し、場合によっては、各候補対象物におよび画像の各点に依存する。例えば、鮮明なエッジを有する候補対象物は、高い精度で参照画像上に位置付けることが、不鮮明なエッジを有する別の対象物よりも容易なことがある。同様に、GPS測位システムの精度は、一定とは言い難い。したがって、精度(または平均位置誤差)は、各画像、各候補対象物、および/または画像の各点に関連することがある。
【0020】
ロバスト性および精度は、確率マスクと、場合によっては、信頼性マスク(reliability mask)を考慮して、異なる技法によって生成された推定値を組み合わせることによって最大化することができる。ロバスト性を向上させる1つの方法は、異なる技法の確率マスクの間の共通部分(intersection)を計算することである。共通部分が空である場合、または2つの技法によって提供される高い確率の領域が重なり合わない場合、2つの技法は、整合性がない。この場合、例えば画像ベースの技法など、信頼性のより低い技法の結果は、廃棄するべきであり、または少なくともより小さな重みを与えるべきである。
【0021】
より一般的には、異なる技法に対して、信頼性の階層を定義することができる。技法の結果に整合性がない場合、すなわち、確率マスクの共通部分が空である場合、信頼性の最も低い(または他の技法によって示された高い確率の領域について信頼性のより低い)技法は、廃棄するべきであり、この手順は、残りの技法の組に対しても繰り返し適用される。整合性のある技法の組が決定されると、その組に属する技法によって生成された測定値を組み合わせることによって、際立った対象物の位置の正確な投影を決定することができる。例えば、測定値を組み合わせるための簡単な方法は、確率マスクから導出される重みを用いた加重平均によるものである。
【0022】
入力画像上への際立った対象物のマッピングの最終精度は、アノテーションの詳細さのレベルを決定するために使用することができる。例えば、対象物のグループの位置が低い精度で決定できるにすぎない場合、各個別対象物にアノテーションを付ける代わりに、そのグループを単一のユニットとしてアノテーションを付けることができる。これは、対象物の多重解像度表現(multi−resolution representation)を使用することによって達成することができる。例えば、歴史的建造物は、建物自体とは独立にアノテーションを付けることができる、例えば、彫像および建築要素など、異なるサブパーツを有することができる。それらのサブパーツは、建物全体に対するアノテーションに関連付けられた単一の対象物にグループ化することができる。または、建物のグループは、例えば、町の一部に対応する単一のアノテーションに関連付けることができる。アノテーションを付けるとき、アノテーションの解像度のレベルは、各解像度レベルにおける対象物の位置の精度を確認することによって決定することができる。選択されるレベルは、最大解像度を与えるレベルであるが、アノテーションを付ける対象物の位置の錯乱領域(region of confusion)が重なり合わないようなレベルである。
【0023】
要約すると、方法の各々またはいくつかは、以下の異なる値を提供することができる。
1)特定の位置および/または画像全体に特定の対象物を有する確率。この値は、画像全体について、および/または画像もしくは3Dシーンの各点について計算することができる。各点について計算された確率の場合、特定の位置に対象物を有する確率を示す確率密度関数(または確率マスク)が計算される。この確率密度関数は、画像平面内の2つの次元において、および/またはシーンのもしくはシーン内の対象物の3次元モデルが利用可能である場合は3つの次元において計算することができる。この確率は、例えば百分率として、実数値によって示すことができる。特定の候補を有する確率が非ゼロである点、または少なくとも閾値よりも高い点は、一緒になって、いわゆる錯乱領域を形成する。
2)信頼性、すなわち、画像または画像の点に関連する際立った対象物がフォールス・ポジティブでなく、この対象物が実際に存在する確率。やはり、この信頼性は、画像全体について、画像の異なる部分について、画像内の各点について、および/または与えられた候補対象物について、事前に分かることがあり、または計算することができる。信頼性は、例えば百分率として、実数値によって示すことができる。
3)精度、すなわち、位置の誤差の標準偏差。やはり、この精度は、画像全体について、画像内の領域について、画像内の各点について、または与えられた候補について、計算することができ、または事前に分かることがある。
【0024】
それらの異なる値は、例えばビデオ画像のアノテーションの場合、時間に応じてさらに変化することがある。
【0025】
画像アノテーション・デバイスの位置および方位を決定し、際立った対象物を画像上にマッピングするための異なる技法を適用し、最終結果を生成するために必要とされる計算は、アノテーション・システム全体の異なる構成要素に分散させることができる。そのような分散は、モバイル・デバイスと、システムの他の構成要素、すなわち、サーバおよび他のモバイル・デバイスの計算能力を考慮することによって最適化することができる。最適化は、例えば、アノテーションを付ける画像を獲得するときの遅延を最小化するため、または通信コストを最小化するためとすることができる。簡単なケースでは、非常に限定された処理能力を有するモバイル・デバイスは、獲得した画像をセンサ情報と一緒に、サーバの1つに単純に送信することができ、サーバは、結果の画像を生成し、それをモバイル・デバイスに返送する。より強力なモバイル・デバイスの場合、サーバによる処理に頼ることなく、すべての処理をモバイル・デバイスによって実行するために、デバイスの近くのアノテーションを付ける対象物についてのモデルをダウンロードすることができる。第1の代替形態は、サーバが過負荷となることがあるので、第2のものよりも低速になりがちである。第2の代替形態は、ダウンロードされたモデルの多くが使用されないことがあるので、通信コストの観点から見て、よりコスト高であるが、アノテーションは、非常に迅速に実行することができる。ある意味で2つの代替形態の中間を取って、計算負荷をサーバとモバイル・デバイスの間に分散させることができる。
【0026】
アノテーション位置の精度と、遅延、通信コスト、または消費エネルギーなどのコストの間のトレードオフをさらに決定することが有利である。実際に、複数の技法の組み合わせは、精度の向上をもたらすことができるが、総コストも増加させる。トレードオフは、各技法のコストおよび対応する精度を計算し、その後、技法間への利用可能な予算の最適な割り当てを見出すことによって決定することができる。
【0027】
アノテーション・システムの商業的な実行可能性は、ユーザが利用可能なアノテーションの付いた対象物の数に依存する。アノテーションを付ける対象物をデータベースに提供する場合、以下のような3つの例示的な技法が存在する。第1の技法は、ユーザがアノテーションを付ける画像または3Dモデルをアップロードできるようにする。これは、モバイル・デバイスから直接的に、またはワールド・ワイド・ウェブを介して行うことができる。自己組織化されるならば、この技法は、潜在的に非常に多くのアノテーションの付いた対象物を提供することができるが、サービスの品質を保証することは難しくなることがある。第2の技法では、中央機関が、例えば町などの領域についてのアノテーションの付いた対象物の組を生成し、したがって、整合性およびコンテンツの品質を保証する。第3の例示的な技法は、ワールド・ワイド・ウェブなどの既存の画像およびビデオのデータベースから引き出された画像およびビデオの使用を伴う。これらはしばしば、位置情報、キーワード、およびウェブ・サイトへのリンクに関連付けられていることが分かっている。そのような情報には、モバイル・デバイスのためのアノテーションの付いた対象物を生成するために、自動的にアクセスすることができる。生成は、シーンまたは対象エリアに関する要求が発生したときに、リアルタイムに行うことができ、データ重複を未然に防ぎ、アノテーションの簡易的な更新に役立つ。
【図面の簡単な説明】
【0028】
【図1】例示的なアノテーション・システムの概略図である。
【図2】建造物を指し示しているアノテーション・システムのアノテーティング・モバイル・デバイスの図である。
【図3】際立った対象物のエントリを備えるデータベースを表で表した図である。
【図4A】地形の標高を示す等高線地図である。
【図4B】シーンの対象物の概略図である。
【図5】モバイル・デバイスの画像平面への際立った点のマッピングの概略図である。
【図6A】図6Bの際立った対象物の位置Pについての確率マスクまたは「錯乱領域」を図形で表した図である。
【図6B】際立った位置を備えるシーンのスケッチの図である。
【図7A】方位磁石情報が利用可能でない場合の、候補対象物の例示的な確率マスクの図である。
【図7B】図7Aに示される対象物の可能な位置を示すスケッチの図である。
【図8A】他の類似した対象物を有するシーン内において候補対象物を画像ベースで検出した場合の、3つの極大値を有する確率マスクの図である。
【図8B】図8Aの確率マスクに対応する、類似した外見を有する3つの対象物を備えるシーンの図である。
【図9A】複数の技法を使用する際立った対象物の検出の図である。
【図9B】複数の技法を使用する際立った対象物の検出の図である。
【図9C】複数の技法を使用する際立った対象物の検出の図である。
【図10A】センサベースの方法による単一の候補の確率マスクと画像ベースの方法による3つの候補の確率マスクを比較する図である。
【図10B】上段にアノテーション・データベース内に保存される画像の獲得を、下段に異なる方位で撮影された画像のアノテーションを示す図である。
【図11】表1に対応する際立った対象物の3つのレベルの解像度についてのアノテーションの図である。
【図12】コストの関数としてのアノテーション位置の最終誤差のグラフである。
【発明を実施するための形態】
【0029】
画像/ビデオ・アノテーション・システムにおける画像獲得のために、異なる技法を使用することができる。技法は、ポータブル・アノテーション・デバイスに付属するセンサの使用に基づくことができ、例えば、センサは、デバイスの位置および方位に関する情報を提供する。利用可能なセンサは、異なる精度および信頼性によって特徴付けられる。例えば、GPSシステムは、視界内の衛星の数に依存する精度で、位置を決定することを可能にする。しかし、デバイスが建物内にある場合、GPS決定は、信頼性が低くなり、必要な位置は、モバイルフォン・ネットワーク・インフラストラクチャによる位置の決定など、代替的な、おそらくはより精度の低いタイプのセンサを使用して獲得しなければならない。
【0030】
センサ情報から、アノテーション・システムは、アノテーティング・デバイスによって観察されているシーンを推定し、1組の可視の際立った対象物およびそれらのアノテーションをデータベースから取り出すことができる。シーンの画像上の際立った対象物に対応する位置にアノテーションを重ね合わせる目的で、1組の際立った対象物の位置を画像座標にマッピングするために、センサ情報をさらに使用することができる。
【0031】
他のセンサは、アノテーションを付ける対象物に取り付けることができ、アノテーション・デバイスによって受信される信号を発することができる。例えば、シーンは、無線周波数、赤外線、または可聴/超音波信号を発する、RFID、Bluetooth、もしくはZigBee送信機、または任意の送信機、あるいはビーコンで標識付けされた、またはそれらを装備した(人間も加えた)対象物を備えることができ、信号は、画像アノテーション・デバイスによって受信し、それらの対象物を識別するため、および/または獲得された画像内におけるそれらの位置を決定するために使用することができる。この技法は、例えば、無線モバイル機器を有するユーザおよび車両を識別し、位置を特定するために使用することができる。
【0032】
センサの使用の代替形態として、参照画像またはモデルと画像の特徴物の間の類似度を計算するために、(顔認識アルゴリズムを備えた)画像処理およびコンピュータ・ビジョン技法を使用することができる。アノテーティング・デバイスによって獲得された画像は、データベース内に保存された参照画像と比較され、データベース内では、各画像は、アノテーションを付ける対象物に対応している。実際の視角および照明条件は、データベース内に保存された画像とは異なり得るので、比較アルゴリズムは、これらのパラメータの影響を除去すべきである。代替的に、異なる視角および照明条件に対応する複数の画像を保存することもできる。
【0033】
さらにより精巧な画像アノテーション技法は、3D参照モデルを使用する。この技法は、特に、ポータブル・デバイスがアノテーションを付ける対象物に近い場合、すなわち、視差が著しい場合に有利である。例えば、建造物の場合、対象物の構造は、アノテーションを付ける細部と一緒にデータベース内に保存される。ポータブル・デバイスによって獲得される画像は、3D対象物の可能な見え方(view)と比較され、見え方の1つと一致する場合、その対象物が認識され、対応するアノテーションが画像上に重ね合わされる。
【0034】
センサベースの技法と画像ベースの技法の間の選択に加えて、計算タスクをポータブル・デバイスとサーバ・デバイスの間で分配し、分散させることに関する選択も提供される。ポータブル・デバイスが低い計算能力を有する場合、アノテーションは、もっぱらサーバ側で実行することができる。反対に、ポータブル・デバイスがアノテーション・タスクを実行することが可能な場合、サーバ側での処理を必要としないように、アノテーション情報のデータベースの全部または一部をデバイス上にダウンロードすることができる。第1のケースでは、サーバとのデータ交換における遅延と、サーバ上でのより高い計算負荷の形で、コストが生じる。第2のケースでは、サーバからダウンロードされるより大量の情報に起因して、コストが発生する。
【0035】
図1は、(例えば、アノテーティング・ソフトウェアおよびハードウェア機能を有するモバイルフォンなど、1つまたは複数のアノテーティング・デバイスを備える)4つのモバイル・デバイス1と、4つの基地局2とを備える、アノテーション・システムを示している。基地局の各々は、モバイル・デバイス1と通信するためのアンテナ20を有する。局の2つは、各々が、衛星4と通信するための衛星通信パラボラ・アンテナ21など、別のアンテナ21をさらに備え、衛星4は、通信を中継するために、および例えば全地球測位システム(GPS:Global Positioning System)を使用したモバイル・デバイスの測位のために役立てることができる。いくつかのモバイル・デバイスは、例えば独自のGPS受信機など、独自の衛星測位システムを備えることもできる。基地局は、例えば地上電話接続など、通信リンクによって相互接続される。基地局は、例えばインターネットを介して、サーバ3および関連するデータベース30に接続される。モバイル・デバイス1の少なくとも1つは、デジタル・カメラ、画像アノテーティング・ソフトウェア、および/またはアノテーション・データベースを備えることができる。モバイル・デバイス1は、自らの位置、対象物の位置を決定し、アノテーションの付いた画像を生成するために、基地局2およびサーバ3と、また場合によってはモバイル・デバイスどうしで通信することができる。
【0036】
図2は、ここではスイス、ローザンヌの大聖堂である、少なくとも1つの際立った対象物40を備えるシーン4の眺め10を獲得し、表示しているアノテーティング・モバイル・デバイス1を示しており、表示された眺め10には、ここでは「大聖堂(ローザンヌ)」と読まれるテキスト11でアノテーションが付けられている。画像に追加される他のアノテーションは、リンク、ビットマップ画像、または例えば、矢印、アイコン、絵文字、強調表示要素などのグラフィカル要素を備えることができる。
【0037】
最初に、モバイル・デバイス1によって獲得された眺め10にアノテーションを付けるため、眺めの中において際立った対象物40が識別される。基本的な実施では、際立った対象物は、2次元または3次元座標系内に配置された点によって表され、例えば、その位置において、データベース内のアノテーションが入手可能である。または、際立った対象物は、面パッチ(surface patch)または領域によって表すことができ、ユーザは、アノテーションを獲得するために、領域上でクリックすることが可能である。どちらのケースも、際立った対象物に関連付けられた主な情報は、対応するアノテーションと一緒に1つまたは複数のデータベースから獲得できる対象物の位置である。識別を容易にするため、際立った対象物の複数の表現を使用することができる。
【0038】
図3は、サーバ3および/またはアノテーティング・デバイス1に保存できる、例示的なアノテーション・データベース30の一部を示している。各参照対象物について、データベース・エントリは、緯度、経度、および標高を使用する地理位置、対象物の1つまたは複数の画像、3Dモデル(オプション)、ならびに例えばここで示されるようなテキストなど、所望のアノテーションのうちの1つまたは複数を備える。いくつかの対象物に、共通の画像および/または3Dモデルを関連付けることもできる。また、画像を獲得したカメラの位置および方位、写真が撮影された時刻および日付、ならびにカメラの設定など、ある種のサイド情報も保存される。際立った対象物が、点ではなく面パッチである場合、各画像上への面の投影も保存される。代替的な表現では、際立った対象物を表示する1組の画像を備えることができる。
【0039】
例えば建造物のさらなる表現は、3Dモデルの形を取ることができる。3Dモデルを表現するための1つの方法は、実際の対象物の表面を近似するワイヤフレームを使用することである。加えて、テクスチャも参考として保存することができる。際立った対象物は、3Dモデル上の3つの次元に位置付けられる。2D画像の場合と同様に、位置は、点または3D面パッチもしくは立体によって示すことができる。後者のケースでは、際立った対象物の領域を決定するために、パッチを画像上に投影することができる。
【0040】
いくつかのケースで有利なように、ある位置からどの対象物が見えるかの決定を容易にするために、追加のデータベースまたはデータベース・エントリを使用することができる。そのようなデータベースは、好ましくは、モバイル・デバイスの周囲の面の標高を備える。標高は、図4Aによって例示されるような地形図によって、または図4Bにおけるようなシーンの対象物40の幾何学的近似によって表すことができる。実際の実施では、効率を高めるため、2つのデータベースを異なるように組織することができる。実際には、画像および3Dモデルは、複数の際立った対象物を有することがあるので、3Dアノテーション位置、画像、および3Dモデルのための異なるデータベースを有することが有利であることがあり得る。各データベースのエントリは、アノテーションに対応する1つまたは複数の識別子に関連付けられる。
【0041】
センサベースのアノテーションの場合、モバイル・アノテーティング・デバイスの位置および方位の決定に絡んで、デバイスからどの対象物が見えており、どの対象物が隠れているかを決定するために、地理位置を使用することができる。例えば、これは、GPS、方位磁石、および傾斜計を使用することによって獲得することができる。デバイスから見える際立った対象物は、図5に示されるように、モバイル・デバイス・カメラの視野41の中に入る対象物40をデータベース内で選択することによって獲得される。視野の中にあり、他の物体によって隠されていない対象物については、獲得された画像上への投影を決定することができる。この投影は、対象物のアノテーションが配置されるべき位置に対応する。
【0042】
各センサの精度は、投影の位置の精度に影響する。例えば、図6Bでは、位置Pは、アノテーションを付ける対象物の1つに対応する。位置Pの不確実性は、図6Aに示される確率分布によって表され、黒色は、この位置に対象物を有することについての高い確率に対応し、白色は、低い確率に対応する。確率分布は、正しい位置がその内部に存在する錯乱領域42に対応し、領域内の各点では、候補対象物Pを有する確率は、ゼロよりも大きい。
【0043】
センサの数および/または精度が、対象物の位置を曖昧さなしに決定するのに十分でない場合、それでも、対象物が存在する領域と、対応する確率分布を決定することは可能である。例えば、GPSおよび傾斜計が利用可能であるが、方位磁石は利用可能でない場合、対象物が存在する、水平線と平行な線状の錯乱領域を決定することが可能である。これは、図7Aおよび図7Bに示されている。それに対応して、線状の領域内では、確率値は非ゼロである。対象物の位置が正確には決定されない場合でも、最終的なアノテーション位置をより高い精度および信頼性で獲得するために、この確率マスクを、センサ技法および画像ベースの技法など他の技法によって提供される確率マスクと組み合わせることができる。
【0044】
画像ベースの技法では、獲得された画像は、1組の2D参照画像と、および/または候補対象物の3Dモデルの投影と比較される。例えば、図3に示されるデータベースでは、サンプル画像および3Dモデルは、際立った対象物の少なくともいくつかと関連付けられている。画像、または候補対象物の投影が、入力画像内のある位置に見出された場合、その位置は、考察中の際立った対象物のアノテーションのための可能な候補として記録される。画像内の際立った対象物の位置を見出すために使用されるアルゴリズムは、位置のある精度によって特徴付けられ、その精度は、例えば、鮮明さ、照明条件、対象物自体、ならびにサンプル画像の数および品質に依存する。候補対象物の検索は、シーン内に存在する尤度が最も高い対象物に限定することができ、例えば、1つまたは複数のセンサからの情報に基づいた視野のおおよその推定に依存する。
【0045】
コンピュータ・ビジョン・アルゴリズムは、同じ際立った対象物に対して、いくつかの候補位置を決定することができる。例えば、図8Bでは、1つの候補対象物に対して、(A、B、Cとして示される)3つの可能な位置が決定される。センサベースの技法の場合と同様に、各候補の位置の精度は、確率分布によって表される。例えば、図8Aでは、1つの候補の確率分布が示されている。この確率分布は、候補の参照画像と類似した、画像の3つの特徴物A、B、Cに対応する3つの局所的な極大値を備える。
【0046】
シーン内に該当する対象物が存在するのに、コンピュータ・ビジョン・アルゴリズムが、マッチする候補対象物および候補対象物の尤度の高い位置を見出さないという、他の状況が生じることもある。画像ベースの技法の信頼性は、特に、画像獲得条件に難がある場合、または同じシーン内に外見が類似したいくつかの対象物が存在する場合、他の技法よりも低くなる傾向がある。
【0047】
上で説明されたように、際立った対象物の候補位置は、アノテーション・システムにおいて利用可能なすべての情報を使用することによって決定することができる。例えば、アノテーティング・モバイル・デバイス1の位置、ならびに最終的には際立った対象物Pの正体および位置を推定するために、基地局2によって受信された信号の測定値を使用することができる。考察中のモバイル・デバイスの近くにいるモバイル・デバイス1によって、追加的な測定値を獲得することもできる。システムの構成および適用されるアルゴリズムに応じて、各候補位置は、異なる確率分布によって特徴付けられる。
【0048】
さらに、方法には、アルゴリズムがどれほどの尤度(精度)で有意な結果を与えるかを示す固有の信頼性が関連付けられる。信頼性は、センサベースの技法については、すなわち、アノテーションを付ける対象物が自らの正体および位置を示すことができる場合は、非常に高く、モバイル・デバイスのGPSベースおよびネットワークベースの地理位置特定(geolocalisation)などの技法については中程度であり、画像ベースの技法についてはより低い。
【0049】
センサベース(図9A)、地理位置特定ベース(図9B)、および画像ベース(図9C)の技法という異なる技法によって与えられた結果の例が、図9に示されている。各技法について、不確実性領域(すなわち、候補対象物を有する確率が閾値よりも高い画像部分)の典型的な形状が示されている。
【0050】
第1の方法(図9A)は、モバイル・デバイスおよび/またはアノテーションを付ける対象物40に組み込まれたセンサを使用し、結果は非常に信頼性が高いが、対象物の垂直座標だけが計算され、不確実性領域は縞状である。第2の技法(図9B)は、モバイル・ネットワークの基地局2において送信および/または受信される信号の測定に基づいている。このケースでは、モバイル・アノテーティング・デバイス1および対象物の位置は、完全に計算されるが、精度は低く、すなわち、錯乱領域は大きい。いくつかの稀なケースでは、マルチパスが、モバイル・デバイスの位置特定を不正確にすることがあるので、信頼性は中程度である。第3の技法(図9C)は、画像ベースであり、同じ対象物に対していくつかの候補を生成する。各候補の位置は、高い精度で計算されるが、方法が画像獲得条件に依存するので、信頼性は低い。
【0051】
どの方法についても、信頼性は、条件に依存し得、各画像に対して、または画像の各点に対してさえも決定することができる。例えば、先に言及されたように、コンピュータ・ビジョン・ベースの技法の信頼性は、照明条件、焦点、および視野内の候補の数に強く依存する。GPSベースの技法の信頼性は、とりわけ、信号がそこから受信される衛星の数に依存する。したがって、アノテーションを付ける各画像および各技法について、新しい信頼性インデックスを計算し、この技法が有益な結果を提供するかどうかを決定するために、閾値と比較することができる。
【0052】
ピクチャ上の際立った対象物を識別し、位置を特定するための異なる方法の候補は、最も信頼性の高い方法と整合性のない候補を除外するために、分析することができる。画像内に候補対象物を配置するための第1の可能な手順は、以下の通りである。
1.信頼性の高い順に各方法Mを検討する。
2.対象物についてのMによって与えられた可能な各位置を検討し、他の方法によって与えられた位置と矛盾しないかどうかをチェックする。矛盾する場合、その位置を除外する。
3.Mについて、可能な位置が残っているか? 残っていない場合、方法Mを除外する。
4.分析されていない方法が存在する場合、ステップ1に戻る。
【0053】
例えば、図10Aでは、画像ベースのアルゴリズムの円形の不確実性領域42が、センサベースの方法によって提供された縞状の不確実性領域42’と比較されている。画像ベースの技法の候補Aだけが、確率マスクがともに非ゼロである領域が存在するので、センサベースの技法の不確実性領域と矛盾しない。このケースでは、画像ベースの技法の候補BおよびCは、廃棄される。アルゴリズムは、2つの不確実性領域が重なり合う部分内の、組み合わされた確率または重みを付けて組み合わされた確率が最高となる点に、際立った対象物を位置付ける。
【0054】
画像内に候補対象物を配置するための別の可能な手順は、以下の通りである。
1.各方法Mを検討する。
2.現在の画像の信頼性インデックスが事前定義された閾値を下回るすべての方法を除外する。
3.視野内で識別される各際立った対象物について、画像内における最尤位置を決定する。この最尤位置は、好ましくは、異なる残りの技法によって提供される確率分布関数に基づいている。これは、各点について各技法によって提供される確率を平均する、または重みを付けて平均するステップを備えることができ、各確率に関連付けられる重みは、各技法の信頼性に依存する。
【0055】
特に、各点における各方法またはいくつかの方法の信頼性を示す信頼性分布関数が利用可能である場合、第3の方法を使用することができる。
1.画像の各点を連続的に検討する。
2.その点における信頼性が事前定義された閾値を下回る各方法を除外する。
3.残った方法によって与えられる、その点に際立った対象物の1つの候補を有する確率の平均を計算する。
4.画像内にさらなる点が存在するか。存在する場合は、ステップ1に戻る。
5.最も高い平均確率が、与えられた閾値よりも高い場合は、この平均確率が最も高い点に依存する、アノテーションのための位置を選択し、それ以外の場合は、アノテーションを廃棄する。
【0056】
したがって、すべての方法において、候補対象物は、確率が最も高い点に、すなわち、その候補の最尤位置を示す点に位置付けられる。確率が最も高いこの点は、例えば、確率分布関数を平均することによるなど、異なるセンサに関連付けられた確率マスクに基づいている。信頼性が十分に高くない方法、または特定の点において信頼性が高くない方法は、廃棄される。方法は、シーン内に見出すことができるすべての候補対象物について繰り返される。
【0057】
より一般的には、1組の矛盾しない候補が決定されると、異なる方法によって与えられた位置を組み合わせることによって、アノテーションの最終位置が計算される。
【0058】
一実施形態では、最尤位置の計算は、各方法の精度を考慮する。例えば、以下のような加重平均を使用することができ、
【0059】
【数1】
ここで、(xi,yi)は、候補位置iの位置であり、(x,y)は、アノテーションの最終位置である。パラメータσxi、σyiは、候補iの位置の誤差の標準偏差であり、錯乱領域のサイズに関連し、それらの偏差は、各方法に、またしばしば各測定に依存する。最終位置の精度は、矛盾しない候補の確率分布から計算することができる。例えば、これは、最終位置の標準偏差の推定を計算することによって達成することができる。
【0060】
最終アノテーション位置の精度およびロバスト性を高めるための別の方法は、複数の技法を単独ではなく合同で適用することである。この方法では、例えば、センサ測定と画像ベースの技法を組み合わせることが可能である。実際に、言及されたように、画像ベースの技法は、観察者の位置に敏感なことがある。例えば、入力画像のある領域と参照画像の間のマッチを決定するために、2Dモデルが使用される場合、モバイル・デバイスの3D回転が、不正確なマッチまたはマッチの見落としをもたらすことがある。これは図10Bに示されている。上段の画像は、アノテーション・データベース30内に保存される参照画像の獲得を表す。アノテーションを付ける対象物40は、データベース内に保存される参照画像45を生成するカメラ1の画像平面に平行な平らな面上にあり、参照画像45は、この特定の視角から眺めたアノテーションを付ける対象物の2D縮小表現である。一方、下段の画像に示されるように、アノテーションを付ける画像を生成するために、モバイル・デバイス1が使用される場合、カメラ平面は、参照画像の生成中に使用された平面およびアノテーションを付ける画像に必ずしも平行でなく、別の対象物47に平行であることがある。方位が異なる場合、データベース内の画像と獲得された画像の間のマッチングにおいて、透視投影(perspective projection)が考慮されず、例えば、2D平行移動が使用されると、正しい対象物40が見落とされることがあり、または別の対象物47との誤ったマッチが生成されることがある。
【0061】
このリスクを取り除くために、獲得された画像とアノテーション・データベース内の画像の間の正しいマッチを検出する確率を高めるための補償を使用することができる。この補償は、異なる視角、異なる照明条件(明度/色温度/影など)、およびより一般的に画像獲得の異なる条件を補償するために、例えば、アノテーション・デバイス1によって獲得された画像の前処理を備えることができる。この補償は、位置センサを始めとする他のセンサによって提供されるデータ、時刻および日付情報などに、また参照画像または3Dモデルに関連付けられた対応する情報に基づくことができる。例えば、日付および1日の時刻についての知識は、照明および光色の補償に使用することができ、GPSおよび方位磁石からの位置および方位についての知識は、視角の変化によって生じる幾何学的変形および視差を補償するために使用することができる。一般に、この補償の目的は、マッチング・プロセスをより容易、より高速、およびよりロバストにするために、獲得された画像から、別の画像またはデータを、例えば、参照画像またはモデルの画像獲得条件に一致する画像を計算することである。したがって、補償は、獲得された画像とアノテーション・データベース内の画像の間の正しいマッチを検出する確率を高める。
【0062】
位置および方位は、ある誤差を伴って決定され、補償された画像を計算する方法に不確実性をもたらす。補償された画像の計算のため、尤度の高い位置および方位からなる空間をサンプリングすることができる。各サンプルに対して、補償された画像が計算され、画像ベースの技法が適用される。最終候補の数を減らすため、以下のようないくつかの技法が実行可能である。
カメラの最尤位置および方位に対応する補償された画像の候補を残す。
データベース画像との最良マッチを与える候補、例えば、最小平均2乗誤差を与える候補を残す。
すべての候補を残し、上で説明された他の技法、例えば、他のセンサベースの技法または3D画像ベースの技法による結果と比較する。
【0063】
際立った対象物の位置の精度は、結果の画像上にどのアノテーションを表示すべきかを決定するために使用することができる。実際に、位置の精度があまり高くない場合、アノテーションの詳細さのレベルを引き下げたほうがより適切である。それを行う方法は、異なる解像度に対応する1組の階層レベルに、際立った対象物を組織化することである。
【0064】
表1には、3つのレベルの例が示されている。際立った対象物は、ツリー状に組織化され、各ノードは、子孫ノードの全般的な説明に対応する。適切なレベルの選択は、ツリーの各対象物について錯乱領域を計算し、領域が重なり合わない最高レベルを見出すことによって決定される。各レベルについて、図11は、確率分布および結果のアノテーションを示している。レベル2は、獲得された精度に関して、高すぎる詳細さのレベルを与えることが明らかであり、異なる対象物の不確実性領域が重なり合い、したがって、アノテーションはピクチャ内の誤った対象物に関連付けられることがある。レベル0は、多くの際立った対象物にアノテーションが付けられないので、粗すぎる。レベル1が、最適な妥協を表す。詳細さのレベルの決定は、ユーザが影響を与えることもできる。例えば、ユーザは、際立った対象物の階層内の検討すべきレベルの範囲を決定することができる。代替形態は、アノテーション位置の局所的な精度に従って、画像の異なる部分に対して、異なるレベルの詳細さを可能にすることである。さらに、詳細さのレベルは、アノテーションのオーバラップを回避するために、アノテーションのサイズ、アノテーション間の距離、および/または回復(restitution)中のズーム係数にも依存することがある。
【0065】
【表1】
【0066】
モバイル・アノテーティング・デバイス1と、サーバ3と、データベース30によって構成されるアノテーション・システムは、計算、アノテーション・データ、標高データ、通信、およびセンシング能力をシステムの異なる構成要素に分散させることができる、統一されたエンティティと考えることができる。各リソースへのアクセスおよび使用には、コストがかかり、コストは、通信コスト、リソースを獲得するときの遅延、および消費エネルギーのうちの全部または一部などとすることができる。例えば、コストcは、
c=K_c×C+K_d×t_d
として計算することができ、ここで、Cは、通信コストであり、t_dは、遅延であり、K_c、K_dは、各項の重みをコントロールする定数である。
【0067】
コストは、所望の戦略に従って、各ポータブル・デバイスごとに異なる方法で割り当てることができる。例えば、表2は、異なるモバイル・デバイス、異なる基地局、および異なるサーバに関連付けられたコストを示している。
【0068】
【表2】
【0069】
表において、無限大の記号は、当該デバイスでは利用可能でないリソースに対して使用される。この例では、コストは、通信コスト、遅延、および電力消費を考慮している。当該リソースが利用可能でない場合、コストは無限大に設定される。例えば、「モバイル1」は、GPSを有しておらず、したがって、位置の決定に関連するコストは、このリソースについては無限大に設定される。しかし、このデバイスの位置は、遅延および通信に関する代償を支払うことによって、「モバイル2」などの近くの別のデバイスから獲得することができる。
【0070】
対象物にアノテーションを付けるのに必要とされる情報も、システムの構成要素に分散される。例えば、表2では、2つの際立った要素が考察されている。要素1にアノテーションを付けるためのデータは、「モバイル1」で利用可能であり、したがって、低い代償を支払うことによって、そのデータにアクセスすることができる。第2の要素にアノテーションを付けるためのデータは、このモバイルでは利用可能ではなく、コストは無限大である。このアノテーティング・データが必要とされる場合、通信コストおよび遅延を支払うことによって、「モバイル2」または「サーバ1」から引き出すことができる。
【0071】
画像にアノテーションを付けるため、モバイル・デバイスは、多くのパラメータを必要とする。例えば、センサベースのアノテーションの場合、モバイル・デバイスは、位置および方位を必要とする。この情報を獲得するためのいくつかの方法が存在することがある。情報は、センサを用いてデバイス上で直接的に入手可能とすることができ、近くのデバイスから受け取ることができ、または通信ネットワークから受け取ることができる。いずれの選択肢にも、上で説明されたコストおよびある種の性能パラメータが関連する。このパラメータは、例えば、関連する信頼性の表示、および/または標準偏差など、誤差振幅の尺度とすることができる。「モバイル1」の位置および方位の計算に関連する例示的な性能パラメータが、表3に示されている。性能は、例えば、誤差標準偏差を使用することによって、測定することができる。無限大に設定される値は、デバイスが所望の数量を生成できないことを示す。
【0072】
【表3】
【0073】
いくつかのケースでは、性能は、異なるソースを組み合わせることによって改善することができる。例えば、上で説明されたような、センサベースの技法と画像ベースの技法の組み合わせは、標準偏差および他のパラメータを改善することができる。これは、より高い総コストを支払うことによって行うことができる。
【0074】
与えられた総コストに対して、性能を最大化するリソースの最適な割り当てを決定することが可能である。その結果であるアノテーション位置の最終誤差は、総コストの関数である。総コストの関数としての最終誤差を示す例が、図12に示されている。割り当てられるリソースおよびその結果の誤差についての最終的な決定は、各アノテーティング・モバイル・デバイスによって、またはアノテーション・システム全体のレベルにおいて、動的に行うことができる。決定は、各アノテーティング・デバイスごとに、またアノテーションを付ける各画像ごとに異なることがある。
【0075】
したがって、異なるモバイル・デバイスとサーバの間での計算の分散は、アノテーションの精度、通信コスト、遅延、および/または電力消費の間のトレードオフを改善するために、各ピクチャまたは各画像アノテーティング・セッションについて動的かつ自動的に調整することができる。
【0076】
一実施形態では、システムの1つのデバイスまたはサーバの1つから残りのデバイスへの、あるリソースの配布に関連するコストが計算される。与えられたコストにおいて代替形態を分析し、最小誤差を有する代替形態を選択することによって、システムの各ノードについて、図12に示された関数と類似の関数を決定することができる。この手順は、デバイスの移動またはシステムの変更を考慮して、定期的に繰り返すことができる。アルゴリズムの簡易バージョンを適用することによって、例えば、類似したコストおよび性能を有するリソースまたはデバイスをグループ化することによって、複雑さを低減させることができる。
【0077】
上で説明されたように、アノテーション・システムは、図3および図4に表されたデータベースのような、際立った対象物のデータベースおよび標高データベース内に保存された情報に基づいている。これらのデータベースは、サービス・プロバイダによって、またはアノテーション・システムのユーザによって作成することができる。ユーザが、対応するアノテーションとともに、新しい際立った対象物を追加できるようにすることも可能である。さらに、ユーザは、将来の画像ベースのアノテーションの精度およびロバスト性を改善するために、新しい画像および3Dモデルをある際立った対象物に関連付け、それらの画像およびモデルを中央サーバ内に保存することができる。この操作は、アノテーションを付ける画像を生成するために使用されるのと同じポータブル・デバイス、またはこの目的のために特別に設計されたデバイスを使用して実施することができる。ユーザが、際立った対象物の方向にデバイスを向けると、システムが、画像またはビデオ・シーケンスを獲得する。デバイスの位置および方位は、上で言及された技法を使用することによって計算され、これは、デバイスによって指された領域を識別する。同じ領域の異なる眺めを、同じユーザまたは異なるユーザによって、経時的に収集することができる。これらの眺めは、シーンの3D構造を再構成するために、システムによって使用することができる。それを行う1つの方法は、異なる眺めの対応する点において、三角法を使用することである。再構成された3D構造は、標高データベースを作成または更新するために使用される。さらに、既存の際立った対象物が眺めの中に存在する場合、画像および3Dモデルを追加することによって、際立った対象物のデータベース内の対応するエントリを更新することができる。ユーザが、新しい際立った対象物を選択し、対応するアノテーションを入力した場合、新しいエントリが、データベース内に作成される。これは、新しい眺めが収集された場合、後で更新される。これは、アノテーションのために定期的に獲得される画像を使用することによっても実現できることに留意されたい。
【0078】
可能な代替形態は、計算の回数またはデータベースのサイズを低減させるために、提示される方法の簡易化を備える。特に関心を引くバージョンは、ポータブル・デバイスからの距離に基づいて画像にアノテーションを付けることである。各ユーザは、周辺の対象物のアノテーションの付いた画像を受け取り、既存のアノテーションを変更する可能性、または新しいアノテーションの付いた画像を更新する可能性を有する。図3に表されたデータベースに関しては、アノテーションを付ける画像の集まりと、対応する視点位置だけを保存する必要がある。標高データベースは必要とされない。
【0079】
内容、位置、およびロバスト性の観点から見たアノテーションの品質を高めるため、地形データ、ジオタグ付き(geotagged)の高品質ビデオおよび画像、ならびに3Dカメラなど、追加的な情報ソースを使用することができる。このデータは、アノテーション・システムにアップロードすること、またはリンクすることができ、また既存のデータベースに統合すること、または既存のデータベースで利用可能とすることができる。
【0080】
アノテーション・データベースの内容を生成するための高度な方法は、ウェブ上で利用可能な情報を使用することである。それを行うための第1の方法は、地理位置に関連する画像のデータベースを使用することである。そのようなデータベースの例には、「panoramio」、「street view」、および「flickr」などがある。これらのデータベースは、際立った対象物のデータベースのエントリを生成するために分析することができる。エントリは、画像に関連付けられたインデックスをアノテーション・テキストとして、また画像を画像ベースのアノテーションのためのモデルとして使用することによって、作成/更新することができる。
【0081】
別の可能性は、アノテーション情報および地理位置に関連する画像を見出すために、ウェブをスキャンするプログラムを使用することである。これらのプログラムは、例えば、主要都市のウェブ・サイトを分析して、歴史的建造物、公的機関、美術館、および店舗などのアノテーション・データを生成することができる。
【0082】
本発明の方法およびシステムは、例えば、人々のパーソナル・デバイスによって発せられたBluetoothおよび他の信号の検出と組み合わされた顔認識アルゴリズムを使用して、人物にアノテーションを付けるために使用することもできる。このケースでは、アノテーティング・データおよび参照画像は、例えば、ソーシャル・ネットワーク・プラットフォームから引き出すことができる。
【特許請求の範囲】
【請求項1】
シーンの画像上にアノテーションを配置するためのコンピュータ化された方法であって、
(a)前記シーンの元の画像を獲得するステップと、
(b)前記画像に表された前記シーンの特徴物に対するアノテーションを獲得するステップと、
(c)前記画像内の複数の位置のうちの各位置について、前記位置に前記アノテーションを配置することの尤度を決定するステップと、
(d)前記尤度によって支持された位置に前記アノテーションを備えることによって、アノテーションの付いた画像を形成するステップと
を備える方法。
【請求項2】
前記画像内の前記各位置に候補対象物を有する確率を示すための確率分布関数が決定される、請求項1に記載の方法。
【請求項3】
複数の方法が、前記アノテーションを獲得するために使用される、請求項1または2に記載の方法。
【請求項4】
複数の前記方法が、前記方法に応じた確率分布関数を提供し、
前記アノテーションが、異なる方法によって与えられる複数の前記確率分布関数を組み合わせることによって決定される位置に備えられる、
請求項3に記載の方法。
【請求項5】
前記確率分布関数における極大値を計算し、前記極大値に応じた場所に前記アノテーションを配置するステップを備える、請求項2または3に記載の方法。
【請求項6】
異なる精度が、各方法に関連付けられ、前記位置の計算は、最も精度の高い方法を優先する、請求項3〜5のいずれか一つに記載の方法。
【請求項7】
前記画像の異なる点において、少なくとも1つの方法によって与えられる位置付けの前記精度を示すために、精度分布関数が決定される、請求項6に記載の方法。
【請求項8】
異なる信頼性が、各方法に関連付けられ、前記位置の計算は、最も信頼性の高い方法を優先する、請求項3から7のいずれか一つに記載の方法。
【請求項9】
前記画像の異なる点において、少なくとも1つの方法の前記信頼性を示すために、信頼性分布関数が決定される、請求項8に記載の方法。
【請求項10】
通信コストと遅延の観点から見た、各方法に関連するコストが計算され、前記位置の計算は、よりコストの低い方法を優先する、請求項3から9のいずれか一つに記載の方法。
【請求項11】
前記画像の幾何学的変形を補償するために、前記位置および方位に基づいて前記画像を前処理するステップを備える、請求項1〜10のいずれか一つに記載の方法。
【請求項12】
前記候補要素の位置の精度が決定され、
アノテーション情報の詳細さのレベルが、前記精度に従って調整される、
請求項1〜11のいずれか一つに記載の方法。
【請求項13】
(a)シーンの元の画像を獲得するためのカメラと、
(b)前記画像に表された前記シーンの特徴物に対するアノテーションを獲得するためのアノテーション手段と、
(c)前記画像内の複数の位置のうちの各位置に前記アノテーションを配置することの尤度を決定するため、および前記尤度によって支持された位置に前記アノテーションを備えることによって、アノテーションの付いた画像を形成するための計算手段と
を備えるアノテーティング・デバイス。
【請求項14】
前記アノテーティング・デバイスの位置を決定するための位置センサと、
前記特徴物と前記特徴物の参照画像またはモデルの間の類似度を決定するためのコンピュータ・ビジョン手段と、
前記位置センサからの情報および前記コンピュータ・ビジョン手段からの情報に基づいて、前記画像内の前記各位置に候補対象物を有する確率を示す確率分布関数を計算するための計算手段と
をさらに備える、請求項13に記載のアノテーティング・デバイス。
【請求項15】
(a)シーンの元の画像を獲得するためのカメラを有するアノテーティング・デバイスと、
(b)前記画像に表された前記シーンの特徴物に対するアノテーションを獲得するためのアノテーション手段と、
(c)前記画像内の複数の位置のうちの各位置に前記アノテーションを配置することの尤度を決定するため、および前記尤度によって支持された位置に前記アノテーションを備えることによって、アノテーションの付いた画像を形成するための計算手段と
を備えるアノテーティング・システム。
【請求項16】
前記アノテーションの計算が、モバイル・デバイスとサーバの間に分散され、
前記分散が、アノテーションの精度、通信コスト、遅延、および/または電力消費の間のトレードオフを改善するために、自動的かつ動的に調整される、
請求項15に記載のアノテーティング・システム。
【請求項17】
コンピュータ・プログラムが保存されるコンピュータ・プログラム搬送体であって、前記コンピュータ・プログラムが、データ処理手段によって実行されたときに、前記データ処理手段に請求項1〜11のいずれか1つのステップを実行させるように構成される、コンピュータ・プログラム搬送体。
【請求項1】
シーンの画像上にアノテーションを配置するためのコンピュータ化された方法であって、
(a)前記シーンの元の画像を獲得するステップと、
(b)前記画像に表された前記シーンの特徴物に対するアノテーションを獲得するステップと、
(c)前記画像内の複数の位置のうちの各位置について、前記位置に前記アノテーションを配置することの尤度を決定するステップと、
(d)前記尤度によって支持された位置に前記アノテーションを備えることによって、アノテーションの付いた画像を形成するステップと
を備える方法。
【請求項2】
前記画像内の前記各位置に候補対象物を有する確率を示すための確率分布関数が決定される、請求項1に記載の方法。
【請求項3】
複数の方法が、前記アノテーションを獲得するために使用される、請求項1または2に記載の方法。
【請求項4】
複数の前記方法が、前記方法に応じた確率分布関数を提供し、
前記アノテーションが、異なる方法によって与えられる複数の前記確率分布関数を組み合わせることによって決定される位置に備えられる、
請求項3に記載の方法。
【請求項5】
前記確率分布関数における極大値を計算し、前記極大値に応じた場所に前記アノテーションを配置するステップを備える、請求項2または3に記載の方法。
【請求項6】
異なる精度が、各方法に関連付けられ、前記位置の計算は、最も精度の高い方法を優先する、請求項3〜5のいずれか一つに記載の方法。
【請求項7】
前記画像の異なる点において、少なくとも1つの方法によって与えられる位置付けの前記精度を示すために、精度分布関数が決定される、請求項6に記載の方法。
【請求項8】
異なる信頼性が、各方法に関連付けられ、前記位置の計算は、最も信頼性の高い方法を優先する、請求項3から7のいずれか一つに記載の方法。
【請求項9】
前記画像の異なる点において、少なくとも1つの方法の前記信頼性を示すために、信頼性分布関数が決定される、請求項8に記載の方法。
【請求項10】
通信コストと遅延の観点から見た、各方法に関連するコストが計算され、前記位置の計算は、よりコストの低い方法を優先する、請求項3から9のいずれか一つに記載の方法。
【請求項11】
前記画像の幾何学的変形を補償するために、前記位置および方位に基づいて前記画像を前処理するステップを備える、請求項1〜10のいずれか一つに記載の方法。
【請求項12】
前記候補要素の位置の精度が決定され、
アノテーション情報の詳細さのレベルが、前記精度に従って調整される、
請求項1〜11のいずれか一つに記載の方法。
【請求項13】
(a)シーンの元の画像を獲得するためのカメラと、
(b)前記画像に表された前記シーンの特徴物に対するアノテーションを獲得するためのアノテーション手段と、
(c)前記画像内の複数の位置のうちの各位置に前記アノテーションを配置することの尤度を決定するため、および前記尤度によって支持された位置に前記アノテーションを備えることによって、アノテーションの付いた画像を形成するための計算手段と
を備えるアノテーティング・デバイス。
【請求項14】
前記アノテーティング・デバイスの位置を決定するための位置センサと、
前記特徴物と前記特徴物の参照画像またはモデルの間の類似度を決定するためのコンピュータ・ビジョン手段と、
前記位置センサからの情報および前記コンピュータ・ビジョン手段からの情報に基づいて、前記画像内の前記各位置に候補対象物を有する確率を示す確率分布関数を計算するための計算手段と
をさらに備える、請求項13に記載のアノテーティング・デバイス。
【請求項15】
(a)シーンの元の画像を獲得するためのカメラを有するアノテーティング・デバイスと、
(b)前記画像に表された前記シーンの特徴物に対するアノテーションを獲得するためのアノテーション手段と、
(c)前記画像内の複数の位置のうちの各位置に前記アノテーションを配置することの尤度を決定するため、および前記尤度によって支持された位置に前記アノテーションを備えることによって、アノテーションの付いた画像を形成するための計算手段と
を備えるアノテーティング・システム。
【請求項16】
前記アノテーションの計算が、モバイル・デバイスとサーバの間に分散され、
前記分散が、アノテーションの精度、通信コスト、遅延、および/または電力消費の間のトレードオフを改善するために、自動的かつ動的に調整される、
請求項15に記載のアノテーティング・システム。
【請求項17】
コンピュータ・プログラムが保存されるコンピュータ・プログラム搬送体であって、前記コンピュータ・プログラムが、データ処理手段によって実行されたときに、前記データ処理手段に請求項1〜11のいずれか1つのステップを実行させるように構成される、コンピュータ・プログラム搬送体。
【図1】
【図2】
【図3】
【図4a】
【図4B】
【図5】
【図6A】
【図6B】
【図7A】
【図7B】
【図8A】
【図8B】
【図9A】
【図9B】
【図9C】
【図10A】
【図10B】
【図11】
【図12】
【図2】
【図3】
【図4a】
【図4B】
【図5】
【図6A】
【図6B】
【図7A】
【図7B】
【図8A】
【図8B】
【図9A】
【図9B】
【図9C】
【図10A】
【図10B】
【図11】
【図12】
【公表番号】特表2012−507761(P2012−507761A)
【公表日】平成24年3月29日(2012.3.29)
【国際特許分類】
【出願番号】特願2011−524417(P2011−524417)
【出願日】平成21年9月2日(2009.9.2)
【国際出願番号】PCT/EP2009/061361
【国際公開番号】WO2010/026170
【国際公開日】平成22年3月11日(2010.3.11)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Bluetooth
2.ZIGBEE
【出願人】(509109615)
【Fターム(参考)】
【公表日】平成24年3月29日(2012.3.29)
【国際特許分類】
【出願日】平成21年9月2日(2009.9.2)
【国際出願番号】PCT/EP2009/061361
【国際公開番号】WO2010/026170
【国際公開日】平成22年3月11日(2010.3.11)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Bluetooth
2.ZIGBEE
【出願人】(509109615)
【Fターム(参考)】
[ Back to top ]