説明

画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法

【課題】カメラの視野内にある人の位置および物体を示すパラメータである文脈情報(位置および方向のような)に基づいて、画像および映像内に対象物体を提供し、かつ一致させる。
【解決手段】画像認識アルゴリズムは、キーポイントに基づく比較および領域に基づく色彩比較を含む。画像認識アルゴリズムを用いて目標画像を識別する方法は、処理装置で入力を受信する段階であって、その入力は、目標画像に関連するデータを含む段階、画像を画像データベースから検索することを含む検索ステップを実行する段階であって、その画像が受理または拒絶されるまで、その画像を候補画像として指定する。画像認識アルゴリズム出力を得るために、目標画像および候補画像上で画像認識アルゴリズムを実行するために、処理装置を使用することを含む画像認識ステップを実行する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の開示された実施例は、一般に画像認識に関し、より詳しくは、モバイル拡張現実の制約に基づく画像認識技術に関する。
【背景技術】
【0002】
モバイル・インターネット装置(MID)は、急成長する世界市場を代表するものである。これらのモバイル・コンピューティング装置は、小型であること、インターネットに広く接続可能であること、および強力な演算処理能力によって特徴づけられる。これらの特徴は、MIDに搭載されたカメラの視野内にある人の位置および物体のようなパラメータに基づき、追加の文脈情報を提供することによって、人の知覚および経験を増強するためのモバイル用拡張現実アプリケーションを可能にする。この使用モデルを可能にする鍵となる技術は、文脈情報(位置および方向のような)に基づいて、画像および映像内に対象物体を提供し、かつ一致させることである。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−7413号公報
【非特許文献】
【0004】
【非特許文献1】薄 充孝 Mitsutaka Susuki,「複合現実感4」特集 ランドマークデータベースに基づく静止画像からのカメラ位置・姿勢推定,日本バーチャルリアリティ学会論文誌第13巻第2号Transactions of the Virtual Reality Society of Japan,日本,特定非営利活動法人日本バーチャルリアリティ学会The Virtual Reality Society of Japan,2008年6月30日,第13巻第2号,161〜170ページ
【非特許文献2】村林 昇 Noboru Murabayashi,画像のグループ化処理を適用した類似画像検索の性能改善PerformanceImprovement of Similar Image Retrieval by the Image Grouping Method,第70回(平成20年)全国大会講演論文集(1)アーキテクチャソフトウェア科学・工学 データベースとメディア,日本,社団法人情報処理学会 Information Processing Society of Japan,2008年3月13日,1−389〜1−390
【非特許文献3】劉 謳南,多種類特徴の統合による大規模映像認識,第70回(平成20年)全国大会講演論文集(1)アーキテクチャ ソフトウェア科学・工学データベースとメディア,日本,社団法人情報処理学会 Information Processing Society ofJapan,2008年3月13日,1−545〜1−546ページ
【図面の簡単な説明】
【0005】
開示された実施例は、以下の詳細な記述を添付図面と共に読むことにより、より一層理解されるであろう。
【図1】本発明の実施例に従った、制約に基づく画像認識システム・フローの概要図である。
【図2】本発明の実施例に従った、画像認識アルゴリズムの概要図である。
【図3】本発明の実施例に従った、画像認識アルゴリズムの概要図である。
【図4】本発明の実施例に従った、図1の制約に基づく画像認識システム・フローの概要図である。
【図5】本発明の実施例に従った、目標画像を識別する方法を示すフローチャートである。
【図6】本発明の実施例に従った、携帯用電子装置へ送信するためにデータを選択する方法を示すフローチャートである。
【0006】
図面を単純化および明瞭化するために、図示された形状は一般的な構造方法を示し、周知の特徴および技術に関する記述および詳細事項は、本発明について記述された実施例に関する議論を必要以上に不明瞭化しないために省略される。さらに、図中の要素は、必ずしも同一縮尺で描かれない。例えば、本発明の実施例を理解しやすくするために、図中のいくつかの要素の大きさが、他の要素に比べて拡大される場合がある。異なる図中の同一の参照番号は同一の要素を示し、また、必ずというわけではないが、類似の参照番号が類似の要素を示す場合もある。
【0007】
明細書および特許請求の範囲において、用語「第1」、「第2」、「第3」、「第4」等は、必要に応じて類似する要素を識別するために用いられるが、必ずしも特別な連続的または年代的順序を示すために用いられるわけではない。そのように用いられる用語は、適切な状況下では入れ替えが可能であり、したがって、例えば、ここに記載された本発明の実施例は、ここに図示または記載された以外の順序でも動作可能であると理解すべきである。同様に、ここで、一連の段階を含むような方法について記載されている場合、ここに示されたような段階の順序は、必ずしもそのような段階を実行するための唯一の順序ではなく、ここに記載されているある段階が省略されてもよく、および/または、ここに記載されていない他の段階が本方法に追加されてもよい。さらに、用語「包含する」、「含む」、「有する」、および、それらのあらゆるバリエーションは、非排他的な包含を含むことを意図しており、したがって、要素のリストを含む、プロセス、方法、物品、または機器は、それらの要素に必ずしも制限されず、明白には列挙されていない他の要素、あるいは、そのようなプロセス、方法、物品または機器に固有である他の要素を含んでもよい。
【0008】
明細書および特許請求の範囲において、用語「左」、「右」、「前」、「後」、「上部」、「底部」、「上に」、「下に」等は、必要に応じて記述上の目的で用いられているが、必ずしも永久的な相対的位置について記述するために用いられるわけではない。そのように用いられる用語は、適切な状況下では入れ替えが可能であり、したがって、例えば、ここに記載された本発明の実施例は、ここに図示または記載された以外の方向でも動作可能であると理解すべきである。ここで使用される用語「結合された」は、電気的または非電気的な方法で、直接的または間接的に接続されることを意味する。ここで、相互に「隣接」していると記載された物体は、その語句が用いられる文脈に応じて、互いに物理的に接触している場合、互いに極めて近接している場合、または互いに同一の一般的な領域または場所内にある場合をいう。ここで、「一実施例において」という語句が使用される場合は、必ずしも全ての場合において、同一の実施例を指すものではない。
【発明を実施するための形態】
【0009】
本発明の一実施例では、画像認識アルゴリズムは、キーポイントに基づく比較(keypoints−based comparison)および領域に基づく色彩比較(region−based color comparison)を含む。このアルゴリズムは、さらに、ビジュアル・シンボル比較(visual symbol comparison)を含んでもよい。本発明の一実施例では、画像認識アルゴリズムを用いて目標画像(target image)を識別する方法は、以下の段階を含む。すなわち、処理装置で入力を受信する段階であって、その入力は、目標画像に関連するデータを含む段階、画像を画像データベースから検索することを含む検索ステップを実行する段階であって、その画像が受理または拒絶されるまで、その画像を候補画像として指定する段階、目標画像および候補画像上で画像認識アルゴリズムを実行するために、処理装置を使用することを含む画像認識ステップを実行し、画像認識アルゴリズム出力する段階、および、比較ステップを実行する段階であって、画像認識アルゴリズム出力が予め選択された範囲内にある場合は、目標画像としてその候補画像を受理し、また、画像認識アルゴリズム出力が予め選択された範囲内にない場合は、候補画像を拒絶し、検索ステップ、画像認識ステップ、および比較ステップを繰り返す段階を含む。
【0010】
従って、本発明の実施例は、モバイル拡張現実のための制約に基づく画像認識を可能にする。場所または目的物についてより認識することに関心のあるユーザは、MIDまたは他のモバイル装置を用いて場所または目的物の画像を捕らえ(キャプチャ)、その捕らえた場所または目的物に関連する情報を、可能ならモバイル装置上でその捕らえた画像上に重ねられた拡張情報の形式で受信する。ある実施例では、ユーザは、MIDまたは他の装置に搭載された自動領域分割アルゴリズムを実行することにより、クエリに対する関心領域を選択する。このようなアルゴリズムにおいて、ユーザは、描画ツールを使用することによってではなく、予め選択された領域に分割されたタッチ・スクリーン上に自動的に生成された領域セグメントを触れることにより、関心のある領域を容易に選択することができる。
【0011】
リアルタイム応答および良好な情報検索精度は、モバイル装置のアプリケーションにとって2つの重要な構成要素である。しかしながら、ほとんどの画像認識アルゴリズムにとって、画像データベースのサイズが大きくなるにつれて、マッチングの速度および精度の両方が減少する。さらに、現在のコンピュータの視覚およびパターン認識技術は、異なる照明条件、視覚的な透視、回転、解像度、遮蔽下で捕らえられた画像を完全に識別することができないので、ビジュアル・コンテントのみに基づく画像認識は、非常に挑戦的であることが分かってきた。
【0012】
本発明の実施例は、画像サーチの複雑さを減少させるために、位置システム・データ、3Dアクセロメータ・データ、ならびに、ジャイロスコープおよびデジタル・コンパス情報を利用する。位置システム・データは、全地球測位システム(GPS)、広域ネットワーク(WAN)、ワイヤレス・ネットワーク等からのデータを含めることも可能である。例えば、クエリ画像のGPS位置が、「ニューヨーク、マンハッタンのミッドタウン、33丁目と34丁目との間、5番街350」(エンパイア・ステート・ビルディングの所在地)に近い場合、そのクエリ画像を著しく異なるGPS位置の画像と比較する必要はない。したがって、例えば、そのクエリ画像は、シカゴのシアーズ・タワーまたはフランクフルトのコメルツバンク・タワー(両者は、他の多くの超高層ビルの中で、少なからずエンパイア・ステート・ビルに似ているように見える)の画像と混同することはないであろう。
【0013】
さらに、本発明の実施例は、その場面に現われるテキストおよびロゴによって、および、光学的文字認識(OCR)および音声認識技術を用いたユーザ入力からのスピーチ・キーワードによって、画像認識を補足する。テキストに基づく検索には、計算コストが安価、格納要求が少ない、および送信帯域幅が低いという長所がある。これらのテキストに基づく入力によって、その探索システムは、縮小された検索スペース内にリアルタイムでズーミングすることができる。さらに、テキスト情報は、類似する外観を有する目的物を識別するために有用である。上述のように、ある実施例は、さらに、領域に基づく色彩比較およびキーポイントに基づく比較を組み合わせた高度な画像認識アルゴリズムを使用する。両者の視覚的特徴空間の一致する結果を組み合わせることにより、両方の特徴から利点を取り出し、異なる照明条件、視覚的な透視、回転などに対処するための強健な画像認識システムを提供する。
【0014】
ここで図面を参照すると、図1は、本発明の実施例に従う制約に基づく画像認識システム・フロー100の概要図である。図1に示されるように、システム・フロー100は、入力110を有し、図示されるように、ビジュアル・コンテント111、センサ・モダリティ112、および、オーディオ・コンテント113を含み、画像データベース120から検索された情報と共に、一致およびランキング手続130を実行し、検索結果140に至る。システム・フロー100については、以下より詳細に記述される。
【0015】
図2は、本発明の実施例に従った、画像認識アルゴリズム200の概要図である。図2に示されるように、画像認識アルゴリズム200は、キーポイントに基づく比較210および領域に基づく色彩比較220を含む。
【0016】
キーポイントに基づく比較は、画像の大きさおよび画像の回転に対して不変であり、視点および照明の変化に対して部分的に不変である。したがって、同一の目的物に関する複数の画像は、画像がキーポイントに基づく比較技術を用いて処理された場合には、それらの画像が、異なる角度および距離などから、異なる照明条件の下で得られた場合にさえ、誤って不一致であると識別されるようなことが少ない。例えば、キーポイントに基づく比較210は、顕著なキーポイントの抽出手続211を含み、その結果キーポイント212が識別される。キーポイント特徴抽出213は、1セット(組)のキーポイント特徴ベクトル214を生成する。これらは、ペアワイズ比較(pairwaise comparison)215を用いて処理されるが、それについては以下でより詳しく述べる。その比較は、アウトライア(異常値)と一致するキーポイントを削除し、かつ、関心のある特定の目的物を表わす特徴ポイントの幾何学的な共通位置を強化するために、当業者間で知られているエピポーラ幾何拘束216または他の射影幾何技術を利用することによって、より改善することができる。
【0017】
一実施例によれば、ペアワイズ比較215は、各画像からのキーポイントを使用して、2つの画像を直接比較することを含む。例えば、画像1がキーポイントA,Bを有し、画像2がキーポイントC,Dを有する場合、その際ペアワイズ比較215は、距離A−C,A−D、B−C、B−Dを含む2部グラフを構築する。距離がランク付けされ、最も小さい距離が決定され、その後、最も小さい距離からのポイントのいずれにも関係していない、その次に最も小さい距離が識別される。前記の例に関する小さいサンプル・サイズを使用すると、一旦A−Cが最も小さな距離であると認められると、次に、AもCも含まない唯一の残りの距離として、B−Dが残される。その後、距離A−CおよびB−Dは、合計を得るために共に加算される。この合計が「小さい」場合、すなわち、予め選択されたある範囲内である場合、そのとき、画像1および画像2は、同一の目的物の画像であると識別することができる。この予め選択された範囲は、アプリケーションに依存しており、要求に応じて、より大きい数またはより小さい数に一致する画像を識別するために、上下に調整されてもよい。
【0018】
ペアワイズ比較215は、対称であるという長所を有する。他の比較は、対称ではない、すなわち、どの画像が第1の画像として識別されるかに依存し、最も近い一致を見出す試みのために、画像の各キーポイントを、データベースからの複数の画像のキーポイント(一度に1つの画像ではなく)と比較することを含む。
【0019】
領域に基づく色彩比較は、単一のピクセルよりもピクセルの領域がノイズおよび歪みに関してより安定しており、また、複数の目的物を含む全体的な画像よりも精緻なので、強力な比較戦略である。様々な実施例では、領域に基づく色彩比較220は、色彩のコレログラム(correlogram)、色の三原色(RGB)のヒストグラム、または他の適切な色彩に関連する特性の使用を含むことができる。例えば、領域に基づく色彩比較220は、領域分割手続221を含み、その結果、領域222を識別することができる。色彩特徴抽出223は、当技術分野において知られているようなアース・ムーバーズ・ディスタンス(EMD:earth mover‘s distance)比較225を使用して処理される1セットの色彩特徴ベクトル224を生成する。
【0020】
図2でさらに示されるように、画像認識アルゴリズム200は、さらにビジュアル・シンボル比較230を含めることができる。一例として、ビジュアル・シンボル比較230は、画像内の目的物上または目的物に関連して現われるテキスト、ロゴ、英数字、および他の文字およびシンボルを比較することができる。他の例として、ビジュアル・シンボル比較230は、OCRおよび音声認識のような技術231を利用して、キーワード232に到達する。これらは、当技術分野で知られている技術に従って、余弦比較233と比較される。ビジュアル・シンボル比較230、キーポイントに基づく比較210、および、領域に基づく色彩比較220は、一致およびランキング手続130に類似したプロセスにおいて250で結合され、検索結果140に達する(図1を参照)。
【0021】
画像認識アルゴリズム200は、入力201上で動作するが、それは図示された実施例において、ビジュアル・コンテント205およびオーディオ・コンテント206を含む。一例では、キーポイントに基づく比較210、領域に基づく色彩比較220、およびビジュアル・シンボル比較230は、ビジュアル・コンテント205から入力することができる。他の例では、オーディオ・コンテント206は、音声コマンド、画像コンテントの可聴記述、または同種のものを含んでもよい。画像認識アルゴリズム200は、さらに、オーディオ・コンテント206の分析を含んでもよい。従来の音声認識技術は、オーディオ・コンテント206からキーワードを得るために使用されてもよい。
【0022】
一実施例では、画像認識アルゴリズム200は、さらに、センサ・モダリティ分析を含む。それは、本発明の実施例に従った画像認識アルゴリズム200の概要図である図3に示される。単純化するために、図2に表された画像認識アルゴリズム200のいくつかの要素は、図3では省略される。
【0023】
図3に示されるように、画像認識アルゴリズム200の入力201は、さらに、センサ・モダリティ305を含むことができる。これらは、GPSデータ310または他の適切な位置センサ・データ、アラインメント情報311、時間320、視認角および方向データ330などを含む。したがって、画像認識の精度および効率を改善するために、一実施例では、画像コンテント(例えば、ビジュアル・コンテント205およびオーディオ・コンテント206)をセンサ・モダリティ(305)と組み合わせる。一例では、GPS位置、視認角、方向等が与えられると、異なる視認角および方向から得られる同一の目的物である2つの画像が、キーポイント抽出前に、視認角および方向データ330を使用して調整される。そうすることによって、異なる回転331、視認遠近などで捕らえられた同一の目的物を、より正確に一致させることができる。他の例では、ある画像が昼間に得られ、他の画像が夕方の時間に得られたことをキャプチャ時間(320)が示す場合、色彩比較はマッチング(一致)誤りを低減させるために全く使用されず、そうでなければ、昼/夕方および昼/夜の照明の違いによってもたらされる大きな色彩変化の結果として誤りが発生するであろう。さらに、OCR精度は、テキストが水平位置にあることを必要とする。視認角、方向などのようなセンサ情報330の支援を用いて、必要であれば、OCR処理(231)の精度を向上させるために、画像を水平位置へ回転することができる。
【0024】
図3に示されるように、センサ・モダリティ305は、画像認識アルゴリズム200の第一段階として生じる。センサ・モダリティ305は、画像識別プロセスにおいて追加の精製層としての役割を果たし、画像検索スペースのサイズを縮小することができる。それは、本発明の実施例による制約に基づく画像認識システム・フロー100の概要図である図4に示される。図4は、センサ・モダリティ112(図3におけるセンサ・モダリティ305に相当する)を含む入力110を示す。センサ・モダリティ112は、フィルタリング・スキーム420を用いて(例えば、前述および図示されたように)、画像サーチ・スペースに接近する410ために使用される(例えば、図3に示され、上述されたように)。これは、サーチされるべき画像データベース120中の候補グループ430を生じるが、グループ430は、画像データベース120中の画像の数より著しく少ない。
【0025】
図5は、本発明の実施例に従った目標画像を識別する方法500を示すフローチャートである。上述のように、目標画像は、モバイル・コンピューティング装置によって捕らえられた、ユーザが生成した画像である。例えば、ユーザは、クエリとして全体の画像を提出する代わりに、関心のある領域を任意に指定することができる。画像ビジュアル・コンテント自体、テキストと共に、音声キーワード、および、GPSのようなセンサ・モダリティ、アクセロメータ、ジャイロスコープ、およびデジタル・コンパス情報は、画像一致サービスに転送される。計算/帯域幅資源に依存して、この画像一致サービスは、モバイル・コンピューティング装置上に存在してもよく、または、モバイル・コンピューティング装置にワイヤレスに接続されたバックエンド・サービスとして実行することもできる。
【0026】
方法500のステップ510では、処理装置で、目標画像に関連するデータを含む入力を受信する。例えば、入力は、図1で最初に示された入力110に類似するものである。一実施例では、ステップ510は、ビジュアル・コンテント・データ、センサ・モダリティ・データ、およびオーディオ・コンテント・データのうちの少なくとも1つを受信することを含む。同一または他の実施例において、ステップ510は、MIDのような携帯用電子装置、携帯電話、または同種のものからの入力を受信することを含む。一実施例では、ステップ510は、GPS、アクセロメータまたは他の適切なモーション・センサ、ジャイロスコープ、およびコンパスのうちの少なくとも1つからのデータを含むセンサ・モダリティ・データを受信することを含む。一実施例では、アクセロメータは3Dアクセロメータでもよい。
【0027】
例えば、処理装置は、サーバまたは他のバックエンド・サービスに、MIDまたは他のポータブル・コンピューティング装置に、あるいは同様の場所に配置することができる。処理装置は、他のタスク、目的物検出および認識のような画像/ビデオ処理タスク、ユーザ・インターフェイス、および画像/ビデオ・レンダリングの中で、実行しているソフトウェア・アルゴリズムを走らせるコンピューティング・プラットフォームの一部でもよい。例えば、そのようなアルゴリズムは、画像認識アルゴリズム200に類似するものである。ビデオ・ディスプレイは、処理の結果を、画像データベースによって提供された実画像/ビデオ・データ、および追加情報と任意に組み合わせて表示するために使用される。
【0028】
コンピューティング・プラットフォームは、さらに、静止画像およびビデオを取り込み、処理することができるピクセル・プロセッサに接続された画像センサを含む。ピクセル・プロセッサは、ヒストグラム計算、2Dフィルタリング、およびピクセルのアレイ上の算術演算のような単純な動作の特性から、オブジェクト検出、3Dフィルタリング等のより複雑なタスクの特性に及ぶ機能を有するようにプログラムすることができる。ホスト中央処理装置(CPU)は、全体的なプラットフォーム動作を調整し、また、ソフトウェア・アルゴリズムの一部を実行してもよい。改善された電力および性能は、ピクセル・プロセッサに加えてプラットフォームに複数のアクセロメータを含めることにより得られてもよい。これらは、ビデオ・コーデック、画像/ビデオ安定化ブロック、および他の画像処理ブロックを含んでもよい。
【0029】
相互接続ファブリックは、ホストCPUおよび画像処理ブロックを、メイン・メモリ、ディスプレイ、および格納装置に接続する。これに加えて、相互接続ファブリックによって、個々の画像処理ブロックが、あるタスクを実行するために相互に直接的に接続される。この場合、未使用のプラットフォーム・コンポーネントは、プラットフォームの電力/性能を改善するために低電力状態に入ることができるであろう。全てのプラットフォーム・コンポーネントは、プラットフォーム・クロックにアクセスし、検出動作、計算動作、および始動動作を同期させる。プラットフォームは、割込み、メールボックス、および他の方法に基づいて、直接的なコンポーネント対コンポーネントの通信メカニズムのためのハードウェア・サポートを含んでもよい。
【0030】
方法500のステップ520では、複数の潜在的に一致する画像をフィルタするために、センサ・モダリティ・データを使用する。例えば、上述のように、この(任意の)フィルタリングは、画像サーチ空間を削減し、出力を獲得する速度と同様に、画像認識アルゴリズムの出力の精度を増加させる。
【0031】
方法500のステップ530では、複数の潜在的に一致する画像を含む画像データベースから画像を検索すること、および、画像が受理または拒絶されるまで、候補画像として画像を指定することを含む、検索ステップを実行する。例えば、画像データベースは、画像データベース120(図1を参照)、またはグループ430(図4を参照)のような画像データベース120のサブセットに類似する。
【0032】
方法500のステップ540では、画像認識アルゴリズムの出力を得るために、処理装置を使用して目標画像および候補画像上で画像認識アルゴリズムを実行することを含む、画像認識ステップを実行する。例えば、画像認識アルゴリズムは、図2で最初に示された画像認識アルゴリズム200に類似する。従って、一実施例において、ステップ540は、処理装置を使用して、キーポイントに基づく比較、領域に基づく色彩比較、およびビジュアル・シンボル比較を実行することを含む。特定の実施例では、キーポイントに基づく比較の実行は、少なくとも2つのキーポイント特徴ベクトルのペアワイズ比較を実行することを含み、領域に基づく色彩比較の実行は、少なくとも2つの色彩特徴ベクトルのEMD比較を実行することを含み、ビジュアル・シンボル比較の実行は、余弦比較(cosine comparison)を実行することを含む。
【0033】
方法500のステップ550は、比較ステップを実行するステップであり、画像認識アルゴリズム出力が予め選択された範囲内(したがって、希望する質の一致を示す)にある場合、候補画像は目標画像として受理され、また、画像認識アルゴリズム出力が予め選択された範囲内(希望する質の一致が達成されなかったことを示す)にない場合、候補画像は拒絶され、検索ステップ、画像認識ステップ、および比較ステップが繰り返される。
【0034】
図6は、本発明の実施例に従った携帯用電子装置への送信のためのデータを選択する方法600を示すフローチャートである。
【0035】
方法600のステップ610では、処理装置で、目標画像に関連する携帯用電子装置からの情報を受信する。一実施例では、ステップ610は、ビジュアル・コンテント・データ、センサ・モダリティ・データ、およびオーディオ・コンテント・データの少なくとも1つを受信することを含む。一実施例では、ステップ610は、GPS、3D(または他の)アクセロメータあるいは他の運動センサ、ジャイロスコープ、およびコンパスのうちの少なくとも1つからのデータを含む、センサ・モダリティ・データを受信することを含む。一実施例では、方法600は、さらに、複数の潜在的に一致する画像をフィルタするために、センサ・モダリティ・データを使用することを含む。
【0036】
方法600のステップ620では、複数の潜在的に一致する画像を含む画像データベースからの画像に関連する情報を検索すること、および、画像が受理または拒絶されるまで、候補画像として画像を指定することを含む、検索ステップを実行する。例えば、検索された情報は、色彩特徴または他のビジュアル・コンテント・データ等を含む。
【0037】
方法600のステップ630では、画像認識アルゴリズム出力を得るために、処理装置を使用して、目標画像および候補画像に関連する情報上で画像認識アルゴリズムを実行することを含む画像認識ステップを実行する。一実施例では、ステップ630は、キーポイントに基づく比較、領域に基づく色彩比較、およびビジュアル・シンボル比較を実行するために、処理装置を使用することを含む。様々な実施例では、キーポイントに基づく比較による実行は、少なくとも2つのキーポイント特徴ベクトルのペアワイズ比較を実行することを含み、領域に基づく色彩比較の実行は、少なくとも2つの色彩特徴ベクトルのEMD比較を実行することを含み、ビジュアル・シンボル比較の実行は、余弦比較を実行することを含む。
【0038】
方法600のステップ640では、比較ステップを実行し、ここで、画像認識アルゴリズム出力が予め選択された範囲内(したがって、希望する質を示す)にある場合は、候補画像は、目標画像として受理され、また、画像認識アルゴリズム出力が予め選択された範囲内(希望する質の一致が達成されなかったことを示す)に無い場合は、候補画像は拒絶され、検索ステップ、画像認識ステップ、および比較ステップが繰り返される。
【0039】
方法600のステップ650では、候補画像が目標画像として受理された後、目標画像に関連するデータ・セットをパーソナル電子装置へ送信する。
【0040】
本発明は、特定の実施例に関して記述されたが、当業者であれば、本発明の精神または範囲から逸脱することなく、様々な変更を行なうことが可能であることを理解できるであろう。従って、本発明の実施例の開示は、本発明の範囲の例示であることが意図され、制限するものであることは意図されない。本発明の範囲は、添付された請求項によって要求される程度までにのみ、制限されたものとすることが意図される。例えば、当該技術分野において通常の知識を有する者には、ここに議論された画像認識アルゴリズムおよび関連する方法は、様々な実施例において実施可能であること、また、これらの実施例に関する先の議論は、必ずしもあらゆる実施例について完全な記述を表わさないことは容易に明白であろう。
【0041】
さらに、利益、他の利点、および問題の解決策が特定の実施例に関して記述された。しかしながら、利益、利点、問題の解決策、および、あらゆる要素は、あらゆる利益、利点、または解決策を利点、利点、問題の解決策を生じさせ、またはより明確にさせるかもしれないが、いずれかの重大な特徴、要求された特徴、あるいは本質的な特徴、要素、あるいは請求項の全てとして解釈されるべきではない。
【0042】
さらに、ここに示された実施例および制限は、その実施例および/または制限が、(1)明らかに請求項で規定されていない場合、および、(2)均等理論の下において、請求項に明記された要素および/または制限の潜在的な均等物である場合、公共供与主義の下で公に提供されるものではない。
【符号の説明】
【0043】
110 入力
111 ビジュアル・コンテント
112 センサ・モダリティ
113 オーディオ・コンテント
120 画像データベース
200 画像認識アルゴリズム
205 ビジュアル・コンテント
206 オーディオ・コンテント
210 キーポイントに基づく比較
211 顕著なキーポイントの抽出
212 キーポイント
213 キーポイント特徴抽出
214 1セットのキーポイント特徴ベクトル
215 ペアワイズ比較
220 領域に基づく色彩比較
221 領域分割
223 色彩特徴抽出
224 1セットの色彩特徴ベクトル
225 EMD比較
231 OCR,音声認識
232 キーワード
233 余弦比較
305 センサ・モダリティ
310 GPSデータ
311 アラインメント
330 視認角および方向データ

【特許請求の範囲】
【請求項1】
目標画像を識別する方法において、前記方法は、
処理装置で入力を受信する段階であって、前記入力は、前記目標画像に関連するデータを含む、段階と、
検索ステップを実行する段階であって、前記検索ステップは、画像データベースから画像を検索することを含み、前記画像データベースは、複数の潜在的に一致する画像を含み、前記画像が受理または拒絶されるまで、前記画像を候補画像として指定する、段階と、
画像認識ステップを実行する段階であって、前記画像認識ステップは、画像認識アルゴリズム出力を得るために、前記目標画像および前記候補画像上で画像認識アルゴリズムを実行するために前記処理装置を使用する段階を含む、段階と、
比較ステップを実行する段階であって、前記比較ステップは、
前記画像認識アルゴリズム出力が予め選択された範囲内にある場合は、前記目標画像として前記候補画像を受理し、
前記画像認識アルゴリズム出力が前記予め選択された範囲内にない場合は、前記候補画像を拒絶し、前記検索ステップ、前記画像認識ステップ、および前記比較ステップを繰り返す、段階と、
から構成されることをと特徴とする方法。
【請求項2】
前記画像認識アルゴリズムを実行するために前記処理装置を使用する段階は、キーポイントに基づく比較、領域に基づく色彩比較、およびビジュアル・シンボル比較のうちの少なくとも1つを実行するために前記処理装置を使用する段階を含むことを特徴とする請求項1記載の方法。
【請求項3】
前記キーポイントに基づく比較を実行する段階は、少なくとも2つのキーポイント特徴ベクトルのペアワイズ比較を実行する段階を含むことを特徴とする請求項2記載の方法。
【請求項4】
前記領域に基づく色彩比較を実行する段階は、少なくとも2つの色彩特徴ベクトルのアース・ムーバーズ・ディスタンス(EMD)比較を実行する段階を含むことを特徴とする請求項2記載の方法。
【請求項5】
前記ビジュアル・シンボル比較を実行する段階は、余弦比較を実行する段階を含むことを特徴とする請求項2記載の方法。
【請求項6】
前記処理装置で前記入力を受信する段階は、センサ・モダリティ・データを受信する段階を含み、
前記センサ・モダリティ・データは、位置システム、運動センサ、ジャイロスコープ、およびコンパスのうちの少なくとも1つからのデータを含む、
ことを特徴とする請求項1記載の方法。
【請求項7】
前記複数の潜在的に一致する画像をフィルタするために、前記センサ・モダリティ・データを使用する段階をさらに含むことを特徴とする請求項6記載の方法。
【請求項8】
前記処理装置で前記入力を受信する段階は、ビジュアル・コンテント・データ、センサ・モダリティ・データ、およびオーディオ・コンテント・データのうちの少なくとも1つを受信する段階を含むことを特徴とする請求項1記載の方法。
【請求項9】
前記処理装置で前記入力を受信する段階は、携帯用電子装置から前記入力を受信する段階を含むことを特徴とする請求項1記載の方法。
【請求項10】
携帯用電子装置への送信のためにデータを選択する方法において、前記方法は、
処理装置で目標画像に関連する情報を受信する段階であって、前記情報は前記携帯用電子装置から送信される、段階と、
検索ステップを実行する段階であって、前記検索ステップは、画像データベースからの画像に関連する情報を検索する段階を含み、前記画像データベースは、複数の潜在的に一致する画像を含み、前記画像が受理または拒絶されるまで、候補画像として前記画像を指定する、段階と、
画像認識ステップを実行する段階であって、前記画像認識ステップは、画像認識アルゴリズム出力を得るために、前記目標画像および前記候補画像に関連する前記情報上で画像認識アルゴリズムを実行するために前記処理装置を使用することを含む、段階と、
比較ステップを実行する段階であって、前記比較ステップは、
前記画像認識アルゴリズム出力が予め選択された範囲内にある場合は、前記目標画像として前記候補画像を受理し、
前記画像認識アルゴリズム出力が前記予め選択された範囲内にない場合は、前記候補画像を拒絶し、検索ステップ、前記画像認識ステップ、および前記比較ステップを繰り返す、段階と、
前記目標画像として前記候補画像を受理した後、前記目標画像に関連するデータ・セットを前記携帯用電子装置へ送信する段階と、
から構成されることを特徴とする方法。
【請求項11】
前記画像認識アルゴリズムを実行するために前記処理装置を使用する段階は、キーポイントに基づく比較、領域に基づく色彩比較、およびビジュアル・シンボル比較のうちの少なくとも1つを実行するために前記処理装置を使用する段階を含み、
前記キーポイントに基づく比較を実行する段階は、少なくとも2つのキーポイント特徴ベクトルのペアワイズ比較を実行する段階を含み、
前記領域に基づく色彩比較を実行する段階は、少なくとも2つの色彩特徴ベクトルのアース・ムーバーズ・ディスタンス(EMD)比較を実行する段階を含み、
前記ビジュアル・シンボル比較を実行する段階は、余弦比較を実行する段階を含むことを特徴とする請求項10記載の方法。
【請求項12】
前記処理装置で前記目標画像に関連する前記情報を受信する段階は、センサ・モダリティ・データを受信する段階を含み、
前記センサ・モダリティ・データは、位置システム、アクセロメータ、ジャイロスコープ、およびコンパスの少なくとも1つのからのデータを含み、
前記方法は、前記複数の潜在的に一致する画像をフィルタするために、前記センサ・モダリティ・データを使用する段階をさらに含む、
ことを特徴とする請求項10記載の方法。
【請求項13】
前記処理装置で前記目標画像に関連する前記情報を受信する段階は、ビジュアル・コンテント・データ、センサ・モダリティ・データ、およびオーディオ・コンテント・データのうちの少なくとも1つを受信する段階を含むことを特徴とする請求項10記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−108961(P2012−108961A)
【公開日】平成24年6月7日(2012.6.7)
【国際特許分類】
【出願番号】特願2012−48628(P2012−48628)
【出願日】平成24年3月5日(2012.3.5)
【分割の表示】特願2009−271250(P2009−271250)の分割
【原出願日】平成21年11月30日(2009.11.30)
【出願人】(591003943)インテル・コーポレーション (1,101)
【Fターム(参考)】