一様なおよび一様でない照明の変化の中での特徴検出を改善するための尺度空間正規化技術
正規化プロセスが、照明の変化が画像内の特徴/キーポイント検出に及ぼす影響を完全にまたは大幅に軽減するために尺度空間の差で実施される。画像が、画像の平滑化された尺度空間を生成するために、平滑化関数を用いて画像を次第にぼかすことによって処理され得る。尺度空間の差が、画像の2つの異なる平滑化されたバージョンの間の差をとることによって生成され得る。正規化された尺度空間の差画像が、画像の第3の平滑化されたバージョンによって尺度空間の差画像を割ることによって生成される可能性があり、画像の2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である画像の第3の平滑化されたバージョン。次に、正規化された尺度空間の差画像が、画像に関する1つまたは複数の特徴/キーポイントを検出するために使用され得る。
【発明の詳細な説明】
【技術分野】
【0001】
合衆国法典第35編(米国特許法)第119条の下での優先権の主張
本特許出願は、本出願の譲受人に譲渡され、ここで参照により本明細書にはっきりと組み込まれる2010年1月8日に出願された「Keypoint Stabilization Technique」と題された米国仮出願第61/293,437号の優先権を主張するものである。
【0002】
1つの特徴は、コンピュータビジョンに関し、より具体的には、画像認識システムの性能および/または効率を改善するための方法と技術とに関する。
【背景技術】
【0003】
さまざまな用途が、視覚的表現(例えば、画像または写真)内の物体を特定することができる機械またはプロセッサを有することから恩恵を受けることができる。コンピュータビジョンの分野は、物体または特徴が1つまたは複数のキーポイントを特定する記述子によって特徴づけられ得る、画像内の物体または特徴を特定することを可能にする技術および/またはアルゴリズムを提供することを試みる。また、SIFT(スケール不変特徴変換)などのこれらの技術および/またはアルゴリズムは、用途の中でもとりわけ、画像認識、物体検出、画像マッチング、3次元構造の構築、ステレオ対応、および/またはモーショントラッキング、顔認識に適用されることが多い。
【0004】
概して、物体または特徴認識は、特徴の特定、画像検索、および/または物体認識の目的で、画像内の注目される点(キーポイントとも呼ばれる)および/またはそれらのキーポイントの周辺の局所的特徴を特定することを含み得る。特徴の高い安定性と再現性とが、これらの認識アルゴリズムにおいて非常に重要である。したがって、キーポイントは、それらのキーポイントが、画像のスケールの変化および/または回転に対して不変であり、広い範囲の変形、視点の変化、および/または雑音と照明の変化とに対して強いマッチングを提供するように選択および/または処理され得る。さらに、画像検索および物体認識などのタスクによく適したものであるために、特徴記述子は、単一の特徴が複数の目標画像からの特徴の大きなデータベースに対して高い確率で正しくマッチングされ得るという意味で弁別的であることが好ましい可能性がある。
【0005】
画像内のキーポイントが検出され、発見された後、それらのキーポイントは、さまざまな記述子を用いることによって特定または記述され得る。例えば、記述子は、画像の特性の中でもとりわけ、形状、色、質感、回転、および/または動きなどの画像内の内容の視覚的特徴を表す可能性がある。次に、キーポイントに対応し、記述子によって表される個々の特徴が、既知の物体からの特徴のデータベースにマッチングされる。
【0006】
画像のキーポイントを特定し、選択することの一部として、選択された一部の点が、精度または信頼性が足りないために破棄される必要がある可能性がある。例えば、一部の最初に検出されたキーポイントは、コントラストの不足および/またはエッジに沿った不良なローカライズ(localization)のために拒絶される可能性がある。そのような拒絶は、照明と、雑音と、向きの変化とに対するキーポイントの安定性を高めるのに重要である。特徴のマッチングの再現性を低下させる誤ったキーポイントの拒絶を最小化することも重要である。しかし、空間的に変わる照明の変化を有することは、影を落とすことなどの影響によって、実際に、注目される特徴が完全に無視されてしまい、物体認識の再現性を低下させる可能性があるので、特徴検出に関する重大な問題を引き起こす。
【0007】
したがって、物体認識アルゴリズム中の特徴選択のために、局所的なおよび大域的な照明の変化に適応的な閾値を定義するための方法または手法が必要とされる。
【発明の概要】
【0008】
以下の説明は、いくつかの実施形態の基本的な理解を与えるために1つまたは複数の実施形態の簡素化された概要を示す。この概要は、すべての考えられる実施形態の広範な概観ではなく、すべての実施形態の重要なまたは決定的な要素を特定するようにも、任意のまたはすべての実施形態の範囲を定めるようにも意図されていない。この概要の唯一の目的は、後で提示されるより詳細な説明の前置きとして1つまたは複数の実施形態のいくつかの概念を簡素化された形態で提示することである。
【0009】
画像内のキーポイント/特徴検出に対する照明の変化の影響を軽減するための、画像の特徴検出デバイスで動作する方法が、提供される。画像が、画像の複数の平滑化されたバージョンを得るために、異なるスケーリング幅(scaling width)の複数の平滑化カーネル(smoothening kernel)と畳み込まれる可能性があり、複数の平滑化されたバージョンは、尺度空間ピラミッドを定義する。尺度空間の差画像が、画像の2つの異なる平滑化されたバージョンの間の差をとることによって生成され得る。画像の2つの異なる平滑化されたバージョンは、平滑化された尺度空間ピラミッド内の隣り合うレベルである可能性がある。例えば、画像の第3の平滑化されたバージョンが、画像の2つの異なる平滑化されたバージョンのスケール(例えば、平滑化カーネル)のうちでより大きい方と同じか、またはそれよりも広いスケール(例えば、平滑化カーネル)を有する可能性がある。このプロセスは、画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成するために繰り返される可能性があり、尺度空間の差画像は、尺度空間の差の一部を形成する。
【0010】
正規化された尺度空間の差画像が、画像の第3の平滑化されたバージョンによって尺度空間の差画像を割ることによって生成される可能性があり、画像の2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である画像の第3の平滑化されたバージョン。画像に関する1つまたは複数の特徴の検出が、正規化された尺度空間の差画像を用いることによって実行され得る。画像に関する1つまたは複数の特徴は、正規化された尺度空間の差画像内の局所的極値を検出することによって正規化された尺度空間の差を用いて特定され得る。各特長は、キーポイントと、そのキーポイントを囲むポイントについての情報とを含み得る。次に、画像に関する記述子が、特定された1つまたは複数の特徴に基づいて生成され得る。
【0011】
同様に、画像内のキーポイント/特徴検出に対する照明の変化の影響を軽減するための、画像の特徴検出デバイスが、提供され得る。特徴検出デバイスは、尺度空間生成器、尺度空間の差生成器、尺度空間の差生成器正規化器、特徴検出器、および/または特徴記述子生成器を含み得る。尺度空間生成器は、画像の複数の平滑化されたバージョンを得るために、画像を異なるスケーリング幅の複数の平滑化カーネルと畳み込むように適合される可能性があり、複数の平滑化されたバージョンは、尺度空間ピラミッドを定義する。尺度空間の差生成器は、画像の2つの異なる平滑化されたバージョンの間の差をとることによって尺度空間の差画像を生成するように適合され得る。画像の2つの異なる平滑化されたバージョンは、平滑化された尺度空間ピラミッド内の隣り合うレベルである可能性がある。尺度空間の差生成器は、画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成するようにさらに適合される可能性があり、尺度空間の差画像は、尺度空間の差の一部を形成する。
【0012】
尺度空間の差生成器正規化器は、画像の第3の平滑化されたバージョンによって尺度空間の差画像を割ることによって正規化された尺度空間の差画像を生成するように適合される可能性があり、画像の第3の平滑化されたバージョンは、画像の2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である。画像の第3の平滑化されたバージョンは、画像の2つの異なる平滑化されたバージョンのスケール(例えば、平滑化カーネル)のうちでより大きい方と同じか、またはそれよりも広いスケール(例えば、平滑化カーネル)を有する可能性がある。
【0013】
特徴検出器は、画像に関する1つまたは複数の特徴を検出するために、正規化された尺度空間の差画像を使用するように適合され得る。特徴検出器は、正規化された尺度空間の差画像内の局所的極値を検出することによって正規化された尺度空間の差を用いて画像に関する特徴を特定するように適合され得る。特徴記述子生成器は、特定された1つまたは複数の特徴に基づいて画像に関する記述子を生成するように適合され得る。
【0014】
さまざまな特徴と、性質と、利点とが、同様の参照符号が全体を通して同様に構成要素を特定する図面と共に理解されるとき、以下に記載された詳細な説明から明らかとなるであろう。
【図面の簡単な説明】
【0015】
【図1】問い合わせされた画像に対して物体認識を実行するための機能的段階を示すブロック図。
【図2】例示的な画像処理段階におけるガウス尺度空間(Gaussian scale space)生成を示す図。
【図3】例示的な画像処理段階における特徴検出を示す図。
【図4】例示的な画像処理段階における特徴記述子抽出を示す図。
【図5】照明に対して不変な特徴/キーポイント検出のための尺度空間正規化の例を示す図。
【図6】正規化された尺度空間の差の1つのレベルがどのように得られ得るかの一例を示す図。
【図7】照明の変化に影響されにくい改善された特徴検出のための正規化された尺度空間の差を生成するための方法を示す図。
【図8A】通常の特徴検出手法を用いると、画像の特徴検出が照明の変化によってどのように影響を受ける可能性があるのかを示す図。
【図8B】通常の特徴検出手法を用いると、画像の特徴検出が照明の変化によってどのように影響を受ける可能性があるのかを示す図。
【図8C】通常の特徴検出手法を用いると、画像の特徴検出が照明の変化によってどのように影響を受ける可能性があるのかを示す図。
【図9A】特徴検出の前に尺度空間の差を正規化することが、照明の変化に関係なく、図8と比較してより多くの特徴を検出するのにどのように役立つのかを示す図。
【図9B】特徴検出の前に尺度空間の差を正規化することが、照明の変化に関係なく、図8と比較してより多くの特徴を検出するのにどのように役立つのかを示す図。
【図9C】特徴検出の前に尺度空間の差を正規化することが、照明の変化に関係なく、図8と比較してより多くの特徴を検出するのにどのように役立つのかを示す図。
【図10A】ガウス尺度空間の差と正規化されたガウス尺度空間の差との間の比較を示す図。
【図10B】ガウス尺度空間の差と正規化されたガウス尺度空間の差との間の比較を示す図。
【図11A】尺度空間の差の正規化がキーポイントマッチングの検証に及ぼす影響を示す図。
【図11B】尺度空間の差の正規化がキーポイントマッチングの検証に及ぼす影響を示す図。
【図12】照明に対して不変な特徴検出デバイスの例を示すブロック図。
【図13】特徴検出のために正規化された尺度空間の差を使用する画像マッチングデバイスの例を示すブロック図。
【図14】画像または物体認識の目的で画像処理を実行するように適合された例示的なモバイルデバイスを示すブロック図。
【図15】正規化された尺度空間の差を使用する特徴検出のための方法を示す図。
【発明を実施するための形態】
【0016】
ここから、さまざまな実施形態が、全体を通じて同様の要素を示すために同様の参照番号が使用される図面を参照して説明される。以下の説明において、説明の目的で、1つまたは複数の実施形態の完全な理解を与えるために多くの具体的な詳細が説明される。しかし、そのような(1つまたは複数の)実施形態がこれらの具体的な詳細なしに実施され得ることは明らかであろう。その他の場合、1つまたは複数の実施形態を説明することを容易にするために、よく知られた構造とデバイスとがブロック図の形態で示される。
【0017】
概観
本明細書に記載のさまざまな特徴は、画像認識の速度および/または効率を改善することに関する。第1の態様によれば、画像全体にわたる(一様であるかまたは一様でないかのいずれかの)照明の影響が、特徴/キーポイント検出の前に尺度空間の差を正規化することによって取り除かれるかまたは軽減される。次に、特徴/キーポイント検出が、正規化された尺度空間の差に対して実行される。
【0018】
概して、画像内の照明は、空間的に変わる関数によって表され得ることが認識される。したがって、照明の影響(例えば、陰影、明るい画像、暗い画像など)は、照明の作用を取り除く正規化プロセスによって、特徴/キーポイント検出の目的で無力化され得る。例えば、画像は、画像の平滑化された尺度空間Lを生成するために、さまざまな平滑化因子を有する関数G(すなわち、カーネルまたはフィルタ)を用いて画像を次第にぼかすことによって処理され得る。次に、画像に関する尺度空間の差Dが、平滑化された尺度空間のレベルの隣り合う対(Li−Li-1)の間の差をとることによって取得され得る。それから、尺度空間Lの差の正規化が、尺度空間のレベルの特定の差Diを得るために使用された尺度空間のレベルLiのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である平滑化された尺度空間のレベルLkによって尺度空間のレベルのそれぞれの差Diを割ることによって実現される。
【0019】
例示的な物体認識プロセス
図1は、問い合わせされた画像に対して物体認識を実行するための機能的段階を示すブロック図である。画像取り込み段階102において、注目される画像108(すなわち、問い合わせされる画像)が、取り込まれ得る。画像108は、デジタル形式の取り込まれた画像を得るために、1つまたは複数のイメージセンサーおよび/またはアナログデジタルコンバータを含み得る画像取り込みデバイスによって取り込まれ得る。イメージセンサー(例えば、電荷結合素子(CCD)、相補型金属半導体(CMOS))は、光を電子に変換することができる。電子は、アナログ信号を形成することができ、次に、そのアナログ信号は、アナログデジタルコンバータによってデジタル値に変換される。このようにして、画像108が、画像I(x,y)を、例えば、対応する色、照度、および/またはその他の特性を有する複数の画素として定義する可能性があるデジタル形式で取り込まれ得る。
【0020】
画像処理段階104において、次に、取り込まれた画像108が、対応する尺度空間(例えば、ガウス尺度空間)を生成すること110と、特徴検出を実行すること112と、特徴記述子抽出を実行すること116とによって処理される。特徴検出112は、取り込まれた画像108に関する非常に弁別的なキーポイントおよび/または幾何学的に注目されるキーポイントを特定することができ、続いて、それらのキーポイントは、複数の記述子を得るために特徴記述子抽出116において使用され得る。画像比較段階106において、これらの記述子が、既知の記述子のデータベースとの(例えば、キーポイントおよび/またはキーポイントのその他の特性もしくはキーポイントを囲むパッチを比較することによる)特徴マッチング122を実行するために使用される。次に、幾何学的検証または一致の検査124が、正しい特徴の一致を確認し、一致結果126を提供するためにキーポイントの一致に対して実行される。このようにして、問い合わせされた画像が、目標画像のデータベースと比較され、および/または目標画像のデータベースから特定され得る。
【0021】
画像内の照明の変化が、画像に関する特徴/キーポイント認識の安定性および/または再現性に有害な影響を与える可能性があることが観察された。つまり、画像内の局所的なおよび/または大域的な照明の変化が、画像に関する特徴/キーポイントの検出に影響を与える可能性がある。例えば、特徴/キーポイントの数および/または位置が、画像内の照明(例えば、陰影、コントラストなど)によって変換する可能性がある。したがって、画像内の特徴/キーポイント検出の前に局所的なおよび/または大域的な照明の変化の影響を実質的に取り除くか、または最小化することが有益である。
【0022】
これを行うための1つの方法は、その画像自体を処理して、特徴/キーポイント検出を開始する前に局所的なおよび/または大域的な照明の変化を取り除くか、またはそのような照明の変化を補償することである可能性がある。しかし、そのようなプロセスは、計算量が膨大である可能性がある。さらに、局所的なおよび/または大域的な照明の変化が画像内に存在するかどうかを判定することが難しい場合が多い。また、そのようなプロセスは、データベース内の画像に対して適用される必要がある。初めに目標画像とデータベースの画像の両方を処理して照明の変化を補正しないと、特徴/キーポイントマッチングは、成功しない可能性がある。しかし、照明が特定の画像にどのように影響する可能性があるかの事前の知識がないと、このプロセスは、自動的に実施するのが非常に難しい。
【0023】
したがって、実質的な処理のオーバヘッドなしに実行可能な代替的方法が必要とされる。一例によれば、特徴検出を目的とする画像全体にわたる(一様であるかまたは一様でないかのいずれかの)照明の影響が、特徴/キーポイント検出が尺度空間の差に対して実行される前に尺度空間の差を正規化することによって取り除かれるかまたは軽減され得る。この正規化プロセスは、既に利用可能である平滑化された尺度空間を用いて実行されることができ、したがって、あらゆる追加的な計算を最小化する。
【0024】
一例によれば、尺度空間正規化器114が、照明の変化が画像内のキーポイント/特徴認識に与える影響を軽減するか、または取り除くために尺度空間生成110の一部として実装され得る。
【0025】
図2は、例示的な画像処理段階104におけるガウス尺度空間生成を示す。スケール不変特徴変換(SIFT)などのいくつかのアルゴリズムが、画像内の特徴検出を実行するために開発された。画像内の特定の物体の検出に向けた第1のステップは、問い合わせされた物体をその物体の局所的な特徴に基づいて分類することである。この目的は、例えば、照明、画像の雑音、回転、スケーリング、および/または視点のわずかな変化に対して不変であるおよび/またはそれらに対して強い特徴を特定し、選択することである。つまり、問い合わせ画像と比較目標画像との間の一致が、2つの画像の間の照明、画像の雑音、回転、スケール、および/または視点の差に関係なく発見されなければならない。これを行うための1つの方法は、画像のパッチに対して極値検出(例えば、局所的極大値または極小値)を実行して非常に弁別的な特徴(例えば、画像内の弁別的な点、画素、および/または領域)を特定することである。
【0026】
SIFTは、照明の変化、画像の雑音、回転、スケーリング、および/または視点のわずかな変化に対して適度に不変的である局所的な特徴を検出し、抽出するための1つの手法である。SIFTに関する画像処理段階104は、(a)尺度空間極値検出、(b)キーポイントのローカライズ、(c)オリエンテーション(orientation)の割り当て、および/または(d)キーポイント記述子の生成を含み得る。とりわけ、高速化ロバスト特徴(SURF:Speed Up Robust Features)、勾配位置およびオリエンテーションヒストグラム(GLOH:Gradient Location and Orientation Histogram)、局所的エネルギーに基づく形状ヒストグラム(LESH:Local Energy based Shape Histogram)、圧縮勾配ヒストグラム(CHoG:Compressed Histogram of Gradients)を含む特徴検出とその後の特徴記述子生成とのための代替的なアルゴリズムが、本明細書に記載の特徴からやはり恩恵を受ける可能性があることは明らかであるに違いない。
【0027】
ガウス尺度空間生成110において、デジタル画像I(x,y)108は、ガウシアンピラミッド202を構築するために漸進的にガウスぼかしを施される(すなわち、平滑化される)。概して、ガウスぼかし(平滑化)、は、ガウスぼかし/平滑化関数L(x,y,cσ)がL(x,y,cσ)=G(x,y,cσ)*I(x,y)と定義されるように、元画像I(x,y)を、スケールcσのガウスぼかし/平滑化関数G(x,y,cσ)と畳み込むことを含む。ここで、Gは、ガウスカーネルであり、cσは、画像I(x,y)をぼかすために使用されるガウス関数の標準偏差を表す。乗数cは変更され(c0<c1<c2<c3<c4)、標準偏差cσは変化し、漸進的なぼかし/平滑化が得られる。シグマ(sigma)σは、基本的なスケールの変数(例えば、ガウスカーネルの幅)である。より高いスケール(すなわち、より低い解像度)は、より低いスケール(すなわち、より高い解像度)よりもぼかされる/平滑化される。したがって、スケールレベルが広いほど(すなわち、解像度が低いほど)、画像はより平滑である(よりぼかされる)。
【0028】
初期画像I(x,y)が、ぼかされた画像Lを生成するためにガウシアンGと漸進的に畳み込まれるとき、ぼかされた画像Lは、尺度空間において定数因子cによって分けられる。ガウスぼかしを施された(平滑化された)画像Lの数が増え、ガウシアンピラミッド202に与えられる近似が連続空間に近づくにつれ、2つのスケールも1つのスケールに近づく。一例において、畳み込まれた画像Lは、オクターブ(octave)によってグループ化されることができ、オクターブは、標準偏差σの値を倍にすることに相当する可能性がある。さらに、乗数cの値(例えば、c0<c1<c2<c3<c4...)は、オクターブごとに決まった数の畳み込まれた画像Lが得られるように選択される。スケーリングの各オクターブは、明示的な画像のサイズ変更に相当する。したがって、元画像I(x,y)が漸進的なぼかし/平滑化関数によってぼかされる/平滑化されるにつれ、画素の数が次第に減らされる。本明細書においては、ガウス平滑化関数が例示を目的として使用されるが、その他の種類の平滑化カーネル/関数が使用され得ることに留意されたい。
【0029】
ガウシアンピラミッド202内の任意の2つの連続するガウスぼかしを施された画像の差を計算することによって構築されたガウシアンの差(DoG:difference of Gaussian)ピラミッド204。DoG空間204において、D(x,y,a)=L(x,y,cnσ)−L(x,y,cn-1σ)である。DoG画像D(x,y,σ)は、スケールcnσとcn-1σとの2つの隣り合うガウスぼかしを施された画像Lの間の差である。D(x,y,σ)のスケールは、cnσとcn-1σとの間のどこかにある。DoG画像Dは、オクターブごとに、隣り合うガウスぼかしを施された画像Lから得られる可能性がある。各オクターブの後、ガウス画像(Gaussian image)が2分の1にダウンサンプリングされる可能性があり、次いで、このプロセスが繰り返される。このようにして、画像が、平行移動、回転、スケール、ならびに/またはその他の画像パラメータおよび/もしくは変形に対して強いか、またはそれらに対して不変である局所的な特徴に変換され得る。
【0030】
生成されると、問い合わせされた画像に関するDoG空間204は、注目される特徴を特定する(例えば、画像内の非常に弁別的な点を特定する)ための極値検出に利用され得る。これらの非常に弁別的な点は、本明細書においてはキーポイントと呼ばれる。これらのキーポイントは、各キーポイントを囲むパッチまたは局所領域の特性によって特定され得る。記述子が、各キーポイントとそのキーポイントの対応するパッチとに対して生成されることができ、その記述子は、問い合わせ画像と記憶された目標画像との間のキーポイントの比較に使用され得る。「特徴」は、記述子(すなわち、キーポイントとそのキーポイントの対応するパッチと)を指す可能性がある。一群の特徴(すなわち、キーポイントと対応するパッチと)は、クラスター(cluster)と呼ばれることがある。
【0031】
図3は、例示的な画像処理段階104における特徴検出を示す。特徴検出112において、DoG空間204が、画像I(x,y)に関するキーポイントを特定するために使用され得る。特徴検出112は、画像内の特定のサンプル点または画素のまわりの局所領域またはパッチが(幾何学的に言って)潜在的に注目されるパッチであるかどうかを判定しようとする。
【0032】
概して、DoG空間204内の局所的極大値および/または局所的極小値が、特定され、これらの極大値と極小値との位置が、DoG空間204内のキーポイントの位置として使用される。図3に示された例において、キーポイント308が、パッチ306を用いて特定された。局所的極大値と局所的極小値とを発見すること(局所的極値検出としても知られる)は、DoG空間204内の各画素(例えば、キーポイント308に関する画素)を、同じスケールのその画素の8つの隣接する画素と、キーポイント408の両側の隣接するスケールのそれぞれの(隣り合うパッチ310と312との内の)9つの隣接する画素との全部で26個の画素(9x2+8=26)と比較することによって実行され得る。ここでは、パッチは、3x3画素の領域と定義される。概して、キーポイント306に関する画素値がパッチ306と、310と、308との中の26個の比較される画素のすべての中で最大または最小である場合、そのキーポイント306が、キーポイントとして選択される。キーポイントは、それらのキーポイントの位置がより正確に特定されるようにさらに処理される可能性があり、コントラストの低いキーポイントおよびエッジのキーポイントなどのキーポイントの一部が、破棄される可能性がある。
【0033】
図4は、例示的な画像処理段階104における特徴記述子抽出を示す。概して、特徴(例えば、キーポイントとそのキーポイントの対応するパッチと)は、(問い合わせ画像からの)特徴の、目標画像のデータベース内に記憶された特徴との効率的な比較を可能にする記述子によって表され得る。特徴記述子抽出116の一例において、各キーポイントは、局所的な画像の勾配の方向に基づいて1つまたは複数のオリエンテーションまたは方向を割り当てられ得る。局所的な画像の属性に基づいて各キーポイントに一貫したオリエンテーションを割り当てることによって、キーポイント記述子は、このオリエンテーションに対して相対的に表現されることができ、したがって、画像の回転に対する不変性を実現することができる。大きさと方向との計算が、ガウスぼかしを施された画像L内のおよび/またはキーポイントのスケールのキーポイント308のまわりの近傍の領域内のすべての画素に対して実行され得る。(x,y)に位置するキーポイント308に関する勾配の大きさは、m(x,y)と表されることができ、(x,y)のキーポイントに関する勾配のオリエンテーションまたは方向は、Γ(x,y)と表されることができる。キーポイントのスケールは、すべての計算がスケールに対して不変であるようにして実行されるように、キーポイント308のスケールに最も近いスケールのガウス平滑化された画像Lを選択するために使用される。このスケールの各画像サンプルL(x,y)に関して、勾配の大きさm(x,y)とオリエンテーションΓ(x,y)とが、画素の差を用いて計算される。例えば、大きさm(x,y)は、
【数1】
【0034】
のように計算され得る。方向またはオリエンテーションΓ(x,y)は、
【数2】
【0035】
のように計算され得る。ここで、L(x,y)は、やはりキーポイントのスケールであるスケールσのガウスぼかしを施された画像L(x、y、σ)のサンプルである。
【0036】
キーポイント308の勾配は、DoG空間内のキーポイントの平面より上の、より高いスケールに存在するガウシアンピラミッド内の平面に対してか、またはキーポイントよりも下の、より低いスケールに存在するガウシアンピラミッドの平面内でかのいずれかで一貫して計算され得る。どちらにしても、各キーポイントに関して、勾配は、キーポイントを囲む矩形領域(例えば、パッチ)内ですべて1つの同じスケールで計算される。さらに、画像信号の周波数が、ガウスぼかしを施された画像のスケールに反映される。さらに、SIFTは、単に、パッチ(例えば、矩形領域)内のすべての画素の勾配値を使用する。パッチがキーポイントのまわりに定義され、サブブロックがブロック内に定義され、サンプルがサブブロック内に定義され、この構造は、キーポイントのスケールが異なるときでさえもすべてのキーポイントに対して同じままである。したがって、画像信号の周波数が同じオクターブ内でガウス平滑化フィルタを連続的に適用することによって変化するが、異なるスケールで特定されたキーポイントが、スケールによって表される画像信号の周波数の変化に無関係に同じサンプル数でサンプリングされ得る。
【0037】
キーポイントのオリエンテーションを特徴づけるために、(SIFTにおいては)勾配のオリエンテーションのベクトルが、(キーポイントのスケールに最も近いスケールのガウス画像を用いて)キーポイント308の近傍で生成され得る。しかし、キーポイントのオリエンテーションは、例えば、圧縮勾配ヒストグラム(CHoG)を用いることによって勾配のオリエンテーションのヒストグラムによって表されることもできる(図4参照)。それぞれの近傍の画素の寄与は、勾配の大きさとガウス窓とによって重みづけされ得る。ヒストグラム内のピークが、主なオリエンテーションに対応する。キーポイントのすべての属性は、キーポイントのオリエンテーションに対して相対的に測定されることができ、このことは、回転に対する不変性をもたらす。
【0038】
一例において、ガウス重みをつけられた(Gaussian-weighted)勾配の分布が、各ブロックに対して計算されることができ、各ブロックは、2サブブロック×2サブブロックの合計4サブブロックである。ガウス重みをつけられた勾配の分布を計算するために、いくつかのビンを有するオリエンテーションのヒストグラムが、各ビンがキーポイントのまわりの領域の一部をカバーするようにして形成される。例えば、オリエンテーションのヒストグラムは、36個のビンを有する可能性があり、各ビンは、360度のオリエンテーションの範囲のうちの10度をカバーする。代替的に、ヒストグラムは、それぞれが360度の範囲のうちの45度をカバーする8つのビンを有する可能性がある。本明細書に記載のヒストグラムコーディング技術は、任意の数のビンのヒストグラムに適用できる可能性があることは明らかであるに違いない。最終的にヒストグラムを生成するその他の技術も、使用され得ることに留意されたい。
【0039】
勾配の分布とオリエンテーションのヒストグラムとは、さまざまな方法で得られ得る。例えば、2次元の勾配の分布(dx,dy)(例えば、ブロック406)が、1次元の分布(例えば、ヒストグラム414)に変換される。キーポイント408は、キーポイント408を囲むパッチ406(セルまたは領域とも呼ばれる)の中心に位置する。ピラミッドの各レベルに関して事前に計算される勾配が、各サンプル位置408で小さな矢印として示される。示されるように、サンプル408の4x4の領域が、サブブロック410を形成し、サブブロックの2x2の領域が、ブロック406を形成する。ブロック406は、記述子窓(descriptor window)とも呼ばれる可能性がある。ガウス重みづけ関数(Gaussian weighting function)が、円402によって示され、各サンプル点408の大きさに重みを割り当てるために使用される。円形の窓402内の重みは、滑らかに減少する。ガウス窓402の目的は、窓の位置のわずかな変化によって記述子が突然変わることを防ぐことと、記述子の中心から遠く離れた勾配の重要性を弱めることとである。オリエンテーションのヒストグラムの2x2=4配列412が、ヒストグラムの各ビンの8つのオリエンテーションを用いて2x2サブブロックから得られ、(2x2)x8=32次元の特徴記述子ベクトルをもたらす。例えば、オリエンテーションのヒストグラム413と415とは、サブブロック410に関する勾配の分布に対応する可能性がある。しかし、各キーポイントに対して(4x4)x8=128次元の特徴記述子ベクトルをもたらす、各ヒストグラム内に8つのオリエンテーションを有するヒストグラム(8ビンヒストグラム)の4x4配列を用いることが、より良好な結果をもたらす可能性がある。(例えば、異なるボロノイセル(Voronoi cell)構造を有する)その他の種類の量子化ビン配列が、勾配の分布を得るために使用される可能性もあることに留意されたい。
【0040】
本明細書において使用されるとき、ヒストグラムは、ビンとして知られるさまざまな重ならないカテゴリーに入る観測値、サンプル、または事象(例えば、勾配)の数をカウントする写像kiである。ヒストグラムのグラフは、単に、ヒストグラムを表現する1つの方法であるに過ぎない。したがって、kが観測値、サンプル、または事象の総数であり、mがビンの総数である場合、ヒストグラムの頻度kiは、以下の条件、
【数3】
【0041】
を満たし、ここで、
【数4】
【0042】
は、総和演算子である。
【0043】
サブブロックからのヒストグラムは、キーポイントに関する特徴記述子ベクトルを得るために連結され得る。16個のサブブロックからの8ビンヒストグラムの勾配が使用される場合、128次元の特徴記述子ベクトルが、生じる可能性がある。
【0044】
このようにして、記述子が、特定された各キーポイントに関して得られる可能性があり、そのような記述子は、位置(x,y)と、オリエンテーションと、ガウス重みをつけられた勾配の分布の記述子とによって特徴づけられ得る。画像は、1つまたは複数のキーポイント記述子(画像記述子とも呼ばれる)によって特徴づけられ得ることに留意されたい。さらに、記述子は、位置情報(例えば、キーポイントに関する座標)と、スケール(例えば、キーポイントが検出されたガウススケール(Gaussian scale))と、クラスター識別子などのその他の情報とをやはり含む可能性がある。
【0045】
ガウシアンの差空間204で処理することにより、画像の輝度のあらゆるレベルの変化(輝度に対する空間的に一様な付加的なバイアス)は、完全に無視される。しかし、輝度のスケールの変化は、キーポイントが判定され、最終的に選択または拒絶される方法に影響を与える。このことは、一様な乗数的な輝度因子と空間的に変わる乗数的な輝度因子の両方に当てはまる。キーポイント検出と全く同じぐらい、画像内でのそのキーポイントのローカライズが重要である。物体は、その物体の特徴の幾何学的内容と、それらの空間的相互関係によって分類される。ゆえに、キーポイントの計算された位置は重要な要素であり、したがって、キーポイントが検出されるとしても、そのキーポイントのローカライズが、いかなる輝度のスケールの変化に対しても不変な方法で計算されなければならない。
【0046】
そのため、キーポイントを特定し、記述子を生成する前に、1つの特徴が、キーポイントが検出される尺度空間から照明の影響を軽減し、取り除き、および/またはフィルタリングするために、ガウシアンの差空間204を正規化することを提供する。
【0047】
例示的な尺度空間の差の正規化
図5は、照明に対して不変な特徴/キーポイント検出のための尺度空間正規化の例を示す。画像I(x,y)502が、平滑化された尺度空間ピラミッド506を生成するために、異なるスケールciσの平滑化カーネルG(x,y,ciσ)504と畳み込まれることができ、ここで、iは0とnの間の整数である。平滑化カーネルは、ガウスカーネルおよび/またはその他の種類の平滑化関数であってよいことに留意されたい。平滑化された尺度空間ピラミッド506の2つ隣り合う尺度空間の間の差が、尺度空間の差508を得るために取得され得る。
【0048】
尺度空間の差508の各レベルが、画像I(x,y)502と畳み込まれた異なるスケールの平滑化カーネル504の差(例えば、G(x,y,cj+1σ)−G(x,y,cjσ))として定義され得ることが初めに認識される。これは、2つの対応する平滑化された尺度空間の差(例えば、L(x,y,cj+1σ)−L(x,y,cjσ))に等しい。したがって、2つの平滑化尺度空間の差は、
【数5】
【0049】
と表され得る。
【0050】
照明がスケーリング関数S(x,y)と表される場合、2つの平滑化尺度空間の差に対する照明の変化は、
【数6】
【0051】
と表され得ることも認識される。ここで、通常の場合、照明スケーリング関数S(x,y)は、空間的に変わるか、または空間的に一定である可能性がある。
【0052】
しかし、実行時に照明をモデル化し、照明スケーリング関数S(x,y)を得ることは実用的でないおよび/または実現不可能である。したがって、特徴選択および/または選別が通常実行される特徴空間(例えば、DoG空間508)から照明によって不偏な基本的特徴(例えば、キーポイント)を強調する代替的な手法が、本明細書において開示される。この代替的な手法によれば、画像I(x,y)502の輝度の分布が、画像I(x,y)502から抽出される尺度空間情報を使用することによって正規化される。照明についての事前の情報は、必要とされない。この方法は、いかなる大きな計算と処理とももたらすことなしに、異なる照明の変化に対して一貫したレベルで、安定した特徴を選択することを可能にし、再現性を向上する。
【0053】
これを行うために、特徴検出が行われる尺度空間の差508が、より広い尺度空間によって正規化され得る。この手法は、
【数7】
【0054】
によって定義されることができ、
ここで、
第1のガウス平滑化カーネルG(x,y,cj+1σ)は、第2のガウス平滑化カーネルG(x,y,cjσ)よりも広く(すなわち、スケールcj+1σはスケールcjσよりも広く、ここで、jは0とnの間の正の整数である)、
I(x,y)は、処理されている画像またはその派生物(例えば、画像の反射特性(reflective property))であり、
S(x,y)は、照明スケーリング関数であり、
G(x,y,cj+1+hσ)は、第2の平滑化カーネルG(x,y,cj+1σ)と同じだけ広いか、またはそれよりも広い尺度空間を有する第3の平滑化カーネルであり、ここで、hは0とnの間の正の整数である。尺度空間の差508のすべてのレベルでこのプロセスを繰り返すことによって、正規化された尺度空間の差510が、生成され得る。例えば、G(x,y,cj+1σ)とG(x,y,cjσ)とによって定義された差分尺度空間に対して、正規化関数は、G(x,y,cj+1σ)またはそれより上の任意のもの(すなわち、G(x,y,cj+2σ)、G(x,y,cj+3σ)、...)である可能性がある。正規化関数は、差分尺度空間で使用された両方の平滑化カーネルよりも大きい必要はなく、正規化関数は、単に、より平滑なものであることを必要とする。別の例において、正規化関数は、使用された第1の平滑化カーネルと第2の平滑化カーネルとの合計(すなわち、G(x,y,cj+1σ)+G(x,y,cjσ))である可能性があり、したがって、
【数8】
【0055】
である。
【0056】
式6は、
【数9】
【0057】
とも表され得ることに留意されたい。照明スケーリング関数S(x,y)は(式6と、7と、8との)分子と分母の両方に現れるので、照明スケーリング関数S(x,y)のスケーリング効果は、打ち消される。つまり、照明スケーリング関数S(x,y)が正規化に使用される平滑化された画像L(x,y,cj+1+hσ)*S(x,y)に存在するので、その照明スケーリング関数S(x,y)が、尺度空間の差[L(x,y,cj+1σ)−L(x,y,cjσ)]*S(x,y)内の照明スケーリング関数S(x,y)の効果を完全にまたは実質的に打ち消す。上述のように、L(x,y,cj+1+hσ)は、L(x,y,cj+1σ)またはそれよりも高いスケールの画像(すなわち、L(x,y,cj+2σ)、L(x,y,cj+3σ)、...)に等しい可能性がある。このようにして、分母の画像の内容が、その分母の画像の内容がほとんど空間的アーティファクトをもたらさない程度にまで平滑化される。
【0058】
尺度空間の差の正規化において、正規化する平滑化された画像L(x,y,cj+1+hσ)は、(キーポイント/特徴を特定する)局所的極値の位置を変えないために、特徴空間(すなわち、尺度空間の差)を変え過ぎないように選択されなければならない。つまり、尺度空間の差が、スケールに対して不変な特徴を得るのに最適であることが知られているので、尺度空間の差の近い近似が、正規化の後に維持されなければならない。この目的で、平滑化された画像L(x,y,cj+1+hσ)は、その画像のスケールレベルが、高周波数の内容が平均化されるように十分に平滑であるように選択される。換言すれば、平滑化された画像L(x,y,cj+1+hσ)が十分に平坦である場合、尺度空間の差L(x,y,cj+1σ)−L(x,y,cjσ)の形状は、おおむね変わらない(すなわち、特徴/キーポイントの位置は変わらない。一実施形態において、正規化されている差分スケールレベルを得るために使用されたスケールレベルに近い(同じか、または次に高い)スケールレベルの正規化関数を選択することが、過剰な雑音をもたらすことを防ぐので好ましい可能性があることに留意されたい。例えば、G(x,y,cj+1σ)とG(x,y,cjσ)とによって定義される差分尺度空間に対してG(x,y,cj+1σ)のような平滑なスケールを選択することによって、尺度空間内のその特定のレベルに典型的な局所的な不規則性が保たれ得る。
【0059】
上述のように、画像内で検出される特徴の数は、画像内の乗数的な輝度のスケールの変化によって大きく影響を受ける(例えば、減らされる)可能性がある。輝度によって引き起こされるスケーリングは、画像に対するマスクのように作用する傾向があり、これは、幾何学的変形が全くなかったとしても、最終的な特徴空間の内容を大きく減らす。したがって、式6と7との適用によってなされる正規化は、特徴の持つ幾何学的重要性の点で「等しい」特徴が、照明の変化に無関係に検出されることを保証し、それによって、再現性を向上する。
【0060】
図6は、正規化された尺度空間の差の1つのレベルがどのように得られ得るかの一例を示す。ここで、画像I(x,y)602が、第1の平滑化された尺度空間画像L(x,y,cjσ)608を得るために、第1の平滑化カーネルG(x,y,cjσ)と畳み込まれる可能性がある。画像I(x,y)602は、第2の平滑化された尺度空間画像L(x,y,cj+1σ)610を得るために、第2の平滑化カーネルG(x,y,cj+1σ)606とも畳み込まれる可能性がある。第2の平滑化画像610と第1の平滑化画像608との間の差が、尺度空間のレベルの差Dj(x,y,σ)612を得るために取得され得る。尺度空間のレベルのこの差Dj(x,y,σ)612は、正規化された尺度空間のレベルD’j(x,y,σ)614を得るために、より高いスケールの平滑化カーネルG(x,y,cj+1+hσ)616または平滑化された尺度空間画像L(x,y,cj+1+hσ)618に基づいて(式6および/または7にしたがって)正規化され得る。このプロセスが、画像I(x,y)に(スケーリング因子cjσによって設定される)異なる幅の異なる平滑化カーネルを適用することによって繰り返される可能性があり、それによって、平滑化された尺度空間ピラミッドを構築する。尺度空間の差(例えば、図5の508)が、平滑化された尺度空間ピラミッド(例えば、図5の506)の隣り合うレベルの間の差をとることによって構築され得る。正規化された尺度空間の差(例えば、図5の510)が、式6および/または7にしたがって生成され得る。
【0061】
図7は、照明の変化に影響されにくい改善された特徴検出のための正規化された尺度空間の差を生成するための方法を示す。画像I(x,y)を(i=0からnとした異なるciσによって設定される)異なるスケーリング幅の平滑化カーネルG(x,y,ciσ)と畳み込んで、平滑化された尺度空間ピラミッドを構成する、i=0からnとした複数の平滑化された画像L(x,y,ciσ)を得る702。画像I(x,y)は、元画像によって表されることができ4)画像空間I(x,y)を照明スケーリング関数S(x,y)と乗算して、空間的に変わる照明関数S(x,y)を乗算されたスケーリングされた画像空間I0(x,y)を得ることに留意されたい。つまり、画像I(x,y)は、照明関数S(x,y)により全面的にまたは画素ごとに修正された基本画像I0(x,y)によって特徴づけられ得る。一例において、平滑化カーネルG(x,y,ciσ)はガウスカーネルである可能性があり、したがって、平滑化された尺度空間ピラミッドはガウス尺度空間ピラミッドである。
【0062】
次に、平滑化された尺度空間ピラミッド全体にわたって、平滑化された画像の隣り合う対の差L(x,y,cj+1σ)−L(x,y,cjσ)をとることによって、j=0からn−1とした尺度空間の差Dj(x,y,σ)を生成する704。このプロセスが、複数のレベルを有する尺度空間の差を得るために、隣り合う平滑化された画像の複数の組に対して繰り返される。第2の平滑化された画像L(x,y,cj+1σ)を得るために使用される第2の平滑化カーネルG(x,y,cj+1σ)は、第1の平滑化された画像L(x,y,cj+1σ)を得るために使用される第1の平滑化カーネルG(x,y,cjσ)よりも広い可能性があることに留意されたい。
【0063】
次に、j=0からn−1とした正規化された尺度空間の差D’j(x,y,σ)が、それぞれの尺度空間の差Dj(x,y,σ)のレベルを対応する平滑化された画像L(x,y,cj+1+hσ)で割ることによって生成されることができ、それぞれの平滑化された画像L(x,y,cj+1+hσ)は、画像の2つの異なる平滑化されたバージョンL(x,y,cj+1σ)とL(x,y,cjσ)とのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である706。つまり、正規化する平滑化された画像L(x,y,cj+1+hσ)は、画像の2つの異なる平滑化されたバージョンL(x,y,cj+1σ)とL(x,y,cjσ)とのスケール(例えば、平滑化カーネル)のうちでより大きい方と同じか、またはそれよりも広いスケール(例えば、平滑化カーネル)を有する可能性がある。
【0064】
次に、j=0からn−1とした正規化された尺度空間の差D’j(x,y,σ)が、画像I(x,y)に関する特徴を特定するために使用され得る708。例えば、局所的極値(すなわち、極大値または極小値)が、特徴がまわりに定義される可能性があるキーポイントとして特定され得る。そして、記述子が、特定された特徴に基づいて画像I(x,y)に関して生成され得る710。
【0065】
図5と、6と、7とに示された方法は、画像の照明についての事前の情報を必要としない。この方法は、いかなる大きな(大量の)計算と処理とももたらすことなしに、異なる照明の変化に対して一貫したレベルで、画像内の安定した特徴を選択することを可能にし、再現性を向上する。つまり、平滑化された尺度空間が尺度空間の差Dj(x,y,σ)を正規化するために使用される平滑化された画像L(x,y,cj+1+hσ)を既に含むので、除算以外には正規化するために追加的な処理が必要とされない。
【0066】
さらに、特徴が選択される信頼性を適応させることによって、より安定した特徴が、特徴が検出されるスケール(例えば、平滑化のレベル)によって得られる可能性がある。換言すれば、概して、より高いスケールは、画像のより平滑なバージョン(すなわち、よりぼかされた)を含み、そのようなスケールで検出されたキーポイント/特徴は、より高い信頼度を有する。
【0067】
例示的な特徴検出の例
(図8Aと、8Bと、8Cとを備える)図8は、通常の特徴検出手法を用いると、画像の特徴検出が照明の変化によってどのように影響を受ける可能性があるのかを示す。図8Aは、ほぼ一様な照明を有する画像において検出された特徴を示す。図8Bは、画像全体を低レベルにする一様な照明スケーリングを伴う画像において検出された特徴を示す。つまり、図8Aに比して、図8Bの画像は、照明スケーリング(例えば、画像を暗くすること)によって画像全体で検出された特徴がより少ない。図8Cは、空間的に変わる(一様でない)照明スケーリングが特徴検出にどのように影響を与える可能性があるかをよりはっきりと示す。すなわち、図8Aに比して、図8Cの画像は、照明スケーリング(例えば、画像を暗くすること)によって影響を受けた画像の下半分に沿って検出された特徴がより少ない。図8に関して、検出される特徴の数が、画像内の乗数的な輝度のスケールの変化に依存することは明らかである。
【0068】
(図9Aと、9Bと、9Cとを備える)図9は、特徴検出の前に尺度空間の差を正規化することが、照明の変化に関係なく特徴を検出するのにどのように役立つのかを示す。図9Aは、(特徴が検出される)尺度空間の差が初めに正規化されたときに、ほぼ一様な照明を有する画像において検出された特徴を示す。図9Bは、(特徴が検出される)尺度空間の差が初めに正規化されたときに、画像全体を低レベルにする一様な照明スケーリングを伴う画像において検出された特徴を示す。そのような正規化の結果として、図9Bの照明スケーリング(例えば、画像を暗くすること)に関わらず、ほぼ同じ特徴の密度が、図9Aと9Bとにおいて検出される。図9Cは、特徴が検出される尺度空間の差を正規化することが、空間的に変わる照明の変化に関わらず安定したまたは再現性のある特徴検出をどのようにして可能にするのかを示す。そのような正規化の結果として、図9Cの空間的に変わる照明スケーリング(例えば、画像の下半分を暗くすること)に関わらず、ほぼ同じ特徴の密度が、図9Aと9Cとにおいて検出される。図9Aと、9Bと、9Cとから、特徴検出の前に尺度空間の差(例えば、ガウス空間の差)を正規化する開示された技術が、照明の変化の影響をおおむね打ち消すか、または軽減することが理解され得る。
【0069】
(図10Aと10Bとを備える)図10は、ガウス尺度空間の差と正規化されたガウス尺度空間の差との間の比較を示す。図10Aは、(異なるオクターブと、スケールと、スケーリング幅との)複数の画像を有することを備えるガウス尺度空間の差を示し、画像のそれぞれは、元画像の異なる平滑化されたバージョンである。図10Aは、特徴の認識に対する輝度のスケールの変化の有害な影響をはっきりと示す。図10Bは、図5と、6と、7とに示された技術にしたがって正規化された、図10Aと同じガウス尺度空間の差を示す。図10Bは、輝度のスケールの変化に関わらずはっきりと特定できるより多くの特徴を示す。
【0070】
(図11Aと11Bとを備える)図11は、尺度空間の差の正規化がキーポイントマッチングの検証に及ぼす影響を示す。図11Aは、尺度空間の差(例えば、DoG空間)の正規化なしに、一様な照明スケーリングによって影響を受けた試験画像1104内のキーポイントが、データベース画像1102とどのようにマッチングされるかを示す。ここでは、およそ144個のキーポイントが、試験画像1104とデータベース画像1102との間で一致している。図11Bは、尺度空間の差の正規化(例えば、正規化されたDoG空間)を用いて、一様な照明スケーリングによって影響を受けた試験画像1106内のキーポイントが、データベース画像1102とどのようにマッチングされるかを示す。正規化は、図11Aの144個のキーポイントの一致と比較して大きな改善である約495個のキーポイントの一致をもたらす。
【0071】
例示的な特徴検出デバイス
図12は、照明に対して不変な特徴検出デバイスの例を示すブロック図である。特徴検出デバイス1200は、デジタル形式の問い合わせ画像1202を受信または取得することができる。次に、尺度空間生成器1204(例えば、ガウス尺度空間生成器)が、尺度空間を生成するために、問い合わせ画像1202を異なるスケール幅の複数の異なる平滑化カーネル1203と畳み込むことができる。尺度空間は、異なるスケーリング幅まで平滑化される画像の複数の平滑化されたバージョンを備える可能性がある。それから、尺度空間の差生成器1206が、尺度空間から尺度空間の差を生成する。次いで、尺度空間の差正規化器1208が、例えば、それぞれの尺度空間のレベルの差を対応する平滑化された画像で割ることによって尺度空間の差を正規化し、そのような平滑化された画像は、割られる尺度空間の差を生成するために使用された平滑化された画像のうちでより大きい方と同じか、またはそれよりも広いスケールを有する。そして、キーポイント生成器1210が、正規化された尺度空間の差内のキーポイントを特定または検出する。これは、例えば、正規化された尺度空間の差の画素の中の局所的極値(すなわち、極大値または極小値)を発見することによって行われ得る。次に、特徴生成器1212が、例えば、特定されたキーポイントのまわりの局所的な画素を特徴づけることによって特徴を生成することができる。キーポイント生成器1210と特徴生成器1212との機能は、特徴検出器によって実行され得ることに留意されたい。それから、特徴記述子生成器1214が、問い合わせ画像を特定するのに役立つことができる複数の画像記述子1216を提供するための各特徴に関する記述子を生成する。図12に示された機能は、別個の回路によって、または1つもしくは複数のプロセッサによって実行され得る。
【0072】
例示的な画像マッチングデバイス
図13は、特徴検出のために正規化された尺度空間の差を使用する画像マッチングデバイスの例を示すブロック図である。画像マッチングデバイス1300は、通信インターフェース1304、画像取り込みデバイス1306、および/またはストレージデバイス1308に結合された処理回路1302を含み得る。通信インターフェース1304は、有線/ワイヤレスネットワークを介して通信し、画像、および/または1つもしくは複数の画像に関する特徴記述子を受信するように適合され得る。画像取り込みデバイス1306は、例えば、問い合わせ画像を取り込むことができるデジタルカメラである可能性がある。処理回路1302は、画像から特徴を抽出するための画像処理回路1314と、抽出された特徴を用いて問い合わせ画像を目標画像のデータベース1310とマッチングし、および/または問い合わせ画像の記述子を記述子データベース1312とマッチングする画像マッチング回路1316とを含み得る。1つの例示的な実装によれば、画像マッチングアプリケーションが、問い合わせ画像を画像データベース内の1つまたは複数の画像とマッチングするように試みる。画像データベースは、データベース1310に記憶された1つまたは複数の画像に関連する大量の特徴記述子を含み得る。
【0073】
画像処理回路1314は、ガウス尺度空間生成器1322、尺度空間の差生成器1324、尺度空間の差正規化器1326、キーポイント検出器1328、特徴生成器1330、および/または特徴記述子生成器1332を含む特徴特定回路1320を含み得る。ガウス尺度空間生成器1322は、画像をぼかし関数(例えば、平滑化カーネル)と畳み込んで、例えば、図2と5とに示された複数の異なる尺度空間を生成する役割をする可能性がある。それから、尺度空間の差生成器1324が、尺度空間から尺度空間の差を生成する。次いで、尺度空間の差正規化器1326が、例えば、それぞれの尺度空間のレベルの差を対応する平滑化された画像で割ることによって尺度空間の差を正規化し、そのような平滑化された画像は、(図6に示された)割られる尺度空間の差を生成するために使用されたどちらの平滑化された画像よりも広い。そして、キーポイント生成器1328が、(図9に示された)正規化された尺度空間の差内のキーポイントを特定または検出する。これは、例えば、正規化された尺度空間の差の画素の中の局所的極値(すなわち、極大値または極小値)を発見することによって行われ得る。次に、特徴生成器1330が、例えば、(図3に示された)特定されたキーポイントのまわりの局所的な画素を特徴づけることによって特徴を生成することができる。それから、特徴記述子生成器1332が、(図4に示された)問い合わせ画像を特定するのに役立つことができる複数の画像記述子を提供するための各特徴に関する記述子を生成する。
【0074】
そして、画像マッチング回路1316が、特徴記述子に基づいて、問い合わせ画像を画像データベース1310内の画像とマッチングするように試みることができる。一致結果は、(例えば、画像または特徴記述子を送信するモバイルデバイスに)通信インターフェースを介して提供され得る。
【0075】
一部の実装において、問い合わせ画像に関するキーポイントに関連する一組の特徴記述子が、画像マッチングデバイスによって受信され得ることに留意されたい。この場合、問い合わせ画像は、(記述子を得るために)既に処理済みである。したがって、画像処理回路1314は、飛ばされるか、または画像マッチングデバイス1300から取り除かれる可能性がある。
【0076】
例示的なモバイルデバイス
図14は、画像または物体認識の目的で画像処理を実行するように適合された例示的なモバイルデバイスを示すブロック図である。モバイルデバイス1400は、画像取り込みデバイス1404と、通信インターフェース1410と、ストレージデバイス1408とに結合された処理回路1402を含み得る。画像取り込みデバイス1404(例えば、デジタルカメラ)は、注目される問い合わせ画像1406を取り込むように適合されることができ、その問い合わせ画像1406を処理回路1402に提供する。処理回路1402は、取り込まれた画像を処理して特徴記述子を生成するように構成された画像処理回路1414を含む可能性があり、その特徴記述子は、画像/物体認識のために後で送信されるかまたは使用され得る。例えば、画像処理回路1414は、ガウス尺度空間生成器1422、尺度空間の差生成器1424、尺度空間の差正規化器1426、キーポイント検出器1428、特徴生成器1430、および/または特徴記述子生成器1432を含む特徴特定回路1420を含むかまたは実装する可能性がある。ガウス尺度空間生成器1422は、画像をぼかし関数(例えば、平滑化カーネル)と畳み込んで、例えば、図2と5とに示された複数の異なる尺度空間を生成する役割をする可能性がある。それから、尺度空間の差生成器1424が、尺度空間から尺度空間の差を生成する。次いで、尺度空間の差正規化器1426が、例えば、それぞれの尺度空間のレベルの差を対応する平滑化された画像で割ることによって尺度空間の差を正規化し、そのような平滑化された画像は、(図6に示された)割られる尺度空間の差を生成するために使用されたどちらの平滑化された画像よりも広い。そして、キーポイント生成器1428が、(図9に示された)正規化された尺度空間の差内のキーポイントを特定または検出する。これは、例えば、正規化された尺度空間の差の画素の中の局所的極値(すなわち、極大値または極小値)を発見することによって行われ得る。次に、特徴生成器1430が、例えば、(図3に示された)特定されたキーポイントのまわりの局所的な画素を特徴づけることによって特徴を生成することができる。それから、特徴記述子生成器1432が、(図4に示された)問い合わせ画像を特定するのに役立つことができる複数の画像記述子を提供するための各特徴に関する記述子を生成する。
【0077】
次いで、処理回路1402が、1つまたは複数の特徴記述子をストレージデバイス1408に記憶することができ、および/または特徴記述子を、特徴記述子を使用してその中の画像または物体を特定する画像マッチングサーバに通信ネットワーク1412を通じて通信インターフェース1410(例えば、ワイヤレス通信インターフェース、トランシーバ、または回路)を介して送信することもできる。つまり、画像マッチングサーバは、特徴記述子を、その画像マッチングサーバ自体の特徴記述子のデータベースと比較して、その画像マッチングサーバのデータベース内のいずれかの画像が(1つまたは複数の)同じ特徴を有するかどうかを判定することができる。
【0078】
一例において、画像処理回路1414は、本明細書に記載の1つまたは複数の方法を実装し得る。例示的な実装によれば、モバイルデバイスは、送信するために特徴記述子を圧縮することができる。帯域幅はワイヤレス送信の制限要因になりやすいので、本明細書に記載の1つまたは複数の技術を適用することによる特徴記述子の圧縮は、モバイルネットワークにおいてワイヤレスチャネルとバックホールリンクとを介して送信されるデータの量を削減することができる。
【0079】
正規化された尺度空間における特徴検出のための例示的な方法
図15は、正規化された尺度空間の差を使用する特徴検出のための方法を示す。(ガウス)尺度空間が、画像に対して生成されることができ、この尺度空間は、画像の異なるぼかされた(平滑化された)バージョンを備える可能性がある1502。尺度空間の差画像が、(尺度空間からの)画像の2つの異なる平滑化されたバージョンの間の差をとることによって生成され得る1504。このプロセスが、複数の尺度空間の差画像を得るために画像の複数のその他の(例えば、隣り合う)平滑化されたバージョンに対して繰り返されることができる。尺度空間の差を形成する複数の尺度空間の差画像。
【0080】
次に、正規化された尺度空間の差画像(レベル)が、画像の第3の平滑化されたバージョンによって尺度空間の差画像を割ることによって生成される可能性があり、画像の第3の平滑化されたバージョンは、画像の2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である1506。例えば、画像の第3の平滑化されたバージョンは、画像の2つの異なる平滑化されたバージョンのスケール(例えば、平滑化カーネル)のうちでより大きい方と同じか、またはそれよりも広いスケール(例えば、平滑化カーネル)を有する可能性がある。このプロセスが、複数の正規化された尺度空間の差画像を得るために複数の差尺度空間画像に対して繰り返されることができる。正規化された尺度空間の差を形成する複数の正規化された尺度空間の差画像。
【0081】
画像に関する1つまたは複数の特徴が、正規化された尺度空間の差画像を用いることによって検出または特定され得る1508。同様に、さらなる特徴が、正規化された尺度空間の差に対して検出され得る。そして、記述子が、特定された特徴に基づいて画像に関して生成され得る1510。
【0082】
情報と信号とは、任意のさまざまな異なるテクノロジーと技術とを使用して表され得る。例えば、上の説明中で言及される可能性があるデータ、命令、コマンド、情報、信号などは、電圧、電流、電磁波、磁界もしくは磁気的粒子、光場もしくは光学的粒子、またはそれらの任意の組み合わせで表される可能性がある。
【0083】
本明細書に記載のさまざまな例示的な論理ブロック、モジュールおよび回路、ならびにアルゴリズムのステップは、電子的なハードウェア、ソフトウェア、またはそれら両方の組み合わせとして実装または実行され得る。ハードウェアとソフトウェアとのこの互換性を明確に示すために、さまざまな例示的なコンポーネントと、ブロックと、モジュールと、回路と、ステップとが、概してそれらの機能の観点で上で説明された。そのような機能がハードウェアとして実装されるか、それともソフトウェアとして実装されるかは、システム全体に課された特定の用途と設計の制約とによって決まる。構成が、フローチャート、流れ図、構造図、またはブロック図として示されるプロセスとして示され得ることに留意されたい。フローチャートはオペレーションを連続的なプロセスとして示す可能性があるが、オペレーションの多くは、並列的にまたは同時に実行され得る。加えて、オペレーションの順序は、変えられ得る。プロセスは、そのプロセスのオペレーションが完了するときに終了される。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応する可能性がある。プロセスが関数に対応するとき、そのプロセスの終了は、当該関数が呼び出し元関数またはメイン関数に戻ることに対応する。
【0084】
ハードウェアで実装されるとき、さまざまな例は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくはその他のプログラマブルロジックデバイス、離散的なゲートもしくはトランジスタ論理、離散的なハードウェアコンポーネント、または本明細書に記載の機能を実行するように設計されたそれらの任意の組み合わせを使用する可能性がある。汎用プロセッサはマイクロプロセッサであってよいが、別法として、プロセッサは、任意の通常のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってよい。プロセッサは、コンピューティングデバイスの組み合わせ、例えばDSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと連携する1つもしくは複数のマイクロプロセッサ、または任意のその他のそのような構成としても実装され得る。
【0085】
ソフトウェアで実装されるとき、さまざまな例は、ファームウェア、ミドルウェア、またはマイクロコードを使用する可能性がある。必要なタスクを実行するためのプログラムコードまたはコードセグメントは、ストレージ媒体または(1つもしくは複数の)その他のストレージなどのコンピュータ可読媒体に記憶され得る。プロセッサが、必要なタスクを実行する可能性がある。コードセグメントは、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組み合わせを表す可能性がある。コードセグメントは、情報、データ、引数、パラメータ、またはメモリの内容を渡すことおよび/または受信することによって別のコードセグメントまたはハードウェア回路に結合されることができる。情報、引数、パラメータ、データなどは、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク伝送などを含む任意の好適な手段によって渡されるか、転送されるか、または送信されることができる。
【0086】
本出願において使用されるとき、用語「コンポーネント」、「モジュール」、「システム」などは、コンピュータに関連するエンティティ、ハードウェア、ファームウェア、ハードウェアとソフトウェアとの組み合わせ、ソフトウェア、または実行中のソフトウェアのいずれかを指すように意図される。例えば、コンポーネントは、プロセッサ上で実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、実行スレッド、プログラム、および/またはコンピュータであってよいがこれらに限定されない。例として、コンピューティングデバイス上で実行されるアプリケーションとそのコンピューティングデバイスの両方が、コンポーネントである可能性がある。1つまたは複数のコンポーネントは実行プロセスおよび/または実行スレッド内にある可能性があり、コンポーネントは1つのコンピュータ上に配置される、および/または2つ以上のコンピュータの間に分散される可能性がある。さらに、これらのコンポーネントは、さまざまなデータ構造を記憶するさまざまなコンピュータ可読媒体から実行されることができる。コンポーネントは、1つまたは複数のデータパケット(例えば、信号によってローカルシステム内、分散システム内の別のコンポーネントと、および/またはインターネットなどのネットワークを介してその他のシステムとインタラクションする1つのコンポーネントからのデータ)を有する信号によるなどして、ローカルおよび/またはリモートプロセスを介して通信することができる。
【0087】
本明細書の1つまたは複数の例において、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせで実装され得る。ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、またはコンピュータ可読媒体上で送信され得る。コンピュータ可読媒体は、1つの場所から別の場所へのコンピュータプログラムの移送を容易にする任意の媒体を含むコンピュータストレージ媒体と通信媒体の両方を含む。ストレージ媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体である可能性がある。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMもしくはその他の光ディスクストレージ、磁気ディスクストレージもしくはその他の磁気ストレージデバイス、または命令もしくはデータ構造の形態で所望のプログラムコードを搬送もしくは記憶するために使用されることができ、コンピュータによってアクセスされ得る任意のその他の媒体を備える可能性がある。また、当然、任意の接続がコンピュータ可読媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペアケーブル、デジタル加入者線(DSL)、または赤外線、ラジオ波、およびマイクロ波などのワイヤレス技術を用いてウェブサイト、サーバ、またはその他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペアケーブル、DSL、または赤外線、ラジオ波、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用されるとき、ディスク(disk)とディスク(disc)とは、コンパクトディスク(compact disc)(CD)、レーザディスク(laser disc)、光ディスク(optical disc)、デジタルバーサタイルディスク(digital versatile disc)(DVD)、フロッピー(登録商標)ディスク(floppy(登録商標) disk)、およびブルーレイ(登録商標)ディスク(blu−ray disc)を含み、ディスク(disk)が、通常、磁気的にデータを再生する一方、ディスク(disc)は、レーザを用いて光学的にデータを再生する。上記の媒体の組み合わせも、コンピュータ可読媒体の範囲に含まれるべきである。ソフトウェアは、単一の命令または複数の命令を備える可能性があり、いくつかの異なるコードセグメントに、異なるプログラムの間に、および複数のストレージ媒体に分散され得る。例示的なストレージ媒体は、プロセッサが当該ストレージ媒体から情報を読むことができ、当該ストレージ媒体に情報を書き込むことができるようにプロセッサに結合され得る。別法として、ストレージ媒体はプロセッサに一体化される可能性がある。
【0088】
本明細書において開示された方法は、説明された方法を実現するための1つまたは複数のステップまたはアクションを備える。方法のステップおよび/またはアクションは、特許請求の範囲から逸脱せずに互いに交換可能である可能性がある。換言すれば、ステップまたはアクションの特定の順序が、説明されている実施形態の適切な動作のために必要とされない限り、特定のステップおよび/またはアクションの順序および/または使用は、特許請求の範囲から逸脱せずに修正され得る。
【0089】
図に示されたコンポーネント、ステップ、および/もしくは機能のうちの1つまたは複数は、単一のコンポーネント、ステップ、もしくは機能に再配列されるおよび/もしくは組み合わされるか、またはいくつかのコンポーネント、ステップ、もしくは機能で実施され得る。また、さらなる要素、コンポーネント、ステップ、および/または機能が、追加される可能性がある。図に示された装置、デバイス、および/またはコンポーネントは、その他の図に示された方法、特徴、またはステップのうちの1つまたは複数を実行するように構成または適合され得る。本明細書に記載のアルゴリズムは、例えば、ソフトウェアおよび/または埋め込みハードウェアで効率的に実装され得る。
【0090】
上述の構成は、単に例であるに過ぎず、特許請求の範囲を限定するとみなされるべきでないことに留意されたい。構成の説明は、例示的であるように意図されており、特許請求の範囲を限定するように意図されていない。したがって、この教示は、その他の種類の装置に容易に適用されることができ、多くの代替と、修正と、変更とが、当業者に明らかであろう。
【技術分野】
【0001】
合衆国法典第35編(米国特許法)第119条の下での優先権の主張
本特許出願は、本出願の譲受人に譲渡され、ここで参照により本明細書にはっきりと組み込まれる2010年1月8日に出願された「Keypoint Stabilization Technique」と題された米国仮出願第61/293,437号の優先権を主張するものである。
【0002】
1つの特徴は、コンピュータビジョンに関し、より具体的には、画像認識システムの性能および/または効率を改善するための方法と技術とに関する。
【背景技術】
【0003】
さまざまな用途が、視覚的表現(例えば、画像または写真)内の物体を特定することができる機械またはプロセッサを有することから恩恵を受けることができる。コンピュータビジョンの分野は、物体または特徴が1つまたは複数のキーポイントを特定する記述子によって特徴づけられ得る、画像内の物体または特徴を特定することを可能にする技術および/またはアルゴリズムを提供することを試みる。また、SIFT(スケール不変特徴変換)などのこれらの技術および/またはアルゴリズムは、用途の中でもとりわけ、画像認識、物体検出、画像マッチング、3次元構造の構築、ステレオ対応、および/またはモーショントラッキング、顔認識に適用されることが多い。
【0004】
概して、物体または特徴認識は、特徴の特定、画像検索、および/または物体認識の目的で、画像内の注目される点(キーポイントとも呼ばれる)および/またはそれらのキーポイントの周辺の局所的特徴を特定することを含み得る。特徴の高い安定性と再現性とが、これらの認識アルゴリズムにおいて非常に重要である。したがって、キーポイントは、それらのキーポイントが、画像のスケールの変化および/または回転に対して不変であり、広い範囲の変形、視点の変化、および/または雑音と照明の変化とに対して強いマッチングを提供するように選択および/または処理され得る。さらに、画像検索および物体認識などのタスクによく適したものであるために、特徴記述子は、単一の特徴が複数の目標画像からの特徴の大きなデータベースに対して高い確率で正しくマッチングされ得るという意味で弁別的であることが好ましい可能性がある。
【0005】
画像内のキーポイントが検出され、発見された後、それらのキーポイントは、さまざまな記述子を用いることによって特定または記述され得る。例えば、記述子は、画像の特性の中でもとりわけ、形状、色、質感、回転、および/または動きなどの画像内の内容の視覚的特徴を表す可能性がある。次に、キーポイントに対応し、記述子によって表される個々の特徴が、既知の物体からの特徴のデータベースにマッチングされる。
【0006】
画像のキーポイントを特定し、選択することの一部として、選択された一部の点が、精度または信頼性が足りないために破棄される必要がある可能性がある。例えば、一部の最初に検出されたキーポイントは、コントラストの不足および/またはエッジに沿った不良なローカライズ(localization)のために拒絶される可能性がある。そのような拒絶は、照明と、雑音と、向きの変化とに対するキーポイントの安定性を高めるのに重要である。特徴のマッチングの再現性を低下させる誤ったキーポイントの拒絶を最小化することも重要である。しかし、空間的に変わる照明の変化を有することは、影を落とすことなどの影響によって、実際に、注目される特徴が完全に無視されてしまい、物体認識の再現性を低下させる可能性があるので、特徴検出に関する重大な問題を引き起こす。
【0007】
したがって、物体認識アルゴリズム中の特徴選択のために、局所的なおよび大域的な照明の変化に適応的な閾値を定義するための方法または手法が必要とされる。
【発明の概要】
【0008】
以下の説明は、いくつかの実施形態の基本的な理解を与えるために1つまたは複数の実施形態の簡素化された概要を示す。この概要は、すべての考えられる実施形態の広範な概観ではなく、すべての実施形態の重要なまたは決定的な要素を特定するようにも、任意のまたはすべての実施形態の範囲を定めるようにも意図されていない。この概要の唯一の目的は、後で提示されるより詳細な説明の前置きとして1つまたは複数の実施形態のいくつかの概念を簡素化された形態で提示することである。
【0009】
画像内のキーポイント/特徴検出に対する照明の変化の影響を軽減するための、画像の特徴検出デバイスで動作する方法が、提供される。画像が、画像の複数の平滑化されたバージョンを得るために、異なるスケーリング幅(scaling width)の複数の平滑化カーネル(smoothening kernel)と畳み込まれる可能性があり、複数の平滑化されたバージョンは、尺度空間ピラミッドを定義する。尺度空間の差画像が、画像の2つの異なる平滑化されたバージョンの間の差をとることによって生成され得る。画像の2つの異なる平滑化されたバージョンは、平滑化された尺度空間ピラミッド内の隣り合うレベルである可能性がある。例えば、画像の第3の平滑化されたバージョンが、画像の2つの異なる平滑化されたバージョンのスケール(例えば、平滑化カーネル)のうちでより大きい方と同じか、またはそれよりも広いスケール(例えば、平滑化カーネル)を有する可能性がある。このプロセスは、画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成するために繰り返される可能性があり、尺度空間の差画像は、尺度空間の差の一部を形成する。
【0010】
正規化された尺度空間の差画像が、画像の第3の平滑化されたバージョンによって尺度空間の差画像を割ることによって生成される可能性があり、画像の2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である画像の第3の平滑化されたバージョン。画像に関する1つまたは複数の特徴の検出が、正規化された尺度空間の差画像を用いることによって実行され得る。画像に関する1つまたは複数の特徴は、正規化された尺度空間の差画像内の局所的極値を検出することによって正規化された尺度空間の差を用いて特定され得る。各特長は、キーポイントと、そのキーポイントを囲むポイントについての情報とを含み得る。次に、画像に関する記述子が、特定された1つまたは複数の特徴に基づいて生成され得る。
【0011】
同様に、画像内のキーポイント/特徴検出に対する照明の変化の影響を軽減するための、画像の特徴検出デバイスが、提供され得る。特徴検出デバイスは、尺度空間生成器、尺度空間の差生成器、尺度空間の差生成器正規化器、特徴検出器、および/または特徴記述子生成器を含み得る。尺度空間生成器は、画像の複数の平滑化されたバージョンを得るために、画像を異なるスケーリング幅の複数の平滑化カーネルと畳み込むように適合される可能性があり、複数の平滑化されたバージョンは、尺度空間ピラミッドを定義する。尺度空間の差生成器は、画像の2つの異なる平滑化されたバージョンの間の差をとることによって尺度空間の差画像を生成するように適合され得る。画像の2つの異なる平滑化されたバージョンは、平滑化された尺度空間ピラミッド内の隣り合うレベルである可能性がある。尺度空間の差生成器は、画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成するようにさらに適合される可能性があり、尺度空間の差画像は、尺度空間の差の一部を形成する。
【0012】
尺度空間の差生成器正規化器は、画像の第3の平滑化されたバージョンによって尺度空間の差画像を割ることによって正規化された尺度空間の差画像を生成するように適合される可能性があり、画像の第3の平滑化されたバージョンは、画像の2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である。画像の第3の平滑化されたバージョンは、画像の2つの異なる平滑化されたバージョンのスケール(例えば、平滑化カーネル)のうちでより大きい方と同じか、またはそれよりも広いスケール(例えば、平滑化カーネル)を有する可能性がある。
【0013】
特徴検出器は、画像に関する1つまたは複数の特徴を検出するために、正規化された尺度空間の差画像を使用するように適合され得る。特徴検出器は、正規化された尺度空間の差画像内の局所的極値を検出することによって正規化された尺度空間の差を用いて画像に関する特徴を特定するように適合され得る。特徴記述子生成器は、特定された1つまたは複数の特徴に基づいて画像に関する記述子を生成するように適合され得る。
【0014】
さまざまな特徴と、性質と、利点とが、同様の参照符号が全体を通して同様に構成要素を特定する図面と共に理解されるとき、以下に記載された詳細な説明から明らかとなるであろう。
【図面の簡単な説明】
【0015】
【図1】問い合わせされた画像に対して物体認識を実行するための機能的段階を示すブロック図。
【図2】例示的な画像処理段階におけるガウス尺度空間(Gaussian scale space)生成を示す図。
【図3】例示的な画像処理段階における特徴検出を示す図。
【図4】例示的な画像処理段階における特徴記述子抽出を示す図。
【図5】照明に対して不変な特徴/キーポイント検出のための尺度空間正規化の例を示す図。
【図6】正規化された尺度空間の差の1つのレベルがどのように得られ得るかの一例を示す図。
【図7】照明の変化に影響されにくい改善された特徴検出のための正規化された尺度空間の差を生成するための方法を示す図。
【図8A】通常の特徴検出手法を用いると、画像の特徴検出が照明の変化によってどのように影響を受ける可能性があるのかを示す図。
【図8B】通常の特徴検出手法を用いると、画像の特徴検出が照明の変化によってどのように影響を受ける可能性があるのかを示す図。
【図8C】通常の特徴検出手法を用いると、画像の特徴検出が照明の変化によってどのように影響を受ける可能性があるのかを示す図。
【図9A】特徴検出の前に尺度空間の差を正規化することが、照明の変化に関係なく、図8と比較してより多くの特徴を検出するのにどのように役立つのかを示す図。
【図9B】特徴検出の前に尺度空間の差を正規化することが、照明の変化に関係なく、図8と比較してより多くの特徴を検出するのにどのように役立つのかを示す図。
【図9C】特徴検出の前に尺度空間の差を正規化することが、照明の変化に関係なく、図8と比較してより多くの特徴を検出するのにどのように役立つのかを示す図。
【図10A】ガウス尺度空間の差と正規化されたガウス尺度空間の差との間の比較を示す図。
【図10B】ガウス尺度空間の差と正規化されたガウス尺度空間の差との間の比較を示す図。
【図11A】尺度空間の差の正規化がキーポイントマッチングの検証に及ぼす影響を示す図。
【図11B】尺度空間の差の正規化がキーポイントマッチングの検証に及ぼす影響を示す図。
【図12】照明に対して不変な特徴検出デバイスの例を示すブロック図。
【図13】特徴検出のために正規化された尺度空間の差を使用する画像マッチングデバイスの例を示すブロック図。
【図14】画像または物体認識の目的で画像処理を実行するように適合された例示的なモバイルデバイスを示すブロック図。
【図15】正規化された尺度空間の差を使用する特徴検出のための方法を示す図。
【発明を実施するための形態】
【0016】
ここから、さまざまな実施形態が、全体を通じて同様の要素を示すために同様の参照番号が使用される図面を参照して説明される。以下の説明において、説明の目的で、1つまたは複数の実施形態の完全な理解を与えるために多くの具体的な詳細が説明される。しかし、そのような(1つまたは複数の)実施形態がこれらの具体的な詳細なしに実施され得ることは明らかであろう。その他の場合、1つまたは複数の実施形態を説明することを容易にするために、よく知られた構造とデバイスとがブロック図の形態で示される。
【0017】
概観
本明細書に記載のさまざまな特徴は、画像認識の速度および/または効率を改善することに関する。第1の態様によれば、画像全体にわたる(一様であるかまたは一様でないかのいずれかの)照明の影響が、特徴/キーポイント検出の前に尺度空間の差を正規化することによって取り除かれるかまたは軽減される。次に、特徴/キーポイント検出が、正規化された尺度空間の差に対して実行される。
【0018】
概して、画像内の照明は、空間的に変わる関数によって表され得ることが認識される。したがって、照明の影響(例えば、陰影、明るい画像、暗い画像など)は、照明の作用を取り除く正規化プロセスによって、特徴/キーポイント検出の目的で無力化され得る。例えば、画像は、画像の平滑化された尺度空間Lを生成するために、さまざまな平滑化因子を有する関数G(すなわち、カーネルまたはフィルタ)を用いて画像を次第にぼかすことによって処理され得る。次に、画像に関する尺度空間の差Dが、平滑化された尺度空間のレベルの隣り合う対(Li−Li-1)の間の差をとることによって取得され得る。それから、尺度空間Lの差の正規化が、尺度空間のレベルの特定の差Diを得るために使用された尺度空間のレベルLiのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である平滑化された尺度空間のレベルLkによって尺度空間のレベルのそれぞれの差Diを割ることによって実現される。
【0019】
例示的な物体認識プロセス
図1は、問い合わせされた画像に対して物体認識を実行するための機能的段階を示すブロック図である。画像取り込み段階102において、注目される画像108(すなわち、問い合わせされる画像)が、取り込まれ得る。画像108は、デジタル形式の取り込まれた画像を得るために、1つまたは複数のイメージセンサーおよび/またはアナログデジタルコンバータを含み得る画像取り込みデバイスによって取り込まれ得る。イメージセンサー(例えば、電荷結合素子(CCD)、相補型金属半導体(CMOS))は、光を電子に変換することができる。電子は、アナログ信号を形成することができ、次に、そのアナログ信号は、アナログデジタルコンバータによってデジタル値に変換される。このようにして、画像108が、画像I(x,y)を、例えば、対応する色、照度、および/またはその他の特性を有する複数の画素として定義する可能性があるデジタル形式で取り込まれ得る。
【0020】
画像処理段階104において、次に、取り込まれた画像108が、対応する尺度空間(例えば、ガウス尺度空間)を生成すること110と、特徴検出を実行すること112と、特徴記述子抽出を実行すること116とによって処理される。特徴検出112は、取り込まれた画像108に関する非常に弁別的なキーポイントおよび/または幾何学的に注目されるキーポイントを特定することができ、続いて、それらのキーポイントは、複数の記述子を得るために特徴記述子抽出116において使用され得る。画像比較段階106において、これらの記述子が、既知の記述子のデータベースとの(例えば、キーポイントおよび/またはキーポイントのその他の特性もしくはキーポイントを囲むパッチを比較することによる)特徴マッチング122を実行するために使用される。次に、幾何学的検証または一致の検査124が、正しい特徴の一致を確認し、一致結果126を提供するためにキーポイントの一致に対して実行される。このようにして、問い合わせされた画像が、目標画像のデータベースと比較され、および/または目標画像のデータベースから特定され得る。
【0021】
画像内の照明の変化が、画像に関する特徴/キーポイント認識の安定性および/または再現性に有害な影響を与える可能性があることが観察された。つまり、画像内の局所的なおよび/または大域的な照明の変化が、画像に関する特徴/キーポイントの検出に影響を与える可能性がある。例えば、特徴/キーポイントの数および/または位置が、画像内の照明(例えば、陰影、コントラストなど)によって変換する可能性がある。したがって、画像内の特徴/キーポイント検出の前に局所的なおよび/または大域的な照明の変化の影響を実質的に取り除くか、または最小化することが有益である。
【0022】
これを行うための1つの方法は、その画像自体を処理して、特徴/キーポイント検出を開始する前に局所的なおよび/または大域的な照明の変化を取り除くか、またはそのような照明の変化を補償することである可能性がある。しかし、そのようなプロセスは、計算量が膨大である可能性がある。さらに、局所的なおよび/または大域的な照明の変化が画像内に存在するかどうかを判定することが難しい場合が多い。また、そのようなプロセスは、データベース内の画像に対して適用される必要がある。初めに目標画像とデータベースの画像の両方を処理して照明の変化を補正しないと、特徴/キーポイントマッチングは、成功しない可能性がある。しかし、照明が特定の画像にどのように影響する可能性があるかの事前の知識がないと、このプロセスは、自動的に実施するのが非常に難しい。
【0023】
したがって、実質的な処理のオーバヘッドなしに実行可能な代替的方法が必要とされる。一例によれば、特徴検出を目的とする画像全体にわたる(一様であるかまたは一様でないかのいずれかの)照明の影響が、特徴/キーポイント検出が尺度空間の差に対して実行される前に尺度空間の差を正規化することによって取り除かれるかまたは軽減され得る。この正規化プロセスは、既に利用可能である平滑化された尺度空間を用いて実行されることができ、したがって、あらゆる追加的な計算を最小化する。
【0024】
一例によれば、尺度空間正規化器114が、照明の変化が画像内のキーポイント/特徴認識に与える影響を軽減するか、または取り除くために尺度空間生成110の一部として実装され得る。
【0025】
図2は、例示的な画像処理段階104におけるガウス尺度空間生成を示す。スケール不変特徴変換(SIFT)などのいくつかのアルゴリズムが、画像内の特徴検出を実行するために開発された。画像内の特定の物体の検出に向けた第1のステップは、問い合わせされた物体をその物体の局所的な特徴に基づいて分類することである。この目的は、例えば、照明、画像の雑音、回転、スケーリング、および/または視点のわずかな変化に対して不変であるおよび/またはそれらに対して強い特徴を特定し、選択することである。つまり、問い合わせ画像と比較目標画像との間の一致が、2つの画像の間の照明、画像の雑音、回転、スケール、および/または視点の差に関係なく発見されなければならない。これを行うための1つの方法は、画像のパッチに対して極値検出(例えば、局所的極大値または極小値)を実行して非常に弁別的な特徴(例えば、画像内の弁別的な点、画素、および/または領域)を特定することである。
【0026】
SIFTは、照明の変化、画像の雑音、回転、スケーリング、および/または視点のわずかな変化に対して適度に不変的である局所的な特徴を検出し、抽出するための1つの手法である。SIFTに関する画像処理段階104は、(a)尺度空間極値検出、(b)キーポイントのローカライズ、(c)オリエンテーション(orientation)の割り当て、および/または(d)キーポイント記述子の生成を含み得る。とりわけ、高速化ロバスト特徴(SURF:Speed Up Robust Features)、勾配位置およびオリエンテーションヒストグラム(GLOH:Gradient Location and Orientation Histogram)、局所的エネルギーに基づく形状ヒストグラム(LESH:Local Energy based Shape Histogram)、圧縮勾配ヒストグラム(CHoG:Compressed Histogram of Gradients)を含む特徴検出とその後の特徴記述子生成とのための代替的なアルゴリズムが、本明細書に記載の特徴からやはり恩恵を受ける可能性があることは明らかであるに違いない。
【0027】
ガウス尺度空間生成110において、デジタル画像I(x,y)108は、ガウシアンピラミッド202を構築するために漸進的にガウスぼかしを施される(すなわち、平滑化される)。概して、ガウスぼかし(平滑化)、は、ガウスぼかし/平滑化関数L(x,y,cσ)がL(x,y,cσ)=G(x,y,cσ)*I(x,y)と定義されるように、元画像I(x,y)を、スケールcσのガウスぼかし/平滑化関数G(x,y,cσ)と畳み込むことを含む。ここで、Gは、ガウスカーネルであり、cσは、画像I(x,y)をぼかすために使用されるガウス関数の標準偏差を表す。乗数cは変更され(c0<c1<c2<c3<c4)、標準偏差cσは変化し、漸進的なぼかし/平滑化が得られる。シグマ(sigma)σは、基本的なスケールの変数(例えば、ガウスカーネルの幅)である。より高いスケール(すなわち、より低い解像度)は、より低いスケール(すなわち、より高い解像度)よりもぼかされる/平滑化される。したがって、スケールレベルが広いほど(すなわち、解像度が低いほど)、画像はより平滑である(よりぼかされる)。
【0028】
初期画像I(x,y)が、ぼかされた画像Lを生成するためにガウシアンGと漸進的に畳み込まれるとき、ぼかされた画像Lは、尺度空間において定数因子cによって分けられる。ガウスぼかしを施された(平滑化された)画像Lの数が増え、ガウシアンピラミッド202に与えられる近似が連続空間に近づくにつれ、2つのスケールも1つのスケールに近づく。一例において、畳み込まれた画像Lは、オクターブ(octave)によってグループ化されることができ、オクターブは、標準偏差σの値を倍にすることに相当する可能性がある。さらに、乗数cの値(例えば、c0<c1<c2<c3<c4...)は、オクターブごとに決まった数の畳み込まれた画像Lが得られるように選択される。スケーリングの各オクターブは、明示的な画像のサイズ変更に相当する。したがって、元画像I(x,y)が漸進的なぼかし/平滑化関数によってぼかされる/平滑化されるにつれ、画素の数が次第に減らされる。本明細書においては、ガウス平滑化関数が例示を目的として使用されるが、その他の種類の平滑化カーネル/関数が使用され得ることに留意されたい。
【0029】
ガウシアンピラミッド202内の任意の2つの連続するガウスぼかしを施された画像の差を計算することによって構築されたガウシアンの差(DoG:difference of Gaussian)ピラミッド204。DoG空間204において、D(x,y,a)=L(x,y,cnσ)−L(x,y,cn-1σ)である。DoG画像D(x,y,σ)は、スケールcnσとcn-1σとの2つの隣り合うガウスぼかしを施された画像Lの間の差である。D(x,y,σ)のスケールは、cnσとcn-1σとの間のどこかにある。DoG画像Dは、オクターブごとに、隣り合うガウスぼかしを施された画像Lから得られる可能性がある。各オクターブの後、ガウス画像(Gaussian image)が2分の1にダウンサンプリングされる可能性があり、次いで、このプロセスが繰り返される。このようにして、画像が、平行移動、回転、スケール、ならびに/またはその他の画像パラメータおよび/もしくは変形に対して強いか、またはそれらに対して不変である局所的な特徴に変換され得る。
【0030】
生成されると、問い合わせされた画像に関するDoG空間204は、注目される特徴を特定する(例えば、画像内の非常に弁別的な点を特定する)ための極値検出に利用され得る。これらの非常に弁別的な点は、本明細書においてはキーポイントと呼ばれる。これらのキーポイントは、各キーポイントを囲むパッチまたは局所領域の特性によって特定され得る。記述子が、各キーポイントとそのキーポイントの対応するパッチとに対して生成されることができ、その記述子は、問い合わせ画像と記憶された目標画像との間のキーポイントの比較に使用され得る。「特徴」は、記述子(すなわち、キーポイントとそのキーポイントの対応するパッチと)を指す可能性がある。一群の特徴(すなわち、キーポイントと対応するパッチと)は、クラスター(cluster)と呼ばれることがある。
【0031】
図3は、例示的な画像処理段階104における特徴検出を示す。特徴検出112において、DoG空間204が、画像I(x,y)に関するキーポイントを特定するために使用され得る。特徴検出112は、画像内の特定のサンプル点または画素のまわりの局所領域またはパッチが(幾何学的に言って)潜在的に注目されるパッチであるかどうかを判定しようとする。
【0032】
概して、DoG空間204内の局所的極大値および/または局所的極小値が、特定され、これらの極大値と極小値との位置が、DoG空間204内のキーポイントの位置として使用される。図3に示された例において、キーポイント308が、パッチ306を用いて特定された。局所的極大値と局所的極小値とを発見すること(局所的極値検出としても知られる)は、DoG空間204内の各画素(例えば、キーポイント308に関する画素)を、同じスケールのその画素の8つの隣接する画素と、キーポイント408の両側の隣接するスケールのそれぞれの(隣り合うパッチ310と312との内の)9つの隣接する画素との全部で26個の画素(9x2+8=26)と比較することによって実行され得る。ここでは、パッチは、3x3画素の領域と定義される。概して、キーポイント306に関する画素値がパッチ306と、310と、308との中の26個の比較される画素のすべての中で最大または最小である場合、そのキーポイント306が、キーポイントとして選択される。キーポイントは、それらのキーポイントの位置がより正確に特定されるようにさらに処理される可能性があり、コントラストの低いキーポイントおよびエッジのキーポイントなどのキーポイントの一部が、破棄される可能性がある。
【0033】
図4は、例示的な画像処理段階104における特徴記述子抽出を示す。概して、特徴(例えば、キーポイントとそのキーポイントの対応するパッチと)は、(問い合わせ画像からの)特徴の、目標画像のデータベース内に記憶された特徴との効率的な比較を可能にする記述子によって表され得る。特徴記述子抽出116の一例において、各キーポイントは、局所的な画像の勾配の方向に基づいて1つまたは複数のオリエンテーションまたは方向を割り当てられ得る。局所的な画像の属性に基づいて各キーポイントに一貫したオリエンテーションを割り当てることによって、キーポイント記述子は、このオリエンテーションに対して相対的に表現されることができ、したがって、画像の回転に対する不変性を実現することができる。大きさと方向との計算が、ガウスぼかしを施された画像L内のおよび/またはキーポイントのスケールのキーポイント308のまわりの近傍の領域内のすべての画素に対して実行され得る。(x,y)に位置するキーポイント308に関する勾配の大きさは、m(x,y)と表されることができ、(x,y)のキーポイントに関する勾配のオリエンテーションまたは方向は、Γ(x,y)と表されることができる。キーポイントのスケールは、すべての計算がスケールに対して不変であるようにして実行されるように、キーポイント308のスケールに最も近いスケールのガウス平滑化された画像Lを選択するために使用される。このスケールの各画像サンプルL(x,y)に関して、勾配の大きさm(x,y)とオリエンテーションΓ(x,y)とが、画素の差を用いて計算される。例えば、大きさm(x,y)は、
【数1】
【0034】
のように計算され得る。方向またはオリエンテーションΓ(x,y)は、
【数2】
【0035】
のように計算され得る。ここで、L(x,y)は、やはりキーポイントのスケールであるスケールσのガウスぼかしを施された画像L(x、y、σ)のサンプルである。
【0036】
キーポイント308の勾配は、DoG空間内のキーポイントの平面より上の、より高いスケールに存在するガウシアンピラミッド内の平面に対してか、またはキーポイントよりも下の、より低いスケールに存在するガウシアンピラミッドの平面内でかのいずれかで一貫して計算され得る。どちらにしても、各キーポイントに関して、勾配は、キーポイントを囲む矩形領域(例えば、パッチ)内ですべて1つの同じスケールで計算される。さらに、画像信号の周波数が、ガウスぼかしを施された画像のスケールに反映される。さらに、SIFTは、単に、パッチ(例えば、矩形領域)内のすべての画素の勾配値を使用する。パッチがキーポイントのまわりに定義され、サブブロックがブロック内に定義され、サンプルがサブブロック内に定義され、この構造は、キーポイントのスケールが異なるときでさえもすべてのキーポイントに対して同じままである。したがって、画像信号の周波数が同じオクターブ内でガウス平滑化フィルタを連続的に適用することによって変化するが、異なるスケールで特定されたキーポイントが、スケールによって表される画像信号の周波数の変化に無関係に同じサンプル数でサンプリングされ得る。
【0037】
キーポイントのオリエンテーションを特徴づけるために、(SIFTにおいては)勾配のオリエンテーションのベクトルが、(キーポイントのスケールに最も近いスケールのガウス画像を用いて)キーポイント308の近傍で生成され得る。しかし、キーポイントのオリエンテーションは、例えば、圧縮勾配ヒストグラム(CHoG)を用いることによって勾配のオリエンテーションのヒストグラムによって表されることもできる(図4参照)。それぞれの近傍の画素の寄与は、勾配の大きさとガウス窓とによって重みづけされ得る。ヒストグラム内のピークが、主なオリエンテーションに対応する。キーポイントのすべての属性は、キーポイントのオリエンテーションに対して相対的に測定されることができ、このことは、回転に対する不変性をもたらす。
【0038】
一例において、ガウス重みをつけられた(Gaussian-weighted)勾配の分布が、各ブロックに対して計算されることができ、各ブロックは、2サブブロック×2サブブロックの合計4サブブロックである。ガウス重みをつけられた勾配の分布を計算するために、いくつかのビンを有するオリエンテーションのヒストグラムが、各ビンがキーポイントのまわりの領域の一部をカバーするようにして形成される。例えば、オリエンテーションのヒストグラムは、36個のビンを有する可能性があり、各ビンは、360度のオリエンテーションの範囲のうちの10度をカバーする。代替的に、ヒストグラムは、それぞれが360度の範囲のうちの45度をカバーする8つのビンを有する可能性がある。本明細書に記載のヒストグラムコーディング技術は、任意の数のビンのヒストグラムに適用できる可能性があることは明らかであるに違いない。最終的にヒストグラムを生成するその他の技術も、使用され得ることに留意されたい。
【0039】
勾配の分布とオリエンテーションのヒストグラムとは、さまざまな方法で得られ得る。例えば、2次元の勾配の分布(dx,dy)(例えば、ブロック406)が、1次元の分布(例えば、ヒストグラム414)に変換される。キーポイント408は、キーポイント408を囲むパッチ406(セルまたは領域とも呼ばれる)の中心に位置する。ピラミッドの各レベルに関して事前に計算される勾配が、各サンプル位置408で小さな矢印として示される。示されるように、サンプル408の4x4の領域が、サブブロック410を形成し、サブブロックの2x2の領域が、ブロック406を形成する。ブロック406は、記述子窓(descriptor window)とも呼ばれる可能性がある。ガウス重みづけ関数(Gaussian weighting function)が、円402によって示され、各サンプル点408の大きさに重みを割り当てるために使用される。円形の窓402内の重みは、滑らかに減少する。ガウス窓402の目的は、窓の位置のわずかな変化によって記述子が突然変わることを防ぐことと、記述子の中心から遠く離れた勾配の重要性を弱めることとである。オリエンテーションのヒストグラムの2x2=4配列412が、ヒストグラムの各ビンの8つのオリエンテーションを用いて2x2サブブロックから得られ、(2x2)x8=32次元の特徴記述子ベクトルをもたらす。例えば、オリエンテーションのヒストグラム413と415とは、サブブロック410に関する勾配の分布に対応する可能性がある。しかし、各キーポイントに対して(4x4)x8=128次元の特徴記述子ベクトルをもたらす、各ヒストグラム内に8つのオリエンテーションを有するヒストグラム(8ビンヒストグラム)の4x4配列を用いることが、より良好な結果をもたらす可能性がある。(例えば、異なるボロノイセル(Voronoi cell)構造を有する)その他の種類の量子化ビン配列が、勾配の分布を得るために使用される可能性もあることに留意されたい。
【0040】
本明細書において使用されるとき、ヒストグラムは、ビンとして知られるさまざまな重ならないカテゴリーに入る観測値、サンプル、または事象(例えば、勾配)の数をカウントする写像kiである。ヒストグラムのグラフは、単に、ヒストグラムを表現する1つの方法であるに過ぎない。したがって、kが観測値、サンプル、または事象の総数であり、mがビンの総数である場合、ヒストグラムの頻度kiは、以下の条件、
【数3】
【0041】
を満たし、ここで、
【数4】
【0042】
は、総和演算子である。
【0043】
サブブロックからのヒストグラムは、キーポイントに関する特徴記述子ベクトルを得るために連結され得る。16個のサブブロックからの8ビンヒストグラムの勾配が使用される場合、128次元の特徴記述子ベクトルが、生じる可能性がある。
【0044】
このようにして、記述子が、特定された各キーポイントに関して得られる可能性があり、そのような記述子は、位置(x,y)と、オリエンテーションと、ガウス重みをつけられた勾配の分布の記述子とによって特徴づけられ得る。画像は、1つまたは複数のキーポイント記述子(画像記述子とも呼ばれる)によって特徴づけられ得ることに留意されたい。さらに、記述子は、位置情報(例えば、キーポイントに関する座標)と、スケール(例えば、キーポイントが検出されたガウススケール(Gaussian scale))と、クラスター識別子などのその他の情報とをやはり含む可能性がある。
【0045】
ガウシアンの差空間204で処理することにより、画像の輝度のあらゆるレベルの変化(輝度に対する空間的に一様な付加的なバイアス)は、完全に無視される。しかし、輝度のスケールの変化は、キーポイントが判定され、最終的に選択または拒絶される方法に影響を与える。このことは、一様な乗数的な輝度因子と空間的に変わる乗数的な輝度因子の両方に当てはまる。キーポイント検出と全く同じぐらい、画像内でのそのキーポイントのローカライズが重要である。物体は、その物体の特徴の幾何学的内容と、それらの空間的相互関係によって分類される。ゆえに、キーポイントの計算された位置は重要な要素であり、したがって、キーポイントが検出されるとしても、そのキーポイントのローカライズが、いかなる輝度のスケールの変化に対しても不変な方法で計算されなければならない。
【0046】
そのため、キーポイントを特定し、記述子を生成する前に、1つの特徴が、キーポイントが検出される尺度空間から照明の影響を軽減し、取り除き、および/またはフィルタリングするために、ガウシアンの差空間204を正規化することを提供する。
【0047】
例示的な尺度空間の差の正規化
図5は、照明に対して不変な特徴/キーポイント検出のための尺度空間正規化の例を示す。画像I(x,y)502が、平滑化された尺度空間ピラミッド506を生成するために、異なるスケールciσの平滑化カーネルG(x,y,ciσ)504と畳み込まれることができ、ここで、iは0とnの間の整数である。平滑化カーネルは、ガウスカーネルおよび/またはその他の種類の平滑化関数であってよいことに留意されたい。平滑化された尺度空間ピラミッド506の2つ隣り合う尺度空間の間の差が、尺度空間の差508を得るために取得され得る。
【0048】
尺度空間の差508の各レベルが、画像I(x,y)502と畳み込まれた異なるスケールの平滑化カーネル504の差(例えば、G(x,y,cj+1σ)−G(x,y,cjσ))として定義され得ることが初めに認識される。これは、2つの対応する平滑化された尺度空間の差(例えば、L(x,y,cj+1σ)−L(x,y,cjσ))に等しい。したがって、2つの平滑化尺度空間の差は、
【数5】
【0049】
と表され得る。
【0050】
照明がスケーリング関数S(x,y)と表される場合、2つの平滑化尺度空間の差に対する照明の変化は、
【数6】
【0051】
と表され得ることも認識される。ここで、通常の場合、照明スケーリング関数S(x,y)は、空間的に変わるか、または空間的に一定である可能性がある。
【0052】
しかし、実行時に照明をモデル化し、照明スケーリング関数S(x,y)を得ることは実用的でないおよび/または実現不可能である。したがって、特徴選択および/または選別が通常実行される特徴空間(例えば、DoG空間508)から照明によって不偏な基本的特徴(例えば、キーポイント)を強調する代替的な手法が、本明細書において開示される。この代替的な手法によれば、画像I(x,y)502の輝度の分布が、画像I(x,y)502から抽出される尺度空間情報を使用することによって正規化される。照明についての事前の情報は、必要とされない。この方法は、いかなる大きな計算と処理とももたらすことなしに、異なる照明の変化に対して一貫したレベルで、安定した特徴を選択することを可能にし、再現性を向上する。
【0053】
これを行うために、特徴検出が行われる尺度空間の差508が、より広い尺度空間によって正規化され得る。この手法は、
【数7】
【0054】
によって定義されることができ、
ここで、
第1のガウス平滑化カーネルG(x,y,cj+1σ)は、第2のガウス平滑化カーネルG(x,y,cjσ)よりも広く(すなわち、スケールcj+1σはスケールcjσよりも広く、ここで、jは0とnの間の正の整数である)、
I(x,y)は、処理されている画像またはその派生物(例えば、画像の反射特性(reflective property))であり、
S(x,y)は、照明スケーリング関数であり、
G(x,y,cj+1+hσ)は、第2の平滑化カーネルG(x,y,cj+1σ)と同じだけ広いか、またはそれよりも広い尺度空間を有する第3の平滑化カーネルであり、ここで、hは0とnの間の正の整数である。尺度空間の差508のすべてのレベルでこのプロセスを繰り返すことによって、正規化された尺度空間の差510が、生成され得る。例えば、G(x,y,cj+1σ)とG(x,y,cjσ)とによって定義された差分尺度空間に対して、正規化関数は、G(x,y,cj+1σ)またはそれより上の任意のもの(すなわち、G(x,y,cj+2σ)、G(x,y,cj+3σ)、...)である可能性がある。正規化関数は、差分尺度空間で使用された両方の平滑化カーネルよりも大きい必要はなく、正規化関数は、単に、より平滑なものであることを必要とする。別の例において、正規化関数は、使用された第1の平滑化カーネルと第2の平滑化カーネルとの合計(すなわち、G(x,y,cj+1σ)+G(x,y,cjσ))である可能性があり、したがって、
【数8】
【0055】
である。
【0056】
式6は、
【数9】
【0057】
とも表され得ることに留意されたい。照明スケーリング関数S(x,y)は(式6と、7と、8との)分子と分母の両方に現れるので、照明スケーリング関数S(x,y)のスケーリング効果は、打ち消される。つまり、照明スケーリング関数S(x,y)が正規化に使用される平滑化された画像L(x,y,cj+1+hσ)*S(x,y)に存在するので、その照明スケーリング関数S(x,y)が、尺度空間の差[L(x,y,cj+1σ)−L(x,y,cjσ)]*S(x,y)内の照明スケーリング関数S(x,y)の効果を完全にまたは実質的に打ち消す。上述のように、L(x,y,cj+1+hσ)は、L(x,y,cj+1σ)またはそれよりも高いスケールの画像(すなわち、L(x,y,cj+2σ)、L(x,y,cj+3σ)、...)に等しい可能性がある。このようにして、分母の画像の内容が、その分母の画像の内容がほとんど空間的アーティファクトをもたらさない程度にまで平滑化される。
【0058】
尺度空間の差の正規化において、正規化する平滑化された画像L(x,y,cj+1+hσ)は、(キーポイント/特徴を特定する)局所的極値の位置を変えないために、特徴空間(すなわち、尺度空間の差)を変え過ぎないように選択されなければならない。つまり、尺度空間の差が、スケールに対して不変な特徴を得るのに最適であることが知られているので、尺度空間の差の近い近似が、正規化の後に維持されなければならない。この目的で、平滑化された画像L(x,y,cj+1+hσ)は、その画像のスケールレベルが、高周波数の内容が平均化されるように十分に平滑であるように選択される。換言すれば、平滑化された画像L(x,y,cj+1+hσ)が十分に平坦である場合、尺度空間の差L(x,y,cj+1σ)−L(x,y,cjσ)の形状は、おおむね変わらない(すなわち、特徴/キーポイントの位置は変わらない。一実施形態において、正規化されている差分スケールレベルを得るために使用されたスケールレベルに近い(同じか、または次に高い)スケールレベルの正規化関数を選択することが、過剰な雑音をもたらすことを防ぐので好ましい可能性があることに留意されたい。例えば、G(x,y,cj+1σ)とG(x,y,cjσ)とによって定義される差分尺度空間に対してG(x,y,cj+1σ)のような平滑なスケールを選択することによって、尺度空間内のその特定のレベルに典型的な局所的な不規則性が保たれ得る。
【0059】
上述のように、画像内で検出される特徴の数は、画像内の乗数的な輝度のスケールの変化によって大きく影響を受ける(例えば、減らされる)可能性がある。輝度によって引き起こされるスケーリングは、画像に対するマスクのように作用する傾向があり、これは、幾何学的変形が全くなかったとしても、最終的な特徴空間の内容を大きく減らす。したがって、式6と7との適用によってなされる正規化は、特徴の持つ幾何学的重要性の点で「等しい」特徴が、照明の変化に無関係に検出されることを保証し、それによって、再現性を向上する。
【0060】
図6は、正規化された尺度空間の差の1つのレベルがどのように得られ得るかの一例を示す。ここで、画像I(x,y)602が、第1の平滑化された尺度空間画像L(x,y,cjσ)608を得るために、第1の平滑化カーネルG(x,y,cjσ)と畳み込まれる可能性がある。画像I(x,y)602は、第2の平滑化された尺度空間画像L(x,y,cj+1σ)610を得るために、第2の平滑化カーネルG(x,y,cj+1σ)606とも畳み込まれる可能性がある。第2の平滑化画像610と第1の平滑化画像608との間の差が、尺度空間のレベルの差Dj(x,y,σ)612を得るために取得され得る。尺度空間のレベルのこの差Dj(x,y,σ)612は、正規化された尺度空間のレベルD’j(x,y,σ)614を得るために、より高いスケールの平滑化カーネルG(x,y,cj+1+hσ)616または平滑化された尺度空間画像L(x,y,cj+1+hσ)618に基づいて(式6および/または7にしたがって)正規化され得る。このプロセスが、画像I(x,y)に(スケーリング因子cjσによって設定される)異なる幅の異なる平滑化カーネルを適用することによって繰り返される可能性があり、それによって、平滑化された尺度空間ピラミッドを構築する。尺度空間の差(例えば、図5の508)が、平滑化された尺度空間ピラミッド(例えば、図5の506)の隣り合うレベルの間の差をとることによって構築され得る。正規化された尺度空間の差(例えば、図5の510)が、式6および/または7にしたがって生成され得る。
【0061】
図7は、照明の変化に影響されにくい改善された特徴検出のための正規化された尺度空間の差を生成するための方法を示す。画像I(x,y)を(i=0からnとした異なるciσによって設定される)異なるスケーリング幅の平滑化カーネルG(x,y,ciσ)と畳み込んで、平滑化された尺度空間ピラミッドを構成する、i=0からnとした複数の平滑化された画像L(x,y,ciσ)を得る702。画像I(x,y)は、元画像によって表されることができ4)画像空間I(x,y)を照明スケーリング関数S(x,y)と乗算して、空間的に変わる照明関数S(x,y)を乗算されたスケーリングされた画像空間I0(x,y)を得ることに留意されたい。つまり、画像I(x,y)は、照明関数S(x,y)により全面的にまたは画素ごとに修正された基本画像I0(x,y)によって特徴づけられ得る。一例において、平滑化カーネルG(x,y,ciσ)はガウスカーネルである可能性があり、したがって、平滑化された尺度空間ピラミッドはガウス尺度空間ピラミッドである。
【0062】
次に、平滑化された尺度空間ピラミッド全体にわたって、平滑化された画像の隣り合う対の差L(x,y,cj+1σ)−L(x,y,cjσ)をとることによって、j=0からn−1とした尺度空間の差Dj(x,y,σ)を生成する704。このプロセスが、複数のレベルを有する尺度空間の差を得るために、隣り合う平滑化された画像の複数の組に対して繰り返される。第2の平滑化された画像L(x,y,cj+1σ)を得るために使用される第2の平滑化カーネルG(x,y,cj+1σ)は、第1の平滑化された画像L(x,y,cj+1σ)を得るために使用される第1の平滑化カーネルG(x,y,cjσ)よりも広い可能性があることに留意されたい。
【0063】
次に、j=0からn−1とした正規化された尺度空間の差D’j(x,y,σ)が、それぞれの尺度空間の差Dj(x,y,σ)のレベルを対応する平滑化された画像L(x,y,cj+1+hσ)で割ることによって生成されることができ、それぞれの平滑化された画像L(x,y,cj+1+hσ)は、画像の2つの異なる平滑化されたバージョンL(x,y,cj+1σ)とL(x,y,cjσ)とのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である706。つまり、正規化する平滑化された画像L(x,y,cj+1+hσ)は、画像の2つの異なる平滑化されたバージョンL(x,y,cj+1σ)とL(x,y,cjσ)とのスケール(例えば、平滑化カーネル)のうちでより大きい方と同じか、またはそれよりも広いスケール(例えば、平滑化カーネル)を有する可能性がある。
【0064】
次に、j=0からn−1とした正規化された尺度空間の差D’j(x,y,σ)が、画像I(x,y)に関する特徴を特定するために使用され得る708。例えば、局所的極値(すなわち、極大値または極小値)が、特徴がまわりに定義される可能性があるキーポイントとして特定され得る。そして、記述子が、特定された特徴に基づいて画像I(x,y)に関して生成され得る710。
【0065】
図5と、6と、7とに示された方法は、画像の照明についての事前の情報を必要としない。この方法は、いかなる大きな(大量の)計算と処理とももたらすことなしに、異なる照明の変化に対して一貫したレベルで、画像内の安定した特徴を選択することを可能にし、再現性を向上する。つまり、平滑化された尺度空間が尺度空間の差Dj(x,y,σ)を正規化するために使用される平滑化された画像L(x,y,cj+1+hσ)を既に含むので、除算以外には正規化するために追加的な処理が必要とされない。
【0066】
さらに、特徴が選択される信頼性を適応させることによって、より安定した特徴が、特徴が検出されるスケール(例えば、平滑化のレベル)によって得られる可能性がある。換言すれば、概して、より高いスケールは、画像のより平滑なバージョン(すなわち、よりぼかされた)を含み、そのようなスケールで検出されたキーポイント/特徴は、より高い信頼度を有する。
【0067】
例示的な特徴検出の例
(図8Aと、8Bと、8Cとを備える)図8は、通常の特徴検出手法を用いると、画像の特徴検出が照明の変化によってどのように影響を受ける可能性があるのかを示す。図8Aは、ほぼ一様な照明を有する画像において検出された特徴を示す。図8Bは、画像全体を低レベルにする一様な照明スケーリングを伴う画像において検出された特徴を示す。つまり、図8Aに比して、図8Bの画像は、照明スケーリング(例えば、画像を暗くすること)によって画像全体で検出された特徴がより少ない。図8Cは、空間的に変わる(一様でない)照明スケーリングが特徴検出にどのように影響を与える可能性があるかをよりはっきりと示す。すなわち、図8Aに比して、図8Cの画像は、照明スケーリング(例えば、画像を暗くすること)によって影響を受けた画像の下半分に沿って検出された特徴がより少ない。図8に関して、検出される特徴の数が、画像内の乗数的な輝度のスケールの変化に依存することは明らかである。
【0068】
(図9Aと、9Bと、9Cとを備える)図9は、特徴検出の前に尺度空間の差を正規化することが、照明の変化に関係なく特徴を検出するのにどのように役立つのかを示す。図9Aは、(特徴が検出される)尺度空間の差が初めに正規化されたときに、ほぼ一様な照明を有する画像において検出された特徴を示す。図9Bは、(特徴が検出される)尺度空間の差が初めに正規化されたときに、画像全体を低レベルにする一様な照明スケーリングを伴う画像において検出された特徴を示す。そのような正規化の結果として、図9Bの照明スケーリング(例えば、画像を暗くすること)に関わらず、ほぼ同じ特徴の密度が、図9Aと9Bとにおいて検出される。図9Cは、特徴が検出される尺度空間の差を正規化することが、空間的に変わる照明の変化に関わらず安定したまたは再現性のある特徴検出をどのようにして可能にするのかを示す。そのような正規化の結果として、図9Cの空間的に変わる照明スケーリング(例えば、画像の下半分を暗くすること)に関わらず、ほぼ同じ特徴の密度が、図9Aと9Cとにおいて検出される。図9Aと、9Bと、9Cとから、特徴検出の前に尺度空間の差(例えば、ガウス空間の差)を正規化する開示された技術が、照明の変化の影響をおおむね打ち消すか、または軽減することが理解され得る。
【0069】
(図10Aと10Bとを備える)図10は、ガウス尺度空間の差と正規化されたガウス尺度空間の差との間の比較を示す。図10Aは、(異なるオクターブと、スケールと、スケーリング幅との)複数の画像を有することを備えるガウス尺度空間の差を示し、画像のそれぞれは、元画像の異なる平滑化されたバージョンである。図10Aは、特徴の認識に対する輝度のスケールの変化の有害な影響をはっきりと示す。図10Bは、図5と、6と、7とに示された技術にしたがって正規化された、図10Aと同じガウス尺度空間の差を示す。図10Bは、輝度のスケールの変化に関わらずはっきりと特定できるより多くの特徴を示す。
【0070】
(図11Aと11Bとを備える)図11は、尺度空間の差の正規化がキーポイントマッチングの検証に及ぼす影響を示す。図11Aは、尺度空間の差(例えば、DoG空間)の正規化なしに、一様な照明スケーリングによって影響を受けた試験画像1104内のキーポイントが、データベース画像1102とどのようにマッチングされるかを示す。ここでは、およそ144個のキーポイントが、試験画像1104とデータベース画像1102との間で一致している。図11Bは、尺度空間の差の正規化(例えば、正規化されたDoG空間)を用いて、一様な照明スケーリングによって影響を受けた試験画像1106内のキーポイントが、データベース画像1102とどのようにマッチングされるかを示す。正規化は、図11Aの144個のキーポイントの一致と比較して大きな改善である約495個のキーポイントの一致をもたらす。
【0071】
例示的な特徴検出デバイス
図12は、照明に対して不変な特徴検出デバイスの例を示すブロック図である。特徴検出デバイス1200は、デジタル形式の問い合わせ画像1202を受信または取得することができる。次に、尺度空間生成器1204(例えば、ガウス尺度空間生成器)が、尺度空間を生成するために、問い合わせ画像1202を異なるスケール幅の複数の異なる平滑化カーネル1203と畳み込むことができる。尺度空間は、異なるスケーリング幅まで平滑化される画像の複数の平滑化されたバージョンを備える可能性がある。それから、尺度空間の差生成器1206が、尺度空間から尺度空間の差を生成する。次いで、尺度空間の差正規化器1208が、例えば、それぞれの尺度空間のレベルの差を対応する平滑化された画像で割ることによって尺度空間の差を正規化し、そのような平滑化された画像は、割られる尺度空間の差を生成するために使用された平滑化された画像のうちでより大きい方と同じか、またはそれよりも広いスケールを有する。そして、キーポイント生成器1210が、正規化された尺度空間の差内のキーポイントを特定または検出する。これは、例えば、正規化された尺度空間の差の画素の中の局所的極値(すなわち、極大値または極小値)を発見することによって行われ得る。次に、特徴生成器1212が、例えば、特定されたキーポイントのまわりの局所的な画素を特徴づけることによって特徴を生成することができる。キーポイント生成器1210と特徴生成器1212との機能は、特徴検出器によって実行され得ることに留意されたい。それから、特徴記述子生成器1214が、問い合わせ画像を特定するのに役立つことができる複数の画像記述子1216を提供するための各特徴に関する記述子を生成する。図12に示された機能は、別個の回路によって、または1つもしくは複数のプロセッサによって実行され得る。
【0072】
例示的な画像マッチングデバイス
図13は、特徴検出のために正規化された尺度空間の差を使用する画像マッチングデバイスの例を示すブロック図である。画像マッチングデバイス1300は、通信インターフェース1304、画像取り込みデバイス1306、および/またはストレージデバイス1308に結合された処理回路1302を含み得る。通信インターフェース1304は、有線/ワイヤレスネットワークを介して通信し、画像、および/または1つもしくは複数の画像に関する特徴記述子を受信するように適合され得る。画像取り込みデバイス1306は、例えば、問い合わせ画像を取り込むことができるデジタルカメラである可能性がある。処理回路1302は、画像から特徴を抽出するための画像処理回路1314と、抽出された特徴を用いて問い合わせ画像を目標画像のデータベース1310とマッチングし、および/または問い合わせ画像の記述子を記述子データベース1312とマッチングする画像マッチング回路1316とを含み得る。1つの例示的な実装によれば、画像マッチングアプリケーションが、問い合わせ画像を画像データベース内の1つまたは複数の画像とマッチングするように試みる。画像データベースは、データベース1310に記憶された1つまたは複数の画像に関連する大量の特徴記述子を含み得る。
【0073】
画像処理回路1314は、ガウス尺度空間生成器1322、尺度空間の差生成器1324、尺度空間の差正規化器1326、キーポイント検出器1328、特徴生成器1330、および/または特徴記述子生成器1332を含む特徴特定回路1320を含み得る。ガウス尺度空間生成器1322は、画像をぼかし関数(例えば、平滑化カーネル)と畳み込んで、例えば、図2と5とに示された複数の異なる尺度空間を生成する役割をする可能性がある。それから、尺度空間の差生成器1324が、尺度空間から尺度空間の差を生成する。次いで、尺度空間の差正規化器1326が、例えば、それぞれの尺度空間のレベルの差を対応する平滑化された画像で割ることによって尺度空間の差を正規化し、そのような平滑化された画像は、(図6に示された)割られる尺度空間の差を生成するために使用されたどちらの平滑化された画像よりも広い。そして、キーポイント生成器1328が、(図9に示された)正規化された尺度空間の差内のキーポイントを特定または検出する。これは、例えば、正規化された尺度空間の差の画素の中の局所的極値(すなわち、極大値または極小値)を発見することによって行われ得る。次に、特徴生成器1330が、例えば、(図3に示された)特定されたキーポイントのまわりの局所的な画素を特徴づけることによって特徴を生成することができる。それから、特徴記述子生成器1332が、(図4に示された)問い合わせ画像を特定するのに役立つことができる複数の画像記述子を提供するための各特徴に関する記述子を生成する。
【0074】
そして、画像マッチング回路1316が、特徴記述子に基づいて、問い合わせ画像を画像データベース1310内の画像とマッチングするように試みることができる。一致結果は、(例えば、画像または特徴記述子を送信するモバイルデバイスに)通信インターフェースを介して提供され得る。
【0075】
一部の実装において、問い合わせ画像に関するキーポイントに関連する一組の特徴記述子が、画像マッチングデバイスによって受信され得ることに留意されたい。この場合、問い合わせ画像は、(記述子を得るために)既に処理済みである。したがって、画像処理回路1314は、飛ばされるか、または画像マッチングデバイス1300から取り除かれる可能性がある。
【0076】
例示的なモバイルデバイス
図14は、画像または物体認識の目的で画像処理を実行するように適合された例示的なモバイルデバイスを示すブロック図である。モバイルデバイス1400は、画像取り込みデバイス1404と、通信インターフェース1410と、ストレージデバイス1408とに結合された処理回路1402を含み得る。画像取り込みデバイス1404(例えば、デジタルカメラ)は、注目される問い合わせ画像1406を取り込むように適合されることができ、その問い合わせ画像1406を処理回路1402に提供する。処理回路1402は、取り込まれた画像を処理して特徴記述子を生成するように構成された画像処理回路1414を含む可能性があり、その特徴記述子は、画像/物体認識のために後で送信されるかまたは使用され得る。例えば、画像処理回路1414は、ガウス尺度空間生成器1422、尺度空間の差生成器1424、尺度空間の差正規化器1426、キーポイント検出器1428、特徴生成器1430、および/または特徴記述子生成器1432を含む特徴特定回路1420を含むかまたは実装する可能性がある。ガウス尺度空間生成器1422は、画像をぼかし関数(例えば、平滑化カーネル)と畳み込んで、例えば、図2と5とに示された複数の異なる尺度空間を生成する役割をする可能性がある。それから、尺度空間の差生成器1424が、尺度空間から尺度空間の差を生成する。次いで、尺度空間の差正規化器1426が、例えば、それぞれの尺度空間のレベルの差を対応する平滑化された画像で割ることによって尺度空間の差を正規化し、そのような平滑化された画像は、(図6に示された)割られる尺度空間の差を生成するために使用されたどちらの平滑化された画像よりも広い。そして、キーポイント生成器1428が、(図9に示された)正規化された尺度空間の差内のキーポイントを特定または検出する。これは、例えば、正規化された尺度空間の差の画素の中の局所的極値(すなわち、極大値または極小値)を発見することによって行われ得る。次に、特徴生成器1430が、例えば、(図3に示された)特定されたキーポイントのまわりの局所的な画素を特徴づけることによって特徴を生成することができる。それから、特徴記述子生成器1432が、(図4に示された)問い合わせ画像を特定するのに役立つことができる複数の画像記述子を提供するための各特徴に関する記述子を生成する。
【0077】
次いで、処理回路1402が、1つまたは複数の特徴記述子をストレージデバイス1408に記憶することができ、および/または特徴記述子を、特徴記述子を使用してその中の画像または物体を特定する画像マッチングサーバに通信ネットワーク1412を通じて通信インターフェース1410(例えば、ワイヤレス通信インターフェース、トランシーバ、または回路)を介して送信することもできる。つまり、画像マッチングサーバは、特徴記述子を、その画像マッチングサーバ自体の特徴記述子のデータベースと比較して、その画像マッチングサーバのデータベース内のいずれかの画像が(1つまたは複数の)同じ特徴を有するかどうかを判定することができる。
【0078】
一例において、画像処理回路1414は、本明細書に記載の1つまたは複数の方法を実装し得る。例示的な実装によれば、モバイルデバイスは、送信するために特徴記述子を圧縮することができる。帯域幅はワイヤレス送信の制限要因になりやすいので、本明細書に記載の1つまたは複数の技術を適用することによる特徴記述子の圧縮は、モバイルネットワークにおいてワイヤレスチャネルとバックホールリンクとを介して送信されるデータの量を削減することができる。
【0079】
正規化された尺度空間における特徴検出のための例示的な方法
図15は、正規化された尺度空間の差を使用する特徴検出のための方法を示す。(ガウス)尺度空間が、画像に対して生成されることができ、この尺度空間は、画像の異なるぼかされた(平滑化された)バージョンを備える可能性がある1502。尺度空間の差画像が、(尺度空間からの)画像の2つの異なる平滑化されたバージョンの間の差をとることによって生成され得る1504。このプロセスが、複数の尺度空間の差画像を得るために画像の複数のその他の(例えば、隣り合う)平滑化されたバージョンに対して繰り返されることができる。尺度空間の差を形成する複数の尺度空間の差画像。
【0080】
次に、正規化された尺度空間の差画像(レベル)が、画像の第3の平滑化されたバージョンによって尺度空間の差画像を割ることによって生成される可能性があり、画像の第3の平滑化されたバージョンは、画像の2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である1506。例えば、画像の第3の平滑化されたバージョンは、画像の2つの異なる平滑化されたバージョンのスケール(例えば、平滑化カーネル)のうちでより大きい方と同じか、またはそれよりも広いスケール(例えば、平滑化カーネル)を有する可能性がある。このプロセスが、複数の正規化された尺度空間の差画像を得るために複数の差尺度空間画像に対して繰り返されることができる。正規化された尺度空間の差を形成する複数の正規化された尺度空間の差画像。
【0081】
画像に関する1つまたは複数の特徴が、正規化された尺度空間の差画像を用いることによって検出または特定され得る1508。同様に、さらなる特徴が、正規化された尺度空間の差に対して検出され得る。そして、記述子が、特定された特徴に基づいて画像に関して生成され得る1510。
【0082】
情報と信号とは、任意のさまざまな異なるテクノロジーと技術とを使用して表され得る。例えば、上の説明中で言及される可能性があるデータ、命令、コマンド、情報、信号などは、電圧、電流、電磁波、磁界もしくは磁気的粒子、光場もしくは光学的粒子、またはそれらの任意の組み合わせで表される可能性がある。
【0083】
本明細書に記載のさまざまな例示的な論理ブロック、モジュールおよび回路、ならびにアルゴリズムのステップは、電子的なハードウェア、ソフトウェア、またはそれら両方の組み合わせとして実装または実行され得る。ハードウェアとソフトウェアとのこの互換性を明確に示すために、さまざまな例示的なコンポーネントと、ブロックと、モジュールと、回路と、ステップとが、概してそれらの機能の観点で上で説明された。そのような機能がハードウェアとして実装されるか、それともソフトウェアとして実装されるかは、システム全体に課された特定の用途と設計の制約とによって決まる。構成が、フローチャート、流れ図、構造図、またはブロック図として示されるプロセスとして示され得ることに留意されたい。フローチャートはオペレーションを連続的なプロセスとして示す可能性があるが、オペレーションの多くは、並列的にまたは同時に実行され得る。加えて、オペレーションの順序は、変えられ得る。プロセスは、そのプロセスのオペレーションが完了するときに終了される。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応する可能性がある。プロセスが関数に対応するとき、そのプロセスの終了は、当該関数が呼び出し元関数またはメイン関数に戻ることに対応する。
【0084】
ハードウェアで実装されるとき、さまざまな例は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくはその他のプログラマブルロジックデバイス、離散的なゲートもしくはトランジスタ論理、離散的なハードウェアコンポーネント、または本明細書に記載の機能を実行するように設計されたそれらの任意の組み合わせを使用する可能性がある。汎用プロセッサはマイクロプロセッサであってよいが、別法として、プロセッサは、任意の通常のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってよい。プロセッサは、コンピューティングデバイスの組み合わせ、例えばDSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと連携する1つもしくは複数のマイクロプロセッサ、または任意のその他のそのような構成としても実装され得る。
【0085】
ソフトウェアで実装されるとき、さまざまな例は、ファームウェア、ミドルウェア、またはマイクロコードを使用する可能性がある。必要なタスクを実行するためのプログラムコードまたはコードセグメントは、ストレージ媒体または(1つもしくは複数の)その他のストレージなどのコンピュータ可読媒体に記憶され得る。プロセッサが、必要なタスクを実行する可能性がある。コードセグメントは、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組み合わせを表す可能性がある。コードセグメントは、情報、データ、引数、パラメータ、またはメモリの内容を渡すことおよび/または受信することによって別のコードセグメントまたはハードウェア回路に結合されることができる。情報、引数、パラメータ、データなどは、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク伝送などを含む任意の好適な手段によって渡されるか、転送されるか、または送信されることができる。
【0086】
本出願において使用されるとき、用語「コンポーネント」、「モジュール」、「システム」などは、コンピュータに関連するエンティティ、ハードウェア、ファームウェア、ハードウェアとソフトウェアとの組み合わせ、ソフトウェア、または実行中のソフトウェアのいずれかを指すように意図される。例えば、コンポーネントは、プロセッサ上で実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、実行スレッド、プログラム、および/またはコンピュータであってよいがこれらに限定されない。例として、コンピューティングデバイス上で実行されるアプリケーションとそのコンピューティングデバイスの両方が、コンポーネントである可能性がある。1つまたは複数のコンポーネントは実行プロセスおよび/または実行スレッド内にある可能性があり、コンポーネントは1つのコンピュータ上に配置される、および/または2つ以上のコンピュータの間に分散される可能性がある。さらに、これらのコンポーネントは、さまざまなデータ構造を記憶するさまざまなコンピュータ可読媒体から実行されることができる。コンポーネントは、1つまたは複数のデータパケット(例えば、信号によってローカルシステム内、分散システム内の別のコンポーネントと、および/またはインターネットなどのネットワークを介してその他のシステムとインタラクションする1つのコンポーネントからのデータ)を有する信号によるなどして、ローカルおよび/またはリモートプロセスを介して通信することができる。
【0087】
本明細書の1つまたは複数の例において、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせで実装され得る。ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、またはコンピュータ可読媒体上で送信され得る。コンピュータ可読媒体は、1つの場所から別の場所へのコンピュータプログラムの移送を容易にする任意の媒体を含むコンピュータストレージ媒体と通信媒体の両方を含む。ストレージ媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体である可能性がある。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMもしくはその他の光ディスクストレージ、磁気ディスクストレージもしくはその他の磁気ストレージデバイス、または命令もしくはデータ構造の形態で所望のプログラムコードを搬送もしくは記憶するために使用されることができ、コンピュータによってアクセスされ得る任意のその他の媒体を備える可能性がある。また、当然、任意の接続がコンピュータ可読媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペアケーブル、デジタル加入者線(DSL)、または赤外線、ラジオ波、およびマイクロ波などのワイヤレス技術を用いてウェブサイト、サーバ、またはその他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペアケーブル、DSL、または赤外線、ラジオ波、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用されるとき、ディスク(disk)とディスク(disc)とは、コンパクトディスク(compact disc)(CD)、レーザディスク(laser disc)、光ディスク(optical disc)、デジタルバーサタイルディスク(digital versatile disc)(DVD)、フロッピー(登録商標)ディスク(floppy(登録商標) disk)、およびブルーレイ(登録商標)ディスク(blu−ray disc)を含み、ディスク(disk)が、通常、磁気的にデータを再生する一方、ディスク(disc)は、レーザを用いて光学的にデータを再生する。上記の媒体の組み合わせも、コンピュータ可読媒体の範囲に含まれるべきである。ソフトウェアは、単一の命令または複数の命令を備える可能性があり、いくつかの異なるコードセグメントに、異なるプログラムの間に、および複数のストレージ媒体に分散され得る。例示的なストレージ媒体は、プロセッサが当該ストレージ媒体から情報を読むことができ、当該ストレージ媒体に情報を書き込むことができるようにプロセッサに結合され得る。別法として、ストレージ媒体はプロセッサに一体化される可能性がある。
【0088】
本明細書において開示された方法は、説明された方法を実現するための1つまたは複数のステップまたはアクションを備える。方法のステップおよび/またはアクションは、特許請求の範囲から逸脱せずに互いに交換可能である可能性がある。換言すれば、ステップまたはアクションの特定の順序が、説明されている実施形態の適切な動作のために必要とされない限り、特定のステップおよび/またはアクションの順序および/または使用は、特許請求の範囲から逸脱せずに修正され得る。
【0089】
図に示されたコンポーネント、ステップ、および/もしくは機能のうちの1つまたは複数は、単一のコンポーネント、ステップ、もしくは機能に再配列されるおよび/もしくは組み合わされるか、またはいくつかのコンポーネント、ステップ、もしくは機能で実施され得る。また、さらなる要素、コンポーネント、ステップ、および/または機能が、追加される可能性がある。図に示された装置、デバイス、および/またはコンポーネントは、その他の図に示された方法、特徴、またはステップのうちの1つまたは複数を実行するように構成または適合され得る。本明細書に記載のアルゴリズムは、例えば、ソフトウェアおよび/または埋め込みハードウェアで効率的に実装され得る。
【0090】
上述の構成は、単に例であるに過ぎず、特許請求の範囲を限定するとみなされるべきでないことに留意されたい。構成の説明は、例示的であるように意図されており、特許請求の範囲を限定するように意図されていない。したがって、この教示は、その他の種類の装置に容易に適用されることができ、多くの代替と、修正と、変更とが、当業者に明らかであろう。
【特許請求の範囲】
【請求項1】
画像の特徴検出デバイスで動作する方法であって、
画像の2つの異なる平滑化されたバージョンの間の差をとることによって尺度空間の差画像を生成することと、
前記画像の第3の平滑化されたバージョンによって前記尺度空間の差画像を割ることによって正規化された尺度空間の差画像を生成することであって、前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である、生成することと、
前記画像に関する1つまたは複数の特徴を検出するために、前記正規化された尺度空間の差画像を用いることとを備える、方法。
【請求項2】
前記画像の複数の平滑化されたバージョンを得るために、前記画像を異なるスケーリング幅の複数の平滑化カーネルと畳み込むことであって、前記複数の平滑化されたバージョンが、尺度空間ピラミッドを定義する、畳み込むことをさらに備える請求項1に記載の方法。
【請求項3】
前記画像の前記2つの異なる平滑化されたバージョンが、前記平滑化された尺度空間ピラミッド内の隣り合うレベルである請求項2に記載の方法。
【請求項4】
前記画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成することであって、前記尺度空間の差画像が、前記尺度空間の差の一部を形成する、生成することをさらに備える請求項2に記載の方法。
【請求項5】
前記画像の異なる平滑化されたバージョンの前記対が、前記平滑化された尺度空間ピラミッド内の隣り合うレベルである請求項4に記載の方法。
【請求項6】
前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのスケールのうちでより大きい方と同じか、またはそれよりも広いスケールを有する請求項2に記載の方法。
【請求項7】
前記正規化された尺度空間の差画像内の局所的極値を検出することによって前記正規化された尺度空間の差を用いて前記画像に関する前記1つまたは複数の特徴を特定することをさらに備える請求項1に記載の方法。
【請求項8】
各特長が、キーポイントと、前記キーポイントを囲むポイントについての情報とを含む請求項7に記載の方法。
【請求項9】
特定された前記1つまたは複数の特徴に基づいて前記画像に関する記述子を生成することをさらに備える請求項1に記載の方法。
【請求項10】
画像の2つの異なる平滑化されたバージョンの間の差をとることによって尺度空間の差画像を生成するように適合された尺度空間の差生成器と、
前記画像の第3の平滑化されたバージョンによって前記尺度空間の差画像を割ることによって正規化された尺度空間の差画像を生成するように適合された尺度空間の差生成器正規化器であって、前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である、尺度空間の差生成器正規化器と、
前記画像に関する1つまたは複数の特徴を検出するために、前記正規化された尺度空間の差画像を使用するように適合された特徴検出器とを備える画像の特徴検出デバイス。
【請求項11】
前記画像の複数の平滑化されたバージョンを得るために、前記画像を異なるスケーリング幅の複数の平滑化カーネルと畳み込むように適合された尺度空間生成器であって、前記複数の平滑化されたバージョンが、尺度空間ピラミッドを定義する、尺度空間生成器をさらに備える請求項10に記載の画像の特徴検出デバイス。
【請求項12】
前記画像の前記2つの異なる平滑化されたバージョンが、前記平滑化された尺度空間ピラミッド内の隣り合うレベルである請求項11に記載の画像の特徴検出デバイス。
【請求項13】
前記尺度空間の差生成器が、前記画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成するように適合され、前記尺度空間の差画像が、前記尺度空間の差の一部を形成する請求項11に記載の画像の特徴検出デバイス。
【請求項14】
前記画像の異なる平滑化されたバージョンの前記対が、前記平滑化された尺度空間ピラミッド内の隣り合うレベルである請求項13に記載の画像の特徴検出デバイス。
【請求項15】
前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのスケールのうちでより大きい方と同じか、またはそれよりも広いスケールを有する請求項11に記載の画像の特徴検出デバイス。
【請求項16】
前記特徴検出器が、前記正規化された尺度空間の差画像内の局所的極値を検出することによって前記正規化された尺度空間の差を用いて前記画像に関する特徴を特定するように適合される請求項10に記載の画像の特徴検出デバイス。
【請求項17】
特定された前記1つまたは複数の特徴に基づいて前記画像に関する記述子を生成するように適合された特徴記述子生成器をさらに備える請求項10に記載の画像の特徴検出デバイス。
【請求項18】
画像の2つの異なる平滑化されたバージョンの間の差をとることによって尺度空間の差画像を生成するための手段と、
前記画像の第3の平滑化されたバージョンによって前記尺度空間の差画像を割ることによって正規化された尺度空間の差画像を生成するための手段であって、前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である、生成するための手段と、
前記画像に関する1つまたは複数の特徴を検出するために、前記正規化された尺度空間の差画像を使用するための手段とを備える画像の特徴検出デバイス。
【請求項19】
前記画像の複数の平滑化されたバージョンを得るために、前記画像を異なるスケーリング幅の複数の平滑化カーネルと畳み込むための手段であって、前記複数の平滑化されたバージョンが、尺度空間ピラミッドを定義する、畳み込むための手段をさらに備える請求項18に記載の画像の特徴検出デバイス。
【請求項20】
前記画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成するための手段であって、前記尺度空間の差画像が、前記尺度空間の差の一部を形成する、生成するための手段をさらに備える請求項19に記載の画像の特徴検出デバイス。
【請求項21】
前記画像の異なる平滑化されたバージョンの前記対が、平滑化された尺度空間ピラミッド内の隣り合うレベルである請求項20に記載の画像の特徴検出デバイス。
【請求項22】
前記正規化された尺度空間の差画像内の局所的極値を検出することによって前記正規化された尺度空間の差を用いて前記画像に関する前記1つまたは複数の特徴を特定するための手段をさらに備える請求項18に記載の画像の特徴検出デバイス。
【請求項23】
特定された前記1つまたは複数の特徴に基づいて前記画像に関する記述子を生成するための手段をさらに備える請求項18に記載の画像の特徴検出デバイス。
【請求項24】
プロセッサによって実行されるときに、前記プロセッサに、
画像の2つの異なる平滑化されたバージョンの間の差をとることによって尺度空間の差画像を生成させ、
前記画像の第3の平滑化されたバージョンによって前記尺度空間の差画像を割ることによって正規化された尺度空間の差画像を生成させ、
前記画像に関する1つまたは複数の特徴を検出するために、前記正規化された尺度空間の差画像を使用させ、前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である、画像の特徴検出デバイス上で動作する1つまたは複数の命令を有するプロセッサ可読媒体。
【請求項25】
プロセッサによって実行されるときに、前記プロセッサに、さらに、
前記画像の複数の平滑化されたバージョンを得るために、前記画像を異なるスケーリング幅の複数の平滑化カーネルと畳み込ませ、前記複数の平滑化されたバージョンが、尺度空間ピラミッドを定義する1つまたは複数の命令を有する請求項24に記載のプロセッサ可読媒体。
【請求項26】
プロセッサによって実行されるときに、前記プロセッサに、さらに、
前記画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成させ、前記尺度空間の差画像が、前記尺度空間の差の一部を形成する1つまたは複数の命令を有する請求項25に記載のプロセッサ可読媒体。
【請求項27】
プロセッサによって実行されるときに、前記プロセッサに、さらに、
前記正規化された尺度空間の差画像内の局所的極値を検出することによって前記正規化された尺度空間の差を用いて前記画像に関する前記1つまたは複数の特徴を特定させる1つまたは複数の命令を有する請求項24に記載のプロセッサ可読媒体。
【請求項28】
プロセッサによって実行されるときに、前記プロセッサに、さらに、
特定された前記1つまたは複数の特徴に基づいて前記画像に関する記述子を生成させる1つまたは複数の命令を有する請求項24に記載のプロセッサ可読媒体。
【請求項1】
画像の特徴検出デバイスで動作する方法であって、
画像の2つの異なる平滑化されたバージョンの間の差をとることによって尺度空間の差画像を生成することと、
前記画像の第3の平滑化されたバージョンによって前記尺度空間の差画像を割ることによって正規化された尺度空間の差画像を生成することであって、前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である、生成することと、
前記画像に関する1つまたは複数の特徴を検出するために、前記正規化された尺度空間の差画像を用いることとを備える、方法。
【請求項2】
前記画像の複数の平滑化されたバージョンを得るために、前記画像を異なるスケーリング幅の複数の平滑化カーネルと畳み込むことであって、前記複数の平滑化されたバージョンが、尺度空間ピラミッドを定義する、畳み込むことをさらに備える請求項1に記載の方法。
【請求項3】
前記画像の前記2つの異なる平滑化されたバージョンが、前記平滑化された尺度空間ピラミッド内の隣り合うレベルである請求項2に記載の方法。
【請求項4】
前記画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成することであって、前記尺度空間の差画像が、前記尺度空間の差の一部を形成する、生成することをさらに備える請求項2に記載の方法。
【請求項5】
前記画像の異なる平滑化されたバージョンの前記対が、前記平滑化された尺度空間ピラミッド内の隣り合うレベルである請求項4に記載の方法。
【請求項6】
前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのスケールのうちでより大きい方と同じか、またはそれよりも広いスケールを有する請求項2に記載の方法。
【請求項7】
前記正規化された尺度空間の差画像内の局所的極値を検出することによって前記正規化された尺度空間の差を用いて前記画像に関する前記1つまたは複数の特徴を特定することをさらに備える請求項1に記載の方法。
【請求項8】
各特長が、キーポイントと、前記キーポイントを囲むポイントについての情報とを含む請求項7に記載の方法。
【請求項9】
特定された前記1つまたは複数の特徴に基づいて前記画像に関する記述子を生成することをさらに備える請求項1に記載の方法。
【請求項10】
画像の2つの異なる平滑化されたバージョンの間の差をとることによって尺度空間の差画像を生成するように適合された尺度空間の差生成器と、
前記画像の第3の平滑化されたバージョンによって前記尺度空間の差画像を割ることによって正規化された尺度空間の差画像を生成するように適合された尺度空間の差生成器正規化器であって、前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である、尺度空間の差生成器正規化器と、
前記画像に関する1つまたは複数の特徴を検出するために、前記正規化された尺度空間の差画像を使用するように適合された特徴検出器とを備える画像の特徴検出デバイス。
【請求項11】
前記画像の複数の平滑化されたバージョンを得るために、前記画像を異なるスケーリング幅の複数の平滑化カーネルと畳み込むように適合された尺度空間生成器であって、前記複数の平滑化されたバージョンが、尺度空間ピラミッドを定義する、尺度空間生成器をさらに備える請求項10に記載の画像の特徴検出デバイス。
【請求項12】
前記画像の前記2つの異なる平滑化されたバージョンが、前記平滑化された尺度空間ピラミッド内の隣り合うレベルである請求項11に記載の画像の特徴検出デバイス。
【請求項13】
前記尺度空間の差生成器が、前記画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成するように適合され、前記尺度空間の差画像が、前記尺度空間の差の一部を形成する請求項11に記載の画像の特徴検出デバイス。
【請求項14】
前記画像の異なる平滑化されたバージョンの前記対が、前記平滑化された尺度空間ピラミッド内の隣り合うレベルである請求項13に記載の画像の特徴検出デバイス。
【請求項15】
前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのスケールのうちでより大きい方と同じか、またはそれよりも広いスケールを有する請求項11に記載の画像の特徴検出デバイス。
【請求項16】
前記特徴検出器が、前記正規化された尺度空間の差画像内の局所的極値を検出することによって前記正規化された尺度空間の差を用いて前記画像に関する特徴を特定するように適合される請求項10に記載の画像の特徴検出デバイス。
【請求項17】
特定された前記1つまたは複数の特徴に基づいて前記画像に関する記述子を生成するように適合された特徴記述子生成器をさらに備える請求項10に記載の画像の特徴検出デバイス。
【請求項18】
画像の2つの異なる平滑化されたバージョンの間の差をとることによって尺度空間の差画像を生成するための手段と、
前記画像の第3の平滑化されたバージョンによって前記尺度空間の差画像を割ることによって正規化された尺度空間の差画像を生成するための手段であって、前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である、生成するための手段と、
前記画像に関する1つまたは複数の特徴を検出するために、前記正規化された尺度空間の差画像を使用するための手段とを備える画像の特徴検出デバイス。
【請求項19】
前記画像の複数の平滑化されたバージョンを得るために、前記画像を異なるスケーリング幅の複数の平滑化カーネルと畳み込むための手段であって、前記複数の平滑化されたバージョンが、尺度空間ピラミッドを定義する、畳み込むための手段をさらに備える請求項18に記載の画像の特徴検出デバイス。
【請求項20】
前記画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成するための手段であって、前記尺度空間の差画像が、前記尺度空間の差の一部を形成する、生成するための手段をさらに備える請求項19に記載の画像の特徴検出デバイス。
【請求項21】
前記画像の異なる平滑化されたバージョンの前記対が、平滑化された尺度空間ピラミッド内の隣り合うレベルである請求項20に記載の画像の特徴検出デバイス。
【請求項22】
前記正規化された尺度空間の差画像内の局所的極値を検出することによって前記正規化された尺度空間の差を用いて前記画像に関する前記1つまたは複数の特徴を特定するための手段をさらに備える請求項18に記載の画像の特徴検出デバイス。
【請求項23】
特定された前記1つまたは複数の特徴に基づいて前記画像に関する記述子を生成するための手段をさらに備える請求項18に記載の画像の特徴検出デバイス。
【請求項24】
プロセッサによって実行されるときに、前記プロセッサに、
画像の2つの異なる平滑化されたバージョンの間の差をとることによって尺度空間の差画像を生成させ、
前記画像の第3の平滑化されたバージョンによって前記尺度空間の差画像を割ることによって正規化された尺度空間の差画像を生成させ、
前記画像に関する1つまたは複数の特徴を検出するために、前記正規化された尺度空間の差画像を使用させ、前記画像の前記第3の平滑化されたバージョンが、前記画像の前記2つの異なる平滑化されたバージョンのうちで最も平滑なものと同じだけ平滑であるか、またはそれよりも平滑である、画像の特徴検出デバイス上で動作する1つまたは複数の命令を有するプロセッサ可読媒体。
【請求項25】
プロセッサによって実行されるときに、前記プロセッサに、さらに、
前記画像の複数の平滑化されたバージョンを得るために、前記画像を異なるスケーリング幅の複数の平滑化カーネルと畳み込ませ、前記複数の平滑化されたバージョンが、尺度空間ピラミッドを定義する1つまたは複数の命令を有する請求項24に記載のプロセッサ可読媒体。
【請求項26】
プロセッサによって実行されるときに、前記プロセッサに、さらに、
前記画像の異なる平滑化されたバージョンの対の間の差をとることによって尺度空間の差を生成させ、前記尺度空間の差画像が、前記尺度空間の差の一部を形成する1つまたは複数の命令を有する請求項25に記載のプロセッサ可読媒体。
【請求項27】
プロセッサによって実行されるときに、前記プロセッサに、さらに、
前記正規化された尺度空間の差画像内の局所的極値を検出することによって前記正規化された尺度空間の差を用いて前記画像に関する前記1つまたは複数の特徴を特定させる1つまたは複数の命令を有する請求項24に記載のプロセッサ可読媒体。
【請求項28】
プロセッサによって実行されるときに、前記プロセッサに、さらに、
特定された前記1つまたは複数の特徴に基づいて前記画像に関する記述子を生成させる1つまたは複数の命令を有する請求項24に記載のプロセッサ可読媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8A】
【図8B】
【図8C】
【図9A】
【図9B】
【図9C】
【図10A】
【図10B】
【図11A】
【図11B】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8A】
【図8B】
【図8C】
【図9A】
【図9B】
【図9C】
【図10A】
【図10B】
【図11A】
【図11B】
【図12】
【図13】
【図14】
【図15】
【公表番号】特表2013−516709(P2013−516709A)
【公表日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願番号】特願2012−548197(P2012−548197)
【出願日】平成23年1月8日(2011.1.8)
【国際出願番号】PCT/US2011/020613
【国際公開番号】WO2011/085277
【国際公開日】平成23年7月14日(2011.7.14)
【出願人】(595020643)クゥアルコム・インコーポレイテッド (7,166)
【氏名又は名称原語表記】QUALCOMM INCORPORATED
【Fターム(参考)】
【公表日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願日】平成23年1月8日(2011.1.8)
【国際出願番号】PCT/US2011/020613
【国際公開番号】WO2011/085277
【国際公開日】平成23年7月14日(2011.7.14)
【出願人】(595020643)クゥアルコム・インコーポレイテッド (7,166)
【氏名又は名称原語表記】QUALCOMM INCORPORATED
【Fターム(参考)】
[ Back to top ]