説明

高性能画像識別

画像の表現を導出する方法及び装置が記載される。本方法は、画像に対応する信号を処理することを含む。画像の2次元関数(少なくとも1つの汎関数Tを用いる画像のトレース変換(T(d,θ))等)が、マスク関数(β)を用いて導出及び処理されて、画像の中間表現(1次元関数に対応する)が導出される。一実施形態では、マスク関数はトレース領域におけるトレース変換の画像帯の対を規定する。導出された1次元関数に既存の技法を適用することによって、画像の表現を導出することができる。

【発明の詳細な説明】
【技術分野】
【0001】
[発明の背景]
[発明の分野]
本発明は、画像を表現する方法及び装置に関し、さらに、例えば検索又は検証の目的のために画像を比較又は照合する方法及び装置に関する。
【背景技術】
【0002】
[背景技術の説明]
本発明は、同時係属中の欧州特許出願EP06255239.3及び英国特許出願GB0700468.2(以下の参考文献[6]及び[7])に開示されている画像識別技法に対する改良に関する。欧州特許出願EP06255239.3及び英国特許出願GB0700468.2の内容は参照により本明細書に援用される。欧州特許出願EP06255239.3及び英国特許出願GB0700468.2の発明及び実施の形態の詳細は、本発明及び本実施の形態にも同様に適用される。
【0003】
欧州特許出願EP06255239.3及び英国特許出願GB0700468.2に記載されている画像識別方法及び装置は、いずれも画像から短いバイナリ記述子を抽出するものであるが(図2参照)、従来技術の多くの欠点に対処しており、特に、
・特徴抽出及び照合の双方について計算複雑度が低減されていること、
・画像記述子のサイズが低減されていること、
・さまざまな画像変更に対するロバスト性が高められていること、並びに
・広範な画像変更に対して98%を超える検出率を維持しながら誤報率が1ppmレベルに低減されていること、
を特徴とする。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、多くの実際の用途において、誤報率を1ppmよりも実質的に低くする必要があると共に、検出率が98%を超えていることが望ましい。したがって、平均検出率を98%超にまで高めることが望ましい。加えて、ヒストグラム等化及び画像クロッピング(image cropping)に対するロバスト性を向上させることが望ましい。
【課題を解決するための手段】
【0005】
[発明のサマリー]
第1の態様によれば、本発明は、添付の特許請求の範囲の請求項1に定義されている、画像の表現を導出する方法を提供する。
【0006】
本発明のさらなる態様は、本発明の第1の態様による方法を用いて導出される画像の表現の使用と、本発明の第1の態様による方法を実施する装置と、本発明の第1の態様による方法を実施するための命令を含むコンピュータ可読記憶媒体とを含む。
【0007】
実施の形態の好ましい特徴及び任意選択の特徴は従属請求項に記載されている。
【0008】
本発明は、画像のトレース変換(Trace transform)(又は画像の2次元関数であってこれと等価なもの)から視覚的な識別特徴を抽出する新規の方法に関する。欧州特許出願EP06255239.3及び英国特許出願GB0700468.2(参照により本明細書に援用される)に記載されている方法は、トレース変換を中間表現として用いる。トレース変換は、画像上の全ての可能な線を射影し、トレース変換表現全体からバイナリ成分記述子が抽出され、次に互いに組み合わされる。
【0009】
本発明は、1つ又は複数の表現(それぞれが画像内の可能な線のサブセットから構築される)を抽出することを含む。すなわち、中間表現から追加のバイナリ成分識別子が導出されると(後述)、トレース変換は空間的に限定される(マスクされる)。サブセット、又は複数のこのようなサブセットを用いて、画像の特定の部分に関連するさらなる識別情報を抽出することができる。この追加の識別情報を、欧州特許出願EP06255239.3及び英国特許出願GB0700468.2の方法のような他の方法を用いて導出される画像全体の表現に追加することができる。この追加の情報を含むことによって画像識別性能及びロバスト性が著しく高まることが分かっている。さらに、代替的な前処理方法を用いて結果をさらに改善することができる。
【0010】
本出願において、用語「汎関数(functional)」は、その通常の数学的意味を有する。特に、汎関数とは、ベクトル空間V上の(通常は関数の)実数値関数である。トレース変換の場合、汎関数は画像内の複数の線に適用される。
【0011】
同時係属中の欧州特許出願EP06255239.3及び英国特許出願GB0700468.2に記載されている方法では、トレース変換は、画像を直線でトレースすることによって計算され、該直線に沿って、画像の輝度関数または色関数の特定の汎関数Tが計算される。異なる複数の汎関数Tが用いられて単一の入力画像から異なる複数のトレース変換が生成される。2D平面において線は2つのパラメータ、すなわち角度θ及び距離dによって特徴付けられるため、画像のトレース変換は各トレース線のパラメータの2D関数である。次に、トレース変換の列に沿ってダイアメトリカル汎関数(diametrical functional)Pを適用することによって「サーカス関数(circus function)」が計算される。英国特許出願GB0700468.2では、さらなる処理が実施され、該処理において、効率的に、画像が帯(図11に示すもの)及び/又は2つの錐(図12に示すもの)を用いてさらにトレースされて、サーカス関数が導出される画像のトレース変換の解像度が低減される。幅が異なる複数の帯及び/又は開口角が異なる複数の錐が用いられて、複数解像度の表現が得られる。各サーカス関数から、サーカス関数の周波数表現を(たとえばフーリエ変換によって)計算して、その周波数振幅成分に関して定義される特定の関数(たとえば、この関数は任意の2つの隣接する周波数振幅の大きさの差分とすることができる)の符号を取ることによって、成分バイナリ識別子が構築される。以下の参考文献[4]に開示されているように、帯及び/又は2つの錐と共に異なる汎関数を用いることによって得られる成分識別子「族」から選択される文字列断片を組み合わせて、単一の記述子にすることが可能である。
【0012】
トレース変換領域内の帯及び錐に沿ってトレース変換値を暗黙的に計算することによって、記述子の抽出を非常に効率的に実施することができる。
【0013】
本発明の一態様によれば、マスク関数が、トレース変換の空間的に限定された領域(たとえばトレース領域内の帯(band))を抽出し、これを用いて、追加のバイナリ記述子を抽出するサーカス関数を計算する。下記で説明するように、トレース領域内の帯は画像領域内の錐に対応する。同時継続中の欧州特許出願EP06255239.3及び英国特許出願GB0700468.2に開示されている技法では、各成分バイナリ記述子は、画像に射影される全ての可能な線の表現を含むことが強調されるべきである。対照的に、本発明の一態様によれば、各成分記述子は、画像の選択された部分又は領域内の線の特定のサブセットに焦点を当て、それによって、さらなる独立したロバストな識別情報を提供する。この追加の成分識別子を従来技術の識別子に追加することによって、性能の非常に大きな改良を達成することができる。具体的には、ヒストグラム等化のような色を変更する変換、及び内容が変化する変更(特にクロッピング)に対するロバスト性が向上する。その上、一般的に、従来の技法と比較して十分の一に低減した0.1ppmという誤報率で平均検出率を99.80%にまで高めることができる。
【0014】
本発明の別の態様によれば、抽出された円形の部分画像の境界にテーパリング(tapering)を追加してさらに性能を高めることができる。
【0015】
添付図面を参照して本発明の実施形態を説明する。
【図面の簡単な説明】
【0016】
【図1】(a)は画像を示す図であり、(b)は(a)の画像を縮小したバージョンを示す図であり、(c)は(a)の画像を回転させたバージョンを示す図であり、(d)は(a)の画像をぼかしたバージョンを示す図であり、(e)は(a)の画像を(左右に)反転させたバージョンを示す図であり、(f)は(a)の画像を強く圧縮したバージョンを示す図であり、(g)は(a)の画像をクロッピングしたバージョンを示す図である。
【図2】画像と、従来技術によるその画像のビットストリング表現とを示す図である。
【図3】本発明の一実施形態の方法のステップを示す図である。
【図4】サーカス関数からのバイナリ識別子の抽出を示す図である。
【図5】トレース変換のための線パラメータ化を示す図である。
【図6】(a)は画像を示す図であり、(b)は(a)の画像のトレース変換を示す図であり、(c)は(a)の画像のサーカス関数を示す図である。
【図7】(a)〜(c)は、画像の異なるバージョンから導出される関数を示す図である。
【図8】本発明の一実施形態による装置のブロック図である。
【図9】複数のトレース変換を用いる一実施形態を示すブロック図である。
【図10】図8の実施形態によって作成されるビットストリームを示す図である。
【図11】トレース変換のdパラメータを分解するときの原画像内の区間帯を示す図である。
【図12】トレース変換のθパラメータを分解するときの原画像における2つの錐を示す図である。
【図13】dパラメータにおけるトレース変換の分解を示す図である。
【図14】θパラメータにおけるトレース変換の分解を示す図である。
【図15】トレース領域における帯と画像領域における線との間の同等性を示す図である。
【図16】トレース変換からの帯の1D表現の抽出を示す図である。
【発明を実施するための形態】
【0017】
[実施形態の詳細な説明]
画像の表現(具体的には画像識別子)を導出すると共に、このような表現/識別子を(例えば、1つ又は複数の画像の識別、照合又は検証の目的で)用いるさまざまな実施形態を以下に記載する。本発明は画像の識別に特に有用であるが、これには限定されない。記載される実施形態では、「画像識別子」(又は単純に「識別子」)は画像の表現の一例であり、この用語は画像の表現、すなわち記述子を指すために用いられるに過ぎない。
【0018】
当業者であれば、本発明の一実施形態による画像識別装置及び方法の具体的な設計詳細と、画像識別に用いる画像識別子の導出とは、画像識別子がロバストであるべき画像変更のタイプ、識別子のサイズ、抽出及び照合の複雑度、目標誤報率等に関連する要件によって決定されることを理解しよう。
【0019】
以下の実施例は、画像に対する以下の変更(網羅的なリストではない)に対しロバストな識別子をもたらす一般的設計を示す。
・色数削減
・ぼかし
・明るさの変更
・反転(左右及び上下)
・グレースケール変換
・ヒストグラム等化
・JPEG圧縮
・ノイズ
・回転
・クロッピング
・拡大縮小
【0020】
この一般的設計は通常、広範なクラスの画像に対して0.1百万分率(ppm)を下回る非常に低い誤報率及び99.8%の検出率を達成することができることが分かっている。
【0021】
図1は、画像及びその画像を変更したバージョンの一例を示す。より具体的には、図1aは原画像であり、図1bは図1aの画像を縮小したバージョンであり、図1cは図1aの画像を回転させたバージョンであり、図1dは図1aの画像をぼかしたバージョンであり、図1eは図1aの画像を反転させたバージョンであり、図1fは図1aの画像を圧縮したバージョンであり、図1gは図1aの画像をクロッピングしたバージョンである。
【0022】
本発明の一実施形態は、画像に対応する信号を処理することによって、画像の表現、より具体的には画像識別子を導出する。通常、画像識別子は一例として図2に示すようなバイナリ識別子である。
【0023】
図3は、本発明の一実施形態による画像識別子を導出する方法の各ステップ、すなわち識別子抽出工程を示す。
【0024】
抽出の初期段階において任意選択で画像を前処理する。これは、画像をサイズ変更し(ステップ110)、フィルタリングする(ステップ120)ことによって行われる。サイズ変更ステップ110は、画像を処理前に正規化するために用いられる。フィルタリングステップ120は、エイリアシング等の効果を除去するためのフィルタリングを含み得、領域選択及びテーパリングも含み得る。好適な実施形態では、アスペクト比を維持しつつ画像を192×N又はN×192(ここで、N≧192)の解像度にサイズ変更する。別の実施形態では、画像を192×192の正方形にサイズ変更する。その後、画像は3×3ガウスカーネルによってローパスフィルタリングされる。画像の中央から円形の領域がさらなる処理のために抽出される。本発明の一態様によれば、この円形中央領域を抽出するときにテーパリングされたエッジを用いることによって性能が向上する。好適な実施形態は、7ピクセルのテーパサイズを用いる。前処理ステップは任意選択であり、上記の任意の組み合わせを含むことができる。
【0025】
ステップ130において、画像のトレース変換
【0026】
【数1】

【0027】
を行う。図5に示すように、画像内の線がd及びθによってパラメータ化される。トレース変換は、全ての可能な線を画像に射影し、これらの線に汎関数Tを適用する。汎関数とは、ベクトル空間V上の(通常は関数の)実数値関数である。トレース変換の場合、画像内の複数の線に汎関数が適用される。図6aのトレース変換の例を図6bに示す。ステップ140においてトレース変換の結果を分解して、その次元d、θのいずれか又は双方におけるその解像度を低減することができる。欧州特許出願EP06255239.3及び英国特許出願GB0700468.2の方法では、後続のステップ150においてその後、トレース変換の各列にさらなる汎関数Pを適用して、実数値ベクトル(すなわち、1次元関数)を得る。この第2の汎関数Pはダイアメトリカル汎関数として知られ、結果として得られるベクトルはサーカス関数として知られる。図6cは、図6aのサーカス関数の例を示す。第3の汎関数であるサーカス汎関数をサーカス関数に適用して、単一の数を得ることができるが、好適な実施形態ではこのステップは用いられない。この結果の特性は、これらの汎関数(トレース汎関数、ダイアメトリカル汎関数、サーカス汎関数)を適切に選択することによって制御することができる。画像及び対応するトレース変換の例を含むトレース変換の全詳細は、例えば、参照により本明細書に援用される以下の参考文献[1]に見ることができる。
【0028】
図6は汎関数T
【0029】
【数2】

【0030】
…(1)
を用いて抽出される、画像のトレース変換
【0031】
【数3】

【0032】
、及びダイアメトリカル汎関数P
max(ξ(t)) …(2)
を適用することによって得られるサーカス関数を示す。
【0033】
図7は、サーカス関数が様々な画像処理操作によって受ける影響を示す。図7は、画像の様々な変形に対応するサーカス関数を示す。図7aは原画像のサーカス関数であり、図7bはその画像を回転させたバージョンのサーカス関数であり、図7cはその画像をぼかしたバージョンのサーカス関数である。回転は関数をシフトさせる(と共にスケール変化を引き起こす)ことが分かる。
【0034】
再び図3を参照して、本発明の一態様によれば、ステップ155を導入して、ステップ150によって抽出されるサーカス関数に対する代替として、帯サーカス関数(band-circus function)を得る。ステップ155は、以下で詳細に説明するように、値をトレース変換の一部分のみから選択及び処理することによって、トレース変換を画像の線のサブセットに限定する。
【0035】
本発明の好適な一実施形態によって、図3に示すように、ステップ160〜180において周波数表現を介して帯サーカス関数(ブロック155の出力)からバイナリ識別子を抽出する。
【0036】
同時継続中の欧州特許出願EP06255239.3及び英国特許出願GB0700468.2において説明されているように、上で挙げた画像の変更のほとんどに関して、汎関数T、Pを適切に選択すれば、画像aのサーカス関数f(a)は、変更された画像a’のサーカス関数f(a’)がシフト又は(振幅が)拡大縮小されたバージョンに過ぎないことを示すことができる(以下の参考文献[1]の第3章を参照)。
f(a’)=κf(a−θ) …(3)
【0037】
ここで、式(3)のフーリエ変換を行うことによって、次式が与えられる。
F(Φ)=F[κf(a−θ)] …(4)
=κF[f(a−θ)] …(5)
=κexp-jθΦF[f(a)] …(6)
【0038】
次に、式(6)の振幅を取ると次式が得られる。
|F(Φ)|=|κF[f(a)]| …(7)
【0039】
式(7)から、この時点では、変更された画像と原画像とに対応する周波数表現の振幅成分はスケーリング係数κを除いて同じであることが分かる。
【0040】
図4は、フーリエ変換に対するバイナリ関数を定義する方法の一例を示す。具体的には、図3のステップ170においてフーリエ変換を得た後、ステップ173においてフーリエ変換の振幅の対数を得る。
【0041】
一実施形態によれば、ここで、フーリエ変換の各振幅係数について関数c(ω)が定義される。この関数の1つの例示は、隣接する係数同士の差分を取ることである(ステップ174)。
c(ω)=|F(ω)|−|F(ω+1)| …(8)
【0042】
式(8)から結果として得られるベクトルに対し、ステップ175において、以下の式を満たすように閾値を適用することによって、バイナリストリングを抽出することができる。
【0043】
【数4】

【0044】
(すべてのωについて)
…(9)
Sに関する適切な選択は、S=0及びS=mean(c)を含む。次に、これらのバイナリストリング値B={b0,…,bn}から画像識別子が構築される。
【0045】
2つの異なる識別子B1及びB2(いずれも長さN)の間で識別子の照合を行うために、正規化ハミング距離を取る。
【0046】
【数5】

【0047】
…(10)
ここで、
【0048】
【数6】

【0049】
は排他的OR(XOR)演算子である。識別子又は表現の他の比較方法も用いることができる。
【0050】
識別子中の特定のビットを選択することで、識別子サイズと、識別子性能と、ロバスト性との間の所望のトレードオフを達成することができる。より低い周波数に対応するビットは一般にロバスト性がより高く、より高いビットは識別性がより高い。以下の参考文献[3]において提示されている最適化を用いることによって、又は以下の参考文献[5]の従来技術の最適化方法のうちの1つを用いることによって、画像及びそれらの画像の変形の大規模なデータベースを用いて、ビットの選択を実験的に最適化することもできる。本発明の特定の一実施形態では、DC成分に対応する最初のビットb0を無視し、識別子は続く48ビットから成る。
【0051】
1つ又は複数のトレース汎関数を用いて複数のトレース変換を得ることによって、性能に対する改善を達成することができる。次に、1つ又は複数のダイアメトリカル汎関数を用いて複数のサーカス関数を得ることができる。各サーカス関数から、1つの「基本」バイナリ識別子を抽出することができる。次に、これらの基本識別子の各ビットを図9及び図10に示すように組み合わせることができる。2つ以上の異なるサーカス関数361及び362からのバイナリストリングを組み合わせる具体的な方法は、それらを連結して識別子363を得ることである。
【0052】
このようにして、上記の式(1)のトレース汎関数を、上記の式(2)によって与えられるダイアメトリカル汎関数と共に用いて1つのバイナリストリングを得、その後、(1)のトレース汎関数を以下のダイアメトリカル汎関数(11)
【0053】
【数7】

【0054】
…(11)
と共に用いて第2のストリングを得ることによって、良好な結果を得ることができる。各バイナリストリングの最初のビット(フーリエ変換のDC成分に対応する)はスキップし、両方のストリングからの次の64ビットを連結して128ビットの識別子を得る。
【0055】
一実施形態では、トレース変換の複数解像度の表現を形成することによって、さらなる情報を抽出する。画像データの解像度を低減するための分解(たとえばトレース変換)を1次元又は2次元で行うことができる。次に、上記の同時継続中の欧州特許出願EP06255239.3及び英国特許出願GB0700468.2におけるように、ダイアメトリカル汎関数を適用して1つ又は複数の帯サーカス関数を得て、バイナリストリングを抽出する。
【0056】
この複数解像度のトレース変換は、英国特許出願GB0700468.2に詳細に記載されているように、その2つの次元d若しくはθのうちのいずれか又は双方の次元において元のトレース変換をサブサンプリングすることによって生成することができる。「トレース領域」においてdパラメータのサブサンプリングは、図13のように列に沿って複数の区間にわたって積分することによって行われる。これは、図11に示されるように、トレース変換中に幅Δdの帯を画像に射影することに対応する。サブサンプリングは、θパラメータにおける複数の区間にわたって、すなわち行に沿って積分することによって行うこともできる。図14を参照されたい。これは、トレース変換中に開口角Δθを有する2つの錐にわたって積分することとほぼ同じである。図12を参照されたい。代替的に、これらの演算を画像領域において行うことができる。
【0057】
同時継続中の欧州特許出願EP06255239.3及び英国特許出願GB0700468.2に開示されているような、ステップ150を有する図3の方法を用いて、複数解像度分解を用いることによって、1つのトレース変換から複数の基本識別子を抽出することができる。ここで、或る範囲内の異なる区間幅にわたってサブサンプリングが行われて、複数解像度の表現が生成される。トレース変換の出力のサイズが600×384であり、さらに、dパラメータが幅1、8、16、32、64及び128である帯を用いて積分することによってサブサンプリングされるシステムを用い、かつ、例えば式(2)及び(11)において定義されるようなダイアメトリカル汎関数を適用して12個のサーカス関数を得ることによって、良好な結果が得られた。このような組み合わせは、1ppmの誤受入率で98%の検出を与える。
【0058】
それにもかかわらず、多くの用途は98%を超える検出率で1ppmを下回るより低い誤受入率を要求する。本発明のある実施態様(以下でより詳細に説明する)は、0.1ppmを下回る誤受入率で99.8%を超える検出率を提供することを実験的に示している。
【0059】
上記で説明したように、同時継続中の欧州特許出願EP06255239.3及び英国特許出願GB0700468.2において提示されている識別子は、全ての可能な線を画像に射影し、次にこの情報を1Dに射影することによって抽出される。本発明の実施の形態によって開示される表現は、線のサブセットのみを用いて、画像の複数の代替的な1D表現を形成する。
【0060】
具体的には、画像全体にわたる線のうちのサブセットから識別子を抽出するために、画像全体にわたる線のうちのサブセットの2次元関数(特にトレース変換)の値を1Dにマッピングするサーカス関数の等価物(「サーカス帯関数(circus-band function)」と名づけられる)が定義される。したがって、サーカス帯関数は識別子の抽出を画像の一部分に効率的に限定する。これは、画像全体のトレース変換の一部分を選択し、選択された部分内のトレース変換の値を用いて画像識別子を導出することによって達成される。
【0061】
一実施形態では、トレース変換の選択される部分は距離パラメータdに対する範囲(u0≦d≦u1)によって規定される。図15(a)に示すように、これは、トレース領域において角度パラメータθの全ての値にわたって延在する水平帯(u0,u1)(帯A)に対応する。水平帯を複数の断片(それぞれがトレース領域におけるθに対する或る範囲の値に対応する)に分割することができる。帯Aの各断片は、画像領域における対応する2つの錐の領域(図15(b)に示す)の頂点を通じて延在する全ての線と等価である。したがって、図15(a)内の帯Aの明るい/暗い灰色の陰影をつけた断片は、図15(b)の上半分内の明るい/暗い灰色の陰影をつけた領域に対応する。
【0062】
効率のために、好適な実施の形態では、トレース変換は0〜π(0度〜180度)の角度θにわたってのみ行われることに留意されたい。したがって、回転不変性を維持するために、帯を、距離パラメータdに関して水平中心線(すなわち中心値)(図15(a)及び図15(b)における、d=0に対応する中心線)を中心とする対にする必要がある。図15(a)に示すように、帯Aと帯Bとが対にされ、図15(a)内の帯Bの明るい/暗い灰色の陰影をつけた断片が図15(b)の下半分内の明るい/暗い灰色の陰影をつけた領域に対応する。図15(c)は同様に、トレース領域における対となる帯C及びDを示し、これらは中心線値から、また画像領域における対応する2つの錐から、等距離に離間しており、例示のために断片に陰影をつけてある。
【0063】
一実施形態では、帯の対が組み合わされて、汎関数Gが用いられて、帯サーカス関数として知られている1D関数g(θ)にこれらがマッピングされる。トレース変換
【0064】
【数8】

【0065】
と以下のように定義されるマスク関数βとを乗算することによって帯サーカス関数g(θ)を得ることができる。
【0066】
【数9】

【0067】
…(12)
ここで、
【0068】
【数10】

【0069】
…(13)
式(12)において、Gはトレース変換の抽出された帯のdパラメータに沿って演算する汎関数である。式(13)内の2つの値u0及びu1は、帯の位置及び幅を規定する。差分u1−u0が大きくなるほど、帯が太くなる。
【0070】
帯サーカス関数g(θ)のより低い解像度の記述を、図16に示すような角度(θ)における分解によって得ることができる。この分解は、画像領域に2つの錐を取ることに対応する。分解は好ましくは、幅Δθの区間にわたる積分であり、これは、画像データの解像度を低減できる該区間にわたる任意の適切な汎関数とすることもできる。
【0071】
バイナリ表現を抽出するために、式(4)〜(9)によって記述されているもの(図3のステップ160〜180に対応する)と同じ技法を、帯サーカス関数g(θ)及び/又はその分解したバージョンに適用することができる。本発明の好適な一実施形態は、トレース変換から5対の帯を抽出し、1対は中心線(距離パラメータについての中心値)にわたるものであり、4対は残りのパラメータ空間の中央半分にわたって均等に分散される。これらの帯の幅はトレース領域において2ピクセルであり、汎関数Gは式(1)で与えられる。得られた5つの帯サーカス関数が分解され、角度次元において解像度が係数6で低減されて、最終的な5つの帯サーカス関数が得られる。最終的な5つの帯サーカス関数から抽出される「基本」識別子と、複数解像度のトレース変換からの12個の識別子とを組み合わせて、画像のための完全な識別子(17個の基本識別子を含む)を形成することによって、高い性能が得られる。
【0072】
上記の方法を行う、本発明の一実施形態による、本発明の応用のための装置の一例を図8に示す。該応用は、データベース230内に記憶されている画像のための識別子データベース240を構築することを含む。2つのデータベース230及び240は同じデータベースであってもよいし、又は別個のデータベースであってもよい。本装置は、問い合わせ画像250から抽出される識別子260を検索して、データベース内で一致するものを見つけることを可能にする。画像リスト(おそらくは順序付けされされたもの)がユーザ290又は問い合わせアプリケーションに返される。
【0073】
この識別子の1つの具体的な応用は、画像検索エンジンとしての応用である。バイナリ識別子を抽出し、関連する情報(ファイル名、画像、撮影者、取得日時、及び任意の他の有用な情報等)と共に記憶することによって、データベースが構築される。次に、問い合わせ画像aqが与えられると、バイナリ識別子が抽出され、データベース中の全ての識別子B0…BMと比較される。問い合わせ画像に対するハミング距離が閾値未満である全ての画像が返される。
【0074】
[代替的な実施態様]
様々な異なるトレース汎関数及びダイアメトリカル汎関数を用いることができ、例として以下が挙げられる(網羅的でないリスト)。
【0075】
【数11】

【0076】
バイナリ識別子の異なる組み合わせを組み合わせて、複雑度と、ロバスト性と、記述子サイズとの間の最適なトレードオフを提供することができる。トレース汎関数、ダイアメトリカル汎関数、分解、及び帯を変更することによって、代替的なバイナリ識別子を抽出することができる。
【0077】
式(13)によって与えられるマスク関数βは、マスク関数に対する1つの可能性に過ぎない。d及びθの他の関数を用いて、さらなる情報を抽出できる線の代替的サブセットを抽出することができる。
【0078】
回転、平行移動及び拡大縮小より高次の幾何変換の場合、上述した識別子のバージョンは適切でなく、式(3)の関係は成り立たない。識別子のロバスト性は、正規化工程を用いるアフィン変換まで拡張することができる。この正規化工程の全詳細は、以下の参考文献[2]に見ることができる。サーカス関数を正規化するために2つのステップが導入される。1番目のステップは、いわゆる関連サーカス(associated circus)を求めることを含み、2番目のステップは、正規化された関連サーカス関数を求めることを含む。この正規化に続き、式(3)の関係が真であることが示される。これによって、上記と同様に識別子の抽出工程を継続することができる。
【0079】
正規化工程と共に用いられるいくつかの適切なトレース汎関数が以下の(G1)及び(G2)に与えられ、ダイアメトリカル汎関数の適切な選択が(G3)に与えられる。
【0080】
【数12】

【0081】
ここで、r≡t−cであり、c≡median({tkk,{|g(tk)|}k)である。非負の重みw1,w2,…,wnを有する数列y1,y2,…,ynの加重中央値を、この数列が重みによって昇順でソートされると仮定した場合に次式が成り立つ最大のインデックスmを特定することによって定義する。
【0082】
【数13】

【0083】
…(14)
不等式(14)の不等号が厳密な不等号である場合、中央値はymとなる。しかし、この不等式の等号が成り立つ場合、中央値は(ym+ym-1)/2となる。
【0084】
上記で示したように、パラメータ(d又はθ)の複数の区間にわたって総和をとることによって、トレース変換における複数解像度分解を形成することができる。総和をとることは必須ではなく、他の可能性は、平均値、最大値、最小値等のような統計値を含む。他の汎関数をこれらの区間に適用することもできる。
【0085】
汎関数Gは式(1)に限定されず、代替的な汎関数を用いることが可能である。異なる複数の値で分解することによって単一の帯から複数の識別子を抽出することができる。好適な実施形態では係数6が用いられたが、他の係数を用いて代替的な識別子を生成してもよい。トレース変換の中心付近の帯が、クロッピングに対する良好なロバスト性を有することが実験によって分かっている。
【0086】
識別子に構造を適用して検索性能を高めることもできる。例えば、2パス探索を実施し、1回目の探索に半分のビットを用い、次に所与のレベルの精度を有するもののみを2回目の探索パスに認める。
【0087】
リード・マラー(Reed-Muller)復号器又はウイナー・ジブ(Wyner-Ziv)復号器等の方法を用いて識別子を圧縮し、さらにサイズを縮小することができる。
【0088】
[代替的な応用]
識別子はまた、ビデオシーケンス中のフレームをインデックス付けするために用いることもできる。新たなシーケンスが与えられると、各フレームから識別子を抽出し、次に、同一のシーケンスを見つけるために検索を行うことができる。これは、著作権の検出及びシーケンスの識別のために有用であり得る。
【0089】
複数の放送会社が同一のコンテンツ、例えば広告又は株式ニュースの映像を送信する場合が多い。放送会社間のナビゲーションのために、識別子を用いてこれらのコンテンツ間にリンクを形成することができる。
【0090】
画像識別子は、画像を介してコンテンツを結びつける機会を提供する。ユーザがウェブページ上の特定の画像に興味があったとしても、同一画像を有する他のページを見つける有効な方法はない。識別子を用いて、画像間のナビゲーション経路を提供することができる。
【0091】
識別子を用いてブロードキャストフィード中の広告を検出することができる。これを用いて、広告主が自社のキャンペーンを追跡するための自動監視を行うことができる。
【0092】
大規模な商用集合からパーソナルコンピュータ上の小規模なコレクションまで多くの画像データベースが存在する。データベースが厳格に制御されていない限り、通常は集合内の画像に重複があり、余分な記憶領域を無駄に必要とする。識別子は、これらのデータセット中の重複画像を削除又は紐付けするツールとして用いることができる。
【0093】
品質の悪い、場合によっては強く圧縮された画像を受信すると、ユーザはより品質の高いバージョンを見つけることを望む場合がある。識別子を用いて、解像度の高いバージョンを求めてインターネット上のデータベースを検索することができる。
【0094】
本明細書中、「画像」という用語は、画像単位(フィルタリング、解像度の変更、アップサンプリング、ダウンサンプリング等の処理の後のものを含む)を記述するために用いられるが、他の類似の用語(フレーム、フィールド、ピクチャ、又は画像・フレーム等のサブユニット若しくは領域等)にも当てはまる。本明細書中、画像という用語は、文脈から明らかである場合を除き、画像全体又は画像の領域を意味する。同様に、画像の領域は画像全体を意味し得る。画像は、フレーム又はフィールドを含み、静止画、又はフィルム若しくはビデオ等の画像シーケンス中の画像に関連し、又は、関連する画像のグループ中の画像に関連する。画像は、グレースケール画像又はカラー画像であってもよく、又は別のタイプのマルチスペクトル画像(例えば、IR、UV若しくは他の電磁的画像)であってもよく、又は音響画像であってもよく、他の画像であってもよい。
【0095】
特定の実施形態において、フーリエ変換が用いられて周波数表現が導出される。しかしながら、周波数表現は、ハール変換等の他の技法を用いて導出することもできることは理解されよう。特許請求の範囲において、フーリエ変換という用語は、DFT及びFFT等の変形を網羅するものとする。
【0096】
本発明は、適切な装置を用いて電気信号を処理することによって実施されることが好ましい。
【0097】
本発明は、例えば、適切なソフトウェア及び/又はハードウェアの変更を加えたコンピュータシステムにおいて実施することができる。例えば、本発明は、制御手段若しくは処理手段(プロセッサ若しくは制御装置等)、データ記憶手段(メモリ、磁気記憶装置、CD、DVD等のような画像記憶手段を含む)、データ出力手段(ディスプレイ、モニタ又はプリンタ等)、データ入力手段(キーボード等)、及び画像入力手段(スキャナ等)を有する、又はこれらの構成要素の任意の組み合わせを他の付加的な構成要素と共に有する、コンピュータ等を用いて実施することができる。本発明の態様は、ソフトウェア及び/若しくはハードウェアの形態、又は特定用途向け装置において提供することができ、又は、チップ等の特定用途向けモジュールを提供することができる。本発明の一実施形態による装置におけるシステムの構成要素は、他の構成要素から離れた場所に、例えばインターネットを介して設けられてもよい。
【0098】
[参考文献]
[1]Alexander Kadyrov及びMaria Petrou著「The Trace Transform and Its Applications」(IEEE Trans. PAMI, 23 (8), 2001年8月, pp 811-828)
[2]Maria Petrou及びAlexander Kadyrov著「Affine Invariant Features from the Trace Transform」(IEEE Trans. on PAMI, 26 (1), 2004年1月, pp 30-44)
[3]Paul Brasnett及びMiroslaw Boder著「A Robust Visual Identifier Using the Trace Transform」(Int. Conf. on Visual Information Eng. 2007 (VIE2007), 2007年7月, 2007)
[4]Paul Brasnett及びMiroslaw Boder著「Multi-Resolution Trace Transform for Image Identification」(IEEE Int. Conf. on Computer Vision (ICCV 2007), 2007年10月)、提出済み
[5]Handbook of Global Optimization, Ed. P. M. Pardalos and H. E. Romeijn, Springer 2002
【0099】
当業者であれば理解するように、説明した実施形態に対して多くの変形及び変更を行うことができる。例えば、本発明を、上記に記載した参考文献において教示されているもののような他の既存の技法及び関連技法を組み合わせて実施する実施形態において実施することができる。そのような既存の技法及び関連技法の組み合わせは当業者には容易に明らかとなり、本発明の範囲に入る、全てのそのような組み合わせ、並びに説明した実施形態に対する全てのそのような変更及び均等物を含むことが意図される。

【特許請求の範囲】
【請求項1】
画像に対応する信号を処理することによって前記画像の表現を導出する方法であって、
前記方法は、
前記画像の少なくとも一部分の2次元関数を導出することと、
前記2次元関数を処理して、前記画像の少なくとも一部分の中間表現を得ることと、
前記中間表現から前記画像の前記表現を導出することと
を含み、
前記中間表現は、前記画像の選択された一部分を用いて、又は、前記画像の少なくとも一部分の2次元関数の選択された一部分を用いて得られる、方法。
【請求項2】
前記中間表現は前記画像の少なくとも一部分の1次元関数である、請求項1に記載の方法。
【請求項3】
前記画像の選択された部分として、前記画像にわたる線のサブセットを選択することと、
前記選択された線のサブセットを用いて前記画像の前記2次元関数を導出することと、
をさらに含む、請求項1又は2に記載の方法。
【請求項4】
前記2次元関数を導出する前記ステップは、前記選択された線のサブセットの線に汎関数を適用することを含む、請求項3に記載の方法。
【請求項5】
前記画像の前記選択された部分は2つの錐を含み、
前記線のサブセットの前記線のそれぞれは前記2つの錐の頂点を通過する、請求項4に記載の方法。
【請求項6】
前記2次元関数の一部分を選択することと、
前記2次元関数の前記選択された部分の値を処理して、前記中間表現を得ることと、
をさらに含む、請求項1〜5のいずれか一項に記載の方法。
【請求項7】
前記画像の前記2次元関数を処理する前記ステップは、前記2次元関数と、前記2次元関数の前記部分を規定するマスク関数とを乗算することを含む、請求項6に記載の方法。
【請求項8】
前記2次元関数の一部分を選択する前記ステップは、前記2次元関数内の値の少なくとも1つの帯を規定することをさらに含み、
前記帯又は各帯は前記2次元関数の所定範囲の第1のパラメータによって規定される、請求項6又は7に記載の方法。
【請求項9】
前記画像の前記2次元関数は距離パラメータと角度パラメータとを含み、
前記2次元関数の前記部分は、前記距離パラメータの値u0と値u1との間の少なくとも1つの帯によって規定される、請求項8に記載の方法。
【請求項10】
前記方法は、一対の帯を規定することを含み、
前記一対の帯の範囲は、前記2次元関数の前記距離パラメータの中心値から等距離である、請求項8又は9に記載の方法。
【請求項11】
前記2次元関数を導出する前記ステップは、前記画像に対してトレース変換を行うことを含む、請求項6、7、8又は9に記載の方法。
【請求項12】
前記2次元関数を処理する前記ステップは、前記トレース変換の前記選択された部分の値に汎関数を適用して、前記画像の選択された一部分の中間表現を得ることを含む、請求項11に記載の方法。
【請求項13】
前記中間表現は前記画像の少なくとも一部分の1次元関数である、請求項12に記載の方法。
【請求項14】
前記1次元関数は次式によって定義され、
【数1】

ここで、
Gは前記トレース変換の前記選択された部分の前記距離パラメータに沿って演算するダイアメトリカル汎関数であり、
Tはトレース変換の汎関数であり、
d及びθは前記トレース変換においてトレースされる前記線の前記距離パラメータ及び前記角度パラメータであり、且つ
βは前記トレース変換の選択された一部分を規定するマスク関数である、請求項13に記載の方法。
【請求項15】
前記マスク関数は、前記距離パラメータd(u0≦d≦u1)によって前記トレース変換の値の帯を規定し、
【数2】

のように定義される、請求項10に記載の方法。
【請求項16】
前記トレース変換は、0度〜180度の範囲内の前記角度パラメータに対する値にわたって行われる、請求項3〜5又は11〜15のいずれか一項に記載の方法。
【請求項17】
前記中間表現から前記画像の前記表現を導出する前記ステップは、前記中間表現の周波数表現の複数の周波数成分を用いて、前記画像の前記選択された部分の前記表現を導出することを含む、請求項1〜16のいずれか一項に記載の方法。
【請求項18】
前記周波数成分の振幅を用いて表現関数を定義することと、
前記周波数成分の前記振幅を用いることであって、前記画像の前記選択された部分の前記表現を導出する、用いることと、
をさらに含む、請求項17に記載の方法。
【請求項19】
前記中間表現から前記画像の前記表現を導出する前記ステップは、前記画像の前記選択された部分の前記導出された表現と、前記画像の1つ又は複数の他の表現とを組み合わせることを含む、請求項1〜18のいずれか一項に記載の方法。
【請求項20】
前記2次元関数及び/又は前記中間表現の解像度を低減することをさらに含む、請求項1〜19のいずれか一項に記載の方法。
【請求項21】
画像に対応する信号を処理することによって前記画像の表現を導出する方法であって、
前記方法は、前記画像から、実質的に円形である部分画像を抽出することを含み、
前記部分画像はテーパリングされた円形の境界を有し
前記方法は、前記抽出された円形の部分画像から前記画像の前記表現を導出することを含み、
前記画像の前記表現を前記導出することは、好ましくは請求項1〜20のいずれか一項に記載の方法を用いて行われる、方法。
【請求項22】
画像を識別する方法であって、
請求項1〜21のいずれか一項に記載の方法を用いて前記画像の表現を導出することと、
前記表現と前記画像とを関連付けることと、
を含む、方法。
【請求項23】
画像を比較する方法であって、請求項1〜22のいずれか一項に記載の方法を用いて導出される各画像の表現を比較することを含む、方法。
【請求項24】
前記比較することはハミング距離を求めることを含む、請求項23に記載の方法。
【請求項25】
表現の比較に基づいて画像を選択することを含む、請求項23又は24に記載の方法。
【請求項26】
請求項1〜21のいずれか一項に記載の方法を用いて導出される画像の表現の使用であって、前記表現の送信、受信又は処理を含む、使用。
【請求項27】
請求項1〜21のいずれか一項に記載の方法を実行する装置。
【請求項28】
請求項1〜21のいずれか一項に記載の方法を実施するコンピュータ可読媒体上のコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公表番号】特表2010−531507(P2010−531507A)
【公表日】平成22年9月24日(2010.9.24)
【国際特許分類】
【出願番号】特願2010−514088(P2010−514088)
【出願日】平成20年3月12日(2008.3.12)
【国際出願番号】PCT/GB2008/000867
【国際公開番号】WO2009/001025
【国際公開日】平成20年12月31日(2008.12.31)
【出願人】(501253316)ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ (77)
【氏名又は名称原語表記】MITSUBISHI ELECTRIC R&D CENTRE EUROPE B.V.
【住所又は居所原語表記】20 Frederick Sanger Road, The Surrey Research Park, Guildford, Surrey GU2 5YD, Great Britain
【Fターム(参考)】