画像認識のための画像記述子
画像に対応する信号を処理することによって画像の表現を導出する方法であって、当該方法は、画像の関数を導出することであって、画像を平行移動、拡大縮小、又は回転させたものの関数は、画像の関数を平行移動又は拡大縮小させたものである、画像の関数を導出することと、画像の表現を導出するために、関数の周波数表現の複数の周波数成分を用いることとを含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像を表現する方法及び装置、並びに、例えば検索又は検証のために画像を比較又は照合する方法及び装置に関する。
【背景技術】
【0002】
多数の画像データベースが存在し、特定の画像のコピー或いはその画像の変更バージョンを探し出す必要がある場合も多い。このような機能は、例えば、権利管理或いは検索のために必要であり得る。種々のウェブサイトに載せられた同一画像は、同様のコンテンツを示す可能性があるため、貴重な検索の手掛かりとなる。別の重要な用途は、「フィルム」写真及びネガと、他のディジタルアーカイブとの間の識別及び紐付けである。
【0003】
MD5等のハッシュアルゴリズムを用いて同一画像を検出することができる。ハッシュ関数はコンテンツに基づく値を生成するものであり、2つの画像が同じであればそのハッシュ値も同じになる。しかしながら、MD5等の従来の手法はビットに敏感(sensitive)である、すなわち、たった1ビットの変化が全く異なるハッシュ値を生じることになる。通常、画像には何らかの形の変更、例えば圧縮が施されるため、従来のハッシュ法では失敗してしまう。
【0004】
重複画像を検出する1つの一般的な画像処理手法は、画像対を位置合わせして共通領域間の差異を見つけ出そうと試みることである。この問題として、位置合わせ工程が計算上複雑であり、大規模データベースでは検索に膨大な時間がかかる。新たな問い合わせ画像が提示される度に、完全な位置合わせ及び照合工程をデータベースの各エントリに対して行う必要がある。さらに重大な欠点は、検索を行うために原画像が利用可能で(又は送信され)なければならないことである。
【0005】
代替的な手法は、画像の特徴を捉える小さな識別子の抽出を伴う。このような工程の利点は、識別子を一度だけ抽出して記憶すればよいことである。したがって、照合工程が効率的であれば、この方法は高速な検索性能を提供する。画像識別子は通常、画像を表現するビット列である(図2を参照)。
【0006】
画像識別子は色分布又は階調分布に基づくものであってもよい。H. Chi Wong、Marshall Bern、David Goldberg著「An Image Signature for any Kind of Image」(Proc. ICIP 2002, pp. 409-412, 2002)[参考文献1]では、m×nの格子点を用いて、特徴を抽出する位置を定義する。これらの特徴は、画素とその8近傍画素との間のグレーレベルの強度差に基づく。したがって、特徴ベクトルのサイズは8mnとなる。2つの特徴ベクトル間の比較は、正規化L2距離測度を用いて行われる。この距離測度は、ヒストグラム間の差分絶対値和に基づく。提示される結果は、この手法がサイズ変更及び圧縮に対しては非常に正確に機能するが、回転に対しては正確に機能しないことを示唆する。
【0007】
米国特許第6,671,407号[参考文献14]の請求項は、R. Venkatesan、S.-M. Koon、M. H. Jakubowski、P. Moulin著「Robust Image Hashing」(Proc. IEEE ICIP 2000, pp. 664-666, Sep., 2000)[参考文献2]における研究に基づく。画像をデータベースに記憶し、画像に埋め込む透かしを生成するために、ハッシュ関数が生成される。ハッシュ関数は、入力画像にウェーブレット変換を行うことによって生成される。各サブバンドはランダムな大きさのブロックに分割され、各ブロックの統計量(平均又は分散)が計算される。次に、これらの統計量が8レベルに量子化され、この量子化が変更に対して或る程度のロバスト性を与える。量子化された値は、3ビットのバイナリ列で表現される。
【0008】
上記の2つの方法は、入力画像を矩形領域に分割する事に依存する。したがって、いずれの方法も、いくらかの量の画像回転があると失敗してしまう。
【0009】
色分布及び階調分布の代案として、周波数領域情報が画像識別子に用いられることがある。離散ウェーブレット変換(DWT)に基づく手法が、ドベシィ(Daubechies)フィルタを用いるEdward Y. Chang、James Ze Wang、Chen Li、Gio Wiederhold著「RIME: A Replicated Image Detector for the World Wide Web」(Proc. of SPIE Symp. of Voice, Video, and Data Comms., pp. 58-67, Boston, MA, Nov., 1998)[参考文献3]に記載されている。ウェーブレット変換の最下位階層の部分領域を用いて画像が表現される。DWTに基づく上記[参考文献2]の方法では、DWTのDCT成分を求め、反復的且つ決定論的な領域成長法を用いて、原画像のバイナリバージョンを形成する。この方法は、大きな量の回転にはロバストでない。
【0010】
ラドン変換に基づくF. Lefebvre、J. Czyz、B. Macq著「A Robust Soft Hash Algorithm for Digital Image Signature」(Proc. IEEE Int. Conf. Image Processing, pp. 495-498, 2003)[参考文献4]において、画像ハッシュ関数が開発されている。このハッシュ関数は透かし入れのために開発されたものであるが、回転、スケーリング、圧縮、フィルタリング、及びぼかし処理に対するロバスト性等のいくつかの非常に有用な特性を有するように設計されている。ラドン変換の後、共分散行列が計算され、2つの最大固有値に対応する固有ベクトルから署名が形成される。
【0011】
Jin S. Seo、Jaap Haitsma、Ton Kalker、Chang D. Yoo著「A Robust Image Fingerprinting System using the Radon Transform」(Signal Processing: Image Communication, 19, pp. 325-339, 2004)[参考文献5]では、画像のラドン変換を用いて画像識別子が形成される。ラドン変換を行った後、自己相関、対数マッピング、及び2Dフーリエ変換を含むいくつかのステップが行われる。これにより、2Dのバイナリ識別子が抽出される。この方法は画像の左右反転に対してロバストでない。
【0012】
識別子の抽出に対する最後の代案は、画像特徴の使用である。ウェーブレット変換を用いて特徴点の検出及び抽出を行う手法が、Vishal Monga、Brian Evans著「Robust Perceptual Image Hashing using Feature Points」(Proc. IEEE ICIP 2004, pp. 677-680, Oct., 2004)[参考文献6]に提案されている。検出された特徴を用いて画像署名が構築される。この方法は、回転に対するロバスト性に欠ける。
【0013】
Alejandro Jaimes、Shih-Fu Chang、Alexander C. Loui著「Detection of Non-Identical Duplicate Consumer Photographs」(ICICS-PCM 2003, pp. 16-20, Dec., 2003)[参考文献7]では、特徴点が検出され、RANSACアルゴリズムを用いて大域的な画像の位置合わせが行われる。相関及び自己顕著性マップから類似点の一致度が導出される。
【0014】
米国特許出願第2004/0103101号[参考文献8]は、画像の幾何変換コピーを検出する問題の解決に関するものである。これは、2つの画像間で一致する物体及び特徴の検出に基づく。画像間で一致が見つかると幾何変換が計算され、その2つの画像が位置合わせされ、画像間の類似度マップとして差分が計算される。
【0015】
一般に、特徴点検出に基づく方法に用いられる検索工程及び照合工程は、高い計算能力が要求される。そのため、大規模データベースでの使用や、処理能力が限られている場合の使用には適していない。
【0016】
エッジに基づく画像検索システムが、米国特許第6,072,904号[参考文献9]に開示されている。画像中のエッジ特徴に基づく固有ベクトルが画像毎に形成され、これらのベクトルの比較により検索が行われる。
【0017】
画像特徴に基づくハッシュ値を生成する方式が、米国特許出願第5,465,353号[参考文献10]に開示されている。画像毎に局所特徴点の集合が抽出される。特徴から3つ一組のハッシュ値が形成され、画像がデータベースに記憶される。問い合わせ画像に最も一致する特徴を有する文書を検索することができる投票方式が説明されている。使用される投票方式により、検索に高い計算能力が要求される。
【0018】
米国特許出願第5,819,288号[参考文献11]、米国特許出願第5,852,823号[参考文献12]、及び米国特許出願第5,899,999号[参考文献13]に提示される方法では、特徴は、一組の事前定義されたガウス導関数(25個のフィルタ)を用いる多重解像度(3レベル)処理から導出される。これにより、各カラーチャネルにつき15,625(253)個の特徴、すなわち、46,875個の特徴が得られる。全ての画像にわたって特徴の統計量(平均及び分散)を計算することによって、画像の集合を記憶及び/又は問い合わせのためにグループ化することができる。この方法により用いられる記憶要件は非常に高い。
【0019】
トレース変換に基づく画像特徴の抽出方法が、Maria Petrou、Alexander Kadyrov著「Affine Invariant Features from the Trace Transform」(IEEE Trans. on PAMI, 26(1), Jan, 2004, pp 30-44)[参考文献16]に提案されている。汎関数の組み合わせを用いて、(7×6×14)588個の数字から成る特徴ベクトルが得られる。この手法は、特徴ベクトルの588個の全ての数字を得るためにトレース変換を画像毎に何度も行う必要があるため、計算量が多い。
【発明の概要】
【発明が解決しようとする課題】
【0020】
既存のアルゴリズム及びシステムの主な問題として以下が挙げられる。
・特徴の抽出及び/又は照合に関して計算量が多い。
・記述子が膨大な記憶空間を必要とする。
・画像の変更に対するロバスト性に欠ける。
・誤受入率(false acceptance rate)が高すぎて大規模なデータセットには効果的に使用できない。
【課題を解決するための手段】
【0021】
本発明の態様が添付の特許請求の範囲に記載される。
【0022】
本発明は、効率的な特徴抽出及び非常に単純で高速な照合を提供する。また、識別子は非常に小さく、通常128ビット(16バイト)以下である。そのため、1KBでは64個の画像識別子を記憶し、1MBでは65,536個の識別子を記憶することができる。
【0023】
最も良く知られている従来技術の方法は、画像当たり400ビットを必要とする。
【0024】
本発明の誤受入率は百万分の1程度である。
【0025】
本発明は、画像から識別子を抽出する新規の方法に関する。一実施の形態において、トレース変換の使用と、フーリエ変換の振幅に基づく係数のバイナリ符号化とを組み合わせる方法により、ロバストな識別子が得られる。バイナリ符号化方法は、(トレース変換の)サーカス関数(circus function)のフーリエ変換を用いて、バイナリ識別子を抽出する。
【0026】
トレース変換では、直線によって画像をトレースし、この直線に沿って画像強度又はカラー関数の特定の汎関数Tを計算する。種々のトレース汎関数Tを用いて、単一の入力画像から様々なトレース変換を作成してもよい。2D平面において、線は、2つのパラメータ(d,θ)により特徴付けることができる。そのため、2D画像のトレース変換は、各トレース線のパラメータ(d,θ)の2D関数となる。
【0027】
次に、トレース変換の(トレース領域の)列に沿ってダイアメトリック汎関数(diametric functional)Pを適用することによって「サーカス関数」を計算する(すなわち、距離パラメータdにわたってダイアメトリック汎関数Pを適用し、角度θに関する1Dサーカス関数を得る)。
【0028】
本発明によれば、サーカス関数の周波数表現(例えばフーリエ変換)が得られ、周波数振幅成分に対して関数が定義され、その符号がバイナリ記述子として採用される。
【0029】
本方法の他の態様は、異なる汎関数の組み合わせを用いることにより得られる識別子の「族」から部分的に選択したものを組み合わせて単一の記述子にする。このような組み合わせを用いることによって識別子の性能は大きく向上する。
【0030】
添付図面を参照して本発明の実施形態を説明する。
【図面の簡単な説明】
【0031】
【図1a】画像を示す図である。
【図1b】図1aの画像を縮小したバージョンを示す図である。
【図1c】図1aの画像を回転させたバージョンを示す図である。
【図1d】図1aの画像をぼかしたバージョンを示す図である。
【図2】従来技術による画像及びそのビット列表現を示す図である。
【図3】本発明の一実施形態の方法のステップを示す図である。
【図4】本発明の一実施形態の別の方法のステップを示す図である。
【図5】トレース変換の線パラメータ化を示す図である。
【図6】種々の画像から導出される関数を示す図である。
【図7】本発明の一実施形態による装置のブロック図である。
【図8】複数のトレース変換を用いる一実施形態を示すブロック図である。
【図9】図8の実施形態により作成されるビットストリームを示す図である。
【発明を実施するための形態】
【0032】
画像表現を導出すると共に、そのような表現を例えば1つ又は複数の画像の識別、照合、或いは検証のために用いる様々な実施形態を以下に説明する。本発明は、上述のように画像を識別するために特に有用であるが、画像の識別に限定されるものではない。同様に、実施形態で説明される画像識別子は画像表現又は画像記述子の一例である。
【0033】
本発明の一実施形態による視覚識別子の具体的設計は、ロバスト性を持たせたい画像の変更の種類、識別子の大きさ、抽出及び照合の複雑度、目標誤検出率(target false-alarm rate)等に関連する要件によって決まる。
【0034】
ここでは、画像に対する以下の変更にロバストな識別子をもたらす一般的設計を示す。
・減色
・ぼかし
・輝度値変更
・反転(左右及び上下)
・グレースケール変換
・ヒストグラム等化
・JPEG圧縮
・ノイズ
・回転
・スケーリング
【0035】
識別子は、広範な画像に対して百万分の1という非常に低い誤検出率を達成することが好ましい。
【0036】
図1は、画像及びその画像の変更バージョンの一例を示す。より具体的には、図1aは原画像であり、図1bは図1aの画像を縮小したバージョンであり、図1cは図1aの画像を回転させたバージョンであり、図1dは図1aの画像をぼかしたバージョンである。
【0037】
本発明の実施形態は画像の表現を導出する。より具体的には、画像に対応する信号を処理することによって画像識別子を導出する。
【0038】
図3は、本発明の一実施形態による画像識別子を導出する方法のステップ、すなわち識別子抽出工程を示す。
【0039】
トレース変換を適用する前処理として、画像をサイズ変更し(ステップ110)、また任意選択でフィルタリングする(ステップ120)。サイズ変更ステップ110は、画像を処理前に正規化するために用いられる。ステップ120は、画像に対して行われた何らかの処理、及び/又は、原画像全体を用いるのではなく領域を選択することにより生じるエイリアシング等の効果を除去するためのフィルタリングを含み得る。本方法の好適な一実施形態では、さらなる処理のために画像の中心から円形領域が抽出される。
【0040】
ステップ130において、トレース変換T(d,θ)が行われる。トレース変換130は、全ての可能な線を画像に射影してこれらの線に汎関数を適用する。汎関数は、通常は関数のベクトル空間V上の実数値関数である。
【0041】
トレース変換の場合、画像中の線にトレース汎関数Tが適用される。図5に示されるように、線はd及びθによりパラメータ化される。次にステップ140において、トレース変換の列に(すなわち距離パラメータdに沿って)さらなる汎関数Dを適用して、実数値ベクトルを得ることができる。この第2の汎関数Pはダイアメトリック汎関数として知られ、結果として得られるベクトル(θに関する1次元関数)はサーカス関数として知られる。第3の汎関数であるサーカス汎関数(circus functionl)をサーカス関数に適用して、単一の数を得ることができる。この結果の特性は、3つの異なる汎関数(トレース汎関数、ダイアメトリック汎関数、及びサーカス汎関数)を適切に選択することによって制御することができる。画像及び対応するトレース変換の例を含むトレース変換の全詳細は、例えば参照として本明細書中に援用されるAlexander Kadyrov、Maria Petrou著「The Trace Transform and Its Applications」(IEEE Trans. PAMI, 23(8), Aug., 2001, pp 811-828)[参考文献15]に見ることができる。
【0042】
本発明の実施形態の方法では、最初の2つのステップのみをトレース変換において行う。すなわち、トレース変換の後にダイアメトリック汎関数を適用して1次元のサーカス関数を得る。
【0043】
本方法の1つの特定の例において、トレース汎関数Tは
【0044】
【数1】
【0045】
によって与えられ、ダイアメトリック汎関数Pは
【0046】
【数2】
【0047】
によって与えられる。
【0048】
サーカス関数が様々な画像処理操作により受ける影響の例を図6に見ることができる。図6は、画像の様々な変形に対応するサーカス関数を示す。図6(a)は原画像に対応し、図6(b)は元画像を回転させたバージョンに対応し、図6(c)は元画像をぼかしたバージョンに対応する。回転は関数をシフトさせる(と共にスケール変化を生じる)ことが見て取れる。
【0049】
上で挙げた全ての画像の変更操作に関して、汎関数を適切に選択することにより、画像aのサーカス関数f(a)は、変更された画像a’のサーカス関数f(a’)がシフト又は(振幅が)スケーリングされたものに過ぎないことを示すことができる(参考文献15の第3章を参照)。
【0050】
【数3】
【0051】
次に、式(3)のフーリエ変換を行うことによって次式が得られる。
【0052】
【数4】
【0053】
次に、式(6)の振幅を取ると次式が得られる。
【0054】
【数5】
【0055】
式(7)から、変更された画像及び原画像はもはや、スケーリング係数κを除いて同じであることが分かる。
【0056】
ここで、本実施形態によれば、関数c(ω)が複数のフーリエ変換係数の振幅係数上で定義される。この関数の1つの例示は、隣り合う係数の差分を取ることである。
【0057】
【数6】
【0058】
式(8)の結果として得られるベクトルに以下のような閾値を適用することによって、バイナリ列を抽出することができる。
【0059】
【数7】
【0060】
次に、これらの値B={b0,...,bn}から、本発明の実施形態の画像識別子が構築される。
【0061】
共に長さNの2つの異なる識別子B1及びB2間での識別子の照合を行うために、正規化ハミング距離を取る。
【0062】
【数8】
【0063】
ここで、
【0064】
【数9】
【0065】
は排他的OR(XOR)演算子である。識別子又は表現における他の比較方法も用いることができる。
【0066】
識別子中の特定ビットを選択することにより、性能をさらに高めることができる。下位ビットは一般にロバスト性がより高く、上位ビットは識別性がより高い。本発明の特定の一実施形態では、最初のビットは無視され、識別子はその次の64ビットから作られる。
【0067】
上記の方法を行う本発明の一実施形態による装置の一例を図7に示す。具体的には、画像記憶モジュール210により画像200が受け取られ、画像データベース230に記憶される。さらに、識別子抽出記憶モジュール220が、受け取った画像毎に本発明の方法に従って画像識別子を抽出し、それらの画像識別子を識別子データベース240に記憶する。このとき、任意選択では画像のコンテンツに関連する他の情報も一緒に適宜記憶する。
【0068】
図7はさらに、上記の方法を用いて抽出された画像識別子を用いる画像検索エンジンを具現化する装置を示す。問い合わせ画像250の受け取りに応答して、画像検索エンジンによって画像の検証又は照合が行われる。本発明の方法に従って、識別子抽出モジュール260において問い合わせ画像250の画像識別子が抽出される。識別子照合モジュール270は、問い合わせ画像250の画像識別子を、識別子データベース240に記憶されている画像識別子と比較する。画像検索モジュール280は、画像データベース230から一致画像290を取り出す。以下で詳述するように、この一致画像290は、問い合わせ画像識別子と一致する画像識別子を有する。
【0069】
図4は、フーリエ変換係数に対するバイナリ関数を定義する代替方法を示す。詳細には、フーリエ変換係数を得た(ステップ171)後、複数のフーリエ変換係数の振幅の対数を得る(ステップ172及び173)。係数の差分を上記の式(8)と同様に計算し(ステップ174)、その後、この差分の符号を取り、この符号によりバイナリ値を割り当てる(ステップ175)。次に、このバイナリ値を用いてバイナリ識別子を形成する。
【0070】
上述した基本識別子は、図8及び図9に示すように、複数のトレース変換を用いて、別個の変換からのビットを組み合わせることによって改良することができる。2つの別個の変換361及び362からのバイナリ列を組み合わせる具体的な方法は、それらを連結して識別子363を得ることである。このようにして、式(1)のトレース汎関数Tを、式(2)によって与えられるダイアメトリック汎関数Pと共に用いて1つのバイナリ列を得た後、式(1)のトレース汎関数Tをダイアメトリック汎関数P
【0071】
【数10】
【0072】
と共に用いて第2の列を得ることによって良好な結果を得ている。各バイナリ列の最初のビットは飛ばし、双方のストリングにおけるその次の64ビットが連結されて128ビットの識別子を得る。
【0073】
この識別子の1つの応用は、図7に示し上述したような画像検索エンジンとしての応用である。データベース240は、ファイル名、画像、撮影者、取得日時、及び任意の他の有用な情報等の関連する情報と共に、画像のバイナリ識別子を抽出して記憶することによって構築される。次に、問い合わせ画像aqが与えられると、バイナリ識別子が抽出され、データベース中の全ての識別子B0...BMと比較される。問い合わせ画像に対するハミング距離が閾値未満である全ての画像が返される。
【0074】
様々なトレース汎関数T及びダイアメトリック汎関数Dを用いることができ、例として以下が挙げられる(網羅的でないリスト)。
【0075】
【数11】
【0076】
2つ又はそれ以上の識別子を組み合わせて、画像をもっとよく特徴付けすることができる。この組み合わせは、複数の識別子の連結によって行われることが好ましい。
【0077】
回転、平行移動、及びスケーリングよりも高次の幾何変換の場合、上述した識別子のバージョンは適切ではなく、式(3)の関係は成り立たない。識別子のロバスト性は、正規化工程を用いることによってアフィン変換まで拡張することができる。この正規化工程の全詳細は、上記[参考文献16]に見ることができる。サーカス関数を正規化するために2つのステップが導入される。最初のステップは、いわゆる関連サーカス(associated circus)を求めることを含み、2番目のステップは、正規化された関連サーカス関数を求めることを含む。この正規化の結果、(3)の関係が真であることが示される。これにより、上記と同様に識別子の抽出工程を継続することができる。
【0078】
正規化工程と共に用いられるいくつかの適切なトレース汎関数が以下の(G1)及び(G2)で与えられる。また、ダイアメトリック汎関数の適切な選択が(G3)で与えられる。
【0079】
【数12】
【0080】
ここで、r≡t−cであり、c≡median({tk}k,{|g(tk)|}k)である。非負の重みw1,w2,...,wnを有する数列y1,y2,...,ynの加重中央値を、この数列が重みにより昇順でソートされると仮定した場合に次式が成り立つ最大インデックスmを見つけることによって定義する。
【0081】
【数13】
【0082】
(式12の)不等式が厳密である場合、中央値はymとなる。しかし、不等式が等式である場合、中央値は(ym+ym-1)/2となる。
【0083】
識別子を連続ビットブロックから構築する代わりに、実験的に選択を行うこともできる。このやり方の一例は、2組のデータ、すなわち、i)独立した画像と、ii)原画像及び変更された画像とを用意することである。識別子の性能は、独立したデータの誤受入率(false acceptance rate)と、原画像及び変更された画像の誤拒否率(false rejection rate)とを比較することによって測定することができる。関心がある点は、等価エラー率(equal error rate)、又は、1×10-6の誤受入率における誤拒否率である。最適化は、ビットが選択されていない状態で開始される。各ビットを1つずつ検査して、どのビットが(例えば等価エラー率又は何らかの同様の測度に関して)最良の性能を発揮するかを調べることが可能である。これにより、最良の結果を与えるビットが選択される。次に、全ての残りのビットを試験して、どれが最初のビットと組み合わせた際に最良の性能を発揮するかを見つけ出す。ここでもまた、エラー率が最低のビットが選択される。この手順は、全てのビットが選択されるまで繰り返される。そうすると、全体として最良の性能をもたらすビットの組み合わせを選択することが可能になる。
【0084】
識別子を構造化して検索性能を高めることもできる。例えば、2パス探索を実施して、半分のビットを用いて1回目の探索を行い、次に所与のレベルの精度を有するものにのみ2回目の探索を行う。
【0085】
リード・マラー(Reed-Muller)復号器或いはウイナー・ジブ(Wyner-Ziv)復号器等の方法を用いて識別子を圧縮し、さらにサイズを縮小することができる。
【0086】
識別子はまた、ビデオシーケンス中のフレームをインデックス付けするために用いることもできる。新たなシーケンスが与えられると、フレームから識別子を抽出し、次に、同一シーケンスを見つけるために検索を行うことができる。これは、著作権の検出及びシーケンスの識別のために有用であり得る。
【0087】
複数の放送会社が同一のコンテンツ、例えば広告又は株式ニュースの映像を送信する場合が多い。放送会社間のナビゲーションのために、識別子を用いてこれらのコンテンツ間にリンクを形成することができる。
【0088】
画像識別子は、画像によりコンテンツを結びつける機会を提供する。ユーザがウェブページ上の特定の画像に興味がある場合、同一画像を有する他のページを見つける有効な方法は現在のところない。識別子を用いて、画像間のナビゲーション経路を提供することができる。
【0089】
識別子を用いてブロードキャストフィード中の広告を検出することができる。これを用いて、広告主が自社のキャンペーンを追跡するための自動監視を行うことができる。
【0090】
大規模な商用セットからパーソナルコンピュータ上の小規模なコレクションまで多くの画像データベースが存在する。データベースが厳格に制御されていない限り、通常はセット中の画像に重複があり、余分な記憶領域を無駄に必要とする。識別子は、これらのデータセット中の重複画像を削除又は紐付けするツールとして用いることができる。
【0091】
本明細書中、「画像」という用語は、フィルタリング、解像度の変更、アップサンプリング、ダウンサンプリング等の後処理を含む画像単位を説明するために用いられるが、フレーム、フィールド、ピクチャ、又は画像、フレーム等のサブユニット若しくは領域等の他の同様の用語にも当てはまる。本明細書中、画像という用語は、文脈から明らかである場合を除き、画像全体又は画像の領域を意味する。同様に、画像の領域は画像全体を意味し得る。画像は、フレーム又はフィールドを含み、静止画、又はフィルム若しくはビデオ等の画像シーケンス、又は関連画像群中の画像に関連する。画像は、グレースケール画像又はカラー画像、又は別のタイプのマルチスペクトル画像、例えば、IR、UV若しくは他の電磁波画像、又は音響画像等であり得る。
【0092】
実施形態において、周波数表現はフーリエ変換を用いて導出されるが、周波数表現はハール変換等の他の技法を用いて導出することもできる。特許請求の範囲において、フーリエ変換という単語は、DFT及びFFT等の変形を網羅するものとする。
【0093】
本発明は、適切な装置を用いて電気信号を処理することによって実施されることが好ましい。
【0094】
本発明は、例えば、適切なソフトウェア及び/又はハードウェアの変更を加えたコンピュータシステムにおいて実施することができる。例えば、本発明は、プロセッサ若しくは制御装置等の制御手段若しくは処理手段、メモリ、磁気記憶装置、CD、DVD等のような画像記憶手段を含むデータ記憶手段、ディスプレイ若しくはモニタ若しくはプリンタ等のデータ出力手段、キーボード等のデータ入力手段、及びスキャナ等の画像入力手段、又はこれらの構成要素の任意の組み合わせを他の付加的な構成要素と共に有するコンピュータ等を用いて実施することができる。本発明の態様は、ソフトウェア及び/若しくはハードウェアの形態において提供することができる。又は、特定用途向け装置或いはチップ等の特定用途向けモジュールを提供することができる。本発明の一実施形態による装置におけるシステムの構成要素は、他の構成要素から離れた場所に、例えばインターネットを介して設けられてもよい。
【0095】
当業者であれば理解するように、説明した実施形態に対して多くの変形及び修正を行ってもよい。これは、添付の特許請求の範囲に規定される本発明の精神及び範囲に入る変形、修正及び等価物を全て含むことが意図される。
【技術分野】
【0001】
本発明は、画像を表現する方法及び装置、並びに、例えば検索又は検証のために画像を比較又は照合する方法及び装置に関する。
【背景技術】
【0002】
多数の画像データベースが存在し、特定の画像のコピー或いはその画像の変更バージョンを探し出す必要がある場合も多い。このような機能は、例えば、権利管理或いは検索のために必要であり得る。種々のウェブサイトに載せられた同一画像は、同様のコンテンツを示す可能性があるため、貴重な検索の手掛かりとなる。別の重要な用途は、「フィルム」写真及びネガと、他のディジタルアーカイブとの間の識別及び紐付けである。
【0003】
MD5等のハッシュアルゴリズムを用いて同一画像を検出することができる。ハッシュ関数はコンテンツに基づく値を生成するものであり、2つの画像が同じであればそのハッシュ値も同じになる。しかしながら、MD5等の従来の手法はビットに敏感(sensitive)である、すなわち、たった1ビットの変化が全く異なるハッシュ値を生じることになる。通常、画像には何らかの形の変更、例えば圧縮が施されるため、従来のハッシュ法では失敗してしまう。
【0004】
重複画像を検出する1つの一般的な画像処理手法は、画像対を位置合わせして共通領域間の差異を見つけ出そうと試みることである。この問題として、位置合わせ工程が計算上複雑であり、大規模データベースでは検索に膨大な時間がかかる。新たな問い合わせ画像が提示される度に、完全な位置合わせ及び照合工程をデータベースの各エントリに対して行う必要がある。さらに重大な欠点は、検索を行うために原画像が利用可能で(又は送信され)なければならないことである。
【0005】
代替的な手法は、画像の特徴を捉える小さな識別子の抽出を伴う。このような工程の利点は、識別子を一度だけ抽出して記憶すればよいことである。したがって、照合工程が効率的であれば、この方法は高速な検索性能を提供する。画像識別子は通常、画像を表現するビット列である(図2を参照)。
【0006】
画像識別子は色分布又は階調分布に基づくものであってもよい。H. Chi Wong、Marshall Bern、David Goldberg著「An Image Signature for any Kind of Image」(Proc. ICIP 2002, pp. 409-412, 2002)[参考文献1]では、m×nの格子点を用いて、特徴を抽出する位置を定義する。これらの特徴は、画素とその8近傍画素との間のグレーレベルの強度差に基づく。したがって、特徴ベクトルのサイズは8mnとなる。2つの特徴ベクトル間の比較は、正規化L2距離測度を用いて行われる。この距離測度は、ヒストグラム間の差分絶対値和に基づく。提示される結果は、この手法がサイズ変更及び圧縮に対しては非常に正確に機能するが、回転に対しては正確に機能しないことを示唆する。
【0007】
米国特許第6,671,407号[参考文献14]の請求項は、R. Venkatesan、S.-M. Koon、M. H. Jakubowski、P. Moulin著「Robust Image Hashing」(Proc. IEEE ICIP 2000, pp. 664-666, Sep., 2000)[参考文献2]における研究に基づく。画像をデータベースに記憶し、画像に埋め込む透かしを生成するために、ハッシュ関数が生成される。ハッシュ関数は、入力画像にウェーブレット変換を行うことによって生成される。各サブバンドはランダムな大きさのブロックに分割され、各ブロックの統計量(平均又は分散)が計算される。次に、これらの統計量が8レベルに量子化され、この量子化が変更に対して或る程度のロバスト性を与える。量子化された値は、3ビットのバイナリ列で表現される。
【0008】
上記の2つの方法は、入力画像を矩形領域に分割する事に依存する。したがって、いずれの方法も、いくらかの量の画像回転があると失敗してしまう。
【0009】
色分布及び階調分布の代案として、周波数領域情報が画像識別子に用いられることがある。離散ウェーブレット変換(DWT)に基づく手法が、ドベシィ(Daubechies)フィルタを用いるEdward Y. Chang、James Ze Wang、Chen Li、Gio Wiederhold著「RIME: A Replicated Image Detector for the World Wide Web」(Proc. of SPIE Symp. of Voice, Video, and Data Comms., pp. 58-67, Boston, MA, Nov., 1998)[参考文献3]に記載されている。ウェーブレット変換の最下位階層の部分領域を用いて画像が表現される。DWTに基づく上記[参考文献2]の方法では、DWTのDCT成分を求め、反復的且つ決定論的な領域成長法を用いて、原画像のバイナリバージョンを形成する。この方法は、大きな量の回転にはロバストでない。
【0010】
ラドン変換に基づくF. Lefebvre、J. Czyz、B. Macq著「A Robust Soft Hash Algorithm for Digital Image Signature」(Proc. IEEE Int. Conf. Image Processing, pp. 495-498, 2003)[参考文献4]において、画像ハッシュ関数が開発されている。このハッシュ関数は透かし入れのために開発されたものであるが、回転、スケーリング、圧縮、フィルタリング、及びぼかし処理に対するロバスト性等のいくつかの非常に有用な特性を有するように設計されている。ラドン変換の後、共分散行列が計算され、2つの最大固有値に対応する固有ベクトルから署名が形成される。
【0011】
Jin S. Seo、Jaap Haitsma、Ton Kalker、Chang D. Yoo著「A Robust Image Fingerprinting System using the Radon Transform」(Signal Processing: Image Communication, 19, pp. 325-339, 2004)[参考文献5]では、画像のラドン変換を用いて画像識別子が形成される。ラドン変換を行った後、自己相関、対数マッピング、及び2Dフーリエ変換を含むいくつかのステップが行われる。これにより、2Dのバイナリ識別子が抽出される。この方法は画像の左右反転に対してロバストでない。
【0012】
識別子の抽出に対する最後の代案は、画像特徴の使用である。ウェーブレット変換を用いて特徴点の検出及び抽出を行う手法が、Vishal Monga、Brian Evans著「Robust Perceptual Image Hashing using Feature Points」(Proc. IEEE ICIP 2004, pp. 677-680, Oct., 2004)[参考文献6]に提案されている。検出された特徴を用いて画像署名が構築される。この方法は、回転に対するロバスト性に欠ける。
【0013】
Alejandro Jaimes、Shih-Fu Chang、Alexander C. Loui著「Detection of Non-Identical Duplicate Consumer Photographs」(ICICS-PCM 2003, pp. 16-20, Dec., 2003)[参考文献7]では、特徴点が検出され、RANSACアルゴリズムを用いて大域的な画像の位置合わせが行われる。相関及び自己顕著性マップから類似点の一致度が導出される。
【0014】
米国特許出願第2004/0103101号[参考文献8]は、画像の幾何変換コピーを検出する問題の解決に関するものである。これは、2つの画像間で一致する物体及び特徴の検出に基づく。画像間で一致が見つかると幾何変換が計算され、その2つの画像が位置合わせされ、画像間の類似度マップとして差分が計算される。
【0015】
一般に、特徴点検出に基づく方法に用いられる検索工程及び照合工程は、高い計算能力が要求される。そのため、大規模データベースでの使用や、処理能力が限られている場合の使用には適していない。
【0016】
エッジに基づく画像検索システムが、米国特許第6,072,904号[参考文献9]に開示されている。画像中のエッジ特徴に基づく固有ベクトルが画像毎に形成され、これらのベクトルの比較により検索が行われる。
【0017】
画像特徴に基づくハッシュ値を生成する方式が、米国特許出願第5,465,353号[参考文献10]に開示されている。画像毎に局所特徴点の集合が抽出される。特徴から3つ一組のハッシュ値が形成され、画像がデータベースに記憶される。問い合わせ画像に最も一致する特徴を有する文書を検索することができる投票方式が説明されている。使用される投票方式により、検索に高い計算能力が要求される。
【0018】
米国特許出願第5,819,288号[参考文献11]、米国特許出願第5,852,823号[参考文献12]、及び米国特許出願第5,899,999号[参考文献13]に提示される方法では、特徴は、一組の事前定義されたガウス導関数(25個のフィルタ)を用いる多重解像度(3レベル)処理から導出される。これにより、各カラーチャネルにつき15,625(253)個の特徴、すなわち、46,875個の特徴が得られる。全ての画像にわたって特徴の統計量(平均及び分散)を計算することによって、画像の集合を記憶及び/又は問い合わせのためにグループ化することができる。この方法により用いられる記憶要件は非常に高い。
【0019】
トレース変換に基づく画像特徴の抽出方法が、Maria Petrou、Alexander Kadyrov著「Affine Invariant Features from the Trace Transform」(IEEE Trans. on PAMI, 26(1), Jan, 2004, pp 30-44)[参考文献16]に提案されている。汎関数の組み合わせを用いて、(7×6×14)588個の数字から成る特徴ベクトルが得られる。この手法は、特徴ベクトルの588個の全ての数字を得るためにトレース変換を画像毎に何度も行う必要があるため、計算量が多い。
【発明の概要】
【発明が解決しようとする課題】
【0020】
既存のアルゴリズム及びシステムの主な問題として以下が挙げられる。
・特徴の抽出及び/又は照合に関して計算量が多い。
・記述子が膨大な記憶空間を必要とする。
・画像の変更に対するロバスト性に欠ける。
・誤受入率(false acceptance rate)が高すぎて大規模なデータセットには効果的に使用できない。
【課題を解決するための手段】
【0021】
本発明の態様が添付の特許請求の範囲に記載される。
【0022】
本発明は、効率的な特徴抽出及び非常に単純で高速な照合を提供する。また、識別子は非常に小さく、通常128ビット(16バイト)以下である。そのため、1KBでは64個の画像識別子を記憶し、1MBでは65,536個の識別子を記憶することができる。
【0023】
最も良く知られている従来技術の方法は、画像当たり400ビットを必要とする。
【0024】
本発明の誤受入率は百万分の1程度である。
【0025】
本発明は、画像から識別子を抽出する新規の方法に関する。一実施の形態において、トレース変換の使用と、フーリエ変換の振幅に基づく係数のバイナリ符号化とを組み合わせる方法により、ロバストな識別子が得られる。バイナリ符号化方法は、(トレース変換の)サーカス関数(circus function)のフーリエ変換を用いて、バイナリ識別子を抽出する。
【0026】
トレース変換では、直線によって画像をトレースし、この直線に沿って画像強度又はカラー関数の特定の汎関数Tを計算する。種々のトレース汎関数Tを用いて、単一の入力画像から様々なトレース変換を作成してもよい。2D平面において、線は、2つのパラメータ(d,θ)により特徴付けることができる。そのため、2D画像のトレース変換は、各トレース線のパラメータ(d,θ)の2D関数となる。
【0027】
次に、トレース変換の(トレース領域の)列に沿ってダイアメトリック汎関数(diametric functional)Pを適用することによって「サーカス関数」を計算する(すなわち、距離パラメータdにわたってダイアメトリック汎関数Pを適用し、角度θに関する1Dサーカス関数を得る)。
【0028】
本発明によれば、サーカス関数の周波数表現(例えばフーリエ変換)が得られ、周波数振幅成分に対して関数が定義され、その符号がバイナリ記述子として採用される。
【0029】
本方法の他の態様は、異なる汎関数の組み合わせを用いることにより得られる識別子の「族」から部分的に選択したものを組み合わせて単一の記述子にする。このような組み合わせを用いることによって識別子の性能は大きく向上する。
【0030】
添付図面を参照して本発明の実施形態を説明する。
【図面の簡単な説明】
【0031】
【図1a】画像を示す図である。
【図1b】図1aの画像を縮小したバージョンを示す図である。
【図1c】図1aの画像を回転させたバージョンを示す図である。
【図1d】図1aの画像をぼかしたバージョンを示す図である。
【図2】従来技術による画像及びそのビット列表現を示す図である。
【図3】本発明の一実施形態の方法のステップを示す図である。
【図4】本発明の一実施形態の別の方法のステップを示す図である。
【図5】トレース変換の線パラメータ化を示す図である。
【図6】種々の画像から導出される関数を示す図である。
【図7】本発明の一実施形態による装置のブロック図である。
【図8】複数のトレース変換を用いる一実施形態を示すブロック図である。
【図9】図8の実施形態により作成されるビットストリームを示す図である。
【発明を実施するための形態】
【0032】
画像表現を導出すると共に、そのような表現を例えば1つ又は複数の画像の識別、照合、或いは検証のために用いる様々な実施形態を以下に説明する。本発明は、上述のように画像を識別するために特に有用であるが、画像の識別に限定されるものではない。同様に、実施形態で説明される画像識別子は画像表現又は画像記述子の一例である。
【0033】
本発明の一実施形態による視覚識別子の具体的設計は、ロバスト性を持たせたい画像の変更の種類、識別子の大きさ、抽出及び照合の複雑度、目標誤検出率(target false-alarm rate)等に関連する要件によって決まる。
【0034】
ここでは、画像に対する以下の変更にロバストな識別子をもたらす一般的設計を示す。
・減色
・ぼかし
・輝度値変更
・反転(左右及び上下)
・グレースケール変換
・ヒストグラム等化
・JPEG圧縮
・ノイズ
・回転
・スケーリング
【0035】
識別子は、広範な画像に対して百万分の1という非常に低い誤検出率を達成することが好ましい。
【0036】
図1は、画像及びその画像の変更バージョンの一例を示す。より具体的には、図1aは原画像であり、図1bは図1aの画像を縮小したバージョンであり、図1cは図1aの画像を回転させたバージョンであり、図1dは図1aの画像をぼかしたバージョンである。
【0037】
本発明の実施形態は画像の表現を導出する。より具体的には、画像に対応する信号を処理することによって画像識別子を導出する。
【0038】
図3は、本発明の一実施形態による画像識別子を導出する方法のステップ、すなわち識別子抽出工程を示す。
【0039】
トレース変換を適用する前処理として、画像をサイズ変更し(ステップ110)、また任意選択でフィルタリングする(ステップ120)。サイズ変更ステップ110は、画像を処理前に正規化するために用いられる。ステップ120は、画像に対して行われた何らかの処理、及び/又は、原画像全体を用いるのではなく領域を選択することにより生じるエイリアシング等の効果を除去するためのフィルタリングを含み得る。本方法の好適な一実施形態では、さらなる処理のために画像の中心から円形領域が抽出される。
【0040】
ステップ130において、トレース変換T(d,θ)が行われる。トレース変換130は、全ての可能な線を画像に射影してこれらの線に汎関数を適用する。汎関数は、通常は関数のベクトル空間V上の実数値関数である。
【0041】
トレース変換の場合、画像中の線にトレース汎関数Tが適用される。図5に示されるように、線はd及びθによりパラメータ化される。次にステップ140において、トレース変換の列に(すなわち距離パラメータdに沿って)さらなる汎関数Dを適用して、実数値ベクトルを得ることができる。この第2の汎関数Pはダイアメトリック汎関数として知られ、結果として得られるベクトル(θに関する1次元関数)はサーカス関数として知られる。第3の汎関数であるサーカス汎関数(circus functionl)をサーカス関数に適用して、単一の数を得ることができる。この結果の特性は、3つの異なる汎関数(トレース汎関数、ダイアメトリック汎関数、及びサーカス汎関数)を適切に選択することによって制御することができる。画像及び対応するトレース変換の例を含むトレース変換の全詳細は、例えば参照として本明細書中に援用されるAlexander Kadyrov、Maria Petrou著「The Trace Transform and Its Applications」(IEEE Trans. PAMI, 23(8), Aug., 2001, pp 811-828)[参考文献15]に見ることができる。
【0042】
本発明の実施形態の方法では、最初の2つのステップのみをトレース変換において行う。すなわち、トレース変換の後にダイアメトリック汎関数を適用して1次元のサーカス関数を得る。
【0043】
本方法の1つの特定の例において、トレース汎関数Tは
【0044】
【数1】
【0045】
によって与えられ、ダイアメトリック汎関数Pは
【0046】
【数2】
【0047】
によって与えられる。
【0048】
サーカス関数が様々な画像処理操作により受ける影響の例を図6に見ることができる。図6は、画像の様々な変形に対応するサーカス関数を示す。図6(a)は原画像に対応し、図6(b)は元画像を回転させたバージョンに対応し、図6(c)は元画像をぼかしたバージョンに対応する。回転は関数をシフトさせる(と共にスケール変化を生じる)ことが見て取れる。
【0049】
上で挙げた全ての画像の変更操作に関して、汎関数を適切に選択することにより、画像aのサーカス関数f(a)は、変更された画像a’のサーカス関数f(a’)がシフト又は(振幅が)スケーリングされたものに過ぎないことを示すことができる(参考文献15の第3章を参照)。
【0050】
【数3】
【0051】
次に、式(3)のフーリエ変換を行うことによって次式が得られる。
【0052】
【数4】
【0053】
次に、式(6)の振幅を取ると次式が得られる。
【0054】
【数5】
【0055】
式(7)から、変更された画像及び原画像はもはや、スケーリング係数κを除いて同じであることが分かる。
【0056】
ここで、本実施形態によれば、関数c(ω)が複数のフーリエ変換係数の振幅係数上で定義される。この関数の1つの例示は、隣り合う係数の差分を取ることである。
【0057】
【数6】
【0058】
式(8)の結果として得られるベクトルに以下のような閾値を適用することによって、バイナリ列を抽出することができる。
【0059】
【数7】
【0060】
次に、これらの値B={b0,...,bn}から、本発明の実施形態の画像識別子が構築される。
【0061】
共に長さNの2つの異なる識別子B1及びB2間での識別子の照合を行うために、正規化ハミング距離を取る。
【0062】
【数8】
【0063】
ここで、
【0064】
【数9】
【0065】
は排他的OR(XOR)演算子である。識別子又は表現における他の比較方法も用いることができる。
【0066】
識別子中の特定ビットを選択することにより、性能をさらに高めることができる。下位ビットは一般にロバスト性がより高く、上位ビットは識別性がより高い。本発明の特定の一実施形態では、最初のビットは無視され、識別子はその次の64ビットから作られる。
【0067】
上記の方法を行う本発明の一実施形態による装置の一例を図7に示す。具体的には、画像記憶モジュール210により画像200が受け取られ、画像データベース230に記憶される。さらに、識別子抽出記憶モジュール220が、受け取った画像毎に本発明の方法に従って画像識別子を抽出し、それらの画像識別子を識別子データベース240に記憶する。このとき、任意選択では画像のコンテンツに関連する他の情報も一緒に適宜記憶する。
【0068】
図7はさらに、上記の方法を用いて抽出された画像識別子を用いる画像検索エンジンを具現化する装置を示す。問い合わせ画像250の受け取りに応答して、画像検索エンジンによって画像の検証又は照合が行われる。本発明の方法に従って、識別子抽出モジュール260において問い合わせ画像250の画像識別子が抽出される。識別子照合モジュール270は、問い合わせ画像250の画像識別子を、識別子データベース240に記憶されている画像識別子と比較する。画像検索モジュール280は、画像データベース230から一致画像290を取り出す。以下で詳述するように、この一致画像290は、問い合わせ画像識別子と一致する画像識別子を有する。
【0069】
図4は、フーリエ変換係数に対するバイナリ関数を定義する代替方法を示す。詳細には、フーリエ変換係数を得た(ステップ171)後、複数のフーリエ変換係数の振幅の対数を得る(ステップ172及び173)。係数の差分を上記の式(8)と同様に計算し(ステップ174)、その後、この差分の符号を取り、この符号によりバイナリ値を割り当てる(ステップ175)。次に、このバイナリ値を用いてバイナリ識別子を形成する。
【0070】
上述した基本識別子は、図8及び図9に示すように、複数のトレース変換を用いて、別個の変換からのビットを組み合わせることによって改良することができる。2つの別個の変換361及び362からのバイナリ列を組み合わせる具体的な方法は、それらを連結して識別子363を得ることである。このようにして、式(1)のトレース汎関数Tを、式(2)によって与えられるダイアメトリック汎関数Pと共に用いて1つのバイナリ列を得た後、式(1)のトレース汎関数Tをダイアメトリック汎関数P
【0071】
【数10】
【0072】
と共に用いて第2の列を得ることによって良好な結果を得ている。各バイナリ列の最初のビットは飛ばし、双方のストリングにおけるその次の64ビットが連結されて128ビットの識別子を得る。
【0073】
この識別子の1つの応用は、図7に示し上述したような画像検索エンジンとしての応用である。データベース240は、ファイル名、画像、撮影者、取得日時、及び任意の他の有用な情報等の関連する情報と共に、画像のバイナリ識別子を抽出して記憶することによって構築される。次に、問い合わせ画像aqが与えられると、バイナリ識別子が抽出され、データベース中の全ての識別子B0...BMと比較される。問い合わせ画像に対するハミング距離が閾値未満である全ての画像が返される。
【0074】
様々なトレース汎関数T及びダイアメトリック汎関数Dを用いることができ、例として以下が挙げられる(網羅的でないリスト)。
【0075】
【数11】
【0076】
2つ又はそれ以上の識別子を組み合わせて、画像をもっとよく特徴付けすることができる。この組み合わせは、複数の識別子の連結によって行われることが好ましい。
【0077】
回転、平行移動、及びスケーリングよりも高次の幾何変換の場合、上述した識別子のバージョンは適切ではなく、式(3)の関係は成り立たない。識別子のロバスト性は、正規化工程を用いることによってアフィン変換まで拡張することができる。この正規化工程の全詳細は、上記[参考文献16]に見ることができる。サーカス関数を正規化するために2つのステップが導入される。最初のステップは、いわゆる関連サーカス(associated circus)を求めることを含み、2番目のステップは、正規化された関連サーカス関数を求めることを含む。この正規化の結果、(3)の関係が真であることが示される。これにより、上記と同様に識別子の抽出工程を継続することができる。
【0078】
正規化工程と共に用いられるいくつかの適切なトレース汎関数が以下の(G1)及び(G2)で与えられる。また、ダイアメトリック汎関数の適切な選択が(G3)で与えられる。
【0079】
【数12】
【0080】
ここで、r≡t−cであり、c≡median({tk}k,{|g(tk)|}k)である。非負の重みw1,w2,...,wnを有する数列y1,y2,...,ynの加重中央値を、この数列が重みにより昇順でソートされると仮定した場合に次式が成り立つ最大インデックスmを見つけることによって定義する。
【0081】
【数13】
【0082】
(式12の)不等式が厳密である場合、中央値はymとなる。しかし、不等式が等式である場合、中央値は(ym+ym-1)/2となる。
【0083】
識別子を連続ビットブロックから構築する代わりに、実験的に選択を行うこともできる。このやり方の一例は、2組のデータ、すなわち、i)独立した画像と、ii)原画像及び変更された画像とを用意することである。識別子の性能は、独立したデータの誤受入率(false acceptance rate)と、原画像及び変更された画像の誤拒否率(false rejection rate)とを比較することによって測定することができる。関心がある点は、等価エラー率(equal error rate)、又は、1×10-6の誤受入率における誤拒否率である。最適化は、ビットが選択されていない状態で開始される。各ビットを1つずつ検査して、どのビットが(例えば等価エラー率又は何らかの同様の測度に関して)最良の性能を発揮するかを調べることが可能である。これにより、最良の結果を与えるビットが選択される。次に、全ての残りのビットを試験して、どれが最初のビットと組み合わせた際に最良の性能を発揮するかを見つけ出す。ここでもまた、エラー率が最低のビットが選択される。この手順は、全てのビットが選択されるまで繰り返される。そうすると、全体として最良の性能をもたらすビットの組み合わせを選択することが可能になる。
【0084】
識別子を構造化して検索性能を高めることもできる。例えば、2パス探索を実施して、半分のビットを用いて1回目の探索を行い、次に所与のレベルの精度を有するものにのみ2回目の探索を行う。
【0085】
リード・マラー(Reed-Muller)復号器或いはウイナー・ジブ(Wyner-Ziv)復号器等の方法を用いて識別子を圧縮し、さらにサイズを縮小することができる。
【0086】
識別子はまた、ビデオシーケンス中のフレームをインデックス付けするために用いることもできる。新たなシーケンスが与えられると、フレームから識別子を抽出し、次に、同一シーケンスを見つけるために検索を行うことができる。これは、著作権の検出及びシーケンスの識別のために有用であり得る。
【0087】
複数の放送会社が同一のコンテンツ、例えば広告又は株式ニュースの映像を送信する場合が多い。放送会社間のナビゲーションのために、識別子を用いてこれらのコンテンツ間にリンクを形成することができる。
【0088】
画像識別子は、画像によりコンテンツを結びつける機会を提供する。ユーザがウェブページ上の特定の画像に興味がある場合、同一画像を有する他のページを見つける有効な方法は現在のところない。識別子を用いて、画像間のナビゲーション経路を提供することができる。
【0089】
識別子を用いてブロードキャストフィード中の広告を検出することができる。これを用いて、広告主が自社のキャンペーンを追跡するための自動監視を行うことができる。
【0090】
大規模な商用セットからパーソナルコンピュータ上の小規模なコレクションまで多くの画像データベースが存在する。データベースが厳格に制御されていない限り、通常はセット中の画像に重複があり、余分な記憶領域を無駄に必要とする。識別子は、これらのデータセット中の重複画像を削除又は紐付けするツールとして用いることができる。
【0091】
本明細書中、「画像」という用語は、フィルタリング、解像度の変更、アップサンプリング、ダウンサンプリング等の後処理を含む画像単位を説明するために用いられるが、フレーム、フィールド、ピクチャ、又は画像、フレーム等のサブユニット若しくは領域等の他の同様の用語にも当てはまる。本明細書中、画像という用語は、文脈から明らかである場合を除き、画像全体又は画像の領域を意味する。同様に、画像の領域は画像全体を意味し得る。画像は、フレーム又はフィールドを含み、静止画、又はフィルム若しくはビデオ等の画像シーケンス、又は関連画像群中の画像に関連する。画像は、グレースケール画像又はカラー画像、又は別のタイプのマルチスペクトル画像、例えば、IR、UV若しくは他の電磁波画像、又は音響画像等であり得る。
【0092】
実施形態において、周波数表現はフーリエ変換を用いて導出されるが、周波数表現はハール変換等の他の技法を用いて導出することもできる。特許請求の範囲において、フーリエ変換という単語は、DFT及びFFT等の変形を網羅するものとする。
【0093】
本発明は、適切な装置を用いて電気信号を処理することによって実施されることが好ましい。
【0094】
本発明は、例えば、適切なソフトウェア及び/又はハードウェアの変更を加えたコンピュータシステムにおいて実施することができる。例えば、本発明は、プロセッサ若しくは制御装置等の制御手段若しくは処理手段、メモリ、磁気記憶装置、CD、DVD等のような画像記憶手段を含むデータ記憶手段、ディスプレイ若しくはモニタ若しくはプリンタ等のデータ出力手段、キーボード等のデータ入力手段、及びスキャナ等の画像入力手段、又はこれらの構成要素の任意の組み合わせを他の付加的な構成要素と共に有するコンピュータ等を用いて実施することができる。本発明の態様は、ソフトウェア及び/若しくはハードウェアの形態において提供することができる。又は、特定用途向け装置或いはチップ等の特定用途向けモジュールを提供することができる。本発明の一実施形態による装置におけるシステムの構成要素は、他の構成要素から離れた場所に、例えばインターネットを介して設けられてもよい。
【0095】
当業者であれば理解するように、説明した実施形態に対して多くの変形及び修正を行ってもよい。これは、添付の特許請求の範囲に規定される本発明の精神及び範囲に入る変形、修正及び等価物を全て含むことが意図される。
【特許請求の範囲】
【請求項1】
画像に対応する信号を処理することによって該画像の表現を導出する方法であって、
前記画像の関数を導出することであって、前記画像を平行移動、拡大縮小、又は回転させたものの関数は、前記画像の前記関数を平行移動又は拡大縮小させたものである、画像の関数を導出することと、
前記画像の表現を導出するために、前記関数の周波数表現における複数の周波数成分を用いることと
を含む、画像の表現を導出する方法。
【請求項2】
前記関数は1次元関数である、請求項1に記載の方法。
【請求項3】
前記関数は、サーカス関数、又はサーカス関数から導出される関数である、請求項1又は2に記載の方法。
【請求項4】
前記画像の表現を導出するために、前記周波数成分の振幅を用いることを含む、請求項1〜3のいずれか一項に記載の方法。
【請求項5】
前記周波数成分の前記振幅を用いて表現関数を定義することを含む、請求項4に記載の方法。
【請求項6】
画像に対応する信号を処理することによって該画像の表現を導出する方法であって、
前記画像の1次元関数を導出することと、
該関数の周波数成分を求めることと、
該周波数成分の振幅を用いて表現関数を定義することと
を含む、画像の表現を導出する方法。
【請求項7】
前記表現関数はバイナリ関数である、請求項5又は6に記載の方法。
【請求項8】
前記表現は、前記表現関数の値を含む、請求項5〜7のいずれか一項に記載の方法。
【請求項9】
前記周波数成分は、フーリエ変換又はハール変換を用いて求められる、請求項1〜8のいずれか一項に記載の方法。
【請求項10】
前記表現関数は、
複数の周波数係数の振幅を計算するステップと、
各係数とその次の係数との間の前記振幅の差分を求めるステップと
を用いて得られる、請求項5〜8のいずれか一項に記載の方法。
【請求項11】
前記表現関数は、
複数の周波数係数の振幅の対数を計算するステップと、
各係数とその次の係数との間の前記振幅の前記対数の差分を求めるステップと
を用いて得られる、請求項5〜8のいずれか一項に記載の方法。
【請求項12】
前記周波数係数は、フーリエ変換係数又はハール変換係数である、請求項10又は11に記載の方法。
【請求項13】
前記方法は、バイナリ関数を導出することをさらに含み、
該バイナリ関数は、前記求められた各差分に閾値を適用することによって導出され、該差分が0未満である場合にはバイナリ値0を与え、該差分が0以上である場合にはバイナリ値1を与えることによって、一連のバイナリ値が導出される、
請求項10〜12のいずれか一項に記載の方法。
【請求項14】
前記画像の表現は、複数の周波数成分の振幅に対して定義される関数の値、好ましくはバイナリ関数の値を含む、請求項1、2、3、又は6のいずれか一項に記載の方法。
【請求項15】
2つ以上のそれぞれのサーカス関数を用いて2つ以上の表現を導出することと、
該2つ以上の表現を組み合わせることと
を含む、請求項1〜14のいずれか一項に記載の方法。
【請求項16】
前記組み合わせることは、前記2つ以上の表現を連結することを含む、請求項15に記載の方法。
【請求項17】
n個の数字又はビットを有する表現を導出することを含み、
m個の数字又はビットの部分集合を選択することをさらに含む、
請求項1〜16のいずれか一項に記載の方法。
【請求項18】
前記関数は、以下の関数:
【数1】
のうちの1つ又は複数を用いて導出される、請求項1〜17のいずれか一項に記載の方法。
【請求項19】
周波数成分を求める前に前記関数を正規化することを含む、請求項1〜18のいずれか一項に記載の方法。
【請求項20】
関連サーカス関数又は正規化されたサーカス関数を導出することを含む、請求項19に記載の方法。
【請求項21】
以下の関数:
【数2】
のうちの1つ又は複数を用いる、請求項20に記載の方法。
【請求項22】
画像を識別又は比較するための、請求項1〜21のいずれか一項に記載の方法。
【請求項23】
画像を識別する方法であって、
請求項1〜22のいずれか一項に記載の方法を用いて該画像の表現を導出することと、
該表現を該画像と関連付けることと
を含む、画像を識別する方法。
【請求項24】
画像を比較する方法であって、
請求項1〜23のいずれか一項に記載の方法を用いて導出される各画像の表現を比較することを含む、画像を比較する方法。
【請求項25】
前記比較は、次式:
【数3】
を用いてハミング距離を求めることを含み、
【数4】
は排他的OR(XOR)演算子であり、Nは長さである、
請求項24に記載の方法。
【請求項26】
表現の前記比較に基づいて画像を選択することを含む、請求項24又は25に記載の方法。
【請求項27】
請求項1〜21のいずれか一項に記載の方法を用いて導出される表現の例えば送信又は受信を含む使用。
【請求項28】
請求項1〜26のいずれか一項に記載の方法を実行する装置。
【請求項29】
請求項1〜26のいずれか一項に記載の方法を実行するために前記装置の動作を制御する制御装置を備える、請求項28に記載の装置。
【請求項30】
画像及び/又は画像の表現を記憶する記憶手段、例えば画像データベース及び/又は記述子データベース、表示手段、並びに画像選択手段のうちの1つ又は複数をさらに備える、請求項29に記載の装置。
【請求項31】
請求項1〜26のいずれか一項に記載の方法を実行するコンピュータプログラム、システム、又はコンピュータ読み取り可能な記憶媒体。
【請求項1】
画像に対応する信号を処理することによって該画像の表現を導出する方法であって、
前記画像の関数を導出することであって、前記画像を平行移動、拡大縮小、又は回転させたものの関数は、前記画像の前記関数を平行移動又は拡大縮小させたものである、画像の関数を導出することと、
前記画像の表現を導出するために、前記関数の周波数表現における複数の周波数成分を用いることと
を含む、画像の表現を導出する方法。
【請求項2】
前記関数は1次元関数である、請求項1に記載の方法。
【請求項3】
前記関数は、サーカス関数、又はサーカス関数から導出される関数である、請求項1又は2に記載の方法。
【請求項4】
前記画像の表現を導出するために、前記周波数成分の振幅を用いることを含む、請求項1〜3のいずれか一項に記載の方法。
【請求項5】
前記周波数成分の前記振幅を用いて表現関数を定義することを含む、請求項4に記載の方法。
【請求項6】
画像に対応する信号を処理することによって該画像の表現を導出する方法であって、
前記画像の1次元関数を導出することと、
該関数の周波数成分を求めることと、
該周波数成分の振幅を用いて表現関数を定義することと
を含む、画像の表現を導出する方法。
【請求項7】
前記表現関数はバイナリ関数である、請求項5又は6に記載の方法。
【請求項8】
前記表現は、前記表現関数の値を含む、請求項5〜7のいずれか一項に記載の方法。
【請求項9】
前記周波数成分は、フーリエ変換又はハール変換を用いて求められる、請求項1〜8のいずれか一項に記載の方法。
【請求項10】
前記表現関数は、
複数の周波数係数の振幅を計算するステップと、
各係数とその次の係数との間の前記振幅の差分を求めるステップと
を用いて得られる、請求項5〜8のいずれか一項に記載の方法。
【請求項11】
前記表現関数は、
複数の周波数係数の振幅の対数を計算するステップと、
各係数とその次の係数との間の前記振幅の前記対数の差分を求めるステップと
を用いて得られる、請求項5〜8のいずれか一項に記載の方法。
【請求項12】
前記周波数係数は、フーリエ変換係数又はハール変換係数である、請求項10又は11に記載の方法。
【請求項13】
前記方法は、バイナリ関数を導出することをさらに含み、
該バイナリ関数は、前記求められた各差分に閾値を適用することによって導出され、該差分が0未満である場合にはバイナリ値0を与え、該差分が0以上である場合にはバイナリ値1を与えることによって、一連のバイナリ値が導出される、
請求項10〜12のいずれか一項に記載の方法。
【請求項14】
前記画像の表現は、複数の周波数成分の振幅に対して定義される関数の値、好ましくはバイナリ関数の値を含む、請求項1、2、3、又は6のいずれか一項に記載の方法。
【請求項15】
2つ以上のそれぞれのサーカス関数を用いて2つ以上の表現を導出することと、
該2つ以上の表現を組み合わせることと
を含む、請求項1〜14のいずれか一項に記載の方法。
【請求項16】
前記組み合わせることは、前記2つ以上の表現を連結することを含む、請求項15に記載の方法。
【請求項17】
n個の数字又はビットを有する表現を導出することを含み、
m個の数字又はビットの部分集合を選択することをさらに含む、
請求項1〜16のいずれか一項に記載の方法。
【請求項18】
前記関数は、以下の関数:
【数1】
のうちの1つ又は複数を用いて導出される、請求項1〜17のいずれか一項に記載の方法。
【請求項19】
周波数成分を求める前に前記関数を正規化することを含む、請求項1〜18のいずれか一項に記載の方法。
【請求項20】
関連サーカス関数又は正規化されたサーカス関数を導出することを含む、請求項19に記載の方法。
【請求項21】
以下の関数:
【数2】
のうちの1つ又は複数を用いる、請求項20に記載の方法。
【請求項22】
画像を識別又は比較するための、請求項1〜21のいずれか一項に記載の方法。
【請求項23】
画像を識別する方法であって、
請求項1〜22のいずれか一項に記載の方法を用いて該画像の表現を導出することと、
該表現を該画像と関連付けることと
を含む、画像を識別する方法。
【請求項24】
画像を比較する方法であって、
請求項1〜23のいずれか一項に記載の方法を用いて導出される各画像の表現を比較することを含む、画像を比較する方法。
【請求項25】
前記比較は、次式:
【数3】
を用いてハミング距離を求めることを含み、
【数4】
は排他的OR(XOR)演算子であり、Nは長さである、
請求項24に記載の方法。
【請求項26】
表現の前記比較に基づいて画像を選択することを含む、請求項24又は25に記載の方法。
【請求項27】
請求項1〜21のいずれか一項に記載の方法を用いて導出される表現の例えば送信又は受信を含む使用。
【請求項28】
請求項1〜26のいずれか一項に記載の方法を実行する装置。
【請求項29】
請求項1〜26のいずれか一項に記載の方法を実行するために前記装置の動作を制御する制御装置を備える、請求項28に記載の装置。
【請求項30】
画像及び/又は画像の表現を記憶する記憶手段、例えば画像データベース及び/又は記述子データベース、表示手段、並びに画像選択手段のうちの1つ又は複数をさらに備える、請求項29に記載の装置。
【請求項31】
請求項1〜26のいずれか一項に記載の方法を実行するコンピュータプログラム、システム、又はコンピュータ読み取り可能な記憶媒体。
【図1a】
【図1b】
【図1c】
【図1d】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図1b】
【図1c】
【図1d】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【公表番号】特表2010−506323(P2010−506323A)
【公表日】平成22年2月25日(2010.2.25)
【国際特許分類】
【出願番号】特願2009−531911(P2009−531911)
【出願日】平成19年10月11日(2007.10.11)
【国際出願番号】PCT/GB2007/003859
【国際公開番号】WO2008/044026
【国際公開日】平成20年4月17日(2008.4.17)
【出願人】(501253316)ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ (77)
【氏名又は名称原語表記】MITSUBISHI ELECTRIC R&D CENTRE EUROPE B.V.
【住所又は居所原語表記】20 Frederick Sanger Road, The Surrey Research Park, Guildford, Surrey GU2 5YD, Great Britain
【Fターム(参考)】
【公表日】平成22年2月25日(2010.2.25)
【国際特許分類】
【出願日】平成19年10月11日(2007.10.11)
【国際出願番号】PCT/GB2007/003859
【国際公開番号】WO2008/044026
【国際公開日】平成20年4月17日(2008.4.17)
【出願人】(501253316)ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ (77)
【氏名又は名称原語表記】MITSUBISHI ELECTRIC R&D CENTRE EUROPE B.V.
【住所又は居所原語表記】20 Frederick Sanger Road, The Surrey Research Park, Guildford, Surrey GU2 5YD, Great Britain
【Fターム(参考)】
[ Back to top ]