説明

画像中に現れるオブジェクトを表示または検索する方法、その装置、コンピュータ・システム、及びコンピュータ・プログラムまたはコンピュータ可読記憶媒体

【課題】オブジェクト検索のパフォーマンスを改善する。
【解決手段】1つの画像または一連の画像に対応する信号を処理することにより、前記画像中に現れるオブジェクトを表示する方法であって、前記信号に基づいて曲率スケール空間(CSS)における前記オブジェクトの輪郭のピークの縦座標値を複数導き出すステップを有し、CSS表示を導き出す方法として、2項フィルタが用いられる。また、輪郭の表示に到達するために、縦座標値に対してスケーリングあるいは非線形変換を行うステップをさらに有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索を目的とする、マルチメディア・データベースに保存された画像のような静止画像またはビデオ画像中に現れるオブジェクトの表示に関し、特に、そのような表示を用いてオブジェクトを検索する方法及び装置に関する。
【背景技術】
【0002】
ビデオ・ライブラリの画像のようなアプリケーションでは、ビデオ画像あるいは静止画像中に現れるオブジェクトの輪郭や形状またはオブジェクトの一部の効率的な表示および保存を行うことが望ましい。形状ベースの索引付けと検索を行うための公知の手法では曲率スケール空間(CSS)表示が用いられる。CSSの詳細については、論文「曲率スケール空間によるロバストで効率的な形状索引付け」(英国マシーン・ビジョン会報pp.53〜62、エジンバラ、英国、1996年)ならびに「曲率スケール空間を用いる形状内容による画像データベースの索引付け」(インテリジェント・データベースに関するIEE専門家会議会報、ロンドン、1996年)の中で入手することができる。両論文ともMokhtarian、S.AbbasiならびにJ.Kittlerによるものであり、その内容は本明細書中に参考文献として取り入れられている。
【0003】
CSS表示では、オブジェクトの輪郭を求めるために曲率関数が使用され、輪郭上の任意の点から表示が開始される。形状を平滑化する一連の変形を行うことにより輪郭の形状を展開しながら、曲率関数が検討される。さらに具体的には、ガウスフィルタの族と共に畳み込まれた曲率関数の導関数のゼロ・クロスが計算される。曲率スケール空間として周知のように、ゼロ・クロスはグラフ上にプロットされる。但し、x軸は曲線の正規化された弧長であり、y軸は展開パラメータ、特に、適用フィルタのパラメータである。グラフ上のプロットは輪郭の特徴を示すループを形成する。オブジェクトの輪郭の各凸状または凹状を成す部分はCSS画像におけるループに対応する。CSS画像において最も突起したループのピークの縦座標は輪郭の表示として利用される。
【0004】
入力オブジェクトの形状に一致する、データベース中の保存画像のオブジェクトを検索するために、入力形状のCSS表示が計算される。マッチング・アルゴリズムを用いて、それぞれのCSS画像のピークの位置および高さを比較することにより、入力形状と保存形状との間の類似度が判定される。
【発明の概要】
【発明が解決しようとする課題】
【0005】
スケールの変化、回転、何らかの輪郭の変形および射影変換のような作像状態の変化の下でも変わらないオブジェクトの輪郭表示が得られることが望しい。また、さらに広いクラスの範囲で、形状の変動に対して鈍感な方法で形状を表すことが望まれる。例えば、オブジェクト‘車’の表示をその車のモデルとメーカーに対して不変にして抽出された特徴表示を利用してすべての車らしさを示す形状を容易に検索できるようにするほうがよい。
【0006】
したがって本発明は、画像に対応する信号を処理することにより静止画像またはビデオ画像中に現れるオブジェクトを表す方法を提供するものであり、該方法は、オブジェクトの輪郭上に現れる特徴を表す複数の数値を導き出すステップと、前記値に対してスカラーまたは非線形変換を適用して輪郭の表示を得るステップとを有する。好適には、この変換は非線形変換であることが望ましい。好適には、CSS表示を用いることが望ましく、また、好適には、展開パラメータに対応するピークの高さを示す値を変換することが望ましい。
【0007】
本発明の場合のように、特にCSS値に対して変換を適用することにより、オブジェクト検索のパフォーマンスが改善することが判明した。
【課題を解決するための手段】
【0008】
この発明に係る請求項1に記載の画像中に現れるオブジェクトを表示する方法は、1つの画像または一連の画像に対応する信号を処理することにより、画像中に現れるオブジェクトを表示する方法であって、信号に基づいて曲率スケール空間(CSS)におけるオブジェクトの輪郭のピークの縦座標値を複数導き出すステップを有し、CSS表示を導き出す方法として、2項フィルタが用いられる。
【0009】
この発明に係る請求項2に記載の画像中に現れるオブジェクトを表示する方法は、2項フィルタが、係数(1/4、1/2、1/4)を有する。
【0010】
この発明に係る請求項3に記載の画像中に現れるオブジェクトを表示する方法は、輪郭の表示に到達するために、前記縦座標値に対してスケーリングあるいは非線形変換を行うステップをさらに有する。
【0011】
この発明に係る請求項4に記載の画像中に現れるオブジェクトを検索する方法は、1つの画像または一連の画像に対応する信号を処理することにより、画像中に現れるオブジェクトを検索する方法であって、2次元の輪郭の形状のクエリを入力するステップと、請求項1ないし3のいずれか1項に記載の方法を用いて輪郭の記述子を導き出すステップと、請求項1ないし3のいずれか1項に記載の方法を用いて導出され、記憶された画像内のオブジェクトの記述子を取得し、クエリの記述子と、記憶されたオブジェクトに対するそれぞれの記述子とを比較するステップと、クエリとの類似度を示す比較がなされたオブジェクトを含む画像に対応した、少なくとも1つの比較結果を選択し、表示するステップとを有する
【0012】
この発明に係る請求項5に記載の画像中に現れるオブジェクトを表示する装置は、請求項1ないし4のいずれか1項に記載の方法を実行するように適合される。
【0013】
この発明に係る請求項6に記載の画像中に現れるオブジェクトを表示するコンピュータ・システムは、請求項1ないし4のいずれか1項に記載の方法に従って作動するようにプログラムされている。
【0014】
この発明に係る請求項7に記載のコンピュータ・プログラムまたはコンピュータ可読記憶媒体は、請求項1ないし4のいずれか1項に記載の方法を実現するためのコンピュータで実行可能な処理ステップを保存する。
【発明の効果】
【0015】
本発明によるシステムは例えば画像ライブラリ中に設けることができる。或いは、データベースは、インターネットのようなネットワークにより電話線のような一時的リンクによって制御装置と接続し、システムの制御装置から遠隔地に配置することができる。例えば、画像データベースおよび記述子データベースは永久記憶装置またはROMやDVDのような携帯用記憶媒体中に設けることができる。
【図面の簡単な説明】
【0016】
【図1】ビデオ・データベース・システムのブロック図である。
【図2】オブジェクトの輪郭の図である。
【図3】図2の輪郭を示すCSS表示の図である。
【図4】ある形状の表示を例示する図である。
【図5】あるオブジェクトの形状を示す図である。
【図6】図5の形状のCSS表示の図である。
【図7】図5の形状の変換された表示の図である。
【図8】検索方法を例示するブロック図である。
【発明を実施するための形態】
【0017】
添付図面を参照して本発明の実施の形態について説明する。
実施の形態1.
図1は、本発明の実施の形態によるコンピュータ処理を行うビデオ・データベース・システムを図示する。このシステムには、コンピュータの形の制御装置2、モニターの形の表示装置4、マウスの形のポインティング・デバイス6、保存された静止画像とビデオ画像とを含む画像データベース8および画像データベース8に保存された画像中に現れるオブジェクトまたはオブジェクトのいくつかの部分の記述子を保存する記述子データベース10が含まれる。
【0018】
画像データベースの画像中に現れる興味のある各オブジェクトの形状を表す記述子は、制御装置2によって導き出され、記述子データベース10に保存される。制御装置2は、以下に説明するような方法を実行する適切なプログラムの制御によって動作して記述子を導き出す。
【0019】
第一に、所定のオブジェクトの輪郭について、この輪郭のCSS表示が導き出される。上述の論文の1つに記載されているような周知の方法を用いてこのCSS表示が行われる。
【0020】
さらに具体的には、この輪郭は写像表現Ψ={(x(u),y(u),u∈[0,1]}によって表される(ただし、uは正規化された弧長パラメータである)。
【0021】
この輪郭は、IDガウスカーネルg(u,ρ)を用いて畳み込みを行う(convolve)ことにより平滑化され、ρの変化として展開(evolving)曲線の曲率ゼロ・クロスが調べられる。ゼロクロスは曲率を表す下記の式を用いて特定される。
【0022】
【数1】

【0023】
但し、
【0024】
【数2】

【0025】
かつ、
【0026】
【数3】

【0027】
上記で、*は畳み込みを表し、添え字は導関数を表す。
曲率ゼロ・クロスの数はρの変化につれて変化し、ρが十分に高いときΨはゼロ・クロスの凸状の曲線となる。
【0028】
ゼロクロス・ポイントはCSS画像空間として知られるグラフ上にプロットされる。この結果複数の特徴を示す曲線が生じる。この特徴を示す曲線のピークが特定され、対応する縦座標が抽出され保存される。一般に上記の結果、n個の座標の対((x1, y1)、(x2, y2)、...(xn, yn)の集合(ただし、nはピークの数、xiはi番目のピークの弧長の位置、yiはピークの高さである)が与えられる。
【0029】
本実施の形態では、ガウスフィルタの近似値として係数(1/4、1/2、1/4)の2項フィルタが用いられ計算上の複雑さが若干減少する。この計算上の複雑さの減少は、DSPや汎用プロセッサ上で効率的に実行することができる便利なフィルタ係数から結果として生じるものである。
【0030】
次いで、ピーク値、すなわちピークを表すy成分値はさらに処理される。具体的には、y値は次の変換を用いて変換される。
【0031】
【数4】

【0032】
但し、pow(y,b)はybを示す。
この結果、ピーク値[(x1,y'1)、(x22,y'2)...(xn,y'n)]からなる新しい集合が生じ、これらの値は輪郭を示す記述子として記述子データベースに保存される。
特定の例として、図2に図示の輪郭は図3に図示のようなCSS画像を結果として生じる。CSS画像中の曲線のピークの縦座標の詳細を以下の表1に示す。
【0033】
【表1】

【0034】
次いで、a=6、b=0.5、c=0を用いて上記の変換が適用される。すなわち、元のy値の平方根を計算しこれに定数を乗じる。この結果以下の値が生じる:
【0035】
【表2】

【0036】
ここで、これらの値は最も近い整数に丸められるが、別の丸め方を用いてもよい。
【0037】
実施の形態2. 別の例を図4に示す。 図5はオブジェクト形状(この場合カメ)についてのもう1つの例を図示するものである。図6は図5の形状のCSSピーク示す。図7は、a=6、b=0.5、c=0を用いて上記式(1)で示す変換を用いた図6の変換されたピークを示す。
保存された記述子は検索目的に利用される。ユーザーは、ポインティング・デバイスを用いて、ディスプレイ上にオブジェクトの輪郭を描くことにより検索を開始する(ステップ510)。次いで、制御装置2が入力輪郭のCSS表示を導き出し(ステップ520)、次いで、上述のようにy値に対する変換が適用される(ステップ530)。次いで、この結果生じる入力輪郭の記述子は、以下モデル記述子として知られる記述子データベースに保存された各記述子と公知のマッチング手順を用いて比較される(ステップ540)。
【0038】
このマッチング比較は適切なアルゴリズムを用いて行われ、データベースに各記述子の類似度測定値が結果として得られる。上述の論文に記載されているような公知のマッチング・アルゴリズムを用いてもよい。このマッチング手順について以下簡単に説明する。
【0039】
2つの閉鎖した輪郭の形状、画像曲線Ψiとモデル曲線Ψmおよびそれらの曲線のピークのそれぞれの設定値{(xi1, yi1),(xi2, yi2),..,(xin, yin)}と{(xm1, ym1), (xm2, ym2),..,(xmn, ymn)}が与えられれば、類似度測定値が計算される。類似度測定値は、画像中のピークとモデル中のピークのマッチングの総コストとして定義される。総コストを最少化するマッチングはダイナミック・プログラミングを用いて計算される。アルゴリズムによって、モデルから得たピークが画像から得たピークに再帰的にマッチされ、このようなマッチの各々のコスト計算が行われる。各モデルのピークを唯一の画像ピークとマッチさせることができ、各画像ピークを唯一のモデル・ピークとマッチさせることができる。モデルおよび/または画像ピークのなかにはマッチしないままのものがある場合もあり、各マッチしないピークについては追加のペナルティ・コストが存在する。2つのピークの水平距離が0.2未満の場合、2つのピークをマッチすることができる。マッチのコストは2つのマッチしたピーク間の直線の長さである。マッチしなかったピークのコストはその高さである。
【0040】
更に詳述すれば、アルゴリズムは、ノードがマッチしたピークに対応するツリー状の構造を作成し拡張することにより機能する。
【0041】
1.画像(xik, yik)の最大値とモデル(xir, yir)の最大値とから成る開始ノードを作成する。
【0042】
2.画像ピークの最大値の80%以内の各残りのモデル・ピークについて追加の開始ノードを作成する。
【0043】
3.1および2で作成した各開始ノードのコストを、この開始ノードとリンクした画像ピークおよびモデル・ピークのy座標の差の絶対値に初期化する。
【0044】
4.3の各開始ノードについて、この開始ノードでマッチしたモデル・ピークと画像ピークのx(水平)座標の差として定義するCSSシフト・パラメータアルファを計算する。シフト・パラメータは各ノードについて異なるものとなる。
【0045】
5.各開始ノードについて、モデル・ピークのリストおよび画像ピークのリストを作成する。このリストにはどのピークがまだマッチしていないかに関する情報が含まれる。各開始ノードについて、“マッチしたもの”としてこのノードでマッチしたピークにマークをつけ、他のすべてのピークには“マッチしなかったもの”としてマークをつける。
【0046】
6.ポイント8の条件が満たされるまで、最低コストのノードを再帰的に拡大する(ステップ1〜6で作成した各ノードから始めて、各ノードの子ノードが後に続く)。ノードを拡大するために以下の手順を用いる。
【0047】
7.ノードの拡大:
マッチしないままになっている少なくとも1つの画像と1つのモデル・ピークが存在する場合、
マッチしない最も大きなスケール画像曲線CSSの最大値(xip, yip)を選択する。(ステップ4で計算した)開始ノード・シフト・パラメータを適用して選択した最大値をモデルCSS画像に写像し、選択されたピークは座標(xip-alpha, yip)を持つことになる。マッチしない最も近いモデル曲線ピーク(xms, yms)を決定する。2つのピーク間の水平距離が0.2未満(すなわち|xip-alpha-xms|<0.2)である場合、2つのピークをマッチさせ、2つのピーク間の直線の長さとしてマッチのコストを定義する。そのノードの総コストにマッチのコストを加える。マッチしたピークに“マッチした”ものとしてマークをつけることによりそれぞれのリストからマッチしたピークを取り除く。2つのピーク間の水平距離が0.2より大きい場合、画像ピーク(xip, yip)はマッチすることはできない。その場合総コストに画像ピークの高さyipを加え、“マッチした”ものとしてそのピークにマークをつけることにより画像ピーク・リストからピーク(xip, yip)だけを取り除く。
【0048】
上記条件が当てはまらない(マッチしなかった画像ピークしか存在しない、またはマッチしなかったモデル・ピークしか存在しない)場合、マッチしないままの状態に放置する。
【0049】
マッチしなかった画像ピークまたはモデル・ピークの最も高い高さとしてマッチのコストを定義しリストからピークを取り除く。
【0050】
8.7でノードを拡大した後、画像リストおよびモデル・リストの双方にマッチしないピークが存在しない場合マッチング処理は終了する。このノードのコストは画像とモデル曲線間の類似度測定値である。ピークが存在する場合には、ポイント7へ戻り最低コストのノードを拡大する。
【0051】
画像曲線ピーク値とモデル曲線ピーク値とを交換して上記手順を繰り返す。最終マッチング値はこれら2つのピーク値のうちの低い方の値である。
【0052】
もう1つの例として、ソートされた順序の各位置について、入力されたx値とそれに対応するモデルのx値との間の距離および入力されたy値とそれに対応するモデルのy値との間の距離が計算される。すべての位置について合計距離が計算され、合計距離が小さければ小さいほどマッチの程度は近くなる。入力輪郭とモデルのピークの数が異なる場合、合計距離の中に残りのマッチしなかったピークの高さが含まれる。
【0053】
上記ステップがデータベースの各モデルについて繰り返される(ステップ480)。
【0054】
マッチング比較の結果生じる類似度値がソートされ(ステップ490)、次いで、最も近いマッチング値(すなわち本例では最も低い類似度値)を示す類似度値を持つ記述子に対応するオブジェクトがユーザーに対して表示装置4に表示される(ステップ500)。表示対象のオブジェクト数はユーザーが予め設定するか選択することができる。
【0055】
実施の形態3.
別の実施の形態について説明する。本実施の形態は、様々な変換が用いられることを除けば前回の実施の形態と同じである。具体的にはy値は以下の変換を用いて変換される:
【0056】
【数5】

【0057】
すなわち、線形スケーリング変換が適用される。
ここで、a0=41、a1=0.19である。
変更例では、a0=0、a1=0.27である。
0、a1の様々な値を適宜使用することができる。
【0058】
検索およびマッチング手順は前回の実施の形態で説明したものとほぼ同様である。 変換、特に、上述のようなスケーリングまたは非線形変換を含む線形変換を適用することにより、オブジェクト・クラスの範囲で形状輪郭の変化などに対して敏感でない記述子が結果として得られ、その結果オブジェクトの検索の改善という結果が得られるということが判明した。
【0059】
上述の実施の形態では、記述子データベース10に保存する前のCSS値に対して変換が適用される。上記とは別に、CSS値をデータベース10に保存してもよい。次いで、マッチング手順を行う前に検索処理の一部として変換を行ってもよい。
【0060】
以上記載の実施の形態では変換はy座標値に対して適用される。しかし、x座標値に対して変換を適用することもできる。
【0061】
以上説明したようなシステムの構成要素は、ソフトウェアまたはハードウェアの形で設けることができる。コンピュータ・システムの形で本発明について説明したが、本発明は専用チップなどを用いて他の形で実現することもできる。
(本発明ではCSS表示を利用して)オブジェクトの2D形状を表す方法および2つの形状間の類似度を表す値を計算する方法を示す特定の例を示したが、同様の任意の適切な方法を用いることができる。
【0062】
例えば、確認目的のためのオブジェクト画像のマッチングを行うために、またはフィルタリングを行うために本発明を用いることができる。

【特許請求の範囲】
【請求項1】
1つの画像または一連の画像に対応する信号を処理することにより、前記画像中に現れるオブジェクトを表示する方法であって、
前記信号に基づいて曲率スケール空間(CSS)における前記オブジェクトの輪郭のピークの縦座標値を複数導き出すステップ
を有し、
CSS表示を導き出す方法として、2項フィルタが用いられる
ことを特徴とする方法。
【請求項2】
前記2項フィルタは、係数(1/4、1/2、1/4)を有する
ことを特徴とする方法。
【請求項3】
前記輪郭の表示に到達するために、前記縦座標値に対してスケーリングあるいは非線形変換を行うステップをさらに有する
ことを特徴とする方法。
【請求項4】
1つの画像または一連の画像に対応する信号を処理することにより、前記画像中に現れるオブジェクトを検索する方法であって、
2次元の輪郭の形状のクエリを入力するステップと、
請求項1ないし3のいずれか1項に記載の方法を用いて前記輪郭の記述子を導き出すステップと、
請求項1ないし3のいずれか1項に記載の方法を用いて導出され、記憶された画像内のオブジェクトの記述子を取得し、前記クエリの記述子と、記憶されたオブジェクトに対するそれぞれの記述子とを比較するステップと、
前記クエリとの類似度を示す比較がなされたオブジェクトを含む画像に対応した、少なくとも1つの比較結果を選択し、表示するステップと
を有することを特徴とする方法。
【請求項5】
請求項1ないし4のいずれか1項に記載の方法を実行するように適合される画像中に現れるオブジェクトを表示する装置。
【請求項6】
請求項1ないし4のいずれか1項に記載の方法に従って作動するようにプログラムされた画像中に現れるオブジェクトを表示するコンピュータ・システム。
【請求項7】
請求項1ないし4のいずれか1項に記載の方法を実現するためのコンピュータで実行可能な処理ステップを保存するコンピュータ・プログラムまたはコンピュータ可読記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−100468(P2011−100468A)
【公開日】平成23年5月19日(2011.5.19)
【国際特許分類】
【出願番号】特願2010−268522(P2010−268522)
【出願日】平成22年12月1日(2010.12.1)
【分割の表示】特願2001−508782(P2001−508782)の分割
【原出願日】平成12年7月3日(2000.7.3)
【出願人】(501253316)ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ (77)
【氏名又は名称原語表記】MITSUBISHI ELECTRIC R&D CENTRE EUROPE B.V.
【住所又は居所原語表記】20 Frederick Sanger Road, The Surrey Research Park, Guildford, Surrey GU2 5YD, Great Britain
【Fターム(参考)】