説明

画像または画像シーケンス内のオブジェクトを検索する方法と装置

【課題】画像または複数の画像に相当する信号を処理することにより、画像または画像シーケンス内のオブジェクト(物体)を検索する方法を提供する。
【解決手段】物体の1つ以上の二次元輪郭形式の照会内容を入力し照会内容の物体の記述子を導出するか又は少なくとも1つの二次元物体の記述子の形式で照会内容を入力し;照会内容の記述子と予め記憶された物体の記述子を比較し;各記述子と照会内容の記述子の間の比較が照会内容と物体間の類似度を示す物体を含む画像に相当する1つ以上の結果を選択し表示し;少なくとも記憶された記述子のため物体の記述子は物体の第1輪郭のビュー記述子及び1つ以上の異なるビュー内の物体の輪郭の追加ビュー記述子を設け2つ以上のビュー記述子が関連付けられて物体記述子を形成するか記述子が物体の形状とサイズの少なくとも一方に関連しビューとは無関係な記述子からなるかの少なくとも一方である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特に検索に使用される、形状を利用して画像内のオブジェクトを表現する方法と装置に関する。本発明はさらに、形状表現を利用して画像内のオブジェクトを検索する方法と装置に関する。
【背景技術】
【0002】
例えば画像ライブラリで、画像内に現れるオブジェクトの表現を利用して静止画像またはビデオ画像を記憶することは公知である。このような表現は関心があるオブジェクトを含む画像を検索できるように、検索方法で利用される。これらの表現は色、質感(テクスチャ)および形状を含む様々な特徴に基づくものでよい。
【0003】
画像内のオブジェクトの形状を表現するための様々な方法が公知である。公知の方法には、連鎖コーディング、クアドツリー(四分木:Quad-tree)方式、および曲率スケール空間表現方法が含まれる。
【0004】
画像検索システムで画像の検索を行うには、ユーザは探しているオブジェクトのスケッチまたは画像を提示することによって、またはシステムに記憶されているオブジェクトのビューを選択することによってシステムへの照会内容を入力する。次にシステムは照会されたオブジェクトの表現を導出しまたは獲得し、適当な突合わせ方法を利用して、照会された表現と、データベースに記憶されている画像表現とを比較する。最も近く整合するオブジェクトの表現がディスプレイ・ユニットに表示される。
【0005】
ほとんどの場合、ビデオ画像に現れるオブジェクトは三次元のリアルなオブジェクトの二次元画像面への投影である。このように、画像に現れるオブジェクトの二次元の形状もしくは輪郭は、目視の位置、視角およびカメラ、および光学系のパラメータのような要因によって左右される。従って、オブジェクトは異なるビューに関連する異なる輪郭を有している。
【発明の概要】
【発明が解決しようとする課題】
【0006】
公知のデータベース・システムの欠点は、異なる輪郭を有するオブジェクトの異なるビューが、異なるオブジェクトとして処理されることにある。その結果、例えばユーザがオブジェクトAの正面ビューに基づいて照会内容を入力し、オブジェクトAが背面ビューおよび側面ビューからのビデオ・シーケンスにだけ現れた場合、首尾よい整合結果が得られず、オブジェクトは検索されない。
【課題を解決するための手段】
【0007】
本発明はオブジェクトに対応する複数の異なる二次元ビューの表現を導出することを含む、ディジタル画像に現れるオブジェクトの表現方法を提供するものである。
【0008】
本発明はさらに、照会内容を入力し、かつオブジェクトの画像に対応する信号を処理することによって、最も類似して整合するオブジェクト(単数または複数)の表現を発見するために、照会内容と複数の異なるオブジェクトのビューの表現とを比較することを含む、オブジェクトの突合わせ方法を提供するものである。
【0009】
本発明は画像または複数の画像に相当する信号を処理することにより、画像または画像シーケンス内のオブジェクトを検索する方法であって、オブジェクトの少なくとも1つの二次元輪郭の形式で照会内容を入力しさらに照会内容のオブジェクトの記述子を導出するか、または少なくとも1つの二次元オブジェクトの記述子の形式で照会内容を入力する工程と、前記照会内容の記述子と画像内のオブジェクトのための記憶されたオブジェクトの記述子を比較する工程と、それぞれの記述子と照会内容の記述子の間の比較が前記照会内容と前記オブジェクトの間の類似度を示す、オブジェクトを含む画像に相当する少なくとも1つの結果を選択して表示する工程と、を備え、少なくとも記憶された記述子のために、オブジェクトの記述子は、オブジェクトの第1の輪郭のビュー記述子および少なくとも1つの異なるビュー内のオブジェクトの輪郭のさらなるビュー記述子を設け、2つ以上のビュー記述子が関連付けられてオブジェクト記述子を形成するか、記述子がオブジェクトの形状およびサイズの少なくとも一方に関連しかつ画像内の前記オブジェクトのビューとは関係のない記述子を設けているかの少なくとも一方のものである方法等にある。
【発明の効果】
【0010】
本発明はオブジェクトに対応する複数の異なる二次元ビューの表現を導出することを含む、ディジタル画像に現れるオブジェクトの表現方法を提供できる。
【0011】
本発明はさらに、照会内容を入力し、かつオブジェクトの画像に対応する信号を処理することによって、最も類似して整合するオブジェクト(単数または複数)の表現を発見するために、照会内容と複数の異なるオブジェクトのビューの表現とを比較することを含む、オブジェクトの突合わせ方法を提供できる。
【図面の簡単な説明】
【0012】
【図1】本発明の実施の形態によるシステムのブロック図である。
【図2】オブジェクトのための記述子を得る方法を示す図である。
【図3】オブジェクトのための記述子を得る方法を示すフローチャートである。
【図4】検索のための装置と方法を示す図である。
【図5】検索方法を示すフローチャートである。
【発明を実施するための形態】
【0013】
本発明の実施の形態を添付図面を参照して説明する。
【0014】
本発明の実施の形態に基づくシステムを図1に示す。このシステムは、システムの動作を制御するコンピュータのような制御ユニット2と、該制御ユニット2に接続され画像およびテキストを含む出力を表示するためのモニタのようなディスプレイ・ユニット4と、制御ユニット2に命令を入力するためのマウスのようなポインタ6とを含んでいる。このシステムはさらに、ディジタル・バージョンの複数のビデオ・シーケンスを記憶する画像データベース8と、該画像データベース8に記憶されたビデオ・シーケンスの各々に現れるオブジェクトのための、後に詳述する記述子情報を記憶するための記述子データベース10とを含んでいる。画像データベース8と記述子データベース10とは各々、制御ユニット2に接続されている。
【0015】
この実施の形態では、システムの各要素は画像ライブラリのような単一のサイト上に備えられ、システムの構成部品は常設的にリンクされている。
【0016】
本発明の一実施の形態に基づく、オブジェクトのための記述子導出方法を図2および図3を参照して説明する。この方法を比較的単純な形状を有するオブジェクト、この場合は円筒形のオブジェクトについて説明する。
【0017】
この例では、画像データベース8に記憶されているビデオ・シーケンスには、円筒形のオブジェクトは2回現れる。図2を参照すると、第1の出現では、オブジェクトの輪郭はビュー1、すなわち側面のビューに対応し、第2の出現では、オブジェクトの輪郭はビュー3、すなわち側方かつ上方(斜め上)からの透視のビューに対応する。
【0018】
ここで、この方法のステップを図3に示したフローチャートを参照して説明する。
【0019】
データベース・インデクサは2つの輪郭が同じオブジェクトのものであり、また、これらの輪郭に対応する三次元のオブジェクトが円筒であることを認識する(ステップ10)。ビュー1およびビュー3のそれぞれについて、曲率スケール空間(CSS)表現を利用した形状記述子が導出される(ステップ20)。さらに、データベース・インデクサは、該オブジェクトを表すとみなされる別のビューを、それらが考慮中のビデオ・シーケンスに現れない場合でも、選択する(ステップ30)。この例では、円筒の上方からのビューであるビュー2がオブジェクトを表現しているものとして選択される。このビューのCSS表現も取得される(ステップ40)。
【0020】
Farzin Mokhtarian、Sadegh AbbassiおよびJosef Kittlerによる論文「Robust and Efficient Shape Indexing through Curvature Scale Space」(Proc. British Machine Vision Conference, pp.53-62, Edinburgh, U.K.,1996)では、曲率スケール空間表現の方法を記載しており、本明細書で参考文献として参照される。簡略に述べると、ある形状の輪郭を表現する曲線は、曲線を平滑化することによって展開される。展開の多くの異なる段階でこの曲線が検討される。より具体的には、展開の各段階で、曲率ゼロ交叉が曲率関数において識別される。展開の全ての段階からのゼロ交叉を結合することにより曲率ゼロ交叉のグラフが得られる。グラフの1つの軸は、曲線の展開パラメータを表すσに対応し、また、他の軸は曲線円弧長パラメータuに対応する。そしてグラフ中の輪郭の極大位置によって形状が表現される。
【0021】
オブジェクトを表すビューのCSS形状表現に加え、オブジェクトのビューとは関係ないオブジェクトの大域的三次元形状パラメータが得られる(ステップ50)。この例では、大域的パラメータはオブジェクトの実際の容積である。容積は既知である場合もあり、またはビデオ・シーケンスに現れる、寸法を近似計算できる人物のような別のオブジェクトを参考にして近似計算してもよい。
【0022】
大域的パラメータおよびビュー形状記述子を組合せて、三次元オブジェクトの形状記述子が形成される(ステップ60)。
【0023】
三次元オブジェクトの形状記述子は、画像データベース8内の画像に現れる対象となる全てのオブジェクトについて上記の方法で得られる。何れかの所定のオブジェクトのビューの数、およびどのビューが用いられるかは、オブジェクトの複雑さによって左右される。例えば容積値が既知でないか、または容易には導出できない場合には、三次元オブジェクトの形状記述子に大域的パラメータがないオブジェクトもある。各々のビューはビデオ・シーケンスのどのフレームにオブジェクトが現れるか、およびそれがフレーム内のどのオブジェクトであるかを示す参照ポインタを有している。例えば、オブジェクトのビューはオブジェクトがフレーム1000に現れ、それがオブジェクトNo.3であることを示すポインタを有することがある。
【0024】
別の形状表現方法を用いた別の実施の形態では、ビューの数と性質も、用いられる形状表現方法によって左右される。例えば、ビューイング・ジオメトリ(視幾何)における変化に起因する形状の変形に対して影響を受けにくい方法では、必要なビューの数は少なくなる。
【0025】
記述子データベース10は、画像データベース8に記憶されているビデオ・シーケンス中のオブジェクトのための三次元オブジェクトの形状記述子を記憶する。
【0026】
ここで図4および図5を参照してビデオ・シーケンス中のオブジェクトの検索方法を説明する。
【0027】
ユーザは照会内容(query)を入力することで検索を開始する。ポインタ6を使用して照会内容が入力されて、ディスプレイ・ユニット4上に単数または複数の形状輪郭が描かれる(ステップ62)。この例では、照会される2つの輪郭100が入力される。これらの輪郭が照会ビューである。ユーザはさらに、ユーザが検索しているオブジェクトの容積を表すパラメータを入力する(ステップ64)。
【0028】
次に制御ユニット2が各々の照会ビューごとにCSSビュー記述子を導出する(ステップ66)。
【0029】
代替実施の形態では、ユーザは制御ユニット2によってディスプレイ・ユニット4に表示された形状のメニューから単数または複数の照会形状を選択することで照会内容を入力する。このような実施の形態では、ビュー記述子を記述子データベース10で既に利用できる。
【0030】
照会容積パラメータおよび照会ビュー・パラメータが組合わされて、照会される三次元オブジェクト記述子が形成される。
【0031】
次にシステムは、照会オブジェクト記述子と、記述子データベース10内に記憶されている、以後モデルオブジェクト記述子と記載されるオブジェクト記述子との類似性を判定するための突合わせ手順を実行する。一方、記述子データベース内の各々のモデルオブジェクト記述子はセレクタ205によって選択され(ステップ68)、さらに各々のモデルオブジェクト記述子ごとに順番に、以下のステップが実行される。
【0032】
最初に、照会オブジェクト記述子とモデルオブジェクト記述子の大域パラメータを用いて、比較器200によって大域的な類似性測度GSが得られる。この実施の形態では、GSは照会容積パラメータと、データベースから取り出した記述子のモデル容積パラメータとの比率を測ることによって導出される。この比率が(1/c、c:但しc>1)の区間にある場合は、オブジェクトは同類であると見なされ、GSは0の値をとる。そうではない場合は、GSは無限大の値をとる。cの値はアプリケーションによって左右される。例えば特作フィルム(feature film)の場合は、c=5である。
【0033】
照会されるオブジェクト記述子とモデルオブジェクト記述子の少なくとも一方が大域パラメータ値を有していない場合は、GS=0である。
【0034】
GS≠0である場合は、記述子データベースから新たなモデルオブジェクト記述子が選択される。GS=0である場合は、以下のようにビュー記述子の比較が行われる(ステップ72)。
【0035】
ビューの類似性測度を導出するために、突合わせ機能を利用して、各々の照会ビュー記述子と、検討中のモデルオブジェクト記述子のための各ビュー記述子とが比較器810で比較される(ステップ74)。i番目の照会ビュー記述子と、j番目のモデルビュー記述子との比較によって、ビューの類似性測度Si,jが得られる。
【0036】
より詳細に説明すると、照会ビュー記述子はセレクタ600を用いて選択され、またデータベースのビュー記述子はセレクタ700を用いて選択される。最初に、第1の照会ビューのためのビュー記述子と、データベースからのモデルオブジェクト記述子内の各々のビュー記述子とが比較される。各々の対ごとに、適当な突合わせプログラムを利用してビューの類似性の値sが計算される。この実施の形態では、ビューの類似性値sは、前述のMokhtarian, AbbassiおよびKittlerの論文に記載されている突合わせアルゴリズムを用いて計算される。この特定の類似性の測定方式が用いられる場合は、ビューの類似性の値が小さいほど、整合の度合いは近くなる。それによって第1の照会ビューのk個のビュー類似性測度の集合が得られ、但しkは検討中のモデルオブジェクト記述子内のビュー記述子の数であり、大域的、および局部的な類似性コンバイナ820にk個の測度が記憶される。
【0037】
次に、第2の照会ビュー記述子と、データベースからのモデル・ビュー記述子について同様のビュー類似性の値が計算され、かつ記憶され、更にk個のビュー類似性測度が得られる。
【0038】
各々の照会ビューについて、検討中のデータベース記述子の値のうち最小のビュー類似性値が選択される(ステップ76)。この最小値はそれぞれの照会ビューと、検討中のオブジェクト記述子内のビューの1つとの最も近い(類似した)整合の測度である。その結果、ビュー類似性のp個の最小値が得られ、但しpは照会ビューの数である。この例ではp=2である。
【0039】
照会記述子と、検討中のモデルオブジェクト記述子の全体的な類似性測度Sが、p個の類似性の値の中央値として算出される(ステップ78)。これは全てのビューを考慮に入れた、照会記述子とモデル記述子との整合の近さを表している。このように、1つの照会ビューがデータベース記述子内のビューと近く整合し、しかし、別の照会ビューがデータベース記述子内のどのビューとも近く整合しない場合には、それは中間値によってSに反映される。
【0040】
上記のステップは記述子データベース8内の各オブジェクト記述子ごとに繰り返され、その結果、n個の類似性測度Sが得られ、但し、nは記述子データベース内の三次元オブジェクト記述子の数である(ステップ80)。次に、n個の類似性測度が、最も近い類似性を示す最小値から始まって順序付けされる(ステップ82)。次に、m個の最小値が選択され(mはユーザにより選択され、または制御ユニットのセットアップによって決定される)、オブジェクトを含む対応するm個のビデオ・シーケンスの各々からの画像がディスプレイ・ユニット4に表示される(ステップ84)
【0041】
本発明に基づき、輪郭形状の完璧な、または準完璧な記述を形成するために、単一のオブジェクトの複数のビューが記憶される。検索にとって重要であると見なされるビューだけが記憶された場合は、表現は準完璧なものとなろう。例えば、特作フィルムを記憶する標準的なデータベースの場合、車の前面、背面、側面、および上面のビューだけが統合された表現として記憶されるが、車の下からのビューは、これが照会の際に用いられることはなさそうなので、記憶されることはない。
【0042】
本発明に基づくシステムは、例えば画像ライブラリに備えてもよい。あるいは、データベースをシステムの制御ユニットから離れたサイトに置き、電話回線のような一時的なリンクによって、またはインターネットのようなネットワークによって制御ユニットに接続されるようにしてもよい。画像および記述子データベースを例えば持久記憶装置、またはCD−ROMまたはDVDのような携帯式データ記憶装置に備えてもよい。
【0043】
セレクタや比較器のような前述のシステムの構成部品はソフトウェアまたはハードウェアの形式のどちらで備えてもよい。本発明をコンピュータ・システムの形式で記載してきたが、例えば専用のチップを使用して他の形式で実施してもよい。
【0044】
オブジェクトの二次元形状を表現する方法、および2つの形状の類似性を表す値を計算する方法の特定の実施の形態を記載してきたが、これに適したどのような方法も利用できる。
【0045】
完璧な、または準完璧な形状の記述を構成するオブジェクトの様々なビューは、例えばフィルム・プロデューサによって供給されることができる。データベース内のフィルムを索引付け(indexing)するのに使用されるように、プロデューサは例えば、車を含むフィルムに、車の20の異なるビューをアレンジできる。あるいは、ビューを発見できるように、シーケンス中のオブジェクトの異なるビューの全ての間をリンクさせてもよく、また、オブジェクトの第1のビューのデータが含まれる場合は、例えばシーケンス中に現れない何れかの有用なビューの形状を供給してもよい。
【0046】
本発明を例えば、照合確認の目的でオブジェクトの画像を突合わせるために、またはフィルタリングのために利用することもできる。
【0047】
本発明は単一の画像、またはフィルムまたはビデオからの画像のような画像シーケンス中の複数の画像、または同じウェブ・ページにあるような、何らかの関連がある画像のコレクションに適用できる。

【特許請求の範囲】
【請求項1】
画像または複数の画像に相当する信号を処理することにより、画像または画像シーケンス内のオブジェクトを検索する方法であって、
オブジェクトの少なくとも1つの二次元輪郭の形式で照会内容を入力しさらに照会内容のオブジェクトの記述子を導出するか、または少なくとも1つの二次元オブジェクトの記述子の形式で照会内容を入力する工程と、
前記照会内容の記述子と画像内のオブジェクトのための記憶されたオブジェクトの記述子を比較する工程と、
それぞれの記述子と照会内容の記述子の間の比較が前記照会内容と前記オブジェクトの間の類似度を示す、オブジェクトを含む画像に相当する少なくとも1つの結果を選択して表示する工程と、
を備え、
少なくとも記憶された記述子のために、オブジェクトの記述子は、オブジェクトの第1の輪郭のビュー記述子および少なくとも1つの異なるビュー内のオブジェクトの輪郭のさらなるビュー記述子を設け、2つ以上のビュー記述子が関連付けられてオブジェクト記述子を形成するか、記述子がオブジェクトの形状およびサイズの少なくとも一方に関連しかつ画像内の前記オブジェクトのビューとは関係のない記述子を設けているかの少なくとも一方である方法。
【請求項2】
画像シーケンスの一部である画像に相当する記憶された記述子のために、少なくとも1つのさらなるビュー記述子が、画像シーケンス内のどこか他の場所に現れるオブジェクトのビューに相当する請求項1に記載の方法。
【請求項3】
記憶された記述子に相当する画像がビデオ画像からのものである請求項2に記載の方法。
【請求項4】
ビュー記述子が曲率スケール空間表現を用いて導出される請求項1から3までのいずれか1項に記載の方法。
【請求項5】
関連付けられたビュー記述子はそれぞれの画像または画像シーケンスを索引付けする請求項1から4までのいずれか1項に記載の方法。
【請求項6】
オブジェクトのビューとは関係のない記述子がオブジェクトの容積に相当する請求項1から5までのいずれか1項に記載の方法。
【請求項7】
照会内容はオブジェクトの2つ以上の二次元輪郭の形式で入力され、照会内容のビュー記述子が各輪郭のために導出され、前記比較する工程が、各前記照会内容のビュー記述子を各記憶されたオブジェクト記述子内の各ビュー記述子と比較して複数のビュー類似値を導出することを含む請求項1から6までのいずれか1項に記載の方法。
【請求項8】
ビュー類似値を分析してオブジェクト類似値を導出する請求項7に記載の方法。
【請求項9】
オブジェクト記述子の少なくとも幾つかは、オブジェクトの形状およびサイズの少なくとも一方に関係し、オブジェクトのビューとは関係のないビューに無関係な記述子を含み、前記方法が、ビューに無関係な照会内容値を入力する工程と、前記照会内容値と記憶されたオブジェクト記述子のためのビューに無関係な記述子を比較する工程と、を含む請求項1,7,8のいずれか1項に記載の方法。
【請求項10】
照会内容内のオブジェクトの透視ビューとは異なる透視ビュー内のオブジェクトを示す画像を選択して表示する工程を備えた請求項1から9までのいずれか1項に記載の方法。
【請求項11】
請求項1から10までのいずれか1項に記載の方法を実行するようにプログラムされた画像内のオブジェクトの表現を導出するための制御装置。
【請求項12】
画像内のオブジェクトの表現を導出するための装置であって、請求項11に記載の制御装置と、画像と画像の表現の少なくとも一方を格納する記憶手段と、を備えた装置。
【請求項13】
画像または複数の画像に相当する信号を処理することにより、画像または画像シーケンス内のオブジェクトを検索する装置であって、
オブジェクトの少なくとも1つの二次元輪郭の形式で照会内容を入力しさらに照会内容のオブジェクトの記述子を導出するか、または少なくとも1つの二次元オブジェクトの記述子の形式で照会内容を入力する手段と、
前記照会内容の記述子と画像内のオブジェクトのための記憶されたオブジェクトの記述子を比較する手段と、
それぞれの記述子と照会内容の記述子の間の比較が前記照会内容と前記オブジェクトの間の類似度を示す、オブジェクトを含む画像に相当する少なくとも1つの結果を選択して表示する手段と、
を備え、
少なくとも記憶された記述子のために、オブジェクトの記述子は、オブジェクトの第1の輪郭のビュー記述子および少なくとも1つの異なるビュー内のオブジェクトの輪郭のさらなるビュー記述子を設け、2つ以上のビュー記述子が関連付けられてオブジェクト記述子を形成するか、記述子がオブジェクトの形状およびサイズの少なくとも一方に関連しかつ画像内の前記オブジェクトのビューとは関係のない記述子を設けているかの少なくとも一方のものである装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2011−96286(P2011−96286A)
【公開日】平成23年5月12日(2011.5.12)
【国際特許分類】
【出願番号】特願2011−21726(P2011−21726)
【出願日】平成23年2月3日(2011.2.3)
【分割の表示】特願2009−279841(P2009−279841)の分割
【原出願日】平成12年4月28日(2000.4.28)
【出願人】(501253316)ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ (77)
【氏名又は名称原語表記】MITSUBISHI ELECTRIC R&D CENTRE EUROPE B.V.
【住所又は居所原語表記】20 Frederick Sanger Road, The Surrey Research Park, Guildford, Surrey GU2 5YD, Great Britain
【Fターム(参考)】