説明

語彙表現による画像管理

画像管理の方法300において、対象物を含む画像の画像データがアクセスされ(304)、対象物のグラフ表現204’〜210c’が生成され(320)、当該グラフ表現204’〜210c’の重心及びサイズが求められる(322)。重心の位置が求められ(324)、当該重心の位置に基づいてグラフ表現204’〜210c’の形態が求められる(328)。グラフ表現204’〜210c’の重心の位置、サイズ、色、及び形態に人間が読解可能な語彙表現が割り当てられ(332)、人間が読解可能な語彙によって検索可能なデータベース120内に記憶される(308)。

【発明の詳細な説明】
【背景技術】
【0001】
インターネット上で利用可能なデジタル画像コンテンツ及びビデオコンテンツが増加していることに起因して、デジタル画像を処理及び表示するのにパーソナルコンピュータ及び他のデジタルハードウェアを使用することが一般的になってきている。この一般化の結果として、利用可能な画像の数が多いことから、所望の画像を取り出す煩雑さが増してきている。従来は、画像のファイル名によって所望の画像を取り出すことが多かった。
【0002】
しかしながら、ファイル名は、画像コンテンツ又はビデオコンテンツが何を含んでいるかを、ユーザが判断できるようにする、画像コンテンツ又はビデオコンテンツについての十分な説明を提供しないことが多い。したがって、データベース上に記憶されている従来の画像及びビデオの内容は、当該内容の簡単な説明を提供するタグと共に記憶されていることが多い。たとえば、黒い道路上の青い車を含む画像は、「車」、「青」、及び「道路」のようなタグを含むことがある。これらのタグは通常、データベース内に手作業で入力されるが、これには多大な労力及び時間の両方を要する。
【0003】
画像及びビデオを説明する自動化手法は、たとえば色の説明の場合、色の成分を多次元色空間における位置及び座標を用いて表現する色符号化に基づくシステムを含むものであった。換言すれば、色は、色空間における位置又は座標を示す数値データを使用して数学的に表現されてきた。色に関するデータは、色空間で色を具体的に定義することはできるが、これらの表現は通常、人間に色に関する情報を直感的には伝達しない。
【0004】
本発明の特徴は、図面を参照した以下の説明から当業者に明らかとなるであろう。
【図面の簡単な説明】
【0005】
【図1】本発明の一実施形態による画像管理システムのブロック図を示すもので、さまざまなテキストベースの画像データベース作成プロセス及び画像抽出プロセスに採用することができる。
【図2】本発明の一実施形態による、元の画像、及び当該元の画像から導き出される形態語彙ヒストグラムのブロック図を示す。
【図3A】本発明の一実施形態による、画像のデータベースを作成する方法の流れ図を示す。
【図3B】本発明の一実施形態による、図3Aにおいて説明されている形態語彙プロセスステップで実施されるさまざまなステップのより詳細な流れ図を示す。
【図4】本発明の一実施形態による、図3Aに示す方法を実施することによって作成されたデータベース上で画像を検索する方法の流れ図を示す。
【発明を実施するための形態】
【0006】
単純化して例示するという目的のために、主にその例示的な一実施形態を参照しながら本発明を説明する。以下の説明では、本発明を完全に理解してもらうために多数の具体的なものを詳細に説明する。しかしながら、本発明をこれらの具体的なものに限定することなく実施することができることは当業者には明らかであろう。別な実施形態においては、本発明が不必要に分かりにくくならないように、既知の方法及び構造を詳細には説明しない。
【0007】
本明細書では、画像を管理する方法及びシステムが開示される。より詳細には、本明細書で開示される方法及びシステムにおいては、人間が読解可能な語彙によって複数の画像のさまざまな特性を表現することができる。この表現には、人間が読解可能な語彙で表現することができる画像内のさまざまな対象物間の関係も含まれる。本明細書で開示される方法及びシステムを使用することによって、画像のさまざまな特性を定義するテキスト語で検索可能な画像のデータベースを作成することができる。加えて、テキスト検索語を使用したデータベースの検索によって、あるいは入力画像と比較することで、所望の画像を抽出することができる。
【0008】
一般的に言えば、1つの実施形態において、ユーザは、テキスト文書で実施する検索と同様の方法で、データベースにアクセスして、1つ又は複数の画像を検索することができる。したがって、本明細書で開示されている方法及びシステムは、画像を検索する相対的により直観的な方法をユーザに提供することができる。
【0009】
最初に図1を参照すると、本明細書で開示されるテキストベースの画像データベース作成プロセス及び画像抽出プロセスのさまざまな例が採用できる画像管理システム100のブロック図が、一実施形態として示されている。画像管理システム100は、通信インタフェース102と、処理回路104と、記憶回路106と、ユーザインタフェース108と、画像入力装置110と、データベース120とを備えている。画像管理システム100の範囲から逸脱することなく、画像管理システム100は追加の構成要素を備えることができ、本明細書で説明されている構成要素のうちのいくつかを除去及び/又は変更することもできる。
【0010】
画像管理システム100が図示しない外部装置と通信を実行するように通信インタフェース102が構成され、通信インタフェース102はコンピューティング装置内に組み付けることができる。たとえば、通信インタフェース102は、別のコンピューティング装置に対して情報を双方向に通信するように構成することもできる。通信インタフェース102は、ネットワークインタフェースカード(NIC)、直列接続若しくは並列接続、USBポート、Firewireインタフェース、フラッシュメモリインタフェース、フロッピー(登録商標、以下同じ)ディスクドライブ、又は画像管理システム100に対する通信に適切な任意の他の構成として実施することができる。
【0011】
1つの実施形態では、処理回路104が、データを処理し、データへのアクセス及び記憶を制御し、コマンドを発行すると共に、他の所望の動作を制御するように構成されている。処理回路104は、本明細書の以下に開示される少なくとも1つの実施形態において、適切な媒体によって与えられる所望のプログラミングを実施するように構成された回路を含むことができる。たとえば、処理回路104は、プロセッサと、たとえばソフトェア回路命令、ファームウェア回路命令、及び/又はハードウェア回路命令を含む実行可能な命令を実行するように構成された構造のうちの一方又は両方として具現化することができる。したがって、処理回路104はたとえば、ハードウェアロジック、PGA、FPGA、ASIC、状態機械、又は単独の若しくはプロセッサと組み合された他の構造を含むことができる。
【0012】
記憶回路106は、実行可能コード若しくは命令(たとえばソフトウェア、ファームウェア、若しくはその両方)のようなプログラミング、電子データ、画像データ、画像データが関連付けられているメタデータ、データベース、又は他のデジタル情報を記憶するように構成され、プロセッサ使用可能媒体を含むことができる。プロセッサ使用可能媒体は、処理回路104を含む命令実行システムによって使用されるか又は当該システムに関連するプログラミング、データ、及び/又はデジタル情報を含むか、記憶するか、又は維持することができる任意のコンピュータプログラム製品(複数可)又は製造品(複数可)によって具現化することができる。たとえば、プロセッサ使用可能媒体は、電子媒体、磁気媒体、光媒体、電磁媒体、赤外線媒体、又は半導体媒体のような物理媒体のうちのいずれか1つを含むことができる。プロセッサ使用可能媒体のさらなる例はたとえば、フロッピーディスクのようなポータブル磁気コンピュータディスク、ジップディスク、ハードドライブ、ランダムアクセスメモリ、読出し専用メモリ、フラッシュメモリ、キャッシュメモリ、及び、プログラミング、データ、又は他のデジタル情報を記憶することが可能な他の構成である。
【0013】
本明細書において説明される実施形態又は態様のうちの少なくともいくつかは、上述の適切な記憶回路106に記憶され且つ/又はネットワーク若しくは他の伝送媒体を通じて通信されると共に適切な処理回路を制御するように構成されるプログラミングを使用して実施することができる。
プログラミングは、たとえば製造品112に具現化された媒体、変調搬送波、データパケット、デジタル表現等のデータ信号内に具現化された媒体を介して、あるいはたとえば通信インタフェースを通じて、通信ネットワーク、たとえばインターネット、私的ネットワーク若しくはその両方、有線電気接続、光接続、電磁エネルギーのような適切な伝送媒体によって通信される媒体を介して、さらには、他の適切な通信構造若しくは媒体を使用して提供される媒体を介して提供することができる。たとえば、プロセッサ使用可能コードを含むプログラミングは、搬送波内で具現化されるデータ信号として通信することができる。
【0014】
記憶回路106はさらに、画像、当該画像の形態語彙表現又はその両方を記憶するために、処理回路104によって作成されるデータベース120と通信することができる。本明細書において以下でより詳細に説明するように、データベース120は概して、テキスト文書の検索及び抽出に使用されるものと同様のテキストベースの検索クエリによって画像の検索及び抽出が可能なように作成することができる。
【0015】
ユーザインタフェース108は、たとえば、ユーザの観察のためにデータを表示すること、ユーザに可聴してデータを通信させること等によってデータをユーザに伝達すること、及び、たとえば触覚入力、音声命令等のユーザの入力を受信することなどユーザとの対話用に構成することができる。したがって、ユーザインタフェース108は、視覚情報を示す例えば陰極線管、LCD等のディスプレイ114と、キーボード、マウス、及び/又は、画像管理システム100とのユーザ対話を可能にする他の適切な入力装置116とを備えることができる。
【0016】
1つの実施形態において、ユーザは、ユーザインタフェース108を利用して、テキストベースの検索に使用される検索語と同様な検索語を画像管理システム100に入力することができる。
【0017】
画像入力装置110は、画像管理システム100に提供される、写真、ビデオキャプチャのフレーム等のような画像に対応する電子画像データを提供する任意の適切な装置として実施することができる。画像入力装置110にはたとえば、フラットベッドカラー写真スキャナ、デジタルカメラ、デジタルビデオカメラ、別の画像管理システム等のような走査装置を含んでも良い。
【0018】
画像入力装置110は付加的に、検索基準を画像管理システム100に入力するように実施することもできる。一例として、画像入力装置110によって画像を画像管理システム100に読み込んで、当該画像を以下で説明するように形態語彙処理させることができる。次いで、この形態語彙処理された画像の特性を、データベース120に記憶されている形態語彙処理された画像と比較して、たとえば、走査画像と類似の画像をデータベース120に発見することができる。
【0019】
一実施形態によれば、処理回路104は、整合する特性又は共通の特性を有する画像領域を特定するために、複数の画像形成要素、たとえばピクセルのRGB、Lab等を含む画像データを量子化することができる。整合する特性又は共通の特性は、たとえば、画像の同じ色を有する連続した領域でも良い。量子化画像データをさらに形態語彙処理して、本明細書においてより詳細に後述するように、画像データを人間が読解可能な語彙に変換することができる。
【0020】
用語「形態語彙処理」は、画像のさまざまな領域の1つ又は複数の特性を人間が読解可能な語彙を使用して識別及びラベル付けする処理を含むものとして定義することができる。1つ又は複数の特性はたとえば、さまざまな領域間の相対位置、さまざまな領域の色、さまざまな領域のサイズ等を含むことができる。加えて、1つ又は複数の特性は、さまざまな領域間の相対関係と、画像間の境界とを含むことができる。換言すれば、また本明細書においてより詳細に後述するように、形態学的処理は語彙量子化されている画像に対して実施することができる。
【0021】
用語「語彙量子化」は、画像の内容又は対象物の視覚的特性を説明するために、人間が読解可能な語彙である理解可能な単語、たとえば英語又は他の言語の単語を使用することを含むものとして定義することができる。人間が理解可能な単語は画像データに関連付けることができ、画像の検索可能なデータベース120の作成におけるように、画像の管理を支援するか又は容易にするのに使用することができる。本明細書において開示されるように、人間が理解可能な単語は検索可能な画像のデータベース120から画像を抽出するのを支援又は容易にすることもできる。
【0022】
人間が理解可能な単語は、画像の内容の特性、たとえば、色、グレイスケーリング、又はその両方を、平均的な人間が容易に理解できる自然言語によって説明することができる。人間が理解可能な単語は、プログラマによって理解することもできるが色に対する或る種のマッピングあるいは数学的関係の理解を通常必要とする機械語又はコードとは区別されるもので、たとえば人間が読解可能で理解可能な語彙にある語彙的色名、たとえば人間語の一部として人間が容易に読解及び理解する内容を含むことができる。人間にとって容易に認識可能な語彙的色名の例としては、黒、赤、青、緑、黄、橙等がある。
【0023】
人間が理解可能な単語に、人間が読解可能で理解可能な語彙内にある量子化語彙的サイズ表示も含めることができる。人間にとって容易に認識可能な量子化語彙的サイズ表示の例はたとえば、非常に小さい、小さい、中程度の大きさ、大きい、非常に大きい等を含む。語彙的サイズ表示は、画像に含まれる複数の対象物の相互の又は或る特徴に対するサイズを説明する場合に、所望する細かさのレベルによっては多くの他のサイズ表示を含むことができるのは明らかであろう。
【0024】
人間が理解可能な単語には、人間が読解可能で理解可能な語彙である語彙的相対位置ラベルをさらに含むことができる。語彙的相対位置ラベルはたとえば、第2の対象物の位置に対する第1の対象物の位置、第1の対象物又は第2の対象物の画像に対する位置、画像の1つ又は複数の境界に対する第1の対象物又は第2の対象物の位置等を表すことができる。加えて、又は代替的に、語彙的相対位置ラベルは、第1の対象物が第2の対象物又は他の対象物と接しているか否かを表すことができる。人間にとって容易に認識可能である語彙的相対位置ラベルの例としては、北、南、東、西、左、右、中央、上、下等がある。したがって、語彙的相対位置ラベルは、たとえば、画像内の対象物間の相対位置の説明において所望する細かさのレベルに応じて、所望すれば細かくも粗くもすることができる。
【0025】
一実施形態によれば、色に関して、量子化ビン(bin)に対応する語彙的色名は、比較的多数の人間による定義を集約することによって生成することができる。したがって、ある実施形態においては、電磁可視スペクトルの周波数範囲を説明すると共に、電磁エネルギーを認識しおそらく当該技術用語に関する学識のある技術者しか知らない技術用語と違って、人間の語彙による容易に理解される単語が使用される。単語は、意味を有する任意の一連の語彙記号を指すということができ、例として略語及び見出し語を含むことができる。
【0026】
色に関する1つの実施形態において、語彙量子化のカテゴリ又はビンの数は、画像を特徴付けるのに使用される色名の数によって決定される。画像が語彙量子化されると、画像の内容を示す単語、たとえば語彙的色名が、画像の画像形成要素に関連付けられる。語彙量子化のさらなる詳細は以下に説明する。
【0027】
本明細書において説明する形態学的処理は、上述のように語彙量子化された画像に対して実施することができる。すなわち、画像形成要素の色内容に対応する、語彙的色名のうちの適切なものが、画像の画像形成要素のそれぞれに関連付けられる。一般的に言えば、形態学的処理は、整合する特性又は共通の特性を有する画像の複数の領域を識別する。より具体的な一実施形態では、画像の領域は、語彙的色名のうちの1つで識別され、領域のそれぞれと関連付けられると共に、それぞれの領域の色に対応する。形態学的処理は、所与の領域の、共通の特性を有しない画像形成要素をフィルタリングすること、及びこのような要素の内容を共通の特性に変更することを含むことができる。フィルタリングは、以下に説明するように種々の分解能を備えることができる。
【0028】
結果として得られた領域に関する情報は、初期画像データ、たとえば語彙量子化及び形態学的処理を行う前の画像データであって、画像の信頼性のある複製を再現するのに使用可能な画像に関連付けることができると共に、記憶回路106を使用してたとえば画像のメタデータとして記憶することができる。1つの実施形態では、メタデータは画像の所望する初期画像データを識別及び抽出するのに使用することができる。
【0029】
結果として得られた領域情報と呼ぶことができる領域に関する情報には、当該領域の画像形成要素の色を示す語彙的色名を含むことができる。この領域情報には、質量情報、たとえば、ピクセル数又は全体に対する割合としての領域の画像形成要素の量、及び、当該領域の位置情報をさらに含むことができる。1つの実施形態において、位置情報は、領域のすべての画像形成要素の平均のx位置及びy位置に対応する領域の重心(図心)を示すことができる。別の実施形態においては、質量情報は、語彙的質量表示によって表現することができ、位置情報は語彙的相対位置ラベルによって表現することができる。
【0030】
語彙表現を導き出すと共に当該語彙表現を使用して画像を説明する方法のより詳細な実施形態が、元の画像200、及び当該元の画像200から導き出される形態語彙ヒストグラム220を示す図2を用いて説明される。
【0031】
図2に示すように、元の画像200は、本明細書において以下により詳細に説明する量子化方法を使用して生成されたセグメント化画像を含むことができる。画像をセグメント化する別な方法として、たとえば、画像の複数のセグメントを生成し、当該セグメントのそれぞれに単一の色を割り当てる方法を使用してもよい。いずれにせよ、元の画像200は、外側の色204及び内側の色206を有する水差し202を含めた複数の対象物を備えている。水差し202の取っ手部分の中は第3の色208であり、これは影のために水差し202のこれを取り囲む領域よりも暗い色であり得る。加えて、水差し202を取り囲むさまざまな対象物が210a〜210cとラベル付けされる。
【0032】
元の画像200の画像データの処理に続いて、形態語彙ヒストグラム220を作成することができる。図2の形態語彙ヒストグラム220は、元の画像200のさまざまな領域のグラフ表現を含む。より詳細には、形態語彙ヒストグラム220は一般的に、さまざまな対象物のグラフ表現を、それらのサイズ、色、それぞれの位置、及び形態に従って示すものである。したがって、形態語彙ヒストグラム220は、水差し202のさまざまな部分204〜208、及び水差し202を取り囲む領域210a〜210cを、それらの重心、サイズ、及び色に従ってグラフで示す。したがってたとえば、水差し202の外側の色204は、外側の色204を有する相対的に大きな円204’としてグラフで表現され、その重心は形態語彙ヒストグラム220の中心近くに位置決めされる。加えて、外側の色204を有する領域のグラフ表現204’は線222によって、内側の色206を有するグラフ表現206’及び第3の色208を有するグラフ表現208’と接しているものとして示されている。グラフ表現204’〜208’は、水差し202を取り囲む領域210a〜210cのグラフ表現210a’〜210c’と接しているものとしても示されている。
【0033】
一実施形態によれば、処理回路104は、形態語彙ヒストグラム220を利用して元の画像200の対象物の語彙表現を導き出することができる。一例として、処理回路104は上述のように、グラフ表現204’〜210c’の色を求めることができ、語彙的色名をグラフ表現204’〜210c’に割り当てることができる。加えて、処理回路104はグラフ表現204’が非常に大きいこと、グラフ表現210b’及び210c’が中程度の大きさであること、グラフ表現206’及び208’が小さいこと、並びに、グラフ表現210a’が非常に小さいことを求めることができる。加えて、処理回路104は、求められたサイズに従って語彙的サイズ表示を割り当てることができる。
【0034】
処理回路104はさらに、グラフ表現204’〜210c’の相対位置、グラフ表現204’〜210c’の画像200の境界に対する相対位置、又はその両方を求めることができる。処理回路104は、グラフ表現204’〜210c’に語彙的相対位置ラベルを割り当てることもできる。たとえば、処理回路104は、グラフ表現206’がグラフ表現204’の上方に位置し、グラフ表現210c’がグラフ表現204’の右に位置することを記憶することができる。
【0035】
別の例として、処理回路104は、形態語彙ヒストグラム220を複数の仮想スワースに分割することができる。たとえば、形態語彙ヒストグラム220は、当該形態語彙ヒストグラム220を水平方向に横切る3つの均等な仮想スワースに分割することができる。加えて、スワースのそれぞれを多数の領域に分割することができる。形態語彙ヒストグラム220が分割されるスワース及び領域の数はたとえば、さまざまな領域の密度に基づくことができる。すなわちたとえば、処理回路104は、形態語彙ヒストグラム220を、領域の密度がより高い場合にはより多くの領域に分割することができる。本明細書において以下により詳細に説明するように、スワースを横断するときに領域を識別することができ、それによって、その領域の語彙表現及びその領域に含まれるグラフ表現を生成することが可能となる。
【0036】
ここで図3Aを参照すると、一実施形態による画像のデータベースを作成する方法300の流れ図が示されており、このデータベースは人間が読解可能な語彙によって検索可能である。方法300は処理回路104を使用して実施することができる。しかしながら、別な実施形態では、より多くのステップ、より少ないステップ、及び/又は代替的なステップを含んでもよい。
【0037】
ステップ302において、処理回路104はユーザから自動的に所定間隔等でコマンドを受信することによって、方法300を開始することができる。開始すると、処理回路104はステップ304において、処理される画像の画像データにアクセスすることができる。画像データは、複数の画像形成要素、たとえばピクセルのRGBデータを含むことができる。したがってたとえば、処理回路104は画像データをLabのような所望の色空間に変換するように動作することができる。
【0038】
いずれにせよ、処理回路104はステップ306において示されるように、画像データを形態語彙に処理することができる。図2を用いて上述したように、画像データは形態語彙処理されて、画像に含まれるさまざまな領域を示す人間が読解可能な語彙表現を生じさせることができる。画像データが形態語彙処理される1つの方法は、図3Bを用いて本明細書において以下により詳細に説明する。
【0039】
ステップ306において、画像データは複数の分解能で一連の形態学的操作を通じて形態学的に処理され、それによって、誤った色を画像の均一な色領域から除去することが可能になる。ステップ306において、画像は、当該画像を単一の均一な色を個々に含むグラフ表現として表わすように形態学的にフィルタリングすることができる。一般に、グラフ表現は、画像形成要素の大部分が整合する特性又は共通の特性(語彙量子化から結果として得られる共通の語彙的色名)を有し、整合しない他の画像形成要素を整合する特性に変更できるか又はフィルタリングできるものとして定義される。画像データを形態学的に処理できるさまざまな方法のより詳細な説明は、2006年7月27日に出願された「Image Processing Methods, Image Management Systems, and Articles of Manufacture」と題する米国特許出願番号未定明細書(代理人整理番号200408243−1)、及び、2006年7月27日に出願された「Image Management Methods, Image Management Systems, and Articles of Manufacture」と題する米国特許出願番号未定明細書(代理人整理番号200408244−1)に記載されている。上記特許出願の両方の開示は、参照によりそれらの全体が本明細書に援用される。
【0040】
処理回路104は、ステップ308において示されるように、語彙表現をデータベース120内に、人間が読解可能な語彙として記憶するように記憶回路106を制御できる。データベース120は、本明細書において後でより詳細に説明するように、テキストクエリによる検索が可能である。加えて、画像をデータベースに記憶することができ、画像の複数の領域について人間が読解可能な語彙表現を画像のメタデータに記憶することができる。
【0041】
ステップ310において、処理回路104は方法300を継続すべきか否かを判断することができる。処理回路104は、たとえば任意の追加の画像の語彙表現を作成及び記憶するために、方法300を継続すべきであると判断することができる。しかしながら、追加の画像がない場合には、処理回路104はステップ312において方法300を終了することができる。
【0042】
ここで特に図3Bを参照すると、図3Aにおけるステップ306に関連して実施されるさまざまなステップの一実施形態がより詳細に示されている。したがって、図3Bは、画像の形態語彙処理のステップの一実施形態を示している。
【0043】
ステップ320において、処理回路104は、画像200のような画像内のさまざまな対象物又は領域のグラフ表現を生成することができる。より詳細には、たとえば、処理回路104は、量子化画像の複数の画像形成要素の各々をそれぞれのグラフ表現のうちの1つに関連付けることができる。画像の量子化によって、不連続な結果がグラフ表現内の整合しない色のフィルタリングを可能にすることができる。
【0044】
画像内のいずれの領域が整合する特性又は共通の特性を含むかを特定することによって、対象物をそれぞれのグラフ表現で特定することができる。整合する特性又は共通の特性は、たとえば、画像内の隣接する領域が複数の同じ色を有していることである。加えて、複数の領域は、いくつかの領域が単一の部分又は対象物に対応するものとして識別される場合に結合することができる。たとえば、その部分又は対象物で発生している色のグラデーションによって語彙量子化が複数の領域に分類されるようにしている場合である。いずれにせよ、図2を参照すると、それぞれのグラフ表現は、外側の色204と、内側の色206と、第3の色208と、水差し202を取り囲む領域210a〜210cを含むことができる。
【0045】
個々のグラフ表現に対する1つの実施形態において、処理回路104は、それぞれの対象物のグラフ表現に接しているか又は隣接している他のグラフ表現に対して当該それぞれの対象物のグラフ表現を、分析することができ、特定の基準が満たされる場合、処理回路104は適切なグラフ表現を結合することができる。対象物のグラフ表現に隣接している領域が特定されると、処理回路104は、対象物のグラフ表現及び隣接しているグラフ表現に対応する画像の初期画像データ、たとえば語彙的又は形態学的に処理される前の画像データの内容にアクセスすることができ、当該初期画像データを使用してグラフ表現のそれぞれの平均値、たとえば、例示的なLab色空間の平均輝度L値並びに平均クロミナンスa値及びb値を計算することができる。対象物のグラフ表現の平均値を、たとえばユークリッド距離関数を使用して、それぞれの隣接しているグラフ表現の平均値のそれぞれと比較することができる。
【0046】
ユークリッド距離=√((x−y..(x−y) 式1
式中、x値のそれぞれは対象物の領域の平均L値、平均a値、及び平均b値に対応し、y値のそれぞれは分析されている隣接している領域の平均L値、平均a値、及び平均b値に対応する。
【0047】
もし対象物のグラフ表現とそれぞれの隣接しているグラフ表現とを比較する式1の結果が閾値を下回る場合は、2つのグラフ表現を互いに結合することができる。1つの実施形態において、元の画像内で結合すべきであるほど類似しているグラフ表現が結合されるように、閾値を選択することができる。たとえば、量子化ビン間の境界付近にある複数の類似のグラフ表現を同一に扱うように閾値を選択する場合である。あるいは、明らかに異なる色の内容を含むグラフ表現を結合しないように選択することもできる。たとえば複数の類似の量子化ビンへ色が交差する結果、別個のビンへの量子化が発生しなかった場合である。一実施形態において、この分析は対象物のグラフ表現と隣接している他のグラフ表現に対して繰り返すことができる。一実施形態において、結合されたグラフ表現は、単一の画像グラフ表現を使用して画像の単一の対象物を表現することができる。
【0048】
領域が識別され、且つ適切な場合には結合されると、グラフ表現のそれぞれの語彙的色名、質量及び位置を含むグラフ表現情報を、たとえばメタデータとしてそれぞれの画像と関連付けることができる。グラフ表現情報の語彙表現が求められると共に割り当てられるさまざまな方法は、本明細書において下記でより詳細に説明する。
【0049】
ステップ322において、処理回路104は、さまざまなグラフ表現の重心及びサイズを求めることができる。処理回路104は、画像内の画像形成要素又は対象物の配置に基づいて、グラフ表現のこれらの特性を求めることができる。ステップ324において、処理回路104は、グラフ表現を形態語彙ヒストグラム上に、たとえば図2に示す形態語彙ヒストグラム220と同様の方法でプロットすることができる。
【0050】
ステップ326において、処理回路104は、さまざまなグラフ表現の語彙的色名を決定することができる。上述のように、処理回路104は、黒、赤、青、緑、黄、橙等のように、画像内のさまざまな領域の語彙的色名を説明する人間が理解可能な単語を決定することができる。
【0051】
ステップ328において、処理回路104は、さまざまなグラフ表現の語彙的サイズ表示を決定することができる。語彙的サイズ表示はたとえば、非常に小さい、小さい、中程度の大きさ、大きい、非常に大きい等を含むことができる。1つの実施形態において、処理回路104は複数のグラフ表現のサイズを相互に比較して、語彙的サイズ表示を求めることができる。処理回路104は、別の実施形態ではグラフ表現のサイズを予め設定された基準と比較して、語彙的サイズ表示を決定することができる。この実施形態において、たとえば、処理回路は、グラフ表現が画像全体の所定の割合を下回る場合に、そのグラフ表現が小さいと判断することができる。
【0052】
ステップ330において、処理回路104は、量子化画像を形態学的に処理して、さまざまなグラフ表現間の関係を求めることができる。より詳細に言えば、たとえば、処理回路104はグラフ表現間の相互位置、及び画像自体に対するそれぞれの位置を求めることができる。ステップ330の形態学的処理は、異なる分解能における1つ又は複数のレベルの形態学的処理(フィルタリング)を含むことができる。1つの実施形態における複数の段階の処理のさらなる詳細は、Obrador, Pere著「Multiresolution Color Patch Extraction」(SPIE Visual Communications and Image Processing, January 15-19 2006, San Jose, California)において説明されており、当該文献の教示は参照によりその全体が本明細書に援用される。
【0053】
加えて、処理回路104は複数の形態学的フィルタを使用して、複数の分解能レベルで画像の複数の要約表現を生成することができる。形態学的フィルタを使用しての画像の要約表現で維持すべき詳細の程度を変更することができる。たとえば、より低い分解能レベルにおいては、より小さいグラフ表現が取り除かれ、それによって、画像の非常に粗い要約表現及び語彙表現が残される。対照的に、より高い分解能レベルにおいては、より高いレベルで詳細が維持され、比較的些細なグラフ表現が要約表現において維持され、画像のより詳細な語彙表現が提供されることになる。
【0054】
いずれにせよ、処理回路104は、複数のグラフ表現のどのグラフ表現が他の複数のグラフ表現のどのグラフ表現と接しているか、複数のグラフ表現のどのグラフ表現が画像の境界と接しているか等を判断することができる。加えて、又は代替的に、処理回路104は、画像、又は画像の形態語彙ヒストグラム表現を複数の仮想スワースに分割することができ、各スワースは0又は1つ以上の仮想領域を含む。この事例において、処理回路104はたとえば、複数の仮想スワースを横切って走査して、複数の仮想領域の相互位置を決定することができる。たとえば、処理回路104は、画像の中心に位置する領域Aが、当該領域Aの北に位置する隣接領域Bと、当該領域Aの東に位置する隣接領域Cとを有することを識別することができる。
【0055】
ステップ332において、処理回路104は、人間が読解可能な語彙表現を仮想領域に割り当てることができる。したがってたとえば、図2を参照して、処理回路104は、破線224によって表され、ヒストグラム220の左上隅から取られる第1の領域がグラフ表現210a’と208’とを含むと判断することができる。たとえば、グラフ表現210a’が薄灰色であり、且つグラフ表現208’が濃灰色であると仮定すると、処理回路104は、第1の領域224に、非常に小さい薄灰色のグラフ表現が小さな濃灰色のグラフ表現の左に位置していることを示す、人間が読解可能な語彙表現を割り当てることができる。加えて、グラフ表現204’が橙色である仮定すると、処理回路104は、中央に位置する領域226に、非常に大きな橙色のグラフ表現を示す人間が読解可能な語彙表現を割り当てることができる。換言すれば、処理回路104は、第1の領域224が中央領域226の北西にあると判断することができる。加えて、処理回路104は、非常に大きな橙色のグラフ表現が、小さい濃灰色カラーパッチの右下に位置しており、その小さい濃灰色カラーパッチは非常に小さい薄灰色パッチの右に位置している等を判断することができる。
【0056】
処理回路104は、この処理を残りの領域に対して繰り返すことができ、それによって、残りのグラフ表現に人間が読解可能な語彙表現が識別されると共に割り当てられる。加えて、人間が読解可能な語彙表現は、ステップ308において示されるように、テキストベースの検索可能なデータベースに記憶することができる。
【0057】
ここで図4を参照すると、方法300を実施することによって作成されるデータベース120の画像を抽出する方法400の流れ図が示されている。方法400は概して、データベース120に問い合わせることができ、それによって、1つ又は複数の所望の画像を抽出することができる方法を示す。より詳細には、方法400は、テキスト文書の抽出に使用されるものと同様のテキストベースのクエリを、画像文書の発見及び抽出に利用することを可能にする。
【0058】
ステップ402では、処理回路104によってデータベース120にアクセスすることができる。加えて、ステップ404では、処理回路104が検索クエリを受信することができる。検索クエリは、1つの実施形態ではユーザインタフェース108を通じて1つ又は複数の検索語として受信することができる。この実施形態では、処理回路104は1つ又は複数の検索語を解析して、1つ又は複数の検索語のさまざまな特性を求めることができる。たとえば、検索クエリが「浜」という語を含む場合、処理回路104は、所望の語に一致することができる画像が、上位のレベルでは、非常に大きなベージュ色の領域の上方に非常に大きな青色の領域を含むと判断することができる。より詳細なレベルでは、処理回路104は、青色の空及びベージュ色の砂を含む画像が、「浜」という語に関して一致する特性であると判断することができる。いずれの場合においても、処理回路104は、検索クエリ語(複数可)に関して異なる複数の領域の相対位置を求めることができる。
【0059】
語彙的色名に加えて、又はそれに替えて、処理回路104は、入力108を介して、抽出しようとする所望の画像の1つ又は複数の領域についての語彙的色名、質量及び/又は位置情報のような特性を含む検索基準を使用して、所望の画像の要求を受信することができる。この要求は、抽出される画像の1つ又は複数の領域、たとえば、「中央上部の大きな青色の領域、中央の中程度の大きさの赤色の領域、及び中央下部の黄色の領域を有する画像を検索する」を特定することができ、処理回路104は、ステップ406において示されるように、検索基準、及び記憶されている画像に関連付けられる領域情報を使用して記憶回路106内に記憶されている画像を検索して、記憶されている画像を、それらが検索基準にどれほど近くマッチングするかに従ってランク付けすることができる。
【0060】
検索の実施において、処理回路104は、記憶されている画像の検索に使用することができる、特定の語彙的色名、質量及び/又は位置情報を表す入力されるテキスト検索要求を使用して、検索表現を作成することができる。検索表現はたとえば、色、質量、及び位置に対応する3つのベクトルの形態とすることができる。
【0061】
別の実施形態において、検索クエリは、画像入力装置110を通じて、たとえば走査画像として受信することができる。この実施形態では、処理回路104は走査画像を図3A及び図3Bに関連して上述したように形態語彙処理して、この走査画像についての語彙表現を取得することができる。したがってたとえば、走査画像が浜の写真を含む場合、処理回路104は、走査画像が、非常に大きなベージュ色の領域の上方の非常に大きな青色の領域を含むと判断することができる。
【0062】
この実施形態において、処理回路104は、データベース120内に記憶されている複数の画像を、走査画像に対するそれぞれの類似度に従ってランク付けすることができる。処理回路104は、検索する画像の少なくとも1つの領域の領域情報を作成して、検索表現を作成し、当該検索表現を使用して、記憶されている複数の画像のそれぞれの画像に関連付けられる領域情報を使用して、記憶されている複数の画像を検索することができる。より詳細には、たとえば、処理回路104は、ステップ406において、データベース120にアクセスして、検索クエリに応える1つ又は複数の画像を抽出することができる。したがって、上述の浜の例に関して言えば、処理回路104は非常に大きなベージュ色の領域の上方の非常に大きな青色の領域を有するすべての画像を抽出することができる。
【0063】
上記のいずれの実施形態においても、処理回路104は記憶されている複数の画像の領域情報にアクセスして、所望の画像を特定するために、検索基準と当該記憶されている複数の画像の領域についての領域情報と比較することができる。処理回路104は、語彙的色名、質量及び位置情報を使用して比較動作を実施することができる。たとえば、検索基準の少なくとも1つの領域が、記憶されている画像のそれぞれの領域に対して、どの程度距離があるかを計算するために、語彙的色名、質量及び位置情報を使用することができる。処理回路104は、記憶されている複数の画像のそれぞれに対する検索基準の類似度を、グラフ表現のサイズに正比例させ、グラフ表現の重心に反比例させ、且つグラフ表現の色差に反比例させる関係としてランク付けするように構成することができる。たとえば、2つの画像1と2との間の距離を計算するために、以下の式を使用することができる。
【0064】
【数1】

【0065】
処理回路104は、それぞれの領域に対応して計算された距離によって示されるように
比較される画像の類似度を示す情報を、画像の領域の類似度に対応するものとして提供することができる。たとえば、記憶されている画像は、最も近い、すなわち最も類似している、から、最も遠い、すなわち最も類似していない、までランク付けすることができる。ステップ408に示すように、処理回路104は、ディスプレイ116を使用して検索結果を示すことができ、ユーザは、所望の画像を閲覧のために選択することができる。選択された画像の初期画像データを記憶回路106から抽出し、ディスプレイ116を使用して表示することができる。
【0066】
記憶されている画像の情報に関して検索表現の処理を容易にするために、処理回路104は最初に、検索表現の最も大きいグラフ表現を、記憶されている画像の最も大きいグラフ表現と比較し、続いてより大きいグラフ表現が十分に類似していると分かった場合には、より小さいサイズのグラフ表現の分析に進む。
【0067】
本明細書において説明及び例示したものは、いくつかの変形形態を伴う本発明の好ましい実施形態である。本明細書において使用されている用語、説明及び図面は例示のみを目的として説明されており、限定を意図したものではない。当業者であれば、以下の特許請求の範囲(及びそれらの均等物)によって定義される本発明の精神及び範囲内で多くの変形形態が可能であり、ここで、すべての用語は特に指定しない限り、それらの最も広い妥当な意味を意図していることが理解されるであろう。

【特許請求の範囲】
【請求項1】
対象物を含んでいる画像の画像データにアクセスすること(304)と、
前記対象物のグラフ表現(204’〜210c’)を生成すること(320)と、
前記グラフ表現(204’〜210c’)の重心及びサイズを求めること(322)と、
前記重心の位置を求めること(324)と、
前記重心の前記求められた位置に基づいて前記グラフ表現(204’〜210c’)の形態を求めること(328)と、
前記グラフ表現(204’〜210c’)の前記重心の前記位置、前記サイズ、前記色、及び前記形態に、人間が読解可能な語彙表現を割り当てること(332)と、
前記割り当てられた人間が読解可能な語彙表現を、人間が読解可能な語彙によって検索可能なデータベース(120)に記憶すること(308)と、
を含み、
前記グラフ表現(204’〜210c’)の前記形態が、前記グラフ表現(204’〜210c’)間の相互の物理的関係を含んでいることを特徴とする、画像管理の方法(300)。
【請求項2】
複数のグラフ表現(204’〜210c’)を含む画像に関して、前記複数のグラフ表現(204’〜210c’)間の相互の形態を求めること(330)と、
前記複数のグラフ表現(204’〜210c’)間の前記相対位置の語彙表現を割り当てること(332)と、
をさらに含むことを特徴とする、請求項1に記載の方法(300)。
【請求項3】
前記複数のグラフ表現(204’〜210c’)に前記語彙表現を割り当てることは、前記グラフ表現(204'〜210c')のうちのいずれが前記グラフ表現(204'〜210c')のうちのいずれに接しているか、及び、前記グラフ表現(204'〜210c')のうちのいずれがそれぞれの画像の少なくとも1つの境界に接しているかに関する語彙表現を割り当てることをさらに含むことを特徴とする、請求項2に記載の方法(300)。
【請求項4】
前記対象物の前記グラフ表現(204’〜210c’)を生成することは、整合する特性及び共通の特性のうちの少なくとも1つを有するグラフ表現(204'〜210c')を識別して、前記複数のグラフ表現(204'〜210c')を識別するために、量子化することをさらに含むことを特徴とする、請求項1〜3のいずれか一項に記載の方法(300)。
【請求項5】
検索クエリの受信に応答して、前記データベースから少なくとも1つの画像を抽出すること(406)をさらに含み、前記検索クエリがテキストベースのクエリを含んでいることを特徴とする、請求項1〜4のいずれか一項に記載の方法(300、400)。
【請求項6】
複数の画像の画像データにアクセスする処理回路(104)と、
前記複数の画像を記憶すると共に、前記複数の画像の人間が読解可能な複数の語彙表現を記憶するように構成される記憶回路(106)とを備え、
前記処理回路(104)は、前記複数の画像内に含まれる対象物のグラフ表現(204'〜210')を生成し、前記グラフ表現の重心及びサイズを求め、前記グラフ表現の形態を求めると共に、前記グラフ表現(204’〜210c’)の前記重心の前記位置、前記サイズ、前記色、及び前記形態に対して人間が読解可能な語彙表現を割り当てることを特徴とする、画像管理システム(100)。
【請求項7】
前記処理回路(104)は、整合する特性及び共通の特性のうちの少なくとも1つを備えている前記画像における前記複数のグラフ表現(204'〜210c')を識別するため、前記画像を量子化することを特徴とする、請求項6に記載の画像管理システム(100)。
【請求項8】
前記処理回路(104)は、前記重心の前記位置を形態語彙ヒストグラム(220)に図示し、前記形態語彙ヒストグラム(220)を複数の視覚領域(224、226)に分割すると共に、前記視覚領域(224、226)と前記視覚領域(224、226)に含まれる前記グラフ表現(204'〜210c')との間の関係に基づいて、前記グラフ表現(204'〜210c')の前記形態に人間が読解可能な表現を割り当てることを特徴とする、請求項6又は7に記載の画像管理システム(100)。
【請求項9】
前記処理回路(104)は、検索クエリの受信に応答して前記記憶回路(106)から少なくとも1つの画像を抽出するように構成され、前記処理回路(104)は、前記検索クエリの1つ又は複数の特性を求めるようにさらに構成され、前記1つ又は複数の特性が、所望する画像のさまざまなグラフ表現(204'〜210c')間の少なくとも相対位置を定めていることを特徴とする、請求項6〜8のいずれか一項に記載の画像管理システム(100)。
【請求項10】
対象物を含む複数の画像の画像データにアクセスすること(304)と、
前記対象物のグラフ表現(204’〜210c’)を生成すること(320)と、
前記グラフ表現(204’〜210c’)の重心及びサイズを求めること(322)と、
前記複数の画像のそれぞれの前記重心の位置を求めること(324)と、
前記重心の図示された位置に基づいて前記グラフ表現(204’〜210c’)の形態を求めること(328)と、
前記グラフ表現(204’〜210c’)の前記重心の前記位置、前記サイズ、前記色、及び前記形態に、人間が読解可能な語彙表現を前記複数の画像のそれぞれに割り当てること(332)と、
前記割り当てられた人間が読解可能な語彙表現を、人間が読解可能な語彙を含む検索クエリによって検索可能なデータベース(120)内に記憶すること(308)と、
を実行させるプログラムを記録し、
前記グラフ表現(204’〜210c’)の前記形態は、前記グラフ表現(204’〜210c’)間の相互の物理的関係を含むことを特徴とする、画像管理の方法(300)を実施するコンピュータ可読記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate


【公表番号】特表2010−507171(P2010−507171A)
【公表日】平成22年3月4日(2010.3.4)
【国際特許分類】
【出願番号】特願2009−533369(P2009−533369)
【出願日】平成19年10月17日(2007.10.17)
【国際出願番号】PCT/US2007/022226
【国際公開番号】WO2008/048664
【国際公開日】平成20年4月24日(2008.4.24)
【出願人】(503003854)ヒューレット−パッカード デベロップメント カンパニー エル.ピー. (1,145)
【Fターム(参考)】