説明

画像認識装置

【課題】 適切な画像認識を行なう画像認識装置を提供する。
【解決手段】 複数の対象画像データ毎に、画像特徴量、キーワード、位置情報、キーワードが付与された物体が特定場所に固有のものである度合を示す位置情報関連度を関連付け、データベースとして記憶する記憶手段と、画像データを取得画像データとして入力し、位置情報を抽出する画像データ入力手段と、取得画像データの画像特徴量を抽出する画像特徴量抽出手段と、データベースの位置情報関連度と、取得画像データの位置情報および対象画像データの位置情報から求めた撮影位置の隔たりとを用いて、対象画像データを処理対象から除外するか否かを判断する除外判断手段と、処理対象にする場合、取得画像データの画像特徴量と対象画像データの画像特徴量とを比較し条件を満たすキーワードをデータベースから抽出するキーワード抽出手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データの内容を認識する技術に関する。
【背景技術】
【0002】
従来から、テキスト形式のキーワードを入力してWebページを検索するシステムが広く実用化されている。かかるシステムでは、適切なキーワードを入力することで、所望のWebページを検索することができる。こうしたキーワードによる検索手法に対して、任意の画像から種々の情報を検索する技術がある。例えば、下記特許文献1には、撮影画像の情報とその画像の撮影場所名とを関連付けて記憶したデータベースを用意し、任意の画像データを入力すると、データベースから類似画像データを検索し、検索された類似画像データに関連付けられた撮影場所名を抽出する技術が開示されている。
【0003】
【特許文献1】特開2002−373168号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、かかるデータベースを用いた技術では、画像データの撮影場所名の情報は抽出できるものの、撮影場所名以外の情報、例えば、被写体の名称などについては取得することができなかった。そのため、画像データの内容を表わす適切なキーワードを抽出して、画像認識を行なうことが困難であった。
【0005】
本発明は、適切な画像認識が難しいといった問題を踏まえ、適切な画像認識を行なう画像認識装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の画像認識装置は、上記課題に鑑み、以下の手法を採った。すなわち、撮影位置の情報を備えた一の画像データの画像内容を表わすキーワードを、所定の検索対象から抽出する処理を実行し、画像内容を認識する画像認識装置であって、前記検索対象となる複数の対象画像データ毎に、画像特徴量と、画像内容を表わすキーワードと、該画像特徴量を備えた画像が撮影される位置情報と、該キーワードが付与された物体が特定場所に固有のものである度合を示す位置情報関連度とを関連付けし、データベースとして記憶する記憶手段と、前記一の画像データを取得画像データとして入力し、該取得画像データが撮影される位置情報を抽出する画像データ入力手段と、前記取得画像データに備わった画像特徴量を抽出する画像特徴量抽出手段と、前記データベースに記憶された前記対象画像データの位置情報関連度と、前記取得画像データの位置情報および該対象画像データの位置情報から求めた撮影位置の隔たりとを用いて、当該対象画像データを前記キーワードの抽出処理の処理対象から除外するか否かを判断する除外判断手段と、前記処理対象にすると判断した場合に、前記取得画像データの画像特徴量と前記対象画像データの画像特徴量とを比較して、所定条件を満たす該対象画像データのキーワードを、前記データベースから抽出するキーワード抽出手段とを備えたことを要旨としている。
【0007】
また、本発明の第1の画像認識装置に対応する画像認識方法は、撮影位置の情報を備えた一の画像データの画像内容を表わすキーワードを、所定の検索対象から抽出する処理を実行し、画像内容を認識する画像認識方法であって、前記検索対象となる複数の対象画像データ毎に、画像特徴量と、画像内容を表わすキーワードと、該画像特徴量を備えた画像が撮影される位置情報と、該キーワードが付与された物体が特定場所に固有のものである度合を示す位置情報関連度とを関連付けして、データベースとして記憶し、前記一の画像データを取得画像データとして入力し、該取得画像データが撮影される位置情報を抽出し、前記取得画像データに備わった画像特徴量を抽出し、前記データベースに記憶された前記対象画像データの位置情報関連度と、前記取得画像データの位置情報および該対象画像データの位置情報から求めた撮影位置の隔たりとを用いて、当該対象画像データを前記キーワードの抽出処理の処理対象から除外するか否かを判断し、前記処理対象にすると判断した場合に、前記取得画像データの画像特徴量と前記対象画像データの画像特徴量とを比較して、所定条件を満たす該対象画像データのキーワードを、前記データベースから抽出することを要旨としている。
【0008】
本発明の第1の画像認識装置およびその画像認識方法によれば、画像特徴量、画像内容を表わすキーワード、位置情報、位置情報関連度を、対象画像データ毎に関連付けして記憶したデータベースを用意し、そのデータベースを検索して、一の取得画像データの画像特徴量から取得画像データの画像内容を示すキーワードを抽出する。したがって、取得画像データの画像内容を表わす適切なキーワードをデータベースから抽出することができる。
【0009】
また、キーワード抽出の際、位置情報関連度と撮影位置の隔たりとを用いて、対象画像データをキーワードの抽出処理の処理対象から除外するか否かを判断する。つまり、データベースの検索対象を絞り込む。したがって、検索対象を減らし、迅速な処理を行なうことができる。
【0010】
上記の構成を有する画像認識装置の位置情報関連度は、A)前記対象画像データ内のキーワードが付与された物体が、特定場所に固有のものであるタイプAと、B)前記対象画像データ内のキーワードが付与された物体が、特定場所に存在する程度が高く、かつ、存在する場所が限られるものであるタイプBと、C)前記対象画像データ内のキーワードが付与された物体が、特定場所に固有のものではないタイプCとの3つのタイプに応じて分類して設定され、前記除外判断手段は、前記対象画像データの位置情報関連度が前記タイプAであり、かつ、前記撮影位置の隔たりが所定量以上である場合に、当該対象画像データを前記処理対象から除外すると判断するものとしても良い。
【0011】
かかる画像認識装置によれば、データベースを検索する際に、位置情報関連度がタイプAであり、撮影位置の隔たりが所定量以上である対象画像データを処理対象から除外する。こうした対象画像データは、特定場所に固有のものであるため、撮影場所が近いと判断されない限り、取得画像データの画像内容がこの対象画像データの画像内容と同一もしくは類似するものである可能性は著しく低い。こうした対象画像データを処理対象から除外することで、迅速な処理を行なうことができると共に、適切なキーワードを抽出できる精度(認識精度)を向上することができる。
【0012】
上記の構成を有する画像認識装置において、更に、前記記憶手段は、前記対象画像データ内のキーワードが付与された物体を撮影することができる地理的な範囲を示す領域レンジを、該対象画像データ毎に関連付けし、前記データベースとして記憶しており、前記除外判断手段は、前記取得画像データの位置情報が、前記データベースに記憶された前記対象画像データの領域レンジ内に入らない場合に、前記撮影位置の隔たりが所定以上であると判断するものとしても良い。
【0013】
かかる画像認識装置によれば、データベースに領域レンジを備え、その領域レンジを基準に撮影位置が離れているか否かを判断する。したがって、判断を容易に行なうことができる。
【0014】
上記の構成を有する画像認識装置のキーワード抽出手段は、前記取得画像データの画像特徴量と前記対象画像データの画像特徴量とから、該取得画像データと該対象画像データとの類似または非類似の程度を示す信頼性係数を算出する信頼性係数算出部と、前記算出された信頼性係数に基づいて前記対象画像データのキーワードを抽出する抽出部とからなるものとしても良い。
【0015】
かかる画像認識装置によれば、対象画像データ毎の信頼性係数を比較することで、キーワードの抽出を容易なものとすることができる。
【0016】
上記の構成を有する画像認識装置において、更に、前記キーワード抽出手段は、前記画像特徴量を用いて算出された信頼性係数に、前記位置情報関連度を加味して該信頼性係数の補正を行なう補正部を備え、前記抽出部は、前記補正された信頼性係数に基づいて前記キーワードを抽出するものとしても良い。
【0017】
かかる画像認識装置によれば、補正された信頼性係数は、画像特徴量と位置情報関連度とを考慮した係数となり、この信頼性係数に基づいてキーワードを抽出する。複数の情報を基準に、取得画像データと対象画像データとの類似具合を判断するため、適切なキーワードの抽出を容易なものとすることができる。
【0018】
上記の構成を有する画像認識装置の抽出部は、前記検索対象となる対象画像データ毎に求めた補正後の信頼性係数の中、該信頼性係数の最も高い該対象画像データのキーワードを抽出するものとしても良い。
【0019】
かかる画像認識装置によれば、補正した信頼性係数を比較することにより、データベースの検索対象の中から最も適切と判断される一のキーワードを抽出することができる。
【0020】
本発明の第2の画像認識装置は、検索対象となる複数の対象画像データ毎に、画像特徴量と、画像内容を表わすキーワードと、該画像特徴量を備えた画像が撮影される位置情報と、該キーワードが付与された物体が特定場所に固有のものである度合を示す位置情報関連度とを関連付けて記憶したデータベースを利用して、撮影位置の位置情報を備えた一の画像データの画像内容を表わすキーワードを、当該データベースから抽出する処理を実行し、画像内容を認識する画像認識装置であって、前記一の画像データを取得画像データとして入力し、該取得画像データが撮影される位置情報を抽出する画像データ入力手段と、前記取得画像データに備わった画像特徴量を抽出する画像特徴量抽出手段と、前記データベースに記憶された前記対象画像データの位置情報関連度と、前記取得画像データの位置情報および該対象画像データの位置情報から求めた撮影位置の隔たりとを用いて、当該対象画像データを前記キーワードの抽出処理の処理対象から除外するか否かを判断する除外判断手段と、前記処理対象にすると判断した場合に、前記取得画像データの画像特徴量と前記対象画像データの画像特徴量とを比較して、所定条件を満たす該対象画像データのキーワードを、前記データベースから抽出するキーワード抽出手段とを備えたことを要旨としている。
【0021】
本発明の第2の画像認識装置によれば、予め用意したデータベースを用いて、一の取得画像データの画像特徴量から取得画像データの画像内容を示すキーワードを抽出する際、位置情報関連度と撮影位置の隔たりとを用いて、対象画像データをキーワードの抽出処理の処理対象から除外するか否かを判断する。したがって、検索対象を減らし、迅速な処理を行なうことができる。
【0022】
本発明は、コンピュータプログラムおよびコンピュータプログラムを記録した媒体としても実装することができる。記録媒体としては、フレキシブルディスク,CD−ROM,DVD−ROM/RAM,光磁気ディスク、メモリカード、ハードディスクなどコンピュータが読取り可能な種々の媒体を利用することができる。
【発明を実施するための最良の形態】
【0023】
以下、本発明の実施の形態について、実施例に基づき以下の順序で説明する。
A.画像認識システム:
B.データベースの構築:
C.画像認識装置の構造:
D.画像認識処理:
E.変形例:
【0024】
A.画像認識システム:
図1は、本発明の一実施例としての画像認識装置を含む画像認識システムを示す説明図である。この画像認識システム100は、主に、複数の撮影画像に関する情報を備えるデータベース20,データベース20を構築するデータベース作成装置10,構築されたデータベース20を利用する画像認識装置15などから構成されている。
【0025】
データベース作成装置10は、キーワード設定部11,領域レンジ設定部12,位置情報関連度設定部13,画像特徴量抽出装置14などを備え、通信線を介してデータベース20と接続している。データベース作成装置10は、デジタルスチルカメラなどの撮像機器で撮影された複数の画像データを入力し、画像データの被写体等を表わすキーワードなど、画像データ毎に対応する種々の情報を作成する。
【0026】
本実施例で対象となる画像データには、画像データを撮影した撮影場所の地理的な位置情報を備えている。この位置情報は、無線通信の一態様であるGPS(Global Positioning Systems)方式の通信を用いた経度、緯度の情報(GPS情報と呼ぶ)である。データベース作成装置10は、画像データのGPS情報を抽出して、画像データの情報の一部としている。なお、取り扱う画像データの位置情報は、GPS情報によるものに限らず、携帯電話の基地局の情報など、他の位置情報であっても良い。
【0027】
キーワード設定部11は、画像データの画像内容(被写体)を撮影した撮影場所の地名や、被写体の名称等をテキストで表わし、これをキーワードとして画像データに関連付けて設定する。領域レンジ設定部12は、画像データ内の被写体を撮影することが可能な領域を経緯度の数値で設定し、これを領域レンジRとして画像データに関連付けて設定する。位置情報関連度設定部13は、キーワードを付された画像データ内の被写体と、GPS情報との関連性を評価して数値化し、これを位置情報関連度PRとして画像データに関連付けて設定する。画像特徴量抽出装置14は、各画像データを入力し、所定の画像処理により画像データの画像特徴量を抽出する。
【0028】
こうして各画像データに関連付けして設定されたGPS情報,キーワード,領域レンジR,位置情報関連度PR,画像特徴量などの画像データに関する種々の情報は、データベース20に出力される。なお、画像データに関する情報の内、キーワード,領域レンジR,位置情報関連度PRについては、ユーザが各画像データの内容を確認して設定している。
【0029】
データベース20は、所定容量の記憶領域を備えており、データベース作成装置10から入力した上記の画像データに関する情報を記憶している。本実施例のデータベース20では、各画像データと画像データに関する情報との関連付けはなされているが、画像データ自体は記憶されていない。つまり、このデータベース20は、画像データに関する種々の情報である特徴量のみを記憶したデータベースである。こうすることで、データ量を減らし、記憶容量を削減している。こうした構成のデータベース20は、通信線を介して画像認識装置15と接続されている。
【0030】
画像認識装置15は、画像特徴量抽出装置16,識別器17,信頼性係数補正器18などを備え、任意の画像データを入力し、データベース20から、この任意の画像データに適したキーワードを抽出する。すなわち、画像認識装置15は、データベース20を辞書として用いて、任意の画像データの内容に対応するキーワードを抽出することから、任意の画像データの内容を認識する装置となる。
【0031】
この画像認識装置15内の画像特徴量抽出装置16は、データベース作成装置10の画像特徴量抽出装置14と同様、入力した任意の画像データの画像特徴量を抽出する。画像特徴量抽出装置16は、識別器17と接続しており、抽出された画像特徴量は識別器17に出力される。
【0032】
識別器17は、画像特徴量抽出装置16から画像特徴量を入力すると共に、入力した任意の画像データが備えるGPS情報を抽出し、これらに基づきデータベース20から所定条件を満たす画像特徴量,キーワードを取得する。識別器17は、入力した任意の画像データの画像特徴量と、データベース20から取得した画像特徴量とを比較し、両者の画像特徴量の類似具合を係数で表わす信頼性係数TCを算出する。識別器17は、信頼性係数補正器18とも接続しており、算出した信頼性係数TCと、データベース20から取得したキーワードを、信頼性係数補正器18へ出力する。
【0033】
信頼性係数補正器18は、識別器17からのキーワード,信頼性係数TCと共に、識別器17で画像特徴量,キーワードを取得した画像データに対応する位置情報関連度PRも入力する。信頼性係数補正器18は、識別器17から入力した信頼性係数TCを位置情報関連度PRに基づいて補正し、補正した信頼性係数TC1に基づいて所定条件を満たすキーワードを、外部の機器(例えば、ディスプレイなどの表示装置)に出力する。
【0034】
以上の構成の画像認識システム100において、画像認識装置15は、任意の画像データを入力すると、データベース20を利用(検索)して自動的に所定のキーワード等を抽出する。抽出されたキーワードは、上記の通り、画像データ内の被写体の名称や、撮影場所名など、画像データの内容に適合すると認定されたものである。
【0035】
抽出されたキーワードは、例えば、入力された画像データと関連付けて記憶され、後日の画像データの検索やキーワード毎の分類など、画像データの管理に利用することができる。
【0036】
以下、画像認識装置15の具体的態様の説明に先立って、まず、データベース20の構築について説明する。なお、以下の説明では、上記のデータベース作成装置10および画像認識装置15における各処理を、ソフトウェアプログラムで実現し、その処理プログラムをインストールしたコンピュータにより画像認識システム100を構成するものとする。
【0037】
B.データベースの構築:
図2は、データベース20の構築処理の流れを示すフローチャートである。この処理は、処理プログラムをインストールしたデータベース作成装置10としてのコンピュータ(図示なし)により実行される処理である。このコンピュータは、CPU,ROM,RAM,ハードディスク等を備え、キーボード,ディスプレイ等と接続された一般的な計算機であり、複数の撮影画像を備えたデジタルスチルカメラと接続されている。キーボードを介したユーザ指示により、データベース20の構築処理は実行される。
【0038】
処理を開始すると、CPUは、デジタルスチルカメラ内の所定の画像データを入力し、画像データに対するキーワードの設定処理を実行する(ステップS200)。具体的には、入力した画像データをディスプレイ上に表示し、ユーザがキーボードを介して入力した画像内容を表わすキーワードを受け付け、これを画像データと関連付けて、ハードディスク内に記憶している。
【0039】
キーワードの設定に続き、CPUは、入力した画像データの画像特徴量を抽出する処理を行なう(ステップS210)。本実施例では、MPEG−7において採用されている色配置(Color Layout)の手法を用いて画像特徴量を抽出している。具体的には、画像データの輝度色差信号をYCbCrの情報に変換したものである。CPUは、抽出した画像特徴量を、画像データと関連付けて、ハードディスク内に記憶する。なお、画像特徴量の抽出処理は、画像認識装置15においても同様の処理を実行するため、後の画像認識装置15の説明において詳しく説明する。
【0040】
続いて、CPUは、入力した画像データに付帯するGPS情報を抽出する(ステップS220)。そして、CPUは、抽出したGPS情報を、キーワード,画像特徴量と同様、画像データと関連付けてハードディスク内に記憶している。なお、画像データに対するGPS情報が無いような場合には、ユーザがキーボードを介して入力する。
【0041】
GPS情報の抽出後、CPUは領域レンジRを設定する処理を行なう(ステップS230)。領域レンジRは、上述のように、画像データ内の被写体を撮影することが可能な領域を経緯度で表わしたものである。具体的には、図3に示すように、GPS情報による経緯度を中心に、画像データ内の被写体を撮影することができる概略の領域を設定する。例えば、GPS情報による経度、緯度が(X,Y)であり、被写体が「東京タワー」である場合に、「東京タワー」を撮影することができる範囲として(X±R,Y±R)で表現される領域を設定する。この場合のRが領域レンジRとして設定される。CPUは、ユーザが画像データ毎にキーボードを介して入力した領域レンジRを受け付け、画像データと関連付けて、ハードディスク内に記憶する。
【0042】
続いて、CPUは、入力した画像データの位置情報関連度PRを設定する処理を行なう(ステップS240)。上述のように、位置情報関連度PRは、キーワードを付された画像データ内の被写体と、GPS情報との関連性を評価したものである。本実施例では、所定のキーワードが付され、ディスプレイ上に表示された画像データの被写体が、特定の場所に存在する程度の高低を数値によって表わしている。CPUは、ユーザが入力した位置情報関連度PRを画像データと関連付けて、ハードディスク内に記憶する。
【0043】
位置情報関連度PRの設定に際しては、キーワードを付した画像データ内の被写体から、画像データのタイプを大きく3つ(タイプA〜C)に分類する。タイプAは、キーワードを備えた被写体が「その場所固有の対象物を示している」場合であり、タイプCは、「その場所固有の対象物ではない」場合であり、タイプBは、タイプAからタイプCの中間に相当する場合である。
【0044】
タイプAに分類される画像データには、0.9≦PR≦1.0の範囲の位置情報関連度PRが設定される。例えば、画像データ内の被写体が「東京タワー」であり、キーワードとして「東京タワー」が設定されている場合、「東京タワー」は「その場所固有の対象物である」ため、高い値(例えば、PR=0.95)の位置情報関連度PRが設定される。
【0045】
タイプCに分類される画像データには、PR=0の位置情報関連度PRが設定される。例えば、画像データ内の被写体が「ネコ」であり、キーワードとして「ネコ」が設定されている場合、「ネコ」は「場所に固有の対象物ではない」ため、低い値の位置情報関連度PR(PR=0)が設定される。
【0046】
タイプBに分類される画像データには、0<PR<0.9の範囲の位置情報関連度PRが設定される。例えば、画像データ内の被写体が「奈良公園」の「シカ」であり、キーワードとして「シカ」が設定されている場合、「シカ」は場所に固有の対象物ではないが、「奈良公園」など、ある程度特定の場所に限られるため、所定の値(例えば、PR=0.7)の位置情報関連度PRが設定される。こうした対象としては、「飛行場」の「飛行機」,「港」の「船舶」,「動物園」の「パンダ」,「山岳公園」の「高山植物」など、場所に固有ではないものの、設備や生息域といった有効な一定の広がりをもっているものが該当する。
【0047】
こうしてキーワード,画像特徴量,GPS情報,領域レンジR,位置情報関連度PRを設定し、一連のデータベース20の構築処理を終了する。その結果、ハードディスクには図4に示す画像データに関する種々の情報が蓄積される。
【0048】
例えば、図4に示すように、画像データの内容(被写体)が東京タワーであるような場合には、位置情報関連度PRとしてPR=0.95(タイプA),GPS情報として撮影場所の経度、緯度,領域レンジRとしてR=0.012,画像特徴量としてのYCbCrの情報もしくはこれを処理した情報,キーワードとして「東京タワー」「芝公園」などが設定され、ハードディスクに蓄積される。つまり、こうした情報を記憶したハードディスクが、データベース20となる。以上の処理を経て、構築されたデータベース20を辞書として利用し、画像認識装置15は、任意の画像データの内容を認識する。
【0049】
C.画像認識装置の構造:
図5は、本発明の画像認識処理のプログラムをソフトウェアとして備えた画像認識装置15の概略構造図である。図示するように、画像認識装置15は、処理対象となる所定の画像を撮影し、その画像データを記憶したデジタルスチルカメラ27、デジタルスチルカメラ27に記憶された画像データを入力して所定の処理を施すコンピュータ30(以下、PC30と記す)、PC30により処理される画像の表示等を行なうディスプレイ40、ユーザインターフェースとしてのキーボード41やマウス42等から構成されている。
【0050】
デジタルスチルカメラ27は、撮像センサとしてのCCD,CCDを介して取り込んだ画像データに所定の画像処理を施す画像処理回路,画像データを記憶するメモリカード24などを備えると共に、GPSを用いてデジタルスチルカメラ27の地理的な位置情報を記憶するGPS機能を備えている。この機能により、画像データにはGPS情報が付加されている。
【0051】
一般に、デジタルスチルカメラで取扱う画像のデータ構造は、いわゆるExif形式であり、JPEG形式の画像データを基本に、画像データを撮影した際の撮影情報、サムネイル画像など、所定の画像付加情報を、Exif規約に準拠した形式で埋め込んで構成されている。画像付加情報としては、撮影日時,撮影時の露出時間,絞り値,シャッタースピード,ISO感度,ホワイトバランスなど種々の情報が記憶されている。本実施例では、これらに加え、画像付加情報の一つとして、GPS情報が含まれている。なお、GPS情報は、Exif規約でユーザの使用量域として設定されているメーカーノートに書き込むものとしても良い。
【0052】
なお、取扱う画像データは、位置情報が付与されているものであれば、デジタルスチルカメラ27からの取得に代えて、デジタルビデオカメラ21,カメラ付きの携帯電話23,メモリカード24,ハードディスク25など、撮像機器や記録媒体からの取得であっても良い。
【0053】
PC30は、内部にCPU31,ROM32,RAM33,ハードディスク34,I/F回路部35等を有し、各機器はそれぞれ内部バスにより接続されている。I/F回路部35は、デジタルスチルカメラ27,ディスプレイ40,キーボード41,マウス42と接続しており、こうした外部の機器とPC30とのインターフェイスとして機能している。
【0054】
ROM32内には、所定のオペレーションシステムが記憶されており、PC30の電源投入と共に、CPU31はROM32内のオペレーションシステムOSを読み込み、起動する。
【0055】
ハードディスク34には、オペレーションシステムOS上で動作する種々のアプリケーションプログラムがインストールされている。本実施例では、アプリケーションプログラムの一つとして、画像認識処理プログラムがインストールされている。CPU31は、キーボード41やマウス42を介したユーザ操作の指示を受け、このプログラムを読み出し、RAM33上に展開して実行する。
【0056】
D.画像認識処理:
図6は、画像認識処理のフローチャートである。この処理は、任意の画像データの内容に対応したキーワードを抽出する処理、換言すると、入力した任意の画像データの内容を認識する処理であり、キーボードを介したユーザ指示により実行される。
【0057】
処理を開始すると、CPU31は、一の画像データを取得する(ステップS600)。具体的には、処理の開始と同時に、ディスプレイ上に表示されたデジタルスチルカメラ27内の画像の中からユーザが指定する任意の一枚に対応する画像データを取得している。
【0058】
一の画像データを取得したCPU31は、その画像データに付帯する位置情報(GPS情報)を抽出する(ステップS605)。抽出されるGPS情報は、一の画像を撮影した撮影場所の経度、緯度の情報である。
【0059】
続いて、CPU31は、一の画像データの画像特徴量を抽出する(ステップS610)。本実施例では、上述のように、色配置の手法を用いて画像特徴量を抽出する。具体的には、CPU31は、画像データを8×8の小ブロックに分割し、各小ブロックを構成する画素データの値(R、G、B)の平均値(Rave、Gave、Bave)を各小ブロックの代表値(Rrep、Grep、Brep)として用いる。CPU31は求めた代表値を用いて8×8の画素データから構成される縮小画素データを作成する。CPU31は、作成した縮小画像データ(RGBデータ)をYCbCrデータに変換し、更に、Y、Cb、Crの各成分について離散コサイン変換(DCT)を行う。DCTによって、画像データは周波数成分に変換される。なお、離散コサイン変換は当業者において周知な変換処理であるから詳細な説明は省略する。
【0060】
例えば、図7に示すように、Y、Cb、Crの各成分について8×8の係数値が算出される。すなわち、
Yc[8][8]={yc00, yc01, yc02...yc76,yc77}
Cbc[8][8]={cbc00, cbc01, cbc02...cbc76,cbc77}
Crc[8][8]={crc00, crc01, crc02...crc76,crc77}
となり、画像データ(画像)との位置関係は、例えば図7に示すとおりとなる。図7に示すように、係数値が大きくなるにつれて周波数は高くなる。
【0061】
なお、画像特徴量の取得としては、R、G、B各成分のヒストグラムを用いる手法、最大・最小輝度値および平均輝度値を用いる手法など、周知の種々の手法を用いるものとしても良い。この場合、データベース20側も同様の手法により、画像特徴量を抽出しておけば良い。
【0062】
続いて、CPU31は、信頼性係数の基準値の初期化を行なう(ステップS620)。信頼性係数TC1は、上述のとおり、画像データの画像特徴量の類似具合を表わす指標であり、後述する処理ステップにおいて算出されるが、ここでは、まず、算出される信頼性係数TC1を評価する基準値TCmaxをゼロに設定して初期化している。
【0063】
CPU31は、データベース20から一の対象を選択する(ステップS630)。上述のように、データベース20は、位置情報関連度PR,GPS情報,領域レンジR,画像特徴量,キーワードなどの種々の情報を一まとまり(情報群)として一の画像データに関連付け、複数の情報群を記憶している。このステップは、データベース20内の複数の情報群から一の情報群を選択する処理であり、間接的に一の情報群に関連付けられた画像データを選択する処理であると言える。よって、このステップでは、一の画像データが選択されるものとし、以下、選択された画像データを、ステップS600で取得した一の画像データと区別するため、「データベース画像」と呼ぶこととする。
【0064】
データベース画像を選択したCPU31は、データベース20内の全てのデータベース画像が選択されたか否かを判断する(ステップS635)。CPU31は、選択されたデータベース画像について後述する処理を実行するとフラグを立てており、そのフラグを確認することで、選択され、処理済みか否かを判断している。
【0065】
ステップS635で、全てのデータベース画像について選択されたと判断した(Yes)場合には、データベース20内の検索は終了したものとして、一連の画像認識処理を終了する。
【0066】
他方、ステップS635で、全てのデータベース画像は選択されていないと判断した(No)場合には、選択されたデータベース画像の位置情報関連度PRを抽出し、位置情報関連度PRがどのタイプ(A〜C)に属するかを判断する(ステップS645)。
【0067】
ステップS645で、位置情報関連度PRが、タイプBまたはタイプCに該当する場合(PRが0.9よりも小さい場合)には、ステップS660へ移行する。すなわち、位置情報関連度PRがそれほど高くない(タイプAのように、その場所固有の対象物である可能性が高くない)データベース画像については、取得した一の画像データのキーワードを抽出するための検索対象とする。
【0068】
他方、ステップS645で、位置情報関連度PRが、タイプAに該当する場合(PRが0.9以上の場合)には、選択されたデータベース画像のGPS情報および領域レンジRを抽出する。そして、既に抽出してある(ステップS605)一の画像データのGPS情報による撮影場所の経度、緯度が、データベース画像の領域レンジRを加味した経度,緯度の範囲内であるか否かを判断する(ステップS655)。
【0069】
ステップS655で、データベース画像の経度,緯度の範囲内に納まらないと判断した(No)場合には、現在選択されているデータベース画像に対して処理済みのフラグを立てて、ステップS630へ戻り、データベース20から次のデータベース画像を選択する。
【0070】
つまり、タイプAに分類されたデータベース画像には、その場所固有の対象物である被写体が写っていることとなるため、このデータベース画像と任意の画像データとがほぼ同じ内容であると判断するためには、両者の撮影場所が近いことが条件となる。
【0071】
データベース画像の経度、緯度を中心とする領域レンジRを加味した範囲内(図3参照)に、一の画像データの撮影場所の経度,緯度が納まらないような場合には、そのデータベース画像のキーワードを抽出しても、一の画像データの画像内容を適切に表現したものとはならない。したがって、タイプAであって、経度、緯度の位置情報が条件を満たさないデータベース画像に対しては、これを検索対象から除外する処理を行なっている。
【0072】
他方、ステップS655で、データベース画像の経度,緯度の範囲内に納まると判断した(Yes)場合には、ステップS660へ移行する。すなわち、タイプAであって、経度、緯度の位置情報が条件を満たす(撮影場所が近い)データベース画像についてのみ、検索対象としている。
【0073】
タイプB,Cであるデータベース画像、または、タイプAであって位置情報が条件を満たすデータベース画像を検索対象としたCPU31は、データベース画像の画像特徴量を抽出し、これと、ステップS610で既に抽出してある画像データの画像特徴量とから、両画像の画像特徴量の距離Dを算出する(ステップS660)。
【0074】
画像特徴量の距離Dは、両画像の類似度あるいは非類似度を表わし、例えば、ユークリッド距離を用いる場合には、以下の式によって算出される。
【0075】
【数1】

【0076】
なお、Ycp,Cbcp,Crcpはデータベース画像の画像特徴量(係数)を、Ycq,Cbcq,Crcqは画像データの画像特徴量(係数)をそれぞれ示し、本実施例では、MPEG−7に採用される画像特徴量を用いているため、変数i,jは、共に0〜7(n=7)の値を採る。
【0077】
距離Dを算出したCPU31は、信頼性係数TCを算出する(ステップS670)。信頼性係数TCは、データベース画像の画像特徴量と画像データの画像特徴量との差、つまり、上記の距離Dに応じて決定される係数であり、両者の画像特徴量が近い(距離Dが小さい)ほど、信頼性が高いとして、係数は大きな値となる。具体的には、次式により算出される。
【0078】
【数2】

【0079】
なお、Drefは、距離Dに対する一つの基準値であり、両者の画像データをほぼ同じもの(類似度が高い)であると判断できる基準値として、予め設定されている。すなわち、この式において、距離DがDref以下であり、信頼性係数TCが1を超えるような場合には、両者の画像データはほぼ同じものであると判断する。したがって、信頼性係数TCが1を超える場合には信頼性係数TC=1として設定し、信頼性係数TCの取り得る範囲を0≦TC≦1.0としている。
【0080】
続いて、CPU31は、算出した信頼性係数TCの補正を行なう(ステップS680)。具体的には、位置情報関連度PRを用いて、次式により補正を行なう。
【0081】
【数3】

【0082】
この補正は、位置関連情報度PRが大きな値である場合には、上記ステップで算出された信頼性係数TCを、より一層大きな値の信頼性係数TC1に修正し、信頼性が高い(一の画像データの画像内容を表わす適切なキーワードが付されたデータベース画像である)ことを示すものである。つまり、両者のGPS情報に基づく位置情報が近く、かつ、タイプAあるいはタイプBのデータベース画像であるような場合には、位置情報関連度PRが比較的大きな値となり、信頼性係数TC1も大きな値(1に近い値)となる。
【0083】
なお、この信頼性係数TC1を算出する対象となるデータベース画像は、上記のステップS645,S655より、タイプB,C、または、タイプAであって位置情報が条件を満たす場合である。したがって、位置情報関連度PRが高いタイプAであっても、GPS情報に基づく位置情報から近い場所で撮影されていないと判断されたデータベース画像は、処理対象とならないため、そのまま位置情報関連度PRを用いた補正をしても何ら問題は生じない。
【0084】
また、データベース画像がタイプCである場合も、位置情報関連度PRがゼロで新たな信頼性係数TC1は元の信頼性係数TCのままであるため、補正上の問題はない。こうした補正を行なうことで、画像データ自体の画像特徴量の類似度は高いものの、異なる場所で撮影された全く別々の被写体である場合にも適切な信頼性係数TC1を算出することができる。
【0085】
続いて、CPU31は、補正した信頼性係数TC1が、現在設定されている信頼性係数の基準値TCmaxよりも大きいか否かを判断する(ステップS685)。
【0086】
ステップS685で、信頼性係数TC1が基準値TCmaxよりも大きいと判断された(Yes)場合には、基準値TCmaxを信頼性係数TC1に置き換えると共に、現在の処理対象のデータベース画像のキーワードを、抽出キーワードとして一時的に記憶し(ステップS690)、ステップS630に戻って、次のデータベース画像について一連の処理を繰り返す。なお、抽出キーワードは、信頼性係数の基準値TCmaxを置き換える毎に、新たな処理対処のデータベース画像のキーワードに書き換えられる。
【0087】
他方、ステップS685で、信頼性係数TC1が基準値TCmax以下であると判断された(No)場合には、キーワードを記憶することなく、ステップS630に戻って、次のデータベース画像について一連の処理を繰り返す。なお、ステップS685,S690の処理によりステップS630へ戻る前に、CPU31は、処理対象のデータベース画像に対して処理済のフラグを立てている。
【0088】
こうして一連の処理を繰り返し、データベース20内のデータベース画像の全てについて処理した後、ステップS635からENDに抜けて、画像認識処理を終了する。この際、CPU31は、一時的に記憶された抽出キーワードをディスプレイ40上に表示する。
【0089】
以上の画像認識処理によれば、全てのデータベース画像に対して処理を繰り返し、信頼性係数TC1が最も高くなるデータベース画像に対応したキーワードを抽出する。したがって、任意の一の画像データの画像内容を表わす適切なキーワードを抽出することができる。
【0090】
また、本実施例の画像認識処理では、タイプAであって位置情報が所定条件を満たさないデータベース画像を検索対象から除外するなど、位置情報関連度PRに応じて検索対象を絞り込む処理を行なう。すなわち、画像特徴量を用いた類似具合を判断する前に、位置情報関連度PRを加味して、処理対象を減らすことができる。したがって、キーワードの検索速度を向上し、検索時間を短縮することができる。
【0091】
さらには、位置情報関連度PRに応じて検索対象を絞り込むことで、任意の一の画像データの画像内容を表わす適切なキーワードとはなり得ないデータベース画像を除外することができる。したがって、適切なキーワードを抽出する確率が向上し、任意の画像データの画像内容を認識する精度(認識率)を向上させることができる。
【0092】
本実施例の画像認識処理では、データベース画像の画像特徴量に加え、位置情報関連度PRを考慮して補正した信頼性係数TC1を求める。すなわち、画像特徴量のみではなく、撮影された位置も近いと判断されるデータベース画像に対する信頼性を向上する補正を行なう。したがって、補正された信頼性係数TC1を単純に評価することで、適切なキーワードを抽出することができ、画像内容の認識率を向上することができる。
【0093】
本実施例では、データベース画像を構成する画像データを大きく分類する一つの基準として、位置情報関連度PR=0.9を用いたが、PRは0.9に限るものではない。例えば、0.9よりも大きい値を基準とするものとしても良い。
【0094】
こうして画像認識処理により抽出されたキーワードは、画像データ自体(例えば、Exif形式のメーカノート)に付与するものとしても良い。こうすることで、後日の画像データの管理、分類などに有効に利用することができる。また、データベースの構築に利用するものとしても良い。
【0095】
なお、本実施例では、データベース20を画像認識装置15から独立した構成として説明したが、画像認識装置15はデータベース20を含む構成であっても良い。例えば、画像認識装置15として画像認識処理プログラムをインストールしたPC30内のハードディスク34に、図4に示す画像データに関する種々の情報を蓄積することで、ハードディスク34をデータベース20とすれば良い。かかる態様で画像認識装置15を構成しても、迅速かつ、適切なキーワードの抽出を行なうことができる。
【0096】
E.変形例:
本実施例では、画像認識処理により、一のキーワードを抽出するものとして説明したが、複数のキーワードを抽出するものとしても良い。例えば、図6にステップS690で、順次抽出キーワードを書き換える処理に代えて、信頼性係数TC1が上位3番目までに該当する抽出キーワードを記憶し、これらを候補として抽出するものとすれば良い。抽出した複数のキーワードをディスプレイ40上に表示し、ユーザが一を選択するアプリケーションとすることで、任意の画像データに対し、より一層適切なキーワードを抽出することができる。
【0097】
また、本実施例では、データベース20は、位置関連情報PR,GPS情報,領域レンジR,画像特徴量,キーワードなどの情報である特徴量を記憶したものとして説明したが、これらに加えて、画像データ自体を記憶しているものとしても良い。こうすることで、種々の情報と画像データとの関連付けが容易となる。
【0098】
本実施例では、アプリケーション上でユーザが指定した1枚の画像データの処理について説明したが、デジタルスチルカメラからハードディスク上にコピーした全ての画像データについて、順次、画像認識処理を実行する態様であっても良い。こうすることで、画像認識処理におけるユーザ操作の手間を省き、利便性を向上することができる。
【0099】
さらに、本実施例では、コンピュータのハードディスク上にデータベース20を構築するものとしたが、例えば、ネットワーク上のサーバにデータベース20を構築するものとしても良い。この場合、PC30のI/F回路35にネットワークとの接続機能を設ければ良い。こうすることで、大容量のデータベース20を構築することができる。
【0100】
以上、本発明の実施の形態について説明したが、本発明はこうした実施の形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内において様々な形態で実施し得ることは勿論である。本実施例では、画像認識処理はソフトウェアプログラムの態様にて実行されるが、上記の各処理(ステップ)を実行する論理回路を備えたハードウェア回路を用いるものとしても良い。こうすることで、CPU31の負荷を軽減することができると共に、より一層高速に各処理を実行することができる。
【図面の簡単な説明】
【0101】
【図1】一実施例の画像認識装置を含む画像認識システムを示す説明図である。
【図2】データベースの構築処理の流れを示すフローチャートである。
【図3】領域レンジRの説明図である。
【図4】データベースに蓄積される画像データの種々の情報の説明図である。
【図5】画像認識装置の概略構造図である。
【図6】画像認識処理のフローチャートである。
【図7】画像の特徴量の説明図である。
【符号の説明】
【0102】
10...データベース作成装置
11...キーワード設定部
12...領域レンジ設定部
13...位置情報関連度設定部
14...画像特徴量抽出装置
15...画像認識装置
16...画像特徴量抽出装置
17...識別器
18...信頼性係数補正器
20...データベース
21...デジタルビデオカメラ
23...携帯電話
24...メモリカード
25...ハードディスク
27...デジタルスチルカメラ
30...コンピュータ
31...CPU
32...ROM
33...RAM
34...ハードディスク
35...I/F回路部
40...ディスプレイ
41...キーボード
42...マウス
100...画像認識システム
PR...位置情報関連度
R...領域レンジ
TC...信頼性係数
TC1...信頼性係数

【特許請求の範囲】
【請求項1】
撮影位置の情報を備えた一の画像データの画像内容を表わすキーワードを、所定の検索対象から抽出する処理を実行し、画像内容を認識する画像認識装置であって、
前記検索対象となる複数の対象画像データ毎に、画像特徴量と、画像内容を表わすキーワードと、該画像特徴量を備えた画像が撮影される位置情報と、該キーワードが付与された物体が特定場所に固有のものである度合を示す位置情報関連度とを関連付けし、データベースとして記憶する記憶手段と、
前記一の画像データを取得画像データとして入力し、該取得画像データが撮影される位置情報を抽出する画像データ入力手段と、
前記取得画像データに備わった画像特徴量を抽出する画像特徴量抽出手段と、
前記データベースに記憶された前記対象画像データの位置情報関連度と、前記取得画像データの位置情報および該対象画像データの位置情報から求めた撮影位置の隔たりとを用いて、当該対象画像データを前記キーワードの抽出処理の処理対象から除外するか否かを判断する除外判断手段と、
前記処理対象にすると判断した場合に、前記取得画像データの画像特徴量と前記対象画像データの画像特徴量とを比較して、所定条件を満たす該対象画像データのキーワードを、前記データベースから抽出するキーワード抽出手段と
を備えた画像認識装置。
【請求項2】
請求項1に記載の画像認識装置であって、
前記位置情報関連度は、
A)前記対象画像データ内のキーワードが付与された物体が、特定場所に固有のものであるタイプAと、
B)前記対象画像データ内のキーワードが付与された物体が、特定場所に存在する程度が高く、かつ、存在する場所が限られるものであるタイプBと、
C)前記対象画像データ内のキーワードが付与された物体が、特定場所に固有のものではないタイプCとの3つのタイプに応じて分類して設定され、
前記除外判断手段は、前記対象画像データの位置情報関連度が前記タイプAであり、かつ、前記撮影位置の隔たりが所定量以上である場合に、当該対象画像データを前記処理対象から除外すると判断する
画像認識装置。
【請求項3】
請求項2に記載の画像認識装置であって、更に、
前記記憶手段は、前記対象画像データ内のキーワードが付与された物体を撮影することができる地理的な範囲を示す領域レンジを、該対象画像データ毎に関連付けし、前記データベースとして記憶しており、
前記除外判断手段は、前記取得画像データの位置情報が、前記データベースに記憶された前記対象画像データの領域レンジ内に入らない場合に、前記撮影位置の隔たりが所定以上であると判断する
画像認識装置。
【請求項4】
請求項1ないし3のいずれかに記載の画像認識装置であって、
前記キーワード抽出手段は、
前記取得画像データの画像特徴量と前記対象画像データの画像特徴量とから、該取得画像データと該対象画像データとの類似または非類似の程度を示す信頼性係数を算出する信頼性係数算出部と、
前記算出された信頼性係数に基づいて前記対象画像データのキーワードを抽出する抽出部とからなる
画像認識装置。
【請求項5】
請求項4に記載の画像認識装置であって、更に、
前記キーワード抽出手段は、
前記画像特徴量を用いて算出された信頼性係数に、前記位置情報関連度を加味して該信頼性係数の補正を行なう補正部を備え、
前記抽出部は、前記補正された信頼性係数に基づいて前記キーワードを抽出する
画像認識装置。
【請求項6】
請求項5に記載の画像認識装置であって、
前記抽出部は、前記検索対象となる対象画像データ毎に求めた補正後の信頼性係数の中、該信頼性係数の最も高い該対象画像データのキーワードを抽出する
画像認識装置。
【請求項7】
検索対象となる複数の対象画像データ毎に、画像特徴量と、画像内容を表わすキーワードと、該画像特徴量を備えた画像が撮影される位置情報と、該キーワードが付与された物体が特定場所に固有のものである度合を示す位置情報関連度とを関連付けて記憶したデータベースを利用して、撮影位置の位置情報を備えた一の画像データの画像内容を表わすキーワードを、当該データベースから抽出する処理を実行し、画像内容を認識する画像認識装置であって、
前記一の画像データを取得画像データとして入力し、該取得画像データが撮影される位置情報を抽出する画像データ入力手段と、
前記取得画像データに備わった画像特徴量を抽出する画像特徴量抽出手段と、
前記データベースに記憶された前記対象画像データの位置情報関連度と、前記取得画像データの位置情報および該対象画像データの位置情報から求めた撮影位置の隔たりとを用いて、当該対象画像データを前記キーワードの抽出処理の処理対象から除外するか否かを判断する除外判断手段と、
前記処理対象にすると判断した場合に、前記取得画像データの画像特徴量と前記対象画像データの画像特徴量とを比較して、所定条件を満たす該対象画像データのキーワードを、前記データベースから抽出するキーワード抽出手段と
を備えた画像認識装置。
【請求項8】
撮影位置の情報を備えた一の画像データの画像内容を表わすキーワードを、所定の検索対象から抽出する処理を実行し、画像内容を認識する画像認識方法であって、
前記検索対象となる複数の対象画像データ毎に、画像特徴量と、画像内容を表わすキーワードと、該画像特徴量を備えた画像が撮影される位置情報と、該キーワードが付与された物体が特定場所に固有のものである度合を示す位置情報関連度とを関連付けして、データベースとして記憶し、
前記一の画像データを取得画像データとして入力し、該取得画像データが撮影される位置情報を抽出し、
前記取得画像データに備わった画像特徴量を抽出し、
前記データベースに記憶された前記対象画像データの位置情報関連度と、前記取得画像データの位置情報および該対象画像データの位置情報から求めた撮影位置の隔たりとを用いて、当該対象画像データを前記キーワードの抽出処理の処理対象から除外するか否かを判断し、
前記処理対象にすると判断した場合に、前記取得画像データの画像特徴量と前記対象画像データの画像特徴量とを比較して、所定条件を満たす該対象画像データのキーワードを、前記データベースから抽出する
画像認識方法。
【請求項9】
撮影位置の情報を備えた一の画像データの画像内容を表わすキーワードを、所定の検索対象から抽出する処理を実行し、画像内容を認識する画像認識装置を制御するコンピュータプログラムであって、
前記検索対象となる複数の対象画像データ毎に、画像特徴量と、画像内容を表わすキーワードと、該画像特徴量を備えた画像が撮影される位置情報と、該キーワードが付与された物体が特定場所に固有のものである度合を示す位置情報関連度とを関連付けして、データベースとして記憶する機能と、
前記一の画像データを取得画像データとして入力し、該取得画像データが撮影される位置情報を抽出する機能と、
前記取得画像データに備わった画像特徴量を抽出する機能と、
前記データベースに記憶された前記対象画像データの位置情報関連度と、前記取得画像データの位置情報および該対象画像データの位置情報から求めた撮影位置の隔たりとを用いて、当該対象画像データを前記キーワードの抽出処理の処理対象から除外するか否かを判断する機能と、
前記処理対象にすると判断した場合に、前記取得画像データの画像特徴量と前記対象画像データの画像特徴量とを比較して、所定条件を満たす該対象画像データのキーワードを、前記データベースから抽出する機能と
を前記画像認識装置に実現させるコンピュータプログラム。
【請求項10】
請求項9に記載のコンピュータプログラムをコンピュータに読み取り可能に記録した記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2007−41762(P2007−41762A)
【公開日】平成19年2月15日(2007.2.15)
【国際特許分類】
【出願番号】特願2005−223924(P2005−223924)
【出願日】平成17年8月2日(2005.8.2)
【出願人】(000002369)セイコーエプソン株式会社 (51,324)
【Fターム(参考)】