説明

オブジェクト認識装置およびその認識方法

【課題】統合する辞書データ中にカテゴリ名称の異なる同一人物画像が存在しても、画像とカテゴリ名称の関連付けを適切に行うことを可能にする技術を提供する。
【解決手段】オブジェクト認識装置は、辞書に含まれる複数のカテゴリの中から第1カテゴリに関連付けられた第1辞書情報を抽出し、当該辞書または他の辞書に含まれる複数のカテゴリの中の第2カテゴリと関連付けられた第2辞書情報を抽出する。そして第1辞書情報および第2辞書情報からそれぞれ第1特徴量および第2特徴量を算出し、算出した第1特徴量と第2特徴量との類似度が所定の閾値より大きいか否かを判定し、第1カテゴリの名称と前記第2カテゴリの名称とを比較して、所定の閾値より大きいと判定され、かつ、第1カテゴリの名称と第2カテゴリの名称とが一致しないと判断された場合に、第1カテゴリの名称および第2カテゴリの名称を統合するか否かの指示を受付ける。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オブジェクト認識により辞書データの統合するオブジェクト認識装置およびその認識方法に関する。
【背景技術】
【0002】
代表的なオブジェクト認識技術の一つは、顔認識技術である。顔認識技術は、画像から所定人物がどこにいるかを検索するものである。デジタルカメラの所定人物に焦点を合わす機能は、この顔認識技術をデジタルカメラに組み込みことにより実現されている。
【0003】
デジタルカメラに搭載される顔認識処理は、予め登録した人物の特徴量と複数の被写体の人物の特徴量とのマッチング処理により実行される。人物の特徴量は、登録したい人物をデジタルカメラで撮影し、撮影した画像を辞書データとしてメモリに記憶することで登録される。さらに、認識したい人物が複数の場合には、それぞれの人物の撮影データを取得し、それらの撮像データをメモリに記録する必要がある。記録する辞書データは、画像データでもよいし、また不可視の特徴量データなどでもよい。
【0004】
最近では、1人当たりでデジタルカメラを1台所有することが普通となり、さらには、1人でデジタルカメラを複数台所持することも将来一般的になることが予想される。前述したように、デジタルカメラの辞書データは、各カメラで固有のものとなっている。そして、辞書データのための撮影作業をできるだけ少なくすること、また顔認識処理を用いた辞書データが各デジタルカメラ間で統合され、それを共有する機能(ベスト辞書データ共有機能)が必要となることが、将来的に予測される。
【0005】
しかしながら、辞書データをカメラ間で共有するには、解決すべき課題がいくつかある。たとえば、その1つは、統合しようとする各デジタルカメラ間の辞書データと撮像機器固有の辞書データとの間に存在する。つまり、各辞書データに同一人物の辞書画像が存在する場合や、異なる人物に同一のカテゴリ名称が与えられている場合に、どの様に各辞書データを統合して共有するかという課題である。
【0006】
特許文献1は、グループ設定情報に基づいて、マスタカメラが撮像した画像を、グループに属するスレーブカメラに画像を無線転送する技術を開示している。ここで、グループ設定情報は、コンパクトフラッシュ(登録商標)といったメモリカードに記録される。また、特許文献2は、歩行照合装置に関し、照合結果がNGと判断された人物が存在した場合に、その人物の顔画像と照合結果に基づき複数の上位候補画像を提示し、管理者が辞書画像として追加登録するかどうかを判断する技術を開示している。従来技術では、このように、撮像画像の統合および辞書画像の追加や提示に関する事項について述べている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2001−333365号公報
【特許文献2】特開2008−250829号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、辞書データを撮像機器間統合する際の統合辞書データの構築方法についてはまだ示されていない。従って、将来必要となる、複数のデジタルカメラを所有するユーザのための辞書データの統合に関する技術に応え、辞書データの撮像機器間統合時に起きる課題、すなわちカテゴリ名称の衝突という課題を解決する必要がある。
【0009】
本発明は、係る課題を解決するため、統合する辞書データ中にカテゴリ名称の異なる同一人物画像が存在しても、カテゴリ名称の関連付けを適切に行うオブジェクト認識装置およびその認識方法を提供する。
【課題を解決するための手段】
【0010】
本発明のオブジェクト認識装置は、オブジェクト認識のための辞書に含まれる複数のカテゴリの中から第1カテゴリに関連付けられた第1辞書情報を抽出し、前記辞書または他の辞書に含まれる複数のカテゴリの中の第2カテゴリと関連付けられた第2辞書情報を抽出する抽出手段と、前記第1辞書情報および前記第2辞書情報からそれぞれ第1特徴量および第2特徴量を算出し、該算出した第1特徴量と第2特徴量との類似度が所定の閾値より大きいか否かを判定する判定手段と、前記第1カテゴリの名称と前記第2カテゴリの名称とを比較する比較手段と、前記判定手段で所定の閾値より大きいと判定され、かつ、前記比較手段で前記第1カテゴリの名称と前記第2カテゴリの名称とが一致しないと判断された場合に、該第1カテゴリの名称および該第2カテゴリの名称を統合するか否かの指示を受付ける受付手段と、前記受付手段が、該第1カテゴリの名称および該第2カテゴリの名称とを統合する名称を受付けた場合に、該第1カテゴリの名称と該第2カテゴリの名称とを該受付けた統合する名称で統合する統合手段とを備えることを特徴とする。
【発明の効果】
【0011】
統合する辞書データ中にカテゴリ名称の異なる同一人物画像が存在しても、カテゴリ名称の関連付けを適切に行うオブジェクト認識装置およびその認識方法を提供することが可能となる。
【図面の簡単な説明】
【0012】
【図1】カテゴリ変更装置の構成を示すブロック図。
【図2】辞書データ統合方法に関する処理フローチャート。
【図3】デジタルカメラまたはデジタルビデオカメラの各部の構成を示す図。
【図4】コンパクトフラッシュメモリが有するデータ構造を示す図。
【図5】辞書データの類似度の算出処理を説明する図。
【図6】カテゴリと画像名を対応づけるテーブルを示す図。
【図7】インタラクティブ処理を示すフローチャート。
【図8】ユーザ確認のための液晶モニタの出力を示す図。
【図9】ユーザ確認のための液晶モニタの出力を示す図。
【図10】ユーザ確認のための液晶モニタの出力を示す図。
【図11】カテゴリ修正処理を示すフローチャート。
【図12】ユーザ入力のための液晶モニタの出力を示す図。
【図13】ユーザ入力のための液晶モニタの出力を示す図。
【図14】ユーザ入力のための液晶モニタの出力を示す図。
【図15】ユーザ確認のための液晶モニタの出力を示す図。
【図16】複数の人物に対する同一人物判定を行うためのフローチャート。
【図17】格辞書データのカテゴリ構成を示す図。
【図18】ユーザ入力のための液晶モニタの出力を示す図。
【図19】ユーザ確認のための液晶モニタの出力を示す図。
【図20】カテゴリ間平均類似度の算出方法を説明するフローチャート。
【図21】登録除外候補画像を取得するためのフローチャート。
【発明を実施するための形態】
【0013】
<実施形態1>
図1は、実施形態1のオブジェクト認識によりカテゴリを変更可能なカテゴリ変更装置の構成を示すブロック図である。図1のカテゴリ変更装置は、制御バス101、辞書データ検知手段102、辞書データ比較手段103、表示手段104、カテゴリ変更手段105、データ記憶手段106および操作手段107を備える。
【0014】
制御バス101は、各機能ブロックの入力または出力の制御を行う。次に、辞書データ検知手段102は、カテゴリ変更装置に辞書情報である辞書データが入力されたかどうかの判断を行う。判断を行う方法は、いずれの方法を用いてもよい。一例としては、コンパクトフラッシュメモリといったポータブル記憶装置が装置に接続された構成において、辞書データは、メモリ内のスキャンを行うことにより、検知される。
【0015】
辞書データ比較手段103は、カテゴリ変更装置に接続された外部の記憶装置から読み取った辞書データと、予め登録データ統合装置内に存在する、読み取った辞書データに類似する辞書データ、すなわち類似情報との比較を行う。次に、表示手段104は、ユーザに必要な情報を提示する。カテゴリ変更手段105は、後述するカテゴリ変更方法に従って、データ記憶手段106に記憶された辞書データに関する所望カテゴリのカテゴリ名称を変更する。
【0016】
データ記憶手段106は、予め別の手段により作成されたカテゴリ変更装置固有の辞書データを保持する。次に、操作手段107は、ユーザが前述の表示手段104に表示されている情報を確認し、その情報に応答する操作を行う。なお、辞書データ検知手段102、データマッチング手段103、表示手段104、カテゴリ変更手段105および操作手段107は、演算回路またはファームウェアで構築されるものとする。
【0017】
次に、辞書データ統合方法について説明する。図2は、辞書データの統合方法に関するフローチャートである。本実施形態では、顔画像より個人を分類する顔認識方法が例として説明される。但し、この方法は顔認識に限定されるものでなく、顔認識以外の各種認識にも適応できることは言うまでもない。また、辞書データも、顔に関するデータに限定されず、例えば音声データでも構わない。
【0018】
まずS201で、辞書データ検知手段102は、予め辞書データを保持している機器、例えばデジタルカメラに固有な辞書データと別の辞書データがあることを検出する。予め保持している辞書データは、固有辞書データ203を示し、この辞書データの詳細は、次の通りである。
【0019】
S201で、辞書データ検知手段102は、機器に備えられた、前述の固有辞書データ以外の辞書データを検知する。ここで言う機器とは、図3に示すデジタルカメラ、もしくはデジタルビデオカメラのことである。例えば、機器をデジタルカメラ301とした場合に、ここで検出される辞書データは、コンパクトフラッシュメモリ305等に格納されている。つまり、機器固有の辞書データは、内蔵メモリ等に記録される。したがって、コンパクトフラッシュメモリ305のデータ形式によって、通常の画像データと辞書データ用の画像データとが区別される。
【0020】
このコンパクトフラッシュメモリ305に格納された辞書データは、デジタルカメラ等に内蔵されている辞書データをコピーすることにより作成される。また、辞書データを他の機器に移動させる手段は、コンパクトフラッシュメモリに限定されず、例えば、赤外線通信手段や、インターネットを介して移動させても構わない。
【0021】
図4は、コンパクトフラッシュメモリ305のデータ形式を表している。なお、ここで示すデータ形式は、一例である。データ形式は、2階層になっていて、DATAフォルダ401の下位に、撮影データフォルダ402と辞書データフォルダ403が存在する。
【0022】
撮影データフォルダ402には、通常の撮影画像がまとめられ、複数の被写体、すなわち複数の人物が集合した画像がある。一方、辞書データフォルダ403は、前述のデジタルカメラ301の機器に追加したい辞書データを保存している。辞書データフォルダ403にある画像は、被写体が1名の顔画像である。
【0023】
ここでは、辞書データを画像として説明した。しかし、画像ではなく所定フィルタリングした特徴量を辞書データとしても構わない。また、辞書データフォルダ403には、category.tblというファイル形式で、各画像もしくは、特徴量のカテゴリ名称が記載されている。S201で辞書データフォルダがない場合、辞書データ検知手段102は、データが存在しないと判断する。このステップでは、辞書データが検知されたら、図3の液晶モニタ306に「辞書データがコンパクトフラッシュに存在します。インポートしますか? Yes/No」と表示する。次に、S202では、辞書データ比較手段103は、S201で検出された辞書データ(第1情報)とデジタルカメラが所有していた辞書データ(第2情報)との類似度を算出することで照合を行う。以下に、辞書データ類似度の算出処理の詳細について、図5の処理フローチャートを用いて説明する。図5は、辞書データ類似度算出処理のフローを表している。
【0024】
S701において、辞書データ比較手段103は、第1の辞書の第1辞書情報である第1辞書データ702に存在する辞書画像を1つ抽出する。第1辞書データは、前述の図2のステップ201で示したコンパクトフラッシュメモリ内に存在する辞書データである。したがって、第1辞書データは、図4で示した辞書データフォルダ403内にある画像データのことを指す。
【0025】
また、第1辞書データは、各画像データのカテゴリ情報を有する、カテゴリテーブル(前述のcategory.tblファイル)を備える。カテゴリテーブルの一例を図8に示す。カテゴリテーブル801は、各辞書画像の被写体が、誰であるのかという情報を表している。図6に示すように、画像0100.bmpの被写体は、「お父さん」である。また、辞書データが画像でなく所定特徴量の場合、カテゴリテーブルは、特徴量とカテゴリ名称を関連付ける。
【0026】
次にS703において、辞書データ比較手段103は、第2の辞書の第2辞書情報である第2辞書データ704から辞書画像を1つ抽出する。第2辞書データは、前述のデジタルカメラが固有に有する辞書データである。第2辞書データは、第1辞書データ702と同じく辞書画像のカテゴリ情報を有する、図8に相当したカテゴリテーブルを保持している。
【0027】
S703では、辞書データ比較手段103は、この第2辞書データより、1枚の所定カテゴリに属する辞書画像を抽出する。
【0028】
S705において、辞書データ比較手段103は、S701とS703で抽出した辞書画像同士の類似性を調査する。類似性の調査は、一般的な技術を用いてよい。一例として、人物画像の顔領域の輝度ベクトルを特徴量とした相関値演算を用いた場合について説明する。
【0029】
S701で抽出された辞書画像の輝度ベクトル(第1特徴量)をI11 、ステップ703で抽出された辞書画像の輝度ベクトル(第2特徴量)をIとする。ここで、それぞれの輝度ベクトル、I1(第1の輝度ベクトル)とI2(第2の輝度ベクトル)は、目の器官位置に基づいてサイズに関して正規化されているものとする。なお、目の器官位置は、テンプレートマッチング等の一般的な処理方法によって定めてよい。また、辞書画像同士の類似性を求める方法は、この方法に限定されない。たとえば、顔の一部を含む局所領域内の輝度ベクトルから求められる辞書部分空間の投影距離により、類似性を求めることができる。このとき、辞書データは、画像ではなく、部分空間を表現するベクトル集合となる。
【0030】
このとき類似度(相関値)を求める演算式は、次式で表される。

ここで、(1)式は、正規化相関値を表す。
【0031】
次に、S706で、辞書データ比較手段103は、前ステップで算出した相関値に基づいて、S701およびS703で抽出した画像が同一人物かどうかの判定を行う。同一人物判定は、(1)式の正規化相関値の閾値処理により行われる。つまり、正規化相関値が所定の閾値より大きい場合、S701とS703で抽出された辞書画像データ同士は、同一人物の可能性が高い。一方、正規化相関値が所定の閾値以内の場合、S701とS703で抽出された辞書画像データ同士は、同一の人物でない可能性が高い。
【0032】
ここで、画像同士のマッチング結果は、不図示のデータベース内に保存される。なお、所定の閾値は、ユーザもしくは設計者が決定するパラメータである。
【0033】
次に、ステップS707で、辞書データ比較手段103は、第2辞書データにある画像を全て選択したかどうかの判定を行い、S708で、第1辞書データにある画像を全て選択したかどうかの判定を行う。最終的に、S708で全データが選択されたと判断されると、図5のフローを終了する。
【0034】
ここで、再び図2の説明に戻る。インタラクティブ処理を行うS204の動作について説明する。S204では、表示手段104は、前ステップであるS202での辞書データ間のマッチング状況に応じて、図3に示すデジタルカメラ301の液晶モニタ306にメッセージを表示する。また、操作手段107はユーザからの入力を検知し処理を行う。具体的に、図7のフローチャートを用いて説明する。
【0035】
図7は、インタラクティブ処理におけるS204の動作を示すフローチャートである。S901で辞書データ比較手段103は、マッチング処理結果を取得するため、図2の辞書データ同士のマッチング結果が記載されているテーブルを参照することで、1つのマッチング結果を取得する。S902では、辞書データ比較手段103は、辞書データ同士のマッチング結果が記載されているテーブルを参照し、あるカテゴリを持つ2つの辞書データ間の類似度を調べることで、2つの辞書データが同一人物であるかないかを判定する。判定する方法は、前述した所定の閾値を用いた処理を用いる。ここで、2つの辞書データが同一人物であると判定された場合、次のS903に進む。
【0036】
S903において、辞書データ比較手段103は、人物辞書データ判定結果を出力し、表示手段104は、液晶モニタ306に2辞書データの同一人物判定結果に基づいたメッセージを出力する。図8(a)に出力メッセージの表示例を示す。メッセージは、たとえば、図3の液晶モニタ306の表示部に、図8(a)の様式で出力される。出力されるメッセージは、2つのカテゴリが一致しない場合で、かつ、同一の人物と考えられる2枚の辞書画像と共に出力される。図8(b)に、図8(a)のメッセージ各部の詳細を示す。出力メッセージ例1101は、候補イベントメッセージ1103、カテゴリ名称1104、サムネイル辞書画像1105、辞書データ名1106を備える。候補イベントメッセージ1103は、「カテゴリの統合を行いますか? Yes/No」という表示であり、ユーザが対応すべき動作を示している。カテゴリ名称1104は、サムネイル辞書画像1105のそれぞれのカテゴリ名称を表している。ここでは、辞書画像Aは「お父さん」というカテゴリ(第1カテゴリ)であり、辞書画像Bは「父」というカテゴリ(第2カテゴリ)である。辞書データ名1106は、各サムネイル辞書画像がどの辞書データのものであったかを表示している。
【0037】
ここで、図7のフローチャートの説明に戻る。S904で、操作手段107は、同一人物辞書データに対して、同一人物の画像が見つかった状況に対するユーザによる入力を受付け、検知する。ユーザ入力は、例えばカーソルキーを用いて行われる。図9は、入力を検知するカーソルキーの例を示す。ユーザは、カーソルキー1201を使って、メッセージ表示されている「Yes/No」のうち、どちらかを選択する。図9では、ユーザがカーソル1202が「Yes」の部分に移動したと仮定すると、ユーザの選択入力は、Yesである。なお、入力を検知する手段は、カーソルキーに限定されるものでなく、それ以外のものでもよい。例えば、タッチパネル方式の入力方法を用いてもよい。
【0038】
S902で、同一人物でないと判定された場合、次の同一でない人物辞書データを出力するS905が実行される。S905では、カテゴリを比較した2枚の辞書画像とカテゴリ名称を液晶モニタ表示部に出力する。図10(a)は、本ステップで出力される表示形式の一例である。図10(a)で出力される出力メッセージの例1301は、同一人物でないが、同一カテゴリである2つ辞書画像を出力している。
【0039】
次に、同一でない人物に対するユーザ入力を検知するS906について説明する。本ステップでは、表示手段104が図10(b)に示すメッセージを出力し、操作手段107がユーザからの入力を検知する。出力するメッセージについて、図10(b)を用いて説明する。
【0040】
S906で、同一でない人物に対するユーザの入力が検知され、その結果が処理される。また、辞書画像1403は、同一のカテゴリで、かつ同一でない人物と判定された画像である。また、カテゴリ名称1404は、辞書画像1403の対応する人物のカテゴリを表している。さらに、候補イベントメッセージ1405は、ユーザに対して知らせるべきイベントを表している。ユーザは、前述のカーソルキーを操作して、候補イベントメッセージ1405に対する応答を入力する。入力の方法は、ステップ904で説明した方法と同様である。
【0041】
ここで、再び図2のフローチャートの説明に戻る。図2のカテゴリ変更の処理を行うS205について説明する。図11は、カテゴリ変更処理ステップの詳細を説明する処理フローチャートである。図11は、カテゴリ変更を実施する際の処理フローを表している。
【0042】
ステップS1501では、カテゴリ変更手段105は、カテゴリ名称の変更に対する可否を判断する。具体的には、前述した図7のフローチャートのS904またはS906でのユーザ入力に基づいて、カテゴリ名称の変更可否が判断される。S904またはS906では、表示手段104は、前述の図8(a)または(b)に示したメッセージを出力し、操作手段107は、ユーザからの入力を受け付ける。S904またはS906でのユーザ入力は、「カテゴリ名称をマージしますか?」というメッセージに対する応答であり、その応答は「Yes」または「No」のどちらかである。
【0043】
S1501において、ユーザの入力が「Yes」の場合、S1502へ進む。一方、ユーザの入力が「No」の場合、S1505に進む。次に、S1501でカテゴリ名称を変更すると判断された場合の処理について説明する。
【0044】
図12および図13は、カテゴリ名称を変更画面表示する例である。まず、図12と図13の相違について説明する。図12は、辞書画像同士が別人物の場合に対するカテゴリ名称の変更画像を示す。一方、図13は、辞書画像同士が同一人物の場合に対するカテゴリ名称の変更画面を示す。ここでは、図12および図13の画面の表示前に、カテゴリ変更手段105により、画面に表示する2つの辞書画像のカテゴリ名称が一致しているかどうかが比較されている。同一人物の場合、カテゴリ名称変更前の状態では、それぞれの画像に対して別のカテゴリ名称が存在したが、同一人物なので、カテゴリ名称を統一するために変更する。したがって、カテゴリは1つとなる。次に、出力メッセージの各部の説明を行うが、図13の各部の詳細は、図12と同様なので、詳細な説明は割愛する。
【0045】
出力メッセージの例1601は、S1502において、前述の液晶モニタ上に出力されたメッセージである。また、出力メッセージの例1601の構成を示したのが、出力メッセージの例1602である。出力メッセージは、辞書画像1603、メッセージ1604、カーソル1605、入力欄1606を備える。辞書画像1603は、カテゴリ名称を変更するための画像である。また、メッセージ1604は、ユーザに対する指示が出力されており、カテゴリ名称の変更に対する入力を待っている。また、カーソル1605は、カテゴリ変更する画像を選択する際に用いられる。また、入力欄1606は、入力前後のカテゴリ名称を表示している。
【0046】
ここで、図11のフローチャートの説明に戻る。S1502の処理が終了すると、S1503に移行する。S1503では、操作手段107は、S1502で表示されたメッセージに対するユーザ入力を検知する。ユーザ入力とは具体的に、図12または図13で示したカーソル1605または1705で入力欄1606または1706を選択することである。よって、ユーザの選択動作は、前述の図9に示した決定ボタン1203といったもので決定される。
【0047】
次に、S1504で、カテゴリ変更手段105は、カテゴリ名称の入力処理を行う。つまり、前ステップでユーザが選択した入力欄に対して、実際の書き込みが行われる。図14は、S1504で液晶モニタに出力される画面を示す。処理がS1504に移行すると、液晶モニタには、カテゴリ入力コンソール部1801、辞書画像1804、入力欄1805および入力設定表示部1806が出力される。
【0048】
カテゴリ入力コンソール部1801の例として、画面上に表示されるキーボードのようなものがある。入力は、カーソルキー1802を使ってアルファベットや数字等が記載されているキーを選択し、決定ボタン1803で文字を決定することにより行われる。このとき、画面の右上部には、ローマ字入力なのか、大文字の入力なのかを示す、入力設定表示部1806がある。また、この場合、「H」のキーを白色で塗り潰すことで、「H」が選択されていることが示されている。
【0049】
また、辞書画像1804は、カテゴリを入力している辞書画像を表している。さらに、入力欄1805は、入力しているカテゴリを表示している。S1504で、ユーザは、図14に示すカテゴリ入力コンソールを用いてカテゴリ名称の入力を行う。但し、カテゴリ名称の入力方法としては、前述したコンソールを用いる方法だけに限定されるものでない。例えば、液晶モニタのコンソール部をタッチすることで、文字が入力できるタッチパネル方式でも構わない。
【0050】
図11のフローチャートの説明に戻る。S1504の処理を終了すると、次の辞書データの一覧表示を行うS1505へ移行する。S1505では、カテゴリ名称が変更されたか、されていないかの状況に関わらず、表示手段104は、現状の辞書画像の画像とそれぞれのカテゴリ名称を表示し、操作手段107は、ユーザの確認の入力を待つ。図15は、液晶モニタに出力される確認用の表示を表している。
【0051】
S1504で、出力メッセージの例1901が表示される。出力メッセージの例1901は、辞書画像1902、対応する辞書画像のカテゴリ名称1903およびメッセージ1904を備える。ユーザは、出力メッセージをチェックして、辞書画像と対応するカテゴリ名称がユーザ自身の意図したものであるかの確認を行う。そして、辞書データの構成がユーザの意図したものだとすると、カーソルキー等を操作して、メッセージ1904にある「Yes」を選択し、決定ボタンを押す。一方、辞書データの構成がユーザの意図しないものであれば、メッセージ1904にある「No」を選択して、決定ボタンを押す。「No」を選択した場合、再度S1501へ戻りカテゴリ名称の構築を実施する。また、「Yes」が選択された場合、図11のフローチャートは終了する。
【0052】
以上が実施形態1の説明であるが、実施形態1の辞書データは、顔情報に限定されるものでなく、他の一般的な物体においても有効である。具体的には、ペットや花といったものでも良い。この場合、辞書データには、ペットや花の種別を区別する特徴量を含むことになる。尚、以上の説明では、カテゴリの名称の統合は、2つの異なる辞書の間について述べた。しかしながら、同一の辞書中でも、作成者や作成時期などの違いにより、異なるカテゴリの名称にそれぞれ同一の人物が含まれている場合、そのカテゴリの名称を統合することが可能であることはいうまでもない。
【0053】
以上のように、実施形態1では、辞書データの機器間を統合するときに、各機器の辞書データにおいて同一人物に対するカテゴリ名称を矛盾なく設定することが出来る。また、各機器の辞書データにおいて同一でない人物かつ同一のカテゴリ名称の辞書データに対してものカテゴリ名称を矛盾なく設定することが出来る。また、簡単なユーザインタフェースを用いることで、カテゴリ名称の再構築が容易に実施できる。
【0054】
<実施形態2>
実施形態2では、機器固有の辞書データに、各登録者の画像が複数個存在した場合の辞書データを統合する技術について述べる。
【0055】
図16は、前述した図2のマッチング処理を行うS202のフローチャートに対応した、実施形態2のフローチャートである。
【0056】
S2001で、辞書データ比較手段103は、第1辞書データ2002から、あるカテゴリに属する辞書画像群を抽出する。ここで言う第1辞書データ2002は、図17に示す第1辞書データ2101のことでもある。S2001では、具体的には、図17における第1辞書データ2101の(category)11の辞書画像群を取得する処理が行われる。ここで、(category)11は、辞書画像群のカテゴリ名称であり、例えば「お父さん」というカテゴリ名称を持つ。
【0057】
次に、S2003で、、辞書データ比較手段103は、第2辞書データ2004から、あるカテゴリに属する辞書画像群を抽出する。ここで言う第2辞書データ2004は、図17に示す第2辞書データ2102のことでもある。ここで、第2辞書データは、前述の第1辞書データと同様に、カテゴリ名称と辞書画像を持つ。
【0058】
S2006で、辞書データ比較手段103は、S2001とS2003で抽出した辞書画像群の間の類似度を算出する。カテゴリ間の類似度の算出方法の詳細を、図20のフローチャートを用いて説明する。
【0059】
第1辞書データのあるカテゴリに属する画像の数がm個、また第2辞書データのあるカテゴリに属する画像の数がn個あると仮定する。まずS2401で、辞書データ比較手段103は、m個の辞書画像のうち第m番目の辞書画像を選択する。次に、S2402で、辞書データ比較手段103は、第n番目の辞書画像を選択する。更に、S2403で、選択した画像同士の類似度を算出する。ここでの類似度は、(1)式で示した正規化相関値を用いて算出される。次にS2404では、辞書データ比較手段103は、第2辞書画像の全ての画像が処理済みであるかを判断する。S2404で全画像の処理が終了されたら、次のS2405に移行する。一方、第2辞書画像で未処理の画像が存在した場合、辞書画像の選択処理であるS2402に戻る。次に、S2405で、辞書データ比較手段103は、S2404の処理と同じく第1辞書画像の全ての画像が処理済みであるかを判断する。
【0060】
S2406において、辞書データ比較手段103は、カテゴリ間の平均類似度(相関値)を算出するため、次式で表される演算を行う。

(2)式は、カテゴリ間平均相関値を表している。ここで、第1の輝度ベクトルI1mは、辞書データ1の第m番目の辞書画像の輝度ベクトルである。また、第2の輝度ベクトルI2nは、辞書データ2の第n番目の辞書画像の輝度ベクトルである。以上が、カテゴリ間の類似度を算出する処理である。
【0061】
図16の説明に戻り、同一人物の判定処理を行うS2007について説明する。このステップでは、(2)式のカテゴリ間の類似度に基づき、S2001で選択された辞書データ人物とS2003で選択された辞書データ人物とが同一人物であるかの判断が行われる。同一人物かどうかの判断は、カテゴリ間の類似度に対して所定の閾値を用いた処理により行われる。
【0062】
次に辞書データ比較手段103は、S2008で、第2辞書データ群の全カテゴリを選択したかどうかの判断を行い、またS2009で、第1辞書データ群の全カテゴリを選択したかどうかの判断を行う。全て選択したと判断された場合、図16に示すフローチャートのステップが終了する。
【0063】
更に、第2実施形態における、図2のインタラクティブ処理を行うS204とカテゴリの変更処理を行うS205に関する処理について説明する。
【0064】
実施形態2におけるインタラクティブ処理とカテゴリの変更処理は、基本的に実施形態1の処理とほとんど変わらない。ただし、実施形態1では、辞書データ1および辞書データ2の各カテゴリの辞書画像枚数は1枚であったが、実施形態2の場合、1枚でなく複数枚となる点が異なる。この相違により、ユーザの出力処理が実施形態1と異なる。よってこの異なる部分について説明するための代表例を以下に示す。
【0065】
図18は、実施形態1の図13と同様な、実施形態2のユーザの入力を受け付ける図である。図18の出力メッセージの例2201は、辞書画像群2202、メッセージ2203、カーソル2204、入力欄2205、カーソルキー2206、画像スイッチャー2208およびポップアップ画像2209を備える。実施形態1の図13と異なる点は、辞書画像の表示の仕方にある。図18では、辞書データの統合の結果、辞書画像が5枚存在する。したがって、カテゴリ名称を変更するとき、実施形態1と同じ表示を用いると辞書画像でモニタが埋まり、入力欄等の表示部分が限定されてしまう。したがって、実施形態1と同じ表示を用いることは、ユーザへの配慮が欠けた表示となる。
【0066】
そこで、図18に示すように、辞書画像を一部重ねて表示する。そのとき、1枚だけを詳細に確認したい場合は、画像スイッチャー2208を使って、所望の辞書画像をポップアップ表示させる。ポップアップ画像の例として、図18のポップアップ画像2209がある。また例えば、ポップアップ画像を次々に表示させるために、カーソルキー2206によりカーソル2204を画像スイッチャー2208に移動させ、カーソルキー2206の左右ボタンを押すことで、ポップアップ画像を変更すればよい。
【0067】
なお、ポップアップ画像を変更する手段は、この方法に限定されない。他の方法として、タッチパネルのモニタを搭載しているのであれば、タッチされた画像をポップアップ表示するといったものでよい。
【0068】
また、図19は、実施形態1の図15に相当する、実施形態2における構成確認の図である。図19の出力メッセージ2301は、辞書画像群2302、カテゴリ名称2303、メッセージ2304、カーソル2305、カーソルキー2306および決定ボタン2307を備える。前述した図15と同様の部分の説明は割愛する。
【0069】
まず、辞書画像は、複数個存在するので、各カテゴリで辞書画像を一部重ねた状態で表示される。前述の図18と同じく、カーソル2305をカテゴリ名称2303にあわせて、決定ボタン2307を押すと、カーソルキーの左右ボタンを押すことで、ポップアップ画像を切り替えることが出来る。
【0070】
以上に述べたように、実施形態2では、統合する辞書データに複数枚辞書のカテゴリが存在した場合でも、適切にカテゴリ名称の再構築が可能となる。また、そのとき、ユーザにとって扱いやすいインターフェースを提供することで、ユーザの操作負担を軽減することが可能となる。
【0071】
<実施形態3>
実施形態3では、辞書データを統合した後、各カテゴリの辞書画像枚数を調整し、辞書画像の記憶容量を低減する技術について説明する。具体的には、第1辞書データのあるカテゴリに属する辞書画像が3枚存在し、第2辞書データのあるカテゴリに属する辞書画像が2枚存在している場合について考慮する。そのとき、両辞書画像が同一人物で辞書データの統合を行うものとする。
【0072】
辞書データを統合後、この場合のカテゴリに属する辞書画像は5枚になるのが一般的であるが、デジタルカメラのメモリ容量が十分でない場合も多く、実際には5枚すべてを登録することは望ましくない。そこで、5枚から辞書画像に好適な画像を選択し、メモリ容量が許容する枚数まで削減する必要がある。以下に、辞書画像枚数の削減する方法について記載する。
【0073】
図21は、実施形態3の詳細を説明するフローチャートである。S2501で、辞書データ比較手段103は、辞書データを統合する第1辞書データのあるカテゴリの辞書画像群と第2辞書データのあるカテゴリの辞書画像群との間の、類似度総和値を算出する処理を実行する。この場合、i番目の辞書画像の類似度総和の値は、次式で求められる。
【0074】

ここで、IおよびIは、それぞれ辞書画像1と2の輝度ベクトルである。また、nおよびmは、各辞書データで何番目の辞書画像であるかを表す。
【0075】
次に、S2502で、辞書データ比較手段103は、(3)式で求めた各辞書画像の類似度総和値のソートを実行する。ここで実施するソートにより、類似度総和値を降順で並ばせる。更に、S2503で、辞書データ比較手段103は、前ステップのソート結果に基づいて、辞書データ統合後に削除する画像候補を指定する。
【0076】
つまり、本実施形態では、第1辞書データのカテゴリのm個の辞書画像群と第2次書データの第2カテゴリの辞書画像群において、mとnの和が所定数Nより大きい場合に、各画像についての自身以外の辞書画像との類似度の総和値を算出し、その総和値で小さな類似度の総和値を有する辞書画像から順番に並べ、N+1個目以降の辞書画像を第1カテゴリおよび第2カテゴリから削除する。この例では、類似度総和値の上位2つの辞書画像が登録除外画像として選択される。つまり、類似度の総和値の上位の2つの辞書画像は、それら以外の辞書画像とよく似ている。よって、上位2つの辞書画像を削除しても、顔認識の精度に与える影響は小さい。したがって、類似度総和値の上位2つの辞書画像を統合後の辞書画像から削除する。なお、辞書画像を除外する情報として、辞書画像同士の類似度のみならず、他のパラメータを用いてもよい。一例として、各辞書画像が記録された日時、辞書画像の画質、または辞書画像の変動条件でもよい。たとえば記録された日を用いる場合、記録された日時が古い辞書画像から除外してもよい。また、辞書画像の画質を用いる場合、ボケている画像等を削除すればよい。さらに、辞書画像の変動条件を用いる場合、例えば顔の向きで辞書画像の削除対象を決定することができる。
【0077】
以上述べたように、実施形態3では、辞書データのメモリ容量を抑えた辞書データの統合を行うことが可能となり、かつ統合後辞書データによる顔認識精度の低下を防止できる。
【0078】
<実施形態4>
実施形態4では、辞書データ統合を、パーソナルコンピュータ(以下、PCと称す)とデジタルカメラで行う技術について説明する。本実施形態において、PCがデジタルカメラに接続されている構成を考える。この構成をとることで、PCの顔認識アプリケーションが所有する辞書データがデジタルカメラの持つ辞書データと統合される。このときの統合の動作は次のとおりである。
【0079】
まず、ユーザの指示によりPCから辞書データがデジタルカメラ内のコンパクトフラッシュメモリにダウンロードされる。なお、統合先である、デジタルカメラの動作は、実施形態1で説明した動作と同様である。また、統合先は、デジタルカメラに限定されるものでなく、統合元と同じくPCでも構わない。実施形態4では、PC上の画像リソースからユーザが適切と思われる画像をピックアップし、それらの画像をユーザがカテゴリ名称を付加し、辞書データとしてコンパクトフラッシュにコピーするというものである。
【0080】
実施形態4の構成をとると、ユーザが顔認識に最適な画像をPCからピックアップし、その画像をデジタルカメラの辞書データと結合するので、デジタルカメラ上の登録作業を行わずに容易に辞書データを構築できるという効果がある。

【特許請求の範囲】
【請求項1】
オブジェクト認識のための辞書に含まれる複数のカテゴリの中から第1カテゴリに関連付けられた第1辞書情報を抽出し、前記辞書または他の辞書に含まれる複数のカテゴリの中の第2カテゴリと関連付けられた第2辞書情報を抽出する抽出手段と、
前記第1辞書情報および前記第2辞書情報からそれぞれ第1特徴量および第2特徴量を算出し、該算出した第1特徴量と第2特徴量との類似度が所定の閾値より大きいか否かを判定する判定手段と、
前記第1カテゴリの名称と前記第2カテゴリの名称とを比較する比較手段と、
前記判定手段で所定の閾値より大きいと判定され、かつ、前記比較手段で前記第1カテゴリの名称と前記第2カテゴリの名称とが一致しないと判断された場合に、該第1カテゴリの名称および該第2カテゴリの名称を統合するか否かの指示を受付ける受付手段と、
前記受付手段が、該第1カテゴリの名称および該第2カテゴリの名称とを統合する名称を受付けた場合に、該第1カテゴリの名称と該第2カテゴリの名称とを該受付けた統合する名称で統合する統合手段と、
を備えることを特徴とするオブジェクト認識装置。
【請求項2】
前記受付手段は、更に、前記判定手段で所定の閾値以内と判定され、かつ、前記比較手段で第1カテゴリと前記第2カテゴリの名称とが一致すると判断された場合に、該第1カテゴリおよび該第2カテゴリの各々のカテゴリの名称の入力を受付けることを特徴とする請求項1に記載のオブジェクト認識装置。
【請求項3】
前記第1特徴量は、前記第1辞書情報に含まれる人物画像の顔領域から算出した第1の輝度ベクトルであり、また前記第2特徴量は、前記第2辞書情報に含まれる人物画像の顔領域から算出した第2の輝度ベクトルであり、前記判定手段が該第1の輝度ベクトルと該第2の輝度ベクトルとの相関値が所定の閾値以内にあるか否かを判定することを特徴とする請求項1または2に記載のオブジェクト認識装置。
【請求項4】
前記抽出手段が、前記第1カテゴリの前記第1辞書情報に含まれるm個の人物画像から算出した第1の輝度ベクトルI1mと、前記第2カテゴリの前記第2辞書情報に含まれるn個の人物画像から算出した第2の輝度ベクトルI2nとを抽出した場合に、前記判定手段は、次式

を用いて、前記第1カテゴリと前記第2カテゴリとの間の平均類似度を算出し、該算出した平均類似度が予め定められた閾値より大きい場合に、前記第1カテゴリに含まれる前記第1辞書情報と前記第2カテゴリの第2辞書情報とが同一であると判定することを特徴とする請求項3に記載のオブジェクト認識装置。
【請求項5】
前記判定手段が、前記第1カテゴリに含まれる前記第1辞書情報と前記第2カテゴリの第2辞書情報とが同一であると判定した場合で、かつ、前記mと前記nの和が所定数Nより大きい場合に、前記統合手段は、i番目の辞書情報の類似度総和の値を求める式

により、m個の第1辞書情報およびn個の第2辞書情報の各々について算出した類似度の総和の値が小さい順番に辞書情報を並べ、N+1個目以降の辞書情報を前記第1カテゴリまたは前記第2カテゴリから削除することを特徴とする請求項4に記載のオブジェクト認識装置。
【請求項6】
抽出手段が、オブジェクト認識のための辞書に含まれる複数のカテゴリの中から第1カテゴリに関連付けられた第1辞書情報を抽出し、前記辞書または他の辞書に含まれる複数のカテゴリの中の第2カテゴリと関連付けられた第2辞書情報を抽出する抽出工程と、
判定手段が、前記第1辞書情報および前記第2辞書情報からそれぞれ第1特徴量および第2特徴量を算出し、該算出した第1特徴量と第2特徴量との類似度が所定の閾値より大きいか否かを判定する判定工程と、
比較手段が、前記第1カテゴリの名称と前記第2カテゴリの名称とを比較する比較工程と、
受付手段が、前記判定工程で所定の閾値より大きいと判定され、かつ、前記比較工程で前記第1カテゴリの名称と前記第2カテゴリの名称とが一致しないと判断された場合に、該第1カテゴリの名称および該第2カテゴリの名称を統合するか否かの指示を受付ける受付工程と、
統合手段が、前記受付工程で該第1カテゴリの名称および該第2カテゴリの名称とを統合する名称を受付けた場合に、該第1カテゴリの名称と該第2カテゴリの名称とを該受付けた統合する名称で統合する統合工程と、
を有することを特徴とするオブジェクト認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate