オブジェクト認識装置およびその認識方法

【課題】統合する辞書データ中にカテゴリ名称の異なる同一人物画像が存在しても、画像とカテゴリ名称の関連付けを適切に行うことを可能にする技術を提供する。
【解決手段】オブジェクト認識装置は、辞書に含まれる複数のカテゴリの中から第１カテゴリに関連付けられた第１辞書情報を抽出し、当該辞書または他の辞書に含まれる複数のカテゴリの中の第２カテゴリと関連付けられた第２辞書情報を抽出する。そして第１辞書情報および第２辞書情報からそれぞれ第１特徴量および第２特徴量を算出し、算出した第１特徴量と第２特徴量との類似度が所定の閾値より大きいか否かを判定し、第１カテゴリの名称と前記第２カテゴリの名称とを比較して、所定の閾値より大きいと判定され、かつ、第１カテゴリの名称と第２カテゴリの名称とが一致しないと判断された場合に、第１カテゴリの名称および第２カテゴリの名称を統合するか否かの指示を受付ける。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、オブジェクト認識により辞書データの統合するオブジェクト認識装置およびその認識方法に関する。
【背景技術】
【０００２】
代表的なオブジェクト認識技術の一つは、顔認識技術である。顔認識技術は、画像から所定人物がどこにいるかを検索するものである。デジタルカメラの所定人物に焦点を合わす機能は、この顔認識技術をデジタルカメラに組み込みことにより実現されている。
【０００３】
デジタルカメラに搭載される顔認識処理は、予め登録した人物の特徴量と複数の被写体の人物の特徴量とのマッチング処理により実行される。人物の特徴量は、登録したい人物をデジタルカメラで撮影し、撮影した画像を辞書データとしてメモリに記憶することで登録される。さらに、認識したい人物が複数の場合には、それぞれの人物の撮影データを取得し、それらの撮像データをメモリに記録する必要がある。記録する辞書データは、画像データでもよいし、また不可視の特徴量データなどでもよい。
【０００４】
最近では、１人当たりでデジタルカメラを１台所有することが普通となり、さらには、1人でデジタルカメラを複数台所持することも将来一般的になることが予想される。前述したように、デジタルカメラの辞書データは、各カメラで固有のものとなっている。そして、辞書データのための撮影作業をできるだけ少なくすること、また顔認識処理を用いた辞書データが各デジタルカメラ間で統合され、それを共有する機能（ベスト辞書データ共有機能）が必要となることが、将来的に予測される。
【０００５】
しかしながら、辞書データをカメラ間で共有するには、解決すべき課題がいくつかある。たとえば、その１つは、統合しようとする各デジタルカメラ間の辞書データと撮像機器固有の辞書データとの間に存在する。つまり、各辞書データに同一人物の辞書画像が存在する場合や、異なる人物に同一のカテゴリ名称が与えられている場合に、どの様に各辞書データを統合して共有するかという課題である。
【０００６】
特許文献１は、グループ設定情報に基づいて、マスタカメラが撮像した画像を、グループに属するスレーブカメラに画像を無線転送する技術を開示している。ここで、グループ設定情報は、コンパクトフラッシュ（登録商標）といったメモリカードに記録される。また、特許文献２は、歩行照合装置に関し、照合結果がＮＧと判断された人物が存在した場合に、その人物の顔画像と照合結果に基づき複数の上位候補画像を提示し、管理者が辞書画像として追加登録するかどうかを判断する技術を開示している。従来技術では、このように、撮像画像の統合および辞書画像の追加や提示に関する事項について述べている。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開２００１−３３３３６５号公報
【特許文献２】特開２００８−２５０８２９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
しかし、辞書データを撮像機器間統合する際の統合辞書データの構築方法についてはまだ示されていない。従って、将来必要となる、複数のデジタルカメラを所有するユーザのための辞書データの統合に関する技術に応え、辞書データの撮像機器間統合時に起きる課題、すなわちカテゴリ名称の衝突という課題を解決する必要がある。
【０００９】
本発明は、係る課題を解決するため、統合する辞書データ中にカテゴリ名称の異なる同一人物画像が存在しても、カテゴリ名称の関連付けを適切に行うオブジェクト認識装置およびその認識方法を提供する。
【課題を解決するための手段】
【００１０】
本発明のオブジェクト認識装置は、オブジェクト認識のための辞書に含まれる複数のカテゴリの中から第１カテゴリに関連付けられた第１辞書情報を抽出し、前記辞書または他の辞書に含まれる複数のカテゴリの中の第２カテゴリと関連付けられた第２辞書情報を抽出する抽出手段と、前記第１辞書情報および前記第２辞書情報からそれぞれ第１特徴量および第２特徴量を算出し、該算出した第１特徴量と第２特徴量との類似度が所定の閾値より大きいか否かを判定する判定手段と、前記第１カテゴリの名称と前記第２カテゴリの名称とを比較する比較手段と、前記判定手段で所定の閾値より大きいと判定され、かつ、前記比較手段で前記第１カテゴリの名称と前記第２カテゴリの名称とが一致しないと判断された場合に、該第１カテゴリの名称および該第２カテゴリの名称を統合するか否かの指示を受付ける受付手段と、前記受付手段が、該第１カテゴリの名称および該第２カテゴリの名称とを統合する名称を受付けた場合に、該第１カテゴリの名称と該第２カテゴリの名称とを該受付けた統合する名称で統合する統合手段とを備えることを特徴とする。
【発明の効果】
【００１１】
統合する辞書データ中にカテゴリ名称の異なる同一人物画像が存在しても、カテゴリ名称の関連付けを適切に行うオブジェクト認識装置およびその認識方法を提供することが可能となる。
【図面の簡単な説明】
【００１２】
【図１】カテゴリ変更装置の構成を示すブロック図。
【図２】辞書データ統合方法に関する処理フローチャート。
【図３】デジタルカメラまたはデジタルビデオカメラの各部の構成を示す図。
【図４】コンパクトフラッシュメモリが有するデータ構造を示す図。
【図５】辞書データの類似度の算出処理を説明する図。
【図６】カテゴリと画像名を対応づけるテーブルを示す図。
【図７】インタラクティブ処理を示すフローチャート。
【図８】ユーザ確認のための液晶モニタの出力を示す図。
【図９】ユーザ確認のための液晶モニタの出力を示す図。
【図１０】ユーザ確認のための液晶モニタの出力を示す図。
【図１１】カテゴリ修正処理を示すフローチャート。
【図１２】ユーザ入力のための液晶モニタの出力を示す図。
【図１３】ユーザ入力のための液晶モニタの出力を示す図。
【図１４】ユーザ入力のための液晶モニタの出力を示す図。
【図１５】ユーザ確認のための液晶モニタの出力を示す図。
【図１６】複数の人物に対する同一人物判定を行うためのフローチャート。
【図１７】格辞書データのカテゴリ構成を示す図。
【図１８】ユーザ入力のための液晶モニタの出力を示す図。
【図１９】ユーザ確認のための液晶モニタの出力を示す図。
【図２０】カテゴリ間平均類似度の算出方法を説明するフローチャート。
【図２１】登録除外候補画像を取得するためのフローチャート。
【発明を実施するための形態】
【００１３】
＜実施形態１＞
図１は、実施形態１のオブジェクト認識によりカテゴリを変更可能なカテゴリ変更装置の構成を示すブロック図である。図１のカテゴリ変更装置は、制御バス１０１、辞書データ検知手段１０２、辞書データ比較手段１０３、表示手段１０４、カテゴリ変更手段１０５、データ記憶手段１０６および操作手段１０７を備える。
【００１４】
制御バス１０１は、各機能ブロックの入力または出力の制御を行う。次に、辞書データ検知手段１０２は、カテゴリ変更装置に辞書情報である辞書データが入力されたかどうかの判断を行う。判断を行う方法は、いずれの方法を用いてもよい。一例としては、コンパクトフラッシュメモリといったポータブル記憶装置が装置に接続された構成において、辞書データは、メモリ内のスキャンを行うことにより、検知される。
【００１５】
辞書データ比較手段１０３は、カテゴリ変更装置に接続された外部の記憶装置から読み取った辞書データと、予め登録データ統合装置内に存在する、読み取った辞書データに類似する辞書データ、すなわち類似情報との比較を行う。次に、表示手段１０４は、ユーザに必要な情報を提示する。カテゴリ変更手段１０５は、後述するカテゴリ変更方法に従って、データ記憶手段１０６に記憶された辞書データに関する所望カテゴリのカテゴリ名称を変更する。
【００１６】
データ記憶手段１０６は、予め別の手段により作成されたカテゴリ変更装置固有の辞書データを保持する。次に、操作手段１０７は、ユーザが前述の表示手段１０４に表示されている情報を確認し、その情報に応答する操作を行う。なお、辞書データ検知手段１０２、データマッチング手段１０３、表示手段１０４、カテゴリ変更手段１０５および操作手段１０７は、演算回路またはファームウェアで構築されるものとする。
【００１７】
次に、辞書データ統合方法について説明する。図２は、辞書データの統合方法に関するフローチャートである。本実施形態では、顔画像より個人を分類する顔認識方法が例として説明される。但し、この方法は顔認識に限定されるものでなく、顔認識以外の各種認識にも適応できることは言うまでもない。また、辞書データも、顔に関するデータに限定されず、例えば音声データでも構わない。
【００１８】
まずＳ２０１で、辞書データ検知手段１０２は、予め辞書データを保持している機器、例えばデジタルカメラに固有な辞書データと別の辞書データがあることを検出する。予め保持している辞書データは、固有辞書データ２０３を示し、この辞書データの詳細は、次の通りである。
【００１９】
Ｓ２０１で、辞書データ検知手段１０２は、機器に備えられた、前述の固有辞書データ以外の辞書データを検知する。ここで言う機器とは、図３に示すデジタルカメラ、もしくはデジタルビデオカメラのことである。例えば、機器をデジタルカメラ３０１とした場合に、ここで検出される辞書データは、コンパクトフラッシュメモリ３０５等に格納されている。つまり、機器固有の辞書データは、内蔵メモリ等に記録される。したがって、コンパクトフラッシュメモリ３０５のデータ形式によって、通常の画像データと辞書データ用の画像データとが区別される。
【００２０】
このコンパクトフラッシュメモリ３０５に格納された辞書データは、デジタルカメラ等に内蔵されている辞書データをコピーすることにより作成される。また、辞書データを他の機器に移動させる手段は、コンパクトフラッシュメモリに限定されず、例えば、赤外線通信手段や、インターネットを介して移動させても構わない。
【００２１】
図４は、コンパクトフラッシュメモリ３０５のデータ形式を表している。なお、ここで示すデータ形式は、一例である。データ形式は、２階層になっていて、ＤＡＴＡフォルダ４０１の下位に、撮影データフォルダ４０２と辞書データフォルダ４０３が存在する。
【００２２】
撮影データフォルダ４０２には、通常の撮影画像がまとめられ、複数の被写体、すなわち複数の人物が集合した画像がある。一方、辞書データフォルダ４０３は、前述のデジタルカメラ３０１の機器に追加したい辞書データを保存している。辞書データフォルダ４０３にある画像は、被写体が１名の顔画像である。
【００２３】
ここでは、辞書データを画像として説明した。しかし、画像ではなく所定フィルタリングした特徴量を辞書データとしても構わない。また、辞書データフォルダ４０３には、category.tblというファイル形式で、各画像もしくは、特徴量のカテゴリ名称が記載されている。Ｓ２０１で辞書データフォルダがない場合、辞書データ検知手段１０２は、データが存在しないと判断する。このステップでは、辞書データが検知されたら、図３の液晶モニタ３０６に「辞書データがコンパクトフラッシュに存在します。インポートしますか？Ｙｅｓ／Ｎｏ」と表示する。次に、Ｓ２０２では、辞書データ比較手段１０３は、Ｓ２０１で検出された辞書データ（第１情報）とデジタルカメラが所有していた辞書データ（第２情報）との類似度を算出することで照合を行う。以下に、辞書データ類似度の算出処理の詳細について、図５の処理フローチャートを用いて説明する。図５は、辞書データ類似度算出処理のフローを表している。
【００２４】
Ｓ７０１において、辞書データ比較手段１０３は、第１の辞書の第１辞書情報である第１辞書データ７０２に存在する辞書画像を１つ抽出する。第１辞書データは、前述の図２のステップ２０１で示したコンパクトフラッシュメモリ内に存在する辞書データである。したがって、第１辞書データは、図４で示した辞書データフォルダ４０３内にある画像データのことを指す。
【００２５】
また、第１辞書データは、各画像データのカテゴリ情報を有する、カテゴリテーブル（前述のｃａｔｅｇｏｒｙ．ｔｂｌファイル）を備える。カテゴリテーブルの一例を図８に示す。カテゴリテーブル８０１は、各辞書画像の被写体が、誰であるのかという情報を表している。図６に示すように、画像０１００．ｂｍｐの被写体は、「お父さん」である。また、辞書データが画像でなく所定特徴量の場合、カテゴリテーブルは、特徴量とカテゴリ名称を関連付ける。
【００２６】
次にＳ７０３において、辞書データ比較手段１０３は、第２の辞書の第２辞書情報である第２辞書データ７０４から辞書画像を１つ抽出する。第２辞書データは、前述のデジタルカメラが固有に有する辞書データである。第２辞書データは、第１辞書データ７０２と同じく辞書画像のカテゴリ情報を有する、図８に相当したカテゴリテーブルを保持している。
【００２７】
Ｓ７０３では、辞書データ比較手段１０３は、この第２辞書データより、１枚の所定カテゴリに属する辞書画像を抽出する。
【００２８】
Ｓ７０５において、辞書データ比較手段１０３は、Ｓ７０１とＳ７０３で抽出した辞書画像同士の類似性を調査する。類似性の調査は、一般的な技術を用いてよい。一例として、人物画像の顔領域の輝度ベクトルを特徴量とした相関値演算を用いた場合について説明する。
【００２９】
Ｓ７０１で抽出された辞書画像の輝度ベクトル（第１特徴量）をI₁₁ 、ステップ７０３で抽出された辞書画像の輝度ベクトル（第２特徴量）をIとする。ここで、それぞれの輝度ベクトル、I₁（第１の輝度ベクトル）とI₂（第２の輝度ベクトル）は、目の器官位置に基づいてサイズに関して正規化されているものとする。なお、目の器官位置は、テンプレートマッチング等の一般的な処理方法によって定めてよい。また、辞書画像同士の類似性を求める方法は、この方法に限定されない。たとえば、顔の一部を含む局所領域内の輝度ベクトルから求められる辞書部分空間の投影距離により、類似性を求めることができる。このとき、辞書データは、画像ではなく、部分空間を表現するベクトル集合となる。
【００３０】
このとき類似度（相関値）を求める演算式は、次式で表される。

ここで、（１）式は、正規化相関値を表す。
【００３１】
次に、Ｓ７０６で、辞書データ比較手段１０３は、前ステップで算出した相関値に基づいて、Ｓ７０１およびＳ７０３で抽出した画像が同一人物かどうかの判定を行う。同一人物判定は、（１）式の正規化相関値の閾値処理により行われる。つまり、正規化相関値が所定の閾値より大きい場合、Ｓ７０１とＳ７０３で抽出された辞書画像データ同士は、同一人物の可能性が高い。一方、正規化相関値が所定の閾値以内の場合、Ｓ７０１とＳ７０３で抽出された辞書画像データ同士は、同一の人物でない可能性が高い。
【００３２】
ここで、画像同士のマッチング結果は、不図示のデータベース内に保存される。なお、所定の閾値は、ユーザもしくは設計者が決定するパラメータである。
【００３３】
次に、ステップＳ７０７で、辞書データ比較手段１０３は、第２辞書データにある画像を全て選択したかどうかの判定を行い、Ｓ７０８で、第１辞書データにある画像を全て選択したかどうかの判定を行う。最終的に、Ｓ７０８で全データが選択されたと判断されると、図５のフローを終了する。
【００３４】
ここで、再び図２の説明に戻る。インタラクティブ処理を行うＳ２０４の動作について説明する。Ｓ２０４では、表示手段１０４は、前ステップであるＳ２０２での辞書データ間のマッチング状況に応じて、図３に示すデジタルカメラ３０１の液晶モニタ３０６にメッセージを表示する。また、操作手段１０７はユーザからの入力を検知し処理を行う。具体的に、図７のフローチャートを用いて説明する。
【００３５】
図７は、インタラクティブ処理におけるＳ２０４の動作を示すフローチャートである。Ｓ９０１で辞書データ比較手段１０３は、マッチング処理結果を取得するため、図２の辞書データ同士のマッチング結果が記載されているテーブルを参照することで、１つのマッチング結果を取得する。Ｓ９０２では、辞書データ比較手段１０３は、辞書データ同士のマッチング結果が記載されているテーブルを参照し、あるカテゴリを持つ２つの辞書データ間の類似度を調べることで、２つの辞書データが同一人物であるかないかを判定する。判定する方法は、前述した所定の閾値を用いた処理を用いる。ここで、２つの辞書データが同一人物であると判定された場合、次のＳ９０３に進む。
【００３６】
Ｓ９０３において、辞書データ比較手段１０３は、人物辞書データ判定結果を出力し、表示手段１０４は、液晶モニタ３０６に２辞書データの同一人物判定結果に基づいたメッセージを出力する。図８（ａ）に出力メッセージの表示例を示す。メッセージは、たとえば、図３の液晶モニタ３０６の表示部に、図８（ａ）の様式で出力される。出力されるメッセージは、２つのカテゴリが一致しない場合で、かつ、同一の人物と考えられる２枚の辞書画像と共に出力される。図８（ｂ）に、図８（ａ）のメッセージ各部の詳細を示す。出力メッセージ例１１０１は、候補イベントメッセージ１１０３、カテゴリ名称１１０４、サムネイル辞書画像１１０５、辞書データ名１１０６を備える。候補イベントメッセージ１１０３は、「カテゴリの統合を行いますか？Ｙｅｓ／Ｎｏ」という表示であり、ユーザが対応すべき動作を示している。カテゴリ名称１１０４は、サムネイル辞書画像１１０５のそれぞれのカテゴリ名称を表している。ここでは、辞書画像Ａは「お父さん」というカテゴリ（第１カテゴリ）であり、辞書画像Ｂは「父」というカテゴリ（第２カテゴリ）である。辞書データ名１１０６は、各サムネイル辞書画像がどの辞書データのものであったかを表示している。
【００３７】
ここで、図７のフローチャートの説明に戻る。Ｓ９０４で、操作手段１０７は、同一人物辞書データに対して、同一人物の画像が見つかった状況に対するユーザによる入力を受付け、検知する。ユーザ入力は、例えばカーソルキーを用いて行われる。図９は、入力を検知するカーソルキーの例を示す。ユーザは、カーソルキー１２０１を使って、メッセージ表示されている「Ｙｅｓ／Ｎｏ」のうち、どちらかを選択する。図９では、ユーザがカーソル１２０２が「Ｙｅｓ」の部分に移動したと仮定すると、ユーザの選択入力は、Ｙｅｓである。なお、入力を検知する手段は、カーソルキーに限定されるものでなく、それ以外のものでもよい。例えば、タッチパネル方式の入力方法を用いてもよい。
【００３８】
Ｓ９０２で、同一人物でないと判定された場合、次の同一でない人物辞書データを出力するＳ９０５が実行される。Ｓ９０５では、カテゴリを比較した２枚の辞書画像とカテゴリ名称を液晶モニタ表示部に出力する。図１０（ａ）は、本ステップで出力される表示形式の一例である。図１０（ａ）で出力される出力メッセージの例１３０１は、同一人物でないが、同一カテゴリである２つ辞書画像を出力している。
【００３９】
次に、同一でない人物に対するユーザ入力を検知するＳ９０６について説明する。本ステップでは、表示手段１０４が図１０（ｂ）に示すメッセージを出力し、操作手段１０７がユーザからの入力を検知する。出力するメッセージについて、図１０（ｂ）を用いて説明する。
【００４０】
Ｓ９０６で、同一でない人物に対するユーザの入力が検知され、その結果が処理される。また、辞書画像１４０３は、同一のカテゴリで、かつ同一でない人物と判定された画像である。また、カテゴリ名称１４０４は、辞書画像１４０３の対応する人物のカテゴリを表している。さらに、候補イベントメッセージ１４０５は、ユーザに対して知らせるべきイベントを表している。ユーザは、前述のカーソルキーを操作して、候補イベントメッセージ１４０５に対する応答を入力する。入力の方法は、ステップ９０４で説明した方法と同様である。
【００４１】
ここで、再び図２のフローチャートの説明に戻る。図２のカテゴリ変更の処理を行うＳ２０５について説明する。図１１は、カテゴリ変更処理ステップの詳細を説明する処理フローチャートである。図１１は、カテゴリ変更を実施する際の処理フローを表している。
【００４２】
ステップＳ１５０１では、カテゴリ変更手段１０５は、カテゴリ名称の変更に対する可否を判断する。具体的には、前述した図７のフローチャートのＳ９０４またはＳ９０６でのユーザ入力に基づいて、カテゴリ名称の変更可否が判断される。Ｓ９０４またはＳ９０６では、表示手段１０４は、前述の図８（ａ）または（ｂ）に示したメッセージを出力し、操作手段１０７は、ユーザからの入力を受け付ける。Ｓ９０４またはＳ９０６でのユーザ入力は、「カテゴリ名称をマージしますか？」というメッセージに対する応答であり、その応答は「Ｙｅｓ」または「Ｎｏ」のどちらかである。
【００４３】
Ｓ１５０１において、ユーザの入力が「Ｙｅｓ」の場合、Ｓ１５０２へ進む。一方、ユーザの入力が「Ｎｏ」の場合、Ｓ１５０５に進む。次に、Ｓ１５０１でカテゴリ名称を変更すると判断された場合の処理について説明する。
【００４４】
図１２および図１３は、カテゴリ名称を変更画面表示する例である。まず、図１２と図１３の相違について説明する。図１２は、辞書画像同士が別人物の場合に対するカテゴリ名称の変更画像を示す。一方、図１３は、辞書画像同士が同一人物の場合に対するカテゴリ名称の変更画面を示す。ここでは、図１２および図１３の画面の表示前に、カテゴリ変更手段１０５により、画面に表示する２つの辞書画像のカテゴリ名称が一致しているかどうかが比較されている。同一人物の場合、カテゴリ名称変更前の状態では、それぞれの画像に対して別のカテゴリ名称が存在したが、同一人物なので、カテゴリ名称を統一するために変更する。したがって、カテゴリは１つとなる。次に、出力メッセージの各部の説明を行うが、図１３の各部の詳細は、図１２と同様なので、詳細な説明は割愛する。
【００４５】
出力メッセージの例１６０１は、Ｓ１５０２において、前述の液晶モニタ上に出力されたメッセージである。また、出力メッセージの例１６０１の構成を示したのが、出力メッセージの例１６０２である。出力メッセージは、辞書画像１６０３、メッセージ１６０４、カーソル１６０５、入力欄１６０６を備える。辞書画像１６０３は、カテゴリ名称を変更するための画像である。また、メッセージ１６０４は、ユーザに対する指示が出力されており、カテゴリ名称の変更に対する入力を待っている。また、カーソル１６０５は、カテゴリ変更する画像を選択する際に用いられる。また、入力欄１６０６は、入力前後のカテゴリ名称を表示している。
【００４６】
ここで、図１１のフローチャートの説明に戻る。Ｓ１５０２の処理が終了すると、Ｓ１５０３に移行する。Ｓ１５０３では、操作手段１０７は、Ｓ１５０２で表示されたメッセージに対するユーザ入力を検知する。ユーザ入力とは具体的に、図１２または図１３で示したカーソル１６０５または１７０５で入力欄１６０６または１７０６を選択することである。よって、ユーザの選択動作は、前述の図９に示した決定ボタン１２０３といったもので決定される。
【００４７】
次に、Ｓ１５０４で、カテゴリ変更手段１０５は、カテゴリ名称の入力処理を行う。つまり、前ステップでユーザが選択した入力欄に対して、実際の書き込みが行われる。図１４は、Ｓ１５０４で液晶モニタに出力される画面を示す。処理がＳ１５０４に移行すると、液晶モニタには、カテゴリ入力コンソール部１８０１、辞書画像１８０４、入力欄１８０５および入力設定表示部１８０６が出力される。
【００４８】
カテゴリ入力コンソール部１８０１の例として、画面上に表示されるキーボードのようなものがある。入力は、カーソルキー１８０２を使ってアルファベットや数字等が記載されているキーを選択し、決定ボタン１８０３で文字を決定することにより行われる。このとき、画面の右上部には、ローマ字入力なのか、大文字の入力なのかを示す、入力設定表示部１８０６がある。また、この場合、「Ｈ」のキーを白色で塗り潰すことで、「Ｈ」が選択されていることが示されている。
【００４９】
また、辞書画像１８０４は、カテゴリを入力している辞書画像を表している。さらに、入力欄１８０５は、入力しているカテゴリを表示している。Ｓ１５０４で、ユーザは、図１４に示すカテゴリ入力コンソールを用いてカテゴリ名称の入力を行う。但し、カテゴリ名称の入力方法としては、前述したコンソールを用いる方法だけに限定されるものでない。例えば、液晶モニタのコンソール部をタッチすることで、文字が入力できるタッチパネル方式でも構わない。
【００５０】
図１１のフローチャートの説明に戻る。Ｓ１５０４の処理を終了すると、次の辞書データの一覧表示を行うＳ１５０５へ移行する。Ｓ１５０５では、カテゴリ名称が変更されたか、されていないかの状況に関わらず、表示手段１０４は、現状の辞書画像の画像とそれぞれのカテゴリ名称を表示し、操作手段１０７は、ユーザの確認の入力を待つ。図１５は、液晶モニタに出力される確認用の表示を表している。
【００５１】
Ｓ１５０４で、出力メッセージの例１９０１が表示される。出力メッセージの例１９０１は、辞書画像１９０２、対応する辞書画像のカテゴリ名称１９０３およびメッセージ１９０４を備える。ユーザは、出力メッセージをチェックして、辞書画像と対応するカテゴリ名称がユーザ自身の意図したものであるかの確認を行う。そして、辞書データの構成がユーザの意図したものだとすると、カーソルキー等を操作して、メッセージ１９０４にある「Ｙｅｓ」を選択し、決定ボタンを押す。一方、辞書データの構成がユーザの意図しないものであれば、メッセージ１９０４にある「Ｎｏ」を選択して、決定ボタンを押す。「Ｎｏ」を選択した場合、再度Ｓ１５０１へ戻りカテゴリ名称の構築を実施する。また、「Ｙｅｓ」が選択された場合、図１１のフローチャートは終了する。
【００５２】
以上が実施形態１の説明であるが、実施形態１の辞書データは、顔情報に限定されるものでなく、他の一般的な物体においても有効である。具体的には、ペットや花といったものでも良い。この場合、辞書データには、ペットや花の種別を区別する特徴量を含むことになる。尚、以上の説明では、カテゴリの名称の統合は、２つの異なる辞書の間について述べた。しかしながら、同一の辞書中でも、作成者や作成時期などの違いにより、異なるカテゴリの名称にそれぞれ同一の人物が含まれている場合、そのカテゴリの名称を統合することが可能であることはいうまでもない。
【００５３】
以上のように、実施形態１では、辞書データの機器間を統合するときに、各機器の辞書データにおいて同一人物に対するカテゴリ名称を矛盾なく設定することが出来る。また、各機器の辞書データにおいて同一でない人物かつ同一のカテゴリ名称の辞書データに対してものカテゴリ名称を矛盾なく設定することが出来る。また、簡単なユーザインタフェースを用いることで、カテゴリ名称の再構築が容易に実施できる。
【００５４】
＜実施形態２＞
実施形態２では、機器固有の辞書データに、各登録者の画像が複数個存在した場合の辞書データを統合する技術について述べる。
【００５５】
図１６は、前述した図２のマッチング処理を行うＳ２０２のフローチャートに対応した、実施形態２のフローチャートである。
【００５６】
Ｓ２００１で、辞書データ比較手段１０３は、第１辞書データ２００２から、あるカテゴリに属する辞書画像群を抽出する。ここで言う第１辞書データ２００２は、図１７に示す第１辞書データ２１０１のことでもある。Ｓ２００１では、具体的には、図１７における第１辞書データ２１０１の（ｃａｔｅｇｏｒｙ）_１１の辞書画像群を取得する処理が行われる。ここで、（ｃａｔｅｇｏｒｙ）_１１は、辞書画像群のカテゴリ名称であり、例えば「お父さん」というカテゴリ名称を持つ。
【００５７】
次に、Ｓ２００３で、、辞書データ比較手段１０３は、第２辞書データ２００４から、あるカテゴリに属する辞書画像群を抽出する。ここで言う第２辞書データ２００４は、図１７に示す第２辞書データ２１０２のことでもある。ここで、第２辞書データは、前述の第１辞書データと同様に、カテゴリ名称と辞書画像を持つ。
【００５８】
Ｓ２００６で、辞書データ比較手段１０３は、Ｓ２００１とＳ２００３で抽出した辞書画像群の間の類似度を算出する。カテゴリ間の類似度の算出方法の詳細を、図２０のフローチャートを用いて説明する。
【００５９】
第１辞書データのあるカテゴリに属する画像の数がｍ個、また第２辞書データのあるカテゴリに属する画像の数がｎ個あると仮定する。まずＳ２４０１で、辞書データ比較手段１０３は、ｍ個の辞書画像のうち第ｍ番目の辞書画像を選択する。次に、Ｓ２４０２で、辞書データ比較手段１０３は、第ｎ番目の辞書画像を選択する。更に、Ｓ２４０３で、選択した画像同士の類似度を算出する。ここでの類似度は、（１）式で示した正規化相関値を用いて算出される。次にＳ２４０４では、辞書データ比較手段１０３は、第２辞書画像の全ての画像が処理済みであるかを判断する。Ｓ２４０４で全画像の処理が終了されたら、次のＳ２４０５に移行する。一方、第２辞書画像で未処理の画像が存在した場合、辞書画像の選択処理であるＳ２４０２に戻る。次に、Ｓ２４０５で、辞書データ比較手段１０３は、Ｓ２４０４の処理と同じく第１辞書画像の全ての画像が処理済みであるかを判断する。
【００６０】
Ｓ２４０６において、辞書データ比較手段１０３は、カテゴリ間の平均類似度（相関値）を算出するため、次式で表される演算を行う。

（２）式は、カテゴリ間平均相関値を表している。ここで、第１の輝度ベクトルＩ_１ｍは、辞書データ１の第ｍ番目の辞書画像の輝度ベクトルである。また、第２の輝度ベクトルＩ_２ｎは、辞書データ２の第ｎ番目の辞書画像の輝度ベクトルである。以上が、カテゴリ間の類似度を算出する処理である。
【００６１】
図１６の説明に戻り、同一人物の判定処理を行うＳ２００７について説明する。このステップでは、（２）式のカテゴリ間の類似度に基づき、Ｓ２００１で選択された辞書データ人物とＳ２００３で選択された辞書データ人物とが同一人物であるかの判断が行われる。同一人物かどうかの判断は、カテゴリ間の類似度に対して所定の閾値を用いた処理により行われる。
【００６２】
次に辞書データ比較手段１０３は、Ｓ２００８で、第２辞書データ群の全カテゴリを選択したかどうかの判断を行い、またＳ２００９で、第１辞書データ群の全カテゴリを選択したかどうかの判断を行う。全て選択したと判断された場合、図１６に示すフローチャートのステップが終了する。
【００６３】
更に、第２実施形態における、図２のインタラクティブ処理を行うＳ２０４とカテゴリの変更処理を行うＳ２０５に関する処理について説明する。
【００６４】
実施形態２におけるインタラクティブ処理とカテゴリの変更処理は、基本的に実施形態１の処理とほとんど変わらない。ただし、実施形態１では、辞書データ１および辞書データ２の各カテゴリの辞書画像枚数は１枚であったが、実施形態２の場合、１枚でなく複数枚となる点が異なる。この相違により、ユーザの出力処理が実施形態１と異なる。よってこの異なる部分について説明するための代表例を以下に示す。
【００６５】
図１８は、実施形態１の図１３と同様な、実施形態２のユーザの入力を受け付ける図である。図１８の出力メッセージの例２２０１は、辞書画像群２２０２、メッセージ２２０３、カーソル２２０４、入力欄２２０５、カーソルキー２２０６、画像スイッチャー２２０８およびポップアップ画像２２０９を備える。実施形態１の図１３と異なる点は、辞書画像の表示の仕方にある。図１８では、辞書データの統合の結果、辞書画像が５枚存在する。したがって、カテゴリ名称を変更するとき、実施形態１と同じ表示を用いると辞書画像でモニタが埋まり、入力欄等の表示部分が限定されてしまう。したがって、実施形態１と同じ表示を用いることは、ユーザへの配慮が欠けた表示となる。
【００６６】
そこで、図１８に示すように、辞書画像を一部重ねて表示する。そのとき、１枚だけを詳細に確認したい場合は、画像スイッチャー２２０８を使って、所望の辞書画像をポップアップ表示させる。ポップアップ画像の例として、図１８のポップアップ画像２２０９がある。また例えば、ポップアップ画像を次々に表示させるために、カーソルキー２２０６によりカーソル２２０４を画像スイッチャー２２０８に移動させ、カーソルキー２２０６の左右ボタンを押すことで、ポップアップ画像を変更すればよい。
【００６７】
なお、ポップアップ画像を変更する手段は、この方法に限定されない。他の方法として、タッチパネルのモニタを搭載しているのであれば、タッチされた画像をポップアップ表示するといったものでよい。
【００６８】
また、図１９は、実施形態１の図１５に相当する、実施形態２における構成確認の図である。図１９の出力メッセージ２３０１は、辞書画像群２３０２、カテゴリ名称２３０３、メッセージ２３０４、カーソル２３０５、カーソルキー２３０６および決定ボタン２３０７を備える。前述した図１５と同様の部分の説明は割愛する。
【００６９】
まず、辞書画像は、複数個存在するので、各カテゴリで辞書画像を一部重ねた状態で表示される。前述の図１８と同じく、カーソル２３０５をカテゴリ名称２３０３にあわせて、決定ボタン２３０７を押すと、カーソルキーの左右ボタンを押すことで、ポップアップ画像を切り替えることが出来る。
【００７０】
以上に述べたように、実施形態２では、統合する辞書データに複数枚辞書のカテゴリが存在した場合でも、適切にカテゴリ名称の再構築が可能となる。また、そのとき、ユーザにとって扱いやすいインターフェースを提供することで、ユーザの操作負担を軽減することが可能となる。
【００７１】
＜実施形態３＞
実施形態３では、辞書データを統合した後、各カテゴリの辞書画像枚数を調整し、辞書画像の記憶容量を低減する技術について説明する。具体的には、第１辞書データのあるカテゴリに属する辞書画像が３枚存在し、第２辞書データのあるカテゴリに属する辞書画像が２枚存在している場合について考慮する。そのとき、両辞書画像が同一人物で辞書データの統合を行うものとする。
【００７２】
辞書データを統合後、この場合のカテゴリに属する辞書画像は５枚になるのが一般的であるが、デジタルカメラのメモリ容量が十分でない場合も多く、実際には５枚すべてを登録することは望ましくない。そこで、５枚から辞書画像に好適な画像を選択し、メモリ容量が許容する枚数まで削減する必要がある。以下に、辞書画像枚数の削減する方法について記載する。
【００７３】
図２１は、実施形態３の詳細を説明するフローチャートである。Ｓ２５０１で、辞書データ比較手段１０３は、辞書データを統合する第１辞書データのあるカテゴリの辞書画像群と第２辞書データのあるカテゴリの辞書画像群との間の、類似度総和値を算出する処理を実行する。この場合、ｉ番目の辞書画像の類似度総和の値は、次式で求められる。
【００７４】

ここで、Ｉ_ｉおよびＩ_ｊは、それぞれ辞書画像１と２の輝度ベクトルである。また、ｎおよびｍは、各辞書データで何番目の辞書画像であるかを表す。
【００７５】
次に、Ｓ２５０２で、辞書データ比較手段１０３は、（３）式で求めた各辞書画像の類似度総和値のソートを実行する。ここで実施するソートにより、類似度総和値を降順で並ばせる。更に、Ｓ２５０３で、辞書データ比較手段１０３は、前ステップのソート結果に基づいて、辞書データ統合後に削除する画像候補を指定する。
【００７６】
つまり、本実施形態では、第１辞書データのカテゴリのｍ個の辞書画像群と第２次書データの第２カテゴリの辞書画像群において、ｍとｎの和が所定数Ｎより大きい場合に、各画像についての自身以外の辞書画像との類似度の総和値を算出し、その総和値で小さな類似度の総和値を有する辞書画像から順番に並べ、Ｎ＋１個目以降の辞書画像を第１カテゴリおよび第２カテゴリから削除する。この例では、類似度総和値の上位２つの辞書画像が登録除外画像として選択される。つまり、類似度の総和値の上位の２つの辞書画像は、それら以外の辞書画像とよく似ている。よって、上位２つの辞書画像を削除しても、顔認識の精度に与える影響は小さい。したがって、類似度総和値の上位２つの辞書画像を統合後の辞書画像から削除する。なお、辞書画像を除外する情報として、辞書画像同士の類似度のみならず、他のパラメータを用いてもよい。一例として、各辞書画像が記録された日時、辞書画像の画質、または辞書画像の変動条件でもよい。たとえば記録された日を用いる場合、記録された日時が古い辞書画像から除外してもよい。また、辞書画像の画質を用いる場合、ボケている画像等を削除すればよい。さらに、辞書画像の変動条件を用いる場合、例えば顔の向きで辞書画像の削除対象を決定することができる。
【００７７】
以上述べたように、実施形態３では、辞書データのメモリ容量を抑えた辞書データの統合を行うことが可能となり、かつ統合後辞書データによる顔認識精度の低下を防止できる。
【００７８】
＜実施形態４＞
実施形態４では、辞書データ統合を、パーソナルコンピュータ（以下、ＰＣと称す）とデジタルカメラで行う技術について説明する。本実施形態において、ＰＣがデジタルカメラに接続されている構成を考える。この構成をとることで、ＰＣの顔認識アプリケーションが所有する辞書データがデジタルカメラの持つ辞書データと統合される。このときの統合の動作は次のとおりである。
【００７９】
まず、ユーザの指示によりＰＣから辞書データがデジタルカメラ内のコンパクトフラッシュメモリにダウンロードされる。なお、統合先である、デジタルカメラの動作は、実施形態１で説明した動作と同様である。また、統合先は、デジタルカメラに限定されるものでなく、統合元と同じくＰＣでも構わない。実施形態４では、ＰＣ上の画像リソースからユーザが適切と思われる画像をピックアップし、それらの画像をユーザがカテゴリ名称を付加し、辞書データとしてコンパクトフラッシュにコピーするというものである。
【００８０】
実施形態４の構成をとると、ユーザが顔認識に最適な画像をＰＣからピックアップし、その画像をデジタルカメラの辞書データと結合するので、デジタルカメラ上の登録作業を行わずに容易に辞書データを構築できるという効果がある。

【特許請求の範囲】
【請求項１】
オブジェクト認識のための辞書に含まれる複数のカテゴリの中から第１カテゴリに関連付けられた第１辞書情報を抽出し、前記辞書または他の辞書に含まれる複数のカテゴリの中の第２カテゴリと関連付けられた第２辞書情報を抽出する抽出手段と、
前記第１辞書情報および前記第２辞書情報からそれぞれ第１特徴量および第２特徴量を算出し、該算出した第１特徴量と第２特徴量との類似度が所定の閾値より大きいか否かを判定する判定手段と、
前記第１カテゴリの名称と前記第２カテゴリの名称とを比較する比較手段と、
前記判定手段で所定の閾値より大きいと判定され、かつ、前記比較手段で前記第１カテゴリの名称と前記第２カテゴリの名称とが一致しないと判断された場合に、該第１カテゴリの名称および該第２カテゴリの名称を統合するか否かの指示を受付ける受付手段と、
前記受付手段が、該第１カテゴリの名称および該第２カテゴリの名称とを統合する名称を受付けた場合に、該第１カテゴリの名称と該第２カテゴリの名称とを該受付けた統合する名称で統合する統合手段と、
を備えることを特徴とするオブジェクト認識装置。
【請求項２】
前記受付手段は、更に、前記判定手段で所定の閾値以内と判定され、かつ、前記比較手段で第１カテゴリと前記第２カテゴリの名称とが一致すると判断された場合に、該第１カテゴリおよび該第２カテゴリの各々のカテゴリの名称の入力を受付けることを特徴とする請求項１に記載のオブジェクト認識装置。
【請求項３】
前記第１特徴量は、前記第１辞書情報に含まれる人物画像の顔領域から算出した第１の輝度ベクトルであり、また前記第２特徴量は、前記第２辞書情報に含まれる人物画像の顔領域から算出した第２の輝度ベクトルであり、前記判定手段が該第１の輝度ベクトルと該第２の輝度ベクトルとの相関値が所定の閾値以内にあるか否かを判定することを特徴とする請求項１または２に記載のオブジェクト認識装置。
【請求項４】
前記抽出手段が、前記第１カテゴリの前記第１辞書情報に含まれるｍ個の人物画像から算出した第１の輝度ベクトルＩ_１ｍと、前記第２カテゴリの前記第２辞書情報に含まれるｎ個の人物画像から算出した第２の輝度ベクトルＩ_２ｎとを抽出した場合に、前記判定手段は、次式

を用いて、前記第１カテゴリと前記第２カテゴリとの間の平均類似度を算出し、該算出した平均類似度が予め定められた閾値より大きい場合に、前記第１カテゴリに含まれる前記第１辞書情報と前記第２カテゴリの第２辞書情報とが同一であると判定することを特徴とする請求項３に記載のオブジェクト認識装置。
【請求項５】
前記判定手段が、前記第１カテゴリに含まれる前記第１辞書情報と前記第２カテゴリの第２辞書情報とが同一であると判定した場合で、かつ、前記ｍと前記ｎの和が所定数Ｎより大きい場合に、前記統合手段は、ｉ番目の辞書情報の類似度総和の値を求める式

により、ｍ個の第１辞書情報およびｎ個の第２辞書情報の各々について算出した類似度の総和の値が小さい順番に辞書情報を並べ、Ｎ＋１個目以降の辞書情報を前記第１カテゴリまたは前記第２カテゴリから削除することを特徴とする請求項４に記載のオブジェクト認識装置。
【請求項６】
抽出手段が、オブジェクト認識のための辞書に含まれる複数のカテゴリの中から第１カテゴリに関連付けられた第１辞書情報を抽出し、前記辞書または他の辞書に含まれる複数のカテゴリの中の第２カテゴリと関連付けられた第２辞書情報を抽出する抽出工程と、
判定手段が、前記第１辞書情報および前記第２辞書情報からそれぞれ第１特徴量および第２特徴量を算出し、該算出した第１特徴量と第２特徴量との類似度が所定の閾値より大きいか否かを判定する判定工程と、
比較手段が、前記第１カテゴリの名称と前記第２カテゴリの名称とを比較する比較工程と、
受付手段が、前記判定工程で所定の閾値より大きいと判定され、かつ、前記比較工程で前記第１カテゴリの名称と前記第２カテゴリの名称とが一致しないと判断された場合に、該第１カテゴリの名称および該第２カテゴリの名称を統合するか否かの指示を受付ける受付工程と、
統合手段が、前記受付工程で該第１カテゴリの名称および該第２カテゴリの名称とを統合する名称を受付けた場合に、該第１カテゴリの名称と該第２カテゴリの名称とを該受付けた統合する名称で統合する統合工程と、
を有することを特徴とするオブジェクト認識方法。

【図１】