物体認識装置及び物体認識方法

【課題】従来手法と比較してより高速かつ高精度な３次元物体認識を実現可能とする。
【解決手段】物体認識装置１は、記憶画像と、記憶画像から予め抽出された特徴点と、特徴点の位置関係情報と、を記憶するデータベース２と、データベース２の記憶画像の特徴点と入力画像から抽出した特徴点との間で対応特徴点を探索して、記憶画像の特徴点の位置関係情報に基づいて算出する投票点を入力画像に投票し、その投票点が集中しかつ投票数が多いほど入力画像と記憶画像との類似度が高いと判定して、入力画像と類似する記憶画像を特定する記憶画像特定手段１１と、特定された記憶画像を用いて想起画像を生成し、想起画像と入力画像とを比較して類似していると判断した場合に、入力画像に認識対象を検出したと判定する判定手段１２と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、物体認識装置及び物体認識方法に関する。
【背景技術】
【０００２】
物体認識は、例えばロボットの視覚能力を実現するうえで必要不可欠な機能であり、コンピュータビジョンにおける重要な研究テーマの一つとなっている（非特許文献１参照）。また、横から見た飛行機や正面から見た道路標識といった、ある程度視点を限定した条件下での一般物体画像のクラス分類についても、共通のデータセットが存在するなどの理由から、非常に研究が盛んである。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００７−１４８８７２号公報
【特許文献２】特開２００７−２８００４０号公報
【非特許文献】
【０００４】
【非特許文献１】柳井啓司，"一般物体認識の現状と今後，" 情処学論: コンピュータビジョン・イメージメディア，vol.48，no.SIG16 (CVIM19)，pp.1-24，2007．
【非特許文献２】M. Sun, H. Su, S. Savarese, and L. Fei-Fei, "A multiview probabilistic model for 3d object classes," IEEE Int.Conf. Comput. Vision and Pattern Recognit., pp.1247-1254, 2009.
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、非特許文献１などに開示される一般物体を対象とした手法については、未だ実環境での利用には限定的と言わざるを得ない。その理由の一つに、認識対象が３次元物体であるにも関わらず、既存研究の多くが、その認識可能な視点が限定されたものとなっており、対象の向き変化に起因するクラス内変化に対応できていないことが挙げられる。
【０００６】
この問題に対し、近年では、一般物体を対象とした３次元物体認識のタスクに取り組む研究も行われるようになってきた（例えば、非特許文献２参照）。しかしながら、３次元物体の認識においては、その向きの推定まで行えてこそ正しく対象を認識したと考えられるが、非特許文献２に例示される従来研究においても、向き推定に関する評価はあまり重要視されておらず、定量評価にまで重点を置いて評価が行なわれている研究は少ないのが現状である。
【０００７】
また、非特許文献２に例示される手法は、いずれも対象の幾何学的構造を考慮してその特徴を学習するモデルベースな手法である。クラス内変化の大きい３次元物体認識においては、対象の３次元的な構造情報を利用するモデルベースな手法は妥当なアプローチであると考えられるが、学習時に対象の撮影角度情報が必要となるなど、一般的に学習コストが高く、また、対象の記述方法が複雑になりやすいといった欠点が存在する。以下、モデルベースな手法の問題点についてより詳細に説明する。
【０００８】
まず、３次元の幾何学的構造を扱おうとすると、一般的に、任意の視点間における様々な特徴領域間の繋がりやその関連性（射影変換など）を算出する必要がある。このため、対象モデルの表現の仕方が複雑になりやすいという問題がある（実装が複雑になりやすい）。
【０００９】
また、学習時には学習画像の撮影角度情報が必要となるなど、学習データにそれらの情報を付与する必要があり、学習データの作成コストが高くなる場合が多いという問題がある。
【００１０】
また、３次元物体認識では、同一クラスの認識対象であっても、その視点の多様性から、個々の形状や外観がとても大きく変化してしまう。このため、認識に時間を要してしまう場合が多いという問題がある。
【００１１】
また、画像から抽出した特徴量を利用して対象を認識するが、特徴量は画像の特徴的な情報のみを抽出しているために、その情報量は画像に比べて少なくなっている。このため、複雑な背景下（シーン）で認識を行う場合に、学習した特徴量と類似する特徴量が背景に多数存在するときには、誤認識してしまうことがある。つまり、特徴量の識別能力が認識精度に大きく影響を与える。一方で、識別能力が高い特徴量を用いた場合には、学習画像には含まれないものの同一クラスには含まれる対象を同一クラスとして認識させたいときに、その検出ができない状況に陥ることがある。また、特徴量の構造的な繋がりを評価することで認識を行っているものの、大局的な見え方としての類似性が考慮されていない。従って、これらの理由から、認識精度が低い（誤検出率が高い）という問題がある。
【００１２】
なお、本発明に関連する他の技術として、特許文献１及び２には、眼鏡やヒゲの変化などといった時間経過とは独立した顔画像の部分的変化に対応して、本人認証を行うことができる顔認証装置が開示されている。当該顔認証装置では、入力画像から抽出された認証対象画像と予め学習させた登録画像とを照合し、照合の結果、同一人物ではないと判定した場合には、登録画像に近い想起画像を登録画像から生成し、認証対象画像に代えて想起画像を用いて登録画像との照合を再度行う。このように、登録画像から生成した想起画像により眼鏡やサングラスによる一部隠れを補間することで検出率自体は向上するものの、補間画像の精度を向上させることは難しく、誤認証率の低減について不十分なものである。
【００１３】
従って本発明は、上述した課題を解決して、従来手法と比較してより高速かつ高精度な３次元物体認識を実現可能な物体認識装置及び物体認識方法を提供することを目的とする。
【課題を解決するための手段】
【００１４】
本発明に係る第一の態様の物体認識装置は、認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を記憶する記憶手段と、入力画像から特徴点を抽出して、前記記憶手段に記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定手段と、前記記憶画像特定手段で特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定手段と、を備えるものである。
【００１５】
これにより、従来手法と比較してより高速かつ高精度な３次元物体認識を実現することができる。
【００１６】
また、前記判定手段は、前記記憶画像特定手段で特定された複数の前記記憶画像を、それぞれの前記入力画像との類似度に応じて合成することで、前記想起画像を生成するようにしてもよい。
【００１７】
さらにまた、前記判定手段は、前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断する際に、当該想起画像の生成に利用された前記入力画像の投票点の総数が多いほど、前記想起画像と前記入力画像とがより類似すると判断するようにしてもよい。
【００１８】
また、前記記憶手段は、前記認識対象の向き情報を前記記憶画像と対応付けて更に記憶し、前記判定手段は、前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定すると共に、前記想起画像の生成に用いられた前記記憶画像の向き情報に基づいて、当該検出した前記認識対象の向きを推定するようにしてもよい。
【００１９】
本発明に係る第二の態様の物体認識装置は、認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに複数記憶するデータベースと、入力画像から特徴点を抽出し、前記データベースに記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索部と、前記対応点探索部で探索された前記入力画像の対応点について、前記データベースに記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理部と、前記投票処理部で投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリング部と、前記投票点クラスタリング部で前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成部と、前記候補枠生成部で生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成部と、前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出部と、を備えるものである。
【００２０】
これにより、従来手法と比較してより高速かつ高精度な３次元物体認識を実現することができる。
【００２１】
また、前記想起画像生成部は、前記候補枠生成部で生成された候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記記憶画像を、それぞれの前記テンプレートモデルから得た前記入力画像における投票数に応じて合成することで、前記想起画像を生成するようにしてもよい。
【００２２】
さらにまた、前記信頼値算出部は、前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出すると共に、当該候補枠に対応する全ての前記テンプレートモデルから得た前記入力画像における投票総数を算出し、当該算出した相違度の逆数と当該投票総数とに基づいて算出する信頼値が所定の閾値よりも小さかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定するようにしてもよい。
【００２３】
また、前記テンプレートモデルは、前記認識対象の向きを示す向き情報を更に含み、前記信頼値算出部で前記認識対象を検出したと判定された場合に、当該検出された前記認識対象の候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記向き情報に基づいて、当該検出された前記認識対象の向きを推定する向き推定部を更に備えるようにしてもよい。
【００２４】
本発明に係る第三の態様の物体認識方法は、認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を予め記憶する記憶ステップと、入力画像から特徴点を抽出して、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定ステップと、前記記憶画像特定ステップで特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定ステップと、を有するものである。
【００２５】
これにより、従来手法と比較してより高速かつ高精度な３次元物体認識を実現することができる。
【００２６】
本発明に係る第四の態様の物体認識方法は、認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに予め複数記憶する記憶ステップと、入力画像から特徴点を抽出し、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索ステップと、前記対応点探索ステップで探索された前記入力画像の対応点について、前記記憶ステップで記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理ステップと、前記投票処理ステップで投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリングステップと、前記投票点クラスタリングステップで前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成ステップと、前記候補枠生成ステップで生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成ステップと、前記想起画像生成ステップで生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出ステップと、を有するものである。
【００２７】
これにより、従来手法と比較してより高速かつ高精度な３次元物体認識を実現することができる。
【発明の効果】
【００２８】
本発明によれば、従来手法と比較してより高速かつ高精度な３次元物体認識を実現可能な物体認識装置及び物体認識方法を提供することができる。
【図面の簡単な説明】
【００２９】
【図１】実施の形態１に係る物体認識装置の構成を示す機能ブロック図である。
【図２】実施の形態１に係る学習モデルを説明するための図である。
【図３】実施の形態１に係る認識手順の概要を示すフローチャートである。
【図４】実施の形態１に係る特徴点の位置ベクトルを説明するための画像である。
【図５】実施の形態１に係る中心候補点の投票を説明するための画像である。
【図６】実施の形態１に係る入力画像における対応点探索とVoting処理を説明するための画像である。
【図７】実施の形態１に係る想起画像の例を示す画像である。
【図８】実施の形態１に係る想起画像の生成方法を説明するための画像である。
【図９】実施の形態１に係る想起画像を用いた誤検出除去を説明するための画像である。
【図１０】実施の形態１に係る正しく検出できた場合の認識結果を示す画像である。
【図１１】実施の形態１に係る誤って検出した場合の認識結果を示す画像である。
【図１２】実施の形態１に係るクラス検出結果を示すグラフである。
【図１３】実施の形態１に係る向き推定結果を示すグラフである。
【発明を実施するための形態】
【００３０】
本発明の各実施の形態について説明する前に、本発明の基本構成について説明する。
まず、本発明は、一般物体のうち、比較的形状変化の少ない剛体（後述する実施の形態では自動車を例に説明する。）を対象とする３次元物体認識について、学習画像一つひとつに対して独立に学習・認識を行うアピアランスベースな手法を採用したものである。さらに、後述するように、本発明による効果を確認するため、PASCAL VOC 2006 datasetを用いて、３次元物体のクラス検出精度を評価すると共に、それらの向き推定の結果についても定量的な評価を行う。
【００３１】
本発明では、計算コストが比較的低いVoting処理（高木雅成，藤吉弘亘，"SIFT 特徴量を用いた交通道路標識認識," 電学論C，vol.129，no.5，pp.824-831，2009．）を利用して、学習した認識対象それぞれについてその存在の有無を判定すると共に、それらの結果を重畳することで認識対象の存在範囲及びその向きを推定する。
【００３２】
本発明では、認識時に、認識対象のアピアランス（見え方）の想起を行う（想起画像を生成する。）ことを特徴とする。これは、認識した範囲に認識対象がどのように存在しているか、そのアピアランスを推定するものであり、これにより、システムが対象をどのように認識しているのかを視覚的に確認することが可能となる。本発明では、この想起結果と認識範囲とを画像として比較することで誤検出の除去を行い、これによって、認識精度の向上を図る。なお、本発明による認識対象は、原理的に、形状変化の少ない剛体であれば自動車に限定されず、他の物体であってもよい。
【００３３】
実施の形態１
以下、図面を参照して本発明の実施の形態について説明する。なお、以下では、本文中の説明においては、必要に応じそれ以前に述べた符号を用いるものとする。
【００３４】
図１は、本実施の形態に係る物体認識装置の構成を示す機能ブロック図である。物体認識装置１は、学習モデルを記憶したデータベース２と、対応点探索部３と、投票処理部４と、投票点クラスタリング部５と、候補枠生成部６と、想起画像生成部７と、信頼値算出部８と、向き推定部９と、を備えている。
【００３５】
記憶画像特定手段１１は、対応点探索部３の機能と、投票処理部４の機能と、投票点クラスタリング部５の機能と、候補枠生成部６の機能と、を備えている。より具体的には、対応点探索部３の機能により、入力画像から特徴点を抽出して、データベース２に記憶された記憶画像の特徴点と入力画像から抽出した特徴点との間で対応する特徴点を探索する。投票処理部４の機能により、探索した対応点について、記憶画像の特徴点の位置関係情報に基づいて算出する投票点を入力画像に投票する。投票点クラスタリング部５の機能により、投票点が集中しかつ投票数が多いほど入力画像と記憶画像との類似度が高いと判定する。候補枠生成部６の機能により、判定の結果、入力画像と類似する記憶画像を特定する。
【００３６】
判定手段１２は、想起画像生成部７の機能と、信頼値算出部８の機能と、向き推定部９の機能と、を備えている。より具体的には、想起画像生成部７の機能により、記憶画像特定手段１１で特定された記憶画像を用いて入力画像の見え方を示す想起画像を生成する。信頼値算出部８の機能により、生成した想起画像と入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、入力画像に認識対象を検出したと判定する。向き推定部９の機能により、検出した認識対象の向きを推定する。
【００３７】
データベース２は、学習モデルを記憶する記憶手段である。本実施の形態では、ある１つのクラスについての全てのテンプレートモデルの集合体をクラスモデルとし、全てのクラスモデルの集合体を学習モデルとして取り扱う。すなわち、学習モデルは複数のクラスモデルを含み、各クラスモデルは複数のテンプレートモデルを含む。図１に示す例では、学習モデルは、クラスモデル２１を含み、クラスモデル２１は、テンプレートモデル２１１、２１２、２１３を含んでいる。なお、本実施の形態では、学習モデルは、１つのクラスモデル（自動車のクラス）を有するものとして説明するが、複数のクラスモデル（マルチクラス）を有するものとしてもよい。
【００３８】
物体認識装置１は、認識対象を予め学習しておき、データベース２に予め記憶された学習モデルを用いて認識を行う。物体認識装置１は、学習時には、学習画像が提示されるごとに、学習画像に含まれる認識対象をインクリメンタルに学習して行く。認識対象の学習は、与えられる全ての学習画像についてテンプレートモデルを構築することで行われる。
【００３９】
図２に示すように、各テンプレートモデル（Template model）は、認識対象を含む領域の濃淡画像（Learning image）（以下、記憶画像と表記する場合がある。）と、特徴点及びその位置ベクトル（Feature point & Location vector）と、テンプレート情報（Template information）と、を含んでいる。テンプレート情報は、特徴点の平均スケールサイズ（Average scale size of feature points）と、記憶画像の大きさを平均スケールサイズで正規化した値（Template size(width, height)）（以下、テンプレートサイズと表記する場合がある。）と、向きラベル（Pose label）と、を含んでいる。
【００４０】
物体認識装置１は、学習画像が与えられると、学習画像内で認識対象が存在する領域内の局所特徴量（以下、特徴点と表記する場合がある。）を抽出し、抽出した各特徴点について位置ベクトルを算出する。なお、位置ベクトルの詳細については後述する。また、本実施の形態では、物体認識装置１により、特徴点の平均スケールサイズと、テンプレートサイズと、を算出し、ユーザにより向きラベルが与えられる。
【００４１】
次に、図３を参照して、物体認識装置１による認識手順の概要について説明する。物体認識装置１は、予め構築した学習モデルを用いて、対象の認識を行う。認識手順は、大別すると、候補枠検出手順（Ｓ１０２）と、誤検出除去手順（Ｓ１０３）と、の２段階の処理を含んでいる。まず、候補枠検出手順（Ｓ１０２）では、入力画像において認識対象が存在すると考えられる範囲（以下、候補枠と表記する場合がある。）を検出する。そして、誤検出除去手順（Ｓ１０３）では、検出した候補枠のうちで誤検出であると考えられる候補枠を除去する。より詳細には、それぞれ、以下に示す手順を含んでいる。
【００４２】
Ｓ１０１：物体認識装置１は、入力画像を取得する（入力画像取得処理）。
Ｓ１１１：対応点探索部３は、学習モデルと入力画像との間で、特徴点の対応を探索する（対応点探索処理）。
Ｓ１１２：投票処理部４は、学習モデルとの間で対応のとれた入力画像の特徴点について、学習モデルにおける特徴点の位置関係情報を利用して、入力画像の特徴点についての中心候補点を投票する（Voting処理）。
Ｓ１１３：投票点クラスタリング部５は、入力画像に投票した中心候補点（以下、単に投票点と表記する場合がある。）をクラスタリングし、所定の閾値以上の投票数を集めたクラスタを求める（投票点クラスタリング処理）。
Ｓ１１４：候補枠生成部６は、クラスタ中心を囲む矩形領域（候補枠）を生成する（候補枠生成処理）。
Ｓ１１６：想起画像生成部７は、入力画像における各候補枠について、候補枠に対応する学習モデルの記憶画像を用いて、想起画像を生成する（アピアランス想起処理）。
Ｓ１１７：信頼値算出部８は、想起画像と実画像（入力画像における候補枠内の画像）との間の類似度を信頼値として算出し、誤検出の候補枠を除去する（信頼値算出処理）。
Ｓ１１７：向き推定部９は、候補枠の算出に用いたテンプレートモデルの向きラベルから、検出した認識対象の向きを推定する（向き推定処理）。
Ｓ１０４：物体認識装置１は、認識対象の存在の有無と、存在する範囲と、向きと、を出力する（認識結果出力処理）。
以下、各部による処理の詳細について具体的に説明する。
【００４３】
対応点探索部３は、入力画像から特徴点を抽出し、学習モデル中の全ての特徴点と、入力画像から抽出された特徴点との間でのマッチングを行う。本実施の形態では、入力画像から抽出する特徴点としてＳＵＲＦを利用するが、入力画像から抽出する特徴点の種類はこれに限定されず、ＳＩＦＴなどの物体認識に用いる他の種類の特徴点を利用してもよい。
【００４４】
学習モデル中のｉ番目の特徴点をｐ_ｉ、入力画像中のｊ番目の特徴点をｑ_ｊとし、それらの距離をｄ_ｉｊとした場合、特徴点ｐ_ｉに対して最近傍の特徴点は、ｊ_１ＮＮ＝ａｒｇｍｉｎ_ｊｄ_ｉｊのインデックスを持つ特徴点ｑ_ｊ１ＮＮとなる。ここで、類似した特徴点が入力画像中に複数存在する場合などにおいて、この特徴点ｑ_ｊ１ＮＮをそのまま対応点とみなすと、多くの誤対応が生じることがある。このため、本実施の形態では、更に、次の数（１）を満たす特徴点ｑ_ｊのみを対応点として利用する。なお、数（１）において、ｊ_２ＮＮは２番目に近い特徴点のインデックスを表しており、ｔは所定の閾値である。
【数１】

【００４５】
数（１）は、最近傍との距離ｄ_{ｉｊ１ＮＮ}が、２番目に近い特徴点との距離ｄ_{ｉｊ２ＮＮ}に対して一定の割合以下となることを表している。この条件式により、誤対応を削減した対応点探索を行うことができる。
【００４６】
投票処理部４は、Voting処理を利用することで、認識対象の有無の判定と、認識対象が存在する領域の判定と、を行う。Voting処理は、マッチングした全特徴点に対して一意に決まる投票点を算出するという、反復の必要がない処理を用いて存在範囲を推定するために、計算コストが低く、認識速度の向上に有用である。
【００４７】
Voting処理では、学習モデル中の特徴点の位置関係情報を利用して、入力画像中の対応する特徴点について、入力画像に含まれる認識対象の中心候補点を推定、投票していく。これは、一般化ハフ変換を応用した手法であり、ハッシュテーブルの各項目への投票数を算出する代わりに、実画像領域へ投票した中心候補点をクラスタリングし、各クラスタの投票数を算出するものである。以下、中心候補点の投票処理の流れを説明する。
【００４８】
まず準備として、学習時において、テンプレートモデルの記憶画像それぞれについて、基準点を与えておく。本実施の形態では、記憶画像の中心を基準点として設定し、各記憶画像において、設定した基準点と、各特徴点との間の位置関係情報を算出する。そして、算出した位置関係情報を特徴点ごとの位置ベクトルとして、テンプレートモデルに与えておく。なお、本実施の形態では、記憶画像の中心を基準点として設定したが、これに限定されず他の任意の位置を基準点として設定してもよい。
【００４９】
例えば、図４の左上に示すように、中心（Center point）を基準点として特徴点（feature point）の位置ベクトル（location vector）を算出する。例えば、図４の右下に示すように、記憶画像の認識対象（自動車）について、記憶画像の中心を基準として、３つの特徴点それぞれに対する位置ベクトルを算出する。
【００５０】
次に、テンプレートモデルの記憶画像の特徴点と、特徴点の位置ベクトルと、に基づいて、その特徴点に対応する入力画像中の特徴点についての基準点、すなわち中心候補点を求める。ここで、テンプレートモデルの記憶画像における特徴点及び位置ベクトルと、入力画像における特徴点と、を以下のように与える。
（ｉ）テンプレートモデルの記憶画像における特徴点；
座標：（ｘ_ｔｅｍｐ，ｙ_ｔｅｍｐ）
スケール：σ_ｔｅｍｐ
輝度勾配方向：θ_ｔｅｍｐ
位置ベクトル：（Δｘ，Δｙ）。
（ｉｉ）入力画像における特徴点；
座標：（ｘ_ｉｎ，ｙ_ｉｎ）
スケール：σ_ｉｎ
輝度勾配方向：θ_ｉｎ。
【００５１】
すると、記憶画像の特徴点の座標、スケール、輝度勾配方向、及び位置ベクトルと、入力画像の特徴点の座標、スケール、及び輝度勾配方向と、から、入力画像における中心候補点（Ｘ，Ｙ）を次の数（２）及び数（３）により求めることができる。ただし、θ＝ａｒｃｔａｎ（Δｙ／Δｘ）とする。
【数２】

【数３】

【００５２】
以上の処理を、テンプレートモデルごとに対応するすべての特徴点に対して行い、入力画像に対して中心候補点の投票を行う。すなわち、１のテンプレートモデルについて、入力画像の特徴点との間で対応がとれた記憶画像の特徴点について、その対応がとれた特徴点の位置ベクトルなどの情報を利用して中心候補点を算出し、算出した中心候補点を入力画像に投票する。
【００５３】
記憶画像と同一又は類似の認識対象が入力画像に存在する場合（すなわち、同一クラスの認識対象が存在する場合）には、記憶画像における基準点に対する特徴点の位置関係と、入力画像における中心候補点に対する特徴点の位置関係とが、互いに類似するものと考えられる。つまり、記憶画像において同一の認識対象に関する全ての特徴点を、同一の一の基準点からの位置ベクトルによりそれらの位置関係を規定しているため、入力画像に記憶画像と同一クラスの認識対象が存在しているならば、対応する記憶画像の特徴点の位置ベクトルなどを利用して入力画像における特徴点の中心候補点を推定したときには、それら中心候補点は、記憶画像における基準点と同様に、特定箇所に集中する可能性が高い。従って、もし入力画像中に同一クラスの認識対象物が存在するならば、投票された中心候補点は、認識対象物の中心近くに集中すると考えられる。
【００５４】
例えば、図５の左図に示すように、中心候補点（投票点）が分散している場合には、認識対象物が存在しない可能性が高い。一方で、同図の右図に示すように、投票点が集中している場合には、認識対象物が存在する可能性が高いと考えられる。
【００５５】
投票点クラスタリング部５は、入力画像に中心候補点が投票されたら、それら中心候補点（投票点）のクラスタリングを行う。投票点クラスタリング部５は、隣接している投票点を同一クラスタにまとめた上で、各クラスタについて、そのクラスタ内に含まれる投票数を求める。そして、クラスタの投票数が予め定めた所定の閾値（以下、投票閾値と表記する場合がある。）以上である場合には、そのクラスタ中心を中心とする認識対象物が存在するものと判断する。
【００５６】
例えば図６では、入力画像（Input image）のクラスタの投票数が投票閾値以上である例を示しており、この場合には、テンプレートモデル（Template model）の記憶画像に含まれる認識対象（自動車）が、入力画像のクラスタ中心を中心として存在するものと判断する。
【００５７】
本実施の形態では、投票点のクラスタリングをTOD（Threshold Order-Dependent）アルゴリズム（M. Friedman and A. Kandel, "Introduction to Pattern Recognition," pp.70-73, World Scientific Publishing Company, 1999.）に基づいて実行する。TODアルゴリズムは逐次的にデータを処理することが可能であり、極めて簡素な処理のため、データのクラスタリングを高速に行うことが可能である。なお、投票点のクラスタリングはTODアルゴリズムに限定されず、他の公知のクラスタリング手法に基づいて行うものとしてもよい。
【００５８】
以下、TODアルゴリズムに基づくクラスタリングについて説明する。投票点の座標をｖ、投票点に対する特徴点のスケールサイズ及びテンプレートサイズを要素とするベクトルをｗとしたとき、その処理は次のようになる。
【００５９】
Ｓｔｅｐ１：クラスタリング閾値Ｔを設定する。これは、同一クラスタとする投票点間の最大距離である。本実施の形態では、単位スケールサイズに対する最大距離を予め定めておき、入力画像ごとに、全特徴点の平均スケールサイズ倍した値をクラスタリング閾値Ｔとして設定する。これにより、認識対象の大きさに合わせて相対的な値に設定できる。
【００６０】
Ｓｔｅｐ２：クラスタ中心の集合をＣとして、最初の入力ｃ_０を集合Ｃの要素とする。また、クラスタ中心ｃ_０の向きラベルの集合Ｐ_ｃ０を作成し、最初の入力の向きラベルをこの要素とする。更に、クラスタ中心ｃ_０への投票数ε_ｃ０を１とする。
【００６１】
Ｓｔｅｐ３：ｃ_ｎｅｗを新しい入力として、ｃ_ｎｅｗに対して最近傍となるクラスタ中心ｃ_ＮＮ＝ａｒｇｍｉｎ_ｃ∈Ｃ‖ｖ_ｃｎｅｗ−ｖ_ｃ‖を探索する。
【００６２】
Ｓｔｅｐ４：ｖ_ｃｎｅｗとｖ_ｃＮＮの距離がクラスタリング閾値Ｔを超える場合には、ｃ_ｎｅｗを集合Ｃに加える。そして、更に、ｃ_ｎｅｗの向きラベルを要素とするＰ_ｃｎｅｗを作成し、ｃ_ｎｅｗへの投票数ε_ｃｎｅｗを１として、Ｓｔｅｐ３へと戻る。
【００６３】
Ｓｔｅｐ５：ｖ_ｃｎｅｗとｖ_ｃＮＮの距離がクラスタリング閾値Ｔ以下である場合には、ｃ_ＮＮの総投票数であるε_ｃＮＮのカウントを１増加させ、ｖ_ｃＮＮ及びｗ_ｃＮＮの値を次の数（４）及び数（５）に示すように修正する。更に、ｃ_ｎｅｗの向きラベルを集合Ｐ_ｃＮＮに追加し、ステップ３へと戻る。
【数４】

【数５】

【００６４】
Ｓｔｅｐ６：最後に、全ての投票点を入力し終わったら、生成された全てのクラスタ中心に対して、その投票数が投票閾値以上であるか否かを判定する。判定の結果、投票数が投票閾値未満のクラスタ中心については、削除する。本実施の形態では、以上の処理をまずテンプレートモデルごとに実行してクラスタリングを行う。
【００６５】
投票点クラスタリング部５は、上述したＳｔｅｐ１からＳｔｅｐ６で示したクラスタリングを、各テンプレートモデルに対して実行する。そして、更に、各テンプレートモデルについて残ったクラスタ中心を投票点として、クラスモデルごとに再度クラスタリングを行う。この２度目のクラスタリングにより得たクラスタの中心を、最終的なクラスタリング結果とする。また、この２度目のクラスタリングはテンプレートモデルごとの認識結果をまとめるためのものであり、投票数によるクラスタ中心の削除は行わない。また、この２度目のクラスタリングで用いるクラスタリング閾値Ｔは、１度目のクラスタリングで用いたクラスタリング閾値に比例する値を用いた。
【００６６】
クラスタリングの結果、生成された各クラスタは１又は複数のテンプレートモデルに対応する。従って、以上の処理によって、入力画像と類似するテンプレートモデル（の記憶画像）が特定される。入力画像と記憶画像との類似度合いは、入力画像において投票点が集中しかつ投票数が多いほど、入力画像とテンプレートモデルの記憶画像との類似度が高いものとして判定される。
【００６７】
候補枠生成部６は、クラスタリング処理の結果生成された各クラスタの中心について、その座標を中心とする矩形領域を候補枠として生成する。矩形領域は、各クラスタに対応する１又は複数のテンプレートモデルの平均スケールサイズとテンプレートサイズと、に基づいて作成する。より具体的に説明すると、矩形領域生成のためのパラメータとして、クラスタリング中に更新されるwには、矩形領域の幅と高さ（すなわち、テンプレートサイズ）が含まれている。このため、１回目及び２回目のクラスタリング処理中に上記数（５）によりwが逐次更新されることで、最終的なクラスタ中心に対して所望の矩形領域サイズが記録される、という処理が行われる。すなわち、クラスタリングを行なう過程で、クラスタ中心が保持しているテンプレートサイズを逐次更新し続け、最終的に、クラスタに属する投票点の平均のような値が求められ、これを矩形領域のサイズとしている。これにより、認識対象物が存在すると思われる候補枠を入力画像において生成する。候補枠生成の結果、各候補枠は、１のクラスタ中心に対応する。また、各候補枠は、１又は複数のテンプレートモデルに対応する。
【００６８】
想起画像生成部７は、生成した各候補枠について、候補枠に対応するテンプレートモデルの記憶画像を用いて、そのアピアランスを画像として想起する。ここで、想起される画像（以下、想起画像と表記する場合がある。）とは、システムが対象をどのように認識したかを視覚的に表現したものであり、対象がどのような見え方で存在しているのかを推定したものである。例えば図７の左図に示す候補枠について、同図の右図に示すような想起画像が生成される。
【００６９】
想起画像の生成方法はシンプルである。まず、候補枠を生成する際に、クラスタに対応するテンプレートモデルについて、どのテンプレートモデルからどの程度投票数が得られたのかを、候補枠のクラスタ中心に対して情報として記憶させておく。そして、テンプレートモデルごとに、その記憶画像を候補枠の大きさにリサイズし、さらに、それぞれの明度を減少させた上で、それら記憶画像を重畳していく。このとき、減少させる各記憶画像の明度は、クラスタリング結果に応じた重み付けに応じて調整される。本実施の形態では、それぞれの記憶画像の全ピクセルの輝度値に、クラスタリング結果に応じた重み付けを掛け合わせることで算出する。ここでは、クラスタ中心に記憶した全ての投票数に対して、そのテンプレートモデル（記憶画像）の投票数の占める割合を、上記の重み付けとする。これにより、１つの候補枠に対して、最終的に１枚の想起画像が生成される。
【００７０】
例えば図８に示す例では、入力画像において、左上図に示す投票結果（Voting result）から右上図に示す候補枠（Candidate window detection）が生成される。そして、左下図に示す３つのテンプレートモデルの記憶画像（Learning image of template model）を、それぞれリサイズして明度の重み付けをした上で合成することで、右下図に示す想起画像(Recalled image)を生成した。なお、図に示す例では、明度の重み付けは、クラスタ中心に記憶した全ての投票数（図では１０の投票数）に対して、各テンプレートモデルの投票数（図では、それぞれ３の投票数、５の投票数、２の投票数）が占める割合（０．３と、０．５と、０．２と。）とした。
【００７１】
信頼値算出部８は、生成した想起画像と、実画像（入力画像における候補枠の画像）と、を比較して候補枠の信頼値を算出し、算出した信頼値に基づいて、誤って検出した候補枠の除去を行う。すなわち、想起画像と実画像とを比較してこれら画像が類似している場合には、その候補枠は正しく検出されたものであったとみなす。一方で、両画像が類似していない場合には、その候補枠が誤って検出されたものであったとみなす。信頼値算出部８は、誤って検出されたとみなされた候補枠を除去した結果、除去されずに残された候補枠で示す入力画像の範囲に、認識対象（候補枠に対応するテンプレートモデルのクラス）を検出したと判定する。
【００７２】
本実施の形態では、想起画像と実画像との相違度を、全ピクセルの輝度値差の平均値として算出し、この値が予め設定した所定の閾値よりも大きかった場合には、誤検出としてその候補枠を除去する。なお、候補枠の除去方法としては、全ピクセルの輝度値差の平均値以外にも、様々な評価基準に基づいて誤った候補枠の除去を行うことができる。
【００７３】
本実施の形態では、上記相違度に基づく誤検出除去後の各候補枠に対して、更に、想起画像と実画像との相違度（全ピクセルの輝度値差の平均値）に加えて、投票数についても考慮した候補枠の信頼値を算出し、この値が所定の閾値よりも小さかった場合に、誤検出としてその候補枠を除去する。これは、誤検出の判定においては、投票数を考慮せずに画像としての類似度で比較を行う方が好ましいが、正しく検出していると判断された場合に、画像としての類似度が同じであるならば、より投票数の多い方が、対象との類似度が高いと考えられるためである。
【００７４】
信頼値は、次の数（６）により算出する。ただし、候補枠の横幅と縦幅をそれぞれｗとｈとし、候補枠の実画像の輝度値をＩ_ｅｓｔとし、想起画像の輝度値をＩ_ｒｅｃとし、候補枠の総投票数をεとする。この値を用いることで、各候補枠の信頼度を比較することができる。
【数６】

【００７５】
例えば図９に示す例では、右上図に示すように３つの候補枠について、想起画像との比較の結果、左下図に示す１つの候補枠以外の候補枠が誤検出であるとして除去される。
【００７６】
向き推定部９は、各候補枠について、その認識対象の向きを推定する。向きラベルの集合をＰ、認識対象のクラスモデル中で向きラベルｐ∈Ｐを持つテンプレートモデルの総数をＡ_{ｃｌａｓｓ}（ｐ）、候補枠の全投票結果の中で向きラベルがｐに一致する投票数をＡ_ｅｓｔ（ｐ）としたとき、認識対象の向きは次の数（７）により推定される。すなわち、学習した向きラベルの総数に対する割合で、最も多く投票された向きラベルが推定結果となる。
【数７】

【００７７】
次に、本実施の形態による効果について説明する。本実施の形態による有効性を示すため、実世界シーンを撮影した実環境画像に対して、物体認識装置１によるクラス検出及び向き推定の実験を行った。
【００７８】
実験には、３次元物体認識手法の評価実験によく利用されているデータセットである、PASCAL Challenge Visual Object Class（"PASCAL Challenge".http://www.pascal-network.org/challenges/VOC/.）を利用した。本実施の形態では、その中でも最新研究の結果が揃っているPASCAL VOC 2006 dataset（M. Everingham, A. Zisserman, C.K.I. Williams, and L. Van Gool, "The PASCAL Visual Object Classes Challenge 2006 (VOC2006) Results," Technical report, PASCAL Network, 2006.）の"ｃａｒ"クラスに対して性能評価を行なった。
【００７９】
"ｃａｒ"クラスデータの場合、学習画像全２６１８枚中５５３枚に写っている８５４個の自動車が学習対象として与えられており、テスト画像全２６８６枚中５４４枚に写っている８５４個の自動車が検出対象となっている。画像はすべて雑多な実環境を撮影したものであり、検出対象となる自動車の種類も様々で、その向きや大きさもばらばらである。
【００８０】
なお、学習には他の３次元物体認識手法と同様に、上述の学習データの他に3D objects dataset（S. Savarese and L. Fei-Fei, "3d generic object categorization,localization and pose estimation," IEEE Int. Conf.Comput. Vision, pp.1-8, 2007.）の"ｃａｒ"クラスデータも利用した。これは、１０種類の自動車について、それぞれ８方向×２高度×３スケールで撮影した４８枚の画像と、その撮影位置情報及び対象領域情報が与えられたものである。
【００８１】
図１０及び図１１に、上記のデータセットに対する処理結果例を示す。図１０は、正しく検出できた場合の例を示す画像である。各画像の左上又は右下の小さな画像は、各検出結果に対する想起画像を示す。認識対象に多少のオクルージョンが存在する場合や、複数の認識対象が含まれている場合においても、正しく認識できていることが分かる。図１１は、誤検出した場合の例を示す画像である。領域サイズが適正でない場合や、明らかな誤認識をしてしまっていることが分かる。
【００８２】
次に、上記のテストデータを用いて自動車のクラス検出実験を行ない、その結果を図１２に示す。図１２は、本実施の形態と、Sun&Su CVPR09（非特許文献２）との比較結果を示す。評価は、precision-recall curveとそのAP（Average Precision）で行なった。
【００８３】
図１２を見てわかるとおり、検出精度について、既存手法（Sun&Su CVPR09）のAPは０．３１０であるのに対して、本実施の形態（Our method）によるAPは０．３２３となっており、より高い検出精度を達成できている。また、認識に要する処理時間について、本実施の形態では、特徴抽出時間も含めた画像１枚あたりの認識時間は、平均１２．６秒（３．２ＧＨｚ，Ｍａｔｌａｂ）であった。それに対して、私信によると、既存手法の認識時間は画像１枚あたり約３００秒（２．２ＧＨｚ，Ｍａｔｌａｂ）である。従って、検出精度だけでなく、その処理速度についても、本実施の形態による有効性が確認できた。
【００８４】
なお、図１２には、参考結果として、Liebelt CVPR08（J. Liebelt, C. Schmid, and K. Schertler, "Viewpointindependent object class detection using 3d feature maps," IEEE Int. Conf. Comput. Vision and Pattern Recognit., pp.1-8, 2008.）と、Su&SunICCV09（H. Su, M. Sun, L. Fei-Fei, and S. Savarese, "Learning a dense multi-view representation for detection, viewpoint classification and synthesis of object categories," IEEE Int. Conf. Comput. Vision, 2009.）、及びPASCAL VOC 2006に参加した４チームの結果もグラフに示してある。しかしながら、Liebelt CVPR08は独自に用意したCGモデルを、また、Su&SunICCV09は本実験で用いた学習データの他に、独自に用意したvideo clipを、それぞれの学習において利用しており、テストデータや評価方法は同一であるが、学習時に利用したデータが異なる点に留意されたい。また、PASCAL VOC 2006に参加したチームの手法については、対象の検出のみを目的としており、向きの推定については考慮されていない。
【００８５】
次に、上記のテストデータに対する検出結果の中で、正しく認識できていたものについて、その認識対象の向き推定を行なった。本実施の形態による向き推定の結果と、比較対象（Sun&Su CVPR09）による結果と、を図１３に示す。ただし、向きの推定は、PASCAL VOC 2006datasetでは、向きのラベルが４方向にしか付与されていない。このため、本実施の形態では、その４方向のいずれに属するのかを推定した。なお、テスト画像中の対象が４方向のいずれにも属していない場合については、その推定結果は考慮されていない。
【００８６】
図１３に示されるように、本実施の形態では、比較対象（Sun&Su CVPR09）と比べて、どの向きについてもより高い精度で推定することができた。平均精度についても、既存手法は６２％であるのに対して、本実施の形態では８６％となっており、本実施の形態による向き推定の精度の高さが確認できた。
【００８７】
以上説明したように、本実施の形態では、Voting処理による候補枠検出と、アピアランス想起による誤検出除去という２段階の処理に基づく、比較的高速かつ高精度なアピアランスベースの３次元物体認識手法を実現した。また、本実施の形態による効果を確認するため、PASCAL VOC 2006 datasetを用いて実験を行い、向き推定の精度と認識時間において既存手法より優れた結果を示し、その認識精度においても、既存手法と同等以上の結果を得ることができた。
【００８８】
本実施の形態では、従来のモデルベースの手法に対して、与えられた見え方そのものを独立に学習・認識するアピアランスベースな手法を採用することで、従来手法が有する欠点を容易に補うことを可能とした。
【００８９】
また、本実施の形態では、Voting処理を利用することで、対象の様々なアピアランスを独立に学習・認識しつつ、それらの結果を重畳することでクラスレベルでの対象の認識を可能とした。ここで、本実施の形態では、Voting処理による認識結果に対してアピアランスの想起を行い、その想起結果と認識結果とを比較することで誤認識を除去することを特徴とし、これにより、認識精度をより向上させることができた。
【００９０】
さらに、本実施の形態では、各学習画像から独立に学習を行うものであるため、認識対象の記述方法がシンプルであり、さらに、容易に追加学習を行うことができるという利点を有する。
【００９１】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【符号の説明】
【００９２】
１物体認識装置、
２データベース、
３対応点探索部、
４投票処理部、
５投票点クラスタリング部、
６候補枠生成部、
７想起画像生成部、
８信頼値算出部、
９向き推定部、
１１記憶画像特定手段、
１２判定手段、
２１クラスモデル、
２１１、２１２、２１３テンプレートモデル

【特許請求の範囲】
【請求項１】
認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を記憶する記憶手段と、
入力画像から特徴点を抽出して、前記記憶手段に記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定手段と、
前記記憶画像特定手段で特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定手段と、
を備える物体認識装置。
【請求項２】
前記判定手段は、
前記記憶画像特定手段で特定された複数の前記記憶画像を、それぞれの前記入力画像との類似度に応じて合成することで、前記想起画像を生成する
ことを特徴とする請求項１に記載の物体認識装置。
【請求項３】
前記判定手段は、
前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断する際に、当該想起画像の生成に利用された前記入力画像の投票点の総数が多いほど、前記想起画像と前記入力画像とがより類似すると判断する
ことを特徴とする請求項１又は２に記載の物体認識装置。
【請求項４】
前記記憶手段は、
前記認識対象の向き情報を前記記憶画像と対応付けて更に記憶し、
前記判定手段は、
前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定すると共に、前記想起画像の生成に用いられた前記記憶画像の向き情報に基づいて、当該検出した前記認識対象の向きを推定する
ことを特徴とする請求項１乃至３いずれか１項に記載の物体認識装置。
【請求項５】
認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに複数記憶するデータベースと、
入力画像から特徴点を抽出し、前記データベースに記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索部と、
前記対応点探索部で探索された前記入力画像の対応点について、前記データベースに記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理部と、
前記投票処理部で投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリング部と、
前記投票点クラスタリング部で前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成部と、
前記候補枠生成部で生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成部と、
前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出部と、
を備える物体認識装置。
【請求項６】
前記想起画像生成部は、
前記候補枠生成部で生成された候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記記憶画像を、それぞれの前記テンプレートモデルから得た前記入力画像における投票数に応じて合成することで、前記想起画像を生成する
ことを特徴とする請求項５に記載の物体認識装置。
【請求項７】
前記信頼値算出部は、
前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出すると共に、当該候補枠に対応する全ての前記テンプレートモデルから得た前記入力画像における投票総数を算出し、当該算出した相違度の逆数と当該投票総数とに基づいて算出する信頼値が所定の閾値よりも小さかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する
ことを特徴とする請求項５又は６に記載の物体認識装置。
【請求項８】
前記テンプレートモデルは、
前記認識対象の向きを示す向き情報を更に含み、
前記信頼値算出部で前記認識対象を検出したと判定された場合に、当該検出された前記認識対象の候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記向き情報に基づいて、当該検出された前記認識対象の向きを推定する向き推定部を更に備える
ことを特徴とする請求項５乃至７いずれか１項に記載の物体認識装置。
【請求項９】
認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を予め記憶する記憶ステップと、
入力画像から特徴点を抽出して、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定ステップと、
前記記憶画像特定ステップで特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定ステップと、
を有する物体認識方法。
【請求項１０】
認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに予め複数記憶する記憶ステップと、
入力画像から特徴点を抽出し、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索ステップと、
前記対応点探索ステップで探索された前記入力画像の対応点について、前記記憶ステップで記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理ステップと、
前記投票処理ステップで投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリングステップと、
前記投票点クラスタリングステップで前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成ステップと、
前記候補枠生成ステップで生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成ステップと、
前記想起画像生成ステップで生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出ステップと、
を有する物体認識方法。

【図１】