物体認識装置及び物体認識方法
【課題】従来手法と比較してより高速かつ高精度な3次元物体認識を実現可能とする。
【解決手段】物体認識装置1は、記憶画像と、記憶画像から予め抽出された特徴点と、特徴点の位置関係情報と、を記憶するデータベース2と、データベース2の記憶画像の特徴点と入力画像から抽出した特徴点との間で対応特徴点を探索して、記憶画像の特徴点の位置関係情報に基づいて算出する投票点を入力画像に投票し、その投票点が集中しかつ投票数が多いほど入力画像と記憶画像との類似度が高いと判定して、入力画像と類似する記憶画像を特定する記憶画像特定手段11と、特定された記憶画像を用いて想起画像を生成し、想起画像と入力画像とを比較して類似していると判断した場合に、入力画像に認識対象を検出したと判定する判定手段12と、を備える。
【解決手段】物体認識装置1は、記憶画像と、記憶画像から予め抽出された特徴点と、特徴点の位置関係情報と、を記憶するデータベース2と、データベース2の記憶画像の特徴点と入力画像から抽出した特徴点との間で対応特徴点を探索して、記憶画像の特徴点の位置関係情報に基づいて算出する投票点を入力画像に投票し、その投票点が集中しかつ投票数が多いほど入力画像と記憶画像との類似度が高いと判定して、入力画像と類似する記憶画像を特定する記憶画像特定手段11と、特定された記憶画像を用いて想起画像を生成し、想起画像と入力画像とを比較して類似していると判断した場合に、入力画像に認識対象を検出したと判定する判定手段12と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体認識装置及び物体認識方法に関する。
【背景技術】
【0002】
物体認識は、例えばロボットの視覚能力を実現するうえで必要不可欠な機能であり、コンピュータビジョンにおける重要な研究テーマの一つとなっている(非特許文献1参照)。また、横から見た飛行機や正面から見た道路標識といった、ある程度視点を限定した条件下での一般物体画像のクラス分類についても、共通のデータセットが存在するなどの理由から、非常に研究が盛んである。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−148872号公報
【特許文献2】特開2007−280040号公報
【非特許文献】
【0004】
【非特許文献1】柳井啓司,"一般物体認識の現状と今後," 情処学論: コンピュータビジョン・イメージメディア,vol.48,no.SIG16 (CVIM19),pp.1-24,2007.
【非特許文献2】M. Sun, H. Su, S. Savarese, and L. Fei-Fei, "A multiview probabilistic model for 3d object classes," IEEE Int.Conf. Comput. Vision and Pattern Recognit., pp.1247-1254, 2009.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1などに開示される一般物体を対象とした手法については、未だ実環境での利用には限定的と言わざるを得ない。その理由の一つに、認識対象が3次元物体であるにも関わらず、既存研究の多くが、その認識可能な視点が限定されたものとなっており、対象の向き変化に起因するクラス内変化に対応できていないことが挙げられる。
【0006】
この問題に対し、近年では、一般物体を対象とした3次元物体認識のタスクに取り組む研究も行われるようになってきた(例えば、非特許文献2参照)。しかしながら、3次元物体の認識においては、その向きの推定まで行えてこそ正しく対象を認識したと考えられるが、非特許文献2に例示される従来研究においても、向き推定に関する評価はあまり重要視されておらず、定量評価にまで重点を置いて評価が行なわれている研究は少ないのが現状である。
【0007】
また、非特許文献2に例示される手法は、いずれも対象の幾何学的構造を考慮してその特徴を学習するモデルベースな手法である。クラス内変化の大きい3次元物体認識においては、対象の3次元的な構造情報を利用するモデルベースな手法は妥当なアプローチであると考えられるが、学習時に対象の撮影角度情報が必要となるなど、一般的に学習コストが高く、また、対象の記述方法が複雑になりやすいといった欠点が存在する。以下、モデルベースな手法の問題点についてより詳細に説明する。
【0008】
まず、3次元の幾何学的構造を扱おうとすると、一般的に、任意の視点間における様々な特徴領域間の繋がりやその関連性(射影変換など)を算出する必要がある。このため、対象モデルの表現の仕方が複雑になりやすいという問題がある(実装が複雑になりやすい)。
【0009】
また、学習時には学習画像の撮影角度情報が必要となるなど、学習データにそれらの情報を付与する必要があり、学習データの作成コストが高くなる場合が多いという問題がある。
【0010】
また、3次元物体認識では、同一クラスの認識対象であっても、その視点の多様性から、個々の形状や外観がとても大きく変化してしまう。このため、認識に時間を要してしまう場合が多いという問題がある。
【0011】
また、画像から抽出した特徴量を利用して対象を認識するが、特徴量は画像の特徴的な情報のみを抽出しているために、その情報量は画像に比べて少なくなっている。このため、複雑な背景下(シーン)で認識を行う場合に、学習した特徴量と類似する特徴量が背景に多数存在するときには、誤認識してしまうことがある。つまり、特徴量の識別能力が認識精度に大きく影響を与える。一方で、識別能力が高い特徴量を用いた場合には、学習画像には含まれないものの同一クラスには含まれる対象を同一クラスとして認識させたいときに、その検出ができない状況に陥ることがある。また、特徴量の構造的な繋がりを評価することで認識を行っているものの、大局的な見え方としての類似性が考慮されていない。従って、これらの理由から、認識精度が低い(誤検出率が高い)という問題がある。
【0012】
なお、本発明に関連する他の技術として、特許文献1及び2には、眼鏡やヒゲの変化などといった時間経過とは独立した顔画像の部分的変化に対応して、本人認証を行うことができる顔認証装置が開示されている。当該顔認証装置では、入力画像から抽出された認証対象画像と予め学習させた登録画像とを照合し、照合の結果、同一人物ではないと判定した場合には、登録画像に近い想起画像を登録画像から生成し、認証対象画像に代えて想起画像を用いて登録画像との照合を再度行う。このように、登録画像から生成した想起画像により眼鏡やサングラスによる一部隠れを補間することで検出率自体は向上するものの、補間画像の精度を向上させることは難しく、誤認証率の低減について不十分なものである。
【0013】
従って本発明は、上述した課題を解決して、従来手法と比較してより高速かつ高精度な3次元物体認識を実現可能な物体認識装置及び物体認識方法を提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明に係る第一の態様の物体認識装置は、認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を記憶する記憶手段と、入力画像から特徴点を抽出して、前記記憶手段に記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定手段と、前記記憶画像特定手段で特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定手段と、を備えるものである。
【0015】
これにより、従来手法と比較してより高速かつ高精度な3次元物体認識を実現することができる。
【0016】
また、前記判定手段は、前記記憶画像特定手段で特定された複数の前記記憶画像を、それぞれの前記入力画像との類似度に応じて合成することで、前記想起画像を生成するようにしてもよい。
【0017】
さらにまた、前記判定手段は、前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断する際に、当該想起画像の生成に利用された前記入力画像の投票点の総数が多いほど、前記想起画像と前記入力画像とがより類似すると判断するようにしてもよい。
【0018】
また、前記記憶手段は、前記認識対象の向き情報を前記記憶画像と対応付けて更に記憶し、前記判定手段は、前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定すると共に、前記想起画像の生成に用いられた前記記憶画像の向き情報に基づいて、当該検出した前記認識対象の向きを推定するようにしてもよい。
【0019】
本発明に係る第二の態様の物体認識装置は、認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに複数記憶するデータベースと、入力画像から特徴点を抽出し、前記データベースに記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索部と、前記対応点探索部で探索された前記入力画像の対応点について、前記データベースに記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理部と、前記投票処理部で投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリング部と、前記投票点クラスタリング部で前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成部と、前記候補枠生成部で生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成部と、前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出部と、を備えるものである。
【0020】
これにより、従来手法と比較してより高速かつ高精度な3次元物体認識を実現することができる。
【0021】
また、前記想起画像生成部は、前記候補枠生成部で生成された候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記記憶画像を、それぞれの前記テンプレートモデルから得た前記入力画像における投票数に応じて合成することで、前記想起画像を生成するようにしてもよい。
【0022】
さらにまた、前記信頼値算出部は、前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出すると共に、当該候補枠に対応する全ての前記テンプレートモデルから得た前記入力画像における投票総数を算出し、当該算出した相違度の逆数と当該投票総数とに基づいて算出する信頼値が所定の閾値よりも小さかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定するようにしてもよい。
【0023】
また、前記テンプレートモデルは、前記認識対象の向きを示す向き情報を更に含み、前記信頼値算出部で前記認識対象を検出したと判定された場合に、当該検出された前記認識対象の候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記向き情報に基づいて、当該検出された前記認識対象の向きを推定する向き推定部を更に備えるようにしてもよい。
【0024】
本発明に係る第三の態様の物体認識方法は、認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を予め記憶する記憶ステップと、入力画像から特徴点を抽出して、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定ステップと、前記記憶画像特定ステップで特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定ステップと、を有するものである。
【0025】
これにより、従来手法と比較してより高速かつ高精度な3次元物体認識を実現することができる。
【0026】
本発明に係る第四の態様の物体認識方法は、認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに予め複数記憶する記憶ステップと、入力画像から特徴点を抽出し、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索ステップと、前記対応点探索ステップで探索された前記入力画像の対応点について、前記記憶ステップで記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理ステップと、前記投票処理ステップで投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリングステップと、前記投票点クラスタリングステップで前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成ステップと、前記候補枠生成ステップで生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成ステップと、前記想起画像生成ステップで生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出ステップと、を有するものである。
【0027】
これにより、従来手法と比較してより高速かつ高精度な3次元物体認識を実現することができる。
【発明の効果】
【0028】
本発明によれば、従来手法と比較してより高速かつ高精度な3次元物体認識を実現可能な物体認識装置及び物体認識方法を提供することができる。
【図面の簡単な説明】
【0029】
【図1】実施の形態1に係る物体認識装置の構成を示す機能ブロック図である。
【図2】実施の形態1に係る学習モデルを説明するための図である。
【図3】実施の形態1に係る認識手順の概要を示すフローチャートである。
【図4】実施の形態1に係る特徴点の位置ベクトルを説明するための画像である。
【図5】実施の形態1に係る中心候補点の投票を説明するための画像である。
【図6】実施の形態1に係る入力画像における対応点探索とVoting処理を説明するための画像である。
【図7】実施の形態1に係る想起画像の例を示す画像である。
【図8】実施の形態1に係る想起画像の生成方法を説明するための画像である。
【図9】実施の形態1に係る想起画像を用いた誤検出除去を説明するための画像である。
【図10】実施の形態1に係る正しく検出できた場合の認識結果を示す画像である。
【図11】実施の形態1に係る誤って検出した場合の認識結果を示す画像である。
【図12】実施の形態1に係るクラス検出結果を示すグラフである。
【図13】実施の形態1に係る向き推定結果を示すグラフである。
【発明を実施するための形態】
【0030】
本発明の各実施の形態について説明する前に、本発明の基本構成について説明する。
まず、本発明は、一般物体のうち、比較的形状変化の少ない剛体(後述する実施の形態では自動車を例に説明する。)を対象とする3次元物体認識について、学習画像一つひとつに対して独立に学習・認識を行うアピアランスベースな手法を採用したものである。さらに、後述するように、本発明による効果を確認するため、PASCAL VOC 2006 datasetを用いて、3次元物体のクラス検出精度を評価すると共に、それらの向き推定の結果についても定量的な評価を行う。
【0031】
本発明では、計算コストが比較的低いVoting処理(高木雅成,藤吉弘亘,"SIFT 特徴量を用いた交通道路標識認識," 電学論C,vol.129,no.5,pp.824-831,2009.)を利用して、学習した認識対象それぞれについてその存在の有無を判定すると共に、それらの結果を重畳することで認識対象の存在範囲及びその向きを推定する。
【0032】
本発明では、認識時に、認識対象のアピアランス(見え方)の想起を行う(想起画像を生成する。)ことを特徴とする。これは、認識した範囲に認識対象がどのように存在しているか、そのアピアランスを推定するものであり、これにより、システムが対象をどのように認識しているのかを視覚的に確認することが可能となる。本発明では、この想起結果と認識範囲とを画像として比較することで誤検出の除去を行い、これによって、認識精度の向上を図る。なお、本発明による認識対象は、原理的に、形状変化の少ない剛体であれば自動車に限定されず、他の物体であってもよい。
【0033】
実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。なお、以下では、本文中の説明においては、必要に応じそれ以前に述べた符号を用いるものとする。
【0034】
図1は、本実施の形態に係る物体認識装置の構成を示す機能ブロック図である。物体認識装置1は、学習モデルを記憶したデータベース2と、対応点探索部3と、投票処理部4と、投票点クラスタリング部5と、候補枠生成部6と、想起画像生成部7と、信頼値算出部8と、向き推定部9と、を備えている。
【0035】
記憶画像特定手段11は、対応点探索部3の機能と、投票処理部4の機能と、投票点クラスタリング部5の機能と、候補枠生成部6の機能と、を備えている。より具体的には、対応点探索部3の機能により、入力画像から特徴点を抽出して、データベース2に記憶された記憶画像の特徴点と入力画像から抽出した特徴点との間で対応する特徴点を探索する。投票処理部4の機能により、探索した対応点について、記憶画像の特徴点の位置関係情報に基づいて算出する投票点を入力画像に投票する。投票点クラスタリング部5の機能により、投票点が集中しかつ投票数が多いほど入力画像と記憶画像との類似度が高いと判定する。候補枠生成部6の機能により、判定の結果、入力画像と類似する記憶画像を特定する。
【0036】
判定手段12は、想起画像生成部7の機能と、信頼値算出部8の機能と、向き推定部9の機能と、を備えている。より具体的には、想起画像生成部7の機能により、記憶画像特定手段11で特定された記憶画像を用いて入力画像の見え方を示す想起画像を生成する。信頼値算出部8の機能により、生成した想起画像と入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、入力画像に認識対象を検出したと判定する。向き推定部9の機能により、検出した認識対象の向きを推定する。
【0037】
データベース2は、学習モデルを記憶する記憶手段である。本実施の形態では、ある1つのクラスについての全てのテンプレートモデルの集合体をクラスモデルとし、全てのクラスモデルの集合体を学習モデルとして取り扱う。すなわち、学習モデルは複数のクラスモデルを含み、各クラスモデルは複数のテンプレートモデルを含む。図1に示す例では、学習モデルは、クラスモデル21を含み、クラスモデル21は、テンプレートモデル211、212、213を含んでいる。なお、本実施の形態では、学習モデルは、1つのクラスモデル(自動車のクラス)を有するものとして説明するが、複数のクラスモデル(マルチクラス)を有するものとしてもよい。
【0038】
物体認識装置1は、認識対象を予め学習しておき、データベース2に予め記憶された学習モデルを用いて認識を行う。物体認識装置1は、学習時には、学習画像が提示されるごとに、学習画像に含まれる認識対象をインクリメンタルに学習して行く。認識対象の学習は、与えられる全ての学習画像についてテンプレートモデルを構築することで行われる。
【0039】
図2に示すように、各テンプレートモデル(Template model)は、認識対象を含む領域の濃淡画像(Learning image)(以下、記憶画像と表記する場合がある。)と、特徴点及びその位置ベクトル(Feature point & Location vector)と、テンプレート情報(Template information)と、を含んでいる。テンプレート情報は、特徴点の平均スケールサイズ(Average scale size of feature points)と、記憶画像の大きさを平均スケールサイズで正規化した値(Template size(width, height))(以下、テンプレートサイズと表記する場合がある。)と、向きラベル(Pose label)と、を含んでいる。
【0040】
物体認識装置1は、学習画像が与えられると、学習画像内で認識対象が存在する領域内の局所特徴量(以下、特徴点と表記する場合がある。)を抽出し、抽出した各特徴点について位置ベクトルを算出する。なお、位置ベクトルの詳細については後述する。また、本実施の形態では、物体認識装置1により、特徴点の平均スケールサイズと、テンプレートサイズと、を算出し、ユーザにより向きラベルが与えられる。
【0041】
次に、図3を参照して、物体認識装置1による認識手順の概要について説明する。物体認識装置1は、予め構築した学習モデルを用いて、対象の認識を行う。認識手順は、大別すると、候補枠検出手順(S102)と、誤検出除去手順(S103)と、の2段階の処理を含んでいる。まず、候補枠検出手順(S102)では、入力画像において認識対象が存在すると考えられる範囲(以下、候補枠と表記する場合がある。)を検出する。そして、誤検出除去手順(S103)では、検出した候補枠のうちで誤検出であると考えられる候補枠を除去する。より詳細には、それぞれ、以下に示す手順を含んでいる。
【0042】
S101:物体認識装置1は、入力画像を取得する(入力画像取得処理)。
S111:対応点探索部3は、学習モデルと入力画像との間で、特徴点の対応を探索する(対応点探索処理)。
S112:投票処理部4は、学習モデルとの間で対応のとれた入力画像の特徴点について、学習モデルにおける特徴点の位置関係情報を利用して、入力画像の特徴点についての中心候補点を投票する(Voting処理)。
S113:投票点クラスタリング部5は、入力画像に投票した中心候補点(以下、単に投票点と表記する場合がある。)をクラスタリングし、所定の閾値以上の投票数を集めたクラスタを求める(投票点クラスタリング処理)。
S114:候補枠生成部6は、クラスタ中心を囲む矩形領域(候補枠)を生成する(候補枠生成処理)。
S116:想起画像生成部7は、入力画像における各候補枠について、候補枠に対応する学習モデルの記憶画像を用いて、想起画像を生成する(アピアランス想起処理)。
S117:信頼値算出部8は、想起画像と実画像(入力画像における候補枠内の画像)との間の類似度を信頼値として算出し、誤検出の候補枠を除去する(信頼値算出処理)。
S117:向き推定部9は、候補枠の算出に用いたテンプレートモデルの向きラベルから、検出した認識対象の向きを推定する(向き推定処理)。
S104:物体認識装置1は、認識対象の存在の有無と、存在する範囲と、向きと、を出力する(認識結果出力処理)。
以下、各部による処理の詳細について具体的に説明する。
【0043】
対応点探索部3は、入力画像から特徴点を抽出し、学習モデル中の全ての特徴点と、入力画像から抽出された特徴点との間でのマッチングを行う。本実施の形態では、入力画像から抽出する特徴点としてSURFを利用するが、入力画像から抽出する特徴点の種類はこれに限定されず、SIFTなどの物体認識に用いる他の種類の特徴点を利用してもよい。
【0044】
学習モデル中のi番目の特徴点をpi、入力画像中のj番目の特徴点をqjとし、それらの距離をdijとした場合、特徴点piに対して最近傍の特徴点は、j1NN=argminjdijのインデックスを持つ特徴点qj1NNとなる。ここで、類似した特徴点が入力画像中に複数存在する場合などにおいて、この特徴点qj1NNをそのまま対応点とみなすと、多くの誤対応が生じることがある。このため、本実施の形態では、更に、次の数(1)を満たす特徴点qjのみを対応点として利用する。なお、数(1)において、j2NNは2番目に近い特徴点のインデックスを表しており、tは所定の閾値である。
【数1】
【0045】
数(1)は、最近傍との距離dij1NNが、2番目に近い特徴点との距離dij2NNに対して一定の割合以下となることを表している。この条件式により、誤対応を削減した対応点探索を行うことができる。
【0046】
投票処理部4は、Voting処理を利用することで、認識対象の有無の判定と、認識対象が存在する領域の判定と、を行う。Voting処理は、マッチングした全特徴点に対して一意に決まる投票点を算出するという、反復の必要がない処理を用いて存在範囲を推定するために、計算コストが低く、認識速度の向上に有用である。
【0047】
Voting処理では、学習モデル中の特徴点の位置関係情報を利用して、入力画像中の対応する特徴点について、入力画像に含まれる認識対象の中心候補点を推定、投票していく。これは、一般化ハフ変換を応用した手法であり、ハッシュテーブルの各項目への投票数を算出する代わりに、実画像領域へ投票した中心候補点をクラスタリングし、各クラスタの投票数を算出するものである。以下、中心候補点の投票処理の流れを説明する。
【0048】
まず準備として、学習時において、テンプレートモデルの記憶画像それぞれについて、基準点を与えておく。本実施の形態では、記憶画像の中心を基準点として設定し、各記憶画像において、設定した基準点と、各特徴点との間の位置関係情報を算出する。そして、算出した位置関係情報を特徴点ごとの位置ベクトルとして、テンプレートモデルに与えておく。なお、本実施の形態では、記憶画像の中心を基準点として設定したが、これに限定されず他の任意の位置を基準点として設定してもよい。
【0049】
例えば、図4の左上に示すように、中心(Center point)を基準点として特徴点(feature point)の位置ベクトル(location vector)を算出する。例えば、図4の右下に示すように、記憶画像の認識対象(自動車)について、記憶画像の中心を基準として、3つの特徴点それぞれに対する位置ベクトルを算出する。
【0050】
次に、テンプレートモデルの記憶画像の特徴点と、特徴点の位置ベクトルと、に基づいて、その特徴点に対応する入力画像中の特徴点についての基準点、すなわち中心候補点を求める。ここで、テンプレートモデルの記憶画像における特徴点及び位置ベクトルと、入力画像における特徴点と、を以下のように与える。
(i)テンプレートモデルの記憶画像における特徴点;
座標:(xtemp,ytemp)
スケール:σtemp
輝度勾配方向:θtemp
位置ベクトル:(Δx,Δy)。
(ii)入力画像における特徴点;
座標:(xin,yin)
スケール:σin
輝度勾配方向:θin。
【0051】
すると、記憶画像の特徴点の座標、スケール、輝度勾配方向、及び位置ベクトルと、入力画像の特徴点の座標、スケール、及び輝度勾配方向と、から、入力画像における中心候補点(X,Y)を次の数(2)及び数(3)により求めることができる。ただし、θ=arctan(Δy/Δx)とする。
【数2】
【数3】
【0052】
以上の処理を、テンプレートモデルごとに対応するすべての特徴点に対して行い、入力画像に対して中心候補点の投票を行う。すなわち、1のテンプレートモデルについて、入力画像の特徴点との間で対応がとれた記憶画像の特徴点について、その対応がとれた特徴点の位置ベクトルなどの情報を利用して中心候補点を算出し、算出した中心候補点を入力画像に投票する。
【0053】
記憶画像と同一又は類似の認識対象が入力画像に存在する場合(すなわち、同一クラスの認識対象が存在する場合)には、記憶画像における基準点に対する特徴点の位置関係と、入力画像における中心候補点に対する特徴点の位置関係とが、互いに類似するものと考えられる。つまり、記憶画像において同一の認識対象に関する全ての特徴点を、同一の一の基準点からの位置ベクトルによりそれらの位置関係を規定しているため、入力画像に記憶画像と同一クラスの認識対象が存在しているならば、対応する記憶画像の特徴点の位置ベクトルなどを利用して入力画像における特徴点の中心候補点を推定したときには、それら中心候補点は、記憶画像における基準点と同様に、特定箇所に集中する可能性が高い。従って、もし入力画像中に同一クラスの認識対象物が存在するならば、投票された中心候補点は、認識対象物の中心近くに集中すると考えられる。
【0054】
例えば、図5の左図に示すように、中心候補点(投票点)が分散している場合には、認識対象物が存在しない可能性が高い。一方で、同図の右図に示すように、投票点が集中している場合には、認識対象物が存在する可能性が高いと考えられる。
【0055】
投票点クラスタリング部5は、入力画像に中心候補点が投票されたら、それら中心候補点(投票点)のクラスタリングを行う。投票点クラスタリング部5は、隣接している投票点を同一クラスタにまとめた上で、各クラスタについて、そのクラスタ内に含まれる投票数を求める。そして、クラスタの投票数が予め定めた所定の閾値(以下、投票閾値と表記する場合がある。)以上である場合には、そのクラスタ中心を中心とする認識対象物が存在するものと判断する。
【0056】
例えば図6では、入力画像(Input image)のクラスタの投票数が投票閾値以上である例を示しており、この場合には、テンプレートモデル(Template model)の記憶画像に含まれる認識対象(自動車)が、入力画像のクラスタ中心を中心として存在するものと判断する。
【0057】
本実施の形態では、投票点のクラスタリングをTOD(Threshold Order-Dependent)アルゴリズム(M. Friedman and A. Kandel, "Introduction to Pattern Recognition," pp.70-73, World Scientific Publishing Company, 1999.)に基づいて実行する。TODアルゴリズムは逐次的にデータを処理することが可能であり、極めて簡素な処理のため、データのクラスタリングを高速に行うことが可能である。なお、投票点のクラスタリングはTODアルゴリズムに限定されず、他の公知のクラスタリング手法に基づいて行うものとしてもよい。
【0058】
以下、TODアルゴリズムに基づくクラスタリングについて説明する。投票点の座標をv、投票点に対する特徴点のスケールサイズ及びテンプレートサイズを要素とするベクトルをwとしたとき、その処理は次のようになる。
【0059】
Step1:クラスタリング閾値Tを設定する。これは、同一クラスタとする投票点間の最大距離である。本実施の形態では、単位スケールサイズに対する最大距離を予め定めておき、入力画像ごとに、全特徴点の平均スケールサイズ倍した値をクラスタリング閾値Tとして設定する。これにより、認識対象の大きさに合わせて相対的な値に設定できる。
【0060】
Step2:クラスタ中心の集合をCとして、最初の入力c0を集合Cの要素とする。また、クラスタ中心c0の向きラベルの集合Pc0を作成し、最初の入力の向きラベルをこの要素とする。更に、クラスタ中心c0への投票数εc0を1とする。
【0061】
Step3:cnewを新しい入力として、cnewに対して最近傍となるクラスタ中心cNN=argminc∈C‖vcnew−vc‖を探索する。
【0062】
Step4:vcnewとvcNNの距離がクラスタリング閾値Tを超える場合には、cnewを集合Cに加える。そして、更に、cnewの向きラベルを要素とするPcnewを作成し、cnewへの投票数εcnewを1として、Step3へと戻る。
【0063】
Step5:vcnewとvcNNの距離がクラスタリング閾値T以下である場合には、cNNの総投票数であるεcNNのカウントを1増加させ、vcNN及びwcNNの値を次の数(4)及び数(5)に示すように修正する。更に、cnewの向きラベルを集合PcNNに追加し、ステップ3へと戻る。
【数4】
【数5】
【0064】
Step6:最後に、全ての投票点を入力し終わったら、生成された全てのクラスタ中心に対して、その投票数が投票閾値以上であるか否かを判定する。判定の結果、投票数が投票閾値未満のクラスタ中心については、削除する。本実施の形態では、以上の処理をまずテンプレートモデルごとに実行してクラスタリングを行う。
【0065】
投票点クラスタリング部5は、上述したStep1からStep6で示したクラスタリングを、各テンプレートモデルに対して実行する。そして、更に、各テンプレートモデルについて残ったクラスタ中心を投票点として、クラスモデルごとに再度クラスタリングを行う。この2度目のクラスタリングにより得たクラスタの中心を、最終的なクラスタリング結果とする。また、この2度目のクラスタリングはテンプレートモデルごとの認識結果をまとめるためのものであり、投票数によるクラスタ中心の削除は行わない。また、この2度目のクラスタリングで用いるクラスタリング閾値Tは、1度目のクラスタリングで用いたクラスタリング閾値に比例する値を用いた。
【0066】
クラスタリングの結果、生成された各クラスタは1又は複数のテンプレートモデルに対応する。従って、以上の処理によって、入力画像と類似するテンプレートモデル(の記憶画像)が特定される。入力画像と記憶画像との類似度合いは、入力画像において投票点が集中しかつ投票数が多いほど、入力画像とテンプレートモデルの記憶画像との類似度が高いものとして判定される。
【0067】
候補枠生成部6は、クラスタリング処理の結果生成された各クラスタの中心について、その座標を中心とする矩形領域を候補枠として生成する。矩形領域は、各クラスタに対応する1又は複数のテンプレートモデルの平均スケールサイズとテンプレートサイズと、に基づいて作成する。より具体的に説明すると、矩形領域生成のためのパラメータとして、クラスタリング中に更新されるwには、矩形領域の幅と高さ(すなわち、テンプレートサイズ)が含まれている。このため、1回目及び2回目のクラスタリング処理中に上記数(5)によりwが逐次更新されることで、最終的なクラスタ中心に対して所望の矩形領域サイズが記録される、という処理が行われる。すなわち、クラスタリングを行なう過程で、クラスタ中心が保持しているテンプレートサイズを逐次更新し続け、最終的に、クラスタに属する投票点の平均のような値が求められ、これを矩形領域のサイズとしている。これにより、認識対象物が存在すると思われる候補枠を入力画像において生成する。候補枠生成の結果、各候補枠は、1のクラスタ中心に対応する。また、各候補枠は、1又は複数のテンプレートモデルに対応する。
【0068】
想起画像生成部7は、生成した各候補枠について、候補枠に対応するテンプレートモデルの記憶画像を用いて、そのアピアランスを画像として想起する。ここで、想起される画像(以下、想起画像と表記する場合がある。)とは、システムが対象をどのように認識したかを視覚的に表現したものであり、対象がどのような見え方で存在しているのかを推定したものである。例えば図7の左図に示す候補枠について、同図の右図に示すような想起画像が生成される。
【0069】
想起画像の生成方法はシンプルである。まず、候補枠を生成する際に、クラスタに対応するテンプレートモデルについて、どのテンプレートモデルからどの程度投票数が得られたのかを、候補枠のクラスタ中心に対して情報として記憶させておく。そして、テンプレートモデルごとに、その記憶画像を候補枠の大きさにリサイズし、さらに、それぞれの明度を減少させた上で、それら記憶画像を重畳していく。このとき、減少させる各記憶画像の明度は、クラスタリング結果に応じた重み付けに応じて調整される。本実施の形態では、それぞれの記憶画像の全ピクセルの輝度値に、クラスタリング結果に応じた重み付けを掛け合わせることで算出する。ここでは、クラスタ中心に記憶した全ての投票数に対して、そのテンプレートモデル(記憶画像)の投票数の占める割合を、上記の重み付けとする。これにより、1つの候補枠に対して、最終的に1枚の想起画像が生成される。
【0070】
例えば図8に示す例では、入力画像において、左上図に示す投票結果(Voting result)から右上図に示す候補枠(Candidate window detection)が生成される。そして、左下図に示す3つのテンプレートモデルの記憶画像(Learning image of template model)を、それぞれリサイズして明度の重み付けをした上で合成することで、右下図に示す想起画像(Recalled image)を生成した。なお、図に示す例では、明度の重み付けは、クラスタ中心に記憶した全ての投票数(図では10の投票数)に対して、各テンプレートモデルの投票数(図では、それぞれ3の投票数、5の投票数、2の投票数)が占める割合(0.3と、0.5と、0.2と。)とした。
【0071】
信頼値算出部8は、生成した想起画像と、実画像(入力画像における候補枠の画像)と、を比較して候補枠の信頼値を算出し、算出した信頼値に基づいて、誤って検出した候補枠の除去を行う。すなわち、想起画像と実画像とを比較してこれら画像が類似している場合には、その候補枠は正しく検出されたものであったとみなす。一方で、両画像が類似していない場合には、その候補枠が誤って検出されたものであったとみなす。信頼値算出部8は、誤って検出されたとみなされた候補枠を除去した結果、除去されずに残された候補枠で示す入力画像の範囲に、認識対象(候補枠に対応するテンプレートモデルのクラス)を検出したと判定する。
【0072】
本実施の形態では、想起画像と実画像との相違度を、全ピクセルの輝度値差の平均値として算出し、この値が予め設定した所定の閾値よりも大きかった場合には、誤検出としてその候補枠を除去する。なお、候補枠の除去方法としては、全ピクセルの輝度値差の平均値以外にも、様々な評価基準に基づいて誤った候補枠の除去を行うことができる。
【0073】
本実施の形態では、上記相違度に基づく誤検出除去後の各候補枠に対して、更に、想起画像と実画像との相違度(全ピクセルの輝度値差の平均値)に加えて、投票数についても考慮した候補枠の信頼値を算出し、この値が所定の閾値よりも小さかった場合に、誤検出としてその候補枠を除去する。これは、誤検出の判定においては、投票数を考慮せずに画像としての類似度で比較を行う方が好ましいが、正しく検出していると判断された場合に、画像としての類似度が同じであるならば、より投票数の多い方が、対象との類似度が高いと考えられるためである。
【0074】
信頼値は、次の数(6)により算出する。ただし、候補枠の横幅と縦幅をそれぞれwとhとし、候補枠の実画像の輝度値をIestとし、想起画像の輝度値をIrecとし、候補枠の総投票数をεとする。この値を用いることで、各候補枠の信頼度を比較することができる。
【数6】
【0075】
例えば図9に示す例では、右上図に示すように3つの候補枠について、想起画像との比較の結果、左下図に示す1つの候補枠以外の候補枠が誤検出であるとして除去される。
【0076】
向き推定部9は、各候補枠について、その認識対象の向きを推定する。向きラベルの集合をP、認識対象のクラスモデル中で向きラベルp∈Pを持つテンプレートモデルの総数をAclass(p)、候補枠の全投票結果の中で向きラベルがpに一致する投票数をAest(p)としたとき、認識対象の向きは次の数(7)により推定される。すなわち、学習した向きラベルの総数に対する割合で、最も多く投票された向きラベルが推定結果となる。
【数7】
【0077】
次に、本実施の形態による効果について説明する。本実施の形態による有効性を示すため、実世界シーンを撮影した実環境画像に対して、物体認識装置1によるクラス検出及び向き推定の実験を行った。
【0078】
実験には、3次元物体認識手法の評価実験によく利用されているデータセットである、PASCAL Challenge Visual Object Class("PASCAL Challenge".http://www.pascal-network.org/challenges/VOC/.)を利用した。本実施の形態では、その中でも最新研究の結果が揃っているPASCAL VOC 2006 dataset(M. Everingham, A. Zisserman, C.K.I. Williams, and L. Van Gool, "The PASCAL Visual Object Classes Challenge 2006 (VOC2006) Results," Technical report, PASCAL Network, 2006.)の"car"クラスに対して性能評価を行なった。
【0079】
"car"クラスデータの場合、学習画像全2618枚中553枚に写っている854個の自動車が学習対象として与えられており、テスト画像全2686枚中544枚に写っている854個の自動車が検出対象となっている。画像はすべて雑多な実環境を撮影したものであり、検出対象となる自動車の種類も様々で、その向きや大きさもばらばらである。
【0080】
なお、学習には他の3次元物体認識手法と同様に、上述の学習データの他に3D objects dataset(S. Savarese and L. Fei-Fei, "3d generic object categorization,localization and pose estimation," IEEE Int. Conf.Comput. Vision, pp.1-8, 2007.)の"car"クラスデータも利用した。これは、10種類の自動車について、それぞれ8方向×2高度×3スケールで撮影した48枚の画像と、その撮影位置情報及び対象領域情報が与えられたものである。
【0081】
図10及び図11に、上記のデータセットに対する処理結果例を示す。図10は、正しく検出できた場合の例を示す画像である。各画像の左上又は右下の小さな画像は、各検出結果に対する想起画像を示す。認識対象に多少のオクルージョンが存在する場合や、複数の認識対象が含まれている場合においても、正しく認識できていることが分かる。図11は、誤検出した場合の例を示す画像である。領域サイズが適正でない場合や、明らかな誤認識をしてしまっていることが分かる。
【0082】
次に、上記のテストデータを用いて自動車のクラス検出実験を行ない、その結果を図12に示す。図12は、本実施の形態と、Sun&Su CVPR09(非特許文献2)との比較結果を示す。評価は、precision-recall curveとそのAP(Average Precision)で行なった。
【0083】
図12を見てわかるとおり、検出精度について、既存手法(Sun&Su CVPR09)のAPは0.310であるのに対して、本実施の形態(Our method)によるAPは0.323となっており、より高い検出精度を達成できている。また、認識に要する処理時間について、本実施の形態では、特徴抽出時間も含めた画像1枚あたりの認識時間は、平均12.6秒(3.2GHz,Matlab)であった。それに対して、私信によると、既存手法の認識時間は画像1枚あたり約300秒(2.2GHz,Matlab)である。従って、検出精度だけでなく、その処理速度についても、本実施の形態による有効性が確認できた。
【0084】
なお、図12には、参考結果として、Liebelt CVPR08(J. Liebelt, C. Schmid, and K. Schertler, "Viewpointindependent object class detection using 3d feature maps," IEEE Int. Conf. Comput. Vision and Pattern Recognit., pp.1-8, 2008.)と、Su&SunICCV09(H. Su, M. Sun, L. Fei-Fei, and S. Savarese, "Learning a dense multi-view representation for detection, viewpoint classification and synthesis of object categories," IEEE Int. Conf. Comput. Vision, 2009.)、及びPASCAL VOC 2006に参加した4チームの結果もグラフに示してある。しかしながら、Liebelt CVPR08は独自に用意したCGモデルを、また、Su&SunICCV09は本実験で用いた学習データの他に、独自に用意したvideo clipを、それぞれの学習において利用しており、テストデータや評価方法は同一であるが、学習時に利用したデータが異なる点に留意されたい。また、PASCAL VOC 2006に参加したチームの手法については、対象の検出のみを目的としており、向きの推定については考慮されていない。
【0085】
次に、上記のテストデータに対する検出結果の中で、正しく認識できていたものについて、その認識対象の向き推定を行なった。本実施の形態による向き推定の結果と、比較対象(Sun&Su CVPR09)による結果と、を図13に示す。ただし、向きの推定は、PASCAL VOC 2006datasetでは、向きのラベルが4方向にしか付与されていない。このため、本実施の形態では、その4方向のいずれに属するのかを推定した。なお、テスト画像中の対象が4方向のいずれにも属していない場合については、その推定結果は考慮されていない。
【0086】
図13に示されるように、本実施の形態では、比較対象(Sun&Su CVPR09)と比べて、どの向きについてもより高い精度で推定することができた。平均精度についても、既存手法は62%であるのに対して、本実施の形態では86%となっており、本実施の形態による向き推定の精度の高さが確認できた。
【0087】
以上説明したように、本実施の形態では、Voting処理による候補枠検出と、アピアランス想起による誤検出除去という2段階の処理に基づく、比較的高速かつ高精度なアピアランスベースの3次元物体認識手法を実現した。また、本実施の形態による効果を確認するため、PASCAL VOC 2006 datasetを用いて実験を行い、向き推定の精度と認識時間において既存手法より優れた結果を示し、その認識精度においても、既存手法と同等以上の結果を得ることができた。
【0088】
本実施の形態では、従来のモデルベースの手法に対して、与えられた見え方そのものを独立に学習・認識するアピアランスベースな手法を採用することで、従来手法が有する欠点を容易に補うことを可能とした。
【0089】
また、本実施の形態では、Voting処理を利用することで、対象の様々なアピアランスを独立に学習・認識しつつ、それらの結果を重畳することでクラスレベルでの対象の認識を可能とした。ここで、本実施の形態では、Voting処理による認識結果に対してアピアランスの想起を行い、その想起結果と認識結果とを比較することで誤認識を除去することを特徴とし、これにより、認識精度をより向上させることができた。
【0090】
さらに、本実施の形態では、各学習画像から独立に学習を行うものであるため、認識対象の記述方法がシンプルであり、さらに、容易に追加学習を行うことができるという利点を有する。
【0091】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【符号の説明】
【0092】
1 物体認識装置、
2 データベース、
3 対応点探索部、
4 投票処理部、
5 投票点クラスタリング部、
6 候補枠生成部、
7 想起画像生成部、
8 信頼値算出部、
9 向き推定部、
11記憶画像特定手段、
12 判定手段、
21 クラスモデル、
211、212、213 テンプレートモデル
【技術分野】
【0001】
本発明は、物体認識装置及び物体認識方法に関する。
【背景技術】
【0002】
物体認識は、例えばロボットの視覚能力を実現するうえで必要不可欠な機能であり、コンピュータビジョンにおける重要な研究テーマの一つとなっている(非特許文献1参照)。また、横から見た飛行機や正面から見た道路標識といった、ある程度視点を限定した条件下での一般物体画像のクラス分類についても、共通のデータセットが存在するなどの理由から、非常に研究が盛んである。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−148872号公報
【特許文献2】特開2007−280040号公報
【非特許文献】
【0004】
【非特許文献1】柳井啓司,"一般物体認識の現状と今後," 情処学論: コンピュータビジョン・イメージメディア,vol.48,no.SIG16 (CVIM19),pp.1-24,2007.
【非特許文献2】M. Sun, H. Su, S. Savarese, and L. Fei-Fei, "A multiview probabilistic model for 3d object classes," IEEE Int.Conf. Comput. Vision and Pattern Recognit., pp.1247-1254, 2009.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1などに開示される一般物体を対象とした手法については、未だ実環境での利用には限定的と言わざるを得ない。その理由の一つに、認識対象が3次元物体であるにも関わらず、既存研究の多くが、その認識可能な視点が限定されたものとなっており、対象の向き変化に起因するクラス内変化に対応できていないことが挙げられる。
【0006】
この問題に対し、近年では、一般物体を対象とした3次元物体認識のタスクに取り組む研究も行われるようになってきた(例えば、非特許文献2参照)。しかしながら、3次元物体の認識においては、その向きの推定まで行えてこそ正しく対象を認識したと考えられるが、非特許文献2に例示される従来研究においても、向き推定に関する評価はあまり重要視されておらず、定量評価にまで重点を置いて評価が行なわれている研究は少ないのが現状である。
【0007】
また、非特許文献2に例示される手法は、いずれも対象の幾何学的構造を考慮してその特徴を学習するモデルベースな手法である。クラス内変化の大きい3次元物体認識においては、対象の3次元的な構造情報を利用するモデルベースな手法は妥当なアプローチであると考えられるが、学習時に対象の撮影角度情報が必要となるなど、一般的に学習コストが高く、また、対象の記述方法が複雑になりやすいといった欠点が存在する。以下、モデルベースな手法の問題点についてより詳細に説明する。
【0008】
まず、3次元の幾何学的構造を扱おうとすると、一般的に、任意の視点間における様々な特徴領域間の繋がりやその関連性(射影変換など)を算出する必要がある。このため、対象モデルの表現の仕方が複雑になりやすいという問題がある(実装が複雑になりやすい)。
【0009】
また、学習時には学習画像の撮影角度情報が必要となるなど、学習データにそれらの情報を付与する必要があり、学習データの作成コストが高くなる場合が多いという問題がある。
【0010】
また、3次元物体認識では、同一クラスの認識対象であっても、その視点の多様性から、個々の形状や外観がとても大きく変化してしまう。このため、認識に時間を要してしまう場合が多いという問題がある。
【0011】
また、画像から抽出した特徴量を利用して対象を認識するが、特徴量は画像の特徴的な情報のみを抽出しているために、その情報量は画像に比べて少なくなっている。このため、複雑な背景下(シーン)で認識を行う場合に、学習した特徴量と類似する特徴量が背景に多数存在するときには、誤認識してしまうことがある。つまり、特徴量の識別能力が認識精度に大きく影響を与える。一方で、識別能力が高い特徴量を用いた場合には、学習画像には含まれないものの同一クラスには含まれる対象を同一クラスとして認識させたいときに、その検出ができない状況に陥ることがある。また、特徴量の構造的な繋がりを評価することで認識を行っているものの、大局的な見え方としての類似性が考慮されていない。従って、これらの理由から、認識精度が低い(誤検出率が高い)という問題がある。
【0012】
なお、本発明に関連する他の技術として、特許文献1及び2には、眼鏡やヒゲの変化などといった時間経過とは独立した顔画像の部分的変化に対応して、本人認証を行うことができる顔認証装置が開示されている。当該顔認証装置では、入力画像から抽出された認証対象画像と予め学習させた登録画像とを照合し、照合の結果、同一人物ではないと判定した場合には、登録画像に近い想起画像を登録画像から生成し、認証対象画像に代えて想起画像を用いて登録画像との照合を再度行う。このように、登録画像から生成した想起画像により眼鏡やサングラスによる一部隠れを補間することで検出率自体は向上するものの、補間画像の精度を向上させることは難しく、誤認証率の低減について不十分なものである。
【0013】
従って本発明は、上述した課題を解決して、従来手法と比較してより高速かつ高精度な3次元物体認識を実現可能な物体認識装置及び物体認識方法を提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明に係る第一の態様の物体認識装置は、認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を記憶する記憶手段と、入力画像から特徴点を抽出して、前記記憶手段に記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定手段と、前記記憶画像特定手段で特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定手段と、を備えるものである。
【0015】
これにより、従来手法と比較してより高速かつ高精度な3次元物体認識を実現することができる。
【0016】
また、前記判定手段は、前記記憶画像特定手段で特定された複数の前記記憶画像を、それぞれの前記入力画像との類似度に応じて合成することで、前記想起画像を生成するようにしてもよい。
【0017】
さらにまた、前記判定手段は、前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断する際に、当該想起画像の生成に利用された前記入力画像の投票点の総数が多いほど、前記想起画像と前記入力画像とがより類似すると判断するようにしてもよい。
【0018】
また、前記記憶手段は、前記認識対象の向き情報を前記記憶画像と対応付けて更に記憶し、前記判定手段は、前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定すると共に、前記想起画像の生成に用いられた前記記憶画像の向き情報に基づいて、当該検出した前記認識対象の向きを推定するようにしてもよい。
【0019】
本発明に係る第二の態様の物体認識装置は、認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに複数記憶するデータベースと、入力画像から特徴点を抽出し、前記データベースに記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索部と、前記対応点探索部で探索された前記入力画像の対応点について、前記データベースに記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理部と、前記投票処理部で投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリング部と、前記投票点クラスタリング部で前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成部と、前記候補枠生成部で生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成部と、前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出部と、を備えるものである。
【0020】
これにより、従来手法と比較してより高速かつ高精度な3次元物体認識を実現することができる。
【0021】
また、前記想起画像生成部は、前記候補枠生成部で生成された候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記記憶画像を、それぞれの前記テンプレートモデルから得た前記入力画像における投票数に応じて合成することで、前記想起画像を生成するようにしてもよい。
【0022】
さらにまた、前記信頼値算出部は、前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出すると共に、当該候補枠に対応する全ての前記テンプレートモデルから得た前記入力画像における投票総数を算出し、当該算出した相違度の逆数と当該投票総数とに基づいて算出する信頼値が所定の閾値よりも小さかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定するようにしてもよい。
【0023】
また、前記テンプレートモデルは、前記認識対象の向きを示す向き情報を更に含み、前記信頼値算出部で前記認識対象を検出したと判定された場合に、当該検出された前記認識対象の候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記向き情報に基づいて、当該検出された前記認識対象の向きを推定する向き推定部を更に備えるようにしてもよい。
【0024】
本発明に係る第三の態様の物体認識方法は、認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を予め記憶する記憶ステップと、入力画像から特徴点を抽出して、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定ステップと、前記記憶画像特定ステップで特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定ステップと、を有するものである。
【0025】
これにより、従来手法と比較してより高速かつ高精度な3次元物体認識を実現することができる。
【0026】
本発明に係る第四の態様の物体認識方法は、認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに予め複数記憶する記憶ステップと、入力画像から特徴点を抽出し、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索ステップと、前記対応点探索ステップで探索された前記入力画像の対応点について、前記記憶ステップで記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理ステップと、前記投票処理ステップで投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリングステップと、前記投票点クラスタリングステップで前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成ステップと、前記候補枠生成ステップで生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成ステップと、前記想起画像生成ステップで生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出ステップと、を有するものである。
【0027】
これにより、従来手法と比較してより高速かつ高精度な3次元物体認識を実現することができる。
【発明の効果】
【0028】
本発明によれば、従来手法と比較してより高速かつ高精度な3次元物体認識を実現可能な物体認識装置及び物体認識方法を提供することができる。
【図面の簡単な説明】
【0029】
【図1】実施の形態1に係る物体認識装置の構成を示す機能ブロック図である。
【図2】実施の形態1に係る学習モデルを説明するための図である。
【図3】実施の形態1に係る認識手順の概要を示すフローチャートである。
【図4】実施の形態1に係る特徴点の位置ベクトルを説明するための画像である。
【図5】実施の形態1に係る中心候補点の投票を説明するための画像である。
【図6】実施の形態1に係る入力画像における対応点探索とVoting処理を説明するための画像である。
【図7】実施の形態1に係る想起画像の例を示す画像である。
【図8】実施の形態1に係る想起画像の生成方法を説明するための画像である。
【図9】実施の形態1に係る想起画像を用いた誤検出除去を説明するための画像である。
【図10】実施の形態1に係る正しく検出できた場合の認識結果を示す画像である。
【図11】実施の形態1に係る誤って検出した場合の認識結果を示す画像である。
【図12】実施の形態1に係るクラス検出結果を示すグラフである。
【図13】実施の形態1に係る向き推定結果を示すグラフである。
【発明を実施するための形態】
【0030】
本発明の各実施の形態について説明する前に、本発明の基本構成について説明する。
まず、本発明は、一般物体のうち、比較的形状変化の少ない剛体(後述する実施の形態では自動車を例に説明する。)を対象とする3次元物体認識について、学習画像一つひとつに対して独立に学習・認識を行うアピアランスベースな手法を採用したものである。さらに、後述するように、本発明による効果を確認するため、PASCAL VOC 2006 datasetを用いて、3次元物体のクラス検出精度を評価すると共に、それらの向き推定の結果についても定量的な評価を行う。
【0031】
本発明では、計算コストが比較的低いVoting処理(高木雅成,藤吉弘亘,"SIFT 特徴量を用いた交通道路標識認識," 電学論C,vol.129,no.5,pp.824-831,2009.)を利用して、学習した認識対象それぞれについてその存在の有無を判定すると共に、それらの結果を重畳することで認識対象の存在範囲及びその向きを推定する。
【0032】
本発明では、認識時に、認識対象のアピアランス(見え方)の想起を行う(想起画像を生成する。)ことを特徴とする。これは、認識した範囲に認識対象がどのように存在しているか、そのアピアランスを推定するものであり、これにより、システムが対象をどのように認識しているのかを視覚的に確認することが可能となる。本発明では、この想起結果と認識範囲とを画像として比較することで誤検出の除去を行い、これによって、認識精度の向上を図る。なお、本発明による認識対象は、原理的に、形状変化の少ない剛体であれば自動車に限定されず、他の物体であってもよい。
【0033】
実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。なお、以下では、本文中の説明においては、必要に応じそれ以前に述べた符号を用いるものとする。
【0034】
図1は、本実施の形態に係る物体認識装置の構成を示す機能ブロック図である。物体認識装置1は、学習モデルを記憶したデータベース2と、対応点探索部3と、投票処理部4と、投票点クラスタリング部5と、候補枠生成部6と、想起画像生成部7と、信頼値算出部8と、向き推定部9と、を備えている。
【0035】
記憶画像特定手段11は、対応点探索部3の機能と、投票処理部4の機能と、投票点クラスタリング部5の機能と、候補枠生成部6の機能と、を備えている。より具体的には、対応点探索部3の機能により、入力画像から特徴点を抽出して、データベース2に記憶された記憶画像の特徴点と入力画像から抽出した特徴点との間で対応する特徴点を探索する。投票処理部4の機能により、探索した対応点について、記憶画像の特徴点の位置関係情報に基づいて算出する投票点を入力画像に投票する。投票点クラスタリング部5の機能により、投票点が集中しかつ投票数が多いほど入力画像と記憶画像との類似度が高いと判定する。候補枠生成部6の機能により、判定の結果、入力画像と類似する記憶画像を特定する。
【0036】
判定手段12は、想起画像生成部7の機能と、信頼値算出部8の機能と、向き推定部9の機能と、を備えている。より具体的には、想起画像生成部7の機能により、記憶画像特定手段11で特定された記憶画像を用いて入力画像の見え方を示す想起画像を生成する。信頼値算出部8の機能により、生成した想起画像と入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、入力画像に認識対象を検出したと判定する。向き推定部9の機能により、検出した認識対象の向きを推定する。
【0037】
データベース2は、学習モデルを記憶する記憶手段である。本実施の形態では、ある1つのクラスについての全てのテンプレートモデルの集合体をクラスモデルとし、全てのクラスモデルの集合体を学習モデルとして取り扱う。すなわち、学習モデルは複数のクラスモデルを含み、各クラスモデルは複数のテンプレートモデルを含む。図1に示す例では、学習モデルは、クラスモデル21を含み、クラスモデル21は、テンプレートモデル211、212、213を含んでいる。なお、本実施の形態では、学習モデルは、1つのクラスモデル(自動車のクラス)を有するものとして説明するが、複数のクラスモデル(マルチクラス)を有するものとしてもよい。
【0038】
物体認識装置1は、認識対象を予め学習しておき、データベース2に予め記憶された学習モデルを用いて認識を行う。物体認識装置1は、学習時には、学習画像が提示されるごとに、学習画像に含まれる認識対象をインクリメンタルに学習して行く。認識対象の学習は、与えられる全ての学習画像についてテンプレートモデルを構築することで行われる。
【0039】
図2に示すように、各テンプレートモデル(Template model)は、認識対象を含む領域の濃淡画像(Learning image)(以下、記憶画像と表記する場合がある。)と、特徴点及びその位置ベクトル(Feature point & Location vector)と、テンプレート情報(Template information)と、を含んでいる。テンプレート情報は、特徴点の平均スケールサイズ(Average scale size of feature points)と、記憶画像の大きさを平均スケールサイズで正規化した値(Template size(width, height))(以下、テンプレートサイズと表記する場合がある。)と、向きラベル(Pose label)と、を含んでいる。
【0040】
物体認識装置1は、学習画像が与えられると、学習画像内で認識対象が存在する領域内の局所特徴量(以下、特徴点と表記する場合がある。)を抽出し、抽出した各特徴点について位置ベクトルを算出する。なお、位置ベクトルの詳細については後述する。また、本実施の形態では、物体認識装置1により、特徴点の平均スケールサイズと、テンプレートサイズと、を算出し、ユーザにより向きラベルが与えられる。
【0041】
次に、図3を参照して、物体認識装置1による認識手順の概要について説明する。物体認識装置1は、予め構築した学習モデルを用いて、対象の認識を行う。認識手順は、大別すると、候補枠検出手順(S102)と、誤検出除去手順(S103)と、の2段階の処理を含んでいる。まず、候補枠検出手順(S102)では、入力画像において認識対象が存在すると考えられる範囲(以下、候補枠と表記する場合がある。)を検出する。そして、誤検出除去手順(S103)では、検出した候補枠のうちで誤検出であると考えられる候補枠を除去する。より詳細には、それぞれ、以下に示す手順を含んでいる。
【0042】
S101:物体認識装置1は、入力画像を取得する(入力画像取得処理)。
S111:対応点探索部3は、学習モデルと入力画像との間で、特徴点の対応を探索する(対応点探索処理)。
S112:投票処理部4は、学習モデルとの間で対応のとれた入力画像の特徴点について、学習モデルにおける特徴点の位置関係情報を利用して、入力画像の特徴点についての中心候補点を投票する(Voting処理)。
S113:投票点クラスタリング部5は、入力画像に投票した中心候補点(以下、単に投票点と表記する場合がある。)をクラスタリングし、所定の閾値以上の投票数を集めたクラスタを求める(投票点クラスタリング処理)。
S114:候補枠生成部6は、クラスタ中心を囲む矩形領域(候補枠)を生成する(候補枠生成処理)。
S116:想起画像生成部7は、入力画像における各候補枠について、候補枠に対応する学習モデルの記憶画像を用いて、想起画像を生成する(アピアランス想起処理)。
S117:信頼値算出部8は、想起画像と実画像(入力画像における候補枠内の画像)との間の類似度を信頼値として算出し、誤検出の候補枠を除去する(信頼値算出処理)。
S117:向き推定部9は、候補枠の算出に用いたテンプレートモデルの向きラベルから、検出した認識対象の向きを推定する(向き推定処理)。
S104:物体認識装置1は、認識対象の存在の有無と、存在する範囲と、向きと、を出力する(認識結果出力処理)。
以下、各部による処理の詳細について具体的に説明する。
【0043】
対応点探索部3は、入力画像から特徴点を抽出し、学習モデル中の全ての特徴点と、入力画像から抽出された特徴点との間でのマッチングを行う。本実施の形態では、入力画像から抽出する特徴点としてSURFを利用するが、入力画像から抽出する特徴点の種類はこれに限定されず、SIFTなどの物体認識に用いる他の種類の特徴点を利用してもよい。
【0044】
学習モデル中のi番目の特徴点をpi、入力画像中のj番目の特徴点をqjとし、それらの距離をdijとした場合、特徴点piに対して最近傍の特徴点は、j1NN=argminjdijのインデックスを持つ特徴点qj1NNとなる。ここで、類似した特徴点が入力画像中に複数存在する場合などにおいて、この特徴点qj1NNをそのまま対応点とみなすと、多くの誤対応が生じることがある。このため、本実施の形態では、更に、次の数(1)を満たす特徴点qjのみを対応点として利用する。なお、数(1)において、j2NNは2番目に近い特徴点のインデックスを表しており、tは所定の閾値である。
【数1】
【0045】
数(1)は、最近傍との距離dij1NNが、2番目に近い特徴点との距離dij2NNに対して一定の割合以下となることを表している。この条件式により、誤対応を削減した対応点探索を行うことができる。
【0046】
投票処理部4は、Voting処理を利用することで、認識対象の有無の判定と、認識対象が存在する領域の判定と、を行う。Voting処理は、マッチングした全特徴点に対して一意に決まる投票点を算出するという、反復の必要がない処理を用いて存在範囲を推定するために、計算コストが低く、認識速度の向上に有用である。
【0047】
Voting処理では、学習モデル中の特徴点の位置関係情報を利用して、入力画像中の対応する特徴点について、入力画像に含まれる認識対象の中心候補点を推定、投票していく。これは、一般化ハフ変換を応用した手法であり、ハッシュテーブルの各項目への投票数を算出する代わりに、実画像領域へ投票した中心候補点をクラスタリングし、各クラスタの投票数を算出するものである。以下、中心候補点の投票処理の流れを説明する。
【0048】
まず準備として、学習時において、テンプレートモデルの記憶画像それぞれについて、基準点を与えておく。本実施の形態では、記憶画像の中心を基準点として設定し、各記憶画像において、設定した基準点と、各特徴点との間の位置関係情報を算出する。そして、算出した位置関係情報を特徴点ごとの位置ベクトルとして、テンプレートモデルに与えておく。なお、本実施の形態では、記憶画像の中心を基準点として設定したが、これに限定されず他の任意の位置を基準点として設定してもよい。
【0049】
例えば、図4の左上に示すように、中心(Center point)を基準点として特徴点(feature point)の位置ベクトル(location vector)を算出する。例えば、図4の右下に示すように、記憶画像の認識対象(自動車)について、記憶画像の中心を基準として、3つの特徴点それぞれに対する位置ベクトルを算出する。
【0050】
次に、テンプレートモデルの記憶画像の特徴点と、特徴点の位置ベクトルと、に基づいて、その特徴点に対応する入力画像中の特徴点についての基準点、すなわち中心候補点を求める。ここで、テンプレートモデルの記憶画像における特徴点及び位置ベクトルと、入力画像における特徴点と、を以下のように与える。
(i)テンプレートモデルの記憶画像における特徴点;
座標:(xtemp,ytemp)
スケール:σtemp
輝度勾配方向:θtemp
位置ベクトル:(Δx,Δy)。
(ii)入力画像における特徴点;
座標:(xin,yin)
スケール:σin
輝度勾配方向:θin。
【0051】
すると、記憶画像の特徴点の座標、スケール、輝度勾配方向、及び位置ベクトルと、入力画像の特徴点の座標、スケール、及び輝度勾配方向と、から、入力画像における中心候補点(X,Y)を次の数(2)及び数(3)により求めることができる。ただし、θ=arctan(Δy/Δx)とする。
【数2】
【数3】
【0052】
以上の処理を、テンプレートモデルごとに対応するすべての特徴点に対して行い、入力画像に対して中心候補点の投票を行う。すなわち、1のテンプレートモデルについて、入力画像の特徴点との間で対応がとれた記憶画像の特徴点について、その対応がとれた特徴点の位置ベクトルなどの情報を利用して中心候補点を算出し、算出した中心候補点を入力画像に投票する。
【0053】
記憶画像と同一又は類似の認識対象が入力画像に存在する場合(すなわち、同一クラスの認識対象が存在する場合)には、記憶画像における基準点に対する特徴点の位置関係と、入力画像における中心候補点に対する特徴点の位置関係とが、互いに類似するものと考えられる。つまり、記憶画像において同一の認識対象に関する全ての特徴点を、同一の一の基準点からの位置ベクトルによりそれらの位置関係を規定しているため、入力画像に記憶画像と同一クラスの認識対象が存在しているならば、対応する記憶画像の特徴点の位置ベクトルなどを利用して入力画像における特徴点の中心候補点を推定したときには、それら中心候補点は、記憶画像における基準点と同様に、特定箇所に集中する可能性が高い。従って、もし入力画像中に同一クラスの認識対象物が存在するならば、投票された中心候補点は、認識対象物の中心近くに集中すると考えられる。
【0054】
例えば、図5の左図に示すように、中心候補点(投票点)が分散している場合には、認識対象物が存在しない可能性が高い。一方で、同図の右図に示すように、投票点が集中している場合には、認識対象物が存在する可能性が高いと考えられる。
【0055】
投票点クラスタリング部5は、入力画像に中心候補点が投票されたら、それら中心候補点(投票点)のクラスタリングを行う。投票点クラスタリング部5は、隣接している投票点を同一クラスタにまとめた上で、各クラスタについて、そのクラスタ内に含まれる投票数を求める。そして、クラスタの投票数が予め定めた所定の閾値(以下、投票閾値と表記する場合がある。)以上である場合には、そのクラスタ中心を中心とする認識対象物が存在するものと判断する。
【0056】
例えば図6では、入力画像(Input image)のクラスタの投票数が投票閾値以上である例を示しており、この場合には、テンプレートモデル(Template model)の記憶画像に含まれる認識対象(自動車)が、入力画像のクラスタ中心を中心として存在するものと判断する。
【0057】
本実施の形態では、投票点のクラスタリングをTOD(Threshold Order-Dependent)アルゴリズム(M. Friedman and A. Kandel, "Introduction to Pattern Recognition," pp.70-73, World Scientific Publishing Company, 1999.)に基づいて実行する。TODアルゴリズムは逐次的にデータを処理することが可能であり、極めて簡素な処理のため、データのクラスタリングを高速に行うことが可能である。なお、投票点のクラスタリングはTODアルゴリズムに限定されず、他の公知のクラスタリング手法に基づいて行うものとしてもよい。
【0058】
以下、TODアルゴリズムに基づくクラスタリングについて説明する。投票点の座標をv、投票点に対する特徴点のスケールサイズ及びテンプレートサイズを要素とするベクトルをwとしたとき、その処理は次のようになる。
【0059】
Step1:クラスタリング閾値Tを設定する。これは、同一クラスタとする投票点間の最大距離である。本実施の形態では、単位スケールサイズに対する最大距離を予め定めておき、入力画像ごとに、全特徴点の平均スケールサイズ倍した値をクラスタリング閾値Tとして設定する。これにより、認識対象の大きさに合わせて相対的な値に設定できる。
【0060】
Step2:クラスタ中心の集合をCとして、最初の入力c0を集合Cの要素とする。また、クラスタ中心c0の向きラベルの集合Pc0を作成し、最初の入力の向きラベルをこの要素とする。更に、クラスタ中心c0への投票数εc0を1とする。
【0061】
Step3:cnewを新しい入力として、cnewに対して最近傍となるクラスタ中心cNN=argminc∈C‖vcnew−vc‖を探索する。
【0062】
Step4:vcnewとvcNNの距離がクラスタリング閾値Tを超える場合には、cnewを集合Cに加える。そして、更に、cnewの向きラベルを要素とするPcnewを作成し、cnewへの投票数εcnewを1として、Step3へと戻る。
【0063】
Step5:vcnewとvcNNの距離がクラスタリング閾値T以下である場合には、cNNの総投票数であるεcNNのカウントを1増加させ、vcNN及びwcNNの値を次の数(4)及び数(5)に示すように修正する。更に、cnewの向きラベルを集合PcNNに追加し、ステップ3へと戻る。
【数4】
【数5】
【0064】
Step6:最後に、全ての投票点を入力し終わったら、生成された全てのクラスタ中心に対して、その投票数が投票閾値以上であるか否かを判定する。判定の結果、投票数が投票閾値未満のクラスタ中心については、削除する。本実施の形態では、以上の処理をまずテンプレートモデルごとに実行してクラスタリングを行う。
【0065】
投票点クラスタリング部5は、上述したStep1からStep6で示したクラスタリングを、各テンプレートモデルに対して実行する。そして、更に、各テンプレートモデルについて残ったクラスタ中心を投票点として、クラスモデルごとに再度クラスタリングを行う。この2度目のクラスタリングにより得たクラスタの中心を、最終的なクラスタリング結果とする。また、この2度目のクラスタリングはテンプレートモデルごとの認識結果をまとめるためのものであり、投票数によるクラスタ中心の削除は行わない。また、この2度目のクラスタリングで用いるクラスタリング閾値Tは、1度目のクラスタリングで用いたクラスタリング閾値に比例する値を用いた。
【0066】
クラスタリングの結果、生成された各クラスタは1又は複数のテンプレートモデルに対応する。従って、以上の処理によって、入力画像と類似するテンプレートモデル(の記憶画像)が特定される。入力画像と記憶画像との類似度合いは、入力画像において投票点が集中しかつ投票数が多いほど、入力画像とテンプレートモデルの記憶画像との類似度が高いものとして判定される。
【0067】
候補枠生成部6は、クラスタリング処理の結果生成された各クラスタの中心について、その座標を中心とする矩形領域を候補枠として生成する。矩形領域は、各クラスタに対応する1又は複数のテンプレートモデルの平均スケールサイズとテンプレートサイズと、に基づいて作成する。より具体的に説明すると、矩形領域生成のためのパラメータとして、クラスタリング中に更新されるwには、矩形領域の幅と高さ(すなわち、テンプレートサイズ)が含まれている。このため、1回目及び2回目のクラスタリング処理中に上記数(5)によりwが逐次更新されることで、最終的なクラスタ中心に対して所望の矩形領域サイズが記録される、という処理が行われる。すなわち、クラスタリングを行なう過程で、クラスタ中心が保持しているテンプレートサイズを逐次更新し続け、最終的に、クラスタに属する投票点の平均のような値が求められ、これを矩形領域のサイズとしている。これにより、認識対象物が存在すると思われる候補枠を入力画像において生成する。候補枠生成の結果、各候補枠は、1のクラスタ中心に対応する。また、各候補枠は、1又は複数のテンプレートモデルに対応する。
【0068】
想起画像生成部7は、生成した各候補枠について、候補枠に対応するテンプレートモデルの記憶画像を用いて、そのアピアランスを画像として想起する。ここで、想起される画像(以下、想起画像と表記する場合がある。)とは、システムが対象をどのように認識したかを視覚的に表現したものであり、対象がどのような見え方で存在しているのかを推定したものである。例えば図7の左図に示す候補枠について、同図の右図に示すような想起画像が生成される。
【0069】
想起画像の生成方法はシンプルである。まず、候補枠を生成する際に、クラスタに対応するテンプレートモデルについて、どのテンプレートモデルからどの程度投票数が得られたのかを、候補枠のクラスタ中心に対して情報として記憶させておく。そして、テンプレートモデルごとに、その記憶画像を候補枠の大きさにリサイズし、さらに、それぞれの明度を減少させた上で、それら記憶画像を重畳していく。このとき、減少させる各記憶画像の明度は、クラスタリング結果に応じた重み付けに応じて調整される。本実施の形態では、それぞれの記憶画像の全ピクセルの輝度値に、クラスタリング結果に応じた重み付けを掛け合わせることで算出する。ここでは、クラスタ中心に記憶した全ての投票数に対して、そのテンプレートモデル(記憶画像)の投票数の占める割合を、上記の重み付けとする。これにより、1つの候補枠に対して、最終的に1枚の想起画像が生成される。
【0070】
例えば図8に示す例では、入力画像において、左上図に示す投票結果(Voting result)から右上図に示す候補枠(Candidate window detection)が生成される。そして、左下図に示す3つのテンプレートモデルの記憶画像(Learning image of template model)を、それぞれリサイズして明度の重み付けをした上で合成することで、右下図に示す想起画像(Recalled image)を生成した。なお、図に示す例では、明度の重み付けは、クラスタ中心に記憶した全ての投票数(図では10の投票数)に対して、各テンプレートモデルの投票数(図では、それぞれ3の投票数、5の投票数、2の投票数)が占める割合(0.3と、0.5と、0.2と。)とした。
【0071】
信頼値算出部8は、生成した想起画像と、実画像(入力画像における候補枠の画像)と、を比較して候補枠の信頼値を算出し、算出した信頼値に基づいて、誤って検出した候補枠の除去を行う。すなわち、想起画像と実画像とを比較してこれら画像が類似している場合には、その候補枠は正しく検出されたものであったとみなす。一方で、両画像が類似していない場合には、その候補枠が誤って検出されたものであったとみなす。信頼値算出部8は、誤って検出されたとみなされた候補枠を除去した結果、除去されずに残された候補枠で示す入力画像の範囲に、認識対象(候補枠に対応するテンプレートモデルのクラス)を検出したと判定する。
【0072】
本実施の形態では、想起画像と実画像との相違度を、全ピクセルの輝度値差の平均値として算出し、この値が予め設定した所定の閾値よりも大きかった場合には、誤検出としてその候補枠を除去する。なお、候補枠の除去方法としては、全ピクセルの輝度値差の平均値以外にも、様々な評価基準に基づいて誤った候補枠の除去を行うことができる。
【0073】
本実施の形態では、上記相違度に基づく誤検出除去後の各候補枠に対して、更に、想起画像と実画像との相違度(全ピクセルの輝度値差の平均値)に加えて、投票数についても考慮した候補枠の信頼値を算出し、この値が所定の閾値よりも小さかった場合に、誤検出としてその候補枠を除去する。これは、誤検出の判定においては、投票数を考慮せずに画像としての類似度で比較を行う方が好ましいが、正しく検出していると判断された場合に、画像としての類似度が同じであるならば、より投票数の多い方が、対象との類似度が高いと考えられるためである。
【0074】
信頼値は、次の数(6)により算出する。ただし、候補枠の横幅と縦幅をそれぞれwとhとし、候補枠の実画像の輝度値をIestとし、想起画像の輝度値をIrecとし、候補枠の総投票数をεとする。この値を用いることで、各候補枠の信頼度を比較することができる。
【数6】
【0075】
例えば図9に示す例では、右上図に示すように3つの候補枠について、想起画像との比較の結果、左下図に示す1つの候補枠以外の候補枠が誤検出であるとして除去される。
【0076】
向き推定部9は、各候補枠について、その認識対象の向きを推定する。向きラベルの集合をP、認識対象のクラスモデル中で向きラベルp∈Pを持つテンプレートモデルの総数をAclass(p)、候補枠の全投票結果の中で向きラベルがpに一致する投票数をAest(p)としたとき、認識対象の向きは次の数(7)により推定される。すなわち、学習した向きラベルの総数に対する割合で、最も多く投票された向きラベルが推定結果となる。
【数7】
【0077】
次に、本実施の形態による効果について説明する。本実施の形態による有効性を示すため、実世界シーンを撮影した実環境画像に対して、物体認識装置1によるクラス検出及び向き推定の実験を行った。
【0078】
実験には、3次元物体認識手法の評価実験によく利用されているデータセットである、PASCAL Challenge Visual Object Class("PASCAL Challenge".http://www.pascal-network.org/challenges/VOC/.)を利用した。本実施の形態では、その中でも最新研究の結果が揃っているPASCAL VOC 2006 dataset(M. Everingham, A. Zisserman, C.K.I. Williams, and L. Van Gool, "The PASCAL Visual Object Classes Challenge 2006 (VOC2006) Results," Technical report, PASCAL Network, 2006.)の"car"クラスに対して性能評価を行なった。
【0079】
"car"クラスデータの場合、学習画像全2618枚中553枚に写っている854個の自動車が学習対象として与えられており、テスト画像全2686枚中544枚に写っている854個の自動車が検出対象となっている。画像はすべて雑多な実環境を撮影したものであり、検出対象となる自動車の種類も様々で、その向きや大きさもばらばらである。
【0080】
なお、学習には他の3次元物体認識手法と同様に、上述の学習データの他に3D objects dataset(S. Savarese and L. Fei-Fei, "3d generic object categorization,localization and pose estimation," IEEE Int. Conf.Comput. Vision, pp.1-8, 2007.)の"car"クラスデータも利用した。これは、10種類の自動車について、それぞれ8方向×2高度×3スケールで撮影した48枚の画像と、その撮影位置情報及び対象領域情報が与えられたものである。
【0081】
図10及び図11に、上記のデータセットに対する処理結果例を示す。図10は、正しく検出できた場合の例を示す画像である。各画像の左上又は右下の小さな画像は、各検出結果に対する想起画像を示す。認識対象に多少のオクルージョンが存在する場合や、複数の認識対象が含まれている場合においても、正しく認識できていることが分かる。図11は、誤検出した場合の例を示す画像である。領域サイズが適正でない場合や、明らかな誤認識をしてしまっていることが分かる。
【0082】
次に、上記のテストデータを用いて自動車のクラス検出実験を行ない、その結果を図12に示す。図12は、本実施の形態と、Sun&Su CVPR09(非特許文献2)との比較結果を示す。評価は、precision-recall curveとそのAP(Average Precision)で行なった。
【0083】
図12を見てわかるとおり、検出精度について、既存手法(Sun&Su CVPR09)のAPは0.310であるのに対して、本実施の形態(Our method)によるAPは0.323となっており、より高い検出精度を達成できている。また、認識に要する処理時間について、本実施の形態では、特徴抽出時間も含めた画像1枚あたりの認識時間は、平均12.6秒(3.2GHz,Matlab)であった。それに対して、私信によると、既存手法の認識時間は画像1枚あたり約300秒(2.2GHz,Matlab)である。従って、検出精度だけでなく、その処理速度についても、本実施の形態による有効性が確認できた。
【0084】
なお、図12には、参考結果として、Liebelt CVPR08(J. Liebelt, C. Schmid, and K. Schertler, "Viewpointindependent object class detection using 3d feature maps," IEEE Int. Conf. Comput. Vision and Pattern Recognit., pp.1-8, 2008.)と、Su&SunICCV09(H. Su, M. Sun, L. Fei-Fei, and S. Savarese, "Learning a dense multi-view representation for detection, viewpoint classification and synthesis of object categories," IEEE Int. Conf. Comput. Vision, 2009.)、及びPASCAL VOC 2006に参加した4チームの結果もグラフに示してある。しかしながら、Liebelt CVPR08は独自に用意したCGモデルを、また、Su&SunICCV09は本実験で用いた学習データの他に、独自に用意したvideo clipを、それぞれの学習において利用しており、テストデータや評価方法は同一であるが、学習時に利用したデータが異なる点に留意されたい。また、PASCAL VOC 2006に参加したチームの手法については、対象の検出のみを目的としており、向きの推定については考慮されていない。
【0085】
次に、上記のテストデータに対する検出結果の中で、正しく認識できていたものについて、その認識対象の向き推定を行なった。本実施の形態による向き推定の結果と、比較対象(Sun&Su CVPR09)による結果と、を図13に示す。ただし、向きの推定は、PASCAL VOC 2006datasetでは、向きのラベルが4方向にしか付与されていない。このため、本実施の形態では、その4方向のいずれに属するのかを推定した。なお、テスト画像中の対象が4方向のいずれにも属していない場合については、その推定結果は考慮されていない。
【0086】
図13に示されるように、本実施の形態では、比較対象(Sun&Su CVPR09)と比べて、どの向きについてもより高い精度で推定することができた。平均精度についても、既存手法は62%であるのに対して、本実施の形態では86%となっており、本実施の形態による向き推定の精度の高さが確認できた。
【0087】
以上説明したように、本実施の形態では、Voting処理による候補枠検出と、アピアランス想起による誤検出除去という2段階の処理に基づく、比較的高速かつ高精度なアピアランスベースの3次元物体認識手法を実現した。また、本実施の形態による効果を確認するため、PASCAL VOC 2006 datasetを用いて実験を行い、向き推定の精度と認識時間において既存手法より優れた結果を示し、その認識精度においても、既存手法と同等以上の結果を得ることができた。
【0088】
本実施の形態では、従来のモデルベースの手法に対して、与えられた見え方そのものを独立に学習・認識するアピアランスベースな手法を採用することで、従来手法が有する欠点を容易に補うことを可能とした。
【0089】
また、本実施の形態では、Voting処理を利用することで、対象の様々なアピアランスを独立に学習・認識しつつ、それらの結果を重畳することでクラスレベルでの対象の認識を可能とした。ここで、本実施の形態では、Voting処理による認識結果に対してアピアランスの想起を行い、その想起結果と認識結果とを比較することで誤認識を除去することを特徴とし、これにより、認識精度をより向上させることができた。
【0090】
さらに、本実施の形態では、各学習画像から独立に学習を行うものであるため、認識対象の記述方法がシンプルであり、さらに、容易に追加学習を行うことができるという利点を有する。
【0091】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【符号の説明】
【0092】
1 物体認識装置、
2 データベース、
3 対応点探索部、
4 投票処理部、
5 投票点クラスタリング部、
6 候補枠生成部、
7 想起画像生成部、
8 信頼値算出部、
9 向き推定部、
11記憶画像特定手段、
12 判定手段、
21 クラスモデル、
211、212、213 テンプレートモデル
【特許請求の範囲】
【請求項1】
認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を記憶する記憶手段と、
入力画像から特徴点を抽出して、前記記憶手段に記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定手段と、
前記記憶画像特定手段で特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定手段と、
を備える物体認識装置。
【請求項2】
前記判定手段は、
前記記憶画像特定手段で特定された複数の前記記憶画像を、それぞれの前記入力画像との類似度に応じて合成することで、前記想起画像を生成する
ことを特徴とする請求項1に記載の物体認識装置。
【請求項3】
前記判定手段は、
前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断する際に、当該想起画像の生成に利用された前記入力画像の投票点の総数が多いほど、前記想起画像と前記入力画像とがより類似すると判断する
ことを特徴とする請求項1又は2に記載の物体認識装置。
【請求項4】
前記記憶手段は、
前記認識対象の向き情報を前記記憶画像と対応付けて更に記憶し、
前記判定手段は、
前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定すると共に、前記想起画像の生成に用いられた前記記憶画像の向き情報に基づいて、当該検出した前記認識対象の向きを推定する
ことを特徴とする請求項1乃至3いずれか1項に記載の物体認識装置。
【請求項5】
認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに複数記憶するデータベースと、
入力画像から特徴点を抽出し、前記データベースに記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索部と、
前記対応点探索部で探索された前記入力画像の対応点について、前記データベースに記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理部と、
前記投票処理部で投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリング部と、
前記投票点クラスタリング部で前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成部と、
前記候補枠生成部で生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成部と、
前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出部と、
を備える物体認識装置。
【請求項6】
前記想起画像生成部は、
前記候補枠生成部で生成された候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記記憶画像を、それぞれの前記テンプレートモデルから得た前記入力画像における投票数に応じて合成することで、前記想起画像を生成する
ことを特徴とする請求項5に記載の物体認識装置。
【請求項7】
前記信頼値算出部は、
前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出すると共に、当該候補枠に対応する全ての前記テンプレートモデルから得た前記入力画像における投票総数を算出し、当該算出した相違度の逆数と当該投票総数とに基づいて算出する信頼値が所定の閾値よりも小さかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する
ことを特徴とする請求項5又は6に記載の物体認識装置。
【請求項8】
前記テンプレートモデルは、
前記認識対象の向きを示す向き情報を更に含み、
前記信頼値算出部で前記認識対象を検出したと判定された場合に、当該検出された前記認識対象の候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記向き情報に基づいて、当該検出された前記認識対象の向きを推定する向き推定部を更に備える
ことを特徴とする請求項5乃至7いずれか1項に記載の物体認識装置。
【請求項9】
認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を予め記憶する記憶ステップと、
入力画像から特徴点を抽出して、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定ステップと、
前記記憶画像特定ステップで特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定ステップと、
を有する物体認識方法。
【請求項10】
認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに予め複数記憶する記憶ステップと、
入力画像から特徴点を抽出し、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索ステップと、
前記対応点探索ステップで探索された前記入力画像の対応点について、前記記憶ステップで記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理ステップと、
前記投票処理ステップで投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリングステップと、
前記投票点クラスタリングステップで前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成ステップと、
前記候補枠生成ステップで生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成ステップと、
前記想起画像生成ステップで生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出ステップと、
を有する物体認識方法。
【請求項1】
認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を記憶する記憶手段と、
入力画像から特徴点を抽出して、前記記憶手段に記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定手段と、
前記記憶画像特定手段で特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定手段と、
を備える物体認識装置。
【請求項2】
前記判定手段は、
前記記憶画像特定手段で特定された複数の前記記憶画像を、それぞれの前記入力画像との類似度に応じて合成することで、前記想起画像を生成する
ことを特徴とする請求項1に記載の物体認識装置。
【請求項3】
前記判定手段は、
前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断する際に、当該想起画像の生成に利用された前記入力画像の投票点の総数が多いほど、前記想起画像と前記入力画像とがより類似すると判断する
ことを特徴とする請求項1又は2に記載の物体認識装置。
【請求項4】
前記記憶手段は、
前記認識対象の向き情報を前記記憶画像と対応付けて更に記憶し、
前記判定手段は、
前記想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定すると共に、前記想起画像の生成に用いられた前記記憶画像の向き情報に基づいて、当該検出した前記認識対象の向きを推定する
ことを特徴とする請求項1乃至3いずれか1項に記載の物体認識装置。
【請求項5】
認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに複数記憶するデータベースと、
入力画像から特徴点を抽出し、前記データベースに記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索部と、
前記対応点探索部で探索された前記入力画像の対応点について、前記データベースに記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理部と、
前記投票処理部で投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリング部と、
前記投票点クラスタリング部で前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成部と、
前記候補枠生成部で生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成部と、
前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出部と、
を備える物体認識装置。
【請求項6】
前記想起画像生成部は、
前記候補枠生成部で生成された候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記記憶画像を、それぞれの前記テンプレートモデルから得た前記入力画像における投票数に応じて合成することで、前記想起画像を生成する
ことを特徴とする請求項5に記載の物体認識装置。
【請求項7】
前記信頼値算出部は、
前記想起画像生成部で生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出すると共に、当該候補枠に対応する全ての前記テンプレートモデルから得た前記入力画像における投票総数を算出し、当該算出した相違度の逆数と当該投票総数とに基づいて算出する信頼値が所定の閾値よりも小さかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する
ことを特徴とする請求項5又は6に記載の物体認識装置。
【請求項8】
前記テンプレートモデルは、
前記認識対象の向きを示す向き情報を更に含み、
前記信頼値算出部で前記認識対象を検出したと判定された場合に、当該検出された前記認識対象の候補枠について、当該候補枠に対応する複数の前記テンプレートモデルの前記向き情報に基づいて、当該検出された前記認識対象の向きを推定する向き推定部を更に備える
ことを特徴とする請求項5乃至7いずれか1項に記載の物体認識装置。
【請求項9】
認識対象をそれぞれ含む複数の記憶画像と、当該複数の記憶画像の各々から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、を予め記憶する記憶ステップと、
入力画像から特徴点を抽出して、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間で対応する特徴点を探索し、当該探索した対応点について、前記記憶画像の特徴点の位置関係情報に基づいて算出する投票点を前記入力画像に投票し、当該投票点が集中しかつ投票数が多いほど前記入力画像と前記記憶画像との類似度が高いと判定し、当該判定の結果、前記入力画像と類似する前記記憶画像を特定する記憶画像特定ステップと、
前記記憶画像特定ステップで特定された前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成し、当該生成した想起画像と前記入力画像とを比較して互いに類似しているか否かを判断し、類似していると判断した場合に、前記入力画像に前記認識対象を検出したと判定する判定ステップと、
を有する物体認識方法。
【請求項10】
認識対象を含む記憶画像と、当該記憶画像から予め抽出された特徴点と、前記記憶画像における基準位置に対する前記抽出された特徴点の位置関係情報と、前記特徴点の平均スケールサイズと、前記記憶画像のサイズを前記平均スケールサイズで正規化した値であるテンプレートサイズと、を含むテンプレートモデルをクラスモデルごとに予め複数記憶する記憶ステップと、
入力画像から特徴点を抽出し、前記記憶ステップで記憶された前記記憶画像の特徴点と前記入力画像から抽出した特徴点との間でマッチングを行うことで、前記記憶画像の特徴点に対応する前記入力画像の特徴点を対応点として探索する対応点探索ステップと、
前記対応点探索ステップで探索された前記入力画像の対応点について、前記記憶ステップで記憶された前記記憶画像の特徴点の位置関係情報に基づく投票点を算出し、当該投票点を前記入力画像において投票する投票処理ステップと、
前記投票処理ステップで投票された前記入力画像における投票点をクラスタリングし、同一クラスタに含まれる投票点の投票数が所定の閾値以上である場合に、当該クラスタの中心を中心として前記認識対象が存在すると判断する投票点クラスタリングステップと、
前記投票点クラスタリングステップで前記認識対象が存在すると判断したクラスタ中心について、当該クラスタ中心に対応する前記テンプレートモデルの平均スケールサイズ及びテンプレートサイズに基づいて生成する矩形領域を、前記入力画像において前記認識対象が存在する範囲を示す候補枠として生成する候補枠生成ステップと、
前記候補枠生成ステップで生成された候補枠について、当該候補枠に対応する前記テンプレートモデルの前記記憶画像を用いて前記入力画像の見え方を示す想起画像を生成する想起画像生成ステップと、
前記想起画像生成ステップで生成された想起画像と、前記入力画像における前記候補枠の画像と、を比較して相違度を算出し、当該算出した相違度が所定の閾値よりも大きかった場合には当該候補枠を誤検出であるとして除去し、除去されなかった候補枠について、当該候補枠で示す前記入力画像の範囲に、前記認識対象を検出したと判定する信頼値算出ステップと、
を有する物体認識方法。
【図1】
【図3】
【図2】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図3】
【図2】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2012−83855(P2012−83855A)
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願番号】特願2010−227770(P2010−227770)
【出願日】平成22年10月7日(2010.10.7)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【出願人】(304021417)国立大学法人東京工業大学 (1,821)
【Fターム(参考)】
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願日】平成22年10月7日(2010.10.7)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【出願人】(304021417)国立大学法人東京工業大学 (1,821)
【Fターム(参考)】
[ Back to top ]