物体認識装置および映像物体測位装置
【課題】同一種類の対象物の画像に、撮影時の状況や画像ノイズに起因した見かけ上の違いが存在していても、その対象物を正確に認識可能にする。
【解決手段】テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段を備える。
【解決手段】テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段を備える。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、例えば移動体に据えたカメラで撮影した映像に写る特定の物体を認識する物体認識装置、および映像に写る特定の物体の測位を行う映像物体測位装置に関するものである。
【背景技術】
【0002】
カーナビゲーション用の地図作成、自治体における道路設備管理、上下水道管理等においては、作業員が現地に赴いて設備などを人手により一つ一つ確認する作業を伴う。そのための作業時間は多大であり、管理にかかる人件費などのコスト負担も大きい。この問題を解決するための、設備管理の効率化を支援する従来技術として、カメラで撮影した映像、地図および管理情報を連動して表示し、また映像から対象物を自動で認識して認識結果をCGなどで表示する方法がある(例えば特許文献1参照)。この技術では、対象物の画像とテンプレートとの相互相関を計算してパターンマッチングを行い、またステレオ立体視に似た計算手法を用いることでカメラから対象物までの相対距離を算出している。また、他の従来技術として、車両走行中の実写映像上に案内情報をCGで合成して、ドライバーなどに提示することにより、適切な案内を行うという方法がある(例えば特許文献2参照)。この技術では、実写映像から案内に寄与する案内寄与情報だけを抽出してCG画像として生成しておき、そのCG画像を現在走行時における実写映像に合成して表示するようにしている。
【0003】
【特許文献1】特開2003−337947号公報
【特許文献2】特開2003−121167号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
以上のような従来技術の場合、次のような問題がある。
実際には、夜間も含めた日照変化、撮影時の画像ノイズ、遮蔽物などによる一部欠落等により画像上の対象物の見かけが変化することがあるため、画像認識を困難にしているという問題がある。これは特許文献1に記載された、入力画像とテンプレート画像の相互相関を計算するという方法では解決できない。また、特許文献1による方法は、保持しているテンプレート画像が少ない場合には認識率が低下するという問題がある。一方、特許文献2においては、案内に寄与する道路標識などをどのようにして認識するかについての方法を示唆していない。そのため、日照変化や遮蔽物が影響した画像に対しても正確に認識できる手法が望まれる。特に、例えば道路標識の種類などを効率よく特定できることが望まれる。
また、通常のGPS等の位置測位システムの場合は常に測位誤差を伴う。しかし、対象物の正確な測位が要求される設備管理効率化の支援装置の場合は、GPSの測位結果に伴う外乱やステレオ立体視に伴う測位誤差などを可能な限り除去する必要がある。
【0005】
この発明は、上記問題点を解決するためになされたもので、同一種類の対象物について撮影した画像に、撮影時の状況や画像ノイズに起因した見かけ上の違いが存在していても、その対象物を正確に認識可能にする物体認識装置を得ることを目的とする。
また、この発明は、物体認識装置に組み込んで使用でき、GPSの測位誤差、画像認識に伴う誤差を低減して精度良く映像上の物体を測位する映像物体測位装置を得ることを目的とする。
【課題を解決するための手段】
【0006】
この発明に係る物体認識装置は、映像情報を記憶する映像情報データベースと、映像情報データベースの映像情報から任意のフレーム画像を取得する画像取得手段と、種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段とを備えたものである。
【発明の効果】
【0007】
この発明によれば、相関係数や相関係数行列を利用することで輝度変化、画像ノイズ等に影響されず、正確に映像上の物体を認識することが可能になる。
【発明を実施するための最良の形態】
【0008】
実施の形態1.
この発明の説明において、「地理座標」とは、地理座標系における緯度、経度、標高のことを指すものとする。また、「画像座標」とは、2次元の画像上の座標(正規化カメラ座標)のことを指すものとする。また、「対象物」とは、画像上の認識の目的となっている物体のことを指すものとする。例えば、道路設備管理に用いる画像の場合の「対象物」としては、道路標識、道路白線、路面標識、マンホール、照明灯、信号機等がある。
【0009】
図1はこの発明の各実施の形態に共通した物体認識装置の機能構成を示すブロック図である。
図において、映像情報取得装置90は、カメラを用いて路上を撮像した映像情報およびこの映像情報を撮影したカメラの位置情報と姿勢情報を取得収集する手段である。映像情報データベース100は、映像情報取得装置90で取得した、道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を格納する手段である。
この映像情報取得装置90は、例えば図2に示すように、移動体(車両)204に、高精度測位装置201、カメラ202および方位センサ203を搭載した構成からなる。また、一緒に映像情報データベース100も移動体(車両)204に搭載されている。情報収集対象地域の路上に車両204を走行させて、カメラ202により路上の映像情報を取得する。その際、カメラ202の位置情報をGPS等の高精度測位装置201で計測すると共に、カメラ202の姿勢を方位センサ203で計測する。さらに、この計測したカメラの位置情報とカメラの姿勢情報を、そのとき取得した路上映像情報の各フレームに同期させて映像情報データベース100に記録していく。この場合の同期をとる方法としては、例えば
、映像情報データベース100に映像情報を時々刻々と記録する際に、その各時刻におけるコンピュータのシステム時間を映像情報の画像ヘッダに、あるいは映像に対応する音声トラックに記録していく。同様に、GPSの測位結果などの位置情報を時々刻々と記録する際にも、その各時刻におけるコンピュータのシステム時間を位置情報に付与して記録していく。したがって、映像情報データベース100には、コンピュータのシステム時間に同期した映像情報、GPSの測位結果(カメラの地理座標)およびカメラ姿勢情報が記録されることになる。なお、GPSの測位結果と映像情報の同期を取るための基準信号としては、コンピュータのシステム時間以外に、ビデオキャプチャプログラムの内部時間、GPSの時計時間などの信号を使用してもよい。
【0010】
この映像情報取得装置90で用いるカメラ202としては、一眼カメラでもよいし、複数のカメラでもよい。また、可視カメラに限らず、ラインスキャンレーザや赤外線カメラなどであってもよい。したがって、取得する映像情報は、一つの映像あるいは対象物を異なる角度で見た複数の映像である。また、ラインスキャンレーザを用いた場合には奥行き映像情報となり、赤外線カメラによる場合には熱映像情報となる。なお、この実施の形態1では一眼カメラで撮影した映像情報を例に説明するが、この発明は上記他の映像情報でも同様に適用できるものである。また、ここで言うカメラの位置情報とは、映像情報の各フレームに同期して計測されたカメラの地理座標の情報である。さらに、カメラの姿勢情報とは、同様に映像情報の各フレームに同期して計測された三軸の角度(ヨー角、ロール角、ピッチ角)、角加速度などの情報のことである。
【0011】
また図1において、画像取得部101は、映像情報データベース100の映像情報から任意のフレーム画像を取得する手段である。テンプレート画像格納部105は、種類別に対象物に関する複数のテンプレート画像を予め格納する手段である。こここで、テンプレート画像としては、例えば対象物が道路標識である場合、各種類の道路標識について、それぞれいろいろな状況下で撮影した画像が複数個用意されているものとする。画像認識処理部102は、テンプレート画像を用いて画像取得部101で取得したフレーム画像から対象物を認識する手段である。測位処理部103は、画像認識処理部102で認識された対象物の地理座標を、その対象物の画像座標およびカメラの位置情報と姿勢情報に基づいて算出する手段である。表示データ格納部120は、ディスプレイ110に表示するための各種地図情報、対象物に関連する管理情報などの表示データを格納する手段である。表示処理部104は、対象物の認識結果および測位結果を表示対象データに対応付けて表示する処理を行う手段である。
【0012】
次に、物体認識装置の全体動作について、図3に示す動作手順に従って説明する。
まず、画像取得部101では、映像情報データベース100に格納された映像情報から任意のフレーム画像を取得する(ステップST101)。この入力画像の取得は、映像情報取得装置90からの映像情報の収集中にリアルタイムに行ってもよいし、予め収集しておいた映像情報から行ってもよい。次に、画像認識処理部102では、画像取得部101が取得したフレーム画像から認識対象とする入力画像を抽出し、その入力画像に対してテンプレート画像格納部105に予め用意した対象物の複数のテンプレート画像を用い、後述する処理により、目的の対象物を認識し、認識した対象物の画像座標を求める(ステップST102)。測位処理部103では、後述する方法により、画像認識処理部102で認識した対象物に対する地理座標を求める(ステップST103)。なお、ここで認識が失敗したり、認識対象外の物体を測位したりする場合もあるので、その場合は、手動により映像フレームから物体の画像を選択することもある。次に、表示処理部104では、表示データ格納部120から読み込んだ各種地図情報、映像情報データベース100の実写映像などの表示対象データを、測位処理部103で求めた対象物の地理座標に同期させてディスプレイ110で表示する処理を行う。また、その際に、画像認識処理部107で求めた対象物を表すアイコンなどの表示情報を、同期した表示対象データ上の対象物の位置に重畳し表示する処理を行う(ステップST104)。
【0013】
次に、画像認識処理部102の処理の詳細について説明する。
画像認識処理部102は、画像取得部101が取得したフレーム画像から目的の対象物(例、道路標識)を、画像特徴量の相関係数行列を利用して認識する。この場合の画像認識処理部102の動作は図4に示す手順に従って行われる。
はじめに、画像認識処理部102では、認識するために必要な対象物の画像、すなわち道路標識に関する種類別の複数のテンプレート画像をテンプレート画像格納部105から読み込む(ステップST401)。画像認識処理部102は、次に各テンプレート画像について複数の画像特徴量をそれぞれ抽出する(ステップST402)。ここで求める画像特徴量は、例えば水平方向の画像座標、垂直方向の画像座標、テンプレート画像のYプレーン(輝度成分)における画素値、Cbプレーン(色差成分)における画素値、Crプレーン(色差成分)における画素値、垂直方向のエッジと水平方向のエッジ(エッジ情報)等である。
【0014】
次に、画像認識処理部102は、上記各テンプレート画像に対して、ステップST402で求めた画像特徴量間の相関係数行列をそれぞれ求める(ステップST403)。結果として、各テンプレート画像に対して各々一つの相関係数行列を得る。
例えば、画像座標(x,y)における特徴量ベクトルf(x,y)を、次の(1)式ように定義する。
f(x,y)=[x,y,Y(x,y),Cb(x,y),Cy(x,y),He(x,y),Ve(x,y)] (1)
ここで、xは水平方向の画像座標、yは垂直方向の画像座標、Y(x,y)は画像座標(x,y)におけるYプレーンの値、Cb(x,y)は画像座標(x,y)におけるCbプレーンの値、Cy(x,y)は画像座標(x,y)におけるCrプレーンの値、He(x,y)は画像座標(x,y)における水平方向のエッジの値、Ve(x,y)は画像座標(x,y)における垂直方向のエッジの値である。
【数1】
【0015】
画像認識処理部102では、画像取得部101が取得したフレーム画像上において探索ウインドウを逐次移動させ、探索ウインドウ内の画像を取得する(ステップST404)。この場合、探索ウインドウは目的の対象物に応じて大きさを任意に変化させる。以下では、上記ステップST404で取得した探索ウインドウ内の画像を「入力画像」と呼ぶことにする。次に、上記取得した入力画像についてもステップST402、ST403で行ったと同様に、画像特徴量を算出し、その画像特徴量間の相関係数行列を求める(ステップST405)。次に、求めた入力画像の相関係数行列と先の複数のテンプレート画像の相関係数行列とを逐次比較するテンプレートマッチングを行い、入力画像とテンプレート画像間の距離を算出する(ステップST406)。
【0016】
入力画像とテンプレート画像間の距離の算出は、例えば、次の(4)式を用いて行う。
【数2】
以上から、距離sが小さいほど入力画像とk番目のテンプレート画像との類似度が高く、距離sが大きいほど入力画像とテンプレート画像の類似度が低いものと解釈することができる。
ここで、上記の一般化固有値について説明する。一般化固有値は、入力矩形画像の相関係数行列をテンプレート画像の相関係数行列にアファイン変換する際の縮尺量(スケール)を意味している。一般化固有値が1に近いほど小さい縮尺量でアファイン変換可能であり、二つの相関係数行列は似通っていると判断できる。一方、一般化固有値が1から離れるほど大きな縮尺量でアファイン変換可能する必要があり、二つの相関係数行列は似通っていないと判断できる。
【0017】
次に、上述のように画像特徴量間の相関係数行列を用いてテンプレートマッチングを行うことの利点を、例を挙げて説明する。
図5は、同じ道路標識に関する互いに見かけが異なる3つの画像、各々の画像における赤色の平均値、青色の平均値、および赤色と青色の相関係数を示したものである。図5に例示された3つの画像は、撮影時の状況が異なるため、輝度変化やノイズの影響により赤と青の平均値が大きく変化していることを表している。一方、各画像の相関係数は、輝度変化やノイズによる大きな影響を受けないほぼ一定した値になること表している。また、同様に、エッジなどの相関係数に関しても画像のコントラスト変化に影響を受けにくい値を持っている。すなわち、輝度変化等の影響を受けない相関係数を用いることで、見かけが異なる画像から正確に対象物を認識可能であることを意味している。したがって、画像特徴量間の相関係数行列を利用して、テンプレート画像と入力画像のマッチングをとる画像認識処理部102によれば、日照変化等がある状況下で撮影した画像に対しても対象物を正確に認識することが可能である。
【0018】
次に、測位処理部103の処理の詳細について、図6に示す動作手順に従って説明する。ここでは、映像上の道路標識の地理座標を求めることを例にする。
まず、測位処理部103では、入力として、画像認識処理部102で認識した対象物の画像座標を取得する(ステップST901)。なお、この入力として取得する対象物の画像座標は、画像認識処理部102で認識に失敗した場合には、ユーザが映像を確認してマウスやタッチペンなどの入力デバイスを用いて選択した画像の画像座標でもよい。次に、測位処理部103では、取得した画像認識処理部102で認識した対象物が写るフレーム画像の前後数フレームから、ステップST901で画像座標を取得した対象物と同一の対象物を検出し、それら対象物の画像座標を取得する(ステップST902)。この同一の対象物を検出する方法としては、例えば前述の画像認識処理部102における画像特徴量の相関係数行列によるマッチングを利用するか、あるいは、Tuzel, O.; Porikli, F.; Meer, P., “Region Covariance: A Fast Descriptor for Detection and Classification”, European Conference on Computer Vision (ECCV), May 2006 (ECCV 2006)に記載されている、画像特徴量の分散共分散行列によるマッチングを利用すればよい。
【0019】
次に、測位処理部103は、対象物が写る上記複数フレーム画像がそれぞれ撮影された時点の、カメラの地理座標と姿勢角ベクトル(ヨー角、ロール角、ピッチ角)を映像情報データベース100から取得する(ステップST903)。次に、求めた同一対象物に対する複数の画像座標、当該対象物を写したカメラの複数の地理座標とカメラの複数の姿勢角を用いてコスト関数を生成し、生成したコスト関数が最小になるような対象物の地理座標を算出する(ステップST904)。生成されたコスト関数は次の(6)式のようになる。
【数3】
上記(6)式に示すコスト関数Eの第一項は対象物の画像座標誤差を最小にする項であり、第二項はGPSの測位誤差を最小にする項であり、第三項はカメラ姿勢角の計測誤差を最小化するための項である。
【0020】
通常、図2に示したような映像情報取得装置で取得したカメラの位置情報およびカメラの姿勢情報には計測誤差が含まれる。しかしながら、上記(6)式の3つの項からなるコスト関数Eを最小化することで、対象物の画像座標誤差、GPSの測位誤差およびカメラの姿勢計測誤差を同時に最小化しつつ、最適な対象物の位置を映像から算出することが可能となる。
【0021】
また、測位処理部103は、上記コスト関数を用いる方法とは別の方法として、次の(7)式の対数尤度関数を用いて対象物の地理座標を求めてもよい。
【数4】
この場合、対数尤度関数を最大化して、対象物の地理座標、カメラ地理座標およびカメラ姿勢角ベクトルを求めることで、画像座標誤差の確率分布、カメラ位置測位誤差の確率分布、カメラ姿勢角度計測誤差の確率分布が、それぞれ任意の場合でも、最適な対象物の地理座標を算出することが可能である。
【0022】
以上のように、測位処理部103によれば、画像認識処理部102で認識した対象物が写るフレーム画像の前後複数のフレーム画像を用い、これらのフレーム画像から取得した、対象物の複数の画像座標、対象物を写した時点の複数のカメラ位置と複数のカメラ姿勢角とに基づいてコスト関数または対数尤度関数を生成し、コスト関数を最小化、または対数尤度関数を最大化することにより、対象物の画像座標誤差、カメラ位置の測位誤差、カメラ姿勢角の計測誤差を考慮して、最適な対象物の地理座標を算出することを可能にしている。また、最適な対象物の地理座標を求めるだけではなく、同時にカメラ位置とカメラ姿勢角の最適な値を求めることも可能である。
【0023】
上記例では、画像認識処理部102で認識した対象物に対して、その画像座標に基づいて認識した対象物の地理座標を算出する測位処理を行うことについて述べてきた。ここで、この測位処理部103は、画像認識処理部102と切り離し、上記認識した対象物以外の映像上の物体の測位を行う映像物体測位装置とした構成とすることも可能である。すなわち、映像情報データベース100に収集してある映像情報並びにこの映像情報に同期したカメラの位置情報およびカメラの姿勢情報を用い、映像上の任意の物体をマウスやタッチペンなどの入力デバイスを用いて選択し、選択した物体の画像座標を取得して上記で行ったと同様な測位処理を行えば、映像上に写っている任意の物体の地理座標を算出できることになる。また、後述する表示処理部104と組み合わせて、実写映像や地図情報などに同期させて測位した物体のアイコンなどを表示することも可能になる。
【0024】
次に、表示処理部104の処理の詳細について説明する。
図1の映像情報取得装置90の動作で説明したように、映像情報データベース100には、コンピュータのシステム時間に同期した映像情報、GPSの測位結果(カメラの地理座標)およびカメラ姿勢情報が記録されている。したがって、表示処理部104では、これらのコンピュータのシステム時間を参照することで映像情報に対応付けてカメラの地理座標やカメラ姿勢情報を読み出すことができる。すなわち、実写映像に対するその実写映像(カメラの地理座標)の地理座標を決めることができる。
一方、表示データ格納部120に格納されている地図データ、例えばカーナビゲーション地図、配管地図のような二次元地図も各地点の地理座標を持っている。そこで、表示処理部104は、実写映像を表示する際に、そのフレーム画像の地理座標と一致した地理座標を持つ地図データを読み出し、同じディスプレイの表示画面に一緒に表示する処理を行う。したがって、対応する両画像を同期させて表示することができる。
【0025】
また、道路を三次元表示した鳥瞰図に地理座標が予め与えられている場合には、同様に同期させて表示することも可能である。その際、表示処理部104は、測位処理部103で測位処理した、認識された対象物または映像上で指定した対象物の地理座標に基づいて、これらの対象物の位置を、同期表示している二次元地図や鳥瞰図上に指定したり、対象物のアイコンで表示したりする処理を行うようにしてもよい。
さらに、表示処理部104は、測位処理部103で測位処理した、認識された対象物あるいは映像上で指定した対象物の地理座標および画像座標に基づいて、これらの対象物の位置を、コンピュータグラフィックスで作成した対象物の図形や位置マークを重畳表示する処理を行うようにしてもよい。
【0026】
表示処理部104の処理による表示例を図7および図8により説明する。ここでは設備管理の対象物の例をマンホールとする。
図7は、設備管理図として、実写映像(車両映像とマンホール認識結果)、カメラ視点変換映像、二次元地図、配管図(これも二次元地図)、設備情報を全て地理座標に基づいて同期させてディスプレイ110の同一画面で表示している状態を表している。カメラ視点変換映像は、表示処理部104により、実写映像をカメラ視点を変換させることにより生成したものである。設備情報は、マンホールの番号、種類(上水用、下水用、大きさ、形など)、設置番地などを記載しており、地理座標に対応付けられている。したがって、他の表示画像に対応したデータが表示されるようになっている。実写映像上には、画像認識処理部102で認識され、測位処理部103で自動測位した対象物(この例ではマンホール)が、例えば色分けして囲んだ矩形枠で表示されている。同様に、二次元地図や配管図上には、認識して自動測位した対象物が、例えば色分けしたアイコンで表示されている。また、二次元地図には、実写映像を写しているカメラの位置を、その撮影方向(カメラの姿勢角)を表すアイコンで表示されている。さらに、実写映像上には、配管図などから読み取った道路に埋設された下水道管などの配管の位置を、例えば重畳した破線で表示している。
【0027】
一方、図8は、積雪地方における状況を表しており、現在の積雪道路の実写映像(現在の映像とCGによるマンホール位置の表示)、夏などに撮影した過去の実写映像(過去の車両映像とマンホール認識結果)、カーナビゲーション画面、設備情報を表示している。積雪地方では、冬季はマンホールなどの道路設備が雪に埋もれてしまうため、設備点検業務に支障をきたすことが多い。そこで、積雪道路の現在の実写映像上には雪の下に埋もれたマンホールの位置を指示するCG合成の矢印を表示し、マンホールを探索しやすくしている。また、ディスプレイの画面上には、映像を撮影した近辺の各種の設備情報などを、地理座標により同期させて表示するようにしている。このように現在の実写映像を過去の実写映像や表示データと同時に表示するためには、表示処理部104において、カメラの現在位置(位置座標)または当該カメラを搭載した車両の現在位置(位置座標)に基づいて、過去の実写映像および/もしくは表示データを同期させればよい。
【0028】
以上のように、表示処理部104によれば、映像情報から自動認識した対象物あるいは指定した対象物の地理座標に基づいて、各種地図情報、設備情報を実写映像と同期させて一緒に表示し、対象物の位置を地図および実写映像上にアイコンやCG表示するようにしたので、一目して確認できるように可視化できる。したがって、上下水道管理、電力設備管理、カーナビゲーション用地図管理などの管理作業を効率化でき、管理に係る人件費コストの大幅な削減に寄与することが可能となる。特に、積雪地帯や被災地帯のように実写映像だけでは確認不可能になっている対象物の位置を的確に表示して伝えることができるため、効率よい設備点検業務の遂行を可能にする。
【0029】
以上のように、この実施の形態1の物体認識装置によれば、画像認識処理部102において、予め準備した複数のテンプレート画像のそれぞれについて、画像座標、輝度情報、色情報およびエッジ情報など複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出し、この入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識するようにしたものである、したがって、日照変化等がある状況下で撮影した映像情報やノイズを含んだ映像情報から、対象物を正確に認識することを可能にする。
【0030】
また、この実施の形態1の物体認識装置によれば、測位処理部103において、画像認識処理部102で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレームの画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、映像情報データベース100から、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数または対数尤度関数を生成し、当該コスト関数が最小になる、または対数尤度関数が最大になる対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出するようにしている。したがって、画像認識処理部102で認識した対象物について最適な地理座標を求めることを可能にする。
さらに、この実施の形態1の物体認識装置によれば、表示処理部104において、映像情報データベース100から取得した実写映像および/もしくは表示データ格納部120から取得した各種地図情報を、前記測位処理部104で算出した対象物の地理座標に同期させてディスプレイ110で表示するようにし、かつ、対象物の位置を地図および実写映像上にアイコンやCG表示するようにしている。したがって、自動的に認識・測位した特定の対象物を視覚的に判りやすく映像表示することができ、設備管理作業などの効率化に寄与する。
【0031】
実施の形態2.
この実施の形態2では、画像認識処理部102が、実施の形態1と同様にして取得した入力画像とテンプレート画像の共通する部分領域ごとに相関係数行列の比較を行うことで、目的とする対象物を認識する方法を用いることについて説明する。
図9は実施の形態2に係る画像認識処理部102のマッチングの動作例を示す。この場合、画像認識処理部102は、テンプレート画像格納部105の複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定する。そして、指定した各部分領域について複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ算出する。次に、画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出する。この入力画像について、テンプレート画像と対応させた複数の部分領域を指定し、部分領域ごとに複数の画像特徴量を抽出し、画像特徴量間の相関係数行列をそれぞれ求める。次に、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出する。
【数5】
【0032】
以上のように、画像認識処理部102において、部分領域ごとに距離を算出し、それらの和をとることで、道路標識が部分的に遮蔽されていたり、道路標識の中に数字や文字などが存在する場合においても個別に類似度を算出することができ、より正確な画像認識を可能にする。
また、入力画像とk番目のテンプレート画像との間の距離は、次の(10)式を用いて求めてもよい。
【数6】
また、各部分領域で求めた距離のうち、距離の小さい上位の数個の和をとり、その和を入力画像とk番目のテンプレート画像との間の距離としてもよい。
【0033】
通常、目的とする対象物に対して部分的な遮蔽物などが存在している場合、遮蔽物が写っている部分領域では入力画像とテンプレート画像との距離が大きくなることがある。しかし、前述したように、画像認識処理部102では、各部分領域で求めた距離の和から、そのうち最も大きな距離を取り除いたり、各部分領域で求めた距離の中で距離の小さな値の上位数個の和をとるようにして、遮蔽物が関与する部分領域の影響を受けないようにしているので、部分的に遮蔽される場合があっても正確に対象物を認識することが可能である。
【0034】
以上のように、この実施の形態2の物体認識装置によれば、画像認識処理部102が、複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定し、指定した各部分領域について、輝度成分、色情報およびエッジ情報など複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ求め、次に画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出し、入力画像について、テンプレート画像と同様に指定した複数の部分領域ごとに複数の画像特徴量を抽出して画像特徴量間の相関係数行列をそれぞれ求め、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出し、算出した各部分領域間の距離に基づいて入力画像と各テンプレート画像間の距離をそれぞれ算出し、算出した画像間の距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識するようにしている。したがって、日照変化等がある状況下で撮影した映像情報や部分的に遮蔽や特定表示が含まれる対象物が写った映像情報から、目的の対象物を正確に認識することが可能にする。
【0035】
実施の形態3.
この実施の形態3では、画像認識処理部102が、同一または同一種類の対象物に対する複数のテンプレート画像から特徴的な画像特徴量間の相関関係を相関パターンとして生成し、生成した相関パターンを利用して目的の対象物の画像を認識する方法について説明する。
図10は実施の形態3に係る画像認識処理部102の動作手順を示す。
まず、画像認識処理部102は、テンプレート画像格納部105から、予め準備された同一または同一種類の対象物に対する複数のテンプレート画像を読み込む(ステップST701)。次に、この読み込んだ複数のテンプレート画像に共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ画像特徴量を2つ選び、選択した2つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する関数(以下、類似度算出関数と呼ぶ)を作成する(ステップST702)。
【0036】
ここで、ステップST702における類似度算出関数の作成方法について、図11の例を用いて説明する。画像認識処理部102では、まず、同一種類の対象物に対する複数のテンプレート画像に共通な一つの部分領域801を選択し、その部分領域801において有用な相関関係を持つ2つの画像特徴量として、赤プレーンと青プレーンを選択する。そして、選択した赤プレーンと青プレーンの相関係数を複数のテンプレート画像についてそれぞれ求める。次に、求めた各相関係数の値に基づいて類似度を算出する類似度算出関数804を作成する。これら部分領域801、相関係数および類似度算出関数をまとめた情報を、一つの相関パターンとして保持する。同様にして、異なる部分領域802,803,…を
選択し、それぞれの部分領域に対して、相関係数および類似度算出関数を求めて相関パターンを生成して保持しておく。さらに、この複数の相関パターンの生成を、各種類のテンプレート画像に対してもそれぞれ行う)。なお、この相関パターンの生成方法としては、例えば、Jerome Friedman, Trevor Hastie and Robert Tibshirani “Additive Logistic Regression: a Statistical View of Boosting”. Ann. Statist. 28, no. 2 (2000), 337407に記載されているAdaboostあるいはLogitboostと呼ばれる学習アルゴリズムを用いてもよいし、あるいはサポートベクトルマシンやニューラルネット等、その他の方法を用いもよい。
【0037】
図10による動作説明に戻り、画像認識処理部102では、画像取得部101で取得した入力画像に対して探索ウインドウを逐次移動させ、探索ウインドウ内の画像を認識対象とする入力画像として取得する(ステップST703)。この場合、探索ウインドウは目的の対象物に応じて大きさを任意に変化させる。また、このときの入力画像の画像座標を算出する。次に、ステップST702で生成し保持しているテンプレート画像の相関パターンに従って、対応する入力画像の部分領域を抽出し、抽出した部分領域における画像特徴量間の相関係数を算出し、算出した相関係数を相関パターンの類似度算出関数に代入することで類似度を算出する(ステップST704)。次に、ステップST702で求めた相関パターンの数だけステップST704とST705の処理を繰り返し、各相関パターンにおいて算出された類似度を加算して、最終的な類似度を算出する(ステップST706)。同様に、他の種類の対象物に関しても、相関パターンから得た類似度を加算して最終的な類似度を算出する。このように算出した全ての種類に対する最終的な類似度の中から、最も大きな類似度を持つ種類を求め、この求めた種類の対象物を目的の対象物として認識する(ステップST707)。
【0038】
一般に、大量のテンプレート画像がある場合、これらを入力画像と一つ一つマッチングしていく方法は処理に時間を要し効率が悪い。しかし、この実施の形態3の画像認識処理部102の場合、同一または同一種類の対象物について、その複数のテンプレート画像から有用な相関係数に関する相関パターンを幾つか生成しておき、生成したこれらの相関パターンを用いて、入力画像の認識を、対象物の種類単位で行うようにしたので、認識処理時間を大幅に改善することができる。
【0039】
以上のように、この実施の形態3の物体認識装置によれば、画像認識処理部102が、同一種類の対象物に対する複数のテンプレート画像について、共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ2つの画像特徴量を選び、選択した2つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する類似度算出関数を作成し、求めた共通部分領域、2つの画像特徴量および類似度算出関数をセットとする相関パターンを複数生成して保持しておき、次に画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、上記生成保持する複数の相関パターンのそれぞれに従って、対応する共通部分領域をそれぞれ選択し、当該選択した共通部分領域に対してテンプレート画像と同様にして画像特徴量間の相関係数をそれぞれ算出し、算出した相関係数を対応する相関パターンの類似度算出関数にそれぞれ代入することでそれぞれの類似度を算出し、算出した各類似度を加算してその加算値が一定値以上となった場合のテンプレート画像の同一種類の対象物を、入力画像の対象物として認識するようにしている。したがって、日照変化等がある状況下で撮影した映像情報や部分的に遮蔽や特定表示が含まれる対象物が写った映像情報から、目的の対象物を正確に認識することが可能にする。加えて、この実施の形態3の画像認識処理部102は、認識処理を、対象物の種類単位で形成した相関パターンを用いて行うようにしたため、個々のテンプレート画像に対してパターンマッチングを行う処理に比べて処理時間を大幅に改善することができる。特に、大量のテンプレート画像を用いる場合に有効である。
【0040】
この発明の物体認識装置を、上記実施の形態では道路設備の管理支援について説明してきたが、この発明の装置は、例えば、電車に搭載して、路線状況の情報収集や管理を行うのにも適用できる。また、この発明の装置は、実写映像を用いたカーナビゲーションにも利用できる。例えば、車両にGPSなどの測位デバイスとカメラを搭載し、画像認識処理部102により、カメラで収集した映像から白線認識、道路標識、交通信号認識、歩行者や自転車、対向車、建築物などの認識を行い、これらの情報やこれらの情報に基づいて生成される案内情報をドライバーに提示するようにする。さらに、この発明の装置は、例えば、ビルや学校や街中に監視カメラを設置し、画像認識処理部102により、特定の人物や侵入者の顔などを認識して、認識結果とその映像を保安センタなどに伝達する映像を用いたセキュリティにも応用できる。さらにまた、この発明の装置は、インターネットにおける画像検索および分類などにも利用することが可能である。例えば、インターネットで大量の画像を収集して映像情報データベース100に保存しておき、画像認識処理部102により、映像情報データベース100の画像から特定の人物画像や特定の物体画像を認識し、認識結果を、ユーザの要望に応じてパソコンや携帯電話などに表示することに利用できる。
【図面の簡単な説明】
【0041】
【図1】この発明の各実施の形態による物体認識装置の機能構成を示すブロック図である。
【図2】この発明の実施の形態1に係る映像情報取得装置の構成を示す説明図である。
【図3】この発明の実施の形態1に係る物体認識装置の動作手順を示すフローチャートである。
【図4】この発明の実施の形態1に係る画像認識処理部の部分領域ごとに相関係数行列を利用する方法による動作手順を示すフローチャートである。
【図5】この発明の実施の形態1に係る画像特徴量間の相関係数行列を利用したテンプレートマッチングの利点を示す説明図である。
【図6】この発明の実施の形態1に係る測位処理部の動作手順を示すフローチャートである。
【図7】この発明の実施の形態1に係る表示処理部の動作による表示例を示す説明図である。
【図8】この発明の実施の形態1に係る表示処理部の動作による他の表示例を示す説明図である。
【図9】この発明の実施の形態2に係る画像認識処理部によるマッチング方法の例を示す説明図である。
【図10】この発明の実施の形態3に係る画像認識処理部の相関係数パターンを利用する方法による動作手順を示すフローチャートである。
【図11】この発明の実施の形態3に係る画像認識処理部による類似度算出関数の作成方法を示す説明図である。
【符号の説明】
【0042】
90 映像情報取得装置、100 映像情報データベース、101 画像取得部、102 画像認識処理部、103 測位処理部、104 表示処理部、105 テンプレート画像格納部、110 ディスプレイ、120 表示データ格納部、201 高精度測位装置、202 カメラ、203 方位センサ、204 移動体。
【技術分野】
【0001】
この発明は、例えば移動体に据えたカメラで撮影した映像に写る特定の物体を認識する物体認識装置、および映像に写る特定の物体の測位を行う映像物体測位装置に関するものである。
【背景技術】
【0002】
カーナビゲーション用の地図作成、自治体における道路設備管理、上下水道管理等においては、作業員が現地に赴いて設備などを人手により一つ一つ確認する作業を伴う。そのための作業時間は多大であり、管理にかかる人件費などのコスト負担も大きい。この問題を解決するための、設備管理の効率化を支援する従来技術として、カメラで撮影した映像、地図および管理情報を連動して表示し、また映像から対象物を自動で認識して認識結果をCGなどで表示する方法がある(例えば特許文献1参照)。この技術では、対象物の画像とテンプレートとの相互相関を計算してパターンマッチングを行い、またステレオ立体視に似た計算手法を用いることでカメラから対象物までの相対距離を算出している。また、他の従来技術として、車両走行中の実写映像上に案内情報をCGで合成して、ドライバーなどに提示することにより、適切な案内を行うという方法がある(例えば特許文献2参照)。この技術では、実写映像から案内に寄与する案内寄与情報だけを抽出してCG画像として生成しておき、そのCG画像を現在走行時における実写映像に合成して表示するようにしている。
【0003】
【特許文献1】特開2003−337947号公報
【特許文献2】特開2003−121167号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
以上のような従来技術の場合、次のような問題がある。
実際には、夜間も含めた日照変化、撮影時の画像ノイズ、遮蔽物などによる一部欠落等により画像上の対象物の見かけが変化することがあるため、画像認識を困難にしているという問題がある。これは特許文献1に記載された、入力画像とテンプレート画像の相互相関を計算するという方法では解決できない。また、特許文献1による方法は、保持しているテンプレート画像が少ない場合には認識率が低下するという問題がある。一方、特許文献2においては、案内に寄与する道路標識などをどのようにして認識するかについての方法を示唆していない。そのため、日照変化や遮蔽物が影響した画像に対しても正確に認識できる手法が望まれる。特に、例えば道路標識の種類などを効率よく特定できることが望まれる。
また、通常のGPS等の位置測位システムの場合は常に測位誤差を伴う。しかし、対象物の正確な測位が要求される設備管理効率化の支援装置の場合は、GPSの測位結果に伴う外乱やステレオ立体視に伴う測位誤差などを可能な限り除去する必要がある。
【0005】
この発明は、上記問題点を解決するためになされたもので、同一種類の対象物について撮影した画像に、撮影時の状況や画像ノイズに起因した見かけ上の違いが存在していても、その対象物を正確に認識可能にする物体認識装置を得ることを目的とする。
また、この発明は、物体認識装置に組み込んで使用でき、GPSの測位誤差、画像認識に伴う誤差を低減して精度良く映像上の物体を測位する映像物体測位装置を得ることを目的とする。
【課題を解決するための手段】
【0006】
この発明に係る物体認識装置は、映像情報を記憶する映像情報データベースと、映像情報データベースの映像情報から任意のフレーム画像を取得する画像取得手段と、種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段とを備えたものである。
【発明の効果】
【0007】
この発明によれば、相関係数や相関係数行列を利用することで輝度変化、画像ノイズ等に影響されず、正確に映像上の物体を認識することが可能になる。
【発明を実施するための最良の形態】
【0008】
実施の形態1.
この発明の説明において、「地理座標」とは、地理座標系における緯度、経度、標高のことを指すものとする。また、「画像座標」とは、2次元の画像上の座標(正規化カメラ座標)のことを指すものとする。また、「対象物」とは、画像上の認識の目的となっている物体のことを指すものとする。例えば、道路設備管理に用いる画像の場合の「対象物」としては、道路標識、道路白線、路面標識、マンホール、照明灯、信号機等がある。
【0009】
図1はこの発明の各実施の形態に共通した物体認識装置の機能構成を示すブロック図である。
図において、映像情報取得装置90は、カメラを用いて路上を撮像した映像情報およびこの映像情報を撮影したカメラの位置情報と姿勢情報を取得収集する手段である。映像情報データベース100は、映像情報取得装置90で取得した、道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を格納する手段である。
この映像情報取得装置90は、例えば図2に示すように、移動体(車両)204に、高精度測位装置201、カメラ202および方位センサ203を搭載した構成からなる。また、一緒に映像情報データベース100も移動体(車両)204に搭載されている。情報収集対象地域の路上に車両204を走行させて、カメラ202により路上の映像情報を取得する。その際、カメラ202の位置情報をGPS等の高精度測位装置201で計測すると共に、カメラ202の姿勢を方位センサ203で計測する。さらに、この計測したカメラの位置情報とカメラの姿勢情報を、そのとき取得した路上映像情報の各フレームに同期させて映像情報データベース100に記録していく。この場合の同期をとる方法としては、例えば
、映像情報データベース100に映像情報を時々刻々と記録する際に、その各時刻におけるコンピュータのシステム時間を映像情報の画像ヘッダに、あるいは映像に対応する音声トラックに記録していく。同様に、GPSの測位結果などの位置情報を時々刻々と記録する際にも、その各時刻におけるコンピュータのシステム時間を位置情報に付与して記録していく。したがって、映像情報データベース100には、コンピュータのシステム時間に同期した映像情報、GPSの測位結果(カメラの地理座標)およびカメラ姿勢情報が記録されることになる。なお、GPSの測位結果と映像情報の同期を取るための基準信号としては、コンピュータのシステム時間以外に、ビデオキャプチャプログラムの内部時間、GPSの時計時間などの信号を使用してもよい。
【0010】
この映像情報取得装置90で用いるカメラ202としては、一眼カメラでもよいし、複数のカメラでもよい。また、可視カメラに限らず、ラインスキャンレーザや赤外線カメラなどであってもよい。したがって、取得する映像情報は、一つの映像あるいは対象物を異なる角度で見た複数の映像である。また、ラインスキャンレーザを用いた場合には奥行き映像情報となり、赤外線カメラによる場合には熱映像情報となる。なお、この実施の形態1では一眼カメラで撮影した映像情報を例に説明するが、この発明は上記他の映像情報でも同様に適用できるものである。また、ここで言うカメラの位置情報とは、映像情報の各フレームに同期して計測されたカメラの地理座標の情報である。さらに、カメラの姿勢情報とは、同様に映像情報の各フレームに同期して計測された三軸の角度(ヨー角、ロール角、ピッチ角)、角加速度などの情報のことである。
【0011】
また図1において、画像取得部101は、映像情報データベース100の映像情報から任意のフレーム画像を取得する手段である。テンプレート画像格納部105は、種類別に対象物に関する複数のテンプレート画像を予め格納する手段である。こここで、テンプレート画像としては、例えば対象物が道路標識である場合、各種類の道路標識について、それぞれいろいろな状況下で撮影した画像が複数個用意されているものとする。画像認識処理部102は、テンプレート画像を用いて画像取得部101で取得したフレーム画像から対象物を認識する手段である。測位処理部103は、画像認識処理部102で認識された対象物の地理座標を、その対象物の画像座標およびカメラの位置情報と姿勢情報に基づいて算出する手段である。表示データ格納部120は、ディスプレイ110に表示するための各種地図情報、対象物に関連する管理情報などの表示データを格納する手段である。表示処理部104は、対象物の認識結果および測位結果を表示対象データに対応付けて表示する処理を行う手段である。
【0012】
次に、物体認識装置の全体動作について、図3に示す動作手順に従って説明する。
まず、画像取得部101では、映像情報データベース100に格納された映像情報から任意のフレーム画像を取得する(ステップST101)。この入力画像の取得は、映像情報取得装置90からの映像情報の収集中にリアルタイムに行ってもよいし、予め収集しておいた映像情報から行ってもよい。次に、画像認識処理部102では、画像取得部101が取得したフレーム画像から認識対象とする入力画像を抽出し、その入力画像に対してテンプレート画像格納部105に予め用意した対象物の複数のテンプレート画像を用い、後述する処理により、目的の対象物を認識し、認識した対象物の画像座標を求める(ステップST102)。測位処理部103では、後述する方法により、画像認識処理部102で認識した対象物に対する地理座標を求める(ステップST103)。なお、ここで認識が失敗したり、認識対象外の物体を測位したりする場合もあるので、その場合は、手動により映像フレームから物体の画像を選択することもある。次に、表示処理部104では、表示データ格納部120から読み込んだ各種地図情報、映像情報データベース100の実写映像などの表示対象データを、測位処理部103で求めた対象物の地理座標に同期させてディスプレイ110で表示する処理を行う。また、その際に、画像認識処理部107で求めた対象物を表すアイコンなどの表示情報を、同期した表示対象データ上の対象物の位置に重畳し表示する処理を行う(ステップST104)。
【0013】
次に、画像認識処理部102の処理の詳細について説明する。
画像認識処理部102は、画像取得部101が取得したフレーム画像から目的の対象物(例、道路標識)を、画像特徴量の相関係数行列を利用して認識する。この場合の画像認識処理部102の動作は図4に示す手順に従って行われる。
はじめに、画像認識処理部102では、認識するために必要な対象物の画像、すなわち道路標識に関する種類別の複数のテンプレート画像をテンプレート画像格納部105から読み込む(ステップST401)。画像認識処理部102は、次に各テンプレート画像について複数の画像特徴量をそれぞれ抽出する(ステップST402)。ここで求める画像特徴量は、例えば水平方向の画像座標、垂直方向の画像座標、テンプレート画像のYプレーン(輝度成分)における画素値、Cbプレーン(色差成分)における画素値、Crプレーン(色差成分)における画素値、垂直方向のエッジと水平方向のエッジ(エッジ情報)等である。
【0014】
次に、画像認識処理部102は、上記各テンプレート画像に対して、ステップST402で求めた画像特徴量間の相関係数行列をそれぞれ求める(ステップST403)。結果として、各テンプレート画像に対して各々一つの相関係数行列を得る。
例えば、画像座標(x,y)における特徴量ベクトルf(x,y)を、次の(1)式ように定義する。
f(x,y)=[x,y,Y(x,y),Cb(x,y),Cy(x,y),He(x,y),Ve(x,y)] (1)
ここで、xは水平方向の画像座標、yは垂直方向の画像座標、Y(x,y)は画像座標(x,y)におけるYプレーンの値、Cb(x,y)は画像座標(x,y)におけるCbプレーンの値、Cy(x,y)は画像座標(x,y)におけるCrプレーンの値、He(x,y)は画像座標(x,y)における水平方向のエッジの値、Ve(x,y)は画像座標(x,y)における垂直方向のエッジの値である。
【数1】
【0015】
画像認識処理部102では、画像取得部101が取得したフレーム画像上において探索ウインドウを逐次移動させ、探索ウインドウ内の画像を取得する(ステップST404)。この場合、探索ウインドウは目的の対象物に応じて大きさを任意に変化させる。以下では、上記ステップST404で取得した探索ウインドウ内の画像を「入力画像」と呼ぶことにする。次に、上記取得した入力画像についてもステップST402、ST403で行ったと同様に、画像特徴量を算出し、その画像特徴量間の相関係数行列を求める(ステップST405)。次に、求めた入力画像の相関係数行列と先の複数のテンプレート画像の相関係数行列とを逐次比較するテンプレートマッチングを行い、入力画像とテンプレート画像間の距離を算出する(ステップST406)。
【0016】
入力画像とテンプレート画像間の距離の算出は、例えば、次の(4)式を用いて行う。
【数2】
以上から、距離sが小さいほど入力画像とk番目のテンプレート画像との類似度が高く、距離sが大きいほど入力画像とテンプレート画像の類似度が低いものと解釈することができる。
ここで、上記の一般化固有値について説明する。一般化固有値は、入力矩形画像の相関係数行列をテンプレート画像の相関係数行列にアファイン変換する際の縮尺量(スケール)を意味している。一般化固有値が1に近いほど小さい縮尺量でアファイン変換可能であり、二つの相関係数行列は似通っていると判断できる。一方、一般化固有値が1から離れるほど大きな縮尺量でアファイン変換可能する必要があり、二つの相関係数行列は似通っていないと判断できる。
【0017】
次に、上述のように画像特徴量間の相関係数行列を用いてテンプレートマッチングを行うことの利点を、例を挙げて説明する。
図5は、同じ道路標識に関する互いに見かけが異なる3つの画像、各々の画像における赤色の平均値、青色の平均値、および赤色と青色の相関係数を示したものである。図5に例示された3つの画像は、撮影時の状況が異なるため、輝度変化やノイズの影響により赤と青の平均値が大きく変化していることを表している。一方、各画像の相関係数は、輝度変化やノイズによる大きな影響を受けないほぼ一定した値になること表している。また、同様に、エッジなどの相関係数に関しても画像のコントラスト変化に影響を受けにくい値を持っている。すなわち、輝度変化等の影響を受けない相関係数を用いることで、見かけが異なる画像から正確に対象物を認識可能であることを意味している。したがって、画像特徴量間の相関係数行列を利用して、テンプレート画像と入力画像のマッチングをとる画像認識処理部102によれば、日照変化等がある状況下で撮影した画像に対しても対象物を正確に認識することが可能である。
【0018】
次に、測位処理部103の処理の詳細について、図6に示す動作手順に従って説明する。ここでは、映像上の道路標識の地理座標を求めることを例にする。
まず、測位処理部103では、入力として、画像認識処理部102で認識した対象物の画像座標を取得する(ステップST901)。なお、この入力として取得する対象物の画像座標は、画像認識処理部102で認識に失敗した場合には、ユーザが映像を確認してマウスやタッチペンなどの入力デバイスを用いて選択した画像の画像座標でもよい。次に、測位処理部103では、取得した画像認識処理部102で認識した対象物が写るフレーム画像の前後数フレームから、ステップST901で画像座標を取得した対象物と同一の対象物を検出し、それら対象物の画像座標を取得する(ステップST902)。この同一の対象物を検出する方法としては、例えば前述の画像認識処理部102における画像特徴量の相関係数行列によるマッチングを利用するか、あるいは、Tuzel, O.; Porikli, F.; Meer, P., “Region Covariance: A Fast Descriptor for Detection and Classification”, European Conference on Computer Vision (ECCV), May 2006 (ECCV 2006)に記載されている、画像特徴量の分散共分散行列によるマッチングを利用すればよい。
【0019】
次に、測位処理部103は、対象物が写る上記複数フレーム画像がそれぞれ撮影された時点の、カメラの地理座標と姿勢角ベクトル(ヨー角、ロール角、ピッチ角)を映像情報データベース100から取得する(ステップST903)。次に、求めた同一対象物に対する複数の画像座標、当該対象物を写したカメラの複数の地理座標とカメラの複数の姿勢角を用いてコスト関数を生成し、生成したコスト関数が最小になるような対象物の地理座標を算出する(ステップST904)。生成されたコスト関数は次の(6)式のようになる。
【数3】
上記(6)式に示すコスト関数Eの第一項は対象物の画像座標誤差を最小にする項であり、第二項はGPSの測位誤差を最小にする項であり、第三項はカメラ姿勢角の計測誤差を最小化するための項である。
【0020】
通常、図2に示したような映像情報取得装置で取得したカメラの位置情報およびカメラの姿勢情報には計測誤差が含まれる。しかしながら、上記(6)式の3つの項からなるコスト関数Eを最小化することで、対象物の画像座標誤差、GPSの測位誤差およびカメラの姿勢計測誤差を同時に最小化しつつ、最適な対象物の位置を映像から算出することが可能となる。
【0021】
また、測位処理部103は、上記コスト関数を用いる方法とは別の方法として、次の(7)式の対数尤度関数を用いて対象物の地理座標を求めてもよい。
【数4】
この場合、対数尤度関数を最大化して、対象物の地理座標、カメラ地理座標およびカメラ姿勢角ベクトルを求めることで、画像座標誤差の確率分布、カメラ位置測位誤差の確率分布、カメラ姿勢角度計測誤差の確率分布が、それぞれ任意の場合でも、最適な対象物の地理座標を算出することが可能である。
【0022】
以上のように、測位処理部103によれば、画像認識処理部102で認識した対象物が写るフレーム画像の前後複数のフレーム画像を用い、これらのフレーム画像から取得した、対象物の複数の画像座標、対象物を写した時点の複数のカメラ位置と複数のカメラ姿勢角とに基づいてコスト関数または対数尤度関数を生成し、コスト関数を最小化、または対数尤度関数を最大化することにより、対象物の画像座標誤差、カメラ位置の測位誤差、カメラ姿勢角の計測誤差を考慮して、最適な対象物の地理座標を算出することを可能にしている。また、最適な対象物の地理座標を求めるだけではなく、同時にカメラ位置とカメラ姿勢角の最適な値を求めることも可能である。
【0023】
上記例では、画像認識処理部102で認識した対象物に対して、その画像座標に基づいて認識した対象物の地理座標を算出する測位処理を行うことについて述べてきた。ここで、この測位処理部103は、画像認識処理部102と切り離し、上記認識した対象物以外の映像上の物体の測位を行う映像物体測位装置とした構成とすることも可能である。すなわち、映像情報データベース100に収集してある映像情報並びにこの映像情報に同期したカメラの位置情報およびカメラの姿勢情報を用い、映像上の任意の物体をマウスやタッチペンなどの入力デバイスを用いて選択し、選択した物体の画像座標を取得して上記で行ったと同様な測位処理を行えば、映像上に写っている任意の物体の地理座標を算出できることになる。また、後述する表示処理部104と組み合わせて、実写映像や地図情報などに同期させて測位した物体のアイコンなどを表示することも可能になる。
【0024】
次に、表示処理部104の処理の詳細について説明する。
図1の映像情報取得装置90の動作で説明したように、映像情報データベース100には、コンピュータのシステム時間に同期した映像情報、GPSの測位結果(カメラの地理座標)およびカメラ姿勢情報が記録されている。したがって、表示処理部104では、これらのコンピュータのシステム時間を参照することで映像情報に対応付けてカメラの地理座標やカメラ姿勢情報を読み出すことができる。すなわち、実写映像に対するその実写映像(カメラの地理座標)の地理座標を決めることができる。
一方、表示データ格納部120に格納されている地図データ、例えばカーナビゲーション地図、配管地図のような二次元地図も各地点の地理座標を持っている。そこで、表示処理部104は、実写映像を表示する際に、そのフレーム画像の地理座標と一致した地理座標を持つ地図データを読み出し、同じディスプレイの表示画面に一緒に表示する処理を行う。したがって、対応する両画像を同期させて表示することができる。
【0025】
また、道路を三次元表示した鳥瞰図に地理座標が予め与えられている場合には、同様に同期させて表示することも可能である。その際、表示処理部104は、測位処理部103で測位処理した、認識された対象物または映像上で指定した対象物の地理座標に基づいて、これらの対象物の位置を、同期表示している二次元地図や鳥瞰図上に指定したり、対象物のアイコンで表示したりする処理を行うようにしてもよい。
さらに、表示処理部104は、測位処理部103で測位処理した、認識された対象物あるいは映像上で指定した対象物の地理座標および画像座標に基づいて、これらの対象物の位置を、コンピュータグラフィックスで作成した対象物の図形や位置マークを重畳表示する処理を行うようにしてもよい。
【0026】
表示処理部104の処理による表示例を図7および図8により説明する。ここでは設備管理の対象物の例をマンホールとする。
図7は、設備管理図として、実写映像(車両映像とマンホール認識結果)、カメラ視点変換映像、二次元地図、配管図(これも二次元地図)、設備情報を全て地理座標に基づいて同期させてディスプレイ110の同一画面で表示している状態を表している。カメラ視点変換映像は、表示処理部104により、実写映像をカメラ視点を変換させることにより生成したものである。設備情報は、マンホールの番号、種類(上水用、下水用、大きさ、形など)、設置番地などを記載しており、地理座標に対応付けられている。したがって、他の表示画像に対応したデータが表示されるようになっている。実写映像上には、画像認識処理部102で認識され、測位処理部103で自動測位した対象物(この例ではマンホール)が、例えば色分けして囲んだ矩形枠で表示されている。同様に、二次元地図や配管図上には、認識して自動測位した対象物が、例えば色分けしたアイコンで表示されている。また、二次元地図には、実写映像を写しているカメラの位置を、その撮影方向(カメラの姿勢角)を表すアイコンで表示されている。さらに、実写映像上には、配管図などから読み取った道路に埋設された下水道管などの配管の位置を、例えば重畳した破線で表示している。
【0027】
一方、図8は、積雪地方における状況を表しており、現在の積雪道路の実写映像(現在の映像とCGによるマンホール位置の表示)、夏などに撮影した過去の実写映像(過去の車両映像とマンホール認識結果)、カーナビゲーション画面、設備情報を表示している。積雪地方では、冬季はマンホールなどの道路設備が雪に埋もれてしまうため、設備点検業務に支障をきたすことが多い。そこで、積雪道路の現在の実写映像上には雪の下に埋もれたマンホールの位置を指示するCG合成の矢印を表示し、マンホールを探索しやすくしている。また、ディスプレイの画面上には、映像を撮影した近辺の各種の設備情報などを、地理座標により同期させて表示するようにしている。このように現在の実写映像を過去の実写映像や表示データと同時に表示するためには、表示処理部104において、カメラの現在位置(位置座標)または当該カメラを搭載した車両の現在位置(位置座標)に基づいて、過去の実写映像および/もしくは表示データを同期させればよい。
【0028】
以上のように、表示処理部104によれば、映像情報から自動認識した対象物あるいは指定した対象物の地理座標に基づいて、各種地図情報、設備情報を実写映像と同期させて一緒に表示し、対象物の位置を地図および実写映像上にアイコンやCG表示するようにしたので、一目して確認できるように可視化できる。したがって、上下水道管理、電力設備管理、カーナビゲーション用地図管理などの管理作業を効率化でき、管理に係る人件費コストの大幅な削減に寄与することが可能となる。特に、積雪地帯や被災地帯のように実写映像だけでは確認不可能になっている対象物の位置を的確に表示して伝えることができるため、効率よい設備点検業務の遂行を可能にする。
【0029】
以上のように、この実施の形態1の物体認識装置によれば、画像認識処理部102において、予め準備した複数のテンプレート画像のそれぞれについて、画像座標、輝度情報、色情報およびエッジ情報など複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出し、この入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識するようにしたものである、したがって、日照変化等がある状況下で撮影した映像情報やノイズを含んだ映像情報から、対象物を正確に認識することを可能にする。
【0030】
また、この実施の形態1の物体認識装置によれば、測位処理部103において、画像認識処理部102で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレームの画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、映像情報データベース100から、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数または対数尤度関数を生成し、当該コスト関数が最小になる、または対数尤度関数が最大になる対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出するようにしている。したがって、画像認識処理部102で認識した対象物について最適な地理座標を求めることを可能にする。
さらに、この実施の形態1の物体認識装置によれば、表示処理部104において、映像情報データベース100から取得した実写映像および/もしくは表示データ格納部120から取得した各種地図情報を、前記測位処理部104で算出した対象物の地理座標に同期させてディスプレイ110で表示するようにし、かつ、対象物の位置を地図および実写映像上にアイコンやCG表示するようにしている。したがって、自動的に認識・測位した特定の対象物を視覚的に判りやすく映像表示することができ、設備管理作業などの効率化に寄与する。
【0031】
実施の形態2.
この実施の形態2では、画像認識処理部102が、実施の形態1と同様にして取得した入力画像とテンプレート画像の共通する部分領域ごとに相関係数行列の比較を行うことで、目的とする対象物を認識する方法を用いることについて説明する。
図9は実施の形態2に係る画像認識処理部102のマッチングの動作例を示す。この場合、画像認識処理部102は、テンプレート画像格納部105の複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定する。そして、指定した各部分領域について複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ算出する。次に、画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出する。この入力画像について、テンプレート画像と対応させた複数の部分領域を指定し、部分領域ごとに複数の画像特徴量を抽出し、画像特徴量間の相関係数行列をそれぞれ求める。次に、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出する。
【数5】
【0032】
以上のように、画像認識処理部102において、部分領域ごとに距離を算出し、それらの和をとることで、道路標識が部分的に遮蔽されていたり、道路標識の中に数字や文字などが存在する場合においても個別に類似度を算出することができ、より正確な画像認識を可能にする。
また、入力画像とk番目のテンプレート画像との間の距離は、次の(10)式を用いて求めてもよい。
【数6】
また、各部分領域で求めた距離のうち、距離の小さい上位の数個の和をとり、その和を入力画像とk番目のテンプレート画像との間の距離としてもよい。
【0033】
通常、目的とする対象物に対して部分的な遮蔽物などが存在している場合、遮蔽物が写っている部分領域では入力画像とテンプレート画像との距離が大きくなることがある。しかし、前述したように、画像認識処理部102では、各部分領域で求めた距離の和から、そのうち最も大きな距離を取り除いたり、各部分領域で求めた距離の中で距離の小さな値の上位数個の和をとるようにして、遮蔽物が関与する部分領域の影響を受けないようにしているので、部分的に遮蔽される場合があっても正確に対象物を認識することが可能である。
【0034】
以上のように、この実施の形態2の物体認識装置によれば、画像認識処理部102が、複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定し、指定した各部分領域について、輝度成分、色情報およびエッジ情報など複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ求め、次に画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出し、入力画像について、テンプレート画像と同様に指定した複数の部分領域ごとに複数の画像特徴量を抽出して画像特徴量間の相関係数行列をそれぞれ求め、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出し、算出した各部分領域間の距離に基づいて入力画像と各テンプレート画像間の距離をそれぞれ算出し、算出した画像間の距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識するようにしている。したがって、日照変化等がある状況下で撮影した映像情報や部分的に遮蔽や特定表示が含まれる対象物が写った映像情報から、目的の対象物を正確に認識することが可能にする。
【0035】
実施の形態3.
この実施の形態3では、画像認識処理部102が、同一または同一種類の対象物に対する複数のテンプレート画像から特徴的な画像特徴量間の相関関係を相関パターンとして生成し、生成した相関パターンを利用して目的の対象物の画像を認識する方法について説明する。
図10は実施の形態3に係る画像認識処理部102の動作手順を示す。
まず、画像認識処理部102は、テンプレート画像格納部105から、予め準備された同一または同一種類の対象物に対する複数のテンプレート画像を読み込む(ステップST701)。次に、この読み込んだ複数のテンプレート画像に共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ画像特徴量を2つ選び、選択した2つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する関数(以下、類似度算出関数と呼ぶ)を作成する(ステップST702)。
【0036】
ここで、ステップST702における類似度算出関数の作成方法について、図11の例を用いて説明する。画像認識処理部102では、まず、同一種類の対象物に対する複数のテンプレート画像に共通な一つの部分領域801を選択し、その部分領域801において有用な相関関係を持つ2つの画像特徴量として、赤プレーンと青プレーンを選択する。そして、選択した赤プレーンと青プレーンの相関係数を複数のテンプレート画像についてそれぞれ求める。次に、求めた各相関係数の値に基づいて類似度を算出する類似度算出関数804を作成する。これら部分領域801、相関係数および類似度算出関数をまとめた情報を、一つの相関パターンとして保持する。同様にして、異なる部分領域802,803,…を
選択し、それぞれの部分領域に対して、相関係数および類似度算出関数を求めて相関パターンを生成して保持しておく。さらに、この複数の相関パターンの生成を、各種類のテンプレート画像に対してもそれぞれ行う)。なお、この相関パターンの生成方法としては、例えば、Jerome Friedman, Trevor Hastie and Robert Tibshirani “Additive Logistic Regression: a Statistical View of Boosting”. Ann. Statist. 28, no. 2 (2000), 337407に記載されているAdaboostあるいはLogitboostと呼ばれる学習アルゴリズムを用いてもよいし、あるいはサポートベクトルマシンやニューラルネット等、その他の方法を用いもよい。
【0037】
図10による動作説明に戻り、画像認識処理部102では、画像取得部101で取得した入力画像に対して探索ウインドウを逐次移動させ、探索ウインドウ内の画像を認識対象とする入力画像として取得する(ステップST703)。この場合、探索ウインドウは目的の対象物に応じて大きさを任意に変化させる。また、このときの入力画像の画像座標を算出する。次に、ステップST702で生成し保持しているテンプレート画像の相関パターンに従って、対応する入力画像の部分領域を抽出し、抽出した部分領域における画像特徴量間の相関係数を算出し、算出した相関係数を相関パターンの類似度算出関数に代入することで類似度を算出する(ステップST704)。次に、ステップST702で求めた相関パターンの数だけステップST704とST705の処理を繰り返し、各相関パターンにおいて算出された類似度を加算して、最終的な類似度を算出する(ステップST706)。同様に、他の種類の対象物に関しても、相関パターンから得た類似度を加算して最終的な類似度を算出する。このように算出した全ての種類に対する最終的な類似度の中から、最も大きな類似度を持つ種類を求め、この求めた種類の対象物を目的の対象物として認識する(ステップST707)。
【0038】
一般に、大量のテンプレート画像がある場合、これらを入力画像と一つ一つマッチングしていく方法は処理に時間を要し効率が悪い。しかし、この実施の形態3の画像認識処理部102の場合、同一または同一種類の対象物について、その複数のテンプレート画像から有用な相関係数に関する相関パターンを幾つか生成しておき、生成したこれらの相関パターンを用いて、入力画像の認識を、対象物の種類単位で行うようにしたので、認識処理時間を大幅に改善することができる。
【0039】
以上のように、この実施の形態3の物体認識装置によれば、画像認識処理部102が、同一種類の対象物に対する複数のテンプレート画像について、共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ2つの画像特徴量を選び、選択した2つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する類似度算出関数を作成し、求めた共通部分領域、2つの画像特徴量および類似度算出関数をセットとする相関パターンを複数生成して保持しておき、次に画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、上記生成保持する複数の相関パターンのそれぞれに従って、対応する共通部分領域をそれぞれ選択し、当該選択した共通部分領域に対してテンプレート画像と同様にして画像特徴量間の相関係数をそれぞれ算出し、算出した相関係数を対応する相関パターンの類似度算出関数にそれぞれ代入することでそれぞれの類似度を算出し、算出した各類似度を加算してその加算値が一定値以上となった場合のテンプレート画像の同一種類の対象物を、入力画像の対象物として認識するようにしている。したがって、日照変化等がある状況下で撮影した映像情報や部分的に遮蔽や特定表示が含まれる対象物が写った映像情報から、目的の対象物を正確に認識することが可能にする。加えて、この実施の形態3の画像認識処理部102は、認識処理を、対象物の種類単位で形成した相関パターンを用いて行うようにしたため、個々のテンプレート画像に対してパターンマッチングを行う処理に比べて処理時間を大幅に改善することができる。特に、大量のテンプレート画像を用いる場合に有効である。
【0040】
この発明の物体認識装置を、上記実施の形態では道路設備の管理支援について説明してきたが、この発明の装置は、例えば、電車に搭載して、路線状況の情報収集や管理を行うのにも適用できる。また、この発明の装置は、実写映像を用いたカーナビゲーションにも利用できる。例えば、車両にGPSなどの測位デバイスとカメラを搭載し、画像認識処理部102により、カメラで収集した映像から白線認識、道路標識、交通信号認識、歩行者や自転車、対向車、建築物などの認識を行い、これらの情報やこれらの情報に基づいて生成される案内情報をドライバーに提示するようにする。さらに、この発明の装置は、例えば、ビルや学校や街中に監視カメラを設置し、画像認識処理部102により、特定の人物や侵入者の顔などを認識して、認識結果とその映像を保安センタなどに伝達する映像を用いたセキュリティにも応用できる。さらにまた、この発明の装置は、インターネットにおける画像検索および分類などにも利用することが可能である。例えば、インターネットで大量の画像を収集して映像情報データベース100に保存しておき、画像認識処理部102により、映像情報データベース100の画像から特定の人物画像や特定の物体画像を認識し、認識結果を、ユーザの要望に応じてパソコンや携帯電話などに表示することに利用できる。
【図面の簡単な説明】
【0041】
【図1】この発明の各実施の形態による物体認識装置の機能構成を示すブロック図である。
【図2】この発明の実施の形態1に係る映像情報取得装置の構成を示す説明図である。
【図3】この発明の実施の形態1に係る物体認識装置の動作手順を示すフローチャートである。
【図4】この発明の実施の形態1に係る画像認識処理部の部分領域ごとに相関係数行列を利用する方法による動作手順を示すフローチャートである。
【図5】この発明の実施の形態1に係る画像特徴量間の相関係数行列を利用したテンプレートマッチングの利点を示す説明図である。
【図6】この発明の実施の形態1に係る測位処理部の動作手順を示すフローチャートである。
【図7】この発明の実施の形態1に係る表示処理部の動作による表示例を示す説明図である。
【図8】この発明の実施の形態1に係る表示処理部の動作による他の表示例を示す説明図である。
【図9】この発明の実施の形態2に係る画像認識処理部によるマッチング方法の例を示す説明図である。
【図10】この発明の実施の形態3に係る画像認識処理部の相関係数パターンを利用する方法による動作手順を示すフローチャートである。
【図11】この発明の実施の形態3に係る画像認識処理部による類似度算出関数の作成方法を示す説明図である。
【符号の説明】
【0042】
90 映像情報取得装置、100 映像情報データベース、101 画像取得部、102 画像認識処理部、103 測位処理部、104 表示処理部、105 テンプレート画像格納部、110 ディスプレイ、120 表示データ格納部、201 高精度測位装置、202 カメラ、203 方位センサ、204 移動体。
【特許請求の範囲】
【請求項1】
映像情報を記憶する映像情報データベースと、
前記映像情報データベースの映像情報から任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
前記テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段とを備えたことを特徴とする物体認識装置。
【請求項2】
画像認識処理手段で抽出する画像特徴量は、画像座標、輝度情報、色情報およびエッジ情報とすることを特徴とする請求項1記載の物体認識装置。
【請求項3】
映像情報を記憶する映像情報データベースと、
前記映像情報データベースの映像情報からから任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
前記テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定し、指定した各部分領域について複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ求め、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記テンプレート画像と同様に指定した複数の部分領域ごとに複数の画像特徴量を抽出して画像特徴量間の相関係数行列をそれぞれ求め、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出し、算出した各部分領域間の距離に基づいて入力画像と各テンプレート画像間の距離をそれぞれ算出し、算出した画像間の距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段を備えたことを特徴とする物体認識装置。
【請求項4】
画像認識処理手段で抽出する画像特徴量は、画像座標、輝度成分、色情報およびエッジ情報とすることを特徴とする請求項3記載の物体認識装置。
【請求項5】
画像認識処理手段は、算出した各部分領域間の距離の合計値を、入力画像とテンプレート画像間の距離とすることを特徴とする請求項3または請求項4記載の物体認識装置。
【請求項6】
画像認識処理手段は、算出した各部分領域間の距離の中で、最も大きい距離を取り除いた残りの和を、入力画像とテンプレート画像間の距離とすることを特徴とする請求項3または請求項4記載の物体認識装置。
【請求項7】
画像認識処理手段は、算出した各部分領域間の距離の中で、最も小さい距離の上位数個の和を、入力画像とテンプレート画像間の距離とすることを特徴とする請求項3または請求項4記載の物体認識装置。
【請求項8】
画像認識処理手段は、相関係数行列を比較する際に一般化固有値を用いて距離を算出することを特徴とする請求項1から請求項7のうちのいずれか1項記載の物体認識装置。
【請求項9】
映像情報を記憶する映像情報データベースと、
前記映像情報データベースの映像情報からから任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
テンプレート画像格納手段から読み込んだ同一種類の対象物に対する複数のテンプレート画像について、共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ2つの画像特徴量を選び、選択した2つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する類似度算出関数を作成し、前記共通部分領域、前記2つの画像特徴量および前記類似度算出関数をセットとする相関パターンを複数生成して保持しておき、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記生成保持する複数の相関パターンのそれぞれに従って、対応する共通部分領域をそれぞれ選択し、当該選択した共通部分領域に対して前記テンプレート画像と同様にして画像特徴量間の相関係数をそれぞれ算出し、算出した相関係数を対応する前記相関パターンの類似度算出関数にそれぞれ代入することでそれぞれの類似度を算出し、算出した各類似度を加算して最終的な類似度を算出し、同様な処理により他の種類の対象物に関しても相関パターンから得た類似度を加算して最終的な類似度を算出し、算出した全ての種類に対する最終的な類似度の中から、最も大きな類似度を持つ種類を求め、この求めた種類の対象物を目的の対象物として認識する画像認識処理手段とを備えたことを特徴とする物体認識装置。
【請求項10】
映像情報データベースは、道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶しており、
画像認識処理手段で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレームの画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、前記映像情報データベースから、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数を生成し、当該コスト関数が最小になる対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出する測位処理手段を備えたことを特徴とする請求項1から請求項9のうちいずれか1項記載の物体認識装置。
【請求項11】
測位処理手段で生成されたコスト関数は、画像座標誤差項、測位誤差項およびカメラの姿勢角度計測誤差項から構成されることを特徴とする請求項10記載の物体認識装置。
【請求項12】
映像情報データベースは、道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶しており、
画像認識処理手段で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレーム画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、前記映像情報データベースから、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいて対数尤度関数を求め、当該対数尤度関数を最大化する対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出する測位処理手段を備えたことを特徴とする請求項1から請求項9のうちいずれか1項記載の物体認識装置。
【請求項13】
地理座標を持つ二次元地図、道路を三次元表示した地理座標を持つ鳥瞰図および地理座標を持つ管理情報を含む表示データを格納する表示データ格納手段を当該装置内または装置外に備え、
映像情報データベースから読み出した実写映像をディスプレイに表示し、その際、前記表示データ格納手段から選択して読み出した表示データの画像を前記実写映像のフレーム画像の地理座標と同期させて前記ディスプレイの画面上に前記実写映像と一緒に表示する表示処理を行う表示処理手段を備えたことを特徴とする請求項10から請求項12のうちいずれか1項記載の物体認識装置。
【請求項14】
表示処理手段は、実写映像にカメラ視点変換を行って視点変換映像を生成し、当該視点変換映像をディスプレイの画面上に前記実写映像および表示データの画像と一緒に表示する表示処理を行うことを特徴とする請求項13記載の物体認識装置。
【請求項15】
表示処理手段は、測位処理手段により算出された地理座標に対応する対象物のアイコンを、二次元地図および/もしくは鳥瞰図上の前記対象物の位置に表示する表示処理を行うことを特徴とする請求項13または請求項14記載の物体認識装置。
【請求項16】
表示処理手段は、カメラの現在位置または当該カメラを搭載した車両の現在位置に同期させて実写映像および/もしくは表示データの画像をディスプレイ上に表示するようにしたことを特徴とする請求項13から請求項15のうちいずれか1項記載の物体認識装置。
【請求項17】
表示処理手段は、測位処理手段により算出された地理座標に対応する対象物の図形または位置マークを、実写映像上の前記対象物の位置に表示する表示処理を行うことを特徴とする請求項13から請求項16のうちいずれか1項記載の物体認識装置。
【請求項18】
道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶する映像情報データベースと、
前記映像情報データベースから読み出した映像上の任意の物体を選択する入力デバイスと、
選択された物体の画像座標を取得し、当該物体が写っている前後の複数フレームの画像から当該物体と同一の物体をそれぞれ検出して、これら検出した物体の画像座標を取得し、前記映像情報データベースから、前記選択された物体を含む同一の物体を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した物体の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数を生成し、当該コスト関数が最小になる物体の地理座標、カメラの地理座標およびカメラ姿勢角を算出することを特徴とする映像物体測位装置。
【請求項19】
測位処理手段で生成されたコスト関数は、画像座標誤差項、測位誤差項およびカメラの姿勢角度計測誤差項から構成されることを特徴とする請求項18記載の映像物体測位装置。
【請求項20】
道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶する映像情報データベースと、
前記映像情報データベースから読み出した映像上の任意の物体を選択する入力デバイスと、
選択された物体の画像座標を取得し、当該物体が写っている前後の複数フレーム画像から当該物体と同一の物体をそれぞれ検出して、これら検出した物体の画像座標を取得し、映像情報データベースから、前記選択された物体を含む同一の物体を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した物体の複数の画像座標、カメラ位置とカメラ姿勢角に基づいて対数尤度関数を求め、当該対数尤度関数を最大化する物体の地理座標、カメラの地理座標およびカメラ姿勢角を算出することを特徴とする映像物体測位装置。
【請求項1】
映像情報を記憶する映像情報データベースと、
前記映像情報データベースの映像情報から任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
前記テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段とを備えたことを特徴とする物体認識装置。
【請求項2】
画像認識処理手段で抽出する画像特徴量は、画像座標、輝度情報、色情報およびエッジ情報とすることを特徴とする請求項1記載の物体認識装置。
【請求項3】
映像情報を記憶する映像情報データベースと、
前記映像情報データベースの映像情報からから任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
前記テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定し、指定した各部分領域について複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ求め、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記テンプレート画像と同様に指定した複数の部分領域ごとに複数の画像特徴量を抽出して画像特徴量間の相関係数行列をそれぞれ求め、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出し、算出した各部分領域間の距離に基づいて入力画像と各テンプレート画像間の距離をそれぞれ算出し、算出した画像間の距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段を備えたことを特徴とする物体認識装置。
【請求項4】
画像認識処理手段で抽出する画像特徴量は、画像座標、輝度成分、色情報およびエッジ情報とすることを特徴とする請求項3記載の物体認識装置。
【請求項5】
画像認識処理手段は、算出した各部分領域間の距離の合計値を、入力画像とテンプレート画像間の距離とすることを特徴とする請求項3または請求項4記載の物体認識装置。
【請求項6】
画像認識処理手段は、算出した各部分領域間の距離の中で、最も大きい距離を取り除いた残りの和を、入力画像とテンプレート画像間の距離とすることを特徴とする請求項3または請求項4記載の物体認識装置。
【請求項7】
画像認識処理手段は、算出した各部分領域間の距離の中で、最も小さい距離の上位数個の和を、入力画像とテンプレート画像間の距離とすることを特徴とする請求項3または請求項4記載の物体認識装置。
【請求項8】
画像認識処理手段は、相関係数行列を比較する際に一般化固有値を用いて距離を算出することを特徴とする請求項1から請求項7のうちのいずれか1項記載の物体認識装置。
【請求項9】
映像情報を記憶する映像情報データベースと、
前記映像情報データベースの映像情報からから任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
テンプレート画像格納手段から読み込んだ同一種類の対象物に対する複数のテンプレート画像について、共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ2つの画像特徴量を選び、選択した2つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する類似度算出関数を作成し、前記共通部分領域、前記2つの画像特徴量および前記類似度算出関数をセットとする相関パターンを複数生成して保持しておき、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記生成保持する複数の相関パターンのそれぞれに従って、対応する共通部分領域をそれぞれ選択し、当該選択した共通部分領域に対して前記テンプレート画像と同様にして画像特徴量間の相関係数をそれぞれ算出し、算出した相関係数を対応する前記相関パターンの類似度算出関数にそれぞれ代入することでそれぞれの類似度を算出し、算出した各類似度を加算して最終的な類似度を算出し、同様な処理により他の種類の対象物に関しても相関パターンから得た類似度を加算して最終的な類似度を算出し、算出した全ての種類に対する最終的な類似度の中から、最も大きな類似度を持つ種類を求め、この求めた種類の対象物を目的の対象物として認識する画像認識処理手段とを備えたことを特徴とする物体認識装置。
【請求項10】
映像情報データベースは、道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶しており、
画像認識処理手段で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレームの画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、前記映像情報データベースから、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数を生成し、当該コスト関数が最小になる対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出する測位処理手段を備えたことを特徴とする請求項1から請求項9のうちいずれか1項記載の物体認識装置。
【請求項11】
測位処理手段で生成されたコスト関数は、画像座標誤差項、測位誤差項およびカメラの姿勢角度計測誤差項から構成されることを特徴とする請求項10記載の物体認識装置。
【請求項12】
映像情報データベースは、道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶しており、
画像認識処理手段で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレーム画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、前記映像情報データベースから、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいて対数尤度関数を求め、当該対数尤度関数を最大化する対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出する測位処理手段を備えたことを特徴とする請求項1から請求項9のうちいずれか1項記載の物体認識装置。
【請求項13】
地理座標を持つ二次元地図、道路を三次元表示した地理座標を持つ鳥瞰図および地理座標を持つ管理情報を含む表示データを格納する表示データ格納手段を当該装置内または装置外に備え、
映像情報データベースから読み出した実写映像をディスプレイに表示し、その際、前記表示データ格納手段から選択して読み出した表示データの画像を前記実写映像のフレーム画像の地理座標と同期させて前記ディスプレイの画面上に前記実写映像と一緒に表示する表示処理を行う表示処理手段を備えたことを特徴とする請求項10から請求項12のうちいずれか1項記載の物体認識装置。
【請求項14】
表示処理手段は、実写映像にカメラ視点変換を行って視点変換映像を生成し、当該視点変換映像をディスプレイの画面上に前記実写映像および表示データの画像と一緒に表示する表示処理を行うことを特徴とする請求項13記載の物体認識装置。
【請求項15】
表示処理手段は、測位処理手段により算出された地理座標に対応する対象物のアイコンを、二次元地図および/もしくは鳥瞰図上の前記対象物の位置に表示する表示処理を行うことを特徴とする請求項13または請求項14記載の物体認識装置。
【請求項16】
表示処理手段は、カメラの現在位置または当該カメラを搭載した車両の現在位置に同期させて実写映像および/もしくは表示データの画像をディスプレイ上に表示するようにしたことを特徴とする請求項13から請求項15のうちいずれか1項記載の物体認識装置。
【請求項17】
表示処理手段は、測位処理手段により算出された地理座標に対応する対象物の図形または位置マークを、実写映像上の前記対象物の位置に表示する表示処理を行うことを特徴とする請求項13から請求項16のうちいずれか1項記載の物体認識装置。
【請求項18】
道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶する映像情報データベースと、
前記映像情報データベースから読み出した映像上の任意の物体を選択する入力デバイスと、
選択された物体の画像座標を取得し、当該物体が写っている前後の複数フレームの画像から当該物体と同一の物体をそれぞれ検出して、これら検出した物体の画像座標を取得し、前記映像情報データベースから、前記選択された物体を含む同一の物体を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した物体の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数を生成し、当該コスト関数が最小になる物体の地理座標、カメラの地理座標およびカメラ姿勢角を算出することを特徴とする映像物体測位装置。
【請求項19】
測位処理手段で生成されたコスト関数は、画像座標誤差項、測位誤差項およびカメラの姿勢角度計測誤差項から構成されることを特徴とする請求項18記載の映像物体測位装置。
【請求項20】
道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶する映像情報データベースと、
前記映像情報データベースから読み出した映像上の任意の物体を選択する入力デバイスと、
選択された物体の画像座標を取得し、当該物体が写っている前後の複数フレーム画像から当該物体と同一の物体をそれぞれ検出して、これら検出した物体の画像座標を取得し、映像情報データベースから、前記選択された物体を含む同一の物体を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した物体の複数の画像座標、カメラ位置とカメラ姿勢角に基づいて対数尤度関数を求め、当該対数尤度関数を最大化する物体の地理座標、カメラの地理座標およびカメラ姿勢角を算出することを特徴とする映像物体測位装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2008−59319(P2008−59319A)
【公開日】平成20年3月13日(2008.3.13)
【国際特許分類】
【出願番号】特願2006−235944(P2006−235944)
【出願日】平成18年8月31日(2006.8.31)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】
【公開日】平成20年3月13日(2008.3.13)
【国際特許分類】
【出願日】平成18年8月31日(2006.8.31)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】
[ Back to top ]