物体認識装置および映像物体測位装置

【課題】同一種類の対象物の画像に、撮影時の状況や画像ノイズに起因した見かけ上の違いが存在していても、その対象物を正確に認識可能にする。
【解決手段】テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、例えば移動体に据えたカメラで撮影した映像に写る特定の物体を認識する物体認識装置、および映像に写る特定の物体の測位を行う映像物体測位装置に関するものである。
【背景技術】
【０００２】
カーナビゲーション用の地図作成、自治体における道路設備管理、上下水道管理等においては、作業員が現地に赴いて設備などを人手により一つ一つ確認する作業を伴う。そのための作業時間は多大であり、管理にかかる人件費などのコスト負担も大きい。この問題を解決するための、設備管理の効率化を支援する従来技術として、カメラで撮影した映像、地図および管理情報を連動して表示し、また映像から対象物を自動で認識して認識結果をＣＧなどで表示する方法がある（例えば特許文献１参照）。この技術では、対象物の画像とテンプレートとの相互相関を計算してパターンマッチングを行い、またステレオ立体視に似た計算手法を用いることでカメラから対象物までの相対距離を算出している。また、他の従来技術として、車両走行中の実写映像上に案内情報をＣＧで合成して、ドライバーなどに提示することにより、適切な案内を行うという方法がある（例えば特許文献２参照）。この技術では、実写映像から案内に寄与する案内寄与情報だけを抽出してＣＧ画像として生成しておき、そのＣＧ画像を現在走行時における実写映像に合成して表示するようにしている。
【０００３】
【特許文献１】特開２００３−３３７９４７号公報
【特許文献２】特開２００３−１２１１６７号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
以上のような従来技術の場合、次のような問題がある。
実際には、夜間も含めた日照変化、撮影時の画像ノイズ、遮蔽物などによる一部欠落等により画像上の対象物の見かけが変化することがあるため、画像認識を困難にしているという問題がある。これは特許文献１に記載された、入力画像とテンプレート画像の相互相関を計算するという方法では解決できない。また、特許文献１による方法は、保持しているテンプレート画像が少ない場合には認識率が低下するという問題がある。一方、特許文献２においては、案内に寄与する道路標識などをどのようにして認識するかについての方法を示唆していない。そのため、日照変化や遮蔽物が影響した画像に対しても正確に認識できる手法が望まれる。特に、例えば道路標識の種類などを効率よく特定できることが望まれる。
また、通常のＧＰＳ等の位置測位システムの場合は常に測位誤差を伴う。しかし、対象物の正確な測位が要求される設備管理効率化の支援装置の場合は、ＧＰＳの測位結果に伴う外乱やステレオ立体視に伴う測位誤差などを可能な限り除去する必要がある。
【０００５】
この発明は、上記問題点を解決するためになされたもので、同一種類の対象物について撮影した画像に、撮影時の状況や画像ノイズに起因した見かけ上の違いが存在していても、その対象物を正確に認識可能にする物体認識装置を得ることを目的とする。
また、この発明は、物体認識装置に組み込んで使用でき、ＧＰＳの測位誤差、画像認識に伴う誤差を低減して精度良く映像上の物体を測位する映像物体測位装置を得ることを目的とする。
【課題を解決するための手段】
【０００６】
この発明に係る物体認識装置は、映像情報を記憶する映像情報データベースと、映像情報データベースの映像情報から任意のフレーム画像を取得する画像取得手段と、種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段とを備えたものである。
【発明の効果】
【０００７】
この発明によれば、相関係数や相関係数行列を利用することで輝度変化、画像ノイズ等に影響されず、正確に映像上の物体を認識することが可能になる。
【発明を実施するための最良の形態】
【０００８】
実施の形態１．
この発明の説明において、「地理座標」とは、地理座標系における緯度、経度、標高のことを指すものとする。また、「画像座標」とは、２次元の画像上の座標（正規化カメラ座標）のことを指すものとする。また、「対象物」とは、画像上の認識の目的となっている物体のことを指すものとする。例えば、道路設備管理に用いる画像の場合の「対象物」としては、道路標識、道路白線、路面標識、マンホール、照明灯、信号機等がある。
【０００９】
図１はこの発明の各実施の形態に共通した物体認識装置の機能構成を示すブロック図である。
図において、映像情報取得装置９０は、カメラを用いて路上を撮像した映像情報およびこの映像情報を撮影したカメラの位置情報と姿勢情報を取得収集する手段である。映像情報データベース１００は、映像情報取得装置９０で取得した、道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を格納する手段である。
この映像情報取得装置９０は、例えば図２に示すように、移動体（車両）２０４に、高精度測位装置２０１、カメラ２０２および方位センサ２０３を搭載した構成からなる。また、一緒に映像情報データベース１００も移動体（車両）２０４に搭載されている。情報収集対象地域の路上に車両２０４を走行させて、カメラ２０２により路上の映像情報を取得する。その際、カメラ２０２の位置情報をＧＰＳ等の高精度測位装置２０１で計測すると共に、カメラ２０２の姿勢を方位センサ２０３で計測する。さらに、この計測したカメラの位置情報とカメラの姿勢情報を、そのとき取得した路上映像情報の各フレームに同期させて映像情報データベース１００に記録していく。この場合の同期をとる方法としては、例えば
、映像情報データベース１００に映像情報を時々刻々と記録する際に、その各時刻におけるコンピュータのシステム時間を映像情報の画像ヘッダに、あるいは映像に対応する音声トラックに記録していく。同様に、ＧＰＳの測位結果などの位置情報を時々刻々と記録する際にも、その各時刻におけるコンピュータのシステム時間を位置情報に付与して記録していく。したがって、映像情報データベース１００には、コンピュータのシステム時間に同期した映像情報、ＧＰＳの測位結果（カメラの地理座標）およびカメラ姿勢情報が記録されることになる。なお、ＧＰＳの測位結果と映像情報の同期を取るための基準信号としては、コンピュータのシステム時間以外に、ビデオキャプチャプログラムの内部時間、ＧＰＳの時計時間などの信号を使用してもよい。
【００１０】
この映像情報取得装置９０で用いるカメラ２０２としては、一眼カメラでもよいし、複数のカメラでもよい。また、可視カメラに限らず、ラインスキャンレーザや赤外線カメラなどであってもよい。したがって、取得する映像情報は、一つの映像あるいは対象物を異なる角度で見た複数の映像である。また、ラインスキャンレーザを用いた場合には奥行き映像情報となり、赤外線カメラによる場合には熱映像情報となる。なお、この実施の形態１では一眼カメラで撮影した映像情報を例に説明するが、この発明は上記他の映像情報でも同様に適用できるものである。また、ここで言うカメラの位置情報とは、映像情報の各フレームに同期して計測されたカメラの地理座標の情報である。さらに、カメラの姿勢情報とは、同様に映像情報の各フレームに同期して計測された三軸の角度（ヨー角、ロール角、ピッチ角）、角加速度などの情報のことである。
【００１１】
また図１において、画像取得部１０１は、映像情報データベース１００の映像情報から任意のフレーム画像を取得する手段である。テンプレート画像格納部１０５は、種類別に対象物に関する複数のテンプレート画像を予め格納する手段である。こここで、テンプレート画像としては、例えば対象物が道路標識である場合、各種類の道路標識について、それぞれいろいろな状況下で撮影した画像が複数個用意されているものとする。画像認識処理部１０２は、テンプレート画像を用いて画像取得部１０１で取得したフレーム画像から対象物を認識する手段である。測位処理部１０３は、画像認識処理部１０２で認識された対象物の地理座標を、その対象物の画像座標およびカメラの位置情報と姿勢情報に基づいて算出する手段である。表示データ格納部１２０は、ディスプレイ１１０に表示するための各種地図情報、対象物に関連する管理情報などの表示データを格納する手段である。表示処理部１０４は、対象物の認識結果および測位結果を表示対象データに対応付けて表示する処理を行う手段である。
【００１２】
次に、物体認識装置の全体動作について、図３に示す動作手順に従って説明する。
まず、画像取得部１０１では、映像情報データベース１００に格納された映像情報から任意のフレーム画像を取得する（ステップＳＴ１０１）。この入力画像の取得は、映像情報取得装置９０からの映像情報の収集中にリアルタイムに行ってもよいし、予め収集しておいた映像情報から行ってもよい。次に、画像認識処理部１０２では、画像取得部１０１が取得したフレーム画像から認識対象とする入力画像を抽出し、その入力画像に対してテンプレート画像格納部１０５に予め用意した対象物の複数のテンプレート画像を用い、後述する処理により、目的の対象物を認識し、認識した対象物の画像座標を求める（ステップＳＴ１０２）。測位処理部１０３では、後述する方法により、画像認識処理部１０２で認識した対象物に対する地理座標を求める（ステップＳＴ１０３）。なお、ここで認識が失敗したり、認識対象外の物体を測位したりする場合もあるので、その場合は、手動により映像フレームから物体の画像を選択することもある。次に、表示処理部１０４では、表示データ格納部１２０から読み込んだ各種地図情報、映像情報データベース１００の実写映像などの表示対象データを、測位処理部１０３で求めた対象物の地理座標に同期させてディスプレイ１１０で表示する処理を行う。また、その際に、画像認識処理部１０７で求めた対象物を表すアイコンなどの表示情報を、同期した表示対象データ上の対象物の位置に重畳し表示する処理を行う（ステップＳＴ１０４）。
【００１３】
次に、画像認識処理部１０２の処理の詳細について説明する。
画像認識処理部１０２は、画像取得部１０１が取得したフレーム画像から目的の対象物（例、道路標識）を、画像特徴量の相関係数行列を利用して認識する。この場合の画像認識処理部１０２の動作は図４に示す手順に従って行われる。
はじめに、画像認識処理部１０２では、認識するために必要な対象物の画像、すなわち道路標識に関する種類別の複数のテンプレート画像をテンプレート画像格納部１０５から読み込む（ステップＳＴ４０１）。画像認識処理部１０２は、次に各テンプレート画像について複数の画像特徴量をそれぞれ抽出する（ステップＳＴ４０２）。ここで求める画像特徴量は、例えば水平方向の画像座標、垂直方向の画像座標、テンプレート画像のＹプレーン（輝度成分）における画素値、Ｃｂプレーン（色差成分）における画素値、Ｃｒプレーン（色差成分）における画素値、垂直方向のエッジと水平方向のエッジ（エッジ情報）等である。
【００１４】
次に、画像認識処理部１０２は、上記各テンプレート画像に対して、ステップＳＴ４０２で求めた画像特徴量間の相関係数行列をそれぞれ求める（ステップＳＴ４０３）。結果として、各テンプレート画像に対して各々一つの相関係数行列を得る。
例えば、画像座標（ｘ，ｙ）における特徴量ベクトルｆ（ｘ，ｙ）を、次の（１）式ように定義する。
ｆ（ｘ，ｙ）＝［ｘ，ｙ，Ｙ（ｘ，ｙ），Ｃｂ（ｘ，ｙ），Ｃｙ（ｘ，ｙ），Ｈｅ（ｘ，ｙ），Ｖｅ（ｘ，ｙ）］（１）
ここで、ｘは水平方向の画像座標、ｙは垂直方向の画像座標、Ｙ（ｘ，ｙ）は画像座標（ｘ，ｙ）におけるＹプレーンの値、Ｃｂ（ｘ，ｙ）は画像座標（ｘ，ｙ）におけるＣｂプレーンの値、Ｃｙ（ｘ，ｙ）は画像座標（ｘ，ｙ）におけるＣｒプレーンの値、Ｈｅ（ｘ，ｙ）は画像座標（ｘ，ｙ）における水平方向のエッジの値、Ｖｅ（ｘ，ｙ）は画像座標（ｘ，ｙ）における垂直方向のエッジの値である。
【数１】

【００１５】
画像認識処理部１０２では、画像取得部１０１が取得したフレーム画像上において探索ウインドウを逐次移動させ、探索ウインドウ内の画像を取得する（ステップＳＴ４０４）。この場合、探索ウインドウは目的の対象物に応じて大きさを任意に変化させる。以下では、上記ステップＳＴ４０４で取得した探索ウインドウ内の画像を「入力画像」と呼ぶことにする。次に、上記取得した入力画像についてもステップＳＴ４０２、ＳＴ４０３で行ったと同様に、画像特徴量を算出し、その画像特徴量間の相関係数行列を求める（ステップＳＴ４０５）。次に、求めた入力画像の相関係数行列と先の複数のテンプレート画像の相関係数行列とを逐次比較するテンプレートマッチングを行い、入力画像とテンプレート画像間の距離を算出する（ステップＳＴ４０６）。
【００１６】
入力画像とテンプレート画像間の距離の算出は、例えば、次の（４）式を用いて行う。
【数２】

以上から、距離ｓが小さいほど入力画像とｋ番目のテンプレート画像との類似度が高く、距離ｓが大きいほど入力画像とテンプレート画像の類似度が低いものと解釈することができる。
ここで、上記の一般化固有値について説明する。一般化固有値は、入力矩形画像の相関係数行列をテンプレート画像の相関係数行列にアファイン変換する際の縮尺量（スケール）を意味している。一般化固有値が１に近いほど小さい縮尺量でアファイン変換可能であり、二つの相関係数行列は似通っていると判断できる。一方、一般化固有値が１から離れるほど大きな縮尺量でアファイン変換可能する必要があり、二つの相関係数行列は似通っていないと判断できる。
【００１７】
次に、上述のように画像特徴量間の相関係数行列を用いてテンプレートマッチングを行うことの利点を、例を挙げて説明する。
図５は、同じ道路標識に関する互いに見かけが異なる３つの画像、各々の画像における赤色の平均値、青色の平均値、および赤色と青色の相関係数を示したものである。図５に例示された３つの画像は、撮影時の状況が異なるため、輝度変化やノイズの影響により赤と青の平均値が大きく変化していることを表している。一方、各画像の相関係数は、輝度変化やノイズによる大きな影響を受けないほぼ一定した値になること表している。また、同様に、エッジなどの相関係数に関しても画像のコントラスト変化に影響を受けにくい値を持っている。すなわち、輝度変化等の影響を受けない相関係数を用いることで、見かけが異なる画像から正確に対象物を認識可能であることを意味している。したがって、画像特徴量間の相関係数行列を利用して、テンプレート画像と入力画像のマッチングをとる画像認識処理部１０２によれば、日照変化等がある状況下で撮影した画像に対しても対象物を正確に認識することが可能である。
【００１８】
次に、測位処理部１０３の処理の詳細について、図６に示す動作手順に従って説明する。ここでは、映像上の道路標識の地理座標を求めることを例にする。
まず、測位処理部１０３では、入力として、画像認識処理部１０２で認識した対象物の画像座標を取得する（ステップＳＴ９０１）。なお、この入力として取得する対象物の画像座標は、画像認識処理部１０２で認識に失敗した場合には、ユーザが映像を確認してマウスやタッチペンなどの入力デバイスを用いて選択した画像の画像座標でもよい。次に、測位処理部１０３では、取得した画像認識処理部１０２で認識した対象物が写るフレーム画像の前後数フレームから、ステップＳＴ９０１で画像座標を取得した対象物と同一の対象物を検出し、それら対象物の画像座標を取得する（ステップＳＴ９０２）。この同一の対象物を検出する方法としては、例えば前述の画像認識処理部１０２における画像特徴量の相関係数行列によるマッチングを利用するか、あるいは、Tuzel, O.; Porikli, F.; Meer, P., “Region Covariance: A Fast Descriptor for Detection and Classification”, European Conference on Computer Vision (ECCV), May 2006 (ECCV 2006)に記載されている、画像特徴量の分散共分散行列によるマッチングを利用すればよい。
【００１９】
次に、測位処理部１０３は、対象物が写る上記複数フレーム画像がそれぞれ撮影された時点の、カメラの地理座標と姿勢角ベクトル（ヨー角、ロール角、ピッチ角）を映像情報データベース１００から取得する（ステップＳＴ９０３）。次に、求めた同一対象物に対する複数の画像座標、当該対象物を写したカメラの複数の地理座標とカメラの複数の姿勢角を用いてコスト関数を生成し、生成したコスト関数が最小になるような対象物の地理座標を算出する（ステップＳＴ９０４）。生成されたコスト関数は次の（６）式のようになる。
【数３】

上記（６）式に示すコスト関数Ｅの第一項は対象物の画像座標誤差を最小にする項であり、第二項はＧＰＳの測位誤差を最小にする項であり、第三項はカメラ姿勢角の計測誤差を最小化するための項である。
【００２０】
通常、図２に示したような映像情報取得装置で取得したカメラの位置情報およびカメラの姿勢情報には計測誤差が含まれる。しかしながら、上記（６）式の３つの項からなるコスト関数Ｅを最小化することで、対象物の画像座標誤差、ＧＰＳの測位誤差およびカメラの姿勢計測誤差を同時に最小化しつつ、最適な対象物の位置を映像から算出することが可能となる。
【００２１】
また、測位処理部１０３は、上記コスト関数を用いる方法とは別の方法として、次の（７）式の対数尤度関数を用いて対象物の地理座標を求めてもよい。
【数４】

この場合、対数尤度関数を最大化して、対象物の地理座標、カメラ地理座標およびカメラ姿勢角ベクトルを求めることで、画像座標誤差の確率分布、カメラ位置測位誤差の確率分布、カメラ姿勢角度計測誤差の確率分布が、それぞれ任意の場合でも、最適な対象物の地理座標を算出することが可能である。
【００２２】
以上のように、測位処理部１０３によれば、画像認識処理部１０２で認識した対象物が写るフレーム画像の前後複数のフレーム画像を用い、これらのフレーム画像から取得した、対象物の複数の画像座標、対象物を写した時点の複数のカメラ位置と複数のカメラ姿勢角とに基づいてコスト関数または対数尤度関数を生成し、コスト関数を最小化、または対数尤度関数を最大化することにより、対象物の画像座標誤差、カメラ位置の測位誤差、カメラ姿勢角の計測誤差を考慮して、最適な対象物の地理座標を算出することを可能にしている。また、最適な対象物の地理座標を求めるだけではなく、同時にカメラ位置とカメラ姿勢角の最適な値を求めることも可能である。
【００２３】
上記例では、画像認識処理部１０２で認識した対象物に対して、その画像座標に基づいて認識した対象物の地理座標を算出する測位処理を行うことについて述べてきた。ここで、この測位処理部１０３は、画像認識処理部１０２と切り離し、上記認識した対象物以外の映像上の物体の測位を行う映像物体測位装置とした構成とすることも可能である。すなわち、映像情報データベース１００に収集してある映像情報並びにこの映像情報に同期したカメラの位置情報およびカメラの姿勢情報を用い、映像上の任意の物体をマウスやタッチペンなどの入力デバイスを用いて選択し、選択した物体の画像座標を取得して上記で行ったと同様な測位処理を行えば、映像上に写っている任意の物体の地理座標を算出できることになる。また、後述する表示処理部１０４と組み合わせて、実写映像や地図情報などに同期させて測位した物体のアイコンなどを表示することも可能になる。
【００２４】
次に、表示処理部１０４の処理の詳細について説明する。
図１の映像情報取得装置９０の動作で説明したように、映像情報データベース１００には、コンピュータのシステム時間に同期した映像情報、ＧＰＳの測位結果（カメラの地理座標）およびカメラ姿勢情報が記録されている。したがって、表示処理部１０４では、これらのコンピュータのシステム時間を参照することで映像情報に対応付けてカメラの地理座標やカメラ姿勢情報を読み出すことができる。すなわち、実写映像に対するその実写映像（カメラの地理座標）の地理座標を決めることができる。
一方、表示データ格納部１２０に格納されている地図データ、例えばカーナビゲーション地図、配管地図のような二次元地図も各地点の地理座標を持っている。そこで、表示処理部１０４は、実写映像を表示する際に、そのフレーム画像の地理座標と一致した地理座標を持つ地図データを読み出し、同じディスプレイの表示画面に一緒に表示する処理を行う。したがって、対応する両画像を同期させて表示することができる。
【００２５】
また、道路を三次元表示した鳥瞰図に地理座標が予め与えられている場合には、同様に同期させて表示することも可能である。その際、表示処理部１０４は、測位処理部１０３で測位処理した、認識された対象物または映像上で指定した対象物の地理座標に基づいて、これらの対象物の位置を、同期表示している二次元地図や鳥瞰図上に指定したり、対象物のアイコンで表示したりする処理を行うようにしてもよい。
さらに、表示処理部１０４は、測位処理部１０３で測位処理した、認識された対象物あるいは映像上で指定した対象物の地理座標および画像座標に基づいて、これらの対象物の位置を、コンピュータグラフィックスで作成した対象物の図形や位置マークを重畳表示する処理を行うようにしてもよい。
【００２６】
表示処理部１０４の処理による表示例を図７および図８により説明する。ここでは設備管理の対象物の例をマンホールとする。
図７は、設備管理図として、実写映像（車両映像とマンホール認識結果）、カメラ視点変換映像、二次元地図、配管図（これも二次元地図）、設備情報を全て地理座標に基づいて同期させてディスプレイ１１０の同一画面で表示している状態を表している。カメラ視点変換映像は、表示処理部１０４により、実写映像をカメラ視点を変換させることにより生成したものである。設備情報は、マンホールの番号、種類（上水用、下水用、大きさ、形など）、設置番地などを記載しており、地理座標に対応付けられている。したがって、他の表示画像に対応したデータが表示されるようになっている。実写映像上には、画像認識処理部１０２で認識され、測位処理部１０３で自動測位した対象物（この例ではマンホール）が、例えば色分けして囲んだ矩形枠で表示されている。同様に、二次元地図や配管図上には、認識して自動測位した対象物が、例えば色分けしたアイコンで表示されている。また、二次元地図には、実写映像を写しているカメラの位置を、その撮影方向（カメラの姿勢角）を表すアイコンで表示されている。さらに、実写映像上には、配管図などから読み取った道路に埋設された下水道管などの配管の位置を、例えば重畳した破線で表示している。
【００２７】
一方、図８は、積雪地方における状況を表しており、現在の積雪道路の実写映像（現在の映像とＣＧによるマンホール位置の表示）、夏などに撮影した過去の実写映像（過去の車両映像とマンホール認識結果）、カーナビゲーション画面、設備情報を表示している。積雪地方では、冬季はマンホールなどの道路設備が雪に埋もれてしまうため、設備点検業務に支障をきたすことが多い。そこで、積雪道路の現在の実写映像上には雪の下に埋もれたマンホールの位置を指示するＣＧ合成の矢印を表示し、マンホールを探索しやすくしている。また、ディスプレイの画面上には、映像を撮影した近辺の各種の設備情報などを、地理座標により同期させて表示するようにしている。このように現在の実写映像を過去の実写映像や表示データと同時に表示するためには、表示処理部１０４において、カメラの現在位置（位置座標）または当該カメラを搭載した車両の現在位置（位置座標）に基づいて、過去の実写映像および／もしくは表示データを同期させればよい。
【００２８】
以上のように、表示処理部１０４によれば、映像情報から自動認識した対象物あるいは指定した対象物の地理座標に基づいて、各種地図情報、設備情報を実写映像と同期させて一緒に表示し、対象物の位置を地図および実写映像上にアイコンやＣＧ表示するようにしたので、一目して確認できるように可視化できる。したがって、上下水道管理、電力設備管理、カーナビゲーション用地図管理などの管理作業を効率化でき、管理に係る人件費コストの大幅な削減に寄与することが可能となる。特に、積雪地帯や被災地帯のように実写映像だけでは確認不可能になっている対象物の位置を的確に表示して伝えることができるため、効率よい設備点検業務の遂行を可能にする。
【００２９】
以上のように、この実施の形態１の物体認識装置によれば、画像認識処理部１０２において、予め準備した複数のテンプレート画像のそれぞれについて、画像座標、輝度情報、色情報およびエッジ情報など複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得部１０１で取得したフレーム画像から認識対象とする入力画像を抽出し、この入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識するようにしたものである、したがって、日照変化等がある状況下で撮影した映像情報やノイズを含んだ映像情報から、対象物を正確に認識することを可能にする。
【００３０】
また、この実施の形態１の物体認識装置によれば、測位処理部１０３において、画像認識処理部１０２で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレームの画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、映像情報データベース１００から、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数または対数尤度関数を生成し、当該コスト関数が最小になる、または対数尤度関数が最大になる対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出するようにしている。したがって、画像認識処理部１０２で認識した対象物について最適な地理座標を求めることを可能にする。
さらに、この実施の形態１の物体認識装置によれば、表示処理部１０４において、映像情報データベース１００から取得した実写映像および／もしくは表示データ格納部１２０から取得した各種地図情報を、前記測位処理部１０４で算出した対象物の地理座標に同期させてディスプレイ１１０で表示するようにし、かつ、対象物の位置を地図および実写映像上にアイコンやＣＧ表示するようにしている。したがって、自動的に認識・測位した特定の対象物を視覚的に判りやすく映像表示することができ、設備管理作業などの効率化に寄与する。
【００３１】
実施の形態２．
この実施の形態２では、画像認識処理部１０２が、実施の形態１と同様にして取得した入力画像とテンプレート画像の共通する部分領域ごとに相関係数行列の比較を行うことで、目的とする対象物を認識する方法を用いることについて説明する。
図９は実施の形態２に係る画像認識処理部１０２のマッチングの動作例を示す。この場合、画像認識処理部１０２は、テンプレート画像格納部１０５の複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定する。そして、指定した各部分領域について複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ算出する。次に、画像取得部１０１で取得したフレーム画像から認識対象とする入力画像を抽出する。この入力画像について、テンプレート画像と対応させた複数の部分領域を指定し、部分領域ごとに複数の画像特徴量を抽出し、画像特徴量間の相関係数行列をそれぞれ求める。次に、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出する。
【数５】

【００３２】
以上のように、画像認識処理部１０２において、部分領域ごとに距離を算出し、それらの和をとることで、道路標識が部分的に遮蔽されていたり、道路標識の中に数字や文字などが存在する場合においても個別に類似度を算出することができ、より正確な画像認識を可能にする。
また、入力画像とｋ番目のテンプレート画像との間の距離は、次の（１０）式を用いて求めてもよい。
【数６】

また、各部分領域で求めた距離のうち、距離の小さい上位の数個の和をとり、その和を入力画像とｋ番目のテンプレート画像との間の距離としてもよい。
【００３３】
通常、目的とする対象物に対して部分的な遮蔽物などが存在している場合、遮蔽物が写っている部分領域では入力画像とテンプレート画像との距離が大きくなることがある。しかし、前述したように、画像認識処理部１０２では、各部分領域で求めた距離の和から、そのうち最も大きな距離を取り除いたり、各部分領域で求めた距離の中で距離の小さな値の上位数個の和をとるようにして、遮蔽物が関与する部分領域の影響を受けないようにしているので、部分的に遮蔽される場合があっても正確に対象物を認識することが可能である。
【００３４】
以上のように、この実施の形態２の物体認識装置によれば、画像認識処理部１０２が、複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定し、指定した各部分領域について、輝度成分、色情報およびエッジ情報など複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ求め、次に画像取得部１０１で取得したフレーム画像から認識対象とする入力画像を抽出し、入力画像について、テンプレート画像と同様に指定した複数の部分領域ごとに複数の画像特徴量を抽出して画像特徴量間の相関係数行列をそれぞれ求め、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出し、算出した各部分領域間の距離に基づいて入力画像と各テンプレート画像間の距離をそれぞれ算出し、算出した画像間の距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識するようにしている。したがって、日照変化等がある状況下で撮影した映像情報や部分的に遮蔽や特定表示が含まれる対象物が写った映像情報から、目的の対象物を正確に認識することが可能にする。
【００３５】
実施の形態３．
この実施の形態３では、画像認識処理部１０２が、同一または同一種類の対象物に対する複数のテンプレート画像から特徴的な画像特徴量間の相関関係を相関パターンとして生成し、生成した相関パターンを利用して目的の対象物の画像を認識する方法について説明する。
図１０は実施の形態３に係る画像認識処理部１０２の動作手順を示す。
まず、画像認識処理部１０２は、テンプレート画像格納部１０５から、予め準備された同一または同一種類の対象物に対する複数のテンプレート画像を読み込む（ステップＳＴ７０１）。次に、この読み込んだ複数のテンプレート画像に共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ画像特徴量を２つ選び、選択した２つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する関数（以下、類似度算出関数と呼ぶ）を作成する（ステップＳＴ７０２）。
【００３６】
ここで、ステップＳＴ７０２における類似度算出関数の作成方法について、図１１の例を用いて説明する。画像認識処理部１０２では、まず、同一種類の対象物に対する複数のテンプレート画像に共通な一つの部分領域８０１を選択し、その部分領域８０１において有用な相関関係を持つ２つの画像特徴量として、赤プレーンと青プレーンを選択する。そして、選択した赤プレーンと青プレーンの相関係数を複数のテンプレート画像についてそれぞれ求める。次に、求めた各相関係数の値に基づいて類似度を算出する類似度算出関数８０４を作成する。これら部分領域８０１、相関係数および類似度算出関数をまとめた情報を、一つの相関パターンとして保持する。同様にして、異なる部分領域８０２，８０３，…を
選択し、それぞれの部分領域に対して、相関係数および類似度算出関数を求めて相関パターンを生成して保持しておく。さらに、この複数の相関パターンの生成を、各種類のテンプレート画像に対してもそれぞれ行う）。なお、この相関パターンの生成方法としては、例えば、Jerome Friedman, Trevor Hastie and Robert Tibshirani “Additive Logistic Regression: a Statistical View of Boosting”. Ann. Statist. 28, no. 2 (2000), 337407に記載されているＡｄａｂｏｏｓｔあるいはＬｏｇｉｔｂｏｏｓｔと呼ばれる学習アルゴリズムを用いてもよいし、あるいはサポートベクトルマシンやニューラルネット等、その他の方法を用いもよい。
【００３７】
図１０による動作説明に戻り、画像認識処理部１０２では、画像取得部１０１で取得した入力画像に対して探索ウインドウを逐次移動させ、探索ウインドウ内の画像を認識対象とする入力画像として取得する（ステップＳＴ７０３）。この場合、探索ウインドウは目的の対象物に応じて大きさを任意に変化させる。また、このときの入力画像の画像座標を算出する。次に、ステップＳＴ７０２で生成し保持しているテンプレート画像の相関パターンに従って、対応する入力画像の部分領域を抽出し、抽出した部分領域における画像特徴量間の相関係数を算出し、算出した相関係数を相関パターンの類似度算出関数に代入することで類似度を算出する（ステップＳＴ７０４）。次に、ステップＳＴ７０２で求めた相関パターンの数だけステップＳＴ７０４とＳＴ７０５の処理を繰り返し、各相関パターンにおいて算出された類似度を加算して、最終的な類似度を算出する（ステップＳＴ７０６）。同様に、他の種類の対象物に関しても、相関パターンから得た類似度を加算して最終的な類似度を算出する。このように算出した全ての種類に対する最終的な類似度の中から、最も大きな類似度を持つ種類を求め、この求めた種類の対象物を目的の対象物として認識する（ステップＳＴ７０７）。
【００３８】
一般に、大量のテンプレート画像がある場合、これらを入力画像と一つ一つマッチングしていく方法は処理に時間を要し効率が悪い。しかし、この実施の形態３の画像認識処理部１０２の場合、同一または同一種類の対象物について、その複数のテンプレート画像から有用な相関係数に関する相関パターンを幾つか生成しておき、生成したこれらの相関パターンを用いて、入力画像の認識を、対象物の種類単位で行うようにしたので、認識処理時間を大幅に改善することができる。
【００３９】
以上のように、この実施の形態３の物体認識装置によれば、画像認識処理部１０２が、同一種類の対象物に対する複数のテンプレート画像について、共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ２つの画像特徴量を選び、選択した２つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する類似度算出関数を作成し、求めた共通部分領域、２つの画像特徴量および類似度算出関数をセットとする相関パターンを複数生成して保持しておき、次に画像取得部１０１で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、上記生成保持する複数の相関パターンのそれぞれに従って、対応する共通部分領域をそれぞれ選択し、当該選択した共通部分領域に対してテンプレート画像と同様にして画像特徴量間の相関係数をそれぞれ算出し、算出した相関係数を対応する相関パターンの類似度算出関数にそれぞれ代入することでそれぞれの類似度を算出し、算出した各類似度を加算してその加算値が一定値以上となった場合のテンプレート画像の同一種類の対象物を、入力画像の対象物として認識するようにしている。したがって、日照変化等がある状況下で撮影した映像情報や部分的に遮蔽や特定表示が含まれる対象物が写った映像情報から、目的の対象物を正確に認識することが可能にする。加えて、この実施の形態３の画像認識処理部１０２は、認識処理を、対象物の種類単位で形成した相関パターンを用いて行うようにしたため、個々のテンプレート画像に対してパターンマッチングを行う処理に比べて処理時間を大幅に改善することができる。特に、大量のテンプレート画像を用いる場合に有効である。
【００４０】
この発明の物体認識装置を、上記実施の形態では道路設備の管理支援について説明してきたが、この発明の装置は、例えば、電車に搭載して、路線状況の情報収集や管理を行うのにも適用できる。また、この発明の装置は、実写映像を用いたカーナビゲーションにも利用できる。例えば、車両にＧＰＳなどの測位デバイスとカメラを搭載し、画像認識処理部１０２により、カメラで収集した映像から白線認識、道路標識、交通信号認識、歩行者や自転車、対向車、建築物などの認識を行い、これらの情報やこれらの情報に基づいて生成される案内情報をドライバーに提示するようにする。さらに、この発明の装置は、例えば、ビルや学校や街中に監視カメラを設置し、画像認識処理部１０２により、特定の人物や侵入者の顔などを認識して、認識結果とその映像を保安センタなどに伝達する映像を用いたセキュリティにも応用できる。さらにまた、この発明の装置は、インターネットにおける画像検索および分類などにも利用することが可能である。例えば、インターネットで大量の画像を収集して映像情報データベース１００に保存しておき、画像認識処理部１０２により、映像情報データベース１００の画像から特定の人物画像や特定の物体画像を認識し、認識結果を、ユーザの要望に応じてパソコンや携帯電話などに表示することに利用できる。
【図面の簡単な説明】
【００４１】
【図１】この発明の各実施の形態による物体認識装置の機能構成を示すブロック図である。
【図２】この発明の実施の形態１に係る映像情報取得装置の構成を示す説明図である。
【図３】この発明の実施の形態１に係る物体認識装置の動作手順を示すフローチャートである。
【図４】この発明の実施の形態１に係る画像認識処理部の部分領域ごとに相関係数行列を利用する方法による動作手順を示すフローチャートである。
【図５】この発明の実施の形態１に係る画像特徴量間の相関係数行列を利用したテンプレートマッチングの利点を示す説明図である。
【図６】この発明の実施の形態１に係る測位処理部の動作手順を示すフローチャートである。
【図７】この発明の実施の形態１に係る表示処理部の動作による表示例を示す説明図である。
【図８】この発明の実施の形態１に係る表示処理部の動作による他の表示例を示す説明図である。
【図９】この発明の実施の形態２に係る画像認識処理部によるマッチング方法の例を示す説明図である。
【図１０】この発明の実施の形態３に係る画像認識処理部の相関係数パターンを利用する方法による動作手順を示すフローチャートである。
【図１１】この発明の実施の形態３に係る画像認識処理部による類似度算出関数の作成方法を示す説明図である。
【符号の説明】
【００４２】
９０映像情報取得装置、１００映像情報データベース、１０１画像取得部、１０２画像認識処理部、１０３測位処理部、１０４表示処理部、１０５テンプレート画像格納部、１１０ディスプレイ、１２０表示データ格納部、２０１高精度測位装置、２０２カメラ、２０３方位センサ、２０４移動体。

【特許請求の範囲】
【請求項１】
映像情報を記憶する映像情報データベースと、
前記映像情報データベースの映像情報から任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
前記テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段とを備えたことを特徴とする物体認識装置。
【請求項２】
画像認識処理手段で抽出する画像特徴量は、画像座標、輝度情報、色情報およびエッジ情報とすることを特徴とする請求項１記載の物体認識装置。
【請求項３】
映像情報を記憶する映像情報データベースと、
前記映像情報データベースの映像情報からから任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
前記テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定し、指定した各部分領域について複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ求め、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記テンプレート画像と同様に指定した複数の部分領域ごとに複数の画像特徴量を抽出して画像特徴量間の相関係数行列をそれぞれ求め、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出し、算出した各部分領域間の距離に基づいて入力画像と各テンプレート画像間の距離をそれぞれ算出し、算出した画像間の距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段を備えたことを特徴とする物体認識装置。
【請求項４】
画像認識処理手段で抽出する画像特徴量は、画像座標、輝度成分、色情報およびエッジ情報とすることを特徴とする請求項３記載の物体認識装置。
【請求項５】
画像認識処理手段は、算出した各部分領域間の距離の合計値を、入力画像とテンプレート画像間の距離とすることを特徴とする請求項３または請求項４記載の物体認識装置。
【請求項６】
画像認識処理手段は、算出した各部分領域間の距離の中で、最も大きい距離を取り除いた残りの和を、入力画像とテンプレート画像間の距離とすることを特徴とする請求項３または請求項４記載の物体認識装置。
【請求項７】
画像認識処理手段は、算出した各部分領域間の距離の中で、最も小さい距離の上位数個の和を、入力画像とテンプレート画像間の距離とすることを特徴とする請求項３または請求項４記載の物体認識装置。
【請求項８】
画像認識処理手段は、相関係数行列を比較する際に一般化固有値を用いて距離を算出することを特徴とする請求項１から請求項７のうちのいずれか１項記載の物体認識装置。
【請求項９】
映像情報を記憶する映像情報データベースと、
前記映像情報データベースの映像情報からから任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
テンプレート画像格納手段から読み込んだ同一種類の対象物に対する複数のテンプレート画像について、共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ２つの画像特徴量を選び、選択した２つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する類似度算出関数を作成し、前記共通部分領域、前記２つの画像特徴量および前記類似度算出関数をセットとする相関パターンを複数生成して保持しておき、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記生成保持する複数の相関パターンのそれぞれに従って、対応する共通部分領域をそれぞれ選択し、当該選択した共通部分領域に対して前記テンプレート画像と同様にして画像特徴量間の相関係数をそれぞれ算出し、算出した相関係数を対応する前記相関パターンの類似度算出関数にそれぞれ代入することでそれぞれの類似度を算出し、算出した各類似度を加算して最終的な類似度を算出し、同様な処理により他の種類の対象物に関しても相関パターンから得た類似度を加算して最終的な類似度を算出し、算出した全ての種類に対する最終的な類似度の中から、最も大きな類似度を持つ種類を求め、この求めた種類の対象物を目的の対象物として認識する画像認識処理手段とを備えたことを特徴とする物体認識装置。
【請求項１０】
映像情報データベースは、道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶しており、
画像認識処理手段で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレームの画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、前記映像情報データベースから、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数を生成し、当該コスト関数が最小になる対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出する測位処理手段を備えたことを特徴とする請求項１から請求項９のうちいずれか１項記載の物体認識装置。
【請求項１１】
測位処理手段で生成されたコスト関数は、画像座標誤差項、測位誤差項およびカメラの姿勢角度計測誤差項から構成されることを特徴とする請求項１０記載の物体認識装置。
【請求項１２】
映像情報データベースは、道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶しており、
画像認識処理手段で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレーム画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、前記映像情報データベースから、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいて対数尤度関数を求め、当該対数尤度関数を最大化する対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出する測位処理手段を備えたことを特徴とする請求項１から請求項９のうちいずれか１項記載の物体認識装置。
【請求項１３】
地理座標を持つ二次元地図、道路を三次元表示した地理座標を持つ鳥瞰図および地理座標を持つ管理情報を含む表示データを格納する表示データ格納手段を当該装置内または装置外に備え、
映像情報データベースから読み出した実写映像をディスプレイに表示し、その際、前記表示データ格納手段から選択して読み出した表示データの画像を前記実写映像のフレーム画像の地理座標と同期させて前記ディスプレイの画面上に前記実写映像と一緒に表示する表示処理を行う表示処理手段を備えたことを特徴とする請求項１０から請求項１２のうちいずれか１項記載の物体認識装置。
【請求項１４】
表示処理手段は、実写映像にカメラ視点変換を行って視点変換映像を生成し、当該視点変換映像をディスプレイの画面上に前記実写映像および表示データの画像と一緒に表示する表示処理を行うことを特徴とする請求項１３記載の物体認識装置。
【請求項１５】
表示処理手段は、測位処理手段により算出された地理座標に対応する対象物のアイコンを、二次元地図および／もしくは鳥瞰図上の前記対象物の位置に表示する表示処理を行うことを特徴とする請求項１３または請求項１４記載の物体認識装置。
【請求項１６】
表示処理手段は、カメラの現在位置または当該カメラを搭載した車両の現在位置に同期させて実写映像および／もしくは表示データの画像をディスプレイ上に表示するようにしたことを特徴とする請求項１３から請求項１５のうちいずれか１項記載の物体認識装置。
【請求項１７】
表示処理手段は、測位処理手段により算出された地理座標に対応する対象物の図形または位置マークを、実写映像上の前記対象物の位置に表示する表示処理を行うことを特徴とする請求項１３から請求項１６のうちいずれか１項記載の物体認識装置。
【請求項１８】
道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶する映像情報データベースと、
前記映像情報データベースから読み出した映像上の任意の物体を選択する入力デバイスと、
選択された物体の画像座標を取得し、当該物体が写っている前後の複数フレームの画像から当該物体と同一の物体をそれぞれ検出して、これら検出した物体の画像座標を取得し、前記映像情報データベースから、前記選択された物体を含む同一の物体を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した物体の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数を生成し、当該コスト関数が最小になる物体の地理座標、カメラの地理座標およびカメラ姿勢角を算出することを特徴とする映像物体測位装置。
【請求項１９】
測位処理手段で生成されたコスト関数は、画像座標誤差項、測位誤差項およびカメラの姿勢角度計測誤差項から構成されることを特徴とする請求項１８記載の映像物体測位装置。
【請求項２０】
道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を記憶する映像情報データベースと、
前記映像情報データベースから読み出した映像上の任意の物体を選択する入力デバイスと、
選択された物体の画像座標を取得し、当該物体が写っている前後の複数フレーム画像から当該物体と同一の物体をそれぞれ検出して、これら検出した物体の画像座標を取得し、映像情報データベースから、前記選択された物体を含む同一の物体を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した物体の複数の画像座標、カメラ位置とカメラ姿勢角に基づいて対数尤度関数を求め、当該対数尤度関数を最大化する物体の地理座標、カメラの地理座標およびカメラ姿勢角を算出することを特徴とする映像物体測位装置。

【図１】