画像認識装置
【課題】画素ブロック程度の大きさで検出される動く物体を高い精度で認識する画像認識装置を提供する。
【解決手段】画像認識処理部16では、評価値算出部21,動き領域抽出部23が、画像データをMPEG方式の符号化データに符号化する際、又はMEPEG方式で符号化された符号化データを画像データに復号する際に生成される動きベクトル、2次元DCT係数、符号化情報(ピクチャタイプ,ブロックタイプ)を使用して、画像の特徴を表す複数種類の評価値を作成し、更新処理部24が、その評価値と各種オブジェクトとの関係を規定した判定ルールに従い、マクロブロックを最小単位として画像認識を行う。従って、オブジェクトがマクロブロック程度の大きさであり、動きベクトルが発生し難い状況であっても、2次元DCT係数に基づいて生成された評価値から、オブジェクトの動きを検出できる。
【解決手段】画像認識処理部16では、評価値算出部21,動き領域抽出部23が、画像データをMPEG方式の符号化データに符号化する際、又はMEPEG方式で符号化された符号化データを画像データに復号する際に生成される動きベクトル、2次元DCT係数、符号化情報(ピクチャタイプ,ブロックタイプ)を使用して、画像の特徴を表す複数種類の評価値を作成し、更新処理部24が、その評価値と各種オブジェクトとの関係を規定した判定ルールに従い、マクロブロックを最小単位として画像認識を行う。従って、オブジェクトがマクロブロック程度の大きさであり、動きベクトルが発生し難い状況であっても、2次元DCT係数に基づいて生成された評価値から、オブジェクトの動きを検出できる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動き補償予測と離散コサイン変換とを用いた画像の符号化時又はその復号時に生成される符号化情報を用いて物体の認識を行う画像認識装置に関する。
【背景技術】
【0002】
従来より、車載カメラ等で取得した動画像から歩行者等の動く物体を抽出する際には、動きの情報が重要視されてきた。
具体的な手法としては、画素ブロック(例えば、16×16画素)単位で動きベクトルを求める手法や、画素単位で高精度に動きを検出する手法(例えば、特許文献1,2参照。)等が知られている。
【特許文献1】特開平7−302328号公報
【特許文献2】特開2003−288600号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、画素ブロック単位で動き情報を算出する手法では、歩行者の大きさが画素ブロックと同程度以下となる比較的離れた位置を歩行する歩行者の動きを抽出する場合、通常の歩行速度では、画面上での動きが小さいため、動きベクトルが殆ど発生せず、これを抽出することが困難であるという問題があった。
【0004】
一方、画素単位で動き情報を算出する手法では、静止物体であっても、カメラの動きや輝度むら等に基づく擬似的な動きが多く検出され、これらが、歩行者の動きに基づく情報であるか、単なる雑音であるかを判別することが困難であるという問題や、検出に膨大な演算量を要するという問題があった。更には、画素単位の処理であるため、広く普及しているMPEG等の画素ブロック単位で処理を実行するMPEG等の処理との整合性に欠けるという問題もあった。
【0005】
本発明は、上記問題点を解決するために、画素ブロック程度の大きさで検出される動く物体を高い精度で認識する画像認識装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するためになされた本発明の画像認識装置では、評価値算出手段が、動き補償予測と離散コサイン変換とを用いた画像の符号化時又はその復号時に生成される符号化情報に基づき、特に、離散コサイン変換に基づく2次元DCT係数を少なくとも用いて複数種類の評価値を算出する。
【0007】
即ち、符号化情報に基づく再生画像を見てオブジェクトの認識が可能であれば、その符号化情報にオブジェクトの認識に必要な特徴量が含まれているということであるため、符号化情報に基づいて算出される評価値は、その特徴量が反映されたものとなる。
【0008】
そして、判定手段が、入力画像から抽出すべきものとして予め設定された複数のオブジェクトと評価値算出手段にて算出された評価値との関係を規定した判定ルールに従って、画素ブロック毎に、該画素ブロックがオブジェクトのいずれに対応するかを判定する。
【0009】
即ち、オブジェクトの大きさがマクロブロック程度であり、オブジェクトの動きが動きベクトルに現れない場合でも、2次元DCT係数はオブジェクトの動きに応じて変化するため、その変化を抽出することで動きのあるオブジェクトの検出が可能となる。
【0010】
このように構成された本発明の画像認識装置によれば、画素ブロック程度の大きさで出現する動く物体を高い精度で検出することができる。
しかも、本発明の画像認識装置によれば、評価値の生成に必要な情報は、画像データを符号化するか、又は符号化データを復号する際に抽出されるため、既存のエンコーダやデコーダに殆ど変更を加えることなく(具体的には、必要な情報を外部に出力する端子を設けるだけで)実現することができる。
【0011】
更に、本発明の画像認識装置によれば、コンピュータネットワーク上のサーバや個々のコンピュータに接続されたハードディスク等に蓄積されていたり、通信によって取得されたりする動画像の符号化データを用いた画像認識を、極めて軽い処理で実現することができる。
【0012】
ところで、評価値算出手段は、請求項2に記載のように、評価値の一つとして、符号化の単位となる画素ブロック毎に、2次元DCT係数に基づく基本評価値を求める第1評価値算出手段を備えていることが望ましい。
【0013】
但し、マクロブロック内のオブジェクトが背景と類似したテクスチャを有している場合は、2次元DCT係数の直流パワー成分が小さくなる場合がある。
そこで、第1評価値算出手段は、請求項3に記載のように、基本評価値の一つとして、2次元DCT係数の交流パワー成分の合計値を求めるように構成されていることが望ましい。この場合、オブジェクトの動きが、背景によらず、的確に反映された基本評価値を得ることができる。
【0014】
一方、2次元DCT係数の低周波成分の特徴(色や濃淡)はフレーム間で連続し、また、画面全体が大きく変化するパニング時には、画面全体に渡って、低周波成分の特徴が類似する。このような特徴もオブジェクトの判定に使用できることが望ましい。
【0015】
そこで、第1評価値算出手段は、請求項4に記載のように、基本評価値の一つとして、2次元DCT係数の低周波パワー成分の合計値を求めるように構成されていてもよい。
また、評価値算出手段は、請求項5に記載のように、指定された対象領域毎に、第1評価値算出手段にて算出された基本評価値の組合せ方を規定する評価関数を用いて複合評価値を算出する第2評価値算出手段を備えていてもよい。
【0016】
なお、対象領域としては、例えば、MPEGにおけるマクロブロックを用いてもよいし、そのマクロブロックを複数連結したものを用いてもよい。また、評価関数としては、対象領域を全体的に評価するものであってもよいし、特徴が現れる箇所を部分的に評価するものであってもよい。
【0017】
このように構成された本発明の画像認識装置によれば、対象領域中でのオブジェクトの動きの特徴を、より詳細かつ的確に反映した評価値を得ることができる。
この場合、請求項6に記載のように、判定手段での判定結果に基づいて、対象領域及び該対象領域に適用する評価関数、判定ルールを設定する評価内容設定手段を備えていてもよい。
【0018】
この評価内容設定手段は、具体的には、請求項7に記載のように、入力画像に示されたシーンを規定する道路構造モデルや風景モデルに基づき、指定された特定種類のオブジェクトが出現する可能性の高い領域に対象領域を設定することや、請求項8に記載のように、判定結果に示された特定種類のオブジェクトの位置や挙動に基づいて対象領域を設定すると共に、該オブジェクトについて想定される特定状況の検出に適した評価関数を設定することが考えられる。
【0019】
特に後者の場合、請求項9に記載のように、特定種類のオブジェクトを歩行者とし、特定状況を歩行者の異常行動又はその予兆として、対象領域や評価関数を設定すれば、車載用の画像認識装置として好適に用いることができる。
【0020】
ところで、評価値算出手段は、請求項10に記載のように、評価値の一つとして、動き補償予測にて求められる動きベクトルに基づく動き評価値を求める第3評価値算出手段を備えていてもよい。
【0021】
このような動き評価値を用いることにより、例えば、車両や近距離に位置する歩行者など、大きな動きベクトルを発生させるオブジェクトを的確に検出することが可能となる。
この第3評価値算出手段では、動き評価値として、具体的には、請求項11に記載のように、動きベクトルの大きさや、請求項12に記載のように、動きベクトルとカメラモーションによって生じるパニングベクトルとの類似度や、請求項13に記載のように、隣接する画素ブロック間の動きベクトルの類似度を求めることが考えられる。
【0022】
また、評価値算出手段は、請求項14に記載のように、動き評価値として算出される動きベクトルの類似度が予め設定された閾値以上となる画素ブロック同士が形成する連続した領域からなる動き領域を設定し、評価値の一つとして、動き領域毎に、該動き領域の大きさや領域形状を示す領域評価値を求める第4評価値算出手段を備えていてもよい。
【0023】
この領域評価値には、一つのオブジェクトを構成することが推定される動き領域全体としての特徴が反映されるため、この領域評価値を他の評価値と組み合わせて用いることによって、より精度の高い判定を可能とすることができる。
【0024】
ところで、判定手段は、請求項15に記載のように、評価値算出手段にて算出された評価値の時系列パターンと、予め設定された時系列モデルとの比較によって、時系列モデルで表現される評価が有意であるか否かを判定するように構成されていてもよい。
【0025】
この場合、オブジェクトに特有な時系列パターンを時系列モデルによって評価できるため、同じオブジェクトであってもより詳細な特徴(属性,挙動など)の判定を可能とすることができる。
【0026】
また、請求項16に記載のように、判定手段が、2次元DCT係数に基づく評価値を、予め設定された判定閾値との比較によって、その評価値が有意であるか否かを判定するように構成されている場合、判定閾値を、その2次元DCT係数の生成に用いた比較フレームと現フレームとのフレーム間隔に応じて可変設定することが望ましい。
【0027】
即ち、画像中で物体(オブジェクト)が動くことにより生じる2次元DCT係数の変化は、フレーム間隔が広がるほど(即ち、時間間隔が大きくなるほど)大きくなり、これに応じてめ、2次元DCT係数のダイナミックレンジも広がるため、このような可変設定が必要となる。
【0028】
なお、MPEG方式での符号化を前提とする場合は、上述のフレーム間隔はピクチャタイプによって異なるため、このピクチャタイプに応じて判定閾値を可変設定すればよい。
【発明を実施するための最良の形態】
【0029】
以下に本発明の実施形態を図面と共に説明する。
[装置構成]
図1は、車両に搭載して使用され、取得した映像情報に基づいて映像内に撮像された各種オブジェクト(特に歩行者)を認識しドライバーに報知する車載装置1の構成を示すブロック図である。
【0030】
図1に示すように、車載装置1は、車載カメラにて撮像された動画像の画像データを取得する画像データ取得部11と、道路等を撮影する固定カメラにて撮像されMPEG(本実施形態ではMPEG−1)方式で符号化された動画像の符号化データを、道路周辺に配置された路側機を介した無線通信によって取得する符号化データ取得部12と、画像データ取得部11が取得した画像データをMPEG方式で符号化し、その符号化データ及び符号化時に生成される特徴データ(動きベクトル,二次元DCT係数,符号化データの復号に必要な符号化情報)を出力する符号化部13と、符号化データ取得部12が取得した符号化データを復号して画像データを再生し、その画像データと共に、復号時に得られる特徴データを出力する復号部14と、画像データ取得部11が取得した画像データ及び符号化部13から出力される特徴データ、又は復号部14から出力される復号された画像データ及び特徴データのうち、いずれか一方を選択して出力するセレクタ15と、セレクタ15にて選択された特徴データに基づいて、オブジェクトの認識等の処理を実行する画像認識処理部16と、セレクタ15にて選択された画像データに基づく動画像を表示すると共に、その動画像に、画像認識処理部16での処理結果を表す画像を重畳表示したり、処理結果を音声にて出力する等して、処理結果の報知を行う報知部17とを備えている。
[符号化部]
このうち、符号化部13は、符号化する画像をマクロブロック(16×16画素)毎に分割し、そのマクロブロックを中心とする規定された画像範囲内で、そのマクロブロックとの差分が最小となる前フレーム中の画像領域との空間的な相対位置関係を示す動きベクトルを抽出する。
【0031】
また、符号化部13は、抽出した動きベクトルと前フレームの画像とに基づいて予測画像(動き予測信号)を生成し、その予測画像と現フレームの画像との差分(予測残差信号)を、各マクロブロックについて6個ずつ設定される単位ブロック(8×8画素)毎に離散コサイン変換(DCT)することで2次元DCT係数を生成し、更に、その2次元DCT係数に対して量子化,ジグザグスキャン,可変長符号化を行う。
【0032】
なお、上述の6個の単位ブロックの内訳は、図2に示すように、マクロブロック全体の色差U,Vを表す二つの単位ブロックと、マクロブロックを4分割した各領域の輝度Y0〜Y3を表す四つの単位ブロックとからなる。
【0033】
即ち、符号化部13は、周知のMPEGエンコーダと同様の構成を有している。
但し、符号化部13は、通常のMPEGエンコーダとは異なり、符号化データやその復号時に必要となる符号化情報(ピクチャタイプ,マクロブロックの符号化モード等)以外にも、符号化の過程で生成される動きベクトル、二次元DCT係数を出力するように構成されている。
【0034】
また、符号化情報に含まれるピクチャタイプは、イントラフレーム(Iフレーム)、予測フレーム(Pフレーム),補間フレーム(Bフレーム)からなり、マクロブロックの符号化モードは、イントラブロック、非イントラブロックからなる。
【0035】
Iフレームは、画像をそのまま離散コサイン変換するイントラブロックのみからなり(画素値が0以上となる)、単一フレーム内の独立した演算で画像を再生できるように符号化されたものである。従って、符号化部13がIフレームを符号化した場合、符号化部13からは、動きベクトル,2次元DCT係数のうち、2次元DCT係数のみが出力される。
【0036】
Pフレームは、一つ前のI又はPフレームからの遷移で表され(前方向予測)、前フレームにて再生された画像を用いて再生できるように符号化されたものである。
Bフレームは、前後のI又はPフレームの平均値で表され(双方向予測)、前向きの動きベクトルと後向きの動きベクトルの2種類が随時選択可能であり、前後いずれかのフレームにて再生された画像を用いて再生できるように符号化されたものである。
【0037】
なお、P,Bフレームでは、基本的に非イントラブロックが用いられるが、フレーム間で大きな変化(例えば、オブジェクトの急激な動き)があり、非イントラブロック(動き補償予測を用いた符号化)とするよりもイントラブロック(画像をそのまま符号化)とした方が電力的に小さい場合は、イントラブロックが用いられる。
【0038】
そして、非イントラブロックの符号化時には、符号化部13から、動きベクトル及び2次元DCT係数がいずれも出力される場合の他、動きベクトル及び二次元DCT係数がいずれも出力されない場合(例えば、車両停止時に背景として映る建物などの剛体部分など、前フレームからの変化がない場合)、二次元DCT係数のみが出力される場合(例えば、動く物体の大きさがマクロブロックの大きさ以下の場合)、動きベクトルのみが出力される場合(例えば、色やテクスチャの変化が殆どない剛体が、変化のない背景中を移動する場合)がある。
[復号部]
復号部14は、取得したビットストリームを、符号化データと符号化情報とに分解し(パーザ)、符号化情報に従って符号化データを復号することによって、2次元DCT係数,動きベクトルを生成し、その生成された2次元DCT係数,動きベクトルに基づく逆DCT変換や動き補償を行ってマクロブロックを再生する。そして、処理対象のマクロブロックがイントラブロックであれば、その再生されたマクロブロックをそのまま画像データとして使用し、処理対象のマクロブロックが非イントラブロックであれば、その再生されたマクロブロックが表す差分情報を累積することで画像データを生成する。
【0039】
即ち、復号部14は、周知のMPEGデコーダと同様の構成をしている。
但し、復号部14は、通常のMPEGデコーダとは異なり、再生された画像データの他、復号の過程で生成される特徴データ(動きベクトル,2次元DCT係数,符号化情報)を出力するように構成されている。
[報知部]
報知部17は、セレクタ15にて選択された画像データに基づく動画像の表示や、画像認識処理部16からの指示に従って画像認識処理部16での認識処理の結果を視覚的に報知するための各種表示を行うモニタ、画像認識処理部16での認識処理の結果を音声にて報知するためスピーカ等を備えている。
【0040】
なお、モニタへの表示態様として、具体的には、例えば、認識したオブジェクトを強調する輪郭の表示やオブジェクトに該当するブロックの着色、オブジェクトの位置を指し示す矢印やオブジェクト名の表示等がある。
[画像認識処理部]
図3は、画像認識処理部16の構成を示すブロック図である。
【0041】
図3に示すように、画像認識処理部16は、マクロブロック毎に設定された確信度ベクトル(後述する)を記憶するベクトル記憶部30と、ベクトル記憶部30に記憶された確信度ベクトルに基づいて、画像中に存在するオブジェクトや画像に示された状況を判定するオブジェクト判定部40と、オブジェクト判定部40での判定結果に基づいて、マクロブロックの評価の仕方等を設定する評価内容設定部50と、セレクタ15から供給される特徴データ、及び評価内容設定部50での設定内容に従って、マクロブロック等を評価し、その評価結果に従ってベクトル記憶部30に格納された確信度ベクトルを更新するベクトル更新部20とを備えている。
【0042】
<確信度ベクトル>
ここで、確信度ベクトルKとは、画像から抽出されるべきオブジェクトの名称やオブジェクトの状況を示すために予め用意された語彙をO1〜OP、あるマクロブロックが語彙Oi (i=1,2,…P)に対応する部位であることの確信度をKiとして、(1)式によってマクロブロック毎に定義されるP次元ベクトルのことである。
【0043】
K=(K1,K2,…KP)T (1)
なお、図4は、語彙Oi、及び語彙Oiを分類するカテゴリーの具体例の一部を、表に示したものである。この表において、カテゴリー「移動物体」「擬人物体」「手荷物・牽引物」「地理情報・位置」に属する語彙が、オブジェクトの名称を表し、その他のカテゴリーに属する語彙が、オブジェクトの属性や状態などを表している。
【0044】
<オブジェクト判定部>
図3に戻り、オブジェクト判定部40は、確信度ベクトルKに基づいて、画像中に存在する特定オブジェクトについての状況を判定する際に用いる状況プロファイルを記憶するプロファイル記憶部41を備えている。
【0045】
なお、状況プロファイルとは、語彙Oi が表す内容の組み合わせによって表現される特定オブジェクトの代表的な(発生頻度の高い)状況を状況候補S1〜SQとして、図5に示すように、各状況候補Sj(j=1,2,…Q)を識別するための状況インデックスLjと画像中の状況が状況候補Sj に該当する場合に期待される確信度ベクトルKの典型値(K1(Lj),K2(Lj),…KP(Lj))とを対応づけたものである。
【0046】
ここで、特定オブジェクトが歩行者である場合に想定される状況候補の例を以下に示す。例示されているように、歩行者の状態だけでなく、歩行者の属性(老人,幼児など)も状況候補に含ませることが可能である。
「(歩行者が)荷物を背負って歩道を歩行」
「(歩行者が)左方から車道に飛び出し」
「(歩行者が)先行車の影から飛び出し」
「(歩行者である)老人が交差点をゆっくりと横断中」
「(歩行者である)幼児が車道内で立ちすくみ」
また、オブジェクト判定部40は、ベクトル記憶部30に記憶された確信度ベクトルKに基づいて、プロファイル記憶部41に記憶された状況プロファイルから、典型値が確信度ベクトルKに類似している1又は複数の状況インデックスLj(即ち、状況候補Sj)を選択して出力する状況インデックス付与部42と、ベクトル記憶部30に記憶された確信度ベクトルKに基づいて、画像中の領域をマクロブロック単位でオブジェクト(背景領域/動き領域)毎に分割すると共に、その分割された各領域にオブジェクトインデックス(オブジェクトの名称を表す語彙Oi )を付与するオブジェクトインデックス付与部43とを備えている。
【0047】
<評価内容設定部>
評価内容設定部50は、典型的な歩行者の行動パターンを規定する行動モデル、典型的な道路形状を規定する道路モデル、典型的な風景パターンを規定する風景モデル等を記憶するモデル記憶部53と、オブジェクト判定部40での判定結果、及びモデル記憶部53に記憶された行動モデル,道路モデル,風景モデル等に基づいて、ベクトル更新部20で使用する評価関数、評価関数を適用するマクロブロックの位置、評価関数等によって得られた評価値を評価する際に用いる判定閾値や時系列モデル等の設定を行う評価内容設定処理を実行する設定処理部51とを備えている。
【0048】
<<モデル記憶部>>
ここで、モデル記憶部53に記憶される行動モデルとは、特定オブジェクトに関するカテゴリーに属する特定オブジェクトの状態を示す語彙を、状態遷移図中の個々の状態として、特定オブジェクトの行動パターンを記述したものである。
【0049】
例えば、特定オブジェクトが単一の歩行者である場合、図4に示した、カテゴリーのうち、「歩行者の挙動」「歩行者の姿勢」「歩行者の性別・年齢」「歩行者の体型・服装」に属する語彙を、単一の歩行者の行動モデルを記述する状態遷移図の状態として用いることができる。
【0050】
図6は、単一の歩行者に関する行動モデルの一部を例示したものであり、この連鎖で行動が形成されるものとしている。例えば、現フレームでの判定では、歩行者が「歩く」の状態にある時は、次フレームでの判定では、「走る」「上下に跳ねる」「蛇行」「方向転換」「直立」「止まる」のいずれかの状態に遷移可能であることを表している。
【0051】
道路モデルは、主な被写体となる道路周辺の立体構造について仮定した箱形のモデルであり、例えば、直進路、カーブ路、十字交差点、上り坂、下り坂などがある。また、風景モデルは、処理対象となる画像中に頻繁に現れる静的な風景をパターン化したものであり、例えば、ビル街、田園地帯、山道、屋内駐車場などがある。
【0052】
なお、図4に示したカテゴリーのうち、道路モデルは「道路環境」に属する語彙によって選択され、風景モデルは「景観情報」に属する語彙によって選択される。また、道路モデル及び風景モデルの詳細については、例えば、特開2007−72987号公報に開示されているため、これ以上の説明は省略する。
【0053】
<<設定処理部>>
設定処理部51が実行する評価内容設定処理を、図7に示すフローチャートに沿って説明する。なお、本処理は、オブジェクト判定部40から判定結果が出力される毎、即ち、フレームが更新される毎に起動する。
【0054】
本処理が起動すると、図7に示すように、まずS110では、既知のオブジェクトについて評価関数や観測点(評価関数を適用するマクロブロック)を設定する既知オブジェクト用評価内容設定処理を実行する。
【0055】
具体的には、まず、オブジェクトインデックス付与部43によってオブジェクトインデックスが付与されたオブジェクト、又は確信度ベクトルKの中でオブジェクトの名称を表す語彙のうち、確信度が予め設定された閾値以上であるもの(語彙)に対応するオブジェクトを既知オブジェクトとして抽出する。
【0056】
次に、抽出した既知オブジェクトのそれぞれについて、その既知オブジェクトの名称に対して予め対応付けられている判定ルール(後述する)に従って、その判定ルールで使用する評価値を特定し、更に、その特定した評価値の算出に必要な評価関数を特定する。
【0057】
次に、特定した評価関数を適用すべき観測点(位置,大きさ,形状)を、既知オブジェクトの現在位置や、既知オブジェクトの名称から推定される移動可能範囲等に基づいて設定する。
【0058】
なお、既知オブジェクトが歩行者である場合には、状況インデックスから特定される歩行者の状況,オブジェクトインデックスに示されている歩行者の属性(年齢や服装など),モデル記憶部53に記憶されている行動モデル等に従って、判定ルールや観測点を絞るようにしてもよい。
【0059】
つまりS110では、既知のオブジェクトについて、より詳細な情報やより正確な情報を取得するために必要な観測点やそこで使用する評価関数を設定するものである。
S120では、未知オブジェクトを新たに抽出するために必要な評価関数や観測点を設定する未知オブジェクト用評価内容設定処理を実行する。
【0060】
具体的には、確信度ベクトルの中で「道路環境」「景観情報」カテゴリーに含まれる語彙の確信度に基づいて、現フレームの画像に示されたシーンに最も合致する道路モデル及び風景モデルを選択し、その道路モデル及び風景モデルの組合せに対して予め対応付けられている観測点及び判定ルールを特定し、更に、その判定ルールで使用する評価値、更にはその評価値の算出に必要な評価関数を特定する。
【0061】
つまり、S120では、S110とは異なり、その時々の状況に応じた要観測点やそこで使用する評価関数を設定するものであり、例えば、歩行者が存在する確率が高い位置(歩道,横断歩道など,図8参照)や、歩行者等の物体が急に出現する可能性の高い位置(車道と歩道の境界,建物や車両の死角,ドアや階段の出入口,画像周辺部など)がある。
【0062】
S130では、オブジェクト判定部40にて付与された状況インデックス(現在の画像中における歩行者の状況を説明する状況候補)Ljに基づき、その状況インデックスLjに対して予め対応づけられている観測点及び判定ルールを特定し、更に、その判定ルールに使用する評価値、更にはその評価値の算出に必要な評価関数を特定して、本処理を終了する。
【0063】
つまり、S130は、複数のオブジェクトの相互関係によって生じる要観測点やそこで使用する評価関数を設定するものである。
なお、ここでは、状況インデックスLjに応じた観測点や評価関数を新たに設定するように構成したが、状況インデックスLjを利用して、S110やS120で設定される観測点や評価関数に制限を加えるように構成してもよい。
【0064】
また、S110〜S130のいずれの場合も、観測点の大きさ,形状は、その観測点で検出される可能性の高いオブジェクトの大きさ、観測点までの距離などに応じてマクロブロック単位で設定する(図9参照)。
【0065】
<ベクトル更新部>
図3に戻り、ベクトル更新部20は、評価内容設定部50による設定内容に従い、動きベクトル,2次元DCT係数に基づいて各種評価値を算出する評価値算出部21と、評価値算出部21が評価値を算出する際に使用する評価関数を記憶する関数記憶部22と、動きベクトルから生成される評価値に基づいて動きの類似したマクロブロックが形成する連続した領域を動き領域として抽出すると共に、その抽出した動き領域に関する各種評価値を求める動き領域抽出部23と、評価値算出部22及び動き領域抽出部23にて算出された各種評価値や、その評価値の時系列パターンに基づき、評価内容設定部50にて指定された時系列モデルや判定ルールを用いて確信度ベクトルKを更新する更新処理部24と、更新処理部24が評価値の時系列パターンを評価する際に使用する時系列モデル(評価用の時系列パターン)を記憶するパターン記憶部25と、更新処理部24が確信度ベクトルKを更新する際に用いる様々な判定ルールを記憶するルール記憶部26とを備えている。
【0066】
<<評価値算出部>>
ここで評価値算出部21が算出する評価値には、図10に示すように、動きベクトルから直接算出される動き評価値と、2次元DCT係数から直接算出される基本評価値と、基本評価値の組合せ方を規定する評価関数を用いて算出される複合評価値とがある。
【0067】
このうち、動き評価値は、マクロブロック毎に算出されるマクロブロックの動きの大きさAMV及び動きの方向DMV、上下左右に隣接するマクロブロック対毎に算出される動きの大きさの類似度SAMV及び動きの方向の類似度SDMV、マクロブロック毎に算出されるカメラの動きにより生じるパニングベクトルとの類似度SAPA(動きの大きさ),SDPA(動きの方向)、道路に沿った方向との動きの向きの類似度SDRDからなる。
【0068】
そして、動き評価値AMV,DMV,SAMV,SDMVは、動きベクトルをv、そのX方向(画面の水平方向)成分をvx,Y方向(画面の上下方向)成分をvy、類似度を比較する二つの動きベクトルをv1,v2、両動きベクトルv1,v2がなす角度をθとして、(2)〜(5)式を用いて算出する。
【0069】
【数1】
また、動き評価値SAPA,SDPAは、(4)(5)式において、v1,v2の一方を動きベクトル,他方をパニングベクトルとして算出し、動き評価値SDRDは、(5)式において、v1,v2の一方を動きベクトル,他方を道路に沿った方向を示す方位ベクトルとして算出する。この時、パニングベクトル,方位ベクトルは別途実行される画像処理によって抽出してもよいし、車両の走行状況から推定してもよい。
【0070】
また、類似度を示す動き評価値SAMV,SDMV,SAPA,SDPAは、いずれも0〜1の間の値を取るように正規化されており、2つの動きの大きさ又は動きの方向が一致したときに1、差が大きくなるに連れて0に近づくようにされている。
【0071】
また、基本評価値は、基本ブロック毎に算出される交流パワー成分値LAC及び低周波パワー成分値LLFからなる。
これら基本評価値LAC,LLFは、一つのマクロブロックに属する6個の基本ブロックY0〜Y3,U,Vを、識別子lblk=0,1,2,…5で識別し(図2参照)、lblk番目の基本ブロックにおけるm行n列(m,n=0,1,…8)の2次元DCT係数をDCT(lblk,m,n)で表すものとして、(6)(7)式を用いて算出する。
【0072】
【数2】
但し、(m,n)∈Lは、2次元DCT係数の低周波成分(例えば、m,n=0〜3,)を表すものとする。
【0073】
つまり、基本評価値LAC(lblk),LLF(lblk)は、lblkで識別される基本ブロックについての交流成分又は低周波成分の総和を表したものである。
一方、複合評価値は、主として単一マクロブロック内での動きの特徴を検出するためのものや、単一マクロブロックの全体的な特徴を抽出するためのもの、複数のマクロブロックからなる観測点の特徴を抽出するためのもの等がある。
【0074】
これらの復号評価値の算出に使用する評価関数の例として、単一マクロブロックを観測点とする場合に適用可能な一群の評価関数を(8)〜(13)に示す。
【0075】
【数3】
(8)式は、マクロブロック中で左側に位置する二つの画素ブロックでの輝度成分の変化を検出するものであり、例えば、マクロブロックの左からの歩行者等の出現を検知する必要がある場合などに用いられる。
【0076】
(9)式は、マクロブロック中で右側に位置する二つの画素ブロックでの輝度成分の変化を検出するものであり、例えば、マクロブロックの右からの歩行者等の出現を検知する必要がある場合などに用いられる。
【0077】
(10)式は、マクロブロック中で下側に位置する二つの画素ブロックでの輝度成分の変化を検出するものであり、例えば、歩行者の足の状態(歩行中は水平方向のスペクトル成分が多く発生する)を検知する必要がある場合などに用いられる。
【0078】
(11)式は、マクロブロック中で上側に位置する二つの画素ブロックでの輝度成分の変化を検出するものであり、例えば、歩行者の上体から腕、頭部の状態(歩行中は垂直方向のスペクトル成分が多く発生する)を検知する必要がある場合などに用いられる。
【0079】
(12)式は、マクロブロック全体としての輝度成分の変化、(13)式は、マクロブロック全体としての色成分の変化を検出するものであり、例えば、テクスチャの状態を検知する必要がある場合などに用いられる。
【0080】
このうち(8)〜(10)式に示す評価関数は、マクロブロック内で生じる様々な変化を抽出するためにマクロブロック内に設けられるDCTスペクトルの交流パワー成分を観測するための観測窓であり、これらを総称してブロックエッジフィルタ(BEF)ともいう。
【0081】
即ち、オブジェクトの大きさがマクロブロック程度であり、オブジェクトの動きが動きベクトルに反映され難い場合でも、オブジェクトの動きに応じて2次元DCT係数は変化するため、その変化を抽出するためのものである。但し、マクロブロック内のオブジェクトが背景と類似したテクスチャを有している場合、2次元DCT係数の直流パワー成分が小さくなる場合があるため、BEFでは交流パワー成分のみを用いるように設定されている。
【0082】
また、ここでは基本評価値LAC(lblk)のみを使用する評価関数の例を示したが、(8)〜(13)式に示す評価関数においてLAC(lblk)の代わりにLLF(lblk)を用いて同様の複合評価値を求めるものや、両基本評価関数LAC(lblk),LLF(lblk)組み合わせて使用する評価関数等があってもよい。
【0083】
これらの他に、抽出すべきオブジェクトの特徴(種類,挙動,属性等)が、ある2次元DCT係数の特定成分に現れる場合に、その特定成分を抽出する評価関数や、複数マクロブロックからなる観測点内での特定の動きパターンの抽出に適した観測窓(基本ブロックの組み合わせ)となる評価関数等を設定してもよい。
【0084】
<<動き領域抽出部>>
動き領域抽出部23では、動き評価値SAMV,SDMVが、(14)式を満たすマクロブロック対を同一の物体(オブジェクト)を形成するものとして連結することによって動き領域を抽出する。なお(14)式において、THSA,THSDは閾値である。
【0085】
【数4】
また、動き領域抽出部23では、抽出した動き領域の領域サイズSAR,領域形状FARを、領域評価値として算出する。なお、領域サイズSARは、動き領域を構成するマクロブロック数で表し、領域形状FARは、所定形状に対して付与される形状インデックスで表すものとする。
【0086】
<<更新処理部>>
更新処理部24では、評価値算出部21で算出された動き評価値AMV,DMV,SAMV,SDMV,SAPA,SDPA,SDRD、基本評価値LAC(lblk),LLF(lblk)、複合評価値LAC_X,LLF_X(X=L,R,D,U,A,C)、動き領域抽出部23で算出された領域評価値SAR,FAR、処理対象のフレーム及びマクロブロックに関する符号化情報に基づき、評価内容設定部50によって指定された判定ルールを用いて、マクロブロック毎に用意された確信度ベクトルKを更新する。但し、一つの確信度ベクトルに含まれる確信度の総計は常に1となるように更新する。
【0087】
また、更新処理部24では、各評価値が、所定の判定閾値より大きいか否か、又は所定の許容範囲内であるか否かによって有意であるか否かを評価したり、評価値の時系列パターンと時系列モデルとの類似度が判定閾値より大きいか否か、又はどの時系列パターンと最も類似しているかによって評価を行う。
【0088】
また、これら以外に、各評価値の微分値(前回の算出値と差分)や積分値,過去複数回分の平均値等や、更にその時系列パターンを用いて評価を行ってもよい。
そして、例えば、これら評価値の時系列パターンを用いて歩行者の行動を抽出する場合、時系列モデルは、図4に示す「歩行者の挙動」「歩行者の姿勢」カテゴリーに属する語彙毎に用意され、更に、同じ語彙(歩行者の行動)について使用する時系列モデルであっても、「歩行者の性別・年齢」「歩行者の体型・服装」カテゴリーに属する語彙(即ち、歩行者の属性)毎に異なったものが用意されている。
【0089】
この時系列モデルは、停車(パニングベクトル=0)時に観測した対象物の評価値や大きさ,形状についての時系列パターンから統計的学習によって生成することが考えられる。即ち、停車時に非イントラブロックで抽出される2次元DCT係数は背景差分に相当し、背景によらず対象物の動きのみ検出されるためである。そして、走行時にはその走行状態に応じて、時系列モデルまたは時系列パターン(評価値)のいずれかを補正して使用する。
【0090】
また、更新処理部24では、非イントラブロックの2次元DCT係数に基づいて算出される各種評価値が有意(対応する語彙の確信度を高めるのが妥当)であるか否かの判定に用いる判定閾値を、処理中の画像のピクチャタイプ毎に大きさを変化させる。
【0091】
即ち、MPEGは、適宜設定されるフレーム構造(GOP:Group Of Pictures) を有しており、一般的には、IBBPBBPBBPBBPBBで構成される15フレームを一単位として繰り返す。また、非イントラブロックの2次元DCT係数に基づく評価値は、P,Bフレームでのみで使用される。
【0092】
ここで、1フレーム間隔の予測差分に対する判定閾値をTH1、Pフレームの予測に要するフレーム間隔をNP、Bフレームの予測または補間に要するフレーム間隔をNBとし、画素値の予測差分の大きさがフレーム数に比例するものと仮定すると、Pフレームで使用する判定閾値THPは(15)式、Bフレームで使用する判定閾値THBは(16)式で表され、α=NPおよびβ=NBとおける。
【0093】
THP=α×TH1 (15)
THB=β×TH1 (16)
また、(15)(16)式から両フレームの判定閾値THP,THBは、(17)式に示す関係を有する。
【0094】
THP=(α/β)×THB (17)
つまり、ある評価値について、Bフレームでの判定閾値THBを設定した場合には、Pフレームでの判定閾値THPはそのα/β倍に設定することになり、逆に、Pフレームでの判定閾値THPを先に設定した場合は、Bフレームでの判定閾値THBは、そのβ/α倍に設定することになる。
【0095】
具体的には、上述のフレーム構造の場合、DCT係数(ひいては予測差分)の大きさを表す電力値として絶対値和を用いる場合は、α=3、β=1.5、α/β=2となり、絶対値和の代わりに二乗和を用いる場合は、α=NP2、また、βはNB=1の場合とNB=2の場合の二乗和の平均になるので、α=9、β=2.5、α/β=3.6となる。但し、βは、Bフレームにて実施し得る3種類の動き補償差分の算出方法でのフレーム間隔を単純平均したものである。
【0096】
なお、α/βの最適値は上記の理論値とは異なる場合もあり、α/βをより適応的に設定するにはシーンクラスや背景オブジェクト,走行速度等によって場合分けし、場合分けしたそれぞれについて、統計的学習(多変量回帰分析、ニューラルネット、サポートベクターマシンなど)の手法を用いて定めればよい。また、α/βを求める代わりに判定閾値THP,THBそのものを統計的学習によって求めてもよい。
【0097】
<<判定ルール>>
次に、更新処理部24が、P,Bフレームの特徴データを処理する際に適用する判定ルールについて説明する。
【0098】
まず、マクロブロック単位で適用される基本的な判定ルールを、(A1)〜(A4)に例示する。以下では、処理対象となるマクロブロックを対象MBKとよぶ。
(A1)対象MBKがイントラブロックであれば、背景である確信度を減少させ、動く物体である確信度を増大させる。
【0099】
(A2)対象MBKの座標(m,n)が、道路モデル,風景モデルから推定される3次元的な位置関係から見て、注目するオブジェクトが存在することが不可能な位置であれば、そのオブジェクトの確信度を低下させる。
【0100】
(A3)対象MBKの動き評価値AMVが注目するオブジェクトの上限移動速度以上であれば、注目するオブジェクトの確信度を低下させる。
(A4)対象MBKの複合評価値LAC_Xが、判定閾値より小さければ背景である確信度を増大させ、判定閾値以上であれば動く物体である確信度を増大させる。
【0101】
(A5)対象MBKの動き評価値SAPA,SDPA(パニングベクトルとの類似度)が高ければ、背景である確信度を増大させ、低ければ動く物体である確信度を増大させる。
次に、動き領域抽出部23にて抽出された動き領域、及びマクロブロック単位での判定の結果、動く物体である可能性が高いと判定されたマクロブロック(単一マクロブロックからなる動き領域)を対象として、これら動き領域に適用される基本的なルールを、(B1)〜(B4)に例示する。
【0102】
(B1)動き領域の領域サイズSARが、注目するオブジェクトの許容範囲内にあれば、その注目するオブジェクトの確信度を増大させる。
(B2)動き領域の領域形状FARが、特定の形状モデルと類似していれば、その形状モデルに対応するオブジェクトの確信度を増大させる。
【0103】
(B3)動き領域に関する各種評価値の時系列パターンが、特定の時系列モデルと類似していれば、その時系列モデルに対応するオブジェクトの確信度を増大させる。但し、動き領域に関する各種評価値には、動き領域に対して特定の位置関係で隣接するマクロブロックの複合評価値等も含まれる。
【0104】
以下では、より具体化した判定ルールについて例示する。
(a)車両に適用する判定ルール
・動きベクトルと道路に沿った向きとの類似度SDRDが高い。
【0105】
・動きの大きさAMV,方向DMVが連続的に変化する。
・動き領域の形状FARの時間変化が小さい。
・動き領域内の交流パワー成分LAC(lblk),LAC_Xや、その時間変化が小さい。
(b1)歩行者に適用する判定ルール(主に領域サイズSAR=1の場合)
・動き領域内の交流パワー成分LAC(lblk),LAC_Xや、その時間変化が大きい。
【0106】
・動き領域内の基本評価値又は複合評価値の時系列パターンが(ある属性を有する/ある挙動を示す)歩行者に特有な時系列モデルに類似している。
(b2)歩行者に適用する判定ルール(主に領域サイズSAR>1の場合)
・動きの大きさAMVが歩行者用上限閾値より小さい。
【0107】
・領域評価値FAR,SAR又はその時系列パターンが(ある属性を有する/ある挙動を示す)歩行者に特有な時系列モデルに類似している。
(c1)歩行者の要注意行動検出用の判定ルール(主に領域サイズSAR=1の場合)
・動き領域内の交流パワー成分LAC(lblk),LAC_X又はその時間変化が、異常に大きい又は歩行時の時系列モデルと大きく異なる。
(c2)歩行者の要注意行動検出用の判定ルール(主に領域サイズSAR>1の場合)
・動きの大きさAMV,方向DMVが非連続的に変化する。
【0108】
・動き領域の形状FARの時間変化が歩行時の時系列モデルと大きく異なる。
なお、要注意行動は、異常行動につながる不自然な動きのことであり、例えば、通常の歩行者とは明らかに異なる大きな動きや急激な方向転換等のことである。
【0109】
更に、異なった評価値の判断を組み合わせたより複雑な判定ルールを設定してもよい。
例えば、「(車道エリア内での)歩行者の立ち止まり」を検出するのであれば、歩行者が立ち止まると、交流パワー成分の発生量が急激に低下することから、交流パワー成分LAC_Aの微分値をDとして、次の(18)式を判定ルールとして用いることができる。
【0110】
【数5】
また、「車両走行時に車道に対して横断する方向に移動する歩行者」であれば、同一オブジェクトに対応したマクロブロックの低周波パワー成分の特徴(色や濃淡)はフレーム間で連続すること、車両走行時であれば歩行者に対応するマクロブロックの動きベクトルvMBK とパニングベクトルvF との類似度が低いことから、Wvを荷重係数、Nを低周波パワー成分LLFの算出に用いた係数DCT(lblk,m,n)の数として、次の(19)式を判定ルールとして用いることができる。
【0111】
【数6】
更に、更新処理部24では、図11に示すように、車載カメラの視野内に反射オブジェクト(自車両や先行車両のボディ,カーブミラー,ビルの壁面など)が存在し、その反射オブジェクトにオブジェクトの虚像が写り込んでいる場合は、これも確信度ベクトルの更新に利用する。
【0112】
具体的には、虚像に対する実像が検出されている場合は、実像に対応するマクロブロックにおいて、その実像が存在することの確信度を増大させる。
また、虚像のみが検出されている場合は、実像が何等かの障害物(フロントガラスに落ちた木の葉や泥、ガラスの汚れや曇りを含む)の死角に存在するものとして処理する。
【0113】
逆に、虚像の写り込みが生じる位置に実像が検出されているにも関わらず虚像が検出されていない場合は、検出された実像はノイズである可能性が高いものとして、その実像が存在することの確信度を低下させる。
【0114】
ここで、図12(a)は、実際の画像を例にして、動きベクトルと2次元DCT係数の発生状況を示した説明図であり、画像上に示された点及び矢印が、マクロブロック毎に求められた動きベクトルであり、画像に重ねて示した黒い背景の三次元グラフは、画像に映る車両のボディの部分に位置するマクロブロックを観測点として、この観測点における2次元DCT係数の発生状況を、基本ブロック毎に示したものである。
【0115】
図12(a)からは、車両が示された領域に動きベクトルは発生するが、単調なテクスチャを有するボディの部分には、DCT係数が殆ど発生しないことがわかる。なお、図12(b)は、同一車両上のマクロブロックでは、互いに類似した動きベクトルが発生することを模式的に示した説明図である。
【0116】
また、図13は、実際の画像を例にして、動きベクトルと、歩行者が通過する地点に位置するマクロブロックを観測点として、この観測点における2次元DCT係数の発生状況を示した説明図であり、(a)は歩行者が観測点に進入する直前の状況、(b)は歩行者が観測点に進入した時の状況、(c)は歩行者が観測点を通過している時の状況、(d)は観測点を通り抜ける直前の状況を示す。
【0117】
図13からは、歩行者の存在によってDCT係数(特に交流成分)が発生すること、マクロブロック内における歩行者の位置によって、マクロブロックを構成する四つの基本ブロックでのDCT係数の発生状況が大きく変化する。つまり、マクロブロック程度の大きさのオブジェクトであっても、BEFを用いることによって、様々な状況を検出できることがわかる。
[効果]
以上説明したように、車載装置1では、画像データをMPEG方式の符号化データに符号化する際、又はMPEG方式で符号化された符号化データを画像データに復号する際に生成される動きベクトル、2次元DCT係数、符号化情報(ピクチャタイプ,ブロックタイプ)を使用して、画像の特徴を表す複数種類の評価値を作成し、その評価値と各種オブジェクトとの関係を規定した判定ルールに従い、マクロブロックを最小単位として画像認識を行っている。
【0118】
従って、車載装置1によれば、オブジェクト(例えば歩行者)がマクロブロック程度の大きさであり、動きベクトルが発生しにくい状況であっても、2次元DCT係数に基づいて生成された基本評価値LAC(lblk),LLF(lblk)や複合評価値LAC_X,LLF_Xから、オブジェクトの動きを検出することができ、このような動きのあるオブジェクトを動きベクトルによらず、精度良く検出することができる。
【0119】
しかも、MPEG方式等において既存の情報を用い、マクロブロックを最小単位として認識を行っているため、画素単位で処理を行う従来の手法と比較して処理量を大幅に削減することができる。
【0120】
更に、基本評価値LAC(lblk),LLF(lblk)や複合評価値LAC_X,LLF_Xは、オブジェクトの動きに応じたて様々に変化するため、これら評価値の時系列パターンを予め設定された時系列モデルと比較することにより、単にオブジェクトの有無だけでなく、オブジェクトの挙動や属性まで推定することができる。
【0121】
特に、車載装置1では、時系列モデルを用いて、歩行者の異常行動につながる不自然な動きを検出するようにされているため、歩行者が異常行動を起こす可能性を事前に知ることができ、走行時の安全性を向上させることができる。
【0122】
また、車載装置1では、オブジェクトを認識した結果に基づき、その時々の状況に応じて、評価すべき観測点やその観測点で使用する評価関数を適宜設定するようにされているため、効率良く認識処理を実行できると共に、認識の精度を向上させることができる。
【0123】
更に、車載装置1では、広く普及しているMPEG方式を利用しているため、コンピュータネットワーク上のサーバや個々のコンピュータに接続されたハードディスク等に蓄積されていたり、通信によって取得されたりする動画像の符号化データを、軽い処理で有効利用することができる。
[他の実施形態]
上記実施形態では、本発明を車載装置に適用した例を示したが、動き補償予測と離散コサイン変換とを用いて符号化された符号化データを扱う装置であれば、どのような装置に適用してもよい。例えば、Webやサーバ上のMPEG画像の自動認識、内容記述、知的検索や、ハイビジョンまでカバーするディジタル放送や記録媒体に含まれるコンテンツの自動認識、内容記述、フィルタリング、知的検索を行う装置に適用してもよい。
【0124】
また、携帯電話や監視カメラ、車載カメラ等で取得した映像の伝送と集積をベースに交通計測、予報、警報等を行う車載システムに適用してもよい。
上記実施形態では、符号化部13として、既存のMPEGエンコーダと同様の構成を有するものを用いているが、画像認識のみを行う装置であれば、符号化データを必ずしも生成する必要がないため、動きベクトル,2次元DCT係数,符号化情報を取り出すことさえできれば、他の部分を省略した専用プロセッサを用いてもよい。
【0125】
上記実施形態では、歩行者の挙動や属性を認識するための評価値を求めるためにBEFを用いているが、距離に関する事前情報がないままで画像にBEFを適用し、その成分の発生状況を観測することで、BEFを適用したマクロブロックに写っているのはどの程度の距離にいる歩行者であり、しかもその上半身なのか下半身なのかそれとも全身であるのか、あるいは頭部だけであるのかなどに関する確信度を算出するといった用途に用いてもよい。
【図面の簡単な説明】
【0126】
【図1】本発明を適用した車載装置の全体構成を示すブロック図。
【図2】マクロブロックを示す説明図。
【図3】画像認識処理部の詳細な構成を示すブロック図。
【図4】確信度ベクトルを構成する語彙を例示する説明図。
【図5】状況プロファイルの構成を示す説明図。
【図6】行動モデルの内容を例示した状態遷移図。
【図7】評価内容設定処理の内容を示すフローチャート。
【図8】風景モデル,道路モデルに基づく観測点の設定位置を例示する説明図。
【図9】距離に応じた観測点の大きさ,形状の設定内容を例示する説明図。
【図10】評価値の種類を示す一覧表。
【図11】写り込みを例示する説明図。
【図12】車両が映った部分に位置するマクロブロックで発生する動きベクトル、2次元DCT係数を例示する説明図。
【図13】歩行者が映った部分に位置するマクロブロックで発生する動きベクトル、2次元DCT係数を例示する説明図。
【符号の説明】
【0127】
1…車載装置 11…画像データ取得部 12…符号化データ取得部 13…符号化部 14…復号部 15…セレクタ 16…画像認識処理部 17…報知部 20…ベクトル更新部 21…評価値算出部 22…関数記憶部 23…動き領域抽出部 24…更新処理部 25…パターン記憶部 26…ルール記憶部 30…ベクトル記憶部 40…オブジェクト判定部 41…プロファイル記憶部 42…状況インデックス付与部 43…オブジェクトインデックス付与部 50…評価内容設部 51…設定処理部 53…モデル記憶部
【技術分野】
【0001】
本発明は、動き補償予測と離散コサイン変換とを用いた画像の符号化時又はその復号時に生成される符号化情報を用いて物体の認識を行う画像認識装置に関する。
【背景技術】
【0002】
従来より、車載カメラ等で取得した動画像から歩行者等の動く物体を抽出する際には、動きの情報が重要視されてきた。
具体的な手法としては、画素ブロック(例えば、16×16画素)単位で動きベクトルを求める手法や、画素単位で高精度に動きを検出する手法(例えば、特許文献1,2参照。)等が知られている。
【特許文献1】特開平7−302328号公報
【特許文献2】特開2003−288600号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、画素ブロック単位で動き情報を算出する手法では、歩行者の大きさが画素ブロックと同程度以下となる比較的離れた位置を歩行する歩行者の動きを抽出する場合、通常の歩行速度では、画面上での動きが小さいため、動きベクトルが殆ど発生せず、これを抽出することが困難であるという問題があった。
【0004】
一方、画素単位で動き情報を算出する手法では、静止物体であっても、カメラの動きや輝度むら等に基づく擬似的な動きが多く検出され、これらが、歩行者の動きに基づく情報であるか、単なる雑音であるかを判別することが困難であるという問題や、検出に膨大な演算量を要するという問題があった。更には、画素単位の処理であるため、広く普及しているMPEG等の画素ブロック単位で処理を実行するMPEG等の処理との整合性に欠けるという問題もあった。
【0005】
本発明は、上記問題点を解決するために、画素ブロック程度の大きさで検出される動く物体を高い精度で認識する画像認識装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するためになされた本発明の画像認識装置では、評価値算出手段が、動き補償予測と離散コサイン変換とを用いた画像の符号化時又はその復号時に生成される符号化情報に基づき、特に、離散コサイン変換に基づく2次元DCT係数を少なくとも用いて複数種類の評価値を算出する。
【0007】
即ち、符号化情報に基づく再生画像を見てオブジェクトの認識が可能であれば、その符号化情報にオブジェクトの認識に必要な特徴量が含まれているということであるため、符号化情報に基づいて算出される評価値は、その特徴量が反映されたものとなる。
【0008】
そして、判定手段が、入力画像から抽出すべきものとして予め設定された複数のオブジェクトと評価値算出手段にて算出された評価値との関係を規定した判定ルールに従って、画素ブロック毎に、該画素ブロックがオブジェクトのいずれに対応するかを判定する。
【0009】
即ち、オブジェクトの大きさがマクロブロック程度であり、オブジェクトの動きが動きベクトルに現れない場合でも、2次元DCT係数はオブジェクトの動きに応じて変化するため、その変化を抽出することで動きのあるオブジェクトの検出が可能となる。
【0010】
このように構成された本発明の画像認識装置によれば、画素ブロック程度の大きさで出現する動く物体を高い精度で検出することができる。
しかも、本発明の画像認識装置によれば、評価値の生成に必要な情報は、画像データを符号化するか、又は符号化データを復号する際に抽出されるため、既存のエンコーダやデコーダに殆ど変更を加えることなく(具体的には、必要な情報を外部に出力する端子を設けるだけで)実現することができる。
【0011】
更に、本発明の画像認識装置によれば、コンピュータネットワーク上のサーバや個々のコンピュータに接続されたハードディスク等に蓄積されていたり、通信によって取得されたりする動画像の符号化データを用いた画像認識を、極めて軽い処理で実現することができる。
【0012】
ところで、評価値算出手段は、請求項2に記載のように、評価値の一つとして、符号化の単位となる画素ブロック毎に、2次元DCT係数に基づく基本評価値を求める第1評価値算出手段を備えていることが望ましい。
【0013】
但し、マクロブロック内のオブジェクトが背景と類似したテクスチャを有している場合は、2次元DCT係数の直流パワー成分が小さくなる場合がある。
そこで、第1評価値算出手段は、請求項3に記載のように、基本評価値の一つとして、2次元DCT係数の交流パワー成分の合計値を求めるように構成されていることが望ましい。この場合、オブジェクトの動きが、背景によらず、的確に反映された基本評価値を得ることができる。
【0014】
一方、2次元DCT係数の低周波成分の特徴(色や濃淡)はフレーム間で連続し、また、画面全体が大きく変化するパニング時には、画面全体に渡って、低周波成分の特徴が類似する。このような特徴もオブジェクトの判定に使用できることが望ましい。
【0015】
そこで、第1評価値算出手段は、請求項4に記載のように、基本評価値の一つとして、2次元DCT係数の低周波パワー成分の合計値を求めるように構成されていてもよい。
また、評価値算出手段は、請求項5に記載のように、指定された対象領域毎に、第1評価値算出手段にて算出された基本評価値の組合せ方を規定する評価関数を用いて複合評価値を算出する第2評価値算出手段を備えていてもよい。
【0016】
なお、対象領域としては、例えば、MPEGにおけるマクロブロックを用いてもよいし、そのマクロブロックを複数連結したものを用いてもよい。また、評価関数としては、対象領域を全体的に評価するものであってもよいし、特徴が現れる箇所を部分的に評価するものであってもよい。
【0017】
このように構成された本発明の画像認識装置によれば、対象領域中でのオブジェクトの動きの特徴を、より詳細かつ的確に反映した評価値を得ることができる。
この場合、請求項6に記載のように、判定手段での判定結果に基づいて、対象領域及び該対象領域に適用する評価関数、判定ルールを設定する評価内容設定手段を備えていてもよい。
【0018】
この評価内容設定手段は、具体的には、請求項7に記載のように、入力画像に示されたシーンを規定する道路構造モデルや風景モデルに基づき、指定された特定種類のオブジェクトが出現する可能性の高い領域に対象領域を設定することや、請求項8に記載のように、判定結果に示された特定種類のオブジェクトの位置や挙動に基づいて対象領域を設定すると共に、該オブジェクトについて想定される特定状況の検出に適した評価関数を設定することが考えられる。
【0019】
特に後者の場合、請求項9に記載のように、特定種類のオブジェクトを歩行者とし、特定状況を歩行者の異常行動又はその予兆として、対象領域や評価関数を設定すれば、車載用の画像認識装置として好適に用いることができる。
【0020】
ところで、評価値算出手段は、請求項10に記載のように、評価値の一つとして、動き補償予測にて求められる動きベクトルに基づく動き評価値を求める第3評価値算出手段を備えていてもよい。
【0021】
このような動き評価値を用いることにより、例えば、車両や近距離に位置する歩行者など、大きな動きベクトルを発生させるオブジェクトを的確に検出することが可能となる。
この第3評価値算出手段では、動き評価値として、具体的には、請求項11に記載のように、動きベクトルの大きさや、請求項12に記載のように、動きベクトルとカメラモーションによって生じるパニングベクトルとの類似度や、請求項13に記載のように、隣接する画素ブロック間の動きベクトルの類似度を求めることが考えられる。
【0022】
また、評価値算出手段は、請求項14に記載のように、動き評価値として算出される動きベクトルの類似度が予め設定された閾値以上となる画素ブロック同士が形成する連続した領域からなる動き領域を設定し、評価値の一つとして、動き領域毎に、該動き領域の大きさや領域形状を示す領域評価値を求める第4評価値算出手段を備えていてもよい。
【0023】
この領域評価値には、一つのオブジェクトを構成することが推定される動き領域全体としての特徴が反映されるため、この領域評価値を他の評価値と組み合わせて用いることによって、より精度の高い判定を可能とすることができる。
【0024】
ところで、判定手段は、請求項15に記載のように、評価値算出手段にて算出された評価値の時系列パターンと、予め設定された時系列モデルとの比較によって、時系列モデルで表現される評価が有意であるか否かを判定するように構成されていてもよい。
【0025】
この場合、オブジェクトに特有な時系列パターンを時系列モデルによって評価できるため、同じオブジェクトであってもより詳細な特徴(属性,挙動など)の判定を可能とすることができる。
【0026】
また、請求項16に記載のように、判定手段が、2次元DCT係数に基づく評価値を、予め設定された判定閾値との比較によって、その評価値が有意であるか否かを判定するように構成されている場合、判定閾値を、その2次元DCT係数の生成に用いた比較フレームと現フレームとのフレーム間隔に応じて可変設定することが望ましい。
【0027】
即ち、画像中で物体(オブジェクト)が動くことにより生じる2次元DCT係数の変化は、フレーム間隔が広がるほど(即ち、時間間隔が大きくなるほど)大きくなり、これに応じてめ、2次元DCT係数のダイナミックレンジも広がるため、このような可変設定が必要となる。
【0028】
なお、MPEG方式での符号化を前提とする場合は、上述のフレーム間隔はピクチャタイプによって異なるため、このピクチャタイプに応じて判定閾値を可変設定すればよい。
【発明を実施するための最良の形態】
【0029】
以下に本発明の実施形態を図面と共に説明する。
[装置構成]
図1は、車両に搭載して使用され、取得した映像情報に基づいて映像内に撮像された各種オブジェクト(特に歩行者)を認識しドライバーに報知する車載装置1の構成を示すブロック図である。
【0030】
図1に示すように、車載装置1は、車載カメラにて撮像された動画像の画像データを取得する画像データ取得部11と、道路等を撮影する固定カメラにて撮像されMPEG(本実施形態ではMPEG−1)方式で符号化された動画像の符号化データを、道路周辺に配置された路側機を介した無線通信によって取得する符号化データ取得部12と、画像データ取得部11が取得した画像データをMPEG方式で符号化し、その符号化データ及び符号化時に生成される特徴データ(動きベクトル,二次元DCT係数,符号化データの復号に必要な符号化情報)を出力する符号化部13と、符号化データ取得部12が取得した符号化データを復号して画像データを再生し、その画像データと共に、復号時に得られる特徴データを出力する復号部14と、画像データ取得部11が取得した画像データ及び符号化部13から出力される特徴データ、又は復号部14から出力される復号された画像データ及び特徴データのうち、いずれか一方を選択して出力するセレクタ15と、セレクタ15にて選択された特徴データに基づいて、オブジェクトの認識等の処理を実行する画像認識処理部16と、セレクタ15にて選択された画像データに基づく動画像を表示すると共に、その動画像に、画像認識処理部16での処理結果を表す画像を重畳表示したり、処理結果を音声にて出力する等して、処理結果の報知を行う報知部17とを備えている。
[符号化部]
このうち、符号化部13は、符号化する画像をマクロブロック(16×16画素)毎に分割し、そのマクロブロックを中心とする規定された画像範囲内で、そのマクロブロックとの差分が最小となる前フレーム中の画像領域との空間的な相対位置関係を示す動きベクトルを抽出する。
【0031】
また、符号化部13は、抽出した動きベクトルと前フレームの画像とに基づいて予測画像(動き予測信号)を生成し、その予測画像と現フレームの画像との差分(予測残差信号)を、各マクロブロックについて6個ずつ設定される単位ブロック(8×8画素)毎に離散コサイン変換(DCT)することで2次元DCT係数を生成し、更に、その2次元DCT係数に対して量子化,ジグザグスキャン,可変長符号化を行う。
【0032】
なお、上述の6個の単位ブロックの内訳は、図2に示すように、マクロブロック全体の色差U,Vを表す二つの単位ブロックと、マクロブロックを4分割した各領域の輝度Y0〜Y3を表す四つの単位ブロックとからなる。
【0033】
即ち、符号化部13は、周知のMPEGエンコーダと同様の構成を有している。
但し、符号化部13は、通常のMPEGエンコーダとは異なり、符号化データやその復号時に必要となる符号化情報(ピクチャタイプ,マクロブロックの符号化モード等)以外にも、符号化の過程で生成される動きベクトル、二次元DCT係数を出力するように構成されている。
【0034】
また、符号化情報に含まれるピクチャタイプは、イントラフレーム(Iフレーム)、予測フレーム(Pフレーム),補間フレーム(Bフレーム)からなり、マクロブロックの符号化モードは、イントラブロック、非イントラブロックからなる。
【0035】
Iフレームは、画像をそのまま離散コサイン変換するイントラブロックのみからなり(画素値が0以上となる)、単一フレーム内の独立した演算で画像を再生できるように符号化されたものである。従って、符号化部13がIフレームを符号化した場合、符号化部13からは、動きベクトル,2次元DCT係数のうち、2次元DCT係数のみが出力される。
【0036】
Pフレームは、一つ前のI又はPフレームからの遷移で表され(前方向予測)、前フレームにて再生された画像を用いて再生できるように符号化されたものである。
Bフレームは、前後のI又はPフレームの平均値で表され(双方向予測)、前向きの動きベクトルと後向きの動きベクトルの2種類が随時選択可能であり、前後いずれかのフレームにて再生された画像を用いて再生できるように符号化されたものである。
【0037】
なお、P,Bフレームでは、基本的に非イントラブロックが用いられるが、フレーム間で大きな変化(例えば、オブジェクトの急激な動き)があり、非イントラブロック(動き補償予測を用いた符号化)とするよりもイントラブロック(画像をそのまま符号化)とした方が電力的に小さい場合は、イントラブロックが用いられる。
【0038】
そして、非イントラブロックの符号化時には、符号化部13から、動きベクトル及び2次元DCT係数がいずれも出力される場合の他、動きベクトル及び二次元DCT係数がいずれも出力されない場合(例えば、車両停止時に背景として映る建物などの剛体部分など、前フレームからの変化がない場合)、二次元DCT係数のみが出力される場合(例えば、動く物体の大きさがマクロブロックの大きさ以下の場合)、動きベクトルのみが出力される場合(例えば、色やテクスチャの変化が殆どない剛体が、変化のない背景中を移動する場合)がある。
[復号部]
復号部14は、取得したビットストリームを、符号化データと符号化情報とに分解し(パーザ)、符号化情報に従って符号化データを復号することによって、2次元DCT係数,動きベクトルを生成し、その生成された2次元DCT係数,動きベクトルに基づく逆DCT変換や動き補償を行ってマクロブロックを再生する。そして、処理対象のマクロブロックがイントラブロックであれば、その再生されたマクロブロックをそのまま画像データとして使用し、処理対象のマクロブロックが非イントラブロックであれば、その再生されたマクロブロックが表す差分情報を累積することで画像データを生成する。
【0039】
即ち、復号部14は、周知のMPEGデコーダと同様の構成をしている。
但し、復号部14は、通常のMPEGデコーダとは異なり、再生された画像データの他、復号の過程で生成される特徴データ(動きベクトル,2次元DCT係数,符号化情報)を出力するように構成されている。
[報知部]
報知部17は、セレクタ15にて選択された画像データに基づく動画像の表示や、画像認識処理部16からの指示に従って画像認識処理部16での認識処理の結果を視覚的に報知するための各種表示を行うモニタ、画像認識処理部16での認識処理の結果を音声にて報知するためスピーカ等を備えている。
【0040】
なお、モニタへの表示態様として、具体的には、例えば、認識したオブジェクトを強調する輪郭の表示やオブジェクトに該当するブロックの着色、オブジェクトの位置を指し示す矢印やオブジェクト名の表示等がある。
[画像認識処理部]
図3は、画像認識処理部16の構成を示すブロック図である。
【0041】
図3に示すように、画像認識処理部16は、マクロブロック毎に設定された確信度ベクトル(後述する)を記憶するベクトル記憶部30と、ベクトル記憶部30に記憶された確信度ベクトルに基づいて、画像中に存在するオブジェクトや画像に示された状況を判定するオブジェクト判定部40と、オブジェクト判定部40での判定結果に基づいて、マクロブロックの評価の仕方等を設定する評価内容設定部50と、セレクタ15から供給される特徴データ、及び評価内容設定部50での設定内容に従って、マクロブロック等を評価し、その評価結果に従ってベクトル記憶部30に格納された確信度ベクトルを更新するベクトル更新部20とを備えている。
【0042】
<確信度ベクトル>
ここで、確信度ベクトルKとは、画像から抽出されるべきオブジェクトの名称やオブジェクトの状況を示すために予め用意された語彙をO1〜OP、あるマクロブロックが語彙Oi (i=1,2,…P)に対応する部位であることの確信度をKiとして、(1)式によってマクロブロック毎に定義されるP次元ベクトルのことである。
【0043】
K=(K1,K2,…KP)T (1)
なお、図4は、語彙Oi、及び語彙Oiを分類するカテゴリーの具体例の一部を、表に示したものである。この表において、カテゴリー「移動物体」「擬人物体」「手荷物・牽引物」「地理情報・位置」に属する語彙が、オブジェクトの名称を表し、その他のカテゴリーに属する語彙が、オブジェクトの属性や状態などを表している。
【0044】
<オブジェクト判定部>
図3に戻り、オブジェクト判定部40は、確信度ベクトルKに基づいて、画像中に存在する特定オブジェクトについての状況を判定する際に用いる状況プロファイルを記憶するプロファイル記憶部41を備えている。
【0045】
なお、状況プロファイルとは、語彙Oi が表す内容の組み合わせによって表現される特定オブジェクトの代表的な(発生頻度の高い)状況を状況候補S1〜SQとして、図5に示すように、各状況候補Sj(j=1,2,…Q)を識別するための状況インデックスLjと画像中の状況が状況候補Sj に該当する場合に期待される確信度ベクトルKの典型値(K1(Lj),K2(Lj),…KP(Lj))とを対応づけたものである。
【0046】
ここで、特定オブジェクトが歩行者である場合に想定される状況候補の例を以下に示す。例示されているように、歩行者の状態だけでなく、歩行者の属性(老人,幼児など)も状況候補に含ませることが可能である。
「(歩行者が)荷物を背負って歩道を歩行」
「(歩行者が)左方から車道に飛び出し」
「(歩行者が)先行車の影から飛び出し」
「(歩行者である)老人が交差点をゆっくりと横断中」
「(歩行者である)幼児が車道内で立ちすくみ」
また、オブジェクト判定部40は、ベクトル記憶部30に記憶された確信度ベクトルKに基づいて、プロファイル記憶部41に記憶された状況プロファイルから、典型値が確信度ベクトルKに類似している1又は複数の状況インデックスLj(即ち、状況候補Sj)を選択して出力する状況インデックス付与部42と、ベクトル記憶部30に記憶された確信度ベクトルKに基づいて、画像中の領域をマクロブロック単位でオブジェクト(背景領域/動き領域)毎に分割すると共に、その分割された各領域にオブジェクトインデックス(オブジェクトの名称を表す語彙Oi )を付与するオブジェクトインデックス付与部43とを備えている。
【0047】
<評価内容設定部>
評価内容設定部50は、典型的な歩行者の行動パターンを規定する行動モデル、典型的な道路形状を規定する道路モデル、典型的な風景パターンを規定する風景モデル等を記憶するモデル記憶部53と、オブジェクト判定部40での判定結果、及びモデル記憶部53に記憶された行動モデル,道路モデル,風景モデル等に基づいて、ベクトル更新部20で使用する評価関数、評価関数を適用するマクロブロックの位置、評価関数等によって得られた評価値を評価する際に用いる判定閾値や時系列モデル等の設定を行う評価内容設定処理を実行する設定処理部51とを備えている。
【0048】
<<モデル記憶部>>
ここで、モデル記憶部53に記憶される行動モデルとは、特定オブジェクトに関するカテゴリーに属する特定オブジェクトの状態を示す語彙を、状態遷移図中の個々の状態として、特定オブジェクトの行動パターンを記述したものである。
【0049】
例えば、特定オブジェクトが単一の歩行者である場合、図4に示した、カテゴリーのうち、「歩行者の挙動」「歩行者の姿勢」「歩行者の性別・年齢」「歩行者の体型・服装」に属する語彙を、単一の歩行者の行動モデルを記述する状態遷移図の状態として用いることができる。
【0050】
図6は、単一の歩行者に関する行動モデルの一部を例示したものであり、この連鎖で行動が形成されるものとしている。例えば、現フレームでの判定では、歩行者が「歩く」の状態にある時は、次フレームでの判定では、「走る」「上下に跳ねる」「蛇行」「方向転換」「直立」「止まる」のいずれかの状態に遷移可能であることを表している。
【0051】
道路モデルは、主な被写体となる道路周辺の立体構造について仮定した箱形のモデルであり、例えば、直進路、カーブ路、十字交差点、上り坂、下り坂などがある。また、風景モデルは、処理対象となる画像中に頻繁に現れる静的な風景をパターン化したものであり、例えば、ビル街、田園地帯、山道、屋内駐車場などがある。
【0052】
なお、図4に示したカテゴリーのうち、道路モデルは「道路環境」に属する語彙によって選択され、風景モデルは「景観情報」に属する語彙によって選択される。また、道路モデル及び風景モデルの詳細については、例えば、特開2007−72987号公報に開示されているため、これ以上の説明は省略する。
【0053】
<<設定処理部>>
設定処理部51が実行する評価内容設定処理を、図7に示すフローチャートに沿って説明する。なお、本処理は、オブジェクト判定部40から判定結果が出力される毎、即ち、フレームが更新される毎に起動する。
【0054】
本処理が起動すると、図7に示すように、まずS110では、既知のオブジェクトについて評価関数や観測点(評価関数を適用するマクロブロック)を設定する既知オブジェクト用評価内容設定処理を実行する。
【0055】
具体的には、まず、オブジェクトインデックス付与部43によってオブジェクトインデックスが付与されたオブジェクト、又は確信度ベクトルKの中でオブジェクトの名称を表す語彙のうち、確信度が予め設定された閾値以上であるもの(語彙)に対応するオブジェクトを既知オブジェクトとして抽出する。
【0056】
次に、抽出した既知オブジェクトのそれぞれについて、その既知オブジェクトの名称に対して予め対応付けられている判定ルール(後述する)に従って、その判定ルールで使用する評価値を特定し、更に、その特定した評価値の算出に必要な評価関数を特定する。
【0057】
次に、特定した評価関数を適用すべき観測点(位置,大きさ,形状)を、既知オブジェクトの現在位置や、既知オブジェクトの名称から推定される移動可能範囲等に基づいて設定する。
【0058】
なお、既知オブジェクトが歩行者である場合には、状況インデックスから特定される歩行者の状況,オブジェクトインデックスに示されている歩行者の属性(年齢や服装など),モデル記憶部53に記憶されている行動モデル等に従って、判定ルールや観測点を絞るようにしてもよい。
【0059】
つまりS110では、既知のオブジェクトについて、より詳細な情報やより正確な情報を取得するために必要な観測点やそこで使用する評価関数を設定するものである。
S120では、未知オブジェクトを新たに抽出するために必要な評価関数や観測点を設定する未知オブジェクト用評価内容設定処理を実行する。
【0060】
具体的には、確信度ベクトルの中で「道路環境」「景観情報」カテゴリーに含まれる語彙の確信度に基づいて、現フレームの画像に示されたシーンに最も合致する道路モデル及び風景モデルを選択し、その道路モデル及び風景モデルの組合せに対して予め対応付けられている観測点及び判定ルールを特定し、更に、その判定ルールで使用する評価値、更にはその評価値の算出に必要な評価関数を特定する。
【0061】
つまり、S120では、S110とは異なり、その時々の状況に応じた要観測点やそこで使用する評価関数を設定するものであり、例えば、歩行者が存在する確率が高い位置(歩道,横断歩道など,図8参照)や、歩行者等の物体が急に出現する可能性の高い位置(車道と歩道の境界,建物や車両の死角,ドアや階段の出入口,画像周辺部など)がある。
【0062】
S130では、オブジェクト判定部40にて付与された状況インデックス(現在の画像中における歩行者の状況を説明する状況候補)Ljに基づき、その状況インデックスLjに対して予め対応づけられている観測点及び判定ルールを特定し、更に、その判定ルールに使用する評価値、更にはその評価値の算出に必要な評価関数を特定して、本処理を終了する。
【0063】
つまり、S130は、複数のオブジェクトの相互関係によって生じる要観測点やそこで使用する評価関数を設定するものである。
なお、ここでは、状況インデックスLjに応じた観測点や評価関数を新たに設定するように構成したが、状況インデックスLjを利用して、S110やS120で設定される観測点や評価関数に制限を加えるように構成してもよい。
【0064】
また、S110〜S130のいずれの場合も、観測点の大きさ,形状は、その観測点で検出される可能性の高いオブジェクトの大きさ、観測点までの距離などに応じてマクロブロック単位で設定する(図9参照)。
【0065】
<ベクトル更新部>
図3に戻り、ベクトル更新部20は、評価内容設定部50による設定内容に従い、動きベクトル,2次元DCT係数に基づいて各種評価値を算出する評価値算出部21と、評価値算出部21が評価値を算出する際に使用する評価関数を記憶する関数記憶部22と、動きベクトルから生成される評価値に基づいて動きの類似したマクロブロックが形成する連続した領域を動き領域として抽出すると共に、その抽出した動き領域に関する各種評価値を求める動き領域抽出部23と、評価値算出部22及び動き領域抽出部23にて算出された各種評価値や、その評価値の時系列パターンに基づき、評価内容設定部50にて指定された時系列モデルや判定ルールを用いて確信度ベクトルKを更新する更新処理部24と、更新処理部24が評価値の時系列パターンを評価する際に使用する時系列モデル(評価用の時系列パターン)を記憶するパターン記憶部25と、更新処理部24が確信度ベクトルKを更新する際に用いる様々な判定ルールを記憶するルール記憶部26とを備えている。
【0066】
<<評価値算出部>>
ここで評価値算出部21が算出する評価値には、図10に示すように、動きベクトルから直接算出される動き評価値と、2次元DCT係数から直接算出される基本評価値と、基本評価値の組合せ方を規定する評価関数を用いて算出される複合評価値とがある。
【0067】
このうち、動き評価値は、マクロブロック毎に算出されるマクロブロックの動きの大きさAMV及び動きの方向DMV、上下左右に隣接するマクロブロック対毎に算出される動きの大きさの類似度SAMV及び動きの方向の類似度SDMV、マクロブロック毎に算出されるカメラの動きにより生じるパニングベクトルとの類似度SAPA(動きの大きさ),SDPA(動きの方向)、道路に沿った方向との動きの向きの類似度SDRDからなる。
【0068】
そして、動き評価値AMV,DMV,SAMV,SDMVは、動きベクトルをv、そのX方向(画面の水平方向)成分をvx,Y方向(画面の上下方向)成分をvy、類似度を比較する二つの動きベクトルをv1,v2、両動きベクトルv1,v2がなす角度をθとして、(2)〜(5)式を用いて算出する。
【0069】
【数1】
また、動き評価値SAPA,SDPAは、(4)(5)式において、v1,v2の一方を動きベクトル,他方をパニングベクトルとして算出し、動き評価値SDRDは、(5)式において、v1,v2の一方を動きベクトル,他方を道路に沿った方向を示す方位ベクトルとして算出する。この時、パニングベクトル,方位ベクトルは別途実行される画像処理によって抽出してもよいし、車両の走行状況から推定してもよい。
【0070】
また、類似度を示す動き評価値SAMV,SDMV,SAPA,SDPAは、いずれも0〜1の間の値を取るように正規化されており、2つの動きの大きさ又は動きの方向が一致したときに1、差が大きくなるに連れて0に近づくようにされている。
【0071】
また、基本評価値は、基本ブロック毎に算出される交流パワー成分値LAC及び低周波パワー成分値LLFからなる。
これら基本評価値LAC,LLFは、一つのマクロブロックに属する6個の基本ブロックY0〜Y3,U,Vを、識別子lblk=0,1,2,…5で識別し(図2参照)、lblk番目の基本ブロックにおけるm行n列(m,n=0,1,…8)の2次元DCT係数をDCT(lblk,m,n)で表すものとして、(6)(7)式を用いて算出する。
【0072】
【数2】
但し、(m,n)∈Lは、2次元DCT係数の低周波成分(例えば、m,n=0〜3,)を表すものとする。
【0073】
つまり、基本評価値LAC(lblk),LLF(lblk)は、lblkで識別される基本ブロックについての交流成分又は低周波成分の総和を表したものである。
一方、複合評価値は、主として単一マクロブロック内での動きの特徴を検出するためのものや、単一マクロブロックの全体的な特徴を抽出するためのもの、複数のマクロブロックからなる観測点の特徴を抽出するためのもの等がある。
【0074】
これらの復号評価値の算出に使用する評価関数の例として、単一マクロブロックを観測点とする場合に適用可能な一群の評価関数を(8)〜(13)に示す。
【0075】
【数3】
(8)式は、マクロブロック中で左側に位置する二つの画素ブロックでの輝度成分の変化を検出するものであり、例えば、マクロブロックの左からの歩行者等の出現を検知する必要がある場合などに用いられる。
【0076】
(9)式は、マクロブロック中で右側に位置する二つの画素ブロックでの輝度成分の変化を検出するものであり、例えば、マクロブロックの右からの歩行者等の出現を検知する必要がある場合などに用いられる。
【0077】
(10)式は、マクロブロック中で下側に位置する二つの画素ブロックでの輝度成分の変化を検出するものであり、例えば、歩行者の足の状態(歩行中は水平方向のスペクトル成分が多く発生する)を検知する必要がある場合などに用いられる。
【0078】
(11)式は、マクロブロック中で上側に位置する二つの画素ブロックでの輝度成分の変化を検出するものであり、例えば、歩行者の上体から腕、頭部の状態(歩行中は垂直方向のスペクトル成分が多く発生する)を検知する必要がある場合などに用いられる。
【0079】
(12)式は、マクロブロック全体としての輝度成分の変化、(13)式は、マクロブロック全体としての色成分の変化を検出するものであり、例えば、テクスチャの状態を検知する必要がある場合などに用いられる。
【0080】
このうち(8)〜(10)式に示す評価関数は、マクロブロック内で生じる様々な変化を抽出するためにマクロブロック内に設けられるDCTスペクトルの交流パワー成分を観測するための観測窓であり、これらを総称してブロックエッジフィルタ(BEF)ともいう。
【0081】
即ち、オブジェクトの大きさがマクロブロック程度であり、オブジェクトの動きが動きベクトルに反映され難い場合でも、オブジェクトの動きに応じて2次元DCT係数は変化するため、その変化を抽出するためのものである。但し、マクロブロック内のオブジェクトが背景と類似したテクスチャを有している場合、2次元DCT係数の直流パワー成分が小さくなる場合があるため、BEFでは交流パワー成分のみを用いるように設定されている。
【0082】
また、ここでは基本評価値LAC(lblk)のみを使用する評価関数の例を示したが、(8)〜(13)式に示す評価関数においてLAC(lblk)の代わりにLLF(lblk)を用いて同様の複合評価値を求めるものや、両基本評価関数LAC(lblk),LLF(lblk)組み合わせて使用する評価関数等があってもよい。
【0083】
これらの他に、抽出すべきオブジェクトの特徴(種類,挙動,属性等)が、ある2次元DCT係数の特定成分に現れる場合に、その特定成分を抽出する評価関数や、複数マクロブロックからなる観測点内での特定の動きパターンの抽出に適した観測窓(基本ブロックの組み合わせ)となる評価関数等を設定してもよい。
【0084】
<<動き領域抽出部>>
動き領域抽出部23では、動き評価値SAMV,SDMVが、(14)式を満たすマクロブロック対を同一の物体(オブジェクト)を形成するものとして連結することによって動き領域を抽出する。なお(14)式において、THSA,THSDは閾値である。
【0085】
【数4】
また、動き領域抽出部23では、抽出した動き領域の領域サイズSAR,領域形状FARを、領域評価値として算出する。なお、領域サイズSARは、動き領域を構成するマクロブロック数で表し、領域形状FARは、所定形状に対して付与される形状インデックスで表すものとする。
【0086】
<<更新処理部>>
更新処理部24では、評価値算出部21で算出された動き評価値AMV,DMV,SAMV,SDMV,SAPA,SDPA,SDRD、基本評価値LAC(lblk),LLF(lblk)、複合評価値LAC_X,LLF_X(X=L,R,D,U,A,C)、動き領域抽出部23で算出された領域評価値SAR,FAR、処理対象のフレーム及びマクロブロックに関する符号化情報に基づき、評価内容設定部50によって指定された判定ルールを用いて、マクロブロック毎に用意された確信度ベクトルKを更新する。但し、一つの確信度ベクトルに含まれる確信度の総計は常に1となるように更新する。
【0087】
また、更新処理部24では、各評価値が、所定の判定閾値より大きいか否か、又は所定の許容範囲内であるか否かによって有意であるか否かを評価したり、評価値の時系列パターンと時系列モデルとの類似度が判定閾値より大きいか否か、又はどの時系列パターンと最も類似しているかによって評価を行う。
【0088】
また、これら以外に、各評価値の微分値(前回の算出値と差分)や積分値,過去複数回分の平均値等や、更にその時系列パターンを用いて評価を行ってもよい。
そして、例えば、これら評価値の時系列パターンを用いて歩行者の行動を抽出する場合、時系列モデルは、図4に示す「歩行者の挙動」「歩行者の姿勢」カテゴリーに属する語彙毎に用意され、更に、同じ語彙(歩行者の行動)について使用する時系列モデルであっても、「歩行者の性別・年齢」「歩行者の体型・服装」カテゴリーに属する語彙(即ち、歩行者の属性)毎に異なったものが用意されている。
【0089】
この時系列モデルは、停車(パニングベクトル=0)時に観測した対象物の評価値や大きさ,形状についての時系列パターンから統計的学習によって生成することが考えられる。即ち、停車時に非イントラブロックで抽出される2次元DCT係数は背景差分に相当し、背景によらず対象物の動きのみ検出されるためである。そして、走行時にはその走行状態に応じて、時系列モデルまたは時系列パターン(評価値)のいずれかを補正して使用する。
【0090】
また、更新処理部24では、非イントラブロックの2次元DCT係数に基づいて算出される各種評価値が有意(対応する語彙の確信度を高めるのが妥当)であるか否かの判定に用いる判定閾値を、処理中の画像のピクチャタイプ毎に大きさを変化させる。
【0091】
即ち、MPEGは、適宜設定されるフレーム構造(GOP:Group Of Pictures) を有しており、一般的には、IBBPBBPBBPBBPBBで構成される15フレームを一単位として繰り返す。また、非イントラブロックの2次元DCT係数に基づく評価値は、P,Bフレームでのみで使用される。
【0092】
ここで、1フレーム間隔の予測差分に対する判定閾値をTH1、Pフレームの予測に要するフレーム間隔をNP、Bフレームの予測または補間に要するフレーム間隔をNBとし、画素値の予測差分の大きさがフレーム数に比例するものと仮定すると、Pフレームで使用する判定閾値THPは(15)式、Bフレームで使用する判定閾値THBは(16)式で表され、α=NPおよびβ=NBとおける。
【0093】
THP=α×TH1 (15)
THB=β×TH1 (16)
また、(15)(16)式から両フレームの判定閾値THP,THBは、(17)式に示す関係を有する。
【0094】
THP=(α/β)×THB (17)
つまり、ある評価値について、Bフレームでの判定閾値THBを設定した場合には、Pフレームでの判定閾値THPはそのα/β倍に設定することになり、逆に、Pフレームでの判定閾値THPを先に設定した場合は、Bフレームでの判定閾値THBは、そのβ/α倍に設定することになる。
【0095】
具体的には、上述のフレーム構造の場合、DCT係数(ひいては予測差分)の大きさを表す電力値として絶対値和を用いる場合は、α=3、β=1.5、α/β=2となり、絶対値和の代わりに二乗和を用いる場合は、α=NP2、また、βはNB=1の場合とNB=2の場合の二乗和の平均になるので、α=9、β=2.5、α/β=3.6となる。但し、βは、Bフレームにて実施し得る3種類の動き補償差分の算出方法でのフレーム間隔を単純平均したものである。
【0096】
なお、α/βの最適値は上記の理論値とは異なる場合もあり、α/βをより適応的に設定するにはシーンクラスや背景オブジェクト,走行速度等によって場合分けし、場合分けしたそれぞれについて、統計的学習(多変量回帰分析、ニューラルネット、サポートベクターマシンなど)の手法を用いて定めればよい。また、α/βを求める代わりに判定閾値THP,THBそのものを統計的学習によって求めてもよい。
【0097】
<<判定ルール>>
次に、更新処理部24が、P,Bフレームの特徴データを処理する際に適用する判定ルールについて説明する。
【0098】
まず、マクロブロック単位で適用される基本的な判定ルールを、(A1)〜(A4)に例示する。以下では、処理対象となるマクロブロックを対象MBKとよぶ。
(A1)対象MBKがイントラブロックであれば、背景である確信度を減少させ、動く物体である確信度を増大させる。
【0099】
(A2)対象MBKの座標(m,n)が、道路モデル,風景モデルから推定される3次元的な位置関係から見て、注目するオブジェクトが存在することが不可能な位置であれば、そのオブジェクトの確信度を低下させる。
【0100】
(A3)対象MBKの動き評価値AMVが注目するオブジェクトの上限移動速度以上であれば、注目するオブジェクトの確信度を低下させる。
(A4)対象MBKの複合評価値LAC_Xが、判定閾値より小さければ背景である確信度を増大させ、判定閾値以上であれば動く物体である確信度を増大させる。
【0101】
(A5)対象MBKの動き評価値SAPA,SDPA(パニングベクトルとの類似度)が高ければ、背景である確信度を増大させ、低ければ動く物体である確信度を増大させる。
次に、動き領域抽出部23にて抽出された動き領域、及びマクロブロック単位での判定の結果、動く物体である可能性が高いと判定されたマクロブロック(単一マクロブロックからなる動き領域)を対象として、これら動き領域に適用される基本的なルールを、(B1)〜(B4)に例示する。
【0102】
(B1)動き領域の領域サイズSARが、注目するオブジェクトの許容範囲内にあれば、その注目するオブジェクトの確信度を増大させる。
(B2)動き領域の領域形状FARが、特定の形状モデルと類似していれば、その形状モデルに対応するオブジェクトの確信度を増大させる。
【0103】
(B3)動き領域に関する各種評価値の時系列パターンが、特定の時系列モデルと類似していれば、その時系列モデルに対応するオブジェクトの確信度を増大させる。但し、動き領域に関する各種評価値には、動き領域に対して特定の位置関係で隣接するマクロブロックの複合評価値等も含まれる。
【0104】
以下では、より具体化した判定ルールについて例示する。
(a)車両に適用する判定ルール
・動きベクトルと道路に沿った向きとの類似度SDRDが高い。
【0105】
・動きの大きさAMV,方向DMVが連続的に変化する。
・動き領域の形状FARの時間変化が小さい。
・動き領域内の交流パワー成分LAC(lblk),LAC_Xや、その時間変化が小さい。
(b1)歩行者に適用する判定ルール(主に領域サイズSAR=1の場合)
・動き領域内の交流パワー成分LAC(lblk),LAC_Xや、その時間変化が大きい。
【0106】
・動き領域内の基本評価値又は複合評価値の時系列パターンが(ある属性を有する/ある挙動を示す)歩行者に特有な時系列モデルに類似している。
(b2)歩行者に適用する判定ルール(主に領域サイズSAR>1の場合)
・動きの大きさAMVが歩行者用上限閾値より小さい。
【0107】
・領域評価値FAR,SAR又はその時系列パターンが(ある属性を有する/ある挙動を示す)歩行者に特有な時系列モデルに類似している。
(c1)歩行者の要注意行動検出用の判定ルール(主に領域サイズSAR=1の場合)
・動き領域内の交流パワー成分LAC(lblk),LAC_X又はその時間変化が、異常に大きい又は歩行時の時系列モデルと大きく異なる。
(c2)歩行者の要注意行動検出用の判定ルール(主に領域サイズSAR>1の場合)
・動きの大きさAMV,方向DMVが非連続的に変化する。
【0108】
・動き領域の形状FARの時間変化が歩行時の時系列モデルと大きく異なる。
なお、要注意行動は、異常行動につながる不自然な動きのことであり、例えば、通常の歩行者とは明らかに異なる大きな動きや急激な方向転換等のことである。
【0109】
更に、異なった評価値の判断を組み合わせたより複雑な判定ルールを設定してもよい。
例えば、「(車道エリア内での)歩行者の立ち止まり」を検出するのであれば、歩行者が立ち止まると、交流パワー成分の発生量が急激に低下することから、交流パワー成分LAC_Aの微分値をDとして、次の(18)式を判定ルールとして用いることができる。
【0110】
【数5】
また、「車両走行時に車道に対して横断する方向に移動する歩行者」であれば、同一オブジェクトに対応したマクロブロックの低周波パワー成分の特徴(色や濃淡)はフレーム間で連続すること、車両走行時であれば歩行者に対応するマクロブロックの動きベクトルvMBK とパニングベクトルvF との類似度が低いことから、Wvを荷重係数、Nを低周波パワー成分LLFの算出に用いた係数DCT(lblk,m,n)の数として、次の(19)式を判定ルールとして用いることができる。
【0111】
【数6】
更に、更新処理部24では、図11に示すように、車載カメラの視野内に反射オブジェクト(自車両や先行車両のボディ,カーブミラー,ビルの壁面など)が存在し、その反射オブジェクトにオブジェクトの虚像が写り込んでいる場合は、これも確信度ベクトルの更新に利用する。
【0112】
具体的には、虚像に対する実像が検出されている場合は、実像に対応するマクロブロックにおいて、その実像が存在することの確信度を増大させる。
また、虚像のみが検出されている場合は、実像が何等かの障害物(フロントガラスに落ちた木の葉や泥、ガラスの汚れや曇りを含む)の死角に存在するものとして処理する。
【0113】
逆に、虚像の写り込みが生じる位置に実像が検出されているにも関わらず虚像が検出されていない場合は、検出された実像はノイズである可能性が高いものとして、その実像が存在することの確信度を低下させる。
【0114】
ここで、図12(a)は、実際の画像を例にして、動きベクトルと2次元DCT係数の発生状況を示した説明図であり、画像上に示された点及び矢印が、マクロブロック毎に求められた動きベクトルであり、画像に重ねて示した黒い背景の三次元グラフは、画像に映る車両のボディの部分に位置するマクロブロックを観測点として、この観測点における2次元DCT係数の発生状況を、基本ブロック毎に示したものである。
【0115】
図12(a)からは、車両が示された領域に動きベクトルは発生するが、単調なテクスチャを有するボディの部分には、DCT係数が殆ど発生しないことがわかる。なお、図12(b)は、同一車両上のマクロブロックでは、互いに類似した動きベクトルが発生することを模式的に示した説明図である。
【0116】
また、図13は、実際の画像を例にして、動きベクトルと、歩行者が通過する地点に位置するマクロブロックを観測点として、この観測点における2次元DCT係数の発生状況を示した説明図であり、(a)は歩行者が観測点に進入する直前の状況、(b)は歩行者が観測点に進入した時の状況、(c)は歩行者が観測点を通過している時の状況、(d)は観測点を通り抜ける直前の状況を示す。
【0117】
図13からは、歩行者の存在によってDCT係数(特に交流成分)が発生すること、マクロブロック内における歩行者の位置によって、マクロブロックを構成する四つの基本ブロックでのDCT係数の発生状況が大きく変化する。つまり、マクロブロック程度の大きさのオブジェクトであっても、BEFを用いることによって、様々な状況を検出できることがわかる。
[効果]
以上説明したように、車載装置1では、画像データをMPEG方式の符号化データに符号化する際、又はMPEG方式で符号化された符号化データを画像データに復号する際に生成される動きベクトル、2次元DCT係数、符号化情報(ピクチャタイプ,ブロックタイプ)を使用して、画像の特徴を表す複数種類の評価値を作成し、その評価値と各種オブジェクトとの関係を規定した判定ルールに従い、マクロブロックを最小単位として画像認識を行っている。
【0118】
従って、車載装置1によれば、オブジェクト(例えば歩行者)がマクロブロック程度の大きさであり、動きベクトルが発生しにくい状況であっても、2次元DCT係数に基づいて生成された基本評価値LAC(lblk),LLF(lblk)や複合評価値LAC_X,LLF_Xから、オブジェクトの動きを検出することができ、このような動きのあるオブジェクトを動きベクトルによらず、精度良く検出することができる。
【0119】
しかも、MPEG方式等において既存の情報を用い、マクロブロックを最小単位として認識を行っているため、画素単位で処理を行う従来の手法と比較して処理量を大幅に削減することができる。
【0120】
更に、基本評価値LAC(lblk),LLF(lblk)や複合評価値LAC_X,LLF_Xは、オブジェクトの動きに応じたて様々に変化するため、これら評価値の時系列パターンを予め設定された時系列モデルと比較することにより、単にオブジェクトの有無だけでなく、オブジェクトの挙動や属性まで推定することができる。
【0121】
特に、車載装置1では、時系列モデルを用いて、歩行者の異常行動につながる不自然な動きを検出するようにされているため、歩行者が異常行動を起こす可能性を事前に知ることができ、走行時の安全性を向上させることができる。
【0122】
また、車載装置1では、オブジェクトを認識した結果に基づき、その時々の状況に応じて、評価すべき観測点やその観測点で使用する評価関数を適宜設定するようにされているため、効率良く認識処理を実行できると共に、認識の精度を向上させることができる。
【0123】
更に、車載装置1では、広く普及しているMPEG方式を利用しているため、コンピュータネットワーク上のサーバや個々のコンピュータに接続されたハードディスク等に蓄積されていたり、通信によって取得されたりする動画像の符号化データを、軽い処理で有効利用することができる。
[他の実施形態]
上記実施形態では、本発明を車載装置に適用した例を示したが、動き補償予測と離散コサイン変換とを用いて符号化された符号化データを扱う装置であれば、どのような装置に適用してもよい。例えば、Webやサーバ上のMPEG画像の自動認識、内容記述、知的検索や、ハイビジョンまでカバーするディジタル放送や記録媒体に含まれるコンテンツの自動認識、内容記述、フィルタリング、知的検索を行う装置に適用してもよい。
【0124】
また、携帯電話や監視カメラ、車載カメラ等で取得した映像の伝送と集積をベースに交通計測、予報、警報等を行う車載システムに適用してもよい。
上記実施形態では、符号化部13として、既存のMPEGエンコーダと同様の構成を有するものを用いているが、画像認識のみを行う装置であれば、符号化データを必ずしも生成する必要がないため、動きベクトル,2次元DCT係数,符号化情報を取り出すことさえできれば、他の部分を省略した専用プロセッサを用いてもよい。
【0125】
上記実施形態では、歩行者の挙動や属性を認識するための評価値を求めるためにBEFを用いているが、距離に関する事前情報がないままで画像にBEFを適用し、その成分の発生状況を観測することで、BEFを適用したマクロブロックに写っているのはどの程度の距離にいる歩行者であり、しかもその上半身なのか下半身なのかそれとも全身であるのか、あるいは頭部だけであるのかなどに関する確信度を算出するといった用途に用いてもよい。
【図面の簡単な説明】
【0126】
【図1】本発明を適用した車載装置の全体構成を示すブロック図。
【図2】マクロブロックを示す説明図。
【図3】画像認識処理部の詳細な構成を示すブロック図。
【図4】確信度ベクトルを構成する語彙を例示する説明図。
【図5】状況プロファイルの構成を示す説明図。
【図6】行動モデルの内容を例示した状態遷移図。
【図7】評価内容設定処理の内容を示すフローチャート。
【図8】風景モデル,道路モデルに基づく観測点の設定位置を例示する説明図。
【図9】距離に応じた観測点の大きさ,形状の設定内容を例示する説明図。
【図10】評価値の種類を示す一覧表。
【図11】写り込みを例示する説明図。
【図12】車両が映った部分に位置するマクロブロックで発生する動きベクトル、2次元DCT係数を例示する説明図。
【図13】歩行者が映った部分に位置するマクロブロックで発生する動きベクトル、2次元DCT係数を例示する説明図。
【符号の説明】
【0127】
1…車載装置 11…画像データ取得部 12…符号化データ取得部 13…符号化部 14…復号部 15…セレクタ 16…画像認識処理部 17…報知部 20…ベクトル更新部 21…評価値算出部 22…関数記憶部 23…動き領域抽出部 24…更新処理部 25…パターン記憶部 26…ルール記憶部 30…ベクトル記憶部 40…オブジェクト判定部 41…プロファイル記憶部 42…状況インデックス付与部 43…オブジェクトインデックス付与部 50…評価内容設部 51…設定処理部 53…モデル記憶部
【特許請求の範囲】
【請求項1】
動き補償予測と離散コサイン変換とを用いた画像の符号化時又はその復号時に生成される符号化情報を用いて物体の認識を行う画像認識装置であって、
前記符号化情報に基づいて、複数種類の評価値を算出する評価値算出手段と、
入力画像から抽出すべきものとして予め設定された複数のオブジェクトと前記評価値算出手段にて算出された評価値との関係を規定した判定ルールに従って、前記画素ブロック毎に、該画素ブロックが前記オブジェクトのいずれに対応するかを判定する判定手段と、
を備え、前記評価値算出手段は、前記符号化情報として、離散コサイン変換に基づく2次元DCT係数を少なくとも用いることを特徴とする画像認識装置。
【請求項2】
前記評価値算出手段は、前記評価値の一つとして、符号化の単位となる画素ブロック毎に、前記2次元DCT係数に基づく基本評価値を求める第1評価値算出手段を備えることを特徴とする請求項1に記載の画像認識装置。
【請求項3】
前記第1評価値算出手段は、前記基本評価値の一つとして、前記2次元DCT係数の交流パワー成分の合計値を求めることを特徴とする請求項2に記載の画像認識装置。
【請求項4】
前記第1評価値算出手段は、前記基本評価値の一つとして、前記2次元DCT係数の低周波パワー成分の合計値を求めることを特徴とする請求項2又は請求項3に記載の画像認識装置。
【請求項5】
前記評価値算出手段は、前記評価値の一つとして、指定された対象領域毎に、前記第1評価値算出手段にて算出された基本評価値の組合せ方を規定する評価関数を用いて複合評価値を算出する第2評価値算出手段を備えることを特徴とする請求項2乃至請求項4のいずれかに記載の画像認識装置。
【請求項6】
前記判定手段での判定結果に基づいて、前記対象領域、及び該対象領域に適用する評価関数、前記判定ルールを設定する評価内容設定手段を備えることを特徴とする請求項5に記載の画像認識装置。
【請求項7】
前記評価内容設定手段は、入力画像に示されたシーンを規定する道路構造モデルや風景モデルに基づき、指定された特定種類のオブジェクトが出現する可能性の高い領域に前記対象領域を設定することを特徴とする請求項6に記載の画像認識装置。
【請求項8】
前記評価内容設定手段は、前記判定結果に示された特定種類のオブジェクトの位置や挙動に基づいて前記対象領域を設定すると共に、該オブジェクトについて想定される特定状況の検出に適した評価関数及び判定ルールを設定することを特徴とする請求項6又は請求項7に記載の画像認識装置。
【請求項9】
前記特定種類のオブジェクトが歩行者であり、
前記特定状況とは、前記歩行者の異常行動又はその予兆であることを特徴とする請求項8に記載の画像認識装置。
【請求項10】
前記評価値算出手段は、前記評価値の一つとして、前記動き補償予測にて求められる動きベクトルに基づく動き評価値を求める第3評価値算出手段を備えることを特徴とする請求項1乃至請求項9のいずれかに記載の画像認識装置。
【請求項11】
前記第3評価値算出手段は、前記動き評価値の一つとして、前記動きベクトルの大きさを求めることを特徴とする請求項10に記載の画像認識装置。
【請求項12】
前記第3評価値算出手段は、前記動き評価値の一つとして、前記動きベクトルとカメラモーションによって生じるパニングベクトルとの類似度を求めることを特徴とする請求項10又は請求項11に記載の画像認識装置。
【請求項13】
前記第3評価値算出手段は、前記動き評価値の一つとして、隣接する前記画素ブロック間の動きベクトルの類似度を求めることを特徴とする請求項10乃至請求項12のいずれかに記載の画像認識装置。
【請求項14】
前記評価値算出手段は、前記動き評価値として算出される動きベクトルの類似度が予め設定された閾値以上となる前記画素ブロック同士が形成する連続した領域からなる動き領域を設定し、前記評価値の一つとして、前記動き領域毎に、該動き領域の大きさや領域形状を示す領域評価値を求める第4評価値算出手段を備えることを特徴とする請求項13に記載の画像認識装置。
【請求項15】
前記判定手段は、前記評価値算出手段にて算出された評価値の時系列パターンと、予め設定された時系列モデルとの比較によって、前記時系列モデルで表現される評価が有意であるか否かを判定することを特徴とする請求項1乃至請求項14のいずれかに記載の画像認識装置。
【請求項16】
前記判定手段は、前記2次元DCT係数に基づく前記評価値を、予め設定された判定閾値との比較によって、該評価値が有意であるか否かを判定すると共に、前記判定閾値を、前記動き補償予測で用いる比較フレームと現フレームとのフレーム間隔に応じて可変設定することを特徴とする請求項1ないし請求項15のいずれかに記載の画像認識装置。
【請求項1】
動き補償予測と離散コサイン変換とを用いた画像の符号化時又はその復号時に生成される符号化情報を用いて物体の認識を行う画像認識装置であって、
前記符号化情報に基づいて、複数種類の評価値を算出する評価値算出手段と、
入力画像から抽出すべきものとして予め設定された複数のオブジェクトと前記評価値算出手段にて算出された評価値との関係を規定した判定ルールに従って、前記画素ブロック毎に、該画素ブロックが前記オブジェクトのいずれに対応するかを判定する判定手段と、
を備え、前記評価値算出手段は、前記符号化情報として、離散コサイン変換に基づく2次元DCT係数を少なくとも用いることを特徴とする画像認識装置。
【請求項2】
前記評価値算出手段は、前記評価値の一つとして、符号化の単位となる画素ブロック毎に、前記2次元DCT係数に基づく基本評価値を求める第1評価値算出手段を備えることを特徴とする請求項1に記載の画像認識装置。
【請求項3】
前記第1評価値算出手段は、前記基本評価値の一つとして、前記2次元DCT係数の交流パワー成分の合計値を求めることを特徴とする請求項2に記載の画像認識装置。
【請求項4】
前記第1評価値算出手段は、前記基本評価値の一つとして、前記2次元DCT係数の低周波パワー成分の合計値を求めることを特徴とする請求項2又は請求項3に記載の画像認識装置。
【請求項5】
前記評価値算出手段は、前記評価値の一つとして、指定された対象領域毎に、前記第1評価値算出手段にて算出された基本評価値の組合せ方を規定する評価関数を用いて複合評価値を算出する第2評価値算出手段を備えることを特徴とする請求項2乃至請求項4のいずれかに記載の画像認識装置。
【請求項6】
前記判定手段での判定結果に基づいて、前記対象領域、及び該対象領域に適用する評価関数、前記判定ルールを設定する評価内容設定手段を備えることを特徴とする請求項5に記載の画像認識装置。
【請求項7】
前記評価内容設定手段は、入力画像に示されたシーンを規定する道路構造モデルや風景モデルに基づき、指定された特定種類のオブジェクトが出現する可能性の高い領域に前記対象領域を設定することを特徴とする請求項6に記載の画像認識装置。
【請求項8】
前記評価内容設定手段は、前記判定結果に示された特定種類のオブジェクトの位置や挙動に基づいて前記対象領域を設定すると共に、該オブジェクトについて想定される特定状況の検出に適した評価関数及び判定ルールを設定することを特徴とする請求項6又は請求項7に記載の画像認識装置。
【請求項9】
前記特定種類のオブジェクトが歩行者であり、
前記特定状況とは、前記歩行者の異常行動又はその予兆であることを特徴とする請求項8に記載の画像認識装置。
【請求項10】
前記評価値算出手段は、前記評価値の一つとして、前記動き補償予測にて求められる動きベクトルに基づく動き評価値を求める第3評価値算出手段を備えることを特徴とする請求項1乃至請求項9のいずれかに記載の画像認識装置。
【請求項11】
前記第3評価値算出手段は、前記動き評価値の一つとして、前記動きベクトルの大きさを求めることを特徴とする請求項10に記載の画像認識装置。
【請求項12】
前記第3評価値算出手段は、前記動き評価値の一つとして、前記動きベクトルとカメラモーションによって生じるパニングベクトルとの類似度を求めることを特徴とする請求項10又は請求項11に記載の画像認識装置。
【請求項13】
前記第3評価値算出手段は、前記動き評価値の一つとして、隣接する前記画素ブロック間の動きベクトルの類似度を求めることを特徴とする請求項10乃至請求項12のいずれかに記載の画像認識装置。
【請求項14】
前記評価値算出手段は、前記動き評価値として算出される動きベクトルの類似度が予め設定された閾値以上となる前記画素ブロック同士が形成する連続した領域からなる動き領域を設定し、前記評価値の一つとして、前記動き領域毎に、該動き領域の大きさや領域形状を示す領域評価値を求める第4評価値算出手段を備えることを特徴とする請求項13に記載の画像認識装置。
【請求項15】
前記判定手段は、前記評価値算出手段にて算出された評価値の時系列パターンと、予め設定された時系列モデルとの比較によって、前記時系列モデルで表現される評価が有意であるか否かを判定することを特徴とする請求項1乃至請求項14のいずれかに記載の画像認識装置。
【請求項16】
前記判定手段は、前記2次元DCT係数に基づく前記評価値を、予め設定された判定閾値との比較によって、該評価値が有意であるか否かを判定すると共に、前記判定閾値を、前記動き補償予測で用いる比較フレームと現フレームとのフレーム間隔に応じて可変設定することを特徴とする請求項1ないし請求項15のいずれかに記載の画像認識装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図7】
【図10】
【図6】
【図8】
【図9】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図7】
【図10】
【図6】
【図8】
【図9】
【図11】
【図12】
【図13】
【公開番号】特開2009−271758(P2009−271758A)
【公開日】平成21年11月19日(2009.11.19)
【国際特許分類】
【出願番号】特願2008−122258(P2008−122258)
【出願日】平成20年5月8日(2008.5.8)
【出願人】(000004260)株式会社デンソー (27,639)
【Fターム(参考)】
【公開日】平成21年11月19日(2009.11.19)
【国際特許分類】
【出願日】平成20年5月8日(2008.5.8)
【出願人】(000004260)株式会社デンソー (27,639)
【Fターム(参考)】
[ Back to top ]