説明

画像認識装置

【課題】エスカレータや動く歩道などの人用のコンベアシステムに搭乗する搭乗者の検知、および搭乗者の異常動作を検知する画像認識の精度を向上する。
【解決手段】
本発明は動的に変動する背景を、時空間輝度勾配から計算されるGram行列により、テクスチャと動きの両者を同時に表現、および学習する。これにより、背景と似た輝度値が入力されたときにも、テクスチャの情報により背景と前景の分離が可能となる。さらに、背景がダイナミックに変動するシーンにおける対象物体の検出においても、その背景の動き自体をモデル化するため、人物や物体の検知が可能となる。また、検知した人物領域を用いて異常動作検知や動作種別識別の精度を向上できる。背景のモデルは、Gram行列による時空間特徴ベクトルの成分の確率密度を示す混合正規分布モデルとして構成し、入力された時空間特徴ベクトルが当該正規分布に属しなければ、前景が存在すると判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カメラ等の撮影により、エスカレータや動く歩道などの人用のコンベアシステムに搭乗する搭乗者、および搭乗者の異常動作を検知する画像認識の技術に関し、特に、その画像認識を用いた注意喚起とエスカレータ制御により、搭乗者の安全を確保して安心感を与える画像監視システムに応用するものに関するものである。
【背景技術】
【0002】
映像中から対象物体を検知する画像処理において、従来、背景差分を基本とする手法が用いられてきた。これは検知する対象が写っていない背景画像を覚えておき、入力画像と背景画像の差分を行い、変化があった画素を抽出して対象物体を検出する手法である。この手法は背景が定常的であるという前提条件で動作するため、天候の変動、照明の変動、背景に存在する木々や木の葉の揺れなども検出してしまうという問題がある。
【0003】
そこで、このような背景の変動を検知しないで対象を検知するために、例えば従来技術として非特許文献1に記載されているように、画像中の各画素の輝度値を時間方向に観測し、輝度値のヒストグラムを作成するものがある。木々や木の葉の揺れは周期的な反復運動をするので、ある画素位置の明るさを時間方向に観測して、輝度値のヒストグラムを生成すると、ある明るさを中心とした分布が観測される。これは単一の場合もあれば複数の分布が存在する場合がある。これらの分布を混合正規分布でモデル化し、入力映像の輝度値がこれらの正規分布(混合正規分布を構成する各正規分布)から離れた値であったときに、背景とは異なる物体が存在するとして、対象物体の検出を行う。
【非特許文献1】Stauffer, C. and Grimson, W.E.L., ”Adaptive background mixture models for real-time tracking,” Vol.2, Computer Vision and Pattern Recognition, 1999 (CVPR1999). IEEE Computer Society.
【発明の開示】
【発明が解決しようとする課題】
【0004】
上記従来技術の場合は、正規分布で近似した背景モデルに近い輝度値が入力されると、それが対象物体であっても背景として判定されてしまう問題がある。これは差分処理が基本的にある画素の輝度値、およびその時間的な変動しか考慮していないためである。また、エスカレータのステップや動く歩道のように、背景がダイナミックに変動するシーンではある画素の輝度値が時間的に大幅に変化し、前記輝度値のヒストグラムから正規分布を正しく求めることができず、精度よく対象物体(人用のコンベアシステムに搭乗する搭乗者を含む。)を検出できないという問題点がある。
【0005】
そこで、本発明はエスカレータや動く歩道などの人用のコンベアシステムに搭乗する搭乗者の検知、および搭乗者の異常動作を検知する画像認識の精度を向上することを目的とする。
【課題を解決するための手段】
【0006】
この目的のために、本発明は、
具体的には、搭乗者を載せて運ぶコンベアシステムを撮影する撮影装置から取得した動画像の画像認識を行う画像認識装置において、
前記コンベアシステムに搭乗者がいない状態で撮影した前記撮影装置から取得した動画像から計算され、当該画素の輝度値を空間方向および時間方向に微分した時空間輝度勾配により表現される時空間特徴ベクトルを用いて、前記時空間特徴ベクトルの発生確率を1以上の正規分布で近似して構成される背景モデルを記憶する記憶部と、
ある時点で撮影した前記撮影装置から取得した動画像から計算され、当該画素の輝度値を空間方向および時間方向に微分した時空間輝度勾配により表現される時空間特徴ベクトルが、前記背景モデルを構成する前記正規分布に属しているか否かを計算し、前記正規分布に属していなければ当該動画像において撮影された前記コンベアシステムに前景が存在すると判定する制御部と、
を有する
ことを特徴とする。
【0007】
このように本発明は、人用のコンベアシステムの監視領域において、領域全体、またはブロック分割した局所領域毎に、入力動画像(入力映像)から得られる輝度値の空間方向と時間方向の微分値(輝度勾配)を計算し、Gram行列と呼ばれる時空間情報を計算する。この時空間情報を計算するフレーム数は最低1フレームであり、検出する人物の動作特徴に応じて増やす。該時空間情報から、後記する方法で作り出した時空間特徴ベクトルの次元数は最低6であり、これらを時間方向に連結して6の整数倍の時空間特徴ベクトルとすることもできる。このように時間的、空間的に拡張した時空間特徴ベクトルの分布を正規分布で近似し、これを背景モデルとし、ある入力動画像から計算した時空間特徴ベクトルが、この背景モデルから離れていれば、つまり、正規分布に属さなければ、背景には存在しない前景があると判定し、対象物体の検出や、その検知領域の異常動作を検出する。
【0008】
本発明は動的に変動する背景を、前記Gram行列により、背景を撮影したシーンのテクスチャ、色、明るさのパターン、および動きを同時に表現、および学習することができる。これにより、非特許文献1に記載の手法で問題となっていた、背景と似た輝度値が入力されたときにも、テクスチャ等の情報により背景と前景の分離が可能となる。さらに、非特許文献1に記載の手法で問題となっていた、背景がダイナミックに変動するシーンにおける対象物体の検出においても、その背景の動き自体をモデル化するため、人物や物体の検知が可能となる。
なお、解決手段の詳細は、後記する。
【発明の効果】
【0009】
本発明によれば、エスカレータや動く歩道などの人用のコンベアシステムに搭乗する搭乗者の検知、および搭乗者の異常動作を検知する画像認識の精度を向上することができる。
【発明を実施するための最良の形態】
【0010】
以下、本発明の実施形態について説明する。説明の際には、適宜図面を参照する。
本発明の画像認識装置による人物と異常動作検知方法の実施方法を、図1に示すエスカレータの乗り出し検知システムへの適用例として説明する。
【0011】
≪構成≫
図1は、カメラ付き可動式保護板を用いたエスカレータ画像監視システムの全体構成図である。図1において、101はエスカレータのステップ、102はエスカレータのハンドレールである。103は映像監視用のカメラ(撮影装置)であり、ステップ101上の搭乗者の搭乗状態を監視する。104は注意喚起放送用のスピーカであり、搭乗者が異常搭乗、または危険搭乗等をしている場合に注意喚起を行い、搭乗者に危険を認知させる。105は可動式保護板の冶具、106は搭乗者の衝突防止用の可動式保護板であり、搭乗者が衝突すると揺れる構造になっている。
【0012】
107は画像認識装置であり、カメラ103で撮影された画像(動画像または映像という場合もある。)を処理して、異常搭乗や危険搭乗等といった異常動作を検知する。108は映像録画装置であり、常時録画したり、画像認識装置107で検知した異常動作をトリガ信号として、異常動作前後のみの映像を録画したりする。画像認識装置107から出力されるトリガ信号はエスカレータ制御装置(不図示)に送出され、異常動作発生時にエスカレータを停止、または緩停止させることができる。また画像認識装置107から出たトリガ信号は有線、または無線のネットワークを経由して監視室へアラーム信号として送られ、その中にいる監視員の監視効率を高めることに用いられる。また、このようなトリガ信号、アラーム信号は、映像録画装置108が記憶した映像データ中に埋め込まれたり、映像データにメタデータとして別ファイルで付加されたりして、事故検証のためにオフラインで事後的に映像検索する場合に用いられる。110はある階の天井(または上階の床面)である。
図1において、エスカレータの搭乗者109がハンドレール102に乗り出すと、画像認識装置107は異常動作が起きたと検知し、映像録画装置108はその前後の映像を録画する。
【0013】
次に、図2を用いて画像認識装置107の内部機能について説明する。図2は画像認識装置の機能ブロック図である。いわばコンピュータである画像認識装置107は、そのハードウェア構成として、入力ポートを有する入力部、出力ポートを有する出力部、CPU(Central Processing Unit)等として実現される制御部、外部記憶装置としてのHDD(Hard Disk Drive)等で実現される記憶部、読み書きされるデータが展開される記憶領域を有するRAM(Random Access Memory)等で実現されるメモリを有している。これらの装置で本発明に関する処理が実行されるときには、各装置の記憶部に格納されたプログラムがメモリにロードされ、CPU(制御部)により実行されることにより、ネットワークを構成する各装置上に具現化される各処理部が実現される。また、各プログラムは予め記憶部に格納されても良いし、他の記憶媒体または通信媒体(ネットワークまたはネットワークを伝搬する搬送波)を介して、必要なときに導入されても良い。
【0014】
まず、画像入力部201は、図1の可動式保護板106に取り付けられたカメラ103から入力された画像の画像データを取得する。入力された画像データは一定フレーム数分だけ画像メモリ202に保存され、異常動作が検知されたときに画像送出制御部206に送出される。
【0015】
次に、入力された画像データは無人状態判定部203において、カメラ視野内における搭乗者の存在有無が認識される。次に、異常動作検知部204では、可動式保護板106に搭乗者が衝突する前に搭乗者の異常動作を予備的に検知する。ここではハンドレール102に搭乗者が乗り出しているかいないかを識別する。また、異常動作検知部204ではハンドレール102の乗り出し以外にも、ステップ101上における逆走、走りぬけ、転倒などの異常動作を検知して、スピーカ104で注意喚起をする。
【0016】
異常動作検知部204で行う画像処理のための処理領域設定(後記)とパラメータ設定(後記)はパラメータ入力デバイス(205;例えば、ハードウェア構成としての入力部、出力部、制御部および記憶部を有するコンピュータ)から入力する。または、ネットワーク経由で外部から画像認識装置107へ送られるようにしても良い。衝突検知部207は、可動式保護板106に搭乗者が衝突してカメラ103の映像が揺れたことを画像認識で検知する。異常動作検知部204と衝突検知部207で異常搭乗、または搭乗者の可動式保護板106への衝突等(異常動作)が検知された場合、その検知信号が画像送出制御部206へ送られ、画像メモリ202に保存されていた異常動作前後の映像(数フレーム分の画像データ)が画像送出部209において適当な符号化がなされて映像録画装置108へ送られる。一方、前記検知信号が画像送出制御部206に送られたとき、エスカレータ制御装置に送出する機器制御信号が生成され、エスカレータの停止や緩停止などの運行制御が行われる。
【0017】
さらに、異常動作検知部204と衝突検知部207で異常搭乗、または搭乗者の可動式保護板106への衝突等が検知された際、適当な形式のアラーム信号がアラーム信号送出部208において生成される。そのアラーム信号は、例えばスピーカ104へ送られて注意喚起放送がなされたり、エスカレータ制御機器へ送られてエスカレータの停止や緩停止などの運行制御が行われる。
【0018】
図3を参照して、搭乗者の危険搭乗を検知する際の処理領域設定について説明する。図3は、カメラ103から撮影したときの画像を図示したものである。ステップ301、ハンドレール302、アウターデッキ303を含む画像処理領域305がパラメータ入力デバイス205、またはネットワーク経由で別のPC(Personal Computer)上から指定される。画像処理領域305は、カメラ103で撮影した画像において搭乗者304の乗り出しを判定する領域である。なお、説明の便宜上、画像処理領域を、指定領域、または処理領域、と呼ぶ場合もある。
【0019】
≪動作≫
次に図4の異常動作検知および動作種別識別を行う処理のフローチャートを参照して、本実施形態の人物と異常動作検知方法が適用される図2の無人状態判定部203と異常動作検知部204の処理の詳細について説明する。
【0020】
まず、画像認識装置107に対し、カメラ103から入力された画像データからなる映像が入力される(S401)。
【0021】
次に、入力した映像(S401)において、異常動作検知および動作種別識別を行う画像処理領域を指定する(S402)。指定する領域の形状は任意であり、例えば図3の画像処理領域305(破線表示)のように領域指定する。また、撮影された領域全範囲としても良い。
【0022】
次に、処理領域内において動画像(映像:フレーム)の画素の輝度値から時空間微分値である時空間輝度勾配で表現されるGram行列(時空間情報)を計算する(S403)。このとき、Gram行列は指定領域305全体から計算しても、指定領域305を複数の局所ブロックに分割して、ブロック毎にGram行列を計算してもよい。Gram行列の計算S403は次のように行う。
【0023】
まず、現在のフレームと直前のフレームとからフレーム間差分処理を行い、差分結果をしきい値処理する。この処理により入力動画像から動いている物体のエッジ情報(物体の輪郭を定める情報)を抽出する。次に動エッジの位置における空間方向と時間方向の輝度勾配(時空間輝度勾配)を計算する。この時空間輝度勾配∇Pを次式で表記する。
【数1】

・・・(1)
ここで、Pは、フレームを構成する画素の輝度値(ベクトル)であり、2次元画像の一方向(x方向)とそれに直交する方向(y方向)からなる位置x、yおよび時間tの関数である。また、P、P、Pは、輝度値Pのx、yおよびtに関する偏微分値である。
【0024】
次に、(1)式の値から次式で表される時空間輝度勾配∇Pの共分散行列Mを求める。MはGram行列とも呼ばれる。
【数2】

・・・(2)
(2)式の総和は、1フレームにおける画像全体、あるいは指定領域中の全ての画素から計算する。また、この総和は時間方向にも行うものであり、例えば領域の大きさが縦横7画素、フレーム数が7フレームの場合は、7×7×7画素の立体領域内で動エッジと判断された画素の時空間輝度勾配を(2)式の行列の各要素について総和計算する。(2)式は時空間輝度勾配のある時空間の立体領域中の分散(対角成分)と共分散(非対角成分)であり、(1)式のプロットのばらつき具合を表現している。領域中の動きの大きさと方向がばらつくと(2)式のランク、すなわちGram行列Mのゼロでない固有値の数が大きくなる(最大3個)。(2)式のランク変動の仕方が人物の動作に対応し、その情報を用いて動作種類識別や異常動作検知を行う。この方法の詳細は後記する。
【0025】
次に(2)式から生成される時空間特徴ベクトル(後記)を用いて背景のモデル(人物等の検出対象を除いた映像から構成された混合正規分布モデル(背景モデルという場合もある。))を生成し(S405)、その混合正規分布モデルと入力映像とを比較して指定領域、またはそれを分割した局所ブロックが前景か背景かを区別する(S404)。なお、作成された背景モデルは、画像認識装置107の記憶部に記憶(学習)される。
【0026】
ここで、まず図5のフローチャートを参照して、混合正規分布モデルの生成について説明する。入力映像(S501)に対して処理領域を指定する(S502)ところまでは、図4の(S401)(S402)と同じである。
【0027】
次に、時空間輝度勾配計算(S503)をするにあたり、(2)式から時空間特徴ベクトルを生成するためのパラメータ指定の仕方(S506)について説明する。(S506)において、例えばパラメータ入力デバイス205により指定するパラメータ(時空間輝度勾配計算用パラメータ)は、(2)式を計算する領域の大きさ、すなわち上述の縦横方向の画素数とフレーム数である。処理領域全体を用いる場合はフレーム数だけを指定する。これらに加えて、(2)式のGram行列Mを何フレーム連結するかを指定する。1フレームだけを用いる場合は、Gram行列Mから対称成分を除く6個の要素(上三角成分)を縦に並べて次式で示す6次元ベクトルを時空間特徴ベクトルとする。記載の便宜上、(3)式では、要素を横に並べて表記する。
【数3】

・・・(3)
【0028】
(3)式をNフレーム連結する場合(N:自然数)は、時刻tにおけるmをmとし、時空間特徴ベクトルmを改めて次式で表す。
【数4】

・・・(4)
【0029】
このとき、時空間特徴ベクトルmは6×N次元のベクトルとなる。この6×N次元ベクトルをそのまま用いても良いが、周期性の長い動作特徴を表現する場合には、Nが大きくなり時空間特徴ベクトルの次元数も大きくなる場合がある。そこで、6×N次元の時空間特徴ベクトルを、例えば主成分分析(PCA:Principal Component Analysis)や線形判別分析により次元圧縮を行い、低次元部分空間に射影して、時空間特徴ベクトルの次元数を小さくすることもできる。この次元圧縮の指定も時空間輝度勾配計算用パラメータ(S506)として追加で指定する。
【0030】
次に、上記のようにして得られた時空間特徴ベクトルの集合に対して、混合正規分布への当てはめ(フィッティング)を行い(S504)、そのパラメータを推定する。具体的には次の処理を行う。混合正規分布は、用意された複数の正規分布を組み合わせた確率モデルである。データχ(ベクトル)の確率密度分布p(χ)をC個の確率密度分布
{p(χ|i);i=1,・・・,C}
の重み付き線形結合とすると、p(χ)は次式のように表される。
【数5】

・・・(5)
【0031】
ここで、αは重み係数であり、以下の条件を満たす。
【数6】

・・・(6)
【0032】
(χ|C)は正規分布であり、以下の式で表される。
【数7】

・・・(7)
このときMは時空間特徴ベクトルの次元数(Gram行列のMとは異なる点に注意)、φは、φ={μ,Σ}と表記され、μは平均、Σは共分散行列である。なお、Tは転置を意味する。この様に、混合正規分布では、正規分布毎に次の3つのパラメータが必要となる。
(1)平均μ(正規分布の中心)
(2)共分散行列Σ(分布の広がり)
(3)重み係数α(正規分布が占める割合)
【0033】
混合正規分布のような複雑なモデルでは、一度にこれらのパラメータを求めることはできないため、各パラメータをEMアルゴリズムにより推定する。観測された特徴量の離散的な確率分布(ヒストグラム)に対して、混合正規分布を当てはめた例を図7の706と709に示す。
【0034】
混合正規分布の当てはめには(4)式の6×N次元ベクトルのヒストグラム分布に直接当てはめる場合と、6×N次元ベクトルの部分次元毎に当てはめる場合とがある。後者の場合、最大で6×N個の1次元ベクトル空間の混合正規分布を求めることになる。正規分布の個数Cは予め固定数を与える場合と、混合正規分布の計算過程で自動的に決める場合とがある。これらの処理の切り替えフラグも時空間輝度勾配計算用パラメータ(S506)指定時に同時に指定する。
【0035】
以上の処理で得られた混合正規分布(S505)は背景モデルとして、図4の混合正規分布モデル(S405)へ渡され、(S404)において入力映像との比較に用いられる。
【0036】
次に図7を用いて、入力映像から計算した時空間特徴ベクトルと混合正規分布モデルとの比較(S404)について説明する。ここでは、図3で指定したハンドレール302を含む画像処理領域305の外接矩形領域を処理領域とする(この外接矩形領域を改めて画像処理領域305としても良い。)。さらにこの外接矩形領域を複数の局所ブロックに分割し、局所ブロック毎に入力映像と混合正規分布モデルとの比較を行い、前景と背景の分離を行う例を示す。
【0037】
背景学習時701では前記の局所ブロック毎に時空間特徴ベクトルの確率密度を求める。これは時空間特徴ベクトルのベクトル要素を量子化して多次元ヒストグラムを求めることで得られる。ここでは、1次元の時空間特徴ベクトル(時空間特徴量という。)の確率密度分布例を図7の706に示す。
【0038】
次にこの確率密度分布に対して(5)式で表される混合正規分布モデルをフィッティング(当てはめ)し、上述の(1)平均μ(正規分布の中心)、(2)共分散行列Σ(分布の広がり)、(3)重み係数α(正規分布が占める割合)を求める。このときのフィッティング結果例を図7の709に示す。また、局所ブロック毎の時空間特徴量がヒストグラム706のどの位置に対応するかの例を局所ブロック704と705について706上の△印で示す。
【0039】
次に入力映像評価時702に、これらの局所ブロックから計算される時空間特徴ベクトル(1次元なので時空間特徴量)の混合正規分布上での位置を混合正規分布709上の△印で示す。ここで例として、局所ブロック704に対応する局所ブロック(707:変動無しブロック)は物体の侵入が無く、背景と同じ時空間特徴量を持つとする。このとき、入力映像の時空間特徴ベクトルを、混合正規分布モデルを表す(5)式に代入すると、返り値は大きくなる。そこで、この返り値があるしきい値以上であれば、この局所ブロック領域には物体が侵入していないと判定する。すなわち、大きな返り値を示す時空間特徴ベクトルが混合正規分布に属するため、前景の存在はなく、背景であると判定する。
【0040】
一方、ブロック705に対応するブロック(708:変動有りブロック)領域には物体、あるいは人物が侵入しているとした場合、入力映像の時空間特徴ベクトルを、混合正規分布モデルを表す(5)式に代入すると、返り値は逆に小さくなる。これは入力映像の時空間特徴ベクトルが、基本的には混合正規分布に属していないためである。このときはしきい値処理によって該当ブロックに前景物体、あるいは人物が存在すると判定する。
【0041】
以上は時空間特徴ベクトルを1次元と仮定したものであったが、(4)式のように6×N次元のベクトルでも処理は同様である。ただし、6×N次元の多次元ヒストグラムに(5)式の混合正規分布をフィッティングするには、Nが大きくなると計算コストが高くなるため、6×N次元の時空間特徴ベクトルを複数の低次元部分空間ベクトルに分割し、それぞれの低次元ベクトル分布に混合正規分布モデルをフィッティングし、背景モデルを生成することもできる。この場合、前景および背景の分離の仕方にはいくつか方法があり、例えば複数の混合正規分布モデルの前景および背景の判定結果の多数決をとる方法、あるいは複数の混合正規分布モデルのうち、少なくとも一つでも前景と判定したら、その判定結果を優先する、などの手法をとることができる。
【0042】
以上の、時空間情報の混合正規分布モデルのフィッティングにより前景および背景の分離を行う処理の概要を図6に示す。図6は、エスカレータのステップ上の人物を検出する処理の概要図である。
【0043】
学習用の背景動画である学習用背景動画像601から、局所ブロック(図6中の太線の囲い枠)毎に時空間特徴ベクトルを示す(4)式、または(5)式を求める(603)。603では例として、時空間特徴ベクトルにより表現される物体のテクスチャおよび動きを3つ示す。一つ目は、ハンドレールを含む、下向きの小さな動きをする複雑テクスチャ、二つ目は、ステップに関する、上向きの大きな動きをする周期テクスチャ、三つ目は、床や看板を含む、動きの無い単純テクスチャである。このように、多様なテクスチャと動きのパターンを持つ局所ブロックについてそれぞれ時空間情報の混合正規分布モデルを求める(604)。なお、前記パターンには他にも物体の色、明るさも含まれる。
【0044】
そして、この混合正規分布モデル604と入力された映像である入力動画像602との差分計算を行うと、局所ブロック毎に前景と背景とが分離された背景差分画像605が得られる。ただ、この時点では、ブロック毎に前景と背景との分離がされているだけであり、撮影シーン中、あるいは設定した処理領域中に物体、あるいは人物が存在するか否かは分からない。そこで、このようにして得られたブロック毎の前景および背景の判定結果を、次の処理ステップである乗り出し検知(S406)と人物領域検知(S407)で用いる。
【0045】
まず図4中の乗り出し検知(S406)について説明する。この処理は非常に単純で、処理領域305内において、前景と判定された局所ブロックの数が、あるしきい値個数以上であれば、処理領域内に物体、あるいは人物が存在すると判定するものである。エスカレータのハンドレールを含む領域内における処理結果例を図8に示す。カメラ103で撮影した画像を例に採り上げる。人物がハンドレールに乗り出すと、前景と判定する局所ブロック数が増え(図8中の正方形で表示)、人物が乗り出していると判定する。なお、局所ブロックの数に関するしきい値は、例えば、時空間輝度勾配計算用パラメータとして追加で指定する。
【0046】
このとき処理領域内に背景で動く人物や、エスカレータのアウターデッキなどに映る影の存在が問題になるが、学習用背景動画像で学習した混合正規分布モデルにより適切に判断するとこができる。つまり、背景で動く、カメラ103から遠く離れた人物に関しては、たとえ乗り出しをしていても、前景と判定される局所ブロックの数がしきい値以下になってしまい、異常動作として検出されないおそれがある。しかし、その局所ブロックにおける時空間特徴ベクトルは、その人物に由来するテクスチャを表現しているため、混合正規分布モデルから離れた時空間特徴として扱い、異常動作を引き起こす前景であると判定することができる。
また、エスカレータのアウターデッキに写る影は、本来前景として判定されるべきではないものの、乗り出しをしていない人物の影が侵入してきたために、ある程度は時空間特徴が変化してしまい、前景と判定される局所ブロックの数がしきい値以上になり、異常動作として検出されてしまうおそれがある。しかし、影によるテクスチャは非常に小さく、その局所ブロックにおける時空間特徴ベクトルは、そのようなテクスチャをも表現しているため、混合正規分布モデルに属する時空間特徴として扱い、前景を構成しない背景であると判定することができる。
このように、本実施形態の手法は外乱に対して安定した判定結果を返すことができる。
【0047】
次に図4中、人物領域検知407について説明する。ここでは、分割された局所ブロックのうち、前景と判定された局所ブロックの持つ時空間情報を用いて人物検知を行う。これには、図9に示すように、人物シルエットのアスペクト比を持つ検出ウィンドウ901を用意し、サイズを変更しながら入力画像902上でスキャン(走査)する。そしてスキャンした位置毎に人物か否かを判定する。判定するための特徴量は上記の前景と判定された局所ブロックの持つ時空間情報とし、「(3)式または(4)式の時空間特徴ベクトル次元数」×「前景と判定されたブロック数」の次元を持つ特徴ベクトルである。この特徴ベクトルを例えばサポートベクターマシン(SVM:Support vector machine)、あるいはAdaBoostなどの識別器に入力することによって人物(搭乗者)か否かを判定する。基本的には、検出ウィンドウ901と輪郭が略一致する前景はエスカレータの搭乗者(人物)であると判定する。ただ、搭乗者の体格、位置等に応じて検出ウィンドウ901のサイズ、アスペクト比は適宜変更しても良い。
【0048】
次に、検知した人物領域内において、人物の動作種別識別、または異常動作検知の処理を行う。ここでは、(2)式のGram行列から計算される連続ランク増分を計算する(S408)。Gram行列の固有値計算はノイズなどの影響で(2)式の固有値がゼロになることは少ないため、指定領域中の異常動作の指標として、次式に示す連続ランク増分Δrを用いる。
【数8】

・・・(8)
【0049】
ここで、λ、λはGram行列Mの固有値(昇順)、
【数9】

はGram行列Mの左上2×2行列の固有値(昇順)である。連続ランク増分Δrの値域は0〜1.0であり、0に近いほど指定領域内の運動がコヒーレントであり、1.0に近いほど指定領域内に複数の運動が存在することを示す。
【0050】
例えばエスカレータのステップ上において、転倒や逆走などの異常動作が生じている場合、その異常動作を含む局所領域内には複数の運動成分が存在することになり、これを連続ランク増分Δrの値を観察することにより、指定領域内に異常動作が存在するか否かを判定する。異常動作や動作種別を判定するための指定領域にはいくつかのバリエーションがあり、図10を用いて説明する。なお、どのバリエーションを用いるかは、時空間輝度勾配計算用パラメータ(S506)として指定する。また、連続ランク増分Δrのしきい値も時空間輝度勾配計算用パラメータ(S506)として指定し、連続ランク増分Δrがそのしきい値以上であれば異常動作があったと判定する。
【0051】
一つ目として、画像全体領域1001に示すように画像全体を判定領域とする手法(a)である。これは検知すべき人物領域が比較的大きなときに使えるものであり、処理領域の設定という手間が省ける分、使い勝手が良いというメリットがある。スタンドアロンで動作する、画像認識処理を組み込んだIP(Internet Protocol)ネットワークカメラなどに有効である。
【0052】
二つ目として、混合正規分布モデル(S404)で前景と判定された局所ブロック(1002:前景ブロック)を用いる手法(b)である。この領域を用いる場合、画像全体を用いるより背景に存在するノイズの影響を低減できるので異常動作の検出精度や動作種別の識別精度は上がるが、局所ブロック毎に前景および背景の判定を行う必要があるので、画像全体領域1001を用いる場合と比較して計算コストが上がる。
【0053】
三つ目として、前景ブロック1002の集合から、人物領域検知(S407)で検知した人物領域内で異常動作検知および動作種別識別を行う手法(c)である。図10中太枠で示した検出ウィンドウ(1003;図9参照)により検知した人物領域があって、この中に存在する(網掛け表示の)前景ブロック1004のみを用い、検知ウィンドウから外れた(白色表示の)ブロック1005は、一応、前景ブロックではあるものの異常動作検出および動作種別判定には用いない。これは図4のフローチャートにおけるデフォルト処理となっている。前景ブロック1002の集合を用いる場合は、前景の領域と判定されたブロックの中に、影や背景の動きなどが混じることがあるが、1004のように人物領域を詳細に絞り込むことにより、異常動作検出および動作種別判定の精度を上げることができる。ただし、検出ウィンドウ1003のサイズを変えながら全画面スキャンをするので、計算コストが高くなるという欠点がある。
【0054】
最後に四つ目として、検出ウィンドウ1003で検知した人物領域のうち、特に異常動作が発生しやすいと想定される領域を部分領域1006、1007として選択して、異常動作検出および動作種別判定を行う手法(d)である。この方法では、部分領域1006、1007毎に計算した異常動作検出および動作種別判定の結果の統計的判定を行うこともできる。例えば、複数の判定結果の多数決判定である。なお、部分領域1006は、人物の腕の可動領域に相当し、部分領域1007は、人物の足の可動領域に相当する。これらの部分領域1006、1007は、検出ウィンドウ1003との相対的な位置関係から自動的に設定しても良いし、外部のコンピュータから操作して設定しても良い。
【0055】
以上の処理は、人物領域検知(S407)の結果に基づくランク増分計算(S408)による異常動作検出および動作種別判定であった。これは異常動作検出および動作種別判定を行うための空間的な分割に仕方に関するものであったが、時間的に動作を分割して、それらの統計処理により異常動作検出および動作種別判定を行う処理もある。これは図4中のBoM(S409)であり、その処理フローを図11で説明する。なお、この処理の主体は、画像認識装置107の制御部とする。
【0056】
BoMとはBag of Motionsの略であり、文書解析処理で用いられる概念Bag of Wordsのアナロジーである。BoMは以下の手順によって行われる。学習の第一段階ではまず、入力動画像を取得し(S1101)、取得した入力動画像において任意の時間位置および時間長のフレーム群から(3)(4)式の時空間特徴ベクトルを計算する(S1102)。必要に応じて主成分分析(PCA)(S1103)で次元圧縮を行い、これらのベクトル群に対してK平均クラスタリング処理を行う。その処理結果として入力動画像中の物体(主に人物(搭乗者))の動作要素であるモーションワードを生成する(S1104)。生成したモーションワードは画像認識装置107の記憶部に記憶される。
【0057】
学習の第二段階では、(S1101)とは別の処理として、学習用に入力動画像のシーケンス(学習用シーケンス:前記フレーム群の全部または一部のフレーム群)を取得し(S1105)、取得した学習用シーケンスから、(S1102)と同様に時空間特徴ベクトルを計算する(S1106)。(S1103)同様、必要に応じてPCAで次元圧縮する(S1107)。次に、この時空間特徴ベクトルが、(S1104)で作成されたモーションワードを登録したテーブル中のどの動作要素に対応するかを探索し(S1108)、モーションワードのヒストグラム(例えば、時空間特徴ベクトルの(各成分の)発生確率として示されるヒストグラム)を生成する(S1109)。このモーションワードのヒストグラムを動作種別毎に計算し、例えばサポートベクターマシン(SVM)やAdaBoostなどの識別器を用いて物体の動作について学習する(S1110)。その学習による学習結果を画像認識装置107の記憶部に保存する(S1111)。
【0058】
識別段階では、まず、対象となる入力動画像を取得し(S1112)、取得した入力動画像から時空間特徴ベクトルを計算する(S1113)。(S1103)同様、必要に応じてPCAで次元圧縮する(S1114)。次に、この時空間特徴ベクトルを検索キーとして、(S1108)と同様にモーションワードを登録したテーブル(S1104)の中から対応する動作要素を探索(S1115)することにより検索キーとなる時空間特徴ベクトルに対するモーションワードを特定し、(S1109)と同様に、特定したモーションワードのヒストグラムを生成する(S1116)。このモーションワードのヒストグラムを動作種別毎に計算し、この計算の結果を、学習結果(S1111)を読み込んだ識別器に入力し(S1117)、識別結果を出力して返す(S1118)。この識別結果と学習結果とを比較することにより、識別段階における物体(搭乗者等の人物も含む。)の動作を判定する。
【0059】
この手法は、人物動作を時間的に分割したものを特徴量とすることで、時間的に変化する人物挙動を精度良く検出および識別できる。また、モーションワードを生成するときの時間長を短くすることにより、エスカレータのステップ上における転倒などのように、突発的に生じる事象も同時に検知できる。
【0060】
≪まとめ≫
本実施形態の人物と異常動作検知方法によれば、エスカレータのステップや動く歩道の歩道面が動くシーンにおいて人物を効果的に検出でき、検出した領域内の時空間情報を解析することにより、人物の異常動作や動作種別の識別が可能となる。この識別により、搭乗者の事故を未然に防ぎ、搭乗者の安全を確保することができる。エスカレータ等を監視する監視員の疲労やエスカレータ監視システムの設置コストを下げることもできる。
【0061】
また赤外線センサや振動検知センサと異なり、遠方からでも搭乗者が見えていれば画像認識ができるため、設置場所に対する制限が少ない。すなわち、カメラ遠方からでも異常搭乗、または危険搭乗といった異常動作の兆候を検知できるため、設置カメラ数を減らすことができ、システム構築のコストを下げることができる。
【0062】
本実施形態は、他の物理センサが不要であり、既設の画像録画装置に画像認識機能を追加するだけでエスカレータ画像監視システムを構築できるため、設置コストを低減できる。例えば、赤外線センサで搭乗者のハンドレールの乗り出しを検知しようとする場合、ハンドレールに沿って一定間隔で赤外線センサを設置しなければならないが、画像センサであれば、保護板の位置から一台のカメラでハンドレール領域を監視できる。ミリ波レーダの場合は赤外線センサと異なり、比較的遠距離、および広角の監視が可能となるが、筐体が大きく、設置場所が制限される。ただし、本発明の画像監視システムに従来の物理センサを併用して、エスカレータ搭乗者の異常動作状態をより高精度に検出することもできる。
【0063】
≪その他≫
なお、前記実施形態は、本発明を実施するための最良のものであるが、その実施形式はこれに限定するものではない。したがって、本発明の要旨を変更しない範囲において、その実施形式を種々変形することが可能である。
【0064】
例えば、本実施形態において、背景モデルを生成する際に、背景モデルを構成する正規分布の数を任意に決め、または撮影シーンのテクスチャ、色、明るさのパターン、および動きの複雑さから該分布数の最適値を自動で決める機能を備えるようにしても良い。また、該時空間特徴ベクトルの次元数を任意に決め、または搭乗者の検出率から最適数を自動で決める機能を備えるようにしても良い。また、背景モデルの分布を求める際に、時空間情報を一つの特徴ベクトルとして一つのモデルとして背景モデルを生成するか、または特徴ベクトルを複数のベクトルに分割して複数の背景モデルを生成し、該複数の背景モデルを用いた複数の人物検知結果を統計的に判定して人物検出を行う機能を備えるようにしても良い。
【0065】
また、本実施形態において、カメラの配置が変化しても、コンベアシステムのハンドレール位置、およびステップの情報、例えば枚数、速度、位置からカメラの設置高と俯角を計算して画像の俯瞰変換を行うことにより、常に入力画像を、カメラの配置前の学習画像の位置と形状に整合させ、一度生成した背景モデルを汎用的に使えるようにする機能を備えるようにしても良い。
【0066】
また、本実施形態において、BoMを用いた処理を行うときは、実験的に、搭乗者となる人物に色々な動作をしてもらうように協力してもらって、学習第一段階のモーションワードおよび学習第二段階のヒストグラムを事前に生成、記憶した後、現場において識別段階を実行しても良い。また、別の方法として、最初からカメラ103、画像認識装置107等を現場に配置して学習第一段階から処理を実行していき、十分なデータが揃ったら識別段階を実行するようにしても良いし、学習第一段階、学習第二段階、識別段階を順繰りに処理していっても良い。
【0067】
その他、ハードウェア、ソフトウェア、各フローチャートなどの具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【図面の簡単な説明】
【0068】
【図1】カメラ付き可動式保護板を用いたエスカレータ画像監視システムの全体構成図である。
【図2】画像認識装置の機能ブロック図である。
【図3】搭乗者の危険搭乗を検知する際の処理領域設定の図である。
【図4】異常動作検知および動作種別識別を行う処理のフローチャートである。
【図5】混合正規分布を求める処理のフローチャートである。
【図6】エスカレータのステップ上の人物を検出する処理の概要図である。
【図7】混合正規分布モデルを用いて前景と背景との分離を行う処理の説明図である。
【図8】ハンドレールへの乗り出し検知例を示した図である。
【図9】検出ウィンドウを用いた人物領域検知例の図である。
【図10】異常動作検知および動作種別判定を行うときの領域設定のバリエーションを示した図である。
【図11】BoM(Bag of Motions)による異常動作検知および動作種別識別を行う処理のフローチャートである。
【符号の説明】
【0069】
101 エスカレータのステップ
102 エスカレータのハンドレール
103 カメラ
104 スピーカ
105 (可動式保護板の)冶具
106 可動式保護板
107 画像認識装置
108 映像録画装置
109 搭乗者
110 天井
201 画像入力部
202 画像メモリ
203 無人状態判定部
204 異常動作検知部
205 パラメータ入力デバイス
206 画像送出制御部
207 衝突検知部
208 アラーム信号送出部
209 画像送出部
301 ステップ
302 ハンドレール
303 アウターデッキ
304 搭乗者
305 画像処理領域
601 学習用背景動画像
602 入力動画像
603 局所ブロック毎のテクスチャと動き
604 時空間情報の混合正規分布モデル
605 背景差分画像
701 背景学習時
702 入力映像評価
703 画像処理領域
704 局所ブロック
705 局所ブロック
706 ヒストグラム
707 変動無しブロック
708 変動有りブロック
709 混合正規分布
901 検出ウィンドウ
902 入力画像
1001 画像全体領域
1002 前景ブロック
1003 検知ウィンドウ
1004 前景ブロック
1005 前景ブロック
1006 部分領域
1007 部分領域


【特許請求の範囲】
【請求項1】
搭乗者を載せて運ぶコンベアシステムを撮影する撮影装置から取得した動画像の画像認識を行う画像認識装置において、
前記コンベアシステムに搭乗者がいない状態で撮影した前記撮影装置から取得した動画像から計算され、当該画素の輝度値を空間方向および時間方向に微分した時空間輝度勾配により表現される時空間特徴ベクトルを用いて、前記時空間特徴ベクトルの発生確率を1以上の正規分布で近似して構成される背景モデルを記憶する記憶部と、
ある時点で撮影した前記撮影装置から取得した動画像から計算され、当該画素の輝度値を空間方向および時間方向に微分した時空間輝度勾配により表現される時空間特徴ベクトルが、前記背景モデルを構成する前記正規分布に属しているか否かを計算し、前記正規分布に属していなければ当該動画像において撮影された前記コンベアシステムに前景が存在すると判定する制御部と、
を有する
ことを特徴とする画像認識装置。
【請求項2】
前記制御部は、
通信可能に接続されたコンピュータから、少なくとも、前記撮影装置から取得した動画像のフレーム数を定めた時空間輝度勾配計算用パラメータを取得し、
前記取得した時空間輝度勾配計算用パラメータを参照して、前記時空間特徴ベクトルの次元数を、前記フレーム数に応じた次元数とする
ことを特徴とする請求項1に記載の画像認識装置。
【請求項3】
前記制御部は、
前記画像認識の対象となる領域の全部または一部を複数の局所ブロックに分割し、前記分割した局所ブロックの各々において、前記前景が存在するか否かを判定し、
前記局所ブロックの個数に関するしきい値を定めた前記時空間輝度勾配計算用パラメータを参照して、前記前景が存在すると判定された局所ブロックの個数が前記しきい値以上であれば前記コンベアシステムの搭乗者が異常動作したものと判定する
ことを特徴とする請求項2に記載の画像認識装置。
【請求項4】
前記制御部は、
人物シルエットのアスペクト比を持つ検出ウィンドウを用いて前記画像認識の対象となる領域を走査することにより、前記検出ウィンドウと輪郭が略一致する前記前景を前記コンベアシステムの搭乗者と判定する
ことを特徴とする請求項1に記載の画像認識装置。
【請求項5】
前記制御部は、
前記時空間輝度勾配のGram行列の固有値を計算することにより、前記固有値を用いた連続ランク増分を算出し、
前記連続ランク増分の値に基づいて前記搭乗者の動作を判定する
ことを特徴とする請求項4に記載の画像認識装置。
【請求項6】
前記制御部は、
前記画像認識の対象となる領域の全部または一部を複数の局所ブロックに分割し、前記分割した局所ブロックの各々において、前記コンベアシステムの搭乗者が存在するか否かを判定するとともに、前記搭乗者が存在するものと判定された局所ブロックのうち搭乗者の異常動作が発生しやすいと想定されるものを選択し、前記選択した局所ブロックにおいて前記搭乗者の動作を判定する
ことを特徴とする請求項5に記載の画像認識装置。
【請求項7】
搭乗者を載せて運ぶコンベアシステムを撮影する撮影装置から取得した動画像の画像認識を行う画像認識装置において、
ある時間長のフレーム群において、前記コンベアシステムに搭乗者がいる状態で撮影した前記撮影装置から取得した動画像から計算され、当該画素の輝度値を空間方向および時間方向に微分した時空間輝度勾配により表現される時空間特徴ベクトルと、前記時空間特徴ベクトルを用いて、K平均クラスタリング処理を行うことで生成した、搭乗者の動作要素と、前記動作要素のヒストグラムを生成し、前記ヒストグラムを識別器に入力することにより前記識別器が搭乗者の動作について学習したときの学習結果とを対応付けて記憶する記憶部と、
ある時間長に亘って撮影した前記撮影装置から取得した動画像から計算され、当該画素の輝度値を空間方向および時間方向に微分した時空間輝度勾配により表現される時空間特徴ベクトルから、前記記憶部を参照することにより動作要素を特定し、前記動作要素のヒストグラムを前記識別器に入力し、前記識別器から出力された識別結果を前記学習結果と比較することにより搭乗者の動作を判定する制御部と、
を有する
ことを特徴とする画像認識装置。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2010−58903(P2010−58903A)
【公開日】平成22年3月18日(2010.3.18)
【国際特許分類】
【出願番号】特願2008−226102(P2008−226102)
【出願日】平成20年9月3日(2008.9.3)
【出願人】(000005108)株式会社日立製作所 (27,607)
【出願人】(000232955)株式会社日立ビルシステム (895)
【Fターム(参考)】