情報処理装置、情報処理方法、およびプログラム
【課題】パターンのグルーピングを最適化し、これにより動画像上の物体を高い精度で認識する。
【解決手段】時刻tの特定されたパターンをXiとして、時刻t−τから時刻t+τまでの期間にパターンXjが特定される確率Pijについて考える。確率Pijは時刻t−τから時刻t+τまでの時間にパターンXjが特定されたフレームの数をカウントすることにより取得することにする。この確率Pijを要素とするアフィニティマトリクスWに基づくスペクトラルクラスタリングにより、n種類のパターンをグルーピングする。本発明は、画像認識処理に適用できる。
【解決手段】時刻tの特定されたパターンをXiとして、時刻t−τから時刻t+τまでの期間にパターンXjが特定される確率Pijについて考える。確率Pijは時刻t−τから時刻t+τまでの時間にパターンXjが特定されたフレームの数をカウントすることにより取得することにする。この確率Pijを要素とするアフィニティマトリクスWに基づくスペクトラルクラスタリングにより、n種類のパターンをグルーピングする。本発明は、画像認識処理に適用できる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、画像上の物体を認識する場合に用いて好適な情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
従来、画像(静止画像または動画像)上に存在する物体を認識するための技術が存在する。その方法の1つとして、画像上に覗き窓を設け、覗き窓の領域の特徴量を算出し、様々な既知の物体に対応して予め用意されているパターンの特徴量と比較して、各局所ブロックがどのパターンに最も一致するかを特定する方法がある。
【0003】
しかしながら、例えば人の膝などのように関節を有する物体を動画像上から認識しようとした場合、図1に示すように、当該物体は単に移動するだけでなく、より複雑な動きをする。したがって、当該物体に注目した場合、時刻t1の状態を基準としてその後の状態と比較すると、同一の物体であるにも拘わらず、図2に示すように徐々に相関値が低下してしまい、各時刻において特定されるパターンが異なるものとなってしまう。すなわち、時刻t1の膝の画像に対しては特徴量x1のパターン(パターンx1とも記述する。他のパターンについても同様とする)が特定され、時刻t2の膝の画像に対しては特徴量x2のパターンx2が特定されることになる。
【0004】
各パターンの特徴量x1乃至x4は、図3Aに示すようにそれぞれが異なる値である。しかしながら、上述したように、同一の物体(人の膝)に対応するものとして識別するためには、何らかの変換式(射影関数など)やグルーピングなどにより、図3Aに示す特徴量x1乃至x4を、図3Bに示す不変特徴量空間上に集めて、同一の物体に対応する特徴量であることを学習しておく必要がある。
【0005】
そこで従来、異なるパターンを学習によりグルーピングする方法として、学習用画像(動画像)の各フレーム上に位置を固定した覗き窓を設け、覗き窓から抽出した画像の時間変化を利用してパターンを学習する方法が提案されている。
【0006】
例えば、非特許文献1に記載の方法では、時間的にパターンの応答を持続させることで、多少変化したパターンが入ってきても、同じパターンが反応するように重みを学習するようになされている。
【0007】
また、非特許文献2に記載では、局所ブロックの時間的な遷移に基づいてパターンのグルーピングを行っている。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】Learning Invariance from Transformation Sequences, Peter Foldiak, Neural Computation,1991
【非特許文献2】PHD Thesis of Dileep George, “How The Brain Might Work: A Hierarchical and Temporal Model for Learning and Recognition”
【発明の概要】
【発明が解決しようとする課題】
【0009】
上述した、非特許文献1に記載の方法では、局所的な入力にのみ注視しているので、動画像に含まれるノイズに弱いという欠点があった。
【0010】
非特許文献2に記載の方法では、局所ブロックの時間的な遷移に基づくものの、隣り合うフレーム間の関係を一方向にのみ利用しているに過ぎず、パターンのグルーピング方法に改善の余地がある。
【0011】
本発明はこのような状況に鑑みてなされたものであり、時間的に近いフレーム間の関係を双方向に利用することにより、パターンのグルーピングを最適化し、これにより画像上の物体を高い精度で認識できるようにするものである。
【課題を解決するための手段】
【0012】
本発明の一側面である情報処理装置は、異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出手段と、学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定手段と、前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算手段と、演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピング手段とを含む。
【0013】
前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第1の画像パターンXiとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第2の画像パターンXjが特定されたフレームの数をカウントし、カウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Pijを演算するようにすることができる。
【0014】
前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第1の画像パターンXiとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第2の画像パターンXjが特定されたフレームの数を前記基準フレームとの時間的距離に応じて重み付けしてカウントし、重み付けしてカウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Pijを演算するようにすることができる。
【0015】
前記グルーピング手段は、演算された前記共起確率Pijにスペクトラルクラスタリングを適用して前記複数nの画像パターンをグルーピングするようにすることができる。
【0016】
本発明の一側面である情報処理装置は、パターン用画像の異なる複数nの位置から所定のサイズの局所ブロックを抽出することにより前記複数のnの画像パターンを生成する画像パターン生成手段をさらに含むことができる。
【0017】
本発明の一側面である情報処理装置は、認識対象画像に対して、グルーピングされている前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定し、特定結果に基づいて前記認識対象画像上の物体を認識する認識手段をさらに含むことができる。
【0018】
本発明の一側面である情報処理方法は、同一の物体に対応する画像パターンをグルーピングする情報処理装置の情報処理方法において、前記情報処理装置による、異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算ステップと、演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピングステップとを含む。
【0019】
本発明の一側面であるプログラムは、同一の物体に対応する画像パターンをグルーピングする情報処理装置の制御用のプログラムであって、異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算ステップと、演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピングステップとを含む処理を情報処理装置のコンピュータに実行させる。
【0020】
本発明の一側面においては、異なる複数nの画像パターンそれぞれに対して特徴量が算出され、学習用動画像を構成する時間的連続性がある各フレームに対して複数nの画像パターンのうち、最も適合する画像パターンが特定され、複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijが演算され、演算された共起確率Pijを用いて複数nの画像パターンがグルーピングされる。
【発明の効果】
【0021】
本発明の一側面によれば、画像認識用のパターンを最適にグルーピングすることができる。また、本発明の一側面によれば、画像上の物体を高い精度で認識できる。
【図面の簡単な説明】
【0022】
【図1】認識対象の物体を含む動画像の一例を示す図である。
【図2】図1に対応する時間経過と相関値の関係を示す図である。
【図3】不変特徴量空間を説明する図である。
【図4】本発明の概要を説明する図である。
【図5】アフィニティマトリクスを示す図である。
【図6】アフィニティマトリクスを幾何的に表したグラフを示す図である。
【図7】本発明を適用した画像認識装置の構成例を示すブロック図である。
【図8】図7の不変特徴量学習部11の詳細な構成例を示すブロック図である。
【図9】パターン用画像の一例を示す図である。
【図10】学習用画像の一例を示す図である。
【図11】スペクトラルクラスタリングを説明するための図である。
【図12】学習処理を説明するフローチャートである。
【図13】コンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0023】
以下、発明を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。なお、説明は、以下の順序で行なう。
1.本発明の概要
2.実施の形態
【0024】
<1.本発明の概要>
図4乃至図6は、動画像上に存在する物体を認識するためのパターンのグループを自動的に学習するための手法の概要を示している。
【0025】
図4に示すように、動画像の連続したフレームの所定の位置から抽出した局所ブロックの画像が推移した場合、すなわち、縦方向に伸びた物体が画面内で右方向に移動した場合、各時刻の局所ブロックに対して、n種類のパターンのいずれかが特定される。
【0026】
時刻tのフレームの局所ブロックに対して特定されたパターンをXiとして、時刻tよりも時間(時間的距離)τだけ前の時刻t−τから、時間τだけ後の時刻t+τまでの時間のフレームの局所ブロックに対してパターンXjが特定される共起確率Pij(以下、単に確率Pijと称する)について考える。時間τは任意の値である。この確率Pijは、パターンXiが特定された時刻tを中心とする時刻t−τから時刻t+τまでの時間に、パターンXjが特定されたフレームの数をカウントすることにより取得することにする。したがって、確率Pijは0以上の値となる。
【0027】
ただし、パターンXjが特定されたフレーム数を単にカウントするだけでなく、時刻tに時間的に近いほどカウントする値が大きくなるように、時刻tに対する時間的距離に応じた重み付け係数を乗算してからカウントするようにしてもよい。
【0028】
図5は、このようにして得られる確率Pijを要素とするアフィニティマトリクス(Affinity Matrix)Wを示している。
【0029】
このアフィニティマトリクスWは、パターンの数がn種類であることからn×nの正方行列となる。また、アフィニティマトリクスWの要素である確率Pijは、パターンXiとパターンXjの時間間隔に依存し、その時間方向には依存しないので、確率Pij=確率Pjiとなる。したがって、アフィニティマトリクスWの各要素の値は、対角成分を結ぶ線に対して線対称となる。
【0030】
図6は、アフィニティマトリクスWを幾何的なグラフG=(V,E)に表したものである。このグラフG=(V,E)における各ノードが各パターンに対応し、エッジの太さが確率に対応する。例えば、パターンXiに対応するノードとパターンXjに対応するノードを結ぶエッジの太さが確率Pijに相当する。
【0031】
したがって、n種類のパターンをグルーピングすることは、図6に示されたグラフG=(V,E)におけるノードをグルーピングすることと等価である。グラフG=(V,E)のノードのグルーピングには、既存の手法であるグラフカット(Graph Cut)、スペクトラルクラスタリング(Spectral Clustering)などを用いることが考えられる。
【0032】
ノードのグルーピングにスペクトラルクラスタリングを適用できる条件は、エッジの重み(太さ)が正であること、確率Pij=確率Pjiとなる対称性を有することである。図5に示されたアフィニティマトリクスは、上述したように、確率Pijは0以上の値であり、確率Pij=確率Pjiであるのでスペクトラルクラスタリングを適用できることが確認できる。よって、以下に説明する実施の形態においては、n種類のパターンをスペクトラルクラスタリングによりグルーピングするようにする。
【0033】
<2.実施の形態>
[画像認識装置の構成例]
図7は、本発明の一実施の形態である画像認識装置の構成例を示している。この画像認識装置10は、不変特徴量学習部11、特徴プール12、および認識部13から構成される。
【0034】
不変特徴量学習部11は、入力されるパターン用画像(静止画像)を切り出すことによりn種類のパターンを作成するとともに、各パターンの特徴量を算出して特徴プール12に登録する。また、不変特徴量学習部11は、学習用画像(動画像)を用いて、特徴プール12に登録されているn種類のパターンをグルーピングする。
【0035】
特徴プール12には、n種類のパターンとその特徴量がグルーピングされて登録されている。ここで、同一のグループに分類されたパターン(の特徴量)が不変特徴量となる。
【0036】
認識部13は、入力される認識対象画像(動画像)のフレームを複数の局所ブロックに分割して各局所ブロックの特徴量を算出し、特徴プール12に登録されているn種類のパターンの特徴量と比較して、各局所ブロックがどのパターンに最も一致するかを特定する。そして、その特定結果と各パターンのグルーピングの状況に基づき、認識対象画像上の物体を認識して認識結果を出力する。なお、認識部13による認識処理は既存の任意の方法を適用することができる。また、認識部13においては、静止画像を認識対象画像とすることができる。
【0037】
図8は、図7の不変特徴量学習部11の詳細な構成例を示している。不変特徴量学習部11は、2値化部21、フィルタリング部22、局所ブロック設定部23、局所特徴量算出部24、覗き窓設定部25、特徴量算出部26、マッチング判定部27、アフィリティマトリクス生成部28、およびグルーピング部29から構成される。
【0038】
2値化部21は、入力されるパターン用画像の画素を2値化してフィルタリング部22に出力する。パターン用画像としては、例えば図9に示すように、縦横数十画素程度のシンプルな画像を用いればよい。
【0039】
フィルタリング部22は、例えばガウシアンスムージングフィルタなどを用いることにより、2値化されたパターン用画像にぼかし処理を行って局所ブロック設定部23に出力する。
【0040】
局所ブロック設定部23は、2値化されてぼかされたパターン用画像上のランダムな位置に複数nの局所ブロック(例えば、4×4画素)を設定し、各局所ブロックの領域を抽出して局所特徴量算出部24に出力する。局所特徴量算出部24は、各局所ブロックから抽出された、2値化されてぼかされたパターン用画像の領域を1つのパターンとみなし、その特徴量を算出して、特徴プール12に出力して登録させる。なお、この局所特徴量の算出方法については、既存の任意の算出方法を用いればよい。これにより、特徴プール12には、n種類のパターンに対応付けてその特徴量が登録されたことになる。
【0041】
覗き窓設定部25は、学習用画像(動画像)の各フレームの所定の固定位置に所定のサイズの覗き窓を設定し、各覗き窓の領域を抽出して特徴量算出部26に出力する。学習用画像としては、例えば図10に示すように、既知の任意の物体が被写体となっている画像を用いればよい。
【0042】
特徴量算出部26は、局所特徴量算出部24と同様の特徴量算出方法により、各除き窓から抽出された、学習用画像の各フレームの領域の特徴量を算出してマッチング判定部27に出力する。
【0043】
マッチング判定部27は、学習用画像の各フレームの覗き窓の領域の特徴量に基づき、特徴プール12に登録されているn種類のパターンのうち、最も適合するものを特定してアフィニティマトリクス生成部28に出力する。
【0044】
アフィニティマトリクス生成部28は、学習用画像の各フレームの覗き窓に対して特定されたパターンに基づき、確率Pijを要素とするn×nのアフィニティマトリクスWを生成してグルーピング部29に出力する。
【0045】
グルーピング部29は、入力されるアフィニティマトリクスWに基づき、スペクトラルクラスタリングを用いてn種類のパターンをグルーピングし、その結果を特徴プール12に通知する。これにより、特徴プール12に登録されているn種類のパターンがグルーピングされたことになる。ここで、同一のグループに分類されたパターン(の特徴量)が不変特徴量となる。
【0046】
ここで、グルーピング部29によるスペクトラルクラスタリングを用いたn種類のパターンのグルーピングについて説明する。
【0047】
図11は、スペクトラルクラスタリングの概要を示している。まず、アフィニティマトリクスWの要素である確率Pijを各行毎に積算して、その値の対角成分の値とすることによりn×nの行列Dを生成する。次に、アフィニティマトリクスWから行列Dを減算してラプラシアン(Laplacian)L=W−Dを算出する。次に、ラプラシアンLの固有値および固有ベクトルを算出し、M≪n個の固有ベクトルから写像を計算し、それをKmeans法によってクラスタリングすることにより、n種類のパターンを複数のグループにグルーピングする。
【0048】
なお、グルーピング部29によるスペクトラルクラスタリングの手順は上述したものに限定されず、任意の手順にしたがって実行するようにしてもよい。また、グルーピング部29においてスペクトラルクラスタリング以外の方法、例えば、Kmeams法により、n種類のパターンをグルーピングするようにしてもよい。
【0049】
[動作説明]
次に、不変特徴量学習部11による学習処理について説明する。図12は、当該学習処理を説明するフローチャートである。
【0050】
ステップS1において、不変特徴量学習部11は、パターン用画像を取得する。このパターン用画像は2値化部21に入力される。
【0051】
ステップS2において、2値化部21は、パターン用画像の画素を2値化してフィルタリング部22に出力する。フィルタリング部22は、2値化されたパターン用画像にぼかし処理を行って局所ブロック設定部23に出力する。局所ブロック設定部23は、2値化されてぼかされたパターン用画像上のランダムな位置に複数nの局所ブロックを設定し、各局所ブロックの領域を抽出して局所特徴量算出部24に出力する。
【0052】
ステップS3において、局所特徴量算出部24は、各局所ブロックから抽出された、2値化されてぼかされたパターン用画像の領域を1つのパターンとみなし、その特徴量を算出して、特徴プール12に出力して登録させる。
【0053】
ステップS4において、不変特徴量学習部11は、学習用画像を取得する。この学習用画像は覗き窓設定部25に入力される。
【0054】
ステップS5において、覗き窓設定部25は、学習用画像(動画像)の各フレームの所定の固定位置に所定のサイズの覗き窓を設定し、各覗き窓の領域を抽出して特徴量算出部26に出力する。特徴量算出部26は、各除き窓から抽出された、学習用画像の各フレームの領域の特徴量を算出してマッチング判定部27に出力する。マッチング判定部27は、学習用画像の各フレームの覗き窓の領域の特徴量に基づき、特徴プール12に登録されているn種類のパターンのうち、最も適合するものを特定してアフィニティマトリクス生成部28に出力する。
【0055】
アフィニティマトリクス生成部28は、学習用画像の各フレームの覗き窓に対して特定されたパターンに基づいてアフィニティマトリクスWを生成してグルーピング部29に出力する。具体的には、例えば、学習用画像の各フレームを順次、基準フレームに設定する。そして、基準フレームの覗き窓に対して特定されたパターンをパターンXiとし、基準フレームとの時間的距離が時間τ以内のフレームのうちでパターンXjが特定されたフレームの数をカウントして積算する確率Pijを演算する。このようにして得られた確率Pijを要素としてアフィニティマトリクスWを生成する。
【0056】
ステップS6において、グルーピング部29は、入力されたアフィニティマトリクスWに基づき、スペクトラルクラスタリングを用いて、n種類のパターンをグルーピングし、そのグルーピング結果を特徴プール12に通知する。ステップS7において、特徴プール12は、登録されているn種類のパターンのグルーピング結果も登録する。同一のグループに分類されたパターン(の特徴量)が不変特徴量となる。以上で登録処理は終了される。
【0057】
以上に説明した登録処理のステップS4において、より長時間の学習用画像を用いることにより、高い学習の効果が得られる、すなわち、適切なグルーピングが行われることが期待できる。
【0058】
このようにして学習された特徴プール12には、n種類のパターンがグルーピングされて、すなわち、不変特徴量として登録されるので、これを用いて動画像上の物体を認識する際に用いることにより、動画像上の物体が複雑な動きをしたとしても、それを高い精度で識別することが可能となる。また、静止画像上の物体も高い精度で識別することが可能となる。
【0059】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0060】
図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0061】
このコンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
【0062】
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
【0063】
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
【0064】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
【0065】
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
【0066】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0067】
10 画像認識装置, 11 不変特徴量学習部, 12 特徴プール, 13 認識部, 21 2値化部, 22 フィルタリング処理部, 23 局所ブロック設定部, 24 局所特徴量算出部, 25 除き窓設定部, 26 特徴量算出部, 27 マッチング判定部, 28 アフィリティマトリクス生成部, 29 グルーピング部,100 コンピュータ, 101 CPU
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、画像上の物体を認識する場合に用いて好適な情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
従来、画像(静止画像または動画像)上に存在する物体を認識するための技術が存在する。その方法の1つとして、画像上に覗き窓を設け、覗き窓の領域の特徴量を算出し、様々な既知の物体に対応して予め用意されているパターンの特徴量と比較して、各局所ブロックがどのパターンに最も一致するかを特定する方法がある。
【0003】
しかしながら、例えば人の膝などのように関節を有する物体を動画像上から認識しようとした場合、図1に示すように、当該物体は単に移動するだけでなく、より複雑な動きをする。したがって、当該物体に注目した場合、時刻t1の状態を基準としてその後の状態と比較すると、同一の物体であるにも拘わらず、図2に示すように徐々に相関値が低下してしまい、各時刻において特定されるパターンが異なるものとなってしまう。すなわち、時刻t1の膝の画像に対しては特徴量x1のパターン(パターンx1とも記述する。他のパターンについても同様とする)が特定され、時刻t2の膝の画像に対しては特徴量x2のパターンx2が特定されることになる。
【0004】
各パターンの特徴量x1乃至x4は、図3Aに示すようにそれぞれが異なる値である。しかしながら、上述したように、同一の物体(人の膝)に対応するものとして識別するためには、何らかの変換式(射影関数など)やグルーピングなどにより、図3Aに示す特徴量x1乃至x4を、図3Bに示す不変特徴量空間上に集めて、同一の物体に対応する特徴量であることを学習しておく必要がある。
【0005】
そこで従来、異なるパターンを学習によりグルーピングする方法として、学習用画像(動画像)の各フレーム上に位置を固定した覗き窓を設け、覗き窓から抽出した画像の時間変化を利用してパターンを学習する方法が提案されている。
【0006】
例えば、非特許文献1に記載の方法では、時間的にパターンの応答を持続させることで、多少変化したパターンが入ってきても、同じパターンが反応するように重みを学習するようになされている。
【0007】
また、非特許文献2に記載では、局所ブロックの時間的な遷移に基づいてパターンのグルーピングを行っている。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】Learning Invariance from Transformation Sequences, Peter Foldiak, Neural Computation,1991
【非特許文献2】PHD Thesis of Dileep George, “How The Brain Might Work: A Hierarchical and Temporal Model for Learning and Recognition”
【発明の概要】
【発明が解決しようとする課題】
【0009】
上述した、非特許文献1に記載の方法では、局所的な入力にのみ注視しているので、動画像に含まれるノイズに弱いという欠点があった。
【0010】
非特許文献2に記載の方法では、局所ブロックの時間的な遷移に基づくものの、隣り合うフレーム間の関係を一方向にのみ利用しているに過ぎず、パターンのグルーピング方法に改善の余地がある。
【0011】
本発明はこのような状況に鑑みてなされたものであり、時間的に近いフレーム間の関係を双方向に利用することにより、パターンのグルーピングを最適化し、これにより画像上の物体を高い精度で認識できるようにするものである。
【課題を解決するための手段】
【0012】
本発明の一側面である情報処理装置は、異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出手段と、学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定手段と、前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算手段と、演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピング手段とを含む。
【0013】
前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第1の画像パターンXiとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第2の画像パターンXjが特定されたフレームの数をカウントし、カウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Pijを演算するようにすることができる。
【0014】
前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第1の画像パターンXiとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第2の画像パターンXjが特定されたフレームの数を前記基準フレームとの時間的距離に応じて重み付けしてカウントし、重み付けしてカウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Pijを演算するようにすることができる。
【0015】
前記グルーピング手段は、演算された前記共起確率Pijにスペクトラルクラスタリングを適用して前記複数nの画像パターンをグルーピングするようにすることができる。
【0016】
本発明の一側面である情報処理装置は、パターン用画像の異なる複数nの位置から所定のサイズの局所ブロックを抽出することにより前記複数のnの画像パターンを生成する画像パターン生成手段をさらに含むことができる。
【0017】
本発明の一側面である情報処理装置は、認識対象画像に対して、グルーピングされている前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定し、特定結果に基づいて前記認識対象画像上の物体を認識する認識手段をさらに含むことができる。
【0018】
本発明の一側面である情報処理方法は、同一の物体に対応する画像パターンをグルーピングする情報処理装置の情報処理方法において、前記情報処理装置による、異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算ステップと、演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピングステップとを含む。
【0019】
本発明の一側面であるプログラムは、同一の物体に対応する画像パターンをグルーピングする情報処理装置の制御用のプログラムであって、異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算ステップと、演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピングステップとを含む処理を情報処理装置のコンピュータに実行させる。
【0020】
本発明の一側面においては、異なる複数nの画像パターンそれぞれに対して特徴量が算出され、学習用動画像を構成する時間的連続性がある各フレームに対して複数nの画像パターンのうち、最も適合する画像パターンが特定され、複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijが演算され、演算された共起確率Pijを用いて複数nの画像パターンがグルーピングされる。
【発明の効果】
【0021】
本発明の一側面によれば、画像認識用のパターンを最適にグルーピングすることができる。また、本発明の一側面によれば、画像上の物体を高い精度で認識できる。
【図面の簡単な説明】
【0022】
【図1】認識対象の物体を含む動画像の一例を示す図である。
【図2】図1に対応する時間経過と相関値の関係を示す図である。
【図3】不変特徴量空間を説明する図である。
【図4】本発明の概要を説明する図である。
【図5】アフィニティマトリクスを示す図である。
【図6】アフィニティマトリクスを幾何的に表したグラフを示す図である。
【図7】本発明を適用した画像認識装置の構成例を示すブロック図である。
【図8】図7の不変特徴量学習部11の詳細な構成例を示すブロック図である。
【図9】パターン用画像の一例を示す図である。
【図10】学習用画像の一例を示す図である。
【図11】スペクトラルクラスタリングを説明するための図である。
【図12】学習処理を説明するフローチャートである。
【図13】コンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0023】
以下、発明を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。なお、説明は、以下の順序で行なう。
1.本発明の概要
2.実施の形態
【0024】
<1.本発明の概要>
図4乃至図6は、動画像上に存在する物体を認識するためのパターンのグループを自動的に学習するための手法の概要を示している。
【0025】
図4に示すように、動画像の連続したフレームの所定の位置から抽出した局所ブロックの画像が推移した場合、すなわち、縦方向に伸びた物体が画面内で右方向に移動した場合、各時刻の局所ブロックに対して、n種類のパターンのいずれかが特定される。
【0026】
時刻tのフレームの局所ブロックに対して特定されたパターンをXiとして、時刻tよりも時間(時間的距離)τだけ前の時刻t−τから、時間τだけ後の時刻t+τまでの時間のフレームの局所ブロックに対してパターンXjが特定される共起確率Pij(以下、単に確率Pijと称する)について考える。時間τは任意の値である。この確率Pijは、パターンXiが特定された時刻tを中心とする時刻t−τから時刻t+τまでの時間に、パターンXjが特定されたフレームの数をカウントすることにより取得することにする。したがって、確率Pijは0以上の値となる。
【0027】
ただし、パターンXjが特定されたフレーム数を単にカウントするだけでなく、時刻tに時間的に近いほどカウントする値が大きくなるように、時刻tに対する時間的距離に応じた重み付け係数を乗算してからカウントするようにしてもよい。
【0028】
図5は、このようにして得られる確率Pijを要素とするアフィニティマトリクス(Affinity Matrix)Wを示している。
【0029】
このアフィニティマトリクスWは、パターンの数がn種類であることからn×nの正方行列となる。また、アフィニティマトリクスWの要素である確率Pijは、パターンXiとパターンXjの時間間隔に依存し、その時間方向には依存しないので、確率Pij=確率Pjiとなる。したがって、アフィニティマトリクスWの各要素の値は、対角成分を結ぶ線に対して線対称となる。
【0030】
図6は、アフィニティマトリクスWを幾何的なグラフG=(V,E)に表したものである。このグラフG=(V,E)における各ノードが各パターンに対応し、エッジの太さが確率に対応する。例えば、パターンXiに対応するノードとパターンXjに対応するノードを結ぶエッジの太さが確率Pijに相当する。
【0031】
したがって、n種類のパターンをグルーピングすることは、図6に示されたグラフG=(V,E)におけるノードをグルーピングすることと等価である。グラフG=(V,E)のノードのグルーピングには、既存の手法であるグラフカット(Graph Cut)、スペクトラルクラスタリング(Spectral Clustering)などを用いることが考えられる。
【0032】
ノードのグルーピングにスペクトラルクラスタリングを適用できる条件は、エッジの重み(太さ)が正であること、確率Pij=確率Pjiとなる対称性を有することである。図5に示されたアフィニティマトリクスは、上述したように、確率Pijは0以上の値であり、確率Pij=確率Pjiであるのでスペクトラルクラスタリングを適用できることが確認できる。よって、以下に説明する実施の形態においては、n種類のパターンをスペクトラルクラスタリングによりグルーピングするようにする。
【0033】
<2.実施の形態>
[画像認識装置の構成例]
図7は、本発明の一実施の形態である画像認識装置の構成例を示している。この画像認識装置10は、不変特徴量学習部11、特徴プール12、および認識部13から構成される。
【0034】
不変特徴量学習部11は、入力されるパターン用画像(静止画像)を切り出すことによりn種類のパターンを作成するとともに、各パターンの特徴量を算出して特徴プール12に登録する。また、不変特徴量学習部11は、学習用画像(動画像)を用いて、特徴プール12に登録されているn種類のパターンをグルーピングする。
【0035】
特徴プール12には、n種類のパターンとその特徴量がグルーピングされて登録されている。ここで、同一のグループに分類されたパターン(の特徴量)が不変特徴量となる。
【0036】
認識部13は、入力される認識対象画像(動画像)のフレームを複数の局所ブロックに分割して各局所ブロックの特徴量を算出し、特徴プール12に登録されているn種類のパターンの特徴量と比較して、各局所ブロックがどのパターンに最も一致するかを特定する。そして、その特定結果と各パターンのグルーピングの状況に基づき、認識対象画像上の物体を認識して認識結果を出力する。なお、認識部13による認識処理は既存の任意の方法を適用することができる。また、認識部13においては、静止画像を認識対象画像とすることができる。
【0037】
図8は、図7の不変特徴量学習部11の詳細な構成例を示している。不変特徴量学習部11は、2値化部21、フィルタリング部22、局所ブロック設定部23、局所特徴量算出部24、覗き窓設定部25、特徴量算出部26、マッチング判定部27、アフィリティマトリクス生成部28、およびグルーピング部29から構成される。
【0038】
2値化部21は、入力されるパターン用画像の画素を2値化してフィルタリング部22に出力する。パターン用画像としては、例えば図9に示すように、縦横数十画素程度のシンプルな画像を用いればよい。
【0039】
フィルタリング部22は、例えばガウシアンスムージングフィルタなどを用いることにより、2値化されたパターン用画像にぼかし処理を行って局所ブロック設定部23に出力する。
【0040】
局所ブロック設定部23は、2値化されてぼかされたパターン用画像上のランダムな位置に複数nの局所ブロック(例えば、4×4画素)を設定し、各局所ブロックの領域を抽出して局所特徴量算出部24に出力する。局所特徴量算出部24は、各局所ブロックから抽出された、2値化されてぼかされたパターン用画像の領域を1つのパターンとみなし、その特徴量を算出して、特徴プール12に出力して登録させる。なお、この局所特徴量の算出方法については、既存の任意の算出方法を用いればよい。これにより、特徴プール12には、n種類のパターンに対応付けてその特徴量が登録されたことになる。
【0041】
覗き窓設定部25は、学習用画像(動画像)の各フレームの所定の固定位置に所定のサイズの覗き窓を設定し、各覗き窓の領域を抽出して特徴量算出部26に出力する。学習用画像としては、例えば図10に示すように、既知の任意の物体が被写体となっている画像を用いればよい。
【0042】
特徴量算出部26は、局所特徴量算出部24と同様の特徴量算出方法により、各除き窓から抽出された、学習用画像の各フレームの領域の特徴量を算出してマッチング判定部27に出力する。
【0043】
マッチング判定部27は、学習用画像の各フレームの覗き窓の領域の特徴量に基づき、特徴プール12に登録されているn種類のパターンのうち、最も適合するものを特定してアフィニティマトリクス生成部28に出力する。
【0044】
アフィニティマトリクス生成部28は、学習用画像の各フレームの覗き窓に対して特定されたパターンに基づき、確率Pijを要素とするn×nのアフィニティマトリクスWを生成してグルーピング部29に出力する。
【0045】
グルーピング部29は、入力されるアフィニティマトリクスWに基づき、スペクトラルクラスタリングを用いてn種類のパターンをグルーピングし、その結果を特徴プール12に通知する。これにより、特徴プール12に登録されているn種類のパターンがグルーピングされたことになる。ここで、同一のグループに分類されたパターン(の特徴量)が不変特徴量となる。
【0046】
ここで、グルーピング部29によるスペクトラルクラスタリングを用いたn種類のパターンのグルーピングについて説明する。
【0047】
図11は、スペクトラルクラスタリングの概要を示している。まず、アフィニティマトリクスWの要素である確率Pijを各行毎に積算して、その値の対角成分の値とすることによりn×nの行列Dを生成する。次に、アフィニティマトリクスWから行列Dを減算してラプラシアン(Laplacian)L=W−Dを算出する。次に、ラプラシアンLの固有値および固有ベクトルを算出し、M≪n個の固有ベクトルから写像を計算し、それをKmeans法によってクラスタリングすることにより、n種類のパターンを複数のグループにグルーピングする。
【0048】
なお、グルーピング部29によるスペクトラルクラスタリングの手順は上述したものに限定されず、任意の手順にしたがって実行するようにしてもよい。また、グルーピング部29においてスペクトラルクラスタリング以外の方法、例えば、Kmeams法により、n種類のパターンをグルーピングするようにしてもよい。
【0049】
[動作説明]
次に、不変特徴量学習部11による学習処理について説明する。図12は、当該学習処理を説明するフローチャートである。
【0050】
ステップS1において、不変特徴量学習部11は、パターン用画像を取得する。このパターン用画像は2値化部21に入力される。
【0051】
ステップS2において、2値化部21は、パターン用画像の画素を2値化してフィルタリング部22に出力する。フィルタリング部22は、2値化されたパターン用画像にぼかし処理を行って局所ブロック設定部23に出力する。局所ブロック設定部23は、2値化されてぼかされたパターン用画像上のランダムな位置に複数nの局所ブロックを設定し、各局所ブロックの領域を抽出して局所特徴量算出部24に出力する。
【0052】
ステップS3において、局所特徴量算出部24は、各局所ブロックから抽出された、2値化されてぼかされたパターン用画像の領域を1つのパターンとみなし、その特徴量を算出して、特徴プール12に出力して登録させる。
【0053】
ステップS4において、不変特徴量学習部11は、学習用画像を取得する。この学習用画像は覗き窓設定部25に入力される。
【0054】
ステップS5において、覗き窓設定部25は、学習用画像(動画像)の各フレームの所定の固定位置に所定のサイズの覗き窓を設定し、各覗き窓の領域を抽出して特徴量算出部26に出力する。特徴量算出部26は、各除き窓から抽出された、学習用画像の各フレームの領域の特徴量を算出してマッチング判定部27に出力する。マッチング判定部27は、学習用画像の各フレームの覗き窓の領域の特徴量に基づき、特徴プール12に登録されているn種類のパターンのうち、最も適合するものを特定してアフィニティマトリクス生成部28に出力する。
【0055】
アフィニティマトリクス生成部28は、学習用画像の各フレームの覗き窓に対して特定されたパターンに基づいてアフィニティマトリクスWを生成してグルーピング部29に出力する。具体的には、例えば、学習用画像の各フレームを順次、基準フレームに設定する。そして、基準フレームの覗き窓に対して特定されたパターンをパターンXiとし、基準フレームとの時間的距離が時間τ以内のフレームのうちでパターンXjが特定されたフレームの数をカウントして積算する確率Pijを演算する。このようにして得られた確率Pijを要素としてアフィニティマトリクスWを生成する。
【0056】
ステップS6において、グルーピング部29は、入力されたアフィニティマトリクスWに基づき、スペクトラルクラスタリングを用いて、n種類のパターンをグルーピングし、そのグルーピング結果を特徴プール12に通知する。ステップS7において、特徴プール12は、登録されているn種類のパターンのグルーピング結果も登録する。同一のグループに分類されたパターン(の特徴量)が不変特徴量となる。以上で登録処理は終了される。
【0057】
以上に説明した登録処理のステップS4において、より長時間の学習用画像を用いることにより、高い学習の効果が得られる、すなわち、適切なグルーピングが行われることが期待できる。
【0058】
このようにして学習された特徴プール12には、n種類のパターンがグルーピングされて、すなわち、不変特徴量として登録されるので、これを用いて動画像上の物体を認識する際に用いることにより、動画像上の物体が複雑な動きをしたとしても、それを高い精度で識別することが可能となる。また、静止画像上の物体も高い精度で識別することが可能となる。
【0059】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0060】
図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0061】
このコンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
【0062】
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
【0063】
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
【0064】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
【0065】
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
【0066】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0067】
10 画像認識装置, 11 不変特徴量学習部, 12 特徴プール, 13 認識部, 21 2値化部, 22 フィルタリング処理部, 23 局所ブロック設定部, 24 局所特徴量算出部, 25 除き窓設定部, 26 特徴量算出部, 27 マッチング判定部, 28 アフィリティマトリクス生成部, 29 グルーピング部,100 コンピュータ, 101 CPU
【特許請求の範囲】
【請求項1】
異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出手段と、
学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定手段と、
前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算手段と、
演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピング手段と
を含む情報処理装置。
【請求項2】
前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第1の画像パターンXiとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第2の画像パターンXjが特定されたフレームの数をカウントし、カウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Pijを演算する
請求項1に記載の情報処理装置。
【請求項3】
前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第1の画像パターンXiとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第2の画像パターンXjが特定されたフレームの数を前記基準フレームとの時間的距離に応じて重み付けしてカウントし、重み付けしてカウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Pijを演算する
請求項2に記載の情報処理装置。
【請求項4】
前記グルーピング手段は、演算された前記共起確率Pijにスペクトラルクラスタリングを適用して前記複数nの画像パターンをグルーピングする
請求項2に記載の情報処理装置。
【請求項5】
パターン用画像の異なる複数nの位置から所定のサイズの局所ブロックを抽出することにより前記複数のnの画像パターンを生成する画像パターン生成手段を
さらに含む請求項2に記載の情報処理装置。
【請求項6】
認識対象画像に対して、グルーピングされている前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定し、特定結果に基づいて前記認識対象画像上の物体を認識する認識手段を
さらに含む請求項2に記載の情報処理装置。
【請求項7】
同一の物体に対応する画像パターンをグルーピングする情報処理装置の情報処理方法において、
前記情報処理装置による、
異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、
学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、
前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算ステップと、
演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピングステップと
を含む情報処理方法。
【請求項8】
同一の物体に対応する画像パターンをグルーピングする情報処理装置の制御用のプログラムであって、
異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、
学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、
前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算ステップと、
演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピングステップと
を含む処理を情報処理装置のコンピュータに実行させるプログラム。
【請求項1】
異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出手段と、
学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定手段と、
前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算手段と、
演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピング手段と
を含む情報処理装置。
【請求項2】
前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第1の画像パターンXiとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第2の画像パターンXjが特定されたフレームの数をカウントし、カウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Pijを演算する
請求項1に記載の情報処理装置。
【請求項3】
前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第1の画像パターンXiとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第2の画像パターンXjが特定されたフレームの数を前記基準フレームとの時間的距離に応じて重み付けしてカウントし、重み付けしてカウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Pijを演算する
請求項2に記載の情報処理装置。
【請求項4】
前記グルーピング手段は、演算された前記共起確率Pijにスペクトラルクラスタリングを適用して前記複数nの画像パターンをグルーピングする
請求項2に記載の情報処理装置。
【請求項5】
パターン用画像の異なる複数nの位置から所定のサイズの局所ブロックを抽出することにより前記複数のnの画像パターンを生成する画像パターン生成手段を
さらに含む請求項2に記載の情報処理装置。
【請求項6】
認識対象画像に対して、グルーピングされている前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定し、特定結果に基づいて前記認識対象画像上の物体を認識する認識手段を
さらに含む請求項2に記載の情報処理装置。
【請求項7】
同一の物体に対応する画像パターンをグルーピングする情報処理装置の情報処理方法において、
前記情報処理装置による、
異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、
学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、
前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算ステップと、
演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピングステップと
を含む情報処理方法。
【請求項8】
同一の物体に対応する画像パターンをグルーピングする情報処理装置の制御用のプログラムであって、
異なる複数nの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、
学習用動画像を構成する時間的連続性がある各フレームに対して前記複数nの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、
前記複数nの画像パターンのうちの第1の画像パターンXiが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数nの画像パターンのうちの第2の画像パターンXjが特定された確率を示す共起確率Pijを演算する演算ステップと、
演算された前記共起確率Pijを用いて前記複数nの画像パターンをグルーピングするグルーピングステップと
を含む処理を情報処理装置のコンピュータに実行させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2011−186780(P2011−186780A)
【公開日】平成23年9月22日(2011.9.22)
【国際特許分類】
【出願番号】特願2010−51361(P2010−51361)
【出願日】平成22年3月9日(2010.3.9)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
【公開日】平成23年9月22日(2011.9.22)
【国際特許分類】
【出願日】平成22年3月9日(2010.3.9)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
[ Back to top ]