類似度評価装置及び方法

【課題】模範時系列データに対する評価対象時系列データの類似度を、個別パターン区間毎に逐次的に評価する類似度評価装置を提供する。
【解決手段】模範時系列データは予め時系列上の所定箇所で個別パターンの区間Y_i(i=1,…,n)に分割され、区間ごとに特徴量時系列y_i(i=1,…,n)を抽出しておく。類似度評価装置1は、順次入力される評価対象時系列データの類似度を、所定分割と同間隔をなす評価対象個別パターン区間X_i(i=1,…,n)ごとに順次評価するため、個別区間X_iより、模範時系列データより予め抽出されたのと同種の特徴量時系列x_iを抽出する特徴量抽出部2と、個別区間X_iの特徴量時系列x_iと、模範個別パターン区間Y_iの特徴量時系列y_iとの類似度を求める類似度算出部4とを備えて提供される。特徴量には主成分得点を利用してもよい。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、模範となる時系列データと評価対象となる時系列データとの類似度評価に関し、特に、模範時系列データに対する評価対象時系列データの類似度を、両データを順次構成している個別パターン毎に逐次的に評価することのできる類似度評価装置及び方法に関する。
【背景技術】
【０００２】
動作、音声、気候変動といったような、概ね周期的な個別パターンの連続として表現される各種の時系列データが存在する。こうした時系列データ間の類似度を求めることができれば、当該時系列データの表している現象同士の類似度を求めることができる。この際に、時系列データの全体が得られるのを待たずに、逐次的に個別パターンの類似度を評価できれば種々の応用が可能となる。時系列データの典型的な一例として動作映像(特に例えば、ダンス映像)を考えた場合、例えば次のような応用が考えられる。
【０００３】
ダンスの練習者は、ダンス専門家（教師）の動きを繰り返し模倣することで練習をすることが一般的である。自分のダンスの習熟度を知ることは技能向上のためには不可欠であるが、自分ひとりでその習熟度を把握することは難しい。一方、ダンスにおいては、特に動きのリズム感が重要と言われている。そのため、リズムの習熟度を自動的且つ逐次的に採点（評価）できるシステムがあれば望ましい。
【０００４】
以下の特許文献１（身体動作解析装置）には、ダンスをしている練習者の映像から、練習者の動きのリズムを抽出する技術が公開されている。まず、入力される映像から背景を分離し人物のシルエット画像を抽出し、その細線化によりスケルトン画像に変換する。得られたスケルトン画像をハフ変換することで、スケルトン画像の各部位の直線のパラメータを得る。さらにカルマンフィルタによってハフパラメータを時間方向に追跡して得た予測値を各部位のパラメータとし、それをＳＶＤ (Singular Value Decomposition) を用いて変換することで全体の動きを表す動き特徴量系列を求める。得られた全体の動きを表す動き特徴量系列をフーリエ変換して、お手本である教師と練習者の間で、教師のピークを持つ周波数のスペクトル強度と、練習者における当該周波数のスペクトル強度を比較することにより、リズムの評価を可能としている。
【０００５】
また、以下の非特許文献1では、教師、練習者の各映像に対して主成分分析を行うことで、動き特徴量である各主成分得点系列を求め、次にこの系列同士をDPマッチングにより時間軸上で対応付ける。教師の主成分得点系列が既知の場合、この系列間の時間軸上の対応から、教師の動作リズムに対応する学習者の動作リズムのずれが求まるとしている。映像フレームシーケンス全体に対して、主成分分析及びDPマッチングの適用することで、時間セグメント毎の評価を行う。
【０００６】
さらに、以下の非特許文献2では、音楽に合わせてダンスを自動生成することを目的として、モーションキャプチャによって得られた各部位の特徴量に対して、短時間主成分分析（Short Term Principal Component Analysis, ST-PCA）を適用し、逐次的に動き特徴量を求める手法を提案している。さらにその動き特徴量から求めた動きのビートと音楽のビートを合わせることで、音楽にマッチする動きを逐次的に求める手法を提案している。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開2005-339100号公報
【非特許文献】
【０００８】
【非特許文献１】今野ら，DTWを用いた動きのリズム評価に関する一検討，信学会全国大会講演論文集，2011
【非特許文献２】Xuら，Beat Induction from Motion Capture Data Using Short-Term Principal Component Analysis, Journal of ITE2010（映像情報メディア学会論文誌）
【発明の概要】
【発明が解決しようとする課題】
【０００９】
教師（模範）映像を見ながら練習者（評価対象）が動作をする場合、練習者の動きには教師との動きとの間にリズム的な差異が生じる。その差異が大きくなった箇所を検出し、練習者にフィードバックすることができれば有用である。しかしながら、特許文献1の実施例で示されている手法では、得られた動き特徴量に対して、所定の時間幅（分析幅）で周波数解析を行うことで、教師におけるピーク周波数と練習者におけるピーク周波数を比較することによりリズムを評価するとしている。この分析幅の設定方法に関しては詳しく言及されておらず、教師及び練習者の映像の全フレームに対して全体のリズムの評価は可能であっても、局所時間毎のリズム、すなわち個別動作を評価することはできない。
【００１０】
また、非特許文献1では、DPマッチングを用いて、局所時間毎にリズムを評価できるとしているが、主成分分析の分析幅やDPマッチングのマッチング幅は、映像全体のシーケンスが得られた上で当該シーケンス全体に適用することを前提としており、局所時間の映像シーケンスのみではリズムの評価は行うことができないため、逐次的な評価はできない。
【００１１】
また、非特許文献2では、モーションキャプチャデータの時系列データに対して、短時間主成分分析をすることで、局所時間毎に動作特徴量を求めることができるが、音楽と動きのマッチングを目的としているため、動き同士のリズム評価に関しての効果は全く不明である。
【００１２】
すなわち、時系列データの典型的な一例として動作映像を考えた場合、上記のように従来技術においては、模範映像における動作と評価対象映像における動作との、対応する局所時間毎における個別動作の類似度を逐次的に評価することはできない。
【００１３】
本発明は、このような事情に鑑みてなされたものであり、その目的は、模範となる時系列データと評価対象となる時系列データとの、対応する局所時間毎における個別パターン区間の類似度を逐次的に評価する類似度評価装置及び方法を提供することにある。
【課題を解決するための手段】
【００１４】
上記の目的を達成するため、本発明は、予め時系列上の所定箇所で個別パターンの区間Y_i(i=1,…,n)に分割され、当該区間Y_iの特徴量時系列y_i(i=1,…,n)が抽出された所定の模範時系列データに対して、順次入力される評価対象時系列データの類似度を、前記所定箇所による分割と同間隔をなす評価対象個別パターン区間X_i(i=1,…,n)ごとに順次評価する類似度評価装置(ここでiは時系列上の順番を表す添字、nは所与の自然数とする)であって、前記順次入力される評価対象個別パターン区間X_iより、前記模範時系列データより予め抽出されたのと同種の特徴量時系列x_iを抽出する特徴量抽出部と、前記評価対象個別パターン区間X_iの特徴量時系列x_iと、前記模範時系列データの個別パターン区間Y_iの特徴量時系列y_iとの類似度を求める類似度算出部とを備えることを特徴とする。
【００１５】
また、本発明は、予め時系列上の所定箇所で個別パターンの区間Y_i(i=1,…,n)に分割され、当該区間Y_iの特徴量時系列y_i(i=1,…,n)が抽出された所定の模範時系列データに対して、順次入力される評価対象時系列データの類似度を、前記所定箇所による分割と同間隔をなす評価対象個別パターン区間X_i(i=1,…,n)ごとに順次評価する類似度評価方法(ここでiは時系列上の順番を表す添字、nは所与の自然数とする)であって、前記順次入力される評価対象個別パターン区間X_iより、前記模範時系列データより予め抽出されたのと同種の特徴量時系列x_iを抽出する特徴量抽出ステップと、前記評価対象個別パターン区間X_iの特徴量時系列x_iと、前記模範時系列データの個別パターン区間Y_iの特徴量時系列y_iとの類似度を求める類似度算出ステップとを備えることを特徴とする。
【発明の効果】
【００１６】
本発明によれば、模範時系列データの個別パターンの区間に対する評価対象時系列データの個別パターンの区間の類似度を、評価対象時系列データ全体が得られるのを待つことなく、順次現れる個別パターン区間毎に逐次的に評価することができる。
【図面の簡単な説明】
【００１７】
【図１】本発明の概要を説明する図である。
【図２】類似度評価装置の機能ブロック図である。
【図３】動作特徴量として主成分得点を利用しない実施形態における類似度評価方法のフローチャートである。
【図４】DPマッチングを、傾斜制限がない場合(A)とある場合(B)とにつき模式的に説明する図である。
【図５】動作特徴量として主成分得点を利用する各実施形態における類似度評価方法のフローチャートである。
【図６】主成分得点を利用する第一実施形態での処理の例を示す図である。
【図７】主成分得点を利用する第二実施形態での処理の例を示す図である。
【図８】主成分得点を利用する第三実施形態での処理の例を示す図である。
【図９】主成分得点を利用する第四実施形態での処理の例を示す図である。
【図１０】映像区間を固有値毎の主成分得点時系列に変換する処理の流れを説明する図である。
【図１１】第二実施形態ないし第四実施形態の効果を、代表例として第三実施形態の場合で説明する図である。
【図１２】時系列データに基づく図11の説明を、画素分布の観点で説明する図である。
【発明を実施するための形態】
【００１８】
以下に、図面を参照して本発明を詳細に説明する。図1は本発明の概要を説明する図である。本発明利用の一例として、お手本となる模範動作映像と比較して、評価対象となる練習者の動作映像のリズムの類似度を、局所時間毎に逐次的に評価する概略を説明する図である。
【００１９】
なお、本発明は一般には動作映像に限らず、局所時間毎にパターンを形成するような任意の時系列データに対して適用可能である。しかし以下では、時系列データの一例として動作映像を用いて説明する。
【００２０】
図1の(A)に示すように、お手本となる模範動作映像(a)を見ながら、練習者(b)はダンスの練習をする。そのダンスの練習映像をカメラ等で撮影して、評価対象映像とする。当該カメラは携帯端末付属であってもよく、本発明の類似度評価装置は当該携帯端末に含まれていてもよい。また、(A)に示すような形式以外によって、模範動作映像と該映像の動作に倣おうとする評価対象動作映像とを用意してもよい。
【００２１】
次に、図1の(B)のように、所定の長さの区間毎に，模範映像のフレーム群(a1)〜(a4)及び，練習者映像のフレーム群(b1)〜(b4)が得られる。各フレーム区間t₀〜t₁，t₁〜t₂，t₂〜t₃及びt₃〜t₄の動作を一つの単位として、模範映像と対応する練習者の両動作の個別区間内に含まれる個別動作ごとに、リズム(すなわち動き)の類似度を求める。その際に、時刻t₁において、フレーム群(a1)と(b1)とのリズムの類似度を求めることができ、当該時点t₁で評価結果である類似度やその類似度に基づく評価結果である「適」や「不適」などを出力することができる。
【００２２】
一方で、カメラ入力を想定すると，時刻t₁では，t₁以降のフレームは未知であるため、当然のことながら当該未知区間の類似度の評価を行うことはできない。時刻t₂になった時点で、(a2)と(b2)の類似度を評価できるようになる。また、このような個別評価結果を利用して、図1の(C)のように動画全体としてリズムの総合的な習熟度（模範映像の動作に対する評価対象映像の動作の全体的な類似度）を評価することもできる。
【００２３】
なお、本発明においては、模範映像が所与の映像であって予めその動作などが各種の手法によって解析済みであり、手本とすべき個別動作に対応する各フレーム区間t₀〜t₄及び各フレーム区間におけるお手本のフレーム群(a1)〜(a4)等も予め設定されているものとする。
【００２４】
例えば、模範映像はダンス教師によるダンスの映像であって、個別動作として例えば振り付けの所定単位動作ごとに、あるいは所定時間ごとに、各フレーム区間t₀〜t₁,t₁〜t₂，t₂〜t₃及びt₃〜t₄等の区切り箇所である、t₂及びt₃等を与えてある。このような前提で、当該模範映像に倣った動作がなされようとしている、未知の任意の評価対象映像において同一区間での局所時間毎の類似度を逐次的に評価する。
【００２５】
なお、本発明においては模範動作映像及び評価対象動作映像として、好ましくは静止して色分布・明るさ分布などが時間変化しない固定背景において、同様に色などの時間変化を伴わない所定の動作主体（例えば人）による、ダンス等のリズム評価ができるような概ね周期的な動作が映っている映像を想定している。映像においてその他の被写体の出入りが存在するのは好ましくない。
【００２６】
本発明では以下説明のため、次のように記号を定める。すなわち、所与の模範動作映像の個別動作区切れ箇所が予め時刻(又はフレーム番号)t₀,t₁,t₂,…,t_nと設定されているものとする。すなわち、時刻として映像開始からの経過時刻を用いればt₀=ゼロ、t_n=映像の長さ、である。このように、本発明において時刻や時点などは、映像の継続時間に対応するフレーム番号の意味で用いることとする。
【００２７】
さらに、利用する記号として、模範映像の各個別動作の区間(t_i-1≦時刻t≦t_i)をY_i(i=1,…,n)とする。すなわち、模範映像は自然数n個分の映像区間{Y₁, Y₂, … ,Y_n}として、順序付けられて構成されているものとする。例えば、図1の例ではY₁=(a1)などとなる。そして、模範動作映像の個別区間Y_iに対応する時刻(t_i-1≦時刻t≦t_i)の、評価対象動作映像の個別区間をX_iとする。すなわち、評価対象動作映像は区間{X₁, X₂, … ,X_n}として順序付けられて構成されているものとする。例えば、図1の例ではX₁=(b1)などとなる。
【００２８】
なお、各i番目の区間の長さ(＝t_i −t_i-1)は、模範映像の解析などによって、任意に設定することができる。特に同じ長さとする必要はない。
【００２９】
図2に本発明に係る類似度評価装置の機能ブロック図を示す。類似度評価装置1は、特徴量抽出部2、マッチング部31、主成分選択部32及び類似度算出部4を備える。なお、点線の機能ブロック3として示すマッチング部31及び主成分選択部32はオプションであり、利用せずとも本発明は実施可能である。特徴量抽出部2は、バッファリング部21、フレームデータ抽出部22及び主成分得点変換部23を含む。このうち、フレームデータ抽出部22及び主成分得点変換部23は、動作特徴量として主成分得点を利用する実施形態の場合にのみ用いられる。当該実施形態では、主成分選択部32も用いられる。
【００３０】
バッファリング部21は、模範映像を模倣しようとした評価対象映像をある所定の区間のフレーム群だけバッファリングする。当該各区間は本発明の各実施形態において予め解析された模範映像に基づいて予め設定され、評価対象映像の経過時刻によってバッファリング部21が自動識別するものとする。特徴量抽出部2は、当該バッファリングされたフレーム群から動作特徴量を時系列として抽出する。そして当該バッファリングされた区間を単位に、類似度算出部4が逐次的に両動作特徴量系列の類似度を求め、模範映像が終了する時間分の評価対象映像が読み込まれるまで、逐次的な評価を繰り返す。その他の機能ブロックは、各実施形態に応じて追加的な役割を果たす。
【００３１】
模範動作映像は、ネットワークなどを経由して所定の模範時系列データDB（模範時系列データデータベース）5より入手してもよい。当該模範時系列データDB5は類似度評価装置に含まれていてもよく、評価に利用する模範映像のみを類似度評価装置1に含まれる不図示の記録部などで保持しておいてもよい。
【００３２】
なおまた、模範映像については区間Y_i毎に特徴量抽出部2で評価対象動作映像より抽出するのと同種の特徴量が抽出され、機能ブロック群3以降で評価対象動作の特徴量と比較が行われる。模範映像は予め用意しておくので、評価対象動作を評価する際には映像としてでなく、図2に点線の矢印で示すように、上記のようにして予め抽出しておいた特徴量の形によって、機能ブロック群3以降で利用してもよい。また、評価対象動作映像を逐次読み込むのと並行して、模範映像も逐次読み込むようにしてもよい。以降、評価対象映像に対する処理として説明を行うが、このように模範映像も並行して処理を行ってもよい。
【００３３】
並行処理を行わない場合は、模範時系列データDB5では映像としてデータを格納しておくのに加えて、こうした予め抽出された特徴量の形でもデータを格納しておく。すなわち、模範映像から予め抽出しておく特徴量が、評価対象映像の評価のために利用される。映像データとしての模範映像は図1の(A)に示すように、例えば練習者が当該映像を見ながらダンスをするため、あるいは予め見て覚えてからダンスをするため等に利用される。
【００３４】
図3に、本発明の類似度逐次評価方法の一実施形態に係るフローチャートを示す。図3のフローは、動作特徴量として主成分得点を利用しない実施形態におけるフローであるが、後述の主成分得点を利用する実施形態においても図3のフローが前提となる。
【００３５】
カウンタiを設け、バッファリング部21におけるバッファにi番目に格納される映像データをb_iとして識別する。当該カウンタiを初期値i=1としてから、ステップS0でフローが開始される。ステップS1では、バッファリング部21がi番目に設定されたデータb_iが格納完了かを確認する。
【００３６】
ここで、主成分得点を利用しない当該実施形態では、バッファに格納するデータb_iは映像区間X_i(i=1,…,n)として予め設定される。すなわち、評価対象動作映像の経過時刻tがt_i-1≦t≦t_iの間、ステップS1にてバッファに映像区間X_iが格納完了されるまで待ってから、t=t_iの時点でステップS2に進む。
【００３７】
なお、当該ステップS1の判定はこのように、経過時間tがt=t_iとなることの確認により行われる。当該各t_iは、予め解析され各区間Y_iへと分割された模範映像により所定の値として、ステップS0以前で既に定まっている。
【００３８】
ステップS2では、バッファ格納データb_iすなわち区間映像X_iから、特徴量抽出部2が特徴量時系列x_iを抽出する。ここでは区間X_iの各時刻t(t_i-1≦t≦t_i)の１フレームX_i[t]より、特徴量時系列の各要素x_i[t]が抽出される。例えば、各時刻のフレームを画素の分布した静止画として、画素分布に基づいた画像特徴量として、特徴量時系列の各時刻の要素が求められる。このような画像特徴量が時系列に並ぶことで、動作特徴量として機能するようになる。
【００３９】
このような意味での動作特徴量として例えば、画素値の多次元ベクトル（各フレーム画像の大きさ次元）を用いることができる。また、（時間方向ではなく）画素方向のヒストグラムすなわち各フレームにおける画素値ヒストグラム（ヒストグラム区間数次元のベクトル）や、ブロック単位の画素値平均による多次元ベクトル（ブロック数次元のベクトル）を用いることができる。
【００４０】
また、静止画的な量に基づく特徴量ではなく直接的な動作特徴量x_i[t]として、フレームX_i[t]の前後時刻のフレームも利用して算出されるオプティカルフローなどを用いてもよい。こうした各種の動作特徴量は1次元量であっても、ベクトル等で表される高次元量であってもよい。各種の動作特徴量は、図1に例を示したような映像における動作に概ね対応して、時系列上で概ね周期的な振る舞いをする。(なお当該振る舞いは動作特徴量に主成分得点を利用する実施形態においても同様である。)
【００４１】
なおまた、上記各種の特徴量より明らかなように、ステップS1及びS2は「同時に」行ってもよい。すなわち、ステップS2のうちS1の完了を待たずとも実行可能な部分は、ステップS1の中で実施してもよい。格納データb_iの全てのバッファ内への読み込み完了を待たずとも、蓄積されつつあるバッファ内データによって特徴量時系列x_iの一部分が算出可能であれば、当該算出可能部分を算出しつつバッファ格納の完了を待ってもよい。
【００４２】
次にステップS3では、マッチング部31が動作特徴量時系列x_iとy_iとにDPマッチング等のマッチングを施して、両時系列の時間軸上の対応付けを行い、それぞれ時系列xm_iとym_iとなす。DPマッチングについては後に詳述するが、伸縮対応付けが行われるので、時系列xm_iとym_iとはマッチング前の時系列x_iとy_iと比べて要素数が変動したデータとなる。
【００４３】
なお、当該ステップS3はオプションであり、括弧で囲んで示しているように、スキップしてもよい。DPマッチングを行うことで、両動作特徴量時系列同士を非線形に対応付けた上で次ステップS4に進むこととなる。DPマッチングをスキップした場合は、動作特徴量時系列x_iとy_iとはそのままで、次ステップS4に進むこととなる。
【００４４】
なお、y_iは模範映像の区間Y_iより予めステップS0以前に特徴量抽出部2によって抽出されている、ステップS2で抽出するx_iと同種であり且つ同時刻範囲で定義された動作特徴量である。
【００４５】
ステップS4では、類似度算出部4が、両個別動作区間X_iとY_iとの類似度を、動作特徴量時系列x_iとy_iとの類似度として算出する。ステップS3がスキップされず実行された場合は、当該x_iとy_iとの類似度を、xm_iとym_iとの類似度として算出する。また当該ステップS4にて、類似度算出部4は算出した類似度を適宜ユーザに向けて出力する。当該出力には類似度の値を直接用いてもよいし、規格化した値としてもよい。また所定の閾値条件を満たすか否かによって、例えば図1の(B)に示したような「適」、「不適」のような形式として出力してもよい。
【００４６】
ここでの類似度は、両特徴量時系列を当該時系列の長さ次元のベクトルとみなしたうえで、ユークリッド距離やマハラノビス距離などの距離関数や、cos類似度(コサイン類似度)や相関係数などの類似度関数を用いて算出することができる。また、両時系列の局所的な、すなわち当該区間における周波数解析を行って、スペクトル分布の距離（例えばピーク周波数の差異）に基づいて類似度を算出してもよい。こうした算出の前処理として、予め模範映像の区間Y_iを解析することで当該区間Y_i内に重要部分と非重要部分との区別などを設け、両時系列の要素毎に所定の重みを持たせるようにしてもよい。
【００４７】
コサイン類似度は、2つのベクトルの方向の類似性を図る指標として知られている。リズムは動きの大きさには大きく依存せず知覚されるものであるため、ベクトルの大きさではなく方向の類似性を見るコサイン類似度は評価指標として適していると考えられる。なお、コサイン類似度は平均（特徴量時系列を、横軸を時間としてプロットした場合の縦軸方向のシフトに相当）には依存するため、必要に応じて各局所区間(Y_iやX_i)において平均0となるように正規化を行う。縦軸方向のシフトを考慮したのが，相関係数である．
【００４８】
コサイン類似度や相関係数を用いる場合、これらは[-1、1]の範囲の値しか取らないため、上記の閾値を簡単に設定できる。例えば、コサイン類似度を用いる場合，ベクトルの方向（角度）のずれが、π/6以下であれば、「適」とするといったことができる。さらに、(ステップS3をスキップせずに)DPマッチング等のマッチングを適用した上でコサイン類似度で評価することで、区間内で2つのベクトルに絶対的な時間のずれが微妙に生じている場合でも類似度が高いと評価することができるようになる。すなわち、人間の知覚的にもより妥当な結果が得られるようになる。
【００４９】
また本発明においては、個別動作として一連の概ね周期的な動作を想定しているので前記スペクトル分布などによる、周波数特徴に基づく類似度を用いることも好ましい。
【００５０】
以上ステップS4でi番目の個別区間の類似度を求めると、ステップS5では予め模範映像で設定した全n個の区間の評価が終わっているかを、カウンタiがnに等しいか否かによって類似度評価装置1が確認する。i=nであればステップS6に進み、フローは終了する。i≠nであればカウンタiを1増やして(図中i++として表記)、ステップS1に戻り、前述したフローを繰り返す。
【００５１】
なお、全区間の類似度が求まる際、すなわちi=nの際には、当該i=nの段階のステップS4において全区間の類似度の所定の重み付け和などに基づいて、類似度算出部4は両映像の全体としての類似度を求めてもよい。こうして図1の(C)に示したようないわば総合スコアを求め、ユーザに提示することができる。
【００５２】
ここで、前記ステップS3におけるマッチング部31による、マッチングの好ましい一例としてのDPマッチングについて説明する。DPマッチングにより、両時系列の要素同士は逐一対応づけされる。DPマッチングに関しては以下の非特許文献3に詳しい。
（非特許文献3）内田，"DPマッチング概説〜基本と様々な拡張〜"，電子情報通信学会技術研究報告，PRMU2006
【００５３】
DPマッチングは、パターン認識の分野で広く用いられ、本発明における動作特徴量時系列にも適用できる。動的計画法を用いることで、2つの特徴量時系列間の類似度を自動で算出すると共に、特徴量時系列同士を非線形に対応付けすることができる。(なお以下DPマッチングの説明内において、添え字iは前記区間YiやXiの指定のための添え字とは異なる。)
【００５４】
模範映像のi番目のフレームの動作特徴量p(i)と、評価対象映像のj番目のフレームの動作映像特徴量q(j)との距離をd(i,j)として、対応点(i,j)における累積距離g(i,j)を計算して最適経路をバックトレースすることで、2つの動作特徴量時系列間の類似度（終端時刻における累積距離）を求めるとともに、動作特徴量間の時間的な対応付けが行われる（以下の式1及び式2）。ここで初期条件は以下の(式3)で与える。
【００５５】
【数１】

【００５６】
【数２】

【００５７】
【数３】

【００５８】
こうして行われるDPマッチングの模式図を、図4の(A)に示す。また一方で、上記(式1)の代わりに以下の(式4)のような距離を定義すれば、動作特徴量間の距離とフレーム番号の距離との両方を考慮することができるため、時刻が大きく異なるフレーム同士が対応づくことを調整することができる。(式4)において動作特徴量間の距離の重みをw1、フレーム番号の距離の重みをw2とする。
【００５９】
【数４】

【００６０】
なお前述のとおり、マッチング対象である動作特徴量は必ずしも1次元である必要はなく、多次元ベクトルであっても構わないし、マッチング時にはそれらを正規化してもよい。また、距離関数は絶対値ではなく、多次元ベクトル間のユークリッド距離やcos類似度などで定義してもよいし、その他、所定の距離関数を利用してもよい。また、上記(式1)〜(式4)で紹介した一手法に限らず、(式2)における距離d(i,j)に所定係数を掛けたり、傾斜制限を設けるなど、非特許文献１に紹介されているような各種の変形手法を利用してもよい。
【００６１】
傾斜制限を設ければ、ＤＰマッチングにおいて局所的に極端な伸縮が起きることを制御することができる。(式2)で表される傾斜制限なしのＤＰマッチングおいては、ある一点だけが極端な伸縮をして、両ベクトル間の対応付けがなされることも許される（図4-(A)）。一方で、人間の動きに基づく特徴量であることを考えると、あまりに極端な伸縮は非現実的であり、実際は似ていない動きであっても過剰にマッチングしてしまうという問題がある。そこで、DPマッチングにおけるパスの傾斜に制約をかけることで、適切なマッチングが行える場合がある（図4-(B)）。
【００６２】
例えば、傾斜を1/2〜2に制限する場合は、(式2)の代りに以下の(式5)を利用すれば良い。また、(式5)の式を変更すれば、傾斜は1/2〜2に限らず、任意に制御可能である。
【００６３】
【数５】

【００６４】
マッチング部31でDPマッチングを用いる場合、動作特徴量時系列間を非線形に伸縮して対応付けることができるため、局所時間毎の模範動作と練習者の部分動作特徴量の要素がなす形状は似ているが時間的に微妙にずれていた場合でも、類似度が高いという評価をくだすことができる。
【００６５】
マッチング部31がDPマッチングではなく、例えば線形マッチングを行う場合には、時間的に微妙にずれているだけで、類似度が低くなり、これは人間の知覚と一致しないことが多い。また、マッチング一般の効果として、動作特徴量時系列の実際の波形は、滑らかな波形とは限らないがそういった場合においても適用できる。なおまたステップS3では、マッチング前後の波形を正規化したり、ローパスフィルタを適用して滑らかにするといった追加処理を加えてもよい。
【００６６】
次に、動作特徴量として主成分得点を用いる実施形態を説明する。当該実施形態での類似度評価方法のフローチャートを図5に示す。フローの骨格は図3と共通であり、図3のステップS0が図5のステップS01に、S1がS10に、S2がS20に、S3がS30に、S4がS40に、S5がS50に、S6がS60に対応する。主成分得点を扱うために図5にて新たに追加されるステップがS31である。よって以下、主成分得点を利用しない前記実施形態との差分の部分を主に説明する。
【００６７】
ステップS01では、図3と同様に、バッファへの蓄積データb_iのカウンタi=1としてフローが開始される。ステップS10では、i番目に設定されたデータb_iが格納完了されるまで待つことは、図3と同様である。ここで、当該主成分得点を利用する実施形態では、当該ステップS10におけるバッファに蓄積するデータb_iの設定と、対応するステップS20以降の処理とに各種の実施形態があり、図3との主要な差異点となる。
【００６８】
なお図3の説明と同様、データb_iの設定とは、評価対象映像のうちどの時間部分をデータb_iとして読み込むかの設定であり、ステップS10の判定は評価対象映像の経過時間が各所定値に達したかによって行われる。当該所定値が、予め解析したY_iの区切れ箇所t_iと異なる場合もあるが、以下の説明の各方式に従えば、当該t_iより各方式に従って所定幅離れた箇所として定義することができる。
【００６９】
これら各種実施形態のうち基本となる第一実施形態での処理の例を図6に、第一実施形態の変形実施形態である第二及び第三実施形態での処理例をそれぞれ図7及び図8に、第三実施形態の変形実施形態である第四実施形態での処理例を図9に示す。まず、図6の第一実施形態に即して図5の各ステップを続けて説明する。
【００７０】
図6の第一実施形態では、データb_iの設定自体は主成分得点を利用しない実施形態と同様である。図6に示すようにb_i=X_iすなわち、i番目にはバッファに区間X_iをそのまま格納する。差異点としては、区間X_iの全体が完全に得られてからでないと、ステップS20に進めない点がある。これは主成分得点が、区間X_i全体の画素分布に基づいて統計的に算出される量であり、前記画像特徴量のようにある1時刻のフレームのみから当該時刻の値を算出するといったことが不可能な量であるためである。
【００７１】
フロー説明に戻り、ステップS10で区間X_iを格納完了すると、ステップS20で当該区間X_i全体を利用して、フレームデータ抽出部22及び主成分得点変換部23が、主成分得点の時系列としての特徴量時系列x_iを抽出する。当該算出の詳細については後述するが、図3の実施形態と異なり、主成分得点時系列は第j固有値(jは自然数)ごとに得られるため、これらを区別するために第j固有値の主成分得点時系列をx_i(j)と表記する。
【００７２】
なお、各固有値の主成分得点時系列はそれぞれ映像区間の動作の特徴をとらえた1次元の時系列となっている。また、模範映像についても同様に、区間Y_iより当該区間の各固有値ごとの主成分得点時系列y_i(j)を抽出しておく。y_i(j)は必ずしも区間Y_iのみから算出される必要はない。そして、模範映像では各区間Y_iごとに、区間X_iを評価するためにどの固有値の主成分得点時系列を利用するか、予め模範映像を解析して決定しておくこととする。すなわち、第j固有値ごとに存在するy_i(j)のうち、所定の第j固有値(j=j_i)における主成分得点時系列を評価用に利用すると予め決めておき、当該実施形態ではこれをy_iで表すこととする。これらについても後述する。
【００７３】
ステップS30では、各固有値に対応する評価対象映像区間の主成分得点時系列x_i(j)と、所定の固有値に対応する模範映像の主成分得点時系列y_iとに対して、マッチング部31が例えばDPマッチングを施して、それぞれxm_i(j)及びym_iとなす。当該マッチングの手法は図3の実施形態と同様である。
【００７４】
ステップS31では、固有値ごとの時系列が求まる当該実施形態に特有の処理として、各j番目の固有値ごとにマッチングが行われたxm_i(j)とym_iとの類似度のうち、最大類似度を与える第j_max固有値を、主成分選択部32が求める。この際、類似度としては類似度算出部4で算出可能な各種の類似度や、マッチング部31がDPマッチングを行う場合であればxm_i(j)及びym_iを求めた際の累積距離を利用することができる。なお、マッチング部31がDPマッチングではなく一般のその他のマッチングを行う場合には、当該累積距離に対応する、各マッチング方式での評価関数すなわちマッチングの際に求まる要素同士の距離の累積和を利用すればよい。
【００７５】
ステップS40では、図3のステップS4と同様に、各種の類似度うちのいずれかを用いて、類似度算出部4が前記最大値とされたxm_i(j_max)とym_iとの類似度を求める。図3の場合と同様に適宜「適」「不適」などの出力を与えてもよい。ステップS50以降繰り返し判断も図3のステップS5以降と同様である。
【００７６】
なお、ステップS31では類似度としてステップS40で算出可能な各種の類似度を利用できるが、実際にステップS31とステップS40とで同種の類似度を利用する必要はない。すなわち、類似度算出部4では、類似度の種類としてa及びbを算出可能であってステップS40では類似度aを用いたとした場合、ステップS31で類似度aを必ずしも用いる必要はなく、類似度bを利用してもよい。
【００７７】
こうして第一実施形態では、処理の流れの例が図6に示すようになる。すなわち、(1)に示す時刻t₁の時点でバッファにデータb₁=X₁が格納完了して、区間X₁について例えば「適」の評価が得られる。以降(2)(3)などに示すように時刻t_iの時点でバッファにデータb_i=X_iが格納完了し、X_iを用いてx_i(j)が抽出された後、当該区間に対する評価が得られる。
【００７８】
次に、図7の第二実施形態を説明する。第二実施形態では、第一実施形態と異なる点として次の2点がある。すなわち、ステップS10におけるバッファ格納データb_iの設定と、ステップS20における各固有値毎に抽出するx_i(j)の抽出アルゴリズムとが異なる。x_i(j)は区間X_iの長さ分だけ、当該区間X_iの各時刻で定義される時系列として抽出され、ステップS30以降は第一実施形態と第二実施形態とで共通である。
【００７９】
なおまた、図8の第三実施形態も、第一実施形態と異なる部分は上記第二実施形態での差異点の部分と同じであり、ステップS10及びステップS20が差異点となる。第二ないし第四実施形態はそれぞれ第一実施形態での主成分得点時系列の動作特徴量としての精度を向上させる効果を有する。例えば、動きがほとんどない区間に対しても頑健に評価できるようになるが、これについては後述する。以下、第二実施形態を説明する。
【００８０】
第二実施形態では、ステップS10においてバッファ内への格納完了を待つべきデータb_iが、区間X_iのみならず、その前後に延長した区間の映像となる。一般的に説明すると、区間X_iは隣接する先行区間X_i-1と後行区間X_i+1とを有するとして、当該先行区間X_i-1の所定の後行部分(X_i-1[後行]とする)と、後行区間X_i+1の所定の先行部分(X_i+1[先行]とする)とを区間X_iに接続してなる連続区間を、b_iとして設定する。先行区間又は後行区間が存在しない場合、すなわちi=1又はi=nの場合には、当該存在しない区間の部分はX_iには接続しない。
【００８１】
そして、第二実施形態ではステップS20にて最終的なx_i(j)を求めるため、第一段階としてまず、主成分得点時系列への変換をb_iより構成される3つの区間について行う。次に説明するように、当該3区間の間には重複部分が存在する。当該3区間を中央に存在する第一区間X_i[a]、時間軸上で過去側(=「先行」)に存在する第二区間X_i[b]及び時間軸上で未来側(=「後行」)に存在する第三区間X_i[c]とすると、これらは以下の通りである。
第一区間X_i[a] = 区間X_i
第二区間X_i[b] = 区間X_i-1[後行]とX_iの所定の先行区間とからなる連続区間
第三区間X_i[c] = 区間X_i+1[先行]とX_iの所定の後行区間とからなる連続区間
【００８２】
ここで、第二区間及び第三区間は一例においてはその長さを第一区間と共通とすることができる。また一例においては、第二区間の中間点を第一区間の開始点(時刻t=t_i-1)に、第三区間の中間点を第一区間の終了点(時刻t=t_i)にすることができる。なおまたX_i-1[後行]及びX_i+1[先行]はそれぞれ、例えばX_i-1の後行部分及びX_i+1の先行部分を、各区間X_i-1及びX_i+1の継続時間のうちの所定割合の長さだけ切り取って設定することができる。
【００８３】
ステップS20では当該各区間を入力として、第一実施形態と同様の手法で固有値ごとの主成分得点時系列に変換する。第一区間X_i[a]より主成分得点時系列x_i[a](j)が、第二区間X_i[b]より主成分得点時系列x_i[b](j)が、第三区間X_i[c]より主成分得点時系列x_i[c](j)が、得られるものとする。なお、「第一区間より得られるx_i[a](j)=第一実施形態で抽出されるx_i(j)」である。
【００８４】
第二実施形態のステップS20ではx_i(j)を、以上3区間よりそれぞれ抽出された主成分得点時系列を利用して次のように算出する。すなわち、第一区間の各時刻に渡って定義されているx_i[a](j)の各要素の値を、当該時刻においてx_i[b](j)及び／又はx_i[c](j)も重複して定義されている場合に、それらの値の平均で置き換えたものとして、x_i(j)を算出する。ここでは共通の番号jを用いているように、各区間の主成分得点時系列は何番目(= j )の固有値に対応するかが共通するもの同士で平均を取る。
【００８５】
より直感的には、第一区間に対して第二区間及び／又は第三区間がオーバーラップしている部分については、対応する主成分得点時系列の要素の値の平均を取ってx_i(j)を求める。2つの区間が重なっていれば2要素の平均を、3つ区間が重なっていれば3要素の平均を取る。
【００８６】
例えば図7では、区間X₁の評価に際して、(11)の部分が第一区間X_1[a]でありこれよりx_1[a](j)が求まり、(12)の部分が第三区間X_1[c]でありこれよりx_1[c](j)が求まる。i=1であるので第二区間X_1[b]は存在しない。また区間X₂の評価に際して、(21)の部分が第二区間であり、(22)の部分が第一区間であり、(23)の部分が第三区間であって、それぞれ対応する主成分得点時系列が求まる。
【００８７】
なお、上記のような重なり部分における平均によるx_i(j)算出に加えて、あるいは代えて、非特許文献2に開示されている短時間主成分分析(入力を所定区間に限定して主成分分析を施す手法)に適用されている、各種の手法を利用してもよい。例えば、第二区間又は第三区間の第一区間とのオーバーラップ部分の内積が負であれば、当該第二区間又は第三区間のデータを反転（マイナス1倍）してから平均を取るようにしてもよい。これは、短時間で急激な動き方向の変化はないという前提に基づく。同様に、第二区間又は第三区間のデータを(時間軸方向ではなく)特徴量の大きさ方向にシフトさせ、第一区間との曲線としての重なりが最大になるようにしてから平均を取るようにしてもよい。
【００８８】
次に、図8の第三実施形態を説明する。前述の通り、第一実施形態と異なるステップS10及びステップS20を説明する。第三実施形態では、ステップS10でのデータb_iが、区間X_iに加えて、その先行部分を加えたもの(区間X_i[d]とする)となる。よって、ステップS10でデータ格納が完了するタイミングは区間X_iの終了点t_iであって、第一実施形態と同じタイミングでステップS20に進むこととなる。
【００８９】
第三実施形態でのb_i(＝区間X_i[d])は例えば、X_i区間に対して、(第二実施形態にて前述のX_i-1[後行])を加えた連続区間として構成することができる。なお、i=1の場合はX₁の先行区間が存在しないので、b₁=X₁と設定する。
【００９０】
第三実施形態ではステップS20において、まずb_i全体を１つの区間として、第j固有値ごとの主成分得点時系列x_i[d](j)を求める。そして、最終的に求める主成分得点時系列x_i(j)として、当該x_i[d](j)のうち区間X_iの時刻範囲にて定義されている要素からなる時系列を採用する。
【００９１】
図8に示す例では上記説明の通り、(1)ではX_1[d]＝X1(先行区間が存在しないため)、(2)ではX_2[d]＝X₂+X_1[後行]、(3)ではX_3[d]＝X₃+X_2[後行]、…等となっており、それぞれからx_i[d](j)が求められたのち、ステップS20での最終的な出力としてx_i(j)が求められる。
【００９２】
次に、図9の第四実施形態を説明する。第四実施形態では、第三実施形態においてステップS20でのx_i(j)の算出にさらに追加処理が加わる。すなわち、当該i番目のx_i(j)を算出するに際して、先行するi-1番目の区間X_i-1に対するステップS40での評価結果に基づいて、算出方法を切り替える。
【００９３】
先行区間X_i-1の評価が良ければ、すなわち類似度が所定基準(基準Aとする)を満たせば、第三実施形態と全く同様に算出する。逆に先行区間X_i-1の評価が悪ければ、すなわち類似度が前記所定基準Aを満たさない場合には、b_i全体を用いず、そのうち後行部分である区間X_iのみを主成分得点時系列に変換してx_i(j)を算出する。当該x_i(j)はすなわち、第一実施形態で算出されるものと同じとなる。
【００９４】
さらに、以上の第二乃至第四実施形態の変形実施形態を説明する。以上の説明では、当該区間X_i-の先行部分を利用する際に、利用する範囲を１つ隣の先行区間X_i-1の部分までに限定していた。当該変形実施形態では、任意の所定の長さの先行部分を利用してもよい。例えば図8の(3)に代えて、当該区間X₃の時点で存在する全ての先行区間を利用して、b₃=X₃+X₂+X₁としてもよい。
【００９５】
すなわち、第二実施形態の変形実施形態では、
第二区間X_i[b] = X_iの所定の先行区間と、当該区間X_iの全ての先行区間X_i-k(i-1≧i-k≧1)からなる区間の所定の後行部分と、からなる連続区間
となり、第三及び第四実施形態の変形実施形態でも同様に、
区間X_i[d]＝X_iの所定の先行区間と、当該区間X_iの全ての先行区間X_i-k(i-1≧i-k≧1)からなる区間の所定の後行部分と、からなる連続区間
となる。すなわち、変形実施形態では、第二区間X_i[b] ＝区間X_i[d]となる。
【００９６】
なお、第四実施形態の変形実施形態では、先行区間X_i-kの評価を当該区間X_iに近い方から順次確認していき、始めて悪い評価となった先行区間の後方部分を主成分得点時系列への変換対象としてもよい。例えばX₃をb₃=X₃+X₂+X₁により評価する際に、先行区間の評価が仮にX₂が"適"でX₁が"不適"であったとすると、X₁のみを除外してb₃=X₃+X₂として評価してもよい。
【００９７】
ここで、上記変形実施形態と類似の変形実施形態がマッチング部31においても、主成分得点を利用するか否かによらず実施可能であるので、説明する。すなわち、前述のx_iとy_iとのみでの間でのマッチングではなく、利用可能な先行部分も追加してマッチングを行う。特徴量時系列x_i及び当該時系列の全ての先行部分x_i-k(i-1≧i-k≧1)の所定の後方部分からなる時系列と、前記特徴量時系列y_i及び当該時系列の全ての先行部分y_i-k(i-1≧i-k≧1)の所定の後方部分からなる時系列とでマッチングを行う。
【００９８】
当該追加する所定部分は評価対象と模範とで長さが異なってもよい。そして、当該より長い範囲でマッチングを施した後の各特徴量時系列において、マッチング前の時系列x_i及びy_iが占める箇所(移動した箇所)をそれぞれ時系列xm_i及びym_iとなす。この場合、当該得られた時系列xm_i及びym_iは最初に設定する時刻(t_i-1≦t≦t_i)とは一般に違う範囲で求まることとなるが、以降の処理は虚通である。
【００９９】
上記、マッチング部31による変形実施形態では、例えば次のような効果がある。すなわち、模範のYiが動いているのにもかかわらず、全ての動作が停止しているような区間X_iが存在し、その周辺で模範のYiの動作と概ね一致しているような場合においても、絶対時刻(t_i-1≦t≦t_i)のズレの部分を吸収して適切な評価が行えるようになる。
【０１００】
次に、フレームデータ抽出部22及び主成分得点変換部23による、映像区間を入力として固有値毎の主成分得点時系列を出力として得る変換処理について説明する。当該入力としての映像区間は、評価対象映像については前述の通り、第一実施形態であれば区間X_iである。第二実施形態であれば第一区間X_i[a]と、第二区間X_i[b]と、第三区間X_i[c]とがそれぞれ入力となる。第三実施形態であれば、区間X_i[d]が入力となる。第四実施形態であれば、先行区間X_i-1の評価結果に従って、区間X_i[d]または区間X_iが入力となる。あらかじめ解析する模範映像については後述する。
【０１０１】
図10は当該変換処理の流れを説明する図である。(1)が上記のような各場合の入力の例であり、(a)体全体の横への動き及び(b)手足の動きといった各種の動作が含まれている。当該変換処理によれば、このような各種の動作が、主成分得点の空間上に各種の動作の周期的特徴を含んで分離可能となる。すなわち、各固有値に対応する主成分得点の各々が、動作映像に含まれる各種の特徴的動作を分離した動作特徴量として利用できる。これは本発明特有の知見である。且つ、当該動作特徴量の算出は画素値のみに基づいた汎用的な統計処理によって可能である。以下、その処理を説明する。
【０１０２】
入力としての映像区間のサイズ(継続長さ)は様々であるので、どの場合でも適用できるよう一般的なフォーマットとして(2)を想定する。以下、図10の説明においては、(図4のDPマッチングの説明と同様に)記号i、x、yなどを当該説明のためだけの一時的な定義で用いることとする。すなわち図10の説明ではxは以上の説明で用いた評価対象の特徴量時系列x_iとは関係なく、yも模範映像の時系列y_iとは関係ない。
【０１０３】
(2)に示すように、入力はフレームのN個の時系列をなし、各i(1≦i≦N)番目のフレームのサイズMすなわち画素数Mは、フレームの縦の画素数heightと横の画素数widthとの積（height×width）である。そして、フレームデータ抽出部22は、各種動作特徴量の一例として前述の、(3)に示すような画素値の多次元ベクトル（画素値ベクトル）をフレーム時系列順で抽出する。すなわち、時系列i番目のフレームからは、列ベクトルとして画素値ベクトルV_iが抽出される。当該i番目のフレームから抽出された画素値ベクトルV_iは、次の主成分得点変換部23での処理のため、行列B'のi列目の列ベクトルとして扱われる。
【０１０４】
なお、本発明においては、主成分得点を利用するか否かによらず、M、height及びwidthは、模範映像と評価対象映像とで共通である。
【０１０５】
当該画素値ベクトルV_i(1≦i≦N)は、(2)(3)に示すように、i番目のフレームを構成する画素の値を直接用いて、各画素のフレーム内位置に基づく所定の順でベクトルの要素として並べることにより作られる。すなわち、i番目のフレームの全画素M個の値をもれなく用いて、サイズMの列ベクトルV_iが作られる。前述のとおり、行列B'は各フレームより得られるV_iをフレーム総数N個分に渡ってフレーム時系列順に並べることで得られ、(3)に示すようにサイズM×Nの行列となる。
【０１０６】
(4)に示すように、主成分得点変換部23ではまず、データ集合である行列B'の分散共分散行列Ｓ（サイズＭ×Ｍ）の固有値λ_i(i=1,2,…)と固有ベクトルv_i(i=1,2,…)を求める。
【０１０７】
ここで、評価対象の動作映像サイズM（画素数）は、例えば携帯端末に付属のカメラで撮影する形式であれば、一例として、縦×横＝（height×width＝）＝３２０×２４０＝８万画素程度、であり、フレームN（時系列数）＝３００程度、であることが想定される。すなわちM＞Ｎであることが想定される。この場合、サイズＭ×Ｍの分散共分散行列Ｓの固有値問題を直接解くのではなく、後述のサイズN×Nの行列Ｃの固有値問題を解いて、その結果から行列Ｓの固有値と固有ベクトルを、固有値の大きい側の所定数のみ求めるようにしてもよい。
【０１０８】
主成分得点変換部23は、分散共分散行列Ｓの固有値問題を解いた結果を用いて、(5)に示すように、画素値ベクトルの時系列（行列B'）を固有値ごとに、主成分の空間の値（主成分得点）に変換した時系列を求める。当該時系列は図示するように、動作映像のフレーム数と同じN個のデータの時系列となる。
【０１０９】
以下、(4)での処理につき説明する。
【０１１０】
共分散行列Sの固有値・固有ベクトルを直接求めてもよい。しかしながら、画像の大きさMは通常大きいため(例えば320×240の動画でも76800次元)、行列Sの固有値問題を直接解くことは実計算上好ましくない。このような高次元データに対する主成分分析は、以下のようにして行うことができることが知られている。
【０１１１】
まず、図10の(3)にも示したように、M次元空間上のNフレームのデータ行列をB' (サイズM×N)とする（式6）。このデータ行列の行平均（フレーム方向に対する平均）をmean (サイズM×N)として（式7）、行列B'の1行ずつ抽出して平均ベクトルmeanを引いて，行方向に結合した行列Bを定義すると（式8）
【０１１２】
【数６】

【０１１３】
【数７】

【０１１４】
【数８】

となる。この行列Bを利用して、分散共分散行列Sを表すと（式9）、
【０１１５】
【数９】

であり、固有方程式は、
【０１１６】
【数１０】

となる(式10)。
【０１１７】
ここで、両辺に左から行列Bをかけたうえで、Bv=uと考えると（式11）、
【０１１８】
【数１１】

【０１１９】
式11は、行列(N^-1)BB^T（=行列Cとする）の固有方程式であり、この行列Cに対する固有ベクトルuを求めてから、それを使って分散共分散行列Sに対する固有値vを求める。この行列の大きさを考えると、N×Nとなっており、通常は画素値ベクトルの次元数Mよりもフレーム数Nが圧倒的に小さいことから、行列Sから直接固有値を求めるよりはるかに少ない計算量で計算できる。
【０１２０】
求めた固有ベクトルuから、行列Sの固有ベクトルvを求めるには、上式(式11）に左からB^Tをかけて（式12）、
【０１２１】
【数１２】

【０１２２】
この上式（式12）より、B^Tuが、Sの固有ベクトルvであることがわかる。ただし、規格化はされていないので、規格化も含めて表すと（式13）、
【０１２３】
【数１３】

【０１２４】
したがって、行列C (N×N)に対する固有ベクトルuを求めることで，行列S (M×M)に対する固有ベクトルvを求めることができることがわかる。(ただし、M個の固有値のうち、固有値の大きい方からN番目以上の固有値は0と考える。)
【０１２５】
この方法により、動作映像(区間又は全体)において想定されるような容量の動画に対する主成分分析も実計算上可能であることがわかる。なお、解像度を下げてMを小さくする、及び／又は、フレームレートを下げてNを小さくしてもよい。なおまた、評価対象映像のサイズ形式がM<Nとなる場合には、上記のように行列Cの固有値問題を解くことを経由せずに、行列Sの固有値問題を直接解いてもよい。
【０１２６】
主成分得点変換部23では、当該求めた固有ベクトルを用いて、元の空間から主成分空間に射影した際の主成分軸上の値の大きさである、主成分得点を求める。固有値の大きい方から順に固有値を並べた時に、l番目に大きい固有値λ_lに対する（第l主成分軸に対する）nフレーム目の主成分得点z(n,λ_l)は以下の式（式14）で表される。
【０１２７】
【数１４】

【０１２８】
この固有空間における主成分得点が動作特徴量となる。なお、（式14）右辺において、係数a[m,λ_l]は、l番目の固有ベクトルの第m成分であり、（x_m(n)−上バー付きx_m）は、（式8）の行列Bのm行n列成分である。
【０１２９】
以上のようにしてフレームデータ抽出部22及び主成分得点変換部23が評価対象映像の各入力とされる区間を主成分得点時系列の時系列に変換する。以下、記号を図10説明用の一時的な定義でなく、本発明の全体説明での記号の定義に戻す。
【０１３０】
模範映像については、目視確認などによる手動で個別動作の区間Y_iを定めて、Y_iを図10のように変換することで固有値毎の特徴量y_i(j)を抽出してもよい。また、一般にY_iよりも広い区間として、同種類の周期的な動作が繰り返される区間全体Aを入力として、Aから固有値毎の特徴量を抽出したのち、当該A内を元の映像の目視で区切ってY_iを定めてもよい。この場合も、特徴量y_i(j)はAから変換された特徴量のうちの当該Y_iの時刻範囲部分を取り出すことによって得られる。すなわち例えば、ダンスの模範映像を予め振り付けの種類でA,B,Cの区間に区切り、各A,B,Cをそれぞれ入力として主成分得点に変換し、各A,B,Cの内部をさらに映像の目視確認で細分化して各Yiを定めてもよい。
【０１３１】
また、各区間Yiの特徴量y_i(j)よりいずれの主成分(第j主成分)を評価用に用いるかについては、各主成分の表す動作を以下のような手法で予め解析しておくことができる。よって、評価したい動作が表れている主成分を予め選択してy_iを定めておけばよい。例えば、予め用意する模範映像においては、第一主成分得点が図10(1)の(a)に示すような動作に対応し、第二主成分が(b)に示すような動作に対応する、といったことを予め解析しておくことができるので、これらの中から評価に用いる種類の動作を選ぶようにすればよい。
【０１３２】
当該解析は次のような確認を予め行うことで可能となる。すなわち、どのような種類の動作が各主成分に表れているかは、上記(式6)〜(式14)の処理を逆に行う(復元する)ことで得られる、各主成分得点時系列の原空間における映像を見て確認することができる。なお、本発明における１つの知見として、原空間の映像の動作に含まれる周期的特徴と、対応する主成分得点時系列自体の周期的特徴とが一致する。よって、分離された各種の特徴的動作の動作特徴量として、対応する主成分得点時系列を利用することができる。
【０１３３】
なお、上記のような手動解析により、模範映像において各区間Y_iから特徴的な動作が含まれる所定固有値の特徴量をy_iとして設定しても、当該特徴的な動作に対応する評価対象映像の特徴量x_i(j)が、いずれの固有値(番号jで指定)のものであるかは自明ではない。そこで、いずれの固有値の特徴量が評価対象の動作に対応するかを自動識別させるため、ステップS31にて主成分選択部32が前述の処理を行う。
【０１３４】
こうして例えばy_iが「歩行のおおまかな動き」（手足の動きなど）を表す場合に、各固有値の特徴量x_i(j)の中から関係ない「歩行中の重心の横ブレ」などを捉えた他の主成分を除外して、同様の「歩行のおおまかな動き」を表す固有値を自動識別し、当該「歩行のおおまかな動き」同士の、模範y_iと評価対象x_i(j_max)との類似度を評価できるようになる。
【０１３５】
以上のような主成分得点の性質を踏まえた上で、第二乃至第四実施形態の効果を、図11に模式的に示す。(1)のような模範映像区間の特徴量(主成分得点)に対する、評価対象映像の区間の特徴量が(2)及び(3)に示されている。(2)は第一実施形態によるものであり、(3)が第二乃至第四実施形態(これらのうち特に代表して第三実施形態)によるものである。評価対象の区間の実際の動作は(3)の下方に(A)(B)として示すように、前半少しは当該区間の先行区間での動きと同じ方向に動いているが、以降はほとんど動かなくなるという動作であり、(1)に示す模範とは隔たりが大きい。
【０１３６】
(2)では第一実施形態によって当該区間X_iのみから特徴量を算出したので、当該区間内での細かい動きが強調され過ぎてしまっている。(3)では先行区間X_i-1も含めて特徴量を抽出するので、当該区間の動きが小さいことがより明らかに評価されている。このように第二乃至第四実施形態では、区間の動きを局所的に把握しつつ、かつ当該局所のみに限定され過ぎて評価を誤ることのないよう、ある程度の周辺部分の動きも考慮した評価が可能となる。
【０１３７】
第四実施形態ではさらに、周辺部分として評価の精度を上げるために追加採用してよいかを、先行区間X_i-1の類似度評価結果に基づいて判断する。先行区間X_i-1の評価が悪い場合は、周辺の動きを考慮するために追加しても当該区間X_iの評価精度が上がることは一般に少ないはずである。よって追加しないようにすることでより柔軟に精度の高い評価を行うようにすることができる。なおまた、主成分得点へ変換する元の区間を必要以上に長くすると、当該区間内で動きの種類が切り替わる箇所がある場合に、動作特徴量としての精度が下がってしまう可能性が高い。このため本発明では、特に評価対象動作の映像については所定の長さの区間毎に変換を行っている。
【０１３８】
図12は、図11の(2)と(3)との比較を画素空間で行ったものである。(2)では当該区間X_iのみで評価しているので、分散が大きくなっている。すなわち細かい動きが見かけ上大きな動きとして評価されてしまっている。これに対して(3)では先行区間X_i-1を含めて評価するので、分散が小さくなっている。すなわち、細かい動きとして評価することが可能となっている。
【０１３９】
以上、本発明において時系列データとして動作映像を採用すれば、模範映像の個別動作に対応する評価対象映像の個別動作を自動で求めて、それらの類似度を評価することができる。
【０１４０】
また、例えばカメラを用いて評価対象映像の動作をリアルタイムで入力すれば、その場の動作を評価してフィードバックすることができる。これらにより、本発明の類似度評価装置を例えば特にダンス練習の用途に適用し、模範映像として教師のダンス映像を設定しておけば、自身のダンス映像を評価対象映像として入力する練習者は、より細かい単位で逐次的にフィードバックが得られるため、時間的に細かく修正個所を把握できる。またゲームのような利用シーンでは逐次的な評価は盛り上がりにもつながり、ダンス練習のモチベーションが高まり、ダンス技能の向上を早めることができる。
【０１４１】
本発明は、動作映像に限らず各種の時系列データに適用することができる。データの扱いについては、動作映像データにおいて一般に高次元の各種画像特徴量を利用したのと同様にすればよい。時系列データ一般に本発明を適用する場合には、動作映像について説明した各種の量を以下のように読み替えて、全く同様の処理を適用すればよい。
【０１４２】
すなわち、模範映像／評価対象映像に代えて、模範時系列データ／評価対象時系列データとする。個別動作区間(Y_iやX_i)に代えて、個別パターン区間とする。動作特徴量時系列(y_iやxi)に代えて、(動作という限定を付さない)特徴量時系列とする。
【０１４３】
本発明を適用可能な、各種の時系列データの例を(1)〜(3)に挙げる。これらは個別パターンの区間としてリズム的な要素を含むデータであり、本発明によって図1で説明したのと同様な採点システムなどを構築することができる。
【０１４４】
(1)模範の演奏信号があって，練習者が模倣した演奏信号との類似度を逐次的に測る。こうして、オーディオ信号やMIDI情報(演奏時系列情報)といったような音楽の評価を行うことができる。音声であってもよい。
【０１４５】
(2)車のアクセル・ブレーキパタン信号なども、教習所の先生の運転のパタンと、教習生のパタンとの類似度を逐次的に測ることができる。当該信号はペダル位置あるいは角度、ペダル状態などの時系列として表現することができる。
【０１４６】
(3)動作ではあるが、映像データに限らず、非特許文献2で紹介されているようなモーションキャプチャデータでも、同様に類似度を逐次評価できる。類似の各種動作データにも同様に適用可能である。
【０１４７】
なお、一般の時系列データで本発明による評価を行う場合であっても、主成分分析を動作映像に適用したのと同様に利用することができ、各固有値の主成分得点は元の時系列データの各特徴を分離して捉えたものとなることが期待される。必要があれば、模範の時系列データで予め解析しておけばよい。当該適用に際しては、図10の(3)に示す画素値の多次元ベクトルを、当該時系列データの時刻iにおける高次元ベクトルとすればよい。
【符号の説明】
【０１４８】
1…類似度評価装置、2…特徴量抽出部、21…バッファリング部、22…フレームデータ抽出部、23…主成分得点変換部、31…マッチング部、32…主成分選択部、4…類似度算出部、5…模範時系列データDB

【特許請求の範囲】
【請求項１】
予め時系列上の所定箇所で個別パターンの区間Y_i(i=1,…,n)に分割され、当該区間Y_iの特徴量時系列y_i(i=1,…,n)が抽出された所定の模範時系列データに対して、順次入力される評価対象時系列データの類似度を、前記所定箇所による分割と同間隔をなす評価対象個別パターン区間X_i(i=1,…,n)ごとに順次評価する類似度評価装置(ここでiは時系列上の順番を表す添字、nは所与の自然数とする)であって、
前記順次入力される評価対象個別パターン区間X_iより、前記模範時系列データより予め抽出されたのと同種の特徴量時系列x_iを抽出する特徴量抽出部と、
前記評価対象個別パターン区間X_iの特徴量時系列x_iと、前記模範時系列データの個別パターン区間Y_iの特徴量時系列y_iとの類似度を求める類似度算出部とを備えることを特徴とする類似度評価装置。
【請求項２】
前記抽出された特徴量時系列x_iと前記予め抽出された特徴量時系列y_iとでマッチングを行ってそれぞれ時系列xm_i及びym_iとなすマッチング部をさらに備え、
前記類似度算出部が前記特徴量時系列x_iとy_iとの類似度を、前記マッチングが行われた時系列xm_iとym_iとの類似度として求めることを特徴とする請求項1に記載の類似度評価装置。
【請求項３】
前記マッチング部が、前記特徴量時系列x_i及び当該時系列の全ての先行部分x_i-k(i-1≧i-k≧1)の所定の後方部分からなる時系列と、前記特徴量時系列y_i及び当該時系列の全ての先行部分y_i-k(i-1≧i-k≧1)の所定の後方部分からなる時系列とでマッチングを行い、当該マッチング後の時系列において前記時系列x_i及びy_iが占める箇所をそれぞれ時系列xm_i及びym_iとなすことを特徴とする請求項2に記載の類似度評価装置。
【請求項４】
前記マッチング部が所定条件の傾斜制限を課したDPマッチングを行うことを特徴とする請求項2または3に記載の類似度評価装置。
【請求項５】
前記特徴量抽出部が、前記評価対象個別パターン区間X_iを入力としてフレームデータ時系列を抽出するフレームデータ抽出部と、該フレームデータ時系列に主成分分析を施すことで第j固有値(jは自然数)毎の主成分得点時系列としての前記時系列x_iであるx_i(j)を抽出する主成分得点変換部とを含み
前記予め抽出された時系列y_iは、前記個別パターン区間Y_iより抽出された当該区間毎の所定の固有値に対応する主成分得点時系列であり、
前記マッチング部では第j固有値毎に前記x_i(j)とy_iとがマッチングされてそれぞれ時系列xm_i(j)及びym_iとなり、
さらに、第j固有値毎の前記マッチングされた時系列xm_i(j)及びym_iのうち、当該時系列間の類似度が最大となる第j_max固有値を求める主成分選択部を備え、
前記類似度算出部は、前記類似度が最大となる固有値に対応する時系列xm_i(j_max)と前記時系列ym_iとの類似度を求めることを特徴とする請求項2ないし4のいずれかに記載の類似度評価装置。
【請求項６】
前記主成分得点変換部が、前記入力ないし前記抽出する時系列x_i(j)に代えて以下の(1)または(2)を採用することを特徴とする請求項5に記載の類似度評価装置。
(1)前記評価対象個別パターン区間X_iを第一の入力として第一の主成分得点時系列を抽出し、当該区間X_iの所定の先行部分と当該区間X_iの先行区間X_i-1の所定の後行部分とからなる区間を第二の入力として第二の主成分得点時系列を抽出し、当該区間X_iの所定の後行部分と当該区間X_iの後行区間X_i+1の所定の先行部分とからなる区間を第三の入力として第三の主成分得点時系列を抽出し、
前記第一の主成分得点時系列のうち時刻が前記第二又は第三の主成分得点時系列と重複する部分の要素の値を、当該重複した主成分得点時系列の要素の平均で置き換えた時系列を前記抽出する時系列x_i(j)とする。
(2)前記評価対象個別パターン区間X_iと当該区間X_iの先行区間X_i-1のうちの所定の後行部分とからなる区間を前記入力とし、抽出される主成分得点時系列のうち時刻が当該区間X_iに対応する部分を前記抽出する時系列x_i(j)とする。
【請求項７】
前記(1)の場合において、前記第二の入力が当該区間X_iの所定の先行部分と、当該区間X_iの全ての先行区間X_i-k(i-1≧i-k≧1)からなる区間の所定の後行部分と、からなる区間であり、
前記(2)の場合において、前記入力が当該区間X_iと、当該区間X_iの全ての先行区間X_i-k(i-1≧i-k≧1)からなる区間の所定の後行部分と、からなる区間であることを特徴とする請求項6に記載の類似度評価装置。
【請求項８】
前記(2)の場合において、前記区間X_iの先行区間X_i-1に対して前記類似度算出部にて算出されている類似度が所定基準を満たす場合には、当該区間X_iのみを入力とすることを特徴とする請求項6または7に記載の類似度評価装置。
【請求項９】
前記類似度算出部が、各時系列間のコサイン類似度またはユークリッド距離によって前記類似度を求めることを特徴とする請求項1ないし8のいずれかに記載の類似度評価装置。
【請求項１０】
前記主成分選択部が、前記マッチングされた時系列間の類似度として、当該時系列間の前記マッチング部によるマッチングの際に求まる要素同士の距離の累積和に基づく類似度、当該時系列間のコサイン類似度及び当該時系列同士の周波数特徴に基づく類似度のうちのいずれかを用いることを特徴とする請求項5ないし8のいずれかに記載の類似度評価装置。
【請求項１１】
予め時系列上の所定箇所で個別パターンの区間Y_i(i=1,…,n)に分割され、当該区間Y_iの特徴量時系列y_i(i=1,…,n)が抽出された所定の模範時系列データに対して、順次入力される評価対象時系列データの類似度を、前記所定箇所による分割と同間隔をなす評価対象個別パターン区間X_i(i=1,…,n)ごとに順次評価する類似度評価方法(ここでiは時系列上の順番を表す添字、nは所与の自然数とする)であって、
前記順次入力される評価対象個別パターン区間X_iより、前記模範時系列データより予め抽出されたのと同種の特徴量時系列x_iを抽出する特徴量抽出ステップと、
前記評価対象個別パターン区間X_iの特徴量時系列x_iと、前記模範時系列データの個別パターン区間Y_iの特徴量時系列y_iとの類似度を求める類似度算出ステップとを備えることを特徴とする類似度評価方法。

【図１】