説明

類似度評価装置及び方法並びに類似度評価プログラム及びその記憶媒体

【課題】模範映像と評価対象映像とで対応する局所時間における個別動作ごとの類似度を自動で評価する。
【解決手段】所与の模範映像の動作を時系列上の所与の箇所で区切った模範個別動作の各々に対応する、評価対象映像の動作を時系列上で区切った評価対象個別動作の各々を求め、両個別動作ごとの類似度を評価する類似度評価装置1を、各々の映像から動作特徴量時系列を抽出する動作特徴量抽出部2と、動作特徴量時系列の両者における時系列上の変動に基づいて要素同士の対応関係を決定し、該対応関係を用いることで所与の箇所に対応して区切られる評価対象動作の各々の区間を求めて、時系列順に模範個別動作の各区間と評価対象動作の各区間を対応づけるマッチング部3と、マッチング部にて対応付けられた区間同士の比較によって前記類似度を求める類似度算出部4とを備えて提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、模範動作映像と評価対象動作映像との類似度評価に関し、特に、模範動作映像に対する評価対象動作映像の類似度を各映像の個別動作毎に評価することのできる類似度評価装置及び方法並びに類似度評価プログラム及びその記憶媒体に関する。
【背景技術】
【0002】
ダンスの練習者は、ダンス専門家(教師)の動きを繰り返し模倣することで練習をすることが一般的である。自分のダンスの習熟度を知ることは技能向上のためには不可欠であるが、自分ひとりでその習熟度を把握することは難しい。一方、ダンスにおいては、特に動きのリズム感が重要と言われている。そのため、リズムの習熟度を自動で採点(評価)できるシステムがあれば望ましい。
【0003】
以下の特許文献1(身体動作解析装置)には、ダンスをしている練習者の映像から、練習者の動きのリズムを抽出する技術が公開されている。まず、入力される映像から背景を分離し人物のシルエット画像を抽出し、その細線化によりスケルトン画像に変換する。得られたスケルトン画像をハフ変換することで、スケルトン画像の各部位の直線のパラメータを得る。さらにカルマンフィルタによってハフパラメータを時間方向に追跡して得た予測値を各部位のパラメータとし、それをSVD (Singular Value Decomposition) を用いて変換することで全体の動きを表す動き特徴量系列を求める。得られた全体の動きを表す動き特徴量系列をフーリエ変換して、お手本である教師と練習者の間で、教師のピークを持つ周波数のスペクトル強度と、練習者における当該周波数のスペクトル強度を比較することにより、リズムの評価を可能としている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005-339100号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
教師(模範)映像を見ながら練習者(評価対象)が動作をする場合、任意の時間間隔で練習者は教師映像との時間(リズム)のずれを認識し、適宜動作のリズムを修正しながら教師に追従しようと試みる。つまり、(例えば動作の1周期分にかかる時間のような)局所時間毎に遅い動作をする場合と速い動作をする場合を繰り返すことが想定される。この場合、一連の動き(動画の全時間)に対してリズムのずれを1つ求めると、遅い動作と速い動作のリズムが相殺されて、練習者のリズムは正しくないにも関わらず、全体のリズムとしては教師と同じと判定してしまう可能性がある。したがって、動画全体でリズムを1つ求めるのではなく、局所時間毎にリズムのずれを求めることがリズム評価により有用であると考えられる。
【0006】
しかしながら、特許文献1の実施例で示されている手法では、得られた動き特徴量に対して、所定の時間幅(分析幅)で周波数解析を行うことで、教師におけるピーク周波数と練習者におけるピーク周波数を比較することによりリズムを評価するとしている。この分析幅の設定方法に関しては詳しく言及されておらず、教師及び練習者の映像の全フレームに対して全体のリズムの評価は可能であっても、局所時間毎にリズムを評価できるかは不明である。
【0007】
教師の動作の周期情報(例えば、動作の1周期分の長さ)が既知であっても、教師の1周期に対応する練習者の動作は未知のため,局所時間毎には正しいリズムは抽出できないという問題がある。すなわち、教師動作(模範動作)及び評価対象動作の両者において対応する局所時間毎のリズム動作(必ずしも各々の長さが均等ではない、リズム単位となるような個別動作)を自動で比較して、両者のリズムのずれの評価などを含む類似度評価を行うことはできないという問題がある。
【0008】
本発明の目的は、上記の従来技術の課題を解決し、模範映像における動作と評価対象映像における動作との、対応する局所時間毎における個別動作の類似度を評価する類似度評価装置及び方法並びに類似度評価プログラム及びその記憶媒体を提供することにある.
【課題を解決するための手段】
【0009】
上記の目的を達成するため、本発明は、所与の模範映像の動作を時系列上の所与の箇所で区切った模範個別動作の各々に対応する、評価対象映像の動作を時系列上で区切った評価対象個別動作の各々を求め、両個別動作ごとの類似度を評価する類似度評価装置であって、前記模範映像及び前記評価対象映像の各々から動作特徴量時系列を抽出する動作特徴量抽出部と、前記抽出された動作特徴量時系列の両者における時系列上の変動に基づいて、該動作特徴量時系列の要素同士の対応関係を決定し、該対応関係を用いることで前記所与の箇所に対応して区切られる前記評価対象動作の各々の区間を求めて、時系列順に前記模範個別動作の各区間と前記評価対象動作の各区間を対応づけるマッチング部と、前記マッチング部にて対応付けられた区間同士の比較によって前記類似度を求める類似度算出部とを備えることを特徴とする。
【0010】
また、前記類似度算出部が前記区間同士の継続時間の比較によって前記類似度を求めることを特徴とする。
【発明の効果】
【0011】
本発明によれば、模範映像の個別動作に対応する評価対象映像の個別動作を自動で求めて、それらの類似度を評価することができる。
【0012】
また、本発明によれば、両個別動作の区間の継続時間を比較することで、両個別動作におけるリズムの類似度を評価することができる。
【0013】
これらにより、本発明の類似度評価装置を例えば特にダンス練習の用途に適用し、模範映像として教師のダンス映像を設定しておけば、自身のダンス映像を評価対象映像として入力する練習者は、より細かい単位でフィードバックが得られるため、ダンス練習のモチベーションが高まると共に、ダンス技能の向上を早めることができる。
【図面の簡単な説明】
【0014】
【図1】本発明の概要を説明する図である。
【図2】本発明に係る類似度評価装置の機能ブロック図である。
【図3】類似度算出部による、リズムのずれに基づく類似度を求める処理を説明する図である。
【図4】DPマッチングによる対応づけ処理を模式的に説明する図である。
【図5】マッチング部において極値を利用する実施形態と、ゼロ交差点を利用する実施形態とを説明する図である。
【図6】動作特徴量として主成分得点を利用する実施形態における類似度評価装置の機能ブロック図である。
【図7】フレーム画素抽出部と主成分得点変換部とによって、動作特徴量として固有値毎の主成分得点を求める処理の概要を示す図である。
【図8】模範映像の所定の主成分が表す動作特徴に対応する主成分を、評価対象映像の各固有値の主成分の中から自動で検出する処理を説明する図である。
【図9】本発明に係る類似度評価プログラムとして機能できるコンピュータの一例における主要部の構成を示した機能ブロック図である。
【発明を実施するための形態】
【0015】
以下に、図面を参照して本発明を詳細に説明する。図1は本発明の概要を説明する図である。例えば、お手本となる模範動作映像と比較して評価対象となる練習者の動作映像のリズムのずれを局所時間毎に評価する概略を説明する図である。図1(A)に示すように、お手本となる模範動作映像(a)を見ながら、練習者(b)はダンスの練習をする。そのダンスの練習映像をカメラで撮影して、評価対象映像とする。当該カメラは携帯端末付属であってもよく、本発明の類似度評価装置は当該携帯端末に含まれていてもよい。また、(A)に示すような形式以外によって、模範動作映像と該映像の動作に倣おうとする評価対象動作映像とを用意してもよい。
【0016】
次に、図1(B)のように、模範映像のフレーム(a1)〜(a4)及び,練習者映像のフレーム(b1)〜(b4)が得られる。各フレーム区間(a1)〜(a2),(a2)〜(a3)及び(a3)〜(a4)の動作を一つの単位として、対応する練習者の動作の区間(b1)〜(b2),(b2)〜(b3)及び(b3)〜(b4)を自動で求めることにより、個別区間の個別動作ごとにリズムを評価する。
【0017】
図1(B)のように、例えば、(a1)〜(a2)などのある時間単位毎のお手本と比べて、対応する練習者の動作の方が時間がかかっていれば,動作が遅れていることを意味する「遅」と判定し、お手本と練習者が同じ時間で動作を完了していれば,適した速さで動作していることを意味する「適」と判定し、練習者の方が速ければ、動作が速すぎることを意味する「速」と判定することで、局所的なリズム評価を行うことができる。さらに、このような個別評価結果を利用して、図1(C)のように動画全体としてリズムの総合的な習熟度(模範映像の動作に対する評価対象映像の動作の全体的な類似度)を評価することもできる。
【0018】
なお、本発明においては特に、模範映像が所与の映像であって予めその動作などが各種の手法によって解析済みであり、手本とすべき個別動作に対応する各フレーム区間(a1)〜(a2),(a2)〜(a3)及び(a3)〜(a4)等も予め設定されている。
【0019】
例えば、模範映像はダンス教師によるダンスの映像であって、個別動作として例えば振り付けの所定単位動作ごとに、あるいは所定時間ごとに、各フレーム区間(a1)〜(a2),(a2)〜(a3)及び(a3)〜(a4)等の区切り箇所である、(a2)及び(a3)等を与えてある。このような前提で、当該模範映像に倣った動作がなされようとしている、未知の任意の評価対象映像において対応する各区間(b1)〜(b2),(b2)〜(b3)及び(b3)〜(b4)等を自動で求めて類似度の評価を行う。
【0020】
図2に本発明に係る類似度評価装置の機能ブロック図を示す。類似度評価装置1は、図1(B)に示したような個別動作の区間の対応付けを、各映像の時系列と連動する動作特徴量時系列を抽出してマッチングを行うことにより求め、各区間に対応する局所時間毎に評価対象動作の模範映像動作からのリズムのずれ(類似度)を評価する。
【0021】
図2に示すとおり、類似度評価装置1は、動作特徴量抽出部2、マッチング部3、類似度算出部4を備える。模範動作映像は、ネットワークなどを経由して所定の模範映像DB(模範映像データベース)5より入手してもよい。当該模範映像DB5は類似度評価装置1に含まれていてもよい。
【0022】
動作特徴量抽出部2は、模範動作映像及び評価対象動作映像の各々より、動作特徴量時系列を抽出する。ここでは、時系列上に並んでいる各フレームより各時刻の動作特徴量を抽出し、全フレームから抽出することによって動作特徴量時系列とする。当該動作特徴量には各種の特徴量が利用できるが、後述のマッチング部3において適切にマッチングを実施できるようにするため、模範動作映像及び評価対象動作映像の各々について同種の動作特徴量を抽出する。
【0023】
本発明においては模範動作映像及び評価対象動作映像として、好ましくは静止して色分布・明るさ分布などが時間変化しない固定背景において、同様に色などの時間変化を伴わない所定の動作主体(例えば人)による、ダンス等のリズム評価ができるような概ね周期的な動作が映っている映像を想定している。映像においてその他の被写体の出入りが存在するのは好ましくない。
【0024】
そして、そのような映像における動作に概ね対応して概ね周期的な振る舞いをする動作特徴量を利用することができる。すなわち、図1(B)に示したような各区間に対応して概ね周期的な振る舞いをするような動作特徴量を利用することができる。動作特徴量は1次元量であっても、ベクトル等で表される高次元量であってもよい。
【0025】
このような動作特徴量として例えば、画素値の多次元ベクトル(各フレーム画像の大きさ次元)を用いることができる。また、(時間方向ではなく)画素方向のヒストグラムすなわち各フレームにおける画素値ヒストグラム(ヒストグラム区間数次元のベクトル)や、ブロック単位の画素値平均による多次元ベクトル(ブロック数次元のベクトル)、オプティカルフローなどの各種特徴量を用いることができる。
【0026】
マッチング部3は、模範動作と評価対象動作との両映像の特徴量時系列を構成する要素間の時間軸上の対応付けを行い、要素間の対応関係、特に個別動作の区間を求めるのに必要な対応関係を求める。そして、当該対応関係を用いて、模範映像において予め与えられている個別動作の区切り箇所、すなわち図1(B)の例であれば、箇所(a1)、(a2)、(a3)及び(a4)など、に対応する評価対象映像の箇所、すなわち図1(B)の例であれば、それぞれ箇所(b1)、(b2)、(b3)及び(b4)など、を求める。そして図1の例でも前述したように、評価対象動作の対応箇所(b1)、(b2)、(b3)及び(b4)などを時系列順に評価対象動作の個別動作の区切れ箇所とすることによって、順次模範動作の個別動作に対応する個別動作の区間を求める。
【0027】
類似度算出部4は、マッチング部3によって対応づけられた両個別動作の区間を比較することにより、模範動作と評価対象動作の類似度を当該個別動作の区間毎に求める。類似度としてリズムを求める場合であれば、両区間の継続時間の差分によって求めることができる。継続時間の差分だけでなく、両区間の開始時刻や終了時刻といった絶対時間の差分も考慮して、類似度を両者の関数として(所定係数で重み付けした和などとして)求めることもできる。さらに、類似度算出部4は、複数の個別動作区間で求められたそれぞれの類似度を用いて、両動作映像の全体としてのあるいは複数個別動作を含む一部分としての類似度を求めてもよい。
【0028】
図3は、類似度算出部4による、リズムのずれに基づく類似度を求める処理を説明する図である。図3では模範動作における所定の個別動作の長さが、Ta1、Ta2、Ta3及びTa4である。縦方向に示す点線によって示される、マッチング部3で求めた当該各個別動作の区間の区切れ箇所の対応関係により、評価対象動作においてそれぞれ対応する個別動作の長さが、Tb1、Tb2、Tb3及びTb4である。
【0029】
例えば、模範動作の長さTa1の個別動作と評価対象動作の長さTb1の個別動作との差τが、当該対応する個別動作を比較した場合のリズムのずれRとなる。したがって、この場合は、R=τ(τはずれ時間)となり、評価対象動作のほうが局所的に遅れていることを意味する。
【0030】
一方で、長さがそれぞれTa2とTb2とである個別動作におけるリズムのずれを見ると、R=−τとなり、評価対象動作の方が速いことを意味する。Ta4とTb4との個別動作では、リズムのずれR=0となるため,同一のリズムで動作していることを意味する。この際に、ずれ時間に対して所定の閾値を設けて、「遅」、「適」、「速」のような表示を練習者にフィードバックしてもよいし、実際に遅れている時間をそのまま呈示してもよい。複数の個別動作の評価結果を総合して、例えば区間毎に所定の重みを設けてスコアを算出して合計することで、図1(C)に示すような総合スコアを算出してもよい。
また、「適」、「不適」のような表示でもよい。例えば、練習者は周期的な動きをしている途中で、模範動作に追従できなくなり非周期的な動きをすることがある。その際に、周期的な動きをしている個別動作の区間は、模範動作の個別動作区間と正しくマッチングするためリズムのずれは小さくなるが、模範動作が周期的な動きにも関わらず、非周期的な動きをしている個別動作の区間は正しくマッチングされないため、リズムのずれが大きくなる。正しくマッチングされている動作区間を「適」、正しくマッチングされなかった区間を「不適」と表現することで、リズムのずれに基づいて、異常な動きをしている動作区間を検出するといった利用の仕方も可能である。
【0031】
あるいは、類似度算出部4では、マッチング部3によって対応づけられた区間の各映像をそのままユーザに提示することで、ユーザが目視で個別映像を確認できるようにしてもよい。当該提示の際、対応する模範映像の個別区間も提示して、ユーザが目視で比較できるようにしてもよい。図3におけるリズムのずれとしての類似度以外にも、各対応区間の波形間の距離に基づく類似度を与えるようにしてもよい。
【0032】
なお、類似度算出部4においては、時系列順に対応づけられた各区間ごとに類似度を求めることができる。これら全ての類似度を列挙してもよいし、模範映像においてあらかじめ所定箇所の区間を設定しておいて、該当区間における類似度のみを与えるようにしてもよい。
【0033】
次に、マッチング部3の各実施形態を説明する。第一実施形態ではDPマッチングを利用する。当該実施形態では、模範動作映像及び評価対象動作の両動作特徴量時系列を構成する全ての要素同士を、逐一対応づけることができる。そして、当該全要素間の対応関係より、図1(B)で説明したように模範動作映像の個別動作の区切れ箇所に対応する評価対象映像の箇所を求め、当該箇所を評価対象映像の個別動作の区切れ箇所とする。
【0034】
なお、DPマッチングでは模範動作映像の時系列上のある1点の区切れ箇所に対して、対応する評価対象映像の点が時系列上に連続する複数の点として求まることがある。そのような場合であっても、当該連続する長さは一般に図3で説明したようなリズム評価に影響する程の長さとなることはない。よって、対応する点が連続して複数存在するときはその中からランダムに選ぶ、あるいは所定ルール(例えば時系列上で最も早い、最も遅い又は中央のものと決めておく)に従って選ぶようにすればよい。
【0035】
DPマッチングに関しては以下の非特許文献1に詳しい。
(非特許文献1)内田,"DPマッチング概説〜基本と様々な拡張〜",電子情報通信学会技術研究報告,PRMU2006
DPマッチングは、パターン認識の分野で広く用いられ、本発明における動作特徴量時系列にも適用できる。動的計画法を用いることで、2つの特徴量時系列間の類似度を自動で算出すると共に、特徴量時系列同士を非線形に対応付けすることができる。
【0036】
模範映像のi番目のフレームの動作特徴量p(i)と、評価対象映像のj番目のフレームの動作映像特徴量q(j)との距離をd(i,j)として、対応点(i,j)における累積距離g(i,j)を計算して最適経路をバックトレースすることで、2つの動作特徴量時系列間の類似度(終端時刻における累積距離)を求めるとともに、動作特徴量間の時間的な対応付けが行われる(数1-1及び数2)。この模式図を図4に示す。また一方で、数1-1の代わりに数1-2のような距離を定義すれば、動作特徴量間の距離とフレーム番号の距離を考慮することができるため、時刻が大きく異なるフレーム同士が対応づくことを調整することができる。動作特徴量間の距離の重みをw1、フレーム番号の距離の重みをw2とする。
【0037】
【数1−1】

【0038】
【数1−2】

【0039】
【数2】

ここで、初期条件として、次の数3を与える。
【0040】
【数3】

【0041】
なお前述のとおり、マッチング対象である動作特徴量は必ずしも1次元である必要はなく、多次元ベクトルであっても構わないし、マッチング時にはそれらを正規化してもよい。また、距離関数は絶対値ではなく、多次元ベクトル間のユークリッド距離やcos類似度などで定義してもよいし、その他、所定の距離関数を利用してもよい。また、上記数1〜数3で紹介した一手法に限らず、数2における距離d(i,j)に所定係数を掛けたり、傾斜制限を設けるなど、非特許文献1に紹介されているような各種の変形手法を利用してもよい。
【0042】
マッチング部3でDPマッチングを用いる場合、動作特徴量時系列間を非線形に伸縮して対応付けることができるため、模範動作において予め設定した個別動作毎にリズム(継続時間)が異なっていても、その影響を吸収することで精度よく評価できるという効果がある。これが線形に伸縮して対応付けた場合は個別動作毎のリズムが異なっている場合、精度よく評価できない。また、動作特徴量時系列の実際の波形は、滑らかな波形とは限らないがそういった場合においてもマッチングできる。
【0043】
マッチング部3における第二実施形態及び第三実施形態を、図5を用いて説明する。第二実施形態では、マッチング部3で、図5に黒丸(●)で示しているように、動作特徴量時系列の極値同士を対応付けることでリズムの評価を行う。特徴量時系列の極値部分は、例えば動きの向きが変化するフレーム(キーフレーム)である場合が想定されるため、そのキーフレームを模範映像と評価対象映像の間で対応付けることで、あるキーフレームから次のキーフレームまでのリズムを求めることができる。
【0044】
第二実施形態では、図5に示すように、動作特徴量時系列が極値をとる時間を求めることで、各極値を与える模範映像における点(a1)〜(a3)に対して、評価対象映像において同様の順に表れる極値の点(b1)〜(b3)までの両映像間の時間的対応付けができる。例えば、模範映像の個別動作を極値の点(a1)から次の極値の点(a2)の極値までの区間としたときに、それに対応する評価対象映像の個別動作の区間は、対応する極値を与える点で囲まれる区間(b1)〜(b2)となる。
【0045】
この際に、模範映像の個別動作の区切れ箇所として設定する極値の数は、全ての極値をとってもよいし、任意の数の極値を指定してもよい。任意の数の極値を指定する場合には、模範映像において時系列上の何番目に現れる極値かという指定も行い、評価対象映像で同様の箇所に現れる極値を対応する極値として選択する。例えば、模範映像で1,4,6番目に現れる極値の箇所を区切れ箇所と設定すると、マッチング部3は評価対象映像の区切れ箇所として1,4,6番の極値の箇所を選択する。
【0046】
一方、前の極値の大きさ(縦軸)と比較して、所定の閾値以上であるという極値の条件を設けてもよい。同様に、前の極値の時間(横軸)と比較して、所定の閾値以上の間隔をあけることを極値の条件としてもよい。これらは、ノイズによって生じたような本来取得したいキーフレームとは異なる候補を極値として取得するのを避けるためである。また、信号波形にローパスフィルタなどで平滑化することで、ノイズ成分を除去してもよい。図5に示す例では、模範映像では(a3)の後に、評価対象映像では(b2)-(b3)間及び(b3)の後に、こうした処理で除外された極値が存在している。
【0047】
マッチング部3における第三実施形態では、第二実施形態における極値の代りに,図5に白丸(○)として示す(a4)〜(a7),(b4)〜(b7)のようなゼロ交差点(zero cross point)を用いてもよい。ゼロ交差点とは、特徴量時系列の信号波形の大きさがゼロとなる点のことを指す。その際に、信号の大きさを正規化してもよい。
【0048】
以上、マッチング部3における第二実施形態及び第三実施形態では、第一実施形態において両動作特徴量時系列の全ての要素同士の対応が与えられるのとは異なり、両動作特徴量時系列上の所定の要素(極値あるいはゼロ交差点)同士のみの対応が与えられる。各区間の内部に属する要素の対応関係は、当該所属する区間による区別としての対応関係としてのみ与えられる。
【0049】
あるいは、要素同士の対応関係が必要であれば、マッチング部3における第二実施形態及び第三実施形態においても、各区間内で区間両端の時間に基づいて要素同士を線形に対応づけてもよい。線形ではなく、DPマッチングで非線形に対応づけてもよい。
【0050】
よって、第一実施形態においては模範映像における所望の箇所に個別動作としての区切り箇所を設けられるのと異なり、第二実施形態及び第三実施形態では区切りを設けられる箇所に制限がある。すなわち、第二実施形態及び第三実施形態では予め極値あるいはゼロ交差点を模範映像で求めておき、その中から区切り箇所を選択しておく必要がある。全ての極値あるいはゼロ点を区切り箇所とするならば、自動で区切り箇所を設定できるという利点もある。
【0051】
次に、動作特徴量抽出部2において、主成分分析を利用して、各映像から主成分得点を動作特徴量として抽出する実施形態を説明する。当該実施形態における類似度評価装置1の機能ブロック図を、図6に示す。図6に示すように、動作特徴量抽出部2は動作特徴量として主成分得点を抽出するための構成として、フレーム画素抽出部21と主成分得点変換部22とを備える他は図1の構成と同様である。
【0052】
なお、当該実施形態では、各映像に対して動作特徴量時系列が主成分得点の固有値毎に複数抽出されるので(例えば第1主成分得点の時系列、第2主成分得点の時系列、第3主成分得点の時系列、…のように複数抽出される)、マッチング部3において図1の実施形態では説明していない追加処理として、いずれの固有値に対応する動作特徴量時系列を類似度算出部4に渡すかを決定する処理が行われる。
【0053】
当該実施形態における効果として、フレーム画素抽出部21と主成分得点変換部22による主成分分析によって、模範映像及び評価対象映像から特徴的な動作を抽出した上で、マッチング部3以降の処理によって、当該特徴的な動作における個別動作を前述の各実施形態と同様に評価できる、という点がある。
【0054】
図7にフレーム画素抽出部21と主成分得点変換部22とによる処理の概要を示す。模範映像及び評価対象映像の各々につき処理が行われるが、図7においては当該処理自体の説明にフォーカスするため、(1)に示すように各々を区別せず「動作映像」と呼ぶこととする。
【0055】
ここで、本発明における1つの知見として、図7(1)に示すような、例えばダンス映像の動作映像に含まれる、例えば(a)体全体の横への動き及び(b)手足の動きといった各種の動作が、主成分得点の空間上に各種の動作の周期的特徴を含んで分離される、ということがある。よって、当該各固有値に対応する主成分得点の各々が、動作映像に含まれる各種の特徴的動作を分離した動作特徴量として利用できる。以下、その処理を説明する。
【0056】
動作映像のフォーマットが(2)である。すなわち、動作映像はフレームのN個の時系列をなし、各i(1≦i≦N)番目のフレームのサイズMすなわち画素数Mは、フレームの縦の画素数heightと横の画素数widthとの積(height×width)である。そして、フレーム画素抽出部21は、各種動作特徴量の一例として前述の、(3)に示すような画素値の多次元ベクトル(画素値ベクトル)をフレーム時系列順で抽出する。すなわち、時系列i番目のフレームからは、列ベクトルとして画素値ベクトルViが抽出される。当該i番目のフレームから抽出された画素値ベクトルViは、次の主成分得点変換部22での処理のため、行列B'のi列目の列ベクトルとして扱われる。
【0057】
当該画素値ベクトルVi(1≦i≦N)は、(2)(3)に示すように、i番目のフレームを構成する画素の値を直接用いて、各画素のフレーム内位置に基づく所定の順でベクトルの要素として並べることにより作られる。すなわち、i番目のフレームの全画素M個の値をもれなく用いて、サイズMの列ベクトルViが作られる。前述のとおり、行列B'は各フレームより得られるViをフレーム総数N個分に渡ってフレーム時系列順に並べることで得られ、(3)に示すようにサイズM×Nの行列となる。
【0058】
(4)に示すように、主成分得点変換部22ではまず、データ集合である行列B'の分散共分散行列S(サイズM×M)の固有値λi(i=1,2,…)と固有ベクトルvi(i=1,2,…)を求める。
【0059】
ここで、評価対象の動作映像サイズM(画素数)は、例えば携帯端末に付属のカメラで撮影する形式であれば、一例として、縦×横=(height×width=)=320×240=8万画素程度、であり、フレームN(時系列数)=300程度、であることが想定される。すなわちM>Nであることが想定される。この場合、サイズM×Mの分散共分散行列Sの固有値問題を直接解くのではなく、後述のサイズN×Nの行列Cの固有値問題を解いて、その結果から行列Sの固有値と固有ベクトルを、固有値の大きい側の所定数のみ求めるようにしてもよい。
【0060】
主成分得点変換部22は、分散共分散行列Sの固有値問題を解いた結果を用いて、(5)に示すように、画素値ベクトルの時系列(行列B')を固有値ごとに、主成分の空間の値(主成分得点)に変換した時系列を求める。当該時系列は図示するように、動作映像のフレーム数と同じN個のデータの時系列となる。
【0061】
以下、(4)の処理につき説明する。
【0062】
共分散行列Sの固有値・固有ベクトルを直接求めてもよい。しかしながら、画像の大きさMは通常大きいため(例えば320×240の動画でも76800次元)、行列Sの固有値問題を直接解くことは実計算上好ましくない。このような高次元データに対する主成分分析は、以下のようにして行うことができることが知られている。
【0063】
まず、図7の(3)にも示したように、M次元空間上のNフレームのデータ行列をB' (サイズM×N)とする(数4)。このデータ行列の行平均(フレーム方向に対する平均)をmean (サイズM×N)として(数5)、行列B'の1行ずつ抽出して平均ベクトルmeanを引いて,行方向に結合した行列Bを定義すると(数6)、
【0064】
【数4】

【0065】
【数5】

【0066】
【数6】

となる。この行列Bを利用して、分散共分散行列Sを表すと(数7)、
【0067】
【数7】

であり、固有方程式は、
【0068】
【数8】

となる(数8)。
さらに、両辺に左から行列Bをかけると(数9)、
【0069】
【数9】

ここで、Bv=uと考えると(数10)、
【0070】
【数10】

【0071】
数10は、行列(N^-1)BB^T(=行列Cとする)の固有方程式であり、この行列Cに対する固有ベクトルuを求めてから、それを使って分散共分散行列Sに対する固有値vを求める。この行列の大きさを考えると、N×Nとなっており、通常は画素値ベクトルの次元数Mよりもフレーム数Nが圧倒的に小さいことから、行列Sから直接固有値を求めるよりはるかに少ない計算量で計算できる。
【0072】
求めた固有ベクトルuから、行列Sの固有ベクトルvを求めるには、上式(数10)に左からB^Tをかけて(数11)、
【0073】
【数11】

【0074】
この上式(数11)より、B^Tuが、Sの固有ベクトルvであることがわかる。ただし、規格化はされていないので、規格化も含めて表すと(数12)、
【0075】
【数12】

【0076】
したがって、行列C (N×N)に対する固有ベクトルuを求めることで,行列S (M×M)に対する固有ベクトルvを求めることができることがわかる。(ただし、M個の固有値のうち、固有値の大きい方からN番目以上の固有値は0と考える。)
【0077】
この方法により、動作映像において想定されるような容量の動画に対する主成分分析も実計算上可能であることがわかる。なお、解像度を下げてMを小さくする、及び/又は、フレームレートを下げてNを小さくしてもよい。なおまた、評価対象映像のサイズ形式がM<Nとなる場合には、上記のように行列Cの固有値問題を解くことを経由せずに、行列Sの固有値問題を直接解いてもよい。
【0078】
主成分得点変換部22では、当該求めた固有ベクトルを用いて、元の空間から主成分空間に射影した際の主成分軸上の値の大きさである、主成分得点を求める。固有値の大きい方から順に固有値を並べた時に、l番目に大きい固有値λlに対する(第l主成分軸に対する)nフレーム目の主成分得点z(n,λl)は以下の式(数13)で表される。
【0079】
【数13】

【0080】
この固有空間における主成分得点が動作特徴量となる。なお、(数13)右辺において、係数a[m,λl]は、l番目の固有ベクトルの第m成分であり、(xm(n)−上バー付きxm)は、(数5)の行列Bのm行n列成分である。
【0081】
以上のように、動作映像(模範動作映像及び評価対象動作映像の各々)より、主成分得点時系列として動作特徴量時系列を各固有値ごとに抽出することができる。なお、主成分得点による動作特徴量時系列は、前述の実施形態における高次元特徴量として利用することは行わず、各固有値毎の1次元特徴量として利用する。
【0082】
そして、本発明においては模範動作映像は予め用意しておくので、予め上記のような主成分得点変換を実施して、どの固有値の主成分得点時系列がどのような特徴的な動作に対応しているか、ということが既知である。例えば、模範映像においては、第一主成分得点が図7(1)の(a)に示すような動作に対応し、第二主成分が(b)に示すような動作に対応する、といったことを予め解析しておくことができる。
【0083】
当該解析は次のような確認を予め行うことで可能となる。すなわち、どのような種類の動作が各主成分に表れているかは、上記(数4)〜(数13)の処理を逆に行う(復元する)ことで得られる、各主成分得点時系列の原空間における映像を見て確認することができる。なお前述のように、本発明における1つの知見として、原空間の映像の動作に含まれる周期的特徴と、対応する主成分得点時系列自体の周期的特徴とが一致する。よって、分離された各種の特徴的動作の動作特徴量として、対応する主成分得点時系列を利用することができる。
【0084】
そこで、本発明では、必要に応じて原空間の映像を復元して確認するなどしておき、模範映像については予め所定の第I主成分の主成分得点時系列を定め、当該主成分を評価対象映像の評価に用いるものと設定しておく。一方、評価対象映像が模範映像を充分に模倣できていれば、模範映像の所定の第I主成分に表れる動作的特徴と同じ動作的特徴が、評価対象映像の同じく第I主成分に表れることとなる。しかしながら、任意の評価対象映像についてこのような結果が得られることはなく、評価したい動作的特徴は評価対象映像における第J主成分(I≠J)に表れている、ということがあるので、当該第J主成分を抽出する必要がある。当該抽出は、以下のようなマッチング部3における追加的な処理によって自動で行うことができる。
【0085】
すなわち、マッチング部3を前述のDPマッチングによる第一実施形態で実現し、追加処理として、模範映像の第I主成分得点時系列と、評価対象映像における各固有値の主成分得点時系列とでDPマッチングを行う。そして、模範映像と評価対象映像の動作特徴量系列間のマッチング類似度が最も高い、すなわちDPの最適パスにおける累積距離(前述のg(i,j))が最も小さい固有値における評価対象映像の主成分得点時系列を選択することで、自動選択が可能となる。
【0086】
模範映像と評価対象映像の動作特徴量はある程度似ているという前提で、このマッチング類似度が高い(累積距離が小さい)主成分を選択することで、評価対象映像において模範映像で設定した主成分に対応する動作特徴を表している主成分を自動で抽出できる。当該自動抽出の例を図8に示す。
【0087】
図8(A)の模範映像の主成分得点(第1主成分)に対して、図8(B)の評価対象映像の主成分得点のうち、第1主成分の主成分得点のほうが、第2主成分の主成分得点と比較して、似ている。したがって、この場合は、上記の手法によって第1主成分が自動で選択される。例えば、模範映像が歩行動作であって、当該歩行動作において、模範映像の予め設定した主成分が「歩行のおおまかな動き」(手足の動きなど)を表す特徴を持つ主成分である場合に、それに対応する評価対象映像の主成分としては、同じく「歩行のおおまかな動き」を捉えた主成分を選択することで、両者の同一の動作特徴におけるリズムを求めることができる。
【0088】
しかしここで、評価対象映像における「歩行中の重心の横ブレ」などを捉えた他の主成分を選択してしまうと、本来計測したい歩行のリズムではないリズムが抽出されるため、リズム評価の精度は低くなる。上記自動抽出処理によって、こういった主成分の主成分得点は模範映像の主成分とのマッチング類似度が低くなるため、選択されにくくなる。これにより、模範映像のいずれの主成分を用いるかを、(既知として)前述の復元による目視などで決定しておけば、評価対象映像のどの主成分を利用するかは自動で選択される。
【0089】
一方で、このDPマッチングの類似度を利用しなくとも、おおまかな動作の特徴は主成分分析において最も情報量の多い第1主成分に表れると仮定して、評価対象映像の主成分に関してもヒューリスティックに決定してもよい。すなわち、模範映像及び評価対象映像の両者において、予め第1主成分得点のみを動作特徴量時系列として抽出するようにしてもよい。あるいは、第1主成分以外の所定の主成分を抽出するようにしておいてもよい。
【0090】
さらに、模範動作は周期的な動作であるという前提であれば、予め手動で模範動作の周期を求めなくとも、模範映像全体から得られた動作の特徴量時系列(主成分得点による特量量時系列に限らず各種の特徴量時系列)に対して、フーリエ変換などの周波数解析を行いスペクトルのピーク周波数をとることで、模範映像の周期を自動で算出することも可能である。
【0091】
主成分得点を利用する実施形態では、類似度算出部4にて個別動作の映像をユーザに提示する場合に、模範映像及び/又は評価対象映像につき、類似度評価に用いた主成分得点時系列から復元した映像を提示することもできる。
【0092】
図9は、本発明の類似度評価装置1として機能できるコンピュータ50の主要部の構成の一例を示した機能ブロック図であり、オペレーティングシステム(OS)を含む基本プログラムや各種の基本データが記憶されたROM52と、各種のプログラムやデータが記憶されるハードディスクドライブ装置(HDD)57と、CR-ROMやDVD等の記憶メディア61からプログラムやデータを読み出すメディアドライブ装置56と、プログラムを実行するCPU51と、このCPU51にワークエリアを提供するRAM53と、入出力インターフェース(I/F)55を介して接続されたディスプレイ58、キーボード59およびマウス等のポインティングデバイス60と、外部装置と通信するパラレル/シリアルI/F54とを主要な構成としている。
【0093】
図9の構成では、本発明に係る類似度評価プログラムがネットワーク等を経てシリアル/パラレルI/F54から入力、またはメディアドライブ装置56で読み取られてHDD54に予め記憶される。メディアドライブ装置56で読み取られる場合、本発明に係る類似度評価プログラムは予め記憶メディア61に記憶され、HDD57にインストールされる。
【0094】
ユーザは、キーボード59およびマウス等のポインティングデバイス60を用いるなどして、類似度評価プログラムを実行し、評価対象映像を入力することで、類似度が評価され、評価結果が例えばディスプレイ58に表示される。類似度評価プログラムを実行することで、CPU51は動作特徴量抽出部2、マッチング部3及び類似度算出部4の機能を備えることとなり、当該各部における処理ステップを順次実行する。
【0095】
評価対象映像はユーザがあらかじめ撮影するなどして用意しておき、記憶メディアに保存してメディアドライブ装置56で読みとって入力する。あるいはネットワーク上に存在する評価対象映像の所在箇所を指定してI/F54を介して入力してもよい。
【0096】
模範映像は、当該類似度評価プログラム内に固定データとして予め用意しておくことができる。複数種類の模範映像を用意して、ユーザから類似度評価に用いる模範映像を選択させてもよい。
【0097】
当該コンピュータ50が携帯端末に含まれるものであれば、HDD57の代わりにフラッシュメモリ、I/F54はアンテナ用I/F、キーボード59およびマウス等のポインティングデバイス60の代わりに入力ボタンあるいはタッチパネルによる入力機能を備えたディスプレイ58、などとして同様に本発明の類似度評価プログラムを実行できる。
【0098】
以上、本発明によれば、模範映像と評価対象映像とを比較して、動作特徴量を個別動作のなされている局所時間毎に対応付けることで、リズムを個別に評価することができる。特に、模範映像として教師のダンス映像を用い、ダンスの練習者が自身のダンス映像を評価対象映像として用いることで、練習のモチベーション向上につながり、ダンス技能の向上を早めることができる。また、ダンスにおける各個別動作の反省・検討を行うこともできる。その他、ダンスに限らず各種のスポーツのフォームチェックなどに利用しても、同様に練習意欲向上などに役立てることができる。
【0099】
また、本発明によれば上記のような評価を自動で行うことができる。動作特徴量に主成分得点を用いる場合、動画から比較的簡単に動作特徴量を抽出することができ、汎用的に評価することができる。すなわち、他の種類の動作特徴量では、動作映像が特定の条件を満たしていないと効率的な評価が可能な特徴量として抽出できないこともありうるが、主成分分析を用いることでそのような制約を回避することもできる。また、主成分得点を利用する場合、情報量の多い第1主成分を利用することで、最も特徴的な動作を分離抽出して評価することができる。
【0100】
なお、本発明のより拡張的な利用として、動画像より抽出される動作特徴量の代りに,音楽のビートなどの音楽的な特徴量やモーションキャプチャデータから得られる特徴量、Kinect(登録商標)などで得られるデプス(depth)情報などを利用してもよい。例えば、模範データのみがビート位置そのものの情報であって、そのビート位置と、評価対象映像から得られた動作特徴量とをマッチングしてもよい。すなわち、必ずしも模範映像自体の存在を前提とすることなく、マッチング部3において模範映像より抽出される動作特徴量と同様の利用ができる所定データを用いることによっても類似度評価を行うことができる。
【符号の説明】
【0101】
1…類似度評価装置、2…動作特徴量抽出部、3…マッチング部、4…類似度算出部

【特許請求の範囲】
【請求項1】
所与の模範映像の動作を時系列上の所与の箇所で区切った模範個別動作の各々に対応する、評価対象映像の動作を時系列上で区切った評価対象個別動作の各々を求め、両個別動作ごとの類似度を評価する類似度評価装置であって、
前記模範映像及び前記評価対象映像の各々から動作特徴量時系列を抽出する動作特徴量抽出部と、
前記抽出された動作特徴量時系列の両者における時系列上の変動に基づいて、該動作特徴量時系列の要素同士の対応関係を決定し、該対応関係を用いることで前記所与の箇所に対応して区切られる前記評価対象動作の各々の区間を求めて、時系列順に前記模範個別動作の各区間と前記評価対象動作の各区間を対応づけるマッチング部と、
前記マッチング部にて対応付けられた区間同士の比較によって前記類似度を求める類似度算出部とを備えることを特徴とする類似度評価装置。
【請求項2】
前記類似度算出部が前記区間同士の継続時間の比較によって前記類似度を求めることを特徴とする類似度評価装置。
【請求項3】
前記動作特徴量抽出部が、前記模範映像及び前記評価対象映像の各々から画素値ベクトル時系列を抽出するフレーム画素抽出部と、該画素値ベクトル時系列に主成分分析を施して固有値毎の主成分得点時系列に変換し、該主成分得点時系列を前記動作特徴量時系列とする主成分得点変換部とを含み、
前記マッチング部が、所定の固有値に対応する前記動作特徴量時系列の両者における時系列上の変動に基づいて、前記対応関係を決定することを特徴とする請求項1または2に記載の類似度評価装置。
【請求項4】
前記マッチング部が、所定の固有値に対応する前記模範映像の動作特徴量時系列と、各固有値に対応する前記評価対象映像の動作特徴量時系列と、の両者にDPマッチングを適用し、累積距離が最小となる固有値に対応する前記評価対象映像の動作特徴量時系列における前記適用結果を用いて、前記対応関係を決定することを特徴とする請求項3に記載の類似度評価装置。
【請求項5】
前記マッチング部が、前記動作特徴量時系列の両者にDPマッチングを適用することで前記対応関係を決定することを特徴とする請求項1ないし3のいずれかに記載の類似度評価装置。
【請求項6】
前記所与の箇所が前記模範映像の動作特徴量時系列の極値を与える箇所であり、前記マッチング部が、前記評価対象映像の動作特徴量時系列の極値を与える箇所の各々を時系列順に、前記所与の箇所の各々に対応する箇所として前記対応関係を決定することを特徴とする請求項1ないし3のいずれかに記載の類似度評価装置。
【請求項7】
前記所与の箇所が前記模範映像の動作特徴量時系列のゼロ交差点であり、前記マッチング部が、前記評価対象映像の動作特徴量時系列のゼロ交差点の各々を時系列順に、前記所与の箇所の各々に対応する箇所として前記対応関係を決定することを特徴とする請求項1ないし3のいずれかに記載の類似度評価装置。
【請求項8】
所与の模範映像の動作を時系列上の所与の箇所で区切った模範個別動作の各々に対応する、評価対象映像の動作を時系列上で区切った評価対象個別動作の各々を求め、両個別動作の類似度を評価する類似度評価方法であって、
前記模範映像及び前記評価対象映像の各々から動作特徴量時系列を抽出する動作特徴量抽出段階と、
前記抽出された動作特徴量時系列の両者における時系列上の変動に基づいて、該動作特徴量時系列の要素同士の対応関係を決定し、該対応関係を用いることで前記所与の箇所に対応して区切られる前記評価対象動作の各々の区間を求めて、時系列順に前記模範個別動作の各区間と前記評価対象動作の各区間を対応づけるマッチング段階と、
前記マッチング段階にて対応付けられた区間同士の比較によって前記類似度を求める類似度算出段階とを備えることを特徴とする類似度評価方法。
【請求項9】
請求項8に記載の類似度評価方法をコンピュータに実行させる類似度評価プログラム。
【請求項10】
請求項9に記載の類似度評価プログラムをコンピュータによる読み取り可能に記録された類似度評価プログラムの記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−178036(P2012−178036A)
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願番号】特願2011−40401(P2011−40401)
【出願日】平成23年2月25日(2011.2.25)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】