映像コンテンツ生成装置及びコンピュータプログラム

【課題】楽曲に合わせた映像コンテンツを生成する際に、適切な動きデータ間を連結すること、さらには計算量の削減を図る。
【解決手段】映像コンテンツに利用可能な動きデータから動き特徴量を取得する動き解析部１１と、動きの種類ごとに分類された動き特徴量群を格納するデータベース１２と、映像コンテンツ生成対象楽曲の音楽データから音楽特徴量を取得する音楽解析部１３と、映像コンテンツ生成対象楽曲の種類に合った動き特徴量群を用いて前記音楽データと該音楽データに合った前記動きデータとを対応付ける同期情報を生成する同期部１５と、前記同期情報に基づいて前記音楽データとともに再生される映像データを生成する映像データ生成部１７と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像コンテンツ生成装置及びコンピュータプログラムに関する。
【背景技術】
【０００２】
従来、音楽に合わせてコンピュータ・グラフィックス（ＣＧ）オブジェクトを表示させる技術として、非特許文献１が知られている。非特許文献１では、演奏家が音楽を演奏すると、音楽との所定のマッピングのパタンに従って、ＣＧモデルが動くようになっている。又、特許文献１では、ＣＧオブジェクトの時系列に対して、音楽データの静的属性または動的属性をもとにして描画情報（視点情報、光源情報）を再設定する。そして、音楽データをＣＧオブジェクト表示と同期して再生している。又、特許文献２に記載のモーション作成装置では、複数のモーションにおいて人体姿勢が類似する２つのフレーム間を連結した有向性グラフとしてモーションデータベースを構築し、その複数のモーションの中から、音楽データから取得したビート特徴成分と相関を有する動き特徴成分をもつモーションを選択している。
【０００３】
音楽解析手法としては、非特許文献２に記載の技術が知られている。非特許文献２の技術によれば、発音成分、コードの変化、打楽器の発音時刻などを推定してビート間隔及びビート構造を取得している。
動き解析手法としては、非特許文献３に記載の技術が知られている。非特許文献３の技術によれば、動きビートの変化や発生時刻を推定してビート間隔及びビート構造を取得している。
非特許文献４には、モーショングラフ（Motion Graphs）を用いて新たな動きデータを生成する技術が開示されている。
非特許文献５，６には、動きデータ全体を主成分分析し、寄与率の高い主成分を取得する技術が開示されている。
非特許文献７には、パス探索技術として、ある始点からダイナミックプログラミング（dynamic programming）で最適なパスを探索する技術が開示されている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００５−５６１０１号公報
【特許文献２】特開２００７−１８３８８号公報
【非特許文献】
【０００５】
【非特許文献１】後藤真孝，村岡洋一、“音楽に踊らされるCGダンサーによるインタラクティブパフォーマンス”，コンピュータソフトウェア（日本ソフトウェア科学会論文誌），Vol.14，No.3，pp.20-29，May 1997
【非特許文献２】M.Goto，“An Audio-based Real-time Beat Tracking System for Music With or Without Drum-sounds”，Journal of New Music Research，Vol．30，No．2，pp．159-171，2001
【非特許文献３】T.Kim，S.I.Park，S.Y.Shin，“Rhythmic-Motion Synthesis Based on Motion-Beat Analysis”，ACM Transaction on Graphics，Vol.22，Issue 3，2003（SIGGRAPH 2003），pp．392-401
【非特許文献４】L.Kovar，M.Gleicher，and F.Pighin，“Motion Graphs”，ACM Transaction on Graphics，Vol.21，Issue 3，2002（SIGGRAPH 2002），pp．473-482
【非特許文献５】L.M.Tanco and A.Hilton，“Realistic synthesis of novel human movements from a database of motion capture examples”，In IEEE Workshop on Human Motion，pp.137-142，2000
【非特許文献６】P.Glardon，R.Boulic，D.Thalmann，“PCA-based Walking Engine Using Motion Capture Data”，In Computer Graphics International，pp.292-298，2004
【非特許文献７】Cormen，Thomas H.; Leiserson，Charles E.，Rivest，Ronald L. (1990). Introduction to Algorithms (2st ed.). MIT Press and McGraw-Hill. ISBN 0-262-03141-8. pp. 323-69
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかし、上述した非特許文献１記載の従来技術では、ＣＧモデルの動き数が限定される点、音楽とのマッピングのパタンが予め設定される点などから、自由に豊かな動きを生成することが困難である。しかも、それを使いこなすには専門的な知識が必要なので、一般のユーザには利用することが難しい。又、特許文献１記載の従来技術では、ある楽曲に対してＣＧアニメーションを作成する際、ＣＧオブジェクトの時系列がその楽曲にそぐわない場合には、楽曲に合致したＣＧアニメーションを作成することが難しいという問題がある。又、特許文献２記載の従来技術では、一般に利用可能な膨大な数の動きデータに対して、人体姿勢が類似する２つのフレーム間を連結した有向性グラフとしてモーションデータベースを構築することは、現実的に難しいという問題がある。このため、実際のモーション作成対象の楽曲に基づいて選択された動きデータを対象にして、動きデータ間を連結することが望ましい。非特許文献４記載の従来技術では、モーショングラフの構築と最適なパスの探索に要する計算量が膨大である。また、元々のモーション構造を考慮しないで構築されたモーショングラフを使用すると、元々のモーション構造が壊れる可能性がある。例えば、激しい動きとゆっくりの動き間で遷移すると、動きの突然の変化のために、不自然な動き又は不一致な動きが生まれる可能性がある。
【０００７】
本発明は、このような事情を考慮してなされたもので、その目的は、大規模な動きデータベースを利用して楽曲に合わせた映像コンテンツを生成する際に、適切な動きデータ間を連結すること、さらには計算量の削減を図ることのできる映像コンテンツ生成装置及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【０００８】
上記の課題を解決するために、本発明に係る映像コンテンツ生成装置は、楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成装置において、映像コンテンツに利用可能な動きデータから動き特徴量を取得する動き解析部と、動きの種類ごとに分類された動き特徴量群を格納するデータベースと、映像コンテンツ生成対象楽曲の音楽データから音楽特徴量を取得する音楽解析部と、前記映像コンテンツ生成対象楽曲の種類に合った動き特徴量群を用いて、前記音楽データと該音楽データに合った前記動きデータとを対応付ける同期情報を生成する同期部と、前記同期情報に基づいて、前記音楽データとともに再生される映像データを生成する映像データ生成部と、を備えたことを特徴とする。
【０００９】
本発明に係る映像コンテンツ生成装置において、前記動き解析部は、前記動きデータからビートを抽出し、テンポを算出するビート抽出部と、複数の前記動きデータに係るビート及びテンポの情報を記憶するビート情報記憶部と、前記動きデータから盛り上がりを算出する盛り上がり算出部と、複数の前記動きデータに係る盛り上がりの情報を記憶する盛り上がり情報記憶部と、複数の前記動きデータに係るビート、テンポ及び盛り上がりの情報を用いて、モーショングラフを生成するモーショングラフ生成部と、を有し、前記データベースは、動きのテンポの種類ごとに生成されたモーショングラフのデータを格納し、前記音楽解析部は、前記音楽データからビート、テンポ及び盛り上がりの情報を取得し、前記同期部は、前記映像コンテンツ生成対象楽曲のテンポに合ったモーショングラフを用いて、前記音楽データに合う前記動きデータと前記音楽データとを対応付ける同期情報を生成する、ことを特徴とする。
【００１０】
本発明に係る映像コンテンツ生成装置において、前記ビート抽出部は、前記動きデータに対して一定時間の区間毎に主成分分析を行い、該区間毎に主成分座標を一つ選択し、各区間の主成分座標に基づいてビート時刻を検出することを特徴とする。
【００１１】
本発明に係る映像コンテンツ生成装置において、前記盛り上がり算出部は、前記区間毎に、主成分分析による負でない固有値の和を計算することを特徴とする。
【００１２】
本発明に係る映像コンテンツ生成装置において、前記モーショングラフ生成部は、動きのテンポの種類が同じである前記動きデータからビートフレームを抽出するビートフレーム抽出手段と、前記抽出されたビートフレーム間の連結性を算出する連結性算出手段と、前記抽出されたビートフレームの各々をモーショングラフのノードに設定し、前記連結性に基づいてノード間にエッジを設けるモーショングラフ構築手段と、を有することを特徴とする。
本発明に係る映像コンテンツ生成装置において、前記モーショングラフ生成部は、前記動きデータに付加されたジャンル情報によって前記動きデータのジャンルを判別し、同じジャンルの前記動きデータをさらにテンポで分類することを特徴とする。
【００１３】
本発明に係る映像コンテンツ生成装置において、前記モーショングラフ構築手段は、連結性が高いノード間に双方向エッジを設け、各動きデータ内の全隣接ビートフレーム間に単方向エッジを設けることを特徴とする。
【００１４】
本発明に係る映像コンテンツ生成装置においては、一定時間分のフレームを使用しクォータニオンによる球面線形補間を利用して、前記連結性が高いノード間の連結部分を補間するブレンディング動きデータを生成するブレンディング動きデータ生成手段を備えたことを特徴とする。
【００１５】
本発明に係る映像コンテンツ生成装置において、前記単方向エッジは、隣接ビートフレーム間に連続フレームの動きデータを定義することを特徴とする。
【００１６】
本発明に係る映像コンテンツ生成装置において、前記モーショングラフ構築手段は、前記動きデータに係る盛り上がりに基づいて、エッジの重みを算出することを特徴とする。
【００１７】
本発明に係る映像コンテンツ生成装置において、前記連結性算出手段は、対象ビートフレームにおいて、ポーズの類似度を算出することを特徴とする。
【００１８】
本発明に係る映像コンテンツ生成装置において、前記連結性算出手段は、対象ビートフレームにおけるポーズを構成する各ジョイントの物理量の差分の重み付き平均を算出することを特徴とする。
【００１９】
本発明に係る映像コンテンツ生成装置において、前記同期部は、モーショングラフ上で、前記音楽データの音楽特徴量に相当する動き特徴量を有するパスを探索する最適パス探索手段を有することを特徴とする。
【００２０】
本発明に係る映像コンテンツ生成装置において、前記最適パス探索手段は、前記映像コンテンツ生成対象楽曲が有するビートの個数分の連続するパスを探索することを特徴とする。
【００２１】
本発明に係る映像コンテンツ生成装置において、前記最適パス探索手段は、前記音楽データの盛り上がりと前記動きデータの盛り上がりに基づいてパスのコストを算出することを特徴とする。
【００２２】
本発明に係る映像コンテンツ生成装置において、前記同期部は、前記映像コンテンツ生成対象楽曲のビート間隔に動きのビート間隔を等しくするように調整した、動きのフレームレートの情報を前記同期情報に含めることを特徴とする。
【００２３】
本発明に係る映像コンテンツ生成装置において、前記映像データ生成部は、動きデータの連結部分において、動きデータのルート座標と方向の平行移動を行うことを特徴とする。
【００２４】
本発明に係る映像コンテンツ生成装置において、前記データベースの構築処理は、前記映像データを生成する処理とは独立して行われることを特徴とする。
【００２５】
本発明に係るコンピュータプログラムは、楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成処理を行うためのコンピュータプログラムであって、映像コンテンツに利用可能な動きデータから動き特徴量を取得する動き解析ステップと、動きの種類ごとに分類された動き特徴量群をデータベースに格納するステップと、映像コンテンツ生成対象楽曲の音楽データから音楽特徴量を取得する音楽解析ステップと、前記映像コンテンツ生成対象楽曲の種類に合った動き特徴量群を用いて、前記音楽データと該音楽データに合った前記動きデータとを対応付ける同期情報を生成する同期情報生成ステップと、前記同期情報に基づいて、前記音楽データとともに再生される映像データを生成する映像データ生成ステップと、をコンピュータに実行させるためのコンピュータプログラムであることを特徴とする。
これにより、前述の映像コンテンツ生成装置がコンピュータを利用して実現できるようになる。
【発明の効果】
【００２６】
本発明によれば、楽曲に合わせた映像コンテンツを生成する際に、楽曲の種類に合った動き特徴量群を用いて該楽曲の音楽データと該音楽データに合った動きデータとを対応付ける同期情報を生成することにより、適切な動きデータ間を連結することができるという効果が得られる。さらに、動きの種類ごとに分類された動き特徴量群をデータベースに格納しておくことにより、計算量の削減を図ることができるという効果が得られる。
【図面の簡単な説明】
【００２７】
【図１】本発明の一実施形態に係る映像コンテンツ生成装置１の構成を示すブロック図である。
【図２】人体スケルトン型動きデータの定義例である。
【図３】図１に示す動き解析部１１の構成を示すブロック図である。
【図４】図３に示すビート抽出部３１に係るデータ分割処理の概念図である。
【図５】図３に示すビート抽出部３１に係るデータ分割処理の概念図である。
【図６】図３に示すビート抽出部３１に係る主成分座標連結処理を説明するための概念図である。
【図７】図３に示すビート抽出部３１に係る正弦近似処理の概念図である。
【図８】本発明の一実施形態に係るモーショングラフの構成方法の全体の流れを示す概念図である。
【図９】本発明の一実施形態に係るモーショングラフ生成方法の流れを示す概念図である。
【図１０】本発明の一実施形態の双方向エッジに係るブレンディング処理の概念図である。
【図１１】本発明の一実施形態に係るブレンディング処理を説明する概念図である。
【図１２】本発明の一実施形態に係る動きのフレームレートを調整する処理の概念図である。
【発明を実施するための形態】
【００２８】
以下、図面を参照し、本発明の実施形態について説明する。
図１は、本発明の一実施形態に係る映像コンテンツ生成装置１の構成を示すブロック図である。図１において、映像コンテンツ生成装置１は、動き解析部１１、データベース１２、音楽解析部１３、音楽解析データ記憶部１４、同期部１５、同期情報記憶部１６、映像データ生成部１７、映像データ記憶部１８及び再生部１９を有する。
【００２９】
映像コンテンツ生成装置１には、映像コンテンツ生成対象の楽曲の音楽データが楽曲ファイル３から入力される。
【００３０】
動きデータベース２は、一般に利用可能な動きデータを多数蓄積している。映像コンテンツ生成装置１は、動きデータベース２から動きデータを入力する。本実施形態では、人の動きデータを扱い、人の動きデータとして、図２に例示されるように定義された人体スケルトン型動きデータを用いる。
【００３１】
図２は、人の動きデータの定義例の概略図であり、人のスケルトン型動きデータ（人体スケルトン型動きデータ）の定義例である。人体スケルトン型動きデータは、人の骨格を基に、骨及び骨の連結点（ジョイント）を用い、一ジョイントを根（ルート）とし、ルートからジョイント経由で順次連結される骨の構造を木（ツリー）構造として定義される。図２には、人体スケルトン型動きデータの定義の一部分のみを示している。図２において、ジョイント１００は腰の部分であり、ルートとして定義される。ジョイント１０１は左腕の肘の部分、ジョイント１０２は左腕の手首の部分、ジョイント１０３は右腕の肘の部分、ジョイント１０４は右腕の手首の部分、ジョイント１０５は左足の膝の部分、ジョイント１０６は左足の足首の部分、ジョイント１０７は右足の膝の部分、ジョイント１０８は右足の足首の部分、である。
【００３２】
スケルトン型動きデータは、スケルトン型対象物の各ジョイントの動きを記録したデータであり、スケルトン型対象物としては人体や動物、ロボットなどが適用可能である。スケルトン型動きデータとしては、各ジョイントの位置情報や角度情報、速度情報、加速度情報などが利用可能である。ここでは、人体スケルトン型動きデータとして、人体スケルトンの角度情報と加速度情報を例に挙げて説明する。
【００３３】
人体スケルトン型角度情報データは、人の一連の動きを複数の姿勢（ポーズ）の連続により表すものであり、人の基本ポーズ（neutral pose）を表す基本ポーズデータと、実際の人の動きの中の各ポーズを表すポーズ毎のフレームデータとを有する。基本ポーズデータは、基本ポーズのときのルートの位置及び各ジョイントの位置、並びに各骨の長さなどの情報を有する。基本ポーズデータにより基本ポーズが特定される。フレームデータは、基本ポーズからの移動量をジョイント毎に表す。ここでは、移動量として角度情報を利用する。各フレームデータにより、基本ポーズに対して各移動量が加味された各ポーズが特定される。これにより、各フレームデータによって特定される各ポーズの連続により、人の一連の動きが特定される。なお、人体スケルトン型角度情報データは、人の動きをカメラ撮影した映像からモーションキャプチャ処理によって作成したり、或いは、キーフレームアニメーションの手作業によって作成したりすることができる。
人体スケルトン型加速度情報データは、人の各ジョイントの加速度をポーズ毎のフレームデータと複数のポーズの連続により表すものである。なお、人体スケルトン型加速度情報データは、加速度計で記録したり、映像や動きデータから算出したりすることができる。
【００３４】
なお、本実施形態に係る以下の説明においては、人体スケルトン型動きデータのことを単に「動きデータ」と称する。
【００３５】
以下、図１に示される映像コンテンツ生成装置１の各部について順次説明する。
【００３６】
［動き解析部］
動き解析部１１は、動きデータベース２から動きデータを取得し、取得した動きデータを解析して動き特徴量を取得し、取得した動き特徴量をデータベース１２に格納する。動き解析部１１は、動きデータベース２に蓄積される全ての動きデータを対象にする。この動き解析部１１の処理は、実際に映像コンテンツを生成する段階の前に、事前の準備段階として行われる。
【００３７】
図３は、図１に示す動き解析部１１の構成を示すブロック図である。図３において、動き解析部１１は、ビート抽出部３１、ビート情報記憶部３２、盛り上がり算出部３３、盛り上がり情報記憶部３４及びモーショングラフ生成部３５を有する。
【００３８】
［ビート抽出部］
ビート抽出部３１は、入力された動きデータからビート時刻を検出する。ここで、動きデータのビート時刻は反復的な動きの方向又は強度が変化する時刻である、と定義する。例えば、ダンスなどの動きでは拍子を打つタイミングが相当する。ビート抽出部３１は、入力された動きデータを短時間の動きデータに分割し、分割した動き区間から主成分分析によってビート時刻を検出する。
【００３９】
以下、本実施形態に係るビート時刻検出方法を説明する。
【００４０】
［物理量変換ステップ］
物理量変換ステップでは、入力された動きデータにおいて、時刻ｔにおけるジョイント相対位置を算出する。ジョイント相対位置は、ルートに対するジョイントの相対的な位置である。
【００４１】
ここで、ジョイント相対位置の算出方法を説明する。
まず、人体スケルトン型角度情報データ内の基本ポーズデータとフレームデータを用いて、ジョイント位置を算出する。基本ポーズデータは、基本ポーズのときのルートの位置及び各ジョイントの位置、並びに各骨の長さなど、基本ポーズを特定する情報を有する。フレームデータは、ジョイント毎に、基本ポーズからの移動量の情報を有する。ここでは、移動量として角度情報を利用する。この場合、時刻ｔにおけるｋ番目のジョイントの位置ｐ^ｋ（ｔ）は、（１）式および（２）式により算出される。ｐ^ｋ（ｔ）は３次元座標で表される。なお、時刻ｔはフレームデータの時刻である。本実施形態では、時刻ｔを単に「フレームインデックス」として扱う。これにより、時刻ｔは、０，１，２，・・・，Ｔ−１の値をとる。Ｔは、動きデータに含まれるフレームの個数である。
【００４２】
【数１】

【００４３】
【数２】

【００４４】
但し、０番目（ｉ＝０）のジョイントはルートである。Ｒ_ａｘｉｓ^{ｉ−１，ｉ}（ｔ）は、ｉ番目のジョイントとその親ジョイント（「ｉ−１」番目のジョイント）間の座標回転マトリックスであり、基本ポーズデータに含まれる。各ジョイントにはローカル座標系が定義されており、座標回転マトリックスは親子関係にあるジョイント間のローカル座標系の対応関係を表す。Ｒ^ｉ（ｔ）は、ｉ番目のジョイントのローカル座標系におけるｉ番目のジョイントの回転マトリックスであり、フレームデータに含まれる角度情報である。Ｔ^ｉ（ｔ）は、ｉ番目のジョイントとその親ジョイント間の遷移マトリックスであり、基本ポーズデータに含まれる。遷移マトリックスは、ｉ番目のジョイントとその親ジョイント間の骨の長さを表す。
【００４５】
次いで、時刻ｔにおける、ルートに対するｋ番目のジョイントの相対位置（ジョイント相対位置）ｐ’^ｋ（ｔ）を（３）式により算出する。
【００４６】
【数３】

【００４７】
但し、ｐ^ｒｏｏｔ（ｔ）は時刻ｔにおけるルート（０番目のジョイント）の位置（ｐ^０（ｔ））である。
【００４８】
これにより、時刻ｔのフレーム「ｘ（ｔ）」は、「ｘ（ｔ）＝｛ｐ’^１（ｔ），ｐ’^２（ｔ），・・・，ｐ’^Ｋ（ｔ）｝」と表される。但し、Ｋは、ルートを除いたジョイントの個数である。
【００４９】
［データ分割ステップ］
データ分割ステップでは、ジョイント相対位置データを、一定時間の区間に分割する。データ分割ステップでは、各ジョイントのジョイント相対位置データ「ｐ’^ｋ（ｔ）」に対して、それぞれデータ分割処理を行う。図４，図５にデータ分割処理の概念を示す。データ分割処理では、ジョイント相対位置データを一定時間（一定数のフレーム分に対応）の区間に分割する。分割区間の長さは、適宜、設定可能である。分割区間の長さは、例えば、１フレーム当たりの時間の６０倍である。このとき、図４に示されるように、各区間が重複しないようにしてもよく、或いは、図５に示されるように、各区間が重複区間（オーバーラップ）を有するようにしてもよい。重複区間の長さは、適宜、設定可能である。重複区間の長さは、例えば、分割区間の長さの半分である。
【００５０】
［主成分分析ステップ］
主成分分析ステップでは、データ分割ステップによって分割されたジョイント相対位置データに対し、各区間で主成分分析処理を行う。ここで、時刻ｔのフレーム「ｘ（ｔ）」を用いて、一区間のデータ「Ｘ」を「Ｘ＝｛ｘ（ｔ１），ｘ（ｔ２），・・・，ｘ（ｔＮ）｝と表す。但し、Ｎは区間長（区間内に含まれるフレームの個数）である。Ｘは、Ｍ行Ｎ列の行列である（但し、Ｍ＝３×Ｋ）。
【００５１】
主成分分析処理では、Ｘに対して主成分分析処理を行い、Ｘを主成分空間へ変換する。
【００５２】
ここで、主成分分析方法を説明する。
まず、（４）式により、Ｘから平均値を除いたＮ行Ｍ列の行列Ｄを算出する。
【００５３】
【数４】

【００５４】
次いで、（５）式により、Ｎ行Ｍ列の行列Ｄに対して特異値分解（Singular Value Decomposition）を行う。
【００５５】
【数５】

【００５６】
但し、Ｕは、Ｎ行Ｎ列のユニタリ行列である。Σは、Ｎ行Ｍ列の負でない対角要素を降順にもつ対角行列であり、主成分空間の座標の分散を表す。Ｖは、Ｍ行Ｍ列のユニタリ行列であり、主成分に対する係数（principal component）である。
【００５７】
次いで、（６）式により、Ｎ行Ｍ列の行列Ｄを主成分空間へ変換する。Ｍ行Ｎ列の行列Ｙは、主成分空間の座標を表す。
【００５８】
【数６】

【００５９】
主成分分析ステップでは、区間毎に、主成分空間の座標を表す行列（主成分座標行列）Ｙと、主成分に対する係数の行列（主成分係数行列）Ｖをメモリに保存する。
【００６０】
なお、元空間の座標を表す行列Ｘと主成分座標行列Ｙは、（６）式と（７）式により相互に変換することができる。
【００６１】
【数７】

【００６２】
また、上位のｒ個の主成分によって、（８）式により変換することができる。
【００６３】
【数８】

【００６４】
但し、Ｖ^ｒは、主成分係数行列Ｖ内の上位のｒ個の行から成るＭ行ｒ列の行列である。Ｙ^ｒは、主成分座標行列Ｙ内の上位のｒ個の列から成るｒ行Ｎ列の行列である。Ｘ^〜は、復元されたＭ行Ｎ列の行列である。
【００６５】
なお、元空間の一部の自由度だけを主成分分析処理することも可能である。例えば、足の動きだけでビートを表現することができる場合には、足に関するジョイント相対位置データのみから生成したＭ’行Ｎ列の行列Ｘ’に対して、（４）式、（５）式及び（６）式により主成分分析処理を行う。
【００６６】
［主成分選択ステップ］
主成分選択ステップでは、各区間において、主成分座標行列Ｙから主成分を一つ選択する。
【００６７】
ここで、主成分選択方法を説明する。
（ユーザからの指定がない場合）
ユーザからの指定がない場合には、主成分座標行列Ｙ内の第１主成分（主成分座標行列Ｙの第１行）を選択する。第１主成分は、一区間における時間関連性がより強いために、動きの変化を表現しており、一般的に、ビート時刻に関する十分な情報を有する。
【００６８】
（ユーザからの指定がある場合）
ユーザによって主成分が指定されている場合には、その指定された主成分（第ｋ主成分（主成分座標行列Ｙの第ｋ行）、１≦ｋ≦Ｋ）を選択する。この場合、映像コンテンツ生成装置１には、動きデータと共に、主成分の指定情報が入力される。若しくは、予め主成分の指定情報を固定的に設定しておいてもよい。
なお、第１主成分以外の第ｎ主成分（１＜ｎ≦Ｋ）が選択される場合の例としては、体の一部分の動きがビートを表現しているものなどが挙げられる。例えば、最も大きい動きが体の回転である場合において、足の着地がビートをよく表現しているとする。すると、足の動きを表す第ｋ主成分がビート時刻に関する十分な情報を有する。
【００６９】
主成分選択ステップでは、区間毎に、選択した主成分を示す情報（例えば、主成分番号「ｋ（ｋは１からＫまでの自然数）」をメモリに保存する。
【００７０】
［主成分座標連結ステップ］
主成分座標連結ステップでは、主成分選択ステップによって選択された各区間の主成分の座標を、時系列に沿って連結する。この主成分座標連結処理では、連続する２つの区間の境界部分において、主成分の座標が滑らかに連結されるように、主成分の座標を調整する。
【００７１】
図６に、本実施形態に係る主成分座標連結処理を説明するための概念図を示す。本実施形態では、時系列に従って、先頭の区間から順番に主成分座標連結処理を行ってゆく。図６において、ある区間（前区間）までの主成分座標連結処理が終了している。そして、その前区間に対して、次の区間（当区間）を連結するための主成分座標連結処理を行う。この主成分座標連結処理では、前区間の主成分座標に対し、当区間の主成分座標が滑らかに連結されるように、当区間の主成分座標を調整する。この主成分座標の調整処理では、主成分選択ステップによって選択された当区間の主成分座標（元座標）に対し、符号反転又は座標シフトを行う。
【００７２】
ここで、主成分座標連結処理を説明する。
【００７３】
主成分座標連結ステップＳ１１：主成分選択ステップによって選択された当区間の主成分の座標（第ｋ主成分の元座標）Ｙ_ｋに対し、当区間の主成分係数行列Ｖから、第ｋ主成分に対する係数Ｖ_ｋを取得する。さらに、メモリに保存されている前区間の主成分係数行列Ｖから、第ｋ主成分に対する係数Ｖ_ｋ^ｐｒｅを取得する。
【００７４】
主成分座標連結ステップＳ１２：当区間に係る第ｋ主成分に対する係数Ｖ_ｋと前区間に係る第ｋ主成分に対する係数Ｖ_ｋ^ｐｒｅとの関係に基づいて、当区間に係る第ｋ主成分の元座標を符号反転するか否かを判定する。この符号反転の判定は、（９）式により行う。（９）式による判定の結果、符号反転する場合には、当区間の第ｋ主成分の元座標Ｙ_ｋに対して符号反転を行うと共に、当区間の主成分係数行列Ｖに対しても符号反転を行う。一方、（９）式による判定の結果、符号反転しない場合には、当区間の第ｋ主成分の元座標Ｙ_ｋ及び当区間の主成分係数行列Ｖともに、そのままの値を主成分座標連結ステップＳ１２の処理結果とする。
【００７５】
【数９】

【００７６】
但し、Ｙ_ｋは、当区間で選択された主成分の座標（第ｋ主成分の元座標）である。Ｖは、当区間の主成分係数行列である。Ｖ_ｋは、当区間に係る第ｋ主成分に対する係数である。Ｖ_ｋ^ｐｒｅは、前区間に係る第ｋ主成分に対する係数である。（Ｖ_ｋ・Ｖ_ｋ^ｐｒｅ）は、Ｖ_ｋとＶ_ｋ^ｐｒｅの内積である。Ｙ_ｋ’は、当区間で選択された主成分の座標（第ｋ主成分の元座標）Ｙ_ｋに対する主成分座標連結ステップＳ１２の処理結果である。Ｖ’は、当区間の主成分係数行列Ｖに対する主成分座標連結ステップＳ１２の処理結果である。
【００７７】
主成分座標連結ステップＳ１３：主成分座標連結ステップＳ１２の処理結果の主成分座標Ｙ_ｋ’に対し、座標シフトを行う。
（区間のオーバーラップがない場合）
区間のオーバーラップがない場合（図４に対応）には、（１０）式により座標シフトを行う。この場合、前区間の主成分座標行列Ｙから、前区間の第ｔＮフレームにおける第ｋ主成分の座標Ｙ_ｋ^ｐｒｅ（ｔＮ）を取得する。
【００７８】
【数１０】

【００７９】
但し、Ｙ_ｋ’（ｔ１）は、ステップＳ１２の処理結果の主成分座標Ｙ_ｋ’のうち、第ｔ１フレームの座標である。Ｙ_ｋ”（ｔ２）は、（１０）式の最初の計算式の計算結果の座標Ｙ_ｋ”のうち、第ｔ２フレームの座標である。
（１０）式の最初の計算式の計算結果の座標Ｙ_ｋ”に対し、第ｔ１フレームの座標Ｙ_ｋ”（ｔ１）をＹ_ｋ^ｏｐｔ（ｔ１）に置き換える。この置き換え後の座標Ｙ_ｋ”が、座標シフト結果の座標である。
【００８０】
（区間のオーバーラップがある場合）
区間のオーバーラップがある場合（図５に対応）には、（１１）式により座標シフトを行う。この場合、前区間の主成分座標行列Ｙから、前区間の第（ｔＮ−Ｌ_ｏｌ＋１）フレームにおける第ｋ主成分の座標Ｙ_ｋ^ｐｒｅ（ｔＮ−Ｌ_ｏｌ＋１）と、前区間の第（ｔＮ−Ｌ_ｏｌ＋１＋ｉ）フレームにおける第ｋ主成分の座標Ｙ_ｋ^ｐｒｅ（ｔＮ−Ｌ_ｏｌ＋１＋ｉ）とを取得する。但し、ｉ＝１，２，・・・，Ｌ_ｏｌである。Ｌ_ｏｌは、前区間と当区間で重複している区間（オーバーラップ）の長さである。
【００８１】
【数１１】

【００８２】
但し、Ｙ_ｋ’（ｔ１）は、ステップＳ１２の処理結果の主成分座標Ｙ_ｋ’のうち、第ｔ１フレームの座標である。Ｙ_ｋ”（ｔ１＋ｉ）は、（１１）式の最初の計算式の計算結果の座標Ｙ_ｋ”のうち、第（ｔ１＋ｉ）フレームの座標である。
（１１）式の最初の計算式の計算結果の座標Ｙ_ｋ”に対し、第（ｔ１＋ｉ）フレームの座標Ｙ_ｋ”（ｔ１＋ｉ）をＹ_ｋ^ｏｐｔ（ｔ１＋ｉ）に置き換える。この置き換え後の座標Ｙ_ｋ”が、座標シフト結果の座標である。
【００８３】
主成分座標連結ステップＳ１４：当区間において、主成分座標連結ステップＳ１２の処理結果の座標Ｙ_ｋ’に対して、主成分座標連結ステップＳ１３の処理結果の座標Ｙ_ｋ^ｏｐｔ（ｔ１）又はＹ_ｋ^ｏｐｔ（ｔ１＋ｉ）を反映する。これにより、当区間の主成分座標は、前区間の主成分座標に対して滑らかに連結されるものとなる。
【００８４】
主成分座標連結ステップでは、上記した主成分座標連結処理を最初の区間から最後の区間まで行う。これにより、連結後の全区間の主成分座標「ｙ（ｔ）、ｔ＝０，１，２，・・・，Ｔ−１」が求まる。但し、Ｔは、動きデータに含まれるフレームの個数である。
【００８５】
［ビート抽出ステップ］
ビート抽出ステップでは、主成分座標連結ステップによって算出された連結後の全区間の主成分座標ｙ（ｔ）から、極値ｂ（ｊ）を算出する。この算出結果の極値ｂ（ｊ）がビートに対応する。ビートの集合Ｂは、（１２）式で表される。
【００８６】
【数１２】

【００８７】
但し、Ｊは、ビートの個数である。
【００８８】
なお、ビートの集合の算出は、上記した方法以外の方法でも可能である。
例えば、ビート抽出ステップでは、主成分座標連結ステップによって算出された連結後の全区間の主成分座標から自己相関値を算出し、該自己相関値の極値ｂ（ｊ）をビートに対応するものとして算出することができる。
また、ビート抽出ステップでは、主成分座標連結ステップによって、連結後の隣区間の主成分係数から算出した内積（（９）式によるもの）の自己相関値を算出し、該自己相関値の極値ｂ（ｊ）をビートに対応するものとして算出することができる。
【００８９】
［後処理ステップ］
後処理ステップでは、ビート抽出ステップによって算出されたビート集合Ｂから、ビート時刻を検出する。
【００９０】
ここで、ビート時刻検出処理を説明する。
まず、ビート集合Ｂ内の各極値間を、（１３）式により正弦曲線（sinusoid）で近似する。
【００９１】
【数１３】

【００９２】
但し、ｓ_ｊ−１（ｔ）は、（ｊ−１）番目の極値ｂ（ｊ−１）からｊ番目の極値ｂ（ｊ）までの区間の正弦近似値である。ｔはフレームに対応する時刻であり、「ｔ＝０，１，２，・・・，Ｔ−１」である。Ｔは、動きデータに含まれるフレームの個数である。
【００９３】
図７に、（１３）式による正弦近似処理の概念図を示す。図７において、１番目の極値ｂ（１）から２番目の極値ｂ（２）までの区間ａ１（ｊ＝２の場合の区間）は、ｓ_１（ｔ）で近似される。同様に、２番目の極値ｂ（２）から３番目の極値ｂ（３）までの区間ａ２（ｊ＝３の場合の区間）はｓ_２（ｔ）で近似され、３番目の極値ｂ（３）から４番目の極値ｂ（４）までの区間ａ３（ｊ＝４の場合の区間）はｓ_３（ｔ）で近似され、４番目の極値ｂ（４）から５番目の極値ｂ（５）までの区間ａ４（ｊ＝５の場合の区間）はｓ_４（ｔ）で近似される。
【００９４】
次いで、正弦近似値「ｓ_ｊ−１（ｔ）、ｊ＝２，３，・・・，Ｊ」に対してフーリエ変換を行う。そのフーリエ変換処理には、所定のＦＦＴポイント数Ｌのハン窓を用いたＦＦＴ（Fast Fourier Transform）演算器を使用する。そして、そのフーリエ変換の結果に基づいて、該フーリエ変換に係る周波数範囲のうちから最大の成分を有する周波数（最大成分周波数）ｆｍａｘを検出する。そして、ビート間隔ＴＢを「ＴＢ＝Ｆｓ÷ｆｍａｘ」なる計算式により算出する。但し、Ｆｓは、１秒当たりのフレーム数である。
【００９５】
次いで、正弦近似値「ｓ_ｊ−１（ｔ）、ｊ＝２，３，・・・，Ｊ」と、（１４）式で定義される基準値「ｓ’（ｔ）」との間の最大相関初期位相を（１５）式により算出する。
【００９６】
【数１４】

【００９７】
【数１５】

【００９８】
次いで、（１６）式により、ビート時刻ｅｂ（ｊ）の集合ＥＢを算出する。但し、ＥＪは、ビート時刻ｅｂ（ｊ）の個数である。
【００９９】
【数１６】

【０１００】
以上が本実施形態に係るビート時刻検出方法の説明である。
【０１０１】
ビート抽出部３１は、上述のビート時刻検出方法によって、動きデータからビート時刻ｅｂ（ｊ）の集合ＥＢを算出する。さらに、ビート抽出部３１は、（１７）式により、動きのテンポを算出する。動きのテンポは、１分間当たりのビートの個数である。ここでは、１秒当たりのフレーム数は１２０である。
【０１０２】
【数１７】

【０１０３】
但し、ＴＢはビート間隔（秒）である。
【０１０４】
ビート抽出部３１は、各動きデータについて、ビート時刻ｅｂ（ｊ）の集合ＥＢとテンポをビート情報記憶部３２に格納する。このとき、ビート抽出部３１が主成分分析処理を行った区間（主成分分析区間）とビート時刻ｅｂ（ｊ）の対応関係を表す情報もビート情報記憶部３２に格納する。これにより、あるビート時刻がどの主成分分析区間に属するのかが分かる。
【０１０５】
［盛り上がり算出部］
盛り上がり算出部３３は、各動きデータについて、主成分分析区間ごとに、（１８）式により、動きの盛り上がりを算出する。
【０１０６】
【数１８】

【０１０７】
但し、Σは当該区間の主成分分析処理における負でない固有値を降順にもつ対角行列であり、主成分空間の座標の分散を表す。tr()は、対角行列の対角成分の和（matrix trace）である。
【０１０８】
盛り上がり算出部３３は、各動きデータについて、各主成分分析区間の盛り上がりを盛り上がり情報記憶部３４に格納する。
【０１０９】
［モーショングラフ生成部］
モーショングラフ生成部３５は、各動きデータの、ビート時刻ｅｂ（ｊ）の集合ＥＢ、テンポ及び盛り上がりを用いて、モーショングラフを生成する。モーショングラフについては非特許文献４に開示されている。モーショングラフは、ノード（頂点）群とノード間の連結関係を表すエッジ（枝）群とエッジの重みから構成される。エッジには双方向と単方向の２種類がある。
【０１１０】
図８は、本実施形態に係るモーショングラフの構成方法の全体の流れを示す概念図である。
動きデータベース２内の動きデータは、ジャンル別に分類される。動きデータベース２内の動きデータのジャンルは、予め設定される。そのジャンル分けは動きの特徴によって行われる。各動きデータには、所属するジャンルを示す情報が付加されている。モーショングラフ生成部３５は、動きデータに付加されたジャンル情報によって、動きデータのジャンルを判別する。図８の例では、動きデータベース２内の動きデータは、ｎ個のジャンルデータベース（ジャンル１ＤＢからジャンルｎＤＢ）に分類される。
【０１１１】
モーショングラフ生成部３５は、同じジャンルに属する動きデータについて、さらに、（１９）式で算出される値ｉにより分類する。図８の例では、ジャンル２に属する動きデータは、ｍ個のテンポデータベース（テンポ１ＤＢからテンポｍＤＢ）に分類される。
【０１１２】
【数１９】

【０１１３】
但し、Ｑ_{Ｔｅｍｐｏ}はテンポの量子化の長さである。Ｔｅｍｐｏ^{Ｍｏｔｉｏｎ}は分類対象の動きデータに係るテンポである。Ｔｅｍｐｏ^{Ｍｏｔｉｏｎ}_ｍｉｎは分類対象のジャンル内で最小のテンポである。
【０１１４】
モーショングラフ生成部３５は、同じジャンルに属する動きデータについて、さらに（１９）式の算出値ｉで分類されたテンポデータベース毎に、モーショングラフを生成する。
【０１１５】
図９は、本実施形態に係るモーショングラフ生成方法の流れを示す概念図である。以下、図９を参照して、あるジャンルのあるテンポデータベース（テンポｉＤＢ）のモーショングラフを生成する手順を説明する。
【０１１６】
［ビートフレーム抽出ステップ］
まず、ビートフレーム抽出ステップでは、テンポｉＤＢに属する全ての動きデータから、ビート時刻に該当するフレーム（ビートフレーム）を全て抽出する。この抽出されたビートフレームの集合をＦ^ｉＡＬＬ_Ｂと表す。
【０１１７】
［連結性算出ステップ］
次いで、連結性算出ステップでは、集合Ｆ^ｉＡＬＬ_Ｂに含まれる全ビートフレームを対象とした全てのペアについて、（２０）式又は（２１）式により距離を算出する。あるビートフレームＦ^ｉ_ＢとあるビートフレームＦ^ｊ_Ｂとの距離をｄ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）と表す。
【０１１８】
【数２０】

【０１１９】
但し、ｑ_ｉ，ｋはビートフレームＦ^ｉ_Ｂのｋ番目のジョイントの四元数（quaternion）である。ｗ_ｋはｋ番目のジョイントに係る重みである。重みｗ_ｋは予め設定される。
【０１２０】
【数２１】

【０１２１】
但し、ｐ_ｉ，ｋはビートフレームＦ^ｉ_Ｂのｋ番目のジョイントのルートに対する相対位置のベクトルである。つまり、ｐ_ｉ，ｋは、ルートの位置と方向は考えずに算出したビートフレームＦ^ｉ_Ｂのｋ番目のジョイントの位置のベクトルである。
【０１２２】
なお、ビートフレーム間の距離は、対象ビートフレームにおけるポーズを構成する各ジョイントの位置、速度、加速度、角度、角速度、角加速度などの物理量の差分の重み付き平均として算出することができる。
【０１２３】
次いで、連結性算出ステップでは、（２２）式により、連結性を算出する。あるビートフレームＦ^ｉ_ＢとあるビートフレームＦ^ｊ_Ｂとの連結性をｃ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）と表す。
【０１２４】
【数２２】

【０１２５】
但し、ｄ（Ｆ^ｉ_Ｂ）はビートフレームＦ^ｉ_Ｂの前フレームと後フレームの間の距離である（（２０）式又は（２１）式と同様の計算式で算出する）。ＴＨは予め設定される閾値である。
【０１２６】
連結性ｃ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）が１である場合、ビートフレームＦ^ｉ_ＢのポーズとビートフレームＦ^ｊ_Ｂのポーズは似ていると判断できる。連結性ｃ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）が０である場合、ビートフレームＦ^ｉ_ＢのポーズとビートフレームＦ^ｊ_Ｂのポーズは似ているとは判断できない。
【０１２７】
［モーショングラフ構築ステップ］
次いで、モーショングラフ構築ステップでは、まず、集合Ｆ^ｉＡＬＬ_Ｂに含まれる全ビートフレームをそれぞれ、モーショングラフのノードに設定する。従って、モーショングラフのノード数の初期値は、集合Ｆ^ｉＡＬＬ_Ｂに含まれるビートフレームの個数に一致する。
【０１２８】
次いで、連結性ｃ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）が１である場合、ビートフレームＦ^ｉ_ＢのノードとビートフレームＦ^ｊ_Ｂのノードの間に双方向のエッジを設ける。連結性ｃ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）が０である場合には、ビートフレームＦ^ｉ_ＢのノードとビートフレームＦ^ｊ_Ｂのノードの間に双方向のエッジを設けない。
【０１２９】
次いで、同じ動きデータの中で隣接するビートフレーム間には、単方向のエッジを設ける。単方向のエッジは、時間的に前のビートフレームのノードから後のビートフレームのノードへ向かう。
【０１３０】
次いで、双方向のエッジに対する重みを算出する。ビートフレームＦ^ｉ_ＢのノードとビートフレームＦ^ｊ_Ｂのノードの間の双方向エッジに対する重みは、ビートフレームＦ^ｉ_Ｂが属する主成分分析区間の盛り上がりとビートフレームＦ^ｊ_Ｂが属する主成分分析区間の盛り上がりを平均した値とする。
【０１３１】
次いで、単方向のエッジに対する重みを算出する。ビートフレームＦ^ｉ_ＢのノードとビートフレームＦ^ｊ_Ｂのノードの間の単方向エッジに対する重みは、次の（ａ），（ｂ）のいずれかの方法で値を決定する。
（ａ）ビートフレームＦ^ｉ_ＢとビートフレームＦ^ｊ_Ｂが同じ主成分分析区間に属する場合、当該主成分分析区間の盛り上がりを重みに用いる。
（ｂ）ビートフレームＦ^ｉ_ＢとビートフレームＦ^ｊ_Ｂが異なる主成分分析区間に属する場合、ビートフレームＦ^ｉ_Ｂが属する主成分分析区間の盛り上がりとビートフレームＦ^ｊ_Ｂが属する主成分分析区間の盛り上がりを平均した値を重みに用いる。
【０１３２】
次いで、双方向エッジの両端のノード（ビートフレーム）に係る動きデータに対して、ブレンディング（blending）処理を行う。ブレンディング処理は、双方向エッジの方向ごとに、それぞれ行う。従って、一つの双方向エッジに対して、図１０（１），（２）に示されるように、２つのブレンディング処理を行うことになる。図１０は、ビートフレームｉのノードとビートフレームｊのノードの間の双方向エッジに係るブレンディング処理の概念図である。図１０（１）はビートフレームｉのノードからビートフレームｊのノードへ向かう方向に係るブレンディング処理を表し、図１０（２）はビートフレームｊのノードからビートフレームｉのノードへ向かう方向に係るブレンディング処理を表す。
【０１３３】
図１１は、ブレンディング処理を説明する概念図であり、図１０（１）に対応している。ここでは、図１１を参照し、図１０（１）に示されるビートフレームｉのノードからビートフレームｊのノードへ向かう方向に係るブレンディング処理を例に挙げて説明する。
【０１３４】
ブレンディング処理では、ビートフレームｉを有する動きデータ１とビートフレームｊを有する動きデータ２に対して、動きのつながりが不自然にならないように、両者の動きデータの接続部分を混合した補間データ（ブレンディング動きデータ）１＿２を生成する。本実施形態では、一定時間分のフレームを使用しクォータニオンによる球面線形補間を利用して連結部分を補間する。具体的には、動きデータ１と動きデータ２を接続する接続区間（区間長ｍ、但し、ｍは所定値）のブレンディング動きデータ１＿２を、動きデータ１のうち最後の区間長ｍのデータ１＿ｍと動きデータ２のうち最初の区間長ｍのデータ２＿ｍを用いて生成する。このとき、接続区間の区間長ｍに対する接続区間の先頭からの距離ｕの比（ｕ／ｍ）に応じて、データ１＿ｍのうち距離ｕに対応するフレームｉとデータ２＿ｍのうち距離ｕに対応するフレームｊを混合する。具体的には、（２３）式および（２４）式により、ブレンディング動きデータ１＿２を構成する各フレームを生成する。なお、（２３）式は、ある一つの骨についての式となっている。
【０１３５】
【数２３】

【０１３６】
【数２４】

【０１３７】
但し、ｍはブレンディング動きデータ１＿２を構成するフレーム（ブレンディングフレーム）の総数（所定値）、ｕはブレンディングフレームの先頭からの順番（１≦ｕ≦ｍ）、ｑ（ｋ，ｕ）はｕ番目のブレンディングフレームにおける第ｋ骨の四元数、ｑ（ｋ，ｉ）はフレームｉにおける第ｋ骨の四元数、ｑ（ｊ）はフレームｊにおける第k骨の四元数、である。但し、ルートにはブレンディングを行わない。なお、（２４）式はslerp（spherical linear interpolation）の算出式である。
【０１３８】
ブレンディング動きデータ１＿２は、動きデータ１と動きデータ２の接続部分のデータとする。
【０１３９】
次いで、モーショングラフからデッドエンド（Dead end）を除去する。デッドエンドとは次数が１であるノードのことである。なお、モーショングラフにおいて、ノードに接続するエッジの数のことを次数という。また、ノードに入ってくるエッジの数のことを入次数、ノードから出て行くエッジの数のことを出次数という。
【０１４０】
モーショングラフからデッドエンドを除去すると、新たなデッドエンドが発生する可能性があるが、デッドエンドがなくなるまでデッドエンド除去を繰り返す。
【０１４１】
以上のモーショングラフ構築ステップによって、あるジャンルのあるテンポデータベース（テンポｉＤＢ）のモーショングラフのデータが生成される。モーショングラフデータは、モーショングラフが有するノード（ビートフレーム）の情報と、ノード間のエッジ（双方向エッジまたは単方向エッジ）の情報（エッジの重みを含む）と、双方向エッジに対応する２方向分のブレンディング動きデータとを有する。
【０１４２】
モーショングラフ生成部３５は、各ジャンルのテンポデータベースごとに生成したモーショングラフデータをデータベース１２に格納する。これにより、データベース１２には、各ジャンルのテンポデータベースごとに、モーショングラフデータが格納される。
【０１４３】
以上が動き解析部１１に係る説明である。動き解析部１１の処理はオフラインで実行され、データベース１２が構築される。このデータベース１２を用いて、映像コンテンツ生成装置１のオンライン処理が行われる。以下、映像コンテンツ生成装置１のオンライン処理を説明する。
【０１４４】
［音楽解析部］
映像コンテンツ生成装置１には、映像コンテンツ生成対象の楽曲の音楽データが楽曲ファイル３から入力される。音楽解析部１３は、映像コンテンツ生成対象の楽曲の音楽データを解析して音楽特徴量を取得する。本実施形態では、非特許文献２に記載の技術を用いて、音楽データから、ビート間隔及びビート時刻、並びに、音楽の盛り上がりを示す数値（以下、盛り上がりと称する）を音楽特徴量として取得する。
【０１４５】
さらに、音楽解析部１３は、（２５）式により、音楽のテンポを算出する。音楽のテンポは、１分間当たりのビートの個数である。
【０１４６】
【数２５】

【０１４７】
但し、ＴＢ_{ｍｕｓｉｃ}はビート間隔（秒）である。
音楽解析部１３は、音楽特徴量（ビート間隔、ビート時刻、テンポおよび盛り上がり）を音楽解析データ記憶部１４に格納する。
【０１４８】
［同期部］
まず、同期部１５は、データベース１２内のモーショングラフデータの中から、映像コンテンツ生成対象の楽曲に合ったモーショングラフデータを選択する。この選択では、映像コンテンツ生成対象の楽曲に合ったジャンルのモーショングラフデータの中から、映像コンテンツ生成対象の楽曲のテンポに合ったモーショングラフデータを選択する。映像コンテンツ生成対象の楽曲に合ったジャンルは、利用者から入力してもらう、又は予め設定しておく。
【０１４９】
具体的には、同期部１５は、楽曲全体のテンポと該選択したジャンルのモーショングラフデータの中で最小のテンポを上記（１９）式にあてはめて計算を行う。次いで、同期部１５は、利用者から入力された又は予め設定されたジャンルのモーショングラフデータの中から、その（１９）式の算出値ｉに対応するモーショングラフデータを選択する。
【０１５０】
次いで、同期部１５は、選択したモーショングラフデータを用いて、動きデータと音楽データを対応付ける同期情報を生成する。以下、同期情報生成方法を説明する。
【０１５１】
［始点選択ステップ］
始点選択ステップでは、モーショングラフ内のノードから、映像コンテンツの動きの始点となるノードの候補（始点候補ノード）を選択する。始点候補ノードには、モーショングラフ内のノードであって、各動きデータの最初のビートフレームに対応するノードを全て抽出する。従って、始点候補ノードは、通常、複数ある。
【０１５２】
［最適パス探索ステップ］
次いで、最適パス探索ステップでは、モーショングラフ上の始点候補ノードからの最適パスを始点候補ノード毎に探索し、各始点候補ノードに係る最適パスの中から最小コストのパスを選択する。このパス探索方法には、非特許文献７に記載されるパス探索技術を用いる。非特許文献７に記載されるパス探索技術は、ある始点からダイナミックプログラミングで最適なパスを探索するものである。以下、最適パス探索ステップの詳細を説明する。
【０１５３】
まず、ある始点候補ノードｕからモーショングラフ上の全てのノードｉまでの各パスのコストを（２６）式により算出する。始点候補ノードｕに係る最初の最短パス算出操作は第１回の操作である。
【０１５４】
【数２６】

【０１５５】
但し、ｓｈｏｒｔｅｓｔＰａｔｈ（ｉ，１）は、第１回の最短パス算出操作による、始点候補ノードｕからノードｉまでのパスのコストである。ｅｄｇｅＣｏｓｔ（ｕ，ｉ）はノードｕからノードｉまでのエッジコストである。エッジコストの計算式は（２９）式である。
【０１５６】
次いで、第２回目以降の第ｋ回の最短パス算出操作では、（２７）式により、始点候補ノードｕからモーショングラフ上の全てのノードｖまでの最適パスのコストを算出する。
【０１５７】
【数２７】

【０１５８】
但し、Ｖはモーショングラフ上のノードの集合である。ｓｈｏｒｔｅｓｔＰａｔｈ（ｖ，ｋ）は、第ｋ回の最短パス算出操作による、始点候補ノードｕからノードｖまでの最適パスのコストである。ｅｄｇｅＣｏｓｔ（ｉ，ｖ）はノードｉからノードｖまでのエッジコストである。
【０１５９】
この（２７）式を用いた第２回目以降の最短パス算出操作は、第Ｋ回まで繰り返し行う。但し、Ｋは映像コンテンツ生成対象の楽曲のビート数である。映像コンテンツ生成対象の楽曲のビート数Ｋは、映像コンテンツ生成対象の楽曲のビート時刻の総数に等しい。映像コンテンツ生成対象の楽曲のビート時刻は、音楽解析データ記憶部１４に格納されているので、その格納数を数えることによってビート数Ｋを求めることができる。
【０１６０】
上記（２６）式および（２７）式を用いた最短パス算出操作を、全ての始点候補ノードに対してそれぞれに行う。次いで、全ての始点候補ノードに係る第Ｋ回の最短パス算出操作結果から、（２８）式により、最小コストのパスを選択する。
【０１６１】
【数２８】

【０１６２】
但し、ｓｈｏｒｔｅｓｔＰａｔｈ（ｖ，Ｋ）は、第Ｋ回の最短パス算出操作による、始点候補ノードｕからノードｖまでの最適パスのコストである。ｓｈｏｒｔｅｓｔＰａｔｈ（Ｋ）は、最小コストのパス（始点ノードｕから終点ノードｖまでのパス）のコストである。
【０１６３】
エッジコストは、（２９）式により、毎回計算される。
【０１６４】
【数２９】

【０１６５】
最適パス探索ステップでは、上記（２８）式によって選択された最小コストのパスを探索結果の最適パスとする。この最適パスに含まれるＫ個のノードは、１個の始点ノードｕと、（Ｋ−２）個の経由ノードｉと、１個の終点ノードｖである。ここで、始点候補ノードは、通常、複数あるので、上記探索結果の最適パスは始点候補ノードの数と同じ数だけある。それら最適パスの中から、コストが一番小さいパスとその始点を最終結果の最適パスとして選択する。この最終結果の最適パスに含まれるＫ個のノードは、１個の最適始点ノードｕ^ｏｐｔと、（Ｋ−２）個の経由ノードｉ^ｏｐｔと、１個の終点ノードｖ^ｏｐｔである。
【０１６６】
［同期情報生成ステップ］
同期情報生成ステップでは、最適パス探索ステップの最終結果の最適パスに従って、動きデータと音楽データを対応付ける同期情報を生成する。以下、同期情報生成ステップの詳細を説明する。
【０１６７】
まず、最適パス探索ステップの最終結果の最適パスに含まれるＫ個のノード（１個の始点ノードｕ^ｏｐｔと、（Ｋ−２）個の経由ノードｉ^ｏｐｔと、１個の終点ノードｖ^ｏｐｔ）に対応するＫ個のビートフレーム（１個の始点ビートフレームと、（Ｋ−２）個の経由ビートフレームと、１個の終点ビートフレーム）について、最適パスの順番で隣り合うビートフレーム間の時間を求める。さらに、各隣接ビートフレーム間のフレームレートを求める。また、映像コンテンツ生成対象の楽曲のＫ個のビートについて、時間的に隣り合うビート間の時間を求める。
【０１６８】
次いで、楽曲のビート間隔に動きのビート間隔を等しくするように、（３０）式により、動きのフレームレートを増減させる調整を行う。図１２に、動きのフレームレートを調整する処理の概念図を示す。（３０）式は、ｎ番目のビートフレームと（ｎ＋１）番目のビートフレームの間のフレームレートを算出するための計算式である（但し、ｎは１から（Ｋ−１）までの自然数である）。
【０１６９】
【数３０】

【０１７０】
但し、ｔ^{ｍｏｔｉｏｎ}_{ｎｏｄｅ２}は隣接ビートフレームのうち先のビートフレームの時刻、ｔ^{ｍｏｔｉｏｎ}_{ｎｏｄｅ１}は該隣接ビートフレームのうち後のビートフレームの時刻である。ｔ^{ｍｕｓｉｃ}_{ｎｏｄｅ２}は楽曲の隣接ビートのうち先のビートの時刻、ｔ^{ｍｕｓｉｃ}_{ｎｏｄｅ１}は該隣接ビートのうち後のビートの時刻である。ｒａｔｅ＿ｏｌｄは元のフレームレートである。ｒａｔｅ＿ｎｅｗは調整後のフレームレートである。
【０１７１】
同期部１５は、上記した同期情報生成方法によって、映像コンテンツの動きの始点となる１個の始点ビートフレームと、映像コンテンツの動きの終点となる１個の終点ビートフレームと、始点ビートフレームから終点ビートフレームに至るまでに経由する（Ｋ−２）個の経由ビートフレームと、各隣接ビートフレーム間の調整後のフレームレートとを得る。同期部１５は、始点ビートフレームの情報と経由ビートフレームの情報と終点ビートフレームの情報と調整後のフレームレートの情報と該ビートフレーム間のブレンディング動きデータを同期情報として同期情報記憶部１６に格納する。なお、ブレンディング動きデータは、最適パス探索ステップの探索結果の最適パスに沿った方向のデータのみでよい。
【０１７２】
［映像データ生成部］
映像データ生成部１７は、同期情報記憶部１６に格納された同期情報に基づいて、映像コンテンツ生成対象の楽曲の音楽データとともに再生される映像データを生成する。具体的には、始点ビートフレームから経由ビートフレームを経由して終点ビートフレームに至るまでに必要な動きデータを動きデータベース２から取得する。
【０１７３】
次いで、取得した動きデータ間を連結する部分（双方向エッジに対応する部分）に対してブレンディング動きデータで置換する。このとき、動きデータの連結部分において、動きデータのルート座標と方向の平行移動を行う。動きデータが連結される際に各動きデータのルート座標は、各動きデータに独自のローカル座標のままである。このままでは、連結後の動きデータの再生画像は、ルート座標が整合されていないために、スムーズな動きにならない。このため、動きデータの連結部分において、後の動きデータのルート座標を前の動きデータの最後のフレームで表現している位置へオフセットする。これにより、動きデータの連結部分における補間処理を行い、連結後の動きデータの再生画像がスムーズな動きとなるようにする。同様に、動きデータが連結される際に各動きデータのルート方向は、後の動きデータのルート方向を前の動きデータの最後のフレームで表現している方向へオフセットする。
【０１７４】
次いで、連結された動きデータに対して、各隣接ビートフレーム間の調整後のフレームレートの情報を付加する。映像データ生成部１７は、この生成した映像データを映像データ記憶部１８に格納する。
【０１７５】
［再生部］
再生部１９は、映像データ記憶部１８に格納された映像データを、映像コンテンツ生成対象の楽曲の音楽データとともに再生する。このとき、再生部１９は、映像データに付加されたフレームレートの情報に従って、隣接ビートフレーム間のフレームレートを設定する。これにより、映像データと音楽データは、互いのビートが同期して再生される。
【０１７６】
なお、再生部１９は、映像コンテンツ生成装置１とは独立した装置であってもよい。
【０１７７】
なお、本実施形態に係る映像コンテンツ生成装置１は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図１に示される映像コンテンツ生成装置１の各部の機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。
【０１７８】
また、その映像コンテンツ生成装置１には、周辺機器として入力装置、表示装置等が接続されるものとする。ここで、入力装置とはキーボード、マウス等の入力デバイスのことをいう。表示装置とはＣＲＴ（Cathode Ray Tube）や液晶表示装置等のことをいう。
また、上記周辺機器については、映像コンテンツ生成装置１に直接接続するものであってもよく、あるいは通信回線を介して接続するようにしてもよい。
【０１７９】
また、図１に示す映像コンテンツ生成装置１が行う各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、映像コンテンツ生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ（Digital Versatile Disk）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【０１８０】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
【０１８１】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述した実施形態では人の動きデータを扱ったが、本発明は各種の物体の動きデータに適用することができる。ここで、物体とは、人、動物、植物その他の生物、及び、生物以外の物（ロボット等）を含む。
【０１８２】
また、本発明は、３次元コンテンツの生成に利用することができる。
【符号の説明】
【０１８３】
１…映像コンテンツ生成装置、１１…動き解析部、１２…データベース、１３…音楽解析部、１４…音楽解析データ記憶部、１５…同期部、１６…同期情報記憶部、１７…映像データ生成部、１８…映像データ記憶部、１９…再生部、３１…ビート抽出部、３２…ビート情報記憶部、３３…盛り上がり算出部、３４…盛り上がり情報記憶部、３５…モーショングラフ生成部

【特許請求の範囲】
【請求項１】
楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成装置において、
映像コンテンツに利用可能な動きデータから動き特徴量を取得する動き解析部と、
動きの種類ごとに分類された動き特徴量群を格納するデータベースと、
映像コンテンツ生成対象楽曲の音楽データから音楽特徴量を取得する音楽解析部と、
前記映像コンテンツ生成対象楽曲の種類に合った動き特徴量群を用いて、前記音楽データと該音楽データに合った前記動きデータとを対応付ける同期情報を生成する同期部と、
前記同期情報に基づいて、前記音楽データとともに再生される映像データを生成する映像データ生成部と、
を備えたことを特徴とする映像コンテンツ生成装置。
【請求項２】
前記動き解析部は、
前記動きデータからビートを抽出し、テンポを算出するビート抽出部と、
複数の前記動きデータに係るビート及びテンポの情報を記憶するビート情報記憶部と、
前記動きデータから盛り上がりを算出する盛り上がり算出部と、
複数の前記動きデータに係る盛り上がりの情報を記憶する盛り上がり情報記憶部と、
複数の前記動きデータに係るビート、テンポ及び盛り上がりの情報を用いて、モーショングラフを生成するモーショングラフ生成部と、を有し、
前記データベースは、動きのテンポの種類ごとに生成されたモーショングラフのデータを格納し、
前記音楽解析部は、前記音楽データからビート、テンポ及び盛り上がりの情報を取得し、
前記同期部は、前記映像コンテンツ生成対象楽曲のテンポに合ったモーショングラフを用いて、前記音楽データに合う前記動きデータと前記音楽データとを対応付ける同期情報を生成する、
ことを特徴とする請求項１に記載の映像コンテンツ生成装置。
【請求項３】
前記ビート抽出部は、前記動きデータに対して一定時間の区間毎に主成分分析を行い、該区間毎に主成分座標を一つ選択し、各区間の主成分座標に基づいてビート時刻を検出することを特徴とする請求項２に記載の映像コンテンツ生成装置。
【請求項４】
前記盛り上がり算出部は、前記区間毎に、主成分分析による負でない固有値の和を計算することを特徴とする請求項３に記載の映像コンテンツ生成装置。
【請求項５】
前記モーショングラフ生成部は、
動きのテンポの種類が同じである前記動きデータからビートフレームを抽出するビートフレーム抽出手段と、
前記抽出されたビートフレーム間の連結性を算出する連結性算出手段と、
前記抽出されたビートフレームの各々をモーショングラフのノードに設定し、前記連結性に基づいてノード間にエッジを設けるモーショングラフ構築手段と、を有する、
ことを特徴とする請求項２から４のいずれか１項に記載の映像コンテンツ生成装置。
【請求項６】
前記モーショングラフ生成部は、前記動きデータに付加されたジャンル情報によって前記動きデータのジャンルを判別し、同じジャンルの前記動きデータをさらにテンポで分類することを特徴とする請求項５に記載の映像コンテンツ生成装置。
【請求項７】
前記モーショングラフ構築手段は、連結性が高いノード間に双方向エッジを設け、各動きデータ内の全隣接ビートフレーム間に単方向エッジを設けることを特徴とする請求項５に記載の映像コンテンツ生成装置。
【請求項８】
一定時間分のフレームを使用しクォータニオンによる球面線形補間を利用して、前記連結性が高いノード間の連結部分を補間するブレンディング動きデータを生成するブレンディング動きデータ生成手段を備えたことを特徴とする請求項７に記載の映像コンテンツ生成装置。
【請求項９】
前記単方向エッジは、隣接ビートフレーム間に連続フレームの動きデータを定義することを特徴とする請求項７に記載の映像コンテンツ生成装置。
【請求項１０】
前記モーショングラフ構築手段は、前記動きデータに係る盛り上がりに基づいて、エッジの重みを算出することを特徴とする請求項５又は請求項７に記載の映像コンテンツ生成装置。
【請求項１１】
前記連結性算出手段は、対象ビートフレームにおいて、ポーズの類似度を算出することを特徴とする請求項５に記載の映像コンテンツ生成装置。
【請求項１２】
前記連結性算出手段は、対象ビートフレームにおけるポーズを構成する各ジョイントの物理量の差分の重み付き平均を算出することを特徴とする請求項１１に記載の映像コンテンツ生成装置。
【請求項１３】
前記同期部は、モーショングラフ上で、前記音楽データの音楽特徴量に相当する動き特徴量を有するパスを探索する最適パス探索手段を有することを特徴とする請求項２から１２のいずれか１項に記載の映像コンテンツ生成装置。
【請求項１４】
前記最適パス探索手段は、前記映像コンテンツ生成対象楽曲が有するビートの個数分の連続するパスを探索することを特徴とする請求項１３に記載の映像コンテンツ生成装置。
【請求項１５】
前記最適パス探索手段は、前記音楽データの盛り上がりと前記動きデータの盛り上がりに基づいてパスのコストを算出することを特徴とする請求項１３又は請求項１４に記載の映像コンテンツ生成装置。
【請求項１６】
前記同期部は、前記映像コンテンツ生成対象楽曲のビート間隔に動きのビート間隔を等しくするように調整した、動きのフレームレートの情報を前記同期情報に含めることを特徴とする請求項２から１５のいずれか１項に記載の映像コンテンツ生成装置。
【請求項１７】
前記映像データ生成部は、動きデータの連結部分において、動きデータのルート座標と方向の平行移動を行うことを特徴とする請求項１から１６のいずれか１項に記載の映像コンテンツ生成装置。
【請求項１８】
前記データベースの構築処理は、前記映像データを生成する処理とは独立して行われることを特徴とする請求項１から１７のいずれか１項に記載の映像コンテンツ生成装置。
【請求項１９】
楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成処理を行うためのコンピュータプログラムであって、
映像コンテンツに利用可能な動きデータから動き特徴量を取得する動き解析ステップと、
動きの種類ごとに分類された動き特徴量群をデータベースに格納するステップと、
映像コンテンツ生成対象楽曲の音楽データから音楽特徴量を取得する音楽解析ステップと、
前記映像コンテンツ生成対象楽曲の種類に合った動き特徴量群を用いて、前記音楽データと該音楽データに合った前記動きデータとを対応付ける同期情報を生成する同期情報生成ステップと、
前記同期情報に基づいて、前記音楽データとともに再生される映像データを生成する映像データ生成ステップと、
をコンピュータに実行させるためのコンピュータプログラム。

【図１】