映像コンテンツ生成システム、映像コンテンツ生成装置及びコンピュータプログラム

【課題】映像コンテンツを同期させる楽曲の開始から終了までの音楽データが入力されていなくても、大規模な動きデータベースを利用して楽曲に合わせた映像コンテンツを生成することができる。
【解決手段】最適パス探索部２４は、音楽データ記憶部２１に所定のビート数の音楽データが記憶された際に、パスで特定される最終ノードから所定のビート数の音楽データに対応するノードまでの第１のコストと、最終ノードの候補であったノードから当該所定のビート数の音楽データに対応するノードまでの第２のコストとの比に応じて、所定量の音楽データに基づいてパスを新たに検索する、またはパスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応するノードまでのパスを追加する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像コンテンツ生成システム、映像コンテンツ生成装置及びコンピュータプログラムに関する。
【背景技術】
【０００２】
近年、音楽に合わせてコンピュータ・グラフィックス（ＣＧ）オブジェクトを表示させる技術として、例えば、演奏家が音楽を演奏すると、音楽との所定のマッピングのパタンに従って、ＣＧモデルが動くようになる技術が提案されている。
【０００３】
特許文献１では、ＣＧオブジェクトの時系列に対して、音楽データの静的属性または動的属性をもとにして描画情報（視点情報、光源情報）を再設定する。そして、音楽データをＣＧオブジェクト表示と同期して再生している。又、特許文献２に記載のモーション作成装置では、複数のモーションにおいて人体姿勢が類似する２つのフレーム間を連結した有向性グラフとしてモーションデータベースを構築し、その複数のモーションの中から、音楽データから取得したビート特徴成分と相関を有する動き特徴成分をもつモーションを選択している。また、非特許文献１に記載の技術では、事前に独自なデータ構造を生成し、音楽を入力すると、Dynamic Programming（動的計画法）でより高速な同期ができる。
【０００４】
音楽解析手法としては、非特許文献２に記載の技術が知られている。非特許文献２の技術によれば、発音成分、コードの変化、打楽器の発音時刻などを推定してビート間隔及びビート構造を取得している。動き解析手法としては、非特許文献３に記載の技術が知られている。非特許文献３の技術によれば、動きビートの変化や発生時刻を推定してビート間隔及びビート構造を取得している。
非特許文献４には、モーショングラフ（Motion Graphs）を用いて新たな動きデータを生成する技術が開示されている。
非特許文献５には、パス探索技術として、ある始点からダイナミックプログラミング（dynamic programming）で最適なパスを探索する技術が開示されている。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００５−５６１０１号公報
【特許文献２】特開２００７−１８３８８号公報
【非特許文献】
【０００６】
【非特許文献１】徐建鋒、高木幸一、米山暁夫、“動きのビート・盛り上がり情報に基づく音楽に同期したダンス生成手法”、2009年度映像メディア処理シンポジウム (IMPS)、I-04-01,2009年10月7日
【非特許文献２】M.Goto，“An Audio-based Real-time Beat Tracking System for Music With or Without Drum-sounds”，Journal of New Music Research，Vol．30，No．2，pp．159-171，2001
【非特許文献３】T.Kim，S.I.Park，S.Y.Shin，“Rhythmic-Motion Synthesis Based on Motion-Beat Analysis”，ACM Transaction on Graphics，Vol.22，Issue 3，2003（SIGGRAPH 2003），pp．392-401
【非特許文献４】L.Kovar，M.Gleicher，and F.Pighin，“Motion Graphs”，ACM Transaction on Graphics，Vol.21，Issue 3，2002（SIGGRAPH 2002），pp．473-482
【非特許文献５】Cormen，Thomas H.; Leiserson，Charles E.，Rivest，Ronald L. (1990). Introduction to Algorithms (2st ed.). MIT Press and McGraw-Hill. ISBN 0-262-03141-8. pp. 323-69
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかし、上述した特許文献１記載の従来技術では、ある楽曲に対してＣＧアニメーションを作成する際、ＣＧオブジェクトの時系列がその楽曲の音楽の変化にそぐわない場合には、楽曲に合致したＣＧアニメーションを作成することが難しいという問題がある。又、特許文献２記載の従来技術では、一般に利用可能な膨大な数の動きデータに対して、人体姿勢が類似する２つのフレーム間を連結した有向性グラフとしてモーションデータベースを構築することは、現実的に難しいという問題がある。このため、実際のモーション作成対象の楽曲に基づいて選択された動きデータを対象にして、動きデータ間を連結することが望ましい。
【０００８】
非特許文献４記載の従来技術では、モーショングラフの構築と最適なパスの探索に要する計算量が膨大である。また、元々のモーション構造を考慮しないで構築されたモーショングラフを使用すると、元々のモーション構造が壊れる可能性がある。例えば、激しい動きとゆっくりの動き間で遷移すると、動きの突然の変化のために、不自然な動き又は不一致な動きが生まれる可能性がある。
【０００９】
非特許文献１記載の従来技術では、曲の開始から終了までの音楽データが入力されていなければ、音楽データとＣＧオブジェクトとを同期させることができないという問題がある。そのため、例えばストリーミング配信される曲に合致したＣＧアニメーションをリアルタイムに生成することは困難である。
【００１０】
本発明は、このような事情を考慮してなされたもので、その目的は、映像コンテンツを同期させる楽曲の開始から終了までの音楽データが入力されていなくても、大規模な動きデータベースを利用して楽曲に合わせた映像コンテンツを生成することができる映像コンテンツ生成システム、映像コンテンツ生成装置及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【００１１】
本発明は、ストリーミング配信される楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成システムにおいて、映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを記憶するデータベースと、前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶部と、前記ストリーミングデータ記憶部から、前記音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶部と、前記音楽データ記憶部が記憶する前記所定量の音楽データから音楽特徴量を取得する音楽解析部と、前記モーショングラフ上で、前記音楽データ記憶部が記憶する前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索部と、前記最適パス探索部が探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期部と、前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成部と、前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶部と、を備え、前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第１のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第２のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加することを特徴とする映像コンテンツ生成システムである。
【００１２】
また、本発明の映像コンテンツ生成システムにおいて、前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された場合、前記第１のコストが、前記第２のコストに所定の係数を乗算した値以上の場合には、前記所定量の音楽データに基づいて前記パスを新たに検索し、それ以外の場合には、前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加することを特徴とする。
【００１３】
また、本発明は、前記ストリーミングデータ記憶部が記憶する音楽データに基づいて再生される音楽の特徴を解析し、解析した結果に基づいて前記所定のビート数を決定する移動量決定部を備えたことを特徴とする映像コンテンツ生成システムである。
【００１４】
また、本発明の映像コンテンツ生成システムにおいて、前記移動量決定部は、前記ストリーミングデータ記憶部が記憶する音楽データに基づいて再生される音楽のフェーズが変化した時、或いはサビになった時、前記所定のビート数を増やし、それ以外の場合には前記所定のビート数を１ビートとすることを特徴とする。
【００１５】
また、本発明は、ストリーミング配信される楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成装置において、映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを取得する取得部と、前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶部と、前記ストリーミングデータ記憶部から、前記音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶部と、前記音楽データ記憶部が記憶する前記所定量の音楽データから音楽特徴量を取得する音楽解析部と、前記モーショングラフ上で、前記音楽データ記憶部が記憶する前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索部と、前記最適パス探索部が探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期部と、前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成部と、前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶部と、を備え、前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第１のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第２のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加することを特徴とする映像コンテンツ生成装置である。
【００１６】
また、本発明は、コンピュータに、映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを取得する取得ステップと、前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶ステップと、前記ストリーミングデータ記憶ステップで記憶した前記音楽データから、当該音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶ステップと、前記音楽データ記憶ステップで記憶した前記所定量の音楽データから音楽特徴量を取得する音楽解析ステップと、前記モーショングラフ上で、前記音楽データ記憶ステップで記憶した前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索ステップと、前記最適パス探索ステップで探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期ステップと、前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成ステップと、前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶ステップと、を実行させ、前記最適パス探索ステップでは、前記音楽データ記憶ステップで前記所定のビート数の音楽データを記憶した際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第１のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第２のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加する処理を実行させるためのコンピュータプログラムである。
【発明の効果】
【００１７】
本発明によれば、映像コンテンツを同期させる楽曲の開始から終了までの音楽データが入力されていなくても、大規模な動きデータベースを利用して楽曲に合わせた映像コンテンツを生成することができるという効果が得られる。
【図面の簡単な説明】
【００１８】
【図１】本発明の一実施形態に係る映像コンテンツ生成システム１の構成を示すブロック図である。
【図２】人体スケルトン型動きデータの定義例である。
【図３】図１に示す動き解析部１１の構成を示すブロック図である。
【図４】図１に示すビート抽出部３１の構成を示すブロック図である。
【図５】図４に示すビート抽出部３１に係るデータ分割処理の概念図である。
【図６】図４に示すビート抽出部３１に係る主成分座標連結処理を説明するための概念図である。
【図７】図４に示すビート抽出部３１に係る正弦近似処理の概念図である。
【図８】本発明の一実施形態に係るモーショングラフの構成方法の全体の流れを示す概念図である。
【図９】本発明の一実施形態に係るモーショングラフ生成方法の流れを示す概念図である。
【図１０】本発明の一実施形態に係るジョイント毎に予め定めた重みを示した図である。
【図１１】本発明の一実施形態の双方向エッジに係るブレンディング処理の概念図である。
【図１２】本発明の一実施形態に係るブレンディング処理を説明する概念図である。
【図１３】本発明の一実施形態に係るループを特定する処理手順を示したフローチャートである。
【図１４】本発明の一実施形態に係るストリーミング方式で配信される楽曲データと、生成した映像データの流れを示した概念図である。
【図１５】本発明の一実施形態に係る動きのフレームレートを調整する処理の概念図である。
【図１６】本発明の一実施形態に係るＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式で決定した、モーショングラフの最適なパスを示した概略図である。
【図１７】本発明の一実施形態に係る音楽データ記憶部に新たに１ビート分の音楽データが蓄積された後のモーショングラフの最適なパスを示した概略図である。
【図１８】本発明の一実施形態に係る音楽データ記憶部に新たに１ビート分の音楽データが蓄積された後のモーショングラフの最適なパスを示した概略図である。
【図１９】本発明の一実施形態に係るＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式で決定した、モーショングラフの最適なパスを示した概略図である。
【図２０】本発明の一実施形態に係るモーショングラフの最適なパスを示した概略図である。
【発明を実施するための形態】
【００１９】
以下、図面を参照し、本発明の実施形態について説明する。
図１は、本発明の一実施形態に係る映像コンテンツ生成システム１の構成を示すブロック図である。図１において、映像コンテンツ生成システム１は、メタデータ構築装置１０と、映像コンテンツ生成装置２０とを含む。メタデータ構築装置１０と、映像コンテンツ生成装置２０とは通信可能なネットワーク（図示せず）で接続されており、互いにデータの送受信を行うことができる。メタデータ構築装置１０は、動き解析部１１と、データベース１２とを有する。映像コンテンツ生成装置２０は、ストリーミングデータ記憶部１９と、音楽データ記憶部２１と、音楽解析部２２と、音楽解析データ記憶部２３と、最適パス探索部２４と、同期部２５と、同期情報記憶部２６と、映像データ生成部２７と、映像コンテンツ記憶部２８と、再生部２９とを有する。
【００２０】
映像コンテンツ生成装置２０には、映像コンテンツ生成対象の楽曲の音楽データが楽曲ファイル３からストリーミング配信される。
【００２１】
動きデータベース２は、一般に利用可能な動きデータ（映像コンテンツに適用可能なモーションキャプチャデータ）を多数蓄積している。メタデータ構築装置１０および映像コンテンツ生成装置２０は、動きデータベース２から動きデータを入力する。本実施形態では、人の動きデータを扱い、人の動きデータとして、図２に例示されるように定義された人体スケルトン型動きデータを用いる。
【００２２】
図２は、人の動きデータの定義例の概略図であり、人のスケルトン型動きデータ（人体スケルトン型動きデータ）の定義例である。人体スケルトン型動きデータは、人の骨格を基に、骨及び骨の連結点（ジョイント）を用い、一ジョイントを根（ルート）とし、ルートからジョイント経由で順次連結される骨の構造を木（ツリー）構造として定義される。図２には、人体スケルトン型動きデータの定義の一部分のみを示している。図２において、ジョイント１００は腰の部分であり、ルートとして定義される。ジョイント１０１は左腕の肘の部分、ジョイント１０２は左腕の手首の部分、ジョイント１０３は右腕の肘の部分、ジョイント１０４は右腕の手首の部分、ジョイント１０５は左足の膝の部分、ジョイント１０６は左足の足首の部分、ジョイント１０７は右足の膝の部分、ジョイント１０８は右足の足首の部分、である。
【００２３】
スケルトン型動きデータは、スケルトン型対象物の各ジョイントの動きを記録したデータであり、スケルトン型対象物としては人体や動物、ロボットなどが適用可能である。スケルトン型動きデータとしては、各ジョイントの位置情報や角度情報、速度情報、加速度情報などが利用可能である。ここでは、人体スケルトン型動きデータとして、人体スケルトンの角度情報と加速度情報を例に挙げて説明する。
【００２４】
人体スケルトン型角度情報データは、人の一連の動きを複数の姿勢（ポーズ）の連続により表すものであり、人の基本ポーズ（neutral pose）を表す基本ポーズデータと、実際の人の動きの中の各ポーズを表すポーズ毎のフレームデータとを有する。基本ポーズデータは、基本ポーズのときのルートの位置及び各ジョイントの位置、並びに各骨の長さなどの情報を有する。基本ポーズデータにより基本ポーズが特定される。フレームデータは、基本ポーズからの移動量をジョイント毎に表す。ここでは、移動量として角度情報を利用する。各フレームデータにより、基本ポーズに対して各移動量が加味された各ポーズが特定される。これにより、各フレームデータによって特定される各ポーズの連続により、人の一連の動きが特定される。なお、人体スケルトン型角度情報データは、人の動きをカメラ撮影した映像からモーションキャプチャ処理によって作成したり、或いは、キーフレームアニメーションの手作業によって作成したりすることができる。
人体スケルトン型加速度情報データは、人の各ジョイントの加速度をポーズ毎のフレームデータと複数のポーズの連続により表すものである。なお、人体スケルトン型加速度情報データは、加速度計で記録したり、映像や動きデータから算出したりすることができる。
【００２５】
なお、本実施形態に係る以下の説明においては、人体スケルトン型動きデータのことを単に「動きデータ」と称する。
【００２６】
以下、図１に示される映像コンテンツ生成システム１に含まれるメタデータ構築装置１０の各部について順次説明する。
【００２７】
［動き解析部］
動き解析部１１は、動きデータベース２から動きデータを取得し、取得した動きデータを解析して動き特徴量を取得し、取得した動き特徴量をデータベース１２に格納する。動き解析部１１は、動きデータベース２に蓄積される全ての動きデータを対象にする。この動き解析部１１の処理は、実際に映像コンテンツを生成する段階の前に、事前の準備段階として行われる。
【００２８】
図３は、図１に示す動き解析部１１の構成を示すブロック図である。図３において、動き解析部１１は、ビート抽出部３１、ビート情報記憶部３２、盛り上がり算出部３３、盛り上がり情報記憶部３４及びモーショングラフ生成部３５を有する。本実施形態では、モーショングラフ生成部３５がモーショングラフ構築部およびメタデータ構築部として動作する。
【００２９】
［ビート抽出部］
ビート抽出部３１は、入力された動きデータからビート時刻を検出する。ここで、動きデータのビート時刻は反復的な動きの方向又は強度が変化する時刻である、と定義する。例えば、ダンスなどの動きでは拍子を打つタイミングが相当する。ビート抽出部３１は、入力された動きデータを短時間の動きデータに分割し、分割した動き区間から主成分分析によってビート時刻を検出する。
【００３０】
以下、本実施形態のビート抽出部３１によるビート時刻検出処理について説明する。図４は、図３に示すビート抽出部３１の構成を示すブロック図である。図４において、ビート抽出部３１は、物理量変換部３１１、データ分割部３１２、短時間主成分分析部３１３、主成分座標連結部３１４、ビート推定部３１５及び後処理部３１６を有する。
【００３１】
［物理量変換部］
物理量変換部３１１は、入力された動きデータにおいて、時刻ｔにおけるジョイント相対位置を算出する。ジョイント相対位置は、ルートに対するジョイントの相対的な位置である。
【００３２】
ここで、ジョイント相対位置の算出方法を説明する。
まず、人体スケルトン型角度情報データ内の基本ポーズデータとフレームデータを用いて、ジョイント位置を算出する。基本ポーズデータは、基本ポーズのときのルートの位置及び各ジョイントの位置、並びに各骨の長さなど、基本ポーズを特定する情報を有する。フレームデータは、ジョイント毎に、基本ポーズからの移動量の情報を有する。ここでは、移動量として角度情報を利用する。この場合、時刻ｔにおけるｋ番目のジョイントの位置ｐ^ｋ（ｔ）は、（１）式および（２）式により算出される。ｐ^ｋ（ｔ）は３次元座標で表される。なお、時刻ｔはフレームデータの時刻である。本実施形態では、時刻ｔを単に「フレームインデックス」として扱う。これにより、時刻ｔは、０，１，２，・・・，Ｔ−１の値をとる。Ｔは、動きデータに含まれるフレームの個数である。
【００３３】
【数１】

【００３４】
【数２】

【００３５】
但し、０番目（ｉ＝０）のジョイントはルートである。Ｒ_ａｘｉｓ^{ｉ−１，ｉ}（ｔ）は、ｉ番目のジョイントとその親ジョイント（「ｉ−１」番目のジョイント）間の座標回転マトリックスであり、基本ポーズデータに含まれる。各ジョイントにはローカル座標系が定義されており、座標回転マトリックスは親子関係にあるジョイント間のローカル座標系の対応関係を表す。Ｒ^ｉ（ｔ）は、ｉ番目のジョイントのローカル座標系におけるｉ番目のジョイントの回転マトリックスであり、フレームデータに含まれる角度情報である。Ｔ^ｉ（ｔ）は、ｉ番目のジョイントとその親ジョイント間の遷移マトリックスであり、基本ポーズデータに含まれる。遷移マトリックスは、ｉ番目のジョイントとその親ジョイント間の骨の長さを表す。
【００３６】
次いで、時刻ｔにおける、ルートに対するｋ番目のジョイントの相対位置（ジョイント相対位置）ｐ’^ｋ（ｔ）を（３）式により算出する。
【００３７】
【数３】

【００３８】
但し、ｐ^ｒｏｏｔ（ｔ）は時刻ｔにおけるルート（０番目のジョイント）の位置（ｐ^０（ｔ））である。
【００３９】
これにより、時刻ｔのフレーム「ｘ（ｔ）」は、「ｘ（ｔ）＝｛ｐ’^１（ｔ），ｐ’^２（ｔ），・・・，ｐ’^Ｋ（ｔ）｝」と表される。但し、Ｋは、ルートを除いたジョイントの個数である。
【００４０】
［データ分割部］
データ分割部３１２は、ジョイント相対位置データを、一定時間の区間に分割する。データ分割部３１２は、各ジョイントのジョイント相対位置データ「ｐ’^ｋ（ｔ）」に対して、それぞれデータ分割処理を行う。図５にデータ分割処理の概念を示す。データ分割処理では、ジョイント相対位置データを一定時間（一定数のフレーム分に対応）の区間に分割する。分割区間の長さは、適宜、設定可能である。分割区間の長さは、例えば、１フレーム当たりの時間の６０倍である。
【００４１】
［短時間主成分分析部］
短時間主成分分析部３１３は、データ分割部３１２によって分割されたジョイント相対位置データに対し、各区間で主成分分析処理を行う。ここで、時刻ｔのフレーム「ｘ（ｔ）」を用いて、一区間のデータ「Ｘ」を「Ｘ＝｛ｘ（ｔ１），ｘ（ｔ２），・・・，ｘ（ｔＮ）｝と表す。但し、Ｎは区間長（区間内に含まれるフレームの個数）である。Ｘは、Ｍ行Ｎ列の行列である（但し、Ｍ＝３×Ｋ）。
【００４２】
主成分分析処理では、Ｘに対して主成分分析処理を行い、Ｘを主成分空間へ変換する。
【００４３】
ここで、主成分分析方法を説明する。
まず、（４）式により、Ｘから平均値を除いたＮ行Ｍ列の行列Ｄを算出する。
【００４４】
【数４】

【００４５】
次いで、（５）式により、Ｎ行Ｍ列の行列Ｄに対して特異値分解（Singular Value Decomposition）を行う。
【００４６】
【数５】

【００４７】
但し、Ｕは、Ｎ行Ｎ列のユニタリ行列である。Σは、Ｎ行Ｍ列の負でない対角要素を降順にもつ対角行列であり、主成分空間の座標の分散を表す。Ｖは、Ｍ行Ｍ列のユニタリ行列であり、主成分に対する係数（principal component）である。
【００４８】
次いで、（６）式により、Ｎ行Ｍ列の行列Ｄを主成分空間へ変換する。Ｍ行Ｎ列の行列Ｙは、主成分空間の座標を表す。
【００４９】
【数６】

【００５０】
短時間主成分分析部３１３は、区間毎に、主成分空間の座標を表す行列（主成分座標行列）Ｙと、主成分に対する係数の行列（主成分係数行列）Ｖをメモリに保存する。
【００５１】
なお、元空間の座標を表す行列Ｘと主成分座標行列Ｙは、（６）式と（７）式により相互に変換することができる。
【００５２】
【数７】

【００５３】
また、上位のｒ個の主成分によって、（８）式により変換することができる。
【００５４】
【数８】

【００５５】
但し、Ｖ^ｒは、主成分係数行列Ｖ内の上位のｒ個の行から成るＭ行ｒ列の行列である。Ｙ^ｒは、主成分座標行列Ｙ内の上位のｒ個の列から成るｒ行Ｎ列の行列である。Ｘ^〜は、復元されたＭ行Ｎ列の行列である。
【００５６】
なお、元空間の一部の自由度だけを主成分分析処理することも可能である。例えば、足の動きだけでビートを表現することができる場合には、足に関するジョイント相対位置データのみから生成したＭ’行Ｎ列の行列Ｘ’に対して、（４）式、（５）式及び（６）式により主成分分析処理を行う。
【００５７】
［主成分座標連結部］
主成分座標連結部３１４は、各区間の主成分の座標を、時系列に沿って連結する。この主成分座標連結部３１４が行う主成分座標連結処理では、連続する２つの区間の境界部分において、主成分の座標が滑らかに連結されるように、主成分の座標を調整する。
【００５８】
図６に、本実施形態に係る主成分座標連結処理を説明するための概念図を示す。本実施形態では、時系列に従って、先頭の区間から順番に主成分座標連結処理を行ってゆく。図６において、ある区間（前区間）までの主成分座標連結処理が終了している。そして、その前区間に対して、次の区間（当区間）を連結するための主成分座標連結処理を行う。この主成分座標連結処理では、前区間の主成分座標に対し、当区間の主成分座標が滑らかに連結されるように、当区間の主成分座標を調整する。この主成分座標の調整処理では、主成分選択ステップによって選択された当区間の主成分座標（元座標）に対し、符号反転又は座標シフトを行う。
【００５９】
ここで、主成分座標連結処理を説明する。
【００６０】
主成分座標連結ステップＳ１１：当区間の主成分の座標（第１主成分の元座標）Ｙ_１に対し、当区間の主成分係数行列Ｖから、第１主成分に対する係数Ｖ_１を取得する。さらに、メモリに保存されている前区間の主成分係数行列Ｖから、第１主成分に対する係数Ｖ_１^ｐｒｅを取得する。
【００６１】
主成分座標連結ステップＳ１２：当区間に係る第１主成分に対する係数Ｖ_１と前区間に係る第１主成分に対する係数Ｖ_１^ｐｒｅとの関係に基づいて、当区間に係る第１主成分の元座標を符号反転するか否かを判定する。この符号反転の判定は、（９）式により行う。（９）式による判定の結果、符号反転する場合には、当区間の第１主成分の元座標Ｙ_１に対して符号反転を行うと共に、当区間の主成分係数行列Ｖに対しても符号反転を行う。一方、（９）式による判定の結果、符号反転しない場合には、当区間の第１主成分の元座標Ｙ_１及び当区間の主成分係数行列Ｖともに、そのままの値を主成分座標連結ステップＳ１２の処理結果とする。
【００６２】
【数９】

【００６３】
但し、Ｙ_１は、当区間で選択された主成分の座標（第１主成分の元座標）である。Ｖは、当区間の主成分係数行列である。Ｖ_１は、当区間に係る第１主成分に対する係数である。Ｖ_１^ｐｒｅは、前区間に係る第１主成分に対する係数である。（Ｖ_１・Ｖ_ｋ^ｐｒｅ）は、Ｖ_１とＶ_１^ｐｒｅの内積である。Ｙ_１’は、当区間で選択された主成分の座標（第１主成分の元座標）Ｙ_１に対する主成分座標連結ステップＳ１２の処理結果である。Ｖ’は、当区間の主成分係数行列Ｖに対する主成分座標連結ステップＳ１２の処理結果である。
【００６４】
主成分座標連結ステップＳ１３：主成分座標連結ステップＳ１２の処理結果の主成分座標Ｙ_１’に対し、座標シフトを行う。具体的には、（１０）式により座標シフトを行う。この場合、前区間の主成分座標行列Ｙから、前区間の第ｔＮフレームにおける第１主成分の座標Ｙ_１^ｐｒｅ（ｔＮ）を取得する。
【００６５】
【数１０】

【００６６】
但し、Ｙ_１’（ｔ１）は、ステップＳ１２の処理結果の主成分座標Ｙ_１’のうち、第ｔ１フレームの座標である。Ｙ_１”（ｔ２）は、（１０）式の最初の計算式の計算結果の座標Ｙ_１”のうち、第ｔ２フレームの座標である。
（１０）式の最初の計算式の計算結果の座標Ｙ_１”に対し、第ｔ１フレームの座標Ｙ_１”（ｔ１）をＹ_１^ｏｐｔ（ｔ１）に置き換える。この置き換え後の座標Ｙ_１”が、座標シフト結果の座標である。
【００６７】
主成分座標連結ステップＳ１４：当区間において、主成分座標連結ステップＳ１２の処理結果の座標Ｙ_１’に対して、主成分座標連結ステップＳ１３の処理結果の座標Ｙ_１^ｏｐｔ（ｔ１）を反映する。これにより、当区間の主成分座標は、前区間の主成分座標に対して滑らかに連結されるものとなる。
【００６８】
主成分座標連結部３１４は、上記した主成分座標連結処理を最初の区間から最後の区間まで行う。これにより、連結後の全区間の主成分座標「ｙ（ｔ）、ｔ＝０，１，２，・・・，Ｔ−１」が求まる。但し、Ｔは、動きデータに含まれるフレームの個数である。
【００６９】
［ビート推定部］
ビート推定部３１５は、主成分座標連結部３１４によって算出された連結後の全区間の主成分座標ｙ（ｔ）から、極値ｂ（ｊ）を算出する。この算出結果の極値ｂ（ｊ）がビートに対応する。ビートの集合Ｂは、（１１）式で表される。
【００７０】
【数１１】

【００７１】
但し、Ｊは、ビートの個数である。
【００７２】
なお、ビートの集合の算出は、上記した方法以外の方法でも可能である。
例えば、ビート推定部３１５は、主成分座標連結部３１４によって算出された連結後の全区間の主成分座標から自己相関値を算出し、該自己相関値の極値ｂ（ｊ）をビートに対応するものとして算出することができる。
また、ビート推定部３１５は、主成分座標連結部３１４によって、連結後の隣区間の主成分係数から算出した内積（（９）式によるもの）の自己相関値を算出し、該自己相関値の極値ｂ（ｊ）をビートに対応するものとして算出することができる。
【００７３】
［後処理部］
後処理部３１６は、ビート推定部３１５によって算出されたビート集合Ｂから、ビート時刻を検出する。
【００７４】
ここで、ビート時刻検出処理を説明する。
まず、ビート集合Ｂ内の各極値間を、（１２）式により正弦曲線（sinusoid）で近似する。
【００７５】
【数１２】

【００７６】
但し、ｓ_ｊ−１（ｔ）は、（ｊ−１）番目の極値ｂ（ｊ−１）からｊ番目の極値ｂ（ｊ）までの区間の正弦近似値である。ｔはフレームに対応する時刻であり、「ｔ＝０，１，２，・・・，Ｔ−１」である。Ｔは、動きデータに含まれるフレームの個数である。
【００７７】
図７に、（１２）式による正弦近似処理の概念図を示す。図７において、１番目の極値ｂ（１）から２番目の極値ｂ（２）までの区間ａ１（ｊ＝２の場合の区間）は、ｓ_１（ｔ）で近似される。同様に、２番目の極値ｂ（２）から３番目の極値ｂ（３）までの区間ａ２（ｊ＝３の場合の区間）はｓ_２（ｔ）で近似され、３番目の極値ｂ（３）から４番目の極値ｂ（４）までの区間ａ３（ｊ＝４の場合の区間）はｓ_３（ｔ）で近似され、４番目の極値ｂ（４）から５番目の極値ｂ（５）までの区間ａ４（ｊ＝５の場合の区間）はｓ_４（ｔ）で近似される。
【００７８】
次いで、正弦近似値「ｓ_ｊ−１（ｔ）、ｊ＝２，３，・・・，Ｊ」に対してフーリエ変換を行う。そのフーリエ変換処理には、所定のＦＦＴポイント数Ｌのハン窓を用いたＦＦＴ（Fast Fourier Transform）演算器を使用する。そして、そのフーリエ変換の結果に基づいて、該フーリエ変換に係る周波数範囲のうちから最大の成分を有する周波数（最大成分周波数）ｆｍａｘを検出する。そして、ビート間隔ＴＢを「ＴＢ＝Ｆｓ÷ｆｍａｘ」なる計算式により算出する。但し、Ｆｓは、１秒当たりのフレーム数である。
【００７９】
次いで、正弦近似値「ｓ_ｊ−１（ｔ）、ｊ＝２，３，・・・，Ｊ」と、（１３）式で定義される基準値「ｓ’（ｔ）」との間の最大相関初期位相を（１４）式により算出する。
【００８０】
【数１３】

【００８１】
【数１４】

【００８２】
次いで、（１５）式により、ビート時刻ｅｂ（ｊ）の集合ＥＢを算出する。但し、ＥＪは、ビート時刻ｅｂ（ｊ）の個数である。
【００８３】
【数１５】

【００８４】
以上が本実施形態のビート抽出部３１によるビート時刻検出処理の説明である。
【００８５】
ビート抽出部３１は、上述のビート時刻検出方法によって、動きデータからビート時刻ｅｂ（ｊ）の集合ＥＢを算出する。さらに、ビート抽出部３１は、（１６）式により、動きのテンポを算出する。動きのテンポは、１分間当たりのビートの個数である。ここでは、１秒当たりのフレーム数は１２０である。
【００８６】
【数１６】

【００８７】
但し、ＴＢはビート間隔（秒）である。
【００８８】
ビート抽出部３１は、各動きデータについて、ビート時刻ｅｂ（ｊ）の集合ＥＢとテンポをビート情報記憶部３２に格納する。このとき、ビート抽出部３１が主成分分析処理を行った区間（主成分分析区間）とビート時刻ｅｂ（ｊ）の対応関係を表す情報もビート情報記憶部３２に格納する。これにより、あるビート時刻がどの主成分分析区間に属するのかが分かる。
【００８９】
［盛り上がり算出部］
盛り上がり算出部３３は、各動きデータについて、主成分分析区間ごとに、（１７）式により、動きの盛り上がりを算出する。
【００９０】
【数１７】

【００９１】
但し、Σは当該区間の主成分分析処理における負でない固有値を降順にもつ対角行列であり、主成分空間の座標の分散を表す。tr()は、対角行列の対角成分の和（matrix trace）である。
【００９２】
盛り上がり算出部３３は、各動きデータについて、各主成分分析区間の盛り上がりを盛り上がり情報記憶部３４に格納する。
【００９３】
［モーショングラフ生成部］
モーショングラフ生成部３５は、各動きデータの、ビート時刻ｅｂ（ｊ）の集合ＥＢ、テンポ及び盛り上がりを用いて、モーショングラフを生成する。モーショングラフについては非特許文献４に開示されている。モーショングラフは、ノード（頂点）群とノード間の連結関係を表すエッジ（枝）群とエッジの重みから構成される。エッジには双方向と単方向の２種類がある。
【００９４】
図８は、本実施形態に係るモーショングラフの構成方法の全体の流れを示す概念図である。
動きデータベース２内の動きデータは、ジャンル別に分類される。動きデータベース２内の動きデータのジャンルは、予め設定される。そのジャンル分けは動きの特徴によって行われる。各動きデータには、所属するジャンルを示す情報が付加されている。モーショングラフ生成部３５は、動きデータに付加されたジャンル情報によって、動きデータのジャンルを判別する。図８の例では、動きデータベース２内の動きデータは、ｎ個のジャンルデータベース（ジャンル１ＤＢからジャンルｎＤＢ）に分類される。
【００９５】
モーショングラフ生成部３５は、同じジャンルに属する動きデータについて、さらに、（１８）式で算出される値ｉにより分類する。図８の例では、ジャンル２に属する動きデータは、ｍ個のテンポデータベース（テンポ１ＤＢからテンポｍＤＢ）に分類される。
【００９６】
【数１８】

【００９７】
但し、Ｑ_{Ｔｅｍｐｏ}はテンポの区間の長さである。Ｔｅｍｐｏ^{Ｍｏｔｉｏｎ}は分類対象の動きデータに係るテンポである。Ｔｅｍｐｏ^{Ｍｏｔｉｏｎ}_ｍｉｎは分類対象のジャンル内で最小のテンポである。
【００９８】
モーショングラフ生成部３５は、同じジャンルに属する動きデータについて、さらに（１８）式の算出値ｉで分類されたテンポデータベース毎に、モーショングラフを生成する。
【００９９】
図９は、本実施形態に係るモーショングラフ生成方法の流れを示す概念図である。以下、図９を参照して、あるジャンルのあるテンポデータベース（テンポｉＤＢ）のモーショングラフを生成する手順を説明する。
【０１００】
［ビートフレーム抽出ステップ］
まず、ビートフレーム抽出ステップでは、テンポｉＤＢに属する全ての動きデータから、ビート時刻に該当するフレーム（ビートフレーム）を全て抽出する。この抽出されたビートフレームの集合をＦ^ｉＡＬＬ_Ｂと表す。
【０１０１】
［連結性算出ステップ］
次いで、連結性算出ステップでは、集合Ｆ^ｉＡＬＬ_Ｂに含まれる全ビートフレームを対象とした全てのペアについて、（１９）式又は（２０）式により距離を算出する。あるビートフレームＦ^ｉ_ＢとあるビートフレームＦ^ｊ_Ｂとの距離をｄ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）と表す。
【０１０２】
【数１９】

【０１０３】
但し、ｑ_ｉ，ｋはビートフレームＦ^ｉ_Ｂのｋ番目のジョイントの四元数（quaternion）である。ｗ_ｋはｋ番目のジョイントに係る重みである。重みｗ_ｋは予め設定される。例えば、重みｗ_ｋの例としては図１０に示すとおりである。図１０はジョイント毎に予め定めた重みを示した図である。図示する例では、Right and Left Hipの重みは1.0000である。また、Right and Left Kneeの重みは0.0901である。また、Right and Left Shoulderの重みは0.7884である。また、Right and Left Elbowの重みは0.0247である。
【０１０４】
【数２０】

【０１０５】
但し、ｐ_ｉ，ｋはビートフレームＦ^ｉ_Ｂのｋ番目のジョイントのルートに対する相対位置のベクトルである。つまり、ｐ_ｉ，ｋは、ルートの位置と方向は考えずに算出したビートフレームＦ^ｉ_Ｂのｋ番目のジョイントの位置のベクトルである。
【０１０６】
なお、ビートフレーム間の距離は、対象ビートフレームにおけるポーズを構成する各ジョイントの位置、速度、加速度、角度、角速度、角加速度などの物理量の差分の重み付き平均として算出することができる。
【０１０７】
次いで、連結性算出ステップでは、（２１）式により、連結性を算出する。あるビートフレームＦ^ｉ_ＢとあるビートフレームＦ^ｊ_Ｂとの連結性をｃ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）と表す。
【０１０８】
【数２１】

【０１０９】
但し、ｄ（Ｆ^ｉ_Ｂ）はビートフレームＦ^ｉ_Ｂの前フレームと後フレームの間の距離である（（１９）式又は（２０）式と同様の計算式で算出する）。ＴＨは予め設定される閾値である。
【０１１０】
連結性ｃ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）が１である場合、ビートフレームＦ^ｉ_ＢのポーズとビートフレームＦ^ｊ_Ｂのポーズは似ていると判断できる。連結性ｃ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）が０である場合、ビートフレームＦ^ｉ_ＢのポーズとビートフレームＦ^ｊ_Ｂのポーズは似ているとは判断できない。
【０１１１】
［モーショングラフ構築ステップ］
次いで、モーショングラフ構築ステップでは、まず、集合Ｆ^ｉＡＬＬ_Ｂに含まれる全ビートフレームをそれぞれ、モーショングラフのノードに設定する。従って、モーショングラフのノード数の初期値は、集合Ｆ^ｉＡＬＬ_Ｂに含まれるビートフレームの個数に一致する。
【０１１２】
次いで、連結性ｃ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）が１である場合、ビートフレームＦ^ｉ_ＢのノードとビートフレームＦ^ｊ_Ｂのノードの間に双方向のエッジを設ける。連結性ｃ（Ｆ^ｉ_Ｂ，Ｆ^ｊ_Ｂ）が０である場合には、ビートフレームＦ^ｉ_ＢのノードとビートフレームＦ^ｊ_Ｂのノードの間に双方向のエッジを設けない。
【０１１３】
次いで、同じ動きデータの中で隣接するビートフレーム間には、単方向のエッジを設ける。単方向のエッジは、時間的に前のビートフレームのノードから後のビートフレームのノードへ向かう。
【０１１４】
次いで、双方向のエッジに対する重みを算出する。ビートフレームＦ^ｉ_ＢのノードとビートフレームＦ^ｊ_Ｂのノードの間の双方向エッジに対する重みは、（２２）式により算出する。
【０１１５】
【数２２】

【０１１６】
但し、ｒｄは（２１）式で算出したものである。
【０１１７】
次いで、単方向のエッジに対する重みを算出する。ビートフレームＦ^ｉ_ＢのノードとビートフレームＦ^ｊ_Ｂのノードの間の単方向エッジに対する重みは、次の（ａ），（ｂ）のいずれかの方法で値を決定する。
（ａ）ビートフレームＦ^ｉ_ＢとビートフレームＦ^ｊ_Ｂが同じ主成分分析区間に属する場合、当該主成分分析区間の盛り上がりを重みに用いる。
（ｂ）ビートフレームＦ^ｉ_ＢとビートフレームＦ^ｊ_Ｂが異なる主成分分析区間に属する場合、ビートフレームＦ^ｉ_Ｂが属する主成分分析区間の盛り上がりとビートフレームＦ^ｊ_Ｂが属する主成分分析区間の盛り上がりを平均した値を重みに用いる。
【０１１８】
次いで、双方向エッジの両端のノード（ビートフレーム）に係る動きデータに対して、ブレンディング（blending）処理を行う。ブレンディング処理は、双方向エッジの方向ごとに、それぞれ行う。従って、一つの双方向エッジに対して、図１１（１），（２）に示されるように、２つのブレンディング処理を行うことになる。図１１は、ビートフレームｉのノードとビートフレームｊのノードの間の双方向エッジに係るブレンディング処理の概念図である。図１１（１）はビートフレームｉのノードからビートフレームｊのノードへ向かう方向に係るブレンディング処理を表し、図１１（２）はビートフレームｊのノードからビートフレームｉのノードへ向かう方向に係るブレンディング処理を表す。
【０１１９】
図１２は、ブレンディング処理を説明する概念図であり、図１１（１）に対応している。ここでは、図１２を参照し、図１１（１）に示されるビートフレームｉのノードからビートフレームｊのノードへ向かう方向に係るブレンディング処理を例に挙げて説明する。
【０１２０】
ブレンディング処理では、ビートフレームｉを有する動きデータ１とビートフレームｊを有する動きデータ２に対して、動きのつながりが不自然にならないように、両者の動きデータの接続部分を混合した補間データ（ブレンディング動きデータ）１＿２を生成する。本実施形態では、一定時間分のフレームを使用しクォータニオンによる球面線形補間を利用して連結部分を補間する。具体的には、動きデータ１と動きデータ２を接続する接続区間（区間長ｍ、但し、ｍは所定値）のブレンディング動きデータ１＿２を、動きデータ１のうち最後の区間長ｍのデータ１＿ｍと動きデータ２のうち最初の区間長ｍのデータ２＿ｍを用いて生成する。このとき、接続区間の区間長ｍに対する接続区間の先頭からの距離ｕの比（ｕ／ｍ）に応じて、データ１＿ｍのうち距離ｕに対応するフレームｉとデータ２＿ｍのうち距離ｕに対応するフレームｊを混合する。具体的には、（２３）式および（２４）式により、ブレンディング動きデータ１＿２を構成する各フレームを生成する。なお、（２３）式は、ある一つの骨についての式となっている。
【０１２１】
【数２３】

【０１２２】
【数２４】

【０１２３】
但し、ｍはブレンディング動きデータ１＿２を構成するフレーム（ブレンディングフレーム）の総数（所定値）、ｕはブレンディングフレームの先頭からの順番（１≦ｕ≦ｍ）、ｑはｕ番目のブレンディングフレームにおける骨の四元数、ｑ^ｉ（ｋ，ｕ）はフレームｉにおける第ｕフレームの第ｋ骨の四元数、ｑ^ｊ（ｋ，ｕ）はフレームｊにおける第ｕフレームの第k骨の四元数、ｑ^ｂ（ｋ，ｕ）はブレンディングフレームにおける第ｕフレームの第k骨の四元数である。但し、ルートにはブレンディングを行わない。なお、（２４）式はslerp（spherical linear interpolation）の算出式である。
【０１２４】
ブレンディング動きデータ１＿２は、動きデータ１と動きデータ２の接続部分のデータとする。
【０１２５】
次いで、ノードのウェート（ノードの重み、楽曲との同期可能性を示すメタデータ）を算出する。ノードのウェートは、自ノードの後に連結することができるノードの数を示す。ノードのウェートにより、ノードをＴＹＰＥ１、ＴＹＰＥ２、ＴＹＰＥ３の三種類に分類することができる。
【０１２６】
ＴＹＰＥ１に分類されるノードは、自ノードの後に無限大にノードを連結することができるノードである。ＴＹＰＥ１に分類されるノードのウェートは無限大である。例えば、ループに含まれているノードや、ループに含まれているノードを連結することができるノードは、このループに含まれているノードを自ノードの後に連結することができるので、無限大にノードを連結することができる。
【０１２７】
ＴＹＰＥ２に分類されるノードは、末端ノードおよび付属ノードである。末端ノードは、自ノードの後にノードを連結することができないノードである。例えば、双方向エッジと片方向エッジとが無いノードである。末端ノードのウェートは０である。付属ノードは、片方向エッジのみが末端ノードあるいは付属ノードに連結するノードである。付属ノードのウェートは、子供ノード（自ノードの直後に連結しているノード）のウェートに１を加算した値である。
【０１２８】
ＴＹＰＥ３に分類されるノードは、ＴＹＰＥ１およびＴＹＰＥ２の何れにも分類されないノードである。ＴＹＰＥ３に分類されるノードは、後述する同期処理では使用しない。
【０１２９】
例えば、図９に示したノード９０１〜９２１のうち、ＴＹＰＥ１に分類されるノードは、ノード９０１〜９０６，９０８〜９１３，９１５〜９１７である。これらのノードのウェートは無限大である。また、ノード９０１〜９２１のうち、ＴＹＰＥ２に分類されるノードは、ノード９０７，９１４，９１８〜９２１である。ノード９０７，９１４は末端ノードであり、ウェートは０である。ノード９１８〜９２０は付属ノードであり、ノード９２０のウェートは１であり、ノード９１９のウェートは２であり、ノード９１８のウェートは３である。
【０１３０】
ここで、ノードのウェートの算出処理を説明する。
【０１３１】
ノードウェート算出ステップＳ２１：モーショングラフのノードのうち、ループに含まれているノードや、ループに含まれているノードを連結することができるノードをＴＹＰＥ１のノードに特定する。その後、ノードウェート算出ステップＳ２２の処理を行う。
【０１３２】
ノードウェート算出ステップＳ２１において、例えば、図１３に示す処理を行い、ループを特定する。
（ステップＳ１０１）全てのノードの色を「白」とする。その後、ステップＳ１０２の処理に進む。
（ステップＳ１０２）当ノードｕの色を「グレー」とする。その後、ステップＳ１０３の処理に進む。
（ステップＳ１０３）子ノードｖがある場合にはステップＳ１０６の処理に進み、それ以外の場合にはステップＳ１０４の処理に進む。
（ステップＳ１０４）当ノードｕの色を「黒」とする。その後、ステップＳ１０５の処理に進む。
（ステップＳ１０５）当ノードｕを親ノードとする。その後、ステップＳ１０３の処理に戻る。
（ステップＳ１０６）ノードｖの色が「白」である場合にはステップＳ１０７の処理に進み、それ以外の場合にはステップＳ１０９の処理に進む。
（ステップＳ１０７）ノードｖの親をノードｕとする。その後、ステップＳ１０８の処理に進む。
（ステップＳ１０８）当ノードｕをノードｖとする。その後、ステップＳ１０２の処理に戻る。
（ステップＳ１０９）ループがあると判定し、処理を終了する。
【０１３３】
ノードウェート算出ステップＳ２２：ＴＹＰＥ１に分類されるノードを除いたモーショングラフのノードのうち、末端ノードおよび付属ノードを特定し、これらのノードをＴＹＰＥ２に分類されるノードと特定する。その後、ノードウェート算出ステップＳ２３の処理を行う。
【０１３４】
ノードウェート算出ステップＳ２３：モーショングラフのノードのうち、ＴＹＰＥ１とＴＹＰＥ２に分類されるノードを除いたノードをＴＹＰＥ３に分類されるノードと特定する。その後、ノードウェート算出処理を終了する。
【０１３５】
以上のモーショングラフ構築ステップによって、あるジャンルのあるテンポデータベース（テンポｉＤＢ）のモーショングラフのデータが生成される。モーショングラフデータは、モーショングラフが有するノード（ビートフレーム）の情報と、ノード間のエッジ（双方向エッジまたは単方向エッジ）の情報（エッジの重みを含む）と、双方向エッジに対応する２方向分のブレンディング動きデータと、ノードのウェートとを有する。
【０１３６】
モーショングラフ生成部３５は、各ジャンルのテンポデータベースごとに生成したモーショングラフデータをデータベース１２に格納する。これにより、データベース１２には、各ジャンルのテンポデータベースごとに、モーショングラフデータが格納される。
【０１３７】
以上がメタデータ構築装置１０に係る説明である。メタデータ構築装置１０の処理はオフラインで実行され、データベース１２が構築される。このデータベース１２を用いて、映像コンテンツ生成装置２０のオンライン処理が行われる。以下、映像コンテンツ生成装置２０のオンライン処理を説明する。
【０１３８】
映像コンテンツ生成装置２０は、ストリーミング方式で配信される映像コンテンツ生成対象の楽曲の音楽データに同期した映像データを生成し、音楽データと映像データとを再生する。図１４は、ストリーミング方式で配信される音楽データと、生成した映像データの流れを示した概念図である。映像コンテンツ生成装置２０は、ストリーミング方式で配信される音楽データをストリーミングデータ記憶部１９（ｂｕｆｆｅｒ１）に蓄積する。また、映像コンテンツ生成装置２０は、音楽データ記憶部２１（ｂｕｆｆｅｒ２）に一定時間（例えば、１０秒間）再生分の音楽データが蓄積されるまで、ストリーミングデータ記憶部１９に蓄積した音楽データのうち、楽曲の最初から１ビート分ずつ音楽データを音楽データ記憶部２１に移動させる。
【０１３９】
映像コンテンツ生成装置２０は、音楽データ記憶部２１に一定時間再生分の音楽データが蓄積された場合、音楽データ記憶部２１に蓄積された一定期間再生分の音楽データに同期した映像データを生成する。そして、映像コンテンツ生成装置２０は、一定期間再生分の音楽データのうち最初の１ビート分の音楽データを映像コンテンツ記憶部２８（ｂｕｆｆｅｒ３）に移動させ、さらに、生成した映像データのうち最初の１ビート分の音楽データに同期した映像データを、移動させた音楽データに関連付けて映像コンテンツ記憶部２８に記憶する（同期処理を行う）。これにより、１ビート分の音楽データが音楽データ記憶部２１から映像コンテンツ記憶部２８に移動するため、この時点では、音楽データ記憶部２１に蓄積されている音楽データは、一定期間再生分の音楽データよりも１ビート分少ない。
【０１４０】
その後、映像コンテンツ生成装置２０は、音楽データ記憶部２１に蓄積されている音楽データが一定期間再生分の音楽データよりも１ビート分少ないため、ストリーミングデータ記憶部１９に蓄積した音楽データのうち、最初の１ビート分の音楽データを音楽データ記憶部２１に移動させる。これにより、音楽データ記憶部２１には一定時間再生分の音楽データが蓄積される。映像コンテンツ生成装置２０は、音楽データ記憶部２１に一定時間再生分の音楽データが蓄積されたため、音楽データ記憶部２１に蓄積された一定期間再生分の音楽データに同期した映像データを生成し、一定期間再生分の音楽データのうち最初の１ビート分の音楽データと、生成した映像データのうち最初の１ビート分の音楽データに同期した映像データとを映像コンテンツ記憶部２８に記憶する。この処理を繰り返すことにより、映像コンテンツ生成装置２０は、１ビート毎に、一定時間再生分の音楽データに同期した映像データを生成し、一定期間再生分の音楽データのうち最初の１ビート分の音楽データと、生成した映像データのうち最初の１ビート分の音楽データに同期した映像データとを関連付けて映像コンテンツ記憶部２８に記憶する。
【０１４１】
また、映像コンテンツ生成装置２０は、上述した同期処理を繰り返しながら、映像コンテンツ記憶部２８が関連付けて記憶する音楽データと映像データとを再生する。
【０１４２】
このように、映像コンテンツ生成装置２０は、音楽データと映像データとを再生しつつ、音楽データの配信が完了するまで、１ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行う。従って、一曲分の音楽データの配信が完了するまで待機することなく、音楽データと、この音楽データに同期した映像データとを再生することができる。さらに、１ビート毎に同期処理を行うため、より音楽データに合致した映像データを生成することができる。
【０１４３】
以下、図１に示される映像コンテンツ生成システム１に含まれる映像コンテンツ生成装置２０の各部について順次説明する。
【０１４４】
［ストリーミングデータ記憶部］
映像コンテンツ生成装置２０には、映像コンテンツ生成対象の楽曲の音楽データが、ストリーミング方式で楽曲ファイル３から配信（入力）される。ストリーミングデータ記憶部１９は、ストリーミング方式で配信される音楽データを蓄積（記憶）する。
【０１４５】
［音楽データ記憶部］
音楽データ記憶部２１は、一定時間（例えば、１０秒間）再生分の音楽データを蓄積する。音楽データ記憶部２１に一定時間再生分の音楽データが蓄積されていない場合、ストリーミングデータ記憶部１９に蓄積されている音楽データを、最初から１ビート分ずつ音楽データ記憶部２１に移動させる。
【０１４６】
［音楽解析部］
音楽解析部２２は、音楽データ記憶部２１に一定時間再生分の音楽データが蓄積された場合、音楽データ記憶部２１に蓄積されている一定時間再生分の音楽データを読み出して解析することにより音楽特徴量を取得する。本実施形態では、非特許文献２に記載の技術を用いて、一定時間再生分の音楽データから、ビート間隔及びビート時刻を取得する。また、本実施形態では（２５）式により、一定時間再生分の音楽データの盛り上がりを算出する。
【０１４７】
【数２５】

【０１４８】
但し、ｓ（Ｉ，ｊ）は楽曲の第j channelの第ｉ個信号であり、Ｎ（ｋ）は第k segmentの楽曲信号の数であり、Ｗは固定長さ（例えば、２）であり、Ｉ（ｋ）は第k segmentの盛り上がりである。
【０１４９】
さらに、音楽解析部２２は、（２６）式により、音楽のテンポを算出する。音楽のテンポは、１分間当たりのビートの個数である。
【０１５０】
【数２６】

【０１５１】
但し、ＴＢ_{ｍｕｓｉｃ}はビート間隔（秒）である。
音楽解析部２２は、一定時間再生分の音楽データのビート間隔、ビート時刻、テンポおよび盛り上がりを音楽特徴量として音楽解析データ記憶部２１２に格納する。また、音楽解析部２２は、一定時間再生分の音楽データを映像コンテンツ記憶部２８に格納する。
【０１５２】
［最適パス探索部］
まず、最適パス探索部２４は、メタデータ構築装置１０が有するデータベース１２内のモーショングラフデータの中から、映像コンテンツ生成対象の楽曲に合ったモーショングラフデータを選択する。この選択では、映像コンテンツ生成対象の楽曲に合ったジャンルのモーショングラフデータの中から、映像コンテンツ生成対象の楽曲のテンポに合ったモーショングラフデータを選択する。映像コンテンツ生成対象の楽曲に合ったジャンルは、利用者から入力してもらう、又は予め設定しておく。
【０１５３】
具体的には、最適パス探索部２４は、音楽解析部２２が解析した音楽のテンポと該選択したジャンルのモーショングラフデータの中で最小のテンポを上記（１８）式にあてはめて計算を行う。次いで、最適パス探索部２４は、利用者から入力された又は予め設定されたジャンルのモーショングラフデータの中から、その（１８）式の算出値ｉに対応するモーショングラフデータを選択する。
【０１５４】
次いで、最適パス探索部２４は、選択したモーショングラフデータと、音楽解析部２２が解析した（音楽解析データ記憶部２３が記憶する）音楽特徴量とを用いて、モーショングラフのノードを連結する最適なパスを探索する。以下、最適パスの探索方法を説明する。
【０１５５】
［始点選択ステップ］
始点選択ステップでは、モーショングラフ内のノードから、映像コンテンツの動きの始点となるノードの候補（始点候補ノード）を選択する。始点候補ノードには、モーショングラフ内のノードであって、各動きデータの最初のビートフレームに対応するノードを全て抽出する。従って、始点候補ノードは、通常、複数ある。
【０１５６】
［最適パス探索ステップ］
次いで、最適パス探索ステップでは、モーショングラフ上の始点候補ノードからの最適パスを始点候補ノード毎に探索し、各始点候補ノードに係る最適パスの中から最小コストのパスを選択する。このパス探索方法には、非特許文献５に記載されるパス探索技術を用いる。非特許文献５に記載されるパス探索技術は、ある始点からダイナミックプログラミングで最適なパスを探索するものである。このパスの検索方法をＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式と呼ぶ。以下、ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式を用いた最適パス探索ステップの詳細を説明する。
【０１５７】
まず、ある始点候補ノードｕからモーショングラフ上の全てのノードｉまでの各パスのコストを（２７）式により初期化する。この操作を第０回の最短パス算出操作と呼ぶ。
【０１５８】
【数２７】

【０１５９】
但し、ＩｎｉｔＳは複数の始点の集合である。
【０１６０】
次いで、第１回目以降の第ｋ回の最短パス算出操作では、（２８）式により、始点候補ノードｕからモーショングラフ上の全てのノードｖまでの最適パスのコストを算出する。
【０１６１】
【数２８】

【０１６２】
但し、Ｖはモーショングラフ上のノードの集合である。ｓｈｏｒｔｅｓｔＰａｔｈ（ｖ，ｋ）は、第ｋ回の最短パス算出操作による、始点候補ノードｕからノードｖまでの最適パスのコストである。ｅｄｇｅＣｏｓｔ（ｉ，ｖ）はノードｉからノードｖまでのエッジコストである。エッジコストの計算式は（３０）式である。
【０１６３】
この（２８）式を用いた第１回目以降の最短パス算出操作は、第Ｋ回まで繰り返し行う。但し、Ｋは映像コンテンツ生成対象である一定時間再生分の音楽データに含まれるビート数である。一定時間再生分の音楽データに含まれるビート数Ｋは、一定時間再生分の音楽データのビート時刻の総数に等しい。一定時間再生分の音楽データのビート時刻は、音楽解析データ記憶部２１２に格納されているので、その格納数を数えることによってビート数Ｋを求めることができる。
【０１６４】
上記（２７）式および（２８）式を用いた最短パス算出操作を、全ての始点候補ノードに対してそれぞれに行う。次いで、全ての始点候補ノードに係る第Ｋ回の最短パス算出操作結果から、（２９）式により、最小コストのパスを選択する。
【０１６５】
【数２９】

【０１６６】
ｓｈｏｒｔｅｓｔＰａｔｈ（ｖ，Ｋ）は、第Ｋ回の最短パス算出操作による、始点候補ノードｕからノードｖまでの最適パスのコストである。ｓｈｏｒｔｅｓｔＰａｔｈ（Ｋ）は、最小コストのパス（始点ノードｕから終点ノードｖまでのパス）のコストである。
【０１６７】
但し、ＴＨは音楽が終了するまでのビート数である。ＴＨの推定方法としては、例えば、１秒間に含まれるビート数を算出し、音楽が終了するまでの残り時間（終了までの音楽の長さ）を、１秒間に含まれるビート数で割ることで推定する方法がある。なお、音楽が終了するまでのビート数（音楽の長さ）が分からなければ、ＴＨを無限大に設定する。
【０１６８】
（２９）式より、最小コストのパスに含まれるノードのウェートｗ（ｖ）は、音楽が終了されるまでのビート数以上である条件（条件ｗ（ｖ）＞＝ＴＨ）を満たすので、音楽の途中で動きデータの連続性が途切れることが無くなる。例えば、音楽が終了するまでのビート数ＴＨが不明の場合、最小コストのパスに含まれるノードのウェートは、常に無限大である。
【０１６９】
エッジコストは、（３０）式により、毎回計算される。
【０１７０】
【数３０】

【０１７１】
最適パス探索ステップでは、上記（２９）式によって選択された最小コストのパスを探索結果の最適パスとする。この最適パスに含まれるＫ個のノードは、１個の始点ノードｕと、（Ｋ−２）個の経由ノードｉと、１個の終点ノードｖである。ここで、始点候補ノードは、通常、複数あるので、上記探索結果の最適パスは始点候補ノードの数と同じ数だけある。それら最適パスの中から、コストが一番小さいパスとその始点を最終結果の最適パスとして選択する。この最終結果の最適パスに含まれるＫ個のノードは、１個の最適始点ノードｕ^ｏｐｔと、（Ｋ−２）個の経由ノードｉ^ｏｐｔと、１個の終点ノードｖ^ｏｐｔである。
【０１７２】
［同期部］
同期部２５は、最適パス探索部２４が探索した最適パスに従って、動きデータと音楽データを対応付ける同期情報を生成する。以下、同期情報生成方法の詳細を説明する。
【０１７３】
まず、最適パス探索部２４が探索した最適パスに含まれるＫ個のノード（１個の始点ノードｕ^ｏｐｔと、（Ｋ−２）個の経由ノードｉ^ｏｐｔと、１個の終点ノードｖ^ｏｐｔ）に対応するＫ個のビートフレーム（１個の始点ビートフレームと、（Ｋ−２）個の経由ビートフレームと、１個の終点ビートフレーム）について、最適パスの順番で隣り合うビートフレーム間の時間を求める。さらに、各隣接ビートフレーム間のフレームレートを求める。また、映像コンテンツ生成対象の楽曲のＫ個のビートについて、時間的に隣り合うビート間の時間を求める。
【０１７４】
次いで、楽曲のビート間隔に動きのビート間隔を等しくするように、（３１）式により、動きのフレームレートを増減させる調整を行う。図１５に、動きのフレームレートを調整する処理の概念図を示す。（３１）式は、ｎ番目のビートフレームと（ｎ＋１）番目のビートフレームの間のフレームレートを算出するための計算式である（但し、ｎは１から（Ｋ−１）までの自然数である）。
【０１７５】
【数３１】

【０１７６】
但し、ｔ^{ｍｏｔｉｏｎ}_{ｎｏｄｅ２}は隣接ビートフレームのうち先のビートフレームの時刻、ｔ^{ｍｏｔｉｏｎ}_{ｎｏｄｅ１}は該隣接ビートフレームのうち後のビートフレームの時刻である。ｔ^{ｍｕｓｉｃ}_{ｎｏｄｅ２}は楽曲の隣接ビートのうち先のビートの時刻、ｔ^{ｍｕｓｉｃ}_{ｎｏｄｅ１}は該隣接ビートのうち後のビートの時刻である。ｒａｔｅ＿ｏｌｄは元のフレームレートである。ｒａｔｅ＿ｎｅｗは調整後のフレームレートである。
【０１７７】
同期部２５は、上記した同期情報生成方法によって、映像コンテンツの動きの始点となる１個の始点ビートフレームと、映像コンテンツの動きの終点となる１個の終点ビートフレームと、始点ビートフレームから終点ビートフレームに至るまでに経由する（Ｋ−２）個の経由ビートフレームと、各隣接ビートフレーム間の調整後のフレームレートとを得る。同期部２５は、始点ビートフレームの情報と経由ビートフレームの情報と終点ビートフレームの情報と調整後のフレームレートの情報と該ビートフレーム間のブレンディング動きデータを同期情報として同期情報記憶部２６に格納する。なお、ブレンディング動きデータは、最適パス探索部２４の探索結果の最適パスに沿った方向のデータのみでよい。
【０１７８】
［映像データ生成部］
映像データ生成部２７は、同期情報記憶部２６に格納された同期情報に基づいて、映像コンテンツ生成対象の楽曲の音楽データとともに再生される映像データを生成する。具体的には、始点ビートフレームから経由ビートフレームを経由して終点ビートフレームに至るまでに必要な動きデータを動きデータベース２から取得する。
【０１７９】
次いで、取得した動きデータ間を連結する部分（双方向エッジに対応する部分）に対してブレンディング動きデータで置換する。このとき、動きデータの連結部分において、動きデータのルート座標と方向の平行移動を行う。動きデータが連結される際に各動きデータのルート座標は、各動きデータに独自のローカル座標のままである。このままでは、連結後の動きデータの再生画像は、ルート座標が整合されていないために、スムーズな動きにならない。このため、動きデータの連結部分において、後の動きデータのルート座標を前の動きデータの最後のフレームで表現している位置へオフセットする。これにより、動きデータの連結部分における補間処理を行い、連結後の動きデータの再生画像がスムーズな動きとなるようにする。同様に、動きデータが連結される際に各動きデータのルート方向は、後の動きデータのルート方向を前の動きデータの最後のフレームで表現している方向へオフセットする。
【０１８０】
次いで、連結された動きデータに対して、各隣接ビートフレーム間の調整後のフレームレートの情報を付加する。映像データ生成部２７は、音楽データ記憶部２１に蓄積されている一定期間再生分の音楽データのうち最初の１ビート分の音楽データを映像コンテンツ記憶部２８に移動させ、さらに、生成した映像データのうち最初の１ビート分の音楽データに同期した映像データを、移動させた音楽データに関連付けて映像コンテンツ記憶部２８に記憶させる。
【０１８１】
［再生部］
再生部２９は、映像コンテンツ記憶部２８に関連付けて格納された映像データと音楽データとを、ともに再生する。このとき、再生部２９は、映像データに付加されたフレームレートの情報に従って、隣接ビートフレーム間のフレームレートを設定する。これにより、映像データと音楽データは、互いのビートが同期して再生される。なお、再生部２９は、映像コンテンツ生成装置２０とは独立した装置であってもよい。
【０１８２】
上述した各部の処理により、音楽データに合った映像データを生成し、音楽データと映像データとを同期して再生することができる。なお、本実施形態では、最適パス探索部２４は、新たな１ビート分の音楽データが音楽データ記憶部２１に蓄積される毎に上記のＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式を用いて最適なパスを検索するのではなく、新たに蓄積された音楽データの条件によっては、既に決定した最適なパスに、この最適なパスに含まれる最終ノードと、新たに蓄積された音楽データに対応するモーショングラフのノードとを連結する最適なパスを追加する方法を用いる。この処理によってモーショングラフの最適なパスを決定する方式を快速決定方式と呼ぶ。
【０１８３】
次に、本実施形態においてモーショングラフの最適なパスを決定する方法の具体例について説明する。図１６は、ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式で決定した、モーショングラフの最適なパスを示した概略図である。図示する例では、ビート１〜５が示されており、各ビート毎に、３つのノード（上段ノード、中段ノード、下段ノード）が示されている。また、各ノードにはコストが示されている。具体的には、ビート２の上段ノードのコストは「Ｎ」であり、ビート２の中段ノードのコストは「２」であり、ビート２の下段ノードのコストは「３」である。他のノードのコストは図示するとおりである。なお、コスト「Ｎ」のノードは、映像コンテンツ記憶部２８に記憶されているノードからは接続不可能なノードであることを示している。また、ビート１に対応するノードは映像コンテンツ記憶部２８に蓄積されている。また、音楽データ記憶部２１には一定時間再生分の音楽データとして、ビート２〜５の４ビート分の音楽データが蓄積されている。また、図示する例では、ビート１の上段ノード、ビート２の中段ノード、ビート３の下段ノード、ビート４の上段ノード、ビート５の中段ノードが最適なパスとして算出されている。
【０１８４】
最適なパスを決定後、音楽データ記憶部２１に蓄積されている最初の１ビート分の音楽データ（ビート２）を映像コンテンツ記憶部２８に移動させ、さらに、生成した映像データのうち最初の１ビート分の音楽データに同期した映像データ（ビート２の中段ノード）を、移動させた音楽データに関連付けて映像コンテンツ記憶部２８に記憶する。これにより、１ビート分の音楽データが音楽データ記憶部２１から映像コンテンツ記憶部２８に移動するため、この時点では、音楽データ記憶部２１に蓄積されている音楽データは、一定期間再生分の音楽データよりも１ビート分少ない。その後、映像コンテンツ生成装置２０は、音楽データ記憶部２１に蓄積されている音楽データが一定期間再生分の音楽データよりも１ビート分少ないため、ストリーミングデータ記憶部１９に蓄積した音楽データのうち、最初の１ビート分の音楽データを音楽データ記憶部２１に移動させる。
【０１８５】
図１７および図１８は、音楽データ記憶部２１に新たに１ビート分（ビート６）の音楽データが蓄積された後のモーショングラフの最適なパスを示した概略図である。図示する例では、ビート１〜６が示されており、各ビート毎に、３つのノード（上段ノード、中段ノード、下段ノード）が示されている。また、各ノードにはコストが示されている。各ノードのコストは図示するとおりである。また、ビート１〜２に対応するノードは映像コンテンツ記憶部２８に蓄積されている。また、音楽データ記憶部２１には一定時間再生分の音楽データとして、ビート３〜６の４ビート分の音楽データが蓄積されている。なお、図１７と図１８とで異なる点は、新たに蓄積されたビート６に対応するノードのコストが異なる点である。
【０１８６】
音楽データ記憶部２１に新たに１ビート分の音楽データが蓄積された場合、最適パス探索部２４は、最適パスに含まれる最終ノード（ビート５の中段ノード）から新たに追加されたビートに対応するノードへの最小コスト（Ｃｏｓｔ＿ｔｅｍｐ（ｏｐｔ））が、最終ノードの候補であったのノード（ビート５の上段ノードおよび下段ノード）から新たに追加されたビートに対応するノードへの最小コスト（Ｃｏｓｔ＿ｔｅｍｐ（ｏｔｈｅｒｓ））に係数（ＴＨ（ｔ））を乗算した値よりも小さいか否かを判定する。そして、小さいと判定した場合には、快速決定方式を用いてモーショングラフの最適なパスを決定し、それ以外の場合にはＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式を用いてモーショングラフの最適なパスを決定する。すなわち、Ｃｏｓｔ＿ｔｅｍｐ（ｏｔｈｅｒｓ）＜ＴＨ（ｔ）×Ｃｏｓｔ＿ｔｅｍｐ（ｏｔｈｅｒｓ）の場合、最適パス探索部２４は、快速決定方式を用いてモーショングラフの最適なパスを決定し、それ以外の場合にはＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式を用いてモーショングラフの最適なパスを決定する。なお、係数ＴＨ（ｔ）の値は、予め決定していても良く、環境に応じて任意に設定できるようにしてもよい。
【０１８７】
図１７に示した例では、最適なパスに含まれる最終ノード（ビート５の中段ノード）から新たに追加されたビートに対応するノードへの最小コストは「１０」（ビート６の下段ノード）であり、最終ノードの候補であったノード（ビート５の上段ノードおよび下段ノード）から新たに追加されたビートに対応するノードへの最小コストは「１１」（ビート６の中段ノード）である。ここで係数ＴＨ（ｔ）を１とすると、Ｃｏｓｔ＿ｔｅｍｐ（ｏｔｈｅｒｓ）＜ＴＨ（ｔ）×Ｃｏｓｔ＿ｔｅｍｐ（ｏｔｈｅｒｓ）を満たすので、最適パス探索部２４は、快速決定方式を用いてモーショングラフの最適なパスを決定する。すなわち、最適パス探索部２４は、既に決定した最適なパスに、最適なパスに含まれる最終ノード（ビート５の中段ノード）と、新たに蓄積された音楽データに対応するモーショングラフのノードとを連結する最適なパスを追加する。これにより、この場合の最適なパスは、ビート１の上段ノード、ビート２の中段ノード、ビート３の下段ノード、ビート４の上段ノード、ビート５の中段ノード、ビート６の下段ノードとなる。
【０１８８】
図１８に示した例では、最適なパスに含まれる最終ノード（ビート５の中段ノード）から新たに追加されたビートに対応するノードへの最小コストは「１３」（ビート６の下段ノード）であり、最終ノードの候補であったノード（ビート５の上段ノードおよび下段ノード）から新たに追加されたビートに対応するノードへの最小コストは「１２」（ビート６の中段ノード）である。ここで係数ＴＨ（ｔ）を１とすると、Ｃｏｓｔ＿ｔｅｍｐ（ｏｔｈｅｒｓ）＜ＴＨ（ｔ）×Ｃｏｓｔ＿ｔｅｍｐ（ｏｔｈｅｒｓ）を満たしていないので、最適パス探索部２４は、ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式を用いてモーショングラフの最適なパスを決定する。すなわち、最適パス探索部２４は、音楽データ記憶部２１に蓄積されている音楽データを読み出し、最適なパスを検索する。
【０１８９】
図１９は、図１８に示したビート６が音楽データ記憶部２１に蓄積された後に、ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式で決定した、モーショングラフの最適なパスを示した概略図である。図示する例では、ビート１の上段ノード、ビート２の中段ノード、ビート３の下段ノード、ビート４の中段ノード、ビート５の下段ノード、ビート６の中段ノードが最適なパスとして算出されている。このように、音楽データ記憶部２１に新たなビートが蓄積された場合、従来算出した最適なパスとは異なるパスがより最適なパスとして算出される場合がある。本実施形態では、音楽データと映像データとを再生しつつ、音楽データの配信が完了するまで、１ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行うため、より音楽データに合致した映像データを生成することができる。
【０１９０】
図２０は、図１９に示した最適なパスを決定した後のモーショングラフの最適なパスを示した概略図である。図示する例では、音楽データ記憶部２１に蓄積されている最初の１ビート分の音楽データ（ビート３）を映像コンテンツ記憶部２８に移動させ、さらに、生成した映像データのうち最初の１ビート分の音楽データに同期した映像データ（ビート３の下段ノード）を、移動させた音楽データに関連付けて映像コンテンツ記憶部２８に記憶させた状態を示している。また、ストリーミングデータ記憶部１９に蓄積した音楽データのうち、最初の１ビート分の音楽データ（ビート７）を音楽データ記憶部２１に移動させた状態を示している。このように、映像コンテンツ生成装置２０は、音楽データの配信が完了するまで、１ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行う。
【０１９１】
上述したとおり、本実施形態によれば、映像コンテンツ生成装置２０は、音楽データと映像データとを再生しつつ、音楽データの配信が完了するまで、１ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行う。従って、一曲分の音楽データの配信が完了するまで待機することなく、音楽データと、この音楽データに同期した映像データとを再生することができる。さらに、１ビート毎に同期処理を行うため、より音楽データに合致した映像データを生成することができる。
【０１９２】
また、本実施形態では、音楽データ記憶部２１に新たに１ビート分の音楽データが蓄積された場合、最適パス探索部２４は、最適なパスに含まれる最終ノードから新たに追加されたビートに対応するノードへの最小コストが、最終ノードの候補であったノードから新たに追加されたビートに対応するノードへの最小コストに係数を乗算した値よりも小さいか否かを判定する。そして、小さいと判定した場合には、快速決定方式を用いてモーショングラフの最適なパスを決定し、それ以外の場合にはＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ更新方式を用いてモーショングラフの最適なパスを決定する。これにより、より最適なパスを検索しつつ、パスを検索する処理の処理量を減らすことができ、さらに、処理を高速化することができる。
【０１９３】
なお、本実施形態では、所定のビート数として１ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行う例を用いて説明したが、これに限らず、所定のビート数として複数ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行うようにしてもよい。例えば、音楽データ記憶部２１が蓄積する容量（一定時間再生分）の半分の音楽データ毎に同期処理を行うようにしてもよい。具体的には、音楽データ記憶部２１が蓄積する容量（一定時間再生分）が１０ビート分の音楽データである場合には、５ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行ってもよい。
【０１９４】
また、通常時は１ビート分の音楽データ毎に一定時間再生分の音楽データに基づいて同期処理を行い、ストリーミングデータ記憶部１９に蓄積される音楽データに基づいて再生される音楽のフェーズが変わる、あるいは音楽のサビの部分になった時、ビート数を増やし、一定時間再生分の音楽データに基づいて同期処理を行うようにしてもよい。なお、音楽のフェーズの変化やサビの部分の検出方法（音楽の解析方法）としては、図示せぬ移動量決定部が、従来知られている検出方法を用いて検出してもよい。また、音楽データのヘッダ等に、音楽のフェーズの変化やサビの部分のタイミングを示す情報を予め記憶するようにし、移動量決定部がこの情報を取得して検出するようにしてもよい。そして、移動量決定部は、検出した音楽の特徴の変化に基づいて、所定のビート数を変化させるようにしてもよい。
【０１９５】
なお、音楽データを所定時間で区切って、その一つ一つに対してモーションデータとの同期を行うこととしており、各区間で局所最適解に陥り、理想的に同期しない可能性があるため、本特許では、同期処理する区間をより短い時間（例えばビート）ずつずらしながら、局所最適解となるのを避けることはできる。
【０１９６】
なお、本実施形態に係るメタデータ構築装置１０および映像コンテンツ生成装置２０は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図１に示されるメタデータ構築装置１０および映像コンテンツ生成装置２０の各部の機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。
【０１９７】
また、そのメタデータ構築装置１０および映像コンテンツ生成装置２０には、周辺機器として入力装置、表示装置等が接続されるものとする。ここで、入力装置とはキーボード、マウス等の入力デバイスのことをいう。表示装置とはＣＲＴ（Cathode Ray Tube）や液晶表示装置等のことをいう。
また、上記周辺機器については、メタデータ構築装置１０および映像コンテンツ生成装置２０に直接接続するものであってもよく、あるいは通信回線を介して接続するようにしてもよい。
【０１９８】
また、図１に示すメタデータ構築装置１０および映像コンテンツ生成装置２０が行う各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、映像コンテンツ生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ（Digital Versatile Disk）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【０１９９】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
【０２００】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、携帯端末が、メタデータ構築装置１０の各部と、映像コンテンツ生成装置２０の各部とを備える構成としてもよい。また、メタデータ構築装置１０の各部と、映像コンテンツ生成装置２０の各部と、映像コンテンツ記憶部２８に記憶されている音楽データと映像データとを携帯端末などの他の装置に配信する配信部とを備えた映像コンテンツ配信装置として構成してもよい。
また、上述した実施形態では人の動きデータを扱ったが、本発明は各種の物体の動きデータに適用することができる。ここで、物体とは、人、動物、植物その他の生物、及び、生物以外の物（ロボット等）を含む。
【０２０１】
また、本発明は、３次元コンテンツの生成に利用することができる。
【符号の説明】
【０２０２】
１・・・映像コンテンツ生成システム、２・・・動きデータベース、３・・・楽曲ファイル、１０・・・メタデータ構築装置、１１・・・動き解析部、１２・・・データベース、１９・・・ストリーミングデータ記憶部、２０・・・映像コンテンツ生成装置、２１・・・音楽データ記憶部、２２・・・音楽解析部、２３・・・音楽解析データ記憶部、２４・・・最適パス探索部、２５・・・同期部、２６・・・同期情報記憶部、２７・・・映像データ生成部、２８・・・映像コンテンツ記憶部、２９・・・再生部、３１・・・ビート抽出部、３２・・・ビート情報記憶部、３３・・・盛り上がり算出部、３４・・・盛り上がり情報記憶部、３５・・・モーショングラフ生成部、３１１・・・物理量変換部、３１２・・・データ分割部、３１３・・・短時間主成分分析部、３１４・・・主成分座標連結部、３１５・・・ビート推定部、３１６・・・後処理部

【特許請求の範囲】
【請求項１】
ストリーミング配信される楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成システムにおいて、
映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを記憶するデータベースと、
前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶部と、
前記ストリーミングデータ記憶部から、前記音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶部と、
前記音楽データ記憶部が記憶する前記所定量の音楽データから音楽特徴量を取得する音楽解析部と、
前記モーショングラフ上で、前記音楽データ記憶部が記憶する前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索部と、
前記最適パス探索部が探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期部と、
前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成部と、
前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶部と、
を備え、
前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第１のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第２のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加する
ことを特徴とする映像コンテンツ生成システム。
【請求項２】
前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された場合、前記第１のコストが、前記第２のコストに所定の係数を乗算した値以上の場合には、前記所定量の音楽データに基づいて前記パスを新たに検索し、それ以外の場合には、前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加する
ことを特徴とする請求項１に記載の映像コンテンツ生成システム。
【請求項３】
前記ストリーミングデータ記憶部が記憶する音楽データに基づいて再生される音楽の特徴を解析し、解析した結果に基づいて前記所定のビート数を決定する移動量決定部
を備えたことを特徴とする請求項１または請求項２のいずれか１項に記載の映像コンテンツ生成システム。
【請求項４】
前記移動量決定部は、前記ストリーミングデータ記憶部が記憶する音楽データに基づいて再生される音楽のフェーズが変化した時、或いはサビになった時、前記所定のビート数を増やし、それ以外の場合には前記所定のビート数を１ビートとする
ことを特徴とする請求項３に記載の映像コンテンツ生成システム。
【請求項５】
ストリーミング配信される楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成装置において、
映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを取得する取得部と、
前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶部と、
前記ストリーミングデータ記憶部から、前記音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶部と、
前記音楽データ記憶部が記憶する前記所定量の音楽データから音楽特徴量を取得する音楽解析部と、
前記モーショングラフ上で、前記音楽データ記憶部が記憶する前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索部と、
前記最適パス探索部が探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期部と、
前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成部と、
前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶部と、
を備え、
前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第１のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第２のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加する
ことを特徴とする映像コンテンツ生成装置。
【請求項６】
コンピュータに、
映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを取得する取得ステップと、
前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶ステップと、
前記ストリーミングデータ記憶ステップで記憶した前記音楽データから、当該音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶ステップと、
前記音楽データ記憶ステップで記憶した前記所定量の音楽データから音楽特徴量を取得する音楽解析ステップと、
前記モーショングラフ上で、前記音楽データ記憶ステップで記憶した前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索ステップと、
前記最適パス探索ステップで探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期ステップと、
前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成ステップと、
前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶ステップと、
を実行させ、
前記最適パス探索ステップでは、前記音楽データ記憶ステップで前記所定のビート数の音楽データを記憶した際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第１のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第２のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加する処理を実行させる
ためのコンピュータプログラム。

【図１】