説明

映像コンテンツ生成システム、映像コンテンツ生成装置及びコンピュータプログラム

【課題】映像コンテンツを同期させる楽曲の開始から終了までの音楽データが入力されていなくても、大規模な動きデータベースを利用して楽曲に合わせた映像コンテンツを生成することができる。
【解決手段】最適パス探索部24は、音楽データ記憶部21に所定のビート数の音楽データが記憶された際に、パスで特定される最終ノードから所定のビート数の音楽データに対応するノードまでの第1のコストと、最終ノードの候補であったノードから当該所定のビート数の音楽データに対応するノードまでの第2のコストとの比に応じて、所定量の音楽データに基づいてパスを新たに検索する、またはパスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応するノードまでのパスを追加する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像コンテンツ生成システム、映像コンテンツ生成装置及びコンピュータプログラムに関する。
【背景技術】
【0002】
近年、音楽に合わせてコンピュータ・グラフィックス(CG)オブジェクトを表示させる技術として、例えば、演奏家が音楽を演奏すると、音楽との所定のマッピングのパタンに従って、CGモデルが動くようになる技術が提案されている。
【0003】
特許文献1では、CGオブジェクトの時系列に対して、音楽データの静的属性または動的属性をもとにして描画情報(視点情報、光源情報)を再設定する。そして、音楽データをCGオブジェクト表示と同期して再生している。又、特許文献2に記載のモーション作成装置では、複数のモーションにおいて人体姿勢が類似する2つのフレーム間を連結した有向性グラフとしてモーションデータベースを構築し、その複数のモーションの中から、音楽データから取得したビート特徴成分と相関を有する動き特徴成分をもつモーションを選択している。また、非特許文献1に記載の技術では、事前に独自なデータ構造を生成し、音楽を入力すると、Dynamic Programming(動的計画法)でより高速な同期ができる。
【0004】
音楽解析手法としては、非特許文献2に記載の技術が知られている。非特許文献2の技術によれば、発音成分、コードの変化、打楽器の発音時刻などを推定してビート間隔及びビート構造を取得している。動き解析手法としては、非特許文献3に記載の技術が知られている。非特許文献3の技術によれば、動きビートの変化や発生時刻を推定してビート間隔及びビート構造を取得している。
非特許文献4には、モーショングラフ(Motion Graphs)を用いて新たな動きデータを生成する技術が開示されている。
非特許文献5には、パス探索技術として、ある始点からダイナミックプログラミング(dynamic programming)で最適なパスを探索する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2005−56101号公報
【特許文献2】特開2007−18388号公報
【非特許文献】
【0006】
【非特許文献1】徐建鋒、高木幸一、米山暁夫、“動きのビート・盛り上がり情報に基づく音楽に同期したダンス生成手法”、2009年度映像メディア処理シンポジウム (IMPS)、I-04-01,2009年10月7日
【非特許文献2】M.Goto,“An Audio-based Real-time Beat Tracking System for Music With or Without Drum-sounds”,Journal of New Music Research,Vol.30,No.2,pp.159-171,2001
【非特許文献3】T.Kim,S.I.Park,S.Y.Shin,“Rhythmic-Motion Synthesis Based on Motion-Beat Analysis”,ACM Transaction on Graphics,Vol.22,Issue 3,2003(SIGGRAPH 2003),pp.392-401
【非特許文献4】L.Kovar,M.Gleicher,and F.Pighin,“Motion Graphs”,ACM Transaction on Graphics,Vol.21,Issue 3,2002(SIGGRAPH 2002),pp.473-482
【非特許文献5】Cormen,Thomas H.; Leiserson,Charles E.,Rivest,Ronald L. (1990). Introduction to Algorithms (2st ed.). MIT Press and McGraw-Hill. ISBN 0-262-03141-8. pp. 323-69
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、上述した特許文献1記載の従来技術では、ある楽曲に対してCGアニメーションを作成する際、CGオブジェクトの時系列がその楽曲の音楽の変化にそぐわない場合には、楽曲に合致したCGアニメーションを作成することが難しいという問題がある。又、特許文献2記載の従来技術では、一般に利用可能な膨大な数の動きデータに対して、人体姿勢が類似する2つのフレーム間を連結した有向性グラフとしてモーションデータベースを構築することは、現実的に難しいという問題がある。このため、実際のモーション作成対象の楽曲に基づいて選択された動きデータを対象にして、動きデータ間を連結することが望ましい。
【0008】
非特許文献4記載の従来技術では、モーショングラフの構築と最適なパスの探索に要する計算量が膨大である。また、元々のモーション構造を考慮しないで構築されたモーショングラフを使用すると、元々のモーション構造が壊れる可能性がある。例えば、激しい動きとゆっくりの動き間で遷移すると、動きの突然の変化のために、不自然な動き又は不一致な動きが生まれる可能性がある。
【0009】
非特許文献1記載の従来技術では、曲の開始から終了までの音楽データが入力されていなければ、音楽データとCGオブジェクトとを同期させることができないという問題がある。そのため、例えばストリーミング配信される曲に合致したCGアニメーションをリアルタイムに生成することは困難である。
【0010】
本発明は、このような事情を考慮してなされたもので、その目的は、映像コンテンツを同期させる楽曲の開始から終了までの音楽データが入力されていなくても、大規模な動きデータベースを利用して楽曲に合わせた映像コンテンツを生成することができる映像コンテンツ生成システム、映像コンテンツ生成装置及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0011】
本発明は、ストリーミング配信される楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成システムにおいて、映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを記憶するデータベースと、前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶部と、前記ストリーミングデータ記憶部から、前記音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶部と、前記音楽データ記憶部が記憶する前記所定量の音楽データから音楽特徴量を取得する音楽解析部と、前記モーショングラフ上で、前記音楽データ記憶部が記憶する前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索部と、前記最適パス探索部が探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期部と、前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成部と、前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶部と、を備え、前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第1のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第2のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加することを特徴とする映像コンテンツ生成システムである。
【0012】
また、本発明の映像コンテンツ生成システムにおいて、前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された場合、前記第1のコストが、前記第2のコストに所定の係数を乗算した値以上の場合には、前記所定量の音楽データに基づいて前記パスを新たに検索し、それ以外の場合には、前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加することを特徴とする。
【0013】
また、本発明は、前記ストリーミングデータ記憶部が記憶する音楽データに基づいて再生される音楽の特徴を解析し、解析した結果に基づいて前記所定のビート数を決定する移動量決定部を備えたことを特徴とする映像コンテンツ生成システムである。
【0014】
また、本発明の映像コンテンツ生成システムにおいて、前記移動量決定部は、前記ストリーミングデータ記憶部が記憶する音楽データに基づいて再生される音楽のフェーズが変化した時、或いはサビになった時、前記所定のビート数を増やし、それ以外の場合には前記所定のビート数を1ビートとすることを特徴とする。
【0015】
また、本発明は、ストリーミング配信される楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成装置において、映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを取得する取得部と、前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶部と、前記ストリーミングデータ記憶部から、前記音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶部と、前記音楽データ記憶部が記憶する前記所定量の音楽データから音楽特徴量を取得する音楽解析部と、前記モーショングラフ上で、前記音楽データ記憶部が記憶する前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索部と、前記最適パス探索部が探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期部と、前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成部と、前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶部と、を備え、前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第1のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第2のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加することを特徴とする映像コンテンツ生成装置である。
【0016】
また、本発明は、コンピュータに、映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを取得する取得ステップと、前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶ステップと、前記ストリーミングデータ記憶ステップで記憶した前記音楽データから、当該音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶ステップと、前記音楽データ記憶ステップで記憶した前記所定量の音楽データから音楽特徴量を取得する音楽解析ステップと、前記モーショングラフ上で、前記音楽データ記憶ステップで記憶した前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索ステップと、前記最適パス探索ステップで探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期ステップと、前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成ステップと、前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶ステップと、を実行させ、前記最適パス探索ステップでは、前記音楽データ記憶ステップで前記所定のビート数の音楽データを記憶した際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第1のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第2のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加する処理を実行させるためのコンピュータプログラムである。
【発明の効果】
【0017】
本発明によれば、映像コンテンツを同期させる楽曲の開始から終了までの音楽データが入力されていなくても、大規模な動きデータベースを利用して楽曲に合わせた映像コンテンツを生成することができるという効果が得られる。
【図面の簡単な説明】
【0018】
【図1】本発明の一実施形態に係る映像コンテンツ生成システム1の構成を示すブロック図である。
【図2】人体スケルトン型動きデータの定義例である。
【図3】図1に示す動き解析部11の構成を示すブロック図である。
【図4】図1に示すビート抽出部31の構成を示すブロック図である。
【図5】図4に示すビート抽出部31に係るデータ分割処理の概念図である。
【図6】図4に示すビート抽出部31に係る主成分座標連結処理を説明するための概念図である。
【図7】図4に示すビート抽出部31に係る正弦近似処理の概念図である。
【図8】本発明の一実施形態に係るモーショングラフの構成方法の全体の流れを示す概念図である。
【図9】本発明の一実施形態に係るモーショングラフ生成方法の流れを示す概念図である。
【図10】本発明の一実施形態に係るジョイント毎に予め定めた重みを示した図である。
【図11】本発明の一実施形態の双方向エッジに係るブレンディング処理の概念図である。
【図12】本発明の一実施形態に係るブレンディング処理を説明する概念図である。
【図13】本発明の一実施形態に係るループを特定する処理手順を示したフローチャートである。
【図14】本発明の一実施形態に係るストリーミング方式で配信される楽曲データと、生成した映像データの流れを示した概念図である。
【図15】本発明の一実施形態に係る動きのフレームレートを調整する処理の概念図である。
【図16】本発明の一実施形態に係るDynamic Programming更新方式で決定した、モーショングラフの最適なパスを示した概略図である。
【図17】本発明の一実施形態に係る音楽データ記憶部に新たに1ビート分の音楽データが蓄積された後のモーショングラフの最適なパスを示した概略図である。
【図18】本発明の一実施形態に係る音楽データ記憶部に新たに1ビート分の音楽データが蓄積された後のモーショングラフの最適なパスを示した概略図である。
【図19】本発明の一実施形態に係るDynamic Programming更新方式で決定した、モーショングラフの最適なパスを示した概略図である。
【図20】本発明の一実施形態に係るモーショングラフの最適なパスを示した概略図である。
【発明を実施するための形態】
【0019】
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る映像コンテンツ生成システム1の構成を示すブロック図である。図1において、映像コンテンツ生成システム1は、メタデータ構築装置10と、映像コンテンツ生成装置20とを含む。メタデータ構築装置10と、映像コンテンツ生成装置20とは通信可能なネットワーク(図示せず)で接続されており、互いにデータの送受信を行うことができる。メタデータ構築装置10は、動き解析部11と、データベース12とを有する。映像コンテンツ生成装置20は、ストリーミングデータ記憶部19と、音楽データ記憶部21と、音楽解析部22と、音楽解析データ記憶部23と、最適パス探索部24と、同期部25と、同期情報記憶部26と、映像データ生成部27と、映像コンテンツ記憶部28と、再生部29とを有する。
【0020】
映像コンテンツ生成装置20には、映像コンテンツ生成対象の楽曲の音楽データが楽曲ファイル3からストリーミング配信される。
【0021】
動きデータベース2は、一般に利用可能な動きデータ(映像コンテンツに適用可能なモーションキャプチャデータ)を多数蓄積している。メタデータ構築装置10および映像コンテンツ生成装置20は、動きデータベース2から動きデータを入力する。本実施形態では、人の動きデータを扱い、人の動きデータとして、図2に例示されるように定義された人体スケルトン型動きデータを用いる。
【0022】
図2は、人の動きデータの定義例の概略図であり、人のスケルトン型動きデータ(人体スケルトン型動きデータ)の定義例である。人体スケルトン型動きデータは、人の骨格を基に、骨及び骨の連結点(ジョイント)を用い、一ジョイントを根(ルート)とし、ルートからジョイント経由で順次連結される骨の構造を木(ツリー)構造として定義される。図2には、人体スケルトン型動きデータの定義の一部分のみを示している。図2において、ジョイント100は腰の部分であり、ルートとして定義される。ジョイント101は左腕の肘の部分、ジョイント102は左腕の手首の部分、ジョイント103は右腕の肘の部分、ジョイント104は右腕の手首の部分、ジョイント105は左足の膝の部分、ジョイント106は左足の足首の部分、ジョイント107は右足の膝の部分、ジョイント108は右足の足首の部分、である。
【0023】
スケルトン型動きデータは、スケルトン型対象物の各ジョイントの動きを記録したデータであり、スケルトン型対象物としては人体や動物、ロボットなどが適用可能である。スケルトン型動きデータとしては、各ジョイントの位置情報や角度情報、速度情報、加速度情報などが利用可能である。ここでは、人体スケルトン型動きデータとして、人体スケルトンの角度情報と加速度情報を例に挙げて説明する。
【0024】
人体スケルトン型角度情報データは、人の一連の動きを複数の姿勢(ポーズ)の連続により表すものであり、人の基本ポーズ(neutral pose)を表す基本ポーズデータと、実際の人の動きの中の各ポーズを表すポーズ毎のフレームデータとを有する。基本ポーズデータは、基本ポーズのときのルートの位置及び各ジョイントの位置、並びに各骨の長さなどの情報を有する。基本ポーズデータにより基本ポーズが特定される。フレームデータは、基本ポーズからの移動量をジョイント毎に表す。ここでは、移動量として角度情報を利用する。各フレームデータにより、基本ポーズに対して各移動量が加味された各ポーズが特定される。これにより、各フレームデータによって特定される各ポーズの連続により、人の一連の動きが特定される。なお、人体スケルトン型角度情報データは、人の動きをカメラ撮影した映像からモーションキャプチャ処理によって作成したり、或いは、キーフレームアニメーションの手作業によって作成したりすることができる。
人体スケルトン型加速度情報データは、人の各ジョイントの加速度をポーズ毎のフレームデータと複数のポーズの連続により表すものである。なお、人体スケルトン型加速度情報データは、加速度計で記録したり、映像や動きデータから算出したりすることができる。
【0025】
なお、本実施形態に係る以下の説明においては、人体スケルトン型動きデータのことを単に「動きデータ」と称する。
【0026】
以下、図1に示される映像コンテンツ生成システム1に含まれるメタデータ構築装置10の各部について順次説明する。
【0027】
[動き解析部]
動き解析部11は、動きデータベース2から動きデータを取得し、取得した動きデータを解析して動き特徴量を取得し、取得した動き特徴量をデータベース12に格納する。動き解析部11は、動きデータベース2に蓄積される全ての動きデータを対象にする。この動き解析部11の処理は、実際に映像コンテンツを生成する段階の前に、事前の準備段階として行われる。
【0028】
図3は、図1に示す動き解析部11の構成を示すブロック図である。図3において、動き解析部11は、ビート抽出部31、ビート情報記憶部32、盛り上がり算出部33、盛り上がり情報記憶部34及びモーショングラフ生成部35を有する。本実施形態では、モーショングラフ生成部35がモーショングラフ構築部およびメタデータ構築部として動作する。
【0029】
[ビート抽出部]
ビート抽出部31は、入力された動きデータからビート時刻を検出する。ここで、動きデータのビート時刻は反復的な動きの方向又は強度が変化する時刻である、と定義する。例えば、ダンスなどの動きでは拍子を打つタイミングが相当する。ビート抽出部31は、入力された動きデータを短時間の動きデータに分割し、分割した動き区間から主成分分析によってビート時刻を検出する。
【0030】
以下、本実施形態のビート抽出部31によるビート時刻検出処理について説明する。図4は、図3に示すビート抽出部31の構成を示すブロック図である。図4において、ビート抽出部31は、物理量変換部311、データ分割部312、短時間主成分分析部313、主成分座標連結部314、ビート推定部315及び後処理部316を有する。
【0031】
[物理量変換部]
物理量変換部311は、入力された動きデータにおいて、時刻tにおけるジョイント相対位置を算出する。ジョイント相対位置は、ルートに対するジョイントの相対的な位置である。
【0032】
ここで、ジョイント相対位置の算出方法を説明する。
まず、人体スケルトン型角度情報データ内の基本ポーズデータとフレームデータを用いて、ジョイント位置を算出する。基本ポーズデータは、基本ポーズのときのルートの位置及び各ジョイントの位置、並びに各骨の長さなど、基本ポーズを特定する情報を有する。フレームデータは、ジョイント毎に、基本ポーズからの移動量の情報を有する。ここでは、移動量として角度情報を利用する。この場合、時刻tにおけるk番目のジョイントの位置p(t)は、(1)式および(2)式により算出される。p(t)は3次元座標で表される。なお、時刻tはフレームデータの時刻である。本実施形態では、時刻tを単に「フレームインデックス」として扱う。これにより、時刻tは、0,1,2,・・・,T−1の値をとる。Tは、動きデータに含まれるフレームの個数である。
【0033】
【数1】

【0034】
【数2】

【0035】
但し、0番目(i=0)のジョイントはルートである。Raxisi−1,i(t)は、i番目のジョイントとその親ジョイント(「i−1」番目のジョイント)間の座標回転マトリックスであり、基本ポーズデータに含まれる。各ジョイントにはローカル座標系が定義されており、座標回転マトリックスは親子関係にあるジョイント間のローカル座標系の対応関係を表す。R(t)は、i番目のジョイントのローカル座標系におけるi番目のジョイントの回転マトリックスであり、フレームデータに含まれる角度情報である。T(t)は、i番目のジョイントとその親ジョイント間の遷移マトリックスであり、基本ポーズデータに含まれる。遷移マトリックスは、i番目のジョイントとその親ジョイント間の骨の長さを表す。
【0036】
次いで、時刻tにおける、ルートに対するk番目のジョイントの相対位置(ジョイント相対位置)p’(t)を(3)式により算出する。
【0037】
【数3】

【0038】
但し、proot(t)は時刻tにおけるルート(0番目のジョイント)の位置(p(t))である。
【0039】
これにより、時刻tのフレーム「x(t)」は、「x(t)={p’(t),p’(t),・・・,p’(t)}」と表される。但し、Kは、ルートを除いたジョイントの個数である。
【0040】
[データ分割部]
データ分割部312は、ジョイント相対位置データを、一定時間の区間に分割する。データ分割部312は、各ジョイントのジョイント相対位置データ「p’(t)」に対して、それぞれデータ分割処理を行う。図5にデータ分割処理の概念を示す。データ分割処理では、ジョイント相対位置データを一定時間(一定数のフレーム分に対応)の区間に分割する。分割区間の長さは、適宜、設定可能である。分割区間の長さは、例えば、1フレーム当たりの時間の60倍である。
【0041】
[短時間主成分分析部]
短時間主成分分析部313は、データ分割部312によって分割されたジョイント相対位置データに対し、各区間で主成分分析処理を行う。ここで、時刻tのフレーム「x(t)」を用いて、一区間のデータ「X」を「X={x(t1),x(t2),・・・,x(tN)}と表す。但し、Nは区間長(区間内に含まれるフレームの個数)である。Xは、M行N列の行列である(但し、M=3×K)。
【0042】
主成分分析処理では、Xに対して主成分分析処理を行い、Xを主成分空間へ変換する。
【0043】
ここで、主成分分析方法を説明する。
まず、(4)式により、Xから平均値を除いたN行M列の行列Dを算出する。
【0044】
【数4】

【0045】
次いで、(5)式により、N行M列の行列Dに対して特異値分解(Singular Value Decomposition)を行う。
【0046】
【数5】

【0047】
但し、Uは、N行N列のユニタリ行列である。Σは、N行M列の負でない対角要素を降順にもつ対角行列であり、主成分空間の座標の分散を表す。Vは、M行M列のユニタリ行列であり、主成分に対する係数(principal component)である。
【0048】
次いで、(6)式により、N行M列の行列Dを主成分空間へ変換する。M行N列の行列Yは、主成分空間の座標を表す。
【0049】
【数6】

【0050】
短時間主成分分析部313は、区間毎に、主成分空間の座標を表す行列(主成分座標行列)Yと、主成分に対する係数の行列(主成分係数行列)Vをメモリに保存する。
【0051】
なお、元空間の座標を表す行列Xと主成分座標行列Yは、(6)式と(7)式により相互に変換することができる。
【0052】
【数7】

【0053】
また、上位のr個の主成分によって、(8)式により変換することができる。
【0054】
【数8】

【0055】
但し、Vは、主成分係数行列V内の上位のr個の行から成るM行r列の行列である。Yは、主成分座標行列Y内の上位のr個の列から成るr行N列の行列である。Xは、復元されたM行N列の行列である。
【0056】
なお、元空間の一部の自由度だけを主成分分析処理することも可能である。例えば、足の動きだけでビートを表現することができる場合には、足に関するジョイント相対位置データのみから生成したM’行N列の行列X’に対して、(4)式、(5)式及び(6)式により主成分分析処理を行う。
【0057】
[主成分座標連結部]
主成分座標連結部314は、各区間の主成分の座標を、時系列に沿って連結する。この主成分座標連結部314が行う主成分座標連結処理では、連続する2つの区間の境界部分において、主成分の座標が滑らかに連結されるように、主成分の座標を調整する。
【0058】
図6に、本実施形態に係る主成分座標連結処理を説明するための概念図を示す。本実施形態では、時系列に従って、先頭の区間から順番に主成分座標連結処理を行ってゆく。図6において、ある区間(前区間)までの主成分座標連結処理が終了している。そして、その前区間に対して、次の区間(当区間)を連結するための主成分座標連結処理を行う。この主成分座標連結処理では、前区間の主成分座標に対し、当区間の主成分座標が滑らかに連結されるように、当区間の主成分座標を調整する。この主成分座標の調整処理では、主成分選択ステップによって選択された当区間の主成分座標(元座標)に対し、符号反転又は座標シフトを行う。
【0059】
ここで、主成分座標連結処理を説明する。
【0060】
主成分座標連結ステップS11:当区間の主成分の座標(第1主成分の元座標)Yに対し、当区間の主成分係数行列Vから、第1主成分に対する係数Vを取得する。さらに、メモリに保存されている前区間の主成分係数行列Vから、第1主成分に対する係数Vpreを取得する。
【0061】
主成分座標連結ステップS12:当区間に係る第1主成分に対する係数Vと前区間に係る第1主成分に対する係数Vpreとの関係に基づいて、当区間に係る第1主成分の元座標を符号反転するか否かを判定する。この符号反転の判定は、(9)式により行う。(9)式による判定の結果、符号反転する場合には、当区間の第1主成分の元座標Yに対して符号反転を行うと共に、当区間の主成分係数行列Vに対しても符号反転を行う。一方、(9)式による判定の結果、符号反転しない場合には、当区間の第1主成分の元座標Y及び当区間の主成分係数行列Vともに、そのままの値を主成分座標連結ステップS12の処理結果とする。
【0062】
【数9】

【0063】
但し、Yは、当区間で選択された主成分の座標(第1主成分の元座標)である。Vは、当区間の主成分係数行列である。Vは、当区間に係る第1主成分に対する係数である。Vpreは、前区間に係る第1主成分に対する係数である。(V・Vpre)は、VとVpreの内積である。Y’は、当区間で選択された主成分の座標(第1主成分の元座標)Yに対する主成分座標連結ステップS12の処理結果である。V’は、当区間の主成分係数行列Vに対する主成分座標連結ステップS12の処理結果である。
【0064】
主成分座標連結ステップS13:主成分座標連結ステップS12の処理結果の主成分座標Y’に対し、座標シフトを行う。具体的には、(10)式により座標シフトを行う。この場合、前区間の主成分座標行列Yから、前区間の第tNフレームにおける第1主成分の座標Ypre(tN)を取得する。
【0065】
【数10】

【0066】
但し、Y’(t1)は、ステップS12の処理結果の主成分座標Y’のうち、第t1フレームの座標である。Y”(t2)は、(10)式の最初の計算式の計算結果の座標Y”のうち、第t2フレームの座標である。
(10)式の最初の計算式の計算結果の座標Y”に対し、第t1フレームの座標Y”(t1)をYopt(t1)に置き換える。この置き換え後の座標Y”が、座標シフト結果の座標である。
【0067】
主成分座標連結ステップS14:当区間において、主成分座標連結ステップS12の処理結果の座標Y’に対して、主成分座標連結ステップS13の処理結果の座標Yopt(t1)を反映する。これにより、当区間の主成分座標は、前区間の主成分座標に対して滑らかに連結されるものとなる。
【0068】
主成分座標連結部314は、上記した主成分座標連結処理を最初の区間から最後の区間まで行う。これにより、連結後の全区間の主成分座標「y(t)、t=0,1,2,・・・,T−1」が求まる。但し、Tは、動きデータに含まれるフレームの個数である。
【0069】
[ビート推定部]
ビート推定部315は、主成分座標連結部314によって算出された連結後の全区間の主成分座標y(t)から、極値b(j)を算出する。この算出結果の極値b(j)がビートに対応する。ビートの集合Bは、(11)式で表される。
【0070】
【数11】

【0071】
但し、Jは、ビートの個数である。
【0072】
なお、ビートの集合の算出は、上記した方法以外の方法でも可能である。
例えば、ビート推定部315は、主成分座標連結部314によって算出された連結後の全区間の主成分座標から自己相関値を算出し、該自己相関値の極値b(j)をビートに対応するものとして算出することができる。
また、ビート推定部315は、主成分座標連結部314によって、連結後の隣区間の主成分係数から算出した内積((9)式によるもの)の自己相関値を算出し、該自己相関値の極値b(j)をビートに対応するものとして算出することができる。
【0073】
[後処理部]
後処理部316は、ビート推定部315によって算出されたビート集合Bから、ビート時刻を検出する。
【0074】
ここで、ビート時刻検出処理を説明する。
まず、ビート集合B内の各極値間を、(12)式により正弦曲線(sinusoid)で近似する。
【0075】
【数12】

【0076】
但し、sj−1(t)は、(j−1)番目の極値b(j−1)からj番目の極値b(j)までの区間の正弦近似値である。tはフレームに対応する時刻であり、「t=0,1,2,・・・,T−1」である。Tは、動きデータに含まれるフレームの個数である。
【0077】
図7に、(12)式による正弦近似処理の概念図を示す。図7において、1番目の極値b(1)から2番目の極値b(2)までの区間a1(j=2の場合の区間)は、s(t)で近似される。同様に、2番目の極値b(2)から3番目の極値b(3)までの区間a2(j=3の場合の区間)はs(t)で近似され、3番目の極値b(3)から4番目の極値b(4)までの区間a3(j=4の場合の区間)はs(t)で近似され、4番目の極値b(4)から5番目の極値b(5)までの区間a4(j=5の場合の区間)はs(t)で近似される。
【0078】
次いで、正弦近似値「sj−1(t)、j=2,3,・・・,J」に対してフーリエ変換を行う。そのフーリエ変換処理には、所定のFFTポイント数Lのハン窓を用いたFFT(Fast Fourier Transform)演算器を使用する。そして、そのフーリエ変換の結果に基づいて、該フーリエ変換に係る周波数範囲のうちから最大の成分を有する周波数(最大成分周波数)fmaxを検出する。そして、ビート間隔TBを「TB=Fs÷fmax」なる計算式により算出する。但し、Fsは、1秒当たりのフレーム数である。
【0079】
次いで、正弦近似値「sj−1(t)、j=2,3,・・・,J」と、(13)式で定義される基準値「s’(t)」との間の最大相関初期位相を(14)式により算出する。
【0080】
【数13】

【0081】
【数14】

【0082】
次いで、(15)式により、ビート時刻eb(j)の集合EBを算出する。但し、EJは、ビート時刻eb(j)の個数である。
【0083】
【数15】

【0084】
以上が本実施形態のビート抽出部31によるビート時刻検出処理の説明である。
【0085】
ビート抽出部31は、上述のビート時刻検出方法によって、動きデータからビート時刻eb(j)の集合EBを算出する。さらに、ビート抽出部31は、(16)式により、動きのテンポを算出する。動きのテンポは、1分間当たりのビートの個数である。ここでは、1秒当たりのフレーム数は120である。
【0086】
【数16】

【0087】
但し、TBはビート間隔(秒)である。
【0088】
ビート抽出部31は、各動きデータについて、ビート時刻eb(j)の集合EBとテンポをビート情報記憶部32に格納する。このとき、ビート抽出部31が主成分分析処理を行った区間(主成分分析区間)とビート時刻eb(j)の対応関係を表す情報もビート情報記憶部32に格納する。これにより、あるビート時刻がどの主成分分析区間に属するのかが分かる。
【0089】
[盛り上がり算出部]
盛り上がり算出部33は、各動きデータについて、主成分分析区間ごとに、(17)式により、動きの盛り上がりを算出する。
【0090】
【数17】

【0091】
但し、Σは当該区間の主成分分析処理における負でない固有値を降順にもつ対角行列であり、主成分空間の座標の分散を表す。tr()は、対角行列の対角成分の和(matrix trace)である。
【0092】
盛り上がり算出部33は、各動きデータについて、各主成分分析区間の盛り上がりを盛り上がり情報記憶部34に格納する。
【0093】
[モーショングラフ生成部]
モーショングラフ生成部35は、各動きデータの、ビート時刻eb(j)の集合EB、テンポ及び盛り上がりを用いて、モーショングラフを生成する。モーショングラフについては非特許文献4に開示されている。モーショングラフは、ノード(頂点)群とノード間の連結関係を表すエッジ(枝)群とエッジの重みから構成される。エッジには双方向と単方向の2種類がある。
【0094】
図8は、本実施形態に係るモーショングラフの構成方法の全体の流れを示す概念図である。
動きデータベース2内の動きデータは、ジャンル別に分類される。動きデータベース2内の動きデータのジャンルは、予め設定される。そのジャンル分けは動きの特徴によって行われる。各動きデータには、所属するジャンルを示す情報が付加されている。モーショングラフ生成部35は、動きデータに付加されたジャンル情報によって、動きデータのジャンルを判別する。図8の例では、動きデータベース2内の動きデータは、n個のジャンルデータベース(ジャンル1DBからジャンルnDB)に分類される。
【0095】
モーショングラフ生成部35は、同じジャンルに属する動きデータについて、さらに、(18)式で算出される値iにより分類する。図8の例では、ジャンル2に属する動きデータは、m個のテンポデータベース(テンポ1DBからテンポmDB)に分類される。
【0096】
【数18】

【0097】
但し、QTempoはテンポの区間の長さである。TempoMotionは分類対象の動きデータに係るテンポである。TempoMotionminは分類対象のジャンル内で最小のテンポである。
【0098】
モーショングラフ生成部35は、同じジャンルに属する動きデータについて、さらに(18)式の算出値iで分類されたテンポデータベース毎に、モーショングラフを生成する。
【0099】
図9は、本実施形態に係るモーショングラフ生成方法の流れを示す概念図である。以下、図9を参照して、あるジャンルのあるテンポデータベース(テンポiDB)のモーショングラフを生成する手順を説明する。
【0100】
[ビートフレーム抽出ステップ]
まず、ビートフレーム抽出ステップでは、テンポiDBに属する全ての動きデータから、ビート時刻に該当するフレーム(ビートフレーム)を全て抽出する。この抽出されたビートフレームの集合をFiALLと表す。
【0101】
[連結性算出ステップ]
次いで、連結性算出ステップでは、集合FiALLに含まれる全ビートフレームを対象とした全てのペアについて、(19)式又は(20)式により距離を算出する。あるビートフレームFとあるビートフレームFとの距離をd(F,F)と表す。
【0102】
【数19】

【0103】
但し、qi,kはビートフレームFのk番目のジョイントの四元数(quaternion)である。wはk番目のジョイントに係る重みである。重みwは予め設定される。例えば、重みwの例としては図10に示すとおりである。図10はジョイント毎に予め定めた重みを示した図である。図示する例では、Right and Left Hipの重みは1.0000である。また、Right and Left Kneeの重みは0.0901である。また、Right and Left Shoulderの重みは0.7884である。また、Right and Left Elbowの重みは0.0247である。
【0104】
【数20】

【0105】
但し、pi,kはビートフレームFのk番目のジョイントのルートに対する相対位置のベクトルである。つまり、pi,kは、ルートの位置と方向は考えずに算出したビートフレームFのk番目のジョイントの位置のベクトルである。
【0106】
なお、ビートフレーム間の距離は、対象ビートフレームにおけるポーズを構成する各ジョイントの位置、速度、加速度、角度、角速度、角加速度などの物理量の差分の重み付き平均として算出することができる。
【0107】
次いで、連結性算出ステップでは、(21)式により、連結性を算出する。あるビートフレームFとあるビートフレームFとの連結性をc(F,F)と表す。
【0108】
【数21】

【0109】
但し、d(F)はビートフレームFの前フレームと後フレームの間の距離である((19)式又は(20)式と同様の計算式で算出する)。THは予め設定される閾値である。
【0110】
連結性c(F,F)が1である場合、ビートフレームFのポーズとビートフレームFのポーズは似ていると判断できる。連結性c(F,F)が0である場合、ビートフレームFのポーズとビートフレームFのポーズは似ているとは判断できない。
【0111】
[モーショングラフ構築ステップ]
次いで、モーショングラフ構築ステップでは、まず、集合FiALLに含まれる全ビートフレームをそれぞれ、モーショングラフのノードに設定する。従って、モーショングラフのノード数の初期値は、集合FiALLに含まれるビートフレームの個数に一致する。
【0112】
次いで、連結性c(F,F)が1である場合、ビートフレームFのノードとビートフレームFのノードの間に双方向のエッジを設ける。連結性c(F,F)が0である場合には、ビートフレームFのノードとビートフレームFのノードの間に双方向のエッジを設けない。
【0113】
次いで、同じ動きデータの中で隣接するビートフレーム間には、単方向のエッジを設ける。単方向のエッジは、時間的に前のビートフレームのノードから後のビートフレームのノードへ向かう。
【0114】
次いで、双方向のエッジに対する重みを算出する。ビートフレームFのノードとビートフレームFのノードの間の双方向エッジに対する重みは、(22)式により算出する。
【0115】
【数22】

【0116】
但し、rdは(21)式で算出したものである。
【0117】
次いで、単方向のエッジに対する重みを算出する。ビートフレームFのノードとビートフレームFのノードの間の単方向エッジに対する重みは、次の(a),(b)のいずれかの方法で値を決定する。
(a)ビートフレームFとビートフレームFが同じ主成分分析区間に属する場合、当該主成分分析区間の盛り上がりを重みに用いる。
(b)ビートフレームFとビートフレームFが異なる主成分分析区間に属する場合、ビートフレームFが属する主成分分析区間の盛り上がりとビートフレームFが属する主成分分析区間の盛り上がりを平均した値を重みに用いる。
【0118】
次いで、双方向エッジの両端のノード(ビートフレーム)に係る動きデータに対して、ブレンディング(blending)処理を行う。ブレンディング処理は、双方向エッジの方向ごとに、それぞれ行う。従って、一つの双方向エッジに対して、図11(1),(2)に示されるように、2つのブレンディング処理を行うことになる。図11は、ビートフレームiのノードとビートフレームjのノードの間の双方向エッジに係るブレンディング処理の概念図である。図11(1)はビートフレームiのノードからビートフレームjのノードへ向かう方向に係るブレンディング処理を表し、図11(2)はビートフレームjのノードからビートフレームiのノードへ向かう方向に係るブレンディング処理を表す。
【0119】
図12は、ブレンディング処理を説明する概念図であり、図11(1)に対応している。ここでは、図12を参照し、図11(1)に示されるビートフレームiのノードからビートフレームjのノードへ向かう方向に係るブレンディング処理を例に挙げて説明する。
【0120】
ブレンディング処理では、ビートフレームiを有する動きデータ1とビートフレームjを有する動きデータ2に対して、動きのつながりが不自然にならないように、両者の動きデータの接続部分を混合した補間データ(ブレンディング動きデータ)1_2を生成する。本実施形態では、一定時間分のフレームを使用しクォータニオンによる球面線形補間を利用して連結部分を補間する。具体的には、動きデータ1と動きデータ2を接続する接続区間(区間長m、但し、mは所定値)のブレンディング動きデータ1_2を、動きデータ1のうち最後の区間長mのデータ1_mと動きデータ2のうち最初の区間長mのデータ2_mを用いて生成する。このとき、接続区間の区間長mに対する接続区間の先頭からの距離uの比(u/m)に応じて、データ1_mのうち距離uに対応するフレームiとデータ2_mのうち距離uに対応するフレームjを混合する。具体的には、(23)式および(24)式により、ブレンディング動きデータ1_2を構成する各フレームを生成する。なお、(23)式は、ある一つの骨についての式となっている。
【0121】
【数23】

【0122】
【数24】

【0123】
但し、mはブレンディング動きデータ1_2を構成するフレーム(ブレンディングフレーム)の総数(所定値)、uはブレンディングフレームの先頭からの順番(1≦u≦m)、qはu番目のブレンディングフレームにおける骨の四元数、q(k,u)はフレームiにおける第uフレームの第k骨の四元数、q(k,u)はフレームjにおける第uフレームの第k骨の四元数、q(k,u)はブレンディングフレームにおける第uフレームの第k骨の四元数である。但し、ルートにはブレンディングを行わない。なお、(24)式はslerp(spherical linear interpolation)の算出式である。
【0124】
ブレンディング動きデータ1_2は、動きデータ1と動きデータ2の接続部分のデータとする。
【0125】
次いで、ノードのウェート(ノードの重み、楽曲との同期可能性を示すメタデータ)を算出する。ノードのウェートは、自ノードの後に連結することができるノードの数を示す。ノードのウェートにより、ノードをTYPE1、TYPE2、TYPE3の三種類に分類することができる。
【0126】
TYPE1に分類されるノードは、自ノードの後に無限大にノードを連結することができるノードである。TYPE1に分類されるノードのウェートは無限大である。例えば、ループに含まれているノードや、ループに含まれているノードを連結することができるノードは、このループに含まれているノードを自ノードの後に連結することができるので、無限大にノードを連結することができる。
【0127】
TYPE2に分類されるノードは、末端ノードおよび付属ノードである。末端ノードは、自ノードの後にノードを連結することができないノードである。例えば、双方向エッジと片方向エッジとが無いノードである。末端ノードのウェートは0である。付属ノードは、片方向エッジのみが末端ノードあるいは付属ノードに連結するノードである。付属ノードのウェートは、子供ノード(自ノードの直後に連結しているノード)のウェートに1を加算した値である。
【0128】
TYPE3に分類されるノードは、TYPE1およびTYPE2の何れにも分類されないノードである。TYPE3に分類されるノードは、後述する同期処理では使用しない。
【0129】
例えば、図9に示したノード901〜921のうち、TYPE1に分類されるノードは、ノード901〜906,908〜913,915〜917である。これらのノードのウェートは無限大である。また、ノード901〜921のうち、TYPE2に分類されるノードは、ノード907,914,918〜921である。ノード907,914は末端ノードであり、ウェートは0である。ノード918〜920は付属ノードであり、ノード920のウェートは1であり、ノード919のウェートは2であり、ノード918のウェートは3である。
【0130】
ここで、ノードのウェートの算出処理を説明する。
【0131】
ノードウェート算出ステップS21:モーショングラフのノードのうち、ループに含まれているノードや、ループに含まれているノードを連結することができるノードをTYPE1のノードに特定する。その後、ノードウェート算出ステップS22の処理を行う。
【0132】
ノードウェート算出ステップS21において、例えば、図13に示す処理を行い、ループを特定する。
(ステップS101)全てのノードの色を「白」とする。その後、ステップS102の処理に進む。
(ステップS102)当ノードuの色を「グレー」とする。その後、ステップS103の処理に進む。
(ステップS103)子ノードvがある場合にはステップS106の処理に進み、それ以外の場合にはステップS104の処理に進む。
(ステップS104)当ノードuの色を「黒」とする。その後、ステップS105の処理に進む。
(ステップS105)当ノードuを親ノードとする。その後、ステップS103の処理に戻る。
(ステップS106)ノードvの色が「白」である場合にはステップS107の処理に進み、それ以外の場合にはステップS109の処理に進む。
(ステップS107)ノードvの親をノードuとする。その後、ステップS108の処理に進む。
(ステップS108)当ノードuをノードvとする。その後、ステップS102の処理に戻る。
(ステップS109)ループがあると判定し、処理を終了する。
【0133】
ノードウェート算出ステップS22:TYPE1に分類されるノードを除いたモーショングラフのノードのうち、末端ノードおよび付属ノードを特定し、これらのノードをTYPE2に分類されるノードと特定する。その後、ノードウェート算出ステップS23の処理を行う。
【0134】
ノードウェート算出ステップS23:モーショングラフのノードのうち、TYPE1とTYPE2に分類されるノードを除いたノードをTYPE3に分類されるノードと特定する。その後、ノードウェート算出処理を終了する。
【0135】
以上のモーショングラフ構築ステップによって、あるジャンルのあるテンポデータベース(テンポiDB)のモーショングラフのデータが生成される。モーショングラフデータは、モーショングラフが有するノード(ビートフレーム)の情報と、ノード間のエッジ(双方向エッジまたは単方向エッジ)の情報(エッジの重みを含む)と、双方向エッジに対応する2方向分のブレンディング動きデータと、ノードのウェートとを有する。
【0136】
モーショングラフ生成部35は、各ジャンルのテンポデータベースごとに生成したモーショングラフデータをデータベース12に格納する。これにより、データベース12には、各ジャンルのテンポデータベースごとに、モーショングラフデータが格納される。
【0137】
以上がメタデータ構築装置10に係る説明である。メタデータ構築装置10の処理はオフラインで実行され、データベース12が構築される。このデータベース12を用いて、映像コンテンツ生成装置20のオンライン処理が行われる。以下、映像コンテンツ生成装置20のオンライン処理を説明する。
【0138】
映像コンテンツ生成装置20は、ストリーミング方式で配信される映像コンテンツ生成対象の楽曲の音楽データに同期した映像データを生成し、音楽データと映像データとを再生する。図14は、ストリーミング方式で配信される音楽データと、生成した映像データの流れを示した概念図である。映像コンテンツ生成装置20は、ストリーミング方式で配信される音楽データをストリーミングデータ記憶部19(buffer1)に蓄積する。また、映像コンテンツ生成装置20は、音楽データ記憶部21(buffer2)に一定時間(例えば、10秒間)再生分の音楽データが蓄積されるまで、ストリーミングデータ記憶部19に蓄積した音楽データのうち、楽曲の最初から1ビート分ずつ音楽データを音楽データ記憶部21に移動させる。
【0139】
映像コンテンツ生成装置20は、音楽データ記憶部21に一定時間再生分の音楽データが蓄積された場合、音楽データ記憶部21に蓄積された一定期間再生分の音楽データに同期した映像データを生成する。そして、映像コンテンツ生成装置20は、一定期間再生分の音楽データのうち最初の1ビート分の音楽データを映像コンテンツ記憶部28(buffer3)に移動させ、さらに、生成した映像データのうち最初の1ビート分の音楽データに同期した映像データを、移動させた音楽データに関連付けて映像コンテンツ記憶部28に記憶する(同期処理を行う)。これにより、1ビート分の音楽データが音楽データ記憶部21から映像コンテンツ記憶部28に移動するため、この時点では、音楽データ記憶部21に蓄積されている音楽データは、一定期間再生分の音楽データよりも1ビート分少ない。
【0140】
その後、映像コンテンツ生成装置20は、音楽データ記憶部21に蓄積されている音楽データが一定期間再生分の音楽データよりも1ビート分少ないため、ストリーミングデータ記憶部19に蓄積した音楽データのうち、最初の1ビート分の音楽データを音楽データ記憶部21に移動させる。これにより、音楽データ記憶部21には一定時間再生分の音楽データが蓄積される。映像コンテンツ生成装置20は、音楽データ記憶部21に一定時間再生分の音楽データが蓄積されたため、音楽データ記憶部21に蓄積された一定期間再生分の音楽データに同期した映像データを生成し、一定期間再生分の音楽データのうち最初の1ビート分の音楽データと、生成した映像データのうち最初の1ビート分の音楽データに同期した映像データとを映像コンテンツ記憶部28に記憶する。この処理を繰り返すことにより、映像コンテンツ生成装置20は、1ビート毎に、一定時間再生分の音楽データに同期した映像データを生成し、一定期間再生分の音楽データのうち最初の1ビート分の音楽データと、生成した映像データのうち最初の1ビート分の音楽データに同期した映像データとを関連付けて映像コンテンツ記憶部28に記憶する。
【0141】
また、映像コンテンツ生成装置20は、上述した同期処理を繰り返しながら、映像コンテンツ記憶部28が関連付けて記憶する音楽データと映像データとを再生する。
【0142】
このように、映像コンテンツ生成装置20は、音楽データと映像データとを再生しつつ、音楽データの配信が完了するまで、1ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行う。従って、一曲分の音楽データの配信が完了するまで待機することなく、音楽データと、この音楽データに同期した映像データとを再生することができる。さらに、1ビート毎に同期処理を行うため、より音楽データに合致した映像データを生成することができる。
【0143】
以下、図1に示される映像コンテンツ生成システム1に含まれる映像コンテンツ生成装置20の各部について順次説明する。
【0144】
[ストリーミングデータ記憶部]
映像コンテンツ生成装置20には、映像コンテンツ生成対象の楽曲の音楽データが、ストリーミング方式で楽曲ファイル3から配信(入力)される。ストリーミングデータ記憶部19は、ストリーミング方式で配信される音楽データを蓄積(記憶)する。
【0145】
[音楽データ記憶部]
音楽データ記憶部21は、一定時間(例えば、10秒間)再生分の音楽データを蓄積する。音楽データ記憶部21に一定時間再生分の音楽データが蓄積されていない場合、ストリーミングデータ記憶部19に蓄積されている音楽データを、最初から1ビート分ずつ音楽データ記憶部21に移動させる。
【0146】
[音楽解析部]
音楽解析部22は、音楽データ記憶部21に一定時間再生分の音楽データが蓄積された場合、音楽データ記憶部21に蓄積されている一定時間再生分の音楽データを読み出して解析することにより音楽特徴量を取得する。本実施形態では、非特許文献2に記載の技術を用いて、一定時間再生分の音楽データから、ビート間隔及びビート時刻を取得する。また、本実施形態では(25)式により、一定時間再生分の音楽データの盛り上がりを算出する。
【0147】
【数25】

【0148】
但し、s(I,j)は楽曲の第j channelの第i個信号であり、N(k)は第k segmentの楽曲信号の数であり、Wは固定長さ(例えば、2)であり、I(k)は第k segmentの盛り上がりである。
【0149】
さらに、音楽解析部22は、(26)式により、音楽のテンポを算出する。音楽のテンポは、1分間当たりのビートの個数である。
【0150】
【数26】

【0151】
但し、TBmusicはビート間隔(秒)である。
音楽解析部22は、一定時間再生分の音楽データのビート間隔、ビート時刻、テンポおよび盛り上がりを音楽特徴量として音楽解析データ記憶部212に格納する。また、音楽解析部22は、一定時間再生分の音楽データを映像コンテンツ記憶部28に格納する。
【0152】
[最適パス探索部]
まず、最適パス探索部24は、メタデータ構築装置10が有するデータベース12内のモーショングラフデータの中から、映像コンテンツ生成対象の楽曲に合ったモーショングラフデータを選択する。この選択では、映像コンテンツ生成対象の楽曲に合ったジャンルのモーショングラフデータの中から、映像コンテンツ生成対象の楽曲のテンポに合ったモーショングラフデータを選択する。映像コンテンツ生成対象の楽曲に合ったジャンルは、利用者から入力してもらう、又は予め設定しておく。
【0153】
具体的には、最適パス探索部24は、音楽解析部22が解析した音楽のテンポと該選択したジャンルのモーショングラフデータの中で最小のテンポを上記(18)式にあてはめて計算を行う。次いで、最適パス探索部24は、利用者から入力された又は予め設定されたジャンルのモーショングラフデータの中から、その(18)式の算出値iに対応するモーショングラフデータを選択する。
【0154】
次いで、最適パス探索部24は、選択したモーショングラフデータと、音楽解析部22が解析した(音楽解析データ記憶部23が記憶する)音楽特徴量とを用いて、モーショングラフのノードを連結する最適なパスを探索する。以下、最適パスの探索方法を説明する。
【0155】
[始点選択ステップ]
始点選択ステップでは、モーショングラフ内のノードから、映像コンテンツの動きの始点となるノードの候補(始点候補ノード)を選択する。始点候補ノードには、モーショングラフ内のノードであって、各動きデータの最初のビートフレームに対応するノードを全て抽出する。従って、始点候補ノードは、通常、複数ある。
【0156】
[最適パス探索ステップ]
次いで、最適パス探索ステップでは、モーショングラフ上の始点候補ノードからの最適パスを始点候補ノード毎に探索し、各始点候補ノードに係る最適パスの中から最小コストのパスを選択する。このパス探索方法には、非特許文献5に記載されるパス探索技術を用いる。非特許文献5に記載されるパス探索技術は、ある始点からダイナミックプログラミングで最適なパスを探索するものである。このパスの検索方法をDynamic Programming更新方式と呼ぶ。以下、Dynamic Programming更新方式を用いた最適パス探索ステップの詳細を説明する。
【0157】
まず、ある始点候補ノードuからモーショングラフ上の全てのノードiまでの各パスのコストを(27)式により初期化する。この操作を第0回の最短パス算出操作と呼ぶ。
【0158】
【数27】

【0159】
但し、InitSは複数の始点の集合である。
【0160】
次いで、第1回目以降の第k回の最短パス算出操作では、(28)式により、始点候補ノードuからモーショングラフ上の全てのノードvまでの最適パスのコストを算出する。
【0161】
【数28】

【0162】
但し、Vはモーショングラフ上のノードの集合である。shortestPath(v,k)は、第k回の最短パス算出操作による、始点候補ノードuからノードvまでの最適パスのコストである。edgeCost(i,v)はノードiからノードvまでのエッジコストである。エッジコストの計算式は(30)式である。
【0163】
この(28)式を用いた第1回目以降の最短パス算出操作は、第K回まで繰り返し行う。但し、Kは映像コンテンツ生成対象である一定時間再生分の音楽データに含まれるビート数である。一定時間再生分の音楽データに含まれるビート数Kは、一定時間再生分の音楽データのビート時刻の総数に等しい。一定時間再生分の音楽データのビート時刻は、音楽解析データ記憶部212に格納されているので、その格納数を数えることによってビート数Kを求めることができる。
【0164】
上記(27)式および(28)式を用いた最短パス算出操作を、全ての始点候補ノードに対してそれぞれに行う。次いで、全ての始点候補ノードに係る第K回の最短パス算出操作結果から、(29)式により、最小コストのパスを選択する。
【0165】
【数29】

【0166】
shortestPath(v,K)は、第K回の最短パス算出操作による、始点候補ノードuからノードvまでの最適パスのコストである。shortestPath(K)は、最小コストのパス(始点ノードuから終点ノードvまでのパス)のコストである。
【0167】
但し、THは音楽が終了するまでのビート数である。THの推定方法としては、例えば、1秒間に含まれるビート数を算出し、音楽が終了するまでの残り時間(終了までの音楽の長さ)を、1秒間に含まれるビート数で割ることで推定する方法がある。なお、音楽が終了するまでのビート数(音楽の長さ)が分からなければ、THを無限大に設定する。
【0168】
(29)式より、最小コストのパスに含まれるノードのウェートw(v)は、音楽が終了されるまでのビート数以上である条件(条件w(v)>=TH)を満たすので、音楽の途中で動きデータの連続性が途切れることが無くなる。例えば、音楽が終了するまでのビート数THが不明の場合、最小コストのパスに含まれるノードのウェートは、常に無限大である。
【0169】
エッジコストは、(30)式により、毎回計算される。
【0170】
【数30】

【0171】
最適パス探索ステップでは、上記(29)式によって選択された最小コストのパスを探索結果の最適パスとする。この最適パスに含まれるK個のノードは、1個の始点ノードuと、(K−2)個の経由ノードiと、1個の終点ノードvである。ここで、始点候補ノードは、通常、複数あるので、上記探索結果の最適パスは始点候補ノードの数と同じ数だけある。それら最適パスの中から、コストが一番小さいパスとその始点を最終結果の最適パスとして選択する。この最終結果の最適パスに含まれるK個のノードは、1個の最適始点ノードuoptと、(K−2)個の経由ノードioptと、1個の終点ノードvoptである。
【0172】
[同期部]
同期部25は、最適パス探索部24が探索した最適パスに従って、動きデータと音楽データを対応付ける同期情報を生成する。以下、同期情報生成方法の詳細を説明する。
【0173】
まず、最適パス探索部24が探索した最適パスに含まれるK個のノード(1個の始点ノードuoptと、(K−2)個の経由ノードioptと、1個の終点ノードvopt)に対応するK個のビートフレーム(1個の始点ビートフレームと、(K−2)個の経由ビートフレームと、1個の終点ビートフレーム)について、最適パスの順番で隣り合うビートフレーム間の時間を求める。さらに、各隣接ビートフレーム間のフレームレートを求める。また、映像コンテンツ生成対象の楽曲のK個のビートについて、時間的に隣り合うビート間の時間を求める。
【0174】
次いで、楽曲のビート間隔に動きのビート間隔を等しくするように、(31)式により、動きのフレームレートを増減させる調整を行う。図15に、動きのフレームレートを調整する処理の概念図を示す。(31)式は、n番目のビートフレームと(n+1)番目のビートフレームの間のフレームレートを算出するための計算式である(但し、nは1から(K−1)までの自然数である)。
【0175】
【数31】

【0176】
但し、tmotionnode2は隣接ビートフレームのうち先のビートフレームの時刻、tmotionnode1は該隣接ビートフレームのうち後のビートフレームの時刻である。tmusicnode2は楽曲の隣接ビートのうち先のビートの時刻、tmusicnode1は該隣接ビートのうち後のビートの時刻である。rate_oldは元のフレームレートである。rate_newは調整後のフレームレートである。
【0177】
同期部25は、上記した同期情報生成方法によって、映像コンテンツの動きの始点となる1個の始点ビートフレームと、映像コンテンツの動きの終点となる1個の終点ビートフレームと、始点ビートフレームから終点ビートフレームに至るまでに経由する(K−2)個の経由ビートフレームと、各隣接ビートフレーム間の調整後のフレームレートとを得る。同期部25は、始点ビートフレームの情報と経由ビートフレームの情報と終点ビートフレームの情報と調整後のフレームレートの情報と該ビートフレーム間のブレンディング動きデータを同期情報として同期情報記憶部26に格納する。なお、ブレンディング動きデータは、最適パス探索部24の探索結果の最適パスに沿った方向のデータのみでよい。
【0178】
[映像データ生成部]
映像データ生成部27は、同期情報記憶部26に格納された同期情報に基づいて、映像コンテンツ生成対象の楽曲の音楽データとともに再生される映像データを生成する。具体的には、始点ビートフレームから経由ビートフレームを経由して終点ビートフレームに至るまでに必要な動きデータを動きデータベース2から取得する。
【0179】
次いで、取得した動きデータ間を連結する部分(双方向エッジに対応する部分)に対してブレンディング動きデータで置換する。このとき、動きデータの連結部分において、動きデータのルート座標と方向の平行移動を行う。動きデータが連結される際に各動きデータのルート座標は、各動きデータに独自のローカル座標のままである。このままでは、連結後の動きデータの再生画像は、ルート座標が整合されていないために、スムーズな動きにならない。このため、動きデータの連結部分において、後の動きデータのルート座標を前の動きデータの最後のフレームで表現している位置へオフセットする。これにより、動きデータの連結部分における補間処理を行い、連結後の動きデータの再生画像がスムーズな動きとなるようにする。同様に、動きデータが連結される際に各動きデータのルート方向は、後の動きデータのルート方向を前の動きデータの最後のフレームで表現している方向へオフセットする。
【0180】
次いで、連結された動きデータに対して、各隣接ビートフレーム間の調整後のフレームレートの情報を付加する。映像データ生成部27は、音楽データ記憶部21に蓄積されている一定期間再生分の音楽データのうち最初の1ビート分の音楽データを映像コンテンツ記憶部28に移動させ、さらに、生成した映像データのうち最初の1ビート分の音楽データに同期した映像データを、移動させた音楽データに関連付けて映像コンテンツ記憶部28に記憶させる。
【0181】
[再生部]
再生部29は、映像コンテンツ記憶部28に関連付けて格納された映像データと音楽データとを、ともに再生する。このとき、再生部29は、映像データに付加されたフレームレートの情報に従って、隣接ビートフレーム間のフレームレートを設定する。これにより、映像データと音楽データは、互いのビートが同期して再生される。なお、再生部29は、映像コンテンツ生成装置20とは独立した装置であってもよい。
【0182】
上述した各部の処理により、音楽データに合った映像データを生成し、音楽データと映像データとを同期して再生することができる。なお、本実施形態では、最適パス探索部24は、新たな1ビート分の音楽データが音楽データ記憶部21に蓄積される毎に上記のDynamic Programming更新方式を用いて最適なパスを検索するのではなく、新たに蓄積された音楽データの条件によっては、既に決定した最適なパスに、この最適なパスに含まれる最終ノードと、新たに蓄積された音楽データに対応するモーショングラフのノードとを連結する最適なパスを追加する方法を用いる。この処理によってモーショングラフの最適なパスを決定する方式を快速決定方式と呼ぶ。
【0183】
次に、本実施形態においてモーショングラフの最適なパスを決定する方法の具体例について説明する。図16は、Dynamic Programming更新方式で決定した、モーショングラフの最適なパスを示した概略図である。図示する例では、ビート1〜5が示されており、各ビート毎に、3つのノード(上段ノード、中段ノード、下段ノード)が示されている。また、各ノードにはコストが示されている。具体的には、ビート2の上段ノードのコストは「N」であり、ビート2の中段ノードのコストは「2」であり、ビート2の下段ノードのコストは「3」である。他のノードのコストは図示するとおりである。なお、コスト「N」のノードは、映像コンテンツ記憶部28に記憶されているノードからは接続不可能なノードであることを示している。また、ビート1に対応するノードは映像コンテンツ記憶部28に蓄積されている。また、音楽データ記憶部21には一定時間再生分の音楽データとして、ビート2〜5の4ビート分の音楽データが蓄積されている。また、図示する例では、ビート1の上段ノード、ビート2の中段ノード、ビート3の下段ノード、ビート4の上段ノード、ビート5の中段ノードが最適なパスとして算出されている。
【0184】
最適なパスを決定後、音楽データ記憶部21に蓄積されている最初の1ビート分の音楽データ(ビート2)を映像コンテンツ記憶部28に移動させ、さらに、生成した映像データのうち最初の1ビート分の音楽データに同期した映像データ(ビート2の中段ノード)を、移動させた音楽データに関連付けて映像コンテンツ記憶部28に記憶する。これにより、1ビート分の音楽データが音楽データ記憶部21から映像コンテンツ記憶部28に移動するため、この時点では、音楽データ記憶部21に蓄積されている音楽データは、一定期間再生分の音楽データよりも1ビート分少ない。その後、映像コンテンツ生成装置20は、音楽データ記憶部21に蓄積されている音楽データが一定期間再生分の音楽データよりも1ビート分少ないため、ストリーミングデータ記憶部19に蓄積した音楽データのうち、最初の1ビート分の音楽データを音楽データ記憶部21に移動させる。
【0185】
図17および図18は、音楽データ記憶部21に新たに1ビート分(ビート6)の音楽データが蓄積された後のモーショングラフの最適なパスを示した概略図である。図示する例では、ビート1〜6が示されており、各ビート毎に、3つのノード(上段ノード、中段ノード、下段ノード)が示されている。また、各ノードにはコストが示されている。各ノードのコストは図示するとおりである。また、ビート1〜2に対応するノードは映像コンテンツ記憶部28に蓄積されている。また、音楽データ記憶部21には一定時間再生分の音楽データとして、ビート3〜6の4ビート分の音楽データが蓄積されている。なお、図17と図18とで異なる点は、新たに蓄積されたビート6に対応するノードのコストが異なる点である。
【0186】
音楽データ記憶部21に新たに1ビート分の音楽データが蓄積された場合、最適パス探索部24は、最適パスに含まれる最終ノード(ビート5の中段ノード)から新たに追加されたビートに対応するノードへの最小コスト(Cost_temp(opt))が、最終ノードの候補であったのノード(ビート5の上段ノードおよび下段ノード)から新たに追加されたビートに対応するノードへの最小コスト(Cost_temp(others))に係数(TH(t))を乗算した値よりも小さいか否かを判定する。そして、小さいと判定した場合には、快速決定方式を用いてモーショングラフの最適なパスを決定し、それ以外の場合にはDynamic Programming更新方式を用いてモーショングラフの最適なパスを決定する。すなわち、Cost_temp(others)<TH(t)×Cost_temp(others)の場合、最適パス探索部24は、快速決定方式を用いてモーショングラフの最適なパスを決定し、それ以外の場合にはDynamic Programming更新方式を用いてモーショングラフの最適なパスを決定する。なお、係数TH(t)の値は、予め決定していても良く、環境に応じて任意に設定できるようにしてもよい。
【0187】
図17に示した例では、最適なパスに含まれる最終ノード(ビート5の中段ノード)から新たに追加されたビートに対応するノードへの最小コストは「10」(ビート6の下段ノード)であり、最終ノードの候補であったノード(ビート5の上段ノードおよび下段ノード)から新たに追加されたビートに対応するノードへの最小コストは「11」(ビート6の中段ノード)である。ここで係数TH(t)を1とすると、Cost_temp(others)<TH(t)×Cost_temp(others)を満たすので、最適パス探索部24は、快速決定方式を用いてモーショングラフの最適なパスを決定する。すなわち、最適パス探索部24は、既に決定した最適なパスに、最適なパスに含まれる最終ノード(ビート5の中段ノード)と、新たに蓄積された音楽データに対応するモーショングラフのノードとを連結する最適なパスを追加する。これにより、この場合の最適なパスは、ビート1の上段ノード、ビート2の中段ノード、ビート3の下段ノード、ビート4の上段ノード、ビート5の中段ノード、ビート6の下段ノードとなる。
【0188】
図18に示した例では、最適なパスに含まれる最終ノード(ビート5の中段ノード)から新たに追加されたビートに対応するノードへの最小コストは「13」(ビート6の下段ノード)であり、最終ノードの候補であったノード(ビート5の上段ノードおよび下段ノード)から新たに追加されたビートに対応するノードへの最小コストは「12」(ビート6の中段ノード)である。ここで係数TH(t)を1とすると、Cost_temp(others)<TH(t)×Cost_temp(others)を満たしていないので、最適パス探索部24は、Dynamic Programming更新方式を用いてモーショングラフの最適なパスを決定する。すなわち、最適パス探索部24は、音楽データ記憶部21に蓄積されている音楽データを読み出し、最適なパスを検索する。
【0189】
図19は、図18に示したビート6が音楽データ記憶部21に蓄積された後に、Dynamic Programming更新方式で決定した、モーショングラフの最適なパスを示した概略図である。図示する例では、ビート1の上段ノード、ビート2の中段ノード、ビート3の下段ノード、ビート4の中段ノード、ビート5の下段ノード、ビート6の中段ノードが最適なパスとして算出されている。このように、音楽データ記憶部21に新たなビートが蓄積された場合、従来算出した最適なパスとは異なるパスがより最適なパスとして算出される場合がある。本実施形態では、音楽データと映像データとを再生しつつ、音楽データの配信が完了するまで、1ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行うため、より音楽データに合致した映像データを生成することができる。
【0190】
図20は、図19に示した最適なパスを決定した後のモーショングラフの最適なパスを示した概略図である。図示する例では、音楽データ記憶部21に蓄積されている最初の1ビート分の音楽データ(ビート3)を映像コンテンツ記憶部28に移動させ、さらに、生成した映像データのうち最初の1ビート分の音楽データに同期した映像データ(ビート3の下段ノード)を、移動させた音楽データに関連付けて映像コンテンツ記憶部28に記憶させた状態を示している。また、ストリーミングデータ記憶部19に蓄積した音楽データのうち、最初の1ビート分の音楽データ(ビート7)を音楽データ記憶部21に移動させた状態を示している。このように、映像コンテンツ生成装置20は、音楽データの配信が完了するまで、1ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行う。
【0191】
上述したとおり、本実施形態によれば、映像コンテンツ生成装置20は、音楽データと映像データとを再生しつつ、音楽データの配信が完了するまで、1ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行う。従って、一曲分の音楽データの配信が完了するまで待機することなく、音楽データと、この音楽データに同期した映像データとを再生することができる。さらに、1ビート毎に同期処理を行うため、より音楽データに合致した映像データを生成することができる。
【0192】
また、本実施形態では、音楽データ記憶部21に新たに1ビート分の音楽データが蓄積された場合、最適パス探索部24は、最適なパスに含まれる最終ノードから新たに追加されたビートに対応するノードへの最小コストが、最終ノードの候補であったノードから新たに追加されたビートに対応するノードへの最小コストに係数を乗算した値よりも小さいか否かを判定する。そして、小さいと判定した場合には、快速決定方式を用いてモーショングラフの最適なパスを決定し、それ以外の場合にはDynamic Programming更新方式を用いてモーショングラフの最適なパスを決定する。これにより、より最適なパスを検索しつつ、パスを検索する処理の処理量を減らすことができ、さらに、処理を高速化することができる。
【0193】
なお、本実施形態では、所定のビート数として1ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行う例を用いて説明したが、これに限らず、所定のビート数として複数ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行うようにしてもよい。例えば、音楽データ記憶部21が蓄積する容量(一定時間再生分)の半分の音楽データ毎に同期処理を行うようにしてもよい。具体的には、音楽データ記憶部21が蓄積する容量(一定時間再生分)が10ビート分の音楽データである場合には、5ビート分の音楽データ毎に、一定時間再生分の音楽データに基づいて同期処理を行ってもよい。
【0194】
また、通常時は1ビート分の音楽データ毎に一定時間再生分の音楽データに基づいて同期処理を行い、ストリーミングデータ記憶部19に蓄積される音楽データに基づいて再生される音楽のフェーズが変わる、あるいは音楽のサビの部分になった時、ビート数を増やし、一定時間再生分の音楽データに基づいて同期処理を行うようにしてもよい。なお、音楽のフェーズの変化やサビの部分の検出方法(音楽の解析方法)としては、図示せぬ移動量決定部が、従来知られている検出方法を用いて検出してもよい。また、音楽データのヘッダ等に、音楽のフェーズの変化やサビの部分のタイミングを示す情報を予め記憶するようにし、移動量決定部がこの情報を取得して検出するようにしてもよい。そして、移動量決定部は、検出した音楽の特徴の変化に基づいて、所定のビート数を変化させるようにしてもよい。
【0195】
なお、音楽データを所定時間で区切って、その一つ一つに対してモーションデータとの同期を行うこととしており、各区間で局所最適解に陥り、理想的に同期しない可能性があるため、本特許では、同期処理する区間をより短い時間(例えばビート)ずつずらしながら、局所最適解となるのを避けることはできる。
【0196】
なお、本実施形態に係るメタデータ構築装置10および映像コンテンツ生成装置20は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図1に示されるメタデータ構築装置10および映像コンテンツ生成装置20の各部の機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。
【0197】
また、そのメタデータ構築装置10および映像コンテンツ生成装置20には、周辺機器として入力装置、表示装置等が接続されるものとする。ここで、入力装置とはキーボード、マウス等の入力デバイスのことをいう。表示装置とはCRT(Cathode Ray Tube)や液晶表示装置等のことをいう。
また、上記周辺機器については、メタデータ構築装置10および映像コンテンツ生成装置20に直接接続するものであってもよく、あるいは通信回線を介して接続するようにしてもよい。
【0198】
また、図1に示すメタデータ構築装置10および映像コンテンツ生成装置20が行う各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、映像コンテンツ生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0199】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0200】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、携帯端末が、メタデータ構築装置10の各部と、映像コンテンツ生成装置20の各部とを備える構成としてもよい。また、メタデータ構築装置10の各部と、映像コンテンツ生成装置20の各部と、映像コンテンツ記憶部28に記憶されている音楽データと映像データとを携帯端末などの他の装置に配信する配信部とを備えた映像コンテンツ配信装置として構成してもよい。
また、上述した実施形態では人の動きデータを扱ったが、本発明は各種の物体の動きデータに適用することができる。ここで、物体とは、人、動物、植物その他の生物、及び、生物以外の物(ロボット等)を含む。
【0201】
また、本発明は、3次元コンテンツの生成に利用することができる。
【符号の説明】
【0202】
1・・・映像コンテンツ生成システム、2・・・動きデータベース、3・・・楽曲ファイル、10・・・メタデータ構築装置、11・・・動き解析部、12・・・データベース、19・・・ストリーミングデータ記憶部、20・・・映像コンテンツ生成装置、21・・・音楽データ記憶部、22・・・音楽解析部、23・・・音楽解析データ記憶部、24・・・最適パス探索部、25・・・同期部、26・・・同期情報記憶部、27・・・映像データ生成部、28・・・映像コンテンツ記憶部、29・・・再生部、31・・・ビート抽出部、32・・・ビート情報記憶部、33・・・盛り上がり算出部、34・・・盛り上がり情報記憶部、35・・・モーショングラフ生成部、311・・・物理量変換部、312・・・データ分割部、313・・・短時間主成分分析部、314・・・主成分座標連結部、315・・・ビート推定部、316・・・後処理部

【特許請求の範囲】
【請求項1】
ストリーミング配信される楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成システムにおいて、
映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを記憶するデータベースと、
前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶部と、
前記ストリーミングデータ記憶部から、前記音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶部と、
前記音楽データ記憶部が記憶する前記所定量の音楽データから音楽特徴量を取得する音楽解析部と、
前記モーショングラフ上で、前記音楽データ記憶部が記憶する前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索部と、
前記最適パス探索部が探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期部と、
前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成部と、
前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶部と、
を備え、
前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第1のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第2のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加する
ことを特徴とする映像コンテンツ生成システム。
【請求項2】
前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された場合、前記第1のコストが、前記第2のコストに所定の係数を乗算した値以上の場合には、前記所定量の音楽データに基づいて前記パスを新たに検索し、それ以外の場合には、前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加する
ことを特徴とする請求項1に記載の映像コンテンツ生成システム。
【請求項3】
前記ストリーミングデータ記憶部が記憶する音楽データに基づいて再生される音楽の特徴を解析し、解析した結果に基づいて前記所定のビート数を決定する移動量決定部
を備えたことを特徴とする請求項1または請求項2のいずれか1項に記載の映像コンテンツ生成システム。
【請求項4】
前記移動量決定部は、前記ストリーミングデータ記憶部が記憶する音楽データに基づいて再生される音楽のフェーズが変化した時、或いはサビになった時、前記所定のビート数を増やし、それ以外の場合には前記所定のビート数を1ビートとする
ことを特徴とする請求項3に記載の映像コンテンツ生成システム。
【請求項5】
ストリーミング配信される楽曲に合わせた映像コンテンツを生成する映像コンテンツ生成装置において、
映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを取得する取得部と、
前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶部と、
前記ストリーミングデータ記憶部から、前記音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶部と、
前記音楽データ記憶部が記憶する前記所定量の音楽データから音楽特徴量を取得する音楽解析部と、
前記モーショングラフ上で、前記音楽データ記憶部が記憶する前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索部と、
前記最適パス探索部が探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期部と、
前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成部と、
前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶部と、
を備え、
前記最適パス探索部は、前記音楽データ記憶部に前記所定のビート数の音楽データが記憶された際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第1のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第2のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加する
ことを特徴とする映像コンテンツ生成装置。
【請求項6】
コンピュータに、
映像コンテンツに利用可能な動きデータと、動きの種類ごとに分類された動き特徴量群を格納するモーショングラフを取得する取得ステップと、
前記ストリーミング配信される音楽データを記憶するストリーミングデータ記憶ステップと、
前記ストリーミングデータ記憶ステップで記憶した前記音楽データから、当該音楽データを所定のビート数毎取得し、所定量の前記音楽データを記憶する音楽データ記憶ステップと、
前記音楽データ記憶ステップで記憶した前記所定量の音楽データから音楽特徴量を取得する音楽解析ステップと、
前記モーショングラフ上で、前記音楽データ記憶ステップで記憶した前記所定量の音楽データの音楽特徴量に対応する動き特徴量を有するノード群の中で該ノード群の最終ノードが一定の同期可能性を有するノード群を連結できるパスとして探索する最適パス探索ステップと、
前記最適パス探索ステップで探索した前記パスに応じた前記動きデータと前記所定量の音楽データとを対応付ける同期情報を生成する同期ステップと、
前記同期情報に基づいて、前記所定量の音楽データとともに再生される映像データを生成する映像データ生成ステップと、
前記所定量の音楽データのうち、前記所定のビート数の音楽データと、当該所定のビート数の音楽データとともに再生される前記映像データとを記憶する映像コンテンツ記憶ステップと、
を実行させ、
前記最適パス探索ステップでは、前記音楽データ記憶ステップで前記所定のビート数の音楽データを記憶した際に、前記パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第1のコストと、前記最終ノードの候補であった前記ノードから当該所定のビート数の音楽データに対応する前記ノードまでの第2のコストとの比に応じて、前記所定量の音楽データに基づいて前記パスを新たに検索する、または前記パスに、当該パスで特定される最終ノードから当該所定のビート数の音楽データに対応する前記ノードまでの前記パスを追加する処理を実行させる
ためのコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate


【公開番号】特開2012−83862(P2012−83862A)
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願番号】特願2010−227891(P2010−227891)
【出願日】平成22年10月7日(2010.10.7)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】