映像編集システム、映像処理装置、映像編集装置、映像処理方法、映像編集方法、プログラムおよびデータ構造

【課題】映像データもしくはその映像データに同期する他の映像データについて、その特徴量を映像データに同期して保持するメタデータを生成し、または、そのメタデータに基づいて映像データを編集する。
【解決手段】第１のビデオデータ１０１に同期する第２のビデオデータ１０２から映像処理装置１１０によってメタデータ１０３が生成される。メタデータ１０３は、第１のビデオデータ１０１に同期し、第２のビデオデータ１０２の特徴量を時間軸で管理しながら保持する。メタデータ１０３において抽出条件に合致する位置が映像編集装置１２０の位置探索部１２２によって探索され、エディットリスト１０４が生成される。エディットリスト１０４に従って、第１のビデオデータ１０１から映像抽出部１２３によって映像が抽出され、編集ビデオデータ１０５が生成される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像編集システムに関し、特に映像データにおける特徴量を示すメタデータを生成する映像編集システム、映像処理装置、または、そのメタデータに基づいて映像データを編集する映像編集装置、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムおよびこれらに用いられるデータ構造に関する。
【背景技術】
【０００２】
記録再生装置における記録形式の一つとして、ＱｕｉｃｋＴｉｍｅファイルフォーマットが知られている。このＱｕｉｃｋＴｉｍｅファイルフォーマットは、マルチメディアデータを扱うためのファイルフォーマットであり、映像データ（ビデオデータおよびオーディオデータ）の実データをメディアデータアトム（ムービーデータともいう。）に保持して、その管理情報をムービーアトム（ムービーリソースともいう。）に保持する。これにより、実データに直接手を加えることなく、映像データを"非破壊的に"編集できるようになっている。このＱｕｉｃｋＴｉｍｅファイルフォーマットをベースとしたファイルフォーマットには、ＩＳＯベースメディア（ISO Base Media）ファイルフォーマット、そのアプリケーションフォーマットであるＭＰＥＧ４（ＭＰ４）ファイルフォーマット、ＭＪ２（Motion JPEG2000）ファイルフォーマット、ＡＶＣ（Advanced Video Coding：MPEG4-part10）ファイルフォーマットなどがある。
【０００３】
このような実データ格納部と管理情報格納部に分かれた形式のファイルフォーマットにおいては、オリジナルデータを外部から参照して、再生上の時間軸管理を行うエディットアトムと呼ばれるデータ構造により編集を行う方法が知られている。例えば、そのようなエディットアトムを用いて、記録中の映像に対して非破壊的にマークを付与する映像記録装置が提案されている（例えば、特許文献１参照。）。
【特許文献１】特開２００５−３０３９４３号公報（図５）
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、エディットアトムにより構成されるムービーファイルでは、最終的な編集結果が１つだけ保存されるに留まり、他の条件で編集を行うためには最初から処理をやり直さなければならない。例えば、映像データもしくはその映像データに同期する他の映像データにおける何らかの特徴量を解析して、その解析結果に基づいて編集を行う場合、編集条件を変えるたびに特徴量の解析からやり直すことになり、処理効率上の問題がある。
【０００５】
そこで、本発明は、映像データもしくはその映像データに同期する他の映像データについて、その特徴量を映像データに同期して保持するメタデータを生成し、または、そのメタデータに基づいて映像データを編集することを目的とする。
【課題を解決するための手段】
【０００６】
本発明は、上記課題を解決するためになされたものであり、その第１の側面は、時系列に管理される第１の映像データに同期した第２の映像データを取得する映像取得手段と、上記第２の映像データにおける特徴量を解析する映像解析手段と、上記第１の映像データと同期して上記特徴量を保持するメタデータを生成するメタデータ生成手段とを具備することを特徴とする映像処理装置である。これにより、第１の映像データに同期した第２の映像データの特徴量を、第１の映像データに同期するメタデータに保持させるという作用をもたらす。
【０００７】
また、この第１の側面において、上記特徴量は、上記第２の映像データに含まれる顔の表情であってもよい。顔の表情として、笑い、驚き、怒り、眠いといった種別を表現することができる。
【０００８】
また、この第１の側面において、上記第１の映像データを撮像する第１の撮像手段をさらに具備し、上記映像取得手段は、上記第１の映像データの撮像と同時に上記第２の映像データを撮像する第２の撮像手段を含んでもよい。これにより、撮像されている第１の映像データに関する映像を第２の映像データとして撮像させるという作用をもたらす。
【０００９】
また、この第１の側面において、上記第１の映像データを再生する再生手段をさらに具備し、上記映像取得手段は、上記再生手段による上記第１の映像データの再生と同時に上記第２の映像データを撮像する撮像手段を含んでもよい。これにより、再生されている第１の映像データに関する映像を第２の映像データとして撮像させるという作用をもたらす。
【００１０】
また、この第１の側面において、上記第１の映像データを再生する再生手段をさらに具備し、上記映像取得手段は、上記再生手段により再生された上記第１の映像データを上記第２の映像データとして入力する映像入力手段を含んでもよい。これにより、再生されている第１の映像データをそのまま第２の映像データとして入力させるという作用をもたらす。
【００１１】
なお、この第１の側面において、上記第１の映像データおよび上記メタデータは、ＱｕｉｃｋＴｉｍｅフォーマットにおけるメディアデータアトムの形式で記録されてもよい。
【００１２】
また、本発明の第２の側面は、時系列に管理される第１の映像データに同期した第２の映像データにおける特徴量を保持するメタデータを取得した後に所定の条件に合致する時系列上の位置を探索してその結果を探索情報として生成する位置探索手段と、上記探索情報に基づいて上記第１の映像データから上記合致する時系列上の位置に対応する部分を抽出する映像抽出手段とを具備することを特徴とする映像編集装置である。これにより、メタデータに含まれる特徴量が所定の条件に合致する時系列上の位置について、第１の映像データの対応する部分を抽出して、非破壊的に編集させるという作用をもたらす。
【００１３】
また、この第２の側面において、上記位置探索手段は、上記メタデータを管理する管理情報を取得して、上記管理情報が上記メタデータに上記特徴量は保持されない旨を示している場合には上記メタデータを取得しないようにしてもよい。これにより、無意味なメタデータへのアクセスを回避させるという作用をもたらす。
【００１４】
また、本発明の第３の側面は、時系列に管理される第１の映像データに同期した第２の映像データを取得する映像取得手段と、上記第２の映像データにおける特徴量を解析する映像解析手段と、上記第１の映像データと同期して上記特徴量を保持するメタデータを生成するメタデータ生成手段と、上記メタデータから所定の条件に合致する時系列上の位置を探索してその結果を探索情報として生成する位置探索手段と、上記探索情報に基づいて上記第１の映像データから上記合致する時系列上の位置に対応する部分を抽出する映像抽出手段とを具備することを特徴とする映像編集システムである。これにより、第２の映像データの特徴量を保持するメタデータを中間状態として、第１の映像データを非破壊的に編集させるという作用をもたらす。
【００１５】
また、本発明の第４の側面は、時系列に管理される第１の映像データと、上記第１の映像データに同期した第２の映像データにおける特徴量を上記第１の映像データと同期して保持するメタデータとを具備するデータ構造であって、コンピュータが、上記メタデータを取得して、上記メタデータにおいて所定の条件に合致する時系列上の位置を探索してその結果を探索情報として生成して、上記探索情報に基づいて上記第１の映像データから上記合致する時系列上の位置に対応する部分を抽出することを特徴とするデータ構造である。これにより、第１の映像データの編集のための中間状態としてメタデータを保持させるという作用をもたらす。
【発明の効果】
【００１６】
本発明によれば、映像データもしくはその映像データに同期する他の映像データについて、その特徴量を映像データに同期して保持するメタデータを生成し、または、そのメタデータに基づいて映像データを編集することができるという優れた効果を奏し得る。
【発明を実施するための最良の形態】
【００１７】
次に本発明の実施の形態について図面を参照して詳細に説明する。
【００１８】
図１は、本発明の実施の形態における映像編集システム１００の一構成例を示す図である。この映像編集システム１００は、メタデータ１０３に基づいて第１のビデオデータ１０１を編集した編集ビデオデータ１０５を出力する映像編集装置１２０と、第２のビデオデータ１０２の特徴量を解析してメタデータ１０３を出力する映像処理装置１１０とを備えている。
【００１９】
第１のビデオデータ１０１および第２のビデオデータ１０２は、時系列に管理される映像データであり、動画像データに加えて音声データを含んでもよい。第１のビデオデータ１０１は、映像編集装置１２０における編集対象となる映像データである。第２のビデオデータ１０２は、第１のビデオデータ１０１に同期しており、第１のビデオデータ１０１の撮像または再生と同時に撮像され得る。また、第１のビデオデータ１０１および第２のビデオデータ１０２は、同一の内容であってもよい。
【００２０】
メタデータ１０３は、第１のビデオデータ１０１に同期しており、第２のビデオデータ１０２の特徴量を時間軸で管理しながら保持するものである。特徴量としては、後述のように、第２のビデオデータ１０２に含まれる顔の表情が想定される。
【００２１】
映像処理装置１１０は、映像取得部１１１と、映像解析部１１２と、メタデータ生成部１１３とを備えている。また、映像編集装置１２０は、抽出条件受付部１２１と、位置探索部１２２と、映像抽出部１２３とを備えている。
【００２２】
映像取得部１１１は、第２のビデオデータ１０２を取得するものである。この映像取得部１１１は、映像を光学レンズにより撮像するビデオカメラであってもよく、また、電子信号を入力する入力端子などであってもよい。
【００２３】
映像解析部１１２は、映像取得部１１１によって取得された第２のビデオデータ１０２における特徴量を解析するものである。映像解析部１１２は、例えば、特徴量として第２のビデオデータ１０２に含まれる顔の画像を抽出して、その顔の表情を判断する。顔の表情を判断する処理手順は公知の技術を使用することができる。例えば、顔画像中の外眼角点を結ぶ線分と口角点を結ぶ線分との比から笑顔の判断をする技術（例えば、特開２００５−２６６９８４）や、顔の構成要素毎に基準画像と評価ポイントを設けて平均値を算出して被撮影者の表情を判断する技術（例えば、特開２００４−４６５９１）等が提案されている。
【００２４】
メタデータ生成部１１３は、映像解析部１１２によって解析された特徴量を保持するメタデータ１０３を生成するものである。この生成されたメタデータ１０３は、第１のビデオデータ１０１の各時刻に対応して、第２のビデオデータ１０２の特徴量を保持している。これにより、例えば、第１のビデオデータ１０１の各時刻において、第２のビデオデータ１０２にどのような顔の表情が含まれているかを、編集のための中間状態として保持することができる。
【００２５】
抽出条件受付部１２１は、抽出条件の入力を受け付けるものである。例えば、顔の表情を条件とするのであれば、笑顔を抽出するのか、または、驚いた顔を抽出するのか、といった条件を受け付ける。これらの条件は論理積（ＡＮＤ）や論理和（ＯＲ）などにより組み合わせた条件にすることができる。
【００２６】
位置探索部１２２は、抽出条件受付部１２１によって受け付けられた抽出条件によりメタデータ１０３を探索するものである。これにより、抽出条件に合致する時系列上の位置が得られ、エディットリスト１０４として保持される。
【００２７】
映像抽出部１２３は、エディットリスト１０４に基づいて、第１のビデオデータ１０１から抽出条件に合致する時系列上の位置に対応する部分を抽出して、編集ビデオデータ１０５に出力するものである。
【００２８】
図２は、本発明の実施の形態における映像処理装置１１０の第１の構成例を示す図である。この第１の構成例では、記録部２１０に、撮像部２１１と、映像加工部２１２と、映像圧縮部２１３と、ファイル生成部２１４と、書込み部２１５と、撮像部２１６と、映像解析部２１７と、記録制御部２１８と、記録媒体２１９とが備えられている。
【００２９】
撮像部２１１は、被写体を第１のビデオデータ１０１として撮像するものである。映像加工部２１２は、撮像部２１１によって撮像された映像に対してエフェクト処理などの加工を施すものである。映像圧縮部２１３は、映像加工部２１２によって加工された映像を圧縮するものである。
【００３０】
撮像部２１６は、被写体を撮像している撮影者（もしくは、被写体の様子を鑑賞している鑑賞者）の顔を第２のビデオデータ１０２として撮像するものである。映像解析部２１７は、撮像部２１６によって撮像された映像を解析するものである。すなわち、映像解析部２１７は、映像に含まれる撮影者の顔の表情を解析する。この解析結果は、メタデータ１０３となる。
【００３１】
ファイル生成部２１４は、映像圧縮部２１３によって圧縮された映像（第１のビデオデータ１０１）および映像解析部２１７によって解析された撮影者の顔の表情の解析結果（メタデータ１０３）を含むファイルをそれぞれ所定のファイル形式として生成するものである。
【００３２】
書込み部２１５は、ファイル生成部２１４によって生成されたファイルを記録媒体２１９に書き込むものである。記録媒体２１９としては、ハードディスクなどのディスク状記録媒体やメモリスティックなどの半導体記録媒体を想定することができる。
【００３３】
記録制御部２１８は、記録部２１０における記録媒体２１９への記録動作を制御するものである。
【００３４】
この第１の構成例では、撮像部２１１によって被写体を第１のビデオデータ１０１として撮像しながら、同時に撮像部２１６によって撮影者の顔の表情を第２のビデオデータ１０２として撮像し、その表情を解析してメタデータ１０３を生成している。
【００３５】
図３は、本発明の実施の形態における映像処理装置１１０の第１の構成例による使用態様を示す図である。図３（ａ）では、ビデオカメラ装置５２０の前面のカメラ５２１によって被写体５０１が撮像されているのと同時に、ビデオカメラ装置５２０の操作面のカメラ５２２によって撮影者５０２の顔が撮像されている。これにより、ビデオカメラ装置５２０の内部で撮影者５０２の顔の表情を解析することによって、メタデータを生成することができる。
【００３６】
また、ビデオカメラ装置５２０はネットワーク５１０に接続されてもよい。このネットワーク５１０によって、ビデオカメラ装置５２０の前面のカメラ５２１によって撮像された被写体５０１の映像を、図３（ｂ）のテレビ装置５３０や図３（ｃ）のコンピュータ装置５４０に配信することができる。
【００３７】
図３（ｂ）のテレビ装置５３０にはビデオカメラ装置５３１が接続され、鑑賞者５０３の顔が撮像されている。これにより、テレビ装置５３０またはビデオカメラ装置５３１の内部で鑑賞者５０３の顔の表情を解析することによって、メタデータを生成することができる。
【００３８】
図３（ｃ）のコンピュータ装置５４０の前面にはカメラ５４１が設けられ、鑑賞者５０４の顔が撮像されている。これにより、コンピュータ装置５４０の内部で鑑賞者５０４の顔の表情を解析することによって、メタデータを生成することができる。
【００３９】
このように、映像処理装置１１０の第１の構成例では、第１のビデオデータ１０１の撮像と同時に第２のビデオデータ１０２を撮像して、この第２のビデオデータ１０２からメタデータ１０３を生成する。第２のビデオデータ１０２に含まれる顔の表情には、第１のビデオデータ１０１の映像に対する何らかの反応が反映されているものと考えられるため、その特徴量をメタデータ１０３に中間状態として保存しておいて、第１のビデオデータ１０１の編集に利用しようとするものである。
【００４０】
図４は、本発明の実施の形態における映像処理装置１１０の第２の構成例を示す図である。この第２の構成例では、記録部２１０に、撮像部２１１と、ファイル生成部２１４と、書込み部２１５と、映像解析部２１７と、記録制御部２１８と、記録媒体２１９とが備えられている。また、再生部２２０に、表示部２２１と、映像加工部２２２と、映像伸張部２２３と、ファイル復号部２２４と、読出し部２２５と、記録媒体２２９とが備えられている。
【００４１】
記録媒体２２９は、第１のビデオデータ１０１を所定のファイル形式により記録するものである。読出し部２２５は、第１のビデオデータ１０１を含むファイルを記録媒体２２９から読み出すものである。ファイル復号部２２４は、読出し部２２５によって読み出されたファイルを復号するものである。映像伸張部２２３は、ファイル復号部２２４によって復号されたファイル内の圧縮された映像を伸張するものである。映像加工部２２２は、映像伸張部２２３によって伸張された映像に対してエフェクト処理などの加工を施すものである。
【００４２】
表示部２２１は、映像加工部２２２から出力された映像を表示するものである。これにより、記録媒体２２９に記録されていた第１のビデオデータ１０１が表示部２２１に再生表示される。
【００４３】
撮像部２１１は、被写体を第２のビデオデータ１０２として撮像するものである。映像解析部２１７は、撮像部２１１によって撮像された映像を解析するものである。すなわち、映像解析部２１７は、映像に含まれる鑑賞者の顔の表情を解析する。この解析結果は、メタデータ１０３となる。
【００４４】
ファイル生成部２１４は、映像解析部２１７によって解析された鑑賞者の顔の表情の解析結果（メタデータ１０３）を含むファイルを所定のファイル形式として生成するものである。
【００４５】
書込み部２１５は、ファイル生成部２１４によって生成されたファイルを記録媒体２１９に書き込むものである。記録制御部２１８は、記録部２１０における記録媒体２１９への記録動作を制御するものである。
【００４６】
なお、記録媒体２１９および２２９としては、ハードディスクなどのディスク状記録媒体やメモリスティックなどの半導体記録媒体を想定することができるが、両者は互いに異なる種類の記録媒体であってもよい。
【００４７】
この第２の構成例では、表示部２２１によって第１のビデオデータ１０１を再生表示しながら、同時に撮像部２１１によって鑑賞者の顔の表情を第２のビデオデータ１０２として撮像し、その表情を解析してメタデータ１０３を生成している。
【００４８】
図５は、本発明の実施の形態における映像処理装置１１０の第２の構成例による使用態様を示す図である。図２（ａ）では、ビデオカメラ装置５２０の操作面に再生表示画面が表示されており、その操作面のカメラ５２２によって鑑賞者５０５の顔が撮像されている。これにより、ビデオカメラ装置５２０の内部で鑑賞者５０５の顔の表情を解析することによって、メタデータを生成することができる。
【００４９】
図５（ｂ）のテレビ装置５３０にはビデオカメラ装置５３１が接続され、鑑賞者５０３の顔が撮像されている。これにより、テレビ装置５３０またはビデオカメラ装置５３１の内部で鑑賞者５０３の顔の表情を解析することによって、メタデータを生成することができる。
【００５０】
図５（ｃ）のコンピュータ装置５４０の前面にはカメラ５４１が設けられ、鑑賞者５０４の顔が撮像されている。これにより、コンピュータ装置５４０の内部で鑑賞者５０４の顔の表情を解析することによって、メタデータを生成することができる。
【００５１】
このように、映像処理装置１１０の第２の構成例では、第１のビデオデータ１０１の再生と同時に第２のビデオデータ１０２を撮像して、この第２のビデオデータ１０２からメタデータ１０３を生成する。第２のビデオデータ１０２に含まれる顔の表情には、第１のビデオデータ１０１の映像に対する何らかの反応が反映されているものと考えられるため、その特徴量をメタデータ１０３に中間状態として保存しておいて、第１のビデオデータ１０１の編集に利用しようとするものである。
【００５２】
図６は、本発明の実施の形態における映像処理装置１１０の第３の構成例を示す図である。この第３の構成例では、記録部２１０に、映像入力部２０６と、ファイル生成部２１４と、書込み部２１５と、映像解析部２１７と、記録制御部２１８と、記録媒体２１９とが備えられている。また、再生部２２０に、映像加工部２２２と、映像伸張部２２３と、ファイル復号部２２４と、読出し部２２５と、記録媒体２２９とが備えられている。
【００５３】
再生部２２０の構成は、第２の構成例の場合と同様であるが、表示部２２１は省かれ、映像加工部２２２の出力が記録部２１０にそのまま供給されている点が異なる。
【００５４】
記録部２１０の構成も、第２の構成例の場合と同様であるが、撮像部２１１の代わりに、再生部２２０からの映像を入力する映像入力部２０６を備える点が異なる。
【００５５】
すなわち、この第３の構成例では、再生部２２０によって再生された映像（第１のビデオデータ１０１）をそのまま記録部２１０の入力映像（第２のビデオデータ１０２）として供給して、それに含まれる顔の表情を解析してメタデータ１０３を生成している。
【００５６】
図７は、本発明の実施の形態における映像処理装置１１０の一実施例であるカメラ一体型撮像装置の構成例を示す図である。この撮像装置は、撮像部３０１と、映像加工部３３０と、映像圧縮部３４１と、圧縮制御部３４２と、記録媒体アクセス部３５１と、ドライブ制御部３５２と、操作受付部３６０と、表示部３７０と、システム制御部３９０とを備えている。
【００５７】
撮像部３０１は、被写体を撮像して映像データとして出力するものである。映像加工部３３０は、撮像部３０１から出力された映像データにエフェクト処理を施すものである。映像圧縮部３４１は、映像加工部３３０によって加工された映像データを圧縮するものである。圧縮制御部３４２は、映像圧縮部３４１における圧縮処理の制御を行うものである。
【００５８】
記録媒体アクセス部３５１は、記録媒体３０９に対する書込みや読出しを行うものである。ドライブ制御部３５２は、記録媒体アクセス部３５１による書込みや読出しを制御するものである。
【００５９】
操作受付部３６０は、ユーザによる操作入力を受け付けるものであり、各種ボタンやＧＵＩ（Graphical User Interface）などが想定される。表示部３７０は、撮像中の映像や再生映像、または、ユーザに対する各種メッセージなどを表示するものである。
【００６０】
システム制御部３９０は、撮像装置の全体を制御するものであり、例えば、マイクロプロセッサなどにより実現され得る。このシステム制御部３９０は、操作受付部３６０によって受け付けられた操作入力によって映像の録画の開始、停止や、録画の経過時間情報などを制御するとともに、ユーザに対する表示部３７０における表示を制御する。また、システム制御部３９０は、カメラ制御部３２９や圧縮制御部３４２との間で情報をやり取りして、ドライブ制御部３５２を介して記録媒体３０９に対する書込み制御を行う。
【００６１】
また、撮像部３０１は、ズームレンズ３１１と、アイリス（絞り）３１２と、フォーカスレンズ３１３と、フィルタ３１４と、撮像素子３２１と、Ａ／Ｄ変換器３２２と、カメラ信号処理回路３２３と、検波部３２４と、ズーム制御部３２５と、角速度センサ３２６と、カメラ制御部３２９とを備えている。
【００６２】
ズームレンズ３１１は、ズーム（拡大）処理を行うためのレンズである。アイリス３１２は、被写体からの光量を調整するための絞りである。フォーカスレンズ３１３は、被写体に焦点を合わせるためのレンズである。フィルタ３１４は、赤外線を除去するためのフィルタである。
【００６３】
撮像素子３２１は、光学レンズ群から供給された光を電気信号に変換する光電変換素子であり、例えば、ＣＣＤ（Charge Coupled Devices）などにより実現され得る。この撮像素子３２１により、被写体の画像が、例えばＲＧＢ（赤、緑、青）の３原色に相当する３つの映像信号として取り出される。
【００６４】
Ａ／Ｄ変換器３２２は、撮像素子３２１から供給されたアナログの電気信号をデジタル信号に変換するものである。カメラ信号処理回路３２３は、Ａ／Ｄ変換器３２２により変換されたデジタル信号に対して、白色の基準を定めるホワイトバランスなどの信号処理を施すものである。
【００６５】
検波部３２４は、カメラ信号処理回路３２３によって信号処理の施された映像信号のフィードバックを受けて、各種の検波処理を行うものである。例えば、自動的に被写体に焦点を合わせるためのオートフォーカス（ＡＦ：Auto Focus）検波、自動的に露光を行うためのオートエクスポージャ（ＡＥ：Auto Exposure）検波、自動的にホワイトバランスを行うためのオートホワイトバランス（ＡＷＢ：Auto White Balance）検波などを行うものである。
【００６６】
ズーム制御部３２５は、ユーザからの操作入力などに従ってズームレンズ３１１を移動させてズーム処理を制御するものである。角速度センサ３２６は、撮像装置の角速度を検出するものであり、例えば、ジャイロスコープなどにより手ぶれの度合いを検出するものである。
【００６７】
カメラ制御部３２９は、撮像部３０１の制御を行うものである。例えば、カメラ制御部３２９は、角速度センサ３２６において検知された手ぶれに対して手ぶれ補正を行って画質の劣化を低減するように制御を行う。また、カメラ制御部３２９は、撮像素子３２１からの映像入力の制御、検波部３２４における処理の制御、ズーム制御部３２５における処理の制御などを行う。
【００６８】
図８は、ＱｕｉｃｋＴｉｍｅファイルフォーマットをベースとしたファイル形式（以下、ＱｕｉｃｋＴｉｍｅベースファイル形式という。）の構造例を示す図である。このファイル形式では、ファイルの内容が実データ格納部と、その実データを参照するために必要な場所情報などを格納する管理情報格納部とに分かれている。ＱｕｉｃｋＴｉｍｅファイルフォーマットでは、実データ格納部はメディアデータアトム（media data atom、タイプ名：'ｍｄａｔ'）と呼ばれ、管理情報格納部はムービーアトム（movie atom、タイプ名：'ｍｏｏｖ'）と呼ばれる。なお、「アトム（atom）」は「ボックス（box）」と表現されることもある。また、ムービーアトムはムービーリソースと表現されることがあり、メディアデータアトムは単にメディアデータまたはムービーデータと表現されることがある。
【００６９】
これらメディアデータアトムおよびムービーアトムは、同一のファイルに含まれていてもよく、別ファイルに分かれていてもよい。例えば、図８のように、動画像（Ｖ１等）や音声（Ａ１等）のメディアデータを含むメディアデータアトム６１２と、それを参照するムービーアトム６１１とを同一のファイル６１０に格納するようにしてもよく、また、メディアデータアトム６１２を参照するムービーアトム６２１を別のファイル６２０に格納するようにしてもよい。前者の形式を有するファイルは自己内包型ファイルと呼ばれ、後者の形式を有するファイルは外部参照型ファイルと呼ばれる。そのため、ムービーアトムは、外部参照するメディアデータアトムが含まれる外部ファイルの相対パスまたは絶対パスを示す管理情報を格納できるようになっている。
【００７０】
メディアデータアトム６１２には、例えばＭＰＥＧ１オーディオ（MPEG1 Audio Layer2）に基づく圧縮符号化方式によって符号化されたオーディオデータおよびＭＰＥＧ２ビデオ（MPEG2 Video）規定に従う圧縮符号化方式によって符号化された画像データが格納される。符号化方式はこれらに限定されるものではなく、例えば、ビデオデータであればモーションＪＰＥＧ（Motion JPEG）やＭＪ２（Motion JPEG2000）、ＭＰＥＧ４（ＭＰ４）やＡＶＣ（Advanced Video Coding：MPEG4-part10）、オーディオデータであればドルビーＡＣ３（Dolby AC3）やＡＴＲＡＣ（Adaptive TRansform Acoustic Coding）などでもよく、また、圧縮符号化が施されていないリニアデータを格納することも可能である。
【００７１】
図９は、ＱｕｉｃｋＴｉｍｅファイルフォーマットにおける階層構造を示す図である。メディアデータアトム（'ｍｄａｔ'）における実データはサンプル（sample）と呼ばれる最小管理単位に分かれており、このサンプルを任意の個数分集めたものがチャンク（chunk）と呼ばれる。メディアデータアトム（'ｍｄａｔ'）の管理情報であるムービーアトム（'ｍｏｏｖ'）では、サンプルのサイズや、チャンクの先頭格納場所、各サンプルの表示時間等が格納される。
【００７２】
ムービーアトム（'ｍｏｏｖ'）は、ムービーヘッダアトム（'ｍｖｈｄ'）と、トラックアトム（'ｔｒａｋ'）等から構成される。
【００７３】
ムービーヘッダアトム（'ｍｖｈｄ'）は、ムービーアトムのヘッダ情報を保持する部分であり、ムービー全体の特徴を示すものである。例えば、ムービー全体の期間や時間スケール、作成日等を項目として含む。
【００７４】
トラックアトム（'ｔｒａｋ'）は、サウンド、ビデオ、テキストといった異なるタイプのデータをそれぞれ別のトラックにより格納するものであり、この図では、ビデオのトラックアトムとして、トラックヘッダアトム（'ｔｋｈｄ'）と、エディットアトム（'ｅｄｔｓ'）と、ユーザデータアトム（'ｕｄｔａ'）と、メディアアトム（'ｍｄｉａ'）とを含んで構成される。また、オーディオのトラックアトムについては省略されているが、ビデオの場合と同様の構成を備えて構成される。
【００７５】
トラックヘッダアトム（'ｔｋｈｄ'）は、トラックアトムのヘッダ情報を保持する部分であり、そのトラックの特徴を示すものである。例えば、ビデオのピクセル数やサウンドの音量、作成日等を項目として含む。
【００７６】
エディットアトム（'ｅｄｔｓ'）は、トラックの編集情報をエディットリストアトム（'ｅｌｓｔ'）として保持するものである。なお、このエディットアトムについては、図２７により詳述する。
【００７７】
ユーザデータアトム（'ｕｄｔａ'）は、必要に応じてユーザにより定義された任意の情報を含むものである。例えば、ムービーのウィンドウ位置や再生方法、作成情報等を保持することができる。このユーザデータアトムは、ムービーユーザデータをリスト形式により保持する。
【００７８】
メディアアトム（'ｍｄｉａ'）は、そのトラックで実際に用いられる実データに関する情報を格納するものである。すなわち、メディアアトムは、メディア全体に関する情報、メディアデータの取扱いに関する情報、メディアの構成に関する情報等を格納する。実データはサンプル（sample）と呼ばれる最小管理単位に分かれており、このサンプルを任意の個数分集めたものがチャンク（chunk）と呼ばれる。メディアアトムでは、サンプルのサイズや、チャンクの先頭格納場所、各サンプルの表示時間等が格納される。
【００７９】
このメディアアトムは、メディアヘッダアトム（'ｍｄｈｄ'）と、メディアハンドラアトム（'ｈｄｌｒ'）と、メディア情報アトム（'ｍｉｎｆ'）等から構成される。
【００８０】
メディアヘッダアトム（'ｍｄｈｄ'）は、メディアアトムのヘッダ情報を保持する部分であり、メディア全体としての特徴を示すものである。
【００８１】
メディアハンドラアトム（'ｈｄｌｒ'）は、メディア毎の取り扱いに関する情報を保持するものである。
【００８２】
メディア情報アトム（'ｍｉｎｆ'）は、そのメディアタイプで表現される情報を保持するものである。このメディア情報アトムは、ビデオメディア情報ヘッダアトム（'ｖｍｈｄ'）と、データハンドラアトム（'ｈｄｌｒ'）と、データ情報アトム（'ｄｉｎｆ'）と、サンプルテーブルアトム（'ｓｔｂｌ'）等から構成される。
【００８３】
ビデオメディア情報ヘッダアトム（'ｖｍｈｄ'）は、ビデオトラックにおいて、ビデオメディアに関するヘッダ情報を保持するものである。なお、オーディオトラックの場合、サウンドメディアに関するヘッダ情報を保持するサウンドメディア情報ヘッダアトム（'ｓｍｈｄ'）が、ビデオメディアヘッダアトム（'ｖｍｈｄ'）の代わりに含まれる。
【００８４】
データハンドラアトム（'ｈｄｌｒ'）は、ビデオメディアの取り扱いに関する情報を保持するものである。
【００８５】
データ情報アトム（'ｄｉｎｆ'）は、実際に参照する実データの格納先に関する情報を保持するものである。このデータ情報アトムには、参照する実データの格納方法、格納場所、ファイル名に関する情報を保持するデータリファレンスアトム（'ｄｒｅｆ'）が含まれる。
【００８６】
サンプルテーブルアトム（'ｓｔｂｌ'）は、そのメディアの実データの最小管理単位であるサンプルに関する情報を保持するものである。このサンプルテーブルアトムは、サンプルディスクリプションアトム（'ｓｔｓｄ'）と、時間対サンプルアトム（'ｓｔｓｓ'）と、サンプルサイズアトム（'ｓｔｓｚ'）と、サンプル対チャンクアトム（'ｓｔｓｃ'）と、チャンクオフセットアトム（'ｓｔｃｏ'）等から構成される。
【００８７】
サンプルディスクリプションアトム（'ｓｔｓｄ'）は、各サンプルに関する圧縮方式やその特性に関する情報を保持するものである。時間対サンプルアトム（'ｓｔｓｓ'）は、各サンプルと時間との関係を保持するものである。サンプルサイズアトム（'ｓｔｓｚ'）は、各サンプルのデータ量を保持するものである。サンプル対チャンクアトム（'ｓｔｓｃ'）は、チャンクとそのチャンクを構成するサンプルの関係を保持するものである。チャンクオフセットアトム（'ｓｔｃｏ'）は、ファイル先頭からの各チャンクの先頭位置までのオフセットを保持するものである。
【００８８】
本発明の実施の形態では、第１のビデオデータ１０１をＱｕｉｃｋＴｉｍｅベースファイル形式により保持するのみならず、メタデータ１０３もこのＱｕｉｃｋＴｉｍｅベースファイル形式により保持する。これにより、第２のビデオデータ１０２の特徴量を時間軸で管理しながらメタデータ１０３に保持することができる。
【００８９】
図１０は、本発明の実施の形態におけるファイルの保存形式の一例を示す図である。
【００９０】
図１０（ａ）は、第１のビデオデータ１０１を含むビデオファイル６３０の構成例を示す図である。このビデオファイル６３０は、第１のビデオデータ１０１を有するメディアデータ６３２と、メディアデータ６３２を管理するムービーリソース６３１とを備えている。メディアデータ６３２は、第１のビデオデータ１０１の各サンプル６３３を含んでおり、これらはムービーリソース６３１によって管理される。
【００９１】
図１０（ｂ）は、メタデータ１０３を含むメタファイル６４０の構成例を示す図である。このメタファイル６４０は、メタデータ１０３を有するメディアデータ６４２と、メディアデータ６４２を管理するムービーリソース６４１とを備えている。メディアデータ６４２は、メタデータ１０３の各サンプル６４３を含んでおり、これらはムービーリソース６４１によって管理される。また、ムービーリソース６４１は、メディアデータ６３２も外部参照する形式で、同様に一つの時間軸によって管理している。
【００９２】
図１０（ｃ）は、ビデオファイル６３０およびメタファイル６４０によって実現されるビデオトラック６５０およびメタトラック６６０の時間軸上の流れを示す図である。ここでは、簡略化のため、ビデオファイル６３０の映像信号および音声信号のうち、ビデオトラック６５０のみを図示している。
【００９３】
ビデオトラック６５０では、各サンプル６５３が時間軸上に並んでいる。また、メタトラック６６０では、ビデオトラック６５０のサンプル６５３と同期して、各サンプル６６３が時間軸上に並んでいる。例えば、第２のビデオデータ１０２の時刻ｔ１からｔ２の区間において笑顔が特徴量として抽出された場合、その旨がメタトラック６６０の時刻ｔ１からｔ２の区間において記録される。同様に、第２のビデオデータ１０２の時刻ｔ３からｔ４の区間において驚いた顔が特徴量として抽出された場合、その旨がメタトラック６６０の時刻ｔ３からｔ４の区間において記録される。
【００９４】
すなわち、メタデータ１０３を示すメタトラック６６０は、第２のビデオデータ１０２を介して、第１のビデオデータ１０１を示すビデオトラック６５０と同期していることになる。
【００９５】
なお、図中では省略されているが、顔の表情の分類上、無表情である区間においては、無表情である旨を示す情報がメタトラック６６０に記録される。
【００９６】
図１１は、本発明の実施の形態におけるメタトラックの階層構造の一例を示す図である。このメタトラックは、図９で説明したビデオトラックと基本的に同様の構成を有している。但し、トラック配下にトラックリファレンスアトム（'ｔｒｅｆ'）を有し、メディアアトム配下にトラックインプットマップアトム（'ｉｍａｐ'）を有する点でビデオトラックとは異なっている。
【００９７】
トラックリファレンスアトム（'ｔｒｅｆ'）は、ソーストラック（第１のビデオデータ１０１）との参照関係を指定するための情報を保持するものである。そのため、トラックリファレンスアトムは、指定対象となるトラックのトラックヘッダアトム（'ｔｋｈｄ'）に格納されているトラック固有のトラックＩＤを指定するトラックリファレンスタイプアトム（'ｓｓｒｃ'）を含む。このトラックリファレンスタイプアトムに含まれるトラックＩＤの数は、ソーストラックの数と一致する。
【００９８】
トラックインプットマップアトム（'ｉｍａｐ'）は、ソーストラックに関する情報を保持するものであり、ＱｕｉｃｋＴｉｍｅにおけるＱＴアトム構造と呼ばれるデータ構造により構成される。このトラックインプットマップアトムには、ＱＴアトムコンテナ（'ｓｅａｎ'）を最上位アトムとするコンテナによってパッキングされたトラックインプットＱＴアトム（' ｉｎ'）が１つ以上含まれる。このトラックインプットＱＴアトムの数は、ソーストラックの数と一致する。
【００９９】
トラックインプットＱＴアトム（' ｉｎ'）は、インプットタイプＱＴアトム（' ｔｙ'）およびデータソースタイプＱＴアトム（'ｄｔｓｔ'）を保持する。インプットタイプＱＴアトム（' ｔｙ'）は、ソーストラックがビデオメディアであることを指定するものである。また、データソースタイプＱＴアトム（'ｄｔｓｔ'）は、ソーストラックに対して固有の名称を与えるものである。
【０１００】
図１２は、本発明の実施の形態におけるメタトラックを含むムービーアトムの記載例を示す図である。この記載例では、ソーストラック（第１のビデオデータ１０１）としてビデオトラックアトム（ｖｉｄｅｏ）が１つだけ含まれている。そのため、メタトラックアトムにおけるトラックインプットＱＴアトム（' ｉｎ'）も１つだけ含まれている。
【０１０１】
図１３は、本発明の実施の形態におけるメタトラックを含むムービーアトムの他の記載例を示す図である。また、図１４は、図１３のムービーアトムにおけるメタトラックアトムの記載例を示す図である。この記載例では、ソーストラック（第１のビデオデータ１０１）としてビデオトラックアトムが２つ含まれている（ｖｉｄｅｏ１およびｖｉｄｅｏ２）。そのため、図１４に示すように、メタトラックアトムにおけるトラックインプットＱＴアトム（' ｉｎ'）も２つ含まれている。
【０１０２】
図１５は、本発明の実施の形態におけるメタトラックのサンプルディスクリプションアトム（'ｓｔｓｄ'）の記載例を示す図である。この記載例では、メタサンプルディスクリプションエントリがＭ個（Ｍは１以上の整数）含まれている。このメタサンプルディスクリプションエントリの数は、特徴量の種類の数と一致する。例えば、特徴量の種類として、無表情の顔と笑顔の２種類の分類をするのであれば、メタサンプルディスクリプションエントリの数は２つになる。
【０１０３】
なお、同図において、かっこ内の数字は各フィールドのバイト数を表す。
【０１０４】
メタサンプルディスクリプションエントリは、ＱｕｉｃｋＴｉｍｅにおけるサンプルディスクリプションエントリに対してストリームディスクリプターアトムを拡張追加した構造になっている。サンプルディスクリプションエントリにおけるデータフォーマット（Data Format）フィールドは、本来、エフェクト効果を指定するためのものである。本発明の実施の形態では、このフィールドを拡張のために用いている。これにより、通常のＱｕｉｃｋＴｉｍｅファイルフォーマットとの間で互換性を維持しながら、拡張を施すことができる。
【０１０５】
図１６は、本発明の実施の形態におけるデータフォーマットフィールドの一例を示す図である。この図に示すように、データフォーマットフィールドは、本来、エフェクト効果を指定するためのものである。同図において、アルファベット小文字で示している種別は、ＱｕｉｃｋＴｉｍｅにおいて定義済のエフェクト種別である。例えば、タイプ名'ｂｒｃｏ'は、明るさを示すブライトネス（brightness）と画像における黒色および白色の幅を示すコントラスト（contrast）とを変化させる効果を指定するものである。
【０１０６】
一方、アルファベット大文字で示している種別はＱｕｉｃｋＴｉｍｅにおいて定義されていないエフェクト種別である。本発明の実施の形態では、同図最下欄にあるユーザ定義のメタデータであることを示すタイプ名'ＵＤＥＦ'をこのデータフォーマットフィールドで指定することによって、メタデータとして独自拡張された意味を有することを示している。
【０１０７】
図１７は、本発明の実施の形態におけるストリームディスクリプターアトム（'ｓｔｒｄ'）の記載例を示す図である。このストリームディスクリプターアトムは、ＱｕｉｃｋＴｉｍｅにおける他のアトム構造と同様に、サイズ（Size）、タイプ（Type）、バージョン（Version）およびフラグ群（Flags）の各フィールドを保持している。
【０１０８】
サイズフィールドは、このサイズフィールドを含むストリームディスクリプターアトム全体の大きさを保持するものである。タイプフィールドは、ストリームディスクリプターアトムのタイプ名として'ｓｔｒｄ'を保持するものである。バージョンフィールドおよびフラグ群フィールドは、将来の拡張用に確保されているものであり、ここでは全てゼロが設定されるものとする。
【０１０９】
ストリームディスクリプターアトム（'ｓｔｒｄ'）は、以下に説明するように、データフォーマット（Data Format）、ユーザデファインドメタタイプ（User Defined Meta Type）、パラメータフラグ（Parameter Flag）の３つのフィールドをさらに保持している。
【０１１０】
データフォーマットフィールドは、図１６により説明したメタサンプルディスクリプションエントリのデータフォーマットフィールドと形式上同じものを保持するフィールドであり、本発明の実施の形態ではタイプ名'ＵＤＥＦ'を示すことになる。
【０１１１】
ユーザデファインドメタタイプフィールドは、図１８に示すように、２バイトのオーナーＩＤ（Owner ID）と２バイトのメタＩＤ（Meta ID）とを保持している。オーナーＩＤは、メーカー毎に割り当てられたＩＤであり、これにより、各メーカーは、メタＩＤによって独自の拡張定義を用いることができるようになる。これらオーナーＩＤおよびメタＩＤは、データフォーマットフィールドがタイプ名'ＵＤＥＦ'を示す場合にのみ有効になるものである。例えば、メタＩＤとして、図１９に示すように、顔の表情として、笑い（smile）、驚き（surprise）、怒り（angry）、眠い（sleepy）といった種別を表現することができる。
【０１１２】
なお、オーナーＩＤおよびメタＩＤの２つのフィールドに分けて詳細メタデータ種別を定義するのは、メーカー内で閉じて、重複なくメタデータ種別の管理運用を行うためである。仮に、このような区別を設けないと、新規に定義したいメーカー間で名称が重複し、もしくは、申請順番などの管理が煩雑になるおそれがある。そこで、メタサンプルディスクリプションエントリ側のデータフォーマットフィールドにて指定する独自定義メタデータ種別には、'ＵＤＥＦ'として独自定義メタデータ大別であることだけを指示し、詳細な独自拡張定義メタデータ種別はオーナーＩＤおよびメタＩＤの両フィールドを組み合わせることによって、どのメーカーが定義したどのようなメタデータ種別かを指示するものである。
【０１１３】
パラメータフラグフィールドは、メタデータによる効果が有効であるか否かを示すフィールドである。例えば、図２０に示すように、１６ビットのうちの１ビットを用いて、メタデータによる効果が「有効」であるか「無効」であるかを示す。これにより、ムービーリソース（'ｍｏｏｖ'）におけるパラメータフラグフィールドが「無効」を示している場合には、メディアデータ（'ｍｄａｔ'）をアクセスするまでもなく、メタデータによる効果がないものと判断することができ、処理の負荷を低減することができる。
【０１１４】
図２１は、本発明の実施の形態におけるメタトラックのメディアデータ（メタデータ１０３）のサンプルの記載例を示す図である。メタトラックのサンプルは、ビデオトラックのサンプルと同様に、サンプル毎にメディアデータアトムに格納される。
【０１１５】
ここでは、第２のビデオデータ１０２の対応するサンプルにおいて抽出された顔の数（face_number）と、それぞれの顔についてその表情の度合いを示すことができるようになっている。例えば、笑顔度合い、驚き度合い、怒り度合い、眠さ度合いをそれぞれ示すことができる。
【０１１６】
図２２は、本発明の実施の形態におけるメタデータを含むファイルの階層構造の一例を示す図である。この例では、ソーストラック（第１のビデオデータ１０１）が１つ（ソーストラック１）だけであることが想定されている。このソーストラック１のムービーリソース（'ｍｏｏｖ'）のトラックヘッダアトム（'ｔｋｈｄ'）には、そのトラックＩＤである「＃１」が保持されている。また、メタトラック（メタデータ１０３）のムービーリソースのトラックヘッダアトムには、そのトラックＩＤである「＃２」が保持されている。
【０１１７】
メタトラックのムービーリソースでは、トラックリファレンスアトム（'ｔｒｅｆ'）のトラックリファレンスタイプアトム（'ｓｓｒｃ'）に、ソーストラック１のトラックＩＤ「＃１」が保持されている。
【０１１８】
また、メディアアトム（'ｍｄｉａ'）のトラックインプットマップアトム（'ｉｍａｐ'）には、インプットタイプＱＴアトム（' ｔｙ'）としてビデオメディアを表す'ｖｉｄｅ'が設定され、データソースタイプＱＴアトム（'ｄｔｓｔ'）としてソーストラック１の名称'ｓｒｃＡ'が設定されている。
【０１１９】
また、メタトラックのムービーリソースにおいて、サンプルディスクリプションアトム（'ｓｔｓｄ'）のメタＩＤにより、２つの種別「ｍｅｔａ＿ｔｙｐｅ１」および「ｍｅｔａ＿ｔｙｐｅ２」が定義されている。
【０１２０】
この例では、メタトラックのメディアデータ（'ｍｄａｔ'）において、メタサンプルが４つ設けられている。ソーストラックは１つだけであり、全て同じソーストラック１を示している。また、メタサンプル＃１および＃３が「ｍｅｔａ＿ｔｙｐｅ１」を示し、メタサンプル＃２および＃４が「ｍｅｔａ＿ｔｙｐｅ２」を示している。
【０１２１】
図２３は、図２２の例におけるソーストラック（第１のビデオデータ１０１）とメタトラック（メタデータ１０３）との関係を示す図である。この例では、ソーストラックは１つだけであり、全て同じソーストラック１（'ｓｒｃＡ'）を対象としている。
【０１２２】
ここで、「ｍｅｔａ＿ｔｙｐｅ２」を特定区間として抽出する場合には、ソーストラックからこの特定区間のみが抽出されることになり、それ以外の区間は不要な区間として扱われる。
【０１２３】
図２４は、本発明の実施の形態におけるメタデータを含むファイルの階層構造の他の例を示す図である。この例では、ソーストラック（第１のビデオデータ１０１）が２つ（ソーストラック１およびソーストラック２）存在することが想定されている。ソーストラック１のムービーリソース（'ｍｏｏｖ'）のトラックヘッダアトム（'ｔｋｈｄ'）には、そのトラックＩＤである「＃１」が保持されている。ソーストラック２のムービーリソースのトラックヘッダアトム（'ｔｋｈｄ'）には、そのトラックＩＤである「＃２」が保持されている。また、メタトラック（メタデータ１０３）のムービーリソースのトラックヘッダアトム（'ｔｋｈｄ'）には、そのトラックＩＤである「＃３」が保持されている。
【０１２４】
メタトラックのムービーリソースでは、トラックリファレンスアトム（'ｔｒｅｆ'）のトラックリファレンスタイプアトム（'ｓｓｒｃ'）に、ソーストラック１のトラックＩＤ「＃１」およびソーストラック２のトラックＩＤ「＃２」がそれぞれ保持されている。
【０１２５】
また、メディアアトム（'ｍｄｉａ'）のトラックインプットマップアトム（'ｉｍａｐ'）には、２つのトラックインプットＱＴアトム（' ｉｎ'）が含まれており、１つ目のトラックインプットＱＴアトムには、インプットタイプＱＴアトム（' ｔｙ'）としてビデオメディアを表す'ｖｉｄｅ'が設定され、データソースタイプＱＴアトム（'ｄｔｓｔ'）としてソーストラック１の名称'ｓｒｃＡ'が設定されている。２つ目のトラックインプットＱＴアトムには、インプットタイプＱＴアトムとしてビデオメディアを表す'ｖｉｄｅ'が設定され、データソースタイプＱＴアトムとしてソーストラック２の名称'ｓｒｃＢ'が設定されている。
【０１２６】
また、メタトラックのムービーリソースにおいて、サンプルディスクリプションアトム（'ｓｔｓｄ'）のメタＩＤにより、２つの種別「ｍｅｔａ＿ｔｙｐｅ１」および「ｍｅｔａ＿ｔｙｐｅ２」が定義されている。
【０１２７】
この例では、メタトラックのメディアデータ（'ｍｄａｔ'）において、メタサンプルが４つ設けられている。ソーストラックは２つ存在しており、メタサンプル＃１および＃２が'ｓｒｃＡ'を参照し、メタサンプル＃３および＃４が'ｓｒｃＢ'を参照している。また、メタサンプル＃１および＃３が「ｍｅｔａ＿ｔｙｐｅ１」を示し、メタサンプル＃２および＃４が「ｍｅｔａ＿ｔｙｐｅ２」を示している。
【０１２８】
図２５は、図２４の例におけるソーストラック（第１のビデオデータ１０１）とメタトラック（メタデータ１０３）との関係を示す図である。この例では、ソーストラックは２つ存在しており、メタサンプル＃１および＃２が'ｓｒｃＡ'を参照し、メタサンプル＃３および＃４が'ｓｒｃＢ'を参照している。
【０１２９】
ここで、「ｍｅｔａ＿ｔｙｐｅ２」を特定区間として抽出する場合には、ソーストラックからこの特定区間のみが抽出されることになり、それ以外の区間は不要な区間として扱われる。
【０１３０】
図２６は、本発明の実施の形態におけるソーストラック（第１のビデオデータ１０１）およびメタトラック（メタデータ１０３）と編集トラック（編集ビデオデータ１０５）との関係例を示す図である。この例では、ソーストラックは、時刻０から始まり、時刻ｔｓ６に終了している。また、メタトラックはソーストラックに同期しており、時刻ｔｓ１から時刻ｔｓ２の区間に笑顔を検出した旨を示し、時刻ｔｓ３から時刻ｔｓ４の区間に驚いた顔を検出した旨を示し、時刻ｔｓ５から時刻ｔｓ６の区間に笑顔を検出した旨を示している。
【０１３１】
また、編集していないムービーファイルにおいては、ソーストラック時間の時間軸はメディア時間の時間軸と一対一対応していることが多いため、ここでは、時刻ｔｓ１＝時刻ｔｍ１、時刻ｔｓ２＝時刻ｔｍ２、時刻ｔｓ３＝時刻ｔｍ３、時刻ｔｓ４＝時刻ｔｍ４、時刻ｔｓ５＝時刻ｔｍ５、時刻ｔｓ６＝時刻ｔｍ６としている。
【０１３２】
ここで、メタトラックにおいて笑顔または驚いた顔を示す区間を抽出条件としてソーストラックを編集することを想定すると、その出力として図のような編集トラックが生成される。すなわち、ソーストラック時間の時刻ｔｓ１から時刻ｔｓ２の区間のソーストラックの部分が、編集トラックにおける編集トラック時間の時刻０から時刻ｔｅ１の区間になり、ソーストラック時間の時刻ｔｓ３から時刻ｔｓ４の区間のソーストラックの部分が、編集トラックにおける編集トラック時間の時刻ｔｅ１から時刻ｔｅ２の区間になり、ソーストラック時間の時刻ｔｓ５から時刻ｔｓ６の区間のソーストラックの部分が、編集トラックにおける編集トラック時間の時刻ｔｅ２から時刻ｔｅ３の区間になる。
【０１３３】
図２７は、ＱｕｉｃｋＴｉｍｅファイルフォーマットにおけるエディットアトム（'ｅｄｔｓ'）の記載例を示す図である。このエディットアトムは、図１７により説明したストリームディスクリプターアトム（'ｓｔｒｄ'）と同様に、サイズ、タイプ、バージョンおよびフラグ群の各フィールドを保持している。このエディットアトムでは、タイプ名として'ｅｄｔｓ'が保持されている。
【０１３４】
このエディットアトムは、さらにエディットリストアトム（'ｅｌｓｔ'）を保持する。このエディットリストアトムは、エディットアトムと同様に、サイズ、タイプ、バージョンおよびフラグ群の各フィールドを保持している。このエディットリストアトムでは、タイプ名として'ｅｌｓｔ'が保持されている。エディットリストアトムは、さらにＮ個（Ｎは１以上の整数）のエディットリストエントリ（Edit List Entry）と、その数（Number of Entries）とを含んでいる。
【０１３５】
エディットリストエントリの各々は、セグメント期間（Segment duration）と、メディア時間（Media time）と、メディアレート（Media rate）とを備えている。
【０１３６】
このエディットアトム（'ｅｄｔｓ'）を模式的に表したものが図２８である。図２８（ａ）のように、エディットアトム６８０は、エディットアトム６８０の大きさを示すサイズ６８１と、エディットアトムであることを示すタイプ６８２と、エディットアトムのバージョン６８３と、未使用のフラグ群６９４と、エディットリストアトム５７０とから構成される。
【０１３７】
エディットリストアトム６９０は、エディットリストアトム６９０の大きさを示すサイズ６９１と、エディットリストアトムであることを示すタイプ６９２と、エディットリストアトムのバージョン６９３と、未使用のフラグ群６９４と、エディットリストテーブル６９６と、エディットリストテーブル６９６のエントリ数６９５とから構成される。
【０１３８】
エディットリストテーブル６９６はエントリ数６９５により示される数のエントリから構成される。図２８（ｂ）のようにエディットリストテーブル６９６の各エントリは、セグメント期間６９７と、メディア時間６９８と、メディアレート６９９とから構成される。セグメント期間６９７は、対応する編集単位の期間を示す。メディア時間６９８は、対応する編集単位のメディアデータアトムにおける開始時刻を示す。なお、このメディア時間６９８が「−１」を示している場合には、対応する編集単位はメディアデータアトムに存在しないことを意味する。メディアレート６９９は、再生の際の時間比率を示すものであり、メディアデータアトムにおける時間軸と編集後の時間軸とで再生時間が変わらない場合には「１．０」を示すことになる。
【０１３９】
図２９は、図２６の例におけるエディットリストアトム（'ｅｌｓｔ'）の内容例を示す図である。図２９（ａ）は編集前のエディットリストアトムの内容である。編集前の状態では、エントリは１つだけ存在する。セグメント期間は全期間のｔｓ６を示す。メディア時間は先頭時刻の０を示す。また、メディアレート６９９は、「１．０」である。
【０１４０】
図２９（ｂ）は編集後のエディットリストアトムの内容である。編集後は、３つのエントリが生成される。
【０１４１】
第１のエントリでは、最初の笑顔の期間ｔｅ１（＝ｔｍ２−ｔｍ１）を示す。メディア時間は最初の笑顔の先頭時刻ｔｍ１を示す。また、メディアレート６９９は、「１．０」である。
【０１４２】
第２のエントリでは、驚いた顔の期間ｔｅ２−ｔｅ１（＝ｔｍ４−ｔｍ３）を示す。メディア時間は驚いた顔の先頭時刻ｔｍ３を示す。また、メディアレート６９９は、「１．０」である。
【０１４３】
第３のエントリでは、２回目の笑顔の期間ｔｅ３−ｔｅ２（＝ｔｍ６−ｔｍ５）を示す。メディア時間は２回目の笑顔の先頭時刻ｔｍ５を示す。また、メディアレート６９９は、「１．０」である。
【０１４４】
図３０は、本発明の実施の形態におけるソーストラック（第１のビデオデータ１０１）およびメタトラック（メタデータ１０３）と編集トラック（編集ビデオデータ１０５）との他の関係例を示す図である。この例では、ソーストラックおよびメタトラックは図２６の例と同様の関係になっている。
【０１４５】
ここで、メタトラックにおいて笑顔を示す区間を抽出条件としてソーストラックを編集することを想定すると、その出力として図のような編集トラックが生成される。すなわち、ソーストラック時間の時刻ｔｓ１から時刻ｔｓ２の区間のソーストラックの部分が、編集トラックにおける編集トラック時間の時刻０から時刻ｔｅ１の区間になり、ソーストラック時間の時刻ｔｓ５から時刻ｔｓ６の区間のソーストラックの部分が、編集トラックにおける編集トラック時間の時刻ｔｅ１から時刻ｔｅ２の区間になる。
【０１４６】
図３１は、図３０の例におけるエディットリストアトム（'ｅｌｓｔ'）の内容例を示す図である。この図は編集後のエディットリストアトムの内容である。編集後は、２つのエントリが生成される。
【０１４７】
第１のエントリでは、最初の笑顔の期間ｔｅ１（＝ｔｍ２−ｔｍ１）を示す。メディア時間は最初の笑顔の先頭時刻ｔｍ１を示す。また、メディアレート６９９は、「１．０」である。
【０１４８】
第２のエントリでは、２回目の笑顔の期間ｔｅ２−ｔｅ１（＝ｔｍ６−ｔｍ５）を示す。メディア時間は２回目の笑顔の先頭時刻ｔｍ５を示す。また、メディアレート６９９は、「１．０」である。
【０１４９】
このようにして生成されたエディットリストアトム（エディットリスト１０４）は映像抽出部１２３に供給され、この映像抽出部１２３においてソーストラック（第１のビデオデータ１０１）から編集トラック（編集ビデオデータ１０５）が生成される。すなわち、元のソーストラックを破壊することのない非破壊型編集を実現することができる。
【０１５０】
次に本発明の実施の形態における映像編集システムの動作について図面を参照して説明する。
【０１５１】
図３２は、本発明の実施の形態における映像処理装置１１０による処理手順の一例を示す図である。まず、映像取得部１１１によって、第２のビデオデータ１０２の映像が取得される（ステップＳ９１１）。この第２のビデオデータ１０２は、第１のビデオデータ１０１に同期しており、図２の例のように第１のビデオデータ１０１の撮像と同時に撮像されたものでもよく、図４の例のように第１のビデオデータ１０１の再生と同時に撮像されたものでもよく、また、図６の例のように第１のビデオデータ１０１と同一の内容であってもよい。
【０１５２】
ステップＳ９１１で映像が取得されると、取得された第２のビデオデータ１０２における特徴量が映像解析部１１２によって解析される（ステップＳ９１２）。例えば、特徴量として第２のビデオデータ１０２に含まれる顔の画像が抽出されて、その顔の表情が判断される。
【０１５３】
そして、ステップＳ９１２において解析された特徴量を時間軸により管理するメタデータ１０３がメタデータ生成部１１３によって生成される（ステップＳ９１３）。この生成されたメタデータ１０３は、第１のビデオデータ１０１の各時刻に対応して、第２のビデオデータ１０２の特徴量を保持するものである。
【０１５４】
これらステップＳ９１１乃至Ｓ９１３の処理手順は、第２のビデオデータ１０２の映像が全て処理されるまで繰り返される（ステップＳ９１４）。
【０１５５】
図３３は、本発明の実施の形態における映像編集装置１２０による処理手順の一例を示す図である。まず、抽出条件受付部１２１によって、抽出条件の入力が受け付けられる（ステップＳ９２１）。そして、その抽出条件によってメタデータ１０３における位置が探索される（ステップＳ９３０）。これにより、抽出条件に合致する時系列上の位置が得られ、エディットリスト１０４として保持される。
【０１５６】
このエディットリスト１０４に基づいて、第１のビデオデータ１０１から抽出条件に合致する時系列上の位置に対応する部分が映像抽出部１２３によって抽出され、編集ビデオデータ１０５として出力される（ステップＳ９２３）。
【０１５７】
図３４は、図３３の位置探索処理（ステップＳ９３０）における処理手順の一例を示す図である。まず、メタデータのムービーリソース（図１１のメタトラック）が取得される（ステップＳ９３１）。そして、このムービーリソースのサンプルディスクリプションアトム（'ｓｔｓｄ'）に含まれるパラメータフラグ（図２０参照）によりエフェクトの有効性、すなわち特徴量の記録の有効性が判断される（ステップＳ９３２）。
【０１５８】
ステップＳ９３２において「有効」であると判断された場合には、メタデータの対応するメディアデータのサンプルが取得される（ステップＳ９３３）。その結果、メタデータのサンプルの示す特徴量が抽出条件と一致していれば（ステップＳ９３４）、その該当する区間（セグメント）がエディットリストアトム（エディットリスト１０４）のエントリとして登録される（ステップＳ９３５）。
【０１５９】
一方、ステップＳ９３２において「無効」であると判断された場合には、メタデータのメディアデータは取得されることなく、そのサンプルに関する処理は終了する。
【０１６０】
これらステップＳ９３１乃至Ｓ９３５の処理手順は、メタデータ１０３のサンプルが全て処理されるまで繰り返される（ステップＳ９３６）。
【０１６１】
このように、本発明の実施の形態によれば、第１のビデオデータ１０１に同期する第２のビデオデータ１０２から映像処理装置１１０によってメタデータ１０３が生成される。このメタデータ１０３は、第１のビデオデータ１０１に同期しており、第２のビデオデータ１０２の特徴量を時間軸で管理しながら保持するものである。また、本発明の実施の形態によれば、メタデータ１０３において抽出条件に合致する位置が映像編集装置１２０の位置探索部１２２によって探索され、エディットリスト１０４が生成される。このエディットリスト１０４に従って、第１のビデオデータ１０１から映像抽出部１２３によって映像が抽出され、編集ビデオデータ１０５が生成される。すなわち、本発明の実施の形態によれば、メタデータ１０３を中間状態として、第１のビデオデータ１０１を非破壊的に編集することができる。
【０１６２】
なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、以下に示すように特許請求の範囲における発明特定事項とそれぞれ対応関係を有するが、これに限定されるものではなく本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。
【０１６３】
すなわち、請求項１において、映像取得手段は例えば映像取得部１１１、撮像部２１１、２１６、または、映像入力部２０６に対応する。また、映像解析手段は例えば映像解析部１１２または２１７に対応する。また、メタデータ生成手段は例えばメタデータ生成部１１３またはファイル生成部２１４に対応する。
【０１６４】
また、請求項３において、第１の撮像手段は例えば撮像部２１１に対応する。また、第２の撮像手段は例えば撮像部２１６に対応する。
【０１６５】
また、請求項４において、再生手段は例えば再生部２２０に対応する。また、撮像手段は例えば撮像部２１１に対応する。
【０１６６】
また、請求項５において、再生手段は例えば再生部２２０に対応する。また、映像入力手段は例えば映像入力部２０６に対応する。
【０１６７】
また、請求項７において、位置探索手段は例えば位置探索部１２２に対応する。また、映像抽出手段は例えば映像抽出部１２３に対応する。
【０１６８】
また、請求項９において、映像取得手段は例えば映像取得部１１１、撮像部２１１、２１６、または、映像入力部２０６に対応する。また、映像解析手段は例えば映像解析部１１２または２１７に対応する。また、メタデータ生成手段は例えばメタデータ生成部１１３またはファイル生成部２１４に対応する。また、位置探索手段は例えば位置探索部１２２に対応する。また、映像抽出手段は例えば映像抽出部１２３に対応する。
【０１６９】
また、請求項１０および１１において、映像取得手順は例えばステップＳ９１１に対応する。また、映像解析手順は例えばステップＳ９１２に対応する。また、メタデータ生成手順は例えばステップＳ９１３に対応する。
【０１７０】
また、請求項１２および１３において、メタデータ取得手順は例えばステップＳ９３３に対応する。また、位置探索手順は例えばステップＳ９３４に対応する。また、映像抽出手順は例えばステップＳ９２３に対応する。
【０１７１】
また、請求項１４において、第１の映像データは例えば第１のビデオデータ１０１に対応する。また、第２の映像データは例えば第２のビデオデータ１０２に対応する。また、メタデータは例えばメタデータ１０３に対応する。
【０１７２】
なお、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。
【図面の簡単な説明】
【０１７３】
【図１】本発明の実施の形態における映像編集システム１００の一構成例を示す図である。
【図２】本発明の実施の形態における映像処理装置１１０の第１の構成例を示す図である。
【図３】本発明の実施の形態における映像処理装置１１０の第１の構成例による使用態様を示す図である。
【図４】本発明の実施の形態における映像処理装置１１０の第２の構成例を示す図である。
【図５】本発明の実施の形態における映像処理装置１１０の第２の構成例による使用態様を示す図である。
【図６】本発明の実施の形態における映像処理装置１１０の第３の構成例を示す図である。
【図７】本発明の実施の形態における映像処理装置１１０の一実施例であるカメラ一体型撮像装置の構成例を示す図である。
【図８】ＱｕｉｃｋＴｉｍｅベースファイル形式の構造例を示す図である。
【図９】ＱｕｉｃｋＴｉｍｅファイルフォーマットにおける階層構造を示す図である。
【図１０】本発明の実施の形態におけるファイルの保存形式の一例を示す図である。
【図１１】本発明の実施の形態におけるメタトラックの階層構造の一例を示す図である。
【図１２】本発明の実施の形態におけるメタトラックを含むムービーアトムの記載例を示す図である。
【図１３】本発明の実施の形態におけるメタトラックを含むムービーアトムの他の記載例を示す図である。
【図１４】図１３のムービーアトムにおけるメタトラックアトムの記載例を示す図である。
【図１５】本発明の実施の形態におけるメタトラックのサンプルディスクリプションアトム（'ｓｔｓｄ'）の記載例を示す図である。
【図１６】本発明の実施の形態におけるデータフォーマットフィールドの一例を示す図である。
【図１７】本発明の実施の形態におけるストリームディスクリプターアトム（'ｓｔｒｄ'）の記載例を示す図である。
【図１８】本発明の実施の形態におけるユーザデファインドメタタイプフィールドの記載例を示す図である。
【図１９】本発明の実施の形態におけるメタＩＤのビットフィールド構成例を示す図である。
【図２０】本発明の実施の形態におけるパラメータフラグフィールドのビットフィールド構成例を示す図である。
【図２１】本発明の実施の形態におけるメタトラックのメディアデータのサンプルの記載例を示す図である。
【図２２】本発明の実施の形態におけるメタデータを含むファイルの階層構造の一例を示す図である。
【図２３】図２２の例におけるソーストラックとメタトラックとの関係を示す図である。
【図２４】本発明の実施の形態におけるメタデータを含むファイルの階層構造の他の例を示す図である。
【図２５】図２４の例におけるソーストラックとメタトラックとの関係を示す図である。
【図２６】本発明の実施の形態におけるソーストラックおよびメタトラックと編集トラックとの関係例を示す図である。
【図２７】ＱｕｉｃｋＴｉｍｅファイルフォーマットにおけるエディットアトム（'ｅｄｔｓ'）の記載例を示す図である。
【図２８】ＱｕｉｃｋＴｉｍｅファイルフォーマットにおけるエディットアトムを模式的に表した図である。
【図２９】図２６の例におけるエディットリストアトム（'ｅｌｓｔ'）の内容例を示す図である。
【図３０】本発明の実施の形態におけるソーストラックおよびメタトラックと編集トラックとの他の関係例を示す図である。
【図３１】図３０の例におけるエディットリストアトムの内容例を示す図である。
【図３２】本発明の実施の形態における映像処理装置１１０による処理手順の一例を示す図である。
【図３３】本発明の実施の形態における映像編集装置１２０による処理手順の一例を示す図である。
【図３４】図３３の位置探索処理（ステップＳ９３０）における処理手順の一例を示す図である。
【符号の説明】
【０１７４】
１００映像編集システム
１０１第１のビデオデータ
１０２第２のビデオデータ
１０３メタデータ
１０４エディットリスト
１０５編集ビデオデータ
１１０映像処理装置
１１１映像取得部
１１２映像解析部
１１３メタデータ生成部
１２０映像編集装置
１２１抽出条件受付部
１２２位置探索部
１２３映像抽出部
２０６映像入力部
２１０記録部
２１１撮像部
２１２映像加工部
２１３映像圧縮部
２１４ファイル生成部
２１５書込み部
２１６撮像部
２１７映像解析部
２１８記録制御部
２１９記録媒体
２２０再生部
２２１表示部
２２２映像加工部
２２３映像伸張部
２２４ファイル復号部
２２５読出し部
２２９記録媒体
３０１撮像部
３０９記録媒体
３１１ズームレンズ
３１２アイリス
３１３フォーカスレンズ
３１４フィルタ
３２１撮像素子
３２２Ａ／Ｄ変換器
３２３カメラ信号処理回路
３２４検波部
３２５ズーム制御部
３２６角速度センサ
３２９カメラ制御部
３３０映像加工部
３４１映像圧縮部
３４２圧縮制御部
３５１記録媒体アクセス部
３５２ドライブ制御部
３６０操作受付部
３７０表示部
３９０システム制御部
５０１被写体
５０２撮影者
５０３〜５０５鑑賞者
５１０ネットワーク
５２０、５３１ビデオカメラ装置
５２１、５２２、５４１カメラ
５３０テレビ装置
５４０コンピュータ装置

【特許請求の範囲】
【請求項１】
時系列に管理される第１の映像データに同期した第２の映像データを取得する映像取得手段と、
前記第２の映像データにおける特徴量を解析する映像解析手段と、
前記第１の映像データと同期して前記特徴量を保持するメタデータを生成するメタデータ生成手段と
を具備することを特徴とする映像処理装置。
【請求項２】
前記特徴量は、前記第２の映像データに含まれる顔の表情であることを特徴とする請求項１記載の映像処理装置。
【請求項３】
前記第１の映像データを撮像する第１の撮像手段をさらに具備し、
前記映像取得手段は、前記第１の映像データの撮像と同時に前記第２の映像データを撮像する第２の撮像手段を含む
ことを特徴とする請求項１記載の映像処理装置。
【請求項４】
前記第１の映像データを再生する再生手段をさらに具備し、
前記映像取得手段は、前記再生手段による前記第１の映像データの再生と同時に前記第２の映像データを撮像する撮像手段を含む
ことを特徴とする請求項１記載の映像処理装置。
【請求項５】
前記第１の映像データを再生する再生手段をさらに具備し、
前記映像取得手段は、前記再生手段により再生された前記第１の映像データを前記第２の映像データとして入力する映像入力手段を含む
ことを特徴とする請求項１記載の映像処理装置。
【請求項６】
前記第１の映像データおよび前記メタデータは、ＱｕｉｃｋＴｉｍｅフォーマットにおけるメディアデータアトムの形式で記録されることを特徴とする請求項１記載の映像処理装置。
【請求項７】
時系列に管理される第１の映像データに同期した第２の映像データにおける特徴量を保持するメタデータを取得した後に所定の条件に合致する時系列上の位置を探索してその結果を探索情報として生成する位置探索手段と、
前記探索情報に基づいて前記第１の映像データから前記合致する時系列上の位置に対応する部分を抽出する映像抽出手段と
を具備することを特徴とする映像編集装置。
【請求項８】
前記位置探索手段は、前記メタデータを管理する管理情報を取得して、前記管理情報が前記メタデータに前記特徴量は保持されない旨を示している場合には前記メタデータを取得しないことを特徴とする請求項７記載の映像編集装置。
【請求項９】
時系列に管理される第１の映像データに同期した第２の映像データを取得する映像取得手段と、
前記第２の映像データにおける特徴量を解析する映像解析手段と、
前記第１の映像データと同期して前記特徴量を保持するメタデータを生成するメタデータ生成手段と、
前記メタデータから所定の条件に合致する時系列上の位置を探索してその結果を探索情報として生成する位置探索手段と、
前記探索情報に基づいて前記第１の映像データから前記合致する時系列上の位置に対応する部分を抽出する映像抽出手段と
を具備することを特徴とする映像編集システム。
【請求項１０】
時系列に管理される第１の映像データに同期した第２の映像データを取得する映像取得手順と、
前記第２の映像データにおける特徴量を解析する映像解析手順と、
前記第１の映像データと同期して前記特徴量を保持するメタデータを生成するメタデータ生成手順と
を具備することを特徴とする映像処理方法。
【請求項１１】
時系列に管理される第１の映像データに同期した第２の映像データを取得する映像取得手順と、
前記第２の映像データにおける特徴量を解析する映像解析手順と、
前記第１の映像データと同期して前記特徴量を保持するメタデータを生成するメタデータ生成手順と
をコンピュータに実行させることを特徴とするプログラム。
【請求項１２】
時系列に管理される第１の映像データに同期した第２の映像データにおける特徴量を保持するメタデータを取得するメタデータ取得手順と、
前記メタデータにおいて所定の条件に合致する時系列上の位置を探索してその結果を探索情報として生成する位置探索手順と、
前記探索情報に基づいて前記第１の映像データから前記合致する時系列上の位置に対応する部分を抽出する映像抽出手順と
を具備することを特徴とする映像編集方法。
【請求項１３】
時系列に管理される第１の映像データに同期した第２の映像データにおける特徴量を保持するメタデータを取得するメタデータ取得手順と、
前記メタデータにおいて所定の条件に合致する時系列上の位置を探索してその結果を探索情報として生成する位置探索手順と、
前記探索情報に基づいて前記第１の映像データから前記合致する時系列上の位置に対応する部分を抽出する映像抽出手順と
をコンピュータに実行させることを特徴とするプログラム。
【請求項１４】
時系列に管理される第１の映像データと、
前記第１の映像データに同期した第２の映像データにおける特徴量を前記第１の映像データと同期して保持するメタデータと
を具備するデータ構造であって、
コンピュータが、前記メタデータを取得して、前記メタデータにおいて所定の条件に合致する時系列上の位置を探索してその結果を探索情報として生成して、前記探索情報に基づいて前記第１の映像データから前記合致する時系列上の位置に対応する部分を抽出することを特徴とするデータ構造。

【図１】