画像処理装置、インデックス生成装置、撮像装置、インデックス生成方法およびプログラム

【課題】動画データの転送後においてもその動画データの各シーンに関する情報を維持させる。
【解決手段】操作受付部１１１により受け付けられた操作入力に基づいて、撮像部１１２は被写体を撮像して動画データを生成する。記録制御部１１３は撮像された動画データおよびその動画データに関する顔情報をストリーム記録部１９１に記録するよう制御する。撮像された動画データを構成する各画像から顔検出部１１４によって検出された顔画像について、顔情報生成部１１５は顔情報データを生成する。顔情報データは、いったん顔情報保持部１１６に保持され、チャプター終了の際に、ストリーム記録部１９１において、最終のＶＯＢＵまたは最終から所定数遡ったＶＯＢＵに顔情報パックとして格納される。顔情報パックは、動画データとともにストリームデータを構成し、動画データの転送後においても維持される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置に関し、特に動画データに含まれる複数の画像について属性情報を検出し、または、属性情報に基づいてインデックス表示画面を生成する画像処理装置、インデックス生成装置、撮像装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。
【背景技術】
【０００２】
近年、動画を記録するためのデジタルビデオカメラが普及している。デジタルビデオカメラでは、撮像された動画データは符号化されて、ＤＶＤ（Digital Versatile Disk）、ハードディスク、フラッシュメモリ等の記録媒体に記録される。記録媒体に記録された動画データは、デジタルビデオカメラまたは他の再生機器において再生表示される。
【０００３】
動画データを再生表示する際、先頭から全てを再生するのではなく、途中の特定のシーンから再生することをユーザが望む場合がある。その場合、撮像された動画データ全体から特定のシーンを検索するためには、検索に要する時間が必要であるとともに検索作業が煩雑であることが多い。
【０００４】
そこで、動画データを再生する場合において、この動画データの各部におけるサムネイル画像を生成して、この生成されたサムネイル画像を用いて特定の記録位置から動画を再生させる技術が提案されている。例えば、記録媒体に記録されている動画データの複数のシーンから各シーンを示す画面のサムネイル画像を複数形成し、ユーザによって選択されたサムネイル画像に対応するシーンの先頭から動画の再生を開始する再生装置が提案されている（例えば、特許文献１参照。）。
【特許文献１】特開平１１−２８９５１７号公報（図７）
【発明の開示】
【発明が解決しようとする課題】
【０００５】
上述の従来技術によれば、各シーンを示す画面のサムネイル画像に基づいて動画データの特定のシーンから再生表示することが可能になる。この各シーンに関する情報は、予め何らかの管理情報ファイルとして保存しておくことが望ましいが、独自のファイルとして保存した場合には動画データが装置間で転送された際にその情報を喪失してしまうおそれがある。
【０００６】
本発明はこのような状況に鑑みてなされたものであり、動画データの転送後においてもその動画データの各シーンに関する情報を維持させることを目的とする。
【課題を解決するための手段】
【０００７】
本発明は、上記課題を解決するためになされたものであり、その第１の側面は、動画データに含まれる複数の画像について属性情報を検出する属性情報検出手段と、上記属性情報と上記複数の画像のうち当該属性情報に対応する画像の上記動画データにおける位置とを関連付けたインデックスデータを生成するインデックスデータ生成手段と、上記動画データおよび上記インデックスデータを含むストリームデータを生成するストリームデータ生成手段とを具備する画像処理装置およびその方法ならびにプログラムである。これにより、属性情報と動画データ中の属性情報に対応する位置とを関連付けたインデックスデータをストリームデータに格納させるという作用をもたらす。
【０００８】
また、この第１の側面において、上記属性情報は、当該属性情報に対応する画像の特徴量であってもよい。この場合において、上記属性情報検出手段は、上記特徴量として上記複数の画像に含まれる顔画像の数を検出してもよい。また、この場合において、上記ストリームデータ生成手段は、ビデオオブジェクトユニットを単位として上記ストリームデータを生成し、上記インデックスデータを最終のビデオオブジェクトユニットに格納するようにしてもよい。
【０００９】
また、本発明の第２の側面は、被写体を撮像して動画データを生成する撮像手段と、上記動画データに含まれる複数の画像について属性情報を検出する属性情報検出手段と、上記属性情報と上記複数の画像のうち当該属性情報に対応する画像の上記動画データにおける位置とを関連付けたインデックスデータを生成するインデックスデータ生成手段と、上記動画データおよび上記インデックスデータを含むストリームデータを生成するストリームデータ生成手段とを具備する撮像装置およびその方法ならびにプログラムである。これにより、属性情報と撮像された動画データ中の属性情報に対応する位置とを関連付けたインデックスデータをストリームデータに格納させるという作用をもたらす。
【００１０】
また、本発明の第３の側面は、動画データに含まれる複数の画像の位置と当該画像に関する属性情報とを関連付けたインデックスデータを上記動画データとともに格納するストリームデータからインデックス表示画面を生成するインデックス生成装置であって、上記属性情報を解析してインデックス表示の対象となる画像を特定する属性情報解析手段と、上記特定された画像の上記動画データにおける位置を生成する位置生成手段と、上記生成された位置に基づいて上記動画データの代表画像を生成する代表画像生成手段と、上記代表画像に基づいて上記インデックス表示画面を生成するインデックス表示画面生成手段とを具備することを特徴とするインデックス生成装置およびその方法ならびにプログラムである。これにより、ストリームデータに含まれるインデックスデータによって特定される画像に基づいてインデックス表示画面を生成させるという作用をもたらす。
【００１１】
また、この第３の側面において、上記属性情報は、当該属性情報に対応する画像の特徴量であってよい。この場合において、上記特徴量は、上記複数の画像に含まれる顔画像の数を示し、上記属性情報解析手段は、上記複数の画像に含まれる顔画像の数が変化する画像を上記インデックス表示の対象となる画像として特定するようにしてもよい。これにより、顔画像の数が変化する位置を区切りとしてインデックス表示画面を生成させるという作用をもたらす。
【００１２】
また、本発明の第４の側面は、被写体を撮像して動画データを生成する撮像手段と、上記動画データに含まれる複数の画像について属性情報を検出する属性情報検出手段と、上記属性情報と上記複数の画像のうち当該属性情報に対応する画像の上記動画データにおける位置とを関連付けたインデックスデータを生成するインデックスデータ生成手段と、上記動画データおよび上記インデックスデータを含むストリームデータを生成するストリームデータ生成手段と、上記ストリームデータに含まれる属性情報を解析してインデックス表示の対象となる画像を特定する属性情報解析手段と、上記特定された画像の上記動画データにおける位置を生成する位置生成手段と、上記生成された位置に基づいて上記動画データの代表画像を生成する代表画像生成手段と、上記代表画像に基づいて上記インデックス表示画面を生成するインデックス表示画面生成手段とを具備する撮像装置およびその方法ならびにプログラムである。これにより、撮像された動画データとともに属性情報と撮像された動画データ中の属性情報に対応する位置とを関連付けたインデックスデータをストリームデータに格納しておいて、インデックスデータから特定される画像に基づいてインデックス表示画面を生成させるという作用をもたらす。
【発明の効果】
【００１３】
本発明によれば、動画データの転送後においてもその動画データの各シーンに関する情報を維持することができるという優れた効果を奏し得る。
【発明を実施するための最良の形態】
【００１４】
次に本発明の実施の形態について図面を参照して詳細に説明する。ここでは、動画データの記録される記録媒体としてＤＶＤ−Ｖｉｄｅｏ規格によるディスクを想定するが、他の記録媒体においても同様に適用可能である。
【００１５】
図１は、ＤＶＤ−Ｖｉｄｅｏ規格によるディスクのデータ構造を示す図である。ディスクは円盤状の形状を有しており、内周側にリードイン領域７１１が設けられ、外周側にリードアウト領域７１５が設けられる。そして、内周側から外周側に向かって順番に、ファイルシステム領域７１２と、管理情報領域７１３と、データ記録領域７１４とが設けられる。ファイルシステム領域７１２は、ファイルシステムの管理領域であり、ＩＳＯ９６６０およびＵＤＦ（Universal Disk Format）の規格に準拠するように設けられている。管理情報領域７１３は、ディスク上に記録されているビデオコンテンツ全体の管理情報を保持する領域である。データ記録領域７１４は、各ビデオタイトルセットの内容およびその制御情報を保持する領域である。なお、これら領域は、２０４８バイトの論理セクタに区分される。
【００１６】
管理情報領域７１３には、ＶＭＧ（Video ManaGer）７３０が保持される。このＶＭＧ７３０は、ＶＭＧＩ（ＶＭＧ Information）７３１と、ＶＭＧＭ＿ＶＯＢＳ（Video OBject Set for ＶＭＧ Menu）７３２と、ＶＭＧＩ＿ＢＵＰ（ＶＭＧＩ for Back UP）７３４とを備えている。ＶＭＧＩ７３１は、後述するように、ディスク上に記録されているビデオコンテンツのタイトル毎の管理情報やトップメニューの制御情報などを保持する。ＶＭＧＭ＿ＶＯＢＳ７３２は、トップメニューのデータを保持する。また、ＶＭＧＩ＿ＢＵＰ７３４は、ＶＭＧＩ７３１のバックアップ用コピーである。
【００１７】
データ記録領域７１４には、ＶＴＳ（Video Titles Set）７４０が少なくとも１つ保持される。各ＶＴＳ７４０は、それぞれＶＴＳＩ（ＶＴＳ Information）７４１と、ＶＴＳＭ＿ＶＯＢＳ（Video OBject Set for ＶＴＳ Menu）７４２と、ＶＴＳＴＴ＿ＶＯＢＳ（Video Object Set for Titles in a ＶＴＳ）７４３と、ＶＴＳＩ＿ＢＵＰ（ＶＴＳＩ for Back UP）７４４とを備えている。ＶＴＳＩ７４１は、後述するように、そのビデオタイトルセットに含まれるタイトルのチャプター毎の管理情報や制御情報およびチャプターメニューの制御情報などを保持する。ＶＴＳＭ＿ＶＯＢＳ７４２は、チャプターメニューのデータを保持する。ＶＴＳＴＴ＿ＶＯＢＳ７４３は、そのビデオタイトルセットに含まれるタイトルのデータを保持する。また、ＶＴＳＩ＿ＢＵＰ７４４は、ＶＴＳＩ７４１のバックアップ用コピーである。
【００１８】
図２は、ビデオタイトルセット（ＶＴＳ）におけるタイトルとチャプターとの関係を示す図である。上述のように、ビデオコンテンツの実データはＶＴＳＴＴ＿ＶＯＢＳ７４３に記録される。各ＶＴＳ７４０には、最大９９タイトルまで格納できる。但し、ディスク全体としても最大９９タイトルまでしか格納できないため、この最大タイトル数は他のＶＴＳの使用状況に影響を受けることになる。
【００１９】
ＶＴＳ７４０における各タイトルは、少なくとも１つのチャプターに区分される。各タイトルの最大チャプター数は９９である。カムコーダにおいては、記録開始から記録終了までの１回の記録単位がチャプターとして記録され、例えば、ディスクがイジェクトされた場合、タイトル内で９９チャプターに達した場合、タイトル内で９９セルに達した場合、動画記録から静止画記録に移行した場合などの事象が生じるまで同一タイトル内にチャプターが生成されていく。従って、カムコーダにおいて繰り返し記録を行っている際にタイトル内のチャプター数が９９に達すると、そのタイトルが閉じられ、次のチャプターは新たなタイトル内に生成される。
【００２０】
各タイトルにおけるチャプターの開始位置を保持するのはＶＴＳＩ７４１である。後述するように、ＶＴＳＩ７４１は、タイトル毎の管理情報（ＴＴＵ）として各チャプターの開始位置を示すポインタ（ＰＴＴ＿ＳＲＰ）を保持している。
【００２１】
図３は、ビデオオブジェクトセット（ＶＯＢＳ）の構成要素を示す図である。図１のＶＭＧＭ＿ＶＯＢＳ７３２、ＶＴＳＭ＿ＶＯＢＳ７４２、および、ＶＴＳＴＴ＿ＶＯＢＳ７４３は、それぞれのデータをビデオオブジェクトセット（ＶＯＢＳ）として保持するものであり、共通の形式を有する。このＶＯＢＳ７６０は、１個以上のビデオオブジェクト（ＶＯＢ）７６１の集合である。このＶＯＢ７６１にはＶＯＢ＿ＩＤ番号が付され、識別のために用いられる。このＶＯＢ７６１は、１個以上のセル（Ｃｅｌｌ）７６２により構成される。このセル７６２は、リアルタイム再生単位であり、ＶＯＢ７６１と同様にセルＩＤ番号が付される。
【００２２】
セル７６２は、１個以上のビデオオブジェクトユニット（ＶＯＢＵ）７６３を含む。このＶＯＢＵ７６３は、ナビゲーションパック（ＮＶ＿ＰＣＫ）７６４を先頭とするパック列である。パックとは、２０４８バイトの固定データであり、先頭のＮＶ＿ＰＣＫ７６４の他、映像データを保持する映像パック（Ｖ＿ＰＣＫ）７６５および音声データを保持する音声パック（Ａ＿ＰＣＫ）７６６を備える。
【００２３】
ＮＶ＿ＰＣＫ７６４は、パックヘッダ７７１に続いて、再生制御情報（ＰＣＩ：Presentation Control Information）７７２およびデータ検索情報（ＤＳＩ：Data Search Information）７７３を保持する。ＰＣＩ７７２は、再生表示に関する制御情報であり、ノンシームレス再生のためのアングル情報や、サブピクチャのハイライト表示のための情報などを保持する。ＤＳＩ７７３は、ディスクにアクセスするための制御情報であり、シームレス再生のためのアングル情報や、再生時間（０．５秒×ｎ）を単位としたＶＯＢＵの検索情報などを保持する。
【００２４】
図４は、ビデオオブジェクトユニット（ＶＯＢＵ）と符号化画像との関係を示す図である。ＶＯＢＳ７６０内の画像データは、ＭＰＥＧ−２（Moving Picture Coding Experts Group -2）符号化方式のプログラムストリーム（ＰＳ：Program Stream）により符号化されている。このＭＰＥＧ−２符号化方式では、ＧＯＰ（Group Of Pictures）と呼ばれる１５枚の画像により０．５秒程度の動画像を表している。図４（ａ）では、１枚のＩピクチャと、４枚のＰピクチャと、１０枚のＢピクチャとにより計１５枚の画像５１１によりＧＯＰ５１０を構成する様子が示されている。ここで、Ｉピクチャは、フレーム内符号化画像であり、他のＰピクチャやＢピクチャとは独立して符号化される完結画像である。一方、Ｐピクチャは、時間的に先行するＩピクチャまたはＰピクチャとの差分を利用して符号化される。また、Ｂピクチャは、時間的に前後両方向のＩピクチャまたはＰピクチャとの差分を利用して符号化される。従って、ＧＯＰにおいて独立して復号化できるのはＩピクチャだけである。
【００２５】
ＧＯＰ内の１５枚の画像は、ディスク上では図４（ｂ）のように一部の順序が入れ替えされて記録される。これは、上述の符号化方式の特徴に基づくものであり、復号の際に時間的に後続の画像を待つことを回避するためである。例えば、Ｂピクチャ（Ｂ５）を復号化するためにはＩピクチャ（Ｉ３）とＰピクチャ（Ｐ６）を参照する必要があるが、図４（ｂ）のような入れ替えを行うことにより、Ｂピクチャ（Ｂ５）を復号化する時点で必要な画像データ（Ｉ３およびＰ６）が揃っていることになる。なお、このような画像５２１の順序関係を維持するために、ＰＴＳ（Presentation Time Stamp）５２２およびＤＴＳ（Decoding Time Stamp）５２３というタイムスタンプが付与される。ＰＴＳ５２２は再生出力の時刻管理情報であり、そのタイムスタンプが付与された単位画像をいつ再生出力するかを示す。一方、ＤＴＳ５２３は復号の時刻管理情報であり、そのタイムスタンプが付与された単位画像をいつ復号するかを示す。
【００２６】
符号化された各画像は、図４（ｃ）のように、それぞれ１つ以上のパックに収められる。例えば、Ｉピクチャ（Ｉ３）はＶ＿ＰＣＫ＿Ｉ３（５３２）として保持され、Ｂピクチャ（Ｂ１）はＶ＿ＰＣＫ＿Ｂ１（５３３）として保持される。そして、ＮＶ＿ＰＣＫ５３１などと共にＶＯＢＵを構成する。
【００２７】
図５は、プログラムチェイン（ＰＧＣ）におけるプログラムチェイン情報（ＰＧＣＩ）とビデオオブジェクトセット（ＶＯＢＳ）との関係を示す図である。プログラムチェイン（ＰＧＣ）６００は、再生単位であるセル７６２の再生順序を示すプログラムチェイン情報（ＰＧＣＩ）６１０と、そのセル７６２を保持するビデオオブジェクトセット（ＶＯＢＳ）６２０とから構成される。
【００２８】
上述のとおり、ＶＯＢＳ６２０を構成するＶＯＢやセルにはそれぞれＩＤ番号が付されているが、これは必ずしも再生順序を表すわけではない。この再生順序を示すのがＰＧＣＩ６１０におけるセル番号である。例えば、図５の例では、ＰＧＣＩ６１０におけるセル番号（ＣＮ）の順序に従って、ＶＯＢＳ６２０におけるセルが、ＶＯＢ＃１・Ｃｅｌｌ＃１、ＶＯＢ＃１・Ｃｅｌｌ＃２、ＶＯＢ＃２・Ｃｅｌｌ＃１、ＶＯＢ＃３・Ｃｅｌｌ＃１、ＶＯＢ＃３・Ｃｅｌｌ＃２、ＶＯＢ＃４・Ｃｅｌｌ＃１、ＶＯＢ＃４・Ｃｅｌｌ＃２、ＶＯＢ＃４・Ｃｅｌｌ＃３、ＶＯＢ＃５・Ｃｅｌｌ＃１の順で再生される。
【００２９】
ＰＧＣ６００において、一つ以上の連続するセル番号を有するセルをまとめたものを一つのプログラム（ＰＧ）として定義することができる。このプログラムにはプログラム番号が付される。そして、一つ以上の連続するプログラム番号を有するプログラムをまとめたものをチャプター（ＰＴＴ）として定義することができる。例えば、図５の例では、ＰＧ＃１から＃３がＰＴＴ＃１として定義され、ＰＧ＃４および＃５がＰＴＴ＃２として定義されている。従って、ＶＯＢ＃１・Ｃｅｌｌ＃１、ＶＯＢ＃１・Ｃｅｌｌ＃２、ＶＯＢ＃２・Ｃｅｌｌ＃１、ＶＯＢ＃３・Ｃｅｌｌ＃１、ＶＯＢ＃３・Ｃｅｌｌ＃２が１つ目のチャプターとなり、ＶＯＢ＃４・Ｃｅｌｌ＃１、ＶＯＢ＃４・Ｃｅｌｌ＃２、ＶＯＢ＃４・Ｃｅｌｌ＃３、ＶＯＢ＃５・Ｃｅｌｌ＃１が２つ目のチャプターとなる。
【００３０】
図６は、ビデオタイトルセット情報（ＶＴＳＩ）のデータ構造を示す図である。このＶＴＳＩ７４１は、ビデオタイトルセット情報管理テーブル（ＶＴＳＩ＿ＭＡＴ：VTSI MAnagement Table）、ビデオタイトルセットＰＴＴ検索ポインタテーブル（ＶＴＳ＿ＰＴＴ＿ＳＲＰＴ：VTS PTT Search Pointer Table）、ビデオタイトルセットＰＧＣＩテーブル（ＶＴＳ＿ＰＧＣＩＴ：VTS PGCI Table）、ビデオタイトルセットメニューＰＧＣＩユニットテーブル（ＶＴＳＭ＿ＰＧＣＩ＿ＵＴ：VTS Menu PGCI Unit Table）、ビデオタイトルセット時刻マップテーブル（ＶＴＳ＿ＴＭＡＰＴ：VTS Time MAP Table）、ビデオタイトルセットメニュー・セルアドレステーブル（ＶＴＳＭ＿Ｃ＿ＡＤＴ：VTS Menu Cell ADdress Table）、ビデオタイトルセットメニュー・ＶＯＢＵアドレスマップ（ＶＴＳＭ＿ＶＯＢＵ＿ＡＤＭＡＰ：VTS Menu VOBU ADdress MAP）、ビデオタイトルセット・セルアドレステーブル（ＶＴＳ＿Ｃ＿ＡＤＴ：VTS Cell ADdress Table）、および、ビデオタイトルセット・ＶＯＢＵアドレスマップ（ＶＴＳ＿ＶＯＢＵ＿ＡＤＭＡＰ：VTS VOBU ADdress MAP）というデータ構造を備えることができる。
【００３１】
ここで、ＶＴＳ＿ＰＴＴ＿ＳＲＰＴは、各タイトルにおけるチャプターのポインタへのアクセス情報である。図２により説明したとおり、ＰＴＴ＿ＳＲＰは各チャプターの開始位置を示すポインタであり、具体的には、各チャプターの属するＰＧＣのＰＧＣ番号およびそのＰＧＣにおけるＰＧ番号によりチャプターを特定する。このＰＴＴ＿ＳＲＰをタイトル毎に保持するのがＴＴＵであり、さらにＴＴＵへのポインタ（ＴＴＵ＿ＳＲＰ）を保持するのがＶＴＳ＿ＰＴＴ＿ＳＲＰＴである。従って、このＶＴＳ＿ＰＴＴ＿ＳＲＰＴに含まれる情報を利用することにより所望のチャプターのＰＴＴ＿ＳＲＰを読み出すことができ、図２のようにＶＴＳＴＴ＿ＶＯＢＳにおけるチャプターの開始位置を知ることができる。
【００３２】
また、ＶＴＳＩにおけるＶＴＳ＿ＰＧＣＩＴは、ビデオタイトルセットのプログラムチェインを再生制御するためのＰＧＣＩへのアクセス情報である。このビデオタイトルセットのＰＧＣＩは必要に応じて１つ以上設けることができる。このＶＴＳ＿ＰＧＣＩへのポインタ（ＶＴＳ＿ＰＧＣＩ＿ＳＲＰ）がＶＴＳ＿ＰＧＣＩＴに保持される。
【００３３】
ここで、ＰＧＣＩは、ＰＧＣ全般情報（ＰＧＣ＿ＧＩ：PGC General Information）、ＰＧＣコマンドテーブル（ＰＧＣ＿ＣＭＤＴ：PGC CoMmanD Table）、ＰＧＣプログラムマップ（ＰＧＣ＿ＰＧＭＡＰ：PGC ProGram Map）、セルプレイバック情報テーブル（Ｃ＿ＰＢＩＴ：Cell PlayBack Information Table）、および、セル位置情報テーブル（Ｃ＿ＰＯＳＩＴ：Cell POSition Information Table）というデータ構造を備えることができる。ＰＧＣ＿ＣＭＤＴは、セルの再生前後または再生中に実行すべきコマンドを保持する。ＰＧＣ＿ＰＧＭＡＰは、各プログラムの開始セル番号を保持する。Ｃ＿ＰＢＩＴは、各セルのカテゴリや各セル内の先頭ＶＯＢＵの開始アドレスなどを保持する。Ｃ＿ＰＯＳＩＴは、各セルのＶＯＢ＿ＩＤ番号およびセルＩＤ番号を保持する。従って、ＰＧＣ番号とＰＧ番号が既知であればＰＧＣ＿ＰＧＭＡＰからプログラムにおける開始セルのセル番号を取得でき、さらにＣ＿ＰＯＳＩＴによりセル番号からＶＯＢ＿ＩＤ番号およびセルＩＤ番号を取得することができる。これにより、図５のようにＶＯＢＳにおける具体的な位置情報を知ることができる。すなわち、ＰＴＴ＿ＳＲＰのＰＧＣ番号およびＰＧ番号からＶＴＳＴＴ＿ＶＯＢＳにおけるＶＯＢ＿ＩＤ番号およびセルＩＤ番号を取得することができるわけである。
【００３４】
図７は、本発明の実施の形態における顔情報パック７６９の内部構成例を示す図である。本発明の実施の形態では、一例として、動画データの各画像に含まれる顔画像の数を検出して、顔画像の数が変化する点をシーンの切れ目として動画データの代表画像を生成することを想定する。
【００３５】
顔情報パック７６９は、上述の映像パック７６５や音声パック７６６と同様に、ビデオオブジェクトユニット（ＶＯＢＵ）７６３内に格納される。但し、全てのＶＯＢＵに格納される必要はなく、特定のＶＯＢＵにのみ格納されるようにしておくことが望ましい。撮像時に顔に関する情報を解析して、撮像終了時にまとめて顔に関する情報を格納することを想定すると、最終のＶＯＢＵまたは最終から所定数遡ったＶＯＢＵに格納しておくようにするのが便利である。
【００３６】
この顔情報パック７６９は、パックヘッダおよびそれに続く顔情報パケットを備える。顔情報パケットは、パケットヘッダとそれに続くサブストリーム識別子と顔情報データを備える。顔情報パケットのパケットヘッダには、ストリームの種別を示すストリーム識別子が含まれる。ここでは、ストリーム識別子として、他のストリームと同期が必要なプライベートストリーム（private_stream_1）を意味する「１０１１１１０１」（２進数）が保持される。また、パケットヘッダに続くサブストリーム識別子として、プロバイダ定義ストリーム（provider defined stream）を意味する「１１１１１１１１」（２進数）が保持される。
【００３７】
図８は、本発明の実施の形態における顔情報データの構成例を示す図である。
【００３８】
顔情報データは、顔情報識別子（CAO_ID）と、顔情報プロパティ（CAO_FACE_INFO）と、顔情報の本体とから構成される。顔情報の本体は、顔検出情報（FACE_DETECT_INFO）と顔ブロック情報（FACE_BLOCK）とを保持する。
【００３９】
顔情報識別子は、顔情報データであることを示す顔情報データ識別子（CAO_DAT_ID）と、顔情報のバージョンを示す顔情報バージョン（CAO_DAT_VER）とを保持する。顔情報バージョンが異なると、顔情報の形式が異なる場合がある。
【００４０】
顔情報プロパティは、顔情報サイズ（CAO_FINFO_SIZE）と、顔情報データバージョン（FACE_DAT_VER）と、顔ブロック情報フラグ（FBLK_STRUCT_FLG）と、タイムスケール（FBLK_TIMESCALE）と、顔ブロック情報データ数（FBLK_Ns）と、顔検出情報サイズ（FDETECT_INF_SIZE）と、顔ブロック情報データサイズ（FBLK_SIZE）とを保持する。
【００４１】
顔情報サイズは、顔情報の全体のサイズを示すフィールドである。顔情報データバージョンは、顔情報データのバージョンを示すフィールドである。顔ブロック情報フラグは、顔情報の本体に何が記載されているかを示す有効フラグ群である。この各フラグについては顔情報の説明において後述する。
【００４２】
タイムスケールは、顔ブロック情報における時間の単位を示すフィールドである。顔ブロック情報データ数は、顔ブロック情報のデータ数を示すフィールドである。顔検出情報サイズは、顔検出情報のサイズを示すフィールドである。顔ブロック情報データサイズは、顔ブロック情報の１ブロック分のサイズを示すフィールドである。
【００４３】
顔検出情報は、顔検出セル番号（CELL_ID）と、顔検出位置（OFFSET）とを保持する。顔検出セル番号は、顔が検出されたセルの番号を示すフィールドである。顔検出位置は、顔が検出された位置を示すフィールドである。具体的には、顔検出位置は、顔が検出されたビデオオブジェクトユニット（ＶＯＢＵ）内のナビゲーションパックの位置を、ビデオオブジェクトセット（ＶＯＢＳ）の先頭からパック単位で示したものである。
【００４４】
顔ブロック情報は、顔検出時間オフセット（FACE_DETECT_TIME_OFFSET）と、顔基本情報（FACE_BASIC_INFO）と、顔スコア情報（FACE_SCORE）と、顔表情情報（FACE_EXPRESSION_INFO_1）とを保持する。顔検出時間オフセットは、顔が検出された時間のチャプター先頭からのオフセット時間を示すフィールドである。顔基本情報は、検出された顔のｘ座標（X）、ｙ座標（Y）、幅（WIDTH）および高さ（HEIGHT）をそれぞれ示すフィールドである。顔スコア情報は、検出された顔の顔らしさのスコアを示すフィールドである。顔表情情報は、検出された顔の表情を示すフィールドであり、例えば、笑顔に属するか否か等を示す。これら顔ブロック情報の顔検出時間オフセット、顔基本情報、顔スコア情報および顔表情情報に有効なデータが保持されているか否かは、上述の顔ブロック情報フラグにおける有効フラグ群に示される。
【００４５】
図９は、本発明の実施の形態における顔情報データにより代表画像が特定される様子を示す図である。
【００４６】
ここでは、ビデオオブジェクトユニット（ＶＯＢＵ）を構成するＶＯＢＵ７６３のうち、最終のＶＯＢＵ＃ｐに顔情報パック７６９が格納されていることを想定している。顔情報パック７６９における顔検出情報の顔検出位置（OFFSET）に基づいてＶＯＢＵ＃ｉが特定され、ＶＯＢＵ＃ｉの映像パック７６５に含まれるＩピクチャから顔サムネイル画像が生成される。
【００４７】
なお、上述の顔検出時間オフセットを併用することにより、チャプター先頭からの経過時間を画面上に表示することもできる。
【００４８】
図１０は、本発明の実施の形態における映像記録装置としての撮像装置１００の構成を示す図である。この撮像装置１００は、カメラ部１０と、記録再生処理部２０と、制御部３０とを備えている。
【００４９】
カメラ部１０は、光学ブロック１１と、カメラ制御部１２と、信号変換器１３と、撮像信号処理部１４と、音声入力部１５と、音声信号処理部１６とを備える。光学ブロック１１は、内部に、被写体を撮像するためのレンズ群、絞り調整機構、フォーカス調整機構、ズーム機構、シャッター機構、フラッシュ機構、および、手ぶれ補正機構などを備える。カメラ制御部１２は、制御部３０から制御信号を受けて、光学ブロック１１に供給する制御信号を生成する。そして、生成した制御信号を光学ブロック１１に供給して、ズーム制御、シャッター制御、および、露出制御などの制御を行う。
【００５０】
信号変換器１３は、例えばＣＣＤ（Charge Coupled Device）などの撮像素子により構成され、その結像面に、光学ブロック１１を通じた像が結像される。この信号変換器１３は、シャッター操作に応じて制御部３０から供給される画像取り込みタイミング信号を受けて、結像面に結像されている被写体像を撮像信号に変換し、撮像信号処理部１４に供給する。
【００５１】
撮像信号処理部１４は、制御部３０からの制御信号に基づいて、撮像信号についてのガンマ補正やＡＧＣ（Auto Gain Control）などの処理を行うとともに、撮像信号をデジタル信号としての画像信号に変換する処理も行う。音声入力部１５は、撮影時の被写体周辺の音声を収集する。この音声入力部１５からの音声信号は音声信号処理部１６に供給される。音声信号処理部１６は、制御部３０からの制御信号に基づいて、音声信号についての補正やＡＧＣなどの処理を行うとともに、音声信号をデジタル信号に変換する処理も行う。
【００５２】
記録再生処理部２０は、符号化／復号回路２１と、ディスクインターフェース２３と、出力処理部２４と、バッファメモリ２５とを備える。
【００５３】
符号化／復号回路２１は、カメラ部１０からの画像信号および音声信号や追加記録情報をＭＰＥＧ方式等に符号化し多重化して圧縮データに変換する符号化機能を有する。一方、符号化／復号回路２１は、圧縮データから画像信号および音声信号や追加記録情報を分離して復号する復号機能を有する。また、符号化／復号回路２１は、制御部３０からの制御信号に基づいて、撮像信号処理部１４からの画像信号に対して、自動ホワイトバランス制御、露出補正制御、デジタルズーム倍率に応じた拡大制御などをさらに行う。
【００５４】
ディスクインターフェース２３は、符号化／復号回路２１から圧縮データを受けてディスク４９に書き込む。また、ディスクインターフェース２３は、ディスク４９から圧縮データを読み出して符号化／復号回路２１に供給する。出力処理部２４は、制御部３０からの制御により、符号化／復号回路２１からの圧縮データを制御部３０や出力端子２７乃至２９に供給する。バッファメモリ２５は、例えばＳＤＲＡＭなどにより構成され、符号化／復号回路２１における符号化または復号のための作業領域として利用される。
【００５５】
制御部３０は、処理装置３１と、ＲＯＭ（Read Only Memory）３３と、ＲＡＭ（Random Access Memory）３４と、操作入力部４１を接続するための操作入力インターフェース３５と、表示部４２を接続するための表示制御部３６と、メモリカード４３を装填するためのメモリカードインターフェース３７と、手ぶれ補正のために角速度を検出する角速度検出器３８と、撮影時刻を記録するための時計回路３９と、ＧＰＳ受信部４４とがシステムバス３２を介して接続されることにより構成される。
【００５６】
処理装置３１は制御部３０全体の処理を司るものであり、作業領域としてＲＡＭ３４を使用する。ＲＯＭ３３には、カメラ部１０を制御するためのプログラムや、画像信号や音声信号の記録制御および再生制御などを実行するためのプログラムが書き込まれている。
【００５７】
操作入力インターフェース３５に接続される操作入力部４１には、撮影モードと再生モードなどの他のモードとを切り換えるモード切り換えキー、ズーム調整キー、露出調整のためのキー、シャッターキー、動画撮影用キー、表示部４２における表示調整キーなどの複数のキーが設けられている。操作入力インターフェース３５は、操作入力部４１からの操作信号を処理装置３１に伝える。処理装置３１は、操作入力部４１においていずれのキーが操作されたかを判別し、その判別結果に応じた制御処理を行う。
【００５８】
表示制御部３６に接続される表示部４２は、例えばＬＣＤ（Liquid Crystal Display）などにより構成され、処理装置３１の制御の下に、カメラ部１０からの画像信号や、ディスク４９から読み出された画像信号を表示する。
【００５９】
メモリカードインターフェース３７は、符号化／復号回路２１からの圧縮データをメモリカード４３に書き込む。また、メモリカードインターフェース３７は、メモリカード４３から圧縮データを読み出して符号化／復号回路２１に供給する。
【００６０】
時計回路３９は、年、月、日、時間、分、秒などを表わす時間情報を生成する。角速度検出器３８は、撮像装置１００に対して外部から加わる角速度を検出するジャイロスコープである。この角速度検出器３８からの角速度情報［ω＝（θ／秒）］は、所定間隔毎に処理装置３１に報告される。ＧＰＳ受信部４４は、ＧＰＳ（Global Positioning System）衛星からの電波を受信して、撮像装置１００の現在位置を取得するものである。
【００６１】
図１１は、本発明の実施の形態における撮像装置１００の顔情報生成のための機能構成例を示す図である。
【００６２】
操作受付部１１１は、ユーザによる操作入力を受け付けるものであり、操作入力部４１により実現される。この操作受付部１１１により受け付けられた操作入力に基づいて、撮像部１１２に指示が与えられる。
【００６３】
撮像部１１２は、被写体を撮像して動画データを生成するものであり、例えばカメラ部１０により実現される。この撮像部１１２により撮像された動画データは記録制御部１１３および顔検出部１１４に供給される。
【００６４】
記録制御部１１３は、撮像された動画データおよびその動画データに関する顔情報をストリーム記録部１９１に記録するよう制御するものであり、例えば記録再生処理部２０により実現される。
【００６５】
顔検出部１１４は、撮像された動画データを構成する各画像について、その各画像に含まれる顔画像を検出して、その顔画像に関する情報を取得するものである。この顔検出部１１４により得られた情報は、顔情報生成部１１５に供給される。
【００６６】
顔情報生成部１１５は、顔検出部１１４によって検出された顔画像について、顔情報データを生成するものである。顔情報データのフォーマットは、例えば図８に示したとおりである。この顔情報生成部１１５により生成された顔情報データは、顔情報保持部１１６に保持される。
【００６７】
顔情報保持部１１６は、顔情報生成部１１５により生成された顔情報データを保持するものである。この顔情報保持部１１６には、顔検出部１１４において顔画像が検出されるのに従って、顔情報データが蓄積されていくことになる。
【００６８】
ストリーム記録部１９１は、撮像された動画データおよび顔情報データをストリームデータとして記録する記録媒体である。このストリーム記録部１９１は、例えばＤＶＤ−Ｖｉｄｅｏ規格によるディスクであり、図３のようにＶＯＢＵ内に映像パック７６５や音声パック７６６を記録するのと同様に、最終のＶＯＢＵまたは最終から所定数遡ったＶＯＢＵに顔情報データを顔情報パック７６９として格納する。
【００６９】
図１２は、本発明の実施の形態における撮像装置１００の顔インデックス表示のための機能構成例を示す図である。
【００７０】
操作受付部１１１およびストリーム記録部１９１は、図１１により説明したものと同様である。この例では、操作受付部１１１により受け付けられた操作入力に基づいて、ストリーム記録部１９１に記録された顔情報データがインデックスデータとして読み出される。
【００７１】
顔情報解析部１２２は、顔情報データを解析してインデックス表示の対象となる画像を特定するものである。具体的には、この顔情報解析部１２２は、顔情報パック７６９の顔検出情報における顔検出位置（図８のOFFSET）により、インデックス表示の対象となる画像を特定する。すなわち、ビデオオブジェクトセット（ＶＯＢＳ）の先頭からのパック単位の位置により、インデックス表示の対象となる画像が特定される。
【００７２】
アドレス生成部１２３は、顔情報解析部１２２から供給された顔検出位置に基づいてインデックス表示の対象となる画像にアクセスするためのストリーム記録部１９１におけるアドレスを生成するものである。上述の顔検出位置は２０４８バイトのパック単位であるため、パック単位の位置に２０４８を乗じたものがバイトアドレスとなる。
【００７３】
顔サムネイル生成部１２４は、アドレス生成部１２３によって生成されたアドレスによりストリーム記録部１９１から画像を取得して、その画像から顔サムネイル画像を生成するものである。具体的には、この顔サムネイル生成部１２４は、アドレス生成部１２３によって生成されたアドレスが示すＶＯＢＵに含まれるＩピクチャを取得し、そのＩピクチャを縮小することにより顔サムネイル画像を生成する。
【００７４】
顔インデックス生成部１２５は、顔サムネイル生成部１２４により生成された顔サムネイル画像を利用して顔インデックス表示画面を生成するものである。この顔インデックス表示画面については図１４を参照して後述する。
【００７５】
表示部１２６は、顔インデックス生成部１２５により生成された顔インデックス表示画面を表示するものである。
【００７６】
図１３は、本発明の実施の形態によるチャプター表示画面の一例を示す図である。このチャプター表示画面では、ディスクに記録されている各チャプターの代表画像がサムネイル８１１として表示されている。また、このサムネイル８１１の下部にはそのチャプターのタイトル番号およびチャプター番号８１２が表示されている。
【００７７】
この図１３の例では１枚の画面に６つのチャプターが表示されており、それ以外のチャプターを表示させたい場合には、画面ページを変更する必要がある。画面ページを変更するために使用されるのが前ページボタン８１８または次ページボタン８１９である。また、選択されたチャプターの顔インデックス表示画面を表示するためには、ユーザは顔インデックス表示ボタン８１７を押下する。
【００７８】
ユーザは、操作キーのメニュー・キーによってチャプター表示画面を呼び出し、四方向キーでハイライト表示を移動する。四方向キー真中の決定キーによって、選択したチャプターの再生開始やページの切替えを行うことができる。
【００７９】
なお、このチャプター表示画面のそれぞれのページを、画像データとしてＶＭＧＭ＿ＶＯＢＳ７３２に記録してもよい。サムネイル８１１の画像自体もメニューページの一部として貼り込まれている。一方、ユーザがリモコンなどにおける操作キーにより画面上のサムネイルを選択する際の選択枠８１５は、サブピクチャとして定義され、ＮＶ＿ＰＣＫ７６４のＰＣＩ７７２（図３）におけるハイライト情報（ＨＬＩ：HighLight Information）によりハイライト表示の制御が行われる。このようにメニューページとしてメディアに記録しておくことで、市販されているＤＶＤ再生装置でメディアを再生したときでも、顔インデックス表示画面を表示することができる。
【００８０】
図１４は、本発明の実施の形態による顔インデックス表示画面の一例を示す図である。チャプター表示画面において顔インデックス表示ボタン８１７が押下されると、選択されたチャプター８２１の顔インデックス表示画面が表示される。
【００８１】
この顔インデックス表示画面には、チャプター８２１において検出された顔の数が変化する点をシーンの区切りとして、各シーンの代表画像８２４が表示される。この顔インデックス表示画面においても、チャプター表示画面と同様に、リモコンなどにおける操作キーにより画面上の代表画像８２４を選択する際の選択枠８２５が表示される。
【００８２】
この図１４の例では１枚の画面に６つの代表画像が表示されており、それ以外の代表画像を表示させたい場合には、画面ページを変更する必要がある。画面ページを変更するために使用されるのが前ページボタン８２８または次ページボタン８２９である。また、この例では１枚の画面に３つのチャプターが表示されており、それ以外のチャプターを表示させたい場合には、表示チャプターを変更する必要がある。表示チャプターを変更するために使用されるのが前チャプターボタン８２２または次チャプターボタン８２３である。
【００８３】
この顔インデックス表示画面においても、ユーザは四方向キーでハイライト表示を移動する。四方向キー真中の決定キーによって、選択された代表画像に対応する位置からの再生開始やページの切替えを行うことができる。
【００８４】
図１５は、本発明の実施の形態における撮像装置１００の動画データ変換のための機能構成例を示す図である。図１１の例では撮像の際に顔検出を行って顔情報をストリームデータに格納する実施態様を示したが、ここでは動画データとは独立した動画情報が存在する場合に動画情報に基づいてストリームデータに変換する実施態様について説明する。例えば、顔情報が動画データ以外のメタファイルとして保存されている場合において、動画データおよび顔情報を１つのストリームデータとして記録することを想定する。
【００８５】
操作受付部１１１およびストリーム記録部１９１は、図１１により説明したものと同様である。この例では、操作受付部１１１により受け付けられたデータ変換指示入力に基づいて、データ変換が行われてストリームデータがストリーム記録部１９１に記録される。
【００８６】
動画データ保持部１８１は動画データを保持するものであり、動画情報保持部１８２はその動画データに関する動画情報を保持するものである。すなわち、ここでは、動画データに関する動画情報が動画データ保持部１８１とは別のファイルとして保持されていることを想定している。
【００８７】
データ変換部１３２は、操作受付部１１１からの指示に基づいて動画データ保持部１８１に保持される動画データをストリームデータの形式に変換するものであり、例えば処理装置３１により実現される。変換されたストリームデータは、記録制御部１３３に供給される。
【００８８】
記録制御部１３３は、データ変換部１３２によって変換されたストリームデータをストリーム記録部１９１に記録するよう制御するものであり、例えば記録再生処理部２０により実現される。
【００８９】
動画情報解析部１３４は、データ変換部１３２において変換対象となっている動画データに関する動画情報を動画情報保持部１８２から読み出して、その動画情報を解析してその顔画像に関する情報を取得するものであり、例えば処理装置３１により実現される。
【００９０】
顔情報生成部１３５は、動画情報解析部１３４によって取得された顔画像について、顔情報データを生成するものである。顔情報データのフォーマットは、例えば図８に示したとおりである。この顔情報生成部１３５により生成された顔情報データは、顔情報保持部１３６に保持される。
【００９１】
顔情報保持部１３６は、顔情報生成部１３５により生成された顔情報データを保持するものである。この顔情報保持部１３６には、動画情報解析部１３４において顔画像が取得されるのに従って、顔情報データが蓄積されていくことになる。この顔情報データは、記録制御部１３３によってストリームデータの一部として格納される。すなわち、図３のＶＯＢＵ内の映像パック７６５や音声パック７６６と同様に、最終のＶＯＢＵまたは最終から所定数遡ったＶＯＢＵに顔情報データが顔情報パック７６９としてストリーム記録部１９１に格納される。
【００９２】
図１６は、本発明の実施の形態における撮像装置１００の動画データ編集のための機能構成例を示す図である。ここでは、ストリーム記録部１９１に記録されているストリームデータが分割編集された際に、顔情報データが更新される実施態様について説明する。
【００９３】
操作受付部１１１およびストリーム記録部１９１は、図１１により説明したものと同様である。この例では、操作受付部１１１により受け付けられたデータ編集指示入力に基づいて、ストリーム記録部１９１に記録されているストリームデータの編集が行われる。
【００９４】
ストリーム編集部１４２は、ストリーム記録部１９１に記録されているストリームデータを、操作受付部１１１により受け付けられたデータ編集指示入力に基づいて分割編集するものである。
【００９５】
顔情報更新部１４３は、ストリーム編集部１４２によって分割編集されたストリームデータについて顔情報データを更新するものである。すなわち、分割点以降のストリームデータについては、元の顔情報データから分割点以前の顔情報データを削除する。一方、分割点以前のストリームデータについては、元の顔情報データから分割点以前の顔情報データを抽出して、新たな顔情報データとして追加する。これら分割点以前の顔情報データおよび分割点以降のストリームデータは、それぞれ別個のストリームデータとして、ストリーム編集部１４２を介してストリーム記録部１９１に記録される。
【００９６】
次に本発明の実施の形態における撮像装置１００の動作について図面を参照して説明する。
【００９７】
図１７は、本発明の実施の形態における撮像時の顔情報生成方法の処理手順例を示す図である。
【００９８】
まず、操作受付部１１１により撮像の指示がなされると、撮像部１１２において撮像された動画データを構成する各画像について、顔検出部１１４がその各画像に含まれる顔画像を検出して、その顔画像に関する情報を取得する（ステップＳ９１１）。そして、顔情報生成部１１５は、ステップＳ９１１において検出された顔画像について、顔情報データを生成する（ステップＳ９１２）。これらの処理が、チャプターの終了に至るまで繰り返される（ステップＳ９１３）。
【００９９】
そして、１チャプター分の撮像の終了時に、撮像された動画データに関する顔情報が記録制御部１１３によってストリーム記録部１９１に記録される（ステップＳ９１４）。具体的には、最終のＶＯＢＵまたは最終から所定数遡ったＶＯＢＵに顔情報パック７６９が格納される。
【０１００】
図１８は、本発明の実施の形態における顔インデックス表示方法の処理手順例を示す図である。
【０１０１】
まず、ストリーム記録部１９１に記録された顔情報データが顔情報解析部１２２によって解析され、インデックス表示の対象となる画像が特定される（ステップＳ９２１）。その特定されたインデックス表示の対象となる画像にアクセスするためのストリーム記録部１９１におけるアドレスがアドレス生成部１２３によって生成される（ステップＳ９２２）。この生成されたアドレスの示すＶＯＢＵに含まれるＩピクチャが顔サムネイル生成部１２４によって取得され（ステップＳ９２３）、そのＩピクチャを縮小することにより顔サムネイル画像が生成される（ステップＳ９２４）。
【０１０２】
このようにして生成された顔サムネイル画像を利用して、顔インデックス生成部１２５によって顔インデックス表示画面が生成され（ステップＳ９２５）、表示部１２６に顔インデックス表示画面が表示される（ステップＳ９２６）。
【０１０３】
図１９は、本発明の実施の形態における動画データ変換時の顔情報生成方法の処理手順例を示す図である。
【０１０４】
まず、データ変換部１３２において変換対象となっている動画データに関する動画情報が動画情報保持部１８２から読み出され、動画情報解析部１３４がその動画情報を解析してその顔画像に関する情報を取得する（ステップＳ９３１）。顔情報生成部１３５は、ステップＳ９３１において取得された顔画像について、顔情報データを生成する（ステップＳ９３２）。そして、動画データの変換終了時に、変換された動画データに関する顔情報が記録制御部１１３によってストリーム記録部１９１に記録される（ステップＳ９３４）。具体的には、最終のＶＯＢＵまたは最終から所定数遡ったＶＯＢＵに顔情報パック７６９が格納される。
【０１０５】
図２０は、本発明の実施の形態における動画データ編集時の顔情報データ更新方法の処理手順例を示す図である。
【０１０６】
まず、操作受付部１１１により受け付けられたデータ編集指示入力に基づいて、ストリーム編集部１４２はストリーム記録部１９１に記録されているストリームデータを分割編集する（ステップＳ９４１）。そして、分割点以前のストリームデータについては、元のストリームデータの顔情報データから分割点以前の顔情報データが抽出され、新たな顔情報データとして追加される（ステップＳ９４２）。一方、分割点以降のストリームデータについては、元のストリームデータの顔情報データから分割点以前の顔情報データが削除される（ステップＳ９４３）。
【０１０７】
このように、本発明の実施の形態によれば、顔情報生成部１１５によって生成された顔情報パック７６９を最終のＶＯＢＵまたは最終から所定数遡ったＶＯＢＵに格納しておくことによって、動画データの転送後においてもその動画データの各シーンに関する顔情報を維持することができるとともに、この顔情報に基づいて顔サムネイル生成部１２４および顔インデックス生成部１２５によって顔インデックス表示画面を生成して、表示部１２６に表示することができる。また、顔情報の生成は、撮像時の他、異なるフォーマット間のデータ変換時にも行うことができる。また、ストリームデータの分割編集の際には、分割された両ストリームデータの最終のＶＯＢＵまたは最終から所定数遡ったＶＯＢＵに顔情報パックを格納することができる。
【０１０８】
なお、本発明の実施の形態では、顔画像の数が変化する点をシーンの切れ目として動画データの代表画像を生成しているが、これ以外をシーンの切れ目とすることもできる。一般に、動画データに含まれる複数の画像に関する情報を属性情報とすると、この属性情報としては、画像自体の特徴の他、画像に対応する音声の状態や、その画像が撮像された場所や時刻などの情報が含まれる。例えば、時計回路３９、角速度検出器３８およびＧＰＳ受信部４４により取得された情報を属性情報として、これら属性情報の変化点をシーンの切れ目とすることができる。
【０１０９】
また、本発明の実施の形態では、アドレス生成部１２３において生成されたアドレスが示すＶＯＢＵに含まれるＩピクチャから、顔サムネイル生成部１２４が顔サムネイル画像を生成することを想定したが、顔サムネイル画像を予め生成しておいて顔情報データに格納しておいてもよい。この場合、顔サムネイル生成部１２４は、顔情報データから顔サムネイル画像を読み出して、顔インデックス生成部１２５に供給する。
【０１１０】
なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、以下に示すように特許請求の範囲における発明特定事項とそれぞれ対応関係を有するが、これに限定されるものではなく本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。
【０１１１】
すなわち、請求項１において、属性情報検出手段は例えば顔検出部１１４に対応する。また、インデックスデータ生成手段は例えば顔情報生成部１１５に対応する。また、ストリームデータ生成手段は例えば記録制御部１１３に対応する。
【０１１２】
また、請求項５において、撮像手段は例えば撮像部１１２に対応する。また、属性情報検出手段は例えば顔検出部１１４に対応する。また、インデックスデータ生成手段は例えば顔情報生成部１１５に対応する。また、ストリームデータ生成手段は例えば記録制御部１１３に対応する。
【０１１３】
また、請求項６において、属性情報解析手段は例えば顔情報解析部１２２に対応する。また、位置生成手段は例えばアドレス生成部１２３に対応する。また、代表画像生成手段は例えば顔サムネイル生成部１２４に対応する。また、インデックス表示画面生成手段は例えば顔インデックス生成部１２５に対応する。
【０１１４】
また、請求項６において、撮像手段は例えば撮像部１１２に対応する。また、属性情報検出手段は例えば顔検出部１１４に対応する。また、インデックスデータ生成手段は例えば顔情報生成部１１５に対応する。また、ストリームデータ生成手段は例えば記録制御部１１３に対応する。属性情報解析手段は例えば顔情報解析部１２２に対応する。また、位置生成手段は例えばアドレス生成部１２３に対応する。また、代表画像生成手段は例えば顔サムネイル生成部１２４に対応する。また、インデックス表示画面生成手段は例えば顔インデックス生成部１２５に対応する。
【０１１５】
また、請求項１０および１１において、属性情報検出手順は例えばステップＳ９１１に対応する。また、インデックスデータ生成手順は例えばステップＳ９１２に対応する。また、ストリームデータ生成手順は例えばステップＳ９１４に対応する。また、属性情報解析手順は例えばステップＳ９２１に対応する。また、位置生成手順は例えばステップＳ９２２に対応する。また、代表画像生成手順は例えばステップＳ９２３およびＳ９２４に対応する。また、インデックス表示画面生成手順は例えばステップＳ９２５に対応する。
【０１１６】
なお、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。
【図面の簡単な説明】
【０１１７】
【図１】ＤＶＤ−Ｖｉｄｅｏ規格によるディスクのデータ構造を示す図である。
【図２】ビデオタイトルセット（ＶＴＳ）におけるタイトルとチャプターとの関係を示す図である。
【図３】ビデオオブジェクトセット（ＶＯＢＳ）の構成要素を示す図である。
【図４】ビデオオブジェクトユニット（ＶＯＢＵ）と符号化画像との関係を示す図である。
【図５】プログラムチェイン（ＰＧＣ）におけるプログラムチェイン情報（ＰＧＣＩ）とビデオオブジェクトセット（ＶＯＢＳ）との関係を示す図である。
【図６】ビデオタイトルセット情報（ＶＴＳＩ）のデータ構造を示す図である。
【図７】本発明の実施の形態における顔情報パック７６９の内部構成例を示す図である。
【図８】本発明の実施の形態における顔情報データの構成例を示す図である。
【図９】本発明の実施の形態における顔情報データにより代表画像が特定される様子を示す図である。
【図１０】本発明の実施の形態における映像記録装置としての撮像装置１００の構成を示す図である。
【図１１】本発明の実施の形態における撮像装置１００の顔情報生成のための機能構成例を示す図である。
【図１２】本発明の実施の形態における撮像装置１００の顔インデックス表示のための機能構成例を示す図である。
【図１３】本発明の実施の形態によるチャプター表示画面の一例を示す図である。
【図１４】本発明の実施の形態による顔インデックス表示画面の一例を示す図である。
【図１５】本発明の実施の形態における撮像装置１００の動画データ変換のための機能構成例を示す図である。
【図１６】本発明の実施の形態における撮像装置１００の動画データ編集のための機能構成例を示す図である。
【図１７】本発明の実施の形態における撮像時の顔情報生成方法の処理手順例を示す図である。
【図１８】本発明の実施の形態における顔インデックス表示方法の処理手順例を示す図である。
【図１９】本発明の実施の形態における動画データ変換時の顔情報生成方法の処理手順例を示す図である。
【図２０】本発明の実施の形態における動画データ編集時の顔情報データ更新方法の処理手順例を示す図である。
【符号の説明】
【０１１８】
１０カメラ部
１１光学ブロック
１２カメラ制御部
１３信号変換器
１４撮像信号処理部
１５音声入力部
１６音声信号処理部
２０記録再生処理部
２１符号化／復号回路
２３ディスクインターフェース
２４出力処理部
２５バッファメモリ
２７〜２９出力端子
３０制御部
３１処理装置
３２システムバス
３３ＲＯＭ
３４ＲＡＭ
３５操作入力インターフェース
３６表示制御部
３７メモリカードインターフェース
３８角速度検出器
３９時計回路
４１操作入力部
４２表示部
４３メモリカード
４４ＧＰＳ受信部
１００撮像装置
１１１操作受付部
１１２撮像部
１１３、１３３記録制御部
１１４顔検出部
１１５、１３５顔情報生成部
１１６、１３６顔情報保持部
１２２顔情報解析部
１２３アドレス生成部
１２４顔サムネイル生成部
１２５顔インデックス生成部
１２６表示部
１３２データ変換部
１３４動画情報解析部
１４２ストリーム編集部
１４３顔情報更新部
１８１動画データ保持部
１８２動画情報保持部
１９１ストリーム記録部

【特許請求の範囲】
【請求項１】
動画データに含まれる複数の画像について属性情報を検出する属性情報検出手段と、
前記属性情報と前記複数の画像のうち当該属性情報に対応する画像の前記動画データにおける位置とを関連付けたインデックスデータを生成するインデックスデータ生成手段と、
前記動画データおよび前記インデックスデータを含むストリームデータを生成するストリームデータ生成手段と
を具備する画像処理装置。
【請求項２】
前記属性情報は、当該属性情報に対応する画像の特徴量であることを特徴とする請求項１記載の画像処理装置。
【請求項３】
前記属性情報検出手段は、前記特徴量として前記複数の画像に含まれる顔画像の数を検出することを特徴とする請求項２記載の画像処理装置。
【請求項４】
前記ストリームデータ生成手段は、ビデオオブジェクトユニットを単位として前記ストリームデータを生成し、前記インデックスデータを最終のビデオオブジェクトユニットに格納することを特徴とする請求項３記載の画像処理装置。
【請求項５】
被写体を撮像して動画データを生成する撮像手段と、
前記動画データに含まれる複数の画像について属性情報を検出する属性情報検出手段と、
前記属性情報と前記複数の画像のうち当該属性情報に対応する画像の前記動画データにおける位置とを関連付けたインデックスデータを生成するインデックスデータ生成手段と、
前記動画データおよび前記インデックスデータを含むストリームデータを生成するストリームデータ生成手段と
を具備する撮像装置。
【請求項６】
動画データに含まれる複数の画像の位置と当該画像に関する属性情報とを関連付けたインデックスデータを前記動画データとともに格納するストリームデータからインデックス表示画面を生成するインデックス生成装置であって、
前記属性情報を解析してインデックス表示の対象となる画像を特定する属性情報解析手段と、
前記特定された画像の前記動画データにおける位置を生成する位置生成手段と、
前記生成された位置に基づいて前記動画データの代表画像を生成する代表画像生成手段と、
前記代表画像に基づいて前記インデックス表示画面を生成するインデックス表示画面生成手段と
を具備することを特徴とするインデックス生成装置。
【請求項７】
前記属性情報は、当該属性情報に対応する画像の特徴量であることを特徴とする請求項６記載の画像処理装置。
【請求項８】
前記特徴量は、前記複数の画像に含まれる顔画像の数を示し、
前記属性情報解析手段は、前記複数の画像に含まれる顔画像の数が変化する画像を前記インデックス表示の対象となる画像として特定することを特徴とする請求項７記載の画像処理装置。
【請求項９】
被写体を撮像して動画データを生成する撮像手段と、
前記動画データに含まれる複数の画像について属性情報を検出する属性情報検出手段と、
前記属性情報と前記複数の画像のうち当該属性情報に対応する画像の前記動画データにおける位置とを関連付けたインデックスデータを生成するインデックスデータ生成手段と、
前記動画データおよび前記インデックスデータを含むストリームデータを生成するストリームデータ生成手段と、
前記ストリームデータに含まれる属性情報を解析してインデックス表示の対象となる画像を特定する属性情報解析手段と、
前記特定された画像の前記動画データにおける位置を生成する位置生成手段と、
前記生成された位置に基づいて前記動画データの代表画像を生成する代表画像生成手段と、
前記代表画像に基づいて前記インデックス表示画面を生成するインデックス表示画面生成手段と
を具備する撮像装置。
【請求項１０】
動画データに含まれる複数の画像について属性情報を検出する属性情報検出手順と、
前記属性情報と前記複数の画像のうち当該属性情報に対応する画像の前記動画データにおける位置とを関連付けたインデックスデータを生成するインデックスデータ生成手順と、
前記動画データおよび前記インデックスデータを含むストリームデータを生成するストリームデータ生成手順と、
前記ストリームデータに含まれる属性情報を解析してインデックス表示の対象となる画像を特定する属性情報解析手順と、
前記特定された画像の前記動画データにおける位置を生成する位置生成手順と、
前記生成された位置に基づいて前記動画データの代表画像を生成する代表画像生成手順と、
前記代表画像に基づいて前記インデックス表示画面を生成するインデックス表示画面生成手順と
を具備することを特徴とするインデックス生成方法。
【請求項１１】
動画データに含まれる複数の画像について属性情報を検出する属性情報検出手順と、
前記属性情報と前記複数の画像のうち当該属性情報に対応する画像の前記動画データにおける位置とを関連付けたインデックスデータを生成するインデックスデータ生成手順と、
前記動画データおよび前記インデックスデータを含むストリームデータを生成するストリームデータ生成手順と、
前記ストリームデータに含まれる属性情報を解析してインデックス表示の対象となる画像を特定する属性情報解析手順と、
前記特定された画像の前記動画データにおける位置を生成する位置生成手順と、
前記生成された位置に基づいて前記動画データの代表画像を生成する代表画像生成手順と、
前記代表画像に基づいて前記インデックス表示画面を生成するインデックス表示画面生成手順と
をコンピュータに実行させることを特徴とするプログラム。

【図１】