ヒント情報記述方法

【課題】メタデータの解析及び再生成に伴う処理コスト（処理量やメモリ使用量等）を低減することができるヒント情報記述方法を得る。
【解決手段】動画像や音声を含むマルチメディアコンテンツを複数のシーンに分割し、分割したシーン毎にメタデータを生成する。シーンの区間情報やタイトルのほかに、前記コンテンツの階層的な構造を記述するシーン構造情報メタデータを含むメタデータを生成することができる。また、メタデータに含まれる記述子の名称または識別子が、コンテンツの意味内容、構造、特徴を記述する１つまたは複数の記述子から成るメタデータを操作する際のヒント情報として、記述されている。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、メタデータ再生成のためのヒント情報を記述するヒント情報記述方法に関するものである。
【背景技術】
【０００２】
従来の動画像管理装置では、映像を複数のシーンに分割してから、各シーンの再生に必要な区間情報とシーン番号とシーンを代表する画像の集まりであるインデックスを編集し、１つ以上のインデックスを作成する手段と、各インデックスには検索目的を示したタイトルを付与する手段と、検索時には、タイトルでインデックスを検索し、シーン番号の順番に従ってインデックスのシーンを次々に再生する手段とから構成することで、必要なシーンが並ぶようにインデックスを編集することで、必要なシーンだけを再生することができる（例えば、特許文献１参照）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００１−０２８７２２号公報（第１頁、図１）
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、上述した従来の動画像管理装置では、メタデータ再生成のためにメタデータに含まれるすべての記述子を解析しなければならないという問題点があった。
【０００５】
この発明は、前述した問題点を解決するためになされたもので、メタデータ再生成のためのメタデータ自体の解析を省くことができ、また出現位置や出現回数により、再生成条件に合致しない記述子の解析を省くことができるため、メタデータの解析及び再生成に伴う処理コスト（処理量やメモリ使用量等）を低減することができるヒント情報記述方法を得ることを目的とする。
【課題を解決するための手段】
【０００６】
この発明に係るヒント情報記述方法は、コンテンツの意味内容、構造、特徴を記述する１つまたは複数の記述子から成るメタデータを操作する際のヒント情報として、メタデータに含まれる各記述子がとり得る値の範囲を記述するものである。
【発明の効果】
【０００７】
この発明に係るヒント情報記述方法は、メタデータ再生成のためのメタデータ自体の解析を省くことができ、また出現位置や出現回数により、再生成条件に合致しない記述子の解析を省くことができるため、メタデータの解析及び再生成に伴う処理コスト（処理量やメモリ使用量等）を低減することができるという効果を奏する。
【図面の簡単な説明】
【０００８】
【図１】この発明の実施の形態１に係るメタデータ編集装置の構成を示すブロック図である。
【図２】この発明の実施の形態１に係るメタデータ編集装置の編集対象の一例であるニュース映像を示す図である。
【図３】この発明の実施の形態１に係るメタデータ編集装置のシーン分割部のシーンの区間情報メタデータの一例を示す図である。
【図４】この発明の実施の形態１に係るメタデータ編集装置のシーン記述編集部のシーン構造情報メタデータの一例を示す図である。
【図５】この発明の実施の形態１に係るメタデータ編集装置のコンテンツ再生・表示部、ユーザ入力部の画面イメージ例を示す図である。
【図６】この発明の実施の形態２に係るメタデータ編集装置の構成を示すブロック図である。
【図７】この発明の実施の形態２に係るメタデータ編集装置の動作を説明するための図である。
【図８】この発明の実施の形態３に係るメタデータ再生装置の構成を示すブロック図である。
【図９】この発明の実施の形態３に係るメタデータ再生装置の動作を説明するための図である。
【図１０】この発明の実施の形態４に係るコンテンツ配信システムの構成を示すブロック図である。
【図１１】この発明の実施の形態４に係るメタデータ配信サーバのメタデータ解析部から出力されるコンテンツ（ニュース映像の例）の構造情報を示す図である。
【図１２】この発明の実施の形態４に係るコンテンツ配信システムのメタデータ再生成部による再構成後のコンテンツの構造例を示す図である。
【図１３】この発明の実施の形態５に係るメタデータ配信サーバの構成を示すブロック図である。
【図１４】この発明の実施の形態５に係るメタデータ配信サーバによる、メタデータ最適化ヒント情報について説明するためのビデオコンテンツの一例を示す図である。
【図１５】この発明の実施の形態５に係るメタデータ配信サーバによる、ＭＰＥＧ−７を用いた場合のメタデータの記述例を示す図である。
【図１６】この発明の実施の形態５に係るメタデータ配信サーバが用いるメタデータ最適化ヒント情報のフォーマット例を示す図である。
【図１７】この発明の実施の形態５に係るメタデータ配信サーバが用いるメタデータ最適化ヒント情報を示す図である。
【図１８】この発明の実施の形態５に係るメタデータ配信サーバのメタデータ解析・再生成部の動作を示すフローチャートである。
【図１９】この発明の実施の形態５に係るメタデータ配信サーバのメタデータ解析・再生成部の動作を示すフローチャートである。
【図２０】この発明の実施の形態６に係るメタデータ検索サーバの構成を示すブロック図である。
【図２１】この発明の実施の形態６に係るメタデータ検索サーバのメタデータ解析部の動作を示すフローチャートである。
【図２２】この発明の実施の形態７に係るクライアント端末の構成を示すブロック図である。
【図２３】この発明の実施の形態８に係るコンテンツ配信サーバの構成を示すブロック図である。
【発明を実施するための形態】
【０００９】
以下、この発明の実施の形態１及び２に係るメタデータ編集装置、実施の形態３に係るメタデータ再生装置、実施の形態４に係るコンテンツ配信システム、実施の形態５に係るメタデータ配信サーバ、実施の形態６に係るメタデータ検索サーバ、実施の形態７に係るクライアント端末、並びに実施の形態８に係るコンテンツ配信サーバについて、図面に基づき説明する。
【００１０】
実施の形態１．
この実施の形態１では、動画像や音声を含むマルチメディアコンテンツを複数のシーンに分割し、シーンの階層的な構造記述や、各シーンの特徴量を含むメタデータ（インデックス情報）を作成するメタデータ編集装置について説明する。
【００１１】
この発明の実施の形態１に係るメタデータ編集装置について図面を参照しながら説明する。図１は、この発明の実施の形態１に係るメタデータ編集装置の構成を示すブロック図である。なお、各図中、同一符号は同一又は相当部分を示す。
【００１２】
図１において、メタデータ編集装置１００は、コンテンツ再生・表示部２と、シーン分割部３と、サムネイル画像生成部４と、シーン記述編集部５と、テキスト情報付与部６と、特徴抽出部７と、ユーザ入力部８と、メタデータ記述部９とを備える。
【００１３】
コンテンツ再生・表示部２は、映像データや音声データ等からなる編集対象のマルチメディアコンテンツ１０を再生・表示する。シーン分割部３は、コンテンツを複数のシーンに分割する。サムネイル画像生成部４は、シーンの代表フレームをサムネイル画像として抽出する。シーン記述編集部５は、シーン分割部３により分割されたシーンのグループ化、シーンの結合、シーンの削除、シーンの関係情報の生成などによりシーンを階層的に編集する。テキスト情報付与部６は、各シーンに対して各種のテキスト情報を付加する。特徴抽出部７は、シーンの特徴を抽出する。
【００１４】
また、ユーザ入力部８は、コンテンツ再生・表示部２、シーン分割部３、サムネイル画像生成部４、シーン記述編集部５およびテキスト情報付与部６に対して、ユーザからの指示情報をユーザ入力情報１１として出力する。
【００１５】
さらに、メタデータ記述部９は、シーン分割部３、サムネイル画像生成部４、シーン記述編集部５、テキスト情報付与部６および特徴抽出部７より出力されるシーンの区間情報メタデータ１２、シーンのサムネイル画像情報メタデータ１３、シーン構造情報メタデータ１４、テキスト情報メタデータ１５、及び特徴記述メタデータ１６を統合し、規定のフォーマットに従ってマルチメディアコンテンツの内容及び構造を記述したメタデータ１７を生成する。
【００１６】
つぎに、この実施の形態１に係るメタデータ編集装置の動作について図面を参照しながら説明する。図２は、この実施の形態１に係るメタデータ編集装置の編集対象の一例であるニュース映像の構成を示す図である。
【００１７】
図２に示す構成のニュース映像を編集する場合を例に説明する。
【００１８】
まず、メタデータ編集装置１００のコンテンツ再生・表示部２は、コンテンツ記憶部（図示せず）に記憶されている映像コンテンツ等のマルチメディアコンテンツ１０がネットワーク等を介し入力されと、編集用に再生・表示する。
【００１９】
メタデータ編集装置１００のユーザがその再生映像を見ながら、シーンとして切り出す位置、すなわちシーンの開始位置と、終了位置とをユーザ入力部８より入力すると、シーン分割部３は、ユーザから入力されたシーンの開始位置と終了位置とを示すシーンの区間情報メタデータ１２を生成する。
【００２０】
図３は、本実施の形態１に係るメタデータ編集装置のシーン分割部のシーンの区間情報メタデータの一例を示す図である。
【００２１】
この図３に示す区間情報メタデータ１２は、図２に示すニュース映像から生成した例を示す。図３に示すように、シーン分割部３によって、ニュース映像コンテンツから切り出された“ニュースダイジェスト”、“国内ニュース”や、“国際ニュース”等の各シーンに対して、シーンの開始位置と、終了位置の区間情報を示すシーンの区間情報メタデータ１２が生成される。
【００２２】
シーン記述編集部５では、ユーザからユーザ入力部８を介しシーン編集の指示があると、シーン分割部３からのシーンの区間情報メタデータ１２に基づき、シーン分割部３で連続的に切り出されたシーンの階層的な編集を行ない、シーン構造情報メタデータ１４を出力する。シーンの階層的編集とは、例えば、シーンのグループ化、シーンの再分割、シーンの結合、シーンの削除がある。シーンのグループ化とは、例えば、図２に示すニュース映像から、例えば図４に示すように「国内ニュース」、「国際ニュース」、「経済ニュース」等のある特定の特徴で関連あるシーンをひとつの「ニュース」グループにまとめることをいう。また、シーンの再分割とは、１つのシーンを複数のシーンに分割することである。シーンの結合とは、複数のシーンをまとめて１つのシーンとすることである。
【００２３】
図４は、本実施の形態１に係るメタデータ編集装置のシーン記述編集部のシーン構造情報メタデータの一例を示す図である。
【００２４】
この図４に示すシーン構造情報メタデータ１４は、シーン記述編集部５での編集の結果、生成された映像コンテンツの階層的な構造を記述する。図４では、シーン記述編集部５で、シーンのグループ化や、シーンの再分割、シーンの結合等のシーンの編集により、“ニュース”というシーンが、“ニュースダイジェスト”、“ニュース”、“特集”、“スポーツ”等に編集され、さらにその“ニュース”が“国内ニュース”、“国際ニュース”、“経済ニュース”の階層的に編集されたことを示している。
【００２５】
そして、シーン記述編集部５で生成された例えば図４に示すメタデータ１４は、メタデータ記述部９へ出力される。
【００２６】
一方、サムネイル画像生成部４では、シーン分割部３からのシーンの区間情報メタデータ１２に基づき、シーン分割部３で切り出された各シーンの中から代表フレームをサムネイル画像として生成し、生成したサムネイル情報をサムネイル画像情報メタデータ１３としてメタデータ記述部９へ出力し、メタデータ記述部９に登録する。ここで、ユーザはユーザ入力部８より、サムネイルの選択を行うこともできるが、自動的に、先頭フレームや固定時間間隔の複数フレームを代表フレームとしたり、シーンチェンジ点を自動検出し、それらのフレームを代表フレームとしたりすることもできる。サムネイル画像情報メタデータ１３は、映像コンテンツの中のサムネイルの位置情報（フレーム番号または時間）、または、サムネイル画像のＵＲＬなどのロケーション情報になる。
【００２７】
また、特徴抽出部７では、シーン分割部３からのシーンの区間情報メタデータ１２に基づき、各シーンの中から、動き、色、あるいはシーン内に含まれるオブジェクトの形状など、シーンがもつ視覚的特徴量を抽出する。抽出された特徴量は、特徴記述メタデータ１６として、メタデータ記述部９へ出力され、登録される。
【００２８】
また、テキスト情報付与部６では、シーン分割部３からのシーンの区間情報メタデータ１２に基づき、各シーンに対して、ユーザがタイトル、アブストラクト、キーワード、コメント、シーンの重要度などの各種のテキスト情報を付与する。テキスト情報の付与は、ユーザ入力部８よりユーザが入力する場合と、コンテンツに含まれる音声情報やキャプションを解析することにより、自動的に付与する場合がある。テキスト情報は、テキスト情報メタデータ１５として、メタデータ記述部９へ出力し、メタデータ記述部９に登録する。
【００２９】
図５は、この実施の形態１に係るメタデータ編集装置のコンテンツ再生・表示部や、ユーザ入力部８の画面イメージ例を示す。図５において、ビデオ再生画面Ｇ１は、コンテンツ再生・表示部２における画面イメージ例に相当し、このビデオ再生画面Ｇ１では、編集用のコンテンツを再生・表示する。図５には、明示していないが、「再生」、「停止」、「巻き戻し」、「早送り」、「コマ送り」再生用の指示ボタンなど、通常のビデオ再生装置に備えられているユーザインタフェースを備えているものとする。そして、このビデオ再生画面Ｇ１の下方にはシーン分割指示画面Ｇ２が表示されている。このシーン分割指示画面Ｇ２は、例えば、スライダー形式になっており、ビデオ再生画面Ｇ１に表示される映像を見ながら、ユーザがビデオ再生画面Ｇ１に表示される映像シーンの開始位置と終了位置とを指示することができる。また、シーン分割指示画面Ｇ２は、同時に、シーンの開始位置と終了位置との間で、サムネイルの位置を指示することができる。ここで、シーン分割指示画面Ｇ２によりサムネイルの位置が指定されると、映像コンテンツの指定された位置のフレームからサムネイル画像生成部４がサムネイル画像を生成することになる。
【００３０】
また、シーン分割指示画面Ｇ２により位置が指定されたサムネイル画像は、シーンの分割情報として、シーン分割情報表示画面Ｇ３に表示される。このシーン分割情報表示画面Ｇ３では、サムネイル画像のほか、図３に示すようにシーンごとにシーンの開始位置と終了位置とを示す情報を表示することもできる。
【００３１】
次に、ツリー構造生成指示・表示画面Ｇ４では、シーンの編集をユーザに対し指示する。ユーザは、シーン分割情報表示画面Ｇ３に表示されているサムネイル画像等のシーン分割情報を見ながら、映像コンテンツのもつ階層構造を表すツリーを生成する。
【００３２】
操作方法としては、例えば、シーンのグループ化を行う場合には、ツリー上に新しいノードを追加し、そのノードにグループ化したいシーンを追加していく。シーンの追加の操作は、追加したいシーンをシーン分割情報表示画面Ｇ３上で選択し、ドラッグ・アンド・ドロップにより、ノードにシーンを追加するなどの方法が考えられる。シーン分割情報表示画面Ｇ３、ツリー構造生成指示・表示画面Ｇ４では、シーンを選択することにより、そのシーンに対してテキスト情報付与部６を介してテキスト情報を付与するためのユーザインタフェースとしてユーザ入力部８が提供され、シーンに対するテキスト情報を入力することができる。
【００３３】
メタデータ記述部９は、シーン分割部３、サムネイル画像生成部４、シーン記述編集部５、テキスト情報付与部６および特徴抽出部７より出力される各種メタデータを統合し、規定の記述フォーマットに従って記述したメタデータファイルを生成する。メタデータの規定の記述フォーマットは、独自に定めたフォーマットで記述することもできるが、本実施の形態１では、ＩＳＯで標準化されているＭＰＥＧ−７を使うことにする。このＭＰＥＧ−７は、コンテンツの構造や特徴を記述するフォーマットを規定するものであり、ＸＭＬファイルフォーマットとバイナリフォーマットがある。
【００３４】
従って、本実施の形態１のメタデータ編集装置１００によれば、シーンを階層的に編集するシーン記述編集部５や、シーンから特徴を抽出する特徴抽出部７を設けるようにしたので、ビデオデータ等のコンテンツのもつ階層的な構造や各シーンの特徴量を記述したメタデータを生成することができる。
【００３５】
なお、コンテンツ再生・表示部２に入力されるマルチメディアコンテンツ１０は、ネットワーク上にあるコンテンツサーバ（図示せず）から取得する場合や、メタデータ編集装置１００内にあるコンテンツ記憶部（図示せず）より取得する場合、ＣＤやＤＶＤ等の蓄積媒体（図示せず）より取得する場合など様々な場合が想定される。同様に、メタデータ記述部９より出力されるメタデータは、ネットワーク上にあるメタデータサーバ（図示せず）に蓄積される場合や、メタデータ編集装置内にあるメタデータ蓄積部（図示せず）に蓄積される場合、ＣＤやＤＶＤ等の蓄積媒体（図示せず）にコンテンツとともに蓄積される場合などが想定される。
【００３６】
また、本実施の形態１では、シーン記述編集部５と、特徴抽出部７との両者を設けて説明したが、これに限らず、シーン記述編集部５のみを設けたり、特徴抽出部７のみを設けるようにしても勿論良い。
【００３７】
実施の形態２．
上記の実施の形態１では、シーンの分割をすべて手動で行っていたが、この実施の形態２では、シーンチェンジ点を自動検出するシーンチェンジ検出部を備えたことを特徴とするデータ編集装置について説明する。
【００３８】
この発明の実施の形態２に係るメタデータ編集装置について図面を参照しながら説明する。図６は、この発明の実施の形態２に係るメタデータ編集装置の構成を示すブロック図である。
【００３９】
図６において、メタデータ編集装置１００Ａは、コンテンツ再生・表示部２と、シーン分割部３と、サムネイル画像生成部４と、シーン記述編集部５と、テキスト情報付与部６と、特徴抽出部７と、ユーザ入力部８と、メタデータ記述部９と、シーンチェンジ検出部３９とを備える。なお、符号４０は、自動検出されたシーン開始位置情報である。
【００４０】
つぎに、この実施の形態２に係るメタデータ編集装置の動作について図面を参照しながら説明する。
【００４１】
図７は、この発明の実施の形態２に係るメタデータ編集装置の動作を説明するための図である。
【００４２】
シーンチェンジ検出部３９と、シーン分割部３以外の動作は、上記実施の形態１と同じである。実施の形態２特有の動作を説明する。
【００４３】
シーンチェンジ検出部３９は、自動的にシーンチェンジ、カット点検出を行う。シーンチェンジ検出は、例えば、フレーム間画素差分や、フレーム間の色や、輝度のヒストグラム差分などに基づいて行う。シーン分割部３は、シーンチェンジ検出部３９で検出されたシーンチェンジ点に基づき、シーンの開始位置と終了位置を決定する。
【００４４】
ここで、シーンチェンジ検出部３９とシーン分割部３の処理について、編集対象のコンテンツがニュース映像の場合を例に詳述する。
【００４５】
シーンチェンジ検出のための特徴量として、色のヒストグラムを用いる場合を例に説明する。
【００４６】
シーンチェンジ検出部３９では、１フレームごとに色のヒストグラムを算出する。表色系としては、ＨＳＶ、ＲＧＢ、ＹＣｂＣｒなどがあるが、ここでは、ＨＳＶ色空間を用いる。このＨＳＶ色空間は、色相（Ｈ）、彩度（Ｓ）、明度（Ｖ）の３要素から構成される。各要素のヒストグラムを算出する。次に、求められたヒストグラムから、例えば下記の（式１）に基づき、フレーム間のヒストグラム差分を算出する。シーンの開始フレームから、Ｎフレーム（例えばＮ＝３）は、同一シーン、すなわち、シーンチェンジ点がないものと仮定する。なお、シーンの初期特徴量として、下記の（式２）に基づき、最初のＮフレーム間のヒストグラム差分の平均（ｍｅａｎ）と標準偏差（ｓｄ）を求める。
【００４７】
【数１】

【００４８】
そして、Ｎ＋１フレーム以降は、ヒストグラムのフレーム間差分がｍｅａｎ＋λ・ｓｄより大きくなったフレームをシーンチェンジ点とし、新しいシーンの開始位置候補とする。
【００４９】
シーンの開始位置候補が複数得られたら、次に、ニュース映像のように、ニュースの切り替わりなどで決まったパターンの画像が挿入される場合を考える。
【００５０】
ニュース映像は、ニュースの切り替わりで、例えば、アナウンサーと背景のスタジオセット、説明の文字（キャプション）により構成された画像など、決まったパターンの画像が挿入されることが多い。従って、これらの決まったパターンの画像（テンプレート画像と称する）、またはテンプレート画像の特徴量を記述したメタデータを予め登録しておく。テンプレート画像の特徴量とはテンプレート画像の色のヒストグラム、あるいは、動きのパターン（ニュースの切り替わりで、アナウンサーが写る部分は動きが少ないなど）などが挙げられる。
【００５１】
テンプレート画像が予め登録されている場合には、例えば図７に示すように、シーンチェンジ点に対応する画像と、テンプレート画像とのマッチングをとり、類似度が高い場合には、そのシーンチェンジ点をシーンの開始位置として登録する。類似度のマッチングとしては、フレーム間差分やフレーム間の色のヒストグラム差分などがある。
【００５２】
また、テンプレート画像の特徴量が予め登録されている場合には、シーンチェンジ点に対応する画像から特徴量を抽出し、テンプレート画像の特徴量とのマッチングをとり、類似度が高い場合には、そのシーンチェンジ点をシーンの開始位置として登録する。シーン開始位置の情報はシーン分割部３へ出力される。
【００５３】
シーン分割部３では、シーンチェンジ検出部３９で自動検出されたシーン開始位置情報に基づき、シーンの開始位置および終了位置を決定する。なお、本実施の形態２のシーン分割部３では、上記実施の形態１と同様に、ユーザからの指示に基づき、シーンの開始位置および終了位置を決定することもできる。
【００５４】
シーン分割部３では、シーンの開始位置および終了位置を記述したシーンの区間情報メタデータ１２をシーンチェンジ検出部３９へ出力し、このシーンチェンジ検出部３９で、そのシーンに含まれるシーンチェンジ点を検出することもできる。
【００５５】
シーン記述編集部５では、シーン分割部３からのシーンの区間情報メタデータ１２に基づき、シーンチェンジ検出部３９で自動検出されたシーンを再分割や統合することができる。なお、シーン記述編集部５の詳細は、上記実施の形態１と同様である。
【００５６】
従って、本実施の形態２に係るメタデータ編集装置１００Ａによれば、上記実施の形態１と同様に、ビデオデータ等のコンテンツのもつ階層的な構造や各シーンの特徴量を記述したメタデータを生成することができると共に、シーンチェンジ検出部３９を設けたことにより、コンテンツのシーンチェンジ点を自動検出することが可能となる。
【００５７】
実施の形態３．
この実施の形態３では、上記実施の形態１及び２のメタデータ編集装置により生成されたメタデータを利用して、画像の要約再生や、検索などを行うメタデータ再生装置について説明する。
【００５８】
この発明の実施の形態３に係るメタデータ再生装置について図面を参照しながら説明する。図８は、この発明の実施の形態３に係るメタデータ再生装置の構成を示すブロック図である。
【００５９】
図８において、メタデータ再生装置２００は、メタデータ解析部１９と、構造表示部２０と、サムネイル画像表示部２１と、ユーザ入力部２２と、検索部２３と、検索結果表示部２４と、要約作成部２５と、要約構造表示部２６と、コンテンツ再生部２７とを備える。
【００６０】
メタデータ解析部１９は、コンテンツのもつ階層的なシーン構造や各シーンのサムネイルに関する情報、各シーンの特徴量などが記述されたメタデータ２８の解析を行う。構造表示部２０は、メタデータ解析結果から取得されるシーン構造２９、つまりコンテンツの階層的な構造を表示する。サムネイル画像表示部２１は、メタデータ解析結果から取得されるサムネイル画像情報３０を表示する。
【００６１】
ユーザ入力部２２は、検索や再生等の指示を行う。検索部２３は、ユーザからの検索指示（検索条件３１）と、メタデータから取得されるシーンの特徴量やテキスト情報３２とに基づき検索を行う。検索結果表示部２４は、検索結果３３を表示する。要約作成部２５は、ユーザからの要約作成指示（要約作成条件３４）に基づき要約作成を行う。要約構造表示部２６は、要約されたコンテンツの構造３８を表示する。コンテンツ再生部２７は、要約情報３５、コンテンツ再生指示３６、再生するコンテンツ３７に基づきコンテンツを再生・表示する。
【００６２】
つぎに、この実施の形態３に係るメタデータ再生装置の動作について図面を参照しながら説明する。
【００６３】
まず、メタデータ解析部１９は、コンテンツのもつ階層的なシーン構造や、各シーンのサムネイルに関する情報、各シーンの特徴量などが記述されたメタデータ２８を入力とし、メタデータの解析を行う。
【００６４】
本実施の形態３では、このメタデータ２８は、上記実施の形態１、２のメタデータ記述部９が生成したＭＰＥＧ‐７規定のフォーマットで記述されているため、メタデータはＸＭＬで記述されたテキストファイルでもよいし、バイナリフォーマットで符号化されたバイナリファイルであってもよい。
【００６５】
このため、メタデータ解析部１９は、メタデータ２８がＸＭＬで記述されているならば、ＸＭＬファイルの解析を行うＸＭＬパーザの機能をもつ。また、メタデータ２８がバイナリフォーマットで符号化されているならば、メタデータ２８の復号を行うデコーダの機能を有する。
【００６６】
構造表示部２０は、メタデータ解析部１９の解析結果を入力して、コンテンツの階層的なシーン構造２９を表示する。コンテンツのシーン構造は、例えば、図４に示すように、各シーンのタイトルとともにツリー表示される。
【００６７】
サムネイル画像表示部２１は、メタデータ解析部１９の解析結果（サムネイル画像情報３０）を入力して、コンテンツのサムネイル画像一覧を表示する。
【００６８】
検索部２３は、ユーザ入力部２２を介したユーザからの検索指示により、コンテンツに含まれるシーンの検索を行う。その際、ユーザ入力部２２では、キーワードやサンプル画像の提示等により、検索条件を入力する。検索部２３では、メタデータに記述されているシーンの特徴量や、シーンのタイトルなどのテキスト情報３２に基づき、ユーザから提示された検索条件（キーワードやサンプル画像の特徴）３１に合致するシーンの検索を行う。
【００６９】
検索部２３による検索が終了すると、検索結果表示部２４は、検索部２３の検索結果３３を入力とし、検索結果の表示を行う。検索結果の表示方法としては、例えば、検索条件に合致したシーンのサムネイル画像を表示する。
【００７０】
また、要約作成部２５は、ユーザ入力部２２を介したユーザからの要約作成指示に基づき、コンテンツの要約を作成する。その際、ユーザ入力部２２では、要約されたコンテンツの再生時間や、ユーザ嗜好などの情報を入力する。例えば、コンテンツがニュース映像の場合には、ニュースの中のスポーツを中心に見たい、あるいは、１時間のニュースを２０分に要約してみたいなどのユーザの嗜好情報を入力する。また、要約作成部２５では、メタデータに記述されているシーンの再生時間や、シーンのタイトルなどのテキスト情報３２に基づき、要約条件に合致した要約情報３５を作成する。この要約情報３５とは、例えば、要約されたコンテンツに含まれるシーンの再生リストであり、コンテンツのＵＲＬなどのロケーション情報と、そのコンテンツの中の再生したいシーンの開始位置と終了位置を列記したリストである。
【００７１】
また、コンテンツ再生・表示部２７では、要約情報３５に含まれるコンテンツのロケーション情報に基づき、対象コンテンツを特定し、要約情報に含まれるシーンリストに基づき、再生するシーンの取得・再生・表示を行う。また、別の例として、要約情報が要約されたシーンの構造を階層的に記述したものである場合も考えられる。
【００７２】
図９は、要約されたシーン構造を階層的に記述したものの一例を示す図である。同図（ａ）は、オリジナルコンテンツのシーン構造の例を示す。各シーンに対して、重要度が０．０〜１．０の範囲で付加されている。１．０は重要度が最も高く、０．０は重要度が最も低いことを意味する。重要度は、例えば、ユーザ嗜好に基づいて計算されたものであるとする。例えば、チームＡのサッカーの試合に関するシーン、特に、試合結果と得点シーンは必ず見たいというユーザ嗜好を予め登録しておくと、各シーンにはユーザ嗜好を反映した重要度が付加される。
【００７３】
そして、図９（ａ）において、重要度が最も高いシーンのみで要約を生成すると、要約されたシーン構造は同図（ｂ）に示すようになる。なお、各シーンは、そのシーンを含むコンテンツのＵＲＬなどのロケーション情報と、そのシーンのコンテンツ内での位置情報（開始位置と終了位置）などのメタデータをもつ。要約されたシーン構造３８に関する情報は、要約構造表示部２６へ渡され、この要約構造表示部２６は、要約されたシーン構造を例えば、図９（ｂ）に示すようなツリー形式で表示する。
【００７４】
また、ユーザ入力部２２を介しユーザが構造表示部２０または要約構造表示部２６に表示されているシーン構造や、サムネイル画像表示部２１や検索結果表示部２４に表示されている各シーンのサムネイルの中から再生したい１つ以上のシーンを選択すると、コンテンツ再生・表示部２７ではコンテンツに含まれるシーンを再生・表示することができる。
【００７５】
従って、本実施の形態３に係るメタデータ再生装置２００によれば、上記実施の形態１、２で説明したメタデータ編集装置により生成されたメタデータを用いて、ユーザが見たいシーンだけを集めて再生したり、メタデータに記述されている特徴量を用いて、見たいシーンを検索することができる。
【００７６】
また、本実施の形態３では、コンテンツ再生・表示部２７が、メタデータ再生装置２００内にあったが、コンテンツ再生・表示部が別の装置内にあってもよい。これは、例えば、シーンの構造やサムネイル画像の表示等、メタデータ再生に関わる操作や表示は、携帯電話や携帯情報端末等で行い、マルチメディアコンテンツの再生に関わる処理や表示は、携帯電話や、携帯情報端末等にネットワークを介して接続した端末（例えば、ＰＣ等）で行う場合が考えられる。
【００７７】
実施の形態４．
この実施の形態４では、コンテンツのメタデータをクライアント端末に対して配信するメタデータ配信サーバ（メタデータ配信装置）と、そのコンテンツをクライアント端末の端末能力に応じてスケーラブルに構成して配信するコンテンツ配信サーバと、について説明する。
【００７８】
この発明の実施の形態４に係るコンテンツ配信システムについて図面を参照しながら説明する。図１０は、この発明の実施の形態４に係るコンテンツ配信システムの構成を示すブロック図である。
【００７９】
図１０において、コンテンツ配信システム３００は、メタデータ配信サーバ４００と、各種のクライアント端末４８１〜４８ｎと、コンテンツ配信サーバ５００とを備える。
【００８０】
メタデータ配信サーバ４００は、メタデータ蓄積部４１と、メタデータ解析部４２と、端末能力判定部４３と、メタデータ再生成部４４と、メタデータ配信部４５とから構成されている。
【００８１】
メタデータ蓄積部４１には、例えば上記実施の形態１、２のメタデータ編集装置が生成したメタデータが蓄積されている。メタデータ解析部４２は、コンテンツの構造や特徴を記述したメタデータ４９の解析を行う。端末能力判定部４３は、クライアント端末の性能に関する情報５１に基づいて、クライアント端末の端末能力を判定する。メタデータ再生成部４４は、メタデータ解析結果５０に基づき、クライアント端末の端末能力に応じてコンテンツを再構成し、その内容を記述したメタデータ５２を再生成する。メタデータ配信部４５は、メタデータ再生成部４４で再生成されたメタデータ５３を各種クライアント端末４８１〜４８ｎに配信する。
【００８２】
なお、メタデータ蓄積部４１は、本実施の形態４のメタデータ配信サーバ４００外に設けても良い。その場合には、メタデータ配信サーバ４００は、ネットワーク（図示せず）等を介しメタデータ蓄積部４１からメタデータ４９を入力する。
【００８３】
また、コンテンツ配信サーバ５００は、コンテンツ蓄積部４６と、コンテンツ配信部４７とから構成されている。
【００８４】
コンテンツ蓄積部４６は、コンテンツ５５を蓄積する。コンテンツ配信部４７は、クライアント端末４８１〜４８ｎからのコンテンツ配信要求５４に応じてコンテンツ５６を配信する。
【００８５】
上述したメタデータ配信サーバ４００の場合と同様に、コンテンツ蓄積部４６はコンテンツ配信サーバ５００外に設けてもよい。その場合、コンテンツ配信サーバ５００は、ネットワーク（図示せず）を介してコンテンツデータ５５を入力する。
【００８６】
つぎに、この実施の形態４に係るコンテンツ配信システムの動作について図面を参照しながら説明する。
【００８７】
まず、メタデータ配信サーバ４００側では、メタデータ解析部４２がメタデータ蓄積部４１に蓄積されているメタデータの解析を行う。メタデータ解析部４２の動作は、上記実施の形態３のメタデータ再生装置２００のメタデータ解析部１９と同様である。メタデータ解析部４２は、メタデータを解析することにより、各コンテンツの構造や特徴に関する情報を取得する。
【００８８】
図１１は、この実施の形態４に係るメタデータ配信サーバのメタデータ解析部から出力されるコンテンツ（ニュース映像の例）の構造情報を示す図である。図１１では、コンテンツの階層的なシーン構造を、ツリーを用いて表示している。ツリーの各ノードは、各々のシーンに対応し、各ノードには各種のシーン情報が対応付けられている。シーン情報とは、シーンのタイトル、アブストラクト、シーンの開始位置と終了位置の時間情報、シーンのサムネイル、代表フレーム、サムネイルショット、代表ショット、色や動きなど視覚的な特徴量等であるシーンの特徴である。なお、図１１には、各種のシーン情報のうち、シーンのタイトルのみを図示している。
【００８９】
ここで、クライアント端末は、端末能力の異なる各種の情報家電機器を想定する。端末能力とは、通信速度、処理速度や、再生・表示可能な画像フォーマット、画像解像度、ユーザ入力機能、などである。例えば、クライアント端末４８１は、通信速度、処理速度、表示性能、ユーザ入力機能において、十分な性能を有するＰＣ（パソコン）を想定する。また、クライアント端末４８２は携帯電話を想定し、その他のクライアント端末はＰＤＡ等を想定する。各クライアント端末４８１〜４８ｎからは、それぞれの端末性能に関する情報が送信される。
【００９０】
端末能力判定部４３は、各クライアント端末４８１〜４８ｎから送信される端末性能に関する情報５１を解析して、配信可能な画像フォーマット、最大画像解像度、コンテンツの長さ等を決定し、メタデータ再生成部４４へ出力する。例えば、オリジナルのコンテンツがＭＰＥＧ−２で符号化された解像度の大きなビデオコンテンツの場合、十分な性能を有するクライアント端末４８１では、オリジナルのコンテンツを再生できる。また、このクライアント端末４８１は、上記実施の形態３で説明した画像の要約再生や検索が可能な機能を有するものとする。一方、クライアント端末４８２では、ＭＰＥＧ−４で符号化された短いビデオショットのみ再生可能で、かつ、表示可能な最大解像度も小さいものとする。
【００９１】
メタデータ再生成部４４では、端末能力判定部４３からの各クライアント端末４８１〜４８ｎの端末性能に応じてコンテンツを再構成し、その構造や内容を記述したメタデータ５２を再生成し、メタデータ配信部４５へ出力する。例えば、クライアント端末４８１に対しては、オリジナルのメタデータをそのまま配信するため、コンテンツの再構成は行わない。一方、クライアント端末４８２に対しては、短いビデオショットの再生機能のみを有するため、すべてのシーンを再生することはできない。従って、重要なシーンの短いビデオショットでコンテンツを再構成する。
【００９２】
図１２は、実施の形態４に係るコンテンツ配信システムのメタデータ再生成部による再構成後のコンテンツの構造例を示す図である。図１２に示すように、各ニュースのシーンの中から、重要なシーンを抽出し、そのシーンの代表ショットまたは、代表フレームのみで構成されるようにする。また、クライアント端末４８２は、上記実施の形態３で説明した検索機能を有しないため、シーンの各種情報のうち、検索に使用するシーンの特徴量をメタデータに記述する必要はない。そこで、メタデータ再生成部４４は、再構成されたシーン構造と、そのシーンの代表ショットまたは代表フレームの位置情報のみを記述したメタデータを再生成し、メタデータ配信部４５へ出力する。
【００９３】
このメタデータ配信部４５は、メタデータ再生成部４４で生成されたメタデータ５３をクライアント端末４８１〜４８ｎに配信する。
【００９４】
各クライアント端末４８１〜４８ｎは、メタデータ配信部４５より配信されたメタデータ５３を解析し、コンテンツのシーン構造情報を取得する。各クライアント端末４８１〜４８ｎのユーザは、再生したいシーンを選択すると、選択されたシーンの位置情報が各クライアント端末４８１〜４８ｎからコンテンツ配信サーバ５００のコンテンツ配信部４７へ送信される。
【００９５】
コンテンツ配信サーバ５００のコンテンツ配信部４７では、各クライアント端末４８１〜４８ｎより送信されるシーンの位置情報を取得し、コンテンツ蓄積部４６より対応するコンテンツ５５を取得し、クライアント端末４８１〜４８ｎへ配信する。クライアント端末４８１の場合には、シーンの開始位置と終了位置を送信し、オリジナルのコンテンツの対応するシーンを配信する。また、クライアント端末４８２の場合は、シーンの代表ショットの所在情報（ＵＲＩなど）を送信する。なお、代表ショットが、クライアント端末４８２で再生・表示不可能な画像フォーマットや、画像解像度、画像ファイルサイズ等の場合には、コンテンツ配信部４７で、フォーマット変換や解像度変換、ファイルサイズを小さくするためのコンテンツの要約等を行い、送信する。
【００９６】
従って、本実施の形態４のメタデータ配信サーバ４００によれば、各クライアント端末４８１〜４８ｎの能力に応じてメタデータを再生成して各クライアント端末に配信することが可能となる。
【００９７】
なお、図１０では、メタデータ配信サーバ４００とコンテンツ配信サーバ５００とを別々に構成して示しているが、本発明では、これに限らず、メタデータ配信サーバの中にコンテンツ配信サーバを設けたり、あるいはコンテンツ配信サーバの中にメタデータ配信サーバを設けたりしてもよい。また、メタデータ配信サーバとコンテンツ配信サーバとを同一サーバ内に設けても勿論良い。このようにすれば、コンテンツ配信部４７は、端末能力判定部４３から各クライアント端末４８１〜４８ｎの能力を簡単に知ることができるので、各クライアント端末４８１〜４８ｎの能力に応じてフォーマット変換などコンテンツを再構成して各クライアント端末４８１〜４８ｎに配信することが可能となる。
【００９８】
また、この実施の形態４では、メタデータ蓄積部４１に蓄積されているメタデータは、例えば上記実施の形態１、２のメタデータ編集装置が生成したものであると説明したが、これに限らず、上記実施の形態１、２のメタデータ編集装置以外が生成したメタデータを蓄積したものでも勿論良い。
【００９９】
実施の形態５．
この実施の形態５では、上記実施の形態４で説明したメタデータ配信サーバの別の例を説明する。上記実施の形態４のメタデータ配信サーバでは、クライアント端末から送信される端末情報に基づいて、メタデータの再生成を行っていた。この実施の形態５では、より適切なメタデータの再生成を行うために、メタデータ再生成のためのヒント情報であるメタデータ最適化ヒント情報を用いて、メタデータの再生成を行うメタデータ解析・再生成部を備えたことを特徴とするメタデータ配信サーバ（メタデータ配信装置）について説明する。
【０１００】
この発明の実施の形態５に係るメタデータ配信サーバについて図面を参照しながら説明する。図１３は、この発明の実施の形態５に係るメタデータ配信サーバの構成を示すブロック図である。
【０１０１】
図１３において、メタデータ配信サーバ４００Ａは、ヒント情報解析部６１と、メタデータ解析・再生成部６３と、メタデータ配信部４５とを備える。
【０１０２】
ヒント情報解析部６１は、メタデータ最適化ヒント情報６０を解析しその結果を出力する。メタデータ解析・再生成部６３は、解析されたメタデータ最適化ヒント情報６２と、クライアント端末の性能に関する情報、あるいは、ユーザ嗜好等のメタデータ再生成に関する条件６５とに基づいて、コンテンツの構造や特徴を記述したメタデータ４９を解析して再構成したメタデータ６４を出力する。メタデータ配信部４５は、メタデータ５３をクライアント端末に配信する。
【０１０３】
メタデータ蓄積部４１（図１０参照）には、コンテンツの構造や特徴を記述したメタデータ４９と、そのメタデータ４９を再生成するためのヒント情報のメタデータ最適化ヒント情報６０が蓄積されている。メタデータ４９を再生成するためのメタデータ最適化ヒント情報６０とは、そのメタデータ４９に、どのような種類の情報が、どのくらい含まれているか、メタデータ４９の概要や複雑度を記したものである。
【０１０４】
つぎに、この実施の形態５に係るメタデータ配信サーバの動作について図面を参照しながら説明する。
【０１０５】
図１４に示す構造をもったビデオコンテンツを例に、メタデータ最適化ヒント情報６０について詳述する。
【０１０６】
ビデオコンテンツ（Ｒｏｏｔ）（Ｓｏｃｃｅｒｇａｍｅｐｒｏｇｒａｍ）は、大きく２つのシーン（Ｓｃｅｎｅ１，Ｓｃｅｎｅ２）の前半戦と後半戦から構成され、前半戦のシーンは、さらに複数のシーン（Ｓｃｅｎｅ１−１，Ｓｃｅｎｅ１−２，．．．，Ｓｃｅｎｅ１−ｎ）（ゴールシーン、コーナーキックシーンなど）から構成されている。図１４では、シーン間の時間的な階層構造をツリー構造により示している。
【０１０７】
対応するメタデータ４９には、このようなコンテンツの時間的な階層構造、すなわち、シーン間の時間的関係や各シーンの開始時間と長さが記述されている。また、各シーンに対しては、階層のレベルに応じてそのシーンがもつ特徴（例えば、色のヒストグラムや動きの複雑性）のほか、タイトル、アブストラクト、ジャンル、注釈等のテキスト情報、重要度、などが記述されている。なお、本実施の形態５では、メタデータの記述フォーマットとして、ＩＳＯで標準化されているＭＰＥＧ−７を用いるものとする。
【０１０８】
図１５は、ＭＰＥＧ−７を用いた場合のメタデータの記述例を示す。ＭＰＥＧ−７では、各シーンは「ビデオセグメント」と呼ばれる単位で記述される。各ビデオセグメントには、時間情報（シーンの開始点と長さ）、タイトル、概要、ジャンル、などが記述される。なお、ビデオセグメントの階層に応じてビデオセグメント内で記述される情報が異なる場合がある。図１５の例では、レベル２とレベル３のビデオセグメントには、重要度が記述されているが、レベル４では重要度は記述されない。また、色や動きの特徴量はレベル４のビデオセグメント内でのみ記述されている。
【０１０９】
シーン間の時間的な階層関係は、ビデオセグメントを再帰的に記述することにより表現することができる。図１５の記述例では、「時間分割」という記述により、１つのビデオセグメントが時間的に分割された複数のビデオセグメントから構成されていることを記述している。ＭＰＥＧ−７では、コンテンツのもつ空間的な階層構造も同様に記述することができる。この場合には、「時間分割」という記述の替わりに、１つのセグメントが空間的に分割された複数のセグメントから構成されていることを示す「空間分割」という記述を用いる。
【０１１０】
メタデータ４９の再生成のためのメタデータ最適化ヒント情報６０は、そのメタデータ４９に含まれる情報（記述子）の種類や内容を記述したものである。従って、メタデータ最適化ヒント情報６０には、図１５のメタデータに対しては、コンテンツのもつ時間的な階層構造を表現する記述子（「時間分割」）と、色のヒストグラムや動きの複雑性を表現する記述子、タイトル、アブストラクト、ジャンル、重要度を表現する記述子が含まれている。また、記述の内容や複雑性を表す指標として、ビデオセグメントの階層構造の深さは最大で４（レベル１〜レベル４）である。重要度は、５つの離散的な値（｛０．０，０．２５，０．５，０．７５，１．０｝）をとる。この重要度の視点として、“ＴｅａｍＡ”の視点で観たときの重要度と、“ＴｅａｍＢ”の視点で観たときの重要度が記述されている。また、重要度が記述されている階層位置（ビデオセグメントのどのレベルに記述されているか）も含まれている。
【０１１１】
図１６は、メタデータ最適化ヒント情報６０のフォーマット例を示す。図１６に示すメタデータ最適化ヒント情報６０には、メタデータファイル情報と、メタデータ構成要素情報とが含まれる。
【０１１２】
メタデータファイル情報は、メタデータファイルの所在、メタデータファイルサイズ、メタデータファイルフォーマット（ＸＭＬフォーマット、バイナリフォーマットなどファイルフォーマットを示す）、シンタックスファイル情報（メタデータの文法を規定するシンタックスファイルの所在）、メタデータに含まれる（出現する）要素の数を示す出現要素数など、メタデータを処理するために必要なリソース（メタデータの蓄積・解析を行うために必要とするメモリサイズやメタデータを解析するために必要な処理系（Ｓ／Ｗ）など）を予測するための情報を記述する。なお、メタデータファイルのフォーマットを規定したシンタックスファイルとは、例えば、メタデータがＸＭＬで記述されている場合には、その記述フォーマット（文法）を規定するＤＴＤファイルやｓｃｈｅｍａファイルなどがそれに相当し、シンタックスファイル情報とは、ＤＴＤファイルやｓｃｈｅｍａファイルなどのシンタックスファイルの所在を記述する。
【０１１３】
メタデータ構成要素情報とは、メタデータを構成する記述子の種類とその内容を記述する情報である。このメタデータ構成要素情報には、メタデータに含まれている記述子の名称、その記述子がメタデータ内に出現する頻度（回数）、その記述子が文法的に含む可能性のあるすべての記述子を含んでいるかどうかの記述（完全記述性）、またその記述子が再帰的に記述される場合には、その記述子がもつ時間または空間における階層性（深さの最大値）が含まれる。例えば、図１５に示すメタデータ記述例では、「ビデオセグメント」が再帰的に記述される記述子であり、最大で４階層の構造をもっているため、「ビデオセグメント」記述子がもつ階層の深さは最大４になる。
【０１１４】
さらに、再帰的に記述される記述子内に含まれる記述子については、その記述子が出現する出現位置（階層）もヒント情報である。例えば、「重要度」は「ビデオセグメント」内に含まれる記述子であるが、レベル３以上の「ビデオセグメント」に含まれる、すなわち、レベル４のビデオセグメントには含まれないときに、「重要度」が出現する位置は、最大で３までになる。なお、このように、出現位置を階層レベルで指定することもできるが、「重要度」を含む「ビデオセグメント」、あるいは「ビデオセグメント」自体にＩＤが振られている場合には、出現位置をＩＤのリストとして記述することも可能である。また、値をもつ記述子の場合には記述子の型や記述子がとり得る値の範囲もヒント情報の一つである。例えば、重要度が“ＴｅａｍＡ”，“ＴｅａｍＢ”のそれぞれの視点から、５つの離散的な値（｛０．０，０．２５，０．５，０．７５，１．０｝）で表現されている場合には、「重要度」のとり得る値は、浮動小数点の型をもつリスト｛０．０，０．２５，０．５，０．７５，１．０｝である。以上の記述をメタデータの構成要素である記述子毎に繰り返す。
【０１１５】
図１７は、図１６のフォーマットに従って記述されたメタデータ最適化ヒント情報の一例を示す。図１７に示すメタデータ最適化ヒント情報６０の一例には、メタデータファイル情報と、“ビデオセグメント”と“タイトル”というメタデータ構成要素情報とが含まれていることがわかる。
【０１１６】
次に、メタデータ最適化ヒント情報６０を使って、メタデータの再生成を行う手法について図１３を用いて説明する。
【０１１７】
ヒント情報解析部６１では、規定のフォーマットで記述されたメタデータ最適化ヒント情報６０の解析を行う。メタデータ解析・再生成部６３では、ヒント情報解析部６１より出力される解析されたメタデータ最適化ヒント情報６２を使って、メタデータ４９の解析を行い、メタデータ再生成に関わる条件６５に基づいて再生成したメタデータ６４を出力する。
【０１１８】
図１８は、解析されたメタデータ最適化ヒント情報６２を使ったメタデータ解析・再生成部６３によるメタデータの解析方法の一例を示す。この例では、もとのメタデータ４９から重要度が０．５以上の特徴をもつビデオセグメントのみを抽出し、抽出したビデオセグメントに関する記述のみで構成されたメタデータを再生成するものとする。
【０１１９】
まず、メタデータ解析・再生成部６３は、メタデータ再生成のための条件６５より、再生成に必要なメタデータを特定する（ステップＳ１）。ここでは、重要度が０．５以上の特徴をもつビデオセグメントのみを抽出するため、「重要度」や「ビデオセグメント」が再生成に必要な記述子である。
【０１２０】
次に、解析されたメタデータ最適化ヒント情報６２より、メタデータ４９にステップＳ１で特定した記述子（以下、記述子「重要度」を例に説明する）が含まれるかどうかを判定する（ステップＳ２）。
【０１２１】
メタデータに「重要度」の記述子が含まれている場合には、メタデータの解析を行い（ステップＳ３）、「重要度」の記述子が含まれていない場合には、メタデータの解析処理を終了する（ステップＳ４）。
【０１２２】
また、解析されたメタデータ最適化ヒント情報６２に、「重要度」の出現位置が階層構造のレベル３までと指定されている場合には、レベル３までのビデオセグメントの解析を終了した時点で（ステップＳ５）、レベル４以下の階層についての解析を行わずに解析処理を終了する（ステップＳ６）。
【０１２３】
なお、必要に応じて別のメタデータ４９の解析を行うため、ステップＳ１以降の処理を繰り返す。また、メタデータ最適化ヒント情報６２に「重要度」記述子の出現回数が２０と指定されている場合には、２０個の「重要度」記述子を解析し終えた時点で（ステップＳ５）、メタデータの解析を終了する（ステップＳ６）。さらに、ステップＳ４またはステップＳ６でメタデータの解析処理を終了後、必要に応じて別のメタデータの解析を行うため、ステップＳ１以降の処理を繰り返す。
【０１２４】
図１９は、解析されたメタデータ最適化ヒント情報６２を使ったメタデータの解析方法の別の例を示す。この例では、「タイトル」記述子を含むビデオセグメントのみを抽出してメタデータを再生成するものとする。メタデータに「タイトル」記述子を含むかどうかの判定は、図１８の例と同じである。
【０１２５】
メタデータ解析・再生成部６３は、メタデータに「タイトル」記述子を含む場合には、メタデータ最適化ヒント情報６２に記述されている出現位置のＩＤに一致するビデオセグメントかどうかを判定する（ステップＳ１３）。
【０１２６】
ＩＤに一致しない場合には、「タイトル」記述子を含まないビデオセグメントのため、そのビデオセグメントの記述の解析をスキップする（ステップＳ１６）。
【０１２７】
ＩＤに一致する場合には、「タイトル」記述子を取得するため、そのビデオセグメントの記述の解析を行う（Ｓ１５）。
【０１２８】
次に、出現位置のＩＤに一致するすべてのビデオセグメントを解析し終えた場合（ステップＳ１７）には、これ以上、「タイトル」記述子を含むビデオセグメントはメタデータ内に存在しないため、解析処理を終了する（ステップＳ１８）。
【０１２９】
なお、必要に応じて別のメタデータの解析を行うため、ステップＳ１１以降の処理を繰り返す。以上の解析処理を通して抽出された記述子で再構成したメタデータ６４を出力する。
【０１３０】
メタデータ配信部４５では、再構成されたメタデータ６４を各種クライアント端末へ配信する。
【０１３１】
なお、図示はしていないが、メタデータ再生成後にはメタデータファイルの所在やメタデータファイルサイズ、メタデータに出現する要素数、メタデータ構成要素に関する情報も変わるため、再生成後のメタデータに対応するメタデータ最適化ヒント情報を再生成してもよい。
【０１３２】
以上のように、従来はメタデータ再生成のためにメタデータに含まれるすべての記述子を解析しなければならなかったが、本実施の形態５においては、メタデータ４９に含まれる記述子のリストや記述子の出現位置、出現回数等が記述されたメタデータ最適化ヒント情報６０を使ってメタデータ４９の記述子を解析を行うようにしたため、メタデータ再生成のためのメタデータ４９自体の解析を省くことができ、また出現位置や出現回数により、再生成条件に合致しない記述子の解析を省くことができるため、メタデータの解析及び再生成に伴う処理コスト（処理量やメモリ使用量等）を低減することができる。
【０１３３】
実施の形態６．
上記の実施の形態５では、メタデータ再生成のためのメタデータ最適化ヒント情報を用いて、メタデータの解析および再生成に伴う処理コストを低減するメタデータ配信サーバについて説明したが、この実施の形態６では、メタデータ最適化ヒント情報を用いて、メタデータの検索に伴う処理を軽減するメタデータ検索サーバ（メタデータ検索装置）について説明する。
【０１３４】
この発明の実施の形態６に係るメタデータ検索サーバについて図面を参照しながら説明する。図２０は、この発明の実施の形態６に係るメタデータ検索サーバの構成を示すブロック図である。
【０１３５】
図２０において、メタデータ検索サーバ６００は、ヒント情報解析部６１と、メタデータ解析部７１と、検索部７３とを備えている。
【０１３６】
ヒント情報解析部６１は、上記実施の形態５と同じであるので、説明を省略する。メタデータ解析部７１は、解析されたメタデータ最適化ヒント情報６２と検索条件７０を用いて、コンテンツの構造や特徴を記述した膨大なメタデータ４９の解析を少ない処理コストで効率的に行う。検索部７３は、メタデータの解析結果７２を利用して、検索条件に適合するコンテンツを検索する。
【０１３７】
つぎに、この実施の形態６に係るメタデータ検索サーバの動作について図面を参照しながら説明する。
【０１３８】
図２１は、この実施の形態６に係るメタデータ検索サーバのメタデータ解析部の動作を示すフローチャートである。
【０１３９】
メタデータ解析部７１は、１つ以上のメタデータの解析を各メタデータに対応するメタデータ最適化ヒント情報６２を用いて行う。メタデータの解析とは、ここでは、メタデータから検索に必要な特徴記述の抽出を行うことである。例えば、検索条件としてビデオセグメントの色の特徴量が与えられ、そのビデオセグメントに近い特徴をもつビデオセグメントを検索する場合には、色に関する特徴記述をもつビデオセグメントを抽出する必要がある。図１５に示すメタデータ例では、レベル４のビデオセグメントに対し、色の特徴記述（「色のヒストグラム」）が付加されているため、レベル４のビデオセグメントに関する記述を抽出する。
【０１４０】
メタデータ解析部７１は、検索条件７０を解析し、検索に有効な記述子の特定を行う（ステップＳ２１）。検索条件として、ＭＰＥＧ−７に規定された記述に従った特徴量が与えられる場合と、画像やキーワードが与えられる場合などがある。検索条件がＭＰＥＧ−７の記述に従った特徴量（例えば色配置情報）として与えられる場合には、その記述子（色配置情報）が検索に有効な記述子となる。また、キーワードとして検索条件が与えられる場合には、テキスト形式の記述子（タイトル、アブストラクト、注釈など）が、検索に有効な記述子となる。
【０１４１】
次に、メタデータ最適化ヒント情報６２を参照して、選択された記述子がメタデータ４９に含まれるかどうかの判定を行う（ステップＳ２２）。検索に用いる記述子がメタデータ４９に含まれない場合には、そのメタデータ４９の解析処理を終了（ステップＳ２４）し、必要に応じて別のメタデータ４９の解析を行う。
【０１４２】
選択された記述子がメタデータ４９に含まれる場合には、メタデータの解析を行う（ステップＳ２３）。メタデータの解析方法については上記実施の形態５の場合と同様にメタデータ最適化ヒント情報６２を用いて図１８や図１９に示すメタデータ解析処理を効率的に行う（ステップＳ２５〜Ｓ２６）。以上の処理を通して、メタデータ解析部７１より検索に必要な特徴記述が抽出される。
【０１４３】
検索部７３では、メタデータ解析部７１より出力されるメタデータの解析結果（検索に必要な特徴記述）７２を利用して、検索条件に適合するコンテンツを検索する。上述した例では、色の特徴記述（「色のヒストグラム」）をもったビデオセグメントに関する記述がメタデータ解析部７１より出力されるので、検索条件として与えられた色の特徴量（ヒストグラム）との適合性を判定し、適合したビデオセグメントの情報（例えば「時間情報」）を検索結果７４として出力する。
【０１４４】
以上のように、本実施の形態６では、メタデータ最適化ヒント情報６０を使ってメタデータ４９の解析を行うため、メタデータ再生成のためのメタデータ４９自体の解析を省くことができる。また、出現位置や出現回数により、検索に必要ではない記述子の解析を省くことができるため、メタデータの検索に伴う処理コスト（処理量やメモリ使用量等）を低減することができる。
【０１４５】
実施の形態７．
上記の実施の形態５または実施の形態６では、メタデータ最適化ヒント情報を利用するサーバ側について説明したが、この実施の形態７では、メタデータ最適化ヒント情報を利用するクライアント端末（メタデータ再生成条件設定装置）について説明する。
【０１４６】
この発明の実施の形態７に係るクライアント端末について図面を参照しながら説明する。図２２は、この発明の実施の形態７に係るクライアント端末の構成を示すブロック図である。
【０１４７】
図２２において、クライアント端末４８Ａは、ヒント情報解析部８０と、メタデータ再生成条件設定部８２とを備えている。
【０１４８】
なお、図２２には、クライアント端末４８Ａに備わる機能のうち、メタデータ最適化ヒント情報６０を利用してメタデータ再生成のための条件を設定する手段に関わる部分のみを示している。
【０１４９】
つぎに、この実施の形態７に係るクライアント端末の動作について図面を参照しながら説明する。
【０１５０】
ヒント情報解析部８０は、規定のフォーマットで記述されたメタデータ最適化ヒント情報６０の解析を行う。このヒント情報解析部８０は、上記実施の形態５と同じであるので、詳細な説明を省略する。
【０１５１】
メタデータ再生成条件設定部８２は、ヒント情報解析部８０より出力される解析結果８１をもとに、メタデータ再生成の条件設定８３を行う。条件設定とは、例えば、メタデータ最適化ヒント情報６０に含まれる記述子の種類の中からクライアント端末４８Ａに不必要な記述子の選択がある。クライアント端末４８Ａが特徴量を用いた検索機能を備えない場合には、色のヒストグラムや動きの複雑性などの特徴量を表現する記述子は不要である。
【０１５２】
条件設定の別の例として、コンテンツのシーン関係を記述する階層構造が深くなるほどメタデータの複雑度が増すときに、メタデータ最適化ヒント情報６０に記述されている階層構造の深さの最大値をもとに、クライアント端末で処理可能な階層構造の深さを設定する。また、別の例では、メタデータ最適化ヒント情報６０に記述されている重要度がとり得る値の情報をもとに、ユーザが着目する視点と、選択するシーンの重要度の閾値を設定する。
【０１５３】
上述したように、重要度が“ＴｅａｍＡ”、“ＴｅａｍＢ”のそれぞれの視点から、５つの離散的な値（｛０．０，０．２５，０．５，０．７５，１．０｝）をとる場合には、“ＴｅａｍＡ”の視点で０．５以上の重要度をもつシーンのみを選択するなどの設定を行うことができる。
【０１５４】
メタデータ再生成条件設定部８２で設定されたメタデータ再生成のための条件８３は、メタデータ配信サーバに送信される。メタデータ配信サーバ側では、メタデータ再生成のための条件と、クライアント端末の端末性能とに基づいてメタデータを再構成する。例えば、もとのメタデータの階層構造の深さの最大値が４で、メタデータ再生成条件に、クライアント端末で処理可能な階層構造の深さが２と設定されている場合には、階層構造の深さの最大値が２となるように、メタデータの構造を再構成する。
【０１５５】
また、メタデータ再生成条件に、“ＴｅａｍＡ”の視点で重要度が０．５以上のシーンのみを選択すると設定されている場合には、同条件に合致するシーンのみで構成されたメタデータを再生成する。メタデータ再生成は、上記実施の形態５と同様にメタデータ最適化ヒント情報を用いて効率的に行うことができる。
【０１５６】
以上のように、本実施の形態７では、メタデータ最適化ヒント情報６０を使ってメタデータ再生成のための条件を設定することができるため、クライアント端末やアプリケーションに応じて適切なメタデータを生成することができる。
【０１５７】
実施の形態８．
上記の実施の形態５または実施の形態６では、メタデータ最適化ヒント情報を用いてメタデータを再生成し、再生成したメタデータを配信するサーバについて説明したが、この実施の形態８では、メタデータ最適化ヒント情報を用いてメタデータを解析し、解析結果を利用してクライアント端末やユーザ嗜好に適したコンテンツを再生成して配信するコンテンツ配信サーバ（コンテンツ配信装置）について説明する。
【０１５８】
この発明の実施の形態８に係るコンテンツ配信サーバについて図面を参照しながら説明する。図２３は、この発明の実施の形態８に係るコンテンツ配信サーバの構成を示すブロック図である。
【０１５９】
図２３において、コンテンツ配信サーバ５００Ａは、ヒント情報解析部６１と、メタデータ解析部８６と、コンテンツ再構成・配信部８８とを備える。
【０１６０】
つぎに、この実施の形態８に係るコンテンツ配信サーバの動作について図面を参照しながら説明する。
【０１６１】
ヒント情報解析部６１の動作は、上記実施の形態５と同様であるので、説明を省略する。
【０１６２】
メタデータ解析部８６は、ヒント情報解析部６１より出力される解析されたメタデータ最適化ヒント情報６２を使って、メタデータ４９の解析を行い、クライアント端末に関する情報、あるいは、ユーザ嗜好等のコンテンツ再構成に関する条件８５に合致する記述を抽出する。ヒント情報を使った解析方法は、上記実施の形態５と同様であるが、実施の形態５と異なる点は、抽出した記述を使ってメタデータを再生成するのではなく、コンテンツを再構成する点である。このメタデータ解析部８６で抽出された記述、すなわち解析されたメタデータ８７は、コンテンツ再構成・配信部８８へ出力される。
【０１６３】
コンテンツ再構成・配信部８８は、メタデータ解析部８６で抽出された記述を元に、コンテンツ８９の再構成を行う。ここでは、上記実施の形態５で述べた例を用いて説明する。実施の形態５の例では、メタデータ４９から重要度が０．５以上の特徴をもつビデオセグメントのみを抽出し、抽出したビデオセグメントに関する記述のみで構成されたメタデータを再生成した。
【０１６４】
この実施の形態８では、メタデータ４９から重要度が０．５以上の特徴をもつビデオセグメントのみを抽出し、抽出したビデオセグメントに対応するシーンのみで構成されたコンテンツ９０を再構成して配信する。抽出したビデオセグメントに関する記述には、対応するコンテンツの所在とそのビデオセグメントのコンテンツ内での位置（時間情報）が記述されているので、コンテンツから対応するシーンを切り出し、一つのコンテンツ９０に再構成した上で配信することもできるが、コンテンツから対応するシーンを切り出し、切り出したシーンを順次配信することもできる。
【０１６５】
以上のように、本実施の形態８に係るコンテンツ配信サーバ５００Ａでは、メタデータ４９に含まれる記述子のリストや記述子の出現位置、出現回数等が記述されたメタデータ最適化ヒント情報６０を使ってメタデータの解析を行うため、メタデータ再生成のためのメタデータ４９自体の解析を省くことができる。また、出現位置や出現回数により、再生成条件に合致しない記述子の解析を省くことができるため、クライアント端末やユーザ嗜好に適したコンテンツを再生成して配信する際のメタデータの解析及びコンテンツの再構成に伴う処理コスト（処理量やメモリ使用量等）を低減することができる。
【産業上の利用可能性】
【０１６６】
この発明は、以上説明したとおり、動画像や音声を含むマルチメディアコンテンツを複数のシーンに分割し、複数に分割したシーンを編集してマルチメディアコンテンツの階層的な構造を記述するシーン構造情報メタデータを生成するようにしたので、ビデオデータ等を含むマルチメディアコンテンツのもつ階層的な構造を記述したメタデータを生成することができる。

【特許請求の範囲】
【請求項１】
コンテンツの意味内容、構造、特徴を記述する１つまたは複数の記述子から成るメタデータを操作する際のヒント情報として、メタデータに含まれる各記述子がとり得る値の範囲を記述するヒント情報記述方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【図２２】

【図２３】

【公開番号】特開２００９−１７１６２２（Ｐ２００９−１７１６２２Ａ）
【公開日】平成２１年７月３０日（２００９．７．３０）
【国際特許分類】

【出願番号】特願２００９−１１１９８９（Ｐ２００９−１１１９８９）
【出願日】平成２１年５月１日（２００９．５．１）
【分割の表示】特願２００３−５８５４３８（Ｐ２００３−５８５４３８）の分割
【原出願日】平成１５年３月２０日（２００３．３．２０）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成１３年度、独立行政法人情報通信研究機構、「情報家電コンテンツ表現システムの研究開発」委託契約、産業技術力強化法第１９条の適用を受ける特許出願
【出願人】（０００００６０１３）三菱電機株式会社 (33,312)
【Ｆターム（参考）】

[ Back to top ]

ヒント情報記述方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ヒント情報記述方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク