説明

データストリームにおけるビデオデータ及び関連するメタデータを送信する方法

本願は、ビデオデータストリームにおけるビデオデータと、関連するビデオデータ構造を表すメタデータとを送信する方法に関する。本方法は、ビデオデータの構造を決定するステップと、構造をインクリメンタルな方法によりチャンクに分割するステップと、関連するビデオデータの前の時間インターバルにおいて前記データストリームにおいて前記チャンクを送信するステップとを有する。本願はまた、ビデオデータストリームにおけるビデオデータに係るフィンガープリント情報を送信する方法に関する。本方法は、ビデオデータの少なくとも1つのフレームに係るフィンガープリントを決定するステップと、フィンガープリント情報を有するメッセージをビデオストリームに少なくとも挿入するステップとを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データストリームにおけるビデオデータと関連するビデオデータ構造を表す関連するメタデータとを送信する方法に関する。
【0002】
本発明はまた、データストリームにおけるビデオデータとビデオデータ構造に係るフィンガープリント情報を表す関連するメタデータとを送信する方法に関する。
【背景技術】
【0003】
ビデオビットストリームに埋め込まれるビデオアノテーション情報は、潜在的にはかなり多くの用途に役立つかもしれない。
・インターネットビデオ検索
・編集マテリアル検索
・記憶媒体のインデックス化及び抽出
・VODにおけるビデオブラウジング、チャネル選択、PVRなど
・ビデオコピー検出
・検索結果クラスタリング
これらの用途は、
・ビデオドキュメントへのテキストアノテーションの要求
・視覚的類似性検索のための視覚的特徴の要求
・ビデオナビゲーションのためのビデオ構造情報の要求
の3つのカテゴリに結論付けることが可能である。
【0004】
圧縮されたビデオストリームにおいてより多くの機能をサポートする要求が大きくなるに従って、ITU−T H.264規格とも呼ばれるH.264/AVCは、主として復号化に関連する処理に役立ちうるSEI(Supplemental Enhancement Information)メッセージを採用した。現在、上記規格は、各種アプリケーションをサポートするため約20タイプのSEIシンタックスを規定している。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、ビデオ構造及びフィンガープリントの機能的サポートによるビデオ符号化のフレームワークを提案する。
【課題を解決するための手段】
【0006】
第1の態様によると、本発明は、ビデオデータストリームにおけるビデオデータに係るフィンガープリント情報を送信する方法に関する。本発明の本態様によると、本方法は、前記ビデオデータの少なくとも1つのフレームに係るフィンガープリントを決定するステップと、前記フィンガープリント情報を有するメッセージを前記ビデオストリームに少なくとも挿入するステップとを有する。
【0007】
好適な実施例によると、前記ビデオデータは、ITU−T H.264規格に準拠し、前記フィンガープリント情報は、SEI(Supplemental Enhancement Information)メッセージにカプセル化される。
【0008】
好適な実施例によると、前記データ構造は、各ノードが複数のリーフを有する複数のノードを有し、各チャンクは、複数のノードと複数のリーフとを有する。
【0009】
好適な実施例によると、前記ビデオデータは、符号化され、前記チャンクは、前記符号化されたビデオデータにおけるメッセージにカプセル化され、前記チャンクは、該チャンクにおいて構成されるノードの記述又は該記述が次のチャンクに構成されていることを示す情報を有する。
【0010】
好適な実施例によると、前記ビデオデータは、ITU−T H.264規格に準拠する符号化されたメタデータであり、前記メタデータは、少なくともSEI(Supplemental Enhancement Information)メッセージにおいて送信される。
【0011】
好適な実施例によると、前記記述に構成される情報は、ノード識別子、前記ノードが前記情報に記述されているか示す表示、並びに、前記ノードが現在の前記情報に記述されている場合、前記ノードが関連付けされる前記ビデオ情報を表す名前、前記ノードが関連付けされる前記ビデオ情報の時間を表すタイムコード、及びいくつかのサマリセグメント、及び各サマリセグメントについて、該サマリセグメントを表す名前、該サマリセグメントに係るセマンティック情報を表すカテゴリ及びキーフレーム、クリップ又はテキスト記述から選ばれたセグメントのタイプを示すキー記述から又は前記情報の何れかの組み合わせから選ばれる。
【0012】
第2の態様によると、本発明は、データストリームにおけるビデオデータと関連するビデオデータ構造を表す関連するメタデータとを送信する方法に関する。本発明の本態様によると、本方法は、前記ビデオデータの構造を決定するステップと、前記構造をインクリメンタルな方法によりチャンクに分割するステップと、関連する前記ビデオデータの前の時間インターバルにおいて前記データストリームにおいて前記チャンクを送信するステップとを有する。
【0013】
第3の態様によると、本発明はまた、ビデオデータの構造を決定する手段と、前記構造をインクリメンタルな方法によりチャンクに分割する手段と、関連する前記ビデオデータの前の時間インターバルにおいて前記チャンクをデータストリームに挿入する手段とを有するビデオ符号化装置に関する。
【0014】
第4の態様によると、本発明はまた、ビデオデータの少なくとも1つのフレームに係るフィンガープリントを決定する手段と、前記フィンガープリント情報を有するメッセージをビデオストリームに少なくとも挿入する手段とを有するビデオ符号化装置に関する。
【0015】
好適な実施例によると、第4の態様によるビデオ符号化装置は、ITU−T H.264規格に準拠し、前記構造情報は、SEI(Supplemental Enhancement Information)メッセージにカプセル化される。
【0016】
好適な実施例によると、当該ビデオ符号化装置は、ITU−T H.264規格に準拠し、前記フィンガープリント情報は、SEI(Supplemental Enhancement Information)メッセージにカプセル化される。
【0017】
第5の態様によると、本発明はまた、符号化されたビデオ情報を復号化する手段と、前記符号化されたビデオデータに挿入された関連するビデオデータをインクリメンタルな方法により復号化する手段と、無線受信された前記インクリメンタルなビデオデータ構造により前記ビデオデータ構造を再構成する手段とを有するパーソナルビデオレコーダに関する。
【0018】
第6の態様によると、本発明はまた、符号化されたビデオ情報を復号化する手段と、前記符号化されたビデオデータに構成されるフィンガープリント情報を復号化する手段と、受信した符号化されたビデオデータを格納する手段と、複数の記録されたビデオデータをそれらのフィンガープリント情報に基づき比較する手段とを有するパーソナルビデオレコーダに関する。
【発明の効果】
【0019】
本発明の他の特徴及び効果は、付属の図面を用いて説明される本発明の非限定的な実施例の説明を介して明らかになるであろう。
【図面の簡単な説明】
【0020】
【図1】図1は、本発明の好適な実施例によるビデオの構造情報を表す。
【図2】図2は、本発明の好適な実施例によるビデオのインクリメンタルな分解を表す。
【発明を実施するための形態】
【0021】
ビデオ構造の説明は、任意のオーディオビジュアルドキュメントのセマティックな構成の説明からなる。本説明は、ドキュメントのトップダウンな分解を提供する階層構造である。
【0022】
この情報は、ドキュメントのショートサマリを表示するため、又はドキュメントを迅速にナビゲートするため、使用されてもよい。
【0023】
ビデオ構造は、階層的構成を記述する。ドキュメントのタイプに従って、ドキュメントの構造を取得するのに使用される方法は異なるかもしれない。ビデオがテニスゲームを表す場合、その構造はフットボールのゲームとは異なっており、ビデオがフィルムを表している場合もまた異なっている。ビデオの構造を取得する既知の方法が複数存在する。
【0024】
図1は、ビデオの取得された構造を表す。この構造は、ノードとリーフとを有するツリーにより表されるビデオの階層的分解として表される。ノードとリーフの個数は、ビデオコンテンツとそれの長さに依存する。ツリーの深さは、典型的には、コンテンツに依存する。ツリーの最も低いレベルは、構造分解の最も高い粒度に対応する。例えば、テニスの試合では、最も低いレベルはポイントに対応しうる。
【0025】
図1に示されるように、ツリーの最低レベルは、クリップ(小さなビデオ)又はキーフレームに直接対応しうる。より低い粒度によると、最低レベルはテニスに関してはゲームに対応しうると仮定できる。
【0026】
放送の分野では、デコーダはストリームの任意のポイントにおいてストリームの受信を開始するかもしれない。デコーダがこの構造情報を利用するため、ツリー記述全体がストリームにおいて繰り返される必要がある。この手法による問題は、これは冗長さを表し、過大な帯域幅を使用する可能性があるということである。
【0027】
このため、本発明は、図2に示されるように、構造情報をチャンクに分割することを提案する。
【0028】
提案されたシンタックスは、ストリームが流れるときにインクリメンタルな方法によりグラフを送信することを可能にする。
【0029】
そのアイデアは、連続する時点において送信される複数のチャンクを用いてツリー記述を分割するというものである。
【0030】
すべてのチャンクは、ビデオコンテンツの対応部分の前に送信されることが想定される。
【0031】
図2では、ツリーは3つのチャンクに分割される。ノード識別子は、デコーダのメモリにおいてツリー全体を再構成することを可能にする。
【0032】
時点t1において、次の入力ビデオの構造を示すメッセージがストリームに挿入される。この構造は、チャンク1において示される。
【0033】
時点t2において、次の入力ビデオの構造を示すメッセージがストリームに挿入される。この構造は、チャンク2において示される。
【0034】
時点t3において、次の入力ビデオの構造を示すメッセージがストリームに挿入される。この構造は、チャンク3において示される。
【0035】
ITU−T H.264に従ってデータが符号化されるとき、構造情報はSEI(Supplemental Enhancement Information)にカプセル化される。
【0036】
SEIメッセージの構造は、以下のテーブルに与えられる。
【0037】
【表1】

「Reference」フィールドは、所与のノードが現在のメッセージに記述されているか、又は以降のメッセージに記述されているかを示す。
【0038】
本発明の他の実施例によると、すべてのチャンクはまた、放送されるビデオの始めに送信可能である。これは、全体構造がデコーダにおいて放送されたビデオの始めに利用可能になることを可能にする。
【0039】
好適な実施例では、各チャンクは、SEIメッセージが適用されるビデオを有するNALの前にSEIメッセージにおいて1度送信される。
【0040】
各SEIメッセージは、スタート情報及びエンド情報として参照されるビデオ情報の絶対値を示すタイムコードを有する。ドキュメントへのナビゲートの際にユーザにとって意味のあるものとなるように、各セグメントは名前により表され、各セグメントはまた、SHOT、SCENE、EVENT、NEWS_STORYなどの具体的な識別子により識別可能である。これは、セグメントの粒度を与える。各セグメントはまた、ビデオのコンテンツとGOAL、MATCH、GAME、SETなどを表すセマンティック情報を用いて識別できる。この最後のメタデータは、ビデオインデックス化アプリケーションのための情報を与える。
【0041】
「Key Description」のフィールドはまた、当該セグメントが各年代に知られた重要人物からの極めて重要な宣言などを含むセグメントのキーフレーム、ビデオクリップ又はテキスト記述である場合、セグメントの粒度を示す。
【0042】
SEIメッセージのシンタックスは、ツリー構造が再帰的であるとき、再帰的なものとなる。
【0043】
チャンクへの埋め込みコンポーネントの個数Nがまた与えられる。
【0044】
このため、順次にチャンクを受信すると、各チャンクはその他のチャンクから独立していないが、テーブル1に記載されるシンタックスとノード識別子により完全にリンクされているため、ビデオデータの全体構造を再構成することができる。
【0045】
ここで、ビデオと共にフィンガープリント情報を送信する方法を提案する本発明の第2の態様について説明する。
【0046】
ビデオフィンガープリント処理は、2つのビデオドキュメントがおそらく同一のコンテンツ又はコンテンツの一部を含むことを検出可能にする技術である。それは、(意図的に又はそうでなく)変更されたコンテンツを処理することが可能である。これらの変更は、
・クロッピング(cropping)
・圧縮
・回転
・画像変更(blur..)
を含む。
【0047】
ビデオフィンガープリント処理の周知な応用は、ドキュメントの不正コピーの検出である。しかしながら、ビデオフィンガープリント処理は2つの類似するドキュメントを識別する信頼できる方法を提供するため、それは、ビデオコレクションへの重複の検出又は編集されたドキュメント全体におけるクリップの抽出を含む他の多数のアプリケーションを有する。
【0048】
これらのアプリケーションは、典型的には、“コンテンツによるクエリ(query by content)”をサポートする純粋に視覚的な類似性に基づくアプリケーションとは異なる。それらは、ほとんど正確に一致した2つのコピーを抽出することを目的としている。
【0049】
フィンガープリント処理技術は、特定の検索アプリケーションにより効率的に処理可能なコンテンツからの記述情報の抽出に依拠する。この記述情報は、ビデオコンテンツを伸張及び解析する必要なく検索するのに即座に利用可能となるように、メタデータに格納可能である。
【0050】
好適な実施例によると、ビデオデータは、ITU−T H.264規格に従って符号化される。フィンガープリント情報は、次のテーブルに規定されるようなSEIメッセージにカプセル化される。
【0051】
【表2】

フィンガープリントSEIメッセージは、ストリームの任意の位置に出現しうる。このようなメッセージは任意数存在しうるものであり、フレーム毎に高々1つである。典型的には、ショット毎に1つのフィンガープリントメッセージが存在する。
【0052】
フィンガープリントメッセージは、関連付けされ、テーブル2においてリファレンスフレームと呼ばれる正確なフレームを指定する(そこから抽出された)。これは、時間的な制約を考慮するのに必要なフィンガープリントチェック機構により要求される。
【0053】
タイムコードは、埋め込みドキュメントについて時、分、秒、フレーム番号により記述される。3バイトと1ニブル、b(8),b(8),b(8),n(4)により表される。
【0054】
ドキュメントが編集されている場合、このメタデータは再生成される必要があるであろう。
【0055】
「フィンガープリントアルゴリズムインデックス(Fingerprint Algorithm Index)」は、このフレームを記述するのに用いられるビデオフィンガープリントアルゴリズムのインデックスである。いくつかの異なるビデオフィンガープリントアルゴリズムが、フレーム、ショットを記述するのに利用可能である。
【0056】
2つのビデオフィンガープリントが異なる2つのアルゴリズムにより抽出された場合、直接的なフィンガープリントの比較は不可能である。
【0057】
シンタックスの定義の内部では、u(n)はnビットを使用した符号のない整数を表し、b(8)は何れかのビット文字列のパターンを有するバイト(8ビット)を表し、payloadSizeは、video_annotation_SEIペイロード全体のバイトによるサイズである。ここでは、迅速なビットストリームパーシングを促進するため、可変長符号化は使用されない。
【0058】
フィンガープリントとビデオ構造の双方の情報は、他のビデオアノテーション情報を有するハイレベルなSEIメッセージに組み合わせ可能である。
【0059】
例えば、次のテーブルは、ビデオアノテーションに関する複数タイプのメタデータを有するSEIメッセージ構造を提案することができる。
【0060】
【表3】

本発明の範囲から逸脱することなく、本発明はまた、ビデオデータの構造を決定する手段と、前記構造をインクリメンタルな方法によりチャンクに分割する手段と、関連する前記ビデオデータの前の時間インターバルにおいて前記チャンクをデータストリームに挿入する手段とを有するビデオ符号化装置に関する。
【0061】
好ましくは、このビデオ符号化装置は、ITU−T H.264規格に準拠し、前記構造情報は、SEI(Supplemental Enhancement Information)メッセージにカプセル化される。
【0062】
本発明はまた、ビデオデータの少なくとも1つのフレームに係るフィンガープリントを決定する手段と、前記フィンガープリント情報を有するメッセージをビデオストリームに少なくとも挿入する手段とを有するビデオ符号化装置に関する。
【0063】
好ましくは、このビデオ符号化装置は、ITU−T H.264規格に準拠し、前記フィンガープリント情報は、SEI(Supplemental Enhancement Information)メッセージにカプセル化される。
【0064】
本発明はまた、符号化されたビデオ情報を復号化する手段と、前記符号化されたビデオデータに挿入された関連するビデオデータをインクリメンタルな方法により復号化する手段と、無線受信された前記インクリメンタルなビデオデータ構造により前記ビデオデータ構造を再構成する手段とを有するパーソナルビデオレコーダに関する。
【0065】
本発明はまた、符号化されたビデオ情報を復号化する手段と、前記符号化されたビデオデータに構成されるフィンガープリント情報を復号化する手段と、受信した符号化されたビデオデータを格納する手段と、複数の記録されたビデオデータをそれらのフィンガープリント情報に基づき比較する手段とを有するパーソナルビデオレコーダに関する。

【特許請求の範囲】
【請求項1】
ビデオデータストリームにおけるビデオデータに係るフィンガープリント情報を送信する方法であって、
前記ビデオデータの少なくとも1つのフレームに係るフィンガープリントを決定するステップと、
前記フィンガープリント情報を有するメッセージを前記ビデオストリームに少なくとも挿入するステップと、
を有する方法。
【請求項2】
前記ビデオデータは、ITU−T H.264規格に準拠し、
前記フィンガープリント情報は、SEI(Supplemental Enhancement Information)メッセージにカプセル化される、請求項1記載の方法。
【請求項3】
データストリームにおけるビデオデータと関連するビデオデータ構造を表す関連するメタデータとを送信する方法であって、
前記ビデオデータの構造を決定するステップと、
前記構造をインクリメンタルな方法によりチャンクに分割するステップと、
関連する前記ビデオデータの前の時間インターバルにおいて前記データストリームにおいて前記チャンクを送信するステップと、
を有する方法。
【請求項4】
前記データ構造は、各ノードが複数のリーフを有する複数のノードを有し、
各チャンクは、複数のノードと複数のリーフとを有する、請求項3記載の方法。
【請求項5】
前記ビデオデータは、符号化され、
前記チャンクは、前記符号化されたビデオデータにおけるメッセージにカプセル化され、
前記チャンクは、該チャンクにおいて構成されるノードの記述又は該記述が次のチャンクに構成されていることを示す情報を有する、請求項4記載の方法。
【請求項6】
前記ビデオデータは、ITU−T H.264規格に準拠する符号化されたメタデータであり、
前記メタデータは、少なくともSEI(Supplemental Enhancement Information)メッセージにおいて送信される、請求項3記載の方法。
【請求項7】
前記記述に構成される情報は、ノード識別子、前記ノードが前記情報に記述されているか示す表示、並びに、前記ノードが現在の前記情報に記述されている場合、前記ノードが関連付けされる前記ビデオ情報を表す名前、前記ノードが関連付けされる前記ビデオ情報の時間を表すタイムコード、及びいくつかのサマリセグメント、及び各サマリセグメントについて、該サマリセグメントを表す名前、該サマリセグメントに係るセマンティック情報を表すカテゴリ及びキーフレーム、クリップ又はテキスト記述から選ばれたセグメントのタイプを示すキー記述から又は前記情報の何れかの組み合わせから選ばれる、請求項5記載の方法。
【請求項8】
ビデオデータの構造を決定する手段と、
前記構造をインクリメンタルな方法によりチャンクに分割する手段と、
関連する前記ビデオデータの前の時間インターバルにおいて前記チャンクをデータストリームに挿入する手段と、
を有するビデオ符号化装置。
【請求項9】
ビデオデータの少なくとも1つのフレームに係るフィンガープリントを決定する手段と、
前記フィンガープリント情報を有するメッセージをビデオストリームに少なくとも挿入する手段と、
を有するビデオ符号化装置。
【請求項10】
当該ビデオ符号化装置は、ITU−T H.264規格に準拠し、
前記構造情報は、SEI(Supplemental Enhancement Information)メッセージにカプセル化される、請求項8記載のビデオ符号化装置。
【請求項11】
当該ビデオ符号化装置は、ITU−T H.264規格に準拠し、
前記フィンガープリント情報は、SEI(Supplemental Enhancement Information)メッセージにカプセル化される、請求項9記載のビデオ符号化装置。
【請求項12】
符号化されたビデオ情報を復号化する手段と、
前記符号化されたビデオデータに挿入された関連するビデオデータをインクリメンタルな方法により復号化する手段と、
無線受信された前記インクリメンタルなビデオデータ構造により前記ビデオデータ構造を再構成する手段と、
を有するパーソナルビデオレコーダ。
【請求項13】
符号化されたビデオ情報を復号化する手段と、
前記符号化されたビデオデータに構成されるフィンガープリント情報を復号化する手段と、
受信した符号化されたビデオデータを格納する手段と、
複数の記録されたビデオデータをそれらのフィンガープリント情報に基づき比較する手段と、
を有するパーソナルビデオレコーダ。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2010−525642(P2010−525642A)
【公表日】平成22年7月22日(2010.7.22)
【国際特許分類】
【出願番号】特願2010−503467(P2010−503467)
【出願日】平成20年4月10日(2008.4.10)
【国際出願番号】PCT/EP2008/054384
【国際公開番号】WO2008/125601
【国際公開日】平成20年10月23日(2008.10.23)
【出願人】(501263810)トムソン ライセンシング (2,848)
【氏名又は名称原語表記】Thomson Licensing 
【住所又は居所原語表記】1−5, rue Jeanne d’Arc, 92130 ISSY LES MOULINEAUX, France
【Fターム(参考)】