ビデオインターバルへの注釈

オンラインでホストされるビデオにおける注釈を管理し表示するためのシステムと方法が提供される。ビデオに関連付けられた関連注釈を決定するために、ビデオの１以上のインターバルについての複数の注釈が集められ、複数のグループに組織化される。各グループはビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含む。関連した注釈を持つ１グループが特定され、ビデオの注釈クリップが該グループ内のインターバルに基づいて形成される。このプロセスは、所与の１ビデオ内の複数の関連した注釈からなる任意数のグループを決定するために使用され得、単一のビデオ内の各注釈インターバルを形成し、また、多数の異なるビデオ内の注釈を特定し組織化するもできる。

【発明の詳細な説明】
【技術分野】
【０００１】
ここに開示された実施の形態は、概して、ビデオのインターバルの注釈を管理し表示することに関する。
【背景技術】
【０００２】
ビデオホストウエブサイトを介したビデオ共有技術の普及は、オンラインコミュニティにおいてビデオを経験し合作する多数の機会を提供する。ビデオホストウエブサイトは、ユーザがビデオをアップロードし、ビデオを見て、ビデオについてコメントし、評価することを可能にする。ビデオホストウエブサイトをブラウズするユーザは、例えば、ビデオを検索し、ディレクトリをブラウズし、または、評価によって分類することによって、関心のあるビデオを探し出すことができる。
【０００３】
コメントは、有用な情報でビデオを補足する。コメントは、テキスト、オーディオ、グラフィック、その他の形態を含む様々なデータタイプであってよい。しかしながら、コメントは、ビデオの特定の部分ではなく、ビデオ全体についての情報を提供するために使用されてきた。あるユーザが他人をビデオの特定の部分に案内したい場合、該ユーザは、該部分についての、“1:48のスタントを見よ”のような時間オフセットをコメントに入力しなければならない。そして、他のユーザは、1分48秒のマークのある所まで対象ビデオを検索し、その後、前記コメントを理解するためにそこから見る必要がある。
【０００４】
さらに、コメントに含まれる内容は信頼できないものであることがある。該コメントの著者の信頼性を確認する上での困難が生じる。さらに、多数のコメントは、このようなコメントを解して伝達される情報の意味の理解を邪魔することがある。さらに、ビデオに対応付けられたコメントのうちのいずれが関連するものであるのかを知ることが難しい。例えば、すべてのコメントが当該ビデオにおける同一の時間経過空間に対応付けられていない限り、該コメントがビデオの同じ部分に言及しているのかどうかが不明確である。
【０００５】
さらに、ユーザは、ビデオにおける或る特徴を強調するために彼ら自身のコメントを作成したい場合がある。個人化されたコメントは、セキュリティ上の懸念、および、そのようなブックマークがどのように誰と共用されるべきかを決定する課題を生じる。加えて、個人化されたコメントが孤立して吟味されるならば、それらはコメントを同様に持つユーザの関係したグループに対して最小限の意味しか提供しない。そのような個人化されたコメントは、また、当該ユーザと該コメントを共有する人々の双方にとって、在り処をつきとめそれを取り出すのが困難である。
【発明の概要】
【０００６】
本発明は、ビデオをホストする（提供する）ウェブサイト（ビデオホストウェブサイト）においてビデオの注釈を管理するためのシステム及び方法を含む。ユーザーはビデオホストウェブサイト内に格納された様々なビデオ内でのインターバル（期間、区間、瞬間）の注釈を投稿（送信）する。例えば、注釈は、１ビデオ内の特定の瞬間又は１ビデオ内の１シーンと共に、１ビデオフレーム内の空間的な部位に対応付けられる。或る所与の１ビデオについて、多量の注釈があってよく、各注釈は該ビデオ内の何らかのインターバルにそれぞれ対応付けられている。これらのインターバルは重複していてもよい。従って、該ビデオの１以上のインターバルについての注釈をグループに組織化し、それから、該注釈の１グループに関連付けるためのビデオの１クリップ（当該ビデオから切り出したクリップ映像又は画像）を決定することが望まれる。各グループは、該ビデオの複数インターバルについての複数の注釈を含み、同じグループ内において各インターバルは互いに似かよっている。複数の関連した注釈を持つ１グループが同定され、ビデオから切り出した１つの注釈されたクリップが該１グループ内のインターバルに基づいて形成される。このプロセスは、望みとあらば、複数の関連した注釈を持つ所与の１ビデオにおいて任意の数のグループを決定することに拡張されることができ、単一のビデオ内においてそれぞれの注釈されたインターバルを形成し、かつ、多数の異なるビデオ内での注釈されたインターバルを同定し組織化することもできる。
【０００７】
関連した注釈に基づき、概要的な注釈が決定される。例えば、概要的な注釈は、関連した注釈の内容の概略若しくは関連した注釈からの抜粋を含み得る。
【０００８】
グループは多様なやり方で形成されることができる。例えば、複数の注釈が、各注釈に対応付けられたタイムスタンプに基づき、複数のグループにグループ化されることができる。また、複数の注釈が、各注釈に対応付けられたインターバルの開始時刻と終了時刻に基づき、まとめられる（クラスタ化する）ことができる。各グループは１ビデオ内の複数の特定されたシーン又は特徴に関連付けられることができる。加えて、当該ビデオに対応するタイムライン上で可視的に区別され得る注釈クリップ（注釈されたクリップ）の指示物の最大数を決定することに基づき、複数グループが形成され得る。また、インターバル間の時間量がグループの形成において考慮されるようになっていてもよい。
【０００９】
注釈の内容は、複数の関連した注釈を持つ１グループを決定するために考慮され得る。例えば、１以上のキーワードを共通に持つ複数の注釈からなっていてよい。このような注釈は、また、１以上のビデオにおいて或る１つの検索クエリー語を含む複数の注釈を同定するために試験され得る。
【００１０】
第１のビデオに関連付けられた注釈を管理するための方法は、前記第１のビデオの１以上のインターバルについての複数の注釈を受信することと、複数のグループを形成することと、ここで、各グループは、前記第１のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、複数の関連した注釈（関連注釈）を持つ第１のグループを決定することと、前記第１のグループにおける前記インターバルに基づき前記第１のビデオの第１の注釈クリップを形成することを具備する。
【００１１】
コンピュータシステムは、複数のサーバーモジュールを介してビデオに関連付けられた注釈を管理する。抽出モジュールは、該ビデオの１以上のインターバルに関連付けられた複数の注釈を抽出する。グループ化モジュールは、複数のグループを形成する。ここで、各グループは、前記ビデオ内の似かよった複数のインターバルについての複数の注釈を含んでいる。注釈決定モジュールは、複数の関連した注釈（関連注釈）を持つ１グループを決定する。クリップ生成モジュールは、前記グループにおける前記インターバルに基づき前記ビデオの注釈クリップを形成する。
【００１２】
第１のビデオに関連付けられた注釈を管理するためのシステムは、前記第１のビデオの１以上のインターバルについての複数の注釈を受信する手段と、複数のグループを形成する手段と、ここで、各グループは、前記第１のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、複数の関連した注釈（関連注釈）を持つ第１のグループを決定する手段と、前記第１のグループにおける前記インターバルに基づき前記第１のビデオの第１の注釈クリップを形成する手段とを具備する。
【００１３】
本概要および以下の詳細な説明に記述される特徴および利点はすべてを含んでいるのではない。さらなる多くの特徴および利点は、図面、明細書および請求項から当業者に明らかになろう。
【図面の簡単な説明】
【００１４】
【図１】本発明の一実施例に従うオンラインでホストされるビデオにおける注釈管理のためのシステムの設計思想を示すブロック図である。
【００１５】
【図２】本発明の一実施例に従うオンラインでホストされるビデオにおける注釈管理のための方法を説明するフロー図である。
【００１６】
【図３】本発明の一実施例に従うビデオのインターバルの注釈を入力するためのユーザーインターフェースを示す図である。
【００１７】
【図４】本発明の一実施例に従うビデオのインターバルの注釈を入力するためのユーザーインターフェースを示す図である。
【００１８】
【図５】本発明の一実施例に従うビデオのインターバルの注釈を管理するためのユーザーインターフェースを示す図である。
【００１９】
【図６】ビデオのフレーム及び1以上のフレームに対する注釈のインデックスを示す図である。
【００２０】
【図７（ａ）】注釈を見たり作成したり編集したりするためのユーザーインターフェースを示す図である。
【００２１】
【図７（ｂ）】新しい注釈を作成するためのユーザーインターフェースを示す図である。
【００２２】
【図８】本発明の一実施例に従い、ビデオの各インターバルの注釈を入力したりビデオの注釈されたクリップを見たりするためのユーザーインターフェースを示す図である。
【００２３】
【図９】本発明の一実施例に従い、ビデオの注釈されたクリップを見るためのユーザーインターフェースを示す図である。
【００２４】
【図１０】どの注釈が表示されるべきかを決定するための方法を示すフロー図である。
【００２５】
これらの図は、説明のために本発明の様々な実施形態を示す。当業者であれば、本明細書にて示される構造および方法の別の実施形態が本明細書で説明する発明の原理から逸脱することなく実施され得ることは、以下の説明から容易に理解できよう。
【発明を実施するための形態】
【００２６】
図１は一実施例に従うシステム設計思想を示すブロック図である。図１に示されるように、ビデオをホストするウェブサイト１０８は、フロントエンドサーバー１２４と、ビデオサーバー１２６と、ネットワークインターフェイス１２２と、抽出モジュール１１０と、グループ化モジュール１１２と、注釈決定モジュール１１４と、クリップ生成モジュール１１６と、概要的な注釈モジュール１１７と、表示モジュール１１８と、ランキングモジュール１２０と、ビデオデータベース１２８と、ビデオアクセスログ１２９と、ユーザデータベース１４０とを含んでいる。本発明に係わるシステムの特徴のみを明瞭に示すために、その他の周知の特徴、例えば、ファイヤーウォール、ロードバランサー、アプリケーションサーバー、フェールオーバーサーバー、サイト管理ツール、その他などは図示していない。該システムを実現するための適当なウェブサイト１０８の一例は、ＹｏｕＴｕｂｅ（登録商標）及びＧｏｏｌｅＶｉｄｅｏ（登録商標）など、その他の周知のビデオホストサイトを含み、これらは本明細書に開示された事項に従って動作するように適合化され得る。なお、「ウェブサイト」という用語は、コンテンツを提供するためのどんな方法及びシステムをも示しており、インターネット又はＨＴＴＰプロトコルを介して提供されたコンテンツをサポートするシステムに限定されるものではない。単一のソフトウェア又はハードウェアであろうと、複数のソフトウェア又はハードウェアであろうと、様々なサーバーが従来知られるように装備され、ネットワークインターフェイス１２２を介してネットワーク１０５に結合され得る。一般に、サーバー側で実行されるものとして一実施例において説明された機能は、もしそれが適切であるならば、その他の実施例におけるクライアント装置側で実行され得る。
【００２７】
クライアント装置１３０は、ブラウザ１３２を含み、ネットワーク１０５を介してフロントエンドサーバー１２４に接続されている。ネットワーク１０５は、典型的にはインターネットからなるが、その他如何なるネットワークであってもよく、これに限定されるわけではないが、ＬＡＮ、ＭＡＮ、ＷＡＮ、モバイル若しくはワイヤード又はワイヤレスネットワーク、プライベートネットワーク、あるいはバーチャルプライベートネットワークなどであってもよい。図では１つのクライアント装置１３０とブラウザ１３２が示されているが、非常に多数の（例えば数百万の）クライアント装置がサポートされ、ウェブサイト１０８といつでも通信状態となり得ることが理解されよう。クライアント装置１３０は、様々なコンピューティングデバイス（計算装置）を含んでいてよい。クライアント装置１３０の一例は、パーソナルコンピュータ、デジタルアシスタント、パーソナルデジタルアシスタント、セルラーフォン（携帯電話）、モバイルフォン（移動式電話）、スマートフォン、若しくはラップトップコンピュータなどである。当業者にとっては自明であるように、本発明は上述の装置に限らない。
【００２８】
ユーザは、クライアント装置１３０を使用して、注釈を見たり書いたり編集したりする。注釈は注釈コンテンツを含み、該注釈コンテンツはメディアファイルを有益に補足することができるどのようなデータからなっていてもよい。例えば、注釈コンテンツは、可聴的な若しくは文章的な論評、メタデータ、翻訳、広告若しくは概要、所定の基準（例えば星１〜５）で格付け、あるいは、該メディアファイルがどのように表示されるべきかについてのコメントなどを包含するものであってよい。オプションとして、注釈は、該注釈が関係するフレームの範囲を特定する空間的な定義を含んでいてよい。また、注釈はビデオコンテンツを含んでいてよい。クライアント装置１３０、ビデオを表示するためのソフトウェア及びハードウェアを含む。
【００２９】
例えば、クライアント装置１３０は、テレビジョン受像機、パーソナルコンピュータ、デジタルビデオレコーダ（ＤＶＲ）、パーソナルデジタルアシスタント（ＰＤＡ）、セルラーフォン（携帯電話）、あるいはディスプレイ装置を持つ又はそれに接続されたその他の装置であって、ＭＰＥＧ−２、ＭＰＥＧ−４、QuickTime（登録商標）、ＶＣＤ等その他の現行の又は将来的なビデオフォーマットからなるビデオファイルをデコードするのに適したビデオプレーヤーを含むソフトウェアを搭載した装置、として実装され得る。クライアント装置１３０の別の例は、本発明の範囲から逸脱することなく、当業者にとって自明であろう。本発明の一実施例に従ってクライアント装置１３０によって使用されるグラフィカルユーザインタフェイス（ＧＵＩ）の一例は、図３、図４、図７（ａ）、図７（ｂ）を参照してここで説明される。
【００３０】
いくつかの実施例において、ブラウザ１３２はそこに埋め込まれたビデオプレーヤ１３４、例えばＡｄｏｂｅ（登録商標）システム，インク．のＦｌａｓｈ（登録商標）プレーヤや、ビデオホストウェブサイト１０８で使用されるビデオファイルフォーマットに適合したその他の何らかのプレーヤなど、を含んでいる。ユーザは、ビデオのカタログをブラウズしたり、キーワードでの検索を行ったり、他のユーザ又はシステム管理者からのプレイリストをレビューしたり（例えば複数チャンネルを形成しているビデオコレクション）、若しくは特定のユーザグループ（例えばコミュニティ）に関連付けられたビデオを見たりすることによって、ビデオホストウェブサイト１０８からのビデオにアクセスできる。
【００３１】
ビデオサーバー１２６は、コンテンツプロバイダからアップロードされたメディアコンテンツを受信し、コンテンツがクライアント装置１３０によって見られるようにする。コンテンツは、パーソナルコンピュータからインターネット経由で、あるいは電話又はＰＤＡから携帯電話網を通して、あるいは当業者にとって公知のネットワーク１０５経由のデータ伝送用のその他の手段を介して、ビデオサーバー１２６にアップロードされてもよい。コンテンツは同様の方法でビデオサーバー１２６からダウンロードされるようになっており、一実施例としてメディアコンテンツはクライアント装置１３０にファイルとしてダウンロードされることで提供され、別の実施例としてメディアコンテンツはクライアント装置１３０にストリーム送信される。メディアコンテンツがビデオサーバー１２６によって受信されるようにする手段は、それがクライアント装置１３０に対して配信されるようにする手段と一致している必要はない。例えば、コンテンツプロバイダはパーソナルコンピュータ上のブラウザを介してビデオをアップロードしてよく、その一方で、クライアント装置１３０ではＰＤＡ装置に対して送信されたストリームとしてビデオを見るようになっていてもよい。なお、ビデオサーバー１２６それ自身がコンテンツプロバイダとして提供してもよい。
【００３２】
クライアント装置１３０のユーザは、キーワードに基づきビデオを検索することもできる。検索リクエストはフロントエンドサーバー１２４によってクエリーとして受信され、ビデオサーバー１２６に提供される。ビデオサーバー１２６は、ユーザのクエリーを満足させるビデオをビデオデータベース１２８から検索することに責任を持つ。ビデオサーバー１２６は、例えば、ビデオのタイトル、説明、タグ、作者、カテゴリー、その他など、ビデオに関するどんなフィールドのデータについての検索をもサポートする。特定のメディアファイルに関連付けられた注釈についてのクライアント装置１３０からのリクエストに応答して、ビデオサーバー１２６は該メディアファイルに関連付けられた１又は複数の注釈をネットワーク１０５経由で該クライアント装置１３０に送る。また、或る該メディアファイルに関連付けられた１又は複数の注釈のクライアント装置１３０からの送付に応じて、ビデオサーバー１２６は該該メディアファイルに関連付けられた１又は複数の注釈をユーザデータベース１４０に格納する。
【００３３】
受信した注釈についての情報がユーザデータベース１４０内に格納される。ユーザデータベース１４０はウェブサイト上でビデオを見ているすべてのユーザの記録を維持管理する。各個別のユーザにユーザＩＤが割り当てられる。このユーザＩＤは、例えばユーザのＩＰアドレスやユーザ名など、その他の如何なる識別情報を基礎とするものであってよい。ユーザデータベースは、また、ビデオコンテキスト及びｅメール又はテキストメッセージの使用のようなその他のアプリケーションを通して、その両方でユーザの評判についての情報を含んでいてもよい。
【００３４】
クライアント装置１３０及びブラウザ１３２のユーザは、ネットワーク１０５経由でビデオホストウェブサイト１０８にコンテンツをアップロードすることができる。例えば、アップロードされたコンテンツは、ビデオ、オーディオ、又はビデオとオーディオの組み合わせを含むことができる。アップロードされたコンテンツは処理されて、ビデオデータベース１２８に格納される。この処理は、フォーマット変換（トランスコーディング）、圧縮、メタデータのタグ付け、及びその他のデータ処理を含むことができる。アップロードされたコンテンツファイルはアップロードしたユーザと関連付けられ、必要とあらば、ユーザアカウント記録がユーザデータベース１４０において更新される。
【００３５】
便宜上及び一実施例の説明として、アップロードされたコンテンツは、以下、「ビデオ」、「ビデオファイル」、「ビデオアイテム」などと称することとするが、このような用語によってアップロードされ得るコンテンツのタイプを限定するつもりはない。各アップロードされたビデオには、それが処理されるときに、ビデオ識別子が割り当てられる。
【００３６】
ビデオデータベース１２８は受信したビデオを格納するために使用される。ビデオデータベース１２８はビデオコンテンツとそれに関連するメタデータ（各コンテンツの所有者によって提供される）を格納する。ビデオファイルは各ビデオファイル毎に関連付けられたメタデータを有し、このメタデータとは、ビデオＩＤ、アーチスト、ビデオタイトル、ラベル、ジャンル、時間長などである。
【００３７】
ビデオデータベース１２８内のビデオアクセスログ１２９は、ビデオアクセスの各インスタンス（実体）を格納する。注釈は、或るインジケータ（指示物）又は該ビデオに関連するタイムライン上の一部分をクリックすることにより送信され得る。ユーザは、また、ビデオのより長いインターバル（期間、区間）についての注釈を特定するために、タイムライン上をクリックしたりドラッグしたりすることができる。ユーザは、また、デジタルビデオレコーダ（ＤＶＲ）又は同様の機能を提供する装置を介して、注釈を送信することができる。例えば、該装置に対応付けられたユーザインタフェイスを通して注釈のエントリ（入力）を許可するように構成されたリモートコントロール装置を使用することにより、注釈を送信することができる。アクセスログ１２９内の各エントリー（入力）は、アクセスされているビデオ、アクセス時間、ユーザのＩＰアドレス、もし利用可能であればユーザＩＤ、クッキー、検索クエリー、ビデオとのインタラクション（相互作用）のタイプを識別するデータ、ビデオとの各インタラクション毎の時間など、を同定（識別）する。インタラクションのタイプは、ウェブサイト１０８のユーザインタフェイスにおける如何なるユーザインタラクション（相互作用）をも含み得る。そのようなユーザインタラクション（相互作用）とは、再生、ポーズ、巻き戻し、早送り、注釈の送り出し及び送信、又はビデオの格付けなどである。
【００３８】
図３に戻ると、クライアント装置１３０によって注釈を入力したり、ビデオサーバー１２６からのメディアコンテンツを見たりするためのユーザインタフェイスを提供するウェブページの一例が示されている。このウェブページは、ビデオ３００を含んでおり、そして、コンテンツ提供者の名前又はユーザＩＤ、該ビデオがアップロードされた日付など、その他（図示せず）のビデオについての情報を含んでいてもよい。このウェブページは、また、ビデオ３００に対応付けてタイムライン３０２を含んでいる。タイムライン３０２上のマーカー３０８は、再生中のビデオ３００の現在位置を指示する。また、ウェブページは、注釈のコンテンツを検索できるようにするための検索（Search）ボックス３０４を持つ。
【００３９】
ユーザは様々なやり方でビデオの或るインターバル（期間、区間、瞬間）の注釈を送ることができる。例えば、ユーザは、注釈を提供したいビデオのインターバルを見ているときに、「Ｂ」ボタン３０６をクリックすることができる。別のやり方として、ユーザは、インターバルの開始時刻で「Ｂ」ボタン３０６をクリックすることができ、注釈を提供しようとしているインターバルの終わりで再び「Ｂ」ボタン３０６をクリックすることができる。図３に示したものは、ビデオインターバルのための注釈を受け付けるためのユーザインタフェイスの一例である。
【００４０】
ビデオインターバルのための注釈を受け付けるためのユーザインタフェイスの別の例が図４に示されている。カーソル４２０が「Ｂ」ボタン４１６の上に位置することにより、ポップアップウィンドウ４１０が表示される。このウィンドウは、注釈を作成するために、ユーザがテキストボックス４１２内に文字入力できるようにする。更に、入力した文字が公けに検索されたり見られたりしてよいということを明示するために、ユーザは「パブリック」（Public）ボタン４０２をクリックすることができる。図６を参照してより詳しく説明するように、注釈はビデオフレーム内の空間的位置に関連付けられるようになっていてもよい。
【００４１】
図５は、本発明の一実施例に従ってビデオのインターバルの注釈を管理するための、別のユーザーインターフェースを示す。カーソル５１０が「Ｂ」ボタンの選択を示すために使用された後、ウィンドウ５２０が表示され、ユーザがブックマーク注釈を削除する又はインポートすることが出来るようにする。当業者は、本発明に従ってその他のユーザインタフェイスが使用され得ることを認識するであろう。
【００４２】
図１のモジュール１１０〜１２０は、図２に示された方法を実行するために使用され得る。抽出モジュール１１０は、ステップ２１０で受信した注釈のイベントを、ビデオアクセスログ１２９から抽出する。インターバル（期間）とは、ビデオ内の特定の瞬間（例えば２分３秒というような）、あるいは時間範囲（例えば２分３秒から２分４５秒までというような）である。注釈に関連したユーザ情報は、例えば、該注釈が受信された時刻、各注釈毎のタイムスタンプ、各注釈に対応付けられたインターバルの開始時刻と終了時刻、該注釈を送付したユーザの評判点数、等を含み得る。このユーザ情報はユーザデータベース１４０内に格納し得る。抽出モジュール１１０は、注釈を抽出し、これをビデオＩＤとタイムスタンプとでソート（振り分け整理）して、注釈ブロック（注釈集合）を形成する。注釈の各ブロックは、ビデオに関連付けられ、かつ、タイムスタンプによってソートされる。
【００４３】
グループ化モジュール１１２は、ビデオの似通ったインターバルについての複数の注釈を内容とするグループを形成する（ステップ２２０）。注釈の１ブロック内の複数のグループは、様々な方法で形成されるようになっていてよい。例えば、グループ化モジュール１１２は、各注釈に関連付けられたタイムスタンプに基づき、注釈を複数クラスタにまとめることにより、複数のグループを形成する。もし複数の注釈が互いに特定の時間限度内のタイムスタンプを持っているならば、グループ化モジュールはそれらがビデオの似通ったインターバルに関係していると判定し、クラスタとしてまとめられる。例えば、互いに５秒以内のタイムスタンプを持つ複数の注釈は、似通ったインターバルに相当すると判定される。例えば、何人かのユーザはビデオの始まりにおいて行動をタイムスタンプ（時間記録）し、別の何人かはクライマックスで行動をタイムスタンプし、別の何人かはその終了後直ちに行動をタイムスタンプする、というような具合である。この技術を用いて、それぞれの注釈がそれぞれグループ化されるであろう。
【００４４】
別の実施例において、インターバルの開始時刻と終了時刻に基づき、注釈が複数クラスタにまとめられる。例えば、（注釈が関連付けられたインターバルの開始時刻と終了時刻によって結び付けられた）各インターバルの間において十分な重複（例えば２５％の重複）があれば、グループ化モジュール１１２は、該各注釈がビデオの似通ったインターバルに関係していると判定する。これは、各注釈に関連付けられたインターバルが一致していないとしても、それらの注釈がグループ化され得るようにする。
【００４５】
注釈を複数クラスタにまとめるための様々な方法が用いられてよい。公知のクラスタ化方法のいくつかの例には、ｋ−平均クラスタ化アルゴリズム又はｋ−ｃｅｎｔｅｒクラスタ化アルゴリズムが含まれる。
【００４６】
別の実施例において、グループ化モジュール１１２は、注釈が関連付けられる複数のインターバル間の時間量を判定することによりグループを形成する（ステップ２２０）。インターバル間に十分な時間量（例えば３０秒）が存在していれば、グループ化モジュール１１２は該各インターバルに関連付けられた注釈のために新しいグループを形成する。例えば、１０分ビデオにおいて判定対象の２つのインターバル間に５秒が存在してるならば、グループ化モジュールはそれらのインターバルのために新しいグループを形成しないようにできる。
【００４７】
グループ化モジュール１１２の別の例は、１ビデオ内の複数のシーン又は特徴を特定し、１以上のシーン又は特徴に各グループを関連付けることによって、グループを形成する（ステップ２２０）。
【００４８】
１つの特徴は、似通ったビデオの１又は複数フレームの内容の簡潔な表現である。例えば、グループ化モジュール１１２は、それらのフレームをシーン又はショットのような論理的単位にグループ化してよい。グループ化モジュール１１２は、それらのフレームを自動的にグループ化するためのシーン検出アルゴリズムを使用してよい。或る１つのシーン検出アルゴリズムは、著Naphade, M. R. 外「A High-Performance Shot Boundary Detection Algorithm Using Multiple Cues」（1998年画像処理の国際会議（1998年10月4日〜7日）、Vol. 1、 884頁〜 887頁）に記載されている。その他にも、公知かつよく使用されている多くのシーン検出アルゴリズムがある。
【００４９】
上述の方法により、グループ化モジュール１１２は、同じシーンに属する全てのフレームのための１つの特徴セットを算出できる。その特徴とは、例えば、時間、空間、あるいは周波数の領域における特徴の記述である。例えば、複数の注釈は、特定のフレームに関連付けられ、且つ、そのフレームを、それらの時刻、位置及び周波数の領域の特徴により記述できる。グループ化モジュール１１２は、例えば、著Zabih, R., Miller, J., と Mai, K.,「Feature-Based Algorithms for Detecting and Classifying Scene Breaks」,議事録 ACM Multimedia 95, San Francisco, CA (１９９３年１１月), 189頁-200頁；著 Arman, F., Hsu, A., とChiu, M-Y., 「Image Processing on Encoded Video Sequences」, Multimedia Systems (１９９４年), vol. 1, no. 5, 211頁〜219頁；著 Ford, R.M., 外., 「Metrics for Shot Boundary Detection in Digital Video Sequences」, Multimedia Systems (2000年), vol. 8, 37頁-46頁.などに記載された、ビデオの特徴を特定するためのどのような技術を使用してもよい。当業者であれば、種々のビデオの特徴を特定するための技術を理解できるであろう。
【００５０】
別の実施例において、グループ化モジュール１１２は、注釈クリップ（注釈に関連するクリップ）を指示するための指示物であって、ビデオに対応するタイムライン上で可視的に区別され得る該指示物の最大数を決定することによって、複数のグループを形成する（ステップ２２０）。例えば、長尺のビデオは種々のインターバルに対応付けられた多数の注釈を有する。複数の注釈クリップの指示物は、画像サイズと解像度のために可視的に区別するのが困難でありうる。場合によっては、より長尺のビデオにはより短いビデオに比べて、より多くのグループが必要となる。タイムライン上で多数の注釈クリップの指示物を可視的に区別することの困難性を考慮して、グループ化モジュール１１２は、前記可視的な指示物に基づいて形成されるグループの最大数を設定できる。これにより、所与のビデオ内で、例えば１０個以上の注釈クリップがあったとしても、グループ化モジュール１１２は、表示される複数の指示物を上位１０位の注釈クリップに制限できる。加えて、グループ化モジュール１１２は、同様に、タイムライン上の指示物の可視的区別を容易するために、アクション−パックトショートビデオ(action-packed short video)を注釈クリップの最大数に制限できる。
【００５１】
所与の１ビデオのために、注釈決定モジュール１１４は、多様なやり方で、複数の関連した注釈（関連注釈）を持つ１グループを決定する（ステップ２３０）。当業者であれば、注釈のグループ化が、語幹処理、関連語拡張、ベクトル分析、あるいは、自然言語処理／計算言語学方法等のような、種々の情報検索技術を使用して実行できることを知っている。例えば、注釈決定モジュール１１４は、少なくとも、各注釈の内容の一部比較に基づいて、該複数の関連した注釈の第１のグループを決定する。これにより、異なる注釈における同じ又は似通った言葉が、それら注釈が１つのグループに関係付けられるものと決定することに使用される（例えば、文言「ＮｅｗＹｏｒｋＣｉｔｙ」と「ＮｅｗＹｏｒｋ」とを含む注釈は、それら文言が同じ最初の８文字を含んでいるので、関係付けされる）。
【００５２】
別の例では、注釈決定モジュール１１４は、その注釈が或る特定のユーザによって供給されたかどうか基づき、注釈毎に重みを割り当てることができ、且つ、その注釈の重み割り当てに基づき１グループを決定できる。これにより、該１グループが、各注釈毎に割り当てられた重みに基づいて、複数の関連した注釈（関連注釈）を持つよう決定される（例えば、同じユーザによって投稿された複数の注釈は、より少ない重みを持ち、それゆえ、グループの決定に際してより関係付けられにくいとみなされる）。
【００５３】
注釈決定モジュール１１４は、また、注釈に関連付けられた評判点数に基づいて、注釈毎に重みを割り当てできる。注釈は、例えば、その注釈が新規又は認識されていなユーザにより投稿（送信）されたかどうか、以前に当該ユーザによって投稿された注釈の有用性、他のユーザからら賛同された当該ユーザによる注釈の数、あるいは、ユーザデータベース１４０における当該ユーザに関する他の情報などに基づく評判点数に関連付けられる。
【００５４】
クリップ生成モジュール１１６は、所与のグループにおけるインターバルに基づいてビデオのクリップを形成する（ステップＳ２４０）。クリップを形成する方法として多種の方法がある。一実施例において、クリップ生成モジュール１１６は、受信した注釈を有するインターバルの開始時刻のみを考慮する。これにより、全ての考慮されたインターバルは、そのビデオ内で即座に開始して、当該ビデオの終わりまで続く。あるいは、クリップ生成モジュール１１６は、受信した注釈を有するインターバルの開始時刻及び終了時刻の両方を考慮する。クリップ生成モジュール１１６は、グループ内のインターバルの最も早い（又は最も遅い）ポイントを決定するためにこれらの時刻を使用することができ、また、オプションとして、その直前（又は直後）のシーンの開始時点に、これらの時刻を丸めてもよい。
【００５５】
別の実施例において、クリップ生成モジュール１１６は、インターバル毎の注釈の重みを加えること、あるいは、各時点毎の注釈数の対数を加えることなどにより、タイムライン上のグループ内の各インターバルの寄与を投影する。クリップ生成モジュール１１６は、確率モデルを標準的な統計方法による分布（例えばガウス分布）に合わせ。そして、平均値を中心として選ぶ。クリップ生成モジュール１１６は、もし開始時刻及び終了時刻がシーンの境界に丸められているなら、前記平均値の両側の標準偏差の或る数（例えば３）を選択する。
【００５６】
別の実施例において、クリップ生成モジュール１１６は、どの注釈を投稿したこともないユーザを含みうる、異なる複数のユーザによって当該ビデオの各時点がどれだけ見られているかを決定するためにトラフィック（通信量）トレースを調べる。この情報は、クリップがどこで開始及び終了すべきかを決定するために、上記の方法と共に使用できる。一実施例によれば、所与の期間内で最もトラフィック（通信量）を受けたビデオの各インスタンス（実体）は、同じクリップの一部と見なされ、且つ、当該クリップの長さを決定するために使用される。
【００５７】
例えば、３分００秒のビデオが、水中のサメを飛び越えるという類の自動二輪車のスタントを演じる演者を描写したものであり、ジャンプの頂点が２分００秒の時点で行われるとする。１つの注釈は、ジャンプの２秒前から２秒後まで（例えば、１分５８秒から２分０２秒まで）のインターバルに対するものとである。別の注釈は、ジャンプの頂点（例えば、２分００秒）に対するものである。第３の注釈は、ジャンプ前から自動二輪車が無事に着地するまで（例えば、１分５０秒から２分１０秒）の長きにわたるインターバルに対するものである。これらインターバルに基づいて、クリップ生成モジュール１１６は、注釈されたクリップを形成する（例えば１分５４秒から２分０６秒）。この例では、クリップ生成モジュール１１６は、３つの注釈で関連付けられたインターバル内の時間を平均することにより、注釈されたクリップを形成している。
【００５８】
概要的な注釈モジュール１１７は、第１のグループ内の前記複数の関連した注釈に基づいて、該第１の注釈されたビデオのクリップのために概要的な注釈を形成する。一実施例において、概要的な注釈モジュール１１７は、第１のグループ内の前記複数の関連した注釈（関連注釈）の内容を要約することによって概要的な注釈を生成する。当業者であれば、注釈の要約が、複数の注釈の連結や、Web検索インターフェースにおける “スニペット”発生法などのような種々の技術を用いて実行できることを理解できる。注釈を要約するための他の技術は、１の中心（他の全ての注釈からの最大距離が最小となる注釈）を定義するための複数文字列間の種々の編集距離のような、文字列類似度を用いるものである。別の実施例では、注釈の要約は、（ゲノム配列が分析される計算生物学におけるように）共通部分列分析に基づいて生成できる。
【００５９】
一例において、概要的な注釈モジュール１１７は、関連した注釈の抜粋を供給することにより、概要的な注釈を生成する。一例として、仮に次の３つの注釈が投稿されているものとする：（１）「Fonzie jumps th shark」、（２）「Fonz takes off」及び（３）「Shorts and a leather jacket」：これら３つの注釈の内容が要約された概要的な注釈は次の如く示す：「Fonz ,in shorts and a leather jacket, takes off and jumps the shark」: 他方、関連した注釈の内容が要約された概要的な注釈は次の如く示す：「Fonzie jumps the shark...takes off...shorts and a leather jacket」
【００６０】
ランキングモジュール１２０は、各グループにおける注釈数に基づいて注釈クリップをランク付けする。ランキングモジュール１２０は、また、多数のビデオにわたって注釈クリップをランク付けする。言うまでもなく、これら種々のモジュールは、全体でもっとも注釈されたクリップを特定するために、任意の数のビデオにおける各クリップ毎の注釈数を決定することができる。
【００６１】
ランキングモジュール１２０は、検索クエリーに応答するものと決定されたビデオが、各応答するビデオのグループに対する注釈に基づいてランク付けされるように、ビデオ検索と共に使用できる。一実施例において、ランキングモジュール１２０は、各ビデオにおいてもっとも注釈付けされたインターバルに対する注釈数に基づいてビデオのランク付けを決定する（例えば、もっとも高くランク付けされたビデオは、最も多数の注釈数を受けたクリップを含むビデオである）。別の実施例では、ランキングモジュール１２０は、各ビデオ内の全てのグループについて受けた注釈の総数に基づいてビデオのランク付けを決定する（例えば、もっとも高くランク付けされたビデオは、そのビデオ内の全てのクリップにわたり最も注釈を受けたビデオである）。
【００６２】
表示モジュール１１８は、注釈クリップを指示するための指示物の表示を、ビデオに対応付けられたタイムライン上で、提供する。これは、効果的な理解と１又は複数のビデオにおける注釈クリップへのアクセスとをユーザに与える。表示モジュール１１８は、また、第１の注釈クリップと第２の注釈クリップを含むビデオの注釈された抜粋を形成し、その注釈された抜粋を表示することにより注釈された強調部分、又は、所与のビデオの予告編を生成する。
【００６３】
ビデオデータベース１２８は、注釈クリップを持つビデオのリストを記憶する。リストは、ジャンル、格付け、あるいはその他任意の属性によりグループ化される。関係付けられたビデオのリストは、一例として、ユーザデータベース１４０から注釈付け活動の分析を行うことにより時間毎に更新される。もっとも注釈付けされたクリップのリストが生成されたとき、ビデオサーバー１２６は、リストに基づいてビデオデータベース１２８からビデオを抽出し、また、ユーザデータベース１４０から注釈も抽出し、且つ、注釈付けされたビデオをユーザに視聴用に提供する。
【００６４】
図３において、複数のクライアント装置が、タイムライン３０２上に示された多数の注釈３１０Ａ〜３１０Ｅを投稿した。図８を参照して説明すると、注釈３１０Ａ〜３１０Ｅ（図示しない他の注釈も含む）は、ビデオの注釈クリップを形成するために使用される。例えば、注釈３１０Ａと３１０Ｂは、参照番号８１０により示す注釈クリップを形成するために使用（図示しない他の注釈も含む）される。注釈３１０Ｃ〜３１０Ｄは、参照番号８２０により示す注釈クリップを形成するために使用される。注釈３１０Ｅは、参照番号８３０により示す注釈クリップを形成するために使用される。
【００６５】
図６を参照すると、注釈がどのように時間的に且つ空間的にビデオファイル及びその１以上のフレームに関連付けられるかを説明するための概念図が示されている。図６はフレーム６００からフレーム６５１まで走行する一連のビデオフレームを示している。クライアント装置１３０は、これらのフレームを表示し、また、一時停止したり、巻き戻ししたり、早送りしたり、スキップしたり、その他、フレームがひょうじされる順序や速度を調整することができる。
【００６６】
説明の都合により、フレームで構成されるビデオについて話をする。ビデオは、フレームのブロックとして、フィールドとして、マクロブロックとして、あるいは不完全なフレームの区間内で、ときどき転送され記憶される。この明細書で言及がフレームで構成されるビデオに対してなされるとき、中間的段階においては、ビデオは実際にはその他の様々な形式で記憶されるようになっていてよい。この明細書で「フレーム」という用語は明確化のために使用されているにすぎず、ビデオの記憶及び表示のための或る特定のフォーマットあるいは従来公知のものに限定される趣旨ではない。
【００６７】
いくつかのフレームは、特定のユーザによって提供された、それに関連付けられた注釈を持つ。図示の例では、それに関連付けられた注釈を示すために、フレーム６０１が拡大して図示されている。図示のように、注釈は１フレームの特定の空間的位置に関連付けられることができ、若しくは、フレームの全体に関連付けられることもできる。例えば、注釈１はフレーム６０１の左上の隅の方形ボックスに対応付けられている。反対に、注釈４はフレームの全体に関連付けられている。
【００６８】
注釈は重複した空間的位置に関連付けられてもよい。例えば、注釈１は、チャンネル２に関連付けられた別の方形ボックスにオーバーラップ（重複）する方形ボックスに関連付けられている。一実施例において、注釈は、任意の閉じたフォーム形状によって定義された空間的位置に関連付けられることもできる。例えば、図６に示すように、注釈３は楕円形状によって定義された空間的位置に関連付けられている。
【００６９】
注釈リスト６８０は、注釈の空間的位置の定義と注釈の内容との間で注釈を維持する。フレーム６０１内の或る方形ボックスに関連付けられた注釈１は「副大統領」という文字を含む。この注釈１は、１フレームの特定の部分にハイライトをつける若しくは補充情報を追加するために有益な注釈の一例である。注釈４は、１フレームの内容を要約するために使用される注釈の一例である。注釈５は、フレーム６０１全体に関連付けられるものであり、いくらかのオーディオを含み、この例の場合、フランス語の通訳音声である。注釈５は補助的なオーディオコンテンツを提供するために使用される一例である。
【００７０】
注釈は、メディアファイル又はその任意の部分に対する時間的関連付けを持つことができる。例えば、注釈は特定のフレーム又は複数フレームの範囲に関連付けられることができる。例えば、図６において、注釈注釈２はフレーム６００からフレーム６５１までに関連付けられることができ、その一方で、注釈５はフレーム６０１のみに関連付けられる。注釈に関連付けられた空間的位置の定義は時間的に変化し得る。例えば、注釈１は、フレーム６０１における第１の領域に関連付けられることができ、フレーム６０２においては別の第２の領域に関連付けられることができる。時間及び空間に従属した注釈の関連付けは、動きの対象に関連付けする補充的情報を提供するために特に有益であり、図に示された一例のように、アメリカ合衆国の副大統領の動きに適合させることができる。時間的な関連付けは、フレーム数、時間コード、若しくはその他任意のインデックスベース、の点から定義され得る。テーブルとしての注釈リスト６８０の図は、記憶フォーマットを基礎として使用することに限定しているものではなく、注釈情報の任意のフォーマット又は組織化が用いられてよく、それには記憶量を減少し及び／又は取り出しスピードを増大するような最適化フォーマットが含まれる。
【００７１】
メディアファイルの再生中に、クライアント装置１３０は該ファイルのフレームに関連付けられた注釈を表示するように構成される。例えば、注釈は、ビデオフレームにスーパーインポーズされたテキスト文として、あるいはフレームの側に沿って示された図形として、あるいはビデオと同時に再生される音声として、表示され得る。この注釈は、また、ビデオ画面の近くのウィンドウ又はフレーム内に現れるようにすることもできる。注釈は、また、それらが関連付けられているメディアファイルが如何に表示されるべきかを指示するコマンドを含むことができる。コマンド注釈を表示することは、該注釈によって指示されたようにビデオを表示することを含む。例えば、注釈に応答して、クライアント装置１３０は、ビデオ内の別の箇所にスキップしたり、スローモーションでビデオの一部を表示したり、あるいは、まったく別のビデオにジャンプしたりするかもしれない。
【００７２】
クライアント装置１３０は、利用可能な注釈のサブセット（部分集合）を表示することができる。例えば、図６のビデオを見ているユーザは、どの注釈がクライアント装置１３０によって表示されるべきかを、様々な尺度（基準）の指定によって、選択することができる。ユーザは、或るタイプの注釈のみ（例えば論評、文章、図形、オーディオなど）を受け取るように、あるいはディスプレイの特定領域によって定義される注釈のみを受け取るように、選択することができる。ユーザは、特定の言語の注釈のみを受け取るように、あるいは或る検索基準（キーワードのような）にマッチする注釈のみを受け取るように、あるいは、特定のユーザによって書かれた注釈のみを受け取るように、選択することができる。別の例として、複数ユーザの共同コミュニティ内で注釈が書かれ編集されるとき、或るユーザは或る閾値以上の評判を持つユーザによって書かれた注釈のみを受信するように、あるいは或る閾値以上の格付けを持つ注釈のみを受信するように、選択することができる。
【００７３】
ユーザは、また、注釈を検索したり、注釈検索結果に基づいてそれに関連付けられたビデオを取り出す（retrieve）することができる。
【００７４】
或る注釈は、ユーザがそれを表示することを拒否できないようにする優先度が付与され得る。例えば、注釈は広告を含み得、広告注釈が同時に表示されない限り、他のどんな注釈も表示されないように構成してよい。そのような構成は、ユーザが或る注釈を見るのを禁止する一方で、支払い済みの広告注釈を無駄にするであろう。加えて、或る注釈はコンテンツサーバーによって提供されてよく、それはビデオのナビゲーションを容易にするためにコンテンツの簡単な断片を含む「タグ」のようなものである。コンテンツサーバーの「タグ」の区別は、注釈が信頼できるソースからのものであることをユーザに示すであろう。
【００７５】
次に、どの注釈が表示されるべきかを決定するための方法について、図１０を参照して説明する。例えば、ユーザが、彼女が書いた個人化されたブックマーク注釈を表示させることを望むだけであるとする。若しくは、彼女は、彼女の友達及び家族からなる信頼された１グループのブックマーク注釈が表示されることを望むだけであるとする。
【００７６】
オプションとして、クライアント装置は、注釈に対するユーザからの変更を受け付ける。例えば、ユーザは、文章を編集したり、オーディオを再録音したり、注釈内容に含まれるメタデータを変更したり、あるいは、注釈コマンドを変更したりすることができる。クライアント装置は、変更された注釈をビデオサーバーに送信する、あるいは、その代わりに、変更の記述をビデオサーバーに送信する。ビデオサーバーは変更された注釈を受信し、ユーザデータベース内に記憶する。
【００７７】
例えば、図６に示す注釈を見ているユーザは注釈１に不満かもしれない。該ユーザは、クライアント装置１３０に接続された入力装置を使用して、注釈文（テキスト）の「副大統領」を「合衆国副大統領」に変更する。（該ユーザに対する又は多分その他のユーザに対する）該注釈の未来の表示は、変更されたテキスト「合衆国副大統領」を含むであろう。別の見解として、ユーザは、注釈が関連付けられている時間的又は空間的定義を変更することができる。例えば、抜け目のないユーザがフレームの右側に見せられた書類が実際に１５ＵＳＣ第７８ｄｄ−１条からの抜粋であり、（大統領の位置によって殆ど完全に覆い隠されているにもかかわらず）憲法がフレームの左側にかろうじて見えることに気づくかもしれない。従って、そのユーザは、例えばクライアント装置１３０に接続された入力装置を使用して異なる位置にその空間的定義を（例えばビデオの複数フレームを図示する直接操作ユーザインタフェイスにおいて）ドラッグすることにより、注釈３が関連付けられている時間的定義を変更することができる。
【００７８】
注釈リスト６８０は、どのようにして注釈とそれに関連付けられたフレームとが組織化されることができるかの一例として図示する目的のために、図６に示されている。注釈リスト６８０は、１フレーム又は複数フレーの範囲に関連付けられた注釈を管理し表示するために有用であるが、本発明の範囲を逸脱することなく、異なるやりかたで注釈を組織化することができる。
【００７９】
また、図６を参照してここで説明したように、注釈はビデオの複数フレームの範囲に関連付けられ得る。ときには、ビデオの１以上のフレームからなる１組を、ビデオのインターバルと言う。
【００８０】
図７（ａ）を参照すると、ユーザはグラフィカル・ユーザ・インターフェイス（ＧＵＩ）を使用して検索（SEARCH）したり、作成（CREATE）したり、編集（EDIT）したりすることができる。図示された実施例において、注釈用のグラフィカル・ユーザ・インターフェイスはビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２内に組み込まれている。このビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は、クライアント装置１３０の表示装置上に表示されるインターフェイスの一例である。このビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は、メディアファイル（図示例ではビデオ）を表現するためのディスプレイ領域と、該メディアファイルを選択、再生、一時停止、早送り、巻き戻しするための制御ボタンとを含む。ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は、また、図７（ａ）に示した国家アーカイブ及び記録認証局の広告のような、広告を含み得る。
【００８１】
ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２はビデオのフレームを表現する。ビデオのフレームに沿って示されたものは注釈定義７０４である。注釈定義７０４は、注釈の空間的定義及び／又は時間的定義を図解する。例えば、図７（ａ）に示された注釈定義７０４は、注釈が関連付けられたフレームのサブセットを輪郭で示す。別の例として、注釈定義７０４は注釈が関連付けられたフレーム範囲を輪郭で示すことができる。図７（ａ）では単一の注釈定義７０４が示されているが、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は、本発明の範囲を逸脱することなく、複数の注釈定義７０４を含むことができる。
【００８２】
注釈定義７０４は、ユーザ選択に応じて、又はすでに存在している注釈の表示の一部として、表示されることができる。例えば、ユーザは、新しい注釈が関連付けられるであろうフレーム領域を選択するために、及び、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２の選択がユーザによって作成された注釈定義７０４を表示することに応答して、ビデオ入力装置を使用することができる。別の例として、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は、ビデオ及び関連付けられた注釈を表示することができ、かつ、関連付けられた注釈を表示することに関連して注釈定義７０４を表示することができる。
【００８３】
ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は、また、注釈の表示と内容の制御をユーザができるようにする注釈制御ボタン７０６を含む。例えば、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は注釈を検索するためのボタンを含むことができる。注釈検索（SEARCH）ボタンの選択に応じて、クライアント装置は、注釈定義７４０（又は類似した定義）に関連付けられた注釈を検索する、又はキーワードに関連した注釈を検索する。検索結果はビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２で表示され得る。別の例では、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は注釈編集ボタンを含み得る。注釈編集ボタンの選択に応じて、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は注釈定義７４０に関連付けられた1以上の注釈を表示し、ユーザが該1以上の注釈を編集できるようにする。更に別の例として、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は新しい注釈を作成するためのボタンを含み得る。該新しい注釈を作成（CREATE）するためのボタンの選択に応じて、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は図７（ｂ）に示すようなオプションを表示することができる。
【００８４】
図７（ｂ）を参照すると、注釈制御ボタン７０６は新しい注釈を作成（CREATE）するためのボタンが選択されたことを示している。ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は、新しい注釈の内容の入力を受け付けるための表示領域を含む。図示された例においては、新しい注釈の内容は或る新注釈文７０８を含んでいる。図７（ｂ）に示されるように、ユーザが「マッカーサー将軍（General MacArthur）」という綴りを入力するとき、新注釈文７０８が表示される。注釈内容の書き込みが完了したことを示す更なるユーザ選択に応じて、新しい注釈が例えばビデオサーバー１２６に送信され、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２内に表示される。
【００８５】
新注釈文７０８の入力は、注釈内容の書き込みの一例として示された。ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は、その他のタイプの注釈内容も受信するように適合化されることができる。例えば、注釈内容はオーディオを含むことができ、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス７０２は、マイクを介して可聴音の記録を開始するための、又は記憶媒体上の或る格納位置からオーディオファイルを選択するためのボタンを含むことができる。その他のタイプの注釈及びユーザによる送信を受信するための同様な方法は、本発明の範囲を逸脱することなく、当業者にとって明白であろう。
【００８６】
図８に戻り、ビデオ８００に対応するタイムライン８０２上に示された注釈されたクリップのそれぞれが、注釈されたサムネイルに関連付けられる。例えば、カーソル８４０が注釈されたクリップ８１０の表示の上に置かれるとき、注釈されたサムネイル８５０Ａが現れる。一実施例において、ランク付けされた注釈クリップが、ユーザ・インターフェイスの別の区間８８０に表示され得るようにしてよい。例えば、サムネイル８５０Ａはビデオ８００について最も注釈されたクリップに対応し、サムネイル８６０は２番目に注釈されたクリップに対応し、サムネイル８７０は３番目に注釈されたクリップに対応する。時間線（タイムライン）８０２の表示はそれらのランク付け順位を示すように番号付けされ得る。図８に描かれたユーザインターフェイスは、ユーザが最も注釈されたクリップの表示を見ているときに「Ｂ」ボタン８０６をクリックすることによりインターバルの注釈を送信できるようにもなっている。
【００８７】
別の実施例において、ユーザは、ＤＶＲ又は同様の機能を提供する装置を使用して、ビデオについての注釈されたクリップにアクセスすることができる。リモートコントロール又はビューイングデフォルトを使用することにより、装置のユーザは単一のビデオ内で及び複数のビデオを通して注釈されたクリップにアクセスすることができる。これはユーザが所与のビデオ又は１組のビデオのハイライト（所定の時間内でのスポーツハイライトのような）を見れるようにできる。
【００８８】
図９に戻ると、注釈クリップの表示の別の例が示されている。このユーザインタフェイスは２日間にわたる注釈クリップのトップランクを示している。例えば、本日（Ｔｏｄａｙ）の最も注釈されたクリップ「１」９１０は、注釈９７５と共にサムネイル９３０として描画されている。前日のインターバルは利用できないため、そのビデオインターバルは「Ｎｅｗ！」（新しい！）９２０としてリストされる。サムネイル９４０、９５０は最も注釈されたクリップのビデオの中から上位２番目及び３番目に注釈されたクリップを描画するものである。また、上から２番目に注釈された別の第２のビデオに由来するクリップのサムネイル９６０及び上から３番目に注釈された別の第３のビデオに由来するクリップのサムネイル９７０が、最も注釈されたクリップのサムネイル９３０の下に描画される。ウェブページは、また、注釈の内容を検索できるようにするための検索ボックス９９０を持っている。
【００８９】
全てのビデオについての注釈クリップのランク付けリストが、ビデオデータベース１２８に記憶される。このビデオクリップのランク付けリストは、一実施例に従えば、時間ベースで更新される。これは、殆どの最新の関連したビデオがユーザに提示されるとを確実にする。ランク付けリストは、日ベースで更新されるようにしてもよい。ランク付けリストが更新される時刻は、適切な更新が行われる時刻の説明に役立つにすぎず、更新はビデオホストウェブサイト１０８の管理者によって設定された適当な時刻において行われることができる。
【００９０】
図１０は、どの注釈を表示するかを決定するための方法を示している。一実施例において、クライアント装置１３０は受信した注釈のいくつかのみを表示する。クライアント装置１３０は、図１０に示されたような方法を実行し、どの注釈を表示すべきで、どの注釈を表示すべきでないかを決定する。
【００９１】
クライアント装置１３０は注釈を受信する（ステップ１００２）。クライアント装置は該注釈が高い優先度を持つかを判定する（ステップ１００４）。高い優先度を持つ注釈は、注釈表示用のユーザ設定に関係なく表示される。高い優先度を持つ注釈とは、例えば、広告、緊急放送メッセージ、又はローカルなユーザ設定に取って代わるべき重要なその他の通信事項などである。
【００９２】
クライアント装置１３０が当該注釈が高い優先度を持つと判定すると（ステップ１００４）、該クライアント装置はこの注釈を表示する（１０１２）。クライアント装置１３０が当該注釈が高い優先度を持たないと判定すると（ステップ１００４）、該クライアント装置は注釈が可能化されているかを判定する（ステップ１００６）。例えば、注釈は、ユーザによる注釈表示モードの選択によって、可能化又は不可能化され得る。もしユーザが注釈を可能化することを選択したならば、クライアント装置１３０は前記注釈がユーザ定義の基準（criteria）にマッチしているかを判定する（ステップ１００８）。
【００９３】
ここで述べたように、クライアント装置１３０は、ユーザが多様な基準に基づいて表示する注釈を選択できるようにする。一実施例において、ユーザ定義の基準は注釈のリクエストの中に記述されることができ、ビデオサーバー１２６によって送付される注釈を制限する。別の実施例においては、ユーザ定義の基準は、クライアント装置１３０で注釈が受信されたとき、どの注釈を表示するかを制限するために使用され得る。ユーザ定義の基準は、例えば、言語、注釈内容、特定の作者又は作者グループ、あるいはその他の注釈特性等に基づき、どの注釈を表示するかを特定するものであってもよい。
【００９４】
クライアント装置１３０が前記注釈がユーザ定義の基準を満たしていると判定したならば（ステップ１００８）、クライアント装置１３０は該注釈を表示する（ステップ１０１２）。クライアント装置１３０が前記注釈がユーザ定義の基準を満たしていないと判定したならば（ステップ１００８）、クライアント装置１３０は該注釈を表示しない（ステップ１０１０）。
【００９５】
図１０は、クライアント装置１３０がどの注釈を表示するかをどのように決定するかの一例を示している。注釈プロバイダー及び注釈顧客によって確立された注釈の優先権を仲裁するためのその他の方法は、本発明の範囲を逸脱することなく、当業者にとって明白であろう。
【００９６】
ビデオサーバーとクライアント装置の上記ケースは、しかし、本発明がビデオの注釈管理に有益に使用され得るという一例でしかない。本発明の範囲を逸脱することなく、ここで述べた方法がその他の様々な使用例を持つことは、当業者にとって明白であろう。例えば、ここで説明した特徴は、協力して注釈を書き、編集し、レビューし、公表し、閲覧するユーザ達が作るオンラインコミュニティ内で利用され得る。そのようなコミュニティは、それらの注釈が関係するビデオの著作権に抵触することなく、注釈の公開ソース形式の生産を可能にするかもしれない。
【００９７】
付加的特徴として、そのようなコミュニティ内の或るユーザは、該ユーザが以前作成し又は編集したものの品質についての他のユーザのレビューに基づき、評判を累積することもできる。注釈を見たい或るユーザは、或る閾値以下の評判しか持たないユーザ達からの注釈を無視する、又は飛び抜けて高い品質の評判を持つユーザ達による注釈を検索する、ように判断することができる。別の例として、或るユーザは特定のユーザ又は特定のユーザグループからの注釈のみを見るように選択することもできる。
【００９８】
ここで述べたように、注釈はビデオがどのように表示されるべきかを記述するコマンドを含み得る。そのようなコマンドには、例えば、該ビデオ内で前方にスキップしたり、あるいは全く別のビデオにジャンプしたりするよう表示装置に指示するコマンドがある。ユーザはジャンプ−ツウ・コマンド注釈の１ストリング（文字列）を書くことができる。そのような１ストリングは、より大きな１ピースへと複数ビデオセグメントを組み合わせることの示唆を効果的に提供するものである。一例として、コマンド注釈は１以上の動画の構成部分から新たな動画を作成するために使用され得る。
【００９９】
本発明は、それに限定されるものではないが、ピアツーピア (peer-to-peer)、分散型ホスティング（hosting）、ウィキスタイル (wiki-style) ホスティング、集中型サービング（centralized serving）、あるいはネットワークを介してデータを共有するための他の周知の方法を含む、様々なホスティングモデルのいずれにも適用可能である。
【０１００】
ここで説明した注釈のフレームワークは、複数の収益モデルの機会をもたらす。一例として、ビデオサーバー１２６のオーナーは注釈に広告を含めるために料金をかけることができる。ビデオサーバー１２６は、様々な要因に基づきユーザに対する広告の注釈をターゲットにすることができる。例えば、ビデオサーバー１２６は、クライアントが表示しているビデオのタイトル又はカテゴリ、ユーザについての知られた事実、最近の注釈検索リクエスト（キーワード検索のような）、該ビデオのために以前送った別の注釈、クライアントの地理的位置、又は効果的に的を絞った広告をするために有用なその他の基準などに基づき、クライアントに送信する広告を選択することができる。
【０１０１】
注釈へのアクセスは購読料ベースで提供されることができ、若しくは、注釈はビデオコンテンツそれ自体にパッケージで付加されて販売されるようになっていてもよい。例えば、オンラインビデオストアからビデオを購入するユーザは、そのビデオ又は他のビデオに関連付けられた注釈を見たり、編集したり、若しくは書いたりすることにつき、許可が与えられるようにしてもよい。オンラインビデオストアは、例えば、ユーザが１ヶ月に所定数のビデオを購入すると、その月につきビデオサーバー１２６での特典を該ユーザに与える、というような販売促進をしてもよい。
【０１０２】
これらの収益モデルは説明の目的で提示されており、これに限定されるものではない。その他の応用及び潜在的な利得使用は、本発明の範囲を逸脱することなく、当業者にとって自明であろう。
【０１０３】
加えて、スパム対策は、注釈の共有のセキュリティを保障するための一助となろう。
【０１０４】
この明細書において、「一実施例」又は「実施例」とは、特定の特徴又は該実施例に関連して説明された特性が本発明の少なくとも１つの実施例の中に含まれるということを意味する。明細書の様々な箇所で出てくる「一実施例において」という表現は、必ずしも同一の実施例に言及しているわけではない。
【０１０５】
なお、本発明に係る処理ステップと命令群はソフトウェア、ファームウェアあるいはハードウェアの形態で実装されるようになっていてよく、また、ソフトウェアの形態で実装されたときには、いろいろなオペレーティング・システムによって使われる異なったプラットホームから操作され常駐するようにダウンロードされるようになっていてよい。
【０１０６】
本発明はまた、ここに述べた演算／操作を実行するための装置に関係している。この装置は、所要の目的のために専用に組み立てられたものであってもよいし、あるいはそれはコンピュータに記憶されたコンピュータプログラムによって選択的に作動される又は再構成される多用途のコンピュータであってもよい。そのようなコンピュータプログラムは、それに限定されるものではないが、フレキシブル磁気ディスク、光学式ディスク、ＣＤ−ＲＯＭ、磁気−光学式ディスク、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気あるいは光学式カード、特定用途向け集積回路（ＡＳＩＣ）を含むディスクのあらゆるタイプ、あるいは電子命令群を記憶するのに適したメディアのあらゆるタイプ、のようなコンピュータ読み取り可能な記憶媒体に記憶されるようになっていてよく、そして各媒体がコンピュータシステムバスにつながれるようになっていてよい。さらに、明細書内で言及されたコンピュータは、シングルプロセッサを含むかもしれないし、また増大した演算能力のためにマルチプロセッサデザインを採用している構造であるかもしれない。
【０１０７】
ここに示されたアルゴリズムと動作は、どの特定のコンピュータや他の装置と本質的に関連付けられない。様々な多用途のシステムもやはりここの教示を踏まえてプログラムで用いられるかもしれない、あるいは必要とされた方法手順を実行するためのより専門の装置を組み立てるほうが都合がよいとわかるかもしれない。必要とされるこれらのシステムの多様性の仕組みは、同等の変形物に従って当業者に明らかであろう。さらに、この発明は特定のプログラミング言語に関連付けられて記述されない。プログラミング言語の種類はここに記述されたようなこの発明の教示を実装するのに用いられるかもしれないこと、そして特定の言語へのどんな言及でも実施要件の開示とこの発明の最良の形態が規定されていることが分かる。
【０１０８】
この発明は、好ましい実施例といくつかの代わりの実施例に対応付けられて詳しく示され記述されているとはいえ、この発明の精神と要旨から逸脱せずに形式と明細のさまざまな変更が行われうることが当業者に理解されるであろう。
【０１０９】
最後に、明細書に用いられた言語は読みやすさと教育の目的のために主に選択されること、そして発明の主題を描写する又は制限するために選択されなかったかもしれないことは指摘されるべきである。したがって、この発明の開示が説明に役立つものであることが意図されるが、次のクレームで示される発明の目的を制限するものでない。

【特許請求の範囲】
【請求項１】
第１のビデオに関連付けられた注釈を管理するための方法であって、
前記第１のビデオの１以上のインターバルについての複数の注釈を受信することと、
複数のグループを形成することと、ここで、各グループは、前記第１のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、
複数の関連した注釈を持つ第１のグループを決定することと、
前記第１のグループにおける前記インターバルに基づき前記第１のビデオの第１の注釈クリップを形成すること
を具備する方法。
【請求項２】
前記第１のグループ内の前記複数の関連した注釈に基づき、前記第１のビデオの第１の注釈クリップのための第１の概要的な注釈を形成すること、を更に具備する請求項１の方法。
【請求項３】
前記第１の概要的な注釈は、前記第１のグループ内の前記複数の関連した注釈の内容の要約を含む、請求項１又は２の方法。
【請求項４】
前記第１の概要的な注釈は、前記第１のグループ内の前記複数の関連した注釈の内容の抜粋を含む、請求項１乃至３のいずれかの方法。
【請求項５】
前記複数の関連した注釈からなる前記第１のグループは、各注釈内の内容を比較することに少なくとも部分的に基づいて決定される、請求項１乃至４のいずれかの方法。
【請求項６】
１つの検索クエリー語の受信に応じて該検索クエリー語を含む１以上の注釈を特定すること、を更に具備する請求項１乃至５のいずれかの方法。
【請求項７】
前記複数のグループを形成することは、各注釈に対応付けられたタイムスタンプに基づき複数の注釈をまとめることを含む、請求項１乃至６のいずれかの方法。
【請求項８】
各インターバルは開始時刻と終了時刻を持ち、前記複数のグループを形成することは、各インターバルの開始時刻と終了時刻に基づき前記複数の注釈をまとめることを含む、請求項１乃至７のいずれかの方法。
【請求項９】
前記複数のグループを形成することは、
前記第１のビデオにおいて複数のシーンを特定することと、
各グループに１以上のシーンを関連付けること
を含む、請求項１乃至８のいずれかの方法。
【請求項１０】
前記複数のグループを形成することは、
前記第１のビデオにおいて複数の特徴を特定することと、
各グループに前記第１のビデオにおける１以上の特徴の１組を関連付けること
を含む、請求項１乃至９のいずれかの方法。
【請求項１１】
各注釈は該注釈を提供したユーザに対応付けられた評判点数を持つことを特徴とする請求項１乃至１０のいずれかの方法。
【請求項１２】
評判点数に基づき各注釈毎に重みを割り当てることと、
注釈に割り当てられた重みに基づき、前記複数の関連した注釈を持つ前記第１のグループを決定すること
を更に具備する請求項１乃至１１のいずれかの方法。
【請求項１３】
注釈が或る特定のユーザによって提供されたかどうかに基づき、各注釈に重みを割り当てることと、
注釈の割り当てられた重みに基づき、前記複数の関連した注釈を持つ前記第１のグループを決定すること
を更に具備する請求項１乃至１２のいずれかの方法
【請求項１４】
前記複数のグループを形成することは、注釈クリップを指示するための複数の指示物であって前記第１のビデオに対応するタイムライン上で可視的に区別できる該指示物に基づいて、許容される該注釈クリップの最大数を判定することを含む請求項１乃至１３のいずれかの方法。
【請求項１５】
前記複数のグループを形成することは、注釈が関連付けられたインターバル間の時間量を判定することを含む請求項１乃至１４のいずれかの方法。
【請求項１６】
第１の注釈クリップを指示するための指示物を、前記第１のビデオに関連付けられたタイムライン上に表示すること、
を更に具備する請求項１乃至１５のいずれかの方法。
【請求項１７】
複数の関連した注釈を持つ第２のグループを決定することと、
前記第２のグループにおける前記インターバルに基づき第２の注釈クリップを形成することと、
各グループ内の注釈に基づき、前記第１の注釈クリップと第２の注釈クリップをランク付けすること、
を更に具備する請求項１乃至１６のいずれかの方法。
【請求項１８】
前記第１のビデオの前記第１の注釈クリップを指示するための指示物と、該第１のビデオの第２の注釈クリップを指示するための指示物とを、該第１のビデオに対応付けられたタイムライン上に表示すること、
を更に具備する請求項１乃至１７のいずれかの方法。
【請求項１９】
前記第１の注釈クリップと前記第１のビデオの第２の注釈クリップとを含む前記第１のビデオの注釈された抜粋を形成することと、
該注釈された抜粋を表示すること、
を更に具備する請求項１乃至１８のいずれかの方法。
【請求項２０】
第２のビデオの１以上のインターバルに関連付けられた複数の注釈を受信することと、
前記第２のビデオ用の複数のグループを形成することと、ここで、各グループは、前記第２のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、
前記第２のビデオ内の似かよったインターバルについての複数の関連した注釈を持つ前記第２のビデオ用の第１のグループを決定することと、
前記第２のビデオ用の第１のグループにおける前記インターバルに基づき前記第２のビデオの第１の注釈クリップを形成することと、
前記第１のビデオ及び第２のビデオの各注釈クリップに関連付けられた注釈の数に基づき、前記第１のビデオ及び第２のビデオをランク付けすること、
を更に具備する請求項１乃至１９のいずれかの方法。
【請求項２１】
検索クエリー語の受信に応じて、該語を含む前記第１のビデオ及び第２のビデオからの１以上の注釈を特定すること、
を更に具備する請求項１乃至２０のいずれかの方法。
【請求項２２】
前記第１のビデオからの注釈と共通の内容を持つ第２のビデオからの注釈を特定すること、
を更に具備する請求項１乃至２１のいずれかの方法。
【請求項２３】
ビデオに関連付けられた注釈を管理するためのシステムであって、
前記ビデオの１以上のインターバルに関連付けられた複数の注釈を抽出するように構成された抽出モジュールと、
複数のグループを形成するように構成されたグループ化モジュールと、ここで、各グループは、前記ビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、
複数の関連した注釈を持つ１グループを決定するように構成された注釈決定モジュールと、
前記グループにおける前記インターバルに基づき前記ビデオの注釈クリップを形成するように構成されたクリップ生成モジュールと
を具備するシステム。
【請求項２４】
前記注釈クリップを指示するための指示物を、前記ビデオに対応付けられたタイムライン上で表示するように構成された表示モジュールを更に具備する請求項２３のシステム。
【請求項２５】
第１のビデオに関連付けられた注釈を管理するためのコンピュータ実行可能なコード群を含むコンピュータプログラムであって、コンピュータに、
前記第１のビデオの１以上のインターバルについての複数の注釈を受信する手順と、
複数のグループを形成する手順と、ここで、各グループは、前記第１のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、
複数の関連した注釈を持つ第１のグループを決定する手順と、
前記第１のグループにおける前記インターバルに基づき前記第１のビデオの第１の注釈クリップを形成する手順
を実行させるための前記プログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【請求項２６】
第１のビデオに関連付けられた注釈を管理するためのシステムであって、
前記第１のビデオの１以上のインターバルについての複数の注釈を受信する手段と、
複数のグループを形成する手段と、ここで、各グループは、前記第１のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、
複数の関連した注釈を持つ第１のグループを決定する手段と、
前記第１のグループにおける前記インターバルに基づき前記第１のビデオの第１の注釈クリップを形成する手段と
を具備するシステム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７（ａ）】

【図７（ｂ）】

【図８】

【図９】

【図１０】

【公表番号】特表２０１１−５１５８９６（Ｐ２０１１−５１５８９６Ａ）
【公表日】平成２３年５月１９日（２０１１．５．１９）
【国際特許分類】

【出願番号】特願２０１０−５４６９６１（Ｐ２０１０−５４６９６１）
【出願日】平成２１年２月１８日（２００９．２．１８）
【国際出願番号】ＰＣＴ／ＵＳ２００９／０３４４２２
【国際公開番号】ＷＯ２００９／１０５４８６
【国際公開日】平成２１年８月２７日（２００９．８．２７）
【出願人】（５０５２８１０６７）グーグル　インコーポレイテッド (58)
【氏名又は名称原語表記】ＧＯＯＧＬＥ　ＩＮＣ．
【Ｆターム（参考）】

[ Back to top ]

ビデオインターバルへの注釈

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ビデオインターバルへの注釈

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク