説明

ビデオインターバルへの注釈

オンラインでホストされるビデオにおける注釈を管理し表示するためのシステムと方法が提供される。ビデオに関連付けられた関連注釈を決定するために、ビデオの1以上のインターバルについての複数の注釈が集められ、複数のグループに組織化される。各グループはビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含む。関連した注釈を持つ1グループが特定され、ビデオの注釈クリップが該グループ内のインターバルに基づいて形成される。このプロセスは、所与の1ビデオ内の複数の関連した注釈からなる任意数のグループを決定するために使用され得、単一のビデオ内の各注釈インターバルを形成し、また、多数の異なるビデオ内の注釈を特定し組織化するもできる。

【発明の詳細な説明】
【技術分野】
【0001】
ここに開示された実施の形態は、概して、ビデオのインターバルの注釈を管理し表示することに関する。
【背景技術】
【0002】
ビデオホストウエブサイトを介したビデオ共有技術の普及は、オンラインコミュニティにおいてビデオを経験し合作する多数の機会を提供する。ビデオホストウエブサイトは、ユーザがビデオをアップロードし、ビデオを見て、ビデオについてコメントし、評価することを可能にする。ビデオホストウエブサイトをブラウズするユーザは、例えば、ビデオを検索し、ディレクトリをブラウズし、または、評価によって分類することによって、関心のあるビデオを探し出すことができる。
【0003】
コメントは、有用な情報でビデオを補足する。コメントは、テキスト、オーディオ、グラフィック、その他の形態を含む様々なデータタイプであってよい。しかしながら、コメントは、ビデオの特定の部分ではなく、ビデオ全体についての情報を提供するために使用されてきた。あるユーザが他人をビデオの特定の部分に案内したい場合、該ユーザは、該部分についての、“1:48のスタントを見よ”のような時間オフセットをコメントに入力しなければならない。そして、他のユーザは、1分48秒のマークのある所まで対象ビデオを検索し、その後、前記コメントを理解するためにそこから見る必要がある。
【0004】
さらに、コメントに含まれる内容は信頼できないものであることがある。該コメントの著者の信頼性を確認する上での困難が生じる。さらに、多数のコメントは、このようなコメントを解して伝達される情報の意味の理解を邪魔することがある。さらに、ビデオに対応付けられたコメントのうちのいずれが関連するものであるのかを知ることが難しい。例えば、すべてのコメントが当該ビデオにおける同一の時間経過空間に対応付けられていない限り、該コメントがビデオの同じ部分に言及しているのかどうかが不明確である。
【0005】
さらに、ユーザは、ビデオにおける或る特徴を強調するために彼ら自身のコメントを作成したい場合がある。個人化されたコメントは、セキュリティ上の懸念、および、そのようなブックマークがどのように誰と共用されるべきかを決定する課題を生じる。加えて、個人化されたコメントが孤立して吟味されるならば、それらはコメントを同様に持つユーザの関係したグループに対して最小限の意味しか提供しない。そのような個人化されたコメントは、また、当該ユーザと該コメントを共有する人々の双方にとって、在り処をつきとめそれを取り出すのが困難である。
【発明の概要】
【0006】
本発明は、ビデオをホストする(提供する)ウェブサイト(ビデオホストウェブサイト)においてビデオの注釈を管理するためのシステム及び方法を含む。ユーザーはビデオホストウェブサイト内に格納された様々なビデオ内でのインターバル(期間、区間、瞬間)の注釈を投稿(送信)する。例えば、注釈は、1ビデオ内の特定の瞬間又は1ビデオ内の1シーンと共に、1ビデオフレーム内の空間的な部位に対応付けられる。或る所与の1ビデオについて、多量の注釈があってよく、各注釈は該ビデオ内の何らかのインターバルにそれぞれ対応付けられている。これらのインターバルは重複していてもよい。従って、該ビデオの1以上のインターバルについての注釈をグループに組織化し、それから、該注釈の1グループに関連付けるためのビデオの1クリップ(当該ビデオから切り出したクリップ映像又は画像)を決定することが望まれる。各グループは、該ビデオの複数インターバルについての複数の注釈を含み、同じグループ内において各インターバルは互いに似かよっている。複数の関連した注釈を持つ1グループが同定され、ビデオから切り出した1つの注釈されたクリップが該1グループ内のインターバルに基づいて形成される。このプロセスは、望みとあらば、複数の関連した注釈を持つ所与の1ビデオにおいて任意の数のグループを決定することに拡張されることができ、単一のビデオ内においてそれぞれの注釈されたインターバルを形成し、かつ、多数の異なるビデオ内での注釈されたインターバルを同定し組織化することもできる。
【0007】
関連した注釈に基づき、概要的な注釈が決定される。例えば、概要的な注釈は、関連した注釈の内容の概略若しくは関連した注釈からの抜粋を含み得る。
【0008】
グループは多様なやり方で形成されることができる。例えば、複数の注釈が、各注釈に対応付けられたタイムスタンプに基づき、複数のグループにグループ化されることができる。また、複数の注釈が、各注釈に対応付けられたインターバルの開始時刻と終了時刻に基づき、まとめられる(クラスタ化する)ことができる。各グループは1ビデオ内の複数の特定されたシーン又は特徴に関連付けられることができる。加えて、当該ビデオに対応するタイムライン上で可視的に区別され得る注釈クリップ(注釈されたクリップ)の指示物の最大数を決定することに基づき、複数グループが形成され得る。また、インターバル間の時間量がグループの形成において考慮されるようになっていてもよい。
【0009】
注釈の内容は、複数の関連した注釈を持つ1グループを決定するために考慮され得る。例えば、1以上のキーワードを共通に持つ複数の注釈からなっていてよい。このような注釈は、また、1以上のビデオにおいて或る1つの検索クエリー語を含む複数の注釈を同定するために試験され得る。
【0010】
第1のビデオに関連付けられた注釈を管理するための方法は、前記第1のビデオの1以上のインターバルについての複数の注釈を受信することと、複数のグループを形成することと、ここで、各グループは、前記第1のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、複数の関連した注釈(関連注釈)を持つ第1のグループを決定することと、前記第1のグループにおける前記インターバルに基づき前記第1のビデオの第1の注釈クリップを形成することを具備する。
【0011】
コンピュータシステムは、複数のサーバーモジュールを介してビデオに関連付けられた注釈を管理する。抽出モジュールは、該ビデオの1以上のインターバルに関連付けられた複数の注釈を抽出する。グループ化モジュールは、複数のグループを形成する。ここで、各グループは、前記ビデオ内の似かよった複数のインターバルについての複数の注釈を含んでいる。注釈決定モジュールは、複数の関連した注釈(関連注釈)を持つ1グループを決定する。クリップ生成モジュールは、前記グループにおける前記インターバルに基づき前記ビデオの注釈クリップを形成する。
【0012】
第1のビデオに関連付けられた注釈を管理するためのシステムは、前記第1のビデオの1以上のインターバルについての複数の注釈を受信する手段と、複数のグループを形成する手段と、ここで、各グループは、前記第1のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、複数の関連した注釈(関連注釈)を持つ第1のグループを決定する手段と、前記第1のグループにおける前記インターバルに基づき前記第1のビデオの第1の注釈クリップを形成する手段とを具備する。
【0013】
本概要および以下の詳細な説明に記述される特徴および利点はすべてを含んでいるのではない。さらなる多くの特徴および利点は、図面、明細書および請求項から当業者に明らかになろう。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施例に従うオンラインでホストされるビデオにおける注釈管理のためのシステムの設計思想を示すブロック図である。
【0015】
【図2】本発明の一実施例に従うオンラインでホストされるビデオにおける注釈管理のための方法を説明するフロー図である。
【0016】
【図3】本発明の一実施例に従うビデオのインターバルの注釈を入力するためのユーザーインターフェースを示す図である。
【0017】
【図4】本発明の一実施例に従うビデオのインターバルの注釈を入力するためのユーザーインターフェースを示す図である。
【0018】
【図5】本発明の一実施例に従うビデオのインターバルの注釈を管理するためのユーザーインターフェースを示す図である。
【0019】
【図6】ビデオのフレーム及び1以上のフレームに対する注釈のインデックスを示す図である。
【0020】
【図7(a)】注釈を見たり作成したり編集したりするためのユーザーインターフェースを示す図である。
【0021】
【図7(b)】新しい注釈を作成するためのユーザーインターフェースを示す図である。
【0022】
【図8】本発明の一実施例に従い、ビデオの各インターバルの注釈を入力したりビデオの注釈されたクリップを見たりするためのユーザーインターフェースを示す図である。
【0023】
【図9】本発明の一実施例に従い、ビデオの注釈されたクリップを見るためのユーザーインターフェースを示す図である。
【0024】
【図10】どの注釈が表示されるべきかを決定するための方法を示すフロー図である。
【0025】
これらの図は、説明のために本発明の様々な実施形態を示す。当業者であれば、本明細書にて示される構造および方法の別の実施形態が本明細書で説明する発明の原理から逸脱することなく実施され得ることは、以下の説明から容易に理解できよう。
【発明を実施するための形態】
【0026】
図1は一実施例に従うシステム設計思想を示すブロック図である。図1に示されるように、ビデオをホストするウェブサイト108は、フロントエンドサーバー124と、ビデオサーバー126と、ネットワークインターフェイス122と、抽出モジュール110と、グループ化モジュール112と、注釈決定モジュール114と、クリップ生成モジュール116と、概要的な注釈モジュール117と、表示モジュール118と、ランキングモジュール120と、ビデオデータベース128と、ビデオアクセスログ129と、ユーザデータベース140とを含んでいる。本発明に係わるシステムの特徴のみを明瞭に示すために、その他の周知の特徴、例えば、ファイヤーウォール、ロードバランサー、アプリケーションサーバー、フェールオーバーサーバー、サイト管理ツール、その他などは図示していない。該システムを実現するための適当なウェブサイト108の一例は、YouTube(登録商標)及びGoole Video(登録商標)など、その他の周知のビデオホストサイトを含み、これらは本明細書に開示された事項に従って動作するように適合化され得る。なお、「ウェブサイト」という用語は、コンテンツを提供するためのどんな方法及びシステムをも示しており、インターネット又はHTTPプロトコルを介して提供されたコンテンツをサポートするシステムに限定されるものではない。単一のソフトウェア又はハードウェアであろうと、複数のソフトウェア又はハードウェアであろうと、様々なサーバーが従来知られるように装備され、ネットワークインターフェイス122を介してネットワーク105に結合され得る。一般に、サーバー側で実行されるものとして一実施例において説明された機能は、もしそれが適切であるならば、その他の実施例におけるクライアント装置側で実行され得る。
【0027】
クライアント装置130は、ブラウザ132を含み、ネットワーク105を介してフロントエンドサーバー124に接続されている。ネットワーク105は、典型的にはインターネットからなるが、その他如何なるネットワークであってもよく、これに限定されるわけではないが、LAN、MAN、WAN、モバイル若しくはワイヤード又はワイヤレスネットワーク、プライベートネットワーク、あるいはバーチャルプライベートネットワークなどであってもよい。図では1つのクライアント装置130とブラウザ132が示されているが、非常に多数の(例えば数百万の)クライアント装置がサポートされ、ウェブサイト108といつでも通信状態となり得ることが理解されよう。クライアント装置130は、様々なコンピューティングデバイス(計算装置)を含んでいてよい。クライアント装置130の一例は、パーソナルコンピュータ、デジタルアシスタント、パーソナルデジタルアシスタント、セルラーフォン(携帯電話)、モバイルフォン(移動式電話)、スマートフォン、若しくはラップトップコンピュータなどである。当業者にとっては自明であるように、本発明は上述の装置に限らない。
【0028】
ユーザは、クライアント装置130を使用して、注釈を見たり書いたり編集したりする。注釈は注釈コンテンツを含み、該注釈コンテンツはメディアファイルを有益に補足することができるどのようなデータからなっていてもよい。例えば、注釈コンテンツは、可聴的な若しくは文章的な論評、メタデータ、翻訳、広告若しくは概要、所定の基準(例えば星1〜5)で格付け、あるいは、該メディアファイルがどのように表示されるべきかについてのコメントなどを包含するものであってよい。オプションとして、注釈は、該注釈が関係するフレームの範囲を特定する空間的な定義を含んでいてよい。また、注釈はビデオコンテンツを含んでいてよい。クライアント装置130、ビデオを表示するためのソフトウェア及びハードウェアを含む。
【0029】
例えば、クライアント装置130は、テレビジョン受像機、パーソナルコンピュータ、デジタルビデオレコーダ(DVR)、パーソナルデジタルアシスタント(PDA)、セルラーフォン(携帯電話)、あるいはディスプレイ装置を持つ又はそれに接続されたその他の装置であって、MPEG−2、MPEG−4、QuickTime(登録商標)、VCD等その他の現行の又は将来的なビデオフォーマットからなるビデオファイルをデコードするのに適したビデオプレーヤーを含むソフトウェアを搭載した装置、として実装され得る。クライアント装置130の別の例は、本発明の範囲から逸脱することなく、当業者にとって自明であろう。本発明の一実施例に従ってクライアント装置130によって使用されるグラフィカルユーザインタフェイス(GUI)の一例は、図3、図4、図7(a)、図7(b)を参照してここで説明される。
【0030】
いくつかの実施例において、ブラウザ132はそこに埋め込まれたビデオプレーヤ134、例えばAdobe(登録商標)システム,インク.のFlash(登録商標)プレーヤや、ビデオホストウェブサイト108で使用されるビデオファイルフォーマットに適合したその他の何らかのプレーヤなど、を含んでいる。ユーザは、ビデオのカタログをブラウズしたり、キーワードでの検索を行ったり、他のユーザ又はシステム管理者からのプレイリストをレビューしたり(例えば複数チャンネルを形成しているビデオコレクション)、若しくは特定のユーザグループ(例えばコミュニティ)に関連付けられたビデオを見たりすることによって、ビデオホストウェブサイト108からのビデオにアクセスできる。
【0031】
ビデオサーバー126は、コンテンツプロバイダからアップロードされたメディアコンテンツを受信し、コンテンツがクライアント装置130によって見られるようにする。コンテンツは、パーソナルコンピュータからインターネット経由で、あるいは電話又はPDAから携帯電話網を通して、あるいは当業者にとって公知のネットワーク105経由のデータ伝送用のその他の手段を介して、ビデオサーバー126にアップロードされてもよい。コンテンツは同様の方法でビデオサーバー126からダウンロードされるようになっており、一実施例としてメディアコンテンツはクライアント装置130にファイルとしてダウンロードされることで提供され、別の実施例としてメディアコンテンツはクライアント装置130にストリーム送信される。メディアコンテンツがビデオサーバー126によって受信されるようにする手段は、それがクライアント装置130に対して配信されるようにする手段と一致している必要はない。例えば、コンテンツプロバイダはパーソナルコンピュータ上のブラウザを介してビデオをアップロードしてよく、その一方で、クライアント装置130ではPDA装置に対して送信されたストリームとしてビデオを見るようになっていてもよい。なお、ビデオサーバー126それ自身がコンテンツプロバイダとして提供してもよい。
【0032】
クライアント装置130のユーザは、キーワードに基づきビデオを検索することもできる。検索リクエストはフロントエンドサーバー124によってクエリーとして受信され、ビデオサーバー126に提供される。ビデオサーバー126は、ユーザのクエリーを満足させるビデオをビデオデータベース128から検索することに責任を持つ。ビデオサーバー126は、例えば、ビデオのタイトル、説明、タグ、作者、カテゴリー、その他など、ビデオに関するどんなフィールドのデータについての検索をもサポートする。特定のメディアファイルに関連付けられた注釈についてのクライアント装置130からのリクエストに応答して、ビデオサーバー126は該メディアファイルに関連付けられた1又は複数の注釈をネットワーク105経由で該クライアント装置130に送る。また、或る該メディアファイルに関連付けられた1又は複数の注釈のクライアント装置130からの送付に応じて、ビデオサーバー126は該該メディアファイルに関連付けられた1又は複数の注釈をユーザデータベース140に格納する。
【0033】
受信した注釈についての情報がユーザデータベース140内に格納される。ユーザデータベース140はウェブサイト上でビデオを見ているすべてのユーザの記録を維持管理する。各個別のユーザにユーザIDが割り当てられる。このユーザIDは、例えばユーザのIPアドレスやユーザ名など、その他の如何なる識別情報を基礎とするものであってよい。ユーザデータベースは、また、ビデオコンテキスト及びeメール又はテキストメッセージの使用のようなその他のアプリケーションを通して、その両方でユーザの評判についての情報を含んでいてもよい。
【0034】
クライアント装置130及びブラウザ132のユーザは、ネットワーク105経由でビデオホストウェブサイト108にコンテンツをアップロードすることができる。例えば、アップロードされたコンテンツは、ビデオ、オーディオ、又はビデオとオーディオの組み合わせを含むことができる。アップロードされたコンテンツは処理されて、ビデオデータベース128に格納される。この処理は、フォーマット変換(トランスコーディング)、圧縮、メタデータのタグ付け、及びその他のデータ処理を含むことができる。アップロードされたコンテンツファイルはアップロードしたユーザと関連付けられ、必要とあらば、ユーザアカウント記録がユーザデータベース140において更新される。
【0035】
便宜上及び一実施例の説明として、アップロードされたコンテンツは、以下、「ビデオ」、「ビデオファイル」、「ビデオアイテム」などと称することとするが、このような用語によってアップロードされ得るコンテンツのタイプを限定するつもりはない。各アップロードされたビデオには、それが処理されるときに、ビデオ識別子が割り当てられる。
【0036】
ビデオデータベース128は受信したビデオを格納するために使用される。ビデオデータベース128はビデオコンテンツとそれに関連するメタデータ(各コンテンツの所有者によって提供される)を格納する。ビデオファイルは各ビデオファイル毎に関連付けられたメタデータを有し、このメタデータとは、ビデオID、アーチスト、ビデオタイトル、ラベル、ジャンル、時間長などである。
【0037】
ビデオデータベース128内のビデオアクセスログ129は、ビデオアクセスの各インスタンス(実体)を格納する。注釈は、或るインジケータ(指示物)又は該ビデオに関連するタイムライン上の一部分をクリックすることにより送信され得る。ユーザは、また、ビデオのより長いインターバル(期間、区間)についての注釈を特定するために、タイムライン上をクリックしたりドラッグしたりすることができる。ユーザは、また、デジタルビデオレコーダ(DVR)又は同様の機能を提供する装置を介して、注釈を送信することができる。例えば、該装置に対応付けられたユーザインタフェイスを通して注釈のエントリ(入力)を許可するように構成されたリモートコントロール装置を使用することにより、注釈を送信することができる。アクセスログ129内の各エントリー(入力)は、アクセスされているビデオ、アクセス時間、ユーザのIPアドレス、もし利用可能であればユーザID、クッキー、検索クエリー、ビデオとのインタラクション(相互作用)のタイプを識別するデータ、ビデオとの各インタラクション毎の時間など、を同定(識別)する。インタラクションのタイプは、ウェブサイト108のユーザインタフェイスにおける如何なるユーザインタラクション(相互作用)をも含み得る。そのようなユーザインタラクション(相互作用)とは、再生、ポーズ、巻き戻し、早送り、注釈の送り出し及び送信、又はビデオの格付けなどである。
【0038】
図3に戻ると、クライアント装置130によって注釈を入力したり、ビデオサーバー126からのメディアコンテンツを見たりするためのユーザインタフェイスを提供するウェブページの一例が示されている。このウェブページは、ビデオ300を含んでおり、そして、コンテンツ提供者の名前又はユーザID、該ビデオがアップロードされた日付など、その他(図示せず)のビデオについての情報を含んでいてもよい。このウェブページは、また、ビデオ300に対応付けてタイムライン302を含んでいる。タイムライン302上のマーカー308は、再生中のビデオ300の現在位置を指示する。また、ウェブページは、注釈のコンテンツを検索できるようにするための検索(Search)ボックス304を持つ。
【0039】
ユーザは様々なやり方でビデオの或るインターバル(期間、区間、瞬間)の注釈を送ることができる。例えば、ユーザは、注釈を提供したいビデオのインターバルを見ているときに、「B」ボタン306をクリックすることができる。別のやり方として、ユーザは、インターバルの開始時刻で「B」ボタン306をクリックすることができ、注釈を提供しようとしているインターバルの終わりで再び「B」ボタン306をクリックすることができる。図3に示したものは、ビデオインターバルのための注釈を受け付けるためのユーザインタフェイスの一例である。
【0040】
ビデオインターバルのための注釈を受け付けるためのユーザインタフェイスの別の例が図4に示されている。カーソル420が「B」ボタン416の上に位置することにより、ポップアップウィンドウ410が表示される。このウィンドウは、注釈を作成するために、ユーザがテキストボックス412内に文字入力できるようにする。更に、入力した文字が公けに検索されたり見られたりしてよいということを明示するために、ユーザは「パブリック」(Public)ボタン402をクリックすることができる。図6を参照してより詳しく説明するように、注釈はビデオフレーム内の空間的位置に関連付けられるようになっていてもよい。
【0041】
図5は、本発明の一実施例に従ってビデオのインターバルの注釈を管理するための、別のユーザーインターフェースを示す。カーソル510が「B」ボタンの選択を示すために使用された後、ウィンドウ520が表示され、ユーザがブックマーク注釈を削除する又はインポートすることが出来るようにする。当業者は、本発明に従ってその他のユーザインタフェイスが使用され得ることを認識するであろう。
【0042】
図1のモジュール110〜120は、図2に示された方法を実行するために使用され得る。抽出モジュール110は、ステップ210で受信した注釈のイベントを、ビデオアクセスログ129から抽出する。インターバル(期間)とは、ビデオ内の特定の瞬間(例えば2分3秒というような)、あるいは時間範囲(例えば2分3秒から2分45秒までというような)である。注釈に関連したユーザ情報は、例えば、該注釈が受信された時刻、各注釈毎のタイムスタンプ、各注釈に対応付けられたインターバルの開始時刻と終了時刻、該注釈を送付したユーザの評判点数、等を含み得る。このユーザ情報はユーザデータベース140内に格納し得る。抽出モジュール110は、注釈を抽出し、これをビデオIDとタイムスタンプとでソート(振り分け整理)して、注釈ブロック(注釈集合)を形成する。注釈の各ブロックは、ビデオに関連付けられ、かつ、タイムスタンプによってソートされる。
【0043】
グループ化モジュール112は、ビデオの似通ったインターバルについての複数の注釈を内容とするグループを形成する(ステップ220)。注釈の1ブロック内の複数のグループは、様々な方法で形成されるようになっていてよい。例えば、グループ化モジュール112は、各注釈に関連付けられたタイムスタンプに基づき、注釈を複数クラスタにまとめることにより、複数のグループを形成する。もし複数の注釈が互いに特定の時間限度内のタイムスタンプを持っているならば、グループ化モジュールはそれらがビデオの似通ったインターバルに関係していると判定し、クラスタとしてまとめられる。例えば、互いに5秒以内のタイムスタンプを持つ複数の注釈は、似通ったインターバルに相当すると判定される。例えば、何人かのユーザはビデオの始まりにおいて行動をタイムスタンプ(時間記録)し、別の何人かはクライマックスで行動をタイムスタンプし、別の何人かはその終了後直ちに行動をタイムスタンプする、というような具合である。この技術を用いて、それぞれの注釈がそれぞれグループ化されるであろう。
【0044】
別の実施例において、インターバルの開始時刻と終了時刻に基づき、注釈が複数クラスタにまとめられる。例えば、(注釈が関連付けられたインターバルの開始時刻と終了時刻によって結び付けられた)各インターバルの間において十分な重複(例えば25%の重複)があれば、グループ化モジュール112は、該各注釈がビデオの似通ったインターバルに関係していると判定する。これは、各注釈に関連付けられたインターバルが一致していないとしても、それらの注釈がグループ化され得るようにする。
【0045】
注釈を複数クラスタにまとめるための様々な方法が用いられてよい。公知のクラスタ化方法のいくつかの例には、k−平均クラスタ化アルゴリズム又はk−centerクラスタ化アルゴリズムが含まれる。
【0046】
別の実施例において、グループ化モジュール112は、注釈が関連付けられる複数のインターバル間の時間量を判定することによりグループを形成する(ステップ220)。インターバル間に十分な時間量(例えば30秒)が存在していれば、グループ化モジュール112は該各インターバルに関連付けられた注釈のために新しいグループを形成する。例えば、10分ビデオにおいて判定対象の2つのインターバル間に5秒が存在してるならば、グループ化モジュールはそれらのインターバルのために新しいグループを形成しないようにできる。
【0047】
グループ化モジュール112の別の例は、1ビデオ内の複数のシーン又は特徴を特定し、1以上のシーン又は特徴に各グループを関連付けることによって、グループを形成する(ステップ220)。
【0048】
1つの特徴は、似通ったビデオの1又は複数フレームの内容の簡潔な表現である。例えば、グループ化モジュール112は、それらのフレームをシーン又はショットのような論理的単位にグループ化してよい。グループ化モジュール112は、それらのフレームを自動的にグループ化するためのシーン検出アルゴリズムを使用してよい。或る1つのシーン検出アルゴリズムは、著Naphade, M. R. 外「A High-Performance Shot Boundary Detection Algorithm Using Multiple Cues」(1998年画像処理の国際会議(1998年10月4日〜7日)、Vol. 1、 884頁〜 887頁)に記載されている。その他にも、公知かつよく使用されている多くのシーン検出アルゴリズムがある。
【0049】
上述の方法により、グループ化モジュール112は、同じシーンに属する全てのフレームのための1つの特徴セットを算出できる。その特徴とは、例えば、時間、空間、あるいは周波数の領域における特徴の記述である。例えば、複数の注釈は、特定のフレームに関連付けられ、且つ、そのフレームを、それらの時刻、位置及び周波数の領域の特徴により記述できる。グループ化モジュール112は、例えば、著Zabih, R., Miller, J., と Mai, K.,「Feature-Based Algorithms for Detecting and Classifying Scene Breaks」,議事録 ACM Multimedia 95, San Francisco, CA (1993年11月), 189頁-200頁;著 Arman, F., Hsu, A., とChiu, M-Y., 「Image Processing on Encoded Video Sequences」, Multimedia Systems (1994年), vol. 1, no. 5, 211頁〜219頁;著 Ford, R.M., 外., 「Metrics for Shot Boundary Detection in Digital Video Sequences」, Multimedia Systems (2000年), vol. 8, 37頁-46頁.などに記載された、ビデオの特徴を特定するためのどのような技術を使用してもよい。当業者であれば、種々のビデオの特徴を特定するための技術を理解できるであろう。
【0050】
別の実施例において、グループ化モジュール112は、注釈クリップ(注釈に関連するクリップ)を指示するための指示物であって、ビデオに対応するタイムライン上で可視的に区別され得る該指示物の最大数を決定することによって、複数のグループを形成する(ステップ220)。例えば、長尺のビデオは種々のインターバルに対応付けられた多数の注釈を有する。複数の注釈クリップの指示物は、画像サイズと解像度のために可視的に区別するのが困難でありうる。場合によっては、より長尺のビデオにはより短いビデオに比べて、より多くのグループが必要となる。タイムライン上で多数の注釈クリップの指示物を可視的に区別することの困難性を考慮して、グループ化モジュール112は、前記可視的な指示物に基づいて形成されるグループの最大数を設定できる。これにより、所与のビデオ内で、例えば10個以上の注釈クリップがあったとしても、グループ化モジュール112は、表示される複数の指示物を上位10位の注釈クリップに制限できる。加えて、グループ化モジュール112は、同様に、タイムライン上の指示物の可視的区別を容易するために、アクション−パックトショートビデオ(action-packed short video)を注釈クリップの最大数に制限できる。
【0051】
所与の1ビデオのために、注釈決定モジュール114は、多様なやり方で、複数の関連した注釈(関連注釈)を持つ1グループを決定する(ステップ230)。当業者であれば、注釈のグループ化が、語幹処理、関連語拡張、ベクトル分析、あるいは、自然言語処理/計算言語学方法等のような、種々の情報検索技術を使用して実行できることを知っている。例えば、注釈決定モジュール114は、少なくとも、各注釈の内容の一部比較に基づいて、該複数の関連した注釈の第1のグループを決定する。これにより、異なる注釈における同じ又は似通った言葉が、それら注釈が1つのグループに関係付けられるものと決定することに使用される(例えば、文言「New York City」と「New York」とを含む注釈は、それら文言が同じ最初の8文字を含んでいるので、関係付けされる)。
【0052】
別の例では、注釈決定モジュール114は、その注釈が或る特定のユーザによって供給されたかどうか基づき、注釈毎に重みを割り当てることができ、且つ、その注釈の重み割り当てに基づき1グループを決定できる。これにより、該1グループが、各注釈毎に割り当てられた重みに基づいて、複数の関連した注釈(関連注釈)を持つよう決定される(例えば、同じユーザによって投稿された複数の注釈は、より少ない重みを持ち、それゆえ、グループの決定に際してより関係付けられにくいとみなされる)。
【0053】
注釈決定モジュール114は、また、注釈に関連付けられた評判点数に基づいて、注釈毎に重みを割り当てできる。注釈は、例えば、その注釈が新規又は認識されていなユーザにより投稿(送信)されたかどうか、以前に当該ユーザによって投稿された注釈の有用性、他のユーザからら賛同された当該ユーザによる注釈の数、あるいは、ユーザデータベース140における当該ユーザに関する他の情報などに基づく評判点数に関連付けられる。
【0054】
クリップ生成モジュール116は、所与のグループにおけるインターバルに基づいてビデオのクリップを形成する(ステップS240)。クリップを形成する方法として多種の方法がある。一実施例において、クリップ生成モジュール116は、受信した注釈を有するインターバルの開始時刻のみを考慮する。これにより、全ての考慮されたインターバルは、そのビデオ内で即座に開始して、当該ビデオの終わりまで続く。あるいは、クリップ生成モジュール116は、受信した注釈を有するインターバルの開始時刻及び終了時刻の両方を考慮する。クリップ生成モジュール116は、グループ内のインターバルの最も早い(又は最も遅い)ポイントを決定するためにこれらの時刻を使用することができ、また、オプションとして、その直前(又は直後)のシーンの開始時点に、これらの時刻を丸めてもよい。
【0055】
別の実施例において、クリップ生成モジュール116は、インターバル毎の注釈の重みを加えること、あるいは、各時点毎の注釈数の対数を加えることなどにより、タイムライン上のグループ内の各インターバルの寄与を投影する。クリップ生成モジュール116は、確率モデルを標準的な統計方法による分布(例えばガウス分布)に合わせ。そして、平均値を中心として選ぶ。クリップ生成モジュール116は、もし開始時刻及び終了時刻がシーンの境界に丸められているなら、前記平均値の両側の標準偏差の或る数(例えば3)を選択する。
【0056】
別の実施例において、クリップ生成モジュール116は、どの注釈を投稿したこともないユーザを含みうる、異なる複数のユーザによって当該ビデオの各時点がどれだけ見られているかを決定するためにトラフィック(通信量)トレースを調べる。この情報は、クリップがどこで開始及び終了すべきかを決定するために、上記の方法と共に使用できる。一実施例によれば、所与の期間内で最もトラフィック(通信量)を受けたビデオの各インスタンス(実体)は、同じクリップの一部と見なされ、且つ、当該クリップの長さを決定するために使用される。
【0057】
例えば、3分00秒のビデオが、水中のサメを飛び越えるという類の自動二輪車のスタントを演じる演者を描写したものであり、ジャンプの頂点が2分00秒の時点で行われるとする。1つの注釈は、ジャンプの2秒前から2秒後まで(例えば、1分58秒から2分02秒まで)のインターバルに対するものとである。別の注釈は、ジャンプの頂点(例えば、2分00秒)に対するものである。第3の注釈は、ジャンプ前から自動二輪車が無事に着地するまで(例えば、1分50秒から2分10秒)の長きにわたるインターバルに対するものである。これらインターバルに基づいて、クリップ生成モジュール116は、注釈されたクリップを形成する(例えば1分54秒から2分06秒)。この例では、クリップ生成モジュール116は、3つの注釈で関連付けられたインターバル内の時間を平均することにより、注釈されたクリップを形成している。
【0058】
概要的な注釈モジュール117は、第1のグループ内の前記複数の関連した注釈に基づいて、該第1の注釈されたビデオのクリップのために概要的な注釈を形成する。一実施例において、概要的な注釈モジュール117は、第1のグループ内の前記複数の関連した注釈(関連注釈)の内容を要約することによって概要的な注釈を生成する。当業者であれば、注釈の要約が、複数の注釈の連結や、Web検索インターフェースにおける “スニペット”発生法などのような種々の技術を用いて実行できることを理解できる。注釈を要約するための他の技術は、1の中心(他の全ての注釈からの最大距離が最小となる注釈)を定義するための複数文字列間の種々の編集距離のような、文字列類似度を用いるものである。別の実施例では、注釈の要約は、(ゲノム配列が分析される計算生物学におけるように)共通部分列分析に基づいて生成できる。
【0059】
一例において、概要的な注釈モジュール117は、関連した注釈の抜粋を供給することにより、概要的な注釈を生成する。一例として、仮に次の3つの注釈が投稿されているものとする:(1)「Fonzie jumps th shark」、(2)「Fonz takes off」及び(3)「Shorts and a leather jacket」:これら3つの注釈の内容が要約された概要的な注釈は次の如く示す:「Fonz ,in shorts and a leather jacket, takes off and jumps the shark」: 他方、関連した注釈の内容が要約された概要的な注釈は次の如く示す:「Fonzie jumps the shark...takes off...shorts and a leather jacket」
【0060】
ランキングモジュール120は、各グループにおける注釈数に基づいて注釈クリップをランク付けする。ランキングモジュール120は、また、多数のビデオにわたって注釈クリップをランク付けする。言うまでもなく、これら種々のモジュールは、全体でもっとも注釈されたクリップを特定するために、任意の数のビデオにおける各クリップ毎の注釈数を決定することができる。
【0061】
ランキングモジュール120は、検索クエリーに応答するものと決定されたビデオが、各応答するビデオのグループに対する注釈に基づいてランク付けされるように、ビデオ検索と共に使用できる。一実施例において、ランキングモジュール120は、各ビデオにおいてもっとも注釈付けされたインターバルに対する注釈数に基づいてビデオのランク付けを決定する(例えば、もっとも高くランク付けされたビデオは、最も多数の注釈数を受けたクリップを含むビデオである)。別の実施例では、ランキングモジュール120は、各ビデオ内の全てのグループについて受けた注釈の総数に基づいてビデオのランク付けを決定する(例えば、もっとも高くランク付けされたビデオは、そのビデオ内の全てのクリップにわたり最も注釈を受けたビデオである)。
【0062】
表示モジュール118は、注釈クリップを指示するための指示物の表示を、ビデオに対応付けられたタイムライン上で、提供する。これは、効果的な理解と1又は複数のビデオにおける注釈クリップへのアクセスとをユーザに与える。表示モジュール118は、また、第1の注釈クリップと第2の注釈クリップを含むビデオの注釈された抜粋を形成し、その注釈された抜粋を表示することにより注釈された強調部分、又は、所与のビデオの予告編を生成する。
【0063】
ビデオデータベース128は、注釈クリップを持つビデオのリストを記憶する。リストは、ジャンル、格付け、あるいはその他任意の属性によりグループ化される。関係付けられたビデオのリストは、一例として、ユーザデータベース140から注釈付け活動の分析を行うことにより時間毎に更新される。もっとも注釈付けされたクリップのリストが生成されたとき、ビデオサーバー126は、リストに基づいてビデオデータベース128からビデオを抽出し、また、ユーザデータベース140から注釈も抽出し、且つ、注釈付けされたビデオをユーザに視聴用に提供する。
【0064】
図3において、複数のクライアント装置が、タイムライン302上に示された多数の注釈310A〜310Eを投稿した。図8を参照して説明すると、注釈310A〜310E(図示しない他の注釈も含む)は、ビデオの注釈クリップを形成するために使用される。例えば、注釈310Aと310Bは、参照番号810により示す注釈クリップを形成するために使用(図示しない他の注釈も含む)される。注釈310C〜310Dは、参照番号820により示す注釈クリップを形成するために使用される。注釈310Eは、参照番号830により示す注釈クリップを形成するために使用される。
【0065】
図6を参照すると、注釈がどのように時間的に且つ空間的にビデオファイル及びその1以上のフレームに関連付けられるかを説明するための概念図が示されている。図6はフレーム600からフレーム651まで走行する一連のビデオフレームを示している。クライアント装置130は、これらのフレームを表示し、また、一時停止したり、巻き戻ししたり、早送りしたり、スキップしたり、その他、フレームがひょうじされる順序や速度を調整することができる。
【0066】
説明の都合により、フレームで構成されるビデオについて話をする。ビデオは、フレームのブロックとして、フィールドとして、マクロブロックとして、あるいは不完全なフレームの区間内で、ときどき転送され記憶される。この明細書で言及がフレームで構成されるビデオに対してなされるとき、中間的段階においては、ビデオは実際にはその他の様々な形式で記憶されるようになっていてよい。この明細書で「フレーム」という用語は明確化のために使用されているにすぎず、ビデオの記憶及び表示のための或る特定のフォーマットあるいは従来公知のものに限定される趣旨ではない。
【0067】
いくつかのフレームは、特定のユーザによって提供された、それに関連付けられた注釈を持つ。図示の例では、それに関連付けられた注釈を示すために、フレーム601が拡大して図示されている。図示のように、注釈は1フレームの特定の空間的位置に関連付けられることができ、若しくは、フレームの全体に関連付けられることもできる。例えば、注釈1はフレーム601の左上の隅の方形ボックスに対応付けられている。反対に、注釈4はフレームの全体に関連付けられている。
【0068】
注釈は重複した空間的位置に関連付けられてもよい。例えば、注釈1は、チャンネル2に関連付けられた別の方形ボックスにオーバーラップ(重複)する方形ボックスに関連付けられている。一実施例において、注釈は、任意の閉じたフォーム形状によって定義された空間的位置に関連付けられることもできる。例えば、図6に示すように、注釈3は楕円形状によって定義された空間的位置に関連付けられている。
【0069】
注釈リスト680は、注釈の空間的位置の定義と注釈の内容との間で注釈を維持する。フレーム601内の或る方形ボックスに関連付けられた注釈1は「副大統領」という文字を含む。この注釈1は、1フレームの特定の部分にハイライトをつける若しくは補充情報を追加するために有益な注釈の一例である。注釈4は、1フレームの内容を要約するために使用される注釈の一例である。注釈5は、フレーム601全体に関連付けられるものであり、いくらかのオーディオを含み、この例の場合、フランス語の通訳音声である。注釈5は補助的なオーディオコンテンツを提供するために使用される一例である。
【0070】
注釈は、メディアファイル又はその任意の部分に対する時間的関連付けを持つことができる。例えば、注釈は特定のフレーム又は複数フレームの範囲に関連付けられることができる。例えば、図6において、注釈注釈2はフレーム600からフレーム651までに関連付けられることができ、その一方で、注釈5はフレーム601のみに関連付けられる。注釈に関連付けられた空間的位置の定義は時間的に変化し得る。例えば、注釈1は、フレーム601における第1の領域に関連付けられることができ、フレーム602においては別の第2の領域に関連付けられることができる。時間及び空間に従属した注釈の関連付けは、動きの対象に関連付けする補充的情報を提供するために特に有益であり、図に示された一例のように、アメリカ合衆国の副大統領の動きに適合させることができる。時間的な関連付けは、フレーム数、時間コード、若しくはその他任意のインデックスベース、の点から定義され得る。テーブルとしての注釈リスト680の図は、記憶フォーマットを基礎として使用することに限定しているものではなく、注釈情報の任意のフォーマット又は組織化が用いられてよく、それには記憶量を減少し及び/又は取り出しスピードを増大するような最適化フォーマットが含まれる。
【0071】
メディアファイルの再生中に、クライアント装置130は該ファイルのフレームに関連付けられた注釈を表示するように構成される。例えば、注釈は、ビデオフレームにスーパーインポーズされたテキスト文として、あるいはフレームの側に沿って示された図形として、あるいはビデオと同時に再生される音声として、表示され得る。この注釈は、また、ビデオ画面の近くのウィンドウ又はフレーム内に現れるようにすることもできる。注釈は、また、それらが関連付けられているメディアファイルが如何に表示されるべきかを指示するコマンドを含むことができる。コマンド注釈を表示することは、該注釈によって指示されたようにビデオを表示することを含む。例えば、注釈に応答して、クライアント装置130は、ビデオ内の別の箇所にスキップしたり、スローモーションでビデオの一部を表示したり、あるいは、まったく別のビデオにジャンプしたりするかもしれない。
【0072】
クライアント装置130は、利用可能な注釈のサブセット(部分集合)を表示することができる。例えば、図6のビデオを見ているユーザは、どの注釈がクライアント装置130によって表示されるべきかを、様々な尺度(基準)の指定によって、選択することができる。ユーザは、或るタイプの注釈のみ(例えば論評、文章、図形、オーディオなど)を受け取るように、あるいはディスプレイの特定領域によって定義される注釈のみを受け取るように、選択することができる。ユーザは、特定の言語の注釈のみを受け取るように、あるいは或る検索基準(キーワードのような)にマッチする注釈のみを受け取るように、あるいは、特定のユーザによって書かれた注釈のみを受け取るように、選択することができる。別の例として、複数ユーザの共同コミュニティ内で注釈が書かれ編集されるとき、或るユーザは或る閾値以上の評判を持つユーザによって書かれた注釈のみを受信するように、あるいは或る閾値以上の格付けを持つ注釈のみを受信するように、選択することができる。
【0073】
ユーザは、また、注釈を検索したり、注釈検索結果に基づいてそれに関連付けられたビデオを取り出す(retrieve)することができる。
【0074】
或る注釈は、ユーザがそれを表示することを拒否できないようにする優先度が付与され得る。例えば、注釈は広告を含み得、広告注釈が同時に表示されない限り、他のどんな注釈も表示されないように構成してよい。そのような構成は、ユーザが或る注釈を見るのを禁止する一方で、支払い済みの広告注釈を無駄にするであろう。加えて、或る注釈はコンテンツサーバーによって提供されてよく、それはビデオのナビゲーションを容易にするためにコンテンツの簡単な断片を含む「タグ」のようなものである。コンテンツサーバーの「タグ」の区別は、注釈が信頼できるソースからのものであることをユーザに示すであろう。
【0075】
次に、どの注釈が表示されるべきかを決定するための方法について、図10を参照して説明する。例えば、ユーザが、彼女が書いた個人化されたブックマーク注釈を表示させることを望むだけであるとする。若しくは、彼女は、彼女の友達及び家族からなる信頼された1グループのブックマーク注釈が表示されることを望むだけであるとする。
【0076】
オプションとして、クライアント装置は、注釈に対するユーザからの変更を受け付ける。例えば、ユーザは、文章を編集したり、オーディオを再録音したり、注釈内容に含まれるメタデータを変更したり、あるいは、注釈コマンドを変更したりすることができる。クライアント装置は、変更された注釈をビデオサーバーに送信する、あるいは、その代わりに、変更の記述をビデオサーバーに送信する。ビデオサーバーは変更された注釈を受信し、ユーザデータベース内に記憶する。
【0077】
例えば、図6に示す注釈を見ているユーザは注釈1に不満かもしれない。該ユーザは、クライアント装置130に接続された入力装置を使用して、注釈文(テキスト)の「副大統領」を「合衆国副大統領」に変更する。(該ユーザに対する又は多分その他のユーザに対する)該注釈の未来の表示は、変更されたテキスト「合衆国副大統領」を含むであろう。別の見解として、ユーザは、注釈が関連付けられている時間的又は空間的定義を変更することができる。例えば、抜け目のないユーザがフレームの右側に見せられた書類が実際に15USC第78dd−1条からの抜粋であり、(大統領の位置によって殆ど完全に覆い隠されているにもかかわらず)憲法がフレームの左側にかろうじて見えることに気づくかもしれない。従って、そのユーザは、例えばクライアント装置130に接続された入力装置を使用して異なる位置にその空間的定義を(例えばビデオの複数フレームを図示する直接操作ユーザインタフェイスにおいて)ドラッグすることにより、注釈3が関連付けられている時間的定義を変更することができる。
【0078】
注釈リスト680は、どのようにして注釈とそれに関連付けられたフレームとが組織化されることができるかの一例として図示する目的のために、図6に示されている。注釈リスト680は、1フレーム又は複数フレーの範囲に関連付けられた注釈を管理し表示するために有用であるが、本発明の範囲を逸脱することなく、異なるやりかたで注釈を組織化することができる。
【0079】
また、図6を参照してここで説明したように、注釈はビデオの複数フレームの範囲に関連付けられ得る。ときには、ビデオの1以上のフレームからなる1組を、ビデオのインターバルと言う。
【0080】
図7(a)を参照すると、ユーザはグラフィカル・ユーザ・インターフェイス(GUI)を使用して検索(SEARCH)したり、作成(CREATE)したり、編集(EDIT)したりすることができる。図示された実施例において、注釈用のグラフィカル・ユーザ・インターフェイスはビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702内に組み込まれている。このビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は、クライアント装置130の表示装置上に表示されるインターフェイスの一例である。このビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は、メディアファイル(図示例ではビデオ)を表現するためのディスプレイ領域と、該メディアファイルを選択、再生、一時停止、早送り、巻き戻しするための制御ボタンとを含む。ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は、また、図7(a)に示した国家アーカイブ及び記録認証局の広告のような、広告を含み得る。
【0081】
ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702はビデオのフレームを表現する。ビデオのフレームに沿って示されたものは注釈定義704である。注釈定義704は、注釈の空間的定義及び/又は時間的定義を図解する。例えば、図7(a)に示された注釈定義704は、注釈が関連付けられたフレームのサブセットを輪郭で示す。別の例として、注釈定義704は注釈が関連付けられたフレーム範囲を輪郭で示すことができる。図7(a)では単一の注釈定義704が示されているが、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は、本発明の範囲を逸脱することなく、複数の注釈定義704を含むことができる。
【0082】
注釈定義704は、ユーザ選択に応じて、又はすでに存在している注釈の表示の一部として、表示されることができる。例えば、ユーザは、新しい注釈が関連付けられるであろうフレーム領域を選択するために、及び、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702の選択がユーザによって作成された注釈定義704を表示することに応答して、ビデオ入力装置を使用することができる。別の例として、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は、ビデオ及び関連付けられた注釈を表示することができ、かつ、関連付けられた注釈を表示することに関連して注釈定義704を表示することができる。
【0083】
ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は、また、注釈の表示と内容の制御をユーザができるようにする注釈制御ボタン706を含む。例えば、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は注釈を検索するためのボタンを含むことができる。注釈検索(SEARCH)ボタンの選択に応じて、クライアント装置は、注釈定義740(又は類似した定義)に関連付けられた注釈を検索する、又はキーワードに関連した注釈を検索する。検索結果はビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702で表示され得る。別の例では、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は注釈編集ボタンを含み得る。注釈編集ボタンの選択に応じて、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は注釈定義740に関連付けられた1以上の注釈を表示し、ユーザが該1以上の注釈を編集できるようにする。更に別の例として、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は新しい注釈を作成するためのボタンを含み得る。該新しい注釈を作成(CREATE)するためのボタンの選択に応じて、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は図7(b)に示すようなオプションを表示することができる。
【0084】
図7(b)を参照すると、注釈制御ボタン706は新しい注釈を作成(CREATE)するためのボタンが選択されたことを示している。ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は、新しい注釈の内容の入力を受け付けるための表示領域を含む。図示された例においては、新しい注釈の内容は或る新注釈文708を含んでいる。図7(b)に示されるように、ユーザが「マッカーサー将軍(General MacArthur)」という綴りを入力するとき、新注釈文708が表示される。注釈内容の書き込みが完了したことを示す更なるユーザ選択に応じて、新しい注釈が例えばビデオサーバー126に送信され、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702内に表示される。
【0085】
新注釈文708の入力は、注釈内容の書き込みの一例として示された。ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は、その他のタイプの注釈内容も受信するように適合化されることができる。例えば、注釈内容はオーディオを含むことができ、ビデオ・プレーヤ・グラフィカル・ユーザ・インターフェイス702は、マイクを介して可聴音の記録を開始するための、又は記憶媒体上の或る格納位置からオーディオファイルを選択するためのボタンを含むことができる。その他のタイプの注釈及びユーザによる送信を受信するための同様な方法は、本発明の範囲を逸脱することなく、当業者にとって明白であろう。
【0086】
図8に戻り、ビデオ800に対応するタイムライン802上に示された注釈されたクリップのそれぞれが、注釈されたサムネイルに関連付けられる。例えば、カーソル840が注釈されたクリップ810の表示の上に置かれるとき、注釈されたサムネイル850Aが現れる。一実施例において、ランク付けされた注釈クリップが、ユーザ・インターフェイスの別の区間880に表示され得るようにしてよい。例えば、サムネイル850Aはビデオ800について最も注釈されたクリップに対応し、サムネイル860は2番目に注釈されたクリップに対応し、サムネイル870は3番目に注釈されたクリップに対応する。時間線(タイムライン)802の表示はそれらのランク付け順位を示すように番号付けされ得る。図8に描かれたユーザインターフェイスは、ユーザが最も注釈されたクリップの表示を見ているときに「B」ボタン806をクリックすることによりインターバルの注釈を送信できるようにもなっている。
【0087】
別の実施例において、ユーザは、DVR又は同様の機能を提供する装置を使用して、ビデオについての注釈されたクリップにアクセスすることができる。リモートコントロール又はビューイングデフォルトを使用することにより、装置のユーザは単一のビデオ内で及び複数のビデオを通して注釈されたクリップにアクセスすることができる。これはユーザが所与のビデオ又は1組のビデオのハイライト(所定の時間内でのスポーツハイライトのような)を見れるようにできる。
【0088】
図9に戻ると、注釈クリップの表示の別の例が示されている。このユーザインタフェイスは2日間にわたる注釈クリップのトップランクを示している。例えば、本日(Today)の最も注釈されたクリップ「1」910は、注釈975と共にサムネイル930として描画されている。前日のインターバルは利用できないため、そのビデオインターバルは「New!」(新しい!)920としてリストされる。サムネイル940、950は最も注釈されたクリップのビデオの中から上位2番目及び3番目に注釈されたクリップを描画するものである。また、上から2番目に注釈された別の第2のビデオに由来するクリップのサムネイル960及び上から3番目に注釈された別の第3のビデオに由来するクリップのサムネイル970が、最も注釈されたクリップのサムネイル930の下に描画される。ウェブページは、また、注釈の内容を検索できるようにするための検索ボックス990を持っている。
【0089】
全てのビデオについての注釈クリップのランク付けリストが、ビデオデータベース128に記憶される。このビデオクリップのランク付けリストは、一実施例に従えば、時間ベースで更新される。これは、殆どの最新の関連したビデオがユーザに提示されるとを確実にする。ランク付けリストは、日ベースで更新されるようにしてもよい。ランク付けリストが更新される時刻は、適切な更新が行われる時刻の説明に役立つにすぎず、更新はビデオホストウェブサイト108の管理者によって設定された適当な時刻において行われることができる。
【0090】
図10は、どの注釈を表示するかを決定するための方法を示している。一実施例において、クライアント装置130は受信した注釈のいくつかのみを表示する。クライアント装置130は、図10に示されたような方法を実行し、どの注釈を表示すべきで、どの注釈を表示すべきでないかを決定する。
【0091】
クライアント装置130は注釈を受信する(ステップ1002)。クライアント装置は該注釈が高い優先度を持つかを判定する(ステップ1004)。高い優先度を持つ注釈は、注釈表示用のユーザ設定に関係なく表示される。高い優先度を持つ注釈とは、例えば、広告、緊急放送メッセージ、又はローカルなユーザ設定に取って代わるべき重要なその他の通信事項などである。
【0092】
クライアント装置130が当該注釈が高い優先度を持つと判定すると(ステップ1004)、該クライアント装置はこの注釈を表示する(1012)。クライアント装置130が当該注釈が高い優先度を持たないと判定すると(ステップ1004)、該クライアント装置は注釈が可能化されているかを判定する(ステップ1006)。例えば、注釈は、ユーザによる注釈表示モードの選択によって、可能化又は不可能化され得る。もしユーザが注釈を可能化することを選択したならば、クライアント装置130は前記注釈がユーザ定義の基準(criteria)にマッチしているかを判定する(ステップ1008)。
【0093】
ここで述べたように、クライアント装置130は、ユーザが多様な基準に基づいて表示する注釈を選択できるようにする。一実施例において、ユーザ定義の基準は注釈のリクエストの中に記述されることができ、ビデオサーバー126によって送付される注釈を制限する。別の実施例においては、ユーザ定義の基準は、クライアント装置130で注釈が受信されたとき、どの注釈を表示するかを制限するために使用され得る。ユーザ定義の基準は、例えば、言語、注釈内容、特定の作者又は作者グループ、あるいはその他の注釈特性等に基づき、どの注釈を表示するかを特定するものであってもよい。
【0094】
クライアント装置130が前記注釈がユーザ定義の基準を満たしていると判定したならば(ステップ1008)、クライアント装置130は該注釈を表示する(ステップ1012)。クライアント装置130が前記注釈がユーザ定義の基準を満たしていないと判定したならば(ステップ1008)、クライアント装置130は該注釈を表示しない(ステップ1010)。
【0095】
図10は、クライアント装置130がどの注釈を表示するかをどのように決定するかの一例を示している。注釈プロバイダー及び注釈顧客によって確立された注釈の優先権を仲裁するためのその他の方法は、本発明の範囲を逸脱することなく、当業者にとって明白であろう。
【0096】
ビデオサーバーとクライアント装置の上記ケースは、しかし、本発明がビデオの注釈管理に有益に使用され得るという一例でしかない。本発明の範囲を逸脱することなく、ここで述べた方法がその他の様々な使用例を持つことは、当業者にとって明白であろう。例えば、ここで説明した特徴は、協力して注釈を書き、編集し、レビューし、公表し、閲覧するユーザ達が作るオンラインコミュニティ内で利用され得る。そのようなコミュニティは、それらの注釈が関係するビデオの著作権に抵触することなく、注釈の公開ソース形式の生産を可能にするかもしれない。
【0097】
付加的特徴として、そのようなコミュニティ内の或るユーザは、該ユーザが以前作成し又は編集したものの品質についての他のユーザのレビューに基づき、評判を累積することもできる。注釈を見たい或るユーザは、或る閾値以下の評判しか持たないユーザ達からの注釈を無視する、又は飛び抜けて高い品質の評判を持つユーザ達による注釈を検索する、ように判断することができる。別の例として、或るユーザは特定のユーザ又は特定のユーザグループからの注釈のみを見るように選択することもできる。
【0098】
ここで述べたように、注釈はビデオがどのように表示されるべきかを記述するコマンドを含み得る。そのようなコマンドには、例えば、該ビデオ内で前方にスキップしたり、あるいは全く別のビデオにジャンプしたりするよう表示装置に指示するコマンドがある。ユーザはジャンプ−ツウ・コマンド注釈の1ストリング(文字列)を書くことができる。そのような1ストリングは、より大きな1ピースへと複数ビデオセグメントを組み合わせることの示唆を効果的に提供するものである。一例として、コマンド注釈は1以上の動画の構成部分から新たな動画を作成するために使用され得る。
【0099】
本発明は、それに限定されるものではないが、ピアツーピア (peer-to-peer)、分散型ホスティング(hosting)、ウィキスタイル (wiki-style) ホスティング、集中型サービング(centralized serving)、あるいはネットワークを介してデータを共有するための他の周知の方法を含む、様々なホスティングモデルのいずれにも適用可能である。
【0100】
ここで説明した注釈のフレームワークは、複数の収益モデルの機会をもたらす。一例として、ビデオサーバー126のオーナーは注釈に広告を含めるために料金をかけることができる。ビデオサーバー126は、様々な要因に基づきユーザに対する広告の注釈をターゲットにすることができる。例えば、ビデオサーバー126は、クライアントが表示しているビデオのタイトル又はカテゴリ、ユーザについての知られた事実、最近の注釈検索リクエスト(キーワード検索のような)、該ビデオのために以前送った別の注釈、クライアントの地理的位置、又は効果的に的を絞った広告をするために有用なその他の基準などに基づき、クライアントに送信する広告を選択することができる。
【0101】
注釈へのアクセスは購読料ベースで提供されることができ、若しくは、注釈はビデオコンテンツそれ自体にパッケージで付加されて販売されるようになっていてもよい。例えば、オンラインビデオストアからビデオを購入するユーザは、そのビデオ又は他のビデオに関連付けられた注釈を見たり、編集したり、若しくは書いたりすることにつき、許可が与えられるようにしてもよい。オンラインビデオストアは、例えば、ユーザが1ヶ月に所定数のビデオを購入すると、その月につきビデオサーバー126での特典を該ユーザに与える、というような販売促進をしてもよい。
【0102】
これらの収益モデルは説明の目的で提示されており、これに限定されるものではない。その他の応用及び潜在的な利得使用は、本発明の範囲を逸脱することなく、当業者にとって自明であろう。
【0103】
加えて、スパム対策は、注釈の共有のセキュリティを保障するための一助となろう。
【0104】
この明細書において、「一実施例」又は「実施例」とは、特定の特徴又は該実施例に関連して説明された特性が本発明の少なくとも1つの実施例の中に含まれるということを意味する。明細書の様々な箇所で出てくる「一実施例において」という表現は、必ずしも同一の実施例に言及しているわけではない。
【0105】
なお、本発明に係る処理ステップと命令群はソフトウェア、ファームウェアあるいはハードウェアの形態で実装されるようになっていてよく、また、ソフトウェアの形態で実装されたときには、いろいろなオペレーティング・システムによって使われる異なったプラットホームから操作され常駐するようにダウンロードされるようになっていてよい。
【0106】
本発明はまた、ここに述べた演算/操作を実行するための装置に関係している。この装置は、所要の目的のために専用に組み立てられたものであってもよいし、あるいはそれはコンピュータに記憶されたコンピュータプログラムによって選択的に作動される又は再構成される多用途のコンピュータであってもよい。そのようなコンピュータプログラムは、それに限定されるものではないが、フレキシブル磁気ディスク、光学式ディスク、CD−ROM 、磁気−光学式ディスク、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気あるいは光学式カード、特定用途向け集積回路(ASIC)を含むディスクのあらゆるタイプ、あるいは電子命令群を記憶するのに適したメディアのあらゆるタイプ、のようなコンピュータ読み取り可能な記憶媒体に記憶されるようになっていてよく、そして各媒体がコンピュータシステムバスにつながれるようになっていてよい。さらに、明細書内で言及されたコンピュータは、シングルプロセッサを含むかもしれないし、また増大した演算能力のためにマルチプロセッサデザインを採用している構造であるかもしれない。
【0107】
ここに示されたアルゴリズムと動作は、どの特定のコンピュータや他の装置と本質的に関連付けられない。様々な多用途のシステムもやはりここの教示を踏まえてプログラムで用いられるかもしれない、あるいは必要とされた方法手順を実行するためのより専門の装置を組み立てるほうが都合がよいとわかるかもしれない。必要とされるこれらのシステムの多様性の仕組みは、同等の変形物に従って当業者に明らかであろう。さらに、この発明は特定のプログラミング言語に関連付けられて記述されない。プログラミング言語の種類はここに記述されたようなこの発明の教示を実装するのに用いられるかもしれないこと、そして特定の言語へのどんな言及でも実施要件の開示とこの発明の最良の形態が規定されていることが分かる。
【0108】
この発明は、好ましい実施例といくつかの代わりの実施例に対応付けられて詳しく示され記述されているとはいえ、この発明の精神と要旨から逸脱せずに形式と明細のさまざまな変更が行われうることが当業者に理解されるであろう。
【0109】
最後に、明細書に用いられた言語は読みやすさと教育の目的のために主に選択されること、そして発明の主題を描写する又は制限するために選択されなかったかもしれないことは指摘されるべきである。したがって、この発明の開示が説明に役立つものであることが意図されるが、次のクレームで示される発明の目的を制限するものでない。

【特許請求の範囲】
【請求項1】
第1のビデオに関連付けられた注釈を管理するための方法であって、
前記第1のビデオの1以上のインターバルについての複数の注釈を受信することと、
複数のグループを形成することと、ここで、各グループは、前記第1のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、
複数の関連した注釈を持つ第1のグループを決定することと、
前記第1のグループにおける前記インターバルに基づき前記第1のビデオの第1の注釈クリップを形成すること
を具備する方法。
【請求項2】
前記第1のグループ内の前記複数の関連した注釈に基づき、前記第1のビデオの第1の注釈クリップのための第1の概要的な注釈を形成すること、を更に具備する請求項1の方法。
【請求項3】
前記第1の概要的な注釈は、前記第1のグループ内の前記複数の関連した注釈の内容の要約を含む、請求項1又は2の方法。
【請求項4】
前記第1の概要的な注釈は、前記第1のグループ内の前記複数の関連した注釈の内容の抜粋を含む、請求項1乃至3のいずれかの方法。
【請求項5】
前記複数の関連した注釈からなる前記第1のグループは、各注釈内の内容を比較することに少なくとも部分的に基づいて決定される、請求項1乃至4のいずれかの方法。
【請求項6】
1つの検索クエリー語の受信に応じて該検索クエリー語を含む1以上の注釈を特定すること、を更に具備する請求項1乃至5のいずれかの方法。
【請求項7】
前記複数のグループを形成することは、各注釈に対応付けられたタイムスタンプに基づき複数の注釈をまとめることを含む、請求項1乃至6のいずれかの方法。
【請求項8】
各インターバルは開始時刻と終了時刻を持ち、前記複数のグループを形成することは、各インターバルの開始時刻と終了時刻に基づき前記複数の注釈をまとめることを含む、請求項1乃至7のいずれかの方法。
【請求項9】
前記複数のグループを形成することは、
前記第1のビデオにおいて複数のシーンを特定することと、
各グループに1以上のシーンを関連付けること
を含む、請求項1乃至8のいずれかの方法。
【請求項10】
前記複数のグループを形成することは、
前記第1のビデオにおいて複数の特徴を特定することと、
各グループに前記第1のビデオにおける1以上の特徴の1組を関連付けること
を含む、請求項1乃至9のいずれかの方法。
【請求項11】
各注釈は該注釈を提供したユーザに対応付けられた評判点数を持つことを特徴とする請求項1乃至10のいずれかの方法。
【請求項12】
評判点数に基づき各注釈毎に重みを割り当てることと、
注釈に割り当てられた重みに基づき、前記複数の関連した注釈を持つ前記第1のグループを決定すること
を更に具備する請求項1乃至11のいずれかの方法。
【請求項13】
注釈が或る特定のユーザによって提供されたかどうかに基づき、各注釈に重みを割り当てることと、
注釈の割り当てられた重みに基づき、前記複数の関連した注釈を持つ前記第1のグループを決定すること
を更に具備する請求項1乃至12のいずれかの方法
【請求項14】
前記複数のグループを形成することは、注釈クリップを指示するための複数の指示物であって前記第1のビデオに対応するタイムライン上で可視的に区別できる該指示物に基づいて、許容される該注釈クリップの最大数を判定することを含む請求項1乃至13のいずれかの方法。
【請求項15】
前記複数のグループを形成することは、注釈が関連付けられたインターバル間の時間量を判定することを含む請求項1乃至14のいずれかの方法。
【請求項16】
第1の注釈クリップを指示するための指示物を、前記第1のビデオに関連付けられたタイムライン上に表示すること、
を更に具備する請求項1乃至15のいずれかの方法。
【請求項17】
複数の関連した注釈を持つ第2のグループを決定することと、
前記第2のグループにおける前記インターバルに基づき第2の注釈クリップを形成することと、
各グループ内の注釈に基づき、前記第1の注釈クリップと第2の注釈クリップをランク付けすること、
を更に具備する請求項1乃至16のいずれかの方法。
【請求項18】
前記第1のビデオの前記第1の注釈クリップを指示するための指示物と、該第1のビデオの第2の注釈クリップを指示するための指示物とを、該第1のビデオに対応付けられたタイムライン上に表示すること、
を更に具備する請求項1乃至17のいずれかの方法。
【請求項19】
前記第1の注釈クリップと前記第1のビデオの第2の注釈クリップとを含む前記第1のビデオの注釈された抜粋を形成することと、
該注釈された抜粋を表示すること、
を更に具備する請求項1乃至18のいずれかの方法。
【請求項20】
第2のビデオの1以上のインターバルに関連付けられた複数の注釈を受信することと、
前記第2のビデオ用の複数のグループを形成することと、ここで、各グループは、前記第2のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、
前記第2のビデオ内の似かよったインターバルについての複数の関連した注釈を持つ前記第2のビデオ用の第1のグループを決定することと、
前記第2のビデオ用の第1のグループにおける前記インターバルに基づき前記第2のビデオの第1の注釈クリップを形成することと、
前記第1のビデオ及び第2のビデオの各注釈クリップに関連付けられた注釈の数に基づき、前記第1のビデオ及び第2のビデオをランク付けすること、
を更に具備する請求項1乃至19のいずれかの方法。
【請求項21】
検索クエリー語の受信に応じて、該語を含む前記第1のビデオ及び第2のビデオからの1以上の注釈を特定すること、
を更に具備する請求項1乃至20のいずれかの方法。
【請求項22】
前記第1のビデオからの注釈と共通の内容を持つ第2のビデオからの注釈を特定すること、
を更に具備する請求項1乃至21のいずれかの方法。
【請求項23】
ビデオに関連付けられた注釈を管理するためのシステムであって、
前記ビデオの1以上のインターバルに関連付けられた複数の注釈を抽出するように構成された抽出モジュールと、
複数のグループを形成するように構成されたグループ化モジュールと、ここで、各グループは、前記ビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、
複数の関連した注釈を持つ1グループを決定するように構成された注釈決定モジュールと、
前記グループにおける前記インターバルに基づき前記ビデオの注釈クリップを形成するように構成されたクリップ生成モジュールと
を具備するシステム。
【請求項24】
前記注釈クリップを指示するための指示物を、前記ビデオに対応付けられたタイムライン上で表示するように構成された表示モジュールを更に具備する請求項23のシステム。
【請求項25】
第1のビデオに関連付けられた注釈を管理するためのコンピュータ実行可能なコード群を含むコンピュータプログラムであって、コンピュータに、
前記第1のビデオの1以上のインターバルについての複数の注釈を受信する手順と、
複数のグループを形成する手順と、ここで、各グループは、前記第1のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、
複数の関連した注釈を持つ第1のグループを決定する手順と、
前記第1のグループにおける前記インターバルに基づき前記第1のビデオの第1の注釈クリップを形成する手順
を実行させるための前記プログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【請求項26】
第1のビデオに関連付けられた注釈を管理するためのシステムであって、
前記第1のビデオの1以上のインターバルについての複数の注釈を受信する手段と、
複数のグループを形成する手段と、ここで、各グループは、前記第1のビデオ内の互いに似かよった複数のインターバルについての複数の注釈を含んでおり、
複数の関連した注釈を持つ第1のグループを決定する手段と、
前記第1のグループにおける前記インターバルに基づき前記第1のビデオの第1の注釈クリップを形成する手段と
を具備するシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7(a)】
image rotate

【図7(b)】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公表番号】特表2011−515896(P2011−515896A)
【公表日】平成23年5月19日(2011.5.19)
【国際特許分類】
【出願番号】特願2010−546961(P2010−546961)
【出願日】平成21年2月18日(2009.2.18)
【国際出願番号】PCT/US2009/034422
【国際公開番号】WO2009/105486
【国際公開日】平成21年8月27日(2009.8.27)
【出願人】(505281067)グーグル インコーポレイテッド (58)
【氏名又は名称原語表記】GOOGLE INC.
【Fターム(参考)】