説明

マスメディアのソーシャル及び相互作用的なアプリケーション

【課題】リアルタイム環境音及び/又はビデオ特定をベースとするソーシャル及び相互作用的なアプリケーションを提供する。
【解決手段】システム、方法、装置、ユーザインターフェース及びコンピュータプログラム製品は、リアルタイム環境音及び/又はビデオ特定をベースとするマスメディアのソーシャル及び相互作用的なアプリケーションを提供する。いくつかの実施では、方法は、メディア放送に関連付けられた環境音を特定する記述子を受信する段階と、前記記述子を1つ又は複数の基準記述子と比較する段階と、前記比較の結果を少なくとも部分的にベースとして、前記メディア放送のレーティングを決定する段階と、を具備する。

【発明の詳細な説明】
【技術分野】
【0001】
この出願は、「Environment−Based Referrals」という発明の名称の付された、2005年11月29日に出願された、米国仮特許出願第60/740,760号の優先権の利益を主張し、その出願は、引用によって本明細書にその全体が組み込まれる。
【0002】
この出願は、「Audio Identification Based on Signatures」という発明の名称の付された、2006年8月19日に出願された、米国仮特許出願第60/823,881号の優先権の利益を主張し、その出願は、引用によって本明細書にその全体が組み込まれる。
【0003】
開示される実施は、マスメディアのソーシャル及び相互作用的なアプリケーションに関連する。
【背景技術】
【0004】
マスメディアチャネル(例えば、テレビジョン及びラジオ放送)は、代表的には、大勢の聴衆に制限されたコンテンツを提供する。反対に、World Wide Webは、2,3の個人のみが興味を持ちうる大量の情報を提供する。通常の相互作用的なテレビジョンは、視聴者に、視聴者のテレビジョンと相互作用するとともに、テレビジョン放送に関連するコンテンツ及び/又はサービスを受信する手段を提供することによって、これらの2つの通信媒体を橋渡しするように試みる。
【0005】
通常の相互作用的なテレビジョンは、通常は、ケーブル又は衛星ネットワークを通して、加入料金を払う視聴者にのみ利用可能である。相互作用的なテレビジョンサービスを受信するためには、視聴者は、セットトップボックスを賃借又は購入するとともに、技術者によってそれを設置してもらう必要がある。前記視聴者のテレビジョンは、前記視聴者が遠隔制御又は他の入力装置を使用してテレビジョンと相互作用するとともに、情報、娯楽及びサービス(例えば、広告、オンラインの買物、フォーム及び調査、ゲーム及び動作、等)を受信することを可能にする、セットトップボックスに接続される。
【0006】
通常の相互作用的なテレビジョンは、前記視聴者のテレビジョン体験を改善することが可能である一方で、前記テレビジョン又はラジオと、セットトップボックス又はコンピュータとの間の、実質的に追加のハードウェア又は物理的接続に依存しない、マスメディアのためのソーシャル及び相互作用的なアプリケーションに対する需要がある。
【0007】
通常の及び相互作用的なテレビジョンシステムに欠如している1つのソーシャル及び相互作用的なテレビジョンアプリケーションは、楽な仕方でマスメディアチャネルに補完的な情報を提供する能力である。通常のシステムでは、ユーザは、コンピュータにログインするとともに、そのような情報をクエリする必要があり、それはマスメディアによって提供された受動的な体験を減少させる。さらに、通常のテレビジョンシステムは、ユーザが放送を視聴する間に、リアルタイムに補完的な情報を提供することはできない。
【0008】
通常の相互作用的なテレビジョンシステムに欠如している、もう一つのソーシャル及び相互作用的なテレビジョンアプリケーションは、視聴者を、即席のソーシャルピアコミュニティ(例えば、ディスカッショングループ、チャットルーム、等)に、リアルタイムで動的にリンクする能力である。あなたが、「Friends」の最新のエピソードをテレビジョンで視聴しているとともに、キャラクタ「Monica」が妊娠中であることを発見したと想定する。あなたは、リアルタイムに、チャット、コメント、又は、前記場面に対する他の視聴者の反応を読みたい。1つの選択肢は、あなたのコンピュータにログインし、「Friends」の名前又は他の関連する用語を、検索エンジンにタイプするとともに、「Friends」に関するディスカッショングループを発見するために検索を実施することである。しかしながら、そのような前記視聴者によって必要である動作は、マスメディアによって提供される受動的体験を減少しうるとともに、前記視聴者が同時に前記プログラムを視聴している他の視聴者と動的に相互作用(例えばコメント、チャット、等)することを可能にはしない。
【0009】
通常のテレビジョンシステム及び相互作用的なテレビジョンシステムのもう一つの欠点は、放送イベントの人気度を評価する簡潔な方法である。放送イベントの人気度レーティングは、ユーザ、放送者及び広告主が非常に興味を持つ。これらの必要性は、部分的には、Nielsen(登録商標)レーティングのような測定システムによって解決されている。しかしながら、これらのレーティングは、専用のハードウェアの設置、及び参加視聴者からの協力を必要とする。
【発明の概要】
【課題を解決するための手段】
【0010】
上記で説明された欠点は、リアルタイム環境音及び/又はビデオ特定をベースとするソーシャル及び相互作用的なアプリケーションを提供するための、開示されるシステム、方法、装置、ユーザインターフェース及びコンピュータプログラム製品によって処理される。
【0011】
いくつかの実施では、方法は、メディア放送に関連付けられた環境音を特定しうる記述子を受信する段階と、前記記述子を前記メディア放送に関連付けられた基準記述子を比較する段階と、前記比較の結果をベースとして前記メディア放送に関連するパーソナライズ情報を集約する段階と、を具備する。
【0012】
いくつかの実施では、方法は、第1メディア放送に関連付けられた環境音を特定する第1記述子を受信する段階と、第2メディア放送に関連付けられた環境音を特定する第2記述子を受信する段階と、前記第1及び第2メディア放送が同一であるかどうかを決定するために、前記第1及び第2記述子を比較する段階と、前記比較の結果をベースとしてパーソナライズ情報を集約する段階と、を具備する。
【0013】
いくつかの実施では、方法は、メディア放送に関連付けられた環境音を検出する段階と、前記メディア放送を特定する記述子を生成する段階と、前記記述子をネットワーク資源に送信する段階と、前記記述子をベースとして前記ネットワーク資源から集約されたパーソナライズ情報を受信する段階と、を具備する。
【0014】
いくつかの実施では、システムは、基準記述子のデータベースを具備する。データベースサーバが、前記データベース及びクライアントシステムに動作可能に接続されている。前記データベースサーバは、メディア放送に関連付けられた環境音を特定し、前記受信された記述子を1つ又は複数の基準記述子と比較し、前記比較の結果をベースとして前記メディア放送に関連するパーソナライズ情報を集約するために前記クライアントシステムから記述子を受信するように構成可能である。
【0015】
いくつかの実施では、システムは、環境音をサンプリングするように構成可能である音声検出器を具備する。クライアントインターフェースは、前記音声検出器に動作可能に接続されるとともに、メディア放送を特定する記述子を生成するように構成可能である。前記クライアントインターフェースは、前記記述子をネットワーク資源に送信するとともに、前記記述子をベースとして、前記ネットワーク資源から集約されたパーソナライズ情報を受信するように構成可能である。
【0016】
いくつかの実施では、方法は、メディア放送に関連付けられた環境音を特定する記述子を受信する段階と、前記記述子を1つ又は複数の基準記述子と比較する段階と、前記比較の結果を少なくとも部分的にベースとして前記メディア放送のレーティングを決定する段階と、を具備する。
【0017】
いくつかの実施では、方法は、メディア放送に関連付けられた環境音を特定する記述子を生成する段階と、前記記述子をベースとして前記メディア放送のレーティングを決定するレーティングプロバイダに前記記述子を提供する段階と、前記レーティングプロバイダからの前記レーティングを受信する段階と、表示装置上に前記レーティングを表示する段階と、を具備する。
【0018】
いくつかの実施では、方法は、メディア放送から環境音断片を記録する段階と、前記環境音断片から記述子を生成する段階と、レーティングプロバイダへの記述子を提供する段階と、を具備する。
【0019】
いくつかの実施では、システムは、基準記述子のデータベースを具備する。サーバは、前記データベース及びクライアントシステムに動作可能に接続される。前記サーバは、メディア放送に関連付けられた環境音を特定するとともに、前記受信された記述子を1つ又は複数の基準記述子と比較するとともに、前記比較の結果を少なくとも部分的にベースとして、前記メディア放送のレーティングを決定するための記述子を前記クライアントシステムから受信するように構成可能である。
【0020】
いくつかの実施では、システムは、環境音をサンプリングするように構成可能な音声検出器を具備する。クライアントインターフェースは、前記音声検出器に動作可能に接続されるとともに、メディア放送を特定する記述子を生成するように構成可能である。前記クライアントインターフェースは、前記記述子をネットワーク資源に送信するとともに、前記記述子をベースとして、前記ネットワーク資源からレーティング情報を受信するように構成可能である。
【0021】
他の実施は、システム、方法、装置、ユーザインターフェース、及びコンピュータプログラム製品を対象とする。
【図面の簡単な説明】
【0022】
【図1】図1は、マスパーソナライズシステムの一実施形態のブロック図である。
【図2】図2は、図1内に示されるクライアント側インターフェースを具備する、環境音特定システムの一実施形態を図説する。
【図3】図3は、マスパーソナライズアプリケーションを提供する処理の一実施形態のフローチャートである。
【図4】図4は、音声指紋処理の一実施形態のフローチャートである。
【図5】図5は、マスパーソナライズアプリケーションと相互作用するためのユーザインターフェースの一実施形態のフローチャートである。
【図6】図6は、図1内に示されるクライアント側インターフェースを実施するクライアントシステムのハードウェアアーキテクチャの一実施形態のブロック図である。
【図7】図7は、反復検出処理の一実施形態のフローチャートである。
【発明を実施するための形態】
【0023】
マスパーソナライズアプリケーション
マスパーソナライズアプリケーションは、マスメディア放送(例えば、テレビジョン、ラジオ、映画、インターネット放送等)に関連付けられたパーソナライズ及び相互作用的な情報を提供する。そのようなアプリケーションは、パーソナライズ情報層、アドホックソーシャルピアコミュニティ、リアルタイム人気度レーティング、及びビデオ(又は音声)ブックマーク、等を具備するが、それに限定されない。本明細書に開示されるマスメディアの実施例のいくつかは、テレビジョン放送のコンテキストであるが、開示された実施は、ラジオ及び/又は音楽放送に同等に適用可能である。
【0024】
パーソナライズ情報層は、前記マスメディアチャネルの補完的な情報を提供する。パーソナライズ情報層の実施例は、ファッション、政治、ビジネス、健康、旅行、等を具備するが、それに限定されない。例えば、有名人に関するニュースセグメントを視聴する一方で、テレビジョンスクリーン又はコンピュータ表示装置上で、ファッション層が前記視聴者に表示されており、前記ニュースセグメント内で有名人が着用している衣類及びアクセサリに関連する情報及び/又は画像を提供する。それに加えて、パーソナライズ層は、有名人が着用している衣類を販売する衣類ストアへのリンクのような、ニュースセグメントに関連する製品又はサービスを促進する広告を具備しても良い。
【0025】
アドホックソーシャルピアコミュニティは、テレビジョン上の同一のショーを視聴している、又は同一のラジオ局を傾聴しているユーザの間の解説のための場所を提供する。例えば、最新のCNN見出しを視聴しているユーザは、前記ユーザが、チャットする、コメントする、又は進行中のマスメディア放送に対する他の視聴者の反応を読むことを可能にする、コメントメディア(例えばチャットルーム、メッセージボード、ワイルドページ、ビデオリンク、等)が提供されても良い。
【0026】
リアルタイム人気度レーティングは、コンテンツプロバイダ及びユーザに、(Nielsenレーティングに類似の)レーティング情報を提供する。例えば、ユーザは、前記ユーザのソーシャルネットワーク及び/又は類似のターゲット層を伴う人々によって視聴又は傾聴されているテレビジョンチャネル又はラジオ局のリアルタイム人気度レーティングを即時に提供されうる。
【0027】
ビデオ又は音声ブックマークは、ユーザの好みの放送コンテンツのパーソナライズされたライブラリを生成する、労力の少ない仕方をユーザに提供する。例えば、ユーザは、単にコンピュータ又は遠隔制御装置上のボタンを押下しても良く、かつ環境音断片及び/又は放送コンテンツのビデオが記録され、処理されるとともに保存される。前記断片は、後に視聴のために、前記プログラム、又は前記プログラムの部分を参照するためのブックマークとして使用されても良い。前記ブックマークは、友達と共有しても良く、又は将来の身元保証のために保存されても良い。
【0028】
マスパーソナライズネットワーク
図1は、マスパーソナライズアプリケーションを提供するための、マスパーソナライズシステム100のブロック図である。システム100は、1つ又は複数のクライアント側インターフェース102、音声データベースサーバ104、及びソーシャルアプリケーションサーバ106を具備し、それらの全ては、ネットワーク108(例えば、インターネット、イントラネット、LAN、無線ネットワーク等)上で通信する。
【0029】
クライアントインターフェース102は、ユーザが情報を入力及び受信することを可能にするとともに、表示装置上にユーザインターフェースを表示することが可能である任意の装置であっても良く、デスクトップ又はポータブルコンピュータ、電子装置、電話、携帯電話、表示システム、テレビジョン、コンピュータモニタ、ナビゲーションシステム、ポータブルメディアプレーヤー/レコーダ、携帯型情報端末(PDA)、ゲーム機、ハンドヘルド電子装置、及び、組み込み電子装置又は電気製品を具備するが、それに限定されない。前記クライアントインターフェース102は、図2に関して、より充分に説明される。
【0030】
いくつかの実施では、クライアントインターフェース102は、放送環境(例えばユーザのリビングルーム)内のマスメディア放送の環境音を監視及び記録するための、環境音検出器(例えばマイクロフォン)を具備する。1つ又は複数の環境音セグメント、又は「断片」は、「音声指紋」又は「記述子」として参照される、示差的(distinctive)かつロバストな統計的な要約に変換される。いくつかの実施では、前記記述子は、以前に生成された基準記述子又は前記マスメディア放送に関連付けられた統計的なデータベースと比較しうる1つ又は複数の音声署名構成要素を具備する圧縮されたファイルである。
【0031】
音楽の特定のための音声指紋を生成しうる技術は、「Ke,Y.,Hoiem, D., Sukthankar, R.(2005),Computer Vision for Music Identification, In Proc. Computer Vision and Pattern Recognition」に説明されている。引用によって、その全体が本明細書に組み込まれる。いくつかの実施では、(以下「Ke他」)によって提案された音楽特定アプローチは、図4に関して説明されたように、テレビジョン音声データ及びクエリのための音声記述子を生成するように適合される。
【0032】
ウェーブレットを使用して音声記述子を生成するための技術は、米国仮特許出願第60/823,881号、「Audio Identification Based on Sigatures」内で説明されている。当該出願は、効果的に適合されうる音声断片のコンパクトな記述子/指紋を生成するための、コンピュータビジョン技術及び大規模データストリーム処理アルゴリズムの組み合わせを使用する技術を説明する。前記技術は、階層的分解機能のための数学的なツールとして公知であるウェーブレットを使用する。
【0033】
「Audio Identification Based on Signature」では、回収処理の実施は、次の段階を具備する。音声断片の音声スペクトルが与えられると、平均してdミリ秒離れたランダムな離間を伴って、例えば11.6*wミリ秒の継続時間のスペクトルの画像を抽出する。各々のスペクトルの画像に対して、2)スペクトル画像上でウェーブレットを計算する、3)top−tウェーブレットを抽出する、4)前記top−tウェーブレットの2進表現を生成する、5)前記top−tウェーブレットの部分指紋を生成するためにmin−hashを使用する、6)近接適合する部分指紋セグメントを発見するために、b個の入れ物及びl個のハッシュ表とともにLSHを使用する、7)v個より少ない適合を伴う部分指紋を捨てる、8)残った候補部分指紋から前記クエリ部分指紋へのハミング距離を計算する、9)時間に亘って、前記適合を組み合わせするために動的プログラミングを使用する。
【0034】
いくつかの実施では、前記記述子及びクライアント側インターフェース102を特定するために関連付けられたユーザ識別子(「ユーザID」)が、ネットワーク108を介して音声データベースサーバ104に送信される。音声データベースサーバ104は、前記記述子を、以前に決定されるとともに、音声データベースサーバ104に接続された音声データベース110内に格納されている、複数の基準記述子と比較する。いくつかの実施では、音声データベースサーバ104は、音声データベース110内に格納された基準記述子を、最近のマスメディア放送から継続的に更新する。
【0035】
音声データベースサーバ104は、前記受信された記述子及び前記基準記述子との間の最良適合を決定するとともに、最良適合情報を、ソーシャルアプリケーションサーバ106に送信する。前記適合処理は、図4に関してより充分に説明される。
【0036】
いくつかの実施では、ソーシャルアプリケーションサーバ106は、クライアント側インターフェース102に関連付けられたWEB閲覧接続を受け付ける。前記最良適合情報を使用して、ソーシャルアプリケーションサーバ106は、前記ユーザのパーソナライズ情報を集約するとともに、前記パーソナライズ情報をクライアント側インターフェース102に送信する。前記パーソナライズ情報は、広告、パーソナライズ情報層、人気度レーティング、及びコメントメディア(例えば、アドホックソーシャルピアコミュニティ、フォーラム、議論グループビデオカンファレンス、等)に関連付けられた情報を具備しうるが、それに限定されない。
【0037】
いくつかの実施では、前記パーソナライズ情報は、視聴者が視聴しているショーを、リアルタイムで知ることなく、前記視聴者のためにチャットルームを生成するのに使用しても良い。前記チャットルームは、適合を決定するために、クライアントシステムによって送信されるデータストリーム内の記述子を直接に比較することによって生成されても良い。即ち、チャットルームは、適合記述子を具備する視聴者の周囲に生成されても良い。そのような実施では、視聴者から受信された前記記述子を、基準記述子に対して比較する必要はない。
【0038】
いくつかの実施では、ソーシャルアプリケーションサーバ106は、クライアント側インターフェース102に、クライアント側インターフェース102で実行するWEBブラウザ(例えば、Microsoft(登録商標)Internet Explorer(登録商標))によって受信されるとともに表示されるWEBページを提供する。ソーシャルアプリケーションサーバ106は、また、パーソナライズコンテンツを集約するとともに、WEBページをクライアント側インターフェース102に提供することを補助するために、クライアント側インターフェース102及び/又は音声データベースサーバ104から前記ユーザIDを受信する。
【0039】
システム100の他の実施が可能なことは明白である。例えば、システム100は、多重音声データベース110、音声データベースサーバ104、及び/又は、ソーシャルアプリケーションサーバ106を具備しても良い。代替的、音声データベースサーバ104及びソーシャルアプリケーションサーバ106は、単一のサーバ又はシステム、又はネットワーク資源及び/又はサービスの部分であっても良い。また、ネットワーク108は、種々のネットワーク装置(例えば、ハブ、ルータ、等)及び媒体(例えば、銅、光ファイバ、無線周波数、等)を使用して、種々のトポロジー及び構成内で、動作可能に一緒に接続された多重ネットワーク及びリンクを具備しても良い。クライアント−サーバアーキテクチャは、本明細書では、実施例として説明されているに過ぎない。他のコンピュータアーキテクチャも可能である。
【0040】
環境音特定システム
図2は、図1内で示されたようなクライアント側インターフェース102を具備する、環境音特定システム200を図説する。システム200は、マスメディアシステム202(例えば、テレビジョンセット、ラジオ、コンピュータ、電子的装置、携帯電話、ゲーム機、ネットワーク電気製品、等)と、環境音検出器204と、クライアント側インターフェース102(例えば、デスクトップ又はラップトップコンピュータ、等)と、ネットワークアクセス装置206と、を具備する。いくつかの実施では、クライアント側インターフェース102は、図5に関して説明されているように、ユーザがマスパーソナライズアプリケーションと相互作用することを可能にするための、ユーザインターフェース(UI)208を表示する表示装置210を具備する。
【0041】
動作中に、マスメディアシステム202は、マスメディア放送の環境音(例えばテレビジョン音声)を生成し、それは環境音検出器204によって検出される。環境音検出器204は、独立したマイクロフォン、及びクライアント側インターフェース102と統合されたマイクロフォンを具備する、環境音を検出可能である任意の装置であっても良い。検出された環境音は、前記環境音を特定する記述子を提供するように、クライアント側インターフェース102によって符号化される。前記記述子は、ネットワークアクセス装置206及びネットワーク108を使用して、音声データベースサーバ104に送信される。
【0042】
いくつかの実施では、クライアント側インターフェース102で実行するクライアントソフトウェアは、n秒(例えば5秒)の環境音の音声ファイル(「断片」)を継続的に監視及び記録する。前記断片は、次いで、図4に関して説明される処理によって、mフレーム(例えば415フレーム)のkビットに符号化された記述子(例えば32ビット)に変換される。いくつかの実施では、前記監視及び記録はイベントベースである。例えば、前記監視及び記録は、特定された日付及び特定された時間(例えば月曜日の午後8時)及び指定された期間の間(例えば、午後8時から9時の間)に自動的に開始されても良い。代替的に、前記監視及び記録は、制御装置(例えば遠隔制御、等)からのユーザ入力(例えば、マウスクリック、ファンクションキー、又はキーの組み合わせ)に応答して開始されても良い。いくつかの実施では、環境音は、Ke他で説明されるような、32ビット/フレームの示差的な特徴のストリーム化変形例を使用して符号化される。
【0043】
いくつかの実施では、前記クライアントソフトウェアは、「サイドバー」、又は他のユーザインターフェース構成要素として実行する。そのようにして、クライアント側インターフェース102が起動したときに、前記環境音サンプリングは、即座に開始するとともに、フルWEBブラウザセッションを起動することなしに、(選択的に)前記サイドバー内に結果が表示されつつ「バックグラウンド」内で実行しても良い。
【0044】
いくつかの実施では、前記環境音サンプリングは、クライアント側インターフェース102が起動したとき、又は前記視聴者がサービス又はアプリケーション(例えばEメール等)にログインしたときに開始しても良い。
【0045】
前記記述子は、音声データベースサーバ104に送信される。いくつかの実施では、前記記述子は、Ke他内で説明されているような、環境音の圧縮された統計的な要約である。前記統計的な要約は、逆変換可能ではない、即ち、オリジナル音声は、前記記述子から回復できないので、統計的な要約を送信することによって、前記ユーザの音響プライバシは維持される。このように、前記放送環境内で監視及び記録された前記ユーザ又は他の個別による任意の会話は、前記記述子から再生することは不可能である。いくつかの実施では、前記記述子は、追加的なプライバシ及びセキュリティのために、1つ又は複数の公知の暗号化技術(例えば、非対称又は対称鍵暗号化、楕円暗号化、等)を使用して暗号化されても良い。
【0046】
いくつかの実施では、前記記述子は、クライアント側インターフェース102で前記監視処理によって検出されたトリガイベントに応答して、(また、クエリ記述子として参照される)クエリ提出として音声データベースサーバ104に送信される。例えば、トリガイベントでは、テレビジョンプログラムのオープニングテーマ(例えば、「Seinfeld」のオープニング曲)又は俳優によって発話される会話であっても良い。いくつかの実施では、前記クエリ記述子は、継続的なストリーム化処理の一部として、音声データベースサーバ104によって送信されても良い。いくつかの実施では、前記クエリ記述子は、ユーザ入力(例えば、遠隔制御経由、マウスクリック等)に応答して音声データベースサーバ104に送信されても良い。
【0047】
マスパーソナライズ処理
図3は、マスパーソナライズ処理300のフローチャートである。処理300の段階は、いかなる特定の順序で完了される必要もなく、かつ、マルチスレッド又は並列処理環境内で、少なくともいくつかの段階が同時に実施されても良い。
【0048】
処理300は、クライアント側インターフェース(例えば、クライアント側インターフェース102)が、放送環境内のマスメディア放送の環境音断片を監視及び記録するときに開始する(302)。記録された環境音断片は、記述子(例えば圧縮された統計的な要約)に符号化され、クエリのために音声データベースサーバ(304)に送信されても良い。前記音声データベースサーバは、前記クエリを、前記クエリに最良適合する候補記述子を決定するために、マスメディア放送統計から計算された基準記述子のデータベースと比較する(308)。前記候補記述子は、ユーザのためのパーソナライズ情報を集約するために、前記候補記述子を使用する、ソーシャルアプリケーションサーバ又は他のネットワーク資源に送信される。例えば、もし前記ユーザがテレビジョンショー「Seinfeld」を視聴しているならば、次いで、前記ショーの環境音から生成されるクエリ記述子は、以前の「Seinfeld」放送から由来した基準記述子に適合される。このよう、前記最良適合候補記述子は、「Seinfeld」に関するパーソナライズ情報(例えば、ニュースストーリー、ディスカッショングループ、アドホックソーシャルピアコミュニティ又はチャットルームへのリンク、広告、等)を集約するのに使用される。いくつかの実施では、前記適合処理は、図4に関して説明されているように、候補記述子の短い表を実現するように、ハッシュ生成技術(例えば直接的ハッシュ生成、又は、局所(locality)感応性(sensitive)ハッシュ生成(LSH))を使用して、効果的に実施される。前記候補記述子は、次いで、Ke他内で説明されているような検証手順で処理される。
【0049】
いくつかの実施では、異なる視聴者からのクエリ記述子は、基準記述子のデータベースとの各クエリに適合するよりもむしろ直接に適合される。そのような実施形態は、基準記述子のデータベースが利用可能でない対象上で、アドホックな、ソーシャルピアコミュニティを生成することを可能にする。そのような実施形態は、ポータブル電子装置(例えば、携帯電話、PDA、等)を使用して、同一の公共形態(例えばスタジアム、バー、等)にいるリアルタイム視聴者に適合しうる。
【0050】
人気度レーティング
いくつかの実施では、現在の放送(例えばショー、広告等)を視聴している視聴者の一覧から、リアルタイム及び集約された統計が推測される。これらの統計は、視聴者が他のアプリケーションを使用しているときに、バックグラウンドで収集されても良い。統計では1)前記放送を視聴している視聴者の平均数、2)前記放送を視聴者が視聴した平均回数、3)前記視聴者が視聴した他のショー、4)視聴者の最低及びピーク数、5)視聴者が放送から離れるときに視聴者が最も良く切り替えたもの、6)視聴者がどれだけ長く放送を視聴したか、7)視聴者が何回チャネルを切り替えたか、8)どの広告が視聴者によって視聴されたか、9)視聴者が放送に参加したときから最も頻繁に視聴者が切り替えたもの、等を具備しうるが、それに限定されない。これらの統計から、1つ又は複数の人気度レーティングが決定されても良い。
【0051】
人気度レーティングを生成するのに使用される統計では、監視されている各々の放送チャネルに対するカウンタを使用して生成されても良い。いくつかの実施では、前記カウンタは、ターゲット層グループデータ又は地理的なグループデータと交差され(intersected)ても良い。前記人気度レーティングは、前記放送が進行中にする間に「話題のものを見る」ために(例えば、2004 Super Bowlのハーフタイムパフォーマンスの間に増加したレーティングを通知することによって)視聴者に使用されても良い。広告主及びコンテンツプロバイダは、また、レーティングに応答して示される構成要素を動的に調節するために人気度レーティングを使用しても良い。視聴者のレーティングレベルを調節するために、広告キャンペーンによって生成される短いユニット長及び多くのバージョンの広告が、容易に交換されるので、これは、特に、広告に当てはまる。他の統計の実施例は、ターゲット層又は時間による、テレビジョン放送対ラジオ放送の人気度、一日の回数の人気度、即ち、ピーク視聴/傾聴回数、所与のエリア内の世帯の数、特定のショー(ショーのジャンル、一日の特定の時間)の間のチャネルサーフィンの量、前記放送のボリューム、等を具備するが、それに限定されない。
【0052】
前記パーソナライズ情報は、前記クライアント側インターフェースに送信される(312)。前記人気度レーティングは、また、上記で説明された広告の動的調節のような、他の処理によって使用されるデータベース内に格納されても良い(318)。前記パーソナライズ情報は、前記クライアント側インターフェースで受信され(314)、そこでそれはフォーマットされるとともにユーザインターフェースに表示される(316)。前記パーソナライズ情報は、ユーザインターフェース内で前記ユーザに表示されるコメントメディア(例えば、チャットルーム内のテキストメッセージ)に関連付けられても良い。いくつかの実施では、チャットルームは、1つ又は複数のサブグループを具備しても良い。例えば、「Seinfeld」のディスカッショングループは、「Seinfeldエキスパート」と呼ばれるサブグループを具備しても良く、又は、サブグループは、「Seinfeld」等を視聴する20−30の歳の間の女性のような、特定のターゲット層に関連付けられていても良い。
【0053】
いくつかの実施では、人気度レーティングのための統計を生成するのに使用される生情報(例えばカウンタ値)は、前記ソーシャルアプリケーションサーバでというよりはむしろ前記クライアント側インターフェースで収集及び格納される。前記生情報は、前記ユーザがオンラインであるときに、及び/又はマスパーソナライズアプリケーションを起動するときはいつでも、放送者に転送されても良い。
【0054】
いくつかの実施では、放送測定ボックス(BMB)が、前記クライアント側インターフェースで設置される。前記BMBは、セットトップボックスに類似するが、前記放送装置には接続しない、簡素なハードウェア装置であっても良い。ハードウェアがテレビジョン内に設置されることが必要であるNeilsen(登録商標)レーティングシステムとは違い、前記BMBは、前記マスメディアシステムの付近、又はテレビジョン信号の範囲内に設置されうる。いくつかの実施では、前記BMBは、自動的に音声断片を記録するとともに、メモリ(例えばフラッシュ媒体)内に格納される記述子を生成する。いくつかの実施では、前記BMBは、ユーザが視聴している放送を指示するために、(Neilsenレーティングに類似する)ユーザによって押下されても良い1つ又は複数のハードウェアボタンを選択的に具備しても良い。前記BMB装置は、格納された記述子を収集するために、前記レーティングプロバイダによって常にピックアップされても良く、又は、前記BMBは、前記格納された記述子を、ネットワーク接続(例えば、電話、インターネット、SMS/キャリアラジオのような無線ラジオ等)上で1つ又は複数の関係者全員に常に放送しても良い。
【0055】
いくつかの実施では、広告主に折り返し報告されても良い、前記広告の有効性を決定するために、広告は監視されても良い。例えば、広告が視聴された、スキップされた、前記広告の音量レベル等。
【0056】
いくつかの実施では、画像キャプチャ装置(例えばデジタルカメラ、ビデオレコーダ、等)は、どれだけ多くの視聴者が放送を視聴又は傾聴しているかを測定するのに使用されても良い。例えば、種々の公知のパターンマッチングアルゴリズムは、特定の放送の間に放送環境内に存在する視聴者の数を決定するために、画像又は画像列に適用されても良い。前記画像から由来する画像及び/又はデータは、ユーザのパーソナライズ情報を収集する、人気度レーティングを計算する、又は任意の他の目的のために、音声記述子との組み合わせで使用されても良い。
【0057】
音声指紋処理
図4は、音声指紋処理400のフローチャートである。処理400の段階は、いかなる特定の順序で完了される必要もなく、かつマルチスレッド又は並列処理環境内で、少なくともいくつかの段階が、同時に実施されても良い。処理400は、クライアント側インターフェース(例えば、クライアント側インターフェース102)で生成されたクエリ記述子を、1つ又は複数のデータベース内に格納された基準記述子に、リアルタイム及び低いレイテンシをもって適合する。処理400は、(例えば、テレビジョン放送からの)環境音データ、及びクエリを扱うために、Ke他によって提案された技術を適合する。
【0058】
処理400は、環境音検出器(例えばマイクロフォン)によって捕捉されたマスメディア放送の環境音断片(例えば、5−6秒の音声)を、重なり合うフレームに分解することによって、クライアント側インターフェースで開始する(402)。いくつかの実施では、前記フレームは、何ミリ秒か離して(例えば12ミリ秒離して)離間される。各々のフレームは、Ke他で説明されているように、音声ノイズ及び歪みを克服するように訓練した記述子(例えば32ビット記述子)に変換される(404)。いくつかの実施では、各々の記述子は、前記音声断片を特定する統計的な要約を表現する。
【0059】
いくつかの実施では、前記記述子は、前記マスメディア放送の以前に記録された音声断片の統計的な要約を特定する基準記述子のデータベースに適合される、音声データベースサーバに対する(また、クエリ記述子として参照される)クエリ断片として送信されても良い(406)。最良適合を具備する候補記述子の一覧が決定されても良い(408)。前記候補記述子は、時間的に前記クエリ記述子と一致する候補記述子が、より少なく時間的に前記クエリ記述子と一致する候補記述子よりも、より高く得点されるように、得点されても良い(410)。最も高い得点を伴う前記候補記述子(例えば、得点が充分に高い閾値を超過する)は、前記メディア放送に関連するパーソナライズ情報を集約するのにそれらが使用されても良い、ソーシャルアプリケーションサーバ(412)に送信される、もしくは提供される。閾を使用することによって、前記記述子が送信される、又はそれ以外に前記ソーシャルアプリケーションサーバに提供される前に、記述子が充分に適合することを確実にする(412)。
【0060】
いくつかの実施では、基準記述子のデータベースは、種々のメディア会社によって与えられた放送から生成されても良く、インデックス化される、及び前記記述子を生成するのに使用されても良い。他の実施では、基準記述子は、また、テレビジョン案内又は他のメタデータ及び/又は前記放送信号内に組み込まれた情報を使用して生成されても良い。
【0061】
いくつかの実施では、発話認識技術は、どのプログラムが視聴されているかを特定するのを援助するのに使用されても良い。そのような技術は、テレビジョンショーのみの代わりに、ニュースイベントをユーザが議論することを援助しうる。例えば、ユーザは、もう一つの視聴者とは異なるチャネル上でシャトル打ち上げを視聴しうるとともに、それ故、(例えば、異なるニュースキャスターであるために)異なる音声信号を取得しうる。発話認識技術は、前記ユーザをコメントメディアにリンクするのに使用されうる、キーワード(例えば、シャトル、打ち上げ等)を認識するのに、使用されても良い。
【0062】
ハッシュ生成記述子
Ke他は、音声に対する、高度に特徴的である、コンパクトな統計を発見するコンピュータビジョン技術を使用する。それらの処理は、正の実施例(ここで、x及びx’は、同一音声のノイズ入りバージョンである)、及び負の実施例(ここで、x及びx’は、異なる音声からである)のラベル付けされた組を訓練した。この訓練フェーズの間に、ブースティングをベースとする機械学習技術は、高度に特徴的な統計を一緒に生成する、32個のフィルタ及び閾の組み合わせを選択するのに、前記ラベル付けされた組を使用する。前記フィルタは、時間及び周波数に亘る第一及び二次の差分を使用して、スペクトログラムの大きさの変化を局所化する。これらの単純な異なるフィルタを使用する1つの利益は、それらが「Viola, P. and Jones, M. (2002), Robust Real−Time Object Detection,International Journal of Computer Vision」内で説明されている積分画像技術を使用して効果的に計算されうることである。引用によって、その全体は、本明細書に組み込まれる。
【0063】
いくつかの実施では、これら32個のフィルタの出力は、各々の音声フレームのフィルタ当たり単一ビットを与える閾である。これらの32個の閾は、音声の当該フレームで、送信された記述子のみに起因する。符号化でのこの希薄性は、不正な盗聴に対するユーザのプライバシを確実にする。さらに、これらの32ビット記述子は、正の実施例(例えば適合フレーム)が小さいハミング距離(即ち、異なるビットの数を測定する距離)を具備するとともに、負の実施例(例えば不適合フレーム)が大きいハミング距離を具備するので、訓練データ内の音声歪みに対してロバストである。より多くの又は少ないフィルタを使用しても良く、かつ、各々の音声フレームで、フィルタ当たり複数ビットが使用されても良い(例えば、複数の閾テストを使用するより多くのビット)ことに留意すべきである。
【0064】
いくつかの実施では、32ビット記述子それ自体は、直接的ハッシュ生成のためのハッシュキーとして使用される。前記記述子は、バランスの良いハッシュ関数である。回収レートは、前記クエリ記述子だけでなく、また(前記オリジナルクエリ記述子からハミング距離2までの)類似な記述子の小さい集合をクエリすることによって、さらに改善される。
【0065】
クエリ内の時間的な一致
一度前記クエリ記述子が上記に説明されたハッシュ生成処理を使用して前記音声データベースに適合されると、前記適合は、「どのデータベースの一致結果が、正確な適合であるか」を決定するために検証される。そうでなければ、候補記述子は、前記クエリ記述子に適合するが、「誤った時間的な構造」を持つ多数のフレームを具備する虞がある。
【0066】
いくつかの実施では、検証は、各データベースヒットを、特定のクエリデータベースオフセットでの適合のサポートとして捉えることによって達成される。例えば、もし、5秒、415フレーム長の“Seinfeld”クエリ断片q内の第8記述子(q)が、第1008データベース記述子(x1008)にヒットしたら、これは、前記音声データベースの5秒クエリ及びフレーム1001から1415までの間の候補適合をサポートする。q及びx1000+n(1≦n≦415)の間の他の適合は、同一の候補適合をサポートする。
【0067】
時間的一致に加えて、我々は、会話が一時的に環境音を掻き消すときに、フレームを捉える必要がある。これは、環境音と干渉音との間の排他的切り替えとしてモデル化できる。各クエリフレームiに対して、隠れ変数yがある。もし、y=0ならば、前記クエリの第iフレームは、干渉のみとしてモデル化される。もし、y=1ならば、第iフレームは、明瞭な環境音としてモデル化される。極端に捉えること(純粋な環境又は純粋な干渉)は、各音声フレームが表現される極度に低い精度(32ビット)によって正当化されるとともに、2つの仮定(y=0及びy=1)の各々の下での前記フレームベクトルの32個の位置それぞれに対する追加的なビット反転確率を提供することによって軟化させる。最後に、我々は、環境のみ、及び干渉のみの状態の間のフレーム間遷移を、訓練データに由来する遷移確率をもって、隠れ1次マルコフ過程としてモデル化する。例えば、我々は、Ke他,CVPR 2005によって与えられた66パラメータの確率モデルを再使用しても良い。
【0068】
クエリベクトルq及びNフレームのオフセットでの環境(ambient)データベースベクトルxの間の適合確率の最終モデルは、
【0069】
【数1】

【0070】
である。ここで、<q,x>は、32ビットフレームベクトルqおよびxの間のビットの異なりを表す。このモデルは、時間的一致拘束条件及び環境/干渉隠れマルコフモデルの両方を組み込んでいる。
【0071】
適合後一致フィルタリング
人々は、たびたび、テレビジョンを視聴する間に他人と話し、特に、環境音をサンプリングするためにラップトップベースのマイクロフォンを使用しているときに、散発的であるが強い音響干渉の結果となる。会話の発言のほとんどが、継続時間で2,3秒であるとすると、視聴者の間の単純な通信交換は、5秒のクエリを認識不能にさせうる。
【0072】
いくつかの実施では、これらの間欠的な低信頼度の不適合を扱うのに、適合後フィルタが使用される。例えば、我々は、L秒の期待された滞留時間(即ち、チャネル変更の間の時間)を伴う、チャネル切り替えの連続時間隠れマルコフモデルを使用しても良い。ソーシャルアプリケーションサーバ106は、各々のクライアントセッションに関連付けられた状態情報の部分として、最近の過去内の最高信頼度の適合を(その「割引された」信頼度とともに)指示する。この情報を使用して、前記サーバ106は、直近過去からのコンテンツインデックス適合、又は前記現在のインデックス適合のいずれかを、どちらがより高い信頼度を具備するかをベースとして選択する。
【0073】
我々は、以前の時間ステップ(5秒前)に対する最良適合及びその対数尤度信頼度得点を参照するために、M及びCを使用する。もし、我々が、この以前の最良適合に、他の観測をすることなく、単にマルコフモデルを適用するならば、我々の予想は、現在時間に対する最良適合は、さらに5秒長いだけの、同一の番組列であるとともに、我々のこの予想の信頼度は、Cl/Lであり、ここで、l=5は、クエリ時間ステップである。この対数尤度内のl/Lの割引は、長さlの時間ステップの間に、チャネル切り替えされないマルコフモデル確率e−l/Lに対応する。
【0074】
代替的な仮説が、現在のクエリのための音声適合によって生成される。我々は、現在の音声断片に対する最良適合を参照するのにMを使用する。即ち、音声指紋処理400によって生成された適合Cは、音声指紋処理400によって与えられる対数尤度信頼度得点である。
【0075】
もしこれらの2つの適合(更新された履歴の期待及び現在の断片観測)が異なる適合を与えるならば、我々は、より高い信頼度得点をもって前記仮説を選択する。
【0076】
【数2】

【0077】
ここで、Mは、関連コンテンツを選択するためにソーシャルアプリケーションサーバ106によって使用される適合であるとともに、M及びCは、M及びQとして、次回段階に繰り越される。
【0078】
ユーザインターフェース
図5は、マスパーソナライズアプリケーションと相互作用するためのユーザインターフェース208の一実施形態のフローチャートである。前記ユーザインターフェース208は、パーソナライズ層表示エリア502、スポンサーリンク表示エリア506、コメントメディア表示エリア504、及びコンテンツ表示エリア508を具備する。パーソナライズ層表示エリア502は、コンテンツ表示エリア508内に示されたビデオコンテンツに関連する補完的な情報及び/又は画像を提供する。パーソナライズ層は、ナビゲートバー510及び入力装置(例えば、マウス又は遠隔制御)を使用してナビゲートされても良い。各層は、ナビゲートバー510内に関連付けられたラベルを具備しても良い。例えば、もし前記ユーザが「ファッション」ラベルを選択したら、次いで「Seinfeld」に関連付けられたコンテンツに関連するファッションを具備するファッション層が、表示エリア502内に表示される。
【0079】
いくつかの実施では、クライアント側インターフェース102は、ユーザインターフェース208を表示可能である表示装置210を具備する。いくつかの実施では、前記ユーザインターフェース208は、ソーシャルアプリケーションサーバ106によって提供される相互作用的なWEBページであるとともに、表示装置210のスクリーン上のブラウザウィンドウ内に表示される。いくつかの実施では、前記ユーザインターフェース208は持続的であるとともに、前記コンテンツ適合処理内で使用された放送音声が時間内でシフトした後に、相互作用で利用可能になる。いくつかの実施では、前記ユーザインターフェース208は、時間に亘って、又はトリガイベント(例えば、新しい人がチャットルームに参加した、コマーシャルが開始した、等)に応答して動的に更新される。例えば、コマーシャルが放送される毎に、スポンサーリンク表示エリア506は、前記コマーシャルの対象に関連する新鮮なリンク518で更新されても良い。
【0080】
いくつかの実施では、前記パーソナライズ情報及びスポンサーリンクは、前記視聴者にEメールされても良く、又は後の時間にサイドバー上に示されても良い。
【0081】
いくつかの実施では、クライアント側インターフェース102は、ソーシャルアプリケーションサーバ106からパーソナライズ情報を受信する。この情報は、WEBページ、Eメール、伝言板、リンク、インスタントメッセージ、チャットルーム、又は、進行中のディスカッショングループに参加するための招待、eRoom、ビデオ会議又はネット会議、音声呼(例えばSkype(登録商標))等を具備しても良い。いくつかの実施では、前記ユーザインターフェース208は、以前に視聴された放送又は映画からのコメントに解説及び/又はリンクを張るためのアクセスを提供する。例えば、もしユーザが、現在「Shrek」のDVDを視聴しているならば、彼は、過去に映画に関して人々が何を発言したかを知りたいかもしれない。
【0082】
いくつかの実施では、表示エリア502は、放送に関連する人気度レーティングをディスプレイするのに使用される、レーティング領域512を具備しても良い。例えば、表示エリア512は、何人の視聴者が現在「Seinfeld」を視聴しているかを、同時に放送されているもう一つのテレビジョンショーと比較して表示しても良い。
【0083】
いくつかの実施では、コメントメディア表示エリア504は、複数のユーザが放送に関してコメントことが可能であるチャットルームタイプの環境を表示しても良い。いくつかの実施では、表示エリア504は、入力機構516(例えばボタン)を使用して前記チャットルームに送信される解説を入力するためのテキストボックス514を具備する。
【0084】
スポンサーリンク表示エリア506は、前記放送に関連付けられた広告に関連する、情報、画像、及び/又はリンクを具備する。例えば、リンク518の1つは、「Seinfeld」商品を販売するWEBサイトに前記ユーザを誘導しても良い。
【0085】
コンテンツ表示エリア508は、放送コンテンツが表示されるところである。例えば、現在の放送からの場面は、他の関連情報(例えばエピソード番号、タイトル、タイムスタンプ等)を伴って表示されても良い。いくつかの実施では、表示エリア508は、表示されたコンテンツを通じてナビゲートするための制御520(例えばスクロールボタン)を具備する。
【0086】
ビデオブックマーク
いくつかの実施では、ボタン522は、ビデオをブックマークするのに使用されても良いコンテンツ表示エリア内に具備される。例えば、ボタン522をクリックすることによって、表示エリア508内に示される「Seinfeld」エピソードが、前記ユーザの好みのビデオライブラリに追加され、次いで、WEBベースストリーム化アプリケーション又は他のアクセス方法を通して、オンデマンドで閲覧されても良い。コンテンツ所有者によって設定されるポリシーによって、このストリーム化サービスは、無料一回視聴再生を提供する、前記コンテンツ所有者のエージェントとして支払いを徴収する、又は前記コンテンツ所有者に支払いを提供しうる広告を挿入しても良い。
【0087】
クライアント側インターフェースハードウェアアーキテクチャ
図6は、図1内に示されたクライアント側インターフェース102のハードウェアアーキテクチャ600のブロック図である。ハードウェアアーキテクチャ600は、代表的には計算装置(例えばパーソナルコンピュータ)であるが、開示される実施は、表示装置上のユーザインターフェースを現在可能である任意の装置におって実現されても良い。デスクトップ又はポータブルコンピュータ、電子装置、電話、携帯電話、ディスプレイシステム、テレビジョンモニタ、ナビゲートシステム、ポータブルメディアプレーヤー/レコーダ、個人デジタルアシスタント、ゲームシステム、ハンドヘルド電子装置、及び組み込み電子的装置又は電気製品を具備するが、それに限定されない。
【0088】
いくつかの実施では、システム600は、1つ又は複数のプロセッサ602(例えばCPU)、選択的に1つ又は複数のディスプレイ装置604(例えば、CRT、LCD、等)、マイクロフォンインターフェース606、1つ又は複数のネットワークインターフェース608(例えば、USB、イーサネット(登録商標)、FireWire(登録商標)ポート、等)、選択的に1つ又は複数の入力装置610(例えば、マウス、キーボード、等)、及び1つ又は複数のコンピュータ読み取り可能媒体612これらの各々の構成要素は、1つ又は複数のバス614(例えば、EISA、PCI、USB、FireWire(登録商標)、NuBus、PDS等)に動作可能に接続される。
【0089】
いくつかの実施では、ディスプレイ装置又は入力装置はなく、かつシステム600は、サンプリング及び符号化(例えば記述子を生成する、等)のみを、ユーザ入力なしにバックグラウンドで、実施する。
【0090】
用語「コンピュータ読み取り可能媒体」は、実行のためにプロセッサ602に命令を提供することに参加する任意の媒体を参照し、限定を伴わずに、不揮発性メディア(例えば光学又は磁石ディスク)、揮発性メディア(例えばメモリ)及び送信媒体を具備する。送信媒体は、限定を伴わずに、同軸ケーブル、銅線、及び光ファイバーを具備する。送信媒体は、また、音響、光、又は無線周波数波の形態をとっても良い。
【0091】
コンピュータ読み取り可能媒体612は、オペレーティングシステム616(例えばMac(登録商標)OS、Windows(登録商標)、Linux(登録商標)等)と、ネットワーク通信モジュール618と、クライアントソフトウェア620と、1つ又は複数のアプリケーション622をさらに具備する。オペレーティングシステム616は、マルチユーザ、マルチプロセス、マルチタスク、マルチスレッド、リアルタイムおよびそれに類するものであっても良い。オペレーティングシステム616は、入力装置610からの入力を認識する、ディスプレイ装置604に出力を送信する、ストレージ装置612上にファイル及びディレクトリを記録する、周辺装置(例えばディスク駆動、プリンタ、画像キャプチャ装置、等)を制御する、及び、1つ又は複数のバス614上の通信量を管理すること、を具備するが、それに限定されない基本的タスクを実施する。
【0092】
ネットワーク通信モジュール618は、ネットワーク接続を確立及び維持うるための種々の構成要素(例えば、TCP/IP、HTTP、イーサネット(登録商標)、USB、FireWire(登録商標)、等)のような通信プロトコルを実施するソフトウェアを具備する。
【0093】
前記クライアントソフトウェア620は、マスパーソナライズアプリケーションのクライアント側を実施するとともに、図1−5に関して説明された種々のクライアント側機能(例えば、環境音特定)を実施するための種々のソフトウェア構成要素を提供しうる。いくつかの実施では、前記クライアントソフトウェア620によって実施されるいくつかの又は全ての処理は、オペレーティングシステム616に統合されても良い。いくつかの実施では、前記処理は、少なくとも部分的には、デジタル電子回路で、又はコンピュータハードウェア、ファームウェア、ソフトウェア、又は任意のそれの組み合わせで実施されても良い。
【0094】
他のアプリケーション624は、任意の他のソフトウェアアプリケーションを具備しても良い。ワードプロセッサ、ブラウザ、Eメール、インスタントメッセージング、メディアプレーヤー、電話通信ソフトウェア、等を具備するが、それに限定されない。
【0095】
広告の検出及び再放送
反復検出
データベースの検索を準備するときに、それは、以前に説明された前記記述子を使用して反復する構成要素を予めフラグ付与することを可能にするのに役立つ。反復構成要素は、反復ショー、広告、部分セグメント(例えばニュースショー内の素材ビデオ)、等を具備するが、それに限定されない。これらのフラグを使用して、反復構成要素は、検索を行うユーザの注意範囲を超える(例えば、最初の10−20ヒットを超える)全ての他の構成要素をプッシュしない仕方で表示されても良い。下に説明される処理700は、前記データベース上の任意の検索クエリに先立って、それらの複製を検出する仕方を提供する。
【0096】
ビデオ広告除去
放送者が、構成要素を検索及び再生されることを可能にすることについて抱く不満の1つは、組み込まれた広告の再放送である。前記放送者の観点からは、この再放送は、逆効果である。それは、当該広告主に無料広告を提供するので、それは、前記広告主が直接に支払いする前記放送の価値を低下させる。古い広告が除去されず、又は新しい広告が放送元にいくつかの再検討を戻す仕方で配置されなければ、前記放送元は、以前の彼らの放送構成要素の再生からは利益を得ない。下に説明される処理700は、おそらくは、他の基準(例えば継続時間、ボリューム、視覚動作、取り囲む空白フレーム等)に関連付けて反復を発見することによって、組み込み広告を検出する仕方を提供する。
【0097】
ビデオ要約
もし、非反復プログラム構成要素の「要約」(即ちより短いバージョン)が必要ならば、それを取得する1つの仕方は、(反復構成要素として検出された)前記広告を除去するとともに、前記広告位置の直前及び直後の構成要素からセグメントを取得することである。放送テレビジョンでは、番組内のこれらの位置は、通常は「teasers」(前記広告の前)、及び「recaps」(前記広告の直後)を具備する。もし要約が、非反復及び反復非広告構成要素の混合を具備するニュース番組から構成されるならば、代表的には、前記反復非広告構成要素は、サウンドバイトに対応する。これらのセグメントは、一般に、前記ニュースストーリーの総合司会者のナレーションよりも少ない情報をもたらすとともに、除去に対する良い候補である。もし要約が、ナレーション番組から構成される(例えば映画又は連続物)ならば、反復サウンドトラックは、代表的には、テーマ音、ムード音楽、又は無音に対応する。再度、これらは、代表的には、要約ビデオから除去しうる良いセグメントである。下に説明された処理700は、これらの反復サウンドトラックが前記要約ビデオから除去されうるようにそれらを検出する仕方を構成する。
【0098】
反復検出処理
図7は、一致する反復検出処理700の一実施形態のフローチャートである。処理700の段階は、いかなる特定の順序で完了される必要もなく、及び、マルチスレッド又は並列処理環境内で、少なくともいくつかの段階が同時に実施されても良い。
【0099】
処理700は、テレビジョン供給、ビデオアップロード、等のようなコンテンツのセットから、音声統計のデータベースを生成することで開始される(702)。例えば、Ke他内で説明されているように、前記データベースは、32ビット/フレーム記述子を具備しても良い。クエリが前記データベースから取得されるとともに、どこで反復が発生しているかを見るために、前記データベースに対して実行される(704)。いくつかの実施では、考えられる聴覚適合の短い一覧を実現するように、音声統計の短いセグメントが、クエリとして取得されるとともに、ハッシュ生成技術(例えば、直接的ハッシュ生成又は局所(locality)感応性(sensitive)ハッシュ生成(LSH))を使用して不一致適合(同一でない適合)に対してチェックを実行されても良い。これらの候補適合は、次いで、例えば、Ke他内で説明されているように、検証処理内で処理される。検証された候補適合に対応するコンテンツは、反復コンテンツとして特定されても良い(706)。
【0100】
最強である前記不一致適合は、前記反復される構成要素の開始及び終了点を発見するために、時間内で前方に及び後方に「成長」される。いくつかの実施では、これは、公知の動的プログラミング技術(例えばViterbi復号化)を使用してなされても良い。前記適合を時間内で前方に拡張するとき、強い「シード」適合内の最後のタイムスライスは、「適合」に設定されるとともに、前記クエリ及び前記適合の間の同一のデータベースオフセットの最初の信頼可能強度未満適合(below−believable−strength match)の最後のタイムスライスは、「適合しない」に設定される。いくつかの実施では、これらの2つの固定点の間内の個別のフレームに対する適合得点は、観測として使用されるとともに、状態遷移内に加えて、「適合」から「不適合」状態への単一の遷移を許可する一次マルコフモデルが使用される。1/Lの適合から非適合への遷移確率は、幾分か任意に設定しても良い。ここで、Lは、これらの2つの固定点の間のフレーム数であり、許容範囲内の遷移位置の最小知識に対応する。遷移確率を選択するもう一つの可能性は、この推定を、以前又は以後の遷移にバイアスするのに、適合強度プロファイルを使用することである。しかしながら、前記適合強度は、この期間内で、観測として既に使用されているので、これは、前記動的プログラミングモデルの複雑度を増加しうるとともに、前記結果を改善しないように思われる。前記セグメント適合を時間後方に成長させるのに同一の処理が使用される(例えば、単に過去/未来を切り替えるとともに同一のアルゴリズムを実行する)。
【0101】
いくつかの実施では、前記音声キューは、よりな適合精度を取得するために、非音響的な情報(例えば視覚キュー)と組み合わされる。例えば、音声適合で発見された適合は、次いで、単純な視覚類似性メトリックを使用することによって検証され(又は2回チェックされ)ても良い。これらのメトリックは、色ヒストグラム(例えば2つの画像内の類似な色の周波数)、端の数及び分布に関する統計、等を具備しても良いが、それに限定されない。これらは、画像全体上だけでコンピュータされる必要はなく、前記画像の部分領域に対して同様に計算され、かつ前記ターゲット画像内の対応する部分領域と比較されても良い。
【0102】
広告を探しているそれらのアプリケーションに対して、反復構成要素検出の結果は、広告を非広告から特徴付けることを目的とするメトリックをもって組み合わせされても良い(712)。広告を探すこれらのアプリケーションは、(全てのタイプの反復構成要素と異なり、)反復構成要素検出結果は、非広告から広告を区別することを目的とするメトリックと組み合わされても良い(712)。これらの区別特性は、継続時間(例えば10/15/30秒スポットが通常である)、ボリューム(例えば、広告は、それを囲む番組構成要素よりもうるさくなる傾向があるので、もし前記反復構成要素が、他方の構成要素よりうるさいならば、それは、広告である可能性がより高い)、視覚動作(例えば、広告は、よりショット間の高速な遷移及びよりショット内部での動作を有する傾向があるので、もし前記反復構成要素が、他方の構成要素よりもフレームのより大きな違いを有するならば、それは、広告である可能性がより高い)、周囲の空白フレーム(局地的に挿入された広告は、通常、全国的な供給によってそのために取ってある枠を完全には埋めないので、30秒毎の間隔での黒色フレーム及び無音に帰結する)のような、広告の慣習に依存しても良い。
【0103】
一度広告が特定されると、前記広告を周囲にする構成要素が解析されるとともに、統計が生成されても良い。例えば、特定の創造的なら(例えば画像、テキスト)を使用して、特定の製品が何回広告されているか、又は特定のセグメントが何回放送されたか、等について、統計を生成しても良い。いくつかの実施では、1つ又は複数の古い広告が、除去又は新しい広告に置換されても良い。広告検出及び置換の追加的な技術は、「Covell, M., Baluja, S., Fink, M., Advertisement Detection and Replacement Using Acoustic and Visual Repetition, IEEE Signal Processing Society, MMSP 2006 International Workshop on Multimedia Signal Processing, October 3−6, 2006, BC Canada」に説明されている。その論文は、引用によって、本明細書にその全体が組み込まれる。
【0104】
いくつかの実施では、前記コンテンツの詳細な構造に関するコンテンツ所有者からの情報(例えば、どこで広告構成要素が挿入されたか、どこでプログラムが反復されるか)は、処理700を増加するとともに、適合精度を増加するのに使用しても良い。いくつかの実施では、反復を決定するのに、音声の代わりにビデオ統計を使用しても良い。他の実施では、ビデオ及び音声統計の組み合わせを使用しても良い。
【0105】
音声断片オークション
いくつかの実施では、広告主は、前記広告主が販売したい製品又はサービスに関連する環境音の存在に関連するオークションに参加しても良い。例えば、複数の広告主は、オークションで、「Seinfeld」に関連付けられた音声断片又は記述子に、その製品又はサービスを関連付ける権利を入札しても良い。前記オークションの勝者は、次いで、対象環境音が現在であるところにはどこでも、前記視聴者のフロントにいくつかの関連する情報(例えばスポンサーリンク)を配置しても良い。いくつかの実施では、広告主は、メタレベル説明を具備する環境音断片上で、入札しても良い。例えば、広告主は、テレビジョン広告に関連付けられた音声(例えば、これは、Ford(登録商標)Explorer(登録商標)TV広告に関連付けられた音声である)、番組セグメント位置上(例えば、この音声は、「Seinfeld」で15分最小発生するとともに、以前のコマーシャルブレイクの後の3分及び次のコマーシャルブレイクの前の1分で発生する)で、又は低レベル音響又は視覚プロパティ(例えば、「背景音楽」、「会話の声」、「爆発音的」、等)で、クロージングキャプション(例えば、前記キャプションは、「Yankeesベースボール」と言う)を入札しうる。
【0106】
いくつかの実施では、1つ又は複数のマスパーソナライズアプリケーションは、前記ユーザが他のWEBサイト(例えばスポンサーリンク)を閲覧するような、他のタスクを実施している間に、背景で実行されても良い。メディア放送に関連する構成要素(例えばテレビジョンコンテンツ)は、もう一つのコンテンツソース(例えばWEBサイトコンテンツ)に関連する構成要素と同一のスポンサーリンクのオークションに参加しても良い。例えば、TV関連広告は、現在のWEBページのコンテンツに対応する広告と混合されても良い。
【0107】
開示された実施に対して種々の修正例を作成しうるとともに、修正例はなお特許請求の範囲の範囲内である。
【符号の説明】
【0108】
100 マスパーソナライズシステム
102 クライアント側インターフェース
104 音声データベースサーバ
106 ソーシャルアプリケーションサーバ
108 ネットワーク
110 音声データベース

【特許請求の範囲】
【請求項1】
コンピュータ実行方法であって、
第1マスメディア放送の第1環境音を識別する第1記述子を受信するステップであって、前記第1環境音は、第1マスメディアシステム(202)によって生成され、かつ、第1環境音検出器(204)によって検出される、ステップと、
第2マスメディア放送の第2環境音を識別する第2記述子を受信するステップであって、前記第2環境音は、第2マスメディアシステム(202)によって生成され、かつ、第2環境音検出器(204)によって検出される、ステップと、
第1マスメディア放送と第2マスメディア放送とが同一であるか否かを決定するため、第1記述子と第2記述子とを比較するステップと、
比較結果に基づきパーソナライズ情報を集約するステップであって、前記パーソナライズ情報はコメントメディアに関連付けられた情報を含む、ステップと、
を含み、
チャットルームが、適合を決定するため、クライアントシステム(102)によって送信されるデータストリームの第1記述子と第2記述子とを直接比較することによって生成されることを特徴とする方法。
【請求項2】
請求項1に記載の方法の全てのステップをデータ処理システムに実行させるコンピュータプログラム。
【請求項3】
請求項1に記載の方法の全てのステップを実行するように構成されたシステム(100)。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2013−9436(P2013−9436A)
【公開日】平成25年1月10日(2013.1.10)
【国際特許分類】
【出願番号】特願2012−223077(P2012−223077)
【出願日】平成24年10月5日(2012.10.5)
【分割の表示】特願2008−543391(P2008−543391)の分割
【原出願日】平成18年11月27日(2006.11.27)
【出願人】(507103802)グーグル・インコーポレーテッド (191)
【Fターム(参考)】