双方向ストリーミングコンテンツ処理方法、装置、及びシステム
【課題】双方向ストリーミングコンテンツ識別及び処理を行う装置、方法、及びシステムを提供する。
【解決手段】本発明に係る方法は、着信オーディオ及び/又はビデオ信号を継続的に受け取るステップと、前記信号を処理して信号成分を提供するステップと、前記信号成分を分類して、規定のイベントクラスに基づいて閾値要素の存在を判断するステップと、前記信号に関連する環境コンテキストによって設定した閾値を前記閾値要素がいつ超えたかを判断することにより、少なくとも1つの遷移を検出するステップと、前記少なくとも1つの遷移の検出時に、前記規定のクラス又は前記閾値を調整するステップと、を含むことを特徴とする。
【解決手段】本発明に係る方法は、着信オーディオ及び/又はビデオ信号を継続的に受け取るステップと、前記信号を処理して信号成分を提供するステップと、前記信号成分を分類して、規定のイベントクラスに基づいて閾値要素の存在を判断するステップと、前記信号に関連する環境コンテキストによって設定した閾値を前記閾値要素がいつ超えたかを判断することにより、少なくとも1つの遷移を検出するステップと、前記少なくとも1つの遷移の検出時に、前記規定のクラス又は前記閾値を調整するステップと、を含むことを特徴とする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、広く双方向ストリーミングコンテンツ処理技術に関し、具体的には、オーディオ及び/又はビデオ信号等の双方向ストリーミングコンテンツ処理方法、装置、及びシステムに関する。
【背景技術】
【0002】
〔著作権表示〕
本特許文書の開示部分は、著作権保護の対象内容を含む。著作権の権利所有者は、合衆国特許商標庁のファイル又は記録内に表される通りに第三者が特許文書又は特許開示を複製することには異議を唱えないが、それ以外は全ての著作権を留保する。以下の表示は、以下で説明するソフトウェア及びデータ、並びに本文書の一部を成す図面内のソフトウェア及びデータに適用される:著作権2011年、Gracenote社、禁無断転載。
【0003】
娯楽及び通信媒体により提供されるような様々な種類のストリーミングコンテンツは、携帯電話、TV及びタブレットを含む携帯及び固定電子装置が消費するために存在する。とりわけ、このコンテンツは、テレビ(TV)、ラジオ、及びインターネットにより提供されるオーディオ及び/又はビデオストリームを含むことができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、この媒体の体験の共有をサポートすべく構築されたインフラストラクチャは、ネットワーク帯域幅、装置の処理能力、及び装置のバッテリ放電速度によって課せられる制約に起因して幾分制限される。
【課題を解決するための手段】
【0005】
本発明に係る方法は、着信オーディオ及び/又はビデオ信号を継続的に受け取るステップと、前記信号を処理して信号成分を提供するステップと、前記信号成分を分類して、規定のイベントクラスに基づいて閾値要素の存在を判断するステップと、前記信号に関連する環境コンテキストによって設定した閾値を前記閾値要素がいつ超えたかを判断することにより、少なくとも1つの遷移を検出するステップと、前記少なくとも1つの遷移の検出時に、前記規定のクラス又は前記閾値を調整するステップと、を含むことを特徴とする。
【0006】
いくつかの実施形態を添付図面の図に限定ではなく一例として示す。
【図面の簡単な説明】
【0007】
【図1】本発明の様々な実施形態による、テレビコマーシャルに関する動作を示す図である。
【図2】本発明の様々な実施形態による、テレビ番組に関する動作を示す図である。
【図3】本発明の様々な実施形態による、テレビ番組及びソーシャルネットワークに関する動作を示す図である。
【図4】本発明の様々な実施形態による方法を示す論理フロー図である。
【図5】本発明の様々な実施形態によって動作するシステム内の情報の流れを示すブロック図である。
【図6】本発明の様々な実施形態による、ストリーミングクライアント装置の構成要素を示すブロック図である。
【図7】本発明の様々な実施形態によって動作するストリーミングクライアント装置を示すブロック図である。
【図8】本発明の様々な実施形態による動作を示す状態機械図である。
【図9】本明細書で説明する方法のいずれか1又はそれ以上を機械に実行させるための命令セットを実行できる例示的なコンピュータシステムの形の機械を示すブロック図である。
【図10】本発明の様々な実施形態による、事前に記録したコンテンツ(事前放送など)を使用する動作を示す図である。
【図11】本発明の様々な実施形態による、異なる時間ウィンドウにわたって内部分類を作成する分類器を示すブロック図である。
【図12】本発明の様々な実施形態による、コンテキスト分類を使用して遷移が生じたことを判断する遷移エンジンを示すブロック図である。
【図13】本発明の様々な実施形態による、特徴スコア及びその他の入力を使用してコンテキストが変化したかどうかを判定するコンテキスト推定器を示すブロック図である。
【図14】本発明の様々な実施形態による、遷移、分類、コンテキスト、及び履歴コンテンツを使用してシステム活動を判断するコンテキストマネージャを示すブロック図である。
【発明を実施するための形態】
【0008】
本明細書では、双方向体験をもたらすストリーミングコンテンツを識別して処理するための例示的な方法及びシステムについて説明する。以下の説明では、実施形態例を完全に理解できるようにするために、説明を目的として数多くの特定の詳細を示す。しかしながら、当業者には、これらの特定の詳細を伴わずに本主題を実施できることが明らかであろう。本明細書で説明するタイプの媒体コンテンツは、提供する例に限定されるものではなく、具体的に説明していないその他のシナリオを含むことも明らかであろう。
【0009】
序文
本明細書で説明する双方向ストリーミング識別及び処理システムは、コンテンツ作成者が、数十億ドル市場においてオーディオ及びビデオ信号認識を介してデータを容易かつ動的にリンクできるようにするものである。オーディオ信号コンテンツの認識、及びこのコンテンツの遷移に基づいて、TV番組、ゲーム、ソーシャルネットワーク及び評価システム、並びに全国的、地域的、及び局所的広告を互いにリンクさせることができる。
【0010】
このようにして、双方向TV、映画、ラジオ、及びその他のメディアサービスを可能にすることができる。従って、この双方向ストリーミング識別及び処理システムは、画面上のオーディオビデオを、他のリッチコンテンツに、オーディオ及びビデオの分類に、及び他のコンテンツ/サイトへのリンクに関連付けることにより、魅力的な双方向TV/映画/ゲーム体験を生み出すことができる。本明細書で説明する機構をソーシャルネットワークに容易に移行させて、あらゆるオーディオ/ビデオ(A/V)ソースが双方向性を強化できるようにすることができる。
【0011】
一般例として考えると、単純なNスクリーンアプリケーション(TVなどの中央又は主装置の「第1の画面」上で楽しめるコンテンツを補足するための情報を提供する、タブレットなどの別個の装置の「第2の画面」上で実行されるアプリケーション)が、あらゆる携帯用電子装置上であらゆる場所で機能する。このNスクリーンアプリケーションを使用して、ユーザが聞いた/見たものを別の装置にリンクし、関連する高品質メタコンテンツを同期させることができる。これにより、TV局のROI(投資収益率)を改善し、別の又は同じ装置上のコンテンツのリアルタイムな双方向性を強化するとともに、コンテンツ(コマーシャル、番組、ゲーム、及びその他のソースなど)に応答するためのプラットフォームを提供することもできる。これにより、相互作用が望まれるコンテンツ内の時間的位置を維持しながら、コンテンツがどこに存在するかを認識できるようになる。
【0012】
図1に、本発明の様々な実施形態による、TVコマーシャル100に関する動作を示す。この種の動作は、オーディオ信号の遷移を識別するために接続されたクライアント分類エンジン(以下で説明)からの技術を使用し、コンテキストルールエンジン(やはり以下で説明)が、双方向性を改善するように遷移への応答を最適化しながら、GNサービスにおける負荷を低減する(「GN」又は「GNサービス」は、本文書において、オーディオ及び/又はビデオコンテンツに関連するフィンガープリント法及び/又はデータ検索などの、Gracenote(登録商標)ネットワークが提供するものと同様又は同一のストリーミングメディア認識サービスを表すために使用する一般的用語である)。
【0013】
多くの実施形態では、コンテンツが、図1に示すTVコマーシャル100などのオーディオ及び/又はビデオと継続的に同期する。様々な実施形態は、既存のトラック提出(すなわち、第三者又は消費者によるコンテンツ項目に関するデータの提出及び/又はあるデータがコンテンツに関連する旨の指示の受け取り)、コンテンツメタデータ摂取、コンテンツ照合サービス(例えば、関連するコンテンツ項目のカバーアートなどのリッチメタデータの配信、又は第三者ストアにリンクするための識別子を可能にするCMSサービス)、GNサービス、並びに標準的な接続及び「ウィジェットアプリ」(例えば、TVなどの消費者装置上で実行されるアプリケーションプログラム)を備えたTVが情報を自動的に識別し、同期させて配信する双方向性の高いアプリケーション及びコンテンツを提供できるようにするウェブアプリケーションインターフェイス(API)を活用しながら、生じたであろうはずのメモリ、バッテリ、プロセッサ、及びネットワークリソースの消費を低減する。
【0014】
図2には、本発明の様々な実施形態による、TV番組200に関する動作を示す。この動作は、番組の双方向性を高め、投票、探索などに使用することができる。接続されたクライアント分類からの技術を使用してオーディオ信号の遷移を検出する、番組のためのアプリケーションを迅速に構築するための潜在性がある。オーディオ及び/又はビデオフィンガープリント法により、図2に示すTV番組200が提供するコンテンツの時刻同期を含む認識が可能になる。
【0015】
図3には、本発明の様々な実施形態による、TV番組200及びソーシャルネットワークアプリケーション300に関する動作を示す。この動作は、ソーシャルネットワーク相互作用を可能にし、ユーザは、タイプしたり、又は情報を提供するために別様に意識的に行動したりすることなく、自分が何を見ているかを示しながら利益を得ることができる。コンテキストルールエンジン(以下で説明)が、ローカル及びネットワーク/リモート認識エンジンを利用することによって分類及び遷移の最適化を可能にする。
【0016】
多くの実施形態に様々な構成要素を含めることができる。表Iに示すように、限定するわけではないが、これらの構成要素は以下を含む。
表I
【0017】
システムの説明
本明細書で説明する技術は、あらゆる装置とともに動作してあらゆる場所で量販導入を促す無摩擦で常に利用可能な双方向マルチスクリーン体験を配信するのに適している。「無摩擦」とは、消費者の立場から、複数のボタンを押したり、又は例えばインターネット検索などの複雑な動作を積極的に行ったりすることなく、接続された選択装置に双方向コンテンツが配信されることを意味する。システム全体が、インターネット接続装置及びオンラインサーバを含む場合、本文書ではN個の装置によって表示されるコンテンツの少なくともいくつかの側面(例えば、コンテンツ自体の一部分、或いはコンテンツに関連付けられたメタデータ)が全ての装置間で透過的に同期されることを意味する「Nスクリーン」コンテンツ体験の使用を支援するために、システムは、1つの装置上のコンテンツが別の装置上に(又は同じ装置上で実行される別のアプリケーション内に)表示されたときに、このコンテンツを認識するように動作しながらバッテリ式装置のリソースを節約する。
【0018】
あらゆる装置との及びあらゆる場所での双方向性を支援するために、第2の(又は、複数の装置の場合にはN番目の)装置は、表示装置又はコンテンツソースに物理的に接続することなくオーディオ信号コンテンツを認識できるべきであり、たとえネットワークに結合されていても、コンテンツソース又は表示装置がコンテンツに関するデータを前記第2の装置と交換するための手段又はプロトコルは存在しない。さらに、携帯電話及びタブレットなどの接続装置は、バッテリ、処理能力が限られ、ネットワーク帯域幅を節約すべきであると同時に、双方向性の高い又は情報量の多いコンテンツを常に流すという末端消費者の要求に答える。これにより、以下の独特な能力を持つシステムが必要となる。
*装置リソースの節約−CPU又は処理能力、バッテリの消費、ネットワーク帯域幅、及びメモリ容量。
*数百万台の装置を経済的に支援する−限られた数のサーバインスタンスでコンテンツを継続的に認識し、及び/又は同期させる。
*個別相互作用−インターネット上でテキスト検索を使用してユーザインタラクションを必要とせずに特定の映画シーンに関する情報を発見するといった、煩わしく負担の多いタスクをエンドユーザに行わせることなく好ましい双方向コンテンツを配信する。
*双方向Nスクリーン体験を可能にする−例えば(必ずしも同時にではなく)異なるTVと相互作用する同じモバイル装置を使用して、あらゆる場所であらゆる装置とともに機能するようにする。双方向Nスクリーンは、同じ接続装置内に存在することもできる(例えば、接続されたTV。この場合、コンテンツをセットトップボックスからこのTVに配信できるが、このコンテンツに関するメタデータをTV上のアプリケーションに通知するための直接通信チャネルは提供されていない)。
*自動コンテンツ同期−エンドユーザが積極的に又は反応的に何かを行うことなく正しい双方向コンテンツを正しい時刻に提示する。
*検出された遷移及び識別されたコンテンツ項目の個別履歴−エンドユーザが利用することができる。
*遷移イベントのタイムリーな配信−双方向性の高いアプリケーションを駆動するアプリケーションへ(このアプリケーションは、例えば、画面に花火又はちらつきを表示することにより、シットコムTV番組内で起こる喝采又は笑いに特定の方法で反応する)。
【0019】
対処すべき課題
装置リソースの節約−従来の方法を使用して接続装置上のオーディオを継続的に認識すると、プロセッサ、ネットワーク、及びメモリリソースが大幅に消費され、装置のバッテリ寿命がさらに限られるようになる。
*プロセッサ−信号処理は、かなりの量のプロセッサの使用を必要とすることがあり、これが、アプリケーションが利用できる他のリソースを制限し、利用可能なバッテリ電力の消費を大きく増やす可能性がある。
*メモリ−メモリ内のデータを大量に近リアルタイムで処理すると、大量のメモリが必要となる可能性があり、時には利用できないこともある。
*ネットワーク−データを継続的に送信及び受信すると、大量のバッテリ電力が消費され、装置の有用な携帯性寿命が大幅に縮む。また、利用料金が、製品提供の実行可能性に影響を与えることもある。
*バッテリ−携帯装置は、そのバッテリ寿命が限られており、長時間(一度に数時間)にわたって実行されるあらゆる機能とのバランスを保つべきである。
【0020】
数百万台もの装置が同時に作動すると、これらが接続しているサーバに障害が生じる。これは、Gacenoteサービス及びネットワークプロバイダのネットワークの両方に当てはまる(ネットワークプロバイダは、アプリケーション、特にコンテンツをストリーミングするアプリケーションがネットワークリソースを節約するように設計されていることを求めることが多くなっている)。帯域幅の消費を意識することは、リソースを節約するという理由でも消費者によって評価されるであろうが、アプリケーションの待ち時間も減らし、これによりアプリケーションの使用体験が向上する。
【0021】
個別相互作用は、コンテキスト(明示的及び非明示的)、言語、場所(国及び地域など)、及び認識に応じたコマーシャルコンテンツに基づいて所望の双方向コンテンツを自動的に配信するためのものである。
【0022】
(ユーザ識別の有無に関わらず)特定の消費者が所有するあらゆる装置とともにあらゆる場所で機能する、双方向消費者体験を容易にするための双方向Nスクリーンアプリケーションが望ましい。
*現在では、複数の装置が相互作用できるようにするために、エンドユーザが個別アカウントを介して参加する複雑なマルチチャネル通信システムが使用されている。この複雑性が、コストを高めて導入を遅らせ、さらにいかなるときにもあらゆる接続装置との双方向性を得るという消費者の能力を制限し得る。
*装置のリンク−様々な実施形態では、アカウントを作成することなく、装置間でデータ及び個別化を匿名で共有することができる。この結果、(オーディオ又はビデオを介して)緩く結合した装置間の双方向性が得られるようになる。これにより、装置のいずれかの履歴と個別化された方法で相互作用する能力も高まり、多くの社会的可能性及び販売促進の可能性が広がる。
*装置の最適化−様々な装置の能力を使用して、オーディオ及びビデオを処理し認識を高める。環境及びコンテキストフィードバックに基づいて信号を動的に調整することで、様々な装置及び環境間の双方向性が促進される。
*環境の最適化−信号処理を使用して、騒音、音量、場所、歪み、及びその他を含む環境因子を補償することができる。
*コンテンツの抽出−いくつかの実施形態は、配信されたコンテンツから認識イベントを分離するように機能する。複数のコンテキスト因子を使用して、一部の又は全部の装置において適切なときに好ましいコンテンツを配信する。
*コンテンツの同期化−いくつかの実施形態では、コンテンツが、緩く結合した形で継続的に及び自動的に装置間に存在する。遷移の履歴を保持して、個別化を支援することができる。
【0023】
図4は、本発明の様々な実施形態による方法を示す論理フロー図400である。この図では、(テレビ又はラジオなどの)オーディオ信号ソースが、恐らくは携帯電話又はタブレットコンピュータなどの消費者機器上で実行される別のアプリケーションに関連する分類器420にオーディオ信号410を供給する。このストリーミングオーディオ信号410を継続的にサンプリングして、分類及び遷移検出などのその他の目的で使用するための、テンポ、ピッチ、リズムなどのオーディオ特性を特定する。
【0024】
分類器が特定できる分類は、数多く存在する。とりわけ、これらの一部として、オーディオストリーム410を、沈黙、音楽、会話、及び騒音として分類することが挙げられる。
【0025】
沈黙は、(選択した下限及び上限閾値の範囲内に留まる音声レベルの高速変化などの)低レベルのオーディオを特徴とする。下限とは低ピーク閾値のことであり、上限とは高ピーク閾値のことである。音楽は、沈黙と同じ因子を特徴とするが、オーディオが音楽的なものであると判断するための特徴として、信号410からとりわけリズム、テンポ、及びピッチが抽出される。会話は、音楽と同じ因子を特徴とするが、テンポ及びリズムは低値と認識され、ピッチのために抽出される特徴に重点が置かれる。騒音は、単調音(正弦波)又は客車の騒音などの、沈黙、音楽、又は会話として見なされない音として分類することができる。必要であれば、オーディオストリーム410を(フィルタ又はイコライザなどの)オーディオプロセッサ414によって処理し、予想される遷移に対してシステムを敏感にすることができる。
【0026】
分類が決定すると、遷移検出器430において遷移の検出が行われる。分類器420によって提供された特性尺度を、(分類器によって提供された)分類自体、及びその瞬間に存在する明示的コンテキスト及び非明示的コンテキストとともにモニタすることにより、遷移の発生を判断することができる。一連の閾値ルールに従い、分類、明示的コンテキスト、及び/又は非明示的コンテキストのうちの少なくとも1つに変化があったと判断することにより、遷移が検出される。
【0027】
明示的コンテキストは、ユーザがデータを入力し又は制御を開始することにより、或いは(ある人がテレビのリモコン上で「私はTVを観ている」と確認すること、又は車のダッシュボード内のヘッドユニットが「カーラジオが「オン」になっている」と示すことなどの)具体的な電子信号の存在により提供される。非明示的コンテキストは、受け取った最新のオーディオ信号セットの特性を調べることにより判断される。
【0028】
例えば、停車中の車の騒音成分は低いが、動いている車の騒音成分は高い。従って、このコンテキストにおける高い騒音成分を使用して、停車と移動の間の遷移を検出することができる。
【0029】
別の例では、会話成分値が低く音楽成分値が高い場合、音楽が再生されていることを意味することができ、会話成分値が高く音楽成分値が低い場合、コマーシャルの時間に入ったこと、又は携帯電話を使用中であることを意味することができる。実行中の携帯電話アプリケーションの明示的コンテキストの指示を使用して違いを判断し、コマーシャル時間への遷移が実際に起きたことを検出することができる。コンテキスト自体の変化を使用して、関心のある遷移を検出することができる。
【0030】
コンテキストに基づく分類には、(テレビ番組からコマーシャルへの変化などの)オーディオ信号の変化の特徴として重み付けすることができる。(バーの店中などの)明示的コンテキスト及びこれらが交差したときに認識される特徴の値(大きな騒音成分など)により、複数の閾値を設定及び解除することができる。特徴の尺度の変化を時間とともに追跡することができる。(分類器によって設定した)選択した時間ウィンドウ内のこれらの尺度の変化を遷移として識別することもできる。従って、コンテンツの分類、コンテキスト、及び以前の認識に応じた閾値の変化が生じる場合がある。
【0031】
コンテキストマネージャは、携帯装置内で動作する、又はほとんどの実施形態ではネットワーク上で動作する識別エンジン424と通信することにより、認識されるオーディオストリーム内の時間的位置を特定することができる。分類ウィンドウは、環境、装置、及びコンテンツ(「コンテキスト」)の特徴を反映するように変化することができ、また分類ウィンドウは、16ミリ秒、100ミリ秒、750ミリ秒、1秒、又はそれより長い範囲にわたって開くことができる。
【0032】
ウィンドウ内で検出された遷移が多すぎる場合には、ウィンドウ時間を短くすることができる。同様に、検出された遷移が少なすぎる場合には、ウィンドウ時間を長くすることができる。いくつかの実施形態では、ウィンドウを「ブロック」と呼ぶ。従って、ウィンドウの長さを、(双方向番組の間などの)特定の時間基準にわたって分類を行うように設定することができる。このことは、番組内の特定の位置(例えば、番組終了間際の拍手)とともに遷移が識別される場合に有用となり得る。例えば、ユーザインターフェイスなどの呼出しアプリケーションに、番組内の特定の時点に達したことを知らせることができる。特定のテレビ番組に関連する対話式玩具に、オーディオ信号を「拍手」として分類し、この玩具に関連する番組が進行中の場合に拍手するように命じるなどのように、適当な時間に特定の遷移が検出されたときに装置434の動作を開始させることもできる。
【0033】
コンテキストマネージャ440は、遷移閾値及び一般的分類のパラメータをオンザフライで調整することができる。従って、500ミリ秒又は250ミリ秒ではなく、750ミリ秒から1000ミリ秒へ向かうウィンドウを使用することにより、(番組から)コマーシャルへの遷移としての沈黙期間をより正確にモニタすることができる。コンテキストマネージャ440は、オーディオ信号分類のより正確な識別を得るために追加情報(追加のモニタリングウィンドウを使用することによって戻されるデータ)を要求することができる。
【0034】
図5は、本発明の様々な実施形態によって動作するシステム500内の情報の流れを示すブロック図である。この図では、分類器420、遷移(変化/傾向)検出器430、及びコンテキストマネージャ440が、より包括的な双方向ストリーミング識別及び処理システム500にどのようにして適合するかを理解することができる。
【0035】
局所的分類モデルデータベース506は、消費者装置を含むことができるローカルメディアソース512によってアクセスを受ける。データベース506は、測定された(笑い声、拍手などの)所与のオーディオストリームセグメントのパラメータに関連するスコア値セットを含む。これらのスコアを表の形で提供することができる。分類器420は、これらのスコアを使用して、オーディオストリーム内の現在の情報を分類する支援を行うことができる。ネットワークサーバ520を使用して分類を行うこともできる。
【0036】
局所的変化/トレンドパラメータデータベース526は、メディアソース512上に維持しておくことができる。その後、このデータベースを、(変化/トレンドパラメータサーバ534などの)ネットワーク支援によって更新及び改正することができる。場合によっては、データベース506は、(サーバ520などの)ネットワークサーバ上のみに保持される。
【0037】
識別エンジン424は、作成された署名をオーディオ信号特性から識別する。この署名をローカルに、又はネットワークを介して(例えば、識別サーバ524を使用して)基準と比較することにより、識別コード(及び、恐らくはオーディオストリーム内の時間的位置)を特定できるようになる。このコードを使用して、関連するコンテンツ(例えば、オーディオストリームにアルバムが関連する場合、このアルバムを値引きして販売する申し出など)を要求して受け取ることができる。
【0038】
コンテキストサーバ550は、コンテキストマネージャの決定を修正するための追加の及び調整したルールを提供することができる。このことは、コンテンツが時間とともに変化するときに有用となることがあり、これにより(例えば、同じ番組又は楽曲に関する複数のクエリがほぼ同時に到着したときなどに)ネットワークリソースが保護されるようになる。従って、(例えば、30秒の間隔内に特定のコマーシャルに関する遷移が10回あり、これがネットワークに大きな負担をかけるような)識別動作のパターンをコンテキストサーバ550によって識別することができ、遷移の検出回数が減るようにルールの調整を行うことができる。これらの調整により、ネットワーク帯域幅、並びに携帯式消費者装置内のバッテリの使用が保護される。
【0039】
ルールに基づくコンテキスト分類の遷移−コンテキスト、分類、遷移検出、及びデジタルフィンガープリント法をネットワーク支援ルールとともに使用してコンテンツを識別し、メタデータ、画像、及び基準フィンガープリントから得られるその他のデータが、接続ネットワーク及び/又はローカルな埋め込み基準リポジトリを介して戻されるようにすることができる。
【0040】
ルールに基づくコンテキスト分類の遷移(RBCCT)は、様々な装置、環境、コンテンツ、ネットワーク設定、及びユーザ設定に関する信号認識の、支援されていないエンドユーザによる動的最適化を可能にする。例えば、RBCCTを使用して、アプリケーションが、コンテキストを「TV」であると明示的に(又はデフォルト設定を通じて)示し、ネットワーク駆動によるフィンガープリントストリーミングを使用して信号(オーディオ又はビデオ)を認識して、メタデータ/コンテンツを迅速に同期化して戻せるようにすることができる。この方法は、この明示的に示されたコンテキスト及びルールエンジンを使用して、(オーディオ信号などの)信号ソースの遷移を高い精度でコンテキストから検出できるようにする。さらに、コンテキスト分類及び遷移検出のルールをネットワーク駆動式として、認識及び関連性を継続的に改善することができる。この方法を、(TV番組などの)外部コンテンツ内の位置及びタイミングに関するデータと組み合わせることで、自動的な同期された認識が可能になる。これらの技術は、緩く接続された装置における継続的な信号の受信を可能にする一方で、数百万台の同時に動作する装置の、エンドユーザインタラクションを全く伴わずに(TV、ラジオなどの)外部コンテンツと高精度に同期するリソースを節約するために有用である。
【0041】
オーディオ及びビデオストリーム内の分類及び変化の検出とともにコンテキストを使用して、コンテンツを識別して継続的に同期させることができる。コンテキストは、明示的コンテンツ及び非明示的コンテンツで構成される。明示的コンテキストは、エンドユーザ又は外部アプリケーションにより設定されるものである。非明示的コンテキストは、信号を分析して信号の特性を判定することから導出されるものである。明示的コンテキスト判定と非明示的コンテキスト判定の組み合わせを使用することにより、より正確な遷移の識別が可能になる。
【0042】
明示的コンテキストは、双方向コンテンツ及びリソース消費(TV、ラジオなど)のより微細化された制御を可能にする階層を含むことができる。「TV」及び「車」の明示的親コンテキストの階層の単純化した例を、数値識別子とともに表IIに示す。
表II
【0043】
追加の明示的コンテキストは、とりわけ、言語、国、及び(複数の一致から1つの一致を選択するための)コマーシャル識別子を含むことができる。
【0044】
非明示的コンテキストは、コンテンツ信号のローカル因子及び特徴を使用して特定される。非明示的コンテキストの例としては、とりわけ、時間、場所、装置タイプ、信号分類(沈黙、ムード、テンポ、ピッチ、エネルギー、オーディオ及び/又はビデオから抽出される複数の特徴など)が挙げられる。非明示的コンテキストを、ネットワーク情報に基づいて特定することもできる。これにより、最も関連性の高い双方向コンテンツの配信を自動的に改善できるようになる。非明示的コンテキストは、ランタイム、ネットワーク支援による改善により、双方向コンテンツ及びリソース消費のより微細化された制御を可能にする階層の形で存在することもできる。表IIIは、非明示的親コンテキストを「TV」及び「CAR(車)」とする非明示的コンテキスト階層の例である。この場合、CAR(車)、CAR RADIO(カーラジオ)という明示的コンテキストを明示的に示す信号をカーラジオから受信する代わりに、消費者の携帯装置が、車両ナビゲーション音声を受信したと認識することができ、これによりCAR(車)、CAR RADIO(カーラジオ)というコンテキストが非明示的に特定される。
表III
【0045】
コンテキスト管理は、効果的で拡張性のある適応的プラットフォームを提供するために有用である。ユーザ介入を伴わないマルチ装置環境では、配信されたコンテンツを、同じ又は別の装置上に表示されるオーディオ及びビデオに同期させることは困難である。エンドユーザの動作又は複雑な制御チャネルシステムを伴わずに同期する一方で、双方向性の高いアプリケーション体験を可能にするためのアプリケーションに遷移イベントを提供するシステムでは、大量導入を促進することができる。このようなシステムのいくつかの特徴として、以下を挙げることができる。
*履歴管理−同じ又は他の装置上の双方向体験を関連付けて再生する能力。
*メタデータ及び資産をキャッシュする認識エンジン−コンテンツが変化したかどうかを判定する目的でクエリ及び応答を分析するためのもの。
*スロットリング−クエリの数をサイズ、時間及び周波数ごとに制限する。サービスネットワークとやりとりして精度を高め、リソースの消費を低減する。
*アプリケーション通知−呼出しアプリケーションにいつ何を配信するかを制御し、単純化したエンドユーザ体験を提供するために有用である。この特徴は、第三のソースからコンテンツを検索する能力を含む。
*遷移オーバーライド−履歴管理、アプリケーション通知、明示的設定、非明示的設定、及び外部ソースを使用して行うことができる。
*適応的フィンガープリントストリーミング−認識エンジンにサブフィンガープリントを迅速に送信するように機能する。(単複の)コンテキスト、ネットワーク情報、遷移などを使用して、どれほどのフィンガープリントを作成して送信するかを制御することができる。認識を戻すことにより、フィンガープリントの生成が停止される。この動作は、ローカル及びリモート識別(フィンガープリント採取)エンジンの使用を含む。いくつかの実施形態は、フィンガープリントに基づく認識を動的に構成する方法を含み、この方法は、分類出力情報を使用してフィンガープリントアルゴリズムを選択するステップを含む。これは、アルゴリズムによって、騒がしい環境でより良く機能するものもあれば、静かな環境でより良く機能するものもあり、大きなフィンガープリントを提供するものもあれば、小さなフィンガープリントを提供する(数多くのフィンガープリントを処理する場合に有用となり得る)ものもあるからである。
*社会的個別化−コンテキスト(明示的及び非明示的)、言語、場所(国及び地域)に基づいて好ましい双方向コンテンツを、並びにコンテンツ及び関連する遷移の認識に応答してコマーシャルコンテンツを自動的に配信することを含む。
*オーディオトーンを介したペアリング−装置、グループ、及びコミュニティをリンクするために、フィンガープリント法を使用して時間的オーディオトーンを一意に識別することができる。1つの装置により再生されるオーディオを、その装置に一意に関連するトーンとして個別化することができる。
*クラウドベースのペアリング−一方の装置が、複数の装置、ユーザ、及び/又はグループの装置であるもう一方の「対になった」装置の認識履歴を確認できるようにする。これを使用して、1つの装置からの広告にもう一方の装置がアクセスできるようにし、多くの社会的相互作用を促進する。
【0046】
従って、多くの実施形態を実現することができる。以下、これらのいくつかを簡潔に示す。
*デジタルフィンガープリントでの分類を使用して、オーディオストリーム及び/又はファイルの一部を識別する。
*オーディオ信号の変化(「遷移」)検出方法を使用して、フィンガープリントアルゴリズムを選択する。
*特定されたコンテキストを使用して、オーディオ及びビデオストリームの分類及び変化検出を支援する。
*分類、遷移検出、及びデジタルフィンガープリント法の組み合わせを使用して、接続ネットワーク及び/又はローカルな組み込み基準リポジトリを介して基準フィンガープリントからのメタデータ、画像、及びその他のデータを戻す。
【0047】
ストリーミングクライアント設計
図6は、本発明の様々な実施形態による、ストリーミングクライアント装置600の構成要素を示すブロック図である。装置600の実施形態のように、ストリーミングクライアントは、(インターネットに無線で接続されたような)接続装置が、オーディオ(及びビデオ)遷移を継続的に分類し、標準的MID−ストリーム、リンク、カバーアート、画像、及びウェブAPI(ブラウザなど)といったGracenote(登録商標)の提供物のようなフィンガープリント法及び/又は媒体認識技術を使用してコンテンツを同期させることができるようにする。この機能は、双方向TVから、ゲーム投票、ソーシャルネットワーク、各付けに至るまでの多くの使用事例を支援する。ストリーミングクライアント装置600の論理的構成要素は、ハードウェアモジュールとして、ソフトウェアモジュールとして、或いはこれらの組み合わせとして実現することができる。以下、これらのモジュールについて説明する。
【0048】
分類器610は、オーディオ(及び/又はビデオ)を分析し、信頼区間を含む複数の分類を定義する。この例として、沈黙、騒音、会話、ハミング、及び歌が挙げられる。この図には、オーディオ及び/又はビデオ信号のソース装置を示していないが、これらは当業者に周知であり、既に説明済みである(TVオーディオなど)。
【0049】
分類器610のオーディオプロセッサ要素は、動的同等化を行って、特定の周波数を強調又は除去し、オーディオ信号内のスパイクを無くす。コンテキスト処理も行う。オーディオプロセッサは、ルールエンジンを含む分類マネージャからの出力を使用して、PCMオーディオなどの連続オーディオを受け取り、いつコンテンツのフィンガープリントを採取すべきか、及びGNサービスにクエリを送信すべきかを判断する。複数の分類を使用して、(オーディオ内の、沈黙から会話への「遷移」などの)特定のオーディオの変化がいつ生じたかを判断する。これらの変化は、とりわけ、ピッチ、ムード、テンポ、沈黙、騒音及び/又はリズムの増加又は減少を含むことができる。
【0050】
デジタルフィンガープリントを介した認識を改善するために、動的同等化を使用して、分類器610内のオーディオを事前処理することができる。この機能は、異なる装置特性、騒がしい環境、歪んだオーディオ、及び低いエネルギーを補償する役に立つ。任意に、着信するオーディオ信号処理をオン又はオフにすることができる。サンプルは、毎秒ではなく数分ごとに、又は1秒間に複数回取ることができる。これは、例えば明示的コンテキストが「TV」を含み、このTV機器がオフになっているときに行うことができる。
【0051】
遷移エンジン620は遷移検出器を含み、この遷移検出器が、分類器610から分類尺度及びオーディオを受け取り、遷移が検出されたときには、着信信号の尺度及び明示的/非明示的コンテキストに基づいてこの遷移を割り当てる。この結果が、遷移マネージャに提供される。
【0052】
遷移を使用して、例えば、テレビ番組とそのコマーシャルを分離することができる。さらに、この動作を使用して、コマーシャルコンテンツのフィンガープリントをリアルタイムで生成して記憶し、認識フィンガープリントデータベースを近リアルタイムで更新することができる(例えば、コマーシャル及びニュースコンテンツを、事前に記録したコンテンツに依拠することなく、最初の放送後すぐに認識することができる)。
【0053】
遷移エンジン620のビデオプロセッサは、ビデオ遷移を検出するために使用される。この構成要素は、着信オーディオ信号に対応するビデオ信号を受け取り、ビデオフィンガープリントパターンを使用してコンテンツの遷移を識別する支援を行えるようにする。
【0054】
遷移エンジン620内の動的コンテキストモジュールは、コンテキストマネージャ630から情報を受け取って、遷移検出器要素が遷移を検出するために使用する閾値及び尺度を調整する。従って、異なるコンテキストを特定することができ、これによってさらに異なる遷移が検出されるようになる。
【0055】
遷移エンジン620内の遷移マネージャモジュールは、エンジン620のその他の構成要素を管理し、特定されたコンテキストを使用してこれらのその他の構成要素の動作を調整する。
【0056】
コンテキストマネージャ630は、装置600を(TVなどの)オーディオ/ビデオソースに動的に同期させる。入力ストリームからの複数のパラメータ及びコンテンツへの応答を使用して、追加のクエリが必要かどうか、及び応答オブジェクトが送信されたかどうかを判定する。コンテキストマネージャ630は、何のフィンガープリントを採取するか、いつフィンガープリントを採取するか、及びどの識別エンジン650を使用するか、及びいつ識別データをローカルにキャッシュすべきかを判断する。
【0057】
コンテキストマネージャ630内のコンテキストイベントエンジンは、遷移エンジン620から受け取った遷移イベント情報を識別エンジン650に配信すべきか、それともアプリケーションに配信すべきかをコンテキストに基づいて判断する。
【0058】
コンテキストマネージャ630内の設定マネージャは、バッテリ節約の重要度、又は帯域幅節約の重要度などの(例えば、アプリケーション及び/又はエンドユーザが行うことができる)明示的な動作設定を、販売情報の配信などの他の優先度の範囲内で可能にする。
【0059】
コンテキストマネージャ630内のペアリングマネージャは、コンテンツマネージャ670内のモジュールと通信するように機能する。このペアリングマネージャは、装置を対にすることにより、一方の装置が、もう一方の装置の認識履歴の全てにアクセス(を共有)できるようにすることができる。
【0060】
例えば、ペアリングを許可にするための要求を提出した送信側装置が音を使用して、限られた時間にわたる署名を生成することができる。この音を送信側装置が再生し、受信側装置がこれを受け取ってペアリング要求と結び付ける。受信側装置は、さらにこの音をサーバへ送信する。その後、各装置(送信側及び受信側)の基準オーディオの署名をサーバにおいて比較し、送信側装置からのオーディオ送信及び受信側装置からのペアリング要求を、60秒などの指定した時間ウィンドウ内でサーバにおいて受け取ると仮定する。このペアリング処理をサーバで行って、一群の対になった携帯電話機に基づくゲームプレイ動作を提供することができる。
【0061】
このようにして、一方の装置にとって一意である個別化された音声署名を、今やもう一方の装置が認識することができる。また、全ての認識動作を2つの装置(送信側及び受信側)間で共有して、一方の装置上での認識イベントを他方の装置へ送信できるようにすることもできる。共有は、既知のソースから(例えば、ログインしたユーザから)行っても、或いは匿名で行ってもよい。換言すれば、送信側装置又は受信側装置のいずれかによるペアリング動作は匿名で行うことができ、ログインを使用する必要はない。
【0062】
ファイル識別モジュール640は、複数のデコーダを含む。これらの、AAC(アドバンスドオーディオ符号化)、OGG(Oggオープンコンテナフォーマット)、及びMP3(ムービングピクチャエキスパートグループ(MPEG)−1又はMPEG−2オーディオ層III)デコーダなどのデコーダは、当業者が認識している通りに動作する。これらのデコーダは、異なるフォーマットのファイルを復号してPCMオーディオを生成するために使用される。プラグインデコーダを使用して、専用フォーマットをPCMに復号することができる。
【0063】
ファイル識別モジュール640内の応答ハンドラは、復号処理、ファイル入力、及びエラーを管理する。この応答ハンドラは、特定の時点にどのデコーダを使用すべきかに関する決定を行うこともできる。
【0064】
署名モジュールは、署名(フィンガープリントなど)のローカルキャッシュを提供する。ローカル署名キャッシュは、内部的に及び/又は第三者により開発された署名を含む。これらを識別エンジン650が使用して、モニタしたオーディオ又はビデオストリーム内の様々な位置に迅速に再同期させることができる。
【0065】
識別エンジンモジュール650は、署名を生成して、これらをコンテキストマネージャ630及びその他のモジュールに配信する。様々なアルゴリズム(ローカルなフィリップフィンガープリント法、ローカルなサードパーティフィンガープリント法、ネットワークサーバを介したリモートフィンガープリント法など)を使用して、PCMオーディオを受け取り、署名出力を生成することができる。識別エンジンモジュール650内の応答ハンドラは、フィンガープリント署名の生成におけるエラーを管理するように機能する。応答ハンドラは、必要時に追加の署名を要求することができる。
【0066】
プロトコルハンドラモジュール660は、識別、ペアリング、及びリッチメタデータ及び画像の要求を送信する。登録モジュールは、装置の登録を処理する。ローカル認証には、認証モジュールを使用することができる。ペアリングモジュールを使用して、装置を対にするための要求を送信/受信することができる。プロトコルハンドラモジュール660内の応答ハンドラモジュールは、ネットワークがこれ以上動作しない場合などの、通信のエラーを管理するように機能する。応答ハンドラモジュールは、ネットワークを識別して、システムの動作(ムービートレーラが再生されるかどうかなど)を判断することもできる。クエリエンコーダ/デコーダモジュールは、通信を適当なプロトコルにフォーマットするように機能する。
【0067】
コンテンツマネージャモジュール670は、ローカルにキャッシュできるコンテンツの送信及び受信、並びにネットワークからのプッシュ通知を管理する。ローカル履歴、並びに一群の対になった装置に関連する履歴をキャッシュすることができる。コンテンツマネージャモジュール670内のリンクマネージャは、例えばオーディオ又はビデオ信号内で行われた提示の一部として認識できる製品へのリンクを検索するために使用される。リンクマネージャは、キャッシュすべきローカルコンテンツに特化した要求を、実行中のアプリケーション又は認識されたコンテンツに基づいて、戻すことができるリンクの識別を介してネットワークから検索する。
【0068】
図7は、本発明の様々な実施形態によって動作するストリーミングクライアント装置700のブロック図である。この図には、図6に示すシステム機能の異なる構成を示している。概念的な構成及び結合はわずかに異なるが、個々の構成要素の動作は同じである。
【0069】
従って、いくつかの実施形態は、所与のコンテキスト内で遷移が起きたときにコンテンツ内の関心のある遷移を認識する光学又はオーディオセンサの少なくとも一方を含み、関連コンテンツを表示/再生することによって応答するモバイル装置を含む。いくつかの実施形態は、実行時にモバイル装置にこのように動作するように指示する命令を記憶する媒体を含む。
【0070】
いくつかの実施形態では、ネットワークに接続された携帯電話又はコンピュータタブレットが、例えば、マイク又は光学検出器を介して受け取ったオーディオ及び/又はビデオコンテンツに同期する能力を有する。従って、ラジオ又はTVにより提供されるコンテンツを認識して、俳優、アーティスト、関連映画、及びメタデータとしてのその他の情報を特定することができる。URL(ユニバーサルリソースロケータ)を含むプロモーションへのリンクにより、関連商品を購入する機会を与えることができる。
【0071】
このオーディオ又はビデオ入力に基づいて自動的かつ継続的にコンテンツに同期する機能は、多くの利点をもたらす。例えば、個人の住宅に携帯電話機を持ち込み、これを使用して、サッカーの試合のハーフタイムにコマーシャルが流れているという事実を認識することができる。特定のコマーシャルの認識に基づいて、この携帯用消費者装置に、製品を購入又は撮影するという選択肢を戻すことができる。いくつかの実施形態では、特定のコマーシャルの変形が認識される。これにより、広告主が、特定のコマーシャルの個々の変形の獲得率を特定できるようになる。
【0072】
従って、消費者に、より魅力的な体験が提供される。例えば、TVで特定の映画が再生されている場合、俳優/女優に関する情報を表示することができる。恐らくは、見ている映画に類似する他の映画のタイトルを表示することもできる。類似の映画を借りる又は購入する機会を提供することもできる。
【0073】
いくつかの実施形態では、オーディオのフィンガープリントが採取される。フィンガープリント又は署名が生成されると、追加のデータを検索することができる。例えば、子供のテレビ番組において、コマーシャルへの遷移を検出して双方向性を提供することができる。コンテキストに応じて、異なる関心のある遷移を定義することができる。これらの遷移を使用して、アプリケーションの起動、関連する主題の表示などの様々な動作を開始することができる。
【0074】
遷移は、コンテンツ内の変化によって識別することができる。この変化は、(番組中にコマーシャルが始まったときなどの)沈黙期間であってもよい。しかしながら、その他の変化も認識に役に立つ。これらの変化は、ピッチ、エネルギーの変化、音楽と会話の発生割合、及びリズムの変化を含む。コンテキストマネージャは、遷移が起きたかどうかをコンテキストに基づいて判断する。これにより、例えば、テレビ番組内のより強烈なシーンとは対照的なものとして、コマーシャルへの遷移が行われたかどうかを判断できるようになる。
【0075】
以前の解決策は、コンテンツに組み込まれた電子透かしを実践して、追加の関連する主題の表示を開始していた。しかしながら、このような方法は同期の問題を生じやすい。
【0076】
実行可能な代替案を提供するために、いくつかの実施形態では、環境コンテキストにより定められた特徴を使用して、周囲環境からの音を継続的にモニタし、イベントを分類して遷移を検出する。かなりの量の電力を節約できる1つの方法として、特定の種類の遷移が起きない限り、関心のある遷移に有用な付加物を与えるフィンガープリントを抽出しないようにすることが挙げられる。
【0077】
コンテキストマネージャは、遷移をどれほど積極的に検索するかを決定することもできる。例えば、TVで見る映画が2時間の特別番組であることが分かっている場合、ある種の遷移にのみ高い重みを与える。このようにして、検出される遷移数を減少させる。一方、バー内で、多くの音源が存在する場合、同等化を選択的に使用してオーディオストリームの一部を排除することができる。すなわち、オーディオストリームに、選択した周波数範囲にわたって意図的に穴を開ける。次に、この穴の開いたオーディオストリームが、遷移を認識する基礎として役立つことができる。これにより、関心のある遷移を特定するために抽出される特徴が少なくなるので、装置の動作電力を節約することができる。従って、選択的な動作を開始するための最終付加物として使用されるフィンガープリントを用いて、コンテキストに基づいて遷移を分類することができる。
【0078】
分類を使用して、クライアント装置を動的に構成することもできる。クライアントを構成するために、信号内の項目などの特徴を認識することができる。クライアント装置は、携帯電話、タブレットコンピュータ、又は他の何らかの電子コンピュータ装置を含むことができる。信号内の複数のパラメータを使用して、騒音が多くたくさんの人が喋っているバーからカップルが映画を見ている静かな家にまで及ぶ環境での使用に適応させるために、遷移検出に分類を使用することができる。別の環境例として、ラジオが鳴っている車の環境がある。道路の騒音、ラジオのチャネル変更、及び行き交うアナウンサーの声が存在する。窓を開けている場合は、さらなる道路の騒音が存在する。
【0079】
従って、いくつかの実施形態は、モバイル装置に関連するコンテキストを識別し、このコンテキストが変化したときに関心のある遷移を検出するようにモバイル装置を動的に構成する方法を含むことができる。この方法の一部として、或いはモバイル装置に関連する1つよりも多くのコンテキストを識別し、記憶したポリシーに基づいて、構成のための/遷移を識別するためのコンテキストの1つを選択する別個の方法として、競合する関心を処理することができる。
【0080】
トレーニングモジュールは、信号処理ユニットを動的にトレーニング及び構成することができる。処理ユニットを構成するために、特定のコンテキスト内の分類及び遷移検出を使用することもできる。このモジュールは、TVが動いていて複数の人々が喋っているバー、又は複数の人がTVを見ながら喋っているホームパーティなどの、動作が困難な環境において信号を処理する役に立つ。
【0081】
いくつかの実施形態では、コンテキスト判定及び遷移検出を使用することにより、音声認識装置及びソフトウェアを支援する。コンテキスト判定及び遷移検出により、ソフトウェアアプリケーションを支援することもできる。例えば、TV番組とともに機能するように設計されたソフトウェアアプリケーションを、音楽を無視するように調整することができる。騒がしい会話をフィルタ除去して無視することができる。この動作は全て、コンテキストに基づくことができる。いくつかの実施形態では、受け取ったオーディオ信号間の時間変位が、近くのソースと遠くのソースを区別する役に立つことができる。
【0082】
図8は、本発明の様々な実施形態による動作を示す状態機械図800である。コンテキストは、信号の事前処理、閾値化を支援することができ、このコンテキストを使用して、オーディオ又はビデオデータストリーム、又はこれらの両方であってもよい入力データを分類することができる。検出された遷移が示されるだけでなく、遷移の特徴も与えられる。このことを状態機械図800で確認することができ、この状態機械図800は、いくつかの実施形態では、双方向ストリーミング識別システム(ISIS)エンジンの動作を記述することができる。
【0083】
ブロック810において、オーディオ信号の聴取を開始する。決定木を使用して、聴取動作がいつ終了又は中止されたかを判定することができる。ブロック820において、コンテキストに基づいて信号を事前処理する。ブロック830において、受け取った信号を使用して、受け取った情報を分類器を使用して分類する。ブロック820における分類を支援するために、GNサービスを使用することができる。しかしながら、サーバ呼出しは不要であり、この処理部分はクライアント上でも行うことができる。分類エンジンを、騒がしい環境、静かな環境において、及び異なる種類のコンテンツで動作するように構成し、このように動的に調整することができる。分類結果内に遷移が検出された場合、フィンガープリント法及び/又はデータ検索などのGNサービスを使用することができる。
【0084】
別のドライバは、ブロック860においてアプリケーションへ情報を配信(例えば、トリガ)することである。これらは、コンテンツ内で話している人々の遷移などの遷移がブロック840において検出されたときに行うことができる。
【0085】
遷移の種類によっては、コンテンツが変化していないという理由で別の遷移を検出できるようにならないものもある。例えば、音楽又はTV番組が、車の運転、或いは誰かがゲーム番組又はシットコム内で拍手していることを示すことがあり、拍手が起きたときにアプリケーションが特定の動作を行う。いずれの場合にも、オーディオ/ビデオコンテンツは依然として番組の一部であり、1つの形のコンテンツから(コマーシャルなどの)別の形のコンテンツへの遷移は存在しないが、双方向アプリケーションの挙動は、現在のコンテンツ内で生じる遷移に応答して変化する。
【0086】
ブロック850では、以前の状況からの入力を使用して、(フィンガープリント法及び/又はデータ検索などの)GNサービスとともに、使用された以前の識別エンジン、及びこれらの構成要素に基づいてアプリケーションへ送信すべきトリガを決定するためのその他の入力、及び特定されたコンテキストを評価する。
【0087】
ネットワークを使用して検索を行うこともある。例えば、ISISエンジンが動作中であってTV番組がオーディオ入力を提供する場合、TV番組の一部を成す群衆の騒音が大きく増加したことを通じて遷移を検出することができる。これに応じて、アプリケーションは、画面上に花火を表示することができる。別の例では、コマーシャルの一部として掃除機の電源が入った場合、この特定のブランドのインターネット販売サイトへのリンクを視聴者に提示することができる。信号の特性を分類することにより、この多くのアプリケーションの使用を可能にするコンテキストに関してムードを設定することができる。
【0088】
いくつかの実施形態では、ISISエンジンが、再生が一時停止されていること、又は視聴者が拍手していることを検出することができる。これらのコンテキストヒントを検出して使用し、視聴者とのさらなる対話のための特定の動作を有効にすることができる。従って、ISISエンジンは、TVのオーディオ及びビデオコンテンツ、並びにTVを取り巻く環境内の音(拍手など)をモニタし検出して、双方向エンターテイメントを提供することができる。特定の実施形態は、何を検出したか、及び何を分類したかによって異なることができる。当業者には、騒音、会話、及び音楽コンテンツの認識及び分類は周知である。
【0089】
従って、遷移を使用して動作をトリガすることができる。分類器の状態の変化は、恐らくは1又はそれ以上のフィンガープリントを局所的に又は遠隔的に使用して、媒体認識サービスの開始をトリガすることができる。このトリガを使用して、視聴者の近くに存在する(携帯電話などの)ハンドヘルド装置上に(花火などの)視覚効果又は他の何らかの動作を提示することができる。
【0090】
別のトリガされる動作は、音楽がコンテキストである場合、ローカルなフィンガープリントを採取して、ハンドヘルド装置内にローカルなフィンガープリントが記憶されている5つのTVシリーズのうちの1つのテーマ曲であるかどうかを判定することであってもよい。他の多くの実施形態が可能である。
【0091】
いくつかの実施形態では、ローカル基準とネットワークに基づく比較の組み合わせを使用する。この比較に基づいて決定を行うことができる。コンテキストがローカルに認識されない場合、これは関心のある遷移を表していることもある。ブロック850においてこれを制御する。(携帯電話などの)ユーザ装置上でアプリケーションを実行して特定の種類のコンテンツを認識することができ、これらのコンテンツが発見されなかった場合、特定の意味を有していることがある。場合によっては、所与のTV番組内で広告主が自社のコマーシャルを検索していることもあり、或いはネットワークオペレータがTV番組内の特定のコンテンツを検索していることもあり、−これらがローカルに発生しなかった場合、番組内で別の動作が行われていることを意味することができる。
【0092】
いくつかの実施形態では、動的分類を使用する。すなわち、コンテキストにより、分類器をフィードバックループの一部として調整することができる。ブロック830において分類器が提供されると、ブロック840において遷移が検出され、コンテキストマネージャは、発生した関心のある変化を特定し、ブロック860において動作をトリガすることができる。この動作によって追加コンテキストが提供され、これにより分類器がフィードバック機構として調整されるようになる。この機構は、コンテキストによるオーディオの事前処理、分類器、遷移の範囲、コンテキストマネージャによる動作、トレーナ分類器による動作、及び分類器の動作に戻ることを含む。
【0093】
従って、コンテキストは、特定のクラスを有効又は無効にすることによって分類器の命令に影響を与えることができるが、遷移基準、すなわち遷移を検出するために使用する閾値にも影響を与えることができる。例えば、遷移検出器が、「これは映画である」と示すことがあり、映画には音楽よりも多くの会話が含まれることが分かっており、従って分類器は、実際には喋っていないときに何かを会話として分類する傾向にある。従って、会話閾値の感度を下げることができ、この場合、会話が長時間にわたって変化したとき、又は他の何らかの会話の指示が存在するときにのみ会話遷移が検出される。このようにして、遷移閾値検出を調整することができ、これがさらに分類に影響を与える。
【0094】
別の例では、カーラジオの音声によってオーディオコンテンツが提供される車内などでは、分類器を、音楽又は音楽以外のものを示すように調整することができる。「車」のコンテキスト内で動作すべきかどうかの判断は、騒音、背景音、コンテンツなどに基づいて行うことができる。ユーザは、環境を示すように促されることもある。この決定は、ブロック850においてコンテキストマネージャが行うことができ、このコンテキストマネージャが、(ユーザデータ入力などの)明示的入力及び(道路の騒音を強く示す信号から抽出された特徴、時速20マイル以上の移動速度を示すGPSの移動などの)非明示的入力を受け取る。その後、それ以外を示す他のコンテキストキューを受け取るまで、コンテキストマネージャを、「車」のコンテキストの範囲内で動作するように構成することができる。
【0095】
他の例としては、マッピング入力とともに、たくさんの人々が会話している状態でガラスが互いにぶつかって出る音が挙げられる。これは、「バー」のコンテキストを示すことができる。バスの送迎時刻表内の特定の時刻にバス停近くで通りの騒音が聞こえ、場所が固定されている場合、クライアント装置を持ち歩いている人が次のバスが来るのを待っていることを示すことができる。
【0096】
従って、コンテキストマネージャは、遷移閾値とともにどの分類器プロファイルを使用するかに関する通知を分類器に行う。このようにして、コンテキストマネージャから情報を受け取ることにより、分類器の性能を向上させることができる。
【0097】
基準コンテキストとしての車(又はその他の環境)を使用して、上限及び下限及び/又はその他の閾値を使用した分類器閾値の適応的調整を行うことができる。この調整により、恐らくは騒音レベル閾値範囲を使用する特定のコンテンツの分類に影響を与え、コンテンツの特定の特性を検出し分類して実際に遷移が起きたかどうかを決定できるようになる。
【0098】
最終的に、消費者の認識を改善し、バッテリ寿命を延ばし、ネットワーク帯域幅を節約し、ネットワーク及びサーバのローディングを短縮することができる。
【0099】
いくつかの実施形態では、システム内の多くの動作がローカルに行われる。例えば、コンテキストマネージャへの入力の質を改善することにより、関心のある遷移がいつ起きたかを特定するための高い分類精度を支援することができる。
【0100】
「遷移」は、聴取チャネルの変更、楽曲のエンディング、楽曲の始めにDJがフェードアウトしたこと、又は楽曲の終わりにフェードインしたことなどの、曲の途中でディスクジョッキー(DJ)がトークを行ったことなどの、関心のある信号のあらゆる規定の変化を含む。遷移は、メディアストリーム内で、又はメディアストリーム外(例えば、車の環境内における車のエンジンの加速、或いはエンジン音の突然の停止)で検出することができる。
【0101】
分類器を制御するためのルール(例えば、1人しか乗っていない車内では、通常ビデオ番組を見ることはないので、ビデオの遷移を検索しないなど)を使用することもできる。いくつかの実施形態では、コンテキストと遷移閾値を組み合わせて、適応的動的遷移認識器を形成する。
【0102】
分類器により提供される異なる重みの閾値の組み合わせを使用して遷移を特定することができる。従って、分類器は、閾値プロファイルを介して、例えば、騒音が発生する可能性又は沈黙の可能性、並びに音楽、所与の信号及び騒音閾値の可能性を示すことができる。
【0103】
遷移の検出を使用して、ネットワークに結合して情報を送信又は検索し、別のアプリケーションと通信し、或いはトレーナ分類器モジュールが分類器のデータ及び遷移を調整できる追加プロファイルに関してコンテキストマネージャを更新することができる。
【0104】
閾値は、絶対的なものであっても、又は適応的なものであってもよい。従って、閾値は履歴に基づくことができる。騒音レベルが上がったときにいくつかの閾値を高く調整し、騒音レベルが下がったときに低く調整することができる。
【0105】
(0〜10000などの)スケールを使用して信頼度を表すことができる。コンテキストに応じ、(1秒などの)時間ウィンドウを使用して調整することができる。例えば、下限又は上限閾値を超えた場合にはウィンドウを維持することができ、超えなかった場合にはウィンドウを長くすることができる。この情報を、コンテキストマネージャにフィードバックすることができる。
【0106】
いくつかの実施形態では、沈黙の検出を動的に構成することができる。例えば、250ミリ秒の回転時間ブロックとして実現される聴取ウィンドウを使用して、最後の2ブロック、半秒にわたって平均化することができる。音声は、遷移の検出に影響を与える入力を表さないので、同時に会話が発生したときでも、これを使用してTVチャネルを変更するという遷移を検出することができる。回転時間ブロックのサイズ及び数は、コンテキストに基づいて明示的に及び非明示的に構成することができる。
【0107】
従って、いくつかの実施形態では、遷移マネージャが、ウィンドウがカバーする何らかの期間にわたる平均的変化を求めるためにウィンドウサイズを増やすことを決定する。1つのウィンドウ長からのコンテンツを、異なるウィンドウ長からのコンテンツと比較して、閾値を超えたときにフラグを設定することができ、従って範囲がゼロ〜10000の場合、7000を超える動きは、音楽から騒音への変化を会話と対比して示すことができる。
【0108】
いくつかの実施形態では、分類器が、音楽と音楽でないものを区別する。音楽と音楽でないものの違いは、閾値レベルである。聴取ウィンドウが変化している間は、閾値を一定に保つことができる。同様に、閾値が変化している間は、聴取ウィンドウ長を一定に保つことができる。いくつかの実施形態では、聴取ウィンドウ長及び閾値が両方とも変化する。
【0109】
従って、いくつかの実施形態では、分類器の出力が遷移検出器を対象にする。次に、遷移により、分類器の出力がフィードバック機構として決定される。このようにして、遷移により、新たな入力の分類を最終的に決定することができる。
【0110】
いくつかの実施形態では、コンテキストマネージャにコンテキストが明示的に通知される。例えば、コンテキストを、双方向TV番組として設定することができる。この場合、コンテキストマネージャが、このコンテキストマネージャ自体を、適当な閾値オーバーライドを含む関心のある特定の遷移を検出するように構成することができる。
【0111】
いくつかの実施形態では、トレーナ分類器モジュールの出力が、分類されたデータモジュール及び/又は遷移検出器モジュールに与えられる。このことは、例えば、トレーナ分類器が分類されたデータモジュール内で有効にしたいと望むことができる環境の種類に応じて、騒音分類のための異なるモデルに対応する。多くの実施形態では、オペレーティングシステム及び物理的環境が分かっている。
【0112】
例えば、車の環境では、車両の乗員間で会話が行われ、分類器が、話された内容を音楽と対比して識別する。同様に、複数の音声の存在は、単一の音声に対立するものとして判断することができる。状況に応じて、分類器に異なるコンテキストモデルをロードすることができる。いくつかの実施形態では、コンテキストマネージャが、トレーナを介さずに分類器及び遷移検出器と直接通信する。
【0113】
トレーナ/分類器は、様々なプロファイルで動作することができる。すなわち、トレーナ/分類器は、コンテキストマネージャ内のルールエンジンを使用して、意思決定者として動作することができる。従って、これらは、動的に変化するプロファイリングモデリングエンジンとして動作することができる。トレーナ/分類器は、GNサービスネットワークから命令を受け取ることができる。
【0114】
いくつかの実施形態では、コンテキストマネージャモジュール及びトレーナモジュールが存在する。このバーションでは、トレーナ/分類器を、モジュールを通るパスとして使用することができる。ここでは、コンテキストマネージャが、2つの異なるコンテキストクラスのみを認識することができる。例えば、バーと単一の音声を対比する。特定されたコンテキストに応じて、特定のプロファイルを導入する。従って、本発明のいくつかの実施形態は、ネットワークノード又はモバイル装置内で動作して、現在識別されているコンテキストに基づいて、選択された関心のある遷移を検出するコンテキストマネージャモジュールを含む。このコンテキストマネージャを使用して、モバイル装置に関連するコンテキストを識別することができる。
【0115】
状況がさらに複雑になるにつれ、コンテキストをより詳細に区別して、トレーナ/分類器が、様々な閾値をそのコンテキストに適切に対応するように調整できるようにすることができる。この場合、コンテキストマネージャは、適当なコンテキストプロファイルを捕捉し、トレーナ/分類器は、これを閾値調整に変換して異なる分類モデルをロードする。例えば、これにより、沈黙のウィンドウを観察するための時間範囲を最大1.5秒増やすことができる。従って、コンテキストマネージャは、遷移検出機構に対して行う調整を決定することができる。
【0116】
いくつかの実施形態では、入力を収集して騒音を消すために複数のマイクを使用する。これらのマイクは、TV、ヘッドユニット、携帯電話、及びその他の場所に位置することができる。
【0117】
決定プロセスの調整は、エネルギーの節約及び帯域幅に対応するように行うことができる。例えば、携帯装置のバッテリが残り少ない場合、検出機構をあまり頻繁に動作しないように減速させることができる。同様に、携帯装置と通信するための帯域幅限界に近付いた場合にも、検出を減速させることができる。
【0118】
上記では、本明細書で説明した特定の方法、タスク、動作、及びデータが特定のシステムに関連するが、様々なシステム間でこのようなタスク及びデータが別様に割り当てられる他の実施形態も可能である。
【0119】
本明細書では、論理又は複数の構成要素、モジュール、又は機構を含むいくつかの実施形態について説明している。モジュールは、ソフトウェアモジュール(機械可読媒体上又は送信信号内で具体化されるコードなど)又はハードウェアモジュールのいずれを構成してもよい。ハードウェアモジュールは、特定の動作を実行できる有形装置であり、特定の態様で構成又は配置することができる。実施形態例では、1又はそれ以上のコンピュータシステム(独立型、クライアント、又はサーバコンピュータシステムなど)又はコンピュータシステムの1又はそれ以上のハードウェアモジュール(プロセッサ又は一群のプロセッサなど)を、ソフトウェア(アプリケーション又はアプリケーション部分など)により、本明細書で説明した特定の動作を実行するように機能するハードウェアモジュールとして構成することができる。
【0120】
様々な実施形態では、ハードウェアモジュールを機械的に又は電子的に実装することができる。例えば、ハードウェアモジュールは、(フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)などの専用プロセッサとして)特定の動作を実行するように恒久的に構成された専用回路又は論理を含むことができる。ハードウェアモジュールは、特定の動作を実行するようにソフトウェアによって一時的に構成された(汎用プロセッサ又はその他のプログラマブルプロセッサに含まれるような)プログラマブル論理又は回路を含むこともできる。専用の及び恒久的に構成された回路内に、又は一時的に構成された回路(例えば、ソフトウェアによって構成された)内にハードウェアモジュールを機械的に実装するという決定は、コスト及び時間を検討することによって行うことができると理解されよう。
【0121】
従って、「ハードウェアモジュール」という用語は有形エンティティを含むと理解すべきであり、特定の態様で動作するように及び/又は本明細書で説明した特定の動作を実行するように物理的に構築された、恒久的に構成された(例えば、配線接続された)、又は一時的に構成された(例えば、プログラムされた)エンティティであると理解すべきである。ハードウェアモジュールが一時的に構成された(例えば、プログラムされた)実施形態では、ハードウェアモジュールの各々を、いずれか1つの時点で構成又は例示化する必要はない。例えば、ハードウェアモジュールが、ソフトウェアを使用して構成された汎用プロセッサを含む場合、この汎用プロセッサを、異なる時点でそれぞれの異なるハードウェアモジュールとして構成することができる。従って、ソフトウェアは、例えば、ある時点で特定のハードウェアモジュールを構成し、異なる時点で異なるハードウェアモジュールを構成するようにプロセッサを構成することができる。
【0122】
ハードウェアモジュールは、他のハードウェアモジュールに情報を提供し、他のハードウェアモジュールから情報を受け取ることができる。従って、説明したハードウェアモジュールは、通信可能に結合されていると見なすことができる。複数のこのようなハードウェアモジュールが同時に存在する場合、これらのハードウェアモジュールを接続する信号送信を通じて(例えば、適当な回路及びバスを通じて)通信を行うことができる。複数のハードウェアモジュールが異なる時点で構成又は例示化される実施形態では、このようなハードウェアモジュール間の通信を、例えば、複数のハードウェアモジュールがアクセスできるメモリ構造内の情報の記憶及び検索を通じて行うことができる。例えば、1つのハードウェアモジュールが動作を実行し、その動作の出力を、通信可能に結合されたメモリ装置に記憶することができる。次に、後の時点で、さらなるハードウェアモジュールがこのメモリ装置にアクセスして、記憶された出力を検索して処理することができる。ハードウェアモジュールは、入力又は出力装置との通信を開始することもでき、リソース(情報の集合など)に基づいて動作することができる。
【0123】
本明細書で説明した方法例の様々な動作は、少なくとも部分的に、関連動作を実行するように(例えば、ソフトウェアによって)一時的に構成された、又は恒久的に構成された1又はそれ以上のプロセッサによって実行することができる。一時的に構成されるか、又は恒久的に構成されるに関わらず、このようなプロセッサは、1又はそれ以上の動作又は機能を実行するプロセッサ実装モジュールを構成することができる。本明細書で言及するモジュールは、いくつかの実施形態例ではプロセッサ実装モジュールを含むことができる。
【0124】
同様に、本明細書で説明した方法は、少なくとも部分的にプロセッサ実装式とすることができる。例えば、方法の動作の少なくともいくつかを、1又はそれ以上のプロセッサ或いはプロセッサ実装モジュールによって実行することができる。動作の一部の性能を、単一の機械内に存在するだけでなく複数の機械にわたって展開される1又はそれ以上のプロセッサ間で分散することができる。実施形態例によっては、1又は複数のプロセッサを1つの場所に(例えば、家庭環境内、オフィス環境内に、又はサーバファームとして)位置付けることができるものもあり、実施形態によっては、プロセッサを複数の場所にわたって分散させることができるものもある。
【0125】
1又はそれ以上のプロセッサは、「クラウドコンピューティング」環境において、又は「サービスとしてのソフトウェア」(SaaS)として関連動作の性能を支援するように機能することもできる。例えば、(プロセッサを含む機械の例としての)一群のコンピュータによって動作の少なくともいくつかを実行することができ、(インターネットなどの)ネットワークを介して、及び1又はそれ以上の(APIなどの)適当なインターフェイスを介してこれらの動作にアクセスすることができる。
【0126】
実施形態例は、デジタル電子回路内で、或いはコンピュータハードウェア、ファームウェア、又はソフトウェアで、或いはこれらの組み合わせで実現することができる。実施形態例は、(プログラマブルプロセッサ、コンピュータ、又は複数のコンピュータなどの)データ処理装置が実行する、或いはこれらの動作を制御する(機械可読媒体内の情報キャリアにおいて明白に具体化されるコンピュータプログラムなどの)コンピュータプログラム製品を使用して実現することができる。
【0127】
コンピュータプログラムは、コンパイル又は翻訳された言語を含むあらゆる形式のプログラミング言語で書くことができ、独立型プログラム、或いはモジュール、サブルーチン、又はコンピューティング環境での使用に適したその他の装置の形を含むいずれかの形でこれを展開することができる。コンピュータプログラムは、1つのサイトにおける1つのコンピュータ又は複数のコンピュータ上で実行されるように展開してもよく、或いは複数のサイトにわたって分散させて通信ネットワークにより相互接続してもよい。
【0128】
実施形態例では、1又はそれ以上のプログラマブルプロセッサが、入力データに基づいて動作して出力を生成することにより機能を実行するようにコンピュータプログラムを実行することによって動作を実行することができる。方法の動作を、(フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)などの)特殊用途向け論理回路によって実行することもでき、実施形態例の装置を、このような特殊用途向け論理回路として実現することもできる。
【0129】
コンピュータシステムはクライアント及びサーバを含むことができる。一般に、クライアントとサーバは互いに離れた場所に存在し、通常は通信ネットワークを介してやりとりする。クライアントとサーバの関係は、コンピュータプログラムがそれぞれのコンピュータ上で実行されて互いにクライアントとサーバの関係を有することによって生じる。プログラムマブルコンピュータシステムを展開する実施形態では、ハードウェアアーキテクチャ及びソフトウェアアーキテクチャをいずれも考慮できることが理解されるであろう。詳細には、特定の機能を、恒久的に構成された(ASICなどの)ハードウェアにおいて実施するか、一時的に構成された(ソフトウェアとプログラマブルプロセッサの組み合わせなどの)ハードウェアにおいて実施するか、或いは恒久的に構成されたハードウェアと一時的に構成されたハードウェアの組み合わせで実施するかの選択は、設計事項であってもよいと理解されるであろう。以下、様々な実施形態例において展開できる(機械などの)ハードウェアアーキテクチャ及びソフトウェアアーキテクチャを示す。
【0130】
図9は、本明細書で説明する方法のいずれか1つ又はそれ以上を機械に行わせるための命令を実行できる例示的なコンピュータシステム900の形の機械を示すブロック図である。代替えの実施形態では、機械が独立型装置として動作し、又は他の機械に接続(例えば、ネットワーク接続)することができる。ネットワーク化した展開では、機械が、サーバ−クライアントネットワーク環境においてはサーバ又はクライアントマシンという資格で、或いはピアツーピア(又は分散)ネットワーク環境においてはピアマシンとして動作することができる。この機械は、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、携帯電話、ウェブ機器、ネットワークルータ、スイッチ又はブリッジ、或いはこの機械がとる行動を指定する命令(連続又はそれ以外)を実行できるいずれの機械であってもよい。さらに、1つの機械しか示していないが、「機械」という用語は、本明細書で説明した方法のいずれか1つ又はそれ以上を実行するための命令セット(或いは複数セット)を個別に又はまとめて実行するあらゆる一群の機械を含むとも解釈すべきである。
【0131】
例示的なコンピュータシステム900は、プロセッサ902(中央処理装置(CPU)、グラフィック処理ユニット(GPU)、又はこれらの両方など)、メインメモリ904、及び静的メモリ906を含み、これらはバス908を介して互いに通信する。コンピュータシステム900は、(液晶ディスプレイ(LCD)又はブラウン管(CRT)などの)ビデオディスプレイユニット910をさらに含むことができる。コンピュータシステム900は、(キーボードなどの)英数字入力装置912、(マウスなどの)ユーザインターフェイス(UI)ナビゲーション装置914、(マイク及び/又は画像センサのような光学感知装置などの)ディスクドライブユニット916、信号生成装置918、及びネットワークインターフェイス装置920も含む。信号生成装置は、上述した様々なモジュールにオーディオ及び/又はビデオ入力を与えるために使用することができる。ストリーミング信号としての入力を分類し、これを使用して関心のある遷移を検出することができる。
【0132】
ディスクドライブユニット916は、本明細書で説明する方法又は機能のいずれか1つ又はそれ以上を具体化する、又はこれらの方法又は機能が利用する(ソフトウェアなどの)1又はそれ以上のデータ構造及び命令セット924を記憶する機械可読媒体922を含む。命令924は、コンピュータシステム900による命令の実行中には、メインメモリ904内及び/又はプロセッサ902内に完全に又は少なくとも部分的に常駐することもでき、メインメモリ904及びプロセッサ902は機械可読媒体も構成する。
【0133】
実施形態例には、機械可読媒体922を単一の媒体として示しているが、「機械可読媒体」という用語は、1又はそれ以上の命令924又はデータ構造を記憶する単一の媒体又は複数の媒体(集中又は分散データベース、及び/又は関連するキャッシュ及びサーバなど)を含むことができる。「非一時的機械可読媒体」という用語も、機械が実行するための及び本主題の方法のいずれか1つ又はそれ以上を機械に実行させる命令を記憶、符号化、又は搬送できる、或いはこのような命令が利用する、又はこれに関連するデータ構造を記憶、符号化、又は搬送できるあらゆる有形媒体を含むと解釈すべきである。従って、「非一時的機械可読媒体」という用語は、限定するわけではないが、固体メモリ、並びに光学及び磁気媒体を含むと解釈すべきである。非一時的機械可読媒体の特定の例としては、限定するわけではないが不揮発性メモリが挙げられ、一例として、(消去可能なプログラマブル読出し専用メモリ(EPROM)、電気的消去可能なプログラマブル読出し専用メモリ(EEPROM)、及びフラッシュメモリ装置などの)半導体メモリ素子、内部ハードディスク及び取り外し可能ディスクなどの磁気ディスク、磁気光学ディスク、並びにCD−ROM及びDVD−ROMディスクを含む。
【0134】
さらに、送信媒体を使用して、コンピュータネットワーク950を介して命令924を送信又は受信することもできる。命令924は、ネットワークインターフェイス装置920及び(HTTPなどの)いくつかの周知の転送プロトコルのいずれか1つを使用して送信することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、携帯電話ネットワーク、プレイン・オールド・テレフォン・サービス(POTS)ネットワーク、及び無線データネットワーク(WiFi及びWiMAXネットワークなど)が挙げられる。「送信媒体」という用語は、機械が実行するための命令を記憶、符号化、又は搬送できるあらゆる無形媒体を含むと解釈すべきであり、このようなソフトウェアの通信を容易にするためのデジタル又はアナログ通信信号又はその他の無形媒体を含む。
【0135】
いくつかの実施形態では、システム900が、入力ポート及びコンテキストマネージャを含むネットワークノードを含む。(ネットワークインターフェイス装置920などの)入力ポートを使用して、モバイル装置から情報を受け取ることができる。コンテキストマネージャを使用して、モバイル装置に関連するコンテキストを識別し、モバイル装置が後でリスンして識別する関心のある遷移のリストを提供することができる。遷移が生じたという指示をノードによって受け取り、これを使用して、ノード内、別のノード内、又はモバイル装置内で動作する分類器の構成を調整することができる。
【0136】
このように、ストリーミングコンテンツの識別を生成して使用するための方法及びシステムは、様々な形で実現することができる。単一の装置内で完全に動作するものもあれば、システム内の異なる要素間で作業負荷を振り分けるものもある。以下、いくつかの変形例について説明する。
【0137】
例えば、図10に、本発明の様々な実施形態による事前に記録したコンテンツ(事前放送など)を使用するシステム1000の動作を示す。ここでは、マイクを使用してTVなどのオーディオソースからオーディオを取得するクライアント装置を示している。コンテンツ認識クライアントは、コンテキストを特定し、ローカル認識システム及びネットワーク認識システムを使用して遷移を検出し、アプリケーションを開始する。サービスインフラストラクチャを使用して、サーバ、データストア、及びフィンガープリントデータベースによってクライアント装置を支援する。取り込みツール及び取り込みプラットフォームを使用して、このインフラストラクチャに、照合のためのフィンガープリントを含むデータを投入する。このインフラストラクチャにより、クライアント装置にTV番組メタデータなどのメタデータを提供して分類及び遷移の検出を強化するとともに、ユーザ及び装置のアプリケーションとやりとりするための追加コンテンツを提供する。
【0138】
別の例として、図11は、本発明の様々な実施形態による、異なる時間ウィンドウにわたって内部分類を作成する分類器1100のブロック図である。ここでは、分類器モジュール1、2、...、nが、分類器モデル、コンテキスト設定、及び入力としての媒体信号を受け入れて、分類器の特徴値を結果的な出力として表す。当業者には周知のように、分類器モデルは、沈黙、騒音、音楽、及び喝采に関連する信号を識別するための閾値分類設定を含むことができる。コンテキスト設定は、コンテキストに基づいてモデルの基本設定を変更するように機能することができる(例えば、台本があるテレビ番組では観察ウィンドウを短くし、生のラジオ番組では観察ウィンドウを長くすることができる)。媒体信号は、オーディオ及び/又はビデオ信号を含むことができる。分類器1100は、音楽には1000の値、及び喝采には6000の値のように、モジュールの各々からの評価を特徴に与えることができ、この場合、喝采が分類器に対する現在の信号のソースである可能性が最も高いことを示す傾向にある。
【0139】
さらなる例として、図12は、本発明の様々な実施形態による、コンテキスト分類を使用して遷移が起きたことを判断する遷移エンジン1200のブロック図である。ここでは、1又はそれ以上の閾値パラメータxx、yy、及び/又はzzを使用して、各特徴(沈黙、会話、音楽、騒音、笑い声、拍手など)の閾値を設定する。特徴ごとの閾値の数は、恐らくは現在のコンテキストに基づいて変化することができ、これにより、例えば、関連する特徴値が下限閾値を超えたが、未だ上限閾値を超えていない場合に遷移を検出できるようになる。遷移の検出には、閾値の帯域を使用することもできる(例えば、2つの下限閾値が1つの帯域を定め、2つの上限閾値が別の帯域を定めることにより、特徴値が2つの帯域の一方に入る場合には遷移が検出されたことを示すが、他の特徴値は遷移が検出されなかったことを示すようになる)。
【0140】
さらに別の例として、図13は、本発明の様々な実施形態による、特徴スコア及びその他の入力を使用してコンテキストが変更されたかどうかを判定するコンテキスト推定器1300のブロック図である。コンテキストに変化が起きた場合、コンテキスト推定器は、非明示的及び明示的入力を使用して、コンテキスト識別、分類器、及び遷移検出のためのコンテキスト値を決定する。
【0141】
最後の例として、図14は、本発明の様々な実施形態による、遷移、分類、コンテキスト、及び履歴コンテンツを使用してシステム活動を判断するコンテキストマネージャ1400のブロック図である。従って、例えば、様々な非明示的及び明示的コンテキスト入力を使用して、分類器の設定を変更すべきかどうかを判断するコンテキスト情報を提供する。遷移入力において示されるように遷移が起きた場合、識別エンジン(ローカル又はリモート)を使用して既存のコンテンツの種類を識別し、又は以前のコンテンツ識別を維持することができる。コンテンツが識別されると(又は以前の識別が決定されると)、コンテンツの種類及び検出された遷移の種類に基づいて、ユーザインターフェイス及び/又は装置の動作を開始することができる。コンテキストマネージャによって開始できる他の動作としては、コンテンツ更新の遷移及び/又は分類器設定情報を、遷移検出器及び/又は分類器に送信することが挙げられる。本明細書で説明した方法のいずれかのあらゆる部分は、サーバなどのネットワークノード上で、又は携帯電話などのモバイル装置上で実行することができ、或いはネットワークノードとモバイル装置の間で様々な形で分割することができる。従って、数多くの方法、装置、及びシステムを実現することができる。以下、いくつかの例について説明する。
【0142】
いくつかの実施形態では、方法が、着信オーディオ及び/又はビデオ信号を継続的に受け取るステップと、この信号を処理して信号成分を提供するステップと、この信号成分を分類して、規定のイベントクラスに基づいて閾値要素の存在を判断するステップと、前記信号に関連する環境コンテキストによって設定した閾値を閾値要素がいつ超えたかを判断することにより、少なくとも1つの遷移を検出するステップと、少なくとも1つの遷移の検出時に、規定のクラス又は閾値を調整するステップとを含む。
【0143】
この処理は、環境コンテキストに基づいて信号を均等化し、選択された周波数帯域を実質的に排除するステップを含むことができる。この処理は、信号をウィンドウ化して処理のための時間を制限するステップを含むこともできる。この処理は、信号を閾値化して、規定レベルを超える振幅成分を拒絶するステップを含むこともできる。
【0144】
信号成分は、振幅、周波数、ピッチ、テンポ、又はエネルギーのうちの少なくとも1つを含むことができる。これらの成分を信号から抽出して、これらの成分の個々の値を求めることができる。
【0145】
イベントクラスは、信号成分を閾値要素に分類するために使用されるとともに、閾値要素に関連する閾値が満たされたかどうかを判定するために使用されるイベントクラスを含むことができる。イベントクラスは、他の特徴、相対ピーク、単調音の存在、及び時間ウィンドウ長に関連する閾値と比較した拍手、笑い声、騒音、会話、沈黙のうちの1又はそれ以上を含むことができる。
【0146】
閾値は、信号成分のうちの選択された信号成分に対して測定するための、最小閾値、最大閾値、及び履歴平均閾値のうちの少なくとも1つを含むことができる。
【0147】
環境コンテキストは、車、家、店、バー、又は未定義コンテキストのうちの少なくとも1つから選択することができる。
【0148】
調整ステップは、検出された特定の遷移に基づいて、イベントの分類及び閾値の両方を調整するステップをさらに含むことができる。
【0149】
遷移の検出時には、方法が、着信オーディオ及び/又はビデオ信号に関連する時間位置情報を更新するステップを含むことができる。追加の又は代替の動作は、(遷移の検出時に)環境コンテキストに関連するスクリプトに基づいて、ユーザインターフェイスの提示などの、装置の動作をトリガするステップを含むことができる。
【0150】
いくつかの実施形態では、モバイル装置に関連する環境コンテキストを特定する方法が、継続的にストリーミングされる環境オーディオ信号コンテンツに関連する関心のある遷移を認識するステップと、遷移を使用して、モバイル装置の選択された動作をトリガするステップとを含む。
【0151】
いくつかの実施形態では、モバイル装置に関連する環境コンテキストを識別する方法が、コンテキストが変化したときに関心のある遷移を検出するようにモバイル装置を動的に構成するステップを含む。
【0152】
いくつかの実施形態は、ネットワークサービスから戻されたメタデータにより支援される環境コンテキストの変化を分類する方法を含む。この方法は、モバイル装置に関連する非明示的コンテキストを特定するステップと、モバイル装置に関連するオーディオ及び/又はビデオ信号の分類を決定するステップと、非明示的コンテキストに従って分類を変更するステップとを含む。
【0153】
この方法の追加動作は、以前のコンテンツ認識を特定するステップを含むことができ、前記変更ステップは、非明示的コンテキスト及び以前のコンテンツ認識に従って分類を変更するステップを含む。さらなる動作は、モバイル装置の装置動作モード、電力供給タイプ、及びネットワーク接続タイプを特定するステップを含むことができ、前記変更ステップは、非明示的コンテキスト、並びに前記装置動作モード、電力供給タイプ、及びネットワーク接続タイプに従って分類を変更するステップを含む。
【0154】
いくつかの実施形態は、ローカル又はリモート装置上に表示されるコンテンツにメタデータを同期させる方法を含み、この方法は、現在の環境コンテキスト、認識されたコンテンツ、及び/又は環境タイプに基づいて、閾値、フィンガープリントアルゴリズム、及びキャッシュサイズを含む設定の選択を修正するステップを含む。
【0155】
いくつかの実施形態は、フィンガープリントに基づく認識を動的に構成する方法を含み、この方法は、着信オーディオ及び/又はビデオストリームから導出された環境分類出力情報を使用してフィンガープリントアルゴリズムを選択するステップを含む。
【0156】
いくつかの実施形態は、オーディオ及び/又はビデオコンテンツの大量の同時識別を支援する方法を含み、この方法は、ローカルコンテンツ認識及びフィンガープリント法をネットワーク認識と組み合わせるステップと、ネットワークによってローカルに名前を付けられた情報要素を受け取るステップと、モバイル装置に関連する環境コンテキストに基づいて、ネットワークからモバイル装置へ遷移生成トリガを送信するステップとを含む。
【0157】
いくつかの実施形態は、検出された環境コンテキスト遷移に基づく信号分離方法を含み、この方法は、リアルタイム信号モニタリング及びフィンガープリント法をコンテキスト遷移と組み合わせて使用して、オーディオ及び/又はビデオ信号内のコマーシャルコンテンツからテレビ番組コンテンツを分離するステップを含む。
【0158】
いくつかの実施形態は、分類した音をアプリケーションに提供する方法を含み、この方法は、認識、又はアプリケーションからの応答をトリガすることの一方のために、アプリケーションに提供する音を抽出して分類するようにオーディオストリームを処理するステップを含む。
【0159】
いくつかの実施形態は、コンピュータ装置をリンクさせる方法を含み、この方法は、ユーザ入力装置により生成された個別信号を受け取るステップと、この信号を使用してコンピュータ装置をリンクさせ、コンテンツ及び相互作用を共有するステップとを含み、個別信号のフィンガープリントを採取して使用し、時間制限されたグループ化期間を使用してコンピュータ装置をグループ化する。
【0160】
いくつかの実施形態は、オーディオ信号内の遷移を検出してフィンガープリントアルゴリズムを選択する方法を含み、この方法は、特定された環境コンテキストを使用してフィンガープリントアルゴリズムを選択するステップを含む。
【0161】
いくつかの実施形態は、オーディオ及び/又はビデオ信号を分類するステップと、この信号内の遷移を検出するステップと、この信号に含まれるコンテンツのフィンガープリントを採取して、基準フィンガープリントを作成するとともに、少なくともこの基準フィンガープリントに関連するメタデータ及び画像を、接続ネットワーク及び/又はローカルな埋め込み基準リポジトリを介して戻すステップとを含む方法を含む。
【0162】
いくつかの実施形態は、モバイル装置などの装置を含み、この装置は、関心のある遷移を特定するように処理でき、モバイル装置内で動作するオーディオ及び/又はビデオ信号分類器の構成を調整するためにフィードバックされる信号としての少なくともオーディオ入力を受け取るためのマイクを含む。
【0163】
いくつかの実施形態は、モバイル装置などの装置を含み、この装置は、所与の環境コンテキスト内で遷移が生じたときにコンテンツ内の関心のある遷移を認識する光学センサ又はオーディオセンサのうちの少なくとも一方を含み、モバイル装置は、関連コンテンツを表示及び/又は再生することによって応答するように構成される。
【0164】
いくつかの実施形態は、ネットワークノードを含み、このノードは、モバイル装置から情報を受け取るための入力ポートと、モバイル装置に関連する環境コンテキストを識別し、モバイル装置が後でモニタ(及び聴取)して識別する関心のある遷移のリストを提供するためのコンテキストマネージャとを含む。
【0165】
いくつかの実施形態は、ネットワークノードを含み、このノードは、識別されたコンテキスト内で動作するモバイル装置からの処理済み信号情報を受け取るための入力ポートと、この情報に関連する関心のある遷移を識別してモバイル装置に関連コンテンツのリストを提供するための遷移検出器とを含む。このリストは、モバイル装置の操作者に、選択及びモバイル装置に配信するためのメニューとして表示することができる。
【0166】
いくつかの実施形態は、ネットワークノードを含み、このノードは、関心のある遷移が識別されたという指示をモバイル装置から受け取るための入力ポートと、及び関連コンテンツ又はこの関連コンテンツの少なくとも1つの位置をモバイル装置に提供するためのコンテキストマネージャとを含む。ノード又はモバイル装置により、或いはこれらの両方により、モバイル装置上で関連コンテンツの履歴再生を利用可能にしてモニタすることができる。
【0167】
いくつかの実施形態は、ネットワークノード又はモバイル装置内で動作して、現在識別されている環境コンテキストに基づいて、選択された関心のある遷移を検出するコンテキストマネージャモジュールを含む。
【0168】
いくつかの実施形態は、継続的なデジタルオーディオ認識に関与した場合のエネルギー節約に起因してバッテリ寿命が延びたモバイル装置を含み、このモバイル装置は、コンテキスト分類を使用するためのモジュールと、複数の識別エンジンと、分類要求のための速度の低減をいつ実現できるかを判断してモバイル装置のバッテリ寿命を延ばすためのメタデータとを含む。
【0169】
いくつかの実施形態は、明示的及び非明示的コンテキスト及び分類を使用してネットワーク支援トレーナとして実現されるシステムを含み、このシステムは、分類モデルサーバと、この分類モデルサーバに結合されたトレンド検出サーバと、このトレンド検出サーバに結合されたコンテキストサーバとを含む。
【0170】
本明細書で説明した実施形態の1又はそれ以上を実施した場合、いくつかの利点が生じる。これらは、オーディオ又はビデオ入力に基づいて自動的かつ継続的にコンテンツに同期して、アプリケーション及びユーザ装置の動作をトリガする能力を含む。広告収入が増すと同時に、より魅力的な体験を消費者に提供することができる。
【0171】
特定の実施形態例を参照しながら本主題について説明したが、主題の広範な範囲から逸脱することなく、これらの実施形態に様々な修正及び変更を行えることが明らかであろう。従って、明細書及び図面は、限定的な意味ではなく例示的な意味で捉えるべきである。本明細書の一部を成す添付図面は、本主題を実施できる特定の実施形態を限定ではなく例示として示すものである。例示した実施形態は、本明細書で開示する教示を当業者が実施できるようにするために十分に詳しく説明したものである。これらから、他の実施形態を利用及び導出して、本開示の範囲から逸脱することなく構造的及び論理的な置換及び変更を行えるようにすることができる。従って、この詳細な説明は限定的な意味で捉えるべきではなく、様々な実施形態の範囲は、添付の特許請求の範囲、並びにこのような特許請求の範囲に権利を与えるあらゆる同等物によってのみ定義される。
【0172】
本明細書では、このような本発明主題の実施形態を、単なる便宜上、及び実際には複数のものが開示されている場合、本出願の範囲をいずれか1つの発明又は発明概念に任意に限定する意図を伴わずに、個別に及び/又はまとめて「発明」という用語で呼ぶことができる。従って、本明細書では、特定の実施形態を図示し説明しているが、図示の特定の実施形態の代わりに、同じ目的を達成するように計算されたあらゆる構成を使用できると理解されたい。本開示は、様々な実施形態のありとあらゆる適応又は変形を含むことが意図されている。上記の説明を検討すれば、当業者には、上記の実施形態と、本明細書で詳細に説明していない他の実施形態との組み合わせが明らかになるであろう。
【0173】
本文書で引用した全ての出版物、特許、及び特許文書は、その全体があたかも引用によって個別に組み入れられているかのように引用により本明細書に組み入れられる。本文書と、このように引用により組み入れられる文書が矛盾なく使用される場合、組み入れた(単複の)引用における使用は本文書を補足するものであると考えるべきであり、相容れない矛盾に関しては、本文書での使用がこれを制御する。
【0174】
本文書では、他のいずれかの例、又は「少なくとも1つ」又は「1又はそれ以上」の使用とは関係なく、1つ又は複数のものを含むために、特許文書に共通のものとして、「1つの(英文不定冠詞)」という用語を使用している。本文書では、「又は(or)」という用語を、非排他的なorであることを示すために使用しており、従って、「A又はB」は、別途指示がない限り、「AであるがBではない」、「BであるがAではない」及び「A及びB」を含む。添付の特許請求の範囲では、「含む(including)」及び「において(in which)」という用語を、「備える(comprising)」及び「において(wherein)」というそれぞれの用語の分かり易い英語の同等表現として使用している。以下の特許請求の範囲では、「含む(including)」及び「備える(comprising)」という用語は包括的なものであり、すなわち、特許請求の範囲においてこのような用語の後に列挙される要素以外の要素を含むシステム、装置、物品、又は方法も、その特許請求の範囲に含まれると見なされる。さらに、以下特許請求の範囲では、「第1の」、「第2の」、「第3の」などの用語を単にラベルとして使用しており、これらの対象に数字的要件を課すものではない。
【0175】
本開示の要約書は、読者が技術的開示の本質をすばやく確認できるようにする要約を求める米国特許法施行規則第1.72条(b)に準拠するように提供するものである。この要約書は、特許請求の範囲及び意味を解釈又は限定するために使用されるものではないという理解とともに提出されるものである。また、上述の詳細な説明では、本開示を合理化するために様々な特徴を単一の実施形態にまとめていることが分かる。この開示方法は、これらの実施形態が、個々の請求項に明確に示す特徴よりも多くの特徴を必要とするという意図を反映したものであると解釈すべきではない。むしろ、以下の特許請求の範囲に反映されるように、発明の主題は、単一の開示した実施形態の全てよりも少ない特徴に存在する。従って、以下の特許請求の範囲は、本明細書により詳細な説明に組み込まれ、個々の請求項は別個の実施形態として自立するものである。
【技術分野】
【0001】
本発明は、広く双方向ストリーミングコンテンツ処理技術に関し、具体的には、オーディオ及び/又はビデオ信号等の双方向ストリーミングコンテンツ処理方法、装置、及びシステムに関する。
【背景技術】
【0002】
〔著作権表示〕
本特許文書の開示部分は、著作権保護の対象内容を含む。著作権の権利所有者は、合衆国特許商標庁のファイル又は記録内に表される通りに第三者が特許文書又は特許開示を複製することには異議を唱えないが、それ以外は全ての著作権を留保する。以下の表示は、以下で説明するソフトウェア及びデータ、並びに本文書の一部を成す図面内のソフトウェア及びデータに適用される:著作権2011年、Gracenote社、禁無断転載。
【0003】
娯楽及び通信媒体により提供されるような様々な種類のストリーミングコンテンツは、携帯電話、TV及びタブレットを含む携帯及び固定電子装置が消費するために存在する。とりわけ、このコンテンツは、テレビ(TV)、ラジオ、及びインターネットにより提供されるオーディオ及び/又はビデオストリームを含むことができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、この媒体の体験の共有をサポートすべく構築されたインフラストラクチャは、ネットワーク帯域幅、装置の処理能力、及び装置のバッテリ放電速度によって課せられる制約に起因して幾分制限される。
【課題を解決するための手段】
【0005】
本発明に係る方法は、着信オーディオ及び/又はビデオ信号を継続的に受け取るステップと、前記信号を処理して信号成分を提供するステップと、前記信号成分を分類して、規定のイベントクラスに基づいて閾値要素の存在を判断するステップと、前記信号に関連する環境コンテキストによって設定した閾値を前記閾値要素がいつ超えたかを判断することにより、少なくとも1つの遷移を検出するステップと、前記少なくとも1つの遷移の検出時に、前記規定のクラス又は前記閾値を調整するステップと、を含むことを特徴とする。
【0006】
いくつかの実施形態を添付図面の図に限定ではなく一例として示す。
【図面の簡単な説明】
【0007】
【図1】本発明の様々な実施形態による、テレビコマーシャルに関する動作を示す図である。
【図2】本発明の様々な実施形態による、テレビ番組に関する動作を示す図である。
【図3】本発明の様々な実施形態による、テレビ番組及びソーシャルネットワークに関する動作を示す図である。
【図4】本発明の様々な実施形態による方法を示す論理フロー図である。
【図5】本発明の様々な実施形態によって動作するシステム内の情報の流れを示すブロック図である。
【図6】本発明の様々な実施形態による、ストリーミングクライアント装置の構成要素を示すブロック図である。
【図7】本発明の様々な実施形態によって動作するストリーミングクライアント装置を示すブロック図である。
【図8】本発明の様々な実施形態による動作を示す状態機械図である。
【図9】本明細書で説明する方法のいずれか1又はそれ以上を機械に実行させるための命令セットを実行できる例示的なコンピュータシステムの形の機械を示すブロック図である。
【図10】本発明の様々な実施形態による、事前に記録したコンテンツ(事前放送など)を使用する動作を示す図である。
【図11】本発明の様々な実施形態による、異なる時間ウィンドウにわたって内部分類を作成する分類器を示すブロック図である。
【図12】本発明の様々な実施形態による、コンテキスト分類を使用して遷移が生じたことを判断する遷移エンジンを示すブロック図である。
【図13】本発明の様々な実施形態による、特徴スコア及びその他の入力を使用してコンテキストが変化したかどうかを判定するコンテキスト推定器を示すブロック図である。
【図14】本発明の様々な実施形態による、遷移、分類、コンテキスト、及び履歴コンテンツを使用してシステム活動を判断するコンテキストマネージャを示すブロック図である。
【発明を実施するための形態】
【0008】
本明細書では、双方向体験をもたらすストリーミングコンテンツを識別して処理するための例示的な方法及びシステムについて説明する。以下の説明では、実施形態例を完全に理解できるようにするために、説明を目的として数多くの特定の詳細を示す。しかしながら、当業者には、これらの特定の詳細を伴わずに本主題を実施できることが明らかであろう。本明細書で説明するタイプの媒体コンテンツは、提供する例に限定されるものではなく、具体的に説明していないその他のシナリオを含むことも明らかであろう。
【0009】
序文
本明細書で説明する双方向ストリーミング識別及び処理システムは、コンテンツ作成者が、数十億ドル市場においてオーディオ及びビデオ信号認識を介してデータを容易かつ動的にリンクできるようにするものである。オーディオ信号コンテンツの認識、及びこのコンテンツの遷移に基づいて、TV番組、ゲーム、ソーシャルネットワーク及び評価システム、並びに全国的、地域的、及び局所的広告を互いにリンクさせることができる。
【0010】
このようにして、双方向TV、映画、ラジオ、及びその他のメディアサービスを可能にすることができる。従って、この双方向ストリーミング識別及び処理システムは、画面上のオーディオビデオを、他のリッチコンテンツに、オーディオ及びビデオの分類に、及び他のコンテンツ/サイトへのリンクに関連付けることにより、魅力的な双方向TV/映画/ゲーム体験を生み出すことができる。本明細書で説明する機構をソーシャルネットワークに容易に移行させて、あらゆるオーディオ/ビデオ(A/V)ソースが双方向性を強化できるようにすることができる。
【0011】
一般例として考えると、単純なNスクリーンアプリケーション(TVなどの中央又は主装置の「第1の画面」上で楽しめるコンテンツを補足するための情報を提供する、タブレットなどの別個の装置の「第2の画面」上で実行されるアプリケーション)が、あらゆる携帯用電子装置上であらゆる場所で機能する。このNスクリーンアプリケーションを使用して、ユーザが聞いた/見たものを別の装置にリンクし、関連する高品質メタコンテンツを同期させることができる。これにより、TV局のROI(投資収益率)を改善し、別の又は同じ装置上のコンテンツのリアルタイムな双方向性を強化するとともに、コンテンツ(コマーシャル、番組、ゲーム、及びその他のソースなど)に応答するためのプラットフォームを提供することもできる。これにより、相互作用が望まれるコンテンツ内の時間的位置を維持しながら、コンテンツがどこに存在するかを認識できるようになる。
【0012】
図1に、本発明の様々な実施形態による、TVコマーシャル100に関する動作を示す。この種の動作は、オーディオ信号の遷移を識別するために接続されたクライアント分類エンジン(以下で説明)からの技術を使用し、コンテキストルールエンジン(やはり以下で説明)が、双方向性を改善するように遷移への応答を最適化しながら、GNサービスにおける負荷を低減する(「GN」又は「GNサービス」は、本文書において、オーディオ及び/又はビデオコンテンツに関連するフィンガープリント法及び/又はデータ検索などの、Gracenote(登録商標)ネットワークが提供するものと同様又は同一のストリーミングメディア認識サービスを表すために使用する一般的用語である)。
【0013】
多くの実施形態では、コンテンツが、図1に示すTVコマーシャル100などのオーディオ及び/又はビデオと継続的に同期する。様々な実施形態は、既存のトラック提出(すなわち、第三者又は消費者によるコンテンツ項目に関するデータの提出及び/又はあるデータがコンテンツに関連する旨の指示の受け取り)、コンテンツメタデータ摂取、コンテンツ照合サービス(例えば、関連するコンテンツ項目のカバーアートなどのリッチメタデータの配信、又は第三者ストアにリンクするための識別子を可能にするCMSサービス)、GNサービス、並びに標準的な接続及び「ウィジェットアプリ」(例えば、TVなどの消費者装置上で実行されるアプリケーションプログラム)を備えたTVが情報を自動的に識別し、同期させて配信する双方向性の高いアプリケーション及びコンテンツを提供できるようにするウェブアプリケーションインターフェイス(API)を活用しながら、生じたであろうはずのメモリ、バッテリ、プロセッサ、及びネットワークリソースの消費を低減する。
【0014】
図2には、本発明の様々な実施形態による、TV番組200に関する動作を示す。この動作は、番組の双方向性を高め、投票、探索などに使用することができる。接続されたクライアント分類からの技術を使用してオーディオ信号の遷移を検出する、番組のためのアプリケーションを迅速に構築するための潜在性がある。オーディオ及び/又はビデオフィンガープリント法により、図2に示すTV番組200が提供するコンテンツの時刻同期を含む認識が可能になる。
【0015】
図3には、本発明の様々な実施形態による、TV番組200及びソーシャルネットワークアプリケーション300に関する動作を示す。この動作は、ソーシャルネットワーク相互作用を可能にし、ユーザは、タイプしたり、又は情報を提供するために別様に意識的に行動したりすることなく、自分が何を見ているかを示しながら利益を得ることができる。コンテキストルールエンジン(以下で説明)が、ローカル及びネットワーク/リモート認識エンジンを利用することによって分類及び遷移の最適化を可能にする。
【0016】
多くの実施形態に様々な構成要素を含めることができる。表Iに示すように、限定するわけではないが、これらの構成要素は以下を含む。
表I
【0017】
システムの説明
本明細書で説明する技術は、あらゆる装置とともに動作してあらゆる場所で量販導入を促す無摩擦で常に利用可能な双方向マルチスクリーン体験を配信するのに適している。「無摩擦」とは、消費者の立場から、複数のボタンを押したり、又は例えばインターネット検索などの複雑な動作を積極的に行ったりすることなく、接続された選択装置に双方向コンテンツが配信されることを意味する。システム全体が、インターネット接続装置及びオンラインサーバを含む場合、本文書ではN個の装置によって表示されるコンテンツの少なくともいくつかの側面(例えば、コンテンツ自体の一部分、或いはコンテンツに関連付けられたメタデータ)が全ての装置間で透過的に同期されることを意味する「Nスクリーン」コンテンツ体験の使用を支援するために、システムは、1つの装置上のコンテンツが別の装置上に(又は同じ装置上で実行される別のアプリケーション内に)表示されたときに、このコンテンツを認識するように動作しながらバッテリ式装置のリソースを節約する。
【0018】
あらゆる装置との及びあらゆる場所での双方向性を支援するために、第2の(又は、複数の装置の場合にはN番目の)装置は、表示装置又はコンテンツソースに物理的に接続することなくオーディオ信号コンテンツを認識できるべきであり、たとえネットワークに結合されていても、コンテンツソース又は表示装置がコンテンツに関するデータを前記第2の装置と交換するための手段又はプロトコルは存在しない。さらに、携帯電話及びタブレットなどの接続装置は、バッテリ、処理能力が限られ、ネットワーク帯域幅を節約すべきであると同時に、双方向性の高い又は情報量の多いコンテンツを常に流すという末端消費者の要求に答える。これにより、以下の独特な能力を持つシステムが必要となる。
*装置リソースの節約−CPU又は処理能力、バッテリの消費、ネットワーク帯域幅、及びメモリ容量。
*数百万台の装置を経済的に支援する−限られた数のサーバインスタンスでコンテンツを継続的に認識し、及び/又は同期させる。
*個別相互作用−インターネット上でテキスト検索を使用してユーザインタラクションを必要とせずに特定の映画シーンに関する情報を発見するといった、煩わしく負担の多いタスクをエンドユーザに行わせることなく好ましい双方向コンテンツを配信する。
*双方向Nスクリーン体験を可能にする−例えば(必ずしも同時にではなく)異なるTVと相互作用する同じモバイル装置を使用して、あらゆる場所であらゆる装置とともに機能するようにする。双方向Nスクリーンは、同じ接続装置内に存在することもできる(例えば、接続されたTV。この場合、コンテンツをセットトップボックスからこのTVに配信できるが、このコンテンツに関するメタデータをTV上のアプリケーションに通知するための直接通信チャネルは提供されていない)。
*自動コンテンツ同期−エンドユーザが積極的に又は反応的に何かを行うことなく正しい双方向コンテンツを正しい時刻に提示する。
*検出された遷移及び識別されたコンテンツ項目の個別履歴−エンドユーザが利用することができる。
*遷移イベントのタイムリーな配信−双方向性の高いアプリケーションを駆動するアプリケーションへ(このアプリケーションは、例えば、画面に花火又はちらつきを表示することにより、シットコムTV番組内で起こる喝采又は笑いに特定の方法で反応する)。
【0019】
対処すべき課題
装置リソースの節約−従来の方法を使用して接続装置上のオーディオを継続的に認識すると、プロセッサ、ネットワーク、及びメモリリソースが大幅に消費され、装置のバッテリ寿命がさらに限られるようになる。
*プロセッサ−信号処理は、かなりの量のプロセッサの使用を必要とすることがあり、これが、アプリケーションが利用できる他のリソースを制限し、利用可能なバッテリ電力の消費を大きく増やす可能性がある。
*メモリ−メモリ内のデータを大量に近リアルタイムで処理すると、大量のメモリが必要となる可能性があり、時には利用できないこともある。
*ネットワーク−データを継続的に送信及び受信すると、大量のバッテリ電力が消費され、装置の有用な携帯性寿命が大幅に縮む。また、利用料金が、製品提供の実行可能性に影響を与えることもある。
*バッテリ−携帯装置は、そのバッテリ寿命が限られており、長時間(一度に数時間)にわたって実行されるあらゆる機能とのバランスを保つべきである。
【0020】
数百万台もの装置が同時に作動すると、これらが接続しているサーバに障害が生じる。これは、Gacenoteサービス及びネットワークプロバイダのネットワークの両方に当てはまる(ネットワークプロバイダは、アプリケーション、特にコンテンツをストリーミングするアプリケーションがネットワークリソースを節約するように設計されていることを求めることが多くなっている)。帯域幅の消費を意識することは、リソースを節約するという理由でも消費者によって評価されるであろうが、アプリケーションの待ち時間も減らし、これによりアプリケーションの使用体験が向上する。
【0021】
個別相互作用は、コンテキスト(明示的及び非明示的)、言語、場所(国及び地域など)、及び認識に応じたコマーシャルコンテンツに基づいて所望の双方向コンテンツを自動的に配信するためのものである。
【0022】
(ユーザ識別の有無に関わらず)特定の消費者が所有するあらゆる装置とともにあらゆる場所で機能する、双方向消費者体験を容易にするための双方向Nスクリーンアプリケーションが望ましい。
*現在では、複数の装置が相互作用できるようにするために、エンドユーザが個別アカウントを介して参加する複雑なマルチチャネル通信システムが使用されている。この複雑性が、コストを高めて導入を遅らせ、さらにいかなるときにもあらゆる接続装置との双方向性を得るという消費者の能力を制限し得る。
*装置のリンク−様々な実施形態では、アカウントを作成することなく、装置間でデータ及び個別化を匿名で共有することができる。この結果、(オーディオ又はビデオを介して)緩く結合した装置間の双方向性が得られるようになる。これにより、装置のいずれかの履歴と個別化された方法で相互作用する能力も高まり、多くの社会的可能性及び販売促進の可能性が広がる。
*装置の最適化−様々な装置の能力を使用して、オーディオ及びビデオを処理し認識を高める。環境及びコンテキストフィードバックに基づいて信号を動的に調整することで、様々な装置及び環境間の双方向性が促進される。
*環境の最適化−信号処理を使用して、騒音、音量、場所、歪み、及びその他を含む環境因子を補償することができる。
*コンテンツの抽出−いくつかの実施形態は、配信されたコンテンツから認識イベントを分離するように機能する。複数のコンテキスト因子を使用して、一部の又は全部の装置において適切なときに好ましいコンテンツを配信する。
*コンテンツの同期化−いくつかの実施形態では、コンテンツが、緩く結合した形で継続的に及び自動的に装置間に存在する。遷移の履歴を保持して、個別化を支援することができる。
【0023】
図4は、本発明の様々な実施形態による方法を示す論理フロー図400である。この図では、(テレビ又はラジオなどの)オーディオ信号ソースが、恐らくは携帯電話又はタブレットコンピュータなどの消費者機器上で実行される別のアプリケーションに関連する分類器420にオーディオ信号410を供給する。このストリーミングオーディオ信号410を継続的にサンプリングして、分類及び遷移検出などのその他の目的で使用するための、テンポ、ピッチ、リズムなどのオーディオ特性を特定する。
【0024】
分類器が特定できる分類は、数多く存在する。とりわけ、これらの一部として、オーディオストリーム410を、沈黙、音楽、会話、及び騒音として分類することが挙げられる。
【0025】
沈黙は、(選択した下限及び上限閾値の範囲内に留まる音声レベルの高速変化などの)低レベルのオーディオを特徴とする。下限とは低ピーク閾値のことであり、上限とは高ピーク閾値のことである。音楽は、沈黙と同じ因子を特徴とするが、オーディオが音楽的なものであると判断するための特徴として、信号410からとりわけリズム、テンポ、及びピッチが抽出される。会話は、音楽と同じ因子を特徴とするが、テンポ及びリズムは低値と認識され、ピッチのために抽出される特徴に重点が置かれる。騒音は、単調音(正弦波)又は客車の騒音などの、沈黙、音楽、又は会話として見なされない音として分類することができる。必要であれば、オーディオストリーム410を(フィルタ又はイコライザなどの)オーディオプロセッサ414によって処理し、予想される遷移に対してシステムを敏感にすることができる。
【0026】
分類が決定すると、遷移検出器430において遷移の検出が行われる。分類器420によって提供された特性尺度を、(分類器によって提供された)分類自体、及びその瞬間に存在する明示的コンテキスト及び非明示的コンテキストとともにモニタすることにより、遷移の発生を判断することができる。一連の閾値ルールに従い、分類、明示的コンテキスト、及び/又は非明示的コンテキストのうちの少なくとも1つに変化があったと判断することにより、遷移が検出される。
【0027】
明示的コンテキストは、ユーザがデータを入力し又は制御を開始することにより、或いは(ある人がテレビのリモコン上で「私はTVを観ている」と確認すること、又は車のダッシュボード内のヘッドユニットが「カーラジオが「オン」になっている」と示すことなどの)具体的な電子信号の存在により提供される。非明示的コンテキストは、受け取った最新のオーディオ信号セットの特性を調べることにより判断される。
【0028】
例えば、停車中の車の騒音成分は低いが、動いている車の騒音成分は高い。従って、このコンテキストにおける高い騒音成分を使用して、停車と移動の間の遷移を検出することができる。
【0029】
別の例では、会話成分値が低く音楽成分値が高い場合、音楽が再生されていることを意味することができ、会話成分値が高く音楽成分値が低い場合、コマーシャルの時間に入ったこと、又は携帯電話を使用中であることを意味することができる。実行中の携帯電話アプリケーションの明示的コンテキストの指示を使用して違いを判断し、コマーシャル時間への遷移が実際に起きたことを検出することができる。コンテキスト自体の変化を使用して、関心のある遷移を検出することができる。
【0030】
コンテキストに基づく分類には、(テレビ番組からコマーシャルへの変化などの)オーディオ信号の変化の特徴として重み付けすることができる。(バーの店中などの)明示的コンテキスト及びこれらが交差したときに認識される特徴の値(大きな騒音成分など)により、複数の閾値を設定及び解除することができる。特徴の尺度の変化を時間とともに追跡することができる。(分類器によって設定した)選択した時間ウィンドウ内のこれらの尺度の変化を遷移として識別することもできる。従って、コンテンツの分類、コンテキスト、及び以前の認識に応じた閾値の変化が生じる場合がある。
【0031】
コンテキストマネージャは、携帯装置内で動作する、又はほとんどの実施形態ではネットワーク上で動作する識別エンジン424と通信することにより、認識されるオーディオストリーム内の時間的位置を特定することができる。分類ウィンドウは、環境、装置、及びコンテンツ(「コンテキスト」)の特徴を反映するように変化することができ、また分類ウィンドウは、16ミリ秒、100ミリ秒、750ミリ秒、1秒、又はそれより長い範囲にわたって開くことができる。
【0032】
ウィンドウ内で検出された遷移が多すぎる場合には、ウィンドウ時間を短くすることができる。同様に、検出された遷移が少なすぎる場合には、ウィンドウ時間を長くすることができる。いくつかの実施形態では、ウィンドウを「ブロック」と呼ぶ。従って、ウィンドウの長さを、(双方向番組の間などの)特定の時間基準にわたって分類を行うように設定することができる。このことは、番組内の特定の位置(例えば、番組終了間際の拍手)とともに遷移が識別される場合に有用となり得る。例えば、ユーザインターフェイスなどの呼出しアプリケーションに、番組内の特定の時点に達したことを知らせることができる。特定のテレビ番組に関連する対話式玩具に、オーディオ信号を「拍手」として分類し、この玩具に関連する番組が進行中の場合に拍手するように命じるなどのように、適当な時間に特定の遷移が検出されたときに装置434の動作を開始させることもできる。
【0033】
コンテキストマネージャ440は、遷移閾値及び一般的分類のパラメータをオンザフライで調整することができる。従って、500ミリ秒又は250ミリ秒ではなく、750ミリ秒から1000ミリ秒へ向かうウィンドウを使用することにより、(番組から)コマーシャルへの遷移としての沈黙期間をより正確にモニタすることができる。コンテキストマネージャ440は、オーディオ信号分類のより正確な識別を得るために追加情報(追加のモニタリングウィンドウを使用することによって戻されるデータ)を要求することができる。
【0034】
図5は、本発明の様々な実施形態によって動作するシステム500内の情報の流れを示すブロック図である。この図では、分類器420、遷移(変化/傾向)検出器430、及びコンテキストマネージャ440が、より包括的な双方向ストリーミング識別及び処理システム500にどのようにして適合するかを理解することができる。
【0035】
局所的分類モデルデータベース506は、消費者装置を含むことができるローカルメディアソース512によってアクセスを受ける。データベース506は、測定された(笑い声、拍手などの)所与のオーディオストリームセグメントのパラメータに関連するスコア値セットを含む。これらのスコアを表の形で提供することができる。分類器420は、これらのスコアを使用して、オーディオストリーム内の現在の情報を分類する支援を行うことができる。ネットワークサーバ520を使用して分類を行うこともできる。
【0036】
局所的変化/トレンドパラメータデータベース526は、メディアソース512上に維持しておくことができる。その後、このデータベースを、(変化/トレンドパラメータサーバ534などの)ネットワーク支援によって更新及び改正することができる。場合によっては、データベース506は、(サーバ520などの)ネットワークサーバ上のみに保持される。
【0037】
識別エンジン424は、作成された署名をオーディオ信号特性から識別する。この署名をローカルに、又はネットワークを介して(例えば、識別サーバ524を使用して)基準と比較することにより、識別コード(及び、恐らくはオーディオストリーム内の時間的位置)を特定できるようになる。このコードを使用して、関連するコンテンツ(例えば、オーディオストリームにアルバムが関連する場合、このアルバムを値引きして販売する申し出など)を要求して受け取ることができる。
【0038】
コンテキストサーバ550は、コンテキストマネージャの決定を修正するための追加の及び調整したルールを提供することができる。このことは、コンテンツが時間とともに変化するときに有用となることがあり、これにより(例えば、同じ番組又は楽曲に関する複数のクエリがほぼ同時に到着したときなどに)ネットワークリソースが保護されるようになる。従って、(例えば、30秒の間隔内に特定のコマーシャルに関する遷移が10回あり、これがネットワークに大きな負担をかけるような)識別動作のパターンをコンテキストサーバ550によって識別することができ、遷移の検出回数が減るようにルールの調整を行うことができる。これらの調整により、ネットワーク帯域幅、並びに携帯式消費者装置内のバッテリの使用が保護される。
【0039】
ルールに基づくコンテキスト分類の遷移−コンテキスト、分類、遷移検出、及びデジタルフィンガープリント法をネットワーク支援ルールとともに使用してコンテンツを識別し、メタデータ、画像、及び基準フィンガープリントから得られるその他のデータが、接続ネットワーク及び/又はローカルな埋め込み基準リポジトリを介して戻されるようにすることができる。
【0040】
ルールに基づくコンテキスト分類の遷移(RBCCT)は、様々な装置、環境、コンテンツ、ネットワーク設定、及びユーザ設定に関する信号認識の、支援されていないエンドユーザによる動的最適化を可能にする。例えば、RBCCTを使用して、アプリケーションが、コンテキストを「TV」であると明示的に(又はデフォルト設定を通じて)示し、ネットワーク駆動によるフィンガープリントストリーミングを使用して信号(オーディオ又はビデオ)を認識して、メタデータ/コンテンツを迅速に同期化して戻せるようにすることができる。この方法は、この明示的に示されたコンテキスト及びルールエンジンを使用して、(オーディオ信号などの)信号ソースの遷移を高い精度でコンテキストから検出できるようにする。さらに、コンテキスト分類及び遷移検出のルールをネットワーク駆動式として、認識及び関連性を継続的に改善することができる。この方法を、(TV番組などの)外部コンテンツ内の位置及びタイミングに関するデータと組み合わせることで、自動的な同期された認識が可能になる。これらの技術は、緩く接続された装置における継続的な信号の受信を可能にする一方で、数百万台の同時に動作する装置の、エンドユーザインタラクションを全く伴わずに(TV、ラジオなどの)外部コンテンツと高精度に同期するリソースを節約するために有用である。
【0041】
オーディオ及びビデオストリーム内の分類及び変化の検出とともにコンテキストを使用して、コンテンツを識別して継続的に同期させることができる。コンテキストは、明示的コンテンツ及び非明示的コンテンツで構成される。明示的コンテキストは、エンドユーザ又は外部アプリケーションにより設定されるものである。非明示的コンテキストは、信号を分析して信号の特性を判定することから導出されるものである。明示的コンテキスト判定と非明示的コンテキスト判定の組み合わせを使用することにより、より正確な遷移の識別が可能になる。
【0042】
明示的コンテキストは、双方向コンテンツ及びリソース消費(TV、ラジオなど)のより微細化された制御を可能にする階層を含むことができる。「TV」及び「車」の明示的親コンテキストの階層の単純化した例を、数値識別子とともに表IIに示す。
表II
【0043】
追加の明示的コンテキストは、とりわけ、言語、国、及び(複数の一致から1つの一致を選択するための)コマーシャル識別子を含むことができる。
【0044】
非明示的コンテキストは、コンテンツ信号のローカル因子及び特徴を使用して特定される。非明示的コンテキストの例としては、とりわけ、時間、場所、装置タイプ、信号分類(沈黙、ムード、テンポ、ピッチ、エネルギー、オーディオ及び/又はビデオから抽出される複数の特徴など)が挙げられる。非明示的コンテキストを、ネットワーク情報に基づいて特定することもできる。これにより、最も関連性の高い双方向コンテンツの配信を自動的に改善できるようになる。非明示的コンテキストは、ランタイム、ネットワーク支援による改善により、双方向コンテンツ及びリソース消費のより微細化された制御を可能にする階層の形で存在することもできる。表IIIは、非明示的親コンテキストを「TV」及び「CAR(車)」とする非明示的コンテキスト階層の例である。この場合、CAR(車)、CAR RADIO(カーラジオ)という明示的コンテキストを明示的に示す信号をカーラジオから受信する代わりに、消費者の携帯装置が、車両ナビゲーション音声を受信したと認識することができ、これによりCAR(車)、CAR RADIO(カーラジオ)というコンテキストが非明示的に特定される。
表III
【0045】
コンテキスト管理は、効果的で拡張性のある適応的プラットフォームを提供するために有用である。ユーザ介入を伴わないマルチ装置環境では、配信されたコンテンツを、同じ又は別の装置上に表示されるオーディオ及びビデオに同期させることは困難である。エンドユーザの動作又は複雑な制御チャネルシステムを伴わずに同期する一方で、双方向性の高いアプリケーション体験を可能にするためのアプリケーションに遷移イベントを提供するシステムでは、大量導入を促進することができる。このようなシステムのいくつかの特徴として、以下を挙げることができる。
*履歴管理−同じ又は他の装置上の双方向体験を関連付けて再生する能力。
*メタデータ及び資産をキャッシュする認識エンジン−コンテンツが変化したかどうかを判定する目的でクエリ及び応答を分析するためのもの。
*スロットリング−クエリの数をサイズ、時間及び周波数ごとに制限する。サービスネットワークとやりとりして精度を高め、リソースの消費を低減する。
*アプリケーション通知−呼出しアプリケーションにいつ何を配信するかを制御し、単純化したエンドユーザ体験を提供するために有用である。この特徴は、第三のソースからコンテンツを検索する能力を含む。
*遷移オーバーライド−履歴管理、アプリケーション通知、明示的設定、非明示的設定、及び外部ソースを使用して行うことができる。
*適応的フィンガープリントストリーミング−認識エンジンにサブフィンガープリントを迅速に送信するように機能する。(単複の)コンテキスト、ネットワーク情報、遷移などを使用して、どれほどのフィンガープリントを作成して送信するかを制御することができる。認識を戻すことにより、フィンガープリントの生成が停止される。この動作は、ローカル及びリモート識別(フィンガープリント採取)エンジンの使用を含む。いくつかの実施形態は、フィンガープリントに基づく認識を動的に構成する方法を含み、この方法は、分類出力情報を使用してフィンガープリントアルゴリズムを選択するステップを含む。これは、アルゴリズムによって、騒がしい環境でより良く機能するものもあれば、静かな環境でより良く機能するものもあり、大きなフィンガープリントを提供するものもあれば、小さなフィンガープリントを提供する(数多くのフィンガープリントを処理する場合に有用となり得る)ものもあるからである。
*社会的個別化−コンテキスト(明示的及び非明示的)、言語、場所(国及び地域)に基づいて好ましい双方向コンテンツを、並びにコンテンツ及び関連する遷移の認識に応答してコマーシャルコンテンツを自動的に配信することを含む。
*オーディオトーンを介したペアリング−装置、グループ、及びコミュニティをリンクするために、フィンガープリント法を使用して時間的オーディオトーンを一意に識別することができる。1つの装置により再生されるオーディオを、その装置に一意に関連するトーンとして個別化することができる。
*クラウドベースのペアリング−一方の装置が、複数の装置、ユーザ、及び/又はグループの装置であるもう一方の「対になった」装置の認識履歴を確認できるようにする。これを使用して、1つの装置からの広告にもう一方の装置がアクセスできるようにし、多くの社会的相互作用を促進する。
【0046】
従って、多くの実施形態を実現することができる。以下、これらのいくつかを簡潔に示す。
*デジタルフィンガープリントでの分類を使用して、オーディオストリーム及び/又はファイルの一部を識別する。
*オーディオ信号の変化(「遷移」)検出方法を使用して、フィンガープリントアルゴリズムを選択する。
*特定されたコンテキストを使用して、オーディオ及びビデオストリームの分類及び変化検出を支援する。
*分類、遷移検出、及びデジタルフィンガープリント法の組み合わせを使用して、接続ネットワーク及び/又はローカルな組み込み基準リポジトリを介して基準フィンガープリントからのメタデータ、画像、及びその他のデータを戻す。
【0047】
ストリーミングクライアント設計
図6は、本発明の様々な実施形態による、ストリーミングクライアント装置600の構成要素を示すブロック図である。装置600の実施形態のように、ストリーミングクライアントは、(インターネットに無線で接続されたような)接続装置が、オーディオ(及びビデオ)遷移を継続的に分類し、標準的MID−ストリーム、リンク、カバーアート、画像、及びウェブAPI(ブラウザなど)といったGracenote(登録商標)の提供物のようなフィンガープリント法及び/又は媒体認識技術を使用してコンテンツを同期させることができるようにする。この機能は、双方向TVから、ゲーム投票、ソーシャルネットワーク、各付けに至るまでの多くの使用事例を支援する。ストリーミングクライアント装置600の論理的構成要素は、ハードウェアモジュールとして、ソフトウェアモジュールとして、或いはこれらの組み合わせとして実現することができる。以下、これらのモジュールについて説明する。
【0048】
分類器610は、オーディオ(及び/又はビデオ)を分析し、信頼区間を含む複数の分類を定義する。この例として、沈黙、騒音、会話、ハミング、及び歌が挙げられる。この図には、オーディオ及び/又はビデオ信号のソース装置を示していないが、これらは当業者に周知であり、既に説明済みである(TVオーディオなど)。
【0049】
分類器610のオーディオプロセッサ要素は、動的同等化を行って、特定の周波数を強調又は除去し、オーディオ信号内のスパイクを無くす。コンテキスト処理も行う。オーディオプロセッサは、ルールエンジンを含む分類マネージャからの出力を使用して、PCMオーディオなどの連続オーディオを受け取り、いつコンテンツのフィンガープリントを採取すべきか、及びGNサービスにクエリを送信すべきかを判断する。複数の分類を使用して、(オーディオ内の、沈黙から会話への「遷移」などの)特定のオーディオの変化がいつ生じたかを判断する。これらの変化は、とりわけ、ピッチ、ムード、テンポ、沈黙、騒音及び/又はリズムの増加又は減少を含むことができる。
【0050】
デジタルフィンガープリントを介した認識を改善するために、動的同等化を使用して、分類器610内のオーディオを事前処理することができる。この機能は、異なる装置特性、騒がしい環境、歪んだオーディオ、及び低いエネルギーを補償する役に立つ。任意に、着信するオーディオ信号処理をオン又はオフにすることができる。サンプルは、毎秒ではなく数分ごとに、又は1秒間に複数回取ることができる。これは、例えば明示的コンテキストが「TV」を含み、このTV機器がオフになっているときに行うことができる。
【0051】
遷移エンジン620は遷移検出器を含み、この遷移検出器が、分類器610から分類尺度及びオーディオを受け取り、遷移が検出されたときには、着信信号の尺度及び明示的/非明示的コンテキストに基づいてこの遷移を割り当てる。この結果が、遷移マネージャに提供される。
【0052】
遷移を使用して、例えば、テレビ番組とそのコマーシャルを分離することができる。さらに、この動作を使用して、コマーシャルコンテンツのフィンガープリントをリアルタイムで生成して記憶し、認識フィンガープリントデータベースを近リアルタイムで更新することができる(例えば、コマーシャル及びニュースコンテンツを、事前に記録したコンテンツに依拠することなく、最初の放送後すぐに認識することができる)。
【0053】
遷移エンジン620のビデオプロセッサは、ビデオ遷移を検出するために使用される。この構成要素は、着信オーディオ信号に対応するビデオ信号を受け取り、ビデオフィンガープリントパターンを使用してコンテンツの遷移を識別する支援を行えるようにする。
【0054】
遷移エンジン620内の動的コンテキストモジュールは、コンテキストマネージャ630から情報を受け取って、遷移検出器要素が遷移を検出するために使用する閾値及び尺度を調整する。従って、異なるコンテキストを特定することができ、これによってさらに異なる遷移が検出されるようになる。
【0055】
遷移エンジン620内の遷移マネージャモジュールは、エンジン620のその他の構成要素を管理し、特定されたコンテキストを使用してこれらのその他の構成要素の動作を調整する。
【0056】
コンテキストマネージャ630は、装置600を(TVなどの)オーディオ/ビデオソースに動的に同期させる。入力ストリームからの複数のパラメータ及びコンテンツへの応答を使用して、追加のクエリが必要かどうか、及び応答オブジェクトが送信されたかどうかを判定する。コンテキストマネージャ630は、何のフィンガープリントを採取するか、いつフィンガープリントを採取するか、及びどの識別エンジン650を使用するか、及びいつ識別データをローカルにキャッシュすべきかを判断する。
【0057】
コンテキストマネージャ630内のコンテキストイベントエンジンは、遷移エンジン620から受け取った遷移イベント情報を識別エンジン650に配信すべきか、それともアプリケーションに配信すべきかをコンテキストに基づいて判断する。
【0058】
コンテキストマネージャ630内の設定マネージャは、バッテリ節約の重要度、又は帯域幅節約の重要度などの(例えば、アプリケーション及び/又はエンドユーザが行うことができる)明示的な動作設定を、販売情報の配信などの他の優先度の範囲内で可能にする。
【0059】
コンテキストマネージャ630内のペアリングマネージャは、コンテンツマネージャ670内のモジュールと通信するように機能する。このペアリングマネージャは、装置を対にすることにより、一方の装置が、もう一方の装置の認識履歴の全てにアクセス(を共有)できるようにすることができる。
【0060】
例えば、ペアリングを許可にするための要求を提出した送信側装置が音を使用して、限られた時間にわたる署名を生成することができる。この音を送信側装置が再生し、受信側装置がこれを受け取ってペアリング要求と結び付ける。受信側装置は、さらにこの音をサーバへ送信する。その後、各装置(送信側及び受信側)の基準オーディオの署名をサーバにおいて比較し、送信側装置からのオーディオ送信及び受信側装置からのペアリング要求を、60秒などの指定した時間ウィンドウ内でサーバにおいて受け取ると仮定する。このペアリング処理をサーバで行って、一群の対になった携帯電話機に基づくゲームプレイ動作を提供することができる。
【0061】
このようにして、一方の装置にとって一意である個別化された音声署名を、今やもう一方の装置が認識することができる。また、全ての認識動作を2つの装置(送信側及び受信側)間で共有して、一方の装置上での認識イベントを他方の装置へ送信できるようにすることもできる。共有は、既知のソースから(例えば、ログインしたユーザから)行っても、或いは匿名で行ってもよい。換言すれば、送信側装置又は受信側装置のいずれかによるペアリング動作は匿名で行うことができ、ログインを使用する必要はない。
【0062】
ファイル識別モジュール640は、複数のデコーダを含む。これらの、AAC(アドバンスドオーディオ符号化)、OGG(Oggオープンコンテナフォーマット)、及びMP3(ムービングピクチャエキスパートグループ(MPEG)−1又はMPEG−2オーディオ層III)デコーダなどのデコーダは、当業者が認識している通りに動作する。これらのデコーダは、異なるフォーマットのファイルを復号してPCMオーディオを生成するために使用される。プラグインデコーダを使用して、専用フォーマットをPCMに復号することができる。
【0063】
ファイル識別モジュール640内の応答ハンドラは、復号処理、ファイル入力、及びエラーを管理する。この応答ハンドラは、特定の時点にどのデコーダを使用すべきかに関する決定を行うこともできる。
【0064】
署名モジュールは、署名(フィンガープリントなど)のローカルキャッシュを提供する。ローカル署名キャッシュは、内部的に及び/又は第三者により開発された署名を含む。これらを識別エンジン650が使用して、モニタしたオーディオ又はビデオストリーム内の様々な位置に迅速に再同期させることができる。
【0065】
識別エンジンモジュール650は、署名を生成して、これらをコンテキストマネージャ630及びその他のモジュールに配信する。様々なアルゴリズム(ローカルなフィリップフィンガープリント法、ローカルなサードパーティフィンガープリント法、ネットワークサーバを介したリモートフィンガープリント法など)を使用して、PCMオーディオを受け取り、署名出力を生成することができる。識別エンジンモジュール650内の応答ハンドラは、フィンガープリント署名の生成におけるエラーを管理するように機能する。応答ハンドラは、必要時に追加の署名を要求することができる。
【0066】
プロトコルハンドラモジュール660は、識別、ペアリング、及びリッチメタデータ及び画像の要求を送信する。登録モジュールは、装置の登録を処理する。ローカル認証には、認証モジュールを使用することができる。ペアリングモジュールを使用して、装置を対にするための要求を送信/受信することができる。プロトコルハンドラモジュール660内の応答ハンドラモジュールは、ネットワークがこれ以上動作しない場合などの、通信のエラーを管理するように機能する。応答ハンドラモジュールは、ネットワークを識別して、システムの動作(ムービートレーラが再生されるかどうかなど)を判断することもできる。クエリエンコーダ/デコーダモジュールは、通信を適当なプロトコルにフォーマットするように機能する。
【0067】
コンテンツマネージャモジュール670は、ローカルにキャッシュできるコンテンツの送信及び受信、並びにネットワークからのプッシュ通知を管理する。ローカル履歴、並びに一群の対になった装置に関連する履歴をキャッシュすることができる。コンテンツマネージャモジュール670内のリンクマネージャは、例えばオーディオ又はビデオ信号内で行われた提示の一部として認識できる製品へのリンクを検索するために使用される。リンクマネージャは、キャッシュすべきローカルコンテンツに特化した要求を、実行中のアプリケーション又は認識されたコンテンツに基づいて、戻すことができるリンクの識別を介してネットワークから検索する。
【0068】
図7は、本発明の様々な実施形態によって動作するストリーミングクライアント装置700のブロック図である。この図には、図6に示すシステム機能の異なる構成を示している。概念的な構成及び結合はわずかに異なるが、個々の構成要素の動作は同じである。
【0069】
従って、いくつかの実施形態は、所与のコンテキスト内で遷移が起きたときにコンテンツ内の関心のある遷移を認識する光学又はオーディオセンサの少なくとも一方を含み、関連コンテンツを表示/再生することによって応答するモバイル装置を含む。いくつかの実施形態は、実行時にモバイル装置にこのように動作するように指示する命令を記憶する媒体を含む。
【0070】
いくつかの実施形態では、ネットワークに接続された携帯電話又はコンピュータタブレットが、例えば、マイク又は光学検出器を介して受け取ったオーディオ及び/又はビデオコンテンツに同期する能力を有する。従って、ラジオ又はTVにより提供されるコンテンツを認識して、俳優、アーティスト、関連映画、及びメタデータとしてのその他の情報を特定することができる。URL(ユニバーサルリソースロケータ)を含むプロモーションへのリンクにより、関連商品を購入する機会を与えることができる。
【0071】
このオーディオ又はビデオ入力に基づいて自動的かつ継続的にコンテンツに同期する機能は、多くの利点をもたらす。例えば、個人の住宅に携帯電話機を持ち込み、これを使用して、サッカーの試合のハーフタイムにコマーシャルが流れているという事実を認識することができる。特定のコマーシャルの認識に基づいて、この携帯用消費者装置に、製品を購入又は撮影するという選択肢を戻すことができる。いくつかの実施形態では、特定のコマーシャルの変形が認識される。これにより、広告主が、特定のコマーシャルの個々の変形の獲得率を特定できるようになる。
【0072】
従って、消費者に、より魅力的な体験が提供される。例えば、TVで特定の映画が再生されている場合、俳優/女優に関する情報を表示することができる。恐らくは、見ている映画に類似する他の映画のタイトルを表示することもできる。類似の映画を借りる又は購入する機会を提供することもできる。
【0073】
いくつかの実施形態では、オーディオのフィンガープリントが採取される。フィンガープリント又は署名が生成されると、追加のデータを検索することができる。例えば、子供のテレビ番組において、コマーシャルへの遷移を検出して双方向性を提供することができる。コンテキストに応じて、異なる関心のある遷移を定義することができる。これらの遷移を使用して、アプリケーションの起動、関連する主題の表示などの様々な動作を開始することができる。
【0074】
遷移は、コンテンツ内の変化によって識別することができる。この変化は、(番組中にコマーシャルが始まったときなどの)沈黙期間であってもよい。しかしながら、その他の変化も認識に役に立つ。これらの変化は、ピッチ、エネルギーの変化、音楽と会話の発生割合、及びリズムの変化を含む。コンテキストマネージャは、遷移が起きたかどうかをコンテキストに基づいて判断する。これにより、例えば、テレビ番組内のより強烈なシーンとは対照的なものとして、コマーシャルへの遷移が行われたかどうかを判断できるようになる。
【0075】
以前の解決策は、コンテンツに組み込まれた電子透かしを実践して、追加の関連する主題の表示を開始していた。しかしながら、このような方法は同期の問題を生じやすい。
【0076】
実行可能な代替案を提供するために、いくつかの実施形態では、環境コンテキストにより定められた特徴を使用して、周囲環境からの音を継続的にモニタし、イベントを分類して遷移を検出する。かなりの量の電力を節約できる1つの方法として、特定の種類の遷移が起きない限り、関心のある遷移に有用な付加物を与えるフィンガープリントを抽出しないようにすることが挙げられる。
【0077】
コンテキストマネージャは、遷移をどれほど積極的に検索するかを決定することもできる。例えば、TVで見る映画が2時間の特別番組であることが分かっている場合、ある種の遷移にのみ高い重みを与える。このようにして、検出される遷移数を減少させる。一方、バー内で、多くの音源が存在する場合、同等化を選択的に使用してオーディオストリームの一部を排除することができる。すなわち、オーディオストリームに、選択した周波数範囲にわたって意図的に穴を開ける。次に、この穴の開いたオーディオストリームが、遷移を認識する基礎として役立つことができる。これにより、関心のある遷移を特定するために抽出される特徴が少なくなるので、装置の動作電力を節約することができる。従って、選択的な動作を開始するための最終付加物として使用されるフィンガープリントを用いて、コンテキストに基づいて遷移を分類することができる。
【0078】
分類を使用して、クライアント装置を動的に構成することもできる。クライアントを構成するために、信号内の項目などの特徴を認識することができる。クライアント装置は、携帯電話、タブレットコンピュータ、又は他の何らかの電子コンピュータ装置を含むことができる。信号内の複数のパラメータを使用して、騒音が多くたくさんの人が喋っているバーからカップルが映画を見ている静かな家にまで及ぶ環境での使用に適応させるために、遷移検出に分類を使用することができる。別の環境例として、ラジオが鳴っている車の環境がある。道路の騒音、ラジオのチャネル変更、及び行き交うアナウンサーの声が存在する。窓を開けている場合は、さらなる道路の騒音が存在する。
【0079】
従って、いくつかの実施形態は、モバイル装置に関連するコンテキストを識別し、このコンテキストが変化したときに関心のある遷移を検出するようにモバイル装置を動的に構成する方法を含むことができる。この方法の一部として、或いはモバイル装置に関連する1つよりも多くのコンテキストを識別し、記憶したポリシーに基づいて、構成のための/遷移を識別するためのコンテキストの1つを選択する別個の方法として、競合する関心を処理することができる。
【0080】
トレーニングモジュールは、信号処理ユニットを動的にトレーニング及び構成することができる。処理ユニットを構成するために、特定のコンテキスト内の分類及び遷移検出を使用することもできる。このモジュールは、TVが動いていて複数の人々が喋っているバー、又は複数の人がTVを見ながら喋っているホームパーティなどの、動作が困難な環境において信号を処理する役に立つ。
【0081】
いくつかの実施形態では、コンテキスト判定及び遷移検出を使用することにより、音声認識装置及びソフトウェアを支援する。コンテキスト判定及び遷移検出により、ソフトウェアアプリケーションを支援することもできる。例えば、TV番組とともに機能するように設計されたソフトウェアアプリケーションを、音楽を無視するように調整することができる。騒がしい会話をフィルタ除去して無視することができる。この動作は全て、コンテキストに基づくことができる。いくつかの実施形態では、受け取ったオーディオ信号間の時間変位が、近くのソースと遠くのソースを区別する役に立つことができる。
【0082】
図8は、本発明の様々な実施形態による動作を示す状態機械図800である。コンテキストは、信号の事前処理、閾値化を支援することができ、このコンテキストを使用して、オーディオ又はビデオデータストリーム、又はこれらの両方であってもよい入力データを分類することができる。検出された遷移が示されるだけでなく、遷移の特徴も与えられる。このことを状態機械図800で確認することができ、この状態機械図800は、いくつかの実施形態では、双方向ストリーミング識別システム(ISIS)エンジンの動作を記述することができる。
【0083】
ブロック810において、オーディオ信号の聴取を開始する。決定木を使用して、聴取動作がいつ終了又は中止されたかを判定することができる。ブロック820において、コンテキストに基づいて信号を事前処理する。ブロック830において、受け取った信号を使用して、受け取った情報を分類器を使用して分類する。ブロック820における分類を支援するために、GNサービスを使用することができる。しかしながら、サーバ呼出しは不要であり、この処理部分はクライアント上でも行うことができる。分類エンジンを、騒がしい環境、静かな環境において、及び異なる種類のコンテンツで動作するように構成し、このように動的に調整することができる。分類結果内に遷移が検出された場合、フィンガープリント法及び/又はデータ検索などのGNサービスを使用することができる。
【0084】
別のドライバは、ブロック860においてアプリケーションへ情報を配信(例えば、トリガ)することである。これらは、コンテンツ内で話している人々の遷移などの遷移がブロック840において検出されたときに行うことができる。
【0085】
遷移の種類によっては、コンテンツが変化していないという理由で別の遷移を検出できるようにならないものもある。例えば、音楽又はTV番組が、車の運転、或いは誰かがゲーム番組又はシットコム内で拍手していることを示すことがあり、拍手が起きたときにアプリケーションが特定の動作を行う。いずれの場合にも、オーディオ/ビデオコンテンツは依然として番組の一部であり、1つの形のコンテンツから(コマーシャルなどの)別の形のコンテンツへの遷移は存在しないが、双方向アプリケーションの挙動は、現在のコンテンツ内で生じる遷移に応答して変化する。
【0086】
ブロック850では、以前の状況からの入力を使用して、(フィンガープリント法及び/又はデータ検索などの)GNサービスとともに、使用された以前の識別エンジン、及びこれらの構成要素に基づいてアプリケーションへ送信すべきトリガを決定するためのその他の入力、及び特定されたコンテキストを評価する。
【0087】
ネットワークを使用して検索を行うこともある。例えば、ISISエンジンが動作中であってTV番組がオーディオ入力を提供する場合、TV番組の一部を成す群衆の騒音が大きく増加したことを通じて遷移を検出することができる。これに応じて、アプリケーションは、画面上に花火を表示することができる。別の例では、コマーシャルの一部として掃除機の電源が入った場合、この特定のブランドのインターネット販売サイトへのリンクを視聴者に提示することができる。信号の特性を分類することにより、この多くのアプリケーションの使用を可能にするコンテキストに関してムードを設定することができる。
【0088】
いくつかの実施形態では、ISISエンジンが、再生が一時停止されていること、又は視聴者が拍手していることを検出することができる。これらのコンテキストヒントを検出して使用し、視聴者とのさらなる対話のための特定の動作を有効にすることができる。従って、ISISエンジンは、TVのオーディオ及びビデオコンテンツ、並びにTVを取り巻く環境内の音(拍手など)をモニタし検出して、双方向エンターテイメントを提供することができる。特定の実施形態は、何を検出したか、及び何を分類したかによって異なることができる。当業者には、騒音、会話、及び音楽コンテンツの認識及び分類は周知である。
【0089】
従って、遷移を使用して動作をトリガすることができる。分類器の状態の変化は、恐らくは1又はそれ以上のフィンガープリントを局所的に又は遠隔的に使用して、媒体認識サービスの開始をトリガすることができる。このトリガを使用して、視聴者の近くに存在する(携帯電話などの)ハンドヘルド装置上に(花火などの)視覚効果又は他の何らかの動作を提示することができる。
【0090】
別のトリガされる動作は、音楽がコンテキストである場合、ローカルなフィンガープリントを採取して、ハンドヘルド装置内にローカルなフィンガープリントが記憶されている5つのTVシリーズのうちの1つのテーマ曲であるかどうかを判定することであってもよい。他の多くの実施形態が可能である。
【0091】
いくつかの実施形態では、ローカル基準とネットワークに基づく比較の組み合わせを使用する。この比較に基づいて決定を行うことができる。コンテキストがローカルに認識されない場合、これは関心のある遷移を表していることもある。ブロック850においてこれを制御する。(携帯電話などの)ユーザ装置上でアプリケーションを実行して特定の種類のコンテンツを認識することができ、これらのコンテンツが発見されなかった場合、特定の意味を有していることがある。場合によっては、所与のTV番組内で広告主が自社のコマーシャルを検索していることもあり、或いはネットワークオペレータがTV番組内の特定のコンテンツを検索していることもあり、−これらがローカルに発生しなかった場合、番組内で別の動作が行われていることを意味することができる。
【0092】
いくつかの実施形態では、動的分類を使用する。すなわち、コンテキストにより、分類器をフィードバックループの一部として調整することができる。ブロック830において分類器が提供されると、ブロック840において遷移が検出され、コンテキストマネージャは、発生した関心のある変化を特定し、ブロック860において動作をトリガすることができる。この動作によって追加コンテキストが提供され、これにより分類器がフィードバック機構として調整されるようになる。この機構は、コンテキストによるオーディオの事前処理、分類器、遷移の範囲、コンテキストマネージャによる動作、トレーナ分類器による動作、及び分類器の動作に戻ることを含む。
【0093】
従って、コンテキストは、特定のクラスを有効又は無効にすることによって分類器の命令に影響を与えることができるが、遷移基準、すなわち遷移を検出するために使用する閾値にも影響を与えることができる。例えば、遷移検出器が、「これは映画である」と示すことがあり、映画には音楽よりも多くの会話が含まれることが分かっており、従って分類器は、実際には喋っていないときに何かを会話として分類する傾向にある。従って、会話閾値の感度を下げることができ、この場合、会話が長時間にわたって変化したとき、又は他の何らかの会話の指示が存在するときにのみ会話遷移が検出される。このようにして、遷移閾値検出を調整することができ、これがさらに分類に影響を与える。
【0094】
別の例では、カーラジオの音声によってオーディオコンテンツが提供される車内などでは、分類器を、音楽又は音楽以外のものを示すように調整することができる。「車」のコンテキスト内で動作すべきかどうかの判断は、騒音、背景音、コンテンツなどに基づいて行うことができる。ユーザは、環境を示すように促されることもある。この決定は、ブロック850においてコンテキストマネージャが行うことができ、このコンテキストマネージャが、(ユーザデータ入力などの)明示的入力及び(道路の騒音を強く示す信号から抽出された特徴、時速20マイル以上の移動速度を示すGPSの移動などの)非明示的入力を受け取る。その後、それ以外を示す他のコンテキストキューを受け取るまで、コンテキストマネージャを、「車」のコンテキストの範囲内で動作するように構成することができる。
【0095】
他の例としては、マッピング入力とともに、たくさんの人々が会話している状態でガラスが互いにぶつかって出る音が挙げられる。これは、「バー」のコンテキストを示すことができる。バスの送迎時刻表内の特定の時刻にバス停近くで通りの騒音が聞こえ、場所が固定されている場合、クライアント装置を持ち歩いている人が次のバスが来るのを待っていることを示すことができる。
【0096】
従って、コンテキストマネージャは、遷移閾値とともにどの分類器プロファイルを使用するかに関する通知を分類器に行う。このようにして、コンテキストマネージャから情報を受け取ることにより、分類器の性能を向上させることができる。
【0097】
基準コンテキストとしての車(又はその他の環境)を使用して、上限及び下限及び/又はその他の閾値を使用した分類器閾値の適応的調整を行うことができる。この調整により、恐らくは騒音レベル閾値範囲を使用する特定のコンテンツの分類に影響を与え、コンテンツの特定の特性を検出し分類して実際に遷移が起きたかどうかを決定できるようになる。
【0098】
最終的に、消費者の認識を改善し、バッテリ寿命を延ばし、ネットワーク帯域幅を節約し、ネットワーク及びサーバのローディングを短縮することができる。
【0099】
いくつかの実施形態では、システム内の多くの動作がローカルに行われる。例えば、コンテキストマネージャへの入力の質を改善することにより、関心のある遷移がいつ起きたかを特定するための高い分類精度を支援することができる。
【0100】
「遷移」は、聴取チャネルの変更、楽曲のエンディング、楽曲の始めにDJがフェードアウトしたこと、又は楽曲の終わりにフェードインしたことなどの、曲の途中でディスクジョッキー(DJ)がトークを行ったことなどの、関心のある信号のあらゆる規定の変化を含む。遷移は、メディアストリーム内で、又はメディアストリーム外(例えば、車の環境内における車のエンジンの加速、或いはエンジン音の突然の停止)で検出することができる。
【0101】
分類器を制御するためのルール(例えば、1人しか乗っていない車内では、通常ビデオ番組を見ることはないので、ビデオの遷移を検索しないなど)を使用することもできる。いくつかの実施形態では、コンテキストと遷移閾値を組み合わせて、適応的動的遷移認識器を形成する。
【0102】
分類器により提供される異なる重みの閾値の組み合わせを使用して遷移を特定することができる。従って、分類器は、閾値プロファイルを介して、例えば、騒音が発生する可能性又は沈黙の可能性、並びに音楽、所与の信号及び騒音閾値の可能性を示すことができる。
【0103】
遷移の検出を使用して、ネットワークに結合して情報を送信又は検索し、別のアプリケーションと通信し、或いはトレーナ分類器モジュールが分類器のデータ及び遷移を調整できる追加プロファイルに関してコンテキストマネージャを更新することができる。
【0104】
閾値は、絶対的なものであっても、又は適応的なものであってもよい。従って、閾値は履歴に基づくことができる。騒音レベルが上がったときにいくつかの閾値を高く調整し、騒音レベルが下がったときに低く調整することができる。
【0105】
(0〜10000などの)スケールを使用して信頼度を表すことができる。コンテキストに応じ、(1秒などの)時間ウィンドウを使用して調整することができる。例えば、下限又は上限閾値を超えた場合にはウィンドウを維持することができ、超えなかった場合にはウィンドウを長くすることができる。この情報を、コンテキストマネージャにフィードバックすることができる。
【0106】
いくつかの実施形態では、沈黙の検出を動的に構成することができる。例えば、250ミリ秒の回転時間ブロックとして実現される聴取ウィンドウを使用して、最後の2ブロック、半秒にわたって平均化することができる。音声は、遷移の検出に影響を与える入力を表さないので、同時に会話が発生したときでも、これを使用してTVチャネルを変更するという遷移を検出することができる。回転時間ブロックのサイズ及び数は、コンテキストに基づいて明示的に及び非明示的に構成することができる。
【0107】
従って、いくつかの実施形態では、遷移マネージャが、ウィンドウがカバーする何らかの期間にわたる平均的変化を求めるためにウィンドウサイズを増やすことを決定する。1つのウィンドウ長からのコンテンツを、異なるウィンドウ長からのコンテンツと比較して、閾値を超えたときにフラグを設定することができ、従って範囲がゼロ〜10000の場合、7000を超える動きは、音楽から騒音への変化を会話と対比して示すことができる。
【0108】
いくつかの実施形態では、分類器が、音楽と音楽でないものを区別する。音楽と音楽でないものの違いは、閾値レベルである。聴取ウィンドウが変化している間は、閾値を一定に保つことができる。同様に、閾値が変化している間は、聴取ウィンドウ長を一定に保つことができる。いくつかの実施形態では、聴取ウィンドウ長及び閾値が両方とも変化する。
【0109】
従って、いくつかの実施形態では、分類器の出力が遷移検出器を対象にする。次に、遷移により、分類器の出力がフィードバック機構として決定される。このようにして、遷移により、新たな入力の分類を最終的に決定することができる。
【0110】
いくつかの実施形態では、コンテキストマネージャにコンテキストが明示的に通知される。例えば、コンテキストを、双方向TV番組として設定することができる。この場合、コンテキストマネージャが、このコンテキストマネージャ自体を、適当な閾値オーバーライドを含む関心のある特定の遷移を検出するように構成することができる。
【0111】
いくつかの実施形態では、トレーナ分類器モジュールの出力が、分類されたデータモジュール及び/又は遷移検出器モジュールに与えられる。このことは、例えば、トレーナ分類器が分類されたデータモジュール内で有効にしたいと望むことができる環境の種類に応じて、騒音分類のための異なるモデルに対応する。多くの実施形態では、オペレーティングシステム及び物理的環境が分かっている。
【0112】
例えば、車の環境では、車両の乗員間で会話が行われ、分類器が、話された内容を音楽と対比して識別する。同様に、複数の音声の存在は、単一の音声に対立するものとして判断することができる。状況に応じて、分類器に異なるコンテキストモデルをロードすることができる。いくつかの実施形態では、コンテキストマネージャが、トレーナを介さずに分類器及び遷移検出器と直接通信する。
【0113】
トレーナ/分類器は、様々なプロファイルで動作することができる。すなわち、トレーナ/分類器は、コンテキストマネージャ内のルールエンジンを使用して、意思決定者として動作することができる。従って、これらは、動的に変化するプロファイリングモデリングエンジンとして動作することができる。トレーナ/分類器は、GNサービスネットワークから命令を受け取ることができる。
【0114】
いくつかの実施形態では、コンテキストマネージャモジュール及びトレーナモジュールが存在する。このバーションでは、トレーナ/分類器を、モジュールを通るパスとして使用することができる。ここでは、コンテキストマネージャが、2つの異なるコンテキストクラスのみを認識することができる。例えば、バーと単一の音声を対比する。特定されたコンテキストに応じて、特定のプロファイルを導入する。従って、本発明のいくつかの実施形態は、ネットワークノード又はモバイル装置内で動作して、現在識別されているコンテキストに基づいて、選択された関心のある遷移を検出するコンテキストマネージャモジュールを含む。このコンテキストマネージャを使用して、モバイル装置に関連するコンテキストを識別することができる。
【0115】
状況がさらに複雑になるにつれ、コンテキストをより詳細に区別して、トレーナ/分類器が、様々な閾値をそのコンテキストに適切に対応するように調整できるようにすることができる。この場合、コンテキストマネージャは、適当なコンテキストプロファイルを捕捉し、トレーナ/分類器は、これを閾値調整に変換して異なる分類モデルをロードする。例えば、これにより、沈黙のウィンドウを観察するための時間範囲を最大1.5秒増やすことができる。従って、コンテキストマネージャは、遷移検出機構に対して行う調整を決定することができる。
【0116】
いくつかの実施形態では、入力を収集して騒音を消すために複数のマイクを使用する。これらのマイクは、TV、ヘッドユニット、携帯電話、及びその他の場所に位置することができる。
【0117】
決定プロセスの調整は、エネルギーの節約及び帯域幅に対応するように行うことができる。例えば、携帯装置のバッテリが残り少ない場合、検出機構をあまり頻繁に動作しないように減速させることができる。同様に、携帯装置と通信するための帯域幅限界に近付いた場合にも、検出を減速させることができる。
【0118】
上記では、本明細書で説明した特定の方法、タスク、動作、及びデータが特定のシステムに関連するが、様々なシステム間でこのようなタスク及びデータが別様に割り当てられる他の実施形態も可能である。
【0119】
本明細書では、論理又は複数の構成要素、モジュール、又は機構を含むいくつかの実施形態について説明している。モジュールは、ソフトウェアモジュール(機械可読媒体上又は送信信号内で具体化されるコードなど)又はハードウェアモジュールのいずれを構成してもよい。ハードウェアモジュールは、特定の動作を実行できる有形装置であり、特定の態様で構成又は配置することができる。実施形態例では、1又はそれ以上のコンピュータシステム(独立型、クライアント、又はサーバコンピュータシステムなど)又はコンピュータシステムの1又はそれ以上のハードウェアモジュール(プロセッサ又は一群のプロセッサなど)を、ソフトウェア(アプリケーション又はアプリケーション部分など)により、本明細書で説明した特定の動作を実行するように機能するハードウェアモジュールとして構成することができる。
【0120】
様々な実施形態では、ハードウェアモジュールを機械的に又は電子的に実装することができる。例えば、ハードウェアモジュールは、(フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)などの専用プロセッサとして)特定の動作を実行するように恒久的に構成された専用回路又は論理を含むことができる。ハードウェアモジュールは、特定の動作を実行するようにソフトウェアによって一時的に構成された(汎用プロセッサ又はその他のプログラマブルプロセッサに含まれるような)プログラマブル論理又は回路を含むこともできる。専用の及び恒久的に構成された回路内に、又は一時的に構成された回路(例えば、ソフトウェアによって構成された)内にハードウェアモジュールを機械的に実装するという決定は、コスト及び時間を検討することによって行うことができると理解されよう。
【0121】
従って、「ハードウェアモジュール」という用語は有形エンティティを含むと理解すべきであり、特定の態様で動作するように及び/又は本明細書で説明した特定の動作を実行するように物理的に構築された、恒久的に構成された(例えば、配線接続された)、又は一時的に構成された(例えば、プログラムされた)エンティティであると理解すべきである。ハードウェアモジュールが一時的に構成された(例えば、プログラムされた)実施形態では、ハードウェアモジュールの各々を、いずれか1つの時点で構成又は例示化する必要はない。例えば、ハードウェアモジュールが、ソフトウェアを使用して構成された汎用プロセッサを含む場合、この汎用プロセッサを、異なる時点でそれぞれの異なるハードウェアモジュールとして構成することができる。従って、ソフトウェアは、例えば、ある時点で特定のハードウェアモジュールを構成し、異なる時点で異なるハードウェアモジュールを構成するようにプロセッサを構成することができる。
【0122】
ハードウェアモジュールは、他のハードウェアモジュールに情報を提供し、他のハードウェアモジュールから情報を受け取ることができる。従って、説明したハードウェアモジュールは、通信可能に結合されていると見なすことができる。複数のこのようなハードウェアモジュールが同時に存在する場合、これらのハードウェアモジュールを接続する信号送信を通じて(例えば、適当な回路及びバスを通じて)通信を行うことができる。複数のハードウェアモジュールが異なる時点で構成又は例示化される実施形態では、このようなハードウェアモジュール間の通信を、例えば、複数のハードウェアモジュールがアクセスできるメモリ構造内の情報の記憶及び検索を通じて行うことができる。例えば、1つのハードウェアモジュールが動作を実行し、その動作の出力を、通信可能に結合されたメモリ装置に記憶することができる。次に、後の時点で、さらなるハードウェアモジュールがこのメモリ装置にアクセスして、記憶された出力を検索して処理することができる。ハードウェアモジュールは、入力又は出力装置との通信を開始することもでき、リソース(情報の集合など)に基づいて動作することができる。
【0123】
本明細書で説明した方法例の様々な動作は、少なくとも部分的に、関連動作を実行するように(例えば、ソフトウェアによって)一時的に構成された、又は恒久的に構成された1又はそれ以上のプロセッサによって実行することができる。一時的に構成されるか、又は恒久的に構成されるに関わらず、このようなプロセッサは、1又はそれ以上の動作又は機能を実行するプロセッサ実装モジュールを構成することができる。本明細書で言及するモジュールは、いくつかの実施形態例ではプロセッサ実装モジュールを含むことができる。
【0124】
同様に、本明細書で説明した方法は、少なくとも部分的にプロセッサ実装式とすることができる。例えば、方法の動作の少なくともいくつかを、1又はそれ以上のプロセッサ或いはプロセッサ実装モジュールによって実行することができる。動作の一部の性能を、単一の機械内に存在するだけでなく複数の機械にわたって展開される1又はそれ以上のプロセッサ間で分散することができる。実施形態例によっては、1又は複数のプロセッサを1つの場所に(例えば、家庭環境内、オフィス環境内に、又はサーバファームとして)位置付けることができるものもあり、実施形態によっては、プロセッサを複数の場所にわたって分散させることができるものもある。
【0125】
1又はそれ以上のプロセッサは、「クラウドコンピューティング」環境において、又は「サービスとしてのソフトウェア」(SaaS)として関連動作の性能を支援するように機能することもできる。例えば、(プロセッサを含む機械の例としての)一群のコンピュータによって動作の少なくともいくつかを実行することができ、(インターネットなどの)ネットワークを介して、及び1又はそれ以上の(APIなどの)適当なインターフェイスを介してこれらの動作にアクセスすることができる。
【0126】
実施形態例は、デジタル電子回路内で、或いはコンピュータハードウェア、ファームウェア、又はソフトウェアで、或いはこれらの組み合わせで実現することができる。実施形態例は、(プログラマブルプロセッサ、コンピュータ、又は複数のコンピュータなどの)データ処理装置が実行する、或いはこれらの動作を制御する(機械可読媒体内の情報キャリアにおいて明白に具体化されるコンピュータプログラムなどの)コンピュータプログラム製品を使用して実現することができる。
【0127】
コンピュータプログラムは、コンパイル又は翻訳された言語を含むあらゆる形式のプログラミング言語で書くことができ、独立型プログラム、或いはモジュール、サブルーチン、又はコンピューティング環境での使用に適したその他の装置の形を含むいずれかの形でこれを展開することができる。コンピュータプログラムは、1つのサイトにおける1つのコンピュータ又は複数のコンピュータ上で実行されるように展開してもよく、或いは複数のサイトにわたって分散させて通信ネットワークにより相互接続してもよい。
【0128】
実施形態例では、1又はそれ以上のプログラマブルプロセッサが、入力データに基づいて動作して出力を生成することにより機能を実行するようにコンピュータプログラムを実行することによって動作を実行することができる。方法の動作を、(フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)などの)特殊用途向け論理回路によって実行することもでき、実施形態例の装置を、このような特殊用途向け論理回路として実現することもできる。
【0129】
コンピュータシステムはクライアント及びサーバを含むことができる。一般に、クライアントとサーバは互いに離れた場所に存在し、通常は通信ネットワークを介してやりとりする。クライアントとサーバの関係は、コンピュータプログラムがそれぞれのコンピュータ上で実行されて互いにクライアントとサーバの関係を有することによって生じる。プログラムマブルコンピュータシステムを展開する実施形態では、ハードウェアアーキテクチャ及びソフトウェアアーキテクチャをいずれも考慮できることが理解されるであろう。詳細には、特定の機能を、恒久的に構成された(ASICなどの)ハードウェアにおいて実施するか、一時的に構成された(ソフトウェアとプログラマブルプロセッサの組み合わせなどの)ハードウェアにおいて実施するか、或いは恒久的に構成されたハードウェアと一時的に構成されたハードウェアの組み合わせで実施するかの選択は、設計事項であってもよいと理解されるであろう。以下、様々な実施形態例において展開できる(機械などの)ハードウェアアーキテクチャ及びソフトウェアアーキテクチャを示す。
【0130】
図9は、本明細書で説明する方法のいずれか1つ又はそれ以上を機械に行わせるための命令を実行できる例示的なコンピュータシステム900の形の機械を示すブロック図である。代替えの実施形態では、機械が独立型装置として動作し、又は他の機械に接続(例えば、ネットワーク接続)することができる。ネットワーク化した展開では、機械が、サーバ−クライアントネットワーク環境においてはサーバ又はクライアントマシンという資格で、或いはピアツーピア(又は分散)ネットワーク環境においてはピアマシンとして動作することができる。この機械は、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、携帯電話、ウェブ機器、ネットワークルータ、スイッチ又はブリッジ、或いはこの機械がとる行動を指定する命令(連続又はそれ以外)を実行できるいずれの機械であってもよい。さらに、1つの機械しか示していないが、「機械」という用語は、本明細書で説明した方法のいずれか1つ又はそれ以上を実行するための命令セット(或いは複数セット)を個別に又はまとめて実行するあらゆる一群の機械を含むとも解釈すべきである。
【0131】
例示的なコンピュータシステム900は、プロセッサ902(中央処理装置(CPU)、グラフィック処理ユニット(GPU)、又はこれらの両方など)、メインメモリ904、及び静的メモリ906を含み、これらはバス908を介して互いに通信する。コンピュータシステム900は、(液晶ディスプレイ(LCD)又はブラウン管(CRT)などの)ビデオディスプレイユニット910をさらに含むことができる。コンピュータシステム900は、(キーボードなどの)英数字入力装置912、(マウスなどの)ユーザインターフェイス(UI)ナビゲーション装置914、(マイク及び/又は画像センサのような光学感知装置などの)ディスクドライブユニット916、信号生成装置918、及びネットワークインターフェイス装置920も含む。信号生成装置は、上述した様々なモジュールにオーディオ及び/又はビデオ入力を与えるために使用することができる。ストリーミング信号としての入力を分類し、これを使用して関心のある遷移を検出することができる。
【0132】
ディスクドライブユニット916は、本明細書で説明する方法又は機能のいずれか1つ又はそれ以上を具体化する、又はこれらの方法又は機能が利用する(ソフトウェアなどの)1又はそれ以上のデータ構造及び命令セット924を記憶する機械可読媒体922を含む。命令924は、コンピュータシステム900による命令の実行中には、メインメモリ904内及び/又はプロセッサ902内に完全に又は少なくとも部分的に常駐することもでき、メインメモリ904及びプロセッサ902は機械可読媒体も構成する。
【0133】
実施形態例には、機械可読媒体922を単一の媒体として示しているが、「機械可読媒体」という用語は、1又はそれ以上の命令924又はデータ構造を記憶する単一の媒体又は複数の媒体(集中又は分散データベース、及び/又は関連するキャッシュ及びサーバなど)を含むことができる。「非一時的機械可読媒体」という用語も、機械が実行するための及び本主題の方法のいずれか1つ又はそれ以上を機械に実行させる命令を記憶、符号化、又は搬送できる、或いはこのような命令が利用する、又はこれに関連するデータ構造を記憶、符号化、又は搬送できるあらゆる有形媒体を含むと解釈すべきである。従って、「非一時的機械可読媒体」という用語は、限定するわけではないが、固体メモリ、並びに光学及び磁気媒体を含むと解釈すべきである。非一時的機械可読媒体の特定の例としては、限定するわけではないが不揮発性メモリが挙げられ、一例として、(消去可能なプログラマブル読出し専用メモリ(EPROM)、電気的消去可能なプログラマブル読出し専用メモリ(EEPROM)、及びフラッシュメモリ装置などの)半導体メモリ素子、内部ハードディスク及び取り外し可能ディスクなどの磁気ディスク、磁気光学ディスク、並びにCD−ROM及びDVD−ROMディスクを含む。
【0134】
さらに、送信媒体を使用して、コンピュータネットワーク950を介して命令924を送信又は受信することもできる。命令924は、ネットワークインターフェイス装置920及び(HTTPなどの)いくつかの周知の転送プロトコルのいずれか1つを使用して送信することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、携帯電話ネットワーク、プレイン・オールド・テレフォン・サービス(POTS)ネットワーク、及び無線データネットワーク(WiFi及びWiMAXネットワークなど)が挙げられる。「送信媒体」という用語は、機械が実行するための命令を記憶、符号化、又は搬送できるあらゆる無形媒体を含むと解釈すべきであり、このようなソフトウェアの通信を容易にするためのデジタル又はアナログ通信信号又はその他の無形媒体を含む。
【0135】
いくつかの実施形態では、システム900が、入力ポート及びコンテキストマネージャを含むネットワークノードを含む。(ネットワークインターフェイス装置920などの)入力ポートを使用して、モバイル装置から情報を受け取ることができる。コンテキストマネージャを使用して、モバイル装置に関連するコンテキストを識別し、モバイル装置が後でリスンして識別する関心のある遷移のリストを提供することができる。遷移が生じたという指示をノードによって受け取り、これを使用して、ノード内、別のノード内、又はモバイル装置内で動作する分類器の構成を調整することができる。
【0136】
このように、ストリーミングコンテンツの識別を生成して使用するための方法及びシステムは、様々な形で実現することができる。単一の装置内で完全に動作するものもあれば、システム内の異なる要素間で作業負荷を振り分けるものもある。以下、いくつかの変形例について説明する。
【0137】
例えば、図10に、本発明の様々な実施形態による事前に記録したコンテンツ(事前放送など)を使用するシステム1000の動作を示す。ここでは、マイクを使用してTVなどのオーディオソースからオーディオを取得するクライアント装置を示している。コンテンツ認識クライアントは、コンテキストを特定し、ローカル認識システム及びネットワーク認識システムを使用して遷移を検出し、アプリケーションを開始する。サービスインフラストラクチャを使用して、サーバ、データストア、及びフィンガープリントデータベースによってクライアント装置を支援する。取り込みツール及び取り込みプラットフォームを使用して、このインフラストラクチャに、照合のためのフィンガープリントを含むデータを投入する。このインフラストラクチャにより、クライアント装置にTV番組メタデータなどのメタデータを提供して分類及び遷移の検出を強化するとともに、ユーザ及び装置のアプリケーションとやりとりするための追加コンテンツを提供する。
【0138】
別の例として、図11は、本発明の様々な実施形態による、異なる時間ウィンドウにわたって内部分類を作成する分類器1100のブロック図である。ここでは、分類器モジュール1、2、...、nが、分類器モデル、コンテキスト設定、及び入力としての媒体信号を受け入れて、分類器の特徴値を結果的な出力として表す。当業者には周知のように、分類器モデルは、沈黙、騒音、音楽、及び喝采に関連する信号を識別するための閾値分類設定を含むことができる。コンテキスト設定は、コンテキストに基づいてモデルの基本設定を変更するように機能することができる(例えば、台本があるテレビ番組では観察ウィンドウを短くし、生のラジオ番組では観察ウィンドウを長くすることができる)。媒体信号は、オーディオ及び/又はビデオ信号を含むことができる。分類器1100は、音楽には1000の値、及び喝采には6000の値のように、モジュールの各々からの評価を特徴に与えることができ、この場合、喝采が分類器に対する現在の信号のソースである可能性が最も高いことを示す傾向にある。
【0139】
さらなる例として、図12は、本発明の様々な実施形態による、コンテキスト分類を使用して遷移が起きたことを判断する遷移エンジン1200のブロック図である。ここでは、1又はそれ以上の閾値パラメータxx、yy、及び/又はzzを使用して、各特徴(沈黙、会話、音楽、騒音、笑い声、拍手など)の閾値を設定する。特徴ごとの閾値の数は、恐らくは現在のコンテキストに基づいて変化することができ、これにより、例えば、関連する特徴値が下限閾値を超えたが、未だ上限閾値を超えていない場合に遷移を検出できるようになる。遷移の検出には、閾値の帯域を使用することもできる(例えば、2つの下限閾値が1つの帯域を定め、2つの上限閾値が別の帯域を定めることにより、特徴値が2つの帯域の一方に入る場合には遷移が検出されたことを示すが、他の特徴値は遷移が検出されなかったことを示すようになる)。
【0140】
さらに別の例として、図13は、本発明の様々な実施形態による、特徴スコア及びその他の入力を使用してコンテキストが変更されたかどうかを判定するコンテキスト推定器1300のブロック図である。コンテキストに変化が起きた場合、コンテキスト推定器は、非明示的及び明示的入力を使用して、コンテキスト識別、分類器、及び遷移検出のためのコンテキスト値を決定する。
【0141】
最後の例として、図14は、本発明の様々な実施形態による、遷移、分類、コンテキスト、及び履歴コンテンツを使用してシステム活動を判断するコンテキストマネージャ1400のブロック図である。従って、例えば、様々な非明示的及び明示的コンテキスト入力を使用して、分類器の設定を変更すべきかどうかを判断するコンテキスト情報を提供する。遷移入力において示されるように遷移が起きた場合、識別エンジン(ローカル又はリモート)を使用して既存のコンテンツの種類を識別し、又は以前のコンテンツ識別を維持することができる。コンテンツが識別されると(又は以前の識別が決定されると)、コンテンツの種類及び検出された遷移の種類に基づいて、ユーザインターフェイス及び/又は装置の動作を開始することができる。コンテキストマネージャによって開始できる他の動作としては、コンテンツ更新の遷移及び/又は分類器設定情報を、遷移検出器及び/又は分類器に送信することが挙げられる。本明細書で説明した方法のいずれかのあらゆる部分は、サーバなどのネットワークノード上で、又は携帯電話などのモバイル装置上で実行することができ、或いはネットワークノードとモバイル装置の間で様々な形で分割することができる。従って、数多くの方法、装置、及びシステムを実現することができる。以下、いくつかの例について説明する。
【0142】
いくつかの実施形態では、方法が、着信オーディオ及び/又はビデオ信号を継続的に受け取るステップと、この信号を処理して信号成分を提供するステップと、この信号成分を分類して、規定のイベントクラスに基づいて閾値要素の存在を判断するステップと、前記信号に関連する環境コンテキストによって設定した閾値を閾値要素がいつ超えたかを判断することにより、少なくとも1つの遷移を検出するステップと、少なくとも1つの遷移の検出時に、規定のクラス又は閾値を調整するステップとを含む。
【0143】
この処理は、環境コンテキストに基づいて信号を均等化し、選択された周波数帯域を実質的に排除するステップを含むことができる。この処理は、信号をウィンドウ化して処理のための時間を制限するステップを含むこともできる。この処理は、信号を閾値化して、規定レベルを超える振幅成分を拒絶するステップを含むこともできる。
【0144】
信号成分は、振幅、周波数、ピッチ、テンポ、又はエネルギーのうちの少なくとも1つを含むことができる。これらの成分を信号から抽出して、これらの成分の個々の値を求めることができる。
【0145】
イベントクラスは、信号成分を閾値要素に分類するために使用されるとともに、閾値要素に関連する閾値が満たされたかどうかを判定するために使用されるイベントクラスを含むことができる。イベントクラスは、他の特徴、相対ピーク、単調音の存在、及び時間ウィンドウ長に関連する閾値と比較した拍手、笑い声、騒音、会話、沈黙のうちの1又はそれ以上を含むことができる。
【0146】
閾値は、信号成分のうちの選択された信号成分に対して測定するための、最小閾値、最大閾値、及び履歴平均閾値のうちの少なくとも1つを含むことができる。
【0147】
環境コンテキストは、車、家、店、バー、又は未定義コンテキストのうちの少なくとも1つから選択することができる。
【0148】
調整ステップは、検出された特定の遷移に基づいて、イベントの分類及び閾値の両方を調整するステップをさらに含むことができる。
【0149】
遷移の検出時には、方法が、着信オーディオ及び/又はビデオ信号に関連する時間位置情報を更新するステップを含むことができる。追加の又は代替の動作は、(遷移の検出時に)環境コンテキストに関連するスクリプトに基づいて、ユーザインターフェイスの提示などの、装置の動作をトリガするステップを含むことができる。
【0150】
いくつかの実施形態では、モバイル装置に関連する環境コンテキストを特定する方法が、継続的にストリーミングされる環境オーディオ信号コンテンツに関連する関心のある遷移を認識するステップと、遷移を使用して、モバイル装置の選択された動作をトリガするステップとを含む。
【0151】
いくつかの実施形態では、モバイル装置に関連する環境コンテキストを識別する方法が、コンテキストが変化したときに関心のある遷移を検出するようにモバイル装置を動的に構成するステップを含む。
【0152】
いくつかの実施形態は、ネットワークサービスから戻されたメタデータにより支援される環境コンテキストの変化を分類する方法を含む。この方法は、モバイル装置に関連する非明示的コンテキストを特定するステップと、モバイル装置に関連するオーディオ及び/又はビデオ信号の分類を決定するステップと、非明示的コンテキストに従って分類を変更するステップとを含む。
【0153】
この方法の追加動作は、以前のコンテンツ認識を特定するステップを含むことができ、前記変更ステップは、非明示的コンテキスト及び以前のコンテンツ認識に従って分類を変更するステップを含む。さらなる動作は、モバイル装置の装置動作モード、電力供給タイプ、及びネットワーク接続タイプを特定するステップを含むことができ、前記変更ステップは、非明示的コンテキスト、並びに前記装置動作モード、電力供給タイプ、及びネットワーク接続タイプに従って分類を変更するステップを含む。
【0154】
いくつかの実施形態は、ローカル又はリモート装置上に表示されるコンテンツにメタデータを同期させる方法を含み、この方法は、現在の環境コンテキスト、認識されたコンテンツ、及び/又は環境タイプに基づいて、閾値、フィンガープリントアルゴリズム、及びキャッシュサイズを含む設定の選択を修正するステップを含む。
【0155】
いくつかの実施形態は、フィンガープリントに基づく認識を動的に構成する方法を含み、この方法は、着信オーディオ及び/又はビデオストリームから導出された環境分類出力情報を使用してフィンガープリントアルゴリズムを選択するステップを含む。
【0156】
いくつかの実施形態は、オーディオ及び/又はビデオコンテンツの大量の同時識別を支援する方法を含み、この方法は、ローカルコンテンツ認識及びフィンガープリント法をネットワーク認識と組み合わせるステップと、ネットワークによってローカルに名前を付けられた情報要素を受け取るステップと、モバイル装置に関連する環境コンテキストに基づいて、ネットワークからモバイル装置へ遷移生成トリガを送信するステップとを含む。
【0157】
いくつかの実施形態は、検出された環境コンテキスト遷移に基づく信号分離方法を含み、この方法は、リアルタイム信号モニタリング及びフィンガープリント法をコンテキスト遷移と組み合わせて使用して、オーディオ及び/又はビデオ信号内のコマーシャルコンテンツからテレビ番組コンテンツを分離するステップを含む。
【0158】
いくつかの実施形態は、分類した音をアプリケーションに提供する方法を含み、この方法は、認識、又はアプリケーションからの応答をトリガすることの一方のために、アプリケーションに提供する音を抽出して分類するようにオーディオストリームを処理するステップを含む。
【0159】
いくつかの実施形態は、コンピュータ装置をリンクさせる方法を含み、この方法は、ユーザ入力装置により生成された個別信号を受け取るステップと、この信号を使用してコンピュータ装置をリンクさせ、コンテンツ及び相互作用を共有するステップとを含み、個別信号のフィンガープリントを採取して使用し、時間制限されたグループ化期間を使用してコンピュータ装置をグループ化する。
【0160】
いくつかの実施形態は、オーディオ信号内の遷移を検出してフィンガープリントアルゴリズムを選択する方法を含み、この方法は、特定された環境コンテキストを使用してフィンガープリントアルゴリズムを選択するステップを含む。
【0161】
いくつかの実施形態は、オーディオ及び/又はビデオ信号を分類するステップと、この信号内の遷移を検出するステップと、この信号に含まれるコンテンツのフィンガープリントを採取して、基準フィンガープリントを作成するとともに、少なくともこの基準フィンガープリントに関連するメタデータ及び画像を、接続ネットワーク及び/又はローカルな埋め込み基準リポジトリを介して戻すステップとを含む方法を含む。
【0162】
いくつかの実施形態は、モバイル装置などの装置を含み、この装置は、関心のある遷移を特定するように処理でき、モバイル装置内で動作するオーディオ及び/又はビデオ信号分類器の構成を調整するためにフィードバックされる信号としての少なくともオーディオ入力を受け取るためのマイクを含む。
【0163】
いくつかの実施形態は、モバイル装置などの装置を含み、この装置は、所与の環境コンテキスト内で遷移が生じたときにコンテンツ内の関心のある遷移を認識する光学センサ又はオーディオセンサのうちの少なくとも一方を含み、モバイル装置は、関連コンテンツを表示及び/又は再生することによって応答するように構成される。
【0164】
いくつかの実施形態は、ネットワークノードを含み、このノードは、モバイル装置から情報を受け取るための入力ポートと、モバイル装置に関連する環境コンテキストを識別し、モバイル装置が後でモニタ(及び聴取)して識別する関心のある遷移のリストを提供するためのコンテキストマネージャとを含む。
【0165】
いくつかの実施形態は、ネットワークノードを含み、このノードは、識別されたコンテキスト内で動作するモバイル装置からの処理済み信号情報を受け取るための入力ポートと、この情報に関連する関心のある遷移を識別してモバイル装置に関連コンテンツのリストを提供するための遷移検出器とを含む。このリストは、モバイル装置の操作者に、選択及びモバイル装置に配信するためのメニューとして表示することができる。
【0166】
いくつかの実施形態は、ネットワークノードを含み、このノードは、関心のある遷移が識別されたという指示をモバイル装置から受け取るための入力ポートと、及び関連コンテンツ又はこの関連コンテンツの少なくとも1つの位置をモバイル装置に提供するためのコンテキストマネージャとを含む。ノード又はモバイル装置により、或いはこれらの両方により、モバイル装置上で関連コンテンツの履歴再生を利用可能にしてモニタすることができる。
【0167】
いくつかの実施形態は、ネットワークノード又はモバイル装置内で動作して、現在識別されている環境コンテキストに基づいて、選択された関心のある遷移を検出するコンテキストマネージャモジュールを含む。
【0168】
いくつかの実施形態は、継続的なデジタルオーディオ認識に関与した場合のエネルギー節約に起因してバッテリ寿命が延びたモバイル装置を含み、このモバイル装置は、コンテキスト分類を使用するためのモジュールと、複数の識別エンジンと、分類要求のための速度の低減をいつ実現できるかを判断してモバイル装置のバッテリ寿命を延ばすためのメタデータとを含む。
【0169】
いくつかの実施形態は、明示的及び非明示的コンテキスト及び分類を使用してネットワーク支援トレーナとして実現されるシステムを含み、このシステムは、分類モデルサーバと、この分類モデルサーバに結合されたトレンド検出サーバと、このトレンド検出サーバに結合されたコンテキストサーバとを含む。
【0170】
本明細書で説明した実施形態の1又はそれ以上を実施した場合、いくつかの利点が生じる。これらは、オーディオ又はビデオ入力に基づいて自動的かつ継続的にコンテンツに同期して、アプリケーション及びユーザ装置の動作をトリガする能力を含む。広告収入が増すと同時に、より魅力的な体験を消費者に提供することができる。
【0171】
特定の実施形態例を参照しながら本主題について説明したが、主題の広範な範囲から逸脱することなく、これらの実施形態に様々な修正及び変更を行えることが明らかであろう。従って、明細書及び図面は、限定的な意味ではなく例示的な意味で捉えるべきである。本明細書の一部を成す添付図面は、本主題を実施できる特定の実施形態を限定ではなく例示として示すものである。例示した実施形態は、本明細書で開示する教示を当業者が実施できるようにするために十分に詳しく説明したものである。これらから、他の実施形態を利用及び導出して、本開示の範囲から逸脱することなく構造的及び論理的な置換及び変更を行えるようにすることができる。従って、この詳細な説明は限定的な意味で捉えるべきではなく、様々な実施形態の範囲は、添付の特許請求の範囲、並びにこのような特許請求の範囲に権利を与えるあらゆる同等物によってのみ定義される。
【0172】
本明細書では、このような本発明主題の実施形態を、単なる便宜上、及び実際には複数のものが開示されている場合、本出願の範囲をいずれか1つの発明又は発明概念に任意に限定する意図を伴わずに、個別に及び/又はまとめて「発明」という用語で呼ぶことができる。従って、本明細書では、特定の実施形態を図示し説明しているが、図示の特定の実施形態の代わりに、同じ目的を達成するように計算されたあらゆる構成を使用できると理解されたい。本開示は、様々な実施形態のありとあらゆる適応又は変形を含むことが意図されている。上記の説明を検討すれば、当業者には、上記の実施形態と、本明細書で詳細に説明していない他の実施形態との組み合わせが明らかになるであろう。
【0173】
本文書で引用した全ての出版物、特許、及び特許文書は、その全体があたかも引用によって個別に組み入れられているかのように引用により本明細書に組み入れられる。本文書と、このように引用により組み入れられる文書が矛盾なく使用される場合、組み入れた(単複の)引用における使用は本文書を補足するものであると考えるべきであり、相容れない矛盾に関しては、本文書での使用がこれを制御する。
【0174】
本文書では、他のいずれかの例、又は「少なくとも1つ」又は「1又はそれ以上」の使用とは関係なく、1つ又は複数のものを含むために、特許文書に共通のものとして、「1つの(英文不定冠詞)」という用語を使用している。本文書では、「又は(or)」という用語を、非排他的なorであることを示すために使用しており、従って、「A又はB」は、別途指示がない限り、「AであるがBではない」、「BであるがAではない」及び「A及びB」を含む。添付の特許請求の範囲では、「含む(including)」及び「において(in which)」という用語を、「備える(comprising)」及び「において(wherein)」というそれぞれの用語の分かり易い英語の同等表現として使用している。以下の特許請求の範囲では、「含む(including)」及び「備える(comprising)」という用語は包括的なものであり、すなわち、特許請求の範囲においてこのような用語の後に列挙される要素以外の要素を含むシステム、装置、物品、又は方法も、その特許請求の範囲に含まれると見なされる。さらに、以下特許請求の範囲では、「第1の」、「第2の」、「第3の」などの用語を単にラベルとして使用しており、これらの対象に数字的要件を課すものではない。
【0175】
本開示の要約書は、読者が技術的開示の本質をすばやく確認できるようにする要約を求める米国特許法施行規則第1.72条(b)に準拠するように提供するものである。この要約書は、特許請求の範囲及び意味を解釈又は限定するために使用されるものではないという理解とともに提出されるものである。また、上述の詳細な説明では、本開示を合理化するために様々な特徴を単一の実施形態にまとめていることが分かる。この開示方法は、これらの実施形態が、個々の請求項に明確に示す特徴よりも多くの特徴を必要とするという意図を反映したものであると解釈すべきではない。むしろ、以下の特許請求の範囲に反映されるように、発明の主題は、単一の開示した実施形態の全てよりも少ない特徴に存在する。従って、以下の特許請求の範囲は、本明細書により詳細な説明に組み込まれ、個々の請求項は別個の実施形態として自立するものである。
【特許請求の範囲】
【請求項1】
着信オーディオ及び/又はビデオ信号を継続的に受け取るステップと、
前記信号を処理して信号成分を提供するステップと、
前記信号成分を分類して、規定のイベントクラスに基づいて閾値要素の存在を判断するステップと、
前記信号に関連する環境コンテキストによって設定した閾値を前記閾値要素がいつ超えたかを判断することにより、少なくとも1つの遷移を検出するステップと、
前記少なくとも1つの遷移の検出時に、前記規定のクラス又は前記閾値を調整するステップと、
を含むことを特徴とする方法。
【請求項2】
前記処理ステップが、前記環境コンテキストに基づいて前記信号を均等化し、選択された周波数帯域を実質的に排除するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記処理ステップが、前記信号をウィンドウ化して前記処理のための時間を制限するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記処理ステップが、前記信号を閾値化して、規定レベルを超える振幅成分を拒絶するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項5】
前記信号成分が、振幅、周波数、ピッチ、テンポ、又はエネルギーのうちの少なくとも1つを含む、
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記イベントクラスが、信号成分を閾値要素に分類するために使用されるとともに、前記閾値要素に関連する閾値が満たされたかどうかを判定するために使用されるイベントクラスを含む、
ことを特徴とする請求項1に記載の方法。
【請求項7】
前記閾値が、前記信号成分のうちの選択された信号成分に対して測定するための、最小閾値、最大閾値、及び履歴平均閾値のうちの少なくとも1つを含む、
ことを特徴とする請求項1に記載の方法。
【請求項8】
前記環境コンテキストが、車、家、店、バー、又は未定義コンテキストのうちの少なくとも1つから選択される、
ことを特徴とする請求項1に記載の方法。
【請求項9】
前記調整ステップが、検出された特定の遷移に基づいて、前記イベントの分類及び前記閾値の両方を調整するステップをさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項10】
前記少なくとも1つの遷移の検出時に、前記着信オーディオ及び/又はビデオ信号に関連する時間位置情報を更新するステップをさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項11】
前記少なくとも1つの遷移の検出時に、前記環境コンテキストに関連するスクリプトに基づいて装置の動作をトリガするステップをさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項12】
モバイル装置に関連する環境コンテキストを特定する方法であって、前記コンテキスト内の、継続的にストリーミングされる環境オーディオ信号コンテンツに関連する関心のある遷移を認識するステップを含み、前記遷移を使用して、前記モバイル装置の選択された動作をトリガする、
ことを特徴とする方法。
【請求項13】
前記モバイル装置に関連する環境コンテキストを識別して、前記コンテキストが変化したときに関心のある遷移を検出するように前記モバイル装置を動的に構成する、
ことを特徴とする方法。
【請求項14】
ネットワークサービスから戻されたメタデータにより支援される環境コンテキストの変化を分類する方法であって、
モバイル装置に関連する非明示的コンテキストを特定するステップと、
前記モバイル装置に関連するオーディオ及び/又はビデオ信号の分類を決定するステップと、
前記非明示的コンテキストに従って前記分類を変更するステップと、
を含むことを特徴とする方法。
【請求項15】
以前のコンテンツ認識を特定するステップをさらに含み、前記変更ステップが、前記非明示的コンテキスト及び前記以前のコンテンツ認識に従って前記分類を変更するステップを含む、
ことを特徴とする請求項14に記載の方法。
【請求項16】
前記モバイル装置の装置動作モード、電力供給タイプ、及びネットワーク接続タイプを特定するステップをさらに含み、前記変更ステップが、前記非明示的コンテキスト、並びに前記装置動作モード、電力供給タイプ、及びネットワーク接続タイプに従って前記分類を変更するステップを含む、
ことを特徴とする請求項14に記載の方法。
【請求項17】
ローカル又はリモート装置上に表示されるコンテンツにメタデータを同期させる方法であって、現在の環境コンテキスト、認識されたコンテンツ、及び/又は環境タイプに基づいて、閾値、フィンガープリントアルゴリズム、及びキャッシュサイズを含む設定の選択を修正するステップを含む、
ことを特徴とする方法。
【請求項18】
オーディオ及び/又はビデオコンテンツの大量の同時識別を支援する方法であって、
ローカルコンテンツ認識及びフィンガープリント法をネットワーク認識と組み合わせるステップと、
前記ネットワークによってローカルに名前を付けられた情報要素を受け取るステップと、
前記モバイル装置に関連する環境コンテキストに基づいて、前記ネットワークからモバイル装置へ遷移生成トリガを送信するステップと、
を含むことを特徴とする方法。
【請求項19】
検出された環境コンテキスト遷移に基づく信号分離方法であって、リアルタイム信号モニタリング及びフィンガープリント法をコンテキスト遷移と組み合わせて使用して、オーディオ及び/又はビデオ信号内のコマーシャルコンテンツからテレビ番組コンテンツを分離するステップを含む、
ことを特徴とする方法。
【請求項20】
コンピュータ装置をリンクさせる方法であって、
ユーザ入力装置により生成された個別信号を受け取るステップと、
前記信号を使用して前記コンピュータ装置をリンクさせ、コンテンツ及び相互作用を共有するステップと、
を含み、
前記個別信号のフィンガープリントを採取して使用し、時間制限されたグループ化期間を使用して前記コンピュータ装置をグループ化する、
ことを特徴とする方法。
【請求項1】
着信オーディオ及び/又はビデオ信号を継続的に受け取るステップと、
前記信号を処理して信号成分を提供するステップと、
前記信号成分を分類して、規定のイベントクラスに基づいて閾値要素の存在を判断するステップと、
前記信号に関連する環境コンテキストによって設定した閾値を前記閾値要素がいつ超えたかを判断することにより、少なくとも1つの遷移を検出するステップと、
前記少なくとも1つの遷移の検出時に、前記規定のクラス又は前記閾値を調整するステップと、
を含むことを特徴とする方法。
【請求項2】
前記処理ステップが、前記環境コンテキストに基づいて前記信号を均等化し、選択された周波数帯域を実質的に排除するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記処理ステップが、前記信号をウィンドウ化して前記処理のための時間を制限するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記処理ステップが、前記信号を閾値化して、規定レベルを超える振幅成分を拒絶するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項5】
前記信号成分が、振幅、周波数、ピッチ、テンポ、又はエネルギーのうちの少なくとも1つを含む、
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記イベントクラスが、信号成分を閾値要素に分類するために使用されるとともに、前記閾値要素に関連する閾値が満たされたかどうかを判定するために使用されるイベントクラスを含む、
ことを特徴とする請求項1に記載の方法。
【請求項7】
前記閾値が、前記信号成分のうちの選択された信号成分に対して測定するための、最小閾値、最大閾値、及び履歴平均閾値のうちの少なくとも1つを含む、
ことを特徴とする請求項1に記載の方法。
【請求項8】
前記環境コンテキストが、車、家、店、バー、又は未定義コンテキストのうちの少なくとも1つから選択される、
ことを特徴とする請求項1に記載の方法。
【請求項9】
前記調整ステップが、検出された特定の遷移に基づいて、前記イベントの分類及び前記閾値の両方を調整するステップをさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項10】
前記少なくとも1つの遷移の検出時に、前記着信オーディオ及び/又はビデオ信号に関連する時間位置情報を更新するステップをさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項11】
前記少なくとも1つの遷移の検出時に、前記環境コンテキストに関連するスクリプトに基づいて装置の動作をトリガするステップをさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項12】
モバイル装置に関連する環境コンテキストを特定する方法であって、前記コンテキスト内の、継続的にストリーミングされる環境オーディオ信号コンテンツに関連する関心のある遷移を認識するステップを含み、前記遷移を使用して、前記モバイル装置の選択された動作をトリガする、
ことを特徴とする方法。
【請求項13】
前記モバイル装置に関連する環境コンテキストを識別して、前記コンテキストが変化したときに関心のある遷移を検出するように前記モバイル装置を動的に構成する、
ことを特徴とする方法。
【請求項14】
ネットワークサービスから戻されたメタデータにより支援される環境コンテキストの変化を分類する方法であって、
モバイル装置に関連する非明示的コンテキストを特定するステップと、
前記モバイル装置に関連するオーディオ及び/又はビデオ信号の分類を決定するステップと、
前記非明示的コンテキストに従って前記分類を変更するステップと、
を含むことを特徴とする方法。
【請求項15】
以前のコンテンツ認識を特定するステップをさらに含み、前記変更ステップが、前記非明示的コンテキスト及び前記以前のコンテンツ認識に従って前記分類を変更するステップを含む、
ことを特徴とする請求項14に記載の方法。
【請求項16】
前記モバイル装置の装置動作モード、電力供給タイプ、及びネットワーク接続タイプを特定するステップをさらに含み、前記変更ステップが、前記非明示的コンテキスト、並びに前記装置動作モード、電力供給タイプ、及びネットワーク接続タイプに従って前記分類を変更するステップを含む、
ことを特徴とする請求項14に記載の方法。
【請求項17】
ローカル又はリモート装置上に表示されるコンテンツにメタデータを同期させる方法であって、現在の環境コンテキスト、認識されたコンテンツ、及び/又は環境タイプに基づいて、閾値、フィンガープリントアルゴリズム、及びキャッシュサイズを含む設定の選択を修正するステップを含む、
ことを特徴とする方法。
【請求項18】
オーディオ及び/又はビデオコンテンツの大量の同時識別を支援する方法であって、
ローカルコンテンツ認識及びフィンガープリント法をネットワーク認識と組み合わせるステップと、
前記ネットワークによってローカルに名前を付けられた情報要素を受け取るステップと、
前記モバイル装置に関連する環境コンテキストに基づいて、前記ネットワークからモバイル装置へ遷移生成トリガを送信するステップと、
を含むことを特徴とする方法。
【請求項19】
検出された環境コンテキスト遷移に基づく信号分離方法であって、リアルタイム信号モニタリング及びフィンガープリント法をコンテキスト遷移と組み合わせて使用して、オーディオ及び/又はビデオ信号内のコマーシャルコンテンツからテレビ番組コンテンツを分離するステップを含む、
ことを特徴とする方法。
【請求項20】
コンピュータ装置をリンクさせる方法であって、
ユーザ入力装置により生成された個別信号を受け取るステップと、
前記信号を使用して前記コンピュータ装置をリンクさせ、コンテンツ及び相互作用を共有するステップと、
を含み、
前記個別信号のフィンガープリントを採取して使用し、時間制限されたグループ化期間を使用して前記コンピュータ装置をグループ化する、
ことを特徴とする方法。
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図11】
【図13】
【図14】
【図1】
【図2】
【図3】
【図10】
【図12】
【図5】
【図6】
【図7】
【図8】
【図9】
【図11】
【図13】
【図14】
【図1】
【図2】
【図3】
【図10】
【図12】
【公開番号】特開2013−13092(P2013−13092A)
【公開日】平成25年1月17日(2013.1.17)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−159985(P2012−159985)
【出願日】平成24年6月29日(2012.6.29)
【出願人】(501112323)グレースノート インコーポレイテッド (12)
【Fターム(参考)】
【公開日】平成25年1月17日(2013.1.17)
【国際特許分類】
【出願番号】特願2012−159985(P2012−159985)
【出願日】平成24年6月29日(2012.6.29)
【出願人】(501112323)グレースノート インコーポレイテッド (12)
【Fターム(参考)】
[ Back to top ]