説明

情報処理装置及び情報処理方法、情報提供装置、並びに、情報提供システム

【課題】コンテンツのオーディオ情報から抽出された特徴点情報に基づいてコンテンツの情報を好適に提供する。
【解決手段】クライアント装置140が、副音声を視聴中であっても、主音声からのみ特徴点情報を抽出して、情報提供サーバー150に問い合わせるので、副音声の特徴点情報を用意していない情報提供サーバー150によりACRサービスを実現できる。また、主音声と複数のオーディオ情報を持っているコンテンツが配信されても、情報提供サーバー150側では副音声の特徴点情報を用意する必要がなく、データベースの容量を増やさずに済む。

【発明の詳細な説明】
【技術分野】
【0001】
本明細書で開示する技術は、自動コンテンツ認識のためにコンテンツから特徴点情報を抽出する情報処理装置及び情報処理方法、コンテンツから抽出した特徴点情報に基づいてコンテンツの情報を提供する情報提供装置、並びに、コンテンツから抽出した特徴点情報に基づいてコンテンツの情報を提供する情報提供システムに関する。
【背景技術】
【0002】
近年、画像や音声を認識並びに理解する技術が発展し、民生機器のさまざまなアプリケーションに画像や音声など各種の認識・理解技術が利用されることが多くなってきている。一例として、インターネットを利用したクライアント・サーバー・システムで構築された、ACR(Automatic Content Recognition:自動コンテンツ認識)が挙げられ、ACRサービスと呼ばれて、さまざまなアプリケーションが提案されている。
【0003】
ACRサービスの用途の1つとして、違法コピー検出などコンテンツの権利統制を挙げることができる。例えば、インターネット経由でコンテンツを配信する際に、認識・理解技術を利用してコンテンツを識別し、そのコンテンツが合法なものか否かを照会する。最近では、ファイル共有サービスの普及とも相まって、画像や音声からコンテンツをより正確に識別するニーズが高まってきている。
【0004】
また、ACRサービスの他の用途として、コンテンツを視聴するユーザーに付加価値を提供するサービスを挙げることができる。例えば、放送又は配信されたコンテンツを同定して、コンテンツの視聴と同期するように、コンテンツに関連する情報をインターネット経由で提供する。米グレースノート社(Gracenote,Inc.Berkeley,California)から提供されているCDDB楽曲識別サービスは、コンパクト・ディスク(CD)を識別して、識別されたCDに関する情報(アルバム名やアーティスト名、トラック名、インターネット上の関連コンテンツ(アルバム・カバーやアーティスト、ファンのウェブサイト)など)へのアクセスを提供する。
【0005】
ACRサービスでは、例えば、コンテンツをデコードして表示する最終段において、コンテンツ内からWatermark(電子透かし)やfingerprint(特徴点情報)を抽出して、そのコンテンツを同定するものであり、コンテンツのデリバリー・チェーンには依存しない。
【0006】
放送番組などのビデオ情報とオーディオ情報を含むコンテンツを同定する場合、ビデオ情報とオーディオ情報のうち片方のみを利用してコンテンツを同定する方法や、両方を利用してコンテンツを同定する方法が考えられる。
【0007】
例えば、オーディオ情報のみを利用してコンテンツを同定する方法として、ディジタル的にサンプリングされた波形の1つ以上のセグメントを使用して、複数の振幅バンド又はスロットの各々において、波形のセグメント内の発生回数をカウントすることによって波形の振幅シグネチャを形成し、データベース内の振幅シグネチャとのファジー比較を実行し、1つ以上の潜在的な整合が発見された場合にはより正確な比較を実行することによって、波形を示すレコードのデータベースに波形の整合を発見する方法について提案がなされている(例えば特許文献1を参照のこと)。
【0008】
コンテンツを同定する際に、ビデオ情報とオーディオ情報のうち片方のみを利用するか、両方を利用するかは、ACRサービスの目的用途、コンテンツ認識率の目標、システム設計及び運用コストの制約などに応じて、システム設計時にサービス仕様又はアプリケーション仕様の一環で定義される。
【0009】
現状では、システム設計及び運用コストの面で、オーディオ情報だけを利用してACRサービスを実現することが、扱う情報量と処理量の観点から、最も負荷を軽くするには有利であると考えられている。何故ならば、オーディオ情報は、ビデオ情報よりも、コンテンツを同定するための特徴点情報のデータ量が少なくて済む場合が多いからである。
【0010】
しかしながら、たとえコンテンツ毎の特徴点情報のデータ量が少なくても、扱うコンテンツの数が多くなればなるほど、ACRサービスのサーバー側に用意すべき特徴点情報のデータ量は増大する。オーディオ情報を扱うACRサービスのデータベースの物理的な容量の肥大化は、システム設計及び運用上、大きな課題となる。
【0011】
システム設計上の課題として、扱うコンテンツの数が増えれば、各コンテンツを同定するための特徴点情報を蓄えておくデータベースの容量が大きくなり、同定するための処理と、同定できるまでの時間が増大する。また、システム運用上の課題として、扱うコンテンツの数が増えれば、各コンテンツを同定するための特徴点情報を蓄えておくデータベースの容量が大きくなり、物理的なデータベースを用意する設備投資、維持する経費などが増える。オーディオ情報だけを利用する場合であっても、これらの課題に対策を講じる必要がある、と本発明者らは思料する。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】特表2004−511838号公報
【発明の概要】
【発明が解決しようとする課題】
【0013】
本明細書で開示する技術の目的は、ACRサービスのサーバー側のシステム設計及び運用上の負担を軽減するよう、オーディオ情報を含んだコンテンツから特徴点情報を好適に抽出することができる、優れた情報処理装置及び情報処理方法を提供することにある。
【0014】
本明細書で開示する技術のさらなる目的は、システム設計及び運用上の負担が軽くなるよう、コンテンツのオーディオ情報から抽出された特徴点情報に基づいてコンテンツの情報を好適に提供することができる、優れた情報提供装置を提供することにある。
【0015】
また、本明細書で開示する技術のさらなる目的は、ACRサービスのサーバー側のシステム設計及び運用上の負担を軽減するよう、コンテンツのオーディオ情報から抽出された特徴点情報に基づいてコンテンツの情報を好適に提供することができる、優れた情報提供システムを提供することにある。
【課題を解決するための手段】
【0016】
本願は、上記課題を参酌してなされたものであり、請求項1に記載の技術は、
主音声と1以上の副音声を含むコンテンツを入力する入力部と、
入力されたコンテンツに含まれる主音声と1以上の副音声のうちいずれかをデコード再生して音声出力する音声出力部と、
入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成部と、
を具備し、音声ACR機能を主音声データだけで実現する情報処理装置である。
【0017】
本願の請求項2に記載の技術によれば、請求項1に記載の情報処理装置の特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、特徴点情報の生成処理を実行するように構成されており、音声の主副を認識して、副音声視聴時でも、常に主音声の特徴点情報を生成することができる。
【0018】
本願の請求項3に記載の技術によれば、請求項1に記載の情報処理装置の視聴用音声出力部で副音声をデコード再生して音声出力しているときには、前記特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成するように構成されている。すなわち、情報処理装置は、自動コンテンツ認識動作をきっかけにして主音声のデコード再生を開始するようにして、常に主副同時再生をする必要がないことを特徴とするものである。
【0019】
本願の請求項4に記載の技術によれば、請求項3に記載の情報処理装置は、副音声視聴時には、デコード再生した主音声から特徴点情報を生成するが、主音声を音声出力しないように構成されている。
【0020】
本願の請求項5に記載の技術によれば、入力部に入力されるコンテンツは、画像とともにマルチプレクスされている。そして、請求項1に記載の情報処理装置は、入力されたコンテンツをデマルチプレクスするデマルチプレクサー部をさらに備え、前記デマルチプレクサー部は、コンテンツに含まれるすべての音声を対象として処理し、前記音声出力部は、デマルチプレクスされた主音声と1以上の副音声のうち視聴対象の音声信号のみデコード再生して音声出力し、副音声視聴時において自動コンテンツ認識動作を行なうときに、前記特徴点情報生成部は、デマルチプレクスされた主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成するように構成されている。すなわち、情報処理装置は、主副信号のうち視聴対象となるどちらか一方のみをデコードしておき、副音声視聴時には、自動コンテンツ認識動作をきっかけにして主音声のデコード再生を開始するようになっており、常に主副同時再生する必要がないことを特徴とするものである。
【0021】
本願の請求項6に記載の技術によれば、請求項1に記載の情報処理装置は、特徴点情報生成部が主音声から生成した特徴点情報を基に、入力されたコンテンツを同定するコンテンツ同定部をさらに備えている。
【0022】
本願の請求項7に記載の技術によれば、請求項6に記載の情報処理装置は、ネットワークに接続する通信インターフェース部をさらに備えており、コンテンツ同定部は、コンテンツ識別情報とコンテンツに含まれる主音声の特徴点情報を対応付けた参照特徴点情報データベースに、前記通信インターフェース部を介して照会して、コンテンツ識別情報を取得するように構成されている。
【0023】
本願の請求項8に記載の技術によれば、請求項7に記載の情報処理装置は、各コンテンツの関連情報を蓄積する関連情報データベースに、前記通信インターフェース部を介して照会して、前記コンテンツ同定部が同定したコンテンツの関連情報を取得する関連情報取得部をさらに備えている。
【0024】
また、本願の請求項9に記載の技術は、
主音声と1以上の副音声を含むコンテンツを入力する入力ステップと、
入力されたコンテンツに含まれる主音声と1以上の副音声のうちいずれかをデコード再生して音声出力する音声出力ステップと、
入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成ステップと、
を有する情報処理方法である。
【0025】
また、本願の請求項10に記載の技術は、
主音声と1以上の副音声を含むコンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、
特徴点情報を含んだ問い合わせに対して、コンテンツ識別情報を返す、
情報提供装置であり、主音声のみの特徴点情報をデータベース化し、コンテンツの特徴点情報の照会時には主音声のみを使用することで、データベースの容量を最小限にしている。
【0026】
また、本願の請求項11に記載の技術は、
主音声と1以上の副音声を含むコンテンツを配信するコンテンツ配信装置と、
前記コンテンツ配信装置から配信されたコンテンツをいずれかの音声チャネルで視聴するとともに、主音声から特徴点情報を生成するクライアント装置と、
コンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、前記クライアント装置からの特徴点情報に問合せに対して該当するコンテンツ識別情報を提供する情報提供サーバーと、
を具備する情報提供システムである。
【0027】
但し、ここで言う「システム」とは、複数の装置(又は特定の機能を実現する機能モジュール)が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。
【発明の効果】
【0028】
本明細書で開示する技術によれば、コンテンツのオーディオ情報のうち必ず主音声から特徴点情報を抽出することにより、ACRサービスのサーバー側のシステム設計及び運用上の負担を軽減することができる、優れた情報処理装置及び情報処理方法を提供することができる。
【0029】
また、本明細書で開示する技術によれば、コンテンツのオーディオ情報のうち主音声から抽出された特徴点情報のみに基づいてコンテンツの情報を提供することにより、システム設計及び運用上の負担が軽くすることができる、優れた情報提供装置を提供することができる。
【0030】
また、本明細書で開示する技術によれば、コンテンツのオーディオ情報の主音声から抽出された特徴点情報のみに基づいてコンテンツの情報を提供することにより、ACRサービスのサーバー側のシステム設計及び運用上の負担を軽減することができる、優れた情報提供システムを提供することができる。
【0031】
本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
【図面の簡単な説明】
【0032】
【図1】図1は、視聴と同期してコンテンツに関連する付加価値情報を提供する情報提供システム100の構成を示した図である。
【図2】図2は、クライアント装置140の構成例を示した図である。
【図3】図3は、複数の音声チャネルを含むコンテンツに対応したデマルチプレクサー部217及び音声復号部219の内部構成を模式的に示した図である。
【図4】図4は、制御マイコン部214の制御下で、ACR機能動作を実行する処理手順を示したフローチャートである。
【発明を実施するための形態】
【0033】
以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。
【0034】
図1には、ACRサービスの一例として、コンテンツを視聴するユーザーに、視聴と同期してコンテンツに関連する付加価値情報を提供する情報提供システム100の構成を示している。図示の情報提供システム100は、放送コンテンツを配信するコンテンツ配信装置110と、ユーザーが配信コンテンツを視聴するTV受像機などのクライアント装置140と、コンテンツに関連する付加情報を提供する情報提供サーバー150で構成される。
【0035】
コンテンツ配信装置110は、放送局やコンテンツ・プロバイダーなどで運用され、ケーブル、衛星、IPTVなどの形態でコンテンツを配信する。コンテンツは、ビデオ情報とオーディオ情報を含むが、オーディオ情報として主音声のほかに1以上の副音声を有する場合もある。また、昨今の放送のディジタル化などに相俟って、コンテンツと同時に、関連アプリケーション配信制御情報などを含むメタデータが配信される。メタデータにはコンテンツの識別子などが含まれている。クライアント装置140に本来のメタデータが届く場合には、メタデータからコンテンツの識別子を抽出してACRサービスを実現することができる。
【0036】
放送局やコンテンツ・プロバイダーなどで運用されるコンテンツ配信装置110から配信(若しくは放送される)コンテンツがTV受像機などのクライアント装置140で直接受信されるとは限らず、図示のように、地域毎のケーブル会社などの放送中継局120で一旦受信された後に再配信される場合もある。複数の放送中継局が介在することも想定される。放送中継局120では、元の放送時間帯からは時間を空けて配信したり、番組の編成を変更したりすることもある。このため、放送中継局120で放送コンテンツを再配信する際に、コンテンツ配信装置110から配信された本来のメタデータに変更を加えたり、あるいは、放送中継局120独自のメタデータに置き換えたりすることもある。このようなメタデータの変更や置き換えに伴い、コンテンツの識別子など本来のメタデータに含まれている一部又は全部の情報が失われることもある。メタデータが失われた以降、コンテンツの素性は不明となる。
【0037】
このようにして、各家庭には、コンテンツ配信装置110や放送中継局120から配信される放送コンテンツがメタデータとともに届く。但し、TV受像機などのクライアント装置140で直接受信されるとは限らず、図示のように、ケーブル、衛星放送、IPTV用の専用セットボックス(STB)130で一旦受信される場合もある。セットトップボックス130は、一般に、受信した放送コンテンツを、ビデオ情報及びオーディオ情報からなるコンテンツ本体と、メタデータとに分離し、コンテンツ本体のみをRF(Radio Frequency)ケーブルなどを介して、TV受像機などのクライアント装置140に伝送する。
【0038】
要するに、図1に示した情報提供システム100は、放送局からのメタデータが、ケーブル会社などの放送中継局120や、セットトップボックス130で遮断されるというユース・ケースである。このような場合、クライアント装置140側では、視聴しているコンテンツを、メタデータに含まれるコンテンツの識別子から同定できなくなる。したがって、本実施形態に係る情報提供システム100では、ACRサービスを実現するために、コンテンツの識別子の代わりに、コンテンツを構成するビデオ情報やオーディオ情報から抽出される特徴点情報を用いてコンテンツの同定を行なうようにする。
【0039】
放送局やコンテンツ・プロバイダーなどが運営するコンテンツ配信装置110は、配信コンテンツに付随するメタデータを、例えばインターネットを経由して情報提供サーバー150に送信する。また、コンテンツ配信装置110は、配信コンテンツ毎に特徴点情報を抽出して、インターネットなどを経由して情報提供サーバー150に送信する。
【0040】
情報提供サーバー150は、メタデータを蓄積するメタデータ・データベース151と、各コンテンツの特徴点情報を蓄積する参照特徴点情報データベース152を備えている。メタデータ・データベース151では、各コンテンツのメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどを、コンテンツの識別子と対応付けて管理している。また、参照特徴点情報データベース152では、各コンテンツの特徴点情報をコンテンツの識別子と対応付けて管理している。
【0041】
一方、TV受像機などのクライアント装置140側では、ユーザーが視聴しているコンテンツから特徴点情報を抽出すると、インターネットなどを経由して、情報提供サーバー150に問い合わせる。
【0042】
情報提供サーバー150は、クライアント装置140からの特徴点情報の問合せに応答して、参照特徴点情報データベース152に照会して、照会結果として該当するコンテンツの識別子をクライアント装置140に返す。このようにして、クライアント装置140は、メタデータを失ったコンテンツの素性を知ることができる。
【0043】
クライアント装置140は、照会結果としてコンテンツの識別子を得ると、さらにコンテンツの識別子を基に情報提供サーバー150に問い合わせる。そして、情報提供サーバー150は、コンテンツの識別子の問合せに応答して、メタデータ・データベース151に照会して、コンテンツのメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどをユーザーに提供する。提供する方法として、クライアント装置140に直接送信する他、スマートフォンなどのクライアント装置140に関連付けられたモバイル機器に対して配信するようにしてもよい。
【0044】
上記のように、コンテンツの識別子の代わりに、コンテンツから抽出される特徴点情報に基づいてコンテンツを同定して、ACRサービスを実現させる場合、ビデオ情報とオーディオ情報のうち片方のみを利用してコンテンツを同定する方法や、両方を利用してコンテンツを同定する方法が考えられる。本実施形態では、システム設計及び運用コストの面で、オーディオ情報だけを利用してACRサービスを実現することにしている。何故ならば、オーディオ情報は、ビデオ情報よりも、コンテンツを同定するための特徴点情報のデータ量が少なくて済むため、扱う情報量と処理量の観点から、最も負荷を軽くするには有利であると考えられるからである。
【0045】
しかしながら、扱うコンテンツの数が多くなればなるほど、ACRサービスのサーバー側に用意すべき特徴点情報のデータ量は増大する。オーディオ情報を扱うACRサービスのデータベースの物理的な容量の肥大化は、システム設計及び運用上、大きな課題となる。
【0046】
システム設計上の課題として、扱うコンテンツの数が増えれば、各コンテンツを同定するための特徴点情報を蓄えておく参照特徴点情報データベース152の容量が大きくなり、同定するための処理と、同定できるまでの時間が増大する。また、システム運用上の課題として、扱うコンテンツの数が増えれば、参照特徴点情報データベース152の容量が大きくなり、物理的なデータベースを用意する設備投資、維持する経費などが増える。
【0047】
ここで、主音声に加えて副音声など複数のオーディオ情報を持っているコンテンツについて、特徴点情報を抽出する場合について考察してみる。クライアント装置140で、主音声ではなく副音声を視聴中に、ACRサービスを動作させると、副音声から特徴点情報を抽出し、情報提供サーバー150に問い合わせることになる。この場合、コンテンツを同定するためには、情報提供サーバー150側では、主音声だけでなく副音声の特徴点情報も参照特徴点情報データベース152に用意しておく必要があり、データベースの容量を削減するという上記の課題を解決できない。また、参照特徴点情報データベース152に主音声の特徴点情報しか用意していないと、クライアント装置140側で副音声を視聴しているときにACRサービスが機能しないことがある。
【0048】
そこで、本実施形態では、クライアント装置140が、副音声を視聴中であっても、主音声からのみ特徴点情報を抽出して、情報提供サーバー150に問い合わせるようにすることで、情報提供サーバー150が副音声の特徴点情報を用意していない場合であっても、副音声の視聴中にACRサービスが正しく機能するようにしている。また、コンテンツ配信装置110から主音声と複数のオーディオ情報を持っているコンテンツを配信している場合であっても、クライアント装置140からは主音声から抽出した特徴点情報で問い合わせを行なうので、情報提供サーバー150側では副音声の特徴点情報を用意する必要がなく、データベースの容量を増やさずに済む。
【0049】
図2には、クライアント装置140の構成例を示している。
【0050】
パラボラ・アンテナやケーブル線、STBなど(いずれも図示しない)から出力された入力変調(RF)信号は、入力端子201から、フロントエンド部210内のチューナー部211に入力供給され、選局される。復調部212では例えばQPSK(Quadrature Phase Shift Keying)復調される。復調部212からの出力は、エラー検出・訂正部213に供給される。エラー検出・訂正部213は、エラーを検出すると同時に、可能な限り訂正処理を行なう。
【0051】
制御マイコン部214、ROM(Read Only Memory)部215及びRAM(Random Access Memory)部216などには、暗号を解読するのに必要なキーが解読プログラムとともに格納してある。送信されてきたディジタル信号が暗号化されている場合は、この暗号を解読するキーと解読処理が必要となる。そこで、制御マイコン部214、ROM部215、RAM部216などから解読するキーを読み出し、このキーをデマルチプレクサー部(DEMUX)217に供給する。
【0052】
デマルチプレクサー部217では、このキーを利用して、暗号化されたディジタル信号を解読する。なお、この解読のために必要なキーとともに、解読プログラム及び課金情報等もメモリー内に一緒に格納する。
【0053】
デマルチプレクサー部217は、エラー検出・訂正部213からの出力信号を受け、これをデータ・バッファー・メモリ用のRAM部216の適切なメモリー領域(あるいはデマルチプレクサー部217内部のメモリー領域)に一旦格納する。そして、適宜RAM部216からデータを読み出して解読してビデオ・エレメンタリー・ストリームとオーディオ・エレメンタリー・ストリームに分離し、ビデオ・エレメンタリー・ストリームを画像復号部218に供給するとともに、オーディオ・エレメンタリー・ストリームを音声復号部219に供給する。このとき、多重化されている符号化データ・ストリームから、システム・クロックを再形成するのに必要な情報をクロック発生部220で抽出し、画像復号部218及び音声復号部219の処理に用いる。
【0054】
デマルチプレクサー部217で抽出されるオーディオ・エレメンタリー・ストリームは、コンテンツが複数の音声チャネルを持つ場合、その分だけ抽出される。例えば、主副の音声チャネルがある場合は、デマルチプレクサー部217で2本のエレメンタリー・ストリームが抽出される。
【0055】
なお、デマルチプレクサー部217の処理は、例えばISO (International Organization for Standardization)/IEC(International Electrotechnical Commission)13818−1(Geneva 1995)の規格書に詳細にわたって規定されている。
【0056】
画像復号部218は、入力された符号化データを、RAM部216に適宜格納し、MPEG(Moving Picture Coding Experts Group)方式により圧縮符号化されている画像信号の復号処理を実行する。復号化された画像信号は、表示画像構成部221に供給される。表示画像構成部221では、例えば、NTSC(National Television System Committee)方式の輝度信号(Y)、クロマ信号(C)及びコンポジット信号(CV)に変換される。そして、この信号は、D/Aコンバーター部222でアナログ変換され、出力される。出力端子223からは、例えばSビデオ信号形式でビデオ信号が出力される。画像復号部218の処理は、例えばISO/IEC13818−2(Geneva 1995)の規格書に詳細にわたって規定されている。
【0057】
音声復号部219は、デマルチプレクサー部217より供給された符号化音声信号をRAM部216に適宜格納し、MPEG方式により圧縮符号化されている音声信号の復号処理を実行する。復号化されたディジタル音声信号は、D/Aコンバーター部224に供給され、アナログ変換される。このとき、左右のチャンネルの音声信号が適切に処理され、左右チャンネルの音声出力として、出力端子25から出力される。音声復号部219の処理は、例えばISO/IEC13818−3(Geneva 1995)の規格書に詳細にわたって規定されている。
【0058】
コンテンツが複数の音声チャネルを持つ場合、デマルチプレクサー部217で複数のオーディオ・エレメンタリー・ストリームが抽出されるが(前述)、音声復号部219は、音声チャネル毎の復号部を備えている。
【0059】
制御マイコン部214は、ROM部215に格納されているプログラムに従い、各種の処理を実行する。例えば、システム・バス203を介してチューナー部211、復調部212、エラー検出・訂正部213などでの処理を制御する。また、システム・バス203を介してデマルチプレクサー部217、画像復号部218、音声復号部219、表示画像構成部221の処理ブロックを制御し、ROM部215、RAM部216に対する各メモリー・アドレスの読み出し・書込み処理などを制御する。一方、制御マイコン部214には、リモート・コマンダー(図示しない)などからの入力情報を受けたユーザー・インターフェース部227からの所定の命令を直接入力することができる。ユーザー・インターフェース部227からは、選局や音量調整、音声チャネルの選択、ACR機能動作の指示などが入力される。
【0060】
IP(Internet Protocol)インターフェース部(IP I/F)部230は、イーサネット(登録商標)やWi−Fiなどの局所ネットワークを通じて、クライアント装置140をインターネットのような広域ネットワークに接続する。IPインターフェース部230は、例えばACRサービスの起動時において、情報提供サーバー150に接続し、コンテンツから抽出した特徴点情報の送信や、コンテンツに関連するメタデータの取得に利用される。
【0061】
図3には、複数の音声チャネルを含むコンテンツに対応したデマルチプレクサー部217及び音声復号部219の内部構成を模式的に示している。上述したように、クライアント装置140に入力されるコンテンツが複数の音声チャネルを持つ場合、デマルチプレクサー部217では、その分だけオーディオ・エレメンタリー・ストリームが抽出される。また、音声復号部219は、音声チャネル毎の復号部を備えている。また、複数の音声チャネルを持つコンテンツを視聴しているときに、ユーザー・インターフェース部227から制御マイコン部214に、視聴対象となる音声チャネルの切り換えが入力される。
【0062】
本実施形態では、クライアント装置140の低消費電力化とACR動作の高速化のために、デマルチプレクサー部217までは主副すべての音声チャネルを対象に処理しておくが、音声復号部219では、内部のスイッチ(SW)機能を使用して、視聴対象となるいずれか1つの音声チャネルについてのみ復号処理を行なう。例えば各音声チャネルのデータには主副を識別する識別情報が付されており、デコード時に主音声又は副音声のいずれであるかを判別できるものとする。
【0063】
この状態で、ユーザー・インターフェース部227からACR機能動作の指示が入力されると、音声復号部219は、デマルチプレクサー部217がRAM部216に一旦格納した所望の音声チャネルのデコード結果データに対して、制御マイコン部214の制御下で、主音声の特徴点情報を取得する処理を実行する。
【0064】
そして、クライアント装置140は、取得した主音声の特徴点情報を、IPインターフェース部230からインターネットなどを経由して、情報提供サーバー150に問い合わせる。
【0065】
情報提供サーバー150側では、コンテンツ配信装置110から配信されるすべてのコンテンツの少なくとも主音声についての特徴点情報を、コンテンツの識別子と対応付けて参照特徴点情報データベース152で管理している。情報提供サーバー150は、クライアント装置140からの主音声の特徴点情報の問合せに応答して、参照特徴点情報データベース152に照会してコンテンツを同定すると、照会結果として該当するコンテンツの識別子をクライアント装置140に返す。
【0066】
クライアント装置140は、照会結果としてコンテンツの識別子を得ると、さらにコンテンツの識別子を基に情報提供サーバー150に問い合わせる。そして、情報提供サーバー150は、コンテンツの識別子の問合せに応答して、メタデータ・データベース151に照会して、コンテンツのメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどをユーザーに提供する。
【0067】
なお、情報提供サーバー150がクライアント装置140にコンテンツの識別子を返すのではなく、参照特徴点情報データベース152に照会して得たコンテンツの識別子でさらにメタデータ・データベース151に照会してメタデータを取得し、クライアント装置140に照会結果として返すようにしてもよい。
【0068】
クライアント装置140は、IPインターフェース部230を介して情報提供サーバー150から受け取ったメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどを、RAM部216に一旦格納する。
【0069】
制御マイコン部214は、RAM部216に一旦格納されたメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどを、アプリケーション仕様に従って処理する。
【0070】
情報提供サーバー150からメタデータなどを提供する方法として、クライアント装置140に直接送信する他、スマートフォンなどのクライアント装置140に関連付けられたモバイル機器に対して配信するようにしてもよい。
【0071】
図4には、制御マイコン部214の制御下で、ACR機能動作を実行する処理手順をフローチャートの形式で示している。
【0072】
クライアント装置140上でコンテンツを視聴中に、ユーザー・インターフェース部227などからACR動作の開始が指示されると(ステップS401のYes)、制御マイコン部214は、主音声を視聴中かどうかチェックする(ステップS402)。
【0073】
ここで、主音声を視聴中でない、すなわち副音声を視聴しているときには(ステップS402のNo)、音声復号部219は、デマルチプレクサー部217がRAM部216に一旦格納した主音声チャネルのデコードを開始する(ステップS407)。また、主音声を視聴しているときには(ステップS402のYes)、音声復号部219は、視聴対象である主音声チャネルのデコードを行なっている。
【0074】
そして、制御マイコン部214は、主音声チャネルのデコード結果データに対して、その特徴点情報を取得する処理を開始する(ステップS403)。
【0075】
主音声の特徴点情報の作成を終了すると(ステップS404のYes)、制御マイコン部214の制御下で、特徴点情報を基に視聴中のコンテンツの同定を行なう(ステップS405)。具体的には、取得した主音声の特徴点情報を、IPインターフェース部230からインターネットなどを経由して、情報提供サーバー150に問い合わせる。
【0076】
情報提供サーバー150側では、コンテンツ配信装置110から配信されるすべてのコンテンツの少なくとも主音声についての特徴点情報を、コンテンツの識別子と対応付けて参照特徴点情報データベース152で管理している。情報提供サーバー150は、クライアント装置140からの主音声の特徴点情報の問合せに応答して、参照特徴点情報データベース152に照会する。クライアント装置が、情報提供サーバー150から照会結果を受け取り、コンテンツを同定することができると(ステップS406のYes)、本処理ルーチンを終了する。
【0077】
クライアント装置が視聴中の音声チャネルからしか特徴点情報を抽出できないと、複数の音声チャネルを含むコンテンツに対して、クライアント装置側で副音声を視聴中は、データベースに主音声の特徴点情報しか用意していない情報提供サーバーと連携しても音声ACR機能が働かないことがある。これに対し、本実施形態では、クライアント装置140はいずれの音声チャネルを視聴中であっても主音声の特徴点情報を確実に生成することができるので、データベースに主音声の特徴点情報しか用意していない情報提供サーバーと連携して、音声ACR機能を実現することができる。
【0078】
また、情報提供サーバー150側では、複数の音声チャネルを含むコンテンツに対しても、主音声の特徴点情報のみのデータベースを運用すればよいので、データベースの容量を最小限に抑えることができ、動作効率、運用コスト、メンテナンス・コストなどの観点で最適な情報提供システム100を実現することができる。
【0079】
なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)主音声と1以上の副音声を含むコンテンツを入力する入力部と、入力されたコンテンツに含まれる主音声と1以上の副音声のうちいずれかをデコード再生して音声出力する音声出力部と、入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成部と、を具備する情報処理装置。
(2)前記特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、特徴点情報の生成処理を実行する、上記(1)に記載の情報処理装置。
(3)前記視聴用音声出力部で副音声をデコード再生して音声出力しているときには、前記特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成する、上記(1)に記載の情報処理装置。
(4)デコード再生した主音声を音声出力しない、上記(3)に記載の情報処理装置。
(5)前記入力部に入力されるコンテンツは、画像とともにマルチプレクスされており、入力されたコンテンツをデマルチプレクスするデマルチプレクサー部をさらに備え、前記デマルチプレクサー部は、コンテンツに含まれるすべての音声を対象として処理し、前記音声出力部は、デマルチプレクスされた主音声と1以上の副音声のうち視聴対象の音声信号のみデコード再生して音声出力し、副音声視聴時において自動コンテンツ認識動作を行なうときに、前記特徴点情報生成部は、デマルチプレクスされた主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成する、上記(1)に記載の情報処理装置。
(6)前記特徴点情報生成部が主音声から生成した特徴点情報を基に、入力されたコンテンツを同定するコンテンツ同定部をさらに備える、上記(1)に記載の情報処理装置。
(7)ネットワークに接続する通信インターフェース部をさらに備え、前記コンテンツ同定部は、コンテンツ識別情報とコンテンツに含まれる主音声の特徴点情報を対応付けた参照特徴点情報データベースに、前記通信インターフェース部を介して照会して、コンテンツ識別情報を取得する、上記(6)に記載の情報処理装置。
(8)各コンテンツの関連情報を蓄積する関連情報データベースに、前記通信インターフェース部を介して照会して、前記コンテンツ同定部が同定したコンテンツの関連情報を取得する関連情報取得部をさらに備える、上記(7)に記載の情報処理装置。
(9)主音声と1以上の副音声を含むコンテンツを入力する入力ステップと、入力されたコンテンツに含まれる主音声と1以上の副音声のうちいずれかをデコード再生して音声出力する音声出力ステップと、入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成ステップと、を有する情報処理方法。
(10)主音声と1以上の副音声を含むコンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、特徴点情報を含んだ問い合わせに対して、コンテンツ識別情報を返す、情報提供装置。
(11)主音声と1以上の副音声を含むコンテンツを配信するコンテンツ配信装置と、前記コンテンツ配信装置から配信されたコンテンツをいずれかの音声チャネルで視聴するとともに、主音声から特徴点情報を生成するクライアント装置と、コンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、前記クライアント装置からの特徴点情報に問合せに対して該当するコンテンツ識別情報を提供する情報提供サーバーと、を具備する情報提供システム。
【産業上の利用可能性】
【0080】
以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
【0081】
本明細書で開示する技術は、複数の音声チャネルを含むコンテンツから特徴点情報を生成し、特徴点情報を基にコンテンツを同定する処理に主な特徴があり、コンテンツを同定した以降の処理は特に限定されない。本明細書では、コンテンツのメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどを、TV受像機などのクライアントや、スマートフォンなどのモバイル機器に配信する情報提供システムに関する実施形態を中心に説明してきたが、本明細書で開示する技術は、コンテンツの権利統制など、ACR機能を利用したさまざまなサービスに利用することができる。
【0082】
要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。
【符号の説明】
【0083】
100…情報提供システム
110…コンテンツ配信装置
120…中継局
130…セットトップボックス
140…クライアント装置
150…情報提供サーバー
151…メタデータ・データベース
152…参照特徴点情報データベース
201…入力端子
203…システム・バス
210…フロントエンド部
211…チューナー部、212…復調部、213…エラー検出・訂正部
214…制御マイコン部、215…ROM部、216…RAM部
217…デマルチプレクサー部
218…画像復号部、219…音声復号部、220…クロック発生部
221…表示画像構成部
222…D/Aコンバーター部、223…出力端子
224…D/Aコンバーター部、225…出力端子
227…ユーザー・インターフェース部、230…IPインターフェース部


【特許請求の範囲】
【請求項1】
主音声と1以上の副音声を含むコンテンツを入力する入力部と、
入力されたコンテンツに含まれる主音声と1以上の副音声のうちいずれかをデコード再生して音声出力する音声出力部と、
入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成部と、
を具備する情報処理装置。
【請求項2】
前記特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、特徴点情報の生成処理を実行する、
請求項1に記載の情報処理装置。
【請求項3】
前記視聴用音声出力部で副音声をデコード再生して音声出力しているときには、前記特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成する、
請求項1に記載の情報処理装置。
【請求項4】
デコード再生した主音声を音声出力しない、
請求項3に記載の情報処理装置。
【請求項5】
前記入力部に入力されるコンテンツは、画像とともにマルチプレクスされており、
入力されたコンテンツをデマルチプレクスするデマルチプレクサー部をさらに備え、
前記デマルチプレクサー部は、コンテンツに含まれるすべての音声を対象として処理し、
前記音声出力部は、デマルチプレクスされた主音声と1以上の副音声のうち視聴対象の音声信号のみデコード再生して音声出力し、
副音声視聴時において自動コンテンツ認識動作を行なうときに、前記特徴点情報生成部は、デマルチプレクスされた主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成する、
請求項1に記載の情報処理装置。
【請求項6】
前記特徴点情報生成部が主音声から生成した特徴点情報を基に、入力されたコンテンツを同定するコンテンツ同定部をさらに備える、
請求項1に記載の情報処理装置。
【請求項7】
ネットワークに接続する通信インターフェース部をさらに備え、
前記コンテンツ同定部は、コンテンツ識別情報とコンテンツに含まれる主音声の特徴点情報を対応付けた参照特徴点情報データベースに、前記通信インターフェース部を介して照会して、コンテンツ識別情報を取得する、
請求項6に記載の情報処理装置。
【請求項8】
各コンテンツの関連情報を蓄積する関連情報データベースに、前記通信インターフェース部を介して照会して、前記コンテンツ同定部が同定したコンテンツの関連情報を取得する関連情報取得部をさらに備える、
請求項7に記載の情報処理装置。
【請求項9】
主音声と1以上の副音声を含むコンテンツを入力する入力ステップと、
入力されたコンテンツに含まれる主音声と1以上の副音声のうちいずれかをデコード再生して音声出力する音声出力ステップと、
入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成ステップと、
を有する情報処理方法。
【請求項10】
主音声と1以上の副音声を含むコンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、
特徴点情報を含んだ問い合わせに対して、コンテンツ識別情報を返す、
情報提供装置。
【請求項11】
主音声と1以上の副音声を含むコンテンツを配信するコンテンツ配信装置と、
前記コンテンツ配信装置から配信されたコンテンツをいずれかの音声チャネルで視聴するとともに、主音声から特徴点情報を生成するクライアント装置と、
コンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、前記クライアント装置からの特徴点情報に問合せに対して該当するコンテンツ識別情報を提供する情報提供サーバーと、
を具備する情報提供システム。


【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図1】
image rotate