説明

視聴覚番組コンテンツの視聴覚要約を生成するシステム及び方法

本発明は、視聴覚番組コンテンツに対する視聴覚要約を生成するシステムを記載している。システムは、番組コンテンツと関連付けられる予め生成されるテキスト要約を位置特定するサーチ装置と、テキスト要約を音声に変換する音声合成器と、視聴覚番組コンテンツのビデオ要約を生成するビデオ要約生成器と、合成音声をビデオ要約とミキシングするオーディオ/ビデオ・ミキサとを備える。更に、本発明は、視聴覚番組コンテンツに対する視聴覚要約を生成するうえで適切な方法を記載している。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は一般に視聴覚コンテンツの視聴覚要約を生成するシステム及び方法に関し、特に視聴覚要約を視聴覚装置において生成するシステム及び方法に関する。
【背景技術】
【0002】
ビデオオンデマンド、ペイTV及びオンライン・マルチメディアのコンテンツなどの新興サービスによって、利用可能な多くの番組が視聴者に提示される一方、DVD技術やハードディスク記録システムにおける新たな進展によって視聴者に、TV番組を容易に記録し、自らの映画コレクションを収集する手段を提供する。ディジタルTVの出現と利用可能なチャネルの増加によって、視聴者は、視聴する対象の番組の選択肢の更なる増加に直面することになる。よって、ビデオ上やDVD上に番組を記録して後の段階で視ることが、特に、番組が視聴者にとって適切でない時間に放送される場合又はいくつかの番組が別々のチャンネル上で同時に放送される場合にもっと望ましいものになる。
【0003】
記録された番組のコレクションが増えると、特定の番組を見つけて視聴することがますます難しくなる。極めて多くの場合、記録の名称だけでは視聴者にその性質や内容を伝えることは十分でなくなり、各記録のセグメントを視て、それが所望のものであるかを確かめるのは一般的に実行可能なものでない。所望の記録を見つけることは、各記録について十分な情報を提供して、情報を与えられたうえでの選択をユーザが行うことを可能にする要約集によってもっと容易になる。
【0004】
例えば、テレビ放送や、DVDプレイヤやVCRなどの視聴覚装置からのものであり得る、視聴覚ストリームのオーディオ・コンテンツ及びビデオ・コンテンツを用いて要約を生成する手法が利用可能なものとして存在している。視聴覚信号のオーディオ・コンテンツは、音楽、音響効果や他のオーディオ・コンテンツを音声コンテンツとともに備え得る。例えば米国特許出願公開第2002/0051077号明細書では、字幕テキストを解析してビデオ・コンテンツにおけるストーリについての要約文を見つけることが記載されており、これによって、相当するオーディオ・クリップ及びビデオ・クリップを見つけるのに用い得る。番組コンテンツの要約を示すようクリップを配列し得る。要約に用いる対象のビデオ・クリップを選ぶことは比較的容易であるが、付随するオーディオ・コンテンツを用いることは望ましくない場合が多い。それは、背景音楽及び/又は音響効果が結果として遮断されることによって耳障りな感じとなり、結果として聴くといらいらするものであり得る。音声の対話を文の途中で中断することは極めて受け入れがたい。それは、対話が理解しがたいものになってしまうからである。更に、ビデオ・クリップに付随する対話は、映画が実際に何についてのことかを視聴者に分からせるのに十分でない場合があり、映画に登場する俳優、プロデューサ、製作年、映画のジャンル、レーティング、予算、興行的成功、オスカー受賞数、特定の年齢層に対する適性などについての情報は何ら提供しない場合がある。しかし、これは、視る対象の記録を選択する場合に視聴者に興味があるまさにその情報であり得る。視聴覚入力のオーディオ・コンテンツもビデオ・コンテンツも用いて要約を生成するのに現在利用可能な手法はしたがって、概して不十分であるが、それは、映画に適切なものであり、かつ、情報が与えられたうえでの選択をオーディオ・コンテンツ及びビデオ・コンテンツから視聴者が行ううえで非常に重要な情報を集めることが可能でないからである。
【発明の開示】
【発明が解決しようとする課題】
【0005】
したがって、本発明の目的は、視聴覚番組に対する、簡潔でかつ有益な要約を容易に生成するのに用い得るシステム及び方法を備えるというものである。
【課題を解決するための手段】
【0006】
この目的で、本発明は、視聴覚番組コンテンツの視聴覚要約を生成するシステムを備える。このシステムは、番組コンテンツと関連付けられる予め生成されるテキスト要約を位置特定するサーチ装置と、テキスト要約を音声に変換する音声合成器と、視聴覚番組コンテンツのビデオ要約を生成する音声合成器と、合成音声をビデオ要約とミキシングするオーディオ/ビデオ・ミクサとを備える。
【0007】
視聴覚番組コンテンツに対する視聴覚要約を生成するうえで適切な方法は、番組コンテンツと関連付けられる予め生成されるテキスト要約を見つける工程と、テキスト要約を音声に合成する工程と、視聴覚番組コンテンツのビデオ要約を生成する工程と、合成される音声をビデオ要約とミキシングする工程とを備える。
【0008】
システムはよって、知的な視聴選択を短時間に行ううえで必要な情報全てが提示される視聴者によって用い得る、視聴覚番組に対する有益な要約を生成する容易な方法を備える。
【0009】
テキスト要約を位置特定するモジュールと、音声合成を行うモジュールと、ビデオ要約を生成するモジュールは、当業者によって市販の構成部分を用いることによって実現することが可能である。これらのモジュールは、利用可能なソフトウェア構成部分及び/又はハードウェア構成部分を用いて実現してもよいので、本発明は高い費用対効果のもとで実現することが可能である。
【0010】
番組コンテンツに関するテキスト要約をサーチする情報源は、例えば、情報データベース、インターネット、イントラネットや、ディジタル放送信号であり得る。
【0011】
従属請求項と、明細書の下記記載は、本発明の特に効果的な実施例及び特徴を開示している。
【0012】
一般的に、特定の映画に対する2つ以上のテキスト要約がサーチ装置によって、サーチ装置が別の、例えば、第1に位置特定される要約を選ぶに過ぎないように構成し得る、方法で構成されない限り、位置特定されることになる。複数の位置特定テキスト要約のうちの最も適切なものを選ぶことを可能にするよう、システムは好ましくは、各要約を検査し、予め定義される基準を最もよく満たすものを選ぶセレクタを備える。
【0013】
適切な要約を選ぶ基準は、要約テキスト中に備えられている情報量と、要約を合成される音声として提示するのに必要な時間長とであり得る。例えば、映画の題名と、主演俳優の名前と、映画の簡単な説明と、映画レーティングとを挙げることで十分であり得る。この要約テキストは、オーディオ・コンテンツから抽出されるビデオ・クリップ並びに背景音楽及び/又は音響効果とともにトレーラとして短時間に合成し、提示することが可能であり、このことは、最小量の情報に基づいてすばやい選択を行おうとする視聴者に好都合であり得る。一方、視聴者はより詳細に知りたい場合があるので、映画のコンテンツについての更なる情報も、映画の背景、主演俳優全員、プロデューサ、監督、映画賞の受賞などについての情報とともに要約テキストに存在すべきである。この情報は、オーディオ・コンテンツから抽出される音響効果及び音楽が場合によっては付随する、更に広範なビデオ・セレクションとともに合成し、提示して、記録に対する非常に有益なトレーラを供給し得る。
【0014】
合成される要約テキストの品質は、音声合成において用いる音声プロファイルを規定し得るユーザによっても制御し得る。視聴者は、例えば、自分自身の音声プロファイルを合成に加えさせたい場合があり、音声プロファイルが記録における主演俳優のものと一致することをどちらかといえば好む場合もある。
【0015】
したがって、本発明の特に効果的な実施例によって、いくつかの要約のうちの1つを選択する基準、例えば、要約の所望の長さ、情報コンテンツの品質、などの選好と、要約テキストを音声に合成するうえでの選好とをユーザが規定することができる。この目的で、システムは好ましくは、そのような選好を入力するのに適切なユーザ・インタフェースを備える。
【0016】
既存の要約の種類及び品質は、要約の存在するサイトによってある程度は変わってくる。一部は専門的にかつ高水準で編集されることになる一方、他のレビューは、かなり低水準のものであり、よって、ユーザが受け入れがたいものである場合がある。したがって、本発明の別の効果的な実施例によって、テキスト要約のサーチから除外する対象又はこのサーチに備える対象のインターネット・サイトを規定することによってサーチ手順の結果をユーザが制御することができる。好ましくは、ユーザはそのようなサーチ選好をユーザ・インタフェースによって入力することができる。
【0017】
本発明の更なる実施例は、ユーザ・プロファイルにおいて必要なテキスト要約の種類及び長さと、ユーザ・プロファイルにおける要約の品質とに関してユーザによって規定される情報を記憶する手段を備える。効果的には、システムは、2つ以上のユーザ・プロファイルを記憶することができるようにしているので、2つ以上の視聴者が、ユーザ・プロファイル情報を毎回入力する必要なくシステムを利用することができる。
【0018】
本発明の特に効果的な実施例では、システムは、サーチ装置と、場合によってはセレクタとを用いて、予め生成されるテキスト要約を収集し、これを局所で要約ライブラリに記憶して将来利用するようにしている。サーチ装置は、ユーザによる入力を必要とすることなくこの作業をバックグラウンドで行い得る。要約はテキスト形式のものであるので、そのような要約集を記憶しても大容量のメモリは必要としない。ユーザは、テキスト要約集を後の時点で、テレビ上やコンピュータ画面上などの画面上か、プリントアウトの形式でそれを視ることによって閲覧し、要約に備える情報に基づいて、特定の映画を記録する価値があるか否かを決定する。映画を記録することをユーザが決定する場合には、適切なテキストに既に目印が付けられており、局所ライブラリにおいて非常に容易に見つけ、更にこのライブラリから抽出し、記録に対するトレーラを生成するのに用いることができる。
【0019】
本発明の特に効果的な実施例では、システムは、コンピュータ・ネットワーク・インタフェースを利用して特定の映画に適切な、予め生成されたテキスト要約についてコンピュータ・ネットワークをサーチする。インタフェースは、例えば、モデム、ISDN接続又はDSL接続や、何れかの所要ハードウェア及び所要ソフトウェアによって実現することが可能である。インタフェースの更なる実施例は、無線接続を用いてコンピュータ・ネットワークと接続し得る。システムが接続するコンピュータ・ネットワークは、局所のイントラネット又はワールドワイドウェブ(インターネット)であり得る。例えば、インターネット上には、あらゆる映画についての一般的な情報を備え、レビュー及び要約も備える、映画に特化したサイトが多く存在している。サーチ・エンジンは、好ましくは所望の言語でのこの既存の要約を見つけ、それをシステムにダウンロードして更に処理することができる。システムのサーチ・エンジンは、場合によってはより強力なサーチ・エンジン(例えば、メタクローラ)のサービスを利用して並列サーチを行い、それによって所望の結果を得るのに要する時間量を最小にする場合もある。本発明の好ましい実施例によって、システムが所望の情報への容易でかつ効率的なアクセスを有するように、テキスト記述を直接供給するウェブ・ベースのサービス・プロバイダとサーチ装置が接続することができる。
【0020】
番組コンテンツの要約はオリジナル・サウンドトラックの一部を備えている場合に、より面白くかつ有益なものになるので、本発明は好ましくは、視聴覚信号上の音楽及び音響効果を識別するオーディオ・プロセッサを備えるが、それは、元のオーディオ・コンテンツの抜粋を聴くことによって視る対象の記録を視聴者が選ぶのに有用であり得るからである。元のオーディオ・コンテンツをそのように備えることは、例えば、情報が与えられたうえでの選択を目玉の音楽の種類に基づいて視聴者が行うことができるような、音楽又はコンサートの記録の要約の場合に特に効果的であり得る。スリラー映画やミステリー映画の場合、オリジナル・サウンドトラックから複製される音響効果を備えることによって、記録の雰囲気を出すことに寄与することになる。所望の場合、元の音声コンテンツも要約中に所々に、場合によっては合成される要約のものよりも低い音量でミキシングし得る。
【0021】
本発明の好ましい特徴は、予め生成される要約を見つけ、ユーザ選好によって適切な要約を選択し、テキストを音声に合成し、ビデオ要約を生成し、ビデオ成分及びオーディオ成分をミキシングして完成された要約を供給するうえで関係する工程全てを行うコンピュータ・プログラムを備える、すなわち、サーチ装置、セレクタ、合成器、ビデオ要約生成器などの、システムの構成部分の大半又は全部を、ソフトウェア・モジュールの形態で実現し、適切なハードウェア構成部分上で実施することが可能である。所要ソフトウェアは、TV、VCR、マルチメディアPCなどの何れかのメディア装置のプロセッサ上にコード化してもよく、本発明の特徴の恩恵を受けるよう既存のメディア装置を形成し得るように別個のプロセッサ上にコード化してもよい。
【発明を実施するための最良の形態】
【0022】
本発明の他の目的及び特徴は、以下の詳細の説明を添付図面とともに検討することによって明らかとなる。
【実施例】
【0023】
本発明の、考えられる他の実現形態を排除するものでない以下の図の記載において、視聴覚装置24、例えば、家庭用娯楽システム、TV、マルチメディア装置など、に接続されているシステムを示す。明瞭にするために、ユーザ25とシステム1との間のインタフェース12は、図では概略のみを備えている。しかし、システム1は、ユーザ・インタフェースの通常の方法でユーザ25によって送出されるコマンドを解釈する手段を備え、視聴覚信号を出力する手段、例えば、TVのスピーカ、TV画面など、も備え得る。
【0024】
図1は、自動要約生成システム1を示し、このシステムでは、サーチ装置4が、外部コンピュータ・ネットワーク18、例えばインターネット、における番組コンテンツ3に関連付けられる、予め生成されるテキスト要約51,52,…,5i,5nを位置特定する。
【0025】
番組コンテンツ3は、例えばビデオ上やDVD上の記録14からのものでもよく、テレビジョン放送26として受信されるものでもよい。スイッチ22によって、番組コンテンツ3のソースの選択ができる。ユーザ25によってユーザ・インタフェース12を介して入力されるか、番組コンテンツ3が付随する字幕情報から抽出される、番組コンテンツ3に関する情報がサーチ装置4に転送される。
【0026】
サーチ装置4はこの情報を用いて、適切な要約が局所テキスト要約ライブラリ15に既に記憶されているかを確かめる。あるいは、サーチ装置4の一部であるインターネット・サーチ・エンジン17は、適切な、予め生成される要約51,52,…,5i,…,5nをインターネット18において位置特定し、コンピュータ・ネットワーク・インタフェース16を介してそれらをダウンロードし得る。2つ以上の適切なテキスト要約51,52,…,5i,…,5nがインターネット18上で位置特定される場合、サーチ装置4のセレクタ11は、ユーザ25によってユーザ・インタフェース12を介して入力され、局所でメモリ27に他のユーザ選好13とともに記憶される、予め規定される基準を最もよく満たすものを決定する。この基準に基づいて、要約5iが選択され、合成モジュール6に転送され、合成モジュールはディジタル形式のテキスト要約5iを音声7に変換する。合成は、合成音声7に加える対象の音声プロファイルなどの、他の種類のユーザ選好13によって制御され得る。
【0027】
一方、ビデオ要約生成器8は適切なビデオ・シーケンスを、番組コンテンツ3において識別し、ビデオ要約9に集約する一方、オーディオ・プロセッサ19は適切なオーディオ・コンテンツ、例えば、音響効果又は音楽、を識別し、これをオーディオ要約20に集約する。ビデオ要約生成器8及びオーディオ・プロセッサ19は、1つの装置を備えるものでもよく、別個の構成部分として実現されるものでもよい。
【0028】
オーディオ・ビデオ・ミキサ10は、ビデオ及びオーディオの要約9,20を合成オーディオ音声7と組み合わせて番組コンテンツ3に対する完成要約2を供給する。要約2は、TV上、コンピュータ画面上、マルチメディア装置上などの視聴覚装置24上で視ること及び/又は、記憶媒体23上、例えば、ビデオテープ上、DVD上、ハードディスク上、(取り外し可能な)ソリッドステート・メモリ上などに記憶して将来用いること、ができる。
【0029】
この例で説明したシステム1は、例えば、視聴覚装置24に接続された一種のセットトップボックスであり得る、単一の装置21として示す。しかし、説明した追加構成部分(サーチ装置4、音声合成器6、ビデオ要約生成器8、オーディオ/ビデオ・ミキサ10)の全てを統合して、単一の装置を視聴覚装置24とともに提示してもよく、視聴覚装置24に接続されるパソコン・システムの一部として実現してもよい。
【0030】
本発明は好ましい実施例とそれに対する変形との形態で開示したが、数多くの更なる修正及び変形をそれらに対して本発明の範囲から逸脱することなく行い得るということが分かる。例えば、メモリに記憶されているテキスト要約は、最新の要約をインターネットからダウンロードすることによって適宜、更新又は置換することができる。利用可能な最も最新のビデオ・データを自動要約生成システムが利用することができるように、記録する対象の映画に関連付けられる第3者プロバイダの高品質の既製ビデオ・クリップからダウンロードすることが可能になり得る。本発明の更なる応用は、情報を与えられたうえでの選択を顧客が行うことができるように、ビデオ及びDVDのレンタルを行う顧客に、例えば、レンタル施設にある視聴覚装置上で、ブラウジングするよう短く簡潔なトレーラのライブラリを提示するか、そのライブラリをビデオ又はDVDのカタログの形式で提示するというものであり得る。別の応用は、何千もの映画が記憶されているフィルム・アーカイブを目録に載せるのに用い得る。
【0031】
明瞭にするために、本出願を通じて「a」又は「an」を使用していることは複数形を排除するものでなく、「comprising」は他の工程又は構成要素を排除するものでないこととする。
【図面の簡単な説明】
【0032】
【図1】本発明の実施例による、自動要約生成システムを示す略構成図である。

【特許請求の範囲】
【請求項1】
視聴覚番組コンテンツに対する視聴覚要約を自動的に生成するシステムであって、
前記番組コンテンツと関連付けられる、予め生成されるテキスト要約を位置特定するサーチ装置と、
選択されるテキスト要約を音声に変換する音声合成器と、
前記視聴覚番組コンテンツのビデオ要約を生成するビデオ要約生成器と、
前記合成音声を前記ビデオ要約とミキシングするオーディオ/ビデオ・ミキサとを備えることを特徴とするシステム。
【請求項2】
請求項1記載のシステムであって、
前記サーチ装置が、予め規定される基準によって1つのテキスト要約を前記位置特定されるテキスト要約から、2つ以上の要約が位置特定された場合に選択するセレクタを備えることを特徴とするシステム。
【請求項3】
請求項1又は2記載のシステムであって、
ユーザ選好を入力するユーザ・インタフェースを備えることを特徴とするシステム。
【請求項4】
請求項1乃至3の何れかに記載のシステムであって、
予め生成されるテキスト要約を記憶して将来用いるライブラリを備えることを特徴とするシステム。
【請求項5】
請求項1乃至4の何れかに記載のシステムであって、
コンピュータ・ネットワーク・インタフェースと、予め生成されるテキスト要約をコンピュータ・ネットワークにおいて位置特定するサーチ・エンジンとを備えることを特徴とするシステム。
【請求項6】
請求項1乃至5の何れかに記載のシステムであって、
前記要約に備えるのに適切な、視聴覚信号のオーディオ・コンテンツを識別するオーディオ・プロセッサを備えることを特徴とするシステム。
【請求項7】
メディア装置であって、
請求項1乃至6の何れかに記載のシステムを備えることを特徴とするメディア装置。
【請求項8】
視聴覚番組コンテンツに対する視聴覚要約を自動的に生成する方法であって、
前記番組コンテンツと関連付けられる、予め生成されるテキスト要約を位置特定する工程と、
選択されるテキスト要約を音声に合成する工程と、
前記視聴覚番組コンテンツのビデオ要約を生成する工程と、
前記合成音声を前記ビデオ要約とミキシングする工程とを備えることを特徴とする方法。
【請求項9】
請求項8記載の方法であって、
テキスト要約が、予め規定される基準によって前記位置特定されるテキスト要約から、2つ以上の要約が位置特定された場合に選択されることを特徴とする方法。
【請求項10】
請求項8又は9記載の方法であって、
予め生成されるテキスト要約の位置特定及び/又は選択を行う工程が、ユーザ選好によって行われることを特徴とする方法。
【請求項11】
コンピュータ・プログラムであって、
請求項8乃至10の何れかに記載の方法の工程全てを行うというものであって、
メディア装置の一部として実施されることを特徴とするコンピュータ・プログラム。

【図1】
image rotate


【公表番号】特表2007−511854(P2007−511854A)
【公表日】平成19年5月10日(2007.5.10)
【国際特許分類】
【出願番号】特願2006−530866(P2006−530866)
【出願日】平成16年5月17日(2004.5.17)
【国際出願番号】PCT/IB2004/050714
【国際公開番号】WO2004/105035
【国際公開日】平成16年12月2日(2004.12.2)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】