説明

映像コンテンツのアノテーション情報付与システム及びその方法

【課題】
全ての映像コンテンツのジャンルを対象としてリアルタイム編集可能な映像コンテンツのシーンのアノテーション情報付与システムの提供
【解決方法】
映像コンテンツの全てのジャンルのシーンに共通な見出し用語と、これに関連するジャンル別の用語を階層別の辞書とし、この辞書を表示し選択するためのグラフィックユーザーインターフェース部を設け、
これをリモコンの操作ボタン操作により辞書から適切な用語を選択して、文字情報等を付与するとともに、更に高速な操作をするために限定された用語の音声認識機能を持たせ、音声認識で辞書から適切な用語を選択して、文字情報等を付与することを可能にする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像コンテンツの任意のシーンにアノテーション情報を付与するシステムで、放送番組や自作ビデオなどの映像コンテンツの録画装置、ビデオカメラ、編集装置等の映像装置に適用されるものである。
【背景技術】
【0002】
自作ビデオを含む、映像コンテンツをより快適に、より効率よく、より積極的に利用するには、映像コンテンツの編集が不可欠であるがさまざまな要因から手軽に実施できない。
映像コンテンツの編集を行う上での最初のステップは目的のシーン探しとその分類であり、これには多くの時間的、肉体的、精神的な負担が強いられる。
例えばハイライトシーンやコマーシャルメッセージシーン(以下CM)探しなどはその最たるものであり、これ以外にも、映像コンテンツの長さを適切なものにするために、必要シーン/不要シーンを区分けするなど、制作意図に沿って精度よく映像コンテンツを編集する場合に費やす時間の大半は、これらのシーンを探し出す仕事とその分類であると言っても過言でない。
CMは画像の変化や音声のモードの変化からこれを自動検出する方法は以前より実用化されている。
また一方、音声のレベル検出などを利用してハイライトシーンを自動検出する技術も提案されているものの、ハイライトシーンとするシーンは視聴者の個人差のウエートが高く、特定映像コンテンツ以外は自動化が困難である。
例えば、紀行番組で素晴らしい眺めや景観などは万人が胸を打つシーンであるが、凡庸な場所でも昔住んでいた土地や訪れたことのある場所はその人にとって懐かしく貴重なハイライトシーンとなる。
高校野球の番組でも、学校の運動会の自作ビデオでも、自分の子供が出場するシーンではどんな画像やその結果であろうが大切なハイライトシーンである。
またニュース番組において政治経済的な内容であればそれぞれの場面で自分の意見との賛成、反対もハイライトシーンとなる。
以上のようにハイライトシーンに対しては上記のように個人が抱く懐かしいシーン、感動したシーン、怒りを感じるシーンなど、さまざまなシーンが存在し、ひとくくりに自動化することは出来ない。
残しておきたい映像コンテンツの中でも一部のシーンは、見たくない、見せたくないシーンや、不要なシーン、無駄なシーン等さまざまなシーンが存在する。
以上のようにさまざまな目的の映像コンテンツの編集において、目的とするシーン位置を見つけ出し適切な分類をするためには人的判断と文字を中心とした情報(文字情報等)とすることが不可欠であり時間的、肉体的、精神的な負担が強いられる。
このため作業性や効率改善など人的作業を支援、つまり編集シーンへの情報(アノテーション情報)付与ための支援方法が、特に放送業界、映像コンテンツ業界等のプロユーズにおいてさまざまな形で提案されている。
【0003】
このような映像コンテンツの任意のシーンに文字情報等を与えるためのアノテーション情報の入力手段として、
遠隔操作装置(リモコン)と表示画面のGUI(グラフィックユーザーインターフェース)キーボードにより、遠隔操作装置のカーソルボタン操作でかな文字等を一文字ずつ選択し、漢字変換入力し用語を登録する方法がある。
この方法は現在多くの映像装置に採用されているものの習熟が必要な上、慣れても複雑な操作となり文字入力の効率が悪いため、通常はオフライン(非再生時)で映像コンテンツのタイトルを編集する程度が限界であり、オンライン(再生時)では利用できない。
外部キーボードを用いて、文字を一文字ずつ入力し用語を登録する方法がある。
この方法は習熟すれば効率が良いが、付与する文字、用語等、情報に統一性を持たすことが困難であり、付与する情報が場当たり的になり後の検索に負担がかかる。
音声認識を利用して、用語を登録する方法がある。
一般的な音声認識は習熟も必要であり、また誤認識も避けて通れない、またシステムの負担も大きく、キーボード同様付与する文字、用語等、情報に統一性を持たすことが困難である、また複数の視聴者がいる場合、発声が邪魔になる。
編集用の辞書を利用してこれを利用する方法がある。
この方法は付与する用語に統一性を与えることができるためジャンルごとの辞書をもつ方法も提案されているものの、単に音声認識のためのテンプレートであったり、登録されている用語の効率的な検索方法、更には選択方法についてが解決されない限り、特にオンラインでの利用は困難である。
【0004】
音声認識と辞書をもつアノテーション情報付与の先行技術文献の一例として、特開2004−86124号公報ならびに特開2004−153764号公報は、コンテンツ制作におけるメタデータ(アノテーション情報)制作装置及び検索装置に関するものであり、いずれも音声認識の誤認率と、邪魔な発声が課題となる、また後者は制作された映像・音声コンテンツを再生することによりメタデータとすべき情報を確認し、音声入力でコンンピュータ等に入力することにより前記メタデータを制作し、検索するシステムであるが、事前に制作された映像・音声コンテンツを確認する必要があり、例えば放送中の番組のハイライトシーンなど、リアルタイムで利用することは難しい。
更に特開2007−140198号公報では、映像・音声コンテンツに関連したメタデータを作成するメタデータ(アノテーション情報)作成装置に関するものであり、音声認識の場合キーワードが誤って付与されてしまう問題があり、重要度をもとにしてキーワードを作成することを目的としているので、オペレータの声を音声認識でキーワード登録するので誤認率および、邪魔な発声は残されたままであり、また重要度は機械的に事前登録する方法であり必ずしもそのシーンに最適な重み付けとならない。
従がって上記同様放送中の番組のハイライトシーンなど、リアルタイムで利用することは難しい。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2004−86124号公報
【特許文献2】特開2004−153764号公報
【特許文献3】特開2007−140198号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
以上のような技術的な背景を克服して、熟練したオペレータであったたり、事前にシーンの概要を把握することを必要とせず、全ての映像コンテンツのジャンルを対象としてオンライン(放送中)の映像コンテンツを視聴しながら視聴環境を配慮しリアルタイムで任意のシーンを対象として、特別の習熟を必要とせず、誰でも当該シーンにふさわしく、かつ編集の検索用に集約され、高精度で、高速で、文字情報等を中心とする情報を付与するためのアノテーション情報付与システムを提供する。
また本発明の主要適用装置である家庭用汎用録画装置等に広く実現可能なコストを目指すために、特別な、装置、部品、組立、の技術を用いることなく、現在市場に広く流通している、装置、部品、組立、の技術で実現可能なアノテーション情報付与システムを提供する。
【課題を解決するための手段】
【0007】
以上の課題を解決するために
請求項1では、
映像装置と、このユーザーインターフェース装置と、で構成される自作ビデオを含む映像コンテンツの任意のシーンにアノテーション情報を付与するためのシステムであって、
上記映像装置は、
映像コンテンツの全てのジャンルのシーンに共通なシーンを視聴した印象を表す用語である印象用語の見出し用語と、映像コンテンツのジャンル特有の用語であるジャンル用語と、を映像コンテンツのジャンル別および階層別に関連付けし構成される編集用語辞書と、
上記ユーザーインターフェース装置は、
映像コンテンツの視聴開始より順次アノテーション情報を付与するシーン位置を指定し、この指定したシーンに対して上記編集用語辞書の上記見出し用語と上記ジャンル用語とを順次選択し、以上の指定および選択した信号情報を映像装置に送信する手段を備え、
更に上記映像装置は、
ユーザーインターフェースより受信した信号情報にもとづき編集用語辞書によるアノテーション情報データを作成するアノテーション情報作成部と、
を具備することを特徴とする。
請求項2では、
前記編集用語辞書の前記見出し用語ならびに前記ジャンル用語は1グループ最大12の用語とするよう構成されることを特徴とする。
請求項3では、
前記編集用語辞書にはシーンの印象の度合いの情報が登録され、この印象の度合いを選択しアノテーション情報とすることを特徴とする。
請求項4では、
前記映像装置はリモコン信号受信部を備え、
前記ユーザーインターフェース装置は少なくても20個の操作ボタンを具備するリモコンであり、前記指定および選択する信号情報はリモコン送信信号であって、
このリモコンボタンを操作することにより、前記シーン位置を指定し、前記編集用語辞書の前記見出し用語ならびに前記ジャンル用語を選択し、
映像装置は上記リモコン信号受信部でこの信号情報を受信し、アノテーション情報作成部で前記編集用語辞書の用語による前記アノテーション情報データを作成することを特徴とする。
請求項5では、
前記映像装置は音声認識部を備え、
前記ユーザーインターフェース装置は音声用マイクロフォンであり、前記指定および選択する信号情報はマイクロフォン音声信号であって、
このマイクロフォンに多くとも30種以内の音声を発することにより、前記シーン位置を指定し、前記編集用語辞書の前記見出し用語ならびに前記ジャンル用語を選択し、
映像装置は上記音声認識部でマイクロフォン音声信号を信号情報として認識し、アノテーション情報作成部で前記編集用語辞書の用語による前記アノテーション情報データを作成することを特徴とする。
請求項6では、
前記映像装置は映像コンテンツのジャンルをEPG(エレクトロニクス プログラム ガイド)ジャンルからジャンルを自動選択するジャンル選択手段を具備することを特徴とする。
請求項7では、
前記映像装置はタイムシフト再生(追いかけ再生)手段を具備し、アノテーション情報の編集中、一時停止することを特徴とする。
請求項8では、
前記アノテーション情報に、アノテーション情報付与者名を登録することを特徴とする。
請求項9では、
前記映像装置は、編集用語辞書を通信回線よりダウンロードする辞書ダウンロード部と、用語登録のための外部キーボードのためのキーボード入力部と、
を更に具備すること特徴とする。
請求項10では、
前記映像装置は、前記EPGデータまたはインターネットよりのダウンロードデータのいずれかによって個別番組ごとの編集用語辞書とすることを特徴とする。
請求項11では、
映像コンテンツの全てのジャンルに共通な見出し用語と、
映像コンテンツのジャンル特有の用語であるジャンル用語と、
を映像コンテンツのジャンル別および階層別に関連付けし構成される編集用語辞書より用語を選択してアノテーション情報データを作成することを特徴とする。
請求項12では、
前記全てのジャンルに共通の見出し用語はシーンを視聴した印象を表す用語であることを特徴とする。
【発明の効果】
【0008】
全ての映像コンテンツのジャンルのシーンに共通な見出し用語と、この見出し用語に関連するジャンルごとの用語を階層構造として紐付けした辞書を開発するだけで特に大きな技術開発負担を強いることなく、録画装置、ビデオカメラ、編集装置等の映像装置に適応可能な、利用し易く、実用的で、リアルタイムで視聴環境に配慮し運用できる映像コンテンツのアノテーション情報付与システムが実現出来る。
【図面の簡単な説明】
【0009】
【図1】図1は本発明のシステムの全体構成の例である
【図2】図2は映像コンテンツのジャンル区分の例である
【図3】図3は野球番組の辞書構成の例である
【図4】図4は料理番組の辞書構成の例である
【図5】図5はニュース番組の辞書構成の例である
【図6】図6は映画番組の辞書構成の例である
【図7】図7は旅番組の辞書構成の例である
【図8】図8はクラシック音楽番組の辞書構成の例である
【図9】図9はお笑い番組の辞書構成の例である
【図10】図10は自作ビデオの結婚式の辞書構成の例である
【図11】図11は特定シーン登録、文字登録の例である
【図12】図12はリモコンの例である
【図13】図13は操作フローの例である
【図14】図14はジャンル選択の例である
【図15】図15は用語選択ファンクション操作の例である
【図16】図16はシーン位置指定の例である
【図17】図17は編集用語辞書の第1階層表示の例である
【図18】図18は編集用語辞書の第2階層表示の例である
【図19】図19は編集用語辞書の第3階層表示の例である
【図20】図20は編集用語辞書の第4階層表示の例である
【図21】図21は編集用語辞書の第5階層表示の例である
【図22】図22は五感印象用語の例である
【図23】図23はアノテーション情報データの例である
【図24】図24は視聴後編集の例である
【図25】図25はデータベース検索の例である
【発明を実施するための形態】
【実施例1】
【0010】
図1は本発明のシステムの全体構成の例である。
映像装置1は録画装置、ビデオカメラ、編集装置等であり、UI(ユーザーインターフェース)装置2であるリモコン3でリモコン送信信号5と、またはマイクロフォン4でマイクロフォン音声信号6と、のいずれかで操作可能なシステム構成となっている。
映像装置1にはテレビジョンまたは液晶表示機などのディスプレーであるメインディスプレー9およびサブディスプレー10が接続されており、映像コンテンツの録画、再生、表示部14でアンテナ入力41から放送番組を受信し、外部映像入力42から映像コンテンツを受信し、これらを録画再生するとともに映像信号7を出力してメインディスプレー9に表示をさせる。
以上の映像コンテンツは映像コンテンツ記憶部31に映像コンテンツのタイトル32ごとに映像コンテンツ33が録画されている。
【0011】
GUI(グラフィックユーザーインターフェース)部11のGUI表示部13はアノテーション情報付与編集に係るGUI表示信号8をディスプレーに出力する。
このGUI表示信号8はディスプレー切替スイッチ40によりメインディスプレー9またはサブディスプレー10に切替られる。
この構成図ではディスプレー切替スイッチ40はB側に選択され編集のためのサブディスプレー10に表示がなされ、映像コンテンツそのものの視聴と、編集を別々に独立して行えるが、サブディスプレー10を使用しない場合にはディスプレー切替スイッチ40をA側にしてメインディスプレー9の映像コンテンツの表示に重ねてこのGUI表示信号8を表示する。
以降の説明ではサブディスプレー10を用いず、メインディスプレー9に映像コンテンツにGUI表示信号8を重ねた場合の例で説明する。
GUI部11のGUI制御部12は、UI装置情報認識部22のUI装置2のリモコン3の信号情報はリモコン信号受信部21、マイクロフォン4の信号情報は音声認識部24からのUI受信信号15によって編集に係る各種の制御を実行する。
GUI部11のジャンル選択部23は映像コンテンツのジャンルをEPG(エレクトロニクス プログラム ガイド)データから取得して視聴する映像コンテンツのジャンル別の辞書用語を選択するものである。
【0012】
編集用語辞書19は本発明の根幹をなすものであり、映像コンテンツのジャンル別更には番組別に先のリモコン3の信号はリモコン信号受信部21と、マイクロフォン4のマイクロフォン音声信号6は音声認識部24と、のいずれかからの信号情報により辞書用語選択部20でこの編集用語辞書19より用語を選択し、選択された用語29を出力し、この出力はGUI表示部13を通じてディスプレーに表示されるとともに、選択された用語29をアノテーション情報作成部25で、UI装置2の操作にもとづきアノテーション情報データベース34内のアノテーション情報データ37として記憶する。
アノテーション情報データベース34内には映像コンテンツのタイトル32別にアノテーション情報データ37が作成され、アノテーション情報データ37には時刻情報35ならびに関連情報36が関連付けされている。
【0013】
以上の構成のアノテーション情報データベース34はアノテーション情報データ検索部30により検索が行われ選択された用語29としてメインディスプレー9またはサブディスプレー10いずれかに表示される。
編集用語辞書19は放送番組映像コンテンツのEPGデータよりタイトル情報ならびにジャンル情報、番組情報、出演者情報などの必要な情報を辞書登録部16によって取得するとともに、辞書用語ダウンロード部17でインターネット通信信号26により随時最新版用語データがダウンロード可能になっているとともに、外部接続されたキーボードの入力によるキーボード信号27を辞書用語キーボード入力部18により書き込みも可能な構成となっている。
以上が本発明のシステムの全体構成の例である。
【実施例2】
【0014】
図2は映像コンテンツのジャンル区分の例である。
現在のデジタル放送番組の映像コンテンツはEPGデータで12のジャンルが規定され更にサブジャンルが定義付けされている。
これをそのまま利用することも出来るが、本例では図2に示すようにEPGメインジャンルのアニメ/特撮は映画に含め、自作のビデオを含め合計12種類の区分としている。
本例では以上のように自作ビデオ以外は放送規格にもとづくEPGメインジャンルをそのまま用いた構成として、EPGで自動選択することも出来るようにしているが、別な方法で分類し、手動選択する方法でもよい。
自作ビデオについては、作成されるビデオの種類を適切にサブジャンルに登録し選択出来るよう構成する。
【0015】
以上のように多岐にわたるジャンルの映像コンテンツにおいて、事前にシーンの概要を把握することを必要とせず、オンライン(放送中)の映像コンテンツを視聴しながらでも任意のシーンを対象として、特別の習熟を必要とせず、当該シーンにふさわしく、かつ編集の検索用に集約され、高精度で、高速で、文字情報等を付与するために、本発明は全ての映像コンテンツのジャンルのシーンに共通であるとともに、万人に共通で理解し易いく、検索のためにも用語の数が限定出来る見出し用語を探し出しこれを見出し用語とした辞書を用意し、この辞書から必要な用語を順次選択して行くことにより課題を解決している。
【0016】
本発明の辞書構成の原理は次の通りである。
何の目的で視聴者(利用者)が、その映像および音声のシーンをハイライトシーンを含む編集のためのシーンとして選ぶのかの第一のステップはそのシーンに対する、視聴者それぞれの嗜好、経験、環境、境遇などにもとづく感情や五感、場合によっては体感をもとにしているものであり、このことは全ての映像コンテンツのジャンルのシーンに共通である。
これらの生理学的な分野は脳波、これを利用する認識技術、認識制御等の研究として活発におこなわれ、将来は映像コンテンツの編集のような高度な人的判断にも利用出来るよう期待がかかるもの、脳波などを直接利用して編集を行うには現在のところ重装備の生体情報取得のためのインターフェースの使用が不可欠となるためマスプロユーズ対象の製品に適応するのは困難である。
しかしながら、これに代わって、人の感情や五感、場合によっては体感にもとづく印象を表する用語を見出し用語とする辞書を利用して意味付けする方法は、他の文字入力方法にない大きなメリットをもつ。
その第1のメリットは先に述べたように印象を表現する用語は感じた印象そのものであり万人に理解し易く全ての映像コンテンツのジャンルのシーンに共通に利用可能であることである。
従がってこれを見出し用語として用いることにより、これまで困難であった映像コンテンツの任意のシーンのアノテーション編集に必要な用語の効率的な登録方法と、登録された用語の効率的な選択方法と、が解決出来る。
次に重要なメリットは印象を表す用語、つまり名詞を形容する形容詞やこれに類する形容系の用語を見出し用語とすることにより、必然的にこれに続く形容の対象となる名詞用語が欲しくなる。
具体的には印象を表す用語を見出し用語とすることにより、これに関連するジャンル特有の名詞用語を階層的に直感的で、平易に、限定的に、紐付けし登録することが可能になるとともに、また反対に利用者は、見出し用語である印象を表す用語を選択することにより、この用語に関連紐付けされた、ジャンル特有の編集のための名詞用語を階層的に、案内表示に誘導されるよう容易に選択することが可能となることである。
例えばアイウエオ順や、その他の見出し分類方法ではこのように以降に続く用語を誘導するような効果は得られない。
誘導効果以外においても専門用語から先に意味付けする方法では、映像コンテンツのジャンルごと別々に見出し用語が必要になり、見出しの共有化が困難であり、本実施例のように全ての映像コンテンツに共通な見出し用語とするような共通の階層構造とする辞書構造とはならない。
全ジャンル共通の見出し用語をもつことは装置、システム開発側の負担を少なくするのみでなく、装置、システムの利用者側の慣れや効率の面でも大きな意味をもつ。
【0017】
この印象を表現する用語だけでもさまざまな映像シーンの意味付けが可能になり編集シーンの大方の分類とすることが出来るが、更にこの印象を表現する用語に映像コンテンツのジャンルごとのジャンル特有の用語を階層状に紐付けし、これを利用することによって映像コンテンツのあらゆるシーンを対象として文字情報を中心とした意味付けを可能にする。
階層を深くすることにより複雑な文字情報の付与も可能である、また徒に階層を深くすることなく、編集のためのお勧め用語となることを期待して編集に不可欠なジャンル用語のみを辞書登録することも一つの考え方である。
【0018】
本実施例では全ての映像コンテンツのジャンルに共通で、映像シーンや音声シーンにより人が抱く、喜怒哀楽などの感情や好き嫌いなどの嗜好などあらゆる種類の印象を表現する形容系の用語を洗い出し、これを集約して印象用語とするとともに、これを良い印象を感じるシーンをプラス感情、悪い印象を感じるマイナス印象として区分している。
これは編集すべきシーンはプラス印象かマイナス印象どちらかであることを利用したものである。
【0019】
更にプラスおよびマイナス印象それぞれ便宜上、人を対象とする印象を人物系とし、人物以外のモノや事象を場面系として、合計4種(以下の説明では印象区分とする)、38の用語を見出し用語としているが、更に追加することも、変更することも可能である。
この見出し用語(以下の説明では印象用語とする)をもとに映像コンテンツのさまざまなジャンルの特有用語(以下の説明ではジャンル用語とする)を階層的に登録した辞書構造とすることにより当初の目的を果たすものである。
喜怒哀楽などの感情や好き嫌いなどの嗜好などの見出し用語は全ての映像コンテンツのあらゆるジャンル共通に利用することが可能であり、以下にこの見出し用語を用いた代表的な8種類の映像コンテンツのジャンルにおける辞書の実施例を示す。
【実施例3】
【0020】
図3は野球番組の辞書構成の例である。
映像コンテンツのジャンル101別に構成される編集用語辞書19の階層103の第1階層は先に説明の印象区分104がプラス印象、マイナス印象と場面系、人物系の4種に区分されており第2階層にこれらの印象区分104ごとに、本実施例では形容系の印象用語105が合計38用語登録されている。
辞書構造説明のために印象用語を全ジャンルの映像コンテンツに共通な喜怒哀楽などの感情や好き嫌いなどの嗜好などの印象用語のみ示しているが、本方式では第1階層を適切な区分とすることにより第2階層の印象用語を最大12×12=144まで登録可能で、これ以外の五感や体感など通常人が感じる、ありとあらゆる印象の用語を登録することが出来る。
理解し易い適切な印象区分と映像コンテンツのジャンル全体を考慮し割り付けする、詳細は後述する。
ここまでの構成は全てのジャンルに共通となる。
【0021】
第3階層には第2階層の印象用語105の中から野球番組に関連する印象用語105ごとに関連する野球番組特有の名詞用語であるジャンル用語106が登録され、更に本例では、選手、打撃、投球、送球、走塁、盗塁、の6種のジャンル用語106に関しては更にこの詳細の名詞用語が第4階層に、第3階層の野球番組ジャンル用語106に関連する野球番組ジャンル用語106として登録されている。
【0022】
野球の場合のプラス印象はひいきのチームが勝つたり、いいプレーをした時のシーンやひいきの選手が出場するシーンのそれぞれの印象用語105に対して野球番組特有のジャンル用語106が関連付けされている。
【0023】
またこの例では、退屈・つまらない、の印象用語105にはCM、が登録されていてこれをアノテーション情報として選択し情報付与することができる、野球番組以外の番組で子供に見せたくないシーン、自分でも見たくないシーンなども適切な印象用語105を選択して情報付与することが可能であり、あらゆるシーンにこれらの編集に関連する適切な用語を選択し情報付与することが出来る。
【0024】
例えば同じ満塁ホームランのシーンでもひいきのチームであれば、プラス印象場面系、凄い・素晴らしい、打撃、満塁ホームラン、と階層別に選択、情報付与されアノテーション情報データ37となり、一方反対の場合は、マイナス印象場面系、拙い、投球、満塁ホームラン、と階層別に選択、情報付与されアノテーション情報データ37となる。
【0025】
更に高校野球や優勝を決するような試合には、プラス印象場面系、感動・感謝・感激、打撃、満塁ホームラン、としても階層別に選択、情報付与可能なよう登録されている、どちらを選ぶかは利用者の印象でよい。
単に好きな投手の選手が登場するシーンでは、プラス印象人物系、好きな・ファンの、選手、投手、が階層別に選択可能なように登録されている。
以上のように印象用語105に紐付けするジャンル用語106は野球を知っている人であれば、あらゆるシーンを連想することにより平易に実施出来る、他のジャンルにおいても同様である。
【0026】
また図3の通り本発明の編集用語辞書19では全ての階層の印象区分104、印象用語105、ジャンル用語106とも最大12を1グループとした辞書構成としている。
この理由は後述される。
【0027】
更にジャンル用語の階層を深くすることも可能であるが、本実施例では第5階層に印象の度合いつまり感情や嗜好の程度を5段階の星型記号で選択可能な構成としている。
本発明は印象を表す用語を見出し用語とするので、以上のように印象の度合いにもとづく編集情報、結果として重要な編集シーンも容易に設定出来ることも特徴の一つである。
この記号は文字情報とすることも可能であり、また段階を少なくする、多くすることも自由である。
【実施例4】
【0028】
図4は料理番組の辞書構成の例である。
第1階層、第2階層ならびに第5階層は先の野球番組と同様である。
料理番組などの印象用語105としては、美味い、不味いなどの味覚や嗅覚に関連する用語が登録されていた場合更に適切なものとなる、味覚や嗅覚以外にも五感や体感に関する用語は印象用語の対象であり利用頻度を考慮して第1階層および第2階層を設計すればよい、詳細は後述する。
第3階層、第4階層は料理番組特有のジャンル用語が印象用語に関連して登録されている。
一般的な料理番組では、レシピ、調理方法、盛り付け、出来あがり、がポイントになるが出演者や参加者の人物系に印象のウエートが多い場合にも対応が可能な構成としている。
第4階層の出演者の固有名詞は放送番組のEPGデータから番組個別に取得したものである。
多くの放送番組の映像コンテンツには出演者情報がEPGデータとしてデータ放送されるのでこれを利用することが出来るが、更に詳細な人名、地名、番組内容に係る用語に対しては、外部インターネットサイトからダウンロードして番組ごとに辞書用語とすることも可能であり、これらは他のジャンルの映像コンテンツについても同様である。
【実施例5】
【0029】
図5はニュース番組の辞書構成の例である。
第1階層、第2階層ならびに第5階層は先の野球番組と同様である。
第3階層、第4階層はニュース番組特有のジャンル用語が印象用語に関連して登録されている。
一般的なニュース番組は番組中さまざまなサブジャンルの内容が送られてくるのでこれは、報道内容、として、政治、経済、文化、社会、国際、先端技術、環境、趣味、福祉、として登録されていて更に追加設定することも可能である。
【実施例6】
【0030】
図6は映画番組の辞書構成の例である。
第1階層、第2階層ならびに第5階層は先の野球番組と同様である。
第3階層、第4階層は映画番組特有のジャンル用語が印象用語に関連して登録されている。
映画番組は場面系と人物系の双方の利用頻度が高くそれぞれさまざまな特有の用語が選択可能であり、スターの名前などが登録されている。
これらの男優、女優等のスターの名前は前述のインターネットサイトからダウンロードして取得した例であり、単に出演者とする場合であればEPGデータから取得出来る。
【0031】
映画番組では、アクション、コメディ、SF、アニメ、実録など、更に詳細ジャンルを定めることにより、より詳細ジャンルに特化したジャンル用語とすることも可能である。
明確な定義が可能であれば、映画以外のジャンルの映像コンテンツでも同様である。
【実施例7】
【0032】
図7は旅番組の辞書構成の例である。
第1階層、第2階層ならびに第5階層は先の野球番組と同様である。
第3階層、第4階層は旅番組特有のジャンル用語が印象用語に関連して登録されている。
旅番組は先の映画同様に場面系と人物系の双方の利用頻度が高くそれぞれさまざまな特有のジャンル用語が選択可能であり、土地、自然、文化遺産、には具体的な名前などが登録されている。
宿泊場所、乗り物、にはその種類が登録されている。
【実施例8】
【0033】
図8はクラシック番組の辞書構成の例である。
第1階層、第2階層ならびに第5階層は先の野球番組と同様である。
第3階層、第4階層はクラシック番組特有のジャンル用語が印象用語に関連して登録されている。
曲名、指揮者、演奏者、独奏者、歌手、には具体的な名前が登録されている。
料理番組同様に音楽番組には聴覚による印象用語があると更に詳細なアノテーション情報とすることが出来る、これについては後述する。
【実施例9】
【0034】
図9はお笑い番組の辞書構成の例である。
第1階層、第2階層ならびに第5階層は先の野球番組と同様である。
第3階層、第4階層はお笑い番組特有のジャンル用語が印象用語に関連して登録されている。
司会者、出演者、参加者、歌手、には具体的な名前が登録されている。
【0035】
以上の7種の代表的な放送番組のジャンルの説明のように、喜怒哀楽などの感情や好き嫌いなどの嗜好などの印象用語はあらゆる映像コンテンツのジャンルに共通に利用可能であり辞書構築の基本となる。
またデータ量が多く、変動も激しい固有名詞においては実施例4の料理番組のように番組EPGデータから出演者の名前などの固有名詞を入手する方法と、更に詳細な情報を得るために実施例6の映画番組のインターネット通信等により特定のサイトから情報を入手して、さまざまな番組に関連する人名、地名、などの固有名詞を入手する方法が利用可能である。
更には後述する方法で固有名詞を個別登録することも出来る。
【0036】
以上のようにジャンルや更には番組ごとの辞書構成とすることは、選択する用語(文字)の数を限定し、適切なものとするためであり、例えばあまたの芸能人や地名の中から例えばあいうえお順に登録された辞書の中から1人の芸能人や1個所の地名を選択するような煩雑な操作をなくすためのものである。
【実施例10】
【0037】
図10は自作ビデオの結婚式の辞書構成の例である。
第1階層、第2階層ならびに第5階層は先の野球番組と同様である。
第3階層、第4階層は結婚式特有のジャンル用語が印象用語に関連して登録されている。
友人・知人、式場、には具体的な名前が登録されている。
自作ビデオの場合、名前や地域、団体などの固有名詞等は個人個人で登録することが不可欠となる、これらの名前等の登録は以下の通りである。
【実施例11】
【0038】
図11は特定シーン登録、文字登録の例である。
図3においてCMシーンは、退屈・つまらない、に関連する用語として登録されていたが、本例では5種のCMなどの特定なシーンが第1階層の11にまとめて登録されておりそれぞれ開始、中間、終了シーンを直接指定出来るようになっている。
【0039】
更に、本実施例では、図10の、友人・知人、の名前などの固有名詞の登録は図11に示すように、第1階層の12に文字登録として割り当てられて、第2階層の1には漢字、2にはカナ、3にはアルファーベットならびに数字を割り当て、第4階層に個別に文字が登録してありこれを選択することにより、 図3から図9までの辞書登録用語以外の個人個人必要な用語、を事前に登録または適宜入力出来る構造とすることにより更に利用価値の高い文字情報等を作成することが出来る。
【0040】
この配列文字の選択による文字入力方法は携帯電話の文字入力方法やリモコンのカーソルボタン操作による文字入力よりボタンの操作回数を大幅に減らすことが出来、文字入力の効率を大幅に改善することが出来る。
【実施例12】
【0041】
図12はリモコンの例である。
現在の映像装置の遠隔操作装置であるリモコンはボタン式で赤外線無線方式が主流である。
本発明では現在広く利用されている、デジタル放送用映像装置のボタン式リモコンをUI装置2として利用することを意図している。
【0042】
カーソルボタン49は通常さまざまな編集の際に利用されるものであり、通常映像コンテンツのタイトルなどの文字入力をする際にも利用されるものであるが、先に説明の通りこのボタンを用いて文字入力をすることは極めて効率が悪く実用的でないため本発明はこのカーソルボタン49を使用せずに、以下の3種類のボタンを用いて文字入力をさせようとするものである。
【0043】
通常の映像装置操作においてチャンネルボタン43は1から12までの12個のチャンネル切替えボタンであり、このボタンを先に説明した用語のグループを最大12としてある編集用語辞書の中からグループごとに用語を選択するものである。
カラーボタン44はさまざまなファンクション実行のための青、赤、緑、黄の4個のボタンであり、チャプタボタン45は、チャプタマークを付与するボタンである。
通常の映像コンテンツの視聴ではこれらのボタンはチャンネル選択など通常のボタン操作とし、後に述べる文字等入力編集モードにした時このボタンを文字等入力編集操作用ボタンとして転用して使用する。
【0044】
この3種、17個のボタン、最大でも20個のボタンを操作することにより、映像コンテンツを視聴する際、映像コンテンツの任意のシーンに対して目的の用語や記号を文字情報等として付与するものである。
【0045】
このボタン操作によるリモコン送信信号5は図1に示す映像装置1のリモコン信号受信部21で受信されGUI制御部12ならびに辞書用語選択部20を操作する。
【0046】
同様にマイクロフォン4をUI装置2とする場合、このリモコンのボタンの名称であるチャプタボタンを、ココ、1から12を、イチ、ニ、サン、シまたはヨン、ゴ、ロク、ナナまたはシチ、ハチ、キュウまたはク、ジュウ、ジュウイチ、ジュウニ、と青、赤、緑、黄のカラーボタンを、アオ、アカ、ミドリ、キまたはキイロ、以上の30種以下の発声をすることにより、映像装置1の音声認識部22はリモコンによる信号と同様に信号情報として認識し同上の操作を行う。
【0047】
リモコン操作の場合にはボタンの位置を確認してボタン操作をする必要があるが、視聴環境に問題がない場合は、このような音声認識を利用することにより、リモコンのボタンを毎回確認する必要がなく、ディスプレー画面を見たままで発声し高速な文字入力をすることが出来る。
このように極めて少ない用語の信号情報としての音声認識は構成を極めて単純化したものでも識別率を高精度なものとすることが出来る。
【0048】
本発明は以上の通り視聴環境によってリモコン操作ならびに音声操作のいずれでも対応可能にしている。
【実施例13】
【0049】
図13は操作フローの例である。
以上のようなシステム構成と辞書構成を利用して目的の文字情報等のデータを作成するための映像装置1(図では装置本体と記載)に対するUI装置2の操作フローを示すものである。
【0050】
STEP1に示すように映像コンテンツを視聴する前に映像コンテンツのジャンルを選択しておく、これは自作ビデオ以外の放送番組は、番組EPGデータによって自動選択とすることも可能である。
映像コンテンツが開始され、文字情報等を付与したいシーンがあると、STEP2に示すように、当該シーン位置指定信号を装置本体に送信する。
これによりSTEP3に示すように装置本体のGUI表示部13は視聴画面に辞書からの文字情報等の編集情報を表示し、
STEP4に示すようにUI装置2で目的の文字情報等を階層順に選択し1つのシーンの文字情報等の付与が完了されると、
STEP5に示すように文字情報等のアノテーション情報データ37を作成し
STEP6に示すように画面表示をもとに戻し
以降映像コンテンツの視聴終了までこれが繰り返される。
【0051】
以上のような簡単な操作で実現出来るため、今まで困難であった全ての映像コンテンツのジャンルを対象としたオンライン、リアルタイムでの文字情報等の入力編集も可能にさせる、以下に本システムの操作の詳細を示す。
【実施例14】
【0052】
図14はジャンル選択の例である。
通常デジタル放送番組の場合、放送電波で番組のEPGデータが送られてくるので、この情報をもとに映像装置1は自動的にジャンル選択することも可能であるが、ここではUI装置2で指定する場合の実施例を示している(自作ビデオの場合はEPGデータがないためこの方法で選択する)。
【0053】
映像装置1のメインメニューから編集モード等にして、GUI制御部12でこれから説明する文字入力等の編集モードに設定することにより映像装置1は文字入力等の編集モードになりリモコン信号、マイクロフォンよりの信号を文字等入力編集用の信号として受け付ける。
【0054】
先に説明の図2に示す映像コンテンツのジャンルをUI装置2のリモコン3またはマイクロフォン4を使って選択する場合の実施例である。
図の左側にはメインジャンル101が選択番号46の1から12まで選択項目47として表示されている。
更にカラーボタン44に対応してファンクション内容48が表示されている。
最初の段階ではカーソル50は表示されていないが、リモコン操作51の場合、2、ボタンを押すことにより選択番号46の2であるスポーツのラインにカーソル50が表示され、これを確認し、良ければ、緑、ボタンで、次に進む、もしジャンルを間違えて押した場合には、赤、ボタンを押すことにより、取消、されカーソルは消滅し再選択することができる。
音声操作52の場合はマイクロフォンに、二、と発声することによりカーソルが表示されこれを確認しよければ、ミドリ、と発声することによりメインジャンルが選択される。
【0055】
メインジャンルの選択が完了すると、図の右側に示すようにサブジャンル101が表示され、野球を選択する場合、リモコン操作51の場合、1、ボタンを押すことにより選択番号46の1である野球のラインにカーソル50が表示され、青、ボタンを押すことによりジャンル101の選択が完了する。
音声操作52の場合は、イチ、アオ、と発声することによりサブジャンル101の選択が完了される。
もし押し間違え、ジャンルの変更があれば、赤、緑、の操作により修正することが出来る。
【0056】
以上で映像コンテンツのジャンル選択が完了し、GUI制御部12は当該放送番組開始時点から番組終了時点までの任意のシーンに視聴者が必要とする文字情報等を付与することが可能な文字等入力編集モードとなる。
【実施例15】
【0057】
図15は用語選択ファンクション操作の例である。
本実施例では文字等入力編集に係る操作をリモコンの、チャプタボタン、チャンネルボタンとカラーボタンの17個のボタンを操作、または音声認識することにより実現させるもので、チャプタボタンはシーン位置を指定し、12個のチャンネルボタン43は選択項目47を選択するための選択番号46の選択に利用している、またカラーボタン44はこれ以外の操作を実行する。
本例ではカラーボタン44の、青、ボタンを、選択、緑、ボタンを、戻る、黄、ボタンを、次へ、赤、ボタンを、取消、に対応させ、通常操作は、青、ボタン操作のみであるが、変更や次の階層へのジャンプなどの通常外操作の概要は図に示す通りである。
【実施例16】
【0058】
図16はシーン位置指定の例である。
先にジャンル選択したスポーツ/野球の映像コンテンツを視聴中の満塁ホームランのシーンに文字情報等を付与する場合の例である。
【0059】
視聴者(利用者)は先ず編集するべきシーンと感じたところで、リモコン3を使ってのリモコン操作51の場合はチャプタボタン45を押すことにより、このシーンの時間位置を指定することが出来る。
【0060】
音声操作52の場合にはマイクロフォン4に、ココ、と発声することによりこのシーンの時間位置を指定することが出来る。
音声操作52の場合の時間位置指定は、ココ、として示したがこれに代わる、チャプタ、などの発声でもよく、発声に対応したファンクションを決めればよい。
リモコン操作でも、音声操作でも、この時アノテーション情報を付与するための用語等一切考える必要はない、感覚、印象に任せて、この時間位置指定をすればよい、このことが本発明のポイントである。
以上により辞書機能が作動し、本例の場合図3に示す編集用語辞書19の第1階層の表示に移行する。
【0061】
以上に関しては映像装置1の映像コンテンツの録画、再生、表示部14のタイムシフト再生(追いかけ再生)手段により、視聴中の映像を自動的に一時停止し、第1階層の表示をすることも可能である、これによって短時間であってもハイライトシーンに続く大事なシーンを見逃すこともなく安心して文字等入力編集を実施することが出来る。
【実施例17】
【0062】
図17は図16から移行した編集用語辞書の第1階層の表示の例である。
本例では図3で説明の野球番組における編集用語辞書19の第1階層が1から4までGUI表示部13により表示されている。
また第1階層の11、12には先に説明の図11の特定シーン登録、文字登録が利用出来るようにメニューが表示されている。
【0063】
先の説明で指定したシーンの時間位置に対する、用語選択をする際、視聴者が攻撃側のチームのファンであった場合は、印象区分104としておのずから選択番号46が1の、プラス印象場面系、が選択される。
この場合のリモコン操作51は、1、ボタンを押すことによりカーソル50が表示され、良ければ、青、ボタンで選択され、プラス印象場面系、がアノテーション情報作成部25でアノテーション情報データベース34内のアノテーション情報データ37の第1階層に記憶される。
同様に音声操作52の場合は、イチ、アオ、の発声である。
【0064】
また選手そのものがひいきであれば図3の辞書から、プラス印象人物系、好きな・ファンの、選手、内野手、のように選択して登録することができる。
反対であれば、マイナス印象場面系、が印象区分104として必然的に選択される。
もちろん中立な立場でどちらのチームの素晴らしいプレーに対しても、プラス印象の印象用語104で登録することも可能である。
以上が第1階層表示画面で、次の第2階層の表示に移行する。
【実施例18】
【0065】
図18は図17から移行した編集用語辞書の第2階層の表示の例である。
先の説明の第1階層で印象区分104が、プラス印象場面系、として選択された場合の第2階層の印象用語105の表示である。
これらの中から最適な印象用語105を選択番号46が4の、凄い・素晴らしい、とする場合、この場合のリモコン操作51は、3、青、であり音声操作52の場合は、サン、アオの発声である。
以上が第2階層選択画面で、選択した印象用語105がアノテーション情報データ37の第2階層に記憶され、次に第3階層の表示に移行する。
【実施例19】
【0066】
図19は図18から移行した編集用語辞書の第3階層の表示の例である。
先の説明の第2階層で印象用語105が、凄い・素晴らしい、として選択された場合の第3階層のジャンル用語106の表示である。
これらの中から最適なジャンル用語106を選択番号46が1の、打撃、とする場合、この場合のリモコン操作51は、1、青、であり音声操作52の場合は、イチ、アオ、の発声である。
以上が第3階層選択画面で、選択したジャンル用語106がアノテーション情報データ37の第3階層に記憶され次に第4階層の表示に移行する。
【実施例20】
【0067】
図20は図19から移行した編集用語辞書の第4階層の表示の例である。
先の説明の第3階層でジャンル用語106が、打撃、として選択された場合の第4階層のジャンル用語106の表示である。
これらの中から最適なジャンル用語106を選択番号46が1の、満塁ホームラン、とする場合、この場合のリモコン操作51は、1、青、であり音声操作52の場合は、イチ、アオ、の発声である。
以上が第4階層選択画面で、選択したジャンル用語106がアノテーション情報データ37の第4階層に記憶され次に第5階層の表示に移行する。
【実施例21】
【0068】
図21は図20から移行した編集用語辞書の第5階層の表示の例である。
先の説明で第4階層でジャンル用語106が、満塁ホームラン、として選択された場合の第5階層の表示である。
【0069】
第5階層は図3で説明の通り、このシーンの印象の度合いを現す文字または記号を選択する場合でありこの例では5段階レベル中、4段階のレベルを示す選択番号46が4を選択する場合である、この場合のリモコン操作51の場合は、4、青、の発声であり音声操作52は、ヨン、アオ、である。
本発明は印象を表す形容系の用語を見出し用語としているので以上のように印象の度合いにもとづく編集情報、結果として重要な編集シーンも容易に設定出来る。
【0070】
以上が第5階層表示画面で、これにより以上のデータはアノテーション情報データ37の第5階層として記憶され、通常動作に戻るとともに、タイムシフト再生(追いかけ再生)手段により一時停止中の場合には画面は再会され通常視聴画面となる。
【0071】
番組視聴中、視聴者(利用者)は印象区分と形容系の印象用語を選択することにより、以降のジャンル用語を自分であれこれ考えることもなく、案内表示に誘導されるようジャンル用語を選択することによって映像コンテンツの任意のシーンに最適な文字情報等のアノテーション情報を付与することが可能となる。
以上の図16から図21の操作を繰り返すことにより、リアルタイムでアノテーション情報データ37が完成される。
これは見出し用語を形容系の印象用語として以降に続く名詞用語であるジャンル用語を関連付けすることの最大の効果である。
感情や五感、体感に任せてシーンの時間位置を指定し、適切な印象用語を選択することにより後は案内表示に誘導されるように「最適なジャンル用語の付与が可能となる。
編集途中の操作ミスの修正や、取消しなどの操作は先に説明の図15の用語選択ファンクション操作にもとづき自由に実施可能である。
【0072】
以上の文字情報等の付与は生放送番組のみならず録画した映像コンテンツの再視聴時などにおいても、上記同様リモコン操作51、音声操作52のシンプルな操作で実施することが出来る。
また映像装置1に録画した映像コンテンツ以外のリムーバルビデオコンテンツとして搭載された映像コンテンツ33に利用することも可能である。
【0073】
本実施例ではリモコン方式、音声認識方式とも合計17のボタンまたは音声をもってすべての編集を行っている、アノテーション情報編集中にはチャンネル切替などがないことを利用してチャンネルボタンで用語の選択を行うよう、リモコンボタンの割り付けを行ったが、他のファンクションボタン等は他のボタン割り付けでも構わない、電源などの操作を含めても最低20個のボタンのあるリモコン、または最大30種の信号情報としての音声で実現出来るところが本発明の重要なポイントである。
【0074】
以上の説明ように本発明の音声認識で辞書用語を直接読取り、認識率が課題になるような音声認識はしていない、辞書内の用語の選択のための信号情報とするだけである。
従がって音声認識も文脈を判断する文法系の音声認識等とする必要もなく、単純な音響系のパターンマッチングによる音声認識で可能であり、システムの負担を大きくすることもなく認識率を高くすることが可能である。
限られた30以内の音声であるため、必要に応じ特定話者登録も容易である。
更に高精度にするためにはマイクロフォンをヘッドセットタイプにする、発音スイッチを取り付けする、またはイヤータイプのマイクロフォンで鼓膜の振動を集音するなど様々な使用環境に応じた形態とすることが可能である。
【0075】
本発明は以上のように、シーンの印象をもとにした印象用語105に関連付けられたジャンル特有のジャンル用語106の選択がGUI表示部13によりメニュー選択形式で印象用語に誘導されるよう選択出来るため、全ての映像コンテンツのジャンルを対象としてアナウンサーのような専門家でなくても用語を考えたり、選択を迷うこともなく、操作が単純で、特別な習熟を要せず、直感的にリアルタイム編集が可能であり、本実施例ではシーンの時間位置の指定から第1階層から第5階層までの文字および記号合計29文字記号を計11ボタン操作で実現出来、平均ボタン操作時間とシステム操作時間を平均1.0秒とする場合、最短11.0秒で情報入力が完了出来る。
音声入力の場合は、平均発声時間とシステム動作時間を平均0.5秒とする場合、最短5.5秒で情報入力を完了出来る。
本実施例では確実性を重視するため、選択番号46を指定後更に、選択、を操作するよう構成されているが、編集速度を優先する場合には、選択番号46を指定することにより直接下の階層に移行するよう構成すれば、先の時間をほぼ半分まで短縮することも出来る。
以上のように文字を中心とする情報が、操作が単純で、特別な習熟を要せず、直感的に操作することにより、全ての映像コンテンツのジャンルを対象としてリアルタイムで、当該シーンに最適な編集用語のアノテーション情報の付与編集を可能とするのが、印象用語を見出し用語とする辞書を利用した本発明の大きな特徴である。
【0076】
初回視聴の映像コンテンツに対しては例えばハイライトシーンの位置と第2階層までの印象用語105のみをアノテーション情報としてリアルタイムで付与しておき、次回再生時、編集時に以後のジャンル用語を詳細に登録することでもよい。
通常のチャプタマークのように時間位置のみを指定する方法でマークを多用した場合、後でこのマークが何の意図のマークであったかを判読することが難しい。
最低この印象用語105を付すだけでも当該シーンの意図が理解出来、以降の編集を迅速で効率的にすることが可能となる。
このような場合には第2階層の印象用語105の選択完了後、自動的に通常視聴画面に戻るよう設定しておくことも出来る。
【実施例22】
【0077】
図22は五感印象用語の例である。
これまでの説明の喜怒哀楽などの感情や好き嫌いなどの嗜好などによるプラス印象、マイナス印象の印象用語105は、全ての映像コンテンツのジャンルに共通に利用出来るものであるが、これに更に視覚、聴覚、味覚、嗅覚、触覚の五感に関する形容系の印象用語105をまとめたものが図22であり、第1階層の5から10の印象区分104に割り付け登録されている。
映像コンテンツに対しては当然のことながら視覚的印象が最も多く、これを形状的印象、空間的印象、明暗色調的印象の3つに区分して割り付けしている。
聴覚的印象では音楽番組にも対応できるよう用語が登録されている。
嗅覚に関しては味覚と一緒に割り付けグルメや料理番組に対応出来るよう用語が登録されている。
触覚的印象は、アクション映画等自分が主人公になったつもりで感じる印象用語が登録されている。
【0078】
プラス印象、マイナス印象の喜怒哀楽などの感情や好き嫌いなどの嗜好などの印象用語と、以上説明の五感に関する印象用語と、更に必要によっては、眠い、疲れた、酔っぱらった、等の五感に含まれない体感的な印象用語と、を加えると、映像コンテンツのシーン画像、シーン音声による刺激に対する人の反応としてのシーンの印象は完全に満たされたものとなる。
これらの五感、体感等の印象用語105に映像コンテンツそれぞれのジャンルに関係する用語を当てはめ、これに関連するジャンル用語106を適切に登録することにより、どのようなシーンの編集にでも適切な見出し用語が選択可能となる。
しかしながら、例えば野球番組の編集で味覚や嗅覚の印象用語はほとんど利用されなく、一方で料理番組では重要になる、従がって五感や体感に関する印象用語に関しては必ずしも全ての映像コンテンツのジャンルに対応させる必要はなく、スポーツ番組、料理番組、音楽番組、旅行番組、ドラマ、アクション映画などそのジャンルに必要な五感や体感に関する印象用語をジャンル別に利用出来るようにすればよい。
また、五感や体感の印象用語105の場合にはこれ自体がそのシーンから視た、聴いた、味わった、嗅いだ、触れた、体感した、等の印象の意味を持っているので第3、4階層に必ずしもジャンル用語106を当てはめる必要もない、必要なジャンル用語106を適切に関連付けすればよい。
【実施例23】
【0079】
図23はアノテーション情報データの例である。
これまでの例でアノテーション情報が付与されたアノテーション情報データ37の例であり映像コンテンツのタイトル部にはジャンル、番組名、放送局名、放送開始時間、終了時間が記録されており、タイトルの下にはアノテーション情報付与者名である編集者の名前が関連情報36内に個人別情報108として登録されている、同一のタイトルを別な複数の利用者が文字情報等編集することも可能である。
【0080】
以上の情報の下に放送開始から放送終了までに指定し選択した、時刻とそれぞれの階層のアノテーション情報(文字、記号等)が付与されており、印象区分104と印象用語105、ジャンル用語106それぞれの用語が階層別に選択されている。
これを一覧するだけでも、おおよそのシーンの時間位置とその内容を克明に理解することが出来る。
【0081】
順番3はCMを、退屈・つまらない、として選択した内容となっている、自作のビデオの編集などで不要なシーンも、退屈・つまらない、を選択することにより選択することが可能である。
先に説明の通りこのようなシーンに対しては、図11並びに図17で示した特定シーンから選択登録することも可能である。
【実施例24】
【0082】
図24は視聴後編集の例である。
これまでの説明のように、以上のアノテーション情報の付与は映像コンテンツを視聴した結果にもとづくもので厳密な意味でのシーン位置指定のタイミングは後ろにずれたものとなる。
従がって指定したシーンより先行するシーンに時間位置を再設定すればよい、この際先行するシーンにシーン位置指定を自動修正することも可能である。
【0083】
この場合映像コンテンツを視聴していて、開始とほぼ同時に時間位置指定が可能な例えばCMシーン、数秒かからないと分からない例えば投手がボールを投げてから満塁ホームランとなるまでのシーン、映画やドラマのハイライトシーンなどのように1分程度前からがハイライトシーンの導入部になる場合など映像コンテンツのジャンルおよび選択された用語をもとに、時間位置の自動詳細調整をすることも、範囲で指定することも可能である。
【0084】
また更に編集効果を高めるためには、隣接する映像の編集点(カット点)を自動検出してこの編集点を時間位置とするとよい。
これらの編集点(カット点)の自動検出はさまざまな文献で紹介されている。
また編集されたアノテーション用語が適切であるか、印象の度合い、など映像コンテンツ全体を総合的に判断して修正することも可能である。
【0085】
以上のような視聴後に二次編集を施すことにより精度が高く高品位なアノテーション情報データ37とすることが出来る。
このアノテーション情報データ37の時刻情報35を利用して、カット、結合、編集はもちろんのこと、映像コンテンツをランダムアクセスしてプレーリスト作成などの編集を自由に行い、映像コンテンツの利用の幅を拡大することが、本発明の最終目的であり以下にその一例を示す。
【実施例25】
【0086】
図25はデータベース検索の例である。
本発明の最大の特徴は印象用語を見出し用語としてこれに関連する映像コンテンツのジャンル特有のジャンル用語を選択し登録する方式であるため、選択の用語が限定され、適切な用語が選定可能である、あいまい検索等のような検索システムの負担も少ない。
【0087】
また出来あがったアノテーション情報データ37は編集者の意図に沿った内容となり、利用者に最適な個人ごとのパーソナルなものとすることが出来る。
従がって、データベース内に複数の編集者によるアノテーション情報データ37がある場合、アノテーション情報付与者名であるこの個人別情報108を選択することにより、選択した編集者の印象にもとづく検索が可能であり検索の意図にそった映像コンテンツのシーンの検索が可能になる。
【0088】
また映像コンテンツのタイトルごとにデータベース化されたアノテーション情報データベース34はさまざまデータとして加工することも出来、映像コンテンツのそれぞれのジャンル、階層ごとの区分、用語、記号などあらゆる条件で検索を行い、映像コンテンツの詳細な内容を検索することが可能である。
【0089】
図25では編集者、映像コンテンツのジャンル、第1階層から第5階層まで独立させて検索情報を入力し複数の映像コンテンツの文字情報等付与シーン107の中から検索条件に合致する映像コンテンツの文字情報等付与シーン107として検出する場合の概要を示している。
独立させずに全体を一括して編集用語を検索させることも自由である。
以上のような検索結果はさまざまな種類のハイライトシーンのプレーリストに利用することが出来る。
映像コンテンツ全体の印象用語ごと、さらには印象の度合いごと、等のハイライトダイジェスト版、等さまざまな検索結果にもとづき、映像コンテンツの利用範囲が拡大される。
ハイライトシーン以外の、不要のシーンや見たくいないシーンの編集にも有効であることは説明する必要もない。
【0090】
本発明の展開方法1として図1に示すように編集用語辞書19はインターネット回線で最新データを更新することや、個別番組ごとのデータを番組開始前にデータ配信、またはダウンロードすることが考えられる。
【0091】
本発明の展開方法2として放送番組のEPGデータの階層構造を編集用語辞書19と直接連携出来る構造とすることが出来れば装置構成が簡素化され、更に活用の範囲が拡大される。
【0092】
これまでの説明を整理すると、システム開発側は、
辞書構成は、全ての映像コンテンツのジャンルに共通にハイライトシーンを含むさまざまな編集シーンに利用出来る印象を表す形容系の用語(印象用語)を見出し用語にして、この見出し用語に関連するジャンル用語を映像コンテンツのジャンル別に登録することが出来るので、辞書の用語はジャンル別に限定的なものとなり、辞書構築の負担が少なく、ジャンル用語の利用度に応じ追加、削除も自由である。
【0093】
映像コンテンツのジャンルをEPGデータのジャンルを用いることが出来るので辞書構成の標準化がしやすい、またEPGデータにより番組ごとの用語を持たすことも可能となる、辞書データはインターネット等の通信回線からダウンロードさせることが出来るため最新版の更新も自由である。
【0094】
辞書として使用される用語が限定的となることにより、完成したアノテーション情報データの検索の際には、あいまい検索などの必要もなく、装置負担をかけることなく適確で効率的な検索をすることが出来る。
【0095】
市場に広く流通しているボタン式のリモコンのボタン機能をそのまま利用出来るので装置ハード開発が容易である。
【0096】
音声操作における音声認識も最大30の信号情報としての音声を認識することでアノテーション情報データを作成することが出来るので、音声認識についても装置負担が少ない。
【0097】
一方本発明のシステム利用者側におけるメリットとして、
視聴環境に影響しない使い慣れたボタン式のリモコンのボタン機能をそのまま利用して、印象を表す用語を見出し用語として文字情報等が入力出来るので操作の違和感がなく、全ての映像コンテンツのジャンルを対象としてだれでも簡単に放送に追従してリアルタイムでの利用ができる。
【0098】
視聴環境によってマイクロフォンを接続し音声認識で文字情報等を入力することも可能で、最大30程度の発声により行われるので特別の習熟の必要もなく誤認識も少ない。
【0099】
視聴時に感じた印象をもと操作することにより適切な編集のための用語が案内されるので、誰でも最適なにアノテーション情報を作成出来るとともに、個人個人思い思いのプライベートアノテーション情報データとすることが出来るとともに印象の度合いも簡単に登録出来るので、検索においても個人個人の印象の種類やその度合いをもとに最適な検索が可能になる。
【0100】
視聴時に付与したシーンのアノテーション情報を検索して、当該シーンをダイレクトにランダムアクセスし複数の映像コンテンツの中からお好みのシーンのみを連続してダイジェストで再生させるような応用が可能となる。
【0101】
タイムシフト(追いかけ再生)手段を使うことにより、映像コンテンツの途中シーンの見逃しをなくすことも出来る。
【0102】
新しい情報などの用語はジャンル別または個別番組別に放送データや通信回線でダウンロードすることにより当該映像コンテンツに最適で、最新用語によるアノテーション情報を作成することが出来る。
【産業上の利用可能性】
【0103】
以上の説明のように本発明は、特別な装置、部品、組立技術を用いることなく、現在市場に広く流通している、装置、部品、組立て、の技術で実現可能なアノテーション情報付与システムであり、家庭用汎用録画装置、ビデオカメラ、編集装置はもとより専門映像装置等に広く利用することが出来る。
【符号の説明】
【0104】
1 映像装置
2 UI(ユーザーインターフェース)装置
3 リモコン
4 マイクロフォン
5 リモコン送信信号
6 マイクロフォン音声信号
7 映像信号
8 GUI(グラフィックユーザーインターフェース)表示信号
9 メインディスプレー
10 サブディスプレー
11 GUI部
12 GUI制御部
13 GUI表示部
14 映像コンテンツの録画、再生、表示部
15 UI受信信号
16 辞書登録部
17 辞書用語ダウンロード部
18 辞書用語キーボード入力部
19 編集用語辞書
20 辞書用語選択部
21 リモコン信号受信部
22 UI装置情報認識部
23 ジャンル選択部
24 音声認識部
25 アノテーション情報作成部
26 インターネット通信信号
27 キーボード信号
28 辞書データ
29 選択された用語
30 アノテーション情報データ検索部
31 映像コンテンツ記憶部(または搭載された映像コンテンツ)
32 タイトル
33 映像コンテンツ
34 アノテーション情報データベース
35 時刻情報
36 関連情報
37 アノテーション情報データ
40 ディスプレー選択スイッチ
41 アンテナ入力
42 外部映像入力
43 チャンネルボタン
44 カラーボタン
45 チャプタボタン
46 選択番号
47 選択項目
48 ファンクション内容
49 カーソルボタン
50 カーソル
51 リモコン操作
52 音声操作
101 ジャンル
102 ジャンル区分
103 階層
104 印象区分
105 印象用語
106 ジャンル用語
107 文字情報等付与シーン
108 個人別情報

【特許請求の範囲】
【請求項1】
映像装置と、このユーザーインターフェース装置と、で構成される自作ビデオを含む映像コンテンツの任意のシーンにアノテーション情報を付与するためのシステムであって、
上記映像装置は、
映像コンテンツの全てのジャンルのシーンに共通なシーンを視聴した印象を表す用語である印象用語の見出し用語と、映像コンテンツのジャンル特有の用語であるジャンル用語と、を映像コンテンツのジャンル別および階層別に関連付けし構成される編集用語辞書と、
上記ユーザーインターフェース装置は、
映像コンテンツの視聴開始より順次アノテーション情報を付与するシーン位置を指定し、この指定したシーンに対して上記編集用語辞書の上記見出し用語と上記ジャンル用語とを順次選択し、以上の指定および選択した信号情報を映像装置に送信する手段を備え、
更に上記映像装置は、
ユーザーインターフェースより受信した信号情報にもとづき編集用語辞書によるアノテーション情報データを作成するアノテーション情報作成部と、
を具備することを特徴とする映像コンテンツのアノテーション情報付与システム。
【請求項2】
前記編集用語辞書の前記見出し用語ならびに前記ジャンル用語は1グループ最大12の用語とするよう構成されることを特徴とする請求項1のアノテーション情報付与システム。
【請求項3】
前記編集用語辞書にはシーンの印象の度合いの情報が登録され、この印象の度合いを選択しアノテーション情報とすることを特徴とする請求項1記載の映像コンテンツのアノテーション情報付与システム。
【請求項4】
前記映像装置はリモコン信号受信部を備え、
前記ユーザーインターフェース装置は少なくても20個の操作ボタンを具備するリモコンであり、前記指定および選択する信号情報はリモコン送信信号であって、
このリモコンボタンを操作することにより、前記シーン位置を指定し、前記編集用語辞書の前記見出し用語ならびに前記ジャンル用語を選択し、
映像装置は上記リモコン信号受信部でこの信号情報を受信し、アノテーション情報作成部で前記編集用語辞書の用語による前記アノテーション情報データを作成することを特徴とする請求項1記載の映像コンテンツのアノテーション情報付与システム。
【請求項5】
前記映像装置は音声認識部を備え、
前記ユーザーインターフェース装置は音声用マイクロフォンであり、前記指定および選択する信号情報はマイクロフォン音声信号であって、
このマイクロフォンに多くとも30種以内の音声を発することにより、前記シーン位置を指定し、前記編集用語辞書の前記見出し用語ならびに前記ジャンル用語を選択し、
映像装置は上記音声認識部でマイクロフォン音声信号を信号情報として認識し、アノテーション情報作成部で前記編集用語辞書の用語による前記アノテーション情報データを作成することを特徴とする請求項1記載の映像コンテンツのアノテーション情報付与システム。
【請求項6】
前記映像装置は映像コンテンツのジャンルをEPG(エレクトロニクス プログラム ガイド)ジャンルからジャンルを自動選択するジャンル選択手段を具備することを特徴とする請求項1記載の映像コンテンツのアノテーション情報付与システム。
【請求項7】
前記映像装置はタイムシフト再生(追いかけ再生)手段を具備し、アノテーション情報の編集中、一時停止することを特徴とする請求項1記載の映像コンテンツのアノテーション情報付与システム。
【請求項8】
前記アノテーション情報に、アノテーション情報付与者名を登録することを特徴とする請求項1記載の映像コンテンツのアノテーション情報付与システム。
【請求項9】
前記映像装置は、編集用語辞書を通信回線よりダウンロードする辞書ダウンロード部と、用語登録のための外部キーボードのためのキーボード入力部と、
を更に具備すること特徴とする請求項1記載の映像コンテンツのアノテーション情報付与システム。
【請求項10】
前記映像装置は、前記EPGデータまたはインターネットよりのダウンロードデータのいずれかによって個別番組ごとの編集用語辞書とすることを特徴とする請求項1記載の映像コンテンツのアノテーション情報付与システム。
【請求項11】
映像コンテンツの全てのジャンルに共通な見出し用語と、
映像コンテンツのジャンル特有の用語であるジャンル用語と、
を映像コンテンツのジャンル別および階層別に関連付けし構成される編集用語辞書より用語を選択してアノテーション情報データを作成することを特徴とする映像コンテンツのアノテーション情報付与方法。
【請求項12】
前記全てのジャンルに共通な見出し用語はシーンを視聴した印象を表す用語であることを特徴とする請求項11記載の映像コンテンツのアノテーション情報付与方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate


【公開番号】特開2011−29795(P2011−29795A)
【公開日】平成23年2月10日(2011.2.10)
【国際特許分類】
【出願番号】特願2009−171668(P2009−171668)
【出願日】平成21年7月23日(2009.7.23)
【出願人】(508220504)
【Fターム(参考)】