映像シーンに対する意味ラベル付与方法及び装置及びプログラム

【課題】事前に作業することなく、同コミュニケーションシステムを運用しているうちに、映像シーン（フレーム）に対する意味ラベルを自動的に付与する。
【解決手段】本発明は、記憶手段から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとし、検出された同一グループのシーン区間に付与されたコメントを記憶手段から収集し、収集されたコメント群のワード分布からキーワードを抽出し、当該キーワードを同一グループのシーン区間に対する意味ラベルとして映像シーンにラベルを付与し、記憶手段に格納する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像シーンに対する意味ラベル付与方法及び装置及びプログラムに係り、特に、視聴者がコミュニケーションを目的に付与したコメントと映像コンテンツの画像情報から映像コンテンツのシーンの内容を表す意味ラベルを付与する映像シーンに対する意味ラベル付与方法及び装置及びプログラムに関する。
【背景技術】
【０００２】
映像と、それに関連するテキスト情報が入力されたときに、テキスト情報から抽出したキーワードをシーンに対する意味ラベルとして付与する方法として、
（１）映像中のテロップ文字から抽出したテキスト情報を利用する方法；
（２）映像のシナリオから抽出したテキスト情報を利用する方法；
がある。
【０００３】
（１）の方法は、映像中の顔画像とテロップ文字を認識し、認識したテロップ文字に予め登録しておく人物名の候補の文字が出現したときに、その文字列を、検出した顔画像に対する人物名として付与する方法である（例えば、非特許文献１参照）。
【０００４】
（２）の方法は、ドラマ映像を対象に、映像とシナリオ文書との時間的対応付けを行い、シナリオ文書から抽出した映像に対する意味ラベルを映像シーンに付与する方法である。
【０００５】
また、映像視聴と連動したコミュニケーションシステムにおいては、シーンに対応するコメントが利用者により付与されるので、このテキスト情報を映像シーンに対する意味ラベル抽出に利用することができる。
【非特許文献１】近藤博仁、孟洋、佐藤真一、坂内正夫「テロップ認識と顔照合を統合したニュース映像中人物の自動索引付けシステム」1999年電子情報通信学会総合大会講演論文集、D−12190(Mar.1999)
【非特許文献２】柳沼良知、坂内正夫「ＤＰマッチングを用いたドラマ映像・音声・シナリオ文書の対応付け手法の一検討」電子情報通信学会論文誌、Vol.J79-D2, No.5, pp.747-755, 1996
【発明の開示】
【発明が解決しようとする課題】
【０００６】
しかしながら、上記の（１）、（２）の方法は、映像制作時に作成され、管理されているテキスト情報が存在する場合のみ有効である。従って、テキスト情報が管理されていない場合には、映像制作時のテキスト情報を収集・整理・管理するか、手動でメタデータを付与する必要があり、膨大な時間と手間を要するという問題がある。
【０００７】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムは、映像を視聴しながら自分の意見や感想をコメントとして登録することで多くの人とコミュニケーションを行うことができ、また、多くの人が付与したコメントを見ながら映像を視聴することで映像コンテンツをより楽しむことができるシステムである。このようなシステムにおいて、映像シーンに意味ラベルが付与されていれば、視聴者が見たいシーンをテキスト検索で容易に見つけることができる。
【０００８】
映像シーンに対する意味ラベルの抽出には、利用者により付与されたコメントを利用することができる。映像コンテンツに関連したテキスト情報から抽出したキーワードをシーンに対する意味ラベルとして付与する従来方法においては、映像中のテロップ文字や、時間と手間をかけて制作する映像コンテンツでのシナリオのように、映像内容を正確に表したテキスト情報が映像コンテンツと対応付けて管理されていることを前提としている。
【０００９】
また、映像視聴と連動したコミュニケーションシステムにおいては、利用者間コミュニケーションで付与されたテキスト情報は、映像制作側が付与したテキスト情報とは状況が異なり、必ずしも映像シーンの内容にマッチしたものではない。このようなノイズの多いテキスト情報からシーンに対する意味ラベルを抽出する必要があり、従来技術をそのまま適用するのは困難である。
【００１０】
本発明は、上記の点に鑑みなされたもので、映像視聴と連動したコミュニケーションシステムにおいて、事前に作業することなく、同コミュニケーションシステムを運用しているうちに、映像シーン（フレーム）に対する意味ラベルを自動的に付与することが可能な映像シーンに対する意味ラベル付与方法及び装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１１】
図１は、本発明の原理説明図である。
【００１２】
本発明（請求項１）は、映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与方法であって、
記憶手段から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出ステップ（ステップ１）と、
類似シーン区間検出ステップ（ステップ１）で検出された同一グループのシーン区間に付与されたコメントを記憶手段から読み出すコメント収集ステップ（ステップ２）と、
コメント収集ステップ（ステップ２）で収集されたコメント群のワード分布からキーワードを抽出するコメント分析ステップ（ステップ３）と、
コメント分析ステップ（ステップ３）で抽出したキーワードを類似シーン区間検出ステップ（ステップ１）で検出された同一グループのシーン区間に対する意味ラベルとして映像シーンにラベルを付与し、記憶手段に格納する意味ラベル付与ステップ（ステップ４）と、を行う。
【００１３】
また、本発明（請求項２）は、請求項１の類似シーン区間検出ステップ（ステップ１）において、
映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出し、
コメント分析ステップ（ステップ３）において、
コメント群のワードに基づいて、場所に関連するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める。
【００１４】
また、本発明（請求項３）は、請求項１の類似シーン区間検出ステップ（ステップ１）において、
映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出し、
コメント分析ステップ（ステップ３）において、
コメント群のワードに基づいて、オブジェクトの名称に関するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める。
【００１５】
図２は、本発明の原理構成図である。
【００１６】
本発明（請求項４）は、映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおける、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与装置であって、
少なくとも、映像と、視聴者から登録されたコメントとを格納する記憶手段２と、
記憶手段２から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出手段３と、
類似シーン区間検出手段３で検出された同一グループのシーン区間に付与されたコメントを記憶手段から読み出すコメント収集手段４と、
コメント収集手段４で収集されたコメント群のワード分布からキーワードを抽出し、該キーワードを類似シーン区間検出手段３で検出された同一グループのシーン区間に対する意味ラベルとして映像シーンにラベルを付与し、記憶手段２に格納するコメント分析手段５と、を有する。
【００１７】
また、本発明（請求項５）は、請求項４記載の装置において、場所に関連するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
類似シーン区間検出手段３は、
映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出する手段を含み、
コメント分析手段５は、
コメント群のワードに基づいて、辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む。
【００１８】
本発明（請求項６）は、請求項４記載の装置において、オブジェクトの名称に関するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
類似シーン区間検出手段３は、
映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出する手段を含み、
コメント分析手段５は、
コメント群のワードに基づいて、辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む。
【００１９】
本発明（請求項７）は、映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与プログラムであって、
請求項１乃至３記載の映像シーンに対する意味ラベル付与方法を実現するための処理をコンピュータに実行させるプログラムである。
【発明の効果】
【００２０】
本発明によれば、映像視聴と連動したコミュニケーションシステムにおいて、同コミュニケーションシステムの運用中に視聴者が付与したコメントから映像シーンの内容を表した意味ラベルが自動抽出できるので、サービス提供側は、映像コンテンツと関連するテキスト情報を管理したり、意味ラベルを手動で付与したりする必要がなくなる。また、関連するシーンや映像を集めて視聴者に好みの映像コンテンツやシーンを提示したり、視聴者が所望のシーンをテキスト検索で選ぶことができるようになる。
【発明を実施するための最良の形態】
【００２１】
以下、図面と共に本発明の実施の形態を説明する。
【００２２】
図３は、本発明の一実施の形態における意味ラベル付与装置の構成を示す。
【００２３】
同図に示す意味ラベル付与装置は、視聴者間コミュニケーション部１、データ記憶部２、類似シーン区間検出部３、コメント収集処理部４、コメント分析処理部５及び辞書６から構成される。
【００２４】
視聴者間コミュニケーション部１は、視聴者から寄せられたコメントと映像シーン区間の映像再生表示とを同期させて提示する。提示する映像、シーン区間、既存のコメントは、データ記憶部２から読み出す。
【００２５】
視聴者間コミュニケーション部１は、映像再生表示の他に、シーン区間の先頭のフレーム画像と共に、当該シーン区間に付与されたコメントを一覧表示させて、どのようなシーン区間があり、各シーン区間毎にどのようなコメントが付与されたかを概観できるようにする一覧表示機能や、シーン区間の意味ラベルやコメントを対象にしたテキスト検索により、視聴者が所望のシーンを検索する機能を有する。これらの機能を用いて視聴者がシーン区間を選択したときには、その区間に対する映像を再生すると共に、その区間に付与されたコメントを表示する。
【００２６】
また、視聴者がコメント付与の指示を行い、コメントを入力したときには、入力されたコメントを受け付ける。受け付けた新規コメントはデータ記憶部２に出力する。
【００２７】
データ記憶部２は、映像コンテンツ、図４（ａ）に示す視聴者が付与したコメント情報、図４（ｂ）に示すシーン区間情報をそれぞれ格納する。視聴者が付与したコメント情報は、コメントＩＤ，コメントが付与された時刻（映像における時刻（メディアタイム））とコメント内容であり、シーン区間情報はシーンＩＤ，シーンの開始時刻と終了時刻及び意味ラベルである。シーン区間情報の意味ラベルの欄は、意味ラベルが付与されるまではＮＵＬＬが設定されているものとする。
【００２８】
なお、図３に示すデータ記憶部２では、映像、コメント、シーン情報を１つの記憶手段に蓄積する例を示しているが、この例に限定されることなく、映像、コメント、シーン情報それぞれを別の記憶媒体に格納するようにしてもよい。
【００２９】
類似シーン区間検出部３は、映像の各シーン区間の画像情報の類似度に基づいて類似したシーン区間を検出し、類似したシーン区間を同一グループとするシーン区間の分類を行う。分類結果は、コメント収集処理部４に出力する。
【００３０】
コメント収集処理部４は、類似シーン区間検出部３より受け取った同一グループのシーン区間に付与されたコメントをデータ記憶部２から収集し、収集したコメント群をコメント分析部５に出力する。このとき、シーン区間情報のシーン開始時刻／終了時刻の範囲内に存在するコメント情報を、コメント付与時刻を参照して収集するものとする。
【００３１】
コメント分析部５は、コメント収集処理部４から受け取ったコメント群のワード頻度分布からキーワードを抽出し、抽出したキーワードを類似シーン区間検出部３で検出された同一グループのシーン区間に対する意味ラベルとして、データ記憶部２に出力する。
【００３２】
ワード辞書６は、メモリやディスク等の記憶手段に格納され、コメント群のワードを格納する辞書であり、コメント分析部５から参照される。
【００３３】
以上の構成により、視聴者が付与したコメントから、シーン区間に対する意味ラベルを抽出して管理できるようにする。
【００３４】
次に、上記の構成における基本動作を説明する。
【００３５】
図５は、本発明の一実施の形態における意味ラベル付与装置の基本動作のフローチャートである。
【００３６】
ステップ２０１）類似シーン区間検出部３は、データ記憶部２から映像コンテンツを読み出して、代表画像を選択する。例えば、代表画像を選択する方法として、シーン区間の中央の時刻におけるフレーム画像を選択すればよい。図６の例では、１３個の代表画像が選択されることになる。
【００３７】
ステップ２０２）類似シーン区間検出部３は、代表画像のグルーピングを行う。図６の例では、１３個の代表画像の中で類似している画像のグルーピングを行う。当該グルーピングの具体的な方法については後述する。ここでは、「代表画像３」と「代表画像６」が“グループ１”、「代表画像７」「代表画像９」「代表画像１１」が“グループ２”として２つのグループに分類されたものとして、以下説明する（Ｎ＝２）。類似シーン区間検出部３は、これらの分類結果をコメント収集処理部４に出力する。
【００３８】
ステップ２０３）コメント収集処理部４は、代表画像のグルーピングにより分類されたグループがあるかを判定する。Ｎ＞０の場合は、ステップ２０４に移行し、Ｎ＞０でない場合は分類されたグループがないとして処理を終了する。
【００３９】
ステップ２０４）コメント収集処理部４は、ｎ＝１として、最初のグループの処理を行う。
【００４０】
ステップ２０５）コメント収集処理部４は、グルーピングされた代表画像が属するシーン区間に付与された利用者コメントの収集を行う。図６の例では、まず、n＝１の処理で、“グループ１”に対応するシーン区間「３」と「６」に付与されたコメントをデータ記憶部２から収集する。このとき、シーン区間「３」、「６」のシーンの開始時刻／終了時刻の範囲内に存在するコメントをデータ記憶部２から取得する。次に、ｎ＝２の処理で、“グループ２”に対応するシーン区間「７」」「９」「１１」に付与されたコメントをデータ記憶部２から同様に収集する。コメント収集処理部４は、収集したコメントをコメント分析処理部４に出力する。
【００４１】
ステップ２０６）コメント分析処理部５は、収集されたコメント群に対して、ワード辞書６に登録されているワード頻度分布を算出する。
【００４２】
ステップ２０７）コメント分析処理部５は、閾値以上の頻度のワードがあるかを判定し、ある場合は、ステップ２０８に移行し、ない場合はステップ２０９に移行する。
【００４３】
ステップ２０８）コメント分析処理部５は、上位N個の最頻ワードを選択し、グルーピングされた代表画像が属するシーン区間の意味ラベルとし、データ記憶部２のシーン区間情報の意味ラベルの欄に当該意味ラベルを書き込む。
【００４４】
ステップ２０９）コメント分析処理部５は、Ｎ個の代表画像のグループに対して処理を行ったかを判断し、行った場合には処理を終了する。行っていない場合にはステップ２１０の処理を実行する。
【００４５】
ステップ２１０）ｎ＝ｎ＋１とし、ステップ２０５に移行し、次のグループに対する処理を行う。
【実施例】
【００４６】
［第１の実施例］
本実施例では、前述の図６及び、ワード辞書６の例を示した図７を用いて、上記の図５における、ステップ２０２の類似画像のグルーピング処理と、ステップ２０６のワードの頻度分布算出処理の例について詳しく説明する。
【００４７】
ステップ２０２において類似シーン区間検出部３が代表画像のグルーピングを行うときに、代表画像の映っている場所（シーン）が特定できるように画像全体の類似度を表す特徴量に基づいてグルーピングを行う。例えば、海、山、街、屋内、特定の施設などの、どこのシーンであるかを表す意味ラベルを付与することをねらいとして、代表画像の色ヒストグラム、エッジ特徴などの特徴量に基づいて類似している代表画像をグルーピングする。
【００４８】
ステップ２０６におけるコメント分析処理部５のワードの頻度分布算出処理では、収集されたコメント群に対して形態素解析を行い、ワード辞書６に登録されているワードについて頻度分布を算出するが、ワード辞書６には、海、山、街、屋内、特定の施設に対応するワードを登録しておく。ワード辞書６には、図７に示すように、あるワードに対して、固有名詞、類似ワード、関連ワードを設定すると共に、それぞれ重み係数を付与する。図７の例では、 “海”というワードに対しては、“海”に関連する地名などの固有名詞、“海岸”、“ビーチ”などの類似ワード、“海水浴”、“船”、“ヨット”などの関連ワードなどを体系的にワード辞書６に用意しておき、重み係数として、固有名詞の重み係数をw1、類似ワードの重み係数w2、関連ワードの重み係数w3とし（但し、ｗ１＞ｗ２＞ｗ３）、各ワードの頻度の重みを付けた加算によりワード頻度を算出する。
【００４９】
例として、コメントの形態素解析された結果得られたワード“海”の頻度の算出方法として、“海”そのものの頻度がN1、“太平洋”という固有名所の頻度がN2、“ビーチ”という類似ワードの頻度がN3、“船”という関連ワードの頻度がN4であった場合に、
“海”の頻度=N1+w1・N2+w2・N3+w3・N4
により、“海”の頻度を算出する。
【００５０】
これにより、コメント分析部５は、データ記憶部２のシーン区間情報の意味ラベルの欄に“海”を意味ラベルとして設定する。
【００５１】
本実施例により意味ラベルが付与される例を、図８、図９を用いて説明する。
【００５２】
上記のステップ２０２で代表画像のグルーピング結果の例を図８に示す。同図において、類似シーン区間検出部２において、“グループ１”は、「シーン１」と「シーン６」とが類似していると判定され、“グループ２”は、「シーン２」「シーン７」「シーン９」「シーン１１」が類似していると判定されたことを示す。“グループ２”において、「シーン５」は、テニスシーンであるが、「代表画像５」が他のテニスシーンと類似していなかったため選択されなかったことを示す。
【００５３】
このとき、ステップ２０６のコメント分析処理部５におけるコメント分析結果の例を図９に示す。“グループ１”に対するワード頻度分布はばらついており、“グループ２”に対しては、コメントの形態素解析結果の内容がテニスに関したものであるため偏った頻度分布になることを示したものである。図９では、類似ワードや関連ワードによる重み加算を行う修正を行うことで、“グループ１”に対しては、「山」に関する頻度が、“グループ２”に対しては「テニスコート」に関する頻度がそれぞれ増加したことを示している。
【００５４】
ステップ２０７における閾値を２０とした場合には、“グループ１”に対しては、「山」の頻度が「５」であるため意味ラベルが付与されず、“グループ２”に対しては、頻度「２６」の「テニスコート」が意味ラベルとして抽出される。これにより、「シーン２」「シーン５」「シーン７」「シーン１１」に対して、「テニスコート」という意味ラベルが付与される。
【００５５】
［第２の実施例］
上記の第１の実施例では、特徴量に基づいて類似している代表画像をグルーピングする例を示したが、本実施例では、代表画像からオブジェクト検出を行う例を示す。
【００５６】
前述の図５における、ステップ２０２で類似シーン区間検出部３において、代表画像のグルーピングを行うときに、代表画像からオブジェクト検出を行い、検出したオブジェクト領域内の画像情報の類似度に基づいてグルーピングを行う。例えば、人物顔をオブジェクトとした場合には、代表画像に対して顔領域の検出処理を行い、顔領域があると判定された領域の類似度で代表画像をグルーピングする。
【００５７】
ステップ２０６では、図１０に示すようにワード辞書６に人物名を登録しておくものとする。コメント収集処理部４で収集されたコメント群について、コメント分析処理部５は、ワード辞書６に登録されているワードの頻度分布を算出する。ワードの頻度分布の算出方法は、上記の第１の例で示した方法と同様である。
【００５８】
ステップ２０２とステップ２０６を上記の通り実現した場合に、映像シーンに付与する意味ラベルが抽出される手順を説明する。
【００５９】
図１１に示すような映像コンテンツ、すなわち、「シーン１」「シーン６」「シーン１２」に人物Ａの顔画像のシーンがあり、「シーン８」「シーン１０」「シーン１３」に人物Ｂの顔画像のシーンのシーンがある場合に、ステップ２０２の処理により、「代表画像３」「代表画像６」「代表画像８」「代表画像１０」「代表画像１２」「代表画像１３」に顔領域が存在し、それらの顔領域の画像パターンが、「代表画像３」「代表画像６」「代表画像１２」の“グループ１”と「代表画像８」「代表画像１０」「代表画像１３」の“グループ２”の２つのグループに分類される。“グループ１”に付与されたコメントを収集し、その中で人物名としてワード辞書６に登録されたワードの頻度分布を求める。最頻度ワードが“ＡＡＡ”であった場合には、“ＡＡＡ”を人物Ａの名称に関する意味ラベルとして抽出する。そして、“グループ１”に属する、「シーン１」「シーン６」「シーン１２」に対して、登場人物が“ＡＡＡ”であるという意味ラベルを付与する。“グループ２”に対しても同様の処理を行う。
【００６０】
ワード辞書６に登録しておくワードとして、映像コンテンツに登場する主要な人物が事前に分かっている場合には、登場人物の名前のみを登録したり、別名や愛称などが既知であれば、それらも登録しておくことで、より精度高く意味ラベルを抽出することができるようになる。
【００６１】
上記の意味ラベル付与装置の動作をプログラムとして構築し、意味ラベル付与装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【００６２】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【００６３】
本発明は、映像視聴に連動したコメントの登録が可能なシステムに適用可能である。
【図面の簡単な説明】
【００６４】
【図１】本発明の原理説明図である。
【図２】本発明の原理構成図である。
【図３】本発明の一実施の形態における意味ラベル付与装置の構成図である。
【図４】本発明の一実施の形態におけるデータ記憶部の構成例である。
【図５】本発明の一実施の形態における意味ラベル付与装置の基本動作のフローチャートである。
【図６】本発明の第１の実施例における代表画像選出の例である。
【図７】本発明の第１の実施例におけるワード辞書の例である。
【図８】本発明の第１の実施例における代表画像のグルーピングとコメント分析の例である。
【図９】本発明の第１の実施例における代表画像のグルーピングとコメント分析のワード頻度分布の例である。
【図１０】本発明の第２の実施例におけるワード辞書の例である。
【図１１】本発明の第２の実施例における代表画像のグルーピングとコメント分析の例である。
【符号の説明】
【００６５】
１視聴者間コミュニケーション部
２記憶手段、データ記憶部
３類似シーン区間検出手段、類似シーン区間検出部
４コメント収集手段、コメント収集処理部
５コメント分析手段、コメント分析処理部
６ワード辞書

【特許請求の範囲】
【請求項１】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与方法であって、
記憶手段から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出ステップと、
前記類似シーン区間検出ステップで検出された同一グループのシーン区間に付与されたコメントを記憶手段から読み出すコメント収集ステップと、
前記コメント収集ステップで収集されたコメント群のワード分布からキーワードを抽出するコメント分析ステップと、
前記コメント分析ステップで抽出した前記キーワードを前記類似シーン区間検出ステップで検出された同一グループのシーン区間に対する意味ラベルとして前記映像シーンにラベルを付与し、前記記憶手段に格納する意味ラベル付与ステップと、
を行うことを特徴とする映像シーンに対する意味ラベル付与方法。
【請求項２】
前記類似シーン区間検出ステップにおいて、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出し、
前記コメント分析ステップにおいて、
前記コメント群のワードに基づいて、場所に関連するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める、請求項１記載の映像シーンに対する意味ラベル付与方法。
【請求項３】
前記類似シーン区間検出ステップにおいて、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出し、
前記コメント分析ステップにおいて、
前記コメント群のワードに基づいて、オブジェクトの名称に関するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める、請求項１記載の映像シーンに対する意味ラベル付与方法。
【請求項４】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおける、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与装置であって、
少なくとも、映像と、視聴者から登録されたコメントとを格納する記憶手段と、
前記記憶手段から前記映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出手段と、
前記類似シーン区間検出手段で検出された同一グループのシーン区間に付与されたコメントを前記記憶手段から読み出すコメント収集手段と、
前記コメント収集手段で収集されたコメント群のワード分布からキーワードを抽出し、該キーワードを前記類似シーン区間検出手段で検出された同一グループのシーン区間に対する意味ラベルとして前記映像シーンにラベルを付与し、前記記憶手段に格納する意味ラベル付与手段と、
を有することを特徴とする映像シーンに対する意味ラベル付与装置。
【請求項５】
場所に関連するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
前記類似シーン区間検出手段は、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出する手段を含み、
前記コメント分析手段は、
前記コメント群のワードに基づいて、前記辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む、請求項４記載の映像シーンに対する意味ラベル付与装置。
【請求項６】
オブジェクトの名称に関するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
前記類似シーン区間検出手段は、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出する手段を含み、
前記コメント分析手段は、
前記コメント群のワードに基づいて、前記辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む、請求項４記載の映像シーンに対する意味ラベル付与装置。
【請求項７】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与プログラムであって、
前記請求項１乃至３記載の映像シーンに対する意味ラベル付与方法を実現するための処理をコンピュータに実行させることを特徴とする映像シーンに対する意味ラベル付与プログラム。

【図１】