映像シーンに対する意味ラベル付与方法及び装置及びプログラム
【課題】 事前に作業することなく、同コミュニケーションシステムを運用しているうちに、映像シーン(フレーム)に対する意味ラベルを自動的に付与する。
【解決手段】 本発明は、記憶手段から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとし、検出された同一グループのシーン区間に付与されたコメントを記憶手段から収集し、収集されたコメント群のワード分布からキーワードを抽出し、当該キーワードを同一グループのシーン区間に対する意味ラベルとして映像シーンにラベルを付与し、記憶手段に格納する。
【解決手段】 本発明は、記憶手段から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとし、検出された同一グループのシーン区間に付与されたコメントを記憶手段から収集し、収集されたコメント群のワード分布からキーワードを抽出し、当該キーワードを同一グループのシーン区間に対する意味ラベルとして映像シーンにラベルを付与し、記憶手段に格納する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像シーンに対する意味ラベル付与方法及び装置及びプログラムに係り、特に、視聴者がコミュニケーションを目的に付与したコメントと映像コンテンツの画像情報から映像コンテンツのシーンの内容を表す意味ラベルを付与する映像シーンに対する意味ラベル付与方法及び装置及びプログラムに関する。
【背景技術】
【0002】
映像と、それに関連するテキスト情報が入力されたときに、テキスト情報から抽出したキーワードをシーンに対する意味ラベルとして付与する方法として、
(1)映像中のテロップ文字から抽出したテキスト情報を利用する方法;
(2)映像のシナリオから抽出したテキスト情報を利用する方法;
がある。
【0003】
(1)の方法は、映像中の顔画像とテロップ文字を認識し、認識したテロップ文字に予め登録しておく人物名の候補の文字が出現したときに、その文字列を、検出した顔画像に対する人物名として付与する方法である(例えば、非特許文献1参照)。
【0004】
(2)の方法は、ドラマ映像を対象に、映像とシナリオ文書との時間的対応付けを行い、シナリオ文書から抽出した映像に対する意味ラベルを映像シーンに付与する方法である。
【0005】
また、映像視聴と連動したコミュニケーションシステムにおいては、シーンに対応するコメントが利用者により付与されるので、このテキスト情報を映像シーンに対する意味ラベル抽出に利用することができる。
【非特許文献1】近藤博仁、孟洋、佐藤真一、坂内正夫「テロップ認識と顔照合を統合したニュース映像中人物の自動索引付けシステム」1999年電子情報通信学会総合大会講演論文集、D−12190(Mar.1999)
【非特許文献2】柳沼良知、坂内正夫「DPマッチングを用いたドラマ映像・音声・シナリオ文書の対応付け手法の一検討」電子情報通信学会論文誌、Vol.J79-D2, No.5, pp.747-755, 1996
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の(1)、(2)の方法は、映像制作時に作成され、管理されているテキスト情報が存在する場合のみ有効である。従って、テキスト情報が管理されていない場合には、映像制作時のテキスト情報を収集・整理・管理するか、手動でメタデータを付与する必要があり、膨大な時間と手間を要するという問題がある。
【0007】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムは、映像を視聴しながら自分の意見や感想をコメントとして登録することで多くの人とコミュニケーションを行うことができ、また、多くの人が付与したコメントを見ながら映像を視聴することで映像コンテンツをより楽しむことができるシステムである。このようなシステムにおいて、映像シーンに意味ラベルが付与されていれば、視聴者が見たいシーンをテキスト検索で容易に見つけることができる。
【0008】
映像シーンに対する意味ラベルの抽出には、利用者により付与されたコメントを利用することができる。映像コンテンツに関連したテキスト情報から抽出したキーワードをシーンに対する意味ラベルとして付与する従来方法においては、映像中のテロップ文字や、時間と手間をかけて制作する映像コンテンツでのシナリオのように、映像内容を正確に表したテキスト情報が映像コンテンツと対応付けて管理されていることを前提としている。
【0009】
また、映像視聴と連動したコミュニケーションシステムにおいては、利用者間コミュニケーションで付与されたテキスト情報は、映像制作側が付与したテキスト情報とは状況が異なり、必ずしも映像シーンの内容にマッチしたものではない。このようなノイズの多いテキスト情報からシーンに対する意味ラベルを抽出する必要があり、従来技術をそのまま適用するのは困難である。
【0010】
本発明は、上記の点に鑑みなされたもので、映像視聴と連動したコミュニケーションシステムにおいて、事前に作業することなく、同コミュニケーションシステムを運用しているうちに、映像シーン(フレーム)に対する意味ラベルを自動的に付与することが可能な映像シーンに対する意味ラベル付与方法及び装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
図1は、本発明の原理説明図である。
【0012】
本発明(請求項1)は、映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与方法であって、
記憶手段から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出ステップ(ステップ1)と、
類似シーン区間検出ステップ(ステップ1)で検出された同一グループのシーン区間に付与されたコメントを記憶手段から読み出すコメント収集ステップ(ステップ2)と、
コメント収集ステップ(ステップ2)で収集されたコメント群のワード分布からキーワードを抽出するコメント分析ステップ(ステップ3)と、
コメント分析ステップ(ステップ3)で抽出したキーワードを類似シーン区間検出ステップ(ステップ1)で検出された同一グループのシーン区間に対する意味ラベルとして映像シーンにラベルを付与し、記憶手段に格納する意味ラベル付与ステップ(ステップ4)と、を行う。
【0013】
また、本発明(請求項2)は、請求項1の類似シーン区間検出ステップ(ステップ1)において、
映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出し、
コメント分析ステップ(ステップ3)において、
コメント群のワードに基づいて、場所に関連するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める。
【0014】
また、本発明(請求項3)は、請求項1の類似シーン区間検出ステップ(ステップ1)において、
映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出し、
コメント分析ステップ(ステップ3)において、
コメント群のワードに基づいて、オブジェクトの名称に関するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める。
【0015】
図2は、本発明の原理構成図である。
【0016】
本発明(請求項4)は、映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおける、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与装置であって、
少なくとも、映像と、視聴者から登録されたコメントとを格納する記憶手段2と、
記憶手段2から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出手段3と、
類似シーン区間検出手段3で検出された同一グループのシーン区間に付与されたコメントを記憶手段から読み出すコメント収集手段4と、
コメント収集手段4で収集されたコメント群のワード分布からキーワードを抽出し、該キーワードを類似シーン区間検出手段3で検出された同一グループのシーン区間に対する意味ラベルとして映像シーンにラベルを付与し、記憶手段2に格納するコメント分析手段5と、を有する。
【0017】
また、本発明(請求項5)は、請求項4記載の装置において、場所に関連するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
類似シーン区間検出手段3は、
映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出する手段を含み、
コメント分析手段5は、
コメント群のワードに基づいて、辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む。
【0018】
本発明(請求項6)は、請求項4記載の装置において、オブジェクトの名称に関するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
類似シーン区間検出手段3は、
映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出する手段を含み、
コメント分析手段5は、
コメント群のワードに基づいて、辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む。
【0019】
本発明(請求項7)は、映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与プログラムであって、
請求項1乃至3記載の映像シーンに対する意味ラベル付与方法を実現するための処理をコンピュータに実行させるプログラムである。
【発明の効果】
【0020】
本発明によれば、映像視聴と連動したコミュニケーションシステムにおいて、同コミュニケーションシステムの運用中に視聴者が付与したコメントから映像シーンの内容を表した意味ラベルが自動抽出できるので、サービス提供側は、映像コンテンツと関連するテキスト情報を管理したり、意味ラベルを手動で付与したりする必要がなくなる。また、関連するシーンや映像を集めて視聴者に好みの映像コンテンツやシーンを提示したり、視聴者が所望のシーンをテキスト検索で選ぶことができるようになる。
【発明を実施するための最良の形態】
【0021】
以下、図面と共に本発明の実施の形態を説明する。
【0022】
図3は、本発明の一実施の形態における意味ラベル付与装置の構成を示す。
【0023】
同図に示す意味ラベル付与装置は、視聴者間コミュニケーション部1、データ記憶部2、類似シーン区間検出部3、コメント収集処理部4、コメント分析処理部5及び辞書6から構成される。
【0024】
視聴者間コミュニケーション部1は、視聴者から寄せられたコメントと映像シーン区間の映像再生表示とを同期させて提示する。提示する映像、シーン区間、既存のコメントは、データ記憶部2から読み出す。
【0025】
視聴者間コミュニケーション部1は、映像再生表示の他に、シーン区間の先頭のフレーム画像と共に、当該シーン区間に付与されたコメントを一覧表示させて、どのようなシーン区間があり、各シーン区間毎にどのようなコメントが付与されたかを概観できるようにする一覧表示機能や、シーン区間の意味ラベルやコメントを対象にしたテキスト検索により、視聴者が所望のシーンを検索する機能を有する。これらの機能を用いて視聴者がシーン区間を選択したときには、その区間に対する映像を再生すると共に、その区間に付与されたコメントを表示する。
【0026】
また、視聴者がコメント付与の指示を行い、コメントを入力したときには、入力されたコメントを受け付ける。受け付けた新規コメントはデータ記憶部2に出力する。
【0027】
データ記憶部2は、映像コンテンツ、図4(a)に示す視聴者が付与したコメント情報、図4(b)に示すシーン区間情報をそれぞれ格納する。視聴者が付与したコメント情報は、コメントID,コメントが付与された時刻(映像における時刻(メディアタイム))とコメント内容であり、シーン区間情報はシーンID,シーンの開始時刻と終了時刻及び意味ラベルである。シーン区間情報の意味ラベルの欄は、意味ラベルが付与されるまではNULLが設定されているものとする。
【0028】
なお、図3に示すデータ記憶部2では、映像、コメント、シーン情報を1つの記憶手段に蓄積する例を示しているが、この例に限定されることなく、映像、コメント、シーン情報それぞれを別の記憶媒体に格納するようにしてもよい。
【0029】
類似シーン区間検出部3は、映像の各シーン区間の画像情報の類似度に基づいて類似したシーン区間を検出し、類似したシーン区間を同一グループとするシーン区間の分類を行う。分類結果は、コメント収集処理部4に出力する。
【0030】
コメント収集処理部4は、類似シーン区間検出部3より受け取った同一グループのシーン区間に付与されたコメントをデータ記憶部2から収集し、収集したコメント群をコメント分析部5に出力する。このとき、シーン区間情報のシーン開始時刻/終了時刻の範囲内に存在するコメント情報を、コメント付与時刻を参照して収集するものとする。
【0031】
コメント分析部5は、コメント収集処理部4から受け取ったコメント群のワード頻度分布からキーワードを抽出し、抽出したキーワードを類似シーン区間検出部3で検出された同一グループのシーン区間に対する意味ラベルとして、データ記憶部2に出力する。
【0032】
ワード辞書6は、メモリやディスク等の記憶手段に格納され、コメント群のワードを格納する辞書であり、コメント分析部5から参照される。
【0033】
以上の構成により、視聴者が付与したコメントから、シーン区間に対する意味ラベルを抽出して管理できるようにする。
【0034】
次に、上記の構成における基本動作を説明する。
【0035】
図5は、本発明の一実施の形態における意味ラベル付与装置の基本動作のフローチャートである。
【0036】
ステップ201) 類似シーン区間検出部3は、データ記憶部2から映像コンテンツを読み出して、代表画像を選択する。例えば、代表画像を選択する方法として、シーン区間の中央の時刻におけるフレーム画像を選択すればよい。図6の例では、13個の代表画像が選択されることになる。
【0037】
ステップ202) 類似シーン区間検出部3は、代表画像のグルーピングを行う。図6の例では、13個の代表画像の中で類似している画像のグルーピングを行う。当該グルーピングの具体的な方法については後述する。ここでは、「代表画像3」と「代表画像6」が“グループ1”、「代表画像7」「代表画像9」「代表画像11」が“グループ2”として2つのグループに分類されたものとして、以下説明する(N=2)。類似シーン区間検出部3は、これらの分類結果をコメント収集処理部4に出力する。
【0038】
ステップ203) コメント収集処理部4は、代表画像のグルーピングにより分類されたグループがあるかを判定する。N>0の場合は、ステップ204に移行し、N>0でない場合は分類されたグループがないとして処理を終了する。
【0039】
ステップ204) コメント収集処理部4は、n=1として、最初のグループの処理を行う。
【0040】
ステップ205) コメント収集処理部4は、グルーピングされた代表画像が属するシーン区間に付与された利用者コメントの収集を行う。図6の例では、まず、n=1の処理で、“グループ1”に対応するシーン区間「3」と「6」に付与されたコメントをデータ記憶部2から収集する。このとき、シーン区間「3」、「6」のシーンの開始時刻/終了時刻の範囲内に存在するコメントをデータ記憶部2から取得する。次に、n=2の処理で、“グループ2”に対応するシーン区間「7」」「9」「11」に付与されたコメントをデータ記憶部2から同様に収集する。コメント収集処理部4は、収集したコメントをコメント分析処理部4に出力する。
【0041】
ステップ206) コメント分析処理部5は、収集されたコメント群に対して、ワード辞書6に登録されているワード頻度分布を算出する。
【0042】
ステップ207) コメント分析処理部5は、閾値以上の頻度のワードがあるかを判定し、ある場合は、ステップ208に移行し、ない場合はステップ209に移行する。
【0043】
ステップ208) コメント分析処理部5は、上位N個の最頻ワードを選択し、グルーピングされた代表画像が属するシーン区間の意味ラベルとし、データ記憶部2のシーン区間情報の意味ラベルの欄に当該意味ラベルを書き込む。
【0044】
ステップ209) コメント分析処理部5は、N個の代表画像のグループに対して処理を行ったかを判断し、行った場合には処理を終了する。行っていない場合にはステップ210の処理を実行する。
【0045】
ステップ210) n=n+1とし、ステップ205に移行し、次のグループに対する処理を行う。
【実施例】
【0046】
[第1の実施例]
本実施例では、前述の図6及び、ワード辞書6の例を示した図7を用いて、上記の図5における、ステップ202の類似画像のグルーピング処理と、ステップ206のワードの頻度分布算出処理の例について詳しく説明する。
【0047】
ステップ202において類似シーン区間検出部3が代表画像のグルーピングを行うときに、代表画像の映っている場所(シーン)が特定できるように画像全体の類似度を表す特徴量に基づいてグルーピングを行う。例えば、海、山、街、屋内、特定の施設などの、どこのシーンであるかを表す意味ラベルを付与することをねらいとして、代表画像の色ヒストグラム、エッジ特徴などの特徴量に基づいて類似している代表画像をグルーピングする。
【0048】
ステップ206におけるコメント分析処理部5のワードの頻度分布算出処理では、収集されたコメント群に対して形態素解析を行い、ワード辞書6に登録されているワードについて頻度分布を算出するが、ワード辞書6には、海、山、街、屋内、特定の施設に対応するワードを登録しておく。ワード辞書6には、図7に示すように、あるワードに対して、固有名詞、類似ワード、関連ワードを設定すると共に、それぞれ重み係数を付与する。図7の例では、 “海”というワードに対しては、“海”に関連する地名などの固有名詞、“海岸”、“ビーチ”などの類似ワード、“海水浴”、“船”、“ヨット”などの関連ワードなどを体系的にワード辞書6に用意しておき、重み係数として、固有名詞の重み係数をw1、類似ワードの重み係数w2、関連ワードの重み係数w3とし(但し、w1>w2>w3)、各ワードの頻度の重みを付けた加算によりワード頻度を算出する。
【0049】
例として、コメントの形態素解析された結果得られたワード“海”の頻度の算出方法として、“海”そのものの頻度がN1、“太平洋”という固有名所の頻度がN2、“ビーチ”という類似ワードの頻度がN3、“船”という関連ワードの頻度がN4であった場合に、
“海”の頻度=N1+w1・N2+w2・N3+w3・N4
により、“海”の頻度を算出する。
【0050】
これにより、コメント分析部5は、データ記憶部2のシーン区間情報の意味ラベルの欄に“海”を意味ラベルとして設定する。
【0051】
本実施例により意味ラベルが付与される例を、図8、図9を用いて説明する。
【0052】
上記のステップ202で代表画像のグルーピング結果の例を図8に示す。同図において、類似シーン区間検出部2において、“グループ1”は、「シーン1」と「シーン6」とが類似していると判定され、“グループ2”は、「シーン2」「シーン7」「シーン9」「シーン11」が類似していると判定されたことを示す。“グループ2”において、「シーン5」は、テニスシーンであるが、「代表画像5」が他のテニスシーンと類似していなかったため選択されなかったことを示す。
【0053】
このとき、ステップ206のコメント分析処理部5におけるコメント分析結果の例を図9に示す。“グループ1”に対するワード頻度分布はばらついており、“グループ2”に対しては、コメントの形態素解析結果の内容がテニスに関したものであるため偏った頻度分布になることを示したものである。図9では、類似ワードや関連ワードによる重み加算を行う修正を行うことで、“グループ1”に対しては、「山」に関する頻度が、“グループ2”に対しては「テニスコート」に関する頻度がそれぞれ増加したことを示している。
【0054】
ステップ207における閾値を20とした場合には、“グループ1”に対しては、「山」の頻度が「5」であるため意味ラベルが付与されず、“グループ2”に対しては、頻度「26」の「テニスコート」が意味ラベルとして抽出される。これにより、「シーン2」「シーン5」「シーン7」「シーン11」に対して、「テニスコート」という意味ラベルが付与される。
【0055】
[第2の実施例]
上記の第1の実施例では、特徴量に基づいて類似している代表画像をグルーピングする例を示したが、本実施例では、代表画像からオブジェクト検出を行う例を示す。
【0056】
前述の図5における、ステップ202で類似シーン区間検出部3において、代表画像のグルーピングを行うときに、代表画像からオブジェクト検出を行い、検出したオブジェクト領域内の画像情報の類似度に基づいてグルーピングを行う。例えば、人物顔をオブジェクトとした場合には、代表画像に対して顔領域の検出処理を行い、顔領域があると判定された領域の類似度で代表画像をグルーピングする。
【0057】
ステップ206では、図10に示すようにワード辞書6に人物名を登録しておくものとする。コメント収集処理部4で収集されたコメント群について、コメント分析処理部5は、ワード辞書6に登録されているワードの頻度分布を算出する。ワードの頻度分布の算出方法は、上記の第1の例で示した方法と同様である。
【0058】
ステップ202とステップ206を上記の通り実現した場合に、映像シーンに付与する意味ラベルが抽出される手順を説明する。
【0059】
図11に示すような映像コンテンツ、すなわち、「シーン1」「シーン6」「シーン12」に人物Aの顔画像のシーンがあり、「シーン8」「シーン10」「シーン13」に人物Bの顔画像のシーンのシーンがある場合に、ステップ202の処理により、「代表画像3」「代表画像6」「代表画像8」「代表画像10」「代表画像12」「代表画像13」に顔領域が存在し、それらの顔領域の画像パターンが、「代表画像3」「代表画像6」「代表画像12」の“グループ1”と「代表画像8」「代表画像10」「代表画像13」の“グループ2”の2つのグループに分類される。“グループ1”に付与されたコメントを収集し、その中で人物名としてワード辞書6に登録されたワードの頻度分布を求める。最頻度ワードが“AAA”であった場合には、“AAA”を人物Aの名称に関する意味ラベルとして抽出する。そして、“グループ1”に属する、「シーン1」「シーン6」「シーン12」に対して、登場人物が“AAA”であるという意味ラベルを付与する。“グループ2”に対しても同様の処理を行う。
【0060】
ワード辞書6に登録しておくワードとして、映像コンテンツに登場する主要な人物が事前に分かっている場合には、登場人物の名前のみを登録したり、別名や愛称などが既知であれば、それらも登録しておくことで、より精度高く意味ラベルを抽出することができるようになる。
【0061】
上記の意味ラベル付与装置の動作をプログラムとして構築し、意味ラベル付与装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0062】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0063】
本発明は、映像視聴に連動したコメントの登録が可能なシステムに適用可能である。
【図面の簡単な説明】
【0064】
【図1】本発明の原理説明図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における意味ラベル付与装置の構成図である。
【図4】本発明の一実施の形態におけるデータ記憶部の構成例である。
【図5】本発明の一実施の形態における意味ラベル付与装置の基本動作のフローチャートである。
【図6】本発明の第1の実施例における代表画像選出の例である。
【図7】本発明の第1の実施例におけるワード辞書の例である。
【図8】本発明の第1の実施例における代表画像のグルーピングとコメント分析の例である。
【図9】本発明の第1の実施例における代表画像のグルーピングとコメント分析のワード頻度分布の例である。
【図10】本発明の第2の実施例におけるワード辞書の例である。
【図11】本発明の第2の実施例における代表画像のグルーピングとコメント分析の例である。
【符号の説明】
【0065】
1 視聴者間コミュニケーション部
2 記憶手段、データ記憶部
3 類似シーン区間検出手段、類似シーン区間検出部
4 コメント収集手段、コメント収集処理部
5 コメント分析手段、コメント分析処理部
6 ワード辞書
【技術分野】
【0001】
本発明は、映像シーンに対する意味ラベル付与方法及び装置及びプログラムに係り、特に、視聴者がコミュニケーションを目的に付与したコメントと映像コンテンツの画像情報から映像コンテンツのシーンの内容を表す意味ラベルを付与する映像シーンに対する意味ラベル付与方法及び装置及びプログラムに関する。
【背景技術】
【0002】
映像と、それに関連するテキスト情報が入力されたときに、テキスト情報から抽出したキーワードをシーンに対する意味ラベルとして付与する方法として、
(1)映像中のテロップ文字から抽出したテキスト情報を利用する方法;
(2)映像のシナリオから抽出したテキスト情報を利用する方法;
がある。
【0003】
(1)の方法は、映像中の顔画像とテロップ文字を認識し、認識したテロップ文字に予め登録しておく人物名の候補の文字が出現したときに、その文字列を、検出した顔画像に対する人物名として付与する方法である(例えば、非特許文献1参照)。
【0004】
(2)の方法は、ドラマ映像を対象に、映像とシナリオ文書との時間的対応付けを行い、シナリオ文書から抽出した映像に対する意味ラベルを映像シーンに付与する方法である。
【0005】
また、映像視聴と連動したコミュニケーションシステムにおいては、シーンに対応するコメントが利用者により付与されるので、このテキスト情報を映像シーンに対する意味ラベル抽出に利用することができる。
【非特許文献1】近藤博仁、孟洋、佐藤真一、坂内正夫「テロップ認識と顔照合を統合したニュース映像中人物の自動索引付けシステム」1999年電子情報通信学会総合大会講演論文集、D−12190(Mar.1999)
【非特許文献2】柳沼良知、坂内正夫「DPマッチングを用いたドラマ映像・音声・シナリオ文書の対応付け手法の一検討」電子情報通信学会論文誌、Vol.J79-D2, No.5, pp.747-755, 1996
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の(1)、(2)の方法は、映像制作時に作成され、管理されているテキスト情報が存在する場合のみ有効である。従って、テキスト情報が管理されていない場合には、映像制作時のテキスト情報を収集・整理・管理するか、手動でメタデータを付与する必要があり、膨大な時間と手間を要するという問題がある。
【0007】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムは、映像を視聴しながら自分の意見や感想をコメントとして登録することで多くの人とコミュニケーションを行うことができ、また、多くの人が付与したコメントを見ながら映像を視聴することで映像コンテンツをより楽しむことができるシステムである。このようなシステムにおいて、映像シーンに意味ラベルが付与されていれば、視聴者が見たいシーンをテキスト検索で容易に見つけることができる。
【0008】
映像シーンに対する意味ラベルの抽出には、利用者により付与されたコメントを利用することができる。映像コンテンツに関連したテキスト情報から抽出したキーワードをシーンに対する意味ラベルとして付与する従来方法においては、映像中のテロップ文字や、時間と手間をかけて制作する映像コンテンツでのシナリオのように、映像内容を正確に表したテキスト情報が映像コンテンツと対応付けて管理されていることを前提としている。
【0009】
また、映像視聴と連動したコミュニケーションシステムにおいては、利用者間コミュニケーションで付与されたテキスト情報は、映像制作側が付与したテキスト情報とは状況が異なり、必ずしも映像シーンの内容にマッチしたものではない。このようなノイズの多いテキスト情報からシーンに対する意味ラベルを抽出する必要があり、従来技術をそのまま適用するのは困難である。
【0010】
本発明は、上記の点に鑑みなされたもので、映像視聴と連動したコミュニケーションシステムにおいて、事前に作業することなく、同コミュニケーションシステムを運用しているうちに、映像シーン(フレーム)に対する意味ラベルを自動的に付与することが可能な映像シーンに対する意味ラベル付与方法及び装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
図1は、本発明の原理説明図である。
【0012】
本発明(請求項1)は、映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与方法であって、
記憶手段から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出ステップ(ステップ1)と、
類似シーン区間検出ステップ(ステップ1)で検出された同一グループのシーン区間に付与されたコメントを記憶手段から読み出すコメント収集ステップ(ステップ2)と、
コメント収集ステップ(ステップ2)で収集されたコメント群のワード分布からキーワードを抽出するコメント分析ステップ(ステップ3)と、
コメント分析ステップ(ステップ3)で抽出したキーワードを類似シーン区間検出ステップ(ステップ1)で検出された同一グループのシーン区間に対する意味ラベルとして映像シーンにラベルを付与し、記憶手段に格納する意味ラベル付与ステップ(ステップ4)と、を行う。
【0013】
また、本発明(請求項2)は、請求項1の類似シーン区間検出ステップ(ステップ1)において、
映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出し、
コメント分析ステップ(ステップ3)において、
コメント群のワードに基づいて、場所に関連するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める。
【0014】
また、本発明(請求項3)は、請求項1の類似シーン区間検出ステップ(ステップ1)において、
映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出し、
コメント分析ステップ(ステップ3)において、
コメント群のワードに基づいて、オブジェクトの名称に関するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める。
【0015】
図2は、本発明の原理構成図である。
【0016】
本発明(請求項4)は、映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおける、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与装置であって、
少なくとも、映像と、視聴者から登録されたコメントとを格納する記憶手段2と、
記憶手段2から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出手段3と、
類似シーン区間検出手段3で検出された同一グループのシーン区間に付与されたコメントを記憶手段から読み出すコメント収集手段4と、
コメント収集手段4で収集されたコメント群のワード分布からキーワードを抽出し、該キーワードを類似シーン区間検出手段3で検出された同一グループのシーン区間に対する意味ラベルとして映像シーンにラベルを付与し、記憶手段2に格納するコメント分析手段5と、を有する。
【0017】
また、本発明(請求項5)は、請求項4記載の装置において、場所に関連するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
類似シーン区間検出手段3は、
映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出する手段を含み、
コメント分析手段5は、
コメント群のワードに基づいて、辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む。
【0018】
本発明(請求項6)は、請求項4記載の装置において、オブジェクトの名称に関するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
類似シーン区間検出手段3は、
映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出する手段を含み、
コメント分析手段5は、
コメント群のワードに基づいて、辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む。
【0019】
本発明(請求項7)は、映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与プログラムであって、
請求項1乃至3記載の映像シーンに対する意味ラベル付与方法を実現するための処理をコンピュータに実行させるプログラムである。
【発明の効果】
【0020】
本発明によれば、映像視聴と連動したコミュニケーションシステムにおいて、同コミュニケーションシステムの運用中に視聴者が付与したコメントから映像シーンの内容を表した意味ラベルが自動抽出できるので、サービス提供側は、映像コンテンツと関連するテキスト情報を管理したり、意味ラベルを手動で付与したりする必要がなくなる。また、関連するシーンや映像を集めて視聴者に好みの映像コンテンツやシーンを提示したり、視聴者が所望のシーンをテキスト検索で選ぶことができるようになる。
【発明を実施するための最良の形態】
【0021】
以下、図面と共に本発明の実施の形態を説明する。
【0022】
図3は、本発明の一実施の形態における意味ラベル付与装置の構成を示す。
【0023】
同図に示す意味ラベル付与装置は、視聴者間コミュニケーション部1、データ記憶部2、類似シーン区間検出部3、コメント収集処理部4、コメント分析処理部5及び辞書6から構成される。
【0024】
視聴者間コミュニケーション部1は、視聴者から寄せられたコメントと映像シーン区間の映像再生表示とを同期させて提示する。提示する映像、シーン区間、既存のコメントは、データ記憶部2から読み出す。
【0025】
視聴者間コミュニケーション部1は、映像再生表示の他に、シーン区間の先頭のフレーム画像と共に、当該シーン区間に付与されたコメントを一覧表示させて、どのようなシーン区間があり、各シーン区間毎にどのようなコメントが付与されたかを概観できるようにする一覧表示機能や、シーン区間の意味ラベルやコメントを対象にしたテキスト検索により、視聴者が所望のシーンを検索する機能を有する。これらの機能を用いて視聴者がシーン区間を選択したときには、その区間に対する映像を再生すると共に、その区間に付与されたコメントを表示する。
【0026】
また、視聴者がコメント付与の指示を行い、コメントを入力したときには、入力されたコメントを受け付ける。受け付けた新規コメントはデータ記憶部2に出力する。
【0027】
データ記憶部2は、映像コンテンツ、図4(a)に示す視聴者が付与したコメント情報、図4(b)に示すシーン区間情報をそれぞれ格納する。視聴者が付与したコメント情報は、コメントID,コメントが付与された時刻(映像における時刻(メディアタイム))とコメント内容であり、シーン区間情報はシーンID,シーンの開始時刻と終了時刻及び意味ラベルである。シーン区間情報の意味ラベルの欄は、意味ラベルが付与されるまではNULLが設定されているものとする。
【0028】
なお、図3に示すデータ記憶部2では、映像、コメント、シーン情報を1つの記憶手段に蓄積する例を示しているが、この例に限定されることなく、映像、コメント、シーン情報それぞれを別の記憶媒体に格納するようにしてもよい。
【0029】
類似シーン区間検出部3は、映像の各シーン区間の画像情報の類似度に基づいて類似したシーン区間を検出し、類似したシーン区間を同一グループとするシーン区間の分類を行う。分類結果は、コメント収集処理部4に出力する。
【0030】
コメント収集処理部4は、類似シーン区間検出部3より受け取った同一グループのシーン区間に付与されたコメントをデータ記憶部2から収集し、収集したコメント群をコメント分析部5に出力する。このとき、シーン区間情報のシーン開始時刻/終了時刻の範囲内に存在するコメント情報を、コメント付与時刻を参照して収集するものとする。
【0031】
コメント分析部5は、コメント収集処理部4から受け取ったコメント群のワード頻度分布からキーワードを抽出し、抽出したキーワードを類似シーン区間検出部3で検出された同一グループのシーン区間に対する意味ラベルとして、データ記憶部2に出力する。
【0032】
ワード辞書6は、メモリやディスク等の記憶手段に格納され、コメント群のワードを格納する辞書であり、コメント分析部5から参照される。
【0033】
以上の構成により、視聴者が付与したコメントから、シーン区間に対する意味ラベルを抽出して管理できるようにする。
【0034】
次に、上記の構成における基本動作を説明する。
【0035】
図5は、本発明の一実施の形態における意味ラベル付与装置の基本動作のフローチャートである。
【0036】
ステップ201) 類似シーン区間検出部3は、データ記憶部2から映像コンテンツを読み出して、代表画像を選択する。例えば、代表画像を選択する方法として、シーン区間の中央の時刻におけるフレーム画像を選択すればよい。図6の例では、13個の代表画像が選択されることになる。
【0037】
ステップ202) 類似シーン区間検出部3は、代表画像のグルーピングを行う。図6の例では、13個の代表画像の中で類似している画像のグルーピングを行う。当該グルーピングの具体的な方法については後述する。ここでは、「代表画像3」と「代表画像6」が“グループ1”、「代表画像7」「代表画像9」「代表画像11」が“グループ2”として2つのグループに分類されたものとして、以下説明する(N=2)。類似シーン区間検出部3は、これらの分類結果をコメント収集処理部4に出力する。
【0038】
ステップ203) コメント収集処理部4は、代表画像のグルーピングにより分類されたグループがあるかを判定する。N>0の場合は、ステップ204に移行し、N>0でない場合は分類されたグループがないとして処理を終了する。
【0039】
ステップ204) コメント収集処理部4は、n=1として、最初のグループの処理を行う。
【0040】
ステップ205) コメント収集処理部4は、グルーピングされた代表画像が属するシーン区間に付与された利用者コメントの収集を行う。図6の例では、まず、n=1の処理で、“グループ1”に対応するシーン区間「3」と「6」に付与されたコメントをデータ記憶部2から収集する。このとき、シーン区間「3」、「6」のシーンの開始時刻/終了時刻の範囲内に存在するコメントをデータ記憶部2から取得する。次に、n=2の処理で、“グループ2”に対応するシーン区間「7」」「9」「11」に付与されたコメントをデータ記憶部2から同様に収集する。コメント収集処理部4は、収集したコメントをコメント分析処理部4に出力する。
【0041】
ステップ206) コメント分析処理部5は、収集されたコメント群に対して、ワード辞書6に登録されているワード頻度分布を算出する。
【0042】
ステップ207) コメント分析処理部5は、閾値以上の頻度のワードがあるかを判定し、ある場合は、ステップ208に移行し、ない場合はステップ209に移行する。
【0043】
ステップ208) コメント分析処理部5は、上位N個の最頻ワードを選択し、グルーピングされた代表画像が属するシーン区間の意味ラベルとし、データ記憶部2のシーン区間情報の意味ラベルの欄に当該意味ラベルを書き込む。
【0044】
ステップ209) コメント分析処理部5は、N個の代表画像のグループに対して処理を行ったかを判断し、行った場合には処理を終了する。行っていない場合にはステップ210の処理を実行する。
【0045】
ステップ210) n=n+1とし、ステップ205に移行し、次のグループに対する処理を行う。
【実施例】
【0046】
[第1の実施例]
本実施例では、前述の図6及び、ワード辞書6の例を示した図7を用いて、上記の図5における、ステップ202の類似画像のグルーピング処理と、ステップ206のワードの頻度分布算出処理の例について詳しく説明する。
【0047】
ステップ202において類似シーン区間検出部3が代表画像のグルーピングを行うときに、代表画像の映っている場所(シーン)が特定できるように画像全体の類似度を表す特徴量に基づいてグルーピングを行う。例えば、海、山、街、屋内、特定の施設などの、どこのシーンであるかを表す意味ラベルを付与することをねらいとして、代表画像の色ヒストグラム、エッジ特徴などの特徴量に基づいて類似している代表画像をグルーピングする。
【0048】
ステップ206におけるコメント分析処理部5のワードの頻度分布算出処理では、収集されたコメント群に対して形態素解析を行い、ワード辞書6に登録されているワードについて頻度分布を算出するが、ワード辞書6には、海、山、街、屋内、特定の施設に対応するワードを登録しておく。ワード辞書6には、図7に示すように、あるワードに対して、固有名詞、類似ワード、関連ワードを設定すると共に、それぞれ重み係数を付与する。図7の例では、 “海”というワードに対しては、“海”に関連する地名などの固有名詞、“海岸”、“ビーチ”などの類似ワード、“海水浴”、“船”、“ヨット”などの関連ワードなどを体系的にワード辞書6に用意しておき、重み係数として、固有名詞の重み係数をw1、類似ワードの重み係数w2、関連ワードの重み係数w3とし(但し、w1>w2>w3)、各ワードの頻度の重みを付けた加算によりワード頻度を算出する。
【0049】
例として、コメントの形態素解析された結果得られたワード“海”の頻度の算出方法として、“海”そのものの頻度がN1、“太平洋”という固有名所の頻度がN2、“ビーチ”という類似ワードの頻度がN3、“船”という関連ワードの頻度がN4であった場合に、
“海”の頻度=N1+w1・N2+w2・N3+w3・N4
により、“海”の頻度を算出する。
【0050】
これにより、コメント分析部5は、データ記憶部2のシーン区間情報の意味ラベルの欄に“海”を意味ラベルとして設定する。
【0051】
本実施例により意味ラベルが付与される例を、図8、図9を用いて説明する。
【0052】
上記のステップ202で代表画像のグルーピング結果の例を図8に示す。同図において、類似シーン区間検出部2において、“グループ1”は、「シーン1」と「シーン6」とが類似していると判定され、“グループ2”は、「シーン2」「シーン7」「シーン9」「シーン11」が類似していると判定されたことを示す。“グループ2”において、「シーン5」は、テニスシーンであるが、「代表画像5」が他のテニスシーンと類似していなかったため選択されなかったことを示す。
【0053】
このとき、ステップ206のコメント分析処理部5におけるコメント分析結果の例を図9に示す。“グループ1”に対するワード頻度分布はばらついており、“グループ2”に対しては、コメントの形態素解析結果の内容がテニスに関したものであるため偏った頻度分布になることを示したものである。図9では、類似ワードや関連ワードによる重み加算を行う修正を行うことで、“グループ1”に対しては、「山」に関する頻度が、“グループ2”に対しては「テニスコート」に関する頻度がそれぞれ増加したことを示している。
【0054】
ステップ207における閾値を20とした場合には、“グループ1”に対しては、「山」の頻度が「5」であるため意味ラベルが付与されず、“グループ2”に対しては、頻度「26」の「テニスコート」が意味ラベルとして抽出される。これにより、「シーン2」「シーン5」「シーン7」「シーン11」に対して、「テニスコート」という意味ラベルが付与される。
【0055】
[第2の実施例]
上記の第1の実施例では、特徴量に基づいて類似している代表画像をグルーピングする例を示したが、本実施例では、代表画像からオブジェクト検出を行う例を示す。
【0056】
前述の図5における、ステップ202で類似シーン区間検出部3において、代表画像のグルーピングを行うときに、代表画像からオブジェクト検出を行い、検出したオブジェクト領域内の画像情報の類似度に基づいてグルーピングを行う。例えば、人物顔をオブジェクトとした場合には、代表画像に対して顔領域の検出処理を行い、顔領域があると判定された領域の類似度で代表画像をグルーピングする。
【0057】
ステップ206では、図10に示すようにワード辞書6に人物名を登録しておくものとする。コメント収集処理部4で収集されたコメント群について、コメント分析処理部5は、ワード辞書6に登録されているワードの頻度分布を算出する。ワードの頻度分布の算出方法は、上記の第1の例で示した方法と同様である。
【0058】
ステップ202とステップ206を上記の通り実現した場合に、映像シーンに付与する意味ラベルが抽出される手順を説明する。
【0059】
図11に示すような映像コンテンツ、すなわち、「シーン1」「シーン6」「シーン12」に人物Aの顔画像のシーンがあり、「シーン8」「シーン10」「シーン13」に人物Bの顔画像のシーンのシーンがある場合に、ステップ202の処理により、「代表画像3」「代表画像6」「代表画像8」「代表画像10」「代表画像12」「代表画像13」に顔領域が存在し、それらの顔領域の画像パターンが、「代表画像3」「代表画像6」「代表画像12」の“グループ1”と「代表画像8」「代表画像10」「代表画像13」の“グループ2”の2つのグループに分類される。“グループ1”に付与されたコメントを収集し、その中で人物名としてワード辞書6に登録されたワードの頻度分布を求める。最頻度ワードが“AAA”であった場合には、“AAA”を人物Aの名称に関する意味ラベルとして抽出する。そして、“グループ1”に属する、「シーン1」「シーン6」「シーン12」に対して、登場人物が“AAA”であるという意味ラベルを付与する。“グループ2”に対しても同様の処理を行う。
【0060】
ワード辞書6に登録しておくワードとして、映像コンテンツに登場する主要な人物が事前に分かっている場合には、登場人物の名前のみを登録したり、別名や愛称などが既知であれば、それらも登録しておくことで、より精度高く意味ラベルを抽出することができるようになる。
【0061】
上記の意味ラベル付与装置の動作をプログラムとして構築し、意味ラベル付与装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0062】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0063】
本発明は、映像視聴に連動したコメントの登録が可能なシステムに適用可能である。
【図面の簡単な説明】
【0064】
【図1】本発明の原理説明図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における意味ラベル付与装置の構成図である。
【図4】本発明の一実施の形態におけるデータ記憶部の構成例である。
【図5】本発明の一実施の形態における意味ラベル付与装置の基本動作のフローチャートである。
【図6】本発明の第1の実施例における代表画像選出の例である。
【図7】本発明の第1の実施例におけるワード辞書の例である。
【図8】本発明の第1の実施例における代表画像のグルーピングとコメント分析の例である。
【図9】本発明の第1の実施例における代表画像のグルーピングとコメント分析のワード頻度分布の例である。
【図10】本発明の第2の実施例におけるワード辞書の例である。
【図11】本発明の第2の実施例における代表画像のグルーピングとコメント分析の例である。
【符号の説明】
【0065】
1 視聴者間コミュニケーション部
2 記憶手段、データ記憶部
3 類似シーン区間検出手段、類似シーン区間検出部
4 コメント収集手段、コメント収集処理部
5 コメント分析手段、コメント分析処理部
6 ワード辞書
【特許請求の範囲】
【請求項1】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与方法であって、
記憶手段から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出ステップと、
前記類似シーン区間検出ステップで検出された同一グループのシーン区間に付与されたコメントを記憶手段から読み出すコメント収集ステップと、
前記コメント収集ステップで収集されたコメント群のワード分布からキーワードを抽出するコメント分析ステップと、
前記コメント分析ステップで抽出した前記キーワードを前記類似シーン区間検出ステップで検出された同一グループのシーン区間に対する意味ラベルとして前記映像シーンにラベルを付与し、前記記憶手段に格納する意味ラベル付与ステップと、
を行うことを特徴とする映像シーンに対する意味ラベル付与方法。
【請求項2】
前記類似シーン区間検出ステップにおいて、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出し、
前記コメント分析ステップにおいて、
前記コメント群のワードに基づいて、場所に関連するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める、請求項1記載の映像シーンに対する意味ラベル付与方法。
【請求項3】
前記類似シーン区間検出ステップにおいて、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出し、
前記コメント分析ステップにおいて、
前記コメント群のワードに基づいて、オブジェクトの名称に関するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める、請求項1記載の映像シーンに対する意味ラベル付与方法。
【請求項4】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおける、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与装置であって、
少なくとも、映像と、視聴者から登録されたコメントとを格納する記憶手段と、
前記記憶手段から前記映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出手段と、
前記類似シーン区間検出手段で検出された同一グループのシーン区間に付与されたコメントを前記記憶手段から読み出すコメント収集手段と、
前記コメント収集手段で収集されたコメント群のワード分布からキーワードを抽出し、該キーワードを前記類似シーン区間検出手段で検出された同一グループのシーン区間に対する意味ラベルとして前記映像シーンにラベルを付与し、前記記憶手段に格納する意味ラベル付与手段と、
を有することを特徴とする映像シーンに対する意味ラベル付与装置。
【請求項5】
場所に関連するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
前記類似シーン区間検出手段は、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出する手段を含み、
前記コメント分析手段は、
前記コメント群のワードに基づいて、前記辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む、請求項4記載の映像シーンに対する意味ラベル付与装置。
【請求項6】
オブジェクトの名称に関するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
前記類似シーン区間検出手段は、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出する手段を含み、
前記コメント分析手段は、
前記コメント群のワードに基づいて、前記辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む、請求項4記載の映像シーンに対する意味ラベル付与装置。
【請求項7】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与プログラムであって、
前記請求項1乃至3記載の映像シーンに対する意味ラベル付与方法を実現するための処理をコンピュータに実行させることを特徴とする映像シーンに対する意味ラベル付与プログラム。
【請求項1】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与方法であって、
記憶手段から映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出ステップと、
前記類似シーン区間検出ステップで検出された同一グループのシーン区間に付与されたコメントを記憶手段から読み出すコメント収集ステップと、
前記コメント収集ステップで収集されたコメント群のワード分布からキーワードを抽出するコメント分析ステップと、
前記コメント分析ステップで抽出した前記キーワードを前記類似シーン区間検出ステップで検出された同一グループのシーン区間に対する意味ラベルとして前記映像シーンにラベルを付与し、前記記憶手段に格納する意味ラベル付与ステップと、
を行うことを特徴とする映像シーンに対する意味ラベル付与方法。
【請求項2】
前記類似シーン区間検出ステップにおいて、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出し、
前記コメント分析ステップにおいて、
前記コメント群のワードに基づいて、場所に関連するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める、請求項1記載の映像シーンに対する意味ラベル付与方法。
【請求項3】
前記類似シーン区間検出ステップにおいて、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出し、
前記コメント分析ステップにおいて、
前記コメント群のワードに基づいて、オブジェクトの名称に関するワードが格納された記憶手段の辞書を参照して、該辞書のワードに対するワード頻度分布を求める、請求項1記載の映像シーンに対する意味ラベル付与方法。
【請求項4】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおける、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与装置であって、
少なくとも、映像と、視聴者から登録されたコメントとを格納する記憶手段と、
前記記憶手段から前記映像を読み出して、各シーン区間の画像情報の類似度に基づいて、類似したシーン区間を検出して同一グループとする類似シーン区間検出手段と、
前記類似シーン区間検出手段で検出された同一グループのシーン区間に付与されたコメントを前記記憶手段から読み出すコメント収集手段と、
前記コメント収集手段で収集されたコメント群のワード分布からキーワードを抽出し、該キーワードを前記類似シーン区間検出手段で検出された同一グループのシーン区間に対する意味ラベルとして前記映像シーンにラベルを付与し、前記記憶手段に格納する意味ラベル付与手段と、
を有することを特徴とする映像シーンに対する意味ラベル付与装置。
【請求項5】
場所に関連するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
前記類似シーン区間検出手段は、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像の画像全体の類似度を表す特徴量に基づいて、類似したシーン区間を検出する手段を含み、
前記コメント分析手段は、
前記コメント群のワードに基づいて、前記辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む、請求項4記載の映像シーンに対する意味ラベル付与装置。
【請求項6】
オブジェクトの名称に関するワードを格納した辞書を蓄積した辞書記憶手段を更に有し、
前記類似シーン区間検出手段は、
前記映像の各シーン区間から代表画像を選定し、選定した代表画像から検出したオブジェクト領域内の画像情報の類似度に基づいて、類似したシーン区間を検出する手段を含み、
前記コメント分析手段は、
前記コメント群のワードに基づいて、前記辞書を参照して、該辞書のワードに対するワード頻度分布を求める手段を含む、請求項4記載の映像シーンに対する意味ラベル付与装置。
【請求項7】
映像コンテンツをシーン区間に分割し、シーン区間を単位として視聴者が登録したコメントと映像シーンを関連付けて提示する映像視聴システムにおいて、該映像シーンにラベルを付与する映像シーンに対する意味ラベル付与プログラムであって、
前記請求項1乃至3記載の映像シーンに対する意味ラベル付与方法を実現するための処理をコンピュータに実行させることを特徴とする映像シーンに対する意味ラベル付与プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2006−157688(P2006−157688A)
【公開日】平成18年6月15日(2006.6.15)
【国際特許分類】
【出願番号】特願2004−347275(P2004−347275)
【出願日】平成16年11月30日(2004.11.30)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成18年6月15日(2006.6.15)
【国際特許分類】
【出願日】平成16年11月30日(2004.11.30)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]