説明

注目度推定装置およびそのプログラム

【課題】映像コンテンツを視聴する人物の当該コンテンツに対する注目度を計測する注目度推定装置を提供する。
【解決手段】注目度推定装置1は、モーションキャプチャで計測された人物の骨格位置から身体動作量を計測する身体動作量計測手段11と、カメラ映像から人物の瞬目間隔時間を計測する瞬目間隔計測手段13と、カメラ映像から視線変動量を計測する視線変動量計測手段14と、身体動作量、視線変動量および瞬目間隔時間のそれぞれについて、予め定めた映像区間における統計特徴量を生成する統計特徴量生成手段30と、統計特徴量と注目度との対応関係を学習データとして予め記憶した学習データ記憶手段40と、学習データに基づいて、統計特徴量生成手段30で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する注目度特定手段50と、を備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像コンテンツを視聴する人物の当該コンテンツに対する注目度を推定する注目度推定装置およびそのプログラムに関する。
【背景技術】
【0002】
近年、人物の脳内活動として、ある対象に集中した状態か、あるいは、ある対象を注目した状態かといった、集中度あるいは注目度を計測する研究が盛んに進められている。これらの研究は、例えば、車の運転や授業での生徒の理解度調査など、様々な分野に応用可能な技術であり、従来から多くの研究がなされてきた。なお、“集中度”は“注目度”よりも人物の内的状態を表すニュアンスがあるもののほぼ同義で用いられている。
【0003】
この集中度を計測する手法として、脳波、脈拍、瞬目間隔時間、身体の動き等の生体情報を利用して集中度を計測する技術が種々開示されている(特許文献1,2参照)。
例えば、脳波は、特定の対象に対する脳波の反応が明確に現れた場合に、集中度が高い方向に働く指標となる。また、例えば、脈拍は、特定の対象に対して心拍間隔時間が変動した場合に、集中度が高い方向に働く指標となる。また、例えば、瞬目間隔時間は、その間隔が長くなった場合に、集中度が高い方向に働く指標となる。また、例えば、身体の動きは、その動きが大きい場合、集中していない方向に働く指標となる。
このような生体情報を利用して集中度を計測するには、通常、人物に装着した接触型デバイスから生体情報を取得する必要がある。
【0004】
また、集中度を計測する他の手法として、視線の動きを用いる手法も開示されている(特許文献3参照)。
この手法は、視線の動きを追跡し、予めデータ化した、ある対象に視線が集中する場合の視線の動きと比較することで、人物がその対象に集中している度合いを計測するものである。この手法において、視線の追跡には、非接触型のデバイスが発光する赤外線等が人物の瞳によって反射した光をカメラで撮影することで行っている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平9−262216号公報
【特許文献2】特開2007−283041号公報
【特許文献3】特開2008−12223号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
前記したように、従来の人物の生体情報を利用して集中度(注目度)を計測する手法では、通常、接触型デバイスが必要となる。しかし、接触型デバイスを用いた場合、それを装着した人物の視界や動作の自由度が奪われ、人物の負担が大きいという問題がある。
また、従来のように、視線の動きから集中度(注目度)を計測する手法では、たとえ、赤外線光等を発光する非接触型デバイスを用いる場合であっても、人物に負荷を与えてしまう。
例えば、一般家庭において、視聴者がテレビ等で視聴する映像コンテンツを対象として注目度を計測する場合、接触型デバイスを装着することは現実的ではない。また、健康面等を考慮して、視聴者に赤外線を照射し続けることはできない。
【0007】
本発明は、以上のような問題に鑑みてなされたものであり、映像コンテンツを視聴する人物の当該コンテンツに対する注目度を、人物に負荷を与えることなく計測することが可能な注目度推定装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0008】
本発明は、前記課題を解決するために創案されたものであり、まず、請求項1に記載の注目度推定装置は、映像コンテンツを視聴している人物を撮影した画像から当該人物の骨格位置を検出するモーションキャプチャで計測して得られる骨格位置情報と、前記人物をカメラで撮影したカメラ映像とから、前記映像コンテンツの予め定めた映像区間において、前記人物の注目の度合いを示す注目度を推定する注目度推定装置であって、身体動作量計測手段と、視線変動量計測手段と、統計特徴量生成手段と、学習データ記憶手段と、注目度特定手段と、を備える構成とした。
【0009】
かかる構成において、注目度推定装置は、身体動作量計測手段によって、モーションキャプチャで計測された人物の骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置、例えば、人物の頭部位置等における単位時間当たりの変化量である身体動作量を身体特徴量の1つとして計測する。なお、人物が映像コンテンツを注目している場合、身体動作が少なくなる傾向にあることから、身体動作量は注目度を推定する指標となる。
【0010】
また、注目度推定装置は、視線変動量計測手段によって、カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴、例えば、Haar−like特徴量に基づいて人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を身体特徴量の1つとして計測する。例えば、目領域内の左右領域の画素の輝度値は、角膜(黒目)の位置によって変化する。そこで、視線変動量計測手段は、左右領域の輝度比から、角膜の位置の変化を検出することで、その変化量を視線変動量とする。
なお、人物が映像コンテンツを注目している場合、視線の動きが小さくなる傾向にあることから、視線変動量は注目度を推定する指標となる。
【0011】
そして、注目度推定装置は、統計特徴量生成手段によって、身体特徴量のそれぞれについて、映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する。この統計特徴量は、例えば、身体特徴量の平均値や標準偏差、あるいは、度数等の統計量である。
【0012】
そして、注目度推定装置は、注目度特定手段によって、学習データ記憶手段に記憶している、統計特徴量と注目度との対応関係を予め学習により求めた学習データに基づいて、統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。この学習データは、例えば、サポートベクタマシン(SVM)で実現することができ、複数の統計特徴量から対応する注目度を出力する識別関数である。なお、この学習データは、サポートベクタマシンにおける学習フェーズにおいて、任意の映像コンテンツを視聴した際の統計特徴量と人物の主観評価とに基づいて、事前に生成しておく。
【0013】
また、請求項2に記載の注目度推定装置は、請求項1に記載の注目度推定装置において、瞬目間隔計測手段を、さらに備える構成とした。
【0014】
かかる構成において、注目度推定装置は、瞬目間隔計測手段によって、時系列に入力されるカメラ画像において、予め定めた画像特徴、例えば、Haar−like特徴量に基づいて人物の瞬きを検出し、その瞬きが発生する間隔である瞬目間隔時間を身体特徴量の1つとして計測する。なお、人物が映像コンテンツを注目している場合、瞬きが少なくなる傾向にあることから、瞬目間隔時間は注目度を推定する指標となる。
【0015】
また、請求項3に記載の注目度推定装置は、請求項1または請求項2に記載の注目度推定装置において、傾き補正手段を、さらに備える構成とした。
【0016】
かかる構成において、注目度推定装置は、傾き補正手段によって、骨格位置情報で示される人物の頭部位置および頸部位置に基づいて、頸部位置が頭部位置の直下になるようにカメラ画像を回転させる。これによって、人物の顔が、カメラ画像上で垂直に保たれることになる。
【0017】
さらに、請求項4に記載の注目度推定装置は、請求項1から請求項3のいずれか一項に記載の注目度推定装置において、第2学習データ記憶手段と、字幕情報量計測手段と、映像動き量検出手段と、使用判定手段と、をさらに備える構成とした。
【0018】
かかる構成において、注目度推定装置は、第2学習データ記憶手段に、身体特徴量から視線変動量を除いた統計特徴量と注目度との対応関係を第2学習データとして予め記憶しておく。この第2学習データは、例えば、サポートベクタマシンで実現することができ、身体動作量および視線変動量の統計特徴量から対応する注目度を出力する識別関数である。なお、この第2学習データは、サポートベクタマシンにおける学習フェーズにおいて、任意の映像コンテンツを視聴した際の身体動作量および視線変動量の統計特徴量と人物の主観評価とに基づいて、事前に生成しておく。
【0019】
また、注目度推定装置は、字幕情報量計測手段によって、映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する。なお、人物が映像コンテンツ内の字幕を注目している場合、視線の動きが大きくなる傾向にあることから、字幕情報量は、視線変動量とは逆の相関を持った指標となる。
また、注目度推定装置は、映像動き量検出手段によって、映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する。なお、人物が映像コンテンツを注目している場合、視線の動きが大きくなる傾向にあることから、映像動き量は、視線変動量とは逆の相関を持った指標となる。
【0020】
そして、注目度推定装置は、使用判定手段によって、字幕情報量が予め定めた情報量よりも多い、または、映像動き量が予め定めた動き量よりも多い場合に、視線変動量を身体特徴量として使用しない旨を判定する。
そして、使用判定手段において、視線変動量を身体特徴量として使用しない旨が判定された場合、注目度推定装置は、注目度特定手段によって、学習データに代えて第2学習データに基づいて、視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。
【0021】
また、請求項5に記載の注目度推定装置は、請求項1から請求項3のいずれか一項に記載の注目度推定装置において、第2学習データ記憶手段と、字幕情報量計測手段と、使用判定手段と、をさらに備える構成とした。
【0022】
かかる構成において、注目度推定装置は、第2学習データ記憶手段に、身体特徴量から視線変動量を除いた統計特徴量と注目度との対応関係を第2学習データとして予め記憶しておく。
また、注目度推定装置は、字幕情報量計測手段によって、映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する。そして、注目度推定装置は、使用判定手段によって、字幕情報量が予め定めた情報量よりも多い場合に、視線変動量を身体特徴量として使用しない旨を判定する。
【0023】
そして、使用判定手段において、視線変動量を身体特徴量として使用しない旨が判定された場合、注目度推定装置は、注目度特定手段によって、学習データに代えて第2学習データに基づいて、視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。
【0024】
また、請求項6に記載の注目度推定装置は、請求項1から請求項3のいずれか一項に記載の注目度推定装置において、第2学習データ記憶手段と、映像動き量検出手段と、使用判定手段と、をさらに備える構成とした。
【0025】
かかる構成において、注目度推定装置は、第2学習データ記憶手段に、身体特徴量から視線変動量を除いた統計特徴量と注目度との対応関係を第2学習データとして予め記憶しておく。
また、注目度推定装置は、映像動き量検出手段によって、映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する。そして、注目度推定装置は、使用判定手段によって、映像動き量が予め定めた動き量よりも多い場合に、視線変動量を身体特徴量として使用しない旨を判定する。
【0026】
そして、使用判定手段において、視線変動量を身体特徴量として使用しない旨が判定された場合、注目度推定装置は、注目度特定手段によって、学習データに代えて第2学習データに基づいて、視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。
【0027】
また、請求項7に記載の注目度推定装置は、請求項1から請求項6のいずれか一項に記載の注目度推定装置において、前記統計特徴量生成手段が、前記映像区間全体における前記身体特徴量の平均値および標準偏差であるグローバル特徴と、前記身体統計量を予め定めたビン幅でヒストグラム化した局所ヒストグラム特徴とを前記統計特徴量として生成することを特徴とする。
【0028】
かかる構成において、注目度推定装置は、統計特徴量生成手段によって、統計特徴量をグローバル特徴と局所ヒストグラム特徴とで表すことで、映像区間の長さによらず、固定次元の特徴量を生成することができる。
【0029】
また、請求項8に記載の注目度推定装置は、請求項7に記載の注目度推定装置において、前記統計特徴量生成手段が、前記映像区間を予め定めた時間区間に分割した区間ごとに、さらに前記局所ヒストグラム特徴を生成することを特徴とする。
【0030】
かかる構成において、注目度推定装置は、統計特徴量生成手段によって、映像区間を細分化して、局所ヒストグラム特徴を生成することで、局所的に発生する特徴を注目度の推定に反映させることができる。
【0031】
さらに、請求項9に記載の注目度推定装置は、請求項7または請求項8に記載の注目度推定装置において、前記統計特徴量生成手段が、前記注目度を推定する対象となる映像区間の統計特徴量に、当該映像区間の前後の映像区間の局所ヒストグラム特徴を付加して当該注目度を推定する映像区間の統計特徴量とすることを特徴とする。
【0032】
かかる構成において、注目度推定装置は、統計特徴量生成手段によって、注目度を推定する映像区間の統計特徴量に、当該映像区間の前後の映像区間の局所ヒストグラム特徴を付加することで、注目度を推定する映像区間の統計特徴量に、映像区間を跨って発生する特徴が付加されることになる。
この映像区間を跨って発生する特徴とは、例えば、映像コンテンツ内で、ある映像区間から人物が注目する映像区間に移った場合や、注目している映像区間が終了し、他の映像区間に移った場合等における特徴である。
【0033】
また、請求項10に記載に注目度推定プログラムは、モーションキャプチャで計測された、映像コンテンツを視聴している人物を撮影した画像から当該人物の骨格位置を検出するモーションキャプチャで計測して得られる骨格位置情報と、前記人物をカメラで撮影したカメラ映像とから、前記映像コンテンツの予め定めた映像区間において、前記人物の注目の度合いを示す注目度を推定するために、コンピュータを、身体動作量計測手段、視線変動量計測手段、統計特徴量生成手段、注目度特定手段、として機能させる構成とした。
【0034】
かかる構成において、注目度推定プログラムは、身体動作量計測手段によって、モーションキャプチャで計測された人物の骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置における単位時間当たりの変化量である身体動作量を身体特徴量の1つとして計測する。
また、注目度推定プログラムは、視線変動量計測手段によって、カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を身体特徴量の1つとして計測する。
【0035】
そして、注目度推定プログラムは、統計特徴量生成手段によって、身体特徴量のそれぞれについて、映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する。
【0036】
そして、注目度推定プログラムは、注目度特定手段によって、学習データ記憶手段に記憶している、統計特徴量と注目度との対応関係を予め学習により求めた学習データに基づいて、統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。
【発明の効果】
【0037】
本発明は、以下に示す優れた効果を奏するものである。
請求項1,10に記載の発明によれば、人物の注目度を推定するための身体特徴量である身体動作量や視線変動量を、画像処理によって抽出することができるため、接触型デバイスの装着や、赤外線光の照射等、人物に負荷をかけることなく注目度を推定することができる。
【0038】
請求項2に記載の発明によれば、人物の注目度を推定するための身体特徴量として、さらに、瞬目間隔時間を加えることで、注目度の推定精度を高めることができる。また、本発明は、カメラで撮影した画像から瞬目間隔時間を求めることができるため、人物に負荷をかけることなく注目度を推定することができる。
【0039】
請求項3に記載の発明によれば、映像コンテンツを視聴する人物の頭部を、カメラ画像上において垂直に補正することができるため、カメラ画像上において、目の領域の検出等、人物の頭部の特徴量を検出する際の精度を高めることができ、より正確に注目度を推定することができる。
【0040】
請求項4に記載の発明によれば、字幕の情報量が多くなったり、映像の動きが大きくなった場合、視線変動量の注目度を推定する際の指標としての意味が逆に作用するため、注目度を推定する際の特徴量から視線変動量を除外することで、精度よく注目度を推定することができる。
【0041】
請求項5に記載の発明によれば、字幕の情報量が多くなった場合、視線変動量の注目度を推定する際の指標としての意味が逆に作用するため、注目度を推定する際の特徴量から視線変動量を除外することで、精度よく注目度を推定することができる。
請求項6に記載の発明によれば、映像の動きが大きくなった場合、視線変動量の注目度を推定する際の指標としての意味が逆に作用するため、注目度を推定する際の特徴量から視線変動量を除外することで、精度よく注目度を推定することができる。
【0042】
請求項7に記載の発明によれば、身体特徴量の平均値および標準偏差であるグローバル特徴と、身体統計量を予め定めたビン幅でヒストグラム化した局所ヒストグラム特徴とを、統計特徴量とすることで、固定次元で特徴量を表すことができる。これによって、映像区間の時間長が可変であっても、同一のアルゴリズムで注目度を推定することができる。
【0043】
請求項8に記載の発明によれば、映像区間を時間方向に区分した特徴量を統計特徴量に付加することで、統計特徴量は、映像区間において、時間方向に局所的な特徴を残した特徴量となる。これによって、映像区間内のある区間における注目の度合いを特徴として加味することができ、精度よく注目度を推定することができる。
【0044】
請求項9に記載の発明によれば、映像区間の前後の映像区間の局所ヒストグラム特徴を付加して統計特徴量とすることで、統計特徴量は、映像区間を跨った特徴量となる。これによって、映像区間の切り替わりで人物の注目状態に変化が起こる等の特徴を、注目度の推定に反映させることができる。
【図面の簡単な説明】
【0045】
【図1】本発明の実施形態に係る注目度推定装置を含んだ注目度測定システムの構成を示す構成図である。
【図2】本発明の実施形態に係る注目度推定装置の構成を示すブロック図である。
【図3】本発明の実施形態に係る注目度推定装置に入力される骨格位置情報を説明するための説明図である。
【図4】本発明の実施形態に係る注目度推定装置の傾き補正手段が行う傾き補正の処理内容を説明するための説明図である。
【図5】本発明の実施形態に係る注目度推定装置の瞬目間隔計測手段において、瞬目状態を判定する際に用いる特徴量を説明するための説明図である。
【図6】本発明の実施形態に係る注目度推定装置の視線変動量計測手段における視線変動量を計測する手法を説明するための説明図である。
【図7】本発明の実施形態に係る注目度推定装置の統計特徴量生成手段が生成する局所ヒストグラム特徴のヒストグラムを説明するための説明図である。
【図8】本発明の実施形態に係る注目度推定装置の統計特徴量生成手段が生成する特徴量(特徴量記述子)の内容を説明するための構造図である。
【図9】本発明の実施形態に係る注目度推定装置の動作を説明するためのフローチャートである。
【図10】本発明の実施形態に係る注目度推定装置の統計特徴量生成手段におけるある映像区間(トピック)内の特徴量(特徴量記述子群)を説明するための説明図である。
【図11】本発明の他の実施形態に係る注目度推定装置の全体構成を示すブロック構成図である。
【図12】本発明の実施形態に係る注目度推定装置の学習データ記憶手段に記憶させる学習データを生成する注目度学習装置の構成を示すブロック図である。
【発明を実施するための形態】
【0046】
以下、本発明の実施形態について図面を参照して説明する。
[注目度推定システムの構成]
最初に、図1を参照して、本発明の実施形態に係る注目度推定装置を含んだ注目度測定システムSの構成について説明する。
注目度測定システムSは、映像コンテンツを視聴している人物の当該映像コンテンツに対する注目度を測定するものである。
この注目度測定システムSは、モニタMと、モーションキャプチャMcと、カメラCと、注目度推定装置1と、を備えている。
【0047】
モニタMは、テレビ放送として放送される番組(映像コンテンツ)や、記録媒体(例えば、DVD等)に記録された映像コンテンツを表示するものである。このモニタMは、テレビ受像機等の一般的な表示装置であって、人物Hに対して映像コンテンツを提示するものである。
【0048】
モーションキャプチャMcは、映像コンテンツを視聴している人物Hの骨格の位置を計測するものであって、一般的な姿勢検出装置である。このモーションキャプチャMcは、人物Hを撮影する方向を向けて、モニタMの近傍に配置される。
このモーションキャプチャMcは、奥行きカメラ(不図示)で撮影した距離画像によって人物Hまでの距離を計測するとともに、人物Hの3次元空間上の骨格位置(例えば、頭部位置、頸部位置等)を検出し、その骨格位置の3次元座標を2次元座標に投影することで骨格位置情報を生成する。このモーションキャプチャMcで計測された骨格位置情報は、注目度推定装置1に出力される。
【0049】
カメラCは、映像コンテンツを視聴している人物Hを撮影するもので、一般的な撮像装置である。このカメラCは、人物Hを撮影する方向に向けて、モニタMの近傍に配置される。このカメラCが撮影したカメラ映像は、注目度推定装置1に出力される。
なお、カメラCとモーションキャプチャMcとが人物Hを撮影する画角は、ほぼ等しくしておく。もちろん、モーションキャプチャMcから、人物Hを撮影した映像を取得可能であれば、モーションキャプチャMcから、カメラ映像を出力することとしてもよい。
【0050】
注目度推定装置1は、モーションキャプチャMcで計測された、映像コンテンツを視聴している人物Hの骨格位置情報と、カメラCで撮影された、人物Hを撮影したカメラ映像とから、映像コンテンツの予め定めた映像区間(トピック)において、人物Hの注目の度合いを示す注目度を推定するものである。
【0051】
一般に、人物Hが映像コンテンツを注目(集中)して視聴している場合、身体動作が少なくなり、瞬き間隔(瞬目間隔時間)が長くなり、視線の動き(視線変動)が小さくなる等の傾向がある。
そこで、注目度推定装置1は、これらの変化を、モーションキャプチャMcで計測された骨格位置情報と、カメラCで撮影されたカメラ映像とに基づいて検出することで、人物Hの映像コンテンツに対する注目度を推定する。すなわち、注目度推定装置1は、骨格位置情報から、例えば、人物Hの頭部位置を特定し、その動きによって身体動作の変化を検出し、カメラ映像から、人物Hの瞬き間隔や視線の動きの変化を検出することで、注目度を推定する。
このように、注目度測定システムSを構成することで、接触型デバイスの装着や、赤外線光の照射等、人物Hに負荷を与えることなく、注目度を推定することができる。
以下、注目度推定装置1の構成および動作について説明する。
【0052】
[注目度推定装置の構成]
まず、図2を参照(適宜図1参照)して、本発明の実施形態に係る注目度推定装置1の構成について説明する。ここでは、注目度推定装置1は、映像コンテンツを時間方向に区切った映像区間を示す情報として、映像区間情報を入力する。そして、注目度推定装置1は、この映像区間単位で注目度を推定する。また、映像区間情報は、図示を省略した入力手段を介して入力することとする。
【0053】
なお、この映像区間情報は、注目度を推定したい区間を特定する時間情報(フレーム番号等)であって、映像内のトピック(例えば、ニュース番組における「政治」、「経済」、「スポーツ」、「芸能」等)ごとの切り替わりを示す情報である。また、この映像区間情報は、図示を省略したトピック検出装置を介して出力される、映像コンテンツからトピックを検出した情報としてもよい。
また、ここでは、時間情報以外に、トピックを識別するための識別子(ID番号)を、付加しておくこととする。もちろん、この映像区間は、映像コンテンツ全体を示すものであってもよいし、映像コンテンツの一部を示すものであってもよい。
【0054】
図2に示すように、注目度推定装置1は、身体特徴量抽出手段10と、視線変動量使用判定手段20と、統計特徴量生成手段30と、学習データ記憶手段40と、注目度特定手段50と、を備えている。
【0055】
身体特徴量抽出手段10は、モーションキャプチャMcから入力される骨格位置情報と、カメラCから入力されるカメラ映像とから、映像コンテンツを視聴している人物の身体特徴量を抽出するものである。
なお、モーションキャプチャMcから入力される骨格位置情報は、例えば、図3(a)に示すように、モーションキャプチャMcにおいて人物Hが撮影されたとき、図3(b)に示すように、人物Hの骨格の位置である頭部位置Pや頸部位置Pの2次元画像上の座標である。
ここでは、身体特徴量抽出手段10は、身体動作量計測手段11と、傾き補正手段12と、瞬目間隔計測手段13と、視線変動量計測手段14と、を備えている。
【0056】
身体動作量計測手段11は、モーションキャプチャMcから入力される骨格位置情報を時系列に入力し、骨格位置情報の予め定めた骨格位置における単位時間(例えば、モーションキャプチャMcのフレーム単位)当たりの変化量である身体動作量を計測するものである。
一般に、映像コンテンツを視聴している人物Hが注目状態に入ったとき、身体の動きは少なくなる。そこで、身体動作量計測手段11は、身体が動く量(身体動作量)を、注目度の推定の指標となる特徴量として抽出(計測)する。
【0057】
ここでは、身体動作量計測手段11は、骨格位置情報として人物Hの頭部位置を利用することとする。もちろん、動きを計測することができる部位であれば、他の骨格位置であっても構わない。
例えば、tpを映像区間(トピック)のID番号、P(t)を時刻tフレームにおける2次元座標上での水平方向(x軸方向)の頭部位置(x座標)、P(t)を同じく垂直方向(y軸方向)の頭部位置(y座標)としたとき、身体動作量計測手段11は、以下の式(1)により、単位時間あたりの身体動作量Ktp(t)を計測する。
【0058】
【数1】

【0059】
この身体動作量計測手段11で計測された身体動作量は、映像区間(トピック)ごとに、統計特徴量生成手段30に出力される。
【0060】
傾き補正手段12は、カメラCから入力されるカメラ映像を、カメラCのフレームごとに人物Hの顔がフレーム画像(カメラ画像)上で垂直になるように補正するものである。ここでは、傾き補正手段12は、モーションキャプチャMcから入力される骨格位置情報のうちで、頸部位置が頭部位置の直下になるように、フレーム画像の画像中心を中心として、フレーム画像を回転処理する。
【0061】
ここで、P(t),P(t)をそれぞれ時刻tフレームにおける頭部位置のx,y座標とし、P(t),P(t)をそれぞれ時刻tフレームにおける頸部位置のx,y座標としたとき、傾き補正手段12は、首の傾きθを、以下の式(2)で算出する。
【0062】
【数2】

【0063】
そして、傾き補正手段12は、フレーム画像の画像中心を(cx,cy)としたとき、首の傾きθを利用して、以下の式(3)により、フレーム画像の任意の点(x,y)を、(x′,y′)に変換することで、傾きを補正したフレーム画像を生成する。
【0064】
【数3】

【0065】
例えば、図4(a)の(a−1)に示すように、人物Hが、フレーム画像上で斜め左に傾いている場合、頸部位置Pが頭部位置Pの直下になるように、フレーム画像の画像中心を中心として、その傾き分、フレーム画像を右回転させる(a−2)。また、例えば、図4(b)の(b−1)に示すように、人物Hが、フレーム画像上で斜め右に傾いている場合、頸部位置Pが頭部位置Pの直下になるように、フレーム画像の画像中心を中心として、その傾き分、フレーム画像を左回転させる(b−2)。
【0066】
これによって、補正された画像(a−2)(b−2)において、人物Hの顔が直立した状態となり、後記する瞬目間隔計測手段13および視線変動量計測手段14における瞬目や、目の領域の判定を行う精度を高めることができる。
この傾き補正手段12で補正されたフレーム画像(カメラ画像)は、瞬目間隔計測手段13および視線変動量計測手段14に出力される。
【0067】
瞬目間隔計測手段13は、傾き補正手段12で補正された、カメラCから時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて、人物Hの瞬きを検出し、当該瞬きの間隔を瞬目間隔時間として計測するものである。
【0068】
ここでは、瞬目間隔計測手段13は、まず、カメラ画像から顔領域を検出する。この顔領域の検出は、一般的な手法を用いることができる。例えば、瞬目間隔計測手段13は、OpenCVライブラリなどにも用いられているビオラ(Viola)とジョーンズ(Jones)が提案した顔検出手法を用いることができる。この顔検出手法は、白と黒で表された矩形内の輝度値の差で表された特徴量(Haar−like特徴量)を用いて、予め学習した複数のカスケード型の識別器によって顔の識別を行うものである。
そして、瞬目間隔計測手段13は、当該顔領域における予め定めた画像特徴となる特徴点を時系列に追跡した複数の特徴点軌跡と、予め瞬目動作の特徴点軌跡として学習した学習データとに基づいて、瞬目状態を検出し、その間隔時間を計測する。
【0069】
具体的には、瞬目間隔計測手段13は、時系列に変化する顔領域ごとに、画像の特徴となる点(特徴点)、例えば、隣接画素に対する画素値あるいは輝度値の変化によって特徴点を検出し、特徴量が類似する特徴点をフレームごとにマッチングすることで、特徴点を時間方向に追跡する。この特徴点の検出、追跡は、例えば、KLT法、Mean Shift法等を用いることができる。
【0070】
そして、瞬目間隔計測手段13は、この検出、追跡によって得られた特徴点軌跡を1つの単語とみなしたBag−of−words手法を用いて瞬目動作を識別する。
このBag−of−words手法は、単語(ここでは、特徴点軌跡)をその特徴に基づいて分類した辞書であるコードブックに基づいて、多次元の特徴を予め定めたk種類のクラスタで代表させ、クラスタの頻度ヒストグラムで分類処理を行う手法である。
ここでは、瞬目間隔計測手段13は、1つの特徴点軌跡から1つのヒストグラム(軌跡ヒストグラム)を生成し、ある時点において存在する複数の軌跡ヒストグラムを、Bag−of−words手法における複数の単語とする。
【0071】
なお、この軌跡ヒストグラムは、単位時間あたりの個々の軌跡(ベクトル)の向きと長さによって定めた固定次元のヒストグラムとする。例えば、ここでは、軌跡の向きを45度単位の8方向に区分し、軌跡の長さを、“0”を含む4つに区分した。なお、この軌跡の長さの区分は、事前の学習フェーズで計測した、軌跡の長さの平均値と標準偏差とする。
【0072】
例えば、事前に計測した映像コンテンツにおいて、すべての特徴点軌跡の個々のベクトルの長さ(m:i=0〜N〔Nは、映像コンテンツ内でのベクトル総数〕)の平均値μ、その標準偏差σを、以下の式(4)により予め求めておき、軌跡の長さの区分を“0”、(0,μ−σ/2]、(μ−σ/2,μ+σ/2]、(μ+σ/2,∞)の4つとする。なお、(a,b)は、値がaより大きくbより小さい区分を示し、(a,b]は、値がaより大きくb以下の区分を示す。
【0073】
【数4】

【0074】
すなわち、瞬目間隔計測手段13は、図5(a)に示すように、1つの特徴点軌跡について、個々の軌跡(ベクトル)の長さLと向きθから、図5(b)に示すように、向きを8分割、長さを4分割した区分で、ビン(bin)数の合計が25(8〔方向〕×3〔長さ〕+1〔長さ“0”〕)のヒストグラム(軌跡ヒストグラム)を生成する。
【0075】
そして、瞬目間隔計測手段13は、生成した軌跡ヒストグラムから、予め学習によって求めた2値SVM(サポートベクタマシン)識別器により、現時点における特徴点軌跡の集合が瞬目状態を示す軌跡であるか否かを判定する。なお、この2値SVM識別器は、事前(学習フェーズ)に特徴点の軌跡ヒストグラムをk−means法(k平均法)によって、予め定めたk個(例えば、100個)の代表ヒストグラムに量子化することでk個のコードブックを生成し、瞬目状態であるか否か予め学習しておくものとする。この2値SVM識別器は、軌跡ヒストグラムが入力された際に、その軌跡ヒストグラムが瞬目を示しているか否かの結果を返す瞬目検出器(瞬目検出関数)であって、図示を省略した記憶手段に予め記憶しておく。
【0076】
そして、瞬目間隔計測手段13は、瞬目と判定した時刻(瞬目と判定した時点のフレーム)の時間間隔(瞬目間隔時間)を計測する。
すなわち、tpをトピックのID番号、nを当該トピック内での瞬目を識別するID番号、t(n)をn番目の瞬目が検出された時刻(フレーム番号)としたとき、瞬目間隔計測手段13は、以下の式(5)により、瞬目が検出された時間間隔(瞬目間隔時間)Btp(n)を計測する。
【0077】
【数5】

【0078】
この瞬目間隔計測手段13で計測された瞬目間隔時間は、映像区間(トピック)ごとに、統計特徴量生成手段30に出力される。
【0079】
視線変動量計測手段14は、傾き補正手段12で補正された、カメラCから時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて、人物Hの目領域を検出し、当該目領域内の左右領域の輝度比から、単位時間当たりの視線変動量を計測するものである。
【0080】
ここでは、視線変動量計測手段14は、まず、カメラ画像から目領域を検出する。この目領域の検出は、瞬目間隔計測手段13と同様に、一般的なViolaとJonesの手法を用いることができる。
すなわち、視線変動量計測手段14は、目の白黒領域を矩形内の輝度値の差で表したHaar−like特徴量を用いて、予め学習した複数のカスケード型の識別器によって目の領域を検出する。なお、視線変動量計測手段14は、瞬目間隔計測手段13と同様に、カメラ画像から、一旦、顔領域を検出し、その顔領域内で目の領域を検出することとしてもよい。
【0081】
そして、視線変動量計測手段14は、検出した目領域を水平方向の中心で左右に区分し、左領域および右領域のそれぞれの輝度計測領域について画素の輝度値を合計する。
すなわち、視線変動量計測手段14は、図6(a)に示すように、目領域を検出後、図6(b)に示すように、目領域の水平方向の中心で左右に区分した右領域Eと左領域Eとにおいて、画素の輝度値を合計する。
【0082】
そして、視線変動量計測手段14は、この右領域Eと左領域Eとの輝度値の比で視線方向を特定する。
例えば、図6(b)におけるそれぞれの領域(E,E)の画素数をN、右領域E内の任意の画素iにおける輝度値をI(i)、左領域E内の任意の画素iにおける輝度値をI(i)としたとき、視線変動量計測手段14は、ある時刻tフレームにおける視線方向dを、以下の式(6)により算出する。
【0083】
【数6】

【0084】
この式(6)において、輝度値が大きいほど明るい画素であるとすると、人物HがカメラCに向かって右方向を向き、右領域Eにおける角膜(黒目)の割合が多くなるとdは増加する。また、人物HがカメラCに向かって左方向を向き、左領域Eにおける角膜の割合が多くなるとdは減少する。
なお、視線変動量計測手段14は、人物Hの目領域として、左右の2つの目領域を検出した場合、左右の目領域において、それぞれ前記式(6)で視線方向を算出し、その平均をとることとする。
【0085】
そして、視線変動量計測手段14は、前記式(6)で算出された視線方向の時間方向の差分を求めることで、時系列に視線変動量を算出する。
すなわち、tpをトピックのID番号、tを視線方向を計測した時刻(フレーム番号)としたとき、視線変動量計測手段14は、以下の式(7)により、視線変動量Etp(t)を計測する。なお、|a|は、aの絶対値を示す。
【0086】
【数7】

【0087】
前記式(6)における視線方向dは、視線方向推定としては十分な精度は得られないが、前記式(7)のように、差分値を算出することで、視線の変動量を精度よく求めることができる。
この視線変動量計測手段14で計測された視線変動量は、映像区間(トピック)ごとに、統計特徴量生成手段30に出力される。
【0088】
視線変動量使用判定手段20は、身体特徴量抽出手段10で抽出された視線変動量を後記する統計特徴量生成手段30で使用するか否かを判定するものである。ここでは、視線変動量使用判定手段20は、字幕情報量計測手段21と、映像動き量計測手段22と、使用判定手段23と、を備えている。
【0089】
通常、映像内に字幕が多く出現し、人物Hがその字幕を注目した場合、人物Hは字幕を読むために必然的に視線変動量は多くなる。また、映像に動きが多い場合、人物Hはその動きを目で追うために必然的に視線変動量は多くなる。
すなわち、人物Hが字幕を注目した場合、あるいは、人物Hが映像の動きに注目した場合、人物Hが映像に注目すると視線変動量が小さくなるという前提と逆の方向に作用することになる。
そこで、ここでは、字幕情報量や映像動き量を、注目度を推定する際に視線変動量を使用するか否かの判定の指標として検出する。
【0090】
字幕情報量計測手段21は、入力される映像コンテンツにおいて、指定された映像区間(トピック)ごとに、字幕の情報量(字幕情報量)を計測するものである。ここでは、字幕情報量計測手段21は、トピック内に含まれる字幕を含んだフレーム数の割合を字幕情報量とする。
【0091】
具体的には、字幕情報量計測手段21は、入力された映像コンテンツをフレーム画像単位で、2次微分であるラプラシアン画像に変換する。一般に、映像内における字幕領域は、他の領域に比べてコントラストが高く、エッジ特徴が表れやすいためである。
ここで、フレーム画像の画素値をI(x,y)、変換後のラプラシアン画像の画素値をI′(x,y)としたとき、字幕情報量計測手段21は、以下の式(8)の演算により、ラプラシアン画像を生成する。
【0092】
【数8】

【0093】
このラプラシアン画像I′(x,y)の各画素は、例えば、画素の階調が8階調であれば、“0”〜“255”の値を持つ。ここでは、その画素値ごと(bin数256)に画素数を累計したヒストグラム(エッジヒストグラム)を、当該フレーム画像における字幕特徴量とする。
そして、字幕情報量計測手段21は、エッジヒストグラムを字幕特徴量として予め学習によって求めた識別器(例えば、2値SVM識別器)により、フレーム画像ごとに字幕の有無を検出する。あるいは、簡易に、フレーム画像において、所定輝度値以上の割合が、予め定めた割合よりも多いか否かによって、字幕の有無を検出することとしてもよい。
【0094】
このように、字幕情報量計測手段21は、フレーム画像において字幕を検出し、字幕を検出したフレーム数と、トピックの時間長(フレーム数)との比によって、字幕情報量を算出する。
すなわち、トピックtp(トピックのID番号)において、字幕を検出したフレーム数をN(tp)、トピックの時間長(トピックの総フレーム数)をT(tp)としたき、字幕情報量計測手段21は、以下の式(9)により字幕情報量Jtpを算出する。
【0095】
【数9】

【0096】
この字幕情報量計測手段21で計測された字幕特徴量は、使用判定手段23に出力される。
【0097】
映像動き量計測手段22は、入力される映像コンテンツにおいて、指定された映像区間(トピック)ごとに、映像内の動き量(映像動き量)を計測するものである。ここでは、映像動き量計測手段22は、トピック内のフレームごとに、差分をとることで映像内の動きを検出し、トピック内に含まれる動きの大きいフレーム数の割合を映像動き量とする。
例えば、映像動き量計測手段22は、入力される映像コンテンツのフレーム画像ごとに、予め定めた大きさのブロック単位で、1フレーム前に入力されたフレーム画像の同一のブロック間で差分をとり、その差が予め定めた量よりも大きい場合に、当該ブロックにおいて動きがあったことを検出し、動きのあったブロックの数が予め定めた数(あるいは割合)よりも大きい場合に当該フレーム画像において動きが大きいと判定する。
【0098】
そして、映像動き量計測手段22は、字幕情報量計測手段21と同様に、動きが大きいと判定したフレーム数と、トピックの時間長(フレーム数)との比によって、映像動き量を算出する。
この映像動き量計測手段22で計測された映像動き量は、使用判定手段23に出力される。
【0099】
使用判定手段23は、字幕情報量計測手段21で計測された字幕情報量と、映像動き量計測手段22で計測された映像動き量とに基づいて、指定された映像区間(トピック)において、視線変動量を、注目度を推定する際の特徴量とするか否かを判定するものである。
【0100】
ここでは、使用判定手段23は、字幕情報量が予め定めた量よりも多い、または、映像動き量が予め定めた量よりも多い場合に、視線変動量を、注目度を推定する際の特徴量としない旨の判定を行う。なお、それ以外の場合、使用判定手段23は、視線変動量を、注目度を推定する際の特徴量とする旨の判定を行う。
【0101】
なお、字幕情報量や映像動き量が多いか否かを判定する予め定めた量は、字幕情報量計測手段21や映像動き量計測手段22において、映像コンテンツの全トピックで字幕情報量と映像動き量とを計測した後、統計量によって定めることとしてもよい。
例えば、使用判定手段23は、全トピックの字幕情報量Jtpの平均μtpと標準偏差σtpとを算出し、μtp+σtpを超える場合に、字幕情報量が多いと判定する。また、映像動き量についても同様である。
【0102】
なお、ここでは、使用判定手段23は、字幕情報量と映像動き量とをそれぞれ個別に判定したが、字幕情報量と映像動き量とを加算(例えば、重み付き加算)した量に対して判定を行うこととしてもよい。
この使用判定手段23におけるトピックごとの視線変動量の使用判定結果は、統計特徴量生成手段30および注目度特定手段50に出力される。
【0103】
統計特徴量生成手段30は、身体特徴量抽出手段10で抽出された各特徴量(身体動作量、瞬目間隔時間、視線変動量)を統計し、映像区間(トピック)における固定次元の特徴量を生成するものである。なお、統計特徴量生成手段30は、視線変動量使用判定手段20から、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、視線変動量を除いた特徴量で固定次元の特徴量を生成する。
ここでは、統計特徴量生成手段30は、グローバル特徴生成手段31と、局所ヒストグラム特徴生成手段32と、を備えている。
【0104】
グローバル特徴生成手段31は、身体特徴量抽出手段10で抽出された各特徴量(身体動作量、瞬目間隔時間、視線変動量)から、指定された映像区間(トピック)内におけるグローバル(大局的)な統計特徴量(特徴量記述子)を生成するものである。
すなわち、グローバル特徴生成手段31は、あるトピックにおける人物Hの大まかな特徴をグローバル特徴として生成する。
【0105】
ここでは、グローバル特徴生成手段31は、入力されたトピックごとに、身体動作量の平均値μKtpおよび標準偏差σKtp、瞬目間隔時間の平均値μBtpおよび標準偏差σBtp、ならびに、視線変動量の平均値μEtpおよび標準偏差σEtpを算出し、固定次元の特徴量記述子とする。
これによって、3種類の特徴量を、トピックの時間長によらず、固定の6次元の特徴量(特徴量記述子)として表すことができる。
【0106】
なお、グローバル特徴生成手段31は、視線変動量使用判定手段20から、あるトピックtpにおいて、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、視線変動量の平均値および標準偏差を算出せず、2種類の特徴量(身体動作量、瞬目間隔時間)から、それぞれの平均値および標準偏差である4次元の特徴量(特徴量記述子)を生成する。
このように生成されたグローバル特徴(特徴量記述子)は、トピックと対応付けて注目度特定手段50に出力される。
【0107】
局所ヒストグラム特徴生成手段32は、身体特徴量抽出手段10で抽出された各特徴量(身体動作量、瞬目間隔時間、視線変動量)から、指定された映像区間(トピック)内における局所的な統計特徴量(特徴量記述子)を生成するものである。
すなわち、局所ヒストグラム特徴生成手段32は、あるトピックにおける人物Hのより細かい特徴量を算出し、ヒストグラム(局所ヒストグラム)化するものである。
【0108】
ここでは、局所ヒストグラム特徴生成手段32は、特徴の分布が特定のビン(bin)に集中しないように、ヒストグラムの各ビンのしきい値を、映像コンテンツ全体の特徴量の平均および標準偏差から求めた値とする。
具体的には、局所ヒストグラム特徴生成手段32は、映像コンテンツ全体で検出された身体動作量の平均値をμ、その標準偏差をσとし、8つのビンでヒストグラムを生成する。その際の各ビンのしきい値は、図7(a)に示すように、(−∞,μ−2σ),[μ−2σ,μ−σ),[μ−σ,μ−1/2σ),[μ−1/2σ,μ),[μ,μ+1/2σ),[μ+1/2σ,μ+σ),[μ+σ,μ+2σ),[μ+2σ,∞)とする。なお、(a,b)は、値がaより大きくbより小さい区分を示し、(a,b]は、値がaより大きくb以下の区分を示す。
【0109】
そして、局所ヒストグラム特徴生成手段32は、身体特徴量抽出手段10で抽出された、指定された映像区間(トピック)内における身体動作量を、図7(a)で示したビン(区間0〜7)ごとに累計して、図7(b)に示すようなヒストグラム(局所ヒストグラム特徴)を生成する。
なお、瞬目間隔時間および視線変動量についても、身体動作量と同様に、映像コンテンツ全体で検出されたそれぞれの特徴量の平均値と標準偏差でビンのしきい値を求めてヒストグラムを生成する。
【0110】
このように、局所ヒストグラム特徴生成手段32は、映像コンテンツ全体で検出された特徴量の平均値と標準偏差でビンのしきい値を定めることで、極度に偏ったヒストグラムの生成を避けることができる。
これによって、3種類の特徴量を、トピックの時間長によらず、固定の24次元の特徴量(特徴量記述子)として表すことができる。
【0111】
なお、局所ヒストグラム特徴生成手段32は、視線変動量使用判定手段20から、あるトピックtpにおいて、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、視線変動量については、局所ヒストグラムを生成せず、2種類の特徴量(身体動作量、瞬目間隔時間)から、それぞれの局所ヒストグラムを生成し、16次元の特徴量(特徴量記述子)を生成する。
このように算出された局所ヒストグラム特徴(特徴量記述子)は、トピックと対応付けて注目度特定手段50に出力される。
【0112】
すなわち、統計特徴量生成手段30で生成される統計特徴量は、図8に示すように、グローバル特徴である身体動作量、瞬目間隔時間および視線変動量のそれぞれの平均値および標準偏差の6次元の特徴量記述子と、局所ヒストグラム特徴である身体動作量、瞬目間隔時間および視線変動量の各ビン(区間0〜7)の度数の24次元の特徴量記述子とからなる30次元の固定次元の特徴量記述子である。
【0113】
なお、視線変動量使用判定手段20から、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、統計特徴量生成手段30で生成される統計特徴量は、図8に示した特徴量記述子から、視線変動量の特徴量を除いた20次元の特徴量記述子となる。
【0114】
学習データ記憶手段(第2学習データ記憶手段)40は、特徴量(グローバル特徴、局所ヒストグラム特徴)と、注目度との対応関係を予め学習した学習データを記憶するものであって、ハードディスク等の一般的な記憶装置である。
この学習データ記憶手段40は、予め第1学習データD1と第2学習データD2の2つの学習データを記憶しておく。なお、第1学習データD1と第2学習データD2とを異なる記憶手段に記憶することとしてもよい。
【0115】
第1学習データD1は、学習フェーズにおいて、予め人物が映像コンテンツ(トピック)を視聴した際の特徴量(グローバル特徴、局所ヒストグラム特徴)を学習特徴量とし、そのときの注目度を、主観評価値(例えば、非注目から注目までを5段階で評価した値)とすることで学習したSVM推定器(識別関数)である。
このSVM推定器は、例えば、出力値(注目度)が連続値をとる分類器(SVM回帰推定器)とする。もちろん、注目度を2クラス(注目、非注目)で出力させたい場合、2クラス分類器であってもよいし、注目度を多クラス(多値)で出力させたい場合、多クラス分類器であっても構わない。
【0116】
第2学習データD2は、第1学習データD1と同様に学習したSVM推定器(識別関数)である。ただし、第1学習データD1が特徴量に視線変動量を含んでいるのに対し、第2学習データD2は、特徴量に視線変動量を含まずに学習したSVM推定器(識別関数)である。
【0117】
このような学習データは、例えば、図12に示すような、注目度学習装置2を用いて生成することができる。
この注目度学習装置2は、注目度推定装置1において、注目度特定手段50を学習手段60に替え、視線変動量使用判定手段20を除いて構成したもので、他の構成は同一である。
【0118】
すなわち、注目度学習装置2の学習手段60は、予め人物が映像コンテンツ(トピック)を視聴した際の特徴量(グローバル特徴、局所ヒストグラム特徴)を学習特徴量とし、そのときの注目度を、主観評価値(例えば、非注目から注目までを5段階で評価した値)として、図示を省略した入力手段を介して入力されることで、SVM推定器(識別関数)を生成し、学習データ記憶手段40に記憶する。
【0119】
このとき、注目度学習装置2は、視線変動量を特徴量として用いた第1学習データD1と、視線変動量を特徴量として用いない第2学習データD2とを生成する。
このように、注目度学習装置2によって、予め学習によって生成された第1学習データD1と第2学習データD2とを、注目度推定装置1の学習データ記憶手段40に記憶しておく。
図2に戻って、注目度推定装置1の構成について説明を続ける。
【0120】
注目度特定手段50は、学習データ記憶手段40に記憶されている学習データに基づいて、統計特徴量生成手段30で生成された特徴量(特徴量記述子)に対応する注目度を、指定された映像区間に対する注目度として特定するものである。
すなわち、注目度特定手段50は、学習データ記憶手段40に記憶されている学習データ(SVM推定器:識別関数)を用い、統計特徴量生成手段30で生成された特徴量記述子を入力値として注目度を演算する。
【0121】
なお、注目度特定手段50は、視線変動量使用判定手段20から、あるトピックtp(映像区間)において、視線変動量を特徴量として使用する旨の判定結果が入力された場合、学習データ記憶手段40に記憶されている第1学習データD1を用いて注目度を演算する。
【0122】
一方、注目度特定手段50は、視線変動量使用判定手段20から、あるトピックtp(映像区間)において、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、学習データ記憶手段40に記憶されている第2学習データD2を用いて注目度を演算する。
【0123】
このようにトピック(映像区間)ごとに特定された注目度は、注目度推定装置1の推定結果として出力される。なお、注目度特定手段50は、図示を省略した通信制御部を介して、ネットワーク経由で、映像コンテンツ(トピック)の識別情報と対応付けて、映像コンテンツの送信元に注目度を送信することとしてもよい。
【0124】
以上説明したように、注目度推定装置1を構成することで、注目度推定装置1は、モーションキャプチャMcから入力される骨格位置情報と、カメラCから入力されるカメラ映像とから、接触型デバイスの装着や、赤外線光の照射等、人物に負荷を与えることなく、映像コンテンツ(トピック)の注目度を推定することができる。
なお、注目度推定装置1は、一般的なコンピュータを前記した各手段として機能させるプログラム(注目度推定プログラム)により動作させることができる。
【0125】
[注目度推定装置の動作]
次に、図9を参照(適宜図1,図2参照)して、本発明の実施形態に係る注目度推定装置1の動作について説明する。なお、ここでは、予め学習データ記憶手段40に、学習データ(第1学習データD1、第2学習データD2)が記憶されているものとする。
【0126】
まず、注目度推定装置1は、身体動作量計測手段11によって、モーションキャプチャMcから入力される骨格位置情報を時系列に入力し、人物Hの予め定めた骨格位置における単位時間(例えば、フレーム)当たりの身体動作量を計測する(ステップS1)。例えば、身体動作量計測手段11は、骨格位置情報として入力される人物Hの頭部位置の単位時間あたりの変化量を身体動作量とする。
【0127】
また、注目度推定装置1は、傾き補正手段12によって、カメラCから入力されるカメラ映像を、フレームごとに人物Hの顔がフレーム画像(カメラ画像)上で垂直になるように傾きを補正する(ステップS2)。このとき、傾き補正手段12は、モーションキャプチャMcから入力される骨格位置情報において、頸部位置が頭部位置の直下になるように、フレーム画像の画像中心を中心としてカメラ画像を回転させる。
【0128】
そして、注目度推定装置1は、瞬目間隔計測手段13によって、ステップS2で傾き補正されて逐次入力されるカメラ画像において、人物Hの瞬きを検出し、当該瞬きの間隔を瞬目間隔時間として計測する(ステップS3)。ここでは、瞬目間隔計測手段13は、カメラ画像内で特徴点を検出、追跡し、その特徴点軌跡を1つの単語とみなしたBag−of−words手法を用いて瞬目動作を識別する。
【0129】
さらに、注目度推定装置1は、視線変動量計測手段14によって、ステップS2で傾き補正されて逐次入力されるカメラ画像において、単位時間当たりの視線変動量を計測する(ステップS4)。ここでは、視線変動量計測手段14は、カメラ画像から、人物Hの目領域を検出し、目領域の水平方向の中心で左右に区分した右領域と左領域との輝度比の時間変化によって、視線変動量を計測する。
【0130】
また、注目度推定装置1は、字幕情報量計測手段21によって、入力される映像コンテンツにおいて、フレームごとに字幕を検出する(ステップS5)。さらに、注目度推定装置1は、入力される映像コンテンツにおいて、フレームごとの差分から、予め定めた量よりも動き量が大きいフレームを検出する(ステップS6)。
【0131】
そして、映像コンテンツの入力で、指定された映像区間(トピック)が終了していない場合(ステップS7でNo)、注目度推定装置1は、ステップS1に戻って、順次ステップS1からステップS6までの操作を繰り返す。
これによって、トピック内における身体動作量、瞬目間隔時間および視線変動量が単位時間(ここでは、フレーム)ごとに計測される。また、トピック内において字幕が存在するフレームおよび動きが大きいフレームが検出される。
【0132】
そして、指定された映像区間(トピック)が終了した場合(ステップS7でYes)、注目度推定装置1は、字幕情報量計測手段21によって、トピックの時間長(トピックの総フレーム数)に対する字幕を検出したフレーム数の割合を字幕情報量として計算する(ステップS8)。
また、注目度推定装置1は、トピックの時間長(トピックの総フレーム数)に対する動きが大きいとして検出したフレーム数の割合を映像動き量として計算する(ステップS9)。
そして、注目度推定装置1は、使用判定手段23によって、ステップS8,S9で計算された字幕情報量が予め定めた量よりも多い、または、映像動き量が予め定めた量よりも多いか否かを判定する(ステップS10)。
【0133】
ここで、字幕情報量が予め定めた量よりも多い、または、映像動き量が予め定めた量よりも多い場合(ステップS10でYes)、注目度推定装置1は、統計特徴量生成手段30によって、視線変動量を除いた特徴量(特徴量記述子)を生成する(ステップS11)。
このとき、統計特徴量生成手段30は、グローバル特徴生成手段31によって、身体動作量および瞬目間隔時間のそれぞれについて、トピック内における平均値と標準偏差をグローバル特徴として生成する。
また、統計特徴量生成手段30は、局所ヒストグラム特徴生成手段32によって、身体動作量および瞬目間隔時間のそれぞれについて、ヒストグラムを生成することで、局所ヒストグラム特徴を生成する。
【0134】
そして、注目度推定装置1は、注目度特定手段50によって、学習データ記憶手段40に記憶されている、視線変動量を除いて学習した第2学習データD2を用いて、ステップS11で生成された特徴量(特徴量記述子)に対する注目度を特定(推定)する(ステップS12)。
【0135】
一方、字幕情報量が予め定めた量よりも少なく、かつ、映像動き量が予め定めた量よりも少ない場合(ステップS10でNo)、注目度推定装置1は、統計特徴量生成手段30によって、視線変動量を含んだ特徴量(特徴量記述子)を生成する(ステップS13)。
すなわち、統計特徴量生成手段30は、グローバル特徴生成手段31によって、身体動作量、瞬目間隔時間および視線変動量のそれぞれについて、トピック内における平均値と標準偏差をグローバル特徴として生成する。
また、統計特徴量生成手段30は、局所ヒストグラム特徴生成手段32によって、身体動作量、瞬目間隔時間および視線変動量のそれぞれについて、ヒストグラムを生成することで、局所ヒストグラム特徴を生成する。
【0136】
そして、注目度推定装置1は、注目度特定手段50によって、学習データ記憶手段40に記憶されている、視線変動量を含んで学習した第1学習データD1を用いて、ステップS13で生成された特徴量(特徴量記述子)に対する注目度を特定(推定)する(ステップS14)。
【0137】
以上の動作によって、注目度推定装置1は、映像コンテンツ(トピック)を視聴する人物Hの当該トピックに対する注目度を推定することができる。このとき、注目度推定装置1は、身体動作量、瞬目間隔時間および視線変動量といった人物Hの身体特徴を、画像処理によって計測するため、人物Hに負荷を与えることなく、注目度を推定することができる。
また、注目度推定装置1は、映像コンテンツに字幕が多い場合、あるいは、映像の動きが多い場合には、視線特徴量を注目度推定に使用しないことで、注目度を精度よく求めることができる。
【0138】
以上、本発明の実施形態に係る注目度推定装置1の構成および動作について説明したが、本発明はこの実施形態に限定されるものではない。
例えば、ここでは、統計特徴量生成手段30は、図8で説明したように、あるトピックにおいて、6次元のグローバル特徴と、24次元の局所ヒストグラム特徴とからなる30次元の固定次元の特徴量記述子を生成することとしたが、さらにトピックを時間方向に区切って、その区間ごとに、30次元の特徴量記述子を生成することとてもよい。
【0139】
例えば、図10に示すように、統計特徴量生成手段30は、あるトピックnについて、全体特徴量として、前記した30次元の特徴量記述子を生成する。さらに、統計特徴量生成手段30は、トピックnを時間方向に2分割し、それぞれの区間において、前記した30次元の特徴量記述子をそれぞれ生成する(2分割特徴量)。
あるいは、さらに、トピックnを時間方向に4分割し、それぞれの区間において、前記した30次元の特徴量記述子をそれぞれ生成することとしてもよい(4分割特徴量)。これによって、トピックnについて、210次元(30次元×7特徴量記述子)の固定次元の特徴量記述子群が生成される。
【0140】
このように、時間方向に区分した特徴量を含ませることで、全体特徴量において、時間方向に局所的な特徴の影響が薄れてしまう場合であっても、局所的な特徴を残した特徴量となる。
この場合、視線変動量を使用しない特徴量記述子群については、140次元(20次元×7特徴量記述子)の固定次元の特徴量記述子群となる。
【0141】
また、統計特徴量生成手段30は、図10に示すように、トピックnに前後するトピック(n−1,n+1)における特徴量記述子を付加して、トピックnにおける特徴量記述子群としてもよい。例えば、図10の例の場合、統計特徴量生成手段30は、トピックnにおける210次元(30次元×7特徴量記述子)の特徴量記述子群に、トピック(n−1)とトピック(n+1)のそれぞれのトピックnの直近の4分割特徴量を付加して、270次元(30次元×9特徴量記述子)の固定次元の特徴量記述子群を生成する。
この場合、視線変動量を使用しない特徴量記述子群については、180次元(20次元×9特徴量記述子)の固定次元の特徴量記述子群となる。
【0142】
このように、トピック前後の特徴を付加することで、例えば、瞬目回数が、注目状態から解放された直後に増加するといった、トピックに跨った特徴量の変化を考慮して注目状態を判定することができる。
なお、このような時間方向に分割した特徴量記述子群を付加して用いる場合、学習データ記憶手段40に記憶される第1学習データD1や第2学習データD2は、その付加した特徴量記述子群と同次数の特徴量記述子群によって、予め学習しておくことはいうまでもない。
【0143】
また、本実施形態では、字幕や映像の動きによって、視線変動量を特徴量として使用するか否かを判定することとしたが、予め字幕が存在しない映像コンテンツや、動きに大きな変化がない映像コンテンツを対象とする場合であれば、字幕情報量計測手段21や映像動き量計測手段22を、構成から省略しても構わない。
【0144】
また、字幕情報量計測手段21や映像動き量計測手段22を両者とも構成から省略する場合、図11に示すように、図2の注目度推定装置1から、視線変動量使用判定手段20を省略しても構わない。その場合、学習データ記憶手段40Bには、第1学習データD1のみを予め学習して記憶しておけばよい。
あるいは、さらに、構成を簡略化し、注目度推定装置1,1Bから、身体動作量計測手段11と瞬目間隔計測手段13のいずれか一方を省略して構成してもよい。
【0145】
以上説明したように、本発明は、映像コンテンツを視聴している人物の注目度を、人物に負荷をかけずに推定することができるため、一般家庭においても容易に人物の注目度を推定することができる。
このため、従来は、単に映像コンテンツを表示するだけで計測していた“視聴率”に対して、実際に人物が映像コンテンツを視聴し、その注目度を推定することで、映像コンテンツそのものの評価となる“視聴質”を計測することも可能になる。
【符号の説明】
【0146】
1 注目度推定装置
10 身体特徴量抽出手段
11 身体動作量計測手段
12 傾き補正手段
13 瞬目間隔計測手段
14 視線変動量計測手段
20 視線変動量使用判定手段
21 字幕情報量計測手段
22 映像動き量計測手段
23 使用判定手段
30 統計特徴量生成手段
31 グローバル特徴生成手段
32 局所ヒストグラム特徴生成手段
40 学習データ記憶手段(第2学習データ記憶手段)
50 注目度特定手段
S 注目度測定システム
M モニタ
C カメラ
Mc モーションキャプチャ

【特許請求の範囲】
【請求項1】
映像コンテンツを視聴している人物を撮影した画像から当該人物の骨格位置を検出するモーションキャプチャで計測して得られる骨格位置情報と、前記人物をカメラで撮影したカメラ映像とから、前記映像コンテンツの予め定めた映像区間において、前記人物の注目の度合いを示す注目度を推定する注目度推定装置であって、
前記骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置における単位時間当たりの変化量である身体動作量を前記人物の身体特徴量の1つとして計測する身体動作量計測手段と、
前記カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて前記人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を前記身体特徴量の1つとして計測する視線変動量計測手段と、
前記身体特徴量のそれぞれについて、前記映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する統計特徴量生成手段と、
前記統計特徴量と前記注目度との対応関係を学習データとして予め記憶した学習データ記憶手段と、
この学習データ記憶手段に記憶されている学習データに基づいて、前記統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する注目度特定手段と、
を備えることを特徴とする注目度推定装置。
【請求項2】
前記時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて前記人物の瞬きを検出し、瞬目間隔時間を前記身体特徴量の1つとして計測する瞬目間隔計測手段を、さらに備えることを特徴とする請求項1に記載の注目度推定装置。
【請求項3】
前記骨格位置情報で示される前記人物の頭部位置および頸部位置に基づいて、前記頸部位置が前記頭部位置の直下になるように前記カメラ画像を回転させる傾き補正手段を、さらに備えることを特徴とする請求項1または請求項2に記載の注目度推定装置。
【請求項4】
前記身体特徴量から前記視線変動量を除いた統計特徴量と前記注目度との対応関係を第2学習データとして予め記憶した第2学習データ記憶手段と、
前記映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する字幕情報量計測手段と、
前記映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する映像動き量検出手段と、
前記字幕情報量が予め定めた情報量よりも多い、または、前記映像動き量が予め定めた動き量よりも多い場合に、前記視線変動量を前記身体特徴量として使用しない旨を判定する使用判定手段と、をさらに備え、
前記使用判定手段において、前記視線変動量を前記身体特徴量として使用しない旨が判定された場合、前記注目度特定手段は、前記学習データに代えて前記第2学習データに基づいて、前記視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定することを特徴とする請求項1から請求項3のいずれか一項に記載の注目度推定装置。
【請求項5】
前記身体特徴量から前記視線変動量を除いた統計特徴量と前記注目度との対応関係を第2学習データとして予め記憶した第2学習データ記憶手段と、
前記映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する字幕情報量計測手段と、
前記字幕情報量が予め定めた情報量よりも多い場合に、前記視線変動量を前記身体特徴量として使用しない旨を判定する使用判定手段と、をさらに備え、
前記使用判定手段において、前記視線変動量を前記身体特徴量として使用しない旨が判定された場合、前記注目度特定手段は、前記学習データに代えて前記第2学習データに基づいて、前記視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定することを特徴とする請求項1から請求項3のいずれか一項に記載の注目度推定装置。
【請求項6】
前記身体特徴量から前記視線変動量を除いた統計特徴量と前記注目度との対応関係を第2学習データとして予め記憶した第2学習データ記憶手段と、
前記映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する映像動き量検出手段と、
前記映像動き量が予め定めた動き量よりも多い場合に、前記視線変動量を前記身体特徴量として使用しない旨を判定する使用判定手段と、をさらに備え、
前記使用判定手段において、前記視線変動量を前記身体特徴量として使用しない旨が判定された場合、前記注目度特定手段は、前記学習データに代えて前記第2学習データに基づいて、前記視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定することを特徴とする請求項1から請求項3のいずれか一項に記載の注目度推定装置。
【請求項7】
前記統計特徴量生成手段は、前記映像区間全体における前記身体特徴量の平均値および標準偏差であるグローバル特徴と、前記身体統計量を予め定めたビン幅でヒストグラム化した局所ヒストグラム特徴とを前記統計特徴量として生成することを特徴とする請求項1から請求項6のいずれか一項に記載の注目度推定装置。
【請求項8】
前記統計特徴量生成手段は、前記映像区間を予め定めた時間区間に分割した区間ごとに、さらに前記局所ヒストグラム特徴を生成することを特徴とする請求項7に記載の注目度推定装置。
【請求項9】
前記統計特徴量生成手段は、前記注目度を推定する対象となる映像区間の統計特徴量に、当該映像区間の前後の映像区間の局所ヒストグラム特徴を付加して当該注目度を推定する映像区間の統計特徴量とすることを特徴とする請求項7または請求項8に記載の注目度推定装置。
【請求項10】
映像コンテンツを視聴している人物を撮影した画像から当該人物の骨格位置を検出するモーションキャプチャで計測して得られる骨格位置情報と、前記人物をカメラで撮影したカメラ映像とから、前記映像コンテンツの予め定めた映像区間において、前記人物の注目の度合いを示す注目度を推定するために、コンピュータを、
前記骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置における単位時間当たりの変化量である身体動作量を前記人物の身体特徴量の1つとして計測する身体動作量計測手段、
前記カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて前記人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を前記身体特徴量の1つとして計測する視線変動量計測手段、
前記身体特徴量のそれぞれについて、前記映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する統計特徴量生成手段、
前記統計特徴量と前記注目度との対応関係を予め学習した学習データに基づいて、前記統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する注目度特定手段、
として機能させることを特徴とする注目度推定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2013−105384(P2013−105384A)
【公開日】平成25年5月30日(2013.5.30)
【国際特許分類】
【出願番号】特願2011−249799(P2011−249799)
【出願日】平成23年11月15日(2011.11.15)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】