注目度推定装置およびそのプログラム

【課題】映像コンテンツを視聴する人物の当該コンテンツに対する注目度を計測する注目度推定装置を提供する。
【解決手段】注目度推定装置１は、モーションキャプチャで計測された人物の骨格位置から身体動作量を計測する身体動作量計測手段１１と、カメラ映像から人物の瞬目間隔時間を計測する瞬目間隔計測手段１３と、カメラ映像から視線変動量を計測する視線変動量計測手段１４と、身体動作量、視線変動量および瞬目間隔時間のそれぞれについて、予め定めた映像区間における統計特徴量を生成する統計特徴量生成手段３０と、統計特徴量と注目度との対応関係を学習データとして予め記憶した学習データ記憶手段４０と、学習データに基づいて、統計特徴量生成手段３０で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する注目度特定手段５０と、を備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像コンテンツを視聴する人物の当該コンテンツに対する注目度を推定する注目度推定装置およびそのプログラムに関する。
【背景技術】
【０００２】
近年、人物の脳内活動として、ある対象に集中した状態か、あるいは、ある対象を注目した状態かといった、集中度あるいは注目度を計測する研究が盛んに進められている。これらの研究は、例えば、車の運転や授業での生徒の理解度調査など、様々な分野に応用可能な技術であり、従来から多くの研究がなされてきた。なお、“集中度”は“注目度”よりも人物の内的状態を表すニュアンスがあるもののほぼ同義で用いられている。
【０００３】
この集中度を計測する手法として、脳波、脈拍、瞬目間隔時間、身体の動き等の生体情報を利用して集中度を計測する技術が種々開示されている（特許文献１，２参照）。
例えば、脳波は、特定の対象に対する脳波の反応が明確に現れた場合に、集中度が高い方向に働く指標となる。また、例えば、脈拍は、特定の対象に対して心拍間隔時間が変動した場合に、集中度が高い方向に働く指標となる。また、例えば、瞬目間隔時間は、その間隔が長くなった場合に、集中度が高い方向に働く指標となる。また、例えば、身体の動きは、その動きが大きい場合、集中していない方向に働く指標となる。
このような生体情報を利用して集中度を計測するには、通常、人物に装着した接触型デバイスから生体情報を取得する必要がある。
【０００４】
また、集中度を計測する他の手法として、視線の動きを用いる手法も開示されている（特許文献３参照）。
この手法は、視線の動きを追跡し、予めデータ化した、ある対象に視線が集中する場合の視線の動きと比較することで、人物がその対象に集中している度合いを計測するものである。この手法において、視線の追跡には、非接触型のデバイスが発光する赤外線等が人物の瞳によって反射した光をカメラで撮影することで行っている。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開平９−２６２２１６号公報
【特許文献２】特開２００７−２８３０４１号公報
【特許文献３】特開２００８−１２２２３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
前記したように、従来の人物の生体情報を利用して集中度（注目度）を計測する手法では、通常、接触型デバイスが必要となる。しかし、接触型デバイスを用いた場合、それを装着した人物の視界や動作の自由度が奪われ、人物の負担が大きいという問題がある。
また、従来のように、視線の動きから集中度（注目度）を計測する手法では、たとえ、赤外線光等を発光する非接触型デバイスを用いる場合であっても、人物に負荷を与えてしまう。
例えば、一般家庭において、視聴者がテレビ等で視聴する映像コンテンツを対象として注目度を計測する場合、接触型デバイスを装着することは現実的ではない。また、健康面等を考慮して、視聴者に赤外線を照射し続けることはできない。
【０００７】
本発明は、以上のような問題に鑑みてなされたものであり、映像コンテンツを視聴する人物の当該コンテンツに対する注目度を、人物に負荷を与えることなく計測することが可能な注目度推定装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【０００８】
本発明は、前記課題を解決するために創案されたものであり、まず、請求項１に記載の注目度推定装置は、映像コンテンツを視聴している人物を撮影した画像から当該人物の骨格位置を検出するモーションキャプチャで計測して得られる骨格位置情報と、前記人物をカメラで撮影したカメラ映像とから、前記映像コンテンツの予め定めた映像区間において、前記人物の注目の度合いを示す注目度を推定する注目度推定装置であって、身体動作量計測手段と、視線変動量計測手段と、統計特徴量生成手段と、学習データ記憶手段と、注目度特定手段と、を備える構成とした。
【０００９】
かかる構成において、注目度推定装置は、身体動作量計測手段によって、モーションキャプチャで計測された人物の骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置、例えば、人物の頭部位置等における単位時間当たりの変化量である身体動作量を身体特徴量の１つとして計測する。なお、人物が映像コンテンツを注目している場合、身体動作が少なくなる傾向にあることから、身体動作量は注目度を推定する指標となる。
【００１０】
また、注目度推定装置は、視線変動量計測手段によって、カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴、例えば、Ｈａａｒ−ｌｉｋｅ特徴量に基づいて人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を身体特徴量の１つとして計測する。例えば、目領域内の左右領域の画素の輝度値は、角膜（黒目）の位置によって変化する。そこで、視線変動量計測手段は、左右領域の輝度比から、角膜の位置の変化を検出することで、その変化量を視線変動量とする。
なお、人物が映像コンテンツを注目している場合、視線の動きが小さくなる傾向にあることから、視線変動量は注目度を推定する指標となる。
【００１１】
そして、注目度推定装置は、統計特徴量生成手段によって、身体特徴量のそれぞれについて、映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する。この統計特徴量は、例えば、身体特徴量の平均値や標準偏差、あるいは、度数等の統計量である。
【００１２】
そして、注目度推定装置は、注目度特定手段によって、学習データ記憶手段に記憶している、統計特徴量と注目度との対応関係を予め学習により求めた学習データに基づいて、統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。この学習データは、例えば、サポートベクタマシン（ＳＶＭ）で実現することができ、複数の統計特徴量から対応する注目度を出力する識別関数である。なお、この学習データは、サポートベクタマシンにおける学習フェーズにおいて、任意の映像コンテンツを視聴した際の統計特徴量と人物の主観評価とに基づいて、事前に生成しておく。
【００１３】
また、請求項２に記載の注目度推定装置は、請求項１に記載の注目度推定装置において、瞬目間隔計測手段を、さらに備える構成とした。
【００１４】
かかる構成において、注目度推定装置は、瞬目間隔計測手段によって、時系列に入力されるカメラ画像において、予め定めた画像特徴、例えば、Ｈａａｒ−ｌｉｋｅ特徴量に基づいて人物の瞬きを検出し、その瞬きが発生する間隔である瞬目間隔時間を身体特徴量の１つとして計測する。なお、人物が映像コンテンツを注目している場合、瞬きが少なくなる傾向にあることから、瞬目間隔時間は注目度を推定する指標となる。
【００１５】
また、請求項３に記載の注目度推定装置は、請求項１または請求項２に記載の注目度推定装置において、傾き補正手段を、さらに備える構成とした。
【００１６】
かかる構成において、注目度推定装置は、傾き補正手段によって、骨格位置情報で示される人物の頭部位置および頸部位置に基づいて、頸部位置が頭部位置の直下になるようにカメラ画像を回転させる。これによって、人物の顔が、カメラ画像上で垂直に保たれることになる。
【００１７】
さらに、請求項４に記載の注目度推定装置は、請求項１から請求項３のいずれか一項に記載の注目度推定装置において、第２学習データ記憶手段と、字幕情報量計測手段と、映像動き量検出手段と、使用判定手段と、をさらに備える構成とした。
【００１８】
かかる構成において、注目度推定装置は、第２学習データ記憶手段に、身体特徴量から視線変動量を除いた統計特徴量と注目度との対応関係を第２学習データとして予め記憶しておく。この第２学習データは、例えば、サポートベクタマシンで実現することができ、身体動作量および視線変動量の統計特徴量から対応する注目度を出力する識別関数である。なお、この第２学習データは、サポートベクタマシンにおける学習フェーズにおいて、任意の映像コンテンツを視聴した際の身体動作量および視線変動量の統計特徴量と人物の主観評価とに基づいて、事前に生成しておく。
【００１９】
また、注目度推定装置は、字幕情報量計測手段によって、映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する。なお、人物が映像コンテンツ内の字幕を注目している場合、視線の動きが大きくなる傾向にあることから、字幕情報量は、視線変動量とは逆の相関を持った指標となる。
また、注目度推定装置は、映像動き量検出手段によって、映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する。なお、人物が映像コンテンツを注目している場合、視線の動きが大きくなる傾向にあることから、映像動き量は、視線変動量とは逆の相関を持った指標となる。
【００２０】
そして、注目度推定装置は、使用判定手段によって、字幕情報量が予め定めた情報量よりも多い、または、映像動き量が予め定めた動き量よりも多い場合に、視線変動量を身体特徴量として使用しない旨を判定する。
そして、使用判定手段において、視線変動量を身体特徴量として使用しない旨が判定された場合、注目度推定装置は、注目度特定手段によって、学習データに代えて第２学習データに基づいて、視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。
【００２１】
また、請求項５に記載の注目度推定装置は、請求項１から請求項３のいずれか一項に記載の注目度推定装置において、第２学習データ記憶手段と、字幕情報量計測手段と、使用判定手段と、をさらに備える構成とした。
【００２２】
かかる構成において、注目度推定装置は、第２学習データ記憶手段に、身体特徴量から視線変動量を除いた統計特徴量と注目度との対応関係を第２学習データとして予め記憶しておく。
また、注目度推定装置は、字幕情報量計測手段によって、映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する。そして、注目度推定装置は、使用判定手段によって、字幕情報量が予め定めた情報量よりも多い場合に、視線変動量を身体特徴量として使用しない旨を判定する。
【００２３】
そして、使用判定手段において、視線変動量を身体特徴量として使用しない旨が判定された場合、注目度推定装置は、注目度特定手段によって、学習データに代えて第２学習データに基づいて、視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。
【００２４】
また、請求項６に記載の注目度推定装置は、請求項１から請求項３のいずれか一項に記載の注目度推定装置において、第２学習データ記憶手段と、映像動き量検出手段と、使用判定手段と、をさらに備える構成とした。
【００２５】
かかる構成において、注目度推定装置は、第２学習データ記憶手段に、身体特徴量から視線変動量を除いた統計特徴量と注目度との対応関係を第２学習データとして予め記憶しておく。
また、注目度推定装置は、映像動き量検出手段によって、映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する。そして、注目度推定装置は、使用判定手段によって、映像動き量が予め定めた動き量よりも多い場合に、視線変動量を身体特徴量として使用しない旨を判定する。
【００２６】
そして、使用判定手段において、視線変動量を身体特徴量として使用しない旨が判定された場合、注目度推定装置は、注目度特定手段によって、学習データに代えて第２学習データに基づいて、視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。
【００２７】
また、請求項７に記載の注目度推定装置は、請求項１から請求項６のいずれか一項に記載の注目度推定装置において、前記統計特徴量生成手段が、前記映像区間全体における前記身体特徴量の平均値および標準偏差であるグローバル特徴と、前記身体統計量を予め定めたビン幅でヒストグラム化した局所ヒストグラム特徴とを前記統計特徴量として生成することを特徴とする。
【００２８】
かかる構成において、注目度推定装置は、統計特徴量生成手段によって、統計特徴量をグローバル特徴と局所ヒストグラム特徴とで表すことで、映像区間の長さによらず、固定次元の特徴量を生成することができる。
【００２９】
また、請求項８に記載の注目度推定装置は、請求項７に記載の注目度推定装置において、前記統計特徴量生成手段が、前記映像区間を予め定めた時間区間に分割した区間ごとに、さらに前記局所ヒストグラム特徴を生成することを特徴とする。
【００３０】
かかる構成において、注目度推定装置は、統計特徴量生成手段によって、映像区間を細分化して、局所ヒストグラム特徴を生成することで、局所的に発生する特徴を注目度の推定に反映させることができる。
【００３１】
さらに、請求項９に記載の注目度推定装置は、請求項７または請求項８に記載の注目度推定装置において、前記統計特徴量生成手段が、前記注目度を推定する対象となる映像区間の統計特徴量に、当該映像区間の前後の映像区間の局所ヒストグラム特徴を付加して当該注目度を推定する映像区間の統計特徴量とすることを特徴とする。
【００３２】
かかる構成において、注目度推定装置は、統計特徴量生成手段によって、注目度を推定する映像区間の統計特徴量に、当該映像区間の前後の映像区間の局所ヒストグラム特徴を付加することで、注目度を推定する映像区間の統計特徴量に、映像区間を跨って発生する特徴が付加されることになる。
この映像区間を跨って発生する特徴とは、例えば、映像コンテンツ内で、ある映像区間から人物が注目する映像区間に移った場合や、注目している映像区間が終了し、他の映像区間に移った場合等における特徴である。
【００３３】
また、請求項１０に記載に注目度推定プログラムは、モーションキャプチャで計測された、映像コンテンツを視聴している人物を撮影した画像から当該人物の骨格位置を検出するモーションキャプチャで計測して得られる骨格位置情報と、前記人物をカメラで撮影したカメラ映像とから、前記映像コンテンツの予め定めた映像区間において、前記人物の注目の度合いを示す注目度を推定するために、コンピュータを、身体動作量計測手段、視線変動量計測手段、統計特徴量生成手段、注目度特定手段、として機能させる構成とした。
【００３４】
かかる構成において、注目度推定プログラムは、身体動作量計測手段によって、モーションキャプチャで計測された人物の骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置における単位時間当たりの変化量である身体動作量を身体特徴量の１つとして計測する。
また、注目度推定プログラムは、視線変動量計測手段によって、カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を身体特徴量の１つとして計測する。
【００３５】
そして、注目度推定プログラムは、統計特徴量生成手段によって、身体特徴量のそれぞれについて、映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する。
【００３６】
そして、注目度推定プログラムは、注目度特定手段によって、学習データ記憶手段に記憶している、統計特徴量と注目度との対応関係を予め学習により求めた学習データに基づいて、統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。
【発明の効果】
【００３７】
本発明は、以下に示す優れた効果を奏するものである。
請求項１，１０に記載の発明によれば、人物の注目度を推定するための身体特徴量である身体動作量や視線変動量を、画像処理によって抽出することができるため、接触型デバイスの装着や、赤外線光の照射等、人物に負荷をかけることなく注目度を推定することができる。
【００３８】
請求項２に記載の発明によれば、人物の注目度を推定するための身体特徴量として、さらに、瞬目間隔時間を加えることで、注目度の推定精度を高めることができる。また、本発明は、カメラで撮影した画像から瞬目間隔時間を求めることができるため、人物に負荷をかけることなく注目度を推定することができる。
【００３９】
請求項３に記載の発明によれば、映像コンテンツを視聴する人物の頭部を、カメラ画像上において垂直に補正することができるため、カメラ画像上において、目の領域の検出等、人物の頭部の特徴量を検出する際の精度を高めることができ、より正確に注目度を推定することができる。
【００４０】
請求項４に記載の発明によれば、字幕の情報量が多くなったり、映像の動きが大きくなった場合、視線変動量の注目度を推定する際の指標としての意味が逆に作用するため、注目度を推定する際の特徴量から視線変動量を除外することで、精度よく注目度を推定することができる。
【００４１】
請求項５に記載の発明によれば、字幕の情報量が多くなった場合、視線変動量の注目度を推定する際の指標としての意味が逆に作用するため、注目度を推定する際の特徴量から視線変動量を除外することで、精度よく注目度を推定することができる。
請求項６に記載の発明によれば、映像の動きが大きくなった場合、視線変動量の注目度を推定する際の指標としての意味が逆に作用するため、注目度を推定する際の特徴量から視線変動量を除外することで、精度よく注目度を推定することができる。
【００４２】
請求項７に記載の発明によれば、身体特徴量の平均値および標準偏差であるグローバル特徴と、身体統計量を予め定めたビン幅でヒストグラム化した局所ヒストグラム特徴とを、統計特徴量とすることで、固定次元で特徴量を表すことができる。これによって、映像区間の時間長が可変であっても、同一のアルゴリズムで注目度を推定することができる。
【００４３】
請求項８に記載の発明によれば、映像区間を時間方向に区分した特徴量を統計特徴量に付加することで、統計特徴量は、映像区間において、時間方向に局所的な特徴を残した特徴量となる。これによって、映像区間内のある区間における注目の度合いを特徴として加味することができ、精度よく注目度を推定することができる。
【００４４】
請求項９に記載の発明によれば、映像区間の前後の映像区間の局所ヒストグラム特徴を付加して統計特徴量とすることで、統計特徴量は、映像区間を跨った特徴量となる。これによって、映像区間の切り替わりで人物の注目状態に変化が起こる等の特徴を、注目度の推定に反映させることができる。
【図面の簡単な説明】
【００４５】
【図１】本発明の実施形態に係る注目度推定装置を含んだ注目度測定システムの構成を示す構成図である。
【図２】本発明の実施形態に係る注目度推定装置の構成を示すブロック図である。
【図３】本発明の実施形態に係る注目度推定装置に入力される骨格位置情報を説明するための説明図である。
【図４】本発明の実施形態に係る注目度推定装置の傾き補正手段が行う傾き補正の処理内容を説明するための説明図である。
【図５】本発明の実施形態に係る注目度推定装置の瞬目間隔計測手段において、瞬目状態を判定する際に用いる特徴量を説明するための説明図である。
【図６】本発明の実施形態に係る注目度推定装置の視線変動量計測手段における視線変動量を計測する手法を説明するための説明図である。
【図７】本発明の実施形態に係る注目度推定装置の統計特徴量生成手段が生成する局所ヒストグラム特徴のヒストグラムを説明するための説明図である。
【図８】本発明の実施形態に係る注目度推定装置の統計特徴量生成手段が生成する特徴量（特徴量記述子）の内容を説明するための構造図である。
【図９】本発明の実施形態に係る注目度推定装置の動作を説明するためのフローチャートである。
【図１０】本発明の実施形態に係る注目度推定装置の統計特徴量生成手段におけるある映像区間（トピック）内の特徴量（特徴量記述子群）を説明するための説明図である。
【図１１】本発明の他の実施形態に係る注目度推定装置の全体構成を示すブロック構成図である。
【図１２】本発明の実施形態に係る注目度推定装置の学習データ記憶手段に記憶させる学習データを生成する注目度学習装置の構成を示すブロック図である。
【発明を実施するための形態】
【００４６】
以下、本発明の実施形態について図面を参照して説明する。
［注目度推定システムの構成］
最初に、図１を参照して、本発明の実施形態に係る注目度推定装置を含んだ注目度測定システムＳの構成について説明する。
注目度測定システムＳは、映像コンテンツを視聴している人物の当該映像コンテンツに対する注目度を測定するものである。
この注目度測定システムＳは、モニタＭと、モーションキャプチャＭｃと、カメラＣと、注目度推定装置１と、を備えている。
【００４７】
モニタＭは、テレビ放送として放送される番組（映像コンテンツ）や、記録媒体（例えば、ＤＶＤ等）に記録された映像コンテンツを表示するものである。このモニタＭは、テレビ受像機等の一般的な表示装置であって、人物Ｈに対して映像コンテンツを提示するものである。
【００４８】
モーションキャプチャＭｃは、映像コンテンツを視聴している人物Ｈの骨格の位置を計測するものであって、一般的な姿勢検出装置である。このモーションキャプチャＭｃは、人物Ｈを撮影する方向を向けて、モニタＭの近傍に配置される。
このモーションキャプチャＭｃは、奥行きカメラ（不図示）で撮影した距離画像によって人物Ｈまでの距離を計測するとともに、人物Ｈの３次元空間上の骨格位置（例えば、頭部位置、頸部位置等）を検出し、その骨格位置の３次元座標を２次元座標に投影することで骨格位置情報を生成する。このモーションキャプチャＭｃで計測された骨格位置情報は、注目度推定装置１に出力される。
【００４９】
カメラＣは、映像コンテンツを視聴している人物Ｈを撮影するもので、一般的な撮像装置である。このカメラＣは、人物Ｈを撮影する方向に向けて、モニタＭの近傍に配置される。このカメラＣが撮影したカメラ映像は、注目度推定装置１に出力される。
なお、カメラＣとモーションキャプチャＭｃとが人物Ｈを撮影する画角は、ほぼ等しくしておく。もちろん、モーションキャプチャＭｃから、人物Ｈを撮影した映像を取得可能であれば、モーションキャプチャＭｃから、カメラ映像を出力することとしてもよい。
【００５０】
注目度推定装置１は、モーションキャプチャＭｃで計測された、映像コンテンツを視聴している人物Ｈの骨格位置情報と、カメラＣで撮影された、人物Ｈを撮影したカメラ映像とから、映像コンテンツの予め定めた映像区間（トピック）において、人物Ｈの注目の度合いを示す注目度を推定するものである。
【００５１】
一般に、人物Ｈが映像コンテンツを注目（集中）して視聴している場合、身体動作が少なくなり、瞬き間隔（瞬目間隔時間）が長くなり、視線の動き（視線変動）が小さくなる等の傾向がある。
そこで、注目度推定装置１は、これらの変化を、モーションキャプチャＭｃで計測された骨格位置情報と、カメラＣで撮影されたカメラ映像とに基づいて検出することで、人物Ｈの映像コンテンツに対する注目度を推定する。すなわち、注目度推定装置１は、骨格位置情報から、例えば、人物Ｈの頭部位置を特定し、その動きによって身体動作の変化を検出し、カメラ映像から、人物Ｈの瞬き間隔や視線の動きの変化を検出することで、注目度を推定する。
このように、注目度測定システムＳを構成することで、接触型デバイスの装着や、赤外線光の照射等、人物Ｈに負荷を与えることなく、注目度を推定することができる。
以下、注目度推定装置１の構成および動作について説明する。
【００５２】
［注目度推定装置の構成］
まず、図２を参照（適宜図１参照）して、本発明の実施形態に係る注目度推定装置１の構成について説明する。ここでは、注目度推定装置１は、映像コンテンツを時間方向に区切った映像区間を示す情報として、映像区間情報を入力する。そして、注目度推定装置１は、この映像区間単位で注目度を推定する。また、映像区間情報は、図示を省略した入力手段を介して入力することとする。
【００５３】
なお、この映像区間情報は、注目度を推定したい区間を特定する時間情報（フレーム番号等）であって、映像内のトピック（例えば、ニュース番組における「政治」、「経済」、「スポーツ」、「芸能」等）ごとの切り替わりを示す情報である。また、この映像区間情報は、図示を省略したトピック検出装置を介して出力される、映像コンテンツからトピックを検出した情報としてもよい。
また、ここでは、時間情報以外に、トピックを識別するための識別子（ＩＤ番号）を、付加しておくこととする。もちろん、この映像区間は、映像コンテンツ全体を示すものであってもよいし、映像コンテンツの一部を示すものであってもよい。
【００５４】
図２に示すように、注目度推定装置１は、身体特徴量抽出手段１０と、視線変動量使用判定手段２０と、統計特徴量生成手段３０と、学習データ記憶手段４０と、注目度特定手段５０と、を備えている。
【００５５】
身体特徴量抽出手段１０は、モーションキャプチャＭｃから入力される骨格位置情報と、カメラＣから入力されるカメラ映像とから、映像コンテンツを視聴している人物の身体特徴量を抽出するものである。
なお、モーションキャプチャＭｃから入力される骨格位置情報は、例えば、図３（ａ）に示すように、モーションキャプチャＭｃにおいて人物Ｈが撮影されたとき、図３（ｂ）に示すように、人物Ｈの骨格の位置である頭部位置Ｐ^Ｈや頸部位置Ｐ^Ｎの２次元画像上の座標である。
ここでは、身体特徴量抽出手段１０は、身体動作量計測手段１１と、傾き補正手段１２と、瞬目間隔計測手段１３と、視線変動量計測手段１４と、を備えている。
【００５６】
身体動作量計測手段１１は、モーションキャプチャＭｃから入力される骨格位置情報を時系列に入力し、骨格位置情報の予め定めた骨格位置における単位時間（例えば、モーションキャプチャＭｃのフレーム単位）当たりの変化量である身体動作量を計測するものである。
一般に、映像コンテンツを視聴している人物Ｈが注目状態に入ったとき、身体の動きは少なくなる。そこで、身体動作量計測手段１１は、身体が動く量（身体動作量）を、注目度の推定の指標となる特徴量として抽出（計測）する。
【００５７】
ここでは、身体動作量計測手段１１は、骨格位置情報として人物Ｈの頭部位置を利用することとする。もちろん、動きを計測することができる部位であれば、他の骨格位置であっても構わない。
例えば、ｔｐを映像区間（トピック）のＩＤ番号、Ｐ^Ｈ_ｘ（ｔ）を時刻ｔフレームにおける２次元座標上での水平方向（ｘ軸方向）の頭部位置（ｘ座標）、Ｐ^Ｈ_ｙ（ｔ）を同じく垂直方向（ｙ軸方向）の頭部位置（ｙ座標）としたとき、身体動作量計測手段１１は、以下の式（１）により、単位時間あたりの身体動作量Ｋ_ｔｐ（ｔ）を計測する。
【００５８】
【数１】

【００５９】
この身体動作量計測手段１１で計測された身体動作量は、映像区間（トピック）ごとに、統計特徴量生成手段３０に出力される。
【００６０】
傾き補正手段１２は、カメラＣから入力されるカメラ映像を、カメラＣのフレームごとに人物Ｈの顔がフレーム画像（カメラ画像）上で垂直になるように補正するものである。ここでは、傾き補正手段１２は、モーションキャプチャＭｃから入力される骨格位置情報のうちで、頸部位置が頭部位置の直下になるように、フレーム画像の画像中心を中心として、フレーム画像を回転処理する。
【００６１】
ここで、Ｐ^Ｈ_ｘ（ｔ），Ｐ^Ｈ_ｙ（ｔ）をそれぞれ時刻ｔフレームにおける頭部位置のｘ，ｙ座標とし、Ｐ^Ｎ_ｘ（ｔ），Ｐ^Ｎ_ｙ（ｔ）をそれぞれ時刻ｔフレームにおける頸部位置のｘ，ｙ座標としたとき、傾き補正手段１２は、首の傾きθ_ｔを、以下の式（２）で算出する。
【００６２】
【数２】

【００６３】
そして、傾き補正手段１２は、フレーム画像の画像中心を（ｃｘ_ｔ，ｃｙ_ｔ）としたとき、首の傾きθ_ｔを利用して、以下の式（３）により、フレーム画像の任意の点（ｘ_ｔ，ｙ_ｔ）を、（ｘ_ｔ′，ｙ_ｔ′）に変換することで、傾きを補正したフレーム画像を生成する。
【００６４】
【数３】

【００６５】
例えば、図４（ａ）の（ａ−１）に示すように、人物Ｈが、フレーム画像上で斜め左に傾いている場合、頸部位置Ｐ^Ｎが頭部位置Ｐ^Ｈの直下になるように、フレーム画像の画像中心を中心として、その傾き分、フレーム画像を右回転させる（ａ−２）。また、例えば、図４（ｂ）の（ｂ−１）に示すように、人物Ｈが、フレーム画像上で斜め右に傾いている場合、頸部位置Ｐ^Ｎが頭部位置Ｐ^Ｈの直下になるように、フレーム画像の画像中心を中心として、その傾き分、フレーム画像を左回転させる（ｂ−２）。
【００６６】
これによって、補正された画像（ａ−２）（ｂ−２）において、人物Ｈの顔が直立した状態となり、後記する瞬目間隔計測手段１３および視線変動量計測手段１４における瞬目や、目の領域の判定を行う精度を高めることができる。
この傾き補正手段１２で補正されたフレーム画像（カメラ画像）は、瞬目間隔計測手段１３および視線変動量計測手段１４に出力される。
【００６７】
瞬目間隔計測手段１３は、傾き補正手段１２で補正された、カメラＣから時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて、人物Ｈの瞬きを検出し、当該瞬きの間隔を瞬目間隔時間として計測するものである。
【００６８】
ここでは、瞬目間隔計測手段１３は、まず、カメラ画像から顔領域を検出する。この顔領域の検出は、一般的な手法を用いることができる。例えば、瞬目間隔計測手段１３は、ＯｐｅｎＣＶライブラリなどにも用いられているビオラ（Ｖｉｏｌａ）とジョーンズ（Ｊｏｎｅｓ）が提案した顔検出手法を用いることができる。この顔検出手法は、白と黒で表された矩形内の輝度値の差で表された特徴量（Ｈａａｒ−ｌｉｋｅ特徴量）を用いて、予め学習した複数のカスケード型の識別器によって顔の識別を行うものである。
そして、瞬目間隔計測手段１３は、当該顔領域における予め定めた画像特徴となる特徴点を時系列に追跡した複数の特徴点軌跡と、予め瞬目動作の特徴点軌跡として学習した学習データとに基づいて、瞬目状態を検出し、その間隔時間を計測する。
【００６９】
具体的には、瞬目間隔計測手段１３は、時系列に変化する顔領域ごとに、画像の特徴となる点（特徴点）、例えば、隣接画素に対する画素値あるいは輝度値の変化によって特徴点を検出し、特徴量が類似する特徴点をフレームごとにマッチングすることで、特徴点を時間方向に追跡する。この特徴点の検出、追跡は、例えば、ＫＬＴ法、ＭｅａｎＳｈｉｆｔ法等を用いることができる。
【００７０】
そして、瞬目間隔計測手段１３は、この検出、追跡によって得られた特徴点軌跡を１つの単語とみなしたＢａｇ−ｏｆ−ｗｏｒｄｓ手法を用いて瞬目動作を識別する。
このＢａｇ−ｏｆ−ｗｏｒｄｓ手法は、単語（ここでは、特徴点軌跡）をその特徴に基づいて分類した辞書であるコードブックに基づいて、多次元の特徴を予め定めたｋ種類のクラスタで代表させ、クラスタの頻度ヒストグラムで分類処理を行う手法である。
ここでは、瞬目間隔計測手段１３は、１つの特徴点軌跡から１つのヒストグラム（軌跡ヒストグラム）を生成し、ある時点において存在する複数の軌跡ヒストグラムを、Ｂａｇ−ｏｆ−ｗｏｒｄｓ手法における複数の単語とする。
【００７１】
なお、この軌跡ヒストグラムは、単位時間あたりの個々の軌跡（ベクトル）の向きと長さによって定めた固定次元のヒストグラムとする。例えば、ここでは、軌跡の向きを４５度単位の８方向に区分し、軌跡の長さを、“０”を含む４つに区分した。なお、この軌跡の長さの区分は、事前の学習フェーズで計測した、軌跡の長さの平均値と標準偏差とする。
【００７２】
例えば、事前に計測した映像コンテンツにおいて、すべての特徴点軌跡の個々のベクトルの長さ（ｍ_ｉ：ｉ＝０〜Ｎ〔Ｎは、映像コンテンツ内でのベクトル総数〕）の平均値μ、その標準偏差σを、以下の式（４）により予め求めておき、軌跡の長さの区分を“０”、（０，μ−σ／２］、（μ−σ／２，μ＋σ／２］、（μ＋σ／２，∞）の４つとする。なお、（ａ，ｂ）は、値がａより大きくｂより小さい区分を示し、（ａ，ｂ］は、値がａより大きくｂ以下の区分を示す。
【００７３】
【数４】

【００７４】
すなわち、瞬目間隔計測手段１３は、図５（ａ）に示すように、１つの特徴点軌跡について、個々の軌跡（ベクトル）の長さＬと向きθから、図５（ｂ）に示すように、向きを８分割、長さを４分割した区分で、ビン（ｂｉｎ）数の合計が２５（８〔方向〕×３〔長さ〕＋１〔長さ“０”〕）のヒストグラム（軌跡ヒストグラム）を生成する。
【００７５】
そして、瞬目間隔計測手段１３は、生成した軌跡ヒストグラムから、予め学習によって求めた２値ＳＶＭ（サポートベクタマシン）識別器により、現時点における特徴点軌跡の集合が瞬目状態を示す軌跡であるか否かを判定する。なお、この２値ＳＶＭ識別器は、事前（学習フェーズ）に特徴点の軌跡ヒストグラムをｋ−ｍｅａｎｓ法（ｋ平均法）によって、予め定めたｋ個（例えば、１００個）の代表ヒストグラムに量子化することでｋ個のコードブックを生成し、瞬目状態であるか否か予め学習しておくものとする。この２値ＳＶＭ識別器は、軌跡ヒストグラムが入力された際に、その軌跡ヒストグラムが瞬目を示しているか否かの結果を返す瞬目検出器（瞬目検出関数）であって、図示を省略した記憶手段に予め記憶しておく。
【００７６】
そして、瞬目間隔計測手段１３は、瞬目と判定した時刻（瞬目と判定した時点のフレーム）の時間間隔（瞬目間隔時間）を計測する。
すなわち、ｔｐをトピックのＩＤ番号、ｎを当該トピック内での瞬目を識別するＩＤ番号、ｔ（ｎ）をｎ番目の瞬目が検出された時刻（フレーム番号）としたとき、瞬目間隔計測手段１３は、以下の式（５）により、瞬目が検出された時間間隔（瞬目間隔時間）Ｂ_ｔｐ（ｎ）を計測する。
【００７７】
【数５】

【００７８】
この瞬目間隔計測手段１３で計測された瞬目間隔時間は、映像区間（トピック）ごとに、統計特徴量生成手段３０に出力される。
【００７９】
視線変動量計測手段１４は、傾き補正手段１２で補正された、カメラＣから時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて、人物Ｈの目領域を検出し、当該目領域内の左右領域の輝度比から、単位時間当たりの視線変動量を計測するものである。
【００８０】
ここでは、視線変動量計測手段１４は、まず、カメラ画像から目領域を検出する。この目領域の検出は、瞬目間隔計測手段１３と同様に、一般的なＶｉｏｌａとＪｏｎｅｓの手法を用いることができる。
すなわち、視線変動量計測手段１４は、目の白黒領域を矩形内の輝度値の差で表したＨａａｒ−ｌｉｋｅ特徴量を用いて、予め学習した複数のカスケード型の識別器によって目の領域を検出する。なお、視線変動量計測手段１４は、瞬目間隔計測手段１３と同様に、カメラ画像から、一旦、顔領域を検出し、その顔領域内で目の領域を検出することとしてもよい。
【００８１】
そして、視線変動量計測手段１４は、検出した目領域を水平方向の中心で左右に区分し、左領域および右領域のそれぞれの輝度計測領域について画素の輝度値を合計する。
すなわち、視線変動量計測手段１４は、図６（ａ）に示すように、目領域を検出後、図６（ｂ）に示すように、目領域の水平方向の中心で左右に区分した右領域Ｅ_Ｒと左領域Ｅ_Ｌとにおいて、画素の輝度値を合計する。
【００８２】
そして、視線変動量計測手段１４は、この右領域Ｅ_Ｒと左領域Ｅ_Ｌとの輝度値の比で視線方向を特定する。
例えば、図６（ｂ）におけるそれぞれの領域（Ｅ_Ｒ，Ｅ_Ｌ）の画素数をＮ、右領域Ｅ_Ｒ内の任意の画素ｉにおける輝度値をＩ_Ｒ（ｉ）、左領域Ｅ_Ｌ内の任意の画素ｉにおける輝度値をＩ_Ｌ（ｉ）としたとき、視線変動量計測手段１４は、ある時刻ｔフレームにおける視線方向ｄ_ｔを、以下の式（６）により算出する。
【００８３】
【数６】

【００８４】
この式（６）において、輝度値が大きいほど明るい画素であるとすると、人物ＨがカメラＣに向かって右方向を向き、右領域Ｅ_Ｒにおける角膜（黒目）の割合が多くなるとｄ_ｔは増加する。また、人物ＨがカメラＣに向かって左方向を向き、左領域Ｅ_Ｌにおける角膜の割合が多くなるとｄ_ｔは減少する。
なお、視線変動量計測手段１４は、人物Ｈの目領域として、左右の２つの目領域を検出した場合、左右の目領域において、それぞれ前記式（６）で視線方向を算出し、その平均をとることとする。
【００８５】
そして、視線変動量計測手段１４は、前記式（６）で算出された視線方向の時間方向の差分を求めることで、時系列に視線変動量を算出する。
すなわち、ｔｐをトピックのＩＤ番号、ｔを視線方向を計測した時刻（フレーム番号）としたとき、視線変動量計測手段１４は、以下の式（７）により、視線変動量Ｅ_ｔｐ（ｔ）を計測する。なお、｜ａ｜は、ａの絶対値を示す。
【００８６】
【数７】

【００８７】
前記式（６）における視線方向ｄ_ｔは、視線方向推定としては十分な精度は得られないが、前記式（７）のように、差分値を算出することで、視線の変動量を精度よく求めることができる。
この視線変動量計測手段１４で計測された視線変動量は、映像区間（トピック）ごとに、統計特徴量生成手段３０に出力される。
【００８８】
視線変動量使用判定手段２０は、身体特徴量抽出手段１０で抽出された視線変動量を後記する統計特徴量生成手段３０で使用するか否かを判定するものである。ここでは、視線変動量使用判定手段２０は、字幕情報量計測手段２１と、映像動き量計測手段２２と、使用判定手段２３と、を備えている。
【００８９】
通常、映像内に字幕が多く出現し、人物Ｈがその字幕を注目した場合、人物Ｈは字幕を読むために必然的に視線変動量は多くなる。また、映像に動きが多い場合、人物Ｈはその動きを目で追うために必然的に視線変動量は多くなる。
すなわち、人物Ｈが字幕を注目した場合、あるいは、人物Ｈが映像の動きに注目した場合、人物Ｈが映像に注目すると視線変動量が小さくなるという前提と逆の方向に作用することになる。
そこで、ここでは、字幕情報量や映像動き量を、注目度を推定する際に視線変動量を使用するか否かの判定の指標として検出する。
【００９０】
字幕情報量計測手段２１は、入力される映像コンテンツにおいて、指定された映像区間（トピック）ごとに、字幕の情報量（字幕情報量）を計測するものである。ここでは、字幕情報量計測手段２１は、トピック内に含まれる字幕を含んだフレーム数の割合を字幕情報量とする。
【００９１】
具体的には、字幕情報量計測手段２１は、入力された映像コンテンツをフレーム画像単位で、２次微分であるラプラシアン画像に変換する。一般に、映像内における字幕領域は、他の領域に比べてコントラストが高く、エッジ特徴が表れやすいためである。
ここで、フレーム画像の画素値をＩ（ｘ，ｙ）、変換後のラプラシアン画像の画素値をＩ′（ｘ，ｙ）としたとき、字幕情報量計測手段２１は、以下の式（８）の演算により、ラプラシアン画像を生成する。
【００９２】
【数８】

【００９３】
このラプラシアン画像Ｉ′（ｘ，ｙ）の各画素は、例えば、画素の階調が８階調であれば、“０”〜“２５５”の値を持つ。ここでは、その画素値ごと（ｂｉｎ数２５６）に画素数を累計したヒストグラム（エッジヒストグラム）を、当該フレーム画像における字幕特徴量とする。
そして、字幕情報量計測手段２１は、エッジヒストグラムを字幕特徴量として予め学習によって求めた識別器（例えば、２値ＳＶＭ識別器）により、フレーム画像ごとに字幕の有無を検出する。あるいは、簡易に、フレーム画像において、所定輝度値以上の割合が、予め定めた割合よりも多いか否かによって、字幕の有無を検出することとしてもよい。
【００９４】
このように、字幕情報量計測手段２１は、フレーム画像において字幕を検出し、字幕を検出したフレーム数と、トピックの時間長（フレーム数）との比によって、字幕情報量を算出する。
すなわち、トピックｔｐ（トピックのＩＤ番号）において、字幕を検出したフレーム数をＮ（ｔｐ）、トピックの時間長（トピックの総フレーム数）をＴ（ｔｐ）としたき、字幕情報量計測手段２１は、以下の式（９）により字幕情報量Ｊ_ｔｐを算出する。
【００９５】
【数９】

【００９６】
この字幕情報量計測手段２１で計測された字幕特徴量は、使用判定手段２３に出力される。
【００９７】
映像動き量計測手段２２は、入力される映像コンテンツにおいて、指定された映像区間（トピック）ごとに、映像内の動き量（映像動き量）を計測するものである。ここでは、映像動き量計測手段２２は、トピック内のフレームごとに、差分をとることで映像内の動きを検出し、トピック内に含まれる動きの大きいフレーム数の割合を映像動き量とする。
例えば、映像動き量計測手段２２は、入力される映像コンテンツのフレーム画像ごとに、予め定めた大きさのブロック単位で、１フレーム前に入力されたフレーム画像の同一のブロック間で差分をとり、その差が予め定めた量よりも大きい場合に、当該ブロックにおいて動きがあったことを検出し、動きのあったブロックの数が予め定めた数（あるいは割合）よりも大きい場合に当該フレーム画像において動きが大きいと判定する。
【００９８】
そして、映像動き量計測手段２２は、字幕情報量計測手段２１と同様に、動きが大きいと判定したフレーム数と、トピックの時間長（フレーム数）との比によって、映像動き量を算出する。
この映像動き量計測手段２２で計測された映像動き量は、使用判定手段２３に出力される。
【００９９】
使用判定手段２３は、字幕情報量計測手段２１で計測された字幕情報量と、映像動き量計測手段２２で計測された映像動き量とに基づいて、指定された映像区間（トピック）において、視線変動量を、注目度を推定する際の特徴量とするか否かを判定するものである。
【０１００】
ここでは、使用判定手段２３は、字幕情報量が予め定めた量よりも多い、または、映像動き量が予め定めた量よりも多い場合に、視線変動量を、注目度を推定する際の特徴量としない旨の判定を行う。なお、それ以外の場合、使用判定手段２３は、視線変動量を、注目度を推定する際の特徴量とする旨の判定を行う。
【０１０１】
なお、字幕情報量や映像動き量が多いか否かを判定する予め定めた量は、字幕情報量計測手段２１や映像動き量計測手段２２において、映像コンテンツの全トピックで字幕情報量と映像動き量とを計測した後、統計量によって定めることとしてもよい。
例えば、使用判定手段２３は、全トピックの字幕情報量Ｊ_ｔｐの平均μ_ｔｐと標準偏差σ_ｔｐとを算出し、μ_ｔｐ＋σ_ｔｐを超える場合に、字幕情報量が多いと判定する。また、映像動き量についても同様である。
【０１０２】
なお、ここでは、使用判定手段２３は、字幕情報量と映像動き量とをそれぞれ個別に判定したが、字幕情報量と映像動き量とを加算（例えば、重み付き加算）した量に対して判定を行うこととしてもよい。
この使用判定手段２３におけるトピックごとの視線変動量の使用判定結果は、統計特徴量生成手段３０および注目度特定手段５０に出力される。
【０１０３】
統計特徴量生成手段３０は、身体特徴量抽出手段１０で抽出された各特徴量（身体動作量、瞬目間隔時間、視線変動量）を統計し、映像区間（トピック）における固定次元の特徴量を生成するものである。なお、統計特徴量生成手段３０は、視線変動量使用判定手段２０から、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、視線変動量を除いた特徴量で固定次元の特徴量を生成する。
ここでは、統計特徴量生成手段３０は、グローバル特徴生成手段３１と、局所ヒストグラム特徴生成手段３２と、を備えている。
【０１０４】
グローバル特徴生成手段３１は、身体特徴量抽出手段１０で抽出された各特徴量（身体動作量、瞬目間隔時間、視線変動量）から、指定された映像区間（トピック）内におけるグローバル（大局的）な統計特徴量（特徴量記述子）を生成するものである。
すなわち、グローバル特徴生成手段３１は、あるトピックにおける人物Ｈの大まかな特徴をグローバル特徴として生成する。
【０１０５】
ここでは、グローバル特徴生成手段３１は、入力されたトピックごとに、身体動作量の平均値μ_Ｋｔｐおよび標準偏差σ_Ｋｔｐ、瞬目間隔時間の平均値μ_Ｂｔｐおよび標準偏差σ_Ｂｔｐ、ならびに、視線変動量の平均値μ_Ｅｔｐおよび標準偏差σ_Ｅｔｐを算出し、固定次元の特徴量記述子とする。
これによって、３種類の特徴量を、トピックの時間長によらず、固定の６次元の特徴量（特徴量記述子）として表すことができる。
【０１０６】
なお、グローバル特徴生成手段３１は、視線変動量使用判定手段２０から、あるトピックｔｐにおいて、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、視線変動量の平均値および標準偏差を算出せず、２種類の特徴量（身体動作量、瞬目間隔時間）から、それぞれの平均値および標準偏差である４次元の特徴量（特徴量記述子）を生成する。
このように生成されたグローバル特徴（特徴量記述子）は、トピックと対応付けて注目度特定手段５０に出力される。
【０１０７】
局所ヒストグラム特徴生成手段３２は、身体特徴量抽出手段１０で抽出された各特徴量（身体動作量、瞬目間隔時間、視線変動量）から、指定された映像区間（トピック）内における局所的な統計特徴量（特徴量記述子）を生成するものである。
すなわち、局所ヒストグラム特徴生成手段３２は、あるトピックにおける人物Ｈのより細かい特徴量を算出し、ヒストグラム（局所ヒストグラム）化するものである。
【０１０８】
ここでは、局所ヒストグラム特徴生成手段３２は、特徴の分布が特定のビン（ｂｉｎ）に集中しないように、ヒストグラムの各ビンのしきい値を、映像コンテンツ全体の特徴量の平均および標準偏差から求めた値とする。
具体的には、局所ヒストグラム特徴生成手段３２は、映像コンテンツ全体で検出された身体動作量の平均値をμ、その標準偏差をσとし、８つのビンでヒストグラムを生成する。その際の各ビンのしきい値は、図７（ａ）に示すように、（−∞，μ−２σ），［μ−２σ，μ−σ），［μ−σ，μ−１／２σ），［μ−１／２σ，μ），［μ，μ＋１／２σ），［μ＋１／２σ，μ＋σ），［μ＋σ，μ＋２σ），［μ＋２σ，∞）とする。なお、（ａ，ｂ）は、値がａより大きくｂより小さい区分を示し、（ａ，ｂ］は、値がａより大きくｂ以下の区分を示す。
【０１０９】
そして、局所ヒストグラム特徴生成手段３２は、身体特徴量抽出手段１０で抽出された、指定された映像区間（トピック）内における身体動作量を、図７（ａ）で示したビン（区間０〜７）ごとに累計して、図７（ｂ）に示すようなヒストグラム（局所ヒストグラム特徴）を生成する。
なお、瞬目間隔時間および視線変動量についても、身体動作量と同様に、映像コンテンツ全体で検出されたそれぞれの特徴量の平均値と標準偏差でビンのしきい値を求めてヒストグラムを生成する。
【０１１０】
このように、局所ヒストグラム特徴生成手段３２は、映像コンテンツ全体で検出された特徴量の平均値と標準偏差でビンのしきい値を定めることで、極度に偏ったヒストグラムの生成を避けることができる。
これによって、３種類の特徴量を、トピックの時間長によらず、固定の２４次元の特徴量（特徴量記述子）として表すことができる。
【０１１１】
なお、局所ヒストグラム特徴生成手段３２は、視線変動量使用判定手段２０から、あるトピックｔｐにおいて、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、視線変動量については、局所ヒストグラムを生成せず、２種類の特徴量（身体動作量、瞬目間隔時間）から、それぞれの局所ヒストグラムを生成し、１６次元の特徴量（特徴量記述子）を生成する。
このように算出された局所ヒストグラム特徴（特徴量記述子）は、トピックと対応付けて注目度特定手段５０に出力される。
【０１１２】
すなわち、統計特徴量生成手段３０で生成される統計特徴量は、図８に示すように、グローバル特徴である身体動作量、瞬目間隔時間および視線変動量のそれぞれの平均値および標準偏差の６次元の特徴量記述子と、局所ヒストグラム特徴である身体動作量、瞬目間隔時間および視線変動量の各ビン（区間０〜７）の度数の２４次元の特徴量記述子とからなる３０次元の固定次元の特徴量記述子である。
【０１１３】
なお、視線変動量使用判定手段２０から、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、統計特徴量生成手段３０で生成される統計特徴量は、図８に示した特徴量記述子から、視線変動量の特徴量を除いた２０次元の特徴量記述子となる。
【０１１４】
学習データ記憶手段（第２学習データ記憶手段）４０は、特徴量（グローバル特徴、局所ヒストグラム特徴）と、注目度との対応関係を予め学習した学習データを記憶するものであって、ハードディスク等の一般的な記憶装置である。
この学習データ記憶手段４０は、予め第１学習データＤ１と第２学習データＤ２の２つの学習データを記憶しておく。なお、第１学習データＤ１と第２学習データＤ２とを異なる記憶手段に記憶することとしてもよい。
【０１１５】
第１学習データＤ１は、学習フェーズにおいて、予め人物が映像コンテンツ（トピック）を視聴した際の特徴量（グローバル特徴、局所ヒストグラム特徴）を学習特徴量とし、そのときの注目度を、主観評価値（例えば、非注目から注目までを５段階で評価した値）とすることで学習したＳＶＭ推定器（識別関数）である。
このＳＶＭ推定器は、例えば、出力値（注目度）が連続値をとる分類器（ＳＶＭ回帰推定器）とする。もちろん、注目度を２クラス（注目、非注目）で出力させたい場合、２クラス分類器であってもよいし、注目度を多クラス（多値）で出力させたい場合、多クラス分類器であっても構わない。
【０１１６】
第２学習データＤ２は、第１学習データＤ１と同様に学習したＳＶＭ推定器（識別関数）である。ただし、第１学習データＤ１が特徴量に視線変動量を含んでいるのに対し、第２学習データＤ２は、特徴量に視線変動量を含まずに学習したＳＶＭ推定器（識別関数）である。
【０１１７】
このような学習データは、例えば、図１２に示すような、注目度学習装置２を用いて生成することができる。
この注目度学習装置２は、注目度推定装置１において、注目度特定手段５０を学習手段６０に替え、視線変動量使用判定手段２０を除いて構成したもので、他の構成は同一である。
【０１１８】
すなわち、注目度学習装置２の学習手段６０は、予め人物が映像コンテンツ（トピック）を視聴した際の特徴量（グローバル特徴、局所ヒストグラム特徴）を学習特徴量とし、そのときの注目度を、主観評価値（例えば、非注目から注目までを５段階で評価した値）として、図示を省略した入力手段を介して入力されることで、ＳＶＭ推定器（識別関数）を生成し、学習データ記憶手段４０に記憶する。
【０１１９】
このとき、注目度学習装置２は、視線変動量を特徴量として用いた第１学習データＤ１と、視線変動量を特徴量として用いない第２学習データＤ２とを生成する。
このように、注目度学習装置２によって、予め学習によって生成された第１学習データＤ１と第２学習データＤ２とを、注目度推定装置１の学習データ記憶手段４０に記憶しておく。
図２に戻って、注目度推定装置１の構成について説明を続ける。
【０１２０】
注目度特定手段５０は、学習データ記憶手段４０に記憶されている学習データに基づいて、統計特徴量生成手段３０で生成された特徴量（特徴量記述子）に対応する注目度を、指定された映像区間に対する注目度として特定するものである。
すなわち、注目度特定手段５０は、学習データ記憶手段４０に記憶されている学習データ（ＳＶＭ推定器：識別関数）を用い、統計特徴量生成手段３０で生成された特徴量記述子を入力値として注目度を演算する。
【０１２１】
なお、注目度特定手段５０は、視線変動量使用判定手段２０から、あるトピックｔｐ（映像区間）において、視線変動量を特徴量として使用する旨の判定結果が入力された場合、学習データ記憶手段４０に記憶されている第１学習データＤ１を用いて注目度を演算する。
【０１２２】
一方、注目度特定手段５０は、視線変動量使用判定手段２０から、あるトピックｔｐ（映像区間）において、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、学習データ記憶手段４０に記憶されている第２学習データＤ２を用いて注目度を演算する。
【０１２３】
このようにトピック（映像区間）ごとに特定された注目度は、注目度推定装置１の推定結果として出力される。なお、注目度特定手段５０は、図示を省略した通信制御部を介して、ネットワーク経由で、映像コンテンツ（トピック）の識別情報と対応付けて、映像コンテンツの送信元に注目度を送信することとしてもよい。
【０１２４】
以上説明したように、注目度推定装置１を構成することで、注目度推定装置１は、モーションキャプチャＭｃから入力される骨格位置情報と、カメラＣから入力されるカメラ映像とから、接触型デバイスの装着や、赤外線光の照射等、人物に負荷を与えることなく、映像コンテンツ（トピック）の注目度を推定することができる。
なお、注目度推定装置１は、一般的なコンピュータを前記した各手段として機能させるプログラム（注目度推定プログラム）により動作させることができる。
【０１２５】
［注目度推定装置の動作］
次に、図９を参照（適宜図１，図２参照）して、本発明の実施形態に係る注目度推定装置１の動作について説明する。なお、ここでは、予め学習データ記憶手段４０に、学習データ（第１学習データＤ１、第２学習データＤ２）が記憶されているものとする。
【０１２６】
まず、注目度推定装置１は、身体動作量計測手段１１によって、モーションキャプチャＭｃから入力される骨格位置情報を時系列に入力し、人物Ｈの予め定めた骨格位置における単位時間（例えば、フレーム）当たりの身体動作量を計測する（ステップＳ１）。例えば、身体動作量計測手段１１は、骨格位置情報として入力される人物Ｈの頭部位置の単位時間あたりの変化量を身体動作量とする。
【０１２７】
また、注目度推定装置１は、傾き補正手段１２によって、カメラＣから入力されるカメラ映像を、フレームごとに人物Ｈの顔がフレーム画像（カメラ画像）上で垂直になるように傾きを補正する（ステップＳ２）。このとき、傾き補正手段１２は、モーションキャプチャＭｃから入力される骨格位置情報において、頸部位置が頭部位置の直下になるように、フレーム画像の画像中心を中心としてカメラ画像を回転させる。
【０１２８】
そして、注目度推定装置１は、瞬目間隔計測手段１３によって、ステップＳ２で傾き補正されて逐次入力されるカメラ画像において、人物Ｈの瞬きを検出し、当該瞬きの間隔を瞬目間隔時間として計測する（ステップＳ３）。ここでは、瞬目間隔計測手段１３は、カメラ画像内で特徴点を検出、追跡し、その特徴点軌跡を１つの単語とみなしたＢａｇ−ｏｆ−ｗｏｒｄｓ手法を用いて瞬目動作を識別する。
【０１２９】
さらに、注目度推定装置１は、視線変動量計測手段１４によって、ステップＳ２で傾き補正されて逐次入力されるカメラ画像において、単位時間当たりの視線変動量を計測する（ステップＳ４）。ここでは、視線変動量計測手段１４は、カメラ画像から、人物Ｈの目領域を検出し、目領域の水平方向の中心で左右に区分した右領域と左領域との輝度比の時間変化によって、視線変動量を計測する。
【０１３０】
また、注目度推定装置１は、字幕情報量計測手段２１によって、入力される映像コンテンツにおいて、フレームごとに字幕を検出する（ステップＳ５）。さらに、注目度推定装置１は、入力される映像コンテンツにおいて、フレームごとの差分から、予め定めた量よりも動き量が大きいフレームを検出する（ステップＳ６）。
【０１３１】
そして、映像コンテンツの入力で、指定された映像区間（トピック）が終了していない場合（ステップＳ７でＮｏ）、注目度推定装置１は、ステップＳ１に戻って、順次ステップＳ１からステップＳ６までの操作を繰り返す。
これによって、トピック内における身体動作量、瞬目間隔時間および視線変動量が単位時間（ここでは、フレーム）ごとに計測される。また、トピック内において字幕が存在するフレームおよび動きが大きいフレームが検出される。
【０１３２】
そして、指定された映像区間（トピック）が終了した場合（ステップＳ７でＹｅｓ）、注目度推定装置１は、字幕情報量計測手段２１によって、トピックの時間長（トピックの総フレーム数）に対する字幕を検出したフレーム数の割合を字幕情報量として計算する（ステップＳ８）。
また、注目度推定装置１は、トピックの時間長（トピックの総フレーム数）に対する動きが大きいとして検出したフレーム数の割合を映像動き量として計算する（ステップＳ９）。
そして、注目度推定装置１は、使用判定手段２３によって、ステップＳ８，Ｓ９で計算された字幕情報量が予め定めた量よりも多い、または、映像動き量が予め定めた量よりも多いか否かを判定する（ステップＳ１０）。
【０１３３】
ここで、字幕情報量が予め定めた量よりも多い、または、映像動き量が予め定めた量よりも多い場合（ステップＳ１０でＹｅｓ）、注目度推定装置１は、統計特徴量生成手段３０によって、視線変動量を除いた特徴量（特徴量記述子）を生成する（ステップＳ１１）。
このとき、統計特徴量生成手段３０は、グローバル特徴生成手段３１によって、身体動作量および瞬目間隔時間のそれぞれについて、トピック内における平均値と標準偏差をグローバル特徴として生成する。
また、統計特徴量生成手段３０は、局所ヒストグラム特徴生成手段３２によって、身体動作量および瞬目間隔時間のそれぞれについて、ヒストグラムを生成することで、局所ヒストグラム特徴を生成する。
【０１３４】
そして、注目度推定装置１は、注目度特定手段５０によって、学習データ記憶手段４０に記憶されている、視線変動量を除いて学習した第２学習データＤ２を用いて、ステップＳ１１で生成された特徴量（特徴量記述子）に対する注目度を特定（推定）する（ステップＳ１２）。
【０１３５】
一方、字幕情報量が予め定めた量よりも少なく、かつ、映像動き量が予め定めた量よりも少ない場合（ステップＳ１０でＮｏ）、注目度推定装置１は、統計特徴量生成手段３０によって、視線変動量を含んだ特徴量（特徴量記述子）を生成する（ステップＳ１３）。
すなわち、統計特徴量生成手段３０は、グローバル特徴生成手段３１によって、身体動作量、瞬目間隔時間および視線変動量のそれぞれについて、トピック内における平均値と標準偏差をグローバル特徴として生成する。
また、統計特徴量生成手段３０は、局所ヒストグラム特徴生成手段３２によって、身体動作量、瞬目間隔時間および視線変動量のそれぞれについて、ヒストグラムを生成することで、局所ヒストグラム特徴を生成する。
【０１３６】
そして、注目度推定装置１は、注目度特定手段５０によって、学習データ記憶手段４０に記憶されている、視線変動量を含んで学習した第１学習データＤ１を用いて、ステップＳ１３で生成された特徴量（特徴量記述子）に対する注目度を特定（推定）する（ステップＳ１４）。
【０１３７】
以上の動作によって、注目度推定装置１は、映像コンテンツ（トピック）を視聴する人物Ｈの当該トピックに対する注目度を推定することができる。このとき、注目度推定装置１は、身体動作量、瞬目間隔時間および視線変動量といった人物Ｈの身体特徴を、画像処理によって計測するため、人物Ｈに負荷を与えることなく、注目度を推定することができる。
また、注目度推定装置１は、映像コンテンツに字幕が多い場合、あるいは、映像の動きが多い場合には、視線特徴量を注目度推定に使用しないことで、注目度を精度よく求めることができる。
【０１３８】
以上、本発明の実施形態に係る注目度推定装置１の構成および動作について説明したが、本発明はこの実施形態に限定されるものではない。
例えば、ここでは、統計特徴量生成手段３０は、図８で説明したように、あるトピックにおいて、６次元のグローバル特徴と、２４次元の局所ヒストグラム特徴とからなる３０次元の固定次元の特徴量記述子を生成することとしたが、さらにトピックを時間方向に区切って、その区間ごとに、３０次元の特徴量記述子を生成することとてもよい。
【０１３９】
例えば、図１０に示すように、統計特徴量生成手段３０は、あるトピックｎについて、全体特徴量として、前記した３０次元の特徴量記述子を生成する。さらに、統計特徴量生成手段３０は、トピックｎを時間方向に２分割し、それぞれの区間において、前記した３０次元の特徴量記述子をそれぞれ生成する（２分割特徴量）。
あるいは、さらに、トピックｎを時間方向に４分割し、それぞれの区間において、前記した３０次元の特徴量記述子をそれぞれ生成することとしてもよい（４分割特徴量）。これによって、トピックｎについて、２１０次元（３０次元×７特徴量記述子）の固定次元の特徴量記述子群が生成される。
【０１４０】
このように、時間方向に区分した特徴量を含ませることで、全体特徴量において、時間方向に局所的な特徴の影響が薄れてしまう場合であっても、局所的な特徴を残した特徴量となる。
この場合、視線変動量を使用しない特徴量記述子群については、１４０次元（２０次元×７特徴量記述子）の固定次元の特徴量記述子群となる。
【０１４１】
また、統計特徴量生成手段３０は、図１０に示すように、トピックｎに前後するトピック（ｎ−１，ｎ＋１）における特徴量記述子を付加して、トピックｎにおける特徴量記述子群としてもよい。例えば、図１０の例の場合、統計特徴量生成手段３０は、トピックｎにおける２１０次元（３０次元×７特徴量記述子）の特徴量記述子群に、トピック（ｎ−１）とトピック（ｎ＋１）のそれぞれのトピックｎの直近の４分割特徴量を付加して、２７０次元（３０次元×９特徴量記述子）の固定次元の特徴量記述子群を生成する。
この場合、視線変動量を使用しない特徴量記述子群については、１８０次元（２０次元×９特徴量記述子）の固定次元の特徴量記述子群となる。
【０１４２】
このように、トピック前後の特徴を付加することで、例えば、瞬目回数が、注目状態から解放された直後に増加するといった、トピックに跨った特徴量の変化を考慮して注目状態を判定することができる。
なお、このような時間方向に分割した特徴量記述子群を付加して用いる場合、学習データ記憶手段４０に記憶される第１学習データＤ１や第２学習データＤ２は、その付加した特徴量記述子群と同次数の特徴量記述子群によって、予め学習しておくことはいうまでもない。
【０１４３】
また、本実施形態では、字幕や映像の動きによって、視線変動量を特徴量として使用するか否かを判定することとしたが、予め字幕が存在しない映像コンテンツや、動きに大きな変化がない映像コンテンツを対象とする場合であれば、字幕情報量計測手段２１や映像動き量計測手段２２を、構成から省略しても構わない。
【０１４４】
また、字幕情報量計測手段２１や映像動き量計測手段２２を両者とも構成から省略する場合、図１１に示すように、図２の注目度推定装置１から、視線変動量使用判定手段２０を省略しても構わない。その場合、学習データ記憶手段４０Ｂには、第１学習データＤ１のみを予め学習して記憶しておけばよい。
あるいは、さらに、構成を簡略化し、注目度推定装置１，１Ｂから、身体動作量計測手段１１と瞬目間隔計測手段１３のいずれか一方を省略して構成してもよい。
【０１４５】
以上説明したように、本発明は、映像コンテンツを視聴している人物の注目度を、人物に負荷をかけずに推定することができるため、一般家庭においても容易に人物の注目度を推定することができる。
このため、従来は、単に映像コンテンツを表示するだけで計測していた“視聴率”に対して、実際に人物が映像コンテンツを視聴し、その注目度を推定することで、映像コンテンツそのものの評価となる“視聴質”を計測することも可能になる。
【符号の説明】
【０１４６】
１注目度推定装置
１０身体特徴量抽出手段
１１身体動作量計測手段
１２傾き補正手段
１３瞬目間隔計測手段
１４視線変動量計測手段
２０視線変動量使用判定手段
２１字幕情報量計測手段
２２映像動き量計測手段
２３使用判定手段
３０統計特徴量生成手段
３１グローバル特徴生成手段
３２局所ヒストグラム特徴生成手段
４０学習データ記憶手段（第２学習データ記憶手段）
５０注目度特定手段
Ｓ注目度測定システム
Ｍモニタ
Ｃカメラ
Ｍｃモーションキャプチャ

【特許請求の範囲】
【請求項１】
映像コンテンツを視聴している人物を撮影した画像から当該人物の骨格位置を検出するモーションキャプチャで計測して得られる骨格位置情報と、前記人物をカメラで撮影したカメラ映像とから、前記映像コンテンツの予め定めた映像区間において、前記人物の注目の度合いを示す注目度を推定する注目度推定装置であって、
前記骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置における単位時間当たりの変化量である身体動作量を前記人物の身体特徴量の１つとして計測する身体動作量計測手段と、
前記カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて前記人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を前記身体特徴量の１つとして計測する視線変動量計測手段と、
前記身体特徴量のそれぞれについて、前記映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する統計特徴量生成手段と、
前記統計特徴量と前記注目度との対応関係を学習データとして予め記憶した学習データ記憶手段と、
この学習データ記憶手段に記憶されている学習データに基づいて、前記統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する注目度特定手段と、
を備えることを特徴とする注目度推定装置。
【請求項２】
前記時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて前記人物の瞬きを検出し、瞬目間隔時間を前記身体特徴量の１つとして計測する瞬目間隔計測手段を、さらに備えることを特徴とする請求項１に記載の注目度推定装置。
【請求項３】
前記骨格位置情報で示される前記人物の頭部位置および頸部位置に基づいて、前記頸部位置が前記頭部位置の直下になるように前記カメラ画像を回転させる傾き補正手段を、さらに備えることを特徴とする請求項１または請求項２に記載の注目度推定装置。
【請求項４】
前記身体特徴量から前記視線変動量を除いた統計特徴量と前記注目度との対応関係を第２学習データとして予め記憶した第２学習データ記憶手段と、
前記映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する字幕情報量計測手段と、
前記映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する映像動き量検出手段と、
前記字幕情報量が予め定めた情報量よりも多い、または、前記映像動き量が予め定めた動き量よりも多い場合に、前記視線変動量を前記身体特徴量として使用しない旨を判定する使用判定手段と、をさらに備え、
前記使用判定手段において、前記視線変動量を前記身体特徴量として使用しない旨が判定された場合、前記注目度特定手段は、前記学習データに代えて前記第２学習データに基づいて、前記視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定することを特徴とする請求項１から請求項３のいずれか一項に記載の注目度推定装置。
【請求項５】
前記身体特徴量から前記視線変動量を除いた統計特徴量と前記注目度との対応関係を第２学習データとして予め記憶した第２学習データ記憶手段と、
前記映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する字幕情報量計測手段と、
前記字幕情報量が予め定めた情報量よりも多い場合に、前記視線変動量を前記身体特徴量として使用しない旨を判定する使用判定手段と、をさらに備え、
前記使用判定手段において、前記視線変動量を前記身体特徴量として使用しない旨が判定された場合、前記注目度特定手段は、前記学習データに代えて前記第２学習データに基づいて、前記視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定することを特徴とする請求項１から請求項３のいずれか一項に記載の注目度推定装置。
【請求項６】
前記身体特徴量から前記視線変動量を除いた統計特徴量と前記注目度との対応関係を第２学習データとして予め記憶した第２学習データ記憶手段と、
前記映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する映像動き量検出手段と、
前記映像動き量が予め定めた動き量よりも多い場合に、前記視線変動量を前記身体特徴量として使用しない旨を判定する使用判定手段と、をさらに備え、
前記使用判定手段において、前記視線変動量を前記身体特徴量として使用しない旨が判定された場合、前記注目度特定手段は、前記学習データに代えて前記第２学習データに基づいて、前記視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定することを特徴とする請求項１から請求項３のいずれか一項に記載の注目度推定装置。
【請求項７】
前記統計特徴量生成手段は、前記映像区間全体における前記身体特徴量の平均値および標準偏差であるグローバル特徴と、前記身体統計量を予め定めたビン幅でヒストグラム化した局所ヒストグラム特徴とを前記統計特徴量として生成することを特徴とする請求項１から請求項６のいずれか一項に記載の注目度推定装置。
【請求項８】
前記統計特徴量生成手段は、前記映像区間を予め定めた時間区間に分割した区間ごとに、さらに前記局所ヒストグラム特徴を生成することを特徴とする請求項７に記載の注目度推定装置。
【請求項９】
前記統計特徴量生成手段は、前記注目度を推定する対象となる映像区間の統計特徴量に、当該映像区間の前後の映像区間の局所ヒストグラム特徴を付加して当該注目度を推定する映像区間の統計特徴量とすることを特徴とする請求項７または請求項８に記載の注目度推定装置。
【請求項１０】
映像コンテンツを視聴している人物を撮影した画像から当該人物の骨格位置を検出するモーションキャプチャで計測して得られる骨格位置情報と、前記人物をカメラで撮影したカメラ映像とから、前記映像コンテンツの予め定めた映像区間において、前記人物の注目の度合いを示す注目度を推定するために、コンピュータを、
前記骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置における単位時間当たりの変化量である身体動作量を前記人物の身体特徴量の１つとして計測する身体動作量計測手段、
前記カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて前記人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を前記身体特徴量の１つとして計測する視線変動量計測手段、
前記身体特徴量のそれぞれについて、前記映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する統計特徴量生成手段、
前記統計特徴量と前記注目度との対応関係を予め学習した学習データに基づいて、前記統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する注目度特定手段、
として機能させることを特徴とする注目度推定プログラム。

【図１】