説明

顔表情変化度測定装置およびそのプログラム並びに番組興味度測定装置

【課題】撮影環境の変動に対しても頑健に撮影画像から顔表情の変化度を測定する技術を提供する。
【解決手段】顔表情変化度測定装置1は、被写体の撮影画像において顔領域検出手段4によって検出された顔領域からSURFを特徴点として抽出する画像特徴量抽出手段5と、被写体の標準顔から抽出されたSURFをクラスタに分類すると共に、当該被写体の入力顔から抽出されたSURFを、標準顔のSURFを分類したときの各クラスタのうち特微量に関して最も距離の近いクラスタに分類するクラスタリング手段8と、標準顔に対して分類された各クラスタと、入力顔に対して分類された各クラスタの双方について、クラスタ毎にクラスタ中のSURFの個数を頻度とするヒストグラムをそれぞれ作成するヒストグラム作成手段9と、標準顔ヒストグラム13と入力顔ヒストグラム14との差分を被写体の顔表情変化度として算出する差分算出手段11とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、測定対象の顔の表情を解析する技術に係り、特に、テレビ視聴者の顔の表情を解析する技術に関する。
【背景技術】
【0002】
コンピュータビジョン技術において、人間とコンピュータやロボットとが円滑にコミュニケーションを図れるようにすることや、商品等に対する人の興味度合いを測定することを目的に、顔表情認識に関する研究が活発に行われている。
【0003】
カメラで撮影した被写体の顔の表情が、怒り、悲しみ、驚き、喜び等のいずれであるのかをカテゴライズする手法は、非特許文献1等にも示されているように、既に高精度なものが多数提案されている。非特許文献1の手法は、表情認識法において、頑健な(ロバストな)パーティクルフィルタと、高精度の勾配法とを組み合わせることで、実時間での頑健かつ高精度な推定を行うものである。この手法は、照明変化や上下方向の首振りといった輝度変化に対して頑健である。つまり、輝度変化に対して安定して表情を推定することができる。しかしながら、前記のように人間とコンピュータ等がコミュニケーションを図ったり、人の商品等に対する興味度合いを測定したりするためには、顔表情のカテゴライズのみでなく、顔の表情の度合も測定できることが望まれている。
【0004】
撮像装置の分野では、従来、例えば笑顔と通常の表情などの異なる表情の間において一方の表情にどれだけ近いかの度合いを示す表情評価値を算出する方法が知られている(例えば特許文献1参照)。特許文献1に記載の表情評価法では、笑顔のサンプル画像と通常の表情のサンプル画像として、48画素×48画素の一定サイズに正規化した顔画像を用意しておく。そして、これらのサンプル画像のデータを、(48×48)次元のベクトルデータとして取り扱い、線形判別分析(LDA:Linear Discriminant Analysis)の処理を行う。
【0005】
また、例えば特許文献2に記載された技術は、患者等の表情を撮影した画像を利用して、投薬制御や回復評価を行うシステムであって、感情や状態に伴って変化する表情の度合いが段階的に変化する複数の顔画像からなる表情遷移マップの各段階の顔画像と、取り込まれた人物の実写顔画像との照合を行い、最も類似している顔画像を選択してその段階を出力することにより、所定の表情の度合いの判定を行うものである。
【0006】
また、近年、ハードディスクレコーダの普及や、インターネット経由でのビデオ配信サービスの広まりにより、視聴者が膨大なビデオから興味を持つ番組やシーンを的確に取得することを可能にする技術の開発が求められている。これを実現するために、視聴者の視聴番組履歴を利用して、視聴者が好むであろう番組を推薦するシステムが提案されている。また、視聴番組履歴以外の条件も考慮して、番組を推薦する技術も知られている(例えば特許文献3参照)。
【0007】
例えば、特許文献3に開示されたクライアント・サーバシステムでは、多数のクライアントと接続されたサーバが、各クライアントから情報を収集し、協調フィルタリングによってクライアントにコンテンツの推薦を行う。また、クライアントでは、テレビ番組などのコンテンツの再生中に、コンテンツを視聴しているユーザを撮影して得られた画像からユーザの表情を検出し、ユーザが例えば笑顔になったタイミングと、笑顔の度合いを表す時系列データを取得すると共に、コンテンツの再生終了時にマウス等から入力されたユーザの評価を取得する。ここで、笑顔を検出する方法は、検出された顔から抽出された特徴と、予め用意されている笑顔の特徴とのマッチングにより行われる。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2008−42319号公報(段落0055、図8)
【特許文献2】特開2001−43345号公報(段落0025、図2)
【特許文献3】特開2009−140010号公報(段落0023−0043)
【非特許文献】
【0009】
【非特許文献1】熊野史朗、大塚和弘、大和淳司、前田英作、佐藤洋一、“パーティクルフィルタと勾配法の組み合わせによる頭部姿勢変動に頑健な表情認識種表”、画像の認識・理解シンポジウム(MIRU2008)、Jul.(2008)
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、従来の画像中の顔の表情の度合を測定する技術は、頑健性が不十分であるという問題がある。例えば特許文献1に記載の技術では、笑顔度の測定に用いる特微量が、各画素データに基づく48×48次元ベクトルとなっており、各画素データとして画素値等を用いると、照明が変動する場合等において、顔の表情の度合を安定して測定することができない。
【0011】
また、特許文献2に記載の技術は、照合に用いる特微量が画像の画素値であるため、同様に安定な測定が困難であると共に、さらに、照合に用いる表情遷移マップの信頼性が悪いという問題もある。また、特許文献3に記載の技術は、ユーザを撮影して得られた撮影画像において検出された顔から抽出された特徴として画素値等を用いると、同様に安定な測定が困難である。
【0012】
本発明は、以上のような問題点に鑑みてなされたものであり、環境の変動に対しても安定して測定対象の画像から顔表情の変化度を測定する顔表情変化度測定装置およびそのプログラム並びに番組興味度測定装置を提供することを課題とする。
【課題を解決するための手段】
【0013】
前記課題を解決するために、本発明の請求項1に記載の顔表情変化度測定装置は、測定対象の画像を取り込む画像取込手段と、前記画像中の測定対象の顔領域を検出する顔領域検出手段とを備え、前記画像として入力する測定対象の顔の表情の変化の度合いを顔表情変化度として測定する顔表情変化度測定装置であって、画像特徴量抽出手段と、クラスタリング手段と、ヒストグラム作成手段と、差分算出手段と、を備えることとした。
【0014】
かかる構成によれば、顔表情変化度測定装置は、画像特徴量抽出手段によって、前記画像において前記顔領域検出手段によって検出された顔領域から、ベクトルまたはスカラーで表される画像の特徴量を示す複数の特徴点をそれぞれ抽出する。ここで、画像特徴量としてSURFやSIFT特徴量等を用いることができる。そして、顔表情変化度測定装置は、クラスタリング手段によって、前記検出された顔領域から前記特徴点が抽出された画像のうち、測定対象の基準とする顔の表情を示す標準顔と、当該測定対象の比較しようとする顔の表情を示す入力顔とに関する画像毎に、前記顔領域から抽出された複数の特徴点を、類似した特徴点同士をまとめた所定数のクラスタに分類する。ここで、標準顔と入力顔とは同一の測定対象のものであればよく、それらの表情は任意である。そして、顔表情変化度測定装置は、ヒストグラム作成手段によって、前記標準顔を含む画像に対して前記特徴点が分類された各クラスタと、前記入力顔を含む画像に対して前記特徴点が分類された各クラスタの双方について、各クラスタを階級としてクラスタの要素である特徴点の個数を頻度とするヒストグラムをそれぞれ作成する。そして、顔表情変化度測定装置は、差分算出手段によって、前記標準顔を含む画像に基づく各クラスタから作成されたヒストグラムと、前記入力顔を含む画像に基づく各クラスタから作成されたヒストグラムとの階級毎の差分を加工した正の値の累積和を、当該測定対象の顔表情変化度として算出する。そして、前記クラスタリング手段は、前記標準顔の顔領域から抽出された特徴点を分類して生成された各クラスタをそれぞれ示す標準顔クラスタと、前記入力顔の顔領域から抽出された特徴点との特微量に関する距離を求め、前記入力顔の顔領域から抽出された特徴点を、前記標準顔クラスタのうち特微量に関して最も距離の近いクラスタに分類することを特徴とする。したがって、測定対象の画像として標準顔と入力顔とを同様な環境で取得すれば、取り込んだ画像から顔表情の変化度を正しく測定することができる。
【0015】
また、本発明の請求項2に記載の顔表情変化度測定装置は、請求項1に記載の顔表情変化度測定装置において、前記画像取込手段が、前記測定対象の画像として被写体を撮影するカメラから出力されるカメラ映像を取り込み、前記顔領域検出手段が、前記カメラ映像のフレーム画像毎に、前記被写体の顔領域を検出し、前記カメラ映像として入力する被写体の顔表情変化度を測定することとした。
【0016】
かかる構成によれば、顔表情変化度測定装置は、カメラから出力されるカメラ映像のうちのある時点で検出した被写体の顔を標準顔として予め取得しておき、カメラから次々に出力されるフレーム画像でリアルタイムに検出した入力顔に対して、それぞれの顔表情変化度を求めることができる。また、カメラで次々に撮影されるカメラ影像の撮影環境が変化したときに、撮影環境に合わせて標準顔を新たに取得すれば、撮影環境の変動に対しても頑健に撮影画像から顔表情の変化度を測定することができる。
【0017】
また、本発明の請求項3に記載の顔表情変化度測定装置は、請求項1に記載の顔表情変化度測定装置において、前記画像取込手段が、前記測定対象の画像として被写体をカメラで撮影したカメラ映像を蓄積した画像蓄積装置から出力されるカメラ映像を取り込み、前記顔領域検出手段が、前記カメラ映像のフレーム画像毎に、前記被写体の顔領域を検出し、前記カメラ映像として入力する被写体の顔表情変化度を測定することとした。
【0018】
かかる構成によれば、顔表情変化度測定装置は、例えば画像蓄積装置から出力されるカメラ映像のうちのある時点で検出した被写体の顔を標準顔として予め取得しておき、画像蓄積装置から次々に出力されるフレーム画像から検出した入力顔に対して、それぞれの顔表情変化度を求めることができる。また、同一の被写体が映っている異なるタイミングで撮影したカメラ映像を互いに同様な撮影環境で撮影して蓄積していれば、それらの異なる映像で1つの標準顔を用いたとしても、頑健に撮影画像から顔表情の変化度を測定することができる。
【0019】
また、本発明の請求項4に記載の顔表情変化度測定装置は、請求項1から請求項3のいずれか一項に記載の顔表情変化度測定装置において、画像記憶手段と、検索手段とをさらに備えることとした。
【0020】
かかる構成によれば、顔表情変化度測定装置は、画像記憶手段に、前記画像取込手段で取り込まれた測定対象の画像と、当該画像を基に前記差分算出手段で算出された顔表情変化度とを対応付けて記憶する。そして、顔表情変化度測定装置は、検索手段によって、入力装置から検索キーとして顔表情変化度の入力を受け付け、前記受け付けた顔表情変化度に対応した画像を前記画像記憶手段から検索して表示装置に出力する。したがって、例えば大笑いをした表情に対応した顔表情変化度の値を指定することで、画像記憶手段に蓄積された測定対象の画像の中から、測定対象が大笑いしたシーンを探索することができる。
【0021】
また、本発明の請求項5に記載の顔表情変化度測定プログラムは、測定対象の画像として入力する測定対象の顔の表情の変化の度合いを顔表情変化度として測定するために、コンピュータを、顔領域検出手段、画像特徴量抽出手段、クラスタリング手段、ヒストグラム作成手段、差分算出手段として機能させることとした。
【0022】
かかる構成によれば、顔表情変化度測定プログラムは、顔領域検出手段によって、前記測定対象の顔領域を検出する。そして、顔表情変化度測定プログラムは、画像特徴量抽出手段によって、前記画像において前記顔領域検出手段によって検出された顔領域から、ベクトルまたはスカラーで表される画像の特徴量を示す複数の特徴点をそれぞれ抽出する。そして、顔表情変化度測定プログラムは、クラスタリング手段によって、前記検出された顔領域から前記特徴点が抽出された画像のうち、測定対象の基準とする顔の表情を示す標準顔と、当該測定対象の比較しようとする顔の表情を示す入力顔とに関する画像毎に、前記顔領域から抽出された複数の特徴点を、類似した特徴点同士をまとめた所定数のクラスタに分類する。そして、顔表情変化度測定プログラムは、ヒストグラム作成手段によって、前記標準顔を含む画像に対して前記特徴点が分類された各クラスタと、前記入力顔を含む画像に対して前記特徴点が分類された各クラスタの双方について、各クラスタを階級としてクラスタの要素である特徴点の個数を頻度とするヒストグラムをそれぞれ作成する。そして、顔表情変化度測定プログラムは、差分算出手段によって、前記標準顔を含む画像に基づく各クラスタから作成されたヒストグラムと、前記入力顔を含む画像に基づく各クラスタから作成されたヒストグラムとの階級毎の差分を加工した正の値の累積和を、当該測定対象の顔表情変化度として算出する。そして、前記クラスタリング手段は、前記標準顔の顔領域から抽出された特徴点を分類して生成された各クラスタをそれぞれ示す標準顔クラスタと、前記入力顔の顔領域から抽出された特徴点との特微量に関する距離を求め、前記入力顔の顔領域から抽出された特徴点を、前記標準顔クラスタのうち特微量に関して最も距離の近いクラスタに分類することを特徴とする。
【0023】
また、本発明の請求項6に記載の番組興味度測定装置は、テレビ番組を表示するモニタと、前記モニタに表示されたテレビ番組を視聴する視聴者を撮影するカメラとを備えた番組興味度測定装置であって、請求項2に記載の顔表情変化度測定装置と、ビデオ管理手段と、番組興味度蓄積手段と、グラフ生成手段とを備えることとした。
【0024】
かかる構成によれば、番組興味度測定装置は、顔表情変化度測定装置によって、前記カメラから出力されるカメラ映像を取り込む。そして、番組興味度測定装置は、前記顔表情変化度測定装置で測定された前記視聴者の顔表情変化度の時系列データを前記テレビ番組に対する時系列の番組興味度として取得し、前記時系列の番組興味度を、番組名および番組尺中における番組開始時刻からの経過時刻情報と共に番組興味度蓄積手段に蓄積する。そして、番組興味度測定装置は、グラフ生成手段によって、前記蓄積されたテレビ番組に対する時系列の番組興味度を示す時系列グラフを生成し、前記時系列グラフを前記モニタに表示させる。ここで、例えば、テレビ番組終了時に、時系列グラフをモニタに表示させる。そして、番組興味度測定装置は、ビデオ管理手段によって、前記時系列グラフを表示させるときに視聴者が視聴していたテレビ番組であって外部から受信する映像または内部に蓄積された映像を示す番組を前記モニタに表示させる。例えば、一度視聴したテレビ番組を録画しておいて再視聴する際に、映画のように番組尺全体を初めから最後まで視聴する場合もあるが、番組内容によっては興味を持った時間帯だけを視聴する場合もある。例えば、テレビ番組は、ニュース番組、スポーツ番組、ドラマ番組、バラエティー番組等のジャンルの種類や、番組内にて細分化されたコーナーの有無や、出演者の出演時間帯等によって、番組尺の中で、視聴者が興味を持って再視聴しようとする時間帯が限定的な場合もある。このような場合、当該番組の時系列グラフを参考にして、テレビ番組のうち、番組興味度が高い時間帯または低い時間帯のみを再視聴するといったことができる。
【0025】
また、本発明の請求項7に記載の番組興味度測定装置は、請求項6に記載の番組興味度測定装置において、前記グラフ生成手段が、前記番組興味度の最大値が1.0になるよう正規化し、かつ、前記顔表情変化度測定装置にて顔領域を検出できなかったときの前記番組興味度の値が−1.0になるようにして前記時系列グラフを生成することとした。
【0026】
かかる構成によれば、番組興味度測定装置は、番組興味度の最大値が1.0になるよう正規化した時系列グラフを生成する。したがって、視聴者は、時系列グラフが最大値となる時間帯のみを効率よく選択して再視聴することができる。また、番組興味度測定装置は、顔領域を検出できなかったときの番組興味度の値が−1.0になるよう正規化した時系列グラフを生成する。したがって、視聴者が、一度目に視聴したときに見逃してしまった時間帯があった場合に、再視聴時には、作成された時系列グラフを表示して、番組興味度の値が−1.0となる時間帯を選択して番組を視聴することで、見逃したシーンのみを効率よく選択して視聴することができる。
【0027】
また、本発明の請求項8に記載の番組興味度測定装置は、請求項6または請求項7に記載の番組興味度測定装置において、前記グラフ生成手段が、予め定められた時間内にそれぞれ取得した前記番組興味度の値を平均化した平均化興味度を生成し、前記平均化興味度を用いて前記時系列グラフを生成することとした。
【0028】
かかる構成によれば、番組興味度測定装置は、グラフ生成手段が、番組興味度の値を時間平均した平均化興味度を用いて時系列グラフを生成するので、例えば、フレーム画像毎にグラフを作成した場合に現れる瞬間的な興味度の増加や減少を軽減することができる。
【0029】
また、本発明の請求項9に記載の番組興味度測定装置は、請求項6ないし請求項8のいずれか一項に記載の番組興味度測定装置において、前記ビデオ管理手段が、前記時系列グラフを生成するときに視聴者が視聴していたテレビ番組において当該番組尺中における時刻情報と、前記時系列グラフにおける時刻情報とを対応付け、入力装置から、前記モニタに表示された時系列グラフ上の点を指定する入力を受け付け、前記指定された時系列グラフ上の点で示される時刻情報に対応した時刻から当該番組を再生した映像を前記モニタに表示させる機能をさらに有することとした。
【0030】
かかる構成によれば、番組興味度測定装置は、ビデオ管理手段が、テレビ番組の時刻情報と時系列グラフにおける時刻情報とを対応付け、指定された時系列グラフ上の点で示される時刻から番組を再生させる。したがって、視聴者は、興味のある番組内容が放映された時間の情報を気にとめることなく、モニタに表示された時系列グラフ上の任意の位置の点を指定する操作を行うだけで、番組の途中等のグラフで指定した任意の時間の放映内容から即座に視聴することができ、利便性が向上する。
【0031】
また、本発明の請求項10に記載の番組興味度測定装置は、請求項6ないし請求項9のいずれか一項に記載の番組興味度測定装置において、前記ビデオ管理手段が、前記時系列グラフにおいて、前記番組興味度が予め定められた閾値よりも大きい時間範囲を前記視聴者が興味を持ったシーンとして抽出し、前記シーンに登場する人物または物体を認識し、認識結果を視聴ログとして収集し、前記収集した視聴ログに含まれる人物名または物体名と、外部から受信する映像または内部に蓄積された映像を示す番組に予め付されたメタデータに含まれる人物名または物体名とを照合し、前記メタデータが付された番組の中から関連番組を探索して前記視聴者に推薦する機能をさらに有することとした。
【0032】
かかる構成によれば、番組興味度測定装置は、ビデオ管理手段が、時系列グラフにおいて、番組興味度の大きさから視聴者が興味を持ったと推定されるシーンを抽出し、このシーンに登場する人物または物体を認識して視聴ログとして収集する。ここで、ビデオ管理手段は、人物の場合には一般的な顔認識技術、物体の場合には一般的な物体認識技術といった画像処理技術を用いて、当該シーンに登場する人物または物体を認識する。また、かかる構成によれば、番組興味度測定装置は、ビデオ管理手段が、外部から取得した番組または蓄積している番組のメタデータと収集した視聴ログとを照合することで、外部から取得した番組または蓄積している番組の中から決定した関連番組を視聴者に推薦することができる。
【発明の効果】
【0033】
請求項1に記載の発明によれば、顔表情変化度測定装置は、測定対象の画像において基準とする標準顔から抽出した特徴点をクラスタリングしてヒストグラムを作成すると共に、取り込まれた画像中の当該測定対象の顔を示す入力顔から抽出された複数の特徴点を、標準顔に関して特徴点を分類したときの各クラスタのうち、特微量に関して最も距離の近いクラスタに分類してヒストグラムを作成してヒストグラムの差分を顔表情変化度として算出する。したがって、測定対象の標準顔と入力顔とを同様な環境のものとして取得できるので、環境の変動に対しても頑健に測定対象の画像から顔表情の変化度を測定することができる。その結果、人間と円滑にコミュニケーションを図るコンピュータやロボットにおけるモジュールとして適用することができる。また、顔表情変化度測定装置は、表情の変化から、人の商品等に対する興味度合いを正確に測定することができる。
また、請求項5に記載の発明によれば、顔表情変化度測定プログラムをインストールしたコンピュータは請求項1と同様の効果を奏することができる。
【0034】
請求項2に記載の発明によれば、顔表情変化度測定装置は、カメラから次々に出力されるフレーム画像でリアルタイムに検出した入力顔に対して、それぞれの顔表情変化度を求めることができる。
【0035】
請求項3に記載の発明によれば、顔表情変化度測定装置は、画像蓄積装置から次々に出力されるフレーム画像で検出した入力顔に対して、それぞれの顔表情変化度を求めることができる。
【0036】
請求項4に記載の発明によれば、顔表情変化度測定装置は、測定対象の画像を顔表情変化度と対応付けて記憶するので、所望の表情に対応した顔表情変化度の値を指定することで、蓄積された画像の中から、測定対象の所望の表情が映ったシーンを探索することができる。
【0037】
請求項6に記載の発明によれば、番組興味度測定装置は、顔表情変化度測定装置で測定された視聴者の顔表情変化度の時系列をテレビ番組に対する時系列の番組興味度として取得して時系列グラフを生成してモニタに表示させる。したがって、視聴者は、時系列グラフを参考にして、テレビ番組のうち、番組興味度が高い時間帯または低い時間帯のみを再視聴するといったことができる。
【0038】
請求項7に記載の発明によれば、番組興味度測定装置は、興味度を正規化した時系列グラフを生成する。したがって、視聴者は、時系列グラフを参考にして、番組興味度の大きなシーンや番組を見逃したシーンのみを効率よく選択してテレビ番組を再視聴することができる。
【0039】
請求項8に記載の発明によれば、番組興味度測定装置は、番組興味度の値を時間平均して時系列グラフを生成するので、瞬間的な興味度の増加や減少を軽減した時系列グラフを生成することができる。
【0040】
請求項9に記載の発明によれば、番組興味度測定装置は、テレビ番組の映像および音声の時刻情報と時系列グラフ上の位置における時刻情報とを対応付け、指定された時系列グラフ上の点で示される時刻から番組を再生させる。したがって、視聴者は、時系列グラフ上の点を指定するだけで、グラフで指定した任意の時間の放映内容から番組を即座に視聴することができ、利便性が向上する。
【0041】
請求項10に記載の発明によれば、番組興味度測定装置は、番組興味度の大きさに基づいて時系列グラフから抽出したシーンに登場する人物または物体を認識し、認識結果に関連する関連番組を探索して視聴者に推薦する。したがって、番組興味度測定装置は、視聴者が興味を持つ事柄を、視聴テレビ番組から詳細に分析することができると共に、蓄積された膨大なテレビ番組ビデオから、視聴者が興味を持っていると推定される番組を、当該視聴者の興味を反映した時系列グラフに基づいて的確に推薦することができる。
【図面の簡単な説明】
【0042】
【図1】本発明の第1実施形態に係る顔表情変化度測定装置の構成を模式的に示すブロック図である。
【図2】顔領域計測結果と顔領域中のSURF抽出結果の一例を示す図である。
【図3】顔表情変化度を測定するためのGUIの一例を示す図である。
【図4】SURFのクラスタリングの概念図である。
【図5】標準顔画像ヒストグラムの一例を示す図である。
【図6】入力顔画像ヒストグラムの一例を示す図である。
【図7】顔表情変化度測定装置の動作を示すフローチヤートである。
【図8】顔表情変化度とヒストグラムの差分との関係を模式的に示す概念図であって、(a)は標準顔画像、(b)は標準顔画像のSURFクラスタリング結果、(c)は標準顔画像ヒストグラム、(d)は入力顔画像、(e)は入力顔画像のSURFクラスタリング結果、(f)は入力顔画像ヒストグラムをそれぞれ示している。
【図9】本発明の第2実施形態に係る顔表情変化度測定装置の構成を模式的に示すブロック図である。
【図10】本発明の実施形態にかかる番組興味度測定装置のシステム構成を模式的に示すブロック図である。
【図11】本発明の実施形態にかかる番組興味度測定装置におけるモニタとカメラの一例を示す図である。
【図12】本発明の実施形態にかかる番組興味度測定装置に記憶される番組興味度のデータ構造の一例を示す図である。
【図13】本発明の実施形態にかかる番組興味度測定装置で作成した時系列グラフとテレビ番組のビデオとを同時にモニタに表示した場合の画面表示例を示す図である。
【発明を実施するための形態】
【0043】
図面を参照して本発明の顔表情変化度測定装置を実施するための形態について詳細に説明する。
(第1実施形態)
[顔表情変化度測定装置の構成]
顔表情変化度測定装置1は、画像として入力する測定対象の顔の表情の変化の度合いを顔表情変化度として測定する装置であって、CPU(Central Processing Unit)等の演算装置と、メモリやハードディスク等の記憶装置と、外部との間で各種情報の送受信を行うインタフェース装置とを備えたコンピュータおよび、このコンピュータにインストールされたプログラム(顔表情変化度測定プログラム)とから構成される。つまり、顔表情変化度測定装置1は、ハードウェア装置とソフトウェアとが協働することによって、前記したハードウェア資源がプログラムによって制御されることにより実現され、図1に示すように、モード判別手段2と、画像取込手段3と、顔領域検出手段4と、画像特徴量抽出手段5と、画像特徴量記憶手段6と、クラスタリング手段8と、ヒストグラム作成手段9と、ヒストグラム記憶手段10と、差分算出手段11とを備えている。
【0044】
以下では、顔表情変化度測定装置1は、一例として、測定対象の画像として被写体を撮影するカメラCから出力されるカメラ映像(撮影画像)を取り込み、カメラ映像として入力する被写体の顔の表情の変化の度合いを測定することとして説明する。
ここで、顔表情変化度測定装置1の概要として、被写体の基準とする顔の表情(以下、標準顔という)の一例を図8(a)に示し、同じ被写体の比較しようとする顔の表情(以下、入力顔という)の一例を図8(d)に示す。なお、標準顔と入力顔とは同じ環境で取得されたものとする。また、標準顔は1つとする。また、一連の測定が終了したら標準顔を変更してもよい。また、この顔表情変化度測定装置1が、図8(d)に示す入力顔を測定したときの処理画像の一例を図2に示す。また、顔表情変化度測定時に、図8(a)に示す標準顔に対しても同様の処理画像が得られるが、ここでは、図示は省略する。図2に示す画像は、表情の変化の度合(顔表情変化度)を求めるときの原理を説明するための画像である。なお、顔表情変化度測定装置1で測定して表示する処理結果は、顔表情変化度であって、図2に示すような画像を必ずしも表示する必要はない。
【0045】
図1に戻って、顔表情変化度測定装置1の構成の説明を続ける。
<モード判別手段>
モード判別手段2は、入力装置12から入力されるボタン押下信号が表すモードを判定し、モードに応じた動作を行うものである。ここで、入力装置12は、例えば、キーボード、マウス、タッチパネル等から構成される。また、入力装置12をGUI(Graphical User Interface)として構成してもよい。GUIの一例を図3に示す。このGUIは、処理操作用の処理開始ボタン111、終了ボタン112および標準顔の取得ボタン113と、事前設定用の設定入力部114と、処理結果表示部115とを備えている。なお、ボタンの種類に応じて、モードとして、例えば、開始モード、通常処理モード、終了モード、標準顔取得モード等を設けている。
【0046】
ここで、処理開始ボタン111は、顔表情変化度測定の処理を開始するためのボタンであり、終了ボタン112は、その処理を終了するためのボタンである。また、標準顔の取得ボタン113は、基準となる画像を取得するためのボタンである。ここで、標準顔と入力顔とは同一の被写体のものであればよく、それらの表情は任意である。例えば、標準顔を無表情、入力顔を笑顔としたり、標準顔を笑顔、入力顔を大笑いとしたりすることができる。
【0047】
設定入力部114は、顔表情変化度を測定するための処理を開始する前に、所望の処理結果を得るために演算方法を調整する各種設定を入力するためのものである。ここでは、図3に示すように、設定入力部114は、顔領域の微調設定部116と、SURF抽出パラメータ設定部117と、ヒストグラムのクラスタ数設定部118と、標準顔画像と入力顔画像のヒストグラム比較法設定部119とを備えることとした。
【0048】
顔領域の微調設定部116は、図2に示す上半顔領域102に対応した「上半分の削減率」と、図2に示す下半顔領域103に対応した「下半分の削減率」とをそれぞれ設定するためのものである。この例では、1つの顔(顔領域)を2つの矩形領域で検出することとした。つまり、この例では、顔領域とは、上半顔領域102と下半顔領域103とを合わせた領域のことを指す。本実施形態のように2つの矩形領域で検出する場合、上半顔領域102や下半顔領域103が実際の顔の上半分の領域や下半分の領域よりもそれぞれ大きく検出されるので、上半顔領域102や下半顔領域103のサイズを拡大または縮小する微調整を行うために、顔領域の微調設定部116を設けた。なお、マイナスの削減率は増加率を表している。この例では、顎部からもSURFを検出するために下半顔領域103を下方向に拡幅した。
【0049】
SURF抽出パラメータ設定部117は、図2に示すSURF104を抽出するためのパラメータを設定するためのものである。ここでは、一例として、「Hessian閾値」と、「SURF記述子の要素数」とを設定することとした。
ヒストグラムのクラスタ数設定部118は、抽出されたSURFを分類するクラスタの個数を設定するためのものである。
標準顔画像と入力顔画像のヒストグラム比較法設定部119は、差分算出手段11において差分を求めるときの方法を設定するためのものである。ここでは、「残差絶対値和」を求めて比較する方法と、「残差2乗和」を求めて比較する方法とを選択できるように設けた。なお、この例では、設定入力部114を設けて種々の設定値を所望の値に変更できるように構成したが、設定入力部114は必須ではなく、各設定値を予め所定の値に固定しておいてもよい。
【0050】
処理結果表示部115は、SURFキーポイント数表示部120と、顔表情変化度表示部121と、プログレスバー122とを備えている。
SURFキーポイント数表示部120は、抽出されたSURFキーポイント数、つまり、Hessian閾値以上となるSURFキーポイント数の値を表示するものである。
顔表情変化度表示部121は、差分算出手段11で計算された差分の値を顔表情変化度として表示するものである。
プログレスバー122は、差分算出手段11で計算された差分の値をグラフィック表示するものである。
なお、この例では、処理結果表示部115は、数値とプログレスバーとを両方とも表示することとしたが、いずれか一方のみを表示するようにしてもよい。
【0051】
本実施形態では、図1に示すモード判別手段2は、図3に示すGUIの操作に応じてモードを判定することとした。
モード判別手段2は、処理開始ボタン111または終了ボタン112が押下された場合に、その旨を開始モードまたは終了モードとして画像取込手段3に通知する。
【0052】
また、モード判別手段2は、処理中に標準顔の取得ボタン113が押下された場合、その旨を標準顔取得モードとしてクラスタリング手段8に通知する。
また、モード判別手段2は、処理中に標準顔の取得ボタン113が押下されない場合(通常処理モード)、標準顔が取得済みであるか否かを判定し、標準顔を既に取得済みである場合、クラスタリング手段8に通知する。本実施形態では、モード判別手段2は、ヒストグラム記憶手段10を参照して、標準顔画像ヒストグラム13が作成されている場合に、標準顔が取得済みであると判定することとした。
【0053】
<画像取込手段>
画像取込手段3は、測定対象の画像を顔表情変化度測定装置1に取り込むものであって、所定の入力インタフェースから構成される。本実施形態では、顔の表情変化度を測定したい被写体を撮影したカメラ映像(撮影画像)を取り込むこととした。画像取込手段3は、モード判別手段2から処理開始を通知されると、例えば、カメラCからカメラ映像の取り込み処理を開始する。ここで、カメラCは、例えばWebカメラから構成される。
【0054】
<顔領域検出手段>
顔領域検出手段4は、測定対象の画像中の測定対象の顔領域を検出するものである。本実施形態では、画像取込手段3で取り込まれたカメラ映像中の被写体の顔領域を検出することとした。また、本実施形態では、顔領域検出手段4は、カメラ映像の各フレーム画像中の顔領域を検出する。この顔領域検出手段4は、従来公知の顔領域計測技術により顔領域を検出する。ここで、顔領域を計測する手法としては、例えば、「PAUL VIOLA, MICHAEL J. JONES: “Robust Real-Time Face Detection", International Journal of Computer Vision, Vol.57, No.2, pp.137-154(2004)」に記載されている方法を用いることができる。
【0055】
顔領域検出手段4で検出した被写体の顔領域の一例を図2に示す。この例では、被写体101の顔に対して、顔の上半分の領域と下半分の領域とをそれぞれ示す上半顔領域102と下半顔領域103を合わせて、顔が検出された領域(顔領域)を表している。上半顔領域102と下半顔領域103とは、図3のGUIの顔領域の微調設定部116の設定内容に従い、顔検出領域が微調される。なお、顔領域を1つ、または3つ以上の矩形領域で検出することとしてもよい。
【0056】
<画像特徴量抽出手段>
画像特徴量抽出手段5は、測定対象の画像において検出された顔領域から、ベクトルまたはスカラーで表される画像の特徴量を示す複数の特徴点をそれぞれ抽出するものである。本実施形態では、画像特徴量抽出手段5は、被写体を撮影したカメラ映像において顔領域検出手段4によって検出された顔領域から特徴点を抽出する。また、本実施形態では、画像特徴量抽出手段5は、カメラ映像のフレーム画像から検出された顔領域から画像特徴量としてSURFを抽出することとした。
ここで、SURFとは、公知文献「Herbert Bay, Tinne Tuytelaars,and Luc Van Gool: “SURF: Speeded Up Robust, Features”, Computer Vision and Image Understanding(CVIU), Vol.110, No.3, pp.346-359(2008)」に記された画像特微量である。
【0057】
画像特徴量抽出手段5で顔領域から抽出したSURFの一例を図2に示す。この例では、被写体101の顔において、エッジの強い箇所として、例えば、黒目の縁、目の横の皺、口角の皺等の近傍に直径の異なる無数の円が表示されており、これらがSURF104を示している。SURFは、上半顔領域102と下半顔領域103とに跨って抽出される。抽出されるSURFの各要素(SURFキーポイント)は、事前に設定する64次元ベクトルもしくは128次元ベクトルのSURF記述子と呼ばれる、画像の模様により異なってくる画像特徴量を有する。SURF抽出のためのパラメータは、図3のGUIのSURF抽出パラメータ設定部117で設定される。
【0058】
ここでは、画像特徴量抽出手段5で顔領域から抽出する画像特微量を、SURFとしたが、SURF以外にSIFT特徴量など、その他の特徴量であっても構わない。
なお、SIFT特徴量については、公知文献「David G. Lowe: “Object Recognition from Local Scale-Invariant Features”,Proc. of the International Conference on Computer Vision,pp.1150-1157(1999)」に記載されている。
【0059】
<画像特徴量記憶手段>
画像特徴量記憶手段6は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)等のメモリやハードディスク等の記憶装置から構成され、画像特徴量として例えばSURF記述子を記憶する。
【0060】
<クラスタリング手段>
クラスタリング手段8は、検出された顔領域から特徴点が抽出された画像のうち、測定対象の基準とする顔の表情を示す標準顔と、当該測定対象の比較しようとする顔の表情を示す入力顔とに関する画像毎に、顔領域から抽出された複数の特徴点を、類似した特徴点同士をまとめた所定数のクラスタに分類するものである。
本実施形態では、クラスタリング手段8は、被写体の標準顔の顔領域から抽出されたSURFを画像特徴量記憶手段6から入力し、標準顔の顔領域から抽出されたSURFの中から特徴量が類似したSURFを分類する。これにより、標準顔に対応した各クラスタが標準顔クラスタとして生成される。
また、クラスタリング手段8は、当該被写体の入力顔の顔領域から抽出されたSURFを画像特徴量記憶手段6から入力し、入力顔の顔領域から抽出されたSURFの中から特徴量が類似したSURFを分類する。これにより、入力顔に対応した各クラスタが生成される。このとき、クラスタリング手段8は、標準顔クラスタと、入力顔の顔領域から抽出されたSURFとの特微量に関する距離を求め、入力顔の顔領域から抽出されたSURFを、標準顔クラスタのうち特微量に関して最も距離の近いクラスタに分類する。つまり、クラスタリング手段8は、標準顔から抽出されたSURFを分類するときに標準顔クラスタ(標準顔SURFクラスタ)を生成し、入力顔から抽出されたSURFを分類するときには、標準顔SURFクラスタを用いて分類する。
【0061】
このクラスタリング手段8は、画像特徴量抽出手段5で抽出されたSURFを、SURF記述子を基にクラスタリングする。また、クラスタリング手段8は、抽出されたSURFを、SURF記述子を基に一例としてK−meansクラスタリングすることとした。クラスタの数は、図3に示すGUIのヒストグラムのクラスタ数設定部118の設定内容に従う。なお、クラスタリングする手法は、K−means法以外でも構わない。
【0062】
また、クラスタリング手段8は、モード判別手段2から、標準顔の取得ボタン113が押下されたことを通知された場合、今回抽出された各SURFを、クラスタリングすることで、標準顔SURFクラスタを生成する。
また、クラスタリング手段8は、モード判別手段2から、標準顔を既に取得済みである通知を受けた場合、今回抽出された各SURFを、標準顔SURFクラスタのうち、最も距離の近いクラスタに分類する。ここで、標準顔を既に取得済みである場合、SURFと標準顔クラスタの距離の例としては、SURF記述子ベクトルの各要素と標準顔クラスタ内のSURFの平均記述子ベクトルの各要素との残差2乗和がある。
【0063】
ここで、クラスタリング手段8によるクラスタリングの概念について図4に例示する。図4は、SURFのクラスタの概念図である。図3において、SURF記述子の要素数を例えば64に設定した場合、SURF記述子は実際には64次元ベクトルであるが、ここでは、簡便のため、SURFを一例として2次元で表現した。標準顔の顔領域から抽出された多数の特徴点は、予め指定されたクラスタ数に分類される。図4に示す例では、符号123で示すように、10個のクラスタにそれぞれ分類されている。つまり、この場合には、X座標、Y座標が2次元で表された特徴量を示しており、特徴点はXY平面上において符号124で示す×印の点として表現されている。なお、a,b,c,d,e,f,g,h,i,jは、クラスタIDを示す。
【0064】
<ヒストグラム作成手段>
ヒストグラム作成手段9は、クラスタリング手段8でクラスタリングされた各クラスタを階級として、クラスタの要素である特徴点の個数を頻度とするヒストグラムを作成するものである。このヒストグラム作成手段9は、標準顔を含む画像(標準顔画像という)に対して特徴点が分類された各クラスタと、入力顔を含む画像(入力顔画像という)に対して特徴点が分類された各クラスタの双方について、ヒストグラムをそれぞれ作成する。
【0065】
ここで、ヒストグラム作成手段9が、標準顔画像から抽出されたSURFについてクラスタリングした結果から作成した標準顔画像ヒストグラム13の一例を図5に示す。この例では、SURFが10個のクラスタに分類されている。ただし、図5に示すヒストグラムの要素数と、図4に示す各クラスタ内の特徴点の個数とは一致していない。
同様に、ヒストグラム作成手段9が、入力顔画像から抽出されたSURFについてクラスタリングした結果から作成した入力顔画像ヒストグラム14の一例を図6に示す。なお、図6に示すヒストグラムの要素数と、図4に示す各クラスタ内の特徴点の個数とは一致していない。
図6に示す入力顔画像ヒストグラム14の各クラスタと、図5に示す標準顔画像ヒストグラム13の各クラスタとは同じものである。ただし、元の画像が異なるため、同じクラスタIDであっても、クラスタの要素数(頻度)が同じであるとは限らない。
【0066】
<ヒストグラム記憶手段>
ヒストグラム記憶手段10は、例えば、メモリやハードディスク等の記憶装置から構成され、ヒストグラム作成手段9の演算処理結果である標準顔画像ヒストグラム13や入力顔画像ヒストグラム14を記憶する。
【0067】
<差分算出手段>
差分算出手段11は、標準顔画像ヒストグラム13と入力顔画像ヒストグラム14の階級毎の差分を加工した正の値の累積和を当該被写体の顔表情変化度として表示装置15に出力する。階級毎の差分を加工した正の値の累積和を計算する手法としては、例えば、クラスタ毎の頻度の差分の2乗和、差分の絶対値和等がある。差分算出手段11から出力された値が顔表情変化度となる。ここで、表示装置15は、例えば、液晶ディスプレイ等から構成される。図3のGUIの処理結果表示部115には、出力値が数字とプログレスバーで示されている。なお、差分算出手段11は、顔表情変化度を記憶手段に格納するようにしてもよい。
【0068】
[顔表情変化度測定装置の動作]
次に、顔表情変化度測定装置の動作について図7を参照(適宜図1参照)して説明する。予め図3のGUIの設定入力部114で各設定を実施した後、処理開始ボタン111の押下により処理を開始する。まず、顔表情変化度測定装置1は、画像取込手段3によって、顔の表情変化度合を測定したい人を撮影したカメラ映像を取り込む(ステップS1)。そして、顔表情変化度測定装置1は、顔領域検出手段4によって、フレーム中の顔領域を測定して検出処理を行う(ステップS2)。ここで顔領域の検出に失敗すると(ステップS2:No)、ステップS1に戻る。一方、顔領域の検出に成功すると(ステップS2:Yes)、顔表情変化度測定装置1は、画像特徴量抽出手段5によって、顔領域中のSURFを抽出する(ステップS3)。
【0069】
次いで、顔表情変化度測定装置1は、顔領域中のSURFを抽出した後、モード判別手段2によって、標準顔の取得ボタン113が押下されたと判定した場合(ステップS4:Yes)、前記ステップS3にて顔領域からSURFを抽出した画像は標準顔画像であり、クラスタリング手段8によって、SURF記述子を基に、この標準顔画像の顔領域から抽出されたSURFをK−meansクラスタリングする(ステップS5)。これにより、標準顔SURFクラスタが生成される。次に、顔表情変化度測定装置1は、ヒストグラム作成手段9によって、標準顔SURFクラスタの各クラスタの要素数を頻度とする標準顔画像ヒストグラムを作成し(ステップS6)、ステップS1に戻る。
【0070】
前記したステップS4にて、標準顔の取得ボタン113が押下されなかったと判定した場合(ステップS4:No)、前記ステップS3にて顔領域からSURFを抽出した画像は入力顔画像であり、顔表情変化度測定装置1は、モード判別手段2によって、標準顔が取得済みであるか否かを判定する(ステップS7)。標準顔をまだ取得していない場合(ステップS7:No)、顔表情変化度測定装置1は、ステップS1に戻る。
【0071】
一方、ステップS7にて、標準顔を既に取得済みである場合(ステップS7:Yes)、顔表情変化度測定装置1は、クラスタリング手段8によって、今回の入力顔画像の顔領域から抽出された各SURFを、標準顔SURFクラスタのうち、最も距離の近いクラスタに分類する(ステップS8)。顔表情変化度測定装置1は、抽出された全てのSURFについて分類を終えると、ヒストグラム作成手段9によって、各クラスタに分類されたSURFの数を頻度とする入力顔画像ヒストグラムを作成する(ステップS9)。そして、顔表情変化度測定装置1は、差分算出手段11によって、標準顔画像ヒストグラムと入力顔画像ヒストグラムの差分を計算し、その値を表示装置15に出力する(ステップS10)。以上の過程により、顔の表情変化度を取得することができる。
【0072】
なお、ステップS10に続いて、顔表情変化度測定装置1は、モード判別手段2によって、終了ボタン112が押下されなかったと判定した場合(ステップS11:No)、ステップS1に戻り、処理を続ける。一方、終了ボタン112が押下されたと判定した場合(ステップS11:Yes)、処理を終了する。
【0073】
[顔表情変化度の計算の具体例]
次に、この顔表情変化度測定装置1で行っている標準顔画像ヒストグラムと入力顔画像ヒストグラムの差分を計算する処理の具体例について図8を参照して説明する。
図8は、顔の表情変化の度合とヒストグラムの差分との関係を模式的に示す概念図であって、(a)は標準顔画像、(b)は標準顔画像のSURFクラスタリング結果、(c)は標準顔画像ヒストグラム、(d)は入力顔画像、(e)は入力顔画像のSURFクラスタリング結果、(f)は入力顔画像ヒストグラムをそれぞれ示している。
【0074】
ここでは、一例として、SURFを2次元で表現し、標準顔画像のSURFも入力顔画像のSURFも5個のクラスタ(クラスタID=k,l,m,n,o)にそれぞれ分類されていることとした。この例では、標準顔画像ヒストグラムの頻度は(k,l,m,n,o)=(4,3,3,3,6)であり、入力顔画像ヒストグラムの頻度は(k,l,m,n,o)=(5,2,4,4,3)である。したがって、図3に示すGUIの標準顔画像と入力顔画像のヒストグラム比較法設定部119において、残差2乗和が選択されている場合、クラスタ毎の頻度の差分の2乗和は13なので、この値が顔表情変化度として表示されることとなる。
【0075】
第1実施形態によれば、顔表情変化度測定装置1は、被写体の基準とする標準顔と、顔表情変化度測定して比較しようとする入力顔とを同様な環境で取得できるので、環境の変動に対しても安定して被写体の画像から顔表情変化度を測定することができる。その結果、顔表情変化度測定装置1は、人間と円滑にコミュニケーションを図るコンピュータやロボットにおけるモジュールとして適用することができる。また、表情の変化から、商品等に対する人の興味度合いを正確に測定することができる。
【0076】
(第2実施形態)
図9は、本発明の第2実施形態に係る顔表情変化度測定装置の構成を模式的に示すブロック図である。以下では、この顔表情変化度測定装置1Aの構成のうち、図1に示した構成と異なる構成について説明し、同じ構成については、同じ符号を付して説明を適宜省略する。
【0077】
顔表情変化度測定装置1Aは、図9に示すように、画像記憶手段7Aの機能が異なると共に、画像取込手段3が画像蓄積装置16から出力されるカメラ映像を取り込む点と、検索手段17を備えている点が、図1に示す顔表情変化度測定装置1と異なっている。
【0078】
画像記憶手段7Aは、例えば、一般的なハードディスク等の記憶装置から構成され、画像取込手段3で取り込まれた測定対象の画像と、当該画像を基に差分算出手段11で算出された顔表情変化度とを対応付けて記憶する。
画像蓄積装置16は、測定対象の画像を蓄積するものであって、例えば、メモリや一般的なハードディスク装置等から構成される。
【0079】
検索手段17は、入力装置12から検索キーとして顔表情変化度の入力を受け付け、受け付けた顔表情変化度に対応した画像を画像記憶手段7Aから検索して表示装置15に出力するものである。
【0080】
入力装置12からの検索キーは、例えば、単純に顔表情変化度の最大値や、最小値を有する撮影画像を検索するための「検索」ボタンである。標準顔を無表情として顔表情変化度の最大値を有する画像を専用に検索するための「検索」ボタンの場合、例えば、最も大笑いをした顔が映った画像を検索することができる。同様に、標準顔を無表情として顔表情変化度の最小値を有する画像を専用に検索するための「検索」ボタンの場合、例えば、無表情な顔が映った画像を検索することができる。
また、入力装置12から検索キーは、顔表情変化度の任意の値や任意の値の範囲としてもよい。
【0081】
第2実施形態によれば、顔表情変化度測定装置1Aは、画像蓄積装置16から次々に出力されるフレーム画像で検出した入力顔に対して、それぞれの顔表情変化度を求めることができる。そのため、同一の被写体が映っている異なるタイミングで撮影したカメラ映像を互いに同様な環境で取得して蓄積していれば、それらの異なる映像で1つの標準顔を用いたとしても、頑健に画像から顔表情の変化度を測定することができる。例えば、同じ被写体を屋内の同じ場所で数日前に撮影したカメラ映像と、過去と同じ撮影条件で撮影した現在のカメラ映像とを比較することも可能である。
【0082】
(第3実施形態)
第3実施形態は、第1実施形態に係る顔表情変化度測定装置1を、テレビ視聴者の番組興味度測定装置に適用したものである。
図10は、本発明の実施形態に係る番組興味度測定装置のシステム構成を模式的に示すブロック図である。
番組興味度測定装置200は、テレビ番組を表示するモニタMと、モニタMに表示されたテレビ番組を視聴する視聴者201を撮影するカメラCと、復調・デコード部21と、ビデオ管理部22と、ビデオ蓄積部23と、顔表情変化度測定部24と、番組興味度蓄積部25と、グラフ生成部26とを備えている。ここで、復調・デコード部21と、ビデオ管理部22と、ビデオ蓄積部23と、顔表情変化度測定部24と、番組興味度蓄積部25と、グラフ生成部26とは、ハードウェア装置とソフトウェアとが協働することによってそれぞれ実現される。
【0083】
<モニタ、カメラ>
番組興味度測定装置200におけるモニタとカメラの一例を図11に示す。
モニタMは、番組表示画面301にテレビ番組を表示する。カメラCは、視聴者201の様子を撮影するため、例えばモニタMを見る視聴者201の顔を正面から撮影できる位置に配置される。ここで撮影されたカメラ映像は、顔表情変化度測定部24に送られ、視聴者201の顔の表情変化度が測定される。
【0084】
<復調・デコード部>
図10に示す復調・デコード部21は、アンテナATNで受信した放送波を復調・デコードしたテレビ番組等をモニタMに出力する。
【0085】
<ビデオ管理部の基本機能>
ビデオ管理部(ビデオ管理手段)22は、例えばインターネットN経由で受信するテレビ番組(以下、ビデオという)や、ビデオ蓄積部23に蓄積されたビデオ等を、例えば番組名、放送日時、放送局等の情報を基に管理し、再生するものである。このビデオ管理部22が、外部から受信するビデオまたは内部に蓄積されたビデオを示す番組をモニタMに表示させているときに、視聴者201が視聴していたテレビ番組に対して、グラフ生成部26は時系列グラフを生成する。また、ビデオ管理部22は、詳細は後記するが、グラフ生成部26により生成された時系列グラフの管理機能、映像のシーン分析機能、番組推薦機能等を有する。
ビデオ蓄積部23は、ビデオを蓄積するものであり、一般的なハードディスク等から構成されている。
【0086】
<顔表情変化度測定部>
顔表情変化度測定部(顔表情変化度測定装置)24は、カメラCから出力されるカメラ映像を取り込み、視聴者201の表情変化の度合を一定時間毎に取得し、番組興味度蓄積部25に送信する。この顔表情変化度測定部24は、図1に示す顔表情変化度測定装置1で構成することができるので、説明を省略する。
【0087】
<番組興味度蓄積部>
番組興味度蓄積部(番組興味度蓄積手段)25は、顔表情変化度測定部24で測定された視聴者(テレビ視聴者)201の顔表情変化度の時系列データをテレビ番組に対する時系列の番組興味度として取得し、時系列の番組興味度を、番組名および番組尺中における番組開始時刻からの経過時刻情報と共に蓄積するものである。
【0088】
この番組興味度蓄積部25に蓄積される番組興味度のデータ構造の一例を図12に示す。図12のデータ構造に示すように、ある視聴者の番組興味度が、番組名、放送日時、放送局と合わせて蓄積される。ここで、番組興味度は、視聴者の顔表情変化度であって、番組の放送開始時間(番組開始時刻)からの時間と共に、蓄積されている。また、図12に示す例では、符号302で示すように、番組興味度表中の「興味度」が「−」となっているところは、視聴者が余所見をし、顔表情変化度測定部24にて顔検出できなかったことを意味している。
【0089】
<グラフ生成部>
グラフ生成部(グラフ生成手段)26は、蓄積されたテレビ番組に対する時系列の番組興味度を示す時系列グラフを生成し、時系列グラフをモニタMに表示させるものである。グラフ生成部26は、番組終了後、または、番組視聴時に、番組興味度蓄積部25から、視聴者201の番組興味度を取得し、グラフ化する。一例として、ビデオと番組興味度の時系列グラフとを同時にモニタMに表示した場合の画面表示例を図13に示す。番組表示ウィンドウ303は、ビデオを表示するものであり、グラフ表示ウィンドウ304は、時系列グラフを表示するものである。なお、図13に示す時系列グラフは、番組興味度が正規化されている。
【0090】
本実施形態では、グラフ生成部26は、顔表情変化度すなわち番組興味度が最大になった箇所が1.0になるよう正規化したグラフを生成する。例えば、図12に示すように蓄積された番組興味度の最大値が430であれば、この値が1.0となる。
また、グラフ生成部26は、顔表情変化度測定部24にて顔領域を検出できなかったときの番組興味度の値が−1.0になるようにして時系列グラフを生成する。例えば、図12に示すように、0時間27分22秒に、顔検出ができずに番組興味度が取得できなかた場合、この時刻の値が−1.0となる。
【0091】
図13に示す時系列グラフの興味度が1.0に近いシーンは、顔の表情がよく変化したところで、喜びや悲しみ等、視聴者201がより番組へ興味を示したところと考えることができる。視聴者201が、例えば、自ら視聴したスポーツのテレビ番組を再視聴する際に、時系列グラフが最大値となる時間帯を選択して、蓄積されたビデオを視聴することで、サッカーのゴールシーンや野球の得点シーンといった興味度の大きなシーンのみを効率よく選択して再視聴することができる。
【0092】
一方、図13に示す時系列グラフの興味度が−1.0になっているシーンは、視聴者201の番組に対する興味度が低かったシーン、または、番組を見逃してしまったシーンと考えることができる。視聴者201が、例えば、テレビの料理番組を放映中に視聴したときにメモをとるなどの他の用事をしていたために見逃してしまった時間帯があった場合に、蓄積されたビデオの視聴時には、作成された時系列グラフを表示して、番組興味度の値が−1.0となる時間帯を選択して番組を再視聴することで、見逃したシーンのみを効率よく選択して視聴することができる。
【0093】
顔表情変化度測定部24で測定された顔表情変化度(番組興味度)が瞬間的に跳ね上がったり、落ち込んだりすることもあるので、時系列グラフを作成して表示する際に、測定値をそのまま反映するのではなく、測定値を加工するフィルタリング処理をしてもよい。
例えば、グラフ生成部26は、予め定められた時間内にそれぞれ取得した番組興味度の値を平均化した平均化興味度を生成し、平均化興味度を用いて時系列グラフを生成するようにすることができる。
【0094】
例えば、図12に示す例において、毎秒取得した各番組興味度をすべてそのまま用いて毎秒ごとの番組興味度を表す時系列グラフとすることもできるが、連続した複数の番組興味度を平均化した平均化興味度を、当該区間の値として、区間ごとの平均化興味度を表す時系列グラフとすることもできる。具体的には、図12に示す例において、0時間18分12秒〜0時間18分14秒までの期間に抽出された3つの番組興味度の平均を求め、求めた平均番組興味度「419.7」をこの期間に対応させ、この期間の前後の他の期間も同様にして、連続する3つの番組興味度の平均を用いてグラフを生成してもよい。ここで、平均化興味度を生成するための時間幅は、数フレーム、数秒、数分等、所望の時間幅とすることができる。これにより、例えば数フレームや数秒といった時間幅のときには、各フレームにおける番組興味度を用いたときよりも同じ時間軸上では傾斜が緩やかで滑らかな時系列グラフを表示し、例えば、数十秒〜数分といった時間幅のときには、同様に山の位置や谷の位置が明確な時系列グラフを表示することができる。
【0095】
<ビデオ管理部の拡張機能1>
ビデオ管理部22は、前記した基本機能に加えて、次の拡張機能1を備えることができる。拡張機能1において、ビデオ管理部22は、グラフ生成部26により生成された時系列グラフと、時系列グラフを表示させるときに視聴者201が視聴していたテレビ番組のビデオとを番組名、放送日時、放送局等の情報を基に関連付ける。ここで、視聴者201が視聴していたテレビ番組のビデオとは、インターネットN経由で受信するビデオやビデオ蓄積部23に蓄積されたビデオ等を指す。
【0096】
また、拡張機能1において、ビデオ管理部22は、そのビデオにおいて当該番組尺中における時刻情報と、時系列グラフにおける時刻情報とを対応付ける。
さらに、拡張機能1において、ビデオ管理部22は、例えばリモコン等の入力装置12から、モニタMに表示された時系列グラフ上の点を指定する入力を受け付け、指定された時系列グラフ上の点で示される時刻情報に対応した時刻から当該番組のシーンを再生した映像をモニタMに表示させる。これにより、視聴者201が、リモコン等によって、興味を持ったシーンや番組を見逃したシーンの開始時刻を時系列グラフ上の点で指定することで、ビデオ管理部22は、当該シーンを瞬時に再生することができる。
【0097】
時系列グラフ上の点の指定方法は、例えばマウスによってGUIのチェックボックスやスライダ等を選択するように時系列グラフ上の点を指定することができる。ここで、時系列グラフ上の点とは、例えば、図13に示す折れ線上の点、時間軸上の点、グラフ表示範囲で時間が特定できる領域上の点を示す。図13に示す時刻pと時刻qとの間の範囲の点や、時刻rと時刻sとの間の範囲の点が指定されると、ビデオ管理部22は、見逃したシーンを瞬時に再生することができる。また、図13に示す時刻s以降であって、興味度が「1.0」である範囲の点が指定されると、ビデオ管理部22は、視聴者201が興味を持ったシーンを瞬時に再生することができる。
【0098】
<ビデオ管理部の拡張機能2>
ビデオ管理部22は、前記した基本機能に加えて、次の拡張機能2を備えることができる。拡張機能2において、ビデオ管理部22は、時系列グラフにおいて、番組興味度が予め定められた閾値よりも大きい時間範囲を視聴者201が興味を持ったシーンとして抽出し、そのシーンを映像分析する。ここで、映像分析とは、そのシーンに登場する人物の顔を認識する処理や、そのシーンに表示された物体を認識する処理を行うことを表す。このような処理は、顔認識や一般的な物体認識等の各種画像処理技術や音声認識技術により行うことができる。これにより、そのシーンに登場する人物の顔から、視聴者201の興味のある人物の情報を視聴ログとして収集することができる。また、そのシーンに表示された物体から、視聴者201の興味のある物事の情報を視聴ログとして収集することができる。
【0099】
また、拡張機能2は、ビデオ管理部22が管理する番組であって外部から受信する映像またはビデオ蓄積部23に蓄積された番組に対して、予め手動や各種技術により自動で付されたメタデータが存在している場合の機能である。ビデオ管理部22は、拡張機能2において、視聴者201が興味を持つと推測される事柄(収集した視聴ログ)と、管理する番組に予め付されたメタデータとを照合することにより、視聴者201が興味を持つ内容を推定し、視聴者201が興味を持つと思われる関連番組を探索して当該視聴者201に推薦する。ここで、照合とは、収集した視聴ログに含まれる人物名または物体名と当該番組に予め付されたメタデータに含まれる人物名または物体名とを照合することをいう。ここで、推定内容が人物の場合、関連番組は、例えばテレビタレントやスポーツ選手が出演、出場しているテレビ番組を示す。また、推薦とは、関連番組のタイトル等の情報を提示することを示す。
【0100】
なお、番組興味度測定装置200が、視聴者201の映像を取得するカメラCのほかに、視聴者201の音声を取得するマイクをさらに備える構成の場合には、画像処理技術のほかに一般的な音声認識技術も用いて総合的に認識することができる。さらに、番組興味度測定装置200が、視聴者201の映像から画像処理技術によって視聴者201の身振り手振りを検出してスコア化できる場合には、顔表情変化度と組み合わせて番組興味度としてもよい。つまり、このように変形した場合、視聴者201の番組興味度は、顔の表情変化度を測定するのみではなく、例えば、視聴者201の身振り手振りや音声情報等も含めることができる。
【0101】
また、番組興味度測定装置200は、非特許文献1等に示された手法により、視聴者201の感情(怒り、悲しみ、驚き、喜び等)を同時に取得する構成としてもよい。これにより、より詳細に視聴者201の番組への興味度を分析することができる。
【0102】
本発明の実施形態に係る番組興味度測定装置200によれば、テレビ番組を視聴中の視聴者201の顔表情変化度を、視聴中のテレビ番組に対する番組興味度として取得し、その番組開始時刻からの経過時刻にしたがって取得した番組興味度を時系列グラフとして作成し、表示することができる。したがって、視聴者201が時系列グラフを参考にして、テレビ番組のうち、番組興味度が高い時間帯または低い時間帯のみを視聴することができる。また、番組興味度測定装置によれば、視聴者201が興味を持ったシーンや番組を見逃したシーンの開始時刻を時系列グラフ上の点で指定することで、当該シーンを瞬時に再生することができる。さらに、番組興味度測定装置によれば、視聴者201が興味を持つと推定される関連番組を視聴者201に推薦することができる。
【0103】
以上、各実施形態に基づいて本発明を説明したが、本発明はこれらに限定されるものではない。例えば、第1実施形態において、ステップS2で、顔領域をさらに分割し、分割した領域毎に標準顔画像ヒストグラム、入力顔画像ヒストグラムを算出し、それぞれの領域毎のヒストグラムの差分値をトータルして顔表情変化度とする構成としてもよい。これにより、標準顔画像と入力顔画像の全く異なる位置に抽出されたSURFが同じクラスタに属するということが無くなるので、より正確に顔表情変化度を測定できる。
【0104】
また、顔表情変化度測定プログラムは、通信回線を介して配布することも可能であるし、DVDやCD−ROM等の記録媒体に書き込んで配布することも可能である。
【0105】
また、例えば第1実施形態に係る顔表情変化度測定装置1が、画像記憶手段7Aと、検索手段17とを備えるように変形して、所望の表情の画像を検索できるように構成してもよい。
【0106】
また、各実施形態では、被写体として1人の人物の顔表情変化度を測定するものとして説明したが、被写体は複数であってもよく、その場合には、複数の顔表情変化度測定装置を用いて並列に処理すればよい。
【0107】
また、各実施形態の顔表情変化度測定装置を家庭で利用する場合には、標準顔を取り込んで標準顔ヒストグラムを一度作成しておけば、前記したステップS3の処理の後に、前記したステップS4〜S7の処理をスキップして前記したステップS8に進むこととしてもよい。
【0108】
また、各実施形態では、被写体の動画映像の各フレーム画像から顔表情変化度を測定するものとしたが、静止画を用いてもよい。また、セキュリティ技術に適用してもよい。
【0109】
また、各実施形態では、顔表情変化度を測定する測定対象の画像は、人物をカメラで撮影した被写体として説明したが、顔の表情が変化し、その特徴点が抽出できるものであれば人物の実写に限定されるものではない。さらに、測定対象は、人間に限定されず、例えば、動物等の生物、人形やロボット等の無生物、CG、アニメーション、ゲーム等の架空のキャラクタの顔の画像でもよい。
【符号の説明】
【0110】
1、1A 顔表情変化度測定装置
2 モード判別手段
3 画像取込手段
4 顔領域検出手段
5 画像特徴量抽出手段
6 画像特徴量記憶手段
7A 画像記憶手段
8 クラスタリング手段
9 ヒストグラム作成手段
10 ヒストグラム記憶手段
11 差分算出手段
12 入力装置
13 標準顔画像ヒストグラム
14 入力顔画像ヒストグラム
15 表示装置
16 画像蓄積装置
17 検索手段
200 番組興味度測定装置
21 復調・デコード部
22 ビデオ管理部(ビデオ管理手段)
23 ビデオ蓄積部
24 顔表情変化度測定部(顔表情変化度測定装置)
25 番組興味度蓄積部(番組興味度蓄積手段)
26 グラフ生成部(グラフ生成手段)
C カメラ
M モニタ
N インターネット
ATN アンテナ

【特許請求の範囲】
【請求項1】
測定対象の画像を取り込む画像取込手段と、前記画像中の測定対象の顔領域を検出する顔領域検出手段とを備え、前記画像として入力する測定対象の顔の表情の変化の度合いを顔表情変化度として測定する顔表情変化度測定装置であって、
前記画像において前記顔領域検出手段によって検出された顔領域から、ベクトルまたはスカラーで表される画像の特徴量を示す複数の特徴点をそれぞれ抽出する画像特徴量抽出手段と、
前記検出された顔領域から前記特徴点が抽出された画像のうち、測定対象の基準とする顔の表情を示す標準顔と、当該測定対象の比較しようとする顔の表情を示す入力顔とに関する画像毎に、前記顔領域から抽出された複数の特徴点を、類似した特徴点同士をまとめた所定数のクラスタに分類するクラスタリング手段と、
前記標準顔を含む画像に対して前記特徴点が分類された各クラスタと、前記入力顔を含む画像に対して前記特徴点が分類された各クラスタの双方について、各クラスタを階級としてクラスタの要素である特徴点の個数を頻度とするヒストグラムをそれぞれ作成するヒストグラム作成手段と、
前記標準顔を含む画像に基づく各クラスタから作成されたヒストグラムと、前記入力顔を含む画像に基づく各クラスタから作成されたヒストグラムとの階級毎の差分を加工した正の値の累積和を、当該測定対象の顔表情変化度として算出する差分算出手段と、を備え、
前記クラスタリング手段は、前記標準顔の顔領域から抽出された特徴点を分類して生成された各クラスタをそれぞれ示す標準顔クラスタと、前記入力顔の顔領域から抽出された特徴点との特微量に関する距離を求め、前記入力顔の顔領域から抽出された特徴点を、前記標準顔クラスタのうち特微量に関して最も距離の近いクラスタに分類することを特徴とする顔表情変化度測定装置。
【請求項2】
前記画像取込手段は、前記測定対象の画像として被写体を撮影するカメラから出力されるカメラ映像を取り込み、
前記顔領域検出手段は、前記カメラ映像のフレーム画像毎に、前記被写体の顔領域を検出し、
前記カメラ映像として入力する被写体の顔表情変化度を測定することを特徴とする請求項1に記載の顔表情変化度測定装置。
【請求項3】
前記画像取込手段は、前記測定対象の画像として被写体をカメラで撮影したカメラ映像を蓄積した画像蓄積装置から出力されるカメラ映像を取り込み、
前記顔領域検出手段は、前記カメラ映像のフレーム画像毎に、前記被写体の顔領域を検出し、
前記カメラ映像として入力する被写体の顔表情変化度を測定することを特徴とする請求項1に記載の顔表情変化度測定装置。
【請求項4】
前記画像取込手段で取り込まれた測定対象の画像と、当該画像を基に前記差分算出手段で算出された顔表情変化度とを対応付けて記憶する画像記憶手段と、
入力装置から検索キーとして顔表情変化度の入力を受け付け、前記受け付けた顔表情変化度に対応した画像を前記画像記憶手段から検索して表示装置に出力する検索手段と、
をさらに備えることを特徴とする請求項1から請求項3のいずれか一項に記載の顔表情変化度測定装置。
【請求項5】
測定対象の画像として入力する測定対象の顔の表情の変化の度合いを顔表情変化度として測定するために、コンピュータを、
前記測定対象の顔領域を検出する顔領域検出手段、
前記画像において前記顔領域検出手段によって検出された顔領域から、ベクトルまたはスカラーで表される画像の特徴量を示す複数の特徴点をそれぞれ抽出する画像特徴量抽出手段、
前記検出された顔領域から前記特徴点が抽出された画像のうち、測定対象の基準とする顔の表情を示す標準顔と、当該測定対象の比較しようとする顔の表情を示す入力顔とに関する画像毎に、前記顔領域から抽出された複数の特徴点を、類似した特徴点同士をまとめた所定数のクラスタに分類するクラスタリング手段、
前記標準顔を含む画像に対して前記特徴点が分類された各クラスタと、前記入力顔を含む画像に対して前記特徴点が分類された各クラスタの双方について、各クラスタを階級としてクラスタの要素である特徴点の個数を頻度とするヒストグラムをそれぞれ作成するヒストグラム作成手段、
前記標準顔を含む画像に基づく各クラスタから作成されたヒストグラムと、前記入力顔を含む画像に基づく各クラスタから作成されたヒストグラムとの階級毎の差分を加工した正の値の累積和を、当該測定対象の顔表情変化度として算出する差分算出手段として機能させ、
前記クラスタリング手段は、前記標準顔の顔領域から抽出された特徴点を分類して生成された各クラスタをそれぞれ示す標準顔クラスタと、前記入力顔の顔領域から抽出された特徴点との特微量に関する距離を求め、前記入力顔の顔領域から抽出された特徴点を、前記標準顔クラスタのうち特微量に関して最も距離の近いクラスタに分類することを特徴とする顔表情変化度測定プログラム。
【請求項6】
テレビ番組を表示するモニタと、前記モニタに表示されたテレビ番組を視聴する視聴者を撮影するカメラとを備えた番組興味度測定装置であって、
前記カメラから出力されるカメラ映像を取り込む請求項2に記載の顔表情変化度測定装置と、
外部から受信する映像または内部に蓄積された映像を示す番組を前記モニタに表示させるビデオ管理手段と、
前記顔表情変化度測定装置で測定された前記視聴者の顔表情変化度の時系列データを前記テレビ番組に対する時系列の番組興味度として取得し、前記時系列の番組興味度を、番組名および番組尺中における番組開始時刻からの経過時刻情報と共に蓄積する番組興味度蓄積手段と、
前記蓄積されたテレビ番組に対する時系列の番組興味度を示す時系列グラフを生成し、前記時系列グラフを前記モニタに表示させるグラフ生成手段と、
を備えることを特徴とする番組興味度測定装置。
【請求項7】
前記グラフ生成手段は、
前記番組興味度の最大値が1.0になるよう正規化し、かつ、前記顔表情変化度測定装置にて顔領域を検出できなかったときの前記番組興味度の値が−1.0になるようにして前記時系列グラフを生成することを特徴とする請求項6に記載の番組興味度測定装置。
【請求項8】
前記グラフ生成手段は、
予め定められた時間内にそれぞれ取得した前記番組興味度の値を平均化した平均化興味度を生成し、前記平均化興味度を用いて前記時系列グラフを生成することを特徴とする請求項6または請求項7に記載の番組興味度測定装置。
【請求項9】
前記ビデオ管理手段は、
前記時系列グラフを生成するときに視聴者が視聴していたテレビ番組において当該番組尺中における時刻情報と、前記時系列グラフにおける時刻情報とを対応付け、入力装置から、前記モニタに表示された時系列グラフ上の点を指定する入力を受け付け、前記指定された時系列グラフ上の点で示される時刻情報に対応した時刻から当該番組を再生した映像を前記モニタに表示させる機能をさらに有することを特徴とする請求項6ないし請求項8のいずれか一項に記載の番組興味度測定装置。
【請求項10】
前記ビデオ管理手段は、
前記時系列グラフにおいて、前記番組興味度が予め定められた閾値よりも大きい時間範囲を前記視聴者が興味を持ったシーンとして抽出し、前記シーンに登場する人物または物体を認識し、認識結果を視聴ログとして収集し、前記収集した視聴ログに含まれる人物名または物体名と、外部から受信する映像または内部に蓄積された映像を示す番組に予め付されたメタデータに含まれる人物名または物体名とを照合し、前記メタデータが付された番組の中から関連番組を探索して前記視聴者に推薦する機能をさらに有することを特徴とする請求項6ないし請求項9のいずれか一項に記載の番組興味度測定装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2011−237970(P2011−237970A)
【公開日】平成23年11月24日(2011.11.24)
【国際特許分類】
【出願番号】特願2010−108112(P2010−108112)
【出願日】平成22年5月10日(2010.5.10)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】