説明

情報処理装置、情報処理方法、およびプログラム

【課題】動画像コンテンツの画像上に登場する特定の人物の動きを継続的に追尾する。
【解決手段】顔検出部13は、フレーム上に存在する人の顔を検出する。顔識別部14は、検出された顔の特徴量を算出し、算出した特徴量を人物-顔データベース15に照合して、その人物を特定する。人物特定部16は、顔識別部14にてその人物を特定できなかった顔について、その顔が検出されたときの音声情報を、人物-音声データベース17に照合することによって、検出された顔の人物を特定する。人物追尾部18は、人物が特定された顔の動きを追尾する。音声検出部19は、顔検出部13にて顔が検出され、その顔の口が動いているときの音声を抽出する。音声解析部20は、抽出された音声の周波数分布を算出する。本発明は、人物追尾装置に適用できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、音声を伴う動画像コンテンツの画像上から人の顔を検出し、その人物を識別して追尾できるようにした情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
従来、動画像上に存在する人などの動体を検出して追尾する動体追尾方法が数多く提案されている。例えば、特許文献1には、動画像上に動体を含む矩形の領域を設け、その矩形の画素値の移動を追尾するようになされている。
【0003】
また、従来、動画像上に存在する人の顔を検出し、その顔が誰であるのかを特定する顔識別方法が数多く提案されている。具体的には、例えば、検出した顔の特徴量を抽出し、予め用意されている人物とその顔の特徴量が対応付けられたデータベースに照合することにより、検出した顔が誰のものであるのかを特定するようになされている。
【0004】
上述した動体追尾方法と顔識別方法を組み合わせれば、例えば、動画像コンテンツの画像上に登場する特定の人物の動きを追尾することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−203245号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来の動体追尾方法では、追尾している物体が画像上において物陰に隠れてしまったり、画像が全体的に暗くなったりした場合には追尾している物体を見失ってしまう。よって、このような場合、再び物体を検出して追尾する必要があり、物体を継続的に追尾することができなかった。
【0007】
また、上述した従来の顔識別方法では、例えば、正面を正視している状態の顔は識別できるものの、同一人物の顔であっても笑い顔、泣き顔などのように表情がついた顔は識別できなかったり、横顔などのように正面以外の方向を向いている顔は識別できなかったりすることがあった。
【0008】
したがって、上述した動体追尾方法と顔識別方法を組み合わせることにより、動画像コンテンツの画像上に登場する特定の人物の動きを追尾する場合において、同様の問題が生じ得る。
【0009】
本発明はこのような状況に鑑みてなされたものであり、動画像コンテンツの画像上に登場する顔の人物を特定し、その人物の動きを継続的に追尾できるようにするものである。
【課題を解決するための手段】
【0010】
本発明の第1の側面である情報処理装置は、音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置において、前記動画像コンテンツのフレーム上から人の顔を検出する検出手段と、検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定手段と、前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析手段と、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定手段によって人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定手段とを含む。
【0011】
本発明の第1の側面である情報処理装置は、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定手段によって人物が特定された顔に対応する前記音声情報を、特定された人物の人物識別情報に対応付けて前記第2のデータベースに登録する登録手段をさらに含むことができる。
【0012】
本発明の第1の側面である情報処理装置は、前記動画像コンテンツのフレーム上から検出され、人物が特定された顔の前記フレーム上における位置を追尾する追尾手段をさらに含むことができる。
【0013】
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、前記顔の位置を推定するようにすることができる。
【0014】
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、それ以前またはそれ以降の少なくとも一方におけるフレーム上で検出された顔の位置の軌跡に基づいて、前記顔の位置を推定するようにすることができる。
【0015】
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、その直前のフレーム上で検出された顔に対応する音声情報と、その直後のフレーム上で検出された顔に対応する音声情報との連続性に基づき、前記顔の位置を推定するようにすることができる。
【0016】
前記音声解析手段は、前記動画像コンテンツのフレーム上から人の顔が検出された期間の前記音声v1を抽出するとともに、前記期間のうちの口が動いている期間の音声v2を抽出し、前記音声v2の前記音声v1に対する差分Vをフーリエ変換することによって得られる周波数分布を前記音声情報として生成するようにすることができる。
【0017】
本発明の第2の側面である情報処理方法は、音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の情報処理方法において、前記情報処理装置による、前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定ステップと、前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定ステップとを含む。
【0018】
本発明の第1の側面であるプログラムは、音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の制御用のプログラムであって、前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定ステップと、前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定ステップとを含む処理を情報処理装置のコンピュータに実行させる。
【0019】
本発明の第1の側面においては、動画像コンテンツのフレーム上から人の顔が検出され、検出された顔の特徴量が抽出され、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合されることにより、検出された顔に対応する人物が特定される。また、動画像コンテンツのフレーム上から人の顔が検出されたときの音声が解析されて音声情報が生成され、動画像コンテンツのフレーム上から検出された顔のうち、人物が特定されなかった顔に対応する前記音声情報が、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合されることにより、検出された顔に対応する人物が特定される。
【発明の効果】
【0020】
本発明の一側面によれば、動画像コンテンツの画像上に登場する顔の人物を特定することができる。
【図面の簡単な説明】
【0021】
【図1】本発明を適用した人物追尾装置の構成例を示すブロック図である。
【図2】人物追尾処理を説明するフローチャートである。
【図3】音声情報登録処理を説明するフローチャートである。
【図4】人物-音声データベースの一例を示す図である。
【図5】音声情報に基づく顔の識別を説明する図である。
【図6】音声情報の連続性に基づいて人物の位置を推定する処理を説明する図である。
【図7】音声情報の連続性に基づいてシーンの切れ目を判断する処理を説明する図である。
【図8】コンピュータの構成例を説明するブロック図である。
【発明を実施するための形態】
【0022】
以下、発明を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。なお、説明は、以下の順序で行なう。
1.実施の形態
人物追尾装置の構成例
人物追尾装置の動作
【0023】
<1.実施の形態>
[人物追尾装置の構成例]
本発明の実施の形態である人物追尾装置は、音声を伴う動画像コンテンツの画像上から人の顔を検出し、その人物を識別して継続的に追尾するものである。
【0024】
図1は、本発明の実施の形態である人物追尾装置の構成例を示している。この人物追尾装置10は、分離部11、フレームバッファ12、顔検出部13、顔識別部14、人物-顔データベース(DB)15、人物特定部16、人物-音声データベース17、人物追尾部18、音声検出部19、音声解析部20、および文字情報抽出部21から構成される。
【0025】
分離部11は、人物追尾装置10に入力される動画像コンテンツ(映像、音声、およびメタデータや字幕等の文字情報を含む)を映像、音声、文字情報に分離する。分離された映像はフレームバッファ12に、音声は音声検出部19に、文字情報は文字情報検出部21に供給される。
【0026】
フレームバッファ12は、分離部11から供給される動画像コンテンツの映像をフレーム単位で一時的に保持する。顔検出部13は、フレームバッファ12から映像のフレームを順次取得し、取得したフレーム上に存在する人の顔を検出し、取得したフレームとともに検出結果を顔識別部14に出力する。また、顔検出部13は、顔を検出した期間と、その顔の口が動いている(発話している)期間を検出して、検出結果を音声検出部19に通知する。
【0027】
顔識別部14は、フレーム上で検出された顔の特徴量を算出し、算出した特徴量を人物-顔データベース15に照合することにより、検出された顔の人物を特定する(検出された顔がだれのものであるかを識別する)。ただし、顔識別部14において、識別できない顔があってもよい。
【0028】
人物-顔データベース15は、予め機械学習によって作成されたものであり、例えば、テレビジョン番組、映画などの動画像コンテンツに出演し得る芸能人、スポーツ選手、政治家、文化人などの人物識別情報(氏名など)に、その顔の特徴量が対応付けて登録されているものである。
【0029】
人物特定部16は、顔検出部13にて検出され、顔識別部14にて識別された顔の人物に、その顔が検出されたときの音声情報(音声解析部20から供給される)を対応付けて人物-音声データベース17に登録する。さらに、顔識別部14にて識別された顔の人物に、文字情報抽出部21にて抽出されたキーワードなども対応付けて人物-音声データベース17に登録する。
【0030】
また、人物特定部16は、顔検出部13にて検出された顔のうち、顔識別部14にてその人物を特定できなかった顔について、その顔が検出されたときの音声情報(音声解析部20から供給される)を、人物-音声データベース17に照合することによって、検出された顔の人物を特定する。
【0031】
人物-音声データベース17は、人物特定部16からの制御に従い、検出された顔に対して特定された人物の人物識別情報に、音声情報を対応付けて登録する。なお、人物-音声データベース17の登録内容は、人物特定部16からの制御に基づくものの他、予め登録しておくようにしてもよいし、さらに外部から登録内容を追加更新できるようにしてもよい。また、この人物-音声データベース17の登録内容を、他の人物追尾装置10などに供給できるようにしてもよい。
【0032】
人物追尾部18は、各フレームにおいて検出され、人物が特定された顔の動きを追尾する。また、人物追尾部18は、人の顔が検出されなかったフレームについても、それ以前のフレーム、およびそれ以降のフレームにて検出された顔の位置、および音声情報の連続性に基づいて、検出されなかった顔の位置を推定することにより、顔の追尾を補間する。
【0033】
音声検出部19は、分離部11から供給される動画像コンテンツの音声のうち、顔検出部13にて顔が検出された期間の音声v1を抽出する。また、音声検出部19は、顔が検出された期間のうち、その顔の口が動いている期間の音声v2を抽出する。さらに、音声検出部19は、音声v1に対する音声v2の差分Vを演算して音声解析部20に出力する。
【0034】
ここで、音声v1は、顔が検出された人物による発話音声が含まれておらず、環境音のみが含まれると考えられる。これに対して、音声v2は、顔が検出された人物による発話音声と環境音とが含まれると考えられる。したがって、これらの差分Vは、環境音が除外され、顔が検出された人物による発話音声のみを含むと考えられる。
【0035】
音声解析部20は、音声検出部19から入力された差分V(=v2−v1)をフーリエ変換し、その結果得られる差分V(顔が検出された人物による発話音声)の周波数分布fを音声情報として人物特定部16に出力する。なお、音声解析部20にて、周波数分布fの他、発話音声(差分V)の抑揚、強度、アクセントなどの変化のパターンを検出するようにし、それらも音声情報に含めて登録するようにしてもよい。
【0036】
文字情報抽出部21は、分離部11から供給される動画像コンテンツの文字情報(動画像コンテンツの概要説明文、字幕、テロップなど)を形態素解析し、その結果から固有名詞を抽出する。この固有名詞には、顔か検出された人物の氏名、役柄名、決まり文句などが含まれると考えられるので、これらをキーワードとして人物特定部16に供給する。
【0037】
[人物追尾装置の動作]
次に、人物追尾装置10による動作に説明する。図2は、人物追尾装置10による人物追尾処理を説明するフローチャートである。
【0038】
この人物追尾処理は、音声を伴う動画像コンテンツの画像上から人の顔を検出し、その人物を識別して継続的に追尾するものである。
【0039】
ステップS1において、人物追尾装置10に動画像コンテンツが入力される。分離部11は、動画像コンテンツを映像、音声、文字情報に分離し、映像をフレームバッファ12に、音声を音声検出部19に、文字情報を文字情報検出部21に供給する。
【0040】
ステップS2において、顔検出部13は、フレームバッファ12から映像のフレームを順次取得し、取得したフレーム上に存在する人の顔を検出し、取得したフレームとともに検出結果を顔識別部14に出力する。なお、ここでは、正面を正視している顔の他、様々な表情の顔、様々な方向を向いている顔も検出される。なお、ステップS2の処理で用いる顔検出技術については、既存の任意のものを採用すればよい。また、顔検出部13は、顔を検出した期間と、その顔の口が動いている期間を検出して、検出結果を音声検出部19に通知する。
【0041】
ステップS3において、顔識別部14は、フレーム上で検出された顔の特徴量を算出し、算出した特徴量を人物-顔データベース15に照合することにより、検出された顔の人物を特定する。
【0042】
一方、動画像コンテンツの音声については、ステップS4において、音声検出部19が、顔が検出された人物による発話音声に対応する音声を抽出し、音声解析部20が、抽出された音声に対応する音声情報を取得し、人物特定部16が、識別された人物に対応付けて音声情報を人物-音声データベース17に登録する。これにより、例えば、図4に示すように、人物識別情報(Aさんなどの氏名)に音声情報(周波数分布F)が対応付けられた人物-音声データベース17が生成される。
【0043】
ステップS4の処理(以下、音声情報登録処理と称する)に詳述する。図3は、音声情報登録処理を説明するフローチャートである。
【0044】
ステップS21において、音声検出部19は、分離部11から供給される動画像コンテンツの音声のうち、顔検出部13にて顔が検出された期間の音声v1を抽出する。また、音声検出部19は、顔が検出された期間のうち、その顔の口が動いている期間の音声v2を抽出する。ステップS22において、音声検出部19は、音声v1に対する音声v2の差分Vを演算して音声解析部20に出力する。
【0045】
ステップS23において、音声解析部20は、音声検出部19から入力された差分V(=v2−v1)をフーリエ変換し、その結果得られる差分V(顔が検出された人物による発話音声)の周波数分布fを音声情報として人物特定部16に出力する。
【0046】
ところで、一回の発話音声に対応する周波数分布fを、その人物を識別するための音声情報として登録してしまうことは不適切である。そこで、ステップS24において、人物特定部16は、同一の人物と識別された顔が検出されたときのそれぞれに対応する発話音声(差分V)の周波数分布fを周波数分布群にグループ化し、周波数分布群を平均化するなどして周波数分布Fを決定する。そして、ステップS25において、人物特定部16は、周波数分布Fを当該人物の音声情報として人物-音声データベース15に登録する。
【0047】
図2に戻り、ステップS5において、文字情報抽出部21は、分離部11から供給された動画像コンテンツの文字情報を形態素解析して固有名詞を抽出し、キーワードとして人物特定部16に供給する。人物特定部16は、入力されたキーワードも、識別された人物に対応付けて人物-音声データベース17に登録する。
【0048】
ステップS6において、人物特定部16は、顔検出部13にて検出された顔のうち、顔識別部14にてその人物が特定されなかった顔が存在するか否かを判定し、存在すると判定した場合、処理をステップS7に進める。ステップS7において、人物特定部16は、顔検出部13にて検出された顔のうち、その人物が特定されなかった顔について、その顔が検出されたときの音声情報(音声解析部20から供給される)を、人物-音声データベース17に照合することによって、検出された顔の人物を特定する。
【0049】
ここで、ステップS6およびS7の処理について図5を参照して説明する。
【0050】
例えば、ステップS2にて顔検出部13により、図5に示す顔2が検出された場合、ステップS3にて顔識別部14により、その顔の特徴量によってその人物がAさんと識別される。同様に、ステップS2にて顔検出部13により、図5に示す顔4が検出された場合、ステップS3にて顔識別部14により、その顔の特徴量によってその人物がBさんと識別される。
【0051】
これに対して、ステップS2にて顔検出部13により、図5に示す顔1が検出された場合、ステップS3にて、顔の表情やその向きに起因して、その人物が識別されないことがある。このような場合、ステップS7にて、顔1に対応する音声情報が人物-音声データベース17に照合されて、顔1に対応する音声情報がBさんの音声情報と類似していれば、顔1の人物がBさんと識別される。
【0052】
同様に、ステップS2にて顔検出部13により、図5に示す顔3が検出された場合、ステップS3にて、顔の表情や顔の向きに起因して、その人物が識別されないことがある。このような場合、ステップS7にて、顔3に対応する音声情報が人物-音声データベース17に照合されて、顔3に対応する音声情報がAさんの音声情報と類似していれば、顔3の人物がAさんと識別される。
【0053】
なお、当然ながら、検出された顔1の人物がBさんである識別するためには、Bさんの音声情報が予め人物-音声データベース17に登録されているか、または、その識別を行う前までに、フレーム上で検出された顔がBさんと識別され、検出されたときの音声情報がBさんの個人識別情報に対応付けて人物-音声データベース17に登録されている必要がある。同様に、検出された顔3の人物がAさんである識別するためには、Aさんの音声情報が予め人物-音声データベース17に登録されているか、または、その識別を行う前までに、フレーム上で検出された顔がAさんと識別され、検出されたときの音声情報がAさんの個人識別情報に対応付けて人物-音声データベース17に登録されている必要がある。
【0054】
図2に戻り、ステップS6において、顔検出部13にて検出された顔のうち、顔識別部14にてその人物が特定されなかった顔が存在しないと判定された場合、ステップS7はスキップされて処理はステップS8に進められる。
【0055】
ステップS8において、人物追尾部18は、ステップS2にて各フレームから検出され、ステップS3またはステップS7にて人物が特定された顔の動きを追尾する。なお、顔だけでなく、認識された顔に連なる身体も含めて追尾するようにしてもよい。
【0056】
ステップS9において、人物追尾部18は、ステップS2にて人の顔が検出されなかったフレームが存在する場合、当該フレームの直前のフレームに対応する音声情報と、当該フレームの直後のフレームに対応する音声情報との類似を判断する。そして、図6に示すように、両者が類似していると判断した場合、当該フレームまでにおいて検出され追尾された顔の軌跡(順方向の軌跡)と、当該フレーム以降において検出され追尾された顔の軌跡(逆方向の軌跡)とをそれぞれ延長し、それらが当該フレーム上において交差する位置を、顔が存在する位置として推定する。
【0057】
なお、図7に示すように、当該フレームの前後のフレームにそれぞれ対応する音声情報が類似していないと判断された場合、当該フレームを境としたシーンの切れ目(シーンチャンジ)が存在するものと判断する。この場合、当該フレームまでにおいて検出され追尾された顔の軌跡(順方向の軌跡)を当該フレーム上に延長した位置を、顔が存在する位置として推定する。以上で、人物追尾処理は終了される。
【0058】
以上に説明した人物追尾処理を用いれば、動画像において、特定の人物を追尾することができる。さらに、その特定が画面上において物陰に隠れたりしても、その位置を推定することができる。
【0059】
すなわち、人物追尾処理を用いれば、画面上における特定の人物の位置を常に把握することができるので、例えば、動画像コンテンツの画面上に登場する人物をカーソルによりクリックすると、その人物の情報が表示されるようなアプリケーションに適用することができる。
【0060】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0061】
図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0062】
このコンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
【0063】
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
【0064】
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
【0065】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
【0066】
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
【0067】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0068】
10 人物追尾装置, 11 分離部, 12 フレームバッファ, 13 顔検出部, 14 顔識別部, 15 人物-顔データベース, 16 人物特定部, 17 人物-音声データベース, 18 人物追尾部, 19 音声検出部, 20 音声解析部, 21 文字情報抽出部

【特許請求の範囲】
【請求項1】
音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置において、
前記動画像コンテンツのフレーム上から人の顔を検出する検出手段と、
検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定手段と、
前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析手段と、
前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定手段によって人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定手段と
を含む情報処理装置。
【請求項2】
前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定手段によって人物が特定された顔に対応する前記音声情報を、特定された人物の人物識別情報に対応付けて前記第2のデータベースに登録する登録手段を
さらに含む請求項1に記載の情報処理装置。
【請求項3】
前記動画像コンテンツのフレーム上から検出され、人物が特定された顔の前記フレーム上における位置を追尾する追尾手段を
さらに含む請求項1または2に記載の情報処理装置。
【請求項4】
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、前記顔の位置を推定する
請求項3に記載の情報処理装置。
【請求項5】
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、それ以前またはそれ以降の少なくとも一方におけるフレーム上で検出された顔の位置の軌跡に基づいて、前記顔の位置を推定する
請求項4に記載の情報処理装置。
【請求項6】
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、その直前のフレーム上で検出された顔に対応する音声情報と、その直後のフレーム上で検出された顔に対応する音声情報との連続性に基づき、前記顔の位置を推定する
請求項5に記載の情報処理装置。
【請求項7】
前記音声解析手段は、前記動画像コンテンツのフレーム上から人の顔が検出された期間の前記音声v1を抽出するとともに、前記期間のうちの口が動いている期間の音声v2を抽出し、前記音声v2の前記音声v1に対する差分Vをフーリエ変換することによって得られる周波数分布を前記音声情報として生成する
請求項1乃至6に記載の情報処理装置。
【請求項8】
音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の情報処理方法において、
前記情報処理装置による、
前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、
検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定ステップと、
前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、
前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定ステップと
を含む情報処理方法。
【請求項9】
音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の制御用のプログラムであって、
前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、
検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定ステップと、
前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、
前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定ステップと
を含む処理を情報処理装置のコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−123529(P2011−123529A)
【公開日】平成23年6月23日(2011.6.23)
【国際特許分類】
【出願番号】特願2009−278180(P2009−278180)
【出願日】平成21年12月8日(2009.12.8)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】