話者顔画像決定方法及び装置及びプログラム

【課題】話者名が分からない場合においても、映像を視聴することなく話者を特定する。
【解決手段】本発明は、教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者ＩＤを付与し、話者認識結果として話者認識結果記憶手段に格納し、入力された映像から顔の位置を検出する手法により話者ＩＤに対応する話者区間に含まれる顔画像を検出し、話者ＩＤと共に話者ＩＤ毎顔画像記憶手段に格納し、話者ＩＤ毎画像記憶手段に記憶されている各話者ＩＤの各顔画像に対する個人特徴を抽出し、顔画像に対する個人特徴から話者ＩＤ毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段に格納する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、話者顔画像決定方法及び装置及びプログラムに係り、特に、映像（音声付）から発話者と顔映像を対応付けるための話者顔画像決定方法及び装置及びプログラムに関する。
【背景技術】
【０００２】
映像インデキシング技術の一つに話者認識技術がある。話者認識技術は教師あり話者認識技術と教師なし話者認識技術とに大別される。教師あり話者認識技術では、教師データを与えるため、認識に先立って教師データを作成する必要がある。一方、教師なし話者認識では、教師データを用意することなく映像を発話者毎の区間に分割することが可能である。
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、教師なし話者認識を行った場合、話者毎の区間に分割することはできるが、それが誰の発話なのかは不明である。従って、区間に対してラベルを付与した場合にも、
「話者１、話者２、話者１、…」
という状態になってしまう。利用者が特定話者（Ａさん）の発話部分のみを視聴したいと考えた場合を確認するためには、Ａさんがどの話者ラベルに対応しているのか一度映像を視聴しなければならない。
【０００４】
本発明は、上記の点に鑑みなされたもので、話者名が分からない場合においても、映像を視聴することなく話者を特定することを可能とするため、話者ラベルと該話者の顔画像とを対応付ける話者顔画像決定方法及び装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００５】
図１は、本発明の原理を説明するための図である。
【０００６】
本発明（請求項１）は、入力された音声が含まれる映像から該映像に映っている話者の顔画像を決定するための顔画像決定方法であって、
音響解析手段が、教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者ＩＤを付与し、話者認識結果として話者認識結果記憶手段に格納する音響解析ステップ（ステップ１）と、
顔検出手段が、入力された映像から顔の位置を検出する手法により話者ＩＤに対応する話者区間に含まれる顔画像を検出し、話者ＩＤと共に話者ＩＤ毎顔画像記憶手段に格納する顔検出ステップ（ステップ２）と、
個人特徴抽出手段が、話者ＩＤ毎画像記憶手段に記憶されている各話者ＩＤの各顔画像に対する個人特徴を抽出する個人特徴抽出ステップ（ステップ３）と、
話者個人特徴決定手段が、顔画像に対する個人特徴から話者ＩＤ毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段に格納する話者個人特徴決定ステップ（ステップ４）と、を行う。
【０００７】
また、本発明（請求項２）は、話者個人特徴決定ステップ（ステップ４）において、
個人特徴についてクラスタリングを行い、話者区間内の映像の顔画像のうち、最頻出のものを、最も相応しい個人特徴とする。
【０００８】
また、本発明（請求項３）は、話者個人特徴決定ステップ（ステップ４）において、
個人特徴のうち、該個人特徴間の距離が閾値より小さい個人特徴から最も出現頻度が高いものを、最も相応しい個人特徴とする。
【０００９】
図２は、本発明の原理構成図である。
【００１０】
本発明（請求項４）は、入力された音声が含まれる映像から該映像に映っている話者の顔画像を決定するための顔画像決定装置であって、
教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者ＩＤを付与し、話者認識結果として話者認識結果記憶手段５に格納する音響解析手段１と、
入力された映像から顔の位置を検出する手法により話者ＩＤに対応する話者区間に含まれる顔画像を検出し、話者ＩＤと共に話者ＩＤ毎顔画像記憶手段６に格納する顔検出手段２と、
話者ＩＤ毎画像記憶手段６に記憶されている各話者ＩＤの各顔画像に対する個人特徴を抽出する個人特徴抽出手段３と、
顔画像に対する個人特徴から話者ＩＤ毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段７に格納する話者個人特徴決定手段４と、を有する。
【００１１】
また、本発明（請求項５）は、話者個人特徴決定手段４において、
個人特徴についてクラスタリングを行い、話者区間内の映像の顔画像のうち、最頻出のものを、最も相応しい個人特徴とする手段を含む。
【００１２】
また、本発明（請求項６）は、話者個人特徴決定手段４において、
個人特徴のうち、該個人特徴間の距離が閾値より小さい個人特徴から最も出現頻度が高いものを、最も相応しい個人特徴とする手段を含む。
【００１３】
本発明（請求項７）は、コンピュータに、請求項４乃至６記載の顔画像決定装置の各手段を実行させる顔画像決定プログラムである。
【発明の効果】
【００１４】
上記のように本発明によれば、検出された顔画像から個人特徴を抽出し、話者情報と個人特徴から話者を特定し、顔画像と共に表示することにより、テキストによる話者名でないものの、顔画像で表示することで、一度再生することなしに話者についての情報を得ることができる。
【発明を実施するための最良の形態】
【００１５】
以下、図面と共に本発明の実施の形態を説明する。
【００１６】
図３は、本発明の一実施の形態における話者顔画像決定装置の構成を示す。
【００１７】
同図に示す話者顔画像決定装置には、音声付の映像が蓄積されている映像記憶装置８が接続されている。
【００１８】
話者顔画像決定装置は、教師なし話者認識部１、顔検出部２、個人特徴抽出部３、話者個人特徴決定部４、話者ＩＤ毎顔画像記憶装置６、話者個人特徴決定結果記憶部７から構成される。
【００１９】
教師なし話者認識部１は、映像記憶装置８から音声付の映像を取得して当該音声の特徴量から話者認識する。話者認識の方法としては、例えば、特開２００４−１４５１６１号公報（音声データベース登録処理方法、音声発生源認識方法、音声発生区間検索方法、音声データベース登録処理装置、音声発生源認識装置、音声発生区間検索装置、並びにそのプログラムおよびそのプログラムの記録媒体）を用いることができる。なお、話者認識の方法は、当該文献に示したものに限定するものではない。従って、教師無し話者認識の手法そのものには言及しない。教師なし話者認識部１で認識された話者認識結果は、話者認識結果記憶部５に格納される。
【００２０】
話者認識結果記憶部５は、話者認識結果を格納する。図４は、本発明の一実施の形態における話者認識結果記憶部の例を示す。図４に示す話者認識結果記憶部５は、映像区間ＩＤ、映像区間の開始時刻、終了時刻、話者ＩＤからなる。映像区間ＩＤは話者が切り替わる毎に付与されるユニークな番号である。映像区間の開始時刻・終了時刻は、時刻を特定できる表示方法であればどのような表示方法でもかまわない。本実施の形態では、秒をイメージして記述している。話者ＩＤは、話者毎に付与されるラベルであり、教師なし話者認識であるため、個人名は付与することができない。従って、話者ＩＤは話者毎に付与される記号である。ここでは、整数を付与することとしているがアルファベットなどでもかまわない。
【００２１】
顔検出部２は、話者認識結果記憶部５を参照して、話者区間（映像区間ＩＤに対応する映像区間の開始時刻・終了時刻）に含まれる顔画像を検出する。顔画像の検出方法は、既存の静止画からの顔検出方法であればよく、特にその方法を限定するものではない。検出された顔画像は当該区間ＩＤに対応する話者の話者ＩＤを付与し、当該話者ＩＤ毎に顔画像を話者ＩＤ毎顔画像記憶部６に格納する。
【００２２】
個人特徴抽出部３は、話者ＩＤ毎顔画像記憶部６に格納されている話者ＩＤ毎の顔画像から当該話者の個人特徴を抽出する。本発明では、個人特徴抽出方法については特に限定しないが、従来の顔認識手法で提案されている顔の幅、両目の中心間の距離、頭頂から目の高さなど、あるいは、固有顔などが考えられる。より簡易な方法としては、顔の下に存在する服の領域から色を取得することで、簡易な個人認証を行うことも考えられる。
【００２３】
話者個人特徴決定部４は、話者ＩＤに対応する顔画像集合に対し、個人特徴を特徴量としてクラスタリングを行い、クラスタリング結果で最大クラスタに含まれる個人特徴の重心に最も近い個人特徴を求め、当該話者ＩＤに対する個人特徴として話者個人特徴決定結果記憶部７に格納する。
【００２４】
次に、上記の構成における一連の動作を説明する。
【００２５】
図５は、本発明の一実施の形態における話者顔画像決定装置の動作のフローチャートである。
【００２６】
ステップ１００）教師なし話者認識部１において、入力された音声付映像から音響解析により話者の認識を行い、話者認識結果を話者認識結果記憶部５に格納する。例えば、クラスタリングには、例えば、文献「クラスター分析入門」宮本定明著、森北出版」に記載されている方法がある。これを話者認識で利用される特徴量（前述の特開２００４−１４５１６１号公報）に適用することで、教師なし話者認識が可能である。ここでは、その手法を限定するものではない。
【００２７】
ステップ２００）顔検出部２は、話者認識結果記憶部５の情報に基づいて顔画像を求め、話者ＩＤ毎顔画像記憶部６に記録する。以下にその詳細を説明する。
【００２８】
図６は、本発明の一実施の形態における顔画像検出処理のフローチャートである。
【００２９】
ステップ５０１）区間ＩＤｉについてｉ＝０と初期化する。
【００３０】
ステップ５０２）話者認識結果記憶部５からｉの開始時刻から終了時刻を取得し、当該時間範囲の映像を映像記憶装置８から取得し、当該映像からカット点検出を行う。
【００３１】
ステップ５０３）カット点があるかどうかを判定し、カット点がある場合はステップ５０４に移行し、それ以外の場合はステップ５０９へ移行する。但し、カット点である必要はなく、予め設定しておいた一定時間間隔などでも構わない。
【００３２】
ステップ５０４）カット点について顔検出を行う。静止画からの顔検出については様々な既存技術がある。ここでは、顔の位置が検出可能な手法であればどのような方法でも構わない。例えば、IntelのOpen Source Computer Vision Libraryなどにも顔検出が含まれる。
【００３３】
ステップ５０５）顔検出されたかどうか判定を行う。顔があった場合には、ステップ５０６に移行し、ない場合はステップ５０８に移行する。
【００３４】
ステップ５０６）区間ＩＤｉに基づいて話者認識結果記憶部５を検索し、話者の話者ＩＤを求め、Ｓとする。
【００３５】
ステップ５０７）話者ＩＤ（Ｓ）の顔画像として、検出された顔画像を話者ＩＤ毎顔画像記憶部６に記録する。
【００３６】
ステップ５０８）ステップ５０２で検出された全てのカットにおける顔検出処理を行ったかを判定し、行っていなければステップ５０４に移行し、全てのカット点において顔検出処理を行っていれば、ステップ５０９に移行する。
【００３７】
ステップ５０９）全ての区間において上記ステップ５０２からステップ５０９に至る処理を行ったか判定を行い、行っていなければステップ５１０に移行し、そうでなければ処理を終了する。
【００３８】
ステップ５１０）区間ＩＤのｉをインクリメント（ｉ＝ｉ＋１）し、ステップ５０２に移行する。
【００３９】
上記のステップ５０１からステップ５１０に至る処理によって記憶される話者ＩＤ毎顔画像記憶部６の例を図７に示す。同図に示すように、話者ＩＤと映像区間において得られた顔画像がセットになっている。ここで、話者ＩＤ毎顔画像記憶部６においては、１つの話者ＩＤに対して複数の顔画像が対応付けられている、いわゆる１対多の関係となっている。この状況が保持できる形式であればどのような情報保持方法であっても構わない。
【００４０】
ステップ３００）個人特徴抽出部３は、ステップ２００において取得した話者ＩＤ毎の顔画像からその個人の特徴を抽出する。
【００４１】
ここでは、個人特徴抽出方法については限定せず、検出画像Ｘに対する特徴抽出処理Ｐ（Ｘ）の結果、Ｆ＝Ｐ（Ｘ）となることとして説明する。ここで、Ｆは特徴抽出の結果得られる特徴数を次元数とした特徴ベクトルである。
【００４２】
ステップ４００）話者個人特徴決定部４は、個人特徴抽出部３で抽出された特徴に基づいてクラスタリングにより話者の個人特徴を決定する。
【００４３】
ステップ３００により話者ＩＤ毎に得られている顔画像から個人特徴が抽出されたが、話者ＩＤ毎の顔画像には、話者ＩＤの人物当人だけでなく、様々な人物が含まれている。それは、ある話者が話している時に必ずしも当人が映っているとは限らないからである。そこで、ある話者ＩＤ（ｋ）について得られた顔画像Ｘ_ｋから得られる個人特徴Ｐ（Ｘ_ｋ）から真に話者ｋに関する個人特徴を決定する必要がある。
【００４４】
その一つの方法として、クラスタリングがある。この方法は、ある話者の時刻に画面に映る顔画像のうち最頻出のものは、当該話者の顔であるという前提による。
【００４５】
以下に、クラスタリングによる個人特徴決定処理の例を示す。
【００４６】
図８は、本発明の一実施の形態におけるクラスタリングによる話者特徴決定処理のフローチャートである。
【００４７】
ステップ７０１）話者ＩＤについてｑ＝０と初期化する。
【００４８】
ステップ７０２）話者ＩＤｑに含まれる顔画像集合Ｘに対して、その個人特徴である、Ｐ（Ｘ）を特跳量としたクラスタリングを行う。
【００４９】
ステップ７０３）クラスタリング結果で最大クラスタに含まれる個人特徴Ｐ（Ｘ’）の重心に最も近い個人特徴を求め、Ｐ（Ｘ_ｍ）とする。
【００５０】
ステップ７０４）話者ＩＤｑの個人特徴として、話者個人特徴決定結果記憶部７に、話者ＩＤｑと個人特徴Ｐ（Ｘ_ｍ）の組を格納する。
【００５１】
ステップ７０５）全ての話者ＩＤについて処理を行ったかを判定し、終わっていれば当該処理を終了し、終わっていない場合はステップ７０６に移行する。
【００５２】
ステップ７０６）ｑをインクリメント（ｑ＝ｑ＋１）し、ステップ７０２に移行する。
【００５３】
次に、話者個人特徴決定処理の別の実施方法として、最頻出の個人特徴を利用することが考えられる。その例を以下に示す。
【００５４】
図９は、本発明の一実施の形態における最頻出の個人特徴を利用した個人特徴決定処理のフローチャートである。
【００５５】
ステップ８０１）話者ＩＤについてｑ＝０と初期化する。
【００５６】
ステップ８０２）ｋ＝０と初期化する。
【００５７】
ステップ８０３）ｎ＝０及びカウンタＣ_ｋ＝０と初期化する。
【００５８】
ステップ８０４）顔画像Ｘｋの個人特徴であるＰ（Ｘ_ｋ）と、顔特徴Ｘ_ｎの個人特徴であるＰ（Ｘ_ｎ）との距離
│Ｐ（Ｘ_ｋ）−Ｐ（Ｘ_ｎ）│
が閾値ｔｈ以下であれば、ステップ８０５に移行し、そうでない場合は、ステップ８０６に移行する。
【００５９】
ステップ８０５）ステップ８０４で求めた距離が閾値以下であれば、頻度用のカウンタＣ_ｋをインクリメント（Ｃ_ｋ＝Ｃ_ｋ＋１）する。
【００６０】
ステップ８０６）ｎ＜Ｎであればｎをインクリメント（ｎ＝ｎ＋１）してステップ８０４に移行し、そうでなければステップ８０８に移行する。
【００６１】
ステップ８０７）ｋ＜Ｎであれば、ｋをインクリメント（ｋ＝ｋ＋１）してステップ８０３に移行する。そうでなければステップ８０８に移行する。
【００６２】
ステップ８０８）頻度カウンタＣ_ｋ（ｋ＝０，…，Ｎ−１）の値が最大となるｋを求め、ｍに代入する。
【００６３】
ステップ８０９）話者ＩＤｑの個人特徴として、話者個人特徴決定結果記憶部７に話者ＩＤｑと個人特徴Ｐ（Ｘ_ｍ）の組を記憶する。
【００６４】
ステップ８１０）全ての話者ＩＤについて処理を行ったかを判定し、終わっていれば当該処理を終了し、終わっていなければステップ８１１に移行する。
【００６５】
ステップ８１１）ｑをインクリメント（ｑ＝ｑ＋１）してステップ８０２に移行する。
【００６６】
図１０は、本発明の一実施の形態における話者個人特徴決定結果の例を示す。
【００６７】
ここでは、話者ＩＤと個人特徴の組を記憶する。さらに、この例では、代表顔画像として当該個人特徴を出力する顔画像を保持している。
【実施例】
【００６８】
以下、図面と共に本発明の実施例を示す。
【００６９】
以下では、クイズが出題され、クイズの回答者が２５マスから構成されるパネルで陣取り合戦を行うクイズ番組を題材として用いた例で説明する。クイズ番組は出演者が視聴者で毎回変化するものも多く、教師あり話者認識を適用することが困難な（メリットがない）コンテンツの例といえる。
【００７０】
図１１は、本発明の一実施例の教師なし話者認識結果例である。
【００７１】
各話者ＩＤの映像について、顔検出部２においてカット点検出・顔検出を行い、話者ＩＤ毎顔画像記憶部６に話者ＩＤ毎の顔画像を保存する。それらの画像から個人特徴を抽出する。
【００７２】
今回題材とするクイズ番組においては、図１２に示すように、座席の周囲に個人特有の色が配置されるため検出された顔の周辺における色情報を個人特徴とする。個人特徴抽出部３は、図１０をＸ_０とし、Ｐ（Ｘ_０）により、網掛け部分の画素を取得する。このように、クイズ番組に限らず、番組での映り方に関しての情報がある場合には、当該情報に合わせたヒューリスティックな個人情報抽出ルールを用いるのが適当である。但し、一方で全員が同じ色の服装を着てしまうようなクイズ番組においては、服の色の情報を個人特徴として利用することはできない。
【００７３】
話者個人特徴決定部４は、各話者ＩＤｑに含まれる画像集合Ｘについて、前述の個人特徴Ｐ（Ｘ_ｉ）のクラスタリングを行い、最大クラスタの重心に最も近いＰ（Ｘ_ｍ）を求める。これにより話者ＩＤｑと対応する個人特徴がＰ（Ｘ_ｍ）と求まる。ｑ⇔Ｘ_ｍの関係に従えば、顔画像をクリックすることで、該当する話者の発話区間のみを視聴することなどが容易に可能となる。
【００７４】
図１３は、本発明の一実施例におけるインデキシング結果の表示として利用した例を示している。同図の例では、画面上部に映像表示部が、下部に検出話者表示部がある。下部の顔画像は映像中の当該顔の話者が発話した図１１に示す区間と関連付いている。そして、画像をクリックすることにより、当該関連した映像区間が再生される。
【００７５】
このように、本発明を利用することで、話者の顔画像が一覧でき、顔画像と映像区間が関連付いていることによって再生が可能になる。
【００７６】
本発明では、上記の図３に示す装置の各機能をプログラムとして構築し、話者顔画像決定装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【００７７】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、話者顔画像決定装置として利用されるコンピュータにインストールする、または、配布することが可能である。
【００７８】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【００７９】
本発明は、映像コンテンツ処理技術、特に、話者認識と画像処理のマルチモーダル処理技術に適用可能である。
【図面の簡単な説明】
【００８０】
【図１】本発明の原理を説明するための図である。
【図２】本発明の原理構成図である。
【図３】本発明の一実施の形態における話者画像決定装置の構成図である。
【図４】本発明の一実施の形態における話者認識結果記憶部の例である。
【図５】本発明の一実施の形態における話者顔画像決定装置の動作のフローチャートである。
【図６】本発明の一実施の形態における顔画像検出処理のフローチャートである。
【図７】本発明の一実施の形態における話者ＩＤ毎顔画像記憶部の例である。
【図８】本発明の一実施の形態におけるクラスタリングによる個人特徴決定処理のフローチャートである。
【図９】本発明の一実施の形態における最頻出の個人特徴を利用した個人特徴決定処理のフローチャートである。
【図１０】本発明の一実施の形態における話者個人特徴決定結果の例である。
【図１１】本発明の一実施例の教師なし話者認識結果例である。
【図１２】本発明の一実施例の個人特徴の例である。
【図１３】本発明の一実施例におけるインデキシング結果の表示として利用した例である。
【符号の説明】
【００８１】
１音響解析手段、教師なし話者認識部
２顔検出手段、顔検出部
３個人特徴抽出手段、個人特徴抽出部
４話者個人特徴決定手段、話者個人特徴決定部
５話者認識結果記憶手段、話者認識結果記憶部
６話者ＩＤ毎顔画像記憶手段、話者ＩＤ毎顔画像記憶部
７話者個人特徴決定結果記憶手段、話者個人特徴決定結果記憶部

【特許請求の範囲】
【請求項１】
入力された音声が含まれる映像から該映像に映っている話者の顔画像を決定するための顔画像決定方法であって、
音響解析手段が、教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者ＩＤを付与し、話者認識結果として話者認識結果記憶手段に格納する音響解析ステップと、
顔検出手段が、入力された映像から顔の位置を検出する手法により前記話者ＩＤに対応する前記話者区間に含まれる顔画像を検出し、前記話者ＩＤと共に話者ＩＤ毎顔画像記憶手段に格納する顔検出ステップと、
個人特徴抽出手段が、前記話者ＩＤ毎画像記憶手段に記憶されている各話者ＩＤの各顔画像に対する個人特徴を抽出する個人特徴抽出ステップと、
話者個人特徴決定手段が、前記顔画像に対する個人特徴から前記話者ＩＤ毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段に格納する話者個人特徴決定ステップと、
を行うことを特徴とする顔画像決定方法。
【請求項２】
前記話者個人特徴決定ステップにおいて、
前記個人特徴についてクラスタリングを行い、前記話者区間内の映像の顔画像のうち、最頻出のものを、最も相応しい個人特徴とする、
請求項1記載の顔画像決定方法。
【請求項３】
前記話者個人特徴決定ステップにおいて、
前記個人特徴のうち、該個人特徴間の距離が閾値より小さい個人特徴から最も出現頻度が高いものを、最も相応しい個人特徴とする
請求項１記載の顔画像決定方法。
【請求項４】
入力された音声が含まれる映像から該映像に映っている話者の顔画像を決定するための顔画像決定装置であって、
教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者ＩＤを付与し、話者認識結果として話者認識結果記憶手段に格納する音響解析手段と、
入力された映像から顔の位置を検出する手法により前記話者ＩＤに対応する前記話者区間に含まれる顔画像を検出し、前記話者ＩＤと共に話者ＩＤ毎顔画像記憶手段に格納する顔検出手段と、
前記話者ＩＤ毎画像記憶手段に記憶されている各話者ＩＤの各顔画像に対する個人特徴を抽出する個人特徴抽出手段と、
前記顔画像に対する個人特徴から前記話者ＩＤ毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段に格納する話者個人特徴決定手段と、
を有することを特徴とする顔画像決定装置。
【請求項５】
前記話者個人特徴決定手段は、
前記個人特徴についてクラスタリングを行い、前記話者区間内の映像の顔画像のうち、最頻出のものを、最も相応しい個人特徴とする手段を含む、
請求項４記載の顔画像決定装置。
【請求項６】
前記話者個人特徴決定手段は、
前記個人特徴のうち、該個人特徴間の距離が閾値より小さい個人特徴から最も出現頻度が高いものを、最も相応しい個人特徴とする手段を含む
請求項４記載の顔画像決定装置。
【請求項７】
コンピュータに、
請求項４乃至６記載の顔画像決定装置の各手段を実行させることを特徴とする顔画像決定プログラム。

【図１】