説明

話者顔画像決定方法及び装置及びプログラム

【課題】話者名が分からない場合においても、映像を視聴することなく話者を特定する。
【解決手段】本発明は、教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者IDを付与し、話者認識結果として話者認識結果記憶手段に格納し、入力された映像から顔の位置を検出する手法により話者IDに対応する話者区間に含まれる顔画像を検出し、話者IDと共に話者ID毎顔画像記憶手段に格納し、話者ID毎画像記憶手段に記憶されている各話者IDの各顔画像に対する個人特徴を抽出し、顔画像に対する個人特徴から話者ID毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段に格納する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話者顔画像決定方法及び装置及びプログラムに係り、特に、映像(音声付)から発話者と顔映像を対応付けるための話者顔画像決定方法及び装置及びプログラムに関する。
【背景技術】
【0002】
映像インデキシング技術の一つに話者認識技術がある。話者認識技術は教師あり話者認識技術と教師なし話者認識技術とに大別される。教師あり話者認識技術では、教師データを与えるため、認識に先立って教師データを作成する必要がある。一方、教師なし話者認識では、教師データを用意することなく映像を発話者毎の区間に分割することが可能である。
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、教師なし話者認識を行った場合、話者毎の区間に分割することはできるが、それが誰の発話なのかは不明である。従って、区間に対してラベルを付与した場合にも、
「話者1、話者2、話者1、…」
という状態になってしまう。利用者が特定話者(Aさん)の発話部分のみを視聴したいと考えた場合を確認するためには、Aさんがどの話者ラベルに対応しているのか一度映像を視聴しなければならない。
【0004】
本発明は、上記の点に鑑みなされたもので、話者名が分からない場合においても、映像を視聴することなく話者を特定することを可能とするため、話者ラベルと該話者の顔画像とを対応付ける話者顔画像決定方法及び装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
図1は、本発明の原理を説明するための図である。
【0006】
本発明(請求項1)は、入力された音声が含まれる映像から該映像に映っている話者の顔画像を決定するための顔画像決定方法であって、
音響解析手段が、教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者IDを付与し、話者認識結果として話者認識結果記憶手段に格納する音響解析ステップ(ステップ1)と、
顔検出手段が、入力された映像から顔の位置を検出する手法により話者IDに対応する話者区間に含まれる顔画像を検出し、話者IDと共に話者ID毎顔画像記憶手段に格納する顔検出ステップ(ステップ2)と、
個人特徴抽出手段が、話者ID毎画像記憶手段に記憶されている各話者IDの各顔画像に対する個人特徴を抽出する個人特徴抽出ステップ(ステップ3)と、
話者個人特徴決定手段が、顔画像に対する個人特徴から話者ID毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段に格納する話者個人特徴決定ステップ(ステップ4)と、を行う。
【0007】
また、本発明(請求項2)は、話者個人特徴決定ステップ(ステップ4)において、
個人特徴についてクラスタリングを行い、話者区間内の映像の顔画像のうち、最頻出のものを、最も相応しい個人特徴とする。
【0008】
また、本発明(請求項3)は、話者個人特徴決定ステップ(ステップ4)において、
個人特徴のうち、該個人特徴間の距離が閾値より小さい個人特徴から最も出現頻度が高いものを、最も相応しい個人特徴とする。
【0009】
図2は、本発明の原理構成図である。
【0010】
本発明(請求項4)は、入力された音声が含まれる映像から該映像に映っている話者の顔画像を決定するための顔画像決定装置であって、
教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者IDを付与し、話者認識結果として話者認識結果記憶手段5に格納する音響解析手段1と、
入力された映像から顔の位置を検出する手法により話者IDに対応する話者区間に含まれる顔画像を検出し、話者IDと共に話者ID毎顔画像記憶手段6に格納する顔検出手段2と、
話者ID毎画像記憶手段6に記憶されている各話者IDの各顔画像に対する個人特徴を抽出する個人特徴抽出手段3と、
顔画像に対する個人特徴から話者ID毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段7に格納する話者個人特徴決定手段4と、を有する。
【0011】
また、本発明(請求項5)は、話者個人特徴決定手段4において、
個人特徴についてクラスタリングを行い、話者区間内の映像の顔画像のうち、最頻出のものを、最も相応しい個人特徴とする手段を含む。
【0012】
また、本発明(請求項6)は、話者個人特徴決定手段4において、
個人特徴のうち、該個人特徴間の距離が閾値より小さい個人特徴から最も出現頻度が高いものを、最も相応しい個人特徴とする手段を含む。
【0013】
本発明(請求項7)は、コンピュータに、請求項4乃至6記載の顔画像決定装置の各手段を実行させる顔画像決定プログラムである。
【発明の効果】
【0014】
上記のように本発明によれば、検出された顔画像から個人特徴を抽出し、話者情報と個人特徴から話者を特定し、顔画像と共に表示することにより、テキストによる話者名でないものの、顔画像で表示することで、一度再生することなしに話者についての情報を得ることができる。
【発明を実施するための最良の形態】
【0015】
以下、図面と共に本発明の実施の形態を説明する。
【0016】
図3は、本発明の一実施の形態における話者顔画像決定装置の構成を示す。
【0017】
同図に示す話者顔画像決定装置には、音声付の映像が蓄積されている映像記憶装置8が接続されている。
【0018】
話者顔画像決定装置は、教師なし話者認識部1、顔検出部2、個人特徴抽出部3、話者個人特徴決定部4、話者ID毎顔画像記憶装置6、話者個人特徴決定結果記憶部7から構成される。
【0019】
教師なし話者認識部1は、映像記憶装置8から音声付の映像を取得して当該音声の特徴量から話者認識する。話者認識の方法としては、例えば、特開2004−145161号公報(音声データベース登録処理方法、音声発生源認識方法、音声発生区間検索方法、音声データベース登録処理装置、音声発生源認識装置、音声発生区間検索装置、並びにそのプログラムおよびそのプログラムの記録媒体)を用いることができる。なお、話者認識の方法は、当該文献に示したものに限定するものではない。従って、教師無し話者認識の手法そのものには言及しない。教師なし話者認識部1で認識された話者認識結果は、話者認識結果記憶部5に格納される。
【0020】
話者認識結果記憶部5は、話者認識結果を格納する。図4は、本発明の一実施の形態における話者認識結果記憶部の例を示す。図4に示す話者認識結果記憶部5は、映像区間ID、映像区間の開始時刻、終了時刻、話者IDからなる。映像区間IDは話者が切り替わる毎に付与されるユニークな番号である。映像区間の開始時刻・終了時刻は、時刻を特定できる表示方法であればどのような表示方法でもかまわない。本実施の形態では、秒をイメージして記述している。話者IDは、話者毎に付与されるラベルであり、教師なし話者認識であるため、個人名は付与することができない。従って、話者IDは話者毎に付与される記号である。ここでは、整数を付与することとしているがアルファベットなどでもかまわない。
【0021】
顔検出部2は、話者認識結果記憶部5を参照して、話者区間(映像区間IDに対応する映像区間の開始時刻・終了時刻)に含まれる顔画像を検出する。顔画像の検出方法は、既存の静止画からの顔検出方法であればよく、特にその方法を限定するものではない。検出された顔画像は当該区間IDに対応する話者の話者IDを付与し、当該話者ID毎に顔画像を話者ID毎顔画像記憶部6に格納する。
【0022】
個人特徴抽出部3は、話者ID毎顔画像記憶部6に格納されている話者ID毎の顔画像から当該話者の個人特徴を抽出する。本発明では、個人特徴抽出方法については特に限定しないが、従来の顔認識手法で提案されている顔の幅、両目の中心間の距離、頭頂から目の高さなど、あるいは、固有顔などが考えられる。より簡易な方法としては、顔の下に存在する服の領域から色を取得することで、簡易な個人認証を行うことも考えられる。
【0023】
話者個人特徴決定部4は、話者IDに対応する顔画像集合に対し、個人特徴を特徴量としてクラスタリングを行い、クラスタリング結果で最大クラスタに含まれる個人特徴の重心に最も近い個人特徴を求め、当該話者IDに対する個人特徴として話者個人特徴決定結果記憶部7に格納する。
【0024】
次に、上記の構成における一連の動作を説明する。
【0025】
図5は、本発明の一実施の形態における話者顔画像決定装置の動作のフローチャートである。
【0026】
ステップ100) 教師なし話者認識部1において、入力された音声付映像から音響解析により話者の認識を行い、話者認識結果を話者認識結果記憶部5に格納する。例えば、クラスタリングには、例えば、文献「クラスター分析入門」宮本定明著、森北出版」に記載されている方法がある。これを話者認識で利用される特徴量(前述の特開2004−145161号公報)に適用することで、教師なし話者認識が可能である。ここでは、その手法を限定するものではない。
【0027】
ステップ200) 顔検出部2は、話者認識結果記憶部5の情報に基づいて顔画像を求め、話者ID毎顔画像記憶部6に記録する。以下にその詳細を説明する。
【0028】
図6は、本発明の一実施の形態における顔画像検出処理のフローチャートである。
【0029】
ステップ501) 区間IDiについてi=0と初期化する。
【0030】
ステップ502) 話者認識結果記憶部5からiの開始時刻から終了時刻を取得し、当該時間範囲の映像を映像記憶装置8から取得し、当該映像からカット点検出を行う。
【0031】
ステップ503) カット点があるかどうかを判定し、カット点がある場合はステップ504に移行し、それ以外の場合はステップ509へ移行する。但し、カット点である必要はなく、予め設定しておいた一定時間間隔などでも構わない。
【0032】
ステップ504) カット点について顔検出を行う。静止画からの顔検出については様々な既存技術がある。ここでは、顔の位置が検出可能な手法であればどのような方法でも構わない。例えば、IntelのOpen Source Computer Vision Libraryなどにも顔検出が含まれる。
【0033】
ステップ505) 顔検出されたかどうか判定を行う。顔があった場合には、ステップ506に移行し、ない場合はステップ508に移行する。
【0034】
ステップ506) 区間IDiに基づいて話者認識結果記憶部5を検索し、話者の話者IDを求め、Sとする。
【0035】
ステップ507) 話者ID(S)の顔画像として、検出された顔画像を話者ID毎顔画像記憶部6に記録する。
【0036】
ステップ508) ステップ502で検出された全てのカットにおける顔検出処理を行ったかを判定し、行っていなければステップ504に移行し、全てのカット点において顔検出処理を行っていれば、ステップ509に移行する。
【0037】
ステップ509) 全ての区間において上記ステップ502からステップ509に至る処理を行ったか判定を行い、行っていなければステップ510に移行し、そうでなければ処理を終了する。
【0038】
ステップ510) 区間IDのiをインクリメント(i=i+1)し、ステップ502に移行する。
【0039】
上記のステップ501からステップ510に至る処理によって記憶される話者ID毎顔画像記憶部6の例を図7に示す。同図に示すように、話者IDと映像区間において得られた顔画像がセットになっている。ここで、話者ID毎顔画像記憶部6においては、1つの話者IDに対して複数の顔画像が対応付けられている、いわゆる1対多の関係となっている。この状況が保持できる形式であればどのような情報保持方法であっても構わない。
【0040】
ステップ300) 個人特徴抽出部3は、ステップ200において取得した話者ID毎の顔画像からその個人の特徴を抽出する。
【0041】
ここでは、個人特徴抽出方法については限定せず、検出画像Xに対する特徴抽出処理P(X)の結果、F=P(X)となることとして説明する。ここで、Fは特徴抽出の結果得られる特徴数を次元数とした特徴ベクトルである。
【0042】
ステップ400) 話者個人特徴決定部4は、個人特徴抽出部3で抽出された特徴に基づいてクラスタリングにより話者の個人特徴を決定する。
【0043】
ステップ300により話者ID毎に得られている顔画像から個人特徴が抽出されたが、話者ID毎の顔画像には、話者IDの人物当人だけでなく、様々な人物が含まれている。それは、ある話者が話している時に必ずしも当人が映っているとは限らないからである。そこで、ある話者ID(k)について得られた顔画像Xから得られる個人特徴P(X)から真に話者kに関する個人特徴を決定する必要がある。
【0044】
その一つの方法として、クラスタリングがある。この方法は、ある話者の時刻に画面に映る顔画像のうち最頻出のものは、当該話者の顔であるという前提による。
【0045】
以下に、クラスタリングによる個人特徴決定処理の例を示す。
【0046】
図8は、本発明の一実施の形態におけるクラスタリングによる話者特徴決定処理のフローチャートである。
【0047】
ステップ701) 話者IDについてq=0と初期化する。
【0048】
ステップ702) 話者IDqに含まれる顔画像集合Xに対して、その個人特徴である、P(X)を特跳量としたクラスタリングを行う。
【0049】
ステップ703) クラスタリング結果で最大クラスタに含まれる個人特徴P(X’)の重心に最も近い個人特徴を求め、P(X)とする。
【0050】
ステップ704) 話者IDqの個人特徴として、話者個人特徴決定結果記憶部7に、話者IDqと個人特徴P(X)の組を格納する。
【0051】
ステップ705) 全ての話者IDについて処理を行ったかを判定し、終わっていれば当該処理を終了し、終わっていない場合はステップ706に移行する。
【0052】
ステップ706) qをインクリメント(q=q+1)し、ステップ702に移行する。
【0053】
次に、話者個人特徴決定処理の別の実施方法として、最頻出の個人特徴を利用することが考えられる。その例を以下に示す。
【0054】
図9は、本発明の一実施の形態における最頻出の個人特徴を利用した個人特徴決定処理のフローチャートである。
【0055】
ステップ801) 話者IDについてq=0と初期化する。
【0056】
ステップ802) k=0と初期化する。
【0057】
ステップ803) n=0及びカウンタC=0と初期化する。
【0058】
ステップ804) 顔画像Xkの個人特徴であるP(X)と、顔特徴Xの個人特徴であるP(X)との距離
│P(X)−P(X)│
が閾値th以下であれば、ステップ805に移行し、そうでない場合は、ステップ806に移行する。
【0059】
ステップ805) ステップ804で求めた距離が閾値以下であれば、頻度用のカウンタCをインクリメント(C=C+1)する。
【0060】
ステップ806) n<Nであればnをインクリメント(n=n+1)してステップ804に移行し、そうでなければステップ808に移行する。
【0061】
ステップ807) k<Nであれば、kをインクリメント(k=k+1)してステップ803に移行する。そうでなければステップ808に移行する。
【0062】
ステップ808) 頻度カウンタC(k=0,…,N−1)の値が最大となるkを求め、mに代入する。
【0063】
ステップ809) 話者IDqの個人特徴として、話者個人特徴決定結果記憶部7に話者IDqと個人特徴P(X)の組を記憶する。
【0064】
ステップ810) 全ての話者IDについて処理を行ったかを判定し、終わっていれば当該処理を終了し、終わっていなければステップ811に移行する。
【0065】
ステップ811) qをインクリメント(q=q+1)してステップ802に移行する。
【0066】
図10は、本発明の一実施の形態における話者個人特徴決定結果の例を示す。
【0067】
ここでは、話者IDと個人特徴の組を記憶する。さらに、この例では、代表顔画像として当該個人特徴を出力する顔画像を保持している。
【実施例】
【0068】
以下、図面と共に本発明の実施例を示す。
【0069】
以下では、クイズが出題され、クイズの回答者が25マスから構成されるパネルで陣取り合戦を行うクイズ番組を題材として用いた例で説明する。クイズ番組は出演者が視聴者で毎回変化するものも多く、教師あり話者認識を適用することが困難な(メリットがない)コンテンツの例といえる。
【0070】
図11は、本発明の一実施例の教師なし話者認識結果例である。
【0071】
各話者IDの映像について、顔検出部2においてカット点検出・顔検出を行い、話者ID毎顔画像記憶部6に話者ID毎の顔画像を保存する。それらの画像から個人特徴を抽出する。
【0072】
今回題材とするクイズ番組においては、図12に示すように、座席の周囲に個人特有の色が配置されるため検出された顔の周辺における色情報を個人特徴とする。個人特徴抽出部3は、図10をXとし、P(X)により、網掛け部分の画素を取得する。このように、クイズ番組に限らず、番組での映り方に関しての情報がある場合には、当該情報に合わせたヒューリスティックな個人情報抽出ルールを用いるのが適当である。但し、一方で全員が同じ色の服装を着てしまうようなクイズ番組においては、服の色の情報を個人特徴として利用することはできない。
【0073】
話者個人特徴決定部4は、各話者IDqに含まれる画像集合Xについて、前述の個人特徴P(X)のクラスタリングを行い、最大クラスタの重心に最も近いP(X)を求める。これにより話者IDqと対応する個人特徴がP(X)と求まる。q⇔Xの関係に従えば、顔画像をクリックすることで、該当する話者の発話区間のみを視聴することなどが容易に可能となる。
【0074】
図13は、本発明の一実施例におけるインデキシング結果の表示として利用した例を示している。同図の例では、画面上部に映像表示部が、下部に検出話者表示部がある。下部の顔画像は映像中の当該顔の話者が発話した図11に示す区間と関連付いている。そして、画像をクリックすることにより、当該関連した映像区間が再生される。
【0075】
このように、本発明を利用することで、話者の顔画像が一覧でき、顔画像と映像区間が関連付いていることによって再生が可能になる。
【0076】
本発明では、上記の図3に示す装置の各機能をプログラムとして構築し、話者顔画像決定装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0077】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、話者顔画像決定装置として利用されるコンピュータにインストールする、または、配布することが可能である。
【0078】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0079】
本発明は、映像コンテンツ処理技術、特に、話者認識と画像処理のマルチモーダル処理技術に適用可能である。
【図面の簡単な説明】
【0080】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における話者画像決定装置の構成図である。
【図4】本発明の一実施の形態における話者認識結果記憶部の例である。
【図5】本発明の一実施の形態における話者顔画像決定装置の動作のフローチャートである。
【図6】本発明の一実施の形態における顔画像検出処理のフローチャートである。
【図7】本発明の一実施の形態における話者ID毎顔画像記憶部の例である。
【図8】本発明の一実施の形態におけるクラスタリングによる個人特徴決定処理のフローチャートである。
【図9】本発明の一実施の形態における最頻出の個人特徴を利用した個人特徴決定処理のフローチャートである。
【図10】本発明の一実施の形態における話者個人特徴決定結果の例である。
【図11】本発明の一実施例の教師なし話者認識結果例である。
【図12】本発明の一実施例の個人特徴の例である。
【図13】本発明の一実施例におけるインデキシング結果の表示として利用した例である。
【符号の説明】
【0081】
1 音響解析手段、教師なし話者認識部
2 顔検出手段、顔検出部
3 個人特徴抽出手段、個人特徴抽出部
4 話者個人特徴決定手段、話者個人特徴決定部
5 話者認識結果記憶手段、話者認識結果記憶部
6 話者ID毎顔画像記憶手段、話者ID毎顔画像記憶部
7 話者個人特徴決定結果記憶手段、話者個人特徴決定結果記憶部

【特許請求の範囲】
【請求項1】
入力された音声が含まれる映像から該映像に映っている話者の顔画像を決定するための顔画像決定方法であって、
音響解析手段が、教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者IDを付与し、話者認識結果として話者認識結果記憶手段に格納する音響解析ステップと、
顔検出手段が、入力された映像から顔の位置を検出する手法により前記話者IDに対応する前記話者区間に含まれる顔画像を検出し、前記話者IDと共に話者ID毎顔画像記憶手段に格納する顔検出ステップと、
個人特徴抽出手段が、前記話者ID毎画像記憶手段に記憶されている各話者IDの各顔画像に対する個人特徴を抽出する個人特徴抽出ステップと、
話者個人特徴決定手段が、前記顔画像に対する個人特徴から前記話者ID毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段に格納する話者個人特徴決定ステップと、
を行うことを特徴とする顔画像決定方法。
【請求項2】
前記話者個人特徴決定ステップにおいて、
前記個人特徴についてクラスタリングを行い、前記話者区間内の映像の顔画像のうち、最頻出のものを、最も相応しい個人特徴とする、
請求項1記載の顔画像決定方法。
【請求項3】
前記話者個人特徴決定ステップにおいて、
前記個人特徴のうち、該個人特徴間の距離が閾値より小さい個人特徴から最も出現頻度が高いものを、最も相応しい個人特徴とする
請求項1記載の顔画像決定方法。
【請求項4】
入力された音声が含まれる映像から該映像に映っている話者の顔画像を決定するための顔画像決定装置であって、
教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者IDを付与し、話者認識結果として話者認識結果記憶手段に格納する音響解析手段と、
入力された映像から顔の位置を検出する手法により前記話者IDに対応する前記話者区間に含まれる顔画像を検出し、前記話者IDと共に話者ID毎顔画像記憶手段に格納する顔検出手段と、
前記話者ID毎画像記憶手段に記憶されている各話者IDの各顔画像に対する個人特徴を抽出する個人特徴抽出手段と、
前記顔画像に対する個人特徴から前記話者ID毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段に格納する話者個人特徴決定手段と、
を有することを特徴とする顔画像決定装置。
【請求項5】
前記話者個人特徴決定手段は、
前記個人特徴についてクラスタリングを行い、前記話者区間内の映像の顔画像のうち、最頻出のものを、最も相応しい個人特徴とする手段を含む、
請求項4記載の顔画像決定装置。
【請求項6】
前記話者個人特徴決定手段は、
前記個人特徴のうち、該個人特徴間の距離が閾値より小さい個人特徴から最も出現頻度が高いものを、最も相応しい個人特徴とする手段を含む
請求項4記載の顔画像決定装置。
【請求項7】
コンピュータに、
請求項4乃至6記載の顔画像決定装置の各手段を実行させることを特徴とする顔画像決定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2007−323318(P2007−323318A)
【公開日】平成19年12月13日(2007.12.13)
【国際特許分類】
【出願番号】特願2006−152189(P2006−152189)
【出願日】平成18年5月31日(2006.5.31)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】