情報処理装置、情報処理方法、およびプログラム

【課題】動画像を用いた読唇技術において、不特定話者の発話内容を高い精度で認識する。
【解決手段】発話認識装置１０は、学習処理を実行する学習系１１、登録処理を行う登録系１２、および認識処理を行う認識系１３から構成される。学習系１１では、口形素ラベルが付加された唇画像を学習サンプルとし、入力された唇画像に対応する口形素を判別する口形素判別器３１が生成される。登録系１２では、登録用発話単語を話す話者の唇の動きに対応する時系列特徴量が生成されてモデル化されて登録される。認識系１３では、話者の動画像から時系列特徴量が生成されて、登録されているモデルと比較され、発話内容が認識される。本発明は、話者をビデオ撮影した動画像から、その発話内容を認識する場合に適用することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えば、話者を撮影した動画像に基づいてその発話内容を認識する、いわゆる読唇術を実現できるようにした情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【０００２】
画像認識処理を用いて動画像における唇領域の動きを検出し、その検出結果に基づいて被写体となった話者の発話内容を認識する技術（以下、読唇技術と称する）の研究は既に１９８０年代後半から存在する。
【０００３】
このような画像認識処理に基づく読唇技術は、音声に基づいてその発話内容を認識する音声認識技術に比較し、周囲の雑音に影響されない、複数の被写体が同時に発話したとしても対応できるなど利点がある。
【０００４】
しかしながら、現状の読唇技術は、音声認識技術に比較して、不特定の話者に対して高い認識性能を得ることができていない。このため、現在の読唇技術は、ノイズ環境下における音声認識技術の補助としたAVSR(Audio Visual Speech Recognition)という形でも研究されている。すなわち、AVSRでは、音声の変化と、唇の形の変化と基づいて発話内容を推測している。
【０００５】
唇領域の画像からその形の特徴量を抽出する方法は、従来様々な方法が存在する。
【０００６】
例えば、非特許文献１には、唇の位置を同定し、その唇の縦横比などの幾何学情報を用いるものや、画像にブロック状の離散フーリエ変換処理を行い、その時系列信号をモデル化するもの、画像にブロック離散コサイン変換処理を行い、その結果えられた特徴量を複数の口形のいずれかに分類するものなどが記載されている。
【０００７】
非特許文献２には、唇領域の画像を切り出し、オプティカルフローを用いるものが記載されている。非特許文献３には、画像に対して主成分分析処理を行い低次元化したものを特徴量として用いるものが記載されている。
【０００８】
さらに、話者の口に蓄光テープを付けるなどのマーキングを行って唇の形状を検出し、唇の形状をフーリエ記述子により表現し音韻を特定する方法（例えば、特許文献１参照）、唇領域の筋電位を計測し母音を特定する方法（例えば、特許文献２参照）なども存在する。
【０００９】
またさらに、非特許文献１や特許文献２，３などには、唇の形状をいくつかの種類に分類して認識する方法も存在する（例えば、非特許文献１、並びに特許文献２および３参照）。
【先行技術文献】
【特許文献】
【００１０】
【特許文献１】特開２００８−１４６２６８号公報
【特許文献２】特開２００８−２３３４３８号公報
【特許文献３】特開２００８−３１０３８２号公報
【非特許文献】
【００１１】
【非特許文献１】G. Potamianos，et. Al，「Recent Advances in the Automatic Recognition of Audiovisual Speech」，Proceedings of the IEEE, Vol. 91, No. 9, September, 2003.
【非特許文献２】間瀬，ペントランド著「オプティカルフローを用いた読唇」，テレビジョン学会技術報告，Vol.13, No.44, pp.7-12, 1989
【非特許文献３】石川他著「初期統合によるバイモーダル大語彙連続音声認識」，2002年情報科学技術フォーラム全国大会,pp.203-204
【発明の概要】
【発明が解決しようとする課題】
【００１２】
上述したように、従来、様々な方法によって唇の形の特徴量が求められてきたが、唇領域は個人差が極めて大きいことに加え、特徴量の空間でも唇形による分離が難しく、依然として、不特定話者の発話認識が困難であるという現状がある。
【００１３】
また、上述したマーキングを用いる方法や筋電位を測定する方法は、実用的な読唇技術を考慮した場合、適切とは言い得ない。
【００１４】
さらに、唇の形状をいくつかの種類に分類して認識する方法は、母音を発話している各状態と、唇を閉じた状態とを分類しているに過ぎず、例えば「はなし(hanashi)」と「たわし(tawashi)」のように、母音が共通であって子音が異なる単語を区別して識別することができない。
【００１５】
本発明はこのような状況に鑑みてなされたものであり、動画像を用いた読唇技術において、不特定話者の発話内容も高い精度で認識できるようにするものである。
【課題を解決するための手段】
【００１６】
本発明の一側面である情報処理装置は、時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段とを含む。
【００１７】
前記学習手段は、前記クラスラベルが付加された前記学習画像の画像特徴量を用いたAdaBoostECOC学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成するようにすることができる。
【００１８】
前記画像特徴量は、ピクセル差分特徴とすることができる。
【００１９】
前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む学習画像を生成するとともに、前記学習画像に対して、前記被験者の唇の形を示す口形素をクラスラベルとして付加し、前記登録手段は、登録単語を発話する被験者を被写体として撮像した登録用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録単語に対応付けて前記登録用時系列特徴量をモデル化し、前記識別手段は、発話内容が不明な被写体を撮像した認識用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量との比較結果に応じて、前記発話内容を認識するようにすることができる。
【００２０】
前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用音声付動画像を前記学習用動画像と学習用音声に分離し、前記学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む前記学習画像を生成するとともに、前記学習用音声を音声認識して前記被験者の発話内容に対応する口形素を特定し、前記学習画像に対して、前記被験者の唇の形を示す前記口形素をクラスラベルとして付加するようにすることができる。
【００２１】
前記登録手段は、前記登録動作に対応付けて前記登録用時系列特徴量を、HMMによりモデル化するようにすることができる。
【００２２】
本発明の一側面である情報処理方法は、入力された動画像を識別する情報処理装置の情報処理方法において、前記情報処理装置による、時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成ステップと、前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習ステップと、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録ステップと、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別ステップとを含む。
【００２３】
本発明の一側面であるプログラムは、時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段として機能させる。
【００２４】
本発明の一側面によれば、クラスラベルが付加された学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器が生成される。また、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像が生成され、登録画像が多クラス判別器に入力され、その結果得られた登録画像に対応する多次元スコアベクトルが時系列に配置されて登録用時系列特徴量が生成され、登録動作に対応付けて登録用時系列特徴量がモデル化される。さらに、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像が生成され、認識画像が多クラス判別器に入力され、その結果得られた認識画像に対応する多次元スコアベクトルが時系列に配置されて認識用時系列特徴量が生成され、認識用時系列特徴量とモデル化された前記登録用時系列特徴量とが比較される。
【発明の効果】
【００２５】
本発明の一側面によれば、動画像を用いた読唇技術において、不特定話者の発話内容も高い精度で認識することができる。
【図面の簡単な説明】
【００２６】
【図１】本発明を適用した発話認識装置の構成例を示すブロック図である。
【図２】顔画像、唇領域、および唇画像の例を示す図である。
【図３】音素ラベルを口形素ラベルに変換する変換テーブルの一例を示す図である。
【図４】学習サンプルの例を示す図である。
【図５】時系列特徴量の一例を示す図である。
【図６】発話認識処理を説明するフローチャートである。
【図７】学習処理を説明するフローチャートである。
【図８】学習用発話動画像の処理を説明するフローチャートである。
【図９】学習用発話音声の処理を説明するフローチャートである。
【図１０】AdaBoostECOC学習処理を説明するフローチャートである。
【図１１】２値判別弱判別器の学習処理を説明するフローチャートである。
【図１２】登録処理を説明するフローチャートである。
【図１３】Ｋ次元スコアベクトル演算処理を説明するフローチャートである。
【図１４】認識処理を説明するフローチャートである。
【図１５】登録用発話単語の例を示す図である。
【図１６】認識性能を示す図である。
【図１７】本発明を適用したデジタルスチルカメラの構成例を示すブロック図である。
【図１８】オートシャッタ制御部の構成例を示すブロック図である。
【図１９】オートシャッタ登録処理を説明するフローチャートである。
【図２０】オートシャッタ実行処理を説明するフローチャートである。
【図２１】コンピュータの構成例
【発明を実施するための形態】
【００２７】
以下、発明を実施するための最良の形態（以下、実施の形態と称する）について、図面を参照しながら詳細に説明する。なお、説明は、以下の順序で行なう。
１．第１の実施の形態
２．第２の実施の形態
【００２８】
＜１．第１の実施の形態＞
［発話認識装置の構成例］
図１は、第１の実施の形態である発話認識装置１０の構成例を示している。この発話認識装置１０は、話者を被写体としてビデオ撮像した動画像に基づいて、被写体の発話内容を識別するものである。
【００２９】
発話認識装置１０は、学習処理を実行する学習系１１、登録処理を行う登録系１２、および認識処理を行う認識系１３から構成される。
【００３０】
学習系１１には、画音分離部２１、顔領域検出部２２、唇領域検出部２３、唇画像生成部２４、音素ラベル付与部２５、音素辞書２６、口形素ラベル変換部２７、口形素ラベル付加部２８、学習サンプル保持部２９、口形素判別器学習部３０、および口形素判別器３１が属する。
【００３１】
登録系１２には、口形素判別器３１、顔領域検出部４１、唇領域検出部４２、唇画像生成部４３、発話期間検出部４４、時系列特徴量生成部４５、時系列特徴量学習部４６、および発話認識器４７が属する。
【００３２】
認識形１３は、口形素判別器３１、顔領域検出部４１、唇領域検出部４２、唇画像生成部４３、発話期間検出部４４、時系列特徴量生成部４５、および発話認識器４７が属する。
【００３３】
すなわち、口形素判別器３１は、学習系１１、登録系１２、および認識形１３に重複して属し、登録系１２から時系列特徴量学習部４６を削除したものが認識系１３となる。
【００３４】
画音分離部２１は、任意の言葉を話している話者をビデオ撮影して得られる音声付動画像（以下、学習用音声付発話動画像と称する）を入力とし、これを学習用発話動画像と学習用発話音声とに分離する。分離された学習用発話動画像は顔領域検出部２２に入力され、分離された学習用発話音声は音素ラベル付与部２５に入力される。
【００３５】
なお、学習用音声付発話動画像は、この学習のためにビデオ撮影を行って用意してもよいし、例えばテレビジョン番組などのコンテンツを利用してもよい。
【００３６】
顔領域検出部２２は、学習用発話動画像を各フレームに分割し、各フレームについて、図２Ａに示すように、人の顔を含む顔領域を検出し、学習用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部２３に出力する。
【００３７】
唇領域検出部２３は、学習用発話動画像の各フレームの顔領域から、図２Ｂに示すように、唇の口角の端点を含む唇領域を検出し、学習用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部２４に出力する。
【００３８】
なお、顔領域および唇領域の検出方法については、例えば特開２００５−２８４３４８号公報、特開２００９−４９４８９号公報などに開示されている手法など、既存の任意の手法を適用できる。
【００３９】
唇画像生成部２４は、学習用発話動画像の各フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部２４は、回転補正後の各フレームから唇領域を抽出し、図２Ｃに示すように、抽出した唇領域を予め定められた画像サイズ（例えば、３２×３２画素）にリサイズすることにより唇画像を生成する。このようにして生成された各フレームに対応する唇画像は口形素ラベル付加部２８に供給される。
【００４０】
音素ラベル付与部２５は、音素辞書２６を参照することにより、学習用発話音声に対してその音素を示す音素ラベルを付与して口形素ラベル変換部２７に出力する。音素ラベルを付与する方法には、例えば、音声認識の研究分野において自動音素ラベリングと称されている方法を適用できる。
【００４１】
口形素ラベル変換部２７は、学習用発話音声に付与されている音素ラベルを、発話時の唇の形を示す口形素ラベルに変換して口形素ラベル付加部２８に出力する。なお、この変換には、予め用意されている変換テーブルを用いる。
【００４２】
図３は、音素ラベルを口形素ラベルに変換する変換テーブルの一例を示している。同図の変換テーブルを用いた場合、４０種類に分類されている音素ラベルが、１９種類に分類されている口形素ラベルに変換される。例えば、音素ラベル[ａ]および[ａ：]が口形素ラベル[ａ]に変換される。また例えば、音素ラベル[ｂｙ]，[ｍｙ]および[ｐｙ]が口形素ラベル[ｐｙ]に変換される。なお、変換テーブルは、図３に示されたものに限らず、他の変換テーブルを用いてもよい。
【００４３】
口形素ラベル付加部２８は、唇画像生成部２４から入力される学習用発話動画像の各フレームに対応する唇画像に対し、口形素ラベル変換部２７から入力される学習用発話音声に付与された口形素ラベルを流用して付加し、口形素ラベルが付加された唇画像を学習サンプル保持部２９に出力する。
【００４４】
学習サンプル保持部２９は、口形素ラベルが付加された複数の唇画像（以下、口形素ラベル付唇画像と称する）を学習サンプルとして保持する。
【００４５】
より具体的には、図４に示すように、Ｍ枚の唇画像ｘ_i（ｉ＝１，２，・・・，Ｍ）に、口形素ラベルに相当するクラスラベルｙ_k（ｋ＝１，２，・・・，Ｋ）が付与されて状態で、Ｍ個の学習サンプル（ｘ_i，ｙ_k）を保持する。なお、いまの場合、クラスラベルの種類の数Ｋは１９となる。
【００４６】
口形素判別器学習部３０は、学習サンプル保持部２９に保持されている複数の学習サンプルとしての口形素ラベル付唇画像からその画像特徴量を求め、AdaBoostECOCにより複数の弱判別器を学習し、これら複数の弱判別器からなる口形素判別器３１を生成する。
【００４７】
唇画像の画像特徴量としては、例えば、本発明者等が提案するPixDif Feature（ピクセル差分特徴）を用いることができる。
【００４８】
なお、PixDif Feature（ピクセル差分特徴）については、”佐部、日台、「ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習」、第１０回画像センシングシンポジウム予稿集、pp.547-552, 2004.”、特開２００５−１５７６７９号公報などに開示されている。
【００４９】
ピクセル差分特徴は、画像（いまの場合、唇画像）上の２画素の画素値（輝度値）Ｉ₁，Ｉ₂の差分（Ｉ₁−Ｉ₂）を算出することによって得られる。２画素の各組み合わせにそれぞれ対応する２値判別弱判別器ｈ（ｘ）では、次式（１）に示すように、このピクセル差分特徴Ｉ₁−Ｉ₂と閾値Ｔｈにより真（＋１）、または偽（−１）が判別される。
ｈ（ｘ）＝−１ｉｆＩ₁−Ｉ₂≦Ｔｈ
ｈ（ｘ）＝＋１ｉｆＩ₁−Ｉ₂＞Ｔｈ
・・・（１）
【００５０】
例えば、唇画像のサイズを３２×３２画素として場合、１０２４×１０２３通りのピクセル差分特徴が得られることになる。これら複数通りの２画素の組み合わせとその閾値Ｔｈが各２値判別弱判別器のパラメータとなり、これらのうちの最適なものがブースティング学習により選択される。
【００５１】
口形素判別器３１は、発話期間検出部４４から通知される発話期間において、唇画像生成部４３から入力される唇画像に対応するＫ次元スコアベクトルを演算して時系列特徴量生成部４５に出力する。
【００５２】
ここで、Ｋ次元スコアベクトルは、入力された唇画像が、Ｋ（いまの場合、Ｋ＝１９）種類の口形素のうちのどれに対応するものであるかを示す指標であって、Ｋ種類の各口形素に対応するものである可能性を示すＫ次元のスコアからなる。
【００５３】
登録系１２および認識系１３の顔領域検出部４１、唇領域検出部４２、および唇画像生成部４３は、上述した学習系１１に属する顔領域検出部２２、唇領域検出部２３、および唇画像生成部２４と同様のものである。
【００５４】
なお、登録系１２には、予め決められている発話内容（登録用発話単語）とそれを発話している話者をビデオ撮影した動画像（以下、登録用発話動画像と称する）とを組み合わせた複数の登録用データが入力される。
【００５５】
また、認識系１３には、認識対象となる、発話内容を話す話者をビデオ撮影した動画像（以下、認識用発話動画像と称する）が入力される。
【００５６】
すなわち、登録処理時において、顔領域検出部４１は、登録用発話動画像を各フレームに分割し、各フレームについて、顔領域を検出し、登録用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部４２に出力する。
【００５７】
唇領域検出部４２は、登録用動画像の各フレームの顔領域から唇領域を検出し、登録用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部４３に出力する。
【００５８】
唇画像生成部４３は、登録用発話動画像の各フレームを適宜、回転補正した後、各フレームから唇領域を抽出し、リサイズして唇画像を生成し、口形素判別器３１および発話期間検出部４４に出力する。
【００５９】
また、認識処理時において、顔領域検出部４１は、認識用発話動画像（話者の発話内容が不明である動画像）を各フレームに分割し、各フレームについて、顔領域を検出し、認識用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部４２に出力する。
【００６０】
唇領域検出部４２は、認識用発話動画像の各フレームの顔領域から唇領域を検出し、認識用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部４３に出力する。
【００６１】
唇画像生成部４３は、認識用発話動画像の各フレームを適宜、回転補正した後、各フレームから唇領域を抽出し、リサイズして唇画像を生成し、口形素判別器３１および発話期間検出部４４に出力する。
【００６２】
発話期間検出部４４は、唇画像生成部４３から入力される、登録用発話動画像または認識用発話動画像の各フレームの唇画像に基づき、話者が発話している期間（以下、発話期間と称する）を特定し、各フレームの唇画像が発話期間に対応するものであるか否かを口形素判別器３１および時系列特徴量生成部４５に通知する。
【００６３】
時系列特徴量生成部４５は、発話期間検出部４４から通知される発話期間において、口形素判別器３１から入力されるＫ次元スコアベクトルを時系列に配置することにより、時系列特徴量を生成する。
【００６４】
図５は、話者が「おもしろい」と話したときの発話期間に対応する時系列特徴量を示している。すなわち、この発話期間を１秒間と仮定し、フレームレートを６０フレーム／秒とすれば、６０Ｋのスコアからなる時系列特徴量が生成される。生成された時系列特徴量は、登録処理時には時系列特徴量学習部４６に出力され、認識処理時には発話認識部４７に出力される。
【００６５】
時系列特徴量学習部４６は、登録処理時において、入力される登録用発話単語（登録用発話動画像における話者の発話内容）に対応付けて、時系列特徴量生成部４５から入力される時系列特徴量をHMM(Hidden Markov Model)を用いてモデル化する。なお、モデル化の手法はHMMに限られず、時系列特徴量をモデル化できるものであればよい。モデル化された時系列特徴量は発話認識器４７に内蔵された学習データベース４８に保持される。
【００６６】
発話認識器４７は、認識処理時において、時系列特徴量生成部４５から入力される時系列特徴量に対して、学習データベース４８に保持されているモデルのうちで最も類似しているものを特定する。さらに、発話認識器４７は、特定したモデルに対応付けられている登録用発話単語を、認識用発話動画像に対応する発話認識結果として出力する。
【００６７】
［動作説明］
図６は、発話認識装置１０の動作を説明するフローチャートである。
【００６８】
ステップＳ１において、発話認識装置１０の学習系１１は、学習処理を実行することによって口形素判別器３１を生成する。
【００６９】
ステップＳ２において、発話認識装置１０の登録系１２は、登録処理を実行することによって、登録用発話動画像に対応する時系列特徴量を生成し、HMMを用いてモデル化し、これに登録用発話単語を対応付けて学習データベース４８に登録する。
【００７０】
ステップＳ３において、発話認識装置１０の認識系１３は、認識処理を実行することによって、認識用発話動画像における話者の発話内容を認識する。
【００７１】
以下、上述したステップＳ１乃至Ｓ３の処理の詳細について説明する。
【００７２】
［学習処理の詳細］
図７は、ステップＳ１の学習処理を詳細に説明するフローチャートである。
【００７３】
ステップＳ１１において、学習用音声付発話動画像が画音分離部２１に入力される。画音分離部２１は、学習用音声付発話動画像を学習用発話動画像と学習用発話音声とに分離し、学習用発話動画像を顔領域検出部２２に、学習用発話音声を音素ラベル付与部２５に出力する。
【００７４】
ステップＳ１２において、学習用発話動画像の処理が行われる。また、ステップＳ１３において、学習用発話音声の処理が行われる。なお、ステップＳ１２とステップＳ１３とは、実際には並行して同時に実行される。そして、学習用発話動画像の処理の出力（唇画像）と、それに対応する学習用発話音声の処理の出力（口形素ラベル付き学習用発話音声）が口形素ラベル付加部２８に同時に供給されることになる。
【００７５】
図７は、ステップＳ１２における学習用発話動画像の処理を詳細に説明するフローチャートである。
【００７６】
ステップＳ２１において、顔領域検出部２２は、学習用発話動画像を各フレームに分割し、１フレームずつ処理対象とする。ステップＳ２２において、顔領域検出部２２は、処理対象のフレームから顔領域を検出し、ステップＳ２３において、顔領域を検出できたか否か判定する。顔領域を検出できたと判定された場合、処理はステップＳ２４に進められる。反対に、顔領域を検出できなかったと判定された場合、処理はステップＳ２６に進められる。
【００７７】
ステップＳ２４において、顔領域検出部２２は、処理対象としている１フレーム分の学習用発話動画像とともに顔領域の位置情報を唇領域検出部２３に出力する。唇領域検出部２３は、処理対象のフレームの顔領域から唇領域を検出し、ステップＳ２５において、唇領域を検出できたか否か判定する。唇領域を検出できたと判定された場合、処理はステップＳ２７に進められる。反対に、唇領域を検出できなかったと判定された場合、処理はステップＳ２６に進められる。
【００７８】
なお、ステップＳ２３またはステップＳ２５から、処理がステップＳ２６に進められた場合、処理対象としているフレームの１フレーム前の顔領域または唇領域の少なくとも一方の位置情報が流用される。
【００７９】
ステップＳ２７において、唇領域検出部２３は、処理対象としている１フレーム分の学習用発話動画像とともに唇領域の位置情報を唇画像生成部２４に出力する。唇画像生成部２４は、処理対象としている学習用発話動画像の１フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部２４は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズすることにより唇画像を生成して口形素ラベル付加部２８に出力する。
【００８０】
この後、ステップＳ２１に戻り、学習用発話動画像信号の入力が終わるまで、ステップＳ２１乃至Ｓ２７の処理が繰り返される。
【００８１】
次に、図９は、ステップＳ１３における学習用発話音声の処理を詳細に説明するフローチャートである。
【００８２】
ステップＳ３１において、音素ラベル付与部２５は、音素辞書２６を参照することにより、学習用発話音声に対してその音素を示す音素ラベルを付与して口形素ラベル変換部２７に出力する。
【００８３】
ステップＳ３２において、口形素ラベル変換部２７は、予め保持する変換テーブルを用い、学習用発話音声に付与されている音素ラベルを、発話時の唇の形を示す口形素ラベルに変換して口形素ラベル付加部２８に出力する。
【００８４】
この後、ステップＳ３１に戻り、学習用発話音声の入力が終わるまで、ステップＳ３１およびＳ３２の処理が繰り返される。
【００８５】
図７に戻る。ステップＳ１４において、口形素ラベル付加部２８は、唇画像生成部２４から入力された学習用発話動画像の各フレームに対応する唇画像に対し、口形素ラベル変換部２７から入力された学習用発話音声に付与された口形素ラベルを流用して付加し、口形素ラベルが付加された唇画像を学習サンプル保持部２９に出力する。学習サンプル保持部２９は、口形素ラベル付唇画像を学習サンプルとして保持する。学習サンプル保持部２９に所定の数Ｍの学習サンプルが保持された後、ステップＳ１５以降の処理が行われる。
【００８６】
ステップＳ１５において、口形素判別器学習部３０は、学習サンプル保持部２９に保持されている複数の学習サンプルとしての唇画像の画像特徴量を求め、AdaBoostECOCにより複数の弱判別器を学習し、これら複数の弱判別器からなる口形素判別器３１を生成する。
【００８７】
図１０は、ステップＳ１５の処理(AdaBoostECOC学習処理)を詳細に説明するフローチャートである。
【００８８】
ステップＳ４１において、口形素判別器学習部３０は、図４に示されたように、Ｍ個の学習サンプル（ｘ_i，ｙ_k）を学習サンプル保持部２９から取得する。
【００８９】
ステップＳ４２において、口形素判別器学習部３０は、次式（２）に従い、Ｍ行Ｋ列で表されるサンプル重みＰ_t（ｉ，ｋ）を初期化する。具体的には、サンプル重みＰ_t（ｉ，ｋ）の初期値Ｐ₁（ｉ，ｋ）を、実在する学習サンプル（ｘ_i，ｙ_k）に対応するものは０に、それ以外はそれらの総和が１となるような一様な値に設定する。
Ｐ₁（ｉ，ｋ）＝１／Ｍ（Ｋ−１） for ｙ_k≠ｋ
・・・（２）
【００９０】
以下に説明するステップＳ４３乃至ステップＳ４８の処理は任意の数Ｔだけ繰り返される。なお、任意の繰り返し回数Ｔは、最大で唇画像上で得られるピクセル差分特徴の数とすることができ、この繰り返し回数Ｔと同じ数だけ弱判別器が生成される。
【００９１】
ステップＳ４３において、口形素判別器学習部３０は、１行Ｋ列のECOCテーブルを生成する。なお、ECOCテーブルのｋ列の値μ_t（ｋ）は−１または＋１であり、−１と＋１の数が同数となるようにランダムに割り振られる。
μ_t（ｋ）＝｛−１，＋１｝
・・・（３）
【００９２】
ステップＳ４４において、口形素判別器学習部３０は、次式（４）に従い、Ｍ行１列で表される２値判別用重みＤ_t（ｉ）を計算する。なお、式（４）において、[]内は論理式であり、真であれば１、偽であれば０とする。
【数１】

・・・（４）
【００９３】
ステップＳ４５において、口形素判別器学習部３０は、ステップＳ４４で得られた２値判別用重みＤ_t（ｉ）の下、次式（５）に示す重み付き誤り率ε_tを最小とする２値判別弱判別器ｈ_tを学習する。
【数２】

・・・（５）
【００９４】
図１１は、ステップＳ４５の処理を詳細に説明するフローチャートである。
【００９５】
ステップＳ６１において、口形素判別器学習部３０は、唇画像の全画素からランダムに２画素を選択する。例えば、唇画像を３２×３２画素とした場合、２画素の選択は、１０２４×１０２３通りのうちの１つを選ぶことになる。ここで、選択した２画素の画素位置をＳ₁，Ｓ₂とし、その画素値（輝度値）をＩ₁，Ｉ₂とする。
【００９６】
ステップＳ６２において、口形素判別器学習部３０は、全ての学習サンプルについて、ステップＳ６１で選択した２画素の画素値Ｉ₁，Ｉ₂を用いたピクセル差分特徴（Ｉ₁−Ｉ₂）を算出し、その頻度分布を求める。
【００９７】
ステップＳ６３において、口形素判別器学習部３０は、ピクセル差分特徴の頻度分布に基づき、式（５）に示された重み付き誤り率ε_tを最小ε_minにする閾値Ｔｈ_minを求める。
【００９８】
ステップＳ６４において、口形素判別器学習部３０は、ピクセル差分特徴の頻度分布に基づき、式（５）に示された重み付き誤り率ε_tを最大ε_maxにする閾値Ｔｈ_maxを求める。さらに、口形素判別器学習部３０は、次式（６）に従い、閾値Ｔｈ_maxなどを反転する。
ε’_max＝１−ε_max
Ｓ’₁＝Ｓ₂
Ｓ’₂＝Ｓ₁
Ｔｈ’_max＝−Ｔｈ_max
・・・（６）
【００９９】
ステップＳ６５において、口形素判別器学習部３０は、上述した重み付き誤り率ε_tの最小ε_minと最大ε_maxの大小関係に基づいて、２値判別弱判別器のパラメータである２画素の位置Ｓ₁，Ｓ₂と閾値Ｔｈを決定する。
【０１００】
すなわち、ε_min＜ε’_maxの場合、２画素の位置Ｓ₁，Ｓ₂と閾値Ｔｈ_minをパラメータとして採用する。また、ε_min≧ε’_maxの場合、２画素の位置Ｓ’₁，Ｓ’₂と閾値Ｔｈ’_maxをパラメータとして採用する。
【０１０１】
ステップＳ６６において、口形素判別器学習部３０は、上述したステップＳ６１乃至Ｓ６５の処理を所定の回数繰り返したか否かを判定し、所定の回数繰り返したと判定するまでステップＳ６１に戻り、それ以降を繰り返す。そして、ステップＳ６１乃至Ｓ６５の処理を所定の回数繰り返したと判定した場合、処理をステップＳ６７に進める。
【０１０２】
ステップＳ６７において、口形素判別器学習部３０は、上述したように所定の回数繰り返されるステップＳ６５の処理において決定された２値判別弱判別器（のパラメータ）のうち、重み付き誤り率ε_tが最小となるものを１つの２値判別弱判別器ｈ_t（のパラメータ）として最終的に採用する。
【０１０３】
以上説明したように、１つの２値判別弱判別器ｈ_tが決定された後、処理は図１０のステップＳ４６にリターンする。
【０１０４】
ステップＳ４６において、口形素判別器学習部３０は、ステップＳ４５の処理で決定した２値判別弱判別器ｈ_tに対応する重み付き誤り率ε_tに基づき、次式（７）に従い信頼度α_tを計算する。
【数３】

・・・（７）
【０１０５】
ステップＳ４７において、口形素判別器学習部３０は、次式（８）に示すように、ステップＳ４５の処理で決定した２値判別弱判別器ｈ_tと、ステップＳ４６の処理で計算した信頼度α_tを乗算することにより、信頼度付き２値判別弱判別器ｆ_t（ｘ_i）を求める。
ｆ_t（ｘ_i）＝α_tｈ_t
・・・（８）
【０１０６】
ステップＳ４８において、口形素判別器学習部３０は、次式（９）に従い、Ｍ行Ｋ列で表されるサンプル重みＰ_t（ｉ，ｋ）を更新する。
【数４】

・・・（９）
【０１０７】
ただし、式（９）のＺ_iは次式（１０）に示すとおりである。
【数５】

・・・（１０）
【０１０８】
ステップＳ４９において、口形素判別器学習部３０は、上述したステップＳ４３乃至Ｓ４８の処理を所定の回数Ｔだけ繰り返したか否かを判定し、所定の回数Ｔだけ繰り返したと判定するまでステップＳ４３に戻り、それ以降を繰り返す。そして、ステップＳ４３乃至Ｓ４８の処理を所定の回数Ｔだけ繰り返したと判定した場合、処理をステップＳ５０に進める。
【０１０９】
ステップＳ５０において、口形素判別器学習部３０は、所定の数Ｔと同じ数だけ得られた信頼度付き２値判別弱判別器ｆ_t（ｘ）、およびそれぞれに対応するECOCテーブルに基づき、次式（１１）に従って最終判別器Ｈ_k（ｘ）、すなわち口形素判別器３１を得る。
【数６】

・・・（１１）
【０１１０】
なお、得られた口形素判別器３１はパラメータとして、クラスの数（口形素の数）Ｋ、および弱判別器の数Ｔを有する。また、各弱判別器はパラメータとして、唇画像上の２画素の位置Ｓ₁，Ｓ₂、ピクセル差分特徴の判別用の閾値Ｔｈ、信頼度α、およびECOCテーブルμを有する。
【０１１１】
以上説明したように最終判別器Ｈ_k（ｘ）、すなわち口形素判別器３１を得て、当該AdaBoostECOC学習処理は終了される。
【０１１２】
以上のように生成された口形素判別器３１によれば、入力される唇画像の画像特徴量をＫ次元スコアベクトルで表現できる。すなわち、登録用発話動画像の各フレームから生成される唇画像がＫ（いまの場合、１９）種類の口形素のそれぞれに対してどの程度似ているかを数値化して表すことができる。また、認識用発話動画像の各フレームから生成される唇画像に対しても同様に、Ｋ種類の口形素のそれぞれに対してどの程度似ているかを数値化して表すことができる。
【０１１３】
［登録処理の詳細］
図１２は、ステップＳ２の登録処理を詳細に説明するフローチャートである。
【０１１４】
ステップＳ７１において、登録系１２は、図７を参照して上述した学習系１１による学習用発話動画像の処理と同様の処理を実行することにより、登録用発話動画像の各フレームに対応する唇画像を生成する。生成された唇画像は、口形素判定器３１および発話期間検出部４４に入力される。
【０１１５】
ステップＳ７２において、発話期間検出部４４は、登録用発話動画像の各フレームの唇画像に基づき発話期間を特定し、各フレームの唇画像が発話期間に対応するものであるか否かを口形素判別器３１および時系列特徴量生成部４５に通知する。口形素判定器３１は、順次入力される唇画像のうち、発話期間に対応するものについて対応するＫ次元スコアベクトルを演算する。
【０１１６】
図１３は、口形素判定器３１によるＫ次元スコアベクトル演算処理を詳細に説明するフローチャートである。
【０１１７】
ステップＳ８１において、口形素判定器３１は、クラスを示すパラメータｋ（ｋ＝１，２，・・・，Ｋ）を１に初期化する。ステップＳ８２において、口形素判定器３１は、各クラスのスコアＨ_kを０に初期化する。
【０１１８】
ステップＳ８３において、口形素判定器３１は、弱判別器を特定するためのパラメータｔ（ｔ＝１，２，・・・，Ｔ）を１に初期化する。
【０１１９】
ステップＳ８４において、口形素判定器３１は、２値判別弱判別器ｈ_tのパラメータ、すなわち、唇画像ｘ上の２画素の位置Ｓ₁，Ｓ₂、ピクセル差分特徴の判別用の閾値Ｔｈ、信頼度α、およびECOCテーブルμを設定する。
【０１２０】
ステップＳ８５において、口形素判定器３１は、唇画像ｘ上の２画素の位置Ｓ₁，Ｓ₂から画素値Ｉ₁，Ｉ₂を読み出し、ピクセル差分特徴（Ｉ₁−Ｉ₂）を算出して閾値Ｔｈと比較することにより、２値判別弱判別器ｈ_tの判別値（−１または＋１）を得る。
【０１２１】
ステップＳ８６において、口形素判定器３１は、ステップＳ８５で得た２値判別弱判別器ｈ_tの判別値に信頼度α_tを乗算し、さらに１行Ｋ列のECOCテーブルの値μ_t（ｋ）を乗算することにより、パラメータｔに対応する１行Ｋ列のクラススコアＨ_kを得る。
【０１２２】
ステップＳ８７において、口形素判定器３１は、ステップＳ８６で得た、パラメータｔに対応する１行Ｋ列のクラススコアＨ_kを、前回（すなわち、ｔ−１）までのクラススコアＨ_kの累計値に加算することにより、１行Ｋ列のクラススコアＨ_kを更新する。
【０１２３】
ステップＳ８８において、口形素判定器３１は、パラメータｔ＝Ｔであるか否かを判定し、否と判定した場合、処理をステップＳ８９に進めてパラメータｔを１だけインクリメントする。そして、処理はステップＳ８４に戻され、それ以降の処理が繰り返される。その後、ステップＳ８８において、パラメータｔ＝Ｔであると判定された場合、処理はステップＳ９０に進められる。
【０１２４】
ステップＳ９０において、口形素判定器３１は、パラメータｋ＝Ｋであるか否かを判定し、パラメータｋ＝Ｋではないと判定した場合、処理をステップＳ９１に進めてパラメータｋを１だけインクリメントする。そして、処理はステップＳ８３に戻され、それ以降の処理が繰り返される。その後、ステップＳ９０において、パラメータｋ＝Ｋであると判定された場合、処理はステップＳ９２に進められる。
【０１２５】
ステップＳ９２において、口形素判定器３１は、その時点で得られている１行Ｋ列のクラススコアＨ_kを口形素判定器３１の出力、すなわち、Ｋ次元スコアベクトルとして後段（いまの場合、時系列特徴量生成部４５）に出力する。以上で、Ｋ次元スコアベクトル演算処理は終了される。
【０１２６】
図１２に戻る。ステップＳ７３において、時系列特徴量生成部４５は、発話期間検出部４４から通知される発話期間に、口形素判別器３１から順次入力されたＫ次元スコアベクトルを時系列に配置することにより、登録用発話動画像の発話期間に対応した時系列特徴量を生成する。
【０１２７】
ステップＳ７４において、時系列特徴量学習部４６は、登録用発話動画像とともに外部から供給された登録用発話単語（登録用発話動画像における話者の発話内容）に対応付けて、時系列特徴量生成部４５から入力された時系列特徴量をHMMによりモデル化する。モデル化された時系列特徴量は、発話認識器４７に内蔵された学習データベース４８に保持される。以上で、登録処理は終了される。
【０１２８】
[認識処理の詳細]
図１４は、認識処理を詳細に説明するフローチャートである。
【０１２９】
認識系１３は、入力された認識用発話動画像に対し、ステップＳ１０１乃至Ｓ１０３の処理として、図１２を参照して上述した登録系１２による登録処理のステップＳ７１乃至Ｓ７３と同様の処理を行う。この結果、認識用発話動画像の発話期間に対応した時系列特徴量が生成される。生成された認識用発話動画像の発話期間に対応した時系列特徴量は、発話認識器４７に入力される。
【０１３０】
ステップＳ１０４において、発話認識器４７は、時系列特徴量生成部４５から入力された時系列特徴量に対して、学習データベース４８に保持されているモデルのうちで最も類似しているものを特定する。さらに、発話認識器４７は、特定したモデルに対応付けられている登録用発話単語を、認識用発話動画像に対応する発話認識結果として出力する。以上で、認識処理は終了される。
【０１３１】
[認識実験の結果]
次に、発話認識装置１０による認識実験の結果について説明する。
【０１３２】
この認識実験では、学習処理において、２１６単語を発声する７３人の被験者（話者）をそれぞれ個別にビデオ撮影した学習用音声付発話動画像を用いた。また、登録処理においては、学習処理時の２１６単語のうちの、図１５に示す２０単語を登録発話単語に選択し、それに対応する学習用発話動画像を登録用発話動画像に流用した。また、HMMを用いたモデル化では、遷移確率をleft-to-rightに制約し、４０状態の遷移モデルとした。
【０１３３】
そして、認識処理では、学習処理および登録処理と同じ被験者の認識用発話動画像を用いたクローズ評価と、学習処理および登録処理とは異なる被験者の認識用発話動画像を用いたオープン評価を行い、図１６に示す認識率を得ることができた。
【０１３４】
図１６は、ある登録用発話単語Ｗを発話している認識用発話動画像に対応する時系列特徴量が、２０種類の各登録用発話単語にそれぞれ対応する各HMMにどの程度類似しているかを順位付けした際に、正解（登録用発話単語Ｗに対応するHMM）がＭ番目（横軸）までに入っている確率（縦軸）を示している。
【０１３５】
同図によれば、クローズ評価の場合には９６％の識別率を得ることができた。また、オープン評価の場合には８０％の識別率を得ることができた。
【０１３６】
なお、上述した認識実験では、学習処理と登録処理の被験者（話者）を共通とし、登録用発話動画像に学習用発話動画像を流用したが、学習処理と登録処理の被験者（話者）を別人としてもよく、さらに、認識処理の被験者（話者）をさらに別人としてもよい。
【０１３７】
以上説明した、第１の実施の形態である発話認識装置１０によれば、入力された画像（いまの場合、唇画像）の特徴量を演算するための判別器を学習により生成するので、認識したい対象に対して、その都度、判別器を新たに設計する不要ない。したがって、ラベルの種類を変更することにより、例えば動画像からジェスチャや手書き文字を識別したりする認識装置にも容易に適用できる。
【０１３８】
また、学習処理によって、個人差の大きい部位の画像に対して汎用性のある特徴量を抽出することができる。
【０１３９】
さらに、画像特徴量に比較的演算量が少ないピクセル差分を用いたので、リアルタイムな認識処理が可能になる。
【０１４０】
＜２．第２の実施の形態＞
［デジタルスチルカメラの構成例］
次に、図１７は、第２の実施の形態であるデジタルスチルカメラ６０の構成例を示している。このデジタルスチルカメラ６０は、読唇技術を応用したオートシャッタ機能を有している。具体的には、被写体となる人物が「ハイ、チーズ」などと所定のキーワード（以下、シャッタキーワードと称する）を発話したことを検出した場合、これに応じてシャッタをきる（静止画像を撮像する）ようにしたものである。
【０１４１】
このデジタルスチルカメラ６０は、撮像部６１、画像処理部６２、記録部６３、Ｕ／Ｉ部６４、撮像制御部６５、およびオートシャッタ制御部６６から構成される。
【０１４２】
撮像部６１は、レンズ群、CMOS(Complementary Metal-Oxide Semiconductor)等の撮像素子（いずれも図示せず）から構成され、被写体の光学像を取得して電気信号に変換し、その結果得られる画像信号を後段に出力する。
【０１４３】
すなわち、撮像部６１は、撮像制御部６５からの制御に従い、撮像前の段階において画像信号を撮像制御部６５およびオートシャッタ制御部６６に出力する。また、撮像部６１は、撮像制御部６５からの制御に従って撮像を行い、その結果得られる画像信号を画像処理部６２に出力する。
【０１４４】
以下、撮像前の構図決定用に撮像制御部６５に出力されてＵ／Ｉ部６４に含まれるディスプレイ（不図示）に表示される動画像をファインダ画像と称する。ファインダ画像は、オートシャッタ制御部６６にも出力される。また、撮像の結果として撮像部６１から画像処理部６２に出力される画像信号を記録画像と称する。
【０１４５】
画像処理部６２は、撮像部６１から入力される記録画像に所定の画像処理（例えば、手ぶれ補正、ホワイトバランス補正、画素補間など）を行った後、所定の符号化方式に従って符号化し、その結果得られた画像符号化データを記録部６３に出力する。また、画像処理部６２は、記録部６３から入力される画像符号化データを復号し、その結果得られる画像信号（以下、再生画像と称する）を撮像制御部６５に出力する。
【０１４６】
記録部６３は、画像処理部６２から入力される画像符号化データを、図示せぬ記録メディアに記録する。また、記録部６３は、記録メディアに記録されている画像符号化データを読み出して画像処理部６２に出力する。
【０１４７】
撮像制御部６５は、デジタルスチルカメラ６０の全体を制御する。特に、撮像処理部６５は、Ｕ／Ｉ部６４からのシャッタ操作信号、あるいはオートシャッタ制御部６６からのオートシャッタ信号に従い、撮像部６１を制御して撮像を実行させる。
【０１４８】
Ｕ／Ｉ(user interface)部６４は、ユーザによるシャッタ操作を受け付けるシャッタボタンに代表される各種の入力デバイスと、ファインダ画像や再生画像などを表示するディスプレイからなる。特に、Ｕ／Ｉ部６４は、ユーザからのシャッタ操作に応じてシャッタ操作信号を撮像制御部６５に出力する。
【０１４９】
オートシャッタ制御部６６は、撮像部６１から入力されるファインダ画像に基づき、被写体となる人物によるシャッタキーワードの発話を検出した場合、これに応じてオートシャッタ信号を撮像制御部６５に出力する。
【０１５０】
次に、図１８は、オートシャッタ制御部６６の詳細な構成例を示している。
【０１５１】
同図と図１を比較して明らかなように、オートシャッタ制御部６６は、図１の発話認識装置１０の登録系１２および認識系１３と同様の構成に加えて、オートシャッタ信号出力部７１が追加されて構成される。オートシャッタ制御部６６の、図１の発話認識装置１０と共通する構成要素には同一の番号を付しているので、その説明は省略する。
【０１５２】
ただし、オートシャッタ制御部６６における口形素判別器３１は既に学習済みのものである。
【０１５３】
オートシャッタ信号出力部７１は、発話認識器４７からの発話認識結果が予め登録されているシャッタキーワードであることを示す場合、オートシャッタ信号を発生して撮像制御部６５に出力する。
【０１５４】
[動作説明]
次に、デジタルスチルカメラ６０の動作について説明する。デジタルスチルカメラ６０の動作には、通常撮影モード、通常再生モード、オートシャッタ登録モード、オートシャッタ実行モードなどが設けられている。
【０１５５】
通常撮影モードでは、ユーザによるシャッタ操作に応じて撮影が行われる。通常再生モードでは、ユーザによる再生操作に応じて撮影済みの画像が再生されて表示される。
【０１５６】
シャッタキーワード登録モードでは、シャッタキーワードとする任意の言葉を発話する被写体（ユーザなど）の唇の動きを示す時系列特徴量のHMMが登録される。なお、デジタルスチルカメラ６０を商品として出荷する段階において、予めシャッタキーワードとそれに対応する唇の動きを示す時系列特徴量のHMMを登録しておくようにしてもよい。
【０１５７】
オートシャッタ実行モードでは、ファインダ画像に基づき、被写体となる人物の唇の動きを示す時系列特徴量が検出され、検出された時系列特徴量に基づいてシャッタキーワードを発話していると認識された場合に撮影が行われる。
【０１５８】
［シャッタキーワード登録処理の詳細］
次に、図１９は、シャッタキーワード登録処理を説明するフローチャートである。
【０１５９】
このシャッタキーワード登録処理は、ユーザからの所定の操作に応じてシャッタキーワード登録モードとされたときに開始され、また、ユーザからの所定の操作に応じて終了される。
【０１６０】
なお、このシャッタキーワード登録処理の開始を指示した後にユーザは、ファインダ画像に、シャッタキーワードとして登録したい言葉を発話している話者の顔が写るようにする。この話者には、オートシャッタ実行処理時に被写体となる人物を用いることが望ましいが、それ以外の例えばユーザ自身が話者となってもよい。そして、シャッタキーワードの発話が終了した後に、オートシャッタ学習処理の終了を指示するようにする。
【０１６１】
ステップＳ１２１において、撮像制御部６５は、オートシャッタ登録処理の終了が指示されたか否かを判定し、指示されていない場合、処理をステップＳ１２２に進める。
【０１６２】
ステップＳ１２２において、登録系１２の顔領域検出部４１は、ファインダ画像を各フレームに分割し、１フレームずつ処理対象とする。処理対象のフレームから顔領域を検出する。ステップＳ１２３において、顔領域検出部４１は、処理対象のフレームから顔領域を１つだけ検出したか否かを判定し、複数の顔領域を検出した場合、または顔領域を１つも検出できなかった場合、処理をステップＳ１２４に進める。
【０１６３】
ステップＳ１２４において、Ｕ／Ｉ部６４は、シャッタキーワードとして登録したい言葉を発話する一人の話者だけがファインダ画像に写るようユーザに注意を促す。この後、処理はステップＳ１２１に戻り、それ以降が繰り返される。
【０１６４】
ステップＳ１２３において、処理対象のフレームから顔領域を１つだけ検出した場合、処理はステップＳ１２５に進められる。
【０１６５】
ステップＳ１２５において、顔領域検出部４１は、処理対象としている１フレーム分のファインダ画像とともに顔領域の位置情報を唇領域検出部４２に出力する。唇領域検出部４２は、処理対象のフレームの顔領域から唇領域を検出し、処理対象としている１フレーム分のファインダ画像とともに唇領域の位置情報を唇画像生成部４３に出力する。
【０１６６】
唇画像生成部４３は、処理対象としているファインダ画像の１フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部４３は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズして唇画像を生成する。生成された唇画像は、口形素判定器３１および発話期間検出部４４に入力される。
【０１６７】
ステップＳ１２６において、発話期間検出部４４は、処理対象としているフレームの唇画像に基づき、当該フレームが発話期間であるか否かを判定し、判定結果を口形素判別器３１および時系列特徴量生成部４５に通知する。そして、発話期間であると判定された場合、処理はステップＳ１２７に進められる。反対に、発話期間ではないと判定された場合、ステップＳ１２７はスキップされる。
【０１６８】
ステップＳ１２７において、口形素判定器３１は、順次入力される唇画像のうち、発話期間に対応するものについて対応するＫ次元スコアベクトルを演算して時系列特徴量生成部４５に出力する。この後、処理はステップＳ１２１に戻り、オートシャッタ登録処理の終了が指示されるまで、ステップＳＳ１２１乃至１２７の処理が繰り返される。
【０１６９】
そして、ステップＳ１２１において、オートシャッタ登録処理の終了が指示されたと判定された場合、処理はステップＳ１２８に進められる。
【０１７０】
ステップＳ１２８において、時系列特徴量生成部４５は、発話期間検出部４４から通知される発話期間に、口形素判別器３１から順次入力されたＫ次元スコアベクトルを時系列に配置することにより、登録したいシャッタキーワードに対応した時系列特徴量を生成する。
【０１７１】
ステップＳ１２９において、時系列特徴量学習部４６は、Ｕ／Ｉ部６４から入力されるシャッタキーワードのテキストデータに対応付けて、時系列特徴量生成部４５から入力された時系列特徴量を、HMMによりモデル化する。モデル化された時系列特徴量は、発話認識器４７に内蔵された学習データベース４８に保持される。以上で、シャッタキーワード登録処理は終了される。
【０１７２】
［オートシャッタ実行処理の詳細］
次に、図２０は、オートシャッタ実行処理を説明するフローチャートである。
【０１７３】
このオートシャッタ実行処理は、ユーザからの所定の操作に応じてオートシャッタ実行モードとされたときに開始され、また、ユーザからの所定の操作に応じて終了される。
【０１７４】
ステップＳ１４１において、認識系１２の顔領域検出部４１は、ファインダ画像を各フレームに分割し、１フレームずつ処理対象とする。処理対象のフレームから顔領域を検出する。
【０１７５】
ステップＳ１４２において、顔領域検出部４１は、処理対象のフレームから顔領域を検出できたか否かを判定し、顔領域が検出できるまで、処理をステップＳ１４１に戻す。そして、処理対象のフレームから顔領域を検出できた場合、処理はステップＳ１４３に進められる。
【０１７６】
なお、ここでは、シャッタキーワード登録処理時とは異なり、１フレームから複数の顔領域が検出されてもかまわない。１フレームから複数の顔領域が検出された場合、検出された各顔領域に対して並行し、これ以降の処理が実行される。
【０１７７】
ステップＳ１４３において、顔領域検出部４１は、処理対象としている１フレーム分のファインダ画像とともに顔領域の位置情報を唇領域検出部４２に出力する。唇領域検出部４２は、処理対象のフレームの顔領域から唇領域を検出し、処理対象としている１フレーム分のファインダ画像とともに唇領域の位置情報を唇画像生成部４３に出力する。
【０１７８】
唇画像生成部４３は、処理対象としているファインダ画像の１フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部４３は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズして唇画像を生成する。生成された唇画像は、口形素判定器３１および発話期間検出部４４に入力される。
【０１７９】
ステップＳ１４４において、発話期間検出部４４は、処理対象としているフレームの唇画像に基づいて発話期間を判定する。すなわち、処理対象としているフレームが発話期間の始点、または発話期間中であると判定された場合、処理はステップＳ１４５に進められる。
【０１８０】
ステップＳ１４５において、口形素判定器３１は、順次入力される唇画像のうち、発話期間に対応するものについて対応するＫ次元スコアベクトルを演算して時系列特徴量生成部４５に出力する。この後、処理はステップＳ１４１に戻り、それ以降が繰り返される。
【０１８１】
ステップＳ１４４において、処理対象としているフレームが発話期間の終点であると判定された場合、処理はステップＳ１４６に進められる。
【０１８２】
ステップＳ１４６において、時系列特徴量生成部４５は、発話期間検出部４４から通知される発話期間に、口形素判別器３１から順次入力されたＫ次元スコアベクトルを時系列に配置することにより、被写体の唇の動きに対応した時系列特徴量を生成する。
【０１８３】
ステップＳ１４７において、時系列特徴量生成部４５は、生成した時系列特徴量を発話認識器４７に入力する。ステップＳ１４８において、発話認識器４７は、時系列特徴量生成部４５から入力された時系列特徴量と、学習データベース４８に保持されているシャッタキーワードに対応するHMMを比較して、被写体の唇の動きがシャッタキーワードに対応するものであるか否かを判定する。被写体の唇の動きがシャッタキーワードに対応するものであると判定された場合、処理はステップＳ１４９に進められる。なお、否と判定された場合、処理はステップＳ１４１に戻り、それ以降が繰り返される。
【０１８４】
ステップＳ１４９において、発話認識器４７は、被写体の唇の動きがシャッタキーワードに対応するものである旨をオートシャッタ信号出力部７１に通知する。この通知の応じ、オートシャッタ信号出力部７１は、オートシャッタ信号を発生して撮像制御部６５に出力する。このオートシャッタ信号に従い、撮像制御部６５は、撮像部６１などを制御して撮像を行わせる。なお、この撮像タイミングは、シャッタキーワードの発話の所定時間（例えば１秒間）後などとユーザが任意に設定できる。この後、処理はステップＳ１４１に戻り、それ以降が繰り返される。
【０１８５】
なお、上述した説明では、ファインダ画像から複数の顔領域（被写体）が検出された場合、複数の被写体のうちの誰がシャッタキーワードを発話してもよいことになる。
【０１８６】
ただし、このような仕様を変更し、例えば、被写体の過半数がシャッタキーワードを発話したことに応じて撮像を行うようにしてもよい。このような仕様にすれば、集合写真を撮像する際の遊戯性をユーザらに与えることができる。また複数の顔認識を行うので、認識結果が頑健になり、シャッタキーワードの誤検出などを抑止できる効果も期待できる。
【０１８７】
さらに、個人の顔を識別する個人識別技術を組み合わせることにより、複数の被写体のうちの特定の人物にだけ注目してシャッタキーワードを検出するようにしてもよい。この特定の人物は複数であってもよい。この特定の人物を被験者（被写体）として、上述したシャッタキーワード登録処理を行えば、より頑健で正確な発話認識が可能となる。
【０１８８】
以上説明したように、第２の実施の形態であるデジタルスチルカメラ６０によれば、離れた位置にいる被写体が、リモートコントローラなどを用いることなく、ノイズ環境化においても、シャッタキーワードを発話するだけで撮像タイミングを指示することができる。なお、このシャッタキーワードは、任意に設定することができる。
【０１８９】
なお、本発明は、デジタルスチルカメラに限らず、デジタルビデオカメラにも適用することができる。
【０１９０】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【０１９１】
図２１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【０１９２】
このコンピュータ２００において、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。
【０１９３】
バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウス、マイクロホンなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７、ハードディスクや不揮発性のメモリなどよりなる記憶部２０８、ネットワークインタフェースなどよりなる通信部２０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１１を駆動するドライブ２１０が接続されている。
【０１９４】
以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。
【０１９５】
コンピュータ（CPU２０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【０１９６】
そして、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。
【０１９７】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
【０１９８】
また、プログラムは、１台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
【０１９９】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【０２００】
１０発話認識装置，２１画音分離部, ２２顔領域検出部, ２３唇領域検出部, ２４唇画像生成部，２５音素ラベル付与部，２６音素辞書，２７口形素ラベル変換部，２８口形素ラベル付加部，２９学習サンプル保持部，３０口形素判別器学習部，３１口形素判別器，４１顔領域検出部, ４２唇領域検出部, ４３唇画像生成部，４４発話期間検出部，４５時系列特徴量生成部，４６時系列特徴量学習部，４７発話認識器，４８学習データベース，６０デジタルスチルカメラ, ６１撮像部，６２画像処理部，６３記録メディア，６４Ｕ／Ｉ部，６５撮像制御部，６６オートシャッタ制御部，７１オートシャッタ信号出力部，２００コンピュータ，２０１ CPU

【特許請求の範囲】
【請求項１】
時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、
前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、
登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、
不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段と
を含む情報処理装置。
【請求項２】
前記学習手段は、前記クラスラベルが付加された前記学習画像の画像特徴量を用いたAdaBoostECOC(Error Correct Output Coding)学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する
請求項１に記載の情報処理装置。
【請求項３】
前記画像特徴量は、ピクセル差分特徴である
請求項２に記載の情報処理装置。
【請求項４】
前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む学習画像を生成するとともに、前記学習画像に対して、前記被験者の唇の形を示す口形素をクラスラベルとして付加し、
前記登録手段は、登録単語を発話する被験者を被写体として撮像した登録用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録単語に対応付けて前記登録用時系列特徴量をモデル化し、
前記識別手段は、発話内容が不明な被写体を撮像した認識用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量との比較結果に応じて、前記発話内容を認識する
請求項２に記載の情報処理装置。
【請求項５】
前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用音声付動画像を前記学習用動画像と学習用音声に分離し、前記学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む前記学習画像を生成するとともに、前記学習用音声を音声認識して前記被験者の発話内容に対応する口形素を特定し、前記学習画像に対して、前記被験者の唇の形を示す前記口形素をクラスラベルとして付加する
請求項４に記載の情報処理装置。
【請求項６】
前記登録手段は、前記登録動作に対応付けて前記登録用時系列特徴量を、HMM(Hidden Markov Model)によりモデル化する
請求項２に記載の情報処理装置。
【請求項７】
入力された動画像を識別する情報処理装置の情報処理方法において、
前記情報処理装置による、
時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成ステップと、
前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習ステップと、
登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録ステップと、
不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別ステップと
を含む情報処理方法。
【請求項８】
コンピュータに、
時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、
前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、
登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、
不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段と
して機能させるプログラム。

【図１】