顔画像認証装置

【課題】複数の利用者に対して順次顔照合するときに、各利用者に対して適切なタイミングで音声を出力する顔画像認証装置を提供する。
【解決手段】顔画像認証装置１は、音声を出力する音声出力部３と、入力画像から入力顔画像を抽出する顔検出手段１１と、登録顔画像と入力顔画像を照合し同一人物かを判定する顔照合手段１３と、音声出力部が音声出力中かを判定する音声出力判定手段１４と、出力音声用情報を作成する出力音声用情報作成手段１５と、出力音声用情報から出力音声信号を合成する音声合成手段１７と、出力音声信号を音声出力部から音声出力させる制御手段１６とを有する。出力音声用情報作成手段は、出力音声用情報として、顔照合手段による判定の時点で、音声出力部が音声出力中でない場合には標準音声用情報を作成し、音声出力中である場合には標準音声用情報より短い短縮音声用情報を作成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、顔画像認証装置に関し、特に、利用者に対して音声を出力する顔画像認証装置に関する。
【背景技術】
【０００２】
従来より、企業の居室の入り口などに設置され、通行する利用者（社員等）の顔を撮影した顔画像を予め登録された顔画像と照合することにより、その利用者がその居室に入室可能な人物であるか否かを認証する顔画像認証装置が開発されている。従来の顔画像認証装置は、利用者が居室の入り口の扉の前で一旦立ち止まって暗証番号を入力したときに顔画像を照合していた。しかし近年は、歩行中の利用者の顔を撮影して照合し、利用者が入り口に接近する前に認証する歩行型の顔画像認証装置が開発されている。このような歩行型の顔画像認証装置においては、出勤時のように複数の利用者が次々と居室の入り口に接近する場合、各利用者が入り口に到達する前に認証しなければ、各利用者がスムーズに入室できず、利便性が損なわれることになる。
そこで、特許文献１には、通行人数に応じて顔照合処理の精度を変更して顔照合処理の時間を短くする人物認識装置が提案されている。この人物認識装置は、入力画像中の顔の数を計算し、その顔の数に応じて顔照合処理における顔画像の解像度、照合対象領域等を変更することにより、通行人数が多いほど１名当たりの顔照合処理の時間が短くなるように制御している。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００７−１５６５４１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
特許文献１に記載された人物認識装置は、通行人数が多い場合に１名当たりの顔照合処理の時間を低減することができ、各利用者はスムーズに入室することができる。しかしながら、歩行型の顔画像認証装置において、例えば利用者に対して顔照合処理の結果に応じた音声を出力しようとする場合、一般に顔照合処理にかかる時間と比較して顔照合処理の結果に応じた音声を出力する時間は非常に長くなる。そのため、複数の利用者が同時に通行する場合に、各利用者の顔照合処理にかかる時間を短くしても、各利用者に対する音声出力が完了するまでの時間に対する影響は小さく、各利用者が入室するまでに音声の出力が間に合わないおそれがある。
【０００５】
そこで、本発明の目的は、複数の利用者に対して順次照合するとともに各利用者に対する音声を出力する際に各利用者に対する音声の出力タイミングを最適化することが可能な顔画像認証装置を提供することにある。
【課題を解決するための手段】
【０００６】
かかる課題を解決するための本発明は、照合対象者を撮影した入力画像を順次取得する撮像部と、予め登録者の登録顔画像を記憶する記憶部と、照合対象者に音声を出力する音声出力部と、入力画像が取得される度に照合対象者の顔領域の画像を入力顔画像として抽出する顔検出手段と、登録顔画像と入力顔画像を照合し、同一人物であるか否かを判定する顔照合手段と、音声出力部が音声を出力中であるか否かを判定する音声出力判定手段と、音声出力判定手段の判定結果に基づいた出力音声用情報を作成する出力音声用情報作成手段と、出力音声用情報から出力音声信号を合成する音声合成手段と、出力音声信号を音声出力部から音声出力させる制御手段とを有する顔画像認証装置を提供する。係る顔画像認証装置において、出力音声用情報作成手段は、出力音声用情報として、顔照合手段による判定の時点で音声出力部が音声出力中でない場合には標準音声用情報を作成し、当該判定の時点で音声出力部が音声出力中である場合には標準音声用情報よりも短い短縮音声用情報を作成する。
【０００７】
また、本発明に係る顔画像認証装置において、記憶部は、認証定型句と、登録者の登録顔画像に関連づけて当該登録者の個人名を更に記憶し、出力音声用情報作成手段は、標準音声用情報を、認証定型句と、顔照合手段にて入力顔画像に写っている照合対象者と同一人物であると判定された登録者の個人名から作成し、短縮音声用情報を、顔照合手段にて入力顔画像に写っている照合対象者と同一人物であると判定された登録者の個人名から作成することが好ましい。
【０００８】
また、本発明に係る顔画像認証装置において、制御手段は、出力音声用情報作成手段が出力音声用情報を作成する度に当該出力音声用情報を記憶部に記憶する一方で、音声出力部が出力音声信号の音声出力を完了したときに記憶部から当該出力音声信号に対応する出力音声用情報を削除し、音声出力判定手段は、記憶部に出力音声用情報が記憶されていると、音声出力部が音声出力中であると判定し、記憶部に出力音声用情報が記憶されていないと、音声出力部が音声出力中でないと判定することが好ましい。
【０００９】
また、本発明に係る顔画像認証装置において、記憶部には、登録者ごとに属性が記憶されるとともに、当該属性に応じて予め定められた、制御部が出力音声信号を音声出力部に音声出力させる順序を規定する優先度が記憶され、制御手段は、記憶部に記憶された出力音声用情報のうち、音声出力部による音声出力が開始されていない出力音声用情報についての出力音声信号を優先度が高い順に音声出力部に音声出力させることが好ましい。
【発明の効果】
【００１０】
本発明に係る顔画像認証装置は、複数の利用者に対して順次照合するとともに各利用者に対する音声を出力する際に各利用者に対する音声の出力タイミングを最適化することができるため、各利用者が、自分に向けて出力された音声を聞くことで、自分が認証されたことを認識でき、使用感が向上するという効果を奏する。
【図面の簡単な説明】
【００１１】
【図１】本発明を適用した顔画像認証装置の概略構成図である。
【図２】顔画像認証装置がオフィスビルの入り口に設置される場合の撮像部の設置例を表す模式図である。
【図３】登録テーブルの模式図である。
【図４】（ａ）は、顔画像認証装置が設置された通路に複数の利用者が離散的に通行する場合の入力画像と出力音声の関係を示す模式図であり、（ｂ）は、顔画像認証装置が設置された通路に複数の利用者が連続的に通行する場合の入力画像と出力音声の関係を示す模式図である。
【図５】出力テーブルの模式図である。
【図６】定型句テーブルの模式図である。
【図７】顔画像認証装置による通知情報の登録処理の動作を示すフローチャートである。
【図８】顔画像認証装置による音声の出力処理の動作を示すフローチャートである。
【図９】本実施形態の顔画像認証装置が設置された通路に複数の利用者が連続的に通行する場合の入力画像と出力音声の関係を示す模式図である。
【図１０】本発明の変形例における出力テーブルの模式図である。
【図１１】（ａ）、（ｂ）は、登録者の優先度に応じた音声出力の順序変更を説明するための出力テーブルの模式図である。
【発明を実施するための形態】
【００１２】
以下、本発明の一実施形態である顔画像認証装置について図を参照しつつ説明する。
本発明を適用した顔画像認証装置は、複数の照合対象者に対して順次照合し、その照合結果に応じた音声を各照合対象者に対して出力する。そして顔画像認証装置は、照合対象者の照合が完了したとき既に顔画像認証装置が音声を出力中である場合、新たに出力する出力音声を通常の出力音声より短くする。これにより、顔画像認証装置は、複数の照合対象者に対する音声の出力タイミングを最適化できるようにすることを図る。
【００１３】
図１は、本発明を適用した顔画像認証装置１の概略構成を示す図である。図１に示すように、顔画像認証装置１は、撮像部２と、音声出力部３と、インターフェース部４と、記憶部５と、処理部６とを有する。以下、顔画像認証装置１の各部について詳細に説明する。
【００１４】
撮像部２は、顔画像認証装置１が運用される環境に応じて、照合対象者の顔を撮影できるように設置される。そして撮像部２は、照合対象者が写った画像を入力画像として生成する。そのために、撮像部２は、例えば、ＣＣＤまたはＣＭＯＳといった固体撮像素子の２次元アレイ上に照合対象者の顔の像を結像する光学系を備えたカメラを有する。
撮像部２は、生成した入力画像をインターフェース部４へ出力する。
【００１５】
なお、撮像部２は、入力画像として、カラーの多階調画像を作成するものであってもよく、あるいは、近赤外域に感度を有し、グレー画像を作成するカメラであってもよい。また撮像部２が有する撮像素子アレイは、入力画像に写っている照合対象者の顔の目、鼻、口などの顔特徴が区別できる程度の画素数を有することが好ましい。
【００１６】
図２に、顔画像認証装置１がオフィスビルの入り口に設置される場合の撮像部２の設置例を模式的に示す。図２に示すように、例えば、顔画像認証装置１がオフィスビルの入り口２００に設置される場合、撮像部２は、入り口２００に通じる通路を監視領域に含むよう、入り口２００が設置された壁の上方または天井に、撮影方向をやや下方へ向け、その通路側へ向けた状態で取り付けられる。これにより撮像部２は、入り口２００に向かう（進行方向２０１へ向かう）照合対象者２０２〜２０４を所定の時間間隔（例えば、200msec）で撮像することができる。
【００１７】
音声出力部３は、例えばスピーカであり、インターフェース部４と接続され、インターフェース部４から受け取った音声信号に応じた音声を発し、照合対象者に報知する。図２に示すように、音声出力部３は、入り口２００が設置された壁の上方または天井の、撮像部２の近傍に設置され、音声の出力方向をやや下方へ向け、その通路側へ向けた状態で取り付けられる。また音声出力部３は、出力する音声が照合対象者に聞こえるように、適切な音量で音声出力するように調整される。
【００１８】
インターフェース部４は、撮像部２及び音声出力部３と接続されるインターフェース回路であり、例えば、ビデオインターフェース及びオーディオインターフェースあるいはユニバーサル・シリアル・バスといったシリアルバスに準じるインターフェース回路を有する。そしてインターフェース部４は、撮像部２から受け取った入力画像を処理部６に渡し、処理部６から受け取った音声信号を音声出力部３に渡す。
【００１９】
記憶部５は、半導体メモリ、磁気記録媒体及びそのアクセス装置並びに光記録媒体及びそのアクセス装置のうちの少なくとも一つを有する。そして記憶部５は、顔画像認証装置１を制御するためのコンピュータプログラム、各種パラメータ及びデータなどを記憶する。また記憶部５は、登録者ごとの登録情報を格納する登録テーブルと、顔画像認証装置１が出力する音声の定型句の情報を格納する定型句テーブルと、顔画像認証装置１が出力すべき音声に関する情報を管理する出力テーブルとを記憶する。また記憶部５は、登録テーブル内に登録者の顔画像に関するデータである顔データを記憶する。これらの登録テーブル、定型句テーブル及び出力テーブルの詳細については後述する。
【００２０】
処理部６は、１個または複数個のプロセッサ及びその周辺回路を有する。そして処理部６は、照合対象者に対する顔照合処理を実行するとともに、その照合した結果に応じた音声の出力を制御する。そのために、処理部６は、そのプロセッサ上で動作するソフトウェアにより実装される機能モジュールとして、顔検出手段１１と、顔追跡手段１２と、顔照合手段１３と、音声出力判定手段１４と、出力音声用情報作成手段１５と、制御手段１６と、音声合成手段１７とを有する。
なお、処理部６が有するこれらの各部は、独立した集積回路、ファームウェア、マイクロプロセッサなどで構成されてもよい。
以下、処理部６の各部について詳細に説明する。
【００２１】
顔検出手段１１は、入力画像が取得される度に、入力画像から、照合対象者の顔が写っている領域である入力顔領域を検出し、入力画像からその領域を切り出して入力顔画像を作成する。そのために、顔検出手段１１は、例えば、入力画像からsobelフィルタなどのエッジ検出フィルタを用いてエッジ画素を検出する。そして顔検出部２１は、検出されたエッジ画素を一般化ハフ変換することにより人の顔の輪郭らしい楕円状の輪郭を検出し、その輪郭で囲まれた領域を入力顔領域とする。
あるいは顔検出手段１１は、Ａｄａｂｏｏｓｔ識別器を用いて入力顔領域を検出してもよい。この方法についてはP.Violaと M.Jonesによる論文「Rapid Object Detection Using a Boosted Cascade of Simple Features」（Proc. the IEEE International Conference on Computer Vision and Pattern Recognition, vol.1, pp.511-518, 2001）を参照することができる。その場合、Ａｄａｂｏｏｓｔ識別器には、人の顔が写っている複数のサンプル画像と人の顔が写っていない複数のサンプル画像を用いて、顔が写っている画像に対して顔が写っているとの識別結果を出力し、顔が写っていない画像に対しては顔が写っていないとの識別結果を出力するように事前に学習させておく。そして顔検出手段１１は入力画像内の所定の大きさの領域を、その位置をずらしながら切り出してＡｄａｂｏｏｓｔ識別器に入力し、その領域内に顔が写っているか否かの識別結果を得ることにより、入力顔領域を検出する。
なお、入力画像中に複数の照合対象者が写っている場合には、顔検出手段１１は、各照合対象者毎に入力顔領域を検出し、入力顔画像を作成する。
顔検出手段１１は、入力画像上で入力顔領域の検出に成功すると、入力顔領域を表す情報を顔追跡手段１２へ通知する。
【００２２】
顔追跡手段１２は、所定の時間間隔で連続して取得される複数の入力画像にわたって顔検出手段１１から検出された入力顔領域に対して公知のトラッキング技術を利用して追跡処理を行い、同一人物の顔が写っている入力顔領域を対応付ける。
例えば、顔追跡手段１２は、最新の入力画像から検出された入力顔領域（以降、現フレームの入力顔領域と称する）の重心位置と、１フレーム前の入力画像から検出された入力顔領域（以降、前フレームの入力顔領域と称する）の重心位置の距離を求めて、その距離が所定の閾値以下である場合に、その入力顔領域を同一人物によるものとして対応付ける。なお、照合対象者が撮像部２から離れているときに一定の距離を移動した場合と撮像部２の近くにいるときに同じ距離を移動した場合とでは、その移動の前後において入力画像における入力顔領域の位置の差は異なる。そのため、例えば所定の閾値を入力顔領域の大きさとすることにより、監視領域内の照合対象者の位置にかかわらず、現フレームの入力顔領域と前フレームの入力顔領域のそれぞれに写っている人物が同一人物であるか否かを適切に評価することができる。また顔追跡手段１２は、複数の入力顔領域が抽出されている場合には、重心位置の距離が最も近い入力顔領域どうしが対応づくか否かを調べる。
あるいは、顔追跡手段１２は、オプティカルフロー、パーティクルフィルタ等の方法を用いて入力顔領域の追跡処理を行ってもよい。
【００２３】
前フレームの入力顔領域と対応付けることができなかった入力顔領域は、新規の照合対象者に対応する入力顔領域とされ、以降の追跡処理の対象となる。また現フレームの全ての入力顔領域と対応付けることができなかった前フレームの入力顔領域は、以降の追跡処理の対象から除外される。
【００２４】
顔照合手段１３は、顔追跡手段１２によって追跡処理の対象となっている入力顔領域のうち、その入力顔領域から切り出された入力顔画像がまだ照合されていなければ、記憶部５に記憶された登録テーブルの各登録顔画像と照合し、同一人物によるものか否かを判定する。
【００２５】
図３は、記憶部５に記憶される、登録者ごとの登録情報を格納する登録テーブルの模式図である。図３に示された登録テーブル３００において、一つの行が一人の登録者に対応する。
そして左端の列の各欄には、登録者の識別情報３０１が示される。識別情報３０１は、例えば、登録者のユーザ名、ユーザ識別番号またはパスワードである。あるいは、識別情報３０１は、社員番号又は連続した正の整数のように登録者を一意に特定できるものであればどのようなものでもよい。また左から２番目の列の各欄には、顔データ３０２が格納される。顔データ３０２は、登録者の顔画像に関するデータであり、本実施形態では、顔データ３０２として登録顔画像が記憶される。
【００２６】
顔照合手段１３は、照合処理として、公知の様々な照合方法を用いることができる。例えば、顔照合手段１３は、顔抽出手段１１によって抽出された入力顔画像と登録顔画像のパターンマッチングを行う。顔照合手段１３は、入力顔画像と登録顔画像の位置をずらしながら入力顔画像の各画素と登録顔画像の対応画素の輝度値の差の二乗和を算出し、算出した二乗和のうち最も小さいものを入力顔画像に含まれる画素数で割って正規化した値の逆数を類似度として求める。そして顔照合手段１３は、各登録顔画像について求めた類似度のうち、最も高い類似度が所定の照合閾値を超える場合、その入力顔画像に写っている照合対象者を、類似度が最も高い値を有する登録顔画像により登録された登録者である（照合成功）と判断する。一方、顔照合手段１３は、何れの類似度も所定の照合閾値を超えない場合、入力顔画像に写っている照合対象者は登録者ではない（照合失敗）と判断する。なおこの照合閾値は、顔画像認証装置１が設置される環境、目的などに応じて適宜定められる。
【００２７】
あるいは、顔照合手段１３は、顔の特徴的な部分である顔特徴点により類似度を求めてもよい。その場合、顔照合手段１３は、入力顔画像及び登録顔画像から両目尻、両目領域中心、鼻尖点、口点、口角点などの顔特徴点を複数抽出する。例えば、顔照合手段１３は、入力顔画像及び登録顔画像に対してエッジ抽出処理を行って周辺画素との輝度差が大きいエッジ画素を抽出する。そして顔照合手段１３は、エッジ画素の位置、パターンなどに基づいて求めた特徴量が、両目尻、両目領域中心、鼻尖点、口点、口角点などの部位について予め定められた条件を満たすか否かを調べて各部位の位置を特定することにより、顔特徴点として抽出する。そして顔照合手段１３は、抽出した顔特徴点毎に入力顔画像及び登録顔画像上の各顔特徴点の位置情報（例えば、入力顔画像及び登録顔画像の左上端部を原点とする２次元座標値）を算出する。そして顔照合手段１３は、入力顔画像及び登録顔画像の対応する特徴点間の距離の総和を位置ずれ量として求め、その位置ずれ量の逆数を類似度とする。
あるいは、顔照合手段１３は、抽出した顔特徴点毎にその顔特徴点の近傍の局所領域について輝度又は色差の平均値を算出する。その場合、顔照合手段１３は、入力顔画像及び登録顔画像の対応する局所領域毎に、算出した平均値の差の絶対値を求め、その総和の逆数を類似度としてもよい。この場合、登録テーブル３００の顔データ３０２は、登録顔画像に代えて予め登録顔画像について算出された、顔特徴点毎の特徴量（顔特徴点の位置情報、顔特徴点の近傍の局所領域の輝度又は閾値の平均値等）としてもよい。
【００２８】
顔照合手段１３は、照合対象者が登録者であると判定すると、照合成功を示す結果通知を音声出力判定手段１４に送り、照合対象者が登録者でないと判定すると、照合失敗を示す結果通知を音声出力判定手段１４に送る。
【００２９】
音声出力判定手段１４は、顔照合手段１３から照合成功又は照合失敗を示す結果通知を受け取ると、音声出力部３に出力させる音声の語句をテキストデータで示した出力音声用情報の作成要求を出力音声用情報作成手段１５に送る。
まず、照合対象者が照合成功となったときに顔画像認証装置１が出力する出力音声の語句を定型句「お疲れ様です」及び照合対象者の個人名とした場合について、顔画像認証装置が設置された通路に複数の利用者が通行する例を用いて説明する。図４（ａ）に、顔画像認証装置１が設置された通路に複数の利用者が離散的に通行する場合の入力画像と出力音声の関係の例を示す。図４（ａ）において、画像４００は時刻tにおける入力画像であり、画像４０１は時刻t+1における入力画像であり、画像４０２は時刻t+2における入力画像であり、画像４０３は時刻t+3における入力画像であり、画像４０４は時刻t+4における入力画像である。図４（ａ）に示す例では、時刻tにおける入力画像４００に人物４１０（Ａ役員）が写っている。そのため、この顔画像認証装置は時刻tにおいて照合処理を行い、照合結果に応じた出力音声「お疲れ様です、Ａ役員」を時刻tから出力する。そして、時刻t+2においては、入力画像４０２に照合対象者が存在しないため、音声は出力されない。そして時刻t+3における入力画像４０３には新たに人物４１１（Ｂさん）が写っている。そのため、顔画像認証装置は時刻t+3において照合処理を行い、照合結果に応じた出力音声「お疲れ様です、Ｂさん」を時刻t+3から出力する。
【００３０】
一方、図４（ｂ）に、顔画像認証装置１が設置された通路に複数の利用者が連続的に通行する場合の入力画像と出力音声の関係の例を示す。図４（ｂ）において、画像４２０は時刻tにおける入力画像であり、画像４２１は時刻t+1における入力画像であり、画像４２２は時刻t+2における入力画像であり、画像４２３は時刻t+3における入力画像であり、画像４２４は時刻t+4における入力画像である。図４（ｂ）に示す例では、時刻tにおける入力画像４２０に人物４１０（Ａ役員）が写っている。そのため、この顔画像認証装置は時刻tにおいて照合処理を行い、照合結果に応じた出力音声「お疲れ様です、Ａ役員」を時刻tから出力する。一方、時刻t+1における入力画像４２１には新たに人物４１１（Ｂさん）が写っている。この場合、顔画像認証装置は時刻t+1において照合処理を行うが、時刻t+1においては音声を出力中であるため、出力音声「お疲れ様です、Ｂさん」を出力することができない。そのため、顔画像認証装置は出力音声「お疲れ様です、Ａ役員」の出力が完了した後、時刻t+2から出力音声「お疲れ様です、Ｂさん」を出力する。しかし、時刻t+3には人物４１１（Ｂさん）は既に入室しており、人物４１１（Ｂさん）の入室までに音声出力を完了させることができない。また、時刻t+2における入力画像４２２には新たに人物４１２（Ｃさん）が写っている。この場合、顔画像認証装置は時刻t+2において照合処理を行うが、時刻t+2においては音声を出力中であるため、出力音声「お疲れ様です、Ｃさん」を出力することができない。そのため、顔画像認証装置は出力音声「お疲れ様です、Ｂさん」の出力が完了した後、時刻t+4から出力音声「お疲れ様です、Ｃさん」を出力する。しかし、時刻t+4には人物４１２（Ｃさん）は既に入室しており、人物４１２（Ｃさん）の入室までに音声を出力することができない。
【００３１】
このように、音声出力処理は、一般に照合処理よりも長時間を要し、多数の利用者が連続して照合された場合には、全員に対する音声の出力が間に合わない場合がある。従って、複数の利用者が連続して通行している場合には、二人目以降の照合対象者に対する出力音声は、一人目の照合対象者に対する出力音声より短くすることが好ましい。
そこで本実施形態の音声出力判定手段１４は、音声出力部３が音声を出力中であるか否かを判定する。そして音声出力判定手段１４は、音声出力部３が音声を出力中でない場合には通常通りの出力音声用情報（以下、標準音声用情報と称する）を出力音声用情報作成手段１５に作成させるために標準音声用情報の作成要求を出力音声用情報作成手段１５に送る。一方、音声出力判定手段１４は、音声出力部３が音声を出力中である場合には標準音声用情報より短い出力音声用情報（以下、短縮音声用情報と称する）を出力音声用情報作成手段１５に作成させるために短縮音声用情報の作成要求を出力音声用情報作成手段１５に送る。
例えば、図４（ｂ）に示した例では、音声出力部３は、出力音声「お疲れ様です、Ａ役員」、「お疲れ様です、Ｂさん」、「お疲れ様です、Ｃさん」を順次出力している。この出力音声のうち「お疲れ様です」の部分は、定型句であり、図４（ｂ）のように、照合対象者が連続する場合は、先頭の一人分について出力すれば十分な面がある一方で、出力するだけの時間がかかるため、全員分を出力しきれない原因となっている。そこで、本実施形態の出力音声用情報作成手段１５は、標準音声用情報から定型句を省略したテキストを短縮音声用情報として作成する。
また、顔照合手段１３から受け取った結果通知が照合失敗を示す場合は、照合対象者を特定できないため、出力音声用情報に個人名を含ませることができない。そのため、この場合、音声出力判定手段１４は、未登録者向けの定型句のみからなる出力音声用情報（以下、未登録者向け音声用情報と称する）を出力音声用情報作成手段１５に作成させるために未登録者向け音声用情報の作成要求を出力音声用情報作成手段１５に送る。
【００３２】
また、音声出力判定手段１４は、音声出力部３が音声を出力中であるか否かを記憶部５に記憶された出力テーブルに出力音声用情報が格納されているか否かにより判定する。つまり、音声出力判定手段１４は、出力テーブルに出力音声用情報が格納されている場合は、音声出力部３が音声を出力中であると判定し、出力音声用情報が格納されていない場合は、音声出力部３が音声出力中でないと判定する。
図５は、記憶部５に記憶される出力テーブルの模式図である。図５に示された出力テーブル５００において、一つの行が顔追跡手段１２により追跡処理がされている一人の照合対象者に対応する。この出力テーブルの各行の情報は、照合対象者の照合処理が完了し、出力音声用情報作成手段１５によってその照合結果に応じた出力音声用情報が作成されたときに制御手段１６によって追加される。また、この出力テーブルの各行の情報は、出力音声用情報から合成された音声信号がインターフェース部４に出力され終わったときに制御手段１６によって削除される。従って、出力テーブル５００に出力音声用情報が格納されていない場合には、音声出力部３が音声を出力中でないと判断することができる。
なお、上述した通り、出力音声用情報作成手段１５は、標準音声用情報から定型句を省略したテキストを短縮音声用情報として作成する。そのため、短縮音声用情報に示される語句を音声出力するためには、その直前に標準音声用情報に示される語句が音声出力されていること、又は標準音声用情報に示される語句に続けて短縮音声用情報に示される語句が音声出力されていることが好ましい。そこで、本実施形態の音声出力判定手段１４は、出力テーブル５００に未登録者向け音声用情報しか格納されていない場合、つまり標準音声用情報又は短縮音声用情報が格納されていない場合は、標準音声用情報の作成要求を出力音声用情報作成手段１５に送る。
【００３３】
出力音声用情報作成手段１５は、音声出力判定手段１４から受け取った作成要求に従って出力音声用情報を作成する。
以下に、出力音声用情報作成手段１５が作成する出力音声用情報について説明するために、登録テーブル及び定型句テーブルに格納される情報について説明する。
図３に示した登録テーブル３００において、左から３番目の列の各欄には、登録者の個人名３０３が示される。個人名３０３は、登録者の本名、名字、通称名などであり、テキストデータとして格納される。また個人名３０３として名字を用いる場合、同じ名字の登録者が複数いる場合に限り氏名を記録しておくようにしてもよい。
そして左から４番目の列の各欄には、登録者の属性３０４が示される。属性３０４は、社員、業者、顧客等を識別するためのものであり、属性３０４が社員である場合には、さらに役員、部長、担当等の役職により識別される。
そして左から５番目の列の各欄には、登録者の個人名３０３を音声で出力するときに要する出力時間を示す個人名時間長３０５が示される。例えば、個人名時間長３０５は、その個人名３０３を音声にした音声データを作成し、音声再生に要する時間を計測することにより求めることができる。あるいは、個人名時間長３０５は、その個人名３０３を平仮名表記したときの文字数により定めてもよい。また、処理を容易にするために、最も長い個人名３０３を音声で出力するときに要する出力時間を全ての登録者の個人名時間長３０５として共通に適用してもよい。
【００３４】
登録テーブル３００において、例えば、一番上の行には、その登録者についての識別情報３０１が'1'であること、個人名３０３が「Ａ」であること、属性３０４が「役員」であること、及び個人名時間長３０５が'tm1'であることが示されている。また、上から二番目の行には、その登録者についての識別情報３０１が'2'であること、個人名３０３が「Ｂ」であること、属性３０４が「担当」であること、及び個人名時間長３０５が'tm2'であることが示されている。また、上から三番目の行には、その登録者についての識別情報３０１が'3'であること、個人名３０３が「Ｃ」であること、属性３０４が「部長」であること、及び個人名時間長３０５が'tm3'であることが示されている。また、上から四番目の行には、その登録者についての識別情報３０１が'4'であること、個人名３０３が「Ｄ」であること、属性３０４が「顧客」であること、及び個人名時間長３０５が'tm4'であることが示されている。また、上から五番目の行には、その登録者についての識別情報３０１が'5'であること、個人名３０３が「Ｅ」であること、属性３０４が「業者」であること、及び個人名時間長３０５が'tm5'であることが示されている。
【００３５】
図６は、記憶部５に記憶される、音声出力部３が出力する音声の定型句の情報を格納する定型句テーブルの模式図である。図６に示すように、定型句テーブル６００の左端の各欄には、定型句種別６０１が示される。本実施形態では定型句種別６０１として、照合対象者の照合が成功したときの出力音声の語句のうち定型句の部分である認証定型句６１１と、照合対象者の照合が失敗したときの出力音声の語句のうち定型句の部分である非認証定型句６１２と、出力音声の語句のうち照合対象者の個人名の後に続ける部分である敬称句６１３とが登録されている。本実施形態において、認証定型句６１１、非認証定型句６１２及び敬称句６１３は、テキストデータで管理される。
また左から２番目の列の各欄には、定型句として登録された語句６０２が示される。語句６０２は、テキストデータとして格納される。認証定型句６１１の語句として「おはようございます」、「お疲れ様です」、「お疲れ様でした」、「いらっしゃいませ」が登録されている。例えば、照合対象者の属性３０４が「顧客」である場合には「いらっしゃいませ」が用いられ、照合対象者の属性３０４が「役員」、「部長」、「担当」、「業者」のうちの何れかである場合には、午前中は「おはようございます」、午後の業務時間中は「お疲れ様です」、業務時間後は「お疲れ様でした」が用いられるのが好ましい。
【００３６】
また、非認証定型句６１２の語句として「ご来館ありがとうございます」、「ご用の方は内線電話にて呼び出してください」、「カード操作をしてください」が登録されている。例えば、照合対象者が顧客である場合には「ご来館ありがとうございます」、「ご用の方は内線電話にて呼び出してください」等が用いられるのが好ましい。一方、照合対象者が社員のみであり、顧客がほとんど来ることのない場所に顔画像認証装置１が設置され、かつ顔画像認証装置１とは別にＩＤカードによる認証装置が備えられている場合には、「カード操作をしてください」が用いられるのが好ましい。
また、敬称句６１３の語句として「さん」、「役員」、「部長」、「様」が登録されている。例えば、照合対象者が顧客又は業者である場合には「様」が用いられ、照合対象者が顧客である場合には役職に応じて「役員」、「部長」、「さん」が用いられるのが好ましい。あるいは、処理を容易にするために、全ての照合対象者に共通に「さん」を用いるようにしてもよい。
【００３７】
そして、左から３番目の列の各欄には、各定型句の語句を音声で出力するときに要する出力時間を示す時間長６０３が示される。例えば、各時間長６０３は、各定型句の語句を音声にした音声データを作成し、音声再生に要する時間を計測することにより求めることができる。あるいは、各時間長６０３は、その語句を平仮名表記したときの文字数により定めてもよい。また、処理を容易にするために、各種別において最も長い語句を音声で出力するときに要する出力時間をその種別の全ての語句の時間長６０３として共通に適用してもよい。以下、認証定型句６１１の時間長６０３を認証定型句時間長と称し、非認証定型句６１２の時間長６０３を非認証定型句時間長と称し、敬称句６１３の時間長６０３を敬称句時間長と称する。
例えば、認証定型句６１１については、「おはようございます」の認証定型句時間長は'tg1'であり、「お疲れ様です」の認証定型句時間長は'tg2'であり、「お疲れ様でした」の認証定型句時間長は'tg3'であり、「いらっしゃいませ」の認証定型句時間長は'tg4'であることが示されている。また、非認証定型句６１２については、「ご来館ありがとうございます」の非認証定型句時間長は'tn1'であり、「ご用の方は内線電話にて呼び出してください」の非認証定型句時間長は'tn2'であり、「カード操作をしてください」の認証定型句時間長は'tn3'であることが示されている。また、敬称句６１３については、「さん」の敬称句時間長は'tr1'であり、「役員」の敬称句時間長は'tr2'であり、「部長」の敬称句時間長は'tr3'であり、「様」の敬称句時間長は'tr4'であることが示されている。
【００３８】
なお、図６に示した認証定型句６１１、非認証定型句６１２、敬称句６１３は、それぞれ例示であり、顔画像認証装置１の設置場所、運用方針、管理者の嗜好等に応じて語句を変更したり、増減してもよい。
【００３９】
以下、出力音声用情報作成手段１５が作成する出力音声用情報について説明する。出力音声用情報作成手段１５は、出力音声用情報として、音声出力判定手段１４から受け取った作成要求に従って標準音声用情報、短縮音声用情報又は未登録者向け音声用情報を作成する。出力音声用情報作成手段１５は、標準音声用情報を作成する場合、認証定型句６１１と個人名３０３と敬称句６１３とから出力音声用情報を作成する。例えば、午後の業務時間中に識別情報３０１が'1'の登録者であると認証された照合対象者に対する標準音声用情報は「お疲れ様です、Ａ役員」となる。
一方、出力音声用情報作成手段１５は、短縮音声用情報を作成する場合、個人名３０３と敬称句６１３のみから出力音声用情報を作成する。例えば、午後の業務時間中に識別情報３０１が'1'の登録者であると認証された照合対象者に対する短縮音声用情報は「Ａ役員」となる。短縮音声用情報は、認証定型句６１１がない分、標準音声用情報よりも短くなり、短縮音声用情報に示される語句の音声出力は、標準音声用情報に示される語句の音声出力よりも短時間に行われる。
また、出力音声用情報作成手段１５は、未登録者向け音声用情報を作成する場合、非認証定型句６１２のうちの何れかの語句を選択して出力音声用情報を作成する。非認証定型句６１２から選択される語句は、例えば、顔画像認証装置１の設置場所、運用方針等に応じて定められる。
出力音声用情報作成手段１５は、出力音声用情報を作成すると、作成した出力音声用情報を制御手段１６に送る。
【００４０】
制御手段１６は、出力音声用情報作成手段１５が作成した出力音声用情報を記憶部５の出力テーブル５００に格納する。上述した通り、音声出力部３は、ある照合対象者に対する照合が完了したときに、その前に照合した照合対象者に対して音声を出力している場合がある。この場合、音声出力部３は、現在の音声出力が完了しなければ、次の照合対象者に対する音声を出力することができない。そこで、制御手段１６は、出力音声用情報作成手段１５から出力音声用情報を取得すると、取得した出力音声用情報を一旦、記憶部５の出力テーブル５００に格納する。
【００４１】
以下、図５に示した出力テーブル５００について説明する。上述した通り、出力テーブル５００において、一つの行が顔追跡手段１２により追跡処理がされている一人の照合対象者に対応する。以下、一つの行に示される情報を通知情報と称する。
そして左端の列の各欄には、情報番号５０１が示される。この情報番号５０１は、通知情報毎、つまり照合対象者毎に付与される識別番号である。例えば、情報番号５０１は、通知情報が追加される毎にインクリメントされる連続した正の整数である。
また左から２番目の列の各欄には、情報種別５０２が示される。この情報種別５０２は、出力音声用情報が、標準音声用情報であるか、短縮音声用情報であるか、又は未登録者向け音声用情報であるかを区別する情報である。
また左から３番目の列の各欄には、出力音声用情報５０３が格納される。
また左から４番目の列の各欄には、出力時間５０４が示される。この出力時間５０４は、出力音声用情報５０３に示される語句を音声出力するのに要する時間である。つまり情報種別５０２が標準音声用情報である場合、出力時間５０４は、認証定型句時間長と個人名時間長３０５と敬称句時間長の和となる。一方、情報種別５０２が短縮音声用情報である場合、出力時間５０４は、個人名時間長３０５と敬称句時間長の和となる。また、情報種別５０２が未登録者向け音声用情報である場合、出力時間５０４は、非認証定型句時間長となる。
また左から５番目の列の各欄には、作成時刻５０５が示される。この作成時刻５０５は、各通知情報が作成され、出力テーブル５００に記録された時刻である。
【００４２】
例えば、出力テーブル５００に通知情報が存在しておらず、直前に存在していた通知情報の情報番号５０１が'260'である場合において、午後の業務時間中に識別情報３０１が'1'の登録者について照合が成功したものとする。その場合、出力テーブル５００に標準音声用情報又は短縮音声用情報を含む通知情報が存在していないので、音声出力判定手段１４は、出力音声用情報作成手段１５に識別情報３０１が'1'の登録者に対する標準音声用情報の作成要求を送る。音声出力判定手段１４から作成要求を受けると、出力音声用情報作成手段１５は、認証定型句「お疲れ様です」と、識別情報３０１が'1'の登録者の個人名「Ａ」と、識別情報３０１が'1'の登録者の敬称句「役員」とを組み合わせて標準音声用情報「お疲れ様です、Ａ役員」を作成する。出力音声用情報作成手段１５からこの標準音声用情報を受けると、制御手段１６は、出力テーブル５００に、情報番号５０１を'261'とし、情報種別５０２を「標準音声用情報」とし、出力音声用情報５０３を「お疲れ様です、Ａ役員」とする通知情報を追加する。さらに制御手段１６は、その通知情報の出力時間５０４に「お疲れ様です」の認証定型句時間長'tg2'と、個人名「Ａ」の個人名時間長'tm1'と、敬称句「役員」の敬称句時間長'tr2'の総和'tg2+tm1+tr2'を記録し、作成時刻５０５に現在時刻'11:31:48'を記録する。
【００４３】
さらにこの状態から、識別情報３０１が'2'の登録者について照合が成功した場合、出力テーブル５００には標準音声用情報を含む通知情報が存在するので、音声出力判定手段１４は、出力音声用情報作成手段１５に識別情報３０１が'2'の登録者に対する短縮音声用情報の作成要求を送る。音声出力判定手段１４から作成要求を受けると、出力音声用情報作成手段１５は、識別情報３０１が'2'の登録者の個人名「Ｂ」と、識別情報３０１が'2'の登録者の敬称句「さん」とを組み合わせて短縮音声用情報「Ｂさん」を作成する。出力音声用情報作成手段１５からこの短縮音声用情報を受けると、制御手段１６は、出力テーブル５００に、情報番号５０１を'262'とし、情報種別５０２を「短縮音声用情報」とし、出力音声用情報５０３を「Ｂさん」とする通知情報を追加する。さらに制御手段１６は、その通知情報の出力時間５０４に個人名「Ｂ」の個人名時間長'tm2'と、敬称句「さん」の敬称句時間長'tr1'の総和'tm2+tr1'を記録し、作成時刻５０５に現在時刻'11:31:49'を記録する。
さらにこの状態から、識別情報３０１が'3'の登録者について照合が成功した場合、識別情報３０１が'2'の登録者の場合と同様に、制御手段１６は、出力テーブル５００に、情報番号５０１を'263'とし、情報種別５０２を「短縮音声用情報」とし、出力音声用情報５０３を「Ｃ部長」とする通知情報を追加する。さらに制御手段１６は、その通知情報の出力時間５０４に個人名「Ｃ」の個人名時間長'tm3'と、敬称句「部長」の敬称句時間長'tr3'の総和'tm2+tr1'を記録し、作成時刻５０５に現在時刻'11:31:50'を記録する。
【００４４】
さらにこの状態で、照合対象者の照合が失敗になった場合、音声出力判定手段１４は、出力音声用情報作成手段１５に未登録者向け音声用情報の作成要求を送る。音声出力判定手段１４から作成要求を受けると、出力音声用情報作成手段１５は、未登録者向け音声用情報「ご来館ありがとうございます」を作成する。出力音声用情報作成手段１５からこの未登録者向け音声用情報を受けると、制御手段１６は、出力テーブル５００に、情報番号５０１を'264'とし、情報種別５０２を「未登録者向け音声用情報」とし、出力音声用情報５０３を「ご来館ありがとうございます」とする通知情報を追加する。さらに制御手段１６は、その通知情報の出力時間５０４に「ご来館ありがとうございます」の非認証定型句時間長'tn1'を記録し、作成時刻５０５に現在時刻'11:31:51'を記録する。
【００４５】
また、制御手段１６は、音声出力部３による音声出力を制御する。制御手段１６は、音声出力部３に音声を出力させていないとき、出力テーブル５００に格納された出力音声用情報５０３を読み出して音声合成手段１７に送り、その出力音声用情報５０３から生成された音声信号を音声合成手段１７から受け取る。そして制御手段１６は、受け取った音声信号をインターフェース部４に出力し、音声出力部３に音声出力させる。
【００４６】
このとき制御手段１６は、出力テーブル５００に格納された出力音声用情報５０３を先頭から順に読み出す。ただし、標準音声用情報に示される語句を音声出力した後に、未登録者向け音声用情報に示される語句を音声出力し、さらに短縮音声用情報に示される語句を音声出力すると、順次出力される出力音声が不適切な文章になる。例えば、図４に示した例において、人物４１１（Ｂさん）の照合が失敗した場合、「お疲れ様です、Ａ役員」、「ご来館ありがとうございます」、「Ｃさん」の順に音声出力され、「お疲れ様です」と「Ｃさん」の間に非認証定型句６１２がはさまれる。そこで、制御手段１６は、未登録者向け音声用情報については、出力テーブル５００に格納された全ての標準音声用情報と短縮音声用情報から生成される音声の出力が完了した後に読み出すようにする。また、未登録者向け音声用情報は定型句のみからなるため、出力テーブル５００に複数の未登録者向け音声用情報がある場合、それぞれについて音声を出力するのは冗長である。そのため、制御手段１６は、出力テーブル５００に複数の未登録者向け音声用情報がある場合、未登録者向け音声用情報について一回のみ、音声信号を音声合成手段１７に生成させ、インターフェース部４に出力し、音声出力部３に音声出力させる。
【００４７】
そして制御手段１６は、標準音声用情報又は短縮音声用情報から生成された音声信号の出力が完了すると、その標準音声用情報又は短縮音声用情報に対応する通知情報を出力テーブル５００から削除する。また、制御手段１６は、未登録者向け音声用情報から生成された音声信号の出力が完了すると、出力テーブル５００から未登録者向け音声用情報を含む全ての通知情報を削除する。
【００４８】
音声合成手段１７は、制御手段１６から受け取った出力音声用情報５０３から公知の音声合成技術を利用して音声信号を生成し、制御手段１６に送り返す。例えば、音声合成手段１７は、コーパスベースの音声合成技術を利用して音声合成を行う。その場合、多数の文章について所定単位の語句（例えばアクセント句）毎にイントネーションデータ（例えば音韻毎のピッチ周波数、パワー、音韻継続長等）が蓄積されたイントネーションデータベースと、イントネーション及び読み毎に音声素片が蓄積された音声データベースとを予め記憶部５に用意しておく。そして音声合成手段１７は、まず出力音声用情報５０３を解析して単語を特定し、読みを決定する。次に音声合成手段１７は、出力音声用情報５０３内の語句についてイントネーションデータベースから一致又は最も類似する語句を検索して文のイントネーションの位置を決定する。さらに音声合成手段１７は、イントネーション及び読みに基づいて音声データベースから適切な音声素片を検索して接続することにより音声信号を生成する。あるいは、音声合成手段１７は、フォルマント合成技術を利用して出力音声用情報５０３から人工音声を生成することにより、音声信号を生成してもよい。
【００４９】
以下、図７に示したフローチャートを参照しつつ、本発明を適用した顔画像認証装置１による通知情報の登録処理の動作を説明する。なお、以下に説明する動作のフローは、処理部６により制御される。また、以下に説明する動作は、入力画像の取得時刻ごと（１フレームごと）に実施される。
まず、処理部６の顔検出手段１１は、撮像部２からインターフェース部４を介して、照合対象者が写っている入力画像を取得する（ステップＳ７０１）。そして顔検出手段１１は、取得した入力画像から照合対象者の顔が写っている領域である入力顔領域を検出し、入力顔画像を作成する（ステップＳ７０２）。そして顔検出手段１１は、入力顔領域の検出に成功したか否か判定する（ステップＳ７０３）。顔検出手段１１が入力顔領域の検出に失敗した場合、処理部６は、再度ステップＳ７０１以降の処理を実行する。
一方、顔検出手段１１が入力顔領域の検出に成功した場合、顔検出手段１１は、入力顔領域を表す情報を顔追跡手段１２へ通知する。顔追跡手段１２は、顔検出手段１１によって抽出された入力顔領域について追跡処理を行い、同一人物の顔が写っている入力顔領域を対応付ける（ステップＳ７０４）。
【００５０】
以下のステップＳ７０５〜Ｓ７１１の処理は、顔検出手段１１によって抽出され、顔追跡手段１２によって追跡処理の対象となっている入力顔領域から作成され、まだ照合されていない入力顔画像ごとに行われる。顔照合手段１３は、顔追跡手段１２によって追跡処理の対象となっている入力顔領域から作成され、まだ照合されていない入力顔画像について、記憶部５に記憶された登録テーブル３００の各登録顔画像と照合し（ステップＳ７０５）、同一人物によるものか否かを判定する（ステップＳ７０６）。
顔照合手段１３は、照合対象者が登録者でないと判定すると（ステップＳ７０６のＮｏの分岐）、照合失敗を示す結果通知を音声出力判定手段１４に送る。そして音声出力判定手段１４は、顔照合手段１３から照合失敗を示す結果通知を受けると、未登録者向け音声用情報の作成要求を出力音声用情報作成手段１５に送る。出力音声用情報作成手段１５は、音声出力判定手段１４から未登録者向け音声用情報の作成要求を受けると、未登録者向け音声用情報を作成する（ステップＳ７０７）。
一方、顔照合手段１３は、照合対象者が登録者であると判定すると（ステップＳ７０６のＹｅｓの分岐）、照合成功を示す結果通知を音声出力判定手段１４に送る。そして音声出力判定手段１４は、顔照合手段１３から照合成功を示す結果通知を受けると、出力テーブル５００に標準音声用情報又は短縮音声用情報を含む通知情報が格納されているか否かを判定する（ステップＳ７０８）。そして音声出力判定手段１４は、出力テーブル５００に標準音声用情報及び短縮音声用情報のうちの何れも格納されていない場合（ステップＳ７０８のＹｅｓの分岐）、標準音声用情報の作成要求を出力音声用情報作成手段１５に送る。出力音声用情報作成手段１５は、音声出力判定手段１４から標準音声用情報の作成要求を受けると、標準音声用情報を作成する（ステップＳ７０９）。一方、音声出力判定手段１４は、出力テーブル５００に標準音声用情報又は短縮音声用情報のうちの何れかが格納されている場合（ステップＳ７０８のＮｏの分岐）、短縮音声用情報の作成要求を出力音声用情報作成手段１５に送る。出力音声用情報作成手段１５は、音声出力判定手段１４から短縮音声用情報の作成要求を受けると、短縮音声用情報を作成する（ステップＳ７１０）。
【００５１】
出力音声用情報作成手段１５は、出力音声用情報５０３を作成すると、作成した出力音声用情報５０３を制御手段１６に送る。そして制御手段１６は、出力音声用情報作成手段１５から出力音声用情報５０３を受けると、情報番号５０１を生成し、出力時間５０４を算出し、作成時刻５０５を取得し、出力音声用情報５０３に情報番号５０１、情報種別５０２、出力音声用情報５０３、出力時間５０４及び作成時刻５０５により通知情報を作成して出力テーブル５００に追加する（ステップＳ７１１）。
制御手段１６が通知情報を作成して出力テーブル５００に追加すると、追跡処理の対象となっている入力顔領域から作成され、まだ照合されていない全ての入力顔画像について通知情報の登録処理がされたか否かが判定される。まだ通知情報の登録処理がされていない入力顔画像が存在する場合、制御はステップＳ７０５に戻り、ステップＳ７０５〜Ｓ７１１の処理が繰り返される。一方、その全ての入力顔画像について通知情報の登録処理がされた場合、処理部６は、再度ステップＳ７０１以降の処理を実行する。
【００５２】
以下、図８に示したフローチャートを参照しつつ、本発明を適用した顔画像認証装置１０による音声の出力処理の動作を説明する。なお、以下に説明する動作のフローは、処理部６により制御される。
まず、処理部６の制御手段１６は、出力テーブル５００に通知情報が格納されているか否かを判定する（ステップＳ８０１）。出力テーブル５００に通知情報が格納されていない場合（ステップＳ８０１のＮｏの分岐）、音声合成手段１７は、出力テーブル５００に新たに通知情報が格納されるまでステップＳ８０１で待機する。一方、出力テーブル５００に通知情報が格納されている場合（ステップＳ８０１のＹｅｓの分岐）、制御手段１６は、何れかの通知情報に出力音声用情報５０３として標準音声用情報又は短縮音声用情報が含まれるか否かを判定する（ステップＳ８０２）。
【００５３】
何れかの通知情報に出力音声用情報５０３として標準音声用情報又は短縮音声用情報が含まれる場合（ステップＳ８０２のＹｅｓの分岐）、制御手段１６は、その通知情報のうち先頭に格納されている通知情報の出力音声用情報５０３（標準音声用情報又は短縮音声用情報）を読み出す（ステップＳ８０３）。そして制御手段１６は、読み出した出力音声用情報５０３を音声合成手段１７に送る。音声合成手段１７は、制御手段１６から出力音声用情報５０３を受け取ると、受け取った出力音声用情報５０３から音声信号を生成し、制御手段１６に送り返す。制御手段１６は、音声合成手段１７から音声信号を受け取ると、受け取った音声信号をインターフェース部４に出力し、音声出力部３に音声出力させる（ステップＳ８０４）。そして制御手段１６は、出力音声用情報５０３から生成された音声信号の出力が完了すると、その出力音声用情報５０３に対応する通知情報を出力テーブル５００から削除する（ステップＳ８０５）。通知情報を出力テーブル５００から削除すると、制御手段１６は、再度ステップＳ８０１以降の処理を実行する。
【００５４】
一方、何れの通知情報にも出力音声用情報５０３として標準音声用情報又は短縮音声用情報が含まれない場合（ステップＳ８０２のＮｏの分岐）、制御手段１６は、出力音声用情報５０３として未登録者向け音声用情報を含む通知情報のうち、先頭に格納されている出力音声用情報５０３（未登録者向け音声用情報）を読み出す（ステップＳ８０６）。そして制御手段１６は、読み出した出力音声用情報５０３を音声合成手段１７に送る。音声合成手段１７は、制御手段１６から出力音声用情報５０３を受け取ると、受け取った出力音声用情報５０３から音声信号を生成し、制御手段１６に送り返す。制御手段１６は、音声合成手段１７から音声信号を受け取ると、受け取った音声信号をインターフェース部４に出力し、音声出力部３に音声出力させる（ステップＳ８０７）。そして制御手段１６は、出力音声用情報５０３から生成された音声信号の出力が完了すると、未登録者向け音声用情報を含む全ての通知情報を出力テーブル５００から削除する（ステップＳ８０８）。未登録者向け音声用情報を含む全ての通知情報を出力テーブル５００から削除すると、制御手段１６は、再度ステップＳ８０１以降の処理を実行する。
【００５５】
以下、顔画像認証装置が設置された通路に複数の利用者が通行する場合における本実施形態の顔画像認証装置１の動作について説明する。
図９に、顔画像認証装置１が設置された通路に複数の利用者が連続的に通行する場合の入力画像と出力音声の関係の例を示す。図９において、画像９００は時刻tにおける入力画像であり、画像９０１は時刻t+1における入力画像であり、画像９０２は時刻t+2における入力画像であり、画像９０３は時刻t+3における入力画像であり、画像９０４は時刻t+4における入力画像である。図９に示す例では、時刻tにおける入力画像９００に人物９１０（Ａ役員）が写っている。そのため、顔画像認証装置１は時刻tにおいて照合処理を行い、時刻tから時刻t+1までに照合結果として出力音声「お疲れ様です、Ａ役員」を出力する。一方、時刻t+1における入力画像９１１には新たに人物９１１（Ｂさん）が写っている。この場合、顔画像認証装置１は時刻t+1において照合処理を行い、出力音声「お疲れ様です、Ａ役員」の出力が完了した時刻t+2において「お疲れ様です」を省略した出力音声「Ｂさん」を出力する。さらに、入力画像９０２には新たに人物９１２（Ｃさん）が写っている。この場合、顔画像認証装置１は時刻t+2において照合処理を行い、出力音声「Ｂさん」の出力が完了した時刻t+3において「お疲れ様です」を省略した出力音声「Ｃさん」を出力する。これにより顔画像認証装置１は、人物９１１（Ｂさん）、人物９１２（Ｃさん）の入室までに音声出力を完了させることができる。
【００５６】
以上説明してきたように、本発明を適用した顔画像認証装置１は、照合対象者の顔を撮影した入力画像から抽出された入力顔画像に写っている照合対象者と予め登録された登録者とが同一の人物か否かを判定する。そして顔画像認証装置１は、照合対象者に対する出力音声用情報を作成し、出力音声用情報から音声信号を生成して出力する。この顔画像認証装置１は、照合対象者の照合が完了したとき、顔画像認証装置１が音声を出力中である場合に作成する出力音声用情報を顔画像認証装置１が音声を出力中でない場合に作成する出力音声用情報より短くする。これにより、顔画像認証装置１は、複数の照合対象者がいる場合に二番目以降に照合した照合対象者に対して出力する音声を通常の音声より短くすることができる。従って、顔画像認証装置１は、複数の照合対象者に対して順次照合するとともに各照合対象者に対する音声を出力する際に各照合対象者に対する音声の出力タイミングを最適化することができる。
【００５７】
以上、本発明の好適な実施形態について説明してきたが、本発明はこれらの実施形態に限定されるものではない。例えば、登録テーブル、定型句テーブル及び出力テーブルに格納されるデータは、テキストデータでなく、例えば予め作成されたｗａｖ形式、ｍｐ３形式等の音声信号でもよい。その場合、記憶部には登録テーブルの個人名及び定型句テーブルの各定型句の語句として音声信号を格納しておき、出力音声用情報作成手段は、出力音声用情報として、テキストデータに代えて、これらの音声信号をつなぎ合わせた音声信号を作成する。一方、制御手段は、出力音声用情報作成手段によって作成された音声信号を音声合成手段に送らずにそのままインターフェース部に出力する。
【００５８】
また、短縮音声用情報は、標準音声用情報より短ければどのようなものでもよく、例えば標準音声用情報から個人名と敬称句を省略したテキスト、つまり定型句のみからなるテキストとしてもよい。あるいは、短縮音声用情報の語句は標準音声用情報と同じにしておき、短縮音声用情報による音声信号を公知の音声処理技術を用いて時間的に圧縮し、短縮音声用情報による出力音声の発声速度を標準音声用情報による出力音声の発声速度より速くすることにより短時間に音声出力するようにしてもよい。例えば、音声合成手段は、ＳＯＬＡ（synchronized overlap-add）技術を用いて近傍のフレームデータ間の相関を計算し、もっとも相関の大きい部分にずらしてクロスフェードすることにより、短縮音声用情報による音声信号を時間的に圧縮する。または音声合成手段は、ＰＩＣＯＬＡ（Pointer Interval Controlled OverLap and Add）技術、ＰｈａｓｅＶｏｃｏｄｅｒ技術等を用いて短縮音声用情報による音声信号を時間的に圧縮してもよい。
なおこの変形例において、登録テーブルの個人名及び定型句テーブルの各定型句の語句として音声信号が記憶部に格納されている場合、制御手段は、出力音声用情報作成手段によって作成された（つなぎ合わされた）短縮音声用情報による音声信号を音声合成手段に送る。そして音声合成手段は、受け取った音声信号を時間的に圧縮し、制御手段に送り返す。
【００５９】
また、顔照合手段は、一回の顔照合処理で照合成功と判断しなかった場合に照合失敗と判断するのではなく、複数回の顔照合処理で（複数フレームにわたって）照合成功と判断しなかった場合、またはタイムアウトが発生した場合に照合失敗と判断するようにしてもよい。その場合、図７に示したステップＳ７０７〜Ｓ７１１の処理は、照合成功、照合失敗の何れとも判断されていない入力顔画像については行わないようにする。そのために、顔照合手段は、ステップＳ７０６において照合成功、照合失敗の何れとも判断しなかった入力顔画像については、結果通知を音声判定手段に送らないようにする。
【００６０】
また、例えば、顔画像認証装置は、照合失敗と判断された照合対象者に対しては音声を出力しないようにしてもよい。その場合、音声出力判定手段は、顔照合手段から照合失敗を示す結果通知を受け取っても、未登録者向け音声用情報の作成要求を出力音声用情報作成手段に送らない。従って、この場合、出力音声用情報の情報種別は、標準音声用情報と短縮音声用情報の二つとなる。
【００６１】
また、本実施形態では、音声出力判定手段は、顔画像照合手段から結果通知を受けた時点、つまり顔照合手段が顔照合処理を完了した時点において顔画像認証装置が音声を出力しているか否かにより、出力音声用情報作成手段に作成させる出力音声用情報の種別を決定する例を示したが、本発明はこれに限定されない。音声出力判定手段は、例えば顔照合手段が顔照合処理を開始する時点のように他のタイミングにおいて顔画像認証装置が音声を出力しているか否かにより、出力音声用情報作成手段に作成させる出力音声用情報の種別を決定してもよい。その場合、顔照合手段は顔照合処理を開始する前に音声出力判定手段に開始通知を送り、音声出力判定手段はその開始通知を受けたときに顔画像認証装置が音声を出力中であるか否かを判定しておく。
【００６２】
また、制御手段は、出力テーブルにおいて通知情報が作成された順（照合処理がされた順）に通知情報を格納するのではなく、例えば、標準音声用情報又は短縮音声用情報についての通知情報を、未登録者向け音声用情報についての通知情報より前に格納するように順番を入れ替えてもよい。その場合、制御手段は、出力テーブルに格納された通知情報の順に音声出力すれば、標準音声用情報又は短縮音声用情報による出力音声を未登録者向け音声用情報による出力音声より先に出力することができる。
【００６３】
また、本実施形態では、音声出力判定手段は、顔画像認証装置が音声を出力中であるか否かを、出力テーブルに標準音声用情報又は短縮音声用情報が格納されているか否かにより判定する例を示したが、本発明はこれに限定されない。例えば、音声出力判定手段は、音声出力を開始した時刻及び音声出力に要する時間により、顔画像認証装置が音声を出力中であるか否かを判定してもよい。その場合の出力テーブルの模式図を図１０に示す。図１０に示すように、本変形例の場合の出力テーブル１０００には、図５に示した出力テーブル５００における作成時刻５０５に代えて、出力開始時刻１００５が示される。この出力開始時刻１００５は、制御手段が出力音声用情報１００３による音声信号をインターフェース部に出力した時間であり、制御手段によって記録される。
【００６４】
本変形例の制御手段は、出力音声用情報１００３による音声信号のインターフェース部への出力を開始したとき、そのときの時刻を出力開始時刻１００５に記録する。また制御手段は、出力テーブル１０００に標準音声用情報又は短縮音声用情報を含む通知情報が全く格納されていない状態から新たに格納された標準音声用情報を含む通知情報についての出力開始時刻１００５を標準音声出力開始時刻として記憶部に記録する。
尚、標準音声用情報を記録した後に記録される短縮音声用情報については、音声信号のインターフェース部への出力を開始した時刻は、それより前に記録された出力音声用情報の出力時間に依存するため、出力開始時刻１００５は空白にしておく。又は、実際の音声信号のインターフェース部への出力時間を、後追いの結果として記録してもよい。
一方、音声出力判定手段は、顔照合手段から照合成功又は照合失敗を示す結果通知を受け取ると、記録部から最新の標準音声出力開始時刻を取得する。さらに音声出力判定手段は、その標準音声出力開始時刻に対応する標準音声用情報を含む通知情報の出力時間１００４、及びその標準音声用情報を含む通知情報の作成後に作成した短縮音声用情報を含む全ての通知情報の出力時間１００４を取得する。そして音声出力判定手段は、取得した全ての出力時間１００４の総和（以下、総出力時間と称する）を算出する。
例えば、図１０に示した出力テーブル１０００においては、情報番号１００１が'261'の通知情報における出力開始時刻である'11:31:48'が標準音声出力開始時刻に該当し、情報番号１００１が'261'の通知情報における出力時間１００４である'tg2+tm1+tr2'と、情報番号１００１が'262'の通知情報における出力時間１００４である'tm2+tr1'と、情報番号１００１が'263'の通知情報における出力時間１００４である'tm3+tr3'との総和が総出力時間に該当する。
【００６５】
そして音声出力判定手段は、顔画像照合手段から結果通知を受けた時刻が標準音声出力開始時刻に総出力時間を加えた時刻より前ならば、顔画像認証装置が音声を出力中であると判定して短縮音声用情報の作成要求を出力音声用情報作成手段に送る。一方、音声出力判定手段は、顔画像照合手段から結果通知を受けた時刻が標準音声出力開始時刻に総出力時間を加えた時刻以後ならば、顔画像認証装置が音声を出力中でないと判定して標準音声用情報の作成要求を出力音声用情報作成手段に送る。あるいは、音声出力判定手段は、結果通知ではなく開始通知を顔画像照合手段から受けた時刻が、標準音声出力開始時刻に総出力時間を加えた時刻より前であるか否かに応じて顔画像認証装置が音声を出力中であるか否かを判定してもよい。
また、顔画像認証装置が音声を出力中であるか否かを音声出力を開始した時刻及び音声出力に要する時間により判定できるように、制御手段は、標準音声用情報又は短縮音声用情報から生成した音声信号の出力が完了しても、その標準音声用情報又は短縮音声用情報に対応する通知情報を個別に出力テーブル１０００から削除しない。制御手段は、出力テーブル１０００内の全ての標準音声用情報及び短縮音声用情報から生成した全ての音声の出力が完了したときに、標準音声用情報又は短縮音声用情報を含む全ての通知情報を削除する。あるいは制御手段は、出力テーブル１０００に新たに標準音声用情報を含む通知情報が追加されたときに、それまでに音声出力が完了している標準音声用情報又は短縮音声用情報を含む通知情報を削除する。なお、制御手段は、標準音声用情報又は短縮音声用情報を含む通知情報を削除するときに、あわせて標準音声出力開始時刻も削除してもよい。
この変形例においても、顔画像認証装置は、音声を出力中であるか否かを適切に判定することができ、出力テーブルに出力音声用情報が格納されているか否かにより音声を出力中であるか否かを判定する場合と同様の効果が得られる。また、この変形例の場合、顔画像認証装置は、各出力音声用情報の出力時間に応じて音声出力中であるか否かを判定して出力音声の長さを変える。そのため、例えば出力音声用情報に照合対象者の個人名が含まれる場合のように、照合対象者毎に出力音声用情報の長さが変わる場合でも各照合対象者に対して適切なタイミングで音声を出力することができる。
【００６６】
また、本実施形態では、顔画像認証装置は、各照合対象者に対して照合処理を実施した順に照合結果に応じた音声を出力する例を示したが、本発明はこれに限定されない。例えば、予め、登録者の属性に応じて、音声出力する順序についての優先度を定めておき、顔画像認証装置は、優先度の高い順に各照合対象者に対する音声を出力してもよい。その場合、例えば、属性が「顧客」である登録者の優先度が「高」に定められ、属性が「業者」である登録者の優先度が「中」に定められ、属性が「役員」、「部長」、「担当」のうちの何れか（すなわち「社員」）である登録者の優先度が「低」に定められる。この優先度は、登録者の属性と関連付けて記憶部に記憶される。そして制御手段は、通知情報を出力テーブルに格納するとき、出力テーブルの作成時刻（又は出力開始時刻）及び出力時間から、既に出力テーブルに格納されている標準音声用情報又は短縮音声用情報の通知情報のうち、まだ音声出力が開始されていない通知情報を抽出する。そして制御手段は、抽出した通知情報のうち、新たに格納する通知情報より優先度が低い通知情報より前の位置に新たに通知情報を挿入する。そして制御手段は、出力テーブルに格納されている通知情報の順に出力音声用情報による音声を出力する。これにより、制御手段は、出力テーブルに格納されている、まだ音声出力が開始されていない標準音声用情報又は短縮音声用情報について優先度が高い順に音声を出力することができる。
【００６７】
図１１（ａ）、（ｂ）に登録者の優先度に応じた音声出力の順序変更を説明するための出力テーブルの模式図を示す。まず図１１（ａ）に示すように、出力テーブル１１００には、情報番号１１０１が'131'であり、作成時刻１１０５が'09:15:29'である標準音声用情報の通知情報と、情報番号１１０１が'132'であり、作成時刻１１０５が'09:15:30'である短縮音声用情報の通知情報とが格納されており、これらの属性は「社員」であるとする。このとき、属性が「顧客」である、情報番号１１０１が'133'であり、作成時刻１１０５が'09:15:31'である短縮音声用情報の通知情報が新たに作成されると、制御手段は、図１１（ｂ）に示すように、優先度が「顧客」より低い「社員」である、情報番号１１０１が'132'の通知情報の前に新たに作成された通知情報を挿入する。そして制御手段は、出力テーブル１１００に格納されている通知情報の順に、出力音声用情報を読み出して音声合成手段に音声信号を生成させ、インターフェース部に出力する。なお、出力テーブル１１００の先頭に位置する通知情報は、その出力音声用情報についての出力音声が出力中であると想定されるため、新たに作成された通知情報は、優先度の高さに関わらず、二番目以降に配置されるようにする。つまりこの例では、新たに作成した通知情報は、情報番号１１０１が'131'の通知情報より後ろに挿入される。
【００６８】
なお、優先度に応じて音声出力の順序を入れ替える場合、出力テーブル１１００内の順序は通知情報が作成された順（照合処理がされた順）とし、情報番号１１０１の値を入れ替えるようにしてもよい。その場合、制御手段は、出力テーブル１１００に格納されている順でなく、情報番号１１０１の番号順に出力音声用情報による音声を出力することにより、優先度が高い順に音声を出力することができる。
これにより顔画像認証装置は、顧客等に対する照合結果に応じた音声を優先して早期に出力することができ、きめ細やかに音声出力の順序を制御することができる。
【００６９】
以上のように、当業者は、本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。
【符号の説明】
【００７０】
１顔画像認証装置
２撮像部
３音声出力部
４インターフェース部
５記憶部
６処理部
１１顔検出手段
１２顔追跡手段
１３顔照合手段
１４音声出力判定手段
１５出力音声用情報作成手段
１６制御手段
１７音声合成手段

【特許請求の範囲】
【請求項１】
照合対象者を撮影した入力画像を順次取得する撮像部と、
予め登録者の登録顔画像を記憶する記憶部と、
前記照合対象者に音声を出力する音声出力部と、
前記入力画像が取得される度に前記照合対象者の顔領域の画像を入力顔画像として抽出する顔検出手段と、
前記登録顔画像と前記入力顔画像を照合し、同一人物であるか否かを判定する顔照合手段と、
前記音声出力部が音声を出力中であるか否かを判定する音声出力判定手段と、
前記音声出力判定手段の判定結果に基づいた出力音声用情報を作成する出力音声用情報作成手段と、
前記出力音声用情報から出力音声信号を合成する音声合成手段と、
前記出力音声信号を前記音声出力部から音声出力させる制御手段と
を有する顔画像認証装置であって、
前記出力音声用情報作成手段は、前記出力音声用情報として、
前記顔照合手段による判定の時点で前記音声出力部が音声出力中でない場合には標準音声用情報を作成し、
当該判定の時点で前記音声出力部が音声出力中である場合には前記標準音声用情報よりも短い短縮音声用情報を作成する
ことを特徴とする顔画像認証装置。
【請求項２】
前記記憶部は、認証定型句と、前記登録者の登録顔画像に関連づけて当該登録者の個人名を更に記憶し、
前記出力音声用情報作成手段は、
前記標準音声用情報を、前記認証定型句と、前記顔照合手段にて前記入力顔画像に写っている照合対象者と同一人物であると判定された前記登録者の個人名から作成し、
前記短縮音声用情報を、前記顔照合手段にて前記入力顔画像に写っている照合対象者と同一人物であると判定された前記登録者の個人名から作成する請求項１に記載の顔画像認証装置。
【請求項３】
前記制御手段は、
前記出力音声用情報作成手段が前記出力音声用情報を作成する度に当該出力音声用情報を前記記憶部に記憶する一方で、前記音声出力部が前記出力音声信号の音声出力を完了したときに前記記憶部から当該出力音声信号に対応する前記出力音声用情報を削除し、
前記音声出力判定手段は、
前記記憶部に前記出力音声用情報が記憶されていると、前記音声出力部が音声出力中であると判定し、前記記憶部に前記出力音声用情報が記憶されていないと、前記音声出力部が音声出力中でないと判定する請求項１または２に記載の顔画像認証装置。
【請求項４】
前記記憶部には、前記登録者ごとに属性が記憶されるとともに、当該属性に応じて予め定められた、前記制御部が前記出力音声信号を前記音声出力部に音声出力させる順序を規定する優先度が記憶され、
前記制御手段は、前記記憶部に記憶された前記出力音声用情報のうち、前記音声出力部による音声出力が開始されていない前記出力音声用情報についての前記出力音声信号を前記優先度が高い順に前記音声出力部に音声出力させる請求項３に記載の顔画像認証装置。

【図１】