説明

顔画像認証装置

【課題】複数の利用者に対して順次顔照合するときに、各利用者に対して適切なタイミングで音声を出力する顔画像認証装置を提供する。
【解決手段】顔画像認証装置1は、音声を出力する音声出力部3と、入力画像から入力顔画像を抽出する顔検出手段11と、登録顔画像と入力顔画像を照合し同一人物かを判定する顔照合手段13と、音声出力部が音声出力中かを判定する音声出力判定手段14と、出力音声用情報を作成する出力音声用情報作成手段15と、出力音声用情報から出力音声信号を合成する音声合成手段17と、出力音声信号を音声出力部から音声出力させる制御手段16とを有する。出力音声用情報作成手段は、出力音声用情報として、顔照合手段による判定の時点で、音声出力部が音声出力中でない場合には標準音声用情報を作成し、音声出力中である場合には標準音声用情報より短い短縮音声用情報を作成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、顔画像認証装置に関し、特に、利用者に対して音声を出力する顔画像認証装置に関する。
【背景技術】
【0002】
従来より、企業の居室の入り口などに設置され、通行する利用者(社員等)の顔を撮影した顔画像を予め登録された顔画像と照合することにより、その利用者がその居室に入室可能な人物であるか否かを認証する顔画像認証装置が開発されている。従来の顔画像認証装置は、利用者が居室の入り口の扉の前で一旦立ち止まって暗証番号を入力したときに顔画像を照合していた。しかし近年は、歩行中の利用者の顔を撮影して照合し、利用者が入り口に接近する前に認証する歩行型の顔画像認証装置が開発されている。このような歩行型の顔画像認証装置においては、出勤時のように複数の利用者が次々と居室の入り口に接近する場合、各利用者が入り口に到達する前に認証しなければ、各利用者がスムーズに入室できず、利便性が損なわれることになる。
そこで、特許文献1には、通行人数に応じて顔照合処理の精度を変更して顔照合処理の時間を短くする人物認識装置が提案されている。この人物認識装置は、入力画像中の顔の数を計算し、その顔の数に応じて顔照合処理における顔画像の解像度、照合対象領域等を変更することにより、通行人数が多いほど1名当たりの顔照合処理の時間が短くなるように制御している。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−156541号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載された人物認識装置は、通行人数が多い場合に1名当たりの顔照合処理の時間を低減することができ、各利用者はスムーズに入室することができる。しかしながら、歩行型の顔画像認証装置において、例えば利用者に対して顔照合処理の結果に応じた音声を出力しようとする場合、一般に顔照合処理にかかる時間と比較して顔照合処理の結果に応じた音声を出力する時間は非常に長くなる。そのため、複数の利用者が同時に通行する場合に、各利用者の顔照合処理にかかる時間を短くしても、各利用者に対する音声出力が完了するまでの時間に対する影響は小さく、各利用者が入室するまでに音声の出力が間に合わないおそれがある。
【0005】
そこで、本発明の目的は、複数の利用者に対して順次照合するとともに各利用者に対する音声を出力する際に各利用者に対する音声の出力タイミングを最適化することが可能な顔画像認証装置を提供することにある。
【課題を解決するための手段】
【0006】
かかる課題を解決するための本発明は、照合対象者を撮影した入力画像を順次取得する撮像部と、予め登録者の登録顔画像を記憶する記憶部と、照合対象者に音声を出力する音声出力部と、入力画像が取得される度に照合対象者の顔領域の画像を入力顔画像として抽出する顔検出手段と、登録顔画像と入力顔画像を照合し、同一人物であるか否かを判定する顔照合手段と、音声出力部が音声を出力中であるか否かを判定する音声出力判定手段と、音声出力判定手段の判定結果に基づいた出力音声用情報を作成する出力音声用情報作成手段と、出力音声用情報から出力音声信号を合成する音声合成手段と、出力音声信号を音声出力部から音声出力させる制御手段とを有する顔画像認証装置を提供する。係る顔画像認証装置において、出力音声用情報作成手段は、出力音声用情報として、顔照合手段による判定の時点で音声出力部が音声出力中でない場合には標準音声用情報を作成し、当該判定の時点で音声出力部が音声出力中である場合には標準音声用情報よりも短い短縮音声用情報を作成する。
【0007】
また、本発明に係る顔画像認証装置において、記憶部は、認証定型句と、登録者の登録顔画像に関連づけて当該登録者の個人名を更に記憶し、出力音声用情報作成手段は、標準音声用情報を、認証定型句と、顔照合手段にて入力顔画像に写っている照合対象者と同一人物であると判定された登録者の個人名から作成し、短縮音声用情報を、顔照合手段にて入力顔画像に写っている照合対象者と同一人物であると判定された登録者の個人名から作成することが好ましい。
【0008】
また、本発明に係る顔画像認証装置において、制御手段は、出力音声用情報作成手段が出力音声用情報を作成する度に当該出力音声用情報を記憶部に記憶する一方で、音声出力部が出力音声信号の音声出力を完了したときに記憶部から当該出力音声信号に対応する出力音声用情報を削除し、音声出力判定手段は、記憶部に出力音声用情報が記憶されていると、音声出力部が音声出力中であると判定し、記憶部に出力音声用情報が記憶されていないと、音声出力部が音声出力中でないと判定することが好ましい。
【0009】
また、本発明に係る顔画像認証装置において、記憶部には、登録者ごとに属性が記憶されるとともに、当該属性に応じて予め定められた、制御部が出力音声信号を音声出力部に音声出力させる順序を規定する優先度が記憶され、制御手段は、記憶部に記憶された出力音声用情報のうち、音声出力部による音声出力が開始されていない出力音声用情報についての出力音声信号を優先度が高い順に音声出力部に音声出力させることが好ましい。
【発明の効果】
【0010】
本発明に係る顔画像認証装置は、複数の利用者に対して順次照合するとともに各利用者に対する音声を出力する際に各利用者に対する音声の出力タイミングを最適化することができるため、各利用者が、自分に向けて出力された音声を聞くことで、自分が認証されたことを認識でき、使用感が向上するという効果を奏する。
【図面の簡単な説明】
【0011】
【図1】本発明を適用した顔画像認証装置の概略構成図である。
【図2】顔画像認証装置がオフィスビルの入り口に設置される場合の撮像部の設置例を表す模式図である。
【図3】登録テーブルの模式図である。
【図4】(a)は、顔画像認証装置が設置された通路に複数の利用者が離散的に通行する場合の入力画像と出力音声の関係を示す模式図であり、(b)は、顔画像認証装置が設置された通路に複数の利用者が連続的に通行する場合の入力画像と出力音声の関係を示す模式図である。
【図5】出力テーブルの模式図である。
【図6】定型句テーブルの模式図である。
【図7】顔画像認証装置による通知情報の登録処理の動作を示すフローチャートである。
【図8】顔画像認証装置による音声の出力処理の動作を示すフローチャートである。
【図9】本実施形態の顔画像認証装置が設置された通路に複数の利用者が連続的に通行する場合の入力画像と出力音声の関係を示す模式図である。
【図10】本発明の変形例における出力テーブルの模式図である。
【図11】(a)、(b)は、登録者の優先度に応じた音声出力の順序変更を説明するための出力テーブルの模式図である。
【発明を実施するための形態】
【0012】
以下、本発明の一実施形態である顔画像認証装置について図を参照しつつ説明する。
本発明を適用した顔画像認証装置は、複数の照合対象者に対して順次照合し、その照合結果に応じた音声を各照合対象者に対して出力する。そして顔画像認証装置は、照合対象者の照合が完了したとき既に顔画像認証装置が音声を出力中である場合、新たに出力する出力音声を通常の出力音声より短くする。これにより、顔画像認証装置は、複数の照合対象者に対する音声の出力タイミングを最適化できるようにすることを図る。
【0013】
図1は、本発明を適用した顔画像認証装置1の概略構成を示す図である。図1に示すように、顔画像認証装置1は、撮像部2と、音声出力部3と、インターフェース部4と、記憶部5と、処理部6とを有する。以下、顔画像認証装置1の各部について詳細に説明する。
【0014】
撮像部2は、顔画像認証装置1が運用される環境に応じて、照合対象者の顔を撮影できるように設置される。そして撮像部2は、照合対象者が写った画像を入力画像として生成する。そのために、撮像部2は、例えば、CCDまたはCMOSといった固体撮像素子の2次元アレイ上に照合対象者の顔の像を結像する光学系を備えたカメラを有する。
撮像部2は、生成した入力画像をインターフェース部4へ出力する。
【0015】
なお、撮像部2は、入力画像として、カラーの多階調画像を作成するものであってもよく、あるいは、近赤外域に感度を有し、グレー画像を作成するカメラであってもよい。また撮像部2が有する撮像素子アレイは、入力画像に写っている照合対象者の顔の目、鼻、口などの顔特徴が区別できる程度の画素数を有することが好ましい。
【0016】
図2に、顔画像認証装置1がオフィスビルの入り口に設置される場合の撮像部2の設置例を模式的に示す。図2に示すように、例えば、顔画像認証装置1がオフィスビルの入り口200に設置される場合、撮像部2は、入り口200に通じる通路を監視領域に含むよう、入り口200が設置された壁の上方または天井に、撮影方向をやや下方へ向け、その通路側へ向けた状態で取り付けられる。これにより撮像部2は、入り口200に向かう(進行方向201へ向かう)照合対象者202〜204を所定の時間間隔(例えば、200msec)で撮像することができる。
【0017】
音声出力部3は、例えばスピーカであり、インターフェース部4と接続され、インターフェース部4から受け取った音声信号に応じた音声を発し、照合対象者に報知する。図2に示すように、音声出力部3は、入り口200が設置された壁の上方または天井の、撮像部2の近傍に設置され、音声の出力方向をやや下方へ向け、その通路側へ向けた状態で取り付けられる。また音声出力部3は、出力する音声が照合対象者に聞こえるように、適切な音量で音声出力するように調整される。
【0018】
インターフェース部4は、撮像部2及び音声出力部3と接続されるインターフェース回路であり、例えば、ビデオインターフェース及びオーディオインターフェースあるいはユニバーサル・シリアル・バスといったシリアルバスに準じるインターフェース回路を有する。そしてインターフェース部4は、撮像部2から受け取った入力画像を処理部6に渡し、処理部6から受け取った音声信号を音声出力部3に渡す。
【0019】
記憶部5は、半導体メモリ、磁気記録媒体及びそのアクセス装置並びに光記録媒体及びそのアクセス装置のうちの少なくとも一つを有する。そして記憶部5は、顔画像認証装置1を制御するためのコンピュータプログラム、各種パラメータ及びデータなどを記憶する。また記憶部5は、登録者ごとの登録情報を格納する登録テーブルと、顔画像認証装置1が出力する音声の定型句の情報を格納する定型句テーブルと、顔画像認証装置1が出力すべき音声に関する情報を管理する出力テーブルとを記憶する。また記憶部5は、登録テーブル内に登録者の顔画像に関するデータである顔データを記憶する。これらの登録テーブル、定型句テーブル及び出力テーブルの詳細については後述する。
【0020】
処理部6は、1個または複数個のプロセッサ及びその周辺回路を有する。そして処理部6は、照合対象者に対する顔照合処理を実行するとともに、その照合した結果に応じた音声の出力を制御する。そのために、処理部6は、そのプロセッサ上で動作するソフトウェアにより実装される機能モジュールとして、顔検出手段11と、顔追跡手段12と、顔照合手段13と、音声出力判定手段14と、出力音声用情報作成手段15と、制御手段16と、音声合成手段17とを有する。
なお、処理部6が有するこれらの各部は、独立した集積回路、ファームウェア、マイクロプロセッサなどで構成されてもよい。
以下、処理部6の各部について詳細に説明する。
【0021】
顔検出手段11は、入力画像が取得される度に、入力画像から、照合対象者の顔が写っている領域である入力顔領域を検出し、入力画像からその領域を切り出して入力顔画像を作成する。そのために、顔検出手段11は、例えば、入力画像からsobelフィルタなどのエッジ検出フィルタを用いてエッジ画素を検出する。そして顔検出部21は、検出されたエッジ画素を一般化ハフ変換することにより人の顔の輪郭らしい楕円状の輪郭を検出し、その輪郭で囲まれた領域を入力顔領域とする。
あるいは顔検出手段11は、Adaboost識別器を用いて入力顔領域を検出してもよい。この方法についてはP.Violaと M.Jonesによる論文「Rapid Object Detection Using a Boosted Cascade of Simple Features」(Proc. the IEEE International Conference on Computer Vision and Pattern Recognition, vol.1, pp.511-518, 2001)を参照することができる。その場合、Adaboost識別器には、人の顔が写っている複数のサンプル画像と人の顔が写っていない複数のサンプル画像を用いて、顔が写っている画像に対して顔が写っているとの識別結果を出力し、顔が写っていない画像に対しては顔が写っていないとの識別結果を出力するように事前に学習させておく。そして顔検出手段11は入力画像内の所定の大きさの領域を、その位置をずらしながら切り出してAdaboost識別器に入力し、その領域内に顔が写っているか否かの識別結果を得ることにより、入力顔領域を検出する。
なお、入力画像中に複数の照合対象者が写っている場合には、顔検出手段11は、各照合対象者毎に入力顔領域を検出し、入力顔画像を作成する。
顔検出手段11は、入力画像上で入力顔領域の検出に成功すると、入力顔領域を表す情報を顔追跡手段12へ通知する。
【0022】
顔追跡手段12は、所定の時間間隔で連続して取得される複数の入力画像にわたって顔検出手段11から検出された入力顔領域に対して公知のトラッキング技術を利用して追跡処理を行い、同一人物の顔が写っている入力顔領域を対応付ける。
例えば、顔追跡手段12は、最新の入力画像から検出された入力顔領域(以降、現フレームの入力顔領域と称する)の重心位置と、1フレーム前の入力画像から検出された入力顔領域(以降、前フレームの入力顔領域と称する)の重心位置の距離を求めて、その距離が所定の閾値以下である場合に、その入力顔領域を同一人物によるものとして対応付ける。なお、照合対象者が撮像部2から離れているときに一定の距離を移動した場合と撮像部2の近くにいるときに同じ距離を移動した場合とでは、その移動の前後において入力画像における入力顔領域の位置の差は異なる。そのため、例えば所定の閾値を入力顔領域の大きさとすることにより、監視領域内の照合対象者の位置にかかわらず、現フレームの入力顔領域と前フレームの入力顔領域のそれぞれに写っている人物が同一人物であるか否かを適切に評価することができる。また顔追跡手段12は、複数の入力顔領域が抽出されている場合には、重心位置の距離が最も近い入力顔領域どうしが対応づくか否かを調べる。
あるいは、顔追跡手段12は、オプティカルフロー、パーティクルフィルタ等の方法を用いて入力顔領域の追跡処理を行ってもよい。
【0023】
前フレームの入力顔領域と対応付けることができなかった入力顔領域は、新規の照合対象者に対応する入力顔領域とされ、以降の追跡処理の対象となる。また現フレームの全ての入力顔領域と対応付けることができなかった前フレームの入力顔領域は、以降の追跡処理の対象から除外される。
【0024】
顔照合手段13は、顔追跡手段12によって追跡処理の対象となっている入力顔領域のうち、その入力顔領域から切り出された入力顔画像がまだ照合されていなければ、記憶部5に記憶された登録テーブルの各登録顔画像と照合し、同一人物によるものか否かを判定する。
【0025】
図3は、記憶部5に記憶される、登録者ごとの登録情報を格納する登録テーブルの模式図である。図3に示された登録テーブル300において、一つの行が一人の登録者に対応する。
そして左端の列の各欄には、登録者の識別情報301が示される。識別情報301は、例えば、登録者のユーザ名、ユーザ識別番号またはパスワードである。あるいは、識別情報301は、社員番号又は連続した正の整数のように登録者を一意に特定できるものであればどのようなものでもよい。また左から2番目の列の各欄には、顔データ302が格納される。顔データ302は、登録者の顔画像に関するデータであり、本実施形態では、顔データ302として登録顔画像が記憶される。
【0026】
顔照合手段13は、照合処理として、公知の様々な照合方法を用いることができる。例えば、顔照合手段13は、顔抽出手段11によって抽出された入力顔画像と登録顔画像のパターンマッチングを行う。顔照合手段13は、入力顔画像と登録顔画像の位置をずらしながら入力顔画像の各画素と登録顔画像の対応画素の輝度値の差の二乗和を算出し、算出した二乗和のうち最も小さいものを入力顔画像に含まれる画素数で割って正規化した値の逆数を類似度として求める。そして顔照合手段13は、各登録顔画像について求めた類似度のうち、最も高い類似度が所定の照合閾値を超える場合、その入力顔画像に写っている照合対象者を、類似度が最も高い値を有する登録顔画像により登録された登録者である(照合成功)と判断する。一方、顔照合手段13は、何れの類似度も所定の照合閾値を超えない場合、入力顔画像に写っている照合対象者は登録者ではない(照合失敗)と判断する。なおこの照合閾値は、顔画像認証装置1が設置される環境、目的などに応じて適宜定められる。
【0027】
あるいは、顔照合手段13は、顔の特徴的な部分である顔特徴点により類似度を求めてもよい。その場合、顔照合手段13は、入力顔画像及び登録顔画像から両目尻、両目領域中心、鼻尖点、口点、口角点などの顔特徴点を複数抽出する。例えば、顔照合手段13は、入力顔画像及び登録顔画像に対してエッジ抽出処理を行って周辺画素との輝度差が大きいエッジ画素を抽出する。そして顔照合手段13は、エッジ画素の位置、パターンなどに基づいて求めた特徴量が、両目尻、両目領域中心、鼻尖点、口点、口角点などの部位について予め定められた条件を満たすか否かを調べて各部位の位置を特定することにより、顔特徴点として抽出する。そして顔照合手段13は、抽出した顔特徴点毎に入力顔画像及び登録顔画像上の各顔特徴点の位置情報(例えば、入力顔画像及び登録顔画像の左上端部を原点とする2次元座標値)を算出する。そして顔照合手段13は、入力顔画像及び登録顔画像の対応する特徴点間の距離の総和を位置ずれ量として求め、その位置ずれ量の逆数を類似度とする。
あるいは、顔照合手段13は、抽出した顔特徴点毎にその顔特徴点の近傍の局所領域について輝度又は色差の平均値を算出する。その場合、顔照合手段13は、入力顔画像及び登録顔画像の対応する局所領域毎に、算出した平均値の差の絶対値を求め、その総和の逆数を類似度としてもよい。この場合、登録テーブル300の顔データ302は、登録顔画像に代えて予め登録顔画像について算出された、顔特徴点毎の特徴量(顔特徴点の位置情報、顔特徴点の近傍の局所領域の輝度又は閾値の平均値等)としてもよい。
【0028】
顔照合手段13は、照合対象者が登録者であると判定すると、照合成功を示す結果通知を音声出力判定手段14に送り、照合対象者が登録者でないと判定すると、照合失敗を示す結果通知を音声出力判定手段14に送る。
【0029】
音声出力判定手段14は、顔照合手段13から照合成功又は照合失敗を示す結果通知を受け取ると、音声出力部3に出力させる音声の語句をテキストデータで示した出力音声用情報の作成要求を出力音声用情報作成手段15に送る。
まず、照合対象者が照合成功となったときに顔画像認証装置1が出力する出力音声の語句を定型句「お疲れ様です」及び照合対象者の個人名とした場合について、顔画像認証装置が設置された通路に複数の利用者が通行する例を用いて説明する。図4(a)に、顔画像認証装置1が設置された通路に複数の利用者が離散的に通行する場合の入力画像と出力音声の関係の例を示す。図4(a)において、画像400は時刻tにおける入力画像であり、画像401は時刻t+1における入力画像であり、画像402は時刻t+2における入力画像であり、画像403は時刻t+3における入力画像であり、画像404は時刻t+4における入力画像である。図4(a)に示す例では、時刻tにおける入力画像400に人物410(A役員)が写っている。そのため、この顔画像認証装置は時刻tにおいて照合処理を行い、照合結果に応じた出力音声「お疲れ様です、A役員」を時刻tから出力する。そして、時刻t+2においては、入力画像402に照合対象者が存在しないため、音声は出力されない。そして時刻t+3における入力画像403には新たに人物411(Bさん)が写っている。そのため、顔画像認証装置は時刻t+3において照合処理を行い、照合結果に応じた出力音声「お疲れ様です、Bさん」を時刻t+3から出力する。
【0030】
一方、図4(b)に、顔画像認証装置1が設置された通路に複数の利用者が連続的に通行する場合の入力画像と出力音声の関係の例を示す。図4(b)において、画像420は時刻tにおける入力画像であり、画像421は時刻t+1における入力画像であり、画像422は時刻t+2における入力画像であり、画像423は時刻t+3における入力画像であり、画像424は時刻t+4における入力画像である。図4(b)に示す例では、時刻tにおける入力画像420に人物410(A役員)が写っている。そのため、この顔画像認証装置は時刻tにおいて照合処理を行い、照合結果に応じた出力音声「お疲れ様です、A役員」を時刻tから出力する。一方、時刻t+1における入力画像421には新たに人物411(Bさん)が写っている。この場合、顔画像認証装置は時刻t+1において照合処理を行うが、時刻t+1においては音声を出力中であるため、出力音声「お疲れ様です、Bさん」を出力することができない。そのため、顔画像認証装置は出力音声「お疲れ様です、A役員」の出力が完了した後、時刻t+2から出力音声「お疲れ様です、Bさん」を出力する。しかし、時刻t+3には人物411(Bさん)は既に入室しており、人物411(Bさん)の入室までに音声出力を完了させることができない。また、時刻t+2における入力画像422には新たに人物412(Cさん)が写っている。この場合、顔画像認証装置は時刻t+2において照合処理を行うが、時刻t+2においては音声を出力中であるため、出力音声「お疲れ様です、Cさん」を出力することができない。そのため、顔画像認証装置は出力音声「お疲れ様です、Bさん」の出力が完了した後、時刻t+4から出力音声「お疲れ様です、Cさん」を出力する。しかし、時刻t+4には人物412(Cさん)は既に入室しており、人物412(Cさん)の入室までに音声を出力することができない。
【0031】
このように、音声出力処理は、一般に照合処理よりも長時間を要し、多数の利用者が連続して照合された場合には、全員に対する音声の出力が間に合わない場合がある。従って、複数の利用者が連続して通行している場合には、二人目以降の照合対象者に対する出力音声は、一人目の照合対象者に対する出力音声より短くすることが好ましい。
そこで本実施形態の音声出力判定手段14は、音声出力部3が音声を出力中であるか否かを判定する。そして音声出力判定手段14は、音声出力部3が音声を出力中でない場合には通常通りの出力音声用情報(以下、標準音声用情報と称する)を出力音声用情報作成手段15に作成させるために標準音声用情報の作成要求を出力音声用情報作成手段15に送る。一方、音声出力判定手段14は、音声出力部3が音声を出力中である場合には標準音声用情報より短い出力音声用情報(以下、短縮音声用情報と称する)を出力音声用情報作成手段15に作成させるために短縮音声用情報の作成要求を出力音声用情報作成手段15に送る。
例えば、図4(b)に示した例では、音声出力部3は、出力音声「お疲れ様です、A役員」、「お疲れ様です、Bさん」、「お疲れ様です、Cさん」を順次出力している。この出力音声のうち「お疲れ様です」の部分は、定型句であり、図4(b)のように、照合対象者が連続する場合は、先頭の一人分について出力すれば十分な面がある一方で、出力するだけの時間がかかるため、全員分を出力しきれない原因となっている。そこで、本実施形態の出力音声用情報作成手段15は、標準音声用情報から定型句を省略したテキストを短縮音声用情報として作成する。
また、顔照合手段13から受け取った結果通知が照合失敗を示す場合は、照合対象者を特定できないため、出力音声用情報に個人名を含ませることができない。そのため、この場合、音声出力判定手段14は、未登録者向けの定型句のみからなる出力音声用情報(以下、未登録者向け音声用情報と称する)を出力音声用情報作成手段15に作成させるために未登録者向け音声用情報の作成要求を出力音声用情報作成手段15に送る。
【0032】
また、音声出力判定手段14は、音声出力部3が音声を出力中であるか否かを記憶部5に記憶された出力テーブルに出力音声用情報が格納されているか否かにより判定する。つまり、音声出力判定手段14は、出力テーブルに出力音声用情報が格納されている場合は、音声出力部3が音声を出力中であると判定し、出力音声用情報が格納されていない場合は、音声出力部3が音声出力中でないと判定する。
図5は、記憶部5に記憶される出力テーブルの模式図である。図5に示された出力テーブル500において、一つの行が顔追跡手段12により追跡処理がされている一人の照合対象者に対応する。この出力テーブルの各行の情報は、照合対象者の照合処理が完了し、出力音声用情報作成手段15によってその照合結果に応じた出力音声用情報が作成されたときに制御手段16によって追加される。また、この出力テーブルの各行の情報は、出力音声用情報から合成された音声信号がインターフェース部4に出力され終わったときに制御手段16によって削除される。従って、出力テーブル500に出力音声用情報が格納されていない場合には、音声出力部3が音声を出力中でないと判断することができる。
なお、上述した通り、出力音声用情報作成手段15は、標準音声用情報から定型句を省略したテキストを短縮音声用情報として作成する。そのため、短縮音声用情報に示される語句を音声出力するためには、その直前に標準音声用情報に示される語句が音声出力されていること、又は標準音声用情報に示される語句に続けて短縮音声用情報に示される語句が音声出力されていることが好ましい。そこで、本実施形態の音声出力判定手段14は、出力テーブル500に未登録者向け音声用情報しか格納されていない場合、つまり標準音声用情報又は短縮音声用情報が格納されていない場合は、標準音声用情報の作成要求を出力音声用情報作成手段15に送る。
【0033】
出力音声用情報作成手段15は、音声出力判定手段14から受け取った作成要求に従って出力音声用情報を作成する。
以下に、出力音声用情報作成手段15が作成する出力音声用情報について説明するために、登録テーブル及び定型句テーブルに格納される情報について説明する。
図3に示した登録テーブル300において、左から3番目の列の各欄には、登録者の個人名303が示される。個人名303は、登録者の本名、名字、通称名などであり、テキストデータとして格納される。また個人名303として名字を用いる場合、同じ名字の登録者が複数いる場合に限り氏名を記録しておくようにしてもよい。
そして左から4番目の列の各欄には、登録者の属性304が示される。属性304は、社員、業者、顧客等を識別するためのものであり、属性304が社員である場合には、さらに役員、部長、担当等の役職により識別される。
そして左から5番目の列の各欄には、登録者の個人名303を音声で出力するときに要する出力時間を示す個人名時間長305が示される。例えば、個人名時間長305は、その個人名303を音声にした音声データを作成し、音声再生に要する時間を計測することにより求めることができる。あるいは、個人名時間長305は、その個人名303を平仮名表記したときの文字数により定めてもよい。また、処理を容易にするために、最も長い個人名303を音声で出力するときに要する出力時間を全ての登録者の個人名時間長305として共通に適用してもよい。
【0034】
登録テーブル300において、例えば、一番上の行には、その登録者についての識別情報301が'1'であること、個人名303が「A」であること、属性304が「役員」であること、及び個人名時間長305が'tm1'であることが示されている。また、上から二番目の行には、その登録者についての識別情報301が'2'であること、個人名303が「B」であること、属性304が「担当」であること、及び個人名時間長305が'tm2'であることが示されている。また、上から三番目の行には、その登録者についての識別情報301が'3'であること、個人名303が「C」であること、属性304が「部長」であること、及び個人名時間長305が'tm3'であることが示されている。また、上から四番目の行には、その登録者についての識別情報301が'4'であること、個人名303が「D」であること、属性304が「顧客」であること、及び個人名時間長305が'tm4'であることが示されている。また、上から五番目の行には、その登録者についての識別情報301が'5'であること、個人名303が「E」であること、属性304が「業者」であること、及び個人名時間長305が'tm5'であることが示されている。
【0035】
図6は、記憶部5に記憶される、音声出力部3が出力する音声の定型句の情報を格納する定型句テーブルの模式図である。図6に示すように、定型句テーブル600の左端の各欄には、定型句種別601が示される。本実施形態では定型句種別601として、照合対象者の照合が成功したときの出力音声の語句のうち定型句の部分である認証定型句611と、照合対象者の照合が失敗したときの出力音声の語句のうち定型句の部分である非認証定型句612と、出力音声の語句のうち照合対象者の個人名の後に続ける部分である敬称句613とが登録されている。本実施形態において、認証定型句611、非認証定型句612及び敬称句613は、テキストデータで管理される。
また左から2番目の列の各欄には、定型句として登録された語句602が示される。語句602は、テキストデータとして格納される。認証定型句611の語句として「おはようございます」、「お疲れ様です」、「お疲れ様でした」、「いらっしゃいませ」が登録されている。例えば、照合対象者の属性304が「顧客」である場合には「いらっしゃいませ」が用いられ、照合対象者の属性304が「役員」、「部長」、「担当」、「業者」のうちの何れかである場合には、午前中は「おはようございます」、午後の業務時間中は「お疲れ様です」、業務時間後は「お疲れ様でした」が用いられるのが好ましい。
【0036】
また、非認証定型句612の語句として「ご来館ありがとうございます」、「ご用の方は内線電話にて呼び出してください」、「カード操作をしてください」が登録されている。例えば、照合対象者が顧客である場合には「ご来館ありがとうございます」、「ご用の方は内線電話にて呼び出してください」等が用いられるのが好ましい。一方、照合対象者が社員のみであり、顧客がほとんど来ることのない場所に顔画像認証装置1が設置され、かつ顔画像認証装置1とは別にIDカードによる認証装置が備えられている場合には、「カード操作をしてください」が用いられるのが好ましい。
また、敬称句613の語句として「さん」、「役員」、「部長」、「様」が登録されている。例えば、照合対象者が顧客又は業者である場合には「様」が用いられ、照合対象者が顧客である場合には役職に応じて「役員」、「部長」、「さん」が用いられるのが好ましい。あるいは、処理を容易にするために、全ての照合対象者に共通に「さん」を用いるようにしてもよい。
【0037】
そして、左から3番目の列の各欄には、各定型句の語句を音声で出力するときに要する出力時間を示す時間長603が示される。例えば、各時間長603は、各定型句の語句を音声にした音声データを作成し、音声再生に要する時間を計測することにより求めることができる。あるいは、各時間長603は、その語句を平仮名表記したときの文字数により定めてもよい。また、処理を容易にするために、各種別において最も長い語句を音声で出力するときに要する出力時間をその種別の全ての語句の時間長603として共通に適用してもよい。以下、認証定型句611の時間長603を認証定型句時間長と称し、非認証定型句612の時間長603を非認証定型句時間長と称し、敬称句613の時間長603を敬称句時間長と称する。
例えば、認証定型句611については、「おはようございます」の認証定型句時間長は'tg1'であり、「お疲れ様です」の認証定型句時間長は'tg2'であり、「お疲れ様でした」の認証定型句時間長は'tg3'であり、「いらっしゃいませ」の認証定型句時間長は'tg4'であることが示されている。また、非認証定型句612については、「ご来館ありがとうございます」の非認証定型句時間長は'tn1'であり、「ご用の方は内線電話にて呼び出してください」の非認証定型句時間長は'tn2'であり、「カード操作をしてください」の認証定型句時間長は'tn3'であることが示されている。また、敬称句613については、「さん」の敬称句時間長は'tr1'であり、「役員」の敬称句時間長は'tr2'であり、「部長」の敬称句時間長は'tr3'であり、「様」の敬称句時間長は'tr4'であることが示されている。
【0038】
なお、図6に示した認証定型句611、非認証定型句612、敬称句613は、それぞれ例示であり、顔画像認証装置1の設置場所、運用方針、管理者の嗜好等に応じて語句を変更したり、増減してもよい。
【0039】
以下、出力音声用情報作成手段15が作成する出力音声用情報について説明する。出力音声用情報作成手段15は、出力音声用情報として、音声出力判定手段14から受け取った作成要求に従って標準音声用情報、短縮音声用情報又は未登録者向け音声用情報を作成する。出力音声用情報作成手段15は、標準音声用情報を作成する場合、認証定型句611と個人名303と敬称句613とから出力音声用情報を作成する。例えば、午後の業務時間中に識別情報301が'1'の登録者であると認証された照合対象者に対する標準音声用情報は「お疲れ様です、A役員」となる。
一方、出力音声用情報作成手段15は、短縮音声用情報を作成する場合、個人名303と敬称句613のみから出力音声用情報を作成する。例えば、午後の業務時間中に識別情報301が'1'の登録者であると認証された照合対象者に対する短縮音声用情報は「A役員」となる。短縮音声用情報は、認証定型句611がない分、標準音声用情報よりも短くなり、短縮音声用情報に示される語句の音声出力は、標準音声用情報に示される語句の音声出力よりも短時間に行われる。
また、出力音声用情報作成手段15は、未登録者向け音声用情報を作成する場合、非認証定型句612のうちの何れかの語句を選択して出力音声用情報を作成する。非認証定型句612から選択される語句は、例えば、顔画像認証装置1の設置場所、運用方針等に応じて定められる。
出力音声用情報作成手段15は、出力音声用情報を作成すると、作成した出力音声用情報を制御手段16に送る。
【0040】
制御手段16は、出力音声用情報作成手段15が作成した出力音声用情報を記憶部5の出力テーブル500に格納する。上述した通り、音声出力部3は、ある照合対象者に対する照合が完了したときに、その前に照合した照合対象者に対して音声を出力している場合がある。この場合、音声出力部3は、現在の音声出力が完了しなければ、次の照合対象者に対する音声を出力することができない。そこで、制御手段16は、出力音声用情報作成手段15から出力音声用情報を取得すると、取得した出力音声用情報を一旦、記憶部5の出力テーブル500に格納する。
【0041】
以下、図5に示した出力テーブル500について説明する。上述した通り、出力テーブル500において、一つの行が顔追跡手段12により追跡処理がされている一人の照合対象者に対応する。以下、一つの行に示される情報を通知情報と称する。
そして左端の列の各欄には、情報番号501が示される。この情報番号501は、通知情報毎、つまり照合対象者毎に付与される識別番号である。例えば、情報番号501は、通知情報が追加される毎にインクリメントされる連続した正の整数である。
また左から2番目の列の各欄には、情報種別502が示される。この情報種別502は、出力音声用情報が、標準音声用情報であるか、短縮音声用情報であるか、又は未登録者向け音声用情報であるかを区別する情報である。
また左から3番目の列の各欄には、出力音声用情報503が格納される。
また左から4番目の列の各欄には、出力時間504が示される。この出力時間504は、出力音声用情報503に示される語句を音声出力するのに要する時間である。つまり情報種別502が標準音声用情報である場合、出力時間504は、認証定型句時間長と個人名時間長305と敬称句時間長の和となる。一方、情報種別502が短縮音声用情報である場合、出力時間504は、個人名時間長305と敬称句時間長の和となる。また、情報種別502が未登録者向け音声用情報である場合、出力時間504は、非認証定型句時間長となる。
また左から5番目の列の各欄には、作成時刻505が示される。この作成時刻505は、各通知情報が作成され、出力テーブル500に記録された時刻である。
【0042】
例えば、出力テーブル500に通知情報が存在しておらず、直前に存在していた通知情報の情報番号501が'260'である場合において、午後の業務時間中に識別情報301が'1'の登録者について照合が成功したものとする。その場合、出力テーブル500に標準音声用情報又は短縮音声用情報を含む通知情報が存在していないので、音声出力判定手段14は、出力音声用情報作成手段15に識別情報301が'1'の登録者に対する標準音声用情報の作成要求を送る。音声出力判定手段14から作成要求を受けると、出力音声用情報作成手段15は、認証定型句「お疲れ様です」と、識別情報301が'1'の登録者の個人名「A」と、識別情報301が'1'の登録者の敬称句「役員」とを組み合わせて標準音声用情報「お疲れ様です、A役員」を作成する。出力音声用情報作成手段15からこの標準音声用情報を受けると、制御手段16は、出力テーブル500に、情報番号501を'261'とし、情報種別502を「標準音声用情報」とし、出力音声用情報503を「お疲れ様です、A役員」とする通知情報を追加する。さらに制御手段16は、その通知情報の出力時間504に「お疲れ様です」の認証定型句時間長'tg2'と、個人名「A」の個人名時間長'tm1'と、敬称句「役員」の敬称句時間長'tr2'の総和'tg2+tm1+tr2'を記録し、作成時刻505に現在時刻'11:31:48'を記録する。
【0043】
さらにこの状態から、識別情報301が'2'の登録者について照合が成功した場合、出力テーブル500には標準音声用情報を含む通知情報が存在するので、音声出力判定手段14は、出力音声用情報作成手段15に識別情報301が'2'の登録者に対する短縮音声用情報の作成要求を送る。音声出力判定手段14から作成要求を受けると、出力音声用情報作成手段15は、識別情報301が'2'の登録者の個人名「B」と、識別情報301が'2'の登録者の敬称句「さん」とを組み合わせて短縮音声用情報「Bさん」を作成する。出力音声用情報作成手段15からこの短縮音声用情報を受けると、制御手段16は、出力テーブル500に、情報番号501を'262'とし、情報種別502を「短縮音声用情報」とし、出力音声用情報503を「Bさん」とする通知情報を追加する。さらに制御手段16は、その通知情報の出力時間504に個人名「B」の個人名時間長'tm2'と、敬称句「さん」の敬称句時間長'tr1'の総和'tm2+tr1'を記録し、作成時刻505に現在時刻'11:31:49'を記録する。
さらにこの状態から、識別情報301が'3'の登録者について照合が成功した場合、識別情報301が'2'の登録者の場合と同様に、制御手段16は、出力テーブル500に、情報番号501を'263'とし、情報種別502を「短縮音声用情報」とし、出力音声用情報503を「C部長」とする通知情報を追加する。さらに制御手段16は、その通知情報の出力時間504に個人名「C」の個人名時間長'tm3'と、敬称句「部長」の敬称句時間長'tr3'の総和'tm2+tr1'を記録し、作成時刻505に現在時刻'11:31:50'を記録する。
【0044】
さらにこの状態で、照合対象者の照合が失敗になった場合、音声出力判定手段14は、出力音声用情報作成手段15に未登録者向け音声用情報の作成要求を送る。音声出力判定手段14から作成要求を受けると、出力音声用情報作成手段15は、未登録者向け音声用情報「ご来館ありがとうございます」を作成する。出力音声用情報作成手段15からこの未登録者向け音声用情報を受けると、制御手段16は、出力テーブル500に、情報番号501を'264'とし、情報種別502を「未登録者向け音声用情報」とし、出力音声用情報503を「ご来館ありがとうございます」とする通知情報を追加する。さらに制御手段16は、その通知情報の出力時間504に「ご来館ありがとうございます」の非認証定型句時間長'tn1'を記録し、作成時刻505に現在時刻'11:31:51'を記録する。
【0045】
また、制御手段16は、音声出力部3による音声出力を制御する。制御手段16は、音声出力部3に音声を出力させていないとき、出力テーブル500に格納された出力音声用情報503を読み出して音声合成手段17に送り、その出力音声用情報503から生成された音声信号を音声合成手段17から受け取る。そして制御手段16は、受け取った音声信号をインターフェース部4に出力し、音声出力部3に音声出力させる。
【0046】
このとき制御手段16は、出力テーブル500に格納された出力音声用情報503を先頭から順に読み出す。ただし、標準音声用情報に示される語句を音声出力した後に、未登録者向け音声用情報に示される語句を音声出力し、さらに短縮音声用情報に示される語句を音声出力すると、順次出力される出力音声が不適切な文章になる。例えば、図4に示した例において、人物411(Bさん)の照合が失敗した場合、「お疲れ様です、A役員」、「ご来館ありがとうございます」、「Cさん」の順に音声出力され、「お疲れ様です」と「Cさん」の間に非認証定型句612がはさまれる。そこで、制御手段16は、未登録者向け音声用情報については、出力テーブル500に格納された全ての標準音声用情報と短縮音声用情報から生成される音声の出力が完了した後に読み出すようにする。また、未登録者向け音声用情報は定型句のみからなるため、出力テーブル500に複数の未登録者向け音声用情報がある場合、それぞれについて音声を出力するのは冗長である。そのため、制御手段16は、出力テーブル500に複数の未登録者向け音声用情報がある場合、未登録者向け音声用情報について一回のみ、音声信号を音声合成手段17に生成させ、インターフェース部4に出力し、音声出力部3に音声出力させる。
【0047】
そして制御手段16は、標準音声用情報又は短縮音声用情報から生成された音声信号の出力が完了すると、その標準音声用情報又は短縮音声用情報に対応する通知情報を出力テーブル500から削除する。また、制御手段16は、未登録者向け音声用情報から生成された音声信号の出力が完了すると、出力テーブル500から未登録者向け音声用情報を含む全ての通知情報を削除する。
【0048】
音声合成手段17は、制御手段16から受け取った出力音声用情報503から公知の音声合成技術を利用して音声信号を生成し、制御手段16に送り返す。例えば、音声合成手段17は、コーパスベースの音声合成技術を利用して音声合成を行う。その場合、多数の文章について所定単位の語句(例えばアクセント句)毎にイントネーションデータ(例えば音韻毎のピッチ周波数、パワー、音韻継続長等)が蓄積されたイントネーションデータベースと、イントネーション及び読み毎に音声素片が蓄積された音声データベースとを予め記憶部5に用意しておく。そして音声合成手段17は、まず出力音声用情報503を解析して単語を特定し、読みを決定する。次に音声合成手段17は、出力音声用情報503内の語句についてイントネーションデータベースから一致又は最も類似する語句を検索して文のイントネーションの位置を決定する。さらに音声合成手段17は、イントネーション及び読みに基づいて音声データベースから適切な音声素片を検索して接続することにより音声信号を生成する。あるいは、音声合成手段17は、フォルマント合成技術を利用して出力音声用情報503から人工音声を生成することにより、音声信号を生成してもよい。
【0049】
以下、図7に示したフローチャートを参照しつつ、本発明を適用した顔画像認証装置1による通知情報の登録処理の動作を説明する。なお、以下に説明する動作のフローは、処理部6により制御される。また、以下に説明する動作は、入力画像の取得時刻ごと(1フレームごと)に実施される。
まず、処理部6の顔検出手段11は、撮像部2からインターフェース部4を介して、照合対象者が写っている入力画像を取得する(ステップS701)。そして顔検出手段11は、取得した入力画像から照合対象者の顔が写っている領域である入力顔領域を検出し、入力顔画像を作成する(ステップS702)。そして顔検出手段11は、入力顔領域の検出に成功したか否か判定する(ステップS703)。顔検出手段11が入力顔領域の検出に失敗した場合、処理部6は、再度ステップS701以降の処理を実行する。
一方、顔検出手段11が入力顔領域の検出に成功した場合、顔検出手段11は、入力顔領域を表す情報を顔追跡手段12へ通知する。顔追跡手段12は、顔検出手段11によって抽出された入力顔領域について追跡処理を行い、同一人物の顔が写っている入力顔領域を対応付ける(ステップS704)。
【0050】
以下のステップS705〜S711の処理は、顔検出手段11によって抽出され、顔追跡手段12によって追跡処理の対象となっている入力顔領域から作成され、まだ照合されていない入力顔画像ごとに行われる。顔照合手段13は、顔追跡手段12によって追跡処理の対象となっている入力顔領域から作成され、まだ照合されていない入力顔画像について、記憶部5に記憶された登録テーブル300の各登録顔画像と照合し(ステップS705)、同一人物によるものか否かを判定する(ステップS706)。
顔照合手段13は、照合対象者が登録者でないと判定すると(ステップS706のNoの分岐)、照合失敗を示す結果通知を音声出力判定手段14に送る。そして音声出力判定手段14は、顔照合手段13から照合失敗を示す結果通知を受けると、未登録者向け音声用情報の作成要求を出力音声用情報作成手段15に送る。出力音声用情報作成手段15は、音声出力判定手段14から未登録者向け音声用情報の作成要求を受けると、未登録者向け音声用情報を作成する(ステップS707)。
一方、顔照合手段13は、照合対象者が登録者であると判定すると(ステップS706のYesの分岐)、照合成功を示す結果通知を音声出力判定手段14に送る。そして音声出力判定手段14は、顔照合手段13から照合成功を示す結果通知を受けると、出力テーブル500に標準音声用情報又は短縮音声用情報を含む通知情報が格納されているか否かを判定する(ステップS708)。そして音声出力判定手段14は、出力テーブル500に標準音声用情報及び短縮音声用情報のうちの何れも格納されていない場合(ステップS708のYesの分岐)、標準音声用情報の作成要求を出力音声用情報作成手段15に送る。出力音声用情報作成手段15は、音声出力判定手段14から標準音声用情報の作成要求を受けると、標準音声用情報を作成する(ステップS709)。一方、音声出力判定手段14は、出力テーブル500に標準音声用情報又は短縮音声用情報のうちの何れかが格納されている場合(ステップS708のNoの分岐)、短縮音声用情報の作成要求を出力音声用情報作成手段15に送る。出力音声用情報作成手段15は、音声出力判定手段14から短縮音声用情報の作成要求を受けると、短縮音声用情報を作成する(ステップS710)。
【0051】
出力音声用情報作成手段15は、出力音声用情報503を作成すると、作成した出力音声用情報503を制御手段16に送る。そして制御手段16は、出力音声用情報作成手段15から出力音声用情報503を受けると、情報番号501を生成し、出力時間504を算出し、作成時刻505を取得し、出力音声用情報503に情報番号501、情報種別502、出力音声用情報503、出力時間504及び作成時刻505により通知情報を作成して出力テーブル500に追加する(ステップS711)。
制御手段16が通知情報を作成して出力テーブル500に追加すると、追跡処理の対象となっている入力顔領域から作成され、まだ照合されていない全ての入力顔画像について通知情報の登録処理がされたか否かが判定される。まだ通知情報の登録処理がされていない入力顔画像が存在する場合、制御はステップS705に戻り、ステップS705〜S711の処理が繰り返される。一方、その全ての入力顔画像について通知情報の登録処理がされた場合、処理部6は、再度ステップS701以降の処理を実行する。
【0052】
以下、図8に示したフローチャートを参照しつつ、本発明を適用した顔画像認証装置10による音声の出力処理の動作を説明する。なお、以下に説明する動作のフローは、処理部6により制御される。
まず、処理部6の制御手段16は、出力テーブル500に通知情報が格納されているか否かを判定する(ステップS801)。出力テーブル500に通知情報が格納されていない場合(ステップS801のNoの分岐)、音声合成手段17は、出力テーブル500に新たに通知情報が格納されるまでステップS801で待機する。一方、出力テーブル500に通知情報が格納されている場合(ステップS801のYesの分岐)、制御手段16は、何れかの通知情報に出力音声用情報503として標準音声用情報又は短縮音声用情報が含まれるか否かを判定する(ステップS802)。
【0053】
何れかの通知情報に出力音声用情報503として標準音声用情報又は短縮音声用情報が含まれる場合(ステップS802のYesの分岐)、制御手段16は、その通知情報のうち先頭に格納されている通知情報の出力音声用情報503(標準音声用情報又は短縮音声用情報)を読み出す(ステップS803)。そして制御手段16は、読み出した出力音声用情報503を音声合成手段17に送る。音声合成手段17は、制御手段16から出力音声用情報503を受け取ると、受け取った出力音声用情報503から音声信号を生成し、制御手段16に送り返す。制御手段16は、音声合成手段17から音声信号を受け取ると、受け取った音声信号をインターフェース部4に出力し、音声出力部3に音声出力させる(ステップS804)。そして制御手段16は、出力音声用情報503から生成された音声信号の出力が完了すると、その出力音声用情報503に対応する通知情報を出力テーブル500から削除する(ステップS805)。通知情報を出力テーブル500から削除すると、制御手段16は、再度ステップS801以降の処理を実行する。
【0054】
一方、何れの通知情報にも出力音声用情報503として標準音声用情報又は短縮音声用情報が含まれない場合(ステップS802のNoの分岐)、制御手段16は、出力音声用情報503として未登録者向け音声用情報を含む通知情報のうち、先頭に格納されている出力音声用情報503(未登録者向け音声用情報)を読み出す(ステップS806)。そして制御手段16は、読み出した出力音声用情報503を音声合成手段17に送る。音声合成手段17は、制御手段16から出力音声用情報503を受け取ると、受け取った出力音声用情報503から音声信号を生成し、制御手段16に送り返す。制御手段16は、音声合成手段17から音声信号を受け取ると、受け取った音声信号をインターフェース部4に出力し、音声出力部3に音声出力させる(ステップS807)。そして制御手段16は、出力音声用情報503から生成された音声信号の出力が完了すると、未登録者向け音声用情報を含む全ての通知情報を出力テーブル500から削除する(ステップS808)。未登録者向け音声用情報を含む全ての通知情報を出力テーブル500から削除すると、制御手段16は、再度ステップS801以降の処理を実行する。
【0055】
以下、顔画像認証装置が設置された通路に複数の利用者が通行する場合における本実施形態の顔画像認証装置1の動作について説明する。
図9に、顔画像認証装置1が設置された通路に複数の利用者が連続的に通行する場合の入力画像と出力音声の関係の例を示す。図9において、画像900は時刻tにおける入力画像であり、画像901は時刻t+1における入力画像であり、画像902は時刻t+2における入力画像であり、画像903は時刻t+3における入力画像であり、画像904は時刻t+4における入力画像である。図9に示す例では、時刻tにおける入力画像900に人物910(A役員)が写っている。そのため、顔画像認証装置1は時刻tにおいて照合処理を行い、時刻tから時刻t+1までに照合結果として出力音声「お疲れ様です、A役員」を出力する。一方、時刻t+1における入力画像911には新たに人物911(Bさん)が写っている。この場合、顔画像認証装置1は時刻t+1において照合処理を行い、出力音声「お疲れ様です、A役員」の出力が完了した時刻t+2において「お疲れ様です」を省略した出力音声「Bさん」を出力する。さらに、入力画像902には新たに人物912(Cさん)が写っている。この場合、顔画像認証装置1は時刻t+2において照合処理を行い、出力音声「Bさん」の出力が完了した時刻t+3において「お疲れ様です」を省略した出力音声「Cさん」を出力する。これにより顔画像認証装置1は、人物911(Bさん)、人物912(Cさん)の入室までに音声出力を完了させることができる。
【0056】
以上説明してきたように、本発明を適用した顔画像認証装置1は、照合対象者の顔を撮影した入力画像から抽出された入力顔画像に写っている照合対象者と予め登録された登録者とが同一の人物か否かを判定する。そして顔画像認証装置1は、照合対象者に対する出力音声用情報を作成し、出力音声用情報から音声信号を生成して出力する。この顔画像認証装置1は、照合対象者の照合が完了したとき、顔画像認証装置1が音声を出力中である場合に作成する出力音声用情報を顔画像認証装置1が音声を出力中でない場合に作成する出力音声用情報より短くする。これにより、顔画像認証装置1は、複数の照合対象者がいる場合に二番目以降に照合した照合対象者に対して出力する音声を通常の音声より短くすることができる。従って、顔画像認証装置1は、複数の照合対象者に対して順次照合するとともに各照合対象者に対する音声を出力する際に各照合対象者に対する音声の出力タイミングを最適化することができる。
【0057】
以上、本発明の好適な実施形態について説明してきたが、本発明はこれらの実施形態に限定されるものではない。例えば、登録テーブル、定型句テーブル及び出力テーブルに格納されるデータは、テキストデータでなく、例えば予め作成されたwav形式、mp3形式等の音声信号でもよい。その場合、記憶部には登録テーブルの個人名及び定型句テーブルの各定型句の語句として音声信号を格納しておき、出力音声用情報作成手段は、出力音声用情報として、テキストデータに代えて、これらの音声信号をつなぎ合わせた音声信号を作成する。一方、制御手段は、出力音声用情報作成手段によって作成された音声信号を音声合成手段に送らずにそのままインターフェース部に出力する。
【0058】
また、短縮音声用情報は、標準音声用情報より短ければどのようなものでもよく、例えば標準音声用情報から個人名と敬称句を省略したテキスト、つまり定型句のみからなるテキストとしてもよい。あるいは、短縮音声用情報の語句は標準音声用情報と同じにしておき、短縮音声用情報による音声信号を公知の音声処理技術を用いて時間的に圧縮し、短縮音声用情報による出力音声の発声速度を標準音声用情報による出力音声の発声速度より速くすることにより短時間に音声出力するようにしてもよい。例えば、音声合成手段は、SOLA(synchronized overlap-add)技術を用いて近傍のフレームデータ間の相関を計算し、もっとも相関の大きい部分にずらしてクロスフェードすることにより、短縮音声用情報による音声信号を時間的に圧縮する。または音声合成手段は、PICOLA(Pointer Interval Controlled OverLap and Add)技術、Phase Vocoder技術等を用いて短縮音声用情報による音声信号を時間的に圧縮してもよい。
なおこの変形例において、登録テーブルの個人名及び定型句テーブルの各定型句の語句として音声信号が記憶部に格納されている場合、制御手段は、出力音声用情報作成手段によって作成された(つなぎ合わされた)短縮音声用情報による音声信号を音声合成手段に送る。そして音声合成手段は、受け取った音声信号を時間的に圧縮し、制御手段に送り返す。
【0059】
また、顔照合手段は、一回の顔照合処理で照合成功と判断しなかった場合に照合失敗と判断するのではなく、複数回の顔照合処理で(複数フレームにわたって)照合成功と判断しなかった場合、またはタイムアウトが発生した場合に照合失敗と判断するようにしてもよい。その場合、図7に示したステップS707〜S711の処理は、照合成功、照合失敗の何れとも判断されていない入力顔画像については行わないようにする。そのために、顔照合手段は、ステップS706において照合成功、照合失敗の何れとも判断しなかった入力顔画像については、結果通知を音声判定手段に送らないようにする。
【0060】
また、例えば、顔画像認証装置は、照合失敗と判断された照合対象者に対しては音声を出力しないようにしてもよい。その場合、音声出力判定手段は、顔照合手段から照合失敗を示す結果通知を受け取っても、未登録者向け音声用情報の作成要求を出力音声用情報作成手段に送らない。従って、この場合、出力音声用情報の情報種別は、標準音声用情報と短縮音声用情報の二つとなる。
【0061】
また、本実施形態では、音声出力判定手段は、顔画像照合手段から結果通知を受けた時点、つまり顔照合手段が顔照合処理を完了した時点において顔画像認証装置が音声を出力しているか否かにより、出力音声用情報作成手段に作成させる出力音声用情報の種別を決定する例を示したが、本発明はこれに限定されない。音声出力判定手段は、例えば顔照合手段が顔照合処理を開始する時点のように他のタイミングにおいて顔画像認証装置が音声を出力しているか否かにより、出力音声用情報作成手段に作成させる出力音声用情報の種別を決定してもよい。その場合、顔照合手段は顔照合処理を開始する前に音声出力判定手段に開始通知を送り、音声出力判定手段はその開始通知を受けたときに顔画像認証装置が音声を出力中であるか否かを判定しておく。
【0062】
また、制御手段は、出力テーブルにおいて通知情報が作成された順(照合処理がされた順)に通知情報を格納するのではなく、例えば、標準音声用情報又は短縮音声用情報についての通知情報を、未登録者向け音声用情報についての通知情報より前に格納するように順番を入れ替えてもよい。その場合、制御手段は、出力テーブルに格納された通知情報の順に音声出力すれば、標準音声用情報又は短縮音声用情報による出力音声を未登録者向け音声用情報による出力音声より先に出力することができる。
【0063】
また、本実施形態では、音声出力判定手段は、顔画像認証装置が音声を出力中であるか否かを、出力テーブルに標準音声用情報又は短縮音声用情報が格納されているか否かにより判定する例を示したが、本発明はこれに限定されない。例えば、音声出力判定手段は、音声出力を開始した時刻及び音声出力に要する時間により、顔画像認証装置が音声を出力中であるか否かを判定してもよい。その場合の出力テーブルの模式図を図10に示す。図10に示すように、本変形例の場合の出力テーブル1000には、図5に示した出力テーブル500における作成時刻505に代えて、出力開始時刻1005が示される。この出力開始時刻1005は、制御手段が出力音声用情報1003による音声信号をインターフェース部に出力した時間であり、制御手段によって記録される。
【0064】
本変形例の制御手段は、出力音声用情報1003による音声信号のインターフェース部への出力を開始したとき、そのときの時刻を出力開始時刻1005に記録する。また制御手段は、出力テーブル1000に標準音声用情報又は短縮音声用情報を含む通知情報が全く格納されていない状態から新たに格納された標準音声用情報を含む通知情報についての出力開始時刻1005を標準音声出力開始時刻として記憶部に記録する。
尚、標準音声用情報を記録した後に記録される短縮音声用情報については、音声信号のインターフェース部への出力を開始した時刻は、それより前に記録された出力音声用情報の出力時間に依存するため、出力開始時刻1005は空白にしておく。又は、実際の音声信号のインターフェース部への出力時間を、後追いの結果として記録してもよい。
一方、音声出力判定手段は、顔照合手段から照合成功又は照合失敗を示す結果通知を受け取ると、記録部から最新の標準音声出力開始時刻を取得する。さらに音声出力判定手段は、その標準音声出力開始時刻に対応する標準音声用情報を含む通知情報の出力時間1004、及びその標準音声用情報を含む通知情報の作成後に作成した短縮音声用情報を含む全ての通知情報の出力時間1004を取得する。そして音声出力判定手段は、取得した全ての出力時間1004の総和(以下、総出力時間と称する)を算出する。
例えば、図10に示した出力テーブル1000においては、情報番号1001が'261'の通知情報における出力開始時刻である'11:31:48'が標準音声出力開始時刻に該当し、情報番号1001が'261'の通知情報における出力時間1004である'tg2+tm1+tr2'と、情報番号1001が'262'の通知情報における出力時間1004である'tm2+tr1'と、情報番号1001が'263'の通知情報における出力時間1004である'tm3+tr3'との総和が総出力時間に該当する。
【0065】
そして音声出力判定手段は、顔画像照合手段から結果通知を受けた時刻が標準音声出力開始時刻に総出力時間を加えた時刻より前ならば、顔画像認証装置が音声を出力中であると判定して短縮音声用情報の作成要求を出力音声用情報作成手段に送る。一方、音声出力判定手段は、顔画像照合手段から結果通知を受けた時刻が標準音声出力開始時刻に総出力時間を加えた時刻以後ならば、顔画像認証装置が音声を出力中でないと判定して標準音声用情報の作成要求を出力音声用情報作成手段に送る。あるいは、音声出力判定手段は、結果通知ではなく開始通知を顔画像照合手段から受けた時刻が、標準音声出力開始時刻に総出力時間を加えた時刻より前であるか否かに応じて顔画像認証装置が音声を出力中であるか否かを判定してもよい。
また、顔画像認証装置が音声を出力中であるか否かを音声出力を開始した時刻及び音声出力に要する時間により判定できるように、制御手段は、標準音声用情報又は短縮音声用情報から生成した音声信号の出力が完了しても、その標準音声用情報又は短縮音声用情報に対応する通知情報を個別に出力テーブル1000から削除しない。制御手段は、出力テーブル1000内の全ての標準音声用情報及び短縮音声用情報から生成した全ての音声の出力が完了したときに、標準音声用情報又は短縮音声用情報を含む全ての通知情報を削除する。あるいは制御手段は、出力テーブル1000に新たに標準音声用情報を含む通知情報が追加されたときに、それまでに音声出力が完了している標準音声用情報又は短縮音声用情報を含む通知情報を削除する。なお、制御手段は、標準音声用情報又は短縮音声用情報を含む通知情報を削除するときに、あわせて標準音声出力開始時刻も削除してもよい。
この変形例においても、顔画像認証装置は、音声を出力中であるか否かを適切に判定することができ、出力テーブルに出力音声用情報が格納されているか否かにより音声を出力中であるか否かを判定する場合と同様の効果が得られる。また、この変形例の場合、顔画像認証装置は、各出力音声用情報の出力時間に応じて音声出力中であるか否かを判定して出力音声の長さを変える。そのため、例えば出力音声用情報に照合対象者の個人名が含まれる場合のように、照合対象者毎に出力音声用情報の長さが変わる場合でも各照合対象者に対して適切なタイミングで音声を出力することができる。
【0066】
また、本実施形態では、顔画像認証装置は、各照合対象者に対して照合処理を実施した順に照合結果に応じた音声を出力する例を示したが、本発明はこれに限定されない。例えば、予め、登録者の属性に応じて、音声出力する順序についての優先度を定めておき、顔画像認証装置は、優先度の高い順に各照合対象者に対する音声を出力してもよい。その場合、例えば、属性が「顧客」である登録者の優先度が「高」に定められ、属性が「業者」である登録者の優先度が「中」に定められ、属性が「役員」、「部長」、「担当」のうちの何れか(すなわち「社員」)である登録者の優先度が「低」に定められる。この優先度は、登録者の属性と関連付けて記憶部に記憶される。そして制御手段は、通知情報を出力テーブルに格納するとき、出力テーブルの作成時刻(又は出力開始時刻)及び出力時間から、既に出力テーブルに格納されている標準音声用情報又は短縮音声用情報の通知情報のうち、まだ音声出力が開始されていない通知情報を抽出する。そして制御手段は、抽出した通知情報のうち、新たに格納する通知情報より優先度が低い通知情報より前の位置に新たに通知情報を挿入する。そして制御手段は、出力テーブルに格納されている通知情報の順に出力音声用情報による音声を出力する。これにより、制御手段は、出力テーブルに格納されている、まだ音声出力が開始されていない標準音声用情報又は短縮音声用情報について優先度が高い順に音声を出力することができる。
【0067】
図11(a)、(b)に登録者の優先度に応じた音声出力の順序変更を説明するための出力テーブルの模式図を示す。まず図11(a)に示すように、出力テーブル1100には、情報番号1101が'131'であり、作成時刻1105が'09:15:29'である標準音声用情報の通知情報と、情報番号1101が'132'であり、作成時刻1105が'09:15:30'である短縮音声用情報の通知情報とが格納されており、これらの属性は「社員」であるとする。このとき、属性が「顧客」である、情報番号1101が'133'であり、作成時刻1105が'09:15:31'である短縮音声用情報の通知情報が新たに作成されると、制御手段は、図11(b)に示すように、優先度が「顧客」より低い「社員」である、情報番号1101が'132'の通知情報の前に新たに作成された通知情報を挿入する。そして制御手段は、出力テーブル1100に格納されている通知情報の順に、出力音声用情報を読み出して音声合成手段に音声信号を生成させ、インターフェース部に出力する。なお、出力テーブル1100の先頭に位置する通知情報は、その出力音声用情報についての出力音声が出力中であると想定されるため、新たに作成された通知情報は、優先度の高さに関わらず、二番目以降に配置されるようにする。つまりこの例では、新たに作成した通知情報は、情報番号1101が'131'の通知情報より後ろに挿入される。
【0068】
なお、優先度に応じて音声出力の順序を入れ替える場合、出力テーブル1100内の順序は通知情報が作成された順(照合処理がされた順)とし、情報番号1101の値を入れ替えるようにしてもよい。その場合、制御手段は、出力テーブル1100に格納されている順でなく、情報番号1101の番号順に出力音声用情報による音声を出力することにより、優先度が高い順に音声を出力することができる。
これにより顔画像認証装置は、顧客等に対する照合結果に応じた音声を優先して早期に出力することができ、きめ細やかに音声出力の順序を制御することができる。
【0069】
以上のように、当業者は、本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。
【符号の説明】
【0070】
1 顔画像認証装置
2 撮像部
3 音声出力部
4 インターフェース部
5 記憶部
6 処理部
11 顔検出手段
12 顔追跡手段
13 顔照合手段
14 音声出力判定手段
15 出力音声用情報作成手段
16 制御手段
17 音声合成手段

【特許請求の範囲】
【請求項1】
照合対象者を撮影した入力画像を順次取得する撮像部と、
予め登録者の登録顔画像を記憶する記憶部と、
前記照合対象者に音声を出力する音声出力部と、
前記入力画像が取得される度に前記照合対象者の顔領域の画像を入力顔画像として抽出する顔検出手段と、
前記登録顔画像と前記入力顔画像を照合し、同一人物であるか否かを判定する顔照合手段と、
前記音声出力部が音声を出力中であるか否かを判定する音声出力判定手段と、
前記音声出力判定手段の判定結果に基づいた出力音声用情報を作成する出力音声用情報作成手段と、
前記出力音声用情報から出力音声信号を合成する音声合成手段と、
前記出力音声信号を前記音声出力部から音声出力させる制御手段と
を有する顔画像認証装置であって、
前記出力音声用情報作成手段は、前記出力音声用情報として、
前記顔照合手段による判定の時点で前記音声出力部が音声出力中でない場合には標準音声用情報を作成し、
当該判定の時点で前記音声出力部が音声出力中である場合には前記標準音声用情報よりも短い短縮音声用情報を作成する
ことを特徴とする顔画像認証装置。
【請求項2】
前記記憶部は、認証定型句と、前記登録者の登録顔画像に関連づけて当該登録者の個人名を更に記憶し、
前記出力音声用情報作成手段は、
前記標準音声用情報を、前記認証定型句と、前記顔照合手段にて前記入力顔画像に写っている照合対象者と同一人物であると判定された前記登録者の個人名から作成し、
前記短縮音声用情報を、前記顔照合手段にて前記入力顔画像に写っている照合対象者と同一人物であると判定された前記登録者の個人名から作成する請求項1に記載の顔画像認証装置。
【請求項3】
前記制御手段は、
前記出力音声用情報作成手段が前記出力音声用情報を作成する度に当該出力音声用情報を前記記憶部に記憶する一方で、前記音声出力部が前記出力音声信号の音声出力を完了したときに前記記憶部から当該出力音声信号に対応する前記出力音声用情報を削除し、
前記音声出力判定手段は、
前記記憶部に前記出力音声用情報が記憶されていると、前記音声出力部が音声出力中であると判定し、前記記憶部に前記出力音声用情報が記憶されていないと、前記音声出力部が音声出力中でないと判定する請求項1または2に記載の顔画像認証装置。
【請求項4】
前記記憶部には、前記登録者ごとに属性が記憶されるとともに、当該属性に応じて予め定められた、前記制御部が前記出力音声信号を前記音声出力部に音声出力させる順序を規定する優先度が記憶され、
前記制御手段は、前記記憶部に記憶された前記出力音声用情報のうち、前記音声出力部による音声出力が開始されていない前記出力音声用情報についての前記出力音声信号を前記優先度が高い順に前記音声出力部に音声出力させる請求項3に記載の顔画像認証装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2012−212071(P2012−212071A)
【公開日】平成24年11月1日(2012.11.1)
【国際特許分類】
【出願番号】特願2011−78429(P2011−78429)
【出願日】平成23年3月31日(2011.3.31)
【出願人】(000108085)セコム株式会社 (596)
【Fターム(参考)】