音声及び映像に基づく性別−年齢識別方法及びその装置

【課題】音声及び映像に基づく性別−年齢識別方法及びその装置を提供する。
【解決手段】性別情報と年齢情報との相互関連性を考慮して音声認識及び顔認識を組み合わせて行うことによって性別及び年齢を正確に演算することができる識別装置及び方法に関する。性別−年齢識別方法は、映像情報及び音声情報を収集するステップと、前記収集された音声情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する音声情報を用いた性別及び年齢識別ステップと、前記収集された映像情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する顔情報を用いた性別及び年齢識別ステップと、前記音声情報を用いて識別された性別及び年齢と前記顔情報を用いて識別された性別及び年齢とを組み合わせ演算を行って性別及び年齢を最終決定するステップと、を含む。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、入力された映像情報及び音声情報から特定人の性別及び年齢を識別することができる方法及びその装置に関し、さらに詳しくは、性別情報と年齢情報の相互関連性を考慮して音声認識及び顔認識を組み合わせて行うことによって正確に性別及び年齢を演算することができる識別装置及び方法に関する。
【背景技術】
【０００２】
従来技術によるユーザの性別及び年齢識別技術として、電子住民証のような個人識別手段を用いる方法、顔認識を用いる方法、音声認識を用いる方法などが存在する。
【０００３】
個人識別手段を用いる方法のうちの一つである電子住民証を用いた年齢認識方法（韓国公開特許第１９９９−０００８６７９号）は、各個人が電子住民証のような個人識別手段をいつも携帯しなければならないという不便がある。また電子住民証のような個人識別手段は紛失、破損、偽造などが発生し易い問題点がある。
【０００４】
従来の性別−年齢識別技術として使用される顔認識方法の場合には、顔映像情報のみで性別及び年齢を判断しているため、各個人ごとの特徴を反映し難く認識正確度が低い。また、音声認識を用いた認識方法の場合には、音声情報のみで性別及び年齢を判断するため、女性と子供のように音声的特徴が類似する場合などにおいてその認識正確度が劣る問題点がある。
【０００５】
また、従来の顔認識または音声認識に基づく識別方式は、性別によって特徴の分布が異なる特異性、または年齢によって性別の特徴分布が異なる特異性などを反映して年齢及び性別を識別することができないため、演算の正確度が低く演算量も多いという短所がある。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】韓国公開特許第１９９９−０００８６７９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
本発明は、上述の問題点に鑑みてなされたもので、その目的は、性別情報と年齢情報の相互関連性を利用し、また音声認識及び顔認識を組み合わせることによって認識の正確度を向上させることのできる性別−年齢識別方法及びその装置を提供することにある。
【課題を解決するための手段】
【０００８】
上記目的を達成すべく、本発明の一態様による性別−年齢識別方法は、映像情報及び音声情報を収集するステップと、前記収集された音声情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する音声情報を用いた性別及び年齢識別ステップと、前記収集された映像情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する顔情報を用いた性別及び年齢識別ステップと、前記音声情報を用いて識別された性別及び年齢と前記顔情報を用いて識別された性別及び年齢とを組み合わせて演算を行って性別及び年齢を最終決定するステップと、を含む。
【０００９】
本発明の他の態様による性別−年齢識別装置は、映像情報及び音声情報を収集する入力部と、前記収集された音声情報に対して特徴値を抽出し、抽出された特徴値を用いて前記音声情報から性別及び年齢を識別する音声処理部と、前記収集された映像情報に対して特徴値を抽出し、抽出された特徴値を用いて前記映像情報から性別及び年齢を識別する映像処理部と、前記映像処理部で識別された性別及び年齢と前記音声処理部で識別された性別及び年齢とを組み合わせて演算を行って前記特定人の性別及び年齢を最終決定する最終識別部と、を含む。
【発明の効果】
【００１０】
本発明によれば、音声認識及び顔認識を組み合わせて行うので、従来の音声認識のみを用いた方法または顔認識のみを用いた方法に比べて認識正確度が向上する効果がある。
【００１１】
また本発明は、性別情報と年齢情報の相互関連性、例えば、年齢識別は性別によって特徴の分布が異なる特異性、または年齢によって性別の特徴分布が異なる特異性などを反映して年齢及び性別を認識するので、従来の認識方法に比べて高い正確度を保障することができる効果がある。
【００１２】
さらに本発明は、特徴抽出において入力された情報に対して各入力情報別に容易に区別できる特徴を基準として一次的に音声情報をグループ化し、前記基準によって区別された各グループに対して各グループ別特徴を反映して特徴値を抽出する方法を用いることによって、識別の正確性を確保することができ、また演算の重複性を排除して迅速な識別を行うことができる効果がある。
【図面の簡単な説明】
【００１３】
【図１】本発明に係る性別−年齢識別装置の一実施形態を示す構成図である。
【図２】図１に係る音声処理部の詳細構成図である。
【図３】図１に係る映像処理部の詳細構成図である。
【図４】本発明に係る性別−年齢識別方法のフローチャートである。
【図５】図４の音声類似度識別ステップの詳細なフローチャートである。
【図６】図４の映像類似度識別ステップの詳細なフローチャートである。
【発明を実施するための形態】
【００１４】
以下、本発明の好ましい実施の形態を、添付図面に基づき詳細に説明する。
【００１５】
図１は、本発明による性別−年齢識別装置の一実施形態を示す構成図である。
【００１６】
図１に示すように、本発明による性別−年齢識別装置は、入力部１０、年齢−性別演算部２０及び出力部３０を含んで構成される。
【００１７】
入力部１０は、特定人の映像情報及び音声情報を収集する。
【００１８】
このような入力部１０は、映像情報を取得できるカメラのような映像情報取得手段及び音響情報を取得できるスピーカー（マイク）のような音響情報取得手段を含んで構成することができる。
【００１９】
また入力部１０は、映像情報取得手段によって取得された映像情報から特定人の顔情報のみを別途抽出する顔抽出手段及び音響情報取得手段によって取得された音響情報から特定人の音声情報のみを別途抽出できる音声抽出手段を含んで構成することができる。この場合、年齢−性別演算部２０の各特徴抽出手段が毎度顔情報及び音声情報を映像情報及び音響情報から別途抽出する必要がないので迅速な演算が可能になる。
【００２０】
かかる顔抽出手段及び音声抽出手段は、従来の顔検出技術を用いて具現されることができる。例えば、顔抽出のために知識ベース手法（Ｋｎｏｗｌｅｄｇｅ-ｂａＳｅｄＭｅｔｈｏｄＳ）、特徴ベース手法（Ｆｅａｔｕｒｅ-ｂａＳｅｄＭｅｔｈｏｄＳ）、テンプレートマッチング手法（Ｔｅｍｐｌａｔｅ-ｍａｔｃｈｉｎｇＭｅｔｈｏｄＳ）、見え方に基づいた手法（Ａｐｐｅａｒａｎｃｅ-ｂａＳｅｄＭｅｔｈｏｄＳ）、熱赤外線（ＩｎｆｒａＲｅｄ）方法、３次元顔認識方法、マルチモーダル方法などを用いて顔抽出手段を具現することができる。
【００２１】
年齢−性別演算部２０は、音声情報を基に年齢及び性別を識別する音声処理部１００と、映像情報を基に年齢及び性別を識別する映像処理部２００と、音声処理部１００と映像処理部２００の演算結果を総合して年齢及び性別を決定する最終識別部３００と、を含んで構成される。
【００２２】
出力部３０は、年齢−性別演算部２０から伝達された年齢及び性別を出力する。
【００２３】
以下図２及び図３を参照して、年齢−性別演算部２０について詳しく説明する。
【００２４】
図２は、図１による音声処理部１００の詳細構成図である。
【００２５】
図２に示すように、音声処理部１００は音声情報から特徴値を抽出する音声特徴抽出部１１０及びその抽出された特徴値から性別及び年齢を識別する音声演算部１２０を含んで構成される。
【００２６】
さらに詳しく説明すると、音声特徴抽出部１１０は、音声情報に対して一つ以上の特徴値または特徴ベクトル（以下、「特徴値」と通称する）を抽出する。このような音声特徴抽出部１１０は、線形予測係数（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｅｆｆｉｃｉｅｎｔ）方法、ケプストラム（ＣｅｐＳｔｒｕｍ）方法、メルフリークエンシーケプストラム（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐＳｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）方法、フィルタバンクエネルギ（ＦｉｌｔｅｒＢａｎｋＥｎｅｒｇｙ）方法などを用いたり、これらを組み合わせて特徴値を抽出することができる。
【００２７】
音声特徴抽出部１１０は、前述の特徴値識別方法を複数適用して同一の音声情報から複数個の特徴値を抽出するか、単一の特徴値識別方法を使用し複数のサンプルを用いて複数個の特徴値を識別することができる。Ｎ個の特徴識別方法でＭ個の音声サンプルを対象に特徴値を得ると（Ｎ＊Ｍ）の行列形態に特徴値を現すことができる。
【００２８】
本発明の実施形態では、音声に対する特徴抽出を正確且つ迅速に行うために、性別特徴抽出部１１１、年齢別特徴抽出部−Ｍ１１２、年齢別特徴抽出部−ＦＣ１１３、年齢別特徴抽出部−Ｆ１１４及び性別特徴抽出部−Ｃ１１５を含んで音声特徴抽出部１１０を構成する。
【００２９】
性別特徴抽出部１１１は、入力された音声情報に対する男性と女性の相違点、即ち、性別特徴を反映して特徴値を抽出し、抽出された特徴値を基準に音声情報を男性グループ（Ｍ）または女性及び子供グループ（ＦＣ）に区分する。
【００３０】
年齢別特徴抽出部−Ｍ１１２は、性別特徴抽出部１１１によって男性グループ（Ｍ）に区分された音声情報に対して特徴値を抽出する。この場合に入力される音声情報は男性の音声情報であると判断された音声情報であるため、それに対して男性の年齢別特徴を反映して特徴値を抽出することができる。
【００３１】
年齢別特徴抽出部−ＦＣ１１３は、性別特徴抽出部１１１によって女性及び子供グループ（ＦＣ）に区分された音声情報に対して、女性及び子供の年齢別特徴を反映して特徴値を抽出することができる。その後、入力音声情報を改めて女性グループ（Ｆ）と子供グループ（Ｃ）に区分する。ここで、子供グループ（Ｃ）は男女の特徴を区分し難い変声期以前の人を対象とするグループである。
【００３２】
年齢別特徴抽出部−Ｆ１１４は、年齢別特徴抽出部−ＦＣ１１３によって女性グループ（Ｆ）に区分された音声情報に対して、女性の年齢別特徴を反映して特徴値を抽出することができる。
【００３３】
性別特徴抽出部−Ｃ１１５は、年齢別特徴抽出部−ＦＣ１１３によって子供グループ（Ｃ）に区分された前記音声情報に対して、子供の性別特徴を反映して特徴値を抽出する。
【００３４】
音声演算部１２０は、前述のように音声特徴抽出部１１０によって抽出された特徴値の入力を受けて入力音声の性別及び年齢を識別することができる。
【００３５】
このために音声演算部１２０は、音声特徴抽出部１１０から抽出された特徴値に対して加重値を反映して代表特徴値を決定する組合演算部と、決定された代表特徴値に基づき、性別及び年齢別基準特徴値または音声及び映像基準サンプルを保存している基準ＤＢを参照して性別及び年齢を識別する識別部とを含む。
【００３６】
また音声演算部１２０は、図２に示すように、音声特徴抽出部１１０でグループ化した男性グループ（Ｍ）、女性グループ（Ｆ）及び子供グループ（Ｃ）に対して各々最適化された組合演算部及び識別部を各々備えるように構成することが好ましい。
【００３７】
以下では、このように各々組合演算部及び識別部が備えられた図２に示す実施の形態を基準に説明する。
【００３８】
音声演算部１２０は、音声特徴抽出部１１０で男性グループ（Ｍ）に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−Ｍ１２１と、女性グループ（Ｆ）に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−Ｆ１２２と、子供グループ（Ｃ）に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−Ｃ１２３と、から構成することができる。
【００３９】
さらに詳しく説明すると、音声演算部−Ｍ１２１は組合演算部−Ｍ１２１Ａと識別部−Ｍ１２１Ｂとを含む。組合演算部−Ｍ１２１Ａは、男性グループ（Ｍ）に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する。識別部−Ｍ１２１Ｂは、その代表特徴値を基に基準ＤＢを参照して性別及び年齢を識別することができる。また組合演算部−Ｍ１２１Ａは、男性グループに区分された音声情報の入力を受けて組合演算を行うので、前述のように性別特徴抽出部１１１及び年齢別特徴抽出部−Ｍ１１２から抽出された特徴値の入力を受けることができる。
【００４０】
同様に音声演算部-Ｆ１２２は、女性グループ（Ｆ）に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する組合演算部−Ｆ１２２Ａと、その代表特徴値を基に基準ＤＢを参照して性別及び年齢を識別する識別部−Ｆ１２２Ｂと、を含む。前述のように、組合演算部−Ｆ１２２Ａは、性別特徴抽出部１１１、年齢別特徴抽出部−ＦＣ１１３及び年齢別特徴抽出部−Ｆ１１４から抽出された特徴値の入力を受けることができる。
【００４１】
また音声演算部−Ｃ１２３は、子供グループ（Ｃ）に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する組合演算部−Ｃ１２３Ａと、その代表特徴値を基に基準ＤＢを参照して性別及び年齢を識別する識別部−Ｃ１２３Ｂと、を含む。また前述のように、組合演算部−Ｃ１２３Ａは、性別特徴抽出部１１１、年齢別特徴抽出部−ＦＣ１１３及び年齢別特徴抽出部−Ｃ１１５から抽出された特徴値の入力を受けることができる。
【００４２】
このような年齢及び性別を識別するために、ＧＭＭ（ＧａｕＳＳｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）、ＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）などのアルゴリズムを用いて年齢及び性別を識別することができる。しかし、前述したアルゴリズムは例示的なものに過ぎず、前述したアルゴリズム以外にも様々なアルゴリズムを用いて特徴値から年齢及び性別を識別できることは言うまでもない。
【００４３】
例えば、ＧＭＭのアルゴリズムを用いる場合、各組合演算部１２１Ａ、１２２Ａ、１２３Ａは、特徴識別方法の数Ｎまたは複数個のサンプルの数Ｎ個に対応してＮ個の尤度値（ｌｉｋｅｌｉｈｏｏｄ）を計算し、かかるＮ個の尤度値で代表値を決定することができる。代表値を決定するために、組合演算部１２１Ａ、１２２Ａ、１２３ＡはＮ個尤度値の平均値を求めるか、最大値を求めるか、最小値を求めるか、全体値を合算して代表値を決定することができる。
【００４４】
また組合演算部１２１Ａ、１２２Ａ、１２３Ａは、代表特徴値の識別において加重値を付与して代表特徴値を識別することができる。このような加重値は、場合によって設定されるかまたは経験的に蓄積された情報を用いて設定することができる。例えば、騷音の発生が頻繁な環境においては、騷音帯域に該当する特徴値部分は加重値を低く設定し、一般的な音声帯域のうち中間程度の帯域に該当する特徴値部分は高い加重値を付与することができる。また各組合演算部１２１Ａ、１２２Ａ、１２３Ａは、前述した各グループ（男性、女性、子供）に対して音声的特徴を反映して各々異なる加重値を付与して代表特徴値を決定することができる。
【００４５】
以上では音声情報を男性グループ、女性グループ及び子供グループに分けて説明したが、音声情報から抽出した特徴値を特定グループに区分することが難しい場合には、抽出した音声情報を各グループに重複適用することが好ましい。即ち、グループに区分することが難しい音声情報の場合には、該当する各グループに対して演算を各々適用した後、各識別部の結果同士の類似度や正常識別確率、信頼度などを考慮して最終的に最終識別部３００によって年齢及び性別を決定する。
【００４６】
図３は、図１による映像処理部の詳細構成図である。
【００４７】
図３に示すように、映像処理部２００は、映像情報から特徴値を抽出する映像特徴抽出部２１０及びその抽出された特徴値から性別及び年齢を演算する映像演算部２２０を含んで構成される。
【００４８】
映像特徴抽出部２１０は映像情報の入力を受けて特徴値を抽出することができる。このような映像特徴抽出部２１０は、さらに年齢別特徴抽出部２１１、年齢別特徴抽出部−Ｃ２１２、性別特徴抽出部−Ｃ２１３、性別特徴抽出部−Ａ２１４、年齢別特徴抽出部−Ｍ２１５及び年齢別特徴抽出部−Ｆ２１６を含むことができる。
【００４９】
年齢別特徴抽出部２１１は、入力された顔情報に対し年齢別特徴を反映して特徴値を抽出し、抽出された特徴値を基準に入力された顔情報を大人グループ（Ａ）または子供グループ（Ｃ）に区分する。例えば、顔情報の場合、顔の大きさと目の大きさとの比例、目元のシワの有無などを基に大人と子供を区分することが容易である。また年齢別特徴抽出部２１１は、前記のような年齢別特徴を反映して入力された顔情報に対して特徴値を抽出することができる。
【００５０】
年齢別特徴抽出部２１１によって子供グループ（Ｃ）に区分された顔情報に対して、年齢別特徴抽出部−Ｃ２１２は子供の年齢別特徴を反映して特徴値を抽出し、性別特徴抽出部−Ｃ２１３は子供の性別特徴を反映して特徴値を抽出する。
【００５１】
性別特徴抽出部−Ａ２１４は、年齢別特徴抽出部２１１によって大人グループ（Ａ）に区分された顔情報に対して、大人の性別特徴を反映して特徴値を抽出することができる。その抽出された特徴値を基準に、入力された顔情報を男性グループ（Ｍ）と女性グループ（Ｆ）とに区分する。
【００５２】
年齢別特徴抽出部−Ｍ２１５は、性別特徴抽出部−Ａ２１４によって男性グループ（Ｍ）に区分された顔情報に対して、男性の年齢別特徴を反映して特徴値を抽出する。また年齢別特徴抽出部−Ｆ２１６は、性別特徴抽出部−Ａ２１４によって女性グループ（Ｆ）に区分された顔情報に対して、女性の年齢別特徴を反映して特徴値を抽出する。
【００５３】
映像演算部２２０は、前記のように映像特徴抽出部２１０によって抽出された特徴値を用いて映像情報から性別及び年齢を識別する。
【００５４】
即ち、映像演算部２２０は、映像特徴抽出部２１０から抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する組合演算部及び代表特徴値を基に基準ＤＢを参照して性別及び年齢を識別する識別部から構成される。
【００５５】
また映像演算部２２０は、図３に示すように、前述のように映像特徴抽出部２１０によってグループ化された男性グループ（Ｍ）、女性グループ（Ｆ）及び子供グループ（Ｃ）に対して各々最適化された組合演算部及び識別部を有するように構成される。即ち、映像演算部２２０は、男性グループに区分された映像情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−Ｍ２２１と、女性グループに区分された音声情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−Ｆ２２２と、子供グループに区分された音声情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−Ｃ２２３と、から構成される。
【００５６】
映像演算部−Ｍ２２１は、男性グループ（Ｍ）に区分された顔情報から抽出された一つ以上の特徴値の入力を受けて代表特徴値を決定する組合演算部−Ｍ２２１Ａと、その代表特徴値を基に基準ＤＢを参照して性別及び年齢を識別する識別部−Ｍ２２１Ｂと、を含むことができる。組合演算部−Ｍ２２１Ａは男性グループ（Ｍ）に区分された顔情報から抽出された特徴値の入力を受けるので、年齢別特徴抽出部２１１、性別特徴抽出部−Ａ２１４及び年齢別特徴抽出部−Ｍ２１５から抽出された特徴値の入力を受けて代表特徴値を識別することができる。
【００５７】
映像演算部−Ｆ２２２は、女性グループ（Ｆ）に区分された顔情報から抽出された特徴値の入力を受けて代表特徴値を決定する組合演算部−Ｆ２２２Ａと、その代表特徴値と基準ＤＢを用いて性別及び年齢を識別する識別部−Ｆ２２２Ｂと、を含むことができる。
【００５８】
この場合、組合演算部−Ｆ２２２Ａは、女性グループ（Ｆ）に区分された顔情報を対象とするので、年齢別特徴抽出部２１１、性別特徴抽出部−Ａ２１４及び年齢別特徴抽出部−Ｆ２１６から抽出された特徴値の入力を受けて代表特徴値を識別することができる。
【００５９】
映像演算部−Ｃ２２３は、子供グループ（Ｃ）に区分された顔情報から抽出された特徴値の入力を受けて代表特徴値を決定する組合演算部−Ｃ２２３Ａと、その代表特徴値と基準ＤＢを用いて性別及び年齢を識別する識別部−Ｃ２２３Ｂと、を含むことができる。この場合、組合演算部−Ｃ２２３Ａは、子供グループ（Ｃ）に区分された顔情報から抽出された特徴値の入力を受けるので、年齢別特徴抽出部２１１、年齢別特徴抽出部−Ｃ２１２及び性別特徴抽出部−Ｃ２１３から抽出された特徴値の入力を受けて代表特徴値を識別することができる。
【００６０】
各識別部２２１Ｂ、２２２Ｂ、２２３Ｂは、前述した各組合演算部２２１Ａ、２２２Ａ、２２３Ａから代表特徴値の入力を受けて基準ＤＢを参照して性別及び年齢を演算することができる。これに対する具体的な説明は音声演算部１２０を参照して前述したものと類似するため、更なる詳細な説明は省略する。
【００６１】
また、このような映像処理部２００を用いて年齢及び性別を演算する場合にも、前述のように、顔情報が男性グループ（Ｍ）、女性グループ（Ｆ）及び子供グループ（Ｃ）のうち何れか一つのグループに区分することが難しい場合には、その顔情報を各グループに重複適用することができる。
【００６２】
以下に、最終識別部３００について詳しく説明する。
【００６３】
最終識別部３００では、識別部１２１Ｂ、１２２Ｂ、１２３Ｂ、２２１Ｂ、２２２Ｂ、２２３Ｂのうち一部または全部から出力された性別及び年齢の入力を受け、その入力を受けた性別及び年齢を組み合わせ演算を行って最終的な性別及び年齢を識別することができる。
【００６４】
即ち、入力を受けた複数個の性別及び年齢に対して各々相互類似度を計算し、相互類似度が最も高い性別及び年齢を最終性別及び年齢に決定することができる。または、入力を受けた複数個の性別及び年齢に対する正常識別確率や、信頼度指数を識別する毎に把握して保存しておき、これを用いて最終性別及び年齢を決定することができる。
【００６５】
このような最終識別部３００は、音声処理部１００から出力された性別及び年齢に対して相互類似度を用いて性別及び年齢を識別し、また映像処理部２００から出力された性別及び年齢に対して相互類似度を用いて性別及び年齢を識別した後、二つの識別された性別及び年齢を用いて最終的な性別及び年齢を識別し出力するように実施することができる。
【００６６】
または、最終識別部３００は、音声処理部１００及び映像処理部２００から出力された性別及び年齢の識別結果全体に対して相互類似度を用いて最終的な性別及び年齢を識別し出力するように実施することもできる。
【００６７】
以下では基準ＤＢについて詳しく説明する。
【００６８】
基準ＤＢは、性別及び年齢別基準特徴値または音声及び映像基準サンプルを保存しており、顔情報または音声情報から抽出された特徴値と、前記特徴値に対する性別及び年齢の関係モデルと、から構成される。
【００６９】
このような基準ＤＢに保存された特徴値−性別及び年齢対応関係を用いて、音声演算部１２０または映像演算部２２０は、前述した代表特徴値を基に基準ＤＢを参照して性別及び年齢を獲得することができる。例えば、識別部は、代表特徴値と基準ＤＢの関係モデルとの間の距離値を用いて性別及び年齢を識別することができる。
【００７０】
また基準ＤＢは、特徴値を円滑に抽出し難い場合などにおいて、映像または音声情報を直接用いて性別及び年齢を識別できるように、映像データ及び音声データとそれに対応する性別と年齢を含んで構成される。
【００７１】
基準ＤＢに含まれた映像データは、例えば、カメラと人を各々０．５ｍ、１ｍ、３ｍの距離だけ離隔させて獲得することができる。この時、隔離距離が３ｍである場合は、人の全身が全て含まれるように撮る。このような映像データは１０秒間１００ｆｒａｍｅになるように撮影することができる。前記のように撮影された映像に対して顔検出器、身長検出器、目検出器などを用いて各々の被写体である人の顔、髪型、髭、眉毛の形などを取得して詳細ＤＢを構成することができる。このように構成された詳細ＤＢを用いて特徴値を識別するように本発明を実施することができる。
【００７２】
基準ＤＢに含まれた音声データの場合には、例えば予め用意した５０個の文章を３回繰り返し発声して得ることができる。このような音声データは１６ｋＨｚ、１６ｂｉｔ、ｍｏｎｏタイプなどの様々な形態を有することができる。
【００７３】
かかる基準ＤＢは標本性を備えるために、例えば１２０名を対象にデータを構成することができる。この時、全体男性女性比は１：１になるようにし、各年齢帯に対する比率も１：１になるように構成することができる。
【００７４】
基準ＤＢは学習能力を保有しており、本発明の実施の形態によって性別−年齢に対する演算が行われると、演算の結果値（演算の代表特徴値と最終的な性別及び年齢）を現在構成しているデータに反映してＤＢを再構成（更新）して信頼度を持続的に向上できるようにすることが好ましい。もちろんＤＢ更新に活用される結果値は信頼性が確認された結果値でなければならないのは言うまでもない。
【００７５】
図４は、本発明による性別−年齢識別方法のフローチャートである。
【００７６】
入力部１０は、性別及び年齢を識別しようとする特定人の顔情報及び音声情報を収集する（Ｓ１００）。
【００７７】
収集された音声情報から音声処理部１００が年齢別特徴及び性別特徴を反映して特徴値を抽出し、抽出された一つ以上の特徴値に対して代表特徴値を識別する。そしてその代表特徴値を基準ＤＢに問合せて性別及び年齢を識別する（Ｓ２００）。
【００７８】
それと共に、映像処理部２００が顔情報に対して年齢別特徴及び性別特徴を反映して特徴値を抽出し、抽出された一つ以上の特徴値に対して代表特徴値を識別する。そして前記代表特徴値を基準ＤＢに問合せて性別及び年齢を識別する（Ｓ３００）。
【００７９】
最終識別部３００は、ステップＳ２００及びステップＳ３００によって識別された少なくとも一つの性別及び年齢に対して相互類似度または確率を考慮して最終的に性別及び年齢を識別する（Ｓ４００）。
【００８０】
以下では、図５を参照して図４の音声から性別と年齢を識別するステップ（Ｓ２００）について詳しく説明する。
【００８１】
一般に女性の音声情報と子供の音声情報は類似しているので区別し難いが、女性及び子供の音声情報と男性の音声情報とは区別が容易である点に着目して、音声信号に対し性別特徴を優先的に反映して特徴値を抽出し男性と女性及び子供グループとを分類する（Ｓ２１０）。
【００８２】
このように、音声情報に対して性別特徴を優先的に反映することは、音声情報では性別特徴による差が大きいことを利用したものであり、これにより演算を迅速且つ效率良く行うことができるようになる。
【００８３】
分類結果によって、入力された音声情報を男性グループまたは女性及び子供グループに区別し、男性グループに分類された音声情報に対して男性の年齢別特徴を反映した一つ以上の年齢別特徴値を抽出する（Ｓ２２０）。
【００８４】
また、女性及び子供グループに分類された音声情報に対しては、音声情報が女性グループであるかまたは子供グループであるかを区別できるように、女性及び子供の年齢別特徴を反映した年齢別特徴値を抽出し、女性と子供とを区別する（Ｓ２３０）。
【００８５】
その後、女性グループに区別された音声情報に対して女性の年齢別特徴を反映した年齢別特徴抽出を行う（Ｓ２４０）。
【００８６】
また、子供グループに区別された音声情報に対しては子供の性別及び年齢別特徴抽出を行う（Ｓ２５０）。
【００８７】
このように抽出された特徴値のうち音声情報に対する代表特徴値を決定し、対象者の性別及び年齢を識別する。
【００８８】
例えば、音声演算部１２０が音声特徴抽出部１１０によって抽出された一つ以上の特徴値に対して代表特徴値を決定し、決定された代表特徴値を基に基準ＤＢを用いて性別及び年齢を識別できる。代表特徴値の決定または性別及び年齢の識別は、前述のように男性グループ、女性グループ及び子供グループ別に各々行われることが好ましい。
【００８９】
即ち、男性グループに区分された音声情報の特徴値に対して音声演算−Ｍを行うか（Ｓ２２５）、女性グループに区分された音声情報の特徴値に対して音声演算−Ｆを行うか（Ｓ２４５）、子供グループに区分された音声情報の特徴値に対して音声演算−Ｃを行って（Ｓ２５５）性別及び年齢を識別することができる。
【００９０】
前述のように区別が容易な特徴（例えば、音声情報は性別による特徴）を基準に一次的に音声情報をグループ化し、前記基準によって区別された各グループに対し各グループ別特徴を反映して特徴値を抽出する方法を用いることは本発明の大きな特徴の一つである。前記のような段階的な抽出方法を用いることによって、本発明は識別の正確性を確保することができ、また演算の重複性を排除して対象者の年齢及び性別を迅速に識別することができる。
【００９１】
以下では、図６を参照して図４の映像によって性別と年齢を識別するステップ（Ｓ３００）について詳しく説明する。
【００９２】
映像情報の場合には、一般的に大人と子供を区別することが容易である。例えば、身長のような生体情報を用いるか、顔の大きさと耳、目、口、鼻の大きさとの相対的な比率などを用いて大人と子供を容易に区別することができる。
【００９３】
このような点を用いて、本発明の映像類似度識別ステップでは、一次的に入力を受けた映像情報（顔情報または顔情報を含む映像情報。以下、「顔情報」と称する）に対して前記の年齢別特徴を考慮した特徴値抽出を行う（Ｓ３１０）。前記のようなステップによって入力された顔情報は、子供グループと大人グループに容易に区分されることができる。
【００９４】
その後、子供グループに区分された顔情報に対して子供の年齢別特徴を考慮した年齢別特徴を抽出し（Ｓ３２０）、子供の性別特徴を考慮した性別特徴抽出を行う（Ｓ３３０）。
【００９５】
大人グループに区分された顔情報に対し、大人の性別特徴を考慮した性別特徴抽出を行って大人グループの顔情報を男性グループまたは女性グループに区別する（Ｓ３４０）。
【００９６】
その後、男性グループに区分された顔情報に対し男性の年齢別特徴を考慮した特徴抽出方法を用いて一つ以上の特徴値を抽出する（Ｓ３５０）。女性グループに区分された顔情報に対しては、女性の年齢別特徴を考慮して一つ以上の特徴値を抽出する（Ｓ３６０）。
【００９７】
映像演算部２２０は、前述のように映像特徴抽出部２１０によって抽出された特徴値に対し加重値を反映して代表特徴値を決定し、その決定された代表特徴値及び基準ＤＢを用いて性別及び年齢を識別する。このような映像情報による性別及び年齢識別は、図６に示すように、子供グループ、男性グループ及び女性グループ別に各々行われることが好ましい（Ｓ３２５、Ｓ３５５、Ｓ３６５）。
【００９８】
以上、本発明について添付図面を参照して詳しく説明したが、これは例示したものに過ぎず、本発明の技術的な思想の範囲内で様々な変形と変更が可能であることは自明である。従って、本発明の保護範囲は、前述した実施の形態に限定されてはならず、添付した特許請求範囲の記載による範囲及びそれと均等な範囲を含んで決定されなければならない。
【符号の説明】
【００９９】
１０入力部
２０年齢−性別演算部
３０出力部
１００音声処理部
２００映像処理部
３００最終識別部

【特許請求の範囲】
【請求項１】
映像情報及び音声情報を収集するステップと、
前記収集された音声情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する音声情報を用いた性別及び年齢識別ステップと、
前記収集された映像情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する顔情報を用いた性別及び年齢識別ステップと、
前記音声情報を用いて識別された性別及び年齢と前記顔情報を用いて識別された性別及び年齢とを組み合わせ演算を行って性別及び年齢を最終決定するステップと、
を含むことを特徴とする性別−年齢識別方法。
【請求項２】
前記音声情報を用いた性別及び年齢識別ステップは、
前記入力された音声情報に対し音声の性別特徴を反映して特徴値を抽出する第１性別特徴抽出ステップと、
前記第１性別特徴抽出ステップによって男性グループに区分された前記音声情報に対し、男性の年齢別特徴を反映して特徴値を抽出する第１年齢別特徴抽出ステップと、
前記第１性別特徴抽出ステップによって女性及び子供グループに区分された前記音声情報に対し、女性及び子供の年齢別特徴を反映して特徴値を抽出する第２年齢別特徴抽出ステップと、
をさらに含むことを特徴とする請求項１に記載の性別−年齢識別方法。
【請求項３】
前記音声情報を用いた性別及び年齢識別ステップは、
前記第２年齢別特徴抽出ステップによって女性グループに区分された前記音声情報に対し、女性の年齢別特徴を反映して特徴値を抽出する第３年齢別特徴抽出ステップと、
前記第２年齢別特徴抽出ステップによって子供グループに区分された前記音声情報に対し、子供の性別特徴を反映して特徴値を抽出する第２性別特徴抽出ステップと、
をさらに含むことを特徴とする請求項２に記載の性別−年齢識別方法。
【請求項４】
前記特徴値は、相違するＮ個の特徴値識別方法を適用してＭ個の標本を対象に抽出されることを特徴とする請求項２または請求項３に記載の性別−年齢識別方法。
【請求項５】
前記音声情報を用いた性別及び年齢識別ステップは、
前記抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する代表特徴値決定ステップと、
前記代表特徴値を基準に基準ＤＢを参照して前記性別及び年齢を識別する識別ステップと、
を含むことを特徴とする請求項１に記載の性別−年齢識別方法。
【請求項６】
前記代表特徴値決定ステップ及び前記識別ステップは、男性グループ、女性グループ及び子供グループ別に各々行われることを特徴とする請求項５に記載の性別−年齢識別方法。
【請求項７】
前記代表特徴値決定ステップは、一つ以上の前記加重値が反映された特徴値の平均値、最大値、最小値及び合算値のうち何れか一つの値を前記代表特徴値に決定するステップを含むことを特徴とする請求項５に記載の性別−年齢識別方法。
【請求項８】
前記映像情報を用いた性別及び年齢識別ステップは、
前記収集された映像情報に対し年齢別特徴を反映して特徴値を抽出する第１特徴抽出ステップと、
前記第１特徴抽出ステップの結果によって大人と子供を区別した後、男性、女性及び子供グループ別に分類して各グループ別に一つ以上の特徴値を抽出する第２特徴抽出ステップと、
を含むことを特徴とする請求項１に記載の性別−年齢識別方法。
【請求項９】
前記映像情報を用いた性別及び年齢識別ステップは、
前記抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する代表特徴値決定ステップと、
前記代表特徴値を基準に基準ＤＢを用いて前記性別及び年齢を識別する識別ステップと、をさらに含み、
前記代表特徴値決定ステップ及び前記演算ステップは、男性グループ、女性グループ及び子供グループ別に各々行われることを含む
ことを特徴とする請求項８に記載の性別−年齢識別方法。
【請求項１０】
性別及び年齢を最終決定するステップは、
少なくとも一つの前記音声情報を用いて識別された性別及び年齢と、少なくとも一つの前記映像情報を用いて識別された性別及び年齢各々に対して相互類似度を演算するステップと、
前記相互類似度が最も高い性別及び年齢を最終性別及び年齢に決定するステップと、
を含むことを特徴とする請求項１に記載の性別−年齢識別方法。
【請求項１１】
前記基準ＤＢは、性別及び年齢別特徴値を含み、性別及び年齢別に信頼性が確認された特徴値を反映して持続的に再構成されることを特徴とする請求項５または請求項９に記載の性別−年齢識別方法。
【請求項１２】
映像情報及び音声情報を収集する入力部と、
前記収集された音声情報に対して特徴値を抽出し、抽出された特徴値を用いて前記音声情報から性別及び年齢を識別する音声処理部と、
前記収集された映像情報に対して特徴値を抽出し、抽出された特徴値を用いて前記映像情報から性別及び年齢を識別する映像処理部と、
前記映像処理部で識別された性別及び年齢と前記音声処理部で識別された性別及び年齢とを組み合わせ演算を行って前記特定人の性別及び年齢を最終決定する最終識別部と、
を含むことを特徴とする性別−年齢識別装置。
【請求項１３】
前記音声処理部は、
前記収集された音声情報に対し音声の性別特徴または年齢別特徴を反映して特徴値を抽出する音声特徴抽出部と、
前記音声特徴抽出部から抽出された特徴値に対して代表特徴値を抽出し、前記代表特徴値を用いて前記性別及び年齢を識別する音声演算部と、
を含むことを特徴とする請求項１２に記載の性別−年齢識別装置。
【請求項１４】
前記音声特徴抽出部は、前記収集された音声が男性の音声であるか否かを先に判断した後、男性、女性及び子供グループ別に一つ以上の特徴値を抽出することを特徴とする請求項１３に記載の性別−年齢識別装置。
【請求項１５】
前記音声演算部は、前記男性、女性及び子供グループ別に代表特徴値を決定し、これを用いて性別及び年齢を識別することを特徴とする請求項１４に記載の性別−年齢識別装置。
【請求項１６】
前記映像処理部は、
前記収集された映像情報に対し映像の性別特徴または年齢別特徴を反映して特徴値を抽出する映像特徴抽出部と、
前記映像特徴抽出部から抽出された特徴値に対して代表特徴値を抽出し、前記代表特徴値を用いて前記性別及び年齢を識別する映像演算部と、
を含むことを特徴とする請求項１２に記載の性別−年齢識別装置。
【請求項１７】
前記映像特徴抽出部は、前記収集された音声が大人であるか子供であるかを先に判断した後、男性、女性及び子供グループ別に一つ以上の特徴値を抽出することを特徴とする請求項１６に記載の性別−年齢識別装置。
【請求項１８】
前記映像演算部は、前記男性、女性及び子供グループ別に代表特徴値を決定し、これを用いて性別及び年齢を識別することを特徴とする請求項１７に記載の性別−年齢識別装置。
【請求項１９】
前記最終識別部は、前記音声処理部または前記映像処理部で識別された少なくとも一つの年齢及び性別に対して各々の相互類似度を演算し、前記相互類似度が最も高い性別及び年齢を最終決定することを特徴とする請求項１２に記載の性別−年齢識別装置。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【公開番号】特開２０１０−１５２８６６（Ｐ２０１０−１５２８６６Ａ）
【公開日】平成２２年７月８日（２０１０．７．８）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - イメージデータ処理または発生一般 (58,387)
    - イメージ分析，例．ビットマップから非ビットマップへ (10,245)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 音声の識別または探索 (1,500)
        
        未知音声と標準パタンとの距離または歪みを用いるもの (838)
      - 音響以外の特徴を用いる音声認識，例．唇の位置 (190)
    - 話者の同定または識別 (337)

【出願番号】特願２００９−１８２５８９（Ｐ２００９−１８２５８９）
【出願日】平成２１年８月５日（２００９．８．５）
【出願人】（５９６１８００７６）韓國電子通信研究院 (733)
【氏名又は名称原語表記】Ｅｌｅｃｔｒｏｎｉｃｓ　ａｎｄ　Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ　Ｒｅｓｅａｒｃｈ　Ｉｎｓｔｉｔｕｔｅ
【住所又は居所原語表記】１６１　Ｋａｊｏｎｇ−ｄｏｎｇ，　Ｙｕｓｏｎｇ−ｇｕ，　Ｔａｅｊｏｎ　ｋｏｒｅａ
【Ｆターム（参考）】

[ Back to top ]

音声及び映像に基づく性別−年齢識別方法及びその装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

音声及び映像に基づく性別−年齢識別方法及びその装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク