説明

音声及び映像に基づく性別−年齢識別方法及びその装置

【課題】音声及び映像に基づく性別−年齢識別方法及びその装置を提供する。
【解決手段】性別情報と年齢情報との相互関連性を考慮して音声認識及び顔認識を組み合わせて行うことによって性別及び年齢を正確に演算することができる識別装置及び方法に関する。性別−年齢識別方法は、映像情報及び音声情報を収集するステップと、前記収集された音声情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する音声情報を用いた性別及び年齢識別ステップと、前記収集された映像情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する顔情報を用いた性別及び年齢識別ステップと、前記音声情報を用いて識別された性別及び年齢と前記顔情報を用いて識別された性別及び年齢とを組み合わせ演算を行って性別及び年齢を最終決定するステップと、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力された映像情報及び音声情報から特定人の性別及び年齢を識別することができる方法及びその装置に関し、さらに詳しくは、性別情報と年齢情報の相互関連性を考慮して音声認識及び顔認識を組み合わせて行うことによって正確に性別及び年齢を演算することができる識別装置及び方法に関する。
【背景技術】
【0002】
従来技術によるユーザの性別及び年齢識別技術として、電子住民証のような個人識別手段を用いる方法、顔認識を用いる方法、音声認識を用いる方法などが存在する。
【0003】
個人識別手段を用いる方法のうちの一つである電子住民証を用いた年齢認識方法(韓国公開特許第1999−0008679号)は、各個人が電子住民証のような個人識別手段をいつも携帯しなければならないという不便がある。また電子住民証のような個人識別手段は紛失、破損、偽造などが発生し易い問題点がある。
【0004】
従来の性別−年齢識別技術として使用される顔認識方法の場合には、顔映像情報のみで性別及び年齢を判断しているため、各個人ごとの特徴を反映し難く認識正確度が低い。また、音声認識を用いた認識方法の場合には、音声情報のみで性別及び年齢を判断するため、女性と子供のように音声的特徴が類似する場合などにおいてその認識正確度が劣る問題点がある。
【0005】
また、従来の顔認識または音声認識に基づく識別方式は、性別によって特徴の分布が異なる特異性、または年齢によって性別の特徴分布が異なる特異性などを反映して年齢及び性別を識別することができないため、演算の正確度が低く演算量も多いという短所がある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】韓国公開特許第1999−0008679号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、上述の問題点に鑑みてなされたもので、その目的は、性別情報と年齢情報の相互関連性を利用し、また音声認識及び顔認識を組み合わせることによって認識の正確度を向上させることのできる性別−年齢識別方法及びその装置を提供することにある。
【課題を解決するための手段】
【0008】
上記目的を達成すべく、本発明の一態様による性別−年齢識別方法は、映像情報及び音声情報を収集するステップと、前記収集された音声情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する音声情報を用いた性別及び年齢識別ステップと、前記収集された映像情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する顔情報を用いた性別及び年齢識別ステップと、前記音声情報を用いて識別された性別及び年齢と前記顔情報を用いて識別された性別及び年齢とを組み合わせて演算を行って性別及び年齢を最終決定するステップと、を含む。
【0009】
本発明の他の態様による性別−年齢識別装置は、映像情報及び音声情報を収集する入力部と、前記収集された音声情報に対して特徴値を抽出し、抽出された特徴値を用いて前記音声情報から性別及び年齢を識別する音声処理部と、前記収集された映像情報に対して特徴値を抽出し、抽出された特徴値を用いて前記映像情報から性別及び年齢を識別する映像処理部と、前記映像処理部で識別された性別及び年齢と前記音声処理部で識別された性別及び年齢とを組み合わせて演算を行って前記特定人の性別及び年齢を最終決定する最終識別部と、を含む。
【発明の効果】
【0010】
本発明によれば、音声認識及び顔認識を組み合わせて行うので、従来の音声認識のみを用いた方法または顔認識のみを用いた方法に比べて認識正確度が向上する効果がある。
【0011】
また本発明は、性別情報と年齢情報の相互関連性、例えば、年齢識別は性別によって特徴の分布が異なる特異性、または年齢によって性別の特徴分布が異なる特異性などを反映して年齢及び性別を認識するので、従来の認識方法に比べて高い正確度を保障することができる効果がある。
【0012】
さらに本発明は、特徴抽出において入力された情報に対して各入力情報別に容易に区別できる特徴を基準として一次的に音声情報をグループ化し、前記基準によって区別された各グループに対して各グループ別特徴を反映して特徴値を抽出する方法を用いることによって、識別の正確性を確保することができ、また演算の重複性を排除して迅速な識別を行うことができる効果がある。
【図面の簡単な説明】
【0013】
【図1】本発明に係る性別−年齢識別装置の一実施形態を示す構成図である。
【図2】図1に係る音声処理部の詳細構成図である。
【図3】図1に係る映像処理部の詳細構成図である。
【図4】本発明に係る性別−年齢識別方法のフローチャートである。
【図5】図4の音声類似度識別ステップの詳細なフローチャートである。
【図6】図4の映像類似度識別ステップの詳細なフローチャートである。
【発明を実施するための形態】
【0014】
以下、本発明の好ましい実施の形態を、添付図面に基づき詳細に説明する。
【0015】
図1は、本発明による性別−年齢識別装置の一実施形態を示す構成図である。
【0016】
図1に示すように、本発明による性別−年齢識別装置は、入力部10、年齢−性別演算部20及び出力部30を含んで構成される。
【0017】
入力部10は、特定人の映像情報及び音声情報を収集する。
【0018】
このような入力部10は、映像情報を取得できるカメラのような映像情報取得手段及び音響情報を取得できるスピーカー(マイク)のような音響情報取得手段を含んで構成することができる。
【0019】
また入力部10は、映像情報取得手段によって取得された映像情報から特定人の顔情報のみを別途抽出する顔抽出手段及び音響情報取得手段によって取得された音響情報から特定人の音声情報のみを別途抽出できる音声抽出手段を含んで構成することができる。この場合、年齢−性別演算部20の各特徴抽出手段が毎度顔情報及び音声情報を映像情報及び音響情報から別途抽出する必要がないので迅速な演算が可能になる。
【0020】
かかる顔抽出手段及び音声抽出手段は、従来の顔検出技術を用いて具現されることができる。例えば、顔抽出のために知識ベース手法(Knowledge-baSed MethodS)、特徴ベース手法(Feature-baSed MethodS)、テンプレートマッチング手法(Template-matching MethodS)、見え方に基づいた手法(Appearance-baSed MethodS)、熱赤外線(Infra Red)方法、3次元顔認識方法、マルチモーダル方法などを用いて顔抽出手段を具現することができる。
【0021】
年齢−性別演算部20は、音声情報を基に年齢及び性別を識別する音声処理部100と、映像情報を基に年齢及び性別を識別する映像処理部200と、音声処理部100と映像処理部200の演算結果を総合して年齢及び性別を決定する最終識別部300と、を含んで構成される。
【0022】
出力部30は、年齢−性別演算部20から伝達された年齢及び性別を出力する。
【0023】
以下図2及び図3を参照して、年齢−性別演算部20について詳しく説明する。
【0024】
図2は、図1による音声処理部100の詳細構成図である。
【0025】
図2に示すように、音声処理部100は音声情報から特徴値を抽出する音声特徴抽出部110及びその抽出された特徴値から性別及び年齢を識別する音声演算部120を含んで構成される。
【0026】
さらに詳しく説明すると、音声特徴抽出部110は、音声情報に対して一つ以上の特徴値または特徴ベクトル(以下、「特徴値」と通称する)を抽出する。このような音声特徴抽出部110は、線形予測係数(Linear Predictive Coefficient)方法、ケプストラム(CepStrum)方法、メルフリークエンシーケプストラム(Mel Frequency CepStral Coefficient)方法、フィルタバンクエネルギ(Filter Bank Energy)方法などを用いたり、これらを組み合わせて特徴値を抽出することができる。
【0027】
音声特徴抽出部110は、前述の特徴値識別方法を複数適用して同一の音声情報から複数個の特徴値を抽出するか、単一の特徴値識別方法を使用し複数のサンプルを用いて複数個の特徴値を識別することができる。N個の特徴識別方法でM個の音声サンプルを対象に特徴値を得ると(N*M)の行列形態に特徴値を現すことができる。
【0028】
本発明の実施形態では、音声に対する特徴抽出を正確且つ迅速に行うために、性別特徴抽出部111、年齢別特徴抽出部−M112、年齢別特徴抽出部−FC113、年齢別特徴抽出部−F114及び性別特徴抽出部−C115を含んで音声特徴抽出部110を構成する。
【0029】
性別特徴抽出部111は、入力された音声情報に対する男性と女性の相違点、即ち、性別特徴を反映して特徴値を抽出し、抽出された特徴値を基準に音声情報を男性グループ(M)または女性及び子供グループ(FC)に区分する。
【0030】
年齢別特徴抽出部−M112は、性別特徴抽出部111によって男性グループ(M)に区分された音声情報に対して特徴値を抽出する。この場合に入力される音声情報は男性の音声情報であると判断された音声情報であるため、それに対して男性の年齢別特徴を反映して特徴値を抽出することができる。
【0031】
年齢別特徴抽出部−FC113は、性別特徴抽出部111によって女性及び子供グループ(FC)に区分された音声情報に対して、女性及び子供の年齢別特徴を反映して特徴値を抽出することができる。その後、入力音声情報を改めて女性グループ(F)と子供グループ(C)に区分する。ここで、子供グループ(C)は男女の特徴を区分し難い変声期以前の人を対象とするグループである。
【0032】
年齢別特徴抽出部−F114は、年齢別特徴抽出部−FC113によって女性グループ(F)に区分された音声情報に対して、女性の年齢別特徴を反映して特徴値を抽出することができる。
【0033】
性別特徴抽出部−C115は、年齢別特徴抽出部−FC113によって子供グループ(C)に区分された前記音声情報に対して、子供の性別特徴を反映して特徴値を抽出する。
【0034】
音声演算部120は、前述のように音声特徴抽出部110によって抽出された特徴値の入力を受けて入力音声の性別及び年齢を識別することができる。
【0035】
このために音声演算部120は、音声特徴抽出部110から抽出された特徴値に対して加重値を反映して代表特徴値を決定する組合演算部と、決定された代表特徴値に基づき、性別及び年齢別基準特徴値または音声及び映像基準サンプルを保存している基準DBを参照して性別及び年齢を識別する識別部とを含む。
【0036】
また音声演算部120は、図2に示すように、音声特徴抽出部110でグループ化した男性グループ(M)、女性グループ(F)及び子供グループ(C)に対して各々最適化された組合演算部及び識別部を各々備えるように構成することが好ましい。
【0037】
以下では、このように各々組合演算部及び識別部が備えられた図2に示す実施の形態を基準に説明する。
【0038】
音声演算部120は、音声特徴抽出部110で男性グループ(M)に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−M121と、女性グループ(F)に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−F122と、子供グループ(C)に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−C123と、から構成することができる。
【0039】
さらに詳しく説明すると、音声演算部−M121は組合演算部−M121Aと識別部−M121Bとを含む。組合演算部−M121Aは、男性グループ(M)に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する。識別部−M121Bは、その代表特徴値を基に基準DBを参照して性別及び年齢を識別することができる。また組合演算部−M121Aは、男性グループに区分された音声情報の入力を受けて組合演算を行うので、前述のように性別特徴抽出部111及び年齢別特徴抽出部−M112から抽出された特徴値の入力を受けることができる。
【0040】
同様に音声演算部-F122は、女性グループ(F)に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する組合演算部−F122Aと、その代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部−F122Bと、を含む。前述のように、組合演算部−F122Aは、性別特徴抽出部111、年齢別特徴抽出部−FC113及び年齢別特徴抽出部−F114から抽出された特徴値の入力を受けることができる。
【0041】
また音声演算部−C123は、子供グループ(C)に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する組合演算部−C123Aと、その代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部−C123Bと、を含む。また前述のように、組合演算部−C123Aは、性別特徴抽出部111、年齢別特徴抽出部−FC113及び年齢別特徴抽出部−C115から抽出された特徴値の入力を受けることができる。
【0042】
このような年齢及び性別を識別するために、GMM(GauSSian Mixture Model)、NN(Neural Network)、SVM(Support Vector Machine)などのアルゴリズムを用いて年齢及び性別を識別することができる。しかし、前述したアルゴリズムは例示的なものに過ぎず、前述したアルゴリズム以外にも様々なアルゴリズムを用いて特徴値から年齢及び性別を識別できることは言うまでもない。
【0043】
例えば、GMMのアルゴリズムを用いる場合、各組合演算部121A、122A、123Aは、特徴識別方法の数Nまたは複数個のサンプルの数N個に対応してN個の尤度値(likelihood)を計算し、かかるN個の尤度値で代表値を決定することができる。代表値を決定するために、組合演算部121A、122A、123AはN個尤度値の平均値を求めるか、最大値を求めるか、最小値を求めるか、全体値を合算して代表値を決定することができる。
【0044】
また組合演算部121A、122A、123Aは、代表特徴値の識別において加重値を付与して代表特徴値を識別することができる。このような加重値は、場合によって設定されるかまたは経験的に蓄積された情報を用いて設定することができる。例えば、騷音の発生が頻繁な環境においては、騷音帯域に該当する特徴値部分は加重値を低く設定し、一般的な音声帯域のうち中間程度の帯域に該当する特徴値部分は高い加重値を付与することができる。また各組合演算部121A、122A、123Aは、前述した各グループ(男性、女性、子供)に対して音声的特徴を反映して各々異なる加重値を付与して代表特徴値を決定することができる。
【0045】
以上では音声情報を男性グループ、女性グループ及び子供グループに分けて説明したが、音声情報から抽出した特徴値を特定グループに区分することが難しい場合には、抽出した音声情報を各グループに重複適用することが好ましい。即ち、グループに区分することが難しい音声情報の場合には、該当する各グループに対して演算を各々適用した後、各識別部の結果同士の類似度や正常識別確率、信頼度などを考慮して最終的に最終識別部300によって年齢及び性別を決定する。
【0046】
図3は、図1による映像処理部の詳細構成図である。
【0047】
図3に示すように、映像処理部200は、映像情報から特徴値を抽出する映像特徴抽出部210及びその抽出された特徴値から性別及び年齢を演算する映像演算部220を含んで構成される。
【0048】
映像特徴抽出部210は映像情報の入力を受けて特徴値を抽出することができる。このような映像特徴抽出部210は、さらに年齢別特徴抽出部211、年齢別特徴抽出部−C212、性別特徴抽出部−C213、性別特徴抽出部−A214、年齢別特徴抽出部−M215及び年齢別特徴抽出部−F216を含むことができる。
【0049】
年齢別特徴抽出部211は、入力された顔情報に対し年齢別特徴を反映して特徴値を抽出し、抽出された特徴値を基準に入力された顔情報を大人グループ(A)または子供グループ(C)に区分する。例えば、顔情報の場合、顔の大きさと目の大きさとの比例、目元のシワの有無などを基に大人と子供を区分することが容易である。また年齢別特徴抽出部211は、前記のような年齢別特徴を反映して入力された顔情報に対して特徴値を抽出することができる。
【0050】
年齢別特徴抽出部211によって子供グループ(C)に区分された顔情報に対して、年齢別特徴抽出部−C212は子供の年齢別特徴を反映して特徴値を抽出し、性別特徴抽出部−C213は子供の性別特徴を反映して特徴値を抽出する。
【0051】
性別特徴抽出部−A214は、年齢別特徴抽出部211によって大人グループ(A)に区分された顔情報に対して、大人の性別特徴を反映して特徴値を抽出することができる。その抽出された特徴値を基準に、入力された顔情報を男性グループ(M)と女性グループ(F)とに区分する。
【0052】
年齢別特徴抽出部−M215は、性別特徴抽出部−A214によって男性グループ(M)に区分された顔情報に対して、男性の年齢別特徴を反映して特徴値を抽出する。また年齢別特徴抽出部−F216は、性別特徴抽出部−A214によって女性グループ(F)に区分された顔情報に対して、女性の年齢別特徴を反映して特徴値を抽出する。
【0053】
映像演算部220は、前記のように映像特徴抽出部210によって抽出された特徴値を用いて映像情報から性別及び年齢を識別する。
【0054】
即ち、映像演算部220は、映像特徴抽出部210から抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する組合演算部及び代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部から構成される。
【0055】
また映像演算部220は、図3に示すように、前述のように映像特徴抽出部210によってグループ化された男性グループ(M)、女性グループ(F)及び子供グループ(C)に対して各々最適化された組合演算部及び識別部を有するように構成される。即ち、映像演算部220は、男性グループに区分された映像情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−M221と、女性グループに区分された音声情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−F222と、子供グループに区分された音声情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−C223と、から構成される。
【0056】
映像演算部−M221は、男性グループ(M)に区分された顔情報から抽出された一つ以上の特徴値の入力を受けて代表特徴値を決定する組合演算部−M221Aと、その代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部−M221Bと、を含むことができる。組合演算部−M221Aは男性グループ(M)に区分された顔情報から抽出された特徴値の入力を受けるので、年齢別特徴抽出部211、性別特徴抽出部−A214及び年齢別特徴抽出部−M215から抽出された特徴値の入力を受けて代表特徴値を識別することができる。
【0057】
映像演算部−F222は、女性グループ(F)に区分された顔情報から抽出された特徴値の入力を受けて代表特徴値を決定する組合演算部−F222Aと、その代表特徴値と基準DBを用いて性別及び年齢を識別する識別部−F222Bと、を含むことができる。
【0058】
この場合、組合演算部−F222Aは、女性グループ(F)に区分された顔情報を対象とするので、年齢別特徴抽出部211、性別特徴抽出部−A214及び年齢別特徴抽出部−F216から抽出された特徴値の入力を受けて代表特徴値を識別することができる。
【0059】
映像演算部−C223は、子供グループ(C)に区分された顔情報から抽出された特徴値の入力を受けて代表特徴値を決定する組合演算部−C223Aと、その代表特徴値と基準DBを用いて性別及び年齢を識別する識別部−C223Bと、を含むことができる。この場合、組合演算部−C223Aは、子供グループ(C)に区分された顔情報から抽出された特徴値の入力を受けるので、年齢別特徴抽出部211、年齢別特徴抽出部−C212及び性別特徴抽出部−C213から抽出された特徴値の入力を受けて代表特徴値を識別することができる。
【0060】
各識別部221B、222B、223Bは、前述した各組合演算部221A、222A、223Aから代表特徴値の入力を受けて基準DBを参照して性別及び年齢を演算することができる。これに対する具体的な説明は音声演算部120を参照して前述したものと類似するため、更なる詳細な説明は省略する。
【0061】
また、このような映像処理部200を用いて年齢及び性別を演算する場合にも、前述のように、顔情報が男性グループ(M)、女性グループ(F)及び子供グループ(C)のうち何れか一つのグループに区分することが難しい場合には、その顔情報を各グループに重複適用することができる。
【0062】
以下に、最終識別部300について詳しく説明する。
【0063】
最終識別部300では、識別部121B、122B、123B、221B、222B、223Bのうち一部または全部から出力された性別及び年齢の入力を受け、その入力を受けた性別及び年齢を組み合わせ演算を行って最終的な性別及び年齢を識別することができる。
【0064】
即ち、入力を受けた複数個の性別及び年齢に対して各々相互類似度を計算し、相互類似度が最も高い性別及び年齢を最終性別及び年齢に決定することができる。または、入力を受けた複数個の性別及び年齢に対する正常識別確率や、信頼度指数を識別する毎に把握して保存しておき、これを用いて最終性別及び年齢を決定することができる。
【0065】
このような最終識別部300は、音声処理部100から出力された性別及び年齢に対して相互類似度を用いて性別及び年齢を識別し、また映像処理部200から出力された性別及び年齢に対して相互類似度を用いて性別及び年齢を識別した後、二つの識別された性別及び年齢を用いて最終的な性別及び年齢を識別し出力するように実施することができる。
【0066】
または、最終識別部300は、音声処理部100及び映像処理部200から出力された性別及び年齢の識別結果全体に対して相互類似度を用いて最終的な性別及び年齢を識別し出力するように実施することもできる。
【0067】
以下では基準DBについて詳しく説明する。
【0068】
基準DBは、性別及び年齢別基準特徴値または音声及び映像基準サンプルを保存しており、顔情報または音声情報から抽出された特徴値と、前記特徴値に対する性別及び年齢の関係モデルと、から構成される。
【0069】
このような基準DBに保存された特徴値−性別及び年齢対応関係を用いて、音声演算部120または映像演算部220は、前述した代表特徴値を基に基準DBを参照して性別及び年齢を獲得することができる。例えば、識別部は、代表特徴値と基準DBの関係モデルとの間の距離値を用いて性別及び年齢を識別することができる。
【0070】
また基準DBは、特徴値を円滑に抽出し難い場合などにおいて、映像または音声情報を直接用いて性別及び年齢を識別できるように、映像データ及び音声データとそれに対応する性別と年齢を含んで構成される。
【0071】
基準DBに含まれた映像データは、例えば、カメラと人を各々0.5m、1m、3mの距離だけ離隔させて獲得することができる。この時、隔離距離が3mである場合は、人の全身が全て含まれるように撮る。このような映像データは10秒間100frameになるように撮影することができる。前記のように撮影された映像に対して顔検出器、身長検出器、目検出器などを用いて各々の被写体である人の顔、髪型、髭、眉毛の形などを取得して詳細DBを構成することができる。このように構成された詳細DBを用いて特徴値を識別するように本発明を実施することができる。
【0072】
基準DBに含まれた音声データの場合には、例えば予め用意した50個の文章を3回繰り返し発声して得ることができる。このような音声データは16kHz、16bit、monoタイプなどの様々な形態を有することができる。
【0073】
かかる基準DBは標本性を備えるために、例えば120名を対象にデータを構成することができる。この時、全体男性女性比は1:1になるようにし、各年齢帯に対する比率も1:1になるように構成することができる。
【0074】
基準DBは学習能力を保有しており、本発明の実施の形態によって性別−年齢に対する演算が行われると、演算の結果値(演算の代表特徴値と最終的な性別及び年齢)を現在構成しているデータに反映してDBを再構成(更新)して信頼度を持続的に向上できるようにすることが好ましい。もちろんDB更新に活用される結果値は信頼性が確認された結果値でなければならないのは言うまでもない。
【0075】
図4は、本発明による性別−年齢識別方法のフローチャートである。
【0076】
入力部10は、性別及び年齢を識別しようとする特定人の顔情報及び音声情報を収集する(S100)。
【0077】
収集された音声情報から音声処理部100が年齢別特徴及び性別特徴を反映して特徴値を抽出し、抽出された一つ以上の特徴値に対して代表特徴値を識別する。そしてその代表特徴値を基準DBに問合せて性別及び年齢を識別する(S200)。
【0078】
それと共に、映像処理部200が顔情報に対して年齢別特徴及び性別特徴を反映して特徴値を抽出し、抽出された一つ以上の特徴値に対して代表特徴値を識別する。そして前記代表特徴値を基準DBに問合せて性別及び年齢を識別する(S300)。
【0079】
最終識別部300は、ステップS200及びステップS300によって識別された少なくとも一つの性別及び年齢に対して相互類似度または確率を考慮して最終的に性別及び年齢を識別する(S400)。
【0080】
以下では、図5を参照して図4の音声から性別と年齢を識別するステップ(S200)について詳しく説明する。
【0081】
一般に女性の音声情報と子供の音声情報は類似しているので区別し難いが、女性及び子供の音声情報と男性の音声情報とは区別が容易である点に着目して、音声信号に対し性別特徴を優先的に反映して特徴値を抽出し男性と女性及び子供グループとを分類する(S210)。
【0082】
このように、音声情報に対して性別特徴を優先的に反映することは、音声情報では性別特徴による差が大きいことを利用したものであり、これにより演算を迅速且つ效率良く行うことができるようになる。
【0083】
分類結果によって、入力された音声情報を男性グループまたは女性及び子供グループに区別し、男性グループに分類された音声情報に対して男性の年齢別特徴を反映した一つ以上の年齢別特徴値を抽出する(S220)。
【0084】
また、女性及び子供グループに分類された音声情報に対しては、音声情報が女性グループであるかまたは子供グループであるかを区別できるように、女性及び子供の年齢別特徴を反映した年齢別特徴値を抽出し、女性と子供とを区別する(S230)。
【0085】
その後、女性グループに区別された音声情報に対して女性の年齢別特徴を反映した年齢別特徴抽出を行う(S240)。
【0086】
また、子供グループに区別された音声情報に対しては子供の性別及び年齢別特徴抽出を行う(S250)。
【0087】
このように抽出された特徴値のうち音声情報に対する代表特徴値を決定し、対象者の性別及び年齢を識別する。
【0088】
例えば、音声演算部120が音声特徴抽出部110によって抽出された一つ以上の特徴値に対して代表特徴値を決定し、決定された代表特徴値を基に基準DBを用いて性別及び年齢を識別できる。代表特徴値の決定または性別及び年齢の識別は、前述のように男性グループ、女性グループ及び子供グループ別に各々行われることが好ましい。
【0089】
即ち、男性グループに区分された音声情報の特徴値に対して音声演算−Mを行うか(S225)、女性グループに区分された音声情報の特徴値に対して音声演算−Fを行うか(S245)、子供グループに区分された音声情報の特徴値に対して音声演算−Cを行って(S255)性別及び年齢を識別することができる。
【0090】
前述のように区別が容易な特徴(例えば、音声情報は性別による特徴)を基準に一次的に音声情報をグループ化し、前記基準によって区別された各グループに対し各グループ別特徴を反映して特徴値を抽出する方法を用いることは本発明の大きな特徴の一つである。前記のような段階的な抽出方法を用いることによって、本発明は識別の正確性を確保することができ、また演算の重複性を排除して対象者の年齢及び性別を迅速に識別することができる。
【0091】
以下では、図6を参照して図4の映像によって性別と年齢を識別するステップ(S300)について詳しく説明する。
【0092】
映像情報の場合には、一般的に大人と子供を区別することが容易である。例えば、身長のような生体情報を用いるか、顔の大きさと耳、目、口、鼻の大きさとの相対的な比率などを用いて大人と子供を容易に区別することができる。
【0093】
このような点を用いて、本発明の映像類似度識別ステップでは、一次的に入力を受けた映像情報(顔情報または顔情報を含む映像情報。以下、「顔情報」と称する)に対して前記の年齢別特徴を考慮した特徴値抽出を行う(S310)。前記のようなステップによって入力された顔情報は、子供グループと大人グループに容易に区分されることができる。
【0094】
その後、子供グループに区分された顔情報に対して子供の年齢別特徴を考慮した年齢別特徴を抽出し(S320)、子供の性別特徴を考慮した性別特徴抽出を行う(S330)。
【0095】
大人グループに区分された顔情報に対し、大人の性別特徴を考慮した性別特徴抽出を行って大人グループの顔情報を男性グループまたは女性グループに区別する(S340)。
【0096】
その後、男性グループに区分された顔情報に対し男性の年齢別特徴を考慮した特徴抽出方法を用いて一つ以上の特徴値を抽出する(S350)。女性グループに区分された顔情報に対しては、女性の年齢別特徴を考慮して一つ以上の特徴値を抽出する(S360)。
【0097】
映像演算部220は、前述のように映像特徴抽出部210によって抽出された特徴値に対し加重値を反映して代表特徴値を決定し、その決定された代表特徴値及び基準DBを用いて性別及び年齢を識別する。このような映像情報による性別及び年齢識別は、図6に示すように、子供グループ、男性グループ及び女性グループ別に各々行われることが好ましい(S325、S355、S365)。
【0098】
以上、本発明について添付図面を参照して詳しく説明したが、これは例示したものに過ぎず、本発明の技術的な思想の範囲内で様々な変形と変更が可能であることは自明である。従って、本発明の保護範囲は、前述した実施の形態に限定されてはならず、添付した特許請求範囲の記載による範囲及びそれと均等な範囲を含んで決定されなければならない。
【符号の説明】
【0099】
10 入力部
20 年齢−性別演算部
30 出力部
100 音声処理部
200 映像処理部
300 最終識別部

【特許請求の範囲】
【請求項1】
映像情報及び音声情報を収集するステップと、
前記収集された音声情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する音声情報を用いた性別及び年齢識別ステップと、
前記収集された映像情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する顔情報を用いた性別及び年齢識別ステップと、
前記音声情報を用いて識別された性別及び年齢と前記顔情報を用いて識別された性別及び年齢とを組み合わせ演算を行って性別及び年齢を最終決定するステップと、
を含むことを特徴とする性別−年齢識別方法。
【請求項2】
前記音声情報を用いた性別及び年齢識別ステップは、
前記入力された音声情報に対し音声の性別特徴を反映して特徴値を抽出する第1性別特徴抽出ステップと、
前記第1性別特徴抽出ステップによって男性グループに区分された前記音声情報に対し、男性の年齢別特徴を反映して特徴値を抽出する第1年齢別特徴抽出ステップと、
前記第1性別特徴抽出ステップによって女性及び子供グループに区分された前記音声情報に対し、女性及び子供の年齢別特徴を反映して特徴値を抽出する第2年齢別特徴抽出ステップと、
をさらに含むことを特徴とする請求項1に記載の性別−年齢識別方法。
【請求項3】
前記音声情報を用いた性別及び年齢識別ステップは、
前記第2年齢別特徴抽出ステップによって女性グループに区分された前記音声情報に対し、女性の年齢別特徴を反映して特徴値を抽出する第3年齢別特徴抽出ステップと、
前記第2年齢別特徴抽出ステップによって子供グループに区分された前記音声情報に対し、子供の性別特徴を反映して特徴値を抽出する第2性別特徴抽出ステップと、
をさらに含むことを特徴とする請求項2に記載の性別−年齢識別方法。
【請求項4】
前記特徴値は、相違するN個の特徴値識別方法を適用してM個の標本を対象に抽出されることを特徴とする請求項2または請求項3に記載の性別−年齢識別方法。
【請求項5】
前記音声情報を用いた性別及び年齢識別ステップは、
前記抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する代表特徴値決定ステップと、
前記代表特徴値を基準に基準DBを参照して前記性別及び年齢を識別する識別ステップと、
を含むことを特徴とする請求項1に記載の性別−年齢識別方法。
【請求項6】
前記代表特徴値決定ステップ及び前記識別ステップは、男性グループ、女性グループ及び子供グループ別に各々行われることを特徴とする請求項5に記載の性別−年齢識別方法。
【請求項7】
前記代表特徴値決定ステップは、一つ以上の前記加重値が反映された特徴値の平均値、最大値、最小値及び合算値のうち何れか一つの値を前記代表特徴値に決定するステップを含むことを特徴とする請求項5に記載の性別−年齢識別方法。
【請求項8】
前記映像情報を用いた性別及び年齢識別ステップは、
前記収集された映像情報に対し年齢別特徴を反映して特徴値を抽出する第1特徴抽出ステップと、
前記第1特徴抽出ステップの結果によって大人と子供を区別した後、男性、女性及び子供グループ別に分類して各グループ別に一つ以上の特徴値を抽出する第2特徴抽出ステップと、
を含むことを特徴とする請求項1に記載の性別−年齢識別方法。
【請求項9】
前記映像情報を用いた性別及び年齢識別ステップは、
前記抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する代表特徴値決定ステップと、
前記代表特徴値を基準に基準DBを用いて前記性別及び年齢を識別する識別ステップと、をさらに含み、
前記代表特徴値決定ステップ及び前記演算ステップは、男性グループ、女性グループ及び子供グループ別に各々行われることを含む
ことを特徴とする請求項8に記載の性別−年齢識別方法。
【請求項10】
性別及び年齢を最終決定するステップは、
少なくとも一つの前記音声情報を用いて識別された性別及び年齢と、少なくとも一つの前記映像情報を用いて識別された性別及び年齢各々に対して相互類似度を演算するステップと、
前記相互類似度が最も高い性別及び年齢を最終性別及び年齢に決定するステップと、
を含むことを特徴とする請求項1に記載の性別−年齢識別方法。
【請求項11】
前記基準DBは、性別及び年齢別特徴値を含み、性別及び年齢別に信頼性が確認された特徴値を反映して持続的に再構成されることを特徴とする請求項5または請求項9に記載の性別−年齢識別方法。
【請求項12】
映像情報及び音声情報を収集する入力部と、
前記収集された音声情報に対して特徴値を抽出し、抽出された特徴値を用いて前記音声情報から性別及び年齢を識別する音声処理部と、
前記収集された映像情報に対して特徴値を抽出し、抽出された特徴値を用いて前記映像情報から性別及び年齢を識別する映像処理部と、
前記映像処理部で識別された性別及び年齢と前記音声処理部で識別された性別及び年齢とを組み合わせ演算を行って前記特定人の性別及び年齢を最終決定する最終識別部と、
を含むことを特徴とする性別−年齢識別装置。
【請求項13】
前記音声処理部は、
前記収集された音声情報に対し音声の性別特徴または年齢別特徴を反映して特徴値を抽出する音声特徴抽出部と、
前記音声特徴抽出部から抽出された特徴値に対して代表特徴値を抽出し、前記代表特徴値を用いて前記性別及び年齢を識別する音声演算部と、
を含むことを特徴とする請求項12に記載の性別−年齢識別装置。
【請求項14】
前記音声特徴抽出部は、前記収集された音声が男性の音声であるか否かを先に判断した後、男性、女性及び子供グループ別に一つ以上の特徴値を抽出することを特徴とする請求項13に記載の性別−年齢識別装置。
【請求項15】
前記音声演算部は、前記男性、女性及び子供グループ別に代表特徴値を決定し、これを用いて性別及び年齢を識別することを特徴とする請求項14に記載の性別−年齢識別装置。
【請求項16】
前記映像処理部は、
前記収集された映像情報に対し映像の性別特徴または年齢別特徴を反映して特徴値を抽出する映像特徴抽出部と、
前記映像特徴抽出部から抽出された特徴値に対して代表特徴値を抽出し、前記代表特徴値を用いて前記性別及び年齢を識別する映像演算部と、
を含むことを特徴とする請求項12に記載の性別−年齢識別装置。
【請求項17】
前記映像特徴抽出部は、前記収集された音声が大人であるか子供であるかを先に判断した後、男性、女性及び子供グループ別に一つ以上の特徴値を抽出することを特徴とする請求項16に記載の性別−年齢識別装置。
【請求項18】
前記映像演算部は、前記男性、女性及び子供グループ別に代表特徴値を決定し、これを用いて性別及び年齢を識別することを特徴とする請求項17に記載の性別−年齢識別装置。
【請求項19】
前記最終識別部は、前記音声処理部または前記映像処理部で識別された少なくとも一つの年齢及び性別に対して各々の相互類似度を演算し、前記相互類似度が最も高い性別及び年齢を最終決定することを特徴とする請求項12に記載の性別−年齢識別装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−152866(P2010−152866A)
【公開日】平成22年7月8日(2010.7.8)
【国際特許分類】
【出願番号】特願2009−182589(P2009−182589)
【出願日】平成21年8月5日(2009.8.5)
【出願人】(596180076)韓國電子通信研究院 (733)
【氏名又は名称原語表記】Electronics and Telecommunications Research Institute
【住所又は居所原語表記】161 Kajong−dong, Yusong−gu, Taejon korea
【Fターム(参考)】