説明

国籍判定装置、方法およびプログラム

【課題】個人の人種・形質のような生物学的特性、民族といった文化人類学的特性、発声した言語の属する母国語ないし方言といった言語学的特性その他の個人の外部的特徴を客観的に測定し、その測定結果に基づいて個人の国籍を自動的・総合的に判定し、それに応じたアクションを実行する。
【解決手段】国籍判定装置5は、画像解析装置2または音声解析装置4による個々の解析結果に対応する国籍情報を国籍情報DB6から抽出する。次に、国籍判定装置5は、国籍情報DB6から抽出された個々の国籍情報に基づいて人物の最終的な国籍を判定する。これは例えば、各解析結果に対応する個別の国籍情報に優先度を予め国籍情報DB6などの記憶媒体に定義しておき、最も高い優先度を有する個別の国籍情報を最終的な国籍とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象人物の属性に応じた情報提供を行う技術に関する。
【背景技術】
【0002】
特許文献1では、複数種類の人物属性識別用データに対応させてこれらを個別に識別するための人物属性識別用モデルを予め用意しておき、人物属性識別用データ作成処理手段により、カメラで人物を撮影して得られた処理対象のフレーム画像から複数種類の人物属性識別用データを作成した後、指標値算出処理手段37により、人物属性識別用モデルを用いて各人物属性識別用データについて尤度等の指標値を個別に算出し、その後、識別結果情報算出処理手段により、複数の指標値を統合する。
【0003】
特許文献2では、顔認識部は、カメラの前の人物を撮影し、その画像内から顔部分を検出して、検出された顔画像が年齢・性別・職業・国籍・出身地・表情などの属性に関し、いずれのカテゴリの顔特徴に類似しているかを判定する。演出統括部は、人物を含む来場者からの操作に関する入力の処理、来場者の履歴情報ファイルの管理、ランキング集計、顔認識部への撮影命令の送信、メール送信などのシステム全体の統括制御と、来場者への操作に関する指示の表示、属性判定結果の表示、ランキング表示などの演出表示制御を行う。来場者情報蓄積部は、来場者別に作成された履歴情報ファイルおよび撮影顔画像ファイルを記憶領域に蓄積する。
【0004】
特許文献3および4は従来の複数言語音声認識システムの一例である。また、特許文献5は従来の服装認識の一例である。
【0005】
特許文献6は、顔の特徴点の検出技術の一例であり、検出対象画像上の所定対象物の複数種類の特徴点を、マシンラーニングで生成された許容度が大きい第1の特徴点検出器群と、統計的学習により生成された、上記複数種類の特徴点同士の位置関係を規定する、許容度が大きい第1の位置関係モデルとを用いて、当該位置関係で拘束された上記複数種類の特徴点を暫定的に決定した後、その暫定的な各特徴点の近傍で、マシンラーニングで生成された許容度が小さい第2の特徴点検出器群と、統計的学習により生成された、許容度が小さい第2の位置関係モデルとを用いて、当該位置関係で拘束された上記複数種類の最終的な特徴点を決定する。
【0006】
特許文献7は、人体領域の抽出の一例であり、画像中の顔領域Fを検出し、検出された顔領域Fの位置情報から人体領域が含まれるであろう候補領域Cを決定し、その候補領域を構成する各単位領域が人体領域を含むか否かを判断し、人体領域を含むと判断された単位領域の集合を人体領域が含まれると推測される推測領域Eとして決定し、その推測領域E中の人体領域Huを抽出し、推測領域E中の輪郭周辺領域に人体領域Huが存在しないと判断されるまで、推測領域Eを拡張更新し、拡張更新された推測領域E中の人体領域を抽出することを繰り返し行う。
【0007】
特許文献8は、顔抽出の一例であり、顔の形状、目、口の輪郭を、テンプレートとのマッチング度に応じて抽出する。
【0008】
特許文献9は、瞳領域抽出の一例であり、エッジ検出、形状パターン検出、位置情報等を用いて目を抽出し、この目の画像データの輝度ヒストグラムから低輝度領域を抽出し、抽出した低輝度領域を収縮処理して瞳の領域を抽出する。
【0009】
特許文献10は、鼻形状抽出の一例であり、所定の検索領域内のエッジ映像上で所定の形状のテンプレートを整合する。大きい整合値を有する検出された候補のうち対称条件を満足する対を選択して鼻翼面位置として決定する。各鼻側面を多項式曲線によって表現するが、曲線は検出された鼻翼面テンプレート及び所定の係数で鼻翼面及び目のコーナー間に補間された3点に合致する。結局、所定の補間係数を使用して鼻先と低い鼻の曲面が位置する。
【0010】
また特許文献10は、口形状抽出の一例であり、まず、口の方形を初期化する。非皮膚色画素のモーメントを分析することによって初期方形をより精密な境界ボックスに縮少させる。唇関数映像を構成して、精製された境界ボックス内の画素を利用して画素が唇または皮膚に属する確率を測定する。高い唇関数値を有する画素の2次中心モーメントを測定することによって楕円を有して、唇の外郭線を初期化する。外力及び内力によって唇の外郭線を動的に移動させる。移動結果点に多項式を近似させて曲線表現式を生成する。
【0011】
特許文献11は、髪形検出の一例を示しており、髪形モデル形状パターンと画像のマッチングにより髪形を識別する。
【0012】
特許文献12は、画像から検出された顔から年齢を推定する一例を示しており、性別及び年代が異なる複数の参照人物について異なる複数の顔向き方向から撮像された参照顔画像毎の参照特徴ベクトルの内から、性別及び年代が不明な顧客の顔を任意の顔向き方向から撮像した対象顔画像の対象特徴ベクトルに類似するものを判別する。この参照特徴ベクトルに対する参照顔画像が撮像された顔向き方向の範囲を、対象顔画像が撮像された顔向き方向の範囲であると推定する。さらに、推定された範囲の顔向き方向で撮像された参照顔画像の特徴ベクトルの内から対象特徴ベクトルに類似するものを判別することで、その参照特徴ベクトルに対応する参照顔画像の参照人物の性別あるいは年代が顧客の性別あるいは年代であると推定する。
【0013】
特許文献13は、画像から文字認識と認識文字の言語を推定する技術の一例であり、カメラ付き携帯電話は、複数の言語のいずれかに含まれる文字の画像を文字認識して文字コードに変換する認識処理部とを有している。当該認識処理部は、上記複数の言語のそれぞれについて、文字の認識結果が当該言語でありそうだと推定したことを示す推定履歴情報を履歴情報記憶部に格納する言語可能性値推定部と、認識対象とする文字の属する言語が当該言語であると指定する操作を受け付けたことを示す操作履歴情報を履歴情報記憶部に格納する操作部とを備え、上記履歴情報記憶部の履歴情報を参照して、文字の画像を文字コードに変換する。
【0014】
特許文献14は、音声から話者の性別・年齢に対応した音響モデルを選定する技術の一例であり、MFCCなど公知の音声認識特徴量への変換処理を行った後、性別もしくは年齢層別にカテゴライズされた複数の音響モデルと、言語モデルを用いて、マッチング処理を行う。ここで、各音響モデルを用いてマッチングした場合の認識結果のうち、上位N個の尤度もしくは単語信頼度の最も平均値が高い音響モデルを選定する。
【先行技術文献】
【特許文献】
【0015】
【特許文献1】特開2005−250712号公報
【特許文献2】特開2007−80057号公報
【特許文献3】特開2001−188556号公報
【特許文献4】特開平10−116093号公報
【特許文献5】特開2007−272896号公報
【特許文献6】特開2008−3749号公報
【特許文献7】特開2008−15641号公報
【特許文献8】特開2001−209802号公報
【特許文献9】特開2005−122287号公報
【特許文献10】特開2005−78646号公報
【特許文献11】特開平11−169357号公報
【特許文献12】特開2008−282089号公報
【特許文献13】特開2006−331354号公報
【特許文献14】特開2008−96577号公報
【発明の概要】
【発明が解決しようとする課題】
【0016】
様々な国の人が訪れる空港や大都市のメインストリートで実施されるデジタルサイネージのように不特定多数の人に向けた情報を発信する場合、その個人の国籍(本願明細書では、純粋に法的な国籍ではなく、個人の属する何らかの国際的カテゴリーを表す情報とする)に合わせて情報の内容を選択あるいは変更できると、情報の伝達が効果的である。
【0017】
特許文献1〜5では、性別、年齢、顔のサンプル類似度、言語認識、服装認識を各々行っているが、各要素単独のみで情報の伝達内容を選ぶには正確性に欠ける。
【0018】
本発明は、個人の人種・形質のような生物学的特性、民族といった文化人類学的特性、発声した言語の属する母国語ないし方言といった言語学的特性その他の個人の外部的特徴を客観的に測定し、その測定結果に基づいて個人の国籍を自動的・総合的に判定し、それに応じたアクションを実行する。
【課題を解決するための手段】
【0019】
国籍判定装置は、画像を入力する画像入力部と、画像入力部の入力した画像から人物の属性に関する特徴量を複数抽出し、抽出された個々の特徴量に基づいて、個々の特徴量に対応する人物の国籍を個別に判定する画像国籍判定部と、画像国籍判定部が個別に判定した個々の特徴量に対応する人物の国籍に基づいて、最終的な人物の国籍を判定する最終国籍判定部と、を備える。
【0020】
好ましくは、個々の特徴量は、画像から検出された顔領域の特徴量および顔領域の周辺領域の特徴量を含む。
【0021】
好ましくは、顔領域の特徴量は、顔パーツの色、位置および形状を含む。
【0022】
好ましくは、顔領域の周辺領域の特徴量は文字情報および被服情報のうち少なくとも一方を含む。
【0023】
好ましくは、音声を入力する音声入力部と、音声入力部の入力した音声に基づいて音声に対応する人物の国籍を判定する音声国籍判定部と、を備え、最終国籍判定部は、画像国籍判定部の判定した個々の特徴量に対応する人物の国籍と音声国籍判定部の判定した音声に対応する国籍に基づいて、最終的な人物の国籍を判定する。
【0024】
好ましくは、画像中の人物の国籍を、画像と発話内容から総合的に判断できる。
【0025】
好ましくは、音声国籍判定部は、音声から発話言語を認識し、認識された発話言語に基づいて音声に対応する国籍を判定する。
【0026】
好ましくは、画像国籍判定部は、画像から人物の普遍的な属性に関する特徴量を抽出し、抽出された人物の普遍的な属性に関する特徴量に基づいて、画像に対応する人物の普遍的な属性を判定し、音声国籍判定部は、音声に基づいて音声に対応する人物の普遍的な属性を判定し、最終国籍判定部は、画像国籍判定部の判定した画像に対応する人物の普遍的な属性と音声国籍判定部の判定した音声に対応する人物の普遍的な属性に基づいて、最終的な人物の普遍的な属性を判定する。
【0027】
好ましくは、最終的な人物の普遍的な属性は性別および年齢のうち少なくとも一方を含む。
【0028】
好ましくは、最終国籍判定部は、画像国籍判定部の判定した個々の特徴量に対応する人物の国籍および音声国籍判定部の判定した音声に対応する国籍に対応して予め定義された優先度に基づいて、最終的な人物の国籍を判定する。
【0029】
好ましくは、最終国籍判定部の判定した最終的な人物の国籍を示す情報を所定の再生装置に出力する最終判定結果出力部を備える。
【0030】
好ましくは、最終的な人物の国籍と所望の再生情報とを対応づけて記憶する再生情報記憶部と、最終国籍判定部の判定した最終的な人物の国籍に対応する再生情報を再生情報記憶部から抽出し、抽出された再生情報を所定の再生装置に出力する再生情報出力部を備える。
【0031】
本発明に係る国籍判定方法は、コンピュータが、画像を入力するステップと、入力した画像から人物の属性に関する特徴量を複数抽出し、抽出された個々の特徴量に基づいて、個々の特徴量に対応する人物の国籍を個別に判定するステップと、個別に判定した個々の特徴量に対応する人物の国籍に基づいて、最終的な人物の国籍を判定するステップと、を含む。
【0032】
国籍判定方法をコンピュータに実行させるためのプログラムも本発明に含まれる。
【発明の効果】
【0033】
本発明によると、画像中の人物の国籍を、画像から得られた各々の特徴量から、さらに音声から、総合的に判断できる。また、その国籍に応じた情報の再生を行うことができ、人物の国籍に対応した内容の情報を提供できる。
【図面の簡単な説明】
【0034】
【図1】国籍判定システムの概略構成図
【図2】国籍判定処理のフローチャート
【図3】国籍情報DBの情報を例示した図
【発明を実施するための形態】
【0035】
図1は本発明の好ましい実施形態に係る国籍判定システム100の概略構成図である。このシステムは、画像入力装置1、画像解析装置2、音声入力装置3、音声解析装置4、国籍判定装置5、国籍情報DB6、国籍対応情報DB7、表示装置8を含む。国籍判定装置は単独のパソコン(演算回路、データ入出力回路、表示回路、操作装置、通信回路などを備えたもの)でもよいし、各パソコンがネットワークで接続されることで構成されてもよい。例えば、国籍情報DB6、国籍対応情報DB7はサーバコンピュータ、その他の装置はクライアントコンピュータとすることもできる。よって、これらの各装置が同じ場所に一体的に設置される必要はなく、例えば画像入力装置1、音声入力装置3、表示装置8は、空港のロビー、デパートの売り場、地下道の壁面、電車の乗降用扉の上部など人目につく場所に設置し、画像解析装置2、音声入力装置3、音声解析装置4、国籍判定装置5、国籍情報DB6、国籍対応情報DB7は、空港や地下道の管理室など人目につかない場所に置くことができる。
【0036】
画像入力装置1は、画像(静止画または動画)を画像解析装置2に入力する。画像入力装置1は、撮像装置そのものでもよいし、他の撮像装置で撮影された画像を画像解析装置2に転送入力するインターフェースでもよい。入力される画像の被写体は、不特定多数の人通りのある場所に設置された撮像装置で撮影された人物である。例えば、上述のように画像入力装置1に組み込まれたか接続された撮像装置が空港のロビー、デパートの売り場、地下道の壁、電車の乗降用扉の上部などに設置されていれば、その被写体は、空港のロビーやデパートや地下道や電車を利用する人たちである。
【0037】
画像解析装置2は、入力された画像を解析し、その解析結果を国籍判定装置5に出力する。画像解析装置2の方法は任意である。例えば、顔検出を行い、顔領域を抽出する。顔検出の具体的な方法は、公知のものを採用できる。例えば、エッジ検出又は形状パターン検出による顔検出方法、特徴部の座標である特徴点をベクトル化し、特徴点ベクトルを近似検出することによる特徴点ベクトル近似法、色相検出又は肌色検出による領域検出方法、あるいは特許4127521のようなテンプレートとの相関値による顔判別等の公知の方法を利用することができる。そして、後述のように、検出された顔から各種の人の属性に関する特徴量を算出する。画像解析装置2と画像入力装置1とがリモート接続されていると、その間で画像の送受信が必要になるが、同一または近接した場所に両者を設置しておけば、その必要はなくなる。
【0038】
音声入力装置3は、音声を集音してアナログ音声信号に変換するマイク、マイクの出力したアナログ信号を増幅するアンプ、増幅されたアナログ音声信号をデジタル音声データに変換する変換部を含む。入力される音声の発話者は、画像の被写体と同じく、不特定多数の人通りのある場所に設置された撮像装置で撮影された人物である。つまり、画像入力装置1と音声入力装置3は同一または近接した場所に設置される。なお、画像入力装置1と音声入力装置3の両方が機能しなくても、一方だけの情報で国籍判定することも可能であり、本発明は画像入力装置1の画像入力と音声入力装置3の音声入力の両方が常に存在しなければ実施不可能な訳ではない。
【0039】
音声解析装置4は、複数の言語(方言含む)の発話音声パターンを記憶した音声データベース、音声入力装置3の出力したデジタル音声データと音声データベースとをマッチングして集音された発話の言語を識別する言語識別装置を含む。音声解析装置4と音声入力装置3とがリモート接続されていると、その間で音声の送受信が必要になるが、同一または近接した場所に両者を設置しておけば、その必要はなくなる。
【0040】
国籍判定装置5は、CPU,RAM,ROMなど演算処理に必要な回路を備えており、画像解析装置2の解析結果と音声解析装置4による識別言語とに基づいて、人物の国籍を判定する。国籍の判定基準となる情報は国籍情報DB6に記憶されている。また、国籍判定装置5は、国籍判定システム100の動作を統括制御することもできる。
【0041】
表示装置8は、国籍判定装置5が判定した国籍に応じて出力する映像を表示する装置であり、液晶ディスプレイなどで構成される。表示装置8は、画像入力装置1と音声入力装置3は同一または近接した場所に設置される。よって、画像入力装置1と音声入力装置3の近くに人がいる場合、国籍判定装置5が判定したその人の国籍に応じた映像を、その人に見せることができる。
【0042】
国籍対応情報DB7には、最終判定の国籍とそれに対応する出力情報(文字および画像を含む映像および音声のいずれか一方、あるいは両者の組み合わせ)を予め蓄えておく。出力情報はさらに、国籍の分類基準とならない普遍情報、例えば性別や年齢などとさらに対応づけられていてもよく、国籍と対応する出力情報が男性と女性でさらに分類・個別化されていてもよい。国籍判定装置5は、判定した国籍に対応する出力情報を国籍対応情報DB7から抽出して、その出力情報を表示装置8に出力する。なお、国籍情報DB6や国籍対応情報DB7はHDDなどの記憶媒体で構成されている。
【0043】
以下、図2のフローチャートを参照し、国籍判定システム100の実行する国籍判定処理を説明する。この処理は国籍判定装置5によって制御され、その制御を実行させるためのプログラムは国籍判定装置5に備えられたROMなどのコンピュータ読取可能な記憶媒体に記憶されており、国籍判定装置5がこれを読み出して実行する。
【0044】
S1では、画像入力装置1にて、画像の入力を行う。入力方法は任意であり、カメラからの入力、既存の画像(静止画/動画)データの入力でもよい。ただし、画像の被写体の属性を即時に表示装置8の再生内容に即時に反映させるには、撮影画像をリアルタイムで入力する態様が望ましい。画像の撮影および入力タイミングを国籍判定装置5が指令できてもよい。例えば、国籍判定装置5は、1分ごとに1枚の静止画撮影を指示したり、あるいは、10秒間の動画撮影を1分ごとに指示したりする。
【0045】
S2では、画像解析装置2にて、入力した画像から顔領域を検出し、検出した顔から特徴量を算出する。画像が動画の場合、一定時間の内の動画を構成するコマから検出した、向きや表情が異なる複数の画像から同一人物の顔検出を行う。
【0046】
同一画像内に複数の顔が含まれる場合、あるいは異なる画像に複数の画像が含まれる場合は、画像が入力されたタイミングで、以降の国籍判定の対象とする顔を以下の条件に従って決定してもよい。
【0047】
(1)画像に含まれる全ての顔を対象とする。
【0048】
(2)画像に含まれる顔のうち、既定条件に合致するもの(顔サイズが閾値以上、例えば16×16ピクセル以上などのもの)。
【0049】
(3)画像に含まれる顔のうち、対象とする顔を権限のあるユーザにより操作装置9(キーボード、マウス、タッチパネルなどで構成)を介して選択されたもの。
【0050】
なお、以上の条件に合致する顔が複数になる場合は、以降の処理は個々の顔について実行される。
【0051】
S3では、画像解析装置2にて、抽出された顔から、顔の特徴量を算出する。顔の特徴量とその算出方法は例えば以下のようなものである。
【0052】
(1)輪郭の形状。例えば特許文献7を参照。
【0053】
(2)顔の肌の色。例えば特許文献7の段落0054のように、色情報が所定の条件式を満たすと判定された領域(肌色領域)の色情報を肌の色とする。
【0054】
(3)目の位置、形状、瞳の色。目の位置の抽出は特許文献6の特徴点(両目の目尻、目頭)抽出で可能。目の形状の抽出は特許文献8で抽出した目の輪郭を目の形状とする。瞳の色の抽出については、特許文献9のように抽出した瞳領域の色情報を瞳の色とする。
【0055】
(4)鼻の位置、形状。鼻の位置の抽出は特許文献6の特徴点抽出(左小鼻、右小鼻など)で可能。鼻の形状の抽出は特許文献10で可能。
【0056】
(5)唇の位置、形状。唇の位置の抽出は特許文献6の特徴点抽出(左口角、右口角、上唇の中点、下唇の中点など)で可能。唇の形状の抽出は特許文献10で可能。
【0057】
(6)髪形と髪の位置、色。髪形の抽出は特許文献11で可能。また髪の位置と色は識別された髪形の存在位置とその色から抽出できる。
【0058】
あるいは、上記の顔の特徴量に基づいて、年齢、性別を推定する(特許文献12参照)。その他の公知技術を用いて、画像から解析可能な人の属性を示す各種特徴量を算出してもよく、特徴量は上記に限定されない。
【0059】
S4では、画像解析装置2にて、入力された画像の顔領域の周辺領域(顔領域そのものは除かれる)から、人物の属性に関する特徴量を抽出する。例えば特許文献5のように服装を抽出する。首から下に身につけられている衣服に限らず帽子やマフラーなどの装飾品を抽出してもよい。あるいは、特許文献12のように、画像からの文字認識技術を用いて、人の持っている書籍、新聞、雑誌や、人の着ている服にプリントされたロゴなど、人物の顔領域周辺にある文字情報を認識し、その認識された文字情報の言語を推定する。顔領域を基準とすればどこを周辺領域とするかは任意であり、例えば、顔領域の縦横サイズを所定の倍率(2倍、4倍など)で拡大した延長領域から顔領域を除いたものを周辺領域とする。
【0060】
S5では、音声入力装置3から音声を入力する。画像の入力(撮像のタイミング)と音声入力のタイミングは同期するよう国籍判定装置5により制御されるものとする。
【0061】
S6では、音声解析装置4による音声解析を開始する。例えば、特許文献3および4のように、音声言語データベースのサンプル音声パターンと入力音声とのマッチングを行うことで、発話言語を識別する。なお、画像解析に代えて、あるいは画像解析とともに、音声に基づいて話者の性別や年齢を判定することもできる。例えば特許文献14のように、性別、年齢別の音声モデルと入力音声とのマッチングに応じて、最も一致度の高い音声モデルに対応する年齢および性別を話者の性別や年齢と判定する。
【0062】
S7では、国籍判定装置5が、画像解析装置2の解析結果および音声解析装置4の解析結果に基づいて、人の国籍、性別、年齢を判定する。
【0063】
まず、画像解析装置2の解析結果として出力可能なパターンの各々に対応する国籍を国籍情報DB6に予め格納しておき、国籍判定装置5は、画像解析装置2の実際の個別の解析結果(S3またはS4)に対応する国籍情報を国籍情報DB6から抽出する。
【0064】
例えば、国籍情報DB6には、コーカソイド型骨格=ヨーロッパ、モンゴロイド系骨格=アジア、ネグロイド系骨格=アフリカのように顔および顔パーツ(目、鼻、唇)の形状(ないし当該形状を示す特徴量)と出身地域とが対応づけられており、国籍判定装置5が画像解析装置2の実際の解析結果である顔および顔パーツの形状に対応する出身地域を国籍情報DB6から特定し、これを顔ベースの国籍情報aとして抽出する。
【0065】
国籍情報DB6には、褐色=アジア、白色=ヨーロッパ、黒色=アフリカなど顔領域の肌色(ないし当該色を示す特徴量)と出身地域とが対応づけられており(図3参照)、国籍判定装置5が画像解析装置2の実際の解析結果である顔領域の肌色に対応する出身地域を国籍情報DB6から特定し、これを肌色ベースの国籍情報bとして抽出する。
【0066】
国籍情報DB6には、顔および顔パーツの形状ならびに肌色の組み合わせとその出身地域とを対応づけていてもよい。例えば、コーカソイド型骨格かつ褐色系肌色=ヒスパニック(中南米)などとできる。
【0067】
あるいは、国籍情報DB6には、サリー=インド、チマチョゴリ=朝鮮半島、ターバン=中東、着物=日本など各国の民族衣裳の画像特徴量パターンとその出身地域とが対応づけられて格納されており、国籍判定装置5が画像解析装置2の実際の解析結果である服装を示す特徴量に対応する出身地域を国籍情報DB6から特定し、これを衣裳ベースの国籍情報cとして抽出する。
【0068】
あるいは、国籍情報DB6には、日本語=日本、英語(アメリカ英語)=アメリカ合衆国、英語(ブリティッシュ英語)=イギリス連邦、スペイン語=スペインまたはラテンアメリカ、北京語=北京周辺、広東語=広東州、香港、マカオ、のように、使用言語と出身地域とが対応づけられており、国籍判定装置5が、画像解析装置2の実際の解析結果である言語に対応する出身地域を国籍情報DB6から特定し、これを画像周辺情報ベースの国籍情報dとして抽出する。ここでいう使用言語は書き言葉であるが、話し言葉でも同様の対応づけが可能である。
【0069】
すなわち、国籍判定装置5が、音声解析装置4の解析結果である言語に対応する出身地域を国籍情報DB6から特定し、これを発話ベースの国籍情報eとして抽出する。同一言語の方言による出身地域の細分はあってもなくてもよいが、特に母語人口の多い言語(中国語、英語、スペイン語など)では、記述言語のつづりや発話言語アクセントで区別可能な範囲で出身地域を細分化した方が、人物の国籍の判定結果は正確になる。
【0070】
このように、国籍判定装置5は、画像解析装置2または音声解析装置4による個々の解析結果に対応する国籍情報を国籍情報DB6から抽出する。ただし、個々の解析自体が失敗したり、解析結果に対応する国籍情報が国籍情報DB6にない場合は、国籍情報は「不明」とする。
【0071】
次に、国籍判定装置5は、国籍情報DB6から抽出された個々の国籍情報に基づいて人物の最終的な国籍を判定する。これは例えば、各解析結果に対応する個別の国籍情報に優先度を予め国籍情報DB6などの記憶媒体に定義しておき、最も高い優先度を有する個別の国籍情報を最終的な国籍とする。
【0072】
例えば、薄橙の肌をしたスーツ姿の40才の日本人男性が、アメリカ英語でスペリングされた記事の記載された英字新聞を持っており、日本語を話しているとし、この日本人男性が被写体となって画像が撮影され、発話音声が集音された結果、国籍情報a=アジア、国籍情報b=アジア、国籍情報c=不明、国籍情報d=英語、国籍情報e=日本、性別=男、年齢=40代前半となったとする。
【0073】
また、国籍情報DB6には、発話ベースの国籍情報e>顔ベースの国籍情報a>衣裳ベースの国籍情報c>肌色ベースの国籍情報b>画像周辺情報ベースの国籍情報dという順序が格納されているとする。そうすると、国籍情報の優先度は、発話ベースの国籍情報eである「日本」が最上位に来るため、国籍判定装置5は、人物の国籍を「日本」と最終的に判定する。なお性別と年齢は最終国籍判定に利用されない。
【0074】
上記の順序づけは、正確性の高い国籍情報を上位に持ってくると判断精度が高くなる。ただし、国籍判定システム100の設置場所など使用環境に応じた適切な判定を可能にするため、どのような順序を付けるかは権限のあるユーザにより操作装置9から任意に設定できてもよい。例えば、国籍判定システム100が人の往来が激しく騒々しい場所に設置される場合は、音声による国籍判定の精度は低いものと考えられるから、発話ベースの国籍情報eの優先度を低くするとよい。
【0075】
また、常に全てのジャンルの国籍情報a〜eがそろわない場合もあるが、存在しない国籍情報は優先度の判定対象から除外される。例えば、録画はできたが録音ができなかった場合は、発話ベースの国籍情報eが存在せず、存在しない発話ベースの国籍情報eを除く国籍情報の中で最も順位の高いものを最終的な国籍と判定する。
【0076】
最終的な国籍判定は順序づけによらなくてもよい。例えば、個々の国籍情報の中の多数派(最も多い同一の国籍)を最終的な国籍と判定してもよい。国籍情報a=アジア、国籍情報b=アジア、国籍情報c=不明、国籍情報d=英語、国籍情報e=日本では、アジアが2つ、英語が1つ、日本が1つであり、アジアが多数派であるから、アジアが最終的な国籍となる。ただし、日本はアジアに含まれるから、日本も多数派であるアジアの中に含まれるとみなし、この場合、アジアよりも下位概念の国籍情報である日本を最終的な国籍と判定してもよい。
【0077】
普遍情報(性別および年齢)の判定についても、画像解析と音声解析の結果で得られた性別および年齢に基づいて総合的に判定する。年齢は一意的な数字でなくてもよく、10代前半、10代後半、20代前半、といった数値範囲(年齢層)でもよい。例えば、性別については、画像解析、音声解析のそれぞれの結果で得られた性別が一致すれば、その一致する性別を最終的な性別と判定する。一致しなければ、「性別不明」と判定する。また、年齢については、画像解析、音声解析のそれぞれの結果で得られた年齢層の論理和(OR)を取った範囲を最終的な年齢層とする。両解析結果の論理積(AND)つまり両者の重複する年齢を最終的な年齢層と判定してもよいが、重複がなければ「年齢不明」と判定する。
【0078】
S8では、S7で最終的に判定した国籍を表示装置8に表示する。あるいは、最終判定した国籍そのものを表示する代わりに、あるいは判定した国籍とともに、最終判定した国籍に対応する出力情報(映像)を国籍対応情報DB7から取得し、その取得した出力情報を表示してもよい。また、図示は省略するが、国籍判定システム100が音声デコーダ、アンプ、スピーカといった公知の音声再生装置10を備えており、出力情報が音声情報を含んでいれば、最終判定した国籍に対応する音声情報を当該音声再生装置10にて再生してもよい。もちろん、出力情報が映像と音声の両方を含んでいてもよく、この両者を表示装置8および音声再生装置10で同期して表示してもよい。
【0079】
例えば、上記のように人物の国籍を「日本」と最終的に判定した場合は、「日本」に対応する出力情報(日本語の空港案内や広告メッセージ)を映像または音声にて再生する。「日本」に対応する出力情報が、国籍対応情報DB7にて普遍情報(性別や年齢)ごとにサブカテゴライズされている場合は、最終判定国籍「日本」、判定年齢「40代」および判定性別「男」に対応する出力情報を国籍対応情報DB7から取得して再生する。
【0080】
あるいは、人物の国籍を「アジア」と最終的に判定した場合は、「アジア」に対応する出力情報(日本語・朝鮮語・北京語併記の空港案内や広告メッセージ)を映像および/または音声にて再生する。
【0081】
国籍を最終判定した人物が複数存在する場合は、各人物の最終判定国籍および/またはそれに対応した出力情報を入力画像中の被写体人物と対応づけて表示してもよい。これは画像が静止画でも動画でも可能である。画像が複数であれば、各画像を1枚ずつあるいは分割表示で1画面に所定の表示期間し、かつ、画像内の被写体人物に対応する国籍および/またはそれに対応した出力情報を表示する。両者の対応づけは、被写体人物付近に配置された吹き出しなどを用いればよい。
【0082】
また、上述の多数派で最終国籍判定する場合、同数の多数派が複数存在したり、個々の国籍情報が相互に矛盾して多数派が1つもないなどの理由で、一意に最終判定することが不可能な場合は、個々の国籍情報の確からしさの順に個々の国籍情報を国籍候補として表示装置8にリスト表示し、権限のあるユーザが国籍候補から操作装置9を介して任意に選択した国籍候補を最終的な国籍と判定してもよい。あるいは、個々の国籍情報がいずれも「不明」である場合は、国籍対応情報DB7に蓄積されたデフォルト情報、例えば英語で記述された案内や広告メッセージを出力情報として取得し、表示あるいは音声再生する。
【0083】
国籍対応情報DB7から取得した出力情報の再生が完了した場合は、S1に戻り、同様の処理を繰り返すことができる。タイマー機能で本処理の開始・終了を自動的に制御してもよいし、権限のあるユーザが国籍候補から操作装置9を介して任意に処理の開始・継続・終了を指令できてもよい。
【0084】
以上の処理により、人物の国籍を総合的に正確に判定でき、また判定された人物の国籍に合った内容の情報を出力でき、当該人物に理解しやすい形で情報を提示できる。
【符号の説明】
【0085】
1:画像入力装置、2:画像解析装置、3:音声入力装置、4:音声解析装置、5:国籍判定装置、6:国籍情報DB、7:国籍対応情報DB、8:表示装置

【特許請求の範囲】
【請求項1】
画像を入力する画像入力部と、
前記画像入力部の入力した画像から人物の属性に関する特徴量を複数抽出し、抽出された個々の特徴量に基づいて、前記個々の特徴量に対応する人物の国籍を個別に判定する画像国籍判定部と、
前記画像国籍判定部が個別に判定した前記個々の特徴量に対応する人物の国籍に基づいて、最終的な人物の国籍を判定する最終国籍判定部と、
を備える国籍判定装置。
【請求項2】
前記個々の特徴量は、前記画像から検出された顔領域の特徴量および前記顔領域の周辺領域の特徴量を含む請求項1に記載の国籍判定装置。
【請求項3】
前記顔領域の特徴量は、顔パーツの色、位置および形状を含む請求項2に記載の国籍判定装置。
【請求項4】
前記顔領域の周辺領域の特徴量は文字情報および被服情報のうち少なくとも一方を含む請求項2または3に記載の国籍判定装置。
【請求項5】
音声を入力する音声入力部と、
前記音声入力部の入力した音声に基づいて音声に対応する人物の国籍を判定する音声国籍判定部と、
を備え、
前記最終国籍判定部は、前記画像国籍判定部の判定した前記個々の特徴量に対応する人物の国籍と前記音声国籍判定部の判定した音声に対応する国籍に基づいて、最終的な人物の国籍を判定する請求項1〜4のいずれかに記載の国籍判定装置。
【請求項6】
前記音声国籍判定部は、前記音声から発話言語を認識し、認識された発話言語に基づいて音声に対応する国籍を判定する請求項5に記載の国籍判定装置。
【請求項7】
前記画像国籍判定部は、前記画像から人物の普遍的な属性に関する特徴量を抽出し、抽出された人物の普遍的な属性に関する特徴量に基づいて、画像に対応する人物の普遍的な属性を判定し、
前記音声国籍判定部は、前記音声に基づいて音声に対応する人物の普遍的な属性を判定し、
前記最終国籍判定部は、前記画像国籍判定部の判定した前記画像に対応する人物の普遍的な属性と前記音声国籍判定部の判定した音声に対応する人物の普遍的な属性に基づいて、最終的な人物の普遍的な属性を判定する請求項5または6に記載の国籍判定装置。
【請求項8】
前記最終的な人物の普遍的な属性は性別および年齢のうち少なくとも一方を含む請求項7に記載の国籍判定装置。
【請求項9】
前記最終国籍判定部は、前記画像国籍判定部の判定した前記個々の特徴量に対応する人物の国籍および前記音声国籍判定部の判定した音声に対応する国籍に対応して予め定義された優先度に基づいて、最終的な人物の国籍を判定する請求項5〜8のいずれかに記載の国籍判定装置。
【請求項10】
前記最終国籍判定部の判定した最終的な人物の国籍を示す情報を所定の再生装置に出力する最終判定結果出力部を備える請求項1〜9のいずれかに記載の国籍判定装置。
【請求項11】
最終的な人物の国籍と所望の再生情報とを対応づけて記憶する再生情報記憶部と、
前記最終国籍判定部の判定した最終的な人物の国籍に対応する再生情報を前記再生情報記憶部から抽出し、抽出された再生情報を所定の再生装置に出力する再生情報出力部を備える請求項1〜10のいずれかに記載の国籍判定装置。
【請求項12】
コンピュータが、
画像を入力するステップと、
前記入力した画像から人物の属性に関する特徴量を複数抽出し、抽出された個々の特徴量に基づいて、前記個々の特徴量に対応する人物の国籍を個別に判定するステップと、
前記個別に判定した前記個々の特徴量に対応する人物の国籍に基づいて、最終的な人物の国籍を判定するステップと、
を含む国籍判定方法。
【請求項13】
請求項12に記載の国籍判定方法をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2010−191530(P2010−191530A)
【公開日】平成22年9月2日(2010.9.2)
【国際特許分類】
【出願番号】特願2009−32892(P2009−32892)
【出願日】平成21年2月16日(2009.2.16)
【出願人】(306037311)富士フイルム株式会社 (25,513)
【Fターム(参考)】