国籍判定装置、方法およびプログラム

【課題】個人の人種・形質のような生物学的特性、民族といった文化人類学的特性、発声した言語の属する母国語ないし方言といった言語学的特性その他の個人の外部的特徴を客観的に測定し、その測定結果に基づいて個人の国籍を自動的・総合的に判定し、それに応じたアクションを実行する。
【解決手段】国籍判定装置５は、画像解析装置２または音声解析装置４による個々の解析結果に対応する国籍情報を国籍情報ＤＢ６から抽出する。次に、国籍判定装置５は、国籍情報ＤＢ６から抽出された個々の国籍情報に基づいて人物の最終的な国籍を判定する。これは例えば、各解析結果に対応する個別の国籍情報に優先度を予め国籍情報ＤＢ６などの記憶媒体に定義しておき、最も高い優先度を有する個別の国籍情報を最終的な国籍とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、対象人物の属性に応じた情報提供を行う技術に関する。
【背景技術】
【０００２】
特許文献１では、複数種類の人物属性識別用データに対応させてこれらを個別に識別するための人物属性識別用モデルを予め用意しておき、人物属性識別用データ作成処理手段により、カメラで人物を撮影して得られた処理対象のフレーム画像から複数種類の人物属性識別用データを作成した後、指標値算出処理手段３７により、人物属性識別用モデルを用いて各人物属性識別用データについて尤度等の指標値を個別に算出し、その後、識別結果情報算出処理手段により、複数の指標値を統合する。
【０００３】
特許文献２では、顔認識部は、カメラの前の人物を撮影し、その画像内から顔部分を検出して、検出された顔画像が年齢・性別・職業・国籍・出身地・表情などの属性に関し、いずれのカテゴリの顔特徴に類似しているかを判定する。演出統括部は、人物を含む来場者からの操作に関する入力の処理、来場者の履歴情報ファイルの管理、ランキング集計、顔認識部への撮影命令の送信、メール送信などのシステム全体の統括制御と、来場者への操作に関する指示の表示、属性判定結果の表示、ランキング表示などの演出表示制御を行う。来場者情報蓄積部は、来場者別に作成された履歴情報ファイルおよび撮影顔画像ファイルを記憶領域に蓄積する。
【０００４】
特許文献３および４は従来の複数言語音声認識システムの一例である。また、特許文献５は従来の服装認識の一例である。
【０００５】
特許文献６は、顔の特徴点の検出技術の一例であり、検出対象画像上の所定対象物の複数種類の特徴点を、マシンラーニングで生成された許容度が大きい第１の特徴点検出器群と、統計的学習により生成された、上記複数種類の特徴点同士の位置関係を規定する、許容度が大きい第１の位置関係モデルとを用いて、当該位置関係で拘束された上記複数種類の特徴点を暫定的に決定した後、その暫定的な各特徴点の近傍で、マシンラーニングで生成された許容度が小さい第２の特徴点検出器群と、統計的学習により生成された、許容度が小さい第２の位置関係モデルとを用いて、当該位置関係で拘束された上記複数種類の最終的な特徴点を決定する。
【０００６】
特許文献７は、人体領域の抽出の一例であり、画像中の顔領域Ｆを検出し、検出された顔領域Ｆの位置情報から人体領域が含まれるであろう候補領域Ｃを決定し、その候補領域を構成する各単位領域が人体領域を含むか否かを判断し、人体領域を含むと判断された単位領域の集合を人体領域が含まれると推測される推測領域Ｅとして決定し、その推測領域Ｅ中の人体領域Ｈｕを抽出し、推測領域Ｅ中の輪郭周辺領域に人体領域Ｈｕが存在しないと判断されるまで、推測領域Ｅを拡張更新し、拡張更新された推測領域Ｅ中の人体領域を抽出することを繰り返し行う。
【０００７】
特許文献８は、顔抽出の一例であり、顔の形状、目、口の輪郭を、テンプレートとのマッチング度に応じて抽出する。
【０００８】
特許文献９は、瞳領域抽出の一例であり、エッジ検出、形状パターン検出、位置情報等を用いて目を抽出し、この目の画像データの輝度ヒストグラムから低輝度領域を抽出し、抽出した低輝度領域を収縮処理して瞳の領域を抽出する。
【０００９】
特許文献１０は、鼻形状抽出の一例であり、所定の検索領域内のエッジ映像上で所定の形状のテンプレートを整合する。大きい整合値を有する検出された候補のうち対称条件を満足する対を選択して鼻翼面位置として決定する。各鼻側面を多項式曲線によって表現するが、曲線は検出された鼻翼面テンプレート及び所定の係数で鼻翼面及び目のコーナー間に補間された３点に合致する。結局、所定の補間係数を使用して鼻先と低い鼻の曲面が位置する。
【００１０】
また特許文献１０は、口形状抽出の一例であり、まず、口の方形を初期化する。非皮膚色画素のモーメントを分析することによって初期方形をより精密な境界ボックスに縮少させる。唇関数映像を構成して、精製された境界ボックス内の画素を利用して画素が唇または皮膚に属する確率を測定する。高い唇関数値を有する画素の２次中心モーメントを測定することによって楕円を有して、唇の外郭線を初期化する。外力及び内力によって唇の外郭線を動的に移動させる。移動結果点に多項式を近似させて曲線表現式を生成する。
【００１１】
特許文献１１は、髪形検出の一例を示しており、髪形モデル形状パターンと画像のマッチングにより髪形を識別する。
【００１２】
特許文献１２は、画像から検出された顔から年齢を推定する一例を示しており、性別及び年代が異なる複数の参照人物について異なる複数の顔向き方向から撮像された参照顔画像毎の参照特徴ベクトルの内から、性別及び年代が不明な顧客の顔を任意の顔向き方向から撮像した対象顔画像の対象特徴ベクトルに類似するものを判別する。この参照特徴ベクトルに対する参照顔画像が撮像された顔向き方向の範囲を、対象顔画像が撮像された顔向き方向の範囲であると推定する。さらに、推定された範囲の顔向き方向で撮像された参照顔画像の特徴ベクトルの内から対象特徴ベクトルに類似するものを判別することで、その参照特徴ベクトルに対応する参照顔画像の参照人物の性別あるいは年代が顧客の性別あるいは年代であると推定する。
【００１３】
特許文献１３は、画像から文字認識と認識文字の言語を推定する技術の一例であり、カメラ付き携帯電話は、複数の言語のいずれかに含まれる文字の画像を文字認識して文字コードに変換する認識処理部とを有している。当該認識処理部は、上記複数の言語のそれぞれについて、文字の認識結果が当該言語でありそうだと推定したことを示す推定履歴情報を履歴情報記憶部に格納する言語可能性値推定部と、認識対象とする文字の属する言語が当該言語であると指定する操作を受け付けたことを示す操作履歴情報を履歴情報記憶部に格納する操作部とを備え、上記履歴情報記憶部の履歴情報を参照して、文字の画像を文字コードに変換する。
【００１４】
特許文献１４は、音声から話者の性別・年齢に対応した音響モデルを選定する技術の一例であり、ＭＦＣＣなど公知の音声認識特徴量への変換処理を行った後、性別もしくは年齢層別にカテゴライズされた複数の音響モデルと、言語モデルを用いて、マッチング処理を行う。ここで、各音響モデルを用いてマッチングした場合の認識結果のうち、上位Ｎ個の尤度もしくは単語信頼度の最も平均値が高い音響モデルを選定する。
【先行技術文献】
【特許文献】
【００１５】
【特許文献１】特開２００５−２５０７１２号公報
【特許文献２】特開２００７−８００５７号公報
【特許文献３】特開２００１−１８８５５６号公報
【特許文献４】特開平１０−１１６０９３号公報
【特許文献５】特開２００７−２７２８９６号公報
【特許文献６】特開２００８−３７４９号公報
【特許文献７】特開２００８−１５６４１号公報
【特許文献８】特開２００１−２０９８０２号公報
【特許文献９】特開２００５−１２２２８７号公報
【特許文献１０】特開２００５−７８６４６号公報
【特許文献１１】特開平１１−１６９３５７号公報
【特許文献１２】特開２００８−２８２０８９号公報
【特許文献１３】特開２００６−３３１３５４号公報
【特許文献１４】特開２００８−９６５７７号公報
【発明の概要】
【発明が解決しようとする課題】
【００１６】
様々な国の人が訪れる空港や大都市のメインストリートで実施されるデジタルサイネージのように不特定多数の人に向けた情報を発信する場合、その個人の国籍（本願明細書では、純粋に法的な国籍ではなく、個人の属する何らかの国際的カテゴリーを表す情報とする）に合わせて情報の内容を選択あるいは変更できると、情報の伝達が効果的である。
【００１７】
特許文献１〜５では、性別、年齢、顔のサンプル類似度、言語認識、服装認識を各々行っているが、各要素単独のみで情報の伝達内容を選ぶには正確性に欠ける。
【００１８】
本発明は、個人の人種・形質のような生物学的特性、民族といった文化人類学的特性、発声した言語の属する母国語ないし方言といった言語学的特性その他の個人の外部的特徴を客観的に測定し、その測定結果に基づいて個人の国籍を自動的・総合的に判定し、それに応じたアクションを実行する。
【課題を解決するための手段】
【００１９】
国籍判定装置は、画像を入力する画像入力部と、画像入力部の入力した画像から人物の属性に関する特徴量を複数抽出し、抽出された個々の特徴量に基づいて、個々の特徴量に対応する人物の国籍を個別に判定する画像国籍判定部と、画像国籍判定部が個別に判定した個々の特徴量に対応する人物の国籍に基づいて、最終的な人物の国籍を判定する最終国籍判定部と、を備える。
【００２０】
好ましくは、個々の特徴量は、画像から検出された顔領域の特徴量および顔領域の周辺領域の特徴量を含む。
【００２１】
好ましくは、顔領域の特徴量は、顔パーツの色、位置および形状を含む。
【００２２】
好ましくは、顔領域の周辺領域の特徴量は文字情報および被服情報のうち少なくとも一方を含む。
【００２３】
好ましくは、音声を入力する音声入力部と、音声入力部の入力した音声に基づいて音声に対応する人物の国籍を判定する音声国籍判定部と、を備え、最終国籍判定部は、画像国籍判定部の判定した個々の特徴量に対応する人物の国籍と音声国籍判定部の判定した音声に対応する国籍に基づいて、最終的な人物の国籍を判定する。
【００２４】
好ましくは、画像中の人物の国籍を、画像と発話内容から総合的に判断できる。
【００２５】
好ましくは、音声国籍判定部は、音声から発話言語を認識し、認識された発話言語に基づいて音声に対応する国籍を判定する。
【００２６】
好ましくは、画像国籍判定部は、画像から人物の普遍的な属性に関する特徴量を抽出し、抽出された人物の普遍的な属性に関する特徴量に基づいて、画像に対応する人物の普遍的な属性を判定し、音声国籍判定部は、音声に基づいて音声に対応する人物の普遍的な属性を判定し、最終国籍判定部は、画像国籍判定部の判定した画像に対応する人物の普遍的な属性と音声国籍判定部の判定した音声に対応する人物の普遍的な属性に基づいて、最終的な人物の普遍的な属性を判定する。
【００２７】
好ましくは、最終的な人物の普遍的な属性は性別および年齢のうち少なくとも一方を含む。
【００２８】
好ましくは、最終国籍判定部は、画像国籍判定部の判定した個々の特徴量に対応する人物の国籍および音声国籍判定部の判定した音声に対応する国籍に対応して予め定義された優先度に基づいて、最終的な人物の国籍を判定する。
【００２９】
好ましくは、最終国籍判定部の判定した最終的な人物の国籍を示す情報を所定の再生装置に出力する最終判定結果出力部を備える。
【００３０】
好ましくは、最終的な人物の国籍と所望の再生情報とを対応づけて記憶する再生情報記憶部と、最終国籍判定部の判定した最終的な人物の国籍に対応する再生情報を再生情報記憶部から抽出し、抽出された再生情報を所定の再生装置に出力する再生情報出力部を備える。
【００３１】
本発明に係る国籍判定方法は、コンピュータが、画像を入力するステップと、入力した画像から人物の属性に関する特徴量を複数抽出し、抽出された個々の特徴量に基づいて、個々の特徴量に対応する人物の国籍を個別に判定するステップと、個別に判定した個々の特徴量に対応する人物の国籍に基づいて、最終的な人物の国籍を判定するステップと、を含む。
【００３２】
国籍判定方法をコンピュータに実行させるためのプログラムも本発明に含まれる。
【発明の効果】
【００３３】
本発明によると、画像中の人物の国籍を、画像から得られた各々の特徴量から、さらに音声から、総合的に判断できる。また、その国籍に応じた情報の再生を行うことができ、人物の国籍に対応した内容の情報を提供できる。
【図面の簡単な説明】
【００３４】
【図１】国籍判定システムの概略構成図
【図２】国籍判定処理のフローチャート
【図３】国籍情報ＤＢの情報を例示した図
【発明を実施するための形態】
【００３５】
図１は本発明の好ましい実施形態に係る国籍判定システム１００の概略構成図である。このシステムは、画像入力装置１、画像解析装置２、音声入力装置３、音声解析装置４、国籍判定装置５、国籍情報ＤＢ６、国籍対応情報ＤＢ７、表示装置８を含む。国籍判定装置は単独のパソコン（演算回路、データ入出力回路、表示回路、操作装置、通信回路などを備えたもの）でもよいし、各パソコンがネットワークで接続されることで構成されてもよい。例えば、国籍情報ＤＢ６、国籍対応情報ＤＢ７はサーバコンピュータ、その他の装置はクライアントコンピュータとすることもできる。よって、これらの各装置が同じ場所に一体的に設置される必要はなく、例えば画像入力装置１、音声入力装置３、表示装置８は、空港のロビー、デパートの売り場、地下道の壁面、電車の乗降用扉の上部など人目につく場所に設置し、画像解析装置２、音声入力装置３、音声解析装置４、国籍判定装置５、国籍情報ＤＢ６、国籍対応情報ＤＢ７は、空港や地下道の管理室など人目につかない場所に置くことができる。
【００３６】
画像入力装置１は、画像（静止画または動画）を画像解析装置２に入力する。画像入力装置１は、撮像装置そのものでもよいし、他の撮像装置で撮影された画像を画像解析装置２に転送入力するインターフェースでもよい。入力される画像の被写体は、不特定多数の人通りのある場所に設置された撮像装置で撮影された人物である。例えば、上述のように画像入力装置１に組み込まれたか接続された撮像装置が空港のロビー、デパートの売り場、地下道の壁、電車の乗降用扉の上部などに設置されていれば、その被写体は、空港のロビーやデパートや地下道や電車を利用する人たちである。
【００３７】
画像解析装置２は、入力された画像を解析し、その解析結果を国籍判定装置５に出力する。画像解析装置２の方法は任意である。例えば、顔検出を行い、顔領域を抽出する。顔検出の具体的な方法は、公知のものを採用できる。例えば、エッジ検出又は形状パターン検出による顔検出方法、特徴部の座標である特徴点をベクトル化し、特徴点ベクトルを近似検出することによる特徴点ベクトル近似法、色相検出又は肌色検出による領域検出方法、あるいは特許４１２７５２１のようなテンプレートとの相関値による顔判別等の公知の方法を利用することができる。そして、後述のように、検出された顔から各種の人の属性に関する特徴量を算出する。画像解析装置２と画像入力装置１とがリモート接続されていると、その間で画像の送受信が必要になるが、同一または近接した場所に両者を設置しておけば、その必要はなくなる。
【００３８】
音声入力装置３は、音声を集音してアナログ音声信号に変換するマイク、マイクの出力したアナログ信号を増幅するアンプ、増幅されたアナログ音声信号をデジタル音声データに変換する変換部を含む。入力される音声の発話者は、画像の被写体と同じく、不特定多数の人通りのある場所に設置された撮像装置で撮影された人物である。つまり、画像入力装置１と音声入力装置３は同一または近接した場所に設置される。なお、画像入力装置１と音声入力装置３の両方が機能しなくても、一方だけの情報で国籍判定することも可能であり、本発明は画像入力装置１の画像入力と音声入力装置３の音声入力の両方が常に存在しなければ実施不可能な訳ではない。
【００３９】
音声解析装置４は、複数の言語（方言含む）の発話音声パターンを記憶した音声データベース、音声入力装置３の出力したデジタル音声データと音声データベースとをマッチングして集音された発話の言語を識別する言語識別装置を含む。音声解析装置４と音声入力装置３とがリモート接続されていると、その間で音声の送受信が必要になるが、同一または近接した場所に両者を設置しておけば、その必要はなくなる。
【００４０】
国籍判定装置５は、ＣＰＵ，ＲＡＭ，ＲＯＭなど演算処理に必要な回路を備えており、画像解析装置２の解析結果と音声解析装置４による識別言語とに基づいて、人物の国籍を判定する。国籍の判定基準となる情報は国籍情報ＤＢ６に記憶されている。また、国籍判定装置５は、国籍判定システム１００の動作を統括制御することもできる。
【００４１】
表示装置８は、国籍判定装置５が判定した国籍に応じて出力する映像を表示する装置であり、液晶ディスプレイなどで構成される。表示装置８は、画像入力装置１と音声入力装置３は同一または近接した場所に設置される。よって、画像入力装置１と音声入力装置３の近くに人がいる場合、国籍判定装置５が判定したその人の国籍に応じた映像を、その人に見せることができる。
【００４２】
国籍対応情報ＤＢ７には、最終判定の国籍とそれに対応する出力情報（文字および画像を含む映像および音声のいずれか一方、あるいは両者の組み合わせ）を予め蓄えておく。出力情報はさらに、国籍の分類基準とならない普遍情報、例えば性別や年齢などとさらに対応づけられていてもよく、国籍と対応する出力情報が男性と女性でさらに分類・個別化されていてもよい。国籍判定装置５は、判定した国籍に対応する出力情報を国籍対応情報ＤＢ７から抽出して、その出力情報を表示装置８に出力する。なお、国籍情報ＤＢ６や国籍対応情報ＤＢ７はＨＤＤなどの記憶媒体で構成されている。
【００４３】
以下、図２のフローチャートを参照し、国籍判定システム１００の実行する国籍判定処理を説明する。この処理は国籍判定装置５によって制御され、その制御を実行させるためのプログラムは国籍判定装置５に備えられたＲＯＭなどのコンピュータ読取可能な記憶媒体に記憶されており、国籍判定装置５がこれを読み出して実行する。
【００４４】
Ｓ１では、画像入力装置１にて、画像の入力を行う。入力方法は任意であり、カメラからの入力、既存の画像（静止画／動画）データの入力でもよい。ただし、画像の被写体の属性を即時に表示装置８の再生内容に即時に反映させるには、撮影画像をリアルタイムで入力する態様が望ましい。画像の撮影および入力タイミングを国籍判定装置５が指令できてもよい。例えば、国籍判定装置５は、１分ごとに１枚の静止画撮影を指示したり、あるいは、１０秒間の動画撮影を１分ごとに指示したりする。
【００４５】
Ｓ２では、画像解析装置２にて、入力した画像から顔領域を検出し、検出した顔から特徴量を算出する。画像が動画の場合、一定時間の内の動画を構成するコマから検出した、向きや表情が異なる複数の画像から同一人物の顔検出を行う。
【００４６】
同一画像内に複数の顔が含まれる場合、あるいは異なる画像に複数の画像が含まれる場合は、画像が入力されたタイミングで、以降の国籍判定の対象とする顔を以下の条件に従って決定してもよい。
【００４７】
（１）画像に含まれる全ての顔を対象とする。
【００４８】
（２）画像に含まれる顔のうち、既定条件に合致するもの（顔サイズが閾値以上、例えば１６×１６ピクセル以上などのもの）。
【００４９】
（３）画像に含まれる顔のうち、対象とする顔を権限のあるユーザにより操作装置９（キーボード、マウス、タッチパネルなどで構成）を介して選択されたもの。
【００５０】
なお、以上の条件に合致する顔が複数になる場合は、以降の処理は個々の顔について実行される。
【００５１】
Ｓ３では、画像解析装置２にて、抽出された顔から、顔の特徴量を算出する。顔の特徴量とその算出方法は例えば以下のようなものである。
【００５２】
（１）輪郭の形状。例えば特許文献７を参照。
【００５３】
（２）顔の肌の色。例えば特許文献７の段落００５４のように、色情報が所定の条件式を満たすと判定された領域（肌色領域）の色情報を肌の色とする。
【００５４】
（３）目の位置、形状、瞳の色。目の位置の抽出は特許文献６の特徴点（両目の目尻、目頭）抽出で可能。目の形状の抽出は特許文献８で抽出した目の輪郭を目の形状とする。瞳の色の抽出については、特許文献９のように抽出した瞳領域の色情報を瞳の色とする。
【００５５】
（４）鼻の位置、形状。鼻の位置の抽出は特許文献６の特徴点抽出（左小鼻、右小鼻など）で可能。鼻の形状の抽出は特許文献１０で可能。
【００５６】
（５）唇の位置、形状。唇の位置の抽出は特許文献６の特徴点抽出（左口角、右口角、上唇の中点、下唇の中点など）で可能。唇の形状の抽出は特許文献１０で可能。
【００５７】
（６）髪形と髪の位置、色。髪形の抽出は特許文献１１で可能。また髪の位置と色は識別された髪形の存在位置とその色から抽出できる。
【００５８】
あるいは、上記の顔の特徴量に基づいて、年齢、性別を推定する（特許文献１２参照）。その他の公知技術を用いて、画像から解析可能な人の属性を示す各種特徴量を算出してもよく、特徴量は上記に限定されない。
【００５９】
Ｓ４では、画像解析装置２にて、入力された画像の顔領域の周辺領域（顔領域そのものは除かれる）から、人物の属性に関する特徴量を抽出する。例えば特許文献５のように服装を抽出する。首から下に身につけられている衣服に限らず帽子やマフラーなどの装飾品を抽出してもよい。あるいは、特許文献１２のように、画像からの文字認識技術を用いて、人の持っている書籍、新聞、雑誌や、人の着ている服にプリントされたロゴなど、人物の顔領域周辺にある文字情報を認識し、その認識された文字情報の言語を推定する。顔領域を基準とすればどこを周辺領域とするかは任意であり、例えば、顔領域の縦横サイズを所定の倍率（２倍、４倍など）で拡大した延長領域から顔領域を除いたものを周辺領域とする。
【００６０】
Ｓ５では、音声入力装置３から音声を入力する。画像の入力（撮像のタイミング）と音声入力のタイミングは同期するよう国籍判定装置５により制御されるものとする。
【００６１】
Ｓ６では、音声解析装置４による音声解析を開始する。例えば、特許文献３および４のように、音声言語データベースのサンプル音声パターンと入力音声とのマッチングを行うことで、発話言語を識別する。なお、画像解析に代えて、あるいは画像解析とともに、音声に基づいて話者の性別や年齢を判定することもできる。例えば特許文献１４のように、性別、年齢別の音声モデルと入力音声とのマッチングに応じて、最も一致度の高い音声モデルに対応する年齢および性別を話者の性別や年齢と判定する。
【００６２】
Ｓ７では、国籍判定装置５が、画像解析装置２の解析結果および音声解析装置４の解析結果に基づいて、人の国籍、性別、年齢を判定する。
【００６３】
まず、画像解析装置２の解析結果として出力可能なパターンの各々に対応する国籍を国籍情報ＤＢ６に予め格納しておき、国籍判定装置５は、画像解析装置２の実際の個別の解析結果（Ｓ３またはＳ４）に対応する国籍情報を国籍情報ＤＢ６から抽出する。
【００６４】
例えば、国籍情報ＤＢ６には、コーカソイド型骨格＝ヨーロッパ、モンゴロイド系骨格＝アジア、ネグロイド系骨格＝アフリカのように顔および顔パーツ（目、鼻、唇）の形状（ないし当該形状を示す特徴量）と出身地域とが対応づけられており、国籍判定装置５が画像解析装置２の実際の解析結果である顔および顔パーツの形状に対応する出身地域を国籍情報ＤＢ６から特定し、これを顔ベースの国籍情報ａとして抽出する。
【００６５】
国籍情報ＤＢ６には、褐色＝アジア、白色＝ヨーロッパ、黒色＝アフリカなど顔領域の肌色（ないし当該色を示す特徴量）と出身地域とが対応づけられており（図３参照）、国籍判定装置５が画像解析装置２の実際の解析結果である顔領域の肌色に対応する出身地域を国籍情報ＤＢ６から特定し、これを肌色ベースの国籍情報ｂとして抽出する。
【００６６】
国籍情報ＤＢ６には、顔および顔パーツの形状ならびに肌色の組み合わせとその出身地域とを対応づけていてもよい。例えば、コーカソイド型骨格かつ褐色系肌色＝ヒスパニック（中南米）などとできる。
【００６７】
あるいは、国籍情報ＤＢ６には、サリー＝インド、チマチョゴリ＝朝鮮半島、ターバン＝中東、着物＝日本など各国の民族衣裳の画像特徴量パターンとその出身地域とが対応づけられて格納されており、国籍判定装置５が画像解析装置２の実際の解析結果である服装を示す特徴量に対応する出身地域を国籍情報ＤＢ６から特定し、これを衣裳ベースの国籍情報ｃとして抽出する。
【００６８】
あるいは、国籍情報ＤＢ６には、日本語＝日本、英語（アメリカ英語）＝アメリカ合衆国、英語（ブリティッシュ英語）＝イギリス連邦、スペイン語＝スペインまたはラテンアメリカ、北京語＝北京周辺、広東語＝広東州、香港、マカオ、のように、使用言語と出身地域とが対応づけられており、国籍判定装置５が、画像解析装置２の実際の解析結果である言語に対応する出身地域を国籍情報ＤＢ６から特定し、これを画像周辺情報ベースの国籍情報ｄとして抽出する。ここでいう使用言語は書き言葉であるが、話し言葉でも同様の対応づけが可能である。
【００６９】
すなわち、国籍判定装置５が、音声解析装置４の解析結果である言語に対応する出身地域を国籍情報ＤＢ６から特定し、これを発話ベースの国籍情報ｅとして抽出する。同一言語の方言による出身地域の細分はあってもなくてもよいが、特に母語人口の多い言語（中国語、英語、スペイン語など）では、記述言語のつづりや発話言語アクセントで区別可能な範囲で出身地域を細分化した方が、人物の国籍の判定結果は正確になる。
【００７０】
このように、国籍判定装置５は、画像解析装置２または音声解析装置４による個々の解析結果に対応する国籍情報を国籍情報ＤＢ６から抽出する。ただし、個々の解析自体が失敗したり、解析結果に対応する国籍情報が国籍情報ＤＢ６にない場合は、国籍情報は「不明」とする。
【００７１】
次に、国籍判定装置５は、国籍情報ＤＢ６から抽出された個々の国籍情報に基づいて人物の最終的な国籍を判定する。これは例えば、各解析結果に対応する個別の国籍情報に優先度を予め国籍情報ＤＢ６などの記憶媒体に定義しておき、最も高い優先度を有する個別の国籍情報を最終的な国籍とする。
【００７２】
例えば、薄橙の肌をしたスーツ姿の４０才の日本人男性が、アメリカ英語でスペリングされた記事の記載された英字新聞を持っており、日本語を話しているとし、この日本人男性が被写体となって画像が撮影され、発話音声が集音された結果、国籍情報ａ＝アジア、国籍情報ｂ＝アジア、国籍情報ｃ＝不明、国籍情報ｄ＝英語、国籍情報ｅ＝日本、性別＝男、年齢＝４０代前半となったとする。
【００７３】
また、国籍情報ＤＢ６には、発話ベースの国籍情報ｅ＞顔ベースの国籍情報ａ＞衣裳ベースの国籍情報ｃ＞肌色ベースの国籍情報ｂ＞画像周辺情報ベースの国籍情報ｄという順序が格納されているとする。そうすると、国籍情報の優先度は、発話ベースの国籍情報ｅである「日本」が最上位に来るため、国籍判定装置５は、人物の国籍を「日本」と最終的に判定する。なお性別と年齢は最終国籍判定に利用されない。
【００７４】
上記の順序づけは、正確性の高い国籍情報を上位に持ってくると判断精度が高くなる。ただし、国籍判定システム１００の設置場所など使用環境に応じた適切な判定を可能にするため、どのような順序を付けるかは権限のあるユーザにより操作装置９から任意に設定できてもよい。例えば、国籍判定システム１００が人の往来が激しく騒々しい場所に設置される場合は、音声による国籍判定の精度は低いものと考えられるから、発話ベースの国籍情報ｅの優先度を低くするとよい。
【００７５】
また、常に全てのジャンルの国籍情報ａ〜ｅがそろわない場合もあるが、存在しない国籍情報は優先度の判定対象から除外される。例えば、録画はできたが録音ができなかった場合は、発話ベースの国籍情報ｅが存在せず、存在しない発話ベースの国籍情報ｅを除く国籍情報の中で最も順位の高いものを最終的な国籍と判定する。
【００７６】
最終的な国籍判定は順序づけによらなくてもよい。例えば、個々の国籍情報の中の多数派（最も多い同一の国籍）を最終的な国籍と判定してもよい。国籍情報ａ＝アジア、国籍情報ｂ＝アジア、国籍情報ｃ＝不明、国籍情報ｄ＝英語、国籍情報ｅ＝日本では、アジアが２つ、英語が１つ、日本が１つであり、アジアが多数派であるから、アジアが最終的な国籍となる。ただし、日本はアジアに含まれるから、日本も多数派であるアジアの中に含まれるとみなし、この場合、アジアよりも下位概念の国籍情報である日本を最終的な国籍と判定してもよい。
【００７７】
普遍情報（性別および年齢）の判定についても、画像解析と音声解析の結果で得られた性別および年齢に基づいて総合的に判定する。年齢は一意的な数字でなくてもよく、１０代前半、１０代後半、２０代前半、といった数値範囲（年齢層）でもよい。例えば、性別については、画像解析、音声解析のそれぞれの結果で得られた性別が一致すれば、その一致する性別を最終的な性別と判定する。一致しなければ、「性別不明」と判定する。また、年齢については、画像解析、音声解析のそれぞれの結果で得られた年齢層の論理和（ＯＲ）を取った範囲を最終的な年齢層とする。両解析結果の論理積（ＡＮＤ）つまり両者の重複する年齢を最終的な年齢層と判定してもよいが、重複がなければ「年齢不明」と判定する。
【００７８】
Ｓ８では、Ｓ７で最終的に判定した国籍を表示装置８に表示する。あるいは、最終判定した国籍そのものを表示する代わりに、あるいは判定した国籍とともに、最終判定した国籍に対応する出力情報（映像）を国籍対応情報ＤＢ７から取得し、その取得した出力情報を表示してもよい。また、図示は省略するが、国籍判定システム１００が音声デコーダ、アンプ、スピーカといった公知の音声再生装置１０を備えており、出力情報が音声情報を含んでいれば、最終判定した国籍に対応する音声情報を当該音声再生装置１０にて再生してもよい。もちろん、出力情報が映像と音声の両方を含んでいてもよく、この両者を表示装置８および音声再生装置１０で同期して表示してもよい。
【００７９】
例えば、上記のように人物の国籍を「日本」と最終的に判定した場合は、「日本」に対応する出力情報（日本語の空港案内や広告メッセージ）を映像または音声にて再生する。「日本」に対応する出力情報が、国籍対応情報ＤＢ７にて普遍情報（性別や年齢）ごとにサブカテゴライズされている場合は、最終判定国籍「日本」、判定年齢「４０代」および判定性別「男」に対応する出力情報を国籍対応情報ＤＢ７から取得して再生する。
【００８０】
あるいは、人物の国籍を「アジア」と最終的に判定した場合は、「アジア」に対応する出力情報（日本語・朝鮮語・北京語併記の空港案内や広告メッセージ）を映像および／または音声にて再生する。
【００８１】
国籍を最終判定した人物が複数存在する場合は、各人物の最終判定国籍および／またはそれに対応した出力情報を入力画像中の被写体人物と対応づけて表示してもよい。これは画像が静止画でも動画でも可能である。画像が複数であれば、各画像を１枚ずつあるいは分割表示で１画面に所定の表示期間し、かつ、画像内の被写体人物に対応する国籍および／またはそれに対応した出力情報を表示する。両者の対応づけは、被写体人物付近に配置された吹き出しなどを用いればよい。
【００８２】
また、上述の多数派で最終国籍判定する場合、同数の多数派が複数存在したり、個々の国籍情報が相互に矛盾して多数派が１つもないなどの理由で、一意に最終判定することが不可能な場合は、個々の国籍情報の確からしさの順に個々の国籍情報を国籍候補として表示装置８にリスト表示し、権限のあるユーザが国籍候補から操作装置９を介して任意に選択した国籍候補を最終的な国籍と判定してもよい。あるいは、個々の国籍情報がいずれも「不明」である場合は、国籍対応情報ＤＢ７に蓄積されたデフォルト情報、例えば英語で記述された案内や広告メッセージを出力情報として取得し、表示あるいは音声再生する。
【００８３】
国籍対応情報ＤＢ７から取得した出力情報の再生が完了した場合は、Ｓ１に戻り、同様の処理を繰り返すことができる。タイマー機能で本処理の開始・終了を自動的に制御してもよいし、権限のあるユーザが国籍候補から操作装置９を介して任意に処理の開始・継続・終了を指令できてもよい。
【００８４】
以上の処理により、人物の国籍を総合的に正確に判定でき、また判定された人物の国籍に合った内容の情報を出力でき、当該人物に理解しやすい形で情報を提示できる。
【符号の説明】
【００８５】
１：画像入力装置、２：画像解析装置、３：音声入力装置、４：音声解析装置、５：国籍判定装置、６：国籍情報ＤＢ、７：国籍対応情報ＤＢ、８：表示装置

【特許請求の範囲】
【請求項１】
画像を入力する画像入力部と、
前記画像入力部の入力した画像から人物の属性に関する特徴量を複数抽出し、抽出された個々の特徴量に基づいて、前記個々の特徴量に対応する人物の国籍を個別に判定する画像国籍判定部と、
前記画像国籍判定部が個別に判定した前記個々の特徴量に対応する人物の国籍に基づいて、最終的な人物の国籍を判定する最終国籍判定部と、
を備える国籍判定装置。
【請求項２】
前記個々の特徴量は、前記画像から検出された顔領域の特徴量および前記顔領域の周辺領域の特徴量を含む請求項１に記載の国籍判定装置。
【請求項３】
前記顔領域の特徴量は、顔パーツの色、位置および形状を含む請求項２に記載の国籍判定装置。
【請求項４】
前記顔領域の周辺領域の特徴量は文字情報および被服情報のうち少なくとも一方を含む請求項２または３に記載の国籍判定装置。
【請求項５】
音声を入力する音声入力部と、
前記音声入力部の入力した音声に基づいて音声に対応する人物の国籍を判定する音声国籍判定部と、
を備え、
前記最終国籍判定部は、前記画像国籍判定部の判定した前記個々の特徴量に対応する人物の国籍と前記音声国籍判定部の判定した音声に対応する国籍に基づいて、最終的な人物の国籍を判定する請求項１〜４のいずれかに記載の国籍判定装置。
【請求項６】
前記音声国籍判定部は、前記音声から発話言語を認識し、認識された発話言語に基づいて音声に対応する国籍を判定する請求項５に記載の国籍判定装置。
【請求項７】
前記画像国籍判定部は、前記画像から人物の普遍的な属性に関する特徴量を抽出し、抽出された人物の普遍的な属性に関する特徴量に基づいて、画像に対応する人物の普遍的な属性を判定し、
前記音声国籍判定部は、前記音声に基づいて音声に対応する人物の普遍的な属性を判定し、
前記最終国籍判定部は、前記画像国籍判定部の判定した前記画像に対応する人物の普遍的な属性と前記音声国籍判定部の判定した音声に対応する人物の普遍的な属性に基づいて、最終的な人物の普遍的な属性を判定する請求項５または６に記載の国籍判定装置。
【請求項８】
前記最終的な人物の普遍的な属性は性別および年齢のうち少なくとも一方を含む請求項７に記載の国籍判定装置。
【請求項９】
前記最終国籍判定部は、前記画像国籍判定部の判定した前記個々の特徴量に対応する人物の国籍および前記音声国籍判定部の判定した音声に対応する国籍に対応して予め定義された優先度に基づいて、最終的な人物の国籍を判定する請求項５〜８のいずれかに記載の国籍判定装置。
【請求項１０】
前記最終国籍判定部の判定した最終的な人物の国籍を示す情報を所定の再生装置に出力する最終判定結果出力部を備える請求項１〜９のいずれかに記載の国籍判定装置。
【請求項１１】
最終的な人物の国籍と所望の再生情報とを対応づけて記憶する再生情報記憶部と、
前記最終国籍判定部の判定した最終的な人物の国籍に対応する再生情報を前記再生情報記憶部から抽出し、抽出された再生情報を所定の再生装置に出力する再生情報出力部を備える請求項１〜１０のいずれかに記載の国籍判定装置。
【請求項１２】
コンピュータが、
画像を入力するステップと、
前記入力した画像から人物の属性に関する特徴量を複数抽出し、抽出された個々の特徴量に基づいて、前記個々の特徴量に対応する人物の国籍を個別に判定するステップと、
前記個別に判定した前記個々の特徴量に対応する人物の国籍に基づいて、最終的な人物の国籍を判定するステップと、
を含む国籍判定方法。
【請求項１３】
請求項１２に記載の国籍判定方法をコンピュータに実行させるためのプログラム。

【図１】