情報処理装置、および情報処理方法、並びにプログラム

【課題】不確実で非同期な入力情報に基づく情報解析により、ユーザ位置や識別情報、発話者情報などを生成する構成を実現する。
【解決手段】画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力し、入力イベント情報に基づいて、各ユーザの位置およびユーザ識別情報を含むターゲット情報と、イベント発生源の確率値を示すシグナル情報を生成する情報統合処理部を有し、情報統合処理部は、発話源確率算出部を有し、発話源確率算出部は、各ターゲットの発話源確率を示す指標値としての発話源スコアを、イベント検出部から入力する複数の異なる情報に対して発話状況に応じた重みを乗算して算出する処理を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、外界からの入力情報、例えば画像、音声などの情報を入力し、入力情報に基づく外界環境の解析、具体的には言葉を発している人物の位置や誰であるか等の解析処理を実行する情報処理装置、および情報処理方法、並びにプログラムに関する。
【０００２】
さらに、複数の人物が同時発話を行った場合に、発声したユーザの識別を行い、それぞれの発話を解析する情報処理装置、および情報処理方法、並びにプログラムに関する。
【背景技術】
【０００３】
人とＰＣやロボットなどの情報処理装置との相互間の処理、例えばコミュニケーションやインタラクティブ処理を行うシステムはマン−マシン・インタラクション・システムと呼ばれる。このマン−マシン・インタラクション・システムにおいて、ＰＣやロボット等の情報処理装置は、人のアクション例えば人の動作や言葉を認識するために画像情報や音声情報を入力して入力情報に基づく解析を行う。
【０００４】
人が情報を伝達する場合、言葉のみならずしぐさ、視線、表情など様々なチャネルを情報伝達チャネルとして利用する。このようなすべてのチャネルの解析をマシンにおいて行うことができれば、人とマシンとのコミュニケーションも人と人とのコミュニケーションと同レベルに到達することができる。このような複数のチャネル（モダリティ、モーダルとも呼ばれる）からの入力情報の解析を行うインタフェースは、マルチモーダルインタフェースと呼ばれ、近年、開発、研究が盛んに行われている。
【０００５】
例えばカメラによって撮影された画像情報、マイクによって取得された音声情報を入力して解析を行う場合、より詳細な解析を行うためには、様々なポイントに設置した複数のカメラおよび複数のマイクから多くの情報を入力することが有効である。
【０００６】
具体的なシステムとしては、例えば以下のようなシステムが想定される。情報処理装置（テレビ）が、カメラおよびマイクを介して、テレビの前のユーザ（父、母、姉、弟）の画像および音声を入力し、それぞれのユーザの位置やどのユーザが発した言葉であるか等を解析し、テレビが解析情報に応じた処理、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対する的確な応答を行うなどのシステムが実現可能となる。
【０００７】
従来のマン−マシン・インタラクション・システムを開示した従来技術として、例えば特許文献１（特開２００９−３１９５１号公報）や、特許文献２（特開２００９−１４０３６６号公報）がある。これらの従来技術では、複数チャネル（モーダル）からの情報を確率的に統合して、複数のユーザがそれぞれどこにいて、それらは誰で、誰がシグナルを発したのか、すなわち発話行ったのかを決定するという処理を行っている。
【０００８】
例えば誰がシグナルを発したのかを決定する際に、複数のユーザに対応する仮想的なターゲット（ｔＩＤ＝１〜ｍ）を設定し、カメラによって撮影される画像データや、マイクを介して得られる音声情報の解析結果から各ターゲットが発話源である確率を算出している。
【０００９】
具体的には、例えば以下のような処理を行っている。
（ａ）マイクを介して得られる音声イベントの音源方向情報、話者識別情報から得られるユーザ位置情報と、ユーザ識別情報のみから得られるターゲットｔＩＤの発話源確率Ｐ（ｔＩＤ）と、
（ｂ）カメラを介して得られる画像に基づく顔認識処理によって取得される顔属性スコア［Ｓ（ｔＩＤ）］の面積であるＳ_Δｔ（ｔＩＤ）、
これらの（ａ），（ｂ）を算出し、さらに予め設定した配分重み係数としてのαを用いて重みαを考慮した加算または乗算によって、各ターゲット（ｔＩＤ＝１〜ｍ）の発話者確率Ｐｓ（ｔＩＤ）またはＰｐ（ｔＩＤ）を算出する。
なお、この処理の詳細は、例えば上記の特許文献２（特開２００９−１４０３６６号公報）に記載されている。
【００１０】
上記の従来技術における発話者確率の算出処理においては、上記のように重み係数αを事前に調整しておくことが必要となる。このような重み係数の事前調整は煩わしいばかりでなく、重み係数が適切な数値に調整されていないと、発話者確率の算出結果の妥当性そのものにも大きく影響を与えるという問題がある。
【先行技術文献】
【特許文献】
【００１１】
【特許文献１】特開２００９−３１９５１号公報
【特許文献２】特開２００９−１４０３６６号公報
【発明の概要】
【発明が解決しようとする課題】
【００１２】
本開示は、例えば上述の問題点に鑑みてなされたものであり、複数のチャネル（モダリティ、モーダル）からの入力情報の解析、具体的には、例えば周囲にいる人物の位置などの特定処理を行うシステムにおいて、画像、音声情報などの様々な入力情報に含まれる不確実な情報に対する確率的な処理を行ってより精度の高いと推定される情報に統合する処理を行うことによりロバスト性を向上させ、精度の高い解析を行う情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
【００１３】
また、本開示の一実施例では、複数の人物が同時発話を行った場合に、発声したユーザの識別を行い、それぞれの発話を解析する情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１４】
本開示の第１の側面は、
実空間の観測情報を入力する複数の情報入力部と、
前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出部と、
前記イベント情報を入力し、入力イベント情報に基づいて、各ユーザの位置およびユーザ識別情報を含むターゲット情報と、
前記イベント発生源の確率値を示すシグナル情報を生成する情報統合処理部を有し、
前記情報統合処理部は、発話源確率算出部を有し、
前記発話源確率算出部は、各ターゲットの発話源確率を示す指標値としての発話源スコアを、イベント検出部から入力する複数の異なる情報に対して発話状況に応じた重みを乗算して算出する処理を行う情報処理装置にある。
【００１５】
さらに、本開示の情報処理装置の一実施態様において、前記発話源確率算出部は、前記イベント検出部を構成する音声イベント検出部からの入力情報として、発話イベントに対応する、
（ａ）ユーザ位置情報（音源方向情報）、
（ｂ）ユーザ識別情報（話者識別情報）、
を入力し、
さらに、前記イベント検出部を構成する画像イベント検出部からの入力情報に基づいて生成されるターゲット情報として、
（ａ）ユーザ位置情報（顔位置情報）、
（ｂ）ユーザ識別情報（顔識別情報）、
（ｃ）口唇動作情報、
これらの情報を入力し、少なくともこれらの情報のいずれかを適用して、入力情報に基づく発話源スコアを算出する処理を行う。
【００１６】
さらに、本開示の情報処理装置の一実施態様において、前記発話源確率算出部は、音源方向情報Ｄと、話者識別情報Ｓと、口唇動作情報Ｌを適用して、発話源スコアＰを、以下の算出式、
Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γ
ただし、
α：音源方向情報の重み係数、
β：話者識別情報の重み係数、
γ：口唇動作情報の重み係数、
α＋β＋γ＝１
上記発話源スコアＰの算出式に従って発話源スコアを算出する処理を行う。
【００１７】
さらに、本開示の情報処理装置の一実施態様において、前記発話源確率算出部は、前記各重み係数：α、β、γを発話状況に応じて調整する処理を行う。
【００１８】
さらに、本開示の情報処理装置の一実施態様において、前記発話源確率算出部は、以下の２つの条件、
（条件１）１つのターゲットのみによる単独発話か、あるいは２つのターゲットによる同時発話か、
（条件２）２つのターゲットの位置が近いか、あるいは２つのターゲットの位置が遠いか、
上記２つの条件に応じて、前記各重み係数：α、β、γを調整する処理を行う。
【００１９】
さらに、本開示の情報処理装置の一実施態様において、前記発話源確率算出部は、発話可能性のあるターゲットが２である状況において、２つのターゲットが同時発声する場合、口唇動作情報の重みγを小さくするように前記各重み係数：α、β、γを調整する処理を行う。
【００２０】
さらに、本開示の情報処理装置の一実施態様において、前記発話源確率算出部は、発話可能性のあるターゲットが２である状況において、２つのターゲットの位置が近く、１ターゲットのみが単独発声する場合、音源方向情報の重みαを小さくするように前記各重み係数：α、β、γを調整する処理を行う。
【００２１】
さらに、本開示の情報処理装置の一実施態様において、前記発話源確率算出部は、発話可能性のあるターゲットが２である状況において、２つのターゲットの位置が近く、２つのターゲットが同時に発声する場合、口唇動作情報の重みγと音源方向情報の重みαを小さくするように前記各重み係数：α、β、γを調整する処理を行う。
【００２２】
さらに、本開示の第２の側面は、
情報処理装置において、情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における観測情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、前記イベント情報を入力し、入力イベント情報に基づいて、各ユーザの位置およびユーザ識別情報を含むターゲット情報と、
前記イベント発生源の確率値を示すシグナル情報を生成する情報統合処理ステップを有し、
前記情報統合処理ステップは、
各ターゲットの発話源確率を示す指標値としての発話源スコアを、イベント検出ステップにおいて入力する複数の異なる情報に対して発話状況に応じた重みを乗算して算出する処理を行う情報処理方法にある。
【００２３】
さらに、本開示の第３の側面は、
情報処理装置において、情報解析処理を実行させるプログラムであり、
複数の情報入力部に、実空間における観測情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、前記イベント情報を入力し、入力イベント情報に基づいて、各ユーザの位置およびユーザ識別情報を含むターゲット情報と、
前記イベント発生源の確率値を示すシグナル情報を生成させる情報統合処理ステップを実行させ、
前記情報統合処理ステップにおいては、
各ターゲットの発話源確率を示す指標値としての発話源スコアを、イベント検出ステップにおいて入力する複数の異なる情報に対して発話状況に応じた重みを乗算して算出する処理を行わせるプログラムにある。
【００２４】
なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
【００２５】
本開示のさらに他の目的、特徴や利点は、後述する実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【発明の効果】
【００２６】
本開示の一実施例の構成によれば、不確実で非同期な入力情報に基づく情報解析により、ユーザ位置や識別情報、発話者情報などを生成する構成が実現される。
具体的には、画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力し、入力イベント情報に基づいて、各ユーザの位置およびユーザ識別情報を含むターゲット情報と、イベント発生源の確率値を示すシグナル情報を生成する情報統合処理部を有し、情報統合処理部は、発話源確率算出部を有し、発話源確率算出部は、各ターゲットの発話源確率を示す指標値としての発話源スコアを、イベント検出部から入力する複数の異なる情報に対して発話状況に応じた重みを乗算して算出する処理を行う。
これらの処理によって、例えば２つのターゲット（２人）が同時に発話した状況においても、どちらが発話したかを高精度に推定することが可能となる。
【図面の簡単な説明】
【００２７】
【図１】本開示に係る情報処理装置の実行する処理の概要について説明する図である。
【図２】本開示の一実施例の情報処理装置の構成および処理について説明する図である。
【図３】音声イベント検出部１２２および画像イベント検出部１１２が生成し情報統合処理部１３１に入力する情報の例について説明する図である。
【図４】パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した基本的な処理例について説明する図である。
【図５】本処理例で設定するパーティクルの構成について説明する図である。
【図６】各パーティクルに含まれるターゲット各々が有するターゲットデータの構成について説明する図である。
【図７】ターゲット情報の構成および生成処理について説明する図である。
【図８】ターゲット情報の構成および生成処理について説明する図である。
【図９】ターゲット情報の構成および生成処理について説明する図である。
【図１０】情報統合処理部１３１の実行する処理シーケンスを説明するフローチャートを示す図である。
【図１１】パーティクル重み［Ｗ_ｐＩＤ］の算出処理の詳細について説明する図である。
【図１２】発話者特定処理について説明する図である。
【図１３】発話源確率算出部の実行する処理シーケンスの一例について説明するフローチャートを示す図である。
【図１４】発話源確率算出部の実行する発話源スコアの算出処理について説明する図である。
【図１５】発話源確率算出部の実行する発話源スコアの算出処理シーケンスを説明するフローチャートを示す図である。
【図１６】発話源確率算出部の実行する発話源スコアの算出処理における重み係数の決定要素となる発話状況の例について説明する図である。
【図１７】発話源確率算出部の実行する発話源スコアの算出処理における重み係数の決定処理例について説明する図である。
【図１８】発話源確率算出部の実行する発話源スコアの算出処理における重み係数の決定処理例について説明する図である。
【発明を実施するための形態】
【００２８】
以下、図面を参照しながら本開示の実施形態に係る情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
１．本開示の情報処理装置の実行する処理の概要について
２，本開示の情報処理装置の構成と処理の詳細について
３．本開示の情報処理装置の実行する処理シーケンスについて
４．発話源確率算出部の実行する処理の詳細について
５．発話源スコアの算出処理について
６．本開示の構成のまとめ
【００２９】
［１．本開示の情報処理装置の実行する処理の概要について］
ます、本開示の情報処理装置の実行する処理の概要について説明する。
本開示は、例えば、入力イベント情報の内、ユーザの発話に対応する音声イベント情報に関しては、発話源確率の算出において識別器を用い、背景技術の欄において説明した重み係数の事前調整を行う必要のない構成を実現するものである。
具体的には、各ターゲットが発話源らしいかどうかを識別する識別器や、２つのターゲット情報のみを対象として、どちらがより発話源らしいか判定する識別器を用いる。識別器への入力情報は、音声イベント情報に含まれる音源方向情報や話者識別情報や、イベント情報の内、画像イベント情報に含まれる口唇動作情報や、ターゲット情報に含まれるターゲット位置やターゲット総数を用いる。発話源確率の算出において識別器を用いることによって、背景技術の欄において説明した重み係数の事前調整が必要なくなり、且つより適切な発話源確率の算出が可能となる。
【００３０】
まず、図１を参照して本開示に係る情報処理装置の実行する処理の概要について説明する。本開示の情報処理装置１００は、実空間における観測情報を入力するセンサ、ここでは一例としてカメラ２１と、複数のマイク３１〜３４から画像情報、音声情報を入力し、これらの入力情報に基づいて環境の解析を行う。具体的には、複数のユーザ１，１１〜２，１２の位置の解析、およびその位置にいるユーザの識別を行う。
【００３１】
図に示す例において、例えばユーザ１，１１〜ユーザ２，１２が家族である姉、弟であるとき、情報処理装置１００は、カメラ２１と、複数のマイク３１〜３４から入力する画像情報、音声情報の解析を行い、２人のユーザ１〜２の存在する位置、各位置にいるユーザが姉、弟のいずれであるかを識別する。識別処理結果は様々な処理に利用される。例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理に利用される。
【００３２】
なお、本開示に係る情報処理装置１００の主要な処理は、複数の情報入力部（カメラ２１，マイク３１〜３４）からの入力情報に基づいて、ユーザの位置識別およびユーザの特定処理としてのユーザ識別処理を行うことである。この識別結果の利用処理については特に限定するものではない。カメラ２１と、複数のマイク３１〜３４から入力する画像情報、音声情報には様々な不確実な情報が含まれる。本開示の情報処理装置１００では、これらの入力情報に含まれる不確実な情報に対する確率的な処理を行って、精度の高いと推定される情報に統合する処理を行う。この推定処理によりロバスト性を向上させ、精度の高い解析を行う。
【００３３】
［２，本開示の情報処理装置の構成と処理の詳細について］
図２に情報処理装置１００の構成例を示す。情報処理装置１００は、入力デバイスとして画像入力部（カメラ）１１１、複数の音声入力部（マイク）１２１ａ〜ｄを有する。画像入力部（カメラ）１１１から画像情報を入力し、音声入力部（マイク）１２１から音声情報を入力し、これらの入力情報に基づいて解析を行う。複数の音声入力部（マイク）１２１ａ〜ｄの各々は、図１に示すように様々な位置に配置されている。
【００３４】
複数のマイク１２１ａ〜ｄから入力された音声情報は、音声イベント検出部１２２を介して情報統合処理部１３１に入力される。音声イベント検出部１２２は、複数の異なるポジションに配置された複数の音声入力部（マイク）１２１ａ〜ｄから入力する音声情報を解析し統合する。具体的には、音声入力部（マイク）１２１ａ〜ｄから入力する音声情報に基づいて、発生した音の位置およびどのユーザの発生させた音であるかのユーザ識別情報を生成して情報統合処理部１３１に入力する。
【００３５】
なお、情報処理装置１００の実行する具体的な処理は、例えば図１に示すように複数のユーザが存在する環境で、ユーザＡ〜Ｂがどの位置にいて、会話を行ったユーザがどのユーザであるかを識別すること、すなわち、ユーザ位置およびユーザ識別を行うことであり、さらに声を発した人物（発話者）などのイベント発生源を特定する処理である。
【００３６】
音声イベント検出部１２２は、複数の異なるポジションに配置された複数の音声入力部（マイク）１２１ａ〜ｄから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データとして生成する。具体的には、音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。音声イベント検出部１２２には、予め検証すべき複数のユーザの声についての特徴情報が登録されており、入力音声と登録音声との比較処理を実行して、どのユーザの声である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。
【００３７】
このように、音声イベント検出部１２２は、複数の異なるポジションに配置された複数の音声入力部（マイク）１２１ａ〜ｄから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データと、確率的な推定値からなるユーザ識別情報とによって構成される［統合音声イベント情報］を生成して情報統合処理部１３１に入力する。
【００３８】
一方、画像入力部（カメラ）１１１から入力された画像情報は、画像イベント検出部１１２を介して情報統合処理部１３１に入力される。画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力する画像情報を解析し、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。
【００３９】
また、画像イベント検出部１１２は、予め登録されたユーザの顔の特徴情報との比較処理に基づいて顔を識別してユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。画像イベント検出部１１２には、予め検証すべき複数のユーザの顔についての特徴情報が登録されており、入力画像から抽出した顔領域の画像の特徴情報と登録された顔画像の特徴情報との比較処理を実行して、どのユーザの顔である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。
【００４０】
さらに、画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像に含まれる顔に対応する属性スコア、例えば口領域の動きに基づいて生成される顔属性スコアを算出する。
【００４１】
顔属性スコアは、例えば、
（ａ）画像に含まれる顔の口領域の動きに対応するスコア、
（ｂ）画像に含まれる顔が笑顔か否かに応じて設定するスコア、
（ｃ）画像に含まれる顔が男であるか女であるかに応じて設定するスコア、
（ｄ）画像に含まれる顔が大人であるか子供であるかに応じて設定するスコア、
このような様々な顔属性スコアを算出する設定が可能である。
以下に説明する実施例では、
（ａ）画像に含まれる顔の口領域の動きに対応するスコアを顔属性スコアとして算出して利用する例について説明する。すなわち、顔の口領域の動きに対応するスコアを顔属性スコアとして算出し、この顔属性スコアに基づいて発話者の特定を行なう。
【００４２】
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像に含まれる顔領域から口領域を識別して、口領域の動き検出を行い、口領域の動き検出結果に対応したスコア、例えば口の動きがあると判定された場合に高いスコアとするスコアを算出する。
【００４３】
なお、口領域の動き検出処理は、例えばＶＳＤ（ＶｉｓｕａｌＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ）を適用した処理として実行する。本発明の出願人と同一の出願に係る特開２００５−１５７６７９に開示の方法を適用することができる。具体的には、例えば、画像入力部（カメラ）１１１からの入力画像から検出された顔画像から唇の左右端点を検出し、Ｎ番目のフレームとＮ＋１番目のフレームにおいて唇の左右端点をそれぞれそろえてから輝度の差分を算出し、この差分値を閾値処理することで、口の動きを検出することができる。
【００４４】
なお、音声イベント検出部１２２や画像イベント検出部１１２において実行する音声識別や、顔検出、顔識別処理は従来から知られる技術を適用する。例えば顔検出、顔識別処理としては以下の文献に開示された技術の適用が可能である。
佐部浩太郎，日台健一，"ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習"，第１０回画像センシングシンポジウム講演論文集，ｐｐ．５４７−５５２，２００４
特開２００４−３０２６４４（Ｐ２００４−３０２６４４Ａ）［発明の名称：顔識別装置、顔識別方法、記録媒体、及びロボット装置］
【００４５】
情報統合処理部１３１は、音声イベント検出部１２２や画像イベント検出部１１２からの入力情報に基づいて、複数のユーザが、それぞれどこにいて、それらは誰で、誰が音声等のシグナルを発したのかを確率的に推定する処理を実行する。
【００４６】
具体的には、情報統合処理部１３１は音声イベント検出部１２２や画像イベント検出部１１２からの入力情報に基づいて、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］
（ｂ）例えば発話したユーザなどのイベント発生源を［シグナル情報］、
これらの各情報を処理決定部１３２に出力する。
なお、シグナル情報には、以下の２つのシグナル情報が含まれる。
（ｂ１）音声イベントに基づくシグナル情報
（ｂ２）画像イベントに基づくシグナル情報
【００４７】
情報統合処理部１３１のターゲット情報更新部１４１は、画像イベント検出部１１２において検出された画像イベント情報を入力して、例えばパーティクル・フィルタを用いたターゲット更新処理を実行して、画像イベントに基づくターゲット情報とシグナル情報を生成して処理決定部１３２に出力する。なお、更新結果としてのターゲット情報は発話源確率算出部１４２にも出力される。
【００４８】
情報統合処理部１３１の発話源確率算出部１４２は、音声イベント検出部１２２において検出された音声イベント情報を入力して、識別モデル（識別器）を用いて各ターゲットが入力音声イベントの発話源である確率を算出する。発話源確率算出部１４２は、この算出値に基づいて、音声イベントに基づくシグナル情報を生成して処理決定部１３２に出力する。
これらの処理については後段で詳細に説明する。
【００４９】
情報統合処理部１３１の生成したターゲット情報、シグナル情報を含む識別処理結果を受領した処理決定部１３２は、識別処理結果を利用した処理を実行する、例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理を行う。
【００５０】
上述したように、音声イベント検出部１２２は、音声の発生源の位置情報の確率分布データ、具体的には、音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成して情報統合処理部１３１に入力する。
【００５１】
また、画像イベント検出部１１２は、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの顔の特徴情報との比較処理に基づいてユーザ識別情報を生成して情報統合処理部１３１に入力する。さらに、画像入力部（カメラ）１１１から入力された画像中の顔領域から顔属性情報としての顔属性スコア、例えば口領域の動き検出を行い、口領域の動き検出結果に対応したスコア、具体的には口の動きが大きいと判定された場合に高いスコアとする顔属性スコアを算出して情報統合処理部１３１に入力する。
【００５２】
図３を参照して、音声イベント検出部１２２および画像イベント検出部１１２が生成し情報統合処理部１３１に入力する情報の例について説明する。
【００５３】
本開示の構成では、画像イベント検出部１１２は、
（Ｖａ）顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）、
（Ｖｂ）顔画像の特徴情報に基づくユーザ識別情報、
（Ｖｃ）検出された顔の属性に対応するスコア、例えば口領域の動きに基づいて生成される顔属性スコア、
これらのデータを生成して情報統合処理部１３１に入力し、
音声イベント検出部１２２が、
（Ａａ）音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）、
（Ａｂ）声の特徴情報に基づくユーザ識別情報、
これらのデータを情報統合処理部１３１に入力する。
【００５４】
図３（Ａ）は図１を参照して説明したと同様のカメラやマイクが備えられた実環境の例を示し、複数のユーザ１〜ｋ，２０１〜２０ｋが存在する。この環境で、あるユーザが何らかの発話を行ったとすると、マイクで音声が入力される。また、カメラは連続的に画像を撮影している。
【００５５】
音声イベント検出部１２２および画像イベント検出部１１２が生成して、情報統合処理部１３１に入力する情報は、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これら３種類に大別できる。
【００５６】
すなわち、
（ａ）ユーザ位置情報は、
画像イベント検出部１１２の生成する
（Ｖａ）顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）と、
音声イベント検出部１２２の生成する
（Ａａ）音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）、
これらの統合データである。
【００５７】
また、
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）は、
画像イベント検出部１１２の生成する
（Ｖｂ）顔画像の特徴情報に基づくユーザ識別情報と、
音声イベント検出部１２２の生成する
（Ａｂ）声の特徴情報に基づくユーザ識別情報、
これらの統合データである。
【００５８】
（ｃ）顔属性情報（顔属性スコア）は、
画像イベント検出部１１２の生成する
（Ｖｃ）検出された顔の属性に対応するスコア、例えば口領域の動きに基づいて生成される顔属性スコア、
に対応する。
【００５９】
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）、
これらの３つの情報は、イベントの発生毎に生成される。音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｄから音声情報が入力された場合に、その音声情報に基づいて上記の（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報を生成して情報統合処理部１３１に入力する。画像イベント検出部１１２は、例えば予め定めた一定のフレーム間隔で、画像入力部（カメラ）１１１から入力された画像情報に基づいて（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報、（ｃ）顔属性情報（顔属性スコア）を生成して情報統合処理部１３１に入力する。なお、本例では、画像入力部（カメラ）１１１は１台のカメラを設定した例を示しており、１つのカメラに複数のユーザの画像が撮影される設定であり、この場合、１つの画像に含まれる複数の顔の各々について（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報を生成して情報統合処理部１３１に入力する。
【００６０】
音声イベント検出部１２２が音声入力部（マイク）１２１ａ〜ｄから入力する音声情報に基づいて、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（話者識別情報）
これらの情報を生成する処理について説明する。
【００６１】
［音声イベント検出部１２２による（ａ）ユーザ位置情報の生成処理］
音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｄから入力された音声情報に基づいて解析された声を発したユーザ、すなわち［話者］の位置の推定情報を生成する。すなわち、話者が存在すると推定される位置を、期待値（平均）［ｍ_ｅ］と分散情報［σ_ｅ］からなるガウス分布（正規分布）データＮ（ｍ_ｅ，σｅ）として生成する。
【００６２】
［音声イベント検出部１２２による（ｂ）ユーザ識別情報（話者識別情報）の生成処理］
音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｄから入力された音声情報に基づいて話者が誰であるかを、入力音声と予め登録されたユーザ１〜ｋの声の特徴情報との比較処理により推定する。具体的には話者が各ユーザ１〜ｋである確率を算出する。この算出値を（ｂ）ユーザ識別情報（話者識別情報）とする。例えば入力音声の特徴と最も近い登録された音声特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア（例えば０）を配分する処理によって各ユーザである確率を設定したデータを生成して、これを（ｂ）ユーザ識別情報（話者識別情報）とする。
【００６３】
次に、画像イベント検出部１１２が画像入力部（カメラ）１１１から入力する画像情報に基づいて、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの情報を生成する処理について説明する。
【００６４】
［画像イベント検出部１１２による（ａ）ユーザ位置情報の生成処理］
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像情報に含まれる顔の各々について顔の位置の推定情報を生成する。すなわち、画像から検出された顔が存在すると推定される位置を、期待値（平均）［ｍ_ｅ］と分散情報［σ_ｅ］からなるガウス分布（正規分布）データＮ（ｍ_ｅ，σ_ｅ）として生成する。
【００６５】
［画像イベント検出部１１２による（ｂ）ユーザ識別情報（顔識別情報）の生成処理］
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像情報に基づいて、画像情報に含まれる顔を検出し、各顔が誰であるかを、入力画像情報と予め登録されたユーザ１〜ｋの顔の特徴情報との比較処理により推定する。具体的には抽出された各顔が各ユーザ１〜ｋである確率を算出する。この算出値を（ｂ）ユーザ識別情報（顔識別情報）とする。例えば入力画像に含まれる顔の特徴と最も近い登録された顔の特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア（例えば０）を配分する処理によって各ユーザである確率を設定したデータを生成して、これを（ｂ）ユーザ識別情報（顔識別情報）とする。
【００６６】
［画像イベント検出部１１２による（ｃ）顔属性情報（顔属性スコア）の生成処理］
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像情報に基づいて、画像情報に含まれる顔領域を検出し、検出された各顔の属性、具体的には先に説明したように顔の口領域の動き、笑顔か否か、男であるか女であるか、大人であるかこどもであるかなどの属性スコアを算出することが可能であるが、本処理例では、画像に含まれる顔の口領域の動きに対応するスコアを顔属性スコアとして算出して利用する例について説明する。
【００６７】
顔の口領域の動きに対応するスコアを算出する処理として、前述したように画像イベント検出部１１２は、例えば、画像入力部（カメラ）１１１からの入力画像から検出された顔画像から唇の左右端点を検出し、Ｎ番目のフレームとＮ＋１番目のフレームにおいて唇の左右端点をそれぞれそろえてから輝度の差分を算出し、この差分値を閾値処理する。この処理により、口の動きを検出し、口の動きが大きいほど高いスコアとする顔属性スコアを設定する。
【００６８】
なお、カメラの撮影画像から複数の顔が検出された場合、画像イベント検出部１１２は、各検出顔に応じてそれぞれ個別のイベントとして、各顔対応のイベント情報を生成する。すなわち、以下の情報を含むイベント情報を生成して情報統合処理部１３１に入力する。
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの情報を生成して、情報統合処理部１３１に入力する。
【００６９】
本例では、画像入力部１１１として１台のカメラを利用した例を説明するが、複数のカメラの撮影画像を利用してもよく、その場合は、画像イベント検出部１１２は、各カメラの撮影画像の各々に含まれる各顔について、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの情報を生成して、情報統合処理部１３１に入力する。
【００７０】
次に、情報統合処理部１３１の実行する処理について説明する。情報統合処理部１３１は、上述したように、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す３つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの情報を逐次入力する。なお、これらの各情報の入力タイミングは様々な設定が可能であるが、例えば、音声イベント検出部１２２は新たな音声が入力された場合に上記（ａ），（ｂ）の各情報を音声イベント情報として生成して入力し、画像イベント検出部１１２は、一定のフレーム周期単位で、上記（ａ），（ｂ），（ｃ）の各情報を音声イベント情報として生成して入力するといった設定が可能である。
【００７１】
情報統合処理部１３１の実行する処理について、図４以下を参照して説明する。
先に説明したように、情報統合処理部１３１は、ターゲット情報更新部１４１、発話源確率算出部１４２を有し、それぞれ以下の処理を実行する。
【００７２】
ターゲット情報更新部１４１は、画像イベント検出部１１２において検出された画像イベント情報を入力して、例えばパーティクル・フィルタを用いたターゲット更新処理を実行して、画像イベントに基づくターゲット情報とシグナル情報を生成して処理決定部１３２に出力する。なお、更新結果としてのターゲット情報は発話源確率算出部１４２にも出力される。
【００７３】
発話源確率算出部１４２は、音声イベント検出部１２２において検出された音声イベント情報を入力して、識別モデル（識別器）を用いて各ターゲットが入力音声イベントの発話源である確率を算出する。発話源確率算出部１４２は、この算出値に基づいて、音声イベントに基づくシグナル情報を生成して処理決定部１３２に出力する。
【００７４】
まず、ターゲット情報更新部１４１の実行する処理について説明する。
情報統合処理部１３１のターゲット情報更新部１４１は、ユーザの位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）の確率分布データを設定し、その仮説を入力情報に基づいて更新することで、より確からしい仮説のみを残す処理を行う。この処理手法として、パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理を実行する。
【００７５】
パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理は、様々な仮説に対応するパーティクルを多数設定して行なわれる。本例では、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定し、画像イベント検出部１１２から、図３（Ｂ）に示す３つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの入力情報に基づいて、より確からしいパーティクルの重み（ウェイト）を高めていくという処理を行う。
【００７６】
パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した基本的な処理例について図４を参照して説明する。例えば、図４に示す例は、あるユーザに対応する存在位置をパーティクル・フィルタにより推定する処理例を示している。図４に示す例は、ある直線上の１次元領域におけるユーザ３０１の存在する位置を推定する処理である。
【００７７】
初期的な仮説（Ｈ）は、図４（ａ）に示すように均一なパーティクル分布データとなる。次に、画像データ３０２が取得され、取得画像に基づくユーザ３０１の存在確率分布データが図４（ｂ）のデータとして取得される。この取得画像に基づく確率分布データに基づいて、図４（ａ）のパーティクル分布データが更新され、図４（ｃ）の更新された仮説確率分布データが得られる。このような処理を、入力情報に基づいて繰り返し実行して、ユーザのより確からしい位置情報を得る。
【００７８】
なお、パーティクル・フィルタを用いた処理の詳細については、例えば［Ｄ．Ｓｃｈｕｌｚ，Ｄ．Ｆｏｘ，ａｎｄＪ．Ｈｉｇｈｔｏｗｅｒ．ＰｅｏｐｌｅＴｒａｃｋｉｎｇｗｉｔｈＡｎｏｎｙｍｏｕｓａｎｄＩＤ−ｓｅｎｓｏｒｓＵｓｉｎｇＲａｏ−ＢｌａｃｋｗｅｌｌｉｓｅｄＰａｒｔｉｃｌｅＦｉｌｔｅｒｓ．Ｐｒｏｃ．ｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＩＪＣＡＩ−０３）］に記載されている。
【００７９】
図４に示す処理例は、ユーザの存在位置のみについて、入力情報を画像データのみとした処理例として説明しており、パーティクルの各々は、ユーザ３０１の存在位置のみの情報を有している。
【００８０】
情報統合処理部１３１のターゲット情報更新部１４１は、画像イベント検出部１１２から、図３（Ｂ）に示す情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの情報を取得して、複数のユーザの位置と複数のユーザがそれぞれ誰であるかを判別する処理を行うことになる。従って、パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理では、情報統合処理部１３１が、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定して、画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報に基づいて、パーティクル更新を行うことになる。
【００８１】
情報統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す３つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらを入力して実行するパーティクル更新処理例について図５を参照して説明する。
【００８２】
なお、以下に説明するパーティクル更新処理は、情報統合処理部１３１のターゲット情報更新部１４１において画像イベント情報のみを用いて実行する処理例として説明する。
【００８３】
パーティクルの構成について説明する。情報統合処理部１３１のターゲット情報更新部１４１は、予め設定した数＝ｍのパーティクルを有する。図５に示すパーティクル１〜ｍである。各パーティクルには識別子としてのパーティクルＩＤ（ＰＩＤ＝１〜ｍ）が設定されている。
【００８４】
各パーティクルに、仮想的なオブジェクトに対応する複数のターゲットｔＩＤ＝１，２，・・・ｎを設定する。本例では、例えば実空間に存在すると推定される人数以上の仮想のユーザに対応する複数（ｎ個）のターゲットを各パーティクルに設定する。ｍ個のパーティクルの各々はターゲット単位でデータをターゲット数分保持する。図５に示す例では、１つのパーティクルにｎ個（ｎ＝２）のターゲットが含まれる。
【００８５】
情報統合処理部１３１のターゲット情報更新部１４１は、画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア［Ｓ_ｅＩＤ］）
これらのイベント情報を入力してｍ個のパーティクル（ＰＩＤ＝１〜ｍ）の更新処理を行う。
【００８６】
図５に示す情報統合処理部１３１に設定される各パーティクル１〜ｍに含まれるターゲット１〜ｎの各々は、入力するイベント情報の各々（ｅＩＤ＝１〜ｋ）に予め対応付けられており、その対応に従って、入力イベントに対応する選択されたターゲットの更新が実行される。具体的には、例えば画像イベント検出部１１２において検出された顔画像を個別のイベントとして、この顔画像イベント各々にターゲットを対応付けて処理を行なう。
【００８７】
具体的な更新処理について説明する。例えば、画像イベント検出部１１２は、予め定めた一定のフレーム間隔で、画像入力部（カメラ）１１１から入力された画像情報に基づいて（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報、（ｃ）顔属性情報（顔属性スコア）を生成して情報統合処理部１３１に入力する。
【００８８】
このとき、図５に示す画像フレーム３５０がイベントの検出対象フレームである場合、画像フレームに含まれる顔画像の数に応じたイベントが検出される。すなわち、図５に示す第１顔画像３５１に対応するイベント１（ｅＩＤ＝１）と、第２顔画像３５２に対応するイベント２（ｅＩＤ＝２）である。
【００８９】
画像イベント検出部１１２は、これらの各イベントの各々（ｅＩＤ＝１，２，・・・）について、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらを生成して情報統合処理部１３１に入力する。すなわち、図５に示すイベント対応情報３６１，３６２である。
【００９０】
情報統合処理部１３１のターゲット情報更新部１４１に設定されたパーティクル１〜ｍの各々に含まれるターゲット１〜ｎの各々は、イベント（ｅＩＤ＝１〜ｋ）の各々に予め対応付けられており、それぞれのパーティクルに含まれるどのターゲットを更新するかを予め設定した構成としている。なお、イベント（ｅＩＤ＝１〜ｋ）各々に対するターゲット（ｔＩＤ）の対応付けは、重複しない設定とする。すなわち、各パーティクルで重複がないように取得イベント分のイベント発生源仮説を生成する。
図５に示す例では、
（１）パーティクル１（ｐＩＤ＝１）は、
［イベントＩＤ＝１（ｅＩＤ＝１）］の対応ターゲット＝［ターゲットＩＤ＝１（ｔＩＤ＝１）］、
［イベントＩＤ＝２（ｅＩＤ＝２）］の対応ターゲット＝［ターゲットＩＤ＝２（ｔＩＤ＝２）］、
（２）パーティクル２（ｐＩＤ＝２）は、
［イベントＩＤ＝１（ｅＩＤ＝１）］の対応ターゲット＝［ターゲットＩＤ＝１（ｔＩＤ＝１）］、
［イベントＩＤ＝２（ｅＩＤ＝２）］の対応ターゲット＝［ターゲットＩＤ＝２（ｔＩＤ＝２）］、
：
（ｍ）パーティクルｍ（ｐＩＤ＝ｍ）は、
［イベントＩＤ＝１（ｅＩＤ＝１）］の対応ターゲット＝［ターゲットＩＤ＝２（ｔＩＤ＝２）］、
［イベントＩＤ＝２（ｅＩＤ＝２）］の対応ターゲット＝［ターゲットＩＤ＝１（ｔＩＤ＝１）］、
【００９１】
このように、情報統合処理部１３１のターゲット情報更新部１４１に設定されたパーティクル１〜ｍの各々に含まれるターゲット１〜ｎの各々は、イベント（ｅＩＤ＝１〜ｋ）の各々に予め対応付けられており、各イベントＩＤに応じて各パーティクルに含まれるどのターゲットを更新するかが決定された構成を持つ。例えば、図５に示す［イベントＩＤ＝１（ｅＩＤ＝１）］のイベント対応情報３６１によって、パーティクル１（ｐＩＤ＝１）では、ターゲットＩＤ＝１（ｔＩＤ＝１）のデータのみが選択的に更新される。
【００９２】
同様に、図５に示す［イベントＩＤ＝１（ｅＩＤ＝１）］のイベント対応情報３６１によって、パーティクル２（ｐＩＤ＝２）も、ターゲットＩＤ＝１（ｔＩＤ＝１）のデータのみが選択的に更新される。また、図５に示す［イベントＩＤ＝１（ｅＩＤ＝１）］のイベント対応情報３６１によって、パーティクルｍ（ｐＩＤ＝ｍ）では、ターゲットＩＤ＝２（ｔＩＤ＝２）のデータのみが選択的に更新される。
【００９３】
図５に示すイベント発生源仮設データ３７１，３７２が、各パーティクルに設定されたイベント発生源仮設データであり、これらが各パーティクルに設定されており、この情報に従ってイベントＩＤに対応する更新ターゲットが決定される。
【００９４】
各パーティクルに含まれる各ターゲットデータについて図６を参照して説明する。図６は、図５に示すパーティクル１（ｐＩＤ＝１）に含まれる１つのターゲット（ターゲットＩＤ：ｔＩＤ＝ｎ）３７５のターゲットデータの構成である。ターゲット３７５のターゲットデータは、図６に示すように、以下のデータ、すなわち、
（ａ）各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ_１ｎ，σ_１ｎ）］、
（ｂ）各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）
ｕＩＤ_１ｎ１＝０．０
ｕＩＤ_１ｎ２＝０．１
：
ｕＩＤ_１ｎｋ＝０．５
これらのデータによって構成される。
【００９５】
なお、（ａ）に示すガウス分布：Ｎ（ｍ_１ｎ，σ_１ｎ）における［ｍ_１ｎ，σ_１ｎ］の（１ｎ）は、パーティクルＩＤ：ｐＩＤ＝１におけるターゲットＩＤ：ｔＩＤ＝ｎに対応する存在確率分布としてのガウス分布であることを意味する。
また、（ｂ）に示すユーザ確信度情報（ｕＩＤ）における、［ｕＩＤ_１ｎ１］に含まれる（１ｎ１）は、パーティクルＩＤ：ｐＩＤ＝１におけるターゲットＩＤ：ｔＩＤ＝ｎの、ユーザ＝ユーザ１である確率を意味する。すなわちターゲットＩＤ＝ｎのデータは、
ユーザ１である確率が０．０、
ユーザ２である確率が０．１、
：
ユーザｋである確率が０．５、
であることを意味している。
【００９６】
図５に戻り、情報統合処理部１３１のターゲット情報更新部１４１の設定するパーティクルについての説明を続ける。図５に示すように、情報統合処理部１３１のターゲット情報更新部１４１は、予め決定した数＝ｍのパーティクル（ＰＩＤ＝１〜ｍ）を設定し、各パーティクルは、実空間に存在すると推定されるターゲット（ｔＩＤ＝１〜ｎ）各々について、
（ａ）各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ，σ）］、
（ｂ）各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）
これらのターゲットデータを有する。
【００９７】
情報統合処理部１３１のターゲット情報更新部１４１は、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア［Ｓ_ｅＩＤ］）
これらのイベント情報（ｅＩＤ＝１，２・・・）を入力し、各パーティクルにおいて予め設定されたイベント対応のターゲットの更新を実行する。
【００９８】
なお、更新対象は各ターゲットデータに含まれる以下のデータ、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらのデータである。
【００９９】
（ｃ）顔属性情報（顔属性スコア［Ｓ_ｅＩＤ］）は、イベント発生源を示す［シグナル情報］として最終的に利用される。ある程度の数のイベントが入力されると、各パーティクルの重み（ウェイト）も更新され、実空間の情報に最も近いデータを持つパーティクルの重みが大きくなり、実空間の情報に適合しないデータを持つパーティクルの重みが小さくなっていく。このようにパーティクルの重みに偏りが発生し収束した段階で、顔属性情報（顔属性スコア）に基づくシグナル情報、すなわち、イベント発生源を示す［シグナル情報］が算出される。
【０１００】
ある特定のターゲットｘ（ｔＩＤ＝ｘ）が、あるイベント（ｅＩＤ＝ｙ）の発生源である確率を、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
として示す。例えば、図５に示すようにｍ個のパーティクル（ｐＩＤ＝１〜ｍ）が設定され、各パーティクルに２つのターゲット（ｔＩＤ＝１，２）が設定されている場合、
第１ターゲット（ｔＩＤ＝１）が第１イベント（ｅＩＤ＝１）の発生源である確率は、
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝１）
第２ターゲット（ｔＩＤ＝２）が第１イベント（ｅＩＤ＝１）の発生源である確率は、
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝２）
である。
また、
第１ターゲット（ｔＩＤ＝１）が第２イベント（ｅＩＤ＝２）の発生源である確率は、
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝１）
第２ターゲット（ｔＩＤ＝２）が第２イベント（ｅＩＤ＝２）の発生源である確率は、
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝２）
である。
【０１０１】
イベント発生源を示す［シグナル情報］は、あるイベント（ｅＩＤ＝ｙ）の発生源が特定のターゲットｘ（ｔＩＤ＝ｘ）である確率、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
であり、これは、情報統合処理部１３１のターゲット情報更新部１４１に設定されたパーティクル数：ｍと、各イベントに対するターゲットの割り当て数との比に相当し、図５に示す例では、
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝１）＝［第１イベント（ｅＩＤ＝１）にｔＩＤ＝１を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝２）＝［第１イベント（ｅＩＤ＝１）にｔＩＤ＝２を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝１）＝［第２イベント（ｅＩＤ＝２）にｔＩＤ＝１を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝２）＝［第２イベント（ｅＩＤ＝２）にｔＩＤ＝２を割り当てたパーティクル数）／（ｍ）］
このような対応関係となる。
このデータがイベント発生源を示す［シグナル情報］として最終的に利用される。
【０１０２】
さらに、あるイベント（ｅＩＤ＝ｙ）の発生源が特定のターゲットｘ（ｔＩＤ＝ｘ）である確率、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
このデータは、ターゲット情報に含まれる顔属性情報の算出にも適用される。すなわち、
顔属性情報Ｓ_{ｔＩＤ＝１〜ｎ}の算出の際に利用される。顔属性情報Ｓ_{ｔＩＤ＝ｘ}は、ターゲットＩＤ＝ｘのターゲットの最終的な顔属性の期待値、すなわち、発話者である可能性を示す値に相当する。
【０１０３】
情報統合処理部１３１のターゲット情報更新部１４１は、画像イベント検出部１１２から、イベント情報（ｅＩＤ＝１，２・・・）を入力し、各パーティクルにおいて予め設定されたイベント対応のターゲットの更新を実行して、
（ａ）複数のユーザが、それぞれどこにいるかを示す位置推定情報と、誰であるかの推定情報（ｕＩＤ推定情報）、さらに、顔属性情報（Ｓ_ｔＩＤ）の期待値、例えば口を動かして話しをしていることを示す顔属性期待値を含む［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報（画像イベント対応シグナル情報）］、
これらを生成して処理決定部１３２に出力する。
【０１０４】
［ターゲット情報］は、図７の右端のターゲット情報３８０に示すように、各パーティクル（ＰＩＤ＝１〜ｍ）に含まれる各ターゲット（ｔＩＤ＝１〜ｎ）対応データの重み付き総和データとして生成される。図７には、情報統合処理部１３１の有するｍ個のパーティクル（ｐＩＤ＝１〜ｍ）と、これらのｍ個のパーティクル（ｐＩＤ＝１〜ｍ）から生成されるターゲット情報３８０を示している。各パーティクルの重みについては後述する。
【０１０５】
ターゲット情報３８０は、情報統合処理部１３１が予め設定した仮想的なユーザに対応するターゲット（ｔＩＤ＝１〜ｎ）の
（ａ）存在位置
（ｂ）誰であるか（ｕＩＤ１〜ｕＩＤｋのいずれであるか）
（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））
これらを示す情報である。
【０１０６】
各ターゲットの（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））は、前述したようにイベント発生源を示す［シグナル情報］に相当する確率、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
と、各イベントに対応する顔属性スコアＳ_{ｅＩＤ＝ｉ}に基づいて算出される。ｉはイベントＩＤである。
例えばターゲットＩＤ＝１の顔属性の期待値：Ｓ_{ｔＩＤ＝１}は、以下の式で算出される。
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}
一般化して示すと、
ターゲットの顔属性の期待値：Ｓ_ｔＩＤは、以下の式で算出される。
Ｓ_ｔＩＤ＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ）×Ｓ_ｅＩＤ
・・・（式１）
として示される。
【０１０７】
例えば、図５に示すように、システム内部にターゲットが２つ存在する場合、画像１フレーム内の画像イベント検出部１１２から、顔画像イベント２つ（ｅＩＤ＝１，２）が情報統合処理部１３１に入力された際の各ターゲット（ｔＩＤ＝１，２）顔属性の期待値計算例を図８に示す。
【０１０８】
図８に示す右端のデータは、図７に示すターゲット情報３８０に相当するターゲット情報３９０であり、各パーティクル（ＰＩＤ＝１〜ｍ）に含まれる各ターゲット（ｔＩＤ＝１〜ｎ）対応データの重み付き総和データとして生成される情報に相当する。
【０１０９】
このターゲット情報３９０における各ターゲットの顔属性は、前述したようにイベント発生源を示す［シグナル情報］に相当する確率［Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）］と、各イベントに対応する顔属性スコア［Ｓ_{ｅＩＤ＝ｉ}］に基づいて算出される。ｉはイベントＩＤである。
ターゲットＩＤ＝１の顔属性の期待値：Ｓ_{ｔＩＤ＝１}は、
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}
ターゲットＩＤ＝２の顔属性の期待値：Ｓ_{ｔＩＤ＝２}は、
Ｓ_{ｔＩＤ＝２}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝２）×Ｓ_{ｅＩＤ＝ｉ}
このように示される。
これら各ターゲットの顔属性の期待値：Ｓ_ｔＩＤの全ターゲットの総和は［１］になる。本処理例では、各ターゲットについて１〜０の顔属性の期待値：Ｓ_ｔＩＤが設定され、期待値が高いターゲットは発話者である確率が高いと判定される。
【０１１０】
なお、顔画像イベントｅＩＤに（顔属性スコア［Ｓ_ｅＩＤ］）が存在しない場合（例えば、顔検出できても口が手で覆われていて口の動き検出ができない場合）は顔属性スコア［Ｓ_ｅＩＤ］に事前知識の値［Ｓ_{ｐｒｉｏｒ}］等を用いる。事前知識の値としては、各ターゲット毎に直前に取得した値が存在する場合はその値を用いたり、事前にオフラインで所得した顔画像イベントから顔属性の平均値計算しておきその値を用いたりする構成が可能である。
【０１１１】
ターゲット数と画像１フレーム内の顔画像イベントは常に同数とは限らない。ターゲット数が顔画像イベント数よりも多いときには、前述したイベント発生源を示す［シグナル情報］に相当する確率［Ｐ_ｅＩＤ（ｔＩＤ）］の総和が［１］にならないため、前述した各ターゲットの顔属性の期待値算出式、すなわち、
Ｓ_ｔＩＤ＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ）×Ｓ_ｅＩＤ
・・・（式１）
上記式の各ターゲットについての期待値総和も［１］にならず、精度の高い期待値が計算できない。
【０１１２】
図９に示すように、画像フレーム３５０に前の処理レームには存在していた第３イベント対応の第３顔画像３９５が検出されなくなった場合には、上記式（式１）の各ターゲットについての期待値総和も［１］にならず、精度の高い期待値が計算できない。このような場合、各ターゲットの顔属性の期待値算出式を変更する。すなわち、各ターゲットの顔属性の期待値［Ｓ_ｔＩＤ］の総和を［１］にするために、補数［１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ）］と事前知識の値［Ｓ_{ｐｒｉｏｒ}］を用いて顔イベント属性の期待値Ｓ_ｔＩＤを次式（式２）で計算する。
Ｓ_ｔＩＤ＝Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ）×Ｓ_ｅＩＤ＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ））×Ｓ_{ｐｒｉｏｒ}
・・・（式２）
【０１１３】
図９は、システム内部にイベント対応のターゲットが３つ設定されているが、画像１フレーム内の顔画像イベントとして２つのみが画像イベント検出部１１２から、情報統合処理部１３１に入力された際の顔属性の期待値計算例を示している。
【０１１４】
ターゲットＩＤ＝１の顔属性の期待値：Ｓ_{ｔＩＤ＝１}は、
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ＝１）×Ｓ_{ｐｒｉｏｒ}
ターゲットＩＤ＝２の顔属性の期待値：Ｓ_{ｔＩＤ＝２}は、
Ｓ_{ｔＩＤ＝２}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝２）×Ｓ_{ｅＩＤ＝ｉ}＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ＝２）×Ｓ_{ｐｒｉｏｒ}
ターゲットＩＤ＝３の顔属性の期待値：Ｓ_{ｔＩＤ＝３}は、
Ｓ_{ｔＩＤ＝３}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝３）×Ｓ_{ｅＩＤ＝ｉ}＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ＝３）×Ｓ_{ｐｒｉｏｒ}
このように計算される。
【０１１５】
なお、逆に、ターゲット数が顔画像イベント数よりも少ないときは、イベント数と同数になるようにターゲットを生成して前述の（式１）を適用して各ターゲットの顔属性の期待値［Ｓ_{ｔＩＤ＝１}］を算出する。
【０１１６】
なお、顔属性は、本処理例では、口の動きに対応するスコアに基づく顔属性期待値、すなわち各ターゲットが発話者である期待値を示すデータとして説明しているが、前述したように、顔属性スコアは、笑顔や年齢などのスコアとして算出することが可能であり、この場合の顔属性期待値は、そのスコアに対応する属性に対応するデータとして算出されることになる。
【０１１７】
ターゲット情報は、パーティクルの更新に伴い、順次更新されることになり、例えばユーザ１〜ｋが実環境内で移動しない場合、ユーザ１〜ｋの各々が、ｎ個のターゲット（ｔＩＤ＝１〜ｎ）から選択されたｋ個にそれぞれ対応するデータとして収束することになる。
【０１１８】
例えば、図７に示すターゲット情報３８０中の最上段のターゲット１（ｔＩＤ＝１）のデータ中に含まれるユーザ確信度情報（ｕＩＤ）は、ユーザ２（ｕＩＤ_１２＝０．７）について最も高い確率を有している。従って、このターゲット１（ｔＩＤ＝１）のデータは、ユーザ２に対応するものであると推定されることになる。なお、ユーザ確信度情報（ｕＩＤ）を示すデータ［ｕＩＤ_１２＝０．７］中の（ｕＩＤ_１２）内の（１２）は、ターゲットＩＤ＝１のユーザ＝２のユーザ確信度情報（ｕＩＤ）に対応する確率であることを示している。
【０１１９】
このターゲット情報３８０中の最上段のターゲット１（ｔＩＤ＝１）のデータは、ユーザ２である確率が最も高く、このユーザ２は、その存在位置が、ターゲット情報３８０中の最上段のターゲット１（ｔＩＤ＝１）のデータに含まれる存在確率分布データに示す範囲にいると推定されることなる。
【０１２０】
このように、ターゲット情報３８０は、初期的に仮想的なオブジェクト（仮想ユーザ）として設定した各ターゲット（ｔＩＤ＝１〜ｎ）の各々について、
（ａ）存在位置
（ｂ）誰であるか（ｕＩＤ１〜ｕＩＤｋのいずれであるか）
（ｃ）顔属性期待値（本処理例では発話者である期待値（確率））
の各情報を示す。従って、各ターゲット（ｔＩＤ＝１〜ｎ）のｋ個のターゲット情報の各々は、ユーザが移動しない場合は、ユーザ１〜ｋに対応するように収束する。
【０１２１】
先に説明したように、情報統合処理部１３１は、入力情報に基づくパーティクルの更新処理を実行して、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらを生成して処理決定部１３２に出力する。
【０１２２】
このように、情報統合処理部１３１のターゲット情報更新部１４１は、仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して実空間に存在するユーザの位置情報を含む解析情報を生成する。すなわち、パーティクルに設定するターゲットデータの各々をイベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行う。
【０１２３】
また、ターゲット情報更新部１４１は、各パーティクルに設定したイベント発生源仮説ターゲットと、イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定し、パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行う。この処理については後述する。さらに、各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行する。また、パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシグナル情報の生成を行う。
【０１２４】
一方、情報統合処理部１３１の発話源確率算出部１４２は、音声イベント検出部１２２において検出された音声イベント情報を入力して、識別モデル（識別器）を用いて各ターゲットが入力音声イベントの発話源である確率を算出する。発話源確率算出部１４２は、この算出値に基づいて、音声イベントに基づくシグナル情報を生成して処理決定部１３２に出力する。
発話源確率算出部１４２の実行する処理の詳細については後段で説明する。
【０１２５】
［３．本開示の情報処理装置の実行する処理シーケンスについて］
次に、図１０に示すフローチャートを参照して情報統合処理部１３１の実行する処理シーケンスについて説明する。
情報統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、ユーザ位置情報と、ユーザ識別情報（顔識別情報または話者識別情報）、これらのイベント情報を入力して、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらの情報を生成して処理決定部１３２に出力する。この処理シーケンスについて、図１０に示すフローチャートを参照して説明する。
【０１２６】
まず、ステップＳ１０１において、情報統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらのイベント情報を入力する。
【０１２７】
イベント情報の取得に成功した場合は、ステップＳ１０２に進み、イベント情報の取得に失敗した場合は、ステップＳ１２１に進む。ステップＳ１２１の処理については後段で説明する。
【０１２８】
イベント情報の取得に成功した場合は、情報統合処理部１３１は、ステップＳ１０２において、音声イベントが入力されたか否かを判定する。入力イベントが音声イベントである場合は、ステップＳ１１１に進み、画像イベントである場合は、ステップＳ１０３に進む。
【０１２９】
入力イベントが音声イベントである場合は、ステップＳ１１１において、各ターゲットが入力音声イベントの発話源である確率を、識別モデル（識別器）を用いて算出する。算出結果を音声イベントに基づくシグナル情報として処理決定部１３２（図２参照）に出力する。このステップＳ１１１の処理の詳細については後段で説明する。
【０１３０】
入力イベントが画像イベントである場合は、ステップＳ１０３以下において、入力情報に基づくパーティクル更新処理を行うことになるが、パーティクル更新処理の前に、まずステップＳ１０３において、各パーティクルに対する新たなターゲットの設定が必要であるか否かを判定する。本開示の構成では、先に、図５を参照して説明したように、情報統合処理部１３１に設定される各パーティクル１〜ｍに含まれるターゲット１〜ｎの各々は、入力するイベント情報の各々（ｅＩＤ＝１〜ｋ）に予め対応付けられており、その対応に従って、入力イベントに対応する選択されたターゲットの更新が実行する構成としている。
【０１３１】
従って、例えば画像イベント検出部１１２から入力するイベント数が、ターゲット数より多い場合には、新たなターゲットの設定を行なうことが必要となる。具体的には、例えば図５に示す画像フレーム３５０にこれまで存在しなかった顔が出現した場合などである。このような場合は、ステップＳ１０４に進み、各パーティクルに新たなターゲットを設定する。このターゲットはこの新たなイベントに対応して更新されるターゲットとして設定される。
【０１３２】
次に、ステップＳ１０５において、情報統合処理部１３１に設定されたパーティクル１〜ｍのｍ個のパーティクル（ｐＩＤ＝１〜ｍ）の各々にイベントの発生源の仮説を設定する。イベント発生源とは、例えば、音声イベントであれば、話をしたユーザがイベント発生源であり、画像イベントであれば、抽出した顔を持つユーザがイベント発生源である。
【０１３３】
本開示の仮説設定処理は、先に図５等を参照して説明したように、各パーティクル１〜ｍに含まれるターゲット１〜ｎの各々に、入力するイベント情報の各々（ｅＩＤ＝１〜ｋ）を対応付けて設定する。
【０１３４】
すなわち、先に図５を参照して説明したように、パーティクル１〜ｍの各々に含まれるターゲット１〜ｎの各々は、イベント（ｅＩＤ＝１〜ｋ）の各々に対応付けて、それぞれのパーティクルに含まれるどのターゲットを更新するかが予め設定される。このように各パーティクルで、重複がないように取得イベント分のイベント発生源仮説を生成する。なお、初期的には例えば各イベントが均等に配分されるような設定としてよい。パーティクルの数：ｍは、ターゲットの数：ｎより大きく設定されるので、複数のパーティクルが同一のイベントＩＤ−ターゲットＩＤの対応をもつパーティクルとして設定される。例えば、ターゲットの数：ｎが１０とした場合、パーティクル数：ｍ＝１００〜１０００程度に設定した処理などが行われる。
【０１３５】
ステップＳ１０５における仮説設定の後、ステップＳ１０６に進む。ステップＳ１０６では、各パーティクル対応の重み、すなわちパーティクル重み［Ｗ_ｐＩＤ］の算出を行う。このパーティクル重み［Ｗ_ｐＩＤ］は初期的には各パーティクルに均一な値が設定されるが、イベント入力に応じて更新される。
【０１３６】
図１１を参照して、パーティクル重み［Ｗ_ｐＩＤ］の算出処理の詳細について説明する。パーティクル重み［Ｗ_ｐＩＤ］は、イベント発生源の仮説ターゲットを生成した各パーティクルの仮説の正しさの指標に相当する。パーティクル重み［Ｗ_ｐＩＤ］は、ｍ個のパーティクル（ｐＩＤ＝１〜ｍ）の各々において設定された複数のターゲット各々に対応付けられたイベント発生源の入力イベントとの類似度であるイベント−ターゲット間尤度として算出される。
【０１３７】
図１１には、情報統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から入力する１つのイベント（ｅＩＤ＝１）に対応するイベント情報４０１と、情報統合処理部１３１が保持する１つのパーティクル４２１を示している。パーティクル４２１のターゲット（ｔＩＤ＝２）は、イベント（ｅＩＤ＝１）に対応付けられているターゲットである。
【０１３８】
図１１下段には、イベント−ターゲット間尤度の算出処理例を示している。パーティクル重み［Ｗ_ｐＩＤ］は、各パーティクルにおいて算出されるイベント−ターゲットとの類似度指標としてのイベント−ターゲット間尤度の総和に対応する値として算出される。
【０１３９】
図１１の下段に示す尤度算出処理は、
（ａ）ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度［ＤＬ］、
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］
これらを個別に算出する例を示している。
【０１４０】
（ａ）ユーザ位置情報についてのイベントと、仮説ターゲットとの類似度データとしてのガウス分布間尤度［ＤＬ］の算出処理は以下の処理となる。
入力イベント情報中の、ユーザ位置情報に対応するガウス分布をＮ（ｍ_ｅ，σ_ｅ）、
パーティクルから選択された仮説ターゲットのユーザ位置情報に対応するガウス分布をＮ（ｍ_ｔ，σ_ｔ）、
として、ガウス分布間尤度［ＤＬ］を、以下の式によって算出する。
ＤＬ＝Ｎ（ｍ_ｔ，σ_ｔ＋σ_ｅ）ｘ｜ｍ_ｅ
上記式は、中心ｍ_ｔで分散σ_ｔ＋σ_ｅのガウス分布においてｘ＝ｍ_ｅの位置の値を算出する式である。
【０１４１】
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）についてのイベントと、仮説ターゲットとの類似度データとしてのユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］の算出処理は以下の処理となる。
入力イベント情報中の、ユーザ確信度情報（ｕＩＤ）の各ユーザ１〜ｋの確信度の値（スコア）をＰｅ［ｉ］とする。なお、ｉはユーザ識別子１〜ｋに対応する変数である。
パーティクルから選択された仮説ターゲットのユーザ確信度情報（ｕＩＤ）の各ユーザ１〜ｋの確信度の値（スコア）をＰｔ［ｉ］として、ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］は、以下の式によって算出する。
ＵＬ＝ΣＰ_ｅ［ｉ］×Ｐ_ｔ［ｉ］
上記式は、２つのデータのユーザ確信度情報（ｕＩＤ）に含まれる各対応ユーザの確信度の値（スコア）の積の総和を求める式であり、この値をユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］とする。
【０１４２】
パーティクル重み［Ｗ_ｐＩＤ］は、上記の２つの尤度、すなわち、
ガウス分布間尤度［ＤＬ］と、
ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］
これら２つの尤度を利用し、重みα（α＝０〜１）を用いて下式によって算出する。
パーティクル重み［Ｗ_ｐＩＤ］＝Σ_ｎＵＬ^α×ＤＬ^１−α
ｎは、パーティクルに含まれるイベント対応ターゲットの数である。
上記式により、パーティクル重み［Ｗ_ｐＩＤ］を算出する。
ただし、α＝０〜１とする。
このパーティクル重み［Ｗ_ｐＩＤ］は、各パーティクルについて各々算出する。
【０１４３】
なお、パーティクル重み［Ｗ_ｐＩＤ］の算出に適用する重み［α］は、予め固定された値としてもよいし、入力イベントに応じて値を変更する設定としてもよい。例えば入力イベントが画像である場合において、顔検出に成功し位置情報は取得できたが顔識別に失敗した場合などは、α＝０の設定として、ユーザ確信度情報（ｕＩＤ）間尤度：ＵＬ＝１としてガウス分布間尤度［ＤＬ］のみに依存してパーティクル重み［Ｗ_ｐＩＤ］を算出する構成としてもよい。また、入力イベントが音声である場合において、話者識別に成功し話者情報破取得できたが、位置情報の取得に失敗した場合などは、α＝０の設定として、ガウス分布間尤度［ＤＬ］＝１として、ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］のみに依存してパーティクル重み［Ｗ_ｐＩＤ］を算出する構成としてもよい。
【０１４４】
図１０のフローにおけるステップＳ１０６の各パーティクル対応の重み［Ｗ_ｐＩＤ］の算出は、このように図１１を参照して説明した処理として実行される。次に、ステップＳ１０７において、ステップＳ１０６で設定した各パーティクルのパーティクル重み［Ｗ_ｐＩＤ］に基づくパーティクルのリサンプリング処理を実行する。
【０１４５】
このパーティクルリサンプリング処理は、ｍ個のパーティクルから、パーティクル重み［Ｗ_ｐＩＤ］に応じてパーティクルを取捨選択する処理として実行される。具体的には、例えば、パーティクル数：ｍ＝５のとき、
パーティクル１：パーティクル重み［Ｗ_ｐＩＤ］＝０．４０
パーティクル２：パーティクル重み［Ｗ_ｐＩＤ］＝０．１０
パーティクル３：パーティクル重み［Ｗ_ｐＩＤ］＝０．２５
パーティクル４：パーティクル重み［Ｗ_ｐＩＤ］＝０．０５
パーティクル５：パーティクル重み［Ｗ_ｐＩＤ］＝０．２０
これらのパーティクル重みが各々設定されていた場合、
パーティクル１は、４０％の確率でリサンプリングされ、パーティクル２は１０％の確率でリサンプリングされる。なお、実際にはｍ＝１００〜１０００といった多数であり、リサンプリングされた結果は、パーティクルの重みに応じた配分比率のパーティクルによって構成されることになる。
【０１４６】
この処理によって、パーティクル重み［Ｗ_ｐＩＤ］の大きなパーティクルがより多く残存することになる。なお、リサンプリング後もパーティクルの総数［ｍ］は変更されない。また、リサンプリング後は、各パーティクルの重み［Ｗ_ｐＩＤ］はリセットされ、新たなイベントの入力に応じてステップＳ１０１から処理が繰り返される。
【０１４７】
ステップＳ１０８では、各パーティクルに含まれるターゲットデータ（ユーザ位置およびユーザ確信度）の更新処理を実行する。各ターゲットは、先に図７等を参照して説明したように、
（ａ）ユーザ位置：各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）］、
（ｂ）ユーザ確信度：各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）として各ユーザ１〜ｋである確立値（スコア）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）、すなわち、
ｕＩＤ_ｔ１＝Ｐｔ［１］
ｕＩＤ_ｔ２＝Ｐｔ［２］
：
ｕＩＤ_ｔｋ＝Ｐｔ［ｋ］
さらに、
（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））
これらのデータによって構成される。
【０１４８】
（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））は、前述したようにイベント発生源を示す［シグナル情報］に相当する確率、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
と、各イベントに対応する顔属性スコアＳ_{ｅＩＤ＝ｉ}に基づいて算出される。ｉはイベントＩＤである。
例えばターゲットＩＤ＝１の顔属性の期待値：Ｓ_{ｔＩＤ＝１}は、以下の式で算出される。
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}
一般化して示すと、
ターゲットの顔属性の期待値：Ｓ_ｔＩＤは、以下の式で算出される。
Ｓ_ｔＩＤ＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ）×Ｓ_ｅＩＤ
・・・（式１）
として示される。
【０１４９】
なお、ターゲット数が顔画像イベント数よりも多いときには、各ターゲットの顔属性の期待値［Ｓ_ｔＩＤ］の総和を［１］にするために、補数［１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ）］と事前知識の値［Ｓ_{ｐｒｉｏｒ}］を用いて顔イベント属性の期待値［Ｓ_ｔＩＤ］は、を次式（式２）で計算される。
Ｓ_ｔＩＤ＝Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ）×Ｓ_ｅＩＤ＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ））×Ｓ_{ｐｒｉｏｒ}
・・・（式２）
【０１５０】
ステップＳ１０８におけるターゲットデータの更新は、（ａ）ユーザ位置、（ｂ）ユーザ確信度、（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））の各々について実行する。まず、（ａ）ユーザ位置の更新処理について説明する。
【０１５１】
ユーザ位置の更新は、
（ａ１）全パーティクルの全ターゲットを対象とする更新処理、
（ａ２）各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理、
これらの２段階の更新処理として実行する。
【０１５２】
（ａ１）全パーティクルの全ターゲットを対象とする更新処理は、イベント発生源仮説ターゲットとして選択されたターゲットおよびその他のターゲットのすべてを対象として実行する。この処理は、時間経過に伴うユーザ位置の分散が拡大するという仮定に基づいて実行され、前回の更新処理からの経過時間とイベントの位置情報によってカルマン・フィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）を用い更新される。
【０１５３】
以下、位置情報が１次元の場合の更新処理例について説明する。まず、前回の更新処理時間からの経過時間［ｄｔ］とし、全ターゲットについての、ｄｔ後のユーザ位置の予測分布を計算する。すなわち、ユーザ位置の分布情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）の期待値（平均）：［ｍ_ｔ］、分散［σ_ｔ］について、以下の更新を行う。
ｍ_ｔ＝ｍ_ｔ＋ｘｃ×ｄｔ
σ_ｔ^２＝σ_ｔ^２＋σｃ^２×ｄｔ
なお、
ｍ_ｔ：予測期待値（ｐｒｅｄｉｃｔｅｄｓｔａｔｅ）
σ_ｔ^２：予測共分散（ｐｒｅｄｉｃｔｅｄｅｓｔｉｍａｔｅｃｏｖａｒｉａｎｃｅ）
ｘｃ：移動情報（ｃｏｎｔｒｏｌｍｏｄｅｌ）
σｃ^２：ノイズ（ｐｒｏｃｅｓｓｎｏｉｓｅ）
である。
なお、ユーザが移動しない条件の下で処理する場合は、ｘｃ＝０として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）を更新する。
【０１５４】
（ａ２）各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理、
次に、各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理について説明する。
ステップＳ１０４において設定したイベントの発生源の仮説に従って選択されたターゲットを更新する。先に図５を参照して説明したように、パーティクル１〜ｍの各々に含まれるターゲット１〜ｎの各々は、イベント（ｅＩＤ＝１〜ｋ）の各々に対応付けられたターゲットとして設定されている。
【０１５５】
すなわち、イベントＩＤ（ｅＩＤ）に応じてそれぞれのパーティクルに含まれるどのターゲットを更新するかが予め設定されており、その設定に従って各入力イベントに対応付けられたターゲットのみを更新する。例えば、図５に示す［イベントＩＤ＝１（ｅＩＤ＝１）］のイベント対応情報３６１によって、パーティクル１（ｐＩＤ＝１）では、ターゲットＩＤ＝１（ｔＩＤ＝１）のデータのみが選択的に更新される。
【０１５６】
このイベントの発生源の仮説に従った更新処理では、このようにイベントに対応付けられたターゲットの更新を行なう。音声イベント検出部１２２や画像イベント検出部１１２から入力するイベント情報に含まれるユーザ位置を示すガウス分布：Ｎ（ｍ_ｅ，σ_ｅ）などを用いた更新処理を実行する。
例えば、
Ｋ：カルマンゲイン（ＫａｌｍａｎＧａｉｎ）
ｍ_ｅ：入力イベント情報：Ｎ（ｍ_ｅ，σ_ｅ）に含まれる観測値（Ｏｂｓｅｒｖｅｄｓｔａｔｅ）
σ_ｅ^２：入力イベント情報：Ｎ（ｍ_ｅ，σ_ｅ）に含まれる観測値（Ｏｂｓｅｒｖｅｄｃｏｖａｒｉａｎｃｅ）
として、以下の更新処理を行う。
Ｋ＝σ_ｔ^２／（σ_ｔ^２＋σ_ｅ^２）
ｍ_ｔ＝ｍ_ｔ＋Ｋ（ｘｃ−ｍ_ｔ）
σ_ｔ^２＝（１−Ｋ）σ_ｔ^２
【０１５７】
次に、ターゲットデータの更新処理として実行する（ｂ）ユーザ確信度の更新処理について説明する。ターゲットデータには上記のユーザ位置情報の他に、各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）として各ユーザ１〜ｋである確率値（スコア）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）が含まれている。ステップＳ１０８では、このユーザ確信度情報（ｕＩＤ）についても更新処理を行う。
【０１５８】
各パーティクルに含まれるターゲットのユーザ確信度情報（ｕＩＤ）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）についての更新は、登録ユーザ全員分の事後確率と、音声イベント検出部１２２や画像イベント検出部１１２から入力するイベント情報に含まれるユーザ確信度情報（ｕＩＤ）：Ｐｅ［ｉ］（ｉ＝１〜ｋ）によって、予め設定した０〜１の範囲の値を持つ更新率［β］を適用して更新する。
【０１５９】
ターゲットのユーザ確信度情報（ｕＩＤ）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）についての更新は、以下の式によって実行する。
Ｐｔ［ｉ］＝（１−β）×Ｐｔ［ｉ］＋β＊Ｐｅ［ｉ］
ただし、
ｉ＝１〜ｋ
β：０〜１
である。なお、更新率［β］は、０〜１の範囲の値であり予め設定する。
【０１６０】
ステップＳ１０８では、この更新されたターゲットデータに含まれる以下のデータ、すなわち、
（ａ）ユーザ位置：各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）］、
（ｂ）ユーザ確信度：各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）として各ユーザ１〜ｋである確立値（スコア）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）、すなわち、
ｕＩＤ_ｔ１＝Ｐｔ［１］
ｕＩＤ_ｔ２＝Ｐｔ［２］
：
ｕＩＤ_ｔｋ＝Ｐｔ［ｋ］
（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））
これらのデータによって構成される。
これらのデータと、各パーティクル重み［Ｗ_ｐＩＤ］とに基づいて、ターゲット情報を生成して、処理決定部１３２に出力する。
【０１６１】
なお、ターゲット情報は、各パーティクル（ＰＩＤ＝１〜ｍ）に含まれる各ターゲット（ｔＩＤ＝１〜ｎ）対応データの重み付き総和データとして生成される。図７の右端のターゲット情報３８０に示すデータである。ターゲット情報は、各ターゲット（ｔＩＤ＝１〜ｎ）各々の
（ａ）ユーザ位置情報、
（ｂ）ユーザ確信度情報、
（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））
これらの情報を含む情報として生成される。
【０１６２】
例えば、ターゲット（ｔＩＤ＝１）に対応するターゲット情報中の、ユーザ位置情報は、
【０１６３】
【数１】

【０１６４】
上記式で表される。上記式において、Ｗ_ｉは、パーティクル重み［Ｗ_ｐＩＤ］を示している。
【０１６５】
また、ターゲット（ｔＩＤ＝１）に対応するターゲット情報中の、ユーザ確信度情報は、
【０１６６】
【数２】

【０１６７】
上記式で表される。上記式において、Ｗ_ｉは、パーティクル重み［Ｗ_ｐＩＤ］を示している。
【０１６８】
また、ターゲット（ｔＩＤ＝１）に対応するターゲット情報中の、顔属性の期待値（本処理例では発話者である期待値（確率））は、
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}
上記式、または、
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ＝１）×Ｓ_{ｐｒｉｏｒ}
で表される。
【０１６９】
情報統合処理部１３１は、これらのターゲット情報をｎ個の各ターゲット（ｔＩＤ＝１〜ｎ）各々について算出し、算出したターゲット情報を処理決定部１３２に出力する。
【０１７０】
次に、図８に示すフローのステップＳ１０９の処理について説明する。情報統合処理部１３１は、ステップＳ１０９において、ｎ個のターゲット（ｔＩＤ＝１〜ｎ）の各々がイベントの発生源である確率を算出し、これをシグナル情報として処理決定部１３２に出力する。
【０１７１】
先に説明したように、イベント発生源を示す［シグナル情報］は、音声イベントについては、誰が話をしたか、すなわち［発話者］を示すデータであり、画像イベントについては、画像に含まれる顔が誰であるかおよび［発話者］を示すデータである。
【０１７２】
情報統合処理部１３１は、各パーティクルに設定されたイベント発生源の仮説ターゲットの数に基づいて、各ターゲットがイベント発生源である確率を算出する。すなわち、ターゲット（ｔＩＤ＝１〜ｎ）の各々がイベント発生源である確率を［Ｐ（ｔＩＤ＝ｉ）とする。ただしｉ＝１〜ｎである。例えば、あるイベント（ｅＩＤ＝ｙ）の発生源が特定のターゲットｘ（ｔＩＤ＝ｘ）である確率は、先に説明したように、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
として示され、これは、情報統合処理部１３１に設定されたパーティクル数：ｍと、各イベントに対するターゲットの割り当て数との比に相当する。例えば、図５に示す例では、
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝１）＝［第１イベント（ｅＩＤ＝１）にｔＩＤ＝１を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝２）＝［第１イベント（ｅＩＤ＝１）にｔＩＤ＝２を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝１）＝［第２イベント（ｅＩＤ＝２）にｔＩＤ＝１を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝２）＝［第２イベント（ｅＩＤ＝２）にｔＩＤ＝２を割り当てたパーティクル数）／（ｍ）］
このような対応関係となる。
このデータがイベント発生源を示す［シグナル情報］として、処理決定部１３２に出力される。
【０１７３】
ステップＳ１０９の処理が終了したら、ステップＳ１０１に戻り、音声イベント検出部１２２および画像イベント検出部１１２からのイベント情報の入力の待機状態に移行する。
【０１７４】
以上が、図１０に示すフローのステップＳ１０１〜Ｓ１０９の説明である。ステップＳ１０１において、情報統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報を取得できなかった場合も、ステップＳ１２１において、各パーティクルに含まれるターゲットの構成データの更新が実行される。この更新は、時間経過に伴うユーザ位置の変化を考慮した処理である。
【０１７５】
このターゲット更新処理は、先のステップＳ１０８の説明における（ａ１）全パーティクルの全ターゲットを対象とする更新処理と同様の処理であり、時間経過に伴うユーザ位置の分散が拡大するという仮定に基づいて実行され、前回の更新処理からの経過時間とイベントの位置情報によってカルマン・フィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）を用い更新される。
【０１７６】
位置情報が１次元の場合の更新処理例について説明する。まず、前回の更新処理時間からの経過時間［ｄｔ］とし、全ターゲットについての、ｄｔ後のユーザ位置の予測分布を計算する。すなわち、ユーザ位置の分布情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）の期待値（平均）：［ｍ_ｔ］、分散［σ_ｔ］について、以下の更新を行う。
ｍ_ｔ＝ｍ_ｔ＋ｘｃ×ｄｔ
σ_ｔ^２＝σ_ｔ^２＋σｃ^２×ｄｔ
なお、
ｍ_ｔ：予測期待値（ｐｒｅｄｉｃｔｅｄｓｔａｔｅ）
σ_ｔ^２：予測共分散（ｐｒｅｄｉｃｔｅｄｅｓｔｉｍａｔｅｃｏｖａｒｉａｎｃｅ）
ｘｃ：移動情報（ｃｏｎｔｒｏｌｍｏｄｅｌ）
σｃ^２：ノイズ（ｐｒｏｃｅｓｓｎｏｉｓｅ）
である。
なお、ユーザが移動しない条件の下で処理する場合は、ｘｃ＝０として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）を更新する。
【０１７７】
なお、各パーティクルのターゲットに含まれるユーザ確信度情報（ｕＩＤ）については、イベントの登録ユーザ全員分の事後確率、もしくはイベント情報からスコア［Ｐｅ］が取得できない限りは更新しない。
【０１７８】
ステップＳ１２１の処理が終了したら、ステップＳ１２２において、ターゲットの削除要否を判定し必要であればステップＳ１２３においてターゲットを削除する。ターゲット削除は、例えば、ターゲットに含まれるユーザ位置情報にピークが検出されない場合など、特定のユーザ位置が得られていないようなデータを削除する処理として実行される。このようなターゲットがない場合は削除処理は不要であるステップＳ１２２〜Ｓ１２３の処理後にステップＳ１０１に戻り、音声イベント検出部１２２および画像イベント検出部１１２からのイベント情報の入力の待機状態に移行する。
【０１７９】
以上、図１０を参照して情報統合処理部１３１の実行する処理について説明した。情報統合処理部１３１は、図１０に示すフローに従った処理を音声イベント検出部１２２および画像イベント検出部１１２からのイベント情報の入力ごとに繰り返し実行する。この繰り返し処理により、より信頼度の高いターゲットを仮説ターゲットとして設定したパーティクルの重みが大きくなり、パーティクル重みに基づくリサンプリング処理により、より重みの大きいパーティクルが残存することになる。結果として音声イベント検出部１２２および画像イベント検出部１１２から入力するイベント情報に類似する信頼度の高いデータが残存することになり、最終的に信頼度の高い以下の各情報、すなわち、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］
これらが生成されて処理決定部１３２に出力される。
なお、シグナル情報には、以下の２つのシグナル情報が含まれる。
（ｂ１）ステップＳ１１１の処理によって生成する音声イベントに基づくシグナル情報
（ｂ２）ステップＳ１０３〜Ｓ１０９の処理によって生成する画像イベントに基づくシグナル情報
【０１８０】
［４．発話源確率算出部において実行する処理の詳細について］
次に、図１０に示すフローチャートのステップＳ１１１の処理、すなわち、音声イベントに基づくシグナル情報の生成処理の詳細について説明する。
【０１８１】
先に説明したように、図２に示す情報統合処理部１３１は、ターゲット情報更新部１４１と、発話源確率算出部１４２を有する。
ターゲット情報更新部１４１において画像イベント情報毎に更新されたターゲット情報は発話源確率算出部１４２にも出力される。
発話源確率算出部１４２は、音声イベント検出部１２２から入力する音声イベント情報と、ターゲット情報更新部１４１において画像イベント情報毎に更新されたターゲット情報を適用して音声イベントに基づくシグナル情報を生成する。すなわち、各ターゲットがどの程度、当該音声イベント情報の発話源らしいかを表す発話源確率としてのシグナル情報である。
【０１８２】
発話源確率算出部１４２では、音声イベント情報が入力された場合には、ターゲット情報更新部１４１から入力するターゲット情報を用いて、各ターゲットがどの程度、当該音声イベント情報の発話源らしいかを表す発話源確率を算出する。
【０１８３】
図１２に、発話源確率算出部１４２に入力される、
（Ａ）音声イベント情報、
（Ｂ）ターゲット情報、
これ等の入力情報の例を示す。
（Ａ）音声イベント情報は、音声イベント検出部１２２から入力する音声イベント情報である。
（Ｂ）ターゲット情報は、ターゲット情報更新部１４１において画像イベント情報毎に更新されたターゲット情報である。
【０１８４】
発話源確率の算出には、図１２（Ａ）に示す音声イベント情報に含まれる音源方向情報（位置情報）や話者識別情報や、画像イベント情報に含まれる口唇動作情報や、ターゲット情報に含まれるターゲット位置やターゲット総数といった情報が利用される。
【０１８５】
なお、元々は画像イベント情報に含まれている口唇動作情報は、ターゲット情報に含まれる顔属性情報の一つとして、ターゲット情報更新部１４１から発話源確率算出部１４２に供給される。
また、本処理例における口唇動作情報とは、視覚的音声検出（ＶｉｓｕａｌＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ）技術を適用して求められた口唇状態スコアから生成される。なお、視覚的音声検出技術（ＶｉｓｕａｌＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ）については、例えば、［Visual lip activity detection and speaker detection using mouth region intensities／IEEE Transactions on Circuits and Systems for Video Technology, Volume 19, Issue 1 (January 2009), Pages: 133-137（参考ＵＲＬ： http://poseidon.csd.auth.gr/papers/PUBLISHED/JOURNAL/pdf/Siatras09a）］、［Facilitating Speech Detection in Style!: The Effect of Visual Speaking Style on the Detection of Speech in Noise Auditory-Visual Speech Processing 2005（参考ＵＲＬ：http://www.isca-speech.org/archive/avsp05/av05_023.html）］等に記載されており、これらの技術を適用可能である。
【０１８６】
口唇動作情報の生成方法の概要は次の通りである。
入力された音声イベント情報が、ある時間間隔Δｔに対応するとして、
Δｔ＝（ｔ＿ｅｎｄ〜ｔ＿ｂｅｇｉｎ）
この時間間隔Δｔに含まれる複数の口唇状態スコアを順に並べて時系列データとする。この時系列データが成す領域の面積を口唇動作情報とする。
図１２（Ｂ）ターゲット情報の最下段に示す［時間／口唇状態スコア］のグラフが口唇動作情報に相当する。
なお、ここでの口唇動作情報は、全ターゲットの口唇動作情報の和をもって正規化される。
【０１８７】
なお、口唇動作情報の生成処理については、例えば特開２００９−２２３７６１号公報や、特許第４４６２３３９号公報に記載があり、これらの公報に記載の処理を適用可能である。
また、音源方向情報の生成処理としては特２０１０−２０２９４号公報、話者識別情報については、特開２００４−２８６８０５号公報に記載があり、これらの既存の処理を適用することも可能である。
【０１８８】
発話源確率算出部１４２は、図１２に示すように、
音声イベント検出部１２２から入力する音声イベント情報として発話に対応する音声イベントに応じた、
（ａ）ユーザ位置情報（音源方向情報）
（ｂ）ユーザ識別情報（話者識別情報）
を取得する。
さらに、ターゲット情報更新部１４１において画像イベント情報毎に更新されたターゲット情報として、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報
（ｃ）口唇動作情報
これらの情報を取得する。
さらに、ターゲット情報に含まれるターゲット位置やターゲット総数といった情報も入力する。
発話源確率算出部１４２は、これらの情報に基づいて、各ターゲットが発話源である確率（シグナル情報）を生成して処理決定部１３２に出力する。
【０１８９】
発話源確率算出部１４２の実行する各ターゲット毎の発話源確率の算出方法のシーケンスの一例について、図１３に示すフローチャートを参照して説明する。
図１３のフローチャートに示す処理例は、ターゲットを個別に選択して、選択ターゲットに関する情報を利用して、そのターゲットが発話源であるかどうかを示す発話源確率（発話源スコア）判定する処理である。
【０１９０】
まず、ステップＳ２０１において、全ターゲットから処理対象とするターゲットを１つ選択する。
次にステップＳ２０２において、発話源確率算出部１４２の保持する識別器を用いて、選択したターゲットが発話源であるかどうかの確率値としての発話源スコアを求める。
【０１９１】
識別器は、音声イベント検出部１２２から入力する、
（ａ）ユーザ位置情報（音源方向情報）
（ｂ）ユーザ識別情報（話者識別情報）
ターゲット情報更新部１４１から入力する、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報
（ｃ）口唇動作情報
（ｄ）ターゲット位置やターゲット総数
これらの入力情報に基づいて、各ターゲット毎の発話源確率を算出する識別器である。
【０１９２】
なお、識別器への入力情報は、上記のすべての情報としてもよいが、これらの入力情報の内そのいくつかだけを入力して利用してもよい。
識別器は、ステップＳ２０２において、選択したターゲットが発話源であるかどうかの確率値としての発話源スコアを算出する。
なお、ステップＳ２０２において実行する発話源スコアの算出処理の詳細については、図１４以下を参照して後段で詳細に説明する。
【０１９３】
ステップＳ２０３において、他の未処理ターゲットがあるか否かを判定し、未処理ターゲットが存在する場合は、未処理ターゲットについてステップＳ２０１以下の処理を実行する。
【０１９４】
ステップＳ２０３において、他の未処理ターゲットがないと判定した場合は、ステップＳ２０４に進む。
ステップＳ２０４では、各ターゲット毎に求められた発話源スコアを、全体ターゲットの発話源スコアの和をもって正規化処理を実行し、各ターゲットに対する発話源確率としての発話源スコアを決定する。
この発話源スコアの最も高いターゲットが発話源であると推定されることになる。
【０１９５】
［５．発話源スコアの算出処理について］
次に、図１３に示すフローチャートにおけるステップＳ２０２の発話源スコアの算出処理の詳細について説明する。
この発話源スコアは、図２に示す発話源確率算出部１４２において算出される。すなわち、選択したターゲットが発話源であるかどうかの確率値としての発話源スコアを算出する。
前述のように、発話源確率算出部１４２は、例えば、
音声イベント検出部１２２から、
（ａ）ユーザ位置情報（音源方向情報）
（ｂ）ユーザ識別情報（話者識別情報）
ターゲット情報更新部１４１から、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報
（ｃ）口唇動作情報
（ｄ）ターゲット位置やターゲット総数
これらの情報を入力して、各ターゲット毎の発話源確率を求めるための発話源スコアを算出する。
【０１９６】
なお、発話源確率算出部１４２は、上記のすべての情報を用いてスコア算出を行う構成としてもよいが、その一部を用いてスコア算出を実行する構成としてもよい。
図１４以下を参照して、
音源方向情報：Ｄ、
話者識別情報：Ｓ、
口唇動作情報：Ｌ、
これらの３情報を適用した発話源スコア：Ｐの算出処理例について説明する。
【０１９７】
上記３つの情報Ｄ，Ｓ，Ｌを用いた発話源スコアＰの算出式は、たとえば図１４に示すように、以下の式によって定義できる。
Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γ
なお、
Ｄ：音源方向情報、
Ｓ：話者識別情報、
Ｌ：口唇動作情報、
α：音源方向情報の重み係数、
β：話者識別情報の重み係数、
γ：口唇動作情報の重み係数、
α＋β＋γ＝１
である。
【０１９８】
上記の発話源算出式：Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γを適用して、選択したターゲットが発話源であるかどうかの確率値としての発話源スコアを算出する。
【０１９９】
上記の発話源算出式：Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γを適用した発話源スコア算出処理を行う場合、
入力情報として、
Ｄ：音源方向情報、
Ｓ：話者識別情報、
Ｌ：口唇動作情報、
これらの３情報が取得されていることが条件である。
【０２００】
さらに、
α：音源方向情報の重み係数、
β：話者識別情報の重み係数、
γ：口唇動作情報の重み係数、
これらの係数を決定する処理が必要となる。
【０２０１】
上記の発話源算出式：Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γを適用した発話源スコア算出処理を行うための係数決定処理を伴う発話源スコア算出処理のシーケンスについて、図１５に示すフローチャートを参照して説明する。
【０２０２】
なお、音声イベント検出部１２２から入力する音声イベントに含まれる１つの音声認識結果には以下の情報が付随しているものとする。
（１）音声区間情報（その音声の開始時間と終了時間）
（２）音源方向情報
（３）話者識別情報
発話源確率算出部１４２は、発話源スコアを算出する処理対象となる音声イベントと直前の音声イベントとの時間的な重複の有無と、当該ターゲットと位置の近い他のターゲットの有無に合わせて、口唇動作情報と音源方向情報の重みを変更することによって全重み係数を調整し、その調整された全重み係数を用いて発話源スコアを計算する。
【０２０３】
発話源確率算出部１４２は、上記の発話源スコア算出式：Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γを適用した発話源スコア算出処理に適用する係数（α、β、γ）の決定処理のために、
発話の時間的な重複の有無、
位置の近い他のターゲットの有無、
これらの情報を画像イベント検出部１１２、音声イベント検出部１２２からの入力情報に基づいて取得し、これらの情報を適用して、発話源スコア算出処理に適用する係数（α、β、γ）の決定処理を行う。
【０２０４】
図１５に示すフローの各ステップの処理について説明する。
まず、ステップＳ３０１において、発話源スコア算出処理の処理対象とする音声イベントと直前の音声イベントの時間的な重複を確認する。
【０２０５】
なお、この時間的な重複の有無に関する判断は、時間的に少しだけずれた後続する音声イベントのみで判断可能である。これは、先行する音声イベントが検知された時点（＝先行する音声イベントの終了時間が決定された瞬間）では、時間的に重複するその他の音声イベントが存在するかどうかを完全には決定できないためである。
【０２０６】
次に、ステップＳ３０２において、処理対象ターゲットと位置の近い他のターゲットが存在するかを確認する。この処理は、例えば、ターゲット情報更新部１４１から入力するユーザ位置情報を用いて実行可能である。
【０２０７】
次に、ステップＳ３０３において、ステップＳ３０１で判定した時間的な重複の有無と、ステップＳ３０２で判定した位置の近い他のターゲットの有無に応じて、
α：音源方向情報の重み係数、
γ：口唇動作情報の重み係数、
これらの重み係数を変更して、全重み係数を調整する。
なお、重み係数の調整に際しては、
α＋β＋γ＝１
この制約条件を満たすように調整を行う。
【０２０８】
最後に、ステップＳ３０４において、発話源確率算出部１４２は、
入力情報としての、
Ｄ：音源方向情報、
Ｓ：話者識別情報、
Ｌ：口唇動作情報、
これらを適用し、さらに、ステップＳ３０３において決定した各重み係数、すなわち、
α：音源方向情報の重み係数、
β：話者識別情報の重み係数、
γ：口唇動作情報の重み係数、
ただし、α＋β＋γ＝１
これらを適用して、発話源スコア算出式、
Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γ
を適用して、ターゲットの発話源スコアを算出する。
【０２０９】
図１６以下を参照して、具体的に状況に応じた発話源スコア算出処理の具体例について説明する。
図１５のフローを参照して説明したように、発話源スコアの算出処理においては、音声が発せられる状況に応じて、どの入力情報を重視するかを適応的に変更する。
【０２１０】
発話を行う可能性のある人物が２名であるとき、音声が発せられる状況の例としては、例えば図１６（ａ）〜（ｄ）に示すように以下の状況が想定される。
（ａ）２名の位置が遠く、１名のみが発声する場合
（ｂ）２名の位置が遠く、２名が同時に発声する場合
（ｃ）２名の位置が近く、１名のみが発声する場合
（ｄ）２名の位置が近く、２名が同時に発声する場合
【０２１１】
図１７は、音声が発せられる状況と、上述した発話源スコア算出式：Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γを適用した発話源スコア算出処理に適用する係数（α、β、γ）の調整方法の関係と、数値例を示している。
【０２１２】
発話源確率算出部１４２は、各入力情報の重み係数をそれぞれどのような値に設定するかを、音声が発せられた状況に応じて、動的に調整する。
重み係数を調整する状況は、以下の２つの条件の組み合わせから成る。
（条件１）ユーザ１名（１つのターゲット）のみによる単独発話か、あるいはユーザ２名（２つのターゲット）による同時発話か、
（条件２）ユーザ２名（２つのターゲット）の位置が近いか、あるいはユーザ２名（２つのターゲット）の位置が遠いか、
【０２１３】
なお、上記（条件２）のユーザ２名の位置が近いか遠いかに関しては、音源方向の差、すなわち音源方向を示す角度に基づいて、予め設定した所定のしきい値を適用して遠近を判断する。
例えば、ユーザ２名の位置に対応した音源方向の差の絶対値が１０°以下の場合を「ユーザ２名の位置が近い」と判定する。
なお、源方向の差の絶対値が１０°以下とは、マイクの位置から３メートル離れた位置において、ユーザ２名の間の距離が約５３センチメートル以内であることに対応する。
このように、「音源方向が近い」ということを、「ユーザの間の距離が近い」あるいは「ユーザ間の位置が近い」と言い換えることとする。
【０２１４】
以下、図１６に示す（ａ）〜（ｄ）の各発話状況に応じた重み係数、すなわち、
α：音源方向情報の重み係数、
β：話者識別情報の重み係数、
γ：口唇動作情報の重み係数、
ただし、α＋β＋γ＝１
これらの重み係数（α、β、γ）の調整方法の具体例について説明する。
【０２１５】
図１６（ａ）ユーザ２名の位置が遠く、１名のみが単独発声する場合
この場合は、全ての重み係数（α、β、γ）の調整は行わず、予め設定した既定値を利用する。
すなわち、発話源確率算出部１４２は、発話可能性のあるターゲットが２である状況において、１つのターゲットのみが単独発声する場合、全ての重み係数（α、β、γ）の調整は行わず、予め設定した既定値を利用する。
【０２１６】
図１６（ｂ）ユーザ２名の位置が遠く、その２名が同時発声する場合、
この場合は、口唇動作情報の重み（γ）を小さくするように調整を行う。
すなわち、発話源確率算出部１４２は、発話可能性のあるターゲットが２である状況において、２つのターゲットが同時発声する場合、口唇動作情報の重みγを小さくするように前記各重み係数：α、β、γを調整する処理を行う。
【０２１７】
図１６（ｃ）ユーザ２名の位置が近く、１名のみが単独発声する場合
この場合は、音源方向情報の重み（α）を小さくするように調整を行う。
すなわち、発話源確率算出部１４２は、発話可能性のあるターゲットが２である状況において、２つのターゲットの位置が近く、１ターゲットのみが単独発声する場合、音源方向情報の重みαを小さくするように前記各重み係数：α、β、γを調整する処理を行う。
【０２１８】
図１６（ｄ）ユーザ２名の位置が近く、その２名が同時発声する場合
この場合は、口唇動作情報の重み（γ）と音源方向情報の重み（α）を小さくするように調整を行う。
すなわち、発話源確率算出部１４２は、発話可能性のあるターゲットが２である状況において、２つのターゲットの位置が近く、２のターゲットが同時に発声する場合、口唇動作情報の重みγと音源方向情報の重みαを小さくするように前記各重み係数：α、β、γを調整する処理を行う。
【０２１９】
なお、いずれの処理に際しても、
α＋β＋γ＝１
の制約を満たすように調整する。
これらの重み係数（α、β、γ）の調整例をまとめた図を図１７に示す。
【０２２０】
なお、音声が発せられたそれぞれの状況において、所望の重み係数をどの程度大きくするか、あるいは各重み係数をどのように設定するかに関しては、評価データを用いた事前の検討作業によって決められたものを用いてよい。
【０２２１】
図１８は、具体的な重み係数（α、β、γ）の調整例として、以下の２つの例を示す図である。
（Ａ）全重み係数の数値例（既定値が全て等しい場合（既定値：α＝β＝γ））
（Ｂ）全重み係数の数値例（既定値が異なる場合（既定値：α≠β≠γ））
【０２２２】
（Ａ）の場合は、既定値：α＝β＝γ＝０．３３３である。
（Ｂ）の場合は、既定値：α≠β≠γであり、各既定値は、
α＝０．５００
β＝０．２００
γ＝０．３００
としている。
【０２２３】
なお、（Ａ），（Ｂ）いずれの場合も、所望の重み係数を小さくする場合には、その重み係数の既定値から１／２となるように調整している。
また、小さくする重み係数が一つのみ場合には、その他の２つの重み係数はその比率を既定値の場合と同じにするようにして調整している。
【０２２４】
図１８（Ａ）において口唇動作情報の重み係数（γ）を１／２（０．３３３から０．１６７）にする場合には、その他の２つの重み係数は既定値では同じ数値（０．３３３と０．３３３）となっているので、調整後にも同じ比率となるように２つの重み係数共に０．４１７としている。
【０２２５】
また、図１８（Ｂ）において口唇動作情報の重み係数（γ）を１／２（０．３００から０．１５０）にする場合には、その他の２つの重み係数は既定値では０．５００と０．２００となっているので、調整後にも同じ比率となるように２つの重み係数を０．６０７と０．２４３としている。
【０２２６】
図１５のフローチャートにおけるステップＳ３０３においては、例えば、このように、
α：音源方向情報の重み係数、
β：話者識別情報の重み係数、
γ：口唇動作情報の重み係数、
これらの重み係数を調整する。
その後、この調整した重み係数を適用して、前述の発話源スコア算出式、
Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γ
を適用して、ターゲットの発話源スコアを算出する。
上記式に従って、各ターゲットについての発話源スコアを算出し、そのスコア比較により、最も高いスコアを持つターゲットを発話源であると判定することができる。
【０２２７】
本開示の情報処理装置では、上述したように、音源方向情報、話者識別情報、口唇動作情報、これらの全てを考慮し、さらに発話状況に応じて、これらの情報の適用重みを変更して発話源スコアを算出して、算出したスコアに応じて発話源確率を算出する構成とした。
この処理によって、例えば、複数の発話者が同時に発話したような状況であってもスコア算出とスコア比較によって、発話者の特定を高精度に行うことが可能となる。
すなわち、より現実的な様々な状況においても、発話者を正しく推定することが可能となる。
【０２２８】
［６．本開示の構成のまとめ］
以上、特定の実施例を参照しながら、実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
【０２２９】
なお、本明細書において開示した技術は、以下のような構成をとることができる。
（１）実空間の観測情報を入力する複数の情報入力部と、
前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出部と、
前記イベント情報を入力し、入力イベント情報に基づいて、各ユーザの位置およびユーザ識別情報を含むターゲット情報と、
前記イベント発生源の確率値を示すシグナル情報を生成する情報統合処理部を有し、
前記情報統合処理部は、発話源確率算出部を有し、
前記発話源確率算出部は、各ターゲットの発話源確率を示す指標値としての発話源スコアを、イベント検出部から入力する複数の異なる情報に対して発話状況に応じた重みを乗算して算出する処理を行う情報処理装置。
【０２３０】
（２）前記発話源確率算出部は、前記イベント検出部を構成する音声イベント検出部からの入力情報として、発話イベントに対応する、
（ａ）ユーザ位置情報（音源方向情報）、
（ｂ）ユーザ識別情報（話者識別情報）、
を入力し、
さらに、前記イベント検出部を構成する画像イベント検出部からの入力情報に基づいて生成されるターゲット情報として、
（ａ）ユーザ位置情報（顔位置情報）、
（ｂ）ユーザ識別情報（顔識別情報）、
（ｃ）口唇動作情報、
これらの情報を入力し、少なくともこれらの情報のいずれかを適用して、入力情報に基づく発話源スコアを算出する処理を行う請求項１に記載の情報処理装置。
【０２３１】
（３）前記発話源確率算出部は、音源方向情報Ｄと、話者識別情報Ｓと、口唇動作情報Ｌを適用して、発話源スコアＰを、以下の算出式、
Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γ
ただし、
α：音源方向情報の重み係数、
β：話者識別情報の重み係数、
γ：口唇動作情報の重み係数、
α＋β＋γ＝１
上記発話源スコアＰの算出式に従って発話源スコアを算出する処理を行う前記（１）または（２）に記載の情報処理装置。
【０２３２】
（４）前記発話源確率算出部は、前記各重み係数：α、β、γを発話状況に応じて調整する処理を行う前記（３）に記載の情報処理装置。
（５）前記発話源確率算出部は、以下の２つの条件、（条件１）１つのターゲットのみによる単独発話か、あるいは２つのターゲットによる同時発話か、
（条件２）２つのターゲットの位置が近いか、あるいは２つのターゲットの位置が遠いか、
上記２つの条件に応じて、前記各重み係数：α、β、γを調整する処理を行う前記（３）または（４）に記載の情報処理装置。
【０２３３】
（６）前記発話源確率算出部は、発話可能性のあるターゲットが２である状況において、２つのターゲットが同時発声する場合、口唇動作情報の重みγを小さくするように前記各重み係数：α、β、γを調整する処理を行う前記（３）〜（５）いずれかに記載の情報処理装置。
（７）前記発話源確率算出部は、発話可能性のあるターゲットが２である状況において、２つのターゲットの位置が近く、１ターゲットのみが単独発声する場合、音源方向情報の重みαを小さくするように前記各重み係数：α、β、γを調整する処理を行う前記（３）〜（５）いずれかに記載の情報処理装置。
（８）前記発話源確率算出部は、発話可能性のあるターゲットが２である状況において、２つのターゲットの位置が近く、２つのターゲットが同時に発声する場合、口唇動作情報の重みγと音源方向情報の重みαを小さくするように前記各重み係数：α、β、γを調整する処理を行う前記（３）〜（５）いずれかに記載の情報処理装置。
【０２３４】
さらに、上記した装置等において実行する処理の方法や、処理を実行させるプログラムも本開示の構成に含まれる。
【０２３５】
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
【０２３６】
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【産業上の利用可能性】
【０２３７】
以上、説明したように、本開示の一実施例の構成によれば、不確実で非同期な入力情報に基づく情報解析により、ユーザ位置や識別情報、発話者情報などを生成する構成が実現される。
具体的には、画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力し、入力イベント情報に基づいて、各ユーザの位置およびユーザ識別情報を含むターゲット情報と、イベント発生源の確率値を示すシグナル情報を生成する情報統合処理部を有し、情報統合処理部は、発話源確率算出部を有し、発話源確率算出部は、各ターゲットの発話源確率を示す指標値としての発話源スコアを、イベント検出部から入力する複数の異なる情報に対して発話状況に応じた重みを乗算して算出する処理を行う。
これらの処理によって、例えば２つのターゲット（２人）が同時に発話した状況においても、どちらが発話したかを高精度に推定することが可能となる。
【符号の説明】
【０２３８】
１１〜１２ユーザ
２１カメラ
３１〜３４マイク
１００情報処理装置
１１１画像入力部
１１２画像イベント検出部
１２１音声入力部
１２２音声イベント検出部
１３１情報統合処理部
１３２処理決定部
１４１ターゲット情報更新部
１４２発話源確率算出部
２０１〜２０ｋユーザ
３０１ユーザ
３０２画像データ
３５０画像フレーム
３５１第１顔画像
３５２第２顔画像
３６１，３６２イベント情報
３７１，３７２イベント発生源仮設データ
３７５ターゲットデータ
３８０ターゲット情報
３９０ターゲット情報
３９５第３顔画像
４０１イベント情報
４２１パーティクル

【特許請求の範囲】
【請求項１】
実空間の観測情報を入力する複数の情報入力部と、
前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出部と、
前記イベント情報を入力し、入力イベント情報に基づいて、各ユーザの位置およびユーザ識別情報を含むターゲット情報と、
前記イベント発生源の確率値を示すシグナル情報を生成する情報統合処理部を有し、
前記情報統合処理部は、発話源確率算出部を有し、
前記発話源確率算出部は、各ターゲットの発話源確率を示す指標値としての発話源スコアを、イベント検出部から入力する複数の異なる情報に対して発話状況に応じた重みを乗算して算出する処理を行う情報処理装置。
【請求項２】
前記発話源確率算出部は、
前記イベント検出部を構成する音声イベント検出部からの入力情報として、発話イベントに対応する、
（ａ）ユーザ位置情報（音源方向情報）、
（ｂ）ユーザ識別情報（話者識別情報）、
を入力し、
さらに、前記イベント検出部を構成する画像イベント検出部からの入力情報に基づいて生成されるターゲット情報として、
（ａ）ユーザ位置情報（顔位置情報）、
（ｂ）ユーザ識別情報（顔識別情報）、
（ｃ）口唇動作情報、
これらの情報を入力し、少なくともこれらの情報のいずれかを適用して、入力情報に基づく発話源スコアを算出する処理を行う請求項１に記載の情報処理装置。
【請求項３】
前記発話源確率算出部は、
音源方向情報Ｄと、話者識別情報Ｓと、口唇動作情報Ｌを適用して、
発話源スコアＰを、以下の算出式、
Ｐ＝Ｄ^α・Ｓ^β・Ｌ^γ
ただし、
α：音源方向情報の重み係数、
β：話者識別情報の重み係数、
γ：口唇動作情報の重み係数、
α＋β＋γ＝１
上記発話源スコアＰの算出式に従って発話源スコアを算出する処理を行う請求項１に記載の情報処理装置。
【請求項４】
前記発話源確率算出部は、
前記各重み係数：α、β、γを発話状況に応じて調整する処理を行う請求項３に記載の情報処理装置。
【請求項５】
前記発話源確率算出部は、以下の２つの条件、
（条件１）１つのターゲットのみによる単独発話か、あるいは２つのターゲットによる同時発話か、
（条件２）２つのターゲットの位置が近いか、あるいは２つのターゲットの位置が遠いか、
上記２つの条件に応じて、前記各重み係数：α、β、γを調整する処理を行う請求項３に記載の情報処理装置。
【請求項６】
前記発話源確率算出部は、
発話可能性のあるターゲットが２である状況において、２つのターゲットが同時発声する場合、口唇動作情報の重みγを小さくするように前記各重み係数：α、β、γを調整する処理を行う請求項３に記載の情報処理装置。
【請求項７】
前記発話源確率算出部は、
発話可能性のあるターゲットが２である状況において、２つのターゲットの位置が近く、１ターゲットのみが単独発声する場合、音源方向情報の重みαを小さくするように前記各重み係数：α、β、γを調整する処理を行う請求項３に記載の情報処理装置。
【請求項８】
前記発話源確率算出部は、
発話可能性のあるターゲットが２である状況において、２つのターゲットの位置が近く、２つのターゲットが同時に発声する場合、口唇動作情報の重みγと音源方向情報の重みαを小さくするように前記各重み係数：α、β、γを調整する処理を行う請求項３に記載の情報処理装置。
【請求項９】
情報処理装置において、情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における観測情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、前記イベント情報を入力し、入力イベント情報に基づいて、各ユーザの位置およびユーザ識別情報を含むターゲット情報と、
前記イベント発生源の確率値を示すシグナル情報を生成する情報統合処理ステップを有し、
前記情報統合処理ステップは、
各ターゲットの発話源確率を示す指標値としての発話源スコアを、イベント検出ステップにおいて入力する複数の異なる情報に対して発話状況に応じた重みを乗算して算出する処理を行う情報処理方法。
【請求項１０】
情報処理装置において、情報解析処理を実行させるプログラムであり、
複数の情報入力部に、実空間における観測情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、前記イベント情報を入力し、入力イベント情報に基づいて、各ユーザの位置およびユーザ識別情報を含むターゲット情報と、
前記イベント発生源の確率値を示すシグナル情報を生成させる情報統合処理ステップを実行させ、
前記情報統合処理ステップにおいては、
各ターゲットの発話源確率を示す指標値としての発話源スコアを、イベント検出ステップにおいて入力する複数の異なる情報に対して発話状況に応じた重みを乗算して算出する処理を行わせるプログラム。

【図３】