情報処理装置、および情報処理方法、並びにプログラム

【課題】不確実で非同期な入力情報に基づく情報解析により、精度の高いユーザ識別処理を実行する構成を実現する。
【解決手段】カメラやマイクによって取得される画像情報や音声情報に基づいて実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成する。仮想ユーザに対応する複数のターゲット各々について、（１）ターゲットの存在確率算出に適用するターゲット存在仮説情報、（２）ターゲットの存在位置の確率分布情報、（３）ターゲットが誰であるかを示すユーザ確信度情報を設定し、ターゲット存在仮説情報を適用して各ターゲットの存在確率を算出してターゲットの新規設定および削除を実行する構成としたので、例えば誤検出による誤生成ターゲットを削減し、高精度かつ高効率のユーザ識別処理を実行可能となる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、外界からの入力情報、例えば画像、音声などの情報を入力し、入力情報に基づく外界環境の解析、例えば、言葉を発している人物が誰であるか等の解析処理を実行する情報処理装置、および情報処理方法、並びにプログラムに関する。
【背景技術】
【０００２】
人とＰＣやロボットなどの情報処理装置との相互間の処理、例えばコミュニケーションやインタラクティブ処理を行うシステムはマン−マシンインタラクションシステムと呼ばれる。このマン−マシンインタラクションシステムにおいて、ＰＣやロボット等の情報処理装置は、人のアクション例えば人の動作や言葉を認識するために画像情報や音声情報を入力して入力情報に基づく解析を行う。
【０００３】
人が情報を伝達する場合、言葉のみならずしぐさ、視線、表情など様々なチャネルを情報伝達チャネルとして利用する。このようなすべてのチャネルの解析をマシンにおいて行うことができれば、人とマシンとのコミュニケーションも人と人とのコミュニケーションと同レベルに到達することができる。このような複数のチャネル（モダリティ、モーダルとも呼ばれる）からの入力情報の解析を行うインタフェースは、マルチモーダルインタフェースと呼ばれ、近年、開発、研究が盛んに行われている。
【０００４】
例えばカメラによって撮影された画像情報、マイクによって取得された音声情報を入力して解析を行う場合、より詳細な解析を行うためには、様々なポイントに設置した複数のカメラおよび複数のマイクから多くの情報を入力することが有効である。
【０００５】
具体的なシステムとしては、例えば以下のようなシステムが想定される。情報処理装置（テレビ）が、カメラおよびマイクを介して、テレビの前のユーザ（父、母、姉、弟）の画像および音声を入力し、それぞれのユーザの位置やどのユーザが発した言葉であるか等を解析し、テレビが解析情報に応じた処理、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対する的確な応答を行うなどのシステムが実現可能となる。
【０００６】
従来の一般的なマン−マシンインタラクションシステムの多くは、複数チャネル（モーダル）からの情報を決定論的に統合して、複数のユーザが、それぞれどこにいて、それらは誰で、誰がシグナルを発したのかを決定するという処理を行っていた。このようなシステムを開示した従来技術として、例えば特許文献１（特開２００５−２７１１３７号公報）、特許文献２（特開２００２−２６４０５１号公報）がある。
【０００７】
しかし、従来のシステムにおいて行われるマイクやカメラから入力される不確実かつ非同期なデータを利用した決定論的な統合処理方法ではロバスト性にかけ、精度の低いデータしか得られないという問題がある。実際のシステムにおいて、実環境で取得可能なセンサ情報、すなわちカメラからの入力画像やマイクから入力される音声情報には様々な余分な情報、例えばノイズや不要な情報が含まれる不確実なデータであり、画像解析や音声解析処理を行う場合には、このようなセンサ情報から有効な情報を効率的に統合する処理が重要となる。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特開２００５−２７１１３７号公報
【特許文献２】特開２００２−２６４０５１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００９】
本発明は、上述の問題点に鑑みてなされたものであり、複数のチャネル（モダリティ、モーダル）からの入力情報の解析、具体的には、例えば周囲にいる人物の識別な処理を行うシステムにおいて、画像、音声情報などの様々な入力情報に含まれる不確実な情報に対する確率的な処理を行ってより精度の高いと推定される情報に統合する処理を行うことによりロバスト性を向上させ、精度の高い解析を行う情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
【００１０】
さらに、本発明は、複数のモーダルからなる不確実で非同期な位置情報、識別情報を確率的に統合して、複数のターゲットが、それぞれどこにいて、それらは誰かを推定する際、各ターゲットが実際に存在するか否かの推定情報を利用することで、ユーザ同定の推定性能を向上させ、精度の高い解析を行う情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１１】
本発明の第１の側面は、
実空間における画像情報または音声情報のいずれかを含む情報を入力する複数の情報入力部と、
前記情報入力部からの入力情報を解析して前記実空間に存在すると推定されるユーザの位置および識別情報を含むイベント情報を生成するイベント検出部と、
前記実空間におけるユーザの存在と位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）データを設定し、前記イベント情報に基づく前記仮説データの更新および取捨選択により、前記実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成する情報統合処理部と、
を有する情報処理装置にある。
【００１２】
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成する。
【００１３】
さらに、本発明の情報処理装置の一実施態様において、前記イベント検出部は、イベント発生源に対応するガウス分布からなるユーザ位置情報と、イベント発生源に対応するユーザ識別情報としてのユーザ確信度情報を含むイベント情報を生成し、前記情報統合処理部は、仮想的なユーザに対応する複数のターゲット各々について、
（１）ターゲットの存在確率算出に適用するターゲット存在仮説情報、
（２）ターゲットの存在位置の確率分布情報、
（３）ターゲットが誰であるかを示すユーザ確信度情報、
上記（１）〜（３）をターゲットデータとして有するターゲットを複数設定した複数のパーティクルを保持し、各パーティクルにイベント発生源に対応するターゲット仮説を設定し、各パーティクルのターゲット仮説に対応するターゲットデータと入力イベント情報との類似度であるイベント−ターゲット間尤度をパーティクル重みとして算出して、算出したパーティクル重みに応じたパーティクルのリサンプリング処理を行い、さらに、各パーティクルのターゲット仮説に対応するターゲットデータを前記入力イベント情報に近づけるターゲットデータ更新を含むパーティクル更新処理を実行する構成である。
【００１４】
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記ターゲット存在仮説としてターゲットが存在する仮説（ｃ＝１）、またはターゲットが存在しない仮説（ｃ＝０）を各ターゲットのターゲットデータとして設定し、ターゲット存在確率［ＰｔＩＤ（ｃ＝１）］を、前記リサンプリング処理後のパーティクルを適用して、
［ＰｔＩＤ（ｃ＝１）］＝｛ｃ＝１を割り当てた同一ターゲット識別子のターゲット数｝／｛パーティクル数｝
上記式によって算出する。
【００１５】
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記パーティクルの各々に、少なくとも１つのターゲット生成候補を設定し、該ターゲット生成候補についてのターゲット存在確率と、予め設定した閾値とを比較して、前記ターゲット生成候補のターゲット存在確率が前記閾値より大きい場合に、前記ターゲット生成候補を新規ターゲットとして設定する処理を行う。
【００１６】
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記パーティクル重みの算出処理に際して、前記ターゲット仮説として前記ターゲット生成候補が設定されているパーティクルについては、イベント−ターゲット間尤度に１より小さい係数を乗算する処理を実行して前記パーティクル重みを算出する処理を行う。
【００１７】
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記パーティクルに設定されたターゲット各々のターゲット存在確率と、予め設定した削除閾値とを比較して、ターゲット存在確率が前記削除閾値より小さい場合に、該ターゲットを削除する処理を行う。
【００１８】
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記イベント検出部から入力するイベント情報で更新されない時間の長さに基づいて、前記ターゲット存在仮説を確率的に存在（ｃ＝１）から不在（ｃ＝０）に変更する更新処理を実行し、該更新処理後、前記パーティクルに設定されたターゲット各々のターゲット存在確率と、予め設定した削除閾値とを比較して、ターゲット存在確率が前記削除閾値より小さい場合に、該ターゲットを削除する処理を行う。
【００１９】
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、各パーティクルにイベント発生源に対応するターゲット仮説の設定処理を、
（制約１）ターゲット存在の仮説がｃ＝０（不在）のターゲットはイベント発生源としない、
（制約２）異なるイベントに対して、同一のターゲットをイベント発生源としない、
（制約３）同一時刻において「イベント数＞ターゲット数」の場合は、ターゲット数より多いイベントはノイズと判定する、
上記制約１〜３に従った処理として実行する。
【００２０】
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、各ターゲットと各ユーザとを対応づけた候補データの同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）を、前記イベント情報に含まれるユーザ識別情報に基づいて更新し、更新された同時生起確率の値を適用してターゲット対応のユーザ確信度を算出する処理を実行する構成を有する。
【００２１】
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記イベント情報に含まれるユーザ識別情報に基づいて更新された同時生起確率の値をマージして、各ターゲットに対応するユーザ識別子の確信度を算出する構成である。
【００２２】
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、複数ターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）は割り振られないという制約に基づいて、各ターゲットと各ユーザとを対応づけた候補データの同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）の初期設定を行なう構成であり、異なるターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）が設定された候補データの同時生起確率Ｐ（Ｘｕ）の確率値は、
Ｐ（Ｘｕ）＝０．０、
それ以外のターゲットデータの確率値は、
Ｐ（Ｘｕ）＝０．０＜Ｐ≦１．０
とする確率値の初期設定を行う構成である。
【００２３】
さらに、本発明の第２の側面は、
情報処理装置において情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における画像情報または音声情報のいずれかを含む情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力ステップにおいて入力する情報の解析により、前記実空間に存在すると推定されるユーザの位置および識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、前記実空間におけるユーザの存在と位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）データを設定し、前記イベント情報に基づく前記仮説データの更新および取捨選択により、前記実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成する情報統合処理ステップと、
を有することを特徴とする情報処理方法にある。
【００２４】
さらに、本発明の第３の側面は、
情報処理装置において情報解析処理を実行させるプログラムであり、
複数の情報入力部に、実空間における画像情報または音声情報のいずれかを含む情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力ステップにおいて入力する情報の解析により、前記実空間に存在すると推定されるユーザの位置および識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、前記実空間におけるユーザの存在と位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）データを設定させ、前記イベント情報に基づく前記仮説データの更新および取捨選択により、前記実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成させる情報統合処理ステップと、
を有することを特徴とするプログラムにある。
【００２５】
なお、本発明のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
【００２６】
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【発明の効果】
【００２７】
本発明の一実施例の構成によれば、カメラやマイクによって取得される画像情報や音声情報に基づいて実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成する。仮想ユーザに対応する複数のターゲット各々について、（１）ターゲットの存在確率算出に適用するターゲット存在仮説情報、（２）ターゲットの存在位置の確率分布情報、（３）ターゲットが誰であるかを示すユーザ確信度情報を設定し、ターゲット存在仮説情報を適用して各ターゲットの存在確率を算出してターゲットの新規設定および削除を実行する構成としたので、例えば誤検出による誤生成ターゲットを削減し、高精度かつ高効率のユーザ識別処理を実行可能となる。
【図面の簡単な説明】
【００２８】
【図１】本発明に係る情報処理装置の実行する処理の概要について説明する図である。
【図２】本発明の一実施例の情報処理装置の構成および処理について説明する図である。
【図３】音声イベント検出部１２２および画像イベント検出部１１２が生成し音声・画像統合処理部１３１に入力する情報の例について説明する図である。
【図４】パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した基本的な処理例について説明する図である。
【図５】本処理例で設定するパーティクルの構成について説明する図である。
【図６】各パーティクルに含まれるターゲット各々が有するターゲットデータの構成について説明する図である。
【図７】音声・画像統合処理部１３１の実行する処理シーケンスを説明するフローチャートを示す図である。
【図８】ターゲット重み［Ｗ_ｔＩＤ］の算出処理の詳細について説明する図である。
【図９】パーティクル重み［Ｗ_ｐＩＤ］の算出処理の詳細について説明する図である。
【図１０】パーティクル重み［Ｗ_ｐＩＤ］の算出処理の詳細について説明する図である。
【図１１】ターゲットの存在確率の推定情報を利用したユーザ位置およびユーザ識別処理を実行する場合のパーティクル設定例とターゲット情報について説明する図である。
【図１２】ターゲットの存在確率の推定情報を利用したユーザ位置およびユーザ識別処理を実行する場合のターゲットデータの例を示す図である。
【図１３】本発明の情報処理装置の音声・画像統合処理部の実行する処理シーケンスを説明するフローチャートを示す図である。
【図１４】イベント発生源の仮説の設定とパーティクル重み設定処理を実行した場合の処理例について説明する図である。
【図１５】ターゲット数ｎ＝３（０〜２）、登録ユーザ数ｋ＝３（０〜２）の場合において、「複数ターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）は割り振られない」という制約に従った初期状態設定例を示す図である。
【図１６】「複数ターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）は割り振られない」という制約を適用して、ターゲット間の独立性を排除した本発明に従った解析処理例を説明する図である。
【図１７】図１６に示す処理によって得られるマージ（Ｍａｒｇｉｎａｌｉｚｅ）結果について説明する図である。
【図１８】１つでも重なるｘｕ（ユーザ識別子（ＵｓｅｒＩＤ））が存在する状態をターゲットデータから削除するデータ削減処理例について説明する図である。
【図１９】ｔＩＤ＝１，２の２ターゲットに対して、ｔＩＤ＝ｃａｎのターゲットを新たに生成して追加する場合の処理例について説明する図である。
【図２０】ｔＩＤ＝０，１，２の３ターゲットにおいて、ｔＩＤ＝０のターゲットを削除する場合の処理例について説明する図である。
【発明を実施するための形態】
【００２９】
以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、本発明は、本出願と同一の出願人に係る先の出願である特願２００７−１９３９３０に開示した構成に改良を加え、解析性能の向上を実現した発明である。
【００３０】
以下では、本発明について、以下の項目順に説明する。
（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理
（２）ターゲットの存在確率の推定情報を利用したユーザ位置およびユーザ識別処理
（２−１）ターゲットの存在確率の推定情報を利用したユーザ位置およびユーザ識別処理の概要
（２−２）イベントによるターゲット存在の仮説更新プロセス
（２−３）ターゲット生成プロセス
（２−４）ターゲット削除プロセス
【００３１】
なお、項目（１）は、特願２００７−１９３９３０において開示した構成とほぼ同様である。本明細書では、項目（１）において、本発明の前提となるユーザ位置およびユーザ識別処理の全体構成を特願２００７−１９３９３０の開示構成を利用して説明し、次に、項目（２）において、本発明の特徴となる構成の詳細を説明する。
【００３２】
［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］
まず、図１を参照して本発明に係る情報処理装置の実行する処理の概要について説明する。本発明の情報処理装置１００は、環境情報を入力するセンサ、ここでは一例としてカメラ２１と、複数のマイク３１〜３４から画像情報、音声情報を入力し、これらの入力情報に基づいて環境の解析を行う。具体的には、複数のユーザ１，１１〜４，１４の位置の解析、およびその位置にいるユーザの識別を行う。
【００３３】
図に示す例において、例えばユーザ１，１１〜ユーザ４，１４が家族である父、母、姉、弟であるとき、情報処理装置１００は、カメラ２１と、複数のマイク３１〜３４から入力する画像情報、音声情報の解析を行い、４人のユーザ１〜４の存在する位置、各位置にいるユーザが父、母、姉、弟のいずれであるかを識別する。識別処理結果は様々な処理に利用される。例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理に利用される。
【００３４】
なお、本発明に係る情報処理装置１００の主要な処理は、複数の情報入力部（カメラ２１，マイク３１〜３４）からの入力情報に基づいて、ユーザの位置識別およびユーザの特定処理としてのユーザ識別処理を行うことである。この識別結果の利用処理については特に限定するものではない。カメラ２１と、複数のマイク３１〜３４から入力する画像情報、音声情報には様々な不確実な情報が含まれる。本発明の情報処理装置１００では、これらの入力情報に含まれる不確実な情報に対する確率的な処理を行って、精度の高いと推定される情報に統合する処理を行う。この推定処理によりロバスト性を向上させ、精度の高い解析を行う。
【００３５】
図２に情報処理装置１００の構成例を示す。情報処理装置１００は、入力デバイスとして画像入力部（カメラ）１１１、複数の音声入力部（マイク）１２１ａ〜ｄを有する。画像入力部（カメラ）１１１から画像情報を入力し、音声入力部（マイク）１２１から音声情報を入力し、これらの入力情報に基づいて解析を行う。複数の音声入力部（マイク）１２１ａ〜ｄの各々は、図１に示すように様々な位置に配置されている。
【００３６】
複数のマイク１２１ａ〜ｄから入力された音声情報は、音声イベント検出部１２２を介して音声・画像統合処理部１３１に入力される。音声イベント検出部１２２は、複数の異なるポジションに配置された複数の音声入力部（マイク）１２１ａ〜ｄから入力する音声情報を解析し統合する。具体的には、音声入力部（マイク）１２１ａ〜ｄから入力する音声情報に基づいて、発生した音の位置およびどのユーザの発生させた音であるかのユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。
【００３７】
なお、情報処理装置１００の実行する具体的な処理は、例えば図１に示すように複数のユーザが存在する環境で、ユーザ１〜４がどの位置にいて、会話を行ったユーザがどのユーザであるかを識別すること、すなわち、ユーザ位置およびユーザ識別を行うことであり、さらに声を発した人物などのイベント発生源を特定する処理である。
【００３８】
音声イベント検出部１２２は、複数の異なるポジションに配置された複数の音声入力部（マイク）１２１ａ〜ｄから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データとして生成する。具体的には、音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。音声イベント検出部１２２には、予め検証すべき複数のユーザの声についての特徴情報が登録されており、入力音声と登録音声との比較処理を実行して、どのユーザの声である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。
【００３９】
このように、音声イベント検出部１２２は、複数の異なるポジションに配置された複数の音声入力部（マイク）１２１ａ〜ｄから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データと、確率的な推定値からなるユーザ識別情報とによって構成される［統合音声イベント情報］を生成して音声・画像統合処理部１３１に入力する。
【００４０】
一方、画像入力部（カメラ）１１１から入力された画像情報は、画像イベント検出部１１２を介して音声・画像統合処理部１３１に入力される。画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力する画像情報を解析し、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの顔の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。画像イベント検出部１１２には、予め検証すべき複数のユーザの顔についての特徴情報が登録されており、入力画像から抽出した顔領域の画像の特徴情報と登録された顔画像の特徴情報との比較処理を実行して、どのユーザの顔である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。
【００４１】
なお、音声イベント検出部１２２や画像イベント検出部１１２において実行する音声識別や、顔検出、顔識別処理は従来から知られる技術を適用する。例えば顔検出、顔識別処理としては以下の文献に開示された技術の適用が可能である。
佐部浩太郎，日台健一，"ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習"，第１０回画像センシングシンポジウム講演論文集，ｐｐ．５４７−５５２，２００４
特開２００４−３０２６４４（Ｐ２００４−３０２６４４Ａ）［発明の名称：顔識別装置、顔識別方法、記録媒体、及びロボット装置］
【００４２】
音声・画像統合処理部１３１は、音声イベント検出部１２２や画像イベント検出部１１２からの入力情報に基づいて、複数のユーザが、それぞれどこにいて、それらは誰で、誰が音声等のシグナルを発したのかを確率的に推定する処理を実行する。この処理については後段で詳細に説明する。音声・画像統合処理部１３１は、音声・画像統合処理部１３１は、音声イベント検出部１２２や画像イベント検出部１１２からの入力情報に基づいて、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］
（ｂ）例えば話しをしたユーザなどのイベント発生源を［シグナル情報］として、処理決定部１３２に出力する。
【００４３】
これらの識別処理結果を受領した処理決定部１３２は、識別処理結果を利用した処理を実行する、例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理を行う。
【００４４】
上述したように、音声イベント検出部１２２は、音声の発生源の位置情報を確率分布データ、具体的には、音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。また、画像イベント検出部１１２は、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの顔の特徴情報との比較処理に基づいてユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。
【００４５】
図３を参照して、音声イベント検出部１２２および画像イベント検出部１１２が生成し音声・画像統合処理部１３１に入力する情報の例について説明する。図３（Ａ）は図１を参照して説明したと同様のカメラやマイクが備えられた実環境の例を示し、複数のユーザ１〜ｋ，２０１〜２０ｋが存在する。この環境で、あるユーザが話しをしたとすると、マイクで音声が入力される。また、カメラは連続的に画像を撮影している。
【００４６】
音声イベント検出部１２２および画像イベント検出部１１２が生成し音声・画像統合処理部１３１に入力する情報は、基本的に同様の情報であり、図３（Ｂ）に示す２つの情報によって構成される。すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらの２つの情報である。これらの２つの情報は、イベントの発生毎に生成される。音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｄから音声情報が入力された場合に、その音声情報に基づいて上記の（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。画像イベント検出部１１２は、例えば予め定めた一定のフレーム間隔で、画像入力部（カメラ）１１１から入力された画像情報に基づいて（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。なお、本例では、画像入力部（カメラ）１１１は１台のカメラを設定した例を示しており、１つのカメラに複数のユーザの画像が撮影される設定であり、この場合、１つの画像に含まれる複数の顔の各々について（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。
【００４７】
音声イベント検出部１２２が音声入力部（マイク）１２１ａ〜ｄから入力する音声情報に基づいて、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（話者識別情報）
これらの情報を生成する処理について説明する。
【００４８】
音声イベント検出部１２２による（ａ）ユーザ位置情報の生成処理
音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｄから入力された音声情報に基づいて解析された声を発したユーザ、すなわち［話者］の位置の推定情報を生成する。すなわち、話者が存在すると推定される位置を、期待値（平均）［ｍ_ｅ］と分散情報［σ_ｅ］からなるガウス分布（正規分布）データＮ（ｍ_ｅ，σｅ）として生成する。
【００４９】
音声イベント検出部１２２による（ｂ）ユーザ識別情報（話者識別情報）の生成処理
音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｄから入力された音声情報に基づいて話者が誰であるかを、入力音声と予め登録されたユーザ１〜ｋの声の特徴情報との比較処理により推定する。具体的には話者が各ユーザ１〜ｋである確率を算出する。この算出値を（ｂ）ユーザ識別情報（話者識別情報）とする。例えば入力音声の特徴と最も近い登録された音声特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア（例えば０）を配分する処理によって各ユーザである確率を設定したデータを生成して、これを（ｂ）ユーザ識別情報（話者識別情報）とする。
【００５０】
画像イベント検出部１１２が画像入力部（カメラ）１１１から入力する画像情報に基づいて、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
これらの情報を生成する処理について説明する。
【００５１】
画像イベント検出部１１２による（ａ）ユーザ位置情報の生成処理
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像情報に含まれる顔の各々について顔の位置の推定情報を生成する。すなわち、画像から検出された顔が存在すると推定される位置を、期待値（平均）［ｍ_ｅ］と分散情報［σ_ｅ］からなるガウス分布（正規分布）データＮ（ｍ_ｅ，σ_ｅ）として生成する。
【００５２】
画像イベント検出部１１２による（ｂ）ユーザ識別情報（顔識別情報）の生成処理
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像情報に基づいて、画像情報に含まれる顔を検出し、各顔が誰であるかを、入力画像情報と予め登録されたユーザ１〜ｋの顔の特徴情報との比較処理により推定する。具体的には抽出された各顔が各ユーザ１〜ｋである確率を算出する。この算出値を（ｂ）ユーザ識別情報（顔識別情報）とする。例えば入力画像に含まれる顔の特徴と最も近い登録された顔の特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア（例えば０）を配分する処理によって各ユーザである確率を設定したデータを生成して、これを（ｂ）ユーザ識別情報（顔識別情報）とする。
【００５３】
なお、カメラの撮影画像から複数の顔が検出された場合には、各検出顔に応じて、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
これらの情報を生成して、音声・画像統合処理部１３１に入力する。
また、本例では、画像入力部１１１として１台のカメラを利用した例を説明するが、複数のカメラの撮影画像を利用してもよく、その場合は、画像イベント検出部１１２は、各カメラの撮影画像の各々に含まれる各顔について、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
これらの情報を生成して、音声・画像統合処理部１３１に入力する。
【００５４】
次に、音声・画像統合処理部１３１の実行する処理について説明する。音声・画像統合処理部１３１は、上述したように、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらの情報を逐次入力する。なお、これらの各情報の入力タイミングは様々な設定が可能であるが、例えば、音声イベント検出部１２２は新たな音声が入力された場合に上記（ａ），（ｂ）の各情報を音声イベント情報として生成して入力し、画像イベント検出部１１２は、一定のフレーム周期単位で、上記（ａ），（ｂ）の各情報を画像イベント情報として生成して入力するといった設定が可能である。
【００５５】
音声・画像統合処理部１３１の実行する処理について、図４以下を参照して説明する。音声・画像統合処理部１３１は、ユーザの位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）の確率分布データを設定し、その仮説を入力情報に基づいて更新することで、より確からしい仮説のみを残す処理を行う。この処理手法として、パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理を実行する。
【００５６】
パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理は、様々な仮説、本例では、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定し、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらの入力情報に基づいて、より確からしいパーティクルのウェイトを高めていくという処理を行う。
【００５７】
パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した基本的な処理例について図４を参照して説明する。例えば、図４に示す例は、あるユーザに対応する存在位置をパーティクル・フィルタにより推定する処理例を示している。図４に示す例は、ある直線上の１次元領域におけるユーザ３０１の存在する位置を推定する処理である。
【００５８】
初期的な仮説（Ｈ）は、図４（ａ）に示すように均一なパーティクル分布データとなる。次に、画像データ３０２が取得され、取得画像に基づくユーザ３０１の存在確率分布データが図４（ｂ）のデータとして取得される。この取得画像に基づく確率分布データに基づいて、図４（ａ）のパーティクル分布データが更新され、図４（ｃ）の更新された仮説確率分布データが得られる。このような処理を、入力情報に基づいて繰り返し実行して、ユーザのより確からしい位置情報を得る。
【００５９】
なお、パーティクル・フィルタを用いた処理の詳細については、例えば［Ｄ．Ｓｃｈｕｌｚ，Ｄ．Ｆｏｘ，ａｎｄＪ．Ｈｉｇｈｔｏｗｅｒ．ＰｅｏｐｌｅＴｒａｃｋｉｎｇｗｉｔｈＡｎｏｎｙｍｏｕｓａｎｄＩＤ−ｓｅｎｓｏｒｓＵｓｉｎｇＲａｏ−ＢｌａｃｋｗｅｌｌｉｓｅｄＰａｒｔｉｃｌｅＦｉｌｔｅｒｓ．Ｐｒｏｃ．ｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＩＪＣＡＩ−０３）］に記載されている。
【００６０】
図４に示す処理例は、ユーザの存在位置のみについて、入力情報を画像データのみとした処理例として説明しており、パーティクルの各々は、ユーザ３０１の存在位置のみの情報を有している。
【００６１】
一方、本発明に従った処理は、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらの入力情報に基づいて、複数のユーザの位置と複数のユーザがそれぞれ誰であるかを判別する処理を行うことになる。従って、本発明におけるパーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理では、音声・画像統合処理部１３１が、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定して、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報に基づいて、パーティクル更新を行うことになる。
【００６２】
図５を参照して、本処理例で設定するパーティクルの構成について説明する。音声・画像統合処理部１３１は、予め設定した数＝ｍのパーティクルを有する。図５に示すパーティクル１〜ｍである。各パーティクルには識別子としてのパーティクルＩＤ（ＰＩＤ＝１〜ｍ）が設定されている。
【００６３】
各パーティクルに、位置および識別を行うオブジェクトに対応する仮想的なオブジェクトに対応する複数のターゲットを設定する。本例では、例えば実空間に存在すると推定される人数以上の仮想のユーザに対応する複数のターゲットを各パーティクルに設定する。ｍ個のパーティクルの各々はターゲット単位でデータをターゲット数分保持する。図５に示す例では、１つのパーティクルにｎ個のターゲットが含まれる。各パーティクルに含まれるターゲット各々が有するターゲットデータの構成を図６に示す。
【００６４】
各パーティクルに含まれる各ターゲットデータについて図６を参照して説明する。図６は、図５に示すパーティクル１（ｐＩＤ＝１）に含まれる１つのターゲット（ターゲットＩＤ：ｔＩＤ＝ｎ）３１１のターゲットデータの構成である。ターゲット３１１のターゲットデータは、図６に示すように、以下のデータ、すなわち、
（ａ）各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ_１ｎ，σ_１ｎ）］、
（ｂ）各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）
ｕＩＤ_１ｎ１＝０．０
ｕＩＤ_１ｎ２＝０．１
：
ｕＩＤ_１ｎｋ＝０．５
これらのデータによって構成される。
【００６５】
なお、（ａ）に示すガウス分布：Ｎ（ｍ_１ｎ，σ_１ｎ）における［ｍ_１ｎ，σ_１ｎ］の（１ｎ）は、パーティクルＩＤ：ｐＩＤ＝１におけるターゲットＩＤ：ｔＩＤ＝ｎに対応する存在確率分布としてのガウス分布であることを意味する。
また、（ｂ）に示すユーザ確信度情報（ｕＩＤ）における、［ｕＩＤ_１ｎ１］に含まれる（１ｎ１）は、パーティクルＩＤ：ｐＩＤ＝１におけるターゲットＩＤ：ｔＩＤ＝ｎの、ユーザ＝ユーザ１である確率を意味する。すなわちターゲットＩＤ＝ｎのデータは、
ユーザ１である確率が０．０、
ユーザ２である確率が０．１、
：
ユーザｋである確率が０．５、
であることを意味している。
【００６６】
図５に戻り、音声・画像統合処理部１３１の設定するパーティクルについての説明を続ける。図５に示すように、音声・画像統合処理部１３１は、予め決定した数＝ｍのパーティクル（ＰＩＤ＝１〜ｍ）を設定し、各パーティクルは、実空間に存在すると推定されるターゲット（ｔＩＤ＝１〜ｎ）各々について、
（ａ）各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ，σ）］、
（ｂ）各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）
これらのターゲットデータを有する。
【００６７】
音声・画像統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらのイベント情報を入力してｍ個のパーティクル（ＰＩＤ＝１〜ｍ）の更新処理を行う。
【００６８】
音声・画像統合処理部１３１は、これらの更新処理を実行して、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらを生成して処理決定部１３２に出力する。
【００６９】
［ターゲット情報］は、図５の右端のターゲット情報３０５に示すように、各パーティクル（ＰＩＤ＝１〜ｍ）に含まれる各ターゲット（ｔＩＤ＝１〜ｎ）対応データの重み付き総和データとして生成される。各パーティクルの重みについては後述する。
【００７０】
ターゲット情報３０５は、音声・画像統合処理部１３１が予め設定した仮想的なユーザに対応するターゲット（ｔＩＤ＝１〜ｎ）の
（ａ）存在位置
（ｂ）誰であるか（ｕＩＤ１〜ｕＩＤｋのいずれであるか）
これらを示す情報である。このターゲット情報は、パーティクルの更新に伴い、順次更新されることになり、例えばユーザ１〜ｋが実環境内で移動しない場合、ユーザ１〜ｋの各々が、ｎ個のターゲット（ｔＩＤ＝１〜ｎ）から選択されたｋ個にそれぞれ対応するデータとして収束することになる。
【００７１】
例えば、図５に示すターゲット情報３０５中の最上段のターゲット１（ｔＩＤ＝１）のデータ中に含まれるユーザ確信度情報（ｕＩＤ）は、ユーザ２（ｕＩＤ_１２＝０．７）について最も高い確率を有している。従って、このターゲット１（ｔＩＤ＝１）のデータは、ユーザ２に対応するものであると推定されることになる。なお、ユーザ確信度情報（ｕＩＤ）を示すデータ［ｕＩＤ_１２＝０．７］中の（ｕＩＤ_１２）内の（１２）は、ターゲットＩＤ＝１のユーザ＝２のユーザ確信度情報（ｕＩＤ）に対応する確率であることを示している。
【００７２】
このターゲット情報３０５中の最上段のターゲット１（ｔＩＤ＝１）のデータは、ユーザ２である確率が最も高く、このユーザ２は、その存在位置が、ターゲット情報３０５中の最上段のターゲット１（ｔＩＤ＝１）のデータに含まれる存在確率分布データに示す範囲にいると推定されることなる。
【００７３】
このように、ターゲット情報３０５は、初期的に仮想的なオブジェクト（仮想ユーザ）として設定した各ターゲット（ｔＩＤ＝１〜ｎ）の各々について、
（ａ）存在位置
（ｂ）誰であるか（ｕＩＤ１〜ｕＩＤｋのいずれであるか）
の各情報を示す。従って、各ターゲット（ｔＩＤ＝１〜ｎ）のｋ個のターゲット情報の各々は、ユーザが移動しない場合は、ユーザ１〜ｋに対応するように収束する。
【００７４】
ターゲット（ｔＩＤ＝１〜ｎ）の数がユーザ数ｋより大きい場合、どのユーザにも対応しないターゲットが発生する。例えば、ターゲット情報３０５中の最下段のターゲット（ｔＩＤ＝ｎ）は、ユーザ確信度情報（ｕＩＤ）も最大で０．５であり、存在確率分布データも大きなピークを有していない。このようなデータは特定のユーザに対応するデータではないと判定される。なお、このようなターゲットについては、削除するような処理が行われる場合もある。ターゲットの削除処理については後述する。
【００７５】
先に説明したように、音声・画像統合処理部１３１は、入力情報に基づくパーティクルの更新処理を実行して、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらを生成して処理決定部１３２に出力する。
【００７６】
ターゲット情報は、図５のターゲット情報３０５を参照して説明した情報である。音声・画像統合処理部１３１は、このターゲット情報の他に話をしたユーザなどのイベント発生源を示す［シグナル情報］についても生成して出力する。イベント発生源を示す［シグナル情報］は、音声イベントについては、誰が話をしたか、すなわち［話者］を示すデータであり、画像イベントについては、画像に含まれる顔が誰であるかを示すデータである。なお、画像イベントの場合のシグナル情報は、本例では結果としてターゲット情報のユーザ確信度情報（ｕＩＤ）から得られるものと一致することになる。
【００７７】
音声・画像統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、ユーザ位置情報と、ユーザ識別情報（顔識別情報または話者識別情報）、これらのイベント情報を入力して、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらの情報を生成して処理決定部１３２に出力する処理について、図７以下を参照して説明する。
【００７８】
図７は、音声・画像統合処理部１３１の実行する処理シーケンスを説明するフローチャートを示す図である。まず、ステップＳ１０１において、音声・画像統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、ユーザ位置情報と、ユーザ識別情報（顔識別情報または話者識別情報）、これらのイベント情報を入力する。
【００７９】
イベント情報の取得に成功した場合は、ステップＳ１０２に進み、イベント情報の取得に失敗した場合は、ステップＳ１２１に進む。ステップＳ１２１の処理については後段で説明する。
【００８０】
イベント情報の取得に成功した場合は、音声・画像統合処理部１３１は、ステップＳ１０２以下において、入力情報に基づくパーティクル更新処理を行うことになるが、パーティクル更新処理の前にステップＳ１０２において、図５に示すｍ個のパーティクル（ｐＩＤ＝１〜ｍ）の各々にイベントの発生源の仮説を設定する。イベント発生源とは、例えば、音声イベントであれば、話をしたユーザがイベント発生源であり、画像イベントであれば、抽出した顔を持つユーザがイベント発生源である。
【００８１】
図５に示す例では、各パーティクルの最下段にイベント発生源の仮説データ（ｔＩＤ＝ｘｘ）を示している。図５の例では、
パーティクル１（ｐＩＤ＝１）は、ｔＩＤ＝２、
パーティクル２（ｐＩＤ＝２）は、ｔＩＤ＝ｎ、
：
パーティクルｍ（ｐＩＤ＝ｍ）は、ｔＩＤ＝ｎ、
このように各パーティクルについて、イベント発生源がターゲット１〜ｎのいずれであるかの仮説を設定する。図５に示す例では、各パーティクルについて、仮説として設定したイベント発生源のターゲットデータを二重線で囲んで示している。
【００８２】
このイベント発生源の仮説設定は、入力イベントに基づくパーティクル更新処理を行う前に毎回実行する。すなわち、各パーティクル１〜ｍ各々にイベントの発生源仮説を設定して、その仮説の下で、イベントとして音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらのイベント情報を入力してｍ個のパーティクル（ＰＩＤ＝１〜ｍ）の更新処理を行う。
【００８３】
パーティクル更新処理が行われた場合は、各パーティクル１〜ｍ各々に設定されていたイベントの発生源の仮説はリセットされて、各パーティクル１〜ｍ各々に新たな仮説の設定が行われる。この仮説の設定態様としては、
（１）ランダムな設定、
（２）音声・画像統合処理部１３１の有する内部モデルに従って設定、
上記（１），（２）のいずれかの手法で設定することが可能である。なお、パーティクルの数：ｍは、ターゲットの数：ｎより大きく設定されているので、複数のパーティクルが同一のターゲットをイベント発生源とした仮設に設定される。例えば、ターゲットの数：ｎが１０とした場合、パーティクル数：ｍ＝１００〜１０００程度に設定した処理などが行われる。
【００８４】
上記の（２）音声・画像統合処理部１３１の有する内部モデルに従って仮説を設定する処理の具体的処理例について説明する。
音声・画像統合処理部１３１は、まず、音声イベント検出部１２２および画像イベント検出部１１２から取得したイベント情報、すなわち、図３（Ｂ）に示す２つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらのイベント情報と、
音声・画像統合処理部１３１の保持するパーティクルのターゲットの持つデータとの比較によって、各ターゲットの重み［Ｗ_ｔＩＤ］を算出し、算出した各ターゲットの重み［Ｗ_ｔＩＤ］に基づいて、各パーティクル（ｐＩＤ＝１〜ｍ）に対するイベント発生源の仮説を設定する。以下、具体的な処理例について説明する。
【００８５】
なお、初期状態では、各パーティクル（ｐＩＤ＝１〜ｍ）に設定されるイベント発生源の仮説は均等な設定とする。すなわちｎ個のターゲット（ｔＩＤ＝１〜ｎ）を持つｍ個のパーティクル（ｐＩＤ＝１〜ｍ）が設定されている構成では、
ターゲット１（ｔＩＤ＝１）をイベント発生源とするパーティクルをｍ／ｎ個、
ターゲット２（ｔＩＤ＝２）をイベント発生源とするパーティクルをｍ／ｎ個、
：
ターゲットｎ（ｔＩＤ＝ｎ）をイベント発生源とするパーティクルをｍ／ｎ個、
というように、各パーティクル（ｐＩＤ＝１〜ｍ）に設定する初期的なイベント発生源の仮説ターゲット（ｔＩＤ＝１〜ｎ）を均等に割り振る設定とする。
【００８６】
図７に示すフローのステップＳ１０１において、音声・画像統合処理部１３１が音声イベント検出部１２２および画像イベント検出部１１２からイベント情報、すなわち、図３（Ｂ）に示す２つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらのイベント情報を取得して、イベント情報の取得に成功すると、ステップＳ１０２において、音声・画像統合処理部１３１は、ｍ個のパーティクル（ＰＩＤ＝１〜ｍ）の各々に対して、イベント発生源の仮説ターゲット（ｔＩＤ＝１〜ｎ）を設定する。
【００８７】
ステップＳ１０２におけるパーティクル対応の仮説ターゲットの設定の詳細について説明する。音声・画像統合処理部１３１は、まず、ステップＳ１０１で入力したイベント情報と、音声・画像統合処理部１３１の保持するパーティクルのターゲットの持つデータとの比較を行い、比較結果を用いて、各ターゲットのターゲット重み［Ｗ_ｔＩＤ］を算出する。
【００８８】
ターゲット重み［Ｗ_ｔＩＤ］の算出処理の詳細について図８を参照して説明する。ターゲット重みの算出は、図８の右端に示すように、各パーティクルに設定されるターゲット１〜ｎの各々に対応するｎ個のターゲット重みの算出処理として実行される。このｎ個のターゲット重みの算出に際しては、まず、図８（１）に示す入力イベント情報、すなわち、音声・画像統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から入力したイベント情報と、各パーティクルの各ターゲットデータとの類似度の指標値としての尤度算出を行う。
【００８９】
図８（２）に示す尤度算出処理例は、（１）入力イベント情報と、パーティクル１の１つのターゲットデータ（ｔＩＤ＝ｎ）との比較によるイベント−ターゲット間尤度の算出例を説明する図である。なお、図８には、１つのターゲットデータとの比較例を示しているが、各パーティクルの各ターゲットデータについて、同様の尤度算出処理を実行する。
【００９０】
図８の下段に示す（２）尤度算出処理について説明する。図８（２）に示すように、尤度算出処理は、まず、
（ａ）ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度［ＤＬ］、
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］
これらを個別に算出する。
【００９１】
まず、（ａ）ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度［ＤＬ］の算出処理について説明する。
図８（１）に示す入力イベント情報中の、ユーザ位置情報に対応するガウス分布をＮ（ｍ_ｅ，σ_ｅ）とし、
音声・画像統合処理部１３１の保持する内部モデルのあるパーティクルが持つあるターゲットのユーザ位置情報に対応するガウス分布をＮ（ｍ_ｔ，σ_ｔ）とする。図８に示す例では、パーティクル１（ｐＩＤ＝１）のターゲットｎ（ｔＩＤ＝ｎ）のターゲットデータに含まれるガウス分布をＮ（ｍ_ｔ，σ_ｔ）とする。
【００９２】
これら２つのデータのガウス分布の類似度を判定する指標としてのガウス分布間尤度［ＤＬ］は、以下の式によって算出する。
ＤＬ＝Ｎ（ｍ_ｔ，σ_ｔ＋σ_ｅ）ｘ｜ｍ_ｅ
上記式は、中心ｍ_ｔで分散σ_ｔ＋σ_ｅのガウス分布においてｘ＝ｍ_ｅの位置の値を算出する式である。
【００９３】
次に、（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］の算出処理について説明する。
図８（１）に示す入力イベント情報中の、ユーザ確信度情報（ｕＩＤ）の各ユーザ１〜ｋの確信度の値（スコア）をＰ_ｅ［ｉ］とする。なお、ｉはユーザ識別子１〜ｋに対応する変数である。
音声・画像統合処理部１３１の保持する内部モデルのあるパーティクルが持つあるターゲットのユーザ確信度情報（ｕＩＤ）の各ユーザ１〜ｋの確信度の値（スコア）をＰ_ｔ［ｉ］とする。図８に示す例では、パーティクル１（ｐＩＤ＝１）のターゲットｎ（ｔＩＤ＝ｎ）のターゲットデータに含まれるユーザ確信度情報（ｕＩＤ）の各ユーザ１〜ｋの確信度の値（スコア）をＰ_ｔ［ｉ］とする。
【００９４】
これら２つのデータのユーザ確信度情報（ｕＩＤ）の類似度を判定する指標としてのユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］は、以下の式によって算出する。
ＵＬ＝ΣＰ_ｅ［ｉ］×Ｐ_ｔ［ｉ］
上記式は、２つのデータのユーザ確信度情報（ｕＩＤ）に含まれる各対応ユーザの確信度の値（スコア）の積の総和を求める式であり、この値をユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］とする。
【００９５】
もしくは、ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］として、各積の最大値、すなわち、
ＵＬ＝ａｒｇｍａｘ（Ｐ_ｅ［ｉ］×Ｐ_ｔ［ｉ］）
上記の値を算出し、この値をユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］として利用する構成としてもよい。
【００９６】
入力イベント情報とあるパーティクル（ｐＩＤ）が持つ１つのターゲット（ｔＩＤ）との類似度の指標としてのイベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］は、上記の２つの尤度、すなわち、
ガウス分布間尤度［ＤＬ］と、
ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］
これら２つの尤度を利用して算出する。すなわち重みα（α＝０〜１）を用いて、イベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］は下式によって算出する。
［Ｌ_{ｐＩＤ，ｔＩＤ}］＝ＵＬ^α×ＤＬ^１−α
としてイベントとターゲットとの類似度の指標であるイベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］を算出する。
ただし、α＝０〜１とする。
【００９７】
このイベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］は、各パーティクルの各ターゲットについて各々算出し、このイベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］に基づいて各ターゲットのターゲット重み［Ｗ_ｔＩＤ］を算出する。
【００９８】
なお、イベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］の算出に適用する重み［α］は、予め固定された値としてもよいし、入力イベントに応じて値を変更する設定としてもよい。例えば入力イベントが画像である場合において、顔検出に成功し位置情報は取得できたが顔識別に失敗した場合などは、α＝０の設定として、ユーザ確信度情報（ｕＩＤ）間尤度：ＵＬ＝１としてガウス分布間尤度［ＤＬ］のみに依存してイベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］を算出して、ガウス分布間尤度［ＤＬ］のみに依存したターゲット重み［Ｗ_ｔＩＤ］を算出する構成としてもよい。
【００９９】
また、入力イベントが音声である場合において、話者識別に成功し話者情報破取得できたが、位置情報の取得に失敗した場合などは、α＝０の設定として、ガウス分布間尤度［ＤＬ］＝１として、ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］のみに依存してイベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］を算出して、ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］のみに依存したターゲット重み［Ｗ_ｔＩＤ］を算出する構成としてもよい。
【０１００】
イベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］に基づく、ターゲット重み［Ｗ_ｔＩＤ］の算出式は、以下の通りである。
【数１】

【０１０１】
とする。なお、上記式において、［Ｗ_ｐＩＤ］は、各パーティクル各々に設定されるパーティクル重みである。パーティクル重み［Ｗ_ｐＩＤ］の算出処理については後段で説明する。パーティクル重み［Ｗ_ｐＩＤ］は初期状態では、すべてのパーティクル（ｐＩＤ＝１〜ｍ）において均一な値が設定される。
【０１０２】
図７に示すフローにおけるステップＳ１０１の処理、すなわち、各パーティクル対応のイベント発生源仮説の生成は、上記のイベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］に基づいて算出したターゲット重み［Ｗ_ｔＩＤ］に基づいて実行する。ターゲット重み［Ｗ_ｔＩＤ］は、パーティクルに設定されるターゲット１〜ｎ（ｔＩＤ＝１〜ｎ）に対応したｎ個のデータが算出される。
【０１０３】
ｍ個のパーティクル（ｐＩＤ＝１〜ｍ）各々に対するイベント発生源仮説ターゲットは、ターゲット重み［Ｗ_ｔＩＤ］の比率に応じて割り振る設定とする。
例えばｎ＝４で、ターゲット１〜４（ｔＩＤ＝１〜４）に対応して算出されたターゲット重み［Ｗ_ｔＩＤ］が、
ターゲット１：ターゲット重み＝３
ターゲット２：ターゲット重み＝２
ターゲット３：ターゲット重み＝１
ターゲット４：ターゲット重み＝５
である場合、ｍ個のパーティクルのイベント発生源仮説ターゲットを
ｍ個のパーティクル中の３０％をイベント発生源仮説ターゲット１、
ｍ個のパーティクル中の２０％をイベント発生源仮説ターゲット２、
ｍ個のパーティクル中の１０％をイベント発生源仮説ターゲット３、
ｍ個のパーティクル中の５０％をイベント発生源仮説ターゲット４、
このような設定とする。
すなわちパーティクルに設定するイベント発生源仮説ターゲットをターゲットの重みに応じた配分比率とする。
【０１０４】
この仮説設定の後、図７に示すフローのステップＳ１０３に進む。ステップＳ１０３では、各パーティクル対応の重み、すなわちパーティクル重み［Ｗ_ｐＩＤ］の算出を行う。このパーティクル重み［Ｗ_ｐＩＤ］は前述したように、初期的には各パーティクルに均一な値が設定されるが、イベント入力に応じて更新される。
【０１０５】
図９、図１０を参照して、パーティクル重み［Ｗ_ｐＩＤ］の算出処理の詳細について説明する。パーティクル重み［Ｗ_ｐＩＤ］は、イベント発生源の仮説ターゲットを生成した各パーティクルの仮説の正しさの指標に相当する。パーティクル重み［Ｗ_ｐＩＤ］は、ｍ個のパーティクル（ｐＩＤ＝１〜ｍ）の各々において設定されたイベント発生源の仮説ターゲットと、入力イベントとの類似度であるイベント−ターゲット間尤度として算出される。
【０１０６】
図９には、音声・画像統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から入力するイベント情報４０１と、音声・画像統合処理部１３１が、が保持するパーティクル４１１〜４１３を示している。各パーティクル４１１｜４１３には、前述した処理、すなわち、図７に示すフローのステップＳ１０２におけるイベント発生源の仮説設定において設定された仮説ターゲットが１つずつ設定されている。図９中に示す例では、
パーティクル１（ｐＩＤ＝１）４１１におけるターゲット２（ｔＩＤ＝２）４２１、
パーティクル２（ｐＩＤ＝２）４１２におけるターゲットｎ（ｔＩＤ＝ｎ）４２２、
パーティクルｍ（ｐＩＤ＝ｍ）４１３におけるターゲットｎ（ｔＩＤ＝ｎ）４２３、
これらの仮説ターゲットである。
【０１０７】
図９の例において、各パーティクルのパーティクル重み［Ｗ_ｐＩＤ］は、
パーティクル１：イベント情報４０１とターゲット２（ｔＩＤ＝２）４２１とのイベント−ターゲット間尤度、
パーティクル２：イベント情報４０１とターゲットｎ（ｔＩＤ＝ｎ）４２２とのイベント−ターゲット間尤度、
パーティクルｍ：イベント情報４０１とターゲットｎ（ｔＩＤ＝ｎ）４２３とのイベント−ターゲット間尤度、
これらのイベント−ターゲット間尤度に対応することになる。
【０１０８】
図１０は、パーティクル１（ｐＩＤ＝１）のパーティクル重み［Ｗ_ｐＩＤ］算出処理例を示している。図１０（２）に示すパーティクル重み［Ｗ_ｐＩＤ］算出処理は、先に、図８（２）を参照して説明したと同様の尤度算出処理であり、本例では、（１）入力イベント情報と、パーティクルから選択された唯一の仮説ターゲットとの類似度指標としてのイベント−ターゲット間尤度の算出として実行される。
【０１０９】
図１０の下段に示す（２）尤度算出処理も、先に図８（２）を参照して説明したと同様、
（ａ）ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度［ＤＬ］、
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］
これらを個別に算出する。
【０１１０】
（ａ）ユーザ位置情報についてのイベントと、仮説ターゲットとの類似度データとしてのガウス分布間尤度［ＤＬ］の算出処理は以下の処理となる。
入力イベント情報中の、ユーザ位置情報に対応するガウス分布をＮ（ｍ_ｅ，σ_ｅ）、
パーティクルから選択された仮説ターゲットのユーザ位置情報に対応するガウス分布をＮ（ｍ_ｔ，σ_ｔ）、
として、ガウス分布間尤度［ＤＬ］を、以下の式によって算出する。
ＤＬ＝Ｎ（ｍ_ｔ，σ_ｔ＋σ_ｅ）ｘ｜ｍ_ｅ
上記式は、中心ｍ_ｔで分散σ_ｔ＋σ_ｅのガウス分布においてｘ＝ｍ_ｅの位置の値を算出する式である。
【０１１１】
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）についてのイベントと、仮説ターゲットとの類似度データとしてのユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］の算出処理は以下の処理となる。
入力イベント情報中の、ユーザ確信度情報（ｕＩＤ）の各ユーザ１〜ｋの確信度の値（スコア）をＰｅ［ｉ］とする。なお、ｉはユーザ識別子１〜ｋに対応する変数である。
パーティクルから選択された仮説ターゲットのユーザ確信度情報（ｕＩＤ）の各ユーザ１〜ｋの確信度の値（スコア）をＰｔ［ｉ］として、ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］は、以下の式によって算出する。
ＵＬ＝ΣＰ_ｅ［ｉ］×Ｐ_ｔ［ｉ］
上記式は、２つのデータのユーザ確信度情報（ｕＩＤ）に含まれる各対応ユーザの確信度の値（スコア）の積の総和を求める式であり、この値をユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］とする。
【０１１２】
パーティクル重み［Ｗ_ｐＩＤ］は、上記の２つの尤度、すなわち、
ガウス分布間尤度［ＤＬ］と、
ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］
これら２つの尤度を利用し、重みα（α＝０〜１）を用いて下式によって算出する。
パーティクル重み［Ｗ_ｐＩＤ］＝ＵＬ^α×ＤＬ^１−α
上記式により、パーティクル重み［Ｗ_ｐＩＤ］を算出する。
ただし、α＝０〜１とする。
このパーティクル重み［Ｗ_ｐＩＤ］は、各パーティクルについて各々算出する。
【０１１３】
なお、パーティクル重み［Ｗ_ｐＩＤ］の算出に適用する重み［α］は、前述したイベント−ターゲット間尤度［Ｌ_{ｐＩＤ，ｔＩＤ}］の算出処理と同様、予め固定された値としてもよいし、入力イベントに応じて値を変更する設定としてもよい。例えば入力イベントが画像である場合において、顔検出に成功し位置情報は取得できたが顔識別に失敗した場合などは、α＝０の設定として、ユーザ確信度情報（ｕＩＤ）間尤度：ＵＬ＝１としてガウス分布間尤度［ＤＬ］のみに依存してパーティクル重み［Ｗ_ｐＩＤ］を算出する構成としてもよい。また、入力イベントが音声である場合において、話者識別に成功し話者情報破取得できたが、位置情報の取得に失敗した場合などは、α＝０の設定として、ガウス分布間尤度［ＤＬ］＝１として、ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］のみに依存してパーティクル重み［Ｗ_ｐＩＤ］を算出する構成としてもよい。
【０１１４】
図７のフローにおけるステップＳ１０３の各パーティクル対応の重み［Ｗ_ｐＩＤ］の算出は、このように図９、図１０を参照して説明した処理として実行される。次に、ステップＳ１０４において、ステップＳ１０３で設定した各パーティクルのパーティクル重み［Ｗ_ｐＩＤ］に基づくパーティクルのリサンプリング処理を実行する。
【０１１５】
このパーティクルリサンプリング処理は、ｍ個のパーティクルから、パーティクル重み［Ｗ_ｐＩＤ］に応じてパーティクルを取捨選択する処理として実行される。具体的には、例えば、パーティクル数：ｍ＝５のとき、
パーティクル１：パーティクル重み［Ｗ_ｐＩＤ］＝０．４０
パーティクル２：パーティクル重み［Ｗ_ｐＩＤ］＝０．１０
パーティクル３：パーティクル重み［Ｗ_ｐＩＤ］＝０．２５
パーティクル４：パーティクル重み［Ｗ_ｐＩＤ］＝０．０５
パーティクル５：パーティクル重み［Ｗ_ｐＩＤ］＝０．２０
これらのパーティクル重みが各々設定されていた場合、
パーティクル１は、４０％の確率でリサンプリングされ、パーティクル２は１０％の確率でリサンプリングされる。なお、実際にはｍ＝１００〜１０００といった多数であり、リサンプリングされた結果は、パーティクルの重みに応じた配分比率のパーティクルによって構成されることになる。
【０１１６】
この処理によって、パーティクル重み［Ｗ_ｐＩＤ］の大きなパーティクルがより多く残存することになる。なお、リサンプリング後もパーティクルの総数［ｍ］は変更されない。また、リサンプリング後は、各パーティクルの重み［Ｗ_ｐＩＤ］はリセットされ、新たなイベントの入力に応じてステップＳ１０１から処理が繰り返される。
【０１１７】
ステップＳ１０５では、各パーティクルに含まれるターゲットデータ（ユーザ位置およびユーザ確信度）の更新処理を実行する。各ターゲットは、先に図６等を参照して説明したように、
（ａ）ユーザ位置：各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）］、
（ｂ）ユーザ確信度：各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）として各ユーザ１〜ｋである確率値（スコア）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）、すなわち、
ｕＩＤ_ｔ１＝Ｐｔ［１］
ｕＩＤ_ｔ２＝Ｐｔ［２］
：
ｕＩＤ_ｔｋ＝Ｐｔ［ｋ］
これらのデータによって構成される。
【０１１８】
ステップＳ１０５におけるターゲットデータの更新は、（ａ）ユーザ位置、（ｂ）ユーザ確信度の各々について実行する。まず、（ａ）ユーザ位置の更新処理について説明する。
【０１１９】
ユーザ位置の更新は、
（ａ１）全パーティクルの全ターゲットを対象とする更新処理、
（ａ２）各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理、
これらの２段階の更新処理として実行する。
【０１２０】
（ａ１）全パーティクルの全ターゲットを対象とする更新処理は、イベント発生源仮説ターゲットとして選択されたターゲットおよびその他のターゲットのすべてを対象として実行する。この処理は、時間経過に伴うユーザ位置の分散が拡大するという仮定に基づいて実行され、前回の更新処理からの経過時間とイベントの位置情報によってカルマン・フィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）を用い更新される。
【０１２１】
以下、位置情報が１次元の場合の更新処理例について説明する。まず、前回の更新処理時間からの経過時間［ｄｔ］とし、全ターゲットについての、ｄｔ後のユーザ位置の予測分布を計算する。すなわち、ユーザ位置の分布情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）の期待値（平均）：［ｍ_ｔ］、分散［σ_ｔ］について、以下の更新を行う。
ｍ_ｔ＝ｍ_ｔ＋ｘｃ×ｄｔ
σ_ｔ^２＝σ_ｔ^２＋σｃ^２×ｄｔ
なお、
ｍ_ｔ：予測期待値（ｐｒｅｄｉｃｔｅｄｓｔａｔｅ）
σ_ｔ^２：予測共分散（ｐｒｅｄｉｃｔｅｄｅｓｔｉｍａｔｅｃｏｖａｒｉａｎｃｅ）
ｘｃ：移動情報（ｃｏｎｔｒｏｌｍｏｄｅｌ）
σｃ^２：ノイズ（ｐｒｏｃｅｓｓｎｏｉｓｅ）
である。
なお、ユーザが移動しない条件の下で処理する場合は、ｘｃ＝０として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）を更新する。
【０１２２】
さらに、各パーティクルに１つ設定されているイベント発生源の仮説となったターゲットに関しては、音声イベント検出部１２２や画像イベント検出部１１２から入力するイベント情報に含まれるユーザ位置を示すガウス分布：Ｎ（ｍ_ｅ，σ_ｅ）を用いた更新処理を実行する。
Ｋ：カルマンゲイン（ＫａｌｍａｎＧａｉｎ）
ｍ_ｅ：入力イベント情報：Ｎ（ｍ_ｅ，σ_ｅ）に含まれる観測値（Ｏｂｓｅｒｖｅｄｓｔａｔｅ）
σ_ｅ^２：入力イベント情報：Ｎ（ｍ_ｅ，σ_ｅ）に含まれる観測値（Ｏｂｓｅｒｖｅｄｃｏｖａｒｉａｎｃｅ）
として、以下の更新処理を行う。
Ｋ＝σ_ｔ^２／（σ_ｔ^２＋σ_ｅ^２）
ｍ_ｔ＝ｍ_ｔ＋Ｋ（ｘｃ−ｍ_ｔ）
σ_ｔ^２＝（１−Ｋ）σ_ｔ^２
【０１２３】
次に、ターゲットデータの更新処理として実行する（ｂ）ユーザ確信度の更新処理について説明する。ターゲットデータには上記のユーザ位置情報の他に、各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）として各ユーザ１〜ｋである確立値（スコア）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）が含まれている。ステップＳ１０５では、このユーザ確信度情報（ｕＩＤ）についても更新処理を行う。
【０１２４】
各パーティクルに含まれるターゲットのユーザ確信度情報（ｕＩＤ）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）についての更新は、登録ユーザ全員分の事後確率と、音声イベント検出部１２２や画像イベント検出部１１２から入力するイベント情報に含まれるユーザ確信度情報（ｕＩＤ）：Ｐｅ［ｉ］（ｉ＝１〜ｋ）によって、予め設定した０〜１の範囲の値を持つ更新率［β］を適用して更新する。
【０１２５】
ターゲットのユーザ確信度情報（ｕＩＤ）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）についての更新は、以下の式によって実行する。
Ｐｔ［ｉ］＝（１−β）×Ｐｔ［ｉ］＋β＊Ｐｅ［ｉ］
ただし、
ｉ＝１〜ｋ
β：０〜１
である。なお、更新率［β］は、０〜１の範囲の値であり予め設定する。
【０１２６】
ステップＳ１０５では、この更新されたターゲットデータに含まれる以下のデータ、すなわち、
（ａ）ユーザ位置：各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）］、
（ｂ）ユーザ確信度：各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）として各ユーザ１〜ｋである確立値（スコア）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）、すなわち、
ｕＩＤ_ｔ１＝Ｐｔ［１］
ｕＩＤ_ｔ２＝Ｐｔ［２］
：
ｕＩＤ_ｔｋ＝Ｐｔ［ｋ］
これらのデータと、各パーティクル重み［Ｗ_ｐＩＤ］とに基づいて、ターゲット情報を生成して、処理決定部１３２に出力する。
【０１２７】
なお、ターゲット情報の生成は、図５を参照して説明したように、各パーティクル（ＰＩＤ＝１〜ｍ）に含まれる各ターゲット（ｔＩＤ＝１〜ｎ）対応データの重み付き総和データとして生成される。図５の右端のターゲット情報３０５に示すデータである。ターゲット情報は、各ターゲット（ｔＩＤ＝１〜ｎ）各々の
（ａ）ユーザ位置情報、
（ｂ）ユーザ確信度情報、
これらの情報を含む情報として生成される。
【０１２８】
例えば、ターゲット（ｔＩＤ＝１）に対応するターゲット情報中の、ユーザ位置情報は、
【数２】

【０１２９】
上記式で表される。上記式において、Ｗ_ｉは、パーティクル重み［Ｗ_ｐＩＤ］を示している。
【０１３０】
また、ターゲット（ｔＩＤ＝１）に対応するターゲット情報中の、ユーザ確信度情報は、
【数３】

【０１３１】
上記式で表される。上記式において、Ｗ_ｉは、パーティクル重み［Ｗ_ｐＩＤ］を示している。
音声・画像統合処理部１３１は、これらのターゲット情報をｎ個の各ターゲット（ｔＩＤ＝１〜ｎ）各々について算出し、算出したターゲット情報を処理決定部１３２に出力する。
【０１３２】
次に、図７に示すフローのステップＳ１０６の処理について説明する。音声・画像統合処理部１３１は、ステップＳ１０６において、ｎ個のターゲット（ｔＩＤ＝１〜ｎ）の各々がイベントの発生源である確率を算出し、これをシグナル情報として処理決定部１３２に出力する。
【０１３３】
先に説明したように、イベント発生源を示す［シグナル情報］は、音声イベントについては、誰が話をしたか、すなわち［話者］を示すデータであり、画像イベントについては、画像に含まれる顔が誰であるかを示すデータである。
【０１３４】
音声・画像統合処理部１３１は、各パーティクルに設定されたイベント発生源の仮説ターゲットの数に基づいて、各ターゲットがイベント発生源である確率を算出する。すなわち、ターゲット（ｔＩＤ＝１〜ｎ）の各々がイベント発生源である確率を［Ｐ（ｔＩＤ＝ｉ）とする。ただしｉ＝１〜ｎである。このとき、各ターゲットがイベント発生源である確率は、以下のように算出される。
Ｐ（ｔＩＤ＝１）：ｔＩＤ＝１を割り当てた数／ｍ
Ｐ（ｔＩＤ＝２）：ｔＩＤ＝２を割り当てた数／ｍ
：
Ｐ（ｔＩＤ＝ｎ）：ｔＩＤ＝ｎを割り当てた数／ｍ
音声・画像統合処理部１３１は、この算出処理によって、生成した情報、すなわち、各ターゲットがイベント発生源である確率を［シグナル情報］として、処理決定部１３２に出力する。
【０１３５】
ステップＳ１０６の処理が終了したら、ステップＳ１０１に戻り、音声イベント検出部１２２および画像イベント検出部１１２からのイベント情報の入力の待機状態に移行する。
【０１３６】
以上が、図７に示すフローのステップＳ１０１〜Ｓ１０６の説明である。ステップＳ１０１において、音声・画像統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報を取得できなかった場合も、ステップＳ１２１において、各パーティクルに含まれるターゲットの構成データの更新が実行される。この更新は、時間経過に伴うユーザ位置の変化を考慮した処理である。
【０１３７】
このターゲット更新処理は、先に、ステップＳ１０５の説明において（ａ１）全パーティクルの全ターゲットを対象とする更新処理と同様の処理であり、時間経過に伴うユーザ位置の分散が拡大するという仮定に基づいて実行され、前回の更新処理からの経過時間とイベントの位置情報によってカルマン・フィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）を用い更新される。
【０１３８】
位置情報が１次元の場合の更新処理例について説明する。まず、前回の更新処理からの経過時間［ｄｔ］とし、全ターゲットについての、ｄｔ後のユーザ位置の予測分布を計算する。すなわち、ユーザ位置の分布情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）の期待値（平均）：［ｍ_ｔ］、分散［σ_ｔ］について、以下の更新を行う。
ｍ_ｔ＝ｍ_ｔ＋ｘｃ×ｄｔ
σ_ｔ^２＝σ_ｔ^２＋σｃ^２×ｄｔ
なお、
ｍ_ｔ：予測期待値（ｐｒｅｄｉｃｔｅｄｓｔａｔｅ）
σ_ｔ^２：予測共分散（ｐｒｅｄｉｃｔｅｄｅｓｔｉｍａｔｅｃｏｖａｒｉａｎｃｅ）
ｘｃ：移動情報（ｃｏｎｔｒｏｌｍｏｄｅｌ）
σｃ^２：ノイズ（ｐｒｏｃｅｓｓｎｏｉｓｅ）
である。
なお、ユーザが移動しない条件の下で処理する場合は、ｘｃ＝０として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）を更新する。
【０１３９】
なお、各パーティクルのターゲットに含まれるユーザ確信度情報（ｕＩＤ）については、イベントの登録ユーザ全員分の事後確率、もしくはイベント情報からスコア［Ｐｅ］が取得できない限りは更新しない。
【０１４０】
ステップＳ１２１の処理が終了したら、ステップＳ１０１に戻り、音声イベント検出部１２２および画像イベント検出部１１２からのイベント情報の入力の待機状態に移行する。
【０１４１】
以上、図７を参照して音声・画像統合処理部１３１の実行する処理について説明した。音声・画像統合処理部１３１は、図７に示すフローに従った処理を音声イベント検出部１２２および画像イベント検出部１１２からのイベント情報の入力ごとに繰り返し実行する。この繰り返し処理により、より信頼度の高いターゲットを仮説ターゲットとして設定したパーティクルの重みが大きくなり、パーティクル重みに基づくリサンプリング処理により、より重みの大きいパーティクルが残存することになる。結果として音声イベント検出部１２２および画像イベント検出部１１２から入力するイベント情報に類似する信頼度の高いデータが残存することになり、最終的に信頼度の高い以下の各情報、すなわち、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらが生成されて処理決定部１３２に出力される。
【０１４２】
［（２）ターゲットの存在確率の推定情報を利用したユーザ位置およびユーザ識別処理］
［（２−１）ターゲットの存在確率の推定情報を利用したユーザ位置およびユーザ識別処理の概要］
上述した説明［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］は、本出願人と同一出願人の先の出願である特願２００７−１９３９３０において開示した構成にほぼ対応する。
【０１４３】
上述した処理は、複数のチャネル（モダリティ、モーダルとも呼ばれる）からの入力情報、具体的には、カメラによって取得された画像情報、マイクによって取得された音声情報の解析処理により、ユーザが誰であるかのユーザ識別処理、ユーザの位置推定処理、イベントの発生源の特定処理などを行う処理である。
【０１４４】
しかし、上述の処理においては、各パーティクルに新たなターゲットを生成する場合、例えば人物ではないオブジェクトを人として誤って検出してしまい、誤検出に基づいて不要なターゲットを生成してしまう場合がある。
【０１４５】
すなわち、上述した処理例においてカメラなどの画像入力部が撮影した画像の解析、例えば既存の顔検出処理を行い、顔領域と判断される新たな画像領域が検出された場合に新たなターゲットの生成が行われる。しかし、例えばカーテンの揺らぎや様々なオブジェクトの影などが人物の顔と判断されてしまう場合がある。このように人物の顔でないものを人物の顔と判断してしまうと新たなターゲットの生成が行われ、各パーティクルに新規ターゲットが設定される。
【０１４６】
このような誤検出によって生成された新規ターゲットに対しても新たな入力イベント情報に基づく更新処理が実行されることになる。このような処理は、結果としては無駄な処理であり、ターゲットとユーザの対応関係の特定処理の遅延や、精度低下をもたらすことになり好ましくない。
【０１４７】
このような誤検出によって生成されたターゲットは、入力イベント情報に基づくターゲットやパーティクル更新処理の過程で存在しないユーザに対応するターゲットであることが次第に明らかになり、既定の削除条件を満たすことによって削除される。
【０１４８】
しかし、上述した処理例のターゲットの削除条件は、例えばターゲットの位置分布が一様に近くなることである。この削除条件が誤検出のターゲットの削除を遅らせる要因となる場合がある。一様に近い位置分布を持つターゲットは、新たに入力するイベント情報によって更新されやすいという性質を持つからである。一様に近い位置分布を持つターゲットは、新たに入力するイベント情報の持つ特徴に対して必ずしも大きくはずれることがない特徴を有し、入力イベント情報に対する類似性を有するため、更新されやすいからである。
【０１４９】
このようなターゲット更新処理が行われると、誤検出ターゲットの持つデータ、例えば位置の分布データが一様でなくなってしまい、削除条件から遠いターゲットデータを有することになる。従って、予め既定した削除条件に至るまでの時間が長期化してしまう。その結果、誤検出に基づいて生成されたターゲットは浮遊霊のように存在し続け、解析処理の遅延や解析精度の低下を増大させるという問題を発生させることになる。
【０１５０】
以下に説明する本発明の実施例は、このような誤検出に基づくターゲットの存在による問題点を排除することを可能とした実施例である。以下に説明する本発明の構成では、パーティクルに設定するターゲットのすべてに、ターゲットの存在確率を推定するための情報を設定する。
【０１５１】
このターゲット存在確率の推定情報は、ターゲット存在の仮説ｃ：｛０，１｝として、パーティクルを構成するターゲットに設定する。
ｃ＝１は、ターゲットが存在する、
ｃ＝０は、ターゲットが不在（存在しない）、
これらの状態を示す仮説情報である。
【０１５２】
なお、各パーティクルが持つターゲットの個数は全パーティクルにおいて同数であり、同じ対象を表すターゲットＩＤ（ｔＩＤ）を持つ。この基本構成は、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］の構成と同じである。
【０１５３】
ただし、以下に説明する構成では、各パーティクル内の１つのターゲットをターゲット生成候補（ｔＩＤ＝ｃｎｄ）として設定する。イベント情報の有無とは関係なく、すべてのパーティクルに１つのターゲット生成候補（ｔＩＤ＝ｃｎｄ）を常時保持する。すなわち観測されるユーザがいない場合であってもすべてのパーティクルに１つのターゲット生成候補（ｔＩＤ＝ｃｎｄ）を保有する。
【０１５４】
本発明の情報処理装置の構成は、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］の構成と同じ図１、図２の構成を有する。音声・画像統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらの入力情報に基づいて、複数のユーザの位置と複数のユーザがそれぞれ誰であるかを判別する処理を行う。
【０１５５】
音声・画像統合処理部１３１は、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定して、音声イベント検出部１２２および画像イベント検出部１１２からの入力情報に基づいて、パーティクル更新を行う。
【０１５６】
図１１、図１２を参照して本実施例において設定されるパーティクル、およびパーティクルに含まれるターゲットが有するターゲットデータの構成と、ターゲット情報について説明する。図１１、図１２は、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］において説明した図５、図６に対応する図である。
【０１５７】
音声・画像統合処理部１３１は、予め設定した複数のパーティクルを有する。図１１に示すｍ個のパーティクル１〜ｍである。各パーティクルには識別子としてのパーティクルＩＤ（ＰＩＤ＝１〜ｍ）が設定される。
【０１５８】
各パーティクルには、位置および識別を行うオブジェクトに対応する仮想的なオブジェクトに対応する複数のターゲットを設定する。
本例では、各パーティクル内の１つのターゲットをターゲット生成候補（ｔＩＤ＝ｃｎｄ）として設定する。イベント情報の有無とは関係なく、すべてのパーティクルに１つのターゲット生成候補（ｔＩＤ＝ｃｎｄ）を常時、保持する。すなわち観測されるユーザがいない場合であってもすべてのパーティクルに１つのターゲット生成候補（ｔＩＤ＝ｃｎｄ）を保有する。
【０１５９】
図１１に示す例では、パーティクル（ＰＩＤ＝１〜ｍ）の各パーティクル内に示される最上段のターゲットがターゲット生成候補（ｔＩＤ＝ｃｎｄ）である。ターゲット生成候補（ｔＩＤ＝ｃｎｄ）も、他のターゲット（ｔＩＤ＝１〜ｎ）と同様のターゲットデータを保持している。このように本実施例では、図１１に示すように、１つのパーティクルにたは、ーゲット生成候補（ｔＩＤ＝ｃｎｄ）を含むｎ＋１個のターゲット（ｔＩＤ＝ｃｎｄ，１〜ｎ）が含まれる。各パーティクルに含まれるターゲット各々が有するターゲットデータの構成を図１２に示す。
【０１６０】
図１２は、図１１に示すパーティクル１（ｐＩＤ＝１）に含まれる１つのターゲット（ターゲットＩＤ：ｔＩＤ＝ｎ）５０１のターゲットデータの構成を示す図である。ターゲット５０１のターゲットデータは、図１２に示すように、以下のデータを有している。
（１）ターゲットの存在確率を推定するための、ターゲット存在仮説情報［ｃ｛０，１｝］
（２）ターゲットの存在位置の確率分布［ガウス分布：Ｎ（ｍ_１ｎ，σ_１ｎ）］、
（３）ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）
これらのデータによって構成される。
【０１６１】
（２），（３）のデータは、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］において図６を参照して説明したと同様のデータである。本処理例では、これらのデータに加えて、さらに以下のデータを持つ。
（１）ターゲットの存在確率を推定するための、ターゲット存在仮説情報［ｃ｛０，１｝］
本処理例では、このターゲット存在仮説情報が各ターゲットに設定される。
【０１６２】
音声・画像統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらのイベント情報を入力してｍ個のパーティクル（ＰＩＤ＝１〜ｍ）の更新処理を行う。この更新処理において、ターゲットデータ、すなわち、
（１）ターゲットの存在確率を推定するための、ターゲット存在仮説情報［ｃ｛０，１｝］
（２）ターゲットの存在位置の確率分布［ガウス分布：Ｎ（ｍ_１ｎ，σ_１ｎ）］、
（３）ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）
これらのデータ更新が行われる。
【０１６３】
音声・画像統合処理部１３１は、これらの更新処理を実行して、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらを生成して処理決定部１３２に出力する。
【０１６４】
［ターゲット情報］は、図１１の右端のターゲット情報に示すように、各パーティクル（ＰＩＤ＝１〜ｍ）に含まれる各ターゲット（ｔＩＤ＝ｃｎｄ，１〜ｎ）対応のターゲットデータの重み付き総和データとして生成される情報である。
本処理例における［ターゲット情報］には、
（１）ターゲットの存在確率、
（２）ターゲットの存在位置、
（３）ターゲットが誰であるか（ｕＩＤ１〜ｕＩＤｋのいずれであるか）
これらの情報が含まれる。（２），（３）の情報は、前述の［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］において説明した情報と同様の情報であり、図５に示すターゲット情報３０５に含まれる情報と同じ情報である。
【０１６５】
（１）ターゲットの存在確率は、本処理例において新たに追加されたターゲット情報である。
ターゲットの存在確率［ＰｔＩＤ（ｃ＝１）］は、以下の式によって算出される。
ＰｔＩＤ（ｃ＝１）＝｛ｔＩＤでｃ＝１を割り当てた数｝／｛パーティクル数｝
同様に、ターゲットが存在しない確率ＰｔＩＤ（ｃ＝０）は、以下の式によって算出される。
ＰｔＩＤ（ｃ＝０）＝｛ｔＩＤでｃ＝０を割り当てた数｝／｛パーティクル数｝
【０１６６】
なお、上記の計算式において、｛ｔＩＤでｃ＝１を割り当てた数｝は、各パーティクルに設定された同一ターゲット識別子（ｔＩＤ）のターゲットにおいてｃ＝１を割り当てたターゲット数である。｛ｔＩＤでｃ＝０を割り当てた数｝は、同一ターゲット識別子（ｔＩＤ）のターゲットにおいてｃ＝０を割り当てたターゲット数である。
【０１６７】
音声・画像統合処理部１３１は、例えば図１１の右下に示すような存在確率データ５０２、すなわち各ターゲットＩＤ（ｔＩＤ＝ｃｎｄ，１〜ｎ）各々についての存在確率Ｐを含むターゲット情報を生成して、処理決定部１３２に出力する。
【０１６８】
すなわち、音声・画像統合処理部１３１は、
（１）ターゲットの存在確率、
（２）ターゲットの存在位置、
（３）ターゲットが誰であるか（ｕＩＤ１〜ｕＩＤｋのいずれであるか）
これらの情報をターゲット情報として処理決定部１３２に出力する。
【０１６９】
図１３は、音声・画像統合処理部１３１の実行する処理シーケンスを説明するフローチャートを示している。
本実施例では、図１３に示す３つのフロー処理、すなわち、
（ａ）イベントによるターゲット存在の仮説更新プロセス
（ｂ）ターゲット生成プロセス
（ｃ）ターゲット削除プロセス
音声・画像統合処理部１３１は、これら３つのプロセスを独立の処理として実行する。
【０１７０】
具体的には、音声・画像統合処理部１３１は、
（ａ）イベントによるターゲット存在の仮説更新プロセスは、イベント発生を契機として実行されるイベントドリブン処理として実行する。
（ｂ）ターゲット生成プロセスは、予め設定した一定期間毎のピリオディック処理、もしくは、（ａ）イベントによるターゲット存在の仮説更新プロセスの処理の直後に実行する。
（ｃ）ターゲット削除プロセスは、予め設定した一定期間毎のピリオディック処理として実行する。
以下、図１３に示す（ａ）〜（ｃ）の各フローチャートについて説明する。
【０１７１】
［（２−２）イベントによるターゲット存在の仮説更新プロセス］
まず、図１３（ａ）に示すイベントによるターゲット存在の仮説更新プロセスについて説明する。この処理は、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］において説明した図７のフローのステップＳ１０１〜Ｓ１０６の処理に対応する処理である。
【０１７２】
なお、この図１３（ａ）に示すイベントによるターゲット存在の仮説更新処理の実行開始前に、音声・画像統合処理部１３１は、図１１に示すような複数（ｍ個）のパーティクルを設定しているものとする。各パーティクルには識別子としてのパーティクルＩＤ（ＰＩＤ＝１〜ｍ）が設定される。また、各パーティクルには、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）を含むｎ＋１個のターゲットが含まれる。
【０１７３】
ステップＳ２１１において、音声・画像統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、例えば図３（Ｂ）に示すイベント情報、すなわち、ユーザ位置情報と、ユーザ識別情報（顔識別情報または話者識別情報）、これらのイベント情報を入力する。
【０１７４】
イベント情報の入力を契機としてステップＳ２１２において、ターゲット存在の仮説を生成する。
各パーティクルにおける各ターゲット存在の仮説ｃ：｛０，１｝は、例えば、以下の（ａ），（ｂ）いずれかの手法を適用して生成する。
（ａ）直前の状態に依存せずランダムに各ターゲット存在の仮説ｃ：｛０，１｝を生成、
（ｂ）直前の状態に依存し、ある確率で遷移（ｃ＝０→１，ｃ＝１→０）させることにより各ターゲット存在の仮説ｃ：｛０，１｝を生成、
【０１７５】
（ａ）の手法は、各パーティクルに含まれるターゲットについて、ターゲット存在の仮説ｃ：｛０，１｝を０（不在）または１（存在）のいずれかに全くランダムに設定する方法である。
（ｂ）の手法は、直前の状態に応じて、予め設定した遷移確率（ｃ＝０→１の確率、ｃ＝１→０の確率）を適用して、各ターゲットの存在の仮説ｃ：｛０，１｝を変更する手法である。この処理には、例えば、ターゲットの他のデータ、
ターゲットの存在位置の確率分布［ガウス分布：Ｎ（ｍ_１ｎ，σ_１ｎ）］、
ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）
これらのデータを参考にすることも可能である。これらのデータがターゲットの存在を肯定するデータである場合には、ターゲット存在を示す［ｃ＝１］の設定を行い、これらのデータがターゲットの存在を否定するデータである場合には不在を示す［ｃ＝０］に設定する等の処理を行うことができる。
【０１７６】
次に、ステップＳ２１３において、イベント発生源ターゲットの仮説設定処理を行なう。この処理は、先に説明した図７のフローにおけるステップＳ１０２の処理に対応する。
【０１７７】
音声・画像統合処理部１３１は、ステップＳ２１３において、図１１に示すｍ個のパーティクル（ｐＩＤ＝１〜ｍ）の各々にイベントの発生源の仮説を設定する。イベント発生源とは、例えば、音声イベントであれば、話をしたユーザがイベント発生源であり、画像イベントであれば、抽出した顔を持つユーザがイベント発生源である。
【０１７８】
本実施例では、取得したイベントがどのターゲットから発生したかの仮説を各パーティクルにイベント数分ランダムに設定するが、この仮説設定は以下に示す制約の下に行う。
（制約１）ターゲット存在の仮説がｃ＝０（不在）のターゲットはイベント発生源としない、
（制約２）異なるイベントに対して、同一のターゲットをイベント発生源としない、
（制約３）同一時刻において「イベント数＞ターゲット数」の場合は、ターゲット数より多いイベントはノイズと判定する、
【０１７９】
上記の制約の下、例えば、図１４に示すように、１つのイベント（ｅＩＤ＝１）に対して、
パーティクル（ｐＩＤ＝１）は、ｔＩＤ＝１、
パーティクル２（ｐＩＤ＝２）は、ｔＩＤ＝ｃｎｄ、
：
パーティクルｍ（ｐＩＤ＝ｍ）は、ｔＩＤ＝１、
このように各パーティクルについて、イベント発生源がターゲット（ｔＩＤ＝ｃｎｄ，１〜ｎ）のいずれであるかの仮説を設定する。
【０１８０】
なお、イベント検出を行う装置、例えば顔認識に基づくイベント検出を行う装置の信頼度が低い場合などには、誤検出に基づくイベント情報によってターゲット生成候補（ｔＩＤ＝ｃｎｄ）が頻繁に更新されるのを避けるため仮説設定の際に調整を行う構成としてもよい。具体的には、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）がイベント発生源ターゲットの仮説になりにくい処理を行なう。
【０１８１】
すなわち、取得したイベントがどのターゲットから発生したかの仮説を各パーティクルに設定する際、上記制約に加えて、さらに、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）がイベント発生源ターゲットの仮説になりにくいように仮説設定のランダムさにバイアスをかける。具体的には、例えば、あるパーティクルに対して、ｔＩＤ＝ｃｎｄ，１〜ｎからパーティクル対応のイベント発生源ターゲットを１つ選択してイベント発生源仮説を設定する処理を以下のように行なう。
【０１８２】
まず、パーティクル対応の仮説設定に際して、
（１回目のｔＩＤ選択）ｔＩＤ＝ｃｎｄ，１〜ｎからランダムにｔＩＤを選択する。
ｔＩＤ＝１〜ｎのいずれかが選択された場合は、そのままそのｔＩＤを仮説とする。
ｔＩＤ＝ｃｎｄが選択された場合は、２回目のｔＩＤ選択を行う。
（２回目のｔＩＤ選択）ｔＩＤ＝ｃｎｄ，１〜ｎからランダムにｔＩＤを選択する。
ｔＩＤ＝１〜ｎのいずれかが選択された場合は、そのｔＩＤを仮説とする。２回続けてｔＩＤ＝ｃｎｄが選択された場合にのみ、そのパーティクルに対応するイベント発生源ターゲットをｔＩＤ＝ｃｎｄとする。
【０１８３】
上記の処理例は、ｔＩＤ＝ｃｎｄが２回連続して選択された場合にのみｔＩＤ＝ｃｎｄをパーティクル対応のイベント発生源仮説とする処理である。例えばこのようなバイアスをかけた処理によって、ｔＩＤ＝１〜ｎに比較してｔＩＤ＝ｃｎｄがパーティクル対応のイベント発生源仮説になる確率を低減することができる。
【０１８４】
なお、すべてのイベントに対して、各パーティクルにイベント発生源の仮説ｔＩＤ＝ｃｎｄ，１〜ｎを対応付けることは必須ではない。例えば、検出されたイベントの中の一定の割合（例えば１０％）をノイズであるとして解釈し、このようなノイズと解釈したイベントに対してはイベント発生源ターゲットの仮説を設定しない構成としてもよい。なお、この仮説設定を行わない割合は、利用するイベント検出装置（例えば顔識別処理実行部）の検出性能に応じて決定してよい。
【０１８５】
ステップＳ２１２，Ｓ２１３の処理によって設定されるパーティクルの構成例を図１４に示す。図１４に示す例では、ある時刻における２つのイベント（ｅＩＤ＝１，ｅＩＤ＝２）の各々に対するイベント発生源の仮説データ（ｔＩＤ＝ｘｘ）を各パーティクルの最下段に示している。２つのイベント（ｅＩＤ＝１，ｅＩＤ＝２）の各々は、例えばある時刻にカメラによって撮影された画像から検出された２つの顔領域に対応する。
【０１８６】
図１４に示す例では、
第１イベント（ｅＩＤ＝１）に対するイベント発生源の仮説データは、
パーティクル１（ｐＩＤ＝１）は、ｔＩＤ＝１、
パーティクル２（ｐＩＤ＝２）は、ｔＩＤ＝ｃｎｄ、
：
パーティクルｍ（ｐＩＤ＝ｍ）は、ｔＩＤ＝１、
このような設定である。
また、第２イベント（ｅＩＤ＝２）に対するイベント発生源の仮説データは、
パーティクル１（ｐＩＤ＝１）は、ｔＩＤ＝ｎ、
パーティクル２（ｐＩＤ＝２）は、ｔＩＤ＝ｎ、
：
パーティクルｍ（ｐＩＤ＝ｍ）は、ｔＩＤ＝ｎｏｎ（仮説設定なし）、
このような設定である。
【０１８７】
このイベント発生源ターゲットの仮説設定は、先に説明した制約、すなわち、
（制約１）ターゲット存在の仮説がｃ＝０（不在）のターゲットは発生源にはならない。
（制約２）異なるイベントに対して、同一のターゲットが発生源にはならない。
（制約３）「イベント数＞ターゲット数」のときは、その差分のイベントはノイズとして仮説を生成する。
これらの仮説の制約に基づいた設定である。
【０１８８】
図１４に示す例では、第２イベント（ｅＩＤ＝２）に対するイベント発生源ターゲットの仮説として、パーティクルｍ（ｐＩＤ＝ｍ）に対してｔＩＤ＝ｎｏｎ（仮説設定なし）の設定となっている。この設定は、上記の（制約１）と（制約３）に基づく処理である。すなわち、パーティクルｍ（ＰＩＤ＝ｍ）には、１つのターゲット（ｔＩＤ＝１）のみが、ターゲット存在の仮説がｃ＝１（存在）となっている。他のターゲットはｃ＝０（不在）である。
【０１８９】
同時刻に発生した２つのイベント（ｅＩＤ＝１，ｅＩＤ＝２）のいずれか一方は存在する（ｃ＝１）と仮定したターゲット（ｔＩＤ＝１）をイベント発生源ターゲットの仮説とすることが可能であるが、２つのイベントの少なくとも一方はイベント発生源ターゲットの仮説設定はできない。これは、上記制約に従った処理である。
【０１９０】
このように、「イベント数＞ターゲット数」の場合は、各パーティクルでイベント発生源ターゲット（ｔＩＤ）が割り振られないイベント(ｅＩＤ)が存在する。このような場合は、ｔＩＤ＝ｎｏｎとする。すなわち、このイベントはノイズであるとして処理を行う。なお、Ｐ（ｔＩＤ＝ｎｏｎ）は「イベントがノイズである」確率を示す。
【０１９１】
次に、図１３に示すフロー（ａ）のステップＳ２１４に進み、パーティクルの重み［Ｗ_ｐＩＤ］の計算を行う。この処理は、上述した説明［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］の図７のフローのステップＳ１０３に対応する処理である。すなわち、イベント発生源ターゲットの仮説に基づいて、各パーティクルの重み［Ｗ_ｐＩＤ］を計算する。
【０１９２】
この処理は、図７のフローのステップＳ１０３の処理と同様の処理であり、先に図９、図１０を参照して説明した処理である。すなわち、入力するイベントのデータと、各パーティクル対応のイベント発生源仮説としたターゲットのターゲットデータとの類似度であるイベント−ターゲット間尤度として算出される。パーティクル重み［Ｗ_ｐＩＤ］は前述したように、初期的には各パーティクルに均一な値が設定されるが、イベント入力に応じて更新される。
【０１９３】
図９、図１０を参照して説明したように、パーティクル重み［Ｗ_ｐＩＤ］は、イベント発生源の仮説ターゲットを生成した各パーティクルの仮説の正しさの指標に相当する。パーティクル重み［Ｗ_ｐＩＤ］は、ｍ個のパーティクル（ｐＩＤ＝１〜ｍ）の各々において設定されたイベント発生源の仮説ターゲットと、入力イベントとの類似度であるイベント−ターゲット間尤度として算出される。
【０１９４】
図１４のような仮説ターゲット設定例では、以下のイベント−ターゲット間尤度を算出する。
【０１９５】
イベント（ｅＩＤ＝１）入力に基づくパーティクル重み［Ｗ_ｐＩＤ］の算出
パーティクル１
イベント（ｅＩＤ＝１）の持つイベント情報（図９、図１０のイベント情報４０１参照）とターゲット１（ｔＩＤ＝１）とのイベント−ターゲット間尤度、
パーティクル２
イベント（ｅＩＤ＝１）の持つイベント情報とターゲットｃｎｄ（ｔＩＤ＝ｃｎｄ）とのイベント−ターゲット間尤度、
パーティクル３
イベント（ｅＩＤ＝１）の持つイベント情報とターゲット１（ｔＩＤ＝１）とのイベント−ターゲット間尤度、
これらの尤度を算出し、これらの尤度に基づく算出値を各パーティクル重みとして設定する。
【０１９６】
イベント（ｅＩＤ＝２）入力に基づくパーティクル重み［Ｗ_ｐＩＤ］の算出
パーティクル１
イベント（ｅＩＤ＝２）の持つイベント情報とターゲットｎ（ｔＩＤ＝ｎ）とのイベント−ターゲット間尤度、
パーティクル２
イベント（ｅＩＤ＝２）の持つイベント情報とターゲットｎ（ｔＩＤ＝ｎ）とのイベント−ターゲット間尤度、
パーティクル３
イベント（ｅＩＤ＝２）の持つイベント情報とターゲットｎｏｎ（ｔＩＤ＝ｎｏｎ）とのイベント−ターゲット間尤度、
これらの尤度を算出し、これらの尤度に基づく算出値を各パーティクル重みとして設定する。
【０１９７】
具体的には、図１０を参照して説明したように、パーティクル重み［Ｗ_ｐＩＤ］は、上記の２つの尤度、すなわち、
ガウス分布間尤度［ＤＬ］と、
ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］
これら２つの尤度を利用し、重みα（α＝０〜１）を用いて下式によって算出する。
パーティクル重み［Ｗ_ｐＩＤ］＝ＵＬ^α×ＤＬ^１−α
上記式により、パーティクル重み［Ｗ_ｐＩＤ］を算出する。
ただし、α＝０〜１とする。
このパーティクル重み［Ｗ_ｐＩＤ］は、各パーティクルについて各々算出する。
【０１９８】
なお、
ターゲット生成候補（ｔＩＤ＝ｃｎｄ）の重みに関しては、上記の尤度算出処理によって算出したパーティクル重み［Ｗ_ｐＩＤ］に、さらにターゲット生成候補（ｔＩＤ＝ｃｎｄ）の生成確率Ｐｂを乗じて最終的なパーティクル重み［Ｗ_ｐＩＤ］とする。すなわち、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）の重みは以下の値とする。
Ｗ_ｐＩＤ＝Ｐｂ×（ＵＬ^α×ＤＬ^１−α）
ターゲット生成候補（ｔＩＤ＝ｃｎｄ）の生成確率Ｐｂとは、パーティクルに対するイベント発生源仮説設定において、ｔＩＤ＝ｃｎｄ，１〜ｎからターゲット生成候補（ｔＩＤ＝ｃｎｄ）がイベント発生源として設定される確率である。すなわち、ターゲット仮説としてターゲット生成候補が設定されているパーティクルについては、イベント−ターゲット間尤度に１より小さい係数を乗算してパーティクル重みを算出する。
【０１９９】
このように、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）をイベント発生源の仮説として設定したパーティクルの重みを小さくする。この処理によって、不確実性の高いターゲット（ｔＩＤ＝ｃｎｄ）のターゲット情報に与える影響を小さくする設定としている。
【０２００】
また、仮説を立てたターゲットがノイズの場合、すなわち、ターゲットｎｏｎ（ｔＩＤ＝ｎｏｎ）の設定の場合は、尤度算出に適用するターゲットデータが存在しない。この場合は、イベント情報との類似度算出に適用するターゲットデータとして、位置や識別情報を一様分布とした仮のターゲットデータを設定し、この仮設定のターゲットデータと入力イベント情報との尤度算出を実行してパーティクル重みを算出する。
【０２０１】
このように、各パーティクルについて、イベント情報の入力ごとにパーティクル重みを算出する。なお、最終的なパーティクル重みは、さらに上記で計算した値を以下のような最終調整としての正規化処理を行って決定する。
（１）直前の重みと置き換えて正規化する
（２）直前の重みに乗じて正規化する
なお、正規化処理はパーティクル１〜ｍの重み総和を［１］とする処理である。
【０２０２】
（１）の直前の重みと置き換えて正規化する処理は、直前の重みを考慮することなく、新たなイベント情報の入力に基づいて算出された尤度情報によってパーティクル重みを算出して正規化してパーティクル重みを決定する処理である。Ｒを正規化項（Ｒｅｇｕｌａｒｉｚａｔｉｏｎｔｅｒｍ）とした場合、パーティクル重み［Ｗ_ｐＩＤ］は以下のようにして算出される。
イベント発生源仮説ターゲットがターゲット生成候補（ｔＩＤ＝ｃｎｄ）でないパーティクルは、
Ｗ_ｐＩＤ＝Ｒ×（ＵＬ^α×ＤＬ^１−α）、
イベント発生源仮説ターゲットがターゲット生成候補（ｔＩＤ＝ｃｎｄ）であるパーティクルは、
Ｗ_ｐＩＤ＝Ｒ×Ｐｂ×（ＵＬ^α×ＤＬ^１−α）、
このようにして各パーティクルのパーティクル重み［Ｗ_ｐＩＤ］を算出する。
【０２０３】
（２）の直前の重みに乗じて正規化する処理は、すでに過去（時刻：ｔ−１）のイベント情報に基づいて設定されたパーティクル重み［Ｗ_{ｐＩＤ（ｔ−１）}］が存在する場合に、新たなイベント情報の入力に基づいて算出された尤度情報をこの設定済みのパーティクル重み［Ｗ_{ｐＩＤ（ｔ−１）}］に乗算してパーティクル重み［Ｗ_{ｐＩＤ（ｔ）}］を算出する処理である。具体的には、例えば以下のようにして算出される。
イベント発生源仮説ターゲットがターゲット生成候補（ｔＩＤ＝ｃｎｄ）でないパーティクルは、
Ｗ_{ｐＩＤ（ｔ）}＝Ｒ×（ＵＬ^α×ＤＬ^１−α）×Ｗ_{ｐＩＤ（ｔ−１）}、
イベント発生源仮説ターゲットがターゲット生成候補（ｔＩＤ＝ｃｎｄ）であるパーティクルは、
Ｗ_{ｐＩＤ（ｔ）}＝Ｒ×Ｐｂ×（ＵＬ^α×ＤＬ^１−α）×Ｗ_{ｐＩＤ（ｔ−１）}、
このようにして各パーティクルのパーティクル重み［Ｗ_{ｐＩＤ（ｔ）}］を算出する。
【０２０４】
音声・画像統合処理部１３１は、図１３に示すフロー（ａ）のステップＳ２１４において、上述した処理によって各パーティクルのパーティクル重みを決定する。次に、ステップＳ２１５に進み、音声・画像統合処理部１３１は、ステップＳ２１４で設定した各パーティクルのパーティクル重み［Ｗ_ｐＩＤ］に基づくパーティクルのリサンプリング処理を実行する。この処理は、上述した説明［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］の図７のフローのステップＳ１０４の処理に対応する処理である。パーティクルの重みに基づいて、復元抽出方法でパーティクルをリサンプリングする。
【０２０５】
このパーティクルリサンプリング処理は、ｍ個のパーティクルから、パーティクル重み［Ｗ_ｐＩＤ］に応じてパーティクルを取捨選択する処理として実行される。具体的には、例えば、パーティクル数：ｍ＝５のとき、
パーティクル１：パーティクル重み［Ｗ_ｐＩＤ］＝０．４０
パーティクル２：パーティクル重み［Ｗ_ｐＩＤ］＝０．１０
パーティクル３：パーティクル重み［Ｗ_ｐＩＤ］＝０．２５
パーティクル４：パーティクル重み［Ｗ_ｐＩＤ］＝０．０５
パーティクル５：パーティクル重み［Ｗ_ｐＩＤ］＝０．２０
これらのパーティクル重みが各々設定されていた場合、
パーティクル１は、４０％の確率でリサンプリングされ、パーティクル２は１０％の確率でリサンプリングされる。なお、実際にはｍ＝１００〜１０００といった多数であり、リサンプリングされた結果は、パーティクルの重みに応じた配分比率のパーティクルによって構成されることになる。
【０２０６】
この処理によって、パーティクル重み［Ｗ_ｐＩＤ］の大きなパーティクルがより多く残存することになる。なお、リサンプリング後もパーティクルの総数［ｍ］は変更されない。また、リサンプリング後は、各パーティクルの重み［Ｗ_ｐＩＤ］はリセットされ、新たなイベントの入力に応じてステップＳ２１１から処理が繰り返される。
【０２０７】
次に、ステップＳ２１６において、音声・画像統合処理部１３１はパーティクルの更新処理を実行する。リサンプリングされた各パーティクル各々について、イベント発生源のターゲットデータを、観測値（イベント情報）を用いて更新する。
【０２０８】
各ターゲットは、先に図１２を参照して説明したように、以下のターゲットデータを有している。
（１）ターゲットの存在確率を推定するための、ターゲット存在仮説情報［ｃ｛０，１｝］
（２）ターゲットの存在位置の確率分布［ガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）］、
（３）ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）
これらのデータによって構成される。
【０２０９】
ステップＳ２１５におけるターゲットデータの更新は、これら(１)〜(３)の各データの(２)，(３)のデータについて実行する。（１）ターゲット存在仮説情報［ｃ｛０，１｝］は、イベントの取得時にステップＳ２１２において新たに設定するため、ステップＳ２１６では更新を行わない。
【０２１０】
（２）ターゲットの存在位置の確率分布［ガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）］の更新処理は、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］の処理と同様の処理として実行する。すなわち、
（ｐ）全パーティクルの全ターゲットを対象とする更新処理、
（ｑ）各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理、
これらの２段階の更新処理として実行する。
【０２１１】
（ｐ）全パーティクルの全ターゲットを対象とする更新処理は、イベント発生源仮説ターゲットとして選択されたターゲットおよびその他のターゲットのすべてを対象として実行する。この処理は、時間経過に伴うユーザ位置の分散が拡大するという仮定に基づいて実行され、前回の更新処理からの経過時間とイベントの位置情報によってカルマン・フィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）を用い更新される。
【０２１２】
以下、位置情報が１次元の場合の更新処理例について説明する。まず、前回の更新処理時間からの経過時間［ｄｔ］とし、全ターゲットについての、ｄｔ後のユーザ位置の予測分布を計算する。すなわち、ユーザ位置の分布情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）の期待値（平均）：［ｍ_ｔ］、分散［σ_ｔ］について、以下の更新を行う。
ｍ_ｔ＝ｍ_ｔ＋ｘｃ×ｄｔ
σ_ｔ^２＝σ_ｔ^２＋σｃ^２×ｄｔ
なお、
ｍ_ｔ：予測期待値（ｐｒｅｄｉｃｔｅｄｓｔａｔｅ）
σ_ｔ^２：予測共分散（ｐｒｅｄｉｃｔｅｄｅｓｔｉｍａｔｅｃｏｖａｒｉａｎｃｅ）
ｘｃ：移動情報（ｃｏｎｔｒｏｌｍｏｄｅｌ）
σｃ^２：ノイズ（ｐｒｏｃｅｓｓｎｏｉｓｅ）
である。
なお、ユーザが移動しない条件の下で処理する場合は、ｘｃ＝０として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）を更新する。
【０２１３】
さらに、（ｑ）各パーティクルに１つ設定されているイベント発生源の仮説となったターゲットに関しては、音声イベント検出部１２２や画像イベント検出部１１２から入力するイベント情報に含まれるユーザ位置を示すガウス分布：Ｎ（ｍ_ｅ，σ_ｅ）を用いた更新処理を実行する。
Ｋ：カルマンゲイン（ＫａｌｍａｎＧａｉｎ）
ｍ_ｅ：入力イベント情報：Ｎ（ｍ_ｅ，σ_ｅ）に含まれる観測値（Ｏｂｓｅｒｖｅｄｓｔａｔｅ）
σ_ｅ^２：入力イベント情報：Ｎ（ｍ_ｅ，σ_ｅ）に含まれる観測値（Ｏｂｓｅｒｖｅｄｃｏｖａｒｉａｎｃｅ）
として、以下の更新処理を行う。
Ｋ＝σ_ｔ^２／（σ_ｔ^２＋σ_ｅ^２）
ｍ_ｔ＝ｍ_ｔ＋Ｋ（ｘｃ−ｍ_ｔ）
σ_ｔ^２＝（１−Ｋ）σ_ｔ^２
【０２１４】
次に、ターゲットデータの更新処理として実行する（３）ユーザ確信度の更新処理について説明する。このユーザ確信度の更新処理は、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］と同様の処理を実行してもよいが、以下に説明する排他的ユーザ推定法を適用する構成としてもよい。なお、排他的ユーザ推定法は、本出願人が、先に出願した特願２００８−１７７６０９において開示した構成に対応する。
【０２１５】
＜排他的ユーザ推定法を適用した処理について＞
特願２００８−１７７６０９において開示した排他的ユーザ推定法の概要について、図１５〜図１８を参照して説明する。
【０２１６】
上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］において説明した処理では、各パーティクルに設定されたターゲットの更新に際して、ターゲット間の独立性を保持した更新を実行していた。すなわち、１つのターゲットデータの更新と、他のターゲットデータとの更新に関連性を持たせることなく、個々のターゲットデータを独立に更新していた。このような処理を行うと実際には起こりえない事象についても排除せずに更新が実行されてしまう。
【０２１７】
具体的には、異なるターゲットが同一のユーザであると推定したターゲット更新がなされる場合があり、同一人物が複数存在するといった事象について推定処理の過程で排除するといった処理は行なわれていない。
【０２１８】
特願２００８−１７７６０９において開示した排他的ユーザ推定法は、ターゲット間の独立性を排除して精度の高い解析を行う処理である。すなわち、複数のチャネル（モダリティ、モーダル）からなる不確実で非同期な位置情報、識別情報を確率的に統合して、複数のターゲットが、それぞれどこにいて、それらは誰かを推定する際、ターゲット間の独立性を排除して全ターゲットに関するユーザＩＤ(ＵｓｅｒＩＤ)の同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）を扱うことにより、ユーザ同定の推定性能を向上させている。
【０２１９】
上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］において説明したターゲット情報｛位置（Ｐｏｓｉｔｉｏｎ），ユーザＩＤ（ＵｓｅｒＩＤ）｝の生成処理として行われるターゲット位置およびユーザ推定処理を定式化すると、以下の式（式１）における確率［Ｐ］を推定するシステムであると言える。
【０２２０】
Ｐ（Ｘ_ｔ，θ_ｔ｜ｚ_ｔ，Ｘ_ｔ−１）・・・・・（式１）
なお、Ｐ（ａ｜ｂ）は、入力ｂが得られたとき、状態ａが発生する確率を示す。
上記式に含まれるパラメータは以下のパラメータである。
ｔ：時刻
Ｘ_ｔ＝｛ｘ_ｔ^１，ｘ_ｔ^２，…ｘ_ｔ^θ，・・・，ｘ_ｔ^ｎ｝：時刻ｔでのｎ人分のターゲット情報
ただし、ｘ＝｛ｘ_ｐ，ｘ_ｕ｝：ターゲット情報｛位置（Ｐｏｓｉｔｉｏｎ），ユーザＩＤ（ＵｓｅｒＩＤ）｝
ｚ_ｔ＝｛ｚｐ_ｔ，ｚｕ_ｔ）：時刻ｔでの観測値｛位置（Ｐｏｓｉｔｉｏｎ），ユーザＩＤ（ＵｓｅｒＩＤ）｝
θ_ｔ：時刻ｔの観測値ｚ_ｔがターゲット［θ］のターゲット情報ｘ^θの発生源である状態（θ＝１〜ｎ）
【０２２１】
なお、ｚ_ｔ＝｛ｚｐ_ｔ，ｚｕ_ｔ）は、時刻ｔでの観測値｛位置（Ｐｏｓｉｔｉｏｎ），ユーザＩＤ（ＵｓｅｒＩＤ）｝であり、上述した説明［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］におけるイベント情報に対応する。
すなわち、
ｚｐ_ｔは、イベント情報に含まれるユーザ位置情報（ｐｏｓｉｔｉｏｎ）、例えば図８（１）（ａ）に示すガウス分布からなるユーザ位置情報に対応する。
ｚｕ_ｔは、イベント情報に含まれるユーザ識別情報（ＵｓｅｒＩＤ）、例えば図８（１）（ｂ）に示す各ユーザ１〜ｋの確信度の値（スコア）として示されるユーザ識別情報に対応する。
【０２２２】
上記（式１）によって示される確率Ｐ、すなわち、
Ｐ＝（Ｘ_ｔ，θ_ｔ｜ｚ_ｔ，Ｘ_ｔ−１）
上記式は、右側に示す２つの入力、
（入力１）時刻ｔの観測値［ｚ_ｔ］と、
（入力２）直前の観測時刻ｔ−１におけるターゲット情報［Ｘ_ｔ−１］、
これらが得られたとき、
左側に示す２つの状態、すなわち、
（状態１）時刻ｔにおける観測値［ｚ_ｔ］が、ターゲット情報［ｘ^θ］（θ＝１〜ｎ）の発生源である状態［θ_ｔ］、
（状態２）時刻ｔにおけるターゲット情報の発生状態［Ｘ_ｔ］＝｛ｘｐ_ｔ，ｘｕ_ｔ｝、
これらの状態の発生する確率値を示す式である。
【０２２３】
上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］において説明したターゲット情報｛位置（Ｐｏｓｉｔｉｏｎ），ユーザＩＤ（ＵｓｅｒＩＤ）｝の生成処理として行われるターゲット位置およびユーザ推定処理は、上記式（式１）における確率［Ｐ］を推定するシステムであると言える。
【０２２４】
今、上記確率算出式（式１）をθで因数分解（Ｆａｃｔｏｒｉｚｅ）すると、以下のように変換できる。
Ｐ（Ｘ_ｔ，θ_ｔ｜ｚ_ｔ，Ｘ_ｔ−１）＝Ｐ（Ｘ_ｔ｜θ_ｔ，ｚ_ｔ，Ｘ_ｔ−１）×Ｐ（θ_ｔ｜ｚ_ｔ，Ｘ_ｔ−１）
【０２２５】
ここで、因数分解（Ｆａｃｔｏｒｉｚｅ）の結果に含まれる前半の式と後半の式をそれぞれ（式２）、（式３）とおく。すなわち、
Ｐ（Ｘ_ｔ｜θ_ｔ，ｚ_ｔ，Ｘ_ｔ−１）・・・（式２）
Ｐ（θ_ｔ｜ｚ_ｔ，Ｘ_ｔ−１）・・・（式３）
とする。
（式１）＝（式２）×（式３）
である。
【０２２６】
上記式（式３）、すなわち、
Ｐ（θ_ｔ｜ｚ_ｔ，Ｘ_ｔ−１）
この式は、入力として、
（入力１）時刻ｔの観測値［ｚ_ｔ］、
（入力２）直前観測時刻［ｔ−１］のターゲット情報[Ｘ_ｔ-１]、
これらの入力が得られたとき、
（状態１）観測値［ｚ_ｔ］の発生源が［ｘ^θ］である状態［θ_ｔ］、
上記状態の発生する確率を算出する式である。
【０２２７】
上述の［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］においては、この確率［θ_ｔ］を、パーティクル・フィルタを用いた処理によって推定している。
具体的には例えば［Ｒａｏ−ＢｌａｃｋｗｅｌｌｉｓｅｄＰａｒｔｉｃｌｅＦｉｌｔｅｒ］を適用した推定処理を行っている。
【０２２８】
一方、上記式（式２）、すなわち、
Ｐ（Ｘ_ｔ｜θ_ｔ，ｚ_ｔ，Ｘ_ｔ−１）
この式（式２）は、
入力として、
（入力１）時刻ｔの観測値［ｚ_ｔ］、
（入力２）直前観測時刻［ｔ−１］のターゲット情報［Ｘ_ｔ−１］、
（入力３）観測値［ｚ_ｔ］の発生源が［ｘ^θ］である確率［θ_ｔ］、
これらの入力が得られたとき、
（状態）時刻ｔにおいてターゲット情報［Ｘ_ｔ］が得られる状態、
この状態の発生する確率を表している。
【０２２９】
上記式（式２）、すなわち、
Ｐ（Ｘ_ｔ｜θ_ｔ，ｚ_ｔ，Ｘ_ｔ−１）
この式（式２）の状態発生確率を推定するために、
まず、推定する状態値として示されるターゲット情報［Ｘ_ｔ］を、
位置情報に対応するターゲット情報［Ｘｐ_ｔ］と、
ユーザ識別情報に対応するターゲット情報［Ｘｕ_ｔ］、
これらの２つの状態値に展開する。
【０２３０】
この展開処理によって、上記式（式２）は以下のように表現される。
Ｐ（Ｘ_ｔ｜θ_ｔ，ｚ_ｔ，Ｘ_ｔ−１）
＝Ｐ（Ｘｐ_ｔ，Ｘｕ_ｔ｜θ_ｔ，ｚｐ_ｔ，ｚｕ_ｔ，Ｘｐ_ｔ−１，Ｘｕ_ｔ−１）
上記式において、
ｚｐ_ｔ：時刻ｔの観測値［ｚ_ｔ］に含まれるターゲット位置情報、
ｚｕ_ｔ：時刻ｔの観測値［ｚ_ｔ］に含まれるユーザ識別情報、
である。
【０２３１】
さらに、ターゲット位置情報に対応するターゲット情報［Ｘｐ_ｔ］とユーザ識別情報に対応するターゲット情報［Ｘｕ_ｔ］は独立と仮定すると上記の（式２）の展開式は、さらに以下のように２つの式の乗算式として示すことができる。
Ｐ（Ｘ_ｔ｜θ_ｔ，ｚ_ｔ，Ｘ_ｔ−１）
＝Ｐ（Ｘｐ_ｔ，Ｘｕ_ｔ｜θ_ｔ，ｚｐ_ｔ，ｚｕ_ｔ，Ｘｐ_ｔ−１，Ｘｕ_ｔ−１）
＝Ｐ（Ｘｐ_ｔ｜θ_ｔ，ｚｐ_ｔ，Ｘｐ_ｔ−１）×Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）
【０２３２】
ここで、上記乗算式に含まれる前半の式と後半の式をそれぞれ（式４）、（式５）とおく。すなわち、
Ｐ（Ｘｐ_ｔ｜θ_ｔ，ｚｐ_ｔ，Ｘｐ_ｔ−１）・・・（式４）
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
とする。すなわち、
（式２）＝（式４）×（式５）
である。
【０２３３】
上記式（式４）、すなわち、
Ｐ（Ｘｐ_ｔ｜θ_ｔ，ｚｐ_ｔ，Ｘｐ_ｔ−１）
この式に含まれる位置（ｐｏｓｉｔｉｏｎ）情報に対応する観測値［ｚｐ_ｔ］によって、更新されるターゲット情報は、特定のターゲット（θ）の位置に関するターゲット情報［ｘｐ_ｔ^θ］のみである。
【０２３４】
ここで、ターゲットθ＝１〜ｎ各々に対応する位置に関するターゲット情報［ｘｐ_ｔ^θ］：ｘｐ_ｔ^１，ｘｐ_ｔ^２，・・・,ｘｐ_ｔ^ｎは互いに独立とすると、
上記式（式４）、すなわち、
Ｐ（Ｘｐ_ｔ｜θ_ｔ，ｚｐ_ｔ，Ｘｐ_ｔ−１）
この式は、以下のように展開することができる。
【０２３５】
Ｐ（Ｘｐ_ｔ｜θ_ｔ，ｚｐ_ｔ，Ｘｐ_ｔ−１）
＝Ｐ（ｘｐ_ｔ^１，ｘｐ_ｔ^２，…ｘｐ_ｔ^ｎ｜θ_ｔ，ｚｐ_ｔ，ｘｐ_ｔ−１^１，ｘｐ_ｔ−１^２，…，ｘｐ_ｔ−１^ｎ）
＝Ｐ（ｘｐ_ｔ^１｜ｘｐ_ｔ−１^１）Ｐ（ｘｐ_ｔ^２｜ｘｐ_ｔ−１^２）…Ｐ（ｘｐ_ｔ^θ｜ｚｐ_ｔ，ｘｐ_ｔ−１^θ）…Ｐ（ｘｐ_ｔ^ｎ｜ｘｐ_ｔ−１^ｎ）
【０２３６】
このように式（式４）は、各ターゲット（θ＝１〜ｎ）個別の確率値の乗算式として展開することができ、特定のターゲット（θ）の位置に関するターゲット情報［ｘｐ_ｔ^θ］のみが、観測値［ｚｐ_ｔ］による更新の影響を受けることになる。
【０２３７】
なお、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］において説明した処理では、カルマンフィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）を適用してこの（式４）に対応する値を推定している。
【０２３８】
ただし、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］における処理において、各パーティクルに設定したターゲットデータに含まれるユーザ位置の更新は、
（ａ１）全パーティクルの全ターゲットを対象とする更新処理、
（ａ２）各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理、
これらの２段階の更新処理として実行している。
【０２３９】
（ａ１）全パーティクルの全ターゲットを対象とする更新処理は、イベント発生源仮説ターゲットとして選択されたターゲットおよびその他のターゲットのすべてを対象として実行している。この処理は、時間経過に伴うユーザ位置の分散が拡大するという仮定に基づいて実行され、前回の更新処理からの経過時間とイベントの位置情報によってカルマン・フィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）を用い更新していた。
【０２４０】
すなわち、式として示すと、
Ｐ（ｘｐ_ｔ｜ｘｐ_ｔ−１）
この確率算出処理を適用し、この確率算出処理に運動モデルのみ（時間減衰）のカルマンフィルタ［ＫａｌｍａｎＦｉｌｔｅｒ］による推定処理を適用した。
【０２４１】
また、（ａ２）各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理としては、音声イベント検出部１２２や画像イベント検出部１１２から入力するイベント情報に含まれるユーザ位置情報：ｚｐ_ｔ（ガウス分布：Ｎ（ｍ_ｅ，σ_ｅ））を用いた更新処理を実行していた。
【０２４２】
すなわち、式として示すと、
Ｐ（ｘｐ_ｔ｜ｚｐ_ｔ，ｘｐ_ｔ−１）
この確率算出処理を適用し、この確率算出処理に、運動モデル＋観測モデルのカルマンフィルタ(ＫａｌｍａｎＦｉｌｔｅｒ)による推定処理を適用した。
【０２４３】
次に、上記の（式２）を展開して得られたユーザ識別情報（ＵｓｅｒＩＤ）に対応する式（式５）について解析する。すなわち、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
上記式である。
【０２４４】
この式（式５）においても、ユーザ識別情報（ＵｓｅｒＩＤ）に対応する観測値［ｚｕ_ｔ］によって更新されるターゲット情報は、特定のターゲット（θ）のユーザ識別情報に関するターゲット情報［ｘｕ_ｔ^θ］のみである。
【０２４５】
ここで、ターゲットθ＝１〜ｎ各々に対応するユーザ識別情報に関するターゲット情報［ｘｕ_ｔ^θ］：ｘｕ_ｔ^１，ｘｕ_ｔ^２，・・・,ｘｕ_ｔ^ｎは互いに独立とすると、
上記式（式５）、すなわち、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）
この式は、以下のように展開することができる。
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）
＝Ｐ（ｘｕ_ｔ^１，ｘｕ_ｔ^２，…，ｘｕ_ｔ^ｎ｜θ_ｔ，ｚｕ_ｔ，ｘｕ_ｔ−１^１，ｘｕ_ｔ−１^２，…，ｘｕ_ｔ−１^ｎ）
＝Ｐ（ｘｕ_ｔ^１｜ｘｕ_ｔ−１^１）Ｐ（ｘｕ_ｔ^２｜ｘｕ_ｔ−１^２）…Ｐ（ｘｕ_ｔ^θ｜ｚｕ_ｔ，ｘｕ_ｔ−１^θ）…Ｐ（ｘｕ_ｔ^ｎ｜ｘｕ_ｔ−１^ｎ）
【０２４６】
このように式（式５）は、各ターゲット（θ＝１〜ｎ）個別の確率値の乗算式として展開することができ、特定のターゲット（θ）のユーザ識別情報に関するターゲット情報［ｘｕ_ｔ^θ］のみが、観測値［ｚｕ_ｔ］による更新の影響を受けることになる。
【０２４７】
なお、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］で説明した処理でのユーザ識別情報に基づくターゲットの更新処理は以下のように行っている。
各パーティクルに設定されたターゲットには各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）として各ユーザ１〜ｋである確立値（スコア）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）が含まれている。
【０２４８】
イベント情報に含まれるユーザ識別情報によるターゲットの更新においては、観測値がない限り変わらない設定とした。式で示すと、
Ｐ（ｘｕ_ｔ｜ｘｕ_ｔ−１）
この確率は、観測値がない限り変わらない設定とした。
【０２４９】
各パーティクルに含まれるターゲットのユーザ確信度情報（ｕＩＤ）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）についての更新は、登録ユーザ全員分の事後確率と、音声イベント検出部１２２や画像イベント検出部１１２から入力するイベント情報に含まれるユーザ確信度情報（ｕＩＤ）：Ｐｅ［ｉ］（ｉ＝１〜ｋ）によって、予め設定した０〜１の範囲の値を持つ更新率［β］を適用して更新する。
【０２５０】
ターゲットのユーザ確信度情報（ｕＩＤ）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）についての更新は、以下の式によって実行する。
Ｐｔ［ｉ］＝（１−β）×Ｐｔ［ｉ］＋β＊Ｐｅ［ｉ］
ただし、
ｉ＝１〜ｋ
β：０〜１
である。なお、更新率［β］は、０〜１の範囲の値であり予め設定する。
【０２５１】
この処理は、確率算出式として示すと、以下のように示すことができる。すなわち、
Ｐ（ｘｕ_ｔ｜ｚｕ_ｔ，ｘｕ_ｔ−１）
上記算出式によって表すことができる。
【０２５２】
上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］で説明したユーザ識別情報に基づくターゲットの更新処理は、上記の（式２）を展開して得られたユーザ識別情報（ＵｓｅｒＩＤ）に対応する式（式５）、すなわち、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
この式（式５）の確率Ｐの推定処理を実行することに相当する。しかし、上記の［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］では、ターゲット間でユーザ識別情報（ＵｓｅｒＩＤ）の独立性を保持した処理が行われていた。
【０２５３】
従って、例えば、複数の異なるターゲットであっても同一のユーザ識別子（ｕＩＤ：ＵｓｅｒＩＤ）が最も確からしいユーザ識別子であるという判断がなされ、その判断に基づく更新が実行されてしまうこともあった。すなわち、パーティクルに設定した複数の異なるターゲットが、いずれも同一のユーザに対応するというような実際上は発生することのない推定処理による更新がなされることがあった。
【０２５４】
また、ターゲット間でユーザ識別子（ｕＩＤ：ＵｓｅｒＩＤ）の独立性を仮定した処理を行っていたため、ユーザ識別情報に対応する観測値［ｚｕ_ｔ］で更新されるターゲット情報は、特定のターゲット（θ）のターゲット情報［ｘｕ_ｔ^θ］のみとなる。従って、全ターゲットでユーザ識別情報（ｕＩＤ：ＵｓｅｒＩＤ）を更新するためには、全ターゲットに対する観測値［ｚｕ_ｔ］が必要であった。
【０２５５】
このように、上述した［（１）イベント情報入力に基づく仮説更新によるユーザ位置およびユーザ識別処理］においては、ターゲット間の独立性を保持した解析処理を行っていた。従って、実際には起こりえない事象についても排除することなく推定処理が実行され、ターゲット更新の無駄が発生し、ユーザ識別における推定処理の効率および精度の低下を発生させることがあった。
【０２５６】
このような問題を解決するため、ターゲット間の独立性を排除し、複数のターゲットデータ間に関連性を持たせて、１つの観測データに基づいて複数のターゲットデータの更新処理を実行する。このような処理を行うことで実際には起こりえない事象を排除した更新を行うことが可能となり、精度の高い効率的な解析が実現される。
【０２５７】
本発明の情報処理装置では、図２に示す構成における音声・画像統合処理部１３１は、イベントの発生源であるターゲットに対応するユーザがどのユーザであるかを示すユーザ確信度情報を含むターゲットデータを、イベント情報に含まれるユーザ識別情報に基づいて更新する処理を実行する。この処理に際して、各ターゲットと各ユーザとを対応づけた候補データの同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）を、イベント情報に含まれるユーザ識別情報に基づいて更新し、更新された同時生起確率の値を適用してターゲット対応のユーザ確信度を算出する処理を実行する。
【０２５８】
ターゲット間の独立性を排除して全ターゲットに関するユーザ識別情報(ＵｓｅｒＩＤ)の同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）を扱うことにより、ユーザ同定の推定性能を向上させることが可能となる。
【０２５９】
音声・画像統合処理部１３１では、上述した式（式５）、すなわち、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
上記式を適用して、ユーザ識別情報に対応するターゲット情報［Ｘｕ_ｔ］の独立性を排除した処理を行う。式（式５）において、ユーザ識別情報（ＵｓｅｒＩＤ）に対応する観測値［ｚｕ_ｔ］によって更新されるターゲット情報は、特定のターゲット（θ）のユーザ識別情報に関するターゲット情報［ｘｕ_ｔ^θ］のみである。
【０２６０】
この式（式５）は、以下のように展開することができる。
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）
＝Ｐ（ｘｕ_ｔ^１，ｘｕ_ｔ^２，…，ｘｕ_ｔ^ｎ｜θ_ｔ，ｚｕ_ｔ，ｘｕ_ｔ−１^１，ｘｕ_ｔ−１^２，…，ｘｕ_ｔ−１^ｎ）
【０２６１】
ここで、ユーザ識別情報に対応するターゲット情報［Ｘｕ_ｔ］のターゲット間での独立性を仮定しないターゲット更新処理を行う。すなわち、複数の事象がいずれも発生する確率である同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）を考慮した処理を行う。この処理のためにベイズの定理を利用する。
ベイズの定理によれば、
Ｐ（ｘ）：事象ｘが発生する確率（事前確率）
Ｐ（ｘ｜ｚ）：事象ｚが発生した後、事象ｘが発生する確率（事後確率）
としたとき、
Ｐ（ｘ｜ｚ）＝（Ｐ（ｚ｜ｘ）Ｐ（ｘ））／Ｐ（ｚ）
上記式が成立する。
【０２６２】
このベイズの定理
Ｐ（ｘ｜ｚ）＝（Ｐ（ｚ｜ｘ）Ｐ（ｘ））／Ｐ（ｚ）
を用いて、先に説明したユーザ識別情報（ＵｓｅｒＩＤ）に対応する式（式５）、すなわち、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
上記式を展開する。
【０２６３】
展開結果を以下に示す。
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）
＝Ｐ（θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式６）
【０２６４】
上記式（式６）において、
θ_ｔ：時刻ｔの観測値ｚ_ｔがターゲット［θ］のターゲット情報ｘ^θの発生源である状態（θ＝１〜ｎ）
ｚｕ_ｔ：時刻ｔにおける時刻ｔの観測値［ｚ_ｔ］に含まれるユーザ識別情報
これらの「θ_ｔ，ｚｕ_ｔ」は、ユーザ識別情報に対応する時刻ｔのターゲット情報［Ｘｕ_ｔ］のみに依存する（Ｘｕ_ｔ−１には依存しない）とすると、上記式（式６）はさらに以下のように展開できる。
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）
＝Ｐ（θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）
＝Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（θ_ｔ，ｚｕ_ｔ）Ｐ（Ｘｕ_ｔ−１）・・・（式７）
【０２６５】
上記式（式７）を計算することにより、ユーザ同定の推定、すなわちユーザ識別処理を行う。
なお、ある１つのターゲットｉについてのユーザ確信度（ｕＩＤ）、すなわち、ｘｕ（ＵｓｅｒＩＤ）の確率を求めたいときは、同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）においてそのターゲットがそのユーザ識別子（ＵｓｅｒＩＤ）である確率をマージ（Ｍａｒｇｉｎａｌｉｚｅ）して求める。例えば以下の式を適用して算出する。
Ｐ（ｘｕ^ｉ）＝Σ_{Ｘｕ＝ｘｕｉ}Ｐ（Ｘｕ）
【０２６６】
ユーザ識別情報（ＵｓｅｒＩＤ）に対応する式（式５）、すなわち、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
これをベイズの定理を用いて展開して、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）
＝Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（θ_ｔ，ｚｕ_ｔ）Ｐ（Ｘｕ_ｔ−１）・・・（式７）
この式（式７）が得られる。
【０２６７】
この式（式７）において、Ｐ（θ_ｔ，ｚｕ_ｔ）のみを一様と仮定する。
すると式（式５）、（式７）は、以下のように表すことができる。
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
＝Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（θ_ｔ，ｚｕ_ｔ）Ｐ（Ｘｕ_ｔ−１）・・・（式７）
〜Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（Ｘｕ_ｔ−１）
なお、［〜］は比例を表す。
【０２６８】
従って、式（式５）、（式７）は、以下のような式（式８）として示すことができる。
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
＝Ｒ×Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（Ｘｕ_ｔ−１）・・・（式８）
となる。
ただし、Ｒは正規化項（Ｒｅｇｕｌａｒｉｚａｔｉｏｎｔｅｒｍ）とする。
【０２６９】
さらに式（式８）において、「複数ターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）は割り振られない」という制約を事前確率Ｐ（Ｘｕ_ｔ）、Ｐ（Ｘｕ_ｔ−１）を用いて以下のように表現する。
制約１：Ｐ（Ｘｕ）＝Ｐ（ｘｕ^１，ｘｕ^２，…，ｘｕ^ｎ）において、１つでも重なるｘｕ（ユーザ識別子（ＵｓｅｒＩＤ））が存在する場合は、
Ｐ（Ｘｕ_ｔ）＝Ｐ（Ｘｕ_ｔ−１）＝ＮＧ（Ｐ＝０．０）、
それ以外は、
Ｐ（Ｘｕ_ｔ）＝Ｐ（Ｘｕ_ｔ−１）＝ＯＫ（０．０＜Ｐ≦１．０）
このような確率を設定する。
【０２７０】
図１５にターゲット数ｎ＝３（０〜２）、登録ユーザ数ｋ＝３（０〜２）の場合、上記制約に従った初期状態設定例を示す。
３つのターゲットＩＤ（ｔＩＤ＝０，１，２）に対応するユーザＩＤ（ｕＩＤ＝０〜２）の候補は、図１５に示すように、
ｔＩＤ０，１，２＝（０，０，０）〜（２，２，２）
これらの２７通りの候補データがある。
これらの２７通りの候補データ各々について、全てのターゲットＩＤ（２，１，０）に対する全てのユーザＩＤ（０〜２）を対応付けたユーザ確信度として、同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）を示している。
【０２７１】
図１５に示す例では、Ｐ（Ｘｕ）＝Ｐ（ｘｕ^１，ｘｕ^２，…，ｘｕ^ｎ）において、１つでも重なるｘｕ（ユーザ識別子（ＵｓｅｒＩＤ））が存在する場合は、同時生起確率：Ｐ＝０（ＮＧ）として設定され、Ｐ＝０（ＮＧ）以外のＰ＝ＯＫとして記載された候補に対して、同時生起確率：Ｐに０より大きい確率値（０．０＜Ｐ≦１．０）が設定される。
【０２７２】
このように、音声・画像統合処理部１３１は、複数ターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）は割り振られないという制約に基づいて、各ターゲットと各ユーザとを対応づけた候補データの同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）の初期設定を行なう。
異なるターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）が設定された候補データの同時生起確率Ｐ（Ｘｕ）の確率値は、
Ｐ（Ｘｕ）＝０．０、
それ以外のターゲットデータの確率値は、
Ｐ（Ｘｕ）＝０．０＜Ｐ≦１．０
とする確率値の初期設定を行う。
【０２７３】
図１６、図１７は、「複数ターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）は割り振られない」という制約を適用して、ターゲット間の独立性を排除した本発明に従った解析処理例を説明する図である。
【０２７４】
なお、図１６、図１７の処理例は、ターゲット間の独立性を排除した処理例であり、先に説明したユーザ識別情報（ＵｓｅｒＩＤ）に対応する式（式５）に基づいて生成した式（式８）、すなわち、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
＝Ｒ×Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（Ｘｕ_ｔ−１）・・・（式８）
上記式を適用し、さらに、複数の異なるターゲットに同一のユーザ識別情報であるユーザ識別子（ＵｓｅｒＩＤ）を割り振らないという制約で処理を行っている。
【０２７５】
すなわち、上記式（式８）において、
Ｐ（Ｘｕ）＝Ｐ（ｘｕ^１，ｘｕ^２，…，ｘｕ^ｎ）において、１つでも重なるｘｕ（ユーザ識別子（ＵｓｅｒＩＤ））が存在する場合は、
Ｐ（Ｘｕ_ｔ）＝Ｐ（Ｘｕ_ｔ−１）＝ＮＧ（Ｐ＝０．０）、
それ以外は、
Ｐ（Ｘｕ_ｔ）＝Ｐ（Ｘｕ_ｔ−１）＝ＯＫ（０．０＜Ｐ≦１．０）
このような確率を設定した処理を行なっている。
【０２７６】
上記式（式８）は、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
＝Ｒ×Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（Ｘｕ_ｔ−１）・・・（式８）
＝Ｒ×［事前確率Ｐ］×［状態遷移確率Ｐ］×（Ｐ（Ｘｕ_ｔ）／Ｐ（Ｘｕ_ｔ−１））
として表現される。
ただし、
［事前確率Ｐ］＝Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）
［状態遷移確率Ｐ］＝Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）
である。
【０２７７】
図１６、図１７の処理例は、
Ｐ（Ｘｕ）＝Ｐ（ｘｕ^１，ｘｕ^２，…，ｘｕ^ｎ）において、１つでも重なるｘｕ（ユーザ識別子（ＵｓｅｒＩＤ））が存在する場合はＰ＝０（ＮＧ）とした設定とし他処理例である。
【０２７８】
すなわち、
上記の式（式８）に含まれる［事前確率Ｐ］
Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）
＝Ｐ（θ_ｔ，ｚｕ_ｔ｜ｘｕ_ｔ^１，ｘｕ_ｔ^２，…，ｘｕ_ｔ^θ，…，ｘｕ_ｔ^ｎ）
上記式において、観測値の事前確率Ｐを、
ｘｕ_ｔ^θ＝ｚｕ_ｔ、このときの事前確率：Ｐ＝Ａ＝０．８、
上記以外の場合の事前確率：Ｐ＝Ｂ＝０．２、
この確率設定とした。
【０２７９】
さらに、上記の式（式８）に含まれる［状態遷移確率Ｐ］
Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）
上記式において、
時刻ｔ，ｔ−１において、全ターゲットに関してユーザ識別子（ＵｓｅｒＩＤ）の変化がない場合の状態遷移確率Ｐ＝Ｃ＝１．０、
上記以外の場合の状態遷移確率Ｐ＝Ｄ＝０．０、
この確率設定とした。
【０２８０】
図１６、図１７は、このような条件設定の下、２つの観測時間において、
「θ＝０，ｚｕ＝０」、
「θ＝１，ｚｕ＝１」
これらの観測情報が順に観測された場合の、ターゲットＩＤ（２，１，０）に対するユーザＩＤ（０〜２）の確率値、すなわちユーザ確信度（ｕＩＤ）の遷移例を示した図である。ユーザ確信度は、全てのターゲットＩＤ（２，１，０）に対する全てのユーザＩＤ（０〜２）を対応付けたデータについての同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）として算出している。
【０２８１】
なお、「θ＝０，ｚｕ＝０」は、ターゲット（θ＝０）から、ユーザ識別子（ＵＩＤ＝０）に対応する観測情報［ｚｕ］が観測されたことを示す。
「θ＝１，ｚｕ＝１」は、ターゲット（θ＝１）から、ユーザ識別子（ＵＩＤ＝１）に対応する観測情報［ｚｕ］が観測されたことを示す。
【０２８２】
３つのターゲットＩＤ（ｔＩＤ＝０，１，２）に対応するユーザＩＤ（ｕＩＤ＝０〜２）の候補は、図１６に示す（ａ）初期状態の欄に示しているように、
ｔＩＤ０，１，２＝（０，０，０）〜（２，２，２）
これらの２７通りである。
これらの２７通りの候補データ各々について、全てのターゲットＩＤ（２，１，０）に対する全てのユーザＩＤ（０〜２）を対応付けたユーザ確信度として、同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）を算出している。確率（ユーザ確信度）は、先の図１３（ａ）初期状態と異なり、１つでも重なるｘｕ（ユーザ識別子（ＵｓｅｒＩＤ））が存在する場合はＰ＝０、その他の候補に均等な確率、図に示す例では、
Ｐ＝０．１６６６６７
この確率値が設定される。
【０２８３】
図１６に示す（ｂ）は、
「θ＝０，ｚｕ＝０」
この観測情報が観測された場合の、同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）として算出されるユーザ確信度（全てのターゲットＩＤ（２，１，０）に対して対応付けられた全てのユーザＩＤ（０〜２）の確信度）の変化を示している。
観測情報「θ＝０，ｚｕ＝０」は、
ターゲットＩＤ＝０からの観測情報がユーザＩＤ＝０のものであるという観測情報である。
この観測情報に基づいて、２７個の候補から、初期状態でＰ＝０（ＮＧ）の設定された候補以外で、
ｔＩＤ＝０にユーザＩＤ＝０の設定された候補データの確率Ｐ（同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ））が高められ、その他の確率Ｐが低下させられる。
【０２８４】
初期状態で、
Ｐ＝０．１６６６６７
この確率が設定された候補中、
ｔＩＤ＝０にユーザＩＤ＝０
の設定された候補の確率Ｐが高められて、Ｐ＝０．３３３３３３に設定され、
その他の確率Ｐが低下させられて、Ｐ＝０．００８３３３３に設定される。
【０２８５】
さらに、図１６に示す（ｃ）は、
「θ＝１，ｚｕ＝１」
この観測情報が観測された場合の、同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）として算出されるユーザ確信度（全てのターゲットＩＤ（２，１，０）に対して対応付けられた全てのユーザＩＤ（０〜２）の確信度）の変化を示している。
観測情報「θ＝１，ｚｕ＝１」は、
ターゲットＩＤ＝１からの観測情報がユーザＩＤ＝１のものであるという観測情報である。
この観測情報に基づいて、２７個の候補から、初期状態でＰ＝０（ＮＧ）の設定された候補以外で、
ｔＩＤ＝１にユーザＩＤ＝１の設定された候補データの確率Ｐ（同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ））が高められ、その他の確率Ｐが低下させられる。
【０２８６】
図１６（ｃ）に示すように、結果として、
４種類の確率値に分類される。
最も確率の高い候補は、
初期状態でＰ＝０（ＮＧ）の設定されておらず、ｔＩＤ＝０にユーザＩＤ＝０が設定、かつ、ｔＩＤ＝１にユーザＩＤ＝１が設定された候補であり、これらの候補の同時生起確率：Ｐ＝０．５９２５９３となる。
次に確率の高い候補は、
初期状態でＰ＝０（ＮＧ）の設定されておらず、ｔＩＤ＝０にユーザＩＤ＝０が設定、または、ｔＩＤ＝１にユーザＩＤ＝１の設定、いずれか一方の条件のみが満足されている候補であり、これらの候補は確率Ｐ＝０．１４８１４８となる。
次に確率の高い候補は、
初期状態でＰ＝０（ＮＧ）の設定されていない候補であり、ｔＩＤ＝０にユーザＩＤ＝０が設定されてなく、かつ、ｔＩＤ＝１にユーザＩＤ＝１が設定されていない候補であり、これらの候補は確率Ｐ＝０．０３７０３７となる。
最も確率の低い候補は、
初期状態でＰ＝０（ＮＧ）の設定されている候補であり、これらの候補は確率Ｐ＝０．０となる。
【０２８７】
図１７は、図１６に示す処理によって得られるマージ（Ｍａｒｇｉｎａｌｉｚｅ）結果である。
図１７（ａ）〜（ｃ）は図１６（ａ）〜（ｃ）に対応している。
すなわち、（ａ）初期状態から２つの観測情報に基づいて順次、更新した結果（ｂ），（ｃ）に対応しており、図１７に示すデータは、
ｔＩＤ＝０がｕＩＤ＝０である確率Ｐ
ｔＩＤ＝０がｕＩＤ＝１である確率Ｐ
：
ｔＩＤ＝２がｕＩＤ＝１である確率Ｐ
ｔＩＤ＝２がｕＩＤ＝３である確率Ｐ
これらを図１６に示す結果から算出したものである。図１７の確率は、図１６の２７個から該当するデータの確率値を加算、すなわちマージ（Ｍａｒｇｉｎａｌｉｚｅ）することにより求める。例えば以下の式を適用して算出する。
Ｐ（ｘｕ^ｉ）＝Σ_{Ｘｕ＝ｘｕｉ}Ｐ（Ｘｕ）
【０２８８】
図１７（ａ）に示すように、初期状態では、
ｔＩＤ＝０がｕＩＤ＝０である確率Ｐ
ｔＩＤ＝０がｕＩＤ＝１である確率Ｐ
：
ｔＩＤ＝２がｕＩＤ＝１である確率Ｐ
ｔＩＤ＝２がｕＩＤ＝３である確率Ｐ
これらは、すべて一律であり、Ｐ＝０．３３３３３３
である。
図１７（ａ）の下部に示すグラフは、この確率をグラフ化したデータである。
【０２８９】
図１７（ｂ）は、
「θ＝０，ｚｕ＝０」
この観測情報が観測された場合の更新結果であり、
ｔＩＤ＝０がｕＩＤ＝０である確率Ｐ〜ｔＩＤ＝２がｕＩＤ＝３である確率Ｐ
これらの確率を示している。
ｔＩＤ＝０がｕＩＤ＝０である確率のみが高く設定され、この影響により、
ｔＩＤ＝０がｕＩＤ＝１である確率Ｐ
ｔＩＤ＝０がｕＩＤ＝２である確率Ｐ
この２つの確率が低下している。
【０２９０】
さらに、本処理例では、
ｔＩＤ＝１について、
ｕＩＤ＝０である確率が低下、
ｕＩＤ＝１である確率が上昇、
ｕＩＤ＝２である確率が上昇、
ｔＩＤ＝２について、
ｕＩＤ＝０である確率が低下、
ｕＩＤ＝１である確率が上昇、
ｕＩＤ＝２である確率が上昇、
このように、観測情報「θ＝０，ｚｕ＝０」を取得したと想定されるターゲット（ｔＩＤ＝０）と異なるターゲット（ｔＩＤ＝１，２）の確率（ユーザ確信度）も変化している。
【０２９１】
図１６、図１７に示す処理は、各ターゲットの独立性を排除した処理例である。すなわち、ある１つの観測データが１つのターゲット対応のデータのみならず、その他のターゲットのデータに対して影響を及ぼす。
【０２９２】
図１６、図１７の処理では、前述した式（式８）すなわち、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
＝Ｒ×Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（Ｘｕ_ｔ−１）・・・（式８）
上記式に、以下の制約１、すなわち、
制約１：Ｐ（Ｘｕ）＝Ｐ（ｘｕ^１，ｘｕ^２，…，ｘｕ^ｎ）において、１つでも重なるｘｕ（ユーザ識別子（ＵｓｅｒＩＤ））が存在する場合は、
Ｐ（Ｘｕ_ｔ）＝Ｐ（Ｘｕ_ｔ−１）＝ＮＧ（Ｐ＝０．０）、
それ以外は、
Ｐ（Ｘｕ_ｔ）＝Ｐ（Ｘｕ_ｔ−１）＝ＯＫ（０．０＜Ｐ≦１．０）
このような確率を設定した処理例である。
【０２９３】
この処理の結果、図１７（ｂ）に示すように、観測情報「θ＝０，ｚｕ＝０」を取得したと想定されるターゲット（ｔＩＤ＝０）と異なるターゲット（ｔＩＤ＝２，３）の確率（ユーザ確信度）も変化することになり、各ターゲットがどのユーザに対応するかを示す確率（ユーザ確信度）が高精度にかつ効率的に更新されることになる。
【０２９４】
図１７（ｃ）は、
「θ＝１，ｚｕ＝１」
この観測情報が観測された場合の更新結果であり、
ｔＩＤ＝０がｕＩＤ＝０である確率Ｐ〜ｔＩＤ＝２がｕＩＤ＝３である確率Ｐ
これらの確率を示している。
ｔＩＤ＝１がｕＩＤ＝１である確率を高くする更新がなされ、この影響により、
ｔＩＤ＝１がｕＩＤ＝０である確率Ｐ
ｔＩＤ＝１がｕＩＤ＝２である確率Ｐ
この２つの確率が低下する。
【０２９５】
さらに、本処理例では、
ｔＩＤ＝０について、
ｕＩＤ＝０である確率が上昇、
ｕＩＤ＝１である確率が低下、
ｕＩＤ＝２である確率が上昇、
ｔＩＤ＝２について、
ｕＩＤ＝０である確率が上昇、
ｕＩＤ＝１である確率が低下、
ｕＩＤ＝２である確率が上昇、
このように、観測情報「θ＝１，ｚｕ＝１」を取得したと想定されるターゲット（ｔＩＤ＝１）と異なるターゲット（ｔＩＤ＝０，２）の確率（ユーザ確信度）も変化している。
【０２９６】
なお、図１５〜図１７を参照して説明した処理例では、制約として、
制約１：Ｐ（Ｘｕ）＝Ｐ（ｘｕ^１，ｘｕ^２，…，ｘｕ^ｎ）において、１つでも重なるｘｕ（ユーザ識別子（ＵｓｅｒＩＤ））が存在する場合は、
Ｐ（Ｘｕ_ｔ）＝Ｐ（Ｘｕ_ｔ−１）＝ＮＧ（Ｐ＝０．０）、
それ以外は、
Ｐ（Ｘｕ_ｔ）＝Ｐ（Ｘｕ_ｔ−１）＝ＯＫ（０．０＜Ｐ≦１．０）
このような制約を適用してすべてのターゲットデータに対する更新処理を行なったが、この制約を適用するのではなく、以下のような処理を行う構成としてもよい。
【０２９７】
Ｐ（Ｘｕ）＝Ｐ（ｘｕ^１，ｘｕ^２，…，ｘｕ^ｎ）において、１つでも重なるｘｕ（ユーザ識別子（ＵｓｅｒＩＤ））が存在する状態をターゲットデータから削除して、残存するターゲットデータに対してのみ処理を行う。
このような処理を行うことで、［Ｘｕ］の状態数をｋ_ｎから、_ｎＰ_ｋに削減することが可能となり処理効率を高めることが可能となる。
【０２９８】
データ削減処理例について、図１８を参照して説明する。例えば、３つのターゲットＩＤ（ｔＩＤ＝０，１，２）に対応するユーザＩＤ（ｕＩＤ＝０〜２）の候補は、図１８の左側に示すように、
ｔＩＤ０，１，２＝（０，０，０）〜（２，２，２）
これらの２７通りであるが、これらの２７のデータ［Ｐ（Ｘｕ）＝Ｐ（ｘｕ^１，ｘｕ^２，ｘｕ^３）］において、１つでも重なるｘｕ（ユーザ識別子（ＵｓｅｒＩＤ））が存在する状態をターゲットデータから削除することで、図１８の右側に示す０〜５の６通りのデータとなる。
【０２９９】
音声・画像統合処理部１３１は、このように異なるターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）が設定された候補データを削除して、それ以外の候補データのみを残存させて、残存する候補データのみをイベント情報に基づく更新対象とした処理を行う構成としてもよい。
【０３００】
この６個のデータのみを更新対象として処理を行っても図１６、図１７を参照して説明したと同様の結果が得られることになる。
以上、図１５〜図１８を参照して特願２００８−１７７６０９において開示した排他的ユーザ推定法の概要について説明した。
【０３０１】
本発明においても、この手法を適用した処理を行うことが可能である。この場合、図１３のステップＳ２１６のパーティクルの更新処理として実行するターゲットデータ内の（３）ユーザ確信度の更新処理は、上記の式（式８）を適用した処理を行う。すなわち、ターゲット間の独立性を排除した処理であり、先に説明したユーザ識別情報（ＵｓｅｒＩＤ）に対応する式（式５）に基づいて生成した式（式８）、すなわち、
Ｐ（Ｘｕ_ｔ｜θ_ｔ，ｚｕ_ｔ，Ｘｕ_ｔ−１）・・・（式５）
＝Ｒ×Ｐ（θ_ｔ，ｚｕ_ｔ｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ−１｜Ｘｕ_ｔ）Ｐ（Ｘｕ_ｔ）／Ｐ（Ｘｕ_ｔ−１）・・・（式８）
上記式を適用し、さらに、複数の異なるターゲットに同一のユーザ識別情報であるユーザ識別子（ＵｓｅｒＩＤ）を割り振らないという制約で処理を実行する。
【０３０２】
さらに、図１５〜図１８を参照して説明した同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）、すなわち、全てのターゲットに対して全てのユーザＩＤを対応付けたデータについての同時生起確率を算出して、イベント情報として入力する観測値に基づく同時生起確率の更新を実行して、各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）を算出する処理を行う。
【０３０３】
さらに、先に図１７を参照して説明したように、複数の候補データの確率値を加算、すなわちマージ（Ｍａｒｇｉｎａｌｉｚｅ）することにより各ターゲット（ｔＩＤ）に対応するユーザ識別子を求める。以下の式を適用して算出する。
Ｐ（ｘｕ^ｉ）＝Σ_{Ｘｕ＝ｘｕｉ}Ｐ（Ｘｕ）
【０３０４】
ステップＳ２１７では、音声・画像統合処理部１３１は、各パーティクルに設定されたターゲットデータに基づいてターゲット情報（図１１参照）を生成して処理決定部１３２に出力する。先に説明したように、ターゲット情報には、
（１）ターゲットの存在確率、
（２）ターゲットの存在位置、
（３）ターゲットが誰であるか（ｕＩＤ１〜ｕＩＤｋのいずれであるか）
これらの情報が含まれる。さらに、音声・画像統合処理部１３１は、各ターゲット（ｔＩＤ＝ｃｎｄ，１〜ｎ）の各々がイベントの発生源である確率を算出し、これをシグナル情報として処理決定部１３２に出力する。
【０３０５】
先に説明したように、イベント発生源を示す［シグナル情報］は、音声イベントについては、誰が話をしたか、すなわち［話者］を示すデータであり、画像イベントについては、画像に含まれる顔が誰であるかを示すデータである。
【０３０６】
音声・画像統合処理部１３１は、各パーティクルに設定されたイベント発生源の仮説ターゲットの数に基づいて、各ターゲットがイベント発生源である確率を算出する。
すなわち、ターゲット（ｔＩＤ＝１〜ｎ）の各々がイベント発生源である確率を［Ｐ（ｔＩＤ＝ｉ）とする。ただしｉ＝１〜ｎである。このとき、各ターゲットがイベント発生源である確率は、以下のように算出される。
Ｐ（ｔＩＤ＝１）：ｔＩＤ＝１を割り当てた数／ｍ
Ｐ（ｔＩＤ＝２）：ｔＩＤ＝２を割り当てた数／ｍ
：
Ｐ（ｔＩＤ＝ｎ）：ｔＩＤ＝ｎを割り当てた数／ｍ
音声・画像統合処理部１３１は、この算出処理によって、生成した情報、すなわち、各ターゲットがイベント発生源である確率を［シグナル情報］として、処理決定部１３２に出力する。このように、イベント発生源ターゲットの仮説の頻度を持って、イベントがどのターゲットから発生したかの確率とする。なお、イベント発生源ターゲット仮説をノイズとして設定した割合はイベントがどのターゲットから発生したものでもなくノイズである確率として処理を行う。
【０３０７】
ステップＳ２１７の処理が終了したら、ステップＳ２１１に戻り、音声イベント検出部１２２および画像イベント検出部１１２からのイベント情報の入力の待機状態に移行する。
【０３０８】
［（２−３）ターゲット生成プロセス］
次に、図１３に示すフローチャート中の（ｂ）ターゲット生成プロセスについて説明する。
【０３０９】
音声・画像統合処理部１３１は、図１３（ｂ）に示すフローチャートに従った処理を実行してパーティクルに対する新規ターゲットの設定を行う。
まず、ステップＳ２２１において、生成ターゲット候補の存在確率の計算を行う。具体的には、各パーティクルに設定したターゲット生成候補（ｔＩＤ＝ｃｎｄ）において、ｃ＝１の仮説を立てたパーティクルの頻度（割合）を生成ターゲット候補の存在確率とする。
【０３１０】
これは、図１２に示すターゲット情報に含まれる情報である。すなわち、
（１）ｔＩＤ＝ｃｎｄが存在する確率Ｐ（ｃ＝１）：ｃ＝１を割り当てた数／ｍ
この情報が用いられる。
音声・画像統合処理部１３１は、ステップＳ２２１において、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）が存在する確率Ｐ（ｃ＝１）を
Ｐ＝（ｃ＝１を割り当てた数／ｍ）
として算出する。
【０３１１】
次に、ステップＳ２２２において、ステップＳ２２１で算出したターゲット生成候補（ｔＩＤ＝ｃｎｄ）存在確率Ｐと、予め保持している閾値とを比較する。
すなわち、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）の存在確率Ｐと、閾値（例えば０．８）を比較し、存在確率Ｐが閾値より大きい場合は、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）が存在すると判定してステップＳ２２３の処理を行う。存在確率Ｐが閾値以下の場合は、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）は存在しないと判定し、ステップＳ２２３の処理を行うことなく処理を停止する。その後、例えば一定期間後にステップＳ２２１からの処理を再開する。
【０３１２】
ステップＳ２２２において、存在確率Ｐが閾値より大きいと判定した場合は、ステップＳ２２３において、各パーティクルに設定済みのターゲット生成候補（ｔＩＤ＝ｃｎｄ）を、新規ターゲットｎ＋１（ｔｉＤ＝ｎ＋１）として設定するターゲット追加処理を行ない、さらに、新たなターゲット生成候補（ｔＩＤ＝ｃｎｄ）を追加する処理を行う。新たなターゲット生成候補（ｔＩＤ＝ｃｎｄ）は初期状態とする。
【０３１３】
新規ターゲットｎ＋１（ｔｉＤ＝ｎ＋１）のターゲットデータは、それまでの古いターゲット生成候補（ｔＩＤ＝ｃｎｄ）の持つターゲットデータをそのまま設定する。
【０３１４】
新たなターゲット生成候補（ｔＩＤ＝ｃｎｄ）の位置分布（ターゲットの存在位置の確率分布［ガウス分布］）は一様分布に設定する。また、ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）については、本出願人の先の出願である特願２００８−１７７６０９に開示した手法で設定する。
【０３１５】
具体的な処理について、図１９を参照して説明する。新しくターゲットを生成する場合は、ある状態に対して新しいターゲットに関するデータを増やし、その増加データに対してユーザ分の状態を割り当て、その確率値を既存のターゲットデータに対して配分（Ｄｉｓｔｒｉｂｕｔｅ）する。
【０３１６】
図１９にｔＩＤ＝１，２の２ターゲットに対して、ｔＩＤ＝ｃａｎのターゲットを新たに生成して追加する場合の処理例を示す。
【０３１７】
図１９の左側の列は、ｔＩＤ＝１，２の２ターゲットに対応するｕＩＤの候補を示すターゲットデータ（０，０）〜（２，２）として９通りのデータを示している。このターゲットデータに対して、さらに、ターゲットデータを追加する。この処理によって、図１９右側に示す０〜２６の２７通りのターゲットデータが設定される。
【０３１８】
このターゲットデータの増加処理における確率値の配分について説明する。例えば、ｔＩＤ＝１，２＝（０，０）から、ｔＩＤ＝（０，０，０）、（０，０，１）、（０，０，２）の３つのデータが生成されることになる。ｔＩＤ＝１，２＝（０，０）に設定されていた確立値Ｐは、これらの３つのデータ［ｔＩＤ＝（０，０，０）、（０，０，１）、（０，０，２）］に均等に配分される。
【０３１９】
なお、さらに、「複数ターゲットに同一ＵｓｅｒＩＤは割り振られない」などの制約に従った処理を行う場合は、それに対応する事前確率や状態数の削減を行う。また、各ターゲットデータの確率の総和が［１］にならない場合、すなわち、同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）の総和が［１］にならない場合は正規化処理を行って、総和を［１］に設定するように調整処理を行う。
【０３２０】
このように、音声・画像統合処理部１３１は、ターゲットを生成して追加する場合において、生成ターゲットの追加により増加した候補データに対してユーザ数分の状態を割り当て、既存の候補データに対して設定されていた同時生起確率の値を増加した候補データに対して配分（Ｄｉｓｔｒｉｂｕｔｅ）する処理を実行して、さらに候補データ全体に設定された同時生起確率の値のトータルを１とする正規化処理を行う。
【０３２１】
このように、ステップＳ２２３では、過去のターゲット生成候補（ｔＩＤ＝ｃｎｄ）のＵｓｅｒＩＤ情報は新規ターゲットｎ＋１（ｔＩＤ＝ｎ＋１）にコピーし、新たなターゲット生成候補（ｔＩＤ＝ｃｎｄ）のＵｓｅｒＩＤ情報は初期化して設定する。
【０３２２】
［ターゲット削除プロセス］
次に、図１３に示すフローチャート中の（ｃ）ターゲット削除プロセスについて説明する。
【０３２３】
音声・画像統合処理部１３１は、図１３（ｃ）に示すフローチャートに従った処理を実行してパーティクルに対して設定されているターゲットの削除を行う。
【０３２４】
まず、ステップＳ２３１において、更新経過時間に基づくターゲットの存在の仮説生成処理を行う。すなわち、各パーティクルに設定されている各ターゲットに対して、予め設定した更新経過時間に基づくターゲットの存在の仮説生成を行う。
【０３２５】
具体的には、イベントで更新されない時間の長さに基づいて、ターゲット存在の仮説を確率的に存在（ｃ＝１）から不在（ｃ＝０）に変更する処理を行う。
例えば、非更新継続時間Δｔに基づく存在から不在への変更確率［Ｐ］として、
Ｐ＝１−ｅｘｐ(-ａ×Δｔ)
上記の変更確率［Ｐ］を用いる。
なお、Δｔはイベントで更新されない時間、
ａは係数である。
【０３２６】
上記式はイベントで更新されない時間（Δｔ）の長さが長いほど、ターゲット存在の仮説が存在（ｃ＝１）から不在（ｃ＝０）に変更されるようにした変更確率［Ｐ］の算出式を示している。
【０３２７】
音声・画像統合処理部１３１は、各ターゲットのイベントで更新されない時間の長さを計測し、計測時間に応じて、上記の変更確率［Ｐ］を適用してターゲット存在の仮説を存在（ｃ＝１）から不在（ｃ＝０）に変更する。
【０３２８】
ステップＳ２３２では、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）を除く全ターゲット（ｔＩＤ＝１〜ｎ）について、存在（ｃ＝１）の仮説を立てたパーティクルの頻度（割合）を生成ターゲット候補の存在確率として算出する。なお、ターゲット生成候補（ｔＩＤ＝ｃｎｄ）は各パーティクルに常時保持する設定であるので削除対象とはしない。
【０３２９】
ステップＳ２３３では、ターゲット（ｔＩＤ＝１〜ｎ）各々について算出した存在確率について、予め設定した削除閾値と比較する。
ターゲットの存在確率が削除閾値以上の場合は、何もしない。その後、例えば一定期間後にステップＳ２３１からの処理を再開する。
各ターゲットの存在確率が削除閾値未満の場合は、ステップＳ２３４に進み、ターゲット削除処理を行う。
【０３３０】
ステップＳ２３４のターゲット削除処理について説明する。削除対象のターゲットのターゲットデータに含まれる位置分布（ターゲットの存在位置の確率分布［ガウス分布］）データはそのデータをそのまま削除してよい。しかし、ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）については、本出願人の先の出願である特願２００８−１７７６０９に開示した手法を適用した処理を行なう。
【０３３１】
具体的な処理について図２０を参照して説明する。ある特定のターゲットを削除する場合は、そのターゲットに関する確率値をマージ（Ｍａｒｇｉｎａｌｉｚｅ）する。図２０にｔＩＤ＝０，１，２の３ターゲットにおいて、ｔＩＤ＝０のターゲットを削除する場合の例を示す。
【０３３２】
図２０の左側の列は、ｔＩＤ＝０，１，２の３ターゲットに対応するｕＩＤの候補データとして０〜２６の２７通りのターゲットデータの設定例を示している。これらのターゲットデータから、ターゲット０を削除する場合、図２０右側の列に示すように、ｔＩＤ＝１，２の組み合わせ（０，０）〜（２，２）の９通りのデータにマージする。この場合、マージ前の２７個のデータから、ｔＩＤ＝１，２の組み合わせ（０，０）〜（２，２）の各データの組を選択して、マージ後の９通りのデータを生成する。例えば、ｔＩＤ＝１，２＝（０，０）は、ｔＩＤ＝（０，０，０）、（１，０，０）、（２，０，０）の３つのデータのマージ処理によって生成する。
【０３３３】
すなわち、このターゲットデータの削除処理における確率値の配分について説明する。例えば、ｔＩＤ＝（０，０，０）、（１，０，０）、（２，０，０）の３つのデータから、１つのｔＩＤ＝１，２＝（０，０）が生成されることになる。ｔＩＤ＝（０，０，０）、（１，０，０）、（２，０，０）の３つのデータに設定されていた確率値Ｐは、マージされてｔＩＤ＝１，２＝（０，０）に対する確率値として設定される。
【０３３４】
このように、音声・画像統合処理部１３１は、ターゲットを削除する場合において、削除ターゲットを含む候補データに対して設定されている同時生起確率の値を、ターゲット削除後に残存する候補データにマージ（Ｍａｒｇｉｎａｌｉｚｅ）する処理を実行して、さらに候補データ全体に設定された同時生起確率の値のトータルを１とする正規化処理を行う。
【０３３５】
以上、音声・画像統合処理部１３１は、図１３に示す３つのフロー処理、すなわち、
（ａ）イベントによるターゲット存在の仮説更新プロセス
（ｂ）ターゲット生成プロセス
（ｃ）ターゲット削除プロセス
これら３つのプロセスを独立の処理として実行する。
【０３３６】
なお、先に説明したように、音声・画像統合処理部１３１は、
（ａ）イベントによるターゲット存在の仮説更新プロセスは、イベント発生を契機として実行されるイベントドリブン処理として実行する。
（ｂ）ターゲット生成プロセスは、予め設定した一定期間毎のピリオディック処理、もしくは、（ａ）イベントによるターゲット存在の仮説更新プロセスの処理の直後に実行する。
（ｃ）ターゲット削除プロセスは、予め設定した一定期間毎のピリオディック処理として実行する。
【０３３７】
このような処理を実行することで、
イベントの誤検出によるターゲットの誤生成の低減、
イベントがノイズであることの推定、
ターゲットの生成・削除の判断をターゲットの位置分布と切り離して実行、
これらの処理が可能となり、高精度なユーザ特定処理が実現されることになる。
【０３３８】
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
【０３３９】
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
【０３４０】
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【産業上の利用可能性】
【０３４１】
以上、説明したように、本発明の一実施例の構成によれば、カメラやマイクによって取得される画像情報や音声情報に基づいて実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成する。仮想ユーザに対応する複数のターゲット各々について、（１）ターゲットの存在確率算出に適用するターゲット存在仮説情報、（２）ターゲットの存在位置の確率分布情報、（３）ターゲットが誰であるかを示すユーザ確信度情報を設定し、ターゲット存在仮説情報を適用して各ターゲットの存在確率を算出してターゲットの新規設定および削除を実行する構成としたので、例えば誤検出による誤生成ターゲットを削減し、高精度かつ高効率のユーザ識別処理を実行可能となる。
【符号の説明】
【０３４２】
１１〜１４ユーザ
２１カメラ
３１〜３４マイク
１００情報処理装置
１１１画像入力部
１１２画像イベント検出部
１２１音声入力部
１２２音声イベント検出部
１３１音声・画像統合処理部
１３２処理決定部
２０１〜２０ｋユーザ
３０１ユーザ
３０２画像データ
３０５ターゲット情報
３１１ターゲットデータ
４０１イベント情報
４１１〜４１３パーティクル
４２１〜４２３ターゲット
５０１ターゲット
５０２存在確率データ

【特許請求の範囲】
【請求項１】
実空間における画像情報または音声情報のいずれかを含む情報を入力する複数の情報入力部と、
前記情報入力部からの入力情報を解析して前記実空間に存在すると推定されるユーザの位置および識別情報を含むイベント情報を生成するイベント検出部と、
前記実空間におけるユーザの存在と位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）データを設定し、前記イベント情報に基づく前記仮説データの更新および取捨選択により、前記実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成する情報統合処理部と、
を有する情報処理装置。
【請求項２】
前記情報統合処理部は、
前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成する請求項１に記載の情報処理装置。
【請求項３】
前記イベント検出部は、
イベント発生源に対応するガウス分布からなるユーザ位置情報と、
イベント発生源に対応するユーザ識別情報としてのユーザ確信度情報を含むイベント情報を生成し、
前記情報統合処理部は、
仮想的なユーザに対応する複数のターゲット各々について、
（１）ターゲットの存在確率算出に適用するターゲット存在仮説情報、
（２）ターゲットの存在位置の確率分布情報、
（３）ターゲットが誰であるかを示すユーザ確信度情報、
上記（１）〜（３）をターゲットデータとして有するターゲットを複数設定した複数のパーティクルを保持し、
各パーティクルにイベント発生源に対応するターゲット仮説を設定し、各パーティクルのターゲット仮説に対応するターゲットデータと入力イベント情報との類似度であるイベント−ターゲット間尤度をパーティクル重みとして算出して、算出したパーティクル重みに応じたパーティクルのリサンプリング処理を行い、
さらに、各パーティクルのターゲット仮説に対応するターゲットデータを前記入力イベント情報に近づけるターゲットデータ更新を含むパーティクル更新処理を実行する構成である請求項１に記載の情報処理装置。
【請求項４】
前記情報統合処理部は、
前記ターゲット存在仮説としてターゲットが存在する仮説（ｃ＝１）、またはターゲットが存在しない仮説（ｃ＝０）を各ターゲットのターゲットデータとして設定し、
ターゲット存在確率［ＰｔＩＤ（ｃ＝１）］を、前記リサンプリング処理後のパーティクルを適用して、
［ＰｔＩＤ（ｃ＝１）］＝｛ｃ＝１を割り当てた同一ターゲット識別子のターゲット数｝／｛パーティクル数｝
上記式によって算出する請求項３に記載の情報処理装置。
【請求項５】
前記情報統合処理部は、
前記パーティクルの各々に、少なくとも１つのターゲット生成候補を設定し、該ターゲット生成候補についてのターゲット存在確率と、予め設定した閾値とを比較して、前記ターゲット生成候補のターゲット存在確率が前記閾値より大きい場合に、前記ターゲット生成候補を新規ターゲットとして設定する処理を行う請求項４に記載の情報処理装置。
【請求項６】
前記情報統合処理部は、
前記パーティクル重みの算出処理に際して、
前記ターゲット仮説として前記ターゲット生成候補が設定されているパーティクルについては、イベント−ターゲット間尤度に１より小さい係数を乗算する処理を実行して前記パーティクル重みを算出する処理を行う請求項５に記載の情報処理装置。
【請求項７】
前記情報統合処理部は、
前記パーティクルに設定されたターゲット各々のターゲット存在確率と、予め設定した削除閾値とを比較して、ターゲット存在確率が前記削除閾値より小さい場合に、該ターゲットを削除する処理を行う請求項４に記載の情報処理装置。
【請求項８】
前記情報統合処理部は、
前記イベント検出部から入力するイベント情報で更新されない時間の長さに基づいて、前記ターゲット存在仮説を確率的に存在（ｃ＝１）から不在（ｃ＝０）に変更する更新処理を実行し、該更新処理後、前記パーティクルに設定されたターゲット各々のターゲット存在確率と、予め設定した削除閾値とを比較して、ターゲット存在確率が前記削除閾値より小さい場合に、該ターゲットを削除する処理を行う請求項７に記載の情報処理装置。
【請求項９】
前記情報統合処理部は、
各パーティクルにイベント発生源に対応するターゲット仮説の設定処理を、
（制約１）ターゲット存在の仮説がｃ＝０（不在）のターゲットはイベント発生源としない、
（制約２）異なるイベントに対して、同一のターゲットをイベント発生源としない、
（制約３）同一時刻において「イベント数＞ターゲット数」の場合は、ターゲット数より多いイベントはノイズと判定する、
上記制約１〜３に従った処理として実行する請求項３に記載の情報処理装置。
【請求項１０】
前記情報統合処理部は、
各ターゲットと各ユーザとを対応づけた候補データの同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）を、前記イベント情報に含まれるユーザ識別情報に基づいて更新し、更新された同時生起確率の値を適用してターゲット対応のユーザ確信度を算出する処理を実行する構成を有する請求項１〜９いずれかに記載の情報処理装置。
【請求項１１】
前記情報統合処理部は、
前記イベント情報に含まれるユーザ識別情報に基づいて更新された同時生起確率の値をマージして、各ターゲットに対応するユーザ識別子の確信度を算出する構成である請求項１０に記載の情報処理装置。
【請求項１２】
前記情報統合処理部は、
複数ターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）は割り振られないという制約に基づいて、各ターゲットと各ユーザとを対応づけた候補データの同時生起確率（ＪｏｉｎｔＰｒｏｂａｂｉｌｉｔｙ）の初期設定を行なう構成であり、
異なるターゲットに同一のユーザ識別子（ＵｓｅｒＩＤ）が設定された候補データの同時生起確率Ｐ（Ｘｕ）の確率値は、
Ｐ（Ｘｕ）＝０．０、
それ以外のターゲットデータの確率値は、
Ｐ（Ｘｕ）＝０．０＜Ｐ≦１．０
とする確率値の初期設定を行う構成である請求項１１に記載の情報処理装置。
【請求項１３】
情報処理装置において情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における画像情報または音声情報のいずれかを含む情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力ステップにおいて入力する情報の解析により、前記実空間に存在すると推定されるユーザの位置および識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、前記実空間におけるユーザの存在と位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）データを設定し、前記イベント情報に基づく前記仮説データの更新および取捨選択により、前記実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成する情報統合処理ステップと、
を有することを特徴とする情報処理方法。
【請求項１４】
情報処理装置において情報解析処理を実行させるプログラムであり、
複数の情報入力部に、実空間における画像情報または音声情報のいずれかを含む情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力ステップにおいて入力する情報の解析により、前記実空間に存在すると推定されるユーザの位置および識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、前記実空間におけるユーザの存在と位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）データを設定させ、前記イベント情報に基づく前記仮説データの更新および取捨選択により、前記実空間におけるユーザの存在と位置および識別情報を含む解析情報を生成させる情報統合処理ステップと、
を有することを特徴とするプログラム。

【図７】