視聴覚を結合した動作認識システムおよびその認識方法

【課題】本発明は、視聴覚を結合した動作認識システムおよびその認識方法を開示する。
【解決手段】このシステムは、データ解析モジュールと、データベースと、計算モジュールとを備える。データベースは、多種の異なる視聴覚関係モジュールを格納し、各視聴覚関係モジュールは、特徴取り込みパラメータと、視聴覚関係パラメータとを含む。データ解析モジュールは、対応するジェスチャ画像および音声データを取得し、各特徴取り込みパラメータに導入し、各視聴覚関係モジュールに対応する画像特徴配列および音声特徴配列を形成する。データ解析モジュールは、さらに各視聴覚関係パラメータを利用して、複数の視聴覚ステータスパラメータを計算する。計算モジュールは、さらに視聴覚ステータスパラメータ、画像特徴配列および音声特徴配列を利用し、各視聴覚関係パラメータに対応する認識確率を計算し、その中から最大値のものを取り出し、標的パラメータとする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、動作認識システムおよびその認識方法に関し、特に画像と音声を結合し、その配列対応関係により正確な動作を認識する動作認識システムおよびその認識方法に関する。
【背景技術】
【０００２】
図１Ａで示す従来技術の画像認識の概要図および図１Ｂで示す従来技術の音声認識の概要図を参照する。
従来技術において、認識技術は、画像認識と音声認識とを含む。画像認識技術については、認識ホスト２内に複数種の画像サンプルが格納してあり、撮影モジュール１１がユーザのジェスチャを撮影してジェスチャ画像を形成し、ジェスチャ画像を画像サンプルと突合せ、ジェスチャ画像に対応するコマンドを探し出す。さらに、ジェスチャ画像全体について画像特徴取り込み作業を行い、特徴値の照合技術によりジェスチャ画像の認識率を高めているものもある。
【０００３】
音声認識技術については、認識ホスト２内に複数種の音声サンプルが格納してあり、マイク１２がユーザの声を拾い、音声データを形成し、音声データを音声サンプルと突合せ、音声データに対応するコマンドを探し出す。さらに、音声データ全体について音声特徴取り込み作業を行い、特徴値の照合技術により音声データの認識率を高めているものもある。
【０００４】
認識率を高めるため、業者はジェスチャ画像と音声データとを結合した認識技術をさらに発展させている。しかしながら、画像認識技術については、現在の画像認識システムは、画像特徴取り込み技術を結合してはいるが、重複的ジェスチャ画像が特徴取り込みの誤りをもたらすことがある問題を考慮しておらず、認識率が上がらずに、逆に下がっている。次に、画像認識技術で音声認識技術が組み合わせていない場合、ジェスチャ画像認識に失敗すると、認識システムが人の動作の意図を正確に推断できなくなる。同様に、音声認識技術で画像認識技術が組み合わせていない場合、音声データ認識に失敗すると、認識システムが同じく人の動作の意図を正確に推断できなくなる。しかしながら、ジェスチャ画像と音声データを結合した認識技術の多くは、ジェスチャ画像と音声データの線形結合を行っており、認識システムが外的要因（例えば、過多のノイズを含む音声データ、または過多の光源干渉を含むジェスチャ画像，または異常な特徴データの取り込み）によって画像または音声のいずれかに対する認識に失敗した場合、逆にジェスチャ画像と音声データの線形結合で誤った認識結果がもたらされる。
【０００５】
そのため、いかにして外部干渉要因の認識システムに対する影響を下げ、さらには、認識システムの異常な特徴の取り込みを減らし、人の動作に対する認識率を高めるかが、業者が思慮する問題となっている。
【発明の概要】
【発明が解決しようとする課題】
【０００６】
本発明が解決しようとする課題は、外部干渉要因の認識システムに対する影響を下げ、人の動作に対する認識率を高める動作認識システムおよび認識方法を提供することである。
【課題を解決するための手段】
【０００７】
前記システムの課題を解決するため、本発明は、データベースと、データ解析モジュールと、計算モジュールとを含む、視聴覚を結合した動作認識システムを開示する。データベースは、複数個の視聴覚関係モジュールを含み、各視聴覚関係モジュールは、特徴取り込みパラメータと、視聴覚関係パラメータとを含む。データ解析モジュールは、相互に対応するジェスチャ画像および音声データを各特徴取り込みパラメータに導入し、複数個の画像特徴配列および音声特徴配列を取得し、同じ視聴覚関係モジュールに対応することを条件に、各画像特徴配列および各音声特徴配列を各視聴覚関係パラメータに導入し、複数個の視聴覚ステータスパラメータを計算する。計算モジュールは、すべての画像特徴配列、すべての音声特徴配列およびすべての視聴覚ステータスパラメータを利用して、各視聴覚関係モジュールに対応する認識確率を計算し、すべての認識確率から標的パラメータを取り出す。
【０００８】
前記方法の課題を解決するため、本発明は、相互に対応するジェスチャ画像および音声データを取得することを含む、視聴覚を結合した動作認識方法を開示する。複数個の視聴覚関係モジュールを提供し、各視聴覚関係モジュールは、特徴取り込みパラメータと視聴覚関係パラメータとを含む。ジェスチャ画像および音声データを各特徴取り込みパラメータに個別に導入し、複数個の画像特徴配列および複数個の音声特徴配列を計算する。同じ視聴覚関係モジュールに対応することを条件に、各画像特徴配列および各音声特徴配列を各視聴覚関係パラメータに導入し、複数個の視聴覚ステータスパラメータを計算する。すべての画像特徴配列、すべての音声特徴配列およびすべての視聴覚ステータスパラメータを利用し、各視聴覚関係モジュールに対応する認識確率を計算し、すべての認識確率から標的パラメータを取り出す。
【０００９】
本発明の特徴は、本発明がジェスチャ画像および音声データを画像特徴配列および音声特徴配列に変換し、２つの配列の視聴覚特徴関係を計算し、外部干渉要因のジェスチャ画像および音声データに対する影響によりシステム取り込みに誤った特徴を生成する問題を減らすことによって、人の動作に対する認識率を高めることにある。
【００１０】
次に、本発明で開示する視聴覚特徴関係対応技術は、ジェスチャ画像に含まれる重複画像データおよび音声データに含まれる重複音声データの数を突合せできない場合でも、ジェスチャ画像および音声データを相互に突合せて計算可能な画像特徴配列および音声特徴配列に変換することによって、２つの配列の視聴覚特徴関係を探し出すことができ、人の動作の認識作業に有益である。
【図面の簡単な説明】
【００１１】
【図１Ａ】従来技術の画像認識の概要図である。
【図１Ｂ】従来技術の音声認識の概要図である。
【図２Ａ】本発明の実施例の動作認識システムの構造図である。
【図２Ｂ】本発明の実施例の動作認識システムのブロック図である。
【図３Ａ】本発明の実施例のジェスチャ画像特徴取り込みの概要図である。
【図３Ｂ】本発明の実施例のジェスチャ移動軌跡を方向性曲線に量化する概要図である。
【図３Ｃ】本発明の実施例の角度区間量化の概要図である。
【図４Ａ】本発明の実施例の配列初期化の概要図である。
【図４Ｂ】本発明の実施例の画像特徴配列分割の概要図である。
【図４Ｃ】本発明の実施例の音声特徴配列分割の概要図である。
【図５Ａ】本発明の実施例のステータス対応関係の概要図である。
【図５Ｂ】本発明の実施例のフレーム対応関係と確率統計の概要図である。
【図５Ｃ】本発明の実施例のフレーム対応関係と確率統計の概要図である。
【図５Ｄ】本発明の実施例の視聴覚関係パラメータ導入の概要図である。
【図６Ａ】本発明の実施例の動作認識方法の流れの概要図である。
【図６Ｂ】本発明の実施例の視聴覚を結合した動作認識方法の細部の流れの概要図である。
【図６Ｃ】本発明の実施例の視聴覚を結合した動作認識方法の細部の流れの概要図である。
【図６Ｄ】本発明の実施例の視聴覚を結合した動作認識方法の細部の流れの概要図である。
【図６Ｅ】本発明の実施例の視聴覚を結合した動作認識方法の細部の流れの概要図である。
【図７】本発明の実施例の視聴覚関係モジュール確立の流れ図である。
【図８Ａ】本発明の実施例のトレーニングデータ初期化の概要図である。
【図８Ｂ】本発明の実施例の音声トレーニング配列分割の概要図である。
【図８Ｃ】本発明の実施例の画像トレーニング配列分割の概要図である。
【図８Ｄ】本発明の実施例のトレーニング組み合わせを一対にする概要図である。
【発明を実施するための形態】
【００１２】
図面と合わせ、本発明の好ましい実施例について以下のとおり詳細に説明する。
【実施例】
【００１３】
先ず、図２Ａで示す本発明の実施例の視聴覚を結合した動作認識システムの構造図および図２Ｂで示す本発明の実施例の視聴覚を結合した動作認識システムのブロック図を参照する。図３Ａで示す本発明の実施例のジェスチャ画像Ｍ１特徴取り込みの概要図、図３Ｂで示す本発明の実施例のジェスチャ移動軌跡を方向性曲線に量化する概要図、図３Ｃで示す本発明の実施例の角度区間量化の概要図および図４Ａで示す本発明の実施例の配列初期化の概要図、図４Ｂで示す本発明の実施例の画像特徴配列Ｍ２分割の概要図および図４Ｃで示す本発明の実施例の音声特徴配列Ｖ２分割の概要図を同時に参照する。本実施例で開示するシステムは、認識ホスト３に配置することによって説明する。この認識ホスト３には、撮影モジュール１１およびマイク１２を接続し、認識ホスト３は、データベース３２と、データ解析モジュール３と、計算モジュール３３とを含む。
【００１４】
撮影モジュール１１は、ビデオカメラまたはデジタルスチルカメラなどの連続画像を撮影する撮影設備であり、この撮影モジュール１１をユーザのジェスチャ動作の撮影に用いて、ジェスチャ画像Ｍ１を形成する。マイク１２をユーザが発した声を拾うために用いて、音声データＶ１を形成する。このジェスチャ画像Ｍ１および音声データＶ１は、対をなした視聴覚入力データである。
【００１５】
データベース３２には、複数個の視聴覚関係モジュール４が事前に格納されており、各視聴覚関係モジュール４は、特徴取り込みパラメータ４１と、視聴覚関係パラメータ４２とを含む。例えば、各視聴覚関係モジュール４が１人の動作に対応する。
【００１６】
データ解析モジュール３は、相互に対応するジェスチャ画像Ｍ１および音声データＶ１を各特徴取り込みパラメータ４１に導入し、複数個の画像特徴配列Ｍ２および複数個の音声特徴配列Ｖ２を取得し、同じ視聴覚関係モジュール４に対応することを条件に、各画像特徴配列Ｍ２および各音声特徴配列Ｖ２を各視聴覚関係パラメータ４２に導入し、複数個の視聴覚ステータスパラメータＳ１を計算する。
【００１７】
最後に、計算モジュール３３が、画像特徴配列Ｍ２、音声特徴配列Ｖ２および視聴覚ステータスパラメータＳ１を利用して、各視聴覚関係モジュール４に対応する認識確率Ｓ２を計算し、認識確率Ｓ２から標的パラメータＴ１を取り出す。計算モジュール３３で運用する計算式は以下のとおりである。
【００１８】

式中、 (G,A)は、同じ動作タイプのジェスチャおよび音声モデルである。p(O_G,S_G|G)は、ジェスチャ画像Ｍ１認識モデルである。p(S_A,S_G|G)は、ある画像特徴配列S_Gを与えた後、音声特徴配列S_Aが対応するジェスチャモデルGにおける視聴覚ステータスパラメータである。p(O_A,S_A|A)は、音声コマンド認識モデルである。p(S_G,S_A|A)は、音声特徴配列S_Aを与えた後、画像特徴配列S_Gが対応する音声コマンドモデルAにおける視聴覚ステータスパラメータである。認識の面で、各視聴覚関係モジュール４の認識確率Ｓ２は、下式で計算して得られる。
【００１９】

式中、各認識確率Ｓ２のうち数値が最も大きいものが属する視聴覚関係モジュール４が動作タイプ（Ｇ＊，Ａ＊）である。以下、システムの細部の運用モードについて説明する。
【００２０】
図３Ａで示す本発明の実施例のジェスチャ画像Ｍ１特徴取り込みの概要図、図３Ｂで示す本発明の実施例のジェスチャ移動軌跡を方向性曲線に量化する概要図および図３Ｃで示す本発明の実施例の角度区間量化の概要図を同時に参照する。本実施例において、データ解析モジュール３は、ジェスチャ画像Ｍ１における各画像フレームの画像特徴値を解析し、各画像フレームデータＭ３におけるユーザのジェスチャパターンおよびその位置（点線部分）を計算し、ジェスチャの動きの軌跡を計算する。続いて、データ解析モジュール３は、自己相関関数を利用して、ジェスチャ画像Ｍ１に含まれる１個以上の重複画像データを演算し、重複画像データを取り込む。自己相関関数は以下のとおりである。
【００２１】

式中、r_xx(k)は、時間推移ｋ上の自己相関関数値である。x(n)は、時間ｎ上の入力パラメータである。ｋは時間の推移である。Ｍは、ジェスチャ画像Ｍ１の総数である。図３Ｂでは、データ解析モジュール３はｔ＝０からｔ＝１４までの間の重複画像データを取り込むが、その限りでなく、その他の重複画像データも可能である。
【００２２】
正確さを求めるため、画像特徴値の取り込み時に、データ解析モジュール３は、先ず図３Ｃで示す角度区間量化の概要図を利用して、さらにジェスチャ画像Ｍ１画像特徴値を方向性に量化する特徴について説明する。
【００２３】
データ解析モジュール３は、音声データＶ１における音声フレームデータＶ３の音声特徴値を解析し、メル周波数ケプストラム係数（Ｍｅｌ−ｓｃａｌｅＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ，ＭＦＣＣ）に変換し、各音声フレームデータＶ３におけるユーザの音声特徴の変化を計算し、さらに式２を利用して音声データＶ１が１個以上の重複音声データを含むことを探し出し、重複音声データを取り込む。
【００２４】
続いて、データ解析モジュール３は、さらに重複音声データおよび重複画像データを各特徴取り込みパラメータ４１に個別に導入し、複数個の画像特徴配列Ｍ２および音声特徴配列Ｖ２で。各視聴覚関係モジュール４は、相互に対応した１組の画像特徴配列Ｍ２および音声特徴配列Ｖ２を一対にし、かつ各画像特徴配列Ｍ２に含まれるデータは異なっている。同様に、各音声特徴配列Ｖ２に含まれるデータも異なっている。ここで、認識音声および画像技術において、異なるジェスチャ画像Ｍ１および音声データＶ１を認識するために使用する特徴サンプルも異なることを説明する。例えば、データベース３２に事前に格納された２つのコマンドは、「座る」および「離れる」の２つを含むが、「座る」と「離れる」の発音は異なるため、取り込む音声データＶ１の特徴値および照合に用いる特徴サンプルも相違がある。
【００２５】
図４Ａで示す本発明の実施例の配列初期化の概要図、図４Ｂで示す本発明の実施例の画像特徴配列Ｍ２分割の概要図および図４Ｃで示す本発明の実施例の音声特徴配列Ｖ２分割の概要図を同時に参照する。
【００２６】
データ解析モジュール３は、各画像特徴配列Ｍ２および音声特徴配列Ｖ２を、同じ視聴覚関係モジュール４に対応することを条件に、各画像特徴配列Ｍ２および各音声特徴配列Ｖ２を各視聴覚関係パラメータ４２に導入し、複数個の視聴覚ステータスパラメータＳ１を計算する。
【００２７】
図４Ａに示すように、各画像特徴配列Ｍ２は、複数個の画像フレームデータＭ３を含み、各音声特徴配列Ｖ２は，複数個の音声フレームデータＶ３を含む。データ解析モジュール３は、画像特徴配列Ｍ２および音声特徴配列Ｖ２を初期化し、すなわち画像特徴配列Ｍ２および音声特徴配列Ｖ２を等分する。本実施例において、音声特徴配列Ｖ２は三等分に分割され、画像特徴配列Ｍ２は四等分に分割される。
【００２８】
図４Ｂに示すように、データ解析モジュール３は、隠れマルコフモデルを利用して音声特徴配列Ｖ２をトレーニングし、多種の異なる分割モードの音声フレームステータス組み合わせＶ４をプラニングする。本実施例において、どの種の分割モードであっても、音声特徴配列Ｖ２は３個の音声フレームステータスグループＶ５に分割され、各音声フレームステータスグループＶ５は１個以上の音声フレームデータＶ３を含む。ただし、その限りでなく、音声特徴配列Ｖ２は、２、４、５、６…などの異なる数の音声フレームステータスグループＶ５に分割することもできる。
【００２９】
図４Ｃに示すように、データ解析モジュール３は、隠れマルコフモデルを利用して画像特徴配列Ｍ２をトレーニングし、多種の異なる分割モードの画像フレームステータス組み合わせＭ４をプラニングする。本実施例において、どの種の分割モードであっても、画像特徴配列Ｍ２は４個の画像フレームステータスグループＭ５に分割され、各画像フレームステータスグループＭ５は１個以上の画像フレームデータＭ３を含む。ただし、その限りでなく、画像特徴配列Ｍ２は、２、３、５、６…などの異なる数の画像フレームステータスグループＭ５に分割することもできる。
【００３０】
ここで、音声フレームステータス組み合わせＶ４とは、同じ音声特徴配列Ｖ２に対して異なる分割方式を行い形成された分割結果をいうが、音声特徴配列Ｖ２に含まれる音声フレームデータＶ３は変わらないことを説明する。同様に、画像フレームステータス組み合わせＭ４とは、同じ画像特徴配列Ｍ２に対して異なる分割方式を行い形成された分割結果をいうが、画像特徴配列Ｍ２に含まれる画像フレームデータＭ３は変わらない。
【００３１】
本実施例において、データ解析モジュール３は、Ｖｉｔｅｒｂｉ演算法を利用して画像特徴配列Ｍ２および音声特徴配列Ｖ２に対して隠れマルコフモデルのトレーニングを行い、各音声フレームデータＶ３／画像フレームデータＭ３が、異なる時間にあるときに、どの音声フレームステータスグループＶ５／画像フレームステータスグループＭ５に存在するかを探し出す。
【００３２】
図５Ａで示す本発明の実施例のステータス対応関係の概要図を同時に参照する。各視聴覚関係モジュール４は、同じ視聴覚関係モジュール４の画像特徴配列Ｍ２および音声特徴配列Ｖ２に対応するときに、各画像フレームステータス組み合わせＭ４が各音声フレームステータス組み合わせＶ４に対応する確率パラメータ、および各音声フレームステータス組み合わせＶ４が各画像フレームステータス組み合わせＭ４に対応する確率パラメータを記録する、視聴覚関係パラメータ４２を含む。
【００３３】
図５Ａに示すように、音声フレームステータス組み合わせＶ４が画像フレームステータス組み合わせＭ４に対応する、そのうちの１種の対応モードであるが、その限りでない。本実施例において、画像特徴配列Ｍ２は４個の画像フレームステータスグループＭ５に分割され、音声特徴配列Ｖ２は３個の音声フレームステータスグループＶ５に分割される。各音声フレームステータスグループＶ５が各画像フレームステータスグループＭ５に対応する確率は、それぞれ１、１／１０、４／５、１／１０、１／２および１／２である。この種の対応確率関係は視聴覚関係パラメータ４２に記録され、逆に、各画像フレームステータスグループＭ５が各音声フレームステータスグループＶ５に対応する確率も、このモードにより、視聴覚関係パラメータ４２に含まれる。
【００３４】
図５Ｂで示す本発明の実施例のフレーム対応関係と確率統計の概要図を参照する。データ解析モジュール３は、前記のステータス組み合わせ対応モードに基づき、音声フレームステータス組み合わせＶ４が画像フレームステータス組み合わせＭ４に対応するステータス対応作業を行う。しかしながら、実際には、各音声フレームステータスグループＶ５に含まれる音声フレームデータＶ３は、必ずしも同じ数ではなく、同様に、各画像フレームステータスグループＭ５に含まれる画像フレームデータＭ３は、必ずしも同じ数ではない。そのため、同じ音声フレームステータス組み合わせＶ４および画像フレームステータス組み合わせＭ４のステータス関係計算の下、音声フレームデータＶ３および画像フレームデータＭ３の対応関係は、１対１、１対多および多対１の状況を形成し、各画像フレームステータスグループＭ５と各音声フレームステータスグループＶ５との間に、１個以上のフレーム対応関係をもたらす。データ解析モジュール３は、画像フレームステータスグループＭ５および音声フレームステータスグループＶ５を視聴覚関係パラメータ４２に導入するときに、異なるフレーム対応関係に基づき、１個以上の視聴覚認識確率値Ｓ３（音声の画像への対応および画像の音声への対応を含む）を算出する。今回の音声特徴配列Ｖ２が画像特徴配列Ｍ２に対応するフレーム対応作業については、２個の異なる視聴覚認識確率値Ｓ３を計算する。
【００３５】

【００３６】
データ解析モジュール３は最も大きいもの、すなわち０．００００４を取り、今回の音声特徴配列Ｖ２が画像特徴配列Ｍ２に対応する視聴覚サブステータスパラメータＳ４とする。
【００３７】
図５Ｃで示す本発明の実施例のフレーム対応関係と確率統計の概要図および図５Ｄで示す本発明の実施例の視聴覚関係パラメータ４２導入の概要図を同時に参照する。同じ視聴覚関係モジュール４に対応する状況において、データ解析モジュール３は、各音声特徴配列Ｖ２が各画像特徴配列Ｍ２に対応する視聴覚サブステータスパラメータＳ４、および各画像特徴配列Ｍ２が各音声特徴配列Ｖ２に対応する視聴覚サブステータスパラメータＳ４を計算する。図５Ｃでは、画像特徴配列Ｍ２が分割され４種の異なる画像フレームステータス組み合わせＭ４を形成し、音声特徴配列Ｖ２が分割され３種の異なる音声フレームステータス組み合わせＶ４を形成しており、これによって画像フレームステータス組み合わせＭ４と音声フレームステータス組み合わせＶ４との間に１２種（３×４）の対応関係が生成されるため、１２個の視聴覚サブステータスパラメータＳ４が生成される。データ解析モジュール３は、すべての視聴覚サブステータスパラメータＳ４の最も大きいものを取って、この視聴覚関係モジュール４に対応する視聴覚ステータスパラメータＳ１とし、順番に図４Ａから図５Ｄまでの運用モードで、各視聴覚関係モジュール４に対応する視聴覚ステータスパラメータＳ１を計算する。
【００３８】
計算モジュール３３は、各視聴覚関係モジュール４の視聴覚ステータスパラメータＳ１、画像特徴配列Ｍ２および音声特徴配列Ｖ２に基づき、それを式１に導入し、各視聴覚関係モジュール４に対応する認識確率Ｓ２を計算し、その中から最大値のものを取り、最後に選ぶ標的パラメータＴ１とする。この標的パラメータＴ１が属する視聴覚関係モジュール４が、ユーザが必要とするものである。また、視聴覚関係モジュール４は、コマンドをさらに含み、システムがユーザの動作を認識し、その対応する視聴覚関係モジュール４を選択したときに、選択された視聴覚関係モジュール４に含まれるコマンドを実行し、関連する後続作業を行う。
【００３９】
図６Ａで示す本発明の実施例の視聴覚を結合した動作認識方法の流れの概要図、図６Ｂから図６Ｅまでで示す本発明の実施例の視聴覚を結合した動作認識方法の細部の流れの概要図を参照し、理解しやすくするため図２Ａから図５Ｄを同時に参照する。この動作認識方法の流れは、以下のとおりである。
【００４０】
相互に対応するジェスチャ画像Ｍ１および音声データＶ１を取得する（ステップＳ１１０）。ジェスチャ画像Ｍ１は、撮影モジュール１１がユーザのジェスチャ動作を撮影して形成される。音声データＶ１は、マイク１２がユーザの発した声を拾って形成される。このジェスチャ画像Ｍ１および音声データＶ１は、対をなす視聴覚入力データである。
【００４１】
各視聴覚関係モジュール４が特徴取り込みパラメータ４１および視聴覚関係パラメータ４２を含む、複数個の視聴覚関係モジュール４を提供する（ステップＳ１２０）。すべての視聴覚関係モジュール４は、事前に構築され、かつデータベース３２に格納される。本実施例において、各視聴覚関係モジュール４が１人の動作に対応する。
【００４２】
複数個の画像特徴配列Ｍ２および複数個の音声特徴配列Ｖ２を取得する（ステップＳ１３０）。データ解析モジュール３は、相互に対応したジェスチャ画像Ｍ１および音声データＶ１を各特徴取り込みパラメータ４１に導入し、複数個の画像特徴配列Ｍ２および複数個の音声特徴配列Ｖ２を取得する。細部の運用の流れは以下のとおりである。
【００４３】
データ解析モジュール３は、先ずジェスチャ画像Ｍ１に含まれる複数個の画像フレームデータＭ３を解析し、各画像フレームデータＭ３に含まれる画像特徴値を取得する（ステップＳ１３１）。
【００４４】
すべての画像特徴値を利用して、ジェスチャ画像Ｍ１に複数個の重複画像データが含まれるか否かを判定する（ステップＳ１３２）。データ解析モジュール３は、ジェスチャ画像Ｍ１における各画像フレームデータＭ３の画像特徴値を解析し、各画像フレームデータＭ３におけるユーザのジェスチャパターンおよびその位置を計算し、ジェスチャの動きの軌跡を計算する。続いて、データ解析モジュール３は、自己相関関数を利用して、ジェスチャ画像Ｍ１に含まれる１個以上の重複画像データを演算する。自己相関関数は以下のとおりである。
【００４５】

式中、r_xx(k)は、時間推移ｋ上の自己相関関数値である。x(n)は、時間ｎ上の入力パラメータである。ｋは時間の推移である。Ｍは、ジェスチャ画像Ｍ１の総数である。データ解析モジュール３が、ジェスチャ画像Ｍ１に複数個の重複画像データが含まれると判定した場合、データ解析モジュール３が重複画像データを取り込み、各画像特徴配列Ｍ２を形成する（ステップＳ１３３）。逆に、ジェスチャ画像Ｍ１に複数個の重複画像データが含まれない場合、データ解析モジュール３がそのままジェスチャ画像Ｍ１を各画像特徴配列Ｍ２に変換する（ステップＳ１３４）。
【００４６】
音声データＶ１解析の面については、データ解析モジュール３が先ず音声データＶ１に含まれる複数個の音声フレームデータＶ３を解析し、各音声フレームデータＶ３に含まれる音声特徴値を取得する（ステップＳ１３５）。すべての音声特徴値を利用して、音声データＶ１に複数個の重複音声データが含まれるか否かを判定する（ステップＳ１３６）。データ解析モジュールが３各をメル周波数ケプストラム係数（Ｍｅｌ−ｓｃａｌｅＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ，ＭＦＣＣ）に変換し、各音声フレームデータＶ３におけるユーザの音声特徴の変化を計算し、さらに式２を利用して、音声データＶ１に１個以上の重複音声データが含まれるか否かを解析する。データ解析モジュール３が、音声データＶ１に１個以上の重複音声データが含まれると判定した場合、重複音声データを取り込み、各音声特徴配列Ｖ２を形成する（ステップＳ１３７）。逆の場合、データ解析モジュール３が音声データＶ１を各音声特徴配列Ｖ２に変換する（ステップＳ１３８）。
【００４７】
複数個の視聴覚ステータスパラメータＳ１を計算する（ステップＳ１４０）。データ解析モジュール３は、各画像特徴配列Ｍ２および音声特徴配列Ｖ２を、同じ視聴覚関係モジュール４に対応することを条件に、各画像特徴配列Ｍ２および各音声特徴配列Ｖ２を各視聴覚関係パラメータ４２に導入し、複数個の視聴覚ステータスパラメータＳ１を計算する。このステップＳ１４０は、数個の細部の流れを含む。
【００４８】
複数個の視聴覚サブステータスパラメータＳ４を取得する（ステップＳ１４１）。このステップは、数個の細部の流れを含む。
【００４９】
複数個の視聴覚認識確率値Ｓ３を取得する（ステップＳ１４１１）。図４Ａから図５Ｄまでに示すように、各画像特徴配列Ｍ２は、複数個の画像フレームデータＭ３を含み、各音声特徴配列Ｖ２は、複数個の音声フレームデータＶ３を含む。データ解析モジュール３は、画像特徴配列Ｍ２および音声特徴配列Ｖ２を初期化し、すなわち画像特徴配列Ｍ２および音声特徴配列Ｖ２を等分する。本実施例において、画像特徴配列Ｍ２は三等分に分割され、音声特徴配列Ｖ２は四等分に分割される。データ解析モジュール３は、隠れマルコフモデルを利用して画像特徴配列Ｍ２をトレーニングし、多種の異なる分割モードの画像フレームステータス組み合わせＭ４をプラニングする。本実施例において、どの種の分割モードであっても、画像特徴配列Ｍ２は三個の画像フレームステータスグループＭ５に分割され、各画像フレームステータスグループＭ５は１個以上の画像フレームデータＭ３を含む。ただし、その限りでなく、画像特徴配列Ｍ２は、２、４、５、６…などの異なる数の画像フレームステータスグループＭ５に分割することもできる。続いて、データ解析モジュール３は、隠れマルコフモデルを利用して音声特徴配列Ｖ２をトレーニングし、多種の異なる分割モードの音声フレームステータス組み合わせＶ４をプラニングする。本実施例において、どの種の分割モードであっても、音声特徴配列Ｖ２は４個の音声フレームステータスグループＶ５に分割され、各音声フレームステータスグループＶ５は１個以上の音声フレームデータＶ３を含む。ただし、その限りでなく、音声特徴配列Ｖ２は、２、３、５、６…などの異なる数の音声フレームステータスグループＶ５に分割することもできる。ここで、音声フレームステータス組み合わせＶ４とは、同じ音声特徴配列Ｖ２に対して異なる分割方式を行い形成された分割結果をいうが、音声特徴配列Ｖ２に含まれる音声フレームデータＶ３は変わらないことを説明する。同様に、画像フレームステータス組み合わせＭ４とは、同じ画像特徴配列Ｍ２に対して異なる分割方式を行い形成された分割結果をいうが、画像特徴配列Ｍ２に含まれる音声フレームデータＶ３は変わらない。その後、データ解析モジュール３は、Ｖｉｔｅｒｂｉ演算法を利用して画像特徴配列Ｍ２および音声特徴配列Ｖ２に対して隠れマルコフモデルのトレーニングを行い、各音声フレームデータＶ３／画像フレームデータＭ３が、異なる時間にあるときに、どの音声フレームステータスグループＶ５／画像フレームステータスグループＭ５に存在するかを探し出す。
【００５０】
各視聴覚関係モジュール４は、その同じ視聴覚関係モジュール４の画像特徴配列Ｍ２および音声特徴配列Ｖ２に対応するときに、各画像フレームステータス組み合わせＭ４が各音声フレームステータス組み合わせＶ４に対応する確率パラメータ、および各音声フレームステータス組み合わせＶ４が各画像フレームステータス組み合わせＭ４に対応する確率パラメータを記録する、視聴覚関係パラメータ４２を含む。
【００５１】
本実施例において、データ解析モジュール３は、前記のステータス組み合わせ対応モードに基づき、音声フレームステータス組み合わせＶ４が画像フレームステータス組み合わせＭ４に対応するステータス対応作業を行う。しかしながら、実際には、各音声フレームステータスグループＶ５に含まれる音声フレームデータＶ３は、必ずしも同じ数ではなく、同様に、各画像フレームステータスグループＭ５に含まれる画像フレームデータＭ３は、必ずしも同じ数ではない。そのため、同じ音声フレームステータス組み合わせＶ４および画像フレームステータス組み合わせＭ４のステータス関係計算の下、音声フレームデータＶ３および画像フレームデータＭ３の対応関係は、１対１、１対多および多対１の状況を形成し、各画像フレームステータスグループＭ５と各音声フレームステータスグループＶ５との間に、１個以上のフレーム対応関係をもたらす。データ解析モジュール３は、画像フレームステータスグループＭ５および音声フレームステータスグループＶ５を視聴覚関係パラメータ４２に導入するときに、異なるフレーム対応関係に基づき、１個以上の視聴覚認識確率値Ｓ３（音声の画像への対応および画像の音声への対応）を算出する。
【００５２】
その中から１つを選び、その回の関係計算に対応する視聴覚サブステータスパラメータＳ４とする（ステップＳ１４１２）。データ解析モジュール３は、すべての視聴覚認識確率値Ｓ３から数値が最も大きいものを取って、その回の音声特徴配列Ｖ２が画像特徴配列Ｍ２に対応する視聴覚サブステータスパラメータＳ４とする。このように類推し、データ解析モジュール３は、すべての音声特徴配列Ｖ２および画像特徴配列Ｍ２の組み合わせ形式が対応する視聴覚サブステータスパラメータＳ４を計算する。
【００５３】
すべての視聴覚サブステータスパラメータＳ４から１つを選び、視聴覚関係モジュール４が対応する視聴覚ステータスパラメータＳ１とする（ステップＳ１４２）。同じ視聴覚関係モジュール４に対応する状況において、データ解析モジュール３は、各音声特徴配列Ｖ２が各画像特徴配列Ｍ２に対応する視聴覚サブステータスパラメータＳ４、および各画像特徴配列Ｍ２が各音声特徴配列Ｖ２に対応する視聴覚サブステータスパラメータＳ４を計算し、すべての視聴覚サブステータスパラメータＳ４の最も大きいものを取り、この視聴覚関係モジュール４に対応する視聴覚ステータスパラメータＳ１とし、順番に図４Ａから図５Ｄまでの運用モードで、各視聴覚関係モジュール４に対応する視聴覚ステータスパラメータＳ１を計算する。
【００５４】
複数個の認識確率Ｓ２を計算する（ステップＳ１５０）。計算モジュール３３は、さらに各視聴覚関係モジュール４の視聴覚ステータスパラメータＳ１、画像特徴配列Ｍ２および音声特徴配列Ｖ２に基づき、それを公式１に導入し、各視聴覚関係モジュール４に対応する認識確率Ｓ２を計算する。計算モジュール３３で運用する計算式は以下のとおりである。
【００５５】

【００５６】
式中、 (G,A)は、同じ動作タイプのジェスチャおよび音声モデルである。p(O_G,S_G|G)は、ジェスチャ画像Ｍ１認識モデルである。p(S_A,S_G|G)は、ある画像特徴配列S_Gを与えた後、音声特徴配列S_Aが対応するジェスチャモデルGにおける視聴覚サブステータスパラメータである。p(O_A,S_A|A)は、音声コマンド認識モデルである。p(S_G,S_A|A)は、音声特徴配列S_Aを与えた後、画像特徴配列S_Gが対応する音声コマンドモデルAにおける視聴覚サブステータスパラメータである。
【００５７】
すべての認識確率Ｓ２から標的パラメータＴ１を取り出す（ステップＳ１６０）。データ解析モジュール３は、すべての認識確率Ｓ２から最大値のものを取り出し、最後に選ぶ標的パラメータＴ１とする。この標的パラメータＴ１が属する視聴覚関係モジュール４が、ユーザが必要とするものである。
【００５８】
図７で示す本発明の実施例の視聴覚関係モジュール４確立方法の流れ図を参照し、視聴覚関係モジュール４がいかにしてトレーニングおよび確立されるかを説明し、理解しやすくするため図８Ａから図８Ｄまでを同時に参照する。視聴覚関係モジュール４確立方法の流れについて、以下のとおり説明する。
【００５９】
対応するトレーニング画像ＭＴ１およびトレーニング音声ＶＴ１を取得する（ステップＳ２１０）。トレーニング画像ＭＴ１は、撮影モジュール１１がユーザのジェスチャ動作を撮影して形成される。トレーニング音声ＶＴ１は、マイク１２がユーザの発した声を拾って形成される。このトレーニング画像ＭＴ１およびトレーニング音声ＶＴ１は、対をなす視聴覚入力データである。
【００６０】
トレーニング画像ＭＴ１およびトレーニング音声ＶＴ１を変換して、画像トレーニング配列ＭＴ２および音声トレーニング配列ＶＴ２を形成する（ステップＳ２２０）。データ解析モジュール３は、トレーニング画像ＭＴ１における各トレーニング画像フレームＭＴ３の画像特徴値を解析し、各トレーニング画像フレームＭＴ３におけるユーザのジェスチャパターンおよびその位置を計算し、ジェスチャの動きの軌跡を計算する。続いて、データ解析モジュール３は、自己相関関数（式２）を利用して、トレーニング画像ＭＴ１に含まれる１個以上の重複画像データを演算し、重複画像データを取り込む。
【００６１】
また、データ解析モジュール３は、トレーニング音声ＶＴ１における各トレーニング音声フレームＶＴ３の音声特徴値を解析し、メル周波数ケプストラム係数（Ｍｅｌ−ｓｃａｌｅＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ，ＭＦＣＣ）に変換し、各トレーニング音声フレームＶＴ３におけるユーザの音声特徴の変化を計算し、さらに式２を利用してトレーニング音声ＶＴ１が１個以上の重複音声データを含むことを探し出し、重複音声データを取り込む。
【００６２】
複数種の分割方式を利用して画像トレーニング配列ＭＴ２および音声トレーニング配列ＶＴ２を個別に分割し、複数個の画像分割配列および複数個の音声分割配列を形成する（ステップＳ２３０）。図８Ａに示すように、データ解析モジュール３は、画像トレーニング配列ＭＴ２および音声トレーニング配列ＶＴ２を初期化し、すなわち画像トレーニング配列ＭＴ２および音声トレーニング配列ＶＴ２を等分する。本実施例において、画像トレーニング配列ＭＴ２は三等分に分割され、音声トレーニング配列ＶＴ２は四等分に分割される。
【００６３】
図８Ｂに示すように、データ解析モジュール３は、隠れマルコフモデルを利用して音声トレーニング配列ＶＴ２をトレーニングし、多種の異なる分割モードの音声フレームトレーニング組み合わせＶＴ４をプラニングする。
【００６４】
図８Ｃに示すように、データ解析モジュール３は、隠れマルコフモデルを利用して画像トレーニング配列ＭＴ２をトレーニングし、多種の異なる分割モードの画像フレームトレーニング組み合わせＭＴ４をプラニングする。
【００６５】
本実施例において、どの種の分割モードであっても、画像トレーニング配列ＭＴ２は３個の画像フレームトレーニンググループ５に分割され、各画像フレームトレーニンググループ５は１個以上のトレーニング画像フレームＭＴ３を含む。音声トレーニング配列ＶＴ２は、４個の音声フレームトレーニンググループＶＴ５に分割され、各音声フレームトレーニンググループＶＴ５は１個以上のトレーニング音声フレームＶＴ３を含むが、その限りでない。
【００６６】
図８Ｄに示すように、データ解析モジュール３は、各音声フレームトレーニング組み合わせＶＴ４を個別に画像フレームトレーニング組み合わせＭＴ４と対にする。音声フレームトレーニング組み合わせＶＴ４に５種の形態があり、画像フレームトレーニング組み合わせＭＴ４に６種の形態がある場合、音声フレームトレーニング組み合わせＶＴ４が画像フレームトレーニング組み合わせＭＴ４に個別に対応する対応関係形態は、計５×６＝３０種である。
【００６７】
すべての画像トレーニング配列ＭＴ２およびすべての音声トレーニング配列ＶＴ２の対応関係を推算し、各視聴覚関係モジュール４に属する視聴覚関係パラメータ４２を生成する（ステップＳ２４０）。
【００６８】
図８Ｄに示すように、各画像トレーニング配列ＭＴ２は四個の画像フレームトレーニンググループ５に分割され、各音声トレーニング配列ＶＴ２は三個の音声フレームトレーニンググループＶＴ５に分割される。データ解析モジュール３は各対応関係の形態における、各画像フレームトレーニンググループ５および各音声フレームトレーニンググループＶＴ５の個別の確率値を計算する。
【００６９】
図８Ｄに示す２つのトレーニングデータの対応関係では、上側に示す音声フレームトレーニング組み合わせＶＴ４および画像フレームトレーニング組み合わせＭＴ４の対応関係モードにおいて、各音声フレームトレーニンググループＶＴ５が各画像フレームトレーニンググループ５に対応する確率値は、それぞれ３／３、４／５、１／５、２／４および２／４である。
【００７０】
図８Ｄの下側に示す音声フレームトレーニング組み合わせＶＴ４および画像フレームトレーニング組み合わせＭＴ４の対応関係モードにおいて、各音声フレームトレーニンググループＶＴ５が各画像フレームトレーニンググループ５に対応する確率値は、それぞれ３／３、１／５、４／５、２／４および２／４である。
【００７１】
続いて，データ解析モジュール３は、２回の対応関係について確率の統合を行い、各音声フレームトレーニンググループＶＴ５が画像フレームトレーニンググループ５に対応する個別の確率値、および各画像フレームトレーニンググループ５が音声フレームトレーニンググループＶＴ５に対応する個別の確率値を探し出し、５Ｃに示す視聴覚関係パラメータ４２、すなわち式１に示すp(O_G,S_G|G)p(S_G,S_A|A)を形成する。
【００７２】
また、データ解析モジュール３は、トレーニング画像ＭＴ１およびトレーニング音声ＶＴ１の特徴取り込みモードが各視聴覚関係モジュール４である特徴取り込みパラメータ４１を記録する（ステップＳ２５０）。最後に、データ解析モジュール３は、異なる動作に基づき、特徴取り込みパラメータ４１および視聴覚関係パラメータ４２を記録して各視聴覚関係モジュール４を形成し（ステップＳ２６０）、すべての視聴覚関係モジュール４をデータベース３２に格納する。
【００７３】
前記の内容は、本発明の課題を解決するために採用した技術手段の実施形態または実施例を記載したのみであり、本発明の特許実施の範囲を限定するために用いられたものではない。本発明の特許請求の範囲の意味に合致する、または本発明の特許範囲により行われる同等の変更および修正は、いずれも本発明の特許範囲で網羅される。
【符号の説明】
【００７４】
１１撮影モジュール
１２マイク
３認識ホスト
３１データ解析モジュール
３２データベース
３３計算モジュール
４視聴覚関係モジュール
４１特徴取り込みパラメータ
４２視聴覚関係パラメータ
Ｍ１ジェスチャ画像
Ｍ２画像特徴配列
Ｍ３画像フレームデータ
Ｍ４画像フレームステータス組み合わせ
Ｍ５画像フレームステータスグループ
ＭＴ１トレーニング画像
ＭＴ２画像トレーニング配列
ＭＴ３トレーニング画像フレーム
ＭＴ４画像フレームトレーニング組み合わせ
ＭＴ５画像フレームトレーニンググループ
Ｖ１音声データ
Ｖ２音声特徴配列
Ｖ３音声フレームデータ
Ｖ４音声フレームステータス組み合わせ
Ｖ５音声フレームステータスグループ
ＶＴ１トレーニング音声
ＶＴ２音声トレーニング配列
ＶＴ３トレーニング音声フレーム
ＶＴ４音声フレームトレーニング組み合わせ
ＶＴ５音声フレームトレーニンググループ
Ｓ１視聴覚ステータスパラメータ
Ｓ２認識確率
Ｓ３視聴覚認識確率値
Ｓ４視聴覚サブステータスパラメータ
Ｔ１標的パラメータ

【特許請求の範囲】
【請求項１】
各視聴覚関係モジュールに特徴取り込みパラメータおよび視聴覚関係パラメータが含まれる、複数個の視聴覚関係モジュールを格納するデータベースと、
相互に対応するジェスチャ画像および音声データを各該特徴取り込みパラメータに導入し、複数個の画像特徴配列および複数個の音声特徴配列を取得し、同じ該視聴覚関係モジュールに対応することを条件に、各該画像特徴配列および各該音声特徴配列を各該視聴覚関係パラメータに導入し、複数個の視聴覚ステータスパラメータを計算するデータ解析モジュールと、
該画像特徴配列、該音声特徴配列および該視聴覚ステータスパラメータを利用して、各視聴覚関係モジュールに対応する認識確率を計算し、該認識確率から標的パラメータを取り出す計算モジュールと、
を備えた、視聴覚を結合した動作認識システム。
【請求項２】
各該画像特徴配列が、複数個の画像フレームステータス組み合わせを形成する複数個の画像フレームデータを含み、各該音声特徴配列が、複数個の音声フレームステータス組み合わせを形成する複数個の音声フレームデータを含み、該データ解析モジュールが、各該画像フレームステータス組み合わせおよび各該音声フレームステータス組み合わせを同じ該視聴覚関係モジュールに対応する該視聴覚関係パラメータに導入し、複数個の視聴覚サブステータスパラメータを計算し、その中から１つの最大数値の該視聴覚サブステータスパラメータを選び、該視聴覚関係モジュールが対応する該視聴覚ステータスパラメータとする請求項１に記載の視聴覚を結合した動作認識システム。
【請求項３】
該データ解析モジュールが、隠れマルコフモデルを利用して該音声特徴配列と該画像特徴配列をトレーニングし、該音声フレームステータス組み合わせと該画像フレームステータス組み合わせを形成する請求項２に記載の視聴覚を結合した動作認識システム。
【請求項４】
各該画像特徴配列が、複数個の画像フレームステータスグループを含み、各該音声特徴配列が、複数個の音声フレームステータスグループを含み、同じ該視聴覚関係モジュールに対応することを条件に、該特徴取り込みパラメータが、各該画像フレームステータスグループが各該音声フレームステータスグループに対応する確率パラメータ、および各該音声フレームステータスグループが各該画像フレームステータスグループに対応する確率パラメータを記録する請求項２に記載の視聴覚を結合した動作認識システム。
【請求項５】
該ジェスチャ画像が複数個の画像フレームデータを含み、各画像フレームデータが画像特徴値を含み、該データ解析モジュールが該画像特徴値を利用して該ジェスチャ画像が少なくとも１つの重複画像データを含むこと判定し、重複画像データを取り込み、各該画像特徴配列を形成し、該音声データが複数個の音声フレームデータを含み、各音声フレームデータが音声特徴値を含み、該データ解析モジュールが該音声特徴値を利用して該音声データが少なくとも１つの重複音声データを含むことを判定し、重複音声データを取り込み、各該音声特徴配列を形成する請求項１に記載の視聴覚を結合した動作認識システム。
【請求項６】
相互に対応するジェスチャ画像および音声データを取得するステップと、
各視聴覚関係モジュールが特徴取り込みパラメータおよび視聴覚関係パラメータを含む、複数個の視聴覚関係モジュールを提供するステップと、
複数個の画像特徴配列および複数個の音声特徴配列を取得し、該ジェスチャ画像および該音声データを該特徴取り込みパラメータに個別に導入し、該画像特徴配列および該音声特徴配列を計算するステップと、
複数個の視聴覚ステータスパラメータを計算し、同じ該視聴覚関係モジュールに対応することを条件に、各該画像特徴配列および各該音声特徴配列を各該視聴覚関係パラメータに導入し、該視聴覚ステータスパラメータに取得するステップと、
複数個の認識確率を計算し、該画像特徴配列、該音声特徴配列および該視聴覚ステータスパラメータを利用して、各視聴覚関係モジュールに対応する認識確率を計算するステップと、
該認識確率から標的パラメータを取り出すステップと、
を含む視聴覚を結合した動作認識方法。
【請求項７】
各該画像特徴配列が、複数個の画像フレームステータス組み合わせを形成する複数個の画像フレームデータを含み、各該音声特徴配列が、複数個の音声フレームステータス組み合わせを形成する複数個の音声フレームデータを含み、複数個の視聴覚ステータスパラメータを計算する該ステップは、
複数個の視聴覚サブステータスパラメータを取得し、各該画像フレームステータス組み合わせおよび各該音声フレームステータス組み合わせを同じ該視聴覚関係モジュールに対応する該視聴覚関係パラメータに導入し、該視聴覚サブステータスパラメータを計算するステップと、
該視聴覚サブステータスパラメータから１つ選び、該視聴覚関係モジュールが対応する該視聴覚ステータスパラメータとし、該視聴覚ステータスパラメータが、該視聴覚サブステータスパラメータにおける、最大数値の該視聴覚サブステータスパラメータとするステップと、
を含む請求項６に記載の視聴覚を結合した動作認識方法。
【請求項８】
該音声フレームステータス組み合わせおよび該画像フレームステータス組み合わせが、隠れマルコフモデルにより、トレーニングで形成される請求項７に記載の視聴覚を結合した動作認識方法。
【請求項９】
各該画像特徴配列が複数個の画像フレームステータスグループを含み、各該音声特徴配列が複数個の音声フレームステータスグループを含み、各特徴取り込みパラメータが、各画像フレームステータスグループが各該音声フレームステータスグループに対応する確率パラメータを記録する請求項７に記載の視聴覚を結合した動作認識方法。
【請求項１０】
該視聴覚関係モジュール確立方法が、
対応するトレーニング画像およびトレーニング音声を取得するステップと、
該トレーニング画像および該トレーニング音声を変換し、複数個の画像フレームデータを含む画像トレーニング配列および複数個の音声フレームデータを含む音声トレーニング配列を形成し、
複数種の分割方式を利用して該画像トレーニング配列および該音声トレーニング配列を個別に分割し、複数個の画像分割配列および複数個の音声分割配列を形成するステップと、
該画像分割配列および該音声分割配列の対応関係を推算し、該視聴覚関係モジュールに属する該視聴覚関係パラメータを生成するステップと、
該トレーニング画像および該トレーニング音声の特徴取り込みモードが該視聴覚関係モジュールである特徴取り込みパラメータを記録するステップと、
該特徴取り込みパラメータおよび該視聴覚関係パラメータを記録し、該視聴覚関係モジュールを形成するステップと、
を含む請求項６に記載の視聴覚を結合した動作認識方法。

【図１Ａ】