説明

視聴覚を結合した動作認識システムおよびその認識方法

【課題】本発明は、視聴覚を結合した動作認識システムおよびその認識方法を開示する。
【解決手段】このシステムは、データ解析モジュールと、データベースと、計算モジュールとを備える。データベースは、多種の異なる視聴覚関係モジュールを格納し、各視聴覚関係モジュールは、特徴取り込みパラメータと、視聴覚関係パラメータとを含む。データ解析モジュールは、対応するジェスチャ画像および音声データを取得し、各特徴取り込みパラメータに導入し、各視聴覚関係モジュールに対応する画像特徴配列および音声特徴配列を形成する。データ解析モジュールは、さらに各視聴覚関係パラメータを利用して、複数の視聴覚ステータスパラメータを計算する。計算モジュールは、さらに視聴覚ステータスパラメータ、画像特徴配列および音声特徴配列を利用し、各視聴覚関係パラメータに対応する認識確率を計算し、その中から最大値のものを取り出し、標的パラメータとする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動作認識システムおよびその認識方法に関し、特に画像と音声を結合し、その配列対応関係により正確な動作を認識する動作認識システムおよびその認識方法に関する。
【背景技術】
【0002】
図1Aで示す従来技術の画像認識の概要図および図1Bで示す従来技術の音声認識の概要図を参照する。
従来技術において、認識技術は、画像認識と音声認識とを含む。画像認識技術については、認識ホスト2内に複数種の画像サンプルが格納してあり、撮影モジュール11がユーザのジェスチャを撮影してジェスチャ画像を形成し、ジェスチャ画像を画像サンプルと突合せ、ジェスチャ画像に対応するコマンドを探し出す。さらに、ジェスチャ画像全体について画像特徴取り込み作業を行い、特徴値の照合技術によりジェスチャ画像の認識率を高めているものもある。
【0003】
音声認識技術については、認識ホスト2内に複数種の音声サンプルが格納してあり、マイク12がユーザの声を拾い、音声データを形成し、音声データを音声サンプルと突合せ、音声データに対応するコマンドを探し出す。さらに、音声データ全体について音声特徴取り込み作業を行い、特徴値の照合技術により音声データの認識率を高めているものもある。
【0004】
認識率を高めるため、業者はジェスチャ画像と音声データとを結合した認識技術をさらに発展させている。しかしながら、画像認識技術については、現在の画像認識システムは、画像特徴取り込み技術を結合してはいるが、重複的ジェスチャ画像が特徴取り込みの誤りをもたらすことがある問題を考慮しておらず、認識率が上がらずに、逆に下がっている。次に、画像認識技術で音声認識技術が組み合わせていない場合、ジェスチャ画像認識に失敗すると、認識システムが人の動作の意図を正確に推断できなくなる。同様に、音声認識技術で画像認識技術が組み合わせていない場合、音声データ認識に失敗すると、認識システムが同じく人の動作の意図を正確に推断できなくなる。しかしながら、ジェスチャ画像と音声データを結合した認識技術の多くは、ジェスチャ画像と音声データの線形結合を行っており、認識システムが外的要因(例えば、過多のノイズを含む音声データ、または過多の光源干渉を含むジェスチャ画像,または異常な特徴データの取り込み)によって画像または音声のいずれかに対する認識に失敗した場合、逆にジェスチャ画像と音声データの線形結合で誤った認識結果がもたらされる。
【0005】
そのため、いかにして外部干渉要因の認識システムに対する影響を下げ、さらには、認識システムの異常な特徴の取り込みを減らし、人の動作に対する認識率を高めるかが、業者が思慮する問題となっている。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、外部干渉要因の認識システムに対する影響を下げ、人の動作に対する認識率を高める動作認識システムおよび認識方法を提供することである。
【課題を解決するための手段】
【0007】
前記システムの課題を解決するため、本発明は、データベースと、データ解析モジュールと、計算モジュールとを含む、視聴覚を結合した動作認識システムを開示する。データベースは、複数個の視聴覚関係モジュールを含み、各視聴覚関係モジュールは、特徴取り込みパラメータと、視聴覚関係パラメータとを含む。データ解析モジュールは、相互に対応するジェスチャ画像および音声データを各特徴取り込みパラメータに導入し、複数個の画像特徴配列および音声特徴配列を取得し、同じ視聴覚関係モジュールに対応することを条件に、各画像特徴配列および各音声特徴配列を各視聴覚関係パラメータに導入し、複数個の視聴覚ステータスパラメータを計算する。計算モジュールは、すべての画像特徴配列、すべての音声特徴配列およびすべての視聴覚ステータスパラメータを利用して、各視聴覚関係モジュールに対応する認識確率を計算し、すべての認識確率から標的パラメータを取り出す。
【0008】
前記方法の課題を解決するため、本発明は、相互に対応するジェスチャ画像および音声データを取得することを含む、視聴覚を結合した動作認識方法を開示する。複数個の視聴覚関係モジュールを提供し、各視聴覚関係モジュールは、特徴取り込みパラメータと視聴覚関係パラメータとを含む。ジェスチャ画像および音声データを各特徴取り込みパラメータに個別に導入し、複数個の画像特徴配列および複数個の音声特徴配列を計算する。同じ視聴覚関係モジュールに対応することを条件に、各画像特徴配列および各音声特徴配列を各視聴覚関係パラメータに導入し、複数個の視聴覚ステータスパラメータを計算する。すべての画像特徴配列、すべての音声特徴配列およびすべての視聴覚ステータスパラメータを利用し、各視聴覚関係モジュールに対応する認識確率を計算し、すべての認識確率から標的パラメータを取り出す。
【0009】
本発明の特徴は、本発明がジェスチャ画像および音声データを画像特徴配列および音声特徴配列に変換し、2つの配列の視聴覚特徴関係を計算し、外部干渉要因のジェスチャ画像および音声データに対する影響によりシステム取り込みに誤った特徴を生成する問題を減らすことによって、人の動作に対する認識率を高めることにある。
【0010】
次に、本発明で開示する視聴覚特徴関係対応技術は、ジェスチャ画像に含まれる重複画像データおよび音声データに含まれる重複音声データの数を突合せできない場合でも、ジェスチャ画像および音声データを相互に突合せて計算可能な画像特徴配列および音声特徴配列に変換することによって、2つの配列の視聴覚特徴関係を探し出すことができ、人の動作の認識作業に有益である。
【図面の簡単な説明】
【0011】
【図1A】従来技術の画像認識の概要図である。
【図1B】従来技術の音声認識の概要図である。
【図2A】本発明の実施例の動作認識システムの構造図である。
【図2B】本発明の実施例の動作認識システムのブロック図である。
【図3A】本発明の実施例のジェスチャ画像特徴取り込みの概要図である。
【図3B】本発明の実施例のジェスチャ移動軌跡を方向性曲線に量化する概要図である。
【図3C】本発明の実施例の角度区間量化の概要図である。
【図4A】本発明の実施例の配列初期化の概要図である。
【図4B】本発明の実施例の画像特徴配列分割の概要図である。
【図4C】本発明の実施例の音声特徴配列分割の概要図である。
【図5A】本発明の実施例のステータス対応関係の概要図である。
【図5B】本発明の実施例のフレーム対応関係と確率統計の概要図である。
【図5C】本発明の実施例のフレーム対応関係と確率統計の概要図である。
【図5D】本発明の実施例の視聴覚関係パラメータ導入の概要図である。
【図6A】本発明の実施例の動作認識方法の流れの概要図である。
【図6B】本発明の実施例の視聴覚を結合した動作認識方法の細部の流れの概要図である。
【図6C】本発明の実施例の視聴覚を結合した動作認識方法の細部の流れの概要図である。
【図6D】本発明の実施例の視聴覚を結合した動作認識方法の細部の流れの概要図である。
【図6E】本発明の実施例の視聴覚を結合した動作認識方法の細部の流れの概要図である。
【図7】本発明の実施例の視聴覚関係モジュール確立の流れ図である。
【図8A】本発明の実施例のトレーニングデータ初期化の概要図である。
【図8B】本発明の実施例の音声トレーニング配列分割の概要図である。
【図8C】本発明の実施例の画像トレーニング配列分割の概要図である。
【図8D】本発明の実施例のトレーニング組み合わせを一対にする概要図である。
【発明を実施するための形態】
【0012】
図面と合わせ、本発明の好ましい実施例について以下のとおり詳細に説明する。
【実施例】
【0013】
先ず、図2Aで示す本発明の実施例の視聴覚を結合した動作認識システムの構造図および図2Bで示す本発明の実施例の視聴覚を結合した動作認識システムのブロック図を参照する。図3Aで示す本発明の実施例のジェスチャ画像M1特徴取り込みの概要図、図3Bで示す本発明の実施例のジェスチャ移動軌跡を方向性曲線に量化する概要図、図3Cで示す本発明の実施例の角度区間量化の概要図および図4Aで示す本発明の実施例の配列初期化の概要図、図4Bで示す本発明の実施例の画像特徴配列M2分割の概要図および図4Cで示す本発明の実施例の音声特徴配列V2分割の概要図を同時に参照する。本実施例で開示するシステムは、認識ホスト3に配置することによって説明する。この認識ホスト3には、撮影モジュール11およびマイク12を接続し、認識ホスト3は、データベース32と、データ解析モジュール3と、計算モジュール33とを含む。
【0014】
撮影モジュール11は、ビデオカメラまたはデジタルスチルカメラなどの連続画像を撮影する撮影設備であり、この撮影モジュール11をユーザのジェスチャ動作の撮影に用いて、ジェスチャ画像M1を形成する。マイク12をユーザが発した声を拾うために用いて、音声データV1を形成する。このジェスチャ画像M1および音声データV1は、対をなした視聴覚入力データである。
【0015】
データベース32には、複数個の視聴覚関係モジュール4が事前に格納されており、各視聴覚関係モジュール4は、特徴取り込みパラメータ41と、視聴覚関係パラメータ42とを含む。例えば、各視聴覚関係モジュール4が1人の動作に対応する。
【0016】
データ解析モジュール3は、相互に対応するジェスチャ画像M1および音声データV1を各特徴取り込みパラメータ41に導入し、複数個の画像特徴配列M2および複数個の音声特徴配列V2を取得し、同じ視聴覚関係モジュール4に対応することを条件に、各画像特徴配列M2および各音声特徴配列V2を各視聴覚関係パラメータ42に導入し、複数個の視聴覚ステータスパラメータS1を計算する。
【0017】
最後に、計算モジュール33が、画像特徴配列M2、音声特徴配列V2および視聴覚ステータスパラメータS1を利用して、各視聴覚関係モジュール4に対応する認識確率S2を計算し、認識確率S2から標的パラメータT1を取り出す。計算モジュール33で運用する計算式は以下のとおりである。
【0018】

式中、 (G,A)は、同じ動作タイプのジェスチャおよび音声モデルである。p(OG,SG|G)は、ジェスチャ画像M1認識モデルである。p(SA,SG|G)は、ある画像特徴配列SGを与えた後、音声特徴配列SAが対応するジェスチャモデルGにおける視聴覚ステータスパラメータである。p(OA,SA|A)は、音声コマンド認識モデルである。p(SG,SA|A)は、音声特徴配列SAを与えた後、画像特徴配列SGが対応する音声コマンドモデルAにおける視聴覚ステータスパラメータである。認識の面で、各視聴覚関係モジュール4の認識確率S2は、下式で計算して得られる。
【0019】

式中、各認識確率S2のうち数値が最も大きいものが属する視聴覚関係モジュール4が動作タイプ(G*,A*)である。以下、システムの細部の運用モードについて説明する。
【0020】
図3Aで示す本発明の実施例のジェスチャ画像M1特徴取り込みの概要図、図3Bで示す本発明の実施例のジェスチャ移動軌跡を方向性曲線に量化する概要図および図3Cで示す本発明の実施例の角度区間量化の概要図を同時に参照する。本実施例において、データ解析モジュール3は、ジェスチャ画像M1における各画像フレームの画像特徴値を解析し、各画像フレームデータM3におけるユーザのジェスチャパターンおよびその位置(点線部分)を計算し、ジェスチャの動きの軌跡を計算する。続いて、データ解析モジュール3は、自己相関関数を利用して、ジェスチャ画像M1に含まれる1個以上の重複画像データを演算し、重複画像データを取り込む。自己相関関数は以下のとおりである。
【0021】

式中、rxx(k)は、時間推移k上の自己相関関数値である。x(n)は、時間n上の入力パラメータである。kは時間の推移である。Mは、ジェスチャ画像M1の総数である。図3Bでは、データ解析モジュール3はt=0からt=14までの間の重複画像データを取り込むが、その限りでなく、その他の重複画像データも可能である。
【0022】
正確さを求めるため、画像特徴値の取り込み時に、データ解析モジュール3は、先ず図3Cで示す角度区間量化の概要図を利用して、さらにジェスチャ画像M1画像特徴値を方向性に量化する特徴について説明する。
【0023】
データ解析モジュール3は、音声データV1における音声フレームデータV3の音声特徴値を解析し、メル周波数ケプストラム係数(Mel−scale Frequency Cepstral Coefficients,MFCC)に変換し、各音声フレームデータV3におけるユーザの音声特徴の変化を計算し、さらに式2を利用して音声データV1が1個以上の重複音声データを含むことを探し出し、重複音声データを取り込む。
【0024】
続いて、データ解析モジュール3は、さらに重複音声データおよび重複画像データを各特徴取り込みパラメータ41に個別に導入し、複数個の画像特徴配列M2および音声特徴配列V2で。各視聴覚関係モジュール4は、相互に対応した1組の画像特徴配列M2および音声特徴配列V2を一対にし、かつ各画像特徴配列M2に含まれるデータは異なっている。同様に、各音声特徴配列V2に含まれるデータも異なっている。ここで、認識音声および画像技術において、異なるジェスチャ画像M1および音声データV1を認識するために使用する特徴サンプルも異なることを説明する。例えば、データベース32に事前に格納された2つのコマンドは、「座る」および「離れる」の2つを含むが、「座る」と「離れる」の発音は異なるため、取り込む音声データV1の特徴値および照合に用いる特徴サンプルも相違がある。
【0025】
図4Aで示す本発明の実施例の配列初期化の概要図、図4Bで示す本発明の実施例の画像特徴配列M2分割の概要図および図4Cで示す本発明の実施例の音声特徴配列V2分割の概要図を同時に参照する。
【0026】
データ解析モジュール3は、各画像特徴配列M2および音声特徴配列V2を、同じ視聴覚関係モジュール4に対応することを条件に、各画像特徴配列M2および各音声特徴配列V2を各視聴覚関係パラメータ42に導入し、複数個の視聴覚ステータスパラメータS1を計算する。
【0027】
図4Aに示すように、各画像特徴配列M2は、複数個の画像フレームデータM3を含み、各音声特徴配列V2は,複数個の音声フレームデータV3を含む。データ解析モジュール3は、画像特徴配列M2および音声特徴配列V2を初期化し、すなわち画像特徴配列M2および音声特徴配列V2を等分する。本実施例において、音声特徴配列V2は三等分に分割され、画像特徴配列M2は四等分に分割される。
【0028】
図4Bに示すように、データ解析モジュール3は、隠れマルコフモデルを利用して音声特徴配列V2をトレーニングし、多種の異なる分割モードの音声フレームステータス組み合わせV4をプラニングする。本実施例において、どの種の分割モードであっても、音声特徴配列V2は3個の音声フレームステータスグループV5に分割され、各音声フレームステータスグループV5は1個以上の音声フレームデータV3を含む。ただし、その限りでなく、音声特徴配列V2は、2、4、5、6…などの異なる数の音声フレームステータスグループV5に分割することもできる。
【0029】
図4Cに示すように、データ解析モジュール3は、隠れマルコフモデルを利用して画像特徴配列M2をトレーニングし、多種の異なる分割モードの画像フレームステータス組み合わせM4をプラニングする。本実施例において、どの種の分割モードであっても、画像特徴配列M2は4個の画像フレームステータスグループM5に分割され、各画像フレームステータスグループM5は1個以上の画像フレームデータM3を含む。ただし、その限りでなく、画像特徴配列M2は、2、3、5、6…などの異なる数の画像フレームステータスグループM5に分割することもできる。
【0030】
ここで、音声フレームステータス組み合わせV4とは、同じ音声特徴配列V2に対して異なる分割方式を行い形成された分割結果をいうが、音声特徴配列V2に含まれる音声フレームデータV3は変わらないことを説明する。同様に、画像フレームステータス組み合わせM4とは、同じ画像特徴配列M2に対して異なる分割方式を行い形成された分割結果をいうが、画像特徴配列M2に含まれる画像フレームデータM3は変わらない。
【0031】
本実施例において、データ解析モジュール3は、Viterbi演算法を利用して画像特徴配列M2および音声特徴配列V2に対して隠れマルコフモデルのトレーニングを行い、各音声フレームデータV3/画像フレームデータM3が、異なる時間にあるときに、どの音声フレームステータスグループV5/画像フレームステータスグループM5に存在するかを探し出す。
【0032】
図5Aで示す本発明の実施例のステータス対応関係の概要図を同時に参照する。各視聴覚関係モジュール4は、同じ視聴覚関係モジュール4の画像特徴配列M2および音声特徴配列V2に対応するときに、各画像フレームステータス組み合わせM4が各音声フレームステータス組み合わせV4に対応する確率パラメータ、および各音声フレームステータス組み合わせV4が各画像フレームステータス組み合わせM4に対応する確率パラメータを記録する、視聴覚関係パラメータ42を含む。
【0033】
図5Aに示すように、音声フレームステータス組み合わせV4が画像フレームステータス組み合わせM4に対応する、そのうちの1種の対応モードであるが、その限りでない。本実施例において、画像特徴配列M2は4個の画像フレームステータスグループM5に分割され、音声特徴配列V2は3個の音声フレームステータスグループV5に分割される。各音声フレームステータスグループV5が各画像フレームステータスグループM5に対応する確率は、それぞれ1、1/10、4/5、1/10、1/2および1/2である。この種の対応確率関係は視聴覚関係パラメータ42に記録され、逆に、各画像フレームステータスグループM5が各音声フレームステータスグループV5に対応する確率も、このモードにより、視聴覚関係パラメータ42に含まれる。
【0034】
図5Bで示す本発明の実施例のフレーム対応関係と確率統計の概要図を参照する。データ解析モジュール3は、前記のステータス組み合わせ対応モードに基づき、音声フレームステータス組み合わせV4が画像フレームステータス組み合わせM4に対応するステータス対応作業を行う。しかしながら、実際には、各音声フレームステータスグループV5に含まれる音声フレームデータV3は、必ずしも同じ数ではなく、同様に、各画像フレームステータスグループM5に含まれる画像フレームデータM3は、必ずしも同じ数ではない。そのため、同じ音声フレームステータス組み合わせV4および画像フレームステータス組み合わせM4のステータス関係計算の下、音声フレームデータV3および画像フレームデータM3の対応関係は、1対1、1対多および多対1の状況を形成し、各画像フレームステータスグループM5と各音声フレームステータスグループV5との間に、1個以上のフレーム対応関係をもたらす。データ解析モジュール3は、画像フレームステータスグループM5および音声フレームステータスグループV5を視聴覚関係パラメータ42に導入するときに、異なるフレーム対応関係に基づき、1個以上の視聴覚認識確率値S3(音声の画像への対応および画像の音声への対応を含む)を算出する。今回の音声特徴配列V2が画像特徴配列M2に対応するフレーム対応作業については、2個の異なる視聴覚認識確率値S3を計算する。
【0035】

【0036】
データ解析モジュール3は最も大きいもの、すなわち0.00004を取り、今回の音声特徴配列V2が画像特徴配列M2に対応する視聴覚サブステータスパラメータS4とする。
【0037】
図5Cで示す本発明の実施例のフレーム対応関係と確率統計の概要図および図5Dで示す本発明の実施例の視聴覚関係パラメータ42導入の概要図を同時に参照する。同じ視聴覚関係モジュール4に対応する状況において、データ解析モジュール3は、各音声特徴配列V2が各画像特徴配列M2に対応する視聴覚サブステータスパラメータS4、および各画像特徴配列M2が各音声特徴配列V2に対応する視聴覚サブステータスパラメータS4を計算する。図5Cでは、画像特徴配列M2が分割され4種の異なる画像フレームステータス組み合わせM4を形成し、音声特徴配列V2が分割され3種の異なる音声フレームステータス組み合わせV4を形成しており、これによって画像フレームステータス組み合わせM4と音声フレームステータス組み合わせV4との間に12種(3×4)の対応関係が生成されるため、12個の視聴覚サブステータスパラメータS4が生成される。データ解析モジュール3は、すべての視聴覚サブステータスパラメータS4の最も大きいものを取って、この視聴覚関係モジュール4に対応する視聴覚ステータスパラメータS1とし、順番に図4Aから図5Dまでの運用モードで、各視聴覚関係モジュール4に対応する視聴覚ステータスパラメータS1を計算する。
【0038】
計算モジュール33は、各視聴覚関係モジュール4の視聴覚ステータスパラメータS1、画像特徴配列M2および音声特徴配列V2に基づき、それを式1に導入し、各視聴覚関係モジュール4に対応する認識確率S2を計算し、その中から最大値のものを取り、最後に選ぶ標的パラメータT1とする。この標的パラメータT1が属する視聴覚関係モジュール4が、ユーザが必要とするものである。また、視聴覚関係モジュール4は、コマンドをさらに含み、システムがユーザの動作を認識し、その対応する視聴覚関係モジュール4を選択したときに、選択された視聴覚関係モジュール4に含まれるコマンドを実行し、関連する後続作業を行う。
【0039】
図6Aで示す本発明の実施例の視聴覚を結合した動作認識方法の流れの概要図、図6Bから図6Eまでで示す本発明の実施例の視聴覚を結合した動作認識方法の細部の流れの概要図を参照し、理解しやすくするため図2Aから図5Dを同時に参照する。この動作認識方法の流れは、以下のとおりである。
【0040】
相互に対応するジェスチャ画像M1および音声データV1を取得する(ステップS110)。ジェスチャ画像M1は、撮影モジュール11がユーザのジェスチャ動作を撮影して形成される。音声データV1は、マイク12がユーザの発した声を拾って形成される。このジェスチャ画像M1および音声データV1は、対をなす視聴覚入力データである。
【0041】
各視聴覚関係モジュール4が特徴取り込みパラメータ41および視聴覚関係パラメータ42を含む、複数個の視聴覚関係モジュール4を提供する(ステップS120)。すべての視聴覚関係モジュール4は、事前に構築され、かつデータベース32に格納される。本実施例において、各視聴覚関係モジュール4が1人の動作に対応する。
【0042】
複数個の画像特徴配列M2および複数個の音声特徴配列V2を取得する(ステップS130)。データ解析モジュール3は、相互に対応したジェスチャ画像M1および音声データV1を各特徴取り込みパラメータ41に導入し、複数個の画像特徴配列M2および複数個の音声特徴配列V2を取得する。細部の運用の流れは以下のとおりである。
【0043】
データ解析モジュール3は、先ずジェスチャ画像M1に含まれる複数個の画像フレームデータM3を解析し、各画像フレームデータM3に含まれる画像特徴値を取得する(ステップS131)。
【0044】
すべての画像特徴値を利用して、ジェスチャ画像M1に複数個の重複画像データが含まれるか否かを判定する(ステップS132)。データ解析モジュール3は、ジェスチャ画像M1における各画像フレームデータM3の画像特徴値を解析し、各画像フレームデータM3におけるユーザのジェスチャパターンおよびその位置を計算し、ジェスチャの動きの軌跡を計算する。続いて、データ解析モジュール3は、自己相関関数を利用して、ジェスチャ画像M1に含まれる1個以上の重複画像データを演算する。自己相関関数は以下のとおりである。
【0045】

式中、rxx(k)は、時間推移k上の自己相関関数値である。x(n)は、時間n上の入力パラメータである。kは時間の推移である。Mは、ジェスチャ画像M1の総数である。データ解析モジュール3が、ジェスチャ画像M1に複数個の重複画像データが含まれると判定した場合、データ解析モジュール3が重複画像データを取り込み、各画像特徴配列M2を形成する(ステップS133)。逆に、ジェスチャ画像M1に複数個の重複画像データが含まれない場合、データ解析モジュール3がそのままジェスチャ画像M1を各画像特徴配列M2に変換する(ステップS134)。
【0046】
音声データV1解析の面については、データ解析モジュール3が先ず音声データV1に含まれる複数個の音声フレームデータV3を解析し、各音声フレームデータV3に含まれる音声特徴値を取得する(ステップS135)。すべての音声特徴値を利用して、音声データV1に複数個の重複音声データが含まれるか否かを判定する(ステップS136)。データ解析モジュールが3各をメル周波数ケプストラム係数(Mel−scale Frequency Cepstral Coefficients,MFCC)に変換し、各音声フレームデータV3におけるユーザの音声特徴の変化を計算し、さらに式2を利用して、音声データV1に1個以上の重複音声データが含まれるか否かを解析する。データ解析モジュール3が、音声データV1に1個以上の重複音声データが含まれると判定した場合、重複音声データを取り込み、各音声特徴配列V2を形成する(ステップS137)。逆の場合、データ解析モジュール3が音声データV1を各音声特徴配列V2に変換する(ステップS138)。
【0047】
複数個の視聴覚ステータスパラメータS1を計算する(ステップS140)。データ解析モジュール3は、各画像特徴配列M2および音声特徴配列V2を、同じ視聴覚関係モジュール4に対応することを条件に、各画像特徴配列M2および各音声特徴配列V2を各視聴覚関係パラメータ42に導入し、複数個の視聴覚ステータスパラメータS1を計算する。このステップS140は、数個の細部の流れを含む。
【0048】
複数個の視聴覚サブステータスパラメータS4を取得する(ステップS141)。このステップは、数個の細部の流れを含む。
【0049】
複数個の視聴覚認識確率値S3を取得する(ステップS1411)。図4Aから図5Dまでに示すように、各画像特徴配列M2は、複数個の画像フレームデータM3を含み、各音声特徴配列V2は、複数個の音声フレームデータV3を含む。データ解析モジュール3は、画像特徴配列M2および音声特徴配列V2を初期化し、すなわち画像特徴配列M2および音声特徴配列V2を等分する。本実施例において、画像特徴配列M2は三等分に分割され、音声特徴配列V2は四等分に分割される。データ解析モジュール3は、隠れマルコフモデルを利用して画像特徴配列M2をトレーニングし、多種の異なる分割モードの画像フレームステータス組み合わせM4をプラニングする。本実施例において、どの種の分割モードであっても、画像特徴配列M2は三個の画像フレームステータスグループM5に分割され、各画像フレームステータスグループM5は1個以上の画像フレームデータM3を含む。ただし、その限りでなく、画像特徴配列M2は、2、4、5、6…などの異なる数の画像フレームステータスグループM5に分割することもできる。続いて、データ解析モジュール3は、隠れマルコフモデルを利用して音声特徴配列V2をトレーニングし、多種の異なる分割モードの音声フレームステータス組み合わせV4をプラニングする。本実施例において、どの種の分割モードであっても、音声特徴配列V2は4個の音声フレームステータスグループV5に分割され、各音声フレームステータスグループV5は1個以上の音声フレームデータV3を含む。ただし、その限りでなく、音声特徴配列V2は、2、3、5、6…などの異なる数の音声フレームステータスグループV5に分割することもできる。ここで、音声フレームステータス組み合わせV4とは、同じ音声特徴配列V2に対して異なる分割方式を行い形成された分割結果をいうが、音声特徴配列V2に含まれる音声フレームデータV3は変わらないことを説明する。同様に、画像フレームステータス組み合わせM4とは、同じ画像特徴配列M2に対して異なる分割方式を行い形成された分割結果をいうが、画像特徴配列M2に含まれる音声フレームデータV3は変わらない。その後、データ解析モジュール3は、Viterbi演算法を利用して画像特徴配列M2および音声特徴配列V2に対して隠れマルコフモデルのトレーニングを行い、各音声フレームデータV3/画像フレームデータM3が、異なる時間にあるときに、どの音声フレームステータスグループV5/画像フレームステータスグループM5に存在するかを探し出す。
【0050】
各視聴覚関係モジュール4は、その同じ視聴覚関係モジュール4の画像特徴配列M2および音声特徴配列V2に対応するときに、各画像フレームステータス組み合わせM4が各音声フレームステータス組み合わせV4に対応する確率パラメータ、および各音声フレームステータス組み合わせV4が各画像フレームステータス組み合わせM4に対応する確率パラメータを記録する、視聴覚関係パラメータ42を含む。
【0051】
本実施例において、データ解析モジュール3は、前記のステータス組み合わせ対応モードに基づき、音声フレームステータス組み合わせV4が画像フレームステータス組み合わせM4に対応するステータス対応作業を行う。しかしながら、実際には、各音声フレームステータスグループV5に含まれる音声フレームデータV3は、必ずしも同じ数ではなく、同様に、各画像フレームステータスグループM5に含まれる画像フレームデータM3は、必ずしも同じ数ではない。そのため、同じ音声フレームステータス組み合わせV4および画像フレームステータス組み合わせM4のステータス関係計算の下、音声フレームデータV3および画像フレームデータM3の対応関係は、1対1、1対多および多対1の状況を形成し、各画像フレームステータスグループM5と各音声フレームステータスグループV5との間に、1個以上のフレーム対応関係をもたらす。データ解析モジュール3は、画像フレームステータスグループM5および音声フレームステータスグループV5を視聴覚関係パラメータ42に導入するときに、異なるフレーム対応関係に基づき、1個以上の視聴覚認識確率値S3(音声の画像への対応および画像の音声への対応)を算出する。
【0052】
その中から1つを選び、その回の関係計算に対応する視聴覚サブステータスパラメータS4とする(ステップS1412)。データ解析モジュール3は、すべての視聴覚認識確率値S3から数値が最も大きいものを取って、その回の音声特徴配列V2が画像特徴配列M2に対応する視聴覚サブステータスパラメータS4とする。このように類推し、データ解析モジュール3は、すべての音声特徴配列V2および画像特徴配列M2の組み合わせ形式が対応する視聴覚サブステータスパラメータS4を計算する。
【0053】
すべての視聴覚サブステータスパラメータS4から1つを選び、視聴覚関係モジュール4が対応する視聴覚ステータスパラメータS1とする(ステップS142)。同じ視聴覚関係モジュール4に対応する状況において、データ解析モジュール3は、各音声特徴配列V2が各画像特徴配列M2に対応する視聴覚サブステータスパラメータS4、および各画像特徴配列M2が各音声特徴配列V2に対応する視聴覚サブステータスパラメータS4を計算し、すべての視聴覚サブステータスパラメータS4の最も大きいものを取り、この視聴覚関係モジュール4に対応する視聴覚ステータスパラメータS1とし、順番に図4Aから図5Dまでの運用モードで、各視聴覚関係モジュール4に対応する視聴覚ステータスパラメータS1を計算する。
【0054】
複数個の認識確率S2を計算する(ステップS150)。計算モジュール33は、さらに各視聴覚関係モジュール4の視聴覚ステータスパラメータS1、画像特徴配列M2および音声特徴配列V2に基づき、それを公式1に導入し、各視聴覚関係モジュール4に対応する認識確率S2を計算する。計算モジュール33で運用する計算式は以下のとおりである。
【0055】

【0056】
式中、 (G,A)は、同じ動作タイプのジェスチャおよび音声モデルである。p(OG,SG|G)は、ジェスチャ画像M1認識モデルである。p(SA,SG|G)は、ある画像特徴配列SGを与えた後、音声特徴配列SAが対応するジェスチャモデルGにおける視聴覚サブステータスパラメータである。p(OA,SA|A)は、音声コマンド認識モデルである。p(SG,SA|A)は、音声特徴配列SAを与えた後、画像特徴配列SGが対応する音声コマンドモデルAにおける視聴覚サブステータスパラメータである。
【0057】
すべての認識確率S2から標的パラメータT1を取り出す(ステップS160)。データ解析モジュール3は、すべての認識確率S2から最大値のものを取り出し、最後に選ぶ標的パラメータT1とする。この標的パラメータT1が属する視聴覚関係モジュール4が、ユーザが必要とするものである。
【0058】
図7で示す本発明の実施例の視聴覚関係モジュール4確立方法の流れ図を参照し、視聴覚関係モジュール4がいかにしてトレーニングおよび確立されるかを説明し、理解しやすくするため図8Aから図8Dまでを同時に参照する。視聴覚関係モジュール4確立方法の流れについて、以下のとおり説明する。
【0059】
対応するトレーニング画像MT1およびトレーニング音声VT1を取得する(ステップS210)。トレーニング画像MT1は、撮影モジュール11がユーザのジェスチャ動作を撮影して形成される。トレーニング音声VT1は、マイク12がユーザの発した声を拾って形成される。このトレーニング画像MT1およびトレーニング音声VT1は、対をなす視聴覚入力データである。
【0060】
トレーニング画像MT1およびトレーニング音声VT1を変換して、画像トレーニング配列MT2および音声トレーニング配列VT2を形成する(ステップS220)。データ解析モジュール3は、トレーニング画像MT1における各トレーニング画像フレームMT3の画像特徴値を解析し、各トレーニング画像フレームMT3におけるユーザのジェスチャパターンおよびその位置を計算し、ジェスチャの動きの軌跡を計算する。続いて、データ解析モジュール3は、自己相関関数(式2)を利用して、トレーニング画像MT1に含まれる1個以上の重複画像データを演算し、重複画像データを取り込む。
【0061】
また、データ解析モジュール3は、トレーニング音声VT1における各トレーニング音声フレームVT3の音声特徴値を解析し、メル周波数ケプストラム係数(Mel−scale Frequency Cepstral Coefficients,MFCC)に変換し、各トレーニング音声フレームVT3におけるユーザの音声特徴の変化を計算し、さらに式2を利用してトレーニング音声VT1が1個以上の重複音声データを含むことを探し出し、重複音声データを取り込む。
【0062】
複数種の分割方式を利用して画像トレーニング配列MT2および音声トレーニング配列VT2を個別に分割し、複数個の画像分割配列および複数個の音声分割配列を形成する(ステップS230)。図8Aに示すように、データ解析モジュール3は、画像トレーニング配列MT2および音声トレーニング配列VT2を初期化し、すなわち画像トレーニング配列MT2および音声トレーニング配列VT2を等分する。本実施例において、画像トレーニング配列MT2は三等分に分割され、音声トレーニング配列VT2は四等分に分割される。
【0063】
図8Bに示すように、データ解析モジュール3は、隠れマルコフモデルを利用して音声トレーニング配列VT2をトレーニングし、多種の異なる分割モードの音声フレームトレーニング組み合わせVT4をプラニングする。
【0064】
図8Cに示すように、データ解析モジュール3は、隠れマルコフモデルを利用して画像トレーニング配列MT2をトレーニングし、多種の異なる分割モードの画像フレームトレーニング組み合わせMT4をプラニングする。
【0065】
本実施例において、どの種の分割モードであっても、画像トレーニング配列MT2は3個の画像フレームトレーニンググループ5に分割され、各画像フレームトレーニンググループ5は1個以上のトレーニング画像フレームMT3を含む。音声トレーニング配列VT2は、4個の音声フレームトレーニンググループVT5に分割され、各音声フレームトレーニンググループVT5は1個以上のトレーニング音声フレームVT3を含むが、その限りでない。
【0066】
図8Dに示すように、データ解析モジュール3は、各音声フレームトレーニング組み合わせVT4を個別に画像フレームトレーニング組み合わせMT4と対にする。音声フレームトレーニング組み合わせVT4に5種の形態があり、画像フレームトレーニング組み合わせMT4に6種の形態がある場合、音声フレームトレーニング組み合わせVT4が画像フレームトレーニング組み合わせMT4に個別に対応する対応関係形態は、計5×6=30種である。
【0067】
すべての画像トレーニング配列MT2およびすべての音声トレーニング配列VT2の対応関係を推算し、各視聴覚関係モジュール4に属する視聴覚関係パラメータ42を生成する(ステップS240)。
【0068】
図8Dに示すように、各画像トレーニング配列MT2は四個の画像フレームトレーニンググループ5に分割され、各音声トレーニング配列VT2は三個の音声フレームトレーニンググループVT5に分割される。データ解析モジュール3は各対応関係の形態における、各画像フレームトレーニンググループ5および各音声フレームトレーニンググループVT5の個別の確率値を計算する。
【0069】
図8Dに示す2つのトレーニングデータの対応関係では、上側に示す音声フレームトレーニング組み合わせVT4および画像フレームトレーニング組み合わせMT4の対応関係モードにおいて、各音声フレームトレーニンググループVT5が各画像フレームトレーニンググループ5に対応する確率値は、それぞれ3/3、4/5、1/5、2/4および2/4である。
【0070】
図8Dの下側に示す音声フレームトレーニング組み合わせVT4および画像フレームトレーニング組み合わせMT4の対応関係モードにおいて、各音声フレームトレーニンググループVT5が各画像フレームトレーニンググループ5に対応する確率値は、それぞれ3/3、1/5、4/5、2/4および2/4である。
【0071】
続いて,データ解析モジュール3は、2回の対応関係について確率の統合を行い、各音声フレームトレーニンググループVT5が画像フレームトレーニンググループ5に対応する個別の確率値、および各画像フレームトレーニンググループ5が音声フレームトレーニンググループVT5に対応する個別の確率値を探し出し、5Cに示す視聴覚関係パラメータ42、すなわち式1に示すp(OG,SG|G)p(SG,SA|A)を形成する。
【0072】
また、データ解析モジュール3は、トレーニング画像MT1およびトレーニング音声VT1の特徴取り込みモードが各視聴覚関係モジュール4である特徴取り込みパラメータ41を記録する(ステップS250)。最後に、データ解析モジュール3は、異なる動作に基づき、特徴取り込みパラメータ41および視聴覚関係パラメータ42を記録して各視聴覚関係モジュール4を形成し(ステップS260)、すべての視聴覚関係モジュール4をデータベース32に格納する。
【0073】
前記の内容は、本発明の課題を解決するために採用した技術手段の実施形態または実施例を記載したのみであり、本発明の特許実施の範囲を限定するために用いられたものではない。本発明の特許請求の範囲の意味に合致する、または本発明の特許範囲により行われる同等の変更および修正は、いずれも本発明の特許範囲で網羅される。
【符号の説明】
【0074】
11 撮影モジュール
12 マイク
3 認識ホスト
31 データ解析モジュール
32 データベース
33 計算モジュール
4 視聴覚関係モジュール
41 特徴取り込みパラメータ
42 視聴覚関係パラメータ
M1 ジェスチャ画像
M2 画像特徴配列
M3 画像フレームデータ
M4 画像フレームステータス組み合わせ
M5 画像フレームステータスグループ
MT1 トレーニング画像
MT2 画像トレーニング配列
MT3 トレーニング画像フレーム
MT4 画像フレームトレーニング組み合わせ
MT5 画像フレームトレーニンググループ
V1 音声データ
V2 音声特徴配列
V3 音声フレームデータ
V4 音声フレームステータス組み合わせ
V5 音声フレームステータスグループ
VT1 トレーニング音声
VT2 音声トレーニング配列
VT3 トレーニング音声フレーム
VT4 音声フレームトレーニング組み合わせ
VT5 音声フレームトレーニンググループ
S1 視聴覚ステータスパラメータ
S2 認識確率
S3 視聴覚認識確率値
S4 視聴覚サブステータスパラメータ
T1 標的パラメータ

【特許請求の範囲】
【請求項1】
各視聴覚関係モジュールに特徴取り込みパラメータおよび視聴覚関係パラメータが含まれる、複数個の視聴覚関係モジュールを格納するデータベースと、
相互に対応するジェスチャ画像および音声データを各該特徴取り込みパラメータに導入し、複数個の画像特徴配列および複数個の音声特徴配列を取得し、同じ該視聴覚関係モジュールに対応することを条件に、各該画像特徴配列および各該音声特徴配列を各該視聴覚関係パラメータに導入し、複数個の視聴覚ステータスパラメータを計算するデータ解析モジュールと、
該画像特徴配列、該音声特徴配列および該視聴覚ステータスパラメータを利用して、各視聴覚関係モジュールに対応する認識確率を計算し、該認識確率から標的パラメータを取り出す計算モジュールと、
を備えた、視聴覚を結合した動作認識システム。
【請求項2】
各該画像特徴配列が、複数個の画像フレームステータス組み合わせを形成する複数個の画像フレームデータを含み、各該音声特徴配列が、複数個の音声フレームステータス組み合わせを形成する複数個の音声フレームデータを含み、該データ解析モジュールが、各該画像フレームステータス組み合わせおよび各該音声フレームステータス組み合わせを同じ該視聴覚関係モジュールに対応する該視聴覚関係パラメータに導入し、複数個の視聴覚サブステータスパラメータを計算し、その中から1つの最大数値の該視聴覚サブステータスパラメータを選び、該視聴覚関係モジュールが対応する該視聴覚ステータスパラメータとする請求項1に記載の視聴覚を結合した動作認識システム。
【請求項3】
該データ解析モジュールが、隠れマルコフモデルを利用して該音声特徴配列と該画像特徴配列をトレーニングし、該音声フレームステータス組み合わせと該画像フレームステータス組み合わせを形成する請求項2に記載の視聴覚を結合した動作認識システム。
【請求項4】
各該画像特徴配列が、複数個の画像フレームステータスグループを含み、各該音声特徴配列が、複数個の音声フレームステータスグループを含み、同じ該視聴覚関係モジュールに対応することを条件に、該特徴取り込みパラメータが、各該画像フレームステータスグループが各該音声フレームステータスグループに対応する確率パラメータ、および各該音声フレームステータスグループが各該画像フレームステータスグループに対応する確率パラメータを記録する請求項2に記載の視聴覚を結合した動作認識システム。
【請求項5】
該ジェスチャ画像が複数個の画像フレームデータを含み、各画像フレームデータが画像特徴値を含み、該データ解析モジュールが該画像特徴値を利用して該ジェスチャ画像が少なくとも1つの重複画像データを含むこと判定し、重複画像データを取り込み、各該画像特徴配列を形成し、該音声データが複数個の音声フレームデータを含み、各音声フレームデータが音声特徴値を含み、該データ解析モジュールが該音声特徴値を利用して該音声データが少なくとも1つの重複音声データを含むことを判定し、重複音声データを取り込み、各該音声特徴配列を形成する請求項1に記載の視聴覚を結合した動作認識システム。
【請求項6】
相互に対応するジェスチャ画像および音声データを取得するステップと、
各視聴覚関係モジュールが特徴取り込みパラメータおよび視聴覚関係パラメータを含む、複数個の視聴覚関係モジュールを提供するステップと、
複数個の画像特徴配列および複数個の音声特徴配列を取得し、該ジェスチャ画像および該音声データを該特徴取り込みパラメータに個別に導入し、該画像特徴配列および該音声特徴配列を計算するステップと、
複数個の視聴覚ステータスパラメータを計算し、同じ該視聴覚関係モジュールに対応することを条件に、各該画像特徴配列および各該音声特徴配列を各該視聴覚関係パラメータに導入し、該視聴覚ステータスパラメータに取得するステップと、
複数個の認識確率を計算し、該画像特徴配列、該音声特徴配列および該視聴覚ステータスパラメータを利用して、各視聴覚関係モジュールに対応する認識確率を計算するステップと、
該認識確率から標的パラメータを取り出すステップと、
を含む視聴覚を結合した動作認識方法。
【請求項7】
各該画像特徴配列が、複数個の画像フレームステータス組み合わせを形成する複数個の画像フレームデータを含み、各該音声特徴配列が、複数個の音声フレームステータス組み合わせを形成する複数個の音声フレームデータを含み、複数個の視聴覚ステータスパラメータを計算する該ステップは、
複数個の視聴覚サブステータスパラメータを取得し、各該画像フレームステータス組み合わせおよび各該音声フレームステータス組み合わせを同じ該視聴覚関係モジュールに対応する該視聴覚関係パラメータに導入し、該視聴覚サブステータスパラメータを計算するステップと、
該視聴覚サブステータスパラメータから1つ選び、該視聴覚関係モジュールが対応する該視聴覚ステータスパラメータとし、該視聴覚ステータスパラメータが、該視聴覚サブステータスパラメータにおける、最大数値の該視聴覚サブステータスパラメータとするステップと、
を含む請求項6に記載の視聴覚を結合した動作認識方法。
【請求項8】
該音声フレームステータス組み合わせおよび該画像フレームステータス組み合わせが、隠れマルコフモデルにより、トレーニングで形成される請求項7に記載の視聴覚を結合した動作認識方法。
【請求項9】
各該画像特徴配列が複数個の画像フレームステータスグループを含み、各該音声特徴配列が複数個の音声フレームステータスグループを含み、各特徴取り込みパラメータが、各画像フレームステータスグループが各該音声フレームステータスグループに対応する確率パラメータを記録する請求項7に記載の視聴覚を結合した動作認識方法。
【請求項10】
該視聴覚関係モジュール確立方法が、
対応するトレーニング画像およびトレーニング音声を取得するステップと、
該トレーニング画像および該トレーニング音声を変換し、複数個の画像フレームデータを含む画像トレーニング配列および複数個の音声フレームデータを含む音声トレーニング配列を形成し、
複数種の分割方式を利用して該画像トレーニング配列および該音声トレーニング配列を個別に分割し、複数個の画像分割配列および複数個の音声分割配列を形成するステップと、
該画像分割配列および該音声分割配列の対応関係を推算し、該視聴覚関係モジュールに属する該視聴覚関係パラメータを生成するステップと、
該トレーニング画像および該トレーニング音声の特徴取り込みモードが該視聴覚関係モジュールである特徴取り込みパラメータを記録するステップと、
該特徴取り込みパラメータおよび該視聴覚関係パラメータを記録し、該視聴覚関係モジュールを形成するステップと、
を含む請求項6に記載の視聴覚を結合した動作認識方法。

【図1A】
image rotate

【図1B】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図3C】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図4C】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図5C】
image rotate

【図5D】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図6C】
image rotate

【図6D】
image rotate

【図6E】
image rotate

【図7】
image rotate

【図8A】
image rotate

【図8B】
image rotate

【図8C】
image rotate

【図8D】
image rotate


【公開番号】特開2011−103111(P2011−103111A)
【公開日】平成23年5月26日(2011.5.26)
【国際特許分類】
【出願番号】特願2009−281646(P2009−281646)
【出願日】平成21年12月11日(2009.12.11)
【出願人】(502003596)財団法人 資訊工業策進会 (5)
【Fターム(参考)】