説明

コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット

【課題】ユーザが意図した場合に発話によりロボットの動作を制御するためのコマンドを認識する、コマンド認識装置、コマンド認識方法及びコマンド認識ロボットを提供する。
【解決手段】発話情報から単語列情報を決定又は選択する発話理解部21と、前記発話情報と前記文に基づいて音声確信度を算出する音声確信度算出部221と、画像情報と前記文に含まれる語句情報に基づいて語句確信度を算出する語句確信度算出部22と、音声確信度及び語句確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断する動作制御指示部225とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コマンド認識装置、コマンド認識方法、及びコマンド認識ロボットに関する。
【背景技術】
【0002】
ロボットを実用化するうえで、ユーザがロボットの動作を制御するインタフェースを使いやすくすることは重要である。近年、ユーザが発話した音声を認識し、その音声をロボットに対するコマンド(command)として動作を制御するインタフェースが開発されている。
例えば、非特許文献1及び2に記載の発明は、ユーザの視線や体の向きがロボットに向けられていることを検出した場合に、発話がロボットに対するコマンドであるものとみなして処理する。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】S.Lang,M.Kleinehagenbrock,S.Hohenner,J.Fritsch,G.A.Fink,and G.Sagerer、“Providing the Basis for Human−Robot−Interaction:A Multi−Modal Attention System for a Mobile Robot,”、「Proceedings of the International Conference on Multimodal Interfaces」、2003、28−35
【非特許文献2】S.Fujie,T.Yamahata,and T.Kobayashi、“Conversation robot with the function of gaze recognition,”、「Proceedings of the IEEE−RAS International Conference on Humanoid Robots」、2006、364−369
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、非特許文献1及び2に記載の発明は、ユーザの視線や体の向きがロボットに向いている場合に、ユーザによる発話がロボットに対するコマンドであるか否かに関わらず、コマンドであると誤認識される問題があった。このような問題は、例えば、あるユーザが他人に対してロボットのコマンドを説明する場合に生じる。
【0005】
本発明は上記の点に鑑みてなされたものであり、ユーザが意図した場合にロボットの動作を発話により制御するためのコマンドを、より精度良く認識できる、コマンド認識装置、コマンド認識方法及びコマンド認識ロボット、を提供する。
【課題を解決するための手段】
【0006】
本発明は上記の課題を解決するためになされたものであり、本発明の一つの態様は、
(1)発話情報から単語列情報を決定又は選択する発話理解部と、前記発話情報と前記単語列情報に基づいて音声確信度を算出する音声確信度算出部と、画像情報と前記単語列情報に含まれる語句情報に基づいて語句確信度を算出する語句確信度算出部とを備えたコマンド認識装置であって、前記音声確信度及び前記語句確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断することを特徴とする。
【0007】
(2)また、本発明の他の態様として、上記コマンド認識装置において、前記画像情報から物体の特徴量を求める画像分析部を備え、前記語句確信度算出部は、前記特徴量の物体が前記語句情報の物体である確からしさを示す画像確信度を前記語句確信度として算出するようにしてもよい。
(3)また、本発明の他の態様として、上記コマンド認識装置において、前記画像情報から物体の動きを求める画像分析部を備え、前記語句確信度算出部は、前記動きが前記語句情報の動作である確からしさを示す動作確信度を前記語句確信度として算出するようにしてもよい。
(4)また、本発明の他の態様として、上記コマンド認識装置において、前記画像分析部は、さらに前記画像情報から物体の動きを求め、前記語句確信度算出部は、前記語句確信度として、さらに前記動きが前記語句情報の動作である確からしさを示す動作確信度を算出し、前記動作制御指示部は、前記音声確信度、前記画像確信度及び前記動作確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断するようにしてもよい。
【0008】
(5)また、本発明の他の態様として、上記コマンド認識装置において、撮影した画像に基づき発話者がロボットへ注意を向けているか否かを判断し、前記発話者が前記ロボットへ注意を向けていると判断したとき、前記単語列情報のコマンドを実行させる注意判断部を備えるようにしてもよい。
(6)また、本発明の他の態様として、上記コマンド認識装置において、前記発話理解部は、過去にコマンドを実行すると判断された単語列情報に基づいて前記コマンド情報を定めるようにしてもよい。
【発明の効果】
【0009】
本発明によれば、ユーザが意図した場合にロボットの動作を発話により制御するためのコマンドを、より精度良く認識できる、コマンド認識装置、コマンド認識方法及びコマンド認識ロボット、を提供することができる。
【図面の簡単な説明】
【0010】
【図1】本発明の第1の実施形態に係るコマンド認識ロボットの概念ブロック図である。
【図2】本実施形態に係る角形性を算出するための変数と対象物体の輪郭を示す図である。
【図3】本実施形態に係る発話理解部を示すブロック図である。
【図4】本発明の第2の実施形態に係るコマンド認識ロボットの概念ブロック図である。
【図5】本実施形態に係るコマンド制御方法の流れ図である。
【図6】本実施形態に係る発話理解処理の流れ図である。
【図7】本実施形態に係る概念構造が表すシーンの一例を示す概念図である。
【図8】第1の実施形態に係るコマンド認識装置において無雑音音声コーパスを用いた場合の検証結果を示す図である。
【図9】第1の実施形態に係るコマンド認識装置において雑音重畳音声コーパスを用いた場合の検証結果を示す図である。
【図10】第2の実施形態に係るコマンド認識装置への注意の有無によるRD音声及びOOD音声のサンプル数を示す図である。
【図11】第2の実施形態に係るコマンド認識ロボットによる再現率、精度及びF値を示す図である。
【発明を実施するための形態】
【0011】
(第1の実施形態)
以下、図面を参照しながら本発明の実施形態について詳しく説明する。図1は、本発明の実施形態に係るコマンド認識ロボット1のブロック図である。コマンド認識ロボット1は、コマンド認識部2、収音部3、音声分析部4、音声認識部5、撮影部6、画像分析部7、動作制御部8、駆動電力モデル記憶部9及び動作機構部10を含んで構成される。また、コマンド認識部2が、本発明の実施形態に係るコマンド認識装置である。
コマンド認識部2は、発話理解部21、音声確信度算出部221、語句確信度算出部22、コマンド評価値算出部224、動作制御指示部225、音素音響モデル記憶部23、音素ネットワーク記憶部24及びコマンド辞書記憶部25を含んで構成される。語句確信度算出部22は、画像確信度算出部222及び動作確信度算出部223を含んで構成される。なお、語句確信度算出部22は、画像確信度算出部222又は動作確信度算出部223のうち何れか一方を含んで構成してもよい。
【0012】
収音部3は、ユーザが発した音声により空気中を伝達した音波を受信する。収音部3は、例えば、人間の音声の成分を含む音波を受信するマイクロホンである。収音部3は、受信した音波を音声信号(speech signal)に変換し、音声分析部4に出力する。
音声分析部4は、収音部3から入力された音声信号をディジタル音声信号に変換し、公知の方法によりフレームごとに騒音抑圧(noise supression)及び音声検出(speech detection)を行う。音声検出には、例えば、混合ガウスモデルに基づく始終端検出法(GMM−based end−point detection method)を用いるが、他の方法を用いてもよい。音声分析部4は、音声として検出された区間の音声信号から音声特徴量を算出し、音声認識部5に出力する。音声特徴量は、例えばメル尺度ケプストラム(mel−scale cepstrum)及びそれらのフレーム間の差分であるデルタケプストラム(delta cepstrum)からなる24次元の特徴量ベクトルである。
音声認識部5は、音声分析部4から入力された音声特徴量に基づき、既知の音声認識方法によりユーザの発話内容を示す発話(speech)情報sを生成する。発話情報sは、1個以上の単語を含んで構成される単語列を示す情報である。音声認識部5は、この発話情報sを発話理解部21及び音声確信度算出部221に出力する。
【0013】
撮影部6は、周囲の画像を撮影し、撮影した画像の画像信号を画像分析部7に出力する。画像分析部7は、撮影部6から入力されたアナログ画像信号をディジタル画像信号に変換する。画像分析部7は、変換したディジタル画像信号に基づき1個以上の物体(object)oが存在するか否かを判断し、その物体ごとの画像特徴量ofを算出する。
ここで、画像分析部7は、当該ディジタル画像信号から物体oの輪郭を抽出する。輪郭を抽出するために、例えば、画像分析部7は、次の処理(a)-(d)を実行する。(a) 画像分析部7は、水平方向及び垂直方向に各々隣接する所定の個数の画素間で画素値を平滑化する。(b) 画像分析部7は、平滑化した画素値について水平方向及び垂直方向に各々隣接する画素間における差分値を算出する。(c) 画像分析部7は、算出した差分値のうち、所定の閾値よりも大きい部分を抽出する。(d) 画像分析部7は、その部分のうち各々閉じた領域を形成する部分を物体の輪郭と定める。画像分析部7が輪郭を抽出できない場合には、物体が存在しないと判断する。
【0014】
物体oの画像特徴量ofとは、例えば、大きさ、形状、及び色彩の情報のセットである。大きさとは、例えば、面積である。画像分析部7は、各物体の輪郭で囲まれる部分の画素数に基づき、各物体の面積を算出する。形状とは、例えば、アスペクト比(aspect ratio)及び角形性(squareness)である。画像分析部7は、アスペクト比を、例えば、輪郭毎の垂直方向の最大値と最小値の差から高さを、水平方向の最大値と最小値の差から幅を求め、その高さをその幅で除算して定める。角形性とは、物体の輪郭の形状が角ばっている程度を示す尺度である。
【0015】
角形性の一例について図2を用いて説明する。例えば、図2に示す物体の輪郭301を内部に含む最小の長方形302の面積SLに対する物体の輪郭301で囲まれる面積SCの割合である。この角形性は、物体が角ばるほど1に近似する。
【0016】
色彩を表す特徴量は、例えばCIE(Commission Internationale de l‘eclairage、国際照明委員会)1976(L*, a*, b*)色空間である。ここで、L*は明度(lightness)、a*及びb*は色相(color−opponent dimensions)である。画像分析部7は、物体毎の輪郭で囲まれる部分の画素値に基づき算出したL*, a*, b*の平均値を算出し、得られた値を色彩を表す特徴量と定める。
【0017】
画像分析部7は、輪郭が抽出された物体oの位置情報op及び動作軌跡(trajectory of motion)情報ξを算出する。例えば、画像分析部7は、抽出した輪郭で囲まれる部分の水平方向及び垂直方向の座標値の重心を検出する。位置情報opは、例えば、検出した重心の水平方向及び垂直方向の座標値である。また、画像分析部7は、動作軌跡情報ξを、例えば次の処理によって定める。(a) 画像分析部7は、予め定められた数のフレーム間隔ごとに物体の位置を算出し、この位置の変化が所定の閾値を越えた時刻を移動開始時刻と定める。(b) 画像分析部7は、この位置の変化が所定の閾値以下となる期間が所定の期間以上継続したことをもって移動終了を検出する。その期間の開始時刻をもって移動終了時刻と定める。
画像分析部7は、各物体oの画像特徴量of、位置情報op及び動作軌跡情報ξを発話理解部21に出力する。
【0018】
発話理解(utterance understanding)部21は、音声認識部5から入力された発話情報s及び画像分析部7から入力された物体oの画像特徴量of及び位置情報opに基づき、ロボットコマンド(robot command)の文法に則る単語列からなる概念構造(conceptual structure)情報z’を決定もしくは選択する。ここで、概念構造情報とはロボットコマンドの文法に則った発話情報である。例えば、概念構造情報は、少なくとも一つの動作対象物となる物体を示す語句と少なくとも動作を示す語句を含む単語列を示す情報である。動作の対象物をトラジェクタ(trajector)、トラジェクタであるかを示す情報t’(以下、トラジェクタ情報t’と呼ぶ。)という。
ここで、2以上の物体oが検知された場合には、発話理解部21は、どの物体がランドマーク(landmark)かという情報l’(以下、ランドマーク情報l’と呼ぶ。)を決定もしくは選択する。ランドマークとは、動作の基準点となる物体である。
発話理解部21は、トラジェクタの位置情報ot’,pとランドマークの位置情報ol’,p(決定もしくは選択された場合)と後述するコマンド辞書情報に基づき尤度を最大にする動作軌跡情報ξ’を定める。動作軌道とは、ある動作におけるトラジェクタの座標値の時系列データである。トラジェクタ情報t’と動作軌道ξ’の組a’=(t’,ξ’)を行動(action)情報とする。発話理解部21は、そのトラジェクタ情報t’と動作軌道ξ’に基づいて行動情報a’を構成し、その行動情報a’を動作確信度算出部223に出力する。
【0019】
発話理解部21は、概念構造情報z’を音声確信度算出部221に出力する。発話理解部21は、その概念構造情報z’に含まれるトラジェクタを示す語句の情報w’Tならびにランドマークを示す語句の情報w’Lを抽出し、これらの語句w’Tならびにw’Lの情報、トラジェクタ情報t’、ランドマーク情報l’、トラジェクタの画像特徴量ot’,f及びランドマークの画像特徴量ol’,fを画像確信度算出部222に出力する。発話理解部21は、概念構造情報z’に含まれる動作を示す語句の情報w’Mを抽出し、その語句の情報w’M、行動情報a’、ランドマーク情報l’、トラジェクタの位置情報ot’,p及びランドマークの位置情報ol’,pを動作確信度算出部223に出力する。発話理解部21は、その行動情報a’及びトラジェクタの位置情報ot’,pを動作制御部8に出力する。例えば、検知された物体が1個のみの場合のように、ランドマーク情報l’が決定されない場合には、発話理解部21は、ランドマーク情報l’、ランドマークの特徴量ol’,f及びランドマークの位置情報ol’,pを出力しない。
なお、ロボットコマンドの文法、発話理解部21の機能及び構成については、後述する。
【0020】
音素音響モデル(phoneme acoustic model)記憶部23は、音素音響モデル情報Aを記憶する。音素音響モデル情報とは、例えば、発話情報sを構成する、ある音素から次の音素への遷移と音響特徴量に対応する確率のセットを含む。音素ネットワーク(phoneme network)部24は、音素ネットワーク情報Gpを記憶する。音素ネットワーク情報とは、例えば、ある言語体系において許容される音素列ごとの確率のセットを含む。日本語の音素ネットワークは、子音が2以上連続する音素列を許容しない(つまり、確率がゼロである)、母音の連続、母音と子音の交互の連続、又はこれらの組み合わせを許容する(つまり、確率がゼロ以外の値となりうる)。
【0021】
ここで、音声確信度(speech confidence measure)算出部221は、発話理解部21から入力された概念構造情報z’と音声認識部5から入力された発話情報sに基づき、音素音響モデル記憶部23で記憶した音素音響モデル情報Aを用いて、概念構造情報z’の発話情報sに対する条件付尤度P(s|z’;A)を算出する。
音声確信度算出部221は、条件付尤度P(s|z’;A)を既知の方法により算出することができる。条件付尤度P(s|z’;A)は音声認識を行う過程で算出されるため、音声確信度算出部221は条件付尤度P(s|z’;A)を算出せずに、音声認識部5において算出された条件付尤度P(s|z’;A)を入力されるようにしてもよい。
【0022】
音声確信度算出部221は、発話情報sに対する尤度のうち、音素ネットワーク部24に記憶された音素ネットワークGpにより許容される音素列(phoneme sequence)yの発話情報sに対する条件付尤度P(s|y;A)の最大値maxy∈L(Gp)P(s|y;A)を音素音響モデル記憶部23で記憶した音素音響モデル情報Aを用いて算出する。さらに、音声確信度算出部221は、発話情報sの分析対象となったフレーム長n(s)に基づき、音声確信度CSを、例えば次式(1)により算出し、コマンド評価値算出部224に出力する。
【0023】
【数1】

(1)
【0024】
即ち、式(1)で求められる音声確信度CSは、音素音響モデル情報Aを用いて与えられた概念構造情報z’の発話情報sに対する条件付尤度P(s|z’;A)を、許容される音素列yの発話情報sに対する条件付尤度P(s|y;A)の最大値をベースラインとして規格化した値である。つまり、音声確信度CSは、音素音響モデル情報Aに基づいて発話情報sが概念構造情報z’を示す確からしさを意味する。そのため、ロボットコマンドの文法に則っている発話に係る音声確信度CSは、ロボットコマンドの文法に則っていない発話に係るものよりも大きくなる。なお、式(1)においてフレーム長n(s)で除算する目的は、分析対象となるフレーム長による依存性を排除することである。
【0025】
なお、音声認識部5が音素音響モデル情報Aや音素ネットワーク情報Gpを記憶している場合には、音声確信度評価部221は条件付尤度P(s|z’;A)及びP(s|y;A)を算出するために、音声認識部5が記憶する音素音響モデル情報A及び音素ネットワーク情報Gpを利用してもよい。これらを利用する場合には、コマンド認識部22は、音素音響モデル部23及び音素ネットワーク部24を備えなくともよい。
また、音声認識部5において条件付尤度P(s|y;A)を算出する場合には、音声確信度評価部221は条件付尤度P(s|y;A)を音声認識部5から入力してもよい。この場合、音声確信度評価部221は、条件付尤度P(s|y;A)を算出しなくともよい。
【0026】
コマンド辞書記憶部25は、コマンド辞書(Lexicon)情報Lを記憶する。コマンド辞書情報Lは、物体oを示す単語情報wごとに、物体の特徴量ofの分布を近似する多変数ガウス関数(multivariate gaussian function)のパラメータセットを含む。多変数ガウス関数は次式(2)で与えられる。
【0027】
【数2】

(2)
【0028】
ここで、g0は比例係数、x=(x1,x2,…,xm)は変数ベクトル、mは次元、即ち1つの変数ベクトルに含まれる変数の数である。μ=(μ12,…,μm)は平均ベクトル、Tはベクトルの転置である。S=(σij)(i,j=1,…,m)は、変数xiとxjとの間の共分散(covariance)σijを成分とするm行m列の共分散行列、S-1は行列Sの逆行列を示す。|S|は、行列Sの行列式(determinant)である。即ち、前述のパラメータセットとは、比例係数g0、平均ベクトルμを構成する平均値μ12,…,μmや、行列Sを構成する共分散σij(i,j=1,…,m)を含むパラメータの組をいう。
【0029】
画像確信度(image confidence measure)算出部222は、発話理解部21から入力されたトラジェクタを表す語句の情報w’Tに対応するパラメータセットをコマンド辞書記憶部25から読み出す。画像確信度算出部222は、発話理解部21から入力されたトラジェクタの画像特徴量ot’,fに基づきコマンド辞書部25から読み出したパラメータセットを用いて式(2)のガウス関数により、語句情報w’Tの画像特徴量ot’,fに対する条件付尤度P(ot’,f|w’T;L)を算出する。また、画像確信度算出部222はこのパラメータセットを用いたガウス関数の最大値を、語句情報w’Tに対する条件付尤度の最大値maxof P(of|w’T;L)として算出する。この最大値は、このパラメータセットのもとで可能性のある画像特徴量ofの中で最大である。
【0030】
画像確信度算出部222は、発話理解部21から入力されたランドマークを表す語句の情報w’Lが存在する場合、語句情報w’Lに対応するパラメータセットをコマンド辞書部25から読み出す。画像確信度算出部222は、発話理解部21からランドマークの画像特徴量ol’,fに基づき読み出したパラメータセットを用いて式(2)のガウス関数により、画像特徴量ol’,fに対する語句情報w’Lの条件付尤度P(ol’,f|w’L;L)を算出する。また、画像確信度算出部222は読み出したパラメータセットを用いたガウス関数の最大値を、語句情報w’Lに対する条件付尤度の最大値maxof P(of|w’L;L)として算出する。当該最大値は、このパラメータセットのもとで可能性のある画像特徴量ofの中で最大である。
そして、画像確信度算出部222は、画像確信度CIを、例えば次式(3)を用いて算出する。
【0031】
【数3】

(3)
【0032】
即ち、式(3)により求められる画像確信度CIは、トラジェクタの画像特徴量ot’,f及びランドマークの画像特徴量ol’,fに対する、トラジェクタを示す語句情報w’T及びランドマークを示す語句情報w’Lの条件付尤度、P(ot’,f|w’T;L)及び P(ol’,f|w’L;L)を、上述の最大値をベースラインとして正規化した値である。つまり、画像確信度CIは、画像特徴量の物体ot’,fが語句情報w’Tが示すトラジェクタであり、画像特徴量の物体ol’,fが語句情報w’Lが示すランドマークである確からしさを意味する。なお、語句情報w’Lが存在しない場合は、P(ol’,f|w’L;L)=1及びmaxof P(of|w’L;L)=1とする。
画像確信度算出部222は、算出した画像確信度CIをコマンド評価値算出部224に出力する。
【0033】
コマンド辞書部25は、動作を示す語句の情報wM及びランドマークの位置情報ol,pごとに、ある動作軌道ξに対する物体の位置情報opの時系列データを表す確率モデル情報をコマンド辞書Lの一部として記憶する。この確率モデルでは、物体の位置情報opが時刻により可変である。この確率モデルは、例えば、物体が現時刻の位置から次時刻の位置へ遷移する確率のセットを含んで構成される隠れマルコフモデル(HMM、Hidden Markov Model)である。
【0034】
動作確信度(motion confidence measure)算出部223は、発話理解部21から入力された概念構造情報z’に含まれる動作を示す語句情報w’M及びランドマークの位置情報ol’pに対応する確率モデル情報をコマンド辞書部25から読み出す。これに先立ち、動作確信度算出部223は、入力された物体の位置情報opのうち、発話理解部21から入力されたランドマーク情報l’によりランドマークの位置情報ol’pを決定する。同様に、動作確信度算出部223は、発話理解部21から入力された行動情報a’に含まれるトラジェクタ情報t’により動作確信度評価部223は、読み出した確率モデル情報に基づきランドマークの位置情報ol’pを決定する。トラジェクタの位置情報ot’p、ランドマークの位置情報ol’p及び語句情報w’Mの前述の行動情報a’に含まれる動作軌道情報ξ’に対する条件付尤度P(ξ’|ot’p, ol’p,w’M;L)を算出する。
【0035】
条件付尤度P(ξ’|ot’p, ol’p,w’M;L)を算出するためには、動作確信度算出部223は、例えば次の処理を実行する。(a) 動作確信度算出部223は、読み出した確率モデル情報に含まれるトラジェクタt’の位置情報ot’pの変化に対応する遷移確率を、発話開始時刻から発話終了時刻まで、順次乗算して乗算値を算出する。これらの乗算値を、読み出した確率モデル情報によって可能性がある位置情報の時系列データ全てについて算出する。これらの乗算値を全て加算してトラジェクタの位置情報ot’p、ランドマークの位置情報ol’p及び語句情報w’Mの尤度P(ot’p, ol’p,w’M;L)を算出する。(b) 動作確信度算出部223は、これらのトラジェクタの位置情報列のうち、動作軌道ξ’との誤差が一定値以下となる動作軌道についての乗算値を加算することにより尤度P(ξ;L)を算出する。(c) 動作確信度算出部223は、尤度P(ξ;L)を尤度P(ot’p, ol’p,w’M;L)で除算することにより条件付尤度P(ξ’|ot’p, ol’p,w’M;L)を算出する。
【0036】
また、動作確信度算出部223は、読み出した確率モデル情報に基づき、物体の位置情報op、ランドマークの位置情報ol’p及び語句情報w’Mの動作軌道情報の候補ξに対する条件付尤度の最大値maxξ,opP(ξ|op, ol’p,w’M;L)を算出する。ここでは、動作軌道情報の候補ξと物体の位置情報opを可変とし、この最大値は、読み出した確率モデル情報のもとで可能性のある動作軌道情報の候補ξ及び物体の位置情報opの中で最大である。そして、動作確信度評価部223は、動作確信度CMを、例えば次式(4)を用いて算出する。
【0037】
【数4】

(4)
【0038】
即ち、式(4)により求められる動作確信度CMは、位置情報ot’p、ランドマークの位置情報ol’p、及び語句情報w’Mの動作軌道情報ξ’に対するトラジェクタの条件付尤度P(ξ’|ot’p, ol’p,w’M;L)を、それらの最大値maxξ,opP(ξ|op, ol’p,w’M;L)により正規化した値である。つまり、動作確信度CMは、動作軌跡情報ξ’が語句情報w’Mが示す動作であることの確からしさを意味する。
動作確信度算出部223は、算出した動作確信度CMをコマンド評価値算出部224に出力する。
【0039】
コマンド評価値算出部224は、音声確信度算出部221から入力した音声確信度CS、画像確信度算出部222から入力した画像確信度CI及び動作確信度算出部223から入力した動作確信度CMを重み付け加算し、重み付け加算値を算出する。コマンド評価値算出部224は、コマンド評価値を算出する。コマンド評価値は、重み付け加算値を変数とし、変数の変化に伴い単調に増加又は減少し、最大1、最小零となる関数であればよい。
【0040】
コマンド評価値は、例えばMSC(Multimodal Semantic Confidence、マルチモーダル意味確信度)である。MSCは、発話情報s、シーン(scene)情報O、行動コンテクスト(behavioral context)情報qに対して求められた行動情報a’即ち、トラジェクタ情報t’及び動作軌道情報ξ’に対する実現可能性を示す。つまり、MSCは、RD(ロボットに向けられた,Robot−Directed)音声である確率P(domain=RD|s,O,q)を意味する。MSCは、例えば、次式(5)により求められるCMS(s,O,q)である。
【0041】
【数5】

(5)
【0042】
ここで、式(5)においてθ0がバイアス値、θ1, θ2及びθ3が重み係数である。即ち、式(5)により求められるCMS(s,O,q)は、音声確信度CS、画像確信度CI及び動作確信度CMの重み付け加算値に、さらにバイアス値θ0を加算した値のシグモイド関数(sigmoid function)である。CMS(s,O,q)を重み付け加算値から求める関数は、シグモイド関数には限らない。そのような関数は、重み付け加算値が増加するほど、CMSは1に漸近するように単調に増加し、重み付け加算値が減少するほど、CMSがゼロに漸近するように単調に減少する関数であればよい。
【0043】
バイアス値θ0及び重み係数θ1, θ2及びθ3からなる係数セットΘは、後述する事前学習により定めておく。事前学習では、CMS(s,O,q)とRD音声又はOOD(音声ドメイン外、Out−Of−Domain)音声の何れかを示す結果dを与える音声信号、シーン情報O及び行動コンテクスト情報qの組を学習サンプルとして用いる。係数セットΘは、例えば次式(6)で与えられる尤度を最大にするようにロジスティック回帰モデルを用いて求める。
【0044】
【数6】

(6)
【0045】
式(6)において、d=(d1, …,dN)、diは、i番目の学習サンプルによる結果データである。この結果データは、例えば、RD音声の場合di=1、OOD音声の場合di=0である。CiMSは、i番目の学習サンプルによるCMS(si,Oi,qi)である。式(6)で与えられる尤度を最大化するためには、例えば、フィッシャーのスコアリングアルゴリズム(Fischer’s scoring algorithm)を用いることができる。
コマンド評価値算出部224は、算出したコマンド評価値を動作制御指示部225に出力する。なお、語句確信度算出部22が、画像確信度算出部222又は動作確信度算出部223のうち一方しか備えない場合には、コマンド評価値算出部224は、重み付け加算値を、音声確信度CS及び、画像確信度CIもしくは動作確信度CMのうち一方を重み付け加算することにより算出してもよい。
【0046】
動作制御指示部225は、コマンド評価値算出部224から入力されたコマンド評価値が、予め定められた閾値δよりも大きいとき、ユーザが発話した音声がRD音声、即ちロボットコマンドであると判断する。従って、動作制御指示部225は、コマンド評価値がδより大きいとき、動作制御部8及び発話理解部21のコマンド候補選択部216に動作指示信号を出力する。動作制御指示部225は、コマンド評価値がδと等しいか、又はδより小さいとき、ユーザが発話した音声がOOD音声、即ちロボットコマンドでないと判断する。このとき、動作制御指示部225は、動作制御部8及び発話理解部21のコマンド候補選択部216に動作指示信号を出力しない。
【0047】
動作制御部8には、発話理解部21から行動情報a’、トラジェクタの位置情報ot’,pが、ランドマーク情報l’及びランドマークの位置情報ol’,p(検出された場合のみ)を入力される。駆動電力モデル記憶部9には、行動情報aと動作機構部10の少なくとも一部を構成する部品に供給する電力の時系列データパターン情報を対応づけた電力モデル情報を記憶する。この時系列データパターン情報の種類によっては、物体即ちトラジェクタの位置情報ot,p又はランドマークの位置情報ol,pのうち少なくとも一方により電力の時系列データが可変なものがある。例えば、「おいて(place-on)」という動作については、その部品に供給する電力の時系列データは、動作開始時においてトラジェクタの位置情報ot,pが、動作終了時においてランドマークの位置情報ol,pに依存する。
【0048】
動作制御部8は、動作制御指示部225から動作指示信号を入力したとき、行動情報a’に対応する電力モデル情報を駆動電力モデル部9から読み出し、その部品に供給する電力の時系列データを決定する。この電力モデル情報が、位置情報ot,p又は位置情報ol,pにより可変である場合、動作制御部8は、この電力モデル情報と行動情報a’が示すトラジェクタの位置情報ot’,p又はランドマークの位置情報ol’,pに基づき、その部品に供給する電力の時系列データを決定する。動作制御部8は、決定した電力の時系列データに基づき、その部品へ電力を供給する。この部品とは、例えば、マニピュレータや多指グラスパ(multi−finger grasper)である。
動作制御部8からその部品に電力が供給され、その部品が動作することにより、動作機構部10はロボットコマンドと認識されたユーザによる発話に応じた動作を実行する。一方、動作制御指示部225から動作制御部8に動作指示信号が入力されないときは、動作制御部8から動作機構部10を構成する部品へ電力を供給されず、動作機構部10は、ユーザの発話に基づいた動作を実行しないことになる。
【0049】
次に発話理解部21の構成について、図3を用いて説明する。図3は、本実施形態に係る発話理解部21の一例を示すブロック図である。発話理解部21は、音声信念算出部211、視覚信念算出部212、動作信念算出部213、動作オブジェクト関係信念算出部214、行動コンテクスト信念算出部215、及びコマンド候補選択部216と、を含んで構成される。コマンド認識部2は、さらにコマンド文法記憶部26、第1パラメータセット記憶部27及び第2パラメータセット記憶部28を有する。発話理解部21は、動作の際に、コマンド辞書記憶部25、コマンド文法記憶部26、第1パラメータセット記憶部27及び第2パラメータセット記憶部28に予め記憶されている情報を用いる。
【0050】
コマンド辞書記憶部25は、前述のようにコマンド辞書情報Lを記憶する。コマンド辞書情報Lは、単語列情報及び概念(concept)情報を対応付けた尤度情報も含む。この概念情報の各々は、物体の静止画像の特徴量と動作情報及び助詞(particle)を表す情報を含む。なお、コマンド辞書は、概念情報に含まれる、物体を示す語句情報wごとに、物体の特徴量ofの分布を近似する多変数ガウス関数のパラメータセットを含む。
【0051】
前述の概念情報の各々は、上述のように動作を示す語句情報wM及びランドマークの位置情報olpごとに、ある動作軌道情報ξに対する物体の位置情報opの時系列データの確率の組からなる確率モデル情報を記憶する。但し、この確率モデルでは、物体の位置情報opが時刻により可変である。この確率モデルは、例えば、物体が現時刻における位置から次時刻における位置へ遷移する確率のセットを含んで構成されるHMM(Hidden Markov Model)である。
【0052】
コマンド文法部26は、ロボットコマンドとして可能性がある単語列情報、即ち概念構造情報の候補zごとの尤度を含む統計言語モデル情報Grを記憶する。
本実施形態において、ロボットコマンドの文法によれば、発話情報sは、概念構造情報の候補zにより表される。以下、概念構造情報の候補zの例について説明する。概念構造情報の候補zは、動作を示す語句情報wMとトラジェクタを表す語句情報wTとを含み、z=[(動作:wM),(トラジェクタ:wT)]と表される。または、概念構造情報の候補zには、動作を示す語句情報wMとトラジェクタを表す語句情報wTとに加え、ランドマークを示す語句情報wLを含み、z=[(動作:wM),(トラジェクタ:wT), (ランドマーク:wL)]と表されるものもある。例えば、「みかんをはこにのせて」(Place the orange on the box.)という発話に対しては、概念構造情報zはz=[(動作:「のせて(place-on)」),(トラジェクタ:「みかん(orange)」), (ランドマーク:「はこ(box)」)]である。図7は、この概念構造情報が表すシーンの一例である。ここで、図7は、3個の物体、即ち「みかん」311、「カメラ」312及び「はこ」313である。そのうち、「みかん」311が操作の対象となるトラジェクタであり、「はこ」313が動作の参照点となるランドマークである。また、矢印で示すトラジェクタの位置の変化が動作である。
【0053】
第1パラメータセット部27は、動作を示す単語情報wMごとに、トラジェクタの画像特徴量ot,f及びランドマークの画像特徴量ol,fの分布を近似する多変数ガウス関数のパラメータセットRを記憶する。
第2パラメータセット部28は、物体情報及び行動コンテクスト(behavioral context)情報qごとに、パラメータHを記憶する。行動コンテクスト情報とは、ロボットが動作をとる際の、周囲のユーザ及び物体の状況を特徴づける情報の一種の要素である。例えば、行動コンテクスト情報qは過去に決定もしくは選択されたトラジェクタ情報t’、及びランドマーク情報l’を含む。その場合、パラメータHは、指示対象としての物体の適切さを示す尺度を示す。
【0054】
音声信念(speech belief)算出部211は、認識結果の候補である概念構造情報の候補zの音声認識部5から入力された発話情報sに対する条件付尤度P(s|z;L)をコマンド辞書部25から読み出したコマンド辞書情報Lに基づき算出する。条件付尤度P(s|z;L)の算出方法は、上述の条件付尤度P(s|z’;L)の算出方法と同様である。また、音声信念算出部211は、この概念構造情報の候補zに対応する尤度P(z;Gr)をコマンド文法部26から読み出す。音声信念算出部211は、例えば、次式(7)に基づき、音声信念関数(speech belief)Bsを算出する。
【0055】
【数7】

(7)
【0056】
即ち、音声信念関数BSとは、コマンド辞書情報Lに基づく概念構造情報の候補zの発話情報sに対する条件付確率である。音声信念算出部211は、音声信念関数Bsをコマンド候補選択部216に出力する。また、音声信念算出部211は、概念構造情報の候補zに含まれるトラジェクタを表す語句情報wT及びランドマークを表す語句情報wL(概念構造の候補zに含まれる場合のみ)を視覚信念算出部212に出力し、動作を表す語句情報wMを動作信念算出部213及び動作オブジェクト関係信念算出部214に出力する。
【0057】
視覚信念(image belief)算出部212は、音声信念算出部211から入力されたトラジェクタを表す語句情報wTに対応するパラメータセットをコマンド辞書部25から読み出す。視覚信念算出部212は、画像分析部7から入力したトラジェクタの画像特徴量ot,fに基づき読み出したパラメータセットを用いて式(2)のガウス関数により、画像特徴量ot,fに対する語句情報wTの尤度P(ot,f|wT;L)を算出する。また、視覚信念算出部212は、このランドマークを表す語句情報wLに対応するパラメータセットをコマンド辞書部25から読み出す。視覚信念算出部212は、画像分析部7から入力したランドマークの画像特徴量ol,fに基づき読み出したパラメータセットを用いて式(2)のガウス関数により、画像特徴量ol,fに対する語句情報wLの尤度P(ol,f|wL;L)を算出する。視覚信念算出部212は、例えば、式(8)に基づき、視覚信念関数(image belief)BIを算出する。
【0058】
【数8】

(8)
【0059】
即ち、視覚信念関数BIとは、コマンド辞書Lに基づく語句情報wT及びwLの画像特徴量ot,f及びol,fに対する条件付尤度である。視覚信念算出部212は、視覚信念関数BIをコマンド候補選択部216に出力する。なお、概念構造情報の候補zにランドマークを表す語句情報wLが含まれない場合には、式(8)のlogP(ol,f|WL;L)の部分を算出する必要はなく、この部分をゼロとしてよい。
【0060】
動作信念(motion belief)算出部213は、音声信念算出部211から入力された動作を表す語句情報wMに対応する確率モデル情報をコマンド辞書部25から読み出す。また、動作信念算出部213は、画像分析部7からトラジェクタの位置情報ot,p、ランドマークの位置情報ol,p及び動作軌道情報ξを入力される。動作信念算出部213は、読み出した確率モデル情報に基づき、そのトラジェクタの位置情報ot,p、ランドマークの位置情報ol,p及び語句情報wMの動作軌道情報の候補ξに対する条件付尤度P(ξ|ot,p,ol,p,wM;L)を算出する。この条件付尤度を算出する方法は、例えば前述の条件付尤度P(ξ’|ot’p, ol’p,w’M;L)を算出する方法と同様である。この条件付尤度が、動作信念関数(motion belief)BMである。動作信念算出部213は、算出した動作信念関数BMをコマンド候補選択部216に出力する。
【0061】
動作オブジェクト関係信念(motion−object relarionship belief)算出部214は、音声信念算出部211から入力された動作を表す語句情報wMに対応するパラメータセットRを第一パラメータセット部27から読み出す。動作オブジェクト関係信念算出部214は、画像分析部7から入力したトラジェクタの画像特徴量ot,f及びランドマークの画像特徴量ol,fに基づき、読み出したパラメータセットRを用いて例えば式(2)のガウス関数により、語句情報wMの画像特徴量ol,f及び画像特徴量ol,fに対する条件付尤度P(ot,f,ol,f|wM;R)を算出する。この条件付尤度が、動作オブジェクト関係信念関数(motion−object relarionship belief)BRである。動作オブジェクト関係信念算出部214は、算出した動作オブジェクト関係信念関数BRをコマンド候補選択部216に出力する。
【0062】
行動コンテクスト信念(behavioral context belief)算出部215には、後述するコマンド候補選択部216から過去にロボットコマンドと判断されたとき(例えば、直前に発話情報sがRD音声と判断されたとき)のトラジェクタ情報t’及びランドマーク情報l’が入力される。行動コンテクスト信念算出部215では、これらの入力された情報を行動コンテクスト情報qとして用いる。そのため、行動コンテクスト信念算出部215は、現在のトラジェクタ情報の候補t及び行動コンテクスト情報qに対応するパラメータHtを第2パラメータセット部28から読み出す。読み出した第1のパラメータHtをBH(t,q;H)と示す。また、行動コンテクスト信念算出部215は、現在のランドマーク情報の候補l及び行動コンテクスト情報qに対応する第2のパラメータHlを第2パラメータセット部28から読み出す。読み出した第2パラメータHlをBH(l,q;H)と示す。行動コンテクスト信念算出部215は、行動コンテクスト信念関数(behavioral context belief)BHを、例えば次式(9)のように第1パラメータ及び第2パラメータを加算して算出する。
【0063】
【数9】

(9)
【0064】
行動コンテクスト信念算出部215は、算出した行動コンテクスト関数BHをコマンド候補選択部216に出力する。
前述のように、行動コンテクスト信念関数BHは、物体が操作対象として適切か否かを示す尺度である。本実施態様では、過去にRD音声と判断された発話情報sについてのトラジェクタ情報t’及びランドマーク情報l’を行動コンテクスト情報qとして用いる。つまり、行動コンテクスト情報qは、後述するコマンド候補選択部216から入力されたランドマーク情報l’及び行動情報a’に含まれるトラジェクタ情報t’である。そのため、本実施態様によれば、どの物体がトラジェクタか否か、あるいは、どの物体がランドマークか否かという判断が安定し、発話による動作を精度よく認識でき、この結果コマンドを正しく認識できる。
【0065】
コマンド候補選択部216は、音声信念算出部211、視覚信念算出部212、動作信念算出部213、動作オブジェクト関係信念算出部214及び行動コンテクスト信念算出部215から各々入力された音声信念関数BS、視覚信念関数BI、動作信念関数BM、動作オブジェクト関係信念BR及び行動コンテクスト関係信念関数BHを重み付け加算し、共有信念関数(shared belief)Ψ(s,a,O,q,L,Gr,R,H,Γ) を、例えば次式(10)を用いて算出する。
【0066】
【数10】

(10)
【0067】
ここで、{γ1, γ2, γ3, γ4, γ5}=Γは重み係数のセットを示す。重み係数のセットΓは、事前学習により予め求めておく。共有信念関数Ψとは、与えられたシーン情報Oのもとで、発話情報sと実行しようとする行動情報の候補a、つまり、トラジェクタ情報の候補tと動作軌道の候補ξの組との関連度を示す尺度である。
発話情報sについて可能性がある他の概念構造情報の候補z及びランドマーク情報の候補lについても、音声信念算出部211、視覚信念算出部212、動作信念算出部213、動作オブジェクト関係信念算出部214及び行動コンテクスト信念算出部215は、各々の関数BS、BI、BM、BR及びBHを算出し、コマンド候補選択部216は、共有信念関数Ψを算出する。そして、コマンド候補選択部216は、算出された共有信念関数Ψから最大値を探索し、その最大値をとる概念構造情報の候補z及びランドマーク情報の候補lを選択もしくは決定する。各々、選択した概念構造情報をz’、ランドマーク情報をl’と表す。なお、発話理解部21への入力によっては、ランドマークlを示す語句情報w’Lを含まない概念構造情報z’が選択されるときには、コマンド候補選択部216はランドマークl’を選択しなくともよい。
また、コマンド候補選択部216は、算出された共有信念関数Ψの中で最大値をとる行動情報a’を選択もしくは決定する。選択した行動情報a’は、例えば次式(11)で示されるものである。
【0068】
【数11】

(11)
【0069】
コマンド候補選択部216は、概念構造情報z’を音声確信度算出部221に出力する。コマンド候補選択部216は、トラジェクタ情報t’、ランドマーク情報l’、概念構造情報z’に含まれるトラジェクタを示す語句情報w’T、ランドマークを示す語句情報w’L、トラジェクタの画像特徴量ot’,f及びランドマークの画像特徴量ol’,fを選択し、画像確信度算出部222に出力する。コマンド候補選択部216は、行動情報a’、ランドマーク情報l’、概念構造情報z’ トラジェクタの位置情報ot’,p及びランドマークの位置情報ol’,pに含まれる動作を示す語句情報w’Mを選択し、動作確信度算出部223に出力する。
【0070】
コマンド候補選択部216は、トラジェクタの位置情報ot’,p、ランドマークの位置情報ol’,p、行動情報a’及びランドマーク情報l’を選択し、動作制御部8に出力する。なお、コマンド判断部22の動作制御指示部225から動作指示信号を入力されたときは、コマンド候補選択部216は、選択したランドマーク情報l’及び行動情報a’に含まれるトラジェクタ情報t’を行動コンテクスト信念算出部215に出力する。なお、概念構造情報z’にランドマークを示す語句情報w’Lが含まれない場合には、ランドマーク情報l’は決定されないため、コマンド候補選択部216は、ランドマーク情報l’、その画像特徴量ol’,f及びその位置情報ol’,pを出力しなくてもよい。
【0071】
このように、本実施形態によれば、コマンド判断部22において、音声確信度Csの他、画像確信度CI又は動作確信度CMを用いてコマンド評価値CMSを算出している。画像情報により得られた周囲のシーン、すなわちトラジェクタやランドマークの特徴量や位置が考慮される。そのため、本実施態様によれば、周囲のシーンに応じてユーザの発話がロボットに向けられているか、すなわちロボットコマンドであるか否か的確に判断できる。
【0072】
また、ユーザの発話は、必ずしもロボットコマンドの文法に則っているとは限らない。例えば、「みかんだね」と、発話が物体を示す語句「みかん」を含んでいるが、動作を示す語句を含まない場合がある。また、ユーザの発話は、一つの意味内容を示していても、表現が異なることがある。例えば、動作を示す「置いて」という語句の代わりに、この語句と同一の意味を有する「置け」、「載せて」、という語句が使用されることがある。
そこで、本実施形態は、音声確信度及び画像確信度もしくは動作確信度を概念構造やそれを構成する語句の尤度に基づいて算出している。この結果、ユーザによる発話情報sがロボットコマンドの文法に則っていない場合や、コマンド辞書に登録された語句以外の発話があった場合でも、ロボットコマンドである可能性が完全に排除されることにはならない。従って、このような場合でも、本実施形態はユーザが意図したロボットの動作制御を実行することができる。
【0073】
(第2の実施形態)
以下、図4を参照しながら本発明の第2の実施形態について説明する。図4は、本実施形態に係るコマンド認識ロボット31のブロック図である。また、コマンド認識部32が、本発明の実施形態に係るコマンド認識装置である。本実施形態のコマンド認識ロボット31及びコマンド認識部32は、図1に示す第1の実施形態に係るコマンド認識ロボット1及びコマンド認識部2の構成に加え、注意判断部11を有している。その他の部分の構成及び機能は、特に言及しない限り、第1の実施形態に係るコマンド認識ロボット1及びコマンド認識部2と共通する。
【0074】
音声分析部4は、音声と判定した区間の音声信号を注意判断部11に出力する。撮影部6は、撮影した画像信号を注意判断部11に出力する。
注意判断部11は、音声分析部4から入力された音声信号及び撮影部6から入力した画像信号に基づいて、公知の方法により画像に写っているユーザがコマンド認識ロボット31に対し注意を向けているか否かを判定する。例えば、注意判断部11は、ユーザの顔の方向α1を逐次に検出し、基準となる方向(例えば撮影部6の光軸方向)との角度差Δαが、予め定められた閾値βよりも小さい状態が継続する時間の音声と判定された区間に対する比率が一定の比率Tも大きい場合、ユーザがコマンド認識ロボット31に注意を向けていると判断する。ここで、閾値βは、例えば5°である。比率Tは、例えば50%である。角度差Δαが、閾値βと同一もしくはそれ以上の場合、又は角度差Δαが、閾値βよりも小さい状態が継続する時間の音声と判定された区間に対する比率が、所定の比率Tと同一もしくはそれよりも短い場合、注意判断部11は、ユーザがコマンド認識ロボット31に注意を向けていないと判断する。
【0075】
注意判断部11は、顔の方向α1を検出するために、例えば次の処理を実行する。(a) 注意判断部11は、入力した画像信号から目尻や口元などの顔の特徴点を3点以上抽出する。但し、注意判断部11は、ユーザが撮影部6の正面を向いている場合に撮影したときの顔の特徴点を基準特徴点として予め収録しておく。(b) 注意判断部11は、方向の変化に伴う基準特徴点間の距離の変化を予測する。(c) 注意判断部11は、予測した距離と逐次に抽出した特徴点間の距離の誤差を求める。(d) 注意判断部11は、最も誤差が少なくなる方向を、顔の方向α1と検出する。顔の方向α1を検出するために、その他の画像処理方法や視線検出方法を用いてもよい。
【0076】
注意判断部11は、ユーザがコマンド認識ロボット31に注意を向けていると判断した場合には、動作開始信号を生成し、生成した動作開始信号を発話理解部21に出力する。発話理解部21は、注意判断部11から動作開始信号を入力されたとき、前述の動作を実行可能にする。注意判断部11は、ユーザがコマンド認識ロボット31に注意を向けていないと判断した場合には、動作停止信号を発話理解部21に出力する。発話理解部21は、注意判断部11から動作停止信号を入力したとき前述の動作を停止する。これにより、発話理解部21は、ユーザがコマンド認識ロボット31に注意を向けている場合に動作し、ユーザが注意を向けていない場合には動作しない。その結果、ユーザが注意を向けていると判断された場合にのみ、動作制御指示部225は、ユーザの発話情報sがRD音声か否か判断する。そのため、ユーザの発話情報sがロボットコマンドの文法に則っていたり、類似している場合でも、本実施形態によればユーザがロボットに注意を向けていない場合に、発話情報sがロボットコマンドと認識されてしまうという問題を解消できる。
【0077】
なお、本実施形態において、注意判断部11が動作開始信号及び動作停止信号を、コマンド判断部22又は動作制御部8に出力するようにし、動作制御指示部225又は動作制御部8は動作開始信号を入力されてから動作停止信号を入力されるまで動作するようにしてもよい。この場合も、上記の実施態様と同様に、ユーザがロボットに注意を向けていない場合でも、発話情報がロボットコマンドと認識されてしまうという問題を解消できる。
【0078】
次に、本実施形態に係るコマンド制御方法について図を用いて説明する。図5は、本実施形態に係るコマンド制御方法の流れ図である。各部における機能や構成については前述のコマンド認識ロボット31と同様である。
(ステップS101)注意判断部11は、音声分析部4から入力された音声信号及び撮影部6から入力された画像信号に基づいて、画像に写されたユーザがロボットに対し注意を向けているか否かを判定する。例えば、注意判断部11は、ユーザの顔の方向α1を逐次に検出し、基準となる方向(例えば撮影部6の光軸方向)との角度差Δαが、予め定められた閾値βよりも小さい状態が継続する時間の音声と判断された区間に対する比率が、所定の比率Tよりも大きい場合、このユーザがコマンド認識ロボット31に注意を向けていると判断する。角度差Δαが、閾値βと同一もしくはそれ以上の場合、又は角度差Δαが、閾値βよりも小さい状態が継続する時間の音声と判定された区間に対する比率が、所定の比率Tと同一もしくはそれよりも短い場合、注意判断部11は、このユーザがコマンド認識ロボット31に注意を向けていないと判断する。
【0079】
(ステップS102)注意判断部11は、ユーザがコマンド認識ロボット31に注意を向けていると判断した場合(ステップS102 Y)、ステップS103及びステップS105に進む。コマンド認識ロボット31は、ステップS103及びステップS105を並行して実行してもよいし、ステップS103及びステップS105を逐次に実行してもよい。
注意判断部11は、ユーザがコマンド認識ロボット31に注意を向けていないと判断したとき(ステップS102 N)、終了する。
(ステップS103)音声分析部4は、収音部3から入力された音声信号をディジタル音声信号に変換し、既知の方法によりフレームごとに騒音抑圧及び音声検出を行う。音声として検出された区間の音声信号から音声特徴量を算出し、音声認識部5に出力する。また、音声分析部4は、音声と判定された区間の音声信号を注意判断部11に出力する。
(ステップS104) 音声認識部5は、音声分析部4から入力された音声特徴量に基づき、既知の音声認識方法により発話情報sを生成し、発話理解部21及び音声確信度算出部221に出力する。
【0080】
(ステップS105)画像分析部7は、撮影部6から入力されたアナログ画像信号をディジタル画像信号に変換する。画像分析部7は、変換したディジタル画像信号に基づき1個以上の物体が存在するか否かを判断し、その物体についての特徴量ofを算出する。また、画像分析部7は、物体の位置情報op及び動作軌跡情報ξを算出する。画像分析部7は、各物体の画像特徴量of、位置情報op及び動作軌跡情報ξを発話理解部21に出力する。
【0081】
(ステップS106)発話理解部21は、音声認識部5から入力された発話情報s及び画像分析部7から入力された物体oの画像特徴量of及び位置情報opに基づき、概念構造情報z’、行動情報a’及び ランドマーク情報l’を決定する。
発話理解部21は、概念構造情報z’を音声確信度算出部221に出力する。発話理解部21は、概念構造情報z’に含まれるトラジェクタを示す語句の情報w’Tならびにランドマークを示す語句の情報w’L、トラジェクタ情報t’、ランドマーク情報l’、トラジェクタの画像特徴量ot’,f及びランドマークの画像特徴量ol’,fを画像確信度算出部222に出力する。発話理解部21は、概念構造情報z’に含まれる動作を示す語句の情報w’M、行動情報a’、ランドマーク情報l’、トラジェクタの位置情報ot’,p及びランドマークの位置情報ol’,pを動作確信度算出部223に出力する。発話理解部21は、行動情報a’及びトラジェクタの位置情報ot’,pを動作制御部8に出力する。例えば、決定された物体が1個のみの場合のように、ランドマーク情報l’が決定されない場合には、発話理解部21は、ランドマーク情報l’、ランドマークの特徴量ol’,f及びランドマークの位置情報ol’,pを出力しない。
なお、本ステップにおける詳細な処理については、後述する。
【0082】
(ステップS107)コマンド判断部22を構成する音声確信度算出部221は、発話理解部21から入力された概念構造情報z’と音声認識部5から入力された発話情報sに基づき、音素音響モデル記憶部23に記憶した音素音響モデル情報Aを用いて、概念構造情報z’の発話情報sに対する条件付尤度P(s|z’;A)を算出する。
音声確信度算出部221は、発話情報sに対する条件付尤度のうち、音素ネットワーク記憶部24に記憶された音素ネットワーク情報Gpにより許容される音素列yの発話情報sに対する条件付尤度P(s|y;A)のうち最大となる条件付尤度maxy∈L(Gp)P(s|y;A)を算出する。音声確信度算出部221は、これらの条件付尤度と発話情報sの分析対象となったフレーム長n(s)を用いて、音声確信度CSを、例えば式(1)により算出し、コマンド評価値算出部224に出力する。
【0083】
(ステップS108)画像確信度算出部222は、発話理解部21から入力されたトラジェクタを表す語句情報w’Tに対応するパラメータセットをコマンド辞書部25から読み出す。画像確信度算出部222は、発話理解部21から入力したトラジェクタの画像特徴量ot’,fに基づきコマンド辞書部25から読み出したパラメータセットを用いて、例えば式(2)のガウス関数により、語句情報w’Tの画像特徴量ot’,fに対する条件付尤度P(ot’,f|w’T;L)を算出する。また、画像確信度算出部222は当該パラメータセットを用いたガウス関数の最大値を、語句情報w’Tに対する条件付尤度の最大値maxof P(of|w’T;L)として算出する。そして、画像確信度算出部222は、画像確信度CIを、これらの条件付尤度を用いて、例えば式(3)を用いて算出する。画像確信度算出部222は、算出した画像確信度CIをコマンド評価値算出部224に出力する。
【0084】
(ステップS109)動作確信度算出部223は、発話理解部21から入力された概念構造情報z’に含まれる動作を示す語句情報w’M及びランドマークの位置情報ol’pに対応する確率モデル情報をコマンド辞書部25から読み出す。動作確信度算出部223は、読み出した確率モデル情報に基づき、トラジェクタの位置情報ot’p、ランドマークの位置情報ol’p及び語句情報w’Mの発話理解部21から入力された動作軌道情報ξ’に対する条件付尤度P(ξ’|ot’p, ol’p,w’M;L)を算出する。また、動作確信度算出部223は、当該確率モデルに基づき、入力されたランドマークの位置情報ol’p及び語句情報w’Mの動作軌道情報ξに対する条件付尤度の最大値maxξ,opP(ξ|op, ol’p,w’M;L)を算出する。そして、動作確信度算出部223は、動作確信度CMを、これらの条件付尤度を用いて、例えば式(4)を用いて算出する。動作確信度算出部223は、算出した動作確信度CMをコマンド評価値算出部224に出力する。
【0085】
(ステップS110)コマンド評価値算出部224は、音声確信度算出部221から入力した音声確信度CS、画像確信度算出部222から入力した画像確信度CI及び動作確信度算出部223から入力した動作確信度CMを重み付け加算し、重み付け加算値に基づき、例えば式(5)を用いてコマンド評価値を算出する。コマンド評価値算出部224は、算出したコマンド評価値を動作制御指示部225に出力する。
(ステップS111)動作制御指示部225は、コマンド評価値算出部224から入力されたコマンド評価値が、閾値δよりも大きいとき(ステップS111 N)、動作制御部8及び発話理解部21のコマンド候補選択部216に動作指示信号を出力する。動作制御指示部225は、コマンド評価値がδと等しいか、又はδより小さいとき(ステップS111 Y)、処理を終了する。
【0086】
(ステップS112)動作制御部8は、発話理解部21から行動情報a’、トラジェクタの位置情報ot’,p、ランドマーク情報l’及びその位置情報ol’,pを入力する。動作制御部8は、動作制御指示部225から動作指示信号が入力されたとき、行動情報a’に対応する電力モデルを駆動電力モデル部9から読み出し、動作機構部10の少なくとも一部を構成する部品に供給する電力の時系列データを決定する。動作制御部8は、決定した電力の時系列データに基づき、その部品へ電力を供給する。これにより動作機構部10は、ロボットコマンドと認識されたユーザによる発話情報sに応じた動作を実行し、処理を終了する。
【0087】
次に、上記のステップS106における詳細な処理について説明する。図7は、ステップS106における発話理解処理の流れ図である。
(ステップS106−1)音声信念算出部211は、音声認識部5から入力された発話情報sに対する、概念構造情報の候補zの条件付尤度P(s|z;L)をコマンド辞書記憶部25から読み出したコマンド辞書情報Lに基づいて算出する。また、音声信念算出部211は、概念構造情報の候補zに対応する尤度P(z;Gr)をコマンド文法記憶部26から読み出す。音声信念算出部211は、算出した条件付尤度を用いて例えば式(7)に基づき、音声信念関数(Speech Belief)Bsを算出する。音声信念算出部211は、音声信念関数Bsをコマンド候補選択部216に出力する。また、音声信念算出部211は、概念構造情報の候補zに含まれるトラジェクタを表す語句情報wT及びランドマークを表す語句情報wL(概念構造情報の候補zに含まれる場合)を抽出して、抽出した語句情報wLを視覚信念算出部212に出力し、動作を表す語句情報wMを動作信念算出部213及び動作オブジェクト関係信念算出部214に出力する。
【0088】
(ステップS106−2)視覚信念算出部212は、音声信念算出部211から入力された語句情報wTに対応するパラメータセットをコマンド辞書部25から読み出す。視覚信念算出部212は、画像分析部7から入力したトラジェクタの画像特徴量ot,fに基づき読み出したパラメータセットを用いて例えば式(2)のガウス関数により、語句情報wTの画像特徴量ot,fに対する条件付尤度P(ot,f|wT;L)を算出する。また、視覚信念算出部212は、音声信念算出部211から入力されたランドマークを表す語句情報wLに対応するパラメータセットをコマンド辞書記憶部25から読み出す。視覚信念算出部212は、画像分析部7から入力したランドマークの画像特徴量ol,fと読み出したパラメータセットを用いて式(2)のガウス関数により、語句情報wLの画像特徴量ol,fに対する条件付尤度P(ol,f|wL;L)を算出する。視覚信念算出部212は、算出した条件付尤度と読み出したコマンド辞書情報を用いて、例えば式(8)に基づき、視覚信念関数(Image Belief)BIを算出し、コマンド候補選択部216に出力する。なお、語句情報wLが入力されない場合には、式(8)のlogP(ol,f|WL;L)の部分を算出する必要はなく、この部分をゼロとおいてもよい。
【0089】
(ステップS106−3)動作信念算出部213は、音声信念算出部211から入力された動作を表す語句情報wMに対応する確率モデル情報をコマンド辞書記憶部25から読み出す。動作信念算出部213は、読み出した確率モデル情報に基づき、画像分析部7から入力されたランドマークの位置情報ol,p、ランドマークの位置情報ol,p及び語句情報wMの画像分析部7から入力された動作軌道情報の候補ξに対する条件付尤度P(ξ|op, ol,p,wM;L)、即ち動作信念関数BMを算出する。動作信念算出部213は、算出した動作信念関数BMをコマンド候補選択部216に出力する。
【0090】
(ステップS106−4)動作オブジェクト関係信念算出部214は、音声信念算出部211から入力された動作を表す語句情報wMに対応するパラメータセットRを第1パラメータセット記憶部27から読み出す。動作オブジェクト関係信念算出部214は、画像分析部7から入力されたトラジェクタの画像特徴量ot,f、ランドマークの画像特徴量ol,f及び読み出したパラメータセットRを用いて、例えば式(2)のガウス関数により、語句情報wMの画像特徴量ol,f及び画像特徴量ol,fに対する条件付尤度P(ot,f,ol,f|wM;R)、即ち動作オブジェクト関係信念関数BRを算出する。動作オブジェクト関係信念算出部214は、算出した動作オブジェクト関係信念関数BRをコマンド候補選択部216に出力する。
【0091】
(ステップS106−5)行動コンテクスト信念算出部215には、コマンド候補選択部216から前回RD音声と判断されたときのトラジェクタ情報t’及びランドマーク情報l’が行動コンテクスト情報qとして入力される。行動コンテクスト信念算出部215は、現在のトラジェクタ情報の候補t及び行動コンテクスト情報qに対応するパラメータBH(t,q;H)を第2パラメータセット記憶部28から読み出す。また、行動コンテクスト信念算出部215は、現在のランドマーク情報の候補l及び行動コンテクスト情報qに対応するパラメータBH(l,q;H)を第2パラメータセット記憶部28から読み出す。行動コンテクスト信念算出部215は、行動コンテクスト信念関数BHを、例えば式(9)により算出し、算出した行動コンテクスト信念関数BHをコマンド候補選択部216に出力する。
【0092】
(ステップS106−6)コマンド候補選択部216は、音声信念算出部211、視覚信念算出部212、動作信念算出部213、動作オブジェクト関係信念算出部214及び行動コンテクスト信念算出部215から各々入力された音声信念関数BS、視覚信念関数BI、動作信念関数BM、動作オブジェクト関係信念BR及び行動コンテクスト関係信念関数BHを重み付け加算し、共有信念関数Ψ(s,a,O,q,L,Gr,R,H,Γ)を算出する。
(ステップS106−7)コマンド候補選択部216は、算出した共有信念関数Ψが最大値にであるか否か判断し、最大値ではない場合には(ステップS106−7 N)、ステップS106−8に進む。算出した共有信念関数Ψが最大値である場合には(ステップS106−7 Y),ステップS106−9に進む。
(ステップS106−8)コマンド候補選択部216は、別の概念構造情報z及びランドマーク情報lに変更し、ステップS106−1に戻る。
【0093】
(ステップS106−9)コマンド候補選択部216は、共有信念関数Ψの最大値をとる概念構造情報z’、ランドマーク情報l’及び行動情報a’を選択もしくは決定する。
コマンド候補選択部216は、概念構造情報z’を音声確信度算出部221に出力する。コマンド候補選択部216は、トラジェクタ情報t’、ランドマーク情報l’、概念構造z’に含まれるトラジェクタを示す語句情報w’T、ランドマークを示す語句情報w’L、トラジェクタの画像特徴量ot’,f及びランドマークの画像特徴量ol’,fを選択して画像確信度算出部222に出力する。コマンド候補選択部216は、行動情報a’、ランドマーク情報l’ 、トラジェクタの位置情報ot’,p、ランドマークの位置情報ol’,p及び動作を示す語句情報w’Mを動作確信度算出部223に出力する。
【0094】
なお、コマンド候補選択部216は、トラジェクタの位置情報ot’,p、ランドマークの位置情報ol’,p、行動情報a’及びランドマーク情報l’を動作制御部8に出力する。なお、コマンド判断部22の動作制御指示部225から動作指示信号を入力されたときは、コマンド候補選択部216は、選択したランドマーク情報l’及び行動情報a’に含まれるトラジェクタ情報t’ を行動コンテクスト信念算出部215に出力する。そして、ステップS107に処理を進める。
なお、概念構造情報z’にランドマークを示す語句情報w’Lが含まれない場合には、コマンド候補選択部216は、ランドマーク情報l’、画像特徴量ol’,f及び位置情報ol’,pを出力しなくてもよい。
【0095】
上記の第2の実施形態に係るコマンド認識ロボット31とは異なり、第1の実施形態に係るコマンド認識ロボット1のように、注意判断部11を有しない場合には、上記のコマンド認識方法においてステップS101及びS102を実行しなくてもよい。このとき、上記のコマンド認識方法は、ステップS103及びS105から実行を開始する。
また、語句確信度算出部22は、画像確信度算出部222又は動作確信度算出部223のうち何れか一方を含み、他方を含まない場合には、他方が実行するステップを実行せず、ステップS110においてコマンド評価値CMSを音声確信度CS及びその一方が実行するステップによる確信度に基づいて算出してよい。
【0096】
上記の第1実施形態に係るコマンド認識部2により、無雑音音声(clean speech)を用いた場合と雑音重畳音声(noisy speech)を用いて性能を検証した結果について、図8及び9を用いて説明する。無雑音音声とは、ここでは1人当たり160個の音声サンプル(うち、RD音声80個及びOOD音声80個)16人分からなる2560個の音声サンプルである。これらの音声サンプルは雑音がない遮音室(anechoic room)で収録されたものであり、これらをまとめて無雑音音声コーパス(clean speech corpus)とする。
【0097】
雑音重畳音声コーパスは、上述の無雑音音声コーパスの音声信号に雑音信号(noise signal)をミキシングして作成した雑音重畳音声サンプルからなるコーパスである。また、コマンド辞書記憶部25に記憶されている単語数は56語である。そのうち、名詞及び形容詞は40語、動詞は19語である。但し、19語の動詞が示す動作は10種類である。音声認識部5による音素の認識率は、無雑音音声コーパス、雑音重畳音声コーパスを用いた場合各々について、83%、67%となった。
【0098】
検証で用いたデータサンプルは、上記の無雑音音声コーパス及び雑音重畳音声コーパスに含まれる音声サンプルと画像サンプルを各々対応付けた組み合わせである。図7に示す3個の物体を含むシーンを表す画像が画像サンプルの一例である。この例は、直前の試行において「みかん」を箱の上に置く動作を示す。即ち、「みかん」がトラジェクタであり、撮影された画像から検知された物体のうち「みかん」のトラジェクタ情報tが行動コンテクストqである。検証に先立ち、15人分のデータを事前学習に用いた。残りの1人分のデータを検証に用い、16回繰り返した。事前学習において、実験者は確信度の重み係数の組Θ及び信念関数の重み係数の組Γを最適化した。最適化により得られた確信度の重み係数の平均値Θ’={θ’o, θ1’, θ2’, θ3’ }は、θ’o=5.9, θ1’=0.00011, θ2’=0.053, θ3’=0.74である。また、信念関数の重み係数Γ={γ12345}は、γ1=1.00, γ2=0.75, γ3=1.03, γ4=0.56, γ5=1.88である。
【0099】
図8は、第1の実施形態に係るコマンド認識部2において無雑音音声コーパスを用いた場合の検証結果を示す図である。図9は、第1の実施形態に係るコマンド認識部2において雑音音声コーパスを用いた場合の検証結果を示す図である。図8及び図9ともに、横軸は精度、縦軸は再現率である。精度とは、検証により正解が得られた試行回数の、検証を行った試行回数に対する割合である。即ち、精度とは、どれだけ正解が得られるかを示す指標である。再現率とは、検証によりRD音声と判断された試行回数の、検証に用いたRD音声の試行回数に対する割合である。即ち、RD音声の網羅性を示す指標である。理想的には、精度100%及び再現率100%であるが、一般に精度と再現率は相補的な関係がある。即ち、閾値δを大きくするほど再現率は低くなるのに対し精度が高くなる、動作制御指示部225においてRD音声の判定に用いる閾値δを小さくするほど再現率が高くなるが精度が低くなる傾向にある。従って、各図の右上に検証結果が接近するほど性能が優れることを示す。
【0100】
なお、図8及び図9いずれにおいても、「ベースライン」と示した粗い破線401及び501は、コマンド評価値を音声確信度のみに基づいて算出した場合の結果を示す。「音声・画像」と示した細かい破線402及び502は、コマンド評価値を音声確信度と画像確信度に基づいて算出した場合の結果を示す。「音声・動作」と示した一点破線403及び503は、コマンド評価値を音声確信度と動作確信度に基づいて算出した場合の結果を示す。「MSC」と示した実線404及び504は、第1の実施形態によりコマンド評価値を音声確信度、動作確信度及び動作確信度に基づいて算出した場合の結果を示す。
【0101】
図8及び図9ともに、画像確信度又は動作確信度を考慮することにより性能が向上することを示す。とりわけ、「MSC」が、無雑音音声及び雑音重畳音声いずれについても最も性能が優れる。「音声・動作」及び「音声・画像」ともに、無雑音音声及び雑音重畳音声いずれについても「ベースライン」よりも性能が優れる。「MSC」及び「ベースライン」の平均最大F値(F−measure)は、無雑音音声について各々99%、94%であり、雑音重畳音声について各々95%、83%である。つまり「MSC」において、「ベースライン」よりも、F値が無雑音音声について5%、雑音重畳音声について14%上回る。但し、F値は、精度と再現率の調和平均、つまり 2×精度×再現率/(精度+再現率)と計算され、F値が高くなるほど性能が優れることを示す。また、t検定(t−test)により、無雑音音声及び雑音向上音声両者について「MSC」と「ベースライン」で統計的差異が認められた(有意水準p<0.01)。また、雑音重畳音声に関して「MSC」について95%、「ベースライン」について83%という性能に着目すれば、「MSC」の利用が特に雑音重畳音声について有効といえる。なお、動作制御指示部225におけるMSCによるRD音声の判定を行うため、例えば無雑音音声について平均F値を最大化する閾値δ‘を用いればよい。上記の結果によれば、δ’=0.79 とすればよい。
【0102】
次に、上記の第2実施形態に係るコマンド認識ロボット31による検証結果を図10を用いて説明する。実験において、各2名の被験者がコマンド認識ロボット31の前に在席し、日本語音声でロボットコマンドを発声してコマンド認識ロボット31を操作するものとした。実験者は上記の重み係数Θ’、及び閾値δ’を予め求めておき、コマンド認識ロボット31は、実験において、求めた重み係数Θ’、及び閾値δ’を用いた。また、被験者は、実験中、自由に会話できることとした。
ここでは、全4セッションの実験を4組の被験者により行った。各セッションは50分である。実験環境において、ロボットの動作機構部10は周囲騒音を生じる。また、被験者は、実験中に全850個の発話を行い、実験後、各発話がRD音声又はOOD音声かを実験者が手動で分別した。
【0103】
図10は、本実施形態に係るコマンド認識ロボット31への注意の有無による、RD音声及びOOD音声のサンプル数を示す。即ち、図10は、注意判断部11が、被験者の顔の向きにより、被験者の注意を検出した結果を示す。横の項目は、RD音声、OOD音声、及び合計を示す。縦の項目は、コマンド認識ロボット31への注意あり、コマンド認識ロボット31への注意なし、及び合計を示す。図10によれば、(1)ほぼ全部のRD音声が、被験者がコマンド認識ロボット31を向いている場合になされていること、(2)多くのOOD音声が、コマンド認識ロボット31に注意が向いているときに、なされていること、を表している。
図11は、本実施形態に係るコマンド認識ロボット31による再現率、精度、及びF値を、次の各条件について示す。(1)「注意」とは、人間の注意のみを用いた場合である。(2)「注意・音声」とは、人間の注意及び音声確信度を用いた場合である。(3)「注意・音声・画像」とは、人間の注意、音声確信度及び画像確信度を用いた場合である。(4)「注意・音声・動作」とは、人間の注意、音声確信度及び動作確信度を用いた場合である。(5)「注意・MSC」とは、人間の注意及びMSCを用いた場合である。
【0104】
図11は、「注意」については、再現率が96%、精度が22%、及びF値が36%であることを示す。これに対し、「注意・音声・画像」、「注意・音声・動作」、及び「注意・MSC」は、いずれも、「注意・音声」よりも、再現率、精度及びF値が上回ることを示す。即ち、この結果は、画像確信度又は動作確信度を考慮することが性能向上を促すことを示す。「注意・MSC」について、再現率は「注意」の場合とほぼ同等であるが、精度が97%、F値は97%と著しく向上する。
【0105】
上記の結果は、ユーザがロボットに向けた注意を検出するだけではロボットにとってRD音声を検出するために不十分な反面、本実施形態のように、注意の他に発話を検出することがRD音声の検出に有効であることを示す。多くの場合、人間はロボットを実の人間とみなしておらず、ロボットに注意を払うときにのみ発話するからである。
なお、実環境において周囲雑音は常に存在し、音声認識の信頼性を低下させる。しかし、本実施形態のように音声の他、他の情報、即ち画像又は動作を併用することによりRD音声を検出する性能を向上させることができる。特に、音声確信度、画像確信度及び動作確信度に基づくMSCを用いることにより有効性が示される。
【0106】
なお、上述した実施形態におけるコマンド認識ロボット1もしくは31、又はコマンド認識部2もしくは32の一部、例えば、音声確信度算出部221、画像確信度算出部222、動作確信度算出部223、コマンド評価値算出部224、動作制御指示部225、発話理解部21及び注意判断部11をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、コマンド認識部又はコマンド認識ロボットに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態におけるコマンド認識ロボット及びコマンド認識部の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。コマンド認識ロボット及びコマンド認識部の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
【0107】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0108】
1…コマンド認識ロボット
2…コマンド認識部
3…収音部
4…音声分析部
5…音声認識部
6…撮影部
7…画像分析部
8…動作制御部
9…駆動電力モデル記憶部
10…動作機構部
21…発話理解部
211…音声信念算出部
212…視覚信念算出部
213…動作信念算出部
214…動作オブジェクト関係信念算出部
215…行動コンテクスト信念算出部
216…コマンド候補選択部
22…語句確信度算出部
221…音声確信度算出部
222…画像確信度算出部
223…動作確信度算出部
224…コマンド評価値算出部
225…動作制御指示部
23…音素音響モデル記憶部
24…音素ネットワーク記憶部
25…コマンド辞書記憶部
26…コマンド文法記憶部
27…第1パラメータセット記憶部
28…第2パラメータセット記憶部

【特許請求の範囲】
【請求項1】
発話情報から単語列情報を決定又は選択する発話理解部と、
前記発話情報と前記単語列情報に基づいて音声確信度を算出する音声確信度算出部と、
画像情報と前記単語列情報に含まれる語句情報に基づいて語句確信度を算出する語句確信度算出部とを備え、
前記音声確信度及び前記語句確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断する、
ことを特徴とするコマンド認識装置。
【請求項2】
前記画像情報から物体の特徴量を求める画像分析部を備え、
前記語句確信度算出部は、前記特徴量の物体が前記語句情報の物体である確からしさを示す画像確信度を前記語句確信度として算出する、
ことを特徴とする請求項1記載のコマンド認識装置。
【請求項3】
前記画像情報から物体の動きを求める画像分析部を備え、
前記語句確信度算出部は、前記動きが前記語句情報の動作である確からしさを示す動作確信度を前記語句確信度として算出する、
ことを特徴とする請求項1記載のコマンド認識装置。
【請求項4】
前記画像分析部は、さらに前記画像情報から物体の動きを求め、
前記語句確信度算出部は、前記語句確信度として、さらに前記動きが前記語句情報の動作である確からしさを示す動作確信度を算出し、
前記動作制御指示部は、前記音声確信度、前記画像確信度及び前記動作確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断する、
ことを特徴とする請求項2記載のコマンド認識装置。
【請求項5】
撮影した画像に基づき発話者がロボットへ注意を向けているか否かを判断し、
前記発話者が前記ロボットへ注意を向けていると判断したとき、前記単語列情報のコマンドを実行させる注意判断部を備える
ことを特徴とする請求項1に記載のコマンド認識装置。
【請求項6】
前記発話理解部は、過去にコマンドを実行すると判断された単語列情報に基づいて前記コマンド情報を定める
ことを特徴とする請求項1に記載のコマンド認識装置。
【請求項7】
コマンド認識装置におけるコマンド認識方法において、
前記コマンド認識装置が、発話情報から単語列情報を決定又は選択する第1の過程と、
前記コマンド認識装置が、前記発話情報と前記単語列情報に基づいて音声確信度を算出する第2の過程と、
前記コマンド認識装置が、画像情報が前記単語列情報に含まれる語句情報に基づいて語句確信度を算出する第3の過程と、
前記コマンド認識装置が、前記音声確信度及び前記語句確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断する第4の過程と、
を備えることを特徴とするコマンド認識方法。
【請求項8】
発話情報から単語列情報を決定又は選択する発話理解部と、
前記発話情報と前記単語列情報に基づいて音声確信度を算出する音声確信度算出部と、
画像情報と前記単語列情報に含まれる語句情報に基づいて語句確信度を算出する語句確信度算出部とを備え、
前記音声確信度及び前記語句確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断する動作制御指示部と、
前記単語列情報に基づきコマンドを実行する動作機構部と、
を備えることを特徴とするコマンド認識ロボット。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate