説明

ロボットおよび音声認識装置ならびにプログラム

【課題】音声認識の精度を向上させること。
【解決手段】音声をデジタル化して音声データを出力するマイクロフォン14と、マイクロフォン14から出力された音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置50とを備え、音声認識装置50は、複数の音声認識エンジンを有する第1処理部61を備え、一の音声認識処理部は、他の音声認識処理部とは異なるタイミングで、かつ、他の音声認識処理部の音声認識期間内に、音声認識を開始するロボットを提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識機能を有するロボットに係り、特に、音声認識を行う音声認識装置およびそのプログラムに関するものである。
【背景技術】
【0002】
従来、一般的家庭向けの対話型ロボットでは、雑音が存在する環境で常時ユーザの呼びかけに対応することが要求されている。しかしながら、ユーザの指令であるか、テレビ・ラジオなどの生活雑音であるかを判断することは非常に難しく、テレビ・ラジオ等の生活雑音をユーザによる指令であると誤って認識することも少なくない。
上述した誤認識の解決策として、例えば、常時適正な音声区間を用いて音声認識を実施することが提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特表2002−507010号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、適切な音声区間によって音声認識を行ったとしても、音声区間において音声認識したい言葉である目的音が発せられる前に雑音が入ってしまった場合には、雑音も目的音の一部として取り扱われてしまい、音声認識ができないということがあった。
【0005】
本発明は、上記問題を解決するためになされたもので、音声認識の精度を向上させることのできるロボットおよび音声認識装置ならびにプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明は以下の手段を採用する。
本発明は、音声をデジタル化して音声データを出力する音声入力部と、前記音声入力部から出力された音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置とを備え、前記音声認識装置は、複数の音声認識処理部を有する第1処理部を備え、一の前記音声認識処理部は、他の前記音声認識処理部とは異なるタイミングで、かつ、他の前記音声認識処理部の音声認識期間内に、音声認識を開始するロボットを提供する。
【0007】
このような構成によれば、少なくとも2つの音声認識処理部を時間差で並行して作動させることが可能となる。このように、音声認識処理部の音声認識開始時期をずらして作動させるので、一方の音声認識処理部によって認識される音声データに雑音が含まれてしまい、音声認識に失敗した場合でも、他方の音声認識処理部においては雑音の入っていない目的音のみの音声データを認識対象として取り扱わせることが可能となる。
これにより、音声認識が成功する確率を高めることができ、音声認識の精度を向上させることができる。また、音声認識の精度が向上することにより、ロボットの誤動作確率を低減させることが可能となる。
【0008】
上記ロボットにおいて、各前記音声認識処理部は、一定の時間間隔で順番に作動を開始することが好ましい。
【0009】
このように、全ての音声認識処理部をそれぞれ異なるタイミングで作動させることにより、雑音が入っていたとしても、いずれかの音声認識処理部によって的確に目的音を捕らえて音声認識を行うことが可能となる。この結果、音声認識が成功する確率を更に高めることができる。
【0010】
上記ロボットにおいて、各前記音声認識処理部は、いずれかの音声認識処理部によって音声が認識されるまで繰り返し音声認識を実施することとしてもよい。
【0011】
例えば、一回の入力で音声認識が出来なかった場合、同じ言葉がユーザによって再度発せられることがある。このような場合に、音声認識に成功するまで、各音声認識処理部が繰り返し音声認識を実施することで、目的音を的確に捕らえる機会を増やすことができ、音声認識の精度を向上させることができる。
【0012】
上記ロボットにおいて、各前記音声認識処理部は、いずれかの音声認識処理部によって音声認識が成功した場合に、音声認識を停止して待機状態となることとしてもよい。
【0013】
このように、いずれかの音声認識処理部によって音声認識がされた場合には、全ての音声認識処理部が待機状態となるので、作動を繰り返し続けることによる計算機の能力の無駄な消費を回避することができる。
【0014】
上記ロボットにおいて、前記音声認識装置は、音声認識結果の候補として予想される単語を登録した辞書を前記第1処理部に与える第2処理部を備え、該第2処理部は、内容の全部または一部が相互に異なる辞書を作成し、互いに異なるタイミングで該辞書を前記第1処理部に与える複数の辞書作成部を有し、各辞書作成部は、自身が該第1処理部に与えた辞書に対する音声認識結果が入力されるまで、または、自身が前記第1処理部に対して該辞書を与えてから所定の時間が経過するまで入力信号待ち状態となり、前記第1処理部の各前記音声認識処理部は、自身が作動を開始する時点で入力信号待ち状態にある前記辞書作成部から与えられた全ての辞書を用いて音声認識を行い、音声認識が成功した場合に、その結果を前記第2処理部に出力することとしてもよい。
【0015】
このような構成によれば、異なる目的音が時間差で入力されることが予測される場合には、それぞれのタイミングで入力が予測される音声の候補を登録した辞書が作成され、これらを適切なタイミングで第1処理部に与えることが可能となる。
また、第1処理部において、各音声認識処理部は、入力信号待ち状態である辞書作成部から与えられた全ての辞書を用いて音声認識を行うので、異なる辞書が時間差で発生した場合でも柔軟に対応して音声認識を継続して行うことが可能となる。これにより、目的音が異なるタイミングで連続的に入力されるような場合であっても、それぞれの目的音を的確に捕らえて認識することが可能となる。
【0016】
上記ロボットにおいて、前記音声認識装置は、複数の前記音声認識処理部のうち、少なくとも1つの音声認識処理部と同じタイミングで音声認識を開始する少なくとも1つの補助音声認識処理部を更に備えることとしてもよい。
【0017】
音声認識処理部と補助音声認識処理部とを同じ期間にわたって並行して走らせるので、音声認識の精度を更に高めることができる。
【0018】
上記ロボットは、前記音声認識装置による音声認識結果に対応する応答動作を実行する応答動作実行部を備えることとしてもよい。
【0019】
本発明は、音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置であって、複数の音声認識処理部を有する第1処理部を備え、一の前記音声認識処理部は、他の前記音声認識処理部とは異なるタイミングで、かつ、他の前記音声認識処理部の所定の音声認識期間内に、音声認識を開始する音声認識装置を提供する。
【0020】
本発明は、音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識をコンピュータに実行させるためのプログラムであって、複数の音声認識プログラムを有し、一の前記音声認識プログラムは、他の前記音声認識プログラムとは異なるタイミングで、かつ、他の音声認識プログラムが作動している期間内に、音声認識を開始するプログラムを提供する。
【発明の効果】
【0021】
本発明によれば、音声認識の精度を向上させることができるという効果を奏する。
【図面の簡単な説明】
【0022】
【図1】本発明の第1の実施形態に係るロボットの正面図である。
【図2】図1に示したロボットの左側面図である。
【図3】ロボットが備える各種構成要素のうち、音声認識に関連の深い構成要素を抽出して示したブロック図である。
【図4】音声認識装置が備える機能を展開して示した機能ブロック図である。
【図5】音声認識装置のハードウェア構成を示した図である。
【図6】本発明の第1の実施形態に係る音声認識装置の作動を説明するためのタイミングチャートである。
【図7】応答動作実行部が備える機能を展開して示した機能ブロック図である。
【図8】本発明の第1の実施形態に対応する従来の音声認識装置の動作例を示したタイミングチャートである。
【図9】本発明の第2の実施形態に係る音声認識装置の作動を説明するためのタイミングチャートである。
【図10】本発明の第2の実施形態に対応する従来の音声認識装置の動作例を示したタイミングチャートである。
【発明を実施するための形態】
【0023】
以下に、本発明に係るロボットの一実施形態について、図面を参照して説明する。
〔第1の実施形態〕
図1は、本発明の第1の実施形態に係るロボットの正面図、図2は、図1に示したロボットの左側面図である。
図1および図2に示すように、ロボット本体1には、頭部2と、この頭部2を下方から支持する胸部3と、この胸部3の右側に設けられた右腕部4a、胸部3の左側に設けられた左腕部4bと、胸部3の下方に接続された腰部5と、この腰部5の下方に接続されたスカート部6と、このスカート部6の下方に接続された脚部7とが設けられている。
【0024】
頭部2には、頭頂部近傍に全方位カメラ11が一つ設けられている。この全方位カメラ11の外周に沿って複数の赤外線LED12が所定の間隔で円環上に配置されている。
頭部2の前面の中央近傍には、図1に示すように、前方を撮像するための前方カメラ13が正面視して右側に一つ、マイクロフォン14が正面視して左側に一つ、それぞれ設けられている。
【0025】
胸部3の前面の中央近傍には、モニタ15が一つ設けられている。このモニタ15の上方には、人を検知するための超音波距離センサ16が一つ設けられている。モニタ15の下方には、電源スイッチ17が一つ設けられている。超音波距離センサ16の上方には、2つのスピーカ18が左右に一つずつ設けられている。また、図2に示すように、胸部3の背面には、荷物を収納することができるランドセル部33が設けられている。ランドセル部33には、上部に設けたヒンジ周りに回動可能な開閉扉33aが設けられている。図1に示すように、胸部3の左右の肩部には、マンマシンインターフェースとして機能する肩スイッチ19がそれぞれ一つずつ設けられている。肩スイッチ19には、例えば、タッチセンサが採用されている。
【0026】
右腕部4aおよび左腕部4bには、多関節構造が採用されている。右腕部4a、左腕部4bにおいて、胸部3との接続部近傍には、体や物の挟み込みを検知して腕の動作を止めるための脇スイッチ20がそれぞれ設けられている。図1に示すように、右腕部4aの手のひら部分には、マンマシンインターフェースとして機能する握手スイッチ21が内蔵されている。これら脇スイッチ20や握手スイッチ21には、例えば、押圧センサが採用される。
【0027】
腰部5の前面の中央近傍には、人を検知するための超音波距離センサ22が左右に一つずつ設けられている。これら超音波距離センサ22の下方には、複数の赤外センサ23が配列されたセンサ領域24が設けられている。これら赤外線センサ23は、ロボット本体1の下方前方にある障害物等を検出するためのものである。図1および図2に示すように、腰部5の下方には、前面および背面において、音源方向を検出するためのマイクロフォン25が左右に一つずつ、計4つ設けられている。図2に示すように、腰部5の側面の左右には、本体を持ち上げるときに使用する取手部26がそれぞれ一つずつ設けられている。取手部26は、凹所とされており、操作者の手が挿入できるようになっている。
【0028】
スカート部6の前面下方には、段差を検出するための赤外線センサ27が、中央および左右に計3つ設けられている。図2に示すように、スカート部6の背面には、充電コネクタ28が設けられている。
【0029】
図1に示すように、脚部7の前面には、側方の距離を検出するための赤外線センサ29が左右に一つずつ設けられている。これら赤外線センサ29は、主に段差検出に用いられるものである。
図2に示すように、脚部7の背面には、充電ステーションにロボット本体1を位置固定するためのフック30が設けられている。脚部7は、走行用車輪31および4つのボールキャスタ32を備えた台車とされている。
【0030】
このようなロボットは、ロボット本体1に内蔵されたバッテリからの電源供給により、作業空間を自律的に移動することが可能な構成を備えており、一般家庭等の屋内を作業空間として人間と共存し、例えば、一般家庭内でロボットの所有者や操作者などのユーザの生活を補助・支援・介護するための各種サービスを提供するために用いられる。
そのため、ロボット1は、ユーザとの会話を実現させる会話機能のほか、ユーザの行動を見守ったり、ユーザの行動を補助したり、ユーザと一緒に行動したりする機能を備えている。このような機能は、例えば、後述するロボット本体1の内部に内蔵されたマイクロコンピュータ等からなる制御装置により実現されるものである。制御装置には、図1および図2に示した各種カメラや各種センサ等が接続されており、カメラからの画像情報やセンサからのセンサ検出情報を取得し、これらの情報に基づいて各種プログラムを実行することにより、上述した各種機能を実現させる。なお、ロボット本体1の形状としては、図1および図2に示した形状に限られず、愛玩用に動物を模したものなど、種々のものを採用することが可能である。
【0031】
次に、本発明の特徴部分であるロボット1が備える音声認識機能について説明する。音声認識機能は上述した会話機能を実現させるために必要となる機能であり、上述した制御装置内に設けられた音声認識装置等により実現されるものである。
図3は、ロボット1が備える各種構成要素のうち、音声認識に関連の深い構成要素を抽出して示したブロック図である。図3に示すように、ロボット1は、マイクロフォン(音声入力部)14、音声認識装置50、および応答動作実行部51を備えている。
【0032】
マイクロフォン14は、ユーザの音声や電話のベル、呼び鈴、テレビ・ラジオ等の生活雑音を取り込み、これらの音声を電気信号に変換した音声データを音声認識装置50へ出力する。音声認識装置50は、マイクロフォン14から入力された音声データを認識し、その音声結果を応答動作実行部51へ出力する。応答動作実行部51は、音声認識装置50による判断結果に応じた応答動作を実行する。
【0033】
以下、図3に示した音声認識装置50について詳しく説明する。
音声認識装置50は、図4に示すように、マイクロフォン14から入力された音声データを認識する第1処理部61と、音声認識結果の候補として予想される単語を辞書として第1処理部61に与える第2処理部(例えば、アプリケーションソフトウェアを実行して種々の処理を実現させるアプリケーション部)62とを備えている。
【0034】
音声認識装置50は、コンピュータシステム(計算機システム)であり、図5に示すように、CPU(中央演算装置)71、RAM(Random Access Memory)等の主記憶装置72、補助記憶装置73などで構成されている。
補助記憶装置73は、コンピュータ読み取り可能な記録媒体であり、例えば、上記第1処理部61および第2処理部62の処理を実現させるための各種プログラムが格納されている。そして、CPU71がこの補助記憶装置73に記録されている各種プログラムを読み出して、情報の加工・演算処理を実行することにより、後述する各種処理を実現させる。
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。
【0035】
第1処理部61は、図6に示すように、3つの音声認識エンジン(音声認識処理部)SR1、SR2、SR3を備えている。なお、本実施形態では、3つの音声認識エンジンを備える場合を例示しているが、音声認識エンジンの数は限定されず、2つ以上設けられていればよい。
【0036】
各音声認識エンジンSR1〜SR3は、第2処理部62から与えられる辞書に登録されている単語と音声データとを照合し、所定の正解確信度を超える照合結果が得られた場合に、その照合結果を音声認識結果として第2処理部62に出力する。
ここで、所定の正解確信度とは、マイクロフォン14からの音声が照合された辞書データと同一であると判断する基準値である。
【0037】
各音声認識エンジンSR1〜SR3は、少なくとも1つの音声認識エンジンが他の音声認識エンジンと異なるタイミングで音声認識を開始するようになっている。本実施形態では、各音声認識エンジンSR1〜SR3は、既定の順序に従って、所定の時間間隔で作動する。具体的には、図6に示すように、音声認識エンジンSR1が作動を開始した後、所定の時間経過後に、音声認識エンジンSR2が作動を開始し、更に、その所定時間経過後に音声認識エンジンSR3が作動を開始する。このとき、所定の時間間隔は、各音声認識エンジンが音声認識を行う期間である音声認識期間(図6においては、T1からT6の期間などに相当)よりも短く設定されている。
これにより、複数の音声認識エンジンを異なる開始タイミングで多重に作動させることができ、雑音が混じっていた場合でも目的音のみを確実に捕らえて音声認識する機会を増加させることが可能となる。この結果、音声認識が成功する確率を高めることができ、音声認識精度を高めることができる。
【0038】
また、各音声認識エンジンSR1〜SR3は、音声認識期間が経過したときに、他の音声認識エンジンによる音声認識が成功していない場合には、音声認識を再開させる。これにより、いずれかの音声認識エンジンによって音声認識が行われるまで、各音声認識エンジンSR1、SR2、SR3が所定の時間間隔で繰り返し音声認識を実施することとなる。
なお、いずれかの音声認識エンジンによって音声認識が成功した場合には、いずれの音声認識エンジンも作動を停止し、第2処理部62から次の辞書が与えられるまで待機状態となる。
【0039】
第2処理部62は、音声認識結果の候補として予想される単語を辞書として作成し、作成した辞書を第1処理部51に与える辞書作成部SD1を有している。
本実施形態に係るロボット1は、ユーザと対話することやユーザによって何らかの指示がされた場合にその指示に応じた行動をすることを目的としている。従って、例えば、ユーザから入力される音声をその時々の動作状況(例えば、対話の状況等)によって予測することが可能となる。
【0040】
例えば、ロボット1がユーザに対して「これを移動させますか。」と聞いた場合には、ユーザからの回答の候補として、「はい」「いいえ」などが推測できる。第2処理部62の辞書作成部SD1は、ロボット1の各種対話モードと入力音声の候補が登録されている辞書とを対応付けて保有しており、現在進行している対話モードに応じた辞書を選択して、第1処理部51に与える。
このように、入力される音声の候補を予め絞り、候補となる単語が登録された辞書を第1処理部61に与えるので、第1処理部61における音声認識の精度を高めることが可能となる。
【0041】
次に、図3に示した応答動作実行部51について詳しく説明する。
応答動作実行部51は、図7に示すように、会話シナリオ実行部66および代替動作実行部67を備えている。この応答動作実行部51は、例えば、小型のマイクロコンピュータと、会話動作、代替応答動作等の各種応答動作を実現させるための手順が記載されたアプリケーションプログラムを保有しており、音声認識装置50から受け付けた音声認識結果に応じたアプリケーションプログラムを読み出して実行することにより、後述のような会話シナリオ実行部66や代替動作実行部67による各種機能を実現させる。
【0042】
会話シナリオ実行部66は、音声認識装置50から受け付けた音声認識結果に応じた会話シナリオを作成し、この合成音声データに基づく音声信号をロボット本体1が備えるスピーカ18(図1、図2参照)へ出力することにより、合成音声データに応じた発話を行う。
代替動作実行部67は、音声認識装置50から音声認識失敗に関する情報を受け付けたときに、周囲の物音を検知した旨を示す代替動作を実現させるものである。
【0043】
上記代替動作としては、例えば、短時間(数十ミリ秒乃至数秒)で完結する動作または発話が好ましい。動作であれば、例えば、首をかしげる、首を振る、周囲を見回す、目を開閉させる等の1つの動きで完結するものが一例として挙げられ、発話であれば、「ふぅ」、「クピッ」、「んー」などの数個の文字で構成されるものが一例として挙げられる。
【0044】
次に、上述した音声認識装置50の一動作例について図6を参照して説明する。
ここでは、図6に示すように、目的音の前に雑音が入っている場合の音声認識について一例を挙げて説明する。
【0045】
まず、第2処理部62の辞書作成部SD1は、予め登録されている複数の辞書の中から入力が期待される音声の候補が登録された辞書を選択し、この辞書を第1処理部61に出力する(図6の時刻T1)。
第1処理部61は、第2処理部62から辞書を受け取ると、最初の音声認識エンジンSR1を作動させる(図6の時刻T1)。これにより、最初の音声認識エンジンSR1による音声認識が開始される。ここで、音声認識エンジンSR1の音声認識期間(時刻T1からT6の期間)において、雑音が入力されていることから、この雑音により、認識エンジン1による音声認識は失敗する。音声認識に失敗したことが判明すると、音声認識エンジンSR1は、音声認識に失敗したことを示すガベージを第2処理部62に出力し、その後、認識エンジンSR1は待機状態となる(図6の時刻T2)。
【0046】
次に、認識エンジンSR1の作動開始から所定時間が経過することにより、認識エンジンSR2が作動を開始する(図6の時刻T3)。これにより、認識エンジンSR2による音声認識が開始される。
続いて、認識エンジンSR2の作動開始から所定時間が経過することにより、認識エンジンSR3が作動を開始する(図6の時刻T4)。
【0047】
次に、認識エンジンSR2が音声認識に成功すると、その音声認識結果が第2処理部62に出力される(図6の時刻T5)。また、これと同時に、音声認識中であった認識エンジンSR2およびSR3は、音声認識を中止し、待機状態となる。
【0048】
第2処理部62は、第1処理部61から入力された音声認識結果を応答動作実行部51に出力する。応答動作実行部51において、入力された音声認識結果は会話シナリオ実行部66に与えられる。音声認識結果を受け付けた会話シナリオ実行部66では、音声認識結果に対応するシナリオ音声データをスピーカ18へ出力する。これにより、ユーザからの音声入力に対応する適切な発話がなされることとなる。
【0049】
なお、図6では音声認識に成功した場合を例に挙げているが、音声認識に失敗した場合には、音声認識に失敗した旨の情報が音声認識装置50から応答動作実行部51に出力される。応答動作実行部51において、音声認識に失敗した旨の情報は、代替動作実行部67に与えられる。これにより、代替動作実行部67は、首をかしげる、「んー」等の発声などの代替動作を実行する。
【0050】
以上、説明してきたように、本実施形態に係るロボット1、音声認識装置50およびプログラムによれば、各音声認識エンジンSR1、SR2、SR3を所定の時間間隔で並列して作動させるので、雑音が混じっていた場合でも、いずれかの音声認識エンジンによって目的音のみを確実に捕らえさせることが可能となる。この結果、音声認識が成功する確率を高めることができ、音声認識の精度を向上させることが可能となる。
更に、音声認識の精度が向上することにより、ロボット1の誤動作確率を低減させることが可能となる。
【0051】
図8に従来の音声認識装置の動作例を示す。図8に示すように、従来の音声認識装置は、音声認識エンジンを1つしか有していないため、初めの音声認識期間において雑音を捕らえてしまうと音声認識に失敗してしまい、その旨の情報を示すガベージを第2処理部162に出力する(図8の時刻T2)。このガベージの通知を受けると、第2処理部162は先ほどと同じ辞書を音声認識エンジンに再度与える。これにより、音声認識エンジンによる音声認識が再開されるが(図8の時刻T3)、このときには目的音の途中から音声認識が開始されるので、2度目の音声認識においても失敗し、ガベージが出力されることとなる(図8の時刻T4)。このように、従来の音声認識装置では、音声認識に失敗してしまう場合であっても、本実施形態に係る音声認識装置であれば、図6に示すように確実に目的音を捕らえて、音声認識を行うことができる。
【0052】
なお、本実施形態では、いずれかの音声認識エンジンによって音声認識が成功するまで音声認識を繰り返し行うこととしたが、この例に限られない。例えば、各々の音声認識エンジンSR1〜SR3は、自身の音声認識期間が終了したときに作動を停止することとしてもよい。また、繰り返し作動する回数を予め登録しておき、その回数繰り返し作動したら、作動を停止することとしてもよい。
【0053】
〔第2の実施形態〕
次に、本発明の第2の実施形態に係るロボットおよび音声認識装置ならびにプログラムについて説明する。本実施形態に係るロボットが第1の実施形態と異なる点は、図9に示すように、第2処理部61´が複数の辞書作成部SD1、SD2を備える点、第1処理部61´の各音声認識エンジンSR1〜SR3が状況に応じて複数の辞書を用いて音声認識を実施する点である。
【0054】
例えば、異なる目的音が時間差で入力されることが予測される場合には、それぞれのタイミングで入力が予測される音声の候補を登録した辞書を作成し、これらを適切なタイミングで第1処理部61´に与えることが必要となる。
具体例としては、ロボット1においては、常に「ワカマル」という呼びかけがあるか否かを判断するとともに、「ニュースを読んで」、「天気を教えて」などのようなロボット1に対する指示に関する音声入力をその都度認識するという要求がある。
このような場合、音声が入力された場合には、「ワカマル」という辞書に基づく音声認識を常に作動させる必要があるとともに、ロボット1のその時々の動作状況に応じた辞書を作成する必要がある。
【0055】
本実施形態に係る音声認識装置は、このように複数の辞書が必要となる場合でもそれぞれの音声認識を実現させることを目的としている。以下、本実施形態の音声認識装置について、第1の実施形態と共通する点については説明を省略し、異なる点について主に説明する。
【0056】
図9に示すように、第2処理部62´は、2つの辞書作成部SD1、SD2を有している。各辞書作成部SD1、SD2は、全部または一部が相互に異なる辞書を作成し、互いに異なるタイミングで該辞書を第1処理部61´に与える。また、各辞書作成部SD1、SD2は、自身が第1処理部61´に与えた辞書に対する音声認識結果が入力されるまで、または、自身が第1処理部61´に対して該辞書を与えてから所定の時間が経過するまで入力信号待ち状態となる。
【0057】
第1処理部61´の各音声認識エンジンSR1〜SR3は、自身が作動を開始する時点で入力信号待ち状態にある辞書作成部SD1、SD2から与えられた全ての辞書を用いて音声認識を行い、音声認識が成功した場合に、その結果を第2処理部62´に出力する。
【0058】
このような構成を備える音声認識装置においては、まず、辞書作成部SD1において入力音声として期待される単語が登録された辞書Aが作成され、第1処理部61´に与えられる。このとき、辞書作成部SD1は入力信号待ち状態となる。
第1処理部61´は、この辞書Aを受け付けると、音声認識エンジンSR1を作動させ、辞書Aを使用した音声認識を開始させる(図9の時刻T1)。
【0059】
続いて、辞書作成部SD2において入力音声として期待される単語が登録された辞書Bが作成され、第1処理部61´に与えられる(図9の時刻T2)。このとき、辞書作成部SD2は入力信号待ち状態となる。また、辞書Aと辞書Bとの内容は一部または全てが異なっている。
第1処理部61´では、音声認識エンジンSR1の作動開始から所定時間が経過したことにより、音声認識エンジンSR2が作動を開始する。ここで、音声認識エンジンSR2の作動開始時において、入力信号待ち状態である辞書作成部は、SD1とSD2の2つである。従って、音声認識エンジンSR2は、辞書Aと辞書Bとを使用した音声認識を開始する(図9の時刻T3)。
【0060】
次に、音声認識エンジンSR2の作動開始から所定時間が経過したことにより、音声認識エンジンSR3が作動を開始する。このとき、入力信号待ち状態である辞書作成部は、SD1とSD2の2つであるため、音声認識エンジンSR3は、辞書Aと辞書Bとを使用した音声認識を開始する(図9の時刻T4)。
続いて、辞書Aが第1処理部に与えられてから既定の期間が経過したことにより、辞書Aがタイムアウトとなる。これにより、辞書Aを出力した辞書作成部SD1は入力信号待ち状態から待機状態に遷移する(図9の時刻T5)。
次に、音声認識エンジンSR1の作動開始から所定の音声認識期間が経過することにより、音声認識エンジンSR1は一度作動を停止するが、未だに辞書Bについてはタイムアウトしておらず、かつ、他の音声認識エンジンSR2、SR3によっても音声認識が成功していないことから、音声認識エンジンSR1は再度作動を開始する。このとき、信号入力待ち状態である辞書作成部は、SD2の1つのみであるので、音声認識エンジンSR1は辞書Bを用いた音声認識を開始する(図9の時刻T6)。そして、同様に、辞書Bがタイムアウトになるまで、或いは、いずれかの音声認識エンジンによって音声認識が成功するまで(図9の時刻T8)、各音声認識エンジンSR2、SR3、SR1の作動停止および再開が繰り返し行われる(図9の時刻T7)。
【0061】
以上説明してきたように、本実施形態に係るロボットおよび音声認識装置ならびにプログラムによれば、第2処理部62´が複数の辞書作成部SD1、SD2を備えるので、異なる目的音が時間差で入力されることが予測される場合に、それぞれのタイミングで入力が予測される音声の候補を登録した辞書を作成し、これらを適切なタイミングで第1処理部61´に与えることが可能となる。
また、第1処理部61´において、各音声認識エンジンSR1〜SR3は、入力信号待ち状態にある辞書作成部SD1、SD2によって作成された辞書を全て用いて音声認識を行うので、異なる辞書が時間差で発生した場合でも柔軟に対応して音声認識を継続して行うことが可能となる。これにより、目的音が異なるタイミングで連続的に入力されるような場合であっても、それぞれの目的音を的確に捕らえて認識することが可能となる。
【0062】
図10に従来の音声認識装置の動作の一例を示す。図10に示すように、従来の音声認識装置では、初めに辞書Aが音声認識エンジンに与えられ、この辞書Aに関する音声認識が行われている途中で他の辞書Bが与えられると、辞書Aに関する今までの音声認識を打ち切り、辞書Aおよび辞書Bを用いた音声認識を再度開始する(図10の時刻T2)。次に、辞書Aがタイムアウトになると、その旨を第2処理部162´に通知し、辞書Aと辞書Bとを使用した音声認識を打ち切り、辞書Bのみを用いた音声認識を再開する(図10の時刻T3)。そして、辞書Bがタイムアウトになると、その旨を第2処理部162´に通知し、辞書Bを使用した音声認識を終了する(図10の時刻T4)。
【0063】
本実施形態に係る音声認識装置では、辞書が追加された場合でも、既に作動を開始している音声認識エンジンについては、そのまま音声認識を継続して行うので、図10に示すように、音声認識の途中で音声認識を打ち切ることがない。従って、各音声について適切な辞書を用いた音声認識を継続して行うことが可能となる。
【0064】
〔第3の実施形態〕
次に、本発明の第3の実施形態に係るロボットおよび音声認識装置ならびにプログラムについて説明する。本実施形態に係るロボットが第1、第2の実施形態と異なる点は、各音声認識エンジンSR1、SR2、SR3とそれぞれ同じタイミングで音声認識を開始する補助音声認識エンジン(図示略)を備えている点である。
【0065】
本実施形態では、音声認識エンジンSR1と全く同じタイミングで作動する補助音声認識エンジンSR1´、音声認識エンジンSR2と全く同じタイミングで作動する補助音声認識エンジンSR2´、音声認識エンジンSR1と全く同じタイミングで作動する補助音声認識エンジンSR3´をそれぞれ備えている。
ここで、補助音声認識エンジンSR1´は、音声認識エンジンSR1と種別が異なる音声認識エンジンであることが好ましい。例えば、メーカや音声認識の手法が異なる等である。
【0066】
本実施形態に係るロボットおよび音声認識装置ならびにプログラムによれば、複数の音声認識エンジンを同じタイミングで走らせることにより、音声認識が成功する確率を高めることができる。
なお、同じタイミングで作動する音声認識エンジンと補助音声認識エンジンとで音声認識結果が異なっていた場合には、照合確率の高い方を優先させるとよい。
また、1つの音声認識エンジンに対する補助音声認識エンジンは、複数設けられていてもよい。例えば、音声認識エンジンSR1に対して複数の補助音声認識エンジンが設けられていてもよい。また、全ての音声認識エンジンに対して補助音声認識エンジンがそれぞれ設けられている必要はなく、補助音声認識エンジンを設けるか否か、また、いくつ設けるかについては、任意に決定することが可能である。
【0067】
なお、上述した各実施形態においては、図1、図2に示したようなロボット1に適用された場合を想定して本発明の音声認識装置について説明したが、本発明に係る音声認識装置は、このようなロボット以外の装置、例えば、ユーザとの対話が実現されるような汎用装置に広く適用されるものである。
【符号の説明】
【0068】
14 マイクロフォン
50 音声認識装置
51 応答動作実行部
61、61´ 第1処理部
62、62´ 第2処理部
66 会話シナリオ実行部
67 代替動作実行部
71 CPU
72 主記憶装置
73 補助記憶装置

【特許請求の範囲】
【請求項1】
音声をデジタル化して音声データを出力する音声入力部と、
前記音声入力部から出力された音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置と
を備え、
前記音声認識装置は、複数の音声認識処理部を有する第1処理部を備え、
一の前記音声認識処理部は、他の前記音声認識処理部とは異なるタイミングで、かつ、他の前記音声認識処理部の音声認識期間内に、音声認識を開始するロボット。
【請求項2】
各前記音声認識処理部は、一定の時間間隔で順番に作動を開始する請求項1に記載のロボット。
【請求項3】
各前記音声認識処理部は、いずれかの音声認識処理部によって音声が認識されるまで繰り返し音声認識を実施する請求項1または請求項2に記載のロボット。
【請求項4】
各前記音声認識処理部は、いずれかの音声認識処理部によって音声認識が成功した場合に、音声認識を停止して待機状態となる請求項1から請求項3のいずれかに記載のロボット。
【請求項5】
前記音声認識装置は、音声認識結果の候補として予想される単語を登録した辞書を前記第1処理部に与える第2処理部を備え、
該第2処理部は、内容の全部または一部が相互に異なる辞書を作成し、互いに異なるタイミングで該辞書を前記第1処理部に与える複数の辞書作成部を有し、
各辞書作成部は、自身が該第1処理部に与えた辞書に対する音声認識結果が入力されるまで、または、自身が前記第1処理部に対して該辞書を与えてから所定の時間が経過するまで入力信号待ち状態となり、
前記第1処理部の各前記音声認識処理部は、自身が作動を開始する時点で入力信号待ち状態にある前記辞書作成部から与えられた全ての辞書を用いて音声認識を行い、音声認識が成功した場合に、その結果を前記第2処理部に出力する請求項1から請求項3のいずれかに記載のロボット。
【請求項6】
前記音声認識装置は、少なくとも1つの音声認識処理部と同じタイミングで音声認識を開始する少なくとも1つの補助音声認識処理部を更に備える請求項1から請求項5のいずれかに記載のロボット。
【請求項7】
前記音声認識装置による音声認識結果に対応する応答動作を実行する応答動作実行部を備える請求項1から請求項6のいずれかに記載のロボット。
【請求項8】
音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置であって、
複数の音声認識処理部を有する第1処理部を備え、
一の前記音声認識処理部は、他の前記音声認識処理部とは異なるタイミングで、かつ、他の前記音声認識処理部の所定の音声認識期間内に、音声認識を開始する音声認識装置。
【請求項9】
音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識をコンピュータに実行させるためのプログラムであって、
複数の音声認識プログラムを有し、
一の前記音声認識プログラムは、他の前記音声認識プログラムとは異なるタイミングで、かつ、他の音声認識プログラムが作動している期間内に、音声認識を開始するプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2010−169861(P2010−169861A)
【公開日】平成22年8月5日(2010.8.5)
【国際特許分類】
【出願番号】特願2009−11786(P2009−11786)
【出願日】平成21年1月22日(2009.1.22)
【国等の委託研究の成果に係る記載事項】(出願人による申告)国等の委託研究の成果に係る特許出願(平成19年度 独立行政法人新エネルギー・産業技術総合開発機構「次世代ロボット共通基盤開発プロジェクト 音声認識用デバイス及びモジュールの開発」委託研究、産業技術力強化法第19条の適用を受ける特許出願)
【出願人】(000006208)三菱重工業株式会社 (10,378)
【Fターム(参考)】