説明

ロボット、音声変更方法及び音声変更プログラム

【課題】ユーザから提示される物体を視覚で認識して言葉を覚えるロボットを提供する。
【解決手段】ロボットはまず、ある対象を想定してそれを示すランダムな音声を発する。ユーザはそれに対して物体を提示し、提示された物体が想定した対象であるならば、ロボットは歓喜の声をあげ、ユーザはその物体が望みの物体であることを知る。次に、ロボットは、同じ言葉を発するが、その言葉がユーザが対象としてふさわしくない場合は物体を提示しない。するとロボットは別の言葉を発し、ユーザが言葉が希望する言葉に近づいたと判断した場合に物体を提示する。これを繰り返すことで、望みの言葉に近づける。そして最終的に2回連続する同じ言葉に対して物体を提示することで言葉を確定させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ロボットに関し、特にユーザとのコミュニケーションにより言葉を覚えるロボットに関する。
【背景技術】
【0002】
近年、アミューズメントの一環として、アミューズメントロボットの開発販売が盛んに行われている。そのようなアミューズメントロボットは、ユーザのストレスを解消し、心を癒すためのコミュニケーションツールとしての一面を有する。
それらのロボットの中には、例えば触覚センサを備えてユーザに撫でてもらったら喜んだり、あるいは、顔認識センサを備えて複数のユーザの中から自機が相対しているユーザが誰なのかを認識して名前を呼んだりするものもある(例えば特許文献1参照)。
【0003】
また、コミュニケーションツールとしては、画面上にキャラクタを表示して所定のアルゴリズムに基づきユーザとのコミュニケーションがとれるものがある。そういったアプリケーションプログラムには、アプリケーションプログラムの入力インターフェースを通じて、単語と、その単語がどのような分類のもので、どのような場所で、どのように使われるかといった内容をユーザが入力して教え、それ以降からアプリケーションプログラム上で所定の判断基準に基づいてアプリケーションプログラム上のキャラクタが、ユーザが教えた言葉を適切と思われる場面で使用するといったアプリケーションプログラムもある。
【特許文献1】特開2005−22065号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところで、ユーザがアミューズメントロボットに求めるものとしては、前述のように、癒しの効果が大きな要素を占めているが、これは主にユーザとロボットとがコミュニケーションをとることにより得られるものである。そのコミュニケーションの一手法として、上記にあげたアプリケーションプログラムのように、ユーザが、一つの言葉と、その意味を教えたりする方法があり、ロボットが当該アプリケーションプログラムの内容を実行して、言葉を憶え、その言葉を使用するといった場面が想定できる。
【0005】
しかし、本発明においては、上述のようなアプリケーションプログラムのようにユーザが全ての内容を教えるのではなく、ロボットからの要求に対して、ロボットが知らない言葉を、ユーザとのコミュニケーションにより、物体に対応する名前を覚えるロボットを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本発明に係るロボットは、映像を撮像する撮像手段と、自機内部で決定する基本信号を生成する基本信号生成手段と、前記基本信号に基づき出力音を定めて発声する発声手段と、前記発声を行った後に、所定時間内において、前記撮像手段によって得られた所定の映像成分に、前記基本信号により特定される所定範囲の所望映像成分が含まれるかどうかを検出する検出手段と、前記発声手段に、前記検出手段で前記所望映像成分がないと検出された場合に、前記出力音を換えて、新たな出力音を発声させる音声制御手段とを備えることを特徴としている。
【発明の効果】
【0007】
上述のような構成によって、ロボットは、ユーザが望む言葉になるまで、言葉を繰り返し変えて発声するので、いつかはユーザが望む言葉になる。その時にユーザが物体をロボットに対して提示してやれば、ロボットは、その物体のユーザの望む呼称を認識することができる。
また、前記ロボットは、更に、前記撮像手段で撮像される映像成分に前記所望映像成分が含まれることを認識する認識手段と、所定時間内において前記撮像手段で撮像される映像成分に前記所望映像成分が含まれていないことを認識して、前記発声手段に否定を意味する音声を発声させる否定音生成手段とを備え、前記音声制御手段は、前記認識手段における認識がなされた後に、音声の制御を行うこととしてよい。
【0008】
これにより、ロボットは所望の物体を提示された場合には、不満の声をあげるので、ユーザは、間違った物体を提示していることを認識する。よって、この動作を繰り返すことで、ロボットとユーザとの間で、ロボットが何を所望しており、何の言葉を覚えたいのかをユーザは知ることができる。
前記ロボットは、更に、前記撮像手段で撮像される映像成分に前記所望映像成分が含まれることを認識する認識手段と、前記認識手段で、所定時間内において前記撮像手段で撮像される映像成分に前記所望映像成分が含まれていることを認識して、前記発声手段に肯定を意味する音声を発声させる肯定音生成手段とを備え、前記音声制御手段は、前記認識手段における認識がなされ、前記肯定音声製手段により、前記発声手段に肯定を意味する音声が発声された後に、音声の制御を行うこととしてよい。
【0009】
これにより、ロボットは所望の物体を提示された場合には、肯定を意味する音声をあげるので、ロボットとユーザとの間で、ロボットが何を所望しており、何の言葉を覚えたいのかをユーザは知ることができる。
また、ロボットに発生させるための音声を変更する音声変更方法であって、映像を撮像する撮像ステップと、自機内部で決定する基本信号を生成する基本信号生成ステップと、前記基本信号に基づき出力音を定めて発声する発声ステップと、前記発声を行った後に、所定時間内において、前記撮像ステップで得られた所定の映像成分に、前記基本信号により特定される所定範囲の所望映像成分が含まれるかどうかを検出する検出ステップと、前記発声ステップにおいて、前記検出ステップで前記所望映像成分がないと検出された場合に、前記出力音を換えて、新たな出力音を発声させる音声制御ステップとを含むことを特徴とする。
【0010】
また、ロボットのコンピュータに、ロボットが発生する音声を変更させるための処理手順を示した音声変更プログラムであって、前記書手順は、映像を撮像する撮像ステップと、自機内部で決定する基本信号を生成する基本信号生成ステップと、前記基本信号に基づき出力音を定めて発声する発声ステップと、前記発声を行った後に、所定時間内において、前記撮像ステップで得られた所定の映像成分に、前記基本信号により特定される所定範囲の所望映像成分が含まれるかどうかを検出する検出ステップと、前記発声ステップにおいて、前記検出ステップで前記所望映像成分がないと検出された場合に、前記出力音を換えて、新たな出力音を発声させる音声制御ステップとを含むことを特徴とする。
【0011】
この方法、あるいは、プログラムを実行することで、ロボットは発生する言葉を変えていき、やがて、ユーザの望む音声を発するようになる。
【発明を実施するための最良の形態】
【0012】
以下、本発明の一実施形態であるロボットについて図面を用いて説明する。
<構成>
図1は、ロボットの外観の一例を示した外観図である。
図1にあるように、ロボット100は少なくとも、物体を認識するためのカメラ110と、音声を発するためのスピーカ120とを備え、また、LED群130を備えていても良い。
【0013】
カメラ110は、ユーザから提示される物体を認識するものであり、ここでは色を認識する機能を有する。
スピーカ120は、各種音声を発するための機能を有する。
LED群130は、ロボット100の表情を表示するためのものであり、表示内容を替えて喜怒哀楽を表現する機能を有する。ここでは、目を表示して喜怒哀楽を表現する。具体的には図2に示すように、点灯するLEDを替えることで、喜怒哀楽を表現する。図2に示したのは、その一例であり、図2(a)は、喜び、(b)は、怒り、(c)は悲しみを表現したLEDの点灯例を示している。なお、図1に示した外観図にはLED群130にはカバーをかけたような図を示している。
【0014】
図3は、ロボットの機能構成を示したブロック図である。
図3に示すように、ロボット100は、カメラ110と、スピーカ120と、LED群130と、検出部301、302、303と、累積部311、312、313と、ランダム信号生成部320、321と、OR回路330と、喜び信号生成部340と、G-net350と、応答音生成部360と、LED制御部370と、音節生成部380とを含んで構成される。
【0015】
各検出部301、302、303は、カメラ110の映像データを受けて、当該映像データに自検出部が検出すべき色の成分があるかどうかを検出する機能を有する。ここでは検出部301は、映像成分に赤色が含まれるかどうかを検出する。また、検出部302は、映像成分に緑色が含まれるかどうか、検出部303は、映像成分に青色が含まれるかどうかを検出する。検出部301、302、303それぞれは、担当する色の成分が含まれていると認識した場合において、認識信号v1、v2、v3を出力する機能も有する。
【0016】
累積部311、312、313はそれぞれ、ランダム信号生成部320から受けたランダム信号s1、s2、s3を蓄積し、ランダム信号s1、s2、s3を受けたタイミングにおいて蓄積されたランダム信号の数の合計値を蓄積信号z1、z2、z3として出力する機能を有する。また、それぞれ対応する検出部301、302、303からの認識信号v1、v2、v3を受けた場合には、蓄積していた信号値をリセットして0にする機能も有する。
【0017】
ランダム信号生成部320は、ランダムなタイミングでランダム信号s1、s2、s3を累積部311、312、313に出力する機能を有する。なお、ランダム信号は一度に、一つだけ出力される。
ランダム信号生成部321は、ランダムなタイミングでランダム信号をG-net350に出力する機能を有する。但し、ランダム信号生成部320とは異なり、OR回路330から供給される信号qの値が0以上でないと生成しない。
【0018】
OR回路330は、累積部311、312、313のいずれかから出力される蓄積信号z1、z2、z3を受けて、当該信号を信号qとして、ランダム信号生成部321に出力する機能を有する。
喜び信号生成部340は、累積部311、312、313のいずれかから出力される蓄積信号z1、z2、z3を受け取って、喜び信号pを生成して出力する機能を有する。喜び信号pは次の式[数1]にて定義される。
【0019】
【数1】

【0020】
ここで、ptは、時刻tにおける喜び信号pのことで、0以上1以下の値で示される。また、Nは、累積部の数を示しており、ここでは3となる。tは、最後に累積部においてリセットが行われたタイミングからの経過時間を示している。a並びにTauは、パラメータであり、それぞれの初期値は、0.001と0に設定されているがこれらのパラメータの値はロボットの設計者により自由に設定できる値でロボットの制御によって変化することはない。
【0021】
G-net350は、ニューラルネットワークであり、自己内のセル同士の結合を組み換えて、ロボットが発生する3つの音節を生成するためのデータを生成する機能を有する。一般的に、ニューラルネットワークとは脳神経系をモデルにした情報処理システムのことをいう。
G-net350は、図3に示すように、10個のセルc0 〜c9と3個の出力セルc10 〜c12を含む構成をとっている。このG-net350を解説するにあたり、まず、G-net350に係る各種のパラメータの初期値について説明し、その後にG-net350がニューラルネットワークとして成長する演算式について説明する。
【0022】
まず、[数2]を用いて各種パラメータについて説明する。
【0023】
【数2】

【0024】
Pは、喜び信号pに対応するセルcの指標を示す。RSは、ランダム信号生成部321からの信号を受けるランダム信号セルc1、c2、c3の指標の集合を示す。Qは、累積部311、312、313からの蓄積信号を受ける入力セルc4、c5、c6で示される入力セルの集合を示す。Vは、入力セルc7、c8、c9の集合を示す。Eは、出力セルc10、c11、c12の集合を示す。αjiは、i番目の入力セルからj番目の出力セルへの結合力を示す。Cjは、i番目の入力セルの受信信号の集合を示す。NIは、セットIの要素数を示す。Sjは、j番目の出力セルに対して信号を送信する入力セルを示す。
【0025】
次に、G-net350が、成長していくためのロジックを説明する。ここに[数3]で示す式は各セルを更新するための演算式である。
【0026】
【数3】

【0027】
なお、上記[数3]におけるいくつかのパラメータで、以下の[数4]の左辺に示す形式で記述したパラメータについては、本文中においては、以下の[数4]の右辺に示すように記述することとする。
【0028】
【数4】

【0029】
まず、ここまでで説明していないパラメータについて説明する。
yi,tは、時刻tにおけるi番目の入力セルの値を示す。uj,tは、時刻tにおけるj番目の出力セルへの入力信号を示す。セルの更新は、上記[数3]に示した公式に従い、jがPに含まれるかどうかに応じて各セルは更新されることになる。
次にG-net350の成長手順について説明しておく。G-net350は、以下のの手順を踏むことで成長する。
【0030】
1)まず、G-net350の各セルyi,t(i=0〜9)のステータスを更新する。更新の方法は上記[数3]に示す公式に基づく。
2)そして、Pに含まれるpについて、時刻t−1におけるypが0であり、かつ、時刻tにおけるypが0よりも大きい場合に、全てのQ及びVに含まれる0以上の値を有するセルについて、パラメータは次のようになる。jは、NΩ、即ち、全てのセルの合計数で更新される。Cjは、前回のCjにjを足した値で更新される。またαjiとαpjとは1に更新される。
【0031】
3)そして全てのEに含まれる入力セルであってyk,t-1>0を満たすkについて、j’をNΩ、即ち、全てのセルの合計数で更新される。Skは、Sk又は、j’のうち値の高いほうで更新される。また、αj’jは、yk,t-1で更新し、αkj’を1にする。
次に、制御セルyi,tを昇順に更新し、実行セルyi,tも更新する。
以上1)〜3)に記述した手順を繰り返すことにより、G-net350は成長する。なお、成長するとは、自己のセルを変更し、セル間の接続状態を変えていくことをいう。
【0032】
応答音生成部360は、歓喜の声、若しくは不満の声をスピーカに出力させるための音声信号を、入力された信号に基づいて生成して出力する機能を有する。具体的には応答音生成部360と同様の判断機構を有し、喜び信号pと、認識信号v1、v2、v3のいずれかを受けて発声する音声を決定する。信号pが0よりも大きい場合には歓喜の声を示す音声信号をスピーカ120に出力する。信号pが0でかつ、認識信号v1、v2、v3のいずれか一つでも0より大きい場合には、不満の声を示す音声信号をスピーカ120に出力する。この音声信号は予め応答音生成部360に登録されている。登録されている音声でないとユーザがその声が歓喜の声か不満の声であるのかが認識できないからである。
【0033】
LED制御部370は、LED群130を制御して各種表情を表現するために、点灯するLEDとそうでないLEDを選択して、点灯させる機能を有し、各種表情を表現するためのLEDを予め記憶している。喜びの表情を表現するのか、あるいは怒りや悲しみを表現するのかは、入力された信号に基づく。具体的には応答音生成部360と同様の判断機構を有し、信号pと、認識信号v1、v2、v3のいずれかを受けて点灯させるLEDを決定する。信号pが0よりも大きい場合には歓喜の表情になるようにLEDを図2(a)のように点灯させる。信号pが0でかつ、認識信号v1、v2、v3のいずれか一つでも0より大きい場合には、怒り、あるいは悲しみの表情を表現するようにLEDを図2(b)や(c)のように点灯させる。
【0034】
音節生成部380は、G-net350の出力セルc10、c11、c12からの出力信号h1、h2、h3に基づいて3音節の合成音声を生成して、スピーカ120に出力する機能を有する。
<動作>
次に、本実施の形態におけるロボットの動作を図4及び図5に示すフローチャートを用いて説明する。そして、その後に図7及び図8に示す説明図を用いて、ロボットが、言葉を覚えるための諸手順を具体例で示す。
【0035】
図4は、まず、ロボットとユーザとの間で、ロボットが何の言葉を覚えたいのかを、互いに対象を確認するために、ロボットが行う動作を示したフローチャートである。以降、ユーザがロボットの所望する対象を認識するための段階を第1ステージという。
ロボットのランダム信号生成部320は、ランダムなタイミングでランダム信号のいずれかを生成し、累積部に出力する。累積部に蓄積された信号は、信号zとして出力される。出力された蓄積信号zに基づいてOR回路380から信号qが出力される。信号qに基づいてランダム信号生成部321から、ランダム信号k1 、k2、k3が出力されたタイミングで、出力された信号zに基づいてG-net350は、3音節の音声を生成し(ステップS401)、ロボット100のスピーカ120は、その音声を発声する(ステップS403)。
【0036】
ロボット100が音声を発したのを聞いたユーザは、ロボット100が何かの対象を望んでいると判断し、何かの物体を、ロボット100のカメラ110の前に提示してやる。
提示された物体の映像を各検出部301〜303でそれぞれが担当する色成分を検出し(ステップS405)、その物体が所望する色の成分を含んでいなかったならば(ステップS407のNO)、ロボットは、不満の声をあげ、怒りあるいは悲しみの表示を行う(ステップS409)。具体的にいうと、各検出部は、それぞれ所望の成分があった場合に、認識信号vを出力する。所望の物体を担当する累積部がその信号を受け取った場合には蓄積していたカウントを0にして、蓄積信号z(=0)を出力する。この場合、各累積部は、自累積部が信号zを出力していた場合には、認識信号vを受け取った場合に、カウントを0にするが、出力していない場合で、かつ、認識信号vを受け取った場合には、カウントをプラスする。カウントが0になった場合には、喜び信号生成部340に所望の物体が提示されたことを示す信号として「0」を意味する信号が出力される。カウントがプラスされた場合には意図する物体が提示されなかったこ とを示す信号としてそのときの累積部に蓄積されるカウンタの値と同値である信号が出力される。出力された信号を受けて応答音生成部は、「0」を意味する蓄積信号zがないことを受けて不満の声をあげる。また、同じ信号を受けてLED制御部370は、LED群130を怒り、又は悲しみの表情で点灯させる。どちらを選択するかはランダムに決まる。なお、ここでは、検出部と、認識信号v、蓄積信号zについては一般化して記述した。
【0037】
そして、不満の声を上げたロボット100のG-net350は、もう一度同じ音声を発声するための音声信号を音節生成部380に出力し、スピーカに音声を出力させ(ステップS411)、ステップS405に戻り、以降の処理を実行する。
一方、所望の物体を検知した場合(ステップS411のYES)には、所望の色成分を担当する検出部のカウンタが0にリセットされ、「0」を意味する蓄積信号zが出力される。当該信号を受けて、応答音生成部360は、喜びの声をあげ、LED制御部370は喜びの表情になるようにLED群を点灯させる(ステップS413)。
【0038】
この段階で、ユーザは、発生された音声に対して、ロボット100が所望した物体を提示できたことを認識する。
次に、ユーザがロボット100に対して物体の提示の有無により、言葉を変えていく手順を図5のフローチャートを用いて説明する。以降、この言葉を変えていく過程を第2ステージという。
【0039】
図5は、ユーザがロボットが言葉を覚えたい対象が何であるかを認識した後に、その対象の言葉を正しく覚えさせるためにロボットが行う動作を示したフローチャートである。なお、対象の認識に関しては図4のフローチャートに示した場合と同様なので、詳細は割愛する。
まず、ロボット100は、前回と同様の音声を発声する。この音声を聞いたユーザは、ロボットが物体を所望していることを認識している。その時点においてユーザが、聞いた音声が物体の呼称として正しくない、若しくは近づいていないと判断した場合には、物体をロボット100のカメラ130の前に提示しない。音声を発声してから所定時間内(例えば30秒)に物体をカメラで検知できなかった場合に、ロボット100のG-net350はそのニューラルネットワークとしての内部構成を変え、発声した音声とは異なる3音節の音声を生成して、発声する。内部構成の変更は、検出部から前回出力された信号のうち、0になっている信号がなく、検出部からの信号に変化があった場合に、実行される。
【0040】
こうしてロボット100は、ユーザから、連続して同じ音声の発声に対して物体の提示がない場合には、発声する音声をどんどん替えていくので最終的には目的の言葉にたどりつく。発声する音声をユーザの望む呼称に近づけるためにロボット100はG-net350を搭載しており、G-net350は、ニューラルネットワークで経験により、成長する回路なので、蓄積されたデータに基づいて、言葉を近づけることが可能である。
【0041】
図5のフローチャートに示した上記動作を具体的な回路動作で示すと次のようになる。
まず、G-net350の指示に基づく音声信号により音声を発声する。
発声後、自機内部のタイマ(図示せず)を用いて30秒をカウントする。この30秒の間、検出部が所望の物体を検出するかどうかでG-net350の振る舞いが変わる。
まず、この発声が前回と同じ発生であった場合で、検出部が所望の色の物体を検出した場合、つまり検出部が信号vを出力してきた場合には、その発声が所望の色の呼称であると認識する。検出部が所望の色の物体を検出しなかった場合、つまり検出部が30秒の間信号を出力してこなかった場合には、その発声が間違っていると判断し、G-net350は、自己のセルと各セル間の結合荷重とを更新し、新たな3音節の音声を発声させる。
【0042】
発声した音声が前回と異なるものである場合には、30秒の間に検出部で所望の色の物体を検出した場合、つまり検出部が信号を出力してきた場合には、前回の発声よりも、今回の発生が所望の色のユーザの望む発声に近いという経験を蓄積する。そして再度同じ発声を行わせる。逆に30秒の間に検出部で所望の色の物体を検出しなかった、つまり検出部が信号を出力してこなかった場合には、前回の発声よりも、今回の発生は近づいていない若しくは遠ざかったという経験を蓄積し、G-net350は再度自己のセル及びセル間の結びつきを変化させる。そして新たな発声を行わせる。
【0043】
ロボット100は、第2ステージにおいて、2回連続で物体を提示されると、自機が発した音声が正しい音声であると認識する。
次に具体例を挙げて、上述した第1ステージ及び第2ステージの事例をユーザとロボット100との具体的なやり取りを用いて説明する。
図6は、ロボット100とユーザ間の具体的なやり取りの事例を示した説明図である。また、図6に示す説明図は、図4に示したフローチャートの内容の一部を示す具体例であり、ユーザが、ロボット100が所望する物体を提示しなかったときの流れを示している。
【0044】
まず、ロボット100は、図6(a)のように何かの物体を所望する。ここでは青い物体を所望したとする。するとロボットは、図6(b)のように所望した物体を想定したランダムに音節を組み合わせた言葉を発声する。ここでは「は、せ、あ」と発声している。この発声を聞いたユーザが何らかの物体をロボットが所望しているのだと認識し、図6(c)のように、ロボットのカメラの前に、適当な物体を提示してやる。提示された物体を見て、それが所望の対象でない場合に、不満の声をあげる。ここでは「ブー!!」と文句をいい、またそれにあわせてLEDを怒りを示すような表示に変える。そして、ロボットは、図6(d)のように再度、物体を求めて、同じ発声「は、せ、あ」を行う。
【0045】
次に、ユーザがロボットが求めていた物体を提示できたときの流れについて図7を用いて説明する。
図7は、ロボット100とユーザ間の具体的なやり取りの事例を示した説明図である。また、図7に示す説明図は、図4に示したフローチャートの内容の一部の具体例であり、ユーザが、ロボットが所望する物体を提示したときの流れを示している。
【0046】
ロボット100は、図7(a)のように、何かの物体を想定し、図7(b)のように、物体を求めて、ランダムに音節を組み合わせた言葉を発声する。ここでは、青い物体を想定し、それを求める言葉として、「はーせーあ」と発声する。その発声を聞いたユーザは、何らかの物体をロボットが所望しているのだと認識し、図7(c)のように、ロボットの前に、適当な物体を提示してやる。提示された物体が所望のものと一致するのを確認する。すると、ロボットは歓喜の声を、「ワーイ!!」とあげ、また、表情も喜びの表情に変える。この時点でユーザは自分が提示した物体がロボットが所望していた物体であると認識する。こうして、ユーザはロボットの所望する物体を認識する。
【0047】
次に、ユーザがロボットが所望する物体を認識した後に、その物体の呼び名を教える方法の具体例を示す。
図8は、ロボットとユーザ間の具体的なやり取りの事例を示した説明図である。また、図8に示す説明図は、図5に示したフローチャートの内容の具体例であり、ユーザが、ロボット100が発声した言葉が対象の呼称として間違っていると判断したときの流れを示している。
【0048】
ユーザが、正しい物体を提示できた後、図8(a)に示すように、ロボットは再び、同じ言葉を発声し、同じ物体を要求する。このとき、ユーザが、その言葉が対象の呼称として正しいと思わなかった場合、所定時間の間、図8(b)に示したように物体を提示しない。所定時間、物体を提示してもらえなかったロボットは、言葉が正しくなかったのだと判断し、G-net350の働きにより新たな言葉を生成して発生する。図8(c)を例に取れば、ロボット100は、最初の発声後30秒経過して「はせあ」は正しくなかったと判断するので、それを変えて、新たに「ほせあ」と発声している。
【0049】
また、近づいていると判断した場合でも、ユーザは、その物体を提示する。物体を提示されたら、ロボットは、同じ言葉を発声する。その段階において、ユーザからの物体の提示がなかった場合には、発声した言葉は、前回のものよりもユーザの望む方向に修正されていたものの、まだ、正しいものではないことを認識する。するとロボットは言葉を変えて発声する。
<補足>
上記実施の形態に基づいて本発明に係るロボットに説明してきたが、本発明のロボットの実施の形態はこれに限定されるものではない。以下、その変形例について説明していく。
(1)上記実施の形態は、本願の実施形態の一例にしかすぎず、視覚情報を得て、その認識を元に言葉を覚えるロボットであればよい。
(2)上記実施の形態においては、説明を簡易にするためにロボットは色に関する言葉を覚えるものとしたが、ロボットが覚える言葉は色に限定されるものではない。例えば、各累積部が物体の形状、例えば、円形、四角形などに対応していてもよく、その場合には物体の形状に関する言葉を覚える。また、予め言葉を知らなくても映像データを保持しているロボットがその映像で示される物体の言葉を覚えることとしてもよい。
(3)上記実施の形態においては、ロボットがユーザとのやり取りの経験を元に正しいと思われる言葉を導き出すための回路にG-net350を用いたが、これは必ずしもG-netである必要はなく、ユーザからの物体の提示により自機が発した言葉がどのように近づいたかを認識し、ユーザの希望する言葉に更に近づけるかを推測するアルゴリズムを有する回路、あるいはコンピュータが実行するプログラムであってもよい。
【0050】
例えば、日本語の場合においては、50音表をロボットが記憶しており、ロボットは3音節のうちの1音のみを替え、その音が近づいたとユーザに判断され、物体の提示があったとする。そのときに、その替えた音に関して50音表上においてそのベクトル方向であっており、次にユーザに提示されない場合には、その音に関しては、そのベクトル方向に沿うように音を選出して、新たな言葉を生成し発音してもよい。
(4)上記実施の形態において、ロボットが発生する音声は、もともと記憶しておいても良いし、音声を生成するための基本となる音をデータとして記憶し、それに基づいて新たに生成することとしてもよい。
(5)上記実施の形態において、ロボットの検出部は、ただ単に、赤色、緑色、青色を検出するとのみ記述したが、この色は、ある程度の範囲をもってよく、例えば、赤色で彩度や明度がどの範囲にあるものを検出するかを指定できても良い。また、各累積部の蓄積した信号の度合いをその時点その時点で発することでいろんな種類の色に対応する言葉を覚えられるようにしてもよい。
(6)上記実施の形態においては、G-netに関しては簡単に記述したが、この内容は、Juan Liu and Andrzej Buller(2005)“Self-development of motor abilities resulting from the growth of a neural network reinforced by pleasure and tensions”で2005年6月に大阪にて開かれた4th IEEE International Conference on Development and Learningにおいて提示された。当該論文に関してはウェブ上の、http://www.gabri.pl/download/P03.pdf にて掲載されている。G-netの詳細に関してはそちらも参照されたい。
(7)上記実施の形態おいては、3音節の音声を発することとしたが、これは3音節である必要はなく、例えば4音節であってもよい。こうすることでロボットが発生できる言葉の種類が増える。
(8)上記実施の形態においては、ロボットがユーザによって物体を提示されるまで待機する時間を30秒としたが、これはロボットが発生してから物体を提示するのに、その物体を持ってくるために十分な時間があればよく、例えば1分とかであってもよい。
(9)上記実施の形態におけるロボットの各機能部は、1又は複数のLSI、VLSIによって構成されてもよく、また、1のLSIが複数の機能を有する構成としてもよい。
(10)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。 また、本発明は、前記コンピュータプログラム又は前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD―ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなど、に記録したものとしてもよい。また、これらの記録媒体に記録されている前記コンピュータプログラム又は前記デジタル信号であるとしてもよい。
【0051】
また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリとを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムに従って動作するとしてもよい。
【0052】
また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
【産業上の利用可能性】
【0053】
本発明に係るロボットは、言葉を視覚から覚えるロボットとしてアミューズメントの分野で活用することができる。
【図面の簡単な説明】
【0054】
【図1】本発明に係るロボットの外観図である。
【図2】本発明に係るロボットのLEDを用いた喜怒哀楽の表現例を示した図である。
【図3】本発明に係るロボットの機能構成を示したブロック図である。
【図4】本発明に係るロボットとユーザ間で、ロボットが想定しているものをユーザが認識するまでの過程を示したフローチャートである。
【図5】本発明に係るロボットにユーザが言葉を教える過程を示したフローチャートである。
【図6】ユーザが、ロボットが所望する物体を正しく提示できなかった場合の具体例を示した図である。
【図7】ユーザが、ロボットが所望する物体を正しく提示できた場合の具体例を示した図である。
【図8】ロボットが言葉を変える流れの具体例を示した図である。
【符号の説明】
【0055】
100 ロボット
110 カメラ
120 スピーカ
130 LED群
301、302、303 検出部
311、312、313 累積部
320、321 ランダム信号生成部
330 OR回路
340 喜び信号生成部
350 G-net
360 応答音生成部
370 LED制御部
380 音節生成部

【特許請求の範囲】
【請求項1】
映像を撮像する撮像手段と、
自機内部で決定する基本信号を生成する基本信号生成手段と、
前記基本信号に基づき出力音を定めて発声する発声手段と、
前記発声を行った後に、所定時間内において、前記撮像手段によって得られた所定の映像成分に、前記基本信号により特定される所定範囲の所望映像成分が含まれるかどうかを検出する検出手段と、
前記発声手段に、前記検出手段で前記所望映像成分がないと検出された場合に、前記出力音を換えて、新たな出力音を発声させる音声制御手段とを備える
ことを特徴とするロボット。
【請求項2】
前記ロボットは、更に、
前記撮像手段で撮像される映像成分に前記所望映像成分が含まれることを認識する認識手段と、
前記認識手段で、所定時間内において前記撮像手段で撮像される映像成分に前記所望映像成分が含まれていないことを認識して、前記発声手段に否定を意味する音声を発声させる否定音生成手段とを備え、
前記音声制御手段は、前記認識手段における認識がなされた後に、音声の制御を行う
ことを特徴とする請求項1記載のロボット。
【請求項3】
前記ロボットは、更に、
前記撮像手段で撮像される映像成分に前記所望映像成分が含まれることを認識する認識手段と、
前記認識手段で、所定時間内において前記撮像手段で撮像される映像成分に前記所望映像成分が含まれていることを認識して、前記発声手段に肯定を意味する音声を発声させる肯定音生成手段とを備え、
前記音声制御手段は、前記認識手段における認識がなされ、前記肯定音声製手段により、前記発声手段に肯定を意味する音声が発声された後に、音声の制御を行う
ことを特徴とする請求項1記載のロボット。
【請求項4】
ロボットに発生させるための音声を変更する音声変更方法であって、
映像を撮像する撮像ステップと、
自機内部で決定する基本信号を生成する基本信号生成ステップと、
前記基本信号に基づき出力音を定めて発声する発声ステップと、
前記発声を行った後に、所定時間内において、前記撮像ステップで得られた所定の映像成分に、前記基本信号により特定される所定範囲の所望映像成分が含まれるかどうかを検出する検出ステップと、
前記発声ステップにおいて、前記検出ステップで前記所望映像成分がないと検出された場合に、前記出力音を換えて、新たな出力音を発声させる音声制御ステップとを含む
ことを特徴とする音声変更方法。
【請求項5】
ロボットのコンピュータに、ロボットが発生する音声を変更させるための処理手順を示した音声変更プログラムであって、前記書手順は、
映像を撮像する撮像ステップと、
自機内部で決定する基本信号を生成する基本信号生成ステップと、
前記基本信号に基づき出力音を定めて発声する発声ステップと、
前記発声を行った後に、所定時間内において、前記撮像ステップで得られた所定の映像成分に、前記基本信号により特定される所定範囲の所望映像成分が含まれるかどうかを検出する検出ステップと、
前記発声ステップにおいて、前記検出ステップで前記所望映像成分がないと検出された場合に、前記出力音を換えて、新たな出力音を発声させる音声制御ステップとを含む
ことを特徴とする音声変更プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2007−267760(P2007−267760A)
【公開日】平成19年10月18日(2007.10.18)
【国際特許分類】
【出願番号】特願2006−93464(P2006−93464)
【出願日】平成18年3月30日(2006.3.30)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成17年度独立行政法人情報通信研究機構、研究テーマ「人間情報コミュニケーションの研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】