人型ロボット

【課題】特定個人に似顔、似声により情報を伝達する人型ロボットにおいて、音声を発する際の動きのなかに、特定の話者の個性を表現することにより、話者が伝達しようとする愛情などを演出できる人型ロボットを提供する。
【解決手段】特定個人に似顔のロボット本体（１）の内部に搭載したストレージ（３）にあらかじめ特定個人の声を収録し発話するために必要となる五十音等の音素データや特定個人の癖となる動作データ等を登録し、発話時にその音声を制御部（２）内のメインＣＰＵユニット（２１１）により合成して、スピーカ（２６）より出力し、同時にアクチュエータ（９）〜（２５）を四肢動作させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像、音声や複数のセンサからの入力情報を基に身振り手振り、表情などを用いてコミュニケーションを行う人型ロボットに関する。
【背景技術】
【０００２】
玩具やゲーム等の民生用分野、あるいは製造業や流通業等の産業用分野において各種のロボットが広く用いられており、これらのロボットの中には、姿形が人間に酷似し、ユーザとコミュニケーションを行ういわゆる人型のロボットも開発されている。
従来の人型ロボットは、顔面部、発声機構、四肢動作のいずれかに対して特定個人を対象にしたものはあるが、一般に、顔面部、発声機構、四肢動作は画一的に特定されている。
【０００３】
例えば、特許文献１に開示される発明においては、文章の内容を解析して感情に関わる情報を抽出し、抽出された感情情報に対応した発声やジェスチャ（身振り・手振り）を行なう電子メールを読み上げるロボットが示されている。
【０００４】
【特許文献１】特開２００６−１４２４０７号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
上述した従来例のように、ロボットが伝達しようとする文章の内容を解析して文章中から感情に関わる情報を抽出し、抽出された感情情報に対応したジェスチャを音声とともに発現することで音声と動作とにより、すなわち言語と非言語とにより、感情表現をすることができる。
しかしながら、ここでなされているロボットのジェスチャは、特定の感情表現に対応するジェスチャのみであり、しかもその動作は、ロボットに固定的に記憶されている喜怒哀楽に対する動作をジェスチャで表現するものである。
【０００６】
一般に、人が会話等で音声を発するときに生じるジェスチャは、千差万別であり、それぞれ癖がある。特定個人が音声を発する際のジェスチャは、その特定個人の癖を含むジェスチャで行われるのが好ましく、また、特定個人に似顔、似声でそのようなジェスチャがなされると、情報を伝達のみでなく、愛情などの感情を表現することができる。
【０００７】
本発明は、特定個人に似顔、似声により情報を伝達する人型ロボットにおいて、音声を発する際の動きのなかに、特定の話者の個性を表現することにより、話者が伝達しようとする愛情などを演出できる人型ロボットを提供することを目的とする。
【０００８】
また、本発明は、特定個人の声や癖を簡単に変更することができ、特定個人の癖を実現することができる人型ロボットを提供することを目的とする。
【課題を解決するための手段】
【０００９】
上記課題を解決するためになされた本発明の人型ロボットは、特定個人の似顔である人体型の外形を有する人型ロボットの外形を構成する部分にそれぞれの部分に対応する人体各部分の動きと同様の動きを起こさせるアクチュエータ群と、音声を発するスピーカとを備えた人型ロボットであって、ロボットのモデルとなる特定個人の情報を蓄積するモデル情報データベースと、特定個人の音声の音素を蓄積する音声合成音素データベースと、特定個人の癖などの動作を時系列データとして蓄積する癖モーションデータベースと、対話相手の顔画像データや特徴情報を蓄積する相手情報データベースと、ロボットの行動履歴を蓄積する行動履歴データベースと、対話から得た情報やインターネット上の情報を蓄積する知識情報データベースを備え、前記音声合成音素データベースの蓄積データに基づいて特定個人の音素を合成して発話する音声合成手段と、前記癖モーションデータベースの蓄積データに基づいて特定個人の癖を演出する動作手段と、前記相手情報データベース、前記モデル情報データベース、及び前記行動履歴データベースの蓄積データに基づいて対話相手に対する感情を認識する感情認識手段と、対話相手の音声データの内容を認識する音声認識手段と、前記音声認識手段の認識結果に応じて対話相手との対話やインターネット上の情報を知識として前記知識情報データベースに蓄積する学習手段と、前記感情認識手段における認識結果、前記学習手段における蓄積知識に応じて対話相手に対する感情を演出し、該演出結果に応じて前記音声合成手段及び動作手段を制御する感情演出制御手段とを備えたことを特徴とする。
【００１０】
また、人型ロボットは、特定個人のシナリオが記述されているモデル情報データベースから対話相手と対話を行い、その対話から対話相手に対するロボットの感情を認識する。その感情に対する感情を持った演出をするため、音声合成で合成された音声をスピーカから発生させる制御を行うとともに、その音声に対応する癖データに記憶された人体各部の動きを、形体癖模写部が模写するように制御し、音声と動きとが同期するようにして、人型ロボットを動作させる。
【発明の効果】
【００１１】
本発明によれば、特定個人に似顔のロボットが似声でしかも音声を発するときに特定個人の癖を動作で演出するので、感情や愛情を演出することができる。
【発明を実施するため最良の形態】
【００１２】
図１〜図９を用いて本発明の実施形態を説明する。
本発明は、特定個人の音声や癖を特定個人の似顔のロボットで制御することで、従来に無い特定個人に似た人型ロボットを実現する。その概略を図１、２に基づいて説明すれば、特定個人に似顔のロボット本体（１）の内部に含まれる制御部（２）に搭載されたストレージ（２２０）にあらかじめ特定個人の声を収録し発話するために必要となる五十音等の音素データや特定個人の癖となる動作データ等を登録し、発話時にその音声を制御部（２）内のメインＣＰＵユニット（２１１）により合成して、スピーカ（２６）より出力し、同時にアクチュエータ（９）〜（２５）を四肢動作させるものである。
【００１３】
図１は本発明の概要を示すロボット本体（１）の構成図である。
写真等を基にした特定個人の似顔であるロボット本体（１）は、主に録音音源等を基にした発声機構であるスピーカ（２６）、聴音機構であるマイク（２７，２８）、カメラ（１１），（１２）、四肢動作をするアクチュエータ（９）〜（２５）、ネットワーク接続機構（６）、センサのタッチセンサ（２９），（３０）、温度センサ（３１）及びこれらの各部を統括する制御部（２）から構成される。
【００１４】
図２はロボット本体（１）に含まれる制御部（２）の構成図である。
制御部（２）は、人型ロボットの人工知能を持つメインＣＰＵユニット（２１０）とアクチュエータやセンサを制御するサブＣＰＵユニット（２３０）とデータベース等のデータファイルを保存するストレージユニット（２２０）から構成され、メインＣＰＵユニット（２１０）とサブＣＰＵユニット（２３０）は、メインＣＰＵユニット（２１０）内の通信モジュール（２１３）とサブＣＰＵ（２３０）内の通信モジュール（２３２）とで常に互いの情報を伝達している。
メインＣＰＵユニット（２１０）は、人工知能であるアプリケーションソフトを実行するＣＰＵ（２１１）とメモリ（２１２）とカメラ（７）（８）や無線ＬＡＮ（６）を制御するセンサ入出力モジュール（２１４）とサブＣＰＵからの情報を得るための通信モジュール（２１３）から構成されている。
サブＣＰＵユニット（２３０）は、各アクチュエータの制御や各センサの管理をするＣＰＵ（２３１）とアクチュエータ（９）〜（２５）を制御するアクチュエータ制御モジュール（２３７）と握手などを検出するためのタッチセンサ（２９）（３０）や周囲の温度を測定する温度センサ（３１）や人を検出するための人感センサ（３２）等を制御するセンサ入出力モジュール（２３６）と位置情報を得るためのＧＰＳ（２３３）と人型ロボットが揺すられたりなどの振動を検出するための加速度センサ（２３４）と人型ロボット内の温度を測定するための温度センサ（２３５）から構成される。
【００１５】
図３は、ソフトウェアの概要を示す構成図である。
本ソフトウェアは、制御部（２）上のＣＰＵのオペレーションシステム（Ｓ１０１）上で動作する。
オペレーションシステム（Ｓ１０１）上には、人工知能の役割をするアプリケーションプログラム（Ｓ１０２）、カメラを制御するカメラデバイスプログラム（Ｓ１１７）、マイクを制御するマイクデバイスプログラム（Ｓ１１８）、スピーカを制御するスピーカデバイスプログラム（Ｓ１１９）、特定個人のデータや行動履歴等を蓄積している行動履歴データベース（Ｓ１０３）から構成される。
アプリケーションプログラム（Ｓ１０２）は、話者の顔や物体を認識するための画像認識プログラム（Ｓ１１１）、音声や対話相手を特定するための音声認識プログラム（Ｓ１１２）、対話相手の感情を認識するための感情認識プログラム（Ｓ１１３）、対話相手との対話やインターネット上の情報を知識としてデータベースに蓄積する学習制御プログラム（Ｓ１１４）、音声を合成するための音声合成プログラム（Ｓ１１５）、感情を演出するための感情演出プログラムから構成される。
データベース（Ｓ１０３）は、対話から得た情報やインターネット上情報を蓄積する知識情報データベース（Ｓ１２１）、特定個人の似声を音声合成するための音声合成音素データベース（Ｓ１２２）、特定個人の癖の動作データを蓄積するための癖モーションデータベース（Ｓ１２３）、特定個人を演出するためのシナリオを記述するモデル情報データベース（Ｓ１２４）、ロボットと対話する相手の顔情報や特徴を蓄積するための相手情報データベース（Ｓ１２５）、時間に対する本システムの各センサの取得データを蓄積するための行動履歴データベース（Ｓ１２６）から構成される。
【００１６】
本発明は、特定個人を演出するため複数のセンサからの入力に基づいてロボットが対話する相手話者への感情に対して対応動作をする。
その制御方法は、相手情報データベースに登録されている話者に対する感情レベルに対して、対応動作のパターンを変化させる。
相手情報データベースには、相手話者に対して「好き」「普通」「嫌い」の感情レベルを持っている。対応動作は、例えば、好きな話者には、優しい言葉使いで話しをしたり、愛嬌を振舞ったりする。嫌いな人には無視をするような動作をさせる。
また、感情レベルは、更新される。例えば、大好きな話者であっても、話しかけられる回数が減ったりすると、「大好き」から「好き」に変化する。
対応動作における言葉使いについては、イントネーションを変化させ対応する。また、対応する動きについては、予め登録した癖モーションデータベースから選択し、実行する。
【００１７】
特定個人を演出するフローを図４フローチャートにより説明すると、相手話者がロボットと会話を始めるとロボットは日常会話で会話をする。（Ｓ４０１）そのときにロボットは、画像による顔認識処理を行い話者を特定する。（Ｓ４０２）並行して、音声による話者特定を行い（Ｓ４０３）、（Ｓ４０２）と（Ｓ４０３）が一定の確度で一致した場合、話者の名前を呼び、確認を行い特定する（Ｓ４０４）。特定された相手話者の相手情報データベースと照らし合わせて、話者が好きな場合（Ｓ４０５）、好きな人モード（Ｓ４０７）の処理を行い、話者が嫌いな場合（Ｓ４０６）、嫌いな人モード（Ｓ４０８）の処理を行い、いずれでもない場合、普通の人モード（Ｓ４０９）の処理を行う。（Ｓ４０７）又は（Ｓ４０８）又は（Ｓ４０９）の処理が終わると、日常会話（Ｓ４０１）に戻る。
【００１８】
例えば、好きな人モード（Ｓ４０７）の処理を図５フローチャートにより説明すると、好きな人モードに遷移するとロボットは、愛嬌のある音素による音声合成を行いながら好きな人用日常会話を行う。（Ｓ５０１）そのときにロボットは、音声による話者の感情を測定し（Ｓ５０２）、感情を特定するための話題を投げかけて、話者の感情を特定する。（Ｓ５０３）話者が元気の場合（Ｓ５０４）、元気モード（Ｓ５０６）の処理を行い、話者が落ち込んでいる場合（Ｓ５０５）、慰めモード（Ｓ５０７）の処理を行う。いずれでもない場合、平常モード（Ｓ５０８）での処理を行う。
【００１９】
好きな人モード、嫌いな人モード及び普通の人モードに対する音声合成は音声合成音素データベースより、異なるイントネーション選択することで対応する。
【００２０】
元気モード、慰めモード及び平常モードにおける会話内容は、予めモデルとなる特定個人のモデル情報をモデル情報データベース（Ｓ１２４）に会話の流れに沿ったシナリオとして予め記述し登録しておく。
【００２１】
モデル情報データベース（Ｓ１２４）に登録されるシナリオの一例を図６に示す。図において、ロボットのモデルとなるモデル情報データベース（Ｓ１２４）は、名前（Ｓ６０１）、生年月日（Ｓ６０２）、趣味（Ｓ６０３）、特技（Ｓ６０４）、演出を表現するためのシナリオ（Ｓ６０５）、シナリオのトリガーとなる音声認識語句（Ｓ６０６）、演出するための声（Ｓ６０８）、演出するための動き（Ｓ６０９）をＸＭＬ形式で記述する。
特定個人を対象としているため、特定個人の癖などを演出する際に柔軟性の高いＸＭＬ形式としている。
【００２２】
音声認識語句（Ｓ６０６）は、音声認識の辞書の役割をしている。
このモデル情報データベース（Ｓ１２４）に記述されている音声認識語句数がロボットの認識できる語句数となる。
【００２３】
一方、音声合成音素データベース（Ｓ１２２）には、予め用意した基本文を読み上げて、あらかじめ登録しておく。
【００２４】
また、癖モーションデータベース（Ｓ１２３）には、本人の癖となる各関節の時系列データをあらかじめ登録する。
【００２５】
相手情報データベース（Ｓ１２５）は、図７に示すようにＩＤ（Ｓ７０１）、対話相手の名前（Ｓ７０２）、生年月日（Ｓ７０３）、趣味（Ｓ７０４）、特技（Ｓ７０５）、音声認識用音素（Ｓ７０６）、顔認識用固有値（Ｓ７０７）、対話相手に対する感情レベル（Ｓ７０８）等のフィールドから構成される。感情レベル（Ｓ７０８）は、行動履歴データベース（Ｓ１２６）から、ロボットとの会話頻度や会話シーケンスによる会話をしたときのロボットが話者に対して判定した感情値や制御部（２）内のサブＣＰＵユニット（２３０）内の加速度センサ（２３４）から取得したデータから優しく抱いてもらっているかあるいは頭を叩かれていないか等を判定し感情値を決定して、更新される。
【００２６】
行動履歴データベース（Ｓ１２６）は、図に示すようにＩＤ（Ｓ８０１）、履歴登録時の年月日（Ｓ８０２）、時間（Ｓ８０３）、場所（Ｓ８０４）、対話相手（Ｓ８０５）、そのときの遷移したシナリオであるシナリオ（Ｓ８０６）、対話相手が未知のときに新規に登録される対話相手の顔認識用固有値（Ｓ８０７）、未知の人の名前や新しい単語を覚えたときの新単語（Ｓ８０８）等のフィールドから構成される。新単語（Ｓ８０８）は、対話相手との対話やインターネット上のデータを取得した際に学習制御プログラム（Ｓ１１４）により、登録される。場所（Ｓ８０４）は、制御部（２）内のサブＣＰＵユニット（２３０）内のＧＰＳ（２３３）から取得した位置情報と会話シーケンスにより、場所を特定し、登録される。
【００２７】
知識情報データベース（Ｓ１２１）は、ＩＤ（Ｓ９０１）、情報取得日（Ｓ９０２）、時間（Ｓ９０３）、場所（Ｓ９０４）、対話相手（Ｓ９０５）、そのときの遷移したシナリオのカテゴリ（Ｓ９０６）、新規に覚えた人の名前や単語である新単語（Ｓ９０７）等のフィールドから構成される。知識情報データベースは、行動履歴データベース（Ｓ１２６）やインターネット上のデータを取得した際に学習制御プログラム（Ｓ１１４）により、登録される。
【図面の簡単な説明】
【００２８】
【図１】本発明のシステムの一例を示す説明図である。
【図２】図１に示す制御部、アクチュエータ及びセンサの電気的な構成を示すブロック図である。
【図３】制御部のソフトウェアの構成を示すブロック図である。
【図４】感情表現をするソフトウェアのフローチャートである。
【図５】好きな人モードにおけるソフトウェアのフローチャートである。
【図６】モデル情報データベースである。
【図７】相手情報データベースである。
【図８】行動履歴データベースである。
【図９】知識情報データベースである。
【符号の説明】
【００２９】
１ロボット
２制御部
２１０メインＣＰＵユニット
２２０ストレージ
２３０サブＣＰＵユニット
６無線ＬＡＮ
７、８カメラ
９〜２５アクチュエータ
２６スピーカ
２７、２８マイク
２９、３０タッチセンサ
３１温度センサ
３２人感センサ

【特許請求の範囲】
【請求項１】
顔面部、発声機構、聴音機構、カメラ機構、四肢動作機構、ネットワーク接続機構、情報記憶機構、及びこれらの各部を統括する制御機構を有する姿形が特定個人に似せたロボットであって、
該ロボットの肢体の各部に設けられた複数のセンサからの入力に基づいて認識された該ロボットへの刺激に応じた対応動作を、該ロボットに実行させる対応動作実行手段を備える人型ロボット。
【請求項２】
前記顔面部は、特定個人の似顔であり、また、前記発声機構は、特定個人の音声に近似させた音源を用い、前記対応動作は、特定個人の癖に近似させた動作であることを特徴とする請求項１に記載の人型ロボット。
【請求項３】
特定個人の情報を蓄積するモデル情報データベースと、
特定個人の音声の音素を蓄積する音声合成音素データベースと、
特定個人の癖などの動作を時系列データとして蓄積する癖モーションデータベースと、
対話相手の顔画像データや特徴情報を蓄積する相手情報データベースと、
ロボットの行動履歴を蓄積する行動履歴データベースと、
対話から得た情報やインターネット上の情報を蓄積する知識情報データベースを備え、
前記音声合成音素データベースの蓄積データに基づいて特定個人の音素を合成して発話する音声合成手段と、
前記癖モーションデータベースの蓄積データに基づいて特定個人の癖を演出する動作手段と、
前記相手情報データベース、前記モデル情報データベース、及び前記行動履歴データベースの蓄積データに基づいて対話相手に対する感情を認識する感情認識手段と、
対話相手の音声データの内容を認識する音声認識手段と、
前記音声認識手段の認識結果に応じて対話相手との対話やインターネット上の情報を知識として前記知識情報データベースに蓄積する学習手段と、
前記感情認識手段における認識結果、前記学習手段における蓄積知識に応じて対話相手に対する感情を演出し、該演出結果に応じて前記音声合成手段及び動作手段を制御する感情演出制御手段と、
を備えることを特徴とする請求項１又は２に記載の人型ロボット。

【図１】