説明

ロボット

【課題】本発明は、音声合成部と音声認識部の設定およびセリフとなる文字列を自動的に適切に調整し、ユーザの作業を簡易化することができるロボットを提供する。
【解決手段】出力音声を合成する音声合成部3と、入力音声の認識を行う音声認識部4と、前記音声合成部3および前記音声認識部4の設定を調整する調整部5とを備えたロボット1において、前記調整部5は、前記出力音声を前記音声認識部4の入力音声とした認識結果を基に調整するものである。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成部および音声認識部を有するロボットに関する。
【背景技術】
【0002】
図1に示すような、産業用分野やサービス分野等で人間とコミュニケーションを取るロボット1には、人間を模した音声合成部および音声認識部が具備されている。音声合成部3が音声出力部6を駆動して音声を発生し、また音声認識部4が音声入力部7からの音声入力を認識する構成になっている。ロボット1を調整する際に、ユーザが調整部5を介して音声合成部3の音声合成部ボリューム8や音声認識部4の感度設定値11といった設定を調整できるようになっている。
【0003】
このような構成で、前記音声合成部ボリューム8や感度設定値11といった設定を変更する場合、ロボットを停止させ、ユーザが調整部5のスイッチなどを操作して調整するといった作業が必要である。またロボット稼動中には設定を調整することができず、周囲の騒音などの環境が変化するとユーザとのコミュニケーションに支障をきたすという問題がある。また、前記音声合成部3がセリフとなる文字列を基に音声データを作成し、音声出力部6を駆動して音声を発生する構成である場合、セリフとなる文字列をユーザが作成、調整するという作業が発生し、この作業が煩雑であるという問題がある。
【0004】
この問題に対して、音声合成部の出力レベル調整手段を調整した設定情報を用いて音声の取込条件を調整することで調整作業を簡易化する音声処理装置が開示されている(例えば特許文献1)。
【0005】
従来のロボットの音声処理装置について説明する。図6は音声処理装置の構成を表す図である。図6において101は出力レベル調整手段であり、音声合成部が合成音を出力する際の出力レベルを調整することができる。
102は取込条件調整手段であり、音声認識部が認識用音声を取り込む際の取込条件を調整することができる。
以上説明した構成で、ユーザが出力レベル調整手段101を調整した設定値から求めた値を取込条件調整手段102の設定とする。このようにして調整作業を簡易化できるのである。
【特許文献1】特開平11−65591号(第7−11頁、図1)
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし、ユーザが出力レベル調整手段を調整する必要があるため、ロボット稼動中には設定を調整することができず、周囲の騒音などの環境が変化するとユーザとのコミュニケーションに支障をきたすという問題を完全には解決していない。また、ロボットが発話する音声のセリフとなる文字列をユーザが作成、調整するという作業は簡易化されていない。
【0007】
本発明はこのような問題点に鑑みてなされたものであり、音声合成部と音声認識部の設定およびセリフとなる文字列を自動的に適切に調整し、ユーザの作業を簡易化することができるロボットを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記問題を解決するため、本発明は次のように構成したものである。
請求項1に記載の発明は、出力音声を合成する音声合成部と、入力音声の認識を行う音声認識部と、前記音声合成部および前記音声認識部の設定を調整する調整部とを備えたロボットにおいて、前記調整部は、前記出力音声を前記音声認識部の入力音声とした認識結果を基に調整するものである。
請求項2に記載の発明は、前記調整部は、音声認識部の感度を調整するものである。
請求項3に記載の発明は、前記調整部は、前記音声合成部のイントネーションに関する設定を調整するものである。
請求項4に記載の発明は、前記調整部は、前記音声合成部および前記音声認識部のボリュームに関する設定を調整するものである。
請求項5に記載の発明は、前記調整部は、ユーザの音声に対する音声認識を失敗する毎に前記音声合成部および前記音声認識部の設定を調整するものである。
請求項6に記載の発明は、前記音声認識部が、作業に関連付けられた文字列が格納されたデータベースを有する音声判断部を備えたものである。
請求項7に記載の発明は、前記音声認識部の前記入力音声が前記音声認識部の音声判断部のデータベースと一致しない時は、前記音声判断部に備えられた予め設定された音声を前記音声合成部から発話するものである。
請求項8に記載の発明は、前記予め設定された音声が前記音声判断部のデータベースと一致した時は、再度発話するように前記音声合成部から発話するものである。
請求項9に記載の発明は、前記予め設定された音声が前記音声判断部のデータベースと一致しない時は、前記音声認識部の感度設定値を調整して、前記予め設定された音声を前記音声合成部から発話するものである。
請求項10に記載の発明は、出力音声を合成する音声合成部と、入力音声の認識を行う音声認識部と、前記音声合成部および前記音声認識部の設定を調整する調整部とを備えたロボットにおいて、前記調整部は、前記音声合成部が参照する文字列を変更するものである。
【発明の効果】
【0009】
請求項1乃至請求項9に記載の発明によると、ロボットを停止させることなく、また周囲の騒音などの環境が変化しても自動的に適切な設定に調整できるので、調整作業を簡易化することができる。
請求項6に記載の発明によると、自動的に音声データの文字列を変更するので、ユーザが文字列を作成する作業を簡易化することができる。
【発明を実施するための最良の形態】
【0010】
以下、本発明の実施の形態について図を参照して説明する。
【実施例1】
【0011】
図1は一般的なロボットの構成を表す図である。図2は本発明のロボットの構成を表す図である。図3は本発明の音声認識部の感度設定値を調整するフローチャートである。
図1において1はロボットであり、制御部2を内蔵している。前記制御部2は音声合成部3と音声認識部4と調整部5を備えている。前記音声合成部3は音声出力部6に接続されており、前記音声出力部6を駆動することで音声を発生することができる。前記音声認識部4は音声入力部7に接続されており、音声入力部から入力された音声を認識することができる。前記調整部5は図示しないスイッチやボリュームつまみを備えており、ユーザの操作により前記音声合成部3および前記音声認識部4の設定を変更することができる。
このような構成でユーザが前記調整部5を操作することで、出力音声の音声合成部ボリューム8や音声認識部の感度設定値11などを周囲の騒音などの環境に合わせて適切に調整できるのである。
【0012】
本発明が従来例と異なる点は、以上説明した構成で、前記調整部5が前記音声認識部4の認識結果を基に前記音声合成部3および前記音声認識部4の設定を自動的に調整する構成とした点である。
図2において3は音声合成部であり、音声データ15および音声合成部ボリューム設定値8を基に音声出力部6を駆動することでロボット1の出力音声を発生する。4は音声認識部であり、前記出力音声またはユーザに音声を音声入力部7の入力音声として音声認識を行い、認識結果を正しい音声かを判断するために作業に関連づけられた文字列が格納された音声データベースを備えた音声判断部を通じて調整部5に出力する。前記調整部5は前記認識結果を基に音声認識部4の感度設定値11の値を調整し、適切な認識結果が得られる値に変更する。
【0013】
前記感度設定値11の値を決定する手法としては、いくつかの感度設定値を仮に設定して入力音声のシグナルノイズ比を算出し、最も良い結果が得られた感度設定値を新しい感度設定値として決定する手法で行われる。この際、前記音声出力部6から発生される出力音声が常に同じ音声であるので、何度でも同じ音声を音声認識部4の入力とできることが特徴である。ここで、前記音声認識部の感度設定値に限らず、音声合成部のボリューム設定値や音声認識部のボリューム設定など、さまざまな設定値の調整に適用できる。
【0014】
図3を用いて音声認識部の感度設定値を調整する処理を説明する。
ユーザが発話し、音声入力部7に入力される(START)。音声認識部4は入力された音声を音声認識する(S1)。認識結果が音声判断部に作業に関連づけられた文字列が格納されたデータベースと文字列を照合してマッチした場合はその認識結果に対応した作業を行い、次のユーザ発話に備える(エンド)。認識結果がデータベースとマッチしない場合は、音声合成部3から予め設定された音声、たとえば、音声判断部のデータベースに保存されているある決まった音声(「こんにちは」や「キャリブレーションしています」)を出力(S3)し、その出力音声を音声入力部7の入力として音声認識する(S4)。予め設定された音声の認識結果がデータベースとマッチした場合はユーザの発話が不明瞭であったり、データベースに無い言葉であったと判断し、ユーザに対して再度発話するように要求し、たとえば、「もう一度話してください」と問いかけ、(S6)次のユーザ発話に備える(エンド)。予め設定された音声の認識結果がデータベースとマッチしない場合は、周囲の騒音などの環境が変化したと判断し、音声認識部4の感度設定値11の値を認識できるノイズレベルを設定して聞き取れるように調整し、適切な認識結果が得られる値に変更する。
このような処理を行うことで、周囲の騒音などの環境が変化した際に自動的に音声認識部の感度設定値を適切に調整するのである。
これにより、ロボットを停止させ、ユーザが調整部5のスイッチなどを操作して調整するといった作業を無くし、また周囲の騒音などの環境が変化してユーザの音声を認識できない場合にも自動的に適切な設定値に調整されるので、調整作業を簡易化することができる。
【実施例2】
【0015】
図4は本発明のロボットの構成を表す図である。図5は本発明の文字列の変化を表す図である。
図4に示す構成において実施例1の説明と異なる点は、3は音声合成部であり、文字列16および音声合成部ボリューム設定値8、イントネーション設定値10を基に音声出力部6を駆動することでロボット1の出力音声を発生する点である。
本発明が従来例と異なる点は、前記調整部5が前記音声認識部4の認識結果を基に前記音声合成部3がセリフとして参照する文字列を自動的に変更する構成とした点である。
前記文字列を変更する手法としては、例えば制御部2が持つ辞書機能を用いてユーザが作成した文字列を少しずつ変更し、音声認識部が正確に認識できる文字列を新しい文字列として決定する手法が挙げられる。
図5を用いて文字列を変更する処理を説明する。
17、18、19はそれぞれ原文字列、第1変換文字列、第2変換文字列であり、文字列16の各段階でのデータを表す。始めに、ユーザが作成した原文字列16(今日は良い天気ですね。)を基に音声合成部3が音声出力部を駆動して音声を出力する。前記音声認識部4はその出力音声(「コンニチハ ヨイ テンキ デスネ。」)を入力として音声認識を行い、「こんにちは」、「よい」という非マッチ文字列20の部分がデータベースにマッチせず、認識できなかったという結果を調整部5に出力する。前記調整部5は認識結果を基に原文字列16の認識できなかった部分を制御部2の辞書機能を用いて異なる表記に変更し、第1変換文字列18(キョウはいい天気ですね。)と変更する。続いて第1変換文字列18(キョウはいい天気ですね。)を基に音声合成部3が音声出力部を駆動して音声を出力する。前記音声認識部4はその出力音声(「キョウ ハイイ テンキ デスネ。」)を入力として音声認識を行い、「はいい」という非マッチ文字列20の部分がデータベースにマッチせず、認識できなかったという結果を調整部5に出力する。前記調整部5は認識結果を基に第1変換文字列18の認識できなかった部分を制御部2の辞書機能を用いてさらに異なる表記に変更し、第2変換文字列19(キョウはイイ天気ですね。)と変更する。続いて第2変換文字列18(キョウはイイ天気ですね。)を基に音声合成部3が音声出力部を駆動して音声を出力する。前記音声認識部4はその出力音声(「キョウハ イイ テンキ デスネ。」)を入力として音声認識を行い、入力音声の全ての部分がデータベースにマッチし、認識できたという結果を調整部5に出力する。ここで前記調整部5は第2変換文字列19を新しい文字列16として決定、記憶するのである。
この際、前記音声認識部が認識しやすい出力音声はユーザにとっても聞き取りやすい音声であることが特徴である。ここで、文字列に限らず、音声合成部のイントネーション設定や音声合成部のボリューム設定値、音声認識部のボリューム設定など、さまざまな設定値の調整にも適用できる。
尚、本実施例では、具体的なロボットの形状について詳細に説明していないが、走行する台車や対人式の腕やハンドを用いて作業するようなロボットでも良く、音声入力を用いて作業を教示するような溶接や塗装または搬送に用いられる産業用ロボットであっても良い。
【産業上の利用可能性】
【0016】
本発明はロボットに限らず、工作機械や家電製品などにも適用できる。
【図面の簡単な説明】
【0017】
【図1】一般的なロボットの構成を表す図
【図2】本発明の第1実施例のロボットの構成を表す図
【図3】本発明の第1実施例のロボットの処理を表すフローチャート
【図4】本発明の第2実施例のロボットの構成を表す図
【図5】本発明の第2実施例の文字列の変化を表す図
【図6】特許文献1の音声処理装置の構成を表す図
【符号の説明】
【0018】
1 ロボット
2 制御部
3 音声合成部
4 音声認識部
5 調整部
6 音声出力部
7 音声入力部
8 音声合成部ボリューム
9 音声認識部ボリューム
10 イントネーション
15 音声データ
16 文字列
17 原文字列
18 第1変換文字列
19 第2変換文字列
20 非マッチ文字列
101 出力レベル調整手段
102 取込条件調整手段

【特許請求の範囲】
【請求項1】
出力音声を合成する音声合成部と、入力音声の認識を行う音声認識部と、前記音声合成部および前記音声認識部の設定を調整する調整部とを備えたロボットにおいて、
前記調整部は、前記出力音声を前記音声認識部の入力音声とした認識結果を基に調整することを特徴とするロボット。
【請求項2】
前記調整部は、音声認識部の感度を調整することを特徴とする請求項1記載のロボット。
【請求項3】
前記調整部は、前記音声合成部のイントネーションに関する設定を調整することを特徴とする請求項1記載のロボット。
【請求項4】
前記調整部は、前記音声合成部および前記音声認識部のボリュームに関する設定を調整することを特徴とする請求項1記載のロボット。
【請求項5】
前記調整部は、ユーザの音声に対する音声認識を失敗する毎に前記音声合成部および前記音声認識部の設定を調整することを特徴とする請求項1乃至請求項4のいずれかに記載のロボット。
【請求項6】
前記音声認識部は、作業に関連付けられた文字列が格納されたデータベースを有する音声判断部を備えたことを特徴とする請求項1記載のロボット。
【請求項7】
前記音声認識部の前記入力音声が前記音声認識部の音声判断部のデータベースと一致しない時は、前記音声判断部に備えられた予め設定された音声を前記音声合成部から発話することを特徴とする請求項1記載のロボット。
【請求項8】
前記予め設定された音声が前記音声判断部のデータベースと一致した時は、再度発話するように前記音声合成部から発話することを特徴とする請求項7記載のロボット。
【請求項9】
前記予め設定された音声が前記音声判断部のデータベースと一致しない時は、前記音声認識部の感度設定値を調整して、前記予め設定された音声を前記音声合成部から発話することを特徴とする請求項7記載のロボット。
【請求項10】
出力音声を合成する音声合成部と、入力音声の認識を行う音声認識部と、前記音声合成部および前記音声認識部の設定を調整する調整部とを備えたロボットにおいて、
前記調整部は、前記音声合成部が参照する文字列を変更することを特徴とするロボット。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2008−281778(P2008−281778A)
【公開日】平成20年11月20日(2008.11.20)
【国際特許分類】
【出願番号】特願2007−125911(P2007−125911)
【出願日】平成19年5月10日(2007.5.10)
【出願人】(000006622)株式会社安川電機 (2,482)
【Fターム(参考)】