説明

ロボット、ロボット制御方法およびプログラム

【課題】姿勢に応じて、違和感のない自然な音声を出力する。
【解決手段】ロボット4は、基体(基体41)に可動連結した可動部(例えば、頭部42)の駆動を制御する駆動制御手段(制御部100)と、音声を生成する音声生成手段(音声生成部110)と、前記音声生成手段において生成された音声を出力する音声出力手段(音声出力部140L、140R)とを有し、前記音声生成手段は、前記駆動制御手段によって制御される前記可動部の前記基体に対する姿勢に基づいて、生成する音声を補正する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、姿勢に基づいて出力音声を補正するロボット、ロボット制御方法およびプログラムに関する。
【背景技術】
【0002】
従来、コミュニケーションロボットにおいて、言語以外の情報である韻律や感情情報を発話音声に付加する技術がある。韻律や感情情報の付加によって、発話内容は、より的確に伝達される。また、音声合成において、表現力を向上するために人の声道をモデル化する手法が開示されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−23775号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、韻律や感情情報を付加する技術では、コミュニケーションロボットの姿勢(特に顔の向き)が変化しても発話音声が変化しないため違和感がある。本発明はかかる事情に鑑みてなされたものであり、姿勢に応じて、違和感のない自然な音声を出力する技術を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記問題を解決するために、請求項1記載のロボット(例えば、実施形態におけるロボット4)は、基体に可動連結した可動部(例えば、実施形態における頭部4)の駆動を制御する駆動制御手段(例えば、実施形態における制御部100)と、音声を生成する音声生成手段(例えば、実施形態における音声生成部110)と、前記音声生成手段において生成された音声を出力する音声出力手段(例えば、実施形態における音声出力部140L、140R)とを有し、前記音声生成手段は、前記駆動制御手段によって制御される前記可動部の前記基体に対する姿勢に基づいて、生成する音声を補正することを特徴とする。
請求項2記載のロボットは、前記可動部の1つが頭部であって、前記音声生成部が、前記頭部のピッチ軸方向の前記姿勢に基づいて、声道フィルタを用いて生成する音声を補正することを特徴とする。
請求項3記載のロボットは、前記音声生成手段が、音圧レベルが前記頭部の前記姿勢を示すピッチ角度に依存する周波数帯域の音声信号を増幅する声道フィルタを用いて、生成する音声信号に含まれる前記ピッチ角度に依存する周波数帯域を増幅することを特徴とする。
請求項4記載のロボットは、前記可動部の1つが頭部であって、前記音声生成部は、前記頭部のヨー軸方向の前記姿勢に基づいて、生成する音声の左右の出力レベル比を補正することを特徴とする。
請求項5記載のロボット制御方法は、基体に可動連結した可動部の駆動を制御する駆動制御手段と、音声を生成する音声生成手段と、前記音声生成手段において生成された音声を出力する音声出力手段とを備えるロボットを制御するロボット制御方法であって、前記音声生成手段は、前記駆動制御手段によって制御される前記可動部の前記基体に対する姿勢に基づいて、生成する音声を補正することを特徴とする。
請求項6記載のプログラムは、基体に可動連結した可動部を備え、音声を生成して出力するロボットのコンピュータに、前記可動部の駆動を制御する駆動制御ステップと、音声を生成する音声生成ステップと、前記音声生成ステップにおいて生成された音声を出力する音声出力ステップとを実行させるプログラムであって、前記音声生成ステップは、前記駆動制御ステップによって制御される前記可動部の前記基体に対する姿勢に基づいて、生成する音声を補正することを特徴とする。
【発明の効果】
【0006】
請求項1記載のロボットによれば、音声生成手段によって生成された音声はそのまま音声出力手段から出力されるのではなく、音声生成手段によって生成された音声は可能部の姿勢に基づいて補正されてから音声出力手段から出力されるため、例えば、可動部の姿勢に応じてスピーカの位置、角度を動かすことなく、可動部の姿勢に応じた違和感のない自然な音声を出力することができる。
請求項2記載のロボットによれば、人間における音声の変化を模して、頭部の垂直方向の姿勢に応じて音声を変化させるため、より自然な音声を出力することができる。
請求項3記載のロボットによれば、ピッチ角度の変化に対し依存度が高い周波数帯域を変化させるため、効果的に音声を出力することができる。
請求項4記載のロボットによれば、頭部の水平方向の姿勢に応じて音声を変化させるため、より自然な音声を出力することができる。
請求項5記載の方法および請求項6記載のプログラムによれば、請求項1と同様の効果を得ることができる。
【図面の簡単な説明】
【0007】
【図1】本実施形態によるロボットの概略概観図である。
【図2】本実施形態によるロボットのブロック図である。
【図3】音声信号補正部による補正に関連する内容を説明するための説明図である。
【図4】音声信号補正部による補正を説明するための説明図である。
【発明を実施するための形態】
【0008】
以下、本発明の実施形態について図面を参照して詳細に説明する。図1(a)は本実施形態によるロボット4の概略正面図、図1(b)はロボット4の概略側面図である。ロボット4は、図1(a)(b)に示すように、基体部41と、基体部41にそれぞれ可動連結される頭部42(可動部)と、脚部43L(可動部),脚部43R(可動部)と、腕部44L(可動部),腕部44R(可動部)とを備えている。また、ロボット4は、図1(b)に示すように、背負う格好で基体部41に収納部45を装着している。なお、基体部41には、スピーカ140L(音声出力部140L)およびスピーカ140R(音声出力部R)が収納されている。
【0009】
図2は、ロボット4のブロック図である。ロボット4は、図2に示すように、制御部100(駆動制御手段)、音声生成部110(音声生成手段)、頭機能部120、腕機能部130L、腕機能部130R、音声出力部140L(音声出力手段)、音声出力部140R(音声出力手段)、脚機能部150L、脚機能部150Rを備えている。
【0010】
頭機能部120は、頭部42または基体41上部に収納され、制御部100からの制御信号に基づいて、頭部42のピッチ軸方向(垂直方向)およびヨー軸方向(水平方向)の動作を制御する。これにより、ロボット4の頭部42の基体41に対する姿勢は、ピッチ軸方向およびヨー軸方向に変化する。つまり、ロボット4は、首を上下左右に振ることができる。
【0011】
脚機能部150L、Rは、それぞれ脚部43L、Rに収納され、制御部100からの制御信号に基づいて二足歩行などの動作を制御する。腕機能部130L、Rは、腕部44L、Rに収納され、制御部100からの制御信号に基づいて、二足歩行時の腕の動作などを制御する。
【0012】
制御部100は、収納部45に収納され、頭機能部120、脚機能部150および腕機能部140に制御信号を出力し、頭部42、脚部43L、R、腕部44L、Rの駆動を制御する。また、制御部100は、頭部42の基体41に対する姿勢を示す情報(頭部姿勢情報)を音声生成部110に出力する。
【0013】
例えば、制御部100は、頭部42の基体41に対する変化後(制御後)の姿勢を示す情報を制御情報として頭機能部120に出力する場合、当該制御情報を頭部姿勢情報として音声生成部110に出力する。また例えば、制御部100は、頭部42の基体41に対する現在の姿勢からの変化量を示す情報を制御情報として頭機能部120に出力する場合、頭部42の基体41に対する変化後(制御後)の姿勢を算出し、算出結果を頭部姿勢情報として音声生成部110に出力する。
【0014】
音声生成部110は、収納部45に収納され、音声信号生成部112および音声信号補正部114を備える。音声信号生成部112は、所定の音声に係る音声信号を生成する。音声信号生成部112は、生成した音声信号を音声信号補正部114に出力する。なお、所定の音声は、例えば、外部(例えば、ロボット4の操作者)から指定された言語に係る音声、外部からの命令に応じて選択した所定の判定処理の結果に対応付けられている音声、ロボット4が具備する種々のセンサ(例えば、障害物を検出するセンサ)の検出結果に対応付けられている音声などである。なお、ロボット4は、頭部42を動かしている間においても音声を出力することができる。
【0015】
音声信号補正部114は、音声信号生成部112から音声信号を取得する。また、音声信号補正部114は、制御部100から頭部姿勢情報を取得する。音声信号補正部114は、制御部100から取得した頭部姿勢情報に基づいて、音声信号生成部112から取得した音声信号を補正する。
【0016】
具体的には、音声信号補正部114は、頭部42のピッチ軸方向の姿勢を示す角度と、頭部42のヨー軸方向の姿勢を示す角度とを含む頭部姿勢情報を取得する。音声信号補正部114は、頭部42の姿勢のうちピッチ軸方向の姿勢に関しては、声道モデルによる声道フィルタを用いて、音声信号生成部112から取得した音声信号を補正する。ピッチ軸方向に姿勢が変化した場合、声道形状は変化し、音声信号のスペクトル包絡が変化するからである。音声信号補正部114は、頭部42の姿勢のうちヨー軸方向の姿勢に関しては、音声出力部140に出力する左右の出力レベル比を補正する。ヨー軸方向に姿勢が変化した場合、声道形状は変化なく、左右の音量を調整すれば足りるからである。なお、声道モデルによる声道フィルタ、左右の出力レベル比、ピッチ軸方向の姿勢に応じた補正、および、ヨー軸方向の姿勢に応じた補正に関する詳細は後述する。
【0017】
音声信号補正部114は、補正後の音声信号(または頭部姿勢情報によっては、音声信号生成部112からの音声信号)を音声出力部140L、Rに出力する。
【0018】
音声出力部140L、Rは、上述の如く、基体部41に収納され、音声生成部110において生成された音声信号(音声信号生成部112によって生成された音声信号または音声信号補正部114によって補正された音声信号)を取得し、音声として外部に出力する。
【0019】
以下、音声信号補正部114について詳細に説明する。図3は、音声信号補正部114による補正に関連する内容を説明するための説明図である。図4は、音声信号補正部114による補正を説明するための説明図である。
【0020】
(声道モデルによる声道フィルタに関する説明)
声道フィルタは、ピッチ軸方向の角度θを用いて、H(θ)とモデル化される。本実施形態においては、人の声を検査して声道フィルタH(θ)をモデル化する。具体的には、男性被験者の頭部を下向き50°から上向き50°(10°単位)まで変化させた種々のピッチ角度θにおける同じ音量の音声を無響室内で接話マイクロホンを用いて録音し、声道フィルタH(θ)をモデル化する。より詳細には、基本周波数が201〜523(Hz)である10秒間のスイープ音、母音「a」の発声を録音する。次いで、録音された音声の音声信号を3分の1オクターブバンドで解析し、各周波数帯域のピッチ角度0°を基準とする音圧レベル比を計算する。
【0021】
ピッチ角度θに応じて補正する音声信号の周波数帯域には、ピッチ角度θの変化に応じて音圧レベルが顕著に変化する周波数帯域を用いる。具体的には、補正する周波数帯域として、図3(a)に示すように、ピッチ角度θの変化に応じて音圧レベルが顕著に変化し、かつ、大抵の母音のフォルマントを有する、500(Hz)、800〜1000(Hz)、2500〜4000(Hz)の3つの周波数帯域を用いる。
【0022】
なお、図3(a)の横軸は、ピッチ角度θ(度)であって、(Up)は上向き、(Down)は下向きである。図3(a)の縦軸は、ピッチ角度0°を基準とした各ピッチ角度θの音圧レベル比、即ちゲインgi,θ(dB)である。図3(a)に示すように、ゲインgi,θは、被験者が上を向いているときは大きく、被験者が下を向いているときは小さい。なお、女性被験者の場合も同様である。
【0023】
(左右の出力レベル比に関する説明)
ヨー角度θに応じた左右の出力レベル比の補正に関しては、図3(b)に示すモデル利用する。図3(b)は、ヨー角度θの変化による音圧レベル比を示す図である。図3(b)の横軸は、ヨー角度θ(度)であって、マイナスは右向き、プラスは左向きである。図3(b)の縦軸は、ヨー角度0°のときの左右のチャネルの音圧レベルの差(左チャネル−右チャネル)を基準とした、各ヨー角度θのときの左右のチャネルの音圧レベルの差(左チャネル−右チャネル)の比、即ちゲインgL,θ(dB)である。図3(b)には、理論値と実測値とを示したが、本実施形態においては、顔の向きの変化がより明確に表現できるように、ヨー角度θの変化の影響がより大きい実測値を使用する。
【0024】
なお、図3(b)に示す実測値は、例えば、無響室内において、図3(c)に示すように、各マイク(mic.)のインパルス応答を測定して得ることができる。図3(c)のヨー角度θは、図3(b)との整合から、中央位置(破線方向)を0°、左方向をプラスとしている。
【0025】
(ピッチ軸方向およびヨー軸方向の姿勢に応じた補正)
音声信号補正部114は、図4に示すように、音声信号生成部112から取得した音声信号(入力音声信号x(t))を、頭部42のピッチ角度θに基づいて補正し、続いて頭部42のヨー角度θに基づいて補正する。
【0026】
音声信号補正部114は、ピッチ角度θに基づいて補正するために、まず、入力音声信号x(t)を、ピッチ角度θに依存するθ依存性成分x(t)と、ピッチ角度θに依存しないθ非依存性成分xNULL(t)とに分解する。なお、入力音声信号x(t)におけるiは、補正する周波数帯域のインデックスであって、入力音声信号x(t)は500(Hz)、入力音声信号x(t)は800〜1000(Hz)、入力音声信号x(t)は2500〜4000(Hz)である。
【0027】
具体的には、音声信号補正部114は、下記式(1)に従って、入力音声信号x(t)からθ依存性成分x(t)を算出し、下記式(2)に従って、θ非依存性成分xNULL(t)を算出する。
【0028】
【数1】

【0029】
上記式(1)において、hは、x(t)、即ち、各周波数帯域(500、800〜1000、2500〜4000(Hz))を透過させるバンドパスフィルタである。また、xNULL(t)は、入力音声信号x(t)からx(t)を引いたものである。つまり、hNULLに関する周波数応答のゲインは、500、800〜1000、2500〜4000Hzで0であり、他の3分の1オクターブバンド中心周波数で1である。
【0030】
次いで、音声信号補正部114は、θ依存性成分x(t)について、下記式(3)に従って、角度θ(t)のときのi番目の周波数帯域のゲインg(t)を得る。
【0031】
【数2】

【0032】
上記式(3)において、角度θおよび角度θm+1は、制御部100から取得した頭部姿勢情報によって示される頭部42のピッチ軸方向の姿勢を示す角度θ(t)に基づく角度である。具体的には、角度θおよび角度θm+1は、下記式(4)(5)によって、θ(t)から得る。
【0033】
【数3】

【0034】
つまり、音声信号補正部114は、θ依存性成分x(t)について、図3(a)に示すθ(t)毎のゲインに係るスペクトル包絡モデル(図4中A、Bによって示されるモデル)を、上記式(4)(5)に示すように10度ずつdBに対して線形補間し、増幅する。
【0035】
次いで、音声信号補正部114は、下記式(6)に従って、x(t)を増幅する。
【0036】
【数4】

【0037】
次いで、音声信号補正部114は、下記式(7)に従って、x(t)とxNULL(t)とを合成し、ピッチ角度θに基づいて補正した補正後のモノラル信号xを得る。
【0038】
【数5】

【0039】
以上のように、音声信号補正部114は、上記式(1)〜(7)によって表される声道フィルタ(周波数領域で表されている声道フィルタH(θ)を時間領域で表した声道フィルタ)を用いて、音声信号生成部112によって生成された音声信号x(t)を、頭部42のピッチ軸方向の姿勢(ピッチ角度θ)に応じて補正する。
【0040】
続いて、音声信号補正部114は、ヨー角度θに基づいて補正するために、モノラル信号xからステレオ信号xste(左チャネルx(t)および右チャネルx(t))を生成する。
【0041】
次いで、音声信号補正部114は、下記式(8)に従って、角度θ(t)のときの左チャネルx(t)のゲインg(t:θ(t))を得る。即ち、音声信号補正部114は、頭部42のヨー軸方向の姿勢に基づいて、左チャネルx(t)および右チャネルx(t)の出力レベル比を補正する。
【0042】
【数6】

【0043】
上記式(8)において、角度θおよび角度θn+1は、制御部100から取得した頭部姿勢情報によって示される頭部42のヨー軸方向の姿勢を示す角度θ(t)に基づく角度である。具体的には、角度θおよび角度θn+1は、下記式(9)(10)によって、θ(t)から得る。
【0044】
【数7】

【0045】
なお、左右チャネルのゲインは、下記式(11)に示すように、対称的なものであるから、音声信号補正部114は、角度θ(t)のときの右チャネルx(t)のゲインg(t:θ(t))を得る。
【0046】
【数8】

【0047】
つまり、音声信号補正部114は、図3(c)に示すθ(t)毎のゲインに係るスペクトル包絡モデル(図4中Cによって示されるモデル)を、上記式(9)(10)に示すように10度ずつ線形補間し、増幅する。
【0048】
最後に、音声信号補正部114は、左チャネル信号x(t)を下記式(12)に従って増幅した出力音声信号x’(t)を音声出力部140Lに出力し、右チャネル信号x(t)を下記式(13)に従って増幅した出力音声信号x’(t)を音声出力部140Rに出力する
【0049】
【数9】

【0050】
以上のように、音声信号補正部114は、頭部42のヨー軸方向の姿勢(ヨー角度θ)に基づいて、左チャネルx(t)および右チャネルx(t)を、左チャネルx’(t)および右チャネルx’(t)に補正する。即ち、音声信号補正部114は、頭部42のヨー軸方向の姿勢に基づいて、左チャネルおよび右チャネルの出力レベル比を補正する。
【0051】
以上、上記実施形態によれば、音声生成手段によって生成された音声はそのまま音声出力手段から出力されるのではなく、音声生成手段によって生成された音声は可能部の姿勢に基づいて補正されてから音声出力手段から出力されるため、可動部の姿勢に応じた違和感のない自然な音声を出力することができる。人間における音声の変化を模して、頭部42の垂直方向の姿勢に応じて音声を変化させるとともに、頭部42の水平方向の姿勢に応じて音声を変化させるため、より自然な音声を出力することができる。
また、補正対象の周波数は実験結果に基づく所定の周波数に限定して、ピッチ軸方向の姿勢に応じて音声信号を補正しているため、効果的に計算量を低減させることができる。
【0052】
なお、上記実施形態においては、制御部100が頭部姿勢情報(音声信号補正部114が音声信号を補正する際に参照する、頭部42の基体41に対する姿勢を示す情報)を音声信号補正部114に出力する態様、即ち、音声信号補正部114が頭部姿勢情報を制御部100から取得する態様を説明したが、音声信号補正部114が頭部姿勢情報を取得する態様はこれに限定されない。例えば、ロボット1は、頭部42の基体41に対する姿勢を測定する測定部(非図示)を備え、音声信号補正部114は、測定部による測定結果を頭部姿勢情報として取得してもよい。
【0053】
また、上記実施形態においては、音声信号補正部114は頭部姿勢情報に基づいて音声信号を補正する態様を説明したが、音声信号補正部114が音声信号を補正する態様はこれに限定されない。例えば、音声信号補正部114は、脚部43、腕部44L、腕部44Rの基体41に対する姿勢を示す情報に基づいて音声信号を補正してもよい。
【0054】
なお、本発明の一実施形態によるロボット4の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、本発明の一実施形態によるロボット4に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0055】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0056】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0057】
4 ロボット
41 基体部
42 頭部(可動部)
43L,43R 脚部(可動部)
44L,44R 腕部(可動部)
45 収納部
100 制御部(駆動制御手段)
110 音声生成部(音声生成手段)
112 音声信号生成部
114 音声信号補正部
120 頭機能部
130 腕機能部
140 音声出力部(音声出力手段)
150 脚機能部

【特許請求の範囲】
【請求項1】
基体に可動連結した可動部の駆動を制御する駆動制御手段と、
音声を生成する音声生成手段と、
前記音声生成手段において生成された音声を出力する音声出力手段と
を有するロボットにおいて、
前記音声生成手段は、
前記駆動制御手段によって制御される前記可動部の前記基体に対する姿勢に基づいて、生成する音声を補正することを特徴とするロボット。
【請求項2】
前記可動部の1つは頭部であって、
前記音声生成手段は、
前記頭部のピッチ軸方向の前記姿勢に基づいて、声道フィルタを用いて生成する音声を補正することを特徴とする請求項1に記載のロボット。
【請求項3】
前記音声生成手段は、
音圧レベルが前記頭部の前記姿勢を示すピッチ角度に依存する周波数帯域の音声信号を増幅する声道フィルタを用いて、生成する音声信号に含まれる前記ピッチ角度に依存する周波数帯域を増幅する
ことを特徴とする請求項2に記載のロボット。
【請求項4】
前記可動部の1つは頭部であって、
前記音声生成手段は、
前記頭部のヨー軸方向の前記姿勢に基づいて、生成する音声の左右の出力レベル比を補正することを特徴とする請求項1から請求項3の何れかに記載のロボット。
【請求項5】
基体に可動連結した可動部の駆動を制御する駆動制御手段と、
音声を生成する音声生成手段と、
前記音声生成手段において生成された音声を出力する音声出力手段と
を備えるロボットを制御するロボット制御方法であって、
前記音声生成手段は、
前記駆動制御手段によって制御される前記可動部の前記基体に対する姿勢に基づいて、生成する音声を補正することを特徴とするロボット制御方法。
【請求項6】
基体に可動連結した可動部を備え、音声を生成して出力するロボットのコンピュータに、
前記可動部の駆動を制御する駆動制御ステップと、
音声を生成する音声生成ステップと、
前記音声生成ステップにおいて生成された音声を出力する音声出力ステップと
を実行させるプログラムであって、
前記音声生成ステップは、
前記駆動制御ステップによって制御される前記可動部の前記基体に対する姿勢に基づいて、生成する音声を補正することを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−189439(P2011−189439A)
【公開日】平成23年9月29日(2011.9.29)
【国際特許分類】
【出願番号】特願2010−56265(P2010−56265)
【出願日】平成22年3月12日(2010.3.12)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 社団法人 日本ロボット学会、第27回 日本ロボット学会学術講演会CD−ROM、平成21年9月15日
【出願人】(000005326)本田技研工業株式会社 (23,863)
【Fターム(参考)】