説明

受音装置と音声認識装置とそれらを搭載している可動体

【課題】 受音装置で受音した音源の存在方向を周囲に知らせる表示器を備えた受音装置を提供する。
【解決手段】 高い指向性を持つ方向(受音方向)を調整可能なマイク20と、マイク20で受音した音源が存在する方向を検出する音源方向検出部101と、検出した音源の存在方向とマイク20の受音方向を、ロボット1の周囲から視認可能に表示する表示器10を備えている。周囲にいる人間が、受音装置で受音している音源がいずれであるのかを理解することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源が発した音を受音する受音装置に関する。
【背景技術】
【0002】
マイクで受音した音の伝播方向を検出できる受音装置が知られている。そのための一つの方法に、複数のマイクを等間隔で直線上に配置する方法が知られている。例えば図11に示すように、複数のマイク20a〜20fを間隔dで直線L上に配置する。
音源Mがマイク群から十分に離れた位置に存在していれば(図示の都合によって、音源Mがマイク群に接近した位置に図示されているが、実際には充分に離れている。逆に、図11では間隔dが実際よりも拡大して図示されているといってもよい)、音源Mが発した音は、マイク群の近傍ではほぼ平面波として伝播する。例えばマイク20cに到達する音は経路610に沿って伝播してきており、マイク20dに到達する音は経路612に沿って伝播してきている。平面波として伝播してくる音は、波面616や波面618において、同一の位相を備えている。従って、音源Mがマイク20c,20dから見て角度θの方向にある場合、ある時点で経路610に沿って伝播してマイク20cに到達した音は、その時点では経路612に沿って点620まで到達しており、その後さらにd・cosθの長さだけ伝播してから、マイク20dに到達する。従って、隣接するマイク20cと20dの間では、受音時間差Δtがd・cosθ/λで計算される値となる。ここで、λは音の伝播速度である。したがって、受音時間差Δtを検出することによって、音源Mが存在する方向を示す角度θを算出することができる。角度θは、直線Lを基準とする角度であり、直線Lは受音装置に固定されている。図11のマイク対20c,20dを利用すると、受音した音の伝播方向を受音装置を基準にして検出することができる。上記説明は、マイク20cと20dのマイク対に限られず、任意のマイク対について成立する。
【0003】
受音装置の中には、良好な指向性(強い受音感受性)を持つ方向を切換えることができるものが存在する。その一つの方法に、各マイクが受音した音信号を、良好な指向性を実現したい方向から決定される時間だけ遅延させてから重ね合わせる方法が知られている。
【0004】
図12に示すように、マイク20bが受音する音信号は、マイク20aが受音する音信号からd・cosθ/λ時間だけ遅延している。マイク20cが受音する音信号は、マイク20aが受音する音信号から2・d・cosθ/λ時間だけ遅延している。マイク20dが受音する音信号は、マイク20aが受音する音信号から3・d・cosθ/λ時間だけ遅延している。マイク20eが受音する音信号は、マイク20aが受音する音信号から4・d・cosθ/λ時間だけ遅延している。マイク20fが受音する音信号は、マイク20aが受音する音信号から5・d・cosθ/λ時間だけ遅延している。
【0005】
そこで、マイク20aで受音した音信号については[5・d・cosθ/λ]時間だけ遅延させ、マイク20bで受音した音信号については[4・d・cosθ/λ]時間だけ遅延させ、マイク20cで受音した音信号については[3・d・cosθ/λ]時間だけ遅延させ、マイク20dで受音した音信号については[2・d・cosθ/λ]時間だけ遅延させ、マイク20eで受音した音信号については[d・cosθ/λ]時間だけ遅延させ、マイク20fで受音した音信号については遅延させなければ、それらの音信号の位相が一致する。
すなわち、図12に示す音源Mが発した音の音信号a1,b1,c1,d1,e1,f1の受音量が最大となる部分(音信号の最大振幅値[A]の部分)は、上記の遅延処理を実行すると、一致する。
上記の処理によって遅延した音信号を重ね合わせると、角度θの方向から伝播する音については、重ね合わせる音信号の位相が一致していることから、大きな強度の音信号が得られる。
【0006】
例えば図11に示すように、マイク20a〜20fの正面方向(角度θ=90度)にも音源Nが存在するものとする。この場合、図12に示すように、音源Nが発した音は、マイク20a〜20fに同時に到達する。
この場合、マイク20aで受音した音信号については[5・d・cosθ/λ]時間だけ遅延させ、マイク20bで受音した音信号については[4・d・cosθ/λ]時間だけ遅延させ、マイク20cで受音した音信号については[3・d・cosθ/λ]時間だけ遅延させ、マイク20dで受音した音信号については[2・d・cosθ/λ]時間だけ遅延させ、マイク20eで受音した音信号については[d・cosθ/λ]時間だけ遅延させ、マイク20fで受音した音信号については遅延させなければ、それらの音信号の位相がずれてしまう。
すなわち、図12に示す音源Nが発した音の音信号a2,b2,c2,d2,e2,f2の受音量が最大の部分(音信号の最大振幅値[B]の部分)は、上記の遅延処理を実行すると、ずれてしまう。
上記の処理によって遅延した音信号を重ね合わせると、重ね合わせる音信号の位相が一致していないことから、大きな強度の音信号は得られない。
すなわち、上記の遅延処理を実施してから重ね合わせると、角度θ方向から伝播する音からは大きな強度の音信号が得られ、それ以外の方向から伝播する音からは大きな強度の音信号が得られない。角度θの方向に強い指向性を有する受音装置が実現される。
【0007】
遅延時間を決定するために用いる角度θの値を変えれば、強い指向性を有する方向を切換えることができる。角度θを90度として遅延時間を決定すれば、90度の角度に強い指向性を持つ受音装置が得られる。この場合、90度の方向に存在する音源Nが発生する音については感度よく受音する一方、それ以外の角度に存在する音源Mが発生する音についてはほとんど受音しないこととなる。同様に、遅延時間を決定するために用いる角度θの値を音源Mが存在する角度に変えれば、音源Mが発生する音については感度よく受音する一方、それ以外の角度に存在する音源Nが発生する音についてはほとんど受音しないこととなる。
【0008】
音源M,Nが人であり、同時に音声を発している場合、それらを同時に受音して同時に音声認識することは難しい。この場合、強い指向性を有する方向を切換えることが有意義である。人Nが存在する方向に指向性を合わせれば、人Mが発生する音声はほとんど受音されず、人Nが発した音声を認識することが可能となる。人Mが存在する方向に指向性を合わせれば、人Nが発生する音声はほとんど受音されず、人Mが発した音声を認識することが可能となる。
【0009】
マイクで受音した音の伝播方向を検出する技術と、良好な指向性を持つ方向を切換える技術を組み合わせて用いると、音源が存在する方向を見つけ出し、その方向に指向性を向けることが可能なる。
例えば、音の伝播方向を検出する技術によって90度の方向に音源が存在することを知って指向性を90度に合わせれば、人Nが発生する音声を集中的に受音して音声認識することが可能となる。θ方向に音源が存在することを知って指向性をθに合わせれば、人Mが発生する音声を集中的に受音して音声認識することが可能となる。
【0010】
しかしながら、この技術では、受音装置の指向性の方向が外部からはわからない。例えば車両に搭載されているナビゲーション装置に、音の伝播方向を検出する技術と、良好な指向性を持つ方向を切換える技術を組み込めば、ドライバーが発声したときにはドライバーの音声を集中的に受音して音声認識することができ、助手席が発声したときには助手席での発声を集中的に受音して音声認識することができる。しかしながら、ドライバー席と助手席で同時に発声した場合には、どちらの音声を集中的に受音して音声認識しているのかがわからない。
受音装置が向けている受音方向(強い指向性を有する方向)を周囲に存在する人にわからせる技術が必要とされている。
【0011】
受音装置がロボット等の回転可能な物体に搭載されている場合、受音装置が向けている受音方向を、ロボットの顔の向きによって周囲に存在する人にわからせることができる。
特許文献1には、受音装置の指向性の高い方向とロボットの顔の向きを一致させることによって、受音装置の指向性の高い方向を周囲に存在する人にわからせる技術が記載されている。
【0012】
【特許文献1】特開2002−366191号公報
【発明の開示】
【発明が解決しようとする課題】
【0013】
受音装置がロボット等の可動体に搭載されている場合には、顔の向き等によって指向性の高い方向を周囲に存在する人にわからせることができるが、ナビゲーション装置等のように動かない受音装置の場合には、指向性の高い方向を周囲に存在する人にわからせることができない。
【0014】
顔の向き等によって指向性の高い方向を示す技術でも、問題はある。例えば、ロボットに音声で指示しながら配電盤に配置されているスイッチ群の操作をさせたい場合がある。この場合、ロボットは配電盤に顔を向けて作業を続ける必要があり、指向性が高い方向に顔を向けることができない。顔の方位とは別に、ロボットに搭載されている受音装置の指向性が指示者に向けられているのか、あるいはそれ以外に向けられているのかを表示する技術が必要とされている。
【0015】
(請求項1に記載の発明)
本願発明の受音装置は、マイクと、マイクで受音した音の伝播方向を受音装置を基準にして検出する音源方向検出手段と、音源方向検出手段で検出した方向を受音装置の周囲から視認可能に表示する表示手段を備えている。
音源方向検出手段は、例えば閾値以上の音量の音がマイクで受音されるときに、音の伝播方向を判別する。音源方向検出手段は、受音装置に固定されている基準方向を基準にして音の伝播方向を検出する。音源方向検出手段は、受音装置を基準にして音源が存在する方向を判別する。音源方向検出手段は、ソフトウエアで構成されていてもハードウエアで構成されていてもよい。音源が2以上存在する場合には、各々の音源の存在方向を検出する。
表示手段には、受音装置に固定されている基準方向に対する音源の存在方向が表示される。音源が2以上存在する場合には、各々の音源の存在方向を表示する。
【0016】
本発明の受音装置を用いれば、周囲の人が、受音装置が受音している音源の存在方向を知ることができる。ナビゲーション装置に対してドライバー席と助手席で同時に発声している場合には、両者の音声を受音しているのか、一方の音声しか受音していないのかを知ることができる。後者の場合には、どちらの音声を受音しているのかを知ることができる。
特定方位に顔を向けて作業を続けるロボットに音声で指示する場合には、ロボットが指示者に指向性を合わせているのか、それ以外の音源に指向性を合わせているのかを知ることができる。周囲に存在する雑音源に指向性を合わせているために指示者の音声が認識されていなければそのことを知ることができ、雑音を小さくするなどの対策が有効であるといったことを知ることができる。あるいは、指向性を合わせていないロボットに音声指示を続けるといったことを防止できる。
また複数の人がロボットを取り囲んで同時に発声している場合には、ロボットが誰の音声を認識しているのかが明らかとされ、混乱が避けられる。
【0017】
(請求項2に記載の発明)
表示手段が、マイクの受音量を音源別に表示するようにしてもよい。
この場合、周囲の人が、受音装置が検出している音源の存在方向と、方向別の受音量を知ることができる。
【0018】
(請求項3に記載の発明)
マイクで受音した音の周波数成分に基づいて、受音した音の音源の種類を判別する音源種類判別手段が付加されており、音源種類判別手段で判別した音源の種類を表示手段で表示することが好ましい。
音源種類判別手段は、人の音声とそれ以外の音とを判別することができればよく、ソフトウエアで構成されていてもハードウエアで構成されていてもよい。
本発明の受音装置を用いれば、周囲の人が、受音装置が認識している音源の存在方向と音源種類を知ることができる。例えば、テレビやラジオが音を発している環境でロボットに音声で指示する場合、ロボットがテレビやラジオの音を受音しているのか、肉声のみを受音しているのかを知ることができる。
【0019】
(請求項4に記載の発明)
受音装置に、複数のカメラと音源距離計算手段が付加されていてもよい。複数のカメラは、マイクが音を受音する範囲を撮像する。音源距離計算手段は、複数のカメラで撮像した画像群に基づいて、受音装置と音源の距離を計算する。音源距離計算手段は、ソフトウエアで構成されていてもハードウエアで構成されていてもよい。この場合、表示手段に、音源距離計算手段で計算した距離を併せて表示するとよい。
表示手段に受音装置と音源がマークで表示される場合、受音装置と音源の距離が、マーク間の長さによって表示されてもよい。また、受音装置と音源の距離が、「○○cm」のようにテキスト表示されてもよい。
本発明の受音装置を用いれば、周囲の人が、受音装置が認識している音源の存在方向と音源までの距離を知ることができ、受音装置の受音状況を一層把握し易い。
【0020】
(請求項5に記載の発明)
本願発明は、請求項1〜4のいずれかの受音装置を利用して音声認識装置を実現することもできる。この場合の音声認識装置は、請求項1〜4のいずれかの受音装置と、音源方向固定手段と、音声認識手段を備えている。音源方向固定手段は、音源方向検出手段が複数の方向を検出する場合に、受音量が最大となる方向にマイクの受音方向を固定する。
マイクの「受音方向」とは、強い指向性を持つ方向をいう。「受音方向を固定する」態様には複数の態様が存在する。指向性マイクを物理的に回転させて指向性の方向を変える場合には、マイクを物理的に固定して受音方向を固定することができる。静止している複数のマイクの出力を処理して指向性を実現する場合には、処理内容を固定することによって受音方向を固定することができる。
従来の技術では、音声を発している人が音声認識装置で認識している音源の存在方向を知ることができず、音声指示に従った結果が得られない場合に、その原因を知ることが困難であった。本装置によると、受音装置の受音方向が表示され、音声指示に従った結果が得られない場合にその理由が把握しやすくなる。
【0021】
(請求項6に記載の発明)
表示手段が、受音方向固定手段で固定したマイクの受音方向を併せて表示するのが好ましい。
表示手段には、少なくともマイクの受音方向が固定された場合にその方向が表示されればよく、受音方向が固定されない間も受音方向が表示され続けてもよい。例えば、マイクが受音方向を時間とともに切替ながら受音している間、時間ともに変化する表示が示されてもよい。
これによって、ユーザーは、強い指向性を持つ受音方向を知ることができる。表示された受音方向が自身を向いていなければ、自身の音声が受音されないことを認識できる。マイクの受音方向に存在する雑音源を排除する等、必要な対策が講じやすい。
【0022】
(請求項7に記載の発明)
本願発明は、可動体に搭載する場合に特に有効である。ここいう可動体は、少なくとも鉛直軸の周りに回転できるものであり、請求項1〜4のいずれかの受音装置を搭載している。可動体には表示手段が設けられており、可動体に固定されている基準方向と音源が存在する方向がなす角度を表示する。
本発明の可動体を用いれば、周囲の人が、可動体に搭載されている受音装置が認識している音源の存在方向を知ることができ、受音装置の受音状況を把握し易い。
また、可動体が鉛直軸の周りに回転しても、表示手段には、基準方向と音源が存在する方向がなす角度、すなわち可動体に対する音源の相対的な方向を表示することができる。
【0023】
(請求項8に記載の発明)
可動体を床面に対して鉛直軸の周りに回転させる回転機構と、音源方向検出手段が複数の方向を検出する場合に受音量が最大となる方向にマイクの受音方向を固定する手段と、受音方向が固定されたマイクで受音した音を音声認識する音声認識手段と、音声認識手段で認識した情報に基づいて、回転機構を制御する制御手段が付加されていることが好ましい。
ユーザーは、可動体に搭載されている受音装置が自身が位置している方向に指向性を向けているか否かを知ることができる。ユーザー以外の音源に指向性が向けられていればそれを知ることができる。ユーザーは、マイクの指向性を自身に向けておくための対策を知ることができる。
【0024】
(請求項9に記載の発明)
可動体が備える表示手段は、受音方向固定手段で固定したマイクの受音方向を併せて表示することが好ましい。
これによって、ユーザーは、マイクの受音方向を知ることができる。表示された受音方向が自身を向いていなければ、自身の音声が受音されないことを知ることができる。マイクの受音方向に存在する雑音源を排除する等、音声入力の障害に対処し易くなる。
【発明の効果】
【0025】
本発明の受音装置を用いれば、周囲の人が、受音装置が受音している音源の存在方向を知ることができ、受音装置の受音状況を把握し易い。
【発明を実施するための最良の形態】
【0026】
以下に説明する実施例の主要な特徴を列記しておく。
(第1形態) 音源方向検出手段は、マイクが受音方向を切り替えながら受音した音量値が極大値を示す方向を、音源が存在する方向として認識する。
(第2形態) 音源方向検出手段が認識した音源方向群の中から、受音した音量値が最大値を示す音源方向を決定する手段が付加されている。マイクは、決定した音源方向に受音方向を固定する。表示装置は、固定した受音方向を併せて表示する。
(第3形態)音源方向検出手段が検出した音源方向からマイクが受音した音声の言語内容を認識する手段が付加されており、表示手段は、言語内容認識手段が認識した言語内容を併せて表示する。
(第4形態)音源方向検出手段が検出した音源方向からマイクが受音した音声の言語内容を認識する手段が付加されており、表示手段は、言語内容認識手段が言語内容を認識することができたか否かを示す結果を併せて表示する。
(第5形態) 言語内容認識手段で認識した言語内容に対応する対話音声を生成する手段が付加されており、表示手段は、対話生成手段が生成した対話音声を併せて表示する。
(第6形態) 言語内容認識手段で認識した言語内容に対応する対話音声を生成する手段が付加されており、表示手段は、対話生成手段が対話音声を生成することができたか否かを示す結果を併せて表示する。
【実施例】
【0027】
(第1実施例)
図1〜図8を参照して、音声入力装置を組み込んだ対話型ロボットの第1実施例を説明する。対話型ロボットの前面には、ロボットの周囲に位置している人が視認可能な表示器が設けられている。表示器には、ロボットが受音している音源の存在方向が表示される。表示器には、ロボットに固定されている基準方向と、音源の存在方向が示される。それを見ることによって、ロボットの周囲に位置している人は、ロボットから見た音源の存在方向を知ることができる。第1実施例では、表示器に、ロボットから見た音源の存在方向の他に、音源の種類、受音している音量レベル、音声入力装置で受音している方向(指向性を合わせている方向)が表示される。
図1は、ロボットが対話可能なエリア内に存在する音源とロボットの概要を示す。図2は、ロボットの構成を示すブロック図である。図3は、音源の存在方向を特定する過程を説明する図である。図4は、ロボットの制御手段が実行するプログラムのフローチャート図である。図5〜図8は、表示器に表示される画面の例を示す。
【0028】
図1に示すように、人型で対話型のロボット1の周囲には、人間2〜4、テレビ5、携帯電話6等の音源が存在する。ロボット1の真横を0度、その反対方向の真横を180度とすると、0度と180度を境界とするロボット1の前面が、ロボット1で対応することができる応対可能角度範囲である。ここで、人間2はロボット1に「トイレはどこですか?」と話しかけている。人間3と人間4は大声で話をしている。TV5は大音量を発している。携帯電話6は着信音を発している。
ロボット1の前面には表示器10が設けられている。表示器10の上方には、6個のマイク20a〜20fを備えたマイクアレイ20(請求項に記載の”マイク”の実施例)が設けられている。マイク20a〜20fは、ロボット1の前面において、間隔dで直線上に配置されている。ロボット1の口に相当する部分にはスピーカ30が設けられている。ロボット1には車輪状の移動手段40が設けられており、床面上で鉛直軸の周りに回転したり、床面上を移動したりすることができる。また、ロボット1はコントローラ300が内蔵されている。コントローラ300によって、ロボット1の動作が制御されている。
ロボット1は、対話者に話しかけられた言語内容を認識して応対する。対話者に「トイレはどこですか?」と聞かれたら、ロボット1はトイレの場所まで移動して案内をすることができる。
【0029】
図2に示すように、コントローラ300は、制御手段100、音声入力インターフェース21、表示出力インターフェース11、音声出力インターフェース31、移動手段駆動部41を備えている。
制御手段100は、音声入力インターフェース21を介してマイクアレイ20に接続されており、表示出力インターフェース11を介して表示器10に接続されており、音声出力インターフェース31を介してスピーカ30に接続されており、移動手段駆動部41を介して移動手段40に接続されている。
制御手段100には、音源方向検出部101、音源種類判別部102、指向性制御部103、言語内容認識部104、対話生成処理部105が設けられている。
音声入力インターフェース21には、音源方向検出部101の入力側と、音源種類判別部102の入力側と、言語内容認識部104の入力側が接続されている。音源方向検出部101の出力側は、指向性制御部103の入力側と、表示出力インターフェース11に接続されている。音源種類判別部102の出力側は、指向性制御部103の入力側と、表示出力インターフェース11に接続されている。指向性制御部103の出力側は、表示出力インターフェース11と、言語内容認識部104の入力側に接続されている。言語内容認識部104の出力側は、対話生成処理部105の入力側と、移動手段駆動部41に接続されている。対話生成処理部105の出力側は、音声出力インターフェース31に接続されている。
【0030】
音源方向検出部101は、マイクアレイ20で得た音信号に基づいて、音源がロボット1に対してどの方向に位置しているかを示す音源方向を検出する。音源方向の検出には、図11を参照して説明した従来方法を用いることができる。任意のマイク対から受音時間差Δtを検出することによって、音源方向を検出することができる。
【0031】
音源が1個しか存在しない場合には、任意のマイク対の受音時間差Δtから音源方向を検出することができるが、複数の音源が存在する場合には、受音時間差Δtを特定することが困難となる。
そこで、図11と図12を参照して説明した指向性を利用して、音源の存在方向を検出する。指向性θを時間的に0度〜180度の間で変化させ、その間の受音量を検出し続ける。図3は、こうして得られる受音量の変化を例示している。横軸は指向性θの大きさであり、縦軸はその指向性において受音された音量レベルを示している。図3に例示するグラフの場合、ロボット1から見たときの角度が、5度、45度、90度、135度の方向に、音量の極大値x1〜x4(dB)が観測されたことを例示している。音源方向検出部101が音源であると認識可能な音量レベルの閾値がA(dB)であれば、x1,x3,x4(dB)>A(dB)であり、x2<A(dB)であるので、ロボット1から見て5度、90度、135度の方向に、何らかの音源が存在していることがロボット1によって検出される。図3の場合、45度の角度に存在する携帯電話6の音量が小さく、ロボット1は音源として認識しない。
【0032】
音源種類判別部102は、受音した音信号の周波数成分に基づいて、音源の種類を特定する。音源の種類は、HMM(Hidden Markov Model)等を用いたパターンマッチングによって特定される。音源種類判別部102によって、音源が人間の音声であるのか、テレビの音声であるのか、あるいはCDからの音であるのかが特定される。
【0033】
指向性制御部103は、音源方向検出部101で特定した各音源の存在方向を示す情報と、音源種類判別部102が特定した各音源の種類を示す情報に基づいて、マイクアレイ20の指向性を調整する。ここでは、音源方向検出部101で特定した方向に存在する音源であって種類が人間の音声で音源の中から音量が最も大きい音源を選択し、その音源に指向性を合わせる。音源方向検出部101で、図3に例示した角度−音量レベルの特性が得られた場合には、人間3が存在する5度の方向に指向性を合わせる。
【0034】
言語内容認識部104は、指向性を合わせた音源が発した音声の言語内容を判別する。例えば、人間3が発した音声である「さっきのテレビ番組を見た?」という言語内容を認識する。音声の言語内容を認識する方法は、一般的な技術であるので詳細な説明は省略する。
対話生成処理部105では、言語内容認識部104で認識した言語内容に対応して、スピーカ30から出力する音声(返事)の内容を示す音信号を組み立てる。例えば、「申し訳ございませんが、見ていません。」という内容の音声を出力する音信号を組み立てる。
音声出力インターフェース31は、対話生成処理部105から入力された音信号によってスピーカ30から音声を発声させる。
表示出力インターフェース11は、音源方向検出部101から入力された音源の存在方向と、音源種類判別部102から入力された音源種類と、指向性制御部103から入力された指向性を合わせている受音方向の情報を、表示器10に出力する。表示器10は、これらの情報を表示する。
移動手段駆動部41は、言語内容認識部104で認識した音声の内容に対応して、移動手段40を駆動する。言語内容認識部104で認識した音声が「トイレはどこですか?」であれば、移動手段40によってロボット1はトイレまで移動し、質問者をトイレに案内をする。
【0035】
次に、図4を参照して、コントローラ300がロボット1を制御する手順を説明する。図4のフローチャートは、コントローラ300が実行するプログラムの処理内容を示す。このプログラムは、コントローラ300の制御手段100に設けられているROM等の記憶手段(特に図示していない。)に記憶されており、制御手段100に設けられているCPU等の制御装置(特に図示していない。)に適宜読み出されて実行される。
【0036】
ステップS10では、コントローラ300が、マイクアレイ20の指向性(受音方向)を角度範囲0度〜180度の範囲内で時間的に切替えながら(走査しながら)受音する。この際、表示器10には、図5に示すようなサーチ画面200が表示される。サーチ画面200には、ロボット1の応対可能角度範囲が表示される。応対可能角度範囲には、ロボット1の位置を示す位置表示201が表示されている。また、ロボット1の真横方向を0度の方向、反対側の真横方向を180度の方向とし、45度方向、90度方向、135度の方向を示す補助ライン202〜206が表示されている。また、良好な指向性を持つ方向を走査中であることを示すサーチ表示207が表示される。サーチ表示207は、ロボット1の位置表示201を中心に、矢印が補助ライン202から補助ライン206までの範囲を、時計回りあるいは反時計回りに往来し、この範囲に含まれる音源をサーチ中であることを示す。
【0037】
上記のサーチによって、音源が存在方向が検出される。音源の存在方向は、ロボット1に固定されている角度(例えば、0度あるいは180度の方向はロボット1に固定されており、ロボット1が回転しなければその方向は変わらないが、ロボット1が回転すればそれに伴って回転する)で検出される。ロボット1が回転すれば、音源の存在位置は不動であっても、音源の存在方向は回転する。図4のステップS10を実行することによって、図2に示す音源方向検出部101が実現される。
【0038】
図4のステップS12では、コントローラ300が、マイクアレイ20から入力された音信号に基づいて、音源方向にある音源の種類を特定する。各音源の種類が特定されたら、表示器10には、図6に例示するように、音源の存在方向と、音源の種類と、受音した音量を表示する。図6に示す画面210では、ロボット1から見て5度の方向に、人間3が存在していると検出した結果を示す人のマーク218が表示されている。また、ロボット1から見て90度の方向に、人間2が存在していると検出した結果を示す人のマーク217が表示されている。また、ロボット1から見て135度の方向に、テレビが存在していると検出した結果を示すマーク216が表示されている。各マークは、音量に比例する大きさで表示される。図8に示した画面210では、マーク217で示される人間2が発する音量よりも、マーク218で示される人間3が発する音量の方が大きい。なお、音源の種類に対応するマークは、コントローラ300の記憶手段(特に図示していない。)に記憶されており、音源の種類が判別されたら、種類に対応するマークが記憶手段から読み出され、表示出力インターフェース11を介して表示器10に出力され、各画面に表示される。図4のステップS12を実行することによって、図2に示す音源種類判別部102が実現される。
【0039】
図4のステップS14では、コントローラ300が対話者を選択し、対話者である人間に受音方向(指向性)を合わせる。図7に示す画面220では、良好な指向性を持つ方向を示す指向性アンテナ221が表示されている。指向性アンテナ221が5度の方向を向いており、5度の方向に存在する人間3(併せて図1参照)に指向性を向けている状態を図示している。図8に示す画面230では、指向性アンテナ231が90度の方向に位置している人間2を向いている状態を表している。
コントローラ300は、マイク20a〜20fから出力される音信号を、向けている指向性の方向から計算される時間差だけ遅延させてから重ね合わせることによって、その方向から伝播する音を集中的に受音する。言語内容認識部は、人間に向けて指向性を合わせている状態で受音する音信号に基づいて、音声で示される言語の内容を認識する。指向性を合わせている方向以外から伝播する音についてはほとんど受音しないので、雑音の少ない音声信号から言語の内容を認識することができる。図4のステップS14を実行することによって、図2の指向性制御部103が実現される。
【0040】
次に、コントローラ300は、図4のステップS18の処理に進む。ステップS18では、音声によって示されている言語内容を認識する。この際に、ステップS14で指向性が固定された状態で受音した音声信号を利用するために、言語内容を認識する音源方向以外の方向に存在する音源から伝播する雑音によって、言語内容の認識が妨害される可能性が低く抑えられる。ステップS18を実行することによって、図2の言語内容認識部104が実現される。
【0041】
次に、コントローラ300は、図4のステップS20の処理に進む。ステップS20では、コントローラ300が、ステップS18で認識した言語内容に対応して、スピーカ30から出力する言語内容を決定し、決定した音声を発声するための情報を音声出力インターフェース31に出力する。また、コントローラ300は、ステップS18で認識した言語内容に対応して、移動手段駆動部41を制御する。図4のステップS20を実行することによって、図2の対話生成処理部105が実現される。
【0042】
次に、コントローラ300は、図4のステップS22の処理に進む。ステップS22では、コントローラ300が、ロボット1の電源がオフになっているか否かを判別する。電源がオフになっていれば(ステップS22のYes)、処理を終了する。電源がオフになっていなければ(ステップS22のNo)、ステップS10の処理に戻ってそれ以降の処理を繰り返す。
【0043】
以上では、人間3と人間4(図1参照)が話をしている声が大きく、ロボット1が5度の方向に位置している人間3に指向性を合わせている場合について説明した。この場合、人間3は、ロボット1と対話しているわけではないが、人間4がロボット1の後ろ側に存在するので、ロボット1が自身に話しかけられていると認識し、人間3の存在する方向に指向性を合わせている。そこで、人間3が「さっきのテレビ番組を見た?」と人間4に向かって発話したことに反応して、「申し訳ございませんが、見ていません。」という内容の音声を出力している。
ところが、ロボット1との対話を希望しているのは、実際は、人間2であって、人間2はロボット1に「トイレはどこですか?」と聞いているものとする。しかしながら、ロボット1は、「申し訳ございませんが、見ていません。」と返事をしているので、対話が成立していない。そこで、人間2が、ロボット1の前面の表示器10を見ると、図7に示す画面220が表示されており、人間3が大声を発しているので、ロボット1が人間3の方向に指向性を合わせていることが分かる。ロボット1が自分の発声内容に対応しない返事をしたとしても、その原因がわかることから不快感を感じることが少ない。ロボット1が故障しているわけでないことを認識することができる。ロボット1に自分の発話を認識してもらうために、人間3に小さい声で話をしてもらう等の対策を講じることができる。
【0044】
前記した一連の処理は繰り返し実行される。図4のステップS10、S12を繰り返すと、コントローラ300がロボット1の応対可能角度範囲0度〜180度を再度走査し、音源の存在方向、音源の種類、受音した音量を再び検出する。この結果、表示器10の表示画面が、例えば図8に示すように変化する。画面230から、人間3が発する音量が小さくなっており、指向性アンテナ231が人間2の方向に向いていることから、ロボット1が人間2の存在方向にその指向性を合わせていることが分かる。
音量が最大の方向に指向性を固定する場合、過去の所定期間内の平均的音量が最大の音源方向に指向性を固定することが好ましい。平均的音量によって指向性を固定すると、一人の発声者に指向性を合わせ続けることが可能となる。
【0045】
本実施例のロボット1によれば、人間2が、表示器10の表示内容から、ロボット1が認識している音源の存在方向、ロボット1が認識している音源の種類、ロボット1が受音している音量を把握することができる。人間2は、マイクの受音方向(指向性)が自分以外の方向に向けられたこと、ならびにそれがいずれの音源の影響によるものなのかを明確に知ることができる。また、現時点ではマイクの受音方向が自分の方向に向けられていても、今後、いずれの音源が雑音源となって自己の音声入力を阻む可能性があるのかを予測することができる。例えば、別の人間がロボット1の応対可能角度範囲の中に存在し、今は音声の音量が小さくてマイクの受音方向が向いていないものの、ロボット1は音源の方向として認識しており、その音量が大きくなるとロボット1がマイクの受音方向を切換えるために、人間2の音声入力が拒まれることになりそうであるといったことを知ることができる。したがって、人間2は、ロボット1のマイクの受音方向を確実に自分に向けておくために、どの音源を排除すればよいのかを明確に知ることができる。
【0046】
(第2実施例)
本実施例の表示器では、音源の存在方向、音源の種類、受音した音量に加え、ロボットと音源の距離が表示される。図9、図10を参照して説明する。
図9は、ロボット1aの構成を示すブロック図である。図10は、表示器に表示される画面の例を示す。
【0047】
図9に示すように、ロボット1aには、図2に示すロボット1の構成要素に加え、ステレオカメラ50が設けられている。また、ロボット1aに内蔵されているコントローラ300aには、ロボット1のコントローラ300の構成要素に加え、画像入力インターフェース51が設けられている。また、コントローラ300aの制御手段100aには、ロボット1の制御手段100の構成要素に加え、音源距離計算部106が設けられている。
ステレオカメラ50は、コントローラ300aの画像入力インターフェース51を介して、制御手段100aの音源距離計算部106の入力側に接続されている。音源距離認識部106の出力側は、指向性制御部103の入力側と表示出力インターフェース11に接続されている。その他のコントローラ300aの構成要素及びそれらの接続は、コントローラ300と同様であるので、説明を省略する。
【0048】
ステレオカメラ50は2個のカメラで構成されており、それぞれがロボット1aの右目と左目に配設されている。2個のカメラで撮像される画像は、対象物を微小な角度差をもって撮像したものである。撮像された画像は其々画像信号に変換されて画像入力インターフェース51に出力される。画像入力インターフェース51に接続された音源距離計算部106では、入力された画像信号に基づいて、ロボット1aと音源との距離を算出する。例えば、特定のポイントに着目して一方のカメラと他方のカメラで撮像した場合の”ずれ”を算出する。そして、その”ずれ”の原因となる各カメラから対象物を見た際の角度の違いと、2個のカメラの間隔(固定)とから、ロボット1aと音源との距離を算出する。このようにして距離を算出する方法は公用の技術であるので、詳しい説明は省略する。
【0049】
指向性制御部103aでは、音源方向検出部101で特定された各音源の存在方向と、音源種類判別部102で特定された各音源の種類を示す情報と、受音した音量を示す情報と、音源距離計算部106で認識されたロボットと各音源の距離を示す情報に基づいて、指向性を合わせる方向(受音方向)を特定する。ここでは、音源方向検出部101で認識した音源の存在方向の中から、種類が人間の音声である音源を選択し、なおかつロボット1aからの距離が最も近い音源を選択する。これによって、人間2〜4の中からロボット1aに話しかけている人間2を対話者として特定する。そして、その人間2の方向に指向性を合わせる。なお、距離が同じ場合には、受音した音量の大きい方の音源を選択し、選択した音源の方向に指向性を合わせる。
【0050】
表示出力インターフェース11には、音源の存在方向、音源の種類、受音した音量、ロボットと音源の距離、受音装置の指向性が向いている方向に関する情報が入力されているので、それらの情報を表示器10に表示する。例えば、図10に例示する画面240を表示する。画面240は、各音源に存在する人間が、ロボットと音源間の距離の大小を認識できるように表示している。図12に示す一番外側の半円241は、ロボットからの距離が1.5mであることを表し、半円242は、ロボットからの距離が1.0mであることを表し、半円243は、ロボットからの距離が0.5mであることを表す。
画面240には、ロボット1から5度の方向であって距離が1.5m(d1=1.5)の位置に人間3(図1参照)の存在を示す人のマークが表示されている。また、ロボット1から90度の方向であって距離が1m(d2=1)の位置に人間2の存在を示す人のマークが表示されている。また、ロボット1から135度の方向であって1.5m(d3=1.5)の位置にテレビの存在を示すマークが表示されている。そして、音源の種類が人間であり、かつロボット1aからの距離が最も近い人間2の方向に指向性が合わせられているので、指向性アンテナが人間2に向いて表示されている。
【0051】
本実施例のロボット1aによれば、表示器10に、ロボットと各音源の距離を表示することができるので、表示器を見た人が音源の位置を把握し易い。
【0052】
ロボット1aは、カメラ50で撮像した画像に基づいて、人間の顔の特徴を抽出し、人を区別して対応するように構成してもよい。この場合、カメラ50は、画像入力インターフェース51を介して、音源種類判別部102の入力側にも接続される。また、音源種類判別部102の出力側は対話生成部105の入力側にも接続される。そして、制御手段100aの記憶手段(特に図示していない。)には、顔の特徴に対応する人間の個人情報データベースが記憶されている。そして、音源種類判別部102で、撮像した画像の顔の特徴を抽出し、抽出した特徴に対応して個人情報データベースに記憶されている個人情報を読み出す。対話生成部105では、読み出された個人情報に基づいて適切な対話を生成する。例えば、人間がロボット1aに「おはよう」と話しかけると、ロボットは誰であるかを認識して、「○○さん、おはようございます」と返答をする。
これによれば、ロボット1aは、同じ問いかけがあった場合でも、発声者によって相違する細やかな対応をすることができる。
【0053】
第2実施例では、音声入力インターフェース21から出力される音信号を音源方向検出部101で処理することによって音源の存在方向を認識する場合を説明したが、画像入力インターフェース51から出力される画像信号に基づいて音源の存在方向を認識してもよい。この場合、画像入力インターフェース51と音源方向検出部101の入力側が接続される。音源方向検出部101では、画像によって音源となる物体の存在方向を特定する。
【0054】
第1、第2実施例では、音声入力インターフェース21から出力される音信号を音源種類判別部102で処理することによって音源の種類を判別する場合を説明したが、画像入力インターフェース51から出力される画像信号から音源の種類を判別してもよい。この場合、画像入力インターフェース51と音源種類判別部101の入力側が接続される。そして、音源種類判別部102では、画像から音源となる物体の種類を特定する。
【0055】
第2実施例では、ステレオカメラ50から入力される画像信号を音源距離計算部106で処理することによって音源までの距離を計算する場合を説明したが、マイク20で受音する音信号から計算しもよい。この場合、音源距離計算部106の入力側は音声入力インターフェース21に接続される。また、カメラ50と画像入力インターフェース51は必要ではない。
【0056】
第1、第2実施例では、本発明の音声入力装置を対話型のロボットに適用した場合について説明したが、本発明は他の機器に適用してもよい。例えば、カーナビゲーションシステム(以降、カーナビと省略する。)に適用してもよい。カーナビは、車内の限られた空間の中の音源の音声を認識する。複数の人が乗車している場合には、雑音源の音声に影響され易い。このため、カーナビは言語内容の誤認識を起こして誤作動などを引き起こし易い。本発明を適用すれば、カーナビが認識している音源方向を表示器に表示することができ、対話者がこれを把握することができる。これによって、対話者がカーナビに向けて発話したにもかかわらず適切に音声入力されなかった場合(不適切な応答があった場合等)に、適切に入力されなかった原因となっている雑音源を把握して対処することができる。例えば、表示器に、音源位置が後部座席に表示されており、後部座席に座っている人同士が大声で話し合っていた場合、雑音源となっている後部座席の人に、話し声を小さくしてもらうように対処することができる。
【0057】
第1、第2実施例の表示器に、言語内容認識部104で、人間2が発した音声の認識結果(例えば、「トイレはどこですか?」)をテキスト表示するように構成してもよい。これによれば、対話者は実際に認識された音声を目視によって確認することができるので、対話者の安心度が向上する。
また、言語内容認識部104で、人間2が発した音声の内容が認識できたか否かを示す結果(認識OK、認識NG等)をテキスト表示するように構成してもよい。これによれば、対話者は実際に音声が認識されたか否かを目視によって確認することができるので、対話者の安心度が向上する。
また、対話生成処理部105で、認識した音声の内容に対応してスピーカ30から出力する音声(返事)の内容を決定できたか否かを示す結果(対話生成OK、対話生成NG等)をテキスト表示するように構成してもよい。これによれば、対話者は返事が生成されたか否かを目視によって確認することができるので、対話者の安心度が向上する。
第1実施例と第2実施例の表示器に、対話生成処理部105で決定したスピーカ30から出力する音声(例えば、「トイレをご案内します。」)をテキスト表示するように構成してもよい。これによれば、対話者は返事を目視によって確認することができるので、対話者の安心度が向上する。
【0058】
また、第1、第2実施例では、マイクの受音方向は、静止している複数個のマイクの出力を処理することによって切り替える場合について説明したが、マイクを物理的に回転させることによってマイクの受音方向を切り替えるマイクを用いてもよい。
なお、音源方向検出部101、音源種類判別部102、指向性制御部103、言語内容認識部104、対話生成処理部105、及び音源距離計算部106は、ハードウエアで構成されていてもよいし、ソフトウエアで構成されていてもよい。ソフトウエアで構成される場合には、各部101〜106は、プログラムの各機能(音源方向検出機能、音源種類判別機能、指向性制御機能、言語内容認識処理機能、対話生成処理機能、音源距離計算機能)を実行する各ステップに相当する。
【0059】
以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、特許請求の範囲を限定するものではない。特許請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。
また、本明細書または図面に説明した技術要素は、単独であるいは各種の組み合わせによって技術的有用性を発揮するものであり、出願時請求項記載の組み合わせに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。
【図面の簡単な説明】
【0060】
【図1】ロボット1の対話可能エリア内に存在する音源とロボットの概略を示す。
【図2】ロボット1の構成を示すブロック図である。
【図3】ロボット1が音源の方向を認識する過程を説明する図である。
【図4】ロボット1の制御手段が実行するプログラムのフローチャート図である。
【図5】表示器10に表示される画面の例を示す。
【図6】表示器10に表示される画面の例を示す。
【図7】表示器10に表示される画面の例を示す。
【図8】表示器10に表示される画面の例を示す。
【図9】ロボット1aの構成を示すブロック図である。
【図10】表示器10に表示される画面の例を示す。
【図11】マイクで受音した音の音源が、受音装置に対して、どの方向に存在するかを検出する過程を説明する図である。
【図12】各マイク20a〜20fが受音した音の音信号を示す。
【符号の説明】
【0061】
1,1a ロボット
2,3,4 人間
5 テレビ
6 携帯電話
10 表示器
20 マイク
30 スピーカ
40 移動手段
50 カメラ
100,100a 制御手段
300,300a コントローラ

【特許請求の範囲】
【請求項1】
受音装置であり、
マイクと、
マイクで受音した音の伝播方向を受音装置を基準にして検出する音源方向検出手段と、
音源方向検出手段で検出した方向を、受音装置の周囲から視認可能に表示する表示手段を備えていることを特徴とする受音装置。
【請求項2】
表示手段が、マイクの受音量を音源別に表示することを特徴とする請求項1の受音装置。
【請求項3】
マイクで受音した音の周波数成分に基づいて、受音した音の音源の種類を判別する音源種類判別手段が付加されており、
表示手段が、音源種類判別手段で判別した音源の種類を併せて表示することを特徴とする請求項1又は2の受音装置。
【請求項4】
マイクが音を受音する範囲を撮像する複数のカメラと、
その複数のカメラで撮像した画像群に基づいて、受音装置と音源の距離を計算する音源距離計算手段が付加されており、
表示手段が、音源距離計算手段で計算した距離を併せて表示することを特徴とする請求項1〜3のいずれかの受音装置。
【請求項5】
請求項1〜4のいずれかの受音装置を備え、
音源方向検出手段が複数の方向を検出する場合に、受音量が最大となる方向にマイクの受音方向を固定する手段と、
受音方向が固定されたマイクで受音した音を音声認識する音声認識手段を有することを特徴とする音声認識装置。
【請求項6】
表示手段が、受音方向固定手段で固定したマイクの受音方向を併せて表示することを特徴とする請求項5の音声認識装置。
【請求項7】
少なくとも鉛直軸の周りに回転できる可動体であり、
請求項1〜4のいずれかの受音装置を搭載しており、
表示手段が、可動体に固定されている基準方向と音源が存在する方向がなす角度を表示することを特徴とする可動体。
【請求項8】
床面に対して鉛直軸の周りに可動体を回転させる回転機構と、
音源方向検出手段が複数の方向を検出する場合に、受音量が最大となる方向にマイクの受音方向を固定する手段と、
受音方向が固定されたマイクで受音した音を音声認識する音声認識手段と、
音声認識手段で認識した情報に基づいて、回転機構を制御する制御手段が付加されていることを特徴とする請求項7の可動体。
【請求項9】
表示手段が、受音方向固定手段で固定したマイクの受音方向を併せて表示することを特徴とする請求項8の可動体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2007−329702(P2007−329702A)
【公開日】平成19年12月20日(2007.12.20)
【国際特許分類】
【出願番号】特願2006−159365(P2006−159365)
【出願日】平成18年6月8日(2006.6.8)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【Fターム(参考)】