受音装置と音声認識装置とそれらを搭載している可動体

【課題】受音装置で受音した音源の存在方向を周囲に知らせる表示器を備えた受音装置を提供する。
【解決手段】高い指向性を持つ方向(受音方向)を調整可能なマイク２０と、マイク２０で受音した音源が存在する方向を検出する音源方向検出部１０１と、検出した音源の存在方向とマイク２０の受音方向を、ロボット１の周囲から視認可能に表示する表示器１０を備えている。周囲にいる人間が、受音装置で受音している音源がいずれであるのかを理解することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音源が発した音を受音する受音装置に関する。
【背景技術】
【０００２】
マイクで受音した音の伝播方向を検出できる受音装置が知られている。そのための一つの方法に、複数のマイクを等間隔で直線上に配置する方法が知られている。例えば図１１に示すように、複数のマイク２０ａ〜２０ｆを間隔ｄで直線L上に配置する。
音源Ｍがマイク群から十分に離れた位置に存在していれば（図示の都合によって、音源Mがマイク群に接近した位置に図示されているが、実際には充分に離れている。逆に、図１１では間隔ｄが実際よりも拡大して図示されているといってもよい）、音源Ｍが発した音は、マイク群の近傍ではほぼ平面波として伝播する。例えばマイク２０ｃに到達する音は経路６１０に沿って伝播してきており、マイク２０ｄに到達する音は経路６１２に沿って伝播してきている。平面波として伝播してくる音は、波面６１６や波面６１８において、同一の位相を備えている。従って、音源Mがマイク２０ｃ，２０ｄから見て角度θの方向にある場合、ある時点で経路６１０に沿って伝播してマイク２０ｃに到達した音は、その時点では経路６１２に沿って点６２０まで到達しており、その後さらにｄ・ｃｏｓθの長さだけ伝播してから、マイク２０ｄに到達する。従って、隣接するマイク２０ｃと２０ｄの間では、受音時間差Δｔがｄ・ｃｏｓθ／λで計算される値となる。ここで、λは音の伝播速度である。したがって、受音時間差Δｔを検出することによって、音源Ｍが存在する方向を示す角度θを算出することができる。角度θは、直線Lを基準とする角度であり、直線Lは受音装置に固定されている。図１１のマイク対２０ｃ，２０ｄを利用すると、受音した音の伝播方向を受音装置を基準にして検出することができる。上記説明は、マイク２０ｃと２０ｄのマイク対に限られず、任意のマイク対について成立する。
【０００３】
受音装置の中には、良好な指向性（強い受音感受性）を持つ方向を切換えることができるものが存在する。その一つの方法に、各マイクが受音した音信号を、良好な指向性を実現したい方向から決定される時間だけ遅延させてから重ね合わせる方法が知られている。
【０００４】
図１２に示すように、マイク２０ｂが受音する音信号は、マイク２０ａが受音する音信号からｄ・ｃｏｓθ／λ時間だけ遅延している。マイク２０ｃが受音する音信号は、マイク２０ａが受音する音信号から２・ｄ・ｃｏｓθ／λ時間だけ遅延している。マイク２０ｄが受音する音信号は、マイク２０ａが受音する音信号から３・ｄ・ｃｏｓθ／λ時間だけ遅延している。マイク２０ｅが受音する音信号は、マイク２０ａが受音する音信号から４・ｄ・ｃｏｓθ／λ時間だけ遅延している。マイク２０ｆが受音する音信号は、マイク２０ａが受音する音信号から５・ｄ・ｃｏｓθ／λ時間だけ遅延している。
【０００５】
そこで、マイク２０ａで受音した音信号については［５・ｄ・ｃｏｓθ／λ］時間だけ遅延させ、マイク２０ｂで受音した音信号については［４・ｄ・ｃｏｓθ／λ］時間だけ遅延させ、マイク２０ｃで受音した音信号については［３・ｄ・ｃｏｓθ／λ］時間だけ遅延させ、マイク２０ｄで受音した音信号については［２・ｄ・ｃｏｓθ／λ］時間だけ遅延させ、マイク２０ｅで受音した音信号については［ｄ・ｃｏｓθ／λ］時間だけ遅延させ、マイク２０ｆで受音した音信号については遅延させなければ、それらの音信号の位相が一致する。
すなわち、図１２に示す音源Ｍが発した音の音信号ａ１，ｂ１，ｃ１，ｄ１，ｅ１，ｆ１の受音量が最大となる部分（音信号の最大振幅値［Ａ］の部分）は、上記の遅延処理を実行すると、一致する。
上記の処理によって遅延した音信号を重ね合わせると、角度θの方向から伝播する音については、重ね合わせる音信号の位相が一致していることから、大きな強度の音信号が得られる。
【０００６】
例えば図１１に示すように、マイク２０ａ〜２０ｆの正面方向（角度θ＝９０度）にも音源Ｎが存在するものとする。この場合、図１２に示すように、音源Ｎが発した音は、マイク２０ａ〜２０ｆに同時に到達する。
この場合、マイク２０ａで受音した音信号については［５・ｄ・ｃｏｓθ／λ］時間だけ遅延させ、マイク２０ｂで受音した音信号については［４・ｄ・ｃｏｓθ／λ］時間だけ遅延させ、マイク２０ｃで受音した音信号については［３・ｄ・ｃｏｓθ／λ］時間だけ遅延させ、マイク２０ｄで受音した音信号については［２・ｄ・ｃｏｓθ／λ］時間だけ遅延させ、マイク２０ｅで受音した音信号については［ｄ・ｃｏｓθ／λ］時間だけ遅延させ、マイク２０ｆで受音した音信号については遅延させなければ、それらの音信号の位相がずれてしまう。
すなわち、図１２に示す音源Ｎが発した音の音信号ａ２，ｂ２，ｃ２，ｄ２，ｅ２，ｆ２の受音量が最大の部分（音信号の最大振幅値［Ｂ］の部分）は、上記の遅延処理を実行すると、ずれてしまう。
上記の処理によって遅延した音信号を重ね合わせると、重ね合わせる音信号の位相が一致していないことから、大きな強度の音信号は得られない。
すなわち、上記の遅延処理を実施してから重ね合わせると、角度θ方向から伝播する音からは大きな強度の音信号が得られ、それ以外の方向から伝播する音からは大きな強度の音信号が得られない。角度θの方向に強い指向性を有する受音装置が実現される。
【０００７】
遅延時間を決定するために用いる角度θの値を変えれば、強い指向性を有する方向を切換えることができる。角度θを９０度として遅延時間を決定すれば、９０度の角度に強い指向性を持つ受音装置が得られる。この場合、９０度の方向に存在する音源Ｎが発生する音については感度よく受音する一方、それ以外の角度に存在する音源Ｍが発生する音についてはほとんど受音しないこととなる。同様に、遅延時間を決定するために用いる角度θの値を音源Ｍが存在する角度に変えれば、音源Ｍが発生する音については感度よく受音する一方、それ以外の角度に存在する音源Ｎが発生する音についてはほとんど受音しないこととなる。
【０００８】
音源Ｍ，Ｎが人であり、同時に音声を発している場合、それらを同時に受音して同時に音声認識することは難しい。この場合、強い指向性を有する方向を切換えることが有意義である。人Ｎが存在する方向に指向性を合わせれば、人Ｍが発生する音声はほとんど受音されず、人Ｎが発した音声を認識することが可能となる。人Ｍが存在する方向に指向性を合わせれば、人Ｎが発生する音声はほとんど受音されず、人Ｍが発した音声を認識することが可能となる。
【０００９】
マイクで受音した音の伝播方向を検出する技術と、良好な指向性を持つ方向を切換える技術を組み合わせて用いると、音源が存在する方向を見つけ出し、その方向に指向性を向けることが可能なる。
例えば、音の伝播方向を検出する技術によって９０度の方向に音源が存在することを知って指向性を９０度に合わせれば、人Ｎが発生する音声を集中的に受音して音声認識することが可能となる。θ方向に音源が存在することを知って指向性をθに合わせれば、人Ｍが発生する音声を集中的に受音して音声認識することが可能となる。
【００１０】
しかしながら、この技術では、受音装置の指向性の方向が外部からはわからない。例えば車両に搭載されているナビゲーション装置に、音の伝播方向を検出する技術と、良好な指向性を持つ方向を切換える技術を組み込めば、ドライバーが発声したときにはドライバーの音声を集中的に受音して音声認識することができ、助手席が発声したときには助手席での発声を集中的に受音して音声認識することができる。しかしながら、ドライバー席と助手席で同時に発声した場合には、どちらの音声を集中的に受音して音声認識しているのかがわからない。
受音装置が向けている受音方向（強い指向性を有する方向）を周囲に存在する人にわからせる技術が必要とされている。
【００１１】
受音装置がロボット等の回転可能な物体に搭載されている場合、受音装置が向けている受音方向を、ロボットの顔の向きによって周囲に存在する人にわからせることができる。
特許文献１には、受音装置の指向性の高い方向とロボットの顔の向きを一致させることによって、受音装置の指向性の高い方向を周囲に存在する人にわからせる技術が記載されている。
【００１２】
【特許文献１】特開２００２−３６６１９１号公報
【発明の開示】
【発明が解決しようとする課題】
【００１３】
受音装置がロボット等の可動体に搭載されている場合には、顔の向き等によって指向性の高い方向を周囲に存在する人にわからせることができるが、ナビゲーション装置等のように動かない受音装置の場合には、指向性の高い方向を周囲に存在する人にわからせることができない。
【００１４】
顔の向き等によって指向性の高い方向を示す技術でも、問題はある。例えば、ロボットに音声で指示しながら配電盤に配置されているスイッチ群の操作をさせたい場合がある。この場合、ロボットは配電盤に顔を向けて作業を続ける必要があり、指向性が高い方向に顔を向けることができない。顔の方位とは別に、ロボットに搭載されている受音装置の指向性が指示者に向けられているのか、あるいはそれ以外に向けられているのかを表示する技術が必要とされている。
【００１５】
（請求項１に記載の発明）
本願発明の受音装置は、マイクと、マイクで受音した音の伝播方向を受音装置を基準にして検出する音源方向検出手段と、音源方向検出手段で検出した方向を受音装置の周囲から視認可能に表示する表示手段を備えている。
音源方向検出手段は、例えば閾値以上の音量の音がマイクで受音されるときに、音の伝播方向を判別する。音源方向検出手段は、受音装置に固定されている基準方向を基準にして音の伝播方向を検出する。音源方向検出手段は、受音装置を基準にして音源が存在する方向を判別する。音源方向検出手段は、ソフトウエアで構成されていてもハードウエアで構成されていてもよい。音源が２以上存在する場合には、各々の音源の存在方向を検出する。
表示手段には、受音装置に固定されている基準方向に対する音源の存在方向が表示される。音源が２以上存在する場合には、各々の音源の存在方向を表示する。
【００１６】
本発明の受音装置を用いれば、周囲の人が、受音装置が受音している音源の存在方向を知ることができる。ナビゲーション装置に対してドライバー席と助手席で同時に発声している場合には、両者の音声を受音しているのか、一方の音声しか受音していないのかを知ることができる。後者の場合には、どちらの音声を受音しているのかを知ることができる。
特定方位に顔を向けて作業を続けるロボットに音声で指示する場合には、ロボットが指示者に指向性を合わせているのか、それ以外の音源に指向性を合わせているのかを知ることができる。周囲に存在する雑音源に指向性を合わせているために指示者の音声が認識されていなければそのことを知ることができ、雑音を小さくするなどの対策が有効であるといったことを知ることができる。あるいは、指向性を合わせていないロボットに音声指示を続けるといったことを防止できる。
また複数の人がロボットを取り囲んで同時に発声している場合には、ロボットが誰の音声を認識しているのかが明らかとされ、混乱が避けられる。
【００１７】
（請求項２に記載の発明）
表示手段が、マイクの受音量を音源別に表示するようにしてもよい。
この場合、周囲の人が、受音装置が検出している音源の存在方向と、方向別の受音量を知ることができる。
【００１８】
（請求項３に記載の発明）
マイクで受音した音の周波数成分に基づいて、受音した音の音源の種類を判別する音源種類判別手段が付加されており、音源種類判別手段で判別した音源の種類を表示手段で表示することが好ましい。
音源種類判別手段は、人の音声とそれ以外の音とを判別することができればよく、ソフトウエアで構成されていてもハードウエアで構成されていてもよい。
本発明の受音装置を用いれば、周囲の人が、受音装置が認識している音源の存在方向と音源種類を知ることができる。例えば、テレビやラジオが音を発している環境でロボットに音声で指示する場合、ロボットがテレビやラジオの音を受音しているのか、肉声のみを受音しているのかを知ることができる。
【００１９】
（請求項４に記載の発明）
受音装置に、複数のカメラと音源距離計算手段が付加されていてもよい。複数のカメラは、マイクが音を受音する範囲を撮像する。音源距離計算手段は、複数のカメラで撮像した画像群に基づいて、受音装置と音源の距離を計算する。音源距離計算手段は、ソフトウエアで構成されていてもハードウエアで構成されていてもよい。この場合、表示手段に、音源距離計算手段で計算した距離を併せて表示するとよい。
表示手段に受音装置と音源がマークで表示される場合、受音装置と音源の距離が、マーク間の長さによって表示されてもよい。また、受音装置と音源の距離が、「○○ｃｍ」のようにテキスト表示されてもよい。
本発明の受音装置を用いれば、周囲の人が、受音装置が認識している音源の存在方向と音源までの距離を知ることができ、受音装置の受音状況を一層把握し易い。
【００２０】
（請求項５に記載の発明）
本願発明は、請求項１〜４のいずれかの受音装置を利用して音声認識装置を実現することもできる。この場合の音声認識装置は、請求項１〜４のいずれかの受音装置と、音源方向固定手段と、音声認識手段を備えている。音源方向固定手段は、音源方向検出手段が複数の方向を検出する場合に、受音量が最大となる方向にマイクの受音方向を固定する。
マイクの「受音方向」とは、強い指向性を持つ方向をいう。「受音方向を固定する」態様には複数の態様が存在する。指向性マイクを物理的に回転させて指向性の方向を変える場合には、マイクを物理的に固定して受音方向を固定することができる。静止している複数のマイクの出力を処理して指向性を実現する場合には、処理内容を固定することによって受音方向を固定することができる。
従来の技術では、音声を発している人が音声認識装置で認識している音源の存在方向を知ることができず、音声指示に従った結果が得られない場合に、その原因を知ることが困難であった。本装置によると、受音装置の受音方向が表示され、音声指示に従った結果が得られない場合にその理由が把握しやすくなる。
【００２１】
（請求項６に記載の発明）
表示手段が、受音方向固定手段で固定したマイクの受音方向を併せて表示するのが好ましい。
表示手段には、少なくともマイクの受音方向が固定された場合にその方向が表示されればよく、受音方向が固定されない間も受音方向が表示され続けてもよい。例えば、マイクが受音方向を時間とともに切替ながら受音している間、時間ともに変化する表示が示されてもよい。
これによって、ユーザーは、強い指向性を持つ受音方向を知ることができる。表示された受音方向が自身を向いていなければ、自身の音声が受音されないことを認識できる。マイクの受音方向に存在する雑音源を排除する等、必要な対策が講じやすい。
【００２２】
（請求項７に記載の発明）
本願発明は、可動体に搭載する場合に特に有効である。ここいう可動体は、少なくとも鉛直軸の周りに回転できるものであり、請求項１〜４のいずれかの受音装置を搭載している。可動体には表示手段が設けられており、可動体に固定されている基準方向と音源が存在する方向がなす角度を表示する。
本発明の可動体を用いれば、周囲の人が、可動体に搭載されている受音装置が認識している音源の存在方向を知ることができ、受音装置の受音状況を把握し易い。
また、可動体が鉛直軸の周りに回転しても、表示手段には、基準方向と音源が存在する方向がなす角度、すなわち可動体に対する音源の相対的な方向を表示することができる。
【００２３】
（請求項８に記載の発明）
可動体を床面に対して鉛直軸の周りに回転させる回転機構と、音源方向検出手段が複数の方向を検出する場合に受音量が最大となる方向にマイクの受音方向を固定する手段と、受音方向が固定されたマイクで受音した音を音声認識する音声認識手段と、音声認識手段で認識した情報に基づいて、回転機構を制御する制御手段が付加されていることが好ましい。
ユーザーは、可動体に搭載されている受音装置が自身が位置している方向に指向性を向けているか否かを知ることができる。ユーザー以外の音源に指向性が向けられていればそれを知ることができる。ユーザーは、マイクの指向性を自身に向けておくための対策を知ることができる。
【００２４】
（請求項９に記載の発明）
可動体が備える表示手段は、受音方向固定手段で固定したマイクの受音方向を併せて表示することが好ましい。
これによって、ユーザーは、マイクの受音方向を知ることができる。表示された受音方向が自身を向いていなければ、自身の音声が受音されないことを知ることができる。マイクの受音方向に存在する雑音源を排除する等、音声入力の障害に対処し易くなる。
【発明の効果】
【００２５】
本発明の受音装置を用いれば、周囲の人が、受音装置が受音している音源の存在方向を知ることができ、受音装置の受音状況を把握し易い。
【発明を実施するための最良の形態】
【００２６】
以下に説明する実施例の主要な特徴を列記しておく。
（第１形態）音源方向検出手段は、マイクが受音方向を切り替えながら受音した音量値が極大値を示す方向を、音源が存在する方向として認識する。
（第２形態）音源方向検出手段が認識した音源方向群の中から、受音した音量値が最大値を示す音源方向を決定する手段が付加されている。マイクは、決定した音源方向に受音方向を固定する。表示装置は、固定した受音方向を併せて表示する。
（第３形態）音源方向検出手段が検出した音源方向からマイクが受音した音声の言語内容を認識する手段が付加されており、表示手段は、言語内容認識手段が認識した言語内容を併せて表示する。
（第４形態）音源方向検出手段が検出した音源方向からマイクが受音した音声の言語内容を認識する手段が付加されており、表示手段は、言語内容認識手段が言語内容を認識することができたか否かを示す結果を併せて表示する。
（第５形態）言語内容認識手段で認識した言語内容に対応する対話音声を生成する手段が付加されており、表示手段は、対話生成手段が生成した対話音声を併せて表示する。
（第６形態）言語内容認識手段で認識した言語内容に対応する対話音声を生成する手段が付加されており、表示手段は、対話生成手段が対話音声を生成することができたか否かを示す結果を併せて表示する。
【実施例】
【００２７】
（第１実施例）
図１〜図８を参照して、音声入力装置を組み込んだ対話型ロボットの第１実施例を説明する。対話型ロボットの前面には、ロボットの周囲に位置している人が視認可能な表示器が設けられている。表示器には、ロボットが受音している音源の存在方向が表示される。表示器には、ロボットに固定されている基準方向と、音源の存在方向が示される。それを見ることによって、ロボットの周囲に位置している人は、ロボットから見た音源の存在方向を知ることができる。第１実施例では、表示器に、ロボットから見た音源の存在方向の他に、音源の種類、受音している音量レベル、音声入力装置で受音している方向（指向性を合わせている方向）が表示される。
図１は、ロボットが対話可能なエリア内に存在する音源とロボットの概要を示す。図２は、ロボットの構成を示すブロック図である。図３は、音源の存在方向を特定する過程を説明する図である。図４は、ロボットの制御手段が実行するプログラムのフローチャート図である。図５〜図８は、表示器に表示される画面の例を示す。
【００２８】
図１に示すように、人型で対話型のロボット１の周囲には、人間２〜４、テレビ５、携帯電話６等の音源が存在する。ロボット１の真横を０度、その反対方向の真横を１８０度とすると、０度と１８０度を境界とするロボット１の前面が、ロボット１で対応することができる応対可能角度範囲である。ここで、人間２はロボット１に「トイレはどこですか？」と話しかけている。人間３と人間４は大声で話をしている。ＴＶ５は大音量を発している。携帯電話６は着信音を発している。
ロボット１の前面には表示器１０が設けられている。表示器１０の上方には、６個のマイク２０ａ〜２０ｆを備えたマイクアレイ２０（請求項に記載の”マイク”の実施例）が設けられている。マイク２０ａ〜２０ｆは、ロボット１の前面において、間隔ｄで直線上に配置されている。ロボット１の口に相当する部分にはスピーカ３０が設けられている。ロボット１には車輪状の移動手段４０が設けられており、床面上で鉛直軸の周りに回転したり、床面上を移動したりすることができる。また、ロボット１はコントローラ３００が内蔵されている。コントローラ３００によって、ロボット１の動作が制御されている。
ロボット１は、対話者に話しかけられた言語内容を認識して応対する。対話者に「トイレはどこですか？」と聞かれたら、ロボット１はトイレの場所まで移動して案内をすることができる。
【００２９】
図２に示すように、コントローラ３００は、制御手段１００、音声入力インターフェース２１、表示出力インターフェース１１、音声出力インターフェース３１、移動手段駆動部４１を備えている。
制御手段１００は、音声入力インターフェース２１を介してマイクアレイ２０に接続されており、表示出力インターフェース１１を介して表示器１０に接続されており、音声出力インターフェース３１を介してスピーカ３０に接続されており、移動手段駆動部４１を介して移動手段４０に接続されている。
制御手段１００には、音源方向検出部１０１、音源種類判別部１０２、指向性制御部１０３、言語内容認識部１０４、対話生成処理部１０５が設けられている。
音声入力インターフェース２１には、音源方向検出部１０１の入力側と、音源種類判別部１０２の入力側と、言語内容認識部１０４の入力側が接続されている。音源方向検出部１０１の出力側は、指向性制御部１０３の入力側と、表示出力インターフェース１１に接続されている。音源種類判別部１０２の出力側は、指向性制御部１０３の入力側と、表示出力インターフェース１１に接続されている。指向性制御部１０３の出力側は、表示出力インターフェース１１と、言語内容認識部１０４の入力側に接続されている。言語内容認識部１０４の出力側は、対話生成処理部１０５の入力側と、移動手段駆動部４１に接続されている。対話生成処理部１０５の出力側は、音声出力インターフェース３１に接続されている。
【００３０】
音源方向検出部１０１は、マイクアレイ２０で得た音信号に基づいて、音源がロボット１に対してどの方向に位置しているかを示す音源方向を検出する。音源方向の検出には、図１１を参照して説明した従来方法を用いることができる。任意のマイク対から受音時間差Δｔを検出することによって、音源方向を検出することができる。
【００３１】
音源が１個しか存在しない場合には、任意のマイク対の受音時間差Δｔから音源方向を検出することができるが、複数の音源が存在する場合には、受音時間差Δｔを特定することが困難となる。
そこで、図１１と図１２を参照して説明した指向性を利用して、音源の存在方向を検出する。指向性θを時間的に０度〜１８０度の間で変化させ、その間の受音量を検出し続ける。図３は、こうして得られる受音量の変化を例示している。横軸は指向性θの大きさであり、縦軸はその指向性において受音された音量レベルを示している。図３に例示するグラフの場合、ロボット１から見たときの角度が、５度、４５度、９０度、１３５度の方向に、音量の極大値ｘ１〜ｘ４（ｄＢ）が観測されたことを例示している。音源方向検出部１０１が音源であると認識可能な音量レベルの閾値がＡ（ｄＢ）であれば、ｘ１，ｘ３，ｘ４（ｄＢ）＞Ａ（ｄＢ）であり、ｘ２＜Ａ（ｄＢ）であるので、ロボット１から見て５度、９０度、１３５度の方向に、何らかの音源が存在していることがロボット１によって検出される。図３の場合、４５度の角度に存在する携帯電話６の音量が小さく、ロボット１は音源として認識しない。
【００３２】
音源種類判別部１０２は、受音した音信号の周波数成分に基づいて、音源の種類を特定する。音源の種類は、ＨＭＭ（Hidden Markov Model）等を用いたパターンマッチングによって特定される。音源種類判別部１０２によって、音源が人間の音声であるのか、テレビの音声であるのか、あるいはＣＤからの音であるのかが特定される。
【００３３】
指向性制御部１０３は、音源方向検出部１０１で特定した各音源の存在方向を示す情報と、音源種類判別部１０２が特定した各音源の種類を示す情報に基づいて、マイクアレイ２０の指向性を調整する。ここでは、音源方向検出部１０１で特定した方向に存在する音源であって種類が人間の音声で音源の中から音量が最も大きい音源を選択し、その音源に指向性を合わせる。音源方向検出部１０１で、図３に例示した角度−音量レベルの特性が得られた場合には、人間３が存在する５度の方向に指向性を合わせる。
【００３４】
言語内容認識部１０４は、指向性を合わせた音源が発した音声の言語内容を判別する。例えば、人間３が発した音声である「さっきのテレビ番組を見た？」という言語内容を認識する。音声の言語内容を認識する方法は、一般的な技術であるので詳細な説明は省略する。
対話生成処理部１０５では、言語内容認識部１０４で認識した言語内容に対応して、スピーカ３０から出力する音声（返事）の内容を示す音信号を組み立てる。例えば、「申し訳ございませんが、見ていません。」という内容の音声を出力する音信号を組み立てる。
音声出力インターフェース３１は、対話生成処理部１０５から入力された音信号によってスピーカ３０から音声を発声させる。
表示出力インターフェース１１は、音源方向検出部１０１から入力された音源の存在方向と、音源種類判別部１０２から入力された音源種類と、指向性制御部１０３から入力された指向性を合わせている受音方向の情報を、表示器１０に出力する。表示器１０は、これらの情報を表示する。
移動手段駆動部４１は、言語内容認識部１０４で認識した音声の内容に対応して、移動手段４０を駆動する。言語内容認識部１０４で認識した音声が「トイレはどこですか？」であれば、移動手段４０によってロボット１はトイレまで移動し、質問者をトイレに案内をする。
【００３５】
次に、図４を参照して、コントローラ３００がロボット１を制御する手順を説明する。図４のフローチャートは、コントローラ３００が実行するプログラムの処理内容を示す。このプログラムは、コントローラ３００の制御手段１００に設けられているＲＯＭ等の記憶手段（特に図示していない。）に記憶されており、制御手段１００に設けられているＣＰＵ等の制御装置（特に図示していない。）に適宜読み出されて実行される。
【００３６】
ステップＳ１０では、コントローラ３００が、マイクアレイ２０の指向性（受音方向）を角度範囲０度〜１８０度の範囲内で時間的に切替えながら（走査しながら）受音する。この際、表示器１０には、図５に示すようなサーチ画面２００が表示される。サーチ画面２００には、ロボット１の応対可能角度範囲が表示される。応対可能角度範囲には、ロボット１の位置を示す位置表示２０１が表示されている。また、ロボット１の真横方向を０度の方向、反対側の真横方向を１８０度の方向とし、４５度方向、９０度方向、１３５度の方向を示す補助ライン２０２〜２０６が表示されている。また、良好な指向性を持つ方向を走査中であることを示すサーチ表示２０７が表示される。サーチ表示２０７は、ロボット１の位置表示２０１を中心に、矢印が補助ライン２０２から補助ライン２０６までの範囲を、時計回りあるいは反時計回りに往来し、この範囲に含まれる音源をサーチ中であることを示す。
【００３７】
上記のサーチによって、音源が存在方向が検出される。音源の存在方向は、ロボット１に固定されている角度（例えば、０度あるいは１８０度の方向はロボット１に固定されており、ロボット１が回転しなければその方向は変わらないが、ロボット１が回転すればそれに伴って回転する）で検出される。ロボット１が回転すれば、音源の存在位置は不動であっても、音源の存在方向は回転する。図４のステップＳ１０を実行することによって、図２に示す音源方向検出部１０１が実現される。
【００３８】
図４のステップＳ１２では、コントローラ３００が、マイクアレイ２０から入力された音信号に基づいて、音源方向にある音源の種類を特定する。各音源の種類が特定されたら、表示器１０には、図６に例示するように、音源の存在方向と、音源の種類と、受音した音量を表示する。図６に示す画面２１０では、ロボット１から見て５度の方向に、人間３が存在していると検出した結果を示す人のマーク２１８が表示されている。また、ロボット１から見て９０度の方向に、人間２が存在していると検出した結果を示す人のマーク２１７が表示されている。また、ロボット１から見て１３５度の方向に、テレビが存在していると検出した結果を示すマーク２１６が表示されている。各マークは、音量に比例する大きさで表示される。図８に示した画面２１０では、マーク２１７で示される人間２が発する音量よりも、マーク２１８で示される人間３が発する音量の方が大きい。なお、音源の種類に対応するマークは、コントローラ３００の記憶手段（特に図示していない。）に記憶されており、音源の種類が判別されたら、種類に対応するマークが記憶手段から読み出され、表示出力インターフェース１１を介して表示器１０に出力され、各画面に表示される。図４のステップＳ１２を実行することによって、図２に示す音源種類判別部１０２が実現される。
【００３９】
図４のステップＳ１４では、コントローラ３００が対話者を選択し、対話者である人間に受音方向（指向性）を合わせる。図７に示す画面２２０では、良好な指向性を持つ方向を示す指向性アンテナ２２１が表示されている。指向性アンテナ２２１が５度の方向を向いており、５度の方向に存在する人間３（併せて図１参照）に指向性を向けている状態を図示している。図８に示す画面２３０では、指向性アンテナ２３１が９０度の方向に位置している人間２を向いている状態を表している。
コントローラ３００は、マイク２０ａ〜２０ｆから出力される音信号を、向けている指向性の方向から計算される時間差だけ遅延させてから重ね合わせることによって、その方向から伝播する音を集中的に受音する。言語内容認識部は、人間に向けて指向性を合わせている状態で受音する音信号に基づいて、音声で示される言語の内容を認識する。指向性を合わせている方向以外から伝播する音についてはほとんど受音しないので、雑音の少ない音声信号から言語の内容を認識することができる。図４のステップＳ１４を実行することによって、図２の指向性制御部１０３が実現される。
【００４０】
次に、コントローラ３００は、図４のステップＳ１８の処理に進む。ステップＳ１８では、音声によって示されている言語内容を認識する。この際に、ステップＳ１４で指向性が固定された状態で受音した音声信号を利用するために、言語内容を認識する音源方向以外の方向に存在する音源から伝播する雑音によって、言語内容の認識が妨害される可能性が低く抑えられる。ステップＳ１８を実行することによって、図２の言語内容認識部１０４が実現される。
【００４１】
次に、コントローラ３００は、図４のステップＳ２０の処理に進む。ステップＳ２０では、コントローラ３００が、ステップＳ１８で認識した言語内容に対応して、スピーカ３０から出力する言語内容を決定し、決定した音声を発声するための情報を音声出力インターフェース３１に出力する。また、コントローラ３００は、ステップＳ１８で認識した言語内容に対応して、移動手段駆動部４１を制御する。図４のステップＳ２０を実行することによって、図２の対話生成処理部１０５が実現される。
【００４２】
次に、コントローラ３００は、図４のステップＳ２２の処理に進む。ステップＳ２２では、コントローラ３００が、ロボット１の電源がオフになっているか否かを判別する。電源がオフになっていれば（ステップＳ２２のＹｅｓ）、処理を終了する。電源がオフになっていなければ（ステップＳ２２のＮｏ）、ステップＳ１０の処理に戻ってそれ以降の処理を繰り返す。
【００４３】
以上では、人間３と人間４（図１参照）が話をしている声が大きく、ロボット１が５度の方向に位置している人間３に指向性を合わせている場合について説明した。この場合、人間３は、ロボット１と対話しているわけではないが、人間４がロボット１の後ろ側に存在するので、ロボット１が自身に話しかけられていると認識し、人間３の存在する方向に指向性を合わせている。そこで、人間３が「さっきのテレビ番組を見た？」と人間４に向かって発話したことに反応して、「申し訳ございませんが、見ていません。」という内容の音声を出力している。
ところが、ロボット１との対話を希望しているのは、実際は、人間２であって、人間２はロボット１に「トイレはどこですか？」と聞いているものとする。しかしながら、ロボット１は、「申し訳ございませんが、見ていません。」と返事をしているので、対話が成立していない。そこで、人間２が、ロボット１の前面の表示器１０を見ると、図７に示す画面２２０が表示されており、人間３が大声を発しているので、ロボット１が人間３の方向に指向性を合わせていることが分かる。ロボット１が自分の発声内容に対応しない返事をしたとしても、その原因がわかることから不快感を感じることが少ない。ロボット１が故障しているわけでないことを認識することができる。ロボット１に自分の発話を認識してもらうために、人間３に小さい声で話をしてもらう等の対策を講じることができる。
【００４４】
前記した一連の処理は繰り返し実行される。図４のステップＳ１０、Ｓ１２を繰り返すと、コントローラ３００がロボット１の応対可能角度範囲０度〜１８０度を再度走査し、音源の存在方向、音源の種類、受音した音量を再び検出する。この結果、表示器１０の表示画面が、例えば図８に示すように変化する。画面２３０から、人間３が発する音量が小さくなっており、指向性アンテナ２３１が人間２の方向に向いていることから、ロボット１が人間２の存在方向にその指向性を合わせていることが分かる。
音量が最大の方向に指向性を固定する場合、過去の所定期間内の平均的音量が最大の音源方向に指向性を固定することが好ましい。平均的音量によって指向性を固定すると、一人の発声者に指向性を合わせ続けることが可能となる。
【００４５】
本実施例のロボット１によれば、人間２が、表示器１０の表示内容から、ロボット１が認識している音源の存在方向、ロボット１が認識している音源の種類、ロボット１が受音している音量を把握することができる。人間２は、マイクの受音方向（指向性）が自分以外の方向に向けられたこと、ならびにそれがいずれの音源の影響によるものなのかを明確に知ることができる。また、現時点ではマイクの受音方向が自分の方向に向けられていても、今後、いずれの音源が雑音源となって自己の音声入力を阻む可能性があるのかを予測することができる。例えば、別の人間がロボット１の応対可能角度範囲の中に存在し、今は音声の音量が小さくてマイクの受音方向が向いていないものの、ロボット１は音源の方向として認識しており、その音量が大きくなるとロボット１がマイクの受音方向を切換えるために、人間２の音声入力が拒まれることになりそうであるといったことを知ることができる。したがって、人間２は、ロボット１のマイクの受音方向を確実に自分に向けておくために、どの音源を排除すればよいのかを明確に知ることができる。
【００４６】
（第２実施例）
本実施例の表示器では、音源の存在方向、音源の種類、受音した音量に加え、ロボットと音源の距離が表示される。図９、図１０を参照して説明する。
図９は、ロボット１ａの構成を示すブロック図である。図１０は、表示器に表示される画面の例を示す。
【００４７】
図９に示すように、ロボット１ａには、図２に示すロボット１の構成要素に加え、ステレオカメラ５０が設けられている。また、ロボット１ａに内蔵されているコントローラ３００ａには、ロボット１のコントローラ３００の構成要素に加え、画像入力インターフェース５１が設けられている。また、コントローラ３００ａの制御手段１００ａには、ロボット１の制御手段１００の構成要素に加え、音源距離計算部１０６が設けられている。
ステレオカメラ５０は、コントローラ３００ａの画像入力インターフェース５１を介して、制御手段１００ａの音源距離計算部１０６の入力側に接続されている。音源距離認識部１０６の出力側は、指向性制御部１０３の入力側と表示出力インターフェース１１に接続されている。その他のコントローラ３００ａの構成要素及びそれらの接続は、コントローラ３００と同様であるので、説明を省略する。
【００４８】
ステレオカメラ５０は２個のカメラで構成されており、それぞれがロボット１ａの右目と左目に配設されている。２個のカメラで撮像される画像は、対象物を微小な角度差をもって撮像したものである。撮像された画像は其々画像信号に変換されて画像入力インターフェース５１に出力される。画像入力インターフェース５１に接続された音源距離計算部１０６では、入力された画像信号に基づいて、ロボット１ａと音源との距離を算出する。例えば、特定のポイントに着目して一方のカメラと他方のカメラで撮像した場合の”ずれ”を算出する。そして、その”ずれ”の原因となる各カメラから対象物を見た際の角度の違いと、２個のカメラの間隔（固定）とから、ロボット１ａと音源との距離を算出する。このようにして距離を算出する方法は公用の技術であるので、詳しい説明は省略する。
【００４９】
指向性制御部１０３ａでは、音源方向検出部１０１で特定された各音源の存在方向と、音源種類判別部１０２で特定された各音源の種類を示す情報と、受音した音量を示す情報と、音源距離計算部１０６で認識されたロボットと各音源の距離を示す情報に基づいて、指向性を合わせる方向（受音方向）を特定する。ここでは、音源方向検出部１０１で認識した音源の存在方向の中から、種類が人間の音声である音源を選択し、なおかつロボット１ａからの距離が最も近い音源を選択する。これによって、人間２〜４の中からロボット１ａに話しかけている人間２を対話者として特定する。そして、その人間２の方向に指向性を合わせる。なお、距離が同じ場合には、受音した音量の大きい方の音源を選択し、選択した音源の方向に指向性を合わせる。
【００５０】
表示出力インターフェース１１には、音源の存在方向、音源の種類、受音した音量、ロボットと音源の距離、受音装置の指向性が向いている方向に関する情報が入力されているので、それらの情報を表示器１０に表示する。例えば、図１０に例示する画面２４０を表示する。画面２４０は、各音源に存在する人間が、ロボットと音源間の距離の大小を認識できるように表示している。図１２に示す一番外側の半円２４１は、ロボットからの距離が１．５ｍであることを表し、半円２４２は、ロボットからの距離が１．０ｍであることを表し、半円２４３は、ロボットからの距離が０．５ｍであることを表す。
画面２４０には、ロボット１から５度の方向であって距離が１．５ｍ（ｄ１＝１．５）の位置に人間３（図１参照）の存在を示す人のマークが表示されている。また、ロボット１から９０度の方向であって距離が１ｍ（ｄ２＝１）の位置に人間２の存在を示す人のマークが表示されている。また、ロボット１から１３５度の方向であって１．５ｍ（ｄ３＝１．５）の位置にテレビの存在を示すマークが表示されている。そして、音源の種類が人間であり、かつロボット１ａからの距離が最も近い人間２の方向に指向性が合わせられているので、指向性アンテナが人間２に向いて表示されている。
【００５１】
本実施例のロボット１ａによれば、表示器１０に、ロボットと各音源の距離を表示することができるので、表示器を見た人が音源の位置を把握し易い。
【００５２】
ロボット１ａは、カメラ５０で撮像した画像に基づいて、人間の顔の特徴を抽出し、人を区別して対応するように構成してもよい。この場合、カメラ５０は、画像入力インターフェース５１を介して、音源種類判別部１０２の入力側にも接続される。また、音源種類判別部１０２の出力側は対話生成部１０５の入力側にも接続される。そして、制御手段１００ａの記憶手段（特に図示していない。）には、顔の特徴に対応する人間の個人情報データベースが記憶されている。そして、音源種類判別部１０２で、撮像した画像の顔の特徴を抽出し、抽出した特徴に対応して個人情報データベースに記憶されている個人情報を読み出す。対話生成部１０５では、読み出された個人情報に基づいて適切な対話を生成する。例えば、人間がロボット１ａに「おはよう」と話しかけると、ロボットは誰であるかを認識して、「○○さん、おはようございます」と返答をする。
これによれば、ロボット１ａは、同じ問いかけがあった場合でも、発声者によって相違する細やかな対応をすることができる。
【００５３】
第２実施例では、音声入力インターフェース２１から出力される音信号を音源方向検出部１０１で処理することによって音源の存在方向を認識する場合を説明したが、画像入力インターフェース５１から出力される画像信号に基づいて音源の存在方向を認識してもよい。この場合、画像入力インターフェース５１と音源方向検出部１０１の入力側が接続される。音源方向検出部１０１では、画像によって音源となる物体の存在方向を特定する。
【００５４】
第１、第２実施例では、音声入力インターフェース２１から出力される音信号を音源種類判別部１０２で処理することによって音源の種類を判別する場合を説明したが、画像入力インターフェース５１から出力される画像信号から音源の種類を判別してもよい。この場合、画像入力インターフェース５１と音源種類判別部１０１の入力側が接続される。そして、音源種類判別部１０２では、画像から音源となる物体の種類を特定する。
【００５５】
第２実施例では、ステレオカメラ５０から入力される画像信号を音源距離計算部１０６で処理することによって音源までの距離を計算する場合を説明したが、マイク２０で受音する音信号から計算しもよい。この場合、音源距離計算部１０６の入力側は音声入力インターフェース２１に接続される。また、カメラ５０と画像入力インターフェース５１は必要ではない。
【００５６】
第１、第２実施例では、本発明の音声入力装置を対話型のロボットに適用した場合について説明したが、本発明は他の機器に適用してもよい。例えば、カーナビゲーションシステム（以降、カーナビと省略する。）に適用してもよい。カーナビは、車内の限られた空間の中の音源の音声を認識する。複数の人が乗車している場合には、雑音源の音声に影響され易い。このため、カーナビは言語内容の誤認識を起こして誤作動などを引き起こし易い。本発明を適用すれば、カーナビが認識している音源方向を表示器に表示することができ、対話者がこれを把握することができる。これによって、対話者がカーナビに向けて発話したにもかかわらず適切に音声入力されなかった場合（不適切な応答があった場合等）に、適切に入力されなかった原因となっている雑音源を把握して対処することができる。例えば、表示器に、音源位置が後部座席に表示されており、後部座席に座っている人同士が大声で話し合っていた場合、雑音源となっている後部座席の人に、話し声を小さくしてもらうように対処することができる。
【００５７】
第１、第２実施例の表示器に、言語内容認識部１０４で、人間２が発した音声の認識結果（例えば、「トイレはどこですか？」）をテキスト表示するように構成してもよい。これによれば、対話者は実際に認識された音声を目視によって確認することができるので、対話者の安心度が向上する。
また、言語内容認識部１０４で、人間２が発した音声の内容が認識できたか否かを示す結果（認識ＯＫ、認識ＮＧ等）をテキスト表示するように構成してもよい。これによれば、対話者は実際に音声が認識されたか否かを目視によって確認することができるので、対話者の安心度が向上する。
また、対話生成処理部１０５で、認識した音声の内容に対応してスピーカ３０から出力する音声（返事）の内容を決定できたか否かを示す結果（対話生成ＯＫ、対話生成ＮＧ等）をテキスト表示するように構成してもよい。これによれば、対話者は返事が生成されたか否かを目視によって確認することができるので、対話者の安心度が向上する。
第１実施例と第２実施例の表示器に、対話生成処理部１０５で決定したスピーカ３０から出力する音声（例えば、「トイレをご案内します。」）をテキスト表示するように構成してもよい。これによれば、対話者は返事を目視によって確認することができるので、対話者の安心度が向上する。
【００５８】
また、第１、第２実施例では、マイクの受音方向は、静止している複数個のマイクの出力を処理することによって切り替える場合について説明したが、マイクを物理的に回転させることによってマイクの受音方向を切り替えるマイクを用いてもよい。
なお、音源方向検出部１０１、音源種類判別部１０２、指向性制御部１０３、言語内容認識部１０４、対話生成処理部１０５、及び音源距離計算部１０６は、ハードウエアで構成されていてもよいし、ソフトウエアで構成されていてもよい。ソフトウエアで構成される場合には、各部１０１〜１０６は、プログラムの各機能（音源方向検出機能、音源種類判別機能、指向性制御機能、言語内容認識処理機能、対話生成処理機能、音源距離計算機能）を実行する各ステップに相当する。
【００５９】
以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、特許請求の範囲を限定するものではない。特許請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。
また、本明細書または図面に説明した技術要素は、単独であるいは各種の組み合わせによって技術的有用性を発揮するものであり、出願時請求項記載の組み合わせに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。
【図面の簡単な説明】
【００６０】
【図１】ロボット１の対話可能エリア内に存在する音源とロボットの概略を示す。
【図２】ロボット１の構成を示すブロック図である。
【図３】ロボット１が音源の方向を認識する過程を説明する図である。
【図４】ロボット１の制御手段が実行するプログラムのフローチャート図である。
【図５】表示器１０に表示される画面の例を示す。
【図６】表示器１０に表示される画面の例を示す。
【図７】表示器１０に表示される画面の例を示す。
【図８】表示器１０に表示される画面の例を示す。
【図９】ロボット１ａの構成を示すブロック図である。
【図１０】表示器１０に表示される画面の例を示す。
【図１１】マイクで受音した音の音源が、受音装置に対して、どの方向に存在するかを検出する過程を説明する図である。
【図１２】各マイク２０ａ〜２０ｆが受音した音の音信号を示す。
【符号の説明】
【００６１】
１，１ａロボット
２，３，４人間
５テレビ
６携帯電話
１０表示器
２０マイク
３０スピーカ
４０移動手段
５０カメラ
１００，１００ａ制御手段
３００，３００ａコントローラ

【特許請求の範囲】
【請求項１】
受音装置であり、
マイクと、
マイクで受音した音の伝播方向を受音装置を基準にして検出する音源方向検出手段と、
音源方向検出手段で検出した方向を、受音装置の周囲から視認可能に表示する表示手段を備えていることを特徴とする受音装置。
【請求項２】
表示手段が、マイクの受音量を音源別に表示することを特徴とする請求項１の受音装置。
【請求項３】
マイクで受音した音の周波数成分に基づいて、受音した音の音源の種類を判別する音源種類判別手段が付加されており、
表示手段が、音源種類判別手段で判別した音源の種類を併せて表示することを特徴とする請求項１又は２の受音装置。
【請求項４】
マイクが音を受音する範囲を撮像する複数のカメラと、
その複数のカメラで撮像した画像群に基づいて、受音装置と音源の距離を計算する音源距離計算手段が付加されており、
表示手段が、音源距離計算手段で計算した距離を併せて表示することを特徴とする請求項１〜３のいずれかの受音装置。
【請求項５】
請求項１〜４のいずれかの受音装置を備え、
音源方向検出手段が複数の方向を検出する場合に、受音量が最大となる方向にマイクの受音方向を固定する手段と、
受音方向が固定されたマイクで受音した音を音声認識する音声認識手段を有することを特徴とする音声認識装置。
【請求項６】
表示手段が、受音方向固定手段で固定したマイクの受音方向を併せて表示することを特徴とする請求項５の音声認識装置。
【請求項７】
少なくとも鉛直軸の周りに回転できる可動体であり、
請求項１〜４のいずれかの受音装置を搭載しており、
表示手段が、可動体に固定されている基準方向と音源が存在する方向がなす角度を表示することを特徴とする可動体。
【請求項８】
床面に対して鉛直軸の周りに可動体を回転させる回転機構と、
音源方向検出手段が複数の方向を検出する場合に、受音量が最大となる方向にマイクの受音方向を固定する手段と、
受音方向が固定されたマイクで受音した音を音声認識する音声認識手段と、
音声認識手段で認識した情報に基づいて、回転機構を制御する制御手段が付加されていることを特徴とする請求項７の可動体。
【請求項９】
表示手段が、受音方向固定手段で固定したマイクの受音方向を併せて表示することを特徴とする請求項８の可動体。

【図１】