説明

音声認識ロボット

【課題】音声認識ロボットの音声取得部のチューニングを効率良く行う。
【解決手段】音声認識ロボット100は、音声取得部として機能するマイクロホンアレー180と、音声出力部として機能するスピーカ170と、スピーカ170が装着されるロボットアーム160と、マイクロホンアレー180に対してチューニングを行うチューニング部を備える。チューニング部は、チューニングに際し、スピーカ170に基準音声を出力させるチューニング制御部と、基準音声に対する音声取得部の応答を用いてチューニングを実行するチューニング実行部とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識ロボット具体的にはその音声取得部をチューニングする機能を備えた音声認識ロボットに関する。
【背景技術】
【0002】
ロボットは、産業活動や生産活動の現場に関わらずオフィスや家庭の中までその活躍の範囲を広げつつある。産業活動や生産活動の現場においては、各種の難産業を代行や支援をし、家庭の中では、例えば人やペットなどの比較的知性の高い歩行動物の動作メカニズムや感情表現をエミュレートし、人間と「共生」する。これらのロボットの多くは、従来のロボットのように予め決められたパターンの動作のみを行うものではなく、状況を解析して行動するいわゆる自律式のものである。自律式のロボットの一例として、音声認識機能を備え、音声による指示を解析して、指示された動作を行う音声認識ロボットが挙げられる。
【0003】
通常、音声認識ロボットが置かれる環境には、指示の音声以外に、他の音声(ノイズ)も混在する。音声認識ロボットの誤動作を防ぐために、指示の音声を正しく受音する必要があり、そのための様々な試みがなされている。
【0004】
特許文献1には、ノイズよりも目的音声を受音しやすいようにする技術が開示されている。この技術によれば、音声認識ロボットは、音声指示がなされた際に、音声指示の音源方向を推定し、推定した音源方向に移動して音源に近づくことによって、音声指示の音声を他の音声よりも強く受音できるようにしている。
【0005】
また、特許文献2には、音声を取得する部分(以下音声取得部という)が正しく動作しているか否かを、ロボット自身により診断する技術が開示されている。具体的には、音声取得部例えばマイクの近傍で、左右の両方または一方のロボットアームを用いて接触音または打撃音を発生させて、マイクが集音可能であるか否かを確認する。確認の結果がNGである場合にはロボットアームでマイクを指しながら首を振るなどのジェスチャを実行してユーザに対してマイクに問題があることを通知する。
【特許文献1】特開2006−181651号公報
【特許文献2】特開2002−144260号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
特許文献1に開示された技術は、音声取得部が正しく動作していることを前提としている。音声取得部が正しく動作しているか否かは、たとえば、設計通りの理想指向性パターンになっているか否かにより表すことができる。音声取得部が理想指向性パターンになるためのチューニングは、通常エンジニアにより行われる。
【0007】
また、特許文献2に開示された技術では、ユーザに問題があることを通知することができるが、問題を解決するためのチューニングもユーザまたはエンジニアの手に委ねる。
【0008】
音声認識ロボットの開発段階において、ユニット数が少ないため、エンジニアにより音声取得部のチューニングがそれほど負担にならないが、量産の段階に入ると、工数、コストなどの要因から自動化が要求される。
【0009】
また、音声認識ロボットがユーザに渡った後でも、音声取得部のチューニングが必要である。チューニングの度にエンジニアが使用現場に出向くのでは、ユーザに金銭面、時間面の負担を与えることになる。ユーザからも、音声認識ロボットの音声取得部の自動チューニングが希望される。
【0010】
マイクなどの音声取得部のチューニングには、基準音声を出力する基準音源が必要である。チューニングの自動化が可能か否かは、基準音源の有効な提供手法があるか否かに依存すると言っても過言ではない。ここで、所定場所に基準音源を設置し、チューニング時には音声認識ロボットを基準音源に近い位置に移動させる手法について考える。音声認識ロボットの本体にチューニング機能を実装させれば、この音声認識ロボットが基準音源の近くに移動すれば音声取得部の自動チューニングが可能となる。しかし、この手法では、ロボットの移動が伴うため、生産段階においては、工程数が増えるという問題があり、効率が良くない。また、基準音源を設置するための場所も必要である。
【0011】
ユーザに渡った後のチューニングにおいて、実使用環境で基準音源の設置および保守もユーザにとって負担である。
【0012】
本発明は、上記事情に鑑みてなされたものであり、効率良くかつ便利に音声認識ロボットの音声取得部の自動チューニングを実現する。
【課題を解決するための手段】
【0013】
本発明にかかる音声認識ロボットは、音声取得部と、音声出力部と、該音声出力部が装着される装着部と、音声取得部に対してチューニングを行うチューニング部を備える。チューニング部は、チューニングを行うに際し、音声出力部に基準音声を出力させるチューニング制御部と、基準音声に対する音声取得部の応答を用いてチューニングを実行するチューニング実行部とを有する。本発明によれば、音声認識ロボットに音声出力部とチューニング部が備えられているので、チューニングの際に、チューニング部が音声出力部に基準音声を出力させ、この基準音声に対する音声取得部の応答を用いてチューニングができる。そのため、基準音源の設置場所の確保や、チューニングのために音声認識ロボットを移動させることなど必要が無くなり、便利かつ効率が良い。
【0014】
本発明は、音声取得部が複数のマイクロホンを備えたマイクロホンアレーである音声認識ロボットに適用することができる。この場合、チューニング実行部は、これらの複数のマイクロホンの感度特性のばらつきを解消するためのキャリブレーションを実行する。
【0015】
本発明の音声認識ロボットにおける装着部は、それに装着された音声出力部が音声取得部に対する相対的な位置を変位可能に構成された変位部を備え、チューニング制御部は、音声取得部に対する音声出力部の相対的な位置関係が所定の位置関係になるように変位部に変位させた後に音声出力部に基準音声を出力させることが好ましい。このような構成によって、たとえば音声取得部のチューニングに好適な位置に音声出力部を移動させることができる。
【0016】
また、この変位部としては、1つ以上の関節を備えたロボットアームと、該ロボットアームを駆動する駆動部で構成することが好ましい。音声認識ロボットは通常ロボットアームを有し、それに音声出力部を装着するようにすれば、音声出力部を装着する機構を別途設ける必要が無い。
【0017】
また、チューニング制御部は、音声取得部と音声出力部の相対的な位置関係が互いに異なる複数の所定の位置関係にそれぞれなるように、複数回に亘って変位部に変位させ、音声取得部と音声出力部の相対的な位置関係が所定の位置関係になる毎に音声出力部に基準音声を出力させ、チューニング実行部は、音声出力部から基準音声が出力される毎にチューニングを行うと共に、複数のチューニングの結果を統合することが好ましい。このような構成によれば、特に音声取得部がマイクロホンアレーである場合において、より良いチューニング効果を得ることができる。
【0018】
さらに、チューニング制御部は互いに周波数が異なる複数の基準音声を音声出力部に順次出力させ、チューニング実行部は、基準音声の周波数毎にチューニングを実行することが好ましい。音声取得部の感度などの特性は、受信した音声信号の周波数によって異なりうるので、このような構成によってチューニングを各周波数について行うようにすれば、チューニングの精度を高めることができる。
【0019】
なお、上述した装置を方法やシステムまたはプログラムとして表現したものも、本発明の範囲内にある。
【発明の効果】
【0020】
本発明の技術によれば、音声認識ロボットの音声取得部の自動チューニングを効率良くかつ便利に実現することができる。
【発明を実施するための最良の形態】
【0021】
以下、図面を参照して本発明の実施の形態について説明する。
図1は、本発明の実施の形態にかかる音声認識ロボット100を示す。図示のように、音声認識ロボット100は、頭部110と、ボディー(以下本体という)本体120と、車輪150と、ロボットアーム160を有し、本体120にはマイクロホンアレー180が設けられており、ロボットアーム160の先端には音声を出力するためのスピーカ170が設けられている。
【0022】
頭部110は例えば音声認識ロボット100の「目」として機能するCCDカメラが装着されている。車輪150は、回転することによって音声認識ロボット100を移動させる。ロボットアーム160は肩関節を備える。本体120には、ロボットアーム160を駆動させる駆動部が内蔵されており、それの駆動によりロボットアーム160は回転可能である。また、これらの機能ブロックの動作は、本体120に内蔵された制御部(図示せず)により制御される。後に説明するチューニング制御部と区別するために、この制御部を以下通常制御部という。
【0023】
マイクロホンアレー180は、音声認識ロボット100の「耳」すなわち音声取得部として機能し、音声信号を取得する。
【0024】
また、本体120には、マイクロホンアレー180のチューニングを行うチューニング部も備えている。以下の説明および図示において、このチューニング部に符号130を付与する。
【0025】
図2は、マイクロホンアレー180とチューニング部130を示す。図示のように、マイクロホンアレー180は、複数(図示の例では3つ)のマイクロホン182a、182b、182cを配列してなる音声入力部182と、マイクロホンアレー処理部184を有する。マイクロホンアレー処理部184は、音声入力部182の各マイクロホンにより入力された音声信号に対してアナログ・デジタル(AD)変換してデジタル音声信号を得るAD変換器186と、AD変換器186により得られた各マイクロホンのデジタル音声信号に対してそれぞれ補正を行う補正部188と、補正部188により補正が施された各マイクロホンのデジタル音声信号に対してFFT変換することによって周波数を変換する周波数変換部190と、周波数変換された各マイクロホンのデジタル音声信号に対して音声強調処理を行う音声強調部192と、周波数変換された各マイクロホンのデジタル音声信号を用いて雑音の推定を行って雑音信号を得る雑音推定部194と、音声強調部192により得られた信号から雑音推定部194により推定された雑音信号を減算して目的音声信号を得るとともに、目的音声信号から音声認識用の特徴量を抽出して出力する特徴量取得部196を備える。なお、特徴量取得部196により得られた特徴量は、音声認識ロボット100の本体120に設けられた音声認識処理部(図示せず)に入力され、それにより音声認識処理が施される。音声認識処理の結果は、音声認識ロボット100の本体120に設けられた上述の通常制御部に出力され、通常制御部はそれに応じた動作を音声認識ロボット100の該当する1つまたは複数の機能ブロックを行わせる。
【0026】
音声強調部192は、主にDS(Delay−and−Sum)処理を行う。音声入力部182は、複数のマイクロホンを配列してなるため、音源からの音声信号がマイクロホンに到達するタイミングは各マイクロホン間で異なる。図3の模式図を用いてこれを説明する。
【0027】
図3に示すように、3つのマイクロホン20a、20b、20cは、間隔dをおいて配列されている。音源10と各マイクロホンが成す角度がθである。図示の場合、音声がそれぞれのマイクロホンに到達したタイミングは、図中L/音速(L:間隔d×sinθ)の分異なる。そのため、3つのマイクロホンにより取得されたそれぞれの音声信号は位相が異なり、それらに対して、位相を整合する必要がある。
【0028】
音声強調部192によるDS処理は、音声入力部182の各マイクロホンから得られた音声信号のタイミングのずれに合わせて先に取得された音声信号を順次遅延させることによってそれらの位相を同一にし、同一した後のそれぞれの音声信号を加算する。なお、音声強調部192によるDS処理は、推定した音源の位置に基づいて、各マイクロホンにより得られた音声信号を遅延させるべき量を決定しているので、方向性雑音を除去し、目的音声を強調する効果を有する。
【0029】
雑音推定部194は、主にNBF(Null−Beam−Former)処理を行う。このNBF処理は、目的音声の方向以外の方向の信号を強調し目的音声方向に死角を形成する。雑音推定部194によって拡散性雑音が得られる。
【0030】
そして、特徴量取得部196は音声強調部192により取得された音声信号から雑音推定部194により取得された雑音信号を減算することによって、拡散性雑音を除去し、目的音声を得る。
【0031】
図4は、マイクロホンアレーの理想指向性パターンの例を示す。図中度数は、図3におけるθに対応する。目的音声信号を正しく取得し、音声認識の精度を高めるためには、なるべくこの理想指向性パターンになるようにマイクロホンアレーが設計されている。
【0032】
ところで、マイクロホンの感度には必ず誤差が伴う。現在市販されている安価なマイクロホンが通常2デシベル(dB)以上の感度誤差を有することは知られている。そのため、同じマイクロホンでマイクロホンアレーを構成しても、各マイクロホン間に感度のばらつきが避けられない。
【0033】
マイクロホン間の感度のばらつきは特に雑音推定処理に大きな影響を与える。雑音推定処理の精度が下がると、マイクロホンアレーの指向性パターンに歪みが生じ、音声認識の精度も下がってしまう。
【0034】
補正部186は、音声入力部182の各マイクロホンの感度特性のばらつきを解消するためのものであり、マイクロホン毎に設定された補正フィルタでそれぞれのマイクロホンからの音声信号を補正する。また、時間の経過や、音声認識ロボット100が置かれた環境の変化などによって各マイクロホンの受音特性に変化が生じうるので、時々マイクロホンアレー180に対してチューニングを行う必要がある。
【0035】
チューニング部130は、マイクロホンアレー180のチューニングを行うものである。チューニングの際に、音声入力部182の各マイクロホンにより取得された音声信号がチューニング部130に入力され、チューニング部130は、それらを用いて各マイクロホンの補正フィルタを設定して補正部188に供する。
【0036】
図5は、チューニング部130を示す。チューニング部130は、チューニング制御部135とチユーニング実行部140を有する。チューニング制御部135は、マイクロホンアレー180に対してチューニングを行うか否かの判定を行う処理、および「行う」と判定した場合に、音声認識ロボット100のロボットアーム160およびスピーカ170を制御する処理を行う。なお、チューニング部130の様々な処理を行う機能ブロックとして図中に記載れた各要素は、ハードウェア的には、CPU、メモリ、その他のLSIで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
【0037】
チューニングを行うか否かの判定は、マイクロホンアレー180における音声入力部182の各マイクロホンの受音特性のばらつきパターンに変化が生じた可能性があるか否かに基づいて行う。例えば、前回のチューニングから24時間など所定の時間を経過した場合、音環境クラスタリングを行った結果は環境音が変化したことを示す場合、音声認識ロボット100の上述した通常制御部により車輪150を移動させる制御があった場合などにおいて、チューニングする必要があると判定する。勿論、この判定の条件はここで述べたものに限られることがない。
【0038】
チューニング制御部135は、「チューニングを行う」と判定した場合、ロボットアーム160とスピーカ170の動作を制御する。まず、ロボットアーム160に対する制御を説明する。なお、ロボットアーム160に対する制御は、本体120に内蔵された図示しない駆動部を制御することを介して行われ、以下の説明において、ロボットアーム160に対する制御と駆動部に対する制御と同じ意味で用いる。また、ロボットアーム160は、チューニング時にチューニング制御部135により制御され、チューニング以外のときの通常動作時は通常制御部により制御される。
【0039】
図6は、音声認識ロボット100を上から見た図である。なお、分かりやすいように、本体120とロボットアーム160(それに装着されたスピーカ170を含む)のみを図示し、頭部110および車輪150を省略する。チューニング制御部135は、本体120に設けられたマイクロホンアレー180における音声入力部182とロボットアーム160が成す角度、より正確には音声入力部182の各マイクロホンの配列方向とロボットアーム160が成す角度αが所定の値になるように、ロボットアーム160を回転させる。ロボットアーム160の先端に装着されたスピーカ170は、ロボットアーム160の回転によりその音声出力方向と音声入力部182が成す方向も変る。すなわち、チューニング制御部135は、ロボットアーム160を回転させることによって、図3の模式図に示す角度θを上記角度αの所定の値に対応する値にしている。
【0040】
ロボットアーム160の回転後、チューニング制御部135は、ロボットアーム160に装着されたスピーカ170に基準音声を出力させる。本実施の形態では、この基準音声として、TSP(Time−Stretched−Pulse:時間引き延ばしパルス)信号が用いられる。
【0041】
音声入力部182の各マイクロホンは、スピーカ170からのTSP信号を受音すると、応答信号(以下TSP応答信号という)をそれぞれ出力する。これらのTSP応答信号は、チューニング部130のチユーニング実行部140に入力される。
【0042】
チユーニング実行部140は、TSP信号を時間反転してTSP時間反転信号を得、それぞれのマイクロホンのTSP応答信号に、TSP時間反転信号を畳み込む。これによって、各マイクロホンのインパルス応答信号が得られる。
【0043】
前述したように、補正部188は、音声入力部182のマイクロホンの感度のばらつきを解消するためのものであり、マイクロホン毎に補正フィルタを用いて補正を行う。チユーニング実行部140は、各マイクロホンの感度が揃うようにこれらの補正フィルタを設定する。
【0044】
本実施の形態において、チユーニング実行部140は、音声入力部182における基準マイクロホンと同じ感度になるように、他のマイクロホンの補正フィルタを設定する。具体的には、対象マイクロホンのインパルス応答信号から該マイクロホンのパワースペクトルを算出し、下記の式(1)にしたがってこのマイクロホンの補正フィルタAを求める。
【0045】

A=P/P0 (1)
但し,A:補正フィルタ
P:対象マイクロホンのパワースペクトル
P0:基準マイクロホンのパワースペクトル

なお、基準マイクロホンとして、音声入力部182に含まれるマイクロホンのうちのいずれを用いるかは設計者に委ねられる。
【0046】
さらに、実使用環境において、音声認識ロボット100は、様々な方向にある音源からの音声信号を受信する必要があることを考え、本実施の形態において、チューニング部130は、複数の異なる角度αにおいてチューニングを行う。具体的には、1つのマイクロホンに対して、各角度αについて補正フィルタAを求め、これらの補正フィルタAを統合して統合補正フィルタを得る。
【0047】
チユーニング実行部140は、基準マイクロホン以外の他のマイクロホン対してそれぞれの統合補正フィルタを得て補正部188に出力する。補正部188は、これらのマイクロホンの補正フィルタを、チユーニング実行部140から出力されてきたそれぞれの統合補正フィルタに更新する。
【0048】
また、より良い補正効果を得るために、音声信号の周波数毎に補正フィルタを設定することが好ましいため、本実施の形態において、チューニング制御部135は、チューニングに際し、周波数(bin)が互いに異なる複数のTSP信号をスピーカ170に順次出力させる。チユーニング実行部140は、基準マイクロホン以外のそれぞれのマイクロホンに対して、周波数(bin)毎に補正フィルタAを求めて補正部188に供する。
【0049】
図7は、本実施の形態の音声認識ロボット100におけるチューニング部130の処理の流れを示すフローチャートである。待機状態において、チューニング部130におけるチューニング制御部135は、チューニングを実行するか否かの判定を行う(S10)。「実行しない」と判定した場合(S10:No)には、チューニング部130の待機状態が続く(S20)一方、「実行する」と判定した場合(S10:Yes)、チューニング制御部135は、音声認識ロボット100のロボットアーム160を回転させる(S30)と共に、ロボットアーム160の回転後、スピーカ170にTSP信号を出力させる(S40)。
【0050】
チユーニング実行部140は、チューニングを実行する(S50)。具体的には、チユーニング実行部140は、このTSP信号に対する各マイクロホンのTSP応答信号と、TSP信号の時間反転信号を用いて、基準マイクロホン以外の各マイクロホンの補正フィルタAを求める。そして、チューニング制御部135は、ロボットアーム160をさらに回転させて角度αを変える共に、スピーカ170に同じ周波数のTSP信号を出力させる。チユーニング実行部140は、変更された角度αについて、基準マイクロホン以外の各マイクロホンに対して再度補正フィルタAをも求める。角度αの変更、TSP信号の出力、補正フィルタAの算出が複数回繰り返され、各マイクロホンに対して、角度αの数と同じ数の補正フィルタAが求められる。チユーニング実行部140は、基準マイクロホン以外の各マイクロホン毎に、その補正フィルタAを統合して統合補正フィルタを得、補正部188に出力する。
【0051】
1つの周波数(bin)について統合補正フィルタを求める処理が終わると、チューニング制御部135は、異なる周波数(bin)のTSP信号をスピーカ170に出力させ、チユーニング実行部140は、この周波数(bin)について統合補正フィルタを求める上記の処理を行う。
【0052】
このようにしてチユーニング実行部140から補正部188に、基準マイクロホン以外のそれぞれのマイクロホンの、周波数(bin)毎の、複数の角度αについて求められた補正フィルタAの統合補正フィルタが供される。
【0053】
本実施の形態の音声認識ロボット100は、チューニング機能を備えると共に、スピーカ170がロボットアーム160に装着され、チューニング制御部135の制御に従ってチューニング用の基準音声を出力することができる。そのため、チューニングを行う際に、ロボットを基準音源の設置場所に行かせる必要が無く、生産現場においては工数およびコストを抑制することができ、実使用においては、ユーザに便利性を提供する。さらに、チューニングのための基準音源の設置場所も要らないという利点がある。
【0054】
また、本実施の形態において、スピーカ170が音声認識ロボット100のロボットアーム160に装着されている。通常、ロボットアームがロボットに備えられるため、ロボットアームを音声出力部の装着部として兼用させることによって、音声認識ロボットの構成をシンプルにすることができる。
【0055】
さらに、ロボットアームはそれに装着された音声出力部(スピーカ)がマイクロホンアレーに対する相対的な位置を変位可能な変位部であるため、ロボットアームを回転させると、音声出力部と、ロボットの本体に固定された音声取得部との相対的な位置関係を変えることができる。これによってチューニングに適した好適な相対位置になるように、チューニング時に音声出力部の位置を簡単に変えることができる。また、音声認識ロボット100のように、音声取得部が、異なる相対位置毎にチューニングを行う必要がある場合には便利である。
【0056】
さらに、ロボットアームのリーチは、メカ的には通常固定であるため、それを回転させることによって音声出力部と音声取得部の相対位置を変えるときには、移動誤差が少ない。結果として、音声取得部と音声取得部の相対位置の誤差を少なくできる。
【0057】
以上、実施の形態をもとに本発明を説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、さまざまな変更、増減を加えてもよい。これらの変更、増減が加えられた変形例も本発明の範囲にあることは当業者に理解されるところである。
【0058】
例えば、上述した実施の形態の音声認識ロボット100において、音声出力部として機能するスピーカ170を片方のロボットアームにしか設けていないが、音声出力部を両方のロボットアームに設けるようにしてもよい。
【0059】
また、音声認識ロボット100は、マイクロホンアレーである音声取得部を有するが、本発明は、チューニング時に基準音声を必要とするいかなる種類の音声取得部を有する音声認識ロボットにも適用することができる。
【0060】
また、音声認識ロボット100におけるチューニング部130は、角度αをスピーカ170と音声入力部182間の相対位置とし、チューニング時にはそれを変えている。音声取得部と音声入力部間の相対位置は、それらが成す角度に限らず、音声取得部と音声入力部間の距離を含んでもよい。そのため、角度と距離をそれぞれ変えて、角度毎、距離毎にチューニングを行って、それらの結果を統合するようにしてもよい。この距離の変更は、例えば、回転のみならず伸縮も可能なロボットアームを用い、チューニング時にはロボットアームを伸縮させることによって実現すればよい。
【0061】
また、本実施の形態において、一例として肩関節を備えたロボットアームを用いたが、それに装着された音声出力部と音声取得部との相対的な位置関係を変位可能であれば、肩関節のみならず、例えば肩関節、肘関節、腕関節のいずれか1つまたは複数を備えるロボットアームを用いてもよい。
【図面の簡単な説明】
【0062】
【図1】本発明の実施の形態にかかる音声認識ロボットを示す図である。
【図2】図1に示す音声認識ロボットにおけるマイクロホンアレーとチューニング部を示す図である。
【図3】図2に示すマイクロホンアレーにおける音声強調部の処理を説明するための図である。
【図4】図2に示すマイクロホンアレーの理想指向性パターンの例を示す図である。
【図5】チューニング部の詳細を示す図である。
【図6】図5に示すチューニング部におけるチューニング制御部を説明するための図である。
【図7】図5に示すチューニング部の処理の流れを示すフローチャートである。
【符号の説明】
【0063】
10 音源
20a マイクロホン
20b マイクロホン
20c マイクロホン
100 音声認識ロボット
110 頭部
120 本体
130 チューニング部
135 チューニング制御部
140 チユーニング実行部
150 車輪
160 ロボットアーム
170 スピーカ
180 マイクロホンアレー
182 音声入力部
184 マイクロホンアレー処理部
186 AD変換器
188 補正部
190 周波数変換部
192 音声強調部
194 雑音推定部
196 特徴量取得部

【特許請求の範囲】
【請求項1】
音声取得部と、
音声出力部と、
該音声出力部が装着される装着部と、
前記音声取得部に対してチューニングを行うチューニング部を備え、
該チューニング部は、前記チューニングを行うに際し、
前記音声出力部に基準音声を出力させるチューニング制御部と、
前記基準音声に対する前記音声取得部の応答を用いてチューニングを実行するチューニング実行部とを有することを特徴とする音声認識ロボット。
【請求項2】
前記音声取得部は、複数のマイクロホンを備えたマイクロホンアレーであり、
前記チューニング実行部は、前記複数のマイクロホンの感度特性のばらつきを解消するためのキャリブレーションを実行するものであることを特徴とする請求項1に記載の音声認識ロボット。
【請求項3】
前記装着部は、装着された前記音声出力部が前記音声取得部に対する相対的な位置を変位可能に構成された変位部を備え、
前記チューニング制御部は、前記音声取得部に対する前記音声出力部の相対的な位置関係が所定の位置関係になるように前記変位部に変位させた後に前記音声出力部に基準音声を出力させることを特徴とする請求項1または2に記載の音声認識ロボット。
【請求項4】
前記変位部は、
1つ以上の関節を備えたロボットアームと、
該ロボットアームを駆動する駆動部を有することを特徴とする請求項3に記載の音声認識ロボット。
【請求項5】
前記チューニング制御部は、前記音声取得部と前記音声出力部の相対的な位置関係が互いに異なる複数の前記所定の位置関係にそれぞれなるように、複数回に亘って前記変位部に変位させ、前記所定の位置関係になる毎に前記音声出力部に基準音声を出力させ、
前記チューニング実行部は、前記音声出力部から基準音声が出力される毎にチューニングを行うと共に、複数のチューニングの結果を統合することを特徴とする請求項3または4に記載の音声認識ロボット。
【請求項6】
前記チューニング制御部は、互いに周波数が異なる複数の基準音声を前記音声出力部に順次出力させ、
前記チューニング実行部は、前記周波数毎にチューニングを実行することを特徴とする請求項1から5のいずれか1項に記載の音声認識ロボット。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2008−164747(P2008−164747A)
【公開日】平成20年7月17日(2008.7.17)
【国際特許分類】
【出願番号】特願2006−351796(P2006−351796)
【出願日】平成18年12月27日(2006.12.27)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【Fターム(参考)】