説明

処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム

【課題】音声の認識率を向上することができる処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラムを提供する。
【解決手段】本発明にかかる音声認識装置は、環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行うための処理を行う処理装置であって、環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分を抽出する初期反射成分抽出処理部11と、初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習する音響モデル学習処理部14と、を備えるものである。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラムに関する。
【背景技術】
【0002】
利用者が発した音声信号を検出して音声認識処理を行う音声認識装置が利用されている(特許文献1、2)。このような音声認識装置では、例えば、ハンズフリーマイク等のマイクロフォンを用いて、発話者が発した音声を集音する。そして、マイクロフォンによって検出された音声信号に対して音声認識処理を行う。
【0003】
ハンズフリーフォンなどのマイクロフォンで集音する場合、部屋やマイク周辺の形状による影響を受けてしまうことがある。例えば、発話者が発した音声とともに、壁等で反射された反射音がマイクロフォンに集音されてしまう。従って、壁等で反射された反射音が残響として検出されてしまう。この残響の影響によって、音声認識率が低下してしまう。このような残響は、発話者自身の声によるものであるため、残響による影響を除去するのは困難である。特許文献3に、壁などで反射される反射波を除去する方法が開示されている。しかしながら、特許文献3の方法では、複数のマイクが必要になってしまう。
【0004】
さらに、残響の影響を除去して、音声認識率を向上するための技術が開示されている(特許文献4、5)。例えば、特許文献4、5の残響除去方法では、残響成分を除去するため逆フィルタを推定している。さらに、特許文献4の残響除去方法では、観測信号が直接音と初期反射成分と後部残響成分とに分けられる点が記載されている。そして、初期反射成分が直接音と相関があり、後部残響成分が直接音、及び初期反射音声分と無相関である点が記載されている(段落0012〜0014)。
【0005】
これらの残響除去方法では、入力された音響信号に基づいて逆フィルタを推定している。そして、推定した逆フィルタを用いて、周波数領域の音響信号に対して逆フィルタ処理を行っている。さらに、逆フィルタ処理が行われた周波数領域の出力信号を時間領域に変換している。
【0006】
【特許文献1】特開2006−72127号公報
【特許文献2】特開2006−3617号公報
【特許文献3】特開2007−65204号公報
【特許文献4】特開2006−72052号公報
【特許文献5】特開2006−234888号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献4、5の残響除去方法では、入力された音響信号に対して逆フィルタを推定している。そのため、リアルタイムで処理する必要があるが、データの処理量が膨大になるため、リアルタイムでの処理が困難になるという問題点がある。よって、認識率を向上させることが困難である。
【0008】
本発明は、かかる課題を解決するためになされたものであり、音声の認識率を向上することができる処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の第1の態様にかかる処理装置は、音声認識を行うための処理を行う処理装置であって、環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分を抽出する初期反射成分抽出処理部と、前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習する音響モデル学習処理部と、を備えるものである。これにより、音響モデル15の学習に初期反射成分を反映させることができる。よって、より優れた音響モデル15を構築することができ、音声の認識率を向上することができる。
【0010】
本発明の第2の態様にかかる処理装置は、上記の処理装置であって、前記環境中で発生したインパルス応答の残響パターンから前記拡散残響成分を抽出する拡散残響成分抽出処理部と、前記拡散残響成分のスペクトル成分を減算するフィルタを作成するフィルタ作成部と、をさらに備えるものである。これにより、音声信号の拡散残響成分を除去することができるため、認識率を向上することができる。
【0011】
本発明の第3の態様にかかる処理装置は、上記の処理装置であって、前記音響モデルを参照して音声認識を行う認識処理を行う認識処理部をさらに備え、前記フィルタが音声認識に繰り返し用いられるものである。これにより、簡便にフィルタを作成することができる。
【0012】
本発明の第4の態様にかかる処理装置は、上記の処理装置であって、前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とするものである。これにより、初期反射成分を適切に抽出することができ、認識率を向上することができる。
【0013】
本発明の第5の態様にかかる音声認識装置は、環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識装置であって、前記マイクロフォンで検出された音声信号をスペクトルデータに変換するスペクトル変換処理部と、前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分が反映された音響モデルを用いて、スペクトルデータに応じた特徴量から音声を認識する認識処理部とを備えるものである。これにより、初期反射成分が反映された音響モデルを用いて音声認識を行うことができる。よって、音声の認識率を向上することができる。
【0014】
本発明の第6の態様にかかる音声認識装置は、上記の音声認識装置であって、前記音声信号のスペクトルデータから、フィルタを用いて、インパルス応答の残響パターンから抽出された前記拡散残響成分のスペクトル成分を減算するスペクトル減算処理部をさらに備え、前記スペクトル減算処理部で前記拡散残響成分のスペクトル成分が減算された減算データに基づいて前記音声が認識されているものである。これにより、音声信号の拡散残響成分を除去することができるため、認識率を向上することができる。
【0015】
本発明の第7の態様にかかる音声認識装置は、上記の音声認識装置であって、前記フィルタが同じ環境での音声認識に繰り返し用いられることを特徴とするものである。これにより、簡便にフィルタを作成することができる。
【0016】
本発明の第8の態様にかかる音声認識システムは、上記の音声認識装置と、環境中で発生した音を受音して、前記音声認識装置に音声信号を出力するマイクロフォンと、を有するものである。これにより、音響モデル15の学習に初期反射成分が反映させることができる。よって、より優れた音響モデル15を構築することができ、音声の認識率を向上することができる。

【0017】
本発明の第9の態様にかかる音声認識方法は、環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識方法であって、環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分を抽出するステップと、前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習するステップと、を有するものである。これにより、音響モデル15の学習に初期反射成分が反映させることができる。よって、より優れた音響モデル15を構築することができ、音声の認識率を向上することができる。
【0018】
本発明の第10の態様にかかる音声認識方法は、上記の音声認識方法であって、前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を抽出し、前記拡散残響成分のスペクトル成分を減算するフィルタを作成し、前記フィルタを用いて前記音声信号から前記拡散残響成分のスペクトル成分を減算した減算データに基づいて音声認識を行うものである。これにより、音声信号の拡散残響成分を除去することができるため、認識率を向上することができる。
【0019】
本発明の第11の態様にかかる音声認識方法は、上記の音声認識方法であって、前記音響モデルを参照して音声認識を行うステップをさらに備え、前記フィルタが音声認識に繰り返し用いられるものである。これにより、簡便にフィルタを作成することができる。
【0020】
本発明の第12の態様にかかる音声認識方法は、上記の音声認識方法であって、前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とするものである。これにより、初期反射成分を適切に抽出することができ、認識率を向上することができる。
【0021】
本発明の第13の態様にかかる音声認識プログラムは、環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識プログラムであって、コンピュータに対して、前記環境中で発生した基準音を検出して、前記基準音の残響パターンから初期反射成分を抽出させるステップと、前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習させるステップと、を有するものである。
【0022】
本発明の第14の態様にかかる音声認識プログラムは、上記の音声認識プログラムであって、前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を抽出し、前記拡散残響成分のスペクトル成分を減算するフィルタを作成し、前記フィルタを用いて前記音声信号から前記拡散残響成分のスペクトル成分を減算した減算データに基づいて音声認識を行うものである。これにより、音声信号の拡散残響成分を除去することができるため、認識率を向上することができる。
【0023】
本発明の第15の態様にかかる音声認識プログラムは、上記の音声認識プログラムであって、前記音響モデルを参照して音声認識を行うステップをさらに備え、前記フィルタが音声認識に繰り返し用いられるものである。これにより、簡便にフィルタを作成することができる。
【0024】
本発明の第16の態様にかかる音声認識プログラムは、上記の音声認識プログラムであって、前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とするものである。これにより、初期反射成分を適切に抽出することができ、認識率を向上することができる。
【発明の効果】
【0025】
本発明によれば、正確な音声認識を簡便に行なうことができる音声認識方法、音声認識装置、並びにそれを用いた移動体、ロボットを提供することができる。
【発明を実施するための最良の形態】
【0026】
本実施の形態にかかる音声認識システムについて、図1を用いて説明する。図1は、音声認識システムの構成を示すブロック図である。音声認識システムは、マイクロフォン1(以下、マイク1)と、音声認識装置2とを備えている。
【0027】
マイク1は、環境中に設けられ、環境中で発生した音を受音する。従って、マイク1は、発話者が話した音声を集音して、音声に応じた音声信号を音声認識装置2に出力する。マイク1は、例えば、建物の部屋内に設置されている。マイク1は、環境内の予め定められた場所に設置されている。
【0028】
音声認識装置2は、マイク1からの音声信号に対してデータ処理を行って音声認識を行う。音声認識装置2は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、通信用のインターフェースなどを有する処理装置であり、音声認識に必要なデータ処理を行う。さらに、音声認識装置2は、着脱可能なHDD、光ディスク、光磁気ディスク等を有し、各種プログラムや制御パラメータなどを記憶し、そのプログラムやデータを必要に応じてメモリ(不図示)等に供給する。例えば、音声認識装置2は、マイク1からの信号をデジタル信号に変換して、演算処理を行う。さらに、音声認識装置2は、ROMやHDDに格納されたプログラムに従って音声認識処理を実行する。すなわち、音声認識装置2は、音声認識するためのプログラムが格納されており、そのプログラムにより音声認識装置2がデジタル信号に対して各種処理を行う。
【0029】
音声認識装置2は、初期反射成分抽出処理部11と、畳み込み処理部12と、学習用音声データベース13と、音響モデル学習処理部14と、音響モデル15と、拡散残響成分抽出処理部21と、スペクトル変換処理部22と、フィルタ作成部23と、スペクトル変換処理部31と、スペクトル減算処理部32と、音声認識特徴量変換部33と、パターンマッチング処理部34と、を有している。
【0030】
初期反射成分抽出処理部11と、畳み込み処理部12と、学習用音声データベース13と、音響モデル学習処理部14とは音声認識に必要な音響モデル15を作成するための処理を行う。これにより、音声信号の残響パターンの初期反射成分を反映した音響モデル15が作成される。ここでは音響モデル15として、隠れマルコフモデル(HMM)が用いられている。ここでの処理は、予めオフラインで行われている。すなわち、音声認識する音声信号を検出する前に、音響モデル15を予め作成しておく。
【0031】
拡散残響成分抽出処理部21と、スペクトル変換処理部22と、フィルタ作成部23とは、拡散残響成分を除去するための処理を行う。これにより、拡散残響成分を減算するための減算フィルタが作成される。ここでの処理は、予めオフラインで行われている。すなわち、音声認識する音声信号を検出する前に、減算フィルタを予め作成しておく。
【0032】
スペクトル変換処理部31と、スペクトル減算処理部32、音声認識特徴量変換部33と、パターンマッチング処理部34とは、入力音声に対して音声認識処理を行う。音声認識処理は、上記の減算フィルタ、及び音響モデル15を用いて行われる。そして、これらの処理が、入力音声に対してオンラインで行われることで、随時、音声を認識していく。
【0033】
まず、残響パターンに含まれる初期反射成分と拡散残響成分とについて図2、及び図3を用いて説明する。図2は、室内で発生した音が反射する様子を模式的に示す図である。図3は、環境中に設置されたマイク1で検出された信号の一例を示す図である。図3において、横軸は時間、縦軸は信号のパワーを示している。図3では、インパルス応答計測をしたときの計測信号の波形が離散的に示されている。
【0034】
図2では、図1で示した音声認識システムがロボット4に搭載されているとして示されている。図2に示すように、室内で発話者5が発話した音は、ロボット4に搭載されたマイク1に到達して、測音される。さらに、音が直接マイク1に伝播する場合と、壁面3で反射してマイク1まで伝播する場合がある。もちろん、壁面3だけではなく、天井や床や机などで反射することもある。壁面3などで反射した音は、マイク1に直接、到達した音に比べて遅れる。すなわち、マイク1に直接、到達した直接音と、壁面3で反射してからマイク1に到達した反射音とは、マイク1で測音されるタイミングが異なっている。さらに、壁面3で反射した音のうち、繰り返し反射した音には、さらに時間遅れが生じる。このように音の伝播距離等に応じて、測音タイミングが異なっている。なお、室内では、壁面3だけでなく、天井や床面や机などでも音が反射される。
【0035】
図2に示すような室内で、非常に幅の狭い単一パルスからなるインパルスを発生させた場合、計測信号は、図3に示す波形となる。インパルスの時間応答では、壁面3で反射されずに直接マイク1に到達する直接音が最も早い時間(t=0)に測音される。そして、壁面3で反射された反射音が、直接音の後に測音されていく。反射音は、壁面3などでの吸収があるため、直接音よりもパワーが低くなっている。そして、繰り返し反射した反射音が時間ともに測音されていく。
【0036】
ここで、インパルス応答の残響パターンを、初期反射成分と拡散残響成分とに分ける。そのため、インパルス応答から残響成分を測定し、測定した残響成分を初期反射成分と、拡散残響成分とに分割する。残響パターンのうち、前半が初期反射成分となり、後半が拡散残響成分となる。従って、初期反射成分の後が拡散残響成分となる。初期反射成分は、1次反射や2次反射などの低次反射成分が含まれている。また、拡散残響成分には高次反射成分が含まれている。
【0037】
ここで、初期反射成分と拡散残響成分を区切る時間的な境界を減衰時間境界とする。従って、直接音がマイク1で測音された時間から減衰時間境界までの成分が初期反射成分となり、減衰時間境界以降の成分が拡散残響成分となる。例えば、減衰時間境界を70msecとすると、t=0のデータが直接音となり、0〜70msecの範囲(t=0、t=70は含まず)のデータが初期反射成分として抽出され、70msec以降のデータが拡散残響成分として抽出される。
【0038】
ここで初期反射成分と拡散残響成分との減衰時間境界を、音響モデル15の分析長に応じて設定している。例えば、分析フレーム長を25msec、フレームシフトを10msec、1セグメントに含まれるフレーム数を5とした場合、分析長は25+10×(5−1)=65msecとなる。すなわち、複数のフレームを含む1セグメントの長さである分析長は、65msecとなる。この場合、減衰時間境界を、例えば、70msecとして、分析長に応じた長さとする。音響モデル15の分析長を長くする場合は、減衰時間境界を後ろ側にずらず。すなわち、分析長を長くする場合は、減衰時間境界の値を大きくし、分析長を短くする場合は、減衰時間境界の値を小さくにする。このように、初期反射成分の時間幅を分析長に応じて決定することで、認識率を向上することができる。もちろん、音響モデル15の分析長と減衰時間境界を等しくもよい。音響モデル15で学習する単位である分析長に応じて減衰時間境界を設定することができる。こうすることで、初期反射成分と拡散残響成分とを適切に分割することができる。
【0039】
このように、インパルス応答の残響パターンの中から、初期反射成分と拡散残響成分を抽出する。すなわち、減衰時間境界を境界として、直接音の後のデータを、初期反射成分と、拡散残響成分とに分ける。具体的には、残響パターンから拡散残響成分を取り除くことによって、初期反射成分が抽出される。また、残響パターンから初期反射成分を取り除くことによって、拡散残響成分が抽出される。
【0040】
このようにして抽出された初期反射成分と拡散残響成分が、音声認識に利用される。すなわち、マイク1で実測された音声信号から、初期反射成分と拡散残響成分の影響を除去することで、音声の認識率を向上することができる。ここでは、初期反射成分と拡散残響成分とに対して異なる処理を行うことによって、認識率を向上している。初期反射成分は、音響モデル15の学習に用いられている。一方、拡散残響成分は、スペクトル成分を減算する減算フィルタの作成に用いられている。
【0041】
次に、初期反射成分を用いた音響モデル15の学習について図1、及び図4を用いて説明する。図4は、音響モデルの学習フローを示す図である。図4で示した処理はオフラインで行われる。すなわち、音声認識を行うための音声信号を取得する前に、図4に示す処理フローで音響モデル15を作成する。
【0042】
図1に示したように、初期反射成分抽出処理部11がインパルス応答入力から、拡散残響成分を取り除いた初期反射成分を抽出する。すなわち、上記のように、マイク1で計測されたインパルス応答の残響成分のうち、減衰時間境界よりも前のデータを初期反射成分として抽出する。図4に示すように、初期反射成分をhとする。畳み込み処理部12は、初期反射成分hを用いて畳み込み処理を行う。
【0043】
学習用音声データベース13には、クリーンな学習用の音声データが記憶されている。例えば、学習用音声データベース13には、音素単位の音声データがデータベースとして記憶されている。この音声データは、雑音や残響がない場所で測定されたものであり、例えば、1時間分の会話をコーパスとしている。そして、コーパスに含まれるそれぞれの音素に対して、「あ」、「い」などのラベルが付けられている。このように、学習用音声データベース13には、音素に対するクリーンな音声データが記憶されている。そして、畳み込み処理部12は、学習用音声データベース13に記憶されているクリーンな音声データsに対して、初期反射成分hを畳み込む。これにより、初期反射成分hが反映された畳み込みデータxが生成される。音素単位のそれぞれの音声データsに対して初期反射成分hを畳み込むことで、それぞれの音素に対する畳み込みデータxが算出される。
【0044】
音響モデル学習処理部14は、初期反射成分が反映された畳み込みデータxに基づいて音響モデル学習処理を行う。音響モデル15がHMMである場合、音響モデル学習処理部14は、HMM学習を行う。具体的には、畳み込みデータxから特徴量を抽出する。そして、音素単位の特徴量をデータベースとして記憶させる。すなわち、各音素に対する特徴量ベクトルがテンプレートモデルとなる。特徴量ベクトルは、例えば、分析長毎に抽出される。
【0045】
具体的には、畳み込みデータxをFFT(高速フーリエ変換)等によってスペクトルデータに変換する。そして、人間の聴覚特性に合わせたフィルタを用いて、スペクトルデータを対数変換し、さらにIFFT(逆高速フーリエ変換)によって、時間データに変換する。このようにすることで、メルケプストラムが求められる。メルケプストラム空間では、スペクトルの包絡が低次に表れ、微細な振動が高次に表れる。そして、低次の部分を取り出して、MFCCを算出する。ここでは、12次元のMFCCを算出している。さらには、その1次差分と、パワーの1次差分を特徴量として抽出している。この場合、特徴量ベクトルは25次元(12+12+1)となる。もちろん、特徴量を抽出するための処理がこれに限られるものではない。
【0046】
そして、MFCCのデータ群によって学習を行う。なお、大量のコーパスに含まれる音声データsに対して処理を行うことで、1つの音素に対する特徴量が平均と分散を持っている。音響モデル15は、平均と分散の値を保持する。そして、音響モデル学習処理部14は、特徴量の平均と分散に応じてHMMの状態遷移確率や出力確率などを決定する。音響モデル学習処理部14は、例えば、EMアルゴリズムによってHMMを学習する。もちろん、EMアルゴリズム以外の公知のアルゴリズムを用いてもよい。このようにして、音響モデル15が学習される。
【0047】
音響モデル学習処理部14で学習された音響モデル15がデータベースとして記憶される。この音響モデル15は、初期反射を考慮したものとなる。すなわち、初期反射成分をHMMでモデル化推定する。これにより、初期反射成分を学習済みの音響モデル15が構築される。この音響モデル15を用いることで、音声信号に含まれる初期反射成分の影響を低減することができ、認識率を向上することができる。
【0048】
次に、拡散残響成分を用いたフィルタ作成処理について、図1、図5、及び図6を用いて説明する。図5は、フィルタを作成するための近似計算を説明するための概念図である。図6は、フィルタ作成の処理フローを示す図である。
【0049】
図1に示すように、拡散残響成分抽出処理部21は、インパルス応答入力に対して、拡散残響成分抽出処理を行う。これにより、インパルス応答の残響パターンの中から初期反射成分が取り除かれた拡散残響成分が抽出される。すなわち、マイク1で計測されたインパルス応答の残響成分のうち、減衰時間境界よりも後のデータを拡散残響成分とする。スペクトル変換処理部22は、インパルス応答の時間データをスペクトルデータに変換する。すなわち、時間領域の拡散残響成分のデータを周波数領域のデータに変換する。ここでは、フーリエ変換などを用いて、拡散残響成分のデータを変換している。すなわち、FFT(高速フーリエ変換)などによって、周波数領域のデータに変換する。なお、スペクトル変換処理部22は、スペクトルデータに変換する前に、上記の分析フレーム長、及びフレームシフトに応じてフレーム化処理を行っている。
【0050】
フィルタ作成部23は、拡散残響成分のデータを用いて、拡散残響を除去するための減算フィルタを作成する。まず、図5を用いてフィルタを作成するための近似計算について説明する。図5は、音声認識を行うためのオンライン処理が示されている。
【0051】
図5のように、発話者が話した音声による音声信号を入力xとし、インパルス応答での拡散残響成分を後部インパルス応答hとする。入力xに対する後部拡散残響xを入力xから除去するためにスペクトル減算処理を行う。スペクトル減算をした後、特徴量に変換し、パターンマッチングにより音声認識を行う。
【0052】
しかしながら、入力xに対する後部拡散残響xを直接観測することができない。すなわち、後部拡散残響xのみを観察することは不可能である。そこで、事前に観測した後部インパルス応答hを用いて後部拡散残響xを近似する。すなわち、x'(=x*h)をxに近似することができれば、拡散残響成分のスペクトル成分を減算することが可能になる。従って、入力xに後部インパルス応答を畳み込んだものを後部拡散残響xと近似することができるようなフィルタを作成する。
【0053】
このように近似するためのオフライン処理について図6を用いて説明する。ここでは、インパルス応答を計測して、クリーンな学習用の音声データsからフィルタδを作成している。学習用音声データベース13に記憶されている音声データsに後部インパルス応答h(t)を畳み込む。これにより、後部拡散残響xが作成される。また、学習用音声データベース13に記憶されている音声データsに対してインパルス応答hを畳み込む。すなわち、インパルス応答hの全部を音声データsに対して畳み込む。これにより、クリーンな音声を発した場合における入力xが生成される。さらに、入力xに対して、後部インパルス応答h(t)を畳み込む。すなわち、音声データsに対してインパルス応答hを畳み込んだ後、そのデータに後部インパルス応答h(t)をさらに畳み込む。この後部インパルス応答h(t)は、クリーンな音声データに畳み込まれた後部インパルス応答h(t)と同一のものである。
【0054】
上記の処理を学習用音声データベース13に含まれる音声データsに対してそれぞれ行う。そして、算出された後部拡散残響xとx'が近くなるようなフィルタδを推定する。すなわち、x≒δx'となる係数を算出する。ここでは、最小2乗誤差計算によって、フィルタδを推定している。すなわち、xがδx'との誤差関数を最小にするように処理を行う。これにより、δx'がxに最も近くなるようなδを算出することができる。ここで、周波数帯で最適な係数が異なる。従って、フィルタδを、周波数帯別に推定する。図6の右上に示すように、周波数帯毎に最適な係数を算出する。具体的には、12次元のフィルタδ(δ、δ、δ、δ、・・・・δ12)を推定する。このフィルタδを用いて、スペクトル減算することで、音声信号から拡散残響成分を除去することができる。すなわち、フィルタδは、拡散残響成分を減算することができる減算フィルタとなる。
【0055】
次に、オンラインの音声認識処理について図1、及び図7を用いて説明する。図7は、音声認識の処理フローを示す図である。まず、マイク1で検出された入力音声が音声認識装置2に入力される。図7では、入力音声を入力xとしている。スペクトル変換処理部31は、入力xをスペクトルデータに変換する。すなわち、FFTなどによって、時間領域のデータを周波数領域のデータに変換する。スペクトル変換処理部31は、スペクトルデータに変換する前に、上記の分析フレーム長、及びフレームシフトに応じてフレーム化処理を行っている。
【0056】
スペクトル減算処理部32は、フィルタδを用いてスペクトルデータから拡散残響成分を減算する。このようにフィルタδを用いたスペクトル減算処理を行うことで、音声信号から拡散残響成分の影響が除去される。拡散残響成分のスペクトルが減算された減算データに基づいて、以下のように音声が認識される。
【0057】
音声認識特徴量変換部33は、スペクトルデータを音声認識の特徴量に変換する。音声認識特徴量変換部33は、拡散残響成分が減算された減算データに基づいて特徴量を抽出する。特徴量としては、例えば、12次元のメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)を用いることができる。そのため、メルフィルタによるフィルタバンク分析を行う。そして、対数変換(Log変換)を行い、離散コサイン変換(DCT)を行うことでMFCCが算出される。ここでは、上記のように、MFCCの1次差分と、パワーの1次差分を含む25次元の特徴量ベクトルが算出される。
【0058】
音声認識の特徴量にMFCCを用いる場合、認識率をより向上することができる。すなわち、スペクトル減算のような非線形処理は、音声信号に戻す場合には、ひずみの原因となるが、MFCCに変換する場合は全く問題とならない。すなわち、音声信号に戻さずに、拡散残響成分が除去されたスペクトルデータをMFCCに直接変換するので、ひずみの発生を防ぐことができる。
【0059】
そして、パターンマッチング処理部34は、音響モデル15の特徴量ベクトルを用いてパターンマッチング処理を行う。これにより、検出した音声信号に対する特徴量ベクトルに最も近いパターンの音素が認識される。すなわち、パターンマッチング処理部34は、音響モデル15を参照して、音声認識処理を行う認識処理部となる。
【0060】
このように、初期反射成分が反映された音響モデル15が用いられているため、より優れた音響モデル15を構築することができる。学習する分析長を超えて影響する拡散残響成分(高次反射成分)を除去した初期反射成分を学習に用いているため、正確な音韻学習を行うことができる。初期反射成分による影響をHMM学習によって吸収することができるため、音声の認識率を向上することができる。
【0061】
さらに、拡散残響成分はスペクトル減算のフィルタδに利用されている。このため、入力音声の拡散残響成分を除去することができる。これにより、拡散残響成分の影響を低減することができ、音声の認識率を向上することができる。
【0062】
本実施形態では、実際に音声認識される音声信号が取得される環境と同一環境でインパルス応答を計測し、そのインパルス応答の残響パターンから初期反射成分と拡散残響成分とを抽出する。ここでは、マイク1が設置された部屋でインパルス応答計測を行っている。部屋の残響やマイク周辺の形状は部屋を移るなどの大きな変化がない限り、ほぼ同一とすることができる。したがって、環境が同じであれば、拡散残響成分は、直接音によらず、ほぼ一定とみなすことができる。すなわち、拡散残響成分は、発話した音声によらず、ほぼ一定となる。マイクを設置する方法を定めた後、部屋のインパルス応答に対する残響を1回だけ測定することで、初期反射成分と拡散残響成分を分割推定することが可能になる。
【0063】
すなわち、環境中でインパルス応答を予め計測して、初期反射成分と拡散反射成分を抽出する。そして、初期反射成分が反映された音響モデル15と、拡散反射成分に基づいて作成されたフィルタδとを、その環境における音声認識に繰り返し使用する。すなわち、同じ環境中で検出された音声信号に対して同じフィルタδ、及び音響モデル15を用いる。予めインパルス応答を一度計測するだけでよいため、音響モデル15の学習、及びフィルタδの作成を簡便に行うことができる。また、予め作成された音響モデル15とフィルタδを用いているため、オンラインでの処理量を低減することができる。よって、簡便な処理で、認識率の高い音声認識を行うことができる。
【0064】
発話者5が部屋を移るなどして環境が変わった場合は、その環境でインパルス応答計測を一度行う。そして、同様の処理によって音響モデル15の学習、及びフィルタδの作成を行う。環境に応じてモデル学習、及びフィルタ作成を行うことで、認識率を向上することができる。あるいは、マイク1を交換した場合も、交換したマイク1でインパルス応答計測を行い、同様に処理する。もちろん、環境は室内に限らず、車内や屋外であってもよい。例えば、音声認識システムをカーナビゲーションシステムなどに搭載してもよい。
【0065】
なお、音響モデル15はHMM以外の音響モデルであってもよい。すなわち、HMM以外の音響モデル15の学習に、初期反射成分を用いてもよい。また、1つのマイク1で残響を除去することができるため、システムの構成を簡素化することができる。
【0066】
さらに、各処理が異なるコンピュータによって行われていもよい。例えば、音響モデル学習、及びフィルタ作成の処理を行うコンピュータと、音声認識を行うコンピュータを物理的に異なるものとしてもよい。この場合、オンライン処理とオフライン処理が異なる装置によって行われる。
【0067】
具体的には、初期反射成分抽出処理部11と畳み込み処理部12と学習用音声データベース13と音響モデル学習処理部14と、拡散残響成分抽出処理部21とスペクトル変換処理部22とフィルタ作成部23とを有する処理装置で、音響モデル15とフィルタδを予め作成する。そして、スペクトル変換処理部31とスペクトル減算処理部32と音声認識特徴量変換部33とパターンマッチング処理部34と有する音声認識装置に、作成された音響モデル15とフィルタδを予め記憶させておく。そして、音声認識装置2に接続されたマイク1で音声信号を検出して、その音声信号に上記の処理を行う。このようにしても、認識率の高い音声認識処理を簡便に行うことができる。あるいは、処理装置などの他のコンピュータに格納されている音響モデル15、及びフィルタδを参照して、音声認識を行うコンピュータが処理を行ってもよい。
【0068】
さらには、音響モデル学習を行うコンピュータと、フィルタ作成を行うコンピュータを物理的に異なるものとしてもよい。また、フィルタ作成と音響モデル学習との間で異なるインパルス応答の計測結果を用いてもよい。すなわち、異なるインパルス応答計測から、初期反射成分と、拡散残響成分を抽出してもよい。例えば、2回インパルス応答計測を行い、一方のインパルス応答計測に基づき初期反射成分を抽出し、他方のインパルス応答計測に基づき拡散残響成分を抽出してもよい。上記の音声認識システムを音声応答型のロボットに搭載することで、的確な音声応答を行うことができる。なお、連続音声による音声信号が入力される場合は、さらに、言語モデルを用いて音声を認識してもよい。
【図面の簡単な説明】
【0069】
【図1】本発明の実施の形態にかかる音声認識システムの構成を示す図である。
【図2】環境内で発生した音が反射する様子を示す図である。
【図3】本発明の実施の形態にかかる音声認識システムで検出された音声信号を模式的に示す図である。
【図4】本発明の実施の形態にかかる音声認識システムにおける音響モデル学習の処理フローを示す図である。
【図5】本発明の実施の形態にかかる音声認識システムにおけるフィルタ作成処理の近似計算を示す図である。
【図6】本発明の実施の形態にかかる音声認識システムにおけるフィルタ作成の処理フローを示す図である。
【図7】本発明の実施の形態にかかる音声認識システムにおける処理フローを示す図である。
【符号の説明】
【0070】
1 マイク
2 音声認識装置
11 初期反射成分抽出処理部
12 畳み込み処理部
13 学習用音声データベース
14 音響モデル学習処理部
15 音響モデルデータベース
21 拡散残響成分抽出処理部
22 スペクトル変換処理部
23 フィルタ作成部
31 スペクトル変換処理部
32 スペクトル減算処理部
33 音声認識特徴量変換部
34 パターンマッチング処理部

【特許請求の範囲】
【請求項1】
音声認識を行うための処理を行う処理装置であって、
環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分を抽出する初期反射成分抽出処理部と、
前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習する音響モデル学習処理部と、を備える処理装置。
【請求項2】
前記環境中で発生したインパルス応答の残響パターンから前記拡散残響成分を抽出する拡散残響成分抽出処理部と、
前記拡散残響成分のスペクトル成分を減算するフィルタを作成するフィルタ作成部と、をさらに備える請求項1に記載の処理装置。
【請求項3】
前記音響モデルを参照して音声認識を行う認識処理を行う認識処理部をさらに備え、
前記フィルタが音声認識に繰り返し用いられる請求項2に記載の処理装置。
【請求項4】
前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、
前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とする請求項1乃至3のいずれか1項に記載の処理装置。
【請求項5】
環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識装置であって、
前記マイクロフォンで検出された音声信号をスペクトルデータに変換するスペクトル変換処理部と、
前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分が反映された音響モデルを用いて、スペクトルデータに応じた特徴量から音声を認識する認識処理部とを備える音声認識装置。
【請求項6】
前記音声信号のスペクトルデータから、フィルタを用いて、インパルス応答の残響パターンから抽出された前記拡散残響成分のスペクトル成分を減算するスペクトル減算処理部を、さらに備え
前記スペクトル減算処理部で前記拡散残響成分のスペクトル成分が減算された減算データに基づいて音声を認識する請求項5に記載の音声認識装置。
【請求項7】
前記フィルタが同じ環境での音声認識に繰り返し用いられることを特徴とする請求項6に記載の音声認識装置。
【請求項8】
請求項5乃至7のいずれか1項に記載の音声認識装置と、
前記環境中で発生した音を受音して、前記音声認識装置に音声信号を出力するマイクロフォンと、を有する音声認識システム。
【請求項9】
環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識方法であって、
環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分を抽出するステップと、
前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習するステップと、を有する音声認識方法。
【請求項10】
前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を抽出し、
前記拡散残響成分のスペクトル成分を減算するフィルタを作成し、
前記フィルタを用いて前記音声信号から前記拡散残響成分のスペクトル成分を減算した減算データに基づいて、音声認識を行う請求項9に記載の音声認識方法。
【請求項11】
前記音響モデルを参照して音声認識を行うステップをさらに備え、
前記フィルタが音声認識に繰り返し用いられる請求項10に記載の音声認識方法。
【請求項12】
前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、
前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とする請求項9乃至11のいずれか1項に記載の音声認識方法。
【請求項13】
環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識プログラムであって、
コンピュータに対して、
前記環境中で発生した基準音を検出して、前記基準音の残響パターンから初期反射成分を抽出させるステップと、
前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習させるステップと、を有する音声認識プログラム。
【請求項14】
前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を抽出し、
前記拡散残響成分のスペクトル成分を減算するフィルタを作成し、
前記フィルタを用いて前記音声信号から前記拡散残響成分のスペクトル成分を減算した減算データに基づいて音声認識を行う請求項13に記載の音声認識プログラム。
【請求項15】
前記音響モデルを参照して音声認識を行うステップをさらに備え、
前記フィルタが音声認識に繰り返し用いられる請求項14に記載の音声認識プログラム。
【請求項16】
前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、
前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とする請求項13乃至15のいずれか1項に記載の音声認識プログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2009−271359(P2009−271359A)
【公開日】平成21年11月19日(2009.11.19)
【国際特許分類】
【出願番号】特願2008−122288(P2008−122288)
【出願日】平成20年5月8日(2008.5.8)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成19年11月22日発行の「社団法人 人工知能学会」が主催する研究集会の予稿集「社団法人 人工知能学会 AIチャレンジ研究会(第26回)」に掲載し、かつ同日開催の上記研究集会において文書をもって発表
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【出願人】(504143441)国立大学法人 奈良先端科学技術大学院大学 (226)
【Fターム(参考)】