説明

音声認識装置及び音声認識装置のマスク生成方法

【課題】複数音源の音声を同時認識する音声認識に適したソフトマスクを備え、音声認識率の向上を図る。
【解決手段】音声認識装置は、複数音源からの混合音を分離する音源分離部101と、前記音源分離部が分離を行った際の分離信頼度に対応して、分離された音声ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部103と、前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部105と、を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数音源の音声を同時認識する音声認識装置及び音声認識装置のマスク生成方法に関する。
【背景技術】
【0002】
複数音源の音声を同時認識する技術は、たとえば、ロボットが実環境で活動する際に重要な技術である。複数音源の音声を同時認識する音声認識システムは、音源ごとに音声を分離し、分離した音声の音響特徴量を使用して音声認識を行なう。ここで、音声認識を行なう際に、分離の信頼度に応じて音響特徴量ごとにマスクが使用される(たとえば、非特許文献1)。このようなマスクとしては、従来、0または1の2値のハードマスクが使用されていた(たとえば、非特許文献2)。0から1の連続的な値を与えるソフトマスクも知られてはいたが(たとえば、非特許文献3)、複数音源の音声を同時認識する音声認識システム用のソフトマスクは開発されていなかった。その理由は、従来、当業者は、複数音源の音声を同時認識する音声認識にはハードマスクの方が適していると考えていたためである(たとえば、非特許文献2)。このように、複数音源の音声を同時認識する音声認識に適したソフトマスクを備え、音声認識率を向上させた音声認識装置は開発されていなかった。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】M. L. Seltzer, B. Raj, and R. M. Stern, “A Bayesian frame work for spectrographic mask estimation for missing feature speech recognition,” Speech Communication, vol.43, pp. 379-393, 2004
【非特許文献2】Shun’ichi Yamamoto, Jean-Marc Valin, Kazuhiro Nakadai, Jean Rouat, Francois Michaud, Tetsuya Ogata, and Hiroshi G. Okuno, "Enhanced Robot Speech Recognition Based on Microphone Array Source Separation and Missing Feature Theory," in Proc. of IEEEI CRA-2005, pp. 1489-1494, 2005
【非特許文献3】J. Barker, L. Josifovski, M. P. Cooke and P. D. Green, “Soft decision in missing data techniques for robust automatic speech recognition,” Proc., ICSLP-2000, 2000
【発明の概要】
【発明が解決しようとする課題】
【0004】
したがって、複数音源の音声を同時認識する音声認識に適したソフトマスクを備え、音声認識率を向上させた音声認識装置に対するニーズがある。
【課題を解決するための手段】
【0005】
本発明の音声認識装置は、複数音源からの混合音を分離する音源分離部と、前記音源分離部が分離を行った際の分離信頼度に対応して、分離された音声ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備えている。
【0006】
本発明による音声認識装置によれば、分離信頼度に対応して、分離された音声ごとに、生成された0から1の間の連続的な値をとりうるソフトマスクを使用して音声が認識されるので、音声認識率が向上する。
【0007】
本発明の実施形態による音声認識装置においては、前記ソフトマスクが、Rを分離信頼度、a、bを定数として、Rのシグモイド関数
1/(1+exp(−a(R−b)))
を使用して定められている。
【0008】
本実施形態によれば、シグモイド関数の定数a及びbを変化させることにより、容易にソフトマスクの調整を行うことができる。
【0009】
本発明の実施形態による音声認識装置においては、前記ソフトマスクが、Rを分離信頼度として、Rを変数とする正規分布の確率密度関数を使用して定められている。
【0010】
本実施形態によれば、正規分布の確率密度関数の形状を変化させることにより、容易にソフトマスクの調整を行うことができる。
【0011】
本発明による音声認識装置のソフトマスクを生成する方法は、複数音源からの混合音を分離する音源分離部と、前記音源分離部が分離を行った際の分離信頼度に対応して、分離された音声ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備えた音声認識装置のソフトマスクを生成する。前記ソフトマスクは、少なくとも一つのパラメータを有する分離信頼度の関数を使用して定められている。該方法は、前記少なくとも一つのパラメータの探索範囲を定めるステップと、前記少なくとも一つのパラメータの探索範囲内において、前記少なくとも一つのパラメータの値を変化させながら、前記音声認識装置の音声認識率を求めるステップと、前記音声認識率が最大となる値を前記少なくとも一つのパラメータの値とするステップとを含む。
【0012】
本発明による音声認識装置のソフトマスクを生成する方法によれば、前記ソフトマスクは、少なくとも一つのパラメータを有する分離信頼度の関数を使用して定められているので、少なくとも一つのパラメータの値を変化させながら、音声認識装置の音声認識率を求めことにより、確実に、音声認識率が最大となるように少なくとも一つのパラメータの値を定めることができる。
【0013】
本発明による音声認識装置のソフトマスクを生成する方法は、複数音源からの混合音を分離する音源分離部と、前記音源分離部が分離を行った際の分離信頼度に対応して、分離された音声ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備えた音声認識装置のソフトマスクを生成する。前記ソフトマスクは、少なくとも一つのパラメータを有する分離信頼度の関数を使用して定められている。該方法は、分離信頼度のヒストグラムを求めるステップと、分離信頼度のヒストグラムの形状から前記少なくとも一つのパラメータの値を定めるステップと、を含む。
【0014】
本発明による音声認識装置のソフトマスクを生成する方法によれば、前記ソフトマスクは、少なくとも一つのパラメータを有する分離信頼度の関数を使用して定められているので、分離信頼度のヒストグラムを求めることにより、分離信頼度のヒストグラムの形状から適切少なくとも一つのパラメータの値を定めることができる。
【0015】
本発明の実施形態による音声認識装置のソフトマスクを生成する方法においては、μ1、μ2(μ1<μ2)を平均値、σ1、σ2を標準偏差とし、分離信頼度をRとして、分離信頼度Rのヒストグラムを、(μ1,σ1)を有する第1の正規分布の確率密度関数f1(R)及び(μ2,σ2)を有する第2の正規分布の確率密度関数f2(R)でフィッティングすることによって、μ1、μ2、σ1及びσ2を推定し、f1(R)、f2(R)、μ1及びμ2を使用して前記ソフトマスクを生成する。
【0016】
本実施形態によれば、分離信頼度Rのヒストグラムを正規分布の確率密度関数でフィッティングすることによって、容易にソフトマスクを生成することができる。
【0017】
本発明の実施形態による音声認識装置のソフトマスクを生成する方法においては、前記ソフトマスクの値をS(R)、f(R)=f1(R)+f2(R)として、
R<μ1において S(R)=0
μ1≦R≦μ2において S(R)=f2(R)/f(R)
μ2<Rにおいて S(R)=1
とする。
【0018】
本実施形態によれば、分離信頼度Rのヒストグラムから求めた正規分布の確率密度関数を使用して、容易にソフトマスクを定めることができる。
【0019】
本発明の実施形態による音声認識装置のソフトマスクを生成する方法においては、前記ソフトマスクの値をS(R)、
R<μ1において
【数1】

μ1≦Rにおいて
【数2】

R<μ2において
【数3】

μ2≦Rにおいて
【数4】

とし、
【数5】

として、
【数6】

とする。
【0020】
本実施形態によれば、分離信頼度Rのヒストグラムから求めた正規分布の確率密度関数を使用して、容易にソフトマスクを定めることができる。
【0021】
本発明の実施形態による音声認識装置のソフトマスクを生成する方法においては、f1(R)とf2(R)との交点で
μ1<R<μ2
を満たすRの値をbとし、
1/(1+exp(−a(R−b)))

f2(R)/f(R)
とフィッティングするようにaを定めて、前記ソフトマスクの値をS(R)として、
S(R)=1/(1+exp(−a(R−b)))
とする。
【0022】
本実施形態によれば、分離信頼度Rのヒストグラムから求めた正規分布の確率密度関数を使用して、容易にソフトマスクを定めることができる。
【図面の簡単な説明】
【0023】
【図1】本発明の一実施形態による音声認識装置の構成を示す図である。
【図2】音源分離部の構成を示す図である。
【図3】分離信頼度Rの分布を表すヒストグラムである。
【図4】MFMを作成する第1の方法を説明するための図である。
【図5】MFMを作成する第2の方法を説明するための図である。
【図6】MFMを作成する第3の方法を説明するための図である。
【図7】マイクロフォンの位置を示す図である。
【図8】スピーカー及びロボットの配置を示す図である。
【図9】ハードマスクとソフトマスクの概念を示す図である。
【図10】パラメータ探索空間に対する、ソフトマスクの、中央のスピーカーからの単語認識率マップを示す図である。
【図11】ハードマスク及びソフトマスクをベースとする音声認識装置の認識率を示す図である。
【図12】分離信頼度Rの分布を表すヒストグラムを使用した、ソフトMFMの生成方法を示す流れ図である。
【図13】マスクの生成方法を示す流れ図である。
【発明を実施するための形態】
【0024】
図1は、本発明の一実施形態による音声認識装置100の構成を示す図である。音声認識装置100は、音源分離部101、マスク生成部103及び音声認識部105から構成される。
【0025】
音声認識装置100は、複数話者など複数音源の音声を同時認識する。音源分離部101は、たとえば、8チャンネルのマイクロフォンアレイを経て複数音源からの混合音声を受け取る。音源分離部101は、分離音を音声認識部105に送る。また、音源分離部101は、後で説明するように、マスク生成部103が、マスク生成に使用する情報をマスク生成部103に送る。マスク生成部103は、音源分離部101から受け取った情報を使用してマスクを生成し、該マスクを音声認識部105に送る。音声認識部105は、音源分離部101から受け取った分離音の音響特徴量を求め、マスク生成部103から受け取ったマスクを使用して音声認識を行う。音声認識部105、音源分離部101及びマスク生成部103の機能について以下においてさらに説明する。
【0026】
音声認識部
音声認識部105は、ミッシングフィーチャ理論に基づいて、音響特徴量系列及び対応するマスク系列から音素列を出力する。ここで、音響特徴量及びマスクは時間フレームごとに計算される。時間フレームごとに計算された音響特徴量またはマスクを時間に沿って並べたものを系列と呼称する。音声認識部105は、隠れマルコフモデル(HMM)に基づいた認識装置であり、HMMは、従来の自動音声認識システムにおいても普通に使用されている。本実施形態の音声認識部105の自動音声認識方法と、従来の音声認識方法との差異は以下のとおりである。従来の音声認識方法において、最尤パスの推定は、HMMにおける状態遷移及び出力確率に基づいている。この出力確率を推定するプロセスが、本実施形態の音声認識部105において、以下のように修正されている。
【0027】
【数7】

がミッシングフィーチャマスク(MFM)・ベクトルであり、
【数8】

がf番目の音響特徴量の分離信頼度を表すとする。Fは、MFMベクトルのサイズであり、ある時間フレームのMFMベクトルは、F個の要素を含む。
【0028】
出力確率
【数9】

は、以下の式で表せる。
【数10】

但し、P(|)は、確率オペレータである。Lは、混合正規分布の混合数を表し、lは、混合正規分布の混合数のインデックスを表す。
【0029】
【数11】

は、音響特徴量ベクトルであり、Fは、音響特徴量ベクトルのサイズである。すなわち、ある時間フレームの音響特徴量ベクトルは、F個の要素を含む。
【0030】
【数12】

は、j番目の状態であり、
【数13】

は、j番目の状態の混合の正規分布である。音響特徴量の分離信頼度の知識が得られなければ、出力確率の式は、従来の式と同じになる。
【0031】
音声認識部105は、日本語実時間大量単語音声認識エンジンであるJulius(参考文献7)の拡張であるMultiband Julius(参考文献5及び6)を使用した。
【0032】
音源分離部
図2は、音源分離部101の構成を示す図である。図2に示すように、音源分離部101は、多チャンネルポストフィルタを備えた、幾何学的音源分離(Geometric Sound Separation, GSS)(参考文献3、8及び11)を使用している。
【0033】
参考文献9によるGSSアプローチは、確率的な傾きを使用したより速い適応及びより短い時間フレーム推定を提供するように改良されている(参考文献11)。GSSを使用した最初の分離に、多数音源用のビームフォーマー・ポストフィルタリング(参考文献11)の一般化に基づくマルチチャネル・ポストフィルタが続く。このポストフィルタは、最初の分離の間に生成された信号を強化するために、背景ノイズ及び干渉音源の適応スペクトル推定を使用する。
【0034】
音源分離部101の音源分離方法の本質的な特徴は、ノイズ推定が定常的な成分と過渡的な成分に分解されていることである。過渡的な成分は、最初の分離段階における出力チャネル間のリークによると仮定される。
【0035】
このGSS方法は、周波数領域において機能する。
【0036】
【数14】

が時間フレームtにおける離散周波数fに対する実際の(未知の)音源であるとする。音源
【数15】

に対応するベクトルは、
【数16】

であり、行列
【数17】

は、音源からマイクロフォンへの伝達関数である。マイクロフォンにおいて観察される信号は、以下の式で表現される。
【数18】

ここで、
【数19】

は、非コヒーレント背景ノイズである。行列
【数20】

は、音源特定アルゴリズムの結果として推定される。全ての伝達関数が単位ゲインを有すると仮定すると、
【数21】

の要素は、以下の式で表現される。
【0037】
aij (f) = exp{-j 2πfδij } (3)
分離結果は、
【数22】

と定義され、ここで
【数23】

は、分離行列である。この行列は、参考文献11に記載されたGSSアルゴリズムを使用して推定される。
【0038】
GSSアルゴリズムの出力は、最初に、参考文献12によって提案された、最適推定器に基づく周波数領域ポストフィルタによって強化される。
【0039】
マルチチャネル・ポストフィルタの入力は、GSSの出力
【数24】

である。マルチチャネル・ポストフィルタの出力
【数25】

は、
【数26】

と表される。ただし、G (f,t) は、ゲインである。G (f,t ) の推定値は、スペクトル振幅の最小二乗誤差基準で求める。G (f,t ) を求めるために、ノイズの分散が推定される。
【0040】
ノイズの分散推定値λm (f,t ) は、
【数27】

と表される。ただし、
【数28】


【数29】

は、時間フレームtにおける、周波数fに対する、音源m のノイズの定常要素の推定値と音源の干渉の推定値である。
【0041】
定常雑音の推定値
【数30】

は、Minima Controlled Recursive Average(MCRA)(参考文献10)によって求める。
【数31】

は、他の音源からの干渉が、ファクタη によって減少(典型的には−10dB≦η≦−5dB)する仮定のもとで、推定される。
【0042】
干渉の推定値は、
【数32】

と表される。ただし、Zi(f,t)は、音源m の平滑化スペクトルで、スペクトルYm (f,t)を用いて再帰的に定義される(参考文献11)。
【数33】

ただし、αは−0.7である。
【0043】
マスク生成部
48個の、スペクトルに関連した特徴量の特徴量ベクトルが使用される。ミッシングフィーチャ・マスク(MFM)は、24個の静的スペクトル特徴量及び24個の動的スペクトル特徴量に対応するベクトルである。ベクトルの各要素は、各特徴量の信頼性を表す。従来のMFM生成において、2値のMFM(すなわち、信頼性がある場合は1であり、信頼性がない場合は0である)が使用されていた。マスク生成部103は、そのベクトルの各要素が0.0から1.0の間であるソフトMFMを生成する。ここで、ソフトMFMを生成するとは、ソフトMFMの定義式にしたがって、その値を定めることをいう。
【0044】
マスク生成部103は、音源分離部101のマルチチャネル・ポストフィルタの、入力
m(f,t) 、出力
【数34】

及び背景雑音の推定値b(f,t)を使用してMFMを計算する。これらのパラメータは、対象関係伝達関数(Object related transfer function, ORTF)を使用してマルチチャネル入力音声から計算される。メル・フィルタバンクを通した変数は、それぞれ、
【数35】

である。メル・フィルタバンクとは、メル周波数軸上で等間隔に配置されたフィルタ群である。
【0045】
分離信頼度R(f,t)以下のように定義する。
【数36】

Yは、音声
【数37】

と背景雑音BNとリークを足し合わせたものからなるため、リークがない場合(他の音源からの混ざりこみがなく、完全に分離できている場合)には分離信頼度が1となり、リークが大きくなるにつれて0に近い値をとるようになる。
【0046】
静的スペクトル特徴量
【数38】

に対する従来のハードMFMは、以下のように定義される。
【数39】

ここで、whardは、重み係数である。
【数40】

【0047】
動的スペクトル特徴量
【数41】

に対するハードMFMは、以下のように定義される。
【数42】

動的特徴量に対する重み付けされていないハードマスクは、二つの連続するフレーム内の静的特徴量に対するハードマスクが1である場合に限り1である。
【0048】
静的スペクトル特徴量
【数43】

に対するソフトMFMは、以下のように定義される。
【数44】

ここで、wは、重み係数である。
【0049】
【数45】

は、2個の調整可能なパラメータを有する修正されたシグモイド関数である。k及び
θsoftは、シグモイド関数の傾きと位置に対応する。シグモイド関数のパラメータの定め方ついては、後で詳細に説明する。
【0050】
動的スペクトル特徴量は、リークノイズ及び静的背景ノイズに対してロバストである。その理由は、隣接する静的スペクトル特徴量の差として定義された動的スペクトル特徴量は、リークノイズ及び静的背景ノイズをキャンセルすることができるからである。静的スペクトル特徴量は、そのようなノイズに対して、動的スペクトル特徴量よりもロバストではない。したがって、動的スペクトル特徴量の寄与が、静的スペクトル特徴量の寄与よりも高い場合には、音声認識率が向上することが期待される。動的スペクトル特徴量の寄与を高くするには、w に小さな値を設定するのが有効である。
【0051】
動的スペクトル特徴量に対するソフトMFMは、以下の式によって定義される。
【数46】

【0052】
図9は、ハードマスクとソフトマスクの概念を示す図である。図9の(a)及び(c)はハードマスクを示し、図9の(b)及び(d)は、ソフトマスクを示す。図9の(a)及び(b)の横軸は周波数を示し、縦軸はパワーを示す。図9の(a)及び(b)における実線と点線は、それぞれ、クリーンな音声のスペクトル特徴量と歪を受けた音声のスペクトル特徴量を示す。ある周波数における実線と点線との差が歪のパワーを示す。図9の(c)及び(d)の横軸は周波数を示し、縦軸はマスクの値を示す。図9の(c)及び(d)における実線は、マスクの値を示す。図9の(c)に示したハードマスクでは、しきい値を使用して歪のある部分のスペクトル特徴量を音声認識における尤度計算から除外する。図9の(d)に示したソフトマスクでは、歪のある部分のスペクトル特徴量を歪量に応じて重み付けして尤度計算を行なう。このように、ハードマスクは、歪のある部分のスペクトル特徴量の情報を無駄にしている。したがって、適切に求めたソフトマスクを使用することにより、音声認識率が向上することが期待される。
【0053】
上記において、ソフトMFMを、修正されたシグモイド関数を使用して作成した場合について説明した。一般的に、ソフトMFMは、種々の方法によって作成することができる。ここで、ソフトMFMの種々の作成方法について説明する。
【0054】
図12は、分離信頼度Rの分布を表すヒストグラムを使用した、ソフトMFMの生成方法を示す流れ図である。ここで、ソフトマスク(ソフトMFM)を生成するとは、ソフトマスクの定義式を定めることをいう。具体的には、分離信頼度Rの関数としてソフトマスクの定義式を定める。
【0055】
図12のステップS1010において、分離信頼度Rの分布を表すヒストグラムを求める。
【0056】
図3は、分離信頼度Rの分布を表すヒストグラムである。横軸は、分離信頼度の値を示し、縦軸は度数を示す。
【0057】
図12のステップS1020において、ステップS1010で求めたヒストグラムに対して、EMアルゴリズム(Expectation-maximization algorithm)を用いて混合正規分布をフィッティングすることにより、第1の正規分布f1(R)の平均値及び標準偏差(μ1,σ1)並びに第2の正規分布f2(R)の平均値及び標準偏差(μ2,σ2)を推定する。
【0058】
図12のステップS1030において、ステップS1020求めた、(μ1,σ1)及び(μ2,σ2)を使用して以下の方法によりソフトMFMを定めることができる。
【0059】
第1の方法
図4は、MFMを作成する第1の方法を説明するための図である。
【0060】
MFMマスクの値をS(R)、f(R)=f1(R)+f2(R)として、
R<μ1において S(R)=0
μ1≦R≦μ2において S(R)=f2(R)/f(R)
μ2<Rにおいて S(R)=1
とする。
【0061】
第2の方法
図5は、MFMを作成する第2の方法を説明するための図である。
【0062】
MFMマスクの値をS(R)、
R<μ1において
【数47】

μ1≦Rにおいて
【数48】

R<μ2において
【数49】

μ2≦Rにおいて
【数50】

とし、
【数51】

として、
【数52】

とする。
【0063】
第3の方法
図6は、MFMを作成する第3の方法を説明するための図である。
【0064】
f1(R)とf2(R)との交点で
μ1<R<μ2
を満たすRの値をbとし、
1/(1+exp(−a(R−b)))

f2(R)/f(R)
とフィッティングするようにaを定めて、MFMマスクの値をS(R)として、
S(R)=1/(1+exp(−a(R−b)))
とする。
【0065】
実験
本実施形態による音声認識装置の効率を評価するように、3つの同時音声信号について実験を行った。人間型ロボットに8個の全方位マイクロフォンを取り付けた。マイクロフォンは空中にないので、ロボットの体の伝達間数は、捉えた音に影響を与えた。
【0066】
図7は、ロボットに設置されたマイクロフォンの位置を示す図である。図7において、マイクロフォンの位置は矢印で示されている。
【0067】
3個のスピーカーを使用して3つの同時音声信号を生成し、同時音声信号を記録した。反響時間は、0.35秒である。
【0068】
図8は、スピーカー及びロボットの配置を示す図である。1個のスピーカーは、ロボットの正面に配置した。他の2個のスピーカーは、ロボットの左側及び右側の、10、20、30、40、50、60、70、80又は90度の角度に配置した。図8において右側の角度をθで示し、左側の角度を−θで示している。換言すれば、角度θを変えながら、9通りの構成で実験を行なった。スピーカーの音量は、全ての場所において同じレベルに設定した。それぞれの構成に対して、3つの異なる単語の200個の組み合わせが実施された。単語は、国際電気通信基礎研究所(ASR)によって配布された、216個の音声的にバランスのとれた単語から選択した。換言すれば、本実施形態による音声認識装置は、各構成において、3つの同時声信号を、200回認識した。
【0069】
式(9)、(12)及び(13)におけるパラメータθhard、θsoft、k及びwを最適化するように3つの同時音声信号の認識について実験を行った。
【0070】
図13は、マスクの生成方法を示す流れ図である。
【0071】
図13のステップS2010において、パラメータを有し、マスクを規定する分離信頼度Rの関数を定める。ハードマスクを規定する関数は、式(9)及び(10)で表され、パラメータはθhardである。ソフトマスクを規定する関数は、式(12)及び(13)で表され、パラメータはθsoft、k及びwである。
【0072】
図13のステップS2020において、パラメータの探索範囲を定める。
【0073】
表1は、パラメータ探索範囲を示す表である。
【表1】

【0074】
図13のステップS2030において、パラメータの探索範囲内でパラメータの値を変化させ、その値を有するマスクを使用した音声認識装置の音声認識率を求める。
【0075】
図13のステップS2040において、音声認識率が最大となるパラメータの値をマスクに使用するパラメータの値とする。
【0076】
結果によれば、ハードマスクθhardの最適なしきい値(音声認識率を最大とするパラメータ)は、0.1であり、ソフトマスクに設定された最適なパラメータ・セット(音声認識率を最大とするパラメータ・セット)は、
{w,θsoft,k}={0.3,0.2,140}
であった。ハードマスク及びソフトマスクに基づいた、中央のスピーカーからの最良の認識率は、それぞれ、93%及び97%であるので、ソフトマスクは、ハードマスクよりもよく機能している。
【0077】
図10は、パラメータ探索空間に対する、ソフトマスクの、中央のスピーカーからの単語認識率マップを示す図である。図10の「しきい値」は、θsoftを示す。左及び右スピーカーに対しても、マップのピークに設定されるパラメータは、中央のスピーカーに対するマップと同様である。
【0078】
自動音声認識には、Multiband Juliusを使用した。実験においては、分離した単語を認識するのに、三重音音響モデル及び文法ベース言語モデルを使用した。三重音は、3つの状態及び各状態における4つの混合を有するHMMであり、国際電気通信基礎研究所(ASR)によって配布された、216個の音声的にバランスのとれた単語において、訓練される。語彙のサイズは、200語である。
【0079】
図11は、ハードマスク及びソフトマスクをベースとする音声認識装置の認識率を示す図である。これらの認識率は、全ての探索範囲における、最良の認識率である。横軸は、スピーカーの位置を示し、縦軸は、単語認識率を示す。探索空間の詳細は、表1に示されている。たとえば、横軸上の「30及び左」は、認識目標スピーカーが、中央の30度左側に位置し、他の2個のスピーカーが中央と中央の30度右側に位置することを意味する。横軸上の「60及び中央」は、認識目標スピーカーが、ロボットの正面に位置し、他の2個のスピーカーが中央の60度右側及び左側に位置することを意味する。ソフトマスクをベースとする音声認識装置の語認識率は、ハードマスクをベースとする音声認識装置の語認識率よりも、平均で約5%高い。
【0080】
このように、適切に設計され、調整されたソフトマスクを使用することにより、音声認識装置の、複数音源の音声の同時認識率が向上した。
【0081】
なお、上記の実施形態においては、分離信頼度Rを使用してソフトマスクを定めた。分離信頼度Rに代えて、音源分離部で求めた入力音声のS/N比(信号・ノイズ比)を使用してソフトマスクの値を設定してもよい。
【0082】
参考文献
[1] Makio Kashino and Tatsuya Hirahara,“One, two, many-judging the number of concurrent talkers, ”Journal of Acoustic Society of America, vol.99, no.4, pp. Pt.2,2596, 1966.

[2] M. L. Seltzer, B. Raj, and R. M. Stern, “A Bayesian frame work for spectrographic mask estimation for missing feature speech recognition,” Speech Communication, vol.43, pp. 379-393, 2004.

[3] Shun’ichi Yamamoto, Jean-Marc Valin, Kazuhiro Nakadai, Jean Rouat, Francois Michaud, Tetsuya Ogata, and Hiroshi G. Okuno, “Enhanced Robot Speech Recognition Based on Microphone Array Source Separation and Missing Feature Theory,” in Proc. of IEEEI CRA-2005, pp. 1489-1494, 2005.

[4] J.Barker, L. Josifovski, M. P. Cooke and P. D. Green, “Soft decision in missing data techniques for robust automatic speech recognition,” Proc., ICSLP-2000, 2000.

[5] Yoshitaka Nishimura, Takahiro Shinozaki, Koji Iwano, and Sadaoki Furui, “Noise-Robust Speech Recognition Using Multi-Band Spectral Features,” in Proc., 148th Acoustical Society of America Meetings, No.1aSC7, 2004.

[6] Multiband Julius, “http://www.furui.cs.titech.ac.jp/mbandjulius/”.

[7] Tatsuya Kawahara and Akinobu Lee, “Free Software Toolkit for Japanese Large Vocabulary Continuous Speech Recognition,” in Proc. of ISCA ICSLP-2000, vol. 4, pp. 476-479, 2000.

[8] Shun’ichi Yamamoto, Kazuhiro Nakadai, Jean-Marc Valin, Jean Rouat, Francois Michaud, Kazunori Komatani, Tetsuya Ogata, and Hiroshi G. Okuno, “Making A Robot Recognize Three Simultaneous Sentences In Real-time,” in Proc. of IEEE/RSJIROS-2005, pp. 897-902, 2005.

[9] Lucas C. Parra and Cristopher V. Alvino, “Geometric Source Separation: Merging Convolutive Source Separation With Geometric Beamforming,” IEEE Trans. Speech and Audio Processing, vol. 10, no. 6, pp. 352-362, 2002.

[10] Israel Cohen and Baruch Berdugo, “Speech enhancement for non-stationary noise environments, ”Signal Processing, 81(2), pp. 2403-2418, 2001.

[11] Shun’ichi Yamamoto, Kazuhiro Nakadai, Mikio Nakano, Hiroshi Tsujino, Jean-Marc Valin, Ryu Takeda, Kazunori Komatani, Tetsuya Ogata, and Hiroshi G. Okuno, “Genetic Algorithm-Based Improvemen tof Robot Hearing Capabilities in Separating and Recognizing Simultaneous Speech Signals,” in Proc., IEA/AIE-2006 LNAI4031, 2006, pp. 207-217, Springer-Verlag.

[12] Y. Ephraim and D. Malah, “Speech Enchancement Using Min-imum Mean-Square Error Log-Spectral Amplitude Estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-33, no. 2, pp. 443-445, 1985.
【符号の説明】
【0083】
100…音声認識装置、101…音源分離部、103…マスク生成部、105…音声認識部

【特許請求の範囲】
【請求項1】
複数音源からの混合音を分離する音源分離部と、
前記音源分離部が分離を行った際の分離信頼度に対応して、分離された音声ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、
前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備えた音声認識装置。
【請求項2】
前記ソフトマスクが、Rを分離信頼度、a、bを定数として、Rのシグモイド関数
1/(1+exp(−a(R−b)))
を使用して定められた請求項1に記載の音声認識装置。
【請求項3】
前記ソフトマスクが、Rを分離信頼度として、Rを変数とする正規分布の確率密度関数を使用して定められた請求項1に記載の音声認識装置。
【請求項4】
音声認識装置のソフトマスクを生成する方法であって、前記音声認識装置は、
複数音源からの混合音を分離する音源分離部と、
前記音源分離部が分離を行った際の分離信頼度に対応して、分離された音声ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、
前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備え、前記ソフトマスクは、少なくとも一つのパラメータを有する分離信頼度の関数を使用して定められており、
前記少なくとも一つのパラメータの探索範囲を定めるステップと、
前記少なくとも一つのパラメータの探索範囲内において、前記少なくとも一つのパラメータの値を変化させながら、前記音声認識装置の音声認識率を求めるステップと、
前記音声認識率が最大となる値を前記少なくとも一つのパラメータの値とするステップとを含む、音声認識装置のソフトマスクを生成する方法。
【請求項5】
音声認識装置のソフトマスクを生成する方法であって、前記音声認識装置は、
複数音源からの混合音を分離する音源分離部と、
前記音源分離部が分離を行った際の分離信頼度に対応して、分離された音声ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、
前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備え、前記ソフトマスクは、少なくとも一つのパラメータを有する分離信頼度の関数を使用して定められており、
分離信頼度のヒストグラムを求めるステップと、
分離信頼度のヒストグラムの形状から前記少なくとも一つのパラメータの値を定めるステップと、を含む、音声認識装置のソフトマスクを生成する方法。
【請求項6】
μ1、μ2(μ1<μ2)を平均値、σ1、σ2を標準偏差とし、分離信頼度をRとして、分離信頼度Rのヒストグラムを、(μ1,σ1)を有する第1の正規分布の確率密度関数f1(R)及び(μ2,σ2)を有する第2の正規分布の確率密度関数f2(R)でフィッティングすることによって、μ1、μ2、σ1及びσ2を推定し、f1(R)、f2(R)、μ1及びμ2を使用して前記ソフトマスクを生成する、請求項5に記載の音声認識装置のソフトマスクを生成する方法。
【請求項7】
前記ソフトマスクの値をS(R)、f(R)=f1(R)+f2(R)として、
R<μ1において S(R)=0
μ1≦R≦μ2において S(R)=f2(R)/f(R)
μ2<Rにおいて S(R)=1
とする、請求項6に記載の音声認識装置のソフトマスクを生成する方法。
【請求項8】
前記ソフトマスクの値をS(R)、
R<μ1において
【数1】

μ1≦Rにおいて
【数2】

R<μ2において
【数3】

μ2≦Rにおいて
【数4】

とし、
【数5】

として、
【数6】

とする、請求項6に記載の音声認識装置のソフトマスクを生成する方法。
【請求項9】
f1(R)とf2(R)との交点で
μ1<R<μ2
を満たすRの値をbとし、
1/(1+exp(−a(R−b)))

f2(R)/f(R)
とフィッティングするようにaを定めて、前記ソフトマスクの値をS(R)として、
S(R)=1/(1+exp(−a(R−b)))
とする、請求項6に記載の音声認識装置のソフトマスクを生成する方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2010−49249(P2010−49249A)
【公開日】平成22年3月4日(2010.3.4)
【国際特許分類】
【出願番号】特願2009−185164(P2009−185164)
【出願日】平成21年8月7日(2009.8.7)
【出願人】(000005326)本田技研工業株式会社 (23,863)
【Fターム(参考)】