マイクロホンアレー
【課題】例えば工場などの大きな雑音を発生する現場において従来技術に比較してSNRを向上させた音声信号を得ることができるマイクロホンアレーを提供する。
【解決手段】マイクロホンアレー10は、角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられたマイクロホン1と、上記角錐の底面の少なくとも2つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数のマイクロホン2,3,4とを備えて構成される。ここで、上記角錐は例えば三角錐又は正三角錐である。
【解決手段】マイクロホンアレー10は、角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられたマイクロホン1と、上記角錐の底面の少なくとも2つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数のマイクロホン2,3,4とを備えて構成される。ここで、上記角錐は例えば三角錐又は正三角錐である。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば所定の雑音環境下で音声認識率を向上させるために好適なマイクロホンアレーと、それを用いた音声認識装置に関する。
【背景技術】
【0002】
例えば、特許文献1において、話者の方向又は位置を推定して音声認識率を向上させることができる音声認識装置が開示されている。
【0003】
この従来例に係る音声認識装置では、複数のマイクロホンを所定の間隔で並置してなるマイクロホンアレーを備えた音声認識装置において、方向推定部は、各マイクロホンから出力される電気信号に基づいてマイクロホンアレーで受信される少なくとも1つの音源の方位角を推定し、ビームフォーミング部は、各マイクロホンから出力される電気信号に基づいて推定された少なくとも1つの音源の方位角の方向に対応する少なくとも1つのビーム信号を生成する。次いで、音源判定部は各ビーム信号に基づいて音声のHMMと雑音HMMとを用いて各ビーム信号が音声であるか非音声であるかを判定し、音声認識部17は音声であると判定されたときに、当該ビーム信号に対して音声認識を行って音声認識結果を出力する。
【0004】
【特許文献1】特開2002−091469号公報。
【特許文献2】特開2003−044092号公報。
【特許文献3】特開平11−327593号公報。
【非特許文献1】S. E. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transaction on Acoustic Speech and Signal Processing, Vol. ASSP-27, pp.113-120, April 1979.
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、マイクロホンアレーを、例えば工場などの大きな雑音を発生する現場において用いて音声認識する場合、当該雑音により音声認識率が大幅に低下するという問題点があった。
【0006】
本発明の目的は以上の問題点を解決し、例えば工場などの大きな雑音を発生する現場において信号対雑音電力比(以下、SNRという。)を従来技術に比較して向上させた音声信号を得ることができるマイクロホンアレーと、それを用いて音声認識することにより従来技術に比較して大きな音声認識率を得ることができる音声認識装置とを提供することにある。
【課題を解決するための手段】
【0007】
本発明に係るマイクロホンアレーは、
角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられた第1のマイクロホンと、
上記角錐の底面の少なくとも2つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数の第2のマイクロホンとを備えたことを特徴とする。
【0008】
上記マイクロホンアレーにおいて、上記角錐は三角錐又は正三角錐であることを特徴とする。
【0009】
また、上記マイクロホンアレーにおいて、上記正三角錐の底面の3つの頂点において、3つの第2のマイクロホンを設けたことを特徴とする。
【0010】
さらに、上記マイクロホンアレーは音声認識用マイクロホンアレーであることを特徴とする。
【発明の効果】
【0011】
本発明に係るマイクロホンアレーによれば、少なくとも3つのマイクロホンを用いて話者の音声を収集することにより、従来技術に比較して向上させた音声信号を得ることができる。また、当該マイクロホンアレーを用いて音声信号を収録し、減算形アレー法を用いて複数のカージオイド信号を生成し、そのうちのより高いSNRを有する複数のカージオイド信号を加算し、その加算信号に対してスペクトルサブトラクション法を用いて雑音除去をした後音声認識することにより、例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる。
【発明を実施するための最良の形態】
【0012】
以下、本発明に係る実施形態について図面を参照して説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。
【0013】
図1は本発明の一実施形態に係るマイクロホンアレー10の配置を示す斜視図であり、図2は図1のマイクロホンアレー10を備えたマイクロホン筐体11を示す側面図であり、図3は図2のマイクロホン筐体11を示す正面図である。本実施形態に係るマイクロホンアレー10は、各無指向性マイクロホン1,2,3,4を正三角錐の各頂点の位置に設けたことを特徴としている。図1及びそれ以降の配置図において、XYZの3次元座標系で各マイクロホン1,2,3,4の位置を示しており、各マイクロホン1〜4の配置座標は以下の通りである。
【0014】
(A)マイクロホン1のXYZ座標=(0,0,0);正三角錐の上部頂点の位置であって、XYZの3次元座標系の原点に位置する。
(B)マイクロホン2のXYZ座標=(0,√(6)d/3,√(3)d/3);正三角錐の底面の一頂点の位置であって、XY平面の0度及びXZ平面の55度の方位に位置する。
(C)マイクロホン3のXYZ座標=(d/2,√(6)d/3,−√(3)d/6);正三角錐の底面の一頂点の位置であって、XY平面の30度及びXZ平面の110度の方位に位置する。
(D)マイクロホン4のXYZ座標=(−d/2,√(6)d/3,−√(3)d/6);正三角錐の底面の一頂点の位置であって、XY平面の300度及びXZ平面の110度の方位に位置する。
【0015】
図1において、XYZの3次元座標系は、話者の口元先端部5から話者音声が矢印6の音声放射方向がY軸方向となるように配置されている。すなわち、Y軸方向は話者の口元先端部5からの法線ベクトルの方向であり、X軸方向は水平方向であり、Z軸方向は垂直方向である。そして、各マイクロホン1〜4の放射主軸(放射指向特性の主方向の軸であり、マイクロホンの筒形状の軸に対応する。)は音声放射方向6を向くようにかつそれに対して実質的に平行となるように配置されている。
【0016】
図2及び図3において、4つのマイクロホン1〜4からなるマイクロホンアレー10はマイクロホン筐体11に収容され、当該マイクロホン筐体11は話者のヘッドホンセットのフレキシブルアーム12の先端部に取り付けられている。当該マイクロホン筐体11を正面から見ると、図3から明らかなように、4つのマイクロホン1〜4の放射面が見えるが、上部頂点のマイクロホン1のみが話者の口元により近接するような配置となっている。また、マイクロホン1〜4のうちの各隣接する2つのマイクロホン間の間隔は、図2から明らかなように、10mmに設定されている。これについては、音声信号をサンプリングするサンプリング周波数16kHzに対して、標本化定理と同様にマイクロホン間に許容される最大距離が音速÷サンプリング周波数により、340000/16000=21.25mmとなり、さらに詳細後述するカージオイドを用いた信号処理を行う場合は折り返しという減少を防ぐために、さらに半分にする必要があり、許容される最大距離が10.625mmとなることから決定されている。その中で、最大の位相差及び角度差が得られる形状として正三角錐を採用している。
【0017】
図1乃至図3の実施形態においては、正三角錐の各頂点にマイクロホン1〜4を配置しているが、本発明はこれに限らず、正三角錐は三角錐、多角錐又は角錐でもよく、底面の各頂点に配置されるマイクロホン2〜4は少なくとも2つのみ配置してもよい。また、多角錐の場合は、底面の各頂点に配置されるマイクロホンの数は少なくとも2つ、すなわち複数配置すればよい。
【0018】
図4は図1のマイクロホンアレー10を用いた音声認識装置の構成を示すブロック図である。
【0019】
図4において、マイクロホン1に入力された音声は音声信号に変換された後、低周波増幅器21及びA/D変換器26を介してディジタル信号S1に変換され、減算器41,42,43に入力される。また、マイクロホン2に入力された音声は音声信号に変換された後、低周波増幅器22及びA/D変換器27を介してディジタル音声信号S2に変換され、次いで、当該ディジタル音声信号S2は、遅延器31を介して減算器41に入力され、減算器44に入力され、遅延器35を介して減算器45に入力され、遅延器38を介して減算器48に入力され、減算器49に入力される。マイクロホン3に入力された音声は音声信号に変換された後、低周波増幅器23及びA/D変換器28を介してディジタル音声信号S3に変換され、次いで、当該ディジタル音声信号S3は、遅延器32を介して減算器42に入力され、遅延器34を介して減算器44に入力され、減算器45に入力され、減算器46に入力され、遅延器37を介して減算器47に入力される。マイクロホン4に入力された音声は音声信号に変換された後、低周波増幅器24及びA/D変換器29を介してディジタル音声信号S4に変換され、次いで、当該ディジタル音声信号S4は、遅延器33を介して減算器43に入力され、遅延器36を介して減算器46に入力され、減算器47に入力され、減算器48に入力され、遅延器39を介して減算器49に入力される。なお、各遅延器31〜39は、隣接するマイクロホン間の音声信号の到来時間差を補償するために本実施形態では、29.4マイクロ秒の遅延量を有する。
【0020】
遅延形アレー回路30は、9個の遅延器31〜39と、9個の減算器41〜49砥を備えて構成され、公知の減算形アレー法(例えば、非特許文献2参照。)を用いて、図5及び図6を参照して説明するように、雑音方向に対してゼロ点(指向性利得の最小点)を生成する所定のカージオイドC1〜C9を発生する。
【0021】
減算器41はディジタル音声信号S1から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC1(後述するカージオイドC1の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器42はディジタル音声信号S1から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC2(後述するカージオイドC2の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器43はディジタル音声信号S1から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC3(後述するカージオイドC3の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。
【0022】
減算器44はディジタル音声信号S2から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC4(後述するカージオイドC1の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器45はディジタル音声信号S3から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC5(後述するカージオイドC5の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器46はディジタル音声信号S3から遅延されたディジタル音声信号S4を減算し減算結果のカージオイド音声信号SC6(後述するカージオイドC6の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器47はディジタル音声信号S4から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC7(後述するカージオイドC7の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器48はディジタル音声信号S4から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC8(後述するカージオイドC8の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器49はディジタル音声信号S2から遅延されたディジタル音声信号S4を減算し減算結果のカージオイド音声信号SC9(後述するカージオイドC9の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。
【0023】
信号評価及び選択回路50は、入力される9つのカージオイド音声信号SC1〜SC9について、VAD(Voice Activity Detection)機能を用いて、音声区間と雑音区間とを検出し、それに基づいてSNRを計算し、SNRが大きい上位2つ(変形例では、3つ)のカージオイド音声信号を選択し、選択したカージオイド音声信号を加算して加算結果のカージオイド音声信号を雑音除去回路51に出力する。ここで、VAD機能は、以下の条件で音声区間を検出する。
(1)所定のしきい値以上の信号レベルを有すること。
(2)所定のパワーレベル以上離れたカージオイド信号が存在しないこと。これは、口元方向に対応する3つのカージオイド信号と、顔平面方向に対応するカージオイド信号について、口元方向からの音声に対しては、前者3つのカージオイド音声信号はもちろん、後者6つのカージオイド音声信号も少しパワーが上がるのに対して、口元以外の方向からの音声信号は、1つ以上のカージオイドの死角に入る可能性が高く、9つの中で相対的にパワー差が開く傾向にあることを利用しようというものである。
(3)音声区間として検出されたフレームの前後500ミリ秒を音声区間として扱う。
【0024】
次いで、雑音除去回路51は、入力されるカージオイド音声信号に対して、公知のスペクトルサブトラクション法(以下、SS法という。)を用いて音声信号中の雑音を除去し、処理後のディジタル音声信号を音声認識回路52に出力する。ここで、SS法は周波数領域における雑音除去法として従来から用いられており、雑音が付加された音声信号のパワースペクトから、別途推定した雑音のパワースペクトルを差し引き、そのパワースペクトルをフーリエ逆変換することで雑音を除去した音声信号を復元するものである(例えば、特許文献3及び非特許文献1参照。)。ここで、SS法を用いた演算後のスペクトル成分X(f)は次式で表される。
【0025】
[数1]
X2(f)=max{x(f)−αN(f),βN(f)} (1)
【0026】
ここで、α,βは所定の定数であって、例えばα=2.0,β=0.001である。また、X(f)は雑音をスペクトル減算した結果のスペクトル成分であり、x(f)は収録音声データ(音声+雑音)のスペクトル成分であり、N(f)は雑音のスペクトル成分である。
【0027】
音声認識回路52は、入力されるディジタル音声信号に対して例えば所定の音声辞書又は音声モデル(例えばHMM)を用いて音声認識処理を実行して、音声認識結果のテキストデータを液晶ディスプレイ(LCD)53に表示出力し、もしくはパーソナルコンピュータなどの外部装置に出力する。
【0028】
次いで、図3の音声認識装置において形成されるカージオイドC1〜C9について、図5及び図6を参照して以下に説明する。
【0029】
図5は図4の音声認識装置において実現される口元方位に対応する3つのカージオイドC1,C2,C3を示す斜視図である。図5において、カージオイドC1はディジタル音声信号S1及びS2により形成されるものであり、マイクロホン2に向う方向にゼロ点を有する。また、カージオイドC2はディジタル音声信号S1及びS3により形成されるものであり、マイクロホン3に向う方向にゼロ点を有する。さらに、カージオイドC3はディジタル音声信号S1及びS3により形成されるものであり、マイクロホン3に向う方向にゼロ点を有する。
【0030】
図6は図4の音声認識装置において実現される顔水平方位に対応する6つのカージオイドC4,C5,C6,C7,C8,C9を示す斜視図である。図6において、カージオイドC4,C5はディジタル音声信号S2及びS3により形成されるものであり、カージオイドC4はマイクロホン3に向う方向にゼロ点を有し、カージオイドC5はマイクロホン2に向う方向にゼロ点を有する。また、カージオイドC6,C7はディジタル音声信号S3及びS4により形成されるものであり、カージオイドC6はマイクロホン4に向う方向にゼロ点を有し、カージオイドC7はマイクロホン3に向う方向にゼロ点を有する。さらに、カージオイドC8,C9はディジタル音声信号S4及びS2により形成されるものであり、カージオイドC8はマイクロホン2に向う方向にゼロ点を有し、カージオイドC9はマイクロホン4に向う方向にゼロ点を有する。
【実施例1】
【0031】
図7は本発明者らによって実行された実施例1に係るシミュレーション実験(3つの定常雑音Nst11,Nst12,Nst13)における雑音配置を示す斜視図である。図7において、スピーカの記号は3つの定常雑音Nst11,Nst12,Nst13の配置位置及び放射方向を示している。ここで、定常雑音Nst11は、XY平面60度及びXZ平面90度の方位から放射され、定常雑音Nst12は、+Y軸から原点に向う方向で放射され、定常雑音Nst13は、XY平面300度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。
【0032】
[表1]
―――――――――――――――――
SNR(C1)=25.8dB
SNR(C2)=24.4dB
SNR(C3)=24.1dB
SNR(C4)=15.0dB
SNR(C5)=14.8dB
SNR(C6)=13.6dB
SNR(C7)=13.8dB
SNR(C8)=14.9dB
SNR(C9)=14.9dB
―――――――――――――――――
【0033】
この表1のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
【0034】
[表2]
―――――――――――――――――
SNRADD(T2)=25.3dB
SNRADD(T3)=25.9dB
SNRADD(T4)=23.3dB
SNRADD(T5)=21.6dB
SNRADD(T6)=20.7dB
SNRADD(T7)=20.0dB
SNRADD(T8)=19.4dB
SNRADD(T9)=18.7dB
――――――――――――――――――
【0035】
表2から明らかなように、上位3個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。
【実施例2】
【0036】
図8は本発明者らによって実行された実施例2に係るシミュレーション実験(1つの突発性雑音Nsu21)における雑音配置を示す斜視図である。図8において、スピーカの記号は突発性雑音Nsu21の配置位置及び放射方向を示している。ここで、突発性雑音Nsu21は、XY平面60度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。
【0037】
[表3]
―――――――――――――――――
SNR(C1)=5.2dB
SNR(C2)=0.8dB
SNR(C3)=16.4dB
SNR(C4)=−6.5dB
SNR(C5)=1.3dB
SNR(C6)=16.0dB
SNR(C7)=−8.6dB
SNR(C8)=−6.6dB
SNR(C9)=1.6dB
―――――――――――――――――
【0038】
この表3のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
【0039】
[表4]
―――――――――――――――――
SNRADD(T2)=16.2dB
SNRADD(T3)=9.5dB
SNRADD(T4)=7.1dB
SNRADD(T5)=6.5dB
SNRADD(T6)=5.0dB
SNRADD(T7)=2.7dB
SNRADD(T8)=1.3dB
SNRADD(T9)=−0.5dB
――――――――――――――――――
【0040】
表4から明らかなように、上位2個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。
【実施例3】
【0041】
図9は本発明者らによって実行された実施例3に係るシミュレーション実験(1つの突発性雑音Nsu31及び1つの定常雑音Nst32)における雑音配置を示す斜視図である。図9において、スピーカの記号は1つの突発性雑音Nsu31及び1つの定常雑音Nst32の配置位置及び放射方向を示している。ここで、突発性雑音Nsu31は、XY平面60度及びXZ平面90度の方位から放射され、定常雑音Nst32は、XY平面300度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。
【0042】
[表5]
―――――――――――――――――
SNR(C1)=9.3dB
SNR(C2)=6.4dB
SNR(C3)=9.4dB
SNR(C4)=−1.5dB
SNR(C5)=0.8dB
SNR(C6)=−0.2dB
SNR(C7)=−2.9dB
SNR(C8)=−1.2dB
SNR(C9)=1.0dB
―――――――――――――――――
【0043】
この表5のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
【0044】
[表6]
―――――――――――――――――
SNRADD(T2)=10.0dB
SNRADD(T3)=7.6dB
SNRADD(T4)=7.0dB
SNRADD(T5)=6.4dB
SNRADD(T6)=5.6dB
SNRADD(T7)=4.9dB
SNRADD(T8)=4.3dB
SNRADD(T9)=−3.4dB
――――――――――――――――――
【0045】
表6から明らかなように、上位2個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。
【実施例4】
【0046】
図10は本発明者らによって実行された実施例4に係るシミュレーション実験(1つの定常雑音Nst41)における雑音配置を示す斜視図である。図10において、スピーカの記号は1つの定常雑音Nst41の配置位置及び放射方向を示している。ここで、定常雑音Nst41は、XY平面30度及びXZ平面90度の方位から背景雑音レベル90dBAで放射される。このときに図4の音声認識装置により評価した各カージオイド音声信号SCn(n=1,2,…,9)に基づいて、上位2個又は3個のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
[表7]
―――――――――――――――――
SNRADD(T2)=8.0dB
SNRADD(T3)=7.3dB
――――――――――――――――――
【0047】
ここで、より高いSNRを有する上位2個のカージオイド音声信号を加算したときに、SS法を用いる図4の雑音除去回路51を用いた場合のSNRssを以下に示す。
【0048】
[表8]
―――――――――――――――――――――――――――
SNRSS(α=1.0;β=0.001)=8.0dB
SNRSS(α=2.0;β=0.001)=10.3dB
―――――――――――――――――――――――――――
【0049】
表8から明らかなように、SS法を用いた雑音除去回路51を用いることにより大幅にSNRが改善されていることがわかる。
【0050】
以上の実施例1乃至4において、定常雑音は例えばベルトコンベヤーなどから発生するホワイトノイズであり、突発性雑音は例えば金属材料のパンチングなどから発生する突発雑音である。
【実施例5】
【0051】
実施例5において、本発明者らは、各種の過酷な雑音環境下(出願人の犬山工場にて)で、以下の実験条件下で異なる100個の数字4桁を話者により読み上げ、そのときの、音声認識率を測定した。
【0052】
[表9]
―――――――――――――――――――――――――――――――――――――――
(A)音声認識ソフトウエア:日本電気製音声認識テストアプリケーション
(B)認識辞書:数字認識辞書4桁
(C)使用マイクロホン:
(C1)日本電気製ヘッドセットマイクロホン(比較例1;単一性音声用マイクロホンと、無指向性雑音用マイクロホンとを備えて構成される)
(C2)ゼンハイザー製HMD−25型マイクロホン(比較例2)
(C3)本実施形態に係るマイクロホンアレー(実施形態;図1乃至図3に示すように、1個の無指向性音声用マイクロホン1と、3個の無指向性雑音用マイクロホン2,3,4とを備えて構成される。)
―――――――――――――――――――――――――――――――――――――――
【0053】
図11は本発明者らによって実行された実施例5に係る雑音下音声認識実験の実験結果(音声認識率)を示す表である。図11から明らかなように、騒音レベルが80dBAという非常に過酷な雑音環境下において、本実施形態に係るマイクロホンアレー10を用いて収音することにより、従来技術に比較して大きく改善されたSNRを有する音声信号を得ることができる。
【0054】
また、実施例1乃至4の結果から明らかなように、本実施形態に係るマイクロホンアレー10を用いて収音しかつ本実施形態に係る図4の音声認識装置を用いて音声認識することにより音声認識率を大幅に向上させることができる。
【0055】
以上の実施形態においては、減算形アレー法とSS法とを併用しているが、本発明はこれに限らず、前者のみを用いて信号処理した後、音声認識してもよい。
【産業上の利用可能性】
【0056】
以上詳述したように、本発明に係るマイクロホンアレーによれば、少なくとも3つのマイクロホンを用いて話者の音声を収集することにより、従来技術に比較して向上させた音声信号を得ることができる。また、当該マイクロホンアレーを用いて音声信号を収録し、減算形アレー法を用いて複数のカージオイド信号を生成し、そのうちのより高いSNRを有する複数のカージオイド信号を加算し、その加算信号に対してSS法を用いて雑音除去をした後音声認識することにより、例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる。
【図面の簡単な説明】
【0057】
【図1】本発明の一実施形態に係るマイクロホンアレー10の配置を示す斜視図である。
【図2】図1のマイクロホンアレー10を備えたマイクロホン筐体11を示す側面図である。
【図3】図2のマイクロホン筐体11を示す正面図である。
【図4】図1のマイクロホンアレー10を用いた音声認識装置の構成を示すブロック図である。
【図5】図4の音声認識装置において実現される口元方位に対応する3つのカージオイドC1,C2,C3を示す斜視図である。
【図6】図4の音声認識装置において実現される顔水平方位に対応する6つのカージオイドC4,C5,C6,C7,C8,C9を示す斜視図である。
【図7】本発明者らによって実行された実施例1に係るシミュレーション実験(3つの定常雑音Nst11,Nst12,Nst13)における雑音配置を示す斜視図である。
【図8】本発明者らによって実行された実施例2に係るシミュレーション実験(1つの突発性雑音Nsu21)における雑音配置を示す斜視図である。
【図9】本発明者らによって実行された実施例3に係るシミュレーション実験(1つの突発性雑音Nsu31及び1つの定常雑音Nst32)における雑音配置を示す斜視図である。
【図10】本発明者らによって実行された実施例4に係るシミュレーション実験(1つの定常雑音Nst41)における雑音配置を示す斜視図である。
【図11】本発明者らによって実行された実施例5に係る雑音下音声認識実験の実験結果(音声認識率)を示す表である。
【符号の説明】
【0058】
1,2,3,4…マイクロホン、
5…口元先端部、
6…音声放射方向、
10…マイクロホンアレー、
11…マイクロホン筐体、
12…フレキシブルアーム、
21,22,23,24…低周波増幅器、
26,27,28,29…A/D変換器、
30…遅延形アレー回路、
31,32,33,34,35,36,37,38,39…遅延器、
41,42,43,44,45,46,47,48,49…減算器、
50…信号評価及び選択回路、
51…雑音除去回路、
52…音声認識回路、
53…液晶ディスプレイ(LCD)、
C1,C2,C3,C4,C5,C6,C7,C8,C9…カージオイド、
Nst11,Nst12,Nst13,Nst32,Nst41…定常雑音、
Nsu21,Nsu31…突発性雑音。
【技術分野】
【0001】
本発明は、例えば所定の雑音環境下で音声認識率を向上させるために好適なマイクロホンアレーと、それを用いた音声認識装置に関する。
【背景技術】
【0002】
例えば、特許文献1において、話者の方向又は位置を推定して音声認識率を向上させることができる音声認識装置が開示されている。
【0003】
この従来例に係る音声認識装置では、複数のマイクロホンを所定の間隔で並置してなるマイクロホンアレーを備えた音声認識装置において、方向推定部は、各マイクロホンから出力される電気信号に基づいてマイクロホンアレーで受信される少なくとも1つの音源の方位角を推定し、ビームフォーミング部は、各マイクロホンから出力される電気信号に基づいて推定された少なくとも1つの音源の方位角の方向に対応する少なくとも1つのビーム信号を生成する。次いで、音源判定部は各ビーム信号に基づいて音声のHMMと雑音HMMとを用いて各ビーム信号が音声であるか非音声であるかを判定し、音声認識部17は音声であると判定されたときに、当該ビーム信号に対して音声認識を行って音声認識結果を出力する。
【0004】
【特許文献1】特開2002−091469号公報。
【特許文献2】特開2003−044092号公報。
【特許文献3】特開平11−327593号公報。
【非特許文献1】S. E. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transaction on Acoustic Speech and Signal Processing, Vol. ASSP-27, pp.113-120, April 1979.
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、マイクロホンアレーを、例えば工場などの大きな雑音を発生する現場において用いて音声認識する場合、当該雑音により音声認識率が大幅に低下するという問題点があった。
【0006】
本発明の目的は以上の問題点を解決し、例えば工場などの大きな雑音を発生する現場において信号対雑音電力比(以下、SNRという。)を従来技術に比較して向上させた音声信号を得ることができるマイクロホンアレーと、それを用いて音声認識することにより従来技術に比較して大きな音声認識率を得ることができる音声認識装置とを提供することにある。
【課題を解決するための手段】
【0007】
本発明に係るマイクロホンアレーは、
角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられた第1のマイクロホンと、
上記角錐の底面の少なくとも2つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数の第2のマイクロホンとを備えたことを特徴とする。
【0008】
上記マイクロホンアレーにおいて、上記角錐は三角錐又は正三角錐であることを特徴とする。
【0009】
また、上記マイクロホンアレーにおいて、上記正三角錐の底面の3つの頂点において、3つの第2のマイクロホンを設けたことを特徴とする。
【0010】
さらに、上記マイクロホンアレーは音声認識用マイクロホンアレーであることを特徴とする。
【発明の効果】
【0011】
本発明に係るマイクロホンアレーによれば、少なくとも3つのマイクロホンを用いて話者の音声を収集することにより、従来技術に比較して向上させた音声信号を得ることができる。また、当該マイクロホンアレーを用いて音声信号を収録し、減算形アレー法を用いて複数のカージオイド信号を生成し、そのうちのより高いSNRを有する複数のカージオイド信号を加算し、その加算信号に対してスペクトルサブトラクション法を用いて雑音除去をした後音声認識することにより、例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる。
【発明を実施するための最良の形態】
【0012】
以下、本発明に係る実施形態について図面を参照して説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。
【0013】
図1は本発明の一実施形態に係るマイクロホンアレー10の配置を示す斜視図であり、図2は図1のマイクロホンアレー10を備えたマイクロホン筐体11を示す側面図であり、図3は図2のマイクロホン筐体11を示す正面図である。本実施形態に係るマイクロホンアレー10は、各無指向性マイクロホン1,2,3,4を正三角錐の各頂点の位置に設けたことを特徴としている。図1及びそれ以降の配置図において、XYZの3次元座標系で各マイクロホン1,2,3,4の位置を示しており、各マイクロホン1〜4の配置座標は以下の通りである。
【0014】
(A)マイクロホン1のXYZ座標=(0,0,0);正三角錐の上部頂点の位置であって、XYZの3次元座標系の原点に位置する。
(B)マイクロホン2のXYZ座標=(0,√(6)d/3,√(3)d/3);正三角錐の底面の一頂点の位置であって、XY平面の0度及びXZ平面の55度の方位に位置する。
(C)マイクロホン3のXYZ座標=(d/2,√(6)d/3,−√(3)d/6);正三角錐の底面の一頂点の位置であって、XY平面の30度及びXZ平面の110度の方位に位置する。
(D)マイクロホン4のXYZ座標=(−d/2,√(6)d/3,−√(3)d/6);正三角錐の底面の一頂点の位置であって、XY平面の300度及びXZ平面の110度の方位に位置する。
【0015】
図1において、XYZの3次元座標系は、話者の口元先端部5から話者音声が矢印6の音声放射方向がY軸方向となるように配置されている。すなわち、Y軸方向は話者の口元先端部5からの法線ベクトルの方向であり、X軸方向は水平方向であり、Z軸方向は垂直方向である。そして、各マイクロホン1〜4の放射主軸(放射指向特性の主方向の軸であり、マイクロホンの筒形状の軸に対応する。)は音声放射方向6を向くようにかつそれに対して実質的に平行となるように配置されている。
【0016】
図2及び図3において、4つのマイクロホン1〜4からなるマイクロホンアレー10はマイクロホン筐体11に収容され、当該マイクロホン筐体11は話者のヘッドホンセットのフレキシブルアーム12の先端部に取り付けられている。当該マイクロホン筐体11を正面から見ると、図3から明らかなように、4つのマイクロホン1〜4の放射面が見えるが、上部頂点のマイクロホン1のみが話者の口元により近接するような配置となっている。また、マイクロホン1〜4のうちの各隣接する2つのマイクロホン間の間隔は、図2から明らかなように、10mmに設定されている。これについては、音声信号をサンプリングするサンプリング周波数16kHzに対して、標本化定理と同様にマイクロホン間に許容される最大距離が音速÷サンプリング周波数により、340000/16000=21.25mmとなり、さらに詳細後述するカージオイドを用いた信号処理を行う場合は折り返しという減少を防ぐために、さらに半分にする必要があり、許容される最大距離が10.625mmとなることから決定されている。その中で、最大の位相差及び角度差が得られる形状として正三角錐を採用している。
【0017】
図1乃至図3の実施形態においては、正三角錐の各頂点にマイクロホン1〜4を配置しているが、本発明はこれに限らず、正三角錐は三角錐、多角錐又は角錐でもよく、底面の各頂点に配置されるマイクロホン2〜4は少なくとも2つのみ配置してもよい。また、多角錐の場合は、底面の各頂点に配置されるマイクロホンの数は少なくとも2つ、すなわち複数配置すればよい。
【0018】
図4は図1のマイクロホンアレー10を用いた音声認識装置の構成を示すブロック図である。
【0019】
図4において、マイクロホン1に入力された音声は音声信号に変換された後、低周波増幅器21及びA/D変換器26を介してディジタル信号S1に変換され、減算器41,42,43に入力される。また、マイクロホン2に入力された音声は音声信号に変換された後、低周波増幅器22及びA/D変換器27を介してディジタル音声信号S2に変換され、次いで、当該ディジタル音声信号S2は、遅延器31を介して減算器41に入力され、減算器44に入力され、遅延器35を介して減算器45に入力され、遅延器38を介して減算器48に入力され、減算器49に入力される。マイクロホン3に入力された音声は音声信号に変換された後、低周波増幅器23及びA/D変換器28を介してディジタル音声信号S3に変換され、次いで、当該ディジタル音声信号S3は、遅延器32を介して減算器42に入力され、遅延器34を介して減算器44に入力され、減算器45に入力され、減算器46に入力され、遅延器37を介して減算器47に入力される。マイクロホン4に入力された音声は音声信号に変換された後、低周波増幅器24及びA/D変換器29を介してディジタル音声信号S4に変換され、次いで、当該ディジタル音声信号S4は、遅延器33を介して減算器43に入力され、遅延器36を介して減算器46に入力され、減算器47に入力され、減算器48に入力され、遅延器39を介して減算器49に入力される。なお、各遅延器31〜39は、隣接するマイクロホン間の音声信号の到来時間差を補償するために本実施形態では、29.4マイクロ秒の遅延量を有する。
【0020】
遅延形アレー回路30は、9個の遅延器31〜39と、9個の減算器41〜49砥を備えて構成され、公知の減算形アレー法(例えば、非特許文献2参照。)を用いて、図5及び図6を参照して説明するように、雑音方向に対してゼロ点(指向性利得の最小点)を生成する所定のカージオイドC1〜C9を発生する。
【0021】
減算器41はディジタル音声信号S1から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC1(後述するカージオイドC1の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器42はディジタル音声信号S1から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC2(後述するカージオイドC2の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器43はディジタル音声信号S1から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC3(後述するカージオイドC3の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。
【0022】
減算器44はディジタル音声信号S2から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC4(後述するカージオイドC1の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器45はディジタル音声信号S3から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC5(後述するカージオイドC5の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器46はディジタル音声信号S3から遅延されたディジタル音声信号S4を減算し減算結果のカージオイド音声信号SC6(後述するカージオイドC6の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器47はディジタル音声信号S4から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC7(後述するカージオイドC7の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器48はディジタル音声信号S4から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC8(後述するカージオイドC8の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器49はディジタル音声信号S2から遅延されたディジタル音声信号S4を減算し減算結果のカージオイド音声信号SC9(後述するカージオイドC9の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。
【0023】
信号評価及び選択回路50は、入力される9つのカージオイド音声信号SC1〜SC9について、VAD(Voice Activity Detection)機能を用いて、音声区間と雑音区間とを検出し、それに基づいてSNRを計算し、SNRが大きい上位2つ(変形例では、3つ)のカージオイド音声信号を選択し、選択したカージオイド音声信号を加算して加算結果のカージオイド音声信号を雑音除去回路51に出力する。ここで、VAD機能は、以下の条件で音声区間を検出する。
(1)所定のしきい値以上の信号レベルを有すること。
(2)所定のパワーレベル以上離れたカージオイド信号が存在しないこと。これは、口元方向に対応する3つのカージオイド信号と、顔平面方向に対応するカージオイド信号について、口元方向からの音声に対しては、前者3つのカージオイド音声信号はもちろん、後者6つのカージオイド音声信号も少しパワーが上がるのに対して、口元以外の方向からの音声信号は、1つ以上のカージオイドの死角に入る可能性が高く、9つの中で相対的にパワー差が開く傾向にあることを利用しようというものである。
(3)音声区間として検出されたフレームの前後500ミリ秒を音声区間として扱う。
【0024】
次いで、雑音除去回路51は、入力されるカージオイド音声信号に対して、公知のスペクトルサブトラクション法(以下、SS法という。)を用いて音声信号中の雑音を除去し、処理後のディジタル音声信号を音声認識回路52に出力する。ここで、SS法は周波数領域における雑音除去法として従来から用いられており、雑音が付加された音声信号のパワースペクトから、別途推定した雑音のパワースペクトルを差し引き、そのパワースペクトルをフーリエ逆変換することで雑音を除去した音声信号を復元するものである(例えば、特許文献3及び非特許文献1参照。)。ここで、SS法を用いた演算後のスペクトル成分X(f)は次式で表される。
【0025】
[数1]
X2(f)=max{x(f)−αN(f),βN(f)} (1)
【0026】
ここで、α,βは所定の定数であって、例えばα=2.0,β=0.001である。また、X(f)は雑音をスペクトル減算した結果のスペクトル成分であり、x(f)は収録音声データ(音声+雑音)のスペクトル成分であり、N(f)は雑音のスペクトル成分である。
【0027】
音声認識回路52は、入力されるディジタル音声信号に対して例えば所定の音声辞書又は音声モデル(例えばHMM)を用いて音声認識処理を実行して、音声認識結果のテキストデータを液晶ディスプレイ(LCD)53に表示出力し、もしくはパーソナルコンピュータなどの外部装置に出力する。
【0028】
次いで、図3の音声認識装置において形成されるカージオイドC1〜C9について、図5及び図6を参照して以下に説明する。
【0029】
図5は図4の音声認識装置において実現される口元方位に対応する3つのカージオイドC1,C2,C3を示す斜視図である。図5において、カージオイドC1はディジタル音声信号S1及びS2により形成されるものであり、マイクロホン2に向う方向にゼロ点を有する。また、カージオイドC2はディジタル音声信号S1及びS3により形成されるものであり、マイクロホン3に向う方向にゼロ点を有する。さらに、カージオイドC3はディジタル音声信号S1及びS3により形成されるものであり、マイクロホン3に向う方向にゼロ点を有する。
【0030】
図6は図4の音声認識装置において実現される顔水平方位に対応する6つのカージオイドC4,C5,C6,C7,C8,C9を示す斜視図である。図6において、カージオイドC4,C5はディジタル音声信号S2及びS3により形成されるものであり、カージオイドC4はマイクロホン3に向う方向にゼロ点を有し、カージオイドC5はマイクロホン2に向う方向にゼロ点を有する。また、カージオイドC6,C7はディジタル音声信号S3及びS4により形成されるものであり、カージオイドC6はマイクロホン4に向う方向にゼロ点を有し、カージオイドC7はマイクロホン3に向う方向にゼロ点を有する。さらに、カージオイドC8,C9はディジタル音声信号S4及びS2により形成されるものであり、カージオイドC8はマイクロホン2に向う方向にゼロ点を有し、カージオイドC9はマイクロホン4に向う方向にゼロ点を有する。
【実施例1】
【0031】
図7は本発明者らによって実行された実施例1に係るシミュレーション実験(3つの定常雑音Nst11,Nst12,Nst13)における雑音配置を示す斜視図である。図7において、スピーカの記号は3つの定常雑音Nst11,Nst12,Nst13の配置位置及び放射方向を示している。ここで、定常雑音Nst11は、XY平面60度及びXZ平面90度の方位から放射され、定常雑音Nst12は、+Y軸から原点に向う方向で放射され、定常雑音Nst13は、XY平面300度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。
【0032】
[表1]
―――――――――――――――――
SNR(C1)=25.8dB
SNR(C2)=24.4dB
SNR(C3)=24.1dB
SNR(C4)=15.0dB
SNR(C5)=14.8dB
SNR(C6)=13.6dB
SNR(C7)=13.8dB
SNR(C8)=14.9dB
SNR(C9)=14.9dB
―――――――――――――――――
【0033】
この表1のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
【0034】
[表2]
―――――――――――――――――
SNRADD(T2)=25.3dB
SNRADD(T3)=25.9dB
SNRADD(T4)=23.3dB
SNRADD(T5)=21.6dB
SNRADD(T6)=20.7dB
SNRADD(T7)=20.0dB
SNRADD(T8)=19.4dB
SNRADD(T9)=18.7dB
――――――――――――――――――
【0035】
表2から明らかなように、上位3個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。
【実施例2】
【0036】
図8は本発明者らによって実行された実施例2に係るシミュレーション実験(1つの突発性雑音Nsu21)における雑音配置を示す斜視図である。図8において、スピーカの記号は突発性雑音Nsu21の配置位置及び放射方向を示している。ここで、突発性雑音Nsu21は、XY平面60度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。
【0037】
[表3]
―――――――――――――――――
SNR(C1)=5.2dB
SNR(C2)=0.8dB
SNR(C3)=16.4dB
SNR(C4)=−6.5dB
SNR(C5)=1.3dB
SNR(C6)=16.0dB
SNR(C7)=−8.6dB
SNR(C8)=−6.6dB
SNR(C9)=1.6dB
―――――――――――――――――
【0038】
この表3のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
【0039】
[表4]
―――――――――――――――――
SNRADD(T2)=16.2dB
SNRADD(T3)=9.5dB
SNRADD(T4)=7.1dB
SNRADD(T5)=6.5dB
SNRADD(T6)=5.0dB
SNRADD(T7)=2.7dB
SNRADD(T8)=1.3dB
SNRADD(T9)=−0.5dB
――――――――――――――――――
【0040】
表4から明らかなように、上位2個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。
【実施例3】
【0041】
図9は本発明者らによって実行された実施例3に係るシミュレーション実験(1つの突発性雑音Nsu31及び1つの定常雑音Nst32)における雑音配置を示す斜視図である。図9において、スピーカの記号は1つの突発性雑音Nsu31及び1つの定常雑音Nst32の配置位置及び放射方向を示している。ここで、突発性雑音Nsu31は、XY平面60度及びXZ平面90度の方位から放射され、定常雑音Nst32は、XY平面300度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。
【0042】
[表5]
―――――――――――――――――
SNR(C1)=9.3dB
SNR(C2)=6.4dB
SNR(C3)=9.4dB
SNR(C4)=−1.5dB
SNR(C5)=0.8dB
SNR(C6)=−0.2dB
SNR(C7)=−2.9dB
SNR(C8)=−1.2dB
SNR(C9)=1.0dB
―――――――――――――――――
【0043】
この表5のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
【0044】
[表6]
―――――――――――――――――
SNRADD(T2)=10.0dB
SNRADD(T3)=7.6dB
SNRADD(T4)=7.0dB
SNRADD(T5)=6.4dB
SNRADD(T6)=5.6dB
SNRADD(T7)=4.9dB
SNRADD(T8)=4.3dB
SNRADD(T9)=−3.4dB
――――――――――――――――――
【0045】
表6から明らかなように、上位2個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。
【実施例4】
【0046】
図10は本発明者らによって実行された実施例4に係るシミュレーション実験(1つの定常雑音Nst41)における雑音配置を示す斜視図である。図10において、スピーカの記号は1つの定常雑音Nst41の配置位置及び放射方向を示している。ここで、定常雑音Nst41は、XY平面30度及びXZ平面90度の方位から背景雑音レベル90dBAで放射される。このときに図4の音声認識装置により評価した各カージオイド音声信号SCn(n=1,2,…,9)に基づいて、上位2個又は3個のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
[表7]
―――――――――――――――――
SNRADD(T2)=8.0dB
SNRADD(T3)=7.3dB
――――――――――――――――――
【0047】
ここで、より高いSNRを有する上位2個のカージオイド音声信号を加算したときに、SS法を用いる図4の雑音除去回路51を用いた場合のSNRssを以下に示す。
【0048】
[表8]
―――――――――――――――――――――――――――
SNRSS(α=1.0;β=0.001)=8.0dB
SNRSS(α=2.0;β=0.001)=10.3dB
―――――――――――――――――――――――――――
【0049】
表8から明らかなように、SS法を用いた雑音除去回路51を用いることにより大幅にSNRが改善されていることがわかる。
【0050】
以上の実施例1乃至4において、定常雑音は例えばベルトコンベヤーなどから発生するホワイトノイズであり、突発性雑音は例えば金属材料のパンチングなどから発生する突発雑音である。
【実施例5】
【0051】
実施例5において、本発明者らは、各種の過酷な雑音環境下(出願人の犬山工場にて)で、以下の実験条件下で異なる100個の数字4桁を話者により読み上げ、そのときの、音声認識率を測定した。
【0052】
[表9]
―――――――――――――――――――――――――――――――――――――――
(A)音声認識ソフトウエア:日本電気製音声認識テストアプリケーション
(B)認識辞書:数字認識辞書4桁
(C)使用マイクロホン:
(C1)日本電気製ヘッドセットマイクロホン(比較例1;単一性音声用マイクロホンと、無指向性雑音用マイクロホンとを備えて構成される)
(C2)ゼンハイザー製HMD−25型マイクロホン(比較例2)
(C3)本実施形態に係るマイクロホンアレー(実施形態;図1乃至図3に示すように、1個の無指向性音声用マイクロホン1と、3個の無指向性雑音用マイクロホン2,3,4とを備えて構成される。)
―――――――――――――――――――――――――――――――――――――――
【0053】
図11は本発明者らによって実行された実施例5に係る雑音下音声認識実験の実験結果(音声認識率)を示す表である。図11から明らかなように、騒音レベルが80dBAという非常に過酷な雑音環境下において、本実施形態に係るマイクロホンアレー10を用いて収音することにより、従来技術に比較して大きく改善されたSNRを有する音声信号を得ることができる。
【0054】
また、実施例1乃至4の結果から明らかなように、本実施形態に係るマイクロホンアレー10を用いて収音しかつ本実施形態に係る図4の音声認識装置を用いて音声認識することにより音声認識率を大幅に向上させることができる。
【0055】
以上の実施形態においては、減算形アレー法とSS法とを併用しているが、本発明はこれに限らず、前者のみを用いて信号処理した後、音声認識してもよい。
【産業上の利用可能性】
【0056】
以上詳述したように、本発明に係るマイクロホンアレーによれば、少なくとも3つのマイクロホンを用いて話者の音声を収集することにより、従来技術に比較して向上させた音声信号を得ることができる。また、当該マイクロホンアレーを用いて音声信号を収録し、減算形アレー法を用いて複数のカージオイド信号を生成し、そのうちのより高いSNRを有する複数のカージオイド信号を加算し、その加算信号に対してSS法を用いて雑音除去をした後音声認識することにより、例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる。
【図面の簡単な説明】
【0057】
【図1】本発明の一実施形態に係るマイクロホンアレー10の配置を示す斜視図である。
【図2】図1のマイクロホンアレー10を備えたマイクロホン筐体11を示す側面図である。
【図3】図2のマイクロホン筐体11を示す正面図である。
【図4】図1のマイクロホンアレー10を用いた音声認識装置の構成を示すブロック図である。
【図5】図4の音声認識装置において実現される口元方位に対応する3つのカージオイドC1,C2,C3を示す斜視図である。
【図6】図4の音声認識装置において実現される顔水平方位に対応する6つのカージオイドC4,C5,C6,C7,C8,C9を示す斜視図である。
【図7】本発明者らによって実行された実施例1に係るシミュレーション実験(3つの定常雑音Nst11,Nst12,Nst13)における雑音配置を示す斜視図である。
【図8】本発明者らによって実行された実施例2に係るシミュレーション実験(1つの突発性雑音Nsu21)における雑音配置を示す斜視図である。
【図9】本発明者らによって実行された実施例3に係るシミュレーション実験(1つの突発性雑音Nsu31及び1つの定常雑音Nst32)における雑音配置を示す斜視図である。
【図10】本発明者らによって実行された実施例4に係るシミュレーション実験(1つの定常雑音Nst41)における雑音配置を示す斜視図である。
【図11】本発明者らによって実行された実施例5に係る雑音下音声認識実験の実験結果(音声認識率)を示す表である。
【符号の説明】
【0058】
1,2,3,4…マイクロホン、
5…口元先端部、
6…音声放射方向、
10…マイクロホンアレー、
11…マイクロホン筐体、
12…フレキシブルアーム、
21,22,23,24…低周波増幅器、
26,27,28,29…A/D変換器、
30…遅延形アレー回路、
31,32,33,34,35,36,37,38,39…遅延器、
41,42,43,44,45,46,47,48,49…減算器、
50…信号評価及び選択回路、
51…雑音除去回路、
52…音声認識回路、
53…液晶ディスプレイ(LCD)、
C1,C2,C3,C4,C5,C6,C7,C8,C9…カージオイド、
Nst11,Nst12,Nst13,Nst32,Nst41…定常雑音、
Nsu21,Nsu31…突発性雑音。
【特許請求の範囲】
【請求項1】
角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられた第1のマイクロホンと、
上記角錐の底面の少なくとも2つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数の第2のマイクロホンとを備えたことを特徴とするマイクロホンアレー。
【請求項2】
上記角錐は三角錐であることを特徴とする請求項1記載のマイクロホンアレー。
【請求項3】
上記角錐は正三角錐であることを特徴とする請求項1記載のマイクロホンアレー。
【請求項4】
上記正三角錐の底面の3つの頂点において、3つの第2のマイクロホンを設けたことを特徴とする請求項3記載のマイクロホンアレー。
【請求項5】
上記マイクロホンアレーは音声認識用マイクロホンアレーであることを特徴とする請求項1乃至4のうちのいずれか1つに記載のマイクロホンアレー。
【請求項1】
角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられた第1のマイクロホンと、
上記角錐の底面の少なくとも2つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数の第2のマイクロホンとを備えたことを特徴とするマイクロホンアレー。
【請求項2】
上記角錐は三角錐であることを特徴とする請求項1記載のマイクロホンアレー。
【請求項3】
上記角錐は正三角錐であることを特徴とする請求項1記載のマイクロホンアレー。
【請求項4】
上記正三角錐の底面の3つの頂点において、3つの第2のマイクロホンを設けたことを特徴とする請求項3記載のマイクロホンアレー。
【請求項5】
上記マイクロホンアレーは音声認識用マイクロホンアレーであることを特徴とする請求項1乃至4のうちのいずれか1つに記載のマイクロホンアレー。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2010−56762(P2010−56762A)
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願番号】特願2008−218398(P2008−218398)
【出願日】平成20年8月27日(2008.8.27)
【出願人】(000006297)村田機械株式会社 (4,916)
【出願人】(593006630)学校法人立命館 (359)
【Fターム(参考)】
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願日】平成20年8月27日(2008.8.27)
【出願人】(000006297)村田機械株式会社 (4,916)
【出願人】(593006630)学校法人立命館 (359)
【Fターム(参考)】
[ Back to top ]