説明

音声誤検出判別装置、音声誤検出判別方法、およびプログラム

【課題】様々な雑音環境化において音声認識の精度を向上させることが可能な音声誤検出判別装置、音声誤検出判別システム、音声誤検出判別方法、およびプログラムを提供する。
【解決手段】入力信号取得部は、所定方向の音源からの音声を含む周囲音を複数のマイクによりそれぞれ収音した複数の音声信号を取得する。認識結果取得部は、音声信号に基づく音声認識を行った結果検出された、音声信号の音声区間を示す音声区間情報を含む認識結果を取得する。到来率算出部は、それぞれの複数の音声信号の単位時間毎の信号と所定方向とに基づき、単位時間における所定方向からの音声が周囲音に占める割合を示す音声到来率を算出する。誤り検出部は、認識結果と音声到来率とに基づき、音声区間情報が誤検出でないか否かを検出する。これにより、音声認識による音声区間の誤検出を判別できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声誤検出判別装置、音声誤検出判別システム、音声誤検出判別方法、および誤検出判別プログラムに関する。
【背景技術】
【0002】
コンピュータ技術の発達により、音声認識の認識精度は急速に向上している。しかし、車載のカーナビ、テレビ会議、デジタルサイネージ等のように雑音環境下で音声認識する場合は、雑音区間を音声区間であると誤検出してしまう「湧き出し誤り」が生じる。そこで、雑音の多い環境においても、湧き出し誤りを防止する技術が必要とされている。
【0003】
例えば、雑音耐性に優れ、音声信号の音素数に依存しない音声検出を行う音声検出装置及び方法として、入力信号の音響的特徴量を用いる例がある。この方法では、抽出した音響的特徴量を予め記憶された雑音信号の音響的特微量と比較し、入力信号の音響的特微量が記憶された雑音信号の音響的特微量に近い場合には雑音と判定する音声検出装置および方法である。
【0004】
取得した音データのフレーム単位の音信号をスペクトルに変換し、スペクトルからスペクトル包絡を算出し、スペクトル包絡を除去したスペクトルにて、検出したピークを抑制する音声信号処理の例もある。この音声信号処理の例では、エンジン音、エアコン音等の帯域幅の広い緩やかなピークの定常雑音が発生する環境下でも、電子音、サイレン音等の非定常雑音の帯域幅の狭い鋭いピークを検出して抑制する。また、複数のマイクにより得られる音声信号で、各マイクからの信号の相関から到来方向を判断し、話者方向の到来音以外を抑圧する例もある。さらに、音声信号に基づいて雑音を抑制する雑音抑制係数を算出し、雑音抑制係数と元の音声信号とに基づき音声信号における雑音を抑制している例もある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平10−97269号公報
【特許文献2】特開2008−76676号公報
【特許文献3】特開2010−124370号公報
【特許文献4】特開2007−183306号公報
【非特許文献】
【0006】
【非特許文献1】「マイクロホンアレイを用いた音声入力インタフェース」:雑誌FUJITSU 1998−1月号 (VOL.49、NO.1)pp.80−84
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし例えば、雑音信号の音響的特微量に基づき雑音を判別する方式、周囲雑音を抑圧する方式、移相した信号を重ね合わせる方式等では、信号対雑音比が高い環境での判定精度は高いが、信号対雑音比が低い高雑音環境下では誤判定が多々生じる。スペクトル包絡を除去したスペクトルを用いる方式では、特定の帯域に鋭いピークが出るような非定常雑音に関しては効果があるが、他の人の話し声や、帯域の広い非定常雑音に関しては効果が得られない。音響モデル学習工程を備えた方式は、雑音を予め学習する方式であるため、定常雑音はうまく学習できるが、非定常雑音は学習できないため雑音を音声と誤認識する場合がある。また、話者方向の到来音以外を抑圧する例では、音声認識の前処理として区間検出を行っているため、前処理を行った後の音声データは、雑音が抑圧された区間から雑音混じりの音声区間に急に移行することとなり、音声認識率が悪くなるという問題が生じる。
【0008】
よって、本発明は、非定常雑音を含む高雑音環境下等、様々な雑音環境下であっても、音声認識時に識別対象の音声以外の雑音区間を識別対象の音声と誤検出することを抑制することが可能な音声誤検出判別装置、音声誤検出判別システム、音声誤検出判別方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
ひとつの態様である音声誤検出判別装置は、入力取得部、認識結果取得部、到来率算出部、誤り検出部を有している。入力取得部は、所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する。認識結果取得部は、前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する。到来率算出部は、それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する。誤り検出部は、前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出することを特徴としている。
【0010】
別の態様である音声誤検出判別システムは、上記音声誤検出判別装置と、音声認識装置を有している。音声認識装置は、区間検出部と認識部を有している。区間検出部は、前記複数の音声信号の内の1つの音声信号に基づき音声区間を検出する。認識部は、前記音声区間と検出された区間の音声信号により音声認識を行い、文字列を出力する。
【0011】
さらに別の態様である音声誤検出判別方法は、入力取得工程、認識結果取得工程、到来率算出工程、誤り検出工程を含んでいる。入力信号取得工程においては、所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する。認識結果取得工程においては、前記複数の音声信号の少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する。到来率算出工程においては、それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する。後検出判別工程においては、前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する。
【0012】
なお、上述した本発明に係る方法をコンピュータに行わせるためのプログラムであっても、このプログラムを当該コンピュータによって実行させることにより、上述した本発明に係る方法と同様の作用・効果を奏するので、前述した課題が解決される。
【発明の効果】
【0013】
上述した態様の音声誤検出判別装置、音声誤検出判別システム、音声誤検出判別方法、およびプログラムによれば、様々な雑音環境下で雑音区間を音声区間であると誤検出してしまう「湧き出し誤り」を減らすことができる。
【図面の簡単な説明】
【0014】
【図1】第1の実施の形態による音声誤検出判別システムの構成を示すブロック図である。
【図2】第1の実施の形態による音声誤検出判別システムの機能を示すブロック図である。
【図3】第1の実施の形態による音声誤検出判別システムの主要な動作を示すフローチャートである。
【図4】第1の実施の形態による入力信号の例を示す図であり、(a)は、SNRが高い波形の例、(b)はSNRが低い波形の例である。
【図5】第1の実施の形態による認識結果取得処理を示すフローチャートである。
【図6】第1の実施の形態による音声到来率算出処理を示すフローチャートである。
【図7】第1の実施の形態による到来方向判定処理を示すフローチャートである。
【図8】第1の実施の形態による位相スペクトル差の許容範囲の例を周波数に対して示した図である。
【図9】第1の実施の形態による音声誤検出判別処理を示すフローチャートである。
【図10】第1の実施の形態による音声到来率の変化を示す図である。
【図11】第2の実施の形態による音声到来率算出処理を示すフローチャートである。
【図12】第3の実施の形態による誤検出判別処理を示すフローチャートである。
【図13】第3の実施の形態による平滑化音声到来率を示す図である。
【図14】第4の実施の形態による誤検出判別処理を示すフローチャートである。
【図15】第5の実施の形態による音声到来率算出処理を示すフローチャートである。
【図16】第6の実施の形態による音声到来率算出処理を示すフローチャートである。
【図17】変形例5による音声誤検出判別システムの機能を示すブロック図である。
【図18】標準的なコンピュータのハードウエア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0015】
(第1の実施の形態)
以下、図面を参照しながら第1の実施の形態による音声誤検出判別システムについて説明する。まず、図1および図2を参照しながら、音声誤検出判別システム1の構成および機能について説明する。図1は、第1の実施の形態による音声誤検出判別システム1の構成を示すブロック図、図2は、第1の実施の形態による音声誤検出判別システム1の機能を示すブロック図である。
【0016】
図1に示すように、音声誤検出判別システム1は、誤検出判別装置3、音声認識装置5、制御部9および結果表示装置21を有しており、互いにシステムバス17により接続されている。音声誤検出判別システム1は、音声認識装置5により検出された音声区間の誤検出を誤検出判別装置3が判別し、結果表示装置21により判別結果を反映した認識結果を出力するシステムである。
【0017】
音声認識装置5は、区間検出部51、認識部52を備えるとともに、音声認識のための参照情報として、音響モデル53、言語辞書55等を有している。音響モデル53は、認識対象の音素がそれぞれどのような周波数特性を持っているかを表す情報である。言語辞書55は、音響モデルに対応する音素または音節定義で表記された認識語彙および文法を記録した情報である。
【0018】
誤検出判別装置3は、入力信号取得部11、認識結果取得部13、誤検出判別部15、記録部7を有している。誤検出判別部15は、到来率算出部31および誤り検出部33を備えている。記録部7は、例えばRandom Access Memory(RAM)等のメモリであり、入力信号71、認識結果情報75、音声到来率77、判別結果79などを格納している。
【0019】
入力信号71は、入力信号取得部11を介して取得される所定の音源からの音声を含む信号である。認識結果情報75は、音声認識装置5による認識結果を示す情報である。音声到来率77は、到来率算出部31により算出される所定時間毎の音声到来率を示す情報である。判別結果79は、音声認識装置5により識別された認識結果に誤検出判別装置3による誤検出の判別結果を加味した判別結果を示す情報である。また、入力信号取得部11には、マイクアレイ19が接続されている。
【0020】
図2に示すように、マイクアレイ19は、互いに距離dの間隔を有して配置されるマイクA、Bを有している。距離dは、両マイクでそれぞれ収音される音声が著しくは変わらず、かつ位相差測定可能な距離であればよい。また、マイクアレイ19は、マイクアレイ19に対し所定方向に配置された、例えば発話する人やスピーカなどの音源からの音声を含む周囲の音を収音するものとする。
【0021】
図1、図2に示すように、音声認識装置5の入力信号取得部11は、マイクAおよびマイクBがそれぞれ収音した音声から変換したそれぞれのアナログ入力信号を取得する。区間検出部51は、入力信号取得部11が取得した少なくとも一方の入力信号に基づき、音声が含まれる音声区間を検出し、音声区間の開始位置jnおよび区間長Δjnを出力する。音声区間の検出は、従来のいかなる方法を用いてもよい。
【0022】
例えば、取得した音声信号の信号対雑音比(Signal to Noise Ratio:SNR)が予め定められた閾値以上の区間を、音声区間と判別する方法を用いることができる。また、取得した入力信号を所定時間毎に区分したフレーム単位でスペクトルに変換し、変換したスペクトルから抽出する特徴量に基づき音声区間を検出する方法を用いることもできる。この方法では、特徴量として、変換したスペクトラムのパワーおよびピッチを抽出し、そのパワー及びピッチから音声区間検出用の閾値以上となるフレームを検出し、検出したフレームが一定時間以上連続する場合に、音声区間と判定する。
【0023】
認識部52は、上記のように検出された音声区間に基づき、音響モデル53、言語辞書55を参照しながら音声認識を行う。例えば、認識部52は、音響モデル53内の情報と検出された音声区間の波形とから類似度を計算し、言語辞書55内の認識語彙に関する言語情報を参照することにより、音声区間に対応する文字列caを検出する。音声認識装置5は、音声認識の結果、例えば、音声区間の開始位置jn、音声区間長Δjn、文字列caを認識結果情報として出力する。開始位置jnおよび音声区間長Δjnは、それぞれフレーム番号およびフレーム長、または音声区間の開始時刻および継続時間、またはサンプル番号とサンプル数とする。
【0024】
認識結果取得部13は、音声認識装置5が出力した認識結果情報を、記録部7から取得する。誤検出判別部15の到来率算出部31は、記録部7からマイクアレイ19が収音した音声に基づく入力信号71A、71Bを取得し、所定時間のフレーム毎に、音源の配置された所定方向からの音声が占める、全音声における割合を音声到来率として算出する。誤り検出部33は、到来率算出部31が算出した音声到来率および音声認識装置5が出力した認識結果情報に基づき、音声区間の認識誤りを検出する。制御部9は、音声誤検出判別システム1全体の動作を制御する演算処理装置である。
【0025】
以上のように構成された第1の実施の形態による音声誤検出判別システム1の動作について、図3から図10を参照しながら説明する。図3は、音声誤検出判別システム1の主要な動作を示すフローチャートである。図3に示すように、音声誤検出判別システム1は、マイクアレイ19のマイクAおよびマイクBが収音した音声から入力信号取得部11を介して2つのアナログ入力信号を取得する(S101)。このとき制御部9は、取得された2つのアナログ入力信号を所定サンプリング周波数fsでそれぞれサンプリングし、入力信号71A、71Bとして記録部7に格納する。
【0026】
図4は、入力信号の例を示す図であり、(a)は、SNRが高い波形の例、(b)はSNRが低い波形の例である。図4において、横軸は時間、縦軸は信号強度を表す。図4に示すように、入力信号取得部11が取得する入力信号は、SNRが高い場合には入力信号82のように、変動が大きい音声部分と、信号強度の小さい雑音部分とが混在した波形である。入力信号は、SNRが低い場合には入力信号84のように、雑音と音声の区別がつきにくい波形となっている。
【0027】
図3に戻って、S101の後は、認識結果取得処理と音声到来率算出処理とが平行して行われる。まず、認識結果取得処理(S102)について説明する。図5は、認識結果取得処理を示すフローチャートである。図5に示すように、区間検出部51は、上述のように従来の方法を用いて音声区間を検出する(S121)。
【0028】
例えば、図4の波形を例にして説明すると、区間検出部51は、入力信号82において、時刻t1〜t1+Δt1、時刻t2〜t2+Δt2を音声区間として検出する。また、区間検出部51は、時刻t3〜t3+Δt3、時刻t4〜t4+Δt4、および時刻t5〜t5+Δt5を音声区間として検出する。なお、図4(b)の例では、時刻t4〜t4+Δt4(領域4A)が音声区間と判別されているが、これが誤検出の一例となっている。このとき、入力信号としては、入力信号71A、71Bのいずれか少なくとも一方を用いる。
【0029】
認識部52は、検出した音声区間について、上述のように音響モデル53、言語辞書55を参照しながら、音声認識を行う(S122)。音声認識装置5は、検出した音声区間の開始位置jn、音声区間長Δjn、文字列caを認識結果情報として出力する(S123)。例えば、開始位置jn=t1、音声区間長Δjn=Δt1、文字列ca=「天気予報」などである。制御部9は、記録部24に認識結果情報を格納する。
【0030】
次に、図3に戻って、音声到来率算出処理について説明する。音源の音声がマイクに入力されているフレームにおいては、入力信号に含まれる多くの周波数が同一の到来方向を示すはずである。また、音源以外の音声がマイクに入力されているフレームにおいては、入力信号に含まれる周波数は、それぞれバラバラの到来方向もしくは、同一であっても音源とは異なる方向から到来しているはずである。よって、音声到来率算出処理は、音声到来率により音源の音声か否かを判別する処理となっている。
【0031】
第1の実施の形態による音声到来率算出処理は、入力信号71A、71Bをそれぞれ所定時間毎のフレームに分割して行われるため、制御部9は、まずフレーム番号FN=0と設定し(S103)、音声到来率算出処理を行う(S104)。ここで、フレーム番号FNは、フレームの時間的順序に応じた番号である。
【0032】
図6は、S104の音声到来率算出処理を示すフローチャートである。図6に示すように、到来率算出部31は、記録部7からマイクAおよびマイクBによるそれぞれの入力信号71A、71Bを読出し、それぞれオーバラップ窓関数を掛ける(S131)。オーバラップ窓関数としては、例えば、ハミング窓関数、ハニング窓関数、ブラックマン窓関数、3シグマガウス窓関数、または三角窓関数等を用いることができる。S131により、入力信号71A、71Bから、例えば、開始時間が時刻t0、所定時間に対応するフレーム長N(フレーム内のサンプル数)の信号系列がフレームとして抽出される。ここで、時間的に隣り合うフレームの間隔は、例えばフレーム間隔Tとして設定される。
【0033】
続いて、到来率算出部31は、フレーム番号FN=0のフレームに関して、高速フーリエ変換(Fast Fourier Transform:FFT)を行い、周波数領域のスペクトルを生成する(S132)。すなわち、1フレーム長のサンプル数分の音声信号系列を入力信号71Aに対して信号INA(t)、入力信号71Bに対して信号INB(t)とすると、それぞれ周波数fに関するスペクトル系列である振幅スペクトルINAAMP(f)、INBAMP(f)と、位相スペクトルINAθ(f)、INBθ(f)とが生成される。フレーム長Nとしては、2(nは自然数)、例えば、N=128、N=256などを採用することができる。音声が音源方向からのものか否かの判定は、全周波数帯域において周波数スペクトル毎に行う。そこで、周波数fの順序番号を変数i(iは整数)、変数iに対応する周波数を周波数fiとする。このとき音声到来率SCは、1フレーム内の全周波数fi(i=0〜N−1)の数=Nに対する、到来方向が所定方向と判別された周波数の数の割合である。
【0034】
到来率算出部31は、変数i=0、到来数sum=0と設定する(S133)。到来数sumは、音源方向からの音声であると判別される周波数の数を加算するための変数であり、整数である。到来率算出部31は、変数i<FFTフレーム長であるか否かを判別する(S134)。ここで、FFTフレーム長は、フレーム長Nとなる。次に、音声の到来方向が音源の方向であるか否かを判定する(S135)。
【0035】
図7は、到来方向判定処理を示すフローチャートである。到来率算出部31は、位相スペクトルINAθ(f)、INBθ(f)を元に、位相スペクトル差DIFF(fi)を算出する(S141)。すなわち、以下の式1が用いられる。
DIFF(fi)=INAθ(fi)−INBθ(fi) ・・・(式1)
【0036】
次に、スペクトルINAθ(fi)、スペクトルINBθ(fi)が、所定の音源の方向からの音声であるか否かを判別するため、位相スペクトル差DIFF(fi)が所定範囲内であるか否かを判別する(S142)。
【0037】
図8は、音声が音源方向からのものであると判別する位相スペクトル差DIFF(f)の許容範囲の例を周波数fに対して示した図である。図8において、横軸は周波数f、縦軸は位相スペクトル差DIFF(f)である。本実施の形態においては、音源の方向は予め定められており、例えば記録部7に予め格納されている。音源の方向が所定の方向であるとき、位相スペクトル差DIFF(f)は、理想的には、周波数fに比例する値となる。しかしながら、マイクアレイ19がおかれた環境や、音声認識の利用状況などに依存して、検出される位相スペクトル差DIFF(f)は誤差を含むことになる。また、音源が一点でなく、ある範囲として規定される場合もある。
【0038】
よって、例えば以下の方法で、位相スペクトル差DIFF(f)の許容範囲を定めることができる。すなわち、図8に示すように、周波数f=fk(fkはf0〜fnのいずれか)において、DIFF1<位相スペクトル差DIFF(fk)<DIFF2を満たす範囲を、基準となる許容範囲として決める。次に、位相スペクトル差DIFF(f)=af(aは係数)がその基準となる許容範囲の上限または下限を通る2直線l1、l2で囲まれる範囲を、周波数fに応じた位相スペクトル差DIFF(f)の許容範囲と定める。図8は、このようにして定めた許容範囲の一例である。図8の例では、許容範囲は、直線l1と直線l2の間の領域148で表されている。
【0039】
図7に戻って、到来率算出部31は、変数iに対応する周波数fiのとき、位相スペクトル差DIFF(fi)が直線l1と直線l2の間の領域148内にある場合に(S142:YES)、周波数fiの音声が音源方向からの音声であると判別する(S143)。位相スペクトル差DIFF(fi)が直線l1と直線l2の間の領域148内にない場合に(S142:NO)、該当周波数fiの音声が音源方向からの音声ではないと判別する(S144)。処理は、図6のS135に戻る。
【0040】
図7において、該当周波数fiの音声が音源方向からの音声であると判別された場合(S135:YES)には、図6の処理は、S136に進む。S136では、到来率算出部31が到来数sum=sum+1とし、S137に進む。図7において、該当周波数fiの音声が音源方向からの音声でないと判別された場合(S135:NO)には、図6の処理は、そのままS137に進む。S137では、到来率算出部31は、変数i=i+1とし、S134に戻る。
【0041】
以上のようなS134〜S137の処理が、周波数f<FFTフレーム長Nの間繰り返される(S134:YES)。変数i=Nとなると(S134:NO)、処理は138に進む。到来率算出部31は、音声到来率SC=sum/Nとして算出し(S138)、音声到来率SCとフレーム番号FNを記録部7に記録し(S139)、処理は、図3の104に戻る。
【0042】
図3の処理に戻って、制御部9は、フレーム番号FN=FN+1とする(S105)とともに、フレーム番号FNが全フレーム数FNAを超えているか否か判別する(S106)。全フレーム数FNAは、入力信号71の時間的長さ、フレーム長N、フレーム間隔Tにより算出される。フレーム番号FNが、全フレーム数FNAを超えていない場合には(S106:NO)、処理はS104に戻り、全フレームについて音声到来率を算出するまでS104〜S106の処理を繰り返す。フレーム番号FNが全フレーム数FNAを超えると(S106:NO)、S107に進む。
【0043】
制御部9は、記録部7の認識結果情報75から、開始位置jnと音声区間長Δjnとを取得する(S107)。ここで、記録されている開始位置jnと音声区間長Δjnが時間やサンプル数で表されている場合には、フレーム番号FNで表すように変換する。続いて、誤り検出部33は、音声誤検出判別処理を行う。
【0044】
図9は、音声誤検出判別処理を示すフローチャート、図10は、音声到来率の変化を示す図である。音声誤検出判別処理を行う際には、誤り検出部33は、音声認識装置5からの認識結果情報と、到来率算出部31からの音声到来率SCとを取得する。ここで、認識結果情報には、開始位置jn、音声区間長Δjnおよび文字列caが含まれる。文字列caは、音声認識装置5での認識結果として出力される文字列である。
【0045】
図9に示すように、誤り検出部33は、区間変数j=開始位置jn、音声率数sum2=0と設定する(S161)。区間変数jは、検出対象フレームの位置を示す変数、音声率数sum2は、音声到来率SCが閾値Th1以上のフレームの数を計数するための変数である。
【0046】
図10において、縦軸は音声到来率SC、横軸は、図4(b)の横軸に対応する時間である。図10は、図4(b)の信号84の全フレームについて、フレームごとの音声到来率SCを時間に対して示した例である。図10の音声到来率変化150に示すように、図4(b)で音声区間として検出された時刻t3〜t3+Δt3および時刻t5〜t5+Δt5については、音声到来率SCは比較的高い値を示し、誤検出である時刻t4〜t4+Δt4も含むその他の時間は、比較的低い値を示している。
【0047】
誤り検出部33は、まず、開始位置jnに対応するフレームの音声到来率SCを記録部7から読出し、閾値Th1以上であるか否か判別する(S162)。ここで、例えば閾値Th1は、3.2%とすることができる。音声到来率SCが閾値Th1以上の場合には、誤り検出部33は、音声率数sum2=sum2+1とし(S163)、区間変数j=j+1とし、S165に進む。音声到来率SCが閾値Th1未満の場合には、誤り検出部33は、そのまま処理をS165に進める。
【0048】
誤り検出部33は、区間変数jが音声区間終了位置jn+Δjnより大きくなるまでS162〜S165の処理を繰り返す(S165:NO)。誤り検出部33は、区間変数jが音声区間終了位置jn+Δjnより大きいと判別すると(S165:YES)、音声率SV=sum2/Δjnと算出する(S166)。誤り検出部33は、音声認識装置5が認識した音声区間が、音声であるか非音声であるかの判定を行う。すなわち、誤り検出部33は、算出した音声率SVが予め決められた閾値Th2よりも大きいか否か判別し(S167)、大きい場合には音声区間は誤検出ではないと判別し(S167:YES)、音声認識された文字列caを出力すると判別する(S168)。閾値Th2は、例えば0.5とすることができる。音声率SVが閾値Th2以下であると判別された場合には、音声区間は非音声であり、誤検出であると判別し(S167:NO)、誤り検出部33は文字列caを出力しないと判別する(S169)。誤り検出部33は、判別結果を記録部7に記録し、処理を図3のS108に戻す。
【0049】
図3に戻って、制御部9は、他にも記録部7に記録された音声区間があるか否かを判別する(S109)。他の音声区間があると判別されると(S109:YES)、処理はS107に戻る。他の音声区間はないと判別されると(S109:NO)、図10のS168で出力すると判別された文字列caのみを表示装置21に表示する(S110)。
【0050】
例えば、音声認識装置5による認識結果が、文字列ca1=「天気予報」「大阪」「ニュース」「最高気温」であった場合、「ニュース」が誤りであると検出されると、最終的な出力結果は、文字列ca2=「天気予報」「大阪」「最高気温」となる。
【0051】
以上説明したように、第1の実施の形態による音声誤検出判別システム1は、マイクアレイ19で収音された2つの入力信号を、それぞれ単位時間のフレーム毎にFFTで周波数領域に変換する。また、上記2つの入力信号を変換した結果から周波数毎に位相差を求め、該当周波数ごとに音声が所定の音源方向からのものであるか否かを判定する。さらに、フレーム毎の全周波数帯域での音声到来率を、音声が所定音源方向からのものと判定された周波数の数と、フレーム長とから算出する。音声部分は音声到来率SCが高くなる傾向を利用し、閾値Th1以上の音声到来率SCを持つ周波数の数の割合である音声率SVを算出する。音声率SVが閾値Th2未満の場合に、音声認識装置5による音声区間検出が誤りであったと判別し、その区間に関して認識された文字列caを出力しない。なお、音声誤検出判別システム1によれば、例えば、図4(b)に示したような、SNRが0dBの雑音混じり音声であっても、音声区間の誤検出の判別精度が9割以上となった。
【0052】
以上説明したように、第1の実施の形態による音声誤検出判別システム1においては、マイクアレイ19を使用することで、フレーム毎の音声/非音声判定時に所定方向の音源以外の方向から到来した雑音を非音声と判定することが可能となる。また、音声誤検出判別システム1は、音声認識装置5による音声認識と誤検出判定装置3による音声区間の誤検出判定とを行なうことができる。よって、音声誤検出判別システム1は、SNRなどに基づく音声認識により検出された音声区間のうち、音声到来率SCに基づく音声率により判定された区間を真の音声区間とすることができ、雑音区間を誤って音声区間として検出する「湧き出し誤り」を判別することができる。
【0053】
音声誤検出判別システム1は、音声率に基づき音声であると判定された音声区間については、音声認識結果を出力し、非音声であると判定された音声区間については、音声認識結果を出力しない。よって、雑踏の中で発生する非定常雑音(検出対象以外の話し声等)のように予め学習することができない雑音環境下でも、音声認識率を低下させずに、話者の音声信号を検出可能になる。すなわち、音声の誤検出を抑制し、音声認識の精度を向上させることが可能である。
【0054】
また、音声誤検出判別システム1は、音声認識を行う処理と音声到来率を算出する処理とを並行して行う。音声到来率を算出する処理は、入力された信号そのものを用いて行うことで、例えば雑音抑制処理を前処理として行うことにより音声信号が歪み、本当の音声区間が検出から漏れてしまうことを未然に防止できる。音声認識処理も、入力された信号そのものを用いて行うことで、例えば雑音抑制処理などを前処理として行うことにより音声信号が歪み、音声認識率が低下することを未然に防止できる。
【0055】
(第2の実施の形態)
次に、第2の実施の形態による音声誤検出判別システムについて説明する。第2の実施の形態による音声誤検出判別システムにおける動作は、第1の実施の形態による音声誤検出判別システム1における音声到来率算出処理の変形例である。よって、第2の実施の形態による音声誤検出判別システムにおいて、第1の実施の形態による音声誤検出判別システム1と同様の構成および動作については重複説明を省略する。
【0056】
以下、図11を参照しながら、第2の実施の形態による音声誤検出判別システム1の動作について説明する。図11は、第2の実施の形態による音声到来率算出処理を示すフローチャートである。図11は、図6のフローチャートに代えて用いるフローチャートである。図11のS181〜S184は、図6のS131〜134、と同様であり、図11のS188〜S192は、図6のS135〜S139と同様であるため、詳細説明を省略する。
【0057】
図11に示すように、マイクアレイ19からの2つの入力信号に対してFFT処理が行われ、入力信号の所定のサンプル数分の音声信号系列を周波数領域へと変換する。次に、変数i、到来数sumを0に初期化しておく(S181〜S184)。以上は図6の処理と同様である。
【0058】
図11において、S185では、位相スペクトル差DIFF(f)を算出する前に、周波数帯域ごとに定常雑音モデル推定を行う。例えば各周波数で、相関値や直前に推定された雑音モデルと入力信号の振幅スペクトルとの比を用いることで、定常雑音か否かの判定を行い、定常雑音と判定された場合に平均値を算出することで求められる。
【0059】
例えば、フレーム番号FNのフレームにおけるスペクトルの代表値を、現在の変数iに対応した周波数fiにおけるスペクトル|IN(FN、fi)|とすると、定常雑音モデル|N(FN、fi)|は、以下の式2で表される。
|N(FN、fi)|
=α(fi)|N(FN−1、fi)|+(1−α(fi))|IN(FN、fi)|
・・・(式2)
ここでα(fi)は、0〜1の値である。
【0060】
例えば上記式2により、定常雑音モデルを算出し、算出された定常雑音モデルと元の入力信号の振幅スペクトルとから更に、SNRを算出する。(S186)。算出したSNRが閾値Th3よりも大きい場合には(S187:YES)、その周波数帯域は音声である可能性が高くなるため、位相スペクトル差を算出し、位相スペクトルが音源方向であるかどうかの判定を行う(S188)。SNRが閾値Th3よりも小さい場合には(S187:NO)、その周波数帯域は音声である可能性が低いため、位相スペクトルによる判定は行わず、S191に進む。その後、第1の実施の形態と同様に音声到来率SCを算出し、算出した音声到来率SCを記録し、図3の処理に戻る。
【0061】
以上のようにして算出した到来数sumを用いて、第1の実施の形態における音声誤検出判別システム1と同様に音声到来率を算出する。ここで、例えば閾値Th3=4とすることができる。
【0062】
上記第2の実施の形態による音声誤検出判別システムによれば、第1の実施の形態による音声誤検出判別システムによる効果に加え、SNRが所定値以下の場合には、音源の音声ではないと判別するので、到来率算出部31の処理量および処理時間を短縮することが可能になる。
【0063】
(第3の実施の形態)
以下、図12、図13を参照しながら、第3の実施の形態による音声誤検出判別システムについて説明する。第3の実施の形態による音声誤検出判別システムにおける動作は、第1または第2の実施の形態による音声誤検出判別システムにおける誤検出判別処理の変形例である。よって、第3の実施の形態による音声誤検出判別システムにおいて、第1または第2の実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
【0064】
図12は、第3の実施の形態による誤検出判別処理を示すフローチャートである。図12は、図9のフローチャートに代えて用いるフローチャートである。第3の実施の形態においては、音声到来率を時間方向に平滑化した平滑化音声到来率を用いる。図12のS201は、図9のS161と同様であり、図12のS204〜S211は、図9のS163〜S170と同様であるため、詳細説明を省略する。
【0065】
図12に示すように、誤り検出部33は、認識結果情報から音声区間の開始位置jnを読取ると、区間変数j=jn、音声率数sum2=0と初期化する。続いて、音声到来率SCを平滑化する(S202)。音声到来率を時間方向に平滑化する方法としては、例えば10フレーム分の音声到来率SCの平均値を用いる方法がある。
【0066】
図13は、図10に示した音声到来率SCを平滑化した結果を示す図である。図13の平滑化音声到来率変化213に示すように、音声区間である時刻t3〜t3+Δt3および時刻t5〜t5+Δt5については、音声到来率SCより他の区間との平滑化音声到来率SCaの差が鮮明になっている。誤検出である時刻t4〜t4+Δt4では、平滑化音声到来率SCaは、さらに低い値に落ち着いている。
【0067】
誤り検出部33は、平滑化音声到来率SCaについて、音声到来率SCと同様に閾値Th1より大きいか否かの判別を行う(S203)。以下、図9の処理と同様に音声率を求め、誤検出か否かを判別し、判別結果を記録して図3の処理に戻る。
【0068】
上記第3の実施の形態による音声誤検出判別システムによれば、第1の実施の形態による音声誤検出判別システムによる効果に加え、平滑化により、話者のリップノイズ等のように瞬時的に音声到来率が高い値を示すような非定常雑音を抑えることができ、より音声到来率の音声としての信頼度が増すという効果がある。また、第3の実施の形態による誤検出判別処理は、第1または第2の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。
【0069】
(第4の実施の形態)
以下、図14を参照しながら、第4の実施の形態による音声誤検出判別システムについて説明する。第4の実施の形態による音声誤検出判別システムにおける動作は、第1から第3の実施の形態による音声誤検出判別システムにおける誤検出判別処理の変形例である。よって、第4の実施の形態による音声誤検出判別システムにおいて、第1〜第3のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
【0070】
図14は、第4の実施の形態による誤検出判別処理を示すフローチャートである。図14は、図9のフローチャートに代えて用いるフローチャートである。第4の実施の形態においては、閾値Th1以上の音声到来率SCとなるフレームが時間方向に連続で予め決められた閾値Th4より多く連続する場合に、音声区間と判別する。
【0071】
図14に示すように、誤り検出部33は、認識結果情報から音声区間の開始位置jnを読取り、区間変数j=jn、連続数sum3=0、連続フラグflg=0と初期化する(S221)。連続数sum3は、閾値Th1以上の音声到来率SCとなるフレームが時間方向に連続する数の計数のための変数、連続フラグflgは、一つ前のフレームが閾値Th1以上の音声到来率SCであったことを示すフラグである。
【0072】
誤り検出部33は、音声到来率SCが閾値Th1以上であるか否か判別し(S222)、閾値Th1未満の場合には(S222:NO)、連続数sum3=0、連続フラグflg=0とし(S223)、S229に処理を進める。誤り検出部33は、音声到来率SCが閾値Th1以上の場合には(S222:YES)、連続フラグflg=1であるか否かを判別する(S224)。連続フラグflg=1でない場合には(S224:NO)、誤り検出部33は、連続フラグflg=1とし、処理をS229に進める。
【0073】
S224において、連続フラグflg=1である場合には(S224:YES)、誤り検出部33は、連続数sum3=sum3+1とし、連続数sum3が閾値Th4より大きいか否か判別する(S227)。閾値Th4は、判別対象の区間が音声区間であると判別する場合のフレームの連続数の最低数として予め決める値である。閾値Th4は、例えば発声時の数音素に相当するフレーム数に設定される。具体的には、閾値Th4として、11025HzサンプリングでFFTフレーム長=256の場合は、数音素200msec相当の「10」のような定数を用いる。
【0074】
連続数sum3が閾値Th4以下である場合には(S227:NO)、処理はS229に進む。連続数sum3が閾値Th4より大きい場合には(S227:YES)、誤り検出部33は、音声認識結果を出力すると判別し(S228)、S232に処理を進める。
【0075】
S229では、誤り検出部33は、区間変数j=j+1とし、区間変数が記録部7から読取った音声区間終了位置=jn+Δjnより大きいか否か判別する(S230)。区間変数jが音声区間終了位置以下である場合は(S230:NO)、S222の処理に戻る。区間変数jが音声区間終了位置を超えている場合には(S230:YES)、誤り検出部33は、音声認識結果を出力しないと判別する(S231)。S232では、誤り検出部33は、記録部7に音声認識結果を出力するか否かの判別結果を格納し(S232)、図3の処理に戻る。
【0076】
上記第4の実施の形態による音声誤検出判別システムによれば、第1の実施の形態による音声誤検出判別システムによる効果に加え、以下のような付加的な効果が得られる。すなわち、音声認識装置5により音声区間と判別された区間は、閾値Th1以上の音声到来率SCを有するフレームが時間的に閾値Th4以上連続している場合に音源の音声であると判別され、そうでない場合には音源の音声でないと判別される。これにより、より音声到来率の音声としての信頼度が増すという効果がある。また、第4の実施の形態による誤検出判別処理は、第1から第3の実施の形態による音声誤検出判別システムの組み合わせのいずれと組み合わせて用いてもよい。
【0077】
(第5の実施の形態)
以下、図15を参照しながら、第5の実施の形態による音声誤検出判別システムについて説明する。第5の実施の形態による音声誤検出判別システムにおける動作は、第1から第4の実施の形態による音声誤検出判別システムにおける音声到来率算出処理の変形例である。よって、第5の実施の形態による音声誤検出判別システムにおいて、第1〜第4のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
【0078】
図15は、第5の実施の形態による音声到来率算出処理を示すフローチャートである。図15は、図6のフローチャートに代えて用いるフローチャートである。第5の実施の形態においては、音声到来率算出を、FFTを行わずに実行する。ここで、第1の実施の形態において説明したように、記録部7には、マイクアレイ19の2つのマイクA、Bからの入力信号71A、71Bが記録されている。また、フレーム番号FN=0と初期化されている。
【0079】
図15に示すように、到来率算出部31は、まず、記録部7から不図示の音源方向を読み出す(S241)。音源方向は、予めユーザによりキー入力されてもよいし、センサにより検出してもよい。ここでは音源方向は、予め定めた点を原点とした座標系を定義し、その座標系における座標として設定する。
【0080】
また、到来率算出部31は、マイクアレイ19のマイクA、マイクBの位置と音源方向に基づき、位相差を検出する(S242)。ここで位相差は、音源からの音声がマイクAとマイクBに到達する際の時間差として算出する。
【0081】
到来率算出部31は、記録部7からマイクAおよびマイクBによるそれぞれの入力信号71A、71Bを読出し、例えば、開始時間が時刻t0、所定時間に対応するフレーム長N(フレーム内のサンプル数)、フレーム間隔Tの信号系列である入力信号71A=INA(t)、入力信号71B=INB(t)を抽出する(S243)。なお、本実施の形態においては、フレーム長N=128、256等の整数であるが、N=2とは限らない。
【0082】
到来率算出部31は、取得した信号系列および上記位相差から、取得した音源の位置における当該フレームの相関係数を算出する(S244)。ここで、相関係数は−1から1の値として算出される。到来率算出部31は、算出した相関係数が予め定めた閾値Th5よりも大きい場合には(S245:YES)、当該フレームの音声が音源方向からの音声であると判定し(S246)、音声到来率SC=1とする(S247)。到来率算出部31は、算出した相関係数が予め定めた閾値Th5以下の場合には(S245:NO)、当該フレームの音声が音源方向からの音声ではないと判定し(S248)、音声到来率SC=1とする(S249)。ここで、例えば閾値Th5=0.7と定めることができる。到来率算出部31は、算出した音声到来率SCとフレーム番号FNを記録部7に記録し(S250)、図3の処理に戻る。
【0083】
以上のようなS241〜S250の処理が、全てのフレームについて繰り返されることにより、図10に示したような音声到来率SCの時間的変化が得られ、これに基づき音声誤検出判別を行う。
【0084】
上記第5の実施の形態による音声誤検出判別システムによれば、第1の実施の形態による音声誤検出判別システムによる効果に加え、FFTを使わないことにより、より計算時間を短縮することが可能であるという効果を奏する。また、第5の実施の形態による誤検出判別処理は、第1から第4の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。
【0085】
(第6の実施の形態)
以下、図16を参照しながら、第6の実施の形態による音声誤検出判別システムについて説明する。第6の実施の形態による音声誤検出判別システムにおける動作は、第1から第5の実施の形態による音声誤検出判別システムにおける音声到来率算出処理の変形例である。よって、第6の実施の形態による音声誤検出判別システムにおいて、第1〜第5のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
【0086】
第6の実施の形態による音声誤検出判別システムは、マイクアレイ19より3つの音声信号を取得する。すなわち、マイクアレイ19は、マイクA、マイクB、およびマイクCを備えた構成である。マイクA、マイクB、およびマイクCは、マイクでそれぞれ収音される音声が著しくは変わらず、かつ位相差測定可能な距離を隔てて互いに設置されることが好ましい。
【0087】
図16は、第6の実施の形態による音声到来率算出処理を示すフローチャートである。図16は、図6のフローチャートに代えて用いるフローチャートである。第6の実施の形態においても第5の実施の形態と同様、音声到来率算出を、FFTを行わずに実行する。第6の実施の形態において、記録部7には、マイクアレイ19の3つのマイクA、B、Cからの入力信号71が記録されている。また、フレーム番号FN=0と初期化されている。
【0088】
図16に示すように、到来率算出部31は、まず、記録部7から不図示の音源方向を読み出す(S261)。音源方向は、予めユーザによりキー入力されてもよいし、センサにより検出するようにしてもよい。音源方向は、予め定められた点を原点とした座標系を定義し、その座標系における座標として設定する。
【0089】
到来率算出部31は、記録部7からマイクAおよびマイクBによるそれぞれの入力信号71A、71B、71Cを読出し、例えば、それぞれ開始時間が時刻t0、所定時間に対応するフレーム長N(フレーム内のサンプル数)、フレーム間隔Tの信号系列である入力信号71A=INA(t)、入力信号71B=INB(t)、入力信号71C=INC(t)を抽出する(S263)。なお、本実施の形態においては、フレーム長N=128、256等の整数であるが、N=2とは限らない。
【0090】
到来率算出部31は、取得した信号系列から、例えば入力信号71Aと入力信号71B、入力信号71Bと入力信号71Cの当該フレームにおける2つの相関係数を算出する(S264)。到来率算出部31は、音源の座標における相関係数の積を算出する。ここで、相関係数、およびその積は−1から1の値として算出される。到来率算出部31は、算出した積が予め定めた閾値Th6よりも大きい場合には(S265:YES)、当該フレームの音声が音源方向からの音声であると判定し(S266)、音声到来率SC=1とする(S267)。到来率算出部31は、算出した相関係数の積が予め定めた閾値Th6以下の場合には(S268:NO)、当該フレームの音声が音源方向からの音声ではないと判定し、音声到来率SC=1とする(S269)。ここで、例えば閾値Th6=0.7と定めることができる。到来率算出部31は、算出した音声到来率SCとフレーム番号FNを記録部7に記録し(S270)、図3の処理に戻る。
【0091】
以上のようなS261〜S270の処理が、全てのフレームについて繰り返されることにより、図10に示したような音声到来率SCの時間的変化が得られ、これに基づき音声誤検出判別を行う。
【0092】
上記第6の実施の形態による音声誤検出判別システムによれば、第1の実施の形態による音声誤検出判別システムによる効果に加え、FFTを使わないことにより、より計算時間を短縮することが可能であるという効果を奏する。また、第6の実施の形態による誤検出判別処理は、第1から第4の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。
【0093】
(変形例1)
以下、変形例1による音声誤検出判別システムについて説明する。変形例1よる音声誤検出判別システムにおける動作は、第1から第6の実施の形態による音声誤検出判別システムの認識結果取得処理(図3のS102)、および誤検出判別処理における音声非音声の判定処理(例えば、図9のS167)の変形例である。よって、変形例1では、第1〜第6のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
【0094】
変形例1では、認識結果取得処理の音声認識(図5のS122)において、開始位置jn、音声区間長Δjn、文字列caに加え、音声認識結果の確からしさを表す「認識スコア」を取得する。図9のS167において、変形例1では、音声率SVに認識スコアSCをかけた値が閾値Th2以上である場合に、判別対象の区間は音声区間であると判定して、音声認識結果を出力する。すなわち、音声率SV2=認識スコアSC×音声率数sum2/音声区間長Δjnにより音声率SV2を算出し、音声率SV2と閾値Th2とを比較する。
【0095】
なお、認識スコアSCは、例えば以下のようにして算出される。すなわち、音声認識装置5において、音声認識部52は、区間検出部51が音声区間と認識した区間の音声信号から特徴ベクトル系列を抽出する。認識部52は、Hidden Markov Model(HMM)を用いて言語辞書55に格納されている認識対象カテゴリを表現したHMMと、特徴ベクトル系列とを照合する。認識部52は、特徴ベクトル系列の出現確率Pの自然対数値ln(P)を計算し、計算結果を認識スコアSCとする。なお、認識スコアSCの値は、0〜1までに正規化しておくことが好ましい。
【0096】
例えば、音声率SV=0.5で、認識スコアSCが0から1までの範囲で0.78であった場合、音声到来率SCと認識スコアSCを乗算し(0.5×0.78=0.39)、この0.39が閾値Th2以上であるか否かで、音声か非音声かの判定を行う。
【0097】
上記のように、変形例1による音声誤検出判別システムによれば、第1の実施の形態による音声誤検出判別システムによる効果に加え、音声認識と音声到来率の両方の結果を加味した結果を得ることができるという効果を奏する。また、変形例1の誤検出判別処理は、第1から第6の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。
【0098】
(変形例2)
以下、変形例2による音声誤検出判別システムについて説明する。変形例2による音声誤検出判別システムにおける動作は、第1から第6の実施の形態による音声誤検出判別システムの誤検出判別処理における音声非音声の判定処理(例えば、図9のS167)の変形例である。よって、変形例2では、第1〜第6のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
【0099】
変形例2では、図9のS167において、変形例2では、音声率SVに音声区間と認識された区間の平均SNRをかけた値が閾値Th7以上である場合に、その判別対象区間は音源からの音声であると判定して音声認識結果を出力する。すなわち、音声率SV3=SNR×音声率数sum2/音声区間長Δjnにより音声率SV3を算出し、音声率SV3と閾値Th7とを比較する。閾値Th7は、例えば4とすることができる。
【0100】
上記のように、変形例2による音声誤検出判別システムによれば、第1の実施の形態による音声誤検出判別システムによる効果に加え、音声であるかどうかの判定精度がより増す。特に、音声到来率算出の時にSNRを用いない第1の実施の形態の場合(図9の場合)に効果を奏する。なお、変形例2の誤検出判別処理は、第1から第6の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。
【0101】
(変形例3)
以下、変形例3による音声誤検出判別システムについて説明する。変形例3による音声誤検出判別システムにおける動作は、第1から第6の実施の形態による音声誤検出判別システムの認識結果取得処理(図3のS102)、および誤検出判別処理における音声非音声の判定処理(例えば、図9のS167)の変形例である。よって、変形例3では、第1〜第6のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
【0102】
変形例3では、認識結果取得処理において、開始位置jn、音声区間長Δjn、文字列caに加え、音声認識結果の確からしさを表す「認識スコア」を取得する。また、図9のS167において、変形例3では、音声率SVに認識スコアSCと音声区間と認識された区間の平均SNRとをかけた値が閾値Th2以上である場合に、その判別対象区間は音源からの音声であると判定して音声認識結果を出力する。すなわち、音声率SV4=認識スコアSC×SNR×音声率数sum2/音声区間長Δjnにより音声率SV4を算出し、音声率SV4と閾値Th2とを比較する。
【0103】
上記のように、変形例3による音声誤検出判別システムによれば、第1の実施の形態による音声誤検出判別システムによる効果に加え、音声認識と音声到来率の両方の結果を加味した結果を得ることができるという効果を奏する。また、音声であるかどうかの判定精度がより増す。特に、音声到来率算出の時にSNRを用いない第1の実施の形態の場合(図9の場合)に効果を奏する。なお、変形例3の誤検出判別処理は、第1から第6の実施の形態による音声誤検出判別システムのいずれと組み合わせて用いてもよい。
【0104】
(変形例4)
以下、変形例4による音声誤検出判別システムについて説明する。変形例4は、第1から第6の実施の形態による音声誤検出判別システムの誤検出判別処理における、音声非音声の判定処理(例えば、図9のS167)の、音声率に関する閾値Th2の設定方法に関する変形例である。よって、変形例4では、第1〜第6のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略し、閾値Th2の設定方法についてのみ述べる。
【0105】
閾値Th2としては、常に定数(例:0〜1の範囲に正規化した場合の0.5)を使用する方法もある。しかし、音声認識装置5における音声認識処理において「SNR等による音声区間検出」を行なうような場合において、雑音が多くSNRが低くなると、実際の音声区間よりも広く音声区間と認識される場合が多い。また、呼気段落が長い場合には、語尾にかけて発声時に無声化する場合が多く、その場合は、音声率SVが小さくなる傾向がある。それらに対処するために、閾値Th2の設定方法の変形例として下記変形例4−1)〜変形例4−3)の3つの方法がある。
【0106】
変形例4−1) 音声区間長Δjn依存性
閾値Th2は、音声区間長Δjnが広くなる程、小さくなるように設定されることが好ましい。
(4−1−1)音声区間長Δjn≧200(フレーム) :閾値Th2=0.15
(4−1−2)音声区間長Δjn≦40(フレーム) :閾値Th2=0.80
(4−1−3)40<音声区間長Δjn<200(フレーム):閾値Th2=0.30
本変形例によれば、音声誤検出判別システムは、音声認識により検出された音声区間で、音声の前後に雑音のみの区間が付加されてしまった場合でも、音声区間の誤検出判定の精度を維持することができる。
【0107】
変形例4−2) 雑音レベル依存性
閾値Th2は、雑音レベルが大きくなるほど小さくなるように設定される。
(4−2−1)雑音レベル≧70(dBA) :閾値Th2=0.20
(4−2−2)雑音レベル≦40(dBA) :閾値Th2=0.70
(4−2−3)40<雑音レベル<70(dBA) :閾値Th2=0.30
本変形例によれば、周囲の雑音環境の変動に対して、誤検出判定の精度を向上させることができる。
【0108】
変形例4−3) 音素数依存性
閾値Th2は、認識結果の音素数が大きくなるほど小さくなるように設定される。
(4−3−1)音素数≧24 :閾値Th2=0.25
(4−3−2)音素数≦8 :閾値Th2=0.60
(4−3−3)8<音素数<24 :閾値Th2=0.40
本変形例によれば、音素数に依存せずに誤検出判定の精度を維持することができる。
以上、変形例4−1)〜4−3)を組み合わせて用いる方法もある。
【0109】
(変形例5)
以下、図17を参照しながら、変形例5による音声誤検出判別システムについて説明する。変形例5による音声誤検出判別システムにおける動作は、第1から第6の実施の形態および各変形例による音声誤検出判別システムにおける音声認識処理の変形例である。よって、変形例5による音声誤検出判別システムにおいて、第1〜第6のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
【0110】
図17は、変形例5による音声誤検出判別システムの機能を示すブロック図である。図17に示す音声誤検出判別システムは、図2の音声誤検出判別システム1の変形例であり、音声認識装置5に代えて音声認識装置50を有している。音声認識装置50は、音声認識装置5に雑音抑制部41を追加した構成である。雑音抑制部41は、マイクアレイ19から入力信号取得部11が取得した信号71の雑音を抑制する。雑音の抑制方法は、従来の様々な方法を適用できる。例えば、雑音抑制部41は信号71からフレームを作成し、周波数領域のスペクトルに変換し、スペクトルに基づいて包絡を算出し、スペクトルから包絡を除去することにより、雑音を抑制する。
【0111】
以上のように、変形例5による音声誤検出判別システムによれば、第1の実施の形態による音声誤検出判別システムによる効果に加え、音声信号における雑音を抑制することにより、雑音環境下において、より精度の高い音声認識を行うことが可能である。なお、変形例5の誤検出判別処理は、第1から第6の実施の形態による音声誤検出判別システムおよび各変形例のいずれと組み合わせて用いてもよい。
【0112】
ここで、上記第1から第6の実施の形態および、変形例1〜変形例5による音声誤検出判別システムの動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図18は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図18に示すように、コンピュータ300は、Central Processing Unit(CPU)302、メモリ304、入力装置306、出力装置308、外部記憶装置312、媒体駆動装置314、ネットワーク接続装置318、音声インタフェース320等がバス310を介して接続されている。
【0113】
CPU302は、コンピュータ300全体の動作を制御する演算処理装置である。メモリ304は、コンピュータ300の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ304は、例えばRandom Access Memory(RAM)、Read Only Memory(ROM)等である。入力装置306は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をCPU302に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置308は、コンピュータ300による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、CPU302により送付される表示データに応じてテキストや画像を表示する。
【0114】
外部記憶装置312は、例えば、ハードディスクなどの記憶装置であり、CPU302により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置314は、可搬記録媒体316に書き込みおよび読み出しを行うための装置である。CPU302は、可搬型記録媒体316に記録されている所定の制御プログラムを、記録媒体駆動装置314を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。可搬記録媒体316は、例えばConpact Disc(CD)−ROM、Digital Versatile Disc(DVD)、Universal Serial Bus(USB)メモリ等である。
【0115】
ネットワーク接続装置318は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。音声インタフェース320は、マイクアレイ19からの音声信号を取得するためのインタフェース装置である。バス310は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。
【0116】
上記第1から第6の実施の形態および各変形例による音声誤検出判別システムの動作をコンピュータに実行させるプログラムは、例えば外部記憶装置312に記憶させる。CPU302は、外部記憶装置312からプログラムを読み出し、コンピュータ300に音声誤検出判別の動作を行なわせる。このとき、まず、音声誤検出判別の処理をCPU302に行わせるための制御プログラムを作成して外部記憶装置312に記憶させておく。そして、入力装置306から所定の指示をCPU302に与えて、この制御プログラムを外部記憶装置312から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体316に記憶するようにしてもよい。
【0117】
なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。また、本発明の要旨を逸脱しない範囲で、複数の実施の形態を組み合わせることができる。例えば、音声認識装置5による音声認識処理は、音声区間の開始位置jn、音声区間長Δjnまたは音声区間終了位置、認識結果の文字列caが出力されるものであれば適用可能である。なお、音声区間長Δjnに代えて、音声区間終了位置を用いてもよい。
【0118】
音声到来率算出方法は、上記において説明した方法に限定されず、所定時間毎の音声到来率が算出できる方法であればよい。例えば、音声率を算出する代わりに、音声区間の平均の音声到来率SCを求め、予め決められた閾値と比較するようにしてもよい。定常雑音モデル推定、雑音抑制の方法も上記に限定されず、他の方法でもよい。
【0119】
マイクアレイ19は、音声誤検出判別システム1の内部に備えられてもよいし、外部に備えられてもよい。マイクアレイ19は、例えば、音声認識機能を有する車載装置またはカーナビゲーション装置、ハンズフリー電話機、または携帯電話機のような情報機器に備えられてもよい。
【0120】
音声認識装置5は、誤検出判別装置3と一体に備えられてもよく、ケーブルなどの接続手段により外部に備えられてもよい。また、音声認識装置5は、インターネット等のネットワークを介して接続された装置に備えるようにしてもよい。音声認識装置5が外部に備えられる場合には、マイクアレイ19から取得した入力信号を音声誤検出判別システム1が送信し、音声認識装置5は、受信した入力信号に基づき処理を行う。
【0121】
音源の方向については、予めキー入力などにより記録部7に記憶させてもよいが、ディジタルカメラ、超音波センサ、または赤外線センサを設け、自動的に検出するようにしてもよい。また、音声到来率SCを算出する際の許容範囲については、制御部9により実行可能なプログラムに従い、音源の方向に応じて決定されるようにしてもよい。
【0122】
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得部と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得部と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出部と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤り検出部と、
を有することを特徴とする音声誤検出判別装置。
(付記2)
前記誤り検出部は、
前記音声区間における第1の閾値以上の音声到来率を有する前記単位時間の占める割合を示す音声率を算出し、前記音声率が第2の閾値以下の場合に、前記音声区間情報は誤検出であると検出することを特徴とする付記1に記載の音声誤判定判別装置。
(付記3)
前記到来率算出部は、
前記複数の音声信号の内の2つの音声信号からそれぞれ抽出した前記単位時間毎の信号をそれぞれ変換して2つの周波数軸上の音声信号を生成し、前記2つの周波数軸上の音声信号の前記周波数毎の位相差を算出し、
前記所定方向に基づき前記周波数毎の前記位相差の許容範囲を設定し、
前記位相差と前記許容範囲とに基づき前記音声到来率を算出することを特徴とする付記1または付記2に記載の音声誤検出判別装置。
(付記4)
前記到来率算出部は、
前記音声信号の定常雑音モデルを推定し、
前記2つの周波数軸上の音声信号に前記定常雑音モデルを適用した場合の信号対雑音比が第3の閾値以上である場合に、前記音声到来率を算出することを特徴とする付記3に記載の音声誤検出判別装置。
(付記5)
前記誤り検出部は、
複数の前記単位時間毎の前記音声到来率を平均した平滑化音声到来率を算出し、
前記認識結果と前記平滑化音声到来率とに基づき、前記音声区間が誤検出でないか否かを検出することを特徴とする付記1から付記4のいずれかに記載の音声誤検出判別装置。
(付記6)
前記誤り検出部は、
前記音声区間における第1の閾値以上の音声到来率を有する前記単位時間が所定時間以上続く場合に、前記音声区間情報は誤検出ではないと判定することを特徴とする付記1から付記4のいずれかに記載の音声誤検出判別装置。
(付記7)
前記認識結果取得部は、さらに、前記認識結果の確からしさを示す認識スコアを取得し、
前記誤り検出部は、
前記音声率に前記認識スコアを乗じた値を音声率として算出し、前記音声率が第2の閾値以下の場合に、前記音声区間は誤検出であると検出することを特徴とする付記2から6に記載の音声誤検出判別装置。
(付記8)
前記誤り検出部は、
前記音声率に前記音声区間の平均信号対雑音比を乗じた値を音声率として算出し、前記音声率が第2の閾値以下の場合に、前記音声区間情報は誤検出であると検出することを特徴とする付記2から付記7に記載の音声誤検出判別装置。
(付記9)
前記第2の閾値は、前記音声区間が長くなる程小さくなるように設定することを特徴とする付記2から付記8のいずれかに記載の音声誤検出判別装置。
(付記10)
前記第2の閾値は、前記音声区間の雑音レベルが大きくなる程小さくなるように設定することを特徴とする付記2から付記8のいずれかに記載の音声誤検出判別装置。
(付記11)
前記認識結果取得部は、前記認識結果として前記音声認識の結果の文字列をさらに取得し、
前記第2の閾値は、前記文字列における音素数が多くなる程小さくなるように設定することを特徴とする付記2から付記8のいずれかに記載の音声誤検出判別装置。
(付記12)
前記到来率算出部は、
前記複数の音声信号の内の2つの前記音声信号の相関関数と、前記所定方向に基づく位相差を算出し、前記相関関数と前記位相差とに基づき前記音声到来率を算出することを特徴とする付記1または付記2に記載の音声誤検出判別装置。
(付記13)
付記1から付記15のいずれかに記載の音声誤検出判別装置と、
音声認識装置であって、
前記複数の音声信号の内の1つの音声信号に基づき音声区間を検出する区間検出部と、
前記音声区間と検出された区間の音声信号により音声認識を行い、文字列を出力する認識部と、
を有する音声認識装置と、
を備えたことを特徴とする音声誤検出判別システム。
(付記14)
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得工程と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得工程と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出工程と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤検出判別工程と、
を有することを特徴とする音声誤検出判別方法。
(付記15)
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得し、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得し、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出し、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出、
する処理をコンピュータに実行させるためのプログラム。
【符号の説明】
【0123】
1 音声誤検出判別システム
3 誤検出判別装置
5 音声認識装置
7 記録部
9 制御部
11 入力信号取得部
13 認識結果取得部
15 誤検出判定部
17 システムバス
19 マイクアレイ
21 認識結果表示装置
31 到来率算出部
33 誤り検出部
51 区間検出部
52 認識部
53 音響モデル
55 言語辞書


【特許請求の範囲】
【請求項1】
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得部と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得部と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出部と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤り検出部と、
を有することを特徴とする音声誤検出判別装置。
【請求項2】
前記誤り検出部は、
前記音声区間における第1の閾値以上の音声到来率を有する前記単位時間の占める割合を示す音声率を算出し、前記音声率が第2の閾値以下の場合に、前記音声区間情報は誤検出であると検出することを特徴とする請求項1に記載の音声誤判定判別装置。
【請求項3】
前記到来率算出部は、
前記複数の音声信号の内の2つの音声信号からそれぞれ抽出した前記単位時間毎の信号をそれぞれ変換して2つの周波数軸上の音声信号を生成し、前記2つの周波数軸上の音声信号の前記周波数毎の位相差を算出し、
前記所定方向に基づき前記周波数毎の前記位相差の許容範囲を設定し、
前記位相差と前記許容範囲とに基づき前記音声到来率を算出することを特徴とする請求項1または請求項2に記載の音声誤検出判別装置。
【請求項4】
前記到来率算出部は、
前記音声信号の定常雑音モデルを推定し、
前記2つの周波数軸上の音声信号に前記定常雑音モデルを適用した場合の信号対雑音比が第3の閾値以上である場合に、前記音声到来率を算出することを特徴とする請求項3に記載の音声誤検出判別装置。
【請求項5】
前記誤り検出部は、
複数の前記単位時間毎の前記音声到来率を平均した平滑化音声到来率を算出し、
前記認識結果と前記平滑化音声到来率とに基づき、前記音声区間が誤検出でないか否かを検出することを特徴とする請求項1から請求項4のいずれか一項に記載の音声誤検出判別装置。
【請求項6】
前記誤り検出部は、
前記音声区間における第1の閾値以上の音声到来率を有する前記単位時間が所定時間以上続く場合に、前記音声区間情報は誤検出ではないと判定することを特徴とする請求項1から請求項4のいずれか一項に記載の音声誤検出判別装置。
【請求項7】
前記認識結果取得部は、さらに、前記認識結果の確からしさを示す認識スコアを取得し、
前記誤り検出部は、
前記音声率に前記認識スコアを乗じた値を音声率として算出し、前記音声率が第2の閾値以下の場合に、前記音声区間は誤検出であると検出することを特徴とする請求項2から6に記載の音声誤検出判別装置。
【請求項8】
前記第2の閾値は、前記音声区間が長くなる程小さくなるように設定することを特徴とする請求項2から請求項7のいずれか一項に記載の音声誤検出判別装置。
【請求項9】
前記到来率算出部は、
前記複数の音声信号の内の2つの前記音声信号の相関関数と、前記所定方向に基づく位相差を算出し、前記相関関数と前記位相差とに基づき前記音声到来率を算出することを特徴とする請求項1または請求項2に記載の音声誤検出判別装置。
【請求項10】
請求項1から請求項12のいずれか一項に記載の音声誤検出判別装置と、
音声認識装置であって、
前記複数の音声信号の内の1つの音声信号に基づき音声区間を検出する区間検出部と、
前記音声区間と検出された区間の音声信号により音声認識を行い、文字列を出力する認識部と、
を有する音声認識装置と、
を備えたことを特徴とする音声誤検出判別システム。
【請求項11】
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得工程と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得工程と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出工程と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤検出判別工程と、
を有することを特徴とする音声誤検出判別方法。
【請求項12】
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得し、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得し、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出し、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する処理をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図9】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図4】
image rotate

【図8】
image rotate

【図10】
image rotate


【公開番号】特開2012−198289(P2012−198289A)
【公開日】平成24年10月18日(2012.10.18)
【国際特許分類】
【出願番号】特願2011−60796(P2011−60796)
【出願日】平成23年3月18日(2011.3.18)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】