音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体
【課題】雑音が支配的になっている期間を音源定位過程で検出し、音声認識過程でこの期間の処理をうまく調整できるようにする。
【解決手段】 2地点で捉えられた第1と第2の音響信号から周波数成分毎の位相差とパワーとを算出し、周波数成分毎の周波数と位相差とを座標値とする散布図を生成する。該散布図上で所定の直線性を示す周波数成分の配置を、周波数成分のパワーに応じた直線スコアとともに検出し、該直線スコアが所定の閾値以上を得た配置を音源の存在を示す直線として検出する。このような直線の情報及び直線スコア等より成る音源ストリームを抽出し、音源ストリームの時刻毎の直線スコアの高低に基づいて該音源ストリームの各時刻に対して信頼可否情報を付与する。
【解決手段】 2地点で捉えられた第1と第2の音響信号から周波数成分毎の位相差とパワーとを算出し、周波数成分毎の周波数と位相差とを座標値とする散布図を生成する。該散布図上で所定の直線性を示す周波数成分の配置を、周波数成分のパワーに応じた直線スコアとともに検出し、該直線スコアが所定の閾値以上を得た配置を音源の存在を示す直線として検出する。このような直線の情報及び直線スコア等より成る音源ストリームを抽出し、音源ストリームの時刻毎の直線スコアの高低に基づいて該音源ストリームの各時刻に対して信頼可否情報を付与する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声を認識する装置に関し、特に雑音環境下で目的音源を検出定位し、該目的音源の音声データを雑音から分離抽出してこれを認識する装置に係る。
【背景技術】
【0002】
近年、ロボット用の聴覚研究の分野で、雑音環境下で複数の目的音源の数とその方向を推定し(音源定位)、各音源からの音声を分離抽出し(音源分離)、この分離音声を認識する(音声認識)ための方式が提案されている。
【0003】
例えば、一対のマイクを用いて、拡散性雑音環境下で方向性のある音源(目的音源)の定位と音源音声の分離を行う方法が提案されている(例えば、特許文献1参照)。この方法は、2つのマイクで捉えた2つの音響信号をそれぞれフーリエ変換した周波数分解データから、両音響信号間の周波数毎の位相差を求め、これを周波数−位相差座標系にプロットした散布図を生成する。到達時間差の同じ周波数成分を同一音源に由来するものと看做した場合、これら周波数成分が散布図上で原点を通る直線の上に分布することに着目し、散布図上でハフ変換・ハフ投票を応用した直線検出を行うことで、音源の検出と方向の定位を行う。ハフ投票の得票値(スコアとも呼ぶ)が所定の閾値を越える直線が2本検出されれば、方向の異なる音源が2つあり、それぞれの直線の傾きから各音源がどの方向にあるかを知ることができる。さらに、各時刻で得られた直線を、その傾きに注目して時系列にグルーピングすることで目的音源ストリームと成し、その音源方向に指向性を与えたビームフォーミングで当該音源からの音声(目的音声)を抽出する。分離抽出された音声(分離音声)は音声認識され、当該目的音声の言語的情報が推定される。
【0004】
この従来技術は空間中の局所領域から発せられる音声(方向性音源=目的音源)の両マイクへの到達時間差に基づいて最初に各音源の存在を検出するとともにその方向を推定(音源定位)する。そして、各音源方向に指向性を与えたビームフォーミングによって各音源音声を他の音(他の方向性音源音声や拡散性の環境雑音)から分離抽出(音源分離)し、この分離音声を認識(音声認識)する。
【0005】
しかしながら、複数の音源が同じ周波数の音を同時に発していると、フーリエ変換によって得られる周波数毎の振幅ベクトルは複素平面上で各音源音声の振幅ベクトルの合成ベクトルとなってしまうため、その周波数について位相差を求めても正しい到達時間差を表してはくれない。すなわち、このような周波数成分はいずれの音源方向にも当てはまらず、ビームフォーミングの際に欠落し、そのため、抽出された分離音声が歪んでしまう。もし、音声認識時に用いられる音響モデルがこの歪みを学習していないと、音声認識時の尤度計算において音響スコアが上がらず誤認識の原因となる。
【0006】
この歪みの影響を抑制するために、スペクトル歪みの影響を受けた特徴量の成分をマスクして尤度計算に用いない音声認識方法が示されている(例えば、非特許文献1参照)。その際、音源分離過程で雑音推定を行い、その推定された雑音情報を用いてマスクを自動生成する。当該文献中にも記述されているように、この方法は「音源分離と音声認識を統合する」手法である。
【0007】
また、人物が1つのフレーズを発話している最中であっても、その音圧には強弱があるため、弱い部分では発話音声が環境雑音に負けてしまい、抽出されたその期間の分離音声が観測できないことが起きる。このような場合、例えば静穏環境では聞こえるはずの発話内容の一部期間が雑音環境下で観測できなかったことになるため、この発話内容を文法情報に与えられた音声認識ではこの期間で解釈に失敗して誤認識を起こす危険性が高い。特に雑音強度が上がるほどこのような期間が長くなるため、その危険性が増すことになる。
【0008】
発話中の音声の強弱変化を検出して利用した例として、入力音声中の無音らしさに応じて尤度計算を制御する方法が示されている(例えば、特許文献2参照)。その実施例中には、「・・・ビーム探索を用いるものであるが、無音区間においてビーム幅の絞り込みを行うことを特徴としている」との記載があり、各時刻において尤度の高い幾つかの仮説を残して枝刈りするビーム探索において、無音区間で残す仮説を減らすことで、無音区間での認識処理量を減らすことが記載されている。これは、無音区間にはそもそも発話音声の情報が無いので、その間での無駄な計算を減らそうというものである。また、無音区間か否かの判定方法として、(A)入力音声のパワーが所定閾値より高い期間が継続するか否かで判定する方法と、(B)無音音響特徴と照合した音響スコアが、無音以外の音響特徴と照合した音響スコアよりも高い期間が継続するか否かで判定する方法の2通りが示されている。
【0009】
一方、特許文献1の音源定位過程を応用すると、ハフ投票の得票値が各周波数成分のパワーに応じて増大するよう定めることができるので、方向毎の得票値の大小がその方向からの音源音声のパワーに呼応するようにでき、その結果、環境雑音が支配的になっている期間を、直線が検出できない、あるいは直線の得票値が小さいという現象で検出できる。そのため、強い環境音のせいで入力音声が無音どころか強い雑音に支配されている期間であっても、ある音源からの音声がこの環境音にまぎれて途切れがちであることを検出できようになる。特許文献2の「無音検出手段」にはその能力が無い。
【0010】
また、音声認識過程ではこのような環境雑音が支配的になっている期間の処理をうまく調整できることが期待される。これは『音源分離と音声認識を統合する』とした非特許文献1に対して、『音源定位と音声認識を統合する』というアプローチに相当する。上述した従来技術はこの統合について示唆していない。
【0011】
直線の検出については、周波数−位相差散布図上で直線を検出する手法が開示されている(例えば、特許文献3参照)。しかし、この手法は、散布図上で様々な傾きの直線を仮定して評価する点は特許文献1と同様であるが、方式に違いがある。特許文献3は、散布図上の周波数成分配置に対して最小二乗誤差となる直線を検出する方式であり、散布図上の各周波数成分と該直線との距離の二乗和として評価量(仮定された直線の得票値)を得ているため、特許文献1のようなパワーに応じた得票値となっていない。もし、得票値から雑音の支配的な期間を知りたければ、パワー(あるいは振幅)の関数としての得票値を求める方が都合が良い。
【特許文献1】特開2006−254226号公報
【特許文献2】特開平11−85180号公報
【特許文献3】特開2003−337164号公報
【非特許文献1】山本俊一 他、“音源分離との統合によるミッシングフィーチャマスク自動生成に基づく同時発話音声認識”、日本ロボット学会誌、Vol.25、No.1、2007年1月15日発行
【発明の開示】
【発明が解決しようとする課題】
【0012】
本発明は上記の問題点及び考察に鑑みて成されたものであり、その目的とするところは、(1)雑音が支配的になっている期間を音源定位過程で検出し、(2)目的音源ストリームの分離音声を認識する際、雑音の悪影響を抑制した認識を行うことの可能な音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体を提供することである。
【課題を解決するための手段】
【0013】
本発明の一観点に係る音声認識装置は、2地点で捉えられた第1と第2の音響信号を入力する入力手段と、前記第1と第2の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出手段と、前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成手段と、前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出手段と、一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出手段により検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する抽出手段と、前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類手段と、前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離手段と、文法情報に定められた文仮説を状態と遷移の探索木に展開し、前記音源ストリームの音声データから所定の音響特徴を抽出し、該音響特徴の系列に対する前記探索木の状態遷移経路の尤度を計算し、尤度の高い状態遷移経路を探索することで前記音源ストリームの言語的内容を認識する音声認識手段とを具備し、前記状態遷移経路の探索を前記信頼可否情報に基づいて制御することを特徴とする。
【発明の効果】
【0014】
本発明によれば、(1)雑音が支配的になっている期間を音源定位過程で検出し、(2)目的音源ストリームの分離音声を認識する際、雑音の悪影響を抑制した認識を行うことができる。
【発明を実施するための最良の形態】
【0015】
以下、本発明に係る音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体の実施形態を図面に従って説明する。
【0016】
図1に本発明の一実施形態に係る音声認識装置の機能ブロックを示す。本実施形態に係る音声認識装置は、空間的に異なる位置に配置されたマイク1aと1bと、音響信号入力部2と、音源ストリーム抽出分類部3と、音源分離部4と、語彙認識部5と、話者認識部6と、物音認識部7と、出力部8と、ユーザインタフェース部9とを有している。
【0017】
マイク1aと1bからの2つの振幅データは、音響信号入力部2を経由して音源ストリーム抽出分類部3に入力される。音源ストリーム抽出分類部3は、所定時間間隔(フレームシフト)で繰り返される離散的な時刻(フレーム)毎に、所定個数(フレーム長)の振幅データを先ずは(1)FFT処理によって周波数分解し、(2)両入力の位相差を周波数成分毎に求める。また、このとき、両入力における各周波数成分のパワー値の例えば平均を当該周波数成分の代表パワー値として求める。
【0018】
次に、音源ストリーム抽出分類部3は、(3)連続する所定フレーム分の周波数毎の位相差を周波数−位相差平面上の2次元散布図化し、(4)この2次元散布図から所定の直線をその直線スコアとともに検出する。検出された直線はある方向性音源(目的音源)の存在を示唆している。このとき直線近傍に分布する周波数成分は該目的音源を発した音声(音源音)のその時刻(フレーム)におけるスペクトルを近似しており、それら周波数成分の前記代表パワー値に基づいて算出される直線スコアは、当該音源音の総パワーの目安を与える。本実施形態では、この直線スコアをハフ投票の得票値によって算定する。また、この検出された直線の傾きθはマイク1aと1bを結ぶ線分に対する目的音源の存在角度φ(目的音源の存在する円錐面の開き角度)と1対1の対応関係にある。そして、(5)直線の傾きθを角度−時間平面上に並べたデータ上で、所定範囲内の直線無検出期間と直線傾きぶれを許容して時間軸方向にグルーピングされる、前記直線無検出期間を含む所定期間以上の長さを持つ前記検出された直線の系列と、その傾きθの系列及びそこから計算される存在角度φの系列と、前記検出された直線の系列の存在期間(前記グルーピングの始端フレームと終端フレームで挟まれる期間)とを1つの目的音源から発せられる音声ストリームの情報(目的音源ストリーム)として検出する。
【0019】
特に本実施形態に係る音源ストリーム抽出分類部3は、(6)前記目的音源ストリームの始終端で挟まれる各フレームについて、前記直線が当該目的音源ストリームにグルーピングされたフレームを信頼可、されなかったフレームを信頼不可と判定分類する。この信頼可否の別は当該目的音源ストリームの音源音の各時刻(各フレーム)における明瞭度を表している。
【0020】
なお、上記(1)〜(5)の処理は、特許文献1に開示される技術によって実施可能である。
【0021】
音源分離部4は、前記存在角度系列に基づいて入力音声データへのビームフォーミングを行うことで、当該目的音源ストリームの音声データ(目的音声データ)を環境雑音から分離する。
【0022】
以上の処理によって、目的音源ストリームの音声データ(目的音声データあるいは分離音声データと呼ぶ)と、その各時刻(フレーム)における信頼可否の情報が得られる。信頼不可のフレームは、(a)強力な環境雑音に目的音声が負けてしまったか、(b)目的音声が元々微弱もしくは無かったために、直線が明瞭に検出できなかった期間を表していると解釈できる。特に(a)の場合、例えば静穏環境では聞こえるはずの発声内容の一部期間が雑音環境下で観測できなかったことになるため、この発声内容を文法情報に与えられた従来の音声語彙認識では、この期間で解釈に失敗して誤認識を起こす危険性が高い。
【0023】
同様に、音声話者認識や物音認識でも、雑音が支配的な期間の音声を認識しようとすれば正しく認識できない危険性が高い。
【0024】
語彙認識部5は、前記目的音声データの言語的内容を認識する手段であり、文法情報に従って解釈するための尤度計算に際して、信頼可と分類されたフレームだけを尤度計算に用い、信頼不可と分類されたフレームで枝刈りをしないことで、誤認識の発生を抑制する。
【0025】
話者認識部6は、前記目的音声データが誰の声であるかを認識する手段であり、信頼可と分類されたフレームだけを対象に認識を行うことで、誤認識の発生を抑制する。
【0026】
物音認識部7は、前記目的音声データが何の物音であるかを認識する手段であり、信頼可と分類されたフレームだけを対象に認識を行うことで、誤認識の発生を抑制する。
【0027】
出力部8は、前記目的音源ストリームの数、各目的音源ストリームの存在角度系列、前記目的音声データを認識して得た認識の結果とを少なくとも含む音源情報を生成出力する。
【0028】
ユーザインタフェース部9は各種設定値の利用者への呈示、利用者からの設定入力受理、外部記憶装置への設定値の保存、外部記憶装置からの設定値の読み出し、及び各種処理結果の利用者への呈示を実行する。
【0029】
以下、本実施形態に係る音声認識装置の各機能ブロックの動作を詳しく説明する。
【0030】
(周波数成分毎の位相差から音源を推定するという基本概念)
マイク1aとマイク1bは、空気などの媒質中に所定の距離をあけて配置された2つのマイクであり、異なる2地点での媒質振動(音波)をそれぞれ電気信号(音響信号)に変換するための手段である。以後、マイク1aとマイク1bをひとまとめに扱う場合、これを「マイク対」と呼ぶことにする。
【0031】
音響信号入力部2は、マイク1aとマイク1bによる2つの電気信号(音響信号)を所定のサンプリング周波数Frで定期的にA/D変換することで、マイク1aとマイク1bによる2つの音響信号のデジタル化された振幅データを時系列的に生成する手段である。この入力された振幅データを周波数成分毎の位相差に分解して解析することで、複数の音源が同時期に存在しても、各音源に特有の周波数成分については、2つのデータ間でそれぞれの音源方向に応じた位相差が観測されるため、もし周波数成分毎の位相差を方向を同じくするグループに分けることができれば、幅広い種類の音源について、幾つの音源が存在し、その各々がどちらの方向にあり、それぞれが主にどのような音声を発しており、その強さあるいはパワーがどれくらいかを把握できるはずである。
【0032】
(音声ストリーム抽出分類部3)
以上の基本コンセプトを実現する音源ストリーム抽出分類部3の内部構成を図2に示す。音源ストリーム抽出分類部3は、周波数分解部301、位相差算出部302、散布図生成部303、投票部304、直線検出部305、時系列追跡部306、継続時間評価部307、フレーム分類部308より成る。
【0033】
(周波数分解部301)
周波数分解部301は、マイク1aと1bの捉えた音響信号を音響信号入力部2がデジタル化して生成した振幅データaとbを入力として、それぞれを周波数成分に分解した周波数分解データaとbを生成する。振幅データを周波数成分に分解する一般的な手法として高速フーリエ変換(FFT)がある。代表的なアルゴリズムとしては、Cooley−Turkey DFTアルゴリズムなどが知られている。
【0034】
周波数分解部301は、音響信号入力部2による振幅データについて、ある時刻(T番目のフレーム)を起点として連続するN個の振幅データを抜き出してFFT処理を行うとともに、この抜き出し位置を所定のフレームシフト量Fsずつずらしながら離散的な時刻毎(T+1番目のフレーム、T+2番目のフレーム、・・・)に繰り返す。この結果、入力された振幅データに対する周波数成分毎のパワー値と位相値とから成る周波数分解データが時系列的に生成される。
【0035】
(位相差算出部302)
位相差算出部302は、周波数分解部301により得られた同時期の2つの周波数分解データaとbとを比較して、同じ周波数成分毎に両者の位相値の差を計算して得たab間位相差データを生成する。図3に示すように、ある周波数成分fkの位相差ΔPh(fk)は、マイク1aにおける位相値Ph1(fk)とマイク1bにおける位相値Ph2(fk)の差を計算し、その値が{ΔPh(fk):−π<ΔPh(fk)≦π}に収まるように2πの剰余系として算定される。
【0036】
(散布図生成部303)
散布図生成部303は、位相差算出部302により得られたab間位相差データを元に、周波数とその位相差の組を所定の2次元XY座標系上の点として扱うための座標値を決定する手段である。ある周波数成分fkの位相差ΔPh(fk)に対応するX座標値x(fk)とY座標値y(fk)は、図4に示す式によって決定される。X座標値は位相差ΔPh(fk)、Y座標値は周波数成分番号kである。このような点群をXY座標系にプロットしたものが散布図である。
【0037】
(同一時間差に対する位相差の周波数比例性)
位相差算出部302によって、図3に示したように算出される周波数成分毎の位相差は、同一音源(同一方向)に由来するものどうしが同じ到達時間差を表しているはずである。このとき、FFTによって得られたある周波数の位相値及び両マイク間の位相差はその周波数の周期を2πとして算出された値なので、同じ時間であっても周波数が2倍になれば位相も2倍となる比例関係にある。これは位相差についても同様であり、同一時間差ΔTに対する位相差は周波数に比例して大きくなる。同一音源から発せられてΔTを共通にする各周波数成分の位相差を図4に示した座標値計算により2次元座標系上にプロットした散布図を生成すると、各周波数成分の位相差を表す座標点が直線状に並ぶ。ΔTが大きいほど、すなわち両マイク間で音源までの距離が異なるほど、この直線の傾きは大きくなる。
【0038】
(位相差の循環性)
但し、両マイク間の位相差がこの散布図の全域で周波数に比例するのは、解析対象となる最低周波数から最高周波数まで通して真の位相差が±πを逸脱しない場合に限られる。この条件はΔTが、最高周波数(サンプリング周波数の半分)Fr/2[Hz]の1/2周期分の時間、すなわち1/Fr[秒]以上とならないことである。もし、ΔTが1/Fr以上となる場合には、次に述べるように位相差が循環性を持つ値としてしか得られないことを考慮しなければならない。
【0039】
手に入れることのできる周波数成分毎の位相値は複素座標系上の角度値として2π[ラジアン]の幅(本実施形態では−πからπの間の2πの幅)でしか得ることができない。このことは、その周波数成分における実際の位相差が両マイク間で1周期以上開いていても、周波数分解結果として得られる位相値からそれを知ることができないことを意味する。そのため、本実施形態では位相差を−πからπの間で得るようにしている。しかし、ΔTに起因する真の位相差は、ここで求められた位相差の値に2πを加えたり差し引いたり、あるいはさらに4πや6πを加えたり差し引いたりした値である可能性がある。
【0040】
これを模式的に示した散布図が図5である。周波数fkの位相差ΔPh(fk)が図中の黒丸140で表すように+πであるとき、1つ高い周波数fk+1の位相差は図中の白丸141で表すように+πを超えている。しかしながら、計算された位相差ΔPh(fk+1)は、本来の位相差から2πを差し引いた、図中の黒丸142で表すように−πよりやや大きい値となる。さらに、図示はしていないが、その3倍の周波数でも同様の値を示すことになるが、これは実際の位相差から4πを差し引いた値である。このように位相差は周波数が高くなるにつれて2πの剰余系として−πからπの間で循環する。この例ように、ΔTが大きくなると、ある周波数fk+1から上では、白丸で表した真の位相差が黒丸で示したように反対側に循環してしまう。
【0041】
本発明における音源の数と方向を推定する問題は、このような散布図上で、図示したような直線を検出することに帰着できる。また、音源毎のおおよその周波数成分を推定する問題は、検出された直線に近い位置にプロットされた周波数成分を選別することに帰着できる。そこで、本実施形態における散布図生成部303の出力する散布図データは、周波数分解部301による周波数分解データを使って周波数と位相差の関数として決定される点群とする。投票部304はこの散布図データとして与えられる点群配置から直線状の配置を図形として検出する。
【0042】
(投票部304)
投票部304は、散布図生成部303によって(x,y)座標を与えられた各周波数成分に対して、後述するように直線ハフ変換を適用し、その軌跡をハフ投票空間に所定の方法で投票する手段である。ハフ変換については、岡崎彰夫、“はじめての画像処理”、工業調査会、2000年10月20日発行の100〜102ページに解説されている。
【0043】
(直線ハフ変換)
2次元座標上の点p(x,y)を通り得る直線は無数に存在するが、原点Oから各直線に下ろした垂線のX軸からの傾きをθ、この垂線の長さをρとして表現すると、1つの直線についてθとρは一意に決まり、ある点(x,y)を通る直線の取り得るθとρの組は、θρ座標系上で(x,y)の値に固有の軌跡(ρ=x cosθ+y sinθ)を描くことが知られている。この軌跡をハフ曲線と呼ぶ。また、このような、(x,y)座標値からそこを通り得る直線の(θ,ρ)の軌跡への変換を直線ハフ変換と云う。なお、直線が左に傾いているときθは正値、垂直のとき0、右に傾いているとき負値であるとし、また、θの定義域は{θ:−π<θ≦π}を逸脱することはない。
【0044】
ハフ曲線はXY座標系上の各点について独立に求めることができるが、例えば3点p1、p2、p3を共通に通る直線は、p1、p2、p3に対応した3本の軌跡が交差する点の座標(θ0,ρ0)で定められる直線として求めることができる。多くの点を通る直線であればあるほど、その直線を表すθとρの位置を多くの軌跡が通過する。
【0045】
(ハフ投票)
点群から直線を検出するため、ハフ投票という手法が使われる。これはθとρを座標軸とする2次元のハフ投票空間に各軌跡の通過するθとρの組を投票することで、ハフ投票空間の得票の大きい位置に多数の軌跡の通過するθとρの組、すなわち直線の存在を示唆させるようにする手法である。
【0046】
投票部304は、次の条件を全て満たす周波数成分についてハフ投票を行う。この条件により、所定の周波数帯で所定閾値以上のパワーを持つ周波数成分のみが投票されることになる。
【0047】
(投票条件1) 周波数が所定範囲にあるもの(低域カットと高域カット)。
【0048】
(投票条件2) 当該周波数成分fkの代表パワーP(fk)が所定閾値以上のもの。
【0049】
投票条件1は、一般に暗騒音が乗っている低域をカットしたり、FFT精度の落ちる高域をカットしたりする目的で使われる。この低域カットと高域カットの範囲は運用に合わせて調整可能である。最も広く周波数帯域を使う場合、低域カットは直流成分のみ、高域カットは最大周波数のみとする設定が適している。
【0050】
暗騒音程度の非常に弱い周波数成分ではFFT結果の信頼性が高くないと考えられる。投票条件2は、このような信頼性の低い周波数成分をパワーで閾値処理することで投票に参加させないようにする目的で使われる。マイク1aにおけるパワー値Po1(fk)、マイク1bにおけるパワー値Po2(fk)とすると、このとき評価される当該周波数成分fkの代表パワーP(fk)は両者の平均として求めることとする。
【0051】
また、投票部304は、投票に際して軌跡の通過位置に当該周波数成分fkの代表パワーP(fk)の関数値を加算する。この投票方式は、通過する点が少なくても、パワーの大きい周波数成分を含んでいれば上位の極大値を得ることのできる方式であり、周波数成分が少なくてもパワーの大きい有力な成分を持つ直線(すなわち音源)を検出するのに適している。代表パワーP(fk)の関数値はG(P(fk))として計算される。図6にG(P(fk))の計算式を示す。中間パラメータVの値はP(fk)の対数値log10(P(fk))に所定のオフセットαを足した値として計算される。そしてVが正であるときはV+1の値を、Vがゼロ以下であるときには1を、関数G(P(fk))の値とする。このように最低でも1を投票することで、パワーの大きい周波数成分を含む直線(音源)が上位に浮上するだけでなく、多数の周波数成分を含む直線(音源)も上位に浮上するという多数決的な性質を併せ持たせることができる。
【0052】
(複数FFT結果をまとめて投票)
さらに、投票部304は、1回のFFT毎に投票を行うことも可能だが、一般的に連続するm回(m≧1)の時系列的なFFT結果についてまとめて投票を行なうこととする。長期的には音源の周波数成分は変動するものであるが、このようにすることで、周波数成分の安定している適度に短期間の複数時刻のFFT結果から得られるより多くのデータを用いて、より信頼性の高いハフ投票結果を得ることができるようになる。なお、このmは運用に合わせてパラメータとして設定可能とする。
【0053】
(直線検出部305)
直線検出部305は、投票部304によって生成されたハフ投票空間上の得票分布を解析して有力な直線を検出する手段である。このとき、図5で述べた位相差の循環性など、本問題に特有の事情を考慮することで、より高精度な直線検出を実現する。
【0054】
(ρ=0の制約)
マイク1aとマイク1bの信号が音響信号入力部2によって同相でA/D変換される場合、検出されるべき直線は必ずρ=0、すなわちXY座標系の原点を通る。したがって、音源の推定問題は、理想的には、ハフ投票空間上でρ=0となるθ軸上の得票分布S(θ,0)から極大値を探索する問題に帰着するはずである。
【0055】
(位相差循環を考慮した直線群の定義)
しかし、実際には位相差の循環性によって、原点を通る直線がΔρだけ平行移動してX軸上の反対側から循環してくる直線もまた同じ到達時間差を示す直線である。このように原点を通る直線を延長してXの値域からはみ出した部分が反対側から循環的に現れる直線を、「循環延長線」、基準となった原点を通る直線を「基準直線」とそれぞれ呼ぶことにする。もし、基準直線がさらに傾いていれば、循環延長線はさらに数を増すことになる。ここで係数aを0以上の整数とすると、到達時間差を同じくする直線は全て(θ0,0)で定義される基準直線をΔρずつ平行移動させた直線群(θ0,aΔρ)となる。このとき、Δρは直線の傾きθの関数Δρ(θ)として図7に示す式で定義される符号付きの値である。
【0056】
(位相差循環を考慮した極大位置検出)
位相差の循環性から、音源を表す直線は1つではなく基準直線と循環延長線から成る直線群として扱われるべきであることを述べた。このことは得票分布から極大位置を検出する際にも考慮されなければならない。
【0057】
図8に、室内雑音環境下で2人の人物がマイク対の正面約20度左と約45度右から同時に発話した実際の音声を用いて処理したときの周波数成分のパワースペクトル、5回分(m=5)のFFT結果から得た周波数成分毎の位相差散布図、同じ5回分のFFT結果から得たハフ投票結果(得票分布)を示す。
【0058】
マイク対で取得された振幅データは、周波数分解部301によって周波数成分毎のパワー値と位相値のデータに変換される。図中の210と211は、縦軸を周波数、横軸を時間として、周波数成分毎の対数パワー値を輝度表示(黒いほど大きい)したものである。縦の1ラインが1フレーム(1回のFFT結果)に対応し、これを時間経過(右向き)に沿ってグラフ化した図である。上段210がマイク1a、下段211がマイク1bからの信号を処理した結果であり、多数の周波数成分が検出されている。この周波数分解結果を受けて、位相差算出部302により周波数成分毎の位相差が求められ、散布図生成部303によりその(x,y)座標値が算出される。図中の212はある時刻213から連続5フレーム分のFFTによって得た位相差をプロットした散布図である。この図で原点から左に傾いた基準直線214に沿う点群分布と右に傾いた基準直線215に沿う点群分布が認められる。投票部304により、このような分布を示している各点がハフ投票空間に投票されて得票分布216を形成する。
【0059】
図9は位相差循環性を考慮して、Δρずつ離れた数箇所の得票値を合計して極大位置を探索した結果を示した図である。図9(a)に示す得票分布240は、図8における得票分布216上に、原点を通る直線をΔρずつ平行移動させたときのρの位置を破線242〜249で表示したものである。このとき、θ軸241と破線242〜245、及びθ軸241と破線246〜249はそれぞれΔρ(θ)の自然数倍で等間隔に離れている。なお、直線がXの値域を越えずに散布図の天井まで抜けることが確実なθ=0には破線を表示していない。
【0060】
あるθ0の得票H(θ0)は、θ=θ0の位置で縦に見たときのθ軸241上の得票と破線242〜249上の得票の合計値、すなわちaを0以上の整数とした、H(θ0)=Σ{S(θ0,aΔρ(θ0))}として計算される。この操作はθ=θ0となる基準直線とその循環延長線の得票を合計することに相当する。この得票分布H(θ)を棒グラフにしたものが図9(b)中の250である。この得票分布250からは同図9(b)の251に示す10個の極大位置が検出される。このうち、極大位置252と253が、マイク対の正面約20度左からの音声を検出した直線群(極大位置253に対応する、図9(c)に示す基準直線254と循環延長線255)と、マイク対の正面約45度右からの音声を検出した直線群(極大位置252に対応する、同図9(c)に示す基準直線256と循環延長線257と258)に対応している。このようにΔρずつ離れた箇所の得票値を合計して極大位置を探索することで、傾きの小さい直線から傾きの大きい直線まで安定に検出する。そして、所定閾値以上の得票値を得た極大位置(直線)を選別することで、音源らしき候補(音源候補)を抽出することができる。
【0061】
(存在角度推定)
さらに、直線検出部305は、検出された直線群毎のθ値から各直線群に対応した音源候補の存在範囲を計算する。マイク間距離に対して音源までの距離が十分遠い場合、音源の存在範囲は2つのマイク1aとマイク1bを結ぶ線分(マイク対のベースラインと呼ぶ)に対してある角度(存在角度)を持った円錐面となる。
【0062】
マイク1aとマイク1bの到達時間差ΔTは±ΔTmaxの範囲で変化し得る。マイク対の正面から入射する場合、ΔTは0となり、音源の存在角度φは正面を基準にした場合0°となる。また、音声がマイク対の右真横、すなわちマイク1b方向から入射する場合、ΔTは+ΔTmaxに等しく、音源の存在角度φは正面を基準にして右回りを正として+90°となる。同様に、音声がマイク対の左真横、すなわちマイク1a方向から入射する場合、ΔTは−ΔTmaxに等しく、存在角度φは−90°となる。このように、ΔTを音が右から入射するとき正、左から入射するとき負となるように定義する。以上を踏まえて一般的な条件を考えると、符号も含めて、存在角度はφ=sin−1(ΔT/ΔTmax)として計算することができる。
【0063】
ΔTmaxはΔTmax=L÷Vs[sec]で求められる、マイク間距離L[m]を音速Vs[m/sec]で割った値である。このとき、音速Vsは気温t[℃]の関数として、Vs=331.4+0.604t[m/sec]で近似できることが知られている。今、直線検出部305によって傾きθの直線が検出されているとする。この直線が右に傾いているとすればθは負値である。y=k(周波数fk)のとき、この直線で示される位相差ΔPhはkとθの関数としてΔPh(θ,k)=k・tan(−θ)で求めることができる。このときΔT[sec]はΔT=(ΔPh(θ,k)/2π)×(1/fk)で示すように、位相差ΔPh(θ,k)の2πに対する割合に周波数fkの1周期(1/fk)[sec]を乗じた時間となる。θが符号付きの量なので、ΔTも符号付きの量となる。すなわち、音が右から入射する(位相差ΔPhが正値となる)とき、θは負値となる。また、音が左から入射する(位相差ΔPhが負値となる)とき、θは正値となる。そのために、式ではθの符号を反転させている。なお、実際の計算においては、k=1(直流成分k=0のすぐ上の周波数)で計算を行えば良い。
【0064】
(時系列追跡部306)
上述した通り、投票部304によるハフ投票毎に、直線検出部305により直線群が求められる。ハフ投票は連続するm回(m≧1)のFFT結果についてまとめて行われる。この結果、直線群はmフレーム分の時間を周期(これを「直線検出周期」と呼ぶことにする)として時系列的に求められることになる。また、直線群のθは円錐面の開き角度(存在角度)φと1対1に対応しているので、音源が静止していても移動していても、安定な音源に対応しているθ(あるいはφ)の時間軸上の軌跡は連続して変化すると仮定される。一方、直線検出部305により検出された直線群の中には、閾値の設定具合によって背景雑音に対応する直線群(これを「雑音直線群」と呼ぶことにする)が含まれていることがある。しかしながら、このような雑音直線群のθ(あるいはφ)の時間軸上の軌跡は連続していないか、連続していても短いことが期待できる。
【0065】
時系列追跡部306は、このように直線検出周期毎に求められるθ(あるいはφ)を時間軸上で連続とみなせるグループにまとめることで、θ(あるいはφ)の時間軸上の軌跡(音源ストリーム候補と呼ぶ)を求める手段である。図10を参照し、θを用いた場合のグルーピングの方法を説明する。
【0066】
(1)音源ストリーム候補バッファを用意する。音源ストリーム候補バッファは音源ストリーム候補データの配列である。1つの音源ストリーム候補データKdは、その開始時刻Tsと、終了時刻Teと、当該音源ストリーム候補を構成する直線群データLdの配列(直線群リスト)と、ラベル番号Lnとを保持することができる。1つの直線群データLdは、当該音源ストリーム候補を構成する1つの直線群のθ値及びρ値(直線検出部305による)と、この直線群に対応した音源の存在角度φ値(直線検出部305による)と、直線スコア(直線検出部305による)と、それらが取得された時刻とから成る一群のデータである。なお、上述したように、位相差の循環性から、音源を表す直線は1つではなく基準直線と循環延長線から成る直線群として扱われるべきであることから、直線群データLdの配列における1つの要素は、1つの直線群であるとしている。あえて位相差の循環性を考慮しない場合は、上記配列の要素は1つの直線ということになる。また、音源ストリーム候補バッファは最初空である。また、ラベル番号を発行するためのパラメータとして新規ラベル番号を用意し、初期値を0に設定する。
【0067】
(2)あるフレームTにおいて、新しく検出された直線の傾きθの各々(以後θnとし、図中では黒丸323と黒丸324で示される2つが得られたものとする)について、音源ストリーム候補バッファに保持されている音源ストリーム候補データKd(図中の矩形321と322)の直線群データLd(図中の矩形内に配置された黒丸)を参照し、そのθ値とθnの差(図中の325と326)が所定角度閾値Δθ(角度方向ギャップの許容範囲を与える)内にあり、かつその取得時刻の差(図中の327と328)が所定時間閾値Δt(時間方向ギャップの許容範囲を与える)内にあるLdを持つ音源ストリーム候補データを検出する。この結果、黒丸323については音源ストリーム候補データ321が検出されたが、黒丸324については最も近い音源ストリーム候補データ322も上記条件を満たさなかったとする。
【0068】
(3)黒丸323のように、もし、(2)の条件を満たす音源ストリーム候補データが見つかった場合は、θnはこの音源ストリーム候補と同一の音源ストリーム候補を成すものとして、このθnとそれに対応したφ値とρ値と現時刻Tとを当該音源ストリーム候補データKdの新たな直線群データとして直線群リストに追加し、現時刻Tを当該音源ストリーム候補データの新たな終了時刻Teとする。このとき、複数の音源ストリーム候補データが見つかった場合には、それら全てが同一の音源ストリーム候補を成すものとして、最も若いラベル番号を持つ音源ストリーム候補データに統合して、残りを音源ストリーム候補バッファから削除する。統合された音源ストリーム候補データの開始時刻Tsは統合前の各音源ストリーム候補データの中で最も早い開始時刻であり、終了時刻Teは統合前の各音源ストリーム候補データの中で最も遅い終了時刻であり、直線群リストは統合前の各音源ストリーム候補データの直線群リストの和集合である。この結果、黒丸323は音源ストリーム候補データ321に追加される。
【0069】
(4)黒丸324のように、もし、(2)の条件を満たす音源ストリーム候補データが見つからなかった場合は、新規の音源ストリーム候補の始まりとし、音源ストリーム候補バッファの空き部分に新しい音源ストリーム候補データを作成し、開始時刻Tsと終了時刻Teを共に現時刻Tとし、θnとそれに対応したφ値とρ値と現時刻Tとを直線群リストの最初の直線群データとし、新規ラベル番号の値をこの音源ストリーム候補データのラベル番号Lnとして与え、新規ラベル番号を1だけ増加させる。なお、新規ラベル番号が所定の最大値に達したときは、新規ラベル番号を0に戻す。この結果、黒丸324は新たな音源ストリーム候補データとして音源ストリーム候補バッファに登録される。
【0070】
(5)もし、音源ストリーム候補バッファに保持されている音源ストリーム候補データで、最後に更新されてから(すなわちその終了時刻Teから)現時刻Tまでに前記所定時間Δtを経過したものがあれば、追加すべき新たなθnが見つからなかった、すなわちグルーピングを終えた音源ストリーム候補として、この音源ストリーム候補データを次段の継続時間評価部307に出力する。図の例では音源ストリーム候補データ322がこれに該当する。
【0071】
(継続時間評価部307)
継続時間評価部307は、時系列追跡部306により出力された、グルーピングを終えた音源ストリーム候補データの開始時刻と終了時刻から当該音源ストリーム候補の継続時間を計算し、この継続時間が所定閾値を越えるものを音源音に基づく(安定な)音源ストリーム候補と認定し、それ以外を雑音に基づく(不安定な)音源ストリーム候補と認定する。音源音に基づく音源ストリーム候補データを音源ストリーム情報と呼ぶことにする。音源ストリーム情報には、当該音源ストリームの開始時刻Ts、終了時刻Te、音源方向を表すθとρとφと直線スコアの時系列データが含まれる。
【0072】
なお、直線検出部305による直線群の数が音源らしき候補の数を与えるが、そこには雑音源も含まれている。一方、継続時間評価部307による音源ストリーム情報の数は、雑音に基づくとされたものを除いた、信頼できる音源の数を与えてくれると考えられる。
【0073】
(フレーム分類部308)
図10の例において、黒丸323は音源ストリーム候補データ321と同じ音源から発せられている一連の音声を表しているデータであると判断されたわけであるが、このとき、音源ストリーム候補データ321の終端と黒丸323の間には直線の検出されていないギャップ期間が存在していた。このギャップ期間を雑音の支配的な期間であると考え、その間の分離音声は信頼できるレベルにないだろうと仮定する。その判定を行うのがフレーム分類部308である。
【0074】
フレーム分類部308は、継続時間評価部307により出力された音源ストリーム情報の各フレームに対して、次の2つの信頼可否判別方式のいずれかを用いて、信頼可否の別を表すフラグを与える。なお、いずれの方式を使用するかは運用に合わせて設定可能である。
【0075】
(信頼可否判定方式1)
図11に例示するように、時間軸を等間隔に刻んだ離散的な時刻をフレーム(図中331)とする。このとき、音源ストリーム332には自身に属する直線を検出できたフレーム(図中黒丸のある時刻)と検出できなかったフレーム(図中の333、334、335)とがある。直線を検出できたフレームには直線スコア(図中の346、347、348のグラフ)が与えられている。信頼可否判定方式1は、音源ストリーム情報毎に、直線を検出できたフレームに信頼可のフラグを与え、そうでないフレームに信頼不可のフラグを与える。
【0076】
(信頼可否判定方式2)
図12に例示するように、図11と同じ音源ストリーム332がある。直線検出周期毎に行われるハフ投票により、各フレームには得票分布H(θ)が得られている。図では、4つのフレーム(時刻)における得票分布を図中の339〜342に模式的に示す。信頼可否判定方式2は、直線の検出できなかったフレーム(図中の333、334、335)の直線傾きθを、θの時間連続性を仮定して、直線の検出できた前後のフレームから例えば線形補間で内挿して推定する。推定されたθを図中の白丸336、337、338で示す。そして、この内挿によって得たθ値に対応する時刻の得票分布H(θ)を読み出す。このとき、直線の検出できなかったフレーム333の傾き(内挿で求められた)をθe(図中の白丸336)とすれば、その時刻の得票分布H(θ)(図中の340)から得票値H(θe) (図中の343)を読み出して当該フレーム333の直線スコアとする。このようにしてギャップ期間の直線スコアが得られ、直線の検出できたフレームの直線スコアと合わせてストリーム全域にわたる直線スコア(図中の344)が出揃う。そして、所定閾値(図中の345)以上の直線スコアを得たフレームに信頼可のフラグを与え、それ以外のフレームには信頼不可のフラグを与える。このようにすることで、直線検出時の閾値とは別の閾値によって、信頼可否の情報を生成することができる。
【0077】
(音源分離部4)
音源分離部4の内部構成を図13に示す。音源分離部4は、同相化部371とビームフォーミング部372より成る。
【0078】
(同相化部371)
同相化部371は、音源ストリームの存在角度データを参照することで、当該ストリームの音源方向(存在角度)φの時間推移を得て、φの最大値φmaxと最小値φminから中間値φmid=(φmax+φmin)/2を計算して幅φw=φmax−φmidを求める。そして、当該音源ストリーム情報の元となった2つの周波数分解データaとbの時系列データを、当該ストリームの開始時刻Tsより所定時間遡った時刻Ts’から終了時刻Teより所定時間経過した時刻Te’まで抽出して、中間値φmidで逆算される到達時間差をキャンセルするように補正することで粗く同相化する。
【0079】
(ビームフォーミング部372)
同相化部371によって粗く同相化された2つの周波数分解データaとbの時系列データは、あたかもマイク対の正面方向から入射したかのような信号となっている。但し、各時刻においては正確に正面0°というわけではなく、±φwの範囲で変化している。ビームフォーミング部372は、この粗く同相化された2つの周波数分解データaとbの時系列データを、正面0°に対して±β・φwのマージン(βは1以上の適当な係数で、例えば1.1)を与えた角度の範囲を追尾範囲とする「話者追尾型適応アレイ」に掛けることで、当該ストリームの音声データの音源分離を高精度に行う。天田皇 他、“音声認識のためのマイクロホンアレー技術”、東芝レビュー2004、VOL.59、NO.9、2004年には、話者追尾型適応アレイの一構成例が開示されている。
【0080】
(語彙認識部5)
語彙認識部5の内部構成を図14に示す。音響特徴抽出部261は、入力される音源ストリームの分離音声から所定の音響特徴(例えばMFCC、ΔMFCCなど)の時系列データを抽出する。これを入力音響特徴と呼ぶことにする。音響特徴照合部262は、音響モデルデータベース263に記憶されている音響モデルと前記入力音響特徴とを照合し、入力音響特徴列を所定の音素記号列(入力系列)データに変換する。最尤文仮説探索部264は、文法・言語モデルデータベース265に記憶されている文法情報と言語モデルから文仮説を記述したHMM(隠れマルコフモデル)を生成し、前記入力系列を最も高い確率(尤度)で出力する文仮説をHMM上で探索して出力する。出力される文仮説(最尤文仮説)が前記音源ストリーム分離音声の言語的内容を認識した結果となる。
【0081】
(音響特徴照合部362)
音響モデルデータベース363に記憶される音響モデルとは、各音素についての標準音響特徴とその音素記号を組にした情報である。なお、日本語においてどのような音素を擁しておくべきかが、鹿野清宏 他、“音声認識システム”、オーム社出版局、2001年5月15日発行の45ページに音節表として示されている。
【0082】
音響特徴照合部362は、分離音声データから生成される入力音響特徴と音響モデルに記述される標準音響特徴とを照合して、その類似度(音響スコア)を計算する。そして、最も類似した上位N位(Nベスト)までの標準音響特徴の音素記号とその音響スコアを出力する。この結果、入力音響特徴列は音素記号列に変換されることになる。しかしながら、入力音響特徴列には信頼可フレームと信頼不可フレームのデータがある。このとき、信頼不可フレームのデータは目的音声よりも雑音の方が支配的になっているため、その期間の入力音響特徴が適切な音素記号に対応付けられる可能性は低い。そこで、音響特徴照合部362は、信頼不可フレームの入力音響特徴を標準音響特徴と照合する代わりに、これに所定のダミー音素記号とダミー音響スコアを対応付ける。この結果、信頼不可フレームでの照合処理を省略して計算コストを節約する。よって、音響特徴照合部362から入力状態系列データとして出力されるものは、ダミー音素記号を含む音素記号列データとなる。
【0083】
(最尤文仮説探索部364)
文は1以上の単語から成るものとし、文法情報には発話に出現すると想定される単語とその連結関係が定義されている。各単語は1以上の音素から成るものとし、よって単語と文はそれぞれ1以上の音素の連結された音素列と看做すことができるわけである。
【0084】
HMMは、状態と、状態間の遷移(同一状態への遷移も含む)から成り、状態にはその状態を取り得る確率(出力確率)を、遷移にはその遷移の起こり得る確率(遷移確率)をそれぞれ与えることで確率過程をモデル化する。このとき、状態を音素に対応させると、音素列である単語は所定の状態が連鎖したHMM(単語HMM)で記述できる。そして、文は所定の単語HMMが連鎖したより大きなHMMで記述できる。このとき、予め大量の例文(コーパス)から、各音素の次にどの音素が続くのか(バイフォン、トライフォン)、各単語の次にどの単語が続くのか(バイグラム、トライグラム)を確率で表した言語モデルを利用してHMMの遷移確率を設定することができる。
【0085】
初期状態をシンボル的な文頭無音(SilB)として、可能な文を構成する単語列を木構造に展開すると、木の枝葉の終端に配置されるこれもシンボル的な文末無音(SilE)に達した最終状態までの経路で決まる音素列が文法情報で定義される可能な文(文仮説)を表す。
【0086】
分離音声は入力系列としての音素記号列に変換されている。最尤文仮説探索部364は、文法情報から生成されるHMM上のどの文仮説がこの入力系列を最も良く説明できるかを探索する。この探索にはビームサーチを用いる。ビームサーチはその時点で有望な幾つかの仮説を残し、あまり有望でない残りの仮説を破棄しながら探索を進める手法である。幾つの仮説を残すかという基準を「ビーム幅」と呼び、仮説の破棄作業を「枝刈り」と呼ぶ。
【0087】
入力音素記号列の先頭の音素記号(Nベストなので最大N個ある)と同じ音素記号に対応する状態を、HMM上の初期状態から遷移可能な全ての状態の中で探索する。同じ音素記号に対応する遷移可能な状態が見つかると、その出力確率をその音素の音響スコア、初期状態からその状態への遷移確率を言語スコアとして、音響スコアと言語スコアの積をこの遷移経路の尤度とする。そして、尤度で上位M位までを残して他の経路を破棄(枝刈り)する。
【0088】
入力音素記号列の次の音素記号(Nベストなので最大N個ある)についても、枝刈りで残った状態から次に遷移可能な全ての状態の中で、同じ音素記号に対応する状態を探索する。そのような状態が見つかると、同様に音響スコアと言語スコアが定められ、その積をそこに至った遷移経路のこれまでの尤度に掛けて新しい尤度とする。そして、同様に新しい尤度で上位M位までを残して経路を枝刈りする。
【0089】
以上の処理を終端に達するまで繰り返し、終端到達時点で最も尤度の高い遷移経路を求め、その遷移経路が辿った単語列を分離音声データの言語的解釈、すなわち認識結果とする。
【0090】
なお、確率を対数化して扱うと、確率の積や尤度の積を全て足し算で行うことができる。また、遷移確率を全て1として、尤度を音響スコアにのみ依存させることも可能である。また、認識後の後処理のために、最終的な尤度で上位K位までの遷移経路を認識結果(の候補)として出力することも可能である。
【0091】
以上のようにして認識結果が得られるわけだが、入力系列にはダミー音素記号が含まれている。最尤文仮説探索部364は、次の2つの方式のいずれかを使ってダミー音素記号を処理する。なお、どの方式を利用するかは設定により変更可能であるものとする。
【0092】
(ダミー対応方式1:枝刈り停止、尤度計算停止)
この方式では、最尤文仮説探索部364は、ダミー音素記号に遭遇すると、現時点で有効な状態から次に遷移可能な全ての状態への遷移を枝刈りせずに残す。このとき、残された遷移経路の尤度を更新しない。すなわち、信頼可と分類されたフレームだけを尤度計算に用い、信頼不可と分類されたフレームで枝刈りをしないのである(枝外りの抑制)。このようにすることで、元々発話のない無音やポーズと異なり、発話の途中で目的音声が雑音にまぎれてしまっても、その期間を乗り越えて尤度計算を行いながら認識処理を継続することができるようになる。このように、仮に信頼不可期間が無音区間と偶然一致していたとしても、その期間で枝刈りをしないことが、特許文献2と異なる点である。この相違は、本発明が信頼不可として検出しようとする期間が、目的音声のない実際に無音となっている期間だけでなく、目的音声が存在し、それが雑音にまぎれて聞き取りにくくなっている期間をも包含するからである。次に目的音声が聞こえ始めたときには、発話はずっと先に進んでしまっている、という事態への対処である。
【0093】
(ダミー対応方式2:ダミー音素状態の挿入)
この方式では、最尤文仮説探索部364は、HMM上の全ての遷移先と並列にダミー音素に対応した状態への遷移を挿入する。ダミー音素記号に遭遇すると、現時点で有効な状態からダミー音素状態への遷移が起こる。ダミー音素状態の出力確率(音響スコア)を1に、そこへの遷移確率(言語スコア)にも1を入れておくことで、遷移経路の尤度は変更されない。すなわち、ダミー音素を加味したHMMを生成しておくだけで、後の計算は全て通常通りに行うことができ、ダミー対応方式1のような例外処理を必要としない。ただし、ダミー音素状態の挿入によりHMMの規模が膨らむので、この方式は小規模な文法情報に対して用いると良い。
【0094】
なお、音響特徴照合部362が信頼不可フレームにダミー音素記号を対応付けるのではなく、最尤文仮説探索部364が直接信頼可否情報を参照して上述した例外処理(ダミー対応方式1)を行うようにすることも可能である。
【0095】
(話者認識部6)
話者認識部6は、例えばAさんの声であるなど、入力される音源ストリームの分離音声が誰の声かを認識する。そのための話者認識部6の内部構成を図15に示す。音響特徴抽出部271は、入力される音源ストリームの分離音声のうち、信頼可フレームの音声のみから所定の音響特徴(例えばフォルマントなど)の時系列データを抽出する。これを話者認識用の入力音響特徴と呼ぶことにする。音響特徴照合部272は、標準話者特徴データベース273に記憶されている話者毎の話者認識用の標準音響特徴と前記話者認識用の入力音響特徴とを照合し、話者認識用の入力音響特徴列全域にわたる類似度の平均を話者毎に計算する。この平均類似度が所定閾値以上で最大となる話者を当該分離音声の発話者として認定し、その話者IDを出力する。もし、閾値以上の平均類似度が得られなければ、当該分離音声の話者は不明であることを表す特別なIDを出力する。
【0096】
(物音認識部7)
物音認識部7は、例えば「ガラスの割れる音である」など、入力される音源ストリームの分離音声が何の物音であるかを認識する。そのための物音認識部7の内部構成を図16に示す。音響特徴抽出部281は、入力される音源ストリームの分離音声のうち、信頼可フレームの音声のみから所定の音響特徴(例えばエンベロープや対数パワースペクトルなど:例えば、ガラスの割れる音は時間方向に見れば振幅が減少していく減衰性のエンベロープを示し、その対数パワースペクトルは白色に近い)の時系列データを抽出する。これを物音認識用の入力音響特徴と呼ぶことにする。音響特徴照合部282は、標準物音特徴データベース283に記憶されている物音毎の物音認識用の標準音響特徴と前記物音認識用の入力音響特徴とを照合し、物音認識用の入力音響特徴列全域にわたる類似度の平均を物音毎に計算する。この平均類似度が所定閾値以上で最大となる物音を当該分離音声の正体として認定し、その物音IDを出力する。もし、閾値以上の平均類似度が得られなければ、当該分離音声の正体は不明であることを表す特別なIDを出力する。
【0097】
(出力部8)
出力部8は、音源の数、各音源の空間的な存在範囲(円錐面を決定させる存在角度φ)、前記音源を発した音声の時間的な存在期間(Ts、Te)、前記音源毎の分離音声、前記分離音声の言語的内容、前記分離音声の話者の別、前記分離音声の物音の別、の少なくとも1つを含む音源情報を出力する手段である。
【0098】
(ユーザインタフェース部9)
ユーザインタフェース部9は、上述した音声認識処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、設定内容の外部記憶装置への保存と外部記憶装置からの読み出しを実行したり、図8や図9に示した(1)マイク毎の周波数成分の表示、(2)散布図の表示、(3)各種得票分布の表示、(4)極大位置の表示、(5)散布図上の直線群の表示、図10に示した(6)音源ストリーム候補データの表示、のように各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化するための手段である。このようにすることで、利用者が本実施形態に係る音声認識装置の働きを確認したり、所望の動作を行ない得るように調整したり、以後は、調整済みの状態で本装置を利用したりすることが可能になる。
【0099】
(処理の流れ図)
図17に本実施形態に係る音声認識装置における処理の流れを示す。本処理は、初期設定処理ステップS1と、音響信号入力処理ステップS2と、音源ストリーム抽出分類処理ステップS3と、音源分離処理ステップS4と、語彙認識処理ステップS5と、話者認識処理ステップS6と、物音認識処理ステップS7と、出力処理ステップS8と、終了判断処理ステップS9と、確認判断処理ステップS10と、情報呈示・設定受理処理ステップS11と、終了処理ステップS12とから成る。
【0100】
初期設定処理ステップS1は、ユーザインタフェース部9における処理の一部を実行する処理ステップであり、音声認識処理に必要な各種設定内容を外部記憶装置から読み出して、装置を所定の設定状態に初期化する。
【0101】
音響信号入力処理ステップS2は、音響信号入力部2における処理を実行する処理ステップであり、空間的に同一でない2つの位置で捉えられた2つの音響信号を入力する。
【0102】
音源ストリーム抽出分類処理ステップS3は、音源ストリーム抽出分類部3における処理を実行する処理ステップであり、(1)前記音響信号入力処理ステップS2による2つの入力音響信号をそれぞれ周波数分解し、(2)両入力音響信号の周波数毎の位相差値を算出し、該周波数毎の位相差値を、周波数をY軸、位相差値をX軸とするXY座標系上の散布図データを生成し、(3)該散布図データから所定の直線を検出し、(4)検出された直線の情報に基づいて、前記音響信号の発生源たる音源の数、各音源の空間的な存在範囲、前記各音源を発した音声の時間的な存在期間をデータ化し、(5)該存在期間の各時刻を信頼可あるいは信頼不可と分類し、これらの情報を音源ストリーム情報として出力する。
【0103】
音源分離処理ステップS4は、音源分離部4における処理を実行する処理ステップであり、音源ストリーム情報に基づいて各音源の音声を分離抽出する。
【0104】
語彙認識処理ステップS5は、語彙認識部5における処理を実行する処理ステップであり、各音源の分離抽出音声の言語的意味を認識する。
【0105】
話者認識処理ステップS6は、話者認識部6における処理を実行する処理ステップであり、各音源の分離抽出音声の発話者の別を認識する。
【0106】
物音認識処理ステップS7は、物音認識部7における処理を実行する処理ステップであり、各音源の分離抽出音声が何の物音であるかを認識する。
【0107】
出力処理ステップS8は、出力部8における処理を実行する処理ステップであり、前記音源ストリーム情報や前記音声認識の結果を出力する。
【0108】
終了判断処理ステップS9は、ユーザインタフェース部9における処理の一部を実行する処理ステップであり、利用者からの終了命令の有無を検査して、終了命令が有る場合には終了処理ステップS12へ(左分岐)、無い場合には確認判断処理ステップS10へ(上分岐)と処理の流れを制御する。
【0109】
確認判断処理ステップS10は、ユーザインタフェース部9における処理の一部を実行する処理ステップであり、利用者からの確認命令の有無を検査して、確認命令が有る場合には情報呈示・設定受理処理ステップS11へ(左分岐)、無い場合には音響信号処理ステップS2(上分岐)と処理の流れを制御する。
【0110】
情報呈示・設定受理処理ステップS11は、利用者からの確認命令を受けて実行される、ユーザインタフェース部9における処理の一部を実行する処理ステップであり、音声認識処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、保存命令による設定内容の外部記憶装置への保存、読み出し命令による設定内容の外部記憶装置からの読み出しを実行したり、各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化することで、利用者が音声認識処理の動作を確認したり、所望の動作を行ない得るように調整したり、以後調整済みの状態で処理を継続したりすることを可能にする。
【0111】
終了処理ステップS12は、利用者からの終了命令を受けて実行される、ユーザインタフェース部9における処理の一部を実行する処理ステップであり、音声認識処理に必要な各種設定内容の外部記憶装置への保存を自動実行する。
【0112】
以下、上述した実施形態の変形例を幾つか述べる。
【0113】
(複数系統の並列実装)
以上の例はマイクを2つ備えた最も単純な構成で説明したものであるが、図18に示すように、マイクをN(N≧3)個備え、最大M(1≦M≦NC2)個のマイク対を構成することも可能である。
【0114】
図中の11〜13はN個のマイクである。図中の22はN個のマイクによるN個の音響信号を入力する手段である。図中の23は入力されたN個の音響信号をそれぞれ周波数分解し、N個の音響信号のうちの2つから成るM(1≦M≦NC2)組の対の各々について散布図データを生成し、生成されたM組の散布図データからそれぞれ所定の直線を検出し、検出されたM組の直線の情報のそれぞれから、フレームの信頼可否情報を含む音源ストリーム情報を生成する手段である。図中の24は生成された音源ストリーム情報を用いて、各々の音源の分離音声を抽出する手段である。図中の25は抽出された分離音声の言語的内容を認識する手段である。図中の26は抽出された分離音声の話者の別を認識する手段である。図中の27は抽出された分離音声の物音の別を認識する手段である。図中の28は音源ストリーム情報や音声認識の結果を出力する手段である。図中の29は各対を構成するマイクの情報を含む各種設定値の利用者への呈示、利用者からの設定入力受理、外部記憶装置への設定値の保存、外部記憶装置からの設定値の読み出し、及び各種処理結果の利用者への呈示を実行する手段である。各マイク対における処理はこれまでに述べた実施形態と同様であり、そのような処理が複数のマイク対について並列的に実行される。
【0115】
このようにすることで、音源方向に対する得て不得手が各々のマイク対にあるとしても、複数のマイク対でカバーすることで装置周囲の広範な方位に存在する目的音源を検出・定位・認識することが可能になる。
【0116】
(コンピュータを使った実施:プログラム)
また、本発明は図19に示すようにコンピュータを使って実施することも可能である。図中の31〜33はN個のマイクである。図中の40はN個のマイクによるN個の音響信号を入力するA/D変換手段であり、図中の41は入力されたN個の音響信号を処理するためのプログラム命令を実行するCPUである。図中の42〜47はコンピュータを構成する標準的なデバイスであり、それぞれRAM42、ROM43、HDD44、マウス/キーボード45、ディスプレイ46、LAN47である。また、図中の50〜52は外部から記憶メディアを介してプログラムやデータをコンピュータに供給するためのドライブ類であり、それぞれCDROM50、FDD51、CF/SDカード52である。図中の48は音響信号を出力するためのD/A変換手段であり、その出力にスピーカ49が繋がっている。このコンピュータ装置は、図27に示した処理ステップから成る音響信号処理プログラムをHDD44に記憶し、これをRAM42に読み出してCPU41で実行することで音響信号処理装置として機能する。また、外部記憶装置としてのHDD44、操作入力を受け付けるマウス/キーボード45、情報呈示手段としてのディスプレイ46とスピーカ49を使うことで、上述したユーザインタフェース部8の機能を実現する。また、音響信号処理によって得られた音源情報をRAM42やROM43やHDD44に保存出力したり、LAN47を介して通信出力する。
【0117】
(記録媒体)
また、本発明は図20に示すように記録媒体として実施することも可能である。図中の61は本発明に係る信号処理プログラムを記録したCD−ROMやCFやSDカードやフロッピー(登録商標)ディスクなどで実現される記録媒体である。この記録媒体61をテレビやコンピュータなどの電子装置62や電子装置63やロボット64に挿入することで当該プログラムを実行可能としたり、あるいはプログラムを供給された電子装置63から通信によって別の電子装置65やロボット64に当該プログラムを供給することで、電子装置65やロボット64上で当該プログラムを実行可能とする。
【0118】
以上説明した本発明の実施形態よれば、以下のような作用効果が得られる。
【0119】
(1)音源ストリーム抽出分類手段により、認識対象となる目的音源ストリームの全フレームの中で雑音が支配的になっているフレームを検出することができる。そして、雑音が支配的になっているか否かを各フレームに対する信頼可否情報(信頼可フラグ/信頼不可フラグ)として与えることで、後続の各種音声認識手段でその情報を利用できるようにする。
【0120】
以上について、特に非特許文献1と比較して、従来技術が音源分離手段で推定された雑音に基づいて音響特徴の各要素(周波数成分)の信頼可否を判定しているのに対し、本発明は、音源分離過程に先駆けて音源検出過程で信頼可否を判定するものである。
【0121】
(2)語彙認識手段は、入力音響特徴列を音素記号列に変換する際、信頼不可フレームの音響特徴を標準音響特徴と照合することなく、直ちにダミー音素に変換することで、音響特徴照合計算コストを削減することができる。
【0122】
(3)語彙認識手段は、入力音響特徴列(入力音素記号列)に適合する文仮説を探索する際、信頼可フレームのみを尤度計算に参加させ、かつ、信頼不可フレームで枝刈りをしないことで探索の破綻を防ぎ、雑音環境下での誤認識の発生を抑制することができる。
【0123】
(4)語彙認識手段は、入力音響特徴列を音素記号列に変換する際、信頼不可フレームの音響特徴を標準音響特徴と照合することなく、直ちにダミー音素に変換し、かつ、入力音響特徴列(入力音素記号列)に適合する文仮説を探索する際、ダミー音素を加味した探索木を用いて文仮説を評価することで探索の破綻を防ぎ、雑音環境下での誤認識の発生を抑制することができる。
【0124】
以上3点について、特に特許文献2と比較して、従来技術が無音期間を検出してビーム幅を絞っていたが、これは無音期間での計算コストを削減することを目的としたものである。この操作が有効なのは、無音期間が発話中のポーズ期間である、すなわち、その期間で発話中の音声の一部が失われ、探索中の文仮説との整合性が取れなくなる、ということがないときに限られる。一方、本発明は、信頼不可期間は決してポーズのような無音ではなく、雑音に負けた目的音声が欠落している可能性を想定して成されたものである。そのため、この欠落による探索の破綻を防ぐために信頼可否情報を利用し、この期間にビーム幅を広げる操作を行う。その結果、雑音環境下において目的音声が雑音に負けている期間が仮にあったとしても、その期間で破綻することなく、負けていない期間の音声を手掛かりに認識を続けられる音声認識を実現している。
【0125】
(5)話者認識手段は、入力音声特徴を標準話者特徴と照合する際、信頼可フレームの音声特徴のみを標準話者特徴と照合することで、雑音環境下での誤認識の発生を抑制することができる。
【0126】
(6)物音認識手段は、入力音声特徴を標準物音特徴と照合する際、信頼可フレームの音声特徴のみを標準物音特徴と照合することで、雑音環境下での誤認識の発生を抑制することができる。
【0127】
以上2点について、話者の別や物音の別は音声の属するクラスであると捉える。よって、各クラスの標準音響特徴と入力特徴を照合して、最も高い類似度を獲得したクラスを、その音声のクラスであると認定する。これは認識全般について言えることである。このとき、悪いデータを認識しようとすれば誤認識という失敗を犯すことになる。良いデータだけを選別して認識できれば、結果はもっと良くなるであろう。本発明によれば、データの良い悪い(音声の明瞭さ)を信頼可否情報が与えてくれるので、認識過程では、良いデータだけを選んで評価することができる。
【0128】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【0129】
【図1】本発明の一実施形態に係る音声認識装置の機能ブロック図
【図2】音源ストリーム抽出分類部の内部構成を示すブロック図
【図3】位相差算出の説明図
【図4】座標値計算の説明図
【図5】位相差の循環性説明図
【図6】投票される平均パワーの関数値の説明図
【図7】θとΔρの関係図
【図8】同時発話時の周波数成分、散布図、ハフ投票結果を示した図
【図9】Δρずつ離れた数箇所の得票値を合計して極大位置を探索した結果を示した図
【図10】θの時間軸上の追跡を説明するための図
【図11】信頼可否判定方式1を説明するための図
【図12】信頼可否判定方式2を説明するための図
【図13】音源分離部の内部構成を説明するための図
【図14】語彙認識部の内部構成を示すブロック図
【図15】話者認識部の内部構成を示すブロック図
【図16】物音認識部の内部構成を示すブロック図
【図17】本発明の一実施形態に係る音声認識処理の流れを示したフローチャート
【図18】N個のマイクを使った変形実施形態を示す機能ブロック図
【図19】コンピュータを使った実施形態を示す機能ブロック図
【図20】記録媒体による実施形態を示す図
【符号の説明】
【0130】
1a,1b…マイク,2…音響信号入力部,3…音源ストリーム抽出分類部,4…音源分離部,5…語彙認識部,6…話者認識部,7…物音認識部,8…出力部,9…ユーザインタフェース部
【技術分野】
【0001】
本発明は音声を認識する装置に関し、特に雑音環境下で目的音源を検出定位し、該目的音源の音声データを雑音から分離抽出してこれを認識する装置に係る。
【背景技術】
【0002】
近年、ロボット用の聴覚研究の分野で、雑音環境下で複数の目的音源の数とその方向を推定し(音源定位)、各音源からの音声を分離抽出し(音源分離)、この分離音声を認識する(音声認識)ための方式が提案されている。
【0003】
例えば、一対のマイクを用いて、拡散性雑音環境下で方向性のある音源(目的音源)の定位と音源音声の分離を行う方法が提案されている(例えば、特許文献1参照)。この方法は、2つのマイクで捉えた2つの音響信号をそれぞれフーリエ変換した周波数分解データから、両音響信号間の周波数毎の位相差を求め、これを周波数−位相差座標系にプロットした散布図を生成する。到達時間差の同じ周波数成分を同一音源に由来するものと看做した場合、これら周波数成分が散布図上で原点を通る直線の上に分布することに着目し、散布図上でハフ変換・ハフ投票を応用した直線検出を行うことで、音源の検出と方向の定位を行う。ハフ投票の得票値(スコアとも呼ぶ)が所定の閾値を越える直線が2本検出されれば、方向の異なる音源が2つあり、それぞれの直線の傾きから各音源がどの方向にあるかを知ることができる。さらに、各時刻で得られた直線を、その傾きに注目して時系列にグルーピングすることで目的音源ストリームと成し、その音源方向に指向性を与えたビームフォーミングで当該音源からの音声(目的音声)を抽出する。分離抽出された音声(分離音声)は音声認識され、当該目的音声の言語的情報が推定される。
【0004】
この従来技術は空間中の局所領域から発せられる音声(方向性音源=目的音源)の両マイクへの到達時間差に基づいて最初に各音源の存在を検出するとともにその方向を推定(音源定位)する。そして、各音源方向に指向性を与えたビームフォーミングによって各音源音声を他の音(他の方向性音源音声や拡散性の環境雑音)から分離抽出(音源分離)し、この分離音声を認識(音声認識)する。
【0005】
しかしながら、複数の音源が同じ周波数の音を同時に発していると、フーリエ変換によって得られる周波数毎の振幅ベクトルは複素平面上で各音源音声の振幅ベクトルの合成ベクトルとなってしまうため、その周波数について位相差を求めても正しい到達時間差を表してはくれない。すなわち、このような周波数成分はいずれの音源方向にも当てはまらず、ビームフォーミングの際に欠落し、そのため、抽出された分離音声が歪んでしまう。もし、音声認識時に用いられる音響モデルがこの歪みを学習していないと、音声認識時の尤度計算において音響スコアが上がらず誤認識の原因となる。
【0006】
この歪みの影響を抑制するために、スペクトル歪みの影響を受けた特徴量の成分をマスクして尤度計算に用いない音声認識方法が示されている(例えば、非特許文献1参照)。その際、音源分離過程で雑音推定を行い、その推定された雑音情報を用いてマスクを自動生成する。当該文献中にも記述されているように、この方法は「音源分離と音声認識を統合する」手法である。
【0007】
また、人物が1つのフレーズを発話している最中であっても、その音圧には強弱があるため、弱い部分では発話音声が環境雑音に負けてしまい、抽出されたその期間の分離音声が観測できないことが起きる。このような場合、例えば静穏環境では聞こえるはずの発話内容の一部期間が雑音環境下で観測できなかったことになるため、この発話内容を文法情報に与えられた音声認識ではこの期間で解釈に失敗して誤認識を起こす危険性が高い。特に雑音強度が上がるほどこのような期間が長くなるため、その危険性が増すことになる。
【0008】
発話中の音声の強弱変化を検出して利用した例として、入力音声中の無音らしさに応じて尤度計算を制御する方法が示されている(例えば、特許文献2参照)。その実施例中には、「・・・ビーム探索を用いるものであるが、無音区間においてビーム幅の絞り込みを行うことを特徴としている」との記載があり、各時刻において尤度の高い幾つかの仮説を残して枝刈りするビーム探索において、無音区間で残す仮説を減らすことで、無音区間での認識処理量を減らすことが記載されている。これは、無音区間にはそもそも発話音声の情報が無いので、その間での無駄な計算を減らそうというものである。また、無音区間か否かの判定方法として、(A)入力音声のパワーが所定閾値より高い期間が継続するか否かで判定する方法と、(B)無音音響特徴と照合した音響スコアが、無音以外の音響特徴と照合した音響スコアよりも高い期間が継続するか否かで判定する方法の2通りが示されている。
【0009】
一方、特許文献1の音源定位過程を応用すると、ハフ投票の得票値が各周波数成分のパワーに応じて増大するよう定めることができるので、方向毎の得票値の大小がその方向からの音源音声のパワーに呼応するようにでき、その結果、環境雑音が支配的になっている期間を、直線が検出できない、あるいは直線の得票値が小さいという現象で検出できる。そのため、強い環境音のせいで入力音声が無音どころか強い雑音に支配されている期間であっても、ある音源からの音声がこの環境音にまぎれて途切れがちであることを検出できようになる。特許文献2の「無音検出手段」にはその能力が無い。
【0010】
また、音声認識過程ではこのような環境雑音が支配的になっている期間の処理をうまく調整できることが期待される。これは『音源分離と音声認識を統合する』とした非特許文献1に対して、『音源定位と音声認識を統合する』というアプローチに相当する。上述した従来技術はこの統合について示唆していない。
【0011】
直線の検出については、周波数−位相差散布図上で直線を検出する手法が開示されている(例えば、特許文献3参照)。しかし、この手法は、散布図上で様々な傾きの直線を仮定して評価する点は特許文献1と同様であるが、方式に違いがある。特許文献3は、散布図上の周波数成分配置に対して最小二乗誤差となる直線を検出する方式であり、散布図上の各周波数成分と該直線との距離の二乗和として評価量(仮定された直線の得票値)を得ているため、特許文献1のようなパワーに応じた得票値となっていない。もし、得票値から雑音の支配的な期間を知りたければ、パワー(あるいは振幅)の関数としての得票値を求める方が都合が良い。
【特許文献1】特開2006−254226号公報
【特許文献2】特開平11−85180号公報
【特許文献3】特開2003−337164号公報
【非特許文献1】山本俊一 他、“音源分離との統合によるミッシングフィーチャマスク自動生成に基づく同時発話音声認識”、日本ロボット学会誌、Vol.25、No.1、2007年1月15日発行
【発明の開示】
【発明が解決しようとする課題】
【0012】
本発明は上記の問題点及び考察に鑑みて成されたものであり、その目的とするところは、(1)雑音が支配的になっている期間を音源定位過程で検出し、(2)目的音源ストリームの分離音声を認識する際、雑音の悪影響を抑制した認識を行うことの可能な音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体を提供することである。
【課題を解決するための手段】
【0013】
本発明の一観点に係る音声認識装置は、2地点で捉えられた第1と第2の音響信号を入力する入力手段と、前記第1と第2の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出手段と、前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成手段と、前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出手段と、一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出手段により検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する抽出手段と、前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類手段と、前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離手段と、文法情報に定められた文仮説を状態と遷移の探索木に展開し、前記音源ストリームの音声データから所定の音響特徴を抽出し、該音響特徴の系列に対する前記探索木の状態遷移経路の尤度を計算し、尤度の高い状態遷移経路を探索することで前記音源ストリームの言語的内容を認識する音声認識手段とを具備し、前記状態遷移経路の探索を前記信頼可否情報に基づいて制御することを特徴とする。
【発明の効果】
【0014】
本発明によれば、(1)雑音が支配的になっている期間を音源定位過程で検出し、(2)目的音源ストリームの分離音声を認識する際、雑音の悪影響を抑制した認識を行うことができる。
【発明を実施するための最良の形態】
【0015】
以下、本発明に係る音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体の実施形態を図面に従って説明する。
【0016】
図1に本発明の一実施形態に係る音声認識装置の機能ブロックを示す。本実施形態に係る音声認識装置は、空間的に異なる位置に配置されたマイク1aと1bと、音響信号入力部2と、音源ストリーム抽出分類部3と、音源分離部4と、語彙認識部5と、話者認識部6と、物音認識部7と、出力部8と、ユーザインタフェース部9とを有している。
【0017】
マイク1aと1bからの2つの振幅データは、音響信号入力部2を経由して音源ストリーム抽出分類部3に入力される。音源ストリーム抽出分類部3は、所定時間間隔(フレームシフト)で繰り返される離散的な時刻(フレーム)毎に、所定個数(フレーム長)の振幅データを先ずは(1)FFT処理によって周波数分解し、(2)両入力の位相差を周波数成分毎に求める。また、このとき、両入力における各周波数成分のパワー値の例えば平均を当該周波数成分の代表パワー値として求める。
【0018】
次に、音源ストリーム抽出分類部3は、(3)連続する所定フレーム分の周波数毎の位相差を周波数−位相差平面上の2次元散布図化し、(4)この2次元散布図から所定の直線をその直線スコアとともに検出する。検出された直線はある方向性音源(目的音源)の存在を示唆している。このとき直線近傍に分布する周波数成分は該目的音源を発した音声(音源音)のその時刻(フレーム)におけるスペクトルを近似しており、それら周波数成分の前記代表パワー値に基づいて算出される直線スコアは、当該音源音の総パワーの目安を与える。本実施形態では、この直線スコアをハフ投票の得票値によって算定する。また、この検出された直線の傾きθはマイク1aと1bを結ぶ線分に対する目的音源の存在角度φ(目的音源の存在する円錐面の開き角度)と1対1の対応関係にある。そして、(5)直線の傾きθを角度−時間平面上に並べたデータ上で、所定範囲内の直線無検出期間と直線傾きぶれを許容して時間軸方向にグルーピングされる、前記直線無検出期間を含む所定期間以上の長さを持つ前記検出された直線の系列と、その傾きθの系列及びそこから計算される存在角度φの系列と、前記検出された直線の系列の存在期間(前記グルーピングの始端フレームと終端フレームで挟まれる期間)とを1つの目的音源から発せられる音声ストリームの情報(目的音源ストリーム)として検出する。
【0019】
特に本実施形態に係る音源ストリーム抽出分類部3は、(6)前記目的音源ストリームの始終端で挟まれる各フレームについて、前記直線が当該目的音源ストリームにグルーピングされたフレームを信頼可、されなかったフレームを信頼不可と判定分類する。この信頼可否の別は当該目的音源ストリームの音源音の各時刻(各フレーム)における明瞭度を表している。
【0020】
なお、上記(1)〜(5)の処理は、特許文献1に開示される技術によって実施可能である。
【0021】
音源分離部4は、前記存在角度系列に基づいて入力音声データへのビームフォーミングを行うことで、当該目的音源ストリームの音声データ(目的音声データ)を環境雑音から分離する。
【0022】
以上の処理によって、目的音源ストリームの音声データ(目的音声データあるいは分離音声データと呼ぶ)と、その各時刻(フレーム)における信頼可否の情報が得られる。信頼不可のフレームは、(a)強力な環境雑音に目的音声が負けてしまったか、(b)目的音声が元々微弱もしくは無かったために、直線が明瞭に検出できなかった期間を表していると解釈できる。特に(a)の場合、例えば静穏環境では聞こえるはずの発声内容の一部期間が雑音環境下で観測できなかったことになるため、この発声内容を文法情報に与えられた従来の音声語彙認識では、この期間で解釈に失敗して誤認識を起こす危険性が高い。
【0023】
同様に、音声話者認識や物音認識でも、雑音が支配的な期間の音声を認識しようとすれば正しく認識できない危険性が高い。
【0024】
語彙認識部5は、前記目的音声データの言語的内容を認識する手段であり、文法情報に従って解釈するための尤度計算に際して、信頼可と分類されたフレームだけを尤度計算に用い、信頼不可と分類されたフレームで枝刈りをしないことで、誤認識の発生を抑制する。
【0025】
話者認識部6は、前記目的音声データが誰の声であるかを認識する手段であり、信頼可と分類されたフレームだけを対象に認識を行うことで、誤認識の発生を抑制する。
【0026】
物音認識部7は、前記目的音声データが何の物音であるかを認識する手段であり、信頼可と分類されたフレームだけを対象に認識を行うことで、誤認識の発生を抑制する。
【0027】
出力部8は、前記目的音源ストリームの数、各目的音源ストリームの存在角度系列、前記目的音声データを認識して得た認識の結果とを少なくとも含む音源情報を生成出力する。
【0028】
ユーザインタフェース部9は各種設定値の利用者への呈示、利用者からの設定入力受理、外部記憶装置への設定値の保存、外部記憶装置からの設定値の読み出し、及び各種処理結果の利用者への呈示を実行する。
【0029】
以下、本実施形態に係る音声認識装置の各機能ブロックの動作を詳しく説明する。
【0030】
(周波数成分毎の位相差から音源を推定するという基本概念)
マイク1aとマイク1bは、空気などの媒質中に所定の距離をあけて配置された2つのマイクであり、異なる2地点での媒質振動(音波)をそれぞれ電気信号(音響信号)に変換するための手段である。以後、マイク1aとマイク1bをひとまとめに扱う場合、これを「マイク対」と呼ぶことにする。
【0031】
音響信号入力部2は、マイク1aとマイク1bによる2つの電気信号(音響信号)を所定のサンプリング周波数Frで定期的にA/D変換することで、マイク1aとマイク1bによる2つの音響信号のデジタル化された振幅データを時系列的に生成する手段である。この入力された振幅データを周波数成分毎の位相差に分解して解析することで、複数の音源が同時期に存在しても、各音源に特有の周波数成分については、2つのデータ間でそれぞれの音源方向に応じた位相差が観測されるため、もし周波数成分毎の位相差を方向を同じくするグループに分けることができれば、幅広い種類の音源について、幾つの音源が存在し、その各々がどちらの方向にあり、それぞれが主にどのような音声を発しており、その強さあるいはパワーがどれくらいかを把握できるはずである。
【0032】
(音声ストリーム抽出分類部3)
以上の基本コンセプトを実現する音源ストリーム抽出分類部3の内部構成を図2に示す。音源ストリーム抽出分類部3は、周波数分解部301、位相差算出部302、散布図生成部303、投票部304、直線検出部305、時系列追跡部306、継続時間評価部307、フレーム分類部308より成る。
【0033】
(周波数分解部301)
周波数分解部301は、マイク1aと1bの捉えた音響信号を音響信号入力部2がデジタル化して生成した振幅データaとbを入力として、それぞれを周波数成分に分解した周波数分解データaとbを生成する。振幅データを周波数成分に分解する一般的な手法として高速フーリエ変換(FFT)がある。代表的なアルゴリズムとしては、Cooley−Turkey DFTアルゴリズムなどが知られている。
【0034】
周波数分解部301は、音響信号入力部2による振幅データについて、ある時刻(T番目のフレーム)を起点として連続するN個の振幅データを抜き出してFFT処理を行うとともに、この抜き出し位置を所定のフレームシフト量Fsずつずらしながら離散的な時刻毎(T+1番目のフレーム、T+2番目のフレーム、・・・)に繰り返す。この結果、入力された振幅データに対する周波数成分毎のパワー値と位相値とから成る周波数分解データが時系列的に生成される。
【0035】
(位相差算出部302)
位相差算出部302は、周波数分解部301により得られた同時期の2つの周波数分解データaとbとを比較して、同じ周波数成分毎に両者の位相値の差を計算して得たab間位相差データを生成する。図3に示すように、ある周波数成分fkの位相差ΔPh(fk)は、マイク1aにおける位相値Ph1(fk)とマイク1bにおける位相値Ph2(fk)の差を計算し、その値が{ΔPh(fk):−π<ΔPh(fk)≦π}に収まるように2πの剰余系として算定される。
【0036】
(散布図生成部303)
散布図生成部303は、位相差算出部302により得られたab間位相差データを元に、周波数とその位相差の組を所定の2次元XY座標系上の点として扱うための座標値を決定する手段である。ある周波数成分fkの位相差ΔPh(fk)に対応するX座標値x(fk)とY座標値y(fk)は、図4に示す式によって決定される。X座標値は位相差ΔPh(fk)、Y座標値は周波数成分番号kである。このような点群をXY座標系にプロットしたものが散布図である。
【0037】
(同一時間差に対する位相差の周波数比例性)
位相差算出部302によって、図3に示したように算出される周波数成分毎の位相差は、同一音源(同一方向)に由来するものどうしが同じ到達時間差を表しているはずである。このとき、FFTによって得られたある周波数の位相値及び両マイク間の位相差はその周波数の周期を2πとして算出された値なので、同じ時間であっても周波数が2倍になれば位相も2倍となる比例関係にある。これは位相差についても同様であり、同一時間差ΔTに対する位相差は周波数に比例して大きくなる。同一音源から発せられてΔTを共通にする各周波数成分の位相差を図4に示した座標値計算により2次元座標系上にプロットした散布図を生成すると、各周波数成分の位相差を表す座標点が直線状に並ぶ。ΔTが大きいほど、すなわち両マイク間で音源までの距離が異なるほど、この直線の傾きは大きくなる。
【0038】
(位相差の循環性)
但し、両マイク間の位相差がこの散布図の全域で周波数に比例するのは、解析対象となる最低周波数から最高周波数まで通して真の位相差が±πを逸脱しない場合に限られる。この条件はΔTが、最高周波数(サンプリング周波数の半分)Fr/2[Hz]の1/2周期分の時間、すなわち1/Fr[秒]以上とならないことである。もし、ΔTが1/Fr以上となる場合には、次に述べるように位相差が循環性を持つ値としてしか得られないことを考慮しなければならない。
【0039】
手に入れることのできる周波数成分毎の位相値は複素座標系上の角度値として2π[ラジアン]の幅(本実施形態では−πからπの間の2πの幅)でしか得ることができない。このことは、その周波数成分における実際の位相差が両マイク間で1周期以上開いていても、周波数分解結果として得られる位相値からそれを知ることができないことを意味する。そのため、本実施形態では位相差を−πからπの間で得るようにしている。しかし、ΔTに起因する真の位相差は、ここで求められた位相差の値に2πを加えたり差し引いたり、あるいはさらに4πや6πを加えたり差し引いたりした値である可能性がある。
【0040】
これを模式的に示した散布図が図5である。周波数fkの位相差ΔPh(fk)が図中の黒丸140で表すように+πであるとき、1つ高い周波数fk+1の位相差は図中の白丸141で表すように+πを超えている。しかしながら、計算された位相差ΔPh(fk+1)は、本来の位相差から2πを差し引いた、図中の黒丸142で表すように−πよりやや大きい値となる。さらに、図示はしていないが、その3倍の周波数でも同様の値を示すことになるが、これは実際の位相差から4πを差し引いた値である。このように位相差は周波数が高くなるにつれて2πの剰余系として−πからπの間で循環する。この例ように、ΔTが大きくなると、ある周波数fk+1から上では、白丸で表した真の位相差が黒丸で示したように反対側に循環してしまう。
【0041】
本発明における音源の数と方向を推定する問題は、このような散布図上で、図示したような直線を検出することに帰着できる。また、音源毎のおおよその周波数成分を推定する問題は、検出された直線に近い位置にプロットされた周波数成分を選別することに帰着できる。そこで、本実施形態における散布図生成部303の出力する散布図データは、周波数分解部301による周波数分解データを使って周波数と位相差の関数として決定される点群とする。投票部304はこの散布図データとして与えられる点群配置から直線状の配置を図形として検出する。
【0042】
(投票部304)
投票部304は、散布図生成部303によって(x,y)座標を与えられた各周波数成分に対して、後述するように直線ハフ変換を適用し、その軌跡をハフ投票空間に所定の方法で投票する手段である。ハフ変換については、岡崎彰夫、“はじめての画像処理”、工業調査会、2000年10月20日発行の100〜102ページに解説されている。
【0043】
(直線ハフ変換)
2次元座標上の点p(x,y)を通り得る直線は無数に存在するが、原点Oから各直線に下ろした垂線のX軸からの傾きをθ、この垂線の長さをρとして表現すると、1つの直線についてθとρは一意に決まり、ある点(x,y)を通る直線の取り得るθとρの組は、θρ座標系上で(x,y)の値に固有の軌跡(ρ=x cosθ+y sinθ)を描くことが知られている。この軌跡をハフ曲線と呼ぶ。また、このような、(x,y)座標値からそこを通り得る直線の(θ,ρ)の軌跡への変換を直線ハフ変換と云う。なお、直線が左に傾いているときθは正値、垂直のとき0、右に傾いているとき負値であるとし、また、θの定義域は{θ:−π<θ≦π}を逸脱することはない。
【0044】
ハフ曲線はXY座標系上の各点について独立に求めることができるが、例えば3点p1、p2、p3を共通に通る直線は、p1、p2、p3に対応した3本の軌跡が交差する点の座標(θ0,ρ0)で定められる直線として求めることができる。多くの点を通る直線であればあるほど、その直線を表すθとρの位置を多くの軌跡が通過する。
【0045】
(ハフ投票)
点群から直線を検出するため、ハフ投票という手法が使われる。これはθとρを座標軸とする2次元のハフ投票空間に各軌跡の通過するθとρの組を投票することで、ハフ投票空間の得票の大きい位置に多数の軌跡の通過するθとρの組、すなわち直線の存在を示唆させるようにする手法である。
【0046】
投票部304は、次の条件を全て満たす周波数成分についてハフ投票を行う。この条件により、所定の周波数帯で所定閾値以上のパワーを持つ周波数成分のみが投票されることになる。
【0047】
(投票条件1) 周波数が所定範囲にあるもの(低域カットと高域カット)。
【0048】
(投票条件2) 当該周波数成分fkの代表パワーP(fk)が所定閾値以上のもの。
【0049】
投票条件1は、一般に暗騒音が乗っている低域をカットしたり、FFT精度の落ちる高域をカットしたりする目的で使われる。この低域カットと高域カットの範囲は運用に合わせて調整可能である。最も広く周波数帯域を使う場合、低域カットは直流成分のみ、高域カットは最大周波数のみとする設定が適している。
【0050】
暗騒音程度の非常に弱い周波数成分ではFFT結果の信頼性が高くないと考えられる。投票条件2は、このような信頼性の低い周波数成分をパワーで閾値処理することで投票に参加させないようにする目的で使われる。マイク1aにおけるパワー値Po1(fk)、マイク1bにおけるパワー値Po2(fk)とすると、このとき評価される当該周波数成分fkの代表パワーP(fk)は両者の平均として求めることとする。
【0051】
また、投票部304は、投票に際して軌跡の通過位置に当該周波数成分fkの代表パワーP(fk)の関数値を加算する。この投票方式は、通過する点が少なくても、パワーの大きい周波数成分を含んでいれば上位の極大値を得ることのできる方式であり、周波数成分が少なくてもパワーの大きい有力な成分を持つ直線(すなわち音源)を検出するのに適している。代表パワーP(fk)の関数値はG(P(fk))として計算される。図6にG(P(fk))の計算式を示す。中間パラメータVの値はP(fk)の対数値log10(P(fk))に所定のオフセットαを足した値として計算される。そしてVが正であるときはV+1の値を、Vがゼロ以下であるときには1を、関数G(P(fk))の値とする。このように最低でも1を投票することで、パワーの大きい周波数成分を含む直線(音源)が上位に浮上するだけでなく、多数の周波数成分を含む直線(音源)も上位に浮上するという多数決的な性質を併せ持たせることができる。
【0052】
(複数FFT結果をまとめて投票)
さらに、投票部304は、1回のFFT毎に投票を行うことも可能だが、一般的に連続するm回(m≧1)の時系列的なFFT結果についてまとめて投票を行なうこととする。長期的には音源の周波数成分は変動するものであるが、このようにすることで、周波数成分の安定している適度に短期間の複数時刻のFFT結果から得られるより多くのデータを用いて、より信頼性の高いハフ投票結果を得ることができるようになる。なお、このmは運用に合わせてパラメータとして設定可能とする。
【0053】
(直線検出部305)
直線検出部305は、投票部304によって生成されたハフ投票空間上の得票分布を解析して有力な直線を検出する手段である。このとき、図5で述べた位相差の循環性など、本問題に特有の事情を考慮することで、より高精度な直線検出を実現する。
【0054】
(ρ=0の制約)
マイク1aとマイク1bの信号が音響信号入力部2によって同相でA/D変換される場合、検出されるべき直線は必ずρ=0、すなわちXY座標系の原点を通る。したがって、音源の推定問題は、理想的には、ハフ投票空間上でρ=0となるθ軸上の得票分布S(θ,0)から極大値を探索する問題に帰着するはずである。
【0055】
(位相差循環を考慮した直線群の定義)
しかし、実際には位相差の循環性によって、原点を通る直線がΔρだけ平行移動してX軸上の反対側から循環してくる直線もまた同じ到達時間差を示す直線である。このように原点を通る直線を延長してXの値域からはみ出した部分が反対側から循環的に現れる直線を、「循環延長線」、基準となった原点を通る直線を「基準直線」とそれぞれ呼ぶことにする。もし、基準直線がさらに傾いていれば、循環延長線はさらに数を増すことになる。ここで係数aを0以上の整数とすると、到達時間差を同じくする直線は全て(θ0,0)で定義される基準直線をΔρずつ平行移動させた直線群(θ0,aΔρ)となる。このとき、Δρは直線の傾きθの関数Δρ(θ)として図7に示す式で定義される符号付きの値である。
【0056】
(位相差循環を考慮した極大位置検出)
位相差の循環性から、音源を表す直線は1つではなく基準直線と循環延長線から成る直線群として扱われるべきであることを述べた。このことは得票分布から極大位置を検出する際にも考慮されなければならない。
【0057】
図8に、室内雑音環境下で2人の人物がマイク対の正面約20度左と約45度右から同時に発話した実際の音声を用いて処理したときの周波数成分のパワースペクトル、5回分(m=5)のFFT結果から得た周波数成分毎の位相差散布図、同じ5回分のFFT結果から得たハフ投票結果(得票分布)を示す。
【0058】
マイク対で取得された振幅データは、周波数分解部301によって周波数成分毎のパワー値と位相値のデータに変換される。図中の210と211は、縦軸を周波数、横軸を時間として、周波数成分毎の対数パワー値を輝度表示(黒いほど大きい)したものである。縦の1ラインが1フレーム(1回のFFT結果)に対応し、これを時間経過(右向き)に沿ってグラフ化した図である。上段210がマイク1a、下段211がマイク1bからの信号を処理した結果であり、多数の周波数成分が検出されている。この周波数分解結果を受けて、位相差算出部302により周波数成分毎の位相差が求められ、散布図生成部303によりその(x,y)座標値が算出される。図中の212はある時刻213から連続5フレーム分のFFTによって得た位相差をプロットした散布図である。この図で原点から左に傾いた基準直線214に沿う点群分布と右に傾いた基準直線215に沿う点群分布が認められる。投票部304により、このような分布を示している各点がハフ投票空間に投票されて得票分布216を形成する。
【0059】
図9は位相差循環性を考慮して、Δρずつ離れた数箇所の得票値を合計して極大位置を探索した結果を示した図である。図9(a)に示す得票分布240は、図8における得票分布216上に、原点を通る直線をΔρずつ平行移動させたときのρの位置を破線242〜249で表示したものである。このとき、θ軸241と破線242〜245、及びθ軸241と破線246〜249はそれぞれΔρ(θ)の自然数倍で等間隔に離れている。なお、直線がXの値域を越えずに散布図の天井まで抜けることが確実なθ=0には破線を表示していない。
【0060】
あるθ0の得票H(θ0)は、θ=θ0の位置で縦に見たときのθ軸241上の得票と破線242〜249上の得票の合計値、すなわちaを0以上の整数とした、H(θ0)=Σ{S(θ0,aΔρ(θ0))}として計算される。この操作はθ=θ0となる基準直線とその循環延長線の得票を合計することに相当する。この得票分布H(θ)を棒グラフにしたものが図9(b)中の250である。この得票分布250からは同図9(b)の251に示す10個の極大位置が検出される。このうち、極大位置252と253が、マイク対の正面約20度左からの音声を検出した直線群(極大位置253に対応する、図9(c)に示す基準直線254と循環延長線255)と、マイク対の正面約45度右からの音声を検出した直線群(極大位置252に対応する、同図9(c)に示す基準直線256と循環延長線257と258)に対応している。このようにΔρずつ離れた箇所の得票値を合計して極大位置を探索することで、傾きの小さい直線から傾きの大きい直線まで安定に検出する。そして、所定閾値以上の得票値を得た極大位置(直線)を選別することで、音源らしき候補(音源候補)を抽出することができる。
【0061】
(存在角度推定)
さらに、直線検出部305は、検出された直線群毎のθ値から各直線群に対応した音源候補の存在範囲を計算する。マイク間距離に対して音源までの距離が十分遠い場合、音源の存在範囲は2つのマイク1aとマイク1bを結ぶ線分(マイク対のベースラインと呼ぶ)に対してある角度(存在角度)を持った円錐面となる。
【0062】
マイク1aとマイク1bの到達時間差ΔTは±ΔTmaxの範囲で変化し得る。マイク対の正面から入射する場合、ΔTは0となり、音源の存在角度φは正面を基準にした場合0°となる。また、音声がマイク対の右真横、すなわちマイク1b方向から入射する場合、ΔTは+ΔTmaxに等しく、音源の存在角度φは正面を基準にして右回りを正として+90°となる。同様に、音声がマイク対の左真横、すなわちマイク1a方向から入射する場合、ΔTは−ΔTmaxに等しく、存在角度φは−90°となる。このように、ΔTを音が右から入射するとき正、左から入射するとき負となるように定義する。以上を踏まえて一般的な条件を考えると、符号も含めて、存在角度はφ=sin−1(ΔT/ΔTmax)として計算することができる。
【0063】
ΔTmaxはΔTmax=L÷Vs[sec]で求められる、マイク間距離L[m]を音速Vs[m/sec]で割った値である。このとき、音速Vsは気温t[℃]の関数として、Vs=331.4+0.604t[m/sec]で近似できることが知られている。今、直線検出部305によって傾きθの直線が検出されているとする。この直線が右に傾いているとすればθは負値である。y=k(周波数fk)のとき、この直線で示される位相差ΔPhはkとθの関数としてΔPh(θ,k)=k・tan(−θ)で求めることができる。このときΔT[sec]はΔT=(ΔPh(θ,k)/2π)×(1/fk)で示すように、位相差ΔPh(θ,k)の2πに対する割合に周波数fkの1周期(1/fk)[sec]を乗じた時間となる。θが符号付きの量なので、ΔTも符号付きの量となる。すなわち、音が右から入射する(位相差ΔPhが正値となる)とき、θは負値となる。また、音が左から入射する(位相差ΔPhが負値となる)とき、θは正値となる。そのために、式ではθの符号を反転させている。なお、実際の計算においては、k=1(直流成分k=0のすぐ上の周波数)で計算を行えば良い。
【0064】
(時系列追跡部306)
上述した通り、投票部304によるハフ投票毎に、直線検出部305により直線群が求められる。ハフ投票は連続するm回(m≧1)のFFT結果についてまとめて行われる。この結果、直線群はmフレーム分の時間を周期(これを「直線検出周期」と呼ぶことにする)として時系列的に求められることになる。また、直線群のθは円錐面の開き角度(存在角度)φと1対1に対応しているので、音源が静止していても移動していても、安定な音源に対応しているθ(あるいはφ)の時間軸上の軌跡は連続して変化すると仮定される。一方、直線検出部305により検出された直線群の中には、閾値の設定具合によって背景雑音に対応する直線群(これを「雑音直線群」と呼ぶことにする)が含まれていることがある。しかしながら、このような雑音直線群のθ(あるいはφ)の時間軸上の軌跡は連続していないか、連続していても短いことが期待できる。
【0065】
時系列追跡部306は、このように直線検出周期毎に求められるθ(あるいはφ)を時間軸上で連続とみなせるグループにまとめることで、θ(あるいはφ)の時間軸上の軌跡(音源ストリーム候補と呼ぶ)を求める手段である。図10を参照し、θを用いた場合のグルーピングの方法を説明する。
【0066】
(1)音源ストリーム候補バッファを用意する。音源ストリーム候補バッファは音源ストリーム候補データの配列である。1つの音源ストリーム候補データKdは、その開始時刻Tsと、終了時刻Teと、当該音源ストリーム候補を構成する直線群データLdの配列(直線群リスト)と、ラベル番号Lnとを保持することができる。1つの直線群データLdは、当該音源ストリーム候補を構成する1つの直線群のθ値及びρ値(直線検出部305による)と、この直線群に対応した音源の存在角度φ値(直線検出部305による)と、直線スコア(直線検出部305による)と、それらが取得された時刻とから成る一群のデータである。なお、上述したように、位相差の循環性から、音源を表す直線は1つではなく基準直線と循環延長線から成る直線群として扱われるべきであることから、直線群データLdの配列における1つの要素は、1つの直線群であるとしている。あえて位相差の循環性を考慮しない場合は、上記配列の要素は1つの直線ということになる。また、音源ストリーム候補バッファは最初空である。また、ラベル番号を発行するためのパラメータとして新規ラベル番号を用意し、初期値を0に設定する。
【0067】
(2)あるフレームTにおいて、新しく検出された直線の傾きθの各々(以後θnとし、図中では黒丸323と黒丸324で示される2つが得られたものとする)について、音源ストリーム候補バッファに保持されている音源ストリーム候補データKd(図中の矩形321と322)の直線群データLd(図中の矩形内に配置された黒丸)を参照し、そのθ値とθnの差(図中の325と326)が所定角度閾値Δθ(角度方向ギャップの許容範囲を与える)内にあり、かつその取得時刻の差(図中の327と328)が所定時間閾値Δt(時間方向ギャップの許容範囲を与える)内にあるLdを持つ音源ストリーム候補データを検出する。この結果、黒丸323については音源ストリーム候補データ321が検出されたが、黒丸324については最も近い音源ストリーム候補データ322も上記条件を満たさなかったとする。
【0068】
(3)黒丸323のように、もし、(2)の条件を満たす音源ストリーム候補データが見つかった場合は、θnはこの音源ストリーム候補と同一の音源ストリーム候補を成すものとして、このθnとそれに対応したφ値とρ値と現時刻Tとを当該音源ストリーム候補データKdの新たな直線群データとして直線群リストに追加し、現時刻Tを当該音源ストリーム候補データの新たな終了時刻Teとする。このとき、複数の音源ストリーム候補データが見つかった場合には、それら全てが同一の音源ストリーム候補を成すものとして、最も若いラベル番号を持つ音源ストリーム候補データに統合して、残りを音源ストリーム候補バッファから削除する。統合された音源ストリーム候補データの開始時刻Tsは統合前の各音源ストリーム候補データの中で最も早い開始時刻であり、終了時刻Teは統合前の各音源ストリーム候補データの中で最も遅い終了時刻であり、直線群リストは統合前の各音源ストリーム候補データの直線群リストの和集合である。この結果、黒丸323は音源ストリーム候補データ321に追加される。
【0069】
(4)黒丸324のように、もし、(2)の条件を満たす音源ストリーム候補データが見つからなかった場合は、新規の音源ストリーム候補の始まりとし、音源ストリーム候補バッファの空き部分に新しい音源ストリーム候補データを作成し、開始時刻Tsと終了時刻Teを共に現時刻Tとし、θnとそれに対応したφ値とρ値と現時刻Tとを直線群リストの最初の直線群データとし、新規ラベル番号の値をこの音源ストリーム候補データのラベル番号Lnとして与え、新規ラベル番号を1だけ増加させる。なお、新規ラベル番号が所定の最大値に達したときは、新規ラベル番号を0に戻す。この結果、黒丸324は新たな音源ストリーム候補データとして音源ストリーム候補バッファに登録される。
【0070】
(5)もし、音源ストリーム候補バッファに保持されている音源ストリーム候補データで、最後に更新されてから(すなわちその終了時刻Teから)現時刻Tまでに前記所定時間Δtを経過したものがあれば、追加すべき新たなθnが見つからなかった、すなわちグルーピングを終えた音源ストリーム候補として、この音源ストリーム候補データを次段の継続時間評価部307に出力する。図の例では音源ストリーム候補データ322がこれに該当する。
【0071】
(継続時間評価部307)
継続時間評価部307は、時系列追跡部306により出力された、グルーピングを終えた音源ストリーム候補データの開始時刻と終了時刻から当該音源ストリーム候補の継続時間を計算し、この継続時間が所定閾値を越えるものを音源音に基づく(安定な)音源ストリーム候補と認定し、それ以外を雑音に基づく(不安定な)音源ストリーム候補と認定する。音源音に基づく音源ストリーム候補データを音源ストリーム情報と呼ぶことにする。音源ストリーム情報には、当該音源ストリームの開始時刻Ts、終了時刻Te、音源方向を表すθとρとφと直線スコアの時系列データが含まれる。
【0072】
なお、直線検出部305による直線群の数が音源らしき候補の数を与えるが、そこには雑音源も含まれている。一方、継続時間評価部307による音源ストリーム情報の数は、雑音に基づくとされたものを除いた、信頼できる音源の数を与えてくれると考えられる。
【0073】
(フレーム分類部308)
図10の例において、黒丸323は音源ストリーム候補データ321と同じ音源から発せられている一連の音声を表しているデータであると判断されたわけであるが、このとき、音源ストリーム候補データ321の終端と黒丸323の間には直線の検出されていないギャップ期間が存在していた。このギャップ期間を雑音の支配的な期間であると考え、その間の分離音声は信頼できるレベルにないだろうと仮定する。その判定を行うのがフレーム分類部308である。
【0074】
フレーム分類部308は、継続時間評価部307により出力された音源ストリーム情報の各フレームに対して、次の2つの信頼可否判別方式のいずれかを用いて、信頼可否の別を表すフラグを与える。なお、いずれの方式を使用するかは運用に合わせて設定可能である。
【0075】
(信頼可否判定方式1)
図11に例示するように、時間軸を等間隔に刻んだ離散的な時刻をフレーム(図中331)とする。このとき、音源ストリーム332には自身に属する直線を検出できたフレーム(図中黒丸のある時刻)と検出できなかったフレーム(図中の333、334、335)とがある。直線を検出できたフレームには直線スコア(図中の346、347、348のグラフ)が与えられている。信頼可否判定方式1は、音源ストリーム情報毎に、直線を検出できたフレームに信頼可のフラグを与え、そうでないフレームに信頼不可のフラグを与える。
【0076】
(信頼可否判定方式2)
図12に例示するように、図11と同じ音源ストリーム332がある。直線検出周期毎に行われるハフ投票により、各フレームには得票分布H(θ)が得られている。図では、4つのフレーム(時刻)における得票分布を図中の339〜342に模式的に示す。信頼可否判定方式2は、直線の検出できなかったフレーム(図中の333、334、335)の直線傾きθを、θの時間連続性を仮定して、直線の検出できた前後のフレームから例えば線形補間で内挿して推定する。推定されたθを図中の白丸336、337、338で示す。そして、この内挿によって得たθ値に対応する時刻の得票分布H(θ)を読み出す。このとき、直線の検出できなかったフレーム333の傾き(内挿で求められた)をθe(図中の白丸336)とすれば、その時刻の得票分布H(θ)(図中の340)から得票値H(θe) (図中の343)を読み出して当該フレーム333の直線スコアとする。このようにしてギャップ期間の直線スコアが得られ、直線の検出できたフレームの直線スコアと合わせてストリーム全域にわたる直線スコア(図中の344)が出揃う。そして、所定閾値(図中の345)以上の直線スコアを得たフレームに信頼可のフラグを与え、それ以外のフレームには信頼不可のフラグを与える。このようにすることで、直線検出時の閾値とは別の閾値によって、信頼可否の情報を生成することができる。
【0077】
(音源分離部4)
音源分離部4の内部構成を図13に示す。音源分離部4は、同相化部371とビームフォーミング部372より成る。
【0078】
(同相化部371)
同相化部371は、音源ストリームの存在角度データを参照することで、当該ストリームの音源方向(存在角度)φの時間推移を得て、φの最大値φmaxと最小値φminから中間値φmid=(φmax+φmin)/2を計算して幅φw=φmax−φmidを求める。そして、当該音源ストリーム情報の元となった2つの周波数分解データaとbの時系列データを、当該ストリームの開始時刻Tsより所定時間遡った時刻Ts’から終了時刻Teより所定時間経過した時刻Te’まで抽出して、中間値φmidで逆算される到達時間差をキャンセルするように補正することで粗く同相化する。
【0079】
(ビームフォーミング部372)
同相化部371によって粗く同相化された2つの周波数分解データaとbの時系列データは、あたかもマイク対の正面方向から入射したかのような信号となっている。但し、各時刻においては正確に正面0°というわけではなく、±φwの範囲で変化している。ビームフォーミング部372は、この粗く同相化された2つの周波数分解データaとbの時系列データを、正面0°に対して±β・φwのマージン(βは1以上の適当な係数で、例えば1.1)を与えた角度の範囲を追尾範囲とする「話者追尾型適応アレイ」に掛けることで、当該ストリームの音声データの音源分離を高精度に行う。天田皇 他、“音声認識のためのマイクロホンアレー技術”、東芝レビュー2004、VOL.59、NO.9、2004年には、話者追尾型適応アレイの一構成例が開示されている。
【0080】
(語彙認識部5)
語彙認識部5の内部構成を図14に示す。音響特徴抽出部261は、入力される音源ストリームの分離音声から所定の音響特徴(例えばMFCC、ΔMFCCなど)の時系列データを抽出する。これを入力音響特徴と呼ぶことにする。音響特徴照合部262は、音響モデルデータベース263に記憶されている音響モデルと前記入力音響特徴とを照合し、入力音響特徴列を所定の音素記号列(入力系列)データに変換する。最尤文仮説探索部264は、文法・言語モデルデータベース265に記憶されている文法情報と言語モデルから文仮説を記述したHMM(隠れマルコフモデル)を生成し、前記入力系列を最も高い確率(尤度)で出力する文仮説をHMM上で探索して出力する。出力される文仮説(最尤文仮説)が前記音源ストリーム分離音声の言語的内容を認識した結果となる。
【0081】
(音響特徴照合部362)
音響モデルデータベース363に記憶される音響モデルとは、各音素についての標準音響特徴とその音素記号を組にした情報である。なお、日本語においてどのような音素を擁しておくべきかが、鹿野清宏 他、“音声認識システム”、オーム社出版局、2001年5月15日発行の45ページに音節表として示されている。
【0082】
音響特徴照合部362は、分離音声データから生成される入力音響特徴と音響モデルに記述される標準音響特徴とを照合して、その類似度(音響スコア)を計算する。そして、最も類似した上位N位(Nベスト)までの標準音響特徴の音素記号とその音響スコアを出力する。この結果、入力音響特徴列は音素記号列に変換されることになる。しかしながら、入力音響特徴列には信頼可フレームと信頼不可フレームのデータがある。このとき、信頼不可フレームのデータは目的音声よりも雑音の方が支配的になっているため、その期間の入力音響特徴が適切な音素記号に対応付けられる可能性は低い。そこで、音響特徴照合部362は、信頼不可フレームの入力音響特徴を標準音響特徴と照合する代わりに、これに所定のダミー音素記号とダミー音響スコアを対応付ける。この結果、信頼不可フレームでの照合処理を省略して計算コストを節約する。よって、音響特徴照合部362から入力状態系列データとして出力されるものは、ダミー音素記号を含む音素記号列データとなる。
【0083】
(最尤文仮説探索部364)
文は1以上の単語から成るものとし、文法情報には発話に出現すると想定される単語とその連結関係が定義されている。各単語は1以上の音素から成るものとし、よって単語と文はそれぞれ1以上の音素の連結された音素列と看做すことができるわけである。
【0084】
HMMは、状態と、状態間の遷移(同一状態への遷移も含む)から成り、状態にはその状態を取り得る確率(出力確率)を、遷移にはその遷移の起こり得る確率(遷移確率)をそれぞれ与えることで確率過程をモデル化する。このとき、状態を音素に対応させると、音素列である単語は所定の状態が連鎖したHMM(単語HMM)で記述できる。そして、文は所定の単語HMMが連鎖したより大きなHMMで記述できる。このとき、予め大量の例文(コーパス)から、各音素の次にどの音素が続くのか(バイフォン、トライフォン)、各単語の次にどの単語が続くのか(バイグラム、トライグラム)を確率で表した言語モデルを利用してHMMの遷移確率を設定することができる。
【0085】
初期状態をシンボル的な文頭無音(SilB)として、可能な文を構成する単語列を木構造に展開すると、木の枝葉の終端に配置されるこれもシンボル的な文末無音(SilE)に達した最終状態までの経路で決まる音素列が文法情報で定義される可能な文(文仮説)を表す。
【0086】
分離音声は入力系列としての音素記号列に変換されている。最尤文仮説探索部364は、文法情報から生成されるHMM上のどの文仮説がこの入力系列を最も良く説明できるかを探索する。この探索にはビームサーチを用いる。ビームサーチはその時点で有望な幾つかの仮説を残し、あまり有望でない残りの仮説を破棄しながら探索を進める手法である。幾つの仮説を残すかという基準を「ビーム幅」と呼び、仮説の破棄作業を「枝刈り」と呼ぶ。
【0087】
入力音素記号列の先頭の音素記号(Nベストなので最大N個ある)と同じ音素記号に対応する状態を、HMM上の初期状態から遷移可能な全ての状態の中で探索する。同じ音素記号に対応する遷移可能な状態が見つかると、その出力確率をその音素の音響スコア、初期状態からその状態への遷移確率を言語スコアとして、音響スコアと言語スコアの積をこの遷移経路の尤度とする。そして、尤度で上位M位までを残して他の経路を破棄(枝刈り)する。
【0088】
入力音素記号列の次の音素記号(Nベストなので最大N個ある)についても、枝刈りで残った状態から次に遷移可能な全ての状態の中で、同じ音素記号に対応する状態を探索する。そのような状態が見つかると、同様に音響スコアと言語スコアが定められ、その積をそこに至った遷移経路のこれまでの尤度に掛けて新しい尤度とする。そして、同様に新しい尤度で上位M位までを残して経路を枝刈りする。
【0089】
以上の処理を終端に達するまで繰り返し、終端到達時点で最も尤度の高い遷移経路を求め、その遷移経路が辿った単語列を分離音声データの言語的解釈、すなわち認識結果とする。
【0090】
なお、確率を対数化して扱うと、確率の積や尤度の積を全て足し算で行うことができる。また、遷移確率を全て1として、尤度を音響スコアにのみ依存させることも可能である。また、認識後の後処理のために、最終的な尤度で上位K位までの遷移経路を認識結果(の候補)として出力することも可能である。
【0091】
以上のようにして認識結果が得られるわけだが、入力系列にはダミー音素記号が含まれている。最尤文仮説探索部364は、次の2つの方式のいずれかを使ってダミー音素記号を処理する。なお、どの方式を利用するかは設定により変更可能であるものとする。
【0092】
(ダミー対応方式1:枝刈り停止、尤度計算停止)
この方式では、最尤文仮説探索部364は、ダミー音素記号に遭遇すると、現時点で有効な状態から次に遷移可能な全ての状態への遷移を枝刈りせずに残す。このとき、残された遷移経路の尤度を更新しない。すなわち、信頼可と分類されたフレームだけを尤度計算に用い、信頼不可と分類されたフレームで枝刈りをしないのである(枝外りの抑制)。このようにすることで、元々発話のない無音やポーズと異なり、発話の途中で目的音声が雑音にまぎれてしまっても、その期間を乗り越えて尤度計算を行いながら認識処理を継続することができるようになる。このように、仮に信頼不可期間が無音区間と偶然一致していたとしても、その期間で枝刈りをしないことが、特許文献2と異なる点である。この相違は、本発明が信頼不可として検出しようとする期間が、目的音声のない実際に無音となっている期間だけでなく、目的音声が存在し、それが雑音にまぎれて聞き取りにくくなっている期間をも包含するからである。次に目的音声が聞こえ始めたときには、発話はずっと先に進んでしまっている、という事態への対処である。
【0093】
(ダミー対応方式2:ダミー音素状態の挿入)
この方式では、最尤文仮説探索部364は、HMM上の全ての遷移先と並列にダミー音素に対応した状態への遷移を挿入する。ダミー音素記号に遭遇すると、現時点で有効な状態からダミー音素状態への遷移が起こる。ダミー音素状態の出力確率(音響スコア)を1に、そこへの遷移確率(言語スコア)にも1を入れておくことで、遷移経路の尤度は変更されない。すなわち、ダミー音素を加味したHMMを生成しておくだけで、後の計算は全て通常通りに行うことができ、ダミー対応方式1のような例外処理を必要としない。ただし、ダミー音素状態の挿入によりHMMの規模が膨らむので、この方式は小規模な文法情報に対して用いると良い。
【0094】
なお、音響特徴照合部362が信頼不可フレームにダミー音素記号を対応付けるのではなく、最尤文仮説探索部364が直接信頼可否情報を参照して上述した例外処理(ダミー対応方式1)を行うようにすることも可能である。
【0095】
(話者認識部6)
話者認識部6は、例えばAさんの声であるなど、入力される音源ストリームの分離音声が誰の声かを認識する。そのための話者認識部6の内部構成を図15に示す。音響特徴抽出部271は、入力される音源ストリームの分離音声のうち、信頼可フレームの音声のみから所定の音響特徴(例えばフォルマントなど)の時系列データを抽出する。これを話者認識用の入力音響特徴と呼ぶことにする。音響特徴照合部272は、標準話者特徴データベース273に記憶されている話者毎の話者認識用の標準音響特徴と前記話者認識用の入力音響特徴とを照合し、話者認識用の入力音響特徴列全域にわたる類似度の平均を話者毎に計算する。この平均類似度が所定閾値以上で最大となる話者を当該分離音声の発話者として認定し、その話者IDを出力する。もし、閾値以上の平均類似度が得られなければ、当該分離音声の話者は不明であることを表す特別なIDを出力する。
【0096】
(物音認識部7)
物音認識部7は、例えば「ガラスの割れる音である」など、入力される音源ストリームの分離音声が何の物音であるかを認識する。そのための物音認識部7の内部構成を図16に示す。音響特徴抽出部281は、入力される音源ストリームの分離音声のうち、信頼可フレームの音声のみから所定の音響特徴(例えばエンベロープや対数パワースペクトルなど:例えば、ガラスの割れる音は時間方向に見れば振幅が減少していく減衰性のエンベロープを示し、その対数パワースペクトルは白色に近い)の時系列データを抽出する。これを物音認識用の入力音響特徴と呼ぶことにする。音響特徴照合部282は、標準物音特徴データベース283に記憶されている物音毎の物音認識用の標準音響特徴と前記物音認識用の入力音響特徴とを照合し、物音認識用の入力音響特徴列全域にわたる類似度の平均を物音毎に計算する。この平均類似度が所定閾値以上で最大となる物音を当該分離音声の正体として認定し、その物音IDを出力する。もし、閾値以上の平均類似度が得られなければ、当該分離音声の正体は不明であることを表す特別なIDを出力する。
【0097】
(出力部8)
出力部8は、音源の数、各音源の空間的な存在範囲(円錐面を決定させる存在角度φ)、前記音源を発した音声の時間的な存在期間(Ts、Te)、前記音源毎の分離音声、前記分離音声の言語的内容、前記分離音声の話者の別、前記分離音声の物音の別、の少なくとも1つを含む音源情報を出力する手段である。
【0098】
(ユーザインタフェース部9)
ユーザインタフェース部9は、上述した音声認識処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、設定内容の外部記憶装置への保存と外部記憶装置からの読み出しを実行したり、図8や図9に示した(1)マイク毎の周波数成分の表示、(2)散布図の表示、(3)各種得票分布の表示、(4)極大位置の表示、(5)散布図上の直線群の表示、図10に示した(6)音源ストリーム候補データの表示、のように各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化するための手段である。このようにすることで、利用者が本実施形態に係る音声認識装置の働きを確認したり、所望の動作を行ない得るように調整したり、以後は、調整済みの状態で本装置を利用したりすることが可能になる。
【0099】
(処理の流れ図)
図17に本実施形態に係る音声認識装置における処理の流れを示す。本処理は、初期設定処理ステップS1と、音響信号入力処理ステップS2と、音源ストリーム抽出分類処理ステップS3と、音源分離処理ステップS4と、語彙認識処理ステップS5と、話者認識処理ステップS6と、物音認識処理ステップS7と、出力処理ステップS8と、終了判断処理ステップS9と、確認判断処理ステップS10と、情報呈示・設定受理処理ステップS11と、終了処理ステップS12とから成る。
【0100】
初期設定処理ステップS1は、ユーザインタフェース部9における処理の一部を実行する処理ステップであり、音声認識処理に必要な各種設定内容を外部記憶装置から読み出して、装置を所定の設定状態に初期化する。
【0101】
音響信号入力処理ステップS2は、音響信号入力部2における処理を実行する処理ステップであり、空間的に同一でない2つの位置で捉えられた2つの音響信号を入力する。
【0102】
音源ストリーム抽出分類処理ステップS3は、音源ストリーム抽出分類部3における処理を実行する処理ステップであり、(1)前記音響信号入力処理ステップS2による2つの入力音響信号をそれぞれ周波数分解し、(2)両入力音響信号の周波数毎の位相差値を算出し、該周波数毎の位相差値を、周波数をY軸、位相差値をX軸とするXY座標系上の散布図データを生成し、(3)該散布図データから所定の直線を検出し、(4)検出された直線の情報に基づいて、前記音響信号の発生源たる音源の数、各音源の空間的な存在範囲、前記各音源を発した音声の時間的な存在期間をデータ化し、(5)該存在期間の各時刻を信頼可あるいは信頼不可と分類し、これらの情報を音源ストリーム情報として出力する。
【0103】
音源分離処理ステップS4は、音源分離部4における処理を実行する処理ステップであり、音源ストリーム情報に基づいて各音源の音声を分離抽出する。
【0104】
語彙認識処理ステップS5は、語彙認識部5における処理を実行する処理ステップであり、各音源の分離抽出音声の言語的意味を認識する。
【0105】
話者認識処理ステップS6は、話者認識部6における処理を実行する処理ステップであり、各音源の分離抽出音声の発話者の別を認識する。
【0106】
物音認識処理ステップS7は、物音認識部7における処理を実行する処理ステップであり、各音源の分離抽出音声が何の物音であるかを認識する。
【0107】
出力処理ステップS8は、出力部8における処理を実行する処理ステップであり、前記音源ストリーム情報や前記音声認識の結果を出力する。
【0108】
終了判断処理ステップS9は、ユーザインタフェース部9における処理の一部を実行する処理ステップであり、利用者からの終了命令の有無を検査して、終了命令が有る場合には終了処理ステップS12へ(左分岐)、無い場合には確認判断処理ステップS10へ(上分岐)と処理の流れを制御する。
【0109】
確認判断処理ステップS10は、ユーザインタフェース部9における処理の一部を実行する処理ステップであり、利用者からの確認命令の有無を検査して、確認命令が有る場合には情報呈示・設定受理処理ステップS11へ(左分岐)、無い場合には音響信号処理ステップS2(上分岐)と処理の流れを制御する。
【0110】
情報呈示・設定受理処理ステップS11は、利用者からの確認命令を受けて実行される、ユーザインタフェース部9における処理の一部を実行する処理ステップであり、音声認識処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、保存命令による設定内容の外部記憶装置への保存、読み出し命令による設定内容の外部記憶装置からの読み出しを実行したり、各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化することで、利用者が音声認識処理の動作を確認したり、所望の動作を行ない得るように調整したり、以後調整済みの状態で処理を継続したりすることを可能にする。
【0111】
終了処理ステップS12は、利用者からの終了命令を受けて実行される、ユーザインタフェース部9における処理の一部を実行する処理ステップであり、音声認識処理に必要な各種設定内容の外部記憶装置への保存を自動実行する。
【0112】
以下、上述した実施形態の変形例を幾つか述べる。
【0113】
(複数系統の並列実装)
以上の例はマイクを2つ備えた最も単純な構成で説明したものであるが、図18に示すように、マイクをN(N≧3)個備え、最大M(1≦M≦NC2)個のマイク対を構成することも可能である。
【0114】
図中の11〜13はN個のマイクである。図中の22はN個のマイクによるN個の音響信号を入力する手段である。図中の23は入力されたN個の音響信号をそれぞれ周波数分解し、N個の音響信号のうちの2つから成るM(1≦M≦NC2)組の対の各々について散布図データを生成し、生成されたM組の散布図データからそれぞれ所定の直線を検出し、検出されたM組の直線の情報のそれぞれから、フレームの信頼可否情報を含む音源ストリーム情報を生成する手段である。図中の24は生成された音源ストリーム情報を用いて、各々の音源の分離音声を抽出する手段である。図中の25は抽出された分離音声の言語的内容を認識する手段である。図中の26は抽出された分離音声の話者の別を認識する手段である。図中の27は抽出された分離音声の物音の別を認識する手段である。図中の28は音源ストリーム情報や音声認識の結果を出力する手段である。図中の29は各対を構成するマイクの情報を含む各種設定値の利用者への呈示、利用者からの設定入力受理、外部記憶装置への設定値の保存、外部記憶装置からの設定値の読み出し、及び各種処理結果の利用者への呈示を実行する手段である。各マイク対における処理はこれまでに述べた実施形態と同様であり、そのような処理が複数のマイク対について並列的に実行される。
【0115】
このようにすることで、音源方向に対する得て不得手が各々のマイク対にあるとしても、複数のマイク対でカバーすることで装置周囲の広範な方位に存在する目的音源を検出・定位・認識することが可能になる。
【0116】
(コンピュータを使った実施:プログラム)
また、本発明は図19に示すようにコンピュータを使って実施することも可能である。図中の31〜33はN個のマイクである。図中の40はN個のマイクによるN個の音響信号を入力するA/D変換手段であり、図中の41は入力されたN個の音響信号を処理するためのプログラム命令を実行するCPUである。図中の42〜47はコンピュータを構成する標準的なデバイスであり、それぞれRAM42、ROM43、HDD44、マウス/キーボード45、ディスプレイ46、LAN47である。また、図中の50〜52は外部から記憶メディアを介してプログラムやデータをコンピュータに供給するためのドライブ類であり、それぞれCDROM50、FDD51、CF/SDカード52である。図中の48は音響信号を出力するためのD/A変換手段であり、その出力にスピーカ49が繋がっている。このコンピュータ装置は、図27に示した処理ステップから成る音響信号処理プログラムをHDD44に記憶し、これをRAM42に読み出してCPU41で実行することで音響信号処理装置として機能する。また、外部記憶装置としてのHDD44、操作入力を受け付けるマウス/キーボード45、情報呈示手段としてのディスプレイ46とスピーカ49を使うことで、上述したユーザインタフェース部8の機能を実現する。また、音響信号処理によって得られた音源情報をRAM42やROM43やHDD44に保存出力したり、LAN47を介して通信出力する。
【0117】
(記録媒体)
また、本発明は図20に示すように記録媒体として実施することも可能である。図中の61は本発明に係る信号処理プログラムを記録したCD−ROMやCFやSDカードやフロッピー(登録商標)ディスクなどで実現される記録媒体である。この記録媒体61をテレビやコンピュータなどの電子装置62や電子装置63やロボット64に挿入することで当該プログラムを実行可能としたり、あるいはプログラムを供給された電子装置63から通信によって別の電子装置65やロボット64に当該プログラムを供給することで、電子装置65やロボット64上で当該プログラムを実行可能とする。
【0118】
以上説明した本発明の実施形態よれば、以下のような作用効果が得られる。
【0119】
(1)音源ストリーム抽出分類手段により、認識対象となる目的音源ストリームの全フレームの中で雑音が支配的になっているフレームを検出することができる。そして、雑音が支配的になっているか否かを各フレームに対する信頼可否情報(信頼可フラグ/信頼不可フラグ)として与えることで、後続の各種音声認識手段でその情報を利用できるようにする。
【0120】
以上について、特に非特許文献1と比較して、従来技術が音源分離手段で推定された雑音に基づいて音響特徴の各要素(周波数成分)の信頼可否を判定しているのに対し、本発明は、音源分離過程に先駆けて音源検出過程で信頼可否を判定するものである。
【0121】
(2)語彙認識手段は、入力音響特徴列を音素記号列に変換する際、信頼不可フレームの音響特徴を標準音響特徴と照合することなく、直ちにダミー音素に変換することで、音響特徴照合計算コストを削減することができる。
【0122】
(3)語彙認識手段は、入力音響特徴列(入力音素記号列)に適合する文仮説を探索する際、信頼可フレームのみを尤度計算に参加させ、かつ、信頼不可フレームで枝刈りをしないことで探索の破綻を防ぎ、雑音環境下での誤認識の発生を抑制することができる。
【0123】
(4)語彙認識手段は、入力音響特徴列を音素記号列に変換する際、信頼不可フレームの音響特徴を標準音響特徴と照合することなく、直ちにダミー音素に変換し、かつ、入力音響特徴列(入力音素記号列)に適合する文仮説を探索する際、ダミー音素を加味した探索木を用いて文仮説を評価することで探索の破綻を防ぎ、雑音環境下での誤認識の発生を抑制することができる。
【0124】
以上3点について、特に特許文献2と比較して、従来技術が無音期間を検出してビーム幅を絞っていたが、これは無音期間での計算コストを削減することを目的としたものである。この操作が有効なのは、無音期間が発話中のポーズ期間である、すなわち、その期間で発話中の音声の一部が失われ、探索中の文仮説との整合性が取れなくなる、ということがないときに限られる。一方、本発明は、信頼不可期間は決してポーズのような無音ではなく、雑音に負けた目的音声が欠落している可能性を想定して成されたものである。そのため、この欠落による探索の破綻を防ぐために信頼可否情報を利用し、この期間にビーム幅を広げる操作を行う。その結果、雑音環境下において目的音声が雑音に負けている期間が仮にあったとしても、その期間で破綻することなく、負けていない期間の音声を手掛かりに認識を続けられる音声認識を実現している。
【0125】
(5)話者認識手段は、入力音声特徴を標準話者特徴と照合する際、信頼可フレームの音声特徴のみを標準話者特徴と照合することで、雑音環境下での誤認識の発生を抑制することができる。
【0126】
(6)物音認識手段は、入力音声特徴を標準物音特徴と照合する際、信頼可フレームの音声特徴のみを標準物音特徴と照合することで、雑音環境下での誤認識の発生を抑制することができる。
【0127】
以上2点について、話者の別や物音の別は音声の属するクラスであると捉える。よって、各クラスの標準音響特徴と入力特徴を照合して、最も高い類似度を獲得したクラスを、その音声のクラスであると認定する。これは認識全般について言えることである。このとき、悪いデータを認識しようとすれば誤認識という失敗を犯すことになる。良いデータだけを選別して認識できれば、結果はもっと良くなるであろう。本発明によれば、データの良い悪い(音声の明瞭さ)を信頼可否情報が与えてくれるので、認識過程では、良いデータだけを選んで評価することができる。
【0128】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【0129】
【図1】本発明の一実施形態に係る音声認識装置の機能ブロック図
【図2】音源ストリーム抽出分類部の内部構成を示すブロック図
【図3】位相差算出の説明図
【図4】座標値計算の説明図
【図5】位相差の循環性説明図
【図6】投票される平均パワーの関数値の説明図
【図7】θとΔρの関係図
【図8】同時発話時の周波数成分、散布図、ハフ投票結果を示した図
【図9】Δρずつ離れた数箇所の得票値を合計して極大位置を探索した結果を示した図
【図10】θの時間軸上の追跡を説明するための図
【図11】信頼可否判定方式1を説明するための図
【図12】信頼可否判定方式2を説明するための図
【図13】音源分離部の内部構成を説明するための図
【図14】語彙認識部の内部構成を示すブロック図
【図15】話者認識部の内部構成を示すブロック図
【図16】物音認識部の内部構成を示すブロック図
【図17】本発明の一実施形態に係る音声認識処理の流れを示したフローチャート
【図18】N個のマイクを使った変形実施形態を示す機能ブロック図
【図19】コンピュータを使った実施形態を示す機能ブロック図
【図20】記録媒体による実施形態を示す図
【符号の説明】
【0130】
1a,1b…マイク,2…音響信号入力部,3…音源ストリーム抽出分類部,4…音源分離部,5…語彙認識部,6…話者認識部,7…物音認識部,8…出力部,9…ユーザインタフェース部
【特許請求の範囲】
【請求項1】
2地点で捉えられた第1と第2の音響信号を入力する入力手段と、
前記第1と第2の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出手段と、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成手段と、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出手段と、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出手段により検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する抽出手段と、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類手段と、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離手段と、
文法情報に定められた文仮説を状態と遷移の探索木に展開し、前記音源ストリームの音声データから所定の音響特徴を抽出し、該音響特徴の系列に対する前記探索木の状態遷移経路の尤度を計算し、尤度の高い状態遷移経路を探索することで前記音源ストリームの言語的内容を認識する音声認識手段とを具備し、
前記状態遷移経路の探索を前記信頼可否情報に基づいて制御することを特徴とする音声認識装置。
【請求項2】
前記音声認識手段は、前記探索において、尤度に基づく枝刈りを伴うビームサーチを行い、
前記信頼可と分類された時刻については前記尤度を計算し、
前記信頼不可と分類された時刻については前記枝刈りを抑制することを特徴とする請求項1記載の音声認識装置。
【請求項3】
前記音声認識手段は、前記探索において、前記探索木の各状態と並列にダミー状態を加えた探索木を使い、
前記信頼可と分類された時刻については前記ダミー状態以外の状態への遷移を行い、
前記信頼不可と分類された時刻については前記ダミー状態への遷移を行うことを特徴とする請求項1記載の音声認識装置。
【請求項4】
2地点で捉えられた第1と第2の音響信号を入力する入力手段と、
前記第1と第2の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出手段と、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成手段と、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出手段と、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出手段により検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する音源ストリーム抽出手段と、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類手段と、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離手段と、
前記音源ストリームの音声データのうち、前記信頼可否情報で信頼可とされた時刻の音声データから所定の特徴を抽出する特徴抽出手段と、
前記特徴と予め識別すべきクラス別に学習されているクラス特徴との類似度を計算する計算手段と、
前記類似度の最も高いクラス特徴のクラスを前記音声データのクラスであると認識する認識手段と、を具備したことを特徴とする音声認識装置。
【請求項5】
2地点で捉えられた第1と第2の音響信号を入力する入力ステップと、
前記第1と第2の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出ステップと、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成ステップと、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出ステップと、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出ステップにより検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する抽出ステップと、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類ステップと、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離ステップと、
文法情報に定められた文仮説を状態と遷移の探索木に展開し、前記音源ストリームの音声データから所定の音響特徴を抽出し、該音響特徴の系列に対する前記探索木の状態遷移経路の尤度を計算し、尤度の高い状態遷移経路を探索することで前記音源ストリームの言語的内容を認識する音声認識ステップとを具備し、
前記状態遷移経路の探索を前記信頼可否情報に基づいて制御することを特徴とする音声認識方法。
【請求項6】
2地点で捉えられた第1と第2の音響信号を入力する入力ステップと、
前記第1と第2の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出ステップと、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成ステップと、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出ステップと、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出ステップにより検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する音源ストリーム抽出ステップと、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類ステップと、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離ステップと、
前記音源ストリームの音声データのうち、前記信頼可否情報で信頼可とされた時刻の音声データから所定の特徴を抽出する特徴抽出ステップと、
前記特徴と予め識別すべきクラス別に学習されているクラス特徴との類似度を計算する計算ステップと、
前記類似度の最も高いクラス特徴のクラスを前記音声データのクラスであると認識する認識ステップと、を具備したことを特徴とする音声認識方法。
【請求項1】
2地点で捉えられた第1と第2の音響信号を入力する入力手段と、
前記第1と第2の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出手段と、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成手段と、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出手段と、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出手段により検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する抽出手段と、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類手段と、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離手段と、
文法情報に定められた文仮説を状態と遷移の探索木に展開し、前記音源ストリームの音声データから所定の音響特徴を抽出し、該音響特徴の系列に対する前記探索木の状態遷移経路の尤度を計算し、尤度の高い状態遷移経路を探索することで前記音源ストリームの言語的内容を認識する音声認識手段とを具備し、
前記状態遷移経路の探索を前記信頼可否情報に基づいて制御することを特徴とする音声認識装置。
【請求項2】
前記音声認識手段は、前記探索において、尤度に基づく枝刈りを伴うビームサーチを行い、
前記信頼可と分類された時刻については前記尤度を計算し、
前記信頼不可と分類された時刻については前記枝刈りを抑制することを特徴とする請求項1記載の音声認識装置。
【請求項3】
前記音声認識手段は、前記探索において、前記探索木の各状態と並列にダミー状態を加えた探索木を使い、
前記信頼可と分類された時刻については前記ダミー状態以外の状態への遷移を行い、
前記信頼不可と分類された時刻については前記ダミー状態への遷移を行うことを特徴とする請求項1記載の音声認識装置。
【請求項4】
2地点で捉えられた第1と第2の音響信号を入力する入力手段と、
前記第1と第2の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出手段と、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成手段と、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出手段と、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出手段により検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する音源ストリーム抽出手段と、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類手段と、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離手段と、
前記音源ストリームの音声データのうち、前記信頼可否情報で信頼可とされた時刻の音声データから所定の特徴を抽出する特徴抽出手段と、
前記特徴と予め識別すべきクラス別に学習されているクラス特徴との類似度を計算する計算手段と、
前記類似度の最も高いクラス特徴のクラスを前記音声データのクラスであると認識する認識手段と、を具備したことを特徴とする音声認識装置。
【請求項5】
2地点で捉えられた第1と第2の音響信号を入力する入力ステップと、
前記第1と第2の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出ステップと、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成ステップと、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出ステップと、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出ステップにより検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する抽出ステップと、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類ステップと、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離ステップと、
文法情報に定められた文仮説を状態と遷移の探索木に展開し、前記音源ストリームの音声データから所定の音響特徴を抽出し、該音響特徴の系列に対する前記探索木の状態遷移経路の尤度を計算し、尤度の高い状態遷移経路を探索することで前記音源ストリームの言語的内容を認識する音声認識ステップとを具備し、
前記状態遷移経路の探索を前記信頼可否情報に基づいて制御することを特徴とする音声認識方法。
【請求項6】
2地点で捉えられた第1と第2の音響信号を入力する入力ステップと、
前記第1と第2の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出ステップと、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成ステップと、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出ステップと、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出ステップにより検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する音源ストリーム抽出ステップと、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類ステップと、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離ステップと、
前記音源ストリームの音声データのうち、前記信頼可否情報で信頼可とされた時刻の音声データから所定の特徴を抽出する特徴抽出ステップと、
前記特徴と予め識別すべきクラス別に学習されているクラス特徴との類似度を計算する計算ステップと、
前記類似度の最も高いクラス特徴のクラスを前記音声データのクラスであると認識する認識ステップと、を具備したことを特徴とする音声認識方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【公開番号】特開2009−80309(P2009−80309A)
【公開日】平成21年4月16日(2009.4.16)
【国際特許分類】
【出願番号】特願2007−249648(P2007−249648)
【出願日】平成19年9月26日(2007.9.26)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成21年4月16日(2009.4.16)
【国際特許分類】
【出願日】平成19年9月26日(2007.9.26)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]