音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体

【課題】雑音が支配的になっている期間を音源定位過程で検出し、音声認識過程でこの期間の処理をうまく調整できるようにする。
【解決手段】２地点で捉えられた第１と第２の音響信号から周波数成分毎の位相差とパワーとを算出し、周波数成分毎の周波数と位相差とを座標値とする散布図を生成する。該散布図上で所定の直線性を示す周波数成分の配置を、周波数成分のパワーに応じた直線スコアとともに検出し、該直線スコアが所定の閾値以上を得た配置を音源の存在を示す直線として検出する。このような直線の情報及び直線スコア等より成る音源ストリームを抽出し、音源ストリームの時刻毎の直線スコアの高低に基づいて該音源ストリームの各時刻に対して信頼可否情報を付与する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は音声を認識する装置に関し、特に雑音環境下で目的音源を検出定位し、該目的音源の音声データを雑音から分離抽出してこれを認識する装置に係る。
【背景技術】
【０００２】
近年、ロボット用の聴覚研究の分野で、雑音環境下で複数の目的音源の数とその方向を推定し（音源定位）、各音源からの音声を分離抽出し（音源分離）、この分離音声を認識する（音声認識）ための方式が提案されている。
【０００３】
例えば、一対のマイクを用いて、拡散性雑音環境下で方向性のある音源（目的音源）の定位と音源音声の分離を行う方法が提案されている（例えば、特許文献１参照）。この方法は、２つのマイクで捉えた２つの音響信号をそれぞれフーリエ変換した周波数分解データから、両音響信号間の周波数毎の位相差を求め、これを周波数−位相差座標系にプロットした散布図を生成する。到達時間差の同じ周波数成分を同一音源に由来するものと看做した場合、これら周波数成分が散布図上で原点を通る直線の上に分布することに着目し、散布図上でハフ変換・ハフ投票を応用した直線検出を行うことで、音源の検出と方向の定位を行う。ハフ投票の得票値（スコアとも呼ぶ）が所定の閾値を越える直線が２本検出されれば、方向の異なる音源が２つあり、それぞれの直線の傾きから各音源がどの方向にあるかを知ることができる。さらに、各時刻で得られた直線を、その傾きに注目して時系列にグルーピングすることで目的音源ストリームと成し、その音源方向に指向性を与えたビームフォーミングで当該音源からの音声（目的音声）を抽出する。分離抽出された音声（分離音声）は音声認識され、当該目的音声の言語的情報が推定される。
【０００４】
この従来技術は空間中の局所領域から発せられる音声（方向性音源＝目的音源）の両マイクへの到達時間差に基づいて最初に各音源の存在を検出するとともにその方向を推定（音源定位）する。そして、各音源方向に指向性を与えたビームフォーミングによって各音源音声を他の音（他の方向性音源音声や拡散性の環境雑音）から分離抽出（音源分離）し、この分離音声を認識（音声認識）する。
【０００５】
しかしながら、複数の音源が同じ周波数の音を同時に発していると、フーリエ変換によって得られる周波数毎の振幅ベクトルは複素平面上で各音源音声の振幅ベクトルの合成ベクトルとなってしまうため、その周波数について位相差を求めても正しい到達時間差を表してはくれない。すなわち、このような周波数成分はいずれの音源方向にも当てはまらず、ビームフォーミングの際に欠落し、そのため、抽出された分離音声が歪んでしまう。もし、音声認識時に用いられる音響モデルがこの歪みを学習していないと、音声認識時の尤度計算において音響スコアが上がらず誤認識の原因となる。
【０００６】
この歪みの影響を抑制するために、スペクトル歪みの影響を受けた特徴量の成分をマスクして尤度計算に用いない音声認識方法が示されている（例えば、非特許文献１参照）。その際、音源分離過程で雑音推定を行い、その推定された雑音情報を用いてマスクを自動生成する。当該文献中にも記述されているように、この方法は「音源分離と音声認識を統合する」手法である。
【０００７】
また、人物が１つのフレーズを発話している最中であっても、その音圧には強弱があるため、弱い部分では発話音声が環境雑音に負けてしまい、抽出されたその期間の分離音声が観測できないことが起きる。このような場合、例えば静穏環境では聞こえるはずの発話内容の一部期間が雑音環境下で観測できなかったことになるため、この発話内容を文法情報に与えられた音声認識ではこの期間で解釈に失敗して誤認識を起こす危険性が高い。特に雑音強度が上がるほどこのような期間が長くなるため、その危険性が増すことになる。
【０００８】
発話中の音声の強弱変化を検出して利用した例として、入力音声中の無音らしさに応じて尤度計算を制御する方法が示されている（例えば、特許文献２参照）。その実施例中には、「・・・ビーム探索を用いるものであるが、無音区間においてビーム幅の絞り込みを行うことを特徴としている」との記載があり、各時刻において尤度の高い幾つかの仮説を残して枝刈りするビーム探索において、無音区間で残す仮説を減らすことで、無音区間での認識処理量を減らすことが記載されている。これは、無音区間にはそもそも発話音声の情報が無いので、その間での無駄な計算を減らそうというものである。また、無音区間か否かの判定方法として、（Ａ）入力音声のパワーが所定閾値より高い期間が継続するか否かで判定する方法と、（Ｂ）無音音響特徴と照合した音響スコアが、無音以外の音響特徴と照合した音響スコアよりも高い期間が継続するか否かで判定する方法の２通りが示されている。
【０００９】
一方、特許文献１の音源定位過程を応用すると、ハフ投票の得票値が各周波数成分のパワーに応じて増大するよう定めることができるので、方向毎の得票値の大小がその方向からの音源音声のパワーに呼応するようにでき、その結果、環境雑音が支配的になっている期間を、直線が検出できない、あるいは直線の得票値が小さいという現象で検出できる。そのため、強い環境音のせいで入力音声が無音どころか強い雑音に支配されている期間であっても、ある音源からの音声がこの環境音にまぎれて途切れがちであることを検出できようになる。特許文献２の「無音検出手段」にはその能力が無い。
【００１０】
また、音声認識過程ではこのような環境雑音が支配的になっている期間の処理をうまく調整できることが期待される。これは『音源分離と音声認識を統合する』とした非特許文献１に対して、『音源定位と音声認識を統合する』というアプローチに相当する。上述した従来技術はこの統合について示唆していない。
【００１１】
直線の検出については、周波数−位相差散布図上で直線を検出する手法が開示されている（例えば、特許文献３参照）。しかし、この手法は、散布図上で様々な傾きの直線を仮定して評価する点は特許文献１と同様であるが、方式に違いがある。特許文献３は、散布図上の周波数成分配置に対して最小二乗誤差となる直線を検出する方式であり、散布図上の各周波数成分と該直線との距離の二乗和として評価量（仮定された直線の得票値）を得ているため、特許文献１のようなパワーに応じた得票値となっていない。もし、得票値から雑音の支配的な期間を知りたければ、パワー（あるいは振幅）の関数としての得票値を求める方が都合が良い。
【特許文献１】特開２００６−２５４２２６号公報
【特許文献２】特開平１１−８５１８０号公報
【特許文献３】特開２００３−３３７１６４号公報
【非特許文献１】山本俊一他、“音源分離との統合によるミッシングフィーチャマスク自動生成に基づく同時発話音声認識”、日本ロボット学会誌、Ｖｏｌ．２５、Ｎｏ．１、２００７年１月１５日発行
【発明の開示】
【発明が解決しようとする課題】
【００１２】
本発明は上記の問題点及び考察に鑑みて成されたものであり、その目的とするところは、（１）雑音が支配的になっている期間を音源定位過程で検出し、（２）目的音源ストリームの分離音声を認識する際、雑音の悪影響を抑制した認識を行うことの可能な音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体を提供することである。
【課題を解決するための手段】
【００１３】
本発明の一観点に係る音声認識装置は、２地点で捉えられた第１と第２の音響信号を入力する入力手段と、前記第１と第２の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出手段と、前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成手段と、前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出手段と、一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出手段により検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する抽出手段と、前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類手段と、前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離手段と、文法情報に定められた文仮説を状態と遷移の探索木に展開し、前記音源ストリームの音声データから所定の音響特徴を抽出し、該音響特徴の系列に対する前記探索木の状態遷移経路の尤度を計算し、尤度の高い状態遷移経路を探索することで前記音源ストリームの言語的内容を認識する音声認識手段とを具備し、前記状態遷移経路の探索を前記信頼可否情報に基づいて制御することを特徴とする。
【発明の効果】
【００１４】
本発明によれば、（１）雑音が支配的になっている期間を音源定位過程で検出し、（２）目的音源ストリームの分離音声を認識する際、雑音の悪影響を抑制した認識を行うことができる。
【発明を実施するための最良の形態】
【００１５】
以下、本発明に係る音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体の実施形態を図面に従って説明する。
【００１６】
図１に本発明の一実施形態に係る音声認識装置の機能ブロックを示す。本実施形態に係る音声認識装置は、空間的に異なる位置に配置されたマイク１ａと１ｂと、音響信号入力部２と、音源ストリーム抽出分類部３と、音源分離部４と、語彙認識部５と、話者認識部６と、物音認識部７と、出力部８と、ユーザインタフェース部９とを有している。
【００１７】
マイク１ａと１ｂからの２つの振幅データは、音響信号入力部２を経由して音源ストリーム抽出分類部３に入力される。音源ストリーム抽出分類部３は、所定時間間隔（フレームシフト）で繰り返される離散的な時刻（フレーム）毎に、所定個数（フレーム長）の振幅データを先ずは（１）ＦＦＴ処理によって周波数分解し、（２）両入力の位相差を周波数成分毎に求める。また、このとき、両入力における各周波数成分のパワー値の例えば平均を当該周波数成分の代表パワー値として求める。
【００１８】
次に、音源ストリーム抽出分類部３は、（３）連続する所定フレーム分の周波数毎の位相差を周波数−位相差平面上の２次元散布図化し、（４）この２次元散布図から所定の直線をその直線スコアとともに検出する。検出された直線はある方向性音源（目的音源）の存在を示唆している。このとき直線近傍に分布する周波数成分は該目的音源を発した音声（音源音）のその時刻（フレーム）におけるスペクトルを近似しており、それら周波数成分の前記代表パワー値に基づいて算出される直線スコアは、当該音源音の総パワーの目安を与える。本実施形態では、この直線スコアをハフ投票の得票値によって算定する。また、この検出された直線の傾きθはマイク１ａと１ｂを結ぶ線分に対する目的音源の存在角度φ（目的音源の存在する円錐面の開き角度）と１対１の対応関係にある。そして、（５）直線の傾きθを角度−時間平面上に並べたデータ上で、所定範囲内の直線無検出期間と直線傾きぶれを許容して時間軸方向にグルーピングされる、前記直線無検出期間を含む所定期間以上の長さを持つ前記検出された直線の系列と、その傾きθの系列及びそこから計算される存在角度φの系列と、前記検出された直線の系列の存在期間（前記グルーピングの始端フレームと終端フレームで挟まれる期間）とを１つの目的音源から発せられる音声ストリームの情報（目的音源ストリーム）として検出する。
【００１９】
特に本実施形態に係る音源ストリーム抽出分類部３は、（６）前記目的音源ストリームの始終端で挟まれる各フレームについて、前記直線が当該目的音源ストリームにグルーピングされたフレームを信頼可、されなかったフレームを信頼不可と判定分類する。この信頼可否の別は当該目的音源ストリームの音源音の各時刻（各フレーム）における明瞭度を表している。
【００２０】
なお、上記（１）〜（５）の処理は、特許文献１に開示される技術によって実施可能である。
【００２１】
音源分離部４は、前記存在角度系列に基づいて入力音声データへのビームフォーミングを行うことで、当該目的音源ストリームの音声データ（目的音声データ）を環境雑音から分離する。
【００２２】
以上の処理によって、目的音源ストリームの音声データ（目的音声データあるいは分離音声データと呼ぶ）と、その各時刻（フレーム）における信頼可否の情報が得られる。信頼不可のフレームは、（ａ）強力な環境雑音に目的音声が負けてしまったか、（ｂ）目的音声が元々微弱もしくは無かったために、直線が明瞭に検出できなかった期間を表していると解釈できる。特に（ａ）の場合、例えば静穏環境では聞こえるはずの発声内容の一部期間が雑音環境下で観測できなかったことになるため、この発声内容を文法情報に与えられた従来の音声語彙認識では、この期間で解釈に失敗して誤認識を起こす危険性が高い。
【００２３】
同様に、音声話者認識や物音認識でも、雑音が支配的な期間の音声を認識しようとすれば正しく認識できない危険性が高い。
【００２４】
語彙認識部５は、前記目的音声データの言語的内容を認識する手段であり、文法情報に従って解釈するための尤度計算に際して、信頼可と分類されたフレームだけを尤度計算に用い、信頼不可と分類されたフレームで枝刈りをしないことで、誤認識の発生を抑制する。
【００２５】
話者認識部６は、前記目的音声データが誰の声であるかを認識する手段であり、信頼可と分類されたフレームだけを対象に認識を行うことで、誤認識の発生を抑制する。
【００２６】
物音認識部７は、前記目的音声データが何の物音であるかを認識する手段であり、信頼可と分類されたフレームだけを対象に認識を行うことで、誤認識の発生を抑制する。
【００２７】
出力部８は、前記目的音源ストリームの数、各目的音源ストリームの存在角度系列、前記目的音声データを認識して得た認識の結果とを少なくとも含む音源情報を生成出力する。
【００２８】
ユーザインタフェース部９は各種設定値の利用者への呈示、利用者からの設定入力受理、外部記憶装置への設定値の保存、外部記憶装置からの設定値の読み出し、及び各種処理結果の利用者への呈示を実行する。
【００２９】
以下、本実施形態に係る音声認識装置の各機能ブロックの動作を詳しく説明する。
【００３０】
（周波数成分毎の位相差から音源を推定するという基本概念）
マイク１ａとマイク１ｂは、空気などの媒質中に所定の距離をあけて配置された２つのマイクであり、異なる２地点での媒質振動（音波）をそれぞれ電気信号（音響信号）に変換するための手段である。以後、マイク１ａとマイク１ｂをひとまとめに扱う場合、これを「マイク対」と呼ぶことにする。
【００３１】
音響信号入力部２は、マイク１ａとマイク１ｂによる２つの電気信号（音響信号）を所定のサンプリング周波数Ｆｒで定期的にＡ／Ｄ変換することで、マイク１ａとマイク１ｂによる２つの音響信号のデジタル化された振幅データを時系列的に生成する手段である。この入力された振幅データを周波数成分毎の位相差に分解して解析することで、複数の音源が同時期に存在しても、各音源に特有の周波数成分については、２つのデータ間でそれぞれの音源方向に応じた位相差が観測されるため、もし周波数成分毎の位相差を方向を同じくするグループに分けることができれば、幅広い種類の音源について、幾つの音源が存在し、その各々がどちらの方向にあり、それぞれが主にどのような音声を発しており、その強さあるいはパワーがどれくらいかを把握できるはずである。
【００３２】
（音声ストリーム抽出分類部３）
以上の基本コンセプトを実現する音源ストリーム抽出分類部３の内部構成を図２に示す。音源ストリーム抽出分類部３は、周波数分解部３０１、位相差算出部３０２、散布図生成部３０３、投票部３０４、直線検出部３０５、時系列追跡部３０６、継続時間評価部３０７、フレーム分類部３０８より成る。
【００３３】
（周波数分解部３０１）
周波数分解部３０１は、マイク１ａと１ｂの捉えた音響信号を音響信号入力部２がデジタル化して生成した振幅データａとｂを入力として、それぞれを周波数成分に分解した周波数分解データａとｂを生成する。振幅データを周波数成分に分解する一般的な手法として高速フーリエ変換（ＦＦＴ）がある。代表的なアルゴリズムとしては、Ｃｏｏｌｅｙ−ＴｕｒｋｅｙＤＦＴアルゴリズムなどが知られている。
【００３４】
周波数分解部３０１は、音響信号入力部２による振幅データについて、ある時刻（Ｔ番目のフレーム）を起点として連続するＮ個の振幅データを抜き出してＦＦＴ処理を行うとともに、この抜き出し位置を所定のフレームシフト量Ｆｓずつずらしながら離散的な時刻毎（Ｔ＋１番目のフレーム、Ｔ＋２番目のフレーム、・・・）に繰り返す。この結果、入力された振幅データに対する周波数成分毎のパワー値と位相値とから成る周波数分解データが時系列的に生成される。
【００３５】
（位相差算出部３０２）
位相差算出部３０２は、周波数分解部３０１により得られた同時期の２つの周波数分解データａとｂとを比較して、同じ周波数成分毎に両者の位相値の差を計算して得たａｂ間位相差データを生成する。図３に示すように、ある周波数成分ｆｋの位相差ΔＰｈ（ｆｋ）は、マイク１ａにおける位相値Ｐｈ１（ｆｋ）とマイク１ｂにおける位相値Ｐｈ２（ｆｋ）の差を計算し、その値が｛ΔＰｈ（ｆｋ）：−π＜ΔＰｈ（ｆｋ）≦π｝に収まるように２πの剰余系として算定される。
【００３６】
（散布図生成部３０３）
散布図生成部３０３は、位相差算出部３０２により得られたａｂ間位相差データを元に、周波数とその位相差の組を所定の２次元ＸＹ座標系上の点として扱うための座標値を決定する手段である。ある周波数成分ｆｋの位相差ΔＰｈ（ｆｋ）に対応するＸ座標値ｘ（ｆｋ）とＹ座標値ｙ（ｆｋ）は、図４に示す式によって決定される。Ｘ座標値は位相差ΔＰｈ（ｆｋ）、Ｙ座標値は周波数成分番号ｋである。このような点群をＸＹ座標系にプロットしたものが散布図である。
【００３７】
（同一時間差に対する位相差の周波数比例性）
位相差算出部３０２によって、図３に示したように算出される周波数成分毎の位相差は、同一音源（同一方向）に由来するものどうしが同じ到達時間差を表しているはずである。このとき、ＦＦＴによって得られたある周波数の位相値及び両マイク間の位相差はその周波数の周期を２πとして算出された値なので、同じ時間であっても周波数が２倍になれば位相も２倍となる比例関係にある。これは位相差についても同様であり、同一時間差ΔＴに対する位相差は周波数に比例して大きくなる。同一音源から発せられてΔＴを共通にする各周波数成分の位相差を図４に示した座標値計算により２次元座標系上にプロットした散布図を生成すると、各周波数成分の位相差を表す座標点が直線状に並ぶ。ΔＴが大きいほど、すなわち両マイク間で音源までの距離が異なるほど、この直線の傾きは大きくなる。
【００３８】
（位相差の循環性）
但し、両マイク間の位相差がこの散布図の全域で周波数に比例するのは、解析対象となる最低周波数から最高周波数まで通して真の位相差が±πを逸脱しない場合に限られる。この条件はΔＴが、最高周波数（サンプリング周波数の半分）Ｆｒ／２［Ｈｚ］の１／２周期分の時間、すなわち１／Ｆｒ［秒］以上とならないことである。もし、ΔＴが１／Ｆｒ以上となる場合には、次に述べるように位相差が循環性を持つ値としてしか得られないことを考慮しなければならない。
【００３９】
手に入れることのできる周波数成分毎の位相値は複素座標系上の角度値として２π［ラジアン］の幅（本実施形態では−πからπの間の２πの幅）でしか得ることができない。このことは、その周波数成分における実際の位相差が両マイク間で１周期以上開いていても、周波数分解結果として得られる位相値からそれを知ることができないことを意味する。そのため、本実施形態では位相差を−πからπの間で得るようにしている。しかし、ΔＴに起因する真の位相差は、ここで求められた位相差の値に２πを加えたり差し引いたり、あるいはさらに４πや６πを加えたり差し引いたりした値である可能性がある。
【００４０】
これを模式的に示した散布図が図５である。周波数ｆｋの位相差ΔＰｈ（ｆｋ）が図中の黒丸１４０で表すように＋πであるとき、１つ高い周波数ｆｋ＋１の位相差は図中の白丸１４１で表すように＋πを超えている。しかしながら、計算された位相差ΔＰｈ（ｆｋ＋１）は、本来の位相差から２πを差し引いた、図中の黒丸１４２で表すように−πよりやや大きい値となる。さらに、図示はしていないが、その３倍の周波数でも同様の値を示すことになるが、これは実際の位相差から４πを差し引いた値である。このように位相差は周波数が高くなるにつれて２πの剰余系として−πからπの間で循環する。この例ように、ΔＴが大きくなると、ある周波数ｆｋ＋１から上では、白丸で表した真の位相差が黒丸で示したように反対側に循環してしまう。
【００４１】
本発明における音源の数と方向を推定する問題は、このような散布図上で、図示したような直線を検出することに帰着できる。また、音源毎のおおよその周波数成分を推定する問題は、検出された直線に近い位置にプロットされた周波数成分を選別することに帰着できる。そこで、本実施形態における散布図生成部３０３の出力する散布図データは、周波数分解部３０１による周波数分解データを使って周波数と位相差の関数として決定される点群とする。投票部３０４はこの散布図データとして与えられる点群配置から直線状の配置を図形として検出する。
【００４２】
（投票部３０４）
投票部３０４は、散布図生成部３０３によって（ｘ，ｙ）座標を与えられた各周波数成分に対して、後述するように直線ハフ変換を適用し、その軌跡をハフ投票空間に所定の方法で投票する手段である。ハフ変換については、岡崎彰夫、“はじめての画像処理”、工業調査会、２０００年１０月２０日発行の１００〜１０２ページに解説されている。
【００４３】
（直線ハフ変換）
２次元座標上の点ｐ（ｘ，ｙ）を通り得る直線は無数に存在するが、原点Ｏから各直線に下ろした垂線のＸ軸からの傾きをθ、この垂線の長さをρとして表現すると、１つの直線についてθとρは一意に決まり、ある点（ｘ，ｙ）を通る直線の取り得るθとρの組は、θρ座標系上で（ｘ，ｙ）の値に固有の軌跡（ρ＝ｘｃｏｓθ＋ｙｓｉｎθ）を描くことが知られている。この軌跡をハフ曲線と呼ぶ。また、このような、（ｘ，ｙ）座標値からそこを通り得る直線の（θ，ρ）の軌跡への変換を直線ハフ変換と云う。なお、直線が左に傾いているときθは正値、垂直のとき０、右に傾いているとき負値であるとし、また、θの定義域は｛θ：−π＜θ≦π｝を逸脱することはない。
【００４４】
ハフ曲線はＸＹ座標系上の各点について独立に求めることができるが、例えば３点ｐ１、ｐ２、ｐ３を共通に通る直線は、ｐ１、ｐ２、ｐ３に対応した３本の軌跡が交差する点の座標（θ０，ρ０）で定められる直線として求めることができる。多くの点を通る直線であればあるほど、その直線を表すθとρの位置を多くの軌跡が通過する。
【００４５】
（ハフ投票）
点群から直線を検出するため、ハフ投票という手法が使われる。これはθとρを座標軸とする２次元のハフ投票空間に各軌跡の通過するθとρの組を投票することで、ハフ投票空間の得票の大きい位置に多数の軌跡の通過するθとρの組、すなわち直線の存在を示唆させるようにする手法である。
【００４６】
投票部３０４は、次の条件を全て満たす周波数成分についてハフ投票を行う。この条件により、所定の周波数帯で所定閾値以上のパワーを持つ周波数成分のみが投票されることになる。
【００４７】
（投票条件１）周波数が所定範囲にあるもの（低域カットと高域カット）。
【００４８】
（投票条件２）当該周波数成分ｆｋの代表パワーＰ（ｆｋ）が所定閾値以上のもの。
【００４９】
投票条件１は、一般に暗騒音が乗っている低域をカットしたり、ＦＦＴ精度の落ちる高域をカットしたりする目的で使われる。この低域カットと高域カットの範囲は運用に合わせて調整可能である。最も広く周波数帯域を使う場合、低域カットは直流成分のみ、高域カットは最大周波数のみとする設定が適している。
【００５０】
暗騒音程度の非常に弱い周波数成分ではＦＦＴ結果の信頼性が高くないと考えられる。投票条件２は、このような信頼性の低い周波数成分をパワーで閾値処理することで投票に参加させないようにする目的で使われる。マイク１ａにおけるパワー値Ｐｏ１（ｆｋ）、マイク１ｂにおけるパワー値Ｐｏ２（ｆｋ）とすると、このとき評価される当該周波数成分ｆｋの代表パワーＰ（ｆｋ）は両者の平均として求めることとする。
【００５１】
また、投票部３０４は、投票に際して軌跡の通過位置に当該周波数成分ｆｋの代表パワーＰ（ｆｋ）の関数値を加算する。この投票方式は、通過する点が少なくても、パワーの大きい周波数成分を含んでいれば上位の極大値を得ることのできる方式であり、周波数成分が少なくてもパワーの大きい有力な成分を持つ直線（すなわち音源）を検出するのに適している。代表パワーＰ（ｆｋ）の関数値はＧ（Ｐ（ｆｋ））として計算される。図６にＧ（Ｐ（ｆｋ））の計算式を示す。中間パラメータＶの値はＰ（ｆｋ）の対数値ｌｏｇ_１０（Ｐ（ｆｋ））に所定のオフセットαを足した値として計算される。そしてＶが正であるときはＶ＋１の値を、Ｖがゼロ以下であるときには１を、関数Ｇ（Ｐ（ｆｋ））の値とする。このように最低でも１を投票することで、パワーの大きい周波数成分を含む直線（音源）が上位に浮上するだけでなく、多数の周波数成分を含む直線（音源）も上位に浮上するという多数決的な性質を併せ持たせることができる。
【００５２】
（複数ＦＦＴ結果をまとめて投票）
さらに、投票部３０４は、１回のＦＦＴ毎に投票を行うことも可能だが、一般的に連続するｍ回（ｍ≧１）の時系列的なＦＦＴ結果についてまとめて投票を行なうこととする。長期的には音源の周波数成分は変動するものであるが、このようにすることで、周波数成分の安定している適度に短期間の複数時刻のＦＦＴ結果から得られるより多くのデータを用いて、より信頼性の高いハフ投票結果を得ることができるようになる。なお、このｍは運用に合わせてパラメータとして設定可能とする。
【００５３】
（直線検出部３０５）
直線検出部３０５は、投票部３０４によって生成されたハフ投票空間上の得票分布を解析して有力な直線を検出する手段である。このとき、図５で述べた位相差の循環性など、本問題に特有の事情を考慮することで、より高精度な直線検出を実現する。
【００５４】
（ρ＝０の制約）
マイク１ａとマイク１ｂの信号が音響信号入力部２によって同相でＡ／Ｄ変換される場合、検出されるべき直線は必ずρ＝０、すなわちＸＹ座標系の原点を通る。したがって、音源の推定問題は、理想的には、ハフ投票空間上でρ＝０となるθ軸上の得票分布Ｓ（θ，０）から極大値を探索する問題に帰着するはずである。
【００５５】
（位相差循環を考慮した直線群の定義）
しかし、実際には位相差の循環性によって、原点を通る直線がΔρだけ平行移動してＸ軸上の反対側から循環してくる直線もまた同じ到達時間差を示す直線である。このように原点を通る直線を延長してＸの値域からはみ出した部分が反対側から循環的に現れる直線を、「循環延長線」、基準となった原点を通る直線を「基準直線」とそれぞれ呼ぶことにする。もし、基準直線がさらに傾いていれば、循環延長線はさらに数を増すことになる。ここで係数ａを０以上の整数とすると、到達時間差を同じくする直線は全て（θ０，０）で定義される基準直線をΔρずつ平行移動させた直線群（θ０，ａΔρ）となる。このとき、Δρは直線の傾きθの関数Δρ（θ）として図７に示す式で定義される符号付きの値である。
【００５６】
（位相差循環を考慮した極大位置検出）
位相差の循環性から、音源を表す直線は１つではなく基準直線と循環延長線から成る直線群として扱われるべきであることを述べた。このことは得票分布から極大位置を検出する際にも考慮されなければならない。
【００５７】
図８に、室内雑音環境下で２人の人物がマイク対の正面約２０度左と約４５度右から同時に発話した実際の音声を用いて処理したときの周波数成分のパワースペクトル、５回分（ｍ＝５）のＦＦＴ結果から得た周波数成分毎の位相差散布図、同じ５回分のＦＦＴ結果から得たハフ投票結果（得票分布）を示す。
【００５８】
マイク対で取得された振幅データは、周波数分解部３０１によって周波数成分毎のパワー値と位相値のデータに変換される。図中の２１０と２１１は、縦軸を周波数、横軸を時間として、周波数成分毎の対数パワー値を輝度表示（黒いほど大きい）したものである。縦の１ラインが１フレーム（１回のＦＦＴ結果）に対応し、これを時間経過（右向き）に沿ってグラフ化した図である。上段２１０がマイク１ａ、下段２１１がマイク１ｂからの信号を処理した結果であり、多数の周波数成分が検出されている。この周波数分解結果を受けて、位相差算出部３０２により周波数成分毎の位相差が求められ、散布図生成部３０３によりその（ｘ，ｙ）座標値が算出される。図中の２１２はある時刻２１３から連続５フレーム分のＦＦＴによって得た位相差をプロットした散布図である。この図で原点から左に傾いた基準直線２１４に沿う点群分布と右に傾いた基準直線２１５に沿う点群分布が認められる。投票部３０４により、このような分布を示している各点がハフ投票空間に投票されて得票分布２１６を形成する。
【００５９】
図９は位相差循環性を考慮して、Δρずつ離れた数箇所の得票値を合計して極大位置を探索した結果を示した図である。図９（ａ）に示す得票分布２４０は、図８における得票分布２１６上に、原点を通る直線をΔρずつ平行移動させたときのρの位置を破線２４２〜２４９で表示したものである。このとき、θ軸２４１と破線２４２〜２４５、及びθ軸２４１と破線２４６〜２４９はそれぞれΔρ（θ）の自然数倍で等間隔に離れている。なお、直線がＸの値域を越えずに散布図の天井まで抜けることが確実なθ＝０には破線を表示していない。
【００６０】
あるθ０の得票Ｈ（θ０）は、θ＝θ０の位置で縦に見たときのθ軸２４１上の得票と破線２４２〜２４９上の得票の合計値、すなわちａを０以上の整数とした、Ｈ（θ０）＝Σ｛Ｓ（θ０，ａΔρ（θ０））｝として計算される。この操作はθ＝θ０となる基準直線とその循環延長線の得票を合計することに相当する。この得票分布Ｈ（θ）を棒グラフにしたものが図９（ｂ）中の２５０である。この得票分布２５０からは同図９（ｂ）の２５１に示す１０個の極大位置が検出される。このうち、極大位置２５２と２５３が、マイク対の正面約２０度左からの音声を検出した直線群（極大位置２５３に対応する、図９（ｃ）に示す基準直線２５４と循環延長線２５５）と、マイク対の正面約４５度右からの音声を検出した直線群（極大位置２５２に対応する、同図９（ｃ）に示す基準直線２５６と循環延長線２５７と２５８）に対応している。このようにΔρずつ離れた箇所の得票値を合計して極大位置を探索することで、傾きの小さい直線から傾きの大きい直線まで安定に検出する。そして、所定閾値以上の得票値を得た極大位置（直線）を選別することで、音源らしき候補（音源候補）を抽出することができる。
【００６１】
（存在角度推定）
さらに、直線検出部３０５は、検出された直線群毎のθ値から各直線群に対応した音源候補の存在範囲を計算する。マイク間距離に対して音源までの距離が十分遠い場合、音源の存在範囲は２つのマイク１ａとマイク１ｂを結ぶ線分（マイク対のベースラインと呼ぶ）に対してある角度（存在角度）を持った円錐面となる。
【００６２】
マイク１ａとマイク１ｂの到達時間差ΔＴは±ΔＴｍａｘの範囲で変化し得る。マイク対の正面から入射する場合、ΔＴは０となり、音源の存在角度φは正面を基準にした場合０°となる。また、音声がマイク対の右真横、すなわちマイク１ｂ方向から入射する場合、ΔＴは＋ΔＴｍａｘに等しく、音源の存在角度φは正面を基準にして右回りを正として＋９０°となる。同様に、音声がマイク対の左真横、すなわちマイク１ａ方向から入射する場合、ΔＴは−ΔＴｍａｘに等しく、存在角度φは−９０°となる。このように、ΔＴを音が右から入射するとき正、左から入射するとき負となるように定義する。以上を踏まえて一般的な条件を考えると、符号も含めて、存在角度はφ＝ｓｉｎ^−１（ΔＴ／ΔＴｍａｘ）として計算することができる。
【００６３】
ΔＴｍａｘはΔＴｍａｘ＝Ｌ÷Ｖｓ［ｓｅｃ］で求められる、マイク間距離Ｌ［ｍ］を音速Ｖｓ［ｍ／ｓｅｃ］で割った値である。このとき、音速Ｖｓは気温ｔ［℃］の関数として、Ｖｓ＝３３１．４＋０．６０４ｔ［ｍ／ｓｅｃ］で近似できることが知られている。今、直線検出部３０５によって傾きθの直線が検出されているとする。この直線が右に傾いているとすればθは負値である。ｙ＝ｋ（周波数ｆｋ）のとき、この直線で示される位相差ΔＰｈはｋとθの関数としてΔＰｈ（θ，ｋ）＝ｋ・ｔａｎ（−θ）で求めることができる。このときΔＴ［ｓｅｃ］はΔＴ＝（ΔＰｈ（θ，ｋ）／２π）×（１／ｆｋ）で示すように、位相差ΔＰｈ（θ，ｋ）の２πに対する割合に周波数ｆｋの１周期（１／ｆｋ）［ｓｅｃ］を乗じた時間となる。θが符号付きの量なので、ΔＴも符号付きの量となる。すなわち、音が右から入射する（位相差ΔＰｈが正値となる）とき、θは負値となる。また、音が左から入射する（位相差ΔＰｈが負値となる）とき、θは正値となる。そのために、式ではθの符号を反転させている。なお、実際の計算においては、ｋ＝１（直流成分ｋ＝０のすぐ上の周波数）で計算を行えば良い。
【００６４】
（時系列追跡部３０６）
上述した通り、投票部３０４によるハフ投票毎に、直線検出部３０５により直線群が求められる。ハフ投票は連続するｍ回（ｍ≧１）のＦＦＴ結果についてまとめて行われる。この結果、直線群はｍフレーム分の時間を周期（これを「直線検出周期」と呼ぶことにする）として時系列的に求められることになる。また、直線群のθは円錐面の開き角度（存在角度）φと１対１に対応しているので、音源が静止していても移動していても、安定な音源に対応しているθ（あるいはφ）の時間軸上の軌跡は連続して変化すると仮定される。一方、直線検出部３０５により検出された直線群の中には、閾値の設定具合によって背景雑音に対応する直線群（これを「雑音直線群」と呼ぶことにする）が含まれていることがある。しかしながら、このような雑音直線群のθ（あるいはφ）の時間軸上の軌跡は連続していないか、連続していても短いことが期待できる。
【００６５】
時系列追跡部３０６は、このように直線検出周期毎に求められるθ（あるいはφ）を時間軸上で連続とみなせるグループにまとめることで、θ（あるいはφ）の時間軸上の軌跡（音源ストリーム候補と呼ぶ）を求める手段である。図１０を参照し、θを用いた場合のグルーピングの方法を説明する。
【００６６】
（１）音源ストリーム候補バッファを用意する。音源ストリーム候補バッファは音源ストリーム候補データの配列である。１つの音源ストリーム候補データＫｄは、その開始時刻Ｔｓと、終了時刻Ｔｅと、当該音源ストリーム候補を構成する直線群データＬｄの配列（直線群リスト）と、ラベル番号Ｌｎとを保持することができる。１つの直線群データＬｄは、当該音源ストリーム候補を構成する１つの直線群のθ値及びρ値（直線検出部３０５による）と、この直線群に対応した音源の存在角度φ値（直線検出部３０５による）と、直線スコア（直線検出部３０５による）と、それらが取得された時刻とから成る一群のデータである。なお、上述したように、位相差の循環性から、音源を表す直線は１つではなく基準直線と循環延長線から成る直線群として扱われるべきであることから、直線群データＬｄの配列における１つの要素は、１つの直線群であるとしている。あえて位相差の循環性を考慮しない場合は、上記配列の要素は１つの直線ということになる。また、音源ストリーム候補バッファは最初空である。また、ラベル番号を発行するためのパラメータとして新規ラベル番号を用意し、初期値を０に設定する。
【００６７】
（２）あるフレームＴにおいて、新しく検出された直線の傾きθの各々（以後θｎとし、図中では黒丸３２３と黒丸３２４で示される２つが得られたものとする）について、音源ストリーム候補バッファに保持されている音源ストリーム候補データＫｄ（図中の矩形３２１と３２２）の直線群データＬｄ（図中の矩形内に配置された黒丸）を参照し、そのθ値とθｎの差（図中の３２５と３２６）が所定角度閾値Δθ（角度方向ギャップの許容範囲を与える）内にあり、かつその取得時刻の差（図中の３２７と３２８）が所定時間閾値Δｔ（時間方向ギャップの許容範囲を与える）内にあるＬｄを持つ音源ストリーム候補データを検出する。この結果、黒丸３２３については音源ストリーム候補データ３２１が検出されたが、黒丸３２４については最も近い音源ストリーム候補データ３２２も上記条件を満たさなかったとする。
【００６８】
（３）黒丸３２３のように、もし、（２）の条件を満たす音源ストリーム候補データが見つかった場合は、θｎはこの音源ストリーム候補と同一の音源ストリーム候補を成すものとして、このθｎとそれに対応したφ値とρ値と現時刻Ｔとを当該音源ストリーム候補データＫｄの新たな直線群データとして直線群リストに追加し、現時刻Ｔを当該音源ストリーム候補データの新たな終了時刻Ｔｅとする。このとき、複数の音源ストリーム候補データが見つかった場合には、それら全てが同一の音源ストリーム候補を成すものとして、最も若いラベル番号を持つ音源ストリーム候補データに統合して、残りを音源ストリーム候補バッファから削除する。統合された音源ストリーム候補データの開始時刻Ｔｓは統合前の各音源ストリーム候補データの中で最も早い開始時刻であり、終了時刻Ｔｅは統合前の各音源ストリーム候補データの中で最も遅い終了時刻であり、直線群リストは統合前の各音源ストリーム候補データの直線群リストの和集合である。この結果、黒丸３２３は音源ストリーム候補データ３２１に追加される。
【００６９】
（４）黒丸３２４のように、もし、（２）の条件を満たす音源ストリーム候補データが見つからなかった場合は、新規の音源ストリーム候補の始まりとし、音源ストリーム候補バッファの空き部分に新しい音源ストリーム候補データを作成し、開始時刻Ｔｓと終了時刻Ｔｅを共に現時刻Ｔとし、θｎとそれに対応したφ値とρ値と現時刻Ｔとを直線群リストの最初の直線群データとし、新規ラベル番号の値をこの音源ストリーム候補データのラベル番号Ｌｎとして与え、新規ラベル番号を１だけ増加させる。なお、新規ラベル番号が所定の最大値に達したときは、新規ラベル番号を０に戻す。この結果、黒丸３２４は新たな音源ストリーム候補データとして音源ストリーム候補バッファに登録される。
【００７０】
（５）もし、音源ストリーム候補バッファに保持されている音源ストリーム候補データで、最後に更新されてから（すなわちその終了時刻Ｔｅから）現時刻Ｔまでに前記所定時間Δｔを経過したものがあれば、追加すべき新たなθｎが見つからなかった、すなわちグルーピングを終えた音源ストリーム候補として、この音源ストリーム候補データを次段の継続時間評価部３０７に出力する。図の例では音源ストリーム候補データ３２２がこれに該当する。
【００７１】
（継続時間評価部３０７）
継続時間評価部３０７は、時系列追跡部３０６により出力された、グルーピングを終えた音源ストリーム候補データの開始時刻と終了時刻から当該音源ストリーム候補の継続時間を計算し、この継続時間が所定閾値を越えるものを音源音に基づく（安定な）音源ストリーム候補と認定し、それ以外を雑音に基づく（不安定な）音源ストリーム候補と認定する。音源音に基づく音源ストリーム候補データを音源ストリーム情報と呼ぶことにする。音源ストリーム情報には、当該音源ストリームの開始時刻Ｔｓ、終了時刻Ｔｅ、音源方向を表すθとρとφと直線スコアの時系列データが含まれる。
【００７２】
なお、直線検出部３０５による直線群の数が音源らしき候補の数を与えるが、そこには雑音源も含まれている。一方、継続時間評価部３０７による音源ストリーム情報の数は、雑音に基づくとされたものを除いた、信頼できる音源の数を与えてくれると考えられる。
【００７３】
（フレーム分類部３０８）
図１０の例において、黒丸３２３は音源ストリーム候補データ３２１と同じ音源から発せられている一連の音声を表しているデータであると判断されたわけであるが、このとき、音源ストリーム候補データ３２１の終端と黒丸３２３の間には直線の検出されていないギャップ期間が存在していた。このギャップ期間を雑音の支配的な期間であると考え、その間の分離音声は信頼できるレベルにないだろうと仮定する。その判定を行うのがフレーム分類部３０８である。
【００７４】
フレーム分類部３０８は、継続時間評価部３０７により出力された音源ストリーム情報の各フレームに対して、次の２つの信頼可否判別方式のいずれかを用いて、信頼可否の別を表すフラグを与える。なお、いずれの方式を使用するかは運用に合わせて設定可能である。
【００７５】
（信頼可否判定方式１）
図１１に例示するように、時間軸を等間隔に刻んだ離散的な時刻をフレーム（図中３３１）とする。このとき、音源ストリーム３３２には自身に属する直線を検出できたフレーム（図中黒丸のある時刻）と検出できなかったフレーム（図中の３３３、３３４、３３５）とがある。直線を検出できたフレームには直線スコア（図中の３４６、３４７、３４８のグラフ）が与えられている。信頼可否判定方式１は、音源ストリーム情報毎に、直線を検出できたフレームに信頼可のフラグを与え、そうでないフレームに信頼不可のフラグを与える。
【００７６】
（信頼可否判定方式２）
図１２に例示するように、図１１と同じ音源ストリーム３３２がある。直線検出周期毎に行われるハフ投票により、各フレームには得票分布Ｈ（θ）が得られている。図では、４つのフレーム（時刻）における得票分布を図中の３３９〜３４２に模式的に示す。信頼可否判定方式２は、直線の検出できなかったフレーム（図中の３３３、３３４、３３５）の直線傾きθを、θの時間連続性を仮定して、直線の検出できた前後のフレームから例えば線形補間で内挿して推定する。推定されたθを図中の白丸３３６、３３７、３３８で示す。そして、この内挿によって得たθ値に対応する時刻の得票分布Ｈ（θ）を読み出す。このとき、直線の検出できなかったフレーム３３３の傾き（内挿で求められた）をθｅ（図中の白丸３３６）とすれば、その時刻の得票分布Ｈ（θ）（図中の３４０）から得票値Ｈ（θｅ）（図中の３４３）を読み出して当該フレーム３３３の直線スコアとする。このようにしてギャップ期間の直線スコアが得られ、直線の検出できたフレームの直線スコアと合わせてストリーム全域にわたる直線スコア（図中の３４４）が出揃う。そして、所定閾値（図中の３４５）以上の直線スコアを得たフレームに信頼可のフラグを与え、それ以外のフレームには信頼不可のフラグを与える。このようにすることで、直線検出時の閾値とは別の閾値によって、信頼可否の情報を生成することができる。
【００７７】
（音源分離部４）
音源分離部４の内部構成を図１３に示す。音源分離部４は、同相化部３７１とビームフォーミング部３７２より成る。
【００７８】
（同相化部３７１）
同相化部３７１は、音源ストリームの存在角度データを参照することで、当該ストリームの音源方向（存在角度）φの時間推移を得て、φの最大値φｍａｘと最小値φｍｉｎから中間値φｍｉｄ＝（φｍａｘ＋φｍｉｎ）／２を計算して幅φｗ＝φｍａｘ−φｍｉｄを求める。そして、当該音源ストリーム情報の元となった２つの周波数分解データａとｂの時系列データを、当該ストリームの開始時刻Ｔｓより所定時間遡った時刻Ｔｓ’から終了時刻Ｔｅより所定時間経過した時刻Ｔｅ’まで抽出して、中間値φｍｉｄで逆算される到達時間差をキャンセルするように補正することで粗く同相化する。
【００７９】
（ビームフォーミング部３７２）
同相化部３７１によって粗く同相化された２つの周波数分解データａとｂの時系列データは、あたかもマイク対の正面方向から入射したかのような信号となっている。但し、各時刻においては正確に正面０°というわけではなく、±φｗの範囲で変化している。ビームフォーミング部３７２は、この粗く同相化された２つの周波数分解データａとｂの時系列データを、正面０°に対して±β・φｗのマージン（βは１以上の適当な係数で、例えば１．１）を与えた角度の範囲を追尾範囲とする「話者追尾型適応アレイ」に掛けることで、当該ストリームの音声データの音源分離を高精度に行う。天田皇他、“音声認識のためのマイクロホンアレー技術”、東芝レビュー２００４、ＶＯＬ．５９、ＮＯ．９、２００４年には、話者追尾型適応アレイの一構成例が開示されている。
【００８０】
（語彙認識部５）
語彙認識部５の内部構成を図１４に示す。音響特徴抽出部２６１は、入力される音源ストリームの分離音声から所定の音響特徴（例えばＭＦＣＣ、ΔＭＦＣＣなど）の時系列データを抽出する。これを入力音響特徴と呼ぶことにする。音響特徴照合部２６２は、音響モデルデータベース２６３に記憶されている音響モデルと前記入力音響特徴とを照合し、入力音響特徴列を所定の音素記号列（入力系列）データに変換する。最尤文仮説探索部２６４は、文法・言語モデルデータベース２６５に記憶されている文法情報と言語モデルから文仮説を記述したＨＭＭ（隠れマルコフモデル）を生成し、前記入力系列を最も高い確率（尤度）で出力する文仮説をＨＭＭ上で探索して出力する。出力される文仮説（最尤文仮説）が前記音源ストリーム分離音声の言語的内容を認識した結果となる。
【００８１】
（音響特徴照合部３６２）
音響モデルデータベース３６３に記憶される音響モデルとは、各音素についての標準音響特徴とその音素記号を組にした情報である。なお、日本語においてどのような音素を擁しておくべきかが、鹿野清宏他、“音声認識システム”、オーム社出版局、２００１年５月１５日発行の４５ページに音節表として示されている。
【００８２】
音響特徴照合部３６２は、分離音声データから生成される入力音響特徴と音響モデルに記述される標準音響特徴とを照合して、その類似度（音響スコア）を計算する。そして、最も類似した上位Ｎ位（Ｎベスト）までの標準音響特徴の音素記号とその音響スコアを出力する。この結果、入力音響特徴列は音素記号列に変換されることになる。しかしながら、入力音響特徴列には信頼可フレームと信頼不可フレームのデータがある。このとき、信頼不可フレームのデータは目的音声よりも雑音の方が支配的になっているため、その期間の入力音響特徴が適切な音素記号に対応付けられる可能性は低い。そこで、音響特徴照合部３６２は、信頼不可フレームの入力音響特徴を標準音響特徴と照合する代わりに、これに所定のダミー音素記号とダミー音響スコアを対応付ける。この結果、信頼不可フレームでの照合処理を省略して計算コストを節約する。よって、音響特徴照合部３６２から入力状態系列データとして出力されるものは、ダミー音素記号を含む音素記号列データとなる。
【００８３】
（最尤文仮説探索部３６４）
文は１以上の単語から成るものとし、文法情報には発話に出現すると想定される単語とその連結関係が定義されている。各単語は１以上の音素から成るものとし、よって単語と文はそれぞれ１以上の音素の連結された音素列と看做すことができるわけである。
【００８４】
ＨＭＭは、状態と、状態間の遷移（同一状態への遷移も含む）から成り、状態にはその状態を取り得る確率（出力確率）を、遷移にはその遷移の起こり得る確率（遷移確率）をそれぞれ与えることで確率過程をモデル化する。このとき、状態を音素に対応させると、音素列である単語は所定の状態が連鎖したＨＭＭ（単語ＨＭＭ）で記述できる。そして、文は所定の単語ＨＭＭが連鎖したより大きなＨＭＭで記述できる。このとき、予め大量の例文（コーパス）から、各音素の次にどの音素が続くのか（バイフォン、トライフォン）、各単語の次にどの単語が続くのか（バイグラム、トライグラム）を確率で表した言語モデルを利用してＨＭＭの遷移確率を設定することができる。
【００８５】
初期状態をシンボル的な文頭無音（ＳｉｌＢ）として、可能な文を構成する単語列を木構造に展開すると、木の枝葉の終端に配置されるこれもシンボル的な文末無音（ＳｉｌＥ）に達した最終状態までの経路で決まる音素列が文法情報で定義される可能な文（文仮説）を表す。
【００８６】
分離音声は入力系列としての音素記号列に変換されている。最尤文仮説探索部３６４は、文法情報から生成されるＨＭＭ上のどの文仮説がこの入力系列を最も良く説明できるかを探索する。この探索にはビームサーチを用いる。ビームサーチはその時点で有望な幾つかの仮説を残し、あまり有望でない残りの仮説を破棄しながら探索を進める手法である。幾つの仮説を残すかという基準を「ビーム幅」と呼び、仮説の破棄作業を「枝刈り」と呼ぶ。
【００８７】
入力音素記号列の先頭の音素記号（Ｎベストなので最大Ｎ個ある）と同じ音素記号に対応する状態を、ＨＭＭ上の初期状態から遷移可能な全ての状態の中で探索する。同じ音素記号に対応する遷移可能な状態が見つかると、その出力確率をその音素の音響スコア、初期状態からその状態への遷移確率を言語スコアとして、音響スコアと言語スコアの積をこの遷移経路の尤度とする。そして、尤度で上位Ｍ位までを残して他の経路を破棄（枝刈り）する。
【００８８】
入力音素記号列の次の音素記号（Ｎベストなので最大Ｎ個ある）についても、枝刈りで残った状態から次に遷移可能な全ての状態の中で、同じ音素記号に対応する状態を探索する。そのような状態が見つかると、同様に音響スコアと言語スコアが定められ、その積をそこに至った遷移経路のこれまでの尤度に掛けて新しい尤度とする。そして、同様に新しい尤度で上位Ｍ位までを残して経路を枝刈りする。
【００８９】
以上の処理を終端に達するまで繰り返し、終端到達時点で最も尤度の高い遷移経路を求め、その遷移経路が辿った単語列を分離音声データの言語的解釈、すなわち認識結果とする。
【００９０】
なお、確率を対数化して扱うと、確率の積や尤度の積を全て足し算で行うことができる。また、遷移確率を全て１として、尤度を音響スコアにのみ依存させることも可能である。また、認識後の後処理のために、最終的な尤度で上位Ｋ位までの遷移経路を認識結果（の候補）として出力することも可能である。
【００９１】
以上のようにして認識結果が得られるわけだが、入力系列にはダミー音素記号が含まれている。最尤文仮説探索部３６４は、次の２つの方式のいずれかを使ってダミー音素記号を処理する。なお、どの方式を利用するかは設定により変更可能であるものとする。
【００９２】
（ダミー対応方式１：枝刈り停止、尤度計算停止）
この方式では、最尤文仮説探索部３６４は、ダミー音素記号に遭遇すると、現時点で有効な状態から次に遷移可能な全ての状態への遷移を枝刈りせずに残す。このとき、残された遷移経路の尤度を更新しない。すなわち、信頼可と分類されたフレームだけを尤度計算に用い、信頼不可と分類されたフレームで枝刈りをしないのである（枝外りの抑制）。このようにすることで、元々発話のない無音やポーズと異なり、発話の途中で目的音声が雑音にまぎれてしまっても、その期間を乗り越えて尤度計算を行いながら認識処理を継続することができるようになる。このように、仮に信頼不可期間が無音区間と偶然一致していたとしても、その期間で枝刈りをしないことが、特許文献２と異なる点である。この相違は、本発明が信頼不可として検出しようとする期間が、目的音声のない実際に無音となっている期間だけでなく、目的音声が存在し、それが雑音にまぎれて聞き取りにくくなっている期間をも包含するからである。次に目的音声が聞こえ始めたときには、発話はずっと先に進んでしまっている、という事態への対処である。
【００９３】
（ダミー対応方式２：ダミー音素状態の挿入）
この方式では、最尤文仮説探索部３６４は、ＨＭＭ上の全ての遷移先と並列にダミー音素に対応した状態への遷移を挿入する。ダミー音素記号に遭遇すると、現時点で有効な状態からダミー音素状態への遷移が起こる。ダミー音素状態の出力確率（音響スコア）を１に、そこへの遷移確率（言語スコア）にも１を入れておくことで、遷移経路の尤度は変更されない。すなわち、ダミー音素を加味したＨＭＭを生成しておくだけで、後の計算は全て通常通りに行うことができ、ダミー対応方式１のような例外処理を必要としない。ただし、ダミー音素状態の挿入によりＨＭＭの規模が膨らむので、この方式は小規模な文法情報に対して用いると良い。
【００９４】
なお、音響特徴照合部３６２が信頼不可フレームにダミー音素記号を対応付けるのではなく、最尤文仮説探索部３６４が直接信頼可否情報を参照して上述した例外処理（ダミー対応方式１）を行うようにすることも可能である。
【００９５】
（話者認識部６）
話者認識部６は、例えばＡさんの声であるなど、入力される音源ストリームの分離音声が誰の声かを認識する。そのための話者認識部６の内部構成を図１５に示す。音響特徴抽出部２７１は、入力される音源ストリームの分離音声のうち、信頼可フレームの音声のみから所定の音響特徴（例えばフォルマントなど）の時系列データを抽出する。これを話者認識用の入力音響特徴と呼ぶことにする。音響特徴照合部２７２は、標準話者特徴データベース２７３に記憶されている話者毎の話者認識用の標準音響特徴と前記話者認識用の入力音響特徴とを照合し、話者認識用の入力音響特徴列全域にわたる類似度の平均を話者毎に計算する。この平均類似度が所定閾値以上で最大となる話者を当該分離音声の発話者として認定し、その話者ＩＤを出力する。もし、閾値以上の平均類似度が得られなければ、当該分離音声の話者は不明であることを表す特別なＩＤを出力する。
【００９６】
（物音認識部７）
物音認識部７は、例えば「ガラスの割れる音である」など、入力される音源ストリームの分離音声が何の物音であるかを認識する。そのための物音認識部７の内部構成を図１６に示す。音響特徴抽出部２８１は、入力される音源ストリームの分離音声のうち、信頼可フレームの音声のみから所定の音響特徴（例えばエンベロープや対数パワースペクトルなど：例えば、ガラスの割れる音は時間方向に見れば振幅が減少していく減衰性のエンベロープを示し、その対数パワースペクトルは白色に近い）の時系列データを抽出する。これを物音認識用の入力音響特徴と呼ぶことにする。音響特徴照合部２８２は、標準物音特徴データベース２８３に記憶されている物音毎の物音認識用の標準音響特徴と前記物音認識用の入力音響特徴とを照合し、物音認識用の入力音響特徴列全域にわたる類似度の平均を物音毎に計算する。この平均類似度が所定閾値以上で最大となる物音を当該分離音声の正体として認定し、その物音ＩＤを出力する。もし、閾値以上の平均類似度が得られなければ、当該分離音声の正体は不明であることを表す特別なＩＤを出力する。
【００９７】
（出力部８）
出力部８は、音源の数、各音源の空間的な存在範囲（円錐面を決定させる存在角度φ）、前記音源を発した音声の時間的な存在期間（Ｔｓ、Ｔｅ）、前記音源毎の分離音声、前記分離音声の言語的内容、前記分離音声の話者の別、前記分離音声の物音の別、の少なくとも１つを含む音源情報を出力する手段である。
【００９８】
（ユーザインタフェース部９）
ユーザインタフェース部９は、上述した音声認識処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、設定内容の外部記憶装置への保存と外部記憶装置からの読み出しを実行したり、図８や図９に示した（１）マイク毎の周波数成分の表示、（２）散布図の表示、（３）各種得票分布の表示、（４）極大位置の表示、（５）散布図上の直線群の表示、図１０に示した（６）音源ストリーム候補データの表示、のように各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化するための手段である。このようにすることで、利用者が本実施形態に係る音声認識装置の働きを確認したり、所望の動作を行ない得るように調整したり、以後は、調整済みの状態で本装置を利用したりすることが可能になる。
【００９９】
（処理の流れ図）
図１７に本実施形態に係る音声認識装置における処理の流れを示す。本処理は、初期設定処理ステップＳ１と、音響信号入力処理ステップＳ２と、音源ストリーム抽出分類処理ステップＳ３と、音源分離処理ステップＳ４と、語彙認識処理ステップＳ５と、話者認識処理ステップＳ６と、物音認識処理ステップＳ７と、出力処理ステップＳ８と、終了判断処理ステップＳ９と、確認判断処理ステップＳ１０と、情報呈示・設定受理処理ステップＳ１１と、終了処理ステップＳ１２とから成る。
【０１００】
初期設定処理ステップＳ１は、ユーザインタフェース部９における処理の一部を実行する処理ステップであり、音声認識処理に必要な各種設定内容を外部記憶装置から読み出して、装置を所定の設定状態に初期化する。
【０１０１】
音響信号入力処理ステップＳ２は、音響信号入力部２における処理を実行する処理ステップであり、空間的に同一でない２つの位置で捉えられた２つの音響信号を入力する。
【０１０２】
音源ストリーム抽出分類処理ステップＳ３は、音源ストリーム抽出分類部３における処理を実行する処理ステップであり、（１）前記音響信号入力処理ステップＳ２による２つの入力音響信号をそれぞれ周波数分解し、（２）両入力音響信号の周波数毎の位相差値を算出し、該周波数毎の位相差値を、周波数をＹ軸、位相差値をＸ軸とするＸＹ座標系上の散布図データを生成し、（３）該散布図データから所定の直線を検出し、（４）検出された直線の情報に基づいて、前記音響信号の発生源たる音源の数、各音源の空間的な存在範囲、前記各音源を発した音声の時間的な存在期間をデータ化し、（５）該存在期間の各時刻を信頼可あるいは信頼不可と分類し、これらの情報を音源ストリーム情報として出力する。
【０１０３】
音源分離処理ステップＳ４は、音源分離部４における処理を実行する処理ステップであり、音源ストリーム情報に基づいて各音源の音声を分離抽出する。
【０１０４】
語彙認識処理ステップＳ５は、語彙認識部５における処理を実行する処理ステップであり、各音源の分離抽出音声の言語的意味を認識する。
【０１０５】
話者認識処理ステップＳ６は、話者認識部６における処理を実行する処理ステップであり、各音源の分離抽出音声の発話者の別を認識する。
【０１０６】
物音認識処理ステップＳ７は、物音認識部７における処理を実行する処理ステップであり、各音源の分離抽出音声が何の物音であるかを認識する。
【０１０７】
出力処理ステップＳ８は、出力部８における処理を実行する処理ステップであり、前記音源ストリーム情報や前記音声認識の結果を出力する。
【０１０８】
終了判断処理ステップＳ９は、ユーザインタフェース部９における処理の一部を実行する処理ステップであり、利用者からの終了命令の有無を検査して、終了命令が有る場合には終了処理ステップＳ１２へ（左分岐）、無い場合には確認判断処理ステップＳ１０へ（上分岐）と処理の流れを制御する。
【０１０９】
確認判断処理ステップＳ１０は、ユーザインタフェース部９における処理の一部を実行する処理ステップであり、利用者からの確認命令の有無を検査して、確認命令が有る場合には情報呈示・設定受理処理ステップＳ１１へ（左分岐）、無い場合には音響信号処理ステップＳ２（上分岐）と処理の流れを制御する。
【０１１０】
情報呈示・設定受理処理ステップＳ１１は、利用者からの確認命令を受けて実行される、ユーザインタフェース部９における処理の一部を実行する処理ステップであり、音声認識処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、保存命令による設定内容の外部記憶装置への保存、読み出し命令による設定内容の外部記憶装置からの読み出しを実行したり、各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化することで、利用者が音声認識処理の動作を確認したり、所望の動作を行ない得るように調整したり、以後調整済みの状態で処理を継続したりすることを可能にする。
【０１１１】
終了処理ステップＳ１２は、利用者からの終了命令を受けて実行される、ユーザインタフェース部９における処理の一部を実行する処理ステップであり、音声認識処理に必要な各種設定内容の外部記憶装置への保存を自動実行する。
【０１１２】
以下、上述した実施形態の変形例を幾つか述べる。
【０１１３】
（複数系統の並列実装）
以上の例はマイクを２つ備えた最も単純な構成で説明したものであるが、図１８に示すように、マイクをＮ（Ｎ≧３）個備え、最大Ｍ（１≦Ｍ≦_ＮＣ_２）個のマイク対を構成することも可能である。
【０１１４】
図中の１１〜１３はＮ個のマイクである。図中の２２はＮ個のマイクによるＮ個の音響信号を入力する手段である。図中の２３は入力されたＮ個の音響信号をそれぞれ周波数分解し、Ｎ個の音響信号のうちの２つから成るＭ（１≦Ｍ≦_ＮＣ_２）組の対の各々について散布図データを生成し、生成されたＭ組の散布図データからそれぞれ所定の直線を検出し、検出されたＭ組の直線の情報のそれぞれから、フレームの信頼可否情報を含む音源ストリーム情報を生成する手段である。図中の２４は生成された音源ストリーム情報を用いて、各々の音源の分離音声を抽出する手段である。図中の２５は抽出された分離音声の言語的内容を認識する手段である。図中の２６は抽出された分離音声の話者の別を認識する手段である。図中の２７は抽出された分離音声の物音の別を認識する手段である。図中の２８は音源ストリーム情報や音声認識の結果を出力する手段である。図中の２９は各対を構成するマイクの情報を含む各種設定値の利用者への呈示、利用者からの設定入力受理、外部記憶装置への設定値の保存、外部記憶装置からの設定値の読み出し、及び各種処理結果の利用者への呈示を実行する手段である。各マイク対における処理はこれまでに述べた実施形態と同様であり、そのような処理が複数のマイク対について並列的に実行される。
【０１１５】
このようにすることで、音源方向に対する得て不得手が各々のマイク対にあるとしても、複数のマイク対でカバーすることで装置周囲の広範な方位に存在する目的音源を検出・定位・認識することが可能になる。
【０１１６】
（コンピュータを使った実施：プログラム）
また、本発明は図１９に示すようにコンピュータを使って実施することも可能である。図中の３１〜３３はＮ個のマイクである。図中の４０はＮ個のマイクによるＮ個の音響信号を入力するＡ／Ｄ変換手段であり、図中の４１は入力されたＮ個の音響信号を処理するためのプログラム命令を実行するＣＰＵである。図中の４２〜４７はコンピュータを構成する標準的なデバイスであり、それぞれＲＡＭ４２、ＲＯＭ４３、ＨＤＤ４４、マウス／キーボード４５、ディスプレイ４６、ＬＡＮ４７である。また、図中の５０〜５２は外部から記憶メディアを介してプログラムやデータをコンピュータに供給するためのドライブ類であり、それぞれＣＤＲＯＭ５０、ＦＤＤ５１、ＣＦ／ＳＤカード５２である。図中の４８は音響信号を出力するためのＤ／Ａ変換手段であり、その出力にスピーカ４９が繋がっている。このコンピュータ装置は、図２７に示した処理ステップから成る音響信号処理プログラムをＨＤＤ４４に記憶し、これをＲＡＭ４２に読み出してＣＰＵ４１で実行することで音響信号処理装置として機能する。また、外部記憶装置としてのＨＤＤ４４、操作入力を受け付けるマウス／キーボード４５、情報呈示手段としてのディスプレイ４６とスピーカ４９を使うことで、上述したユーザインタフェース部８の機能を実現する。また、音響信号処理によって得られた音源情報をＲＡＭ４２やＲＯＭ４３やＨＤＤ４４に保存出力したり、ＬＡＮ４７を介して通信出力する。
【０１１７】
（記録媒体）
また、本発明は図２０に示すように記録媒体として実施することも可能である。図中の６１は本発明に係る信号処理プログラムを記録したＣＤ−ＲＯＭやＣＦやＳＤカードやフロッピー（登録商標）ディスクなどで実現される記録媒体である。この記録媒体６１をテレビやコンピュータなどの電子装置６２や電子装置６３やロボット６４に挿入することで当該プログラムを実行可能としたり、あるいはプログラムを供給された電子装置６３から通信によって別の電子装置６５やロボット６４に当該プログラムを供給することで、電子装置６５やロボット６４上で当該プログラムを実行可能とする。
【０１１８】
以上説明した本発明の実施形態よれば、以下のような作用効果が得られる。
【０１１９】
（１）音源ストリーム抽出分類手段により、認識対象となる目的音源ストリームの全フレームの中で雑音が支配的になっているフレームを検出することができる。そして、雑音が支配的になっているか否かを各フレームに対する信頼可否情報（信頼可フラグ／信頼不可フラグ）として与えることで、後続の各種音声認識手段でその情報を利用できるようにする。
【０１２０】
以上について、特に非特許文献１と比較して、従来技術が音源分離手段で推定された雑音に基づいて音響特徴の各要素（周波数成分）の信頼可否を判定しているのに対し、本発明は、音源分離過程に先駆けて音源検出過程で信頼可否を判定するものである。
【０１２１】
（２）語彙認識手段は、入力音響特徴列を音素記号列に変換する際、信頼不可フレームの音響特徴を標準音響特徴と照合することなく、直ちにダミー音素に変換することで、音響特徴照合計算コストを削減することができる。
【０１２２】
（３）語彙認識手段は、入力音響特徴列（入力音素記号列）に適合する文仮説を探索する際、信頼可フレームのみを尤度計算に参加させ、かつ、信頼不可フレームで枝刈りをしないことで探索の破綻を防ぎ、雑音環境下での誤認識の発生を抑制することができる。
【０１２３】
（４）語彙認識手段は、入力音響特徴列を音素記号列に変換する際、信頼不可フレームの音響特徴を標準音響特徴と照合することなく、直ちにダミー音素に変換し、かつ、入力音響特徴列（入力音素記号列）に適合する文仮説を探索する際、ダミー音素を加味した探索木を用いて文仮説を評価することで探索の破綻を防ぎ、雑音環境下での誤認識の発生を抑制することができる。
【０１２４】
以上３点について、特に特許文献２と比較して、従来技術が無音期間を検出してビーム幅を絞っていたが、これは無音期間での計算コストを削減することを目的としたものである。この操作が有効なのは、無音期間が発話中のポーズ期間である、すなわち、その期間で発話中の音声の一部が失われ、探索中の文仮説との整合性が取れなくなる、ということがないときに限られる。一方、本発明は、信頼不可期間は決してポーズのような無音ではなく、雑音に負けた目的音声が欠落している可能性を想定して成されたものである。そのため、この欠落による探索の破綻を防ぐために信頼可否情報を利用し、この期間にビーム幅を広げる操作を行う。その結果、雑音環境下において目的音声が雑音に負けている期間が仮にあったとしても、その期間で破綻することなく、負けていない期間の音声を手掛かりに認識を続けられる音声認識を実現している。
【０１２５】
（５）話者認識手段は、入力音声特徴を標準話者特徴と照合する際、信頼可フレームの音声特徴のみを標準話者特徴と照合することで、雑音環境下での誤認識の発生を抑制することができる。
【０１２６】
（６）物音認識手段は、入力音声特徴を標準物音特徴と照合する際、信頼可フレームの音声特徴のみを標準物音特徴と照合することで、雑音環境下での誤認識の発生を抑制することができる。
【０１２７】
以上２点について、話者の別や物音の別は音声の属するクラスであると捉える。よって、各クラスの標準音響特徴と入力特徴を照合して、最も高い類似度を獲得したクラスを、その音声のクラスであると認定する。これは認識全般について言えることである。このとき、悪いデータを認識しようとすれば誤認識という失敗を犯すことになる。良いデータだけを選別して認識できれば、結果はもっと良くなるであろう。本発明によれば、データの良い悪い（音声の明瞭さ）を信頼可否情報が与えてくれるので、認識過程では、良いデータだけを選んで評価することができる。
【０１２８】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【０１２９】
【図１】本発明の一実施形態に係る音声認識装置の機能ブロック図
【図２】音源ストリーム抽出分類部の内部構成を示すブロック図
【図３】位相差算出の説明図
【図４】座標値計算の説明図
【図５】位相差の循環性説明図
【図６】投票される平均パワーの関数値の説明図
【図７】θとΔρの関係図
【図８】同時発話時の周波数成分、散布図、ハフ投票結果を示した図
【図９】Δρずつ離れた数箇所の得票値を合計して極大位置を探索した結果を示した図
【図１０】θの時間軸上の追跡を説明するための図
【図１１】信頼可否判定方式１を説明するための図
【図１２】信頼可否判定方式２を説明するための図
【図１３】音源分離部の内部構成を説明するための図
【図１４】語彙認識部の内部構成を示すブロック図
【図１５】話者認識部の内部構成を示すブロック図
【図１６】物音認識部の内部構成を示すブロック図
【図１７】本発明の一実施形態に係る音声認識処理の流れを示したフローチャート
【図１８】Ｎ個のマイクを使った変形実施形態を示す機能ブロック図
【図１９】コンピュータを使った実施形態を示す機能ブロック図
【図２０】記録媒体による実施形態を示す図
【符号の説明】
【０１３０】
１ａ，１ｂ…マイク，２…音響信号入力部，３…音源ストリーム抽出分類部，４…音源分離部，５…語彙認識部，６…話者認識部，７…物音認識部，８…出力部，９…ユーザインタフェース部

【特許請求の範囲】
【請求項１】
２地点で捉えられた第１と第２の音響信号を入力する入力手段と、
前記第１と第２の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出手段と、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成手段と、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出手段と、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出手段により検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する抽出手段と、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類手段と、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離手段と、
文法情報に定められた文仮説を状態と遷移の探索木に展開し、前記音源ストリームの音声データから所定の音響特徴を抽出し、該音響特徴の系列に対する前記探索木の状態遷移経路の尤度を計算し、尤度の高い状態遷移経路を探索することで前記音源ストリームの言語的内容を認識する音声認識手段とを具備し、
前記状態遷移経路の探索を前記信頼可否情報に基づいて制御することを特徴とする音声認識装置。
【請求項２】
前記音声認識手段は、前記探索において、尤度に基づく枝刈りを伴うビームサーチを行い、
前記信頼可と分類された時刻については前記尤度を計算し、
前記信頼不可と分類された時刻については前記枝刈りを抑制することを特徴とする請求項１記載の音声認識装置。
【請求項３】
前記音声認識手段は、前記探索において、前記探索木の各状態と並列にダミー状態を加えた探索木を使い、
前記信頼可と分類された時刻については前記ダミー状態以外の状態への遷移を行い、
前記信頼不可と分類された時刻については前記ダミー状態への遷移を行うことを特徴とする請求項１記載の音声認識装置。
【請求項４】
２地点で捉えられた第１と第２の音響信号を入力する入力手段と、
前記第１と第２の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出手段と、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成手段と、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出手段と、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出手段により検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する音源ストリーム抽出手段と、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類手段と、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離手段と、
前記音源ストリームの音声データのうち、前記信頼可否情報で信頼可とされた時刻の音声データから所定の特徴を抽出する特徴抽出手段と、
前記特徴と予め識別すべきクラス別に学習されているクラス特徴との類似度を計算する計算手段と、
前記類似度の最も高いクラス特徴のクラスを前記音声データのクラスであると認識する認識手段と、を具備したことを特徴とする音声認識装置。
【請求項５】
２地点で捉えられた第１と第２の音響信号を入力する入力ステップと、
前記第１と第２の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出ステップと、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成ステップと、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出ステップと、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出ステップにより検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する抽出ステップと、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類ステップと、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離ステップと、
文法情報に定められた文仮説を状態と遷移の探索木に展開し、前記音源ストリームの音声データから所定の音響特徴を抽出し、該音響特徴の系列に対する前記探索木の状態遷移経路の尤度を計算し、尤度の高い状態遷移経路を探索することで前記音源ストリームの言語的内容を認識する音声認識ステップとを具備し、
前記状態遷移経路の探索を前記信頼可否情報に基づいて制御することを特徴とする音声認識方法。
【請求項６】
２地点で捉えられた第１と第２の音響信号を入力する入力ステップと、
前記第１と第２の音響信号のそれぞれを周波数分解して周波数成分を求め、該周波数成分毎の位相差及びパワーを算出する算出ステップと、
前記周波数成分の値と前記位相差の値とを座標値とする散布図を生成する生成ステップと、
前記散布図上で直線性を示す周波数成分の配置を前記パワーに応じた直線スコアとともに検出し、該直線スコアが閾値以上となる周波数成分の配置を、音源の存在を示す直線として検出する検出ステップと、
一定範囲内の直線無検出期間及び直線傾きぶれを許容しつつ、前記検出ステップにより検出された少なくとも一つの直線を時間軸方向にグルーピングする音源ストリームであって、前記直線の傾きを含む情報、前記直線スコア、及び前記直線が検出された時刻の情報を含む音源ストリームを抽出する音源ストリーム抽出ステップと、
前記音源ストリームの前記時刻に対して前記直線スコアの高低に基づく信頼可否情報を付与し、該音源ストリームの各フレームを分類する分類ステップと、
前記音源ストリームに含まれる前記直線の傾きの情報から算定される音源存在角度に基づいて該音源ストリームの音声データを抽出し、音源分離する音源分離ステップと、
前記音源ストリームの音声データのうち、前記信頼可否情報で信頼可とされた時刻の音声データから所定の特徴を抽出する特徴抽出ステップと、
前記特徴と予め識別すべきクラス別に学習されているクラス特徴との類似度を計算する計算ステップと、
前記類似度の最も高いクラス特徴のクラスを前記音声データのクラスであると認識する認識ステップと、を具備したことを特徴とする音声認識方法。

【図１】