音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体

【課題】雑音や対象とする人以外の音声を含むような音信号から、対象とする人の音声区間を正確に検出する音声区間検出方法及び装置を提供することを目的とする。
【解決手段】音信号を所定の長さのフレームごとに取り出し、そのフレームの音信号を解析し、そのフレームの音信号に対象とする話者の音声が含まれるか否かを判定し、判定結果を音声／非音声判定値として求め、音信号の中に含まれる認識単位の系列と、各認識単位の発話時間情報とを求め、音声／非音声判定ステップにおいて得られるフレームごとの音声／非音声判定値と、音声認識ステップにおいて得られる認識単位の系列及び各認識単位の発話時間情報とを受け取って、認識単位の発話時間に対応するフレームの音声／非音声判定値の集計値の大小に基づいて、認識単位ごとに対象とする話者によって発話されたか否かを判定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明はマイク等から入力された音信号中の音声区間を判定する音声区間検出方法及び音声区間検出装置、並びに、音声区間検出方法によって同定される音声区間の音声認識方法及び音声認識装置、そのプログラム及び記録媒体に関する。
【背景技術】
【０００２】
マイク等で収録した音信号をディジタル化して送信する技術や、音信号を単語や文字の系列に変換する音声認識技術がある。ここで、一般に入力された音信号には対象とする人が話している音声区間と、対象とする人の話していない非音声区間がある。そして、音声通信や音声認識技術において、非音声区間が不要となる場合がある。ここで、対象とする人とは、マイクに向かって話す発話者や、音声認識の対象となる音声を話す人などを指すものとする。従って、非音声区間には、無音や雑音だけでなく、対象とする人以外の音声（周囲の話し声など）も含まれる場合がある。
【０００３】
音声区間を同定できれば、音声通信では音声区間のみを伝送すればよいので伝送する情報量を削減できる。また、音声認識の前処理として利用すれば、非音声区間を認識することに起因する認識誤りを避けることができる。つまり、非音声区間には雑音や対象とする人以外の人の音声等が含まれることがあるため、非音声区間を音声認識すると雑音や他人の音声を、対象とする人の音声と誤って認識し、誤った認識結果を得る場合がある。なお、音信号から音声区間を同定することを音声区間検出（VAD: Voice Activity Detection）と呼ぶ。
【０００４】
図１は、従来の一般的な音声区間検出装置１０の構成を示す。音声区間検出装置１０は、マイク等から音信号x(k)を取得する音声入力部１１と、ある決められた時間間隔（以後フレームと呼ぶ）ごとに音声か非音声かを判定する音声／非音声判定部１３と、音声／非音声区間判定の結果yを出力する結果出力部１５とからなる。
【０００５】
また、図２は、音声区間検出を利用した従来の音声認識装置２０の構成例を示している。音声認識部２４では、音声／非音声判定部１３から音声区間の音信号のみを受け取り、音声認識処理を行う。結果出力部２５は、その認識結果y'を出力する。
【０００６】
音声区間検出において音声／非音声判定を行う方法としては、例えば、次に示すような方法がある。非特許文献１には、信号の状態遷移を定義した音声信号区間推定方法が開示されている。この方法では、入力される音信号が時間経過とともに音声状態及び非音声状態を遷移する信号であるとみなす。音声状態及び非音声状態の状態遷移は、入力される音信号が音声状態に属する確率及び非音声状態に属する確率を基準として決定される。そして、音声状態に属する音信号のみを出力する。なお、音声状態及び非音声状態の構成は適応的に行われる。
【０００７】
非特許文献１の方法では、基本的に入力される音信号に対して、フレームごとに音声区間か非音声区間かを判定するので、極端に短い音声区間または非音声区間が推定されることがある。そこで、必要に応じて、音声／非音声判定の結果に対してエラー訂正処理を行ってもよい。エラー訂正処理とは、例えば以下のような処理である。音声／非音声判定により音声とみなされたフレームがS_duraitonフレーム以上継続すれば、音声区間として確定する。また、非音声とみなされたフレームがN_duraitonフレーム以上継続すれば、非音声区間として確定する。さらに、音声区間中に存在する短い非音声区間が検出された場合、非音声区間の継続長がPauseフレーム以下なら、該当区間を音声区間とみなす。
【０００８】
一方、複数の人が話す会話から得られる音信号から、対象とする複数の人の各々について音声区間を検出する技術（以下「Diarization」という）や、対象とする複数の人の各々の音声区間を音声認識することで、誰が何を話したかを認識する技術がある。
【０００９】
マイクが一つの場合（シングルチャネル）のDiarizationとしては、例えば、非特許文献２にあるように、入力された音信号を、各々の話者が話した区間に分割する方法がある。これは、まず入力音信号を適当な長さ（例えば１秒間）のブロックに区切り、各ブロックの各フレームについての音声特徴量(例えば、ＭＦＣＣ)を用いて、各ブロックのモデル（混合正規分布ＧＭＭ）のモデルパラメタを計算する。次に、各ブロックについて、隣接するブロック同士を結合するか否かを、例えばΔＢＩＣ等の情報量基準を用いて判定する。情報量規準にΔＢＩＣを用いる場合、ΔＢＩＣが負となる場合は結合し、正となる場合は結合しないものとする。この手順を全てのブロックに対して何度も繰り返す。最終的に全てのブロック結合においてΔＢＩＣが正となった所で得られている各ブロックが、各話者の音声区間に対応する。
【００１０】
マイクが複数の場合(複数チャネル)のDiarizationについては、音声信号の到来方向情報を用いた方法がある（非特許文献３参照）。これは、各フレームにおいてチャネル間位相差を計算し、同一の位相差を持つフレームを同じ方向から音声が到来しているフレームであると考える。そして、同一の位相差を持つフレームを、ある単一話者の音声区間と判定する。
【００１１】
また、複数の人が話す会話の音声区間検出を行う場合、図３に示すように、音源分離技術によって会話の各話者の音声をそれぞれ強調した分離音信号に分ける音源分離部３２を設けて、各話者の分離音信号の音声区間を検出する方法もある。そして、音声認識部２３において、各分離音信号の音声区間に対して音声認識を行う。このような構成とすることで、複数の人が同時に話した場合でも分離されたそれぞれの音信号を認識するため比較的高い精度の音声認識結果y'ⁿを得ることができる。但し、y'ⁿは話者nの音声認識結果を表す。なお、通常、複数の人の音声が混在する音信号を分離せずにそのまま音声認識すると、その認識精度は極めて低くなる。音源分離方法としては、例えば特許文献１記載のビームフォーミングによる方法を用いることができる。
【先行技術文献】
【特許文献】
【００１２】
【特許文献１】特開２００８−２０３４７４号公報
【非特許文献】
【００１３】
【非特許文献１】藤本雅清,石塚健太郎,加藤比呂子,”音声と雑音両方の状態遷移過程を有する雑音下音声区間検出”，情報処理学会研究報告, ２００６年，２００６巻，１３６号（ＳＬＰ−６４）、pp.13-18
【非特許文献２】C. Wooters and M. Huijbregts, “The ICSI RT07s Speaker Diarization System”, proceedings of CLEAR2007 and RT2007, 2007, pp.509-519,
【非特許文献３】S. Araki, M. Fujimoto, K. Ishizuka, H. Sawada, and S. Makino, "Speaker indexing and speech enhancement in real meetings / conversations", ICASSP2008, 2008, pp.93-96
【発明の概要】
【発明が解決しようとする課題】
【００１４】
非特許文献１〜３の何れの方法においても、雑音や対象とする人以外の音声を含むような音信号から、対象とする人の音声区間を正確に検出することは難しい。そのため、そのような音信号の各フレームにおける音声区間／非音声区間の判定値は多くの誤りを含む傾向がある。よって、前述のエラー訂正処理を行っても誤った音声区間を検出してしまうという問題があった。特に、音声の話し始めや話し終りの部分では音声区間であるにもかかわらず非音声区間と判定されてしまうことがあるため、音声区間の前後が途切れた音声を音声認識すると致命的な認識誤りに繋がるという問題があった。
【００１５】
また、音源分離によって対象とする人の音声を強調したとしても、対象とする人以外の音声を完全に消すことは難しい。そのため複数の人が話す会話から得られる音信号から音声区間を正しく検出するのは困難な場合が多いという問題があった。さらに、消し残りを含む部分を誤って音声区間と判定して音声認識を行うと多数の挿入誤りが生じるという問題があった。
【００１６】
本発明は、雑音や対象とする人以外の音声を含むような音信号から、対象とする人の音声区間を正確に検出する音声区間検出方法及び装置を提供し、さらに、それらの音声区間検出方法及び装置を用いて、単語誤り率が低い音声認識方法及び音声認識装置を提供することを目的とする。また、それらのプログラム及び記録媒体を提供することを目的とする。
【課題を解決するための手段】
【００１７】
上記の課題を解決するために、本発明に係る音声区間検出技術は、音信号を所定の長さのフレームごとに取り出し、そのフレームの音信号を解析し、そのフレームの音信号に対象とする話者の音声が含まれるか否かを判定し、判定結果を音声／非音声判定値として求め、音信号の中に含まれる認識単位の系列と、各認識単位の発話時間情報とを求め、音声／非音声判定ステップにおいて得られるフレームごとの音声／非音声判定値と、音声認識ステップにおいて得られる認識単位の系列及び各認識単位の発話時間情報とを受け取って、認識単位の発話時間に対応するフレームの音声／非音声判定値の集計値の大小に基づいて、認識単位ごとに対象とする話者によって発話されたか否かを判定する。
【００１８】
また、対象とする複数の話者の音声を含む音信号から音声区間検出する場合には、対象とする複数の話者の音声を含む音信号を所定の長さのフレームごとに取り出し、そのフレームの音信号を解析し、そのフレームの音信号に対象とする各話者の音声が含まれているか否かを判定し、判定結果を音声／非音声判定結果として求め、対象とする複数の話者の音声を含む音信号を用いて、各話者の音声を強調した複数の分離音信号を生成し、分離音信号の中に含まれる認識単位の系列と、各認識単位の発話時間情報とを求め、音声／非音声判定ステップにおいて得られる各話者のフレームごとの音声／非音声判定値と、音声認識ステップにおいて得られる各話者の認識単位の系列及び各認識単位の発話時間情報とを受け取って、各話者の認識単位の発話時間に対応するフレームの音声／非音声判定値の集計値の大小に基づいて、認識単位ごとにその話者によって発話されたか否かを判定する。
【発明の効果】
【００１９】
本発明は、音声区間であるか否かを音声認識結果の認識単位ごとの発話時間における音声／非音声判定値の集計値に基づいて判定するため、音声／非音声判定値に多少の誤りがあっても、それら誤りの影響を低減し、より正確に音声区間を検出できるという効果を奏する。
【図面の簡単な説明】
【００２０】
【図１】音声区間検出装置１０の構成図。
【図２】音声認識装置２０の構成図。
【図３】音声認識装置３０の構成図。
【図４】音声区間検出装置１００、音声認識装置１００’の構成例を示す図。
【図５】音声区間検出装置１００、音声認識装置１００’の処理フローを示す図。
【図６】音声／非音声判定部１３０の構成例を示す図。
【図７】音声認識部１４０の構成例を示す図。
【図８】認識グラフを説明するための図。
【図９】認識単位発話判定部１５０の構成例を示す図。
【図１０】音声区間検出装置２００、音声認識装置２００’の構成例を示す図。
【図１１】音声区間検出装置２００、音声認識装置２００’の処理フローを示す図。
【図１２】音声区間検出装置３００の構成例を示す図。
【図１３】音声区間検出装置４００の構成例を示す図。
【図１４】音声区間検出装置５００の構成例を示す図。
【図１５】音声認識装置２００’の実験状況を説明するための図。
【発明を実施するための形態】
【００２１】
以下、本発明の実施の形態について、詳細に説明する。
【実施例１】
【００２２】
＜音声区間検出装置１００＞
図４及び図５を用いて実施例１に係る音声区間検出装置１００を説明する。
【００２３】
音声区間検出装置１００は音声入力部１１０と音声／非音声判定部１３０と音声認識部１４０と認識単位発話判定部１５０と結果出力部１６０を備える。以下、音声区間検出装置１００の処理概要を説明する。
【００２４】
音声入力部１１０では、マイク等により収録したアナログ音信号x(k)をディジタル音信号x(u)に変換して、音声／非音声判定部１３０及び音声認識部１４０に送る。但し、kは連続時間を、uは離散時間を表す。
【００２５】
音声／非音声判定部１３０では、音声入力部１１０から受け取ったディジタル音信号x(u)からフレームごとに、そのフレームの時間長に対応する振幅値系列x(t)を取り出す。但し、ｔはフレーム番号、及び、そのフレームに対応する時刻を表す。さらに音声／非音声判定部１３０は、例えば非特許文献１の方法で、フレームごとに、話している対象の人の音声か否かを示す音声／非音声判定値d(t)を出力する。
【００２６】
音声認識部１４０では、音声入力部１１０から受け取ったディジタル音信号x(u)に最も適合する認識単位v_r（単語、文字、音素等）の系列v={v₁,v₂,…,v_R}を求める。但し、r=1,2,…,Rとする。このとき得られた各認識単位v_rの発話時間情報（例えば、フレーム番号を単位として与えられる開始時刻b(v_r)と終了時刻e(v_r)）も同時に求める。なお、発話時間情報の系列をbe={(b(v₁),e(v₁)),(b(v₂),e(v₂)),…, (b(v_R),e(v_R))}と表す。
【００２７】
認識単位発話判定部１５０では、音声認識部１４０から受け取った各認識単位v_rとその発話時間情報be_r=(b(v_r),e(v_r))に対応する音声／非音声判定値d(t)の集計値s(v_r)（平均値等）の大小に基づいて、認識単位v_rごとに対象とする人によって発話されたか否かを判定する。音声／非音声判定値の集計値s(v_r)は
【００２８】
【数１】

として計算する。この集計値がある閾値TX₁より大きい場合、認識単位v_rが発話されたと判定する。w(・)は任意の窓関数である。例えば、w(・)=1のような関数にすれば、式(1)は以下のように表され、
【００２９】
【数２】

s(v_r)は、時刻b(v_r),e(v_r)間のd(t)の平均値になる。
【００３０】
認識単位v_rの発話判定値s(v_r)がある閾値TX₁以上の場合に、v_rの開始時刻b(v_r)と終了時刻e(v_r)の間は音声区間であると判定し、TX₁未満の場合は時刻b(v_r),e(v_r)の間は非音声区間であると判定する。認識単位発話判定部１５０は、判定結果g(v_r)を出力する。例えば、v_rが音声区間であると判定した場合には、g(v_r)=1とし、v_rが非音声区間であると判定した場合には、g(v_r)=0として、出力する。
【００３１】
結果出力部１６０は、判定結果g(v_r)が音声区間であることを表す場合には、認識単位v_rに対応する発話時間情報（b(v_r),e(v_r)）または対応する音信号x（b(v_r),e(v_r)）を出力する。
【００３２】
以下、各部の処理内容を説明する。
【００３３】
＜音声入力部１１０＞
音声入力部１１０は、例えば、マイクの出力信号や外部記憶装置より読み出される信号やネットワークから受信した信号等を入力するための入力インタフェースである。音声入力部１１０は、入力された音信号x(k)を、Ａ／Ｄ変換器により、ディジタル音信号x(u)に変換して出力する（ｓ１１０）。例えば、音声入力部１１０は、マイク等により得られるアナログ音信号x(k)を一定時間間隔でサンプリングして、音信号の振幅値x(u)（以下「ディジタル音信号」という）の系列に変換する。例えば、16kHzでサンプリング（標本化）し、16bitで量子化する場合は、音声入力部１１０は、1/16000秒ごとに音信号の振幅値を取り出し、各振幅値に対し、16bitの整数、すなわち-32768〜+32767の何れかの値を割り当てる。
【００３４】
＜音声／非音声判定部１３０＞
音声／非音声判定部１３０は、ディジタル音信号x(u)を所定の長さのフレームごとに取り出し、そのフレームの音信号x(t)を解析し、そのフレームの音信号x(t)に対象とする話者iの音声が含まれるか否かを判定し、判定結果を音声／非音声判定値d(t)として求める（ｓ１３０）。但し、tは、音声／非音声判定部１３０で用いられるフレーム番号を表す。
例えば、音声／非音声判定部１３０は、図６に示すように、音声／非音声を識別するための音響特徴量を抽出する特徴抽出部１３１と、抽出した特徴量を用いて、対応するフレームの音信号x(t)が音声か非音声かを識別する識別部１３３とから構成される。
【００３５】
（特徴抽出部１３１）
特徴抽出部１３１では、音声入力部１１０から出力されたディジタル音信号x(u)からフレームごとに、そのフレームの時間長に対応する振幅値のサンプル系列x(t)を取り出す。例えば入力されたディジタル音信号x(u)を時間軸方向に一定時間幅（シフト幅）で始点を移動させながら、一定時間長（フレーム長）のディジタル音信号x(u)をフレームとして切り出す。なお、フレーム単位のディジタル音信号をx(t)と表す。例えば1024サンプル点（時間長はサンプリング周波数が16,000 Hzの場合、64msに相当）の音信号を、512サンプル点（同様に時間長は32msに相当）ずつ始点を移動させながら切り出す。
【００３６】
次に特徴抽出部１３１では、切り出されたディジタル音信号x(t)に対して高速フーリエ変換を行い、周波数領域の音信号x(f,t)を算出する。
【００３７】
さらに、特徴抽出部１３１では、周波数領域の音信号x(f,t)を用いて、P次元のメルフィルタバンク分析（例えばP=12）を適用し、フレームtのP次元の対数メルスペクトルを要素に持つ音響特徴ベクトルO_t={o_t,0,o_t,1,…,o_t,P-1}を算出し、特徴抽出部１３１の出力とする。この際、フレームのサンプル点や音響特徴ベクトルの次元数Pは入力される音信号の特徴に応じて適宜変更して良い。
【００３８】
（識別部１３３）
識別部１３３では、まず入力音声の音声特徴ベクトルO_tと、別途用意した音声と非音声の確率モデル、例えば混合正規分布モデル（GMM: Gaussian Mixture Model）との尤度b_j(O_t)を次式のように計算する。
【００３９】
【数３】

但し、jはGMMの種別を表し、j=0のとき非音声モデルとし、j=1のとき音声モデルとする。kはGMMに含まれる正規分布の番号であり、k=1,2,…,Kとし、w_j,kはK番目の正規分布の混合重みを、μ_j,k,lは平均値を、σ²_j,k,lは分散値を表す。なお、確率モデル（GMM）は事前になんらかの学習データを用いて学習しておいても良く、オンラインで逐次的に推定、更新を行っても良い。図示しないＧＭＭ記憶部に、確率モデル(GMM)を記憶しておき、識別部１３３は、ＧＭＭ記憶部を参照して、上述の尤度b_j(O_t)を計算する。
【００４０】
次に識別部１３３では、それぞれのモデルの尤度比L(t)を次式により計算する。
【００４１】
【数４】

α_t,j＝（α_t-1,0a_0,j+α_t-1,1a_1,j）b_j(O_t) (5)
但し、α_t,jは前向き確率であり、a_i,jは非音声状態H₀及び音声状態H₁への状態遷移確率であり、iは遷移前の状態番号、jは遷移後の状態番号であり、a_i,0+a_i,1=1を満たす（状態番号0は非音声状態を、状態番号1は音声状態をそれぞれ示す）。なお、t=0のとき初期値として前向き確率α_t,jを以下のように設定する。
【００４２】
α_t,0＝1 (6)
α_t,1＝0 (7)
次に識別部１３３では、尤度比L(t)を用いて、フレームtが音声状態に属するか非音声状態に属するかを判定する。識別部１３３は、尤度比L(t)の値を音声／非音声の判定値d(t)として出力してもよい。また、識別部１３３では、別途設定する閾値TH₂以上のときに、フレームtが音声状態に属すると判断して音声／非音声の判定値d(t)=1として出力し、閾値TH₂未満であれば、フレームtが非音声状態に属すると判断してd(t)=0として出力してもよい。閾値TH₂の値は、事前に固定された値に決定しておいても、入力される音信号の特徴に応じて適応的に決定しても良い。
【００４３】
＜音声認識部１４０＞
音声認識部１４０は、音信号x(u)の中に含まれる認識単位の系列vと、各認識単位v_iの発話時間情報b(v_i)、e(v_i)とを求める（ｓ１４０）。
【００４４】
例えば、図７に示すように音声認識部１４０は、特徴抽出部１４１と認識部１４３と音響モデル記憶部１４５と認識グラフ記憶部１４７とを備える。
【００４５】
（特徴抽出部１４１）
特徴抽出部１４１では、音声入力部１１０から出力されたディジタル音信号x(u)からフレームごとに、そのフレームの時間長に対応する振幅値のサンプル系列x(t')を取り出す。但し、t'は音声認識部１４０で用いられるフレーム番号を表す。
【００４６】
次に特徴抽出部１４１では、切り出されたディジタル音信号x(t')に対して高速フーリエ変換を行い、周波数領域の音信号x(f,t')を算出する。
【００４７】
さらに、特徴抽出部１４１では、周波数領域の音信号x(f,t')を用いて、P'次元の音声特徴ベクトルO'_t'={o'_t',0,o'_t',1,…,o'_t',P'-1}を算出し、特徴抽出部１４１の出力とする。この際、フレームのサンプル点や音声特徴ベクトルは音声／非音声判定部１３０内の特徴抽出部１３１と同一であるとは限らず、異なるものであってもよい。例えば、音声特徴ベクトルとしては、短い時間区間（例えば１０ミリ秒）ごとに音信号を分析することにより得られるメルケプストラム(mel-frequency cepstral coefficients、MFCCと呼ばれる)、デルタMFCC、LPCケプストラム、対数パワー等がある。次に、特徴抽出部１４１は、フレームごとに得られた音声特徴ベクトルO'_t'を、時間の順序に沿って、順に認識部１４３に入力する。
【００４８】
（認識部１４３）
認識部１４３では、音素等の音声的特徴の雛形を表す音響モデルを記憶した音響モデル記憶部１４５と発音や文法等の制約を表す認識グラフを記憶した認識グラフ記憶部１４７とを参照しながら、入力された音声特徴ベクトルO'_t'の系列に最も適合する認識単位v_r（単語、文字、音素等）の系列vを求める。このとき得られた各認識単位v_rの発話時間情報、すなわち開始時刻b(v_r)と終了時刻e(v_r)も同時に求める。
【００４９】
例えば、認識部１４３は処理を開始してから何個の音声特徴ベクトルO'_t'を読み込んだかをフレーム番号として記憶しておき、音声認識の結果として得られる各認識単位v_rは、音声特徴ベクトルO'_t'の系列のどのフレーム番号から開始してどのフレーム番号で終了したか、という情報が得られる。この各認識単位v_rの開始フレーム番号と終了フレーム番号を、各認識単位の開始時刻b(v_r)と終了時刻e(v_r)とする。
【００５０】
（音響モデル記憶部１４５）
音響モデル記憶部１４５には、音響モデルとして、例えば、音声固定単位（例えば音素）の標準的な音声特徴ベクトルまたはその分布が記憶されている。
【００５１】
認識部１４３は、音響モデル記憶部１４５に記憶された音響モデルを参照し、音声固定単位と入力された音声特徴ベクトルO'_t'との類似度を、例えば、その音声固定単位に属する標準的な音声特徴ベクトルの分布によって計算される音声特徴ベクトルO'_t'の確率密度の対数値として求める。音響モデルを用いた方法としては、例えば、音声固定単位の音声特徴ベクトル時系列の集合を確率・統計理論に基づいてモデル化する隠れマルコフモデル法(Hidden Markov Model、以後HMMと呼ぶ)等がある（参考文献１参照）。
［参考文献１］中川聖一著、「確率モデルによる音声認識」、社団法人電子情報通信学会、1988年
【００５２】
（認識グラフ記憶部１４７）
認識グラフ記憶部１４７には、例えば、重み付き有限状態トランスデューサを用いて構成された認識グラフが記憶される。なお、単語発音辞書や言語モデルを重み付き有限状態トランスデューサ(英訳 Weighted Finite-State Transducer: WFST)によって記述し、それらを合成して一つの重み付き有限状態トランスデューサを構成する方法は、例えば、参考文献２に記載されている。
［参考文献２］M.Mohri, F.Pereira, M.Riley著, “Weighted finite-state transducers in speech recognition”, Computer Speech and Language, 2002,Vol.16, No.1, pp.69-88
【００５３】
以下、認識グラフについて説明する。音声認識用の認識グラフの個々のアーク（エッジ、リンク、枝等とも呼ぶ）には、一般に、HMMの一つの状態を示すラベルが付与される。HMMの状態は、ある音素のその音素内におけるおおまかな位置（例えば、前半、中盤、後半）に対応する音声固定単位であり、各状態は音声特徴ベクトルの確率密度分布（例えば、多次元混合正規分布）を持っている。
【００５４】
認識部１４３が、仮説の累積重みに加える音声特徴ベクトルO'_t'とアークのラベルに対応する状態の確率密度分布を用いて確率密度を計算し、得られた確率密度の対数値を音声特徴ベクトルO'_t'とアークのラベルとの類似度として算出する。なお、各アークのラベルに対応する状態の確率密度分布は、音響モデル記憶部１４５に記憶されている。
【００５５】
音声認識のための認識グラフは、音素や単語の並び方などの規則を有向グラフで表したもので、音素や単語の連鎖確率（の対数値）を重みとしてアークに付与し、音素や単語の音響パターンやその分布関数を表すラベル（例えば音素/a/の音声特徴ベクトルを表す分布関数を指す）を対応する各アークに割り当てる。また、音素や単語の並び方のルールに従って始点ノードと終点ノードも設定する。
【００５６】
例えば、認識グラフは図８のように構成されている。始点ノードは黒丸、終点ノードは二重丸、それら以外のノードは丸で表されている。ノードを結ぶアークにラベルが付与されており、音素名とその音素内での位置を表すような表記になっている。例えば、a2は音素aのHMMの２番目の状態の確率密度分布を指すものとする。
【００５７】
認識部１４３は、認識グラフを参照し、入力された音声特徴ベクトルO'_t'の系列に対して、各音声特徴ベクトルO'_t'と各アークに対応付けられたラベルの類似度の累積値が最も高くなる認識グラフ中の経路を見つける。入力された音声特徴ベクトルO'_t'とラベルとの類似度は、ラベルに対応する分布関数にその音声特徴ベクトルO'_t'を入力したときの値として計算される。
【００５８】
また、図８中、“a1:赤”のように”:”で二つのラベルが書いてあるときは、ラベルと音声特徴ベクトルO'_t'の類似度は”:”の前のa1に基づいて計算し、”:”の後の”赤”は、このアークを通る経路が選ばれたときに、認識結果となるラベル（認識単位）である。図８の例では、上を通る経路と下を通る経路があり、上を通る経路が選ばれたときは、“赤です”が認識結果となり、下を通る経路が選ばれたときは、“青です”が認識結果となる。
【００５９】
（認識部１４３の処理内容）
認識部１４３は、まず初期設定として、探索する経路の初期仮説として、長さ０の経路で始端ノードに到達した仮説を一つ生成し、その仮説のスコアに０を与え、現在の仮説リストに追加する。次に、認識部１４３は、音声特徴ベクトルO'_t'を一つ読み込むごとに、現在の仮説リストに含まれる各々の仮説の到達した最後のノードから遷移可能な各アークに対し、その各アークとその遷移先のノードを当該仮説に付加して経路を伸ばすことで新たな仮説を生成し、アークの重みと、直前に読み込んだ音声特徴ベクトルO'_t'と当該アークのラベルとの類似度を当該仮説のスコアに加算した値をその新たな仮説のスコアとして与え、新たな仮説リストに追加する。次に、認識部１４３は、現在の仮説リストを空にして、新たな仮説リストに含まれる全ての仮説を現在の仮説リストに移し、次の音声特徴ベクトルO'_t'を読み込んで同様の処理を繰り返す。なお、計算量を削減するために、現在の仮説リストでスコアが相対的に小さい仮説は現在の仮説リストから削除しても良い。
【００６０】
そして、認識部１４３は、音声特徴ベクトルO'_t'の系列を最後まで読み終えた時点で、現在の仮説リストの中で最もスコアの高い仮説の経路上の認識単位の系列v=(v₁,v₂,…,v_R)を出力する。但し、Rは認識単位の系列中に含まれる認識単位の個数を表す。
【００６１】
また、認識部１４３は、以下の方法により、各認識単位v_rの発話時間情報b(v_r)、e(v_r)を求め、認識単位の系列vに対応する発話時間情報の系列be=((b(v₁),e(v₁)),(b(v₂),e(v₂)),…(b(v_R),e(v_R)))を出力する。認識部１４３は、最もスコアの高い仮説の経路上の認識単位の系列vに含まれる認識単位v_rがその経路上の始端ノードから何回目の遷移で通ったアークに付与されているかを調べ、その認識単位v_rの開始時刻をフレーム番号b(v_r)として取得する。その経路上の各認識単位v_rの開始時刻が分かれば、各開始時刻の直前のフレーム番号が、その経路上の直前の認識単位v_r-1の終了時刻を表すフレーム番号となる。そこで、認識部１４３は、開始時刻をフレーム番号b(v_r)の直前のフレーム番号を、直前の認識単位v_r-1の終了時刻をフレーム番号b(v_r-1)として取得する。なお、系列vの最後の認識単位v_Rの終了時刻e(v_R)は、最後に処理したフレーム番号として取得する。
【００６２】
＜認識単位発話判定部１５０＞
認識単位発話判定部１５０は、音声／非音声判定部１３０において得られるフレームごとの音声／非音声判定値d(t)と、音声認識部１４０において得られる認識単位の系列v及び各認識単位の発話時間情報の系列beとを受け取って、各認識単位v_rの発話時間情報b(v_r),e(v_r)に対応するフレームの音声／非音声判定値d(t)の集計値（平均値等）s(v_r)の大小に基づいて、認識単位ごとに対象とする話者によって発話されたか否かを判定する（ｓ１５０）。
【００６３】
図９は、音声認識部１４０からR個の認識単位v_rが得られたときの、認識単位発話判定部１５０における処理手順を表している。まず、r=1,S=0,t=b(v_r)とし初期設定を行う（ｓ１５０ａ、ｓ１５０ｂ）。次に、開始時刻b(v_r)から終了時刻e(v_r)までに含まれる各フレームについて、w(t-b(v_r))d(t)を求め、全て加算したSを得る（ｓ１５０ｃ、ｓ１５０ｄ，ｓ１５０ｅ）。Sは以下の式により表される。
【００６４】
【数５】

さらに、得られた値Sを、対応するフレーム数e(v_r)-b(v_r)+1で除算することにより、集計値s(v_r)を求める（ｓ１５０ｆ）。つまり、r番目の認識単位v_rについて音声／非音声判定値の集計値s(v_r)を式(1)に従って計算する。その集計値s(v_r)が閾値TX₁以上であれば（ｓ１５０ｇ）、v_rが音声区間であるとの判定結果g(v_r)（例えば、g(v_r)=1）を出力する（ｓ１５０ｈ）。その集計値s(v_r)が閾値TX₁未満であれば（ｓ１５０ｇ）、v_rが非音声区間であるとの判定結果g(v_r)（例えば、g(v_r)=0）を出力する（ｓ１５０ｉ）。ｓ１５０ｂ〜ｓ１５０ｉを全ての認識単位に対して繰り返し行う（ｓ１５０ｊ、ｓ１５０ｋ）。
【００６５】
音声／非音声判定値の集計値は、前述のように式(1)によって計算する。前述の通り、窓関数w(・)=1とすることで認識単位v_rの発話判定値s(v_r)は時刻b(v_r)、e(v_r)間の音声／非音声判定値d(t)の平均値になる（式（１’）参照）。一方、窓関数w(・)を認識単位v_rの発話時間の中央（つまり(b(v_r)+e(v_r))/2）に向かって大きな値を取るような関数にしても良い。例えば、平均値が(b(v_r)+e(v_r))/2のガウス分布を窓関数w(・)としても良い。
【００６６】
また、b(v_r)を実際の開始時刻よりも小さく、e(v_r)を実際の終了時刻よりも大きくすることで、当該認識単位v_rの周囲の音声／非音声判定値d(t)を考慮しても良い。逆に、b(v_r)を実際の開始時刻よりも大きく、e(v_r)を実際の終了時刻よりも小さくすることで、当該認識単位の前部や後部の音声／非音声判定値d(t)を無視しても良い。
【００６７】
但し、音声／非音声判定部１３０で用いられるフレームの時間長と音声認識部１４０で用いられているフレームの時間長が異なる場合は、フレーム番号が同じであっても異なる時間を指し示すことになるので補正が必要である。以下、補正方法を説明する。例えば、音声認識部１４０のフレーム番号t’を音声／非音声判定部１３０で用いられるフレーム番号tに変換し、式(1)において変換したtを用いる。変換式を以下に表す。
【００６８】
【数６】

ここで、Dは音声／非音声判定部１３０におけるフレーム時間長、Hは音声認識部１４０におけるフレーム時間長を表す。但し、式(8)で求めたtが整数にならない場合は、tの近傍の整数に対応するフレーム番号の音声／非音声判定値を用いて補間しても良い。例えば、tの近傍の２点のフレーム番号の音声／非音声判定値を用いて、以下のように線形補間する。
【００６９】
d~(t)=d(τ(t))+(t-τ(t))×(d(τ(t)+1)-d(τ(t))) (9)
ここで、τ(t)はtの小数点以下を切り捨てた整数である。このようにして得られた値d~(t)を、式(1)において、d(t)の代わりに用いても良い。
【００７０】
認識単位発話判定部１５０は認識単位v_rの発話判定値s(v_r)がある閾値TX₁以上の場合に、v_rの開始時刻b(v_r)と終了時刻e(v_r)の間は音声区間であると判定してg(v_r)=1を出力し、TX₁未満の場合は時刻b(v_r)、e(v_r)の間は非音声区間であると判定してg(v_r)=0を出力する。
【００７１】
＜結果出力部１６０＞
結果出力部１６０は、判定結果g(v_r)に応じて、音声区間の検出結果を出力する（ｓ１６０）。検出結果として、g(v_r)=1に対応するv_rの音信号x（b(v_r),e(v_r)）を出力してもよいし、v_rの発話時間情報（開始時刻b(v_r)と終了時刻e(v_r)）を出力してもよい。なお、x（b(v_r),e(v_r)）は、開始時刻b(v_r)から始まり終了時刻e(v_r)で終わるディジタル音信号を表す。
【００７２】
結果出力部１６０は、例えば、スピーカへの音信号を出力するための出力インタフェースである。例えば、結果出力部１６０は、音声区間検出装置１００で検出した音信号を出力する場合には、g(v_r)=1に対応する認識結果v_rのディジタル音信号x（b(v_r),e(v_r)）をＤ／Ａ変換器によりアナログ音信号に変換してスピーカに出力する。
【００７３】
なお、ディジタル音信号x(u)、フレームの音信号x(t)、音声／非音声判定値d(t)、音声認識結果v_r、発話時間情報（b(v_r),e(v_r)）、判定結果g(v_r)は各処理過程において、図示しない記憶部に対応付けて記憶しておいてもよい。
【００７４】
＜効果＞
このような構成とすることによって、音声区間であるか否かを音声認識結果の認識単位ごとの発話時間における音声／非音声判定値の集計値に基づいて判定するため、音声／非音声判定値に多少の誤りがあっても、それら誤りの影響を低減し、より正確に音声区間を検出できる。
【００７５】
＜変形例１＞
本発明の音声区間検出方法を音声認識に用いる場合について説明する。図５及び図６を用いて、音声認識装置１００’を説明する。音声認識装置１００’は、実施例１と同様の構成を有する。但し、結果出力部１６０’の処理内容が異なる。
【００７６】
結果出力部１６０’は、認識単位発話部１５０において対象とする話者によって発話されたと判定された認識単位v_rを、その対象とする話者の音声認識結果として出力する（ｓ１６０’）。つまり、音信号x(u)や発話時間情報(b(v_r),e(v_r))を出力するのではなく、認識結果v_rを出力することで、音声認識装置として機能する。
【００７７】
結果出力部１６０は、例えば、ディスプレイにテキストデータを出力するための出力インタフェースである。例えば、結果出力部１６０は、音声認識装置１００’で認識した認識結果を出力する場合には、g(v_r)=1に対応する認識結果v_rを出力する。
【００７８】
このような構成とすることで、音声認識部１４０の出力から、認識単位発話判定部１５０で音声区間と判定された認識単位v_rだけを認識結果として選択して出力することができる。音声認識部１４０では、音声区間検出なしで音声認識を行うため、音声の話し始めや話し終りの部分が非音声区間と判定されてしまう検出誤りの影響を受けることがない。そのため、従来の音声区間検出の誤りに起因する音声認識誤りを避けることができるという効果を奏する。
【００７９】
＜その他の変形例＞
音声区間検出装置１００にディジタル音信号が入力される場合（例えば、マイク等の収音装置においてＡ／Ｄ変換が行われたり、外部記憶装置やネットワークを介してディジタル音声信号を受け取る場合）、音声入力部１１０においてＡ／Ｄ変換を行わなくともよい。
【００８０】
また、結果出力部１６０は、外部記憶装置に書き出す信号やネットワークへ送信する信号等を出力するための出力インタフェースでもよい。
【実施例２】
【００８１】
＜音声区間検出装置２００＞
図１０及び図１１を用いて実施例２に係る音声区間検出装置２００を説明する。音声区間検出装置２００は、音声入力部２１０と、音源分離部２２０と、音声／非音声判定部２３０と、音声認識部２４０と、認識単位発話判定部２５０と、結果出力部２６０とを備える。音声区間検出装置２００は、音源分離技術を併用して、複数の人が話す場合の各人の音声区間を検出する。本実施例では、音声信号の到来方向情報を用いた音源分離技術を用いる。以下、各部の処理内容を説明する。
【００８２】
＜音声入力部２１０＞
音声入力部２１０は、入力された複数の音信号x₁(k), x₂(k),…, x_M(k)を、Ａ／Ｄ変換器により、それぞれディジタル音信号x₁(u), x₂(u),…, x_M(u)に変換して出力する（ｓ２１０）。但し、Mは音信号を収録する際に用いたマイクの個数を表す。
【００８３】
＜音源分離部２２０＞
音源分離部２２０は、対象とする複数の話者の音声を含むディジタル音信号x₁(u), x₂(u),…, x_M(u)を用いて、例えば特許文献１のビームフォーミングにより、各話者の音声を強調した複数の分離音信号z~₁, z~₂,…, z~_Nを生成し（ｓ２２０）、音声認識部２４０に出力する。但し、Nは対象とする話者の人数を表す。例えば、音源分離部２２０は、到来方向推定部２２１と分離音信号生成部２２３を有する。
【００８４】
（到来方向推定部２２１）
到来方向推定部２２１は、複数のディジタル音信号x₁(u), x₂(u),…, x_M(u)を所定の長さのフレームごとに取り出し、そのフレームの音信号x₁(t), x₂(t),…, x_M(t)に対して高速フーリエ変換を行い、周波数領域の音信号x₁(f,t), x₂(f,t),…, x_M(f,t)を算出する。
【００８５】
到来方向推定部２２１は、全てのマイクペアmm'について、GCC-PHAT法を適用し（参考文献３参照）、以下の式により、音声の到来時間差（TDOA）推定する。
［参考文献３］C.H.Knapp and G.C.Carter, “The generalized correlation method for estimation of time delay”, IEEE Trans. Acoust. Speech and Signal Processing, 1976, vol.24, no. 4, pp. 320-327
【００８６】
【数７】

但し、m=1,2,…,M、m'=1,2,…,M、m≠m'とする。全てのマイクペアmm'におけるTDOAの推定値τ_mm'(t)を並べたベクトルをτ(t)とする。
【００８７】
次に、到来方向推定部２２１は、到来時間差の推定値を並べたベクトルτ(t)とマイクの座標を表す行列Dより、音声信号の到来方向q(t)を推定する（ｓ２１１）（参考文献４参照）。
［参考文献４］S. Araki, H. Sawada, R. Mukai and S. Makino, "DOA estimation for multiple sparse sources with normalized observation vector clustering", ICASSP2006, 2006, Vol. 5, pp.33-36
【００８８】
【数８】

ここで、cは音速、⁻は一般化逆行列、Dは各マイクの座標ベクトル（この実施例では2次元とする）を並べた行列である。式(11)を以下の式(11')によって正規化する。
【００８９】
【数９】

なお、到来方向q(t)は、時刻tに到来している音声の方位角をθ(t)とすると、q(t)=[cosθ(t) sinθ(t)]である。
【００９０】
次に、到来方向推定部２２１は、q(t)=[cosθ(t) sinθ(t)]から得られる方向情報θ(t)をクラスタリングし、音声がある範囲の方向から到達する時刻tの集合T_nを得る。例えば、n=1,2,…,N、Δはある範囲を示す値とし、θ_ｎ-Δ≦θ(t)＜θ_ｎ+Δを満たす時刻tの集合をT_nとする。なお、θ_nは話者nのいる方向を表す。到来方向推定部２２１は、T_nを分離音信号生成部２２３に出力する。
【００９１】
（分離音信号生成部２２３）
分離音信号生成部２２３は、T_nを用いて、方向θ_nからの音声を強調する。なお、強調される音声を話者nの音声と考える。マイクロホンｍで収録される音信号を周波数領域に変換した信号x_m(f,t)を
【００９２】
【数１０】

と表す。ここで、nは、時刻tで発話している話者の番号であり、z_n(f,t)は話者nの音声信号の時間周波数表現であり、h_mn(f)は話者nからマイクmまでの周波数応答を表す。また全てのマイクの入力を並べたベクトルX(f,t)=[x₁(f,t), x₂(f,t),…, x_M(f,t)]^Tを
X(f,t)=H(f)^TZ(f,t)
Z(f,t)=[z₁(f,t), z₂(f,t),…, z_N(f,t)]^T
とする。なお、Tは転置を表し、H(f)はh_mn(f)を(n,m)要素として持つ行列である。この行列H(f)をここでは混合行列と呼ぶ。分離音信号生成部２２３は、混合行列H(f)を推定し、その逆行列H~^-1(f)を用いて分離音信号z~_n(f,t)を求める（ｓ２２３）。
【００９３】
【数１１】

ここで混合行列の逆行列の推定値H~^-1(f)は以下のように推定する。
【００９４】
【数１２】

但し、E[]は、方向θ_nから音声が到来する時刻の集合Ｔ_ｎに関して、平均値をとる操作を意味する。分離音信号生成部２２３は、求めた複数の分離音信号z~_n(f,t)を音声認識部２４０へ出力する。
【００９５】
＜音声／非音声判定部２３０＞
音声／非音声判定部２３０は、対象とする複数の話者の音声を含むディジタル音信号x₁(u), x₂(u),…, x_M(u)を所定の長さのフレームごとに取り出し、そのフレームの音信号x₁(t), x₂(t),…, x_M(t)を解析し、そのフレームの音信号x₁(t), x₂(t),…, x_M(t)に対象とする各話者nの音声が含まれているか否かを判定し、判定結果を音声／非音声判定結果d_n(t)として求め、認識単位発話判定部２５０に出力する（ｓ２３０）。音声／非音声判定部２３０は、例えば、到来方向推定部２３１と判定部２３３を備える。
【００９６】
（到来方向推定部２３１）
到来方向推定部２３１は、音源分離部２２０内の到来方向推定部２３１と同様の構成である。但し、フレーム時間長等は適宜設定してよい。本実施例では、音声／非音声判定部２３０と、音源分離部２２０及び音声認識部２４０で用いるフレーム時間長は同一のものとする。
【００９７】
到来方向推定部２３１において、複数のディジタル音信号x₁(u), x₂(u),…, x_M(u)を所定の長さのフレームごとに取り出し、そのフレームの音信号x₁(t), x₂(t),…, x_M(t)に対して高速フーリエ変換を行い、周波数領域の音信号x₁(f,t), x₂(f,t),…, x_M(f,t)を算出する。
【００９８】
そして、到来方向推定部２３１は、式（１０）、（１１）、（１２）を用いて、音声信号の到来方向q(t)=[cosθ(t) sinθ(t)]を推定し、さらにq(t)から得られる方向情報θ(t)をクラスタリングし、音声がある範囲の方向から到達する時刻tの集合T_nを得る（ｓ２３１）。
【００９９】
（判定部２３３）
判定部２３３は、到来方向推定部２３１において求めた集合T_nを用いて、音声／非音声判定値d_n(t)を
【０１００】
【数１３】

として求め（ｓ２３３）、認識単位発話判定部１５０に出力する。つまり、時刻tが方向θ_nから音声が到来する時刻の集合Ｔ_ｎに含まれる場合には、音声であると判定し、含まれない場合には、非音声であると判定する。
【０１０１】
＜音声認識部２４０＞
音声認識部２４０は、音源分離部２２０から送られた複数の分離音信号z~_n(f,t)を、それぞれ音声認識し（ｓ２４０）、各分離音信号z~_n(f,t)に対する音声認識結果を認識単位vⁿ_rの系列vⁿ={vⁿ₁, vⁿ₂,…,vⁿ_R}として求め、認識単位発話判定部１５０に出力する。また、音声認識部２４０は、各認識単位vⁿ_rの発話時間情報b(vⁿ_r)、e(vⁿ_r)とを求め、発話時間情報の系列beⁿを認識単位発話判定部２５０に出力する。音声認識の方法は実施例１と同様である。但し、入力は、音信号x(u)に代えて、フレームごとの各分離音信号z~_n(f,t)を用い、各分離音信号z~_n(f,t)に対して音声認識処理を行い、各話者ごとの認識単位vⁿ_rの系列vⁿと、対応する発話時間情報の系列beⁿとを求める点が異なる。
【０１０２】
＜認識単位発話判定部２５０＞
認識単位発話判定部２５０は、音声／非音声判定部２３０において得られる各話者のフレームごとの音声／非音声判定値d_n(t)と、音声認識部２４０において得られる各話者の認識単位の系列vⁿ及び発話時間情報の系列beⁿとを受け取って、図９の処理手順を用いて、各話者nの認識単位vⁿ_rの発話時間b(vⁿ_r),e(vⁿ_r)に対応するフレームの音声／非音声判定値の集計値s(vⁿ_r)を求め、集計値s(vⁿ_r)の大小に基づいて、認識単位ごとにその話者によって発話されたか否かを判定する（ｓ２５０）。認識単位発話判定部２５０は各話者の認識単位vⁿ_rの発話判定値s(vⁿ_r)がある閾値TX₁以上の場合に、vⁿ_rの開始時刻b(vⁿ_r)と終了時刻e(vⁿ_r)の間は音声区間であると判定してg(vⁿ_r)=1を出力し、TX₁未満の場合は時刻b(vⁿ_r)、e(vⁿ_r)の間は非音声区間であると判定してg(vⁿ_r)=0を出力する。処理内容は実施例１と同様である。但し、入力が、各話者の認識単位の系列vⁿと、発話時間情報の系列beⁿである点と、判定結果が各話者毎の値g(vⁿ_r)である点が異なる。また、実施例１と同様に音声／非音声判定部２３０と、音源分離部２２０及び音声認識部２４０で用いるフレーム時間長は異なってもよく、その場合には、実施例１と同様に、フレーム番号の変換処理、補間処理を行えばよい。
【０１０３】
＜結果出力部２６０＞
結果出力部２６０は、判定結果g(vⁿ_r)に応じて、音声区間の検出結果を出力する（ｓ２６０）。検出結果として、g(vⁿ_r)=1に対応するvⁿ_rのディジタル音信号x(b(vⁿ_r), e(vⁿ_r))を出力してもよいし、vⁿ_rの発話時間情報（開始時刻b(vⁿ_r)と終了時刻e(vⁿ_r)）を出力してもよい。
【０１０４】
＜効果＞
このような構成とすることによって、実施例１の効果に加え、対象とする複数の話者の音声を含むディジタル音信号から音声区間を検出することができるという効果を奏する。
【０１０５】
＜変形例１＞
本発明の音声区間検出方法を音声認識に用いる場合について説明する。図１０及び図１１を用いて、音声認識装置２００’は、実施例２と同様の構成を有する。但し、結果出力部２６０’の処理内容が異なる。
【０１０６】
結果出力部２６０’は、認識単位発話部２５０において対象とする話者によって発話されたと判定された認識単位vⁿ_rを、その対象とする話者の音声認識結果として出力する（ｓ２６０’）。つまり、音信号x(u)や発話時間情報(b(vⁿ_r),e(vⁿ_r))を出力するのではなく、認識結果vⁿ_rを出力することで、音声認識装置として機能する。
【０１０７】
このような構成とすることで、実施例１の変形例１と同様の効果を奏し、さらに、対象とする複数の話者の音声を含むディジタル音信号から音声認識することができる。
【０１０８】
なお、以下に示す実施例３、実施例４及び実施例５においても同様に、音声区間検出装置３００、４００及び５００を音声認識装置として機能させることができる。
【０１０９】
また、音源分離部２２０における音源分離技術として、他の従来技術を用いてもよい。
【実施例３】
【０１１０】
＜音声区間検出装置３００＞
図１２を用いて実施例３に係る音声区間検出装置３００を説明する。音声区間検出装置３００は、音声入力部２１０と、音源分離部３２０と、音声／非音声判定部３３０と、音声認識部２４０と、認識単位発話判定部２５０と、結果出力部２６０とを備える。音源分離部３２０と音声／非音声判定部３３０の処理内容が実施例２とは異なる。異なる部分についてのみ説明する。
【０１１１】
＜音源分離部３２０＞
音源分離部３２０は、対象とする複数の話者の音声を含むディジタル音信号x₁(u), x₂(u),…, x_M(u)を用いて、各話者の音声を強調した複数の分離音信号z~₁, z~₂,…, z~_Nを生成し、音声／非音声判定部３３０と音声認識部２４０に出力する。音源分離の手段としては、実施例２の方法と同様の方法を用いてもよい。
【０１１２】
＜音声／非音声判定部３３０＞
音声／非音声判定部３３０は、分離音信号z~₁(f,t), z~₂(f,t),…, z~_N(f,t)を解析し、そのフレームの音信号に対象とする各話者の音声が含まれているか否かを判定し、判定結果を音声／非音声判定結果として求める。判定方法は、実施例１の音声／非音声判定部１３０と同様である。但し、ディジタル音信号x(u)に代えて、各分離音信号z~₁(f,t), z~₂(f,t),…, z~_N(f,t)を用いて、それぞれの信号から音声／非音声判定値d_n(t)を求め、認識単位い発話判定部２５０に出力する。そのため、音声／非音声判定部３３０において、入力信号をフレームごとに取り出し、周波数領域へ変換する処理を行わなくともよい。
【０１１３】
このような構成とすることで、実施例２と同様の効果を得ることができる。
【実施例４】
【０１１４】
＜音声区間検出装置４００＞
図１３を用いて実施例４に係る音声区間検出装置４００を説明する。音声区間検出装置４００は、音声入力部２１０と、音源分離部４２０と、音声／非音声判定部４３０と、音声認識部２４０と、認識単位発話判定部２５０と、結果出力部２６０とを備える。音源分離部４２０と音声／非音声判定部４３０の処理内容が実施例２とは異なる。異なる部分についてのみ説明する。
【０１１５】
＜音源分離部４２０＞
音源分離部４２０内の到来方向推定部４２１は、T_nを分離音信号生成部２２３と音声／非音声判定部４３０に出力する。他の処理は実施例２と同様である。
【０１１６】
＜音声／非音声判定部４３０＞
音声／非音声判定部４３０は、方向θ_nから音声が到来する時刻の集合Ｔ_ｎを受け取り、これを用いて、音声／非音声判定値d_n(t)を
【０１１７】
【数１４】

として求め、認識単位発話判定部１５０に出力する。つまり、時刻ｔが方向θ_nから音声が到来する時刻の集合Ｔ_ｎに含まれる場合には、音声であると判定し、含まれない場合には、非音声であると判定する。
【０１１８】
このような構成とすることで、実施例２と同様の効果を得ることができる。さらに、音源分離部４２０内の到来方向推定部４２０の出力値T_nを分離音信号生成部２２３と音声／非音声判定部４３０で利用することで、計算量を削減することができる。
【実施例５】
【０１１９】
図１４を用いて実施例５に係る音声区間検出装置５００を説明する。音声区間検出装置５００は、音声入力部２１０と、音源分離部２２０と、音声／非音声判定部５３０と、音声認識部２４０と、認識単位発話判定部２５０と、結果出力部２６０とを備える。音声／非音声判定部５３０の処理内容が実施例２とは異なる。異なる部分についてのみ説明する。
【０１２０】
＜音声／非音声判定部５３０＞
音声／非音声判定部５３０は、対象とする複数の話者の音声を含むディジタル音信号x₁(u), x₂(u),…, x_M(u)を所定の長さのフレームごとに取り出し、そのフレームの音信号x₁(t), x₂(t),…, x_M(t)を解析し、そのフレームの音信号x₁(t), x₂(t),…, x_M(t)に対象とする各話者nの音声が含まれているか否かを判定し、判定結果を音声／非音声判定結果d_n(t)として求め、認識単位発話判定部２５０に出力する。
【０１２１】
音声／非音声判定部５３０は、例えば、特徴抽出部５３１と識別部５３３を備える。特徴抽出部５３１は実施例１の音声／非音声判定部１３０内の特徴抽出部１３１と同様の構成である。但し、対象とする複数の話者の音声を含むディジタル音信号x₁(u), x₂(u),…, x_M(u)を入力とするので、そのうちの１つのディジタル音信号x(u)を選択し、処理を行う点が異なる。
【０１２２】
（特徴抽出部５３１）
特徴抽出部５３１では、音声入力部２１０から出力されたディジタル音信号x₁(u), x₂(u),…, x_M(u)から１つのディジタル音信号x(u)を選択する。そして、ディジタル音信号x(u)をフレームごとに分割し、そのフレームの時間長に対応する振幅値のサンプル系列x(t)を取り出す。次に特徴抽出部５３１では、切り出されたディジタル音信号x(t)に対して高速フーリエ変換を行い、周波数領域の音信号x(f,t)を算出する。
【０１２３】
さらに、特徴抽出部５３１では、周波数領域の音信号x(f,t)を用いて、フレームtのP次元の対数メルスペクトルを要素に持つ音響特徴ベクトルO_t={o_t,0,o_t,1,…,o_t,P-1}を算出し、特徴抽出部５３１の出力とする。
【０１２４】
（識別部５３３）
識別部５３３では、まず入力音声の音声特徴ベクトルO_tと、別途用意した各話者の音声の確率モデルまたは非音声の確率モデル、例えば混合正規分布モデル（GMM: Gaussian Mixture Model）との尤度b_j(O_t)を次式のように計算する。
【０１２５】
【数１５】

但し、n'はGMMの種別を表し、n'=0,1,…,Nであり、n'=0のとき非音声モデルとし、n'=1,2,…，Nのとき、それぞれ各話者の音声モデルとする。kはGMMに含まれる正規分布の番号であり、k=1,2,…,Kとし、w_n',kはK番目の正規分布の混合重みを、μ_n',k,lは平均値を、σ²_n',k,lは分散値を表す。なお、非音声及び各話者の混合正規分布モデル（GMM）は、事前に非音声と各話者が発声した音声信号の音声特徴ベクトルを用いて学習し、用意しておく。図示しないＧＭＭ記憶部に、確率モデル(GMM)を記憶しておき、識別部５３３は、ＧＭＭ記憶部を参照して、上述の尤度b_n'(O_t)を計算する。
【０１２６】
次に識別部５３３では、以下の式により、フレームごとの音声／非音声判定値d_n(t)を求める。
【０１２７】
【数１６】

つまり、話者nの音声モデルが、全ての音声モデル及び非音声モデルの中で、最大の尤度を与える場合には、その話者の音声であると判定し、d_n(t)=1とし、それ以外の場合は、d_n(t)=0とする。
【０１２８】
このような構成とすることで実施例２と同様の効果を得ることができる。
【０１２９】
＜変形例＞
本実施例では、対象とする複数の話者の音声を含むディジタル音信号x₁(u), x₂(u),…, x_M(u)のうちの１つのディジタル音信号x(u)を選択し、処理を行っているが、全てのディジタル音信号x₁(u), x₂(u),…, x_M(u)から、音声／非音声判定値d_mn(t)を求め、その平均値を最終的な出力値d_n(t)としてもよい。このような構成とすることで、１つのマイクを選択することで生じる偏りを防止することができる。
【０１３０】
また、対象とする複数の話者の音声を含むディジタル音信号x₁(u), x₂(u),…, x_M(u)のうちの１つのディジタル音信号x(u)を選択し、非特許文献２記載の技術を用いて、情報量基準を利用して各話者の音声区間を判定し音声／非音声判定値d_n(t)を求めてもよい。さらに、全てのディジタル音信号から、音声／非音声判定値を求め、その平均値を最終的な出力値d_n(t)としてもよい。
【０１３１】
なお、本実施例の本実施例の音声／非音声判定部５３０を用いる場合には、１つのディジタル音信号x(u)だけで、そのディジタル音信号x(u)に複数の話者の音声を含まれている場合にも、Diarizationを行うことができる。但し、このとき、音声認識部においても、複数の話者の音声を含むx(u)のみを用いて音声認識を行うものとする。
【０１３２】
＜プログラム及び記録媒体＞
また、本発明による音声区間検出方法または音声認識方法をコンピュータプログラムで実装し、コンピュータからなる音声区間検出装置または音声認識装置を構成する。この場合はコンピュータに、目的とする装置（各種実施例で図に示した機能構成をもつ装置）として機能させるためのプログラム、またはその処理手順（各実施例で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。マイクで収録した音信号を入力として、本発明による音声区間検出方法または音声認識方法のコンピュータプログラムを実行し、その結果得られる音声区間だけを結果出力部を介してスピーカから再生したり、もしくは音声認識結果を結果出力部を介してディスプレイに表示しても良い。
【０１３３】
＜実験結果＞
実施例２の変形例１の音声認識装置２００’を用いて、図１５に示す環境にて音声認識実験を行った。実験では音声入力部２１０で8つのマイクロホンを用い、図１０に示す形態の音声認識装置２００’を構成した。話者は4名であった。ここで行われた会話は、話者のうち1名がある題材についての発表と、他の話者が自由なタイミングで質問を行うことによる質疑応答である。
【０１３４】
音源分離部２２０では8つのマイクロホンを、音声／非音声判定部２３０におけるDiarizationには、図１５の中心の3つのマイクロホンを用いた。フレーム長は64ms、フレームシフトは32msとした。音声認識部２４０は、図７に示す形態の音声認識システムを使用した。音響モデルには、43種類の音素に対するHMMを用意し、音素ごとに3つの状態があり、各状態にはその音素のコンテキスト（前にある音素は何か、後ろに続く音素は何か）に応じて3064種類ある確率密度分布の内の一つが割り当てられている。認識グラフとして、10万単語の発音と、その10万単語中に含まれる単語の3単語連鎖確率の対数値をアークの重みとして持つ認識グラフを構成した。音声認識装置２００’を用いて、参加者４名10分の会話音声を入力したときの音声認識結果の単語誤り率を以下の表に示す。ここで、単語誤り率とは、正解の文と認識結果とを比べたときの単語あたりの誤りの割合であり、通常次のように計算される。
【０１３５】
【数１７】

【０１３６】
置換誤り数は正解文の単語が認識結果の中で別の単語に認識された回数、挿入誤り数は正解文には存在しない単語が認識結果に挿入された回数、削除誤り数は正解文に含まれる単語が認識結果に含まれなかった回数を表している。単語誤り率が小さいほど、認識精度が高いことを意味する。
【０１３７】
また、比較のために、従来の音声区間検出によって得られた各音声区間を音声認識した場合の単語誤り率も併せて示す。従来法の音声区間検出では、音響特徴量は、フレーム長64ms、シフト長32msで入力音声を切り出し、12次元の対数メルスペクトルベクトル（P'= 12）を抽出した。音声／非音声判定部２３０内の識別部においては、音声と非音声の確率モデルにGMMを用い、各GMMはそれぞれK = 32の正規分布を有する。各GMMは前述の非特許文献1に開示された方法を用いて逐次的に生成、更新を行う。更に前述のエラー訂正処理も適用している。
【０１３８】
【表１】

単語誤り率を大幅に削減する効果があることが示された。また、単語誤り率が大幅に削減されたことから、音声区間検出の精度も改善されていることが分かる。
【符号の説明】
【０１３９】
１００、２００、３００、４００、５００音声区間検出装置
１００’、２００’ 音声認識装置
１１０、２１０音声入力部
１３０、２３０、３３０、４３０、５３０音声／非音声判定部
１４０、２４０音声認識部
１５０、２５０認識単位発話判定部
１６０、１６０’、２６０、２６０’ 結果出力部
２２０、３２０、４２０音源分離部

【特許請求の範囲】
【請求項１】
音信号を所定の長さのフレームごとに取り出し、そのフレームの音信号を解析し、そのフレームの音信号に対象とする話者の音声が含まれるか否かを判定し、判定結果を音声／非音声判定値として求める音声／非音声判定ステップと、
前記音信号の中に含まれる認識単位の系列と、各認識単位の発話時間情報とを求める音声認識ステップと
前記音声／非音声判定ステップにおいて得られるフレームごとの音声／非音声判定値と、前記音声認識ステップにおいて得られる認識単位の系列及び各認識単位の発話時間情報とを受け取って、前記認識単位の発話時間に対応する前記フレームの音声／非音声判定値の集計値の大小に基づいて、認識単位ごとに対象とする話者によって発話されたか否かを判定する認識単位発話判定ステップと、
を有する音声区間検出方法。
【請求項２】
対象とする複数の話者の音声を含む音信号を所定の長さのフレームごとに取り出し、そのフレームの音信号を解析し、そのフレームの音信号に対象とする各話者の音声が含まれているか否かを判定し、判定結果を音声／非音声判定結果として求める音声／非音声判定ステップと、
前記対象とする複数の話者の音声を含む音信号を用いて、各話者の音声を強調した複数の分離音信号を生成する音源分離ステップと、
前記分離音信号の中に含まれる認識単位の系列と、各認識単位の発話時間情報とを求める音声認識ステップと
前記音声／非音声判定ステップにおいて得られる各話者のフレームごとの音声／非音声判定値と、前記音声認識ステップにおいて得られる各話者の認識単位の系列及び各認識単位の発話時間情報とを受け取って、各話者の前記認識単位の発話時間に対応する前記フレームの音声／非音声判定値の集計値の大小に基づいて、認識単位ごとにその話者によって発話されたか否かを判定する認識単位発話判定ステップと、
を有する音声区間検出方法。
【請求項３】
請求項１または２記載の音声区間検出方法を用いた音声認識方法であって、
前記認識単位発話ステップにおいて、対象とする話者によって発話されたと判定された認識単位だけを、その対象とする話者の音声認識結果として出力する結果出力ステップを備える、
ことを特徴とする音声認識方法。
【請求項４】
音信号を所定の長さのフレームごとに取り出し、そのフレームの音信号を解析し、そのフレームの音信号に対象とする話者の音声が含まれるか否かを判定し、判定結果を音声／非音声判定値として求める音声／非音声判定部と、
前記音信号の中に含まれる認識単位の系列と、各認識単位の発話時間情報とを求める音声認識部と
前記音声／非音声判定部において得られるフレームごとの音声／非音声判定値と、前記音声認識部において得られる認識単位の系列及び各認識単位の発話時間情報とを受け取って、前記認識単位の発話時間に対応する前記フレームの音声／非音声判定値の集計値の大小に基づいて、認識単位ごとに対象とする話者によって発話されたか否かを判定する認識単位発話判定部と、
を有する音声区間検出装置。
【請求項５】
対象とする複数の話者の音声を含む音信号を所定の長さのフレームごとに取り出し、そのフレームの音信号を解析し、そのフレームの音信号に対象とする各話者の音声が含まれているか否かを判定し、判定結果を音声／非音声判定結果として求める音声／非音声判定部と、
前記対象とする複数の話者の音声を含む音信号を用いて、各話者の音声を強調した複数の分離音信号を生成する音源分離部と、
前記分離音信号の中に含まれる認識単位の系列と、各認識単位の発話時間情報とを求める音声認識部と
前記音声／非音声判定部において得られる各話者のフレームごとの音声／非音声判定値と、前記音声認識部において得られる各話者の認識単位の系列及び各認識単位の発話時間情報とを受け取って、各話者の前記認識単位の発話時間に対応する前記フレームの音声／非音声判定値の集計値の大小に基づいて、認識単位ごとにその話者によって発話されたか否かを判定する認識単位発話判定部と、
を有する音声区間検出装置。
【請求項６】
請求項４または５記載の音声区間検出装置を用いた音声認識装置であって、
前記認識単位発話部において、対象とする話者によって発話されたと判定された認識単位だけを、その対象とする話者の音声認識結果として出力する結果出力部を備える、
ことを特徴とする音声認識装置。
【請求項７】
請求項４乃至請求項６の何れかに記載の音声区間検出装置または音声認識装置としてコンピュータを機能させるためのプログラム。
【請求項８】
請求項７記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図１】