説明

音声区間検出装置及び音声認識装置、プログラム並びに記録媒体

【課題】
音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置を提供する。
【解決手段】
音声区間検出装置100は、音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1マルチモーダルVAD部131と、音響特徴量のみを用いて音声区間の判定を行う音声ユニモーダルVAD部132と、画像特徴量のみを用いて音声区間の判定を行う画像ユニモーダルVAD部133と、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133の判定を統合して、音声区間の判定を行う第2マルチモーダルVAD部134と、第1マルチモーダルVAD部131、第2マルチモーダルVAD部134の判定結果を多数決原理で統合して音声区間の判定を行う第3マルチモーダルVAD部135を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声発話区間を検出する音声区間検出装置及び音声をテキストに変換する音声認識装置、プログラム並びに記録媒体に関する。
【背景技術】
【0002】
音声認識は、入力された音声信号を、音響処理・音響分析により時系列の音響特性に変換し、この音響特性、すなわち、特徴量を用いてパターンマッチングなどにより、テキストに変換する技術である。音声認識では、音響処理・音響分析を行う前に、音声区間検出により、入力音声を適切な区間で分割しつつ、分割したそれぞれの区間を音声区間又は非音声区間とラベル付けする処理を加えることが多い。この場合、音声区間検出により音声区間としてラベル付けされた音声信号のみ後段の音声認識処理を行う。
【0003】
音声区間検出は、モデルベースの手法と非モデルベースの手法の2種類に大別される。モデルベースの手法では、事前に音声と非音声のモデルを構築しておく。そして、入力に対して、音声のモデルと非音声のモデルの両モデルを用いて音声と非音声のどちらに近いかを計算し、その結果により、ラベル付けを行う。
【0004】
非モデルベースの手法では、まず、入力信号からパワーなどの特徴を基にスコアを計算する。このスコアが一定の閾値を越えている場合は音声区間、そうでない場合には、非音声区間とする。例えば、非特許文献1では、入力信号を周期性・非周期性成分に分解し、両者のパワー比をスコアとして音声区間か否かを同定している。
【0005】
一方、音声認識の一手法として音声信号だけでなく、発声時の口唇動画像を用いる、マルチモーダル音声認識がある。マルチモーダル音声認識では、入力動画像を時系列の画像特徴量に変換し、この画像特徴量と音響特徴量を連結して音響画像特徴量を生成する。そして、この音響画像特徴量を用いることにより、音声認識を行う。
【0006】
マルチモーダル音声認識の例として、非特許文献2では、入力画像を予め用意しておいた主成分ベクトルにより主成分分析し、得られた主成分係数を画像特徴量として用いる。又、認識においては、マルチストリームHMM(Hidden Markov Model,HMM)を利用し、音声と画像の重み付けを適切に行うことで、音声認識の性能を向上させている。
【0007】
音声区間検出においても、同様に画像情報を用いる手法が提案されている。例えば、特許文献1では、入力画像から口唇形状を求め、以前に抽出した口唇形状と比較することにより、動き形状を計算する。これをウェーブレット変換し、その高周波領域の値を閾値処理することにより、音声区間を検出している。
【0008】
又、特許文献2では、音声信号を一定時間毎にフレーム単位に分割し、各フレームでパワーとゼロ交差率を計算し、条件を満たしたものを音声区間候補とする。ついで入力画像から動き領域を検出し、動き領域の特徴と予め用意した特徴との類似度を求め、閾値により唇動き信号を生成する。その上で、音声区間候補において唇動き信号が検出された場合に、音声区間と判定している。
【0009】
なお、先行技術を調査した結果、音声区間検出装置として特許文献3の発明が提案されている。特許文献3の音声区間検出装置は、話者の音声波と口唇画像情報を音声認識のための情報源にするものである。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開平6−301393号公報
【特許文献2】特開2007−156493号公報
【特許文献3】特開昭59−147398号公報
【非特許文献】
【0011】
【非特許文献1】石塚・中谷、「信号の周期性・非周期性成分の比を用いた耐雑音音声区間検出の評価」、日本音響学会2006年春季講演論文集、3−9−11。
【非特許文献2】宮島・徳田・北村、「最小誤り学習に基づくバイモーダル音声認識」、日本音響学会2000年春季講演論文集、1−Q−14。
【発明の概要】
【発明が解決しようとする課題】
【0012】
従来の音声認識技術は、背景雑音の存在する環境において、認識性能が著しく低下するという問題を抱えていた。
この問題の解決手法の一つとして、前処理として音声区間検出をもつ音声認識手法が提案されている。音声区間検出は、非音声区間での誤認識の抑制に有効であるという利点があり、広く用いられている。ところが、音声区間検出それ自体も、雑音による検出性能の低下は避けられないという課題を抱えている。音声信号に依存する限り、この問題を解決することは困難である。
【0013】
音声認識の性能低下を抑制する手法として、マルチモーダル音声認識がある。マルチモーダル音声認識では、音声信号に加え、音響雑音の影響を受けない画像情報をあわせて用いるため、認識性能の低下を抑制することが可能である。
【0014】
その一方、マルチモーダル音声認識においても、雑音が重畳した音声信号の影響により、非音声区間における誤認識の問題は依然として残り、この対処が課題となっていた。加えて、認識性能の改善には音声信号から得られる情報と画像情報から得られる情報を効果的に利用することが肝要であるが、従来のマルチモーダル音声認識の枠組みでは十分でないことも問題であった。
【0015】
なお、特許文献3の音声区間検出装置は、単に音声波と口唇画像情報を音声認識のための情報源として組み合わせたことのみしか提案されておらず、この構成のみでは、音響雑音の影響を抑制して、音声区間検出の精度の向上を望むことは期待できない。
【0016】
本発明の目的は、音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置を提供することにある。
【0017】
本発明の他の目的は、音声信号と口唇動画像信号を用いる従来のマルチモーダル音声認識が有する、雑音下でも頑健な音声認識が可能な利点を備えつつ、前処理として音声区間検出装置を備えることで、非音声区間での誤認識を抑制できる音声認識装置を提供することにある。
【0018】
又、本発明の他の目的は、コンピュータを、音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置とすることができるプログラムを提供することにある。
【0019】
本発明の他の目的は、コンピュータを、音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置とすることができるプログラムを記憶した記録媒体を提供することにある。
【課題を解決するための手段】
【0020】
上記目的を達成するために、請求項1に記載の発明は、発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段を備えた音声区間検出装置において、前記音声区間判定手段は、前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とする音声区間検出装置を要旨とするものである。
【0021】
請求項2の発明は、請求項1において、前記音響特徴量抽出手段、及び画像特徴量抽出手段は、モデルベース及び非モデルベースの手法により、音響特徴量及び画像特徴量をそれぞれ抽出し、前記第1乃至第4判定手段は、前記モデルベース及び非モデルベースの手法で抽出した特徴量に基づいて音声区間の判定を行うことを特徴とする。
【0022】
請求項3の発明は、請求項1又は請求項2に記載の音声区間検出装置が判定した音声区間の判定に基づいて前記音声入力手段が出力した音声信号の音声区間を切り出し、切り出した音声区間内の音声信号から音声認識用の音響特徴量を算出する音響特徴量算出手段と、前記音声区間検出装置が判定した音声区間内の画像フレームから音声認識用の画像特徴量を算出する画像特徴量算出手段と、前記音声認識用の音響特徴量及び前記音声認識用の画像特徴量を用いて、音声認識用の音響画像特徴量を生成する特徴量生成手段と、生成された音声認識用の音響画像特徴量に基づいて音声認識を行うマルチモーダル音声認識手段を備えたことを特徴とする音声認識装置を要旨とするものである。
【0023】
請求項4の発明は、コンピュータに、発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段として、機能させるためのプログラムであって、前記音声区間判定手段は、前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とするプログラムを要旨とするものである。
【0024】
請求項5は、コンピュータに、発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段として、機能させるためのプログラムを記憶したコンピュータ読取り可能な記録媒体であって、前記音声区間判定手段は、前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とするコンピュータ読取り可能な記録媒体を要旨とするものである。
【発明の効果】
【0025】
請求項1の発明によれば、音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置を提供できる。すなわち、請求項1の発明によれば、音声信号のみならず、口唇動画像を用いることにより、音声区間検出における音響雑音の影響を抑制することができ、雑音環境下でも高い精度で音声区間を検出することができる。
【0026】
請求項2の発明によれば、音響特徴量抽出手段、及び画像特徴量抽出手段は、モデルベース及び非モデルベースの手法により、抽出した音響特徴量及び画像特徴量を用いていることから、モデルベース及び非モデルベースの音響特徴量及び画像特徴量に基づいて、多様な情報に基づいて音声区間を検出でき、雑音環境下でも高い精度で音声区間を検出することができる。
【0027】
請求項3の発明によれば、音声認識装置は、音声信号と口唇動画像を用いる従来のマルチモーダル音声認識が有する、雑音下でも頑健な音声認識が可能という利点を備えつつ、前処理を行う音声区間検出装置を備えることにより、非音声区間での誤認識を抑制することができる。この結果、雑音環境下でも高い音声認識性能を発揮できる。
【0028】
請求項4の発明によれば、プログラムを実行することによりコンピュータを請求項1に記載の音声区間検出装置として容易に実現することができる。
請求項5の発明によれば、コンピュータにこの記録媒体を読取りさせることにより、コンピュータを請求項1に記載の音声区間検出装置として容易に実現することができる。
【図面の簡単な説明】
【0029】
【図1】一実施形態の音声区間検出装置、及び音声認識装置の機能ブロック図。
【図2】コンピュータの概略図。
【図3】オプティカルフローの説明図。
【図4】音響画像特徴量の生成例の説明図。
【図5】音声区間検出の出力例の説明図。
【図6】最終統合型音声区間検出の例の説明図。
【図7】音声区間検出の結果の補償例の説明図。
【図8】音声認識用の画像特徴量の算出に使用される窓の説明図。
【発明を実施するための形態】
【0030】
以下、本発明を具体化した音声区間検出装置、及び音声認識装置の一実施形態を図1〜図8を参照して説明する。
図1に示すように、音声区間検出装置100及び音声認識装置200は、共通のコンピュータ10からなる。該コンピュータ10は、図2に示すように、CPU20、ROM30、RAM40、及びハードディスク等の記憶装置50を備えている。ROM30には、音声区間検出プログラム及び音声認識プログラムが格納されている。コンピュータ10には、マイクロフォン60及び撮像手段70が接続され、発話者の音声及び口唇動画像が入力可能になっている。ROM30は、記録媒体に相当する。なお、音声区間検出プログラムをRAM40に格納している場合は、RAM40が記録媒体に相当する。
【0031】
音声区間検出装置100は、前記コンピュータ10により、前記音声区間検出プログラムが実行されると、下記の各部の機能を実現する。すなわち、音声区間検出装置100は、図1に示すように、音声入力部101、音響特徴量抽出部102、画像入力部111、画像特徴量抽出部112、音響画像特徴量生成部121、初期統合型音声区間検出部(以下、第1マルチモーダルVAD部という)131、音声ユニモーダル音声区間検出部(以下、音声ユニモーダルVAD部という)132、画像ユニモーダル音声区間検出部(以下、画像ユニモーダルVAD部という)133、結果統合型音声区間検出部(以下、第2マルチモーダルVAD部という)134及び最終統合型音声区間検出部(以下、第3マルチモーダルVAD部という)135を備えている。なお、VADは、Voice Activity Detection (音声区間検出)の意味である。
【0032】
又、音声認識装置200は、前記コンピュータ10により、前記音声認識プログラムが実行されると、下記の各部の機能を実現する。
すなわち、音声認識装置200は、図1に示すように、音声区間検出補償部201、音声切り出し部301、音声認識用の音響特徴量抽出部302、画像切り出し部311、音声認識用の画像特徴量抽出部312、音声認識用の音響画像特徴量生成部321、及びマルチモーダル音声認識部331を備える。
【0033】
以下、音声区間検出装置100及び音声認識装置200の作用を説明する。
音声区間検出装置100の音声入力部101は、発話者の音声がマイクロフォン60により電気信号に変換された音声信号(すなわち、アナログ信号)を入力し、該音声信号を標本化定理により原信号が復元できるように標本化を行うとともに、適当な量子化ステップで量子化を行い、ディジタル信号に変換する。音声入力部101は音声入力手段に相当する。
【0034】
音響特徴量抽出部102は、前記ディジタル信号から、音響特徴量を計算(すなわち、抽出)する。例えば、音響特徴量抽出部102は、一定時間長を持つ音声フレームを一定時間毎に抽出し、抽出したフレーム毎に、音声信号の対数パワー及びメル尺度ケプストラム係数(Mel-Frequency Cepstrum Coefficient、MFCC)を求め、対数パワー及びメル尺度ケプストラム係数の、それぞれについて一次微分係数、二次微分係数を算出する。なお、音声フレームには、フレーム番号(ID)が付与される。
【0035】
ここで、本実施形態では、音響特徴量抽出部102が算出した音響特徴量のうちいずれか、又は複数を音声区間検出用の音響特徴量として使用する。
すなわち、音響特徴量抽出部102は、後述するモデルベースの手法及び非モデルベースの手法に使用される音響特徴量を算出する。
【0036】
なお、非モデルベースの手法では、対数パワーのみが使用される。モデルベースの手法では、上記した全ての音響特徴量が使用される。すなわち、本実施形態のモデルベースの手法では、音響特徴量は、MFCC12次元及び対数パワー、並びに、MFCC12次元と対数パワーの動的特徴を示す一次微分係数、二次微分係数の計39次元が用いられる。音響特徴量抽出部102は、音声区間検出用の音響特徴量抽出手段に相当する。
【0037】
画像入力部111は、ビデオカメラ、或いはWEBカメラ等の動画像を撮像する撮像手段70を使用して発話者の口唇動画像を入力し、該口唇動画像を適切なフレームレート、及び適切な幅、高さを有した静止画像時系列に変換する。以下、この静止画像を画像フレームという。画像フレームは、W(横画素数)×H(縦画素数)からなる。画像入力部111は、画像入力手段に相当する。
【0038】
画像特徴量抽出部112は、ある時点での画像フレームと、それよりも一つ前の画像フレームを用いて、図3に示すように、オプティカルフロー(Optical Flow)を計算する。オプティカルフローは、画像フレーム上の各画素の動きベクトルのことである。しかる後に、画像特徴量抽出部112は、画像フレーム全体におけるオプティカルフローの縦方向成分及び横方向成分の平均及び分散を計算する。
【0039】
ここで、下記は、縦方向成分及び横方向成分の平均及び分散の算出例である。
【0040】
【数1】

ただし、得られた点(x,y)におけるオプティカルフローのベクトル(u(x,y),v(x,y))、画像フレームの幅をW、高さをHとする。
【0041】
すなわち、画像特徴量抽出部112は、画像フレーム全体から、オプティカルフローの平均、及び分散を縦横それぞれ2次元ずつ合わせて4次元の画像特徴量を求める。
オプティカルフローでは、発話者が発話するときは、口が動くことで、フローベクトルが発生し、画像領域内の平均値が大きくなる。又、口が動くことでフローベクトルの発生の有無が生じ、フローベクトルの分散値が大きくなるため、それらを画像特徴量として求めるのである。
【0042】
後述するモデルベースの手法、及び非モデルベースの手法では、それぞれ、上記で得られた画像特徴量のうち、いずれか1つ、又は複数を音声区間検出用の画像特徴量として選択して採用される。
【0043】
例えば、モデルベースの手法では、上記の全ての画像特徴量が使用される。又、非モデルベースの手法では、縦方向の分散が使用される。これは、発話者の口が動いていない場合には、絶対値の小さいオプティカルフローのみが観測されるため、分散値は小さくなり、口が動いている場合は、頬などの動きが小さい箇所と口唇など動きの大きい箇所が混在するため分散値が大きくなることを利用している。画像特徴量抽出部112は、音声区間検出用の画像特徴量抽出手段に相当する。
【0044】
音響画像特徴量生成部121は、音響特徴量抽出部102で得られた音響特徴量と、該音響特徴量のフレーム番号に対応して画像特徴量抽出部112で得られた画像特徴量を単純に連結して、音声区間検出用の音響画像特徴量を生成(すなわち、統合)する。音響特徴量と画像特徴量は、図4に示すようにフレームレートが異なることがある。この場合、音響画像特徴量生成部121は、フレームレートの調整(すなわち、フレームレート調整処理)を行う。例えば、音響画像特徴量生成部121は、より低いフレームレートをもつ特徴量に対しては、時間方向に3次元スプライン関数を用いて補間を行うことにより、低いフレームレートをもつ特徴量のフレームレートを上げ、他方の特徴量の高いフレームレートと合わせるフレームレートの調整を行う。調整されたフレームには、音響特徴量抽出部102で付与されたフレーム番号(ID)と同期するように、すなわち、一致するように付与される。
【0045】
図4の例では、音響画像特徴量生成部121は、フレームレートが30Hzの画像特徴量を、3次元スプライン関数で補間することにより、フレームレートが100Hzの画像特徴量にし、その後、フレームレートが100Hzの音響特徴量と連結することにより、フレームレートが100Hzの音響画像特徴量を生成している。
【0046】
第1マルチモーダルVAD部131は、音響画像特徴量生成部121で得られた音響画像特徴量を用いて、モデルベースの手法及び非モデルベースの手法をそれぞれ実行し、初期統合による音声区間検出を行う。
【0047】
具体的には、第1マルチモーダルVAD部131は、モデルベースの手法の場合、隠れマルコフモデルの一種であるマルチストリームHMMを予め作成しておき、ビタビアルゴリズムによる前記音響画像特徴量と前記隠れマルコフモデル(マルチストリームHMM)とのマッチングを行い、最も類似度の高いと判定された音声区間・非音声区間の時系列を結果として出力する。なお、前記マルチストリームHMMは、記憶装置50に予め記憶されている。
【0048】
ここで、音声区間・非音声区間の時系列、すなわち、順番に並んだフレームのうち、前記音声区間と判定された各フレームが、音声区間候補となる。
出力例を、図5に示す。
【0049】
図5において、α,βは、音響画像特徴量のフレーム番号(ID)を示している。例えば、「0」は非音声区間(non−speech)の開始フレーム番号を示し、「44」は、当該非音声区間(non−speech)の終了フレーム番号である。又、図5において、「45」は、音声区間(speech)の開始フレーム番号を示し、「60」は、当該音声区間(speech)の終了フレーム番号である。ここで、「45」〜「60」が音声区間候補である。以下、同様である。
【0050】
なお、前記マルチストリームHMMは、画像と音響からそれぞれ抽出した前述の各種の特徴量を用いて、音声と非音声のそれぞれのHMMを教師有り学習をさせたものである。本実施形態では、マルチストリームHMMは、音声状態のHMM(音声HMM)、非音声状態のHMM(非音声HMM)間を交互に遷移する状態遷移モデルを構成する。そして、第1マルチモーダルVAD部131は、前記音響画像特徴量と、上記音声HMMと非音声HMMのマッチングを行い、上記音声HMMと非音声HMMのそれぞれの対数尤度によって音声/非音声状態の識別を行う。
【0051】
本実施形態では、初期統合において、マルチストリームHMMを用いた場合、下記のようにストリーム重みを調整できる。このため、いずれか一方の特徴量の性能が悪くても、ストリーム重みを調整することにより、もう一方の特徴量でカバーして補うことができる。
【0052】
すなわち、マルチストリームHMMの出力対数尤度は式(1)でbAVと表わすことができる。式(1)において、OA ,OV は、それぞれ音響特徴量、画像特徴量を表わし、bA(OA ),bV (OV )はそれぞれに対応した対数尤度を表わしている。
【0053】
AV=λAA (OA )+λVV (OV )………(1)
ここで、λA ,λV はそれぞれ音響特徴量、画像特徴量のストリーム重みを表わし、式(2)の関係を持つ。
【0054】
λA +λV =1 (0≦λA、λV ≦1) ………(2)
一方、非モデルベースの手法では、第1マルチモーダルVAD部131は、音響特徴量と画像特徴量を線形結合によりスコアに変換し、閾値処理(すなわち、閾値以上の値をもつものを選択(以下、同じ。))することにより、音声区間・非音声区間の時系列結果を出力する。前記線形結合の処理は、音声と画像の重み付けを行うパラメータを乗算して線形結合する。
【0055】
モデルベースの手法、非モデルベースの手法のいずれにおいても、音声と画像の重み付けを行うパラメータ(すなわち、前記λA ,λV、及び前記線形結合に使用するパラメータ)があり、これらは、予め試験により、最も識別結果が良好となるように設定するものとする、又は、各モダリティの雑音状況などに応じて前記パラメータを設定するものとする。
【0056】
音響画像特徴量生成部121、第1マルチモーダルVAD部131は、第1判定手段に相当する。
音声ユニモーダルVAD部132は、音響特徴量抽出部102で抽出した音響特徴量のみの情報に基づき、モデルベースの手法、及び非モデルベースの手法でそれぞれ音声区間検出を行う。音声ユニモーダルVAD部132は、第2判定手段に相当する。
【0057】
すなわち、音声ユニモーダルVAD部132は、モデルベースの手法では、予め作成されて、記憶装置50に記憶したHMMを用いたり、或いは混合正規分布(Gaussian Mixture Model 、GMM)を用いて、HMMと音響特徴量とのマッチングを行い、或いは、GMMと音響特徴量とのマッチングを行うことにより、音響特徴量のみの情報に基づいて、音声区間候補を出力する。
【0058】
音声ユニモーダルVAD部132は非モデルベースの手法では、対数パワー(音響特徴量)から、公知の方法で音響スコアを計算して、閾値処理することにより、音声区間候補を出力する。
【0059】
音声ユニモーダルVAD部132は、前記音声区間候補を出力する際、該音声区間候補の開始フレーム番号及び終了フレーム番号、並びに、その音声区間候補の確からしさとして信頼度スコアを合わせて出力する。モデルベースの手法における信頼度スコアの算出例については後述する。
【0060】
非モデルベースの手法では、前記音響スコアを挙げることができる。音響スコアが高いほど、音声区間としての信頼度が高いことを意味する。すなわち、非モデルベースの手法では、各フレーム毎に、対数パワーの値を、音響スコアとし、得られた音響スコア(信頼度スコア)をモデルベースのときと同様に利用する。
【0061】
画像ユニモーダルVAD部133は、画像特徴量抽出部112で抽出した画像特徴量のみの情報に基づき、モデルベースの手法、及び非モデルベースの手法でそれぞれ音声区間検出を行う。画像ユニモーダルVAD部133は、第3判定手段に相当する。
【0062】
すなわち、画像ユニモーダルVAD部133は、モデルベースの手法では、予め作成されて、記憶装置50に記憶したHMMを用いたり、或いは混合正規分布(Gaussian Mixture Model 、GMM)を用いて、HMMと画像特徴量とのマッチングを行い、或いは、GMMと画像特徴量とのマッチングを行うことにより、画像特徴量のみの情報に基づいて、音声区間候補(音声区間候補の開始フレーム番号及び終了フレーム番号、以下、同じ。)を出力し、信頼度スコアを付与する。
【0063】
又、画像ユニモーダルVAD部133は、非モデルベースの手法では、画像特徴量(縦方向の分散)を閾値処理することにより、画像情報における音声区間候補を判定し、該音声区間候補を出力し、信頼度スコアを付与する。
【0064】
前記信頼度スコアは、音声区間候補の確からしさを表わす。モデルベースの手法における信頼度スコアの算出例については後述する。
なお、前述したように、音響特徴量と画像特徴量は、フレームレートが異なることがある。この場合、画像ユニモーダルVAD部133は、音響画像特徴量生成部121と同様に画像のフレームレートの調整(すなわち、フレームレート調整処理)を行う。例えば、画像ユニモーダルVAD部133は、より低いフレームレートをもつ画像特徴量に対しては、時間方向に3次元スプライン関数を用いて補間を行うことにより、低いフレームレートをもつ特徴量のフレームレートを上げ、他方の音響特徴量の高いフレームレートと合わせることにより、フレームレートの調整を行った後、前述のモデルベースの手法、及び非モデルベースの手法でそれぞれ音声区間検出を行う。
【0065】
次に、第2マルチモーダルVAD部134の統合処理について説明する。
第2マルチモーダルVAD部134における音声区間検出の処理は、信頼度スコアを使用する場合、信頼度スコアを使用しないで、論理演算を使用する場合、或いは、両方をともに行う場合がある。
【0066】
本実施形態の第2マルチモーダルVAD部134では、両方を行って、それぞれの場合における音声区間候補を出力する。第2マルチモーダルVAD部134は、第4判定手段に相当する。
【0067】
(信頼度スコアの算出例)
ここで、モデルベースの手法における信頼度スコアの算出例について説明する。
前記音声ユニモーダルVAD部132では、非音声モデルが出力するフレームtにおける対数尤度La(t)の値又はその傾きに定数を乗じた値を、音声信頼度スコアCa(t)として出力する。
【0068】
又、同様に、画像ユニモーダルVAD部133では、非音声モデルが出力するフレーム毎の対数尤度Lv(t)の値又はその傾きに定数を乗じた値を、画像信頼度スコアCv(t)として出力する。
【0069】
これらの信頼度スコアは、正の値を持つ場合は、非音声区間としての信頼性が高く、負の値をもつ場合は、非音声区間としての信頼性が低いことを意味する。
これらの信頼度スコアは、正の値を持つ場合は、音声区間としての信頼性が高く、負の値をもつ場合は、音声区間としての信頼性が低いことを意味する。
【0070】
次に、第2マルチモーダルVAD部134の統合処理について説明する。
(信頼度スコアを使用する場合)
第2マルチモーダルVAD部134は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133で得られた音声区間候補に対して、前記信頼度スコアに基づいて、これらを統合して、音声区間結果を出力する。
【0071】
第2マルチモーダルVAD部134は、例えば、音声、画像の信頼度スコアをそれぞれ正規化した後に、正規化した各信頼度スコアに重みパラメータλを乗算した上で線形結合し、線形結合した結果が予め設定された閾値を越えた音声区間のみを出力する。なお、重みパラメータは、各モダリティの雑音状況などに応じて予め設定されている。
【0072】
下記は信頼度スコアC(t)の算出例である。
C(t)=C(t)+λC(t)
λは、スケーリング係数(重みパラメータ)である。Ca(t)は正規化した音声信頼度スコア、C(t)は、正規化した画像信頼度スコアである。
【0073】
ここで、第2マルチモーダルVAD部134は、音声ユニモーダルVAD部132が出力する音声区間候補と、画像ユニモーダルVAD部133が出力する音声区間候補の、少なくとも、一方を音声区間と判定したとき、C(t)が正の値をもつ場合は、そのまま音声区間候補として出力し、C(t)が負の値をもつ場合は、非音声区間候補として出力する。
【0074】
(信頼度スコアを使用しない場合)
第2マルチモーダルVAD部134は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれモデルベースの手法で得られた音声区間候補に対して、フレーム毎に論理演算を用いたAND統合と、OR統合を行う。
【0075】
モデルベースの手法で得られた音声区間候補に対するAND統合は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれモデルベースの手法で得られた音声区間検出の結果がともに音声区間であるフレームのみ、音声区間とする統合である。
【0076】
モデルベースの手法で得られた音声区間候補に対するOR統合は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれモデルベースの手法で得られた音声区間検出の結果のいずれか一方が音声区間であるフレームを、音声区間とする統合である。
【0077】
さらに、第2マルチモーダルVAD部134は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれ非モデルベースの手法で得られた音声区間候補に対して、論理演算に従ってAND統合と、OR統合を行う。すなわち、非モデルベースの手法で得られた音声区間候補に対するAND統合は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれ非モデルベースの手法で得られた音声区間検出の結果がともに音声区間であるフレームのみ、音声区間とする統合である。又、非モデルベースの手法で得られた音声区間候補に対するOR統合は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれ非モデルベースの手法で得られた音声区間検出の結果のいずれか一方が音声区間であるフレームを、音声区間とする統合である。
【0078】
第3マルチモーダルVAD部135は、第1マルチモーダルVAD部131で出力されたモデルベースの音声区間候補及び非モデルベースの音声区間候補、並びに第2マルチモーダルVAD部134で出力されたモデルベースの音声区間候補及び非モデルベースの音声区間候補を使用して、音声区間結果を最終的に統合処理する。
【0079】
この統合処理は、図6に示すように、音声区間候補のある時刻フレーム(すなわち、フレーム番号)が音声区間か否かを、それぞれの音声区間検出結果、すなわち、入力された第3マルチモーダルVAD部135に入力された全ての音声区間候補の多寡(多数決)により決定する処理(すなわち、多数決原理)である。
【0080】
このようにして、第3マルチモーダルVAD部135では、多数決により決定された音声区間を音声認識装置200に出力する。
このように、初期統合型マルチモーダル音声区間検出と、結果統合型音声区間マルチモーダル音声区間検出のそれぞれが検出した音声区間候補を多数決原理で最終的に、第3マルチモーダルVAD部135により音声区間候補と決定することにより、音声区間検出における音響雑音の影響を抑制することができる。
【0081】
第3マルチモーダルVAD部135は、第5判定手段に相当する。又、第1マルチモーダルVAD部131、音声ユニモーダルVAD部132、画像ユニモーダルVAD部133、第2マルチモーダルVAD部134及び第3マルチモーダルVAD部135は、音声区間判定手段に相当する。
【0082】
音声区間検出補償部201は、第3マルチモーダルVAD部135により決定された音声区間に対して、音声認識の向上に特化した音声区間検出の識別誤りを補償する処理を行う。具体的には、図7に示すように、音声区間に挟まれた一定時間(閾値)に満たない非音声区間aがある場合、音声区間検出補償部201は、この非音声区間aを識別誤りであると判定して、この非音声区間を音声区間に組み入れる。
【0083】
音声切り出し部301は、音声区間検出補償部201で修正された音声区間検出の結果に基づいて、音声区間とラベル付けされた時間区間に対応する音声信号のみを切り出し、切り出した音声信号を音響特徴量抽出部302に出力する。
【0084】
音響特徴量抽出部302は、音声切り出し部301で切り出された区間に対し、音声認識に供する音響特徴量を計算する。すなわち、音響画像特徴量のフレーム毎に対数パワーとMFCC、それらの一次微分係数、二次微分係数を計算する。音響特徴量抽出部302は、音響特徴量算出手段に相当する。
【0085】
画像切り出し部311は、音声切り出し部301と同様に、音声区間検出補償部201から得られる音声区間に対応する画像フレームを画像特徴量抽出部312に出力する。
画像特徴量抽出部312は、画像切り出し部311から得られる画像フレームを用いて音声認識に供する画像特徴量を抽出する。画像特徴量抽出部312は、画像特徴量算出手段に相当する。
【0086】
具体的には、画像特徴量抽出部312は、まず、画像フレーム内の口唇の同定を行い、口唇の形状情報として、口唇の幅と高さ、及び検出された歯の画素数による情報を公知の技術により算出する。
【0087】
次に、画像特徴量抽出部312は、動き情報として、オプティカルフローを計算し、口唇の周辺に設定した複数の窓(例えば、図8に示す領域A,B,C)におけるオプティカルフローベクトルの水平・垂直成分の平均値を求め、これらの平均値に基づいて式(3)、式(4)に示すように2種類のパラメータm,mを計算する。
【0088】
【数2】

パラメータmは、フローベクトルX成分に関する動き情報(パラメータ)であり、パラメータmは、フローベクトルY成分に関する動き情報(パラメータ)である。この後、画像特徴量抽出部312は、前記形状情報(3次元)、動き情報(前記パラメータm,mの2次元)を連結統合(すなわち、線形結合)して、5次元の画像基礎特徴量を求める。この後、画像特徴量抽出部312は、前記画像基礎特徴量に対して主成分分析を利用して、直交化を施し、主成分得点を得る。画像特徴量抽出部312は、前記直交化して得られた主成分得点を画像特徴量として抽出する。
【0089】
なお、ここで説明した画像特徴量抽出の方法は例示であり、他の公知の方法で行ってもよい。
音響画像特徴量生成部321は、音響特徴量抽出部302で得られた音響特徴量と画像特徴量抽出部312で得られた画像特徴量を単純に連結(線形結合)して、音声認識用の音響画像特徴量を生成する。音響画像特徴量生成部321は、特徴量生成手段に相当する。
【0090】
なお、音響画像特徴量と、画像特徴量のフレームレートが異なる場合には、連結前に、音響画像特徴量生成部121と同様に、フレームレート調整処理を、音響画像特徴量生成部321は行う。
【0091】
マルチモーダル音声認識部331は、音響画像特徴量生成部321で生成された音響画像特徴量を用いて音声認識を行う。モデルにマルチストリームHMMを使用し、ビタビアルゴリズムで特徴量とモデルとのマッチングを行い、最も類似度の高い単語仮説候補を認識結果として出力する。このとき、マルチストリームHMM内のパラメータであるストリーム重み係数は予め適切に設定しておくものとする。又、前記モデルであるマルチストリームHMMは、記憶装置50に予め記憶されている。
【0092】
さて、上記の音声区間検出装置100、音声認識装置200、音声区間検出プログラム、及びROM30は、下記の特徴がある。
(1) 本実施形態の音声区間検出装置100は、音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1マルチモーダルVAD部131(第1判定手段)と、音響特徴量のみを用いて音声区間の判定を行う音声ユニモーダルVAD部132(第2判定手段)と、画像特徴量のみを用いて音声区間の判定を行う画像ユニモーダルVAD部133(第3判定手段)と、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133の判定を統合して、音声区間の判定を行う第2マルチモーダルVAD部134(第4判定手段)と、第1マルチモーダルVAD部131、第2マルチモーダルVAD部134の判定結果を多数決原理で統合して音声区間の判定を行う第3マルチモーダルVAD部135(第5判定手段)を備えている。この結果、音声区間検出装置100は、第3マルチモーダルVAD部135において、音声情報と画像情報を総合的に用いて、多数決原理によるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる。すなわち、本実施形態の音声区間検出装置100は、音声信号のみならず、口唇動画像を用いることにより、音声区間検出における音響雑音の影響を抑制することができ、雑音環境下でも高い精度で音声区間を検出することができる。
【0093】
(2) 本実施形態の音声区間検出装置100では、音響特徴量抽出部102(音響特徴量抽出手段)、及び画像特徴量抽出部112(画像特徴量抽出手段)は、モデルベース及び非モデルベースの手法により、音響特徴量及び画像特徴量をそれぞれ抽出する。又、第1マルチモーダルVAD部131、音声ユニモーダルVAD部132、画像ユニモーダルVAD部133、及び第2マルチモーダルVAD部134は、モデルベース及び非モデルベースの手法で抽出した特徴量に基づいて音声区間の判定を行う。
【0094】
この結果、音響特徴量抽出部102(音響特徴量抽出手段)、及び画像特徴量抽出部112(画像特徴量抽出手段)は、モデルベース及び非モデルベースの手法により、抽出した音響特徴量及び画像特徴量を用いていることから、モデルベース及び非モデルベースの音響特徴量及び画像特徴量に基づいて、多様な情報に基づいて音声区間を検出でき、雑音環境下でも高い精度で音声区間を検出することができる。
【0095】
(3) 本実施形態の音声認識装置200は、音声区間検出装置100が判定した音声区間の判定に基づいて音声入力部101(音声入力手段)が出力した音声信号の音声区間を切り出し、切り出した音声区間内の音声信号から音声認識用の音響特徴量を算出する音響特徴量抽出部302(音響特徴量算出手段)と、音声区間検出装置100が判定した音声区間内の画像フレームから音声認識用の画像特徴量を算出する画像特徴量抽出部312(画像特徴量算出手段)と、音声認識用の音響特徴量及び音声認識用の画像特徴量を用いて、音声認識用の音響画像特徴量を生成する音響画像特徴量生成部321(特徴量生成手段)と、生成された音声認識用の音響画像特徴量に基づいて音声認識を行うマルチモーダル音声認識部331(マルチモーダル音声認識手段)を備える。この結果、本実施形態の音声認識装置200は、音声信号と口唇動画像を用いる従来のマルチモーダル音声認識が有する、雑音下でも頑健な音声認識が可能という利点を備えつつ、前処理を行う音声区間検出装置を備えることにより、非音声区間での誤認識を抑制することができる。この結果、雑音環境下でも高い音声認識性能を発揮できる。
【0096】
(4) 本実施形態の音声区間検出プログラムは、コンピュータ10に、発話者の音声信号を入力して、ディジタル信号に変換する音声入力部101(音声入力手段)と、発話者の口唇動画像を入力し、画像フレームに変換する画像入力部111(画像入力手段)として機能させる。又、前記プログラムは、コンピュータ10に、音声入力部101が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出部102(音響特徴量抽出手段)と、画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出部112(画像特徴量抽出手段)と、音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段として、機能させる。
【0097】
さらに、前記プログラムは、コンピュータ10に、音声区間判定手段として機能する際に、前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1マルチモーダルVAD部131(第1判定手段)と、前記音響特徴量のみを用いて音声区間の判定を行う音声ユニモーダルVAD部132(第2判定手段)と、前記画像特徴量のみを用いて音声区間の判定を行う画像ユニモーダルVAD部133(第3判定手段)と、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133の判定を統合して、音声区間の判定を行う第2マルチモーダルVAD部134(第4判定手段)と、第1マルチモーダルVAD部131、及び第2マルチモーダルVAD部134の判定結果を多数決原理で統合して音声区間の判定を行う第3マルチモーダルVAD部135(第5判定手段)として機能させる。
【0098】
この結果、本実施形態の音声区間検出プログラムによれば、本プログラムを実行することによりコンピュータを上記(1)に記載の音声区間検出装置として容易に実現することができる。
【0099】
(5) 本実施形態の記録媒体としてのROM30は、上記(4)に記載の音声区間検出プログラムを記録し、コンピュータ10により読取り可能となっている。この結果、コンピュータ10にこのROM30の記録した音声区間検出プログラムを読取りさせることにより、コンピュータを上記(1)に記載の音声区間検出装置として容易に実現することができる。
【0100】
なお、本発明の実施形態は前記実施形態に限定されるものではなく、前記実施形態を、この発明の趣旨から逸脱しない範囲で変更してもよい。
・ 前記実施形態では、音声区間検出装置100、及び音声認識装置200を単一のコンピュータで構成したが、音声区間検出装置100、及び音声認識装置200をそれぞれ独立したコンピュータで構成してもよい。
【0101】
・ 前記実施形態の音声区間検出装置100の音響特徴量抽出部102では、音響特徴量は、MFCC12次元と、対数パワー、及び一次微分係数、二次微分係数の計39次元を使用したが、さらに、BCF(Block Cepstrum Flux)も音響特徴量に加えてもよい。BCFは、一定フレーム毎のケプストラムベクトル間の距離を平均化したものである。音声区間では、スペクトル変動が大きくなり、BCFの値も大きくなるため、区間検出のための音響特徴量として採用できる。
【0102】
・ なお、前述したように音響特徴量抽出部102で抽出する音響特徴量としてはMFCC)、ΔMFCC、ΔΔMFCC、対数パワー、Δ対数パワーなどが用いられるが、これらの組み合わせで、10〜100次元程度の音響特徴量ベクトルが構成される。代表例としては、前記実施形態で説明した39次元の他に、MFCCの12次元、ΔMFCCの12次元、対数パワーの一次微分係数の1次元を含む25次元のものであってもよい。このように、音響特徴量抽出部102では、種々の音響特徴量を抽出してもよく、前記実施形態の各種音響特徴量に限定されるものではない。
【0103】
・ 前記実施形態の音声区間検出装置100の画像特徴量抽出部112では、非モデルベース手法における画像特徴量は、オプティカルフローの縦方向成分及び横方向成分の平均及び分散のうち、縦方向の分散のみを用いているが、これ以外の上記の他の値のいずれかを用いたり、又は、複数用いたりしてもよい。
【0104】
・ 前記実施形態では、第2マルチモーダルVAD部134は、音声、画像の信頼度スコアをそれぞれ正規化した後に、正規化した各信頼度スコアに重みパラメータλを乗算した上で線形結合し、線形結合した結果が予め設定された閾値を越えた音声区間のみを出力するようにした。これに代えて、第2マルチモーダルVAD部134は、音声、画像の信頼度スコアをそれぞれ正規化することなく各信頼度スコアに重みパラメータλを乗算した上で線形結合し、線形結合した結果が予め設定された閾値を越えた音声区間のみを出力するようにしてもよい。この場合、重みパラメータλの値を適正に設定することにより、前記実施形態と同様の結果が得られる。
【0105】
・ 前記実施形態では、第3マルチモーダルVAD部135は、第1マルチモーダルVAD部131及び第2マルチモーダルVAD部134で出力された音声区間候補で、最終統合した。これに替えて、第3マルチモーダルVAD部135は、第1マルチモーダルVAD部131、第2マルチモーダルVAD部134、音声ユニモーダルVAD部132、画像ユニモーダルVAD部133で出力された音声区間候補を、多数決原理で決定するようにしてもよい。
【0106】
・ 前記実施形態の第2マルチモーダルVAD部134における音声区間検出の処理は、信頼度スコアを使用する方法と、信頼度スコアを使用しないで、論理演算を使用する方法をともに行い、音声区間候補をそれぞれの場合において出力するようにした。この方法に代えて、第2マルチモーダルVAD部134における音声区間検出の処理を、信頼度スコアのみを使用したり、或いは、信頼度スコアを使用しないで論理演算のみを使用して、音声区間候補を第3マルチモーダルVAD部135に出力するようにしてもよい。
【0107】
この場合、第3マルチモーダルVAD部135では、第2マルチモーダルVAD部134が出力した音声区間候補、第1マルチモーダルVAD部131が出力した音声区間候補を使用して、最終的に多数決原理で音声区間候補を決定する。このようにしても、音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる。
【0108】
・ 前記実施形態において、音声ユニモーダルVAD部132が検出した音声区間候補、及び画像ユニモーダルVAD部133が検出した音声区間候補を、第3マルチモーダルVAD部135に入力するようにしてもよい。この場合、第3マルチモーダルVAD部135は、第1マルチモーダルVAD部131、音声ユニモーダルVAD部132、画像ユニモーダルVAD部133、及び第2マルチモーダルVAD部134が検出した音声区間候補を含む音声区間候補の中から第3マルチモーダルVAD部135は、多数決原理で最終的に音声区間候補を出力する。
【0109】
・ 前記実施形態の第3マルチモーダルVAD部135では、第1マルチモーダルVAD部131で出力されたモデルベースの音声区間候補及び非モデルベースの音声区間候補、並びに第2マルチモーダルVAD部134で出力されたモデルベースの音声区間候補及び非モデルベースの音声区間候補を使用している。このとき、第3マルチモーダルVAD部135に入力される、それぞれの音声区間候補は1つでもよいし、複数でもよい。複数の音声区間候補を生成するには、モデルベースでは例えばモデルパラメータを設定したり、非モデルベースでは閾値を変えたりすればよい。
【0110】
・ 同様に、前記実施形態の第3マルチモーダルVAD部135において、音声ユニモーダルVAD部132が検出した音声区間候補、及び画像ユニモーダルVAD部133が検出した音声区間候補を入力する場合も、それぞれの音声区間候補は1つでもよいし、複数でもよい。複数の音声区間候補を生成するには、モデルベースでは識別で利用するパラメータを変更したり、非モデルベースでは閾値を変えたりすればよい。
【0111】
・ 前記音声認識装置200では、音声区間検出補償部201を設けたが、音声区間検出補償部201を省略した音声認識装置としてもよい。
・ 前記実施形態では、前記音声区間検出プログラムを記録媒体としてのROM30に記憶させたが、コンピュータが読取り可能な他の記録媒体であってもよい。このように記録媒体としては、ハードディスク、フレキシブルディスク(登録商標)、MO、CD、DVD、ブルーレイディスク(登録商標)、フラッシュメモリ(登録商標)、USBメモリ等を挙げることができる。
【符号の説明】
【0112】
100…音声区間検出装置、
101…音声入力部(音声入力手段)、
102…音響特徴量抽出部(音声区間検出用の音響特徴量抽出手段)、
111…画像入力部(画像入力手段)、
112…画像特徴量生成部(音声区間検出用の画像特徴量抽出手段)、
121…音響画像特徴量生成部、
131…第1マルチモーダルVAD部(音響画像特徴量生成部とともに第1判定手段を構成する)、
132…音声ユニモーダルVAD部(第2判定手段)、
133…画像ユニモーダルVAD部(第3判定手段)、
134…第2マルチモーダルVAD部(第4判定手段)、
135…第3マルチモーダルVAD部(第5判定手段、第1〜第4判定手段とともに音声区間判定手段)、
200…音声認識装置、
201…音声区間検出補償部、
301…音声切り出し部、
302…音響特徴量抽出部(音響特徴量算出手段)、
311…画像切り出し部、
312…画像特徴量抽出部(画像特徴量算出手段)、
321…音響画像特徴量生成部(特徴量生成手段)、
331…マルチモーダル音声認識部(マルチモーダル音声認識手段)。

【特許請求の範囲】
【請求項1】
発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、
前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、
前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、
前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、
前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段を備えた音声区間検出装置において、
前記音声区間判定手段は、
前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、
前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、
前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、
第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、
前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とする音声区間検出装置。
【請求項2】
前記音響特徴量抽出手段、及び画像特徴量抽出手段は、モデルベース及び非モデルベースの手法により、音響特徴量及び画像特徴量をそれぞれ抽出し、
前記第1乃至第4判定手段は、前記モデルベース及び非モデルベースの手法で抽出した特徴量に基づいて音声区間の判定を行うことを特徴とする請求項1に記載の音声区間検出装置。
【請求項3】
請求項1又は請求項2に記載の音声区間検出装置が判定した音声区間の判定に基づいて前記音声入力手段が出力した音声信号の音声区間を切り出し、切り出した音声区間内の音声信号から音声認識用の音響特徴量を算出する音響特徴量算出手段と、
前記音声区間検出装置が判定した音声区間内の画像フレームから音声認識用の画像特徴量を算出する画像特徴量算出手段と、
前記音声認識用の音響特徴量及び前記音声認識用の画像特徴量を用いて、音声認識用の音響画像特徴量を生成する特徴量生成手段と、
生成された音声認識用の音響画像特徴量に基づいて音声認識を行うマルチモーダル音声認識手段を備えたことを特徴とする音声認識装置。
【請求項4】
コンピュータに、
発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、
前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、
前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、
前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、
前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段として、機能させるためのプログラムであって、
前記音声区間判定手段は、
前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、
前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、
前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、
第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、
前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とするプログラム。
【請求項5】
コンピュータに、
発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、
前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、
前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、
前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、
前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段として、機能させるためのプログラムを記憶したコンピュータ読取り可能な記録媒体であって、
前記音声区間判定手段は、
前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、
前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、
前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、
第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、
前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とするコンピュータ読取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−59186(P2011−59186A)
【公開日】平成23年3月24日(2011.3.24)
【国際特許分類】
【出願番号】特願2009−205990(P2009−205990)
【出願日】平成21年9月7日(2009.9.7)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成21年3月10日 社団法人日本音響学会発行の「2009年春季研究発表会【講演論文集】講演要旨・講演論文CD−ROM」に発表
【出願人】(304019399)国立大学法人岐阜大学 (289)
【Fターム(参考)】