説明

音声判別装置、音声判別方法および音声判別プログラム

【課題】
複数チャンネルのシステム音によって生じるエコーに対しても頑健に動作する音声判別装置を提供することである。
【解決手段】
実施形態の音声判別装置は、複数チャンネルのシステム音を複数のスピーカから再生した再生音およびユーザの音声を含んだ第1の音響信号について音声/非音声を判別する音声判別装置であって、少なくとも前記複数チャンネルのシステム音に基づいて、周波数帯域別の重みを付与する重み付与手段と、前記重み付与手段で付与された周波数帯域別の重みを利用して、前記第1の音響信号に含まれる前記再生音を抑圧した第2の音響信号から特徴量を抽出する特徴抽出手段と、前記特徴抽出手段で抽出された特徴量に基づいて、前記第1の音響信号について音声/非音声を判別する音声/非音声判別手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声判別装置、音声判別方法および音声判別プログラムに関する。
【背景技術】
【0002】
カーナビゲーションなどに搭載される音声認識には、システム音(例えば、ビープ音やガイダンス音声)の再生中であっても利用者の音声を認識できるバージイン機能を有するものがある。これらの音声認識の前処理に用いられる音声判別には、システム音をスピーカから再生した再生音(エコー)を含む音響信号から利用者の音声を正確に検出することが求められる。例えば、システム音に対する頑健性を高めた音声判別として、システム音の主要なパワーが含まれる周波数帯域を特定し、音響信号から特徴量を抽出する際に当該周波数帯域における周波数スペクトルを除外する方法が提案されている。システム音の主要なパワーが含まれる周波数帯域の周波数スペクトルには、エコーの影響が含まれる蓋然性が高い。したがって、当該周波数帯域における周波数スペクトルを除外することにより、システム音によって生じるエコーの影響を除いた特徴量を抽出することができる。
【0003】
しかしながら、上述した方法は、システム音が単一チャンネルの音響信号である場合を想定しており、システム音がステレオ音楽などの複数チャンネルの音響信号である場合は対応することができなかった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−84253号公報
【非特許文献】
【0005】
【非特許文献1】鈴木、「割り込み発話に頑健な音声認識エンジンの開発」、日本音響学会2010 年秋季研究報告会、日本、日本音響学会、2010年09月、2-9-2
【発明の概要】
【発明が解決しようとする課題】
【0006】
発明が解決しようとする課題は、複数チャンネルのシステム音によって生じるエコーに対しても頑健に動作する音声判別装置を提供することである。
【課題を解決するための手段】
【0007】
実施形態の音声判別装置は、複数チャンネルのシステム音を複数のスピーカから再生した再生音およびユーザの音声を含んだ第1の音響信号について音声/非音声を判別する音声判別装置であって、少なくとも前記複数チャンネルのシステム音に基づいて、周波数帯域別の重みを付与する重み付与手段と、前記重み付与手段で付与された周波数帯域別の重みを利用して、前記第1の音響信号に含まれる前記再生音を抑圧した第2の音響信号から特徴量を抽出する特徴抽出手段と、前記特徴抽出手段で抽出された特徴量に基づいて、前記第1の音響信号について音声/非音声を判別する音声/非音声判別手段とを備える。
【図面の簡単な説明】
【0008】
【図1】第1の実施形態の音声認識システムを示すブロック図。
【図2】実施形態のエコーキャンセル部を示すブロック図。
【図3】実施形態の音声判別装置を示すブロック図。
【図4】実施形態の音声認識システムのフローチャート。
【図5】第2の実施形態の音声認識システムを示すブロック図。
【図6】実施形態のエコーキャンセル部を示すブロック図。
【図7】実施形態のエコーキャンセル部を示すブロック図。
【図8】実施形態の音声判別装置を示すブロック図。
【図9】実施形態の音声認識システムのフローチャート。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について図面を参照しながら説明する。
【0010】
(第1の実施形態)
第1の実施形態の音声判別装置は、バージイン機能を有する音声認識の前処理に利用されるものであり、スピーカから再生されたシステム音のエコーを含んだ音響信号に利用者の音声が含まれるか否かを判別する。本実施形態のシステム音はステレオや5.1chのような複数チャンネルの音響信号で構成されており、スピーカから再生されたシステム音がマイクロホンで取得した第1の音響信号にエコーとなって混入する。
【0011】
音声判別装置は、エコーキャンセラにより第1の音響信号からエコーを抑圧した第2の音響信号について音声/非音声を判別する。まず、音声判別装置は、複数チャンネルのシステム音を利用して周波数帯域別の重みを付与する。具体的には、複数チャンネルで構成されたシステム音の主要な成分が含まれる周波数帯域には小さな値の重みを、それ以外の周波数帯域には大きな値の重みを付与する。重みが小さな周波数帯域における第2の音響信号の周波数スペクトルには、複数チャンネルで構成されたシステム音の残留エコーが含まれる蓋然性が高い。したがって、音声判別装置は、第2の音響信号から特徴量を抽出する際、小さな重みが付与された周波数帯域の周波数スペクトルが特徴量に寄与する度合を小さくする。
【0012】
このように、複数チャンネルからなるシステム音を利用して周波数帯域別の重みを付与することにより、システム音が複数チャンネルの場合でも残留エコーが含まれる蓋然性が高い周波数帯域に小さな重みを付与することができる。その結果、複数チャンネルのシステム音に起因するエコーを除外した特徴量を抽出することができる。
【0013】
(ブロック構成)
図1は、第1の実施形態に係る音声判別装置100を備えた音声認識システムを示すブロック図である。この音声認識システムは、システム音再生中の利用者音声を認識するバージイン機能を備えている。音声認識システムは、複数チャンネルで構成されたシステム音を再生するn個のスピーカ130−1〜130−nと、認識対象となる第1の音響信号を取得するマイクロホン140と、第1の音響信号に含まれるエコーを抑圧して第2の音響信号を生成するエコーキャンセル部120と、第2の音響信号を取得して音声/非音声を判別する音声判別装置100と、音声/非音声の判別結果情報を利用してエコーキャンセル部120が出力した第2の音響信号を認識する音声認識部110とを備える。
【0014】
カーオーディオやテレビなどから供給されるnチャンネルのシステム音x(t)〜x(t)は(tは離散的な時刻を表すタイムインデックス)、チャンネル毎に用意されたスピーカ130−1〜130−nを通じて利用者に向けて再生される。スピーカから再生されたnチャンネルのシステム音は、空間を伝わりエコーとなってマイクロホン140に受音される。この結果、マイクロホン140が取得した第1の音響信号d(t)には、利用者音声とシステム音のエコーが混在する。エコーキャンセル部120は、第1の音響信号からnチャンネルのシステム音によって生じたエコーを抑えた第2の音響信号e(t)を生成する。音声判別装置100は、第2の音響信号を所定区間長に分割し、各区間について利用者音声が含まれるか否かを判別する。音声認識部110は、音声判別装置100が出力した所定区間ごとの音声/非音声判別情報から利用者の音声区間(始端から終端までの区間)を特定し、エコーキャンセル部120が出力した第2の音響信号の音声認識を実行する。
【0015】
図2は、エコーキャンセル部120の構成を示すブロック図である。エコーキャンセル部120は、マイクロホン140で取得した第1の音響信号に含まれるシステム音のエコーを抑圧する。このために、エコーキャンセル部120は、スピーカ130−1〜140−nからマイクロホン140までのエコー経路の伝達特性をFIR型の適応フィルタ121で推定する。適応フィルタ121がエコー経路の伝達特性を正確に推定できれば、第1の音響信号に含まれるエコーは完全に抑圧される。ところが、実際には適応フィルタ係数の更新不足や伝達特性の急激な変動による推定誤差が生じるため、第2の音響信号にエコーが残留する。また、本実施形態のエコーキャンセル部120は、後述する音声判別装置100のモノラル化部101で生成された第3の音響信号を参照信号として利用する。この第3の音響信号は、複数チャンネルのシステム音を単一チャンネルの音響信号に変換したものである。そのため、エコーキャンセル部120は、システム音の各チャンネル信号と第3の音響信号との差分信号に由来するエコーを抑圧することができない。
【0016】
図3は、音声判別装置100の構成を示すブロック図である。音声判別装置100は、複数チャンネルの音響信号で構成されるシステム音を単一チャンネルの第3の音響信号に変換するモノラル化部101と、モノラル化部101で変換された第3の音響信号の周波数スペクトルの大きさを利用して、システム音の主要な成分が含まれる周波数帯域には小さな値の重みを、それ以外の周波数帯域は大きな値の重みを付与する重み付与部102と、重み付与部102で小さな重みが付与された周波数帯域における周波数スペクトルを除外して第2の音響信号から特徴量を抽出する特徴抽出部103と、特徴抽出部103で抽出された特徴量を利用して、所定区間ごとの音声/非音声判別情報を求める音声/非音声判別部104を備える。
【0017】
モノラル化部101は、複数チャンネルで構成されるシステム音を複数チャンネルの特性を反映した単一チャンネルの第3の音響信号に変換する。重み付与部102は、当該第3の音響信号の周波数スペクトルを利用して周波数帯域別の重みを付与することにより、システム音が複数チャンネルの場合でも残留エコーが含まれる蓋然性の高い周波数帯域に小さな重みを付与することができる。
【0018】
なお、音声判別装置100は、特徴抽出部103によって抽出された特徴量や、音声/非音声判別部104の音声/非音声判別情報をエコーキャンセル部120に出力する。
【0019】
(フローチャート)
図4は、本実施形態にかかる音声認識システムのフローチャートである。まず、ステップS401では、モノラル化部101が、nチャンネルのシステム音x(t)〜x(t)を単一チャンネルの第3の音響信号x(t)に変換して、後段の重み付与部102とエコーキャンセル部120に出力する。
【0020】
モノラル化部101による変換は、nチャンネルのシステム音x(t)〜x(t)の主要な成分を漏れなく第3の音響信号に含めるために全ての信号の平均により行う。これは、x(t)〜x(t)を1/nの重みで加重和することに相当する(以下、この方法をチャンネル加重和と記す)。各チャンネルのレベルが不均一なときには、加重和の重みを調節することでレベルを均一にすることもできる。
【0021】
また、nチャンネルのシステム音x(t)〜x(t)の相関が強い場合は、nチャンネルのうちいずれかの信号を選択して第3の音響信号にすることも可能である(以下、この方法をチャンネル選択と記す)。nチャンネルのシステム音の相関が強い場合、どれか1つのチャンネルに全チャンネル共通の主要な成分が含まれると期待されるからである。ステレオマイクロホンで収録された音声(ステレオ収録音声)などは、チャンネル間の相関が強いことから、チャンネル選択を適用できるシステム音だと言える。一方、例えば左チャンネルが英語、右チャンネルが日本語のような二ヶ国語のシステム音である場合は、チャンネル間の相関が弱いと考えられることからチャンネル加重和の方が適している。モノラル化部101は、システム音に関するステレオ収録音声や二ヶ国語音声など、使用される状況に応じてチャンネル加重和とチャンネル選択のいずれかの方法を切り替えるようにしてもよい。
【0022】
ステップS402では、エコーキャンセル部120は、第1の音響信号d(t)に含まれるシステム音のエコーをキャンセルして、第2の音響信号e(t)を生成する。ここで、適応フィルタ121の参照信号には、モノラル化部101で生成された第3の音響信号x(t)を用いる。
【0023】
適応フィルタ121がL個のフィルタ係数を持ち、時刻tにおけるi番目のフィルタ係数値をwi(t)とすると、エコーを抑圧した第2の音響信号e(t)は、(1)式で計算できる。
【数1】

【0024】
適応フィルタ121のフィルタ係数値wi(t)は、例えば、NLMSアルゴリズムを用いて、(2)式で更新できる。
【数2】

【0025】
ここで、αは更新速度を調整するステップサイズ、γは分母項が零になることを防ぐための小さな正の値である。αは0.1〜0.3程度に設定するとよい。
【0026】
次に、ステップ403では、重み付与部102が、第3の音響信号x(t)の周波数スペクトルの大きさを利用して、特徴抽出部103で特徴量を抽出する際に利用する各周波数帯域fの重みR(k)を算出する(kは、フレーム番号)。
【0027】
重み付与部102は、例えば、16000Hzのサンプリングで取得された第3の音響信号x(t)を、フレーム長25ms(400サンプル)、間隔8ms(128サンプル)のフレームに分割する。フレーム分割にはハミング窓を使用する。次に、重み付与部102は、各フレームに対して112点の零詰めを行った後、512点の離散フーリエ変換を適用して第3の音響信号x(t)のパワースペクトルX(k)を求める。そして、得られたパワースペクトルX(k)を、(3)式の再帰式で時間方向に平滑化した平滑化パワースペクトルX’(k)を生成する。
【数3】

【0028】
ここで、X’(k)は周波数帯域fにおける平滑化パワースペクトル、μは平滑化の度合いを調整する忘却係数を表している。μは0.3〜0.5程度に設定する。システム音は、スピーカ130−1〜130−nからマイクロホン140までのエコー経路を音速で伝播するため、第1の音響信号中に含まれる残留エコーと第3の音響信号には時間的なずれが生じ得る。現フレームのパワースペクトルの成分が後続するフレームのパワースペクトルに混入する平滑化処理は、第1の音響信号に含まれる残留エコーと第3の音響信号との時間的なずれを補償する効果がある。
【0029】
次に、重み付与部102は、第3の音響信号の平滑化パワースペクトルX’(k)を利用して、システム音の主要な成分を含む周波数帯域に重み0を、それ以外の周波数帯域に重み1を付与する。具体的には、第1の音響信号の平滑化パワースペクトルX’(k)と第1の閾値TH(k)を比較して、(4)式により各周波数帯域fに重みR(k)を付与する。
【数4】

【0030】
ここで、第1の閾値TH(k)は、システム音の主要な成分が含まれる周波数帯域の検出に適した大きさが必要である。例えば、第1の閾値TH(k)を第3の音響信号の無音区間のパワーより大きな値に設定することができる。また、(5)式のように、各フレームにおける平均パワー値を第1の閾値とすることもできる。
【数5】

【0031】
ここで、Pは周波数帯域fの数である。この場合、第1の閾値はフレームごとに動的に変化する。
【0032】
この他にも、各フレームにおける平滑化後のパワースペクトルX’(k)を周波数インデックスfに対して昇順にソートし、ソートした結果、上位a%(例えば50%)に入る周波数帯域に重み0を、それ以外の周波数帯域に重み1を付与することもできる。また、第1の閾値より大きく、かつ昇順にソートした結果、上位a%(例えば50%)に該当する周波数帯域に重み0を、それ以外の周波数帯域に重み1を付与してもよい。
【0033】
あるいは、上述したように重みの値を0または1のいずれかの値に限定せず、(6)式のようにパワーに応じて0と1の間を単調減少する値として与えることも可能である。
【数6】

【0034】
ここで、閾値THとTHは、前記第1の閾値TH(k)を基準にして(7)式のように定めることができる。式中のαとβは実験的に求めることが可能であるが、例えば0.6に設定すると、TH(k)が各フレームにおける平均パワー値を表している場合、これに対して4倍と1/4倍のパワー値を閾値THとTHにそれぞれ設定することに相当する。
【数7】

【0035】
第3の音響信号x(t)は、モノラル部101における変換により、複数チャンネルのシステム音の主要な成分を反映した音響信号となる。したがって、第3の音響信号の平滑化パワースペクトルX’(k)の大きさを利用することにより、複数チャンネルのシステム音の主要な成分を考慮した重みを各周波数帯域に付与することができる。
【0036】
ステップS404では、特徴抽出部103は、重み付与部102で得られた周波数帯域別の重みR(k)を利用して、第2の音響信号e(t)から利用者の音声らしさを表す特徴量を抽出する。
【0037】
本実施形態では、特徴量として(8)式で計算される周波数帯域別SNRの平均値SNRavrg(k)(以下、平均SNRと記す)を用いる。
【数8】

【0038】
ここで、M(k)はk番目のフレームでR(k)=1となる周波数帯域fの数を表している。また、N(k)は第2の音響信号において利用者音声を含まない区間のパワースペクトルの推定値であり、例えば、第2の音響信号の先頭20フレームにおけるパワースペクトルの平均値から求める。一般に、利用者音声が含まれる区間における第2の音響信号は、利用者音声が含まれない区間における第2の音響信号と比較して大きくなる。したがって、平均SNRが大きいほど、第2の音響信号に利用者音声が含まれている蓋然性が高いといえる。なお、特徴量としてはここで例示した平均SNRに限らず、例えば、非特許文献1に開示された正規化スペクトルエントロピーやスペクトル間余弦値を用いることもできる。
【0039】
(8)式より、特徴抽出部103は、重み付与部102でR(k)=0となった周波数帯域の周波数スペクトルを除外して特徴量を抽出している。重みが0となる(あるいは連続値の場合0に近い値となる)周波数帯域は、複数チャンネルのシステム音に起因するエコーが含まれる蓋然性の高い周波数帯域である。したがって、(8)式に示したように、重みR(k)を乗じた値として特徴量を計算することで、重みR(k)が0となる(あるいは0に近い値となる)周波数帯域における周波数スペクトルが特徴量に寄与する度合を下げることができ、結果として残留エコーの影響を取り除いた特徴量の抽出が可能になる。
【0040】
ステップS405では、音声/非音声判別部103は、(9)式のように特徴抽出部103で抽出された特徴量と閾値THVA(k)を比較することで、フレーム単位の音声/非音声を判別する。
【数9】

【0041】
ステップS406では、音声認識部110は、音声判別装置100が出力するフレーム単位の音声/非音声判別情報を使って認識対象となる利用者の音声区間を特定する。また、音声認識部110は、エコーキャンセル部120が出力する第2の音響信号e(t)について音声認識処理を実行する。
【0042】
以上の説明では、周波数スペクトルとしてパワースペクトルを用いたが、振幅スペクトルを用いてもよい。
【0043】
(効果)
このように、本実施形態にかかる音声判別装置は、複数チャンネルのシステム音をモノラル化した第3の音響信号のパワースペクトルの大きさを利用して周波数帯域別の重みを付与している。これにより、複数チャンネルのシステム音の主要な成分を考慮した重みを付与することができる。
【0044】
また、本実施形態にかかる音声判別装置は、複数チャンネルのシステム音の主要な成分を考慮した重みを利用して特徴量を抽出している。これにより、複数チャンネルのシステム音のエコーを低減した特徴量を抽出することができる。
【0045】
(変形例1)
重み付与部102は、第3の音響信号の平滑化パワースペクトルX’(k)だけでなく第2の音響信号のパワースペクトルE(k)も用いて各周波数帯域の重みを付与することができる。例えば、(10)式のように重みR(k)を付与することができる。
【数10】

【0046】
ここで、第2の閾値TH(k)は、第2の音響信号の無音区間のパワーより大きな値に設定することができる。
【0047】
このように、第3の音響信号だけでなく第2の音響信号も用いて重みを付与することにより、利用者音声の主要な成分を含む周波数帯域に小さな重みが付与されることを防止できる。
【0048】
(変形例2)
適応フィルタ121は、(11)式のように、特徴抽出部130で抽出された特徴量SNRavrg(k)と閾値THDT(k)を用いてフィルタ係数の更新を制御してもよい。すなわち、適応フィルタ121は、第1の音響信号に利用者音声が含まれないと判別されるときだけフィルタ係数を更新する。この結果、適応フィルタ121はエコー経路の伝達特性を精度良く推定できる。
【数11】

【0049】
また、適応フィルタ121が、音声/非音声判別部104での音声/非音声判別情報を入力して、非音声と判別されたときにフィルタ係数を更新し、音声と判別されたときにフィルタ係数を更新しないようにすることも可能である。あるいは、適応フィルタ121は、特徴量SNRavrg(k)が大きくなる従って(2)式のステップサイズαが小さくなるよう制御することも可能である。
【0050】
(変形例3)
本実施形態では、重み付与部102は、第1の音響信号の平滑化パワースペクトルX’(k)が第1の閾値TH(k)より大きくなる周波数帯域には重み0を、それ以外の周波数帯域には重み1を付与している。付与する重みはこれに限定されず、例えば、X’(k)が第1の閾値TH(k)より大きくなる周波数帯域には重み−100を、それ以外の周波数帯域に重み100を付与し、特徴抽出部103で特徴量を抽出する際に重み−100が付与された周波数帯域における周波数スペクトルを除外するようにしてもよい。
【0051】
(第2の実施形態)
(ブロック構成)
図5は、第2の実施形態にかかる音声判別装置を備えた音声認識システムを示すブロック図である。第1の実施形態と異なるのは、エコーキャンセル部220がモノラル化された第3の音響信号ではなく複数チャンネルのシステム音を取得している点である。
【0052】
図6は、エコーキャンセル部220の1構成例を示すブロック図である。同図で示されるエコーキャンセル部220−aは、複数チャンネルのシステム音をモノラル化するモノラル化部223を有しており、当該モノラル化部223で単一チャンネルに変換された第3の音響信号を適応フィルタ121で利用する参照信号としている。モノラル化部223における処理は、第1の実施形態のモノラル化部101と同様な方法で行うことができる。また、適応フィルタの更新およびエコー抑圧後の第2の音響信号の生成は、第1の実施形態と同様な方法で行うことができる。
【0053】
また、図7は、エコーキャンセル部220の他の構成例を示すブロック図である。同図で示されるエコーキャンセル部220−bは、複数チャンネルのエコーキャンセラであり、システム音の各チャンネルに対応した適応フィルタ221−1〜221−nと減算器222−1〜222−nを有する。各適応フィルタの更新およびエコー抑圧後の第2の音響信号の生成は第1の実施形態と同様な方法で行う。
【0054】
図8は、音声判別装置200の構成を示すブロック図である。第1の実施形態の音声判別装置100と異なるのは、モノラル化部101を有していない点である。音声判別装置200では、重み付与部102が複数チャンネルのシステム音x(t)〜x(t)の周波数スペクトルの大きさを利用して各周波数帯域に重みを付与する。
【0055】
(フローチャート)
図9は、本実施形態にかかる音声認識システムのフローチャートである。まず、ステップS411では、エコーキャンセル部220は、第1の音響信号d(t)に含まれるシステム音のエコーを抑圧して第2の音響信号e(t)を生成する。
【0056】
次に、ステップ412では、重み付与部102が、第2の音響信号e(t)および複数チャンネルのシステム音x(t)〜x(t)の周波数スペクトルの大きさを利用して、特徴抽出部103で特徴量を抽出する際に利用する各周波数帯域fの重みR(k)を算出する。重みは、利用者音声が含まれず、かつ残留エコーが生じる蓋然性の高い周波数帯域には小さな値を、それ以外の周波数帯域には大きな値を付与する。
【0057】
重み付与部102は、まず、16000Hzのサンプリング周波数で取得した第2の音響信号e(t)および複数チャンネルのシステム音x(t)〜x(t)を、フレーム長25ms(400サンプル)、間隔8ms(128サンプル)のフレームにそれぞれ分割する。フレーム分割にはハミング窓を使用できる。次に、各フレームに対して、112点の零詰めを行った後、512点の離散フーリエ変換を適用して第2の音響信号e(t)のパワースペクトルE(k)と複数チャンネルのシステム音x(t)〜x(t)のパワースペクトルX1f(k)〜をXnf(k)求める。そして、得られたパワースペクトルE(k)およびX1f(k)〜Xnf(k)を(3)式と同様な方法で平滑化した平滑化パワースペクトルE’(k)およびX’1f(k)〜X’nf(k)を生成する。
【0058】
次に、重み付与部102は、第2の音響信号の平滑化パワースペクトルE’(k)を利用して、利用者音声の主要成分を含まない周波数帯域に重み−1を、それ以外の周波数帯域に重み1を付与する。具体的には、第2の音響信号の平滑化パワースペクトルE’(k)と第2の閾値TH(k)を比較して、(12)式により重みを付与する。
【数12】

【0059】
第2の閾値TH(k)は、利用者の音声が含まれる周波数帯域の検出に適した大きさが必要である。例えば、第2の閾値TH(k)を第2の音響信号の無音区間(例えば、起動直後の100msec区間など)のパワーより大きな値に設定することができる。
【0060】
次に、重み付与部102は、複数チャンネルのシステム音の平滑化パワースペクトルX1f(k)〜Xnf(k)を利用して、利用者音声の主要な成分が含まれていない周波数帯域のうちシステム音のエコーが混入している蓋然性が高い周波数帯域(妨害主要周波数帯域)を検出する。具体的には、平滑化パワースペクトルX1f(k)〜Xnf(k)をチャンネル順に解析して、パワーの大きな周波数帯域を妨害主要周波数帯域として検出し、重み0を付与する。妨害主要周波数帯域では、スピーカ130−1〜130−nから出力されたシステム音のパワーが大きくなる。したがって、この周波数帯域に残留エコーが含まれる蓋然性が高い。重み付与部102は、(12)式での重み付与結果R(k)が−1となっている周波数帯域について、平滑化パワースペクトルX1f(k)〜Xnf(k)と第1の閾値TH(k)を比較し、(13)式により重みR(k)を更新する。
【数13】

【0061】
ここで、cはチャンネル番号c(1≦c≦n)を表している。第1の閾値TH(k)は、(14)式のように、全チャンネルの各フレームにおける平均パワー値とすることができる。
【数14】

【0062】
重み付与部102は、(15)式の処理をチャンネル番号の例えば昇順(c=1から初めてc=nまで)に行うことで、既に妨害主要周波数として検出されている(R(k)=0となっている)周波数帯域に対する閾値処理はスキップされる。
【0063】
最後に、重み付与部102は、(15)式によりR(k)=−1となっている重みをR(k)=1に置き換える。
【数15】

【0064】
(k)は最終的に0か1の値を持つ。R(k)=0となる周波数帯域が、利用者音声の主要な成分は含まれないが妨害音が含まれる蓋然性が高い妨害主要周波数帯域である。本実施形態の重み付与部102は、システム音を構成する各チャンネルの音響信号のパワースペクトルを利用して、周波数帯域別の重みを付与している。これにより、複数チャンネルのシステム音の主要な成分を考慮した重みを付与することができる。
【0065】
次に、ステップS413では、第1の実施形態と同様に、重み付与部102で得られた周波数帯域別の重みR(k)が0となる周波数帯域における周波数スペクトルを除外して、第2の音響信号e(t)から利用者の音声らしさを表す特徴量を抽出する。ステップ413からステップS415までの処理は、第1の実施形態のステップS404からステップS406までの処理と同様であるため、説明を省略する。
【0066】
(効果)
このように、本実施形態にかかる音声判別装置は、システム音を構成する各チャンネルの音響信号のパワースペクトルおよび利用者音声を含む音響信号のパワースペクトルを利用して、周波数帯域別の重みを付与している。これにより、複数チャンネルのシステム音および利用者音声の主要な成分を考慮した重みを付与することができる。
【0067】
また、本実施形態にかかる音声判別装置は、複数チャンネルのシステム音および利用者音声の主要な成分を考慮した重みを利用して特徴量を抽出している。これにより、利用者音声が含まれず、かつ残留エコーが生じる蓋然性の高い周波数帯域における周波数スペクトルの影響を低減した特徴量を抽出することができる。
【0068】
以上述べた少なくとも一つの実施形態の音声判別装置によれば、複数チャンネルのシステム音を利用して周波数帯域別の重みを付与している。これにより、複数チャンネルのシステム音の主要な成分を考慮した重みを付与することができる。
【0069】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0070】
100、200 音声判別装置
101、223 モノラル化部
102 重み付与部
103 特徴抽出部
104 音声/非音声判別部
110 音声認識部
120、220、220−a、220−b エコーキャンセル部
122、222−1〜222−n 減算部
121、221−1〜221−n 適応フィルタ
130 マイクロホン
140−1〜140−n スピーカ

【特許請求の範囲】
【請求項1】
複数チャンネルのシステム音を複数のスピーカから再生した再生音およびユーザの音声を含んだ第1の音響信号について音声/非音声を判別する音声判別装置であって、
少なくとも前記複数チャンネルのシステム音に基づいて、周波数帯域別の重みを付与する重み付与手段と、
前記重み付与手段で付与された周波数帯域別の重みを利用して、前記第1の音響信号に含まれる前記再生音を抑圧した第2の音響信号から特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に基づいて、前記第1の音響信号について音声/非音声を判別する音声/非音声判別手段と、
を備える音声判別装置。
【請求項2】
前記第1の音響信号に含まれる前記再生音を抑圧して第2の音響信号を生成するエコーキャンセル手段を更に備え、
前記特徴抽出手段が、前記エコーキャンセル手段で生成された第2の音響信号から特徴量を抽出する請求項1記載の音声判別装置。
【請求項3】
前記複数チャンネルのシステム音をモノラル化した第3の音響信号を生成するモノラル化手段を更に備え、
前記重み付与手段が、前記モノラル化手段で生成された第3の音響信号に基づいて、周波数帯域別の重みを付与する請求項1乃至請求項2に記載の音声判別装置。
【請求項4】
前記重み付与手段が、前記第3の音響信号の周波数スペクトルの大きさが第1の閾値より大きくなるような周波数帯域に予め決められた所定の重みを付与し、
前記特徴抽出手段が、前記重み付与手段で所定の重みが付与された周波数帯域における周波数スペクトルを除外して特徴量を抽出する請求項3記載の音声判別装置。
【請求項5】
前記重み付与手段が、前記第3の音響信号の周波数スペクトルの大きさが第1の閾値より大きく、かつ、前記第2の音響信号の周波数スペクトルの大きさが第2の閾値より小さくなるような周波数帯域に予め決められた所定の重みを付与し、
前記特徴抽出手段が、前記重み付与手段で所定の重みが付与された周波数帯域における周波数スペクトルを除外して特徴量を抽出する請求項3記載の音声判別装置。
【請求項6】
前記重み付与手段が、前記第3の音響信号の周波数スペクトルの大きさが大きくなるに従って小さくなるような重みを周波数帯域に付与し、
前記特徴抽出手段が、前記重み付与手段で付与された周波数帯域の重みが小さくなるに従って当該周波数帯域における周波数スペクトルが特徴量に寄与する度合を小さくする請求項3記載の音声判別装置。
【請求項7】
前記重み付与手段が、前記システム音を構成する各チャンネルにおける周波数スペクトルの大きさに基づいて、周波数帯域別の重みを付与する請求項1乃至請求項2に記載の音声判別装置。
【請求項8】
前記重み付与手段が、前記システム音を構成するいずれかのチャンネルの周波数帯域における周波数スペクトルが第1の閾値より大きく、かつ、前記第2の音響信号の当該周波数帯域における周波数スペクトルの大きさが第2の閾値より小さくなるような周波数帯域に予め決められた所定の重みを付与し、
前記特徴抽出手段が、前記重み付与手段で所定の重みが付与された周波数帯域における周波数スペクトルを除外して特徴量を抽出する請求項7記載の音声判別装置。
【請求項9】
複数チャンネルのシステム音を複数のスピーカから再生した再生音およびユーザの音声を含んだ第1の音響信号について音声/非音声を判別する音声判別方法であって、
少なくとも前記複数チャンネルのシステム音に基づいて、周波数帯域別の重みを付与する重み付与工程と、
前記重み付与工程で付与された周波数帯域別の重みを利用して、前記第1の音響信号に含まれる前記再生音を抑圧した第2の音響信号から特徴量を抽出する特徴抽出工程と、
前記特徴抽出工程で抽出された特徴量に基づいて、前記第1の音響信号について音声/非音声を判別する音声/非音声判別工程と、
を備える音声判別方法。
【請求項10】
複数チャンネルのシステム音を複数のスピーカから再生した再生音およびユーザの音声を含んだ第1の音響信号について音声/非音声を判別する音声判別装置に、
少なくとも前記複数チャンネルのシステム音に基づいて、周波数帯域別の重みを付与する重み付与工程と、
前記重み付与工程で付与された周波数帯域別の重みを利用して、前記第1の音響信号に含まれる前記再生音を抑圧した第2の音響信号から特徴量を抽出する特徴抽出工程と、
前記特徴抽出工程で抽出された特徴量に基づいて、前記第1の音響信号について音声/非音声を判別する音声/非音声判別工程と、
を実現させるための音声判別プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−189907(P2012−189907A)
【公開日】平成24年10月4日(2012.10.4)
【国際特許分類】
【出願番号】特願2011−54759(P2011−54759)
【出願日】平成23年3月11日(2011.3.11)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】