音声区間検出装置および音声区間検出方法
【課題】周期的な雑音下においても音声区間を正しく検出できる音声区間検出装置および音声区間検出方法を提供する。
【解決手段】音を音入力回路2によって音の信号に変換し、連続した音の信号をフレーム分割回路3によって所定時間間隔のフレームに分割する。分割された各フレームごとに、パワー情報抽出回路4が音の信号に含まれるパワー情報を抽出し、調波情報抽出回路5が音の信号に含まれる調波情報を抽出する。音声区間決定回路6は、抽出されたパワー情報と、調波情報とに基づいて、音声区間を決定し、音声認識回路7が音声区間の音声を認識する。
【解決手段】音を音入力回路2によって音の信号に変換し、連続した音の信号をフレーム分割回路3によって所定時間間隔のフレームに分割する。分割された各フレームごとに、パワー情報抽出回路4が音の信号に含まれるパワー情報を抽出し、調波情報抽出回路5が音の信号に含まれる調波情報を抽出する。音声区間決定回路6は、抽出されたパワー情報と、調波情報とに基づいて、音声区間を決定し、音声認識回路7が音声区間の音声を認識する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音の中から発話された音声が継続する音声区間を検出する音声区間検出装置および音声区間検出方法に関する。
【背景技術】
【0002】
例えば、音声認識装置は、音が入力される区間である所定区間に入力された信号が音声信号であるのかあるいは雑音信号であるのかを検出し、音声信号であればその音声を認識している。所定区間を検出する方法として、音のパワー情報に基づく方法、音の基本周波数情報に基づく方法、音のパワー情報と周期性情報とに基づく方法などがある。
【0003】
音のパワー情報とは、例えば、十msecごとにおける所定時間間隔(フレーム)あたりの入力信号レベルの2乗和またはその対数値である。音のパワー情報に基づいて音声区間を検出する方法では、入力信号中のパワーがあるしきい値以上に達するフレームが1つまたは数フレーム連続すると、しきい値を越えた最初のフレームを音声フレームであると仮定している。そして、その前数フレームを含めて音声区間の始端と判別し、入力信号のパワーがしきい値以下になるフレームが1つまたは数フレーム連続すると音声区間の終端と判別している。
【0004】
音の基本周波数情報に基づいて音声区間を検出する方法では、音声に含まれている母音定常部の基本周波数が約80〜400Hzの周波数帯に含まれており、基本周波数の振幅値も大きくなることを利用して音声区間を検出する。すなわち、フレームごとに自己相関法やケプストラム法などの抽出手段から基本周波数を求め、その基本周波数が80〜400Hzの周波数帯内に存在し、かつ振幅値があるしきい値を越える場合、その前数フレームを含めて音声区間の始端とし、振幅値がしきい値以下になると、音声区間の終端と判別する。
【0005】
また、音から基本周波数を抽出する方法として、周期性から求める方法と、調波性から求める方法とがある。基本周波数を周期性から求める方法の一例が、例えば、特開平8‐305388号公報(特許文献1)に記載されている。特許文献1に記載の音声区間検出装置は、入力された音を分析して周期性を検出するとともに、入力された音のパワー情報に基づいて音声区間を検出し、これらの2つの検出結果に基づいて、予め定めた音声区間と非音声区間とを判定する規則にしたがって音声区間を検出する。特許文献1では、音声区間は、入力された音のうち音の信号が定められたしきい値以上に存在する部分を示すと定義されている。
【0006】
また、特許文献1では、入力信号のレベルの2乗値または対数値を直接用いてパワー情報を算出するのではなく、短時間パワー比と長時間パワー比とに基づいてパワー情報を算出している。この方法では、周期性情報を用いることにより、変動が激しい非定常雑音下でも音声区間を正確に検出することができる。また、パワー情報は入力信号のレベルの2乗値または対数値を直接用いていないため、背景雑音のパワーが大きい場合でも、安定して音声区間の検出が可能となる。
【特許文献1】特開平8‐305388号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
上記の音のパワー情報に基づいて音声区間を検出する方法では、工場内雑音のような変動が激しい非定常な雑音や、ドアーの閉まる音などの突発的な音はパワー情報が大きいため、すべて音声として誤検出してしまうおそれがある。
【0008】
音の基本周波数情報に基づいて音声区間を検出する方法では、特に語頭や語尾の母音において声帯振動が完全な周期性を持たないため、基本周波数の振幅値が小さくなり、語頭や語尾が欠落しやすく、抽出精度が低下する。
【0009】
基本周波数を周期性から求める方法は、ランダム性雑音に対しては、効果が高いが、ファンの回転などのような周期構造を持つ音に対して反応してしまい、そのような音までも音声として認識してしまうという問題点がある。
【0010】
特許文献1に記載のパワー情報と周期性情報とに基づいて音声区間を検出する方法では、工場内雑音や街頭雑音などのランダム性雑音に対しては効果が高いが、自動車走行雑音や計算機雑音やモータ音などのような周期的な雑音に対しては頻繁に反応してしまうという問題点を有している。
【0011】
そこで、この発明は、周期的な雑音下においても入力された音の中の音声を正しく検出できる音声区間検出装置および音声区間検出方法を提供することを目的とする。
【課題を解決するための手段】
【0012】
この発明は、音の中から発話された音声の音声区間を検出する音声区間検出装置に関する。音声区間検出装置は、音を音の信号に変換して、所定時間間隔のフレームに分割するフレーム分割手段と、フレーム分割手段によって分割された各フレームごとに、音の信号に含まれるパワー情報を抽出するパワー情報抽出手段と、フレーム分割手段によって分割された各フレームごとに、音の信号に含まれる調波情報を抽出する調波情報抽出手段と、パワー情報抽出手段によって抽出されたパワー情報と、調波情報抽出手段によって抽出された調波情報とに基づいて、音声区間を検出する音声区間検出手段とを備える。
【0013】
この発明によれば、パワー情報と調波情報とに基づいて音声区間を検出することにより、周期的な雑音下においても入力された音にある程度調波性があれば音声と判断することができるので、音声区間を正しく認識できる。
【0014】
より好ましくは、調波情報抽出手段は、フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレーム内で倍音成分を最も多く含む基本波を表す情報を検出する検出手段と、検出手段によって検出された倍音成分を最も多く含む基本波を表す情報を第1のしきい値で弁別して、音声であることを示す判定情報を出力する第1の判別手段とを含む。
【0015】
倍音成分を最も多く含む基本波を表す情報を第1のしきい値で弁別することにより音声と判別できる。
【0016】
より好ましくは、検出手段は、フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレームのパワースペクトルを対数に変換し、逆フーリエ変換したケプストラムを得るケプストラム抽出手段と、ケプストラム抽出手段により得られたケプストラム高次波形より振幅の最大値を検出する最大値検出手段とを含む。
【0017】
高次波形より振幅最大値を検出することで、声道の影響を取除くことができる。
【0018】
より好ましくは、第1の判別手段によって高次波形の振幅の最大値が第1のしきい値を越えていることが判別されたことに応じて、振幅の最大値を高めるように補正する補正手段を含む。
【0019】
高次波形の振幅の最大値を補正することにより、雑音との区別が容易になるので、音声区間の決定が雑音によって影響を受けるのを避けることができる。
【0020】
より具体的には、補正手段は、振幅の最大値を検出した高次波形内の振幅の最大値近傍の振幅値を抽出する抽出手段と、抽出手段によって抽出された振幅値を最大値に加算する加算手段とを含む。
【0021】
抽出された振幅値を最大値に加算して強調することにより、より雑音との区別が容易になるので、雑音を音声区間と誤認識してしまうのを避けることができる。
【0022】
より好ましくは、最大値強調手段によって強調された振幅の最大値を第2のしきい値で判別し、強調された振幅の最大値が第2のしきい値を越えていることに応じて、強調された振幅の最大値を調波情報として出力する第2の弁別手段を含む。
【0023】
強調された振幅の最大値を調波情報として出力することにより、音声が雑音によって埋もれてしまうことがないので、音声区間の検出を誤ることが少なくなる。
【0024】
この発明の他の局面は、音の中から発話された音声の音声区間を検出する音声区間検出方法に関する。音声区間検出方法は、音を音の信号に変換して、所定時間ごとのフレームに分割するステップと、分割された各フレームごとに、音の信号に含まれるパワー情報を抽出するステップと、分割された各フレームごとに、音の信号に含まれる調波情報を抽出するステップと、抽出されたパワー情報と、抽出された調波情報とに基づいて音声区間を検出するステップとを備える。
【0025】
この方法においても、パワー情報と調波情報とに基づいて音声区間を検出することにより、入力された音にある程度調波性があれば音声と判断することができるので、周期的な雑音下においても入力された音の中の音声を正しく認識できる。
【発明を実施するための最良の形態】
【0026】
まず、この発明の実施形態では、音のうち、人間が発声した声を音声と定義し、ドアーの開く音など瞬時的な音を物音と定義し、背景で常時鳴っている音を雑音と定義する。したがって、音の信号には、音声信号と物音信号と雑音信号が含まれている。この実施形態では、入力された音の中から人間が発声した音声の区間を音声区間と定義する。また、フレームとは、連続する音の信号の内の、数十msec程度の所定時間間隔を意味するものとする。ただし、数十msecの時間間隔は一例であり、これに限定されるものではない。さらに、音の信号は、基音成分と、2倍,3倍…の倍音成分を含む。これらの倍音成分を最も多く含む基本波を表す情報を調波情報と定義する。基本波を表す情報は、基本周波数情報または基本波の周期情報のいずれかを含む。
【0027】
図1はこの発明の一実施形態における音声区間検出装置を用いた音声認識装置1のブロック図である。図1において、音声認識装置1は、フレーム分割手段として作動する音入力回路2およびフレーム分割回路3と、パワー情報抽出手段として作動するパワー情報抽出回路4と、調波情報抽出手段、検出手段、第1の判別手段、ケプストラム抽出手段、最大振幅値検出手段、補正手段、抽出手段、加算手段、第2の判別手段として作動する調波情報抽出回路5と、音声区間検出手段として作動する音声区間決定回路6と、音声認識回路7とを含む。
【0028】
音入力回路2は、図示しないA/D変換部を含み、入力した音の信号をA/D変換部でサンプリングして量子化して連続する音の信号をフレーム分割回路3に出力する。フレーム分割回路3は、連続する音の信号を所定時間間隔としてのフレームごとに分割する。各フレームのデータは、パワー情報抽出回路4と、調波情報抽出回路5とに与えられる。
【0029】
パワー情報抽出回路4は、各フレームごとに、帯域制限した音の信号に含まれるエネルギーに基づいてパワー情報を抽出する。パワー情報は、予め定めるしきい値でレベル弁別され、音の信号が音声であるかあるいは非音声であるかを示す2値データが判定値として音声区間決定回路6に出力される。
【0030】
調波情報抽出回路5は、各フレームごとに切出された音の信号より倍音成分を最も多く含む基本波を表す情報を検出する。倍音成分を最も多く含む基本波を表す情報が、予め定めるしきい値でレベル弁別され、音の信号が音声であるかあるいは非音声であるかを示す2値データが判定値として音声区間決定回路6に出力される。
【0031】
音声区間決定回路6は、パワー情報抽出回路4によって抽出されたパワー情報に基づく音声,非音声の判定値と、調波情報抽出回路5によって抽出された調波情報に基づく音声,非音声の判定値とに基づいて音声区間を検出して音声区間データを出力する。すなわち、音声区間決定回路6は、パワー情報抽出回路4によって抽出されたパワー情報に基づく音声の判定値と、調波情報抽出回路5によって抽出された調波情報に基づく音声の判定値とにより、音声区間の始端と終端とを検出する。音声認識回路7は、音声区間決定回路6によって決定された音声区間に含まれる音声を認識する。
【0032】
図2は、パワー情報抽出回路4の動作を説明するためのフローチャートであり、図3は調波情報抽出回路5の動作を説明するためのフローチャートである。
【0033】
図4はフレーム分割回路3から出力されるフレームを示す波形図であり、図5はパワースペクトルを示す波形図であり、図6は対数(パワー)スペクトルの波形図であり、図7は対数スペクトルを逆フーリエ変換したケプストラムを示した波形図であり、図8はケプストラム高次抽出波形であり、図9は高次波形の振幅の最大値を探索してしきい値Bでレベル弁別したときの最大値波形を示す波形図であり、図10は高次波形の振幅の最大値強調を説明するための波形図であり、図11は高次波形の振幅の最大値強調波形図であり、図12は強調した振幅の最大値波形としきい値Cとを比較する波形図である。
【0034】
次に、図1ないし図12を参照して、この発明の一実施形態における音声区間検出装置を用いた音声認識装置1の動作について説明する。音入力回路2は、入力された音の信号をA/D変換部で、例えば11.025kHzのサンプリング周波数でサンプリングして量子化し、連続する音の信号を生成して、フレーム分割回路3に出力する。フレーム分割回路3は連続する音の信号をフレームごとに分割し、図4に示すような波形で示されるフレームデータをパワー情報抽出回路4と調波情報抽出回路5とに出力する。図4において、縦軸は音の信号の振幅であり、横軸はサンプリングポイントである。
【0035】
ここで、図2を参照してパワー情報抽出回路4によるパワー情報抽出処理の具体的な動作について説明する。パワー情報抽出回路4は、図2に示すステップ(図示ではSPと略称する。)SP1において、フレームデータが入力されるまで待機している。フレームデータの入力を判別すると、ステップSP2において、フレームデータに対してフーリエ変換を施して、図5に示すようなフレームデータごとのパワースペクトル波形を求める。図5において、縦軸は振幅(パワースペクトルの値)であり、横軸はサンプリングポイント(周波数)であり、音の部分におけるパワースペクトルの振幅は大きくなっている。
【0036】
ステップSP3において、パワースペクトル成分に対して帯域制限を行い、音の信号から所定の帯域以外に含まれる雑音成分が除去される。なお、帯域制限は必ずしも必要とされるものではなく、省略してもよい。ステップSP4において、フレームデータごとにおけるパワースペクトル値の総和を求め、ステップSP5において、しきい値Aと比較し、パワースペクトル値の総和がしきい値Aよりも大きければ、ステップSP6において、そのフレームデータが音声候補であると判定し、音声候補であることを示す判定値「1」を出力する。パワースペクトルの総和がしきい値Aよりも小さければそのフレームデータは雑音などの非音声であると判定し、非音声であることを示す判定値「0」を出力する。
【0037】
続いて、パワー情報抽出処理回路4は、フレームデータが入力される都度、上記ステップSP1ないしSP6の処理を繰り返し行い、音声候補であるのか非音声であるのかの判定を行う。
【0038】
次に、図3を参照して、調波情報抽出回路5による調波情報抽出処理の具体的な動作について説明する。調波情報抽出回路5は、ステップSP11において、フレームデータが入力されるまで待機している。フレームデータが入力されたことを判別すると、ステップSP12において、フレームデータにフーリエ変換を施してパワースペクトルを求め、ステップSP13において、パワースペクトルを対数変換して図6に示す対数(パワー)スペクトル波形を抽出する。図6において、縦軸は対数振幅(対数パワースペクトルの値)であり、横軸はサンプリングポイント(周波数)である。
【0039】
音が音声であるならば、声帯の振動である基音に対する倍音成分が多く含まれ、対数スペクトル上では櫛状に現われることが知られている。図6に示す対数スペクトル波形は櫛状に変動している声帯の振動を表す微細構造と、声道の特性を表すスペクトル包絡構造とを含んでいる。
【0040】
ステップSP14において、対数スペクトル波形に逆フーリエ変換を施すと、図7に示すケプストラム波形が得られる。ステップSP15において、ケプストラムの高次波形を抽出する。高次波形を抽出することにより声道の影響を取除いている。図7において、最も振幅の大きな部分がこのフレームにおける調波情報を示しており、縦軸は振幅(ケプストラムの値)であり、横軸はサンプリングポイント(ケフレンシー)である。図8〜図12に示す各波形図の縦軸および横軸も図7のパラメータと同じである。なお、対数スペクトルにフーリエ変換を施してケプストラムを抽出してもよい。
【0041】
ステップSP16において、図7に示す対数スペクトルを逆フーリエ変換したケプストラム波形から、図8に示すようなサンプリングポイントが20〜130の間に現れる高次波形を抽出し、その高次波形の振幅の最大値を探索する。ステップSP17において、探索した振幅の最大値と図9に示す第1のしきい値として作動するしきい値Bとを比較し、ある程度の倍音成分を含む信号であるかどうかを判別する。
【0042】
高次波形の振幅の最大値がしきい値B以下であることを判別すると、そのフレームは倍音成分を含んでいないので、音声候補でないと判別する。高次波形の振幅の最大値がしきい値B以上であることを判別すれば、そのフレームは倍音成分を含んでいるので、音声候補であると判別する。しきい値Bは、値を大きくすると倍音成分を含む音声のみの抽出が可能になり、小さな値にすると、音声のみならず雑音などを含む曖昧な部分も抽出することになる。例えば、物音に反応することなく、音声のみに反応するようにしたい場合は、しきい値Bの値を大きくすればよい。したがって、音声区間検出の用途に応じてしきい値Bを設定すればよい。このようにして音声候補の判別を行うが、判別した音声候補を音声として認識してもよい。
【0043】
上述のごとく、高次波形の最大値がしきい値Bを越えているか否かにより、音声候補と雑音との区別が可能であるが、さらに雑音との区別が容易になるように、図9に示した高次波形の振幅値を強調するための補正を行う。補正として、例えば振幅の最大値強調処理が行なわれる。すなわち、雑音が大きくなると、倍音成分が雑音成分に埋もれてしまう。そこで、高次波形の振幅の最大値強調処理を行うことにより、倍音成分と雑音成分との区別が容易になる。
【0044】
高次波形の振幅の最大値強調処理について図10を参照して説明する。図10において、ピーク値を示すサンプリングポイント(ケフレンシー)は、物理的には基本周波数の周期を表す。
【0045】
ステップSP18において、高次波形の振幅の最大値に隣接する振幅値として、例えば、図10に示すように、高次波形の振幅の最大値の近傍の振幅が0以上の部分の振幅値を抽出してもよい。一例として、サンプリング周波数が11.025kHzのときの高次波形の最大値のサンプリングポイント(ケフレンシー)が76であったとすると、最大値を取るサンプリングポイントが76から前後の値75,77における振幅値を抽出する。抽出した振幅値が図10に示す振幅0以上でプラス値をとるか、あるいは0以下でマイナス値をとるかを判別する。前後の値は、サンプリング周波数に基づいて決めることができる。
【0046】
ステップSP19において、振幅値が0以上であれば、その振幅値は同じ最大波形内の振幅値であると判別できるので、その抽出した振幅値を高次波形の振幅の最大値に加算して高次波形の振幅の最大値を強調する補正を行う。抽出した振幅値が0以下であれば、その振幅値は同じ最大波形内の振幅値ではないと判別できるので、その抽出した振幅値を高次波形の振幅の最大値に加算しない。強調処理した高次波形を図11に示す。
【0047】
ステップSP20において、強調した高次波形の振幅の最大値と第2のしきい値として作動するしきい値Cとを比較し、強調した高次波形の振幅の最大値が図12に示すしきい値C以下であることを判別すると、ステップSP21において、そのフレームデータは音声候補でないと判別する。強調した高次波形の振幅の最大値がしきい値C以上であることを判別すれば、そのフレームデータは音声候補であると判定し、ステップSP21において、「1」の判定値を出力する。ステップSP17またはステップSP20において、非音声であると判別したときには判定値「0」を出力する。調波情報抽出回路5は、次のフレームデータが入力されると、上記ステップSP11ないしステップSP21の処理を繰り返し行う。
【0048】
音声区間決定回路6は、パワー情報抽出回路4によって出力された判定値と、調波情報抽出回路5によって出力された判定値とに基づいて、音声区間の始端と終端とを判別して音声区間を決定し、音声区間信号を音声認識回路7に出力する。音声認識回路7は、入力された音声区間信号で規定される音声を認識する。
【0049】
ここで、音声区間の決定について、より具体的に説明すると、パワー情報の判定値が「1」であり、調波情報の判定値が「1」であれば音声区間の始端とする。パワー情報の判定値が「0」の間は、調波情報の判定値が「1」であっても音声区間の始端とはしない。
【0050】
より好ましくは、予め定めた音声区間と非音声区間を判定する規則にしたがって音声区間の始端と終端とを判別して音声区間を決定してもよい。すなわち、パワー情報の判定値
が「1」になってから、例えば、その先30フレームの間、調波情報を観測し、1フレームでも調波情報の判定値が「1」になるフレームがあれば、パワー情報の判定値が最初に「1」になった時点を音声区間の始端と判定する。このようにして音声区間の始端が検出された後、パワー情報の判定値が「0」になるフレームが例えば40フレーム連続すると、調波情報の判定値に関わらず音声区間の終端とする。なお、上記30フレームおよび40フレームは一例であり、これらに限定されるものではない。
【0051】
また、語頭、語尾においては、声帯振動が正確に行われないことがしばしばあるため、調波情報が抽出されないことがある。例えば、「ス」を発話したときには、音声と雑音との区別がつきにくく、調波情報を抽出できないことがある。正確な声帯振動をした部分のみを抽出したいのであれば、上記30フレームより短い区間で調波情報の判定値が「1」になるフレームがあれば、パワー情報の判定値が最初に「1」になった時点を音声区間の始端と判定するようにすればよい。
【0052】
上述のごとく、この発明の一実施形態によれば、音の信号を所定時間間隔のフレームに分割し、分割された各フレームごとに、音の信号に含まれるパワー情報を抽出し、分割された各フレームごとに、音の信号に含まれる調波情報を抽出し、抽出されたパワー情報と、調波情報とに基づいて、音声区間を決定できる。これにより、周期的な雑音下においても調波性があれば音声と認識して音声区間を検出することが可能になる。
【0053】
なお、上述の実施形態では、パワー情報抽出回路4および調波情報抽出回路5は、ともに音声の判定値として、しきい値でレベル弁別した2値データを出力するようにしたが、これに限ることなく、レベルが連続するデータを出力するようにしてもよい。例えば、パワー情報が比較的大きく所定の値になった場合には、調波情報が所定の値よりも小さくても、音声区間の始端と判断することも可能である。また、調波情報に関わらずパワー情報に基づいて音声区間の終端としてもよく、正確な声帯振動をした部分のみを抽出したいのであれば、調波情報を基に終端を決定してもよい。
【0054】
また、上述の実施形態では、分割された各フレームごとに切出された音の信号のパワースペクトルを対数に変換し、逆フーリエ変換したケプストラムを得て、得られたケプストラムの高次波形の振幅の最大値を検出することにより調波情報を得るようにした。しかし、時間波形を用いることなく、相関法を用いて対数スペクトル波形の自己相関の最大値を示したものを調波情報として取り出してもよい。
【0055】
さらに、この発明の一実施例の音声区間検出装置を音声認識装置に適用するようにしたが、これに限ることなく、他の用途にも適用可能である。例えば、ボイスレコーダなどにおいて、音声区間検出装置が音声区間の始端を検出すると録音を開始し、音声区間の終端を検出すると録音を停止させることも可能である。また、赤ん坊が泣き出したときの音声区間を検出してアラームを鳴らすような用途にも適用可能である。
【0056】
上述の実施形態では、調波情報抽出処理において、高次波形の最大値がしきい値Bよりも大きければ最大値を強調処理し、強調処理した最大値がしきい値Cよりも大きければ音声であると判定するようにしたが、この発明においては、図3のステップSP16において抽出した高次波形の最大値に基づいて、音声であると判定してもよい。
【0057】
以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。
【図面の簡単な説明】
【0058】
【図1】この発明の一実施形態における音声区間検出装置1のブロック図である。
【図2】パワー情報抽出回路4の動作を説明するためのフローチャートである。
【図3】調波情報抽出回路5の動作を説明するためのフローチャートである。
【図4】フレーム分割回路3から出力されるフレームデータを示す波形図である。
【図5】パワースペクトルを示す波形図である。
【図6】対数スペクトルの波形図である。
【図7】対数スペクトルを逆フーリエ変換したケプストラムを示す波形図である。
【図8】抽出されたケプストラム高次波形を示す図である。
【図9】高次波形の最大値をしきい値Bでレベル弁別したときの最大値波形を示す波形図である。
【図10】図9の最大値近傍を拡大して示した波形図である。
【図11】高次波形の最大値を強調した波形図である。
【図12】強調した高次波形の最大値としきい値Cとを比較する波形図である。
【符号の説明】
【0059】
1 音声区間検出装置、2 音入力回路、3 フレーム分割回路、4 パワー情報抽出回路、5 調波情報抽出回路、6 音声区間決定回路、7 音声認識回路。
【技術分野】
【0001】
この発明は、音の中から発話された音声が継続する音声区間を検出する音声区間検出装置および音声区間検出方法に関する。
【背景技術】
【0002】
例えば、音声認識装置は、音が入力される区間である所定区間に入力された信号が音声信号であるのかあるいは雑音信号であるのかを検出し、音声信号であればその音声を認識している。所定区間を検出する方法として、音のパワー情報に基づく方法、音の基本周波数情報に基づく方法、音のパワー情報と周期性情報とに基づく方法などがある。
【0003】
音のパワー情報とは、例えば、十msecごとにおける所定時間間隔(フレーム)あたりの入力信号レベルの2乗和またはその対数値である。音のパワー情報に基づいて音声区間を検出する方法では、入力信号中のパワーがあるしきい値以上に達するフレームが1つまたは数フレーム連続すると、しきい値を越えた最初のフレームを音声フレームであると仮定している。そして、その前数フレームを含めて音声区間の始端と判別し、入力信号のパワーがしきい値以下になるフレームが1つまたは数フレーム連続すると音声区間の終端と判別している。
【0004】
音の基本周波数情報に基づいて音声区間を検出する方法では、音声に含まれている母音定常部の基本周波数が約80〜400Hzの周波数帯に含まれており、基本周波数の振幅値も大きくなることを利用して音声区間を検出する。すなわち、フレームごとに自己相関法やケプストラム法などの抽出手段から基本周波数を求め、その基本周波数が80〜400Hzの周波数帯内に存在し、かつ振幅値があるしきい値を越える場合、その前数フレームを含めて音声区間の始端とし、振幅値がしきい値以下になると、音声区間の終端と判別する。
【0005】
また、音から基本周波数を抽出する方法として、周期性から求める方法と、調波性から求める方法とがある。基本周波数を周期性から求める方法の一例が、例えば、特開平8‐305388号公報(特許文献1)に記載されている。特許文献1に記載の音声区間検出装置は、入力された音を分析して周期性を検出するとともに、入力された音のパワー情報に基づいて音声区間を検出し、これらの2つの検出結果に基づいて、予め定めた音声区間と非音声区間とを判定する規則にしたがって音声区間を検出する。特許文献1では、音声区間は、入力された音のうち音の信号が定められたしきい値以上に存在する部分を示すと定義されている。
【0006】
また、特許文献1では、入力信号のレベルの2乗値または対数値を直接用いてパワー情報を算出するのではなく、短時間パワー比と長時間パワー比とに基づいてパワー情報を算出している。この方法では、周期性情報を用いることにより、変動が激しい非定常雑音下でも音声区間を正確に検出することができる。また、パワー情報は入力信号のレベルの2乗値または対数値を直接用いていないため、背景雑音のパワーが大きい場合でも、安定して音声区間の検出が可能となる。
【特許文献1】特開平8‐305388号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
上記の音のパワー情報に基づいて音声区間を検出する方法では、工場内雑音のような変動が激しい非定常な雑音や、ドアーの閉まる音などの突発的な音はパワー情報が大きいため、すべて音声として誤検出してしまうおそれがある。
【0008】
音の基本周波数情報に基づいて音声区間を検出する方法では、特に語頭や語尾の母音において声帯振動が完全な周期性を持たないため、基本周波数の振幅値が小さくなり、語頭や語尾が欠落しやすく、抽出精度が低下する。
【0009】
基本周波数を周期性から求める方法は、ランダム性雑音に対しては、効果が高いが、ファンの回転などのような周期構造を持つ音に対して反応してしまい、そのような音までも音声として認識してしまうという問題点がある。
【0010】
特許文献1に記載のパワー情報と周期性情報とに基づいて音声区間を検出する方法では、工場内雑音や街頭雑音などのランダム性雑音に対しては効果が高いが、自動車走行雑音や計算機雑音やモータ音などのような周期的な雑音に対しては頻繁に反応してしまうという問題点を有している。
【0011】
そこで、この発明は、周期的な雑音下においても入力された音の中の音声を正しく検出できる音声区間検出装置および音声区間検出方法を提供することを目的とする。
【課題を解決するための手段】
【0012】
この発明は、音の中から発話された音声の音声区間を検出する音声区間検出装置に関する。音声区間検出装置は、音を音の信号に変換して、所定時間間隔のフレームに分割するフレーム分割手段と、フレーム分割手段によって分割された各フレームごとに、音の信号に含まれるパワー情報を抽出するパワー情報抽出手段と、フレーム分割手段によって分割された各フレームごとに、音の信号に含まれる調波情報を抽出する調波情報抽出手段と、パワー情報抽出手段によって抽出されたパワー情報と、調波情報抽出手段によって抽出された調波情報とに基づいて、音声区間を検出する音声区間検出手段とを備える。
【0013】
この発明によれば、パワー情報と調波情報とに基づいて音声区間を検出することにより、周期的な雑音下においても入力された音にある程度調波性があれば音声と判断することができるので、音声区間を正しく認識できる。
【0014】
より好ましくは、調波情報抽出手段は、フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレーム内で倍音成分を最も多く含む基本波を表す情報を検出する検出手段と、検出手段によって検出された倍音成分を最も多く含む基本波を表す情報を第1のしきい値で弁別して、音声であることを示す判定情報を出力する第1の判別手段とを含む。
【0015】
倍音成分を最も多く含む基本波を表す情報を第1のしきい値で弁別することにより音声と判別できる。
【0016】
より好ましくは、検出手段は、フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレームのパワースペクトルを対数に変換し、逆フーリエ変換したケプストラムを得るケプストラム抽出手段と、ケプストラム抽出手段により得られたケプストラム高次波形より振幅の最大値を検出する最大値検出手段とを含む。
【0017】
高次波形より振幅最大値を検出することで、声道の影響を取除くことができる。
【0018】
より好ましくは、第1の判別手段によって高次波形の振幅の最大値が第1のしきい値を越えていることが判別されたことに応じて、振幅の最大値を高めるように補正する補正手段を含む。
【0019】
高次波形の振幅の最大値を補正することにより、雑音との区別が容易になるので、音声区間の決定が雑音によって影響を受けるのを避けることができる。
【0020】
より具体的には、補正手段は、振幅の最大値を検出した高次波形内の振幅の最大値近傍の振幅値を抽出する抽出手段と、抽出手段によって抽出された振幅値を最大値に加算する加算手段とを含む。
【0021】
抽出された振幅値を最大値に加算して強調することにより、より雑音との区別が容易になるので、雑音を音声区間と誤認識してしまうのを避けることができる。
【0022】
より好ましくは、最大値強調手段によって強調された振幅の最大値を第2のしきい値で判別し、強調された振幅の最大値が第2のしきい値を越えていることに応じて、強調された振幅の最大値を調波情報として出力する第2の弁別手段を含む。
【0023】
強調された振幅の最大値を調波情報として出力することにより、音声が雑音によって埋もれてしまうことがないので、音声区間の検出を誤ることが少なくなる。
【0024】
この発明の他の局面は、音の中から発話された音声の音声区間を検出する音声区間検出方法に関する。音声区間検出方法は、音を音の信号に変換して、所定時間ごとのフレームに分割するステップと、分割された各フレームごとに、音の信号に含まれるパワー情報を抽出するステップと、分割された各フレームごとに、音の信号に含まれる調波情報を抽出するステップと、抽出されたパワー情報と、抽出された調波情報とに基づいて音声区間を検出するステップとを備える。
【0025】
この方法においても、パワー情報と調波情報とに基づいて音声区間を検出することにより、入力された音にある程度調波性があれば音声と判断することができるので、周期的な雑音下においても入力された音の中の音声を正しく認識できる。
【発明を実施するための最良の形態】
【0026】
まず、この発明の実施形態では、音のうち、人間が発声した声を音声と定義し、ドアーの開く音など瞬時的な音を物音と定義し、背景で常時鳴っている音を雑音と定義する。したがって、音の信号には、音声信号と物音信号と雑音信号が含まれている。この実施形態では、入力された音の中から人間が発声した音声の区間を音声区間と定義する。また、フレームとは、連続する音の信号の内の、数十msec程度の所定時間間隔を意味するものとする。ただし、数十msecの時間間隔は一例であり、これに限定されるものではない。さらに、音の信号は、基音成分と、2倍,3倍…の倍音成分を含む。これらの倍音成分を最も多く含む基本波を表す情報を調波情報と定義する。基本波を表す情報は、基本周波数情報または基本波の周期情報のいずれかを含む。
【0027】
図1はこの発明の一実施形態における音声区間検出装置を用いた音声認識装置1のブロック図である。図1において、音声認識装置1は、フレーム分割手段として作動する音入力回路2およびフレーム分割回路3と、パワー情報抽出手段として作動するパワー情報抽出回路4と、調波情報抽出手段、検出手段、第1の判別手段、ケプストラム抽出手段、最大振幅値検出手段、補正手段、抽出手段、加算手段、第2の判別手段として作動する調波情報抽出回路5と、音声区間検出手段として作動する音声区間決定回路6と、音声認識回路7とを含む。
【0028】
音入力回路2は、図示しないA/D変換部を含み、入力した音の信号をA/D変換部でサンプリングして量子化して連続する音の信号をフレーム分割回路3に出力する。フレーム分割回路3は、連続する音の信号を所定時間間隔としてのフレームごとに分割する。各フレームのデータは、パワー情報抽出回路4と、調波情報抽出回路5とに与えられる。
【0029】
パワー情報抽出回路4は、各フレームごとに、帯域制限した音の信号に含まれるエネルギーに基づいてパワー情報を抽出する。パワー情報は、予め定めるしきい値でレベル弁別され、音の信号が音声であるかあるいは非音声であるかを示す2値データが判定値として音声区間決定回路6に出力される。
【0030】
調波情報抽出回路5は、各フレームごとに切出された音の信号より倍音成分を最も多く含む基本波を表す情報を検出する。倍音成分を最も多く含む基本波を表す情報が、予め定めるしきい値でレベル弁別され、音の信号が音声であるかあるいは非音声であるかを示す2値データが判定値として音声区間決定回路6に出力される。
【0031】
音声区間決定回路6は、パワー情報抽出回路4によって抽出されたパワー情報に基づく音声,非音声の判定値と、調波情報抽出回路5によって抽出された調波情報に基づく音声,非音声の判定値とに基づいて音声区間を検出して音声区間データを出力する。すなわち、音声区間決定回路6は、パワー情報抽出回路4によって抽出されたパワー情報に基づく音声の判定値と、調波情報抽出回路5によって抽出された調波情報に基づく音声の判定値とにより、音声区間の始端と終端とを検出する。音声認識回路7は、音声区間決定回路6によって決定された音声区間に含まれる音声を認識する。
【0032】
図2は、パワー情報抽出回路4の動作を説明するためのフローチャートであり、図3は調波情報抽出回路5の動作を説明するためのフローチャートである。
【0033】
図4はフレーム分割回路3から出力されるフレームを示す波形図であり、図5はパワースペクトルを示す波形図であり、図6は対数(パワー)スペクトルの波形図であり、図7は対数スペクトルを逆フーリエ変換したケプストラムを示した波形図であり、図8はケプストラム高次抽出波形であり、図9は高次波形の振幅の最大値を探索してしきい値Bでレベル弁別したときの最大値波形を示す波形図であり、図10は高次波形の振幅の最大値強調を説明するための波形図であり、図11は高次波形の振幅の最大値強調波形図であり、図12は強調した振幅の最大値波形としきい値Cとを比較する波形図である。
【0034】
次に、図1ないし図12を参照して、この発明の一実施形態における音声区間検出装置を用いた音声認識装置1の動作について説明する。音入力回路2は、入力された音の信号をA/D変換部で、例えば11.025kHzのサンプリング周波数でサンプリングして量子化し、連続する音の信号を生成して、フレーム分割回路3に出力する。フレーム分割回路3は連続する音の信号をフレームごとに分割し、図4に示すような波形で示されるフレームデータをパワー情報抽出回路4と調波情報抽出回路5とに出力する。図4において、縦軸は音の信号の振幅であり、横軸はサンプリングポイントである。
【0035】
ここで、図2を参照してパワー情報抽出回路4によるパワー情報抽出処理の具体的な動作について説明する。パワー情報抽出回路4は、図2に示すステップ(図示ではSPと略称する。)SP1において、フレームデータが入力されるまで待機している。フレームデータの入力を判別すると、ステップSP2において、フレームデータに対してフーリエ変換を施して、図5に示すようなフレームデータごとのパワースペクトル波形を求める。図5において、縦軸は振幅(パワースペクトルの値)であり、横軸はサンプリングポイント(周波数)であり、音の部分におけるパワースペクトルの振幅は大きくなっている。
【0036】
ステップSP3において、パワースペクトル成分に対して帯域制限を行い、音の信号から所定の帯域以外に含まれる雑音成分が除去される。なお、帯域制限は必ずしも必要とされるものではなく、省略してもよい。ステップSP4において、フレームデータごとにおけるパワースペクトル値の総和を求め、ステップSP5において、しきい値Aと比較し、パワースペクトル値の総和がしきい値Aよりも大きければ、ステップSP6において、そのフレームデータが音声候補であると判定し、音声候補であることを示す判定値「1」を出力する。パワースペクトルの総和がしきい値Aよりも小さければそのフレームデータは雑音などの非音声であると判定し、非音声であることを示す判定値「0」を出力する。
【0037】
続いて、パワー情報抽出処理回路4は、フレームデータが入力される都度、上記ステップSP1ないしSP6の処理を繰り返し行い、音声候補であるのか非音声であるのかの判定を行う。
【0038】
次に、図3を参照して、調波情報抽出回路5による調波情報抽出処理の具体的な動作について説明する。調波情報抽出回路5は、ステップSP11において、フレームデータが入力されるまで待機している。フレームデータが入力されたことを判別すると、ステップSP12において、フレームデータにフーリエ変換を施してパワースペクトルを求め、ステップSP13において、パワースペクトルを対数変換して図6に示す対数(パワー)スペクトル波形を抽出する。図6において、縦軸は対数振幅(対数パワースペクトルの値)であり、横軸はサンプリングポイント(周波数)である。
【0039】
音が音声であるならば、声帯の振動である基音に対する倍音成分が多く含まれ、対数スペクトル上では櫛状に現われることが知られている。図6に示す対数スペクトル波形は櫛状に変動している声帯の振動を表す微細構造と、声道の特性を表すスペクトル包絡構造とを含んでいる。
【0040】
ステップSP14において、対数スペクトル波形に逆フーリエ変換を施すと、図7に示すケプストラム波形が得られる。ステップSP15において、ケプストラムの高次波形を抽出する。高次波形を抽出することにより声道の影響を取除いている。図7において、最も振幅の大きな部分がこのフレームにおける調波情報を示しており、縦軸は振幅(ケプストラムの値)であり、横軸はサンプリングポイント(ケフレンシー)である。図8〜図12に示す各波形図の縦軸および横軸も図7のパラメータと同じである。なお、対数スペクトルにフーリエ変換を施してケプストラムを抽出してもよい。
【0041】
ステップSP16において、図7に示す対数スペクトルを逆フーリエ変換したケプストラム波形から、図8に示すようなサンプリングポイントが20〜130の間に現れる高次波形を抽出し、その高次波形の振幅の最大値を探索する。ステップSP17において、探索した振幅の最大値と図9に示す第1のしきい値として作動するしきい値Bとを比較し、ある程度の倍音成分を含む信号であるかどうかを判別する。
【0042】
高次波形の振幅の最大値がしきい値B以下であることを判別すると、そのフレームは倍音成分を含んでいないので、音声候補でないと判別する。高次波形の振幅の最大値がしきい値B以上であることを判別すれば、そのフレームは倍音成分を含んでいるので、音声候補であると判別する。しきい値Bは、値を大きくすると倍音成分を含む音声のみの抽出が可能になり、小さな値にすると、音声のみならず雑音などを含む曖昧な部分も抽出することになる。例えば、物音に反応することなく、音声のみに反応するようにしたい場合は、しきい値Bの値を大きくすればよい。したがって、音声区間検出の用途に応じてしきい値Bを設定すればよい。このようにして音声候補の判別を行うが、判別した音声候補を音声として認識してもよい。
【0043】
上述のごとく、高次波形の最大値がしきい値Bを越えているか否かにより、音声候補と雑音との区別が可能であるが、さらに雑音との区別が容易になるように、図9に示した高次波形の振幅値を強調するための補正を行う。補正として、例えば振幅の最大値強調処理が行なわれる。すなわち、雑音が大きくなると、倍音成分が雑音成分に埋もれてしまう。そこで、高次波形の振幅の最大値強調処理を行うことにより、倍音成分と雑音成分との区別が容易になる。
【0044】
高次波形の振幅の最大値強調処理について図10を参照して説明する。図10において、ピーク値を示すサンプリングポイント(ケフレンシー)は、物理的には基本周波数の周期を表す。
【0045】
ステップSP18において、高次波形の振幅の最大値に隣接する振幅値として、例えば、図10に示すように、高次波形の振幅の最大値の近傍の振幅が0以上の部分の振幅値を抽出してもよい。一例として、サンプリング周波数が11.025kHzのときの高次波形の最大値のサンプリングポイント(ケフレンシー)が76であったとすると、最大値を取るサンプリングポイントが76から前後の値75,77における振幅値を抽出する。抽出した振幅値が図10に示す振幅0以上でプラス値をとるか、あるいは0以下でマイナス値をとるかを判別する。前後の値は、サンプリング周波数に基づいて決めることができる。
【0046】
ステップSP19において、振幅値が0以上であれば、その振幅値は同じ最大波形内の振幅値であると判別できるので、その抽出した振幅値を高次波形の振幅の最大値に加算して高次波形の振幅の最大値を強調する補正を行う。抽出した振幅値が0以下であれば、その振幅値は同じ最大波形内の振幅値ではないと判別できるので、その抽出した振幅値を高次波形の振幅の最大値に加算しない。強調処理した高次波形を図11に示す。
【0047】
ステップSP20において、強調した高次波形の振幅の最大値と第2のしきい値として作動するしきい値Cとを比較し、強調した高次波形の振幅の最大値が図12に示すしきい値C以下であることを判別すると、ステップSP21において、そのフレームデータは音声候補でないと判別する。強調した高次波形の振幅の最大値がしきい値C以上であることを判別すれば、そのフレームデータは音声候補であると判定し、ステップSP21において、「1」の判定値を出力する。ステップSP17またはステップSP20において、非音声であると判別したときには判定値「0」を出力する。調波情報抽出回路5は、次のフレームデータが入力されると、上記ステップSP11ないしステップSP21の処理を繰り返し行う。
【0048】
音声区間決定回路6は、パワー情報抽出回路4によって出力された判定値と、調波情報抽出回路5によって出力された判定値とに基づいて、音声区間の始端と終端とを判別して音声区間を決定し、音声区間信号を音声認識回路7に出力する。音声認識回路7は、入力された音声区間信号で規定される音声を認識する。
【0049】
ここで、音声区間の決定について、より具体的に説明すると、パワー情報の判定値が「1」であり、調波情報の判定値が「1」であれば音声区間の始端とする。パワー情報の判定値が「0」の間は、調波情報の判定値が「1」であっても音声区間の始端とはしない。
【0050】
より好ましくは、予め定めた音声区間と非音声区間を判定する規則にしたがって音声区間の始端と終端とを判別して音声区間を決定してもよい。すなわち、パワー情報の判定値
が「1」になってから、例えば、その先30フレームの間、調波情報を観測し、1フレームでも調波情報の判定値が「1」になるフレームがあれば、パワー情報の判定値が最初に「1」になった時点を音声区間の始端と判定する。このようにして音声区間の始端が検出された後、パワー情報の判定値が「0」になるフレームが例えば40フレーム連続すると、調波情報の判定値に関わらず音声区間の終端とする。なお、上記30フレームおよび40フレームは一例であり、これらに限定されるものではない。
【0051】
また、語頭、語尾においては、声帯振動が正確に行われないことがしばしばあるため、調波情報が抽出されないことがある。例えば、「ス」を発話したときには、音声と雑音との区別がつきにくく、調波情報を抽出できないことがある。正確な声帯振動をした部分のみを抽出したいのであれば、上記30フレームより短い区間で調波情報の判定値が「1」になるフレームがあれば、パワー情報の判定値が最初に「1」になった時点を音声区間の始端と判定するようにすればよい。
【0052】
上述のごとく、この発明の一実施形態によれば、音の信号を所定時間間隔のフレームに分割し、分割された各フレームごとに、音の信号に含まれるパワー情報を抽出し、分割された各フレームごとに、音の信号に含まれる調波情報を抽出し、抽出されたパワー情報と、調波情報とに基づいて、音声区間を決定できる。これにより、周期的な雑音下においても調波性があれば音声と認識して音声区間を検出することが可能になる。
【0053】
なお、上述の実施形態では、パワー情報抽出回路4および調波情報抽出回路5は、ともに音声の判定値として、しきい値でレベル弁別した2値データを出力するようにしたが、これに限ることなく、レベルが連続するデータを出力するようにしてもよい。例えば、パワー情報が比較的大きく所定の値になった場合には、調波情報が所定の値よりも小さくても、音声区間の始端と判断することも可能である。また、調波情報に関わらずパワー情報に基づいて音声区間の終端としてもよく、正確な声帯振動をした部分のみを抽出したいのであれば、調波情報を基に終端を決定してもよい。
【0054】
また、上述の実施形態では、分割された各フレームごとに切出された音の信号のパワースペクトルを対数に変換し、逆フーリエ変換したケプストラムを得て、得られたケプストラムの高次波形の振幅の最大値を検出することにより調波情報を得るようにした。しかし、時間波形を用いることなく、相関法を用いて対数スペクトル波形の自己相関の最大値を示したものを調波情報として取り出してもよい。
【0055】
さらに、この発明の一実施例の音声区間検出装置を音声認識装置に適用するようにしたが、これに限ることなく、他の用途にも適用可能である。例えば、ボイスレコーダなどにおいて、音声区間検出装置が音声区間の始端を検出すると録音を開始し、音声区間の終端を検出すると録音を停止させることも可能である。また、赤ん坊が泣き出したときの音声区間を検出してアラームを鳴らすような用途にも適用可能である。
【0056】
上述の実施形態では、調波情報抽出処理において、高次波形の最大値がしきい値Bよりも大きければ最大値を強調処理し、強調処理した最大値がしきい値Cよりも大きければ音声であると判定するようにしたが、この発明においては、図3のステップSP16において抽出した高次波形の最大値に基づいて、音声であると判定してもよい。
【0057】
以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。
【図面の簡単な説明】
【0058】
【図1】この発明の一実施形態における音声区間検出装置1のブロック図である。
【図2】パワー情報抽出回路4の動作を説明するためのフローチャートである。
【図3】調波情報抽出回路5の動作を説明するためのフローチャートである。
【図4】フレーム分割回路3から出力されるフレームデータを示す波形図である。
【図5】パワースペクトルを示す波形図である。
【図6】対数スペクトルの波形図である。
【図7】対数スペクトルを逆フーリエ変換したケプストラムを示す波形図である。
【図8】抽出されたケプストラム高次波形を示す図である。
【図9】高次波形の最大値をしきい値Bでレベル弁別したときの最大値波形を示す波形図である。
【図10】図9の最大値近傍を拡大して示した波形図である。
【図11】高次波形の最大値を強調した波形図である。
【図12】強調した高次波形の最大値としきい値Cとを比較する波形図である。
【符号の説明】
【0059】
1 音声区間検出装置、2 音入力回路、3 フレーム分割回路、4 パワー情報抽出回路、5 調波情報抽出回路、6 音声区間決定回路、7 音声認識回路。
【特許請求の範囲】
【請求項1】
音の中から発話された音声の音声区間を検出する音声区間検出装置であって、
前記音を音の信号に変換して、所定時間間隔のフレームに分割するフレーム分割手段と、
前記フレーム分割手段によって分割された各フレームごとに、前記音の信号に含まれるパワー情報を抽出するパワー情報抽出手段と、
前記フレーム分割手段によって分割された各フレームごとに、前記音の信号に含まれる調波情報を抽出する調波情報抽出手段と、
前記パワー情報抽出手段によって抽出されたパワー情報と、前記調波情報抽出手段によって抽出された調波情報とに基づいて、前記発話された音声の音声区間を検出する音声区間検出手段とを備える、音声区間検出装置。
【請求項2】
前記調波情報抽出手段は、
前記フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレーム内で倍音成分を最も多く含む基本波を表す情報を検出する検出手段と、
前記検出手段によって検出された倍音成分を最も多く含む基本波を表す情報を第1のしきい値で弁別して、音声であることを示す判定情報を出力する第1の判別手段とを含む、請求項1に記載の音声区間検出装置。
【請求項3】
前記検出手段は、
前記フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレームのパワースペクトルを対数に変換し、逆フーリェ変換したケプストラムを得るケプストラム抽出手段と、
前記ケプストラム抽出手段により得られたケプストラムの高次波形から振幅の最大値を検出する最大振幅値検出手段とを含む、請求項2に記載の音声区間検出装置。
【請求項4】
前記第1の判別手段によって前記高次波形の振幅値が前記第1のしきい値を越えていることが判別されたことに応じて、前記高次波形の振幅値を高めるように補正する補正手段を含む、請求項3に記載の音声区間検出装置。
【請求項5】
前記補正手段は、
前記振幅の最大値を検出した前記高次波形内の前記振幅の最大値近傍の振幅値を抽出する抽出手段と、
前記抽出手段によって抽出された振幅値を前記振幅の最大値に加算する加算手段とを含む、請求項4に記載の音声区間検出装置。
【請求項6】
前記加算手段によって加算された前記高次波形の振幅の最大値を前記第1のしきい値とは異なる第2のしきい値で判別し、前記加算された振幅の最大値が前記第2のしきい値を越えていることに応じて、前記加算された振幅の最大値を調波情報として出力する第2の弁別手段を含む、請求項5に記載の音声区間検出装置。
【請求項7】
音の中から発話された音声の音声区間を検出する音声区間検出方法であって、
前記音を音の信号に変換して、所定時間ごとのフレームに分割するステップと、
前記分割された各フレームごとに、前記音の信号に含まれるパワー情報を抽出するステップと、
前記分割された各フレームごとに、前記音の信号に含まれる調波情報を抽出するステップと、
前記抽出されたパワー情報と、前記抽出された調波情報とに基づいて前記発話された音声の区間を検出するステップとを備える、音声区間検出方法。
【請求項1】
音の中から発話された音声の音声区間を検出する音声区間検出装置であって、
前記音を音の信号に変換して、所定時間間隔のフレームに分割するフレーム分割手段と、
前記フレーム分割手段によって分割された各フレームごとに、前記音の信号に含まれるパワー情報を抽出するパワー情報抽出手段と、
前記フレーム分割手段によって分割された各フレームごとに、前記音の信号に含まれる調波情報を抽出する調波情報抽出手段と、
前記パワー情報抽出手段によって抽出されたパワー情報と、前記調波情報抽出手段によって抽出された調波情報とに基づいて、前記発話された音声の音声区間を検出する音声区間検出手段とを備える、音声区間検出装置。
【請求項2】
前記調波情報抽出手段は、
前記フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレーム内で倍音成分を最も多く含む基本波を表す情報を検出する検出手段と、
前記検出手段によって検出された倍音成分を最も多く含む基本波を表す情報を第1のしきい値で弁別して、音声であることを示す判定情報を出力する第1の判別手段とを含む、請求項1に記載の音声区間検出装置。
【請求項3】
前記検出手段は、
前記フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレームのパワースペクトルを対数に変換し、逆フーリェ変換したケプストラムを得るケプストラム抽出手段と、
前記ケプストラム抽出手段により得られたケプストラムの高次波形から振幅の最大値を検出する最大振幅値検出手段とを含む、請求項2に記載の音声区間検出装置。
【請求項4】
前記第1の判別手段によって前記高次波形の振幅値が前記第1のしきい値を越えていることが判別されたことに応じて、前記高次波形の振幅値を高めるように補正する補正手段を含む、請求項3に記載の音声区間検出装置。
【請求項5】
前記補正手段は、
前記振幅の最大値を検出した前記高次波形内の前記振幅の最大値近傍の振幅値を抽出する抽出手段と、
前記抽出手段によって抽出された振幅値を前記振幅の最大値に加算する加算手段とを含む、請求項4に記載の音声区間検出装置。
【請求項6】
前記加算手段によって加算された前記高次波形の振幅の最大値を前記第1のしきい値とは異なる第2のしきい値で判別し、前記加算された振幅の最大値が前記第2のしきい値を越えていることに応じて、前記加算された振幅の最大値を調波情報として出力する第2の弁別手段を含む、請求項5に記載の音声区間検出装置。
【請求項7】
音の中から発話された音声の音声区間を検出する音声区間検出方法であって、
前記音を音の信号に変換して、所定時間ごとのフレームに分割するステップと、
前記分割された各フレームごとに、前記音の信号に含まれるパワー情報を抽出するステップと、
前記分割された各フレームごとに、前記音の信号に含まれる調波情報を抽出するステップと、
前記抽出されたパワー情報と、前記抽出された調波情報とに基づいて前記発話された音声の区間を検出するステップとを備える、音声区間検出方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2009−294537(P2009−294537A)
【公開日】平成21年12月17日(2009.12.17)
【国際特許分類】
【出願番号】特願2008−149733(P2008−149733)
【出願日】平成20年6月6日(2008.6.6)
【出願人】(501321394)株式会社レイトロン (14)
【Fターム(参考)】
【公開日】平成21年12月17日(2009.12.17)
【国際特許分類】
【出願日】平成20年6月6日(2008.6.6)
【出願人】(501321394)株式会社レイトロン (14)
【Fターム(参考)】
[ Back to top ]