音声区間検出装置および音声区間検出方法

【課題】周期的な雑音下においても音声区間を正しく検出できる音声区間検出装置および音声区間検出方法を提供する。
【解決手段】音を音入力回路２によって音の信号に変換し、連続した音の信号をフレーム分割回路３によって所定時間間隔のフレームに分割する。分割された各フレームごとに、パワー情報抽出回路４が音の信号に含まれるパワー情報を抽出し、調波情報抽出回路５が音の信号に含まれる調波情報を抽出する。音声区間決定回路６は、抽出されたパワー情報と、調波情報とに基づいて、音声区間を決定し、音声認識回路７が音声区間の音声を認識する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、音の中から発話された音声が継続する音声区間を検出する音声区間検出装置および音声区間検出方法に関する。
【背景技術】
【０００２】
例えば、音声認識装置は、音が入力される区間である所定区間に入力された信号が音声信号であるのかあるいは雑音信号であるのかを検出し、音声信号であればその音声を認識している。所定区間を検出する方法として、音のパワー情報に基づく方法、音の基本周波数情報に基づく方法、音のパワー情報と周期性情報とに基づく方法などがある。
【０００３】
音のパワー情報とは、例えば、十ｍｓｅｃごとにおける所定時間間隔（フレーム）あたりの入力信号レベルの２乗和またはその対数値である。音のパワー情報に基づいて音声区間を検出する方法では、入力信号中のパワーがあるしきい値以上に達するフレームが１つまたは数フレーム連続すると、しきい値を越えた最初のフレームを音声フレームであると仮定している。そして、その前数フレームを含めて音声区間の始端と判別し、入力信号のパワーがしきい値以下になるフレームが１つまたは数フレーム連続すると音声区間の終端と判別している。
【０００４】
音の基本周波数情報に基づいて音声区間を検出する方法では、音声に含まれている母音定常部の基本周波数が約８０〜４００Ｈｚの周波数帯に含まれており、基本周波数の振幅値も大きくなることを利用して音声区間を検出する。すなわち、フレームごとに自己相関法やケプストラム法などの抽出手段から基本周波数を求め、その基本周波数が８０〜４００Ｈｚの周波数帯内に存在し、かつ振幅値があるしきい値を越える場合、その前数フレームを含めて音声区間の始端とし、振幅値がしきい値以下になると、音声区間の終端と判別する。
【０００５】
また、音から基本周波数を抽出する方法として、周期性から求める方法と、調波性から求める方法とがある。基本周波数を周期性から求める方法の一例が、例えば、特開平８‐３０５３８８号公報（特許文献１）に記載されている。特許文献１に記載の音声区間検出装置は、入力された音を分析して周期性を検出するとともに、入力された音のパワー情報に基づいて音声区間を検出し、これらの２つの検出結果に基づいて、予め定めた音声区間と非音声区間とを判定する規則にしたがって音声区間を検出する。特許文献１では、音声区間は、入力された音のうち音の信号が定められたしきい値以上に存在する部分を示すと定義されている。
【０００６】
また、特許文献１では、入力信号のレベルの２乗値または対数値を直接用いてパワー情報を算出するのではなく、短時間パワー比と長時間パワー比とに基づいてパワー情報を算出している。この方法では、周期性情報を用いることにより、変動が激しい非定常雑音下でも音声区間を正確に検出することができる。また、パワー情報は入力信号のレベルの２乗値または対数値を直接用いていないため、背景雑音のパワーが大きい場合でも、安定して音声区間の検出が可能となる。
【特許文献１】特開平８‐３０５３８８号公報
【発明の開示】
【発明が解決しようとする課題】
【０００７】
上記の音のパワー情報に基づいて音声区間を検出する方法では、工場内雑音のような変動が激しい非定常な雑音や、ドアーの閉まる音などの突発的な音はパワー情報が大きいため、すべて音声として誤検出してしまうおそれがある。
【０００８】
音の基本周波数情報に基づいて音声区間を検出する方法では、特に語頭や語尾の母音において声帯振動が完全な周期性を持たないため、基本周波数の振幅値が小さくなり、語頭や語尾が欠落しやすく、抽出精度が低下する。
【０００９】
基本周波数を周期性から求める方法は、ランダム性雑音に対しては、効果が高いが、ファンの回転などのような周期構造を持つ音に対して反応してしまい、そのような音までも音声として認識してしまうという問題点がある。
【００１０】
特許文献１に記載のパワー情報と周期性情報とに基づいて音声区間を検出する方法では、工場内雑音や街頭雑音などのランダム性雑音に対しては効果が高いが、自動車走行雑音や計算機雑音やモータ音などのような周期的な雑音に対しては頻繁に反応してしまうという問題点を有している。
【００１１】
そこで、この発明は、周期的な雑音下においても入力された音の中の音声を正しく検出できる音声区間検出装置および音声区間検出方法を提供することを目的とする。
【課題を解決するための手段】
【００１２】
この発明は、音の中から発話された音声の音声区間を検出する音声区間検出装置に関する。音声区間検出装置は、音を音の信号に変換して、所定時間間隔のフレームに分割するフレーム分割手段と、フレーム分割手段によって分割された各フレームごとに、音の信号に含まれるパワー情報を抽出するパワー情報抽出手段と、フレーム分割手段によって分割された各フレームごとに、音の信号に含まれる調波情報を抽出する調波情報抽出手段と、パワー情報抽出手段によって抽出されたパワー情報と、調波情報抽出手段によって抽出された調波情報とに基づいて、音声区間を検出する音声区間検出手段とを備える。
【００１３】
この発明によれば、パワー情報と調波情報とに基づいて音声区間を検出することにより、周期的な雑音下においても入力された音にある程度調波性があれば音声と判断することができるので、音声区間を正しく認識できる。
【００１４】
より好ましくは、調波情報抽出手段は、フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレーム内で倍音成分を最も多く含む基本波を表す情報を検出する検出手段と、検出手段によって検出された倍音成分を最も多く含む基本波を表す情報を第１のしきい値で弁別して、音声であることを示す判定情報を出力する第１の判別手段とを含む。
【００１５】
倍音成分を最も多く含む基本波を表す情報を第１のしきい値で弁別することにより音声と判別できる。
【００１６】
より好ましくは、検出手段は、フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレームのパワースペクトルを対数に変換し、逆フーリエ変換したケプストラムを得るケプストラム抽出手段と、ケプストラム抽出手段により得られたケプストラム高次波形より振幅の最大値を検出する最大値検出手段とを含む。
【００１７】
高次波形より振幅最大値を検出することで、声道の影響を取除くことができる。
【００１８】
より好ましくは、第１の判別手段によって高次波形の振幅の最大値が第１のしきい値を越えていることが判別されたことに応じて、振幅の最大値を高めるように補正する補正手段を含む。
【００１９】
高次波形の振幅の最大値を補正することにより、雑音との区別が容易になるので、音声区間の決定が雑音によって影響を受けるのを避けることができる。
【００２０】
より具体的には、補正手段は、振幅の最大値を検出した高次波形内の振幅の最大値近傍の振幅値を抽出する抽出手段と、抽出手段によって抽出された振幅値を最大値に加算する加算手段とを含む。
【００２１】
抽出された振幅値を最大値に加算して強調することにより、より雑音との区別が容易になるので、雑音を音声区間と誤認識してしまうのを避けることができる。
【００２２】
より好ましくは、最大値強調手段によって強調された振幅の最大値を第２のしきい値で判別し、強調された振幅の最大値が第２のしきい値を越えていることに応じて、強調された振幅の最大値を調波情報として出力する第２の弁別手段を含む。
【００２３】
強調された振幅の最大値を調波情報として出力することにより、音声が雑音によって埋もれてしまうことがないので、音声区間の検出を誤ることが少なくなる。
【００２４】
この発明の他の局面は、音の中から発話された音声の音声区間を検出する音声区間検出方法に関する。音声区間検出方法は、音を音の信号に変換して、所定時間ごとのフレームに分割するステップと、分割された各フレームごとに、音の信号に含まれるパワー情報を抽出するステップと、分割された各フレームごとに、音の信号に含まれる調波情報を抽出するステップと、抽出されたパワー情報と、抽出された調波情報とに基づいて音声区間を検出するステップとを備える。
【００２５】
この方法においても、パワー情報と調波情報とに基づいて音声区間を検出することにより、入力された音にある程度調波性があれば音声と判断することができるので、周期的な雑音下においても入力された音の中の音声を正しく認識できる。
【発明を実施するための最良の形態】
【００２６】
まず、この発明の実施形態では、音のうち、人間が発声した声を音声と定義し、ドアーの開く音など瞬時的な音を物音と定義し、背景で常時鳴っている音を雑音と定義する。したがって、音の信号には、音声信号と物音信号と雑音信号が含まれている。この実施形態では、入力された音の中から人間が発声した音声の区間を音声区間と定義する。また、フレームとは、連続する音の信号の内の、数十ｍｓｅｃ程度の所定時間間隔を意味するものとする。ただし、数十ｍｓｅｃの時間間隔は一例であり、これに限定されるものではない。さらに、音の信号は、基音成分と、２倍，３倍…の倍音成分を含む。これらの倍音成分を最も多く含む基本波を表す情報を調波情報と定義する。基本波を表す情報は、基本周波数情報または基本波の周期情報のいずれかを含む。
【００２７】
図１はこの発明の一実施形態における音声区間検出装置を用いた音声認識装置１のブロック図である。図１において、音声認識装置１は、フレーム分割手段として作動する音入力回路２およびフレーム分割回路３と、パワー情報抽出手段として作動するパワー情報抽出回路４と、調波情報抽出手段、検出手段、第１の判別手段、ケプストラム抽出手段、最大振幅値検出手段、補正手段、抽出手段、加算手段、第２の判別手段として作動する調波情報抽出回路５と、音声区間検出手段として作動する音声区間決定回路６と、音声認識回路７とを含む。
【００２８】
音入力回路２は、図示しないＡ／Ｄ変換部を含み、入力した音の信号をＡ／Ｄ変換部でサンプリングして量子化して連続する音の信号をフレーム分割回路３に出力する。フレーム分割回路３は、連続する音の信号を所定時間間隔としてのフレームごとに分割する。各フレームのデータは、パワー情報抽出回路４と、調波情報抽出回路５とに与えられる。
【００２９】
パワー情報抽出回路４は、各フレームごとに、帯域制限した音の信号に含まれるエネルギーに基づいてパワー情報を抽出する。パワー情報は、予め定めるしきい値でレベル弁別され、音の信号が音声であるかあるいは非音声であるかを示す２値データが判定値として音声区間決定回路６に出力される。
【００３０】
調波情報抽出回路５は、各フレームごとに切出された音の信号より倍音成分を最も多く含む基本波を表す情報を検出する。倍音成分を最も多く含む基本波を表す情報が、予め定めるしきい値でレベル弁別され、音の信号が音声であるかあるいは非音声であるかを示す２値データが判定値として音声区間決定回路６に出力される。
【００３１】
音声区間決定回路６は、パワー情報抽出回路４によって抽出されたパワー情報に基づく音声，非音声の判定値と、調波情報抽出回路５によって抽出された調波情報に基づく音声，非音声の判定値とに基づいて音声区間を検出して音声区間データを出力する。すなわち、音声区間決定回路６は、パワー情報抽出回路４によって抽出されたパワー情報に基づく音声の判定値と、調波情報抽出回路５によって抽出された調波情報に基づく音声の判定値とにより、音声区間の始端と終端とを検出する。音声認識回路７は、音声区間決定回路６によって決定された音声区間に含まれる音声を認識する。
【００３２】
図２は、パワー情報抽出回路４の動作を説明するためのフローチャートであり、図３は調波情報抽出回路５の動作を説明するためのフローチャートである。
【００３３】
図４はフレーム分割回路３から出力されるフレームを示す波形図であり、図５はパワースペクトルを示す波形図であり、図６は対数（パワー）スペクトルの波形図であり、図７は対数スペクトルを逆フーリエ変換したケプストラムを示した波形図であり、図８はケプストラム高次抽出波形であり、図９は高次波形の振幅の最大値を探索してしきい値Ｂでレベル弁別したときの最大値波形を示す波形図であり、図１０は高次波形の振幅の最大値強調を説明するための波形図であり、図１１は高次波形の振幅の最大値強調波形図であり、図１２は強調した振幅の最大値波形としきい値Ｃとを比較する波形図である。
【００３４】
次に、図１ないし図１２を参照して、この発明の一実施形態における音声区間検出装置を用いた音声認識装置１の動作について説明する。音入力回路２は、入力された音の信号をＡ／Ｄ変換部で、例えば１１．０２５ｋＨｚのサンプリング周波数でサンプリングして量子化し、連続する音の信号を生成して、フレーム分割回路３に出力する。フレーム分割回路３は連続する音の信号をフレームごとに分割し、図４に示すような波形で示されるフレームデータをパワー情報抽出回路４と調波情報抽出回路５とに出力する。図４において、縦軸は音の信号の振幅であり、横軸はサンプリングポイントである。
【００３５】
ここで、図２を参照してパワー情報抽出回路４によるパワー情報抽出処理の具体的な動作について説明する。パワー情報抽出回路４は、図２に示すステップ（図示ではＳＰと略称する。）ＳＰ１において、フレームデータが入力されるまで待機している。フレームデータの入力を判別すると、ステップＳＰ２において、フレームデータに対してフーリエ変換を施して、図５に示すようなフレームデータごとのパワースペクトル波形を求める。図５において、縦軸は振幅（パワースペクトルの値）であり、横軸はサンプリングポイント（周波数）であり、音の部分におけるパワースペクトルの振幅は大きくなっている。
【００３６】
ステップＳＰ３において、パワースペクトル成分に対して帯域制限を行い、音の信号から所定の帯域以外に含まれる雑音成分が除去される。なお、帯域制限は必ずしも必要とされるものではなく、省略してもよい。ステップＳＰ４において、フレームデータごとにおけるパワースペクトル値の総和を求め、ステップＳＰ５において、しきい値Ａと比較し、パワースペクトル値の総和がしきい値Ａよりも大きければ、ステップＳＰ６において、そのフレームデータが音声候補であると判定し、音声候補であることを示す判定値「１」を出力する。パワースペクトルの総和がしきい値Ａよりも小さければそのフレームデータは雑音などの非音声であると判定し、非音声であることを示す判定値「０」を出力する。
【００３７】
続いて、パワー情報抽出処理回路４は、フレームデータが入力される都度、上記ステップＳＰ１ないしＳＰ６の処理を繰り返し行い、音声候補であるのか非音声であるのかの判定を行う。
【００３８】
次に、図３を参照して、調波情報抽出回路５による調波情報抽出処理の具体的な動作について説明する。調波情報抽出回路５は、ステップＳＰ１１において、フレームデータが入力されるまで待機している。フレームデータが入力されたことを判別すると、ステップＳＰ１２において、フレームデータにフーリエ変換を施してパワースペクトルを求め、ステップＳＰ１３において、パワースペクトルを対数変換して図６に示す対数（パワー）スペクトル波形を抽出する。図６において、縦軸は対数振幅（対数パワースペクトルの値）であり、横軸はサンプリングポイント（周波数）である。
【００３９】
音が音声であるならば、声帯の振動である基音に対する倍音成分が多く含まれ、対数スペクトル上では櫛状に現われることが知られている。図６に示す対数スペクトル波形は櫛状に変動している声帯の振動を表す微細構造と、声道の特性を表すスペクトル包絡構造とを含んでいる。
【００４０】
ステップＳＰ１４において、対数スペクトル波形に逆フーリエ変換を施すと、図７に示すケプストラム波形が得られる。ステップＳＰ１５において、ケプストラムの高次波形を抽出する。高次波形を抽出することにより声道の影響を取除いている。図７において、最も振幅の大きな部分がこのフレームにおける調波情報を示しており、縦軸は振幅（ケプストラムの値）であり、横軸はサンプリングポイント（ケフレンシー）である。図８〜図１２に示す各波形図の縦軸および横軸も図７のパラメータと同じである。なお、対数スペクトルにフーリエ変換を施してケプストラムを抽出してもよい。
【００４１】
ステップＳＰ１６において、図７に示す対数スペクトルを逆フーリエ変換したケプストラム波形から、図８に示すようなサンプリングポイントが２０〜１３０の間に現れる高次波形を抽出し、その高次波形の振幅の最大値を探索する。ステップＳＰ１７において、探索した振幅の最大値と図９に示す第１のしきい値として作動するしきい値Ｂとを比較し、ある程度の倍音成分を含む信号であるかどうかを判別する。
【００４２】
高次波形の振幅の最大値がしきい値Ｂ以下であることを判別すると、そのフレームは倍音成分を含んでいないので、音声候補でないと判別する。高次波形の振幅の最大値がしきい値Ｂ以上であることを判別すれば、そのフレームは倍音成分を含んでいるので、音声候補であると判別する。しきい値Ｂは、値を大きくすると倍音成分を含む音声のみの抽出が可能になり、小さな値にすると、音声のみならず雑音などを含む曖昧な部分も抽出することになる。例えば、物音に反応することなく、音声のみに反応するようにしたい場合は、しきい値Ｂの値を大きくすればよい。したがって、音声区間検出の用途に応じてしきい値Ｂを設定すればよい。このようにして音声候補の判別を行うが、判別した音声候補を音声として認識してもよい。
【００４３】
上述のごとく、高次波形の最大値がしきい値Ｂを越えているか否かにより、音声候補と雑音との区別が可能であるが、さらに雑音との区別が容易になるように、図９に示した高次波形の振幅値を強調するための補正を行う。補正として、例えば振幅の最大値強調処理が行なわれる。すなわち、雑音が大きくなると、倍音成分が雑音成分に埋もれてしまう。そこで、高次波形の振幅の最大値強調処理を行うことにより、倍音成分と雑音成分との区別が容易になる。
【００４４】
高次波形の振幅の最大値強調処理について図１０を参照して説明する。図１０において、ピーク値を示すサンプリングポイント（ケフレンシー）は、物理的には基本周波数の周期を表す。
【００４５】
ステップＳＰ１８において、高次波形の振幅の最大値に隣接する振幅値として、例えば、図１０に示すように、高次波形の振幅の最大値の近傍の振幅が０以上の部分の振幅値を抽出してもよい。一例として、サンプリング周波数が１１．０２５ｋＨｚのときの高次波形の最大値のサンプリングポイント（ケフレンシー）が７６であったとすると、最大値を取るサンプリングポイントが７６から前後の値７５，７７における振幅値を抽出する。抽出した振幅値が図１０に示す振幅０以上でプラス値をとるか、あるいは０以下でマイナス値をとるかを判別する。前後の値は、サンプリング周波数に基づいて決めることができる。
【００４６】
ステップＳＰ１９において、振幅値が０以上であれば、その振幅値は同じ最大波形内の振幅値であると判別できるので、その抽出した振幅値を高次波形の振幅の最大値に加算して高次波形の振幅の最大値を強調する補正を行う。抽出した振幅値が０以下であれば、その振幅値は同じ最大波形内の振幅値ではないと判別できるので、その抽出した振幅値を高次波形の振幅の最大値に加算しない。強調処理した高次波形を図１１に示す。
【００４７】
ステップＳＰ２０において、強調した高次波形の振幅の最大値と第２のしきい値として作動するしきい値Ｃとを比較し、強調した高次波形の振幅の最大値が図１２に示すしきい値Ｃ以下であることを判別すると、ステップＳＰ２１において、そのフレームデータは音声候補でないと判別する。強調した高次波形の振幅の最大値がしきい値Ｃ以上であることを判別すれば、そのフレームデータは音声候補であると判定し、ステップＳＰ２１において、「１」の判定値を出力する。ステップＳＰ１７またはステップＳＰ２０において、非音声であると判別したときには判定値「０」を出力する。調波情報抽出回路５は、次のフレームデータが入力されると、上記ステップＳＰ１１ないしステップＳＰ２１の処理を繰り返し行う。
【００４８】
音声区間決定回路６は、パワー情報抽出回路４によって出力された判定値と、調波情報抽出回路５によって出力された判定値とに基づいて、音声区間の始端と終端とを判別して音声区間を決定し、音声区間信号を音声認識回路７に出力する。音声認識回路７は、入力された音声区間信号で規定される音声を認識する。
【００４９】
ここで、音声区間の決定について、より具体的に説明すると、パワー情報の判定値が「１」であり、調波情報の判定値が「１」であれば音声区間の始端とする。パワー情報の判定値が「０」の間は、調波情報の判定値が「１」であっても音声区間の始端とはしない。
【００５０】
より好ましくは、予め定めた音声区間と非音声区間を判定する規則にしたがって音声区間の始端と終端とを判別して音声区間を決定してもよい。すなわち、パワー情報の判定値
が「１」になってから、例えば、その先３０フレームの間、調波情報を観測し、１フレームでも調波情報の判定値が「１」になるフレームがあれば、パワー情報の判定値が最初に「１」になった時点を音声区間の始端と判定する。このようにして音声区間の始端が検出された後、パワー情報の判定値が「０」になるフレームが例えば４０フレーム連続すると、調波情報の判定値に関わらず音声区間の終端とする。なお、上記３０フレームおよび４０フレームは一例であり、これらに限定されるものではない。
【００５１】
また、語頭、語尾においては、声帯振動が正確に行われないことがしばしばあるため、調波情報が抽出されないことがある。例えば、「ス」を発話したときには、音声と雑音との区別がつきにくく、調波情報を抽出できないことがある。正確な声帯振動をした部分のみを抽出したいのであれば、上記３０フレームより短い区間で調波情報の判定値が「１」になるフレームがあれば、パワー情報の判定値が最初に「１」になった時点を音声区間の始端と判定するようにすればよい。
【００５２】
上述のごとく、この発明の一実施形態によれば、音の信号を所定時間間隔のフレームに分割し、分割された各フレームごとに、音の信号に含まれるパワー情報を抽出し、分割された各フレームごとに、音の信号に含まれる調波情報を抽出し、抽出されたパワー情報と、調波情報とに基づいて、音声区間を決定できる。これにより、周期的な雑音下においても調波性があれば音声と認識して音声区間を検出することが可能になる。
【００５３】
なお、上述の実施形態では、パワー情報抽出回路４および調波情報抽出回路５は、ともに音声の判定値として、しきい値でレベル弁別した２値データを出力するようにしたが、これに限ることなく、レベルが連続するデータを出力するようにしてもよい。例えば、パワー情報が比較的大きく所定の値になった場合には、調波情報が所定の値よりも小さくても、音声区間の始端と判断することも可能である。また、調波情報に関わらずパワー情報に基づいて音声区間の終端としてもよく、正確な声帯振動をした部分のみを抽出したいのであれば、調波情報を基に終端を決定してもよい。
【００５４】
また、上述の実施形態では、分割された各フレームごとに切出された音の信号のパワースペクトルを対数に変換し、逆フーリエ変換したケプストラムを得て、得られたケプストラムの高次波形の振幅の最大値を検出することにより調波情報を得るようにした。しかし、時間波形を用いることなく、相関法を用いて対数スペクトル波形の自己相関の最大値を示したものを調波情報として取り出してもよい。
【００５５】
さらに、この発明の一実施例の音声区間検出装置を音声認識装置に適用するようにしたが、これに限ることなく、他の用途にも適用可能である。例えば、ボイスレコーダなどにおいて、音声区間検出装置が音声区間の始端を検出すると録音を開始し、音声区間の終端を検出すると録音を停止させることも可能である。また、赤ん坊が泣き出したときの音声区間を検出してアラームを鳴らすような用途にも適用可能である。
【００５６】
上述の実施形態では、調波情報抽出処理において、高次波形の最大値がしきい値Ｂよりも大きければ最大値を強調処理し、強調処理した最大値がしきい値Ｃよりも大きければ音声であると判定するようにしたが、この発明においては、図３のステップＳＰ１６において抽出した高次波形の最大値に基づいて、音声であると判定してもよい。
【００５７】
以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。
【図面の簡単な説明】
【００５８】
【図１】この発明の一実施形態における音声区間検出装置１のブロック図である。
【図２】パワー情報抽出回路４の動作を説明するためのフローチャートである。
【図３】調波情報抽出回路５の動作を説明するためのフローチャートである。
【図４】フレーム分割回路３から出力されるフレームデータを示す波形図である。
【図５】パワースペクトルを示す波形図である。
【図６】対数スペクトルの波形図である。
【図７】対数スペクトルを逆フーリエ変換したケプストラムを示す波形図である。
【図８】抽出されたケプストラム高次波形を示す図である。
【図９】高次波形の最大値をしきい値Ｂでレベル弁別したときの最大値波形を示す波形図である。
【図１０】図９の最大値近傍を拡大して示した波形図である。
【図１１】高次波形の最大値を強調した波形図である。
【図１２】強調した高次波形の最大値としきい値Ｃとを比較する波形図である。
【符号の説明】
【００５９】
１音声区間検出装置、２音入力回路、３フレーム分割回路、４パワー情報抽出回路、５調波情報抽出回路、６音声区間決定回路、７音声認識回路。

【特許請求の範囲】
【請求項１】
音の中から発話された音声の音声区間を検出する音声区間検出装置であって、
前記音を音の信号に変換して、所定時間間隔のフレームに分割するフレーム分割手段と、
前記フレーム分割手段によって分割された各フレームごとに、前記音の信号に含まれるパワー情報を抽出するパワー情報抽出手段と、
前記フレーム分割手段によって分割された各フレームごとに、前記音の信号に含まれる調波情報を抽出する調波情報抽出手段と、
前記パワー情報抽出手段によって抽出されたパワー情報と、前記調波情報抽出手段によって抽出された調波情報とに基づいて、前記発話された音声の音声区間を検出する音声区間検出手段とを備える、音声区間検出装置。
【請求項２】
前記調波情報抽出手段は、
前記フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレーム内で倍音成分を最も多く含む基本波を表す情報を検出する検出手段と、
前記検出手段によって検出された倍音成分を最も多く含む基本波を表す情報を第１のしきい値で弁別して、音声であることを示す判定情報を出力する第１の判別手段とを含む、請求項１に記載の音声区間検出装置。
【請求項３】
前記検出手段は、
前記フレーム分割手段によって分割された各フレームごとに切出された音の信号より、そのフレームのパワースペクトルを対数に変換し、逆フーリェ変換したケプストラムを得るケプストラム抽出手段と、
前記ケプストラム抽出手段により得られたケプストラムの高次波形から振幅の最大値を検出する最大振幅値検出手段とを含む、請求項２に記載の音声区間検出装置。
【請求項４】
前記第１の判別手段によって前記高次波形の振幅値が前記第１のしきい値を越えていることが判別されたことに応じて、前記高次波形の振幅値を高めるように補正する補正手段を含む、請求項３に記載の音声区間検出装置。
【請求項５】
前記補正手段は、
前記振幅の最大値を検出した前記高次波形内の前記振幅の最大値近傍の振幅値を抽出する抽出手段と、
前記抽出手段によって抽出された振幅値を前記振幅の最大値に加算する加算手段とを含む、請求項４に記載の音声区間検出装置。
【請求項６】
前記加算手段によって加算された前記高次波形の振幅の最大値を前記第１のしきい値とは異なる第２のしきい値で判別し、前記加算された振幅の最大値が前記第２のしきい値を越えていることに応じて、前記加算された振幅の最大値を調波情報として出力する第２の弁別手段を含む、請求項５に記載の音声区間検出装置。
【請求項７】
音の中から発話された音声の音声区間を検出する音声区間検出方法であって、
前記音を音の信号に変換して、所定時間ごとのフレームに分割するステップと、
前記分割された各フレームごとに、前記音の信号に含まれるパワー情報を抽出するステップと、
前記分割された各フレームごとに、前記音の信号に含まれる調波情報を抽出するステップと、
前記抽出されたパワー情報と、前記抽出された調波情報とに基づいて前記発話された音声の区間を検出するステップとを備える、音声区間検出方法。

【図１】