音声識別装置及び音声識別方法

【課題】音声信号が示す音が無声音か有声音かを正確かつ迅速に識別可能な音声識別装置を提供すること。
【解決手段】本発明の音声識別装置１０は、時間軸に沿った音声信号を、それぞれの切り出し開始時刻をずらして複数のフレームに切り出す生成部１３と、当該切り出された複数のフレームそれぞれに対応するゼロクロス数を算出する算出部１５と、当該算出されたゼロクロス数に基づいて、複数のフレームそれぞれにおけるゼロクロス数を、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数と比較した結果に基づいて、複数のフレームそれぞれに対応する音素が無声音か有声音かを識別する識別部１７と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声識別装置及び音声識別方法に関する。
【背景技術】
【０００２】
入力した音声信号によって示される音が無声音か有声音かを識別する音声識別技術がある。音声識別技術は、音声認識又は音声合成等に用いられる。このような音声識別技術として、下記特許文献１には、所定区間の音声信号のゼロクロス数と予め設定したゼロクロス数の閾値とに基づいて、所定区間の音声信号が無声音を示すか、又は有声音を示すか識別する技術が記載されている。
【特許文献１】特開２００３−２５６０００号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、無声音を示す所定区間の音声信号のゼロクロス数は、有声音を示す所定区間の音声信号のゼロクロス数より大きい場合もあれば、小さい場合もある。よって、所定区間の音声信号のゼロクロス数を用いる場合、無声音と有声音を識別するための適当な閾値を設定するのは困難である。
【０００４】
また、音声識別方法として変形相関法が知られている。変形相関法は、入力された音声信号の波形に対して、自己相関関数を求めた後、線形予測分析を行い、次数分の線形予測係数を求める。その後、変形相関法では、予測残差を求めて予測残差のピークを検出し、ピーク間の時間距離を測定し、測定結果に基づいて音声の識別を行う。
【０００５】
変形相関法は、このように複雑な操作を要するため、音声の識別速度が遅くなる。よって、変形相関法では、リアルタイムな対話システムに用いられる音声認識及び音声合成には対応できない。
【０００６】
そこで本発明では、音声信号が示す音素が無声音か有声音かを正確かつ迅速に識別可能な音声識別装置及び音声識別方法を提供することを目的とする。
【課題を解決するための手段】
【０００７】
本発明者らは、研究の結果、無声音の音声信号は、有声音の音声信号と比較して周期性が乏しく、ゼロクロス数の変動が大きいことを見出した。本発明者らは、このゼロクロス数の変動に着目して研究を進めることで本願発明を想起したものである。
【０００８】
本発明の音声識別装置は、時間軸に沿った音声信号を、それぞれの切り出し開始時刻をずらして複数のフレームに切り出すフレーム生成手段と、当該切り出された複数のフレームそれぞれに対応するゼロクロス数を算出するゼロクロス算出手段と、当該算出されたゼロクロス数に基づいて、複数のフレームそれぞれにおけるゼロクロス数を、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数と比較するゼロクロス比較手段と、当該比較結果に基づいて、複数のフレームそれぞれに対応する音素が無声音か有声音かを識別する音素識別手段と、を備える。
【０００９】
本発明の音声識別方法は、フレーム生成手段が、時間軸に沿った音声信号をそれぞれの切り出し開始時刻をずらして複数のフレームに切り出す第１ステップと、ゼロクロス算出手段が、第１ステップにおいて切り出された複数のフレームそれぞれに対応するゼロクロス数を算出する第２ステップと、第２ステップにおいて算出されたゼロクロス数に基づいて、ゼロクロス比較手段が、複数のフレームそれぞれにおけるゼロクロス数を複数のフレームそれぞれに近接するフレームにおけるゼロクロス数と比較する第３ステップと、第３ステップにおける比較結果に基づいて、音素識別手段が、複数のフレームそれぞれに対応する音素が無声音か有声音かを識別する第４ステップと、を備える。
【００１０】
本発明によれば、音声信号をフレームに切り出して、近接するフレーム同士のゼロクロス数を比較した結果に基づいて、複数のフレームそれぞれに対応する音素が無声音か有声音かを識別している。従って、各フレームのゼロクロス数と閾値とを比較する場合に比較して正確に識別することが出来ると共に、変形相関法に比較して迅速に識別することができる。
【００１１】
また本発明の音声識別装置では、音素識別手段は、複数のフレームそれぞれにおけるゼロクロス数と、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値を超えた場合に、後方のフレームに対応する音素が無声音であると識別することも好ましい。
【００１２】
また本発明の音声識別方法では、第４ステップにおいて、音素識別手段は、複数のフレームそれぞれにおけるゼロクロス数と、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値を超えた場合に、後方のフレームに対応する音素が無声音であると識別することも好ましい。
【００１３】
また本発明の音声識別装置では、音素識別手段は、複数のフレームそれぞれにおけるゼロクロス数と、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値より小さい場合に、後方のフレームに対応する音素が有声音であると識別することも好ましい。
【００１４】
また本発明の音声識別方法では、第４ステップにおいて、音素識別手段は、複数のフレームそれぞれにおけるゼロクロス数と、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値より小さい場合に、後方のフレームに対応する音素が有声音であると識別することも好ましい。
【００１５】
この好ましい態様によれば、近接するフレーム同士のゼロクロス数をより正確に比較することができる。
【発明の効果】
【００１６】
本発明によれば、近接するフレームのゼロクロス数の変動に基づいて無声音か有声音かを識別するので、音声信号が示す音が無声音か有声音かを正確かつ迅速に識別可能である。
【発明を実施するための最良の形態】
【００１７】
本発明の知見は、例示のみのために示された添付図面を参照して以下の詳細な記述を考慮することによって容易に理解することができる。引き続いて、添付図面を参照しながら本発明の実施の形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
【００１８】
本発明の実施形態に係る音声識別システムについて図１を参照しながら説明する。図１は、本実施形態に係る音声識別システムの構成図である。本実施形態に係る音声識別システム１は、マイク３と、音声識別装置１０とを備えて、人が話す言葉を構成するそれぞれの音が有声音か無声音かを識別するシステムである。
【００１９】
マイク３は、コンデンサマイクであり、人が話す言葉の音の振動をサンプリングし、音声信号に変換して音声識別装置１０へ出力する。音声識別装置１０は、マイク３から入力した音声信号に基づいて、人が話す言葉を構成するそれぞれの音が有声音か無声音かを識別する装置である。
【００２０】
本発明の実施形態に係る音声識別装置１０についてより詳細に説明する。音声識別装置１０は、物理的な構成要素として、ＣＰＵ、メモリー、電源、及び入出力インターフェイス部を備えるパーソナルコンピュータである。また、図２に示すように、音声識別装置１０は、機能的な構成要素として、図２に示すように、検出部１１と、生成部（フレーム生成手段）１３と、算出部（ゼロクロス算出手段）１５と、識別部（ゼロクロス比較手段、音素識別手段）１７とを備える。図２は、本実施形態に係る音声識別装置の機能ブロック図である。引き続いて、機能的な各構成要素についてそれぞれ説明する。
【００２１】
検出部１１は、図３に示すように、入力した音声信号Ｓ１から発話区間を検出する部分である。図３は、本実施形態に係る音声識別装置が入力した音声信号の波形を示すグラフである。検出部１１は、音声信号Ｓ１を入力し、音声信号の振幅に対して、発話区間の語始及び語尾共に２段階のラッチをかけて発話区間を検出する。
【００２２】
すなわち、検出部１１は、図３の波形において、振幅が立ち上がった点Ａから一定時間内に振幅励起が起こった（点Ｂ）場合に、振幅が立ち上がった点Ａを発話区間の語始とする。また、検出部１１は、振幅が立ち下がった点Ｄから３００ｍｓ以上振幅の励起がない場合に、振幅が立ち下がった点Ｄを発話区間の語尾とする。検出部１１は、図３に示す波形においては、振幅が立ち下がった点Ｃから３００ｍｓ以内に振幅の励起があるので、振幅が立ち下がった点Ｃを発話区間の語尾と認識しない。
【００２３】
検出部１１は、発話区間を検出後、図４に示すように、検出した発話区間の音声信号Ｓ２に対してプリエンファシスを行い、音声信号Ｓ３を生成する。図４（ａ）は、プリエンファシス前の音声信号Ｓ２の波形を示すグラフである。図４（ｂ）は、プリエンファシス後の音声信号Ｓ３の波形を示すグラフである。プリエンファシスとは、音声信号の高域を強調することである。プリエンファシス後の音声信号Ｓ３の振幅は、プリエンファシス前の音声信号Ｓ２の振幅より大きい。
【００２４】
具体的には、検出部１１は、音声信号Ｓ２のプリエンファシスを下式（１）によって行う。
【数１】

上式（１）において、ＨＳＲ［］はプリエンファシス前の音声信号を示し、ＨＰｒＳＲ［］はプリエンファシス後の音声信号を示す。
【００２５】
図５（ａ）は、プリエンファシス前の音声信号Ｓ２のペクトルを示すグラフである。図５（ｂ）は、プリエンファシス後の音声信号Ｓ３のペクトルを示すグラフである。図５に示すように、プリエンファシスによって、より高域の信号が増幅されている。プリエンファシス前の音声信号における特定の周波数のパワー「ｌａ」，「ｌｂ」が強調されてより大きなパワー「ｌａ’」「ｌｂ’」となっている。検出部１１は、プリエンファシスを行った音声信号Ｓ３を生成部１３へ出力する。
【００２６】
生成部１３は、音声信号Ｓ３を用いて複数のフレームを生成する部分である。生成部１３は、図６に示すように、音声信号Ｓ３を５１２サンプリングごとに３０％ずつシフトさせながら関数Ｈ（ハミング窓）を乗算して複数のフレームを生成する。図６は、シフト後の音声信号の波形と関数Ｈとを示すグラフである。
【００２７】
具体的には、生成部１３は、下式（２）によってフレームを生成する。
【数２】

上式（２）において、Ｐｒｅｃｉｓｅはサンプリング数（５１２）を示し、ｐは次数を示す。生成部１３は、音声信号Ｓ３の時系列順に、フレームを生成すると共に、時系列順にフレームにフレームナンバーを割り当てる。すなわち、フレームナンバーＮ（Ｎは正の整数）のフレームは、フレームナンバーＮ−１のフレームにおける後方部分の７０％ほどを含み、音声信号Ｓ３においてフレームナンバーＮ−１のフレームに後続する部分に対応する信号を３０％ほど含む。生成部１３は、生成した複数のフレームを算出部１５へ出力する。
【００２８】
算出部１５は、各フレームに対応するゼロクロス数を算出する部分である。算出部１５は、各フレームのノイズを除去すると共に各フレームに対応するゼロクロス数を算出する。ゼロクロス数とは、ノイズを除去した信号の波形とグラフの横軸との交点の数である。算出部１５は、まず、フレームごとに図７（ａ）に示す自己相関関数を算出する。図７（ａ）は、フレームの自己相関関数を示す。具体的には、算出部１５は、ＸｔＸｔ−τ＋１平均が０の定常時系列データ｛ｘ（ｔ）｜ｔ＝０，…，Ｎ−１｝が与えられた場合に、下式（３）を用いて自己相関関数を算出する。
【数３】

【００２９】
更に、算出部１５は、算出した自己相関関数を３連連続で移動平均させて、図７（ｂ）に示す平均自己相関関数を算出する。図７（ｂ）は、図７（ａ）の自己相関関数の移動平均をとった平均自己相関関数を示す。算出部１５は、平均自己相関関数を利用して、各フレームのゼロクロス数を算出する。算出部１５は、算出したゼロクロス数と、該当するフレームのフレームナンバーとを識別部１７へ出力する。
【００３０】
識別部１７は、フレームナンバーＮ−１のフレームに対応するゼロクロス数とフレームナンバーＮのフレームに対応するゼロクロス数との比較に基づいてフレームナンバーＮのフレームによって示される音が無声音か有声音かを識別する部分である。
【００３１】
より具体的には、識別部１７は、フレームナンバーＮ−１のフレームに対応するゼロクロス数とフレームナンバーＮのフレームに対応するゼロクロス数との差が所定の値より大きい場合に、フレームナンバーＮのフレームが示す音が無声音であると識別する。また、識別部１７は、フレームナンバーＮ−１のフレームに対応するゼロクロス数とフレームナンバーＮのフレームに対応するゼロクロス数との差が所定の値より小さい場合に、フレームナンバーＮのフレームが示す音が有声音であると識別する。
【００３２】
より具体的に図８を参照して説明する。図８は、各フレームのゼロクロス数を示す図である。フレームのゼロクロス数が、図８の左から、「１３」「２０」「２４」「３０」「２５」「３０」「３９」「８」と比較的変動している領域は、ゼロクロス数変化の安定しないフレーム域Ａである。
【００３３】
フレーム域Ａに含まれる各フレームのゼロクロス数は、直前のフレームのゼロクロス数との差が比較的大きい。よって、識別部１７は、フレーム域Ａに含まれる各フレームが示す音を無声音と識別する。すなわち、識別部１７は、ゼロクロス数の変動が大きいフレームが示す音を無声音と識別する。なお、図８に示されるフレーム域Ａの波形は、無声音である子音「ｓ」を示す。
【００３４】
フレームのゼロクロス数が、上記フレーム域Ａに続いて図８の左から、「７」「８」「８」「８」と比較的安定している領域は、ゼロクロス数変化の安定したフレーム域Ｂである。
【００３５】
フレーム域Ｂに含まれる各フレームのゼロクロス数は、直前のフレームのゼロクロス数との差が比較的小さい。よって、識別部１７は、フレーム域Ｂに含まれる各フレームが示す音を有声音と識別する。すなわち、識別部１７は、ゼロクロス数の変動が小さいフレームが示す音を有声音と識別する。なお、図８示されるフレーム域Ｂの波形は、有声音である母音「ａ」を示す。
【００３６】
また、図９は、フレームのゼロクロス数の変動を示すグラフである。横軸がフレームナンバーを示し、縦軸がフレームのゼロクロス数を示す。曲線Ｘ１及び曲線Ｘ２それぞれが、音声信号のゼロクロス数の変動を示す。
【００３７】
曲線Ｘ１の領域Ｙ１は、ゼロクロス数の変動が大きいので、識別部１７は、領域Ｙ１に含まれるフレームが示す各音を無声音であると識別する。また、曲線Ｘ２の領域Ｙ２は、ゼロクロス数の変動が小さいので、識別部１７は、領域Ｙ２に含まれるフレームが示す各音を有声音であると識別する。このようにして、識別部１７は、フレーム毎のゼロクロス数の変動を検出して、フレームが示す音が無声音か又は有声音かを識別する。
【００３８】
無声音は、有声音と比較して周期性が乏しいのでフレーム毎のゼロクロス数の変動が大きい。また、有声音は、無声音と比較して周期性を有するのでフレーム毎のゼロクロス数の変化が小さい。よって、上述したように、フレーム毎のゼロクロス数の変動を検出することにより、フレームが示す音が無声音か有声音か識別することができる。
【００３９】
引き続いて、図１０を参照して、音声信号に基づいて音を識別する際の上記音声識別装置１０の動作を説明すると共に、本実施形態に係る音声識別方法を説明する。図１０は、本実施形態に係る音声識別装置の動作を示すフローチャートである。
【００４０】
識別処理を開始すると、音声識別システム１が録音モードに移行して「．ｗａｖファイル」が投入される（Ｓ２１）。録音モードに移行すると、入力された音声信号Ｓ１の発話区間が、検出部１１によって検出される（Ｓ２２）。発話区間の音声信号Ｓ２が検出されると、音声信号Ｓ２の波形に対するプリエンファシスが、検出部１１によってなされる（Ｓ２３）。
【００４１】
音声信号Ｓ２がプリエンファシスされると、フレームが、プリエンファシスされた音声信号Ｓ３に基づいて生成部１３によって生成される（Ｓ２４）。フレームが生成されると、自己相関関数が、フレーム毎に算出部１５によって算出される（Ｓ２５）。自己相関関数が算出されると、自己相関関数の移動平均が、算出部１５によって算出される（Ｓ２６）。
【００４２】
移動平均が算出されると、フレームナンバー０のフレームのゼロクロス数が、算出部１５によって算出される（Ｓ２７）。フレームナンバーｉのフレームのゼロクロス数が、算出部１５によって算出される（Ｓ２８）。
【００４３】
フレームナンバーｉ−１のフレームのゼロクロス数とフレームナンバーｉのフレームのゼロクロス数との差が所定値より大きいと識別部１７によって判断される（Ｓ２９でＹＥＳ）と、フレームナンバーｉのフレームが示す音（音素）が無声音であると識別部１７によって識別される（Ｓ３０）。
【００４４】
フレームナンバーｉ−１のフレームのゼロクロス数とフレームナンバーｉのフレームのゼロクロス数との差が所定値より小さいと識別部１７によって判断される（Ｓ２９でＮＯ）と、フレームナンバーｉのフレームが示す音（音素）が有声音であると識別部１７によって識別される（Ｓ３１）。
【００４５】
音が無声音か有声音か識別されると、フレームナンバーｉをプラスする（Ｓ３２）。識別対象のフレームが発話区間の最終フレームではない場合（Ｓ３３でＮＯ）は、ステップＳ２８へ戻り、識別対象のフレームが発話区間の最終フレームとなるまで繰り返す。
【００４６】
識別対象のフレームが発話区間の最終フレームである場合（Ｓ３３でＹＥＳ）は、識別処理を終了する。このようにして、発話区間の音声信号が示す音がそれぞれ有声音か無声音か識別される。
【００４７】
本実施形態によれば、フレームナンバーＮ−１のフレームに対応するゼロクロス数とフレームナンバーＮのフレームに対応するゼロクロス数との比較に基づいてフレームナンバーＮのフレームによって示される音が無声音か有声音かを識別する。よってゼロクロス数の変動に基づいてフレームによって示される音を識別することができる。すなわち、音声信号が示す音が無声音か有声音かをより簡易かつより正確に識別することができる。
【００４８】
また本実施形態によれば、識別部１７が、フレームナンバーＮ−１のフレームに対応するゼロクロス数とフレームナンバーＮのフレームに対応するゼロクロス数との差が所定の値より大きい場合に、フレームナンバーＮのフレームの示す音が無声音であると識別する。この場合、ゼロクロス数の変動が比較的大きい領域に含まれるフレームによって示される音を無声音であると識別できるので、音を的確に識別することができる。
【００４９】
また本実施形態によれば、識別部１７が、フレームナンバーＮ−１のフレームに対応するゼロクロス数とフレームナンバーＮのフレームに対応するゼロクロス数との差が所定の値より小さい場合に、フレームナンバーＮのフレームの示す音が有声音であると識別する。この場合、ゼロクロス数の変動が比較的小さい領域に含まれるフレームによって示される音を有声音であると識別できるので、音を的確に識別することができる。
【００５０】
上記音声識別装置１０を用いて日本語の子音について識別試験を行った。図１１は、本実施形態に係る音声識別装置を用いた識別試験結果を示す表である。図１１において、「○」が音声識別装置１０による識別が正確であったことを示し、「×」が音声識別装置１０による識別が不正確であったことを示す。図１１の識別試験結果によれば、音声識別装置１０を用いた音声識別の的中率は９割程度である。
【００５１】
従来の音声識別方法として知られる変形相関法の的中率は、８割程度である。変形相関法は、入力された音声信号の波形に対して、自己相関関数を求めた後、線形予測分析を行い、次数分の線形予測係数を求める。次数分の線形予測係数とは、現サンプル値について、過去の複数のサンプリング値との相関で表せる程度を示す基準である。その後、変形相関法は、予測残差を求めて予測残差のピークを検出し、ピーク間の時間距離を測定し、その測定結果に基づいて識別を行う。変形相関法は、このように複雑な操作を要するため、識別に時間がかかる。
【００５２】
図１１の識別試験結果によれば、本実施形態の音声識別装置１０は、従来の変形相関法を用いた場合と同程度以上の正確さで音声信号が示す音が無声音か有声音かを識別することができる。また、本実施形態の音声識別装置１０は、変形相関法を用いた場合よりも簡易かつ迅速な方法で音声信号が示す音が無声音か有声音かを識別することができる。
【００５３】
上述した本実施形態では、互いに隣接するフレームのゼロクロス数を比較対象としたが、本発明の実施の形態はこれに限られず、互いに近接する（近くにある）フレームのゼロクロス数を比較対象としていればよい。本実施形態では３０％ずつシフトさせながらフレームを生成したが、例えばシフト量を少なくしてより細かくフレーミングをすることも好ましい。このようにフレーム間隔を短くした場合には、データの相互関連性を阻害しない範囲で２つ以上前のフレームを比較対照としてもよい。このように互いに近接するフレーム、すなわちデータの相互関連性を阻害しない程度に近くに存在するフレームのゼロクロス数を比較対照とすることも好ましい。
【図面の簡単な説明】
【００５４】
【図１】本実施形態に係る音声識別システムの構成図である。
【図２】本実施形態に係る音声識別装置の機能ブロック図である。
【図３】本実施形態に係る音声識別装置が入力した音声信号の波形を示すグラフである。
【図４】プリエンファシス前及び後の音声信号の波形を示すグラフである。
【図５】プリエンファシス前及び後の音声信号のスペクトルを示すグラフである。
【図６】シフト後の音声信号の波形とハミング窓とを示すグラフである。
【図７】フレームの自己相関関数を示すグラフである。
【図８】各フレームのゼロクロス数を示す図である。
【図９】フレームのゼロクロス数の変動を示すグラフである。
【図１０】本実施形態に係る音声識別装置の動作を示すフローチャートである。
【図１１】本実施形態に係る音声識別装置を用いた識別試験結果を示す表である。
【符号の説明】
【００５５】
１…音声識別システム、３…マイク１０…音声識別装置、１１…検出部、１３…生成部、１５…算出部、１７…識別部。

【特許請求の範囲】
【請求項１】
時間軸に沿った音声信号を、それぞれの切り出し開始時刻をずらして複数のフレームに切り出すフレーム生成手段と、
当該切り出された複数のフレームそれぞれに対応するゼロクロス数を算出するゼロクロス算出手段と、
当該算出されたゼロクロス数に基づいて、前記複数のフレームそれぞれにおけるゼロクロス数を、前記複数のフレームそれぞれに近接するフレームにおけるゼロクロス数と比較するゼロクロス比較手段と、
当該比較結果に基づいて、前記複数のフレームそれぞれに対応する音素が無声音か有声音かを識別する音素識別手段と、
を備える音声識別装置。
【請求項２】
前記音素識別手段は、前記複数のフレームそれぞれにおけるゼロクロス数と、前記複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値を超えた場合に、後方のフレームに対応する音素が無声音であると識別する、請求項１に記載の音声識別装置。
【請求項３】
前記音素識別手段は、前記複数のフレームそれぞれにおけるゼロクロス数と、前記複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値より小さい場合に、後方のフレームに対応する音素が有声音であると識別する、請求項１に記載の音声識別装置。
【請求項４】
フレーム生成手段が、時間軸に沿った音声信号をそれぞれの切り出し開始時刻をずらして複数のフレームに切り出す第１ステップと、
ゼロクロス算出手段が、前記第１ステップにおいて切り出された複数のフレームそれぞれに対応するゼロクロス数を算出する第２ステップと、
前記第２ステップにおいて算出されたゼロクロス数に基づいて、ゼロクロス比較手段が、前記複数のフレームそれぞれにおけるゼロクロス数を前記複数のフレームそれぞれに近接するフレームにおけるゼロクロス数と比較する第３ステップと、
前記第３ステップにおける比較結果に基づいて、音素識別手段が、前記複数のフレームそれぞれに対応する音素が無声音か有声音かを識別する第４ステップと、
を備える音声識別方法。
【請求項５】
前記第４ステップにおいて、前記音素識別手段は、前記複数のフレームそれぞれにおけるゼロクロス数と、前記複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値を超えた場合に、後方のフレームに対応する音素が無声音であると識別する、請求項４に記載の音声識別方法。
【請求項６】
前記第４ステップにおいて、前記音素識別手段は、前記複数のフレームそれぞれにおけるゼロクロス数と、前記複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値より小さい場合に、後方のフレームに対応する音素が有声音であると識別する、請求項４に記載の音声識別方法。

【図１】