音声認識方法、プログラム、及び音声認識装置

【課題】ワードスポッティング型の音声認識において、種々の状況であっても高い認識率を獲得できる音声認識方法、プログラム、及び音声認識装置を提供する。
【解決手段】多重音声認識プログラムが用いられ、音声区間１１、１２、１３、１４、１５が検出されている。音声区間１２、１３、１４に関しては、終了点は同一であるが、起点については異なっている。すなわち、音声区間１２、１３、１４が多重分割されている。例えば音声認識対象単語（言葉）として「パソコン」「インターネット」「接続できない」が登録されている場合、音声区間１１についてはリジェクションとされ、音声区間１２については「パソコン」とされ、音声区間１３については「インターネット」、音声区間１４についてはリジェクションとされ、音声区間１５については「接続できない」が得られる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声認識方法、プログラム、及び音声認識装置に関し、特に認識対象である連続する音声をデジタル化した音声データに基づいて音声を認識する音声認識方法等に関する。
【背景技術】
【０００２】
音声認識の方法として、発話の中から単語辞書に予め登録された単語を認識する手法の一つに、ワードスポッティング型の音声認識方法がある。
【０００３】
図１０は従来のワードスポッティング型の音声認識エンジンを使用した音声認識の原理を説明するための図である。
【０００４】
マイク１０１或いは電話１０２から入力された音声がＡ／Ｄ変換部１０５によりデジタル信号に変換される。このデジタル信号（録音データ１０３等のデジタル信号を含む。）である音声データは、連続して繋がっている。音声データ入力部１０６は、取得した音声データを音声認識エンジン１１１へ渡す。
【０００５】
音声認識エンジン１１１は、音声認識を行うにあたって、音声認識対象区間（以下、「音声区間」ともいう。）を把握する必要がある。音声区間判定部１１２により、音声データの無音区間の時間を計測し、音声認識終了連続無音時間以上の無音区間を検出したとき、音声認識制御部はそれまでに渡された音声データに対して音声認識を行う。ただし、前述の音声認識終了連続無音時間以上の無音区間を検出する前に、音声認識エンジンに対して、それまでに渡した音声データに対して強制的に音声認識させることも可能である。
【０００６】
ここで、ワードスポッティングを説明する。音響モデル部１１５は音響モデルデータを蓄積しており、辞書部１１７は認識されるべき対象の単語（比較データ）を登録して認識辞書として機能する。ここでは、辞書部１１７には、登録単語（言葉）として、例えば「パソコン」「インターネット」「接続できない」が登録されているとする。音声認識制御部１１３は、得られた音声データに対し、音響モデル部１１５と辞書部１１７を用いて、登録されている単語（登録単語）に該当する場合に、その単語を認識結果として出力する。また、得られた音声データに対し、辞書に登録されている単語が該当しない場合は、認識失敗（リジェクション）を認識結果として出力する。
【０００７】
図１０に戻って、認識結果出力部１１９は音声認識エンジン１１１の認識結果を取得し、例えば認識結果が「パソコン」であれば音声認識エンジン１１１に与えられた音声データが「パソコン」という単語であったことになり、この認識結果をテキストや画面や他のアプリケーション等に出力する。
【０００８】
図１１は、図１０の音声区間判定部１１２による音声認識対象区間としての音声区間を検出することを説明するための図である。
【０００９】
例えば、発話の内容が「インターネットに、」であったとし、その発話に対応する音声データが図１１のように得られたとする。音声区間判定部１１２は、有音／無音を検出することで、音声区間を決定する。認識開始直後は、有音の検出を行う。有音が検出されると、次は無音の検出を行う。音声区間判定部１１２は、連続する無音時間（連続無音時間）が、設定された音声認識終了連続無音時間を超えた場合、音声区間の終了と認識する。通常、音声認識終了連続無音時間は、任意に調整可能とされる。図１１では、最初の連続無音時間監視において検出された連続無音時間が音声認識終了連続無音時間に満たないとされているのに対し、次の連続無音時間監視において検出された連続無音時間が音声認識終了連続無音時間を越えたとされ、音声区間の検出が行われた例が示されている。
【００１０】
このようなワードスポッティング型により半永久的な音声データを音声認識するには、認識開始→認識終了→認識開始→認識終了・・・を半永久的に繰返すことが必要となる。
【００１１】
なお、上記のようなワードスポッティング型の音声認識の技術水準を示す一例として、特許文献１を挙げる。
【００１２】
【特許文献１】特開２００２−３２０９４号公報
【発明の開示】
【発明が解決しようとする課題】
【００１３】
ところが、上記音声区間の検出には、音声認識終了連続無音時間の設定によって、その検出精度が異なってしまうという問題があるばかりか、検出できない事態が下記のように起こってしまうという問題がある。
【００１４】
図１２は音声認識終了連続無音時間の違いによる認識結果の相違を説明するための図である。図１２（Ａ）は音声認識終了連続無音時間が５００msecの場合を示し、図１２（Ｂ）は音声認識終了連続無音時間が２００msecの場合を示す。なお、いずれにおいても、辞書には、「パソコン」、「インターネット」、「接続できない」という単語が登録されているものとする。また、いずれにおいても、発話は『あのーパソコンで、インターネットに、せつぞくできないのですが、』という状況である。
【００１５】
図１２（Ａ）を参照して、音声認識終了連続無音時間が５００msecとした場合、音声区間２０１、音声区間２０２、音声区間２０３が検出されている。その認識結果として、音声区間２０１についてはリジェクションとされ、音声区間２０２については「パソコン」とされ、音声区間２０３については「接続できない」が得られる。
【００１６】
ここで、図１２（Ａ）では、音声区間２０２において、「パソコン」と「インターネット」と２つの単語が含まれた音声データを音声認識しているにも関わらず、「パソコン」という結果しか得られていない。これは、「パソコンで、インターネットに、」という音声データを１回の音声認識で行ったからである。その原因は、最初の「パソコン」を認識したため、後の言葉が無視されてしまったからである。
【００１７】
図１２（Ｂ）を参照して、音声認識終了連続無音時間が２００msecとした場合、音声区間３０１、音声区間３０２、音声区間３０３、音声区間３０４、音声区間３０５が検出されている。その認識結果として、音声区間３０１についてはリジェクションとされ、音声区間３０２については「パソコン」とされ、音声区間３０３についてはリジェクションとされ、音声区間３０４についてもリジェクションとされ、音声区間３０５については「接続できない」が得られる。
【００１８】
ここで、図１２（Ｂ）では、音声区間３０３と音声区間３０４のように、『インターネット』が、「インター」、「ネットに、」というように単語が分割された音声認識が行われている。
【００１９】
このようなことは、例えば意思疎通が必要となるような会話で考えながら話すような音声データの音声認識ではよく起こる現象であり、認識率の低下を招いているという問題がある。
【００２０】
また、ワードスポッティング型の音声認識の他に、ディクテーション型の音声認識方法もある。ディクテーション型は音声を全て漢字や英数字混じりのテキストに全変換する方式であるため、膨大な規模の品詞を伴った音声認識辞書が必要となり、その作成と管理に多大な労力を要し、さらに音声認識の動作環境（CPU、メモリ等）には高いスペックが必要等の問題がある。そのため、特定なシーンや目的での利用に限られてしまうという不都合がある。
【００２１】
ゆえに、本発明は、ワードスポッティング型の音声認識において、種々の状況であっても高い認識率を獲得できる音声認識方法、プログラム、及び音声認識装置を提供することを目的とする。
【課題を解決するための手段】
【００２２】
請求項１に係る発明は、認識対象である連続する音声をデジタル化した音声データに基づいて音声を認識する音声認識方法において、音声データ分析処理手段が、前記音声データについて無音であるか又は有音であるかを判別して連続する無音時間を算出し、前記算出された連続無音時間を第１の基準値及び前記第１の基準値とは値が異なる第２の基準値と比較し、前記第１の基準値と前記第２の基準値との間の値の場合として区別される連続無音時間の状態が得られた際の音声データを起点とする音声ブロックデータを生成し、生成された音声ブロックデータを音声認識するものである。
【００２３】
このように、二つの基準値を用いて連続無音時間を３つの状態に区別するので、一つの基準値を用いた場合と異なり、二つの基準値間として区別される連続無音時間に対してその際の音声データを起点とする音声ブロックデータを生成できる。また、終了点が同一であるが起点が異なる複数の音声ブロックデータを得ることができる。すなわち、多重分割された音声区間を得ることができる。
【００２４】
請求項２に係る発明は、請求項１において、前記音声データ分析処理手段が、処理対象の音声データをスペクトル解析し、ノイズレベルと解析されたスペクトルレベルと比較して、無音と有音を判別することを特徴とするものである。
【００２５】
このように、ノイズを考慮するためのスペクトル解析を行って、ノイズを考慮した有音と無音の判別を行うので、種々の環境における音声データの音声認識により適したものとなる。
【００２６】
請求項３に係る発明は、請求項１又は２記載の音声認識方法をコンピュータに実行させることが可能なプログラムである。
【００２７】
請求項４に係る発明は、認識対象である連続する音声をデジタル化した音声データに基づいて音声を認識する音声認識装置において、前記音声データについて無音であるか又は有音であるかを判別して連続する無音時間を算出し、前記算出された連続無音時間を第１の基準値及び前記第１の基準値とは値が異なる第２の基準値と比較し、前記算出された連続無音時間を３つの状態に区別し、前記第１の基準値と前記第２の基準値との間の値の場合として区別される連続無音時間の状態が得られた際の音声データを起点とする音声ブロックデータを生成する音声ブロック生成手段を備えるものである。
【発明の効果】
【００２８】
本発明によれば、終了点が同一であるが起点が異なる複数の音声ブロックデータを得ることができるので、すなわち多重分割された音声認識区間を得ることができるので、基準値が一つでは得られなかった音声認識結果を適切に得ることができ、より高い認識率を獲得できる。
【発明を実施するための最良の形態】
【００２９】
以下、本発明の実施の形態について説明する。
【実施例１】
【００３０】
図１は、本発明の実施の形態にかかる音声認識方法の原理を説明する図である。図２は、図１１に対応する図であって図１に示す本発明の実施の形態にかかる音声認識を具体的に説明するための図である。
【００３１】
図１０と異なる点を記載し、原理の相違を簡単に説明する。ここでは、多重音声認識プログラム１が用いられている。多重音声認識プログラム１には、音声ブロックデータ生成部２と、認識結果制御部６とが含まれる。また、音声ブロックデータ生成部２と音声認識エンジン１１１とにより、音声データ分析処理部４が構成される。音声ブロックデータ生成部２は、格納部２ａと、三状態分析部２ｂと、読出部２ｃとを含む。デジタル信号に変換された音声データについては、格納部２ａにより音声データを音声データ蓄積バッファ３に記録して蓄積すると共に、三状態分析部２ｂに対しても音声データを渡す。三状態分析部２ｂは、詳しくは後述するが、異なる値の二つの基準値を用いて音声区間を検出し、読出部２ｃが検出された音声区間に対応する音声ブロックデータを音声データ蓄積バッファ３に蓄積された音声データから生成する。そして、音声ブロックデータ生成部２から音声ブロックデータが音声区間データとして音声認識エンジン１１１に与えられ、ワードスポッティングによる音声認識が行われる。なお、図１０の音声区間判定部１１２の処理は、本実施例では不要である。
【００３２】
なお、図１の三状態分析部２ｂから読出部２ｃへは音声区間を示すテーブルが渡される。このテーブルは、左列のデータｔ_１，ｔ_２，ｔ_３がそれぞれの音声区間の起点を表しており、右列のデータｔ_ｅがそれぞれの音声区間の終了点を表している。ｔ_１，ｔ_２，ｔ_３，ｔ_ｅは、相対時間でも絶対時間でもバッファ内のポインタのようなものであっても構わないが、ｔ_１＜ｔ_２＜ｔ_３＜ｔ_ｅという関係がある。ｔ_２，ｔ_３がｔ_１，ｔ_ｅの間の値であることから、音声区間が多重分割されており、以下、図２を用いてさらに具体的に説明する。
【００３３】
図２において、基準値の一つである多重分割開始連続無音時間として２００msecが設定され、他の基準値である音声認識終了連続無音時間として５００msecが設定されている。辞書には、図１１と同様に、「パソコン」、「インターネット」、「接続できない」という単語が登録されているものとする。また、図１１と同様に、発話は『あのーパソコンで、インターネットに、せつぞくできないのですが、』という状況である。
【００３４】
図２を参照して、音声区間１１、音声区間１２、音声区間１３、音声区間１４、音声区間１５が検出されている。音声区間１２、１３、１４に関しては、終了点は同一であるが、起点については異なっている。すなわち、音声認識終了連続時間である５００msecを越える連続無音時間が得られれば、音声区間の終了となり、次の有音検出によって次の音声区間の開始となるが、多重分割開始連続無音時間である２００msecを越える連続無音時間が得られれば音声区間の起点とする形で、第２、第３・・・の音声区間が重なって得られる。この状態は音声区間が多重分割されていることを表している。このような認識結果として、音声区間１１についてはリジェクションとされ、音声区間１２については「パソコン」とされ、音声区間１３については「インターネット」、音声区間１４についてはリジェクションとされ、音声区間１５については「接続できない」が得られる。
【００３５】
このように、図１１の場合と異なって、認識されるべき「パソコン」、「インターネット」、「接続できない」が認識されている。なお、図１では、図２の音声区間１２、１３、１４のデータとその流れを例として記載している。
【００３６】
図３は図１の原理における処理フロー図であり、図４は図３のステップＳＴ３の詳細を示す処理フロー図である。
【００３７】
図３のステップＳＴ１において、音声ブロックデータ生成部２に音声データが入力される。ステップＳＴ２において、格納部２ａが音声データ蓄積バッファ３に音声データを保存する。
【００３８】
次に、図３のステップＳＴ３において、三状態分析部２ｂにより、音声データの解析が行われる。以下、図４を参照して、この解析について説明する。図５は図４の処理を具体的に説明するための図であって、図５（Ａ）は低レベルのノイズの場合を示す図であり、図５（Ｂ）は高レベルのノイズの場合を示す図である。
【００３９】
図４のステップＳＴ３１において、処理対象の音声データに対して、スペクトルが算出される。ステップＳＴ３２において、過去の音声データを含めたスペクトルの変化が算出される。ステップＳＴ３３において、スペクトルレベルの時系列変化が安定しているか否かが判断される。安定している場合にはステップＳＴ３４に進み、安定していない場合にはステップＳＴ３６に進む。ステップＳＴ３４では過去の音声データを含めたスペクトルより算出された値がノイズレベルとして採用され、ステップＳＴ３６では前回使用したノイズレベルが採用される。このような処理により、ノイズレベルは、処理対象の音声データ毎に得られた全スペクトルが連続したある一定時間の間、一定レベル内で安定している時の各スペクトルの値がノイズレベルとして採用される。図５（Ａ）では、ａ，ｂ，ｃ，ｄの４つの帯域のスペクトルが得られている例であり、時間Ｔ１の区間で各大域のスペクトルレベルを矢印で表しており、それぞれａ１，ｂ１，ｃ１，ｄ１のレベルでほぼ安定しており、この区間をノイズレベルとして採用し、有音と無音の判定を行う。一方、図５（Ｂ）では、（Ａ）に対してｄの帯域のノイズレベルのみが高く、帯域ａ，ｂ，ｃのノイズレベルは（Ａ）と同様であり、音声レベルも（Ａ）と同様の例である。ノイズレベルは、ある一定時間の間、スペクトルレベルが安定していることにより、ノイズレベルの採用を決定しているので、（Ｂ）においても時間Ｔ１の区間で各帯域のスペクトルレベルがほぼ安定しており、（Ａ）とは異なった各スペクトルレベルａ１，ｂ１，ｃ１，ｄ２が（Ｂ）の音声データのノイズレベルとなる。このことにより、種々の環境により異なったノイズに対し、自動的にノイズレベルを検出すると同時に、ノイズレベルを考慮した無音区間と有音区間の判定を行うことが可能となる。
【００４０】
図４に戻って、ステップＳＴ３５において、ノイズレベルと処理対象の音声データのスペクトルレベルの比較が行われ、有音か無音かが判定される。
【００４１】
図３に戻って、ステップＳＴ４において、図４のＳＴ３５の判定をもとに無音か有音かが判断された結果、有音と判断された場合にはステップＳＴ５に進み、無音と判断された場合にはステップＳＴ６に進む。ステップＳＴ５では最初の有音のとき、音声認識の開始の起点が記憶され、ステップＳＴ１に戻る。ステップＳＴ６では、連続無音時間の算出が行われる。
【００４２】
ステップＳＴ６に続くステップＳＴ７では、算出された連続無音時間が、「多重分割開始連続無音時間未満」、「多重分割開始連続無音時間以上音声認識終了連続無音時間未満」、「音声認識終了連続無音時間以上」の３つの状態に区別される。「多重分割開始連続無音時間未満」の場合にはステップＳＴ１に戻り、「多重分割開始連続無音時間以上音声認識終了連続無音時間未満」の場合にステップＳＴ８において新たな音声区間の起点が記録された後にステップＳＴ１に戻る。「音声認識終了連続無音時間以上」の場合には、ステップＳＴ９において音声区間の終了点を全ての起点に対応して記録し、ステップＳＴ１０において全ての音声区間としての音声ブロックデータが作成され、ステップＳＴ１１において音声ブロックデータの出力が行われ、音声認識エンジンに音声ブロックデータが渡される。
【００４３】
図６は図３の処理による図２の音声区間１２、１３、１４を具体的に説明するための図である。
【００４４】
図６に示すように、終了点が同一であるが（ｔ_ｅ）、起点が異なる（識別番号がｔ_１、ｔ_２、ｔ_３）音声区間が得られている。
【００４５】
この処理について、図２を用いてさらに説明すると、音声区間１１、１２、１５の起点は図３のステップＳＴ５の処理により記録され、音声区間１３、１４の起点は図３のステップＳＴ８の処理により記録され、音声区間１１〜１５の終了点は図３のステップＳＴ９の処理により記録される。特に、「多重分割開始連続無音時間以上音声認識終了連続無音時間未満」についての処理により音声区間１３、１４が得られているが、「多重分割開始連続無音時間未満」の処理については図２では音声区間１５で無音が検出されても多重分割の開始が行われない。
【００４６】
図７は図１の認識結果制御部６の動作を説明するための図である。
【００４７】
以下、処理を簡単に説明する。図７のステップＳＴ１２において、図３によって得られる音声区間データがある場合には、ステップＳＴ１３で音声認識結果の入力が行われ、ステップＳＴ１２において音声区間データの有無が判断されて、無い場合においてはステップＳＴ１４において、音声認識結果を全て解析し、有効な全認識結果を出力する。図１では、図２の音声区間１２、１３、１４を用いて説明したように「パソコン」「インターネット」が認識されて出力されている。
【００４８】
以上のような多重分割を行うことができるワードスポッティング型の音声認識による効果は以下のとおりである。まず、認識の取りこぼしの削減が可能になり、認識率の向上を図ることができる。また、単語単位の音声認識であることから、文法などの辞書は不要であり、自由な順序での音声認識が可能である。さらに、単語を記述したデータのみで音声認識ができるため、音声認識の知識を持たない一般の方々への普及が容易となる。さらに、ディクテーション型の音声認識エンジンを用いる方法と比較して動作環境（CPU、メモリ等）に高いスペックを必要としないため、アプリケーションへの組み込みや他アプリケーションとの同時作動が容易に行え、幅広いジャンルへの適用が可能となる。
【００４９】
図８は図１に示した原理を実現する音声認識装置を示すブロック図である。
【００５０】
音声認識装置は、マイク１０等から入力される音声を認識可能であり、具体的にはパーソナルコンピュータ（ＰＣ）１１などによって具体化される。パーソナルコンピュータ１１は、ＣＰＵ１３と、オーディオデバイス１５と、メモリ１７とを備える。メモリ１７は、前述してきた音声認識エンジン１１１と本発明の特徴である多重音声認識プログラム１を有している。オーディオデバイス１５によりアナログ／デジタル変換が行われ、ＣＰＵ１３がメモリ１７に搭載された多重音声認識プログラム１及び音声認識エンジン１１１を用いて音声認識を行う。
【００５１】
なお、図８ではマイク１０による音声の取得を示したが、電話機による音声の取得であってもよい。その場合、パーソナルコンピュータ１１は通信ネットワークに接続し、オーディオデバイス１５に代えて回線制御ボード或いはＬＡＮインターフェイスが用いられる。
【００５２】
また、図８ではマイク１０による音声の取得を示したが、ＷＡＶやＭＰ３などの各種音声ファイルの音声データを記憶した外部記憶装置とパーソナルコンピュータとを情報通信ネットワークを介し或いは直接に接続し、記憶されたデジタル信号が音声認識されてもよい。
【００５３】
さらに、音声区間の起点と終了点を、時刻といった時間に関するパラメータではなく、バッファのシーケンス番号やメモリアドレスのようなものでもよく、また、識別可能であればよく、番号に限られない。
【００５４】
さらに、上記実施の形態では、「多重分割開始連続無音時間未満」、「多重分割開始連続無音時間以上音声認識終了連続無音時間未満」、「音声認識終了連続無音時間以上」の３つの状態としたが、３つの状態を区別できるのであれば「以下」と「未満」と「以上」と「より大きい」との組み合わせは任意に使用されればよい。
【実施例２】
【００５５】
図９は、実施例２にかかる音声認識方法の原理を説明する図である。本実施例では、音声データは一定のサイズにまとめた解析単位データで制御される。この場合、音声区間の起点と終了点は解析単位データのサイズにより精度が粗くなるが、一方で処理負荷の軽減が可能である。
【００５６】
本実施例では、音声ブロックデータ生成部２の格納部２ａが、各解析単位データに識別番号を付与する識別番号付与部５を含み、格納部２ａは、識別番号の付与された解析単位データを識別番号と共に音声データ蓄積バッファ３に格納する。そして、三状態分析部２ｂから読出部２ｃに対して渡されるテーブルにおいて、音声区間の起点と終了点は、識別番号により表され、読出部２ｃは、この識別番号に基づいて音声データ蓄積バッファ３より音声ブロックデータを読み出す。
【図面の簡単な説明】
【００５７】
【図１】本発明の実施例１にかかる音声認識方法の原理を説明する図である。
【図２】図１２に対応する図であって図１に示す本発明の実施の形態にかかる音声認識を具体的に説明するための図である。
【図３】図１の原理における処理フロー図である。
【図４】図３のステップＳＴ３の詳細を示す処理フロー図である。
【図５】図４の処理を具体的に説明するための図であって、図５（Ａ）は低レベルのノイズの場合を示す図であり、図５（Ｂ）は高レベルのノイズの場合を示す図である。
【図６】図３の処理による音声認識対象区間を具体的に説明するための図である。
【図７】図１の認識結果制御部６の動作を説明するための図である。
【図８】図１に示した原理を実現する音声認識装置を示すブロック図である。
【図９】本発明の実施例２にかかる音声認識方法の原理を説明する図である。
【図１０】従来のワードスポッティング型の音声認識エンジンを使用した音声認識の原理を説明するための図である。
【図１１】図１０の音声区間判定部１１２による音声認識対象区間としての音声区間を検出することを説明するための図である。
【図１２】音声認識終了連続無音時間の違いによる認識結果の相違を説明するための図である。
【符号の説明】
【００５８】
１多重音声認識プログラム、２音声ブロックデータ生成部

【特許請求の範囲】
【請求項１】
認識対象である連続する音声をデジタル化した音声データに基づいて音声を認識する音声認識方法において、
音声データ分析処理手段が、前記音声データについて無音であるか又は有音であるかを判別して連続する無音時間を算出し、前記算出された連続無音時間を第１の基準値及び前記第１の基準値とは値が異なる第２の基準値と比較し、前記第１の基準値と前記第２の基準値との間の値の場合として区別される連続無音時間の状態が得られた際の音声データを起点とする音声ブロックデータを生成し、生成された音声ブロックデータを音声認識する、音声認識方法。
【請求項２】
前記音声データ分析処理手段が、処理対象の音声データをスペクトル解析し、ノイズレベルと解析されたスペクトルレベルと比較して、無音と有音を判別することを特徴とする、請求項１記載の音声認識方法。
【請求項３】
請求項１又は２記載の音声認識方法をコンピュータに実行させることが可能なプログラム。
【請求項４】
認識対象である連続する音声をデジタル化した音声データに基づいて音声を認識する音声認識装置において、
前記音声データについて無音であるか又は有音であるかを判別して連続する無音時間を算出し、前記算出された連続無音時間を第１の基準値及び前記第１の基準値とは値が異なる第２の基準値と比較し、前記算出された連続無音時間を３つの状態に区別し、前記第１の基準値と前記第２の基準値との間の値の場合として区別される連続無音時間の状態が得られた際の音声データを起点とする音声ブロックデータを生成する音声ブロック生成手段を備えた、音声認識装置。

【図２】