音声認識装置と音声認識方法とコンピュータ・プログラムおよびコマンド認識装置

【課題】容易に音声認識を行うことができるようにする。
【解決手段】特徴量抽出部３１は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する。音韻判別部３４は、特徴量から音韻を判別する。音韻判別データベース３２は、音韻毎の特徴量を不特定話者と話者毎に記憶する。音韻判別部３４は、話者判別部３７によって話者が判別されるまで、特徴量抽出部３１で抽出した特徴量を、音韻判別データベース３２に記憶されている不特定話者の音韻毎の特徴量と比較することによって音韻の判別を行う。話者判別部３７によって話者が判別されたとき、音韻判別部３４は、特徴量抽出部３１で抽出された特徴量を、音韻判別データベース３２に記憶されている判別された話者の音韻毎の特徴量と比較することによって音韻の判別を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、音声認識装置と音声認識方法とコンピュータ・プログラムおよびコマンド認識装置に関する。詳しくは、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出して、この抽出した特徴量を用いて音韻判別や話者判別等を行うことで、音声認識やコマンド認識を簡単な構成で精度よく行えるようにするものである。
【背景技術】
【０００２】
一般的な音声認識における信号処理では、音素の特徴を周波数領域でよく表すことができることから、周波数領域における特徴量を求めて、この特徴量に基づき音素の判別が行われている。例えば、スペクトル解析やＭＦＣＣ（メルケプストラム解析）などの解析方法を用いて特徴量を求めることが行われている。このような解析方法では、畳みこみ演算を用いているため計算量が膨大となり、簡単に音素の判別を行うことができない。
【０００３】
また、これらの解析手法の多くは波形をある程度の時間幅に区切って縮退し特徴量を求めているため、それらに含まれる個人性が埋没してしまう。例えば、音声データを周波数領域のデータに変換することで音声データが持つ位相情報などが失われるため、話者によって位相情報の違いが生じても、この位相情報の違いを利用することができない。
【０００４】
したがって、このような音声認識装置を例えばリモートコントロール装置に採用して機器の遠隔制御を音声で行えるようにした場合、リモートコントロール装置は大規模になってしまう。そこで、特許文献１では、入力音声から抽出された特徴量のみを外部に送信し処理を行う方法が提案されている。また、音声認識における解析処理を容易に行えるようにするため、例えば特許文献２や特許文献３では、音声波形を時間軸上のデータとして処理する方法が提案されている。
【０００５】
【特許文献１】特開２００３−３２３１８９号公報
【特許文献２】特開２００３−２８０６８２号公報
【特許文献３】特開２００１−２６５３７９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
ところで、特許文献１のように、特徴量のみを外部に送信して処理する場合、外部から処理結果が得られるまでリモートコントロール信号を送信できない。したがって、ユーザがコマンドを発声してから機器に対してリモートコントロール信号が送信されるまでに時間を要してしまう。このため、ユーザ操作に対する機器のレスポンスが遅くなってしまう。
【０００７】
また、特許文献２や特許文献３では、音声波形を時間軸上で処理する場合、音声波形の振幅の大きさや波形形状を特徴として処理が行われている。しかし、同じ音韻を発声しても話者の違いによって音声波形は異なるため、音声認識精度の低下を招いて、ユーザが発声したコマンドを正しく判別できないおそれがある。
【０００８】
そこで、この発明では容易に音声認識を行うことができる音声認識装置と音声認識方法とコンピュータ・プログラムおよびコマンド認識装置を提供するものである。
【課題を解決するための手段】
【０００９】
この発明の概念は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出して、この抽出した特徴量を予め記憶されている特徴量と比較することによって音韻や話者の判別を行うことにある。さらに、入力音声の波形形状から抽出した特徴量に基づいて得られた一方の判別結果を利用することで、この特徴量を用いて行う他方の判別処理の精度を向上させることにある。例えば抽出した特徴量に基づいて得られた音韻判別結果を用いることで、この特徴量を用いて行う話者判別を精度よく容易に行えるようにしたり、抽出した特徴量に基づいて得られた話者判別結果を用いることで、この特徴量を用いて行う音韻判別を精度よく容易に行えるようにするものでもある。
【００１０】
この発明の音声認識装置は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、特徴量から音韻を判別する音韻判別部と、音韻毎の特徴量を不特定話者と話者毎に記憶した音韻判別データベースと、入力音声の話者判別を行う話者判別部とを備え、音韻判別部は、話者判別部によって話者が判別されるまで、特徴量抽出部で抽出した特徴量を、音韻判別データベースに記憶されている不特定話者の音韻毎の特徴量と比較することによって音韻の判別を行い、話者判別部によって話者が判別されたとき、特徴量抽出部で抽出された特徴量を、音韻判別データベースに記憶されている判別された話者の音韻毎の特徴量と比較することによって音韻の判別を行うものである。
【００１１】
また、音声認識装置は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、特徴量抽出部で抽出した特徴量を、予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別部と、話者毎の音韻の特徴量を音韻毎に記憶した話者判別データベースと、特徴量抽出部で得られた特徴量を、音韻判別部で判別された音韻と等しい話者判別データベースに記憶されている話者毎の特徴量と比較することによって、入力音声の話者を判別する話者判別部を備えるものである。
【００１２】
さらに、この発明に係るコマンド認識装置は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、特徴量抽出部で抽出した特徴量を、予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別部と、特徴量抽出部で得られた特徴量を、音韻判別部で判別された音韻の予め記憶されている話者毎の特徴量と比較することによって、入力音声の話者を判別する話者判別部と、話者判別部で判別された話者に対応して予め記憶されているコマンドから、音韻判別部で判別された音韻を用いて順次コマンドの絞り込みを行ことで入力音声が示すコマンドを判別するコマンド判別部とを備えるものである。
【００１３】
この発明では、入力音声の波形形状の特徴として、波形形状を推定可能とする情報例えばゼロクロス点やピーク点および微分値等が抽出される。また、抽出した特徴の関係性として例えばゼロクロス点に対しては、ゼロクロス間の時間間隔、ゼロクロス間の時間関係性等が抽出される。また、ピーク点に対して、ゼロクロス間ピーク出現位置やピーク値関係性等が抽出される。さらに、音韻判別データベースや話者判別データベースには、話者の音韻毎の入力音声を特徴量抽出部に供給することで、この特徴量抽出部によって抽出された特徴量が予め記憶される。
【００１４】
音韻判別部では、特徴量抽出部で抽出した特徴量を、予め記憶されている不特定話者の音韻毎の特徴量と比較することによって音韻の判別が行われる。話者判別部では、特徴量抽出部で抽出した特徴量を、音韻判別部で不特定話者の音韻毎の特徴量を用いて判別された音韻と等しい話者判別データベースに記憶されている話者毎の特徴量と比較することによって、入力音声の話者の判別が行われる。ここで、話者判別部によって話者が判別されると、音韻判別部では、特徴量抽出部で抽出した特徴量を、判別された話者の音韻毎の特徴量と比較することによって音韻の判別が行われる。また、特徴量抽出部では、音韻の判別に用いる特徴量のみが抽出される。
【発明の効果】
【００１５】
この発明によれば、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出して、この抽出した特徴量を予め記憶されている特徴量と比較することによって音韻や話者の判別が行われる。さらに、入力音声の波形形状から抽出した特徴量に基づいて得られた判別結果を利用して、この特徴量を用いた他の判別処理が行われる。
【００１６】
したがって、周波数変換を行う場合のように膨大な計算を必要としないので簡単な構成で容易に音韻判別や話者判別を行うことができる。また、高速に音韻判別や話者判別を行うことができる。
【発明を実施するための最良の形態】
【００１７】
以下、図を参照しながら、この発明の実施の一形態について説明する。図１は、この発明の音声認識装置をリモートコントロール装置に適用した場合の構成を示している。リモートコントロール装置１０は、音声入力部２０、音声認識部３０、コマンド判別部４０、コマンド送信部５０を用いて構成されている。
【００１８】
音声入力部２０は、マイクロフォンやＡ／Ｄ変換部等を用いて構成されており、話者の入力音声、例えば話者が発声したコマンドの音声を音声データＤＳに変換して音声認識部３０に供給する。音声認識部３０は、音声入力部２０から供給された音声データＤＳを用いて音韻判別や話者判別を行い、判別した音韻を示す音韻情報ＤＰと判別した話者を示す話者情報ＤＫをコマンド判別部４０に供給する。コマンド判別部４０は音声認識部３０から供給された音韻情報ＤＰと話者情報ＤＫに基づき話者の発声したコマンドを判別して、判別したコマンドを示すコマンド信号ＳＣＭをコマンド送信部５０に供給する。コマンド送信部５０は、コマンド信号ＳＣＭを無線信号ＳＲとして送信する。
【００１９】
音声認識部３０は、入力音声の波形形状の特徴と、この特徴の関係性を特徴量として抽出する。また、音声認識部３０は、抽出した特徴量を用いることによって音韻判別や話者判別を行い、判別結果である音韻情報ＤＰと話者情報ＤＫをコマンド判別部４０に供給する。さらに音声認識部３０は、判別結果を利用することで、特徴量を用いて行う他方の判別処理の精度を向上させる。
【００２０】
図２は、波形形状の類似性と要因について定性的な評価結果をまとめたものである。発声のメカニズムは、肺などの呼吸器系の器官から押し出された空気が声帯を振動させ、舌、顎、歯、口腔、軟口蓋などの調音器官によって変調されて音韻が生成される。これらの調音器官のおおまかな位置関係は、身体特徴として決まっており容易に変更することはできない。人間は、これらの調音器官を可動範囲内で動かすことを経験的に学習し、呼気量と調音器官の位置関係を無意識的に調整することによって目的の音韻を発声している。そのため、同一話者の同一音韻の波形形状を比較した場合、ピッチやボリューム、その他の身体的要因、外的要因が同程度であれば波形形状は非常に類似したものとなる。また、同一話者でピッチやボリューム、その他の身体的、外的要因が同程度であれば、異なる音韻であるときは波形形状が全く異なるものとなる。
【００２１】
また、他者の同一音韻と比較した場合、音韻やピッチやボリューム、その他の身体的要因、外的要因が同程度であるとき、大局的な視点でみれば波形形状は似ているが局所的に見ると大きく異なる部分が生じている。したがって、波形形状は、同一話者の場合よりも類似性は低くなるものの類似したものとなる。また、ピッチやボリューム、その他の身体的、外的要因が異なる場合でも、音韻がほぼ同一であれば類似性は更に低くなるものの、音韻が異なる場合よりも類似性は高いものとなる。
【００２２】
なお、図２では、波形形状類似性が最も高い場合を「◎」、次に高い場合を「○」、次に高い場合を「△」、最も低い場合を「×」として示している。また、音韻等がほぼ同一の場合を「●」で示している。
【００２３】
ピッチやボリュームの変化は、一般的に対人会話などにおける感情の起伏や体調変化などに依存する口調の変化によって現れると考えられており、機器などに対してコマンドを発声する際などは感情の変化があまり伴わないことから、波形形状の分散は小さくなる。
【００２４】
以上より、感情の変化があまり伴わないコマンド等が発声されたときに入力音声の波形形状の分散が小さくなることを利用して、音声認識部３０は、時間軸上での波形変動を個人の特徴として捉え、入力音声の波形形状の特徴やこの特徴の関係性を特徴量として用いることで音韻判別や話者判別を行う。
【００２５】
図３は、音声認識部の構成を示している。音声認識部３０の特徴量抽出部３１は、音声データＤＳから入力音声の波形形状の特徴と、この特徴の関係性を特徴量ＣＨＳとして抽出して、音韻判別部３４と話者判別部３７に供給する。
【００２６】
図４は、波形形状の特徴を示す特徴量を示している。特徴量抽出部３１は、入力音声の波形形状の特徴として、例えば波形のゼロクロス点、ピーク点、微分値を抽出して特徴量とする。
【００２７】
図４の（Ａ）はゼロクロス点を示している。ゼロクロス点は、無音状態での波形振幅の振幅レベルを「０」としたとき、話者がコマンドを発声したときに波形の振幅レベルが「０」となる位置である。図４の（Ｂ）はピーク点を示している。ピーク点は、ゼロクロス点間における波形の最大（最小）値となる位置である。図４の（Ｃ）は微分値を示している。微分値は、入力音声の波形の傾斜を示す値として用いる。なお、特徴量は、波形のゼロクロス点、ピーク点、微分値に限られるものではない。特徴量抽出部３１は、例えば微分値のゼロクロス点やピーク点、２階微分値などを波形形状の特徴を示す特徴量として抽出するものとしてもよい。また、特徴量抽出部３１は、同一話者の特定音韻の波形サンプルから形状の平均値と分散を求め、それらの値を特徴量として用いるものとしてもよい。
【００２８】
さらに、特徴量抽出部３１は、抽出した特徴の関係性を特徴量として抽出する。例えばゼロクロス点に対して、ゼロクロス間の時間間隔、ゼロクロス間の時間関係性等を抽出する。またピーク点に対して、ゼロクロス間ピーク出現位置やピーク値関係性等を抽出する。さらに微分値に対して、微分値ゼロクロス出現回数やピーク形状等を特徴量として抽出する。
【００２９】
図５は、特徴量抽出部３１が抽出する特徴量を例示している。なお、図５の（Ａ）は入力音声の波形形状、図５の（Ｂ）は波形形状の特徴を示す特徴量、図５の（Ｃ）は特徴の関係性を示す特徴量である。
【００３０】
特徴量抽出部３１は、音声データＤＳが入力されて振幅レベルが「０」から変化したとき音声の開始として、このときの特徴量を抽出する。このため、図５の（Ｂ）に示すように、最初の特徴量としてゼロクロス点が抽出される。すなわち、最初の特徴量はゼロクロスで、時間「０(=ｔ0)」，記号「Ｚo」とする。次に、音声データＤＳがピーク値となると、特徴量抽出部３１はピーク点を特徴量として抽出する。すなわち２番目の特徴量は、ピーク（＋）で、時間「１０(=ｔ1)」，値「２００００(=v1)」，記号「ＰＰ0」とする。なお、時間は音声の開始からの経過時間、値は振幅レベルを示すものであるが、図５の（Ｂ）に示す数字は例示的なものであり、特定の時間単位や電圧単位の値を示すものではない。その後、音声データＤＳがゼロクロスとなると、特徴量抽出部３１はゼロクロス点を特徴量として抽出する。すなわち３番目の特徴量は、ゼロクロスで時間「ｔ2」記号「Ｚ1」とする。以下同様に、ゼロクロス点やピーク点を示す特徴量を抽出する。なお、図示せずも、音声データＤＳの微分値からゼロクロス点やピーク点を示す特徴量を抽出するものとしてもよい。
【００３１】
特徴量抽出部３１は、入力音声の波形形状の特徴だけでなく、抽出した特徴の関係性を特徴量として抽出する。特徴量抽出部３１は、特徴の関係性として図５の（Ｃ）に示すように、ゼロクロス間の時間間隔、ゼロクロス間ピーク出現位置、ゼロクロス間の時間関係性、ピーク値関係性、微分値ゼロクロス出現回数、ピーク形状検出等を取得する。
【００３２】
ゼロクロス間の時間間隔は、ゼロクロス点から次のゼロクロス点までの時間を示すものである。具体的には、ゼロクロス「Ｚn+1(ｔ)」の時間から直前のゼロクロス「Ｚn(ｔ)」の時間を減算した値である。
【００３３】
ゼロクロス間ピーク出現位置は、ゼロクロス点と次のゼロクロス点との間に生じたピーク点が、２つのゼロクロス点の何れに近づいているかを示すフラグである。例えば、ゼロクロス「Ｚn」の時間を「Ｚn(ｔ)」、ゼロクロス「Ｚn+1」の時間を「Ｚn+1(ｔ)」としたとき、ゼロクロス「Ｚn」とゼロクロス「Ｚn+1」の中間位置の時間「(Ｚn+1(ｔ)−Ｚn(ｔ))／２＋Ｚn(ｔ)」に対して、ゼロクロス「Ｚn」とゼロクロス「Ｚn+1」との間に位置するピークの時間Ｐ(t)が中間位置よりも速い時間であるか否かを示すものとする。
【００３４】
ゼロクロス間の時間関係性は、ゼロクロス点から次のゼロクロス点までの時間間隔の変化を示すフラグである。例えば、ゼロクロス「Ｚn+2」の時間を「Ｚn+2(ｔ)」としたとき、ゼロクロス「Ｚn」からゼロクロス「Ｚn+1」までの時間間隔「Ｚn+1(ｔ)−Ｚn(ｔ)」に対して、次の時間間隔すなわちゼロクロス「Ｚn+1」からゼロクロス「Ｚn+2」までの時間間隔「Ｚn+2(ｔ)−Ｚn+1(ｔ)」が長くなっているか否かを示すものとする。
【００３５】
ピーク値関係性は、正側および／または負側におけるピーク値の変化やピーク値の絶対値の変化を示すフラグである。例えば、ピーク値関係性１は、正側のピーク「ＰＰn」の信号レベルを「ＰＰn(ｖ)」、次の正側のピーク「ＰＰn+1」の信号レベルを「ＰＰn+1(ｖ)」としたとき、信号レベル「ＰＰn+1(ｖ)」が信号レベル「ＰＰn(ｖ)」よりも増加しているか否かを示すものとする。また、ピーク値関係性２は、正側のピーク「ＰＰn」の次に生じた負側のピーク「ＭＰn」の信号レベルを「ＭＰn(ｖ)」としたとき、信号レベル「ＭＰn(ｖ)」の絶対値が信号レベル「ＰＰn(ｖ)」の絶対値よりも増加しているか否かを示すものとする。
【００３６】
微分値ゼロクロス出現回数は、ゼロクロス点から次のゼロクロス点となるまでの期間中に微分値が「０」となった回数を示すものである。例えば、時間「Ｚn(ｔ)」から時間「(Ｚn+1(ｔ)」までの期間中において、微分値のゼロクロスＺ'nを検出する毎にカウント値「ＮＵＭ」をカウントアップして、ゼロクロス間において微分値が「０」となった回数をカウント値「ＮＵＭ」で示すものとする。
【００３７】
特徴量抽出部３１は、上述の特徴量を音声認識部３０行う判別処理に応じて選択的に抽出する。例えば、特徴量抽出部３１は、発声開始直後等のように話者が特定されていない場合、不特定話者を想定した音韻判別と話者判別の両方を行うために必要十分な特徴量を抽出する。また、特徴量抽出部３１は、話者判別によって話者が判別されたときには、判別された話者を想定した音韻判別で必要な特徴量のみを抽出する。すなわち、話者判別が不要であり、話者も判別されていることから、特徴量抽出部３１は抽出する特徴量を削減する。具体的には、後述する抽出特徴量設定部３８から供給された設定信号ＣＴＳに基づき特徴量を選択的に抽出して、抽出した特徴量ＣＨＳを音韻判別部３４と話者判別部３７に供給する。
【００３８】
音韻判別データベース３２は、音韻判別に用いる特徴量を記憶したデータベースである。音韻判別データベース３２は、不特定話者を想定して各音韻の判別を行うための特徴量を記憶した一般音韻データベース３２-0と、話者毎に各音韻の判別を行うための話者別音韻データベース３２-1〜３２-nで構成されている。
【００３９】
一般音韻データベース３２-0は、複数の不特定話者の入力音声から抽出した特徴量を統計モデルによって音韻毎に一般化して、各音韻の特徴量を記憶したものである。一般音韻データベース３２-0は、特徴の関係性を示す特徴量として、例えば周期毎のゼロクロス間の時間関係性やピーク値の関係性等を記憶する。
【００４０】
話者別音韻データベース３２-1は、特定の話者例えば話者ＳＫ１の入力音声から抽出した音韻毎の特徴量を音韻判別に用いる特徴量として記憶したものである。同様に、話者別音韻データベース３２-2〜３２-nは、例えば話者ＳＫ２〜ＳＫｎの入力音声から抽出した音韻毎の特徴量を音韻判別に用いる特徴量として記憶したものである。話者別音韻データベース３２-1〜３２-nは、特徴の関係性を示す特徴量として、例えばゼロクロス間ピーク出現位置や微分値ゼロクロス出現回数等を記憶する。なお、話者別音韻データベース３２-1〜３２-nには、話者に係らず等しい項目の特徴量を記憶するものとしてもよく、話者毎に異なる項目の特徴量を記憶するものとしてもよい。
【００４１】
セレクタ３３は、後述する話者判別部３７からの話者指定信号ＣＴＡに基づき、音韻判別データベース３２のいずれかのデータベースを選択して、選択したデータベースの特徴量ＣＨＰを音韻判別部３４に供給する。
【００４２】
音韻判別部３４は、特徴量抽出部３１で抽出された特徴量ＣＨＳとセレクタ３３で選択されたデータベースの各音韻の特徴量ＣＨＰを比較して、最も特徴量が近似する音韻を判別する。また、音韻判別部３４は、判別した音韻を示す音韻情報ＤＰをセレクタ３６とコマンド判別部４０に供給する。
【００４３】
話者判別データベース３５は、話者判別に用いる特徴量を記憶したデータベースである。話者判別データベース３５は、話者毎の音韻の特徴量を音韻毎に記憶した音韻別話者データベース３５-1〜３５-qで構成されている。
【００４４】
音韻別話者データベース３５-1は、話者が例えば音韻「ａ」を発声したとき、この入力音声から抽出した特徴量を話者毎に記憶したものである。同様に、音韻別話者データベース３５-2〜３５-qは、話者が同じ音韻を発声したとき、この入力音声から抽出した特徴量を話者毎に記憶したものであり、音韻別話者データベース３５-1〜３５-qは、音韻が異なるものとされている。この音韻別話者データベース３５-1〜３５-qは、特徴の関係性を示す特徴量として、例えばゼロクロス間ピーク出現位置や微分値ゼロクロス出現回数等を記憶する。なお、音韻別話者データベース３５-1〜３５-qには、音韻に係らず等しい項目の特徴量を記憶するものとしてもよく、音韻毎に異なる項目の特徴量を記憶するものとしてもよい。
【００４５】
ここで、特徴量は例えば学習動作を行って音韻判別データベース３２と話者判別データベース３５に記憶させる。例えば、リモートコントロール装置１０に学習モードを設ける。学習モードでは、発声する音韻をユーザに指示して、この指示に対してユーザが発声した入力音声の波形形状から特徴量ＣＨＳを抽出する。さらに、音韻を発声したユーザを話者として、抽出した特徴量ＣＨＳを話者と関係付けて、音韻判別データベース３２と話者判別データベース３５に記憶させる。
【００４６】
このような処理を行うものとすると、音韻判別データベース３２には、音韻を発声したユーザの入力音声の波形形状から抽出した音韻毎の特徴量が話者別音韻判別データベースとして記憶されることになる。また、話者判別データベース３５の各音韻別話者データベースには、音韻を発声したユーザの入力音声の波形形状から抽出した特徴量が、対応する音韻の音韻別話者データベースに記憶されることになる。
【００４７】
さらに、このような処理をユーザ毎に行うものとすれば、ユーザ毎の特徴量を音韻判別データベース３２と話者判別データベース３５に記憶させることができる。なお、音韻判別データベース３２の一般音韻データベース３２-0は、学習によらず予め記憶させておくものとしてもよく、学習を行ったユーザの特徴量を統計処理して、この処理結果を用いて一般音韻データベースの生成や更新を行うものとしてもよい。例えば、兄弟で声が似ているような場合、学習を行ったユーザの特徴量に応じて一般音韻データベースを更新すれば、学習を行っていない他の兄弟における音韻判別精度を向上させることが可能となる。
【００４８】
セレクタ３６は、音韻判別部３４からの音韻情報ＤＰに基づき、音韻判別部３４で判別された音韻に対応する音韻別話者データベースを選択して、選択した音韻別話者データベースの特徴量ＣＨＫを話者判別部３７に供給する。
【００４９】
話者判別部３７は、特徴量抽出部３１で抽出された特徴量ＣＨＳとセレクタ３６で選択された音韻別話者データベースの特徴量ＣＨＫを用いて、話者毎の局所的な特徴の差異を音韻毎に比較することで話者を判別する。ここで、話者を判別できたとき、話者判別部３７は、判別した話者と対応する話者別音韻データベースがセレクタ３３で選択されるように、話者指定信号ＣＴＡを生成してセレクタ３３に供給する。また、話者判別部３７は、判別した話者を示す話者情報ＤＫを抽出特徴量設定部３８とコマンド判別部４０に供給する。話者判別部３７は、話者を判別できないとき、および音韻判別部３４で判別された音韻に対応する音韻別話者データベースの選択がまだセレクタ３６で行われていないとき、一般音韻データベースがセレクタ３３で選択されるように、話者指定信号ＣＴＡを生成してセレクタ３３に供給する。
【００５０】
抽出特徴量設定部３８は、話者情報ＤＫに基づき設定信号ＣＴＳを生成して特徴量抽出部３１に供給する。すなわち、抽出特徴量設定部３８は、話者判別部３７から話者情報ＤＫが供給されたことにより、話者を判別したとき、判別された話者の音韻判別に必要な特徴量のみを特徴量抽出部３１で抽出するように設定信号ＣＴＳによって特徴量抽出部３１の特徴量抽出動作を制御する。また、抽出特徴量設定部３８は、話者判別部３７で話者が判別されていないとき、すなわち話者情報ＤＫが供給されていないとき、不特定話者を想定した音韻判別と話者判別の両方を行うために必要十分な特徴量を特徴量抽出部３１で抽出するように設定信号ＣＴＳによって特徴量抽出部３１の特徴量抽出動作を制御する。
【００５１】
このように、話者判別結果に応じて特徴量抽出部３１で抽出する特徴量を変更すれば、特定話者の音韻判別に適した特徴量の抽出のみが行われることから音韻判別を高速かつ効率よく行うことができる。
【００５２】
図１に示すコマンド判別部４０は、音声認識部３０の音韻判別部３４で判別された音韻を示す音韻情報ＤＰと話者判別部３７で判別された話者を示す話者情報ＤＫを用いてコマンドの判別を行う。さらに、コマンド判別部４０は、判別したコマンドに対応するコマンド信号ＳＣＭを生成してコマンド送信部５０に供給する。コマンド送信部５０は、コマンド判別部４０から供給されたコマンド信号ＳＣＭを無線信号ＳＲ例えば電波や赤外線信号として送信する。
【００５３】
ここで、コマンド判別部４０で音韻情報ＤＰに基づいてのみコマンドの判別を行うものとすると、音韻が正しく認識されればいずれの話者であってもコマンド送信部５０からコマンドが無線信号として送信される。しかし、コマンドによっては、利用できるユーザを制限できることが好ましい場合もある。例えば機器の種々の設定や録画予約変更等のコマンドをすべてのユーザが利用可能とすると、他人によって機器の設定が変更されてしまったり、予約設定が解除されてしまうおそれが生じてしまう。
【００５４】
そこで、コマンド判別部４０は、音韻情報ＤＰと話者情報ＤＫに基づいてコマンド判別を行い、予め話者毎に設定されている１あるいは複数のコマンドで構成されたコマンドデータベースから、話者情報ＤＫで示された話者に対応するコマンドデータベースを用いて、このコマンドデータベースから音韻情報ＤＰに基づきコマンドの絞り込みを行う。
【００５５】
図６は、コマンド判別部４０の構成を示している。コマンド判別部４０は、コマンドデータベース４１、データベース選択部４２、セレクタ４３、判別処理部４４を用いて構成されている。
【００５６】
コマンドデータベース４１には、一般コマンドデータベース４１-0と話者別コマンドデータベース４１-1〜４１-nが設けられている。
【００５７】
一般コマンドデータベース４１-0は、不特定話者が選択可能な１または複数のコマンドを記憶したものである。また、話者別コマンドデータベース４１-1は、話者ＳＫ１が選択可能な１または複数のコマンドを記憶したものである。同様に、話者別コマンドデータベース４１-2〜４１-nは、話者ＳＫ２〜ＳＫｎが選択可能な１または複数のコマンドを記憶したものである。
【００５８】
データベース選択部４２は、音声認識部３０から供給された話者情報ＤＫに基づき、コマンドデータベース４１から話者情報ＤＫで示された話者に対応する話者別コマンドデータベースを選択させる話者指定信号ＣＴＢを生成してセレクタ４３に供給する。また、データベース選択部４２は、話者が判別されていないとき、および話者情報で示された話者に対応するコマンドを記憶しているデータベースがコマンドデータベース４１に設けられていないとき、不特定話者コマンドデータベースを選択するように話者指定信号ＣＴＢを生成してセレクタ４３に供給する。
【００５９】
セレクタ４３は、データベース選択部４２からの話者指定信号ＣＴＢに基づき、コマンドデータベース４１から話者情報ＤＫで示された話者に対応する話者別コマンドデータベースを選択して、判別処理部４４に供給する。
【００６０】
判別処理部４４は、セレクタ４３で選択された話者別コマンドデータベースに登録されているコマンドの絞り込みを、音声認識部３０から供給された音韻情報ＤＰに基づいて行う。さらに、判別処理部４４は、決定したコマンドのコマンド信号ＳＣＭを生成してコマンド送信部５０に供給する。この判別処理部４４は、コマンドの絞り込み手法として、ツリー構造（階層構造）のような選択的な手法を用いる。また判別処理部４４は、マッチング精度による重み付け処理を用いた手法、ＨＭＭ(Hidden Markov Model)やニューラルネットワークなどの確率処理などを用いてもよい。
【００６１】
次に、図７のフローチャートを用いて音声認識部の動作について説明する。ステップＳＴ１で音声認識部３０は、音声入力を行う。音声認識部３０は、音声入力部２０から音声データＤＳを取得してステップＳＴ２に進む。
【００６２】
ステップＳＴ２で音声認識部３０は、話者の判別が完了しているか否かを判別する。ここで、音声認識部３０は、話者が判別されていないときステップＳＴ３に進み、話者が判別されているときはステップＳＴ１０に進む。
【００６３】
ステップＳＴ３で音声認識部３０は、不特定話者特徴量抽出を行う。音声認識部３０は、話者が判別されていないことから、音韻判別と話者判別を行うことができるように特徴量を抽出する。ここで、音声認識部３０の抽出特徴量設定部３８は、話者が判別されていないとき、一般的な音韻判別と話者判別の両方を行うために必要十分な特徴量を抽出するように設定信号ＣＴＳによって特徴量抽出部３１の特徴量抽出動作を制御する。また、特徴量抽出部３１は、設定信号ＣＴＳに基づいて特徴量ＣＨＳの抽出を行う。例えば、特徴量抽出部３１は、図５の（Ｂ）および図５の（Ｃ）に示す特徴量を抽出してステップＳＴ４に進む。
【００６４】
ステップＳＴ４で音声認識部３０は音韻判別を行う。音声認識部３０の音韻判別部３４は、話者が判別されていないことから、特徴量抽出部３１で抽出された特徴量と一般音韻データベースに記憶されている各音韻の特徴量を比較して、最も特徴量が近似する音韻を判別してステップＳＴ５に進む。
【００６５】
図８は、不特定話者の音韻判別に用いられる特徴量を例示したものである。図８の（Ａ）は波形形状の特徴を示す特徴量、図８の（Ｂ）は抽出した特徴の関係性を示す特徴量である。音韻判別部３４は、不特定話者の音韻判別を行う場合、図８の（Ｂ）において破線で囲まれた特徴量、すなわちゼロクロス間の時間関係性とピーク値関係性１を用いて音韻判別を行う。なお、不特定話者の音韻判別に用いられる特徴量は、破線で囲まれた特徴量に限定されるものではなく、音韻判別の精度を高めるために他の特徴量を用いるものとしてもよい。
【００６６】
ステップＳＴ５で音声認識部３０は音韻情報出力を行う。音声認識部３０の音韻判別部３４は、判別した音韻を示す音韻情報ＤＰをコマンド判別部４０に出力してステップＳＴ６に進む。
【００６７】
ステップＳＴ６で音声認識部３０は話者判別を行う。音声認識部３０の話者判別部３７は、特徴量抽出部３１で抽出された特徴量とステップＳＴ４で判別した音韻に対応する音韻別話者データベースに記憶されている話者毎の特徴量を比較して、局所的な特徴の差異が少なく同一話者と判別可能な話者を特定してステップＳＴ７に進む。
【００６８】
図９は、話者判別に用いられる特徴量を例示したものである。図９の（Ａ）は波形形状の特徴を示す特徴量、図９の（Ｂ）は抽出した特徴の関係性を示す特徴量である。話者判別部３７は、話者判別を行う場合、図９の（Ｂ）において破線で囲まれた特徴量、すなわちゼロクロス間ピーク出現位置、ゼロクロス間の時間関係性、ピーク値関係性１，２、微分値ゼロクロス出現回数、ピーク形状検出等を用いて話者判別を行う。なお、話者判別に用いられる特徴量は、破線で囲まれた特徴量に限定されるものではなく、話者判別の精度を高めるために他の特徴量を用いるものとしてもよい。
【００６９】
ステップＳＴ７で音声認識部３０は話者情報出力を行う。音声認識部３０の話者判別部３７は、判別した話者を示す話者情報ＤＫをコマンド判別部４０に出力してステップＳＴ８に進む。
【００７０】
ステップＳＴ８で音声認識部３０は、抽出特徴量の切り換えを行う。話者が判別されている場合、音声認識部３０の特徴量抽出部３１では、話者判別のために必要な特徴量を抽出する必要がない。したがって、音声認識部３０の抽出特徴量設定部３８は、話者が判別されたとき、判別された話者の音韻判別に必要な特徴量のみを特徴量抽出部３１で抽出するように設定信号ＣＴＳによって特徴量抽出部３１の特徴量抽出動作を制御してステップＳＴ９に進む。
【００７１】
図１０は、話者が判別されているときに抽出する特徴量を例示したものである。図１０の（Ａ）は波形形状の特徴を示す特徴量、図１０の（Ｂ）は抽出した特徴の関係性を示す特徴量である。抽出特徴量設定部３８は、図１０の（Ｂ）において斜線の領域の特徴量を除いた特徴量、すなわちゼロクロス間のピーク出現位置、ゼロクロス間の時間関係性、微分値ゼロクロス出現回数等の特徴量のみを抽出するように抽出制御信号を生成する。
【００７２】
ステップＳＴ９で音声認識部３０は、音韻データベースの切り換えを行う。音声認識部３０の話者判別部３７は、音韻判別部３４において、特徴量抽出部３１で抽出された特徴量と、判別した話者に対応する話者別音韻データベースに記憶されている各音韻の特徴量とを比較して音韻判別を行うように、音韻データベースの切り換えを行ってステップＳＴ１３に進む。
【００７３】
ステップＳＴ２で話者の判別が完了していると判別されてステップＳＴ１０に進むと、音声認識部３０は、特定話者特徴量抽出を行う。音声認識部３０は、話者が判別されていることから、判別された話者の音韻判別に必要な特徴量のみを抽出してステップＳＴ１１に進む。
【００７４】
ステップＳＴ１１で音声認識部３０は音韻判別を行う。音声認識部３０の音韻判別部３４は、特徴量抽出部３１で抽出された特徴量と、判別されている話者に応じた話者別音韻データベースに記憶されている各音韻の特徴量を比較して、最も特徴量が近似する音韻を判別してステップＳＴ１２に進む。
【００７５】
ステップＳＴ１２で音声認識部３０は音韻情報の出力を行ってステップＳＴ１３に進む。音声認識部３０は、音韻判別部３４で判別された音韻を示す音韻情報ＤＰをコマンド判別部４０に出力する。なお、話者を示す話者情報ＤＫは、話者判別を行ったとき、あるいは予め話者が決定されている場合には動作開始時に出力すればよく、音韻情報と共に話者情報を常にコマンド判別部４０に出力する必要はない。
【００７６】
ステップＳＴ１３で音声認識部３０は、音声入力が終了したか否か判別して、音声入力が終了していないときはステップＳＴ２に戻り、音声入力が終了したと判別したときは、音声認識を終了する。音声認識部３０は、例えば特徴量抽出部３１で音声データＤＳのレベル変化を検出して、レベル変化が所定値よりも所定期間以上継続したとき、音声入力の終了と判別する。
【００７７】
このように、音声認識部３０では、入力音声の波形形状の特徴と、この特徴の関係性を特徴量として抽出して、抽出した特徴量と判別された話者の音韻毎の特徴量とを比較して音韻の判別が行われる。このため、スペクトル解析やＭＦＣＣなど複雑な処理を行う必要がなく、容易に音声認識を行うができる。
【００７８】
また、音声認識部３０では、話者に対応した音韻データベースが選択されて、判別された話者の音韻毎の特徴量と用いた音韻判別が行われるので、不特定話者に対応した音韻データベースを用いる場合に比べて音韻判別の判別精度を向上させることができる。
【００７９】
さらに、音韻判別と話者判別では、ともに入力音声の波形形状から抽出した特徴量に基づいて判別を行うものであることから、音韻判別に用いる情報や話者判別に用いる情報をそれぞれ個別に生成する必要がない。したがって、音声認識部３０の構成を簡単とすることができる。
【００８０】
図１１は、特徴量空間を示している。なお、図１１の（Ａ）は、不特定話者についての例えば音韻「ａ」と音韻「ｏ」の特徴量空間、図１１の（Ｂ）は、話者Ａについての例えば音韻「ａ」と音韻「ｏ」の特徴量空間をそれぞれ示している。
【００８１】
不特定話者については、音韻に対する特徴量空間が図１１の（Ａ)のように広く、話者が特定されていると、音韻に対する特徴量空間が図１１の（Ｂ)のように、不特定話者に比べて狭いものとなり、音韻「ａ」の特徴量空間と音韻「ｏ」の特徴量空間が分離されたものとなる。
【００８２】
ここで、話者が特定されていない場合、図１１の（Ａ）に示すように、音韻「ａ」の特徴量空間と音韻「ｏ」の特徴量空間が重なりを生じていると、音韻の誤判定を招きやすい。例えば音韻「ａ」の音声波形形状から抽出した特徴量が音韻「ｏ」の特徴量と類似していると判定されて音韻「ｏ」と認識されたり、音韻「ｏ」の音声波形形状から抽出した特徴量が音韻「ａ」の特徴量と類似していると判定されて音韻「ａ」と認識されてしまう場合がある。
【００８３】
また、話者Ａが特定された場合、話者Ａに対応した音韻データベースを用いるものとすれば、例えば音韻「ａ」の音声波形形状から抽出した特徴量が音韻「ｏ」の特徴量と類似していると判定されたり、音韻「ｏ」の音声波形形状から抽出した特徴量が音韻「ａ」の特徴量と類似していると判定されてしまうことを防止することが可能となり、音韻判別の判別精度を向上させることができる。
【００８４】
さらに、音声認識部３０では、話者が判別されたとき、話者判別に用いられる特徴量の抽出が終了されて、音韻判別に用いられる特徴量のみの抽出が行われる。したがって、不必要な特徴量が抽出されることがなく、音声認識を効率よく行うことができる。
【００８５】
次に、音声認識部３０で得られた音韻情報と話者情報を用いてコマンドの判別を行うコマンド判別部の動作について、図１２のフローチャートを用いて説明する。
【００８６】
ステップＳＴ２１でコマンド判別部４０は、情報入力を行う。コマンド判別部４０は、音声認識部３０から出力される音韻情報ＤＰや話者情報ＤＫを取得してステップＳＴ２２に進む。
【００８７】
ステップＳＴ２２でコマンド判別部４０は、話者に対応したコマンドデータベースの選択が可能であるか否かを判別する。コマンド判別部４０のデータベース選択部４２は、ステップＳＴ２１で取得した情報に話者情報ＤＫが含まれていない場合、あるいは話者情報ＤＫで示された話者に対応したコマンドデータベースが設けられていない場合、話者に対応したコマンドデータベースの選択ができないことからステップＳＴ２３に進む。また、コマンド判別部４０のデータベース選択部４２は、ステップＳＴ２１で取得した話者情報ＤＫで示された話者に対応したコマンドデータベースが設けられているときステップＳＴ２４に進む。
【００８８】
ステップＳＴ２３でコマンド判別部４０は、一般コマンドデータベースを選択してステップＳＴ２５に進む。すなわち、コマンド判別部４０のデータベース選択部４２は、一般コマンドデータベースをセレクタ４３で選択させて、選択した一般コマンドデータベースに記憶されているコマンドを判別処理部４４に供給させる。
【００８９】
ステップＳＴ２４でコマンド判別部４０は、話者別コマンドデータベースを選択してステップＳＴ２５に進む。すなわち、コマンド判別部４０のデータベース選択部４２は、話者情報ＤＫで示された話者に対応した話者別コマンドデータベースをセレクタ４３で選択させて、選択された話者別コマンドデータベースに記憶されているコマンドを判別処理部４４に供給させる。
【００９０】
ステップＳＴ２５でコマンド判別部４０は、コマンドの絞り込みを行ってステップＳＴ２６に進む。コマンド判別部４０の判別処理部４４は、データベース選択部４２で選択されたコマンドデータベースのコマンドから、ステップＳＴ２１で取得した音韻情報ＤＰによって示された音韻と等しいコマンドを選択して、選択したコマンドをコマンド候補に設定してステップＳＴ２６に進む。また、判別処理部４４は、コマンド候補が既に選択されている場合、音韻情報ＤＰによって示された音韻に基づいてコマンド候補の更新を行う。すなわち、判別処理部４４は、コマンド候補を設定に用いた音韻の次の音韻と、音韻情報ＤＰによって示された音韻が一致するコマンドをコマンド候補から選択して、選択したコマンド候補を新たなコマンド候補とする。さらに、コマンド判別部４０は、コマンドの絞り込み中にコマンドデータベースが切り換えられたとき、コマンド候補の設定に用いた音韻と等しい音韻のコマンドを、新たなコマンドデータベースから選択してコマンド候補とする。
【００９１】
ステップＳＴ２６でコマンド判別部４０は、コマンドが決定したか否かを判別する。コマンド判別部４０の判別処理部４４は、コマンド候補が１つのコマンドとなったとき、コマンドが決定したものとしてステップＳＴ２７に進む。また、コマンド判別部４０の判別処理部４４は、コマンド候補が複数のコマンドであるときステップＳＴ２２に戻り、コマンドの絞り込みを繰り返す。
【００９２】
ステップＳＴ２７でコマンド判別部４０は、コマンド信号出力を行う。コマンド判別部４０の判別処理部４４は、コマンド候補が１つのコマンドであることから、このコマンドに対応したコマンド信号をコマンド送信部５０に供給する。また、判別処理部４４はコマンドが決定されたことから、コマンド候補の初期化を行い、コマンド候補が設定されていない状態とする。
【００９３】
図１３は、コマンド決定手順を例示した図である。なお、図１３の（Ａ）は入力音声の波形、図１３の（Ｂ）は音声認識結果である音韻情報ＤＰと話者情報ＤＫ、図１３の（Ｃ）はコマンド候補、図１３の（Ｄ）は、データベース選択部４２で選択したコマンドデータベースを示している。また、図１３では、ツリー構造（階層構造）の形でコマンドの絞り込みを行うものとする。
【００９４】
ここで、例えば話者ＳＫ１が「ｄｅｎｇｅｎ」と発声すると、音声認識部３０は、音声認識を行い音韻「/ｄ/」「/ｅ/」「/ｎ/」「/ｇ/」「/ｅ/」「/ｎ/」を示す音韻情報ＤＰを順次コマンド判別部４０に供給する。また、音声認識部３０は、話者判別を行い例えば最初の音韻「/ｄ/」に基づき話者ＳＫ１を判別したとき、話者ＳＫ１を示す話者情報ＤＫをコマンド判別部４０に供給する。
【００９５】
コマンド判別部４０は、音声認識部３０で音韻「/ｄ/」が判別されたとき、話者が認識されていない状態であることから一般コマンドデータベース４１-0を選択して、一般コマンドデータベースのコマンド群から、最初の音韻が音韻「/ｄ/」であるコマンド群を選択してコマンド候補とする。
【００９６】
次に、コマンド判別部４０は、音声認識部３０で話者ＳＫ１と音韻「/ｅ/」が判別されたとき、コマンドデータベースを話者ＳＫ１に対応する話者別コマンドデータベース４１-1に切り換える。また、コマンド判別部４０は、コマンドデータベースの切り換えを行ったことから、最初の音韻が音韻「/ｄ/」であり、次の音韻が音韻「/ｅ/」であるコマンド群を、切り換え後の話者別コマンドデータベース４１-1から選択してコマンド候補とする。すなわち、音韻「/ｄ/」のコマンド群である階層から、次の音韻「/ｅ/」のコマンド群の階層のコマンドを選択してコマンド候補とする。
【００９７】
その後、コマンド判別部４０は、音声認識部３０からの音韻情報に基づきコマンドの絞り込みを行い、音韻「/ｄ/」「/ｅ/」「/ｎ/」「/ｇ/」で絞り込みを行ったときにコマンドが１つになったとき、コマンドが決定されたものとして１つのコマンド「ｄｅｎｇｅｎ」に対応したコマンド信号をコマンド送信部５０に供給する。すなわち、コマンド判別部４０は、判別された音韻のコマンド群の階層から次に判別された音韻のコマンド群を選択して、この選択したコマンド群の階層から次に判別された音韻のコマンド群を選択する処理を繰り返すことで、ツリー構造（階層構造）の形でコマンドの絞り込みを行い、１つのコマンドに絞りこまれたとき、絞り込まれたコマンドに対応するコマンド信号をコマンド送信部５０に供給する。
【００９８】
このように、コマンド判別を行うものとすると、ユーザは、話者別コマンドデータベースに話者固有のコマンドを記憶させておくことで、ユーザ固有のコマンド信号をコマンド送信部５０から送信させることができる。また、ユーザは、一般コマンドデータベースに記憶するコマンドを制限しておけば、不特定話者が種々のコマンドを発声したときに、所定のコマンド以外のコマンドが実行されてしまうことを防止できる。
【００９９】
さらに、音声認識部３０からの音韻情報ＤＰに基づきコマンドの絞り込みが行われて、コマンド候補が１つのコマンドとなったときにコマンドに対応するコマンド信号がコマンド送信部５０に供給されるので、コマンド判別部４０は、コマンドに対応する音韻をすべて認識してからコマンド信号をコマンド送信部５０に供給する場合に比べて、コマンド信号を速やかにコマンド送信部５０に供給できる。すなわち、リモートコントロール装置１０の応答性は、良好なものとなる。
【０１００】
ところで、話者毎に送信可能なコマンドを設定できるようにする場合、話者判別結果を用いて音韻判別を行うものとすると、話者毎に話者別音韻データベースを設けておかなければならないことから記憶容量の大きなメモリが必要となる。そこで、少ない記憶容量でコマンド信号の送信を可能とする場合、音声認識は一般音韻データベース３２-0のみを用いて行い、コマンド判別部４０は話者判別結果と一般音韻データベース３２-0を用いた音韻判別結果を用いてコマンド判別をものとしてもよい。
【０１０１】
図１４は、音声認識部の他の構成として、少ない記憶容量でコマンド信号の送信を可能とする場合を示している。音声認識部３０ａでは、音韻判別データベース３２ａとして一般音韻データベース３２-0のみを設けるものとして、音韻判別部３４は、音韻判別データベース３２ａの音韻毎の特徴量と、抽出した特徴量ＣＨＳを比較して音韻情報ＤＰを生成する。話者判別部３７は、特徴量抽出部３１で抽出された特徴量ＣＨＳとセレクタ３６で選択された音韻別話者データベースの特徴量ＣＨＫを用いて話者の判別を行い、判別した話者を示す話者情報ＤＫをコマンド判別部４０に供給する。また、話者情報ＤＫを抽出特徴量設定部３８に供給することで、上述のように特徴量抽出部３１の処理は軽減される。
【０１０２】
図１５は、他の構成の音声認識部の動作を示すフローチャートである。ステップＳＴ３１で音声認識部３０は、音声入力を行う。音声認識部３０は、音声入力部２０から音声信号を取得してステップＳＴ３２に進む。
【０１０３】
ステップＳＴ３２で音声認識部３０は、特徴量抽出を行う。音声認識部３０は、話者が判別されていないことから、音韻判別と話者判別を行うことができるように特徴量を抽出する。ここで、音声認識部３０の抽出特徴量設定部３８は、話者が判別されていないとき、一般的な音韻判別と話者判別の両方を行うために必要十分な特徴量を抽出するように設定信号ＣＴＳによって特徴量抽出部３１の特徴量抽出動作を制御する。また、特徴量抽出部３１は、設定信号ＣＴＳに基づいて特徴量の抽出を行う。例えば、特徴量抽出部３１は、図５の（Ｂ）および図５の（Ｃ）に示す特徴量を抽出してステップＳＴ３３に進む。
【０１０４】
ステップＳＴ３３で音声認識部３０は音韻判別を行う。音声認識部３０の音韻判別部３４は、特徴量抽出部３１で抽出された特徴量ＣＨＳと音韻判別データベース３２ａに記憶されている各音韻の特徴量を比較して、最も特徴量が近似する音韻を判別してステップＳＴ３４に進む。
【０１０５】
ステップＳＴ３４で音声認識部３０は音韻情報出力を行う。音声認識部３０は、音韻判別部３４で判別された音韻を示す音韻情報ＤＰをコマンド判別部４０に出力してステップＳＴ３５に進む。
【０１０６】
ステップＳＴ３５で音声認識部３０は、話者の判別が完了しているか否かを判別する。ここで、音声認識部３０は、話者が判別されていないときステップＳＴ３６に進み、話者が判別されているときはステップＳＴ３９に進む。
【０１０７】
ステップＳＴ３６で音声認識部３０は話者判別を行う。音声認識部３０の話者判別部３７は、特徴量抽出部３１で抽出された特徴量ＣＨＳとステップＳＴ３３で判別した音韻に対応する音韻別話者データベースに記憶されている話者毎の特徴量ＣＨＫを比較して、局所的な特徴の差異が少なく同一話者と判別可能な話者を特定してステップＳＴ３７に進む。
【０１０８】
ステップＳＴ３７で音声認識部３０は話者情報出力を行う。音声認識部３０は、話者判別部３７で判別された話者を示す話者情報ＤＫをコマンド判別部４０に出力してステップＳＴ３８に進む。
【０１０９】
ステップＳＴ３８で音声認識部３０は、抽出特徴量の切り換えを行う。音声認識部３０の抽出特徴量設定部３８は、音韻判別に必要な特徴量のみを特徴量抽出部３１で抽出するように設定信号ＣＴＳによって特徴量抽出部３１の動作を制御してステップＳＴ３９に進む。
【０１１０】
ステップＳＴ３９で音声認識部３０は、音声入力が終了したか否か判別して、音声入力が終了していないときはステップＳＴ３２に戻り、音声入力が終了したと判別したときは、音声認識を終了する。音声認識部３０は、例えば特徴量抽出部３１で音声データＤＳのレベル変化を検出して、レベル変化が所定値よりも所定期間以上継続したとき、音声入力の終了と判別する。
【０１１１】
このように処理を行うものとすれば、少ない記憶容量でコマンド信号の送信を行うことができるようになる。また、音声認識部やリモートコントロール装置を安価に構成できる。
【０１１２】
さらに、上述の音声認識およびコマンド判別はソフトウェアで行うものとしてもよい。図１６は、上述の処理をコンピュータ・プログラムにより実行するコンピュータの構成を示した図である。
【０１１３】
コンピュータ６０のＣＰＵ(Central Processing Unit)６１は、ＲＯＭ(Read Only Memory)６２またはＲＡＭ(Random Access Memory)６３に記録されているコンピュータ・プログラムにしたがって各種の処理を実行する。また、ＲＡＭ６３には、データベースの情報などが適宜記憶される。これらのＣＰＵ６１、ＲＯＭ６２、およびＲＡＭ６３は、バス６４により相互に接続されている。また、ＣＰＵ６１には、バス６４を介して入出力インタフェース部６５が接続されている。入出力インタフェース部６５には、ユーザインタフェース部６６、入力部６７、出力部６８等が接続されている。
【０１１４】
ユーザインタフェース部６６は、操作キー等を用いて構成されており、ユーザ操作に応じた操作信号をＣＰＵ６１に供給する。入力部６７は音声入力部２０からの音声データを入力するためのインタフェースである。出力部６８は、コマンド信号をコマンド送信部５０に供給するためのインタフェースである。
【０１１５】
なお、図示せずも、例えばリムーバブルメディア例えば着脱可能な半導体メモリ等からのデータの読み出しやデータの書き込みを行うドライブ部、外部機器と通信を行う通信部を設けるものとしてもよい。また、電波を用いてコマンド信号の送信を行う場合には、コマンド送信部５０に受信機能を設けて通信を行えるようにしてもよい。このように、ドライブ部や通信部を設けるものとすれば、ドライブ部や通信部を介してコンピュータ・プログラムの取得や更新を容易に行うことができる。
【０１１６】
ＣＰＵ６１は、コンピュータ・プログラムを実行して、入力部６７を介して供給された音声データから特徴量の抽出を行い、上述のように抽出した特徴量と記憶されているデータベースの特徴量を比較して、音韻判別や話者判別を行う。さらに、音韻判別や話者判別の判別結果からコマンドの判別を行い、判別したコマンドに対応するコマンド信号を出力部６８からコマンド送信部５０に供給させる。
【０１１７】
このようにして、上述した一連の処理をコンピュータ・プログラムにより実行すれば、音韻判別や話者判別および音韻判別と話者判別の判別結果に基づいたコマンドの判別をコンピュータで行うこともできる。
【０１１８】
なお、本発明の実施の形態は、音韻判別と話者判別の判別結果に基づいてコマンドの判別を行い、話者の入力音声によって機器の遠隔制御を行う場合に限られるものではない。例えば、機器本体に音声入力部や音声認識部およびコマンド判別を設けて、操作キー等を操作しなくとも音声で機器の動作の切り換え等を行えるようにしてもよい。さらに、音声で文字入力等を行う場合にも上述の音声認識部を用いるものとすれば、誤認識の少ない入力処理を実現することが可能となる。また、本発明の要旨を逸脱しない範囲において種々の変更も可能である。
【産業上の利用可能性】
【０１１９】
この発明は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出して、この抽出した特徴量を用いて音韻判別や話者判別を行うものである。このため、音声によって種々の処理や制御を行う電子機器、例えば音声で機器の遠隔操作を行うリモートコントロール装置等に好適である。
【図面の簡単な説明】
【０１２０】
【図１】リモートコントロール装置の構成を示す図である。
【図２】波形形状の類似性と要因について定性的な評価結果を示す図である。
【図３】音声認識部の構成を示す図である。
【図４】波形形状の特徴を示す特徴量を示す図である。
【図５】特徴量抽出部が抽出する特徴量を例示した図である。
【図６】コマンド判別部の構成を示す図である。
【図７】音声認識部の動作を示すフローチャートである。
【図８】不特定話者の音韻判別に用いられる特徴量を例示した図である。
【図９】話者判別に用いられる特徴量を例示した図である。
【図１０】話者が判別されているときに抽出する特徴量を例示した図である。
【図１１】特徴量空間を示す図である。
【図１２】コマンド判別部の動作を示すフローチャートである。
【図１３】コマンド決定手順を例示した図である。
【図１４】音声認識部の構成を示す図である。
【図１５】音声認識部の他の動作を示すフローチャートである。
【図１６】コンピュータの構成を示す図である。
【符号の説明】
【０１２１】
１０・・・リモートコントロール装置、２０・・・音声入力部、３０，３０ａ・・・音声認識部、３１・・・特徴量抽出部、３２３２ａ・・音韻判別データベース、３２-0・・一般音韻データベース、３２-1〜３２-n・・・話者別音韻データベース、３３，３６，４３・・・セレクタ、３４・・・音韻判別部、３５・・・話者判別データベース、３５-1〜３５-q・・・音韻別話者データベース、３７・・・話者判別部、３８・・・抽出特徴量設定部、４０・・・コマンド判別部、４１・・・コマンドデータベース、４１-0・・・一般コマンドデータベース、４１-1〜４１-n・・・話者別コマンドデータベース、４２・・・データベース選択部、４４・・・判別処理部、５０・・・コマンド送信部、６０・・・コンピュータ、６１・・・ＣＰＵ、６２・・・ＲＯＭ，６３・・・ＲＡＭ、６４・・・バス、６５・・・入出力インタフェース部、６６・・・ユーザインタフェース部、６７・・・入力部、６８・・・出力部

【特許請求の範囲】
【請求項１】
入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、
前記特徴量から音韻を判別する音韻判別部と、
音韻毎の特徴量を不特定話者と話者毎に記憶した音韻判別データベースと、
前記特徴量から前記入力音声の話者判別を行う話者判別部とを備え、
前記音韻判別部は、前記話者判別部によって話者が判別されるまで、前記特徴量抽出部で抽出した特徴量を、前記音韻判別データベースに記憶されている前記不特定話者の音韻毎の特徴量と比較することによって音韻の判別を行い、前記話者判別部によって話者が判別されたとき、前記特徴量抽出部で抽出された特徴量を、前記音韻判別データベースに記憶されている前記判別された話者の音韻毎の特徴量と比較することによって音韻の判別を行う音声認識装置。
【請求項２】
話者毎の音韻の特徴量を音韻毎に記憶した話者判別データベースを更に備え、
前記話者判別部は、前記特徴量抽出部で抽出した特徴量を、前記音韻判別部で前記不特定話者の音韻毎の特徴量を用いて判別された音韻と等しい前記話者判別データベースに記憶されている話者毎の特徴量と比較することによって、前記入力音声の話者を判別する請求項１記載の音声認識装置。
【請求項３】
前記特徴量抽出部で抽出する特徴量の設定を行う抽出特徴量設定部を更に備え、
前記抽出特徴量設定部は、前記話者判別部によって話者が判別されるまで、前記音韻と話者の判別に用いる特徴量を前記特徴量抽出部で抽出させるものとし、前記話者判別部によって話者が判別されたとき、前記音韻の判別に用いる特徴量を前記特徴量抽出部で抽出させる請求項２記載の音声認識装置。
【請求項４】
前記特徴量抽出部は、音声波形形状の特徴としてゼロクロス点とピーク点および微分値を抽出する請求項１記載の音声認識装置。
【請求項５】
前記データベースは、話者の音韻毎の入力音声を前記特徴量抽出部に供給することで該特徴量抽出部によって抽出された特徴量を記憶する請求項１記載の音声認識装置。
【請求項６】
入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、
前記特徴量抽出部で抽出した特徴量を、予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別部と、
話者毎の音韻の特徴量を音韻毎に記憶した話者判別データベースと、
前記特徴量抽出部で得られた特徴量を、前記音韻判別部で判別された音韻と等しい前記話者判別データベースに記憶されている話者毎の特徴量と比較することによって、前記入力音声の話者を判別する話者判別部を備える音声認識装置。
【請求項７】
入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出工程と、
前記入力音声の話者が判別されていないとき、前記抽出した特徴量を、予め記憶されている不特定話者の音韻毎の特徴量と比較することによって音韻の判別を行い、前記入力音声の話者が判別されているとき、前記抽出された特徴量を、前記判別された話者の予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別工程とを有する音声認識方法。
【請求項８】
コンピュータに、
入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出ステップと、
前記入力音声の話者が判別されていないとき、前記抽出した特徴量を、予め記憶されている不特定話者の音韻毎の特徴量と比較することによって音韻の判別を行い、前記入力音声の話者が判別されているとき、前記抽出された特徴量を、前記判別された話者の予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別ステップを実行させるコンピュータ・プログラム。
【請求項９】
入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、
前記特徴量抽出部で抽出した特徴量を、予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別部と、
前記特徴量抽出部で得られた特徴量を、前記音韻判別部で判別された音韻の予め記憶されている話者毎の特徴量と比較することによって、前記入力音声の話者を判別する話者判別部と、
前記話者判別部で判別された話者に対応して予め記憶されているコマンドから、前記音韻判別部で判別された音韻を用いて順次コマンドの絞り込みを行ことで前記入力音声が示すコマンドを判別するコマンド判別部とを備えるコマンド認識装置。

【図１】