説明

音声認識装置と音声認識方法とコンピュータ・プログラムおよびコマンド認識装置

【課題】容易に音声認識を行うことができるようにする。
【解決手段】特徴量抽出部31は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する。音韻判別部34は、特徴量から音韻を判別する。音韻判別データベース32は、音韻毎の特徴量を不特定話者と話者毎に記憶する。音韻判別部34は、話者判別部37によって話者が判別されるまで、特徴量抽出部31で抽出した特徴量を、音韻判別データベース32に記憶されている不特定話者の音韻毎の特徴量と比較することによって音韻の判別を行う。話者判別部37によって話者が判別されたとき、音韻判別部34は、特徴量抽出部31で抽出された特徴量を、音韻判別データベース32に記憶されている判別された話者の音韻毎の特徴量と比較することによって音韻の判別を行う。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声認識装置と音声認識方法とコンピュータ・プログラムおよびコマンド認識装置に関する。詳しくは、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出して、この抽出した特徴量を用いて音韻判別や話者判別等を行うことで、音声認識やコマンド認識を簡単な構成で精度よく行えるようにするものである。
【背景技術】
【0002】
一般的な音声認識における信号処理では、音素の特徴を周波数領域でよく表すことができることから、周波数領域における特徴量を求めて、この特徴量に基づき音素の判別が行われている。例えば、スペクトル解析やMFCC(メルケプストラム解析)などの解析方法を用いて特徴量を求めることが行われている。このような解析方法では、畳みこみ演算を用いているため計算量が膨大となり、簡単に音素の判別を行うことができない。
【0003】
また、これらの解析手法の多くは波形をある程度の時間幅に区切って縮退し特徴量を求めているため、それらに含まれる個人性が埋没してしまう。例えば、音声データを周波数領域のデータに変換することで音声データが持つ位相情報などが失われるため、話者によって位相情報の違いが生じても、この位相情報の違いを利用することができない。
【0004】
したがって、このような音声認識装置を例えばリモートコントロール装置に採用して機器の遠隔制御を音声で行えるようにした場合、リモートコントロール装置は大規模になってしまう。そこで、特許文献1では、入力音声から抽出された特徴量のみを外部に送信し処理を行う方法が提案されている。また、音声認識における解析処理を容易に行えるようにするため、例えば特許文献2や特許文献3では、音声波形を時間軸上のデータとして処理する方法が提案されている。
【0005】
【特許文献1】特開2003−323189号公報
【特許文献2】特開2003−280682号公報
【特許文献3】特開2001−265379号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
ところで、特許文献1のように、特徴量のみを外部に送信して処理する場合、外部から処理結果が得られるまでリモートコントロール信号を送信できない。したがって、ユーザがコマンドを発声してから機器に対してリモートコントロール信号が送信されるまでに時間を要してしまう。このため、ユーザ操作に対する機器のレスポンスが遅くなってしまう。
【0007】
また、特許文献2や特許文献3では、音声波形を時間軸上で処理する場合、音声波形の振幅の大きさや波形形状を特徴として処理が行われている。しかし、同じ音韻を発声しても話者の違いによって音声波形は異なるため、音声認識精度の低下を招いて、ユーザが発声したコマンドを正しく判別できないおそれがある。
【0008】
そこで、この発明では容易に音声認識を行うことができる音声認識装置と音声認識方法とコンピュータ・プログラムおよびコマンド認識装置を提供するものである。
【課題を解決するための手段】
【0009】
この発明の概念は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出して、この抽出した特徴量を予め記憶されている特徴量と比較することによって音韻や話者の判別を行うことにある。さらに、入力音声の波形形状から抽出した特徴量に基づいて得られた一方の判別結果を利用することで、この特徴量を用いて行う他方の判別処理の精度を向上させることにある。例えば抽出した特徴量に基づいて得られた音韻判別結果を用いることで、この特徴量を用いて行う話者判別を精度よく容易に行えるようにしたり、抽出した特徴量に基づいて得られた話者判別結果を用いることで、この特徴量を用いて行う音韻判別を精度よく容易に行えるようにするものでもある。
【0010】
この発明の音声認識装置は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、特徴量から音韻を判別する音韻判別部と、音韻毎の特徴量を不特定話者と話者毎に記憶した音韻判別データベースと、入力音声の話者判別を行う話者判別部とを備え、音韻判別部は、話者判別部によって話者が判別されるまで、特徴量抽出部で抽出した特徴量を、音韻判別データベースに記憶されている不特定話者の音韻毎の特徴量と比較することによって音韻の判別を行い、話者判別部によって話者が判別されたとき、特徴量抽出部で抽出された特徴量を、音韻判別データベースに記憶されている判別された話者の音韻毎の特徴量と比較することによって音韻の判別を行うものである。
【0011】
また、音声認識装置は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、特徴量抽出部で抽出した特徴量を、予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別部と、話者毎の音韻の特徴量を音韻毎に記憶した話者判別データベースと、特徴量抽出部で得られた特徴量を、音韻判別部で判別された音韻と等しい話者判別データベースに記憶されている話者毎の特徴量と比較することによって、入力音声の話者を判別する話者判別部を備えるものである。
【0012】
さらに、この発明に係るコマンド認識装置は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、特徴量抽出部で抽出した特徴量を、予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別部と、特徴量抽出部で得られた特徴量を、音韻判別部で判別された音韻の予め記憶されている話者毎の特徴量と比較することによって、入力音声の話者を判別する話者判別部と、話者判別部で判別された話者に対応して予め記憶されているコマンドから、音韻判別部で判別された音韻を用いて順次コマンドの絞り込みを行ことで入力音声が示すコマンドを判別するコマンド判別部とを備えるものである。
【0013】
この発明では、入力音声の波形形状の特徴として、波形形状を推定可能とする情報例えばゼロクロス点やピーク点および微分値等が抽出される。また、抽出した特徴の関係性として例えばゼロクロス点に対しては、ゼロクロス間の時間間隔、ゼロクロス間の時間関係性等が抽出される。また、ピーク点に対して、ゼロクロス間ピーク出現位置やピーク値関係性等が抽出される。さらに、音韻判別データベースや話者判別データベースには、話者の音韻毎の入力音声を特徴量抽出部に供給することで、この特徴量抽出部によって抽出された特徴量が予め記憶される。
【0014】
音韻判別部では、特徴量抽出部で抽出した特徴量を、予め記憶されている不特定話者の音韻毎の特徴量と比較することによって音韻の判別が行われる。話者判別部では、特徴量抽出部で抽出した特徴量を、音韻判別部で不特定話者の音韻毎の特徴量を用いて判別された音韻と等しい話者判別データベースに記憶されている話者毎の特徴量と比較することによって、入力音声の話者の判別が行われる。ここで、話者判別部によって話者が判別されると、音韻判別部では、特徴量抽出部で抽出した特徴量を、判別された話者の音韻毎の特徴量と比較することによって音韻の判別が行われる。また、特徴量抽出部では、音韻の判別に用いる特徴量のみが抽出される。
【発明の効果】
【0015】
この発明によれば、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出して、この抽出した特徴量を予め記憶されている特徴量と比較することによって音韻や話者の判別が行われる。さらに、入力音声の波形形状から抽出した特徴量に基づいて得られた判別結果を利用して、この特徴量を用いた他の判別処理が行われる。
【0016】
したがって、周波数変換を行う場合のように膨大な計算を必要としないので簡単な構成で容易に音韻判別や話者判別を行うことができる。また、高速に音韻判別や話者判別を行うことができる。
【発明を実施するための最良の形態】
【0017】
以下、図を参照しながら、この発明の実施の一形態について説明する。図1は、この発明の音声認識装置をリモートコントロール装置に適用した場合の構成を示している。リモートコントロール装置10は、音声入力部20、音声認識部30、コマンド判別部40、コマンド送信部50を用いて構成されている。
【0018】
音声入力部20は、マイクロフォンやA/D変換部等を用いて構成されており、話者の入力音声、例えば話者が発声したコマンドの音声を音声データDSに変換して音声認識部30に供給する。音声認識部30は、音声入力部20から供給された音声データDSを用いて音韻判別や話者判別を行い、判別した音韻を示す音韻情報DPと判別した話者を示す話者情報DKをコマンド判別部40に供給する。コマンド判別部40は音声認識部30から供給された音韻情報DPと話者情報DKに基づき話者の発声したコマンドを判別して、判別したコマンドを示すコマンド信号SCMをコマンド送信部50に供給する。コマンド送信部50は、コマンド信号SCMを無線信号SRとして送信する。
【0019】
音声認識部30は、入力音声の波形形状の特徴と、この特徴の関係性を特徴量として抽出する。また、音声認識部30は、抽出した特徴量を用いることによって音韻判別や話者判別を行い、判別結果である音韻情報DPと話者情報DKをコマンド判別部40に供給する。さらに音声認識部30は、判別結果を利用することで、特徴量を用いて行う他方の判別処理の精度を向上させる。
【0020】
図2は、波形形状の類似性と要因について定性的な評価結果をまとめたものである。発声のメカニズムは、肺などの呼吸器系の器官から押し出された空気が声帯を振動させ、舌、顎、歯、口腔、軟口蓋などの調音器官によって変調されて音韻が生成される。これらの調音器官のおおまかな位置関係は、身体特徴として決まっており容易に変更することはできない。人間は、これらの調音器官を可動範囲内で動かすことを経験的に学習し、呼気量と調音器官の位置関係を無意識的に調整することによって目的の音韻を発声している。そのため、同一話者の同一音韻の波形形状を比較した場合、ピッチやボリューム、その他の身体的要因、外的要因が同程度であれば波形形状は非常に類似したものとなる。また、同一話者でピッチやボリューム、その他の身体的、外的要因が同程度であれば、異なる音韻であるときは波形形状が全く異なるものとなる。
【0021】
また、他者の同一音韻と比較した場合、音韻やピッチやボリューム、その他の身体的要因、外的要因が同程度であるとき、大局的な視点でみれば波形形状は似ているが局所的に見ると大きく異なる部分が生じている。したがって、波形形状は、同一話者の場合よりも類似性は低くなるものの類似したものとなる。また、ピッチやボリューム、その他の身体的、外的要因が異なる場合でも、音韻がほぼ同一であれば類似性は更に低くなるものの、音韻が異なる場合よりも類似性は高いものとなる。
【0022】
なお、図2では、波形形状類似性が最も高い場合を「◎」、次に高い場合を「○」、次に高い場合を「△」、最も低い場合を「×」として示している。また、音韻等がほぼ同一の場合を「●」で示している。
【0023】
ピッチやボリュームの変化は、一般的に対人会話などにおける感情の起伏や体調変化などに依存する口調の変化によって現れると考えられており、機器などに対してコマンドを発声する際などは感情の変化があまり伴わないことから、波形形状の分散は小さくなる。
【0024】
以上より、感情の変化があまり伴わないコマンド等が発声されたときに入力音声の波形形状の分散が小さくなることを利用して、音声認識部30は、時間軸上での波形変動を個人の特徴として捉え、入力音声の波形形状の特徴やこの特徴の関係性を特徴量として用いることで音韻判別や話者判別を行う。
【0025】
図3は、音声認識部の構成を示している。音声認識部30の特徴量抽出部31は、音声データDSから入力音声の波形形状の特徴と、この特徴の関係性を特徴量CHSとして抽出して、音韻判別部34と話者判別部37に供給する。
【0026】
図4は、波形形状の特徴を示す特徴量を示している。特徴量抽出部31は、入力音声の波形形状の特徴として、例えば波形のゼロクロス点、ピーク点、微分値を抽出して特徴量とする。
【0027】
図4の(A)はゼロクロス点を示している。ゼロクロス点は、無音状態での波形振幅の振幅レベルを「0」としたとき、話者がコマンドを発声したときに波形の振幅レベルが「0」となる位置である。図4の(B)はピーク点を示している。ピーク点は、ゼロクロス点間における波形の最大(最小)値となる位置である。図4の(C)は微分値を示している。微分値は、入力音声の波形の傾斜を示す値として用いる。なお、特徴量は、波形のゼロクロス点、ピーク点、微分値に限られるものではない。特徴量抽出部31は、例えば微分値のゼロクロス点やピーク点、2階微分値などを波形形状の特徴を示す特徴量として抽出するものとしてもよい。また、特徴量抽出部31は、同一話者の特定音韻の波形サンプルから形状の平均値と分散を求め、それらの値を特徴量として用いるものとしてもよい。
【0028】
さらに、特徴量抽出部31は、抽出した特徴の関係性を特徴量として抽出する。例えばゼロクロス点に対して、ゼロクロス間の時間間隔、ゼロクロス間の時間関係性等を抽出する。またピーク点に対して、ゼロクロス間ピーク出現位置やピーク値関係性等を抽出する。さらに微分値に対して、微分値ゼロクロス出現回数やピーク形状等を特徴量として抽出する。
【0029】
図5は、特徴量抽出部31が抽出する特徴量を例示している。なお、図5の(A)は入力音声の波形形状、図5の(B)は波形形状の特徴を示す特徴量、図5の(C)は特徴の関係性を示す特徴量である。
【0030】
特徴量抽出部31は、音声データDSが入力されて振幅レベルが「0」から変化したとき音声の開始として、このときの特徴量を抽出する。このため、図5の(B)に示すように、最初の特徴量としてゼロクロス点が抽出される。すなわち、最初の特徴量はゼロクロスで、時間「0(=t0)」,記号「Zo」とする。次に、音声データDSがピーク値となると、特徴量抽出部31はピーク点を特徴量として抽出する。すなわち2番目の特徴量は、ピーク(+)で、時間「10(=t1)」,値「20000(=v1)」,記号「PP0」とする。なお、時間は音声の開始からの経過時間、値は振幅レベルを示すものであるが、図5の(B)に示す数字は例示的なものであり、特定の時間単位や電圧単位の値を示すものではない。その後、音声データDSがゼロクロスとなると、特徴量抽出部31はゼロクロス点を特徴量として抽出する。すなわち3番目の特徴量は、ゼロクロスで時間「t2」記号「Z1」とする。以下同様に、ゼロクロス点やピーク点を示す特徴量を抽出する。なお、図示せずも、音声データDSの微分値からゼロクロス点やピーク点を示す特徴量を抽出するものとしてもよい。
【0031】
特徴量抽出部31は、入力音声の波形形状の特徴だけでなく、抽出した特徴の関係性を特徴量として抽出する。特徴量抽出部31は、特徴の関係性として図5の(C)に示すように、ゼロクロス間の時間間隔、ゼロクロス間ピーク出現位置、ゼロクロス間の時間関係性、ピーク値関係性、微分値ゼロクロス出現回数、ピーク形状検出等を取得する。
【0032】
ゼロクロス間の時間間隔は、ゼロクロス点から次のゼロクロス点までの時間を示すものである。具体的には、ゼロクロス「Zn+1(t)」の時間から直前のゼロクロス「Zn(t)」の時間を減算した値である。
【0033】
ゼロクロス間ピーク出現位置は、ゼロクロス点と次のゼロクロス点との間に生じたピーク点が、2つのゼロクロス点の何れに近づいているかを示すフラグである。例えば、ゼロクロス「Zn」の時間を「Zn(t)」、ゼロクロス「Zn+1」の時間を「Zn+1(t)」としたとき、ゼロクロス「Zn」とゼロクロス「Zn+1」の中間位置の時間「(Zn+1(t)−Zn(t))/2+Zn(t)」に対して、ゼロクロス「Zn」とゼロクロス「Zn+1」との間に位置するピークの時間P(t)が中間位置よりも速い時間であるか否かを示すものとする。
【0034】
ゼロクロス間の時間関係性は、ゼロクロス点から次のゼロクロス点までの時間間隔の変化を示すフラグである。例えば、ゼロクロス「Zn+2」の時間を「Zn+2(t)」としたとき、ゼロクロス「Zn」からゼロクロス「Zn+1」までの時間間隔「Zn+1(t)−Zn(t)」に対して、次の時間間隔すなわちゼロクロス「Zn+1」からゼロクロス「Zn+2」までの時間間隔「Zn+2(t)−Zn+1(t)」が長くなっているか否かを示すものとする。
【0035】
ピーク値関係性は、正側および/または負側におけるピーク値の変化やピーク値の絶対値の変化を示すフラグである。例えば、ピーク値関係性1は、正側のピーク「PPn」の信号レベルを「PPn(v)」、次の正側のピーク「PPn+1」の信号レベルを「PPn+1(v)」としたとき、信号レベル「PPn+1(v)」が信号レベル「PPn(v)」よりも増加しているか否かを示すものとする。また、ピーク値関係性2は、正側のピーク「PPn」の次に生じた負側のピーク「MPn」の信号レベルを「MPn(v)」としたとき、信号レベル「MPn(v)」の絶対値が信号レベル「PPn(v)」の絶対値よりも増加しているか否かを示すものとする。
【0036】
微分値ゼロクロス出現回数は、ゼロクロス点から次のゼロクロス点となるまでの期間中に微分値が「0」となった回数を示すものである。例えば、時間「Zn(t)」から時間「(Zn+1(t)」までの期間中において、微分値のゼロクロスZ'nを検出する毎にカウント値「NUM」をカウントアップして、ゼロクロス間において微分値が「0」となった回数をカウント値「NUM」で示すものとする。
【0037】
特徴量抽出部31は、上述の特徴量を音声認識部30行う判別処理に応じて選択的に抽出する。例えば、特徴量抽出部31は、発声開始直後等のように話者が特定されていない場合、不特定話者を想定した音韻判別と話者判別の両方を行うために必要十分な特徴量を抽出する。また、特徴量抽出部31は、話者判別によって話者が判別されたときには、判別された話者を想定した音韻判別で必要な特徴量のみを抽出する。すなわち、話者判別が不要であり、話者も判別されていることから、特徴量抽出部31は抽出する特徴量を削減する。具体的には、後述する抽出特徴量設定部38から供給された設定信号CTSに基づき特徴量を選択的に抽出して、抽出した特徴量CHSを音韻判別部34と話者判別部37に供給する。
【0038】
音韻判別データベース32は、音韻判別に用いる特徴量を記憶したデータベースである。音韻判別データベース32は、不特定話者を想定して各音韻の判別を行うための特徴量を記憶した一般音韻データベース32-0と、話者毎に各音韻の判別を行うための話者別音韻データベース32-1〜32-nで構成されている。
【0039】
一般音韻データベース32-0は、複数の不特定話者の入力音声から抽出した特徴量を統計モデルによって音韻毎に一般化して、各音韻の特徴量を記憶したものである。一般音韻データベース32-0は、特徴の関係性を示す特徴量として、例えば周期毎のゼロクロス間の時間関係性やピーク値の関係性等を記憶する。
【0040】
話者別音韻データベース32-1は、特定の話者例えば話者SK1の入力音声から抽出した音韻毎の特徴量を音韻判別に用いる特徴量として記憶したものである。同様に、話者別音韻データベース32-2〜32-nは、例えば話者SK2〜SKnの入力音声から抽出した音韻毎の特徴量を音韻判別に用いる特徴量として記憶したものである。話者別音韻データベース32-1〜32-nは、特徴の関係性を示す特徴量として、例えばゼロクロス間ピーク出現位置や微分値ゼロクロス出現回数等を記憶する。なお、話者別音韻データベース32-1〜32-nには、話者に係らず等しい項目の特徴量を記憶するものとしてもよく、話者毎に異なる項目の特徴量を記憶するものとしてもよい。
【0041】
セレクタ33は、後述する話者判別部37からの話者指定信号CTAに基づき、音韻判別データベース32のいずれかのデータベースを選択して、選択したデータベースの特徴量CHPを音韻判別部34に供給する。
【0042】
音韻判別部34は、特徴量抽出部31で抽出された特徴量CHSとセレクタ33で選択されたデータベースの各音韻の特徴量CHPを比較して、最も特徴量が近似する音韻を判別する。また、音韻判別部34は、判別した音韻を示す音韻情報DPをセレクタ36とコマンド判別部40に供給する。
【0043】
話者判別データベース35は、話者判別に用いる特徴量を記憶したデータベースである。話者判別データベース35は、話者毎の音韻の特徴量を音韻毎に記憶した音韻別話者データベース35-1〜35-qで構成されている。
【0044】
音韻別話者データベース35-1は、話者が例えば音韻「a」を発声したとき、この入力音声から抽出した特徴量を話者毎に記憶したものである。同様に、音韻別話者データベース35-2〜35-qは、話者が同じ音韻を発声したとき、この入力音声から抽出した特徴量を話者毎に記憶したものであり、音韻別話者データベース35-1〜35-qは、音韻が異なるものとされている。この音韻別話者データベース35-1〜35-qは、特徴の関係性を示す特徴量として、例えばゼロクロス間ピーク出現位置や微分値ゼロクロス出現回数等を記憶する。なお、音韻別話者データベース35-1〜35-qには、音韻に係らず等しい項目の特徴量を記憶するものとしてもよく、音韻毎に異なる項目の特徴量を記憶するものとしてもよい。
【0045】
ここで、特徴量は例えば学習動作を行って音韻判別データベース32と話者判別データベース35に記憶させる。例えば、リモートコントロール装置10に学習モードを設ける。学習モードでは、発声する音韻をユーザに指示して、この指示に対してユーザが発声した入力音声の波形形状から特徴量CHSを抽出する。さらに、音韻を発声したユーザを話者として、抽出した特徴量CHSを話者と関係付けて、音韻判別データベース32と話者判別データベース35に記憶させる。
【0046】
このような処理を行うものとすると、音韻判別データベース32には、音韻を発声したユーザの入力音声の波形形状から抽出した音韻毎の特徴量が話者別音韻判別データベースとして記憶されることになる。また、話者判別データベース35の各音韻別話者データベースには、音韻を発声したユーザの入力音声の波形形状から抽出した特徴量が、対応する音韻の音韻別話者データベースに記憶されることになる。
【0047】
さらに、このような処理をユーザ毎に行うものとすれば、ユーザ毎の特徴量を音韻判別データベース32と話者判別データベース35に記憶させることができる。なお、音韻判別データベース32の一般音韻データベース32-0は、学習によらず予め記憶させておくものとしてもよく、学習を行ったユーザの特徴量を統計処理して、この処理結果を用いて一般音韻データベースの生成や更新を行うものとしてもよい。例えば、兄弟で声が似ているような場合、学習を行ったユーザの特徴量に応じて一般音韻データベースを更新すれば、学習を行っていない他の兄弟における音韻判別精度を向上させることが可能となる。
【0048】
セレクタ36は、音韻判別部34からの音韻情報DPに基づき、音韻判別部34で判別された音韻に対応する音韻別話者データベースを選択して、選択した音韻別話者データベースの特徴量CHKを話者判別部37に供給する。
【0049】
話者判別部37は、特徴量抽出部31で抽出された特徴量CHSとセレクタ36で選択された音韻別話者データベースの特徴量CHKを用いて、話者毎の局所的な特徴の差異を音韻毎に比較することで話者を判別する。ここで、話者を判別できたとき、話者判別部37は、判別した話者と対応する話者別音韻データベースがセレクタ33で選択されるように、話者指定信号CTAを生成してセレクタ33に供給する。また、話者判別部37は、判別した話者を示す話者情報DKを抽出特徴量設定部38とコマンド判別部40に供給する。話者判別部37は、話者を判別できないとき、および音韻判別部34で判別された音韻に対応する音韻別話者データベースの選択がまだセレクタ36で行われていないとき、一般音韻データベースがセレクタ33で選択されるように、話者指定信号CTAを生成してセレクタ33に供給する。
【0050】
抽出特徴量設定部38は、話者情報DKに基づき設定信号CTSを生成して特徴量抽出部31に供給する。すなわち、抽出特徴量設定部38は、話者判別部37から話者情報DKが供給されたことにより、話者を判別したとき、判別された話者の音韻判別に必要な特徴量のみを特徴量抽出部31で抽出するように設定信号CTSによって特徴量抽出部31の特徴量抽出動作を制御する。また、抽出特徴量設定部38は、話者判別部37で話者が判別されていないとき、すなわち話者情報DKが供給されていないとき、不特定話者を想定した音韻判別と話者判別の両方を行うために必要十分な特徴量を特徴量抽出部31で抽出するように設定信号CTSによって特徴量抽出部31の特徴量抽出動作を制御する。
【0051】
このように、話者判別結果に応じて特徴量抽出部31で抽出する特徴量を変更すれば、特定話者の音韻判別に適した特徴量の抽出のみが行われることから音韻判別を高速かつ効率よく行うことができる。
【0052】
図1に示すコマンド判別部40は、音声認識部30の音韻判別部34で判別された音韻を示す音韻情報DPと話者判別部37で判別された話者を示す話者情報DKを用いてコマンドの判別を行う。さらに、コマンド判別部40は、判別したコマンドに対応するコマンド信号SCMを生成してコマンド送信部50に供給する。コマンド送信部50は、コマンド判別部40から供給されたコマンド信号SCMを無線信号SR例えば電波や赤外線信号として送信する。
【0053】
ここで、コマンド判別部40で音韻情報DPに基づいてのみコマンドの判別を行うものとすると、音韻が正しく認識されればいずれの話者であってもコマンド送信部50からコマンドが無線信号として送信される。しかし、コマンドによっては、利用できるユーザを制限できることが好ましい場合もある。例えば機器の種々の設定や録画予約変更等のコマンドをすべてのユーザが利用可能とすると、他人によって機器の設定が変更されてしまったり、予約設定が解除されてしまうおそれが生じてしまう。
【0054】
そこで、コマンド判別部40は、音韻情報DPと話者情報DKに基づいてコマンド判別を行い、予め話者毎に設定されている1あるいは複数のコマンドで構成されたコマンドデータベースから、話者情報DKで示された話者に対応するコマンドデータベースを用いて、このコマンドデータベースから音韻情報DPに基づきコマンドの絞り込みを行う。
【0055】
図6は、コマンド判別部40の構成を示している。コマンド判別部40は、コマンドデータベース41、データベース選択部42、セレクタ43、判別処理部44を用いて構成されている。
【0056】
コマンドデータベース41には、一般コマンドデータベース41-0と話者別コマンドデータベース41-1〜41-nが設けられている。
【0057】
一般コマンドデータベース41-0は、不特定話者が選択可能な1または複数のコマンドを記憶したものである。また、話者別コマンドデータベース41-1は、話者SK1が選択可能な1または複数のコマンドを記憶したものである。同様に、話者別コマンドデータベース41-2〜41-nは、話者SK2〜SKnが選択可能な1または複数のコマンドを記憶したものである。
【0058】
データベース選択部42は、音声認識部30から供給された話者情報DKに基づき、コマンドデータベース41から話者情報DKで示された話者に対応する話者別コマンドデータベースを選択させる話者指定信号CTBを生成してセレクタ43に供給する。また、データベース選択部42は、話者が判別されていないとき、および話者情報で示された話者に対応するコマンドを記憶しているデータベースがコマンドデータベース41に設けられていないとき、不特定話者コマンドデータベースを選択するように話者指定信号CTBを生成してセレクタ43に供給する。
【0059】
セレクタ43は、データベース選択部42からの話者指定信号CTBに基づき、コマンドデータベース41から話者情報DKで示された話者に対応する話者別コマンドデータベースを選択して、判別処理部44に供給する。
【0060】
判別処理部44は、セレクタ43で選択された話者別コマンドデータベースに登録されているコマンドの絞り込みを、音声認識部30から供給された音韻情報DPに基づいて行う。さらに、判別処理部44は、決定したコマンドのコマンド信号SCMを生成してコマンド送信部50に供給する。この判別処理部44は、コマンドの絞り込み手法として、ツリー構造(階層構造)のような選択的な手法を用いる。また判別処理部44は、マッチング精度による重み付け処理を用いた手法、HMM(Hidden Markov Model)やニューラルネットワークなどの確率処理などを用いてもよい。
【0061】
次に、図7のフローチャートを用いて音声認識部の動作について説明する。ステップST1で音声認識部30は、音声入力を行う。音声認識部30は、音声入力部20から音声データDSを取得してステップST2に進む。
【0062】
ステップST2で音声認識部30は、話者の判別が完了しているか否かを判別する。ここで、音声認識部30は、話者が判別されていないときステップST3に進み、話者が判別されているときはステップST10に進む。
【0063】
ステップST3で音声認識部30は、不特定話者特徴量抽出を行う。音声認識部30は、話者が判別されていないことから、音韻判別と話者判別を行うことができるように特徴量を抽出する。ここで、音声認識部30の抽出特徴量設定部38は、話者が判別されていないとき、一般的な音韻判別と話者判別の両方を行うために必要十分な特徴量を抽出するように設定信号CTSによって特徴量抽出部31の特徴量抽出動作を制御する。また、特徴量抽出部31は、設定信号CTSに基づいて特徴量CHSの抽出を行う。例えば、特徴量抽出部31は、図5の(B)および図5の(C)に示す特徴量を抽出してステップST4に進む。
【0064】
ステップST4で音声認識部30は音韻判別を行う。音声認識部30の音韻判別部34は、話者が判別されていないことから、特徴量抽出部31で抽出された特徴量と一般音韻データベースに記憶されている各音韻の特徴量を比較して、最も特徴量が近似する音韻を判別してステップST5に進む。
【0065】
図8は、不特定話者の音韻判別に用いられる特徴量を例示したものである。図8の(A)は波形形状の特徴を示す特徴量、図8の(B)は抽出した特徴の関係性を示す特徴量である。音韻判別部34は、不特定話者の音韻判別を行う場合、図8の(B)において破線で囲まれた特徴量、すなわちゼロクロス間の時間関係性とピーク値関係性1を用いて音韻判別を行う。なお、不特定話者の音韻判別に用いられる特徴量は、破線で囲まれた特徴量に限定されるものではなく、音韻判別の精度を高めるために他の特徴量を用いるものとしてもよい。
【0066】
ステップST5で音声認識部30は音韻情報出力を行う。音声認識部30の音韻判別部34は、判別した音韻を示す音韻情報DPをコマンド判別部40に出力してステップST6に進む。
【0067】
ステップST6で音声認識部30は話者判別を行う。音声認識部30の話者判別部37は、特徴量抽出部31で抽出された特徴量とステップST4で判別した音韻に対応する音韻別話者データベースに記憶されている話者毎の特徴量を比較して、局所的な特徴の差異が少なく同一話者と判別可能な話者を特定してステップST7に進む。
【0068】
図9は、話者判別に用いられる特徴量を例示したものである。図9の(A)は波形形状の特徴を示す特徴量、図9の(B)は抽出した特徴の関係性を示す特徴量である。話者判別部37は、話者判別を行う場合、図9の(B)において破線で囲まれた特徴量、すなわちゼロクロス間ピーク出現位置、ゼロクロス間の時間関係性、ピーク値関係性1,2、微分値ゼロクロス出現回数、ピーク形状検出等を用いて話者判別を行う。なお、話者判別に用いられる特徴量は、破線で囲まれた特徴量に限定されるものではなく、話者判別の精度を高めるために他の特徴量を用いるものとしてもよい。
【0069】
ステップST7で音声認識部30は話者情報出力を行う。音声認識部30の話者判別部37は、判別した話者を示す話者情報DKをコマンド判別部40に出力してステップST8に進む。
【0070】
ステップST8で音声認識部30は、抽出特徴量の切り換えを行う。話者が判別されている場合、音声認識部30の特徴量抽出部31では、話者判別のために必要な特徴量を抽出する必要がない。したがって、音声認識部30の抽出特徴量設定部38は、話者が判別されたとき、判別された話者の音韻判別に必要な特徴量のみを特徴量抽出部31で抽出するように設定信号CTSによって特徴量抽出部31の特徴量抽出動作を制御してステップST9に進む。
【0071】
図10は、話者が判別されているときに抽出する特徴量を例示したものである。図10の(A)は波形形状の特徴を示す特徴量、図10の(B)は抽出した特徴の関係性を示す特徴量である。抽出特徴量設定部38は、図10の(B)において斜線の領域の特徴量を除いた特徴量、すなわちゼロクロス間のピーク出現位置、ゼロクロス間の時間関係性、微分値ゼロクロス出現回数等の特徴量のみを抽出するように抽出制御信号を生成する。
【0072】
ステップST9で音声認識部30は、音韻データベースの切り換えを行う。音声認識部30の話者判別部37は、音韻判別部34において、特徴量抽出部31で抽出された特徴量と、判別した話者に対応する話者別音韻データベースに記憶されている各音韻の特徴量とを比較して音韻判別を行うように、音韻データベースの切り換えを行ってステップST13に進む。
【0073】
ステップST2で話者の判別が完了していると判別されてステップST10に進むと、音声認識部30は、特定話者特徴量抽出を行う。音声認識部30は、話者が判別されていることから、判別された話者の音韻判別に必要な特徴量のみを抽出してステップST11に進む。
【0074】
ステップST11で音声認識部30は音韻判別を行う。音声認識部30の音韻判別部34は、特徴量抽出部31で抽出された特徴量と、判別されている話者に応じた話者別音韻データベースに記憶されている各音韻の特徴量を比較して、最も特徴量が近似する音韻を判別してステップST12に進む。
【0075】
ステップST12で音声認識部30は音韻情報の出力を行ってステップST13に進む。音声認識部30は、音韻判別部34で判別された音韻を示す音韻情報DPをコマンド判別部40に出力する。なお、話者を示す話者情報DKは、話者判別を行ったとき、あるいは予め話者が決定されている場合には動作開始時に出力すればよく、音韻情報と共に話者情報を常にコマンド判別部40に出力する必要はない。
【0076】
ステップST13で音声認識部30は、音声入力が終了したか否か判別して、音声入力が終了していないときはステップST2に戻り、音声入力が終了したと判別したときは、音声認識を終了する。音声認識部30は、例えば特徴量抽出部31で音声データDSのレベル変化を検出して、レベル変化が所定値よりも所定期間以上継続したとき、音声入力の終了と判別する。
【0077】
このように、音声認識部30では、入力音声の波形形状の特徴と、この特徴の関係性を特徴量として抽出して、抽出した特徴量と判別された話者の音韻毎の特徴量とを比較して音韻の判別が行われる。このため、スペクトル解析やMFCCなど複雑な処理を行う必要がなく、容易に音声認識を行うができる。
【0078】
また、音声認識部30では、話者に対応した音韻データベースが選択されて、判別された話者の音韻毎の特徴量と用いた音韻判別が行われるので、不特定話者に対応した音韻データベースを用いる場合に比べて音韻判別の判別精度を向上させることができる。
【0079】
さらに、音韻判別と話者判別では、ともに入力音声の波形形状から抽出した特徴量に基づいて判別を行うものであることから、音韻判別に用いる情報や話者判別に用いる情報をそれぞれ個別に生成する必要がない。したがって、音声認識部30の構成を簡単とすることができる。
【0080】
図11は、特徴量空間を示している。なお、図11の(A)は、不特定話者についての例えば音韻「a」と音韻「o」の特徴量空間、図11の(B)は、話者Aについての例えば音韻「a」と音韻「o」の特徴量空間をそれぞれ示している。
【0081】
不特定話者については、音韻に対する特徴量空間が図11の(A)のように広く、話者が特定されていると、音韻に対する特徴量空間が図11の(B)のように、不特定話者に比べて狭いものとなり、音韻「a」の特徴量空間と音韻「o」の特徴量空間が分離されたものとなる。
【0082】
ここで、話者が特定されていない場合、図11の(A)に示すように、音韻「a」の特徴量空間と音韻「o」の特徴量空間が重なりを生じていると、音韻の誤判定を招きやすい。例えば音韻「a」の音声波形形状から抽出した特徴量が音韻「o」の特徴量と類似していると判定されて音韻「o」と認識されたり、音韻「o」の音声波形形状から抽出した特徴量が音韻「a」の特徴量と類似していると判定されて音韻「a」と認識されてしまう場合がある。
【0083】
また、話者Aが特定された場合、話者Aに対応した音韻データベースを用いるものとすれば、例えば音韻「a」の音声波形形状から抽出した特徴量が音韻「o」の特徴量と類似していると判定されたり、音韻「o」の音声波形形状から抽出した特徴量が音韻「a」の特徴量と類似していると判定されてしまうことを防止することが可能となり、音韻判別の判別精度を向上させることができる。
【0084】
さらに、音声認識部30では、話者が判別されたとき、話者判別に用いられる特徴量の抽出が終了されて、音韻判別に用いられる特徴量のみの抽出が行われる。したがって、不必要な特徴量が抽出されることがなく、音声認識を効率よく行うことができる。
【0085】
次に、音声認識部30で得られた音韻情報と話者情報を用いてコマンドの判別を行うコマンド判別部の動作について、図12のフローチャートを用いて説明する。
【0086】
ステップST21でコマンド判別部40は、情報入力を行う。コマンド判別部40は、音声認識部30から出力される音韻情報DPや話者情報DKを取得してステップST22に進む。
【0087】
ステップST22でコマンド判別部40は、話者に対応したコマンドデータベースの選択が可能であるか否かを判別する。コマンド判別部40のデータベース選択部42は、ステップST21で取得した情報に話者情報DKが含まれていない場合、あるいは話者情報DKで示された話者に対応したコマンドデータベースが設けられていない場合、話者に対応したコマンドデータベースの選択ができないことからステップST23に進む。また、コマンド判別部40のデータベース選択部42は、ステップST21で取得した話者情報DKで示された話者に対応したコマンドデータベースが設けられているときステップST24に進む。
【0088】
ステップST23でコマンド判別部40は、一般コマンドデータベースを選択してステップST25に進む。すなわち、コマンド判別部40のデータベース選択部42は、一般コマンドデータベースをセレクタ43で選択させて、選択した一般コマンドデータベースに記憶されているコマンドを判別処理部44に供給させる。
【0089】
ステップST24でコマンド判別部40は、話者別コマンドデータベースを選択してステップST25に進む。すなわち、コマンド判別部40のデータベース選択部42は、話者情報DKで示された話者に対応した話者別コマンドデータベースをセレクタ43で選択させて、選択された話者別コマンドデータベースに記憶されているコマンドを判別処理部44に供給させる。
【0090】
ステップST25でコマンド判別部40は、コマンドの絞り込みを行ってステップST26に進む。コマンド判別部40の判別処理部44は、データベース選択部42で選択されたコマンドデータベースのコマンドから、ステップST21で取得した音韻情報DPによって示された音韻と等しいコマンドを選択して、選択したコマンドをコマンド候補に設定してステップST26に進む。また、判別処理部44は、コマンド候補が既に選択されている場合、音韻情報DPによって示された音韻に基づいてコマンド候補の更新を行う。すなわち、判別処理部44は、コマンド候補を設定に用いた音韻の次の音韻と、音韻情報DPによって示された音韻が一致するコマンドをコマンド候補から選択して、選択したコマンド候補を新たなコマンド候補とする。さらに、コマンド判別部40は、コマンドの絞り込み中にコマンドデータベースが切り換えられたとき、コマンド候補の設定に用いた音韻と等しい音韻のコマンドを、新たなコマンドデータベースから選択してコマンド候補とする。
【0091】
ステップST26でコマンド判別部40は、コマンドが決定したか否かを判別する。コマンド判別部40の判別処理部44は、コマンド候補が1つのコマンドとなったとき、コマンドが決定したものとしてステップST27に進む。また、コマンド判別部40の判別処理部44は、コマンド候補が複数のコマンドであるときステップST22に戻り、コマンドの絞り込みを繰り返す。
【0092】
ステップST27でコマンド判別部40は、コマンド信号出力を行う。コマンド判別部40の判別処理部44は、コマンド候補が1つのコマンドであることから、このコマンドに対応したコマンド信号をコマンド送信部50に供給する。また、判別処理部44はコマンドが決定されたことから、コマンド候補の初期化を行い、コマンド候補が設定されていない状態とする。
【0093】
図13は、コマンド決定手順を例示した図である。なお、図13の(A)は入力音声の波形、図13の(B)は音声認識結果である音韻情報DPと話者情報DK、図13の(C)はコマンド候補、図13の(D)は、データベース選択部42で選択したコマンドデータベースを示している。また、図13では、ツリー構造(階層構造)の形でコマンドの絞り込みを行うものとする。
【0094】
ここで、例えば話者SK1が「dengen」と発声すると、音声認識部30は、音声認識を行い音韻「/d/」「/e/」「/n/」「/g/」「/e/」「/n/」を示す音韻情報DPを順次コマンド判別部40に供給する。また、音声認識部30は、話者判別を行い例えば最初の音韻「/d/」に基づき話者SK1を判別したとき、話者SK1を示す話者情報DKをコマンド判別部40に供給する。
【0095】
コマンド判別部40は、音声認識部30で音韻「/d/」が判別されたとき、話者が認識されていない状態であることから一般コマンドデータベース41-0を選択して、一般コマンドデータベースのコマンド群から、最初の音韻が音韻「/d/」であるコマンド群を選択してコマンド候補とする。
【0096】
次に、コマンド判別部40は、音声認識部30で話者SK1と音韻「/e/」が判別されたとき、コマンドデータベースを話者SK1に対応する話者別コマンドデータベース41-1に切り換える。また、コマンド判別部40は、コマンドデータベースの切り換えを行ったことから、最初の音韻が音韻「/d/」であり、次の音韻が音韻「/e/」であるコマンド群を、切り換え後の話者別コマンドデータベース41-1から選択してコマンド候補とする。すなわち、音韻「/d/」のコマンド群である階層から、次の音韻「/e/」のコマンド群の階層のコマンドを選択してコマンド候補とする。
【0097】
その後、コマンド判別部40は、音声認識部30からの音韻情報に基づきコマンドの絞り込みを行い、音韻「/d/」「/e/」「/n/」「/g/」で絞り込みを行ったときにコマンドが1つになったとき、コマンドが決定されたものとして1つのコマンド「dengen」に対応したコマンド信号をコマンド送信部50に供給する。すなわち、コマンド判別部40は、判別された音韻のコマンド群の階層から次に判別された音韻のコマンド群を選択して、この選択したコマンド群の階層から次に判別された音韻のコマンド群を選択する処理を繰り返すことで、ツリー構造(階層構造)の形でコマンドの絞り込みを行い、1つのコマンドに絞りこまれたとき、絞り込まれたコマンドに対応するコマンド信号をコマンド送信部50に供給する。
【0098】
このように、コマンド判別を行うものとすると、ユーザは、話者別コマンドデータベースに話者固有のコマンドを記憶させておくことで、ユーザ固有のコマンド信号をコマンド送信部50から送信させることができる。また、ユーザは、一般コマンドデータベースに記憶するコマンドを制限しておけば、不特定話者が種々のコマンドを発声したときに、所定のコマンド以外のコマンドが実行されてしまうことを防止できる。
【0099】
さらに、音声認識部30からの音韻情報DPに基づきコマンドの絞り込みが行われて、コマンド候補が1つのコマンドとなったときにコマンドに対応するコマンド信号がコマンド送信部50に供給されるので、コマンド判別部40は、コマンドに対応する音韻をすべて認識してからコマンド信号をコマンド送信部50に供給する場合に比べて、コマンド信号を速やかにコマンド送信部50に供給できる。すなわち、リモートコントロール装置10の応答性は、良好なものとなる。
【0100】
ところで、話者毎に送信可能なコマンドを設定できるようにする場合、話者判別結果を用いて音韻判別を行うものとすると、話者毎に話者別音韻データベースを設けておかなければならないことから記憶容量の大きなメモリが必要となる。そこで、少ない記憶容量でコマンド信号の送信を可能とする場合、音声認識は一般音韻データベース32-0のみを用いて行い、コマンド判別部40は話者判別結果と一般音韻データベース32-0を用いた音韻判別結果を用いてコマンド判別をものとしてもよい。
【0101】
図14は、音声認識部の他の構成として、少ない記憶容量でコマンド信号の送信を可能とする場合を示している。音声認識部30aでは、音韻判別データベース32aとして一般音韻データベース32-0のみを設けるものとして、音韻判別部34は、音韻判別データベース32aの音韻毎の特徴量と、抽出した特徴量CHSを比較して音韻情報DPを生成する。話者判別部37は、特徴量抽出部31で抽出された特徴量CHSとセレクタ36で選択された音韻別話者データベースの特徴量CHKを用いて話者の判別を行い、判別した話者を示す話者情報DKをコマンド判別部40に供給する。また、話者情報DKを抽出特徴量設定部38に供給することで、上述のように特徴量抽出部31の処理は軽減される。
【0102】
図15は、他の構成の音声認識部の動作を示すフローチャートである。ステップST31で音声認識部30は、音声入力を行う。音声認識部30は、音声入力部20から音声信号を取得してステップST32に進む。
【0103】
ステップST32で音声認識部30は、特徴量抽出を行う。音声認識部30は、話者が判別されていないことから、音韻判別と話者判別を行うことができるように特徴量を抽出する。ここで、音声認識部30の抽出特徴量設定部38は、話者が判別されていないとき、一般的な音韻判別と話者判別の両方を行うために必要十分な特徴量を抽出するように設定信号CTSによって特徴量抽出部31の特徴量抽出動作を制御する。また、特徴量抽出部31は、設定信号CTSに基づいて特徴量の抽出を行う。例えば、特徴量抽出部31は、図5の(B)および図5の(C)に示す特徴量を抽出してステップST33に進む。
【0104】
ステップST33で音声認識部30は音韻判別を行う。音声認識部30の音韻判別部34は、特徴量抽出部31で抽出された特徴量CHSと音韻判別データベース32aに記憶されている各音韻の特徴量を比較して、最も特徴量が近似する音韻を判別してステップST34に進む。
【0105】
ステップST34で音声認識部30は音韻情報出力を行う。音声認識部30は、音韻判別部34で判別された音韻を示す音韻情報DPをコマンド判別部40に出力してステップST35に進む。
【0106】
ステップST35で音声認識部30は、話者の判別が完了しているか否かを判別する。ここで、音声認識部30は、話者が判別されていないときステップST36に進み、話者が判別されているときはステップST39に進む。
【0107】
ステップST36で音声認識部30は話者判別を行う。音声認識部30の話者判別部37は、特徴量抽出部31で抽出された特徴量CHSとステップST33で判別した音韻に対応する音韻別話者データベースに記憶されている話者毎の特徴量CHKを比較して、局所的な特徴の差異が少なく同一話者と判別可能な話者を特定してステップST37に進む。
【0108】
ステップST37で音声認識部30は話者情報出力を行う。音声認識部30は、話者判別部37で判別された話者を示す話者情報DKをコマンド判別部40に出力してステップST38に進む。
【0109】
ステップST38で音声認識部30は、抽出特徴量の切り換えを行う。音声認識部30の抽出特徴量設定部38は、音韻判別に必要な特徴量のみを特徴量抽出部31で抽出するように設定信号CTSによって特徴量抽出部31の動作を制御してステップST39に進む。
【0110】
ステップST39で音声認識部30は、音声入力が終了したか否か判別して、音声入力が終了していないときはステップST32に戻り、音声入力が終了したと判別したときは、音声認識を終了する。音声認識部30は、例えば特徴量抽出部31で音声データDSのレベル変化を検出して、レベル変化が所定値よりも所定期間以上継続したとき、音声入力の終了と判別する。
【0111】
このように処理を行うものとすれば、少ない記憶容量でコマンド信号の送信を行うことができるようになる。また、音声認識部やリモートコントロール装置を安価に構成できる。
【0112】
さらに、上述の音声認識およびコマンド判別はソフトウェアで行うものとしてもよい。図16は、上述の処理をコンピュータ・プログラムにより実行する コンピュータの構成を示した図である。
【0113】
コンピュータ60のCPU(Central Processing Unit)61は、ROM(Read Only Memory)62またはRAM(Random Access Memory)63に記録されているコンピュータ・プログラムにしたがって各種の処理を実行する。また、RAM63には、データベースの情報などが適宜記憶される。これらのCPU61、ROM62、およびRAM63は、バス64により相互に接続されている。また、CPU61には、バス64を介して入出力インタフェース部65が接続されている。入出力インタフェース部65には、ユーザインタフェース部66、入力部67、出力部68等が接続されている。
【0114】
ユーザインタフェース部66は、操作キー等を用いて構成されており、ユーザ操作に応じた操作信号をCPU61に供給する。入力部67は音声入力部20からの音声データを入力するためのインタフェースである。出力部68は、コマンド信号をコマンド送信部50に供給するためのインタフェースである。
【0115】
なお、図示せずも、例えばリムーバブルメディア例えば着脱可能な半導体メモリ等からのデータの読み出しやデータの書き込みを行うドライブ部、外部機器と通信を行う通信部を設けるものとしてもよい。また、電波を用いてコマンド信号の送信を行う場合には、コマンド送信部50に受信機能を設けて通信を行えるようにしてもよい。このように、ドライブ部や通信部を設けるものとすれば、ドライブ部や通信部を介してコンピュータ・プログラムの取得や更新を容易に行うことができる。
【0116】
CPU61は、コンピュータ・プログラムを実行して、入力部67を介して供給された音声データから特徴量の抽出を行い、上述のように抽出した特徴量と記憶されているデータベースの特徴量を比較して、音韻判別や話者判別を行う。さらに、音韻判別や話者判別の判別結果からコマンドの判別を行い、判別したコマンドに対応するコマンド信号を出力部68からコマンド送信部50に供給させる。
【0117】
このようにして、上述した一連の処理をコンピュータ・プログラムにより実行すれば、音韻判別や話者判別および音韻判別と話者判別の判別結果に基づいたコマンドの判別を コンピュータで行うこともできる。
【0118】
なお、本発明の実施の形態は、音韻判別と話者判別の判別結果に基づいてコマンドの判別を行い、話者の入力音声によって機器の遠隔制御を行う場合に限られるものではない。例えば、機器本体に音声入力部や音声認識部およびコマンド判別を設けて、操作キー等を操作しなくとも音声で機器の動作の切り換え等を行えるようにしてもよい。さらに、音声で文字入力等を行う場合にも上述の音声認識部を用いるものとすれば、誤認識の少ない入力処理を実現することが可能となる。また、本発明の要旨を逸脱しない範囲において種々の変更も可能である。
【産業上の利用可能性】
【0119】
この発明は、入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出して、この抽出した特徴量を用いて音韻判別や話者判別を行うものである。このため、音声によって種々の処理や制御を行う電子機器、例えば音声で機器の遠隔操作を行うリモートコントロール装置等に好適である。
【図面の簡単な説明】
【0120】
【図1】リモートコントロール装置の構成を示す図である。
【図2】波形形状の類似性と要因について定性的な評価結果を示す図である。
【図3】音声認識部の構成を示す図である。
【図4】波形形状の特徴を示す特徴量を示す図である。
【図5】特徴量抽出部が抽出する特徴量を例示した図である。
【図6】コマンド判別部の構成を示す図である。
【図7】音声認識部の動作を示すフローチャートである。
【図8】不特定話者の音韻判別に用いられる特徴量を例示した図である。
【図9】話者判別に用いられる特徴量を例示した図である。
【図10】話者が判別されているときに抽出する特徴量を例示した図である。
【図11】特徴量空間を示す図である。
【図12】コマンド判別部の動作を示すフローチャートである。
【図13】コマンド決定手順を例示した図である。
【図14】音声認識部の構成を示す図である。
【図15】音声認識部の他の動作を示すフローチャートである。
【図16】コンピュータの構成を示す図である。
【符号の説明】
【0121】
10・・・リモートコントロール装置、20・・・音声入力部、30,30a・・・音声認識部、31・・・特徴量抽出部、3232a・・音韻判別データベース、32-0・・一般音韻データベース、32-1〜32-n・・・話者別音韻データベース、33,36,43・・・セレクタ、34・・・音韻判別部、35・・・話者判別データベース、35-1〜35-q・・・音韻別話者データベース、37・・・話者判別部、38・・・抽出特徴量設定部、40・・・コマンド判別部、41・・・コマンドデータベース、41-0・・・一般コマンドデータベース、41-1〜41-n・・・話者別コマンドデータベース、42・・・データベース選択部、44・・・判別処理部、50・・・コマンド送信部、60・・・コンピュータ、61・・・CPU、62・・・ROM,63・・・RAM、64・・・バス、65・・・入出力インタフェース部、66・・・ユーザインタフェース部、67・・・入力部、68・・・出力部

【特許請求の範囲】
【請求項1】
入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、
前記特徴量から音韻を判別する音韻判別部と、
音韻毎の特徴量を不特定話者と話者毎に記憶した音韻判別データベースと、
前記特徴量から前記入力音声の話者判別を行う話者判別部とを備え、
前記音韻判別部は、前記話者判別部によって話者が判別されるまで、前記特徴量抽出部で抽出した特徴量を、前記音韻判別データベースに記憶されている前記不特定話者の音韻毎の特徴量と比較することによって音韻の判別を行い、前記話者判別部によって話者が判別されたとき、前記特徴量抽出部で抽出された特徴量を、前記音韻判別データベースに記憶されている前記判別された話者の音韻毎の特徴量と比較することによって音韻の判別を行う音声認識装置。
【請求項2】
話者毎の音韻の特徴量を音韻毎に記憶した話者判別データベースを更に備え、
前記話者判別部は、前記特徴量抽出部で抽出した特徴量を、前記音韻判別部で前記不特定話者の音韻毎の特徴量を用いて判別された音韻と等しい前記話者判別データベースに記憶されている話者毎の特徴量と比較することによって、前記入力音声の話者を判別する請求項1記載の音声認識装置。
【請求項3】
前記特徴量抽出部で抽出する特徴量の設定を行う抽出特徴量設定部を更に備え、
前記抽出特徴量設定部は、前記話者判別部によって話者が判別されるまで、前記音韻と話者の判別に用いる特徴量を前記特徴量抽出部で抽出させるものとし、前記話者判別部によって話者が判別されたとき、前記音韻の判別に用いる特徴量を前記特徴量抽出部で抽出させる請求項2記載の音声認識装置。
【請求項4】
前記特徴量抽出部は、音声波形形状の特徴としてゼロクロス点とピーク点および微分値を抽出する請求項1記載の音声認識装置。
【請求項5】
前記データベースは、話者の音韻毎の入力音声を前記特徴量抽出部に供給することで該特徴量抽出部によって抽出された特徴量を記憶する請求項1記載の音声認識装置。
【請求項6】
入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、
前記特徴量抽出部で抽出した特徴量を、予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別部と、
話者毎の音韻の特徴量を音韻毎に記憶した話者判別データベースと、
前記特徴量抽出部で得られた特徴量を、前記音韻判別部で判別された音韻と等しい前記話者判別データベースに記憶されている話者毎の特徴量と比較することによって、前記入力音声の話者を判別する話者判別部を備える音声認識装置。
【請求項7】
入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出工程と、
前記入力音声の話者が判別されていないとき、前記抽出した特徴量を、予め記憶されている不特定話者の音韻毎の特徴量と比較することによって音韻の判別を行い、前記入力音声の話者が判別されているとき、前記抽出された特徴量を、前記判別された話者の予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別工程とを有する音声認識方法。
【請求項8】
コンピュータに、
入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出ステップと、
前記入力音声の話者が判別されていないとき、前記抽出した特徴量を、予め記憶されている不特定話者の音韻毎の特徴量と比較することによって音韻の判別を行い、前記入力音声の話者が判別されているとき、前記抽出された特徴量を、前記判別された話者の予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別ステップを実行させるコンピュータ・プログラム。
【請求項9】
入力音声の波形形状の特徴と該特徴の関係性を特徴量として抽出する特徴量抽出部と、
前記特徴量抽出部で抽出した特徴量を、予め記憶されている音韻毎の特徴量と比較することによって音韻の判別を行う音韻判別部と、
前記特徴量抽出部で得られた特徴量を、前記音韻判別部で判別された音韻の予め記憶されている話者毎の特徴量と比較することによって、前記入力音声の話者を判別する話者判別部と、
前記話者判別部で判別された話者に対応して予め記憶されているコマンドから、前記音韻判別部で判別された音韻を用いて順次コマンドの絞り込みを行ことで前記入力音声が示すコマンドを判別するコマンド判別部とを備えるコマンド認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2009−265567(P2009−265567A)
【公開日】平成21年11月12日(2009.11.12)
【国際特許分類】
【出願番号】特願2008−118339(P2008−118339)
【出願日】平成20年4月30日(2008.4.30)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】