説明

信号処理装置、信号処理方法および信号処理プログラム

【課題】入力信号の内容や雑音に頑健で特定のカテゴリー以外の入力信号の棄却が可能な信号処理装置等を提供すること
【解決手段】信号処理装置は、特定のカテゴリーに属する信号の特徴的性質を表現し複数の詳細度を持つモデル3から入力信号の特徴的性とモデルが最も近くなる特定詳細度を選択する詳細度判定部5と、特定詳細度が所定のしきい値よりも低いときは入力信号を特定のカテゴリーに類別することが不適切であると、そうでないときは適切であると判定する照合判定部6を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力信号が特定のカテゴリー、例えば音声、であるか否かを判定する技術に関し、特に、モデルの詳細度との関係から上記の判定を行う信号処理装置等に関する。
【背景技術】
【0002】
従来法の例を図11に示す。
特許文献1に示されている図11の音声認識装置では、音声を入力するための音声入力手段14と、単語音声を含む音声から単語音声の部分だけを切り出す単語音声切り出し部15と、切り出した単語音声から特徴量データを抽出する特徴量抽出部16と、特徴データからHMM(Hidden Markov Model)によりモデル化する際の単語音声に対する状態数を推定する状態数推定部17と、特徴データを単語モデルにあてはめてHMMパラメータを求める学習部18と、特徴データとHMMパラメータから尤度を求める尤度出力部19と、学習したHMMパラメータ及び尤度情報からなる音声辞書ファイル20と、棄却のためのしきい値を設定するしきい値設定部21と、各単語モデルに対して尤度を計算して、認識候補を判定する照合判定部22と、認識結果を出力する判定結果出力部23と、を備えている。
【0003】
このような構成とすることにより、音声認識の結果として常に一番尤度の高い候補を利用者に返すのではなく、一番尤度が高い候補がしきい値を超えていなければ、その候補を棄却し、利用者に再度発声を促すことによって、操作性を向上させることができる。また、このしきい値をユーザー毎に予め学習しておくことによって、特異話者など尤度が低くなる傾向にあるユーザーに対応することができる。
【0004】
しかしながら、前記特許文献1の方法では、ユーザー毎の差の他にも発声内容や周囲の雑音環境などの要因によって尤度の絶対値が影響を受けやすいため、しきい値を決めることが困難である、との問題がある。また、しきい値付近の尤度を持つ拮抗する候補が複数ある場合に、誤った候補を選択してしまう現象を棄却できない、との問題点がある。
【0005】
非特許文献1に示されている音声認識装置では、特許文献1における一番尤度の高い候補の尤度としきい値を比較する照合判定部22の代わりに、次式で示されるエントロピーを用い音声として受理するかもしくは棄却するかの照合判定を行う。
【数1】

ここで、xtは特徴量抽出部16で得られた時刻tでの音声の特徴量、p(k|xt)は、音声の特徴量xtが与えられたときに、候補kが選ばれる確率(事後確率)である。エントロピーはどれだけの数の候補で迷っているかを示す指標である。
このような構成とすることにより、入力信号の特徴量に対し拮抗する候補が複数あるような場合でも、拮抗する候補の数を考慮することによって、適切に非音声の棄却を行うことができる。
【0006】
しかしながら、非特許文献1に示されているエントロピーの算出は、特許文献1に示されている一番尤度の高い候補の尤度の算出に較べて多くの演算量が必要となる。これは、エントロピー算出に当たって必要となる事後確率の算出に多くの演算量が必要となるためである。事後確率は次式で算出される。
【数2】

ここで、p(k)はHMMあるいはGMM(Gaussian Mixture Model)において候補kが選ばれる事前確率(混合重み)。p(xt|k)は尤度である。数1のように事後確率を算出するためには、全ての候補に対する尤度と事前確率の積の和が必要となり、特許文献1に示されている一番尤度の高い候補の尤度のみを考慮すれば良い音声認識装置に較べて多くの演算量を必要とする。
【0007】
特許文献2には、音声モデルを話者あるいは雑音環境に対して適応させる方法の一例としてはパターン適応化方式が記載されている。
【0008】
非特許文献2には、HMMあるいはGMMの確率分布関数のパラメータを決めるための方法として、EMアルゴリズムが記載されている。非特許文献3には、複数の音声モデルを距離に応じてまとめ上げるための方法として、k−means法が記載されている。
【0009】
【特許文献1】特開平9−97095号公報
【特許文献2】特開平9 62291号公報
【非特許文献1】Gethin Williams and Daniel P.W.Elis,“SPEECH/MUSIC DISCRIMINATION BASED ON POSTERIOR PROBABILITY FEATURES”, Eurospeech’99.1999年
【非特許文献2】Guorong Xuan, Wei Zhang, Peiqi Chai,“EM Algorithm of Gaussian Mixture Model and Hiddeen Markov Model”,IEEE International Conference on Image Processing ICIP 2001,vol.1,pp.145−148.2001年
【非特許文献3】Richard O.Duda, Petter E.Hart, David G.Stork著, 尾上守夫 監訳,“パターン識別”,Joh Willey & Sons. 新技術コミュニケーション,pp.528−529
【発明の開示】
【発明が解決しようとする課題】
【0010】
上記のように、従来のシステムは下記記載の課題を有する。
第1の問題点は、従来の一番尤度の高い候補の尤度としきい値を比較して非音声を棄却する音声認識方法では、発声内容や周囲の雑音環境などの影響で尤度の絶対値が変わりやすい為、適切なしきい値を決めることが難しい、ということである。
第2の問題点は、従来の一番尤度の高い候補の尤度としきい値を比較して非音声を棄却する音声認識方法では、しきい値付近の尤度を持つ拮抗する候補が複数ある場合に、誤った候補を選択してしまう現象を棄却できない、ということである。
第3の問題点は、エントロピーを用いて非音声を棄却する音声認識方法では、演算量が多く必要とされる、ということである。
【0011】
本発明の目的は、入力信号の内容や雑音に頑健で特定のカテゴリー以外の入力信号の棄却が可能な信号処理装置、信号処理方法、信号処理プログラムを提供することにある。
本発明の別の目的は、拮抗する候補の数を考慮することで、誤った候補を選択する可能性が高い時に棄却を行う信号処理装置、信号処理方法、信号処理プログラムを提供することにある。
本発明のさらに別の目的は、少ない演算量で特定のカテゴリー以外の入力信号の棄却が可能な信号処理装置、信号処理方法、信号処理プログラムを提供することにある。
【課題を解決するための手段】
【0012】
本願で開示される発明は、上記課題を解決するため、概略以下のように構成される。
本発明に係わる第1の信号処理装置は、特定のカテゴリーに属する信号の特徴的性質を表現し複数の詳細度を持つモデルから入力信号の特徴的性とモデルが最も近くなる特定詳細度を選択する詳細度判定部と、特定詳細度が所定のしきい値よりも低いときは入力信号を特定のカテゴリーに類別することが不適切であると、そうでないときは適切であると判定する照合判定部を備えることを特徴とする。
【0013】
かかる構成としたことで、モデルの高い詳細度と低い詳細度で比較したとき、高い詳細度において入力信号の特徴的性質に近いような場合には、入力信号の特徴的性質がモデルの学習データの特徴的性質に近いため目的とするカテゴリーであると判定し、低い詳細度において入力信号の特徴的性質が近い場合には入力信号の特徴的性質が学習データの特徴的性質と遠いため目的とするカテゴリーでないと判定することができる。入力信号の内容や雑音環境などで尤度の絶対値が変化するような場合であっても、どちらの詳細度のモデルに近いかの情報は変動を受けにくいため、入力信号の内容や雑音環境に頑健な目的とするカテゴリー以外の入力信号の棄却を実現することができ、第1の目的を達成することができる。
【0014】
また、入力信号がどの詳細度に近いかの情報から、入力信号に対し拮抗する候補の数を推定することができ、第2の目的を達成することができる。
【0015】
また、詳細度の異なる複数の音声モデルに対して各詳細度との距離のみが求まれば良いため、非特許文献2に記載のエントロピーを用いて目的のカテゴリー以外の入力信号を棄却する方法に較べて計算量が少なくてすみ、第3の目的を達成することができる。
【0016】
本発明に係わる第2の信号処理装置は、音声の特徴的性質を表現し複数の詳細度をもつ音声モデルから入力信号の特徴的性質に最も近くなる特定詳細度を選択する詳細度判定部と、特定詳細度が所定のしきい値よりも低いときは入力信号が音声でないと、そうでないときは音声であると判定する照合判定部を備えることを特徴とする。
【0017】
かかる構成としたことで、音声モデルの高い詳細度と低い詳細度で比較したとき、高い詳細度において入力信号の特徴的性質が近いような場合には、入力信号の特徴的性質が音声モデルの学習データの特徴的性質に近いため目的とする音声と判定し、低い詳細度において入力信号の特徴的性質が近い場合には入力信号の特徴的性質が学習データの特徴的性質と遠いため目的とする音声でないと判定することができる。発声内容や周囲の雑音環境などで尤度の絶対値が変化するような場合であっても、どちらの詳細度の音声モデルに近いかの情報は変動を受けにくいため、発声内容や周囲の雑音環境に頑健な非音声の棄却を実現することができ、第1の目的を達成することができる。
【0018】
また、入力信号がどの詳細度に近いかの情報から、入力信号に対し拮抗する候補の数を推定することができ、第2の目的を達成することができる。
【0019】
また、詳細度の異なる複数の音声モデルに対して各詳細度との距離のみが求まれば良いため、非特許文献2に記載のエントロピーを用いて非音声を棄却する方法に較べて計算量が少なくてすみ、第3の目的を達成することができる。
【0020】
本発明に係わる第3の信号処理装置は、音声の特徴的性質を表現する複数の詳細度をもつ音声モデルと入力信号の特徴的性質との距離を詳細度の低いものからより高いものへ、あるいは詳細度の高いものからより低いものへと順番に計算する距離算出部と、距離が極小となる極小詳細度を求める詳細度判定部と、極小詳細度が所定のしきい値よりも低いときは入力信号が音声でないと、そうでないときは音声であると判定する照合判定部を備えることを特徴とする。
かかる構成としたことで、本発明の第1または第2の信号処理装置よりもさらに計算量を低減させることができ、第3の目的を達成することができる。
【0021】
上記代1乃至第3の信号処理装置の各部が行う処理をコンピュータに実行させる信号処理プログラム、それらの処理を行う工程を備えた信号処理方法によっても、上記と同様に本発明の第1乃至第3の目的を達成することができる。
【発明の効果】
【0022】
第1の効果は、入力信号の内容(例えば、発声の内容)や周囲の雑音環境によって尤度の絶対値が変化するような場合であっても、入力信号がモデル(例えば、音声モデル)のどの詳細度に近いかの情報は変動を受けにくいため、入力信号の内容や周囲の雑音環境に頑健な目的のカテゴリー以外の入力信号(例えば、非音声)の棄却を行うことができる。
第2の効果は、入力信号がモデルのどの詳細度に属するかの情報から、拮抗する候補の数を考慮することができるため、誤った候補を選択する可能性が高い時に棄却を行うことができる。
第3の効果は、複数の詳細度のモデルに対して入力信号の特徴的性質との近さ(例えば、距離)が求まれば良いため、少ない演算量で目的のカテゴリー以外の入力信号の棄却を行うことができる。
【発明を実施するための最良の形態】
【0023】
(第1の実施の形態)
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明の第1の最良の実施の形態は、入力信号を単位時間ごとに切り分け入力する入力信号取得部1と、前記入力信号から特徴量を算出する特徴量抽出部2と、複数の詳細度を持つ音声モデルを格納する音声モデル格納部3と、音声モデルの各詳細度に対する前記入力信号の特徴量の距離を算出する距離算出部4と、前記距離が最も小さくなるような音声モデルの詳細度を求める詳細度判定部5と、前記詳細度を用いて入力信号を目的とする音声かどうか判定する照合判定部6と、前記判定結果を元に表示を行う判定結果出力部7とから構成される。
【0024】
音声モデル格納部3には、複数の詳細度を持つ音声モデルが格納されている。音声モデルの例としては、HMMあるいはGMMなどが考えられる。HMMあるいはGMMは、複数の確率分布関数の混合によって構成される。確率分布関数のパラメータは、例えば非特許文献2に記載されているEMアルゴリズムの手法を用いて予め音声を学習することによって決定する。また、ここで言う詳細度とはHMMあるいはGMMを構成する確率分布関数の混合数や、確率分布関数の分散を平均した値などである。
【0025】
図2はGMMの例を模式的に表したものである。この図で、実線で囲まれた楕円が一つの確率分布関数を、破線で囲まれた確率分布関数の集合が一つのGMMを示す。GMMは詳細度の低いときは少数の混合数の確率分布関数で表され、詳細度の高いときは多数の混合数の確率分布関数で表される。詳細度の異なる音声モデルを作る方法としては、トップダウンに作成する方法と、ボトムアップに作成する方法が考えられる。トップダウンに作成する方法としては、学習データに対し、少ない混合数の音声モデルを学習し作成した後、音声モデルを構成する確率分布関数を分割するなどして、混合数を増加させ、この混合数を増加させたモデルを再び学習するといった学習・分割の処理を必要な混合数の音声モデルが得られるまで繰り返す方法がある。あるいは、モノフォン、ダイフォン、トライフォン、クインフォンなど音素の組み合わせの詳細度を変えて音声モデルを作成する方法もある。ボトムアップに音声モデルを作成する方法としては、なんらかの手段を用いて学習された複数の確率分布関数の混合によって構成される音声モデルを特許文献3に記載されているk−means法などを用いて距離に応じてまとめ上げることによって詳細度の異なる音声モデルを作成する方法がある。
【0026】
次に、図1及び図3のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
入力信号取得部1で、マイクデバイスなどより取得された入力信号を単位時間ごとに窓掛けして切り出す(ステップS1)。
特徴量抽出部2で、前記入力信号取得手段1で得られた単位時間ごとの入力信号から特徴量を算出する。ここで特徴量として使用するのはスペクトル、対数スペクトル、ケプストラム、ピッチ、パワー、およびこのΔ量、ΔΔ量などの量である。単位時間tの特徴量ベクトルをxtとする(ステップS2)。
距離算出部4で、音声モデルの複数の詳細度それぞれに対し、前記単位時間ごとの入力信号の特徴量との距離を求める。HMMあるいはGMMを音声モデルとして用いた場合では、距離の代わりに次式で示す尤度(数式3)もしくは対数尤度(数式4)を用いる。
【数3】

【数4】

ここで、nは特徴量の次元数を示す。μkはガウス分布の平均、Σkは分散を示す。Cは定数項を示す。尤度もしくは対数尤度を用いる場合、値が大きいほど距離は小さくなる。この他にもユークリッド距離などの距離尺度を用いても良い(ステップ3)。
詳細度判定部5で、前記距離算出部4で求められた音声モデルの各詳細度に対する距離を比較し、距離が最も小さくなる詳細度を求める。単位時間ごとに距離が最小となる詳細度を求める方法に加えて、複数単位時間あるいは一発声にわたって平均した距離が最も小さくなるような詳細度を求めるなど統計分析した結果を用いても良い(ステップS4)。
照合判定部6で、前記詳細度判定部5で判定された詳細度を用いて、詳細度が予め決められたしきい値より大きい場合には音声と判定し、小さい場合には音声でないと判定する。この閾値は予め設定した値でも良いし、ユーザーの要望や外部の雑音環境などによって可変にしても良い(ステップS5)。
判定結果出力部7で、前記照合判定部6で音声と判定された結果を出力する(ステップS6)。音声でないと判定された場合は、ユーザーに再度発声を促すメッセージを出力し、ステップS1の処理に戻る。
【0027】
次に、本実施の形態の効果について説明する。
図4の上段に示すように、一般に入力信号の特徴的性質が音声モデルを学習したときの学習データの特徴的性質と近い場合には、より詳細度の高い音声モデルに対する距離が小さくなる。これは、例えばトップダウンに音声モデルを作成するとき、混合数を増やす際に学習データに対し、常に距離がより小さくなるように確率分布関数を増加して作成することができるためである。反対に図4の下段に示すように、入力信号の特徴的性質が学習データの特徴的性質と遠い場合には、詳細度の高い音声モデルほど距離が小さくなるとは限らない。このことから、詳細度判定部5で入力信号に対し詳細度の高い音声モデルが選ばれたときは学習データの特徴的性質と近いため音声と判定し詳細度の低い音声モデルが選ばれたときは学習データの特徴的性質から遠いため音声でないと判定することができる。発声内容や周囲の雑音環境などで距離の絶対値が変化するような場合であっても、どの詳細度の音声モデルに属するかという情報は変動を受けにくいため、発声内容や周囲の雑音環境に頑健な非音声の棄却を実現することができる。
距離の最も近い詳細度を選ぶということは、最も詳細度の高い状態を選択された詳細度の状態にまでまとめあげた音声モデルが入力音声を最も良く表現していることを示す。このため最も近い詳細度の情報からどれだけの数の対立する候補が拮抗しているかの情報を得ることができ、対立する候補の数を考慮した非音声の棄却を行うことができる。
また、距離算出部4において、複数の詳細度を持つ音声モデルに対して最も近い音声モデルを選択すれば良いため、非特許文献2に記載のエントロピーを用いて非音声を棄却する方法に較べて計算量が少なくてすむ。
【0028】
(第2の実施の形態)
次に、発明を実施するための第2の最良の形態について図面を参照して詳細に説明する。
図5を参照すると、本発明の第2の最良の実施の形態は、入力信号を単位時間ごとに切り分け入力する入力信号取得部1と、前記入力信号から特徴量を算出する特徴量抽出部2と、親子構造を持つ複数の詳細度を持つ音声モデルを格納する音声モデル格納部3’と、音声モデルの各詳細度に対する前記入力信号の特徴量の距離を算出する距離算出部4と、音声モデルの詳細度を選択する詳細度選択部8と、前記距離算出部4で算出された距離を記憶する距離記憶部9と、前記距離算出部4で算出された距離と前記距離記憶部9に記憶されている一つ低い詳細度に対する距離とを比較し次の処理を変える距離比較部10と、前記詳細度を用いて入力信号を目的とする音声かどうか判定する照合判定部6と、前記判定結果を元に表示を行う判定結果出力部7とから構成される。
【0029】
音声モデル格納部3’に格納されている複数の詳細度を持つ音声モデルの各詳細度の状態は、木構造などの親子構造を持つものとする。ここでいう親子構造とは、図6のように高い詳細度に属する確率分布関数(子)と低い詳細度に属する確率分布関数(親)との間に依存関係が存在する事である。図6の楕円と楕円を結ぶ実線は親分布と子分布の関係にあることを示す。親子関係の作成の仕方としては、トップダウン式に音声モデルを作成するときには、親分布を分割することによって子分布を作成する、ボトムアップ式に音声モデルを作成するときには、子分布を纏め上げて親分布を作成する、などが考えられる。
【0030】
次に、図5及び図7のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
入力信号取得部1で、マイクデバイスなどより取得された入力信号を単位時間ごとに窓掛けして切り出す(ステップS1)。
特徴量抽出部2で、前記入力信号取得部1で得られた入力信号から特徴量を算出する。ここで特徴量として使用するのはスペクトル、対数スペクトル、ケプストラム、ピッチ、パワー、およびこのΔ量、ΔΔ量などの量である。時間tの特徴量ベクトルをxtとする(ステップS2)。
詳細度選択部8で、詳細度を選択する。最初は、最も低い詳細度を選択する(ステップS7)。
距離算出部4で、前記詳細度選択部8で選択された詳細度に対し、入力信号との距離を求める。距離の算出方法の例として、音声モデルが複数の確率分布の混合で表され、詳細度が確率分布関数の混合数を表すような場合を考える。この場合では、各確率分布に対し入力信号との距離を計算し、その中で最も近い値をその詳細度での距離とすることが考えられる。確率分布と入力信号との距離尺度としては、尤度、対数尤度、ユークリッド距離といったものが考えられる(ステップS3)。
距離記憶部9で、前記距離算出部4で算出された入力信号との距離を記憶する(ステップS8)。
距離比較部10で、前記距離算出部4で算出された入力信号と現在の詳細度との距離と、前記距離記憶部9に記憶されている入力信号と一つ低い詳細度との距離とを比較し、現在の詳細度のほうが一つ低い詳細度より距離が小さいときは詳細度選択部8に戻りさらに高い詳細度を選択する。次に距離算出部4において入力信号との距離を算出する際には、親子関係を考慮して、現在の詳細度で最も近い距離にある確率分布との依存関係を持つ子分布のみを計算の対象とすれば良い。反対に一つ低い詳細度のほうが現在の詳細度より距離が小さいときには、照合判定部6に進む。詳細度が予め用意した上限に達してしまった場合も照合判定部6に進む(ステップS9)。
照合判定部6で、前記詳細度選択部8で選択された音声モデルの詳細度がしきい値より低い場合は音声でないと判定し、それ以外では音声と判定する(ステップS5)。
判定結果出力部7で、前記照合判定部6で音声と判定された場合は結果を出力する(ステップS6)。棄却された場合は、ユーザーに再度発声を促すメッセージを出力し、ステップ1の処理に戻る。
【0031】
このような構成とすることにより、距離算出部4での距離計算を少ない計算で行うことができ、第1の実施の形態の処理をより少ない計算量で行うことができる。
【0032】
(第3の実施の形態)
次に、発明を実施するための第3の最良の形態について図面を参照して説明する。
図8に示すように、本発明の第3の最良の実施の形態は、第1の最良の実施の形態に加えて、音声モデルの更新を行う学習部11とから構成される。
次に、本実施の形態の動作について説明する。
本実施の形態は、図3に示す第1の実施の形態の動作を行うに先立って、音声モデルを予めユーザーの発声する音声に適応、もしくは雑音環境に適応させる。話者あるいは雑音環境に対する適応法としては特許文献2に示すパターン適応化方式などを用いることができる。
【0033】
このような構成とすることにより、話者性や周囲の雑音環境などにより、予め音声モデルを話者や周囲の雑音環境に適応させておくことによって、より正確に非音声の棄却を行うことができる。
【0034】
(第4の実施の形態)
次に、発明を実施するための第4の最良の形態について図面を参照して説明する。
図9に示すように、本発明の第4の最良の実施の形態は、第1の最良の実施の形態に対し、前期照合判定部6で求められた入力信号が目的とする音声であるかの判定結果を元に表示を行う判定結果出力部7の代わりに、前記照合判定部6で求められた判定結果が目的とする音声であれば音声認識を行う音声認識部12と、前記音声認識部12で求められた音声認識結果を表示する認識結果出力部13と、から構成される。
【0035】
次に、本実施の形態の動作について説明する。
本実施の形態は、図3に示す第1の実施の形態の動作に対し、ステップS1からステップS5までの動作を行い、入力信号が目的とする音声と判定された場合には、音声認識部12で音声認識を行い、認識結果出力部13で音声認識結果を出力する。入力信号が目的とする音声でないと判定された場合には、ユーザーに再度発声を促すメッセージを出力し、ステップS1の処理に戻る。
【0036】
このような構成とすることにより、目的とする音声のみを対象として音声認識を行うことができる。
【0037】
(第5の実施の形態)
次に、発明を実施するための第5の最良の形態について図面を参照して説明する。
図10に示すように、本発明の第5の最良の実施の形態は、第1の最良の実施の形態に対し、入力信号取得部1a(1b)と、特徴量抽出部2a(2b)と、音声モデル格納部3a(3b)と、距離算出部4a(4b)と、詳細度判定部5a(5b)との組み合わせが2組以上の複数個ある構成となっている。それぞれの組に音声モデル格納部3aと音声モデル格納部3bが備えられ、それぞれ異なった音声モデルが格納されている。
【0038】
次に、本実施の形態の動作について説明する。
本実施の形態は、図3に示す第1の実施の形態の動作に対し、上記の各組がそれぞれステップS1からステップS4までの動作をそれぞれの音声モデルに対して行い複数の詳細度を求め、照合判定部6で複数の音声モデルに対する詳細度のうちどれか一つがしきい値より大きい場合には、音声と判定し、判定結果出力部7で判定結果を出力する。照合判定部6で複数の音声モデルに対する詳細度の全てがしきい値より小さい場合には、非音声と判定し、ユーザーに再度発声を促すメッセージを出力し、ステップ1の処理に戻る。
【0039】
このような構成とすることにより、入力音声信号に対し最も適合するモデルを選択することができ、例えば男性モデルと女性モデル、話者毎のモデル、あるいは通常の音声と発声時の唇形状モデルのような複数の音声モデルに対し、どちらの音声モデルが信頼できるかを判定しながら非音声の棄却を行うことができる。
【0040】
前記実施の形態は互いに組み合わせて用いることもできる。
また、音声だけではなく画像などがあるカテゴリーに属するか否かを判定する問題に対し、複数の詳細度を持つモデルを用意することで同様に判定することができる。
【産業上の利用可能性】
【0041】
本発明によれば、咳払いやリップノイズ、紙をめくる音など、非音声の棄却を行うことができる。また、音声認識システムと組み合わせて用いることで、音声だけを認識できる。
【図面の簡単な説明】
【0042】
【図1】本発明の第1の実施の形態に係わる信号処理システムの構成を示すブロック図である。
【図2】本発明の第1の実施の形態に係わる複数の詳細度を持つ音声モデルを示す模式図である。
【図3】本発明の第1の発明の実施に係わる信号処理システムにおける処理手順を示す流れ図である。
【図4】本発明の第1の発明の実施に係わる音声モデルの詳細度と距離との関係を示した図である。
【図5】本発明の第2の発明の実施に係わる信号処理システムの構成を示すブロック図である。
【図6】本発明の第2の実施の形態に係わる複数の詳細度を持つ音声モデルを示す模式図である。
【図7】本発明の第2の実施の形態に係わる信号処理システムにおける処理手順を示す流れ図である。
【図8】本発明の第3の発明の実施に係わる信号処理システムの構成を示すブロック図である。
【図9】本発明の第4の発明の実施に係わる信号処理システムの構成を示すブロック図である。
【図10】本発明の第5の発明の実施に係わる信号処理システムの構成を示すブロック図である。
【図11】従来法の実施に係わる音声認識システムの構成を示すブロック図である。
【符号の説明】
【0043】
1 入力信号取得部
1a 入力信号取得部
1b 入力信号取得部
2 特徴量抽出部
2a 特徴量抽出部
2b 特徴量抽出部
3 音声モデル格納部
3a 音声モデル格納部
3b 音声モデル格納部
4 距離算出部
4a 距離算出部
4b 距離算出部
5 詳細度判定部
5a 詳細度判定部
5b 詳細度判定部
6 照合判定部
7 判定結果出力部
8 詳細度選択部
9 距離記憶部
10 距離比較部
11 学習部
12 音声認識部
13 認識結果出力部
14 音声入力手段
15 単語音声切り出し部
16 特徴抽出部
17 状態数推定部
18 学習部
19 尤度出力部
20 音声辞書ファイル
21 しきい値設定部
22 照合判定部
23 判定結果出力部

【特許請求の範囲】
【請求項1】
特定のカテゴリーに属する信号の特徴的性質を表現し複数の詳細度を持つモデルから入力信号の特徴的性質と前記モデルが最も近くなる特定詳細度を選択する詳細度判定部と、
前記特定詳細度が所定のしきい値よりも低いときは前記入力信号を特定のカテゴリーに類別することが不適切であると、そうでないときは適切であると判定する照合判定部とを備える信号処理装置。
【請求項2】
音声の特徴的性質を表現し複数の詳細度をもつ音声モデルから入力信号の特徴的性質に最も近くなる特定詳細度を選択する詳細度判定部と、
前記特定詳細度が所定のしきい値よりも低いときは前記入力信号が音声でないと、そうでないときは音声であると判定する照合判定部とを備える信号処理装置。
【請求項3】
請求項2に記載の信号処理装置において、
音声の特徴的性質を表現する複数の詳細度をもつ音声モデルと入力信号の特徴的性質との距離を詳細度の低いものからより高いものへ、あるいは詳細度の高いものからより低いものへと順番に計算する距離算出部と、
前記距離が極小となる極小詳細度を求める詳細度判定部と、
前記極小詳細度が所定のしきい値よりも低いときは入力信号が音声でないと、そうでないときは音声であると判定する照合判定部を備える信号処理装置。
【請求項4】
請求項2又は3に記載の信号処理装置において、詳細度として音声モデルを構成する要素の数、もしくは音声モデルを表現するパラメータの数、もしくは音声モデルを構成する要素の分散の値の少なくともひとつを用いることを特徴とする信号処理装置。
【請求項5】
請求項2乃至4のいずれか一項に記載の信号処理装置において、前記詳細度判定部は、単位時間ごとに前記特定詳細度または前記極小詳細度を求めることを特徴とする信号処理装置。
【請求項6】
請求項5に記載の信号処理装置において、前記詳細度判定部は、単位時間ごとに得られる前記特定詳細度または前記極小詳細度を複数求め、前記照合判定部は、それらを統計分析し統計量を求め、この統計量に基づいて前記判定を行うことを特徴とする信号処理装置。
【請求項7】
請求項2乃至6のいずれか一項に記載の信号処理装置において、前記音声モデルの更新を行い、話者あるいは雑音環境に前記音声モデルを適応させる学習部を備えることを特徴とする信号処理装置。
【請求項8】
請求項2乃至7のいずれか一項に記載の信号処理装置において、前記判定部が前記入力信号が音声であると判定した場合に、前記入力信号の音声認識を行う音声認識部を備えることを特徴とする信号処理装置。
【請求項9】
請求項2乃至8のいずれか一項に記載の信号処理装置において、前記詳細度判定部は、複数の詳細度を持つ複数の音声モデルに対して前記特定詳細度又は前記極小詳細度を求め、前記照合判定部は、全ての音声モデルに対する詳細度が所定のしきい値よりも低いときは入力信号が音声でないと判定し、そうでないときは音声であると判定することを特徴とする信号処理装置。
【請求項10】
請求項2乃至9のいずれか一項に記載の信号処理装置において、
上記音声の特徴的性質を表現する複数の詳細度をもつ音声モデルが親子構造を持つことを特徴とする信号処理装置。
【請求項11】
特定のカテゴリーに属する信号の特徴的性質を表現し複数の詳細度を持つモデルから入力信号の特徴的性質と前記モデルが最も近くなる特定詳細度を選択する詳細度判定工程と、
前記特定詳細度が所定のしきい値よりも低いときは前記入力信号を特定のカテゴリーに類別することが不適切であると、そうでないときは適切であると判定する照合判定工程とを備えた信号処理方法。
【請求項12】
音声の特徴的性質を表現し複数の詳細度をもつ音声モデルから入力信号の特徴的性質に最も近くなる特定詳細度を選択する詳細度判定工程と、
前記特定詳細度が所定のしきい値よりも低いときは前記入力信号が音声でないと、そうでないときは音声であると判定する照合判定工程とを備えた信号処理方法。
【請求項13】
請求項12に記載の信号処理方法において、
音声の特徴的性質を表現する複数の詳細度をもつ音声モデルと入力信号の特徴的性質との距離を詳細度の低いものからより高いものへ、あるいは詳細度の高いものからより低いものへと順番に計算する距離算出工程と、
前記距離が極小となる極小詳細度を求める詳細度判定工程と、
前記極小詳細度が所定のしきい値よりも低いときは入力信号が音声でないと、そうでないときは音声であると判定する照合判定工程を備える信号処理方法。
【請求項14】
請求項12又は13に記載の信号処理方法において、詳細度として音声モデルを構成する要素の数、もしくは音声モデルを表現するパラメータの数、もしくは音声モデルを構成する要素の分散の値の少なくともひとつを用いることを特徴とする信号処理方法。
【請求項15】
請求項12乃至14のいずれか一項に記載の信号処理方法において、前記詳細度判定工程では、単位時間ごとに前記特定詳細度または前記極小詳細度を求めることを特徴とする信号処理方法。
【請求項16】
請求項15に記載の信号処理方法において、前記詳細度判定工程では、単位時間ごとに得られる前記特定詳細度または前記極小詳細度を複数求め、前記照合判定工程では、それらを統計分析し統計量を求め、この統計量に基づいて前記判定を行うことを特徴とする信号処理方法。
【請求項17】
請求項12乃至16のいずれか一項に記載の信号処理方法において、前記音声モデルの更新を行い、話者あるいは雑音環境に前記音声モデルを適応させる学習工程を備えることを特徴とする信号処理方法。
【請求項18】
請求項12乃至17のいずれか一項に記載の信号処理方法において、前記判定工程で前記入力信号が音声であると判定した場合に、前記入力信号の音声認識を行う音声認識工程を備えることを特徴とする信号処理方法。
【請求項19】
請求項12乃至18のいずれか一項に記載の信号処理方法において、前記詳細度判定工程では、複数の詳細度を持つ複数の音声モデルに対して前記特定詳細度又は前記極小詳細度を求め、前記照合判定工程では、全ての音声モデルに対する詳細度が所定のしきい値よりも低いときは入力信号が音声でないと判定し、そうでないときは音声であると判定することを特徴とする信号処理方法。
【請求項20】
請求項12乃至19のいずれか一項に記載の信号処理方法において、
上記音声の特徴的性質を表現する複数の詳細度をもつ音声モデルが親子構造を持つことを特徴とする信号処理方法。
【請求項21】
コンピュータに、
特定のカテゴリーに属する信号の特徴的性質を表現し複数の詳細度を持つモデルから入力信号の特徴的性質と前記モデルが最も近くなる特定詳細度を選択する詳細度判定処理と、
前記特定詳細度が所定のしきい値よりも低いときは前記入力信号を特定のカテゴリーに類別することが不適切であると、そうでないときは適切であると判定する照合判定処理とを実行させる信号処理プログラム。
【請求項22】
コンピュータに、
音声の特徴的性質を表現し複数の詳細度をもつ音声モデルから入力信号の特徴的性質に最も近くなる特定詳細度を選択する詳細度判定処理と、
前記特定詳細度が所定のしきい値よりも低いときは前記入力信号が音声でないと、そうでないときは音声であると判定する照合判定処理とを実行させる信号処理プログラム。
【請求項23】
請求項22に記載の信号処理プログラムにおいて、
前記コンピュータに、
音声の特徴的性質を表現する複数の詳細度をもつ音声モデルと入力信号の特徴的性質との距離を詳細度の低いものからより高いものへ、あるいは詳細度の高いものからより低いものへと順番に計算する距離算出処理と、
前記距離が極小となる極小詳細度を求める詳細度判定処理と、前記極小詳細度が所定のしきい値よりも低いときは入力信号が音声でないと、そうでないときは音声であると判定する照合判定処理を実行させる信号処理プログラム。
【請求項24】
請求項22又は23に記載の信号処理プログラムにおいて、詳細度として音声モデルを構成する要素の数、もしくは音声モデルを表現するパラメータの数、もしくは音声モデルを構成する要素の分散の値の少なくともひとつを用いることを特徴とする信号処理プログラム。
【請求項25】
請求項22乃至24のいずれか一項に記載の信号処理プログラムにおいて、前記詳細度判定処理は、単位時間ごとに前記特定詳細度または前記極小詳細度を求めることを特徴とする信号処理プログラム。
【請求項26】
請求項25に記載の信号処理プログラムにおいて、前記詳細度判定処理は、単位時間ごとに得られる前記特定詳細度または前記極小詳細度を複数求め、前記照合判定処理は、それらを統計分析し統計量を求め、この統計量に基づいて前記判定を行うことを特徴とする信号処理プログラム。
【請求項27】
請求項22乃至26のいずれか一項に記載の信号処理プログラムにおいて、前記音声モデルの更新を行い、話者あるいは雑音環境に前記音声モデルを適応させる学習処理を前記コンピュータに実行させることを特徴とする信号処理プログラム。
【請求項28】
請求項22乃至27のいずれか一項に記載の信号処理プログラムにおいて、前記判定処理で前記入力信号が音声であると判定した場合に、前記コンピュータに、前記入力信号の音声認識を行う音声認識処理を実行させることを特徴とする信号処理プログラム。
【請求項29】
請求項22乃至28のいずれか一項に記載の信号処理プログラムにおいて、前記詳細度判定処理では、複数の詳細度を持つ複数の音声モデルに対して前記特定詳細度又は前記極小詳細度を求め、前記照合判定処理では、全ての音声モデルに対する詳細度が所定のしきい値よりも低いときは入力信号が音声でないと判定し、そうでないときは音声であると判定することを特徴とする信号処理プログラム。
【請求項30】
請求項22乃至29のいずれか一項に記載の信号処理プログラムにおいて、
上記音声の特徴的性質を表現する複数の詳細度をもつ音声モデルが親子構造を持つことを特徴とする信号プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2008−175976(P2008−175976A)
【公開日】平成20年7月31日(2008.7.31)
【国際特許分類】
【出願番号】特願2007−8282(P2007−8282)
【出願日】平成19年1月17日(2007.1.17)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】