音認識装置および音認識方法

【課題】観測音が認識対象とする音であるか否かの判定を漏れなく行う。
【解決手段】ＨＭＭを用いて、観測音から抽出した特徴量の、目的音に基づく第１の認識モデルおよび非目的音に基づく第２の認識モデルに対する尤度と、観測音が目的音および非目的音のうち何れであるかを示す認識結果とを認識部で求め、認識結果が示す認識モデルに対応する尤度を用いて信頼度算出部で認識結果の信頼度を算出する。認識結果と信頼度とを用いて、認識結果の正解率を、観測音が目的音と仮定した場合と、観測音が非目的音と仮定した場合とについて正解率算出部で算出する。警報出力処理部は、認識結果と正解率と基づき、認識結果が目的音を示し、正解率が第１の閾値以下の場合と、認識結果が非目的音を示し、正解率が第２の閾値以下の場合とにおいて、観測音が目的音と非目的音の何れにも属さない未知音であることを示す情報を出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、観測音中の目的とする音を認識する音認識装置および音認識方法に関する。
【背景技術】
【０００２】
従来、警備において、特定の音に注目して異常事態の発生を検出することが行われている。例えば、監視エリア内でガラスの破壊音などの異常音を検知した際には、異常事態が発生したと判断することができる。また、異常音とは断定されないが、不審な物音などを検知した場合には、異常事態の発生か否かを判断する必要がある。このような特定の音を自動的に検知するためには、監視エリア内で観測される全ての観測音から、異常音や不審音を識別する必要がある。以下では、特に記載のない限り、異常音および不審音を纏めて不審音と呼ぶ。
【０００３】
音響情報を用いた監視装置としては、大きな物音を検出するために、音圧レベルが閾値を超えたことを検知するようにした装置や、例えばガラスの破壊に伴い生じる超音波を検出するために、特定の周波数を検知するようにした装置が既に知られている。
【０００４】
これら音圧レベルや特定周波数を検知する検知方法では、検出された音響信号による音の種類や発生原因を把握することが困難であった。監視範囲内で生じた物音を認識し、認識された物音が何の音であるか、何が原因として発生した音であるかを把握できれば、監視範囲内の異常を高精度に検出可能な監視システムの達成が期待できる。
【０００５】
ところで、音声認識の分野において主に用いられている隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）による認識技術を監視装置に利用することが提案されている。非特許文献１には、ＨＭＭを実際のシステムに適用した例が記載されている。
【０００６】
ＨＭＭを用いた音声認識では、一般的に、認識対象とする音の音響データを学習データとして、学習データの音の特徴量を抽出し、抽出された特徴量に基づき音の種類毎の認識モデルを作成する。認識処理においては、観測音から特徴量を抽出して予め作成した認識モデルと比較して、観測音から抽出した特徴量の認識モデルに対する尤度を算出する。最も高い尤度が算出された認識モデルが観測音の認識結果として得られる。
【０００７】
また、特許文献１には、ＨＭＭを用いた音声認識技術において、不正音をリジェクトするための閾値を、利用者毎に設定可能な音声認識装置が記載されている。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特開平９−９７０９５号公報
【非特許文献】
【０００９】
【非特許文献１】中川聖一著、「確率モデルによる音声認識」社団法人電子情報通信学会出版、２００３年６月１日発行、ｐ．９０〜１０８
【発明の概要】
【発明が解決しようとする課題】
【００１０】
しかしながら、ＨＭＭを用いた音認識技術を監視装置に適用する場合、以下に記す２つの問題があった。
【００１１】
第１の問題は、観測音が何れの認識モデルにも含まれていない未知音である場合に発生する問題である。観測音が何れの認識モデルにも含まれていない場合であっても、ＨＭＭは、各認識モデルについて観測音の尤度をそれぞれ算出し、最も類似度が高いとされた認識モデルを当該観測音の認識モデルとして採用する。このため、ＨＭＭは、当該観測音を何れの認識モデルにも該当しない未知音として認識できないことになり、その結果、誤認識してしまう可能性があるという問題があった。
【００１２】
図９を用いて説明する。図９は、ＨＭＭによる認識モデルを概念的に示す。図９の例では、認識モデルを、便宜上、音響データから抽出した特徴量による２次元の座標で表している。図９の例では、木衝突音、アルミ衝突音、鉄衝突音、ガラス破壊音およびセラミック破壊音の５種類の音についてそれぞれ認識モデルを作成し、認識モデル１００〜１０４として示している。図９に例示されるように、各認識モデル１００〜１０４は、特徴量に対してある幅を持って示されると共に、特徴量について互いに重複部分を持つ場合がある。
【００１３】
図９において、位置１１０の特徴量を持つ観測音は、各認識モデル１００〜１０４の何れにも含まれていない未知音である。しかしながら、ＨＭＭによれば、各認識モデル１００〜１０４について当該観測音の尤度をそれぞれ算出した結果、最も類似度が高い、すなわち、図上で位置１１０と最も距離が短い認識モデル（例えば認識モデル１０１）を、当該観測音の認識モデルとして誤認識してしまう。
【００１４】
第２の問題は、雑音などの影響により、観測音の特徴量を正しく算出できない場合に発生する問題である。例えば、観測音の認識モデルに対する尤度が複数の認識モデルについて近接した場合、観測音は、複数の認識モデルのうち僅かでも尤度が高い認識モデルの音として選択されることになる。しかし、この選択は誤認識である可能性がある。
【００１５】
図９の例では、認識モデル１０３と認識モデル１０４とで互いに一部が重複しており、観測音の特徴量は、認識モデル１０３および１０４の重複部分に含まれる位置１１１として計算されている。この場合、認識モデル１０３および１０４のうち類似度が僅かでも高い方（認識モデル１０４とする）が当該観測音の認識モデルとして選択されることになる。ところが、位置１１１は、認識モデル１０３および１０４のうち選択されなかった側の認識モデル（認識モデル１０３とする）にも含まれているため、当該観測音の認識モデルとして認識モデル１０４を選択するのは、誤認識である可能性がある。
【００１６】
上述した特許文献１は、観測音の尤度が何れの認識モデルに対しても低い場合に認識を棄却するようにしているため、これら第１および第２の問題点を解決することができる。しかしながら、監視装置にＨＭＭを用いた音認識技術を適用した場合、観測音は、監視装置の監視エリア内で発生した音であり、観測音を棄却することは、監視に漏れがあることを意味し、重大な問題となる。
【００１７】
本発明は、上記を鑑みてなされたものであり、観測音が認識対象とする音であるか否かの判定を漏れなく行うことを目的とする。
【課題を解決するための手段】
【００１８】
上述した課題を解決し、目的を達成するために、本発明は、目的音から特徴量を抽出して作成した第１の認識モデルと、非目的音から特徴量を抽出して作成した第２の認識モデルとを予め記憶する認識モデル記憶手段と、観測音から特徴量を抽出して、隠れマルコフモデルを用いて、観測音から抽出した特徴量の第１の認識モデルおよび第２の認識モデルに対する尤度と、観測音が目的音および非目的音のうち何れであるかを示す認識結果とを求める認識手段と、認識結果が示す認識モデルに対応する尤度を用いて認識結果の信頼度を算出する信頼度算出手段と、認識結果と信頼度とを用いて、認識結果が正しい確率を示す正解率を、観測音が目的音であると仮定した場合の仮定に対する尤度と、観測音が非目的音であると仮定した場合の仮定に対する尤度とを用いて算出する正解率算出手段と、認識結果と正解率とに基づき、認識結果が目的音を示し、且つ、正解率が第１の閾値以下の場合と、認識結果が非目的音を示し、且つ、正解率が第２の閾値以下の場合とにおいて、観測音が目的音および非目的音の何れにも属さない未知音であることを示す情報を出力する出力手段とを有することを特徴とする。
【００１９】
また、本発明は、音声認識装置で実行される音声認識方法であって、音声認識装置は、目的音から特徴量を抽出して作成した第１の認識モデルと、非目的音から特徴量を抽出して作成した第２の認識モデルとを予め記憶する認識モデル記憶手段を備え、認識手段が、観測音から特徴量を抽出して、隠れマルコフモデルを用いて、観測音から抽出した特徴量の第１の認識モデルおよび第２の認識モデルに対する尤度と、観測音が目的音および非目的音のうち何れであるかを示す認識結果とを求める認識ステップと、信頼度算出手段が、認識結果が示す認識モデルに対応する尤度を用いて認識結果の信頼度を算出する信頼度算出ステップと、正解率算出手段が、認識結果と信頼度とを用いて、認識結果が正しい確率を示す正解率を、観測音が目的音であると仮定した場合の仮定に対する尤度と、観測音が非目的音であると仮定した場合の仮定に対する尤度とを用いて算出する正解率算出ステップと、出力手段が、認識結果と正解率とに基づき、認識結果が目的音を示し、且つ、正解率が第１の閾値以下の場合と、認識結果が非目的音を示し、且つ、正解率が第２の閾値以下の場合とにおいて、観測音が目的音および非目的音の何れにも属さない未知音であることを示す情報を出力する出力ステップとを有することを特徴とする。
【発明の効果】
【００２０】
本発明によれば、観測音が認識対象とする音であるか否かの判定を漏れなく行うことができるという効果を奏する。
【図面の簡単な説明】
【００２１】
【図１】図１は、本発明の実施形態による音認識装置の機能を示す一例の機能ブロック図である。
【図２】図２は、認識モデルの分類例を示す略線図である。
【図３】図３は、ＨＭＭ認識処理部による認識結果の一例を示す略線図である。
【図４】図４は、確率密度関数を求める際の場合分けを説明するための略線図である。
【図５】図５は、確率密度関数の例を示す略線図である。
【図６】図６は、認識率の算出結果の例を示す略線図である。
【図７】図７は、信頼度−正解率変換曲線の例を示す略線図である。
【図８】図８は、認識結果と正解率とから結果出力の対応を変化させる一例の処理を示すフローチャートである。
【図９】図９は、ＨＭＭによる認識モデルを概念的に示す略線図である。
【発明を実施するための形態】
【００２２】
以下に添付図面を参照して、本発明に係る音認識装置および音認識方法の一実施形態を詳細に説明する。本発明では、隠れマルコフモデル（以下、ＨＭＭと記述する）を用いた音認識技術により音を認識する音認識装置および音認識方法を、監視エリアの音を監視して異常を検知する監視システムに利用する。
【００２３】
このとき、監視システムは、音認識技術による認識対象とする音を「目的音」と「非目的音」との２種類とし、認識結果の信頼度を指標とすることで、当該認識結果の確からしさを確率（正解率）で示す。これにより、観測音が未知音である場合であっても認識結果を棄却せず、信頼度を閾値判定することで、観測音が目的音であるか否かを判断することができる。また、観測音の特徴量と、複数の認識モデルの特徴量とが近接した場合であっても、当該観測音が目的音か否かを判断可能となり、且つ、認識結果がどの程度の確率で確からしいのかを示すことができる。
【００２４】
なお、観測音は、監視エリア内で集音される全ての物音をいう。目的音は、異常音であって、侵入行為などが原因で発生した、監視システムとして警報出力をすべき物音をいう。非目的音は、目的音ではない物音であって、より具体的には、ＨＭＭで用いる認識モデルを作成した音のうち、目的音ではない音をいう。未知音は、認識モデルが作成されていない物音をいう。
【００２５】
図１は、本発明の実施形態による音認識装置１０の機能を示す一例の機能ブロック図である。音認識装置１０は、ＨＭＭ認識処理部１１、認識モデル記憶部１２、信頼度算出部１３、正解率算出部１４、正解率情報記憶部１５および警報出力処理部１６を有する。
【００２６】
例えば監視エリア内に設置されたマイクロホンで集音されたアナログ音響信号が図示されないＡ／Ｄ変換器でディジタルデータに変換され、音響データ２０として音認識装置１０に供給され、ＨＭＭ認識処理部１１に入力される。
【００２７】
ＨＭＭ認識処理部１１は、入力された音響データ２０に対してＨＭＭを用いて認識処理を施す。すなわち、ＨＭＭ認識処理部１１は、音響データ２０から所定の方法で特徴量を抽出し、抽出した特徴量の認識モデル記憶部１２に予め記憶されている認識モデルに対する尤度を求め、尤度が最も高い認識モデルに対応する音を示す情報、当該音響データ２０に対する認識結果として出力する。
【００２８】
ＨＭＭ認識処理部１１における処理を、より詳細に説明する。事前準備として、認識対象とする音の音響データを学習データとして予め用意し、学習データから音の特徴量を抽出する。音の特徴量の抽出には、例えばＬＰＣ(Linear Prediction Coding)やＭＦＣＣ(Mel-Frequency Cepstrum Coefficient)を用いることができる。そして、抽出した特徴量を、音の種類毎に纏め、音の種類毎の認識モデルを作成する。
【００２９】
認識対象とする音は、上述した目的音および非目的音を含み、認識モデルは、目的音および非目的音に分類される。図２は、認識モデルの分類例を示す。図２の例では、ガラス破壊音、ガラス衝突音、セラミック破壊音、アルミ衝突音、鉄衝突音、木衝突音などについて、学習データに基づき認識モデルが作成されている。これら認識モデルのうち、ガラス破壊音およびガラス衝突音をガラスの音として目的音に分類し、他の音を非目的音に分類する。目的音に分類される音の種類は、１種類に限定されない。例えば、第１の目的音としてガラス音（ガラス破壊音、ガラス衝突音）、第２の目的音として金属音（金属衝突音）、…のように、複数の異なる種類の音を目的音に分類することができる。これら認識モデルのデータが、認識モデルの識別情報および認識モデルの分類情報と関連付けられて、認識モデル記憶部１２に予め記憶される。
【００３０】
実際の観測音に対する認識処理においては、先ず、ＨＭＭ認識処理部１１は、入力された音響データ２０から音の特徴量を抽出する。次に、抽出された特徴量と、認識モデル記憶部１２に記憶される全ての認識モデルとを比較し、音響データ２０から抽出された特徴量が認識モデルに適合する度合を示す尤度を算出する。ＨＭＭ認識処理部１１は、最も高い尤度が算出された認識モデルの音を、音響データ２０すなわち観測音の認識結果とする。例えば、ＨＭＭ認識処理部１１は、図２に例示する認識モデルのうちガラス破壊音に対する尤度が最も高いと判定された場合、ガラス破壊音を示す情報（例えば認識モデルの識別情報）を含む認識結果を出力する。
【００３１】
図３は、ＨＭＭ認識処理部１１による認識結果の一例を示す。図３の例では、１の認識結果は、項目「Ｎｏ」および「Ｓｃｏｒｅ」、ならびに、範囲を示す複数の項目を含む。図３の例では、３の認識結果が尤度の大きい順にソートされて示されている。
【００３２】
図３において、項目「Ｎｏ」は、ＨＭＭにより出力された全ての認識結果中の、尤度でソートされた順序ｉを示す。出力された認識結果の数をＮ個とした場合、１≦ｉ≦Ｎである。項目「Ｓｃｏｒｅ」は、項目「Ｎｏ」で示される認識結果に対する尤度を示す。この例では、Ｎｏ＝１で示される認識結果に対する尤度Ｓｃｏｒｅ＝−８２００とされている。
【００３３】
項目「Ｓｃｏｒｅ」以降の３行は、音の認識範囲と、認識された音の種類と、尤度とを示す。例えば、「０２５ｓｉｌｅｎｃｅ −４７００」については、「０」および「２５」がそれぞれ認識開始位置および認識終了位置を、音響データ２０を所定長のフレームに分割した際のフレーム番号で示す。「ｓｉｌｅｎｃｅ」は、認識された音名を表し、この例では、当該範囲が「無音」と認識されたことが示されている。次の「−４７００」は、当該範囲における認識結果の尤度を示す。この順序ｉでは、この３行のうち、２行目の「２６４０ｇｌａｓｓ −２６００」の尤度が最も高いので、順序ｉの音が「ｇｌａｓｓ（ガラス音）」として認識されることが分かる。
【００３４】
信頼度算出部１３は、ＨＭＭ認識処理部１１による認識結果に対する信頼度を算出する。正解率算出部１４は、音響データ２０に対する認識結果と、信頼度算出部１３で当該認識結果に対して算出された信頼度を用いて、当該認識結果の正解率（当該認識結果が例えば何％の確率で正しいか）を算出する。このとき、正解率算出部１４は、音響データ２０による音が目的音であった場合と、非目的音であった場合の２通りの仮定を行い、それぞれの正解率を算出する。正解率算出部１４は、予め作成され正解率情報記憶部１５に記憶されている、信頼度を正解率に変換するための変換テーブル（変換曲線データ）を参照して、正解率を求めることができる。
【００３５】
警報出力処理部１６は、正解率算出部１４で算出された正解率に基づき、音響データ２０に対する認識結果に応じた通知を行う。このとき、警報出力処理部１６は、認識結果に示される音が目的音か否か、ならびに、正解率が閾値を超えたか否かに従い、通知方法および通知先を選択することができる。例えば、警報出力処理部１６は、認識結果に基づき、警報出力３０および注意喚起出力３１の何れかによる通知を行うか、何も通知を行わないかを選択することができる。
【００３６】
上述したＨＭＭ認識処理部１１、信頼度算出部１３、正解率算出部１４および警報出力処理部１６は、例えば図示されないＣＰＵ(Central Processing Unit)やマイクロプロセッサ上で動作するプログラムにより実現することができる。また、認識モデル記憶部１２および正解率情報記憶部１５は、図示されない不揮発性の半導体メモリやＨＤＤ（ハードディスクドライブ）を用いることができる。
【００３７】
例えば、音認識装置１０は、ＣＰＵ、ＲＯＭ(Read Only Memory)、ＲＡＭ(Random Access Memory)、ＨＤＤを有し、ＣＰＵは、ＲＯＭまたはＨＤＤに予め記憶されたプログラムに従い、ＲＡＭをワークメモリとして用いて動作する。音認識装置１０の機能は、ＣＰＵにより、例えばＨＤＤに予め記憶されるプログラムに従って実行される。プログラムは、例えばＨＭＭ認識処理部１１、信頼度算出部１３、正解率算出部１４および警報出力処理部１６をそれぞれ実行するモジュールを含み、ＣＰＵにより実行されると、主記憶装置であるＲＡＭ上にこれらのモジュールを展開し、実行する。
【００３８】
これに限らず、ＨＭＭ認識処理部１１、信頼度算出部１３、正解率算出部１４および警報出力処理部１６をそれぞれ別個のハードウェアによって構成し、各部が協働して動作するようにもできる。
【００３９】
次に、上述した音認識装置２０の各部の処理について、より詳細に説明する。先ず、以下に用いられる記号（変数）の意味について説明する。
Ｎ：ＨＭＭにより出力された認識結果の数
ｉ：尤度が高いものから示された認識結果の順番（１≦ｉ≦Ｎ）
Ｓｃｏｒｅ（ｉ）：上位ｉ番目の尤度（スコア）
Ｓｐｏｓ（ｉ，ｊ）：上位ｉ番目の中でｊ番目のラベルの認識開始位置
Ｅｐｏｓ（ｉ，ｊ）：上位ｉ番目の中でｊ番目のラベルの認識終了位置
Ｌａｂｅｌ（ｉ，ｊ）：上位ｉ番目の認識結果の中でｊ番目のラベル
ＮＬａｂｅｌｓ（ｉ）：上位ｉ番目の認識結果のラベル数
【００４０】
これらのうち、「ラベル」は、認識モデル記憶部１２に記憶される各認識モデルの順番を示す値である。ラベルは、例えば認識モデルの識別情報に対応する。各認識モデルをどのような順序で並べるかは、所望に決められる。また、図３の認識結果を例に取ると、値Ｎ＝３であり、値ｉは、項目「Ｎｏ」で示される。さらに、「０２５ｓｉｌｅｎｃｅ −４７００」を例に取ると、値ｉ＝１、ｊ＝１とした場合、値Ｓｐｏｓ（ｉ，ｊ）および値Ｅｐｏｓ（ｉ，ｊ）は、それぞれ「０」および「２５」であり（単位はフレーム）、値Ｌａｂｅｌ（ｉ，ｊ）は、「ｓｉｌｅｎｃｅ」である。さらにまた、値ＮＬａｂｅｌｓ（ｉ）は、値ｉ＝１の場合、値ＮＬａｂｅｌｓ（ｉ）＝３となる。
【００４１】
信頼度算出部１３における処理について説明する。先ず、ＨＭＭ認識処理部１１で求められた認識結果中の尤度の正規化を行う。すなわち、音の種類によって発生時間が異なるため、次式（１）に従い、時間で正規化して１フレームあたりの尤度を算出する。式（１）において、分母は音響データ２０から特徴を抽出した全フレーム数を示し、分子に示される尤度を分母の値で除して、尤度の正規化を行う。値ＮＳｃｏｒｅ（ｉ）は、式（１）により正規化された正規化尤度を示す。
【数１】

【００４２】
次に、次式（２）に従い、正規化尤度を用いて認識結果に対する信頼度を算出する。なお、式（２）において、正規化尤度ＮＳｃｏｒｅ（ｉ）に対してｅｘｐ（指数）を取っているのは、ＨＭＭにより算出される尤度が対数尤度のためである。
【数２】

【００４３】
式（２）において、各値の意味を下記に示す。
Ｃ：認識結果が属する認識モデルを識別するための識別値
Ｑ(Ｃ)：信頼度
α ：経験的に決定する補正係数（０＜α＜１）
ここで、値Ｃは、例えばガラス破壊音、セラミック破壊音などの認識モデル名を用いることができる。また、式（２）において、集合Ｉ＝｛ｉ|Ｌａｂｅｌ（ｉ，２）＝Ｃ｝は、条件Ｌａｂｅｌ（ｉ，２）を満たす対象だけを集めた値ｉの集合を集合Ｉとすることを意味する。値ｊ＝２となっているのは、図３の例で、値ｊ＝２番目のラベルが認識結果となっているためである。式（２）において、分母は、分類上の全ての認識モデルの出現確率の総和を示し、分子は、分類上の認識モデルＣの出現確率を示す。
【００４４】
正解率算出部１４は、信頼度算出部１３で算出された信頼度Ｑ(Ｃ)と、ＨＭＭ認識処理部１１で得られた認識結果とを用いて、認識結果の正解率を算出する。本実施形態では、認識結果が目的音を示している場合に、観測音が目的音であると仮定した場合と、観測音が非目的音であると仮定した場合との２通りの尤度を求めて正解率を算出する。また、認識結果が非目的音を示している場合にも、観測音が目的音であると仮定した場合と、観測音が非目的音であると仮定した場合との２通りの尤度を求めて正解率を算出する。
【００４５】
（ａ）認識結果が目的音を示している場合の尤度は、下記のようにして算出する。先ず、観測音が目的音であると仮定した場合の、目的音を示す認識結果および信頼度Ｑの尤度（第１の尤度）は、次式（３）で示される。なお、以下において、記号Ｉは観測音、記号Ｒは認識結果、記号Ｏｂｊｅｃｔは目的音、記号ＮｏｔＯｂｊｅｃｔは非目的音をそれぞれ示す。
Ｐ(Ｑ，Ｒ＝Ｏｂｊｅｃｔ|Ｉ＝Ｏｂｊｅｃｔ) …（３）
【００４６】
また、観測音が非目的音であると仮定した場合の、目的音を示す認識結果および信頼度Ｑの尤度（第２の尤度）は、次式（４）で示される。
Ｐ(Ｑ，Ｒ＝Ｏｂｊｅｃｔ|Ｉ＝ＮｏｔＯｂｊｅｃｔ) …（４）
【００４７】
（ｂ）認識結果が非目的音を示している場合の尤度は、下記のようにして算出する。先ず、観測音が目的音であると仮定した場合の、非目的音を示す認識結果および信頼度Ｑの尤度（第３の尤度）は、次式（５）で示される。
Ｐ(Ｑ，Ｒ＝ＮｏｔＯｂｊｅｃｔ|Ｉ＝Ｏｂｊｅｃｔ) …（５）
【００４８】
また、観測音が非目的音であると仮定した場合の、非目的音を示す認識結果および信頼度Ｑの尤度（第４の尤度）は、次式（４）で示される。
Ｐ(Ｑ，Ｒ＝ＮｏｔＯｂｊｅｃｔ|Ｉ＝ＮｏｔＯｂｊｅｃｔ) …（６）
【００４９】
式（３）〜式（６）で示した各尤度の算出方法について説明する。一般に、仮説（Ｉ）に対する結果（Ｑ，Ｒ）の尤度は、次式（７）により算出される。
【数３】

ここで、式（７）における値Ｐ(Ｑ|Ｉ，Ｒ）は、値Ｑの確率密度関数（ＰＤＦ：Probability Density Function）の値であり、値Ｐ(Ｒ|Ｉ）は認識率である。したがって、式（７）から、信頼度Ｑの尤度は、確率密度関数と認識率の積で求められることが分かる。
【００５０】
次に、上述の式（３）〜式（６）における尤度を、式（７）に従い算出するための確率密度関数および認識率について説明する。先ず、確率密度関数の推定方法について説明する。確率密度関数は、下記の方法により予め算出し、例えば正解率情報記憶部１５に記憶しておく。
【００５１】
確率密度関数は、観測音について目的音（Ｏｂｊｅｃｔ）および非目的音（ＮｏｔＯｂｊｅｃｔ）、認識結果について目的音（Ｏｂｊｅｃｔ）および非目的音（ＮｏｔＯｂｊｅｃｔ）の組み合わせで場合分けする。より具体的には、図４に例示されるように、観測音が目的音、且つ、認識結果が目的音を示す第１の場合と、観測音が目的音、且つ、認識結果が非目的音を示す第２の場合と、観測音が非目的音、且つ、認識結果が目的音の第３の場合と、観測音が非目的音、且つ、認識結果が非目的音の第４の場合とのそれぞれについて、確率密度関数を求める。
【００５２】
なお、図４に例示されるように、第１の場合および第４の場合が、観測音が正しく認識された正認識であり、第２の場合および第３の場合が、観測音が誤って認識された誤認識となる。
【００５３】
確率密度関数の具体的な求め方としては、先ず、予め用意した目的音および非目的音それぞれの音響データに対して、ＨＭＭにより既に説明したようにして認識処理を行い、信頼度の度数分布を上述の第１の場合〜第４の場合についてそれぞれ求める。この度数分布から、確率密度関数を推定する。このとき、度数分布を関数近似して確率密度関数とする。図５（ａ）〜図５（ｄ）は、混合正規分布を用いて度数分布を近似した確率密度関数の例を示す。図５（ａ）が上述した第１の場合、図５（ｂ）が第２の場合、図５（ｃ）が第３の場合、図５（ｄ）が第４の場合をそれぞれ示す。各図において、横軸が信頼度、縦軸が信頼度の頻度、点線が度数分布の実験値、実線が関数近似を行った確率密度関数を示す。なお、関数近似の方法は、混合正規分布に限定されない。
【００５４】
上述の式（３）〜式（６）における尤度を、式（７）に従い算出するための認識率について説明する。ここでの認識率は、予め目的音および非目的音のそれぞれについて用意した音響データに対してＨＭＭによる認識処理を行った際に得られる認識結果から算出する。算出された認識率は、例えば、観測音および認識結果が目的音であるか否かを示す情報と対応付けられて正解率情報記憶部１５に予め記憶される。
【００５５】
図６は、認識率の算出結果の例を示す。この図６の例では、観測音が目的音の場合に認識結果が目的音となる認識率Ｐ(Ｒ＝Ｏｂｊｅｃｔ|Ｉ＝Ｏｂｊｅｃｔ)が７１％、観測音が目的音の場合に認識結果が非目的音となる認識率Ｐ(Ｒ＝ＮｏｔＯｂｊｅｃｔ|Ｉ＝Ｏｂｊｅｃｔ)が２９％となっている。また、観測音が非目的音の場合に認識結果が目的音となる認識率Ｐ(Ｒ＝Ｏｂｊｅｃｔ|Ｉ＝ＮｏｔＯｂｊｅｃｔ)が４％、観測音が非目的音の場合に認識結果が非目的音となる認識率Ｐ(Ｒ＝ＮｏｔＯｂｊｅｃｔ|Ｉ＝ＮｏｔＯｂｊｅｃｔ)が９６％となっている。
【００５６】
以上のように求められた確率密度関数および認識率を用いて、認識結果が目的音であった場合の正解率と、認識結果が非目的音であった場合の正解率とをそれぞれ算出する。
【００５７】
認識結果が目的音であった場合の正解率は、上述した式（３）および式（４）を用いて、次式（８）により算出する。すなわち、観測音が目的音と仮定した場合の、目的音を示す認識結果と信頼度の第１の尤度と、観測音が非目的音と仮定した場合の、目的音を示す認識結果と信頼度の第２の尤度との和に対する、第１の尤度の比が正解率となる。
【数４】

【００５８】
上述した式（７）を用いると、第１の尤度および第２の尤度は、それぞれ下記の式（９）および（１０）に示すように、確率密度関数と認識率との積の式に変形できる。これら式（９）および（１０）から、観測音および認識結果が共に目的音の場合、ならびに、観測音が非目的音で認識結果が目的音の場合の、確率密度関数および認識率それぞれを用いることで正解率が求められることが分かる。
【数５】

【数６】

【００５９】
これら式（８）〜式（１０）を用いた、認識結果の信頼度が０.５であった場合の正解率の算出例を示す。観測音および認識結果が共に目的音の場合、ならびに、観測音が非目的音で、認識結果が目的音の場合の確率密度関数の値は、それぞれ、上述した図４（ａ）および図４（ｃ）から、下記の式（１１）および式（１２）に示すように得られる。
Ｐ(Ｑ|Ｉ＝Ｏｂｊｅｃｔ，Ｒ＝Ｏｂｊｅｃｔ)＝２５ …（１１）
Ｐ(Ｑ|Ｉ＝ＮｏｔＯｂｊｅｃｔ，Ｒ＝Ｏｂｊｅｃｔ)＝３ …（１２）
【００６０】
同様に、観測音および認識結果が共に目的音の場合、ならびに、観測音が非目的音で、認識結果が目的音の場合の認識率は、それぞれ、上述した図６から、下記の式（１３）および式（１４）に示すように得られる。
Ｐ(Ｒ＝Ｏｂｊｅｃｔ|Ｉ＝Ｏｂｊｅｃｔ)＝７１ …（１３）
Ｐ(Ｒ＝Ｏｂｊｅｃｔ|Ｉ＝ＮｏｔＯｂｊｅｃｔ)＝４ …（１４）
【００６１】
これら式（１１）〜式（１４）で得られた値をそれぞれ上述の式（８）に代入すると、次式（１５）のように、正解率Ｌ_Objectが求められる。
Ｌ_Object＝(２５×７１)／(２５×７１＋３×４)＝０.９９ …（１５）
よって、認識結果が目的音であった場合の正解率が９９％と求められる。
【００６２】
認識結果が非目的音であった場合の正解率も、上述の認識結果が目的音であった場合と同様の手順で算出できる。この場合、上述した式（５）および式（６）を用いて、次式（１６）により算出する。すなわち、観測音が非目的音と仮定した場合の、非目的音を示す認識結果と信頼度の第３の尤度と、観測音が目的音と仮定した場合の、非目的音を示す認識結果と信頼度の第４の尤度との和に対する、第３の尤度の比が正解率となる。
【数７】

【００６３】
上述した式（７）を用いると、第３の尤度および第４の尤度は、それぞれ下記の式（１７）および（１８）に示すように、確率密度関数と認識率との積の式に変形できる。これら式（１７）および（１８）から、観測音および認識結果が共に非目的音の場合、ならびに、観測音が目的音で認識結果が非目的音の場合の、確率密度関数および認識率それぞれを用いることで正解率が求められることが分かる。
【数８】

【数９】

【００６４】
これら式（１６）〜式（１８）を用いた、認識結果の信頼度が０.５であった場合の正解率の算出例を示す。観測音および認識結果が共に非目的音の場合、ならびに、観測音が目的音で、認識結果が非目的音の場合の確率密度関数の値は、それぞれ、上述した図４（ｂ）および図４（ｄ）から、下記の式（１９）および式（２０）に示すように得られる。
Ｐ(Ｑ|Ｉ＝ＮｏｔＯｂｊｅｃｔ，Ｒ＝ＮｏｔＯｂｊｅｃｔ)＝２２ …（１９）
Ｐ(Ｑ|Ｉ＝Ｏｂｊｅｃｔ，Ｒ＝ＮｏｔＯｂｊｅｃｔ)＝２２００ …（２０）
【００６５】
同様に、観測音および認識結果が共に非目的音の場合、ならびに、観測音が目的音で、認識結果が非目的音の場合の認識率は、それぞれ、上述した図６から、下記の式（２１）および式（２２）に示すように得られる。
Ｐ(Ｒ＝ＮｏｔＯｂｊｅｃｔ|Ｉ＝ＮｏｔＯｂｊｅｃｔ)＝９６ …（２１）
Ｐ(Ｒ＝ＮｏｔＯｂｊｅｃｔ|Ｉ＝Ｏｂｊｅｃｔ)＝２９ …（２２）
【００６６】
これら式（１９）〜式（２２）で得られた値をそれぞれ上述の式（１６）に代入すると、次式（２３）のように、正解率Ｌ_Objectが求められる。
Ｌ_Object＝(２２×９６)／(２２×９６＋２２００×２９)＝０.０３ …（２３）
よって、認識結果が目的音であった場合の正解率が３％と求められる。
【００６７】
このように、式（８）〜式（２３）を用いて説明したような方法で、ＨＭＭによる認識結果と、認識結果に対する信頼度とから正解率を算出することができる。
【００６８】
ここで、上述の式（８）〜式（２３）に従った正解率の算出は、演算量が多く、実際の装置に適用させた場合に、装置における演算処理の負荷が大きくなってしまう。このため、信頼度と正解率との関係を予め求め、観測音の音響データ２０に基づき算出された信頼度を、この予め求めた信頼度と正解率との関係に適用することで、簡易な処理により正解率を求めることが可能となる。
【００６９】
一例として、予め用意した目的音および非目的音の音響データを用いて、上述したようにして、ＨＭＭによる認識処理を行い、得られた認識結果の信頼度と正解率とを求める。すなわち、ここで得られた信頼度および正解率は、実際の音響データから求めた実測値となる。この実測値は、信頼度と正解率との対応関係を示すものとなる。そして、この実測値に対して、一般的な近似方法である多項式近似を行うことで、信頼度から正解率に変換する信頼度−正解率変換曲線を算出する。
【００７０】
図７（ａ）および図７（ｂ）は、この信頼度−正解率変換曲線の例を示す。図７（ａ）は、認識結果が目的音を示す場合の信頼度と正解率との一例の関係を示す。図７（ｂ）は、認識結果が非目的音を示す場合の信頼度と正解率との一例の関係を示す。図中において、縦軸が正解率、横軸が信頼度を示す。また、菱形（◇）は、実測値を示し、実線の曲線は、実測値に対して多項式近似を行って作成した信頼度−正解率変換曲線の例である。
【００７１】
この信頼度−正解率変換曲線は、予め求めておき、変換曲線データとして例えば正解率情報記憶部１５に記憶しておく。一例として、信頼度−正解率変換曲線を求める際に用いた実測値と、近似化の際のパラメータとを共に記憶しておくことが考えられる。これに限らず、所定のステップで算出した信頼度と正解率とを対応付けて変換テーブルとして記憶しておいてもよい。
【００７２】
正解率算出部１４は、観測音の音響データ２０に基づき信頼度算出部１３で信頼度が算出されると、正解率情報記憶部１５に記憶される変換曲線データのうち認識結果に対応する変換曲線データを参照して、算出された信頼度に対応する正解率を求める。
【００７３】
本実施形態による音認識装置１０では、観測音による音響データ２０に対する認識結果と、認識結果に基づき得られた正解率とから、結果出力の通知内容および通知先など対応を変化させることができる。図８のフローチャートを用いて、認識結果と正解率とから結果出力の対応を変化させる一例の処理について説明する。
【００７４】
図８において、マイクロフォンなどで集音された観測音による音響信号が、Ａ／Ｄ変換されて音響データ２０として音認識装置１０に入力される（ステップＳ１００）。次のステップＳ１０１で、ＨＭＭ認識処理部１１は、入力された音響データ２０の特徴量を抽出し、抽出された特徴量と認識モデル記憶部１２に予め記憶された各認識モデルとを比較して、認識結果Ｒと、尤度Ｓｃｏｒｅとを求める。
【００７５】
次のステップＳ１０２で、信頼度算出部１３は、ステップＳ１０１で求められた尤度Ｓｃｏｒｅを時間で正規化して正規化尤度ＮＳｃｏｒｅを算出し、正規化尤度ＮＳｃｏｒｅを用いて認識結果Ｒの信頼度Ｑを算出する。
【００７６】
次のステップＳ１０３で、正解率算出部１４は、認識結果Ｒが目的音か否かを判定する。正解率算出部１４は、例えば認識結果Ｒ内の、認識モデルの識別情報に基づき認識モデルの分類情報を参照し、認識結果Ｒが目的音か否かを判定する。若し、認識結果Ｒが目的音であると判定したら、処理をステップＳ１０４に移行させ、認識結果Ｒが目的音である場合の正解率Ｌ_Objectを求める。正解率Ｌ_Objectは、例えばステップＳ１０２で得られた信頼度Ｑに基づき、図７（ａ）を用いて説明した、認識結果Ｒが目的音を示す場合の信頼度−正解率変換曲線を参照して求めることができる。これに限らず、上述した式（８）に従って正解率Ｌ_Objectを算出してもよい。
【００７７】
次のステップＳ１０５で、警報出力処理部１６は、認識結果Ｒが目的音である場合に対応して予め決められた閾値（閾値Ａとする）と正解率Ｌ_Objectとを比較し、正解率Ｌ_Objectが閾値Ａを超えているか否かを判定する。若し、超えていると判定した場合、処理をステップＳ１０６に移行させる。すなわち、正解率Ｌ_Objectが閾値Ａを超えている場合、観測音が目的音（異常音）を含む可能性が極めて高いと判断できる。警報出力処理部１６は、ステップＳ１０６で、その旨示す通知を行い、このフローチャートによる一連の処理を終了させる。
【００７８】
この音認識装置１０を監視システムに適用した場合、ステップＳ１０６で、監視エリア内に異常が発生したと判断して警報出力３０を出力することで、警備員の駆けつけや警察への通報などを行うことができる。
【００７９】
一方、ステップＳ１０５で、警報出力処理部１６は、正解率Ｌ_Objectが閾値Ａ以下であると判定した場合、処理をステップＳ１０７に移行させる。すなわち、正解率Ｌ_Objectが閾値Ａ以下の場合、観測音が目的音を含む可能性があると判断できる。警報出力処理部１６は、ステップＳ１０７で、その旨示す通知を行い、このフローチャートによる一連の処理を終了させる。
【００８０】
この音認識装置１０を監視システムに適用した場合、ステップＳ１０７で、注意喚起を促す通知である注意喚起出力３１を出力する。この注意喚起出力３１は、例えば、図示されない通信Ｉ／Ｆからネットワークを介して、監視センタに送出される。この場合、監視員によって認識結果Ｒや、このときの観測音を実際に確認することで、異常であるか否かを判断することができる。
【００８１】
上述のステップＳ１０３で、警報出力処理部１６は、認識結果Ｒが目的音ではないと判定したら、処理をステップＳ１０８に移行させ、認識結果Ｒが非目的音である場合の正解率Ｌ_NotObjectを求める。正解率Ｌ_NotObjectは、例えばステップＳ１０２で得られた信頼度Ｑに基づき、図７（ｂ）を用いて説明した、認識結果Ｒが非目的音を示す場合の信頼度−正解率変換曲線を参照して求めることができる。これに限らず、上述した式（１６）に従って正解率Ｌ_NotObjectを算出してもよい。
【００８２】
次のステップＳ１０９で、警報出力処理部１６は、認識結果Ｒが非目的音である場合に対応して予め決められた閾値（閾値Ｂとする）と正解率Ｌ_NotObjectとを比較し、正解率Ｌ_NotObjectが閾値Ｂを超えているか否かを判定する。若し、超えていると判定した場合、何もせずに一連の処理を終了させる。すなわち、正解率Ｌ_NotObjectが閾値Ｂを超えている場合、観測音が非目的音である可能性が極めて高い（目的音を含まない可能性が極めて高い）と判断できる。この音認識装置１０を監視システムに適用した場合、警報出力処理部１６は、通知など行わずに一連の処理を終了させるようにできる。
【００８３】
一方、ステップＳ１０９で、警報出力処理部１６は、正解率Ｌ_NotObjectが閾値Ｂ以下であると判定した場合、処理をステップＳ１１０に移行させる。すなわち、正解率Ｌ_NotObjectが閾値Ｂ以下の場合、観測音が非目的音ではない可能性があると判断できる。そこで、警報出力処理部１６は、ステップＳ１１０でその旨示す通知を行い、このフローチャートによる一連の処理を終了させる。
【００８４】
この音認識装置１０を監視システムに適用した場合、ステップＳ１１０で、注意喚起を促す通知である注意喚起出力３１を出力する。この注意喚起出力３１は、例えば、図示されない通信Ｉ／Ｆからネットワークを介して、監視センタに送出される。この場合、監視員によって認識結果Ｒや、このときの観測音を実際に確認することで、異常であるか否かを判断することができる。
【００８５】
なお、上述した閾値Ａおよび閾値Ｂは、互いに異なる値を設定することができる。
【００８６】
本実施形態の音認識装置を、監視エリア内で不審者を検出した場合に警報を出力する警備装置に設けたり、本実施形態の音認識装置からの出力を上記警備装置に入力するように構成することができる。これにより、監視エリア内での不審音を容易かつ高精度に検出できるので、警備装置による誤報を防止することが可能となる。
【００８７】
本実施形態では、観測音が目的音か非目的音かを示す認識結果に加え、当該認識結果の正解率を算出するようにしている。これにより、例えば正しい認識結果が僅差で２番目の尤度であっても注意喚起出力が可能で、認識漏れの発生を防止できる。また、正解率に応じて異常検知後の対応を変化させることができるため、セキュリティレベルを柔軟に設定可能な監視システムを実現することができる。
【００８８】
また、正解率が十分低い値である場合には、観測音が目的音および非目的音の何れにも含まれない可能性が高いことを示している。すなわち、正解率が設定した閾値よりも低ければ、観測音が未知音であると判断される。これにより、未知音が観測された場合であっても認識漏れや誤認識が抑制される監視システムを実現することができる。
【００８９】
（他の実施形態）
上述の実施形態による認識結果および正解率を示す情報を、監視センタなどにおいて監視映像上に表示させることができる。これにより、画像監視員による状況把握を補助することができる。また、観測音を記録しておき、正解率が所定以下の場合に記録した観測音を監視員が実際に聴いて再確認するように構成することもできる。
【符号の説明】
【００９０】
１０音認識装置
１１ＨＭＭ認識処理部
１２認識モデル記憶部
１３信頼度算出部
１４正解率算出部
１５正解率情報記憶部
１６警報出力処理部
２０音響データ
３０警報出力
３１注意喚起出力

【特許請求の範囲】
【請求項１】
目的音から特徴量を抽出して作成した第１の認識モデルと、非目的音から特徴量を抽出して作成した第２の認識モデルとを予め記憶する認識モデル記憶手段と、
観測音から特徴量を抽出して、隠れマルコフモデルを用いて、観測音から抽出した特徴量の前記第１の認識モデルおよび前記第２の認識モデルに対する尤度と、該観測音が前記目的音および前記非目的音のうち何れであるかを示す認識結果とを求める認識手段と、
前記認識結果が示す認識モデルに対応する前記尤度を用いて該認識結果の信頼度を算出する信頼度算出手段と、
前記認識結果と前記信頼度とを用いて、該認識結果が正しい確率を示す正解率を、該観測音が前記目的音であると仮定した場合の該仮定に対する尤度と、前記観測音が前記非目的音であると仮定した場合の該仮定に対する尤度とを用いて算出する正解率算出手段と、
前記認識結果と前記正解率とに基づき、前記認識結果が前記目的音を示し、且つ、前記正解率が第１の閾値以下の場合と、前記認識結果が前記非目的音を示し、且つ、前記正解率が第２の閾値以下の場合とにおいて、前記観測音が前記目的音および前記非目的音の何れにも属さない未知音であることを示す情報を出力する出力手段と
を有する
ことを特徴とする音認識装置。
【請求項２】
前記正解率算出手段は、
前記認識手段に求められた認識結果が目的音を示す場合に、
観測音が目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第１の尤度と、観測音が非目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第２の尤度とを求め、
該第１の尤度と該第２の尤度の和に対する前記第１の尤度の比を、前記正解率として算出し、
前記認識手段に求められた認識結果が非目的音を示す場合に、
観測音が目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第３の尤度と、観測音が非目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第４の尤度とを求め、
該第３の尤度と該第４の尤度との和に対する該第４の尤度の比を、前記正解率として算出する
ことを特徴とする請求項１に記載の音認識装置。
【請求項３】
前記正解率算出手段は、
予め求めた、前記認識手段で求められた認識結果が目的音である場合に観測音が目的音である確率と、予め求めた、目的音を隠れマルコフモデルで認識した際の認識結果が該目的音を示すと仮定した場合の信頼度の度数分布から推定される確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第１の尤度とし、
予め求めた、前記認識手段で求められた認識結果が目的音である場合に観測音が非目的音である確率と、予め求めた、非目的音を隠れマルコフモデルで認識した際の認識結果が目的音を示すと仮定した場合の信頼度の度数分布から推定される確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第２の尤度とし、
予め求めた、前記認識手段で求められた認識結果が目的音である場合に観測音が非目的音である確率と、予め求めた、目的音を隠れマルコフモデルで認識した際の認識結果が非目的音を示すと仮定した場合の信頼度の度数分布から推定する確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第３の尤度とし、
予め求めた、前記認識手段で求められた認識結果が非目的音である場合に観測音が非目的音である確率と、予め求めた、非目的音を隠れマルコフモデルで認識した際の認識結果が該非目的音を示すと仮定した場合の信頼度の度数分布から推定する確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第４の尤度とする
ことを特徴とする請求項２に記載の音認識装置。
【請求項４】
前記信頼度算出手段は、
前記認識手段で求められた、前記第１の認識モデルの尤度と前記第２の認識モデルの尤度との和に対する、該第１の認識モデルおよび該第２の認識モデルのうち前記識別結果が含まれる認識モデルの尤度の比を、前記信頼度として算出する
ことを特徴とする請求項１乃至請求項３の何れか１項に記載の音認識装置。
【請求項５】
目的音および非目的音それぞれに対して隠れマルコフモデルを用いて予め求めた信頼度と正解率とを対応付けて記憶する正解率情報記憶手段をさらに有し、
前記正解率算出手段は、
前記信頼度算出手段で算出された信頼度に対応する正解率を、前記正解率情報記憶手段に記憶された信頼度と正解率との対応関係に基づき求める
ことを特徴とする請求項１乃至請求項４の何れか１項に記載の音認識装置。
【請求項６】
前記出力手段は、
前記認識結果が前記第１の認識モデルを示し、且つ、前記正解率が第１の閾値を超える場合に、前記観測音が前記目的音であることを示す情報を出力する
ことを特徴とする請求項１乃至請求項５の何れか１項に記載の音認識装置。
【請求項７】
前記出力手段は、
前記認識結果が前記第２の認識モデルを示し、且つ、前記正解率が第２の閾値を超える場合に、前記観測音が前記非目的音であることを示す情報を出力する
ことを特徴とする請求項１乃至請求項６の何れか１項に記載の音認識装置。
【請求項８】
音声認識装置で実行される音声認識方法であって、
前記音声認識装置は、
目的音から特徴量を抽出して作成した第１の認識モデルと、非目的音から特徴量を抽出して作成した第２の認識モデルとを予め記憶する認識モデル記憶手段を備え、
認識手段が、観測音から特徴量を抽出して、隠れマルコフモデルを用いて、観測音から抽出した特徴量の前記第１の認識モデルおよび前記第２の認識モデルに対する尤度と、該観測音が前記目的音および前記非目的音のうち何れであるかを示す認識結果とを求める認識ステップと、
信頼度算出手段が、前記認識結果が示す認識モデルに対応する前記尤度を用いて該認識結果の信頼度を算出する信頼度算出ステップと、
正解率算出手段が、前記認識結果と前記信頼度とを用いて、該認識結果が正しい確率を示す正解率を、該観測音が前記目的音であると仮定した場合の該仮定に対する尤度と、前記観測音が前記非目的音であると仮定した場合の該仮定に対する尤度とを用いて算出する正解率算出ステップと、
出力手段が、前記認識結果と前記正解率とに基づき、前記認識結果が前記目的音を示し、且つ、前記正解率が第１の閾値以下の場合と、前記認識結果が前記非目的音を示し、且つ、前記正解率が第２の閾値以下の場合とにおいて、前記観測音が前記目的音および前記非目的音の何れにも属さない未知音であることを示す情報を出力する出力ステップと
を有する
ことを特徴とする音認識方法。

【図１】