説明

音認識装置および音認識方法

【課題】観測音が認識対象とする音であるか否かの判定を漏れなく行う。
【解決手段】HMMを用いて、観測音から抽出した特徴量の、目的音に基づく第1の認識モデルおよび非目的音に基づく第2の認識モデルに対する尤度と、観測音が目的音および非目的音のうち何れであるかを示す認識結果とを認識部で求め、認識結果が示す認識モデルに対応する尤度を用いて信頼度算出部で認識結果の信頼度を算出する。認識結果と信頼度とを用いて、認識結果の正解率を、観測音が目的音と仮定した場合と、観測音が非目的音と仮定した場合とについて正解率算出部で算出する。警報出力処理部は、認識結果と正解率と基づき、認識結果が目的音を示し、正解率が第1の閾値以下の場合と、認識結果が非目的音を示し、正解率が第2の閾値以下の場合とにおいて、観測音が目的音と非目的音の何れにも属さない未知音であることを示す情報を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、観測音中の目的とする音を認識する音認識装置および音認識方法に関する。
【背景技術】
【0002】
従来、警備において、特定の音に注目して異常事態の発生を検出することが行われている。例えば、監視エリア内でガラスの破壊音などの異常音を検知した際には、異常事態が発生したと判断することができる。また、異常音とは断定されないが、不審な物音などを検知した場合には、異常事態の発生か否かを判断する必要がある。このような特定の音を自動的に検知するためには、監視エリア内で観測される全ての観測音から、異常音や不審音を識別する必要がある。以下では、特に記載のない限り、異常音および不審音を纏めて不審音と呼ぶ。
【0003】
音響情報を用いた監視装置としては、大きな物音を検出するために、音圧レベルが閾値を超えたことを検知するようにした装置や、例えばガラスの破壊に伴い生じる超音波を検出するために、特定の周波数を検知するようにした装置が既に知られている。
【0004】
これら音圧レベルや特定周波数を検知する検知方法では、検出された音響信号による音の種類や発生原因を把握することが困難であった。監視範囲内で生じた物音を認識し、認識された物音が何の音であるか、何が原因として発生した音であるかを把握できれば、監視範囲内の異常を高精度に検出可能な監視システムの達成が期待できる。
【0005】
ところで、音声認識の分野において主に用いられている隠れマルコフモデル(HMM:Hidden Markov Model)による認識技術を監視装置に利用することが提案されている。非特許文献1には、HMMを実際のシステムに適用した例が記載されている。
【0006】
HMMを用いた音声認識では、一般的に、認識対象とする音の音響データを学習データとして、学習データの音の特徴量を抽出し、抽出された特徴量に基づき音の種類毎の認識モデルを作成する。認識処理においては、観測音から特徴量を抽出して予め作成した認識モデルと比較して、観測音から抽出した特徴量の認識モデルに対する尤度を算出する。最も高い尤度が算出された認識モデルが観測音の認識結果として得られる。
【0007】
また、特許文献1には、HMMを用いた音声認識技術において、不正音をリジェクトするための閾値を、利用者毎に設定可能な音声認識装置が記載されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開平9−97095号公報
【非特許文献】
【0009】
【非特許文献1】中川聖一著、「確率モデルによる音声認識」社団法人 電子情報通信学会出版、2003年6月1日発行、p.90〜108
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、HMMを用いた音認識技術を監視装置に適用する場合、以下に記す2つの問題があった。
【0011】
第1の問題は、観測音が何れの認識モデルにも含まれていない未知音である場合に発生する問題である。観測音が何れの認識モデルにも含まれていない場合であっても、HMMは、各認識モデルについて観測音の尤度をそれぞれ算出し、最も類似度が高いとされた認識モデルを当該観測音の認識モデルとして採用する。このため、HMMは、当該観測音を何れの認識モデルにも該当しない未知音として認識できないことになり、その結果、誤認識してしまう可能性があるという問題があった。
【0012】
図9を用いて説明する。図9は、HMMによる認識モデルを概念的に示す。図9の例では、認識モデルを、便宜上、音響データから抽出した特徴量による2次元の座標で表している。図9の例では、木衝突音、アルミ衝突音、鉄衝突音、ガラス破壊音およびセラミック破壊音の5種類の音についてそれぞれ認識モデルを作成し、認識モデル100〜104として示している。図9に例示されるように、各認識モデル100〜104は、特徴量に対してある幅を持って示されると共に、特徴量について互いに重複部分を持つ場合がある。
【0013】
図9において、位置110の特徴量を持つ観測音は、各認識モデル100〜104の何れにも含まれていない未知音である。しかしながら、HMMによれば、各認識モデル100〜104について当該観測音の尤度をそれぞれ算出した結果、最も類似度が高い、すなわち、図上で位置110と最も距離が短い認識モデル(例えば認識モデル101)を、当該観測音の認識モデルとして誤認識してしまう。
【0014】
第2の問題は、雑音などの影響により、観測音の特徴量を正しく算出できない場合に発生する問題である。例えば、観測音の認識モデルに対する尤度が複数の認識モデルについて近接した場合、観測音は、複数の認識モデルのうち僅かでも尤度が高い認識モデルの音として選択されることになる。しかし、この選択は誤認識である可能性がある。
【0015】
図9の例では、認識モデル103と認識モデル104とで互いに一部が重複しており、観測音の特徴量は、認識モデル103および104の重複部分に含まれる位置111として計算されている。この場合、認識モデル103および104のうち類似度が僅かでも高い方(認識モデル104とする)が当該観測音の認識モデルとして選択されることになる。ところが、位置111は、認識モデル103および104のうち選択されなかった側の認識モデル(認識モデル103とする)にも含まれているため、当該観測音の認識モデルとして認識モデル104を選択するのは、誤認識である可能性がある。
【0016】
上述した特許文献1は、観測音の尤度が何れの認識モデルに対しても低い場合に認識を棄却するようにしているため、これら第1および第2の問題点を解決することができる。しかしながら、監視装置にHMMを用いた音認識技術を適用した場合、観測音は、監視装置の監視エリア内で発生した音であり、観測音を棄却することは、監視に漏れがあることを意味し、重大な問題となる。
【0017】
本発明は、上記を鑑みてなされたものであり、観測音が認識対象とする音であるか否かの判定を漏れなく行うことを目的とする。
【課題を解決するための手段】
【0018】
上述した課題を解決し、目的を達成するために、本発明は、目的音から特徴量を抽出して作成した第1の認識モデルと、非目的音から特徴量を抽出して作成した第2の認識モデルとを予め記憶する認識モデル記憶手段と、観測音から特徴量を抽出して、隠れマルコフモデルを用いて、観測音から抽出した特徴量の第1の認識モデルおよび第2の認識モデルに対する尤度と、観測音が目的音および非目的音のうち何れであるかを示す認識結果とを求める認識手段と、認識結果が示す認識モデルに対応する尤度を用いて認識結果の信頼度を算出する信頼度算出手段と、認識結果と信頼度とを用いて、認識結果が正しい確率を示す正解率を、観測音が目的音であると仮定した場合の仮定に対する尤度と、観測音が非目的音であると仮定した場合の仮定に対する尤度とを用いて算出する正解率算出手段と、認識結果と正解率とに基づき、認識結果が目的音を示し、且つ、正解率が第1の閾値以下の場合と、認識結果が非目的音を示し、且つ、正解率が第2の閾値以下の場合とにおいて、観測音が目的音および非目的音の何れにも属さない未知音であることを示す情報を出力する出力手段とを有することを特徴とする。
【0019】
また、本発明は、音声認識装置で実行される音声認識方法であって、音声認識装置は、目的音から特徴量を抽出して作成した第1の認識モデルと、非目的音から特徴量を抽出して作成した第2の認識モデルとを予め記憶する認識モデル記憶手段を備え、認識手段が、観測音から特徴量を抽出して、隠れマルコフモデルを用いて、観測音から抽出した特徴量の第1の認識モデルおよび第2の認識モデルに対する尤度と、観測音が目的音および非目的音のうち何れであるかを示す認識結果とを求める認識ステップと、信頼度算出手段が、認識結果が示す認識モデルに対応する尤度を用いて認識結果の信頼度を算出する信頼度算出ステップと、正解率算出手段が、認識結果と信頼度とを用いて、認識結果が正しい確率を示す正解率を、観測音が目的音であると仮定した場合の仮定に対する尤度と、観測音が非目的音であると仮定した場合の仮定に対する尤度とを用いて算出する正解率算出ステップと、出力手段が、認識結果と正解率とに基づき、認識結果が目的音を示し、且つ、正解率が第1の閾値以下の場合と、認識結果が非目的音を示し、且つ、正解率が第2の閾値以下の場合とにおいて、観測音が目的音および非目的音の何れにも属さない未知音であることを示す情報を出力する出力ステップとを有することを特徴とする。
【発明の効果】
【0020】
本発明によれば、観測音が認識対象とする音であるか否かの判定を漏れなく行うことができるという効果を奏する。
【図面の簡単な説明】
【0021】
【図1】図1は、本発明の実施形態による音認識装置の機能を示す一例の機能ブロック図である。
【図2】図2は、認識モデルの分類例を示す略線図である。
【図3】図3は、HMM認識処理部による認識結果の一例を示す略線図である。
【図4】図4は、確率密度関数を求める際の場合分けを説明するための略線図である。
【図5】図5は、確率密度関数の例を示す略線図である。
【図6】図6は、認識率の算出結果の例を示す略線図である。
【図7】図7は、信頼度−正解率変換曲線の例を示す略線図である。
【図8】図8は、認識結果と正解率とから結果出力の対応を変化させる一例の処理を示すフローチャートである。
【図9】図9は、HMMによる認識モデルを概念的に示す略線図である。
【発明を実施するための形態】
【0022】
以下に添付図面を参照して、本発明に係る音認識装置および音認識方法の一実施形態を詳細に説明する。本発明では、隠れマルコフモデル(以下、HMMと記述する)を用いた音認識技術により音を認識する音認識装置および音認識方法を、監視エリアの音を監視して異常を検知する監視システムに利用する。
【0023】
このとき、監視システムは、音認識技術による認識対象とする音を「目的音」と「非目的音」との2種類とし、認識結果の信頼度を指標とすることで、当該認識結果の確からしさを確率(正解率)で示す。これにより、観測音が未知音である場合であっても認識結果を棄却せず、信頼度を閾値判定することで、観測音が目的音であるか否かを判断することができる。また、観測音の特徴量と、複数の認識モデルの特徴量とが近接した場合であっても、当該観測音が目的音か否かを判断可能となり、且つ、認識結果がどの程度の確率で確からしいのかを示すことができる。
【0024】
なお、観測音は、監視エリア内で集音される全ての物音をいう。目的音は、異常音であって、侵入行為などが原因で発生した、監視システムとして警報出力をすべき物音をいう。非目的音は、目的音ではない物音であって、より具体的には、HMMで用いる認識モデルを作成した音のうち、目的音ではない音をいう。未知音は、認識モデルが作成されていない物音をいう。
【0025】
図1は、本発明の実施形態による音認識装置10の機能を示す一例の機能ブロック図である。音認識装置10は、HMM認識処理部11、認識モデル記憶部12、信頼度算出部13、正解率算出部14、正解率情報記憶部15および警報出力処理部16を有する。
【0026】
例えば監視エリア内に設置されたマイクロホンで集音されたアナログ音響信号が図示されないA/D変換器でディジタルデータに変換され、音響データ20として音認識装置10に供給され、HMM認識処理部11に入力される。
【0027】
HMM認識処理部11は、入力された音響データ20に対してHMMを用いて認識処理を施す。すなわち、HMM認識処理部11は、音響データ20から所定の方法で特徴量を抽出し、抽出した特徴量の認識モデル記憶部12に予め記憶されている認識モデルに対する尤度を求め、尤度が最も高い認識モデルに対応する音を示す情報、当該音響データ20に対する認識結果として出力する。
【0028】
HMM認識処理部11における処理を、より詳細に説明する。事前準備として、認識対象とする音の音響データを学習データとして予め用意し、学習データから音の特徴量を抽出する。音の特徴量の抽出には、例えばLPC(Linear Prediction Coding)やMFCC(Mel-Frequency Cepstrum Coefficient)を用いることができる。そして、抽出した特徴量を、音の種類毎に纏め、音の種類毎の認識モデルを作成する。
【0029】
認識対象とする音は、上述した目的音および非目的音を含み、認識モデルは、目的音および非目的音に分類される。図2は、認識モデルの分類例を示す。図2の例では、ガラス破壊音、ガラス衝突音、セラミック破壊音、アルミ衝突音、鉄衝突音、木衝突音などについて、学習データに基づき認識モデルが作成されている。これら認識モデルのうち、ガラス破壊音およびガラス衝突音をガラスの音として目的音に分類し、他の音を非目的音に分類する。目的音に分類される音の種類は、1種類に限定されない。例えば、第1の目的音としてガラス音(ガラス破壊音、ガラス衝突音)、第2の目的音として金属音(金属衝突音)、…のように、複数の異なる種類の音を目的音に分類することができる。これら認識モデルのデータが、認識モデルの識別情報および認識モデルの分類情報と関連付けられて、認識モデル記憶部12に予め記憶される。
【0030】
実際の観測音に対する認識処理においては、先ず、HMM認識処理部11は、入力された音響データ20から音の特徴量を抽出する。次に、抽出された特徴量と、認識モデル記憶部12に記憶される全ての認識モデルとを比較し、音響データ20から抽出された特徴量が認識モデルに適合する度合を示す尤度を算出する。HMM認識処理部11は、最も高い尤度が算出された認識モデルの音を、音響データ20すなわち観測音の認識結果とする。例えば、HMM認識処理部11は、図2に例示する認識モデルのうちガラス破壊音に対する尤度が最も高いと判定された場合、ガラス破壊音を示す情報(例えば認識モデルの識別情報)を含む認識結果を出力する。
【0031】
図3は、HMM認識処理部11による認識結果の一例を示す。図3の例では、1の認識結果は、項目「No」および「Score」、ならびに、範囲を示す複数の項目を含む。図3の例では、3の認識結果が尤度の大きい順にソートされて示されている。
【0032】
図3において、項目「No」は、HMMにより出力された全ての認識結果中の、尤度でソートされた順序iを示す。出力された認識結果の数をN個とした場合、1≦i≦Nである。項目「Score」は、項目「No」で示される認識結果に対する尤度を示す。この例では、No=1で示される認識結果に対する尤度Score=−8200とされている。
【0033】
項目「Score」以降の3行は、音の認識範囲と、認識された音の種類と、尤度とを示す。例えば、「0 25 silence −4700」については、「0」および「25」がそれぞれ認識開始位置および認識終了位置を、音響データ20を所定長のフレームに分割した際のフレーム番号で示す。「silence」は、認識された音名を表し、この例では、当該範囲が「無音」と認識されたことが示されている。次の「−4700」は、当該範囲における認識結果の尤度を示す。この順序iでは、この3行のうち、2行目の「26 40 glass −2600」の尤度が最も高いので、順序iの音が「glass(ガラス音)」として認識されることが分かる。
【0034】
信頼度算出部13は、HMM認識処理部11による認識結果に対する信頼度を算出する。正解率算出部14は、音響データ20に対する認識結果と、信頼度算出部13で当該認識結果に対して算出された信頼度を用いて、当該認識結果の正解率(当該認識結果が例えば何%の確率で正しいか)を算出する。このとき、正解率算出部14は、音響データ20による音が目的音であった場合と、非目的音であった場合の2通りの仮定を行い、それぞれの正解率を算出する。正解率算出部14は、予め作成され正解率情報記憶部15に記憶されている、信頼度を正解率に変換するための変換テーブル(変換曲線データ)を参照して、正解率を求めることができる。
【0035】
警報出力処理部16は、正解率算出部14で算出された正解率に基づき、音響データ20に対する認識結果に応じた通知を行う。このとき、警報出力処理部16は、認識結果に示される音が目的音か否か、ならびに、正解率が閾値を超えたか否かに従い、通知方法および通知先を選択することができる。例えば、警報出力処理部16は、認識結果に基づき、警報出力30および注意喚起出力31の何れかによる通知を行うか、何も通知を行わないかを選択することができる。
【0036】
上述したHMM認識処理部11、信頼度算出部13、正解率算出部14および警報出力処理部16は、例えば図示されないCPU(Central Processing Unit)やマイクロプロセッサ上で動作するプログラムにより実現することができる。また、認識モデル記憶部12および正解率情報記憶部15は、図示されない不揮発性の半導体メモリやHDD(ハードディスクドライブ)を用いることができる。
【0037】
例えば、音認識装置10は、CPU、ROM(Read Only Memory)、RAM(Random Access Memory)、HDDを有し、CPUは、ROMまたはHDDに予め記憶されたプログラムに従い、RAMをワークメモリとして用いて動作する。音認識装置10の機能は、CPUにより、例えばHDDに予め記憶されるプログラムに従って実行される。プログラムは、例えばHMM認識処理部11、信頼度算出部13、正解率算出部14および警報出力処理部16をそれぞれ実行するモジュールを含み、CPUにより実行されると、主記憶装置であるRAM上にこれらのモジュールを展開し、実行する。
【0038】
これに限らず、HMM認識処理部11、信頼度算出部13、正解率算出部14および警報出力処理部16をそれぞれ別個のハードウェアによって構成し、各部が協働して動作するようにもできる。
【0039】
次に、上述した音認識装置20の各部の処理について、より詳細に説明する。先ず、以下に用いられる記号(変数)の意味について説明する。
N :HMMにより出力された認識結果の数
i :尤度が高いものから示された認識結果の順番(1≦i≦N)
Score(i) :上位i番目の尤度(スコア)
Spos(i,j) :上位i番目の中でj番目のラベルの認識開始位置
Epos(i,j) :上位i番目の中でj番目のラベルの認識終了位置
Label(i,j) :上位i番目の認識結果の中でj番目のラベル
NLabels(i) :上位i番目の認識結果のラベル数
【0040】
これらのうち、「ラベル」は、認識モデル記憶部12に記憶される各認識モデルの順番を示す値である。ラベルは、例えば認識モデルの識別情報に対応する。各認識モデルをどのような順序で並べるかは、所望に決められる。また、図3の認識結果を例に取ると、値N=3であり、値iは、項目「No」で示される。さらに、「0 25 silence −4700」を例に取ると、値i=1、j=1とした場合、値Spos(i,j)および値Epos(i,j)は、それぞれ「0」および「25」であり(単位はフレーム)、値Label(i,j)は、「silence」である。さらにまた、値NLabels(i)は、値i=1の場合、値NLabels(i)=3となる。
【0041】
信頼度算出部13における処理について説明する。先ず、HMM認識処理部11で求められた認識結果中の尤度の正規化を行う。すなわち、音の種類によって発生時間が異なるため、次式(1)に従い、時間で正規化して1フレームあたりの尤度を算出する。式(1)において、分母は音響データ20から特徴を抽出した全フレーム数を示し、分子に示される尤度を分母の値で除して、尤度の正規化を行う。値NScore(i)は、式(1)により正規化された正規化尤度を示す。
【数1】

【0042】
次に、次式(2)に従い、正規化尤度を用いて認識結果に対する信頼度を算出する。なお、式(2)において、正規化尤度NScore(i)に対してexp(指数)を取っているのは、HMMにより算出される尤度が対数尤度のためである。
【数2】

【0043】
式(2)において、各値の意味を下記に示す。
C :認識結果が属する認識モデルを識別するための識別値
Q(C):信頼度
α :経験的に決定する補正係数(0<α<1)
ここで、値Cは、例えばガラス破壊音、セラミック破壊音などの認識モデル名を用いることができる。また、式(2)において、集合I={i|Label(i,2)=C}は、条件Label(i,2)を満たす対象だけを集めた値iの集合を集合Iとすることを意味する。値j=2となっているのは、図3の例で、値j=2番目のラベルが認識結果となっているためである。式(2)において、分母は、分類上の全ての認識モデルの出現確率の総和を示し、分子は、分類上の認識モデルCの出現確率を示す。
【0044】
正解率算出部14は、信頼度算出部13で算出された信頼度Q(C)と、HMM認識処理部11で得られた認識結果とを用いて、認識結果の正解率を算出する。本実施形態では、認識結果が目的音を示している場合に、観測音が目的音であると仮定した場合と、観測音が非目的音であると仮定した場合との2通りの尤度を求めて正解率を算出する。また、認識結果が非目的音を示している場合にも、観測音が目的音であると仮定した場合と、観測音が非目的音であると仮定した場合との2通りの尤度を求めて正解率を算出する。
【0045】
(a)認識結果が目的音を示している場合の尤度は、下記のようにして算出する。先ず、観測音が目的音であると仮定した場合の、目的音を示す認識結果および信頼度Qの尤度(第1の尤度)は、次式(3)で示される。なお、以下において、記号Iは観測音、記号Rは認識結果、記号Objectは目的音、記号NotObjectは非目的音をそれぞれ示す。
P(Q,R=Object|I=Object) …(3)
【0046】
また、観測音が非目的音であると仮定した場合の、目的音を示す認識結果および信頼度Qの尤度(第2の尤度)は、次式(4)で示される。
P(Q,R=Object|I=NotObject) …(4)
【0047】
(b)認識結果が非目的音を示している場合の尤度は、下記のようにして算出する。先ず、観測音が目的音であると仮定した場合の、非目的音を示す認識結果および信頼度Qの尤度(第3の尤度)は、次式(5)で示される。
P(Q,R=NotObject|I=Object) …(5)
【0048】
また、観測音が非目的音であると仮定した場合の、非目的音を示す認識結果および信頼度Qの尤度(第4の尤度)は、次式(4)で示される。
P(Q,R=NotObject|I=NotObject) …(6)
【0049】
式(3)〜式(6)で示した各尤度の算出方法について説明する。一般に、仮説(I)に対する結果(Q,R)の尤度は、次式(7)により算出される。
【数3】

ここで、式(7)における値P(Q|I,R)は、値Qの確率密度関数(PDF:Probability Density Function)の値であり、値P(R|I)は認識率である。したがって、式(7)から、信頼度Qの尤度は、確率密度関数と認識率の積で求められることが分かる。
【0050】
次に、上述の式(3)〜式(6)における尤度を、式(7)に従い算出するための確率密度関数および認識率について説明する。先ず、確率密度関数の推定方法について説明する。確率密度関数は、下記の方法により予め算出し、例えば正解率情報記憶部15に記憶しておく。
【0051】
確率密度関数は、観測音について目的音(Object)および非目的音(NotObject)、認識結果について目的音(Object)および非目的音(NotObject)の組み合わせで場合分けする。より具体的には、図4に例示されるように、観測音が目的音、且つ、認識結果が目的音を示す第1の場合と、観測音が目的音、且つ、認識結果が非目的音を示す第2の場合と、観測音が非目的音、且つ、認識結果が目的音の第3の場合と、観測音が非目的音、且つ、認識結果が非目的音の第4の場合とのそれぞれについて、確率密度関数を求める。
【0052】
なお、図4に例示されるように、第1の場合および第4の場合が、観測音が正しく認識された正認識であり、第2の場合および第3の場合が、観測音が誤って認識された誤認識となる。
【0053】
確率密度関数の具体的な求め方としては、先ず、予め用意した目的音および非目的音それぞれの音響データに対して、HMMにより既に説明したようにして認識処理を行い、信頼度の度数分布を上述の第1の場合〜第4の場合についてそれぞれ求める。この度数分布から、確率密度関数を推定する。このとき、度数分布を関数近似して確率密度関数とする。図5(a)〜図5(d)は、混合正規分布を用いて度数分布を近似した確率密度関数の例を示す。図5(a)が上述した第1の場合、図5(b)が第2の場合、図5(c)が第3の場合、図5(d)が第4の場合をそれぞれ示す。各図において、横軸が信頼度、縦軸が信頼度の頻度、点線が度数分布の実験値、実線が関数近似を行った確率密度関数を示す。なお、関数近似の方法は、混合正規分布に限定されない。
【0054】
上述の式(3)〜式(6)における尤度を、式(7)に従い算出するための認識率について説明する。ここでの認識率は、予め目的音および非目的音のそれぞれについて用意した音響データに対してHMMによる認識処理を行った際に得られる認識結果から算出する。算出された認識率は、例えば、観測音および認識結果が目的音であるか否かを示す情報と対応付けられて正解率情報記憶部15に予め記憶される。
【0055】
図6は、認識率の算出結果の例を示す。この図6の例では、観測音が目的音の場合に認識結果が目的音となる認識率P(R=Object|I=Object)が71%、観測音が目的音の場合に認識結果が非目的音となる認識率P(R=NotObject|I=Object)が29%となっている。また、観測音が非目的音の場合に認識結果が目的音となる認識率P(R=Object|I=NotObject)が4%、観測音が非目的音の場合に認識結果が非目的音となる認識率P(R=NotObject|I=NotObject)が96%となっている。
【0056】
以上のように求められた確率密度関数および認識率を用いて、認識結果が目的音であった場合の正解率と、認識結果が非目的音であった場合の正解率とをそれぞれ算出する。
【0057】
認識結果が目的音であった場合の正解率は、上述した式(3)および式(4)を用いて、次式(8)により算出する。すなわち、観測音が目的音と仮定した場合の、目的音を示す認識結果と信頼度の第1の尤度と、観測音が非目的音と仮定した場合の、目的音を示す認識結果と信頼度の第2の尤度との和に対する、第1の尤度の比が正解率となる。
【数4】

【0058】
上述した式(7)を用いると、第1の尤度および第2の尤度は、それぞれ下記の式(9)および(10)に示すように、確率密度関数と認識率との積の式に変形できる。これら式(9)および(10)から、観測音および認識結果が共に目的音の場合、ならびに、観測音が非目的音で認識結果が目的音の場合の、確率密度関数および認識率それぞれを用いることで正解率が求められることが分かる。
【数5】

【数6】

【0059】
これら式(8)〜式(10)を用いた、認識結果の信頼度が0.5であった場合の正解率の算出例を示す。観測音および認識結果が共に目的音の場合、ならびに、観測音が非目的音で、認識結果が目的音の場合の確率密度関数の値は、それぞれ、上述した図4(a)および図4(c)から、下記の式(11)および式(12)に示すように得られる。
P(Q|I=Object,R=Object)=25 …(11)
P(Q|I=NotObject,R=Object)=3 …(12)
【0060】
同様に、観測音および認識結果が共に目的音の場合、ならびに、観測音が非目的音で、認識結果が目的音の場合の認識率は、それぞれ、上述した図6から、下記の式(13)および式(14)に示すように得られる。
P(R=Object|I=Object)=71 …(13)
P(R=Object|I=NotObject)=4 …(14)
【0061】
これら式(11)〜式(14)で得られた値をそれぞれ上述の式(8)に代入すると、次式(15)のように、正解率LObjectが求められる。
Object=(25×71)/(25×71+3×4)=0.99 …(15)
よって、認識結果が目的音であった場合の正解率が99%と求められる。
【0062】
認識結果が非目的音であった場合の正解率も、上述の認識結果が目的音であった場合と同様の手順で算出できる。この場合、上述した式(5)および式(6)を用いて、次式(16)により算出する。すなわち、観測音が非目的音と仮定した場合の、非目的音を示す認識結果と信頼度の第3の尤度と、観測音が目的音と仮定した場合の、非目的音を示す認識結果と信頼度の第4の尤度との和に対する、第3の尤度の比が正解率となる。
【数7】

【0063】
上述した式(7)を用いると、第3の尤度および第4の尤度は、それぞれ下記の式(17)および(18)に示すように、確率密度関数と認識率との積の式に変形できる。これら式(17)および(18)から、観測音および認識結果が共に非目的音の場合、ならびに、観測音が目的音で認識結果が非目的音の場合の、確率密度関数および認識率それぞれを用いることで正解率が求められることが分かる。
【数8】

【数9】

【0064】
これら式(16)〜式(18)を用いた、認識結果の信頼度が0.5であった場合の正解率の算出例を示す。観測音および認識結果が共に非目的音の場合、ならびに、観測音が目的音で、認識結果が非目的音の場合の確率密度関数の値は、それぞれ、上述した図4(b)および図4(d)から、下記の式(19)および式(20)に示すように得られる。
P(Q|I=NotObject,R=NotObject)=22 …(19)
P(Q|I=Object,R=NotObject)=2200 …(20)
【0065】
同様に、観測音および認識結果が共に非目的音の場合、ならびに、観測音が目的音で、認識結果が非目的音の場合の認識率は、それぞれ、上述した図6から、下記の式(21)および式(22)に示すように得られる。
P(R=NotObject|I=NotObject)=96 …(21)
P(R=NotObject|I=Object)=29 …(22)
【0066】
これら式(19)〜式(22)で得られた値をそれぞれ上述の式(16)に代入すると、次式(23)のように、正解率LObjectが求められる。
Object=(22×96)/(22×96+2200×29)=0.03 …(23)
よって、認識結果が目的音であった場合の正解率が3%と求められる。
【0067】
このように、式(8)〜式(23)を用いて説明したような方法で、HMMによる認識結果と、認識結果に対する信頼度とから正解率を算出することができる。
【0068】
ここで、上述の式(8)〜式(23)に従った正解率の算出は、演算量が多く、実際の装置に適用させた場合に、装置における演算処理の負荷が大きくなってしまう。このため、信頼度と正解率との関係を予め求め、観測音の音響データ20に基づき算出された信頼度を、この予め求めた信頼度と正解率との関係に適用することで、簡易な処理により正解率を求めることが可能となる。
【0069】
一例として、予め用意した目的音および非目的音の音響データを用いて、上述したようにして、HMMによる認識処理を行い、得られた認識結果の信頼度と正解率とを求める。すなわち、ここで得られた信頼度および正解率は、実際の音響データから求めた実測値となる。この実測値は、信頼度と正解率との対応関係を示すものとなる。そして、この実測値に対して、一般的な近似方法である多項式近似を行うことで、信頼度から正解率に変換する信頼度−正解率変換曲線を算出する。
【0070】
図7(a)および図7(b)は、この信頼度−正解率変換曲線の例を示す。図7(a)は、認識結果が目的音を示す場合の信頼度と正解率との一例の関係を示す。図7(b)は、認識結果が非目的音を示す場合の信頼度と正解率との一例の関係を示す。図中において、縦軸が正解率、横軸が信頼度を示す。また、菱形(◇)は、実測値を示し、実線の曲線は、実測値に対して多項式近似を行って作成した信頼度−正解率変換曲線の例である。
【0071】
この信頼度−正解率変換曲線は、予め求めておき、変換曲線データとして例えば正解率情報記憶部15に記憶しておく。一例として、信頼度−正解率変換曲線を求める際に用いた実測値と、近似化の際のパラメータとを共に記憶しておくことが考えられる。これに限らず、所定のステップで算出した信頼度と正解率とを対応付けて変換テーブルとして記憶しておいてもよい。
【0072】
正解率算出部14は、観測音の音響データ20に基づき信頼度算出部13で信頼度が算出されると、正解率情報記憶部15に記憶される変換曲線データのうち認識結果に対応する変換曲線データを参照して、算出された信頼度に対応する正解率を求める。
【0073】
本実施形態による音認識装置10では、観測音による音響データ20に対する認識結果と、認識結果に基づき得られた正解率とから、結果出力の通知内容および通知先など対応を変化させることができる。図8のフローチャートを用いて、認識結果と正解率とから結果出力の対応を変化させる一例の処理について説明する。
【0074】
図8において、マイクロフォンなどで集音された観測音による音響信号が、A/D変換されて音響データ20として音認識装置10に入力される(ステップS100)。次のステップS101で、HMM認識処理部11は、入力された音響データ20の特徴量を抽出し、抽出された特徴量と認識モデル記憶部12に予め記憶された各認識モデルとを比較して、認識結果Rと、尤度Scoreとを求める。
【0075】
次のステップS102で、信頼度算出部13は、ステップS101で求められた尤度Scoreを時間で正規化して正規化尤度NScoreを算出し、正規化尤度NScoreを用いて認識結果Rの信頼度Qを算出する。
【0076】
次のステップS103で、正解率算出部14は、認識結果Rが目的音か否かを判定する。正解率算出部14は、例えば認識結果R内の、認識モデルの識別情報に基づき認識モデルの分類情報を参照し、認識結果Rが目的音か否かを判定する。若し、認識結果Rが目的音であると判定したら、処理をステップS104に移行させ、認識結果Rが目的音である場合の正解率LObjectを求める。正解率LObjectは、例えばステップS102で得られた信頼度Qに基づき、図7(a)を用いて説明した、認識結果Rが目的音を示す場合の信頼度−正解率変換曲線を参照して求めることができる。これに限らず、上述した式(8)に従って正解率LObjectを算出してもよい。
【0077】
次のステップS105で、警報出力処理部16は、認識結果Rが目的音である場合に対応して予め決められた閾値(閾値Aとする)と正解率LObjectとを比較し、正解率LObjectが閾値Aを超えているか否かを判定する。若し、超えていると判定した場合、処理をステップS106に移行させる。すなわち、正解率LObjectが閾値Aを超えている場合、観測音が目的音(異常音)を含む可能性が極めて高いと判断できる。警報出力処理部16は、ステップS106で、その旨示す通知を行い、このフローチャートによる一連の処理を終了させる。
【0078】
この音認識装置10を監視システムに適用した場合、ステップS106で、監視エリア内に異常が発生したと判断して警報出力30を出力することで、警備員の駆けつけや警察への通報などを行うことができる。
【0079】
一方、ステップS105で、警報出力処理部16は、正解率LObjectが閾値A以下であると判定した場合、処理をステップS107に移行させる。すなわち、正解率LObjectが閾値A以下の場合、観測音が目的音を含む可能性があると判断できる。警報出力処理部16は、ステップS107で、その旨示す通知を行い、このフローチャートによる一連の処理を終了させる。
【0080】
この音認識装置10を監視システムに適用した場合、ステップS107で、注意喚起を促す通知である注意喚起出力31を出力する。この注意喚起出力31は、例えば、図示されない通信I/Fからネットワークを介して、監視センタに送出される。この場合、監視員によって認識結果Rや、このときの観測音を実際に確認することで、異常であるか否かを判断することができる。
【0081】
上述のステップS103で、警報出力処理部16は、認識結果Rが目的音ではないと判定したら、処理をステップS108に移行させ、認識結果Rが非目的音である場合の正解率LNotObjectを求める。正解率LNotObjectは、例えばステップS102で得られた信頼度Qに基づき、図7(b)を用いて説明した、認識結果Rが非目的音を示す場合の信頼度−正解率変換曲線を参照して求めることができる。これに限らず、上述した式(16)に従って正解率LNotObjectを算出してもよい。
【0082】
次のステップS109で、警報出力処理部16は、認識結果Rが非目的音である場合に対応して予め決められた閾値(閾値Bとする)と正解率LNotObjectとを比較し、正解率LNotObjectが閾値Bを超えているか否かを判定する。若し、超えていると判定した場合、何もせずに一連の処理を終了させる。すなわち、正解率LNotObjectが閾値Bを超えている場合、観測音が非目的音である可能性が極めて高い(目的音を含まない可能性が極めて高い)と判断できる。この音認識装置10を監視システムに適用した場合、警報出力処理部16は、通知など行わずに一連の処理を終了させるようにできる。
【0083】
一方、ステップS109で、警報出力処理部16は、正解率LNotObjectが閾値B以下であると判定した場合、処理をステップS110に移行させる。すなわち、正解率LNotObjectが閾値B以下の場合、観測音が非目的音ではない可能性があると判断できる。そこで、警報出力処理部16は、ステップS110でその旨示す通知を行い、このフローチャートによる一連の処理を終了させる。
【0084】
この音認識装置10を監視システムに適用した場合、ステップS110で、注意喚起を促す通知である注意喚起出力31を出力する。この注意喚起出力31は、例えば、図示されない通信I/Fからネットワークを介して、監視センタに送出される。この場合、監視員によって認識結果Rや、このときの観測音を実際に確認することで、異常であるか否かを判断することができる。
【0085】
なお、上述した閾値Aおよび閾値Bは、互いに異なる値を設定することができる。
【0086】
本実施形態の音認識装置を、監視エリア内で不審者を検出した場合に警報を出力する警備装置に設けたり、本実施形態の音認識装置からの出力を上記警備装置に入力するように構成することができる。これにより、監視エリア内での不審音を容易かつ高精度に検出できるので、警備装置による誤報を防止することが可能となる。
【0087】
本実施形態では、観測音が目的音か非目的音かを示す認識結果に加え、当該認識結果の正解率を算出するようにしている。これにより、例えば正しい認識結果が僅差で2番目の尤度であっても注意喚起出力が可能で、認識漏れの発生を防止できる。また、正解率に応じて異常検知後の対応を変化させることができるため、セキュリティレベルを柔軟に設定可能な監視システムを実現することができる。
【0088】
また、正解率が十分低い値である場合には、観測音が目的音および非目的音の何れにも含まれない可能性が高いことを示している。すなわち、正解率が設定した閾値よりも低ければ、観測音が未知音であると判断される。これにより、未知音が観測された場合であっても認識漏れや誤認識が抑制される監視システムを実現することができる。
【0089】
(他の実施形態)
上述の実施形態による認識結果および正解率を示す情報を、監視センタなどにおいて監視映像上に表示させることができる。これにより、画像監視員による状況把握を補助することができる。また、観測音を記録しておき、正解率が所定以下の場合に記録した観測音を監視員が実際に聴いて再確認するように構成することもできる。
【符号の説明】
【0090】
10 音認識装置
11 HMM認識処理部
12 認識モデル記憶部
13 信頼度算出部
14 正解率算出部
15 正解率情報記憶部
16 警報出力処理部
20 音響データ
30 警報出力
31 注意喚起出力

【特許請求の範囲】
【請求項1】
目的音から特徴量を抽出して作成した第1の認識モデルと、非目的音から特徴量を抽出して作成した第2の認識モデルとを予め記憶する認識モデル記憶手段と、
観測音から特徴量を抽出して、隠れマルコフモデルを用いて、観測音から抽出した特徴量の前記第1の認識モデルおよび前記第2の認識モデルに対する尤度と、該観測音が前記目的音および前記非目的音のうち何れであるかを示す認識結果とを求める認識手段と、
前記認識結果が示す認識モデルに対応する前記尤度を用いて該認識結果の信頼度を算出する信頼度算出手段と、
前記認識結果と前記信頼度とを用いて、該認識結果が正しい確率を示す正解率を、該観測音が前記目的音であると仮定した場合の該仮定に対する尤度と、前記観測音が前記非目的音であると仮定した場合の該仮定に対する尤度とを用いて算出する正解率算出手段と、
前記認識結果と前記正解率とに基づき、前記認識結果が前記目的音を示し、且つ、前記正解率が第1の閾値以下の場合と、前記認識結果が前記非目的音を示し、且つ、前記正解率が第2の閾値以下の場合とにおいて、前記観測音が前記目的音および前記非目的音の何れにも属さない未知音であることを示す情報を出力する出力手段と
を有する
ことを特徴とする音認識装置。
【請求項2】
前記正解率算出手段は、
前記認識手段に求められた認識結果が目的音を示す場合に、
観測音が目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第1の尤度と、観測音が非目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第2の尤度とを求め、
該第1の尤度と該第2の尤度の和に対する前記第1の尤度の比を、前記正解率として算出し、
前記認識手段に求められた認識結果が非目的音を示す場合に、
観測音が目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第3の尤度と、観測音が非目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第4の尤度とを求め、
該第3の尤度と該第4の尤度との和に対する該第4の尤度の比を、前記正解率として算出する
ことを特徴とする請求項1に記載の音認識装置。
【請求項3】
前記正解率算出手段は、
予め求めた、前記認識手段で求められた認識結果が目的音である場合に観測音が目的音である確率と、予め求めた、目的音を隠れマルコフモデルで認識した際の認識結果が該目的音を示すと仮定した場合の信頼度の度数分布から推定される確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第1の尤度とし、
予め求めた、前記認識手段で求められた認識結果が目的音である場合に観測音が非目的音である確率と、予め求めた、非目的音を隠れマルコフモデルで認識した際の認識結果が目的音を示すと仮定した場合の信頼度の度数分布から推定される確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第2の尤度とし、
予め求めた、前記認識手段で求められた認識結果が目的音である場合に観測音が非目的音である確率と、予め求めた、目的音を隠れマルコフモデルで認識した際の認識結果が非目的音を示すと仮定した場合の信頼度の度数分布から推定する確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第3の尤度とし、
予め求めた、前記認識手段で求められた認識結果が非目的音である場合に観測音が非目的音である確率と、予め求めた、非目的音を隠れマルコフモデルで認識した際の認識結果が該非目的音を示すと仮定した場合の信頼度の度数分布から推定する確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第4の尤度とする
ことを特徴とする請求項2に記載の音認識装置。
【請求項4】
前記信頼度算出手段は、
前記認識手段で求められた、前記第1の認識モデルの尤度と前記第2の認識モデルの尤度との和に対する、該第1の認識モデルおよび該第2の認識モデルのうち前記識別結果が含まれる認識モデルの尤度の比を、前記信頼度として算出する
ことを特徴とする請求項1乃至請求項3の何れか1項に記載の音認識装置。
【請求項5】
目的音および非目的音それぞれに対して隠れマルコフモデルを用いて予め求めた信頼度と正解率とを対応付けて記憶する正解率情報記憶手段をさらに有し、
前記正解率算出手段は、
前記信頼度算出手段で算出された信頼度に対応する正解率を、前記正解率情報記憶手段に記憶された信頼度と正解率との対応関係に基づき求める
ことを特徴とする請求項1乃至請求項4の何れか1項に記載の音認識装置。
【請求項6】
前記出力手段は、
前記認識結果が前記第1の認識モデルを示し、且つ、前記正解率が第1の閾値を超える場合に、前記観測音が前記目的音であることを示す情報を出力する
ことを特徴とする請求項1乃至請求項5の何れか1項に記載の音認識装置。
【請求項7】
前記出力手段は、
前記認識結果が前記第2の認識モデルを示し、且つ、前記正解率が第2の閾値を超える場合に、前記観測音が前記非目的音であることを示す情報を出力する
ことを特徴とする請求項1乃至請求項6の何れか1項に記載の音認識装置。
【請求項8】
音声認識装置で実行される音声認識方法であって、
前記音声認識装置は、
目的音から特徴量を抽出して作成した第1の認識モデルと、非目的音から特徴量を抽出して作成した第2の認識モデルとを予め記憶する認識モデル記憶手段を備え、
認識手段が、観測音から特徴量を抽出して、隠れマルコフモデルを用いて、観測音から抽出した特徴量の前記第1の認識モデルおよび前記第2の認識モデルに対する尤度と、該観測音が前記目的音および前記非目的音のうち何れであるかを示す認識結果とを求める認識ステップと、
信頼度算出手段が、前記認識結果が示す認識モデルに対応する前記尤度を用いて該認識結果の信頼度を算出する信頼度算出ステップと、
正解率算出手段が、前記認識結果と前記信頼度とを用いて、該認識結果が正しい確率を示す正解率を、該観測音が前記目的音であると仮定した場合の該仮定に対する尤度と、前記観測音が前記非目的音であると仮定した場合の該仮定に対する尤度とを用いて算出する正解率算出ステップと、
出力手段が、前記認識結果と前記正解率とに基づき、前記認識結果が前記目的音を示し、且つ、前記正解率が第1の閾値以下の場合と、前記認識結果が前記非目的音を示し、且つ、前記正解率が第2の閾値以下の場合とにおいて、前記観測音が前記目的音および前記非目的音の何れにも属さない未知音であることを示す情報を出力する出力ステップと
を有する
ことを特徴とする音認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−133226(P2012−133226A)
【公開日】平成24年7月12日(2012.7.12)
【国際特許分類】
【出願番号】特願2010−286678(P2010−286678)
【出願日】平成22年12月22日(2010.12.22)
【出願人】(000202361)綜合警備保障株式会社 (266)
【出願人】(301021533)独立行政法人産業技術総合研究所 (6,529)
【Fターム(参考)】