音処理装置および音処理方法

【課題】日常音のモデルの自動的な更新を可能とする。
【解決手段】日常音を特性に基づきクラスタに分類し、クラスタに基づき異常音の判定を行う。クラスタをガウス分布の表現に変換したガウス分布を決定するパラメータを、新たに採取した採取音の特性を用いて更新する。更新の際に、採取音の特性がガウス分布に含まれる確率が、パラメータに決定されるガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、パラメータの更新を行う。また、採取音の特性がガウス分布に含まれる確率が、学習閾値よりも低い確率を表す異常音検出閾値未満である場合に、採取音が異常音であると判定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、観測音中の目的とする音を認識する際に用いて好適な音処理装置および音処理方法に関する。
【背景技術】
【０００２】
従来、警備において、特定の音に注目して異常事態の発生を検出することが行われている。例えば、監視エリア内でガラスの破壊音などの異常音を検知した際には、異常事態が発生したと判断することができる。また、異常音とは断定されないが、不審な物音などを検知した場合には、異常事態の発生か否かを判断する必要がある。このような特定の音を自動的に検知するためには、監視エリア内で観測される全ての観測音から、異常音や不審音を識別する必要がある。以下では、特に記載のない限り、異常音および不審音を纏めて異常音と呼ぶ。
【０００３】
音響情報を用いた第１の監視方法として、大きな物音を検出するために、音圧レベルが閾値を超えたことを検知するようにした方法が知られている。この場合、周囲の騒音が音圧レベルに対して与える影響により誤検出が発生するおそれがある。また、検出が望まれる異常音は、必ずしも音圧レベルが高いとは限らず、十分な監視が達成されない可能性がある。
【０００４】
一方、第２の方法として、音の周波数に関する特徴を用いて異常音を検出する技術も既に知られている。例えば、予め異常音のサンプルデータから周波数に関する特徴を抽出してモデルを作成し、観測音とモデルとの類似性から異常音であるか否かを判別する。この場合、検出対象の音の種類毎にモデルを用意する必要があり、監視環境で想定される膨大な種類の異常音の全てに対してモデルを用意することが困難である。
【０００５】
上述した第１および第２の方法の問題を解決するために、正常状態の音のみを学習することで、学習された音以外の音を異常であると判定する技術が提案されている（特許文献１参照）。この特許文献１の技術を用いることで、未知の音に対して対応することが可能になる。一方、この特許文献１の方法では、高精度に異常音を識別するためには、適用する環境における日常音を予め十分に学習させる必要があり、運用開始までに時間を要する。
【０００６】
これに対して、運用開始後に採取された音響データを用いて追加学習を行うことで、認識精度を向上させるようにした技術が提案されている。例えば、特許文献２は、日常音ではないと判定された観測音を記録しておき、この記録した観測音を監視員などが聴いて異常音であるか否かを判定する。そして、異常音であると判定された場合に、追加学習として新たに異常音のモデルを構築することで、認識精度を向上させている。
【０００７】
また例えば、特許文献３は、日常音に対して特徴を示す値などが一定以上離れた音が観測された場合、観測された音を未知音として記録し、この記録した未知音を監視員などが聴いて日常音であるか否かを判定する。そして、日常音であると判定されると、この未知音も含めて新たにモデルを構築することで、認識精度を向上させている。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特許第４１００４１３号明細書
【特許文献２】特許第４４１２３０６号明細書
【特許文献３】特許第４４１７３１８号明細書
【発明の概要】
【発明が解決しようとする課題】
【０００９】
しかしながら、上述の特許文献２および特許文献３の方法は、何れも、追加学習を行うために人の手を介在させる必要があるという問題点があった。また、経年などによる日常音の緩やかな変化への対応が困難であるという問題点があった。例えば、春期や夏期の日常音と、冬期の日常音とは異なると考えられる。特許文献２および特許文献３では、採取された音が日常音か否かの判定に人手が介在するため、このような、長時間掛けて緩慢に変化する音に対応することが困難である。
【００１０】
本発明は、上記を鑑みてなされたものであり、日常音のモデルの自動的な更新を可能とすることを目的とする。
【課題を解決するための手段】
【００１１】
上述した課題を解決し、目的を達成するために、本発明は、日常音を特性に基づきクラスタに分類し、クラスタに基づき異常音の判定を行う音処理装置であって、クラスタをガウス分布の表現に変換したガウス分布を決定するパラメータを、新たに採取した採取音の特性を用いて更新する更新手段を有し、更新手段は、採取音の特性がガウス分布に含まれる確率が、パラメータに決定されるガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、パラメータの更新を行うことを特徴とする。
【００１２】
また、本発明は、日常音を特性に基づきクラスタに分類し、クラスタに基づき異常音の判定を行う音処理方法であって、更新手段が、クラスタをガウス分布の表現に変換したガウス分布を決定するパラメータを、新たに採取した採取音の特性を用いて更新する更新ステップを有し、更新ステップは、採取音の特性がガウス分布に含まれる確率が、パラメータに決定されるガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、パラメータの更新を行うことを特徴とする。
【発明の効果】
【００１３】
本発明によれば、日常音のモデルの自動的な更新が可能となるという効果を奏する。
【図面の簡単な説明】
【００１４】
【図１】図１は、本発明の実施形態を概略的に示す略線図である。
【図２】図２は、ｋ−ｍｅａｎｓ法によるクラスタリングについて説明するための略線図である。
【図３】図３は、本発明の実施形態による日常音の初期学習処理を示す一例のフローチャートである。
【図４】図４は、クラスタＧ_kの多次元ガウス分布ｆ_k(ｘ|μ,Σ)での表現について説明するための略線図である。
【図５】図５は、異常音検出閾値ｑ_Tによる判定をより具体的に説明するための略線図である。
【図６】図６は、本発明の実施形態による異常音検出処理および逐次学習処理を示す一例のフローチャートである。
【図７】図７は、本発明の実施形態による逐次学習処理および異常検出処理をより具体的な例を用いて示す略線図である。
【図８】図８は、本実施形態に適用可能な音処理装置の機能を示す一例の機能ブロック図である。
【発明を実施するための形態】
【００１５】
以下に添付図面を参照して、本発明に係る音処理方法の一実施形態を詳細に説明する。実施形態の説明に先んじて、以下の説明に用いる用語の定義を行う。先ず、「観測音」とは、監視装置によって観測された音であり、例えばマイクロホンを用いて検知エリアから採取された全ての音を指す。「日常音」とは、観測音の中で日常的に採取される音であり、例えば騒音などの環境音や、一般的な行動で発生する物音を指す。また、「異常音」とは、観測音の中で日常的には観測されない異常な音であり、例えばガラスなどを破壊する際に発生する破壊音や打撃音、また、一般的な行動では発生しないと考えられる物音を指す。
【００１６】
図１は、本発明の実施形態を概略的に示す。本実施形態に適用される音処理装置は、図１（ａ）に示されるように、予め、警備エリアなど音の検知エリアにおける日常音を、マイクロホンなどを用いて採取し、採取した日常音を特性に基づき特性値の分布として分類し、学習する。このとき、分布は、多次元のガウス分布として表現される。運用時には、図１（ｂ）に示されるように、採取した音が学習により得られた分類に属するか否かを判定する。採取した音が分類に属しないと判定した場合には、異常音が検知されたものとして例えば警報通知を行う。一方、採取した音が分類に属すると判定した場合には、その音を用いて特性値の分布を更新し、逐次的に学習を行う。
【００１７】
本実施形態による音処理方法について、より具体的に説明する。日常音は検知エリア毎に異なるため、目的とする検知エリアの日常音の特性（例えば周波数特性）を学習して、異常音の識別を行う必要がある。日常音の学習は、一定期間に限られず、検知システム稼動中も逐次実行することによって、異常音の認識精度を保持できると考えられる。逐次学習の方法としては教師なし学習が適切である一方で、通常の逐次学習では学習データが増大するため、処理に支障を来たすおそれがある。そのため、学習データを増大させることなく学習できる方法が必要となる。
【００１８】
本実施形態では、逐次学習可能な教師なし学習として、一定期間の日常音をｋ−ｍｅａｎｓ法などを用いてクラスタリングし、得られた各クラスタを多次元ガウス分布で表現する。そして、新たに採取された音が日常音であると判定された場合に、その音に基づき、各クラスタの多次元ガウス分布を更新する。このとき、新たに採取された音の特性に対して、多次元ガウス分布により示される確率を閾値として与える。
【００１９】
（ｋ−ｍｅａｎｓ法によるクラスタリング）
本実施形態では、音のクラスタリングを、ｋ−ｍｅａｎｓ法を用いて行う。このｋ−ｍｅａｎｓ法によるクラスタリングについて、図２を用いて概略的に説明する。先ず、第１の処理として、クラスタリング対象の各データに対して、クラスタ数Ｋと、各クラスタのセントロイドとを初期値として与える。図２（ａ）の例では、５０個の２次元ランダムデータに対してクラスタ数Ｋ＝３を与え、各クラスタ１０ａ、１０ｂおよび１０ｃに対して、セントロイド１１ａ、１１ｂおよび１１ｃをそれぞれ与える。
【００２０】
次に、第２の処理として、採取された音の特性を示すデータ（以下、特に記載のない限り、単にデータと記述する）のそれぞれについて、各セントロイド１１ａ、１１ｂおよび１１ｃそれぞれとの距離を求め、各データを、セントロイド１１ａ、１１ｂおよび１１ｃのうち最も距離が近いセントロイドが属するクラスタにそれぞれ割り振る。その次に、第３の処理として、各クラスタにおいて、割り振られたデータに基づきセントロイドを求め、当該クラスタのセントロイドを更新する。
【００２１】
この第２の処理および第３の処理を繰り返し行い、各クラスタに対するデータの割り振りと、各セントロイドとの更新が無くなったら、処理を終了する。図２（ｂ）は、反復演算回数を７回とし、上述した図２（ａ）の状態から第２および第３の処理を７回繰り返した場合の例を示す。各データが更新されたクラスタ１０ａ’〜１０ｃ’にそれぞれ割り振られると共に、各クラスタ１０ａ’〜１０ｃ’のセントロイドがそれぞれ更新されたセントロイド１１ａ’〜１１ｃ’となる。
【００２２】
（初期設定）
図３は、本実施形態による日常音の初期学習処理を示す一例のフローチャートである。このフローチャートによる処理は、例えば、プログラムに従ったＣＰＵ(Central Processing Unit)の動作により実行される。
【００２３】
ステップＳ１００において、検知エリアとして設定された領域で発生する日常音を、マイクロホンなどにより採取する。次のステップＳ１０１では、採取した音から、音の特性を表す情報を抽出する。本実施形態では、採取した音に対してスペクトラム分析を施し、音の特性を示す情報として周波数パラメータｘ_m(ｍ＝1,2,…,Ｍ)を抽出する。以下では、Ｍ＝１６とし、周波数パラメータを１６次元の値とする。抽出された周波数パラメータｘ_mは、例えばＨＤＤ(Hard Disk Drive)やＲＡＭ(Random Access Memory)など所定の記憶媒体に蓄積される。
【００２４】
ステップＳ１００およびステップＳ１０１の処理を、予め決められた必要なデータ数が蓄積されるまで繰り返す（ステップＳ１０２）。また、ステップＳ１０２で必要なデータ数の蓄積が完了したと判定された後に、その他の必要とされる日常音のデータを追加して蓄積してもよい（ステップＳ１０３）。例えば、電話やＦＡＸの受信音などのような、予め周波数パラメータｘ_mが分かっている日常音については、音を採取する過程を経ずに、当該周波数パラメータｘ_mを記憶媒体に対して直接的に蓄積させることができる。
【００２５】
次のステップＳ１０４で、ステップＳ１０３までに蓄積されたデータに対してクラスタ数Ｋを与える。本実施形態において、クラスタ数Ｋの設定は、例えば次のようにして行う。検知エリアの日常音の周波数特性を基に、日常音を幾つかのクラスタに分類して学習することを考える。この場合、分類を行うクラスタ数Ｋは、例えば２〜３日間に検知エリアで発生した日常音を基に、最も分離精度の高い値を選択すればよい。このとき、クラスタＧ_k(ｋ＝1,2,…,Ｋ)間の平均的な分離精度で判断するため、分離精度と異常音検出精度との関係は、分かり難い。そこで、本実施形態では、クラスタ数Ｋを、各クラスタに含まれるデータ数のばらつきが小さくなるように決定する。
【００２６】
クラスタ数Ｋが決定されると、処理はステップＳ１０５に移行される。ステップＳ１０５では、各クラスタＧ_kにおけるセントロイドＣ_k(ｋ＝1,2,…,Ｋ)の初期値を与える。セントロイドＣ_kの初期値の選択方法としては、一般的に用いられる、乱数を用いる方法を適用することができる。
【００２７】
ステップＳ１０５で各クラスタＧ_kに対応するセントロイドＣ_kの初期値が与えられると、処理はステップＳ１０６に移行される。ステップＳ１０６では、図２を用いて説明したようにして、ｋ−ｍｅａｎｓ法を用いて初期学習データのクラスタリングを行い、セントロイドＣ_kと、クラスタＧ_kとを決定する。ｋ−ｍｅａｎｓ法による反復演算回数は、初期学習データ数、クラスタ数Ｋ、所要時間などに応じて設定することが考えられる。
【００２８】
次に、ステップＳ１０７で、ステップＳ１０６で決定した各クラスタＧ_kを、多次元ガウス分布ｆ_k(ｘ|μ,Σ)で表現する。本実施形態では、各クラスタＧ_kに属するデータの分布の中心値（平均値）と、分布の分散共分散行列とを用いて、各クラスタＧ_kを多次元ガウス分布ｆ_k(ｘ|μ,Σ)に変換する（ステップＳ１０６Ａ）。これにより、各クラスタＧ_kを、それぞれ多次元ガウス分布ｆ_k(ｘ|μ,Σ)のパラメータで表すことができる。
【００２９】
式（１）〜式（４）を用いて、クラスタＧ_kの多次元ガウス分布ｆ_k(ｘ|μ,Σ)への変換処理について説明する。先ず、初期学習データのｍ次元の周波数パラメータｘを、各次元の値を用いて式（１）のように表す。また、クラスタＧ_kの平均ベクトルμすなわちセントロイドＣ_kを、各次元の値を用いて式（２）のように表す。式（３）は、式（１）に示した、クラスタＧ_kに属する初期学習データのｍ次元のパラメータｘ_mを用いて算出される、分散共分散行列である。
【数１】

【数２】

【数３】

【００３０】
クラスタＧ_kが変換された多次元ガウス分布ｆ_k(ｘ|μ,Σ)は、上述した式（１）〜式（３）を用いて、次式（４）のように表される。
【数４】

【００３１】
多次元ガウス分布ｆ_k(ｘ|μ,Σ)は、式（２）および式（３）により分布が定義される。したがって、クラスタＧ_kを多次元ガウス分布ｆ_k(ｘ|μ,Σ)に変換することで、クラスタＧ_kに属する全ての初期学習データを保持しなくとも、クラスタＧ_kを特定することが可能である。
【００３２】
図４を用いて、クラスタＧ_kの多次元ガウス分布ｆ_k(ｘ|μ,Σ)での表現について説明する。図４（ａ）は、上述の図２（ｂ）に対応するもので、パラメータを２次元とし、各データに対してクラスタ１０ａ’〜１０ｃ’と、これら各クラスタ１０ａ’〜１０ｃ’のセントロイド１１ａ’〜１１ｃ’が決定された例を示す。
【００３３】
図４（ｂ）は、図４（ａ）のクラスタ１０ａ’〜１０ｃ’を、上述した式（１）〜式（４）に従い多次元ガウス分布ｆ_k(ｘ|μ,Σ)で表現したクラスタ２０ａ、２０ｂおよび２０ｃの例を示す。この場合、各クラスタ２０ａ〜２０ｃにおいて、それぞれの平均ベクトルμすなわちセントロイドＣ₁、Ｃ₂およびＣ₃により中心位置が決まり、分散共分散行列Σにより広がりが決まる。そのため、図４（ａ）に示される、各初期学習データを保持する必要が無い。
【００３４】
以上のようにして初期学習データを各クラスタＧ_kに分類し、これら各クラスタＧ_kを多次元ガウス分布ｆ_k(ｘ|μ,Σ)に変換することで、一連の初期学習処理が終了する。初期学習処理の結果、上述したように、各クラスタＧ_kの平均ベクトルμ（セントロイドＣ_k）と、クラスタＧ_kに属する初期学習データから求めた分散共分散行列Σとが記憶媒体に保持される。各初期学習データ自体は、捨ててよい。
【００３５】
（異常音検出処理）
次に、本実施形態による、異常音検出処理および逐次学習処理について説明する。本実施形態では、異常音検出の運用を開始した後、音が採取されると、採取された音と各セントロイドＣ_kとの間の距離（ユークリッド距離）を求め、採取された音に最も距離が近いクラスタＧ_Lを選択する。このクラスタＧ_Lは、多次元ガウス分布ｆ_k(ｘ|μ,Σ)で表現されている。そのため、採取された音の、選択されたクラスタＧ_Lすなわち多次元ガウス分布ｆ_k(ｘ|μ,Σ)における位置を求めることで、採取された音がクラスタＧ_Lに含まれる確率を算出することができる。この確率に対して閾値判定を行い、採取された音が異常音および日常音の何れであるかを判定する。
【００３６】
目的のデータがクラスタＧ_Lすなわち多次元ガウス分布ｆ_k(ｘ|μ,Σ)に含まれる確率は、次のようにして求める。先ず、閾値判定の対象となる、ｍ次元のデータと、このデータにユークリッド距離が最も近い、多次元ガウス分布ｆ_k(ｘ|μ,Σ)で表現されるクラスタＧ_LにおけるセントロイドＣ_Lとの間のマハラノビス平方距離Ｄ²を算出する。この場合のマハラノビス平方距離Ｄ²を求めるための式を、次式（５）に示す。
【数５】

【００３７】
式（５）で算出されたマハラノビス平方距離Ｄ²は、自由度ｍのカイ二乗分布に従うことから、マハラノビス平方距離Ｄ²を基準としたカイ二乗分布の上側累積確率を計算することで、目的のデータの多次元ガウス分布ｆ_k(ｘ|μ,Σ)での位置が分かる。次式（６）に、自由度ｍのカイ二乗分布ｆ(ｍ,ｘ)を算出する式を示す。なお、式（６）におけるガンマ関数Γ(ｍ/２)は、式（７）の通りである。
【数６】

【数７】

【００３８】
これら式（６）および式（７）で算出された自由度ｍのカイ二乗分布ｆ(ｍ,ｘ)と、マハラノビス平方距離Ｄ²とに基づき、次式（８）に従い、カイ二乗分布の上側累積確率Ｑ(ｍ,Ｄ²)を求める。この式（８）で算出される確率Ｑ(ｍ,Ｄ²)が、目的のデータがクラスタＧ_Lすなわち多次元ガウス分布ｆ_k(ｘ|μ,Σ)に含まれる確率となる。
【数８】

【００３９】
図５を用いて、異常音検出閾値ｑ_Tによる判定について、より具体的に説明する。図５の例では、周波数パラメータｙ_mの次元を２として、ｘｙ平面上に○（白丸）および●（黒丸）で各データを示している。図中の白丸が２次ランダムデータによる初期学習データを示す。図中に黒丸で示されるデータ＃１〜データ＃８は、この初期学習データに対して追加された、判別対象の判別データであるものとする。
【００４０】
これらデータ＃１〜＃８の座標ｘ,ｙ、マハラノビス平方距離Ｄ²およびカイ二乗上側累積確率Ｑ(ｍ,Ｄ²)を求めた例を下記に記す。なお、データ＃８は、初期学習データの中心、すなわち、初期学習データによるクラスタにおけるセントロイドと同位置のデータであり、マハラノビス平方距離Ｄ²＝０、カイ二乗上側累積確率Ｑ(ｍ,Ｄ²)＝１．０（１００％）となる。
【００４１】
データ＃１：座標(50.517,82.363)、Ｄ₂＝13.883、Ｑ(ｍ,Ｄ²)＝0.00097
データ＃２：座標(22.107,17.194)、Ｄ₂＝3.812、Ｑ(ｍ,Ｄ²)＝0.14867
データ＃３：座標(55.030,63.564)、Ｄ₂＝1.768、Ｑ(ｍ,Ｄ²)＝0.41313
データ＃４：座標(53.200,31.968)、Ｄ₂＝4.006、Ｑ(ｍ,Ｄ²)＝0.13493
データ＃５：座標(44.996,67.408)、Ｄ₂＝6.602、Ｑ(ｍ,Ｄ²)＝0.03685
データ＃６：座標(52.393,43.124)、Ｄ₂＝0.519、Ｑ(ｍ,Ｄ²)＝0.77144
データ＃７：座標(15.000,38.000)、Ｄ₂＝7.588、Ｑ(ｍ,Ｄ²)＝0.02251
データ＃８：座標(50.393,48.124)、Ｄ₂＝0.000、Ｑ(ｍ,Ｄ²)＝1.00000
【００４２】
例えば、異常音検出を行うための閾値を、採取された音（目的データ）がクラスタＧ_Lすなわち多次元ガウス分布ｆ_k(ｘ|μ,Σ)に含まれる確率＝０．０２５０に設定したものとする。図５における楕円は、この多次元ガウス分布ｆ_k(ｘ|μ,Σ)における確率＝０．０２５０の範囲を示す。この場合、データ＃１およびデータ＃７において、カイ二乗上側累積確率Ｑ(ｍ,Ｄ²)の値が当該閾値以下であり、これらデータ＃１およびデータ＃７の音が異常音であると判定することができる。
【００４３】
（逐次学習処理）
また、本実施形態では、異常音検出の運用を開始した後に採取された日常音を逐次学習する。これにより、異常音の検出精度を向上させることができると共に、日常音の経時的な変化に対しても対応可能となる。
【００４４】
採取された音の実データを逐次学習すると、学習データが増大する。そこで、本実施形態においては、既に採取した音をクラスタリングした各クラスタＧ_kを表現する多次元ガウス分布ｆ_k(ｘ|μ,Σ)を、新たに採取した音に基づき更新する。より具体的には、新たに採取した音の周波数パラメータｙ_mを用いて、多次元ガウス分布ｆ_k(ｘ|μ,Σ)の平均ベクトルμと分散共分散行列Σとを更新する。この場合、更新される多次元ガウス分布ｆ_k(ｘ|μ,Σ)の平均ベクトルμおよび分散共分散行列Σが、それぞれ更新されたセントロイドＣ_k’およびクラスタＧ_k’となる。
【００４５】
この操作を逐次的に繰り返すことにより、確率的に、日常音を異常音とする誤報と、異常音を日常音とする失報とが減少するように、多次元ガウス分布ｆ_k(ｘ|μ,Σ)が更新される。
【００４６】
なお、逐次学習における多次元ガウス分布ｆ_k(ｘ|μ,Σ)の更新は、新たに採取された音がクラスタＧ_Lに含まれる確率に対して閾値判定を行い、当該確率が閾値異常であった場合に行うようにする。この逐次学習における閾値（学習更新閾値ｕ_Tと呼ぶ）は、上述の異常音判定の際の閾値（異常音検出閾値ｑ_Tと呼ぶ）とは別に設定することができる。この場合、学習更新閾値ｕ_Tは、異常音検出閾値ｑ_Tよりも高い確率の値を選択する。これら学習更新閾値ｕ_Tおよび異常音検出閾値ｑ_Tは、例えば実験的な手法により予め求め、ＨＤＤなどの記憶媒体に記憶しておく。
【００４７】
（異常音検出処理および逐次学習処理の流れ）
図６は、本実施形態による、異常音検出処理および逐次学習処理を示す一例のフローチャートである。なお、このフローチャートの処理に先立って、上述した図２のフローチャートの処理により、初期学習データから求めたクラスタＧ_kを変換した多次元ガウス分布ｆ_k(ｘ|μ,Σ)が求められているものとする。
【００４８】
ステップＳ１２０で、初期学習データに基づく初期のセントロイドＣ_k(ｋ＝1,2,…,Ｋ)および初期のクラスタＧ_k(ｋ＝1,2,…,Ｋ)による多次元ガウス分布ｆ_k(ｘ|μ,Σ)が用意される。より具体的には、各クラスタＧ_kそれぞれについて、セントロイドＣ_kと、分散共分散行列Σとが用意される。
【００４９】
次のステップＳ１２１で、マイクロホンなどで観測音すなわち検知エリアの音が採取され、ステップＳ１２２で、観測音に対してスペクトル分析などが施され、周波数パラメータｙ_m(ｍ＝1,2,…,Ｍ)が抽出される。なお、ここでは、初期学習データの場合と対応し、Ｍ＝１６として、周波数パラメータｙ_mが１６次元の値であるとする。
【００５０】
次のステップＳ１２３で、ステップＳ１２２で抽出された周波数パラメータｙ_mと、各セントロイドＣ_kとの間のユークリッド距離ｄ(ｙ_m,Ｃ_k)が算出される。算出された各ユークリッド距離ｄ(ｙ_m,Ｃ_k)に基づき、ステップＳ１２４で、各クラスタＧ_kのうち周波数パラメータｙ_mに最も近いクラスタＣ_Lが選択される。
【００５１】
次のステップＳ１２５で、上述した式（５）に従い、ステップＳ１２４で選択されたクラスタＣ_Lと、周波数パラメータｙ_mとのマハラノビス平方距離Ｄ_L²が算出される。次に、ステップＳ１２６で、ステップＳ１２５で算出したクラスタＣ_Lと、周波数パラメータｙ_mとのマハラノビス平方距離Ｄ_L²に基づき、上述した式（６）に従い、自由度ｍのカイ二乗分布ｆ(ｍ,ｘ)が算出される。次のステップＳ１２７で、ステップＳ１２６で算出された自由度ｍのカイ二乗分布ｆ(ｍ,ｘ)と、ステップＳ１２５で算出されたマハラノビス平方距離Ｄ_L²とに基づき、上述した式（８）に従い、周波数パラメータｙ_mがクラスタＧ_Lに含まれる確率Ｑ(ｍ,Ｄ_L²)を求める。
【００５２】
次のステップＳ１２８およびステップＳ１２９において、ステップＳ１２７で算出された確率Ｑ(ｍ,Ｄ_L²)に対する学習更新閾値ｕ_Tおよび異常音検出閾値ｑ_Tによる閾値判定が行われる。先ず、ステップＳ１２８では、学習更新閾値ｕ_Tによる閾値判定が行われる。若し、確率Ｑ(ｍ,Ｄ_L²)が学習更新閾値ｕ_T以上であると判定された場合、処理がステップＳ１３１に移行され、多次元ガウス分布ｆ_k(ｘ|μ,Σ)や、クラスタＧ_k、セントロイドＣ_kの更新が行われる。この場合、対象の音が、学習更新閾値ｕ_Tの範囲内にあるとされる。ステップＳ１３１での処理の詳細については、後述する。
【００５３】
一方、ステップＳ１２８で、確率Ｑ(ｍ,Ｄ_L²)が学習更新閾値ｕ_T未満であると判定された場合、処理がステップＳ１２９に移行される。ステップＳ１２９では、異常音検出閾値ｑ_Tによる閾値判定が行われる。若し、確率Ｑ(ｍ,Ｄ_L²)が異常音検出閾値ｑ_T以下であると判定されたら、処理はステップＳ１３０に移行され、異常音が検出されたと判定される。すなわち、この場合、対象の音が異常音検出閾値ｑ_Tの範囲外にあるとされ、対象の音がクラスタに含まれないと見做される。本実施形態による音処理装置が監視システムに適用される場合には、このステップＳ１３０で異常音検出の旨を示す通知が出力される。
【００５４】
一方、ステップＳ１２９で確率Ｑ(ｍ,Ｄ_L²)が異常音検出閾値ｑ_Tを超えると判定されたら、処理はステップＳ１２１に戻され、音の採取などの一連の処理が継続して行われる。
【００５５】
ステップＳ１２８で確率Ｑ(ｍ,Ｄ_L²)が学習更新閾値ｕ_T未満であると判定された場合、処理がステップＳ１３１に移行され、各クラスタＣ_kの多次元ガウス分布ｆ_k(ｘ|μ,Σ)の更新が行われる。そして、次のステップＳ１３２で、更新された多次元ガウス分布ｆ_k(ｘ|μ,Σ)に従い、各クラスタＧ_kおよびセントロイドＣ_kが更新される。これらクラスタＧ_kおよびセントロイドＣ_kの更新は、実際には、各クラスタＧ_kの平均ベクトルμおよび分散共分散行列Σのみが更新される。
【００５６】
各クラスタＧ_kおよびセントロイドＣ_kが更新されると、処理がステップＳ１２１に戻され、音の採取などの一連の処理が継続して行われる。
【００５７】
逐次学習の方法について、より具体的に説明する。あるクラスタＧにおける、ｉ次元目の周波数パラメータｙｉの平均ベクトルμ_iは、次式（９）により算出される。なお、以下の各式において、値Ｎは当該クラスタＧに含まれるデータ数を示し、値ｍは、当該データ（周波数パラメータｙ）の次元を示す。
【数９】

【００５８】
また、あるクラスタＧにおける、ｉ次元目およびｊ次元目の分散共分散σ_i,jは、次式（１０）により算出される。
【数１０】

【００５９】
次に、ステップＳ１２１で新たに採取された音によるデータ（周波数パラメータｙ_m）をデータｙ_iとすると、平均ベクトルμ_iは、次式（１１）に従い更新され、更新された平均ベクトルμ_i^NEWが得られる。
【数１１】

【００６０】
同様に、分散共分散σ_i,jは、更新された平均ベクトルμ_i^NEWを用いて次式（１２）に従い更新され、更新された分散共分散σ_i,j^NEWが得られる。
【数１２】

【００６１】
多次元ガウス分布ｆ_k(ｘ|μ,Σ)は、平均ベクトルμおよび分散共分散行列Σにより完全に決定されるので、これら更新された平均ベクトルμ_i^NEWおよび分散共分散σ_i,j^NEWが得られることで、多次元ガウス分布ｆ_k(ｘ|μ,Σ)が新たに採取された音により更新され、クラスタＧが更新される。
【００６２】
また、上述の式（１１）および式（１２）から分かるように、ｍ次元の多次元ガウス分布ｆ_k(ｘ|μ,Σ)を更新するためには、過去の全データを記憶しておく必要はなく、次式（１３）および（１４）に示されるように、更新された各クラスタＧ_kの平均ベクトルμ_ｉと、平均ベクトルμ_ｉを減じない状態の分散共分散行列ｖ_i,jを記憶しておけばよい。
【数１３】

【数１４】

【００６３】
なお、図６のフローチャートの処理は、ステップＳ１３１およびステップＳ１３２による多次元ガウス分布ｆ_k(ｘ|μ,Σ)や、クラスタＧ_k、セントロイドＣ_kの更新処理が予め定められた時間毎に実行されるように制御される。すなわち、ステップＳ１２８において確率Ｑ(ｍ,Ｄ_L²)が学習更新閾値ｕ_T未満であると判定された場合以外において、ステップＳ１３１およびステップＳ１３２による処理が予め定められた時間間隔で実行されるように、図６のフローチャートの処理が制御される。
【００６４】
図７は、上述した逐次学習処理および異常検出処理をより具体的な例を用いて示す。図７（ａ）は、初期学習データに基づく学習更新閾値ｕ_Tおよび異常音検出閾値ｑ_Tの例を示す。これら学習更新閾値ｕ_Tおよび異常音検出閾値ｑ_Tに基づき、新たに採取した音４０および４１が異常音であるか否かを判定する場合について考える。なお、音４０および音４１は、それぞれ異常音であるものとする。
【００６５】
音４０は、異常音検出閾値ｑ_Tの範囲外にあり、図５のフローチャートにおけるステップＳ１２８およびステップＳ１２９により、異常音として判定される。一方、音４１は、異常音検出閾値ｑ_Tの境界付近に位置する音であり、日常音に類似した異常音である。この図７（ａ）の例では、音４１は、異常音検出閾値ｑ_Tの範囲内にあり、図５のフローチャートにおけるステップＳ１２９により異常音ではない、すなわち日常音として判定されてしまっている。
【００６６】
異常音検出の運用中に、図７（ｂ）に示されるように、学習更新閾値ｕ_Tの範囲内に位置する音４２ａ、４２ｂおよび４２ｃが採取されたものとする。この場合、図５のフローチャートにおけるステップＳ１２８の判定により、処理がステップＳ１３１およびステップＳ１３２に移行され、これら音４２ａ、４２ｂおよび４２ｃを用いて多次元ガウス分布ｆ_k(ｘ|μ,Σ)や、クラスタＧ_k、セントロイドＣ_kの更新がなされる。
【００６７】
上述したように、これら学習更新閾値ｕ_Tおよび異常音検出閾値ｑ_Tは、初期学習データに基づく多次元ガウス分布ｆ_k(ｘ|μ,Σ)における確率により示される。そのため、この多次元ガウス分布ｆ_k(ｘ|μ,Σ)の更新に伴い、学習更新閾値ｕ_Tおよび異常音検出閾値ｑ_Tも更新され、更新された学習更新閾値ｕ_T’および異常音検出閾値ｑ_T’となる。その結果、図７（ｃ）に例示されるように、音４１が更新された異常音検出閾値ｑ_T’の範囲外となり、異常音と判定されるようになる。
【００６８】
（実施形態に適用可能な構成）
図８は、本実施形態に適用可能な音処理装置２００の機能を示す一例の機能ブロック図である。音処理装置２００は、Ａ／Ｄ変換部１００および周波数パラメータ算出部１０１を有すると共に、初期学習部１１０、記憶部１２０および異常音検出部１３０を有する。記憶部１２０としては、ＨＤＤや不揮発性の半導体メモリといった書き換え可能な不揮発性の記憶媒体を適用することができる。
【００６９】
検知エリアの音がマイクロホン５０で採取され、アナログ音響信号として音処理装置２００に入力され、Ａ／Ｄ変換部１００に供給される。Ａ／Ｄ変換部１００は、供給されたアナログ音響信号をディジタルデータに変換し、音響データとして周波数パラメータ算出部１０１に供給する。周波数パラメータ算出部１０１は、供給された音響データに対してスペクトラム分析を施し、Ｍ次元の値として周波数パラメータｘ_m(ｍ＝1,2,…,Ｍ)を抽出する。例えば、周波数パラメータ算出部１０１は、Ｍ＝１６として、１６次元の値としての周波数パラメータｘ_mを抽出する。
【００７０】
初期学習部１１０は、日常音パラメータ蓄積部１１１、追加音パラメータ蓄積部１１２およびクラスタリング演算部１１３を有する。日常音パラメータ蓄積部１１１および追加音パラメータ蓄積部１１２は、例えばＨＤＤや不揮発性の半導体メモリといった記憶媒体からなる。初期学習部１１０は、この音処理装置２００におる異常音検出の運用に先立って、図３のフローチャートの処理に従って初期学習データの採取を行い、採取した初期学習データのクラスタリングおよびクラスタの多次元ガウス分布への変換処理を行う。
【００７１】
より具体的には、異常音検出の運用前の所定期間において、周波数パラメータ算出部１０１が、マイクロホン５０で採取された検知エリアの音に基づく音響データから周波数パラメータｘ_mを抽出する。抽出された周波数パラメータｘ_mは、初期学習部１１０に入力され、日常音による周波数パラメータｘ_mとして、日常音パラメータ蓄積部１１１に蓄積される。異常音検出の運用前における検知エリアからの日常音の採取および日常音による周波数パラメータｘ_mの日常音パラメータ蓄積部１１１への蓄積は、予め定められた数の周波数パラメータｘ_mが蓄積されるまで、継続して行われる。
【００７２】
一方、追加音パラメータ蓄積部１１２は、その他の必要とされる日常音のデータが予め蓄積される。例えば、電話やＦＡＸの受信音などのような、周波数パラメータｘ_mが既知の日常音については、音を採取する過程を経ずに、当該周波数パラメータｘ_mを追加音パラメータ蓄積部１１２に予め蓄積させておくことができる。
【００７３】
クラスタリング演算部１１３は、図３のフローチャートにおけるステップＳ１０４〜ステップＳ１０７に従い、日常音パラメータ蓄積部１１１および追加音パラメータ蓄積部１１２に蓄積された周波数パラメータｘ_mに対するクラスタリングを実行する。そして、クラスタリングにより決定された各クラスタＣ_kを多次元ガウス分布ｆ_k(ｘ|μ,Σ)による表現に変換する。この多次元ガウス分布ｆ_k(ｘ|μ,Σ)の分布データ（平均ベクトルμおよび分散共分散行列Σ）と、クラスタリングにより決定された各セントロイドＣ_kの設定値は、記憶部１２０に記憶される。
【００７４】
異常音検出部１３０は、クラスタリング演算部１３１、異常音判定部１３２、分布データ更新部１３３および警報出力部１３４を有する。異常音検出の運用が開始され、マイクロホン５０で採取された検知エリアの音に基づき周波数パラメータ算出部１０１で抽出した周波数パラメータｙ_mが、異常音検出部１３０に入力される。
【００７５】
クラスタリング演算部１３１は、記憶部１２０から各セントロイドＣ_kの設定値と、各クラスタＧ_kの多次元ガウス分布ｆ_k(ｘ|μ,Σ)の分布データとを読み出し、図５のフローチャートにおけるステップＳ１２３〜ステップＳ１２７の処理に従い、採取された音の周波数パラメータｙ_mが、当該周波数パラメータｙ_mと最もユークリッド距離が近いセントロイドＣ_Lが属するクラスタＧ_Lに含まれる確率Ｑ(ｍ,Ｄ_L2)を求める。
【００７６】
異常音判定部１３２は、クラスタリング演算部１３１で求められた確率Ｑ(ｍ,Ｄ_L2)に対して、学習更新閾値ｕ_Tおよび異常音検出閾値ｑ_Tによる閾値判定を行う。閾値判定の結果、採取された音が異常音ではなく、且つ、学習更新閾値ｕ_Tの範囲内であると判定した場合、分布データ更新部１３３に対して、記憶部１２０に記憶される各セントロイドＣ_kの設定値と、各クラスタＧ_kの多次元ガウス分布ｆ_k(ｘ|μ,Σ)の分布データとを更新するように要求する。
【００７７】
分布データ更新部１３３は、図５のフローチャートにおけるステップＳ１３１およびステップＳ１３２の処理に従い、採取された音の周波数パラメータｙ_mに基づき、記憶部１２０に記憶される各セントロイドＣ_kの設定値と、各クラスタＧ_kの多次元ガウス分布ｆ_k(ｘ|μ,Σ)の分布データとを更新する。
【００７８】
一方、異常音判定部１３２は、採取された音が異常音であると判定した場合、その旨示す情報を警報出力部１３４に対して出力する。警報出力部１３４は、この情報を受け取ると、検知エリアにおいて異常音の発生が検知された旨を示す情報をネットワーク６０に対して配信したり、所定の警報出力７０を発することができる。
【００７９】
上述した周波数パラメータ算出部１０１、クラスタリング演算部１１３および１３１、異常音判定部１３２、分布データ更新部１３３、ならびに、警報出力部１３４は、例えば、ＣＰＵ上で動作するプログラムのモジュールとして構成することができる。これに限らず、これら各部の全部または一部を、専用のハードウェアにより構成してもよい。
【００８０】
なお、上述では、音処理装置２００が初期学習部１１０および異常音検出部１３０を共に含むように説明したが、これはこの例に限定されない。例えば、音処理装置２００において、初期学習を別途行うようにすれば、初期学習部１１０は、省略可能である。
【００８１】
このように、本実施形態では、日常音を逐次学習することで日常音の特徴を強調することができるため、異常音の検出精度を向上させることができる。そのため、日常音に類似した、すなわち、セントロイドＣ_kとの距離が比較的近い異常音が採取された場合であっても、その音を異常音として判定することが可能となる。
【００８２】
また、日常音を逐次学習することで、日常音の経年などによる緩やかな変化にも対応可能となる。さらに、逐次学習を行うことで、運用前における事前の日常音の学習期間を短縮させることができる。さらにまた、採取された音を逐次学習に用いるか否かを、日常音によるクラスタを変換した多次元ガウス分布に含まれる確率により示される閾値に基づき判定しているため、逐次学習を人手を介することなく自動的に実行できる。
【００８３】
また、本実施形態においては、運用環境すなわち検知エリアにおける日常音から認識モデルを構築している。この日常音には、検知エリアで発生する日常の騒音も含まれているため、騒音軽減処理などを行うこと無しに、検知エリアに適応した異常音検知が可能となる。
【符号の説明】
【００８４】
１０１周波数パラメータ算出部
１１０初期学習部
１１１日常音パラメータ蓄積部
１１２追加音パラメータ蓄積部
１１３，１３１クラスタリング演算部
１３０異常音検出部
１３２異常音判定部
１３３分布データ更新部

【特許請求の範囲】
【請求項１】
日常音を特性に基づきクラスタに分類し、該クラスタに基づき異常音の判定を行う音処理装置であって、
前記クラスタをガウス分布の表現に変換した該ガウス分布を決定するパラメータを、新たに採取した採取音の特性を用いて更新する更新手段を有し、
前記更新手段は、
前記採取音の特性が前記ガウス分布に含まれる確率が、前記パラメータに決定されるガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、前記パラメータの更新を行う
ことを特徴とする音処理装置。
【請求項２】
前記採取音が前記クラスタに含まれない場合に、該採取音を異常音であると判定する判定手段をさらに有する
ことを特徴とする請求項１に記載の音処理装置。
【請求項３】
前記判定手段は、
前記採取音が前記異常音であるか否かを、前記パラメータに決定される前記ガウス分布に含まれる、前記学習閾値よりも低い確率を示す値で表される異常音検出閾値に基づき判定する
ことを特徴とする請求項２に記載の音処理装置。
【請求項４】
前記更新手段は、
前記パラメータの更新を、予め定められた時間毎に実行する
ことを特徴とする請求項１乃至請求項３の何れか１項に記載の音処理装置。
【請求項５】
日常音を特性に基づきクラスタに分類し、該クラスタに基づき異常音の判定を行う音処理方法であって、
更新手段が、前記クラスタをガウス分布の表現に変換した該ガウス分布を決定するパラメータを、新たに採取した採取音の特性を用いて更新する更新ステップを有し、
前記更新ステップは、
前記採取音の特性が前記ガウス分布に含まれる確率が、前記パラメータに決定されるガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、前記パラメータの更新を行う
ことを特徴とする音処理方法。

【図１】