説明

音処理装置および音処理方法

【課題】日常音のモデルの自動的な更新を可能とする。
【解決手段】日常音を特性に基づきクラスタに分類し、クラスタに基づき異常音の判定を行う。クラスタをガウス分布の表現に変換したガウス分布を決定するパラメータを、新たに採取した採取音の特性を用いて更新する。更新の際に、採取音の特性がガウス分布に含まれる確率が、パラメータに決定されるガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、パラメータの更新を行う。また、採取音の特性がガウス分布に含まれる確率が、学習閾値よりも低い確率を表す異常音検出閾値未満である場合に、採取音が異常音であると判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、観測音中の目的とする音を認識する際に用いて好適な音処理装置および音処理方法に関する。
【背景技術】
【0002】
従来、警備において、特定の音に注目して異常事態の発生を検出することが行われている。例えば、監視エリア内でガラスの破壊音などの異常音を検知した際には、異常事態が発生したと判断することができる。また、異常音とは断定されないが、不審な物音などを検知した場合には、異常事態の発生か否かを判断する必要がある。このような特定の音を自動的に検知するためには、監視エリア内で観測される全ての観測音から、異常音や不審音を識別する必要がある。以下では、特に記載のない限り、異常音および不審音を纏めて異常音と呼ぶ。
【0003】
音響情報を用いた第1の監視方法として、大きな物音を検出するために、音圧レベルが閾値を超えたことを検知するようにした方法が知られている。この場合、周囲の騒音が音圧レベルに対して与える影響により誤検出が発生するおそれがある。また、検出が望まれる異常音は、必ずしも音圧レベルが高いとは限らず、十分な監視が達成されない可能性がある。
【0004】
一方、第2の方法として、音の周波数に関する特徴を用いて異常音を検出する技術も既に知られている。例えば、予め異常音のサンプルデータから周波数に関する特徴を抽出してモデルを作成し、観測音とモデルとの類似性から異常音であるか否かを判別する。この場合、検出対象の音の種類毎にモデルを用意する必要があり、監視環境で想定される膨大な種類の異常音の全てに対してモデルを用意することが困難である。
【0005】
上述した第1および第2の方法の問題を解決するために、正常状態の音のみを学習することで、学習された音以外の音を異常であると判定する技術が提案されている(特許文献1参照)。この特許文献1の技術を用いることで、未知の音に対して対応することが可能になる。一方、この特許文献1の方法では、高精度に異常音を識別するためには、適用する環境における日常音を予め十分に学習させる必要があり、運用開始までに時間を要する。
【0006】
これに対して、運用開始後に採取された音響データを用いて追加学習を行うことで、認識精度を向上させるようにした技術が提案されている。例えば、特許文献2は、日常音ではないと判定された観測音を記録しておき、この記録した観測音を監視員などが聴いて異常音であるか否かを判定する。そして、異常音であると判定された場合に、追加学習として新たに異常音のモデルを構築することで、認識精度を向上させている。
【0007】
また例えば、特許文献3は、日常音に対して特徴を示す値などが一定以上離れた音が観測された場合、観測された音を未知音として記録し、この記録した未知音を監視員などが聴いて日常音であるか否かを判定する。そして、日常音であると判定されると、この未知音も含めて新たにモデルを構築することで、認識精度を向上させている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特許第4100413号明細書
【特許文献2】特許第4412306号明細書
【特許文献3】特許第4417318号明細書
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、上述の特許文献2および特許文献3の方法は、何れも、追加学習を行うために人の手を介在させる必要があるという問題点があった。また、経年などによる日常音の緩やかな変化への対応が困難であるという問題点があった。例えば、春期や夏期の日常音と、冬期の日常音とは異なると考えられる。特許文献2および特許文献3では、採取された音が日常音か否かの判定に人手が介在するため、このような、長時間掛けて緩慢に変化する音に対応することが困難である。
【0010】
本発明は、上記を鑑みてなされたものであり、日常音のモデルの自動的な更新を可能とすることを目的とする。
【課題を解決するための手段】
【0011】
上述した課題を解決し、目的を達成するために、本発明は、日常音を特性に基づきクラスタに分類し、クラスタに基づき異常音の判定を行う音処理装置であって、クラスタをガウス分布の表現に変換したガウス分布を決定するパラメータを、新たに採取した採取音の特性を用いて更新する更新手段を有し、更新手段は、採取音の特性がガウス分布に含まれる確率が、パラメータに決定されるガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、パラメータの更新を行うことを特徴とする。
【0012】
また、本発明は、日常音を特性に基づきクラスタに分類し、クラスタに基づき異常音の判定を行う音処理方法であって、更新手段が、クラスタをガウス分布の表現に変換したガウス分布を決定するパラメータを、新たに採取した採取音の特性を用いて更新する更新ステップを有し、更新ステップは、採取音の特性がガウス分布に含まれる確率が、パラメータに決定されるガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、パラメータの更新を行うことを特徴とする。
【発明の効果】
【0013】
本発明によれば、日常音のモデルの自動的な更新が可能となるという効果を奏する。
【図面の簡単な説明】
【0014】
【図1】図1は、本発明の実施形態を概略的に示す略線図である。
【図2】図2は、k−means法によるクラスタリングについて説明するための略線図である。
【図3】図3は、本発明の実施形態による日常音の初期学習処理を示す一例のフローチャートである。
【図4】図4は、クラスタGkの多次元ガウス分布fk(x|μ,Σ)での表現について説明するための略線図である。
【図5】図5は、異常音検出閾値qTによる判定をより具体的に説明するための略線図である。
【図6】図6は、本発明の実施形態による異常音検出処理および逐次学習処理を示す一例のフローチャートである。
【図7】図7は、本発明の実施形態による逐次学習処理および異常検出処理をより具体的な例を用いて示す略線図である。
【図8】図8は、本実施形態に適用可能な音処理装置の機能を示す一例の機能ブロック図である。
【発明を実施するための形態】
【0015】
以下に添付図面を参照して、本発明に係る音処理方法の一実施形態を詳細に説明する。実施形態の説明に先んじて、以下の説明に用いる用語の定義を行う。先ず、「観測音」とは、監視装置によって観測された音であり、例えばマイクロホンを用いて検知エリアから採取された全ての音を指す。「日常音」とは、観測音の中で日常的に採取される音であり、例えば騒音などの環境音や、一般的な行動で発生する物音を指す。また、「異常音」とは、観測音の中で日常的には観測されない異常な音であり、例えばガラスなどを破壊する際に発生する破壊音や打撃音、また、一般的な行動では発生しないと考えられる物音を指す。
【0016】
図1は、本発明の実施形態を概略的に示す。本実施形態に適用される音処理装置は、図1(a)に示されるように、予め、警備エリアなど音の検知エリアにおける日常音を、マイクロホンなどを用いて採取し、採取した日常音を特性に基づき特性値の分布として分類し、学習する。このとき、分布は、多次元のガウス分布として表現される。運用時には、図1(b)に示されるように、採取した音が学習により得られた分類に属するか否かを判定する。採取した音が分類に属しないと判定した場合には、異常音が検知されたものとして例えば警報通知を行う。一方、採取した音が分類に属すると判定した場合には、その音を用いて特性値の分布を更新し、逐次的に学習を行う。
【0017】
本実施形態による音処理方法について、より具体的に説明する。日常音は検知エリア毎に異なるため、目的とする検知エリアの日常音の特性(例えば周波数特性)を学習して、異常音の識別を行う必要がある。日常音の学習は、一定期間に限られず、検知システム稼動中も逐次実行することによって、異常音の認識精度を保持できると考えられる。逐次学習の方法としては教師なし学習が適切である一方で、通常の逐次学習では学習データが増大するため、処理に支障を来たすおそれがある。そのため、学習データを増大させることなく学習できる方法が必要となる。
【0018】
本実施形態では、逐次学習可能な教師なし学習として、一定期間の日常音をk−means法などを用いてクラスタリングし、得られた各クラスタを多次元ガウス分布で表現する。そして、新たに採取された音が日常音であると判定された場合に、その音に基づき、各クラスタの多次元ガウス分布を更新する。このとき、新たに採取された音の特性に対して、多次元ガウス分布により示される確率を閾値として与える。
【0019】
(k−means法によるクラスタリング)
本実施形態では、音のクラスタリングを、k−means法を用いて行う。このk−means法によるクラスタリングについて、図2を用いて概略的に説明する。先ず、第1の処理として、クラスタリング対象の各データに対して、クラスタ数Kと、各クラスタのセントロイドとを初期値として与える。図2(a)の例では、50個の2次元ランダムデータに対してクラスタ数K=3を与え、各クラスタ10a、10bおよび10cに対して、セントロイド11a、11bおよび11cをそれぞれ与える。
【0020】
次に、第2の処理として、採取された音の特性を示すデータ(以下、特に記載のない限り、単にデータと記述する)のそれぞれについて、各セントロイド11a、11bおよび11cそれぞれとの距離を求め、各データを、セントロイド11a、11bおよび11cのうち最も距離が近いセントロイドが属するクラスタにそれぞれ割り振る。その次に、第3の処理として、各クラスタにおいて、割り振られたデータに基づきセントロイドを求め、当該クラスタのセントロイドを更新する。
【0021】
この第2の処理および第3の処理を繰り返し行い、各クラスタに対するデータの割り振りと、各セントロイドとの更新が無くなったら、処理を終了する。図2(b)は、反復演算回数を7回とし、上述した図2(a)の状態から第2および第3の処理を7回繰り返した場合の例を示す。各データが更新されたクラスタ10a’〜10c’にそれぞれ割り振られると共に、各クラスタ10a’〜10c’のセントロイドがそれぞれ更新されたセントロイド11a’〜11c’となる。
【0022】
(初期設定)
図3は、本実施形態による日常音の初期学習処理を示す一例のフローチャートである。このフローチャートによる処理は、例えば、プログラムに従ったCPU(Central Processing Unit)の動作により実行される。
【0023】
ステップS100において、検知エリアとして設定された領域で発生する日常音を、マイクロホンなどにより採取する。次のステップS101では、採取した音から、音の特性を表す情報を抽出する。本実施形態では、採取した音に対してスペクトラム分析を施し、音の特性を示す情報として周波数パラメータxm(m=1,2,…,M)を抽出する。以下では、M=16とし、周波数パラメータを16次元の値とする。抽出された周波数パラメータxmは、例えばHDD(Hard Disk Drive)やRAM(Random Access Memory)など所定の記憶媒体に蓄積される。
【0024】
ステップS100およびステップS101の処理を、予め決められた必要なデータ数が蓄積されるまで繰り返す(ステップS102)。また、ステップS102で必要なデータ数の蓄積が完了したと判定された後に、その他の必要とされる日常音のデータを追加して蓄積してもよい(ステップS103)。例えば、電話やFAXの受信音などのような、予め周波数パラメータxmが分かっている日常音については、音を採取する過程を経ずに、当該周波数パラメータxmを記憶媒体に対して直接的に蓄積させることができる。
【0025】
次のステップS104で、ステップS103までに蓄積されたデータに対してクラスタ数Kを与える。本実施形態において、クラスタ数Kの設定は、例えば次のようにして行う。検知エリアの日常音の周波数特性を基に、日常音を幾つかのクラスタに分類して学習することを考える。この場合、分類を行うクラスタ数Kは、例えば2〜3日間に検知エリアで発生した日常音を基に、最も分離精度の高い値を選択すればよい。このとき、クラスタGk(k=1,2,…,K)間の平均的な分離精度で判断するため、分離精度と異常音検出精度との関係は、分かり難い。そこで、本実施形態では、クラスタ数Kを、各クラスタに含まれるデータ数のばらつきが小さくなるように決定する。
【0026】
クラスタ数Kが決定されると、処理はステップS105に移行される。ステップS105では、各クラスタGkにおけるセントロイドCk(k=1,2,…,K)の初期値を与える。セントロイドCkの初期値の選択方法としては、一般的に用いられる、乱数を用いる方法を適用することができる。
【0027】
ステップS105で各クラスタGkに対応するセントロイドCkの初期値が与えられると、処理はステップS106に移行される。ステップS106では、図2を用いて説明したようにして、k−means法を用いて初期学習データのクラスタリングを行い、セントロイドCkと、クラスタGkとを決定する。k−means法による反復演算回数は、初期学習データ数、クラスタ数K、所要時間などに応じて設定することが考えられる。
【0028】
次に、ステップS107で、ステップS106で決定した各クラスタGkを、多次元ガウス分布fk(x|μ,Σ)で表現する。本実施形態では、各クラスタGkに属するデータの分布の中心値(平均値)と、分布の分散共分散行列とを用いて、各クラスタGkを多次元ガウス分布fk(x|μ,Σ)に変換する(ステップS106A)。これにより、各クラスタGkを、それぞれ多次元ガウス分布fk(x|μ,Σ)のパラメータで表すことができる。
【0029】
式(1)〜式(4)を用いて、クラスタGkの多次元ガウス分布fk(x|μ,Σ)への変換処理について説明する。先ず、初期学習データのm次元の周波数パラメータxを、各次元の値を用いて式(1)のように表す。また、クラスタGkの平均ベクトルμすなわちセントロイドCkを、各次元の値を用いて式(2)のように表す。式(3)は、式(1)に示した、クラスタGkに属する初期学習データのm次元のパラメータxmを用いて算出される、分散共分散行列である。
【数1】

【数2】

【数3】

【0030】
クラスタGkが変換された多次元ガウス分布fk(x|μ,Σ)は、上述した式(1)〜式(3)を用いて、次式(4)のように表される。
【数4】

【0031】
多次元ガウス分布fk(x|μ,Σ)は、式(2)および式(3)により分布が定義される。したがって、クラスタGkを多次元ガウス分布fk(x|μ,Σ)に変換することで、クラスタGkに属する全ての初期学習データを保持しなくとも、クラスタGkを特定することが可能である。
【0032】
図4を用いて、クラスタGkの多次元ガウス分布fk(x|μ,Σ)での表現について説明する。図4(a)は、上述の図2(b)に対応するもので、パラメータを2次元とし、各データに対してクラスタ10a’〜10c’と、これら各クラスタ10a’〜10c’のセントロイド11a’〜11c’が決定された例を示す。
【0033】
図4(b)は、図4(a)のクラスタ10a’〜10c’を、上述した式(1)〜式(4)に従い多次元ガウス分布fk(x|μ,Σ)で表現したクラスタ20a、20bおよび20cの例を示す。この場合、各クラスタ20a〜20cにおいて、それぞれの平均ベクトルμすなわちセントロイドC1、C2およびC3により中心位置が決まり、分散共分散行列Σにより広がりが決まる。そのため、図4(a)に示される、各初期学習データを保持する必要が無い。
【0034】
以上のようにして初期学習データを各クラスタGkに分類し、これら各クラスタGkを多次元ガウス分布fk(x|μ,Σ)に変換することで、一連の初期学習処理が終了する。初期学習処理の結果、上述したように、各クラスタGkの平均ベクトルμ(セントロイドCk)と、クラスタGkに属する初期学習データから求めた分散共分散行列Σとが記憶媒体に保持される。各初期学習データ自体は、捨ててよい。
【0035】
(異常音検出処理)
次に、本実施形態による、異常音検出処理および逐次学習処理について説明する。本実施形態では、異常音検出の運用を開始した後、音が採取されると、採取された音と各セントロイドCkとの間の距離(ユークリッド距離)を求め、採取された音に最も距離が近いクラスタGLを選択する。このクラスタGLは、多次元ガウス分布fk(x|μ,Σ)で表現されている。そのため、採取された音の、選択されたクラスタGLすなわち多次元ガウス分布fk(x|μ,Σ)における位置を求めることで、採取された音がクラスタGLに含まれる確率を算出することができる。この確率に対して閾値判定を行い、採取された音が異常音および日常音の何れであるかを判定する。
【0036】
目的のデータがクラスタGLすなわち多次元ガウス分布fk(x|μ,Σ)に含まれる確率は、次のようにして求める。先ず、閾値判定の対象となる、m次元のデータと、このデータにユークリッド距離が最も近い、多次元ガウス分布fk(x|μ,Σ)で表現されるクラスタGLにおけるセントロイドCLとの間のマハラノビス平方距離D2を算出する。この場合のマハラノビス平方距離D2を求めるための式を、次式(5)に示す。
【数5】

【0037】
式(5)で算出されたマハラノビス平方距離D2は、自由度mのカイ二乗分布に従うことから、マハラノビス平方距離D2を基準としたカイ二乗分布の上側累積確率を計算することで、目的のデータの多次元ガウス分布fk(x|μ,Σ)での位置が分かる。次式(6)に、自由度mのカイ二乗分布f(m,x)を算出する式を示す。なお、式(6)におけるガンマ関数Γ(m/2)は、式(7)の通りである。
【数6】

【数7】

【0038】
これら式(6)および式(7)で算出された自由度mのカイ二乗分布f(m,x)と、マハラノビス平方距離D2とに基づき、次式(8)に従い、カイ二乗分布の上側累積確率Q(m,D2)を求める。この式(8)で算出される確率Q(m,D2)が、目的のデータがクラスタGLすなわち多次元ガウス分布fk(x|μ,Σ)に含まれる確率となる。
【数8】

【0039】
図5を用いて、異常音検出閾値qTによる判定について、より具体的に説明する。図5の例では、周波数パラメータymの次元を2として、xy平面上に○(白丸)および●(黒丸)で各データを示している。図中の白丸が2次ランダムデータによる初期学習データを示す。図中に黒丸で示されるデータ#1〜データ#8は、この初期学習データに対して追加された、判別対象の判別データであるものとする。
【0040】
これらデータ#1〜#8の座標x,y、マハラノビス平方距離D2およびカイ二乗上側累積確率Q(m,D2)を求めた例を下記に記す。なお、データ#8は、初期学習データの中心、すなわち、初期学習データによるクラスタにおけるセントロイドと同位置のデータであり、マハラノビス平方距離D2=0、カイ二乗上側累積確率Q(m,D2)=1.0(100%)となる。
【0041】
データ#1:座標(50.517,82.363)、D2=13.883、Q(m,D2)=0.00097
データ#2:座標(22.107,17.194)、D2=3.812、Q(m,D2)=0.14867
データ#3:座標(55.030,63.564)、D2=1.768、Q(m,D2)=0.41313
データ#4:座標(53.200,31.968)、D2=4.006、Q(m,D2)=0.13493
データ#5:座標(44.996,67.408)、D2=6.602、Q(m,D2)=0.03685
データ#6:座標(52.393,43.124)、D2=0.519、Q(m,D2)=0.77144
データ#7:座標(15.000,38.000)、D2=7.588、Q(m,D2)=0.02251
データ#8:座標(50.393,48.124)、D2=0.000、Q(m,D2)=1.00000
【0042】
例えば、異常音検出を行うための閾値を、採取された音(目的データ)がクラスタGLすなわち多次元ガウス分布fk(x|μ,Σ)に含まれる確率=0.0250に設定したものとする。図5における楕円は、この多次元ガウス分布fk(x|μ,Σ)における確率=0.0250の範囲を示す。この場合、データ#1およびデータ#7において、カイ二乗上側累積確率Q(m,D2)の値が当該閾値以下であり、これらデータ#1およびデータ#7の音が異常音であると判定することができる。
【0043】
(逐次学習処理)
また、本実施形態では、異常音検出の運用を開始した後に採取された日常音を逐次学習する。これにより、異常音の検出精度を向上させることができると共に、日常音の経時的な変化に対しても対応可能となる。
【0044】
採取された音の実データを逐次学習すると、学習データが増大する。そこで、本実施形態においては、既に採取した音をクラスタリングした各クラスタGkを表現する多次元ガウス分布fk(x|μ,Σ)を、新たに採取した音に基づき更新する。より具体的には、新たに採取した音の周波数パラメータymを用いて、多次元ガウス分布fk(x|μ,Σ)の平均ベクトルμと分散共分散行列Σとを更新する。この場合、更新される多次元ガウス分布fk(x|μ,Σ)の平均ベクトルμおよび分散共分散行列Σが、それぞれ更新されたセントロイドCk’およびクラスタGk’となる。
【0045】
この操作を逐次的に繰り返すことにより、確率的に、日常音を異常音とする誤報と、異常音を日常音とする失報とが減少するように、多次元ガウス分布fk(x|μ,Σ)が更新される。
【0046】
なお、逐次学習における多次元ガウス分布fk(x|μ,Σ)の更新は、新たに採取された音がクラスタGLに含まれる確率に対して閾値判定を行い、当該確率が閾値異常であった場合に行うようにする。この逐次学習における閾値(学習更新閾値uTと呼ぶ)は、上述の異常音判定の際の閾値(異常音検出閾値qTと呼ぶ)とは別に設定することができる。この場合、学習更新閾値uTは、異常音検出閾値qTよりも高い確率の値を選択する。これら学習更新閾値uTおよび異常音検出閾値qTは、例えば実験的な手法により予め求め、HDDなどの記憶媒体に記憶しておく。
【0047】
(異常音検出処理および逐次学習処理の流れ)
図6は、本実施形態による、異常音検出処理および逐次学習処理を示す一例のフローチャートである。なお、このフローチャートの処理に先立って、上述した図2のフローチャートの処理により、初期学習データから求めたクラスタGkを変換した多次元ガウス分布fk(x|μ,Σ)が求められているものとする。
【0048】
ステップS120で、初期学習データに基づく初期のセントロイドCk(k=1,2,…,K)および初期のクラスタGk(k=1,2,…,K)による多次元ガウス分布fk(x|μ,Σ)が用意される。より具体的には、各クラスタGkそれぞれについて、セントロイドCkと、分散共分散行列Σとが用意される。
【0049】
次のステップS121で、マイクロホンなどで観測音すなわち検知エリアの音が採取され、ステップS122で、観測音に対してスペクトル分析などが施され、周波数パラメータym(m=1,2,…,M)が抽出される。なお、ここでは、初期学習データの場合と対応し、M=16として、周波数パラメータymが16次元の値であるとする。
【0050】
次のステップS123で、ステップS122で抽出された周波数パラメータymと、各セントロイドCkとの間のユークリッド距離d(ym,Ck)が算出される。算出された各ユークリッド距離d(ym,Ck)に基づき、ステップS124で、各クラスタGkのうち周波数パラメータymに最も近いクラスタCLが選択される。
【0051】
次のステップS125で、上述した式(5)に従い、ステップS124で選択されたクラスタCLと、周波数パラメータymとのマハラノビス平方距離DL2が算出される。次に、ステップS126で、ステップS125で算出したクラスタCLと、周波数パラメータymとのマハラノビス平方距離DL2に基づき、上述した式(6)に従い、自由度mのカイ二乗分布f(m,x)が算出される。次のステップS127で、ステップS126で算出された自由度mのカイ二乗分布f(m,x)と、ステップS125で算出されたマハラノビス平方距離DL2とに基づき、上述した式(8)に従い、周波数パラメータymがクラスタGLに含まれる確率Q(m,DL2)を求める。
【0052】
次のステップS128およびステップS129において、ステップS127で算出された確率Q(m,DL2)に対する学習更新閾値uTおよび異常音検出閾値qTによる閾値判定が行われる。先ず、ステップS128では、学習更新閾値uTによる閾値判定が行われる。若し、確率Q(m,DL2)が学習更新閾値uT以上であると判定された場合、処理がステップS131に移行され、多次元ガウス分布fk(x|μ,Σ)や、クラスタGk、セントロイドCkの更新が行われる。この場合、対象の音が、学習更新閾値uTの範囲内にあるとされる。ステップS131での処理の詳細については、後述する。
【0053】
一方、ステップS128で、確率Q(m,DL2)が学習更新閾値uT未満であると判定された場合、処理がステップS129に移行される。ステップS129では、異常音検出閾値qTによる閾値判定が行われる。若し、確率Q(m,DL2)が異常音検出閾値qT以下であると判定されたら、処理はステップS130に移行され、異常音が検出されたと判定される。すなわち、この場合、対象の音が異常音検出閾値qTの範囲外にあるとされ、対象の音がクラスタに含まれないと見做される。本実施形態による音処理装置が監視システムに適用される場合には、このステップS130で異常音検出の旨を示す通知が出力される。
【0054】
一方、ステップS129で確率Q(m,DL2)が異常音検出閾値qTを超えると判定されたら、処理はステップS121に戻され、音の採取などの一連の処理が継続して行われる。
【0055】
ステップS128で確率Q(m,DL2)が学習更新閾値uT未満であると判定された場合、処理がステップS131に移行され、各クラスタCkの多次元ガウス分布fk(x|μ,Σ)の更新が行われる。そして、次のステップS132で、更新された多次元ガウス分布fk(x|μ,Σ)に従い、各クラスタGkおよびセントロイドCkが更新される。これらクラスタGkおよびセントロイドCkの更新は、実際には、各クラスタGkの平均ベクトルμおよび分散共分散行列Σのみが更新される。
【0056】
各クラスタGkおよびセントロイドCkが更新されると、処理がステップS121に戻され、音の採取などの一連の処理が継続して行われる。
【0057】
逐次学習の方法について、より具体的に説明する。あるクラスタGにおける、i次元目の周波数パラメータyiの平均ベクトルμiは、次式(9)により算出される。なお、以下の各式において、値Nは当該クラスタGに含まれるデータ数を示し、値mは、当該データ(周波数パラメータy)の次元を示す。
【数9】

【0058】
また、あるクラスタGにおける、i次元目およびj次元目の分散共分散σi,jは、次式(10)により算出される。
【数10】

【0059】
次に、ステップS121で新たに採取された音によるデータ(周波数パラメータym)をデータyiとすると、平均ベクトルμiは、次式(11)に従い更新され、更新された平均ベクトルμiNEWが得られる。
【数11】

【0060】
同様に、分散共分散σi,jは、更新された平均ベクトルμiNEWを用いて次式(12)に従い更新され、更新された分散共分散σi,jNEWが得られる。
【数12】

【0061】
多次元ガウス分布fk(x|μ,Σ)は、平均ベクトルμおよび分散共分散行列Σにより完全に決定されるので、これら更新された平均ベクトルμiNEWおよび分散共分散σi,jNEWが得られることで、多次元ガウス分布fk(x|μ,Σ)が新たに採取された音により更新され、クラスタGが更新される。
【0062】
また、上述の式(11)および式(12)から分かるように、m次元の多次元ガウス分布fk(x|μ,Σ)を更新するためには、過去の全データを記憶しておく必要はなく、次式(13)および(14)に示されるように、更新された各クラスタGkの平均ベクトルμと、平均ベクトルμを減じない状態の分散共分散行列vi,jを記憶しておけばよい。
【数13】

【数14】

【0063】
なお、図6のフローチャートの処理は、ステップS131およびステップS132による多次元ガウス分布fk(x|μ,Σ)や、クラスタGk、セントロイドCkの更新処理が予め定められた時間毎に実行されるように制御される。すなわち、ステップS128において確率Q(m,DL2)が学習更新閾値uT未満であると判定された場合以外において、ステップS131およびステップS132による処理が予め定められた時間間隔で実行されるように、図6のフローチャートの処理が制御される。
【0064】
図7は、上述した逐次学習処理および異常検出処理をより具体的な例を用いて示す。図7(a)は、初期学習データに基づく学習更新閾値uTおよび異常音検出閾値qTの例を示す。これら学習更新閾値uTおよび異常音検出閾値qTに基づき、新たに採取した音40および41が異常音であるか否かを判定する場合について考える。なお、音40および音41は、それぞれ異常音であるものとする。
【0065】
音40は、異常音検出閾値qTの範囲外にあり、図5のフローチャートにおけるステップS128およびステップS129により、異常音として判定される。一方、音41は、異常音検出閾値qTの境界付近に位置する音であり、日常音に類似した異常音である。この図7(a)の例では、音41は、異常音検出閾値qTの範囲内にあり、図5のフローチャートにおけるステップS129により異常音ではない、すなわち日常音として判定されてしまっている。
【0066】
異常音検出の運用中に、図7(b)に示されるように、学習更新閾値uTの範囲内に位置する音42a、42bおよび42cが採取されたものとする。この場合、図5のフローチャートにおけるステップS128の判定により、処理がステップS131およびステップS132に移行され、これら音42a、42bおよび42cを用いて多次元ガウス分布fk(x|μ,Σ)や、クラスタGk、セントロイドCkの更新がなされる。
【0067】
上述したように、これら学習更新閾値uTおよび異常音検出閾値qTは、初期学習データに基づく多次元ガウス分布fk(x|μ,Σ)における確率により示される。そのため、この多次元ガウス分布fk(x|μ,Σ)の更新に伴い、学習更新閾値uTおよび異常音検出閾値qTも更新され、更新された学習更新閾値uT’および異常音検出閾値qT’となる。その結果、図7(c)に例示されるように、音41が更新された異常音検出閾値qT’の範囲外となり、異常音と判定されるようになる。
【0068】
(実施形態に適用可能な構成)
図8は、本実施形態に適用可能な音処理装置200の機能を示す一例の機能ブロック図である。音処理装置200は、A/D変換部100および周波数パラメータ算出部101を有すると共に、初期学習部110、記憶部120および異常音検出部130を有する。記憶部120としては、HDDや不揮発性の半導体メモリといった書き換え可能な不揮発性の記憶媒体を適用することができる。
【0069】
検知エリアの音がマイクロホン50で採取され、アナログ音響信号として音処理装置200に入力され、A/D変換部100に供給される。A/D変換部100は、供給されたアナログ音響信号をディジタルデータに変換し、音響データとして周波数パラメータ算出部101に供給する。周波数パラメータ算出部101は、供給された音響データに対してスペクトラム分析を施し、M次元の値として周波数パラメータxm(m=1,2,…,M)を抽出する。例えば、周波数パラメータ算出部101は、M=16として、16次元の値としての周波数パラメータxmを抽出する。
【0070】
初期学習部110は、日常音パラメータ蓄積部111、追加音パラメータ蓄積部112およびクラスタリング演算部113を有する。日常音パラメータ蓄積部111および追加音パラメータ蓄積部112は、例えばHDDや不揮発性の半導体メモリといった記憶媒体からなる。初期学習部110は、この音処理装置200におる異常音検出の運用に先立って、図3のフローチャートの処理に従って初期学習データの採取を行い、採取した初期学習データのクラスタリングおよびクラスタの多次元ガウス分布への変換処理を行う。
【0071】
より具体的には、異常音検出の運用前の所定期間において、周波数パラメータ算出部101が、マイクロホン50で採取された検知エリアの音に基づく音響データから周波数パラメータxmを抽出する。抽出された周波数パラメータxmは、初期学習部110に入力され、日常音による周波数パラメータxmとして、日常音パラメータ蓄積部111に蓄積される。異常音検出の運用前における検知エリアからの日常音の採取および日常音による周波数パラメータxmの日常音パラメータ蓄積部111への蓄積は、予め定められた数の周波数パラメータxmが蓄積されるまで、継続して行われる。
【0072】
一方、追加音パラメータ蓄積部112は、その他の必要とされる日常音のデータが予め蓄積される。例えば、電話やFAXの受信音などのような、周波数パラメータxmが既知の日常音については、音を採取する過程を経ずに、当該周波数パラメータxmを追加音パラメータ蓄積部112に予め蓄積させておくことができる。
【0073】
クラスタリング演算部113は、図3のフローチャートにおけるステップS104〜ステップS107に従い、日常音パラメータ蓄積部111および追加音パラメータ蓄積部112に蓄積された周波数パラメータxmに対するクラスタリングを実行する。そして、クラスタリングにより決定された各クラスタCkを多次元ガウス分布fk(x|μ,Σ)による表現に変換する。この多次元ガウス分布fk(x|μ,Σ)の分布データ(平均ベクトルμおよび分散共分散行列Σ)と、クラスタリングにより決定された各セントロイドCkの設定値は、記憶部120に記憶される。
【0074】
異常音検出部130は、クラスタリング演算部131、異常音判定部132、分布データ更新部133および警報出力部134を有する。異常音検出の運用が開始され、マイクロホン50で採取された検知エリアの音に基づき周波数パラメータ算出部101で抽出した周波数パラメータymが、異常音検出部130に入力される。
【0075】
クラスタリング演算部131は、記憶部120から各セントロイドCkの設定値と、各クラスタGkの多次元ガウス分布fk(x|μ,Σ)の分布データとを読み出し、図5のフローチャートにおけるステップS123〜ステップS127の処理に従い、採取された音の周波数パラメータymが、当該周波数パラメータymと最もユークリッド距離が近いセントロイドCLが属するクラスタGLに含まれる確率Q(m,DL2)を求める。
【0076】
異常音判定部132は、クラスタリング演算部131で求められた確率Q(m,DL2)に対して、学習更新閾値uTおよび異常音検出閾値qTによる閾値判定を行う。閾値判定の結果、採取された音が異常音ではなく、且つ、学習更新閾値uTの範囲内であると判定した場合、分布データ更新部133に対して、記憶部120に記憶される各セントロイドCkの設定値と、各クラスタGkの多次元ガウス分布fk(x|μ,Σ)の分布データとを更新するように要求する。
【0077】
分布データ更新部133は、図5のフローチャートにおけるステップS131およびステップS132の処理に従い、採取された音の周波数パラメータymに基づき、記憶部120に記憶される各セントロイドCkの設定値と、各クラスタGkの多次元ガウス分布fk(x|μ,Σ)の分布データとを更新する。
【0078】
一方、異常音判定部132は、採取された音が異常音であると判定した場合、その旨示す情報を警報出力部134に対して出力する。警報出力部134は、この情報を受け取ると、検知エリアにおいて異常音の発生が検知された旨を示す情報をネットワーク60に対して配信したり、所定の警報出力70を発することができる。
【0079】
上述した周波数パラメータ算出部101、クラスタリング演算部113および131、異常音判定部132、分布データ更新部133、ならびに、警報出力部134は、例えば、CPU上で動作するプログラムのモジュールとして構成することができる。これに限らず、これら各部の全部または一部を、専用のハードウェアにより構成してもよい。
【0080】
なお、上述では、音処理装置200が初期学習部110および異常音検出部130を共に含むように説明したが、これはこの例に限定されない。例えば、音処理装置200において、初期学習を別途行うようにすれば、初期学習部110は、省略可能である。
【0081】
このように、本実施形態では、日常音を逐次学習することで日常音の特徴を強調することができるため、異常音の検出精度を向上させることができる。そのため、日常音に類似した、すなわち、セントロイドCkとの距離が比較的近い異常音が採取された場合であっても、その音を異常音として判定することが可能となる。
【0082】
また、日常音を逐次学習することで、日常音の経年などによる緩やかな変化にも対応可能となる。さらに、逐次学習を行うことで、運用前における事前の日常音の学習期間を短縮させることができる。さらにまた、採取された音を逐次学習に用いるか否かを、日常音によるクラスタを変換した多次元ガウス分布に含まれる確率により示される閾値に基づき判定しているため、逐次学習を人手を介することなく自動的に実行できる。
【0083】
また、本実施形態においては、運用環境すなわち検知エリアにおける日常音から認識モデルを構築している。この日常音には、検知エリアで発生する日常の騒音も含まれているため、騒音軽減処理などを行うこと無しに、検知エリアに適応した異常音検知が可能となる。
【符号の説明】
【0084】
101 周波数パラメータ算出部
110 初期学習部
111 日常音パラメータ蓄積部
112 追加音パラメータ蓄積部
113,131 クラスタリング演算部
130 異常音検出部
132 異常音判定部
133 分布データ更新部

【特許請求の範囲】
【請求項1】
日常音を特性に基づきクラスタに分類し、該クラスタに基づき異常音の判定を行う音処理装置であって、
前記クラスタをガウス分布の表現に変換した該ガウス分布を決定するパラメータを、新たに採取した採取音の特性を用いて更新する更新手段を有し、
前記更新手段は、
前記採取音の特性が前記ガウス分布に含まれる確率が、前記パラメータに決定されるガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、前記パラメータの更新を行う
ことを特徴とする音処理装置。
【請求項2】
前記採取音が前記クラスタに含まれない場合に、該採取音を異常音であると判定する判定手段をさらに有する
ことを特徴とする請求項1に記載の音処理装置。
【請求項3】
前記判定手段は、
前記採取音が前記異常音であるか否かを、前記パラメータに決定される前記ガウス分布に含まれる、前記学習閾値よりも低い確率を示す値で表される異常音検出閾値に基づき判定する
ことを特徴とする請求項2に記載の音処理装置。
【請求項4】
前記更新手段は、
前記パラメータの更新を、予め定められた時間毎に実行する
ことを特徴とする請求項1乃至請求項3の何れか1項に記載の音処理装置。
【請求項5】
日常音を特性に基づきクラスタに分類し、該クラスタに基づき異常音の判定を行う音処理方法であって、
更新手段が、前記クラスタをガウス分布の表現に変換した該ガウス分布を決定するパラメータを、新たに採取した採取音の特性を用いて更新する更新ステップを有し、
前記更新ステップは、
前記採取音の特性が前記ガウス分布に含まれる確率が、前記パラメータに決定されるガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、前記パラメータの更新を行う
ことを特徴とする音処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−181280(P2012−181280A)
【公開日】平成24年9月20日(2012.9.20)
【国際特許分類】
【出願番号】特願2011−43206(P2011−43206)
【出願日】平成23年2月28日(2011.2.28)
【出願人】(000202361)綜合警備保障株式会社 (266)
【Fターム(参考)】