説明

音検出装置および音検出方法

【課題】雑音環境下においても容易且つ高精度に特定音を検出する。
【解決手段】信号パワー算出部および傾き算出部で、集音された観測音による音データの特徴を示す特徴値を時系列に沿って算出する。一方、検出対象の音と種類が同一で音が互いに異なる複数の学習データのそれぞれから、時系列に沿って特徴値の期待値を、スコアパラメータとして予め求める。スコア算出部で、音データから求めた特徴値と、学習データから求めた特徴値の期待値との差分に基づき、音データを評価するスコアを算出する。発生区間検出部で、スコアの極大値の位置と極小値の位置とを検出し、極大値の位置および極小値の位置に基づき、観測音による音データ中の特定音発生区間を検出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特定の種類の音を検出する音検出装置および音検出方法に関する。
【背景技術】
【0002】
従来から、警備において、特定の音に注目して異常事態の発生を検出することが行われている。例えば、監視エリア内でガラスの破壊音などの異常音を検知した際には、異常事態が発生したと判断することができる。また、異常音とは断定されないが、不審な物音などを検知した場合には、異常事態の発生か否かを判断する必要がある。このような特定の音を自動的に検知するためには、監視エリア内で観測される全ての観測音から、異常音や不審音そのもの、または、異常音や不審音の発生区間を検出する必要がある。以下では、特に記載のない限り、異常音および不審音を纏めて不審音と呼ぶ。
【0003】
環境音などを含む音から特定音を検出する技術は、従来から提案されている。例えば、特許文献1には、音の信号パワーを用いて音声の発生区間を検出する技術が開示されている。特許文献1では、信号パワーに対して適切に閾値を設定することで、所定の音の発生区間を検出している。また例えば、特許文献2には、音信号のゼロクロス数を用いて特定の音の区間を検出する方法が開示されている。
【0004】
さらに例えば、特に音声に対して用いられる手法として、音を複数の周波数帯域に分割し、各帯域で求めた信号パワーに閾値を設定することで、所定の音の発生区間を検出する方法が知られている。この方法は、人間の声などの、特徴的な周波数帯域が予め分かっている音を抽出する場合に好適である。
【0005】
さらにまた、不審音の検出において、発生区間の検出を行わず、一定時間に採取される全ての音に対して音声認識処理を行う方法も考えられる。この方法では、例えば、採取された音信号に対する音声認識処理の開始および終了点を、ユーザが指定する。処理装置は、転送された音信号の、ユーザが指定した開始および終了点の間に対して音声認識処理を行い、ユーザは、音声認識処理の結果を用いて不審音の検出を行う。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第2521425号公報
【特許文献2】特許第2944098号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、上述の特許文献1の技術を不審音の検出に用いた場合、集音された環境騒音および音声の信号に対して雑音(例えば工事の騒音など)が重畳されると、不審音の信号パワーに対して雑音の信号パワーが重畳されることになる。この場合には、不審音の検出漏れを起こしたり、不審音の発生区間を正しく検出できないおそれがあるという問題点があった。また、上述の特許文献2の技術に関しては、ゼロクロス数は雑音に影響され易く、環境音に対して雑音が重畳された場合、不審音の特徴を適切に捉えることが困難になるという問題点があった。
【0008】
さらに、音を複数の周波数帯域に分割する方法では、検出対象とする音の信号パワーが特定の周波数帯域に集中していれば、雑音環境下での所定音の発生区間の検出に有効である。しかしながら、不審音は、実質的には物音であって、音の信号パワーが特定の周波数帯域に集中しているとは限らず、不審音の区間の検出には、必ずしも有効ではないという問題点があった。
【0009】
さらにまた、一定時間に採取される全ての音に対して音声認識処理を行う方法では、音声認識処理そのものによって異常音や不審音が検出できる訳ではないという問題点があった。例えば、この方法では、音声認識処理の結果で得られたパラメータの変化などをユーザが観察して、不審音といった特定の物音の検出を行う。
【0010】
また、この方法を監視装置に適用する場合、例えば8時間〜10時間という長時間に亘り、監視中の全ての観測音に対して音声認識処理を施す必要があり、音声認識処理に対する計算コストの面から考えて、現実的ではないという問題点があった。
【0011】
これに対し、複数の監視対象に対して1台の処理装置(サーバ)を設置することにより計算コストを抑えることも考えられる。しかしながら、この場合においても、複数の監視ポイントで採取された観測音のデータそれぞれを、常時、サーバに転送し続ける必要があり、通信コストの面から現実的ではないという問題点があった。
【0012】
本発明は、上記に鑑みてなされたものであって、雑音環境下においても、容易且つ高精度に特定音を検出することを目的とする。
【課題を解決するための手段】
【0013】
上述した課題を解決し、目的を達成するために、本発明は、音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出手段と、学習データから時系列に沿って予め求めた特徴値の期待値と、特徴値算出手段で算出された、音データの信号パワー時系列の特徴値との差分に基づいて音データを評価するスコアを算出するスコア算出手段と、スコアの極大値の位置と極小値の位置とを検出し、極大値の位置および極小値の位置に基づき音データ中の特定音発生区間を検出する検出手段とを備えることを特徴とする。
【0014】
また、本発明は、特徴値算出手段が、音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出ステップと、スコア算出手段が、学習データから時系列に沿って予め求めた特徴値の期待値と、特徴値算出ステップで算出された、音データの信号パワー時系列の特徴値との差分に基づいて音データを評価するスコアを算出するスコア算出ステップと、スコアの極大値の位置と極小値の位置とを検出し、極大値の位置および極小値の位置に基づき音データ中の特定音発生区間を検出する検出ステップとを備えることを特徴とする。
【発明の効果】
【0015】
本発明によれば、雑音環境下においても、容易且つ高精度に特定音を検出することができるという効果を奏する。
【図面の簡単な説明】
【0016】
【図1】図1は、本発明の実施形態に適用可能な音検出装置の一例の構成を概略的に示すブロック図である。
【図2】図2は、音検出装置の機能をより詳細に説明するための一例の機能ブロック図である。
【図3】図3は、スコアパラメータの算出方法についてより詳細に説明するための略線図である。
【図4】図4は、学習データとしてガラス打撃音の音響データを用いた場合の、各フレームに関する信号パワー時系列の傾きの分布の例を示すヒストグラムである。
【図5】図5は、各フレームに関する信号パワー時系列の傾きの分布に基づき算出した、各フレームの期待値μおよび分散値σ2の例を示す略線図である。
【図6】図6は、信号パワーyLP(i)、信号パワー時系列の傾きyGLP(i)およびスコアS(i)を、入力音響データの各フレームiについて求めた値の例を示す略線図である。
【図7】図7は、学習データの各フレームkのそれぞれについて求めた期待値μkおよび分散値σ2kの例を示す略線図である。
【図8】図8は、信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフである。
【図9】図9は、観測音に雑音が少ない場合の不審音発生区間の例を示す略線図である。
【図10】図10は、観測音に雑音が多い場合の不審音発生区間の例を示す略線図である。
【図11】図11は、算出されたスコアの遅延を説明するための略線図である。
【図12】図12は、スコアの遅延の補正について説明するための略線図である。
【図13】図13は、本実施形態による不審音発生区間の検出処理を示す一例のフローチャートである。
【図14】図14は、物音による学習データに対し、略ランダムな音響データが入力された場合の、信号パワー、信号パワー時系列の傾きおよびスコアの例を示す略線図である。
【図15】図15は、物音による学習データに対し、略ランダムな音響データが入力された場合の、信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフである。
【発明を実施するための形態】
【0017】
以下に添付図面を参照して、本発明に係る音検出装置の一実施形態を詳細に説明する。本発明の実施形態では、監視エリア内の音を観測し、観測された観測音の音響信号から不審音や異常音と見做される特定音の発生区間を検出する。そして、観測音の音響信号から、検出された特定音発生区間の音響信号を切り取って出力する。
【0018】
検出対象となる特定音は、人が発する音声とは異なる所謂物音であり、観測音に含まれる環境音と似ている。そのため、本実施形態では、概略的には、検出対象となる特定音と同種類の音の音響データによる学習データについて、予め特徴値の期待値を求め、求めた期待値と、観測音の時系列上の特徴値との差分を用いて算出したスコアに基づき特定音の発生区間を検出する。
【0019】
ここで、観測音、環境音、不審音および異常音について定義する。観測音とは、監視エリア内で集音される全ての物音をいう。異常音は、侵入行動などが原因で発生した、警報出力すべき物音をいう。異常音の代表的な例としては、ガラスなどが破壊された際に発生する破壊音が挙げられる。不審音は、異常音と断定はされないが、監視エリア内で集音された怪しい物音をいう。不審音の例としては、打撃音などが考えられる。環境音は、観測音に含まれる、不審音および異常音以外の音をいう。環境音の例としては、風など自然現象に起因する音や、自動車、電車の音などが考えられる。
【0020】
図1は、本発明の実施形態に適用可能な音検出装置の一例の構成を概略的に示す。図1において、音検出装置100は、A/D変換部11、演算部12および記憶部13を含む。例えば監視エリアにおいてマイクロフォン10で集音された観測音は、A/D変換部11でディジタルデータに変換され、入力音響データ20として演算部12に供給される。
【0021】
演算部12は、例えばCPU(Central Processing Unit)、マイクロプロセッサ、あるいは、DSP(Digital Signal Processor)などを含む。また、記憶部13は、例えば半導体メモリやHDD(ハードディスクドライブ)などからなり、入力音響データ20が記憶されると共に、学習データに基づき作成された、入力音響データ20を評価するスコアを算出するためのスコアパラメータが予め記憶されている。学習データは、検出したい不審音や異常音と同種類であって、異なる複数の音の音響データを用いる。記憶部13は、また、演算部12の作業領域としても用いることができる。
【0022】
演算部12は、入力音響データ20の特徴値を時系列上で算出し、算出された時系列上での特徴値を、記憶部13に記憶されるスコアパラメータを用いて評価して、検出対象の不審音や異常音の発生区間を検出する。演算部12は、入力音響データ20から検出対象の不審音や異常音の発生区間を検出した場合、検出された不審音や異常音の発生区間を当該入力音響データ20から切り取り、不審音発生区間の出力音響データ21として出力する。出力音響データ21は、例えば通信ネットワークを介して、監視サーバなどに送信される。
【0023】
本実施形態では、音響データの特徴値として、音響データの信号パワーの時系列での傾きを用いる。なお、これはこの例に限定されず、特徴値は、音響データの特徴を示す値であれば、他の値を用いてもよい。例えば、音響データ信号パワーそのものや、所定区間におけるゼロクロス数などを特徴値として用いてもよい。
【0024】
図2は、音検出装置100の機能をより詳細に説明するための一例の機能ブロック図である。なお、図2において、上述の図1と共通する部分には同一の符号を付して、詳細な説明を省略する。また、本実施形態では、上述した不審音および異常音を共に検出対象としている。そのため、以下では、特に記載の無い限り、不審音と異常音とを纏めて不審音として記述する。
【0025】
図2において、信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104は、演算部12に含まれる。スコアパラメータ111は、学習データに基づき予め作成されて記憶部13に記憶される。また、記憶部110は、例えば上述の記憶部13内の領域であって、観測音がA/D変換部11でディジタルデータに変換された入力音響データ20が一時的に記憶されると共に、後述するスコアや遅延時間補正量など、不審音発生区間を検出するために用いるデータが記憶される。
【0026】
信号パワー算出部101は、A/D変換部11から供給された入力音響データ20の信号パワーを、時系列上で算出する。より具体的には、信号パワー算出部101は、入力音響データ20の時系列上で連続する所定数のサンプルを単位として、信号パワーを算出する。ここで、信号パワーを算出する単位をフレームと呼び、フレームに含まれるサンプル数がフレーム幅となる。
【0027】
入力音響データ20のi番目のフレームの信号パワーyLP(i)は、フレーム幅をW、フレーム内のn番目の波形データ(サンプル値)を値x(n)として、例えば次式(1)により算出される。
【数1】

【0028】
なお、信号パワーyLP(i)を算出するフレームは、直前のフレームと一部のサンプルが重複するように、フレームの先頭を基準とした所定サンプル数のフレーム間隔D毎に、用いるサンプルをずらして設定する。一例として、フレーム幅W=160サンプルであって、m番目のフレームmが第1サンプル〜第160サンプルで構成されるものとして、m+1番目のフレーム(m+1)は、第81サンプル〜第240サンプルで構成され、m+2番目のフレーム(m+2)は、第161サンプル〜第320サンプルで構成される。この場合、フレーム間隔D=80サンプルとなる。なお、この例では、フレームの重複部分の長さをフレーム幅W/2としたが、これはこの例に限定されない。
【0029】
傾き検出部102は、信号パワー算出部101で算出されたフレーム毎の信号パワーyLP(i)の、時系列上での傾き(信号パワー時系列の傾きと呼ぶ)yGLP(i)を算出する。フレームiの信号パワー時系列の傾きyGLP(i)は、例えばフレームiと、既に信号パワーを算出済みのフレーム(i−4)、フレーム(i−3)およびフレーム(i−1)の、対象フレームiに対して4フレーム分遡ったフレーム(i−4)のうち、4フレーム分の信号パワーを用いて、次式(2)により算出できる。
【数2】

【0030】
なお、式(2)では、対象フレームiに対して4フレーム前から4フレーム分の信号パワーを用いて傾きyGLP(i)を算出しているが、これはこの例に限定されない。すなわち、対象フレームiから何フレーム分遡ったフレームからデータを用いるかは、信号パワー時系列の傾きyGLP(i)を求める式の構成に応じて決められる。また、各定数の値も、この例に用いた値に限定されない。
【0031】
スコア算出部103は、傾き算出部102で入力音響データ20について算出された信号パワー時系列の傾きyGLP(i)と、学習データを用いて予め作成され例えば記憶部13に記憶されたスコアパラメータ111とに基づき、入力音響データ20を評価するためのスコアを算出する。スコアパラメータ111は、予め用意された学習データに基づき作成された、検出対象となる不審音に対する期待値を含む。そして、算出されたスコアの時系列的な変化に基づき不審音発生区間の検出を行う。
【0032】
スコアパラメータ111は、下記のようにして作成する。先ず、検出対象となる不審音と種類が同じであって、互いに音が異なる複数の音響データをそれぞれ学習データとして用意する。例えば、検出対象となる不審音がガラスの破壊音である場合、異なるサイズ、厚み、材質など様々な条件でガラスを破壊した際の破壊音を集音した各音響データを、それぞれ学習データとして用いる。
【0033】
この学習データのそれぞれについて、上述したようにして、フレーム毎に信号パワーを求め、求めた信号パワーを用いて信号パワー時系列の傾きを算出する。そして、複数の学習データの、互いに対応するフレームkの信号パワー時系列の傾きの期待値μkおよび分散値σ2kを算出する。算出された期待値μkおよび分散値σ2kを、フレームkのスコアパラメータ111として、記憶部13に記憶する。
【0034】
図3を用いて、スコアパラメータ111の算出方法についてより詳細に説明する。先ず、学習データに対してフレームを設定する。フレーム幅Wおよびフレーム間隔Dは、上述の信号パワー算出部101で入力音響データ20に対して設定したフレームと同一とする。なお、信号パワー時系列の傾きの算出は、上述した式(2)に従い、対象フレームiから4フレーム分遡ったフレームからの信号パワー値を用いて行うものとする。
【0035】
なお、以下では、不審音発生区間の開始位置を含むフレームから、当該フレームの信号パワー時系列の傾きを算出するために必要なフレーム分を遡ったときの先頭のフレームを、1番目のフレーム(フレーム#1)とする。
【0036】
学習データの波形の立ち上がり時刻、すなわち不審音発生区間の開始位置に係るフレーム(図3の例ではフレーム#5)を設定する。そして、このフレーム#5から学習データの波形の減衰方向(不審音発生区間の終了位置方向)に向けて、フレーム間隔Dで順次フレームを設定する(フレーム#6〜#8)。また、不審音発生区間の開始位置に係るフレームについて信号パワー時系列の傾きを算出する場合、この例では当該フレームに対して4フレーム分遡った位置からフレームが必要となるので、これらのフレームも設定する。図3の例では、フレーム#5から時系列を遡った方向に、フレーム#4〜#1が設定される。なお、不審音発生区間の開始位置に係るフレーム(フレーム#5)は、フレームの略中央が当該開始位置になるように設定すると好ましい。
【0037】
音が異なる複数の学習データのそれぞれに対して、同様にして、波形の立ち上がり時刻を基準として各フレームが設定される。
【0038】
なお、この例では、信号パワー時系列の傾きを算出するために用いるフレーム数を4フレームとし、学習データからスコアパラメータ111を算出するために用いる総フレーム数を8フレームとしているが、これはこの例に限定されず、例えばさらに多くのフレームを用いてもよい。また、学習データの波形の立ち上がり時刻に対して中央を揃えるフレームを、5番目のフレームとしているが、これはこの例に限定されず、スコアパラメータ111を算出するために用いる総フレーム数に合わせて別のフレームを用いてもよい。さらに、学習データにおいては、波形の立ち上がり時刻より前のデータが存在しない場合が考えられる。この場合には、値「0」のデータ(無音データ)が存在するものと見做してフレームの設定を行う。
【0039】
次に、上述のようにして各学習データに対して設定されたフレーム毎に信号パワーを算出し、各学習データについて、信号パワー時系列の傾きを算出する。そして、各学習データの対応するフレームkにおける信号パワー時系列の傾きの期待値μkおよび分散値σ2kを算出する。
【0040】
一例として、波形の立ち上がり部分を含むフレーム#5を基点とし、フレーム#5〜フレーム#8のそれぞれについて、各学習データに基づき信号パワー時系列の傾きに関するヒストグラムを作成する。図4は、学習データとしてガラス打撃音の音響データを用いた場合の、フレーム#5〜フレーム#8それぞれに関する、信号パワー時系列の傾きの分布(ヒストグラム)の例を示す。図4(a)はフレーム#5の例、図4(b)はフレーム#6の例、図4(c)はフレーム#7の例、図4(d)はフレーム#8の例である。図4(a)、図4(b)、図4(c)および図4(d)において、横軸が信号パワー時系列の傾きの階級、縦軸が頻度を示す。
【0041】
これら図4(a)〜図4(d)のヒストグラムに基づき、フレーム#5〜フレーム#8それぞれについて、期待値μおよび分散値σ2を求めることができる。なお、期待値μkおよび分散値σ2kの算出は、周知の方法を用いることができるので、ここでの説明を省略する。図5は、図4(a)〜図4(d)のヒストグラムに基づき算出した、フレーム#5〜フレーム#8それぞれの期待値μおよび分散値σ2の例を示す。各フレームkに対して、それぞれ期待値μkおよび分散値σ2kが算出される。算出されたこれら各フレームkの期待値μkおよび分散値σ2kは、スコアパラメータ111として記憶部13に記憶される。
【0042】
スコア算出部103は、こうして算出し記憶部13にスコアパラメータ111として記憶された各フレームkの期待値μkおよび分散値σ2kを用いて、次式(3)に例示される、入力音響データ20のフレームiにおけるスコアS(i)を算出するスコア算出式を得る。このスコア算出式で算出されたスコアS(i)により、入力音響データ20におけるフレームiを評価することができる。
【数3】

【0043】
なお、式(3)において、傾きyGLP(i+k−8)に含まれる値「8」および総和の終了を示す値「8」は、学習データからスコアパラメータ111を算出するために用いた総フレーム数である。また、総和の開始を示す値「5」は、不審音発生区間の開始位置を含むフレーム番号の、学習データからスコアパラメータ111を算出するために用いる先頭のフレームから数えたフレーム番号である。これらの値は、信号パワー時系列の傾きyGLP(i)を求める式の構成などに応じて決められる。さらに、式(3)において、スコアの最大値を「0」にするために、右辺の全体に負符号が付されている。
【0044】
すなわち、式(3)は、入力音響データ20におけるスコア算出の対象となるフレームiの信号パワー時系列の傾きと期待値との差分の二乗を、学習データにおいて不審音発生区間の開始位置から4フレーム分順次フレームをずらして求めた総和に基づき、フレームiのスコアを算出している。分散値は、分子の値を正規化する。なお、式(3)では、信号パワー時系列の傾きと期待値との差分の二乗を用いているが、これはこの例に限定されず、例えば差分の絶対値を用いてもよい。
【0045】
スコア算出部103は、傾き算出部102で入力音響データ20の各フレームiについて算出された、信号パワー時系列の傾きyGLP(i)を式(3)に順次適用して、各フレームiのスコアS(i)を算出する。
【0046】
発生区間検出部104は、スコア算出部103で算出された入力音響データ20のフレームiのスコアS(i)から、フレームiのスコア時系列の傾きGS(i)を算出する。この例では、スコア時系列の傾きGS(i)は、上述した信号パワー時系列の傾きの算出と同様に、対象となるフレームiに対して4フレーム分遡ったフレーム(i−4)から4個のスコアS(i−4)、スコアS(i−3)、スコアS(i−1)およびスコアS(i)を用いて、例えば次式(4)を用いて算出される。
【数4】

【0047】
なお、ここでは、スコア時系列の傾きGS(i)を算出するために、4個のスコアを用いたが、これはこの例に限定されない。また、スコア時系列の傾きは、スコア算出部103で算出してもよい。
【0048】
発生区間検出部104は、算出されたスコア時系列の傾きGS(i)に基づき、スコアS(i)が極大値または極小値であるか否かを判定する。すなわち、スコア時系列の傾きGS(i)が下記の条件(A)を満たすとき、スコアS(i)は極大値を取る。
GS(i−1)>0 且つ GS(i)≦0 …(A)
【0049】
同様に、スコア時系列の傾きGS(i)が下記の条件(B)を満たすとき、スコアS(i)は極小値を取る。
GS(i−1)<0 且つ GS(i)≧0 …(B)
【0050】
発生区間検出部104は、スコアS(i)が極大値であった場合、当該スコアS(i)が閾値を超えているか否かを判定し、超えていれば、当該スコアS(i)に対応するフレームiが波形の立ち上がり位置を含むものと判定する。閾値は、予め実験的手法などにより求めて、記憶部13に記憶しておく。ここで、学習データにおいて、波形の立ち上がり位置に係るフレーム(例えばフレーム#5)の略中央が当該開始位置になるように設定されている場合、当該フレームiの略中央の位置が波形の立ち上がり位置とされる。
【0051】
一方、発生区間検出部104は、波形の立ち上がり位置を含むフレームを検出した後に最初に極小値をとったスコアS(i)について、当該スコアS(i)に対応するフレーム(i)が波形の立ち下がり位置を含むものと判定する。この場合も、学習データにおいて、波形の立ち上がり位置に係るフレーム(例えばフレーム#5)の略中央が当該立ち上がり位置になるように設定されている場合、当該フレームiの略中央の位置が波形の立ち下がり位置とされる。
【0052】
発生区間検出部104は、波形の立ち上がり位置および立ち下がり位置が検出されると、検出された波形の立ち上がり位置を不審音発生区間の開始位置とし、立ち下がり位置を当該不審音発生区間の終了位置とする。これにより、不審音発生区間が検出される。
【0053】
ここで、式(3)に示すスコア算出式の意味について説明する。スコア算出式である式(3)に用いられる信号パワー時系列の傾きyGLP(i)は、上述の式(2)で算出され、式(2)に用いられる信号パワーyLP(i)は、上述の式(1)で算出される。図6は、こうして求めた信号パワーyLP(i)、信号パワー時系列の傾きyGLP(i)およびスコアS(i)を、入力音響データ20の各フレームiについて求めた値の例を示す。
【0054】
学習データに基づく特徴値の期待値μおよび分散値σ2は、学習データにおける物音(不審音)の波形の立ち上がりを含むフレームおよび当該フレームから所定数のフレーム(上述の例では4フレーム)のそれぞれについて算出された値である。図7は、学習データの各フレームkのそれぞれについて求めた期待値μkおよび分散値σ2kの例を示す。
【0055】
図8は、図6に示す信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフを示す。なお、このグラフは、後述するスコア算出に伴う遅延の補正がなされていない。図8の例では、スコアのプロットは、信号パワーのプロットに対して、3フレーム分遅延している。
【0056】
学習データにおける物音と、入力音響データ20に含まれる物音との類似性が高い位置、すなわち、物音の立ち上がり位置で、期待値μと入力音響データ20の特徴値との差分に基づくスコアは、最大値を取る(スコアのプロットにおけるフレーム#9の位置)。そこで、式(3)のΣ部分を参照し、所定フレーム数分の総和が最も大きな値を取る点でスコアは極大値を取り、そのフレームを物音の発生区間の開始位置を含むフレームとする。
【0057】
物音の発生区間の開始位置以降、入力音響データ20の信号パワーは減衰する(信号パワーのプロットにおけるフレーム番号#7〜#10)。それに伴い、入力音響データ20の信号パワー時系列の傾きが負値を取る(信号パワー時系列の傾きのプロットにおけるフレーム#8、#9)。したがって、式(3)における「yGLP(i+k−8)−μk」の二乗の値が大きくなり、この二乗値の4フレーム分の総和に負符号が付されたスコアS(i)は、小さな値となる(スコアのプロットにおけるフレーム#12、#13)。スコアS(i)の値が最も小さくなるとき、スコアS(i)が極小値を取り(スコアのプロットにおけるフレーム#13)、この極小値を取ったフレームを物音の発生区間の終了位置を含むフレームと見做すことができる。
【0058】
図9および図10は、上述のようにして検出された不審音発生区間の例を示す。図9は、観測音に雑音(環境音)が少ない場合の例であり、図10は、観測音に雑音が多い場合の例である。図9および図10では、それぞれ同一のスコアパラメータ111と不審音発生区間の検出のための閾値とを用いて、不審音発生区間の検出を行っている。
【0059】
図9および図10それぞれにおいて、上側のグラフは入力音響データ20を示し、下側のグラフは入力音響データ20に対するスコアと、スコアに基づき検出された不審音発生区間とを示す。不審音発生区間は、値がHighレベルで不審音発生区間を示す。なお、図9および図10では、スコアのグラフにおいて、後述するスコア算出に係る遅延が補正されている。
【0060】
図9において、上側の入力音響データ20のグラフに、時刻「3000」付近で不審音が発生し、この不審音が時間「200」程度で急激に減衰している様子が示されている。一方、下側のグラフにおいて、上述した条件(A)に従い、スコアは、時刻「3000」付近で大きな極大値を取り、時刻「5500」付近でやや大きな極大値を取っている。この例では、時刻「3000」付近のスコアの極大値が閾値を超えており、時刻「5500」付近のスコアの極大値は、閾値を超えていないものとする。さらに、スコアは、上述した条件(B)に従い、閾値を超える時刻「3000」付近の極大値の後、時刻「3300」付近で極小値を取っている。したがって、時刻「3000」付近から時刻「3300」付近が不審音発生区間と判断することができる。
【0061】
また、図10の観測音に雑音が多い場合についても、図9の観測音に雑音が少ない場合と同様の結果が得られることが分かる。これにより、本実施形態の音検出装置を用いることで、雑音環境下であっても不審音発生区間を容易に検出可能であることが分かる。
【0062】
ところで、既に述べたように、スコア算出の際には、入力音響データ20の対象となるフレームの前後のフレームを用いる。そのため、図11に示されるように、算出されたスコアに基づき求めた入力音響データ20における不審音による波形の立ち上がり位置および立ち下がり位置は、実際の入力音響データ20における波形の立ち上がり位置および立ち下がり位置に対して遅延を有する。そのため、入力音響データ20から不審音発生区間を切り取るためには、この遅延の補正を行う必要がある。
【0063】
遅延を補正する遅延補正量は、入力音響データ20のサンプリング周波数、フレーム幅Wおよびフレーム間隔Dに依存する。すなわち、スコア算出にフレーム#1〜フレーム#8の8フレームを用い、学習データにおける波形の立ち上がり位置にフレーム#5を対応させる上述の例では、図12に例示されるように、入力音響データ20について、信号パワーを算出するために1フレーム幅Wの時間を要し、各フレームの信号パワーは、フレーム間隔D毎に算出される。また、信号パワー時系列の傾きの算出には、5フレーム後、すなわち1フレーム幅W+4フレーム間隔Dを要する。さらに、スコアを算出するために、4フレーム分を用いるため、4フレーム間隔Dを要する。したがって、フレームiのスコアを算出するために、1フレーム幅W+7フレーム間隔D=9フレーム間隔Dを要することになる。
【0064】
より具体的な例として、入力音響データ20のサンプリング周波数が16kHz(キロヘルツ)、1フレーム幅Wのサンプル数が160サンプル、1フレーム間隔Dのサンプル数80サンプルの例では、遅延補正量は、80サンプル×9=720サンプル分となる。この遅延補正量は、時間に換算すると、720サンプル×(1/16000)=0.045sec(45ミリ秒)となる。
【0065】
発生区間検出部104は、検出された不審音発生区間の開始位置および終了位置の時刻から、この遅延補正量を差し引いた値を、補正済み不審音発生区間の開始位置および終了位置の時刻とする。そして、記憶部13に記憶された入力音響データ20から、この補正済み不審音発生区間のデータを切り取り、出力音響データ21として出力する。
【0066】
図13は、本実施形態による不審音発生区間の検出処理を示す一例のフローチャートである。このフローチャートによる各処理は、例えば演算部12が含む図示されないCPUにより、例えば記憶部13に予め記憶されるプログラムに従って実行される。プログラムは、例えば、信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104をそれぞれ実現するモジュールを含み、CPUにより実行されると、図示されない主記憶上にこれら各部のモジュールを展開し、実行する。
【0067】
これに限らず、演算部12に含まれる信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104をそれぞれ別個のハードウェアによって構成し、各部が協働してフローチャートにおける各処理を実行してもよい。
【0068】
図13において、ステップS100で、マイクロフォン10から、集音された観測音に従ったアナログ音声信号が出力される。このアナログ音声信号は、A/D変換部11でディジタル音声信号に変換され、入力音響データ20として信号パワー算出部101に供給される。入力音響データ20は、記憶部110にも供給され、記憶される。
【0069】
信号パワー算出部101は、入力された入力音響データ20に対してフレームiを設定し、上述した式(1)に従い、設定されたフレームiの信号パワーyLP(i)を算出する(ステップS101)。算出された信号パワーyLP(i)の値は、例えば記憶部110に一時的に保持される。次のステップS102で、傾き算出部102は、既に算出された所定数の信号パワーの値を記憶部110から取り出し、上述した式(2)に従い信号パワー時系列の傾きyGLP(i)を算出する。算出された信号パワー時系列の傾きyGLP(i)は、記憶部110に保持される。
【0070】
次にステップS103で、スコア算出部103は、既に算出された信号パワー時系列の傾きyGLP(i)の値と、学習データに基づき予め算出されたスコアパラメータ111とを、記憶部110から取り出し、上述した式(3)に従いフレームiのスコアS(i)を算出する。算出されたスコアS(i)は、記憶部110に保持される。次のステップS104で、発生区間検出部104は、既に算出されたスコアの値を記憶部110から取り出し、上述した式(4)に従いスコア時系列の傾きGS(i)を算出する。
【0071】
次のステップS105で、発生区間検出部104は、上述した条件(A)を参照し、算出されたスコア時系列の傾きGS(i)が極大値であるか否かを判定する。若し、スコアS(i)が極大値であると判定したら、処理をステップS106に移行させ、極大値であるスコアS(i)が予め決められた閾値を超えているか否かを判定する。若し、超えていないと判定したら、処理をステップS100に戻す。
【0072】
一方、ステップS106で、スコアS(i)が当該閾値を超えていると判定したら、処理はステップS107に移行され、フレームiの略中央に不審音の波形の立ち上がりが検出されたものとする。そして、処理をステップS100に戻す。
【0073】
上述のステップS105で、スコアS(i)が極大値ではないと判定されたら、処理はステップS108に移行される。ステップS108で、発生区間検出部104は、上述した条件(B)を参照し、当該スコアS(i)が極小値であるか否かを判定する。若し、極小値ではないと判定したら、処理をステップS100に戻す。
【0074】
一方、ステップS108で、スコアS(i)が極小値であると判定したら、処理をステップS109に移行させる。ステップS109で、発生区間検出部104は、この極小値が、上述のステップS106で極大値が検出されてから初回に検出された極小値であるか否かを判定する。若し、極大値の検出後の初回に検出された極小値ではないと判定したら、処理をステップS100に戻す。
【0075】
ステップS108で、発生区間検出部104は、スコアS(i)がステップS106で極大値が検出されてから初回に検出された極小値であると判定したら、処理をステップS110に移行させ、フレームiの略中央に不審音の波形の立ち下がりが検出されたものと見做す。このステップS110と、上述したステップS107とで不審音の波形の立ち上がりおよび立ち下がりが検出されたことになる。
【0076】
次のステップS111で、発生区間検出部104は、入力音響データ20のサンプリング周波数、フレーム幅Wおよびフレーム間隔Dと、学習データについて信号パワー時系列の傾きを算出する際に用いたフレーム数とに基づき算出される遅延補正量を用いて、不審音の波形の立ち上がり位置および立ち下がり位置を補正する。この補正された立ち下がり位置および立ち下がり位置が、不審音発生区間の開始位置および終了位置とされ、不審音発生区間が検出される(ステップS112)。
【0077】
上述したように、本実施形態によれば、集音された観測音に基づく入力音響データから特徴値の時系列データを抽出し、抽出された特徴値と、予め学習データを用いて算出された特徴値の期待値とを比較してスコアを求め、このスコアの時系列上での変化に基づき不審音発生区間を検出している。そのため、雑音環境下においても、容易に不審音発生区間の検出を行うことができる。
【0078】
本実施形態では、不審音を検出するための閾値を、入力音響データの特徴値から算出したスコアに対して適用している。このスコアは、雑音環境下の観測音においても略一定の値を取る。そのため、監視エリアの環境に応じて閾値を変更する必要が無い。それと共に、本実施形態では、雑音に影響されにくい性質の値であるスコアを不審音の検出に用いているので、雑音に対して頑健な検出が可能で、雑音環境下や、雑音レベルの変化する環境下においても安定的に不審音発生区間の検出を行うことができる。
【0079】
ここで、本実施形態による不審音発生区間の検出方法が、雑音環境に対して頑健であることについて説明する。
【0080】
本実施形態において、式(3)により算出されるスコアは、学習データと、入力音響データ20との類似性が高い場合に大きな値を取る性質がある。一方、雑音(雑音の音響データ)と学習データとでは類似性が低いため、スコアは、略一定の値を取り大きく変化しない。したがって、スコアに対して閾値を設定し、スコアが閾値を超えたか否かを判定することで、従来の、例えば信号パワーに対して閾値を設定する音検出方法と比べて、より確実に物音の発生区間を検出することが可能となる。
【0081】
すなわち、不審音による音響データが入力された場合、入力された音響データにおける不審音発生区間の波形は、学習データによる波形に対する類似性が高いため、不審音発生区間の先頭でスコアが大きく変化する。本実施形態では、このスコアと閾値とを比較して、スコアが閾値を超えている場合に、不審音発生区間が検出されたものと判定する。
【0082】
一方、雑音による音響データが入力された場合、雑音による波形は、学習データによる波形に対する類似性が小さいため、スコアの変化が極めて小さい。そのため、スコアが閾値を超える可能性が小さく、誤検出の発生が抑制される。
【0083】
図14は、学習データが物音(検出対象の不審音)を集音した音響データである場合に、略ランダムな音響データ(雑音による音響データ)が入力された際の、信号パワー、信号パワー時系列の傾きおよびスコアの例を示し、図15は、図14に例示した各項目の値をフレーム番号に対してプロットしたグラフを示す。学習データの期待値μkおよび分散値σ2は、上述した図7に示す値と同一とする。
【0084】
なお、図15に例示されるグラフは、後述するスコア算出に伴う遅延の補正がなされておらず、スコアのプロットは、信号パワーのプロットに対して、3フレーム分遅延している。
【0085】
図15に例示されるように、雑音による音響データは、信号パワーが比較的大きく変化する。そのため、従来のように信号パワーに対して閾値200を設定した場合、フレーム番号#3、#16、#18および#19などが誤検出されてしまう。一方、波形が学習データと大きく異なる音響データが入力された場合、スコアは大きく変化しない。そのため、本実施形態によりスコアに対して閾値を設定した場合、スコアが当該閾値を超えてしまう可能性が低く、雑音環境下においても特定の物音の発生区間を正確に検出することができる。
【0086】
また、本実施形態は、不審音の特徴を抽出することで、不審音発生区間の検出を行っている。そのため、音声のみならず、様々な物音を不審音発生区間の検出対象とすることができる。
【0087】
さらに、本実施形態を適用することで、不審音の発生区間を精度よく検出することができる。これにより、検出された不審音発生区間の音響データに対する音認識処理における精度の向上が期待できる。また、不審音発生区間の検出を音認識処理に対して事前に行うことにより、システムは、検出された不審音発生区間の音響データのみに対して認識処理を行えばよく、音認識システム全体の計算コストや音響データの通信を行うための通信コストを抑えることができる。
【0088】
本実施形態の音検出装置を、監視領域内で不審者を検出した場合に警報を出力する警備装置に設けたり、本実施形態の音検出装置からの出力を上記警備装置に入力するように構成することができる。これにより、監視領域内での不審音を容易かつ高精度に検出できるので、警備装置による誤報を防止することが可能となる。
【符号の説明】
【0089】
10 マイクロフォン
11 A/D変換部
12 演算部
13 記憶部
20 入力音響データ
21 出力音響データ
100 音検出装置
101 信号パワー算出部
102 傾き算出部
103 スコア算出部
104 発生区間検出部
111 スコアパラメータ

【特許請求の範囲】
【請求項1】
音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出手段と、
学習データから時系列に沿って予め求めた特徴値の期待値と、前記特徴値算出手段で算出された、前記音データの信号パワー時系列の特徴値との差分に基づいて前記音データを評価するスコアを算出するスコア算出手段と、
前記スコアの極大値の位置と極小値の位置とを検出し、該極大値の位置および極小値の位置に基づき前記音データ中の特定音発生区間を検出する検出手段と
を備える
ことを特徴とする音検出装置。
【請求項2】
前記検出手段は、
前記極大値が閾値を超える場合に該極大値の位置を前記特定音発生区間の開始位置と判定し、
該開始位置の後に最初に現れる前記極小値の位置を該特定音発生区間の終了位置と判定する
ことを特徴とする請求項1に記載の音検出装置。
【請求項3】
前記特徴値の期待値は、種類が同じで音が異なる複数の音データを前記学習データとして用いて求めた
ことを特徴とする請求項1または請求項2に記載の音検出装置。
【請求項4】
前記信号パワー時系列の特徴値の期待値は、学習データの、一部が重複しつつ時系列順に並んだ複数の所定範囲それぞれについて求められ、
前記特徴値算出手段は、
前記音データの、一部が重複しつつ時系列順に並んだ所定範囲に対して前記特徴値を算出し、
前記スコア算出手段は、
前記音データの複数の所定範囲の特徴値と、前記学習データについて求められた複数の所定範囲の前記期待値とのそれぞれの差分の和に基づき前記スコアを算出する
ことを特徴とする請求項1乃至請求項3の何れか1項に記載の音検出装置。
【請求項5】
前記スコア算出手段は、
学習データからさらに予め求めた信号パワー時系列の特徴値の分散値を用いて前記差分を正規化して、前記スコアを算出する
ことを特徴とする請求項4に記載の音検出装置。
【請求項6】
前記特徴値は、音データの信号パワー時系列の傾きである
ことを特徴とする請求項1乃至請求項5の何れか1項に記載の音検出装置。
【請求項7】
前記検出手段で検出された前記特定音発生区間に対して、前記スコア算出手段により前記スコアを算出した際に発生した遅延を補正する遅延補正手段をさらに備える
ことを特徴とする請求項1乃至請求項6の何れか1項に記載の音検出装置。
【請求項8】
特徴値算出手段が、音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出ステップと、
スコア算出手段が、学習データから時系列に沿って予め求めた特徴値の期待値と、前記特徴値算出ステップで算出された、前記音データの信号パワー時系列の特徴値との差分に基づいて前記音データを評価するスコアを算出するスコア算出ステップと、
前記スコアの極大値の位置と極小値の位置とを検出し、該極大値の位置および極小値の位置に基づき前記音データ中の特定音発生区間を検出する検出ステップと
を備える
ことを特徴とする音検出方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2012−127701(P2012−127701A)
【公開日】平成24年7月5日(2012.7.5)
【国際特許分類】
【出願番号】特願2010−277461(P2010−277461)
【出願日】平成22年12月13日(2010.12.13)
【出願人】(000202361)綜合警備保障株式会社 (266)
【出願人】(301021533)独立行政法人産業技術総合研究所 (6,529)
【Fターム(参考)】