暗騒音推定装置

【課題】本発明は、実際の暗騒音レベルの変動に迅速に追従でき突発的な騒音への影響を排除できる暗騒音推定装置の実現。
【解決手段】
取得した音響信号のパワー情報と有効期間を対応させてデータセットを生成するデータセット生成手段と、新たに音響信号が入力されるごとに、記憶部に記憶されているデータセットのパワー情報のうち略最大であるパワー情報と入力された音響信号のパワー情報とを比較し、入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報以上であれば、入力された音響信号を破棄し、入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報未満であれば、入力された音響信号のデータセットにて略最大のパワー情報を持つデータセットを更新する更新手段と、記憶部に記憶されたデータセットを使用して暗騒音レベルを推定する推定手段を具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、騒音レベルが変動する環境において暗騒音のレベルを推定する暗騒音推定装置に関し、特に、レベル推定の精度を落とすことなく、使用する記憶容量を低減し、推定処理の計算量を低減した暗騒音推定装置に関する。
【背景技術】
【０００２】
従来、暗騒音推定装置は、マイクロホンから随時入力される所定数分の音響信号を記憶し、記憶した音響信号の平均パワー情報を暗騒音レベルとして求めている。暗騒音を超える突発的な騒音の音響信号は、記憶されている音響信号の全体に対する割合として少ないはずなので、暗騒音レベルへの突発的な騒音による影響を緩和させるため、平均パワー情報を採用している。特許文献１は、このような従来の暗騒音推定装置の例が開示されており、単なるパワー情報の平均ではなく移動平均とすることにより、暗騒音レベルの変動が穏やかになるようにしている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００７−１８９６２７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、上記従来技術は、記憶している音響信号の数が多数であれば、突発的な騒音の影響は受けにくいが、実際の暗騒音レベルが増加した際にその追従が遅れてしまう。他方、記憶している音響信号が少数であれば、実際の暗騒音レベルの増加への追従は速やかだが、少し長い突発的な騒音の影響を受けて暗騒音レベルが増加してしまう。なお、暗騒音レベルが減少した場合も、増加場合と同様なことが起こる。
【０００５】
また、音響信号の記憶容量を十分確保すると、記憶素子のコストが増すばかりでなく、平均処理等を行うための演算にかかる負荷も大きなものとなる。
【０００６】
そこで、本発明は、かかる課題を解決するため、実際の暗騒音レベルの変動に迅速に追従できるとともに、突発的な騒音への影響を排除できる暗騒音推定装置の実現を目的とする。
【課題を解決するための手段】
【０００７】
本発明は、集音器から取得した音響信号における暗騒音レベルを推定する暗騒音推定装置であって、第一所定数のデータセットを記憶する記憶部と、取得した音響信号のパワー情報と有効期間を対応させてデータセットを生成するデータセット生成手段と、記憶部の第一所定数分のデータセットを記憶しているか否か判定するデータ量判定手段と、新たに音響信号が入力されるごとに、記憶部に記憶されているデータセットの有効期間が切れているかを判定して、有効期間が切れていると当該データセットを記憶部から削除し、記憶部に記憶されているデータセットが前記第一所定数に達していると、記憶部に記憶されているデータセットのパワー情報のうち略最大であるパワー情報と入力された音響信号のパワー情報とを比較し、入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報以上であれば、入力された音響信号を破棄し、入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報未満であれば、入力された音響信号のデータセットにて前記略最大のパワー情報を持つデータセットを更新する更新手段と、記憶部に記憶されたデータセットを使用して暗騒音レベルを推定する推定手段を具備した暗騒音推定装置を提供する。
【０００８】
また、好適な態様では、第一所定数より少ない第二所定数分のデータセットを使用して暗騒音レベルを推定する。
【０００９】
更に好適な態様では、データセットのうちパワー情報が小さい順の第二所定数分のデータセットを使用して暗騒音レベルを推定する。
【発明の効果】
【００１０】
本発明によれば、記憶容量および推定処理の負荷を増加させることなく、実際の暗騒音レベルの変動に迅速に追従し、突発的な騒音への影響を排除して暗騒音レベルを推定できる。
【図面の簡単な説明】
【００１１】
【図１】本発明を適用した話者方向推定装置１のブロック図である。
【図２】金融機関におけるＡＴＭ利用者を話者として認識するための話者方向推定装置の配置図である。
【図３】Ａ／Ｄコンバータ１１にて処理後の音声信号の例を示す図である。
【図４】音声区間のフレームを白色化処理部１３から人工音付加部１７までの処理を説明する図である。
【図５】無音区間のフレームを白色化処理部１３から人工音付加部１７までの処理を説明する図である。
【図６】音声区間のフレーム（a）と無音区間のフレーム(b)を説明する図である。
【図７】相互相関計算部１８での正規化相関関数を説明する図である。
【図８】本発明を適用したノイズレベル推定部１６の機能ブロックである。
【図９】本発明を適用したノイズレベル推定部１６の動作フローである。
【発明を実施するための形態】
【００１２】
以下、本発明を適用した話者方向推定装置１の実施形態について、図を参照して説明する。図２は、話者方向推定装置を金融機関のＣＤ／ＡＴＭの操作者の音声だけを抽出する目的に使用したときの設置例を示している。話者方向推定装置は、振り込め詐欺の被害者の恐れがある人に、注意を喚起することを想定している。振り込め詐欺では、犯罪者が携帯電話を使用して、被害者に携帯電話にてＡＴＭ操作を誘導し、被害者のお金を加害者の口座に振り込ませる手口を使うことがある。そこで、ＡＴＭ３の上部左右両端に設置した2つのマイクロホン２からの音声信号を解析することで、ＡＴＭ３の正面にて携帯電話で被害者が発声していることを正確に検知するものである。
【００１３】
図２は、金融機関におけるＡＴＭ３の利用者４を話者として認識するための話者方向推定装置の配置の例を示した図である。話者方向推定装置は、本体装置１が壁面に設置され、マイクロホン２がＡＴＭの上部両端に所定距離を離隔させて２つ設置されている。本実施の形態では、マイクロホン２を２つ使用しているが、これに限られるものではなく、３以上を適宜の数を適宜の配置にて使用しても良い。なお、その設置の数や配置関係に応じて、後述する相互相関処理部１８、話者方向推定部１９のパラメータ等が異なることはいうまでもない。
【００１４】
図１は、本発明を適用した話者方向推定装置のブロック図を示している。話者方向推定装置１は、集音器である２つのマイクロホン２と、増幅器１０、Ａ／Ｄコンバータ１１、フレーム切出部１２、白色処理部１３、低域カット処理部１４、パワー計算部１５、ノイズレベル推定部１６、純音付加部１７、相互相関処理部１８、話者方向推定部１９から構成されている。
【００１５】
マイクロホン２は、全方向からの音声を集音するのが望ましいため、無指向性のものを使用している。話者方向を検出するために、少なくとも２つ以上が必要である。マイクロホン２同士は、所定距離の間隔を空けて設置される。この所定距離は、サンプリング周期や話者との距離などに応じて決定される。また、マイクロホン２は、特別に高品質なものを用意する必要はない。
【００１６】
増幅器１０は、マイクロホン２により集音された音声をＡ／Ｄコンバータ１１が処理できるように合わせて増幅する。この増幅されたアナログ信号である音声を6000Hz以上でサンプリングして離散時間信号（デジタル信号）にＡ／Ｄコンバータ１１にて変換する。増幅器１０、Ａ／Ｄコンバータ１１は、いずれも周知の部品であるので、詳細な説明は省略する。
【００１７】
次に、フレーム切出部１２は、音声信号を一定周期、固定長のフレームに切り出す。具体的には、例えばフレーム長30ms、シフト長20msにしたハミング（HAMMING）窓を窓関数として音声信号に乗じてフレームを切り出す。なお、窓関数は、ハミング（HAMMING）窓に限られるものではなく、ハニング（HAＮＮING）窓などを用いてもよい。
【００１８】
ここで、図３を参照して、Ａ／Ｄコンバータ１１及びフレーム切出部１２の処理結果を説明する。図３は、音声信号を横軸に時間・縦軸に振幅をとって模式的にグラフ化したものである。Ａ／Ｄコンバータ１１にて処理後の音声信号の例を図３上図に示している。そして、かかる音声信号から処理対象のフレームをフレーム切出部１２を切り出した結果が、同図の下図に示している。
【００１９】
パワー計算部１５は、フレーム切出部１２にて切り出したフレームの音声信号からパワー情報を計算する。パワー情報の計算は、音声信号の振幅値の2乗加算値をパワー情報としている。なお、本実施の形態では、２乗加算値を使用しているが、これに限ることなく、後述の白色化処理部１３で使用するスペクトル包絡のゲイン項や他の種々知られている算出方法の何れを使用しても良い。
【００２０】
ノイズレベル推定部１６は、本発明の暗騒音推定装置を適用している。図８を参照して、ノイズレベル推定部１６を詳細に説明する。図８は、ノイズレベル推定部１６の機能ブロックを示している。ノイズレベル推定部１６は、データセット生成手段１６１、更新手段１６２、推定手段１６３、記憶部１６４から構成されている。
【００２１】
データセット生成手段１６１は、パワー計算部１５にて計算したパワー情報に有効期間を対応付けたデータセットを生成する。ここで、有効期間は、設置場所にて生じる突発的な騒音の継続時間より長い時間の有効期間を用いる。本実施の形態では、１５秒間継続するような突発的な騒音の影響を排除したい場合を想定し、１秒間に５０フレームの入力があるので、５秒分程度の余裕時間を考慮して２０秒間分の有効期間である１０００に設定している。この値は、音声信号の分析周期などによって異なるので、適宜定める必要がある。有効期間は、長く設定するほど暗騒音の観測区間が長くなるので、時間的に継続する突発的な騒音の影響を少なくできるが、暗騒音レベルが変化した際の追従が遅れることになる。他方、有効期間を短く設定するほど、突発的な騒音の影響が大きくなるが、暗騒音レベルが変化した際の追従は早くなる。なお、有効期間は、後述する記憶部１６４の記憶容量や推定手段１６３にて使用する第二所定数との関係で、アプリケーション目的を考慮して適宜バランスをとった値にする。詳細には後述するが、ノイズレベル推定部１６では、データセット生成手段１６１にて有効期限を設定することにより、ハードウエアや処理コストを増加させる必要がなくなるという効果がある。
【００２２】
記憶部１６４は、データセットを記憶するのにハードウエアとして許容された容量を持つメモリであり、データセット生成手段１６１にて生成されたデータセットがパワー情報の小さい順に記憶されている。ここで、記憶部１６４に記憶可能なデータセットの数を第一所定数と呼ぶ。本実施の形態では、第一所定数として、１００個のデータセットを記憶可能にしている。データセット１００個というのは、音声信号2秒分のデータセットに相当している。第一所定数は、ハードウエアとして用意可能な容量であって、少なくとも、推定手段１６３にて暗騒音を統計処理する場合に信頼できるだけの数であることが必要である。例えば、本実施の形態では、有効期間１０００（２０秒）という観測区間に対し、記憶部１６４の記憶容量を１００個分のデータセット（２秒）で済むことになる。かかる第一所定数分だけの記憶部１６４を用意すれば、有効期間を適宜の値とすることにより、暗騒音の観測区間を容易に広狭させることが可能となる。これにより、ハードウエアを増加させることなく、観測区間を自由に設定することが可能となるのである。
【００２３】
更新手段１６２は、比較手段１６２１と有効期限確認手段１６２２を有し、記憶部１６４に記憶されているデータセットの更新を行う手段である。記憶部１６４にデータセットを追記憶させるだけの空き領域があれば入力されたデータセットをパワー情報の小さい順に記憶部１６４へ記憶させ、空き領域が無ければ比較手段１６２１での処理を行う。図８には、図示していないが、記憶部１６４の追記させるだけの空き領域があるかないか、すなわち、記憶部１６４に第一所定数分のデータセットが既に記憶されているか否かを判定する処理をデータ量判定手段が行っている。
【００２４】
有効期限確認手段１６２２は、データセット生成手段１６１からデータセットが生成される毎に、記憶部１６４に記憶されているデータセットの有効期間を１減算し、データセットの有効期間が０になると、記憶部１６４から削除する。すなわち、記憶部１６４に記録されたデータセットは、有効期間が到来すると必ず削除されるので、古いデータセットが残らなくなる。これにより、観測区間を時間軸上にて制限し、適切な区間を実現している。本実施の形態では、記憶部１６４に記録されたすべてのデータセットは、１０００フレーム分の入力があると、つまり２０秒程度が経過すると強制的に削除されることとなる。
【００２５】
比較手段１６２１は、記憶部１６４にデータセットを追記憶させるだけの空き領域がない場合に、記憶部１６４に記憶されているデータセットの中で最大のパワー情報と入力されたデータセットのパワー情報との大小関係を比較し、入力されたデータセットのパワー情報の方が大きい、つまり入力されたデータセットのパワー情報が記憶部１６４に記憶されたデータセットの中で最大のパワー情報以上であれば、入力されたデータセットを破棄する。他方、入力されたデータセットのパワー情報の方が小さい、つまり、入力されたデータセットのパワー情報が記憶部１６４に記憶されたデータセットの中で最大のパワー情報未満であれば、記憶部１６４から当該最大のパワー情報を持つデータセットを削除し、入力されたデータセットをパワー情報の小さい順に並べた位置に挿入記憶させる。これにより、記憶部１６４では、パワー情報の小さい順にソートされた状態にてデータセットが記憶されることになる。本実施の形態では、記憶部１６４に記憶されているデータセットの中で最大のパワー情報と比較することで計算負荷を低減しているが、最大のパワー情報でなくとも、ある程度の性能劣化を許容して、有効期間により所定の重みをつけたパワー情報のデータセットや２番目３番目のパワー情報のデータセットとの比較をしても良い。
【００２６】
このように、比較手段１６２１により、暗騒音レベル推定に必要な観測区間中におけるパワー情報が小さいデータセットが記憶部１６４に記憶され、暗騒音レベル推定に不必要な比較的パワー情報が大きいデータセットを記憶しないことにより、記憶部１６４のデータセット数を少なくしても観測区間全体における暗騒音を精度よく推定できるのである。
【００２７】
推定手段１６３は、記憶部１６４に記憶されているデータセットに基づき暗騒音レベルを推定し、純音付加部１７に対してノイズレベルとして出力する。具体的には、記憶部１６４に記憶されているデータセットをパワー情報の小さい順に第二所定数のデータセットのパワー情報の平均値をノイズレベルとして出力する。例えば、第二所定数は、０．４秒分のデータセットに相当する２０個のデータセットを用いる。ここで、第二所定数は、少ないほど計算量が減るので処理コストの低減が図れる反面、暗騒音としては極端に小さなパワー情報のデータセットがあった場合に暗騒音レベルが極端に小さくなってしまう。また、第二所定数を多くすると、計算量や記憶部１６４の増加が必要となる。本実施の形態では、平均値の処理対象としてパワー情報の最小のデータセットから小さい順に第二所定数を抽出したデータセットを用いていることにより、計算量を少なくしているが、これに限らず、暗騒音を統計処理する場合に暗騒音として信頼できるように、第二所定数や選択するデータセットを適宜決めれば良い。
【００２８】
次に、図９を参照して、ノイズレベル推定部１６の処理フローを説明する。ノイズレベル推定部１６は、パワー計算部１５からパワー情報の入力を受けると処理を開始する。先ず、パワー計算部１５からパワー情報の入力があると、データセット生成部１６１にてパワー情報と有効期間である１０００を対応させたデータセットを生成する（ステップＳ１）。
【００２９】
次に、更新手段１６２の有効期限確認手段１６２２が、記憶部１６４に記憶されている総てのデータセットにおける有効期間から１減算するとともに、その結果が０となったデータセットを記憶部１６４から削除する（ステップＳ２）。
【００３０】
次に、ステップＳ３では、データ量判定手段にて、記憶部１６４の記憶容量が一杯になっているか判定する。記憶部１６４の記憶容量が一杯であれば、入力されたデータセットのパワー情報と記憶部１６４に記憶されているデータセットの最大のパワー情報とを比較手段１６２１にて比較する（ステップＳ４）。
【００３１】
他方、ステップＳ３にて、記憶部１６４の容量に空きがあれば、ステップＳ７に進む。ステップＳ４にて、入力されたデータセットのパワー情報が記憶部１６４に記憶されているデータセットの最大のパワー情報より小さいと、ステップＳ５にて、記憶部１６４から当該データセットを削除する。そして、入力されたデータセットをパワー情報の小さい順にソートした位置へ追加する（ステップＳ７）。また、ステップＳ４にて、入力されたデータセットのパワー情報が記憶部１６４に記憶された最大のパワー情報と同じか大きいと、入力されたデータセットを破棄する。
【００３２】
そして、ステップＳ８では、推定手段１６３にて、記憶部１６４に記憶されたデータセットを使用してノイズレベルを推定し、純音付加部１７に出力する。
【００３３】
白色化処理部１３は、切り出されたフレームの周波数特性をフラットにする。このフラットにする処理、すなわち白色化処理の意図は、後述の相互相関処理部１８において、音韻（/あ/、/い/等）の違いによる相互相関関数の形状変動を少なくすることにある。
【００３４】
白色化処理部１３の具体的な処理について説明する。白色化処理部１３は、フレーム切出部１２にて切り出されたフレームの音声信号（図３における下図）からLPCケプストラム係数を算出する。そして、算出したLPCケプストラム係数の周波数応答を計算して、スペクトル包絡を求める。フレーム切出部にて切り出されたフレームの音声信号に対して、FFT（Fast Fourier Transform）処理を行う。その後、FFT（Fast Fourier Transform）処理の結果に対してスペクトル包絡にて除算することで、音声信号を白色化する。
【００３５】
図４(a)-(c)は、白色化処理の様子を示している。図４(a)は、入力された音声信号からフレーム切出部１２にて切り出されたフレームの周波数スペクトルを示している。図４の横軸は周波数、縦軸はスペクトル強度である。この音声信号に対してLPCケプストラム分析を行い、その包絡線（スペクトル包絡）を求める（図４（ｂ）の破線）。この包絡線を基に白色化を施したのが図４（ｃ）である。白色化処理は、これに限られるものでなく、時間軸上でのフィルタ処理など公知の白色化処理を適用が可能であることは言うまでもない。
【００３６】
さらにオプションとして、白色化処理部１３にて、白色化に引き続き、周波数軸上にてスペクトル強度が右肩下がりの傾斜をするようにしてもよい。これを示したのが図４(d)である。なお、図４(d)に破線で示しているのは、スペクトル強度の右肩下がりを理解しやすいように示した補助線である。スペクトル強度に右下がりの傾斜を付けることは、後述の相互相関処理部１８にて行う処理での相互相関関数におけるパルス幅を広げることに相当する。特に、Ａ／Ｄコンバータ１１でのサンプリング周波数が小さいときに、パルス幅が狭くなりすぎるため、相互相関処理部１８にて評価しづらくなるので、この傾斜にてパルス幅を調整することが可能になる。
【００３７】
次に、低域カット処理部１４では、音声の有効帯域の最低周波数、例えば70Hz以下をカットするようにする（図４(e)）。この処理も時間軸上でも周波数軸上でも可能である。カットした低域成分は音声に無関係のノイズ成分である。
【００３８】
人工信号付加部の一例である純音付加部１７は、前述のノイズレベル推定部１６にて推定したノイズレベルを基に算出された大きさの40〜50Hz程度の低域の純音信号を音声信号に付加する（図４(f)）。純音の大きさの決定は、ノイズレベルより優位性が出る程度大きく、ターゲット音声より優位性が出ないレベルとする。例えば、図４（f）の例では、ノイズレベルの１．５倍としている。この処理も時間軸上でも周波数軸上でも可能である。本実施の形態では、人工信号の例として純音を採用しているが、純音に限られることでなく直流成分やその他の信号を付加しても良い。純音や直流成分を採用とすることにより、後述する相互相関関数を算出した際に、人工信号が支配的か否かの判別が容易になる。
【００３９】
なお、純音付加部１７は、左右のマイクロホン２からの信号が相互に逆位相になる純音を付加する。左右のマイクロホン２からの信号に逆位相の純音を付加することにより、後述する相互相関計算部１８において、音声信号に対して付加した純音が支配的になった際に、相互相関値がマイナス側に振れるようになる。
【００４０】
相互相関計算部１８は、左右のマイクロホン２から入力された音声信号に対して、正規化相互相関関数を計算する。
数式１は、正規化相互相関関数をフーリエ変換した結果の一般式である。
【００４１】
【数１】

【００４２】
数式１において、Φ（ｋ）は、相互相関関数のフーリエ変換結果、ｋは離散周波数、MはFFT（Fast Fourier Transform）のサイズ、X₁(k), X₂(k)は左右の純音付加部１７から入力された周波数軸上での音声信号、(・)^*は複素共役をそれぞれ示す。かかるΦ（ｋ）に対して、逆フーリエ変換を行うことで、相互相関関数が算出できる。相互相関関数は、本実施の態様に限ることなく、公知の方法を採用すれば良い。
【００４３】
次に、図４から図７を参照して、相互相関計算部１８にて算出される相互相関関数が、音声区間と無音声区間でどのようになるかを説明する。図６は、純音付加部１７から出力される音声信号を時間領域にて表示した例を示している。図６（a）は音声区間の例を示し、図６(b)は無音声区間の例をそれぞれ示している。すなわち、図４に示す音声区間に対して処理した結果が図６（a）に示すものとなり、同様に図５に示した無音声区間を処理した結果が図６（ｂ）に示すものである。図４については、前述しているのでここでの説明は省略し、図５について簡単に説明する。
【００４４】
図５(a)は、入力された音声信号からフレーム切出部１２にて切り出されたフレームの周波数スペクトルを示している。図５の横軸は周波数、縦軸はスペクトル強度である。この音声信号に対してLPCケプストラム分析を行い、その包絡線（スペクトル包絡）を求める（図５（ｂ）の破線）。この包絡線を基に白色化を施したのが図５（ｃ）である。白色化処理部１３にて、白色化に引き続き、周波数軸上にてスペクトル強度が右肩下がりの傾斜をするようにした結果を示したのが図５(d)である。なお、図５(d)に破線で示しているのは、スペクトル強度の右肩下がりを理解しやすいように示した補助線である。低域カット処理部１４にて、音声の有効帯域の最低周波数、例えば70Hz以下をカットし（図５(e)）、純音付加部１７にて前述のノイズレベル推定部１６にて推定したノイズレベルを基に算出された大きさの40〜50Hz程度の低域の純音信号を音声信号に付加した結果が図５(f)である。
【００４５】
次に、純音が付加された図４（ｆ）に示す音声区間の音声信号（左右のマイクロホン２）を相互相関計算部１８にて、正規化相互相関関数を計算した結果が、図７（a）である。また、純音が付加された図５（ｆ）に示す無音声区間の音声信号（左右のマイクロホン２）を相互相関計算部１８にて、正規化相互相関関数を計算した結果が、図７（ｂ）である。図７を見れば分かるように、図７（ｂ）に示す無音声区間の場合は、付加した純音が相互相関関数において支配的となり、図７（ａ）に示す音声区間の場合は音声が入力された音声信号が支配的になっている。このように、音声信号を音声区間か無音声区間かを容易に判別できる。
【００４６】
すなわち、人工信号は既知の信号であるため、正規化相互相関関数として現れる波形も既知となる。このため、人工信号が支配的である音声信号は無音区間と判断し、人工信号が支配的でない音声信号は音声区間と判断できる。特に、本実施の形態では、純音付加部１７において、左右のマイクロホン２に付加する純音を逆位相としているため、図７（ｂ）の無音区間での相互相関値がマイナス方向に振れているのに対し、一般に音声区間における相互相関値がプラス方向に振れるものとの判別が容易となる。なお、純音付加部１７にて、同位相の純音を付加した場合であっても、逆位相よりは判別しづらくなるが判別は可能である。
【００４７】
ノイズレベルに適応させた人工信号を付加すると、音声が存在する場合は音声信号の中で音声成分が人工信号より支配的になるが、音声が存在しない場合は音声信号の中で人工信号が音声成分より優位になる。これにより、音声が含まれていない暗騒音のみの場合に方向推定の精度が低下することを防止できる。
【００４８】
また、純音付加部１７にて付加する純音のレベルは、ノイズレベル推定部１６にて推定したノイズレベルに適応的に決定している。このため、マイクロホン２の感度や増幅器１０のゲインなどにばらつきがあったとしても、付加する純音の大きさと音声信号との相対的な関係を一定に保つことができる。このため、相互相関計算部１８にて、正規化相関処理を実行した際にもマイクロホン２の感度等のばらつきによる影響がなくなる。
【００４９】
話者方向推定部１９では、相互相関計算部１８にて算出した正規化相互相関関数のピークの高さ、ピークの幅に基づき、どの方向から発声があったかを判定する。具体的には、相互相関関数の最大値を与えるピークの高さが一定以上で、かつ、その幅として半値幅(ピーク値の半分の高さにおける幅)が一定以下を満たしたときに、音声が発せられたと判断する。また、発声があったと判定された場合は、そのピーク位置から方向を推定する。音速をc、マイク間の距離をd、音源とマイクの中心線との成す角をθ、サンプリング周波数をf_s、相互相関のピークを与えるインデックスをn₀とすると、数式２のようになる。θが推定角度(単位はラジアン)となる。
【００５０】
【数２】

【００５１】
本実施の形態では、ＡTM３の正面に位置している利用者４が発する音声とそれ以外の音声等を識別したいので、左右のマイクロホン２から等距離にある方向、すなわちθが０ラジアンを示した音声を見つけることになる。例えば、正面からの音声信号が集音された回数をカウンタにてカウントし、所定時間内に所定回数のカウントがあると、正面で会話をしていると判定し、その結果を図示しないランプやブザー等に表示出力する。これにより、携帯電話からの指示を受けて、ＡＴＭ３の操作をしていることを店舗の人に知らせることができるので、無意識に振り込め詐欺にあっている人への注意喚起に役立つ。本実施の形態では説明していないが、ＡＴＭ３の正面の発話者からの音声であることだけでなく、その音声信号を認識処理した結果、振込みを誘導されている可能性がある場合に限り、ランプやブザー等に出力しても良い。
【００５２】
なお、上記実施形態は簡単のために2チャンネルマイクの例を示したが、3チャンネル以上に拡張することも可能である。3チャンネル構成でマイクをトライアングル上に配置すれば、3つのペアから音源方向を推定できるため、音源の3次元位置(距離も含む)を推定することも可能である。
【符号の説明】
【００５３】
１・・・話者方向推定装置の本体装置
１０・・・増幅器
１１・・・A/Dコンバータ
１２・・・フレーム切出部
１３・・・白色化処理部
１４・・・低域カット処理部
１５・・・パワー計算部
１６・・・ノイズレベル推定部
１６１・・・データセット生成手段
１６２・・・更新手段
１６２１・・・比較手段
１６２２・・・有効期限確認手段
１６３・・・推定手段
１６４・・・記憶部
１７・・・純音付加部
１８・・・相互相関計算部
１９・・・話者方向推定部
２・・・マイクロホン
３・・・ATM
４・・・話者

【特許請求の範囲】
【請求項１】
集音器から取得した音響信号における暗騒音レベルを推定する暗騒音推定装置であって、
第一所定数のデータセットを記憶する記憶部と、
取得した音響信号のパワー情報と有効期間を対応させてデータセットを生成するデータセット生成手段と、
前記記憶部が第一所定数分のデータセットを記憶しているか否か判定するデータ量判定手段と、
新たに音響信号が入力されるごとに、前記記憶部に記憶されているデータセットの有効期間が切れているかを判定して有効期間が切れていると当該データセットを記憶部から削除し、
前記記憶部に記憶されているデータセットが前記第一所定数に達していると、前記記憶部に記憶されているデータセットのパワー情報のうち略最大であるパワー情報と入力された音響信号のパワー情報とを比較し、
入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報以上であれば、入力された音響信号を破棄し、
入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報未満であれば、入力された音響信号のデータセットにて前記略最大のパワー情報を持つデータセットを更新する更新手段と、
前記記憶部に記憶されたデータセットを使用して暗騒音レベルを推定する推定手段を具備したことを特徴とする暗騒音推定装置。
【請求項２】
前記推定手段は、前記第一所定数より少ない第二所定数分のデータセットを使用して暗騒音レベルを推定する請求項１に記載の暗騒音推定装置。
【請求項３】
前記推定手段は、前記データセットのうちパワー情報が小さい順の前記第二所定数分のデータセットを使用して暗騒音レベルを推定する請求項２に記載の暗騒音推定装置。

【図１】