説明

暗騒音推定装置

【課題】本発明は、実際の暗騒音レベルの変動に迅速に追従でき突発的な騒音への影響を排除できる暗騒音推定装置の実現。
【解決手段】
取得した音響信号のパワー情報と有効期間を対応させてデータセットを生成するデータセット生成手段と、新たに音響信号が入力されるごとに、記憶部に記憶されているデータセットのパワー情報のうち略最大であるパワー情報と入力された音響信号のパワー情報とを比較し、入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報以上であれば、入力された音響信号を破棄し、入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報未満であれば、入力された音響信号のデータセットにて略最大のパワー情報を持つデータセットを更新する更新手段と、記憶部に記憶されたデータセットを使用して暗騒音レベルを推定する推定手段を具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、騒音レベルが変動する環境において暗騒音のレベルを推定する暗騒音推定装置に関し、特に、レベル推定の精度を落とすことなく、使用する記憶容量を低減し、推定処理の計算量を低減した暗騒音推定装置に関する。
【背景技術】
【0002】
従来、暗騒音推定装置は、マイクロホンから随時入力される所定数分の音響信号を記憶し、記憶した音響信号の平均パワー情報を暗騒音レベルとして求めている。暗騒音を超える突発的な騒音の音響信号は、記憶されている音響信号の全体に対する割合として少ないはずなので、暗騒音レベルへの突発的な騒音による影響を緩和させるため、平均パワー情報を採用している。特許文献1は、このような従来の暗騒音推定装置の例が開示されており、単なるパワー情報の平均ではなく移動平均とすることにより、暗騒音レベルの変動が穏やかになるようにしている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−189627号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記従来技術は、記憶している音響信号の数が多数であれば、突発的な騒音の影響は受けにくいが、実際の暗騒音レベルが増加した際にその追従が遅れてしまう。他方、記憶している音響信号が少数であれば、実際の暗騒音レベルの増加への追従は速やかだが、少し長い突発的な騒音の影響を受けて暗騒音レベルが増加してしまう。なお、暗騒音レベルが減少した場合も、増加場合と同様なことが起こる。
【0005】
また、音響信号の記憶容量を十分確保すると、記憶素子のコストが増すばかりでなく、平均処理等を行うための演算にかかる負荷も大きなものとなる。
【0006】
そこで、本発明は、かかる課題を解決するため、実際の暗騒音レベルの変動に迅速に追従できるとともに、突発的な騒音への影響を排除できる暗騒音推定装置の実現を目的とする。
【課題を解決するための手段】
【0007】
本発明は、集音器から取得した音響信号における暗騒音レベルを推定する暗騒音推定装置であって、第一所定数のデータセットを記憶する記憶部と、取得した音響信号のパワー情報と有効期間を対応させてデータセットを生成するデータセット生成手段と、記憶部の第一所定数分のデータセットを記憶しているか否か判定するデータ量判定手段と、新たに音響信号が入力されるごとに、記憶部に記憶されているデータセットの有効期間が切れているかを判定して、有効期間が切れていると当該データセットを記憶部から削除し、記憶部に記憶されているデータセットが前記第一所定数に達していると、記憶部に記憶されているデータセットのパワー情報のうち略最大であるパワー情報と入力された音響信号のパワー情報とを比較し、入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報以上であれば、入力された音響信号を破棄し、入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報未満であれば、入力された音響信号のデータセットにて前記略最大のパワー情報を持つデータセットを更新する更新手段と、記憶部に記憶されたデータセットを使用して暗騒音レベルを推定する推定手段を具備した暗騒音推定装置を提供する。
【0008】
また、好適な態様では、第一所定数より少ない第二所定数分のデータセットを使用して暗騒音レベルを推定する。
【0009】
更に好適な態様では、データセットのうちパワー情報が小さい順の第二所定数分のデータセットを使用して暗騒音レベルを推定する。
【発明の効果】
【0010】
本発明によれば、記憶容量および推定処理の負荷を増加させることなく、実際の暗騒音レベルの変動に迅速に追従し、突発的な騒音への影響を排除して暗騒音レベルを推定できる。
【図面の簡単な説明】
【0011】
【図1】本発明を適用した話者方向推定装置1のブロック図である。
【図2】金融機関におけるATM利用者を話者として認識するための話者方向推定装置の配置図である。
【図3】A/Dコンバータ11にて処理後の音声信号の例を示す図である。
【図4】音声区間のフレームを白色化処理部13から人工音付加部17までの処理を説明する図である。
【図5】無音区間のフレームを白色化処理部13から人工音付加部17までの処理を説明する図である。
【図6】音声区間のフレーム(a)と無音区間のフレーム(b)を説明する図である。
【図7】相互相関計算部18での正規化相関関数を説明する図である。
【図8】本発明を適用したノイズレベル推定部16の機能ブロックである。
【図9】本発明を適用したノイズレベル推定部16の動作フローである。
【発明を実施するための形態】
【0012】
以下、本発明を適用した話者方向推定装置1の実施形態について、図を参照して説明する。図2は、話者方向推定装置を金融機関のCD/ATMの操作者の音声だけを抽出する目的に使用したときの設置例を示している。話者方向推定装置は、振り込め詐欺の被害者の恐れがある人に、注意を喚起することを想定している。振り込め詐欺では、犯罪者が携帯電話を使用して、被害者に携帯電話にてATM操作を誘導し、被害者のお金を加害者の口座に振り込ませる手口を使うことがある。そこで、ATM3の上部左右両端に設置した2つのマイクロホン2からの音声信号を解析することで、ATM3の正面にて携帯電話で被害者が発声していることを正確に検知するものである。
【0013】
図2は、金融機関におけるATM3の利用者4を話者として認識するための話者方向推定装置の配置の例を示した図である。話者方向推定装置は、本体装置1が壁面に設置され、マイクロホン2がATMの上部両端に所定距離を離隔させて2つ設置されている。本実施の形態では、マイクロホン2を2つ使用しているが、これに限られるものではなく、3以上を適宜の数を適宜の配置にて使用しても良い。なお、その設置の数や配置関係に応じて、後述する相互相関処理部18、話者方向推定部19のパラメータ等が異なることはいうまでもない。
【0014】
図1は、本発明を適用した話者方向推定装置のブロック図を示している。話者方向推定装置1は、集音器である2つのマイクロホン2と、増幅器10、A/Dコンバータ11、フレーム切出部12、白色処理部13、低域カット処理部14、パワー計算部15、ノイズレベル推定部16、純音付加部17、相互相関処理部18、話者方向推定部19から構成されている。
【0015】
マイクロホン2は、全方向からの音声を集音するのが望ましいため、無指向性のものを使用している。話者方向を検出するために、少なくとも2つ以上が必要である。マイクロホン2同士は、所定距離の間隔を空けて設置される。この所定距離は、サンプリング周期や話者との距離などに応じて決定される。また、マイクロホン2は、特別に高品質なものを用意する必要はない。
【0016】
増幅器10は、マイクロホン2により集音された音声をA/Dコンバータ11が処理できるように合わせて増幅する。この増幅されたアナログ信号である音声を6000Hz以上でサンプリングして離散時間信号(デジタル信号)にA/Dコンバータ11にて変換する。増幅器10、A/Dコンバータ11は、いずれも周知の部品であるので、詳細な説明は省略する。
【0017】
次に、フレーム切出部12は、音声信号を一定周期、固定長のフレームに切り出す。具体的には、例えばフレーム長30ms、シフト長20msにしたハミング(HAMMING)窓を窓関数として音声信号に乗じてフレームを切り出す。なお、窓関数は、ハミング(HAMMING)窓に限られるものではなく、ハニング(HANNING)窓などを用いてもよい。
【0018】
ここで、図3を参照して、A/Dコンバータ11及びフレーム切出部12の処理結果を説明する。図3は、音声信号を横軸に時間・縦軸に振幅をとって模式的にグラフ化したものである。A/Dコンバータ11にて処理後の音声信号の例を図3上図に示している。そして、かかる音声信号から処理対象のフレームをフレーム切出部12を切り出した結果が、同図の下図に示している。
【0019】
パワー計算部15は、フレーム切出部12にて切り出したフレームの音声信号からパワー情報を計算する。パワー情報の計算は、音声信号の振幅値の2乗加算値をパワー情報としている。なお、本実施の形態では、2乗加算値を使用しているが、これに限ることなく、後述の白色化処理部13で使用するスペクトル包絡のゲイン項や他の種々知られている算出方法の何れを使用しても良い。
【0020】
ノイズレベル推定部16は、本発明の暗騒音推定装置を適用している。図8を参照して、ノイズレベル推定部16を詳細に説明する。図8は、ノイズレベル推定部16の機能ブロックを示している。ノイズレベル推定部16は、データセット生成手段161、更新手段162、推定手段163、記憶部164から構成されている。
【0021】
データセット生成手段161は、パワー計算部15にて計算したパワー情報に有効期間を対応付けたデータセットを生成する。ここで、有効期間は、設置場所にて生じる突発的な騒音の継続時間より長い時間の有効期間を用いる。本実施の形態では、15秒間継続するような突発的な騒音の影響を排除したい場合を想定し、1秒間に50フレームの入力があるので、5秒分程度の余裕時間を考慮して20秒間分の有効期間である1000に設定している。この値は、音声信号の分析周期などによって異なるので、適宜定める必要がある。有効期間は、長く設定するほど暗騒音の観測区間が長くなるので、時間的に継続する突発的な騒音の影響を少なくできるが、暗騒音レベルが変化した際の追従が遅れることになる。他方、有効期間を短く設定するほど、突発的な騒音の影響が大きくなるが、暗騒音レベルが変化した際の追従は早くなる。なお、有効期間は、後述する記憶部164の記憶容量や推定手段163にて使用する第二所定数との関係で、アプリケーション目的を考慮して適宜バランスをとった値にする。詳細には後述するが、ノイズレベル推定部16では、データセット生成手段161にて有効期限を設定することにより、ハードウエアや処理コストを増加させる必要がなくなるという効果がある。
【0022】
記憶部164は、データセットを記憶するのにハードウエアとして許容された容量を持つメモリであり、データセット生成手段161にて生成されたデータセットがパワー情報の小さい順に記憶されている。ここで、記憶部164に記憶可能なデータセットの数を第一所定数と呼ぶ。本実施の形態では、第一所定数として、100個のデータセットを記憶可能にしている。データセット100個というのは、音声信号2秒分のデータセットに相当している。第一所定数は、ハードウエアとして用意可能な容量であって、少なくとも、推定手段163にて暗騒音を統計処理する場合に信頼できるだけの数であることが必要である。例えば、本実施の形態では、有効期間1000(20秒)という観測区間に対し、記憶部164の記憶容量を100個分のデータセット(2秒)で済むことになる。かかる第一所定数分だけの記憶部164を用意すれば、有効期間を適宜の値とすることにより、暗騒音の観測区間を容易に広狭させることが可能となる。これにより、ハードウエアを増加させることなく、観測区間を自由に設定することが可能となるのである。
【0023】
更新手段162は、比較手段1621と有効期限確認手段1622を有し、記憶部164に記憶されているデータセットの更新を行う手段である。記憶部164にデータセットを追記憶させるだけの空き領域があれば入力されたデータセットをパワー情報の小さい順に記憶部164へ記憶させ、空き領域が無ければ比較手段1621での処理を行う。図8には、図示していないが、記憶部164の追記させるだけの空き領域があるかないか、すなわち、記憶部164に第一所定数分のデータセットが既に記憶されているか否かを判定する処理をデータ量判定手段が行っている。
【0024】
有効期限確認手段1622は、データセット生成手段161からデータセットが生成される毎に、記憶部164に記憶されているデータセットの有効期間を1減算し、データセットの有効期間が0になると、記憶部164から削除する。すなわち、記憶部164に記録されたデータセットは、有効期間が到来すると必ず削除されるので、古いデータセットが残らなくなる。これにより、観測区間を時間軸上にて制限し、適切な区間を実現している。本実施の形態では、記憶部164に記録されたすべてのデータセットは、1000フレーム分の入力があると、つまり20秒程度が経過すると強制的に削除されることとなる。
【0025】
比較手段1621は、記憶部164にデータセットを追記憶させるだけの空き領域がない場合に、記憶部164に記憶されているデータセットの中で最大のパワー情報と入力されたデータセットのパワー情報との大小関係を比較し、入力されたデータセットのパワー情報の方が大きい、つまり入力されたデータセットのパワー情報が記憶部164に記憶されたデータセットの中で最大のパワー情報以上であれば、入力されたデータセットを破棄する。他方、入力されたデータセットのパワー情報の方が小さい、つまり、入力されたデータセットのパワー情報が記憶部164に記憶されたデータセットの中で最大のパワー情報未満であれば、記憶部164から当該最大のパワー情報を持つデータセットを削除し、入力されたデータセットをパワー情報の小さい順に並べた位置に挿入記憶させる。これにより、記憶部164では、パワー情報の小さい順にソートされた状態にてデータセットが記憶されることになる。本実施の形態では、記憶部164に記憶されているデータセットの中で最大のパワー情報と比較することで計算負荷を低減しているが、最大のパワー情報でなくとも、ある程度の性能劣化を許容して、有効期間により所定の重みをつけたパワー情報のデータセットや2番目3番目のパワー情報のデータセットとの比較をしても良い。
【0026】
このように、比較手段1621により、暗騒音レベル推定に必要な観測区間中におけるパワー情報が小さいデータセットが記憶部164に記憶され、暗騒音レベル推定に不必要な比較的パワー情報が大きいデータセットを記憶しないことにより、記憶部164のデータセット数を少なくしても観測区間全体における暗騒音を精度よく推定できるのである。
【0027】
推定手段163は、記憶部164に記憶されているデータセットに基づき暗騒音レベルを推定し、純音付加部17に対してノイズレベルとして出力する。具体的には、記憶部164に記憶されているデータセットをパワー情報の小さい順に第二所定数のデータセットのパワー情報の平均値をノイズレベルとして出力する。例えば、第二所定数は、0.4秒分のデータセットに相当する20個のデータセットを用いる。ここで、第二所定数は、少ないほど計算量が減るので処理コストの低減が図れる反面、暗騒音としては極端に小さなパワー情報のデータセットがあった場合に暗騒音レベルが極端に小さくなってしまう。また、第二所定数を多くすると、計算量や記憶部164の増加が必要となる。本実施の形態では、平均値の処理対象としてパワー情報の最小のデータセットから小さい順に第二所定数を抽出したデータセットを用いていることにより、計算量を少なくしているが、これに限らず、暗騒音を統計処理する場合に暗騒音として信頼できるように、第二所定数や選択するデータセットを適宜決めれば良い。
【0028】
次に、図9を参照して、ノイズレベル推定部16の処理フローを説明する。ノイズレベル推定部16は、パワー計算部15からパワー情報の入力を受けると処理を開始する。先ず、パワー計算部15からパワー情報の入力があると、データセット生成部161にてパワー情報と有効期間である1000を対応させたデータセットを生成する(ステップS1)。
【0029】
次に、更新手段162の有効期限確認手段1622が、記憶部164に記憶されている総てのデータセットにおける有効期間から1減算するとともに、その結果が0となったデータセットを記憶部164から削除する(ステップS2)。
【0030】
次に、ステップS3では、データ量判定手段にて、記憶部164の記憶容量が一杯になっているか判定する。記憶部164の記憶容量が一杯であれば、入力されたデータセットのパワー情報と記憶部164に記憶されているデータセットの最大のパワー情報とを比較手段1621にて比較する(ステップS4)。
【0031】
他方、ステップS3にて、記憶部164の容量に空きがあれば、ステップS7に進む。ステップS4にて、入力されたデータセットのパワー情報が記憶部164に記憶されているデータセットの最大のパワー情報より小さいと、ステップS5にて、記憶部164から当該データセットを削除する。そして、入力されたデータセットをパワー情報の小さい順にソートした位置へ追加する(ステップS7)。また、ステップS4にて、入力されたデータセットのパワー情報が記憶部164に記憶された最大のパワー情報と同じか大きいと、入力されたデータセットを破棄する。
【0032】
そして、ステップS8では、推定手段163にて、記憶部164に記憶されたデータセットを使用してノイズレベルを推定し、純音付加部17に出力する。
【0033】
白色化処理部13は、切り出されたフレームの周波数特性をフラットにする。このフラットにする処理、すなわち白色化処理の意図は、後述の相互相関処理部18において、音韻(/あ/、/い/等)の違いによる相互相関関数の形状変動を少なくすることにある。
【0034】
白色化処理部13の具体的な処理について説明する。白色化処理部13は、フレーム切出部12にて切り出されたフレームの音声信号(図3における下図)からLPCケプストラム係数を算出する。そして、算出したLPCケプストラム係数の周波数応答を計算して、スペクトル包絡を求める。フレーム切出部にて切り出されたフレームの音声信号に対して、FFT(Fast Fourier Transform)処理を行う。その後、FFT(Fast Fourier Transform)処理の結果に対してスペクトル包絡にて除算することで、音声信号を白色化する。
【0035】
図4(a)-(c)は、白色化処理の様子を示している。図4(a)は、入力された音声信号からフレーム切出部12にて切り出されたフレームの周波数スペクトルを示している。図4の横軸は周波数、縦軸はスペクトル強度である。この音声信号に対してLPCケプストラム分析を行い、その包絡線(スペクトル包絡)を求める(図4(b)の破線)。この包絡線を基に白色化を施したのが図4(c)である。白色化処理は、これに限られるものでなく、時間軸上でのフィルタ処理など公知の白色化処理を適用が可能であることは言うまでもない。
【0036】
さらにオプションとして、白色化処理部13にて、白色化に引き続き、周波数軸上にてスペクトル強度が右肩下がりの傾斜をするようにしてもよい。これを示したのが図4(d)である。なお、図4(d)に破線で示しているのは、スペクトル強度の右肩下がりを理解しやすいように示した補助線である。 スペクトル強度に右下がりの傾斜を付けることは、後述の相互相関処理部18にて行う処理での相互相関関数におけるパルス幅を広げることに相当する。特に、A/Dコンバータ11でのサンプリング周波数が小さいときに、パルス幅が狭くなりすぎるため、相互相関処理部18にて評価しづらくなるので、この傾斜にてパルス幅を調整することが可能になる。
【0037】
次に、低域カット処理部14では、音声の有効帯域の最低周波数、例えば70Hz以下をカットするようにする(図4(e))。この処理も時間軸上でも周波数軸上でも可能である。カットした低域成分は音声に無関係のノイズ成分である。
【0038】
人工信号付加部の一例である純音付加部17は、前述のノイズレベル推定部16にて推定したノイズレベルを基に算出された大きさの40〜50Hz程度の低域の純音信号を音声信号に付加する(図4(f))。純音の大きさの決定は、ノイズレベルより優位性が出る程度大きく、ターゲット音声より優位性が出ないレベルとする。例えば、図4(f)の例では、ノイズレベルの1.5倍としている。この処理も時間軸上でも周波数軸上でも可能である。本実施の形態では、人工信号の例として純音を採用しているが、純音に限られることでなく直流成分やその他の信号を付加しても良い。純音や直流成分を採用とすることにより、後述する相互相関関数を算出した際に、人工信号が支配的か否かの判別が容易になる。
【0039】
なお、純音付加部17は、左右のマイクロホン2からの信号が相互に逆位相になる純音を付加する。左右のマイクロホン2からの信号に逆位相の純音を付加することにより、後述する相互相関計算部18において、音声信号に対して付加した純音が支配的になった際に、相互相関値がマイナス側に振れるようになる。
【0040】
相互相関計算部18は、左右のマイクロホン2から入力された音声信号に対して、正規化相互相関関数を計算する。
数式1は、正規化相互相関関数をフーリエ変換した結果の一般式である。
【0041】
【数1】

【0042】
数式1において、Φ(k)は、相互相関関数のフーリエ変換結果、kは離散周波数、MはFFT(Fast Fourier Transform)のサイズ、X1(k), X2(k)は左右の純音付加部17から入力された周波数軸上での音声信号、(・)*は複素共役をそれぞれ示す。かかるΦ(k)に対して、逆フーリエ変換を行うことで、相互相関関数が算出できる。相互相関関数は、本実施の態様に限ることなく、公知の方法を採用すれば良い。
【0043】
次に、図4から図7を参照して、相互相関計算部18にて算出される相互相関関数が、音声区間と無音声区間でどのようになるかを説明する。図6は、純音付加部17から出力される音声信号を時間領域にて表示した例を示している。図6(a)は音声区間の例を示し、図6(b)は無音声区間の例をそれぞれ示している。すなわち、図4に示す音声区間に対して処理した結果が図6(a)に示すものとなり、同様に図5に示した無音声区間を処理した結果が図6(b)に示すものである。図4については、前述しているのでここでの説明は省略し、図5について簡単に説明する。
【0044】
図5(a)は、入力された音声信号からフレーム切出部12にて切り出されたフレームの周波数スペクトルを示している。図5の横軸は周波数、縦軸はスペクトル強度である。この音声信号に対してLPCケプストラム分析を行い、その包絡線(スペクトル包絡)を求める(図5(b)の破線)。この包絡線を基に白色化を施したのが図5(c)である。白色化処理部13にて、白色化に引き続き、周波数軸上にてスペクトル強度が右肩下がりの傾斜をするようにした結果を示したのが図5(d)である。なお、図5(d)に破線で示しているのは、スペクトル強度の右肩下がりを理解しやすいように示した補助線である。低域カット処理部14にて、音声の有効帯域の最低周波数、例えば70Hz以下をカットし(図5(e))、純音付加部17にて前述のノイズレベル推定部16にて推定したノイズレベルを基に算出された大きさの40〜50Hz程度の低域の純音信号を音声信号に付加した結果が図5(f)である。
【0045】
次に、純音が付加された図4(f)に示す音声区間の音声信号(左右のマイクロホン2)を相互相関計算部18にて、正規化相互相関関数を計算した結果が、図7(a)である。また、純音が付加された図5(f)に示す無音声区間の音声信号(左右のマイクロホン2)を相互相関計算部18にて、正規化相互相関関数を計算した結果が、図7(b)である。図7を見れば分かるように、図7(b)に示す無音声区間の場合は、付加した純音が相互相関関数において支配的となり、図7(a)に示す音声区間の場合は音声が入力された音声信号が支配的になっている。このように、音声信号を音声区間か無音声区間かを容易に判別できる。
【0046】
すなわち、人工信号は既知の信号であるため、正規化相互相関関数として現れる波形も既知となる。このため、人工信号が支配的である音声信号は無音区間と判断し、人工信号が支配的でない音声信号は音声区間と判断できる。特に、本実施の形態では、純音付加部17において、左右のマイクロホン2に付加する純音を逆位相としているため、図7(b)の無音区間での相互相関値がマイナス方向に振れているのに対し、一般に音声区間における相互相関値がプラス方向に振れるものとの判別が容易となる。なお、純音付加部17にて、同位相の純音を付加した場合であっても、逆位相よりは判別しづらくなるが判別は可能である。
【0047】
ノイズレベルに適応させた人工信号を付加すると、音声が存在する場合は音声信号の中で音声成分が人工信号より支配的になるが、音声が存在しない場合は音声信号の中で人工信号が音声成分より優位になる。これにより、音声が含まれていない暗騒音のみの場合に方向推定の精度が低下することを防止できる。
【0048】
また、純音付加部17にて付加する純音のレベルは、ノイズレベル推定部16にて推定したノイズレベルに適応的に決定している。このため、マイクロホン2の感度や増幅器10のゲインなどにばらつきがあったとしても、付加する純音の大きさと音声信号との相対的な関係を一定に保つことができる。このため、相互相関計算部18にて、正規化相関処理を実行した際にもマイクロホン2の感度等のばらつきによる影響がなくなる。
【0049】
話者方向推定部19では、相互相関計算部18にて算出した正規化相互相関関数のピークの高さ、ピークの幅に基づき、どの方向から発声があったかを判定する。具体的には、相互相関関数の最大値を与えるピークの高さが一定以上で、かつ、その幅として半値幅(ピーク値の半分の高さにおける幅)が一定以下を満たしたときに、音声が発せられたと判断する。また、発声があったと判定された場合は、そのピーク位置から方向を推定する。音速をc、マイク間の距離をd、音源とマイクの中心線との成す角をθ、サンプリング周波数をfs、相互相関のピークを与えるインデックスをn0とすると、数式2のようになる。θが推定角度(単位はラジアン)となる。
【0050】
【数2】

【0051】
本実施の形態では、ATM3の正面に位置している利用者4が発する音声とそれ以外の音声等を識別したいので、左右のマイクロホン2から等距離にある方向、すなわちθが0ラジアンを示した音声を見つけることになる。例えば、正面からの音声信号が集音された回数をカウンタにてカウントし、所定時間内に所定回数のカウントがあると、正面で会話をしていると判定し、その結果を図示しないランプやブザー等に表示出力する。これにより、携帯電話からの指示を受けて、ATM3の操作をしていることを店舗の人に知らせることができるので、無意識に振り込め詐欺にあっている人への注意喚起に役立つ。本実施の形態では説明していないが、ATM3の正面の発話者からの音声であることだけでなく、その音声信号を認識処理した結果、振込みを誘導されている可能性がある場合に限り、ランプやブザー等に出力しても良い。
【0052】
なお、上記実施形態は簡単のために2チャンネルマイクの例を示したが、3チャンネル以上に拡張することも可能である。3チャンネル構成でマイクをトライアングル上に配置すれば、3つのペアから音源方向を推定できるため、音源の3次元位置(距離も含む)を推定することも可能である。
【符号の説明】
【0053】
1・・・話者方向推定装置の本体装置
10・・・増幅器
11・・・A/Dコンバータ
12・・・フレーム切出部
13・・・白色化処理部
14・・・低域カット処理部
15・・・パワー計算部
16・・・ノイズレベル推定部
161・・・データセット生成手段
162・・・更新手段
1621・・・比較手段
1622・・・有効期限確認手段
163・・・推定手段
164・・・記憶部
17・・・純音付加部
18・・・相互相関計算部
19・・・話者方向推定部
2・・・マイクロホン
3・・・ATM
4・・・話者

【特許請求の範囲】
【請求項1】
集音器から取得した音響信号における暗騒音レベルを推定する暗騒音推定装置であって、
第一所定数のデータセットを記憶する記憶部と、
取得した音響信号のパワー情報と有効期間を対応させてデータセットを生成するデータセット生成手段と、
前記記憶部が第一所定数分のデータセットを記憶しているか否か判定するデータ量判定手段と、
新たに音響信号が入力されるごとに、前記記憶部に記憶されているデータセットの有効期間が切れているかを判定して有効期間が切れていると当該データセットを記憶部から削除し、
前記記憶部に記憶されているデータセットが前記第一所定数に達していると、前記記憶部に記憶されているデータセットのパワー情報のうち略最大であるパワー情報と入力された音響信号のパワー情報とを比較し、
入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報以上であれば、入力された音響信号を破棄し、
入力された音響信号のパワー情報が記憶部に記憶されたデータセットのパワー情報未満であれば、入力された音響信号のデータセットにて前記略最大のパワー情報を持つデータセットを更新する更新手段と、
前記記憶部に記憶されたデータセットを使用して暗騒音レベルを推定する推定手段を具備したことを特徴とする暗騒音推定装置。
【請求項2】
前記推定手段は、前記第一所定数より少ない第二所定数分のデータセットを使用して暗騒音レベルを推定する請求項1に記載の暗騒音推定装置。
【請求項3】
前記推定手段は、前記データセットのうちパワー情報が小さい順の前記第二所定数分のデータセットを使用して暗騒音レベルを推定する請求項2に記載の暗騒音推定装置。



【図1】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図2】
image rotate


【公開番号】特開2010−185730(P2010−185730A)
【公開日】平成22年8月26日(2010.8.26)
【国際特許分類】
【出願番号】特願2009−29170(P2009−29170)
【出願日】平成21年2月10日(2009.2.10)
【出願人】(000108085)セコム株式会社 (596)
【Fターム(参考)】