説明

悲鳴検出装置および悲鳴検出方法

【課題】悲鳴検出の精度を向上した悲鳴検出装置を提供することである。
【解決手段】悲鳴検出装置10は、音声信号の入力を受け付ける音声信号受付部11と、音声信号受付部11により入力を受け付けた音声信号を一定時間毎にフレームに分割するフレーム分割部12と、フレーム分割部12により分割されたフレーム毎に、音声信号のパワー情報を取得するパワー情報取得部13と、フレーム分割部12により分割されたフレーム毎に、音声信号の調波情報を取得する調波情報取得部14と、フレーム分割部12により分割されたフレーム毎に、音声信号の基本周波数情報を取得する基本周波数取得部15と、パワー情報取得部13、調波情報取得部14および基本周波数取得部15により取得した結果に基づいて、入力された音声が悲鳴であるか否かを判定する悲鳴判定部16とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、悲鳴検出装置および悲鳴検出方法に関し、特に、人の発声した悲鳴を検出する悲鳴検出装置および悲鳴検出方法に関するものである。
【背景技術】
【0002】
従来において、悲鳴等の叫び声を検出して、ロボットを緊急停止させるシステムが、例えば、特開2008−49462号公報(特許文献1)に開示されている。特許文献1によると、システムは、入力された音声信号に対して、周波数解析を行う。そして、解析結果から、基本周波数の変動量とスペクトル包絡の変動量とに基づいて、入力された音声が悲鳴であるか否かの判定を行うこととしている。また、基本周波数の算出においては、入力された音声信号の中で、最も優勢な高調波構造の基本周波数を音声の基本周波数として推定することとしている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−49462号公報(段落番号0035〜0040等)
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、特許文献1に開示のシステムでは、悲鳴であるか否かの判定を、基本周波数の変動量とスペクトル包絡の変動量とに基づいて行っている。そうすると、sin波のような倍音の少ない一定の音を誤って悲鳴と判定する虞がある。その結果、悲鳴検出の精度が悪くなってしまう。
【0005】
この発明の目的は、悲鳴検出の精度を向上した悲鳴検出装置を提供することである。
【0006】
この発明の他の目的は、悲鳴検出の精度を向上した悲鳴検出方法を提供することである。
【課題を解決するための手段】
【0007】
この発明に係る悲鳴検出装置は、音声信号の入力を受け付ける音声信号受付部と、音声信号受付部にて受け付けた音声信号のパワー情報を取得するパワー情報取得部と、音声信号受付部にて受け付けた音声信号の調波情報を取得する調波情報取得部と、音声信号受付部にて受け付けた音声信号の基本周波数情報を取得する基本周波数取得部と、パワー情報取得部にて取得したパワー情報、調波情報取得部にて取得した調波情報、および基本周波数取得部にて取得した基本周波数情報に基づいて、音声信号受付部にて受け付けた音声信号が、悲鳴であるか否かを判定する悲鳴判定部とを備える。
【0008】
ここで、悲鳴とは、人の発声した音声のうち、「わー」や「きゃー」等の驚いた時や恐ろしい時に発声する音声である。そして、普段の会話より声量が大きく、一定の音の高さで発声される。
【0009】
好ましくは、悲鳴判定部は、パワー情報取得部にて取得したパワー情報、調波情報取得部にて取得した調波情報、および基本周波数取得部にて取得した基本周波数情報の各々が、所定の閾値を満たしているか否かによって、悲鳴であるか否かを判定する。これにより、所定の閾値を判定するのみで、容易に悲鳴であるか否かを判定することができる。
【0010】
好ましくは、音声信号受付部にて受け付けた音声信号を、所定時間毎に音声信号を有するフレームに分割するフレーム分割部を備える。
【0011】
一実施形態として、悲鳴判定部は、パワー情報取得部にて取得したパワー情報、調波情報取得部にて取得した調波情報、および基本周波数取得部にて取得した基本周波数情報の各々が、所定の閾値を満たしているか否かに応じて、フレーム毎に、悲鳴に対する重み付けを行うことによって、悲鳴であるか否かを判定する。これにより、悲鳴であるか否かの判定の精度を向上させることができる。
【0012】
好ましくは、調波情報取得部は、音声信号受付部にて受け付けた音声信号から、ケプストラムを得るケプストラム取得手段と、ケプストラム取得手段により取得したケプストラムからケプストラムの高次を取得する高次取得手段と、高次取得手段により取得したケプストラムの高次のうち、振幅の大きい値を取得する振幅取得手段とを備える。
【0013】
また、この発明に係る悲鳴検出方法は、音声信号の入力を受け付けるステップと、受け付けた音声信号のパワー情報を取得するステップと、受け付けた音声信号の調波情報を取得するステップと、受け付けた音声信号の基本周波数情報を取得するステップと、取得したパワー情報、取得した調波情報、および取得した基本周波数情報に基づいて、受け付けた音声信号が、悲鳴であるか否かを判定するステップとを備える。
【発明の効果】
【0014】
この発明に係る悲鳴検出装置は、音声信号のパワー情報と、調波情報と、基本周波数情報とに基づいて、入力された音声信号が悲鳴であるか否かを判定する。これにより、悲鳴の特徴に沿った情報を用いて、悲鳴であるか否かを判定することができる。すなわち、声量を判定するためのパワー情報、音声であることを判定するための調波情報、および一定の音の高さであることを判定するための基本周波数情報を用いて、悲鳴であるか否かを判定することができる。その結果、悲鳴検出の精度を向上させることができる。
【0015】
また、この発明に係る悲鳴検出方法は、音声信号のパワー情報と、調波情報と、基本周波数情報とに基づいて、入力された音声信号が悲鳴であるか否かを判定する。これにより、悲鳴の特徴に沿った情報を用いて、悲鳴であるか否かを判定することができる。すなわち、声量を判定するためのパワー情報、音声であることを判定するための調波情報、および一定の音の高さであることを判定するための基本周波数情報を用いて、悲鳴であるか否かを判定することができる。その結果、悲鳴検出の精度を向上させることができる。
【図面の簡単な説明】
【0016】
【図1】悲鳴検出装置の構成を示すブロック図である。
【図2】入力を受け付けた音声信号を示すグラフである。
【図3】パワー情報を取得する際のパワー情報取得部の処理を示すフローチャートである。
【図4】取得したパワー情報を示すグラフである。
【図5】調波情報を取得する際の調波情報取得部の処理を示すフローチャートである。
【図6】取得した調波情報を示すグラフである。
【図7】基本周波数情報を取得する際の基本周波数取得部の処理を示すフローチャートである。
【図8】取得した基本周波数情報を示すグラフである。
【図9】悲鳴判定部の処理を示すフローチャートである。
【図10】第1〜第3の判定フラグのON/OFFの状況に応じて、カウンタを加算または減算する値の一例について示す表である。
【発明を実施するための形態】
【0017】
以下、図面を参照して、この発明の一実施形態に係る悲鳴検出装置について説明する。図1は、悲鳴検出装置10の構成を示すブロック図である。図1を参照して、悲鳴検出装置10は、マイクロフォン9を介して、音声信号の入力を受け付ける音声信号受付部11と、入力を受け付けた音声信号を一定時間毎にフレームに分割するフレーム分割部12と、フレーム分割部12により分割されたフレーム毎に、音声信号のパワー情報を取得するパワー情報取得部13と、フレーム分割部12により分割されたフレーム毎に、音声信号の調波情報を取得する調波情報取得部14と、フレーム分割部12により分割されたフレーム毎に、音声信号の基本周波数情報を取得する基本周波数取得部15と、パワー情報取得部13、調波情報取得部14および基本周波数取得部15により取得した結果に基づいて、入力された音声が悲鳴であるか否かを判定する悲鳴判定部16とを備える。この実施形態においては、各部がハードウェアで構成されている。
【0018】
フレーム分割部12は、入力を受け付けた音声信号を、所定時間毎、例えば、96ms毎にフレームに分割して、フレーム分割信号を作成する。すなわち、フレームとは、一定時間分の音声信号を有するものである。図2は、入力を受け付けた音声信号を示すグラフであって、横軸は、時間を示し、縦軸は、音声信号の振幅を示している。図2を参照して、フレーム分割信号P(n=1,2・・)は、先の1データの後半部分が、後の1データの前半部分とデータを共有するように作成される。
【0019】
パワー情報取得部13は、パワー情報として、入力を受け付けた音声信号の強さ、すなわち、声量を取得する。取得したパワー情報が大きければ、音声が大きいことを示し、取得したパワー情報が小さければ、音声が小さいことを示す。一般的に、声量は、悲鳴であれば大きくなる。
【0020】
図3は、パワー情報を取得する際のパワー情報取得部13の処理を示すフローチャートである。図3を参照して、パワー情報取得部13は、まず、フレーム分割部12からフレーム分割信号の入力を受け付け、離散フーリエ変換により周波数信号に変換する(図3において、ステップS11、以下、ステップを省略する)。次に、変換した周波数信号から位相情報を除去し、絶対値を抽出する(S12)。これは、位相情報には、人間が知覚するために重要な情報はないとされているためである。そして、抽出した絶対値から音声が多く含まれる周波数成分を取得する(S13)。具体的には、音声が多く含まれる周波数帯域は、1〜4kHzであるため、この帯域のみを通過させるよう帯域制限を行い、この帯域以外に含まれる雑音成分を除去する。さらに、取得した周波数成分を加算する(S14)。このようにして、パワー情報取得部13は、1フレーム分のパワー情報を順次取得する。図4は、入力を受け付けた音声信号において、フレーム毎に取得したパワー情報を示すグラフである。図4を参照して、横軸は、フレーム数を示し、縦軸は、パワー量を示している。悲鳴の部分Aにおいては、他の部分と比較して、大きい値を示すこととなる。
【0021】
調波情報取得部14は、調波情報として、入力を受け付けた音声信号の倍音情報を取得する。具体的には、入力を受け付けた音声信号の倍音の多さを取得する。取得した調波情報が大きければ、倍音が多いことを示し、取得した調波情報が小さければ、倍音が少ないことを示す。一般的に、倍音は、音声であれば多く、物音等の雑音であれば少なくなっている。
【0022】
図5は、調波情報を取得する際の調波情報取得部14の処理を示すフローチャートである。図5を参照して、調波情報取得部14は、まず、フレーム分割部12からフレーム分割信号の入力を受け付け、離散フーリエ変換により周波数信号に変換する(S21)。次に、変換した周波数信号から位相情報を除去し、絶対値を抽出する(S22)。次に、抽出した絶対値を対数変換し(S23)、逆離散フーリエ変換によりケプストラムを得る(S24)。ここで、調波情報取得部14は、ケプストラム取得手段として作動する。
【0023】
そして、得たケプストラムからケプストラムの高次のうち、振幅の大きい値を取得する(S25)。ここで、調波情報取得部14は、高次取得手段および振幅取得手段として作動する。この実施形態においては、最も振幅の大きい値を取得する。これにより、人間が知覚する音の高さの倍音の量を取得することができる。この最も振幅の大きい値は、最も倍音成分を多く含んでいる。すなわち、調波情報取得部14は、調波情報として、最も多い倍音の量を取得する。このようにして、調波情報取得部14は、1フレーム分の調波情報を順次取得する。図6は、入力を受け付けた音声信号において、フレーム毎に取得した調波情報を示すグラフである。図6を参照して、横軸は、フレーム数を示し、縦軸は、調波情報量を示している。悲鳴の部分Bにおいては、他の部分と比較して、大きい値を示すこととなる。
【0024】
基本周波数取得部15は、入力を受け付けた音声信号の基本周波数情報を取得する。具体的には、入力を受け付けた音声信号の音の高さの情報を取得する。なお、この実施形態においては、ケプストラム法を用いて、基本周波数情報を取得する。図7は、基本周波数情報を取得する際の基本周波数取得部15の処理を示すフローチャートである。図7を参照して、S31〜S34においては、図5のS21〜S24と同様の処理であるため、説明は省略する。基本周波数取得部15は、S34において得たケプストラムから、ケプストラムの高次のうち、最も振幅の大きい値のインデックスを基本周波数情報として取得する(S35)。ここで、インデックスとは、ケフレンシーの値である。すなわち、基本周波数情報としては、ケプストラムの高次のうち、最も振幅の大きい値のケフレンシーの値を取得する。基本周波数情報は、サンプリング周波数/インデックスで示される。このようにして、基本周波数取得部15は、1フレーム分の基本周波数情報を順次取得する。図8は、入力を受け付けた音声信号において、フレーム毎に取得した基本周波数情報を示すグラフである。図8を参照して、横軸は、フレーム数を示し、縦軸は、基本周波数情報を示すインデックスを示している。悲鳴の部分Cにおいては、他の部分と比較して、一定に近い所定の範囲内の値を示すこととなる。
【0025】
悲鳴判定部16は、パワー情報取得部13、調波情報取得部14および基本周波数取得部15により取得した結果に基づいて、入力された音声が悲鳴であるか否かを判定する。具体的には、それぞれの取得した結果に対して、所定の閾値と比較することにより、入力された音声が悲鳴であるか否かを判定する。
【0026】
図9は、悲鳴判定部16の処理を示すフローチャートである。図9を参照して、悲鳴判定部16は、パワー情報取得部13により取得した1フレーム分のパワー情報と、第1の閾値とを比較する(S41)。第1の閾値は、パワー情報が悲鳴に該当するか否かを判定するための閾値である。例えば、図4中の点線で示す値であって、この閾値より大きいか否かを比較する。そして、第1の閾値より大きければ(S41において、YES)、当該フレームのパワー情報が閾値に達したとして、第1の判定フラグをONする(S42)。
【0027】
また、悲鳴判定部16は、調波情報取得部14により取得した1フレーム分の調波情報と、第2の閾値とを比較する(S43)。第2の閾値は、調波情報が悲鳴に該当するか否かを判定するための閾値である。例えば、図6中の一点鎖線で示す値であって、この閾値より大きいか否かを比較する。そして、第2の閾値より大きければ(S43において、YES)、当該フレームの調波情報が閾値に達したとして、第2の判定フラグをONする(S44)。
【0028】
また、悲鳴判定部16は、基本周波数取得部15により取得した1フレーム分の基本周波数情報と、第3の閾値とを比較する(S45)。第3の閾値は、基本周波数情報が悲鳴に該当するか否かを判定するための閾値である。具体的には、閾値は範囲を示しており、取得した情報の値が、一定に近い所定の範囲内の値であるか否かを判定する。例えば、図8中の二点鎖線で囲まれた範囲である。そして、所定の範囲内の値であれば、第3の閾値を達しているとし(S45において、YES)、当該フレームの基本周波数情報が閾値に達したとして、第3の判定フラグをONする(S46)。
【0029】
なお、S41において、第1の閾値に達しない場合には(S41において、NO)、第1の判定フラグをOFFする(S47)。また、S43において、第2の閾値に達しない場合には(S43において、NO)、第2の判定フラグをOFFする(S48)。また、S45において、第3の閾値に達しない場合には(S45において、NO)、第3の判定フラグをOFFする(S49)。すなわち、第1〜第3の判定フラグは、当該フレームにおいて、取得したそれぞれの値が、閾値に達しているか否かの結果をON/OFFで示すものである。
【0030】
そして、悲鳴判定部16は、第1〜第3の判定フラグのON/OFFの状況に応じて、カウンタを加算または減算する(S50)。カウンタは、悲鳴を検出するための判断を行うための値であって、フレーム毎に悲鳴に対する重み付けを行いながら加算または減算される。なお、カウンタの初期値は、0である。図10は、第1〜第3の判定フラグのON/OFFの状況に応じて、カウンタを加算または減算する値の一例について示す表である。具体的には、図10を参照して、例えば、パターン8のように、第1〜第3の判定フラグが全てONの場合には、当該フレームは、悲鳴である可能性が高いため、カウンタを1加算する。また、パターン7のように、第1および第2の判定フラグがONであって、第3の判定フラグがOFFである場合には、当該フレームは、パターン8より悲鳴である可能性が低いため、カウンタを1減算する。また、パターン1のように、第1〜第3の判定フラグが全てOFFの場合には、当該フレームは、悲鳴である可能性が低いため、カウンタを4減算する。このようにして、第1〜第3の判定フラグのON/OFFの状況に応じて、フレーム毎に悲鳴に対する重み付けを行いながら加算または減算する。
【0031】
そして、当該フレームにおいて、カウンタを加算または減算し、カウンタの値が所定の値より大きくなれば(S51において、YES)、悲鳴が検出されたと判断する(S52)。
【0032】
このように、悲鳴検出装置10は、音声信号のパワー情報と、調波情報と、基本周波数情報とに基づいて、入力された音声信号が悲鳴であるか否かを判定する。これにより、悲鳴の特徴に沿った情報を用いて、悲鳴であるか否かを判定することができる。すなわち、悲鳴とは、普段の会話より声量が大きく、一定の音の高さで発声されるものであって、判定においては、声量を判定するためのパワー情報、音声であることを判定するための調波情報、および一定の音の高さであることを判定するための基本周波数情報を用いて、悲鳴であるか否かを判定することができる。その結果、悲鳴検出の精度を向上させることができる。
【0033】
また、このような悲鳴検出方法は、音声信号のパワー情報と、調波情報と、基本周波数情報とに基づいて、入力された音声信号が悲鳴であるか否かを判定する。これにより、悲鳴の特徴に沿った情報を用いて、悲鳴であるか否かを判定することができる。すなわち、声量を判定するためのパワー情報、音声であることを判定するための調波情報、および一定の音の高さであることを判定するための基本周波数情報を用いて、悲鳴であるか否かを判定することができる。その結果、悲鳴検出の精度を向上させることができる。
【0034】
なお、S51において、カウンタの値が所定の値以下の場合には(S51において、NO)、悲鳴が検出されていないと判断し、引き続き次のフレームにおいて取得したパワー情報、調波情報および基本周波数情報に基づいて、所定の閾値と比較し、第1〜第3の判定フラグのON/OFFの状況に応じてカウンタを加算または減算する。このようにして、順次フレーム毎にカウンタの加算または減算を行い、カウンタの値が所定の値より大きくなれば、悲鳴が検出されたと判断する。
【0035】
なお、上記の実施の形態においては、S13において、音声が多く含まれる周波数帯域のみを通過させるよう制御し、この帯域以外の雑音成分を除去する例について説明したが、これに限ることなく、本処理を省略してもよい。
【0036】
また、上記の実施の形態においては、S13において周波数成分を取得する際に、S12において抽出した絶対値を用いる例について説明したが、これに限ることなく、S12において抽出した絶対値を対数変換することにより、対数変換後の値を用いてもよい。
【0037】
また、上記の実施の形態においては、S25において、調波情報取得部14は、ケプストラムの高次のうち、最も振幅の大きい値を取得する例について説明したが、これに限ることなく、最も振幅の大きい値に近い値であってもよい。
【0038】
また、上記の実施の形態においては、悲鳴判定部16において、順次フレーム毎にカウンタの加算または減算を行い、カウンタの値が所定の値より大きくなれば、悲鳴が検出されたと判断する例について説明したが、これに限ることなく、例えば、5秒間等の所定の区間内において、第1〜第3の判定フラグがONであるフレームが、所定の数より多い場合には、悲鳴が検出されたと判断してもよい。
【0039】
また、上記の実施の形態においては、悲鳴判定部16において、図10に示す表に従って、カウンタを加算または減算する例について説明したが、これに限ることなく、例えば、悲鳴を判定する際に特に重要であるパワー情報および調波情報の判定結果を示す第1および第2の判定フラグがONであれば、悲鳴が検出されたと判断してもよい。
【0040】
また、上記の実施の形態においては、ケプストラム法を用いて、基本周波数情報を取得する例について説明したが、これに限ることなく、自己相関法を用いて、基本周波数情報を取得してもよい。
【0041】
また、悲鳴判定部16において、第1〜第3の閾値を調整する調整手段を備える構成としてもよい。これにより、悲鳴検出装置10の使用環境に応じて閾値を適切に調整することができる。
【0042】
また、上記の実施の形態においては、悲鳴検出装置10を構成する各部は、ハードウェアで構成されている例について説明したが、これに限ることなく、悲鳴検出装置10は、CPU等の制御部を備える構成とし、制御部によってソフトウェアで制御するよう構成してもよい。
【0043】
以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。
【符号の説明】
【0044】
9 マイクロフォン、10 悲鳴検出装置、11 音声信号受付部、12 フレーム分割部、13 パワー情報取得部、14 調波情報取得部、15 基本周波数取得部、16 悲鳴判定部。

【特許請求の範囲】
【請求項1】
音声信号の入力を受け付ける音声信号受付部と、
前記音声信号受付部にて受け付けた音声信号のパワー情報を取得するパワー情報取得部と、
前記音声信号受付部にて受け付けた音声信号の調波情報を取得する調波情報取得部と、
前記音声信号受付部にて受け付けた音声信号の基本周波数情報を取得する基本周波数取得部と、
前記パワー情報取得部にて取得したパワー情報、前記調波情報取得部にて取得した調波情報、および前記基本周波数取得部にて取得した基本周波数情報に基づいて、前記音声信号受付部にて受け付けた音声信号が、悲鳴であるか否かを判定する悲鳴判定部とを備える、悲鳴検出装置。
【請求項2】
前記悲鳴判定部は、前記パワー情報取得部にて取得したパワー情報、前記調波情報取得部にて取得した調波情報、および前記基本周波数取得部にて取得した基本周波数情報の各々が、所定の閾値を満たしているか否かによって、悲鳴であるか否かを判定する、請求項1に記載の悲鳴検出装置。
【請求項3】
前記音声信号受付部にて受け付けた音声信号を、所定時間毎に音声信号を有するフレームに分割するフレーム分割部を備える、請求項1または2に記載の悲鳴検出装置。
【請求項4】
前記悲鳴判定部は、前記パワー情報取得部にて取得したパワー情報、前記調波情報取得部にて取得した調波情報、および前記基本周波数取得部にて取得した基本周波数情報の各々が、所定の閾値を満たしているか否かに応じて、前記フレーム毎に、悲鳴に対する重み付けを行うことによって、悲鳴であるか否かを判定する、請求項3に記載の悲鳴検出装置。
【請求項5】
前記調波情報取得部は、前記音声信号受付部にて受け付けた音声信号から、ケプストラムを得るケプストラム取得手段と、
前記ケプストラム取得手段により取得したケプストラムからケプストラムの高次を取得する高次取得手段と、
前記高次取得手段により取得したケプストラムの高次のうち、振幅の大きい値を取得する振幅取得手段とを備える、請求項1〜4のいずれかに記載の悲鳴検出装置。
【請求項6】
音声信号の入力を受け付けるステップと、
受け付けた音声信号のパワー情報を取得するステップと、
受け付けた音声信号の調波情報を取得するステップと、
受け付けた音声信号の基本周波数情報を取得するステップと、
取得したパワー情報、取得した調波情報、および取得した基本周波数情報に基づいて、受け付けた音声信号が、悲鳴であるか否かを判定するステップとを備える、悲鳴検出方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2011−53557(P2011−53557A)
【公開日】平成23年3月17日(2011.3.17)
【国際特許分類】
【出願番号】特願2009−203923(P2009−203923)
【出願日】平成21年9月3日(2009.9.3)
【出願人】(501321394)株式会社レイトロン (14)
【Fターム(参考)】