悲鳴検出装置および悲鳴検出方法

【課題】悲鳴検出の精度を向上した悲鳴検出装置を提供することである。
【解決手段】悲鳴検出装置１０は、音声信号の入力を受け付ける音声信号受付部１１と、音声信号受付部１１により入力を受け付けた音声信号を一定時間毎にフレームに分割するフレーム分割部１２と、フレーム分割部１２により分割されたフレーム毎に、音声信号のパワー情報を取得するパワー情報取得部１３と、フレーム分割部１２により分割されたフレーム毎に、音声信号の調波情報を取得する調波情報取得部１４と、フレーム分割部１２により分割されたフレーム毎に、音声信号の基本周波数情報を取得する基本周波数取得部１５と、パワー情報取得部１３、調波情報取得部１４および基本周波数取得部１５により取得した結果に基づいて、入力された音声が悲鳴であるか否かを判定する悲鳴判定部１６とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、悲鳴検出装置および悲鳴検出方法に関し、特に、人の発声した悲鳴を検出する悲鳴検出装置および悲鳴検出方法に関するものである。
【背景技術】
【０００２】
従来において、悲鳴等の叫び声を検出して、ロボットを緊急停止させるシステムが、例えば、特開２００８−４９４６２号公報（特許文献１）に開示されている。特許文献１によると、システムは、入力された音声信号に対して、周波数解析を行う。そして、解析結果から、基本周波数の変動量とスペクトル包絡の変動量とに基づいて、入力された音声が悲鳴であるか否かの判定を行うこととしている。また、基本周波数の算出においては、入力された音声信号の中で、最も優勢な高調波構造の基本周波数を音声の基本周波数として推定することとしている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００８−４９４６２号公報（段落番号００３５〜００４０等）
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ここで、特許文献１に開示のシステムでは、悲鳴であるか否かの判定を、基本周波数の変動量とスペクトル包絡の変動量とに基づいて行っている。そうすると、ｓｉｎ波のような倍音の少ない一定の音を誤って悲鳴と判定する虞がある。その結果、悲鳴検出の精度が悪くなってしまう。
【０００５】
この発明の目的は、悲鳴検出の精度を向上した悲鳴検出装置を提供することである。
【０００６】
この発明の他の目的は、悲鳴検出の精度を向上した悲鳴検出方法を提供することである。
【課題を解決するための手段】
【０００７】
この発明に係る悲鳴検出装置は、音声信号の入力を受け付ける音声信号受付部と、音声信号受付部にて受け付けた音声信号のパワー情報を取得するパワー情報取得部と、音声信号受付部にて受け付けた音声信号の調波情報を取得する調波情報取得部と、音声信号受付部にて受け付けた音声信号の基本周波数情報を取得する基本周波数取得部と、パワー情報取得部にて取得したパワー情報、調波情報取得部にて取得した調波情報、および基本周波数取得部にて取得した基本周波数情報に基づいて、音声信号受付部にて受け付けた音声信号が、悲鳴であるか否かを判定する悲鳴判定部とを備える。
【０００８】
ここで、悲鳴とは、人の発声した音声のうち、「わー」や「きゃー」等の驚いた時や恐ろしい時に発声する音声である。そして、普段の会話より声量が大きく、一定の音の高さで発声される。
【０００９】
好ましくは、悲鳴判定部は、パワー情報取得部にて取得したパワー情報、調波情報取得部にて取得した調波情報、および基本周波数取得部にて取得した基本周波数情報の各々が、所定の閾値を満たしているか否かによって、悲鳴であるか否かを判定する。これにより、所定の閾値を判定するのみで、容易に悲鳴であるか否かを判定することができる。
【００１０】
好ましくは、音声信号受付部にて受け付けた音声信号を、所定時間毎に音声信号を有するフレームに分割するフレーム分割部を備える。
【００１１】
一実施形態として、悲鳴判定部は、パワー情報取得部にて取得したパワー情報、調波情報取得部にて取得した調波情報、および基本周波数取得部にて取得した基本周波数情報の各々が、所定の閾値を満たしているか否かに応じて、フレーム毎に、悲鳴に対する重み付けを行うことによって、悲鳴であるか否かを判定する。これにより、悲鳴であるか否かの判定の精度を向上させることができる。
【００１２】
好ましくは、調波情報取得部は、音声信号受付部にて受け付けた音声信号から、ケプストラムを得るケプストラム取得手段と、ケプストラム取得手段により取得したケプストラムからケプストラムの高次を取得する高次取得手段と、高次取得手段により取得したケプストラムの高次のうち、振幅の大きい値を取得する振幅取得手段とを備える。
【００１３】
また、この発明に係る悲鳴検出方法は、音声信号の入力を受け付けるステップと、受け付けた音声信号のパワー情報を取得するステップと、受け付けた音声信号の調波情報を取得するステップと、受け付けた音声信号の基本周波数情報を取得するステップと、取得したパワー情報、取得した調波情報、および取得した基本周波数情報に基づいて、受け付けた音声信号が、悲鳴であるか否かを判定するステップとを備える。
【発明の効果】
【００１４】
この発明に係る悲鳴検出装置は、音声信号のパワー情報と、調波情報と、基本周波数情報とに基づいて、入力された音声信号が悲鳴であるか否かを判定する。これにより、悲鳴の特徴に沿った情報を用いて、悲鳴であるか否かを判定することができる。すなわち、声量を判定するためのパワー情報、音声であることを判定するための調波情報、および一定の音の高さであることを判定するための基本周波数情報を用いて、悲鳴であるか否かを判定することができる。その結果、悲鳴検出の精度を向上させることができる。
【００１５】
また、この発明に係る悲鳴検出方法は、音声信号のパワー情報と、調波情報と、基本周波数情報とに基づいて、入力された音声信号が悲鳴であるか否かを判定する。これにより、悲鳴の特徴に沿った情報を用いて、悲鳴であるか否かを判定することができる。すなわち、声量を判定するためのパワー情報、音声であることを判定するための調波情報、および一定の音の高さであることを判定するための基本周波数情報を用いて、悲鳴であるか否かを判定することができる。その結果、悲鳴検出の精度を向上させることができる。
【図面の簡単な説明】
【００１６】
【図１】悲鳴検出装置の構成を示すブロック図である。
【図２】入力を受け付けた音声信号を示すグラフである。
【図３】パワー情報を取得する際のパワー情報取得部の処理を示すフローチャートである。
【図４】取得したパワー情報を示すグラフである。
【図５】調波情報を取得する際の調波情報取得部の処理を示すフローチャートである。
【図６】取得した調波情報を示すグラフである。
【図７】基本周波数情報を取得する際の基本周波数取得部の処理を示すフローチャートである。
【図８】取得した基本周波数情報を示すグラフである。
【図９】悲鳴判定部の処理を示すフローチャートである。
【図１０】第１〜第３の判定フラグのＯＮ／ＯＦＦの状況に応じて、カウンタを加算または減算する値の一例について示す表である。
【発明を実施するための形態】
【００１７】
以下、図面を参照して、この発明の一実施形態に係る悲鳴検出装置について説明する。図１は、悲鳴検出装置１０の構成を示すブロック図である。図１を参照して、悲鳴検出装置１０は、マイクロフォン９を介して、音声信号の入力を受け付ける音声信号受付部１１と、入力を受け付けた音声信号を一定時間毎にフレームに分割するフレーム分割部１２と、フレーム分割部１２により分割されたフレーム毎に、音声信号のパワー情報を取得するパワー情報取得部１３と、フレーム分割部１２により分割されたフレーム毎に、音声信号の調波情報を取得する調波情報取得部１４と、フレーム分割部１２により分割されたフレーム毎に、音声信号の基本周波数情報を取得する基本周波数取得部１５と、パワー情報取得部１３、調波情報取得部１４および基本周波数取得部１５により取得した結果に基づいて、入力された音声が悲鳴であるか否かを判定する悲鳴判定部１６とを備える。この実施形態においては、各部がハードウェアで構成されている。
【００１８】
フレーム分割部１２は、入力を受け付けた音声信号を、所定時間毎、例えば、９６ｍｓ毎にフレームに分割して、フレーム分割信号を作成する。すなわち、フレームとは、一定時間分の音声信号を有するものである。図２は、入力を受け付けた音声信号を示すグラフであって、横軸は、時間を示し、縦軸は、音声信号の振幅を示している。図２を参照して、フレーム分割信号Ｐ_ｎ（ｎ＝１，２・・）は、先の１データの後半部分が、後の１データの前半部分とデータを共有するように作成される。
【００１９】
パワー情報取得部１３は、パワー情報として、入力を受け付けた音声信号の強さ、すなわち、声量を取得する。取得したパワー情報が大きければ、音声が大きいことを示し、取得したパワー情報が小さければ、音声が小さいことを示す。一般的に、声量は、悲鳴であれば大きくなる。
【００２０】
図３は、パワー情報を取得する際のパワー情報取得部１３の処理を示すフローチャートである。図３を参照して、パワー情報取得部１３は、まず、フレーム分割部１２からフレーム分割信号の入力を受け付け、離散フーリエ変換により周波数信号に変換する（図３において、ステップＳ１１、以下、ステップを省略する）。次に、変換した周波数信号から位相情報を除去し、絶対値を抽出する（Ｓ１２）。これは、位相情報には、人間が知覚するために重要な情報はないとされているためである。そして、抽出した絶対値から音声が多く含まれる周波数成分を取得する（Ｓ１３）。具体的には、音声が多く含まれる周波数帯域は、１〜４ｋＨｚであるため、この帯域のみを通過させるよう帯域制限を行い、この帯域以外に含まれる雑音成分を除去する。さらに、取得した周波数成分を加算する（Ｓ１４）。このようにして、パワー情報取得部１３は、１フレーム分のパワー情報を順次取得する。図４は、入力を受け付けた音声信号において、フレーム毎に取得したパワー情報を示すグラフである。図４を参照して、横軸は、フレーム数を示し、縦軸は、パワー量を示している。悲鳴の部分Ａにおいては、他の部分と比較して、大きい値を示すこととなる。
【００２１】
調波情報取得部１４は、調波情報として、入力を受け付けた音声信号の倍音情報を取得する。具体的には、入力を受け付けた音声信号の倍音の多さを取得する。取得した調波情報が大きければ、倍音が多いことを示し、取得した調波情報が小さければ、倍音が少ないことを示す。一般的に、倍音は、音声であれば多く、物音等の雑音であれば少なくなっている。
【００２２】
図５は、調波情報を取得する際の調波情報取得部１４の処理を示すフローチャートである。図５を参照して、調波情報取得部１４は、まず、フレーム分割部１２からフレーム分割信号の入力を受け付け、離散フーリエ変換により周波数信号に変換する（Ｓ２１）。次に、変換した周波数信号から位相情報を除去し、絶対値を抽出する（Ｓ２２）。次に、抽出した絶対値を対数変換し（Ｓ２３）、逆離散フーリエ変換によりケプストラムを得る（Ｓ２４）。ここで、調波情報取得部１４は、ケプストラム取得手段として作動する。
【００２３】
そして、得たケプストラムからケプストラムの高次のうち、振幅の大きい値を取得する（Ｓ２５）。ここで、調波情報取得部１４は、高次取得手段および振幅取得手段として作動する。この実施形態においては、最も振幅の大きい値を取得する。これにより、人間が知覚する音の高さの倍音の量を取得することができる。この最も振幅の大きい値は、最も倍音成分を多く含んでいる。すなわち、調波情報取得部１４は、調波情報として、最も多い倍音の量を取得する。このようにして、調波情報取得部１４は、１フレーム分の調波情報を順次取得する。図６は、入力を受け付けた音声信号において、フレーム毎に取得した調波情報を示すグラフである。図６を参照して、横軸は、フレーム数を示し、縦軸は、調波情報量を示している。悲鳴の部分Ｂにおいては、他の部分と比較して、大きい値を示すこととなる。
【００２４】
基本周波数取得部１５は、入力を受け付けた音声信号の基本周波数情報を取得する。具体的には、入力を受け付けた音声信号の音の高さの情報を取得する。なお、この実施形態においては、ケプストラム法を用いて、基本周波数情報を取得する。図７は、基本周波数情報を取得する際の基本周波数取得部１５の処理を示すフローチャートである。図７を参照して、Ｓ３１〜Ｓ３４においては、図５のＳ２１〜Ｓ２４と同様の処理であるため、説明は省略する。基本周波数取得部１５は、Ｓ３４において得たケプストラムから、ケプストラムの高次のうち、最も振幅の大きい値のインデックスを基本周波数情報として取得する（Ｓ３５）。ここで、インデックスとは、ケフレンシーの値である。すなわち、基本周波数情報としては、ケプストラムの高次のうち、最も振幅の大きい値のケフレンシーの値を取得する。基本周波数情報は、サンプリング周波数／インデックスで示される。このようにして、基本周波数取得部１５は、１フレーム分の基本周波数情報を順次取得する。図８は、入力を受け付けた音声信号において、フレーム毎に取得した基本周波数情報を示すグラフである。図８を参照して、横軸は、フレーム数を示し、縦軸は、基本周波数情報を示すインデックスを示している。悲鳴の部分Ｃにおいては、他の部分と比較して、一定に近い所定の範囲内の値を示すこととなる。
【００２５】
悲鳴判定部１６は、パワー情報取得部１３、調波情報取得部１４および基本周波数取得部１５により取得した結果に基づいて、入力された音声が悲鳴であるか否かを判定する。具体的には、それぞれの取得した結果に対して、所定の閾値と比較することにより、入力された音声が悲鳴であるか否かを判定する。
【００２６】
図９は、悲鳴判定部１６の処理を示すフローチャートである。図９を参照して、悲鳴判定部１６は、パワー情報取得部１３により取得した１フレーム分のパワー情報と、第１の閾値とを比較する（Ｓ４１）。第１の閾値は、パワー情報が悲鳴に該当するか否かを判定するための閾値である。例えば、図４中の点線で示す値であって、この閾値より大きいか否かを比較する。そして、第１の閾値より大きければ（Ｓ４１において、ＹＥＳ）、当該フレームのパワー情報が閾値に達したとして、第１の判定フラグをＯＮする（Ｓ４２）。
【００２７】
また、悲鳴判定部１６は、調波情報取得部１４により取得した１フレーム分の調波情報と、第２の閾値とを比較する（Ｓ４３）。第２の閾値は、調波情報が悲鳴に該当するか否かを判定するための閾値である。例えば、図６中の一点鎖線で示す値であって、この閾値より大きいか否かを比較する。そして、第２の閾値より大きければ（Ｓ４３において、ＹＥＳ）、当該フレームの調波情報が閾値に達したとして、第２の判定フラグをＯＮする（Ｓ４４）。
【００２８】
また、悲鳴判定部１６は、基本周波数取得部１５により取得した１フレーム分の基本周波数情報と、第３の閾値とを比較する（Ｓ４５）。第３の閾値は、基本周波数情報が悲鳴に該当するか否かを判定するための閾値である。具体的には、閾値は範囲を示しており、取得した情報の値が、一定に近い所定の範囲内の値であるか否かを判定する。例えば、図８中の二点鎖線で囲まれた範囲である。そして、所定の範囲内の値であれば、第３の閾値を達しているとし（Ｓ４５において、ＹＥＳ）、当該フレームの基本周波数情報が閾値に達したとして、第３の判定フラグをＯＮする（Ｓ４６）。
【００２９】
なお、Ｓ４１において、第１の閾値に達しない場合には（Ｓ４１において、ＮＯ）、第１の判定フラグをＯＦＦする（Ｓ４７）。また、Ｓ４３において、第２の閾値に達しない場合には（Ｓ４３において、ＮＯ）、第２の判定フラグをＯＦＦする（Ｓ４８）。また、Ｓ４５において、第３の閾値に達しない場合には（Ｓ４５において、ＮＯ）、第３の判定フラグをＯＦＦする（Ｓ４９）。すなわち、第１〜第３の判定フラグは、当該フレームにおいて、取得したそれぞれの値が、閾値に達しているか否かの結果をＯＮ／ＯＦＦで示すものである。
【００３０】
そして、悲鳴判定部１６は、第１〜第３の判定フラグのＯＮ／ＯＦＦの状況に応じて、カウンタを加算または減算する（Ｓ５０）。カウンタは、悲鳴を検出するための判断を行うための値であって、フレーム毎に悲鳴に対する重み付けを行いながら加算または減算される。なお、カウンタの初期値は、０である。図１０は、第１〜第３の判定フラグのＯＮ／ＯＦＦの状況に応じて、カウンタを加算または減算する値の一例について示す表である。具体的には、図１０を参照して、例えば、パターン８のように、第１〜第３の判定フラグが全てＯＮの場合には、当該フレームは、悲鳴である可能性が高いため、カウンタを１加算する。また、パターン７のように、第１および第２の判定フラグがＯＮであって、第３の判定フラグがＯＦＦである場合には、当該フレームは、パターン８より悲鳴である可能性が低いため、カウンタを１減算する。また、パターン１のように、第１〜第３の判定フラグが全てＯＦＦの場合には、当該フレームは、悲鳴である可能性が低いため、カウンタを４減算する。このようにして、第１〜第３の判定フラグのＯＮ／ＯＦＦの状況に応じて、フレーム毎に悲鳴に対する重み付けを行いながら加算または減算する。
【００３１】
そして、当該フレームにおいて、カウンタを加算または減算し、カウンタの値が所定の値より大きくなれば（Ｓ５１において、ＹＥＳ）、悲鳴が検出されたと判断する（Ｓ５２）。
【００３２】
このように、悲鳴検出装置１０は、音声信号のパワー情報と、調波情報と、基本周波数情報とに基づいて、入力された音声信号が悲鳴であるか否かを判定する。これにより、悲鳴の特徴に沿った情報を用いて、悲鳴であるか否かを判定することができる。すなわち、悲鳴とは、普段の会話より声量が大きく、一定の音の高さで発声されるものであって、判定においては、声量を判定するためのパワー情報、音声であることを判定するための調波情報、および一定の音の高さであることを判定するための基本周波数情報を用いて、悲鳴であるか否かを判定することができる。その結果、悲鳴検出の精度を向上させることができる。
【００３３】
また、このような悲鳴検出方法は、音声信号のパワー情報と、調波情報と、基本周波数情報とに基づいて、入力された音声信号が悲鳴であるか否かを判定する。これにより、悲鳴の特徴に沿った情報を用いて、悲鳴であるか否かを判定することができる。すなわち、声量を判定するためのパワー情報、音声であることを判定するための調波情報、および一定の音の高さであることを判定するための基本周波数情報を用いて、悲鳴であるか否かを判定することができる。その結果、悲鳴検出の精度を向上させることができる。
【００３４】
なお、Ｓ５１において、カウンタの値が所定の値以下の場合には（Ｓ５１において、ＮＯ）、悲鳴が検出されていないと判断し、引き続き次のフレームにおいて取得したパワー情報、調波情報および基本周波数情報に基づいて、所定の閾値と比較し、第１〜第３の判定フラグのＯＮ／ＯＦＦの状況に応じてカウンタを加算または減算する。このようにして、順次フレーム毎にカウンタの加算または減算を行い、カウンタの値が所定の値より大きくなれば、悲鳴が検出されたと判断する。
【００３５】
なお、上記の実施の形態においては、Ｓ１３において、音声が多く含まれる周波数帯域のみを通過させるよう制御し、この帯域以外の雑音成分を除去する例について説明したが、これに限ることなく、本処理を省略してもよい。
【００３６】
また、上記の実施の形態においては、Ｓ１３において周波数成分を取得する際に、Ｓ１２において抽出した絶対値を用いる例について説明したが、これに限ることなく、Ｓ１２において抽出した絶対値を対数変換することにより、対数変換後の値を用いてもよい。
【００３７】
また、上記の実施の形態においては、Ｓ２５において、調波情報取得部１４は、ケプストラムの高次のうち、最も振幅の大きい値を取得する例について説明したが、これに限ることなく、最も振幅の大きい値に近い値であってもよい。
【００３８】
また、上記の実施の形態においては、悲鳴判定部１６において、順次フレーム毎にカウンタの加算または減算を行い、カウンタの値が所定の値より大きくなれば、悲鳴が検出されたと判断する例について説明したが、これに限ることなく、例えば、５秒間等の所定の区間内において、第１〜第３の判定フラグがＯＮであるフレームが、所定の数より多い場合には、悲鳴が検出されたと判断してもよい。
【００３９】
また、上記の実施の形態においては、悲鳴判定部１６において、図１０に示す表に従って、カウンタを加算または減算する例について説明したが、これに限ることなく、例えば、悲鳴を判定する際に特に重要であるパワー情報および調波情報の判定結果を示す第１および第２の判定フラグがＯＮであれば、悲鳴が検出されたと判断してもよい。
【００４０】
また、上記の実施の形態においては、ケプストラム法を用いて、基本周波数情報を取得する例について説明したが、これに限ることなく、自己相関法を用いて、基本周波数情報を取得してもよい。
【００４１】
また、悲鳴判定部１６において、第１〜第３の閾値を調整する調整手段を備える構成としてもよい。これにより、悲鳴検出装置１０の使用環境に応じて閾値を適切に調整することができる。
【００４２】
また、上記の実施の形態においては、悲鳴検出装置１０を構成する各部は、ハードウェアで構成されている例について説明したが、これに限ることなく、悲鳴検出装置１０は、ＣＰＵ等の制御部を備える構成とし、制御部によってソフトウェアで制御するよう構成してもよい。
【００４３】
以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。
【符号の説明】
【００４４】
９マイクロフォン、１０悲鳴検出装置、１１音声信号受付部、１２フレーム分割部、１３パワー情報取得部、１４調波情報取得部、１５基本周波数取得部、１６悲鳴判定部。

【特許請求の範囲】
【請求項１】
音声信号の入力を受け付ける音声信号受付部と、
前記音声信号受付部にて受け付けた音声信号のパワー情報を取得するパワー情報取得部と、
前記音声信号受付部にて受け付けた音声信号の調波情報を取得する調波情報取得部と、
前記音声信号受付部にて受け付けた音声信号の基本周波数情報を取得する基本周波数取得部と、
前記パワー情報取得部にて取得したパワー情報、前記調波情報取得部にて取得した調波情報、および前記基本周波数取得部にて取得した基本周波数情報に基づいて、前記音声信号受付部にて受け付けた音声信号が、悲鳴であるか否かを判定する悲鳴判定部とを備える、悲鳴検出装置。
【請求項２】
前記悲鳴判定部は、前記パワー情報取得部にて取得したパワー情報、前記調波情報取得部にて取得した調波情報、および前記基本周波数取得部にて取得した基本周波数情報の各々が、所定の閾値を満たしているか否かによって、悲鳴であるか否かを判定する、請求項１に記載の悲鳴検出装置。
【請求項３】
前記音声信号受付部にて受け付けた音声信号を、所定時間毎に音声信号を有するフレームに分割するフレーム分割部を備える、請求項１または２に記載の悲鳴検出装置。
【請求項４】
前記悲鳴判定部は、前記パワー情報取得部にて取得したパワー情報、前記調波情報取得部にて取得した調波情報、および前記基本周波数取得部にて取得した基本周波数情報の各々が、所定の閾値を満たしているか否かに応じて、前記フレーム毎に、悲鳴に対する重み付けを行うことによって、悲鳴であるか否かを判定する、請求項３に記載の悲鳴検出装置。
【請求項５】
前記調波情報取得部は、前記音声信号受付部にて受け付けた音声信号から、ケプストラムを得るケプストラム取得手段と、
前記ケプストラム取得手段により取得したケプストラムからケプストラムの高次を取得する高次取得手段と、
前記高次取得手段により取得したケプストラムの高次のうち、振幅の大きい値を取得する振幅取得手段とを備える、請求項１〜４のいずれかに記載の悲鳴検出装置。
【請求項６】
音声信号の入力を受け付けるステップと、
受け付けた音声信号のパワー情報を取得するステップと、
受け付けた音声信号の調波情報を取得するステップと、
受け付けた音声信号の基本周波数情報を取得するステップと、
取得したパワー情報、取得した調波情報、および取得した基本周波数情報に基づいて、受け付けた音声信号が、悲鳴であるか否かを判定するステップとを備える、悲鳴検出方法。

【図１】