音声識別装置及びこれを用いた音声識別システム

【課題】複数の昆虫又は複数の動物が鳴いている場合でも、昆虫又は動物の分類を識別することができる音声識別装置及び音声識別方法並びに音声識別システムを提供する。
【解決手段】昆虫又は動物から音声データを取得する音声データ取得部１０と、音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出部３０と、カーネル関数を用いたパターン認識を用いることにより、複数の前記音声特徴量に基づいて昆虫又は動物を分類するための分類モデルを生成する分類モデル生成部４１と、識別対象の音声データの音声特徴量を分類モデルによって分類することにより、当該識別対象の音声データについての昆虫又は動物の分類を識別する分類識別部４２とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、昆虫又は動物の音声に基づいて当該昆虫又は動物の分類を識別する音声識別装置及び音声識別システム、並びに音声識別方法に関する。
【背景技術】
【０００２】
昆虫の生態に関しては、温暖化の影響及び輸送技術の発達により、ある地域に従来から生息する在来種に加えて、外来種といわれるその地域に本来見られないはずの種の昆虫が日本全国又は世界各地で見られるようになっている。このため、昆虫の生息分布を調査することは、その地域の環境の変化を捉える大きな手がかりになると考えられる。特に、昆虫は、直接捕まえなくても鳴き声によって存在を確認することができるので、昆虫の鳴き声は、環境指標の一つとして期待されている。従って、昆虫の鳴き声から当該昆虫の種を識別する音声識別方法の開発が要望されている。
【０００３】
ところで、鳴く昆虫といえばセミが挙げられるが、従来、セミの種を識別することができる音声識別方法が提案されている。
【０００４】
このセミの音声識別方法は、同じような鳴き声のセミであったとしても、セミの鳴き声の音声データを音声解析することによってセミの種を判別することができるというものである。
【０００５】
具体的には、エゾゼミ、アカエゾゼミ及びコエゾゼミの３種のセミの鳴き声は、人間の耳で聞くといずれも同じように聞こえるので、人間の聴覚によってこの３種のセミを区別することは難しい。しかし、この３種のセミの鳴き声は周波数特性がそれぞれ異なるので、これを利用することにより、取得したセミの音声データを音声解析して周波数特性を抽出することにより、予め準備した３種のセミの周波数特性と照合することによって、セミの種を判別することができる。なお、各セミの周波数特性は、ピーク周波数、平均周波数又はパルス頻度によって特徴付けられる。
【０００６】
また、音源が昆虫の鳴き声ではないが、音源の周波数分布を検出して所定の特性周波数パターンを抽出し、このパターンを予め設定された基準パターンと照合することにより、音源の種類を識別する音源識別装置も提案されている（特許文献１参照）。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開平５−１８７９１０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
しかしながら、従来の音声識別方法では、複数の昆虫又は複数の動物が同時に鳴いているような場合は、昆虫又は動物の分類を識別することができないという問題がある。
【０００９】
本発明は、上記問題を解決するためになされたものであり、複数の昆虫又は複数の動物が鳴いている場合でも、昆虫又は動物の分類を識別することができる音声識別装置及び音声識別システム、並びに音声識別方法を提供することを目的とする。
【課題を解決するための手段】
【００１０】
上記問題を解決するために、本発明に係る音声識別装置の一態様は、昆虫の音声データ又は１ｋＨｚ以上の周波数で１種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別装置であって、前記昆虫又は前記動物から音声データを取得する音声データ取得部と、前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出部と、カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成部と、識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別部とを備えるものである。
【００１１】
さらに、本発明に係る音声識別装置の一態様において、前記所定の時間間隔が４ｍｓであることが好ましい。
【００１２】
さらに、本発明に係る音声識別装置の一態様において、前記音声特徴量抽出部は、前記所定の時間間隔で切り出した前記切出音声データの最大振幅値が一定値以下の場合、所定時間経過後に、前記所定の時間間隔で前記音声データを切り出して切出音声データを生成することが好ましい。
【００１３】
さらに、本発明に係る音声識別装置の一態様において、前記分類モデル生成部は、前記昆虫又は前記動物の科ごとに分類モデルを生成し、前記分類識別部は、科ごとの前記分類モデルに従って前記昆虫又は前記動物の科を識別することが好ましい。
【００１４】
さらに、本発明に係る音声識別装置の一態様において、前記分類モデル生成部は、科ごとに分類された前記分類モデルにおける前記音声特徴量に基づいて、さらに種ごとの分類モデルを生成し、前記分類識別部は、種ごとの前記分類モデルに従って前記昆虫又は前記動物の種を識別することが好ましい。
【００１５】
さらに、本発明に係る音声識別装置の一態様において、前記分類モデル生成部及び前記分類識別部は、サポートベクターマシンにより構成されることが好ましい。
【００１６】
さらに、本発明に係る音声識別装置の一態様において、前記窓関数がハニング窓であることが好ましい。
【００１７】
さらに、本発明に係る音声識別装置の一態様において、前記音声特徴量が、線形予測符号ケプストラムの１３次又は２６次の係数であることが好ましい。
【００１８】
さらに、本発明に係る音声識別装置の一態様において、ステレオ処理、平均値除去処理及び振幅の正規化処理の少なくともいずれか１つの前処理を行う前処理部を備えることが好ましい。
【００１９】
また、本発明に係る音声識別システムの一態様は、上記の本発明に係る音声識別装置とＷｅｂコンテンツ管理システムとを備えるサーバ、及び、音声データを取得する端末装置を有する音声識別システムであって、前記サーバは、前記端末装置によって取得した前記音声データを前記Ｗｅｂコンテンツ管理システムを介して前記音声識別装置によって音声解析することにより、昆虫又は動物の分類を識別するものである。
【００２０】
また、本発明に係る音声識別方法の一態様は、昆虫の音声データ又は１ｋＨｚ以上の周波数で１種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別方法であって、前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成ステップと、識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップとを含むものである。
【００２１】
また、本発明に係るプログラムの一態様は、昆虫の音声データ又は１ｋＨｚ以上の周波数で１種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別するためのプログラムであって、前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物を分類に関する分類モデルを生成する分類モデル生成ステップと、識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップとをコンピュータによって実行させるものである。
【００２２】
また、本発明に係る記録媒体の一態様は、上記プログラムが記載されたコンピュータに読み取り可能なものである。
【発明の効果】
【００２３】
本発明に係る音声識別装置及び音声識別方法によれば、複数の昆虫又は複数の動物が鳴いている場合でも、昆虫又は動物の分類を識別することができる。
【００２４】
また、本発明に係る音声識別システムによれば、全国の昆虫の音声データを容易に取得できるので、広範囲の昆虫の生息分布を調査することができ、広範囲の環境変化を容易に捉えることができる。
【図面の簡単な説明】
【００２５】
【図１】図１は、本発明の実施形態に係る音声識別装置の特徴的な機能構成を示すブロック図である。
【図２】図２は、キリギリス科、セミ科及びコオロギ上科の各昆虫のピーク周波数及び周波数帯域を示す図である。
【図３Ａ】図３Ａは、サポートベクターマシンのマージン最大化の概念を示す図である。
【図３Ｂ】図３Ｂは、カーネルトリックの概念を示す図である。
【図４】図４は、本発明の実施形態に係る音声識別方法によって作成された分類モデルの概念を示す図である。
【図５】図５は、本発明の実施形態に係る音声識別方法のフローチャートである。
【図６】図６は、本発明の実施形態に係る音声識別方法における音声特徴量抽出処理のフローチャートである。
【図７】図７は、本発明の実施形態に係る音声識別方法における音声特徴量抽出処理の処理方法を示す図である。
【図８】図８は、本発明の実施形態に係る音声識別方法における分類モデル作成処理のフローチャートである。
【図９】図９は、本発明の実施形態に係る音声識別システムのシステム全体構成を示す図である。
【発明を実施するための形態】
【００２６】
以下、本発明の実施形態に係る音声識別装置、音声識別方法及び音声識別システムについて説明する。
【００２７】
まず、本発明の実施形態に係る音声識別装置について、図１を用いて説明する。図１は、本発明の実施形態に係る音声識別装置１００の特徴的な機能構成を示すブロック図である。
【００２８】
本発明の実施形態に係る音声識別装置１００は、昆虫又は動物の音声データに基づいて、当該昆虫又は動物における科又は種等の分類を識別するものであり、図１に示すように、音声データ取得部１０、音声特徴量抽出部３０、及び、分類モデル生成部４１と分類識別部４２とを含む学習識別部４０を備える。また、本発明の実施形態に係る音声識別装置１００は、前処理部２０及び識別結果出力部５０を備えていてもよい。
【００２９】
音声データ取得部１０は、昆虫又は動物（以下、「昆虫等」とも記載する）から、当該昆虫等の鳴き声についての音声データを取得する機能を有する。ここで、音声データとして取得する情報は、昆虫等の鳴き声を時間軸波形として表したものである。また、本実施形態において、科又は種等の分類を識別する対象（以下、「識別対象」と記載する）の昆虫は、鳴き声を発する昆虫であり、例えば、キリギリス科、セミ科及びコオロギ上科の昆虫を用いることができる。図２に示すように、キリギリス科、セミ科及びコオロギ上科の各昆虫は、科によってそれぞれ異なったピーク周波数及び周波数帯域の鳴き声を発する。また、同一の科の昆虫であっても、その種によってそれぞれ異なった個々の鳴き声を有し、それぞれ異なったピーク周波数の鳴き声を発する。また、本実施形態において、識別対象の動物は、１ｋＨｚ以上の周波数で１種類の音声を発する動物である。この動物には、小動物や鳥類が含まれる。なお、音声データは、ＩＣレコーダ等の録音機によって録音され、当該録音機から取得することができる。
【００３０】
音声特徴量抽出部３０は、取得した音声データを所定の時間間隔で切り出すことによって切出音声データを生成する機能と、切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する機能とを有する。具体的には、前処理が施された音声データの時間軸波形について、昆虫等の鳴き声が含まれる時間領域を４ｍｓ単位の時間間隔で切り出すことにより、４ｍｓ単位の周波数スペクトルとして切出音声データを生成する。そして、この切出音声データに、ハニング窓の窓関数を掛けて、移動平均フィルタ処理を施した後、線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ；ＬＰＣ）による音声解析を行うことにより、ＬＰＣケプストラム係数のベクトルで表される音声特徴量を抽出する。ＬＰＣケプストラム係数としては、ＬＰＣケプストラムの１３次又は２６次の係数が用いられる。すなわち、１つの切出音声データに対して１３個又は２６個の音声特徴量を抽出することができる。なお、ＬＰＣケプストラムの各係数は、音声データにおける周波数スペクトルの周波数成分値を表している。
【００３１】
ここで、ＬＰＣケプストラムとは、音響の特徴量として用いられるものであり、音声の周波数の情報を圧縮する方法である。本実施形態では、音声特徴量としてＬＰＣケプストラム係数を用いたが、ケプストラム等その他の音響の特徴量を用いても構わない。また、移動平均フィルタ処理とは、所定のフィルタ関数を用いることにより、広域のスペクトル値を持ち上げて波形の特徴を捉えやすくする処理のことである。なお、この移動平均フィルタ処理は必ずしも施す必要はない。
【００３２】
学習識別部４０は、分類モデル生成部４１と分類識別部４２とからなり、本実施形態では、パターン認識の一つの手法であるサポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ；ＳＶＭ）によって、分類モデル生成部４１と分類識別部４２を実現することができる。ＳＶＭとは、データを２クラスに分類することができる識別手法である。この識別手法は、図３Ａに示すように、クラス１とクラス２の訓練サンプルの集合において、クラス１とクラス２の各データ点との距離が最大となる分離平面を求めるという、いわゆるマージン最大化という基準によって線形閾素子のパラメータを学習するものである。ＳＶＭは、いわゆる教師あり学習方法であり、まず、正解のベクトルと不正解のベクトルの集合を引数にして２クラスに分類された学習モデルを作成するものである。このＳＶＭの学習モデルの作成を応用することにより、本実施形態に係る分類モデル生成部４１を実現することができる。また、ＳＶＭによって、調べたいベクトルが学習モデルの２クラスのうちのどちらのクラスに分類されるかを識別する場合、調べたいベクトルと構築済みの学習モデルのベクトルとを引数にして再度学習させることにより、調べたいベクトルがどちらのクラスに分類されるかを識別することができる。このＳＶＭを用いた識別方法によって、本実施形態に係る分類識別部４２を実現することができる。なお、ＳＶＭは、ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）として提供されている。以下、本実施形態における分類モデル生成部４１と分類識別部４２とについて、さらに詳しく説明する。
【００３３】
まず、分類モデル生成部４１について説明する。本実施形態に係る分類モデル生成部４１は、カーネル関数を用いたパターン認識を用いて複数の音声特徴量を分類（クラスタリング）することにより、昆虫等の分類モデルを生成する機能を有する。本実施形態では、パターン認識として上述のＳＶＭを用いて、ＳＶＭによって複数の音声特徴量のデータを学習させることにより、昆虫等の科又は種についての分類に関する分類モデルを作成する。ここで、ＳＶＭにおいては、マージン最大化と線形分離が可能でないという問題を解決するためにカーネル学習法が用いられる。このカーネル学習法によって、入力ベクトル（音声特徴量）を非線形変換し、その空間において分離平面を求めることができる。カーネル学習法は、カーネル関数を用いるものであり、図３Ｂに示すように、カーネル関数によって入力ベクトル（クラス１とクラス２の集合）のパターンを高次元の特徴空間に写像し、この特徴空間上で平面により線形分離を行う手法である。なお、この高次元への特徴空間への写像をカーネルトリックと呼ぶ。本実施形態における音声解析においても、ＳＶＭにカーネル関数を用いる。また、カーネル関数として、式１で表されるガウシアン関数Ｋを用いる。
【００３４】
（式１）Ｋ（ｘ₁，ｘ₂）＝ｅｘｐ（−δ｜ｘ₁−ｘ₂｜²）
【００３５】
ここで、式１において、ｘ₁，ｘ₂は入力ベクトルであり、δは、式１の関数の拡がりを決定する任意のパラメータである。また、Ｋ（ｘ₁，ｘ₂）は、入力ベクトルｘ₁，ｘ₂を引数とするガウシアン型のカーネル関数である。なお、δは、分離平面に大きく影響を与えるので、δを一意的に決めてしまうと結果にばらつきが生じる。従って、本実施形態においては、δとして４つのパターン（δ＝５，１０，１００，２００）を用い、これによって得られる解析結果を平均化した。
【００３６】
なお、本実施形態では、音声特徴量として、ＬＰＣケプストラムの１３次又は２６次の係数を用いるが、これはどちらの係数を用いても構わない。但し、高次係数のＬＰＣケプストラムほど、細かい周波数包絡の情報を含むので、高次係数のＬＰＣケプストラムを用いた方が高い精度で音声解析をすることができる。但し、ＬＰＣは逐次的に係数を求めるものであるので、２６次の係数を用いる場合は、１３次の係数を用いる場合と比べて、およそ二倍の音声解析時間を要する。
【００３７】
以上のように、本実施形態に係る分類モデル生成部４１は、音声特徴量を示すＬＰＣケプストラムを入力ベクトルとしてＳＶＭを実行させることにより、昆虫等の分類の基本単位である種について、昆虫等を種ごとに分類した種の分類モデルを作成することができる。この場合、昆虫等を科ごとに分類した科の分類モデルを作成し、科の分類モデルを作成した際に使用した昆虫等の音声特徴量に基づいて種ごとに分類した種の分類モデルを作成する。なお、科ごと又は種ごとの分類モデルを作成する場合、異なる分類の昆虫等におけるＬＰＣケプストラムを複数抽出し蓄積しておく必要がある。
【００３８】
この分類モデルの作成について具体例を用いて詳述すると、例えば、コオロギ科、セミ科及びキリギリス科の３つの科の分類モデルを作成する場合、コオロギ科、セミ科及びキリギリス科それぞれの音声特徴量（ＬＰＣケプストラム係数）の入力ベクトルを複数含む集合において、まず、正解のベクトルであるコオロギ科の音声特徴量を入力ベクトルとしてＳＶＭを用いて学習させることにより、コオロギ科とコオロギ科以外の科の２クラスに分類されたコオロギ科の分類モデルを作成することができる。このコオロギ科の分類モデルは、識別対象の音声データの音声特徴量がコオロギ科であるかどうかを確かめる分類モデルである。同様にして、前記集合に対して、正解のベクトルであるセミ科の音声特徴量を入力ベクトルとして学習させることにより、セミ科とセミ科以外の科の２クラスに分類されたセミ科の分類モデルを作成することができる。このセミ科の分類モデルは、識別対象の音声データの音声特徴量がセミ科であるかどうかを確かめる分類モデルである。同様にして、前記集合に対して、正解のベクトルであるキリギリス科の音声特徴量を入力ベクトルとして学習させることにより、キリギリス科とキリギリス科以外の科の２クラスに分類されたキリギリス科の分類モデルを作成することができる。このキリギリス科の分類モデルは、識別対象の音声データの音声特徴量がキリギリス科であるかどうかを確かめる分類モデルである。このようにして、図４に示すように、コオロギ科、セミ科及びキリギリス科の３つの分類モデルを作成することができる。
【００３９】
また、科の分類モデルを作成した際に使用した音声特徴量を用いて、同様にして、昆虫等の種の分類モデルについても作成することができる。この場合、科の分類モデルがなされた特定の科の昆虫等の集合に対して種の分類モデルを作成する必要がある。例えば、セミ科の分類モデルについて、アブラゼミ、ヒグラシ及びクマゼミの３つの種の分類モデルを作成する場合、セミ科のみの音声特徴量を含む集合に対して、ＳＶＭを用いて学習する必要がある。なお、特定の科の分類モデルから種の分類モデルを作成する方法は、上述した科の分類モデルを作成する方法と同様であるので説明は省略する。すなわち、ある科の分類モデルにおいて、一の種と当該一の種以外の種とを分類する当該一の種の分類モデルを作成することができる。例えば、図４に示すように、セミ科の分類モデルについて、アブラゼミ、ヒグラシ及びクマゼミの３つの種それぞれの分類モデルを作成することができる。もちろん、セミ科は３種だけではないので、必要な種の数だけ種の分類モデルを作成することができる。同様にして、コオロギ科又はキリギリス科についても、科の下位概念である種について、種の分類モデルをそれぞれ作成することができる。
【００４０】
次に、本実施形態に係る分類識別部４２について説明する。分類識別部４２は、識別対象の音声データの音声特徴量を構築済みの上記分類モデルに基づいて分類（クラスタリング）することにより、識別対象の音声データがどの昆虫等の分類であるかを識別する機能を有する。つまり、識別対象の音声データの音声特徴量を、分類モデル生成部４１によって作成された科又は種の分類モデルに基づいて分類することにより、例えば、当該識別対象の音声データが、セミ科のアブラゼミという種であることを識別することができる。この分類識別部４２の識別についても、上述したＳＶＭによって行うことができる。
【００４１】
具体的には、識別対象の音声データについてＬＰＣケプストラム係数の音声特徴量を抽出し、この識別対象の音声データの音声特徴量と構築済みの特定の分類モデルにおける音声特徴量の集合とを入力ベクトルとしてＳＶＭによって学習させる。これにより、識別対象の音声データの音声特徴量が、当該特定の分類モデルにおける２クラスのうちのどちらのクラスに分類されるのかを判別でき、当該識別対象の音声データについて昆虫等の分類を識別することができる。また、当該音声特徴量は、複数の分類モデルのそれぞれに対して投入し識別を行う。例えば、識別対象の音声データが、コオロギ科、セミ科又はキリギリス科のどの科であるのかを識別する場合、識別対象の音声データの音声特徴量を３つの科の分類モデルそれぞれに対して識別させることにより、当該識別対象の音声データについて、それぞれの分類モデルに対する識別結果を得ることができる。これにより、識別対象の音声データが、どの科の昆虫であるかを識別することができる。
【００４２】
また、１つの識別対象の音声データに対して切出音声データが複数ある場合は、切出音声データの数に対応して複数の音声特徴量がある。この場合、複数の音声特徴量を入力ベクトルとして特定の１つの分類モデルに対して同時に投入して識別させると、得られる識別結果は、投入した複数の音声特徴量が当該特定の１つの分類に該当する確率（識別率）が算出される。
【００４３】
例えば、１つの識別対象の音声データから１００個の切出音声データを切り出し、この切出音声データから１００個の音声特徴量を抽出した場合について考える。このとき、まず、この１００個の音声特徴量をコオロギ科の分類モデルによって識別させた場合に、例えば、識別率が６％という識別結果が得られたとする。この識別結果は、６個の音声特徴量はコオロギ科であると分類され、９４個の音声特徴量はコオロギ科以外であると分類されたということである。次に、当該１００個の音声特徴量をセミ科の分類モデルによって識別させた場合に、例えば、識別率が９５％という識別結果が得られたとする。この識別結果は、９５個の音声特徴量はセミ科であると分類され、５個の音声特徴量はセミ科以外であると分類されたということである。最後に、当該１００個の音声特徴量をキリギリス科の分類モデルによって識別させた場合に、例えば、識別率が３％という識別結果が得られたとする。この識別結果は、３個の音声特徴量はキリギリス科であると分類され、９７個の音声特徴量はキリギリス科以外であると分類されたということである。このように、１つの識別対象の音声データから抽出した１００個の音声特徴量に対して、上記の３つの識別結果が得られたとすると、識別対象の音声データの音源は、識別率が最も高かったセミ科であると識別することができる。なお、これらの識別は、分類識別部４２によって同時に算出され、３つの識別率の識別結果は同時に出力される。
【００４４】
また、１つの音声データに複数の昆虫等の鳴き声が含まれているような場合は、次のような結果が得られる。先の例と同様に、識別対象の音声データから１００個の切出音声データを切り出し、この切出音声データから１００個の音声特徴量を抽出したとする。まず、この１００個の音声特徴量をコオロギ科の分類モデルによって識別させた場合に、識別率が８８％という識別結果が得られたとする。この識別結果は、８８個の音声特徴量はコオロギ科であると分類され、１２個の音声特徴量はコオロギ科以外であると分類されたということである。次に、当該１００個の音声特徴量をセミ科の分類モデルによって識別させた場合、識別率が７５％という識別結果が得られたとする。この識別結果は、７５個の音声特徴量はセミ科であると分類され、２５個の音声特徴量はセミ科以外と分類されたということである。最後に、当該１００個の音声特徴量をキリギリス科の分類モデルによって識別させた場合、識別率が５％という識別結果が得られたとする。この識別結果は、５個の音声特徴量はキリギリス科であると分類され、９５個の音声特徴量はキリギリス科以外であると分類されたということである。このように、複数の鳴き声が含まれた１つの識別対象の音声データに対して、上記の３つの識別結果が得られたとすると、識別率の高いコオロギ科とセミ科の２つの昆虫の鳴き声が１つの音声データに含まれているということが分かる。なお、以上の識別率は、所定の値を基準にして判断することができる。実験結果により、例えば、識別率が５０％以上であれば、該当する昆虫等が含まれていると判断することができる。また、これらの識別は、分類識別部４２によって同時に算出され、３つの識別率の識別結果は同時に出力される。
【００４５】
次に、前処理部２０について説明する。前処理部２０は、音声データ取得部１０で取得した音声データに対して、前処理を施す機能を有する。前処理としては、ステレオ処理、平均値除去処理及び振幅の正規化処理等があり、これらの全て又は一部を前処理として利用することができる。
【００４６】
ここで、ステレオ処理とは、音声データをステレオからモノラルにする処理である。音声データをＩＣレコーダで取得した場合はステレオの音声データとなるが、音声解析をしやすくするために、モノラルにすることが好ましい。また、平均値除去処理とは、取得した音声データが録音環境に依存されないように、全体の平均値を引いて、解析に不要な音声であるバイアスが付加されている状態をなくす処理である。この平均値除去処理により、直流成分を除去して交流成分のみを抽出し、解析に必要な音声データを抽出することができる。また、振幅の正規化処理とは、音声データを取得するごとに音声データの音量が異なっている場合があるので、取得した音声データ全体の振幅を増減させて、最大振幅を１つの所定の値にする処理である。
【００４７】
なお、これらの前処理は必ずしも必要な処理ではないが、音声解析の精度を高めるため、また、音声解析を容易にするためには、当該前処理を施すことが好ましい。また、音声解析の精度を高めたり音声解析を容易にするために必要なさらに別の前処理を施しても構わない。
【００４８】
識別結果出力部５０は、分類識別部４２によって識別された識別率等の識別結果を出力する機能を有する。識別結果出力部５０は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等のディスプレイで構成することができる。
【００４９】
次に、上記音声識別装置を用いた本発明の実施形態に係る音声識別方法について、図５〜図８を参照しながら説明する。
【００５０】
まず、本実施形態に係る音声識別方法の基本的なフローについて、図５を用いて説明する。図５は、本発明の実施形態に係る音声識別方法のフローチャートである。
【００５１】
図５に示すように、まず、昆虫等の鳴き声の音声データを取得する（Ｓ１００）。この音声データ取得ステップ（Ｓ１００）は、音声識別装置１００の音声データ取得部１０によって行われる。音声データは、昆虫等の分類に関する分類モデルを作成する目的で取得する場合と、昆虫等の科又は種を識別する目的で取得する場合とがある。あるいは、両方の目的で取得する場合がある。この音声データは、少なくとも１つの周波数スペクトルを含む所定時間の時間軸波形であり、音声データには複数種の昆虫等の鳴き声が含まれていてもよい。なお、音声データの音声ファイルの仕様としては、音声特徴量を抽出可能なものであることが好ましい。音声ファイルの仕様として、例えば、フォーマットをＷＡＶとし、サンプリングレートを４４．１ｋＨｚ、９６ｋＨｚとし、ビット数を１６ｂｉｔ、２４ｂｉｔとし、チャンネル数を１ｃｈ、２ｃｈとすることができる。サンプリングレートとして９６ｋＨｚの高い周波数を用いるのは、高い周波数の鳴き声を持つ昆虫の音声データを録音するためである。また、ビット数は、音声データを正確に認識するために、少なくとも１６ｂｉｔは必要である。
【００５２】
次に、取得した音声データに対して、上述のステレオ処理、平均値除去処理及び振幅の正規化処理等の前処理を施す（Ｓ２００）。なお、ステレオ処理をする際、音声のチャンネル数を調べて、１ｃｈであるならそのまま用い、２ｃｈであるなら音量の大きい方を採用して、１ｃｈに特定する。この前処理ステップ（Ｓ２００）は、音声識別装置１００の前処理部２０によって行われる。
【００５３】
次に、前処理を施した音声データから音声の特徴量を抽出する（Ｓ３００）。本実施形態では、音声の特徴量として１３次及び２６次のＬＰＣケプストラム係数を抽出する。この音声特徴量抽出ステップ（Ｓ３００）は、音声識別装置１００の音声特徴量抽出部３０によって行われる。なお、この処理の詳細については後述する。
【００５４】
次に、抽出した音声特徴量について、分類モデルを作成するか、あるいは、昆虫等の分類の識別を行うかを選択する（Ｓ４００）。この選択ステップ（Ｓ４００）は、音声識別装置１００のユーザインターフェース（不図示）によって、ユーザが適宜選択することができる。
【００５５】
そして、分類モデルを作成する場合は、音声特徴量に基づいて昆虫等の分類に関する分類モデルを作成する（Ｓ５００）。一方、昆虫等の分類を識別する場合は、作成された分類モデルに従って、識別対象である音声データの音声特徴量から昆虫等の分類の識別を行う（Ｓ６００）。なお、分類モデル作成ステップ（Ｓ５００）は、音声識別装置１００の分類モデル生成部４１によって行われ、分類識別ステップ（Ｓ６００）は、音声識別装置１００の分類識別部４２によって行われる。これらの処理についても後述する。
【００５６】
次に、図５に示す音声特徴量抽出ステップ（Ｓ３００）について、図６を用いて詳述する。図６は、本発明の実施形態に係る音声識別方法における音声特徴量抽出処理のフローチャートである。
【００５７】
まず、前処理が施された音声データの時間軸波形について、４ｍｓ単位の時間領域における時間間隔で周波数スペクトルを切り出して、４ｍｓ単位の周波数スペクトルである切出音声データを生成する（Ｓ３１０）。このように、４ｍｓという短時間で切り出したのは、取得した音声データ全体には複数種の昆虫等の音声が含まれている場合でも、可能な限り単体の昆虫等の音声特徴量を抽出するためである。つまり、複数の昆虫等が同時に鳴いている場合であっても、４ｍｓ単位の短時間間隔で切り出すことにより、単体の昆虫等の音声を抽出することができる。
【００５８】
次に、この切出音声データの最大振幅値が一定の閾値以上であるかどうかを判別する（Ｓ３２０）。この判別は、切り出した切出音声データの最大振幅値が一定の閾値以上である場合は、昆虫等の鳴き声の成分があるとみなして、以降の音声分析処理が可能であると判断するものである。一定の閾値としては、例えば、切り出した部分の平均振幅値が音声データ全体の平均振幅値よりも大きくなるように設定することができる。
【００５９】
そして、切出音声データの最大振幅値が一定の閾値以上である場合は、次のステップ（Ｓ３３０）に進む。一方、切出音声データの最大振幅値が一定の閾値未満の場合は、昆虫等の鳴き声成分がないものとして、音声データの特徴量の抽出をスキップさせて、ステップ（Ｓ３７０）に進む。
【００６０】
切出音声データの最大振幅値が一定の閾値以上である場合、４ｍｓ単位の切出音声データに所定の窓関数を掛ける（Ｓ３３０）。これにより、切出音声データにおいて、所望の有限区間外の値はゼロとし、所望の有限区間内だけの値とすることができる。また、本実施形態の窓関数としては、ハニング窓を用いる。なお、窓関数としては、ハニング窓の他に、ハミング窓やブラックマン窓等を用いても構わない。
【００６１】
次に、ハニング窓を掛けた切出音声データに対して移動平均フィルタ処理を施す（Ｓ３４０）。この移動平均フィルタ処理は、所定のフィルタ関数を用いることにより、広域のスペクトル値を持ち上げて波形の特徴を捉えやすくする処理である。なお、移動平均フィルタ処理は必ずしも施す必要はなく、必要に応じて施すことができる。
【００６２】
次に、線形予測符号（ＬＰＣ）による音声解析を行って、ＬＰＣケプストラム係数の音声特徴量を抽出する（Ｓ３５０）。本実施形態では、上述のとおり、ＬＰＣケプストラム係数として、ＬＰＣケプストラムの１３次又は２６次の係数を抽出し、これを音声特徴量とする。なお、音声特徴量としては、このＬＰＣケプストラム係数をベクトルで表している。これにより、１つの切出音声データに対応する１３個又は２６個の音声特徴量を抽出することができる。
【００６３】
次に、これまでに抽出した音声特徴量の総数が所望の個数以上となっているかどうかを判別する（Ｓ３６０）。この判別は、これまでに抽出した音声特徴量の総数が後の分類モデル作成に十分であるかどうかを判別するために行う。なお、分類モデルを作成するためには、１回の音声特徴量の抽出により得られる１３個又は２６個のＬＰＣケプストラム係数だけで可能ではあるが、音声特徴量の数は多い方が、正確な分類モデルを作成することができる。
【００６４】
そして、音声特徴量の総数が所望の個数以上となっている場合は、音声の特徴量を抽出する処理（Ｓ３００）は終了する。
【００６５】
一方、音声特徴量が所望の個数未満の場合は、先に切り出した４ｍｓの切り出し開始時点から３ｍｓ進めて（Ｓ３７０）、次の４ｍｓの時間間隔で音声データを切り出す（Ｓ３１０）。すなわち、先に切り出した時間間隔と１ｍｓオーバーラップさせて次の切り出しを行う。図７においては、音声データを切り出す切出期間（４ｍｓ）と上記のスキップ期間とが交互に繰り返される場合について示してあるが、切出期間が連続して存在する場合もある。本実施形態において、切出期間を１ｍｓオーバーラップさせたのは、時間分解能を上げるためであり、これにより、短時間をより詳細に分析することができる。なお、音声データの切り出しは、所望の個数の音声特徴量が蓄積されるまで、上記と同様の処理が繰り返される。本実施形態においては、１００個程度の音声特徴量を蓄積させた。
【００６６】
また、上述のとおり、切出音声データの最大振幅値が一定の閾値未満の場合にも、先に切り出した４ｍｓの切り出し開始時点から３ｍｓ進めて（Ｓ３７０）、次の４ｍｓの時間間隔で音声データを切り出し（Ｓ３１０）、以降同様の処理を行う。
【００６７】
以上、このような音声特徴量の抽出処理は、分類モデルを作成する場合だけではなく、学習に用いる音声データに対しても行われる。この場合、学習に用いる際の音声特徴量の抽出処理も分類モデルを作成する際の音声特徴量の抽出処理も同様の方法によって行うことができる。但し、学習に用いる場合の音声データとしては、雑音が入っていないものを用いることが好ましい。
【００６８】
以上により、分類モデルを作成するために必要な音声特徴量を抽出することができる。また、識別対象の音声データについての音声特徴量を抽出することができる。
【００６９】
次に、図５に示す、音声特徴量から分類モデルを作成する処理（Ｓ５００）について、図８を用いて詳述する。図８は、本発明の実施形態に係る音声識別方法における分類モデル作成処理のフローチャートである。
【００７０】
図８に示すように、昆虫等の科又は種の分類に関する分類モデルを作成するには、まず、ＳＶＭを用いて、音声特徴量抽出処理（Ｓ３００）で抽出した音声特徴量に基づいて、科ごとに分類モデルを作成する（Ｓ５１０）。具体的には、ＳＶＭにおける訓練サンプルとして複数の音声特徴量を用意し、音声特徴量の集合をマージン最大化という基準によって線形閾素子のパラメータを学習させる。これにより、音声特徴量の集合について、昆虫等の科ごとに分けられた分類モデルを作成することができる。なお、音声特徴量としては、音声特徴量抽出処理（Ｓ３００）で抽出したＬＰＣケプストラムの１３次又は２６次の係数を用いる。また、学習には、上述のカーネル学習法が用いられる。カーネル関数としては、上述のとおりガウシアン関数を用い、パラメータδとして、δ＝５，１０，１００，２００の４パターンを用意して平均値化を行う。
【００７１】
次に、科の分類モデルを作成する際に用いた音声特徴量に基づいて、ＳＶＭを用いた上記と同様の手法によって、種ごとの分類モデルを作成する（Ｓ５２０）。すなわち、科ごとに分類された分類モデルを基に、さらに、種ごとに分類する種の分類モデルを作成する。これにより、生物の基本単位である種の分類モデルと、種の上位概念である科の分類モデルとを階層的に作成することができる。
【００７２】
以上により、昆虫等について科ごと又は種ごとの分類モデルを作成することができる。なお、具体的な分類モデルの作成については、音声識別装置１００の分類モデル生成部４１の説明において詳しく説明したので、ここでは省略する。
【００７３】
次に、図５に示す、識別対象の音声データの音声特徴量から昆虫等の分類の識別を行う処理（Ｓ６００）について詳述する。
【００７４】
識別対象の音声データがどの昆虫等の分類であるかの識別をする場合、分類モデル作成ステップ（Ｓ５００）によって作成された昆虫等の分類に関する分類モデルに従って、識別対象の音声データの識別を行う。ここで、識別対象の音声データは、音声特徴量抽出ステップ（Ｓ３００）によって音声特徴量が抽出される。この識別対象の音声データの音声特徴量を、構築済みの科又は種の分類モデルに基づいて分類することにより、当該識別対象の音声データが、どの科又はどの種の昆虫等であるかということを識別することができる。なお、この識別は、上述したＳＶＭを用いて行うことができる。すなわち、識別対象の音声データについてＬＰＣケプストラムの音声特徴量を抽出し、この識別対象の音声データの音声特徴量と構築済みの特定の分類モデルの音声特徴量の集合とを入力ベクトルとしてＳＶＭによって学習させる。これにより、識別対象の音声データの音声特徴量が当該特定の分類モデルのどのクラスに分類されるかを判別することができる。また、複数の分類モデルのそれぞれに対して当該音声特徴量を投入し判別させる。これにより、識別対象の音声データについて、昆虫等の分類を識別することができる。なお、具体的な分類識別方法については、音声識別装置１００の分類識別部４２の説明において詳しく説明したので、ここでは省略する。
【００７５】
以上のようにして、本発明の実施形態に係る音声識別方法では、取得した音声データの音源について昆虫等の種を識別することができる。なお、識別結果については、必要に応じて、所定の端末装置に出力して表示することができる。
【００７６】
次に、実際に昆虫の鳴き声の音声データを入手し、上記の本発明に係る音声識別装置及び音声識別方法を用いて当該音声データの種の識別を行ったので、その識別結果について表１及び表２を用いて説明する。表１は、本発明の実施形態に係る音声識別方法において使用した昆虫の種の数と音声データのサンプル数を表している。また、表２は、本発明の実施形態に係る音声識別方法による識別結果を表している。なお、識別の評価として、クロスバリデーションを用いた。すなわち、サンプル全体をｎセットとし、ｎ−１セットを用いて分類モデルを構築し、残りの１セットを分類モデルの評価のために識別対象用として用いた。また、本実施例において、昆虫の鳴き声としては、コオロギ亜科とセミ科の音声データを採取し録音した。なお、表２において、「ＬＰＣ１３次」及び「ＬＰＣ２６次」とは、それぞれＬＰＣケプストラムの１３次及び２６次の係数を用いて分類モデルを作成した場合を表している。また、切り出し時間等全ての条件は、上述した条件と同じである。
【００７７】
【表１】

【００７８】
【表２】

【００７９】
表１及び表２に示すように、コオロギ亜科もセミ科についても、全ての種について識別することができた。しかも、９６％以上の高い精度の識別率で種の識別ができていることが分かった。また、識別率は、ＬＰＣケプストラムの１３次の係数を用いた場合よりも、２６次の係数を用いた場合の方が高いことも分かった。なお、キリギリスについて識別を行わなかったのは、キリギリス科の正解ベクトルとなる音源を入手することができなかったからである。
【００８０】
以上、本発明の実施形態に係る音声識別装置及び音声識別方法は、取得した音声データを所定の時間間隔で切り出して音声解析するものであるので、複数の昆虫等が鳴いていても種の識別をすることができる。また、４ｍｓという短時間で音声データを切り出すことにより、９８％以上の高い精度で昆虫等を分類することができる。
【００８１】
次に、本発明の実施形態に係る音声識別システムについて図９を用いて説明する。図９は、本発明の実施形態に係る音声識別システムのシステム全体構成を示す図ある。
【００８２】
図９に示すように、本発明の実施形態に係る音声識別システムは、昆虫等の音声データに基づいて昆虫等の分類を識別するためのシステムであって、音声データの音声解析を行うとともに音声データを蓄積するサーバ１と、音声データを取得するための端末装置２とを有する。なお、サーバ１と端末装置２とは伝送路３によって接続されている。
【００８３】
サーバ１は、図９に示すように、音声識別装置１００と、音声データＤＢ２００と、Ｗｅｂコンテンツ管理システム３００とを備える。
【００８４】
音声識別装置１００は、昆虫等の音声データを取得し、これを音声解析することによって当該音声データについて昆虫等の分類を識別する装置である。音声識別装置１００の構成、機能及び動作は、上述の本発明の実施形態に係る音声識別装置１００と同じであるので、その説明は省略する。
【００８５】
音声データＤＢ２００は、音声識別装置１００によって識別された音声データを登録し蓄積するものである。
【００８６】
Ｗｅｂコンテンツ管理システム３００は、Ｗｉｋｉシステムによって構成されている。Ｗｉｋｉシステムは、ユーザが端末装置のＷｅｂブラウザから容易にウェブページを作成又は編集することができるＷｅｂコンテンツ管理システムであって、ある種のコンピュータソフトウェア又はシンプルオンラインデータベースである。Ｗｉｋｉシステム又はＷｉｋｉシステムを用いて作成された文書群のことをＷｉｋｉ（ウィキ）と呼ぶ場合もある。本実施形態では、Ｗｅｂコンテンツ管理システム３００として、ＰｕｋｉＷｉｋｉを用いてＷｉｋｉを作成する。ＰｕｋｉＷｉｋｉを用いる利点として、漢字などの２バイト文字を扱える点、定期的な自動バックアップが可能である点、画像などのバイナリファイルを各ページに添付することが可能である点等がある。
【００８７】
端末装置２は、昆虫等の音声データを取得するデータ取得部と、サーバ１のＷｅｂコンテンツ管理システム３００のＷｅｂページを閲覧したりＷｉｋｉを編集したりするためのＷｅｂブラウザと、データ取得部及びＷｅｂブラウザを制御するための制御部等を備える。なお、端末装置２は、例えば、パーソナルコンピュータ（ＰＣ）である。
【００８８】
伝送路３は、インターネット、ＣＡＴＶ（ＣａｂｌｅＴｅｌｅｖｉｓｉｏｎ）、放送波等の有線伝送媒体又は無線伝送媒体等であり、サーバ１と端末装置２の間をそれぞれデータ交換可能に接続するものである。
【００８９】
次に、本発明の実施形態に係る音声識別システムの全体のフローについて説明する。
【００９０】
まず、ユーザは、ＩＣレコーダ等の録音機４によって、ある地域に生息する昆虫等の鳴き声を録音する。そして、端末装置２のデータ取得部によって、この昆虫等の鳴き声の音声データを端末装置２に取り込む。
【００９１】
次に、ユーザは、取り込んだ音声データを伝送路３を通じてサーバ１に伝送する。このとき、音声データは、ＷｅｂブラウザによってＷｅｂコンテンツ管理システム３００を介してサーバ１にアップロードされる。
【００９２】
アップロードされた音声データは、音声識別装置１００によって分類モデル作成のために利用される。あるいは、アップロードされた音声データは、音声識別装置１００によって作成された構築済みの分類モデルに従って、昆虫等の科又は種の分類の識別がなされる。
【００９３】
昆虫等の種が識別された音声データの識別結果は、伝送路３を介して端末装置２に伝送され、Ｗｅｂブラウザによって端末装置２に表示される。識別された音声データは、音声データＤＢ２００に送信されて登録される。また、音声データＤＢ２００に登録された音声データは、分類モデル作成のための音声識別装置１００に送信される。
【００９４】
なお、ユーザが過去の音声データを閲覧したい場合には、端末装置２からの要求により、Ｗｅｂコンテンツ管理システム３００を介して、音声データＤＢ２００に登録された音声データを端末装置２のＷｅｂブラウザによって閲覧することができる。
【００９５】
以上、本発明の実施形態に係る音声識別システムにおいては、端末装置２は１つとして説明したが、複数の端末装置２によって音声識別システムを構成することが好ましい。この場合、複数の端末装置２は、日本全国又は世界の各地に配置することが好ましい。これにより、日本全国又は世界の広い範囲の地域の音声データを取得することができるので、これらの音声データからその場所の昆虫等の種を識別することによって、広範囲における昆虫等の分布を調査することができる。そして、広範囲の昆虫等の分布を調査することにより、地域の環境の変化を知ることができる。
【００９６】
また、本実施形態では、専用のコンテンツ管理システム（ＣＭＳ；ＣｏｎｔｅｎｔｓＭａｎｅｇｅｍｅｎｔＳｙｓｔｅｍ）を構築するのではなく、既存のＷｉｋｉ技術によるＷｉｋｉシステムを用いた。これにより、誰でも簡単に本実施形態に係る音声識別システムを利用することができ、容易に音声データを収集及び解析することができる。
【００９７】
以上、本発明に係る音声識別装置、音声識別方法及び音声識別システムについて、それぞれ実施形態を説明したが、本発明は、これらの実施形態に限定されるものではない。その他、各実施形態に対して当業者が思いつく各種変形を施して得られる形態や、本発明の趣旨を逸脱しない範囲で各実施形態における構成要素及び機能を任意に組み合わせることで実現される形態も本発明に含まれる。
【００９８】
例えば、上記実施形態に係る音声識別装置において、音声データを切り出す際、４ｍｓの時間間隔で切り出したが、音声データの切り出し方法はこれに限らない。音声データの切り出しは、単体の昆虫等の音声データとなるように切り出すことが好ましく、例えば、音声データの周波数が２周期以上含むように音声データを切り出して切出音声データを生成するようにしても構わない。
【００９９】
また、上記実施形態では、昆虫等の分類として科の分類について説明したが、科以外に亜科又は上科の分類でも同様である。また、種についても同様で、亜種の分類にも適用できる。それ以外の生物学上の分類に適用できる。
【０１００】
また、上記実施形態に係る音声識別装置１００及び音声識別システムを構成する機能構成の一部又は全部は、ＲＯＭ若しくはＲＡＭ等のメモリ、又はマイクロプロセッサ等の既知のハードウェアで構成することができる。また、メモリには各処理を実行するための所定のコンピュータプログラムが記憶されており、各構成要素及び各処理は、マイクロプロセッサがコンピュータプログラムに従って動作することにより、その機能を達成することができる。
【０１０１】
また、本発明に係る音声識別方法については、コンピュータによって実行させるコンピュータプログラムによって構成することもできる。また、当該音声識別方法のコンピュータプログラムについては、コンピュータによって読み取り可能な記録媒体に記録してもよい。記憶媒体としては、磁気ディスク、光ディスク、光磁気ディスク、ＩＣカード、半導体メモリ等があり、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）がある。
【産業上の利用可能性】
【０１０２】
本発明に係る音声識別装置、音声識別方法及び音声識別システムは、昆虫等の音声データに基づいて、昆虫等の種を識別するために有用である。
【符号の説明】
【０１０３】
１サーバ
２端末装置
３伝送路
４録音機
１０音声データ取得部
２０前処理部
３０音声特徴量抽出部
４０学習識別部
４１分類モデル生成部
４２分類識別部
５０識別結果出力部
１００音声識別装置
２００音声データＤＢ
３００Ｗｅｂコンテンツ管理システム

【特許請求の範囲】
【請求項１】
昆虫の音声データ又は１ｋＨｚ以上の周波数で１種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別装置であって、
前記昆虫又は前記動物から音声データを取得する音声データ取得部と、
前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出部と、
カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成部と、
識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別部と
を備える音声識別装置。
【請求項２】
前記所定の時間間隔が４ｍｓである
請求項１に記載の音声識別装置。
【請求項３】
前記音声特徴量抽出部は、前記所定の時間間隔で切り出した前記切出音声データの最大振幅値が一定値以下の場合、所定時間経過後に、前記所定の時間間隔で前記音声データを切り出して切出音声データを生成する
請求項１又は請求項２に記載の音声識別装置。
【請求項４】
前記分類モデル生成部は、前記昆虫又は前記動物の科ごとに分類モデルを生成し、
前記分類識別部は、科ごとの前記分類モデルに従って前記昆虫又は前記動物の科を識別する
請求項１〜３のいずれか１項に記載の音声識別装置。
【請求項５】
前記分類モデル生成部は、科ごとに分類された前記分類モデルにおける前記音声特徴量に基づいて、さらに種ごとの分類モデルを生成し、
前記分類識別部は、種ごとの前記分類モデルに従って前記昆虫又は前記動物の種を識別する
請求項４に記載の音声識別装置。
【請求項６】
前記分類モデル生成部及び前記分類識別部は、サポートベクターマシンにより構成される
請求項１〜５のいずれか１項に記載の音声識別装置。
【請求項７】
前記窓関数がハニング窓である
請求項１〜６のいずれか１項に記載の音声識別装置。
【請求項８】
前記音声特徴量が、線形予測符号ケプストラムの１３次又は２６次の係数である
請求項１〜７のいずれか１項に記載の音声識別装置。
【請求項９】
さらに、ステレオ処理、平均値除去処理及び振幅の正規化処理の少なくともいずれか１つの前処理を行う前処理部を備える
請求項１〜８のいずれか１項に記載の音声識別装置。
【請求項１０】
請求項１〜９のいずれか１項に記載の音声識別装置とＷｅｂコンテンツ管理システムとを備えるサーバ、及び、音声データを取得する端末装置を有する音声識別システムであって、
前記サーバは、前記端末装置によって取得した前記音声データを前記Ｗｅｂコンテンツ管理システムを介して前記音声識別装置によって音声解析することにより、昆虫又は動物の分類を識別する音声識別システム。
【請求項１１】
昆虫の音声データ又は１ｋＨｚ以上の周波数で１種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別方法であって、
前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、
前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、
カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成ステップと、
識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップと
を含む音声識別方法。
【請求項１２】
昆虫の音声データ又は１ｋＨｚ以上の周波数で１種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別するためのプログラムであって、
前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、
前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、
カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物を分類に関する分類モデルを生成する分類モデル生成ステップと、
識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップと
をコンピュータによって実行させるプログラム。
【請求項１３】
請求項１２に記載のプログラムが記録されたコンピュータに読み取り可能な記録媒体。

【図１】

【図２】

【図３Ａ】

【図３Ｂ】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【公開番号】特開２０１１−１５４１３０（Ｐ２０１１−１５４１３０Ａ）
【公開日】平成２３年８月１１日（２０１１．８．１１）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 音声の識別または探索 (1,500)
        
        未知音声と標準パタンとの距離または歪みを用いるもの (838)
      - 標準パタンの作成；音声認識システムの学習，例．話者適応 (725)
- 測定；試験 (294,940)
  - 機械振動または超音波，音波または亜音波の測定 (1,729)
    - 流体中で検出器を作動させる振動の測定 (349)

【出願番号】特願２０１０−１４７３７（Ｐ２０１０−１４７３７）
【出願日】平成２２年１月２６日（２０１０．１．２６）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　（発行所）エンタテインメントコンピューティング２００９実行委員会、（刊行物名）エンタテインメントコンピューティング２００９（ＥＣ２００９）論文集、（発行日）２００９年９月１６日、において発表
【出願人】（５０４１６０７８１）国立大学法人金沢大学 (282)
【Ｆターム（参考）】

[ Back to top ]

音声識別装置及びこれを用いた音声識別システム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

音声識別装置及びこれを用いた音声識別システム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク