音声識別装置及びこれを用いた音声識別システム
【課題】複数の昆虫又は複数の動物が鳴いている場合でも、昆虫又は動物の分類を識別することができる音声識別装置及び音声識別方法並びに音声識別システムを提供する。
【解決手段】昆虫又は動物から音声データを取得する音声データ取得部10と、音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出部30と、カーネル関数を用いたパターン認識を用いることにより、複数の前記音声特徴量に基づいて昆虫又は動物を分類するための分類モデルを生成する分類モデル生成部41と、識別対象の音声データの音声特徴量を分類モデルによって分類することにより、当該識別対象の音声データについての昆虫又は動物の分類を識別する分類識別部42とを備える。
【解決手段】昆虫又は動物から音声データを取得する音声データ取得部10と、音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出部30と、カーネル関数を用いたパターン認識を用いることにより、複数の前記音声特徴量に基づいて昆虫又は動物を分類するための分類モデルを生成する分類モデル生成部41と、識別対象の音声データの音声特徴量を分類モデルによって分類することにより、当該識別対象の音声データについての昆虫又は動物の分類を識別する分類識別部42とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、昆虫又は動物の音声に基づいて当該昆虫又は動物の分類を識別する音声識別装置及び音声識別システム、並びに音声識別方法に関する。
【背景技術】
【0002】
昆虫の生態に関しては、温暖化の影響及び輸送技術の発達により、ある地域に従来から生息する在来種に加えて、外来種といわれるその地域に本来見られないはずの種の昆虫が日本全国又は世界各地で見られるようになっている。このため、昆虫の生息分布を調査することは、その地域の環境の変化を捉える大きな手がかりになると考えられる。特に、昆虫は、直接捕まえなくても鳴き声によって存在を確認することができるので、昆虫の鳴き声は、環境指標の一つとして期待されている。従って、昆虫の鳴き声から当該昆虫の種を識別する音声識別方法の開発が要望されている。
【0003】
ところで、鳴く昆虫といえばセミが挙げられるが、従来、セミの種を識別することができる音声識別方法が提案されている。
【0004】
このセミの音声識別方法は、同じような鳴き声のセミであったとしても、セミの鳴き声の音声データを音声解析することによってセミの種を判別することができるというものである。
【0005】
具体的には、エゾゼミ、アカエゾゼミ及びコエゾゼミの3種のセミの鳴き声は、人間の耳で聞くといずれも同じように聞こえるので、人間の聴覚によってこの3種のセミを区別することは難しい。しかし、この3種のセミの鳴き声は周波数特性がそれぞれ異なるので、これを利用することにより、取得したセミの音声データを音声解析して周波数特性を抽出することにより、予め準備した3種のセミの周波数特性と照合することによって、セミの種を判別することができる。なお、各セミの周波数特性は、ピーク周波数、平均周波数又はパルス頻度によって特徴付けられる。
【0006】
また、音源が昆虫の鳴き声ではないが、音源の周波数分布を検出して所定の特性周波数パターンを抽出し、このパターンを予め設定された基準パターンと照合することにより、音源の種類を識別する音源識別装置も提案されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平5−187910号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、従来の音声識別方法では、複数の昆虫又は複数の動物が同時に鳴いているような場合は、昆虫又は動物の分類を識別することができないという問題がある。
【0009】
本発明は、上記問題を解決するためになされたものであり、複数の昆虫又は複数の動物が鳴いている場合でも、昆虫又は動物の分類を識別することができる音声識別装置及び音声識別システム、並びに音声識別方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記問題を解決するために、本発明に係る音声識別装置の一態様は、昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別装置であって、前記昆虫又は前記動物から音声データを取得する音声データ取得部と、前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出部と、カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成部と、識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別部とを備えるものである。
【0011】
さらに、本発明に係る音声識別装置の一態様において、前記所定の時間間隔が4msであることが好ましい。
【0012】
さらに、本発明に係る音声識別装置の一態様において、前記音声特徴量抽出部は、前記所定の時間間隔で切り出した前記切出音声データの最大振幅値が一定値以下の場合、所定時間経過後に、前記所定の時間間隔で前記音声データを切り出して切出音声データを生成することが好ましい。
【0013】
さらに、本発明に係る音声識別装置の一態様において、前記分類モデル生成部は、前記昆虫又は前記動物の科ごとに分類モデルを生成し、前記分類識別部は、科ごとの前記分類モデルに従って前記昆虫又は前記動物の科を識別することが好ましい。
【0014】
さらに、本発明に係る音声識別装置の一態様において、前記分類モデル生成部は、科ごとに分類された前記分類モデルにおける前記音声特徴量に基づいて、さらに種ごとの分類モデルを生成し、前記分類識別部は、種ごとの前記分類モデルに従って前記昆虫又は前記動物の種を識別することが好ましい。
【0015】
さらに、本発明に係る音声識別装置の一態様において、前記分類モデル生成部及び前記分類識別部は、サポートベクターマシンにより構成されることが好ましい。
【0016】
さらに、本発明に係る音声識別装置の一態様において、前記窓関数がハニング窓であることが好ましい。
【0017】
さらに、本発明に係る音声識別装置の一態様において、前記音声特徴量が、線形予測符号ケプストラムの13次又は26次の係数であることが好ましい。
【0018】
さらに、本発明に係る音声識別装置の一態様において、ステレオ処理、平均値除去処理及び振幅の正規化処理の少なくともいずれか1つの前処理を行う前処理部を備えることが好ましい。
【0019】
また、本発明に係る音声識別システムの一態様は、上記の本発明に係る音声識別装置とWebコンテンツ管理システムとを備えるサーバ、及び、音声データを取得する端末装置を有する音声識別システムであって、前記サーバは、前記端末装置によって取得した前記音声データを前記Webコンテンツ管理システムを介して前記音声識別装置によって音声解析することにより、昆虫又は動物の分類を識別するものである。
【0020】
また、本発明に係る音声識別方法の一態様は、昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別方法であって、前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成ステップと、識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップとを含むものである。
【0021】
また、本発明に係るプログラムの一態様は、昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別するためのプログラムであって、前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物を分類に関する分類モデルを生成する分類モデル生成ステップと、識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップとをコンピュータによって実行させるものである。
【0022】
また、本発明に係る記録媒体の一態様は、上記プログラムが記載されたコンピュータに読み取り可能なものである。
【発明の効果】
【0023】
本発明に係る音声識別装置及び音声識別方法によれば、複数の昆虫又は複数の動物が鳴いている場合でも、昆虫又は動物の分類を識別することができる。
【0024】
また、本発明に係る音声識別システムによれば、全国の昆虫の音声データを容易に取得できるので、広範囲の昆虫の生息分布を調査することができ、広範囲の環境変化を容易に捉えることができる。
【図面の簡単な説明】
【0025】
【図1】図1は、本発明の実施形態に係る音声識別装置の特徴的な機能構成を示すブロック図である。
【図2】図2は、キリギリス科、セミ科及びコオロギ上科の各昆虫のピーク周波数及び周波数帯域を示す図である。
【図3A】図3Aは、サポートベクターマシンのマージン最大化の概念を示す図である。
【図3B】図3Bは、カーネルトリックの概念を示す図である。
【図4】図4は、本発明の実施形態に係る音声識別方法によって作成された分類モデルの概念を示す図である。
【図5】図5は、本発明の実施形態に係る音声識別方法のフローチャートである。
【図6】図6は、本発明の実施形態に係る音声識別方法における音声特徴量抽出処理のフローチャートである。
【図7】図7は、本発明の実施形態に係る音声識別方法における音声特徴量抽出処理の処理方法を示す図である。
【図8】図8は、本発明の実施形態に係る音声識別方法における分類モデル作成処理のフローチャートである。
【図9】図9は、本発明の実施形態に係る音声識別システムのシステム全体構成を示す図である。
【発明を実施するための形態】
【0026】
以下、本発明の実施形態に係る音声識別装置、音声識別方法及び音声識別システムについて説明する。
【0027】
まず、本発明の実施形態に係る音声識別装置について、図1を用いて説明する。図1は、本発明の実施形態に係る音声識別装置100の特徴的な機能構成を示すブロック図である。
【0028】
本発明の実施形態に係る音声識別装置100は、昆虫又は動物の音声データに基づいて、当該昆虫又は動物における科又は種等の分類を識別するものであり、図1に示すように、音声データ取得部10、音声特徴量抽出部30、及び、分類モデル生成部41と分類識別部42とを含む学習識別部40を備える。また、本発明の実施形態に係る音声識別装置100は、前処理部20及び識別結果出力部50を備えていてもよい。
【0029】
音声データ取得部10は、昆虫又は動物(以下、「昆虫等」とも記載する)から、当該昆虫等の鳴き声についての音声データを取得する機能を有する。ここで、音声データとして取得する情報は、昆虫等の鳴き声を時間軸波形として表したものである。また、本実施形態において、科又は種等の分類を識別する対象(以下、「識別対象」と記載する)の昆虫は、鳴き声を発する昆虫であり、例えば、キリギリス科、セミ科及びコオロギ上科の昆虫を用いることができる。図2に示すように、キリギリス科、セミ科及びコオロギ上科の各昆虫は、科によってそれぞれ異なったピーク周波数及び周波数帯域の鳴き声を発する。また、同一の科の昆虫であっても、その種によってそれぞれ異なった個々の鳴き声を有し、それぞれ異なったピーク周波数の鳴き声を発する。また、本実施形態において、識別対象の動物は、1kHz以上の周波数で1種類の音声を発する動物である。この動物には、小動物や鳥類が含まれる。なお、音声データは、ICレコーダ等の録音機によって録音され、当該録音機から取得することができる。
【0030】
音声特徴量抽出部30は、取得した音声データを所定の時間間隔で切り出すことによって切出音声データを生成する機能と、切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する機能とを有する。具体的には、前処理が施された音声データの時間軸波形について、昆虫等の鳴き声が含まれる時間領域を4ms単位の時間間隔で切り出すことにより、4ms単位の周波数スペクトルとして切出音声データを生成する。そして、この切出音声データに、ハニング窓の窓関数を掛けて、移動平均フィルタ処理を施した後、線形予測符号(Linear Predictive Coding;LPC)による音声解析を行うことにより、LPCケプストラム係数のベクトルで表される音声特徴量を抽出する。LPCケプストラム係数としては、LPCケプストラムの13次又は26次の係数が用いられる。すなわち、1つの切出音声データに対して13個又は26個の音声特徴量を抽出することができる。なお、LPCケプストラムの各係数は、音声データにおける周波数スペクトルの周波数成分値を表している。
【0031】
ここで、LPCケプストラムとは、音響の特徴量として用いられるものであり、音声の周波数の情報を圧縮する方法である。本実施形態では、音声特徴量としてLPCケプストラム係数を用いたが、ケプストラム等その他の音響の特徴量を用いても構わない。また、移動平均フィルタ処理とは、所定のフィルタ関数を用いることにより、広域のスペクトル値を持ち上げて波形の特徴を捉えやすくする処理のことである。なお、この移動平均フィルタ処理は必ずしも施す必要はない。
【0032】
学習識別部40は、分類モデル生成部41と分類識別部42とからなり、本実施形態では、パターン認識の一つの手法であるサポートベクターマシン(Support Vector Machine;SVM)によって、分類モデル生成部41と分類識別部42を実現することができる。SVMとは、データを2クラスに分類することができる識別手法である。この識別手法は、図3Aに示すように、クラス1とクラス2の訓練サンプルの集合において、クラス1とクラス2の各データ点との距離が最大となる分離平面を求めるという、いわゆるマージン最大化という基準によって線形閾素子のパラメータを学習するものである。SVMは、いわゆる教師あり学習方法であり、まず、正解のベクトルと不正解のベクトルの集合を引数にして2クラスに分類された学習モデルを作成するものである。このSVMの学習モデルの作成を応用することにより、本実施形態に係る分類モデル生成部41を実現することができる。また、SVMによって、調べたいベクトルが学習モデルの2クラスのうちのどちらのクラスに分類されるかを識別する場合、調べたいベクトルと構築済みの学習モデルのベクトルとを引数にして再度学習させることにより、調べたいベクトルがどちらのクラスに分類されるかを識別することができる。このSVMを用いた識別方法によって、本実施形態に係る分類識別部42を実現することができる。なお、SVMは、API(Application Programming Interface)として提供されている。以下、本実施形態における分類モデル生成部41と分類識別部42とについて、さらに詳しく説明する。
【0033】
まず、分類モデル生成部41について説明する。本実施形態に係る分類モデル生成部41は、カーネル関数を用いたパターン認識を用いて複数の音声特徴量を分類(クラスタリング)することにより、昆虫等の分類モデルを生成する機能を有する。本実施形態では、パターン認識として上述のSVMを用いて、SVMによって複数の音声特徴量のデータを学習させることにより、昆虫等の科又は種についての分類に関する分類モデルを作成する。ここで、SVMにおいては、マージン最大化と線形分離が可能でないという問題を解決するためにカーネル学習法が用いられる。このカーネル学習法によって、入力ベクトル(音声特徴量)を非線形変換し、その空間において分離平面を求めることができる。カーネル学習法は、カーネル関数を用いるものであり、図3Bに示すように、カーネル関数によって入力ベクトル(クラス1とクラス2の集合)のパターンを高次元の特徴空間に写像し、この特徴空間上で平面により線形分離を行う手法である。なお、この高次元への特徴空間への写像をカーネルトリックと呼ぶ。本実施形態における音声解析においても、SVMにカーネル関数を用いる。また、カーネル関数として、式1で表されるガウシアン関数Kを用いる。
【0034】
(式1) K(x1,x2)=exp(−δ|x1−x2|2)
【0035】
ここで、式1において、x1,x2は入力ベクトルであり、δは、式1の関数の拡がりを決定する任意のパラメータである。また、K(x1,x2)は、入力ベクトルx1,x2を引数とするガウシアン型のカーネル関数である。なお、δは、分離平面に大きく影響を与えるので、δを一意的に決めてしまうと結果にばらつきが生じる。従って、本実施形態においては、δとして4つのパターン(δ=5,10,100,200)を用い、これによって得られる解析結果を平均化した。
【0036】
なお、本実施形態では、音声特徴量として、LPCケプストラムの13次又は26次の係数を用いるが、これはどちらの係数を用いても構わない。但し、高次係数のLPCケプストラムほど、細かい周波数包絡の情報を含むので、高次係数のLPCケプストラムを用いた方が高い精度で音声解析をすることができる。但し、LPCは逐次的に係数を求めるものであるので、26次の係数を用いる場合は、13次の係数を用いる場合と比べて、およそ二倍の音声解析時間を要する。
【0037】
以上のように、本実施形態に係る分類モデル生成部41は、音声特徴量を示すLPCケプストラムを入力ベクトルとしてSVMを実行させることにより、昆虫等の分類の基本単位である種について、昆虫等を種ごとに分類した種の分類モデルを作成することができる。この場合、昆虫等を科ごとに分類した科の分類モデルを作成し、科の分類モデルを作成した際に使用した昆虫等の音声特徴量に基づいて種ごとに分類した種の分類モデルを作成する。なお、科ごと又は種ごとの分類モデルを作成する場合、異なる分類の昆虫等におけるLPCケプストラムを複数抽出し蓄積しておく必要がある。
【0038】
この分類モデルの作成について具体例を用いて詳述すると、例えば、コオロギ科、セミ科及びキリギリス科の3つの科の分類モデルを作成する場合、コオロギ科、セミ科及びキリギリス科それぞれの音声特徴量(LPCケプストラム係数)の入力ベクトルを複数含む集合において、まず、正解のベクトルであるコオロギ科の音声特徴量を入力ベクトルとしてSVMを用いて学習させることにより、コオロギ科とコオロギ科以外の科の2クラスに分類されたコオロギ科の分類モデルを作成することができる。このコオロギ科の分類モデルは、識別対象の音声データの音声特徴量がコオロギ科であるかどうかを確かめる分類モデルである。同様にして、前記集合に対して、正解のベクトルであるセミ科の音声特徴量を入力ベクトルとして学習させることにより、セミ科とセミ科以外の科の2クラスに分類されたセミ科の分類モデルを作成することができる。このセミ科の分類モデルは、識別対象の音声データの音声特徴量がセミ科であるかどうかを確かめる分類モデルである。同様にして、前記集合に対して、正解のベクトルであるキリギリス科の音声特徴量を入力ベクトルとして学習させることにより、キリギリス科とキリギリス科以外の科の2クラスに分類されたキリギリス科の分類モデルを作成することができる。このキリギリス科の分類モデルは、識別対象の音声データの音声特徴量がキリギリス科であるかどうかを確かめる分類モデルである。このようにして、図4に示すように、コオロギ科、セミ科及びキリギリス科の3つの分類モデルを作成することができる。
【0039】
また、科の分類モデルを作成した際に使用した音声特徴量を用いて、同様にして、昆虫等の種の分類モデルについても作成することができる。この場合、科の分類モデルがなされた特定の科の昆虫等の集合に対して種の分類モデルを作成する必要がある。例えば、セミ科の分類モデルについて、アブラゼミ、ヒグラシ及びクマゼミの3つの種の分類モデルを作成する場合、セミ科のみの音声特徴量を含む集合に対して、SVMを用いて学習する必要がある。なお、特定の科の分類モデルから種の分類モデルを作成する方法は、上述した科の分類モデルを作成する方法と同様であるので説明は省略する。すなわち、ある科の分類モデルにおいて、一の種と当該一の種以外の種とを分類する当該一の種の分類モデルを作成することができる。例えば、図4に示すように、セミ科の分類モデルについて、アブラゼミ、ヒグラシ及びクマゼミの3つの種それぞれの分類モデルを作成することができる。もちろん、セミ科は3種だけではないので、必要な種の数だけ種の分類モデルを作成することができる。同様にして、コオロギ科又はキリギリス科についても、科の下位概念である種について、種の分類モデルをそれぞれ作成することができる。
【0040】
次に、本実施形態に係る分類識別部42について説明する。分類識別部42は、識別対象の音声データの音声特徴量を構築済みの上記分類モデルに基づいて分類(クラスタリング)することにより、識別対象の音声データがどの昆虫等の分類であるかを識別する機能を有する。つまり、識別対象の音声データの音声特徴量を、分類モデル生成部41によって作成された科又は種の分類モデルに基づいて分類することにより、例えば、当該識別対象の音声データが、セミ科のアブラゼミという種であることを識別することができる。この分類識別部42の識別についても、上述したSVMによって行うことができる。
【0041】
具体的には、識別対象の音声データについてLPCケプストラム係数の音声特徴量を抽出し、この識別対象の音声データの音声特徴量と構築済みの特定の分類モデルにおける音声特徴量の集合とを入力ベクトルとしてSVMによって学習させる。これにより、識別対象の音声データの音声特徴量が、当該特定の分類モデルにおける2クラスのうちのどちらのクラスに分類されるのかを判別でき、当該識別対象の音声データについて昆虫等の分類を識別することができる。また、当該音声特徴量は、複数の分類モデルのそれぞれに対して投入し識別を行う。例えば、識別対象の音声データが、コオロギ科、セミ科又はキリギリス科のどの科であるのかを識別する場合、識別対象の音声データの音声特徴量を3つの科の分類モデルそれぞれに対して識別させることにより、当該識別対象の音声データについて、それぞれの分類モデルに対する識別結果を得ることができる。これにより、識別対象の音声データが、どの科の昆虫であるかを識別することができる。
【0042】
また、1つの識別対象の音声データに対して切出音声データが複数ある場合は、切出音声データの数に対応して複数の音声特徴量がある。この場合、複数の音声特徴量を入力ベクトルとして特定の1つの分類モデルに対して同時に投入して識別させると、得られる識別結果は、投入した複数の音声特徴量が当該特定の1つの分類に該当する確率(識別率)が算出される。
【0043】
例えば、1つの識別対象の音声データから100個の切出音声データを切り出し、この切出音声データから100個の音声特徴量を抽出した場合について考える。このとき、まず、この100個の音声特徴量をコオロギ科の分類モデルによって識別させた場合に、例えば、識別率が6%という識別結果が得られたとする。この識別結果は、6個の音声特徴量はコオロギ科であると分類され、94個の音声特徴量はコオロギ科以外であると分類されたということである。次に、当該100個の音声特徴量をセミ科の分類モデルによって識別させた場合に、例えば、識別率が95%という識別結果が得られたとする。この識別結果は、95個の音声特徴量はセミ科であると分類され、5個の音声特徴量はセミ科以外であると分類されたということである。最後に、当該100個の音声特徴量をキリギリス科の分類モデルによって識別させた場合に、例えば、識別率が3%という識別結果が得られたとする。この識別結果は、3個の音声特徴量はキリギリス科であると分類され、97個の音声特徴量はキリギリス科以外であると分類されたということである。このように、1つの識別対象の音声データから抽出した100個の音声特徴量に対して、上記の3つの識別結果が得られたとすると、識別対象の音声データの音源は、識別率が最も高かったセミ科であると識別することができる。なお、これらの識別は、分類識別部42によって同時に算出され、3つの識別率の識別結果は同時に出力される。
【0044】
また、1つの音声データに複数の昆虫等の鳴き声が含まれているような場合は、次のような結果が得られる。先の例と同様に、識別対象の音声データから100個の切出音声データを切り出し、この切出音声データから100個の音声特徴量を抽出したとする。まず、この100個の音声特徴量をコオロギ科の分類モデルによって識別させた場合に、識別率が88%という識別結果が得られたとする。この識別結果は、88個の音声特徴量はコオロギ科であると分類され、12個の音声特徴量はコオロギ科以外であると分類されたということである。次に、当該100個の音声特徴量をセミ科の分類モデルによって識別させた場合、識別率が75%という識別結果が得られたとする。この識別結果は、75個の音声特徴量はセミ科であると分類され、25個の音声特徴量はセミ科以外と分類されたということである。最後に、当該100個の音声特徴量をキリギリス科の分類モデルによって識別させた場合、識別率が5%という識別結果が得られたとする。この識別結果は、5個の音声特徴量はキリギリス科であると分類され、95個の音声特徴量はキリギリス科以外であると分類されたということである。このように、複数の鳴き声が含まれた1つの識別対象の音声データに対して、上記の3つの識別結果が得られたとすると、識別率の高いコオロギ科とセミ科の2つの昆虫の鳴き声が1つの音声データに含まれているということが分かる。なお、以上の識別率は、所定の値を基準にして判断することができる。実験結果により、例えば、識別率が50%以上であれば、該当する昆虫等が含まれていると判断することができる。また、これらの識別は、分類識別部42によって同時に算出され、3つの識別率の識別結果は同時に出力される。
【0045】
次に、前処理部20について説明する。前処理部20は、音声データ取得部10で取得した音声データに対して、前処理を施す機能を有する。前処理としては、ステレオ処理、平均値除去処理及び振幅の正規化処理等があり、これらの全て又は一部を前処理として利用することができる。
【0046】
ここで、ステレオ処理とは、音声データをステレオからモノラルにする処理である。音声データをICレコーダで取得した場合はステレオの音声データとなるが、音声解析をしやすくするために、モノラルにすることが好ましい。また、平均値除去処理とは、取得した音声データが録音環境に依存されないように、全体の平均値を引いて、解析に不要な音声であるバイアスが付加されている状態をなくす処理である。この平均値除去処理により、直流成分を除去して交流成分のみを抽出し、解析に必要な音声データを抽出することができる。また、振幅の正規化処理とは、音声データを取得するごとに音声データの音量が異なっている場合があるので、取得した音声データ全体の振幅を増減させて、最大振幅を1つの所定の値にする処理である。
【0047】
なお、これらの前処理は必ずしも必要な処理ではないが、音声解析の精度を高めるため、また、音声解析を容易にするためには、当該前処理を施すことが好ましい。また、音声解析の精度を高めたり音声解析を容易にするために必要なさらに別の前処理を施しても構わない。
【0048】
識別結果出力部50は、分類識別部42によって識別された識別率等の識別結果を出力する機能を有する。識別結果出力部50は、例えば、LCD(Liquid Crystal Display)等のディスプレイで構成することができる。
【0049】
次に、上記音声識別装置を用いた本発明の実施形態に係る音声識別方法について、図5〜図8を参照しながら説明する。
【0050】
まず、本実施形態に係る音声識別方法の基本的なフローについて、図5を用いて説明する。図5は、本発明の実施形態に係る音声識別方法のフローチャートである。
【0051】
図5に示すように、まず、昆虫等の鳴き声の音声データを取得する(S100)。この音声データ取得ステップ(S100)は、音声識別装置100の音声データ取得部10によって行われる。音声データは、昆虫等の分類に関する分類モデルを作成する目的で取得する場合と、昆虫等の科又は種を識別する目的で取得する場合とがある。あるいは、両方の目的で取得する場合がある。この音声データは、少なくとも1つの周波数スペクトルを含む所定時間の時間軸波形であり、音声データには複数種の昆虫等の鳴き声が含まれていてもよい。なお、音声データの音声ファイルの仕様としては、音声特徴量を抽出可能なものであることが好ましい。音声ファイルの仕様として、例えば、フォーマットをWAVとし、サンプリングレートを44.1kHz、96kHzとし、ビット数を16bit、24bitとし、チャンネル数を1ch、2chとすることができる。サンプリングレートとして96kHzの高い周波数を用いるのは、高い周波数の鳴き声を持つ昆虫の音声データを録音するためである。また、ビット数は、音声データを正確に認識するために、少なくとも16bitは必要である。
【0052】
次に、取得した音声データに対して、上述のステレオ処理、平均値除去処理及び振幅の正規化処理等の前処理を施す(S200)。なお、ステレオ処理をする際、音声のチャンネル数を調べて、1chであるならそのまま用い、2chであるなら音量の大きい方を採用して、1chに特定する。この前処理ステップ(S200)は、音声識別装置100の前処理部20によって行われる。
【0053】
次に、前処理を施した音声データから音声の特徴量を抽出する(S300)。本実施形態では、音声の特徴量として13次及び26次のLPCケプストラム係数を抽出する。この音声特徴量抽出ステップ(S300)は、音声識別装置100の音声特徴量抽出部30によって行われる。なお、この処理の詳細については後述する。
【0054】
次に、抽出した音声特徴量について、分類モデルを作成するか、あるいは、昆虫等の分類の識別を行うかを選択する(S400)。この選択ステップ(S400)は、音声識別装置100のユーザインターフェース(不図示)によって、ユーザが適宜選択することができる。
【0055】
そして、分類モデルを作成する場合は、音声特徴量に基づいて昆虫等の分類に関する分類モデルを作成する(S500)。一方、昆虫等の分類を識別する場合は、作成された分類モデルに従って、識別対象である音声データの音声特徴量から昆虫等の分類の識別を行う(S600)。なお、分類モデル作成ステップ(S500)は、音声識別装置100の分類モデル生成部41によって行われ、分類識別ステップ(S600)は、音声識別装置100の分類識別部42によって行われる。これらの処理についても後述する。
【0056】
次に、図5に示す音声特徴量抽出ステップ(S300)について、図6を用いて詳述する。図6は、本発明の実施形態に係る音声識別方法における音声特徴量抽出処理のフローチャートである。
【0057】
まず、前処理が施された音声データの時間軸波形について、4ms単位の時間領域における時間間隔で周波数スペクトルを切り出して、4ms単位の周波数スペクトルである切出音声データを生成する(S310)。このように、4msという短時間で切り出したのは、取得した音声データ全体には複数種の昆虫等の音声が含まれている場合でも、可能な限り単体の昆虫等の音声特徴量を抽出するためである。つまり、複数の昆虫等が同時に鳴いている場合であっても、4ms単位の短時間間隔で切り出すことにより、単体の昆虫等の音声を抽出することができる。
【0058】
次に、この切出音声データの最大振幅値が一定の閾値以上であるかどうかを判別する(S320)。この判別は、切り出した切出音声データの最大振幅値が一定の閾値以上である場合は、昆虫等の鳴き声の成分があるとみなして、以降の音声分析処理が可能であると判断するものである。一定の閾値としては、例えば、切り出した部分の平均振幅値が音声データ全体の平均振幅値よりも大きくなるように設定することができる。
【0059】
そして、切出音声データの最大振幅値が一定の閾値以上である場合は、次のステップ(S330)に進む。一方、切出音声データの最大振幅値が一定の閾値未満の場合は、昆虫等の鳴き声成分がないものとして、音声データの特徴量の抽出をスキップさせて、ステップ(S370)に進む。
【0060】
切出音声データの最大振幅値が一定の閾値以上である場合、4ms単位の切出音声データに所定の窓関数を掛ける(S330)。これにより、切出音声データにおいて、所望の有限区間外の値はゼロとし、所望の有限区間内だけの値とすることができる。また、本実施形態の窓関数としては、ハニング窓を用いる。なお、窓関数としては、ハニング窓の他に、ハミング窓やブラックマン窓等を用いても構わない。
【0061】
次に、ハニング窓を掛けた切出音声データに対して移動平均フィルタ処理を施す(S340)。この移動平均フィルタ処理は、所定のフィルタ関数を用いることにより、広域のスペクトル値を持ち上げて波形の特徴を捉えやすくする処理である。なお、移動平均フィルタ処理は必ずしも施す必要はなく、必要に応じて施すことができる。
【0062】
次に、線形予測符号(LPC)による音声解析を行って、LPCケプストラム係数の音声特徴量を抽出する(S350)。本実施形態では、上述のとおり、LPCケプストラム係数として、LPCケプストラムの13次又は26次の係数を抽出し、これを音声特徴量とする。なお、音声特徴量としては、このLPCケプストラム係数をベクトルで表している。これにより、1つの切出音声データに対応する13個又は26個の音声特徴量を抽出することができる。
【0063】
次に、これまでに抽出した音声特徴量の総数が所望の個数以上となっているかどうかを判別する(S360)。この判別は、これまでに抽出した音声特徴量の総数が後の分類モデル作成に十分であるかどうかを判別するために行う。なお、分類モデルを作成するためには、1回の音声特徴量の抽出により得られる13個又は26個のLPCケプストラム係数だけで可能ではあるが、音声特徴量の数は多い方が、正確な分類モデルを作成することができる。
【0064】
そして、音声特徴量の総数が所望の個数以上となっている場合は、音声の特徴量を抽出する処理(S300)は終了する。
【0065】
一方、音声特徴量が所望の個数未満の場合は、先に切り出した4msの切り出し開始時点から3ms進めて(S370)、次の4msの時間間隔で音声データを切り出す(S310)。すなわち、先に切り出した時間間隔と1msオーバーラップさせて次の切り出しを行う。図7においては、音声データを切り出す切出期間(4ms)と上記のスキップ期間とが交互に繰り返される場合について示してあるが、切出期間が連続して存在する場合もある。本実施形態において、切出期間を1msオーバーラップさせたのは、時間分解能を上げるためであり、これにより、短時間をより詳細に分析することができる。なお、音声データの切り出しは、所望の個数の音声特徴量が蓄積されるまで、上記と同様の処理が繰り返される。本実施形態においては、100個程度の音声特徴量を蓄積させた。
【0066】
また、上述のとおり、切出音声データの最大振幅値が一定の閾値未満の場合にも、先に切り出した4msの切り出し開始時点から3ms進めて(S370)、次の4msの時間間隔で音声データを切り出し(S310)、以降同様の処理を行う。
【0067】
以上、このような音声特徴量の抽出処理は、分類モデルを作成する場合だけではなく、学習に用いる音声データに対しても行われる。この場合、学習に用いる際の音声特徴量の抽出処理も分類モデルを作成する際の音声特徴量の抽出処理も同様の方法によって行うことができる。但し、学習に用いる場合の音声データとしては、雑音が入っていないものを用いることが好ましい。
【0068】
以上により、分類モデルを作成するために必要な音声特徴量を抽出することができる。また、識別対象の音声データについての音声特徴量を抽出することができる。
【0069】
次に、図5に示す、音声特徴量から分類モデルを作成する処理(S500)について、図8を用いて詳述する。図8は、本発明の実施形態に係る音声識別方法における分類モデル作成処理のフローチャートである。
【0070】
図8に示すように、昆虫等の科又は種の分類に関する分類モデルを作成するには、まず、SVMを用いて、音声特徴量抽出処理(S300)で抽出した音声特徴量に基づいて、科ごとに分類モデルを作成する(S510)。具体的には、SVMにおける訓練サンプルとして複数の音声特徴量を用意し、音声特徴量の集合をマージン最大化という基準によって線形閾素子のパラメータを学習させる。これにより、音声特徴量の集合について、昆虫等の科ごとに分けられた分類モデルを作成することができる。なお、音声特徴量としては、音声特徴量抽出処理(S300)で抽出したLPCケプストラムの13次又は26次の係数を用いる。また、学習には、上述のカーネル学習法が用いられる。カーネル関数としては、上述のとおりガウシアン関数を用い、パラメータδとして、δ=5,10,100,200の4パターンを用意して平均値化を行う。
【0071】
次に、科の分類モデルを作成する際に用いた音声特徴量に基づいて、SVMを用いた上記と同様の手法によって、種ごとの分類モデルを作成する(S520)。すなわち、科ごとに分類された分類モデルを基に、さらに、種ごとに分類する種の分類モデルを作成する。これにより、生物の基本単位である種の分類モデルと、種の上位概念である科の分類モデルとを階層的に作成することができる。
【0072】
以上により、昆虫等について科ごと又は種ごとの分類モデルを作成することができる。なお、具体的な分類モデルの作成については、音声識別装置100の分類モデル生成部41の説明において詳しく説明したので、ここでは省略する。
【0073】
次に、図5に示す、識別対象の音声データの音声特徴量から昆虫等の分類の識別を行う処理(S600)について詳述する。
【0074】
識別対象の音声データがどの昆虫等の分類であるかの識別をする場合、分類モデル作成ステップ(S500)によって作成された昆虫等の分類に関する分類モデルに従って、識別対象の音声データの識別を行う。ここで、識別対象の音声データは、音声特徴量抽出ステップ(S300)によって音声特徴量が抽出される。この識別対象の音声データの音声特徴量を、構築済みの科又は種の分類モデルに基づいて分類することにより、当該識別対象の音声データが、どの科又はどの種の昆虫等であるかということを識別することができる。なお、この識別は、上述したSVMを用いて行うことができる。すなわち、識別対象の音声データについてLPCケプストラムの音声特徴量を抽出し、この識別対象の音声データの音声特徴量と構築済みの特定の分類モデルの音声特徴量の集合とを入力ベクトルとしてSVMによって学習させる。これにより、識別対象の音声データの音声特徴量が当該特定の分類モデルのどのクラスに分類されるかを判別することができる。また、複数の分類モデルのそれぞれに対して当該音声特徴量を投入し判別させる。これにより、識別対象の音声データについて、昆虫等の分類を識別することができる。なお、具体的な分類識別方法については、音声識別装置100の分類識別部42の説明において詳しく説明したので、ここでは省略する。
【0075】
以上のようにして、本発明の実施形態に係る音声識別方法では、取得した音声データの音源について昆虫等の種を識別することができる。なお、識別結果については、必要に応じて、所定の端末装置に出力して表示することができる。
【0076】
次に、実際に昆虫の鳴き声の音声データを入手し、上記の本発明に係る音声識別装置及び音声識別方法を用いて当該音声データの種の識別を行ったので、その識別結果について表1及び表2を用いて説明する。表1は、本発明の実施形態に係る音声識別方法において使用した昆虫の種の数と音声データのサンプル数を表している。また、表2は、本発明の実施形態に係る音声識別方法による識別結果を表している。なお、識別の評価として、クロスバリデーションを用いた。すなわち、サンプル全体をnセットとし、n−1セットを用いて分類モデルを構築し、残りの1セットを分類モデルの評価のために識別対象用として用いた。また、本実施例において、昆虫の鳴き声としては、コオロギ亜科とセミ科の音声データを採取し録音した。なお、表2において、「LPC13次」及び「LPC26次」とは、それぞれLPCケプストラムの13次及び26次の係数を用いて分類モデルを作成した場合を表している。また、切り出し時間等全ての条件は、上述した条件と同じである。
【0077】
【表1】
【0078】
【表2】
【0079】
表1及び表2に示すように、コオロギ亜科もセミ科についても、全ての種について識別することができた。しかも、96%以上の高い精度の識別率で種の識別ができていることが分かった。また、識別率は、LPCケプストラムの13次の係数を用いた場合よりも、26次の係数を用いた場合の方が高いことも分かった。なお、キリギリスについて識別を行わなかったのは、キリギリス科の正解ベクトルとなる音源を入手することができなかったからである。
【0080】
以上、本発明の実施形態に係る音声識別装置及び音声識別方法は、取得した音声データを所定の時間間隔で切り出して音声解析するものであるので、複数の昆虫等が鳴いていても種の識別をすることができる。また、4msという短時間で音声データを切り出すことにより、98%以上の高い精度で昆虫等を分類することができる。
【0081】
次に、本発明の実施形態に係る音声識別システムについて図9を用いて説明する。図9は、本発明の実施形態に係る音声識別システムのシステム全体構成を示す図ある。
【0082】
図9に示すように、本発明の実施形態に係る音声識別システムは、昆虫等の音声データに基づいて昆虫等の分類を識別するためのシステムであって、音声データの音声解析を行うとともに音声データを蓄積するサーバ1と、音声データを取得するための端末装置2とを有する。なお、サーバ1と端末装置2とは伝送路3によって接続されている。
【0083】
サーバ1は、図9に示すように、音声識別装置100と、音声データDB200と、Webコンテンツ管理システム300とを備える。
【0084】
音声識別装置100は、昆虫等の音声データを取得し、これを音声解析することによって当該音声データについて昆虫等の分類を識別する装置である。音声識別装置100の構成、機能及び動作は、上述の本発明の実施形態に係る音声識別装置100と同じであるので、その説明は省略する。
【0085】
音声データDB200は、音声識別装置100によって識別された音声データを登録し蓄積するものである。
【0086】
Webコンテンツ管理システム300は、Wikiシステムによって構成されている。Wikiシステムは、ユーザが端末装置のWebブラウザから容易にウェブページを作成又は編集することができるWebコンテンツ管理システムであって、ある種のコンピュータソフトウェア又はシンプルオンラインデータベースである。Wikiシステム又はWikiシステムを用いて作成された文書群のことをWiki(ウィキ)と呼ぶ場合もある。本実施形態では、Webコンテンツ管理システム300として、PukiWikiを用いてWikiを作成する。PukiWikiを用いる利点として、漢字などの2バイト文字を扱える点、定期的な自動バックアップが可能である点、画像などのバイナリファイルを各ページに添付することが可能である点等がある。
【0087】
端末装置2は、昆虫等の音声データを取得するデータ取得部と、サーバ1のWebコンテンツ管理システム300のWebページを閲覧したりWikiを編集したりするためのWebブラウザと、データ取得部及びWebブラウザを制御するための制御部等を備える。なお、端末装置2は、例えば、パーソナルコンピュータ(PC)である。
【0088】
伝送路3は、インターネット、CATV(Cable Television)、放送波等の有線伝送媒体又は無線伝送媒体等であり、サーバ1と端末装置2の間をそれぞれデータ交換可能に接続するものである。
【0089】
次に、本発明の実施形態に係る音声識別システムの全体のフローについて説明する。
【0090】
まず、ユーザは、ICレコーダ等の録音機4によって、ある地域に生息する昆虫等の鳴き声を録音する。そして、端末装置2のデータ取得部によって、この昆虫等の鳴き声の音声データを端末装置2に取り込む。
【0091】
次に、ユーザは、取り込んだ音声データを伝送路3を通じてサーバ1に伝送する。このとき、音声データは、WebブラウザによってWebコンテンツ管理システム300を介してサーバ1にアップロードされる。
【0092】
アップロードされた音声データは、音声識別装置100によって分類モデル作成のために利用される。あるいは、アップロードされた音声データは、音声識別装置100によって作成された構築済みの分類モデルに従って、昆虫等の科又は種の分類の識別がなされる。
【0093】
昆虫等の種が識別された音声データの識別結果は、伝送路3を介して端末装置2に伝送され、Webブラウザによって端末装置2に表示される。識別された音声データは、音声データDB200に送信されて登録される。また、音声データDB200に登録された音声データは、分類モデル作成のための音声識別装置100に送信される。
【0094】
なお、ユーザが過去の音声データを閲覧したい場合には、端末装置2からの要求により、Webコンテンツ管理システム300を介して、音声データDB200に登録された音声データを端末装置2のWebブラウザによって閲覧することができる。
【0095】
以上、本発明の実施形態に係る音声識別システムにおいては、端末装置2は1つとして説明したが、複数の端末装置2によって音声識別システムを構成することが好ましい。この場合、複数の端末装置2は、日本全国又は世界の各地に配置することが好ましい。これにより、日本全国又は世界の広い範囲の地域の音声データを取得することができるので、これらの音声データからその場所の昆虫等の種を識別することによって、広範囲における昆虫等の分布を調査することができる。そして、広範囲の昆虫等の分布を調査することにより、地域の環境の変化を知ることができる。
【0096】
また、本実施形態では、専用のコンテンツ管理システム(CMS;Contents Manegement System)を構築するのではなく、既存のWiki技術によるWikiシステムを用いた。これにより、誰でも簡単に本実施形態に係る音声識別システムを利用することができ、容易に音声データを収集及び解析することができる。
【0097】
以上、本発明に係る音声識別装置、音声識別方法及び音声識別システムについて、それぞれ実施形態を説明したが、本発明は、これらの実施形態に限定されるものではない。その他、各実施形態に対して当業者が思いつく各種変形を施して得られる形態や、本発明の趣旨を逸脱しない範囲で各実施形態における構成要素及び機能を任意に組み合わせることで実現される形態も本発明に含まれる。
【0098】
例えば、上記実施形態に係る音声識別装置において、音声データを切り出す際、4msの時間間隔で切り出したが、音声データの切り出し方法はこれに限らない。音声データの切り出しは、単体の昆虫等の音声データとなるように切り出すことが好ましく、例えば、音声データの周波数が2周期以上含むように音声データを切り出して切出音声データを生成するようにしても構わない。
【0099】
また、上記実施形態では、昆虫等の分類として科の分類について説明したが、科以外に亜科又は上科の分類でも同様である。また、種についても同様で、亜種の分類にも適用できる。それ以外の生物学上の分類に適用できる。
【0100】
また、上記実施形態に係る音声識別装置100及び音声識別システムを構成する機能構成の一部又は全部は、ROM若しくはRAM等のメモリ、又はマイクロプロセッサ等の既知のハードウェアで構成することができる。また、メモリには各処理を実行するための所定のコンピュータプログラムが記憶されており、各構成要素及び各処理は、マイクロプロセッサがコンピュータプログラムに従って動作することにより、その機能を達成することができる。
【0101】
また、本発明に係る音声識別方法については、コンピュータによって実行させるコンピュータプログラムによって構成することもできる。また、当該音声識別方法のコンピュータプログラムについては、コンピュータによって読み取り可能な記録媒体に記録してもよい。記憶媒体としては、磁気ディスク、光ディスク、光磁気ディスク、ICカード、半導体メモリ等があり、例えば、フレキシブルディスク、ハードディスク、CD−ROM、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)がある。
【産業上の利用可能性】
【0102】
本発明に係る音声識別装置、音声識別方法及び音声識別システムは、昆虫等の音声データに基づいて、昆虫等の種を識別するために有用である。
【符号の説明】
【0103】
1 サーバ
2 端末装置
3 伝送路
4 録音機
10 音声データ取得部
20 前処理部
30 音声特徴量抽出部
40 学習識別部
41 分類モデル生成部
42 分類識別部
50 識別結果出力部
100 音声識別装置
200 音声データDB
300 Webコンテンツ管理システム
【技術分野】
【0001】
本発明は、昆虫又は動物の音声に基づいて当該昆虫又は動物の分類を識別する音声識別装置及び音声識別システム、並びに音声識別方法に関する。
【背景技術】
【0002】
昆虫の生態に関しては、温暖化の影響及び輸送技術の発達により、ある地域に従来から生息する在来種に加えて、外来種といわれるその地域に本来見られないはずの種の昆虫が日本全国又は世界各地で見られるようになっている。このため、昆虫の生息分布を調査することは、その地域の環境の変化を捉える大きな手がかりになると考えられる。特に、昆虫は、直接捕まえなくても鳴き声によって存在を確認することができるので、昆虫の鳴き声は、環境指標の一つとして期待されている。従って、昆虫の鳴き声から当該昆虫の種を識別する音声識別方法の開発が要望されている。
【0003】
ところで、鳴く昆虫といえばセミが挙げられるが、従来、セミの種を識別することができる音声識別方法が提案されている。
【0004】
このセミの音声識別方法は、同じような鳴き声のセミであったとしても、セミの鳴き声の音声データを音声解析することによってセミの種を判別することができるというものである。
【0005】
具体的には、エゾゼミ、アカエゾゼミ及びコエゾゼミの3種のセミの鳴き声は、人間の耳で聞くといずれも同じように聞こえるので、人間の聴覚によってこの3種のセミを区別することは難しい。しかし、この3種のセミの鳴き声は周波数特性がそれぞれ異なるので、これを利用することにより、取得したセミの音声データを音声解析して周波数特性を抽出することにより、予め準備した3種のセミの周波数特性と照合することによって、セミの種を判別することができる。なお、各セミの周波数特性は、ピーク周波数、平均周波数又はパルス頻度によって特徴付けられる。
【0006】
また、音源が昆虫の鳴き声ではないが、音源の周波数分布を検出して所定の特性周波数パターンを抽出し、このパターンを予め設定された基準パターンと照合することにより、音源の種類を識別する音源識別装置も提案されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平5−187910号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、従来の音声識別方法では、複数の昆虫又は複数の動物が同時に鳴いているような場合は、昆虫又は動物の分類を識別することができないという問題がある。
【0009】
本発明は、上記問題を解決するためになされたものであり、複数の昆虫又は複数の動物が鳴いている場合でも、昆虫又は動物の分類を識別することができる音声識別装置及び音声識別システム、並びに音声識別方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記問題を解決するために、本発明に係る音声識別装置の一態様は、昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別装置であって、前記昆虫又は前記動物から音声データを取得する音声データ取得部と、前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出部と、カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成部と、識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別部とを備えるものである。
【0011】
さらに、本発明に係る音声識別装置の一態様において、前記所定の時間間隔が4msであることが好ましい。
【0012】
さらに、本発明に係る音声識別装置の一態様において、前記音声特徴量抽出部は、前記所定の時間間隔で切り出した前記切出音声データの最大振幅値が一定値以下の場合、所定時間経過後に、前記所定の時間間隔で前記音声データを切り出して切出音声データを生成することが好ましい。
【0013】
さらに、本発明に係る音声識別装置の一態様において、前記分類モデル生成部は、前記昆虫又は前記動物の科ごとに分類モデルを生成し、前記分類識別部は、科ごとの前記分類モデルに従って前記昆虫又は前記動物の科を識別することが好ましい。
【0014】
さらに、本発明に係る音声識別装置の一態様において、前記分類モデル生成部は、科ごとに分類された前記分類モデルにおける前記音声特徴量に基づいて、さらに種ごとの分類モデルを生成し、前記分類識別部は、種ごとの前記分類モデルに従って前記昆虫又は前記動物の種を識別することが好ましい。
【0015】
さらに、本発明に係る音声識別装置の一態様において、前記分類モデル生成部及び前記分類識別部は、サポートベクターマシンにより構成されることが好ましい。
【0016】
さらに、本発明に係る音声識別装置の一態様において、前記窓関数がハニング窓であることが好ましい。
【0017】
さらに、本発明に係る音声識別装置の一態様において、前記音声特徴量が、線形予測符号ケプストラムの13次又は26次の係数であることが好ましい。
【0018】
さらに、本発明に係る音声識別装置の一態様において、ステレオ処理、平均値除去処理及び振幅の正規化処理の少なくともいずれか1つの前処理を行う前処理部を備えることが好ましい。
【0019】
また、本発明に係る音声識別システムの一態様は、上記の本発明に係る音声識別装置とWebコンテンツ管理システムとを備えるサーバ、及び、音声データを取得する端末装置を有する音声識別システムであって、前記サーバは、前記端末装置によって取得した前記音声データを前記Webコンテンツ管理システムを介して前記音声識別装置によって音声解析することにより、昆虫又は動物の分類を識別するものである。
【0020】
また、本発明に係る音声識別方法の一態様は、昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別方法であって、前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成ステップと、識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップとを含むものである。
【0021】
また、本発明に係るプログラムの一態様は、昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別するためのプログラムであって、前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物を分類に関する分類モデルを生成する分類モデル生成ステップと、識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップとをコンピュータによって実行させるものである。
【0022】
また、本発明に係る記録媒体の一態様は、上記プログラムが記載されたコンピュータに読み取り可能なものである。
【発明の効果】
【0023】
本発明に係る音声識別装置及び音声識別方法によれば、複数の昆虫又は複数の動物が鳴いている場合でも、昆虫又は動物の分類を識別することができる。
【0024】
また、本発明に係る音声識別システムによれば、全国の昆虫の音声データを容易に取得できるので、広範囲の昆虫の生息分布を調査することができ、広範囲の環境変化を容易に捉えることができる。
【図面の簡単な説明】
【0025】
【図1】図1は、本発明の実施形態に係る音声識別装置の特徴的な機能構成を示すブロック図である。
【図2】図2は、キリギリス科、セミ科及びコオロギ上科の各昆虫のピーク周波数及び周波数帯域を示す図である。
【図3A】図3Aは、サポートベクターマシンのマージン最大化の概念を示す図である。
【図3B】図3Bは、カーネルトリックの概念を示す図である。
【図4】図4は、本発明の実施形態に係る音声識別方法によって作成された分類モデルの概念を示す図である。
【図5】図5は、本発明の実施形態に係る音声識別方法のフローチャートである。
【図6】図6は、本発明の実施形態に係る音声識別方法における音声特徴量抽出処理のフローチャートである。
【図7】図7は、本発明の実施形態に係る音声識別方法における音声特徴量抽出処理の処理方法を示す図である。
【図8】図8は、本発明の実施形態に係る音声識別方法における分類モデル作成処理のフローチャートである。
【図9】図9は、本発明の実施形態に係る音声識別システムのシステム全体構成を示す図である。
【発明を実施するための形態】
【0026】
以下、本発明の実施形態に係る音声識別装置、音声識別方法及び音声識別システムについて説明する。
【0027】
まず、本発明の実施形態に係る音声識別装置について、図1を用いて説明する。図1は、本発明の実施形態に係る音声識別装置100の特徴的な機能構成を示すブロック図である。
【0028】
本発明の実施形態に係る音声識別装置100は、昆虫又は動物の音声データに基づいて、当該昆虫又は動物における科又は種等の分類を識別するものであり、図1に示すように、音声データ取得部10、音声特徴量抽出部30、及び、分類モデル生成部41と分類識別部42とを含む学習識別部40を備える。また、本発明の実施形態に係る音声識別装置100は、前処理部20及び識別結果出力部50を備えていてもよい。
【0029】
音声データ取得部10は、昆虫又は動物(以下、「昆虫等」とも記載する)から、当該昆虫等の鳴き声についての音声データを取得する機能を有する。ここで、音声データとして取得する情報は、昆虫等の鳴き声を時間軸波形として表したものである。また、本実施形態において、科又は種等の分類を識別する対象(以下、「識別対象」と記載する)の昆虫は、鳴き声を発する昆虫であり、例えば、キリギリス科、セミ科及びコオロギ上科の昆虫を用いることができる。図2に示すように、キリギリス科、セミ科及びコオロギ上科の各昆虫は、科によってそれぞれ異なったピーク周波数及び周波数帯域の鳴き声を発する。また、同一の科の昆虫であっても、その種によってそれぞれ異なった個々の鳴き声を有し、それぞれ異なったピーク周波数の鳴き声を発する。また、本実施形態において、識別対象の動物は、1kHz以上の周波数で1種類の音声を発する動物である。この動物には、小動物や鳥類が含まれる。なお、音声データは、ICレコーダ等の録音機によって録音され、当該録音機から取得することができる。
【0030】
音声特徴量抽出部30は、取得した音声データを所定の時間間隔で切り出すことによって切出音声データを生成する機能と、切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する機能とを有する。具体的には、前処理が施された音声データの時間軸波形について、昆虫等の鳴き声が含まれる時間領域を4ms単位の時間間隔で切り出すことにより、4ms単位の周波数スペクトルとして切出音声データを生成する。そして、この切出音声データに、ハニング窓の窓関数を掛けて、移動平均フィルタ処理を施した後、線形予測符号(Linear Predictive Coding;LPC)による音声解析を行うことにより、LPCケプストラム係数のベクトルで表される音声特徴量を抽出する。LPCケプストラム係数としては、LPCケプストラムの13次又は26次の係数が用いられる。すなわち、1つの切出音声データに対して13個又は26個の音声特徴量を抽出することができる。なお、LPCケプストラムの各係数は、音声データにおける周波数スペクトルの周波数成分値を表している。
【0031】
ここで、LPCケプストラムとは、音響の特徴量として用いられるものであり、音声の周波数の情報を圧縮する方法である。本実施形態では、音声特徴量としてLPCケプストラム係数を用いたが、ケプストラム等その他の音響の特徴量を用いても構わない。また、移動平均フィルタ処理とは、所定のフィルタ関数を用いることにより、広域のスペクトル値を持ち上げて波形の特徴を捉えやすくする処理のことである。なお、この移動平均フィルタ処理は必ずしも施す必要はない。
【0032】
学習識別部40は、分類モデル生成部41と分類識別部42とからなり、本実施形態では、パターン認識の一つの手法であるサポートベクターマシン(Support Vector Machine;SVM)によって、分類モデル生成部41と分類識別部42を実現することができる。SVMとは、データを2クラスに分類することができる識別手法である。この識別手法は、図3Aに示すように、クラス1とクラス2の訓練サンプルの集合において、クラス1とクラス2の各データ点との距離が最大となる分離平面を求めるという、いわゆるマージン最大化という基準によって線形閾素子のパラメータを学習するものである。SVMは、いわゆる教師あり学習方法であり、まず、正解のベクトルと不正解のベクトルの集合を引数にして2クラスに分類された学習モデルを作成するものである。このSVMの学習モデルの作成を応用することにより、本実施形態に係る分類モデル生成部41を実現することができる。また、SVMによって、調べたいベクトルが学習モデルの2クラスのうちのどちらのクラスに分類されるかを識別する場合、調べたいベクトルと構築済みの学習モデルのベクトルとを引数にして再度学習させることにより、調べたいベクトルがどちらのクラスに分類されるかを識別することができる。このSVMを用いた識別方法によって、本実施形態に係る分類識別部42を実現することができる。なお、SVMは、API(Application Programming Interface)として提供されている。以下、本実施形態における分類モデル生成部41と分類識別部42とについて、さらに詳しく説明する。
【0033】
まず、分類モデル生成部41について説明する。本実施形態に係る分類モデル生成部41は、カーネル関数を用いたパターン認識を用いて複数の音声特徴量を分類(クラスタリング)することにより、昆虫等の分類モデルを生成する機能を有する。本実施形態では、パターン認識として上述のSVMを用いて、SVMによって複数の音声特徴量のデータを学習させることにより、昆虫等の科又は種についての分類に関する分類モデルを作成する。ここで、SVMにおいては、マージン最大化と線形分離が可能でないという問題を解決するためにカーネル学習法が用いられる。このカーネル学習法によって、入力ベクトル(音声特徴量)を非線形変換し、その空間において分離平面を求めることができる。カーネル学習法は、カーネル関数を用いるものであり、図3Bに示すように、カーネル関数によって入力ベクトル(クラス1とクラス2の集合)のパターンを高次元の特徴空間に写像し、この特徴空間上で平面により線形分離を行う手法である。なお、この高次元への特徴空間への写像をカーネルトリックと呼ぶ。本実施形態における音声解析においても、SVMにカーネル関数を用いる。また、カーネル関数として、式1で表されるガウシアン関数Kを用いる。
【0034】
(式1) K(x1,x2)=exp(−δ|x1−x2|2)
【0035】
ここで、式1において、x1,x2は入力ベクトルであり、δは、式1の関数の拡がりを決定する任意のパラメータである。また、K(x1,x2)は、入力ベクトルx1,x2を引数とするガウシアン型のカーネル関数である。なお、δは、分離平面に大きく影響を与えるので、δを一意的に決めてしまうと結果にばらつきが生じる。従って、本実施形態においては、δとして4つのパターン(δ=5,10,100,200)を用い、これによって得られる解析結果を平均化した。
【0036】
なお、本実施形態では、音声特徴量として、LPCケプストラムの13次又は26次の係数を用いるが、これはどちらの係数を用いても構わない。但し、高次係数のLPCケプストラムほど、細かい周波数包絡の情報を含むので、高次係数のLPCケプストラムを用いた方が高い精度で音声解析をすることができる。但し、LPCは逐次的に係数を求めるものであるので、26次の係数を用いる場合は、13次の係数を用いる場合と比べて、およそ二倍の音声解析時間を要する。
【0037】
以上のように、本実施形態に係る分類モデル生成部41は、音声特徴量を示すLPCケプストラムを入力ベクトルとしてSVMを実行させることにより、昆虫等の分類の基本単位である種について、昆虫等を種ごとに分類した種の分類モデルを作成することができる。この場合、昆虫等を科ごとに分類した科の分類モデルを作成し、科の分類モデルを作成した際に使用した昆虫等の音声特徴量に基づいて種ごとに分類した種の分類モデルを作成する。なお、科ごと又は種ごとの分類モデルを作成する場合、異なる分類の昆虫等におけるLPCケプストラムを複数抽出し蓄積しておく必要がある。
【0038】
この分類モデルの作成について具体例を用いて詳述すると、例えば、コオロギ科、セミ科及びキリギリス科の3つの科の分類モデルを作成する場合、コオロギ科、セミ科及びキリギリス科それぞれの音声特徴量(LPCケプストラム係数)の入力ベクトルを複数含む集合において、まず、正解のベクトルであるコオロギ科の音声特徴量を入力ベクトルとしてSVMを用いて学習させることにより、コオロギ科とコオロギ科以外の科の2クラスに分類されたコオロギ科の分類モデルを作成することができる。このコオロギ科の分類モデルは、識別対象の音声データの音声特徴量がコオロギ科であるかどうかを確かめる分類モデルである。同様にして、前記集合に対して、正解のベクトルであるセミ科の音声特徴量を入力ベクトルとして学習させることにより、セミ科とセミ科以外の科の2クラスに分類されたセミ科の分類モデルを作成することができる。このセミ科の分類モデルは、識別対象の音声データの音声特徴量がセミ科であるかどうかを確かめる分類モデルである。同様にして、前記集合に対して、正解のベクトルであるキリギリス科の音声特徴量を入力ベクトルとして学習させることにより、キリギリス科とキリギリス科以外の科の2クラスに分類されたキリギリス科の分類モデルを作成することができる。このキリギリス科の分類モデルは、識別対象の音声データの音声特徴量がキリギリス科であるかどうかを確かめる分類モデルである。このようにして、図4に示すように、コオロギ科、セミ科及びキリギリス科の3つの分類モデルを作成することができる。
【0039】
また、科の分類モデルを作成した際に使用した音声特徴量を用いて、同様にして、昆虫等の種の分類モデルについても作成することができる。この場合、科の分類モデルがなされた特定の科の昆虫等の集合に対して種の分類モデルを作成する必要がある。例えば、セミ科の分類モデルについて、アブラゼミ、ヒグラシ及びクマゼミの3つの種の分類モデルを作成する場合、セミ科のみの音声特徴量を含む集合に対して、SVMを用いて学習する必要がある。なお、特定の科の分類モデルから種の分類モデルを作成する方法は、上述した科の分類モデルを作成する方法と同様であるので説明は省略する。すなわち、ある科の分類モデルにおいて、一の種と当該一の種以外の種とを分類する当該一の種の分類モデルを作成することができる。例えば、図4に示すように、セミ科の分類モデルについて、アブラゼミ、ヒグラシ及びクマゼミの3つの種それぞれの分類モデルを作成することができる。もちろん、セミ科は3種だけではないので、必要な種の数だけ種の分類モデルを作成することができる。同様にして、コオロギ科又はキリギリス科についても、科の下位概念である種について、種の分類モデルをそれぞれ作成することができる。
【0040】
次に、本実施形態に係る分類識別部42について説明する。分類識別部42は、識別対象の音声データの音声特徴量を構築済みの上記分類モデルに基づいて分類(クラスタリング)することにより、識別対象の音声データがどの昆虫等の分類であるかを識別する機能を有する。つまり、識別対象の音声データの音声特徴量を、分類モデル生成部41によって作成された科又は種の分類モデルに基づいて分類することにより、例えば、当該識別対象の音声データが、セミ科のアブラゼミという種であることを識別することができる。この分類識別部42の識別についても、上述したSVMによって行うことができる。
【0041】
具体的には、識別対象の音声データについてLPCケプストラム係数の音声特徴量を抽出し、この識別対象の音声データの音声特徴量と構築済みの特定の分類モデルにおける音声特徴量の集合とを入力ベクトルとしてSVMによって学習させる。これにより、識別対象の音声データの音声特徴量が、当該特定の分類モデルにおける2クラスのうちのどちらのクラスに分類されるのかを判別でき、当該識別対象の音声データについて昆虫等の分類を識別することができる。また、当該音声特徴量は、複数の分類モデルのそれぞれに対して投入し識別を行う。例えば、識別対象の音声データが、コオロギ科、セミ科又はキリギリス科のどの科であるのかを識別する場合、識別対象の音声データの音声特徴量を3つの科の分類モデルそれぞれに対して識別させることにより、当該識別対象の音声データについて、それぞれの分類モデルに対する識別結果を得ることができる。これにより、識別対象の音声データが、どの科の昆虫であるかを識別することができる。
【0042】
また、1つの識別対象の音声データに対して切出音声データが複数ある場合は、切出音声データの数に対応して複数の音声特徴量がある。この場合、複数の音声特徴量を入力ベクトルとして特定の1つの分類モデルに対して同時に投入して識別させると、得られる識別結果は、投入した複数の音声特徴量が当該特定の1つの分類に該当する確率(識別率)が算出される。
【0043】
例えば、1つの識別対象の音声データから100個の切出音声データを切り出し、この切出音声データから100個の音声特徴量を抽出した場合について考える。このとき、まず、この100個の音声特徴量をコオロギ科の分類モデルによって識別させた場合に、例えば、識別率が6%という識別結果が得られたとする。この識別結果は、6個の音声特徴量はコオロギ科であると分類され、94個の音声特徴量はコオロギ科以外であると分類されたということである。次に、当該100個の音声特徴量をセミ科の分類モデルによって識別させた場合に、例えば、識別率が95%という識別結果が得られたとする。この識別結果は、95個の音声特徴量はセミ科であると分類され、5個の音声特徴量はセミ科以外であると分類されたということである。最後に、当該100個の音声特徴量をキリギリス科の分類モデルによって識別させた場合に、例えば、識別率が3%という識別結果が得られたとする。この識別結果は、3個の音声特徴量はキリギリス科であると分類され、97個の音声特徴量はキリギリス科以外であると分類されたということである。このように、1つの識別対象の音声データから抽出した100個の音声特徴量に対して、上記の3つの識別結果が得られたとすると、識別対象の音声データの音源は、識別率が最も高かったセミ科であると識別することができる。なお、これらの識別は、分類識別部42によって同時に算出され、3つの識別率の識別結果は同時に出力される。
【0044】
また、1つの音声データに複数の昆虫等の鳴き声が含まれているような場合は、次のような結果が得られる。先の例と同様に、識別対象の音声データから100個の切出音声データを切り出し、この切出音声データから100個の音声特徴量を抽出したとする。まず、この100個の音声特徴量をコオロギ科の分類モデルによって識別させた場合に、識別率が88%という識別結果が得られたとする。この識別結果は、88個の音声特徴量はコオロギ科であると分類され、12個の音声特徴量はコオロギ科以外であると分類されたということである。次に、当該100個の音声特徴量をセミ科の分類モデルによって識別させた場合、識別率が75%という識別結果が得られたとする。この識別結果は、75個の音声特徴量はセミ科であると分類され、25個の音声特徴量はセミ科以外と分類されたということである。最後に、当該100個の音声特徴量をキリギリス科の分類モデルによって識別させた場合、識別率が5%という識別結果が得られたとする。この識別結果は、5個の音声特徴量はキリギリス科であると分類され、95個の音声特徴量はキリギリス科以外であると分類されたということである。このように、複数の鳴き声が含まれた1つの識別対象の音声データに対して、上記の3つの識別結果が得られたとすると、識別率の高いコオロギ科とセミ科の2つの昆虫の鳴き声が1つの音声データに含まれているということが分かる。なお、以上の識別率は、所定の値を基準にして判断することができる。実験結果により、例えば、識別率が50%以上であれば、該当する昆虫等が含まれていると判断することができる。また、これらの識別は、分類識別部42によって同時に算出され、3つの識別率の識別結果は同時に出力される。
【0045】
次に、前処理部20について説明する。前処理部20は、音声データ取得部10で取得した音声データに対して、前処理を施す機能を有する。前処理としては、ステレオ処理、平均値除去処理及び振幅の正規化処理等があり、これらの全て又は一部を前処理として利用することができる。
【0046】
ここで、ステレオ処理とは、音声データをステレオからモノラルにする処理である。音声データをICレコーダで取得した場合はステレオの音声データとなるが、音声解析をしやすくするために、モノラルにすることが好ましい。また、平均値除去処理とは、取得した音声データが録音環境に依存されないように、全体の平均値を引いて、解析に不要な音声であるバイアスが付加されている状態をなくす処理である。この平均値除去処理により、直流成分を除去して交流成分のみを抽出し、解析に必要な音声データを抽出することができる。また、振幅の正規化処理とは、音声データを取得するごとに音声データの音量が異なっている場合があるので、取得した音声データ全体の振幅を増減させて、最大振幅を1つの所定の値にする処理である。
【0047】
なお、これらの前処理は必ずしも必要な処理ではないが、音声解析の精度を高めるため、また、音声解析を容易にするためには、当該前処理を施すことが好ましい。また、音声解析の精度を高めたり音声解析を容易にするために必要なさらに別の前処理を施しても構わない。
【0048】
識別結果出力部50は、分類識別部42によって識別された識別率等の識別結果を出力する機能を有する。識別結果出力部50は、例えば、LCD(Liquid Crystal Display)等のディスプレイで構成することができる。
【0049】
次に、上記音声識別装置を用いた本発明の実施形態に係る音声識別方法について、図5〜図8を参照しながら説明する。
【0050】
まず、本実施形態に係る音声識別方法の基本的なフローについて、図5を用いて説明する。図5は、本発明の実施形態に係る音声識別方法のフローチャートである。
【0051】
図5に示すように、まず、昆虫等の鳴き声の音声データを取得する(S100)。この音声データ取得ステップ(S100)は、音声識別装置100の音声データ取得部10によって行われる。音声データは、昆虫等の分類に関する分類モデルを作成する目的で取得する場合と、昆虫等の科又は種を識別する目的で取得する場合とがある。あるいは、両方の目的で取得する場合がある。この音声データは、少なくとも1つの周波数スペクトルを含む所定時間の時間軸波形であり、音声データには複数種の昆虫等の鳴き声が含まれていてもよい。なお、音声データの音声ファイルの仕様としては、音声特徴量を抽出可能なものであることが好ましい。音声ファイルの仕様として、例えば、フォーマットをWAVとし、サンプリングレートを44.1kHz、96kHzとし、ビット数を16bit、24bitとし、チャンネル数を1ch、2chとすることができる。サンプリングレートとして96kHzの高い周波数を用いるのは、高い周波数の鳴き声を持つ昆虫の音声データを録音するためである。また、ビット数は、音声データを正確に認識するために、少なくとも16bitは必要である。
【0052】
次に、取得した音声データに対して、上述のステレオ処理、平均値除去処理及び振幅の正規化処理等の前処理を施す(S200)。なお、ステレオ処理をする際、音声のチャンネル数を調べて、1chであるならそのまま用い、2chであるなら音量の大きい方を採用して、1chに特定する。この前処理ステップ(S200)は、音声識別装置100の前処理部20によって行われる。
【0053】
次に、前処理を施した音声データから音声の特徴量を抽出する(S300)。本実施形態では、音声の特徴量として13次及び26次のLPCケプストラム係数を抽出する。この音声特徴量抽出ステップ(S300)は、音声識別装置100の音声特徴量抽出部30によって行われる。なお、この処理の詳細については後述する。
【0054】
次に、抽出した音声特徴量について、分類モデルを作成するか、あるいは、昆虫等の分類の識別を行うかを選択する(S400)。この選択ステップ(S400)は、音声識別装置100のユーザインターフェース(不図示)によって、ユーザが適宜選択することができる。
【0055】
そして、分類モデルを作成する場合は、音声特徴量に基づいて昆虫等の分類に関する分類モデルを作成する(S500)。一方、昆虫等の分類を識別する場合は、作成された分類モデルに従って、識別対象である音声データの音声特徴量から昆虫等の分類の識別を行う(S600)。なお、分類モデル作成ステップ(S500)は、音声識別装置100の分類モデル生成部41によって行われ、分類識別ステップ(S600)は、音声識別装置100の分類識別部42によって行われる。これらの処理についても後述する。
【0056】
次に、図5に示す音声特徴量抽出ステップ(S300)について、図6を用いて詳述する。図6は、本発明の実施形態に係る音声識別方法における音声特徴量抽出処理のフローチャートである。
【0057】
まず、前処理が施された音声データの時間軸波形について、4ms単位の時間領域における時間間隔で周波数スペクトルを切り出して、4ms単位の周波数スペクトルである切出音声データを生成する(S310)。このように、4msという短時間で切り出したのは、取得した音声データ全体には複数種の昆虫等の音声が含まれている場合でも、可能な限り単体の昆虫等の音声特徴量を抽出するためである。つまり、複数の昆虫等が同時に鳴いている場合であっても、4ms単位の短時間間隔で切り出すことにより、単体の昆虫等の音声を抽出することができる。
【0058】
次に、この切出音声データの最大振幅値が一定の閾値以上であるかどうかを判別する(S320)。この判別は、切り出した切出音声データの最大振幅値が一定の閾値以上である場合は、昆虫等の鳴き声の成分があるとみなして、以降の音声分析処理が可能であると判断するものである。一定の閾値としては、例えば、切り出した部分の平均振幅値が音声データ全体の平均振幅値よりも大きくなるように設定することができる。
【0059】
そして、切出音声データの最大振幅値が一定の閾値以上である場合は、次のステップ(S330)に進む。一方、切出音声データの最大振幅値が一定の閾値未満の場合は、昆虫等の鳴き声成分がないものとして、音声データの特徴量の抽出をスキップさせて、ステップ(S370)に進む。
【0060】
切出音声データの最大振幅値が一定の閾値以上である場合、4ms単位の切出音声データに所定の窓関数を掛ける(S330)。これにより、切出音声データにおいて、所望の有限区間外の値はゼロとし、所望の有限区間内だけの値とすることができる。また、本実施形態の窓関数としては、ハニング窓を用いる。なお、窓関数としては、ハニング窓の他に、ハミング窓やブラックマン窓等を用いても構わない。
【0061】
次に、ハニング窓を掛けた切出音声データに対して移動平均フィルタ処理を施す(S340)。この移動平均フィルタ処理は、所定のフィルタ関数を用いることにより、広域のスペクトル値を持ち上げて波形の特徴を捉えやすくする処理である。なお、移動平均フィルタ処理は必ずしも施す必要はなく、必要に応じて施すことができる。
【0062】
次に、線形予測符号(LPC)による音声解析を行って、LPCケプストラム係数の音声特徴量を抽出する(S350)。本実施形態では、上述のとおり、LPCケプストラム係数として、LPCケプストラムの13次又は26次の係数を抽出し、これを音声特徴量とする。なお、音声特徴量としては、このLPCケプストラム係数をベクトルで表している。これにより、1つの切出音声データに対応する13個又は26個の音声特徴量を抽出することができる。
【0063】
次に、これまでに抽出した音声特徴量の総数が所望の個数以上となっているかどうかを判別する(S360)。この判別は、これまでに抽出した音声特徴量の総数が後の分類モデル作成に十分であるかどうかを判別するために行う。なお、分類モデルを作成するためには、1回の音声特徴量の抽出により得られる13個又は26個のLPCケプストラム係数だけで可能ではあるが、音声特徴量の数は多い方が、正確な分類モデルを作成することができる。
【0064】
そして、音声特徴量の総数が所望の個数以上となっている場合は、音声の特徴量を抽出する処理(S300)は終了する。
【0065】
一方、音声特徴量が所望の個数未満の場合は、先に切り出した4msの切り出し開始時点から3ms進めて(S370)、次の4msの時間間隔で音声データを切り出す(S310)。すなわち、先に切り出した時間間隔と1msオーバーラップさせて次の切り出しを行う。図7においては、音声データを切り出す切出期間(4ms)と上記のスキップ期間とが交互に繰り返される場合について示してあるが、切出期間が連続して存在する場合もある。本実施形態において、切出期間を1msオーバーラップさせたのは、時間分解能を上げるためであり、これにより、短時間をより詳細に分析することができる。なお、音声データの切り出しは、所望の個数の音声特徴量が蓄積されるまで、上記と同様の処理が繰り返される。本実施形態においては、100個程度の音声特徴量を蓄積させた。
【0066】
また、上述のとおり、切出音声データの最大振幅値が一定の閾値未満の場合にも、先に切り出した4msの切り出し開始時点から3ms進めて(S370)、次の4msの時間間隔で音声データを切り出し(S310)、以降同様の処理を行う。
【0067】
以上、このような音声特徴量の抽出処理は、分類モデルを作成する場合だけではなく、学習に用いる音声データに対しても行われる。この場合、学習に用いる際の音声特徴量の抽出処理も分類モデルを作成する際の音声特徴量の抽出処理も同様の方法によって行うことができる。但し、学習に用いる場合の音声データとしては、雑音が入っていないものを用いることが好ましい。
【0068】
以上により、分類モデルを作成するために必要な音声特徴量を抽出することができる。また、識別対象の音声データについての音声特徴量を抽出することができる。
【0069】
次に、図5に示す、音声特徴量から分類モデルを作成する処理(S500)について、図8を用いて詳述する。図8は、本発明の実施形態に係る音声識別方法における分類モデル作成処理のフローチャートである。
【0070】
図8に示すように、昆虫等の科又は種の分類に関する分類モデルを作成するには、まず、SVMを用いて、音声特徴量抽出処理(S300)で抽出した音声特徴量に基づいて、科ごとに分類モデルを作成する(S510)。具体的には、SVMにおける訓練サンプルとして複数の音声特徴量を用意し、音声特徴量の集合をマージン最大化という基準によって線形閾素子のパラメータを学習させる。これにより、音声特徴量の集合について、昆虫等の科ごとに分けられた分類モデルを作成することができる。なお、音声特徴量としては、音声特徴量抽出処理(S300)で抽出したLPCケプストラムの13次又は26次の係数を用いる。また、学習には、上述のカーネル学習法が用いられる。カーネル関数としては、上述のとおりガウシアン関数を用い、パラメータδとして、δ=5,10,100,200の4パターンを用意して平均値化を行う。
【0071】
次に、科の分類モデルを作成する際に用いた音声特徴量に基づいて、SVMを用いた上記と同様の手法によって、種ごとの分類モデルを作成する(S520)。すなわち、科ごとに分類された分類モデルを基に、さらに、種ごとに分類する種の分類モデルを作成する。これにより、生物の基本単位である種の分類モデルと、種の上位概念である科の分類モデルとを階層的に作成することができる。
【0072】
以上により、昆虫等について科ごと又は種ごとの分類モデルを作成することができる。なお、具体的な分類モデルの作成については、音声識別装置100の分類モデル生成部41の説明において詳しく説明したので、ここでは省略する。
【0073】
次に、図5に示す、識別対象の音声データの音声特徴量から昆虫等の分類の識別を行う処理(S600)について詳述する。
【0074】
識別対象の音声データがどの昆虫等の分類であるかの識別をする場合、分類モデル作成ステップ(S500)によって作成された昆虫等の分類に関する分類モデルに従って、識別対象の音声データの識別を行う。ここで、識別対象の音声データは、音声特徴量抽出ステップ(S300)によって音声特徴量が抽出される。この識別対象の音声データの音声特徴量を、構築済みの科又は種の分類モデルに基づいて分類することにより、当該識別対象の音声データが、どの科又はどの種の昆虫等であるかということを識別することができる。なお、この識別は、上述したSVMを用いて行うことができる。すなわち、識別対象の音声データについてLPCケプストラムの音声特徴量を抽出し、この識別対象の音声データの音声特徴量と構築済みの特定の分類モデルの音声特徴量の集合とを入力ベクトルとしてSVMによって学習させる。これにより、識別対象の音声データの音声特徴量が当該特定の分類モデルのどのクラスに分類されるかを判別することができる。また、複数の分類モデルのそれぞれに対して当該音声特徴量を投入し判別させる。これにより、識別対象の音声データについて、昆虫等の分類を識別することができる。なお、具体的な分類識別方法については、音声識別装置100の分類識別部42の説明において詳しく説明したので、ここでは省略する。
【0075】
以上のようにして、本発明の実施形態に係る音声識別方法では、取得した音声データの音源について昆虫等の種を識別することができる。なお、識別結果については、必要に応じて、所定の端末装置に出力して表示することができる。
【0076】
次に、実際に昆虫の鳴き声の音声データを入手し、上記の本発明に係る音声識別装置及び音声識別方法を用いて当該音声データの種の識別を行ったので、その識別結果について表1及び表2を用いて説明する。表1は、本発明の実施形態に係る音声識別方法において使用した昆虫の種の数と音声データのサンプル数を表している。また、表2は、本発明の実施形態に係る音声識別方法による識別結果を表している。なお、識別の評価として、クロスバリデーションを用いた。すなわち、サンプル全体をnセットとし、n−1セットを用いて分類モデルを構築し、残りの1セットを分類モデルの評価のために識別対象用として用いた。また、本実施例において、昆虫の鳴き声としては、コオロギ亜科とセミ科の音声データを採取し録音した。なお、表2において、「LPC13次」及び「LPC26次」とは、それぞれLPCケプストラムの13次及び26次の係数を用いて分類モデルを作成した場合を表している。また、切り出し時間等全ての条件は、上述した条件と同じである。
【0077】
【表1】
【0078】
【表2】
【0079】
表1及び表2に示すように、コオロギ亜科もセミ科についても、全ての種について識別することができた。しかも、96%以上の高い精度の識別率で種の識別ができていることが分かった。また、識別率は、LPCケプストラムの13次の係数を用いた場合よりも、26次の係数を用いた場合の方が高いことも分かった。なお、キリギリスについて識別を行わなかったのは、キリギリス科の正解ベクトルとなる音源を入手することができなかったからである。
【0080】
以上、本発明の実施形態に係る音声識別装置及び音声識別方法は、取得した音声データを所定の時間間隔で切り出して音声解析するものであるので、複数の昆虫等が鳴いていても種の識別をすることができる。また、4msという短時間で音声データを切り出すことにより、98%以上の高い精度で昆虫等を分類することができる。
【0081】
次に、本発明の実施形態に係る音声識別システムについて図9を用いて説明する。図9は、本発明の実施形態に係る音声識別システムのシステム全体構成を示す図ある。
【0082】
図9に示すように、本発明の実施形態に係る音声識別システムは、昆虫等の音声データに基づいて昆虫等の分類を識別するためのシステムであって、音声データの音声解析を行うとともに音声データを蓄積するサーバ1と、音声データを取得するための端末装置2とを有する。なお、サーバ1と端末装置2とは伝送路3によって接続されている。
【0083】
サーバ1は、図9に示すように、音声識別装置100と、音声データDB200と、Webコンテンツ管理システム300とを備える。
【0084】
音声識別装置100は、昆虫等の音声データを取得し、これを音声解析することによって当該音声データについて昆虫等の分類を識別する装置である。音声識別装置100の構成、機能及び動作は、上述の本発明の実施形態に係る音声識別装置100と同じであるので、その説明は省略する。
【0085】
音声データDB200は、音声識別装置100によって識別された音声データを登録し蓄積するものである。
【0086】
Webコンテンツ管理システム300は、Wikiシステムによって構成されている。Wikiシステムは、ユーザが端末装置のWebブラウザから容易にウェブページを作成又は編集することができるWebコンテンツ管理システムであって、ある種のコンピュータソフトウェア又はシンプルオンラインデータベースである。Wikiシステム又はWikiシステムを用いて作成された文書群のことをWiki(ウィキ)と呼ぶ場合もある。本実施形態では、Webコンテンツ管理システム300として、PukiWikiを用いてWikiを作成する。PukiWikiを用いる利点として、漢字などの2バイト文字を扱える点、定期的な自動バックアップが可能である点、画像などのバイナリファイルを各ページに添付することが可能である点等がある。
【0087】
端末装置2は、昆虫等の音声データを取得するデータ取得部と、サーバ1のWebコンテンツ管理システム300のWebページを閲覧したりWikiを編集したりするためのWebブラウザと、データ取得部及びWebブラウザを制御するための制御部等を備える。なお、端末装置2は、例えば、パーソナルコンピュータ(PC)である。
【0088】
伝送路3は、インターネット、CATV(Cable Television)、放送波等の有線伝送媒体又は無線伝送媒体等であり、サーバ1と端末装置2の間をそれぞれデータ交換可能に接続するものである。
【0089】
次に、本発明の実施形態に係る音声識別システムの全体のフローについて説明する。
【0090】
まず、ユーザは、ICレコーダ等の録音機4によって、ある地域に生息する昆虫等の鳴き声を録音する。そして、端末装置2のデータ取得部によって、この昆虫等の鳴き声の音声データを端末装置2に取り込む。
【0091】
次に、ユーザは、取り込んだ音声データを伝送路3を通じてサーバ1に伝送する。このとき、音声データは、WebブラウザによってWebコンテンツ管理システム300を介してサーバ1にアップロードされる。
【0092】
アップロードされた音声データは、音声識別装置100によって分類モデル作成のために利用される。あるいは、アップロードされた音声データは、音声識別装置100によって作成された構築済みの分類モデルに従って、昆虫等の科又は種の分類の識別がなされる。
【0093】
昆虫等の種が識別された音声データの識別結果は、伝送路3を介して端末装置2に伝送され、Webブラウザによって端末装置2に表示される。識別された音声データは、音声データDB200に送信されて登録される。また、音声データDB200に登録された音声データは、分類モデル作成のための音声識別装置100に送信される。
【0094】
なお、ユーザが過去の音声データを閲覧したい場合には、端末装置2からの要求により、Webコンテンツ管理システム300を介して、音声データDB200に登録された音声データを端末装置2のWebブラウザによって閲覧することができる。
【0095】
以上、本発明の実施形態に係る音声識別システムにおいては、端末装置2は1つとして説明したが、複数の端末装置2によって音声識別システムを構成することが好ましい。この場合、複数の端末装置2は、日本全国又は世界の各地に配置することが好ましい。これにより、日本全国又は世界の広い範囲の地域の音声データを取得することができるので、これらの音声データからその場所の昆虫等の種を識別することによって、広範囲における昆虫等の分布を調査することができる。そして、広範囲の昆虫等の分布を調査することにより、地域の環境の変化を知ることができる。
【0096】
また、本実施形態では、専用のコンテンツ管理システム(CMS;Contents Manegement System)を構築するのではなく、既存のWiki技術によるWikiシステムを用いた。これにより、誰でも簡単に本実施形態に係る音声識別システムを利用することができ、容易に音声データを収集及び解析することができる。
【0097】
以上、本発明に係る音声識別装置、音声識別方法及び音声識別システムについて、それぞれ実施形態を説明したが、本発明は、これらの実施形態に限定されるものではない。その他、各実施形態に対して当業者が思いつく各種変形を施して得られる形態や、本発明の趣旨を逸脱しない範囲で各実施形態における構成要素及び機能を任意に組み合わせることで実現される形態も本発明に含まれる。
【0098】
例えば、上記実施形態に係る音声識別装置において、音声データを切り出す際、4msの時間間隔で切り出したが、音声データの切り出し方法はこれに限らない。音声データの切り出しは、単体の昆虫等の音声データとなるように切り出すことが好ましく、例えば、音声データの周波数が2周期以上含むように音声データを切り出して切出音声データを生成するようにしても構わない。
【0099】
また、上記実施形態では、昆虫等の分類として科の分類について説明したが、科以外に亜科又は上科の分類でも同様である。また、種についても同様で、亜種の分類にも適用できる。それ以外の生物学上の分類に適用できる。
【0100】
また、上記実施形態に係る音声識別装置100及び音声識別システムを構成する機能構成の一部又は全部は、ROM若しくはRAM等のメモリ、又はマイクロプロセッサ等の既知のハードウェアで構成することができる。また、メモリには各処理を実行するための所定のコンピュータプログラムが記憶されており、各構成要素及び各処理は、マイクロプロセッサがコンピュータプログラムに従って動作することにより、その機能を達成することができる。
【0101】
また、本発明に係る音声識別方法については、コンピュータによって実行させるコンピュータプログラムによって構成することもできる。また、当該音声識別方法のコンピュータプログラムについては、コンピュータによって読み取り可能な記録媒体に記録してもよい。記憶媒体としては、磁気ディスク、光ディスク、光磁気ディスク、ICカード、半導体メモリ等があり、例えば、フレキシブルディスク、ハードディスク、CD−ROM、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)がある。
【産業上の利用可能性】
【0102】
本発明に係る音声識別装置、音声識別方法及び音声識別システムは、昆虫等の音声データに基づいて、昆虫等の種を識別するために有用である。
【符号の説明】
【0103】
1 サーバ
2 端末装置
3 伝送路
4 録音機
10 音声データ取得部
20 前処理部
30 音声特徴量抽出部
40 学習識別部
41 分類モデル生成部
42 分類識別部
50 識別結果出力部
100 音声識別装置
200 音声データDB
300 Webコンテンツ管理システム
【特許請求の範囲】
【請求項1】
昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別装置であって、
前記昆虫又は前記動物から音声データを取得する音声データ取得部と、
前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出部と、
カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成部と、
識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別部と
を備える音声識別装置。
【請求項2】
前記所定の時間間隔が4msである
請求項1に記載の音声識別装置。
【請求項3】
前記音声特徴量抽出部は、前記所定の時間間隔で切り出した前記切出音声データの最大振幅値が一定値以下の場合、所定時間経過後に、前記所定の時間間隔で前記音声データを切り出して切出音声データを生成する
請求項1又は請求項2に記載の音声識別装置。
【請求項4】
前記分類モデル生成部は、前記昆虫又は前記動物の科ごとに分類モデルを生成し、
前記分類識別部は、科ごとの前記分類モデルに従って前記昆虫又は前記動物の科を識別する
請求項1〜3のいずれか1項に記載の音声識別装置。
【請求項5】
前記分類モデル生成部は、科ごとに分類された前記分類モデルにおける前記音声特徴量に基づいて、さらに種ごとの分類モデルを生成し、
前記分類識別部は、種ごとの前記分類モデルに従って前記昆虫又は前記動物の種を識別する
請求項4に記載の音声識別装置。
【請求項6】
前記分類モデル生成部及び前記分類識別部は、サポートベクターマシンにより構成される
請求項1〜5のいずれか1項に記載の音声識別装置。
【請求項7】
前記窓関数がハニング窓である
請求項1〜6のいずれか1項に記載の音声識別装置。
【請求項8】
前記音声特徴量が、線形予測符号ケプストラムの13次又は26次の係数である
請求項1〜7のいずれか1項に記載の音声識別装置。
【請求項9】
さらに、ステレオ処理、平均値除去処理及び振幅の正規化処理の少なくともいずれか1つの前処理を行う前処理部を備える
請求項1〜8のいずれか1項に記載の音声識別装置。
【請求項10】
請求項1〜9のいずれか1項に記載の音声識別装置とWebコンテンツ管理システムとを備えるサーバ、及び、音声データを取得する端末装置を有する音声識別システムであって、
前記サーバは、前記端末装置によって取得した前記音声データを前記Webコンテンツ管理システムを介して前記音声識別装置によって音声解析することにより、昆虫又は動物の分類を識別する音声識別システム。
【請求項11】
昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別方法であって、
前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、
前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、
カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成ステップと、
識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップと
を含む音声識別方法。
【請求項12】
昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別するためのプログラムであって、
前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、
前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、
カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物を分類に関する分類モデルを生成する分類モデル生成ステップと、
識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップと
をコンピュータによって実行させるプログラム。
【請求項13】
請求項12に記載のプログラムが記録されたコンピュータに読み取り可能な記録媒体。
【請求項1】
昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別装置であって、
前記昆虫又は前記動物から音声データを取得する音声データ取得部と、
前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出部と、
カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成部と、
識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別部と
を備える音声識別装置。
【請求項2】
前記所定の時間間隔が4msである
請求項1に記載の音声識別装置。
【請求項3】
前記音声特徴量抽出部は、前記所定の時間間隔で切り出した前記切出音声データの最大振幅値が一定値以下の場合、所定時間経過後に、前記所定の時間間隔で前記音声データを切り出して切出音声データを生成する
請求項1又は請求項2に記載の音声識別装置。
【請求項4】
前記分類モデル生成部は、前記昆虫又は前記動物の科ごとに分類モデルを生成し、
前記分類識別部は、科ごとの前記分類モデルに従って前記昆虫又は前記動物の科を識別する
請求項1〜3のいずれか1項に記載の音声識別装置。
【請求項5】
前記分類モデル生成部は、科ごとに分類された前記分類モデルにおける前記音声特徴量に基づいて、さらに種ごとの分類モデルを生成し、
前記分類識別部は、種ごとの前記分類モデルに従って前記昆虫又は前記動物の種を識別する
請求項4に記載の音声識別装置。
【請求項6】
前記分類モデル生成部及び前記分類識別部は、サポートベクターマシンにより構成される
請求項1〜5のいずれか1項に記載の音声識別装置。
【請求項7】
前記窓関数がハニング窓である
請求項1〜6のいずれか1項に記載の音声識別装置。
【請求項8】
前記音声特徴量が、線形予測符号ケプストラムの13次又は26次の係数である
請求項1〜7のいずれか1項に記載の音声識別装置。
【請求項9】
さらに、ステレオ処理、平均値除去処理及び振幅の正規化処理の少なくともいずれか1つの前処理を行う前処理部を備える
請求項1〜8のいずれか1項に記載の音声識別装置。
【請求項10】
請求項1〜9のいずれか1項に記載の音声識別装置とWebコンテンツ管理システムとを備えるサーバ、及び、音声データを取得する端末装置を有する音声識別システムであって、
前記サーバは、前記端末装置によって取得した前記音声データを前記Webコンテンツ管理システムを介して前記音声識別装置によって音声解析することにより、昆虫又は動物の分類を識別する音声識別システム。
【請求項11】
昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別する音声識別方法であって、
前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、
前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、
カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物の分類に関する分類モデルを生成する分類モデル生成ステップと、
識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップと
を含む音声識別方法。
【請求項12】
昆虫の音声データ又は1kHz以上の周波数で1種類の音声を発する動物の音声データに基づいて、前記昆虫又は前記動物の分類を識別するためのプログラムであって、
前記昆虫又は前記動物から音声データを取得する音声データ取得ステップと、
前記音声データを所定の時間間隔で切り出して切出音声データを生成し、当該切出音声データに所定の窓関数を掛けて所定の音声解析を行うことにより音声特徴量を抽出する音声特徴量抽出ステップと、
カーネル関数を用いたパターン認識を用いて複数の前記音声特徴量を分類することにより、前記昆虫又は前記動物を分類に関する分類モデルを生成する分類モデル生成ステップと、
識別対象の前記音声データの前記音声特徴量を前記分類モデルによって分類することにより、当該識別対象の音声データについての前記昆虫又は前記動物の分類を識別する分類識別ステップと
をコンピュータによって実行させるプログラム。
【請求項13】
請求項12に記載のプログラムが記録されたコンピュータに読み取り可能な記録媒体。
【図1】
【図2】
【図3A】
【図3B】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図2】
【図3A】
【図3B】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【公開番号】特開2011−154130(P2011−154130A)
【公開日】平成23年8月11日(2011.8.11)
【国際特許分類】
【出願番号】特願2010−14737(P2010−14737)
【出願日】平成22年1月26日(2010.1.26)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り (発行所)エンタテインメントコンピューティング2009実行委員会、(刊行物名)エンタテインメントコンピューティング2009(EC2009)論文集、(発行日)2009年9月16日、において発表
【出願人】(504160781)国立大学法人金沢大学 (282)
【Fターム(参考)】
【公開日】平成23年8月11日(2011.8.11)
【国際特許分類】
【出願日】平成22年1月26日(2010.1.26)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り (発行所)エンタテインメントコンピューティング2009実行委員会、(刊行物名)エンタテインメントコンピューティング2009(EC2009)論文集、(発行日)2009年9月16日、において発表
【出願人】(504160781)国立大学法人金沢大学 (282)
【Fターム(参考)】
[ Back to top ]