音源の識別装置および音源に連動する情報処理装置

【課題】アコースティックス楽器、自然音、ヒト・生物等の音源が発した音から、音源を特定することが可能な音源の識別装置を提供する。
【解決手段】音源から発せられる音を解析して、その特徴を表現した特徴データを生成し、音源データベースに登録しておき、マイクロフォンを介して録音した音を解析して特徴データを生成し、音源データベースに登録された特徴データと相関演算し、相関値が高いものを特定することにより、音源を特定する。特徴データの生成に際し、周波数解析により得られたスペクトルでは、高周波成分の差が目立たないため（ａ）（ｂ）、各周波数成分に、それぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算し、高周波成分の差を明確にする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、アコースティックス楽器、自然音、ヒト・生物が発する音、電子楽器を除く人工機械など音響信号を発する音源を識別するための技術に関する。
【背景技術】
【０００２】
楽器を各種デジタル情報端末のユーザインタフェースとして活用する方法として、MIDI規格（Musical Instrument Digital Interface）に準拠した電子楽器を用いる手法が知られている。MIDI規格に対応した鍵盤楽器（キーボード、自動演奏ピアノ）、サイレント弦楽器、サイレント管楽器、サイレントドラムなどが既に開発されており、MIDIインタフェースを通じて楽器演奏により情報端末を操作することが可能である（例えば、特許文献１参照）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特許第３７１７６４０号公報
【特許文献２】特許第３９３５７４５号公報
【特許文献３】特開２０１１−１０７２６５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかし、適用できる楽器はMIDI規格に準拠した電子楽器に制限される。一方、世の中には無数に近い種類のアコースティックス楽器が存在する。これに対して、特許文献２に開示されているようなアコースティックス楽器から出力される音響信号をMIDIデータに変換する符号化技術を活用する方法が考えられる。特許文献２の発明では演奏されるリズムや音階を認識して情報端末をMIDI規格に準拠した形態で渡すことは可能である。しかし、音色を認識することはできないため、演奏された楽器を特定することは困難であった。また、同一楽器でも演奏内容が異なると、符号化されるMIDIデータは変化するため、電子楽器のように同一楽器で再現性のあるデータを情報端末に渡すことは困難であった。従って、既存のアコースティックス楽器を情報端末の入力デバイスとして活用することは困難であった。
【０００５】
そこで、本発明は、アコースティックス楽器、自然音、ヒト・生物等の音源が発した音から、音源を特定することが可能な音源の識別装置を提供することを課題とする。
【課題を解決するための手段】
【０００６】
上記課題を解決するため、本発明第１の態様では、音源から発せられる音を取得して、当該音源を識別する装置であって、各音源について、その特徴を表現した登録特徴データと、各音源を特定する識別情報が対応付けて登録された音源データベースと、前記音源より発せられる音を録音してデジタルの音響信号として取得する音響信号取得手段と、前記音響信号に対して周波数解析を行い、時間的に平均化したスペクトルの各周波数成分に、それぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算した値に基いて特徴データを生成する特徴データ生成手段と、前記生成された特徴データと前記音源データベースに登録されている登録特徴データの各々と相関計算を行い、得られた相関値の中で、最大の相関値をもち、かつ当該相関値が所定のしきい値以上を満たす登録特徴データに対応する前記識別情報を特定する音源データベース検索手段と、を有することを特徴とする音源の識別装置を提供する。
【０００７】
本発明第１の態様によれば、音源から発せられる音をデジタル化した音響信号に対して周波数解析を行い、時間的に平均化したスペクトルの各周波数成分にそれぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算した特徴データを生成し、事前に登録されている登録特徴データと比較して、相関の高い登録特徴データを特定するようにしたので、音源間の違いがたとえ高周波成分のわずかな違いであってもその差が明確になり、アコースティックス楽器、自然音、ヒト・生物等の発せられた音の特徴を明確に識別することができるため、正しい音源を特定することが可能になる。
【０００８】
本発明第２の態様では、本発明第１の態様の音源の識別装置における特徴データ生成手段が、前記音響信号取得手段により取得された音響信号の振幅が所定の値未満で所定の時間以上連続する無音区間を特定し、当該特定された無音区間を削除して音響信号を時間的に短縮する補正を実行し、当該補正された音響信号に対して、前記周波数解析を行うことを特徴とする。
【０００９】
本発明第２の態様によれば、周波数解析を行う前に音響信号の無音区間を削除するようにしたので、特徴データの基礎となるスペクトルに対して、無音区間と発音区間との間隔が揺らいでも音源の同定に与える影響を防ぐことが可能となる。
【００１０】
本発明第３の態様では、本発明第１または第２の態様の音源の識別装置における特徴データ生成手段が、前記特徴データとして、各周波数成分に、それぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算した値の平均値を、各周波数成分に重みを乗算した値から減じた偏差ベクトルを生成することを特徴とする。
【００１１】
本発明第３の態様によれば、特徴データとして、各周波数成分にそれぞれ異なる重みを乗算したものの平均値を減じた偏差ベクトルを生成するようにしたので、特徴のある周波数成分がより明確になり、各音源の識別が容易になる。
【００１２】
本発明第４の態様では、本発明第１から第３のいずれかの態様の音源の識別装置における特徴データ生成手段が、前記周波数解析として、前記音響信号に対して、所定の区間単位に分割し、分割した各区間の波形データに同区間長にあらかじめ定義された重み関数を重畳した波形データに対してフーリエ変換を行い、各区間ごとに得られた実数スペクトルを全区間に渡って平均化することにより時間的に平均化したスペクトルを得ることを特徴とする音源の識別装置。
【００１３】
本発明第４の態様によれば、周波数解析として、音響信号を所定の区間単位に分割し、各区間の波形データに対してフーリエ変換を行い、各区間ごとに得られた実数スペクトルを全区間に渡って平均化するようにしたので、周波数解析の時間分解能を落とすことなく、全区間に渡る特徴である特徴データを生成することが可能になる。
【００１４】
本発明第５の態様では、本発明第４の態様の音源の識別装置において、前記各区間は隣接する区間どうしで区間長の１／２の時間幅だけ重複しており、前記重み関数は時間軸方向に対して非対称な形状で２種類定義されており、奇数番目の区間に対しては、一方の重み関数を重畳し、偶数番目の区間に対しては、他方の重み関数を重畳するようにしていることを特徴とする。
【００１５】
本発明第５の態様によれば、各区間を隣接する区間どうしで区間長の１／２の時間幅だけ重複させ、重み関数を時間軸方向に対して非対称な形状で２種類定義し、奇数番目の区間と偶数番目の区間で異なる重み関数を重畳するようにしたので、音響信号を逆から再生した逆回し波形と元の音響信号を正常に再生した音との識別が可能になる。
【００１６】
本発明第６の態様では、本発明第１から第５のいずれかの態様の音源の識別装置により特定された前記識別情報に基づいて処理が実行される音源に連動する情報処理装置を提供する。
【００１７】
本発明第６の態様によれば、音源の識別装置により特定された識別情報に基づいて情報処理装置が処理を実行するようにしたので、発せられた音にマイクを向けるだけで、その音源に対応した処理が実行されることになる。
【発明の効果】
【００１８】
本発明によれば、アコースティックス楽器、自然音、ヒト・生物等の音源が発した音から、音源を特定することが可能となる。
【図面の簡単な説明】
【００１９】
【図１】本発明の基本概念を説明するための図である。
【図２】登録特徴データ生成装置のハードウェア構成図である。
【図３】登録特徴データ生成装置の機能ブロック図である。
【図４】図２、３に示した装置の処理動作を示すフローチャートである。
【図５】無音区間の削除を説明するための図である。
【図６】本発明に係る音源の識別装置のハードウェア構成図である。
【図７】本発明に係る音源の識別装置の機能ブロック図である。
【図８】図６、７に示した装置の処理動作を示すフローチャートである。
【図９】音の振幅変化と逆回し波形を示す図である。
【図１０】本発明で用いる窓関数を示す図である。
【発明を実施するための形態】
【００２０】
以下、本発明の実施形態について図面を参照して詳細に説明する。
（１．本発明の基本概念）
まず、本発明の基本概念について説明する。本発明では、音源から発せられる音を周波数解析し、音源ごとのスペクトルを生成する。生成したスペクトルに基づいてその音源の特徴を表現した特徴データを生成し、音源の識別情報等とともにデータベースに記録しておく。そして、識別対象とする音を取得し、周波数解析を行って特徴データを生成し、データベース内の特徴データと比較・照合することにより、その音の音源を特定する。
【００２１】
この特徴データの基本となる音源のスペクトルは、調波構造をもっており、図１（ａ）（ｂ）に示すように、周波数に反比例して信号成分が小さくなる傾向がある。特に、楽器を音源とした場合、高次倍音に音色の特徴が現れることが多いため、高周波成分における差が目立たなくなる。そこで、本発明では、周波数値に比例した値を重みとして乗じたスペクトルを特徴データとして生成し、高周波成分の差を際立たせ、各音源の識別を容易にする。例えば、図１（ａ）（ｂ）に示した楽器ア、楽器イのスペクトルに、周波数値に比例した値を重みとして乗じると、図１（ｃ）（ｄ）に示すような重み付けスペクトルが得られる。高周波成分になる程大きな重みが乗じられているため、図１（ｃ）と（ｄ）の波形を比較すると明らかなように、高周波成分の差が目立つことになる。
【００２２】
（２．音源データベースの準備）
次に、具体的な実施形態について説明していく。
まず、音源データベースに登録する特徴データの生成を、登録特徴データ生成装置により行う。図２は、登録特徴データ生成装置のハードウェア構成図である。登録特徴データ生成装置は、汎用のコンピュータで実現することができ、図２に示すように、ＣＰＵ１（CPU: Central Processing Unit）と、コンピュータのメインメモリであるＲＡＭ２（RAM: Random Access Memory）と、ＣＰＵが実行するプログラムやデータを記憶するための大容量の記憶装置３（例えば、ハードディスク、フラッシュメモリ等）と、キーボード、マウス等のキー入力Ｉ／Ｆ（インターフェース）４と、外部装置（データ記憶媒体等）とデータ通信するためのデータ入出力Ｉ／Ｆ（インターフェース）５と、表示装置（液晶ディスプレイ等）に情報を送出するための表示出力Ｉ／Ｆ（インターフェース）６と、を備え、互いにバスを介して接続されている。
【００２３】
図３は、登録特徴データ生成装置の構成を示す機能ブロック図である。図３において、１０は無音区間削除手段、２０は音響フレーム読込手段、３０は特徴データ生成手段、４０は特徴データ登録手段、５０は音源データベースである。
【００２４】
無音区間削除手段１０は、デジタル音響信号のうち、無音であると判断される区間（無音区間）を削除する機能を有している。音響フレーム読込手段２０は、ある音を素材として記録したデジタルの音響信号から所定数Ｎのサンプルを１音響フレームとして順次読み込む機能を有している。特徴データ生成手段３０は、読み込んだ音響フレームを利用して、周波数解析を行い、その音源についての音響信号の特徴を表現した特徴データを生成する機能を有している。この特徴データは、ある音響信号の特徴を少ないデータ量で表現したものであり、後述するようにＮ／２次元のベクトルである。特徴データ登録手段４０は、生成した特徴データを、元の音響信号に対応する音源に関連する関連情報、および音源を特定するための識別情報である音源ＩＤと対応付けて登録特徴データとして音源データベース５０に登録する機能を有している。音源とは、上述のように、楽器、自然物、生物、自然現象等、音の発信源を示すものである。図３に示した各構成手段は、図２に示したハードウェア構成に専用のプログラムを搭載することにより実現される。
【００２５】
図２の記憶装置３には、ＣＰＵ１を動作させ、コンピュータを、登録特徴データ生成装置として機能させるための専用のプログラムが実装されている。この専用のプログラムを実行することにより、ＣＰＵ１は、無音区間削除手段１０、音響フレーム読込手段２０、特徴データ生成手段３０、特徴データ登録手段４０としての機能を実現することになる。また、記憶装置３は、処理に必要な様々なデータを記憶する。
【００２６】
次に、図２、図３に示した登録特徴データ生成装置の処理動作について図４のフローチャートに従って説明する。まず、登録特徴データ生成装置は、事前に準備された識別情報がわかっている音源を録音した音響信号ファイルから、デジタルの音響信号を読み込む。このデジタル音響信号は、アナログ音響信号に対して、ＰＣＭ等の手法によりサンプリングを行うことにより得られたものである。例えば、サンプリング周波数が４４．１ｋＨｚの場合、１秒当たり４４１００のサンプルとして得られることになる。
【００２７】
登録特徴データ生成装置では、デジタル音響信号を読み込んだ後、無音区間削除手段１０が、無音区間の削除を行う（Ｓ１０１）。具体的には、サンプルの値が所定のしきい値未満となるサンプルが所定数連続した場合に、無音区間であると判断し、無音区間を削除する。各サンプルのしきい値、無音サンプルの連続数は適宜設定することができる。本実施形態では、サンプリング周波数４４．１ｋＨｚ、量子化ビット数１６ビット（１０進数で−３２７６８〜＋３２７６７）を条件として、各サンプルの絶対値のしきい値を１０００（１０進数）、無音サンプルの連続数を２０４８としている。無音サンプルの連続数を２０４８は、サンプリング周波数４４．１ｋＨｚの場合、約０．０４６秒に相当する。
【００２８】
図５は、無音区間の削除を説明するための図である。図５においては、音響信号の各サンプル値を線分で結んで波形として示している。無音区間の削除は、図５に示すように、無音区間のサンプルの値を０にするのではなく、その区間のサンプル自体を除去し、後方の発音区間のサンプルを前に詰めることにより行う。したがって、Ｓ１０１における無音区間の削除処理の結果、読み込まれた音響信号の総サンプル数は減少し、そのまま再生した場合の再生時間も短くなることになる。音源の特性によっては、無音区間の削除は必ずしも行う必要はない。しかし、パーカッション楽器音のように、短い発音区間が間欠的に並んでいるタイプの場合、無音区間と発音区間の比率（演奏リズム）により、開始から終了までの平均のスペクトルが大きく変化してしまう。例えば、図３、図４に示される特徴データを登録する際に準備した太鼓の音Ａと、後述の図７で示されるマイクロフォン６０で取り込まれる太鼓の音Ｂとは、演奏者が異なりリズムも異なるのが一般的であるが、図３、図４のような登録時および図７、図８のような識別時の双方の処理において、この無音区間の削除処理を実行させることにより、太鼓の音Ａと太鼓の音Ｂとのリズムの相違を吸収し、太鼓の音Ａと太鼓の音Ｂとは同一の音源であると判定することが可能になる。このため、短い発音区間が間欠的に並んでいるタイプの音源に対しては、無音区間の削除を行うことが有効である。
【００２９】
無音区間の削除を終えたら、続いて、音響フレーム読込手段２０が、音響信号から、所定数のサンプルを１音響フレームとして読み込む。音響フレーム読込手段２０が読み込む１音響フレームのサンプル数は、適宜設定することができるが、サンプリング周波数が４４．１ｋＨｚの場合、４０９６サンプル程度とすることが望ましい。これは、約０．０９３秒に相当する。ただし、後述する周波数変換における窓関数の利用により値が減少するサンプルを考慮して、音響フレームは、所定数分のサンプルを重複させて読み込むことにしている。本実施形態では、音響フレームの区間長のちょうど１／２となる２０４８サンプルを重複させている。したがって、先頭の音響フレームはサンプル１〜４０９６、２番目の音響フレームはサンプル２０４９〜６１４４、３番目の音響フレームはサンプル４０９７〜８１９２というように、順次読み込まれていくことになる。
【００３０】
続いて、特徴データ生成手段３０は、読み込んだ各音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る（Ｓ１０２）。具体的には、音響フレーム読込手段２０が読み込んだ音響フレームについて、窓関数を利用して周波数変換を行う。周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができる。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。
【００３１】
ここで、本実施形態においてフーリエ変換に利用する窓関数について説明しておく。一般に、所定の信号に対してフーリエ変換を行う場合、信号を所定の長さに区切って行う必要があるが、この場合、所定長さの信号に対してそのままフーリエ変換を行うと、高域部に擬似成分が発生する。そこで、一般にフーリエ変換を行う場合には、ハニング窓と呼ばれる窓関数を用いて、信号の値を変化させた後、変化後の値に対してフーリエ変換を実行する。
【００３２】
Ｓ１０２においてフーリエ変換を行う場合、具体的には、サンプルｉにおける値Ｘ（ｉ）（ｉ＝０，…，Ｎ−１）に対して、ハニング窓関数Ｗ（ｉ）（＝０．５−０．５ｃｏｓ（２πｉ／Ｎ））を用いて、以下の〔数式１〕に従った処理を行う。これを各音響フレームｇ（ｇ＝０，…，Ｇ−１）に対して実行し、各音響フレームｇの各周波数における実部Ａ（ｇ，ｊ）、虚部Ｂ（ｇ，ｊ）を得る。
【００３３】
〔数式１〕
Ａ（ｇ，ｊ）＝Σ_i=0,…,N-1Ｗ（ｉ）・Ｘ（ｉ）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂ（ｇ，ｊ）＝Σ_i=0,…,N-1Ｗ（ｉ）・Ｘ（ｉ）・ｓｉｎ（２πｉｊ／Ｎ）
【００３４】
続いて、特徴データ生成手段３０は、時間方向の平均化を行う（Ｓ１０３）。具体的には、以下の〔数式２〕に従った処理を行い、各周波数におけるＧ個の音響フレームの平均スペクトルＶ（ｊ）を得る。
【００３５】
〔数式２〕
Ｖ（ｊ）＝[Σ_g=0,…,G-1｛Ａ（ｇ，ｊ）²＋Ｂ（ｇ，ｊ）²｝／Ｇ] ^1/2
【００３６】
〔数式１〕〔数式２〕において、ｉは、各音響フレーム内のＮ個のサンプルに付した通し番号であり、ｉ＝０，１，２，…Ｎ−１の整数値をとる。また、ｊは周波数の値について、値の小さなものから順に付した通し番号であるが、算出したスペクトルより折り返し成分を除く下半分を用いる。したがって、ｊ＝１，２，…Ｎ／２の整数値をとる。サンプリング周波数が４４．１ｋＨｚ、Ｎ＝４０９６の場合、ｊの値が１つ異なると、周波数が１０．８Ｈｚ異なることになる。〔数式２〕に従った処理の結果、Ｇ個の全音響フレームを平均化した、各周波数における平均スペクトルＶ（ｊ）が得られる。
【００３７】
続いて、特徴データ生成手段３０は、偏差ベクトルの算出を行う（Ｓ１０４）。具体的には、全音響フレームに渡って平均化した平均スペクトルＶ（ｊ）の各周波数成分に、周波数値が大きくなるのに伴って大きくなる値ｊを重みとして乗じ、各周波数成分について、全周波数の平均を減じる処理を行う。実際には、特徴データ生成手段３０は、以下の〔数式３〕に従った処理を実行し、平均値Ａｖを算出する。
【００３８】
〔数式３〕
Ａｖ＝Σ_j=f1,…,f2Ｖ（ｊ）・ｊ／（ｆ２-ｆ１＋１）
【００３９】
〔数式３〕においては、周波数番号ｆ１からｆ２の間の各周波数について、その平均スペクトルＶ（ｊ）に周波数番号ｊを乗じたものの平均値Ａｖを算出している。周波数番号ｆ１、ｆ２としては、音源データベースに登録されている登録特徴ワードの元になった音響信号の周波数帯域に応じて適宜設定することが可能であるが、本実施形態では、ｆ１＝２７（約３００Ｈｚに相当）、ｆ２＝７４３（約８０００Ｈｚに相当）と設定している。
【００４０】
そして、特徴データ生成手段３０は、以下の〔数式４〕に従った処理を実行し、偏差ベクトルδＶ（ｊ）を特徴データとして算出する。
【００４１】
〔数式４〕
δＶ（ｊ）＝Ｖ（ｊ）・ｊ−Ａｖ
【００４２】
以上のようにして、ある音源の音響信号から偏差ベクトルである特徴データδＶ（ｊ）が生成される。この特徴データδＶ（ｊ）は、最大Ｎ／２次元（Ｎ＝４０９６の場合、２０４８次元）の偏差ベクトルとなる。ただし、上述のように設定されたｆ１、ｆ２に従い（ｆ２−ｆ１＋１）次元となる。したがって、ｆ１＝２７、ｆ２＝７４３と設定されている場合は、７１７次元となる。特徴データδＶ（ｊ）が生成されたら、特徴データ登録手段４０は、別途入力された音響ＩＤ、音源名等の関連情報と対応付けて特徴データδＶ（ｊ）を音源データベース５０に登録する。現実には、記憶装置３内の所定の領域に格納されることになる。
【００４３】
（３．音源の識別）
次に、本発明に係る音源の識別装置について説明する。図６は、本発明に係る音源の識別装置のハードウェア構成図である。音源の識別装置は、登録特徴データ生成装置と同様、汎用のコンピュータで実現することができ、図６に示すように、ＣＰＵ１ａ（CPU: Central Processing Unit）と、コンピュータのメインメモリであるＲＡＭ２ａ（RAM: Random Access Memory）と、ＣＰＵ１ａが実行するプログラムやデータを記憶するための大容量の記憶装置３ａ（例えば、ハードディスク、フラッシュメモリ等）と、キーボード、マウス等のキー入力Ｉ／Ｆ（インターフェース）４ａと、外部装置（データ記憶媒体等）とデータ通信するためのデータ入出力Ｉ／Ｆ（インターフェース）５ａと、表示装置（ディスプレイ）に情報を送出するための表示出力Ｉ／Ｆ（インターフェース）６ａと、マイクロフォンと接続された音声入力Ｉ／Ｆ（インターフェース）７ａと、を備え、互いにバスを介して接続されている。
【００４４】
図７は、本発明に係る音源の識別装置の構成を示す機能ブロック図である。図７において、１０は無音区間削除手段、２０は音響フレーム読込手段、３０は特徴データ生成手段、５０は音源データベース、６０はマイクロフォン、７０は音響信号取得手段、８０は特徴データ照合手段、９０は音源情報出力手段である。図３と同一符号の構成要素については、図３と同様の機能を有するものであるので、説明は省略する。図７の処理は、利用者からの指示に基づいて起動されるが、利用者から発せられる識別対象の音をタイミング良く取り込むため、利用者から停止の指示があるまで、繰り返し実行されるような実施形態をとる。即ち、後述する図８の最後の音源情報の出力（Ｓ２０６）を実行したら、音響信号の取得（Ｓ２０１）に再び戻り以下同様な処理を実行するようにする。
【００４５】
マイクロフォン６０は、低周波成分から高周波成分まで広い範囲の音を忠実に取り込む性能を持っている必要は無く、スマートフォンなど各種携帯端末や携帯ゲーム機に内蔵されている安価な民生用マイクロフォンを用いることができる。具体的には、前述の通り特徴データの作成において、〔数式３〕に示されるように、周波数番号ｆ１＝２７（約３００Ｈｚに相当）からｆ２＝７４３（約８０００Ｈｚに相当）の周波数範囲しか計算対象としていないため、必要とするマイクロフォン６０の性能としてはこの範囲をカバーしていれば良い（商品として販売されるマイクロフォンは少なくともこの周波数範囲をカバーする）。音響信号取得手段７０は、マイクロフォン６０で取り込んだアナログ音響信号をＡ／Ｄ変換してデジタル化する機能を有している。
【００４６】
特徴データ照合手段８０は、生成した特徴データと、音源データベース５０に登録されている登録特徴データとの照合を行う機能を有している。音源情報出力手段９０は、特徴データ照合手段８０による照合の結果、録音により得られた音響信号の特徴に最も類似する音源についての識別情報（楽器を識別するコード番号、ＭＩＤＩ規格のプログラム番号など）を、音源データベース５０から抽出して出力する機能を有している。図７に示した各構成手段は、図６に示したハードウェア構成に専用のプログラムを搭載することにより実現される。
【００４７】
図６の記憶装置３ａには、ＣＰＵ１ａを動作させ、コンピュータを、音源の識別装置として機能させるための専用のプログラムが実装されている。この専用のプログラムを実行することにより、ＣＰＵ１ａは、無音区間削除手段１０、音響フレーム読込手段２０、特徴データ生成手段３０、音響信号取得手段７０、特徴データ照合手段８０、音源情報出力手段９０としての機能を実現することになる。また、記憶装置３ａは、処理に必要な様々なデータを記憶する。
【００４８】
続いて、図６、図７に示した音源の識別装置の処理動作を、図８のフローチャートを用いて説明する。まず、利用者が音源の識別装置に対して起動の指示を行う。音源の識別装置が汎用のコンピュータで実現されている場合、キーボード上の所定のキーを押すか、画面に表示された所定の箇所をマウスでクリックすることにより、実行できる。利用者は音源の識別装置を起動後、任意のタイミングで識別対象の音を適当な区間（例えば、５秒間）だけ発生させる。例えば、楽器の試奏を５秒間行う。音源の識別装置は、指示が入力されると、マイクロフォン６０から流れている音楽を一定区間（例えば、２秒間）だけ取り込み、録音してデジタル音響信号として取得する（Ｓ２０１）。具体的には、マイクロフォン６０から入力される音響信号を、音響信号取得手段７０によりデジタル化する処理を行うことになる。
【００４９】
デジタル音響信号が得られたら、このデジタル音響信号から特徴データを生成する（Ｓ２０２）。具体的には、無音区間削除手段１０、音響フレーム読込手段２０、特徴データ生成手段３０が、図４に示したＳ１０１〜Ｓ１０４の処理を実行する。Ｓ２０２における特徴データ生成処理の結果、上記〔数式４〕に示したような特徴データδＶ（ｊ）が得られる。
【００５０】
取得されたデジタル音響信号から特徴データδＶ（ｊ）が得られたら、特徴データ照合手段８０が、音源データベース５０内の各登録特徴データとの照合を行う。まず、音源データベース５０から１つの登録特徴データを抽出し、特徴データとの相関演算を行う（Ｓ２０３）。具体的には、特徴データ照合手段８０は、以下の〔数式５〕に従った処理を実行し、相関値ＲＥを算出する。
【００５１】
上述のように、音源データベース５０に登録された登録特徴データと、取得されたデジタル音響信号から生成された特徴データは、いずれも同じ形式の偏差ベクトルδＶ（ｊ）であるが、以下の〔数式５〕では、音源データベース５０に登録された登録特徴データをδＶｄ（ｊ）、取得されたデジタル音響信号から生成された特徴データをδＶｑ（ｊ）として演算する。
【００５２】
〔数式５〕
ＲＥ＝｛δＶｑ（ｊ）・δＶｄ（ｊ）｝／｛｜δＶｑ（ｊ）｜｜δＶｄ（ｊ）｜｝＝Σ_j=f1,…,f2｛（δＶｑ（ｊ））×（δＶｄ（ｊ））｝／[｛Σ_j=f1,…,f2（δＶｑ（ｊ））²｝^1/2×｛Σ_j=f1,…,f2（δＶｄ（ｊ））²｝^1/2]
【００５３】
相関値としては、登録特徴データδＶｄ（ｊ）と特徴データδＶｑ（ｊ）の相関が評価できるものであれば、どのようなものであっても良いが、本実施形態では、ともに偏差ベクトルである両者の内積を相関値として算出している。上記〔数式５〕に示すように、本実施形態では、内積を各ベクトルの大きさ（δＶｑ（ｊ）、δＶｄ（ｊ）の２乗和平方根）で除算して相関値ＲＥとして算出することにより、両特徴データの対象である音の大きさの差を取り除いている。
【００５４】
１つの登録特徴データについて、相関値ＲＥが得られたら、音源データベース５０内の全音源に対応する登録特徴データについて処理が終了したかどうかを判断し（Ｓ２０４）、終了していなければ、全音源について相関値ＲＥが得られるまで繰り返し相関演算を実行する（Ｓ２０３）。
【００５５】
全音源について相関値ＲＥが得られたら、相関値ＲＥが最大となった音源を特定する。この際、相関値ＲＥについてしきい値を設定しておき、相関値ＲＥがしきい値より大きいものに限り選出するようにする。したがって、相関値ＲＥのうち最大のものがしきい値以下の場合には、音源は特定されない。その場合、発せられていた音と類似するものがなかったということになる。
【００５６】
相関値ＲＥのうち最大のものが、しきい値より大きい場合は、相関値ＲＥ算出の対象となった登録特徴データに対応付けて音源データベース５０内に記録された音源識別情報により音源が特定される（Ｓ２０５）。音源が特定されたら、音源情報出力手段９０が、特定された音源識別情報を所定の形式で出力する（Ｓ２０６）。出力は、音源識別情報に関連したコンテンツの表示出力、他の情報機器への音源識別情報のデータ伝送出力等様々な形式が可能で、設定された形式により対応した機器にて出力される。例えば、別途準備したマルチメディアコンテンツのデータベースに音源識別情報に対応付けて、楽器の詳細や解説コンテンツ、解説コンテンツのプログラムを記憶させておくことにより、解説コンテンツが起動され、表示出力Ｉ／Ｆ６ａを介した表示装置に表示される。あるいは、別の情報端末に対してＵＳＢインタフェースやワイヤレスインタフェースを介して音源識別情報を伝送することにより、前記情報端末に対して音源識別情報に対応した所定のプログラムを起動させるようにすることができる。
【００５７】
音源識別情報を出力する場合、コンピュータ等の情報処理装置に出力すれば、情報処理装置は、音源識別情報に応じた処理を行うことができる。例えば、コンピュータに音源識別情報ごとに異なる処理を行うプログラムを搭載しておくことにより、異なる音源にマイクロフォンを向けるだけで、異なる処理が行われることになる。
【００５８】
（４．変形例：２種の窓関数）
上記実施形態では、音源を時系列方向の平均スペクトルを基礎とした特徴データを生成した。しかし、一般に音は、図９（ａ）に示すように、音の立ち上がり部（アタックとディケイ）、定常部（サステイン）、立下り部（リリース）の４相でスペクトルが動的に変化するため、その特徴を単一な平均スペクトルを基礎として表現するのは簡単ではない。例えば、ある音響信号の時間軸を逆転させた逆回し波形は平均スペクトルに変化はないが、図９（ｂ）（ｃ）に示すように、波形が時間軸方向で反対になるため、音色が劇的に変化する。
【００５９】
上記実施形態では、フーリエ変換を行う場合、全ての音響フレームに対して、一律にハニング窓である窓関数Ｗ（ｉ）を用いているが、ハニング窓は、左右対称な形状であるため、逆回し波形を識別できないという問題がある。逆回し波形とは、ある音響信号の時間軸を逆転させたものである。例えば、ピアノの音色の音響信号を逆方向から再生した場合、オルガン風音色となるが、左右対称（正確には時間軸方向に前後対称）な上記窓関数Ｗ（ｉ）では、両者の違いを識別することができない。
【００６０】
このような逆回し波形にも対応可能とするため、本発明では、図１０（ａ）に示すような上記窓関数Ｗ（ｉ）に代えて左右非対称な２つの窓関数Ｗ（１，ｉ）、Ｗ（２，ｉ）を用いるようにすることもできる。窓関数Ｗ（１，ｉ）は、図１０（ｂ）に示すように所定のサンプル番号ｉの位置において、最大値１をとり、後部においては、最小値０をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、窓関数Ｗ（１，ｉ）の設計によって異なってくるが、本実施形態では、以下の〔数式６〕で定義される。また、窓関数Ｗ（２，ｉ）は、図１０（ｃ）に示すように、所定のサンプル番号ｉの位置において、最大値１をとり、前部においては、最小値０をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、窓関数Ｗ（２，ｉ）の設計によって異なってくるが、本実施形態では、以下の〔数式７〕で定義される。これらの窓関数は、特許文献３にも開示されているように公知の窓関数である。
【００６１】
〔数式６〕
ｉ≦Ｎ／８のとき、Ｗ（１，ｉ）＝０．０
Ｎ／８＜ｉ≦３Ｎ／８のとき、Ｗ（１，ｉ）＝０．５−０．５ｃｏｓ（４π（ｉ−Ｎ／８）／Ｎ）
３Ｎ／８＜ｉ≦１１Ｎ／１６のとき、Ｗ（１，ｉ）＝１．０
１１Ｎ／１６＜ｉ≦１３Ｎ／１６のとき、Ｗ（１，ｉ）＝０．５＋０．５ｃｏｓ（８π（ｉ−１１Ｎ／１６）／Ｎ）
ｉ＞１３Ｎ／１６のとき、Ｗ（１，ｉ）＝０．０
【００６２】
〔数式７〕
ｉ≦３Ｎ／１６のとき、Ｗ（２，ｉ）＝０．０
３Ｎ／１６＜ｉ≦５Ｎ／１６のとき、Ｗ（２，ｉ）＝０．５−０．５ｃｏｓ（８π（ｉ−３Ｎ／１６）／Ｎ）
５Ｎ／１６＜ｉ≦５Ｎ／８のとき、Ｗ（２，ｉ）＝１．０
５Ｎ／８＜ｉ≦７Ｎ／８のとき、Ｗ（２，ｉ）＝０．５＋０．５ｃｏｓ（４π（ｉ−５Ｎ／８）／Ｎ）
ｉ＞７Ｎ／８のとき、Ｗ（２，ｉ）＝０．０
【００６３】
このように、左右非対称な２つの窓関数を用いることにより、通常再生の場合と逆回し波形との識別を行うことが可能となる。ただし、逆回し波形は品質上の問題から使用される頻度は少なく、実際のピアノ音色とオルガン音色の波形は互いに時間軸反転させたような単純な形状ではないため、上記Ｗ（ｉ）のような対象は窓関数を用いても、通常の音源の識別は可能である。
【００６４】
以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、特徴データとして、各周波数に重みを乗じたものから平均値を減じた偏差ベクトルを算出するようにしたが、平均値を減じない状態のベクトルを特徴データとしても良い。
【符号の説明】
【００６５】
１、１ａ・・・ＣＰＵ
２、２ａ・・・ＲＡＭ
３、３ａ・・・記憶装置
４、４ａ・・・キー入力Ｉ／Ｆ
５、５ａ・・・データ入出力Ｉ／Ｆ
６、６ａ・・・表示出力Ｉ／Ｆ
７ａ・・・音声入力Ｉ／Ｆ
１０・・・無音区間削除手段
２０・・・音響フレーム読込手段
３０・・・特徴データ生成手段
４０・・・特徴データ登録手段
５０・・・音源データベース
６０・・・マイクロフォン
７０・・・音響信号取得手段
８０・・・特徴データ照合手段
９０・・・音源情報出力手段

【特許請求の範囲】
【請求項１】
音源から発せられる音を取得して、当該音源を識別する装置であって、
各音源について、その特徴を表現した登録特徴データと、各音源を特定する識別情報が対応付けて登録された音源データベースと、
前記音源より発せられる音を録音してデジタルの音響信号として取得する音響信号取得手段と、
前記音響信号に対して周波数解析を行い、時間的に平均化したスペクトルの各周波数成分に、それぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算した値に基づいて特徴データを生成する特徴データ生成手段と、
前記生成された特徴データと前記音源データベースに登録されている登録特徴データの各々と相関計算を行い、得られた相関値の中で、最大の相関値をもち、かつ当該相関値が所定のしきい値以上を満たす登録特徴データに対応する前記識別情報を特定する音源データベース検索手段と、
を有することを特徴とする音源の識別装置。
【請求項２】
請求項１において、
前記特徴データ生成手段は、前記音響信号取得手段により取得された音響信号の振幅が所定の値未満で所定の時間以上連続する無音区間を特定し、当該特定された無音区間を削除して音響信号を時間的に短縮する補正を実行し、当該補正された音響信号に対して、前記周波数解析を行うことを特徴とする音源の識別装置。
【請求項３】
請求項１または請求項２において、
前記特徴データ生成手段は、前記特徴データとして、各周波数成分に、それぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算した値の平均値を、各周波数成分に重みを乗算した値から減じた偏差ベクトルを生成することを特徴とする音源の識別装置。
【請求項４】
請求項１から請求項３のいずれか一項において、
前記特徴データ生成手段は、前記周波数解析として、前記音響信号に対して、所定の区間単位に分割し、分割した各区間の波形データに同区間長にあらかじめ定義された重み関数を重畳した波形データに対してフーリエ変換を行い、各区間ごとに得られた実数スペクトルを全区間に渡って平均化することにより時間的に平均化したスペクトルを得ることを特徴とする音源の識別装置。
【請求項５】
請求項４において、
前記各区間は隣接する区間どうしで区間長の１／２の時間幅だけ重複しており、
前記重み関数は時間軸方向に対して非対称な形状で２種類定義されており、奇数番目の区間に対しては、一方の重み関数を重畳し、偶数番目の区間に対しては、他方の重み関数を重畳するようにしていることを特徴とする音源の識別装置。
【請求項６】
請求項１から請求項５のいずれか一項に記載の音源の識別装置により特定された前記識別情報に基づいて処理が実行されることを特徴とする音源に連動する情報処理装置。

【図１】