説明

音源の識別装置および音源に連動する情報処理装置

【課題】 アコースティックス楽器、自然音、ヒト・生物等の音源が発した音から、音源を特定することが可能な音源の識別装置を提供する。
【解決手段】 音源から発せられる音を解析して、その特徴を表現した特徴データを生成し、音源データベースに登録しておき、マイクロフォンを介して録音した音を解析して特徴データを生成し、音源データベースに登録された特徴データと相関演算し、相関値が高いものを特定することにより、音源を特定する。特徴データの生成に際し、周波数解析により得られたスペクトルでは、高周波成分の差が目立たないため(a)(b)、各周波数成分に、それぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算し、高周波成分の差を明確にする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アコースティックス楽器、自然音、ヒト・生物が発する音、電子楽器を除く人工機械など音響信号を発する音源を識別するための技術に関する。
【背景技術】
【0002】
楽器を各種デジタル情報端末のユーザインタフェースとして活用する方法として、MIDI規格(Musical Instrument Digital Interface)に準拠した電子楽器を用いる手法が知られている。MIDI規格に対応した鍵盤楽器(キーボード、自動演奏ピアノ)、サイレント弦楽器、サイレント管楽器、サイレントドラムなどが既に開発されており、MIDIインタフェースを通じて楽器演奏により情報端末を操作することが可能である(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第3717640号公報
【特許文献2】特許第3935745号公報
【特許文献3】特開2011−107265号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、適用できる楽器はMIDI規格に準拠した電子楽器に制限される。一方、世の中には無数に近い種類のアコースティックス楽器が存在する。これに対して、特許文献2に開示されているようなアコースティックス楽器から出力される音響信号をMIDIデータに変換する符号化技術を活用する方法が考えられる。特許文献2の発明では演奏されるリズムや音階を認識して情報端末をMIDI規格に準拠した形態で渡すことは可能である。しかし、音色を認識することはできないため、演奏された楽器を特定することは困難であった。また、同一楽器でも演奏内容が異なると、符号化されるMIDIデータは変化するため、電子楽器のように同一楽器で再現性のあるデータを情報端末に渡すことは困難であった。従って、既存のアコースティックス楽器を情報端末の入力デバイスとして活用することは困難であった。
【0005】
そこで、本発明は、アコースティックス楽器、自然音、ヒト・生物等の音源が発した音から、音源を特定することが可能な音源の識別装置を提供することを課題とする。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本発明第1の態様では、音源から発せられる音を取得して、当該音源を識別する装置であって、各音源について、その特徴を表現した登録特徴データと、各音源を特定する識別情報が対応付けて登録された音源データベースと、前記音源より発せられる音を録音してデジタルの音響信号として取得する音響信号取得手段と、前記音響信号に対して周波数解析を行い、時間的に平均化したスペクトルの各周波数成分に、それぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算した値に基いて特徴データを生成する特徴データ生成手段と、前記生成された特徴データと前記音源データベースに登録されている登録特徴データの各々と相関計算を行い、得られた相関値の中で、最大の相関値をもち、かつ当該相関値が所定のしきい値以上を満たす登録特徴データに対応する前記識別情報を特定する音源データベース検索手段と、を有することを特徴とする音源の識別装置を提供する。
【0007】
本発明第1の態様によれば、音源から発せられる音をデジタル化した音響信号に対して周波数解析を行い、時間的に平均化したスペクトルの各周波数成分にそれぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算した特徴データを生成し、事前に登録されている登録特徴データと比較して、相関の高い登録特徴データを特定するようにしたので、音源間の違いがたとえ高周波成分のわずかな違いであってもその差が明確になり、アコースティックス楽器、自然音、ヒト・生物等の発せられた音の特徴を明確に識別することができるため、正しい音源を特定することが可能になる。
【0008】
本発明第2の態様では、本発明第1の態様の音源の識別装置における特徴データ生成手段が、前記音響信号取得手段により取得された音響信号の振幅が所定の値未満で所定の時間以上連続する無音区間を特定し、当該特定された無音区間を削除して音響信号を時間的に短縮する補正を実行し、当該補正された音響信号に対して、前記周波数解析を行うことを特徴とする。
【0009】
本発明第2の態様によれば、周波数解析を行う前に音響信号の無音区間を削除するようにしたので、特徴データの基礎となるスペクトルに対して、無音区間と発音区間との間隔が揺らいでも音源の同定に与える影響を防ぐことが可能となる。
【0010】
本発明第3の態様では、本発明第1または第2の態様の音源の識別装置における特徴データ生成手段が、前記特徴データとして、各周波数成分に、それぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算した値の平均値を、各周波数成分に重みを乗算した値から減じた偏差ベクトルを生成することを特徴とする。
【0011】
本発明第3の態様によれば、特徴データとして、各周波数成分にそれぞれ異なる重みを乗算したものの平均値を減じた偏差ベクトルを生成するようにしたので、特徴のある周波数成分がより明確になり、各音源の識別が容易になる。
【0012】
本発明第4の態様では、本発明第1から第3のいずれかの態様の音源の識別装置における特徴データ生成手段が、前記周波数解析として、前記音響信号に対して、所定の区間単位に分割し、分割した各区間の波形データに同区間長にあらかじめ定義された重み関数を重畳した波形データに対してフーリエ変換を行い、各区間ごとに得られた実数スペクトルを全区間に渡って平均化することにより時間的に平均化したスペクトルを得ることを特徴とする音源の識別装置。
【0013】
本発明第4の態様によれば、周波数解析として、音響信号を所定の区間単位に分割し、各区間の波形データに対してフーリエ変換を行い、各区間ごとに得られた実数スペクトルを全区間に渡って平均化するようにしたので、周波数解析の時間分解能を落とすことなく、全区間に渡る特徴である特徴データを生成することが可能になる。
【0014】
本発明第5の態様では、本発明第4の態様の音源の識別装置において、前記各区間は隣接する区間どうしで区間長の1/2の時間幅だけ重複しており、前記重み関数は時間軸方向に対して非対称な形状で2種類定義されており、奇数番目の区間に対しては、一方の重み関数を重畳し、偶数番目の区間に対しては、他方の重み関数を重畳するようにしていることを特徴とする。
【0015】
本発明第5の態様によれば、各区間を隣接する区間どうしで区間長の1/2の時間幅だけ重複させ、重み関数を時間軸方向に対して非対称な形状で2種類定義し、奇数番目の区間と偶数番目の区間で異なる重み関数を重畳するようにしたので、音響信号を逆から再生した逆回し波形と元の音響信号を正常に再生した音との識別が可能になる。
【0016】
本発明第6の態様では、本発明第1から第5のいずれかの態様の音源の識別装置により特定された前記識別情報に基づいて処理が実行される音源に連動する情報処理装置を提供する。
【0017】
本発明第6の態様によれば、音源の識別装置により特定された識別情報に基づいて情報処理装置が処理を実行するようにしたので、発せられた音にマイクを向けるだけで、その音源に対応した処理が実行されることになる。
【発明の効果】
【0018】
本発明によれば、アコースティックス楽器、自然音、ヒト・生物等の音源が発した音から、音源を特定することが可能となる。
【図面の簡単な説明】
【0019】
【図1】本発明の基本概念を説明するための図である。
【図2】登録特徴データ生成装置のハードウェア構成図である。
【図3】登録特徴データ生成装置の機能ブロック図である。
【図4】図2、3に示した装置の処理動作を示すフローチャートである。
【図5】無音区間の削除を説明するための図である。
【図6】本発明に係る音源の識別装置のハードウェア構成図である。
【図7】本発明に係る音源の識別装置の機能ブロック図である。
【図8】図6、7に示した装置の処理動作を示すフローチャートである。
【図9】音の振幅変化と逆回し波形を示す図である。
【図10】本発明で用いる窓関数を示す図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態について図面を参照して詳細に説明する。
(1.本発明の基本概念)
まず、本発明の基本概念について説明する。本発明では、音源から発せられる音を周波数解析し、音源ごとのスペクトルを生成する。生成したスペクトルに基づいてその音源の特徴を表現した特徴データを生成し、音源の識別情報等とともにデータベースに記録しておく。そして、識別対象とする音を取得し、周波数解析を行って特徴データを生成し、データベース内の特徴データと比較・照合することにより、その音の音源を特定する。
【0021】
この特徴データの基本となる音源のスペクトルは、調波構造をもっており、図1(a)(b)に示すように、周波数に反比例して信号成分が小さくなる傾向がある。特に、楽器を音源とした場合、高次倍音に音色の特徴が現れることが多いため、高周波成分における差が目立たなくなる。そこで、本発明では、周波数値に比例した値を重みとして乗じたスペクトルを特徴データとして生成し、高周波成分の差を際立たせ、各音源の識別を容易にする。例えば、図1(a)(b)に示した楽器ア、楽器イのスペクトルに、周波数値に比例した値を重みとして乗じると、図1(c)(d)に示すような重み付けスペクトルが得られる。高周波成分になる程大きな重みが乗じられているため、図1(c)と(d)の波形を比較すると明らかなように、高周波成分の差が目立つことになる。
【0022】
(2.音源データベースの準備)
次に、具体的な実施形態について説明していく。
まず、音源データベースに登録する特徴データの生成を、登録特徴データ生成装置により行う。図2は、登録特徴データ生成装置のハードウェア構成図である。登録特徴データ生成装置は、汎用のコンピュータで実現することができ、図2に示すように、CPU1(CPU: Central Processing Unit)と、コンピュータのメインメモリであるRAM2(RAM: Random Access Memory)と、CPUが実行するプログラムやデータを記憶するための大容量の記憶装置3(例えば、ハードディスク、フラッシュメモリ等)と、キーボード、マウス等のキー入力I/F(インターフェース)4と、外部装置(データ記憶媒体等)とデータ通信するためのデータ入出力I/F(インターフェース)5と、表示装置(液晶ディスプレイ等)に情報を送出するための表示出力I/F(インターフェース)6と、を備え、互いにバスを介して接続されている。
【0023】
図3は、登録特徴データ生成装置の構成を示す機能ブロック図である。図3において、10は無音区間削除手段、20は音響フレーム読込手段、30は特徴データ生成手段、40は特徴データ登録手段、50は音源データベースである。
【0024】
無音区間削除手段10は、デジタル音響信号のうち、無音であると判断される区間(無音区間)を削除する機能を有している。音響フレーム読込手段20は、ある音を素材として記録したデジタルの音響信号から所定数Nのサンプルを1音響フレームとして順次読み込む機能を有している。特徴データ生成手段30は、読み込んだ音響フレームを利用して、周波数解析を行い、その音源についての音響信号の特徴を表現した特徴データを生成する機能を有している。この特徴データは、ある音響信号の特徴を少ないデータ量で表現したものであり、後述するようにN/2次元のベクトルである。特徴データ登録手段40は、生成した特徴データを、元の音響信号に対応する音源に関連する関連情報、および音源を特定するための識別情報である音源IDと対応付けて登録特徴データとして音源データベース50に登録する機能を有している。音源とは、上述のように、楽器、自然物、生物、自然現象等、音の発信源を示すものである。図3に示した各構成手段は、図2に示したハードウェア構成に専用のプログラムを搭載することにより実現される。
【0025】
図2の記憶装置3には、CPU1を動作させ、コンピュータを、登録特徴データ生成装置として機能させるための専用のプログラムが実装されている。この専用のプログラムを実行することにより、CPU1は、無音区間削除手段10、音響フレーム読込手段20、特徴データ生成手段30、特徴データ登録手段40としての機能を実現することになる。また、記憶装置3は、処理に必要な様々なデータを記憶する。
【0026】
次に、図2、図3に示した登録特徴データ生成装置の処理動作について図4のフローチャートに従って説明する。まず、登録特徴データ生成装置は、事前に準備された識別情報がわかっている音源を録音した音響信号ファイルから、デジタルの音響信号を読み込む。このデジタル音響信号は、アナログ音響信号に対して、PCM等の手法によりサンプリングを行うことにより得られたものである。例えば、サンプリング周波数が44.1kHzの場合、1秒当たり44100のサンプルとして得られることになる。
【0027】
登録特徴データ生成装置では、デジタル音響信号を読み込んだ後、無音区間削除手段10が、無音区間の削除を行う(S101)。具体的には、サンプルの値が所定のしきい値未満となるサンプルが所定数連続した場合に、無音区間であると判断し、無音区間を削除する。各サンプルのしきい値、無音サンプルの連続数は適宜設定することができる。本実施形態では、サンプリング周波数44.1kHz、量子化ビット数16ビット(10進数で−32768〜+32767)を条件として、各サンプルの絶対値のしきい値を1000(10進数)、無音サンプルの連続数を2048としている。無音サンプルの連続数を2048は、サンプリング周波数44.1kHzの場合、約0.046秒に相当する。
【0028】
図5は、無音区間の削除を説明するための図である。図5においては、音響信号の各サンプル値を線分で結んで波形として示している。無音区間の削除は、図5に示すように、無音区間のサンプルの値を0にするのではなく、その区間のサンプル自体を除去し、後方の発音区間のサンプルを前に詰めることにより行う。したがって、S101における無音区間の削除処理の結果、読み込まれた音響信号の総サンプル数は減少し、そのまま再生した場合の再生時間も短くなることになる。音源の特性によっては、無音区間の削除は必ずしも行う必要はない。しかし、パーカッション楽器音のように、短い発音区間が間欠的に並んでいるタイプの場合、無音区間と発音区間の比率(演奏リズム)により、開始から終了までの平均のスペクトルが大きく変化してしまう。例えば、図3、図4に示される特徴データを登録する際に準備した太鼓の音Aと、後述の図7で示されるマイクロフォン60で取り込まれる太鼓の音Bとは、演奏者が異なりリズムも異なるのが一般的であるが、図3、図4のような登録時および図7、図8のような識別時の双方の処理において、この無音区間の削除処理を実行させることにより、太鼓の音Aと太鼓の音Bとのリズムの相違を吸収し、太鼓の音Aと太鼓の音Bとは同一の音源であると判定することが可能になる。このため、短い発音区間が間欠的に並んでいるタイプの音源に対しては、無音区間の削除を行うことが有効である。
【0029】
無音区間の削除を終えたら、続いて、音響フレーム読込手段20が、音響信号から、所定数のサンプルを1音響フレームとして読み込む。音響フレーム読込手段20が読み込む1音響フレームのサンプル数は、適宜設定することができるが、サンプリング周波数が44.1kHzの場合、4096サンプル程度とすることが望ましい。これは、約0.093秒に相当する。ただし、後述する周波数変換における窓関数の利用により値が減少するサンプルを考慮して、音響フレームは、所定数分のサンプルを重複させて読み込むことにしている。本実施形態では、音響フレームの区間長のちょうど1/2となる2048サンプルを重複させている。したがって、先頭の音響フレームはサンプル1〜4096、2番目の音響フレームはサンプル2049〜6144、3番目の音響フレームはサンプル4097〜8192というように、順次読み込まれていくことになる。
【0030】
続いて、特徴データ生成手段30は、読み込んだ各音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る(S102)。具体的には、音響フレーム読込手段20が読み込んだ音響フレームについて、窓関数を利用して周波数変換を行う。周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができる。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。
【0031】
ここで、本実施形態においてフーリエ変換に利用する窓関数について説明しておく。一般に、所定の信号に対してフーリエ変換を行う場合、信号を所定の長さに区切って行う必要があるが、この場合、所定長さの信号に対してそのままフーリエ変換を行うと、高域部に擬似成分が発生する。そこで、一般にフーリエ変換を行う場合には、ハニング窓と呼ばれる窓関数を用いて、信号の値を変化させた後、変化後の値に対してフーリエ変換を実行する。
【0032】
S102においてフーリエ変換を行う場合、具体的には、サンプルiにおける値X(i)(i=0,…,N−1)に対して、ハニング窓関数W(i)(=0.5−0.5cos(2πi/N))を用いて、以下の〔数式1〕に従った処理を行う。これを各音響フレームg(g=0,…,G−1)に対して実行し、各音響フレームgの各周波数における実部A(g,j)、虚部B(g,j)を得る。
【0033】
〔数式1〕
A(g,j)=Σi=0,…,N-1W(i)・X(i)・cos(2πij/N)
B(g,j)=Σi=0,…,N-1W(i)・X(i)・sin(2πij/N)
【0034】
続いて、特徴データ生成手段30は、時間方向の平均化を行う(S103)。具体的には、以下の〔数式2〕に従った処理を行い、各周波数におけるG個の音響フレームの平均スペクトルV(j)を得る。
【0035】
〔数式2〕
V(j)=[Σg=0,…,G-1{A(g,j)2+B(g,j)2}/G] 1/2
【0036】
〔数式1〕〔数式2〕において、iは、各音響フレーム内のN個のサンプルに付した通し番号であり、i=0,1,2,…N−1の整数値をとる。また、jは周波数の値について、値の小さなものから順に付した通し番号であるが、算出したスペクトルより折り返し成分を除く下半分を用いる。したがって、j=1,2,…N/2の整数値をとる。サンプリング周波数が44.1kHz、N=4096の場合、jの値が1つ異なると、周波数が10.8Hz異なることになる。〔数式2〕に従った処理の結果、G個の全音響フレームを平均化した、各周波数における平均スペクトルV(j)が得られる。
【0037】
続いて、特徴データ生成手段30は、偏差ベクトルの算出を行う(S104)。具体的には、全音響フレームに渡って平均化した平均スペクトルV(j)の各周波数成分に、周波数値が大きくなるのに伴って大きくなる値jを重みとして乗じ、各周波数成分について、全周波数の平均を減じる処理を行う。実際には、特徴データ生成手段30は、以下の〔数式3〕に従った処理を実行し、平均値Avを算出する。
【0038】
〔数式3〕
Av=Σj=f1,…,f2V(j)・j/(f2-f1+1)
【0039】
〔数式3〕においては、周波数番号f1からf2の間の各周波数について、その平均スペクトルV(j)に周波数番号jを乗じたものの平均値Avを算出している。周波数番号f1、f2としては、音源データベースに登録されている登録特徴ワードの元になった音響信号の周波数帯域に応じて適宜設定することが可能であるが、本実施形態では、f1=27(約300Hzに相当)、f2=743(約8000Hzに相当)と設定している。
【0040】
そして、特徴データ生成手段30は、以下の〔数式4〕に従った処理を実行し、偏差ベクトルδV(j)を特徴データとして算出する。
【0041】
〔数式4〕
δV(j)=V(j)・j−Av
【0042】
以上のようにして、ある音源の音響信号から偏差ベクトルである特徴データδV(j)が生成される。この特徴データδV(j)は、最大N/2次元(N=4096の場合、2048次元)の偏差ベクトルとなる。ただし、上述のように設定されたf1、f2に従い(f2−f1+1)次元となる。したがって、f1=27、f2=743と設定されている場合は、717次元となる。特徴データδV(j)が生成されたら、特徴データ登録手段40は、別途入力された音響ID、音源名等の関連情報と対応付けて特徴データδV(j)を音源データベース50に登録する。現実には、記憶装置3内の所定の領域に格納されることになる。
【0043】
(3.音源の識別)
次に、本発明に係る音源の識別装置について説明する。図6は、本発明に係る音源の識別装置のハードウェア構成図である。音源の識別装置は、登録特徴データ生成装置と同様、汎用のコンピュータで実現することができ、図6に示すように、CPU1a(CPU: Central Processing Unit)と、コンピュータのメインメモリであるRAM2a(RAM: Random Access Memory)と、CPU1aが実行するプログラムやデータを記憶するための大容量の記憶装置3a(例えば、ハードディスク、フラッシュメモリ等)と、キーボード、マウス等のキー入力I/F(インターフェース)4aと、外部装置(データ記憶媒体等)とデータ通信するためのデータ入出力I/F(インターフェース)5aと、表示装置(ディスプレイ)に情報を送出するための表示出力I/F(インターフェース)6aと、マイクロフォンと接続された音声入力I/F(インターフェース)7aと、を備え、互いにバスを介して接続されている。
【0044】
図7は、本発明に係る音源の識別装置の構成を示す機能ブロック図である。図7において、10は無音区間削除手段、20は音響フレーム読込手段、30は特徴データ生成手段、50は音源データベース、60はマイクロフォン、70は音響信号取得手段、80は特徴データ照合手段、90は音源情報出力手段である。図3と同一符号の構成要素については、図3と同様の機能を有するものであるので、説明は省略する。図7の処理は、利用者からの指示に基づいて起動されるが、利用者から発せられる識別対象の音をタイミング良く取り込むため、利用者から停止の指示があるまで、繰り返し実行されるような実施形態をとる。即ち、後述する図8の最後の音源情報の出力(S206)を実行したら、音響信号の取得(S201)に再び戻り以下同様な処理を実行するようにする。
【0045】
マイクロフォン60は、低周波成分から高周波成分まで広い範囲の音を忠実に取り込む性能を持っている必要は無く、スマートフォンなど各種携帯端末や携帯ゲーム機に内蔵されている安価な民生用マイクロフォンを用いることができる。具体的には、前述の通り特徴データの作成において、〔数式3〕に示されるように、周波数番号f1=27(約300Hzに相当)からf2=743(約8000Hzに相当)の周波数範囲しか計算対象としていないため、必要とするマイクロフォン60の性能としてはこの範囲をカバーしていれば良い(商品として販売されるマイクロフォンは少なくともこの周波数範囲をカバーする)。音響信号取得手段70は、マイクロフォン60で取り込んだアナログ音響信号をA/D変換してデジタル化する機能を有している。
【0046】
特徴データ照合手段80は、生成した特徴データと、音源データベース50に登録されている登録特徴データとの照合を行う機能を有している。音源情報出力手段90は、特徴データ照合手段80による照合の結果、録音により得られた音響信号の特徴に最も類似する音源についての識別情報(楽器を識別するコード番号、MIDI規格のプログラム番号など)を、音源データベース50から抽出して出力する機能を有している。図7に示した各構成手段は、図6に示したハードウェア構成に専用のプログラムを搭載することにより実現される。
【0047】
図6の記憶装置3aには、CPU1aを動作させ、コンピュータを、音源の識別装置として機能させるための専用のプログラムが実装されている。この専用のプログラムを実行することにより、CPU1aは、無音区間削除手段10、音響フレーム読込手段20、特徴データ生成手段30、音響信号取得手段70、特徴データ照合手段80、音源情報出力手段90としての機能を実現することになる。また、記憶装置3aは、処理に必要な様々なデータを記憶する。
【0048】
続いて、図6、図7に示した音源の識別装置の処理動作を、図8のフローチャートを用いて説明する。まず、利用者が音源の識別装置に対して起動の指示を行う。音源の識別装置が汎用のコンピュータで実現されている場合、キーボード上の所定のキーを押すか、画面に表示された所定の箇所をマウスでクリックすることにより、実行できる。利用者は音源の識別装置を起動後、任意のタイミングで識別対象の音を適当な区間(例えば、5秒間)だけ発生させる。例えば、楽器の試奏を5秒間行う。音源の識別装置は、指示が入力されると、マイクロフォン60から流れている音楽を一定区間(例えば、2秒間)だけ取り込み、録音してデジタル音響信号として取得する(S201)。具体的には、マイクロフォン60から入力される音響信号を、音響信号取得手段70によりデジタル化する処理を行うことになる。
【0049】
デジタル音響信号が得られたら、このデジタル音響信号から特徴データを生成する(S202)。具体的には、無音区間削除手段10、音響フレーム読込手段20、特徴データ生成手段30が、図4に示したS101〜S104の処理を実行する。S202における特徴データ生成処理の結果、上記〔数式4〕に示したような特徴データδV(j)が得られる。
【0050】
取得されたデジタル音響信号から特徴データδV(j)が得られたら、特徴データ照合手段80が、音源データベース50内の各登録特徴データとの照合を行う。まず、音源データベース50から1つの登録特徴データを抽出し、特徴データとの相関演算を行う(S203)。具体的には、特徴データ照合手段80は、以下の〔数式5〕に従った処理を実行し、相関値REを算出する。
【0051】
上述のように、音源データベース50に登録された登録特徴データと、取得されたデジタル音響信号から生成された特徴データは、いずれも同じ形式の偏差ベクトルδV(j)であるが、以下の〔数式5〕では、音源データベース50に登録された登録特徴データをδVd(j)、取得されたデジタル音響信号から生成された特徴データをδVq(j)として演算する。
【0052】
〔数式5〕
RE={δVq(j)・δVd(j)}/{|δVq(j)||δVd(j)|}=Σj=f1,…,f2{(δVq(j))×(δVd(j))}/[{Σj=f1,…,f2(δVq(j))21/2×{Σj=f1,…,f2(δVd(j))21/2]
【0053】
相関値としては、登録特徴データδVd(j)と特徴データδVq(j)の相関が評価できるものであれば、どのようなものであっても良いが、本実施形態では、ともに偏差ベクトルである両者の内積を相関値として算出している。上記〔数式5〕に示すように、本実施形態では、内積を各ベクトルの大きさ(δVq(j)、δVd(j)の2乗和平方根)で除算して相関値REとして算出することにより、両特徴データの対象である音の大きさの差を取り除いている。
【0054】
1つの登録特徴データについて、相関値REが得られたら、音源データベース50内の全音源に対応する登録特徴データについて処理が終了したかどうかを判断し(S204)、終了していなければ、全音源について相関値REが得られるまで繰り返し相関演算を実行する(S203)。
【0055】
全音源について相関値REが得られたら、相関値REが最大となった音源を特定する。この際、相関値REについてしきい値を設定しておき、相関値REがしきい値より大きいものに限り選出するようにする。したがって、相関値REのうち最大のものがしきい値以下の場合には、音源は特定されない。その場合、発せられていた音と類似するものがなかったということになる。
【0056】
相関値REのうち最大のものが、しきい値より大きい場合は、相関値RE算出の対象となった登録特徴データに対応付けて音源データベース50内に記録された音源識別情報により音源が特定される(S205)。音源が特定されたら、音源情報出力手段90が、特定された音源識別情報を所定の形式で出力する(S206)。出力は、音源識別情報に関連したコンテンツの表示出力、他の情報機器への音源識別情報のデータ伝送出力等様々な形式が可能で、設定された形式により対応した機器にて出力される。例えば、別途準備したマルチメディアコンテンツのデータベースに音源識別情報に対応付けて、楽器の詳細や解説コンテンツ、解説コンテンツのプログラムを記憶させておくことにより、解説コンテンツが起動され、表示出力I/F6aを介した表示装置に表示される。あるいは、別の情報端末に対してUSBインタフェースやワイヤレスインタフェースを介して音源識別情報を伝送することにより、前記情報端末に対して音源識別情報に対応した所定のプログラムを起動させるようにすることができる。
【0057】
音源識別情報を出力する場合、コンピュータ等の情報処理装置に出力すれば、情報処理装置は、音源識別情報に応じた処理を行うことができる。例えば、コンピュータに音源識別情報ごとに異なる処理を行うプログラムを搭載しておくことにより、異なる音源にマイクロフォンを向けるだけで、異なる処理が行われることになる。
【0058】
(4.変形例:2種の窓関数)
上記実施形態では、音源を時系列方向の平均スペクトルを基礎とした特徴データを生成した。しかし、一般に音は、図9(a)に示すように、音の立ち上がり部(アタックとディケイ)、定常部(サステイン)、立下り部(リリース)の4相でスペクトルが動的に変化するため、その特徴を単一な平均スペクトルを基礎として表現するのは簡単ではない。例えば、ある音響信号の時間軸を逆転させた逆回し波形は平均スペクトルに変化はないが、図9(b)(c)に示すように、波形が時間軸方向で反対になるため、音色が劇的に変化する。
【0059】
上記実施形態では、フーリエ変換を行う場合、全ての音響フレームに対して、一律にハニング窓である窓関数W(i)を用いているが、ハニング窓は、左右対称な形状であるため、逆回し波形を識別できないという問題がある。逆回し波形とは、ある音響信号の時間軸を逆転させたものである。例えば、ピアノの音色の音響信号を逆方向から再生した場合、オルガン風音色となるが、左右対称(正確には時間軸方向に前後対称)な上記窓関数W(i)では、両者の違いを識別することができない。
【0060】
このような逆回し波形にも対応可能とするため、本発明では、図10(a)に示すような上記窓関数W(i)に代えて左右非対称な2つの窓関数W(1,i)、W(2,i)を用いるようにすることもできる。窓関数W(1,i)は、図10(b)に示すように所定のサンプル番号iの位置において、最大値1をとり、後部においては、最小値0をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、窓関数W(1,i)の設計によって異なってくるが、本実施形態では、以下の〔数式6〕で定義される。また、窓関数W(2,i)は、図10(c)に示すように、所定のサンプル番号iの位置において、最大値1をとり、前部においては、最小値0をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、窓関数W(2,i)の設計によって異なってくるが、本実施形態では、以下の〔数式7〕で定義される。これらの窓関数は、特許文献3にも開示されているように公知の窓関数である。
【0061】
〔数式6〕
i≦N/8のとき、W(1,i)=0.0
N/8<i≦3N/8のとき、W(1,i)=0.5−0.5cos(4π(i−N/8)/N)
3N/8<i≦11N/16のとき、W(1,i)=1.0
11N/16<i≦13N/16のとき、W(1,i)=0.5+0.5cos(8π(i−11N/16)/N)
i>13N/16のとき、W(1,i)=0.0
【0062】
〔数式7〕
i≦3N/16のとき、W(2,i)=0.0
3N/16<i≦5N/16のとき、W(2,i)=0.5−0.5cos(8π(i−3N/16)/N)
5N/16<i≦5N/8のとき、W(2,i)=1.0
5N/8<i≦7N/8のとき、W(2,i)=0.5+0.5cos(4π(i−5N/8)/N)
i>7N/8のとき、W(2,i)=0.0
【0063】
このように、左右非対称な2つの窓関数を用いることにより、通常再生の場合と逆回し波形との識別を行うことが可能となる。ただし、逆回し波形は品質上の問題から使用される頻度は少なく、実際のピアノ音色とオルガン音色の波形は互いに時間軸反転させたような単純な形状ではないため、上記W(i)のような対象は窓関数を用いても、通常の音源の識別は可能である。
【0064】
以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、特徴データとして、各周波数に重みを乗じたものから平均値を減じた偏差ベクトルを算出するようにしたが、平均値を減じない状態のベクトルを特徴データとしても良い。
【符号の説明】
【0065】
1、1a・・・CPU
2、2a・・・RAM
3、3a・・・記憶装置
4、4a・・・キー入力I/F
5、5a・・・データ入出力I/F
6、6a・・・表示出力I/F
7a・・・音声入力I/F
10・・・無音区間削除手段
20・・・音響フレーム読込手段
30・・・特徴データ生成手段
40・・・特徴データ登録手段
50・・・音源データベース
60・・・マイクロフォン
70・・・音響信号取得手段
80・・・特徴データ照合手段
90・・・音源情報出力手段

【特許請求の範囲】
【請求項1】
音源から発せられる音を取得して、当該音源を識別する装置であって、
各音源について、その特徴を表現した登録特徴データと、各音源を特定する識別情報が対応付けて登録された音源データベースと、
前記音源より発せられる音を録音してデジタルの音響信号として取得する音響信号取得手段と、
前記音響信号に対して周波数解析を行い、時間的に平均化したスペクトルの各周波数成分に、それぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算した値に基づいて特徴データを生成する特徴データ生成手段と、
前記生成された特徴データと前記音源データベースに登録されている登録特徴データの各々と相関計算を行い、得られた相関値の中で、最大の相関値をもち、かつ当該相関値が所定のしきい値以上を満たす登録特徴データに対応する前記識別情報を特定する音源データベース検索手段と、
を有することを特徴とする音源の識別装置。
【請求項2】
請求項1において、
前記特徴データ生成手段は、前記音響信号取得手段により取得された音響信号の振幅が所定の値未満で所定の時間以上連続する無音区間を特定し、当該特定された無音区間を削除して音響信号を時間的に短縮する補正を実行し、当該補正された音響信号に対して、前記周波数解析を行うことを特徴とする音源の識別装置。
【請求項3】
請求項1または請求項2において、
前記特徴データ生成手段は、前記特徴データとして、各周波数成分に、それぞれ周波数値が大きくなるのに伴って大きくなる重みを乗算した値の平均値を、各周波数成分に重みを乗算した値から減じた偏差ベクトルを生成することを特徴とする音源の識別装置。
【請求項4】
請求項1から請求項3のいずれか一項において、
前記特徴データ生成手段は、前記周波数解析として、前記音響信号に対して、所定の区間単位に分割し、分割した各区間の波形データに同区間長にあらかじめ定義された重み関数を重畳した波形データに対してフーリエ変換を行い、各区間ごとに得られた実数スペクトルを全区間に渡って平均化することにより時間的に平均化したスペクトルを得ることを特徴とする音源の識別装置。
【請求項5】
請求項4において、
前記各区間は隣接する区間どうしで区間長の1/2の時間幅だけ重複しており、
前記重み関数は時間軸方向に対して非対称な形状で2種類定義されており、奇数番目の区間に対しては、一方の重み関数を重畳し、偶数番目の区間に対しては、他方の重み関数を重畳するようにしていることを特徴とする音源の識別装置。
【請求項6】
請求項1から請求項5のいずれか一項に記載の音源の識別装置により特定された前記識別情報に基づいて処理が実行されることを特徴とする音源に連動する情報処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2013−15601(P2013−15601A)
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願番号】特願2011−146985(P2011−146985)
【出願日】平成23年7月1日(2011.7.1)
【出願人】(000002897)大日本印刷株式会社 (14,506)
【Fターム(参考)】