説明

楽曲検索装置および方法、プログラム、並びに記録媒体

【課題】入力信号から楽曲を精度良く同定する。
【解決手段】指標算出部は、時間周波数領域に変換された入力信号の各領域の信号成分の強さと、信号成分の強さを近似した関数とに基づいて、信号成分のトーンらしさの指標を算出し、類似度算出部は、指標に基づいて求められる入力信号の各領域における特徴量と、時間周波数領域に変換された参照信号について算出された指標に基づいて求められる参照信号の各領域における特徴量の類似度を算出し、楽曲同定部は、類似度に基づいて、入力信号の楽曲を同定する。本技術は、入力信号から楽曲を同定する楽曲検索装置に適用することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本技術は、楽曲検索装置および方法、プログラム、並びに記録媒体に関し、特に、入力信号から楽曲を同定することができるようにする楽曲検索装置および方法、プログラム、並びに記録媒体に関する。
【背景技術】
【0002】
従来、入力信号として入力される楽曲を同定するために、入力信号の特徴量と、同定される楽曲の候補となる参照信号の特徴量とのマッチング処理が行われている。しかしながら、例えば、ドラマ等のテレビジョン番組の放送音源を入力信号とした場合、入力信号には、BGM(Back Ground Music)としての楽曲の信号成分と、人の会話や騒音(環境雑音)、ホワイトノイズやピンクノイズ、効果音等、楽曲以外の信号成分である雑音成分(以下、単に雑音ともいう)とが混在していることが多く、この雑音による入力信号の特徴量の変化が、マッチング処理の結果に影響を及ぼしてしまう。
【0003】
そこで、入力信号の特徴量において、信頼度の低い成分をマスクするマスクパターンを用いて、信頼度の高い成分のみを用いてマッチング処理を行う技術が提案されている。
【0004】
具体的には、時間周波数領域の信号に変換された入力信号の特徴量を表現する特徴行列に対して、所定の時間周波数領域に対応する行列成分をマスクする複数種類のマスクパターンを予め用意し、入力信号の特徴量とデータベース内の複数の参照信号の特徴量とのマッチング処理を全てのマスクパターンを用いて行い、最も高い類似度が算出された参照信号の楽曲を、入力信号の楽曲として同定するようにしたものがある(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−276776号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、入力信号において、どの時間にどの周波数の雑音が重畳されているかは予測できず、そのような入力信号に適したマスクパターンを予め用意することは困難であるので、特許文献1の技術では、適切なマッチング処理を行うことができず、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することはできない。
【0007】
一方で、入力信号において平均パワーが大きい時間区間における成分を、楽曲以外の雑音が重畳されている成分と仮定し、入力信号において平均パワーが小さい時間区間の特徴量のみを用いてマッチングを行うようにするマスクパターンを作成する技術がある。この手法によれば、入力信号に応じたマスクパターンを作成することはできるが、そのマスクパターンは、周波数成分が考慮されておらず、入力信号に適したマスクパターンとは言えない。さらに、図1の左側に示されるように、時間周波数領域の入力信号において、楽曲の信号成分Dmに人の会話による雑音Dvが含まれている場合、この技術では、人の会話が途切れている領域S1およびS2におけるわずかな時間区間の特徴量のみを用いてしかマッチング処理を行うことができないので、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することは困難である。楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定するには、図1の右側に示されるように、領域S3およびS4における楽曲の信号成分Dmの特徴量を用いてマッチング処理を行うことが望ましい。
【0008】
本技術は、このような状況に鑑みてなされたものであり、入力信号から楽曲を精度良く同定することができるようにするものである。
【課題を解決するための手段】
【0009】
本技術の一側面の楽曲検索装置は、入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する楽曲検索装置であって、時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部と、前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出部と、前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定部とを備える。
【0010】
前記指標算出部には、所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出部と、前記極大となる点近傍の前記信号成分の強さをテンプレート関数で近似する近似処理部とを設け、前記極大となる点近傍の前記信号成分の強さと前記テンプレート関数との誤差に基づいて、前記指標を算出させることができる。
【0011】
前記指標算出部には、前記テンプレート関数の曲率に応じて前記指標を調整させることができる。
【0012】
前記指標算出部には、前記テンプレート関数が極大となる点の周波数に応じて前記指標を調整させることができる。
【0013】
前記楽曲検索装置には、前記入力信号の各領域における第1の特徴量と、前記参照信号の各領域における前記第1の特徴量とに基づいて、前記入力信号および前記参照信号の各領域に対する重み分布を生成するとともに、前記入力信号の各領域における第1の特徴量と、前記参照信号の各領域における前記第1の特徴量との第1の特徴量同士の類似度を算出する重み分布生成手段をさらに設け、前記類似度算出部には、前記重み分布による重み付けおよび前記第1の特徴量同士の類似度に基づいて、前記入力信号の各領域における第2の特徴量と、前記参照信号の各領域における前記第2の特徴量の類似度を算出させることができる。
【0014】
前記楽曲検索装置には、前記指標を時間方向にフィルタリングすることにより得られる前記指標の時間平均量を、前記第1の特徴量として算出する第1の特徴量算出部と、前記指標を時間方向にフィルタリングすることにより得られる前記指標の時間変化量を、前記第2の特徴量として算出する第2の特徴量算出部とをさらに設けることができる。
【0015】
本技術の一側面の楽曲検索方法は、入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する楽曲検索方法であって、時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出ステップと、前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定ステップとを含む。
【0016】
本技術の一側面のプログラムおよび一側面の記録媒体に記録されるプログラムは、入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理をコンピュータに実行させるプログラムであって、時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出ステップと、前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定ステップとを含む処理をコンピュータに実行させる。
【0017】
本技術の一側面においては、時間周波数領域に変換された入力信号の各領域の信号成分の強さと、信号成分の強さを近似した関数とに基づいて、信号成分のトーンらしさの指標が算出され、指標に基づいて求められる入力信号の各領域における特徴量と、時間周波数領域に変換された参照信号について算出された指標に基づいて求められる参照信号の各領域における特徴量の類似度が算出され、類似度に基づいて、入力信号の楽曲が同定される。
【発明の効果】
【0018】
本技術の一側面によれば、入力信号から楽曲を精度良く同定することが可能となる。
【図面の簡単な説明】
【0019】
【図1】マッチング処理に用いられる入力信号の特徴量について説明する図である。
【図2】本技術を適用した楽曲検索装置の一実施の形態の構成を示すブロック図である。
【図3】指標算出部の機能構成例を示すブロック図である。
【図4】第1の特徴量算出部の機能構成例を示すブロック図である。
【図5】第2の特徴量算出部の機能構成例を示すブロック図である。
【図6】楽曲同定処理について説明するフローチャートである。
【図7】入力信号解析処理について説明するフローチャートである。
【図8】指標算出処理について説明するフローチャートである。
【図9】ピークの検出について説明する図である。
【図10】ピーク周辺のパワースペクトルの近似について説明する図である。
【図11】指標の調整関数について説明する図である。
【図12】入力信号のトーンらしさの指標の例について説明する図である。
【図13】第1の特徴量算出処理について説明するフローチャートである。
【図14】第1の特徴量の例について説明する図である。
【図15】第2の特徴量算出処理について説明するフローチャートである。
【図16】第2の特徴量の例について説明する図である。
【図17】参照信号解析処理について説明するフローチャートである。
【図18】マッチング処理について説明するフローチャートである。
【図19】マスクパターンの生成の例について説明する図である。
【図20】入力信号の第2の特徴量と参照信号の第2の特徴量とのマッチング処理について説明する図である。
【図21】時系列に並べられた類似度の例を示す図である。
【図22】類似度の時間的連続性について説明する図である。
【図23】コンピュータのハードウェアの構成例を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、本技術の実施の形態について図を参照して説明する。なお、説明は以下の順序で行う。
1.楽曲検索装置の構成
2.楽曲同定処理
【0021】
<1.楽曲検索装置の構成>
図2は、本技術を適用した楽曲検索装置の一実施の形態の構成を示している。
【0022】
図2の楽曲検索装置11は、楽曲の信号成分と、人の会話や騒音等の雑音成分(雑音)とが混在した入力信号と、雑音が混在しない楽曲の信号成分からなる参照信号とを比較することで、入力信号の楽曲を同定し、その同定結果を出力する。
【0023】
楽曲検索装置11は、入力信号解析部31、参照信号解析部32、およびマッチング処理部33から構成される。
【0024】
入力信号解析部31は、外部の装置等から入力される入力信号を解析し、入力信号の特徴を表す特徴量を入力信号から抽出し、マッチング処理部33に供給する。
【0025】
入力信号解析部31は、切り出し部51、時間周波数変換部52、指標算出部53、第1の特徴量算出部54、および第2の特徴量算出部55を備えている。
【0026】
切り出し部51は、入力信号から所定時間分の信号を切り出し、時間周波数変換部52に供給する。
【0027】
時間周波数変換部52は、切り出し部51からの所定時間分の入力信号を、時間周波数領域の信号(スペクトログラム)に変換し、指標算出部53に供給する。
【0028】
指標算出部53は、時間周波数変換部52からの入力信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に、楽曲の信号成分であることを表すトーンらしさの指標を算出し、第1の特徴量算出部54および第2の特徴量算出部55に供給する。
【0029】
ここで、トーンらしさの指標とは、入力信号における周波数毎の信号成分の強さ(パワースペクトル)で表されるトーンの時間に対する安定性を示すものとする。一般的に、楽曲においては、ある特定の音程(周波数)を持つ音がある一定時間鳴り続けるため、時間方向に対してトーンは安定する。一方、人の会話においては、時間方向に対してトーンはゆらぐ性質を持ち、また、環境雑音においては、時間方向に連続するトーンがあまり見られない。そこで、指標算出部53は、所定の時間区間分の入力信号について、トーンの有無および安定性を数値化することで、トーンらしさの指標を求める。
【0030】
第1の特徴量算出部54は、指標算出部53からの、スペクトログラムの時間周波数領域毎のトーンらしさの指標に基づいて、入力信号の楽曲らしさを表す特徴量である第1の特徴量を算出し、マッチング処理部33に供給する。
【0031】
第2の特徴量算出部55は、指標算出部53からの、スペクトログラムの時間周波数領域毎のトーンらしさの指標に基づいて、入力信号の楽曲の個性を表す特徴量である第2の特徴量を算出し、マッチング処理部33に供給する。
【0032】
参照信号解析部32は、図示せぬ記憶部に蓄積されているか、または、外部の装置等から入力されてくる参照信号を解析し、その参照信号の特徴を表す特徴量を参照信号から抽出し、マッチング処理部33に供給する。
【0033】
参照信号解析部32は、時間周波数変換部61、指標算出部62、第1の特徴量算出部63、および第2の特徴量算出部64を備えている。
【0034】
時間周波数変換部61は、参照信号をスペクトログラムに変換し、指標算出部62に供給する。
【0035】
指標算出部62は、時間周波数変換部61からの参照信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に、楽曲の信号成分であることを表すトーンらしさの指標を算出し、第1の特徴量算出部63および第2の特徴量算出部64に供給する。
【0036】
第1の特徴量算出部63は、指標算出部62からの、スペクトログラムの時間周波数領域毎のトーンらしさの指標に基づいて、参照信号の楽曲らしさを表す第1の特徴量を算出し、マッチング処理部33に供給する。
【0037】
第2の特徴量算出部64は、指標算出部62からの、スペクトログラムの時間周波数領域毎のトーンらしさの指標に基づいて、参照信号の楽曲の個性を表す第2の特徴量を算出し、マッチング処理部33に供給する。
【0038】
マッチング処理部33は、入力信号解析部31からの入力信号の第1の特徴量と、参照信号解析部32からの参照信号の第1の特徴量とに基づいて、入力信号解析部31からの入力信号の第2の特徴量と、参照信号解析部32からの参照信号の第2の特徴量とのマッチング処理を行うことで、入力信号に含まれる楽曲を同定する。
【0039】
マッチング処理部33は、マスクパターン生成部71、類似度算出部72、および比較判定部73を備えている。
【0040】
マスクパターン生成部71は、入力信号解析部31からの入力信号の時間周波数領域毎の第1の特徴量と、参照信号解析部32からの参照信号の時間周波数領域毎の第1の特徴量とに基づいて、入力信号の第2の特徴量と参照信号の第2の特徴量とのマッチング処理に用いられるマスクパターンを生成し、類似度算出部72に供給する。また、マスクパターン生成部71は、入力信号解析部31からの入力信号の時間周波数領域毎の第1の特徴量と、参照信号解析部32からの参照信号の時間周波数領域毎の第1の特徴量との類似度である第1の特徴量同士の類似度を算出し、類似度算出部72に供給する。
【0041】
類似度算出部72は、マスクパターン生成部71からのマスクパターンおよび第1の特徴量同士の類似度を用いて、入力信号解析部31からの入力信号の第2の特徴量と、参照信号解析部32からの第2の参照信号の特徴量との類似度を算出し、比較判定部73に供給する。
【0042】
比較判定部73は、類似度算出部72からの類似度に基づいて、入力信号に含まれる楽曲が参照信号の楽曲であるか否かを判定し、その参照信号の楽曲の属性を表す楽曲属性情報を、同定結果として出力する。
【0043】
[指標算出部の構成]
次に、図3を参照して、図2の指標算出部53の詳細な構成について説明する。
【0044】
図3の指標算出部53は、時間区間選択部81、ピーク検出部82、近似処理部83、トーン度算出部84、および出力部85を備えている。
【0045】
時間区間選択部81は、時間周波数変換部52からの入力信号のスペクトログラムにおいて、所定の時間区間のスペクトログラムを選択し、ピーク検出部82に供給する。
【0046】
ピーク検出部82は、時間区間選択部81によって選択された所定の時間区間(時間フレーム)のスペクトログラムにおいて、単位周波数毎に、信号成分の強さが極大となる点であるピークを検出する。
【0047】
近似処理部83は、所定の時間区間のスペクトログラムにおいて、ピーク検出部82によって検出されたピーク周辺の信号成分の強さ(パワースペクトル)を、所定の関数で近似する。
【0048】
トーン度算出部84は、近似処理部83により近似された所定の関数と、ピーク検出部82によって検出されたピーク周辺のパワースペクトルとの距離(誤差)に基づいて、所定の時間区間分のスペクトログラムについての、トーンらしさの指標を数値化したトーン度を算出する。
【0049】
出力部85は、トーン度算出部84によって算出された、所定の時間区間分のスペクトログラムについてのトーン度を保持する。また、出力部85は、保持している全時間区間分のスペクトログラムについてのトーン度を、切り出し部51により切り出された所定時間分の入力信号のトーンらしさの指標として、第1の特徴量算出部54および第2の特徴量算出部55に供給する。
【0050】
このようにして、時間周波数領域における所定の時間区間毎、単位周波数毎にトーン度(要素)を持つトーンらしさの指標が算出される。
【0051】
[第1の特徴量算出部の構成]
次に、図4を参照して、図2の第1の特徴量算出部54の詳細な構成について説明する。
【0052】
図4の第1の特徴量算出部54は、フィルタ処理部91、リサンプリング処理部92、および2値化処理部93を備えている。
【0053】
フィルタ処理部91は、指標算出部53からの、入力信号の時間周波数領域における所定の時間区分毎、単位周波数毎にトーン度(要素)を持つトーンらしさの指標に対して、時間方向にフィルタリングすることで、トーンらしさの指標の時間平均量を算出し、入力信号の楽曲らしさを表す第1の特徴量として、リサンプリング処理部92に供給する。
【0054】
リサンプリング処理部92は、フィルタ処理部91からの第1の特徴量を、時間方向にリサンプリング(ダウンサンプリング)し、2値化処理部93に供給する。
【0055】
2値化処理部93は、リサンプリング処理部92からのダウンサンプリングされた第1の特徴量に対して2値化処理を施し、マッチング処理部33に供給する。
【0056】
[第2の特徴量算出部の構成]
次に、図5を参照して、図2の第2の特徴量算出部55の詳細な構成について説明する。
【0057】
図5の第2の特徴量算出部55は、フィルタ処理部101、リサンプリング処理部102、および3値化処理部103を備えている。
【0058】
フィルタ処理部101は、指標算出部53からの、入力信号の時間周波数領域における所定の時間区分毎、単位周波数毎にトーン度(要素)を持つトーンらしさの指標に対して、時間方向にフィルタリングすることで、トーンらしさの指標の時間変化量を算出し、入力信号の楽曲の個性を表す第2の特徴量として、リサンプリング処理部102に供給する。
【0059】
リサンプリング処理部102は、フィルタ処理部101からの第2の特徴量を、時間方向にリサンプリング(ダウンサンプリング)し、3値化処理部103に供給する。
【0060】
3値化処理部103は、リサンプリング処理部102からのダウンサンプリングされた第2の特徴量に対して3値化処理を施し、マッチング処理部33に供給する。
【0061】
なお、図2の参照信号解析部32の指標算出部62、第1の特徴量算出部63、および第2の特徴量算出部64は、それぞれ、上述で説明した入力信号解析部31の指標算出部53、第1の特徴量算出部54、および第2の特徴量算出部55と同様の機能および構成を有するので、その詳細な説明は省略する。
【0062】
<2.楽曲同定処理>
次に、図6のフローチャートを参照して、楽曲検索装置11の楽曲同定処理について説明する。楽曲同定処理は、外部の装置等から、同定されるべき楽曲が含まれる入力信号が楽曲検索装置11に入力されると開始される。なお、楽曲検索装置11には、入力信号が、時間的に連続して入力される。
【0063】
ステップS11において、入力信号解析部31は、入力信号解析処理を実行し、外部の装置等から入力された入力信号を解析し、入力信号の特徴量を入力信号から抽出する。
【0064】
[入力信号解析処理の詳細]
ここで、図7のフローチャートを参照して、図6のフローチャートのステップS11における入力信号解析処理の詳細について説明する。
【0065】
ステップS31において、入力信号解析部31の切り出し部51は、入力信号から所定時間(例えば、15秒間)分の信号を切り出し、時間周波数変換部52に供給する。
【0066】
ステップS32において、時間周波数変換部52は、例えばハン窓等の窓関数や、例えば離散フーリエ変換等を用いて、切り出し部51からの所定時間分の入力信号をスペクトログラムに変換し、指標算出部53に供給する。なお、ここでは、窓関数として、ハン窓に限らず、サイン窓やハミング窓が用いられてもよく、また、離散フーリエ変換に限らず、離散コサイン変換が用いられてもよい。さらに、変換されたスペクトログラムは、パワースペクトルや振幅スペクトル、対数振幅スペクトルのいずれであってもよい。また、周波数分解能を高めるために、零詰めによるオーバーサンプリングにより周波数変換長を窓の長さより長く(例えば2倍や4倍等に)してもよい。
【0067】
ステップS33において、指標算出部53は、指標算出処理を実行することで、時間周波数変換部52からの入力信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に入力信号のトーンらしさの指標を算出する。
【0068】
[指標算出処理の詳細]
ここで、図8のフローチャートを参照して、図7のフローチャートのステップS33における指標算出処理の詳細について説明する。
【0069】
ステップS51において、指標算出部53の時間区間選択部81は、時間周波数変換部52からの入力信号のスペクトログラムにおいて、所定の時間区間(例えば、15秒間の入力信号のうちの最初の1秒間)のスペクトログラムを選択し、ピーク検出部82に供給する。
【0070】
ステップS52において、ピーク検出部82は、時間区間選択部81によって選択された1秒間分のスペクトログラムにおいて、時間フレーム(時間bin)毎に、各周波数帯についての信号成分のパワースペクトル(強さ)が、その周波数帯の近傍で極大となる時間周波数領域上の点であるピークを検出する。
【0071】
例えば、図9の上段に示される、時間周波数領域に変換された入力信号のスペクトログラムにおいて、ある時間フレームで、ある周波数帯近傍の時間周波数領域Γでは、図9の下段に示されるようなピークpが検出されるようになる。
【0072】
ステップS53において、近似処理部83は、時間区間選択部81によって選択された1秒間分のスペクトログラムについて、ピーク検出部82によって検出された時間フレーム毎の各周波数帯のピーク周辺のパワースペクトルを、予め定義された定型的な関数であるテンプレート関数で近似する。以下においては、テンプレート関数は2次関数であるものとするが、これに限らず、3次以上の高次関数や三角関数等、その他の関数であってもよい。
【0073】
上述したように、図9の下段においてはピークpが検出されるものとしたが、ピークとなるパワースペクトルは、時間方向に対して安定するトーン(以下、持続性トーンともいう)に限らず、ノイズ、サイドローブ、干渉、時間変動トーン等の信号成分についても発生するため、そのピークに基づいてトーンらしさの指標が適切に算出されるとは限らない。また、離散フーリエ変換のピークは離散的であるので、そのピーク周波数は、真のピーク周波数であるとは限らない。
【0074】
文献「J. O. Smith III and X. Serra:“PARSHL: A program for analysis/synthesis of inharmonic sounds based on a sinusoidal representation”in Proc. ICMC’87」によれば、楽曲であるか人の声であるかにかかわらず、ある時間フレームでのピーク周辺の対数パワースペクトルの値は、2次関数で近似することが可能であるとされている。
【0075】
そこで、本技術においては、時間フレーム毎の各周波数帯のピーク周辺のパワースペクトルを2次関数で近似する。
【0076】
さらに、本技術においては、以下の仮定の下、そのピークが持続性トーンによるものであるか否かを決定する。
【0077】
a)持続性トーンは、その2次関数を時間方向に伸ばした関数により近似される。
b)周波数の時間変化については、楽曲によるピークは時間方向に持続するので、零次近似される(変化しないものとする)。
c)振幅の時間変化については、ある程度の許容を必要とし、例えば2次関数等で近似される。
【0078】
したがって、持続性トーンは、図10で示されるような、ある時間フレームにおける2次関数を時間方向に伸ばしたトンネル型の関数(双2次関数)でモデル化され、時間tおよび周波数ωに対して、以下の式(1)で表すことができる。なお、ωは、ピーク周波数を表している。
【0079】
【数1】

・・・(1)
【0080】
よって、ある着目しているピーク周辺において、上述した仮定a)乃至c)に基づいた双2次関数を、例えば最小二乗近似で当てはめたときの誤差を、トーン(持続性トーン)らしさの指標とすることができる。すなわち、以下の式(2)を誤差関数とすることができる。
【0081】
【数2】

・・・(2)
【0082】
式(2)において、f(k,n)は、第nフレーム、第kビンのDFTスペクトルを示しており、g(k,n)は、上述で示された、持続性トーンのモデルを示す式(1)と同義の式であり、以下の式(3)で示される。
【0083】
【数3】

・・・(3)
【0084】
なお、式(2)におけるΓは、対象となるピーク周辺の時間周波数領域を示している。時間周波数領域Γにおいて、周波数方向のサイズは、時間周波数変換に用いた窓関数に応じて、かつ、周波数変換長により決定されるメインローブのサンプルポイント数を超えないように決定される。また、時間方向のサイズは、持続性トーンを定義するのに必要な時間長に応じて決定される。
【0085】
図8のフローチャートに戻り、ステップS54において、トーン度算出部84は、近似処理部83により近似された2次関数と、ピーク検出部82によって検出されたピーク周辺のパワースペクトルとの誤差、すなわち、上述した式(2)の誤差関数に基づいて、時間区間選択部81によって選択された1秒間分のスペクトログラムについての、トーンらしさの指標であるトーン度を算出する。
【0086】
ここで、上述した式(2)の誤差関数を、平面モデルへ当てはめたときの誤差関数を以下の式(4)で表すこととすると、トーン度ηは、以下の式(5)のように示される。
【0087】
【数4】

・・・(4)
【0088】
【数5】

・・・(5)
【0089】
式(5)において、aハット(aに^を付した文字をaハットと記述する。以下、本明細書において、同様に記載する。)、bハット、cハット、dハット、eハットは、それぞれ、J(a,b,c,d,e)を最小とするa,b,c,d,eであり、e’ハットは、J(e’)を最小とするe’である。
【0090】
このようにして、トーン度ηが求められる。
【0091】
ところで、式(5)において、aハットは、持続性トーンを表すモデルの曲線(2次関数)のピーク曲率を示している。
【0092】
ピーク曲率は、入力信号の信号成分が正弦波であれば、理論的には、時間周波数変換に用いた窓関数の種類とサイズによって決まる定数である。したがって、実際に得られたピーク曲率aハットの値が理論値からずれるほど、その信号成分が持続性トーンである可能性は低くなると考えられる。また、そのピークがサイドローブ性のものであったとしても、得られるピーク曲率は変わってくるため、ピーク曲率aハットのずれはトーンらしさの指標に影響すると言える。すなわち、ピーク曲率aハットの理論値からのずれの値に応じて、トーン度ηを調整することにより、より適正なトーンらしさの指標を得ることができるようになる。ピーク曲率aハットの理論値からのずれの値に応じて調整されたトーン度η’は、以下の式(6)のように示される。
【0093】
【数6】

・・・(6)
【0094】
式(6)において、値aidealは、時間周波数変換に用いた窓関数の種類とサイズによって決まるピーク曲率の理論値である。また、関数D(x)は、図11に示されるような値をとる調整関数であり、関数D(x)によれば、ピーク曲率の値が理論値から離れるほど、トーン度は小さくなる。すなわち、式(6)によれば、ピークでない要素については、トーン度η’は0となる。なお、関数D(x)は、図11に示される形状の関数に限らず、ピーク曲率の値が理論値から離れるほど、トーン度が小さくなるような関数であればよい。
【0095】
このように、曲線(2次関数)のピーク曲率に応じてトーン度を調整することで、より適切なトーン度が得られるようになる。
【0096】
ところで、式(5)におけるaハットおよびbハットによって与えられる値−(bハット)/2(aハット)は、離散ピーク周波数から真のピーク周波数へのオフセットを示している。
【0097】
真のピーク周波数は、理論上、離散ピーク周波数から±0.5ビンの位置にある。離散ピーク周波数から真のピーク周波数へのオフセット値−(bハット)/2(aハット)が、着目しているピークの位置と極端に異なる場合、上述で示された式(2)の誤差関数を計算する際のマッチングが正しくない可能性が高い。すなわち、このことは、トーンらしさの指標の信頼性に影響すると考えられるので、オフセット値−(bハット)/2(aハット)の、着目しているピークの位置(ピーク周波数)kからのずれの値に応じて、トーン度ηを調整することにより、より適切なトーンらしさの指標を得るようにしてもよい。具体的には、図11に示される関数D(x)に−(bハット)/2(aハット)−kを代入した項を、式(6)の左辺と乗算した値をトーン度ηとするようにしてもよい。
【0098】
また、トーン度ηは、上述した手法以外の手法により算出されるようにもできる。
【0099】
具体的には、まず、上述した式(2)の誤差関数において、持続性トーンを表すモデルg(k,n)を、ピーク周辺のパワースペクトルの時間平均形状を近似した2次関数ak2+bk+cで置き換えた、以下の式(7)の誤差関数を与える。
【0100】
【数7】

・・・(7)
【0101】
次に、上述した式(2)の誤差関数において、持続性トーンを表すモデルg(k,n)を、着目しているピークのある第mフレームのパワースペクトルを近似した2次関数a’k2+b’k+c’で置き換えた、以下の式(8)の誤差関数を与える。なお、mは、着目しているピークのあるフレーム番号を示している。
【0102】
【数8】

・・・(8)
【0103】
ここで、式(7)において、J(a,b,c)を最小とするa,b,cを、それぞれaハット、bハット、cハットとし、式(8)において、J(a’,b’,c’)を最小とするa’,b’,c’を、それぞれa’ハット、b’ハット、c’ハットとしたとき、トーン度ηは以下の式(9)で与えられる。
【0104】
【数9】

・・・(9)
【0105】
式(9)において、関数D1(x),D2(x)は、それぞれ、上述で説明した図11に示されるような値をとる関数とされる。なお、式(9)によれば、ピークでない要素については、トーン度η’は0となり、また、aハットが0またはa’ハットが0の場合にも、トーン度η’は0となる。
【0106】
なお、以上のように算出されたトーン度ηに対して、シグモイド関数等による非線形変換を施すようにしてもよい。
【0107】
さて、図8のフローチャートに戻り、ステップS55において、出力部85は、トーン度算出部84によって算出された、1秒間分のスペクトログラムについてのトーン度を保持し、全ての時間区間(例えば、15秒間)について、上述した処理を行ったか否かを判定する。
【0108】
ステップS55において、全ての時間区間について上述した処理が行われていないと判定された場合、処理はステップS51に戻り、次の時間区間(1秒間)のスペクトログラムに対して、ステップS51乃至S55の処理が繰り返される。なお、ステップS51乃至S55の処理は、上述したように、1秒間の時間区間ずつのスペクトログラムに対して行われるようにしてもよいし、処理対象となるスペクトログラムの時間区間を、例えば0.5秒ずつずらして、処理対象の時間区間の一部を、前の処理対象の時間区間とオーバーラップさせながら行われるようにしてもよい。
【0109】
一方、ステップS55において、全ての時間区間について上述した処理が行われたと判定された場合、処理はステップS56に進む。
【0110】
ステップS56において、出力部85は、保持している時間区間(1秒間)毎のトーン度を時系列に配列することで得られる行列を、第1の特徴量算出部54および第2の特徴量算出部55に供給(出力)し、処理はステップS33に戻る。
【0111】
図12は、指標算出部53によって算出されるトーンらしさの指標の例について説明する図である。
【0112】
図12に示されるように、入力信号のスペクトログラムから算出された入力信号のトーンらしさの指標Sは、時間方向および周波数方向に、トーン度を要素(以下、成分ともいう)として有している。トーンらしさの指標Sにおける四角形(マス目)のそれぞれは、各時間、各周波数毎の成分を表しており、図示されないが、それぞれトーン度としての値を有する。また、図12に示されるように、トーンらしさの指標Sの時間粒度は1秒とされる。
【0113】
このように、入力信号のスペクトログラムから算出される入力信号のトーンらしさの指標は、各時間、各周波数毎に成分を有しているので、行列として扱うことができる。以下、行列としてのトーンらしさの指標を、適宜、指標行列と言う。
【0114】
なお、極低周波帯域については、例えばハムノイズ等の楽曲以外の信号成分によるピークが含まれる可能性が高いので、トーン度を算出しないようにしてもよい。また、例えば8kHzより上の高周波帯域についても、楽曲を構成する重要な要素でない可能性があるので、トーン度を算出しないようにしてもよい。さらに、離散ピーク周波数におけるパワースペクトルの値が、例えば−80dB等の所定の値よりも小さい場合にも、トーン度を算出しないようにしてもよい。
【0115】
図7のフローチャートに戻り、ステップS33の後、ステップS34において、第1の特徴量算出部54は、指標算出部53からのトーンらしさの指標に基づいて、第1の特徴量算出処理を実行し、入力信号の楽曲らしさを表す第1の特徴量を算出する。
【0116】
[第1の特徴量算出処理の詳細]
ここで、図13のフローチャートを参照して、図7のフローチャートのステップS34における第1の特徴量算出処理の詳細について説明する。
【0117】
ステップS71において、フィルタ処理部91は、指標算出部53からの指標行列に対して、例えばハン窓等の窓関数(平滑化フィルタ)を用いて、時間方向にフィルタリングすることで、トーンらしさの指標の時間平均量を算出し、入力信号の楽曲らしさを表す第1の特徴量として、リサンプリング処理部92に供給する。
【0118】
ステップS72において、リサンプリング処理部92は、フィルタ処理部91からの第1の特徴量を、時間方向にリサンプリング(ダウンサンプリング)し、2値化処理部93に供給する。
【0119】
ステップS73において、2値化処理部93は、リサンプリング処理部92からの、ダウンサンプリングされた第1の特徴量に対して2値化処理を施し、マッチング処理部33に供給して、処理はステップS34に戻る。
【0120】
図14は、上述した処理によって得られる第1の特徴量の例を示している。
【0121】
図14においては、左から順番に、時間周波数領域の入力信号、トーンらしさの指標、および第1の特徴量が示されている。入力信号に楽曲の信号成分が含まれている場合、トーンらしさの指標においては、対応する時間周波数領域の値が大きくなる(持続性トーンが現れる)。そして、トーンらしさの指標の値が大きい(持続性トーンが現れる)領域においては、上述した第1の特徴量算出処理によって、大きい値の第1の特徴量が現れるようになる。したがって、図14に示されるように、第1の特徴量は、入力信号の楽曲の信号成分と同様の領域に値を持つようになる。また、その値は、例えば0,1等の値に2値化されるようになるので、第1の特徴量の情報量が削減されるようになり、後段の処理の高速化を図ることができるようになる。
【0122】
なお、2値化処理に用いられる閾値は、固定の値としてもよいし、時間フレーム毎の平均値等から得られる統計的な値としてもよい。
【0123】
また、上述した第1の特徴量算出処理においては、時間方向にリサンプリングするのに加えて、周波数方向にリサンプリングするようにしてもよいし、2値化処理に代えて量子化処理を行うようにしてもよい。
【0124】
図7のフローチャートに戻り、ステップS34の後、ステップS35において、第2の特徴量算出部55は、指標算出部53からのトーンらしさの指標に基づいて、第2の特徴量算出処理を実行し、入力信号の楽曲の個性を表す第2の特徴量を算出する。
【0125】
[第2の特徴量算出処理の詳細]
ここで、図15のフローチャートを参照して、図7のフローチャートのステップS35における第2の特徴量算出処理の詳細について説明する。
【0126】
ステップS91において、フィルタ処理部101は、指標算出部53からの指標行列に対して、例えば1周期サイン窓等の窓関数(フィルタ)を用いて、時間方向にフィルタリングすることで、トーンらしさの指標の時間平均変化量を算出し、入力信号の楽曲の個性を表す第2の特徴量として、リサンプリング処理部102に供給する。
【0127】
ステップS92において、リサンプリング処理部102は、フィルタ処理部101からの第2の特徴量を、時間方向にリサンプリング(ダウンサンプリング)し、3値化処理部103に供給する。
【0128】
ステップS93において、3値化処理部103は、リサンプリング処理部102からの、ダウンサンプリングされた第2の特徴量に対して3値化処理を施し、マッチング処理部33に供給して、処理はステップS35に戻る。
【0129】
図16は、上述した処理によって得られる第2の特徴量の例を示している。
【0130】
図16においては、左から順番に、時間周波数領域の入力信号、トーンらしさの指標、および第2の特徴量が示されている。入力信号に楽曲の信号成分が含まれている場合、トーンらしさの指標においては、対応する時間周波数領域の値が大きくなる(持続性トーンが現れる)。そして、トーンらしさの指標の値が大きい(持続性トーンが現れる)領域においては、上述した第2の特徴量算出処理によって、トーンの立上がりにおいては大きい値(正の値)で、トーンの立下がりにおいては小さい値(負の値)となる第2の特徴量が現れるようになる。したがって、図16に示されるように、第2の特徴量は、入力信号の楽曲の信号成分と同様の領域に値を持つようになり、その値は、例えば、図16における領域s1においては正の値となり、領域s2においては負の値となる。また、その値は、−1,0,1等の値に3値化されるようになるので、第2の特徴量の情報量が削減されるようになり、後段の処理の高速化を図ることができるようになる。
【0131】
なお、3値化処理に用いられる閾値は、固定の値としてもよいし、時間フレーム毎の平均値等から得られる統計的な値としてもよい。
【0132】
また、上述した第2の特徴量算出処理においては、時間方向にリサンプリングするのに加えて、周波数方向にリサンプリングするようにしてもよいし、3値化処理に代えて量子化処理を行うようにしてもよい。
【0133】
なお、以上のようにして算出された第1の特徴量と第2の特徴量の、時間方向および周波数方向の粒度は同一とされる。
【0134】
さて、図7のフローチャートに戻り、ステップS35の後、処理は図6のフローチャートのステップS11に戻る。
【0135】
図6のフローチャートにおいて、ステップS11の後、処理はステップS12に進み、参照信号解析部32は、参照信号解析処理を実行し、外部の装置等から入力される参照信号を解析し、参照信号の特徴量を参照信号から抽出する。
【0136】
[参照信号解析処理の詳細]
ここで、図17のフローチャートを参照して、図6のフローチャートのステップS12における参照信号解析処理の詳細について説明する。
【0137】
ステップS111において、参照信号解析部32の時間周波数変換部61は、入力された参照信号をスペクトログラムに変換し、指標算出部62に供給する。
【0138】
ステップS112において、指標算出部62は、指標算出部53と同様にして、指標算出処理を実行することで、時間周波数変換部61からの参照信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に参照信号のトーンらしさの指標を算出し、第1の特徴量算出部63および第2の特徴量算出部64に供給する。
【0139】
なお、ステップS112の指標算出処理は、図8のフローチャートを参照して説明した指標算出処理と基本的に同様であるので、その説明は省略する。
【0140】
ステップS113において、第1の特徴量算出部63は、第1の特徴量算出部54と同様にして、指標算出部62からのトーンらしさの指標に基づいて、第1の特徴量算出処理を実行し、参照信号の楽曲らしさを表す第1の特徴量を算出し、マッチング処理部33に供給する。
【0141】
なお、ステップS113の第1の特徴量算出処理は、図13のフローチャートを参照して説明した第1の特徴量算出処理と基本的に同様であるので、その説明は省略する。なお、2値化処理に用いられる閾値は、異なる値であってもよい。
【0142】
ステップS114において、第2の特徴量算出部64は、第2の特徴量算出部55と同様にして、指標算出部62からのトーンらしさの指標に基づいて、第2の特徴量算出処理を実行し、参照信号の楽曲の個性を表す第2の特徴量を算出し、マッチング処理部33に供給する。
【0143】
なお、ステップS114の第2の特徴量算出処理は、図15のフローチャートを参照して説明した第2の特徴量算出処理と基本的に同様であるので、その説明は省略する。
【0144】
また、このとき、参照信号解析部32は、楽曲検索装置11内の図示せぬデータベースから、参照信号の楽曲の属性を表す楽曲属性情報(楽曲名、演奏者名、楽曲ID等)を読み出し、算出した参照信号の特徴量(第1および第2の特徴量)に対応付けて、マッチング処理部33に供給する。
【0145】
なお、複数の参照信号についての特徴量および楽曲属性情報は、楽曲検索装置11内の図示せぬデータベースに記憶されて、マッチング処理部33に取得されるようにしてもよい。
【0146】
図17のフローチャートにおいて、ステップS114の後、処理は図6のフローチャートのステップS12に戻る。
【0147】
このようにして算出される入力信号および参照信号の第1の特徴量および第2の特徴量は行列として扱われ、その時間方向および周波数方向の粒度は同一とされる。
【0148】
また、楽曲の個性を表す第2の特徴量は、上述した入力信号(参照信号)のトーンらしさの指標の時間変化量に限らず、他の評価値とするようにしてもよい。
【0149】
図6のフローチャートにおいて、ステップS12の後、処理はステップS13に進み、マッチング処理部33は、マッチング処理を実行し、入力信号に含まれる楽曲を同定し、その同定結果を出力する。
【0150】
[マッチング処理の詳細]
ここで、図18のフローチャートを参照して、図6のフローチャートのステップS13におけるマッチング処理の詳細について説明する。
【0151】
ステップS131において、マスクパターン生成部71は、入力信号解析部31からの入力信号の時間周波数領域毎の第1の特徴量と、参照信号解析部32からの参照信号の時間周波数領域毎の第1の特徴量とに基づいて、入力信号の第2の特徴量と参照信号の第2の特徴量とのマッチング処理に用いられるマスクパターンを生成し、類似度算出部72に供給する。
【0152】
例えば、入力信号解析部31からの第1の特徴量として、図19の左上段に示されるような第1の特徴量S1が供給され、参照信号解析部32からの第1の特徴量として、図19の左下段に示されるような第1の特徴量A1が供給された場合、マスクパターン生成部71は、第1の特徴量S1の各要素と、第1の特徴量A1の各要素とを乗算した値を要素とするマスクパターンWを生成する。このように、入力信号および参照信号のスペクトログラムにおいて、トーンらしさの指標の高い領域には第1の特徴量に応じた重み付けをし、トーンらしさの指標の低い領域をマスクする、重み分布としてのマスクパターンが生成される。
【0153】
ステップS132において、マスクパターン生成部71は、入力信号解析部31からの入力信号の時間周波数領域毎の第1の特徴量と、参照信号解析部32からの参照信号の時間周波数領域毎の第1の特徴量の各要素に基づいて、入力信号の第1の特徴量S1と参照信号の第1の特徴量A1の類似度R1を算出し、類似度算出部72に供給する。
【0154】
ステップS133において、類似度算出部72は、マスクパターン生成部71からのマスクパターンW、および、第1の特徴量同士の類似度R1を用いて、入力信号解析部31からの入力信号の第2の特徴量と、参照信号解析部32からの第2の参照信号の特徴量との類似度を算出し、算出された類似度を、比較判定部73に供給する。
【0155】
ここで、図20を参照して、入力信号の第2の特徴量と参照信号の第2の特徴量との類似度の算出の例について説明する。
【0156】
図20においては、上段に、参照信号の第2の特徴量L、下段左側に、入力信号の第2の特徴量S2、そして、下段右側に、マスクパターンWが示されている。上述で説明したように、これらは行列として扱うことができる。
【0157】
図20に示されるように、参照信号の第2の特徴量Lの時間方向の成分の数は、入力信号の第2の特徴量S2の時間方向の成分の数と比較して多い(なお、入力信号の第2の特徴量S2の時間方向の成分の数と、マスクパターンWの時間方向の成分の数とは同一である)。そこで、入力信号の第2の特徴量と参照信号の第2の特徴量との類似度を算出する際、類似度算出部72は、参照信号の第2の特徴量Lから、入力信号の第2の特徴量S2と同一の時間方向の成分の数となる部分行列A2を、時間方向(図中右方向)にずらしながら(時間方向にオフセットを与えながら)順次切り出し、この部分行列A2と入力信号の第2の特徴量S2との類似度を算出する。ここで、部分行列A2を切り出す際の時間方向のオフセットをtとすると、まず、マスクパターンW、および、第1の特徴量同士の類似度R1は、以下の式(10),(11)で示される。
【0158】
【数10】

・・・(10)
【0159】
【数11】

・・・(11)
【0160】
そして、式(10)で示されるマスクパターンW、および、式(11)で示される第1の特徴量の類似度R1を用いて、部分行列A2と入力信号の第2の特徴量S2との類似度R(t)は、以下の式(12)で示される。
【0161】
【数12】

・・・(12)
【0162】
なお、式(10)乃至(12)において、f,uは、参照信号の第2の特徴量の部分行列A2、入力信号の第2の特徴量S2、マスクパターンWの各行列の周波数成分および時間成分を表している。すなわち、fおよびuが添字として付されているA1,S1,W,A2,S2は、それぞれの行列A1,S1,W,A2,S2における各要素を表している。
【0163】
なお、式(12)で示される類似度R(t)の算出においては、各行列の全要素について演算する必要はなく、マスクパターンWにおいてマスクされていない時間周波数領域の要素(0でない要素)について演算すればよいので、演算コストを抑えることができる。さらに、マスクパターンWにおいてマスクされていない時間周波数領域の要素の値は、入力信号および参照信号の時間周波数領域毎の楽曲らしさを表しているので、楽曲らしさの高い(楽曲の成分のみからなる)時間周波数領域の要素に対してより大きい重み付けをして類似度R(t)を算出することができる。すなわち、より精度の高い類似度を算出することができるようになる。なお、マスクパターンWの各要素が全て0である場合、類似度R(t)=0とされる。
【0164】
このようにして、類似度算出部72は、全ての部分行列A2(全ての部分行列A2を切り出す時間オフセットt)に対して類似度を算出し、最大となる類似度を、入力信号の第2の特徴量と参照信号の第2の特徴量との類似度として、比較判定部73に供給する。比較判定部73は、類似度算出部72からの類似度を、内部の記憶領域に保持する。
【0165】
なお、マスクパターンWは、式(10)で表される行列要素間の乗算に限らず、加重幾何平均や加重相加平均等の他の演算により求められるようにしてもよい。
【0166】
さらに、マスクパターンWは、行列要素間の演算後に、各要素に対してシグモイド関数等による非線形変換を施すようにしてもよい。
【0167】
また、第1の特徴量同士の類似度R1は、上述した式(12)による演算に限らず、二乗誤差や絶対誤差等、2つの行列の各要素間の差に基づいて算出されるようにしてもよいし、予め決められた固定の値としてもよい。
【0168】
さらに、類似度R(t)は、入力信号および参照信号の第2の特徴量が3値化されている場合には、以下の式(13),(14)に示されるように、離散関数を用いて算出されるようにしてもよい。
【0169】
【数13】

・・・(13)
【0170】
【数14】

・・・(14)
【0171】
図18のフローチャートに戻り、ステップS134において、類似度算出部71は、全ての時間分の入力信号に対して類似度算出の処理を行ったか否かを判定する。
【0172】
ステップS134において、全ての時間分の入力信号について類似度算出の処理を行っていないと判定された場合、ステップS131に戻り、全ての時間分の入力信号について類似度算出の処理を行うまで、ステップS131乃至S134の処理が繰り返される。
【0173】
そして、ステップS134において、全ての時間分の入力信号について類似度算出の処理を行ったと判定されると、処理はステップS135に進み、比較判定部73は、類似度算出部72から供給された類似度に基づいて、入力信号に含まれる楽曲が参照信号の楽曲であるか否かを判定し、その参照信号の楽曲の属性を表す楽曲属性情報を、同定結果として出力する。
【0174】
具体的には、まず、比較判定部73は、類似度算出部72から供給され保持されている、全ての時間分の入力信号についての類似度を時系列に並べる。
【0175】
図21は、時系列に並べられた類似度の例を示している。
【0176】
比較判定部73は、図21に示される時系列に並べられた類似度に対して、所定の閾値THsを超える類似度の区間Tsを、全ての時間分の入力信号において、参照信号の楽曲が含まれる可能性が高い候補区間とする。また、比較判定部73は、候補区間Tsにおいて、最大となる類似度Rpを特定する。さらに、比較判定部73は、類似度の時間的連続性を求める。
【0177】
ここで、図22を参照して、類似度の時間的連続性について説明する。
【0178】
上述したように、比較判定部73に保持される類似度は、所定時間分の入力信号の特徴量(第2の特徴量)の行列S2と、参照信号の特徴量(第2の特徴量)Lの部分行列A2の類似度のうち最大となる類似度である。
【0179】
ここで、全ての時間分の入力信号の特徴量の行列S2allについて類似度を算出したとき、入力信号の一部に参照信号の楽曲が含まれている場合には、類似度が最大となった入力信号の特徴量の行列S2と参照信号の特徴量の部分行列A2のペアは、図22に示されるように、同じ時間間隔で時間方向にシフトすると考えられる。そこで、比較判定部73は、類似度が最大となった入力信号の特徴量の行列S2と参照信号の特徴量の部分行列A2のペアが、同じ時間間隔で時間方向にシフトした量(時間)を、類似度の時間的連続性の指標とする。
【0180】
そして、比較判定部73は、上述した候補区間Tsの長さ、最大類似度Rpの値、および類似度の時間的連続性の指標に基づいて、所定の識別関数を用いて、入力信号に含まれる楽曲が参照信号の楽曲であるか否かを判定する。比較判定部73は、入力信号に含まれる楽曲が参照信号の楽曲であると判定した場合、その参照信号の楽曲の属性を表す楽曲属性情報を、同定結果として出力する。
【0181】
なお、比較判定部73は、入力信号に含まれる楽曲が参照信号の楽曲でないと判定した場合、入力信号に含まれる楽曲は参照信号の楽曲ではない旨の情報を出力する。
【0182】
以上の処理によれば、楽曲と雑音とが混在した入力信号を、楽曲のみからなる参照信号と比較する際、時間周波数領域の入力信号と参照信号において、トーンらしさの指標が算出され、その指標から求められる入力信号の特徴量と参照信号の特徴量の類似度が算出され、その類似度に基づいて入力信号の楽曲が同定されるようになる。トーンらしさの指標は、パワースペクトルの時間に対する安定性を定量化したものであるので、その指標から求められる特徴量は、楽曲らしさを確実に表現するものとなる。したがって、より精度の高い類似度を算出することができるようになり、ひいては、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することが可能となる。
【0183】
また、マスクパターンを、入力信号の特徴量と参照信号の特徴量とを用いて生成するようにしたので、入力信号の特徴量のみから生成されたマスクパターンと比較して、より確実に入力信号と参照信号をマスクしてマッチング処理を行うことができるようになる。
【0184】
具体的には、入力信号に音の少ない楽曲が含まれている場合、入力信号の特徴量のみから生成されたマスクパターンを用いると、参照信号の楽曲にその音が含まれていれば、異なる楽曲であっても、参照信号のその他の音はマスクされてしまうので、入力信号が参照信号と一致すると判断されてしまう可能性がある。例えば、入力信号にベース(低音)のみの楽曲が含まれている場合、参照信号の楽曲のベース進行が、入力信号に含まれる楽曲のベース進行に似ているだけで、入力信号が参照信号と一致すると判断されてしまう。
【0185】
そこで、本技術においては、入力信号の第1の特徴量と参照信号の第1の特徴量とからマスクパターンを生成するとともに、マスクパターンの生成に用いられる入力信号の第1の特徴量と参照信号の第1の特徴量との類似度も算出することで、入力信号および参照信号の両方に含まれる音の特徴量に基づいて、マッチング処理が行われるようになる。これにより、入力信号に含まれる音が、参照信号に含まれる音の一部と似ているだけでは、入力信号が参照信号と一致すると判断されなくなり、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することが可能となる。
【0186】
また、時間成分だけでなく、周波数成分を考慮した特徴量を用いて、マッチング処理を行うことができるので、図1で示されたような、途切れている時間が非常に短い会話が雑音として含まれている入力信号であっても、その入力信号から、楽曲を精度良く同定することができる。これにより、ドラマ等のテレビジョン番組において、出演者等の会話が被ってしまっているBGMを精度良く同定することが可能となる。
【0187】
なお、図7のフローチャートを参照して説明した楽曲同定処理においては、入力信号解析処理とマッチング処理との間に、参照信号解析処理が実行されるようにしたが、参照信号解析処理は、マッチング処理が実行される前に実行されていればよく、入力信号解析処理が実行される前に実行されてもよいし、入力信号解析処理と並行して実行されてもよい。
【0188】
また、本技術は、図2に示される楽曲検索装置11に適用される他、例えば、インターネット等のネットワークを介して情報を送受信するネットワークシステムに適用されるようにもできる。具体的には、携帯電話機等の端末装置に、図2の切り出し部51を設けるようにするとともに、サーバに、図2の切り出し部51以外の構成を設けるようにし、端末装置からインターネットを介して送信されてくる入力信号に対して、サーバが楽曲同定処理を行うようにしてもよい。この場合、サーバは、同定結果を、インターネットを介して端末装置に送信し、端末装置は、サーバからの同定結果を表示部等に表示するようにもできる。
【0189】
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等に、プログラム記録媒体からインストールされる。
【0190】
図23は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0191】
コンピュータにおいて、CPU(Central Processing Unit)901,ROM(Read Only Memory)902,RAM(Random Access Memory)903は、バス904により相互に接続されている。
【0192】
バス904には、さらに、入出力インタフェース905が接続されている。入出力インタフェース905には、キーボード、マウス、マイクロホン等よりなる入力部906、ディスプレイ、スピーカ等よりなる出力部907、ハードディスクや不揮発性のメモリ等よりなる記憶部908、ネットワークインタフェース等よりなる通信部909、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等のリムーバブルメディア911を駆動するドライブ910が接続されている。
【0193】
以上のように構成されるコンピュータでは、CPU901が、例えば、記憶部908に記憶されているプログラムを、入出力インタフェース905およびバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。
【0194】
コンピュータ(CPU901)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリ等よりなるパッケージメディアであるリムーバブルメディア911に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【0195】
そして、プログラムは、リムーバブルメディア911をドライブ910に装着することにより、入出力インタフェース905を介して、記憶部908にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部909で受信し、記憶部908にインストールすることができる。その他、プログラムは、ROM902や記憶部908に、あらかじめインストールしておくことができる。
【0196】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0197】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0198】
さらに、本技術は以下のような構成をとることができる。
(1) 入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する楽曲検索装置において、
時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部と、
前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出部と、
前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定部と
を備える楽曲検索装置。
(2) 前記指標算出部は、
所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出部と、
前記極大となる点近傍の前記信号成分の強さをテンプレート関数で近似する近似処理部とを備え、
前記極大となる点近傍の前記信号成分の強さと前記テンプレート関数との誤差に基づいて、前記指標を算出する
(1)に記載の楽曲検索装置。
(3) 前記指標算出部は、前記テンプレート関数の曲率に応じて前記指標を調整する
(2)に記載の楽曲検索装置。
(4) 前記指標算出部は、前記テンプレート関数が極大となる点の周波数に応じて前記指標を調整する
(2)または(3)に記載の楽曲検索装置。
(5) 前記入力信号の各領域における第1の特徴量と、前記参照信号の各領域における前記第1の特徴量とに基づいて、前記入力信号および前記参照信号の各領域に対する重み分布を生成するとともに、前記入力信号の各領域における第1の特徴量と、前記参照信号の各領域における前記第1の特徴量との第1の特徴量同士の類似度を算出する重み分布生成手段をさらに備え、
前記類似度算出部は、前記重み分布による重み付けおよび前記第1の特徴量同士の類似度に基づいて、前記入力信号の各領域における第2の特徴量と、前記参照信号の各領域における前記第2の特徴量の類似度を算出する
(1)乃至(3)のいずれかに記載の楽曲検索装置。
(6) 前記指標を時間方向にフィルタリングすることにより得られる前記指標の時間平均量を、前記第1の特徴量として算出する第1の特徴量算出部と、
前記指標を時間方向にフィルタリングすることにより得られる前記指標の時間変化量を、前記第2の特徴量として算出する第2の特徴量算出部とをさらに備える
(5)に記載の楽曲検索装置。
(7) 入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する楽曲検索方法において、
時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、
前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定ステップと
を含む楽曲検索方法。
(8) 入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理をコンピュータに実行させるプログラムにおいて、
時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、
前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定ステップと
を含む処理をコンピュータに実行させるプログラム。
(9) (8)に記載のプログラムが記録されている記録媒体。
【符号の説明】
【0199】
11 楽曲検索装置, 51 切り出し部, 52 時間周波数変換部, 53 指標算出部, 54 第1の特徴量算出部, 55 第2の特徴量算出部, 61 時間周波数変換部, 62 指標算出部, 63 第1の特徴量算出部, 64 第2の特徴量算出部, 71 マスクパターン生成部, 72 類似度算出部, 73 比較判定部, 81 時間区間選択部, 82 ピーク検出部, 83 近似処理部, 84 トーン度算出部, 85 出力部

【特許請求の範囲】
【請求項1】
入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する楽曲検索装置において、
時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部と、
前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出部と、
前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定部と
を備える楽曲検索装置。
【請求項2】
前記指標算出部は、
所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出部と、
前記極大となる点近傍の前記信号成分の強さをテンプレート関数で近似する近似処理部とを備え、
前記極大となる点近傍の前記信号成分の強さと前記テンプレート関数との誤差に基づいて、前記指標を算出する
請求項1に記載の楽曲検索装置。
【請求項3】
前記指標算出部は、前記テンプレート関数の曲率に応じて前記指標を調整する
請求項2に記載の楽曲検索装置。
【請求項4】
前記指標算出部は、前記テンプレート関数が極大となる点の周波数に応じて前記指標を調整する
請求項2に記載の楽曲検索装置。
【請求項5】
前記入力信号の各領域における第1の特徴量と、前記参照信号の各領域における前記第1の特徴量とに基づいて、前記入力信号および前記参照信号の各領域に対する重み分布を生成するとともに、前記入力信号の各領域における第1の特徴量と、前記参照信号の各領域における前記第1の特徴量との第1の特徴量同士の類似度を算出する重み分布生成手段をさらに備え、
前記類似度算出部は、前記重み分布による重み付けおよび前記第1の特徴量同士の類似度に基づいて、前記入力信号の各領域における第2の特徴量と、前記参照信号の各領域における前記第2の特徴量の類似度を算出する
請求項1に記載の楽曲検索装置。
【請求項6】
前記指標を時間方向にフィルタリングすることにより得られる前記指標の時間平均量を、前記第1の特徴量として算出する第1の特徴量算出部と、
前記指標を時間方向にフィルタリングすることにより得られる前記指標の時間変化量を、前記第2の特徴量として算出する第2の特徴量算出部とをさらに備える
請求項5に記載の楽曲検索装置。
【請求項7】
入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する楽曲検索方法において、
時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、
前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定ステップと
を含む楽曲検索方法。
【請求項8】
入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理をコンピュータに実行させるプログラムにおいて、
時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、
前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定ステップと
を含む処理をコンピュータに実行させるプログラム。
【請求項9】
請求項8に記載のプログラムが記録されている記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate


【公開番号】特開2012−226080(P2012−226080A)
【公開日】平成24年11月15日(2012.11.15)
【国際特許分類】
【出願番号】特願2011−92987(P2011−92987)
【出願日】平成23年4月19日(2011.4.19)
【出願人】(000002185)ソニー株式会社 (34,172)