楽曲区間検出装置および方法、プログラム、記録媒体、並びに楽曲信号検出装置

【課題】入力信号から楽曲部分を精度良く検出する。
【解決手段】指標算出部は、時間周波数領域に変換された入力信号の各領域の信号成分の強さ（例えばパワースペクトル）と、信号成分の強さを近似した関数（２次関数）とに基づいて、信号成分のトーンらしさの指標を算出し、楽曲判定部は、トーンらしさの指標に基づいて、入力信号の各領域に楽曲が含まれているか否かを判定する。本技術は、楽曲と雑音とが混在した入力信号から楽曲部分を検出する楽曲区間検出装置に適用することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本技術は、楽曲区間検出装置および方法、プログラム、記録媒体、並びに楽曲信号検出装置に関し、特に、入力信号から楽曲部分を検出することができるようにする楽曲区間検出装置および方法、プログラム、記録媒体、並びに楽曲信号検出装置に関する。
【背景技術】
【０００２】
従来、テレビジョン放送やラジオ放送の放送番組では、様々な音楽（楽曲）が用いられている。放送番組には、音楽番組のように、明確に音楽を主体として用いるものもあれば、ドラマ等のように音楽をBGM（Back Ground Music）として用いるものもある。
【０００３】
このような放送番組の視聴者にとっては、例えば、音楽番組の楽曲部分だけを再生して視聴したいというニーズがある。
【０００４】
また、放送事業者にとっては、どの楽曲をどの放送番組で使用したかを管理することで、著作権料の支払いを容易にしたり、放送番組の編集を行う際の参考にしたいというニーズがある。
【０００５】
これは、楽曲のデータベースが用意されている場合には、放送番組の音声信号とデータベースの音声信号とを比較して、放送番組の音声信号に含まれる楽曲を検索する技術を用いることで実現することが可能である。しかしながら、楽曲のデータベースが用意されていない場合や、放送番組の音声信号に含まれる楽曲がデータベースに登録されていない場合には、上述したような楽曲検索の技術を用いることはできない。この場合、人間が放送番組を聴くことで楽曲の有無や一致の確認を行うことになるが、膨大な量の放送番組を聴くには多大な時間と労力がかかってしまう。
【０００６】
そこで、放送番組の音声信号から楽曲が含まれる区間を検出する技術が提案されている。
【０００７】
例えば、入力信号をスペクトラムに変換したときのピークが時間方向に持続する時間区間に基づいて、楽曲区間を検出するようにしたものがある（例えば、特許文献１参照）。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特開平１０−３０１５９４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００９】
上述した特許文献１の手法によれば、音楽番組の音声信号のように、特定の時間に楽曲のみが含まれる入力信号や、楽曲とその楽曲に比べて十分レベルの低い楽曲以外の音（以下、雑音という）とが混在している入力信号に対しては、高い精度で楽曲区間を検出することができる。
【００１０】
しかしながら、ドラマのように、BGMとしての楽曲と、その楽曲とほぼ同レベルの音声等の雑音とが混在している入力信号に対しては、スペクトラムのピークを適切に検出することができず、楽曲区間の検出の精度は低下してしまう可能性がある。
【００１１】
また、放送番組においては、台詞やナレーション等の音声はセンターに定位することが多いという特徴を利用して、入力信号の左チャネル信号から右チャネル信号を減算する（または、右チャネル信号から左チャネル信号を減算する）ことで、音声（雑音）の影響を除くようにした手法もある。しかしながら、この手法は、モノラル放送には適用することができず、また、楽曲自体がセンターに定位しているような入力信号に対しても適用することができない。さらに、音声圧縮による量子化ノイズは左右のチャネルで独立して発生するため、この手法においては、減算した信号に本来の入力信号とは相関の小さい量子化ノイズが含まれる恐れがある。
【００１２】
さらに、スペクトラムにおいて時間方向に持続して形成されるピークは、楽曲によるものに限らず、ノイズ、サイドローブ、干渉、および時間変動トーン等によるものもあるので、ピークに基づいた楽曲区間の検出結果において、楽曲以外の雑音の影響を完全に除くことはできない。
【００１３】
このように、楽曲と、その楽曲とほぼ同レベルの雑音とが混在している入力信号から楽曲部分を精度良く検出することはできなかった。
【００１４】
本技術は、このような状況に鑑みてなされたものであり、入力信号から楽曲部分を精度良く検出することができるようにするものである。
【課題を解決するための手段】
【００１５】
本技術の一側面の楽曲区間検出装置は、時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部と、前記トーンらしさの指標に基づいて、前記入力信号の各領域に楽曲が含まれているか否かを判定する楽曲判定部とを備える。
【００１６】
前記指標算出部には、所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出部と、前記極大となる点近傍の前記信号成分の強さを２次関数で近似する近似処理部とを設け、前記極大となる点近傍の前記信号成分の強さと前記２次関数との誤差に基づいて、前記指標を算出させることができる。
【００１７】
前記指標算出部には、前記２次関数の曲率に応じて前記指標を調整させることができる。
【００１８】
前記指標算出部には、前記２次関数が極大となる点の周波数に応じて前記指標を調整させることができる。
【００１９】
前記楽曲区間検出装置には、所定時間分の前記入力信号の各領域の前記トーンらしさの指標に基づいて、所定時間分の前記入力信号の特徴量を算出する特徴量算出部をさらに設け、前記楽曲判定部には、前記特徴量が所定の閾値より大きい場合、所定時間分の前記入力信号に楽曲が含まれていると判定させることができる。
【００２０】
前記特徴量算出部には、所定時間分の前記入力信号の各領域の前記トーンらしさの指標を、周波数毎に時間方向に積算することで前記特徴量を算出させることができる。
【００２１】
前記特徴量算出部には、所定時間分の前記入力信号の各領域において、周波数毎に、所定の閾値より大きい前記トーンらしさの指標が時間方向に最も連続する前記領域の前記トーンらしさの指標を積算することで前記特徴量を算出させることができる。
【００２２】
前記楽曲区間検出装置には、前記特徴量を時間方向にフィルタリングするフィルタ処理部をさらに設け、前記楽曲判定部には、時間方向にフィルタリングされた前記特徴量が所定の閾値より大きい場合、所定時間分の前記入力信号に楽曲が含まれていると判定させることができる。
【００２３】
本技術の一側面の楽曲区間検出方法は、時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、前記トーンらしさの指標に基づいて、前記入力信号の各領域に楽曲が含まれているか否かを判定する楽曲判定ステップとを含む。
【００２４】
本技術の一側面のプログラムおよび一側面の記録媒体に記録されるプログラムは、時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、前記トーンらしさの指標に基づいて、前記入力信号の各領域に楽曲が含まれているか否かを判定する楽曲判定ステップとを含む処理をコンピュータに実行させる。
【００２５】
本技術の一側面の楽曲信号検出装置は、時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部を備える。
【００２６】
本技術の一側面においては、時間周波数領域に変換された入力信号の各領域の信号成分の強さと、信号成分の強さを近似した関数とに基づいて、信号成分のトーンらしさの指標が算出され、トーンらしさの指標に基づいて、入力信号の各領域に楽曲が含まれているか否かが判定される。
【発明の効果】
【００２７】
本技術の一側面によれば、入力信号から楽曲部分を精度良く検出することが可能となる。
【図面の簡単な説明】
【００２８】
【図１】本技術を適用した楽曲区間検出装置の一実施の形態の構成を示すブロック図である。
【図２】指標算出部の機能構成例を示すブロック図である。
【図３】特徴量算出部の機能構成例を示すブロック図である。
【図４】楽曲区間検出処理について説明するフローチャートである。
【図５】指標算出処理について説明するフローチャートである。
【図６】ピークの検出について説明する図である。
【図７】ピーク周辺のパワースペクトルの近似について説明する図である。
【図８】指標の調整関数について説明する図である。
【図９】入力信号のトーンらしさの指標の例について説明する図である。
【図１０】特徴量算出処理について説明するフローチャートである。
【図１１】特徴量の算出について説明する図である。
【図１２】特徴量の算出について説明する図である。
【図１３】特徴量算出部の他の機能構成例を示すブロック図である。
【図１４】特徴量算出処理について説明するフローチャートである。
【図１５】特徴量の算出について説明する図である。
【図１６】従来の手法による判定結果のフィルタリングについて説明する図である。
【図１７】楽曲区間検出装置の他の機能構成例を示すブロック図である。
【図１８】楽曲区間検出処理について説明するフローチャートである。
【図１９】特徴量のフィルタリングについて説明する図である。
【図２０】コンピュータのハードウェアの構成例を示すブロック図である。
【発明を実施するための形態】
【００２９】
以下、本技術の実施の形態について図を参照して説明する。なお、説明は以下の順序で行う。
１．楽曲区間検出装置の構成
２．楽曲区間検出処理
３．その他の構成
【００３０】
＜１．楽曲区間検出装置の構成＞
図１は、本技術を適用した楽曲区間検出装置の一実施の形態の構成を示している。
【００３１】
図１の楽曲区間検出装置１１は、楽曲の信号成分と、人の会話や騒音等の雑音成分（雑音）とが混在した入力信号から楽曲部分を検出し、その結果を出力する。
【００３２】
楽曲区間検出装置１１は、切り出し部３１、時間周波数変換部３２、指標算出部３３、特徴量算出部３４、および楽曲区間判定部３５を備えている。
【００３３】
切り出し部３１は、入力信号から所定時間分の信号を切り出し、時間周波数変換部３２に供給する。
【００３４】
時間周波数変換部３２は、切り出し部３１からの所定時間分の入力信号を、時間周波数領域の信号（スペクトログラム）に変換し、指標算出部３３に供給する。
【００３５】
指標算出部３３は、時間周波数変換部３２からの入力信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に、楽曲の信号成分であることを表すトーンらしさの指標を算出し、特徴量算出部３４に供給する。
【００３６】
ここで、トーンらしさの指標とは、入力信号における周波数毎の信号成分の強さ（例えばパワースペクトル）で表されるトーンの時間に対する安定性を示すものとする。一般的に、楽曲においては、ある特定の音程（周波数）を持つ音がある一定時間鳴り続けるため、時間方向に対してトーンは安定する。一方、人の会話においては、時間方向に対してトーンはゆらぐ性質を持ち、また、環境雑音においては、時間方向に連続するトーンがあまり見られない。そこで、指標算出部３３は、所定の時間区間分の入力信号について、トーンの有無および安定性を数値化することで、トーンらしさの指標を求める。
【００３７】
特徴量算出部３４は、指標算出部３３からの、スペクトログラムの時間周波数領域毎のトーンらしさの指標に基づいて、入力信号の楽曲らしさを表す特徴量を算出し、楽曲区間判定部３５に供給する。
【００３８】
楽曲区間判定部３５は、特徴量算出部３４からの特徴量に基づいて、切り出し部３１によって切り出された所定時間分の入力信号に楽曲が含まれているか否かを判定し、その判定結果を出力する。
【００３９】
［指標算出部の構成］
次に、図２を参照して、図１の指標算出部３３の詳細な構成について説明する。
【００４０】
図２の指標算出部３３は、時間区間選択部５１、ピーク検出部５２、近似処理部５３、トーン度算出部５４、および出力部５５を備えている。
【００４１】
時間区間選択部５１は、時間周波数変換部３２からの入力信号のスペクトログラムにおいて、所定の時間区間のスペクトログラムを選択し、ピーク検出部５２に供給する。
【００４２】
ピーク検出部５２は、時間区間選択部５１によって選択された所定の時間区間のスペクトログラムにおいて、単位周波数毎に、信号成分の強さが極大となる点であるピークを検出する。
【００４３】
近似処理部５３は、所定の時間区間のスペクトログラムにおいて、ピーク検出部５２によって検出されたピーク周辺の信号成分の強さ（例えばパワースペクトル）を、所定の関数で近似する。
【００４４】
トーン度算出部５４は、近似処理部５３により近似された所定の関数と、ピーク検出部５２によって検出されたピーク周辺のパワースペクトルとの距離（誤差）に基づいて、所定の時間区間分のスペクトログラムについての、トーンらしさの指標を数値化したトーン度を算出する。
【００４５】
出力部５５は、トーン度算出部５４によって算出された、所定の時間区間分のスペクトログラムについてのトーン度を保持する。また、出力部５５は、保持している全時間区間分のスペクトログラムについてのトーン度を、切り出し部３１により切り出された所定時間分の入力信号のトーンらしさの指標として、特徴量算出部３４に供給する。
【００４６】
このようにして、切り出し部３１により切り出された所定時間分の入力信号についての、時間周波数領域における所定の時間区間毎、単位周波数毎にトーン度（要素）を持つトーンらしさの指標が算出される。
【００４７】
［特徴量算出部の構成］
次に、図３を参照して、図１の特徴量算出部３４の詳細な構成について説明する。
【００４８】
図３の特徴量算出部３４は、積算部７１、合算部７２、および出力部７３を備えている。
【００４９】
積算部７１は、指標算出部３３からのトーンらしさの指標に対して、単位周波数毎に、所定の条件を満たすトーン度を積算し、合算部７２に供給する。
【００５０】
合算部７２は、積算部７１からの、単位周波数毎のトーン度の積算値に対して、所定の条件を満たす積算値を合算し、出力部７３に供給する。
【００５１】
出力部７３は、合算部７２からの合算値に対して所定の演算を施し、その結果を、切り出し部３１により切り出された所定時間分の入力信号の特徴量として、楽曲区間判定部３５に供給する。
【００５２】
＜２．楽曲区間検出処理＞
次に、図４のフローチャートを参照して、楽曲区間検出装置１１の楽曲区間検出処理について説明する。楽曲区間検出処理は、外部の装置等から入力信号が楽曲区間検出装置１１に入力されると開始される。なお、楽曲区間検出装置１１には、入力信号が、時間的に連続して入力される。
【００５３】
ステップＳ１１において、切り出し部３１は、入力信号から所定時間（例えば、２秒間）分の信号を切り出し、時間周波数変換部３２に供給する。なお、ここで切り出された所定時間分の入力信号を、以下においては、適宜ブロックという。
【００５４】
ステップＳ１２において、時間周波数変換部３２は、例えばハニング窓等の窓関数や、例えば離散フーリエ変換等を用いて、切り出し部３１からの所定時間分の入力信号（ブロック）をスペクトログラムに変換し、指標算出部３３に供給する。なお、ここでは、窓関数として、ハニング窓に限らず、サイン窓やハミング窓が用いられてもよく、また、離散フーリエ変換に限らず、離散コサイン変換が用いられてもよい。さらに、変換されたスペクトログラムは、パワースペクトルや振幅スペクトル、対数振幅スペクトルのいずれであってもよい。また、周波数分解能を高めるために、零詰めによるオーバーサンプリングにより周波数変換長を窓の長さより長く（例えば２倍や４倍等に）してもよい。
【００５５】
ステップＳ１３において、指標算出部３３は、指標算出処理を実行することで、時間周波数変換部３２からの入力信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に入力信号のトーンらしさの指標を算出する。
【００５６】
［指標算出処理の詳細］
ここで、図５のフローチャートを参照して、図４のフローチャートのステップＳ１３における指標算出処理の詳細について説明する。
【００５７】
ステップＳ３１において、指標算出部３３の時間区間選択部５１は、時間周波数変換部３２からの入力信号のスペクトログラムにおいて、ある１フレーム分のスペクトログラムを選択し、ピーク検出部５２に供給する。なお、フレーム長は、例えば１６ミリ秒などとされる。
【００５８】
ステップＳ３２において、ピーク検出部５２は、時間区間選択部５１によって選択された１フレーム分のスペクトログラムにおいて、各周波数帯についての信号成分のパワースペクトル（強さ）が、その周波数帯の近傍で極大となる時間周波数領域上の点であるピークを検出する。
【００５９】
例えば、図６の上段に示される、時間周波数領域に変換された入力信号のスペクトログラム（１つの四角形（マス目）は、各フレーム、各周波数のスペクトルを示す）において、太線のマス目で示される、あるフレームのある周波数で、図６の下段に示されるようなピークｐ（具体的には、ピークｐを示す円で囲まれているスペクトルのうちの最大となるスペクトル）が検出されるようになる。なお、実際には、図６の上段に示されるマス目の縦の数は、図６の下段に示されるスペクトルの周波数方向（横軸方向）の数（黒丸の数）と等しくなる。
【００６０】
ステップＳ３３において、近似処理部５３は、時間区間選択部５１によって選択された１フレーム分のスペクトログラムについて、ピーク検出部５２によって検出されたピーク周辺のパワースペクトルを、２次関数で近似する。
【００６１】
上述したように、図６の下段においてはピークｐが検出されるものとしたが、ピークとなるパワースペクトルは、時間方向に対して安定するトーン（以下、持続性トーンともいう）に限らず、ノイズ、サイドローブ、干渉、時間変動トーン等の信号成分についても発生するため、そのピークに基づいてトーンらしさの指標が適切に算出されるとは限らない。また、離散フーリエ変換のピークは離散的であるので、そのピーク周波数は、真のピーク周波数であるとは限らない。
【００６２】
文献「J. O. Smith III and X. Serra:“PARSHL: A program for analysis/synthesis of inharmonic sounds based on a sinusoidal representation”in Proc. ICMC’87」によれば、楽曲であるか人の声であるかにかかわらず、あるフレームでのピーク周辺の対数振幅スペクトルの値は、２次関数で近似することが可能であるとされている。
【００６３】
そこで、本技術においては、ピーク周辺の対数振幅スペクトルを２次関数で近似する。
【００６４】
さらに、本技術においては、以下の仮定の下、そのピークが持続性トーンによるものであるか否かを決定する。
【００６５】
ａ）持続性トーンは、その２次関数を時間方向に伸ばした関数により近似される。
ｂ）周波数の時間変化については、楽曲によるピークは時間方向に持続するので、零次近似される（変化しないものとする）。
ｃ）振幅の時間変化については、ある程度の許容を必要とし、例えば２次関数等で近似される。
【００６６】
したがって、持続性トーンは、図７で示されるような、あるフレームにおける２次関数を時間方向に伸ばしたトンネル型の関数（双２次関数）でモデル化され、時間ｔおよび周波数ωに対して、以下の式（１）で表すことができる。なお、ω_ｐは、ピーク周波数を表している。
【００６７】
【数１】

・・・（１）
【００６８】
よって、ある着目しているピーク周辺において、上述した仮定ａ）乃至ｃ）に基づいた双２次関数を、例えば最小二乗近似で当てはめたときの誤差を、トーン（持続性トーン）らしさの指標とすることができる。すなわち、以下の式（２）を誤差関数とすることができる。
【００６９】
【数２】

・・・（２）
【００７０】
式（２）において、f(k,n)は、第ｎフレーム、第ｋビンのDFTスペクトルを示しており、g(k,n)は、上述で示された、持続性トーンのモデルを示す式（１）と同義の式であり、以下の式（３）で示される。
【００７１】
【数３】

・・・（３）
【００７２】
なお、式（２）におけるΓは、対象となるピーク周辺の時間周波数領域を示している。時間周波数領域Γにおいて、周波数方向のサイズは、時間周波数変換に用いた窓関数に応じて、かつ、周波数変換長により決定されるメインローブのサンプルポイント数を超えないように決定される。また、時間方向のサイズは、持続性トーンを定義するのに必要な時間長に応じて決定される。
【００７３】
図５のフローチャートに戻り、ステップＳ３４において、トーン度算出部５４は、近似処理部５３により近似された２次関数と、ピーク検出部５２によって検出されたピーク周辺のパワースペクトルとの誤差、すなわち、上述した式（２）の誤差関数に基づいて、時間区間選択部５１によって選択された１フレーム分のスペクトログラムについての、トーンらしさの指標であるトーン度を算出する。
【００７４】
ここで、上述した式（２）の誤差関数を、平面モデルへ当てはめたときの誤差関数を以下の式（４）で表すこととすると、トーン度ηは、以下の式（５）のように示される。
【００７５】
【数４】

・・・（４）
【００７６】
【数５】

・・・（５）
【００７７】
式（５）において、ａハット（ａに^を付した文字をａハットと記述する。以下、本明細書において、同様に記載する。）、ｂハット、ｃハット、ｄハット、ｅハットは、それぞれ、J(a,b,c,d,e)を最小とするa,b,c,d,eであり、ｅ’ハットは、J(e’)を最小とするｅ’である。
【００７８】
このようにして、トーン度ηが求められる。
【００７９】
ところで、式（５）において、ａハットは、持続性トーンを表すモデルの曲線（２次関数）のピーク曲率を示している。
【００８０】
ピーク曲率は、入力信号の信号成分が正弦波であれば、理論的には、時間周波数変換に用いた窓関数の種類とサイズによって決まる定数である。したがって、実際に得られたピーク曲率ａハットの値が理論値からずれるほど、その信号成分が持続性トーンである可能性は低くなると考えられる。また、そのピークがサイドローブ性のものであったとしても、得られるピーク曲率は変わってくるため、ピーク曲率ａハットのずれはトーンらしさの指標に影響すると言える。すなわち、ピーク曲率ａハットの理論値からのずれの値に応じて、トーン度ηを調整することにより、より適正なトーンらしさの指標を得ることができるようになる。ピーク曲率ａハットの理論値からのずれの値に応じて調整されたトーン度η’は、以下の式（６）のように示される。
【００８１】
【数６】

・・・（６）
【００８２】
式（６）において、値ａ_idealは、時間周波数変換に用いた窓関数の種類とサイズによって決まるピーク曲率の理論値である。また、関数D(x)は、図８に示されるような値をとる調整関数であり、関数D(x)によれば、ピーク曲率の値が理論値から離れるほど、トーン度は小さくなる。すなわち、式（６）によれば、ピークでない要素については、トーン度η’は０となる。なお、関数D(x)は、図８に示される形状の関数に限らず、ピーク曲率の値が理論値から離れるほど、トーン度が小さくなるような関数であればよい。
【００８３】
このように、曲線（２次関数）のピーク曲率に応じてトーン度を調整することで、より適切なトーン度が得られるようになる。
【００８４】
ところで、式（５）におけるａハットおよびｂハットによって与えられる値−(ｂハット)/2(ａハット)は、離散ピーク周波数から真のピーク周波数へのオフセットを示している。
【００８５】
真のピーク周波数は、理論上、離散ピーク周波数から±0.5ビンの位置にある。離散ピーク周波数から真のピーク周波数へのオフセット値−(ｂハット)/2(ａハット)が、着目しているピークの位置と極端に異なる場合、上述で示された式（２）の誤差関数を計算する際のマッチングが正しくない可能性が高い。すなわち、このことは、トーンらしさの指標の信頼性に影響すると考えられるので、オフセット値−(ｂハット)/2(ａハット)の、着目しているピークの位置（ピーク周波数）ｋ_ｐからのずれの値に応じて、トーン度ηを調整することにより、より適切なトーンらしさの指標を得るようにしてもよい。具体的には、式（６）における関数D(x)において、（ａハット）−ａ_idealの項を、−(ｂハット)/2(ａハット)−ｋ_ｐに置き換えるようにしてもよいし、関数D{−(ｂハット)/2(ａハット)−ｋ_ｐ}を式（６）の左辺に乗算した値を、調整したトーン度η’とするようにしてもよい。
【００８６】
また、トーン度ηは、上述した手法以外の手法により算出されるようにもできる。
【００８７】
具体的には、まず、上述した式（２）の誤差関数において、持続性トーンを表すモデルg(k,n)を、ピーク周辺のパワースペクトルの時間平均形状を近似した２次関数ak²+bk+cで置き換えた、以下の式（７）の誤差関数を与える。
【００８８】
【数７】

・・・（７）
【００８９】
次に、上述した式（２）の誤差関数において、持続性トーンを表すモデルg(k,n)を、着目しているピークのある第ｍフレームのパワースペクトルを近似した２次関数a’k²+b’k+c’で置き換えた、以下の式（８）の誤差関数を与える。なお、ｍは、着目しているピークのあるフレーム番号を示している。
【００９０】
【数８】

・・・（８）
【００９１】
ここで、式（７）において、J(a,b,c)を最小とするa,b,cを、それぞれａハット、ｂハット、ｃハットとし、式（８）において、J(a’,b’,c’)を最小とするa’,b’,c’を、それぞれａ’ハット、ｂ’ハット、ｃ’ハットとしたとき、トーン度ηは以下の式（９）で与えられる。
【００９２】
【数９】

・・・（９）
【００９３】
式（９）において、関数D₁(x)，D₂(x)は、それぞれ、上述で説明した図８に示されるような値をとる関数とされる。なお、式（９）によれば、ピークでない要素については、トーン度η’は０となり、また、ａハットが０またはａ’ハットが０の場合にも、トーン度η’は０となる。
【００９４】
なお、以上のように算出されたトーン度ηに対して、シグモイド関数等による非線形変換を施すようにしてもよい。
【００９５】
さて、図５のフローチャートに戻り、ステップＳ３５において、出力部５５は、トーン度算出部５４によって算出された、１フレーム分のスペクトログラムについてのトーン度を保持し、１ブロックにおける全てのフレームについて、上述した処理を行ったか否かを判定する。
【００９６】
ステップＳ３５において、全てのフレームについて上述した処理が行われていないと判定された場合、処理はステップＳ３１に戻り、次のフレームのスペクトログラムに対して、ステップＳ３１乃至Ｓ３５の処理が繰り返される。
【００９７】
一方、ステップＳ３５において、全てのフレームについて上述した処理が行われたと判定された場合、処理はステップＳ３６に進む。
【００９８】
ステップＳ３６において、出力部５５は、保持しているフレーム毎のトーン度を時系列に配列して、特徴量算出部３４に供給（出力）し、処理はステップＳ１３に戻る。
【００９９】
図９は、指標算出部３３によって算出されるトーンらしさの指標の例について説明する図である。
【０１００】
図９に示されるように、入力信号のスペクトログラムから算出された入力信号のトーンらしさの指標Ｓは、時間方向および周波数方向に、トーン度を要素（以下、成分ともいう）として有している。トーンらしさの指標Ｓにおける四角形（マス目）のそれぞれは、各時間（フレーム）、各周波数毎の成分を表しており、図示されないが、それぞれトーン度としての値を有する。また、図９に示されるように、トーンらしさの指標Ｓの時間粒度（フレーム長）は、例えば１６ミリ秒などとされる。
【０１０１】
このように、入力信号の１ブロックについてのトーンらしさの指標は、各時間、各周波数毎に成分を有している。
【０１０２】
なお、極低周波帯域については、例えばハムノイズ等の楽曲以外の信号成分によるピークが含まれる可能性が高いので、トーン度を算出しないようにしてもよい。また、例えば８kHzより上の高周波帯域についても、楽曲を構成する重要な要素でない可能性があるので、トーン度を算出しないようにしてもよい。さらに、離散ピーク周波数におけるパワースペクトルの値が、例えば−80dB等の所定の値よりも小さい場合にも、トーン度を算出しないようにしてもよい。
【０１０３】
図４のフローチャートに戻り、ステップＳ１３の後、ステップＳ１４において、特徴量算出部３４は、指標算出部３３からのトーンらしさの指標に基づいて、特徴量算出処理を実行し、入力信号の楽曲らしさを表す特徴量を算出する。
【０１０４】
［特徴量算出処理の詳細］
ここで、図１０のフローチャートを参照して、図４のフローチャートのステップＳ１４における特徴量算出処理の詳細について説明する。
【０１０５】
ステップＳ５１において、積算部７１は、指標算出部３３からのトーンらしさの指標に対して、周波数毎に、所定の閾値より大きいトーン度を積算し、合算部７２に供給する。
【０１０６】
例えば、図１１に示されるトーンらしさの指標Ｓが指標算出部３３から供給された場合、積算部７１は、まず、トーンらしさの指標Ｓにおいて最も低い周波数（すなわち、図中最も下の行）のトーン度に注目する。次に、積算部７１は、その注目している周波数（以下、注目周波数という）のトーン度において、図中網かけで示されている、所定の閾値より大きいトーン度を、時間方向（図中左から右の方向）に順番に加算していく。なお、所定の閾値は、適宜、適切に設定されるものとし、例えば０であってもよい。そして、積算部７１は、注目周波数を１つ上げ、その注目周波数に対して上述の処理を繰り返す。このようにして、注目周波数毎にトーン度の積算値が得られる。このトーン度の積算値は、楽曲の信号成分が含まれる周波数ほど、高い値となる。
【０１０７】
図１０のフローチャートに戻り、ステップＳ５２において、積算部７１は、周波数毎のトーン度の積算の処理を、全ての周波数について行ったか否かを判定する。
【０１０８】
ステップＳ５２において、全ての周波数について処理が行われていないと判定された場合、処理はステップＳ５１に戻り、ステップＳ５１，Ｓ５２の処理が繰り返される。
【０１０９】
一方、ステップＳ５２において、全ての周波数について処理が行われたと判定された場合、すなわち、図１１のトーンらしさの指標Ｓにおいて、全ての周波数を注目周波数として積算値が算出された場合、積算部７１は、周波数毎のトーン度の積算値Sfを合算部７２に供給し、処理はステップＳ５３に進む。
【０１１０】
ステップＳ５３において、合算部７２は、積算部７１からの周波数毎のトーン度の積算値に対して、所定の閾値より大きい積算値を合算し、出力部７３に供給する。
【０１１１】
例えば、図１２に示される周波数毎のトーン度の積算値Sfが積算部７１から供給された場合、合算部７２は、周波数毎のトーン度の積算値Sfにおいて、図中網かけで示されている、所定の閾値より大きい積算値を、周波数方向（図中下から上の方向）に順番に加算していく。なお、所定の閾値は、適宜、適切に設定されるものとし、例えば０であってもよい。そして、合算部７２は、得られた合算値Sbを出力部７３に供給する。なお、合算部７２は、周波数毎のトーン度の積算値Sfにおいて、所定の閾値より大きい積算値の数をカウントし、そのカウント値（図１１の例では５）を、合算値Sbとともに出力部７３に供給する。
【０１１２】
ステップＳ５４において、出力部７３は、合算部７２からの合算値を、合算部７２からのカウント値で除算した値を、切り出し部３１により切り出された１ブロック分の入力信号の特徴量として、楽曲区間判定部３５に供給する。すなわち、例えば、図１２における合算値Sbをカウント値５で割った値Smが、そのブロックの特徴量として算出される。
【０１１３】
このようにして、入力信号のブロックについての、楽曲らしさを表す特徴量が算出されるようになる。
【０１１４】
図４のフローチャートに戻り、ステップＳ１４の後、ステップＳ１５において、楽曲区間判定部３５は、特徴量算出部３４からの特徴量が、所定の閾値より大きいか否かを判定する。
【０１１５】
ステップＳ１５において、特徴量が所定の閾値より大きいと判定された場合、処理はステップＳ１６に進み、楽曲区間判定部３５は、切り出し部３１により切り出されたブロックに対応する入力信号の時間区間が、楽曲が含まれる楽曲区間であると判定して、その旨の情報を出力する。
【０１１６】
一方、ステップＳ１５において、特徴量が所定の閾値より大きくないと判定された場合、処理はステップＳ１７に進み、楽曲区間判定部３５は、切り出し部３１により切り出されたブロックに対応する入力信号の時間区間が、楽曲が含まれない非楽曲区間であると判定として、その旨の情報を出力する。
【０１１７】
ステップＳ１８において、楽曲区間検出装置１１は、全ての入力信号（ブロック）について、上述した処理を行ったか否かを判定する。
【０１１８】
ステップＳ１８において、全ての入力信号について処理を行っていないと判定された場合、すなわち、入力信号が時間的に連続して入力され続けている場合、処理はステップＳ１１に戻り、これ以降の処理が繰り返される。
【０１１９】
一方、全ての入力信号について処理を行ったと判定された場合、すなわち、入力信号の入力が終了した場合、処理も終了する。
【０１２０】
以上の処理によれば、楽曲と雑音とが混在した入力信号から、トーンらしさの指標が算出され、その指標から求められる入力信号の特徴量に基づいて、入力信号に楽曲が含まれる区間が検出されるようになる。トーンらしさの指標は、パワースペクトルの時間に対する安定性を定量化したものであるので、その指標から求められる特徴量は、楽曲らしさを確実に表現するものとなる。したがって、楽曲と雑音とが混在する入力信号から、楽曲部分を精度良く検出することが可能となる。
【０１２１】
＜３．その他の構成＞
なお、以上においては、特徴量算出処理において得られる周波数毎のトーン度の積算値は、楽曲の信号成分が含まれる周波数ほど高い値となるものとしたが、ある注目周波数に、不連続的に、値の高いトーン度が含まれる場合であっても、その注目周波数のトーン度の積算値は、高い値となってしまう。トーン度は、フレーム毎の、時間方向に対するトーンの安定性を示すものであるが、複数のフレームについて、連続的にトーン度が高ければ、トーンの安定性がより明確に示されるようになる。
【０１２２】
そこで、以下においては、複数のフレームについての連続的なトーン度の高さを評価するようにした特徴量算出処理について説明する。
【０１２３】
［特徴量算出部の他の構成］
まず、図１３を参照して、複数のフレームについての連続的なトーン度の高さを評価するようにした特徴量算出処理を行う特徴量算出部３４の構成について説明する。
【０１２４】
なお、図１３の特徴量算出部３４において、図３の特徴量算出部３４に設けられたものと同様の機能を備える構成については、同一名称および同一符号を付するものとし、その説明は、適宜省略するものとする。
【０１２５】
すなわち、図１３の特徴量算出部３４において、図３の特徴量算出部３４と異なるのは、積算部７１に代えて積算部９１を設けた点である。
【０１２６】
積算部９１は、指標算出部３３からのトーンらしさの指標に対して、単位周波数毎に、時間的に最も連続して所定の条件を満たすトーン度を積算し、合算部７２に供給する。
【０１２７】
［特徴量算出処理の詳細］
次に、図１４のフローチャートを参照して、図１３の特徴量算出部３４による特徴量算出処理の詳細について説明する。
【０１２８】
なお、図１４のフローチャートのステップＳ９２乃至Ｓ９４の処理は、図１０のフローチャートのステップＳ５２乃至Ｓ５４の処理と基本的に同様であるので、その説明は省略する。
【０１２９】
すなわち、ステップＳ９１において、積算部９１は、指標算出部３３からのトーンらしさの指標に対して、周波数毎に、所定の閾値より大きいトーン度が、時間方向に最も連続する時間区間のトーン度を積算し、合算部７２に供給する。
【０１３０】
例えば、図１５に示されるトーンらしさの指標Ｓが指標算出部３３から供給された場合、積算部９１は、まず、トーンらしさの指標Ｓにおいて最も低い周波数（すなわち、図中最も下の行）のトーン度に注目する。次に、積算部９１は、その注目周波数のトーン度において、図中網かけで示されている、所定の閾値より大きいトーン度を、時間方向（図中左から右の方向）に順番に加算していく。このとき、積算部９１は、まず、所定の閾値より大きいトーン度が時間的に連続する時間区間t1のトーン度を加算し、その数２をカウントする。積算部９１は、同様にして、時間区間t2、時間区間t3についても、トーン度を加算し、その数３，２をカウントする。そして、積算部９１は、カウントした数のうち最も大きい数３に対応する時間区間t2のトーン度を加算した値を、注目周波数毎のトーン度の積算値とする。積算部９１は、全ての周波数について、上述の処理を繰り返す。このようにして、注目周波数毎にトーン度の積算値が得られる。このトーン度の積算値は、楽曲の信号成分が含まれる周波数ほど高い値となり、さらに、トーンの安定性をより明確に示すものとなる。
【０１３１】
これにより、楽曲らしさを表す特徴量の信頼性を高めることができ、ひいては、楽曲と雑音とが混在する入力信号から、楽曲部分をより精度良く検出することが可能となる。
【０１３２】
このように、楽曲区間検出処理によって得られる楽曲区間の判定結果の信頼性は、高いものとなるが、特徴量が閾値近傍の値となる場合、楽曲区間と非楽曲区間とが頻繁に入れ替わった判定結果が得られる可能性がある。そこで、従来、このような楽曲区間と非楽曲区間とが頻繁に入れ替わった判定結果に対して、メディアンフィルタ等を用いてフィルタリングすることにより、安定した判定結果を得るようにしていた。
【０１３３】
図１６は、従来の手法による判定結果のフィルタリングについて説明する図である。
【０１３４】
図１６の上段には、時間方向に対するブロック毎の特徴量が示されており、楽曲区間では高い値をとり、非楽曲区間では低い値をとっている。
【０１３５】
図１６の中段には、図１６の上段に示される特徴量を所定の閾値により２値化した、楽曲区間の判定結果が示されている。この判定結果においては、図１６の上段に示される、非楽曲区間における特徴量の算出エラーによって、非楽曲区間にもかかわらず楽曲区間であると誤判定されている箇所が見られる。
【０１３６】
図１６の下段には、図１６の中段に示される判定結果に対してフィルタリングした結果が示されている。図１６の下段に示されるように、フィルタリングすることにより、非楽曲区間における特徴量の算出エラーによる影響は除くことができるようになるが、図中右側の楽曲区間の、非楽曲区間との境界付近が、フィルタリングのエラーにより非楽曲区間として扱われてしまっている。
【０１３７】
このように、フィルタリングされた楽曲区間の判定結果の信頼性は、決して高いものとは言えなかった。
【０１３８】
そこで、以下においては、楽曲区間の判定結果の信頼性をより高めるようにした構成について説明する。
【０１３９】
［楽曲区間検出装置の他の構成］
図１７は、楽曲区間の判定結果の信頼性を高めるようにした楽曲区間検出装置の構成を示している。
【０１４０】
なお、図１７の楽曲区間検索装置１１１において、図１の楽曲区間検索装置１１に設けられたものと同様の機能を備える構成については、同一名称および同一符号を付するものとし、その説明は、適宜省略するものとする。
【０１４１】
すなわち、図１７の楽曲区間検索装置１１１において、図１の楽曲区間検索装置１１と異なるのは、特徴量算出部３４と楽曲区間判定部３５との間に、フィルタ処理部１３１を新たに設けた点である。
【０１４２】
フィルタ処理部１３１は、特徴量算出部３４からの特徴量に対してフィルタリングし、そのフィルタリングされた特徴量を、楽曲区間判定部３５に供給する。
【０１４３】
なお、図１７の楽曲区間検索装置１１１における特徴量算出部３４の構成は、図３を参照して説明した構成であってもよいし、図１３を参照して説明した構成であってもよい。
【０１４４】
［楽曲区間検出処理の詳細］
次に、図１８のフローチャートを参照して、図１７の楽曲区間検出装置１１１による楽曲区間検出処理の詳細について説明する。
【０１４５】
なお、図１８のフローチャートのステップＳ１１１乃至Ｓ１１４の処理は、図４のフローチャートのステップＳ１１乃至Ｓ１４の処理と基本的に同様であるので、その説明は省略する。また、図１８のフローチャートのステップＳ１１４における処理の詳細は、図１０のフローチャートを参照して説明したものであってもよいし、図１４のフローチャートを参照して説明したものであってもよい。
【０１４６】
なお、図１８のフローチャートのステップＳ１１４においては、特徴量算出部３４は、算出した特徴量をブロック毎に保持する。
【０１４７】
ステップＳ１１５において、楽曲区間検出装置１１１は、全ての入力信号（ブロック）について、ステップＳ１１１乃至Ｓ１１４の処理を行ったか否かを判定する。
【０１４８】
ステップＳ１１５において、全ての入力信号について処理を行っていないと判定された場合、すなわち、入力信号が時間的に連続して入力され続けている場合、処理はステップＳ１１１に戻り、ステップＳ１１１乃至Ｓ１１４の処理が繰り返される。
【０１４９】
一方、全ての入力信号について処理を行ったと判定された場合、すなわち、入力信号の入力が終了した場合、特徴量算出部３４は、全てのブロックについての特徴量をフィルタ処理部１３１に供給し、処理はステップＳ１１６に進む。
【０１５０】
ステップＳ１１６において、フィルタ処理部１３１は、特徴量算出部３４からの特徴量に対して、ローパスフィルタを用いてフィルタリングし、平滑化された特徴量を、楽曲区間判定部３５に供給する。
【０１５１】
ステップＳ１１７において、楽曲区間判定部３５は、特徴量算出部３４からの特徴量が、所定の閾値より大きいか否かを、ブロック毎に順番に判定する。
【０１５２】
ステップＳ１１７において、特徴量が所定の閾値より大きいと判定された場合、処理はステップＳ１１８に進み、楽曲区間判定部３５は、そのブロックに対応する入力信号の時間区間が、楽曲が含まれる楽曲区間であると判定して、その旨の情報を出力する。
【０１５３】
一方、ステップＳ１１６において、特徴量が所定の閾値より大きくないと判定された場合、処理はステップＳ１１９に進み、楽曲区間判定部３５は、そのブロックに対応する入力信号の時間区間が、楽曲が含まれない非楽曲区間であると判定として、その旨の情報を出力する。
【０１５４】
ステップＳ１２０において、楽曲区間検出装置１１１は、全ての入力信号（ブロック）の特徴量について、上述した処理を行ったか否かを判定する。
【０１５５】
ステップＳ１２０において、全ての入力信号の特徴量について処理を行っていないと判定された場合、処理はステップＳ１１７に戻り、次のブロックの特徴量についての処理が繰り返される。
【０１５６】
一方、全ての入力信号の特徴量について処理を行ったと判定された場合、処理は終了する。
【０１５７】
図１９は、上述した楽曲区間検出処理における、特徴量に対するフィルタリングについて説明する図である。
【０１５８】
図１９の上段には、図１６の上段と同様に、時間方向に対するブロック毎の特徴量が示されている。
【０１５９】
図１９の中段には、図１９の上段に示される特徴量に対してフィルタリングした結果が示されている。図１９の中段に示されるように、フィルタリングすることにより、図１９の上段に示される非楽曲区間における特徴量の算出エラーが平滑化されるようになる。
【０１６０】
図１９の下段には、図１９の中段に示される特徴量を所定の閾値により２値化した、楽曲区間の判定結果が示されている。この判定結果においては、楽曲区間および非楽曲区間はそれぞれ正しく判定されている。
【０１６１】
特徴量は、パワースペクトルの時間に対する安定性を定量化したトーンらしさの指標から算出される、楽曲らしさを確実に表現する値であるので、上述したように、その特徴量に対してフィルタリングすることで、より信頼性の高い楽曲区間の判定結果を得ることができるようになる。
【０１６２】
なお、フィルタリングは、全てのブロックについての特徴量に対して行う必要はなく、目的に応じてフィルタリングするブロックを選択するようにしてもよい。
【０１６３】
例えば、図１７の楽曲区間検出装置１１１において、図４の楽曲区間検出処理のように、一旦全ての入力信号について楽曲区間であるか否かを判定し、非楽曲区間と判定されたブロックの特徴量のみに対してフィルタリングするようにすることで、楽曲区間の検出漏れを減らして楽曲部分の再現率を高めることが可能となる。
【０１６４】
また、本技術は、図１に示される楽曲区間検出装置１１に適用される他、例えば、インターネット等のネットワークを介して情報を送受信するネットワークシステムに適用されるようにもできる。具体的には、携帯電話機等の端末装置に、図１の切り出し部３１を設けるようにするとともに、サーバに、図１の切り出し部３１以外の構成を設けるようにし、端末装置からインターネットを介して送信されてくる入力信号に対して、サーバが楽曲区間検出処理を行うようにしてもよい。この場合、サーバは、判定結果を、インターネットを介して端末装置に送信し、端末装置は、サーバからの判定結果を表示部等に表示するようにもできる。
【０１６５】
また、以上においては、楽曲区間検出装置１１（楽曲区間検出装置１１１）において、ブロック毎のトーンらしさの指標から求められる特徴量に基づいて、そのブロックが楽曲区間であるか否かを判定するようにしたが、切り出し部３１乃至指標算出部３３のみを備えるようにして、そのブロックにおける楽曲の信号成分を検出する楽曲信号検出装置として、楽曲区間検出装置１１（楽曲区間検出装置１１１）を機能させるようにしてもよい。
【０１６６】
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等に、プログラム記録媒体からインストールされる。
【０１６７】
図２０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【０１６８】
コンピュータにおいて、CPU（Central Processing Unit）９０１，ROM（Read Only Memory）９０２，RAM（Random Access Memory）９０３は、バス９０４により相互に接続されている。
【０１６９】
バス９０４には、さらに、入出力インタフェース９０５が接続されている。入出力インタフェース９０５には、キーボード、マウス、マイクロホン等よりなる入力部９０６、ディスプレイ、スピーカ等よりなる出力部９０７、ハードディスクや不揮発性のメモリ等よりなる記憶部９０８、ネットワークインタフェース等よりなる通信部９０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等のリムーバブルメディア９１１を駆動するドライブ９１０が接続されている。
【０１７０】
以上のように構成されるコンピュータでは、CPU９０１が、例えば、記憶部９０８に記憶されているプログラムを、入出力インタフェース９０５およびバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行われる。
【０１７１】
コンピュータ（CPU９０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリ等よりなるパッケージメディアであるリムーバブルメディア９１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【０１７２】
そして、プログラムは、リムーバブルメディア９１１をドライブ９１０に装着することにより、入出力インタフェース９０５を介して、記憶部９０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部９０９で受信し、記憶部９０８にインストールすることができる。その他、プログラムは、ROM９０２や記憶部９０８に、あらかじめインストールしておくことができる。
【０１７３】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【０１７４】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【０１７５】
さらに、本技術は以下のような構成をとることができる。
（１）時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部と、
前記トーンらしさの指標に基づいて、前記入力信号の各領域に楽曲が含まれているか否かを判定する楽曲判定部と
を備える楽曲区間検出装置。
（２）前記指標算出部は、
所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出部と、
前記極大となる点近傍の前記信号成分の強さを２次関数で近似する近似処理部とを備え、
前記極大となる点近傍の前記信号成分の強さと前記２次関数との誤差に基づいて、前記指標を算出する
（１）に記載の楽曲区間検出装置。
（３）前記指標算出部は、前記２次関数の曲率に応じて前記指標を調整する
（２）に記載の楽曲区間検出装置。
（４）前記指標算出部は、前記２次関数が極大となる点の周波数に応じて前記指標を調整する
（２）または（３）に記載の楽曲区間検出装置。
（５）所定時間分の前記入力信号の各領域の前記トーンらしさの指標に基づいて、所定時間分の前記入力信号の特徴量を算出する特徴量算出部をさらに備え、
前記楽曲判定部は、前記特徴量が所定の閾値より大きい場合、所定時間分の前記入力信号に楽曲が含まれていると判定する
（１）乃至（４）のいずれかに記載の楽曲区間検出装置。
（６）前記特徴量算出部は、所定時間分の前記入力信号の各領域の前記トーンらしさの指標を、周波数毎に時間方向に積算することで前記特徴量を算出する
（５）に記載の楽曲区間検出装置。
（７）前記特徴量算出部は、所定時間分の前記入力信号の各領域において、周波数毎に、所定の閾値より大きい前記トーンらしさの指標が時間方向に最も連続する前記領域の前記トーンらしさの指標を積算することで前記特徴量を算出する
（５）に記載の楽曲区間検出装置。
（８）前記特徴量を時間方向にフィルタリングするフィルタ処理部をさらに備え、
前記楽曲判定部は、時間方向にフィルタリングされた前記特徴量が所定の閾値より大きい場合、所定時間分の前記入力信号に楽曲が含まれていると判定する
（５）乃至（７）のいずれかに記載の楽曲区間検出装置。
（９）時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、
前記トーンらしさの指標に基づいて、前記入力信号の各領域に楽曲が含まれているか否かを判定する楽曲判定ステップと
を含む楽曲区間検出方法。
（１０）時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、
前記トーンらしさの指標に基づいて、前記入力信号の各領域に楽曲が含まれているか否かを判定する楽曲判定ステップと
を含む処理をコンピュータに実行させるプログラム。
（１１）（１０）に記載のプログラムが記録されている記録媒体。
（１２）時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部
を備える楽曲信号検出装置。
【符号の説明】
【０１７６】
１１楽曲区間検出装置，３１切り出し部，３２時間周波数変換部，３３指標算出部，３４特徴量算出部，３５楽曲区間判定部，５２ピーク検出部，５３近似処理部，５４トーン度算出部

【特許請求の範囲】
【請求項１】
時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部と、
前記トーンらしさの指標に基づいて、前記入力信号の各領域に楽曲が含まれているか否かを判定する楽曲判定部と
を備える楽曲区間検出装置。
【請求項２】
前記指標算出部は、
所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出部と、
前記極大となる点近傍の前記信号成分の強さを２次関数で近似する近似処理部とを備え、
前記極大となる点近傍の前記信号成分の強さと前記２次関数との誤差に基づいて、前記指標を算出する
請求項１に記載の楽曲区間検出装置。
【請求項３】
前記指標算出部は、前記２次関数の曲率に応じて前記指標を調整する
請求項２に記載の楽曲区間検出装置。
【請求項４】
前記指標算出部は、前記２次関数が極大となる点の周波数に応じて前記指標を調整する
請求項２に記載の楽曲区間検出装置。
【請求項５】
所定時間分の前記入力信号の各領域の前記トーンらしさの指標に基づいて、所定時間分の前記入力信号の特徴量を算出する特徴量算出部をさらに備え、
前記楽曲判定部は、前記特徴量が所定の閾値より大きい場合、所定時間分の前記入力信号に楽曲が含まれていると判定する
請求項１に記載の楽曲区間検出装置。
【請求項６】
前記特徴量算出部は、所定時間分の前記入力信号の各領域の前記トーンらしさの指標を、周波数毎に時間方向に積算することで前記特徴量を算出する
請求項５に記載の楽曲区間検出装置。
【請求項７】
前記特徴量算出部は、所定時間分の前記入力信号の各領域において、周波数毎に、所定の閾値より大きい前記トーンらしさの指標が時間方向に最も連続する前記領域の前記トーンらしさの指標を積算することで前記特徴量を算出する
請求項５に記載の楽曲区間検出装置。
【請求項８】
前記特徴量を時間方向にフィルタリングするフィルタ処理部をさらに備え、
前記楽曲判定部は、時間方向にフィルタリングされた前記特徴量が所定の閾値より大きい場合、所定時間分の前記入力信号に楽曲が含まれていると判定する
請求項５に記載の楽曲区間検出装置。
【請求項９】
時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、
前記トーンらしさの指標に基づいて、前記入力信号の各領域に楽曲が含まれているか否かを判定する楽曲判定ステップと
を含む楽曲区間検出方法。
【請求項１０】
時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、
前記トーンらしさの指標に基づいて、前記入力信号の各領域に楽曲が含まれているか否かを判定する楽曲判定ステップと
を含む処理をコンピュータに実行させるプログラム。
【請求項１１】
請求項１０に記載のプログラムが記録されている記録媒体。
【請求項１２】
時間周波数領域に変換された入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部
を備える楽曲信号検出装置。

【図１】