楽器音分離装置、及びプログラム

【課題】混合音から楽器音を分離・抽出する際の精度を向上させた楽器音分離装置、及びプログラムの提供。
【解決手段】音源分離処理では、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）に対して、１つの特定音から導出されたスペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）の相関値が最大となる、特定音範囲に対応する対応範囲を特定する。そして、特定された対応範囲において、振幅比率ｋｒを導出して、その導出された振幅比率ｋｒを、スペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）に乗算することで、特定音に対応する楽音推移ｔｕｗｆでの楽器音の複素スペクトルを表す分離スペクトルを導出する（Ｓ３１０）。その分離スペクトルを逆フーリエ変換して、区間推移を導出し（Ｓ３２０）、その導出された区間推移にて、楽器音推移ｔｒｗｆにおける対応範囲を置換することで、楽器音推移ｔｒｗｆを新たに更新する（Ｓ３３０）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の音が重畳した混合音から楽器音を分離する楽器音分離装置、及びプログラムに関する。
【背景技術】
【０００２】
従来、楽曲を構成する楽音の音圧が時間軸に沿って推移した既知の楽音波形を用いて、音声や物音といった主要音に、楽曲（例えば、ＢＧＭとして演奏された楽曲）にて演奏された楽器音が重畳した混合音から、楽曲の楽器音を除去する音源分離装置が知られている（特許文献１参照）。
【０００３】
この特許文献１に記載された音源分離装置においては、混合音に含まれている楽曲の楽器音の音圧が時間軸に沿って推移した楽器音波形が、既知の楽音波形に時間軸に沿って一致している（即ち、波形が合同である）と仮定している。そして、特許文献１に記載された音源分離装置では、混合音の音圧と既知の楽音波形における音圧との差が最小となるタイミングを、楽器音波形と既知の楽音波形との双方の開始位置として、既知の楽音波形全体を混合音から減算することで、楽曲の楽器音全体を混合音から除去している。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特許第４２７４４１８号
【発明の概要】
【発明が解決しようとする課題】
【０００５】
ところで、楽曲が同一であっても、当該楽曲を演奏する演奏者によっては、その楽曲を構成する各楽音の出力タイミングや各楽音の音高は異なることが多い。また、各楽音の出力タイミングや各楽音の音高は、演奏者が同一であっても、当該楽曲が演奏される毎にアレンジされることがある。
【０００６】
このように、各楽音の出力タイミングや各楽音の音高が、楽曲が演奏される毎に異なると、混合音に含まれる当該楽曲の楽器音波形は、既知の楽音波形との間にズレを有する（即ち、楽器音波形は、既知の楽音波形に合同とはならない）可能性が高い。したがって、特許文献１に記載された音源分離装置にて混合音から分離・抽出した楽器音は、出力タイミングや音高が異なる区間について、実際に演奏された楽音と異なるという問題があった。
【０００７】
つまり、特許文献１に記載の音源分離装置では、楽器音を混合音から分離・抽出する際の精度が低いという問題があった。
そこで、本発明は、混合音から楽器音を分離・抽出する際の精度を向上させた楽器音分離装置、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
上記目的を達成するためになされた本発明の楽器音分離装置は、楽音取得手段と、楽音解析手段と、特定音取得手段と、特定音解析手段と、範囲特定手段と、振幅比率導出手段と、区間推移導出手段と、楽器音分離手段とを備えている。
【０００９】
この本発明の楽器音分離装置では、楽音取得手段が、楽曲を構成する楽音の音圧が時間軸に沿って推移した楽音推移を取得し、その取得された楽音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した楽音スペクトログラムを、楽音解析手段が導出する。そして、少なくとも一種類の楽器の楽器音を模擬した特定音を出力する音源モジュールにて演奏される楽曲の楽譜を表す演奏データに基づいて、特定音取得手段が、規定された一種類の楽器である対象楽器の特定音の音圧が時間軸に沿って推移する特定音推移を取得し、その取得された特定音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した特定音スペクトログラムを、特定音解析手段が、音源モジュールにて対象楽器の各特定音が演奏される時間長である分析区間毎に導出する。
【００１０】
さらに、本発明の楽器音分離装置では、範囲特定手段が、特定音解析手段にて導出された特定音スペクトログラムそれぞれを楽音解析手段にて導出された楽音スペクトログラムに照合して、周波数軸及び時間軸に沿って特定音スペクトログラムが最も一致する楽音スペクトログラムでの範囲である対応範囲を特定し、その特定された対応範囲それぞれでの楽音スペクトログラムの周波数の強さと、特定音スペクトログラムの周波数の強さとの比を表す振幅比率を、振幅比率導出手段が、各周波数について導出する。これと共に、その導出された振幅比率それぞれを、当該分析区間に対応する楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルから、区間推移導出手段が、時間軸に沿った音圧の推移である区間推移を導出して、その導出された区間推移を楽曲の時間軸に沿って配することで、楽器音分離手段が、楽音推移において対象楽器の楽器音の音圧が時間軸に沿って推移した楽器音推移を生成する。
【００１１】
このような本発明の楽器音分離装置によれば、楽音推移から、楽器音推移を生成（抽出）することができる。
また、本発明の楽器音分離装置にて特定される対応範囲は、楽音スペクトログラムと特定音スペクトログラムとが、周波数軸及び時間軸の両方の軸に沿って最も一致する範囲である。このため、本発明の楽器音分離装置によれば、楽音取得手段にて取得する楽音推移が、各楽音の出力タイミングや音高が演奏データにおける特定音推移とは異なるようにアレンジされたものであっても、そのアレンジされた楽音の出力タイミングや音高に対応する範囲を対応範囲として特定することができる。
【００１２】
よって、本発明の楽器音分離装置によれば、楽音推移から生成した楽器音推移を、その楽曲にて実際に演奏された楽器音に近づけることができる。この結果、楽音推移から楽器音推移を生成する際の精度を向上させることができる。
【００１３】
ところで、演奏データに、音源モジュールから特定音の出力を開始するタイミングを表す発音タイミング、及び発音タイミングに対応し、かつ特定音の出力を終了するタイミングを表す終了タイミングが規定されていても良い。この場合、本発明の楽器音分離装置における特定音解析手段は、請求項２に記載のように、発音タイミングから、当該発音タイミングに対応する終了タイミングまでの期間それぞれを、分析区間として規定しても良い。
【００１４】
このような本発明の楽器音分離装置によれば、区間推移を、発音タイミングから終了タイミングまでの期間、即ち、演奏データにおける音符毎に導出することができる。この結果、本発明の楽器音分離装置によれば、楽音推移が、楽曲において一つの音符のみがアレンジされたものであっても、楽器音推移を精度良く生成することができる。
【００１５】
さらに、本発明の楽器音分離装置において、範囲特定手段が特定音スペクトログラムを照合する楽音スペクトログラムでの区間は、請求項３に記載されたように、発音タイミングから、当該発音タイミングに対応する終了タイミングまでの期間に対応する楽音推移上の期間を時間軸に沿って始端及び終端が挟むように規定される楽音スペクトログラムでの区間であっても良い。この区間は、特定音スペクトログラムとの一致度が高いと予測される区間を包含したものとなる。
【００１６】
このため、本発明の楽器音分離装置によれば、特定音スペクトログラムを楽音スペクトログラムに照合して対応区間を特定するまで、ひいては、楽器音推移を生成するまでに要する処理量を低減できる。
【００１７】
また、本発明の楽器音分離装置では、請求項４に記載のように、特定音解析手段にて特定音スペクトログラムを導出する毎に、範囲特定手段が、対応範囲を特定し、その範囲特定手段にて対応範囲を特定する毎に、振幅比率導出手段が、振幅比率を導出し、その振幅比率導出手段にて振幅比率を導出する毎に、区間推移導出手段が、区間推移を導出しても良い。
【００１８】
このような楽器音分離装置によれば、反復して処理を実行することなく、楽音推移及び特定音推移の時間軸に沿った一連の処理によって楽器音推移を生成することができる。
この結果、本発明の楽器音分離装置によれば、楽器音推移を生成するまでに要する処理量を低減することができ、ひいては、楽器音推移を生成するまでに要する時間を短縮できる。
【００１９】
そして、本発明の楽器音分離装置における特定音取得手段では、請求項５に記載のように、演奏データに従って音源モジュールが出力する特定音に対応する各楽器が、それぞれ、対象楽器として規定されていても良い。
【００２０】
このような楽器音分離装置によれば、演奏データに従って音源モジュールが出力する全ての楽器の楽器音推移を、楽音推移から生成（分離・抽出）することができる。
さらに、本発明の楽器音分離装置では、請求項６に記載のように、記憶制御手段が、区間推移導出手段にて導出された区間推移を楽音推移から減算した残留楽音推移を導出して、その導出した残留楽音推移を記憶装置に記憶し、推移導出手段が、演奏データに従って音源モジュールが出力する特定音に対応する各楽器についての区間推移を順次導出すると共に、推移導出手段にて区間推移が導出される毎に、更新手段が、その導出された区間推移それぞれを記憶装置に記憶された残留楽音推移から減算して、当該記憶装置に記憶された残留楽音推移を更新しても良い。
【００２１】
このような本発明の楽器音分離装置によれば、楽音として歌声が含まれた楽音推移を取得した場合、その楽音推移から全ての楽器音についての区間推移（即ち、楽器音推移）を減算すれば、歌声の音圧の時間軸に沿った推移が残る。つまり、本発明の楽器音分離装置によれば、楽曲における歌声の音圧の推移を抽出することができる。
【００２２】
なお、本発明は、コンピュータを楽器音分離装置として機能させるためのプログラムであっても良い。
本発明が、このようなプログラムとしてなされている場合、本発明のプログラムは、請求項８に記載されたように、楽音推移を取得する楽音取得手順と、その取得された楽音推移から、楽音スペクトログラムを導出する楽音解析手順と、演奏データに基づいて、特定音推移を取得する特定音取得手順と、その取得された特定音推移から、特定音スペクトログラムを分析区間毎に導出する特定音解析手順と、その導出された特定音スペクトログラムそれぞれを楽音スペクトログラムに照合して、対応範囲を特定する範囲特定手順と、その特定された対応範囲それぞれでの振幅比率を、各周波数について導出する振幅比率導出手順と、その導出された振幅比率それぞれを、当該分析区間に対応する楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルから、時間軸に沿った音圧の推移である区間推移を導出する区間推移導出手順と、その導出された区間推移を楽曲の時間軸に沿って配することで、楽器音推移を生成する楽器音分離手順とを実行させる必要がある。
【００２３】
本発明のプログラムが、このようになされていれば、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項１に記載された楽器音分離装置として機能させることができる。
【図面の簡単な説明】
【００２４】
【図１】実施形態における楽器音分離装置の概略構成を示すブロック図である。
【図２】楽音推移の概要、及び楽譜データのデータ構造を示す説明図である。
【図３】音源分離装置の制御部が実行する音源分離処理の処理手順を示すフローチャートである。
【図４】音源分離処理において導出される楽音スペクトログラム、及び特定音推移の概要を示す説明図である。
【図５】音源分離処理において導出される特定音スペクトログラム、及び時間周波数ズレを補正する方法の概要を示す説明図である。
【図６】第一実施形態において、制御部が実行する楽器音分離処理の処理手順を示すフローチャートである。
【図７】楽器音分離処理において、分離スペクトルを導出する方法の概要を示す説明図である。
【図８】楽器音分離処理において、楽器音波形を更新する方法の概要を示す説明図である。
【図９】第二実施形態において、制御部が実行する楽器音分離処理の処理手順を示すフローチャートである。
【発明を実施するための形態】
【００２５】
以下に本発明の実施形態を図面と共に説明する。
［第一実施形態］
本発明が適用された楽器音分離装置は、楽曲において演奏された複数種類の楽器の楽器音が重畳した楽音の音圧が時間軸に沿って推移した音響データから、一種類の楽器音の音圧が時間軸に沿って推移した楽器音推移ｔｒｗｆを分離・抽出する装置であり、図１に示す情報処理装置１０によって構成されている。
【００２６】
〈楽器音分離装置の構成について〉
図１に示すように、情報処理装置１０は、通信部１１と、音響データ読取部１２と、入力受付部１３と、表示部１４と、音声入力部１５と、音声出力部１６と、音源モジュール１７と、記憶部１８と、制御部２０とを備えている。
【００２７】
このうち、通信部１１は、情報処理装置１０をネットワーク（例えば、専用回線やＷＡＮ）に接続し、その接続されたネットワークを介して外部と通信を行うものである。
音響データ読取部１２は、記憶媒体に記憶されている音響データから、当該音響データに対応する楽曲を時間軸に沿って順次読み取る装置（例えば、ＣＤやＤＶＤの読取装置）である。その音響データは、図２（Ａ）に示すような楽音の音圧が時間軸に沿って推移したアナログ波形を標本化（サンプリング）することで生成されている。
【００２８】
そして、入力受付部１３は、外部からの操作に従って情報や指令の入力を受け付ける入力機器（例えば、キーボードやポインティングデバイス）である。表示部１４は、画像を表示する表示装置（例えば、液晶ディスプレイやＣＲＴ等）である。また、音声入力部１５は、音声を電気信号に変換して制御部２０に入力する装置（いわゆるマイクロホン）である。音声出力部１６は、制御部２０からの電気信号を音声に変換して出力する装置（いわゆるスピーカ）である。
【００２９】
さらに、音源モジュール１７は、楽曲の楽譜を表す演奏データに基づいて、予め登録された楽器（以下、模擬楽器とする）の楽器音を模擬した音（以下、特定音とする）を出力する装置であり、本実施形態では、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）音源によって構成されている。一般的に、模擬楽器には、鍵盤楽器（例えば、ピアノやパイプオルガンなど）、弦楽器（例えば、バイオリンやビオラ、ギター、琴など）、打楽器（例えば、ドラムやシンバル、ティンパニー、木琴など）、及び管楽器（例えば、クラリネットやトランペット、フルート、尺八など）が少なくとも含まれている。
【００３０】
また、記憶部１８は、記憶内容を読み書き可能に構成された不揮発性の記憶装置（例えば、ハードディスク装置）である。この記憶部１８には、処理プログラムや演奏データが少なくとも格納される。
【００３１】
〈演奏データの構造について〉
次に、演奏データは、周知のＭＩＤＩ規格によって表されたデータであり、楽曲を区別するデータである識別データと、音源モジュール１７にて演奏される当該楽曲の楽譜を表す楽譜データとを少なくとも有している。
【００３２】
このうち、楽譜データは、当該楽曲にて演奏される模擬楽器の種類毎に用意されるものであり、模擬楽器の種類に応じてインデックス番号ｍｔｉ（ｍｔｉ＝１〜ＭＴＮ）が割り振られている。その各楽譜データは、図２（Ｂ）に示すように、音源モジュール１７が特定音を出力する期間（以下、音符長）、及び各特定音の音高（図２中、ノートナンバー）ＮＮ_niを表す音符ＮＯ_niを羅列したものである。さらに、楽譜データには、音源モジュール１７が出力する各特定音の強さ（いわゆるアタック、ベロシティ、ディケイなど）が、当該特定音に対応する音符ＮＯ_ni毎に含まれている。
【００３３】
このうち、楽譜データの音符長は、当該特定音の出力を開始するまでの当該楽曲の演奏開始からの時刻を表す発音タイミング（図２中、ノートオンタイミング）ＯＮ_niと、当該特定音の出力を終了するまでの当該楽曲の演奏開始からの時刻を表す終了タイミング（図２中、ノートオフタイミング）ＯＦＦ_niとによって規定されている。つまり、音符ＮＯ_niの音符長は、発音タイミングＯＮ_niから終了タイミングＯＦＦ_niまでの時間長である。
【００３４】
なお、本実施形態において、符合ｎｉは、当該音符ＮＯ_niに対応する特定音が楽曲の演奏開始から何番目に演奏されるものであるかを表すインデックス番号である。
〈制御部の構成について〉
さらに、制御部２０は、ＲＯＭ２１と、ＲＡＭ２２と、ＣＰＵ２３とを少なくとも有した周知のコンピュータを中心に構成されている。
【００３５】
このうち、ＲＯＭ２１は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するものである。また、ＲＡＭ２２は、処理プログラムやデータを一時的に格納するものである。そして、ＣＰＵ２３は、ＲＯＭ２１やＲＡＭ２２に記憶された処理プログラムに従って各処理（各種演算）を実行する。
【００３６】
なお、本実施形態では、制御部２０が実行する処理プログラムとして、音響データから楽器音推移ｔｒｗｆを分離・抽出するものが予め用意されている。以下、本実施形態では、音響データから楽器音推移ｔｒｗｆを分離・抽出する処理を音源分離処理と称す。
【００３７】
〈音源分離処理の処理内容について〉
次に、制御部２０が実行する音源分離処理について説明する。
この音源分離処理は、入力受付部１３を介して、当該音源分離処理を起動するための起動指令が入力されると、実行が開始されるものである。
【００３８】
そして、図３に示すように、音源分離処理は、起動されると、入力受付部１３を介して入力された情報によって指定される楽曲に対応する演奏データ（即ち、楽譜データ）を取得する（Ｓ１１０（Ｓは、ステップを意味する））。
【００３９】
続いて、音響データに基づいて、楽音の音圧が時間軸に沿って推移した波形である楽音推移ｔｕｗｆ（ｔｉ）を取得する（Ｓ１２０）。具体的に、本実施形態では、音響データ読取部１２にて読み取った当該楽曲を再生して、その再生した音声（即ち、複数の楽器の楽器音）を音声出力部１６から出力する。そして、音声入力部１５を介して入力された音声をサンプリングすることで楽音推移ｔｕｗｆ（ｔｉ）を取得する。なお、符合ｔｉは、時間軸に沿ってサンプリングした順番である。
【００４０】
ただし、本実施形態では、本音源分離処理が起動される前に、Ｓ１１０にて取得する演奏データでの楽曲と同一な楽曲の音響データが記憶された記憶媒体が、音響データ読取部１２に配置されているものとする。
【００４１】
続いて、Ｓ１２０にて取得した楽音推移ｔｕｗｆを、予め規定された時間長ＷＬである分析時間窓ｔｗｉ毎に周波数解析し、その周波数解析の結果をＲＡＭ２２（または記憶部１８）に記憶する。（Ｓ１３０）。
【００４２】
ただし、本実施形態の周波数解析は、周知の離散フーリエ変換（ＤＦＴ：ｄｉｓｃｒｅｔｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）によって実施される。その離散フーリエ変換は、楽音推移ｔｕｗｆの開始時刻から終了時刻までの期間を、予め規定された時間長であるシフト幅ＷＳＬ（ただし、シフト幅ＷＳＬ＜＜分析時間窓の時間長ＷＬ）で、時間軸に沿って分析時間窓ｔｗｉをシフトすることを繰り返しながら実行される。このため、Ｓ１３０での周波数解析の結果、楽音推移ｔｕｗｆの各分析時間窓ｔｗｉに含まれている周波数毎に、その周波数の強さ（以下、スペクトル振幅値とする）ｔｕｓｐ（ｔｗｉ，ｆｉ）が、周波数解析の結果として導出される。ただし、本実施形態では、スペクトル振幅値ｔｕｓｐは、実数部及び虚数部それぞれについて導出される。また、符合ｆｉは、周波数の区分（即ち、ＤＦＴによって導出される周波数区分：単位［ｂｉｎ］）である。
【００４３】
すなわち、本実施形態では、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）を、対数軸にて表した周波数軸に沿って配置することで複素（周波数）スペクトルを導出する。そして、その複素スペクトルのスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）を絶対値とした振幅スペクトルを、時間軸に沿って配置したスペクトログラム（図４（Ａ）参照、以下、楽音スペクトログラムとする）を導出する。なお、図４（Ａ）に示す楽音スペクトログラムでは、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）の大きさを色の濃淡によって表した。
【００４４】
そして、Ｓ１１０にて取得した楽譜データのインデックス番号ｍｔｉを初期値（本実施形態では、初期値＝０）に設定する（Ｓ１４０）。続いて、設定されている楽譜データのインデックス番号（以下、設定インデックスとする）ｍｔｉが、楽譜データにおいて最大のインデックス番号（以下、最終インデックス）ＭＴＮ未満であるか否かを判定する（Ｓ１５０）。
【００４５】
そのＳ１５０での判定の結果、設定インデックスｍｔｉが最終インデックスＭＴＮ未満であれば（Ｓ１５０：ＹＥＳ）、設定インデックスｍｔｉを１つインクリメントする（Ｓ１６０）。続いて、楽器音推移ｔｒｗｆ（ｍｔｉ，ｔｉ）を初期値に設定する（Ｓ１７０）。本実施形態において、楽器音推移ｔｒｗｆの初期値は、音圧が時間軸に沿って全て「０」に設定されたゼロ波形である。
【００４６】
そして、設定インデックスｍｔｉに対応する楽譜データにおける音符ＮＯのインデックス番号（以下、音符インデックスとする）ｎｉを初期値（本実施形態では、０とする）に設定する（Ｓ１８０）。続いて、音符インデックスｎｉが、設定インデックスｍｔｉに対応する楽譜データでの最大のインデックス番号（以下、最終音符とする）ＮＮＰＴ（ｍｔｉ）未満であるか否かを判定する（Ｓ１９０）。
【００４７】
そのＳ１９０での判定の結果、音符インデックスｎｉが、最終音符ＮＮＰＴ（ｍｔｉ）未満であれば（Ｓ１９０：ＹＥＳ）、音符インデックスｎｉを１つインクリメントする（Ｓ２００）。そのインクリメントされた音符インデックスｎｉを有した音符（以下、対象音符とする）ＮＯ_niに対応する１つの特定音の音圧が、図４（Ｂ）に示すような時間軸に沿って推移した波形である特定音推移ｎｔｗｆ（ｔｉ）を取得する（Ｓ２１０）。具体的に、本実施形態のＳ２１０では、対象音符ＮＯ_niに対応する特定音を音源モジュール１７に出力させ、音声入力部１５を介して受け付けることで特定音推移ｎｔｗｆ（ｔｉ）を取得する。
【００４８】
そして、取得した特定音推移ｎｔｗｆ（ｔｉ）を周波数解析する（Ｓ２２０）。ただし、本実施形態の周波数解析は、離散フーリエ変換によって実施され、その離散フーリエ変換は、特定音推移ｎｔｗｆ（ｔｉ）（即ち、１つの特定音）の開始から終了までの期間について、分析時間窓ｔｗｉをシフト幅ＷＳＬで時間軸に沿ってシフトさせることを繰り返しながら実行される。
【００４９】
このような周波数解析の結果、Ｓ２２０では、特定音推移ｎｔｗｆ（ｔｉ）における各分析時間窓ｔｗｉに含まれる周波数毎に、その周波数の強さ（即ち、スペクトル振幅値）ｎｔｓｐ（ｔｗｉ，ｆｉ）が、実数部及び虚数部の両方について導出される。すなわち、本実施形態では、スペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）を周波数軸に沿って配置することで複素（周波数）スペクトルを導出する。そして、その複素スペクトルのスペクトル振幅値ｎｔｓｐを絶対値とした振幅スペクトルを、時間軸に沿って配置したスペクトログラム（図５（Ａ）参照、以下、特定音スペクトログラムと称す）を導出する。なお、図５（Ａ）の特定音スペクトログラムでは、スペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）の大きさを色の濃淡によって表した。
【００５０】
続いて、ＲＡＭ２２（または記憶部１８）に記憶されているスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）に対して、Ｓ２２０にて導出されたスペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）の相関値が最大となる時間軸方向の補正量（以下、ズレ量とする）ｄｔｗｉ及び周波数軸に沿ったズレ量ｄｆｉを導出する（Ｓ２３０）。
【００５１】
具体的に、本実施形態のＳ２３０では、対象音符ＮＯ_niの発音タイミングＯＮ_niに対応する楽音推移ｔｕｗｆでの分析時間窓ｎｏｔｗｉを、下記（１）式により特定する。なお、（１）式に示す関数ｒｏｕｎｄは、小数点以下を四捨五入した整数値を返す関数である。
【００５２】
【数１】

そして、下記（２）式により、楽音スペクトログラムを構成する全範囲でのスペクトル振幅値ｔｕｓｐに対して、Ｓ２２０にて導出された特定音スペクトログラムを構成するスペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）の相関値が最大となる分析時間窓ｔｗｉ及び周波数区分ｆｉを特定する。ただし、下記（２）式にて導出されるズレ量ｄｔｗｉは、上述した相関値が最大となる分析時間窓ｔｗｉが、分析時間窓ｎｏｔｗｉから時間軸に沿って何番目であるかを表し、ズレ量ｄｆｉは、上述した相関値が最大となる周波数区分ｆｉが、最小の周波数区分ｆｉ_MINから周波数軸に沿って何番目であるかを表す。なお、（２）式に示す関数ａｒｇｍａｘは、括弧内の関数（本実施形態では、相関値）が最大となる変数（ｐ，ｑ）を返す関数である。
【００５３】
【数２】

すなわち、（２）式では、図５（Ｂ）に示すように、（１）式によって特定された分析時間窓ｎｏｔｗｉを原点として、Ｓ２２０にて導出された特定音スペクトログラムを構成するスペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）を、周波数軸及び時間軸に沿ってシフトさせながら相関値が最大となるズレ量ｄｔｗｉ及びズレ量ｄｆｉを導出する。
【００５４】
続いて、Ｓ２３０にて導出されたズレ量ｄｔｗｉ，ｄｆｉに基づいて、楽音スペクトログラムを構成する全範囲でのスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）の中で、Ｓ２２０にて導出された特定音スペクトログラムを構成するスペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）に対応する範囲（以下、対応範囲とする）を特定する（Ｓ２４０）。具体的に、本実施形態では、先のＳ２３０にて導出されたズレ量ｄｔｗｉを分析時間窓ｎｏｔｗｉに加えた分析時間窓ｎｏｔｗｉ＋ｄｔｗｉ、及び最小の周波数区分ｆｉ_MINにズレ量ｄｆｉを加えた周波数区分ｆｉ＋ｄｆｉを原点として、特定音スペクトログラムを構成するスペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）に対応する楽音スペクトログラム上での範囲を対応範囲とする。
【００５５】
続いて、対応範囲でのスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）と、特定音スペクトログラムを構成するスペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）との比を表す振幅比率ｋｒ（ｔｗｉ，ｆｉ）を導出する（Ｓ２５０）。なお、特定音スペクトログラムを構成するスペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）は、最小の周波数区分ｆｉ_MINから、先のＳ２３０にて導出されたズレ量ｄｆｉシフトしたものである。
【００５６】
具体的に、Ｓ２５０では、振幅比率Ｋｒは、複素スペクトルの絶対値に対して、各分析時間窓ｔｗｉにおける周波数区分ｆｉ毎に導出する。ただし、本実施形態における振幅比率ｋｒは、特定音スペクトログラムを構成するスペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）が、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）よりも大きければ、その値を「１」とし、スペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）が、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）よりも小さければ、両スペクトル振幅値の比としている。
【００５７】
そして、Ｓ２５０にて導出された振幅比率ｋｒに基づいて、対応範囲に対応する楽音推移ｔｕｗｆの期間である特定期間にて、楽器音の音圧が時間軸に沿って推移した波形である区間推移ｎｔｃｐｗｆ（ｔｉ）を導出すると共に、楽器音推移ｔｒｗｆ（ｍｔｉ，ｔｉ）での特定期間を、その導出された区間推移ｎｔｃｐｗｆ（ｔｉ）へと更新する楽器音分離処理を実行する（Ｓ２６０）。
【００５８】
その後、Ｓ１９０へと戻り、対象音符ＮＯ_niの音符インデックスｎｉが、設定インデックスｍｔｉにおける最終音符ＮＮＰＴ（ｍｔｉ）未満であれば（Ｓ１９０：ＹＥＳ）、Ｓ１９０からＳ２６０のステップを繰り返す。そして、対象音符ＮＯ_niの音符インデックスｎｉが、設定インデックスｍｔｉにおける最終音符ＮＮＰＴ（ｍｔｉ）以上となると（Ｓ１９０：ＮＯ）、Ｓ２６０での楽器音分離処理にて更新された楽器音推移ｔｒｗｆ（ｍｔｉ，ｔｉ）を記憶部１８に記憶する（Ｓ２７０）。すなわち、音響データから、楽譜データにおける最初の音符ＮＯ₁に対応する楽器音から最後の音符ＮＯ_NNPT(mti)に対応する楽器音まで分離し終えると、Ｓ２７０を経てＳ１５０へと戻る。
【００５９】
そのＳ２７０を経て戻ったＳ１５０では、設定インデックスｍｔｉが、最終インデックスＭＴＮ未満であれば（Ｓ１５０：ＹＥＳ）、Ｓ１５０からＳ２７０のステップを繰り返す。そして、設定されている設定インデックスｍｔｉが、最終インデックスＭＴＮ以上となると（Ｓ１５０：ＮＯ）、本音源分離処理を終了する。すなわち、演奏データに対応する楽曲にて演奏された全ての楽器について、音響データから楽器音推移ｔｒｗｆ（ｍｔｉ，ｔｉ）を生成して分離し終えると、本音源分離処理を終了する。
【００６０】
〈楽器音分離処理の処理について〉
次に、音源分離処理のＳ２６０にて起動される楽器音分離処理について説明する。
図６に示すように、この楽器音分離処理は、起動されると、楽音推移ｔｕｗｆでの特定期間に含まれる対象音符ＮＯ_niに対応する楽器音の周波数毎に、各周波数の強さを表すスペクトル振幅値（本発明の分離スペクトルに相当）ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）を導出する（Ｓ３１０）。
【００６１】
本実施形態のＳ３１０では、ＲＡＭ２２（または記憶部１８）に記憶されている楽音スペクトログラムを構成する全範囲でのスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）のうち、対応範囲のスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）に、振幅比率ｋｒを乗算してスペクトル振幅値ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）を導出する。具体的に、図７（Ａ）、及び図７（Ｂ）に示すように、複素スペクトルの実数部と虚数部とにおける分析時間窓ｔｗｉのスペクトル振幅値ｔｕｓｐに、各分析時間窓ｔｗｉと周波数区分ｆｉとの組み合わせに対応する振幅比率ｋｒを乗算する。この振幅比率ｋｒの乗算は、周波数毎に実行される。なお、図７中において、実線は、分離スペクトルとして導出されたスペクトル振幅値ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）であり、破線は、楽音スペクトログラムにおけるスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）である。
【００６２】
そして、Ｓ３１０にて導出された分離スペクトルのスペクトル振幅値ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）を逆離散フーリエ変換（ＩＤＦＴ：ｉｎｖｅｒｓｅｄｉｓｃｒｅｔｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）して、区間推移ｎｔｃｐｗｆを導出する（Ｓ３２０）。その導出した区間推移ｎｔｃｐｗｆに基づいて、下記（３）式に従って、楽器音推移ｔｒｗｆ_oldを楽器音推移ｔｒｗｆ_newへと更新する（Ｓ３３０）。ただし、添え字ｏｌｄは、更新前の楽器音推移ｔｒｗｆであることを表し、添え字ｎｅｗは、更新後の楽器音推移ｔｒｗｆであることを表す。
【００６３】
【数３】

すなわち、本実施形態のＳ３３０では、図８（Ａ）に示すように、初期値に設定されていた特定期間での楽器音推移ｔｒｗｆ_oldを、図８（Ｂ）に示すように、区間推移ｎｔｃｐｗｆへと置き換えることで、楽器音推移ｔｒｗｆ_newへと更新している。
【００６４】
そして、その後、音源分離処理へと戻り、Ｓ１９０へと進む。
つまり、本実施形態の音源分離処理では、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）に対して、１つの特定音から導出されたスペクトル振幅値ｎｔｓｐ（ｔｗｉ，ｆｉ）の相関値が最大となる対応範囲を特定する。そして、特定された対応範囲から振幅比率ｋｒを導出して、その導出された振幅比率ｋｒを、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）に乗算することで、特定音に対応する楽音推移ｔｕｗｆでの楽器音の複素スペクトルを表すスペクトル振幅値ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）を導出する。
【００６５】
さらに、そのスペクトル振幅値ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）を逆フーリエ変換して、区間推移ｎｔｃｐｗｆを導出し、その導出された区間推移ｎｔｃｐｗｆにて、楽器音推移ｔｒｗｆにおける対応範囲を置換することで、楽器音推移ｔｒｗｆを更新する。
【００６６】
［第一実施形態の効果］
以上説明したように、本実施形態の楽器音分離装置１０によれば、楽音推移ｔｕｗｆから、楽器音推移ｔｒｗｆを生成（抽出）することができる。
【００６７】
特に、楽器音分離装置１０にて特定される対応範囲は、楽音スペクトログラムと特定音スペクトログラムとが、周波数軸及び時間軸の両方の軸に沿って最も一致する範囲である。このため、楽器音分離装置１０によれば、取得された楽音推移ｔｕｗｆにおいて各楽音の出力タイミングや音高が、演奏データにおける発音タイミングや音高とは異なるようにアレンジされたものであっても、そのアレンジされた出力タイミングや音高に対応する範囲を対応範囲として特定することができる。
【００６８】
よって、楽器音分離装置１０によれば、楽音推移ｔｕｗｆから生成した楽器音推移ｔｒｗｆを、その楽曲にて実際に演奏された楽器音に近づけることができる。この結果、楽音推移ｔｕｗｆから楽器音推移ｔｒｗｆを生成する際の精度を向上させることができる。
【００６９】
しかも、本実施形態の楽器音分離装置１０によれば、区間推移ｎｔｃｐｗｆを演奏データにおける音符ＮＯ毎に導出しているため、一つの音符ＮＯのみがアレンジされた楽曲の楽音推移ｔｕｗｆであっても、楽器音推移ｔｒｗｆを精度良く生成することができる。
【００７０】
さらに、本実施形態の音源分離処理では、対象音符ＮＯ_niの発音タイミングＯＮ_niに対応する楽音推移ｔｕｗｆにおける分析時間窓ｔｗｉのインデックス番号ｎｏｔｗｉを特定した後に、ズレ量ｄｔｗｉを導出している。このため、楽器音分離装置１０によれば、対応区間を特定するまで、ひいては、区間推移ｎｔｃｐｗｆを生成するまでに要する処理量を低減できる。
【００７１】
そして、本実施形態の音源分離処理によれば、演奏データに従って音源モジュール１７が出力する全ての楽器の楽器音推移ｔｒｗｆを、楽音推移ｔｕｗｆから分離・抽出することができる。
【００７２】
なお、本実施形態の音源分離処理によれば、楽音推移ｔｕｗｆ及び特定音推移ｎｔｗｆの時間軸に沿った一連の処理によって、１つの模擬楽器に対する楽器音推移ｔｒｗｆを生成することができる。この結果、楽器音推移ｔｒｗｆを生成するまでに要する処理量を低減することができる。
【００７３】
［第二実施形態］
次に、本発明の第二実施形態について説明する。
本実施形態における楽器音分離装置は、第一実施形態における楽器音分離装置１０と楽器音分離処理の処理内容が異なるのみである。このため、本実施形態における楽器音分離装置では、第一実施形態における楽器音分離装置１０と同様の構成及び処理については、同一符合を付して説明を省略し、第一実施形態における楽器音分離装置１０とは異なる楽器音分離処理を中心に説明する。
〈楽器音分離処理の処理について〉
図９に示すように、本実施形態の楽器音分離処理は、起動されると、楽音推移ｔｕｗｆでの特定期間に含まれる対象音符ＮＯ_niに対応する楽器音の周波数毎に、各周波数の強さを表すスペクトル振幅値ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）を導出する（Ｓ４１０）。このＳ４１０におけるスペクトル振幅値ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）の導出方法は、第一実施形態の楽器音分離処理におけるＳ３１０と同様であるため、ここでの詳しい説明は省略する。
【００７４】
さらに、記憶部１８に記憶されているスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）を、下記（４）式に基づいて更新する（Ｓ４２０）。
【００７５】
【数４】

すなわち、Ｓ４１０にて導出されたスペクトル振幅値ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）を、対応範囲のスペクトル振幅値ｔｕｓｐから減算して、新たなスペクトル振幅値ｔｕｓｐを導出している。なお、（４）式において、添え字ｏｌｄは、更新前のスペクトル振幅値ｔｕｓｐであることを表し、添え字ｎｅｗは、更新後のスペクトル振幅値ｔｕｓｐであることを表す。
【００７６】
続いて、Ｓ４１０にて導出されたスペクトル振幅値ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）を逆離散フーリエ変換（ＩＤＦＴ）して、区間推移ｎｔｃｐｗｆを導出する（Ｓ４３０）。その導出した区間推移ｎｔｃｐｗｆに基づいて、上記（３）式に従って、楽器音推移ｔｒｗｆ_oldを楽器音推移ｔｒｗｆ_newへと更新する（Ｓ４４０）。
【００７７】
そして、その後、音源分離処理へと戻り、Ｓ１９０へと進む。
［第二実施形態の効果］
つまり、本実施形態の楽器音分離処理では、スペクトル振幅値ｎｔｃｐｓｐ（ｔｗｉ，ｆｉ）を導出する際に、振幅比率ｋｒを乗算する対象が、模擬楽器に対するスペクトル振幅値ｎｔｃｐｓｐが減算されたスペクトル振幅値ｔｕｓｐであるという点で、第一実施形態の楽器音分離処理とは異なる。
【００７８】
したがって、本実施形態の楽器音分離装置１０では、楽音として歌声が含まれた楽音推移ｔｕｗｆを取得した場合、その楽音推移ｔｕｗｆから全ての模擬楽器についての区間推移ｎｔｃｐｗｆ（即ち、楽器音推移ｔｒｗｆ）を減算すると、歌声の音圧の時間軸に沿った推移が残る。つまり、楽器音分離装置１０によれば、楽曲における歌声の音圧の推移を抽出することができる。
【００７９】
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
【００８０】
例えば、上記実施形態では、演奏データ及び音響データを、それぞれ個別のデータとして情報処理装置１０にて取得していたが、演奏データ及び音響データの取得方法は、これに限るものではなく、演奏データ及び音響データを、対応する楽曲毎に１つの組として、通信部１１を介して外部から組単位で取得しても良い。
【００８１】
また、演奏データに基づいて特定音推移ｎｔｗｆを取得する方法は、音源モジュール１７から出力された特定音が音声入力部１５を介して入力されることに限らない。例えば、特定音の時間軸に沿った波形を表す音響信号（電気信号）を音源モジュール１７が生成し、その生成された音響信号に従って音声出力部１６が鳴動するように、情報処理装置１０が構成されている場合、音源モジュール１７が生成する音響信号を特定音推移ｎｔｗｆとして取得しても良い。
【００８２】
さらに、音響データに基づいて楽音推移ｔｕｗｆを取得する方法は、音声出力部１６から出力された音声が音声入力部１５を介して入力されることに限らない。例えば、音声の時間軸に沿った波形を表す楽音信号（電気信号）を、音響データ読取部１２や制御部２０が生成し、その生成された楽音信号に従って音声出力部１６が鳴動するように、情報処理装置１０が構成されている場合、音響データ読取部１２や制御部２０が生成した楽音信号を楽音推移ｔｕｗｆとして取得しても良い。
【００８３】
また、上記実施形態では、楽曲スペクトログラム及び特定音スペクトログラムを構成する振幅スペクトルの周波数区分を、対数軸にて表現したが、対応範囲を導出する際に、周波数の比が保持したまま、相関値を導出可能であれば、振幅スペクトルの周波数成分は、実数にて表記しても良い。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
【００８４】
上記実施形態の音源分離処理におけるＳ１２０が、本発明の楽音取得手段に相当し、音源分離処理のＳ１３０が、本発明の楽音解析手段に相当し、音源分離処理のＳ２１０が、本発明の特定音取得手段に相当し、音源分離処理のＳ２２０が特定音解析手段に相当する。さらに、上記実施形態の音源分離処理におけるＳ２３０，Ｓ２４０が、本発明の範囲特定手段に相当し、音源分離処理のＳ２５０が、本発明の振幅比率導出手段に相当する。
【００８５】
また、楽器音分離処理のＳ３１０，Ｓ３２０が、本発明の区間推移導出手段に相当し、楽器音分離処理のＳ３３０が、本発明の楽器音分離手段に相当する。なお、楽器音分離処理のＳ４１０，Ｓ４３０，Ｓ４４０が、本発明の推移導出手段に相当し、楽器音分離処理のＳ４２０が、本発明の記憶制御手段、及び更新手段に相当する。
【符号の説明】
【００８６】
１０…情報処理装置（楽器音分離装置）１１…通信部１２…音響データ読取部１３…入力受付部１４…表示部１５…音声入力部１６…音声出力部１７…音源モジュール１８…記憶部２０…制御部２１…ＲＯＭ２２…ＲＡＭ２３…ＣＰＵ

【特許請求の範囲】
【請求項１】
楽曲を構成する楽音の音圧が時間軸に沿って推移した楽音推移を取得する楽音取得手段と、
前記楽音取得手段で取得された楽音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した楽音スペクトログラムを導出する楽音解析手段と、
少なくとも一種類の楽器の楽器音を模擬した特定音を出力する音源モジュールにて演奏される前記楽曲の楽譜を表す演奏データに基づいて、規定された一種類の楽器である対象楽器の特定音の音圧が時間軸に沿って推移する特定音推移を取得する特定音取得手段と、
前記特定音取得手段で取得した特定音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した特定音スペクトログラムを、前記音源モジュールにて対象楽器の各特定音が演奏される時間長である分析区間毎に導出する特定音解析手段と、
前記特定音解析手段にて導出された特定音スペクトログラムそれぞれを前記楽音解析手段にて導出された楽音スペクトログラムに照合して、周波数軸及び時間軸に沿って前記特定音スペクトログラムが最も一致する前記楽音スペクトログラムでの範囲である対応範囲を特定する範囲特定手段と、
前記範囲特定手段にて特定された対応範囲それぞれでの前記楽音スペクトログラムの周波数の強さと、前記特定音スペクトログラムの周波数の強さとの比を表す振幅比率を、各周波数について導出する振幅比率導出手段と、
前記振幅比率導出手段で導出された振幅比率それぞれを、当該分析区間に対応する前記楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルから、時間軸に沿った音圧の推移である区間推移を導出する区間推移導出手段と、
前記区間推移導出手段にて導出した区間推移を前記楽曲の時間軸に沿って配することで、前記楽音推移において前記対象楽器の楽器音の音圧が時間軸に沿って推移した楽器音推移を生成する楽器音分離手段と
を備えることを特徴とする楽器音分離装置。
【請求項２】
前記演奏データは、
前記音源モジュールから前記特定音の出力を開始するタイミングを表す発音タイミング、及び前記発音タイミングに対応し、かつ前記特定音の出力を終了するタイミングを表す終了タイミングが規定されており、
前記特定音解析手段は、
前記発音タイミングから、当該発音タイミングに対応する前記終了タイミングまでの期間それぞれを、前記分析区間として規定することを特徴とする請求項１に記載の楽器音分離装置。
【請求項３】
前記範囲特定手段は、
前記発音タイミングから、当該発音タイミングに対応する前記終了タイミングまでの期間に対応する前記楽音推移上の期間を時間軸に沿って始端及び終端が挟むように規定される前記楽音スペクトログラムでの区間に、前記特定音スペクトログラムを照合することを特徴とする請求項２に記載の楽器音分離装置。
【請求項４】
前記範囲特定手段は、
前記特定音解析手段にて特定音スペクトログラムを導出する毎に、前記対応範囲を特定し、
前記振幅比率導出手段は、
前記範囲特定手段にて対応範囲を特定する毎に、前記振幅比率を導出し、
前記区間推移導出手段は、
前記振幅比率導出手段にて振幅比率を導出する毎に、前記区間推移を導出する
ことを特徴とする請求項１から請求項３のいずれか一項に記載の楽器音分離装置。
【請求項５】
前記特定音取得手段は、
前記演奏データに従って前記音源モジュールが出力する特定音に対応する各楽器を、それぞれ、前記対象楽器として規定することを特徴とする請求項１から請求項４のいずれか一項に記載の楽器音分離装置。
【請求項６】
前記区間推移導出手段にて導出された区間推移を前記楽音推移から減算した残留楽音推移を導出して、その導出した残留楽音推移を記憶装置に記憶する記憶制御手段と、
前記演奏データに従って前記音源モジュールが出力する特定音に対応する各楽器についての前記区間推移を、順次導出する推移導出手段と、
前記推移導出手段にて区間推移が導出される毎に、その導出された区間推移それぞれを前記記憶装置に記憶された残留楽音推移から減算して、当該記憶装置に記憶された残留楽音推移を更新する更新手段と
を備えることを特徴とする請求項１から請求項５のいずれか一項に記載の楽器音分離装置。
【請求項７】
楽曲を構成する楽音の音圧が時間軸に沿って推移した楽音推移を取得する楽音取得手順と、
前記楽音取得手順で取得された楽音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した楽音スペクトログラムを導出する楽音解析手順と、
少なくとも一種類の楽器の楽器音を模擬した特定音を出力する音源モジュールにて演奏される前記楽曲の楽譜を表す演奏データに基づいて、規定された一種類の楽器である対象楽器の特定音の音圧が時間軸に沿って推移する特定音推移を取得する特定音取得手順と、
前記特定音取得手順で取得した特定音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した特定音スペクトログラムを、前記音源モジュールにて対象楽器の各特定音が演奏される時間長である分析区間毎に導出する特定音解析手順と、
前記特定音解析手順にて導出された特定音スペクトログラムそれぞれを前記楽音解析手順にて導出された楽音スペクトログラムに照合して、周波数軸及び時間軸に沿って前記特定音スペクトログラムが最も一致する前記楽音スペクトログラムでの範囲である対応範囲を特定する範囲特定手順と、
前記範囲特定手順にて特定された対応範囲それぞれでの前記楽音スペクトログラムの周波数の強さと、前記特定音スペクトログラムの周波数の強さとの比を表す振幅比率を、各周波数について導出する振幅比率導出手順と、
前記振幅比率導出手順で導出された振幅比率それぞれを、当該分析区間に対応する前記楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルから、時間軸に沿った音圧の推移である区間推移を導出する区間推移導出手順と、
前記区間推移導出手順にて導出した区間推移を前記楽曲の時間軸に沿って配することで、前記楽音推移において前記対象楽器の楽器音の音圧が時間軸に沿って推移した楽器音推移を生成する楽器音分離手順と
コンピュータに実行させることを特徴とするプログラム。

【図１】