説明

歌声分離装置、及びプログラム

【課題】歌声の周波数構造に拘わらず、歌声と演奏音とを含む混合音から、歌声を抽出可能な歌声分離装置の提供
【解決手段】歌声分離処理では、スペクトル振幅値tusp(twi,fi)に対して、1つの歌声素片siから導出されたスペクトル振幅値vssp(twi,fi)の相関値が最大となる特定範囲を特定する。そして、特定範囲に対して振幅比率krを導出して(S240)、その導出された振幅比率krを、スペクトル振幅値tusp(twi,fi)に乗算することで、スペクトル振幅値vscpsp(twi,fi)を導出する(S250)。そのスペクトル振幅値vscpsp(twi,fi)を逆フーリエ変換して区間推移vscpwfを導出し(S270)、その導出された区間推移vscpwfにて、歌声推移vowfにおける特定範囲を置換することで、歌声推移vowfを更新する(S280)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歌声を含む複数の音が重畳した混合音から、歌声を分離する歌声分離装置、及びプログラムに関する。
【背景技術】
【0002】
従来、楽曲中にて演奏された楽器音と歌声とが重畳した混合音から、歌声の時間軸に沿った推移(即ち、メロディ)を抽出する装置が知られている(特許文献1参照)。
この特許文献1に記載の装置において、歌声は、時間軸に沿った軌跡が連続し、かつ混合音の中音域及び高音域にて最もパワーが大きい調波構造を有すると仮定されている。
【0003】
その仮定の下、特許文献1に記載された装置では、歌声が存在する周波数帯域に制限された混合音を、一定時間長の時間窓を時間軸上でずらしながら周波数スペクトルを算出し、算出されたスペクトルからそれぞれの周波数を基本周波数とする調波構造成分の存在確率を反復推定により計算し、各基本周波数に対する調波構造成分の確率密度の変化(確率密度関数)を導出する。そして、確率密度関数の時間軸に沿った推移において、確率密度関数の値が閾値以上となるピークを、それぞれ、時間軸に沿って追跡して信頼度を導出する。その導出された各ピークの信頼度の中で、値が最も大きい信頼度に対応する基本周波数の軌跡を、歌声の時間軸に沿った推移(即ち、メロディ)として出力する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2001−125562号
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、日本語の子音の中には、調波構造を有していないものがある。このとき、歌声が調波構造を有するものと仮定して歌声を抽出する特許文献1に記載の装置では、調波構造成分と非調波構造成分の両方を有する歌声と演奏音とを含んだ混合音から、その調波構造を有していない歌声の成分を分離することができないという問題がある。
【0006】
そこで、本発明は、歌声の周波数構造に拘わらず、歌声と演奏音とを含む混合音から、歌声を抽出可能な歌声分離装置、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するためになされた本発明の歌声分離装置は、楽音取得手段と、楽音解析手段と、歌唱音取得手段と、歌唱音解析手段と、振幅導出手段と、区間推移導出手段と、歌声分離手段とを備えている。
【0008】
この本発明の歌声分離装置では、楽音取得手段が、楽曲を構成し、かつ少なくとも歌声を含む楽音の音圧が時間軸に沿って推移した楽音推移を取得して、その取得された楽音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した楽音スペクトログラムを、楽音解析手段が導出する。また、歌唱音取得手段が、楽曲を歌唱した音である歌唱音の音圧が時間軸に沿って推移した歌唱音推移を取得し、その取得した歌唱音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した歌唱音スペクトログラムを、歌唱音解析手段が、歌唱音推移における発声の開始タイミングから終了タイミングまでの期間である分析区間毎に導出する。
【0009】
さらに、振幅導出手段が、歌唱音解析手段にて導出された各分析区間での歌唱音スペクトログラムを構成する周波数スペクトルの各周波数の強さと、当該分析区間に対応する楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さとの比を表す振幅比率を導出し、その導出された振幅比率それぞれを、当該分析区間に対応する楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルから、時間軸に沿った音圧の推移である区間推移を、区間推移導出手段が導出する。これと共に、歌声分離手段が、区間推移導出手段にて導出された区間推移を楽曲の時間軸に沿って配することで、楽音推移における歌声の音圧が時間軸に沿って推移した歌声推移を生成する。
【0010】
このような本発明の歌声分離装置にて導出される分離スペクトルは、楽音推移に含まれる歌声の周波数とその歌声の周波数の強さとを表すものとなる。したがって、このような分離スペクトルから導出される区間推移は、分析区間での楽音推移に含まれている歌声の音圧が時間軸に沿って推移した波形となる。
【0011】
よって、本発明の歌声分離装置によれば、歌声の周波数構造に関わらず、歌声推移を生成することができる。つまり、本発明の歌声分離装置によれば、調波構造を有していない歌声が含まれる楽音推移であっても、その楽音推移から歌声推移を生成することができる。
【0012】
通常、楽音推移における歌声の音圧の時間軸に沿った推移(以下、楽音波形とする)と、歌唱音の音圧の時間軸に沿った推移(以下、歌唱波形とする)とは、略合同である。しかし、楽曲を歌唱する場合、歌唱者が同一であっても、常に同じようには歌唱できないことや異なる歌唱者が歌唱することを考慮すると、歌唱波形は、楽音波形との間に、周波数軸や時間軸に沿ってズレを有する可能性がある。
【0013】
そこで、本発明の歌声分離装置では、請求項2に記載のように、範囲特定手段が、歌唱音解析手段にて導出された各分析区間の歌唱音スペクトログラムを楽音解析手段にて導出された楽音スペクトログラムに照合して、当該歌唱音スペクトログラムが時間軸に沿って最も一致する楽音スペクトログラムでの範囲を特定しても良い。この場合、本発明の歌声分離装置における振幅導出手段は、範囲特定手段にて特定された楽音スペクトログラムでの範囲を、各分析区間に対応する楽音スペクトログラムとしても良い。
【0014】
このような本発明の歌声分離装置では、各分析区間の歌唱音スペクトログラムの周波数の強さと、各歌唱音スペクトログラムが時間軸に沿って最も一致する範囲での楽音スペクトログラムの周波数の強さとを用いて振幅比率を導出する。このため、本発明の歌声分離装置によれば、歌唱波形が楽音波形との間に時間軸に沿ったズレを有していても、歌声推移を精度良く抽出できる。すなわち、本発明の歌声分離装置によれば、歌唱推移の質に拘わらず、歌声推移を生成することができる。
【0015】
また、本発明の歌声分離装置では、請求項3に記載のように、周波数推定手段が、楽音取得手段にて取得した楽音推移に含まれる歌声の基本周波数が時間軸に沿って推移した周波数推移を推定し、周波数補正手段が、歌唱音取得手段にて取得された歌唱音推移の各分析区間における基本周波数が、周波数推定手段にて推定された周波数推移のうち、当該分析区間に対応する区間での基本周波数に一致するように、当該分析区間での歌唱音スペクトログラムを周波数軸に沿って補正した補正スペクトログラムを生成しても良い。この場合、本発明の歌声分離装置における振幅導出手段は、周波数補正手段にて生成された補正スペクトログラムそれぞれを、各分析区間での歌唱音スペクトログラムとしても良い。
【0016】
このような本発明の歌声分離装置によれば、振幅比率の導出に、基本周波数が一致するように(即ち、周波数軸に沿って)補正された歌唱音スペクトログラムを用いる。このため、本発明の歌声分離装置によれば、歌唱波形が楽音波形との間に周波数軸に沿ったズレを有していても、歌声推移を生成できる。
【0017】
本発明の歌声分離装置では、請求項4に記載のように、記憶制御手段が、区間推移導出手段にて導出された区間推移を楽音推移から減算した残留楽音推移を導出して、その導出した残留楽音推移を記憶装置に記憶すると共に、区間推移導出手段にて区間推移が導出される毎に、更新手段が、その導出された区間推移を記憶装置に記憶された残留楽音推移から減算して、当該記憶装置に記憶された残留楽音推移を更新しても良い。
【0018】
このような本発明の歌声分離装置によれば、楽音推移から全ての区間推移(即ち、歌声推移)を減算すると、楽曲にて演奏された楽器の音圧の時間軸に沿った推移が残留楽音推移として残る。つまり、本発明の歌声分離装置によれば、楽曲中に歌声が含まれていないカラオケ用の楽曲を生成することができる。
【0019】
本発明の歌声分離装置における楽音解析手段が、楽音推移に含まれる歌声の基本周波数が時間軸に沿って推移した周波数推移を推定する場合、歌唱解析手段は、請求項5に記載のように、歌唱音取得手段にて取得した歌唱音推移における基本周波数が時間軸に沿って推移する歌唱周波数推移を推定し、その推定された歌唱周波数推移が、周波数推移に連動して予め規定された規定値以上変化するタイミングである始端、及びその始端に対応する終端を特定して、始端と終端との間の区間を分析区間としても良い。
【0020】
このような本発明の歌声分離装置によれば、分析区間を、楽音推移に連動した区間とすることができる。しかも、本発明の歌声分離装置によれば、分析区間を簡易な方法で特定することができる。
【0021】
本発明は、コンピュータを歌声分離装置として機能させるためのプログラムであっても良い。
本発明が、このようなプログラムとしてなされている場合、本発明のプログラムは、請求項6に記載されたように、楽音推移を取得する楽音取得手順と、その取得された楽音推移から楽音スペクトログラムを導出する楽音解析手順と、歌唱音推移を取得する歌唱音取得手順と、その取得した歌唱音推移から歌唱音スペクトログラムを、分析区間毎に導出する歌唱音解析手順と、その導出された各分析区間での歌唱音スペクトログラム、及び当該分析区間に対応する区間における楽音スペクトログラムに基づいて、振幅比率を導出する振幅導出手順と、その導出された振幅比率それぞれを、当該分析区間に対応する楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルを、時間軸に沿った音圧の推移に変換した区間推移を導出する区間推移導出手順と、その導出した区間推移を時間軸に沿って配することで、歌声推移を生成する歌声分離手順とをコンピュータに実行させる必要がある。
【0022】
このようになされた本発明のプログラムであれば、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項1に記載された歌声分離装置として機能させることができる。
【図面の簡単な説明】
【0023】
【図1】実施形態における歌声分離装置の概略構成を示すブロック図である。
【図2】楽音の音圧の推移を示す説明図である。
【図3】歌声分離装置の制御部が実行する歌声分離処理の処理手順を示すフローチャートである。
【図4】歌声分離処理において導出されるスペクトログラムの概要を示す説明図である。
【図5】歌声分離処理において実行される時間補正、及び周波数補正の概要を示す説明図である。
【図6】歌声分離処理において実行される分離スペクトルを導出する方法の概要を示す説明図である。
【図7】歌声分離処理において実行される歌声推移を生成する方法の概要を示す説明図である。
【発明を実施するための形態】
【0024】
以下に本発明の実施形態を図面と共に説明する。
本発明が適用された歌声分離装置は、楽曲を歌唱した歌声を含む楽音の音圧が時間軸に沿って推移した波形を表す音響データから、歌声の音圧が時間軸に沿って推移した波形である歌声推移を分離・抽出する装置であり、図1に示す情報処理装置10によって構成されている。
〈歌声分離装置の構成について〉
図1に示すように、情報処理装置10は、音響データ読取部12と、入力受付部13と、表示部14と、音声入力部15と、音声出力部16と、記憶部17と、制御部20とを備えている。
【0025】
このうち、音響データ読取部12は、記憶媒体に記憶されている音響データから、時間軸に沿って音響データに対応する楽曲を順次読み取る装置(例えば、CDやDVDの読取装置)である。その音響データは、図2に示すような楽音の音圧が時間軸に沿って推移したアナログ波形を標本化(サンプリング)することで生成されている。なお、アナログ波形には、楽曲を歌唱した際の歌声に加えて、当該楽曲にて演奏された楽器の楽器音が含まれている。
【0026】
そして、入力受付部13は、外部からの操作に従って情報や指令の入力を受け付ける入力機器(例えば、キーボードやポインティングデバイス)である。表示部14は、画像を表示する表示装置(例えば、液晶ディスプレイやCRT等)である。また、音声入力部15は、音声を電気信号に変換して制御部20に入力する装置(いわゆるマイクロホン)である。音声出力部16は、制御部20からの電気信号を音声に変換して出力する装置(いわゆるスピーカ)である。
【0027】
また、記憶部17は、記憶内容を読み書き可能に構成された不揮発性の記憶装置(例えば、ハードディスク装置)である。この記憶部17には、音響データに対応する楽曲が歌唱された際の歌声を録音した音(以下、歌唱音とする)である歌声データや、処理プログラムが少なくとも格納されている。その歌声データは、歌声の音圧が時間軸に沿って推移した歌声波形を標本化(サンプリング)することで生成されている。
【0028】
さらに、制御部20は、ROM21と、RAM22と、CPU23とを少なくとも有した周知のコンピュータを中心に構成されている。
このうち、ROM21は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するものである。また、RAM22は、処理プログラムやデータを一時的に格納するものである。そして、CPU23は、ROM21やRAM22に記憶された処理プログラムに従って各処理(各種演算)を実行する。
【0029】
なお、本実施形態では、制御部20が実行する処理プログラムとして、歌声データを用いて、音響データから歌声推移vowfを分離・抽出するものが、予め用意されている。以下、本実施形態では、音響データから歌声推移vowfを分離・抽出する処理を歌声分離処理と称す。
〈歌声分離処理の処理内容について〉
次に、制御部20が実行する歌声分離処理について説明する。
【0030】
この歌声分離処理は、入力受付部13を介して、当該歌声分離処理を起動するための起動指令が入力されると、実行が開始される。
そして、図3に示すように、歌声分離処理は、起動されると、音響データに基づいて、楽音の音圧が時間軸に沿って推移した波形である楽音推移tuwf(ti)を取得する(S110)。具体的に、本実施形態では、音響データ読取部12にて読み取った当該楽曲を再生して、その再生した音声(即ち、楽音)を音声出力部16から出力する。そして、音声入力部15を介して入力された音声をサンプリングすることで楽音推移tuwf(ti)を取得する。なお、符合tiは、時間軸に沿って楽音をサンプリングした順番である。
【0031】
続いて、S110にて取得した楽音推移tuwfを、予め規定された時間長WLである分析時間窓twi毎に周波数解析し、その周波数解析の結果をRAM22(または記憶部17)に記憶する。(S120)。
【0032】
ただし、本実施形態の周波数解析は、周知の離散フーリエ変換(DFT:discrete Fourier transform)によって実施される。その離散フーリエ変換は、楽音推移tuwfの開始時刻から終了時刻までの期間を、予め規定された時間長であるシフト幅WSL(ただし、シフト幅WSL<<分析時間窓の時間長WL)で、時間軸に沿って分析時間窓twiをシフトすることを繰り返しながら実行される。このため、S120での周波数解析の結果、楽音推移tuwfの各分析時間窓twiに含まれている周波数毎に、その周波数の強さ(以下、スペクトル振幅値とする)tusp(twi,fi)が、周波数解析の結果として導出される。ただし、スペクトル振幅値tuspは、実数部及び虚数部それぞれについて導出される。また、符合fiは、周波数の区分(即ち、DFTによって導出される周波数の区分:単位[bin])である。
【0033】
すなわち、本実施形態では、スペクトル振幅値tusp(twi,fi)を、対数軸にて表した周波数軸に沿って配置することで複素(周波数)スペクトルを導出する。そして、その複素スペクトルのスペクトル振幅値tusp(twi,fi)を絶対値とした振幅スペクトルを、時間軸に沿って配置したスペクトログラム(図4(A)参照、以下、楽音スペクトログラムとする)を導出する。なお、図4(A)に示す楽音スペクトログラムでは、色の濃淡によってスペクトル振幅値tusp(twi,fi)の大きさを表した。
【0034】
続いて、楽音推移tuwf(ti)に含まれる歌声の基本周波数f0を分析時間窓twi毎に推定し、その推定した基本周波数f0が時間軸に沿って推移した周波数推移vf0(twi)を導出する(S130)。本実施形態のS130では、周波数推移vf0を導出する方法として、例えば、特開2001−125562号公報に記載された方法を用いても良い。その方法とは、歌声が存在する周波数帯域に制限された混合音を、一定時間長の時間窓を時間軸上でずらしながら周波数スペクトルを算出し、算出されたスペクトルからそれぞれの周波数を基本周波数とする調波構造成分の存在確率を反復推定により計算し、各基本周波数に対する調波構造成分の確率密度の変化(確率密度関数)を導出する。そして、確率密度関数の時間軸に沿った推移において、値が閾値以上となるピークを、それぞれ、時間軸に沿って追跡することで導出された信頼度の中で、値が最も大きい信頼度に対応する基本周波数を、基本周波数f0として推定するものである。
【0035】
さらに、記憶部17に記憶されている歌声データに基づいて、歌唱音の音圧が時間軸に沿って推移した波形である歌唱音推移uvwf(ti)を取得する(S140)。その取得した歌唱音推移uvwf(ti)の基本周波数f0を分析時間窓twi毎に推定し、その推定した基本周波数f0が時間軸に沿って推移した歌声周波数推移uvf0(twi)を導出する(S150)。このS150では、例えば、歌声データを周波数解析し、その周波数解析の結果(例えば、周波数スペクトル)と、予め用意された櫛歯構造モデルとを照合する周知の手法により、基本周波数f0を推定しても良い。
【0036】
そして、歌声周波数推移uvf0(twi)に基づいて、歌唱音推移uvwf(ti)にて、特定の歌詞に対して発声が開始された発声開始タイミングssi(si)から、当該発声が終了された発声終了タイミングsei(si)までの区間それぞれである歌声素片si(本発明の分析区間に相当)を特定する(S160)。本実施形態のS160では、S130にて導出された周波数推移vf0(twi)と連動して、歌声周波数推移uvf0(twi)が、予め規定された規定値以上変化するタイミングを発声開始タイミングssi(si)とし、その発声開始タイミングssi(si)の次の発声開始タイミングssi(si+1)から、予め設定された設定時間前のタイミングを発声終了タイミングsei(si)としている。
【0037】
続いて、歌声素片のインデックス番号siを初期値(本実施形態では、0)に設定する(S170)。続いて、設定されている歌声素片のインデックス番号(以下、設定インデックスとする)siが、歌声素片の最大のインデックス番号(以下、最終インデックス)SN未満であるか否かを判定する(S180)。
【0038】
そのS180での判定の結果、設定インデックスsiが最終インデックスSN未満であれば(S180:YES)、設定インデックスsiを1つインクリメントする(S190)。続いて、S190にてインクリメントされた設定インデックスsiに対応する歌声素片siにおける歌唱音推移uvwf(ti)を取得する(S200)。
【0039】
そして、S200で取得した歌声素片siにおける歌唱音推移uvwf(ti)を周波数解析する(S210)。ただし、本実施形態の周波数解析は、離散フーリエ変換によって実施され、その離散フーリエ変換は、歌唱音推移uvwf(ti)の開始から終了まで(即ち、1つの歌声素片siを形成する発声開始タイミングssi(si)から発声終了タイミングsei(si)まで)の期間について、分析時間窓twiをシフト幅WSLで時間軸に沿ってシフトさせることを繰り返しながら実行される。
【0040】
このような周波数解析の結果、S210では、歌唱音推移uvwf(ti)における各分析時間窓twiに含まれる周波数毎に、その周波数の強さ(即ち、スペクトル振幅値)vssp(twi,fi)が、実数部及び虚数部の両方について導出される。すなわち、本実施形態では、スペクトル振幅値vssp(twi,fi)を、対数軸にて表した周波数軸に沿って配置することで複素(周波数)スペクトルを導出する。そして、その複素スペクトルのスペクトル振幅値vsspを絶対値とした振幅スペクトルを、時間軸に沿って配置したスペクトログラム(図4(B)、以下、歌唱音スペクトログラムと称す)を導出する。なお、図4(B)の歌唱音スペクトログラムでは、色の濃淡によってスペクトル振幅値vssp(twi,fi)の大きさを表した。
【0041】
続いて、図5(A)に示すように、歌声素片siでの歌声周波数推移uvf0(twi)(即ち、基本周波数f0)が、当該歌声素片siに対応する期間での周波数推移vf0(即ち、基本周波数f0)に一致するように、S210にて導出された歌唱音スペクトログラムを構成するスペクトル振幅値vssp(twi,fi)を周波数軸に沿ってシフトする(S220)。
【0042】
続いて、S120にて導出された楽音スペクトログラムを構成するスペクトル振幅値tuspに対して、S220にて周波数がシフトされた歌唱音スペクトログラムを構成するスペクトル振幅値vssp(twi,fi)の相関値が、時間軸に沿って最大となる楽音スペクトログラム上での期間(以下、特定範囲とする)を特定する(S230)。
【0043】
具体的に、本実施形態のS230では、歌声素片siの発声開始タイミングssi(si)が、楽音スペクトログラムの時間軸に沿って最初に含まれる分析時間窓twiのインデックス番号sstwiを、下記(1)式により特定する。なお、(1)式に示す関数roundは、小数点以下を四捨五入した整数値を返す関数である。
【0044】
【数1】

そして、下記(2)式により、楽音スペクトログラムを構成する全範囲でのスペクトル振幅値tuspに対して、歌唱音スペクトログラムを構成するスペクトル振幅値vssp(twi,fi)の相関値が最大となる分析時間窓twiを特定する。ただし、下記(2)式にて特定される時間ズレ量dtwiは、上述した相関値が最大となる分析時間窓twiが、分析時間窓sstwiから、時間軸に沿って何番目であるかを表すものである。なお、(2)式に示す関数argmaxは、括弧内の関数(本実施形態では、相関値)が最大となる変数pを返す関数である。
【0045】
【数2】

すなわち、本実施形態のS230では、図5(B)に示すように、(1)式によって特定されたインデックス番号sstwiに対応する分析時間窓twiを原点として、歌唱音スペクトログラムを構成するスペクトル振幅値vsspを時間軸に沿って移動させながら相関値が最大となる時間ズレ量dtwiを導出する。そして、その時間ズレ量dtwiをインデックス番号sstwiに加算した分析時間窓sstwi+dtwiを原点とし、S220にて周波数がシフトされた歌唱音スペクトログラムを構成するスペクトル振幅値vssp(twi,fi)に対応するスペクトル振幅値tusp(twi,fi)の範囲を特定範囲としている。
【0046】
続いて、RAM22(または記憶部17)に記憶されている全てのスペクトル振幅値tuspのうち、特定範囲におけるスペクトル振幅値tusp(twi,fi)と、S220にて周波数がシフトされた歌唱音スペクトログラムを構成するスペクトル振幅値vssp(twi,fi)との比を表す振幅比率kr(twi,fi)を導出する(S240)。具体的に、S240では、振幅比率krは、複素スペクトルの絶対値に対して、各分析時間窓twiにおける周波数の区分fi毎に導出する。ただし、本実施形態における振幅比率krは、特定範囲におけるスペクトル振幅値tusp(twi,fi)が、スペクトル振幅値vssp(twi,fi)よりも小さければ、その値を「1」とし、スペクトル振幅値tusp(twi,fi)が、スペクトル振幅値vssp(twi,fi)よりも大きければ、両スペクトル振幅値の比としている。
【0047】
続いて、RAM22(または記憶部17)に記憶されている全範囲でのスペクトル振幅値tusp(twi,fi)のうち、特定範囲におけるスペクトル振幅値tusp(twi,fi)に、S240にて導出した振幅比率krを乗算したスペクトル振幅値vscpsp(twi,fi)(本発明の分離スペクトルに相当)を導出する(S250)。このS250では、具体的に、図6(A)及び図6(B)に示すように、複素スペクトルの実数部及び虚数部における各分析時間窓twiのスペクトル振幅値tuspに、各分析時間窓twiに対応する振幅比率krを乗算する。この振幅比率krの乗算は、周波数区分fi毎に実施される。
【0048】
なお、図6中において、実線は、分離スペクトルとして導出されたスペクトル振幅値vscpsp(twi,fi)であり、破線は、楽音スペクトログラムを構成するスペクトル振幅値tusp(twi,fi)である。
【0049】
さらに、記憶部17に記憶されているスペクトル振幅値tusp(twi,fi)を、下記(3)式に基づいて更新する(S260)。
【0050】
【数3】

すなわち、S250にて導出されたスペクトル振幅値vscpsp(twi,fi)を、特定範囲でのスペクトル振幅値tuspから減算して、新たなスペクトル振幅値tuspを導出している。なお、(3)式において、添え字oldは、更新前のスペクトル振幅値tuspであることを表し、添え字newは、更新後のスペクトル振幅値tuspであることを表す。
【0051】
続いて、S250にて導出された分離スペクトルのスペクトル振幅値vscpsp(twi,fi)を逆離散フーリエ変換(IDFT:inverse discrete Fourier transform)して、区間推移vscpwf(ti)を導出する(S270)。その導出した区間推移vscpwf(ti)に基づいて、下記(4)式に従って、歌声推移vowfoldを歌声推移vowfnewへと更新する(S280)。ただし、添え字oldは、更新前の歌声推移vowfであることを表し、添え字newは、更新後の歌声推移vowfであることを表す。また、ssi(si)+dtiは、時間ズレ量dtwiを、歌声推移vowfの時間軸に沿ったサンプリングの順番に変換したものである。
【0052】
【数4】

すなわち、本実施形態のS280では、図7(A)に示すように、初期値(本実施形態では、ゼロ波形)に設定されていた特定範囲での歌声推移vowfoldを、図7(B)に示すように、区間推移vscpwfへと置き換えることで、歌声推移vowfnewへと更新している。
【0053】
その後、S180へと戻る。そのS180では、設定インデックスsiが、最終インデックスSN未満であれば(S180:YES)、S180からS280のステップを繰り返す。そして、設定インデックスsiが、最終インデックスSN以上となると(S180:NO)、歌声推移vowfを記憶部17に記憶して(S290)、本歌声分離処理を終了する。すなわち、全ての歌声素片siについて、音響データから歌声推移vowf(mti,ti)を生成して分離し終えると、本歌声分離処理を終了する。
【0054】
つまり、本実施形態の歌声分離処理では、スペクトル振幅値tusp(twi,fi)に対して、1つの歌声素片siから導出されたスペクトル振幅値vssp(twi,fi)の相関値が最大となる特定範囲を特定する。そして、特定範囲において、振幅比率krを導出して、その導出された振幅比率krを、スペクトル振幅値tusp(twi,fi)に乗算することで、歌声素片siに対応する期間での楽音推移tuwfに含まれる歌声の複素スペクトルを表す分離スペクトルのスペクトル振幅値vscpsp(twi,fi)を導出する。
【0055】
さらに、その分離スペクトルのスペクトル振幅値vscpsp(twi,fi)を逆フーリエ変換して、区間推移vscpwfを導出し、その導出された区間推移vscpwfにて、歌声推移vowfにおける特定範囲を置換することで、歌声推移vowfを更新する。
[実施形態の効果]
以上説明したように、本実施形態の歌声分離装置10にて導出される分離スペクトルのスペクトル振幅値vscpsp(twi,fi)は、楽音推移tuwfに含まれる歌声の周波数毎に、その周波数の強さを表す。このスペクトル振幅値vscpsp(twi,fi)を逆フーリエ変換することで、区間推移vscpwfを導出する歌声分離装置10によれば、歌声の周波数構造に関わらず、歌声推移vowfを生成することができる。つまり、歌声分離装置10によれば、調波構造を有していない歌声成分が含まれる楽音推移tuwfであっても、その楽音推移tuwfから歌声推移vowfを抽出することができる。
【0056】
特に、本実施形態の歌声分離装置10では、振幅比率krを導出する際に、歌唱音スペクトログラムを構成するスペクトル振幅値vsspと、楽音スペクトログラムを構成するスペクトル振幅値tuspとの相関値が最大となるように、スペクトル振幅値vsspを時間軸に沿ってシフトしている。これと共に、振幅比率krを導出する際に、歌声素片siでの基本周波数が、当該歌声素片siに対応する期間での周波数推移vf0に一致するように、スペクトル振幅値vsspを周波数軸に沿ってシフトしている。
【0057】
これらのことから、歌声分離装置10によれば、楽音推移tuwfと、歌唱音推移uvwfとの間に、時間軸及び周波数軸のうちの少なくとも一方に沿ったズレが存在していても、歌声推移vowfを精度良く抽出できる。換言すれば、歌唱音推移uvwfの質に拘わらず、歌声推移vowfを抽出することができる。
【0058】
なお、本実施形態の歌声分離装置10では、楽音推移tuwfから全ての区間推移vscpwf(即ち、歌声推移vowf)を分離すると、楽曲にて演奏された楽器の楽器音の音圧が時間軸に沿って推移した波形が残る。つまり、歌声分離装置10によれば、楽曲中に歌声が含まれていないカラオケ用の楽曲を生成することができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
【0059】
例えば、上記実施形態では、歌声データ及び音響データを、それぞれ個別のデータとして情報処理装置10にて取得していたが、歌声データ及び音響データの取得方法は、これに限るものではなく、歌声データ及び音響データを、対応する楽曲毎に1つの組として、公衆通信網を用いて外部から組単位で取得しても良い。
【0060】
また、音響データに基づいて楽音推移tuwfを取得する方法は、音声出力部16から出力された楽音が音声入力部15を介して入力されることに限らない。例えば、楽音の時間軸に沿った波形を表す楽音信号(電気信号)を、音響データ読取部12や制御部20が生成し、その生成された楽音信号に従って音声出力部16が鳴動するように、情報処理装置10が構成されている場合、音響データ読取部12や制御部20が生成した楽音信号を楽音推移tuwfとして取得しても良い。
【0061】
更に、歌声素片siの発音開始タイミングssi(si)および発声終了タイミングsei(si)は、本実施形態のS160で歌声周波数推移uvf0(twi)のみに基づいて特定されているが、歌声歌唱音推移uvwf(ti)のパワー(振幅絶対値)の時間変化も併用して特定してもよい。この場合には、同じ音高が複数続くことで歌声周波数推移により歌声素片siが特定できない時間領域があっても、パワーの変化に基づいて特定することができる、という効果がある。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
【0062】
上記実施形態の歌声分離処理におけるS110が、本発明の楽音取得手段に相当し、歌声分離処理のS120が、本発明の楽音解析手段に相当する。そして、歌声分離処理のS140が、本発明の歌唱音取得手段に相当し、歌声分離処理のS160,S200,S210が、本発明の歌唱音解析手段に相当し、歌声分離処理のS240が、本発明の振幅導出手段に相当する。さらに、歌声分離処理のS250,S270が、本発明の区間推移導出手段に相当し、歌声分離処理のS280が、本発明の歌声分離手段に相当する。
【0063】
また、歌声分離処理のS220が、本発明の範囲特定手段に相当し、歌声分離処理のS130が周波数推定手段に相当し、歌声分離処理のS150,S230が、本発明の周波数補正手段に相当する。
【0064】
さらに、歌声分離処理のS260が、本発明の記憶制御手段に相当し、歌声分離処理のS270が、本発明の更新手段に相当する。
【符号の説明】
【0065】
10…情報処理装置(歌声分離装置) 12…音響データ読取部 13…入力受付部 14…表示部 15…音声入力部 16…音声出力部 17…記憶部 20…制御部 21…ROM 22…RAM 23…CPU

【特許請求の範囲】
【請求項1】
楽曲を構成し、少なくとも歌声を含む楽音の音圧が時間軸に沿って推移した楽音推移を取得する楽音取得手段と、
前記楽音取得手段で取得された楽音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した楽音スペクトログラムを導出する楽音解析手段と、
前記楽曲を歌唱した音である歌唱音の音圧が時間軸に沿って推移した歌唱音推移を取得する歌唱音取得手段と、
前記歌唱音取得手段にて取得した歌唱音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した歌唱音スペクトログラムを、前記歌唱音推移における発声の開始タイミングから終了タイミングまでの期間である分析区間毎に導出する歌唱音解析手段と、
前記歌唱音解析手段にて導出された各分析区間での前記歌唱音スペクトログラムを構成する周波数スペクトルの各周波数の強さと、当該分析区間に対応する前記楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さとの比を表す振幅比率を導出する振幅導出手段と、
前記振幅導出手段で導出された振幅比率それぞれを、当該分析区間に対応する前記楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルから、時間軸に沿った音圧の推移である区間推移を導出する区間推移導出手段と、
前記区間推移導出手段にて導出した区間推移を前記楽曲の時間軸に沿って配することで、前記楽音推移における歌声の音圧が時間軸に沿って推移した歌声推移を生成する歌声分離手段と
を備えることを特徴とする歌声分離装置。
【請求項2】
前記歌唱音解析手段にて導出された各分析区間の歌唱音スペクトログラムを前記楽音解析手段にて導出された楽音スペクトログラムに照合して、当該歌唱音スペクトログラムが時間軸に沿って最も一致する前記楽音スペクトログラムでの範囲を特定する範囲特定手段
を備え、
前記振幅導出手段は、
前記範囲特定手段にて特定された楽音スペクトログラムでの範囲を、各分析区間に対応する前記楽音スペクトログラムとすることを特徴とする請求項1に記載の歌声分離装置。
【請求項3】
前記楽音取得手段にて取得した楽音推移に含まれる歌声の基本周波数が時間軸に沿って推移した周波数推移を推定する周波数推定手段と、
前記歌唱音取得手段にて取得した歌唱音推移の各分析区間における基本周波数が、前記周波数推定手段にて推定された周波数推移のうち、当該分析区間に対応する区間での基本周波数に一致するように、当該分析区間での歌唱音スペクトログラムを周波数軸に沿って補正した補正スペクトログラムを生成する周波数補正手段と
を備え、
前記振幅導出手段は、
前記周波数補正手段にて生成された補正スペクトログラムそれぞれを、各分析区間での歌唱音スペクトログラムとすることを特徴とする請求項1または請求項2に記載の歌声分離装置。
【請求項4】
前記区間推移導出手段にて導出された区間推移を前記楽音推移から減算した残留楽音推移を導出して、その導出した残留楽音推移を記憶装置に記憶する記憶制御手段と、
前記区間推移導出手段にて区間推移が導出される毎に、その導出された区間推移を前記記憶装置に記憶された残留楽音推移から減算して、当該記憶装置に記憶された残留楽音推移を更新する更新手段と
を備えることを特徴とする請求項1から請求項3のいずれか一項に記載の歌声分離装置。
【請求項5】
前記楽音解析手段は、
前記楽音取得手段にて取得した楽音推移に含まれる歌声の基本周波数が時間軸に沿って推移した周波数推移を推定し、
前記歌唱音解析手段は、
前記歌唱音取得手段にて取得した歌唱音推移における基本周波数が時間軸に沿って推移する歌唱周波数推移を推定し、その推定された歌唱周波数推移が、前記周波数推移に連動して予め規定された規定値以上変化するタイミングである始端、及びその始端に対応する終端を特定して、前記始端と前記終端との間の区間を前記分析区間とすることを特徴とする請求項1から請求項4のいずれか一項に記載の歌声分離装置。
【請求項6】
楽曲を構成し、少なくとも歌声を含む楽音の音圧が時間軸に沿って推移した楽音推移を取得する楽音取得手順と、
前記楽音取得手順で取得された楽音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した楽音スペクトログラムを導出する楽音解析手順と、
前記楽曲を歌唱した音である歌唱音の音圧が時間軸に沿って推移した歌唱音推移を取得する歌唱音取得手順と、
前記歌唱音取得手順にて取得した歌唱音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した歌唱音スペクトログラムを、前記歌唱音推移における発声の開始タイミングから終了タイミングまでの期間である分析区間毎に導出する歌唱音解析手順と、
前記歌唱音解析手順にて導出された各分析区間での前記歌唱音スペクトログラムを構成する周波数スペクトルの各周波数の強さと、当該分析区間に対応する前記楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さとの比を表す振幅比率を導出する振幅導出手順と、
前記振幅導出手順で導出された振幅比率それぞれを、当該分析区間に対応する前記楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルを、時間軸に沿った音圧の推移に変換した区間推移を導出する区間推移導出手順と、
前記区間推移導出手順にて導出した区間推移を時間軸に沿って配することで、前記楽音推移における歌声の音圧が時間軸に沿って推移した歌声推移を生成する歌声分離手順と
をコンピュータに実行させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図6】
image rotate

【図7】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2011−209593(P2011−209593A)
【公開日】平成23年10月20日(2011.10.20)
【国際特許分類】
【出願番号】特願2010−78666(P2010−78666)
【出願日】平成22年3月30日(2010.3.30)
【出願人】(000005267)ブラザー工業株式会社 (13,856)