説明

楽曲編集システムおよびプログラム

【課題】楽曲の成分から音声成分を除去するにあたり、本来音声成分ではない成分が除去されないようにする。
【解決手段】
所定の歌詞の文字それぞれを発声してなる音声が含まれた楽曲(対象楽曲)において、一定以上の音量で推移する基本周波数,および,これに対応する高調波の時間軸に沿った軌跡を音声成分の軌跡として推定する軌跡推定手段130と、軌跡推定手段130により推定された軌跡のうち、対象楽曲に対応する歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間(音声存在区間)のみからなる区間軌跡を抽出する軌跡抽出手段150と、対象楽曲から、軌跡抽出手段150により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を除去する成分除去手段170と、を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、楽曲を編集するための楽曲編集システムに関する。
【背景技術】
【0002】
近年、楽曲から特定の音成分の時間軸に沿った軌跡を推定する技術が提案されている。それは、楽曲において優勢な音高の時間軸に沿った軌跡をマルチエージェントモデルにおけるエージェントそれぞれにより追跡し、それらにおいて最も信頼度の高いエージェントが持つ優勢な基本周波数の推移を、特定の音成分(音源)の時間軸に沿った軌跡(メロディーライン)として推定する、といった技術(以下「音高推定技術」という)である(特許文献1参照)。
【0003】
なお、この音高推定技術においては、基本周波数の軌跡を推定することだけでなく、その推定の過程において算出される基本周波数の候補となるパラメータθの集合に基づいて高調波の軌跡を推定することもできる(特許文献1の段落0022〜0029参照)。
【特許文献1】特許第3413634号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところで、楽曲に、文字を発声してなる音声が含まれている場合には、その楽曲の成分の中で音声成分が最も優勢に推移することが一般的であるため、このような楽曲に対して上述した音高推定技術により推定した軌跡は、その楽曲における音声成分の軌跡ということができる。
【0005】
そうすると、こうして推定した軌跡における成分(基本周波数成分)を楽曲の成分から除去すれば、音声成分が除去された楽曲のデータを生成することも可能といえる。
ただ、上述した音高推定技術により推定される軌跡は、楽曲において最も優勢な成分の推移を追跡するものであるため、この軌跡における成分を除去するに際しては、本来音声成分ではない成分が除去されないように工夫を施すことが望ましい。
【0006】
本発明は、このような課題を解決するためになされたものであり、その目的は、楽曲の成分から音声成分を除去するにあたり、本来音声成分ではない成分が除去されないようにするための技術を提供することである。
【課題を解決するための手段】
【0007】
上記課題を解決するためには、楽曲を編集するための楽曲編集システムを以下に示す第1の構成(請求項1)のようにするとよい。
この構成においては、所定の歌詞の文字それぞれを発声してなる音声が含まれた楽曲(以降「対象楽曲」という)において、一定以上の音量で推移する基本周波数,および,該基本周波数に対応する高調波の時間軸に沿った軌跡を音声成分の軌跡として推定する軌跡推定手段と、該軌跡推定手段により推定された軌跡のうち、前記対象楽曲に対応する歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間(以降「音声存在区間」という)のみからなる区間軌跡を抽出する軌跡抽出手段と、前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を除去する成分除去手段と、を備えている。
【0008】
この構成に係る楽曲編集システムでは、まず、対象楽曲において、一定以上の音量で推移する基本周波数,および,これに対応する高調波の時間軸に沿った軌跡を音声成分の軌跡として推定する。この軌跡の推定に際しては、上述した特許文献1に記載の技術に基づいて優勢な基本周波数の軌跡を推定すると共に、その推定の過程において算出される基本周波数の候補となるパラメータθの集合に基づいて高調波の軌跡を推定すればよい(特許文献1の段落0022〜0029参照)。
【0009】
対象楽曲に文字を発声してなる音声が含まれている場合には、その成分の中で音声成分が最も優勢に推移することが一般的であるため、このような対象楽曲について上記のように推定した軌跡は、楽曲における音声成分の軌跡といえる。
【0010】
特に、音声成分に占める大部分が基本周波数および高調波で構成された母音および子音の成分であることに照らすと、上記のように基本周波数および高調波の時間軸に沿った推移を軌跡として推定すれば、音声成分に占める大部分の軌跡を推定できることになる。
【0011】
ただ、上記のように推定した軌跡は、楽曲において最も優勢な成分の時間軸に沿った推移を追跡するものであるため、本来音声成分が含まれていない区間であるにも拘わらず、この区間にあたかも成分の推移があるような軌跡が推定されてしまう恐れがある。
【0012】
そこで、上記構成では、上記のように推定した軌跡のうち、対象楽曲に対応する歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間(音声存在区間)のみからなる区間軌跡を抽出することにより、上記のように推定した音声成分の軌跡から音声成分が含まれていない区間を除去している。
【0013】
このように、対象楽曲に含まれる音声成分の軌跡として、本来音声成分が含まれていない区間が除外されてなる軌跡(区間軌跡)を推定することができるため、この軌跡における基本周波数および高調波それぞれに対応する成分を元の対象楽曲から除去することによって、本来音声成分でない成分が除去されてしまうことを防止しつつ、対象楽曲から適切に音声成分を除去することができる。
【0014】
この構成においては、音声成分の軌跡を推定するに際し、対象楽曲をそのまま用いることとすればよいが、その推定の精度を高める意味では、その推定に先立って音声成分を強調しておくことが望ましい。
【0015】
このように音声成分を強調するための方法については特に限定されないが、例えば、前記対象楽曲が、複数チャネルそれぞれの成分により音空間における各音成分の定位を規定している場合においては、上記構成を以下に示す第2の構成(請求項2)のようにすることが考えられる。
【0016】
この構成においては、前記対象楽曲における各音成分の定位状態に基づいて、該対象楽曲を音声成分が強調されてなる強調楽曲に変換する強調変換手段,を備えている。そして、前記軌跡推定手段は、前記強調変換手段により変換された強調楽曲における音声成分の軌跡を推定する。
【0017】
この構成であれば、各音成分の定位状態に基づいて対象楽曲における音声成分を強調することにより、音声成分が優勢な基本周波数および高調波となりやすくなる結果、音声成分の軌跡を推定するに際しての精度を高めることができる。
【0018】
なお、この構成において、各音成分の定位状態に基づく強調楽曲への変換に際しては、単純に各チャネルそれぞれの成分を加算することにより、この成分からなる楽曲を強調楽曲とすればよい。
【0019】
ただし、対象楽曲における音声成分が各チャネルにおいて同位相になっていないと、単純に加算しただけでは、必ずしも音声成分が強調さされるとは限らない。そのため、各チャネルにおける音声成分を同位相にしたうえで、強調楽曲への変換を行うようにすることが望ましい。
【0020】
ここで、前記対象楽曲が、左右チャネルそれぞれの成分により音空間における各音成分の定位を規定している場合について考えると、この場合には、上記構成を、以下に示す第3の構成(請求項3)のようにするとよい。
【0021】
この構成において、前記強調変換手段は、前記対象楽曲における音声成分が左右チャネルにおいて同位相となるように、左右チャネルのいずれか一方の成分(関数xL_0[t],xR_0[t]で示される(tは時間軸上の位置;以下同様))における位相を相対的に時間差Δtだけ遅らせたうえ、下記の式1または式2のように、これら成分を加算することによって、前記対象楽曲を音声成分が強調された強調楽曲(関数x_1[t]で示される)に変換する。
【0022】
x_1[t]=xL_0[t]+xR_0[t+Δt] … (式1)
x_1[t]=xL_0[t+Δt]+xR_0[t] … (式2)
この構成であれば、対象楽曲における音声成分が各チャネルにおいて同位相になっていなかったとしても、左右チャネルそれぞれにより規定される音声成分を同位相にした(つまり中心に定位するようにした)うえで、これら左右チャネルの成分を加算して音声成分を強調することができる。
【0023】
この構成において、左右チャネルにおける音声成分を同位相とするような時間差Δtは、対象楽曲毎に実験的に求めることとしてもよいし、数学的に算出することとしてもよい。
【0024】
この後者のためには、例えば、以下に示す第4の構成(請求項4)のようにすることが考えられる。
この構成において、前記強調変換手段は、前記対象楽曲における左右チャネルの成分(関数xL_0[t],xR_0[t])について、下記の式3または式4により算出されるφが最大になる時間差τを前記時間差Δtとして前記強調楽曲への変換を行う。
【0025】
φ[τ]=∫(xL_0[t]・xR_0[t+τ])dt … (式3)
φ[τ]=∫(xL_0[t+τ]・xR_0[t])dt … (式4)
この構成であれば、音声成分が同位相になるような左右チャネルの成分の時間差Δtを必要に応じて算出したうえで、これに基づいて音声成分を強調することができる。
【0026】
また、上記のように音声成分を強調する構成において、この強調後の対象楽曲に基づいて音声成分の軌跡を推定するに際しては、この対象楽曲をその推定に適した状態としておくことが望ましい。
【0027】
ここでいう「適した状態」としては、例えば、音声成分の軌跡を推定するのに適したサンプリング周波数にサンプリング周波数変換を行った状態が考えられ、このような状態とするためには、上記各構成を以下に示す第5の構成(請求項5)のようにすればよい。
【0028】
この構成においては、前記強調変換手段により変換された強調楽曲に対し、前記軌跡推定手段による軌跡の推定に適したサンプリング周波数となるようにサンプリング周波数変換を行うリサンプリング手段,を備えている。そして、前記軌跡推定手段は、前記リサンプリング手段によりサンプリング周波数変換がなされた強調楽曲における音声成分の軌跡を推定する。
【0029】
この構成であれば、音声成分の軌跡を推定するに先立ち、対象楽曲におけるサンプリング周波数をその推定に適したサンプリング周波数に変換しておくことができるため、より適切に軌跡の推定を実施できるようになる。
【0030】
また、上記各構成において区間軌跡を抽出するための具体的な構成は特に限定されないが、例えば、以下に示す第6の構成(請求項6)のようにすることが考えられる。
この構成において、前記軌跡抽出手段は、前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれで形成される区間を前記音声存在区間として前記区間軌跡を抽出する。
【0031】
この構成では、基本周波数および高調波の軌跡おける時間軸上の位置のうち、対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれで形成される区間を音声存在区間として区間軌跡を抽出することができる。
【0032】
より具体的には、この構成を以下に示す第7の構成(請求項7)のようにするとよい。
この構成においては、前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれに「1」がセットされ、それ以外の位置それぞれに「0」がセットされた窓関数win[t](tは時間軸上の位置;以下同様)を、前記音声存在区間を示す関数として生成する区間生成手段,を備えている。
【0033】
そして、前記軌跡推定手段は、音声成分における基本周波数の軌跡を示す関数F0[t]と、音声成分における高調波の軌跡を示す関数G[t,m](mは高調波の次数;以下同様)と、を推定して、前記軌跡抽出手段は、下記の式5,式6のように、前記軌跡推定手段により推定された関数F0[t],G[t,m]それぞれに、前記区間生成手段により生成された窓関数win[t]を乗算し、該乗算して得られる関数F0’[t],G’[t,m]を、前記区間軌跡を示す関数として算出する。
【0034】
F0’[t]=F0[t]・win[t] … (式5)
G’[t,m]=G[t,m]・win[t] … (式6)
この構成では、音声存在区間を示す窓関数win[t]を、音声成分の軌跡を示す関数F0[t],G[t,m]に乗算することにより、その軌跡から抽出された区間軌跡を示す関数を算出することができる。
【0035】
ところで、上述したように、音声成分に占める大部分は、基本周波数および高調波など調波構造をなす母音および子音の成分であるが、一部の子音に調波構造をなさない成分があるため、このような成分を対象楽曲から除去すべき成分として特定できることが望ましい。
【0036】
このためには、例えば、上記構成を以下に示す第8の構成(請求項8)とすればよい。
この構成においては、前記対象楽曲において調波構造となっていない成分を抽出し、該抽出してなる非調波成分のうち、前記音声存在区間内において所定のしきい値以上のレベルとなっている成分を、前記対象楽曲に含まれる子音成分として抽出する子音抽出手段と、を備えている。そして、前記成分除去手段は、前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分と、前記子音抽出手段により抽出された子音成分と、を除去する。
【0037】
この構成であれば、対象楽曲において調波構造となっていない特定の成分を子音成分として抽出したうえで、これを元の対象楽曲から除去することができるようになる。
より具体的には、この構成を以下に示す第9の構成(請求項9)のようにするとよい。
【0038】
この構成においては、前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれに「1」がセットされ、それ以外の位置それぞれに「0」がセットされた窓関数win[t](tは時間軸上の位置;以下同様)を、前記音声存在区間を示す関数として生成する区間生成手段,を備えている。
【0039】
そして、前記子音抽出手段は、前記対象楽曲の成分を示す関数x_0[t]に基づいて前記非調波成分を示す関数x_2[t]を算出した後、下記の式7のように、該関数x_2[t]に、前記区間生成手段により生成された窓関数win[t]を乗算し、該乗算して得られる関数x_3[t]を、前記対象楽曲に含まれる子音成分を示す関数として算出する。
【0040】
x_3[t]=x_2[t]・win[t] … (式7)
この構成では、音声存在区間を示す窓関数win[t]を、非調波成分を示す関数x_2[t]に乗算することにより、対象楽曲に含まれる子音成分を関数として算出することができる。
【0041】
また、上記各構成において、対象楽曲から音声成分を除去するにあたっては、対象楽曲から該当成分それぞれを一括して除去することとすればよいが、複数の手段により段階的に除去することとしてもよい。
【0042】
この後者のためには、例えば、上記各構成を以下に示す第10の構成(請求項10)のようにするとよい。
この構成において、前記成分除去手段は、前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を除去する第1成分除去手段と、前記対象楽曲から、前記子音抽出手段により抽出された子音成分を除去する第2成分除去手段と、からなる。
【0043】
この構成であれば、対象楽曲からの基本周波数および高調波に対応する成分それぞれの除去と、対象楽曲からの子音成分の除去と、をそれぞれ独立した手段により段階的に除去することができる。この場合、各成分に応じて適切な除去の方法を採用することができるため、より適切に対象楽曲から音声成分を除去することができるようになる。
【0044】
この構成における第1成分除去手段による除去の方法については特に限定されないが、例えば、以下に示す第11の構成(請求項11)のようにすることが考えられる。
この構成において、前記第1成分除去手段は、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるフィルタ特性を有するフィルタ関数filを生成した後、下記の式8のように、前記対象楽曲の成分を示す関数x_0[t]と、前記フィルタ関数filと、の畳み込み積分を行うことにより、前記対象楽曲から前記区間軌跡における基本周波数および高調波それぞれに対応する成分を除去してなる成分を示す関数x_4[t]を特定する。
【0045】
x_4[t]=x_0[t]*fil (*は、畳み込み積分の意) … (式8)
この構成であれば、対象楽曲における成分のうち、区間軌跡における基本周波数および高調波それぞれに対応する成分をフィルタ特性で減衰させることにより、これら成分を除去することができる。
【0046】
さらに、この構成は、以下に示す第12の構成(請求項12)のように構成するとよい。
この構成において、前記第1成分除去手段は、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるべき時間軸上の位置それぞれについて、その成分と、該当位置より所定時間だけ前の前記区間軌跡における基本周波数および高調波それぞれに対応する成分で規定される残響成分と、を減衰させるフィルタ特性を有するフィルタ関数filを生成する。
【0047】
この構成であれば、対象楽曲における成分のうち、子音成分だけでなく、音声の残響成分についても併せて減衰させることにより、これら成分を除去することができる。
また、上記課題を解決するためには、上記第1〜第12のいずれかの構成における楽曲編集システムの備える全ての手段としてコンピュータシステムを機能させるためのプログラム(請求項13)としてもよい。
【0048】
このプログラムにより制御されるコンピュータシステムであれば、上記第1〜第12のいずれかの構成における楽曲編集システムと同様の作用,効果を得ることができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介して楽曲編集システムや、これを利用するユーザに提供されるものである。
【発明を実施するための最良の形態】
【0049】
以下に本発明の実施形態を図面と共に説明する。
(1)ハードウェア構成
楽曲編集システム1は、図1に示すように、システム全体を制御する制御部11,各種情報を記憶する記憶部13,ネットワーク2を介した通信を制御する通信部15,キーボードやディスプレイなどからなるユーザインタフェース(U/I)部17,記録メディアを介して情報を入出力するメディアドライブ19などを備えた周知のコンピュータシステムである。
【0050】
この楽曲編集システム1は、ユーザインタフェース部17または通信部15を介して外部から所定の指令を受けた際、制御部11が記憶部13に記憶されたプログラムに従って各種処理を実行することによって、本発明の楽曲編集システムとしての機能を発揮する。
【0051】
なお、本実施形態では、楽曲編集システム1が単体のコンピュータシステムにより構成されているが、それぞれ協調して動作する複数のコンピュータシステムにより構成できることはいうまでもない。
(2)機能ブロック
以下、上述したプログラムの実行に伴って発揮される機能をその処理手順に沿って可視的に表現した機能ブロックを図2に基づいて説明する。
【0052】
まず、外部からの指令を受けて、処理対象となる楽曲(以降「対象楽曲」という)を再生するための楽曲データ(入力楽曲データ),および,その対象楽曲に対応する歌詞(以降「対象歌詞」)を示す歌詞データが取得される。
【0053】
ここでは、外部からの指令に応じた入力楽曲データおよび歌詞データが、通信部15(つまりネットワーク2)またはメディアドライブ19(つまり記録メディア)を介して、または、記憶部13に記憶されているデータの中から取得される。
【0054】
なお、ここで取得される入力楽曲データは、所定の歌詞の文字それぞれを発声してなる音声が含まれた対象楽曲を再生するためのデータであり、この対象楽曲は、複数チャネル(本実施形態では左右チャネル)それぞれの成分(関数xL_0[t],xR_0[t]で示される,tは時間軸上の位置;以下同様)により音空間における各音成分の定位を規定した楽曲である。
【0055】
こうして取得された入力楽曲データ(で示される対象楽曲)は、後述する強調変換手段110,子音抽出手段160,成分除去手段170それぞれに渡され、歌詞データ(で示される対象歌詞)は、後述する区間生成手段140に渡される。
(2−1)強調変換手段110
上述した対象楽曲を受けた強調変換手段110は、この対象楽曲を音声成分が強調された強調楽曲に変換する。
【0056】
具体的には、対象楽曲における音声成分が左右チャネルにおいて同位相となるように、左右チャネルのいずれか一方の成分(関数xL_0[t],xR_0[t])における位相を相対的に時間差Δtだけ遅らせたうえ、下記の式1または式2のように、これら成分を加算することによって、対象楽曲を音声成分が強調された強調楽曲(関数x_1[t]で示される)に変換する。このように左右チャネルの成分を加算していることから、強調楽曲は単一チャネル(つまりモノラル)の成分からなるものとなる。
【0057】
x_1[t]=xL_0[t]+xR_0[t+Δt] … (式1)
x_1[t]=xL_0[t+Δt]+xR_0[t] … (式2)
この式1,式2における時間差Δtは、対象楽曲毎に実験的に求めたものを使用することとしてもよいし、数学的に算出することとしてもよい。この後者のためには、例えば、下記の式3または式4により算出されるφが最大になる時間差τを時間差Δtとすることが考えられる。
【0058】
φ[τ]=∫xL_0[t]・xR_0[t+τ]dt … (式3)
φ[τ]=∫xL_0[t+τ]・xR_0[t]dt … (式4)
こうして変換された強調楽曲(関数x_1[t])は、後述するリサンプリング手段120に渡される。
(2−2)リサンプリング手段120
強調変換手段110に変換されてなる強調楽曲(関数x_1[t])を渡されたリサンプリング手段120は、強調楽曲に対し、軌跡推定手段130による軌跡の推定に適したサンプリング周波数となるようにサンプリング周波数変換を行う。
【0059】
ここでは、例えば、対象楽曲におけるサンプリング周波数が、軌跡推定手段130による軌跡の推定に適したサンプリング周波数よりも高ければ、そのサンプリング周波数を下げるべくサンプリング周波数変換(ダウンサンプリング)が実施され、軌跡推定手段130による軌跡の推定に適したサンプリング周波数よりも低ければ、そのサンプリング周波数を上げるべくサンプリング周波数変換(アップサンプリング)が実施される。
【0060】
こうしてサンプリング周波数変換が行われた強調楽曲(関数x_1’[t])は、軌跡推定手段130に渡される。
(2−3)軌跡推定手段130
リサンプリング手段120によりサンプリング周波数変換された強調楽曲を受けた軌跡推定手段130は、その対象楽曲において一定以上の音量で推移する基本周波数の軌跡(関数F0[t]で示される)と、その基本周波数に対応する高調波の軌跡(関数G[t,m],mは高調波の次数;以下同様)と、を推定する。
【0061】
ここでは、上述した特許文献1に記載の技術に基づいて優勢な基本周波数の軌跡を推定すると共に、その推定の過程において算出される基本周波数の候補となるパラメータθの集合に基づいて高調波の軌跡を推定する(特許文献1の段落0022〜0029参照)。
【0062】
こうして推定された軌跡(関数F0[t],G[t,m])は、後述する区間生成手段140,軌跡抽出手段150それぞれに渡される。
(2−4)区間生成手段140
軌跡推定手段130に推定された軌跡(関数F0[t],G[t,m]),および,歌詞データを受けた区間生成手段140は、その軌跡における時間軸に沿った位置のうち、歌詞データで示される対象歌詞の文字が発声されるべき時間軸上の位置それぞれに「1」がセットされ、それ以外の位置それぞれに「0」がセットされた窓関数win[t]を、対象歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間(以降「音声存在区間」という)を示す関数として生成する。
【0063】
具体的には、軌跡推定手段130に推定された軌跡における時間軸上の位置のうち、対象歌詞の各文字が発声された場合における基本周波数および高調波のパターンと近似している時間軸上の位置に、その文字が発声されるべき位置を示す「1」を割り当て、それ以外の位置に「0」を割り当てていくことにより、窓関数win[t]が生成される。
【0064】
こうして特定された音声存在区間(窓関数win[t])は、後述する軌跡抽出手段150,子音抽出手段160それぞれに渡される。
(2−5)軌跡抽出手段150
軌跡推定手段130に推定された軌跡(関数F0[t],G[t,m]),および,区間生成手段140により特定された音声存在区間(窓関数win[t])を受けた軌跡抽出手段150は、その軌跡のうち、音声存在区間のみからなる区間軌跡を抽出する。
【0065】
ここでは、下記の式5,式6のように、軌跡推定手段130により推定された関数F0[t],G[t,m]それぞれに、区間生成手段140により生成された窓関数win[t]を乗算し、こうして得られる関数F0’[t],G’[t,m]を、区間軌跡を示す関数として算出する。
【0066】
F0’[t]=F0[t]・win[t] … (式5)
G’[t,m]=G[t,m]・win[t] … (式6)
こうして特定された区間軌跡(関数F0’[t],G’[t,m])は、後述する成分除去手段170に渡される。
(2−6)子音抽出手段160
上述した対象楽曲,および,区間生成手段140により生成された音声存在区間(窓関数win[t])を受けた子音抽出手段160は、対象楽曲において調波構造となっていない成分を抽出し、こうして抽出した非調波成分のうち、音声存在区間内において所定のしきい値以上のレベルとなっている成分を、対象楽曲に含まれる子音成分として抽出する。
【0067】
具体的には、まず、対象楽曲における時間軸上の位置それぞれについて、その位置のスペクトル分布において調波構造となっている成分を除去してなる成分それぞれを抽出した後、下記の式7,式8のように、こうして抽出された非調波成分を示す関数xL_2[t],xR_2[t]に窓関数win[t]を乗算し、こうして得られる関数xL_3[t],xR_3[t]を、対象楽曲に含まれる子音成分を示す関数として特定する。
【0068】
xL_3[t]=xL_2[t]・win[t] … (式7)
xR_3[t]=xR_2[t]・win[t] … (式8)
こうして特定された子音成分(関数xL_3[t],xR_3[t])は、後述する成分除去手段170に渡される。
(2−7)成分除去手段170
上述した対象楽曲,軌跡抽出手段150により抽出された区間軌跡(関数F0’[t],G’[t,m]),および,子音抽出手段160により抽出された子音成分(関数xL_3[t],xR_3[t])を受けた成分除去手段170は、まず、第1成分除去手段172によって、対象楽曲における成分から区間軌跡における基本周波数および高調波それぞれに対応する成分を除去した後、第2成分除去手段174によって、対象楽曲における成分から子音成分を除去する。
【0069】
この第1成分除去手段172は、まず、区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるフィルタ特性(ノッチフィルタとしての特性)を有するフィルタ関数filを生成する。
【0070】
このフィルタ関数filは、全ての周波数で振幅が1となるフラットな周波数スペクトル(L[f]=1,fは周波数)を初期特性とし、この初期特性のうち、区間軌跡における基本周波数および高調波m’・f0(m’は基本周波数の次数1および高調波の次数2以上,f0は基本周波数)に該当する周波数の特性(L[m’・f0])を、その成分(F0’[t]またはG’[t,m])の逆数を乗じた特性(L[m’・f0]=1/F0’[t]または1/G’[t,m])に修正することにより最終的なフィルタ特性が規定される。
【0071】
このフィルタ特性は、区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるべき時間軸上の位置それぞれについて、その成分だけでなく、該当位置より所定時間だけ前の区間軌跡における基本周波数および高調波それぞれに対応する成分で規定される残響成分を併せて減衰させる特性としてもよい。
【0072】
この場合には、所定時間だけ前の区間軌跡における基本周波数および高調波それぞれに対応する成分を、その時間に応じて減衰させたうえで、これを残響成分として規定し、その残響成分に対応する周波数の特性を、その残響成分の逆数を初期特性に乗じた特性となるように修正すればよい。この場合、対象楽曲における成分のうち、子音成分だけでなく、音声の残響成分についても併せて減衰させることにより、これら成分を除去できる。
【0073】
そして、下記の式9,式10のように、対象楽曲の成分を示す関数xL_0[t],xR_0[t]と、フィルタ関数filと、の畳み込み積分を行うことにより、対象楽曲から区間軌跡における基本周波数および高調波それぞれに対応する成分が除去されてなる成分(関数xL_4[t],xR_4[t]で示される)を算出する。
【0074】
xL_4[t]=xL_0(t)*fil … (式9)
xR_4[t]=xR_0(t)*fil … (式10)
(*は、畳み込み積分の意)
また、第2成分除去手段174は、第1成分除去手段172に算出された成分(関数xL_4[t],xR_4[t])から、さらに子音成分を除去する。
【0075】
具体的には、下記の式11,式12に示すように、第1成分除去手段172に生成された成分を示す関数xL_4[t],xR_4[t]から、それぞれ子音成分を示す関数xL_3[t],xR_3[t]を減算することにより、第1成分除去手段172に特定された成分から子音成分が除去されてなる出力成分(関数xL[t],xR[t]で示される)を生成する。
【0076】
xL[t]=xL_4[t]−xL_3[t] … (式11)
xR[t]=xR_4[t]−xR_3[t] … (式12)
そして、こうして生成された出力成分(関数xL[t],xR[t])を示す楽曲データ(出力楽曲データ)が記憶部13に記憶される、または、通信部15やメディアドライブ19を介して外部に転送される。
(3)作用,効果
上記構成に係る楽曲編集システム1では、対象楽曲において、一定以上の音量で推移する基本周波数,および,これに対応する高調波の時間軸に沿った軌跡を音声成分の軌跡として推定する(軌跡推定手段130)。
【0077】
対象楽曲に文字を発声してなる音声が含まれている場合には、その成分の中で音声成分が最も優勢に推移することが一般的であるため、このような対象楽曲について上記のように推定した軌跡は、楽曲における音声成分の軌跡といえる。特に、基本周波数および高調波で構成された母音および子音の成分は、音声成分の大部分を占めるため、上記のように基本周波数および高調波の時間軸に沿った推移を軌跡として推定するということは、音声成分に占める大部分の軌跡を推定できることになる。
【0078】
ただ、上記のように推定した軌跡は、楽曲において最も優勢な成分の時間軸に沿った推移を追跡するものであるため、本来音声成分が含まれていない区間であるにも拘わらず、この区間にあたかも成分の推移があるような軌跡が推定されてしまう恐れがある。
【0079】
そこで、上記実施形態では、上記のように推定した軌跡のうち、対象歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間(音声存在区間)のみからなる区間軌跡を抽出することにより、上記のように推定した音声成分の軌跡から音声成分が含まれていない区間を除去している(軌跡抽出手段150)。
【0080】
このように、対象楽曲に含まれる音声成分の軌跡として、本来音声成分が含まれていない区間が除外されてなる軌跡(区間軌跡)を推定することができるため、この軌跡における基本周波数および高調波それぞれに対応する成分を対象楽曲から除去することによって(成分除去手段170)、本来音声成分でない成分が除去されてしまうことを防止しつつ、対象楽曲から適切に音声成分を除去することができる。
【0081】
また、上記実施形態では、強調変換手段110が、対象楽曲における各音成分の定位状態に基づいて、対象楽曲を音声成分が強調されてなる強調楽曲に変換しており、軌跡推定手段130が、この強調楽曲における音声成分の軌跡を推定している。
【0082】
このように、各音成分の定位状態に基づいて対象楽曲における音声成分を強調することにより、音声成分が優勢な基本周波数および高調波となりやすくなる結果、音声成分の軌跡を推定するに際しての精度を高めることができる。
【0083】
また、上記実施形態において、強調変換手段110は、対象楽曲における音声成分が左右チャネルにおいて同位相としたうえで、これら成分を加算することによって、音声成分が強調された強調楽曲を生成している。
【0084】
これにより、対象楽曲における音声成分が各チャネルにおいて同位相になっていなかったとしても、左右チャネルそれぞれにより規定される音声成分を同位相にした(つまり中心に定位するようにした)うえで、これら左右チャネルの成分を加算して音声成分を強調することができる。
【0085】
また、上記実施形態において、強調変換手段110は、音声成分が同位相になるような左右チャネルの成分の時間差Δtを必要に応じて算出したうえで、これに基づいて音声成分を強調することができる。
【0086】
また、上記実施形態においては、軌跡推定手段130による音声成分の軌跡を推定するに先立ち、リサンプリング手段120が、対象楽曲におけるサンプリング周波数をその推定に適したサンプリング周波数に変換しているため、より適切に軌跡の推定を実施できるようになる。
【0087】
また、上記実施形態においては、軌跡抽出手段150によって、基本周波数および高調波の軌跡おける時間軸上の位置のうち、対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれで形成される区間を音声存在区間として区間軌跡を抽出できる。
【0088】
具体的には、音声存在区間を示す窓関数win[t]を、音声成分の軌跡を示す関数F0[t],G[t,m]に乗算することにより、その軌跡から抽出された区間軌跡を示す関数を算出することができる。
【0089】
また、上記実施形態においては、子音抽出手段160が、対象楽曲において調波構造となっていない成分を抽出し、こうして抽出してなる非調波成分のうち、音声存在区間内において所定のしきい値以上のレベルとなっている成分を、対象楽曲に含まれる子音成分として抽出する。
【0090】
具体的には、音声存在区間を示す窓関数win[t]を、非調波成分を示す関数x_2[t]に乗算することにより、対象楽曲に含まれる子音成分を関数として算出する。そのため、こうして抽出された子音成分を成分除去手段170(第2成分除去手段174)によって対象楽曲から除去することで、対象楽曲から非調波の子音成分までも除去することができる。
【0091】
また、上記実施形態においては、成分除去手段170が、まず、第1成分除去手段172によって、対象楽曲から区間軌跡における基本周波数および高調波それぞれに対応する成分を除去した後、第2成分除去手段174によって、対象楽曲から子音成分を除去している。
【0092】
このように、対象楽曲からの基本周波数および高調波に対応する成分それぞれの除去と、対象楽曲からの子音成分の除去と、をそれぞれ独立した手段により段階的に除去することができるため、各成分に応じて適切な除去の方法を採用することで、より適切に対象楽曲から音声成分を除去することができるようになる。
【0093】
また、第1成分除去手段172では、対象楽曲における成分のうち、区間軌跡における基本周波数および高調波それぞれに対応する成分をフィルタ特性で減衰させることにより、これら成分を除去することができる。
【図面の簡単な説明】
【0094】
【図1】楽曲編集システムのハードウェア構成を示すブロック図
【図2】楽曲編集システムにおいて発揮される機能を図示した機能ブロック図
【符号の説明】
【0095】
1…楽曲編集システム、2…ネットワーク、11…制御部、13…記憶部、15…通信部、17…ユーザインタフェース部、19…メディアドライブ、110…強調変換手段、120…リサンプリング手段、130…軌跡推定手段、140…区間生成手段、150…軌跡抽出手段、160…子音抽出手段、170…成分除去手段、172…第1成分除去手段、174…第2成分除去手段。

【特許請求の範囲】
【請求項1】
所定の歌詞の文字それぞれを発声してなる音声が含まれた楽曲(以降「対象楽曲」という)において、一定以上の音量で推移する基本周波数,および,該基本周波数に対応する高調波の時間軸に沿った軌跡を音声成分の軌跡として推定する軌跡推定手段と、
該軌跡推定手段により推定された軌跡のうち、前記対象楽曲に対応する歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間(以降「音声存在区間」という)のみからなる区間軌跡を抽出する軌跡抽出手段と、
前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を除去する成分除去手段と、を備えている
ことを特徴とする楽曲編集システム。
【請求項2】
前記対象楽曲が、複数チャネルそれぞれの成分により音空間における各音成分の定位を規定している場合において、
前記対象楽曲における各音成分の定位状態に基づいて、該対象楽曲を音声成分が強調されてなる強調楽曲に変換する強調変換手段,を備えており、
前記軌跡推定手段は、前記強調変換手段により変換された強調楽曲における音声成分の軌跡を推定する
ことを特徴とする請求項1に記載の楽曲編集システム。
【請求項3】
前記対象楽曲が、左右チャネルそれぞれの成分により音空間における各音成分の定位を規定している場合において、
前記強調変換手段は、前記対象楽曲における音声成分が左右チャネルにおいて同位相となるように、左右チャネルのいずれか一方の成分(関数xL_0[t],xR_0[t]で示される(tは時間軸上の位置;以下同様))における位相を相対的に時間差Δtだけ遅らせたうえ、下記の式1または式2のように、これら成分を加算することによって、前記対象楽曲を音声成分が強調された強調楽曲(関数x_1[t]で示される)に変換する
ことを特徴とする請求項2に記載の楽曲編集システム。
x_1[t]=xL_0[t]+xR_0[t+Δt] … (式1)
x_1[t]=xL_0[t+Δt]+xR_0[t] … (式2)
【請求項4】
前記強調変換手段は、前記対象楽曲における左右チャネルの成分(関数xL_0[t],xR_0[t])について、下記の式3または式4により算出されるφが最大になる時間差τを前記時間差Δtとして前記強調楽曲への変換を行う
ことを特徴とする請求項3に記載の楽曲編集システム。
φ[τ]=∫xL_0[t]・xR_0[t+τ]dt … (式3)
φ[τ]=∫xL_0[t+τ]・xR_0[t]dt … (式4)
【請求項5】
前記強調変換手段により変換された強調楽曲に対し、前記軌跡推定手段による軌跡の推定に適したサンプリング周波数となるようにサンプリング周波数変換を行うリサンプリング手段,を備えており、
前記軌跡推定手段は、前記リサンプリング手段によりサンプリング周波数変換がなされた強調楽曲における音声成分の軌跡を推定する
ことを特徴とする請求項2から4のいずれかに記載の楽曲編集システム。
【請求項6】
前記軌跡抽出手段は、前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれで形成される区間を前記音声存在区間として前記区間軌跡を抽出する
ことを特徴とする請求項1から5のいずれかに記載の楽曲編集システム。
【請求項7】
前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれに「1」がセットされ、それ以外の位置それぞれに「0」がセットされた窓関数win[t](tは時間軸上の位置;以下同様)を、前記音声存在区間を示す関数として生成する区間生成手段,を備えており、
前記軌跡推定手段は、音声成分における基本周波数の軌跡を示す関数F0[t]と、音声成分における高調波の軌跡を示す関数G[t,m](mは高調波の次数;以下同様)と、を推定して、
前記軌跡抽出手段は、下記の式5,式6のように、前記軌跡推定手段により推定された関数F0[t],G[t,m]それぞれに、前記区間生成手段により生成された窓関数win[t]を乗算し、該乗算して得られる関数F0’[t],G’[t,m]を、前記区間軌跡を示す関数として算出する
ことを特徴とする請求項6に記載の楽曲編集システム。
F0’[t]=F0[t]・win[t] … (式5)
G’[t,m]=G[t,m]・win[t] … (式6)
【請求項8】
前記対象楽曲において調波構造となっていない成分を抽出し、該抽出してなる非調波成分のうち、前記音声存在区間内において所定のしきい値以上のレベルとなっている成分を、前記対象楽曲に含まれる子音成分として抽出する子音抽出手段と、を備えており、
前記成分除去手段は、前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分と、前記子音抽出手段により抽出された子音成分と、を除去する
ことを特徴とする請求項1から7のいずれかに記載の楽曲編集システム。
【請求項9】
前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれに「1」がセットされ、それ以外の位置それぞれに「0」がセットされた窓関数win[t](tは時間軸上の位置;以下同様)を、前記音声存在区間を示す関数として生成する区間生成手段,を備えており、
前記子音抽出手段は、前記対象楽曲の成分を示す関数x_0[t]に基づいて前記非調波成分を示す関数x_2[t]を算出した後、下記の式7のように、該関数x_2[t]に、前記区間生成手段により生成された窓関数win[t]を乗算し、該乗算して得られる関数x_3[t]を、前記対象楽曲に含まれる子音成分を示す関数として算出する
ことを特徴とする請求項8に記載の楽曲編集システム。
x_3[t]=x_2[t]・win[t] … (式7)
【請求項10】
前記成分除去手段は、
前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を除去する第1成分除去手段と、
前記対象楽曲から、前記子音抽出手段により抽出された子音成分を除去する第2成分除去手段と、からなる
ことを特徴とする請求項8または請求項9に記載の楽曲編集システム。
【請求項11】
前記第1成分除去手段は、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるフィルタ特性を有するフィルタ関数filを生成した後、下記の式8のように、前記対象楽曲の成分を示す関数x_0[t]と、前記フィルタ関数filと、の畳み込み積分を行うことにより、前記対象楽曲から前記区間軌跡における基本周波数および高調波それぞれに対応する成分を除去してなる成分を示す関数x_4[t]を特定する
ことを特徴とする請求項10に記載の楽曲編集システム。
x_4[t]=x_0[t]*fil (*は、畳み込み積分の意) … (式8)
【請求項12】
前記第1成分除去手段は、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるべき時間軸上の位置それぞれについて、その成分と、該当位置より所定時間だけ前の前記区間軌跡における基本周波数および高調波それぞれに対応する成分で規定される残響成分と、を減衰させるフィルタ特性を有するフィルタ関数filを生成する
ことを特徴とする請求項11に記載の楽曲編集システム。
【請求項13】
請求項1から12のいずれかに記載の楽曲編集システムの備える全ての手段としてコンピュータシステムを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate