説明

音響信号における特徴抽出方法及び当該特徴を用いた音響信号の処理方法

【課題】調波打楽器音分離に用いられるHPSS分析を多重的に用いることで音響信号の特徴を取得する。
【解決手段】
音響信号をn種の異なるフレーム長を用いて時間周波数領域へ変換することで得られたn個の音響信号のスペクトログラムを用意するステップと、各スペクトログラム上でHPSS分析を適用することでn個のH成分分離信号セットあるいはn個のP成分分離信号セットを取得するステップと、前記取得した分離信号セットにおける分離信号間の差分信号を当該音響信号の特徴として取得するステップと、を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号における特徴抽出方法及び当該特徴を用いた音響信号の処理方法に関するものである。
【背景技術】
【0002】
本願の発明者等は、調波成分・打楽器成分の時間周波数領域におけるスペクトル成分の異方性、より具体的には、図1に示すようにポピュラー音楽の音響信号のスペクトログラムが、時間周波数領域において、一般的に周波数方向に形成される山脈ないし畝のような縦方向のスペクトル成分と、時間方向に形成される山脈ないし畝のような横方向のスペクトル成分とからなることが多い点に着目することで、スペクトログラムを縦方向成分、横方向成分に分離することにより、信号を定常・狭帯域成分と非定常・広帯域成分に分離する調波打楽器音分離(Harmonic/Percussive
Sound Separation:以下「HPSS」という)を用いた音響信号処理手法を研究・開発してきた[特許文献1、非特許文献1〜5]。
【0003】
HPSSは、音楽音響信号の時間周波数スペクトログラム上において、調波成分は時間方向に滑らか、打楽器成分は周波数方向に滑らかであるという時間周波数スペクトログラム上の性質の違いを用いることにより、これらを分離する。具体的には、与えられた時間周波数スペクトログラムを、時間方向に滑らかな成分と周波数方向に滑らかな成分に分解する時間周波数マスクを設計し、音楽音響信号の時間周波数スペクトログラムに対して時間周波数マスキングを行って、調波成分・打楽器成分を分離する。
【0004】
マスクの設計方法として、1)2次元フィルタを用いる手法、2)Divergenceと滑らかさコストをEMアルゴリズム的手法で最小化する手法、3)レベル圧縮したスペクトログラムに対し滑らかさコストをEMアルゴリズム的手法で最小化する手法、に係る実施形態が、特許文献1、非特許文献1−5に開示されており、詳細についてはこれらの文献を参照することができる。上記2)、3)は、各スペクトログラムに分配された各スペクトル成分の滑らかさ指標の関数を含む目的関数を設定し、前記目的関数を最適化するパラメータを推定することで時間周波数マスクを設計するものである。分配された各スペクトル成分の滑らかさ指標は、着目したスペクトル成分と、当該着目スペクトル成分の時間周波数平面上での近傍(典型的には、隣接するスペクトル成分)にある分配されたスペクトル成分とのエネルギーの差に基づいて決定される。
【0005】
さらに、本願の発明者等は、時間領域における音声の波形を時間周波数領域に変換した時に、時間周波数平面上(スペクトログラム)における音声成分の形状が、時間周波数分解能によって異なることに着目することで、2種類のフレーム長のSTFT上においてHPSSを2段階に用いることによって、歌声やメロディにほぼ相当する成分を強調/抑圧する手法も提案している[特許文献2、非特許文献6]。
【0006】
2段階HPSSは、図2に示すように、音声信号を短時間フーリエ変換する時に、フレーム長を変化させることで、時間周波数平面上(スペクトログラム)上での音声成分の形状が変化することを用いる。より具体的には、STFT(短時間フーリエ変換)のフレーム長(分析窓長)が長い場合には、スペクトログラムにおいて、音声成分は打楽器音成分に近い形状を示し、STFTのフレーム長(分析窓長)が短い場合には、スペクトログラムにおいて、音声成分は調波音成分に近い形状を示す。すなわち、音声成分は、時間周波数分解能の違いによって、時間周波数平面上での滑らかさの方向性が変化する。これに対して、音声成分以外の成分(打楽器音、調波音、雑音)のスペクトル形状は、音声成分に比べて時間周波数分解能の違いの影響を受けにくい。打楽器音、調波音は、それぞれ、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えており、時間周波数分解能がある程度変化しても、スペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、これらのスペクトル成分を検出することができる。
【0007】
音声のようなゆらぎのある信号を捉える方法の一つとして、音声をAM波やFM波として捉え、その変調をスペクトル解析する変調スペクトルと呼ばれる手法も提案されている。変調スペクトルは、K個の狭帯域な搬送波ck(t)と包絡mk(t)の積和で表現してなる信号x(t)をスペクトル解析する手法である[非特許文献7]。また、変調スペクトルと音声認識に関連したいくつかの手法が提案されており、relative spectra(RASTA)[非特許文献8]や、mel-cepstrum modulation spectrum(MCMS)[非特許文献9]などを挙げることができる。
【0008】
これに対して、本発明者等は、音声などのゆらぎのある信号を捉えるために、特許文献2、非特許文献6と同様に、信号をフレーム分析する際のフレーム長に着目し、さらに、これを拡張する。あるフレーム長ではほとんど定常的であると見なせる信号も、それより長いフレーム長では定常的とは見なしえないというケースが少なくない。そこで、両者の境界のフレーム長である「変動長」という新規な概念を導入し、変動長の違いに基づいて信号を分析することを考えた。
【0009】
これまでに、数多くの音響信号の処理方法が提案されているが、いずれも万能ではないことは言うまでもない。例えば、音声と音楽のモノラル信号の分離を考えると、長時間スペクトルでは、いずれの成分も広帯域に分布し、同じ帯域で重なり合うため(図26参照)、BPFなどの単純な線形フィルタで分離することはできない。様々な時変な成分が混合する音響信号において、これらの各成分の変動の大きさには、しばしば重要な意味がある。信号の各成分を変動の大きさごとに分離・分析・加工する技術は有用であると考えられる。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2009−210888
【特許文献2】特開2010−210758
【非特許文献】
【0011】
【非特許文献1】N. Ono, K. Miyamoto, H. Kameoka, S. Sagayama “A Real-time Equalizerof Harmonic and Percussive Components in Music Signals,” Proc. of ISMIR,pp.139-144, 2008.
【非特許文献2】N. Ono, K. Miyamoto, J. Le Roux, H. Kameoka, S. Sagayama,“Separation of a Monaural Audio Signal into Harmonic/Percussive Components byComplementary Diffusion on Spectrogram,” Proc. of EUSIPCO, 2008.
【非特許文献3】宮本賢一,亀岡弘和,小野順貴,嵯峨山茂樹,“スペクトログラムの滑らかさの異方性に基づいた調波音・打楽器音の分離,” 日本音響学会春季研究発表会講演集, pp.903-904, 2008.
【非特許文献4】宮本賢一,立薗真理,ルルージョナトン,亀岡弘和,小野順貴,嵯峨山茂樹,“スペクトログラム2次元フィルタによる調波音・打楽器音の分離,” 日本音響学会秋季研究発表会講演集, pp.825-826, 2007.
【非特許文献5】N. Ono, K. Miyamoto, H. Kameoka, J. Le Roux, Y.Uchiyama, E.Tsunoo,T. Nishimoto, and S. Sagayama,“Harmonic and Percussive Sound Separation and itsApplication to MIR-related Tasks,” Advances in Music Information Retrieval,ser. Studies in Computational Intelligence, Z. W. Ras and A. Wieczorkowska,Eds. Springer, 274, pp.213-236, Feb., 2010.
【非特許文献6】H. Tachibana, T. Ono, N. Ono, S. Sagayama, “Melody LineEstimation inHomophonic Music Audio Signals Based onTemporal-Variability of Melodic Source,”in Proceedings ofICASSP 2010, pp.425-428, Mar., 2010.
【非特許文献7】N. Kanedera, T. Arai, H. Hermansky, and M. Pavel, “On the RelativeImportance of Various Components of the Modulation Spectrum for AutomaticSpeech Recognition,” Speech Communication 28, pp. 43‐55,1999.
【非特許文献8】H.Hermansky, and N. Morgan, “RASTA Processing of Speech,” IEEE Trans. on Speech& Audio Processing, Vol. 2, No. 4, pp. 578‐589, 1994.
【非特許文献9】V. Tyagi, I. McCowan, H. Misra, and H. Bourlard, “Melcepstrum ModulationSpectrum (MCMS) Features for Robust ASR,” Proceedings of IEEE ASRU, pp.399-404,2003.
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明は、従来技術とは全く異なる新しい着想に立脚するものであり、調波打楽器音分離に用いられるHPSS分析を多重的に用いることで音響信号の変動に係るパラメータを特徴として取得し、また、当該特徴を用いた音響信号の処理方法を提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明が採用した技術手段は、
音響信号をn種の異なるフレーム長を用いて時間周波数領域へ変換することで得られたn個の音響信号のスペクトログラムを用意するステップと、
各スペクトログラム上でHPSS分析を適用することでn個のH成分分離信号セットあるいはn個のP成分分離信号セットを取得するステップと、
前記取得した分離信号セットにおける分離信号間の差分信号を当該音響信号の特徴として取得するステップと、
を備えた音響信号の特徴抽出方法、である。
ここで、前記HPSS分析は、音響信号の所定のフレーム長での時間周波数分解能のスペクトログラムにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分をH成分信号、周波数方向に滑らかなスペクトル成分をP成分信号として分離するものである。
1つの態様では、前記特徴取得ステップは、選択した分離信号セットにおけるn個の分離信号をフレーム長の長さ順に差分を計算し、n−1個の差分情報を特徴量としてフレーム長(フレーム長の対数kやフレーム長を表す点数)と対応付けて取得するものである。
【0014】
HPSS分析は、音響信号の所定のフレーム長での時間周波数分解能のスペクトログラムにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分をH成分信号、周波数方向に滑らかなスペクトル成分をP成分信号として分離するものである。音響信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和、すなわち、時間周波数平面上で時間方向(横方向)に滑らかなH成分信号と、周波数方向(縦方向)に滑らかなP成分信号であると仮定し、各サブスペクトログラムの滑らかさの時間周波数平面上での方向(時間軸方向、周波数軸方向)に基づいて、時間周波数領域における音響信号のスペクトル成分を、H成分信号とP成分信号に分離する。
【0015】
HPSSは本発明の背景技術であると同時に、本発明の構成要素でもあるので、HPSSについてさらに説明する。調波音と打楽器音の混在した音楽信号を分析対象とし、入力信号の短時間周波数解析によって得られるスペクトログラムをW(x,t)とする(x:周波数、t:時刻)。HPSS分析は、W(x,t)を打楽器的な音程を持たない非調波成分P(x,t)と音程を持つ楽器のような調波成分H(x,t)の2つのスペクトログラムに分解することである。このとき満たすべき要件は、任意の時間周波数(x,t)において、

が成り立つことである。
【0016】
入力信号のスペクトログラムを、時間周波数マスクによって2つのスペクトログラムに分解する。任意の時間周波数において0〜1の値をとる時間周波数マスクm(x,t),m(x,t)を設計することで、

とW(x,t)を分解する。
【0017】
時間周波数マスクは、分解された2つのスペクトログラムの夫々を形成するスペクトル成分の滑らかな方向を検出するように設計される。打楽器成分のスペクトル成分が周波数方向に滑らかであるという特徴、及び、調波成分のスペクトル成分が時間方向に滑らかであるという特徴を用いて、入力信号のスペクトログラムをそれぞれのスペクトル成分に分離する時間周波数マスクが設計される。0〜1の値を取る時間周波数マスクは、一つの態様では、0か1の値を取るバイナリマスクである。
【0018】
1つの態様では、HPSSでは、各スペクトログラムに分配された各スペクトル成分の滑らかさ指標の関数を含む目的関数を設定し、前記目的関数を最適化するパラメータを推定することで時間周波数マスクを設計する。分配された各スペクトル成分の滑らかさ指標は、着目したスペクトル成分と、当該着目スペクトル成分の時間周波数平面上での近傍にある分配されたスペクトル成分とのエネルギーの差に基づいて決定される。着目スペクトル成分の近傍のスペクトル成分は、典型的には、時間周波数平面上で隣接するスペクトル成分であるが、近傍の範囲はこれに限定されるものではない。時間周波数マスクの設定は、滑らかさのコストをスペクトログラムの差分の関数で設計し、これを最小化する最適化問題として捉えることができる。目的関数では、H+PとWの隔たりを測る距離指標として、ユークリッド距離(l2−norm)、カルバック・ライブラー・ダイバージェンス、I-divergence、板倉斎藤距離などを用いることができる。これらの距離指標は当業者によく知られている。目的関数におけるパラメータを推定するアルゴリズムとしては、一つの態様ではEMアルゴリズムであるが、最急降下法やニュートン法等の他の最適化アルゴリズムを用いてもよい。また、EMアルゴリズム等を解くにあたって、補助変数を導入してもよい。補助変数法については、例えば、下記の文献を参照することができる。
H. Kameoka,
N. Ono, and S. Sagayama, “Auxiliary functional approach to parameter estimation
of constrained sinusoidal model for monaural speech separation,” Proc. ICASSP,
pp. 29.32, 2008.
【0019】
HPSS分析において、スペクトログラムにおいて周波数軸方向あるいは時間軸方向の方向性を備えたスペクトル成分を抽出する手段は、目的関数を用いた最適化問題に限定されるものではなく、非特許文献4に開示されているようなフィルタを用いるものでもよい。
【0020】
ここで、音響信号を時間周波数領域に変換してスペクトログラムを取得する際に、フレーム長によって異なるスペクトログラムが得られることが当業者に理解される。短時間フーリエ変換などの時間周波数表現における、分析フレーム長さ(時間周波数分解能)を変化させることにより、音声成分のスペクトログラム上での現れ方を、様々に変化させることができる。特許文献2には、異なるフレーム長(0.008秒、0.016秒、0.032秒、0.064秒、0.128秒、0.256秒)で短時間フーリエ変換してなるスペクトログラムが示してある。音響信号を短時間フーリエ変換(STFT)してスペクトログラムを取得する際に、通常ではフレーム長は固定(音声の場合は例えば30[ms]程度)しているが、フレーム長を変えると、フレーム長に応じた異なるスペクトログラムが得られる。音声信号は、短時間フーリエ変換のフレーム長を変化させることで、時間周波数平面において異なる性質を示す(図2参照)。したがって、音声のようにゆらぎのある成分が、「縦」となるか「横」となるかはフレーム長依存であり、HPSSにおける「縦」と「横」は、時間周波数領域に変換する時のフレーム長で決まる。
【0021】
本発明は、様々なフレーム長のSTFTにおいて、各時間変動成分のスペクトログラムの方向性(縦/横)が異なる点に着目し、様々な音が混合する音響信号のn種のフレーム長の時間周波数分解能のn個のスペクトログラムのそれぞれについてHPSS分析を適用することで、時間周波数平面上で周波数方向に滑らかなスペクトル成分、時間方向に滑らかなスペクトル成分を分離する。上述のように、音声はごく短時間では定常的な信号と見なせる一方で、長時間では非定常的な信号である。本発明では、ある信号が定常的と見なせる場合と見なせない場合の境界となる時間をその信号の「変動長」と呼び、信号の各成分の変動長に着目することで、信号中の音声を強調する手法を提案する。
【0022】
n種のフレーム長l0×2k(1≦k≦n)を用いたSTFTによりスペクトログラムがn個得られる。それぞれのスペクトログラム上でHPSSを適用することにより縦成分と横成分がn個ずつ、計2n個得られる。例えば、7つの異なるフレーム長、n1=0.008[s],n2=0.016[s],n3=0.032[s],n4=0.064[s],n5=0.128[s],n6=0.256[s],n7=0.512[s]とすると、それぞれのフレーム長でHPSS分析した結果、以下の7個のH成分(横成分)信号hn(t)のセット、7個のP成分(縦成分)信号pn(t)のセット、合計14個の成分、
フレーム長n1=0.008[s]について、h0.008(t),p0.008(t)、
フレーム長n2=0.016[s]について、h0.016(t),p0.016(t)、
フレーム長n3=0.032[s]について、h0.032(t),p0.032(t)、
フレーム長n4=0.064[s]について、h0.064(t),p0.064(t)、
フレーム長n5=0.128[s]について、h0.128(t),p0.128(t)、
フレーム長n6=0.256[s]について、h0.256(t),p0.256(t)、
フレーム長n7=0.512[s]について、h0.512(t),p0.512(t)、が得られる。
【0023】
HPSS分析において、H成分(横成分)はP成分(縦成分)に従属するので、縦成分あるいは横成分のいずれか一方のみを用いることで音響信号の特徴量を抽出することができる。ここでは、P成分のセットを選択する。そして、異なるフレーム長のP成分の差分

を取得する。この差分には、より短いフレーム長(short)以下ではP的ではなく(すなわちH的であり)、より長いフレーム長(long)で初めてP的となるような成分が含まれることになる。したがって、差分によって、ある信号が定常的と見なせる場合と見なせない場合の境界となるフレーム長(変動長)が短いフレーム長(short)と長いフレーム長(long)の間にあるような成分を取得することができる。各分離信号同士の減算により、各スケールの変動長成分が抽出可能である(図4、図5参照)。
【0024】
kを入力信号s(t)のl0×2k(1≦k≦n)のフレーム長(l0は当業者によって適宜設定される値)でのスペクトログラムとし、各スペクトログラム上においてHPSSを実行すると、n個のP成分{pk(t)}1≦k≦nが得られる。これらの成分を用いると、変動長成分(差分情報)

は、

と定義することができ、また、分離されたn+1個の信号の和は原信号に一致、すなわち、

である。
【0025】
変動長の指標k(フレーム長の対数)は、時間(フレームのインデックス)、周波数とは独立したパラメータである。このため、信号のSTFTを時間周波数(τ−ω)領域にプロットすることで信号を分析することと同じ要領で、信号をτ−k領域やk−ω領域にプロットした表現を考えることができ、τ−k領域上ではxk(t)成分(差分情報)がどの時刻τに強く現れているか、k−ω領域上ではxk(t)成分(差分情報)がどの周波数ωに強く現れているかを分析することができる。またこれらの領域上では、τ−ω領域上での信号処理手法と同様の、例えばバンドパスフィルタや時間周波数マスキングと類似した方法により、信号を分析・加工(分離、判別、識別、強調、抑圧等)することが可能である。よって、τ−k領域、k−ω領域は、信号分析・加工するための新しい領域として用いることができる。
【0026】
各変動長成分(差分情報)s(t)のパワーである

を「変動長スペクトル」と定義する。変動長スペクトルは、音響信号の特徴量として用いることができる。変動長スペクトルは、通常のスペクトル表現と同様の要領で信号の分析・分離に利用することができる。より具体的には、変動長スペクトル領域上では、通常の周波数領域上での信号処理手法と同様に、例えばバンドパスフィルタと類似した方法により、信号に含まれる特定の変動成分のみを強調するように信号を加工するような処理ができる。
【0027】
変動長スペクトルについての線形フィルタリングは、差分情報とフィルタa(a=[a1…an+1T)の積で表すことができる。

このフィルタリングは周波数領域上のフィルタと類似に扱うことができ、例えば、ある特定のkに対応する成分を強調するようなローパスフィルタを設計することができる。また、信号s(t)=α(t)+β(t)、ソースA(k)、B(k)の変動長スペクトルが与えられている時に、以下のようなWiener型フィルタを設計することができる。

【0028】
1つの態様では、本発明は、上述の方法により取得された特徴量を用いて、複数の音が混合された音響信号を処理する方法である。
【0029】
本発明は、スペクトログラムにおけるスペクトル成分の滑らかな方向の違いに着目した点に特徴を有するものであるが、特徴量や分離信号を得る処理ステップにおいて、スペクトログラムや処理結果等を実際に画面に表示することを要しない。本発明においては、分析対象となる音響信号が時間周波数領域に変換され、スペクトル成分が得られていればよい。時間周波数領域への変換手段は、典型的な例では、短時間フーリエ変換(STFT)であるが、ウェーブレット変換、定Qフィルタバンク分析、その他のフィルタバンク分析でもよい。また、処理時には、必要に応じて、波形領域と周波数領域との間で適宜変換が行なわれ得ることも当業者に理解される。実際のスペクトログラムの計算では、短時間周波数分析によって離散的な時間と周波数ごとに成分が得られる。したがって、1つの態様では、スペクトログラムにおける各スペクトル成分(時間周波数成分)は、時間bin(フレーム)と周波数binにより特定される時間周波数binである。本発明において、スペクトログラムは、STFTの各binの絶対値の2乗したもの(|STFT|2)という狭義に限定して解釈されるものではなく、処理時に、その対数や冪乗などを用いても良いことが当業者に理解される。フレーム長を異ならしめて行なうHPSSにおいて、フレーム長、すなわち時間周波数分解能は、窓関数の長さ(分析窓長)によって選択できることは当業者に周知である。また、窓関数としても、ハニング窓、ハミング窓、その他の窓関数が当業者に知られている。
【0030】
本発明のハードウェア構成は、大きく分けて、HPSS分析部と、特徴量取得部と、分析部と、からなり、これらは、パーソナルコンピュータ等のコンピュータ(具体的には、入力装置、表示装置を含む出力装置、CPU、記憶装置(ROM、RAM等)、これらを接続するバス等、を備えている。)から構成することができる。
【発明の効果】
【0031】
本発明はHPSSを複数のフレーム長での分析により得られたスペクトログラムに対し適用することにより、任意の信号を、定常・狭帯域成分から非定常・広帯域成分に段階的に分離する。本発明により、変動の大きさと概ね対応するパラメータを持った分離信号を得ることができ、そのパラメータを用いることにより周波数表現や時間周波数表現などとは異なる新しい信号の表現(例えば、周波数−変動長表現、時間−変動長等の2次元表現)が可能となり、その領域上で従来の周波数領域や時間周波数領域での処理と同様の要領で信号の分析・加工ができる。
【0032】
本発明は、例えば非特許文献7開示された変調スペクトルと比較して、信号を包絡m(t)と狭帯域な搬送波c(t)の積和で表現するというモデルを必要とせず、また、本発明はスペクトログラム上でのフーリエ解析を行わないため、そのことに伴って生じうる問題のいくつかを回避することができる。さらに、本発明は変調スペクトル等の従来手法とは異なる着眼点に基づいているため、相互に補完しながら、従来手法と組み合わせて音響信号を分析することができる。
【図面の簡単な説明】
【0033】
【図1】HPSS分析の概要を示す図である。
【図2】フレーム長とSTFTスペクログラムの関係を示す。時間変動のある音(例えば、ピッチにゆらぎのある音)が、横(定常・狭帯域成分)と縦(非定常・広帯域成分)のどちらとなるかはスペクトログラムのフレーム長に依存する。
【図3】HPSSの処理の手順を示す。HPSSでは信号s(t)をフレーム長lkでSTFTして得られる振幅スペクトログラムS上で、スペクトログラムをH、Pに分離し、逆STFTすることにより、定常・狭帯域的成分h(t)と非定常・広帯域的成分p(t)とを分離する。
【図4】n種の異なるフレーム長により得られたn種の異なるスペクトログラム上におけるHPSSの適用によって、s(t)はn通りに分離され、2n個の成分{hk(t),Pk(t)}1≦k≦nが得られる。このうち、n−1個は残りのn+1に従属である。これらn+1個の信号を線形変換することにより{xk(t)}1≦k≦n+1が得られる。このときこれらの和は原信号s(t)に一致する。図4において、例えばx3(t)は、変動長がl2〜l3程度の成分である。
【図5】HPSSに基づく変動長スペクトルを説明する図である。各変動長成分x1(t),x2(t),x3(t),…を示す横長の方形において、各方形の近接する角はHPSSによる分離の境界を示す。例えばx3(t)は、256点〜512点程度のスケールで変動していると考えられる成分である。
【図6】左図は、男性10話者分の音声を分析した変動長スペクトルを示す。右図は、女性10話者分の音声を分析した変動長スペクトルを示す。
【図7】左図は、クラシック音楽(ピアノ曲)10曲、各10秒を分析した際のそれぞれの変動長スペクトルを示す。右図は、クラシック音楽(管弦楽曲)10曲、各10秒を分析した際のそれぞれの変動長スペクトルを示す。
【図8】左図は、ポピュラー音楽10曲、各10秒を分析した際のそれぞれの変動長スペクトルを示す。右図は、ジャズ10曲、各10秒を分析した際のそれぞれの変動長スペクトルを示す。
【図9】混合信号の変動長スペクトルを示す。
【図10】上図は、音声信号と音楽信号の混合信号のスペクトログラムを示す。中央図は、変動長スペクトル領域上でのフィルタリングにより得られた推定された音声信号v^(t)のスペクトログラムを示し、信号中の音声信号のSNRは6.03dBである。下図は、変動長スペクトル領域上でのフィルタリングにより得られた推定された音楽信号m^(t)のスペクトログラムを示し、信号中の音楽信号のSNRは6.30dBである。
【図11】音声信号(日本語女性朗読音声)のスペクトログラムと時間−変動表現を示す。
【図12】音楽信号(弦楽四重奏)のスペクトログラムと時間−変動表現を示す。
【図13】音声と音楽の混合信号のスペクトログラムと時間−変動表現を示す。
【図14】適当な方法により設計した時間−変動マスクを示す。
【図15】時間−変動領域上でのマスキングにより得られた新しい時間−変動表現を示す。
【図16】時間−変動領域上でのマスキングにより得られた新しい時間−変動表現を用いて合成された信号のスペクトログラムを示す。
【図17】音声の周波数−変動長表現を示す図である。左から、女声、女声、男声、男声を示す。
【図18】雑音(音声以外の信号)の周波数−変動長表現を示す図である。左から、掃除機、琴、ヘアドライヤ、商店街を示す。
【図19】混合信号の周波数−変動長表現の一例であり、女性音声と琴の混合信号を示す。
【図20】Wiener型フィルタによって得られた音声信号のSNRのヒストグラムを示す。
【図21】59個の学習データより得た周波数−変動長フィルタを示す。
【図22】提案手法による音声強調により得られた信号のSNRのヒストグラムを示す。
【図23】Wiener型フィルタにより強調した音声のSNRと、学習したフィルタにより強調した音声のSNRの相関性を示す。
【図24】上図は原信号のスペクトログラム、中図は混合信号のスペクトログラム、下図は周波数−変動長フィルタにより抽出された信号のスペクトログラムを示す。
【図25】左図は、朗読音声の変動長スペクトル、右図は、歌声の変動長スペクトルを示す。それぞれ100サンプルを重ねてプロットした。プロットの中央付近の太線は平均、平均の上下の太線は標準偏差を示している。
【図26】音声と音楽(ピアノ)のスペクトルを示す図であり、いずれも広帯域に分布し、同じ帯域で重なり合うことが示される。
【発明を実施するための形態】
【0034】
[A]複数スペクトログラムに基づく信号の変動長スペクトル表現とそれに基づく信号の分析・分離手法
[A−1]概要
本手法ではHPSSを複数のフレーム長での分析により得られたスペクトログラムに対し適用することにより、任意の信号を、定常・狭帯域成分から非定常・広帯域成分に段階的に分離する。本手法により、時間領域、周波数領域とも異なる新たな信号分解表現が得られ、音楽信号と音声信号を分離するような処理が可能になることを示す。
【0035】
本実施形態では、信号を変動ごとに分離する手法の新しい枠組みとして、分離性能がスペクトログラムの分解能に依存する信号分離手法を様々な分解能のスペクトログラム上で適用することにより、信号の変動に関するある種のフィルタバンクを構成することを考える。このとき、定常・狭帯域成分と非定常・広帯域成分とを分離する手法であるHPSSにおいて、定常・狭帯域性と非定常・広帯域性は相対的なものであり、基準とする尺度によって同じ音が定常・狭帯域とも非定常・広帯域とも見なされうることに着目し、様々な方法で分離した際の信号を適当に組み合わせることにより、信号の時間変動の大きさに概ね基づく分離について検討する。
【0036】
本実施形態ではHPSSを2段階で適用する枠組みをさらに拡張し、さらに多くの条件でのHPSSによって信号をより細かく分解する方法を提案する。また、これにより変動の大きさと概ね対応するパラメータを持った分離信号が得ること、およびそのパラメータを用いることによって、周波数表現や時間周波数表現などとは異なる新しい信号の表現が可能となることを示す。また、その信号表現を用いることにより、従来の周波数領域や時間周波数領域での処理と同様の要領で、従来とは異なった信号の分析・分離ができることを示す。
【0037】
[A−2]調波打楽器音分離(HPSS)の概要
調波打楽器音分離(HPSS)では、信号s(t)を定常的・狭帯域的な成分h(t)と、非定常的・広帯域的な成分p(t)との和、すなわち

として表わすことを考える。HPSSでは、h(t)とp(t)の短時間フーリエ変換(STFT)スペクトログラム表現H={Ht,ω1≦t<T,1≦ω<Ω、P={Pt,ω1≦t<T,1≦ω<Ωの振幅の時間方向および周波数方向への「滑らかさ」に着目し、それに基づいてh(t)の定常・狭帯域性とp(t)の非定常・広帯域性を評価し、それを最適化することによって両者を分離する。
【0038】
具体的には、与えられたスペクトログラムをSとしたとき、次のような目的関数

を最小化することによりH、Pを求める。ただし、

とする。ここで、目的関数の第1項はスペクトログラムHの時間方向への滑らかさに関するコスト関数となっている。同様に第2項はスペクトログラムPの周波数方向への滑らかさに関するコスト関数となっている。また、第3項はスペクトログラムSとH+Pの隔たりに関するコスト関数であり、I−ダイバージェンスにより評価される。
【0039】
HPSSでは、目的関数(式2)をEMアルゴリズムに類似した技法により導かれる更新式を反復することにより最小化し、スペクトログラムSを定常・狭帯域なHと非定常・広帯域なPに分離し、これにより得られた振幅スペクトログラムを用いたウィーナーマスキングにより、複素スペクトログラムH、Pを以下のように推定する。

また、これらを逆短時間フーリエ変換することにより、h(t)、p(t)を得ることができる(図3)。
【0040】
[A−3]変動長スペクトルと時間−変動表現
[A−3−1]複数のSTFT上でのHPSSに基づく信号分離
HPSSでは、スペクトログラム上の隣接binとの差分情報を用いることにより信号を分離しているが、STFTにおいては様々なフレームの取り方が可能であり、そのそれぞれによってHPSSの分離結果は異なったものになる。特に重要な要素のひとつが、STFTにおけるフレーム長であり、HPSSの分離結果はSTFTのフレーム長に依存する。例えば歌声のようにピッチがあり、かつゆらぎのある音は、十分短いフレームで観測すれば定常・狭帯域的であるが、十分長いフレームで観測すれば非定常的であり、また変調の効果によりスペクトログラムは広帯域となる。すなわち、歌声信号は短いフレーム長のSTFT領域上ではh(t)へ、長いフレーム長のSTFT領域上ではp(t)へ、それぞれ分離されやすい[非特許文献6]。
【0041】
一般に、信号s(t)に対して、異なったn通りのフレーム長l1<…..<lnのそれぞれのSTFT領域上でHPSSを適用することにより、n通りの異なった分離信号が得られ、信号の2n次元表現

が得られる。
【0042】
HPSSではpk(t)が決まれば同時にhk(t)も決まるから、このような2n次元の表現は冗長である。すなわち、{hk(t)}1≦k≦nは、全てs(t)と{pk(t)}1≦k≦nから求めることができるから、n+1次元の情報

で十分である。さらに、フレーム長lkのSTFT領域上でP的である成分は、それよりも長いフレーム長lk+1のSTFT領域上でもP的である可能性が高いと考えられることから、両者のP的成分同士の差分{pk+1(t)−pk(t)}がより本質的な情報であると考えられる。すなわち、p(t)を次のように変換することにより得られる差分情報x(t)がより本質的であると考えられる(図4参照)。

なお、このときx(t)の各成分の和は原信号s(t)に一致する。すなわち、

これにより、x(t)はs(t)を分解した表現になっている。
【0043】
このときx(t)の各成分{xk(t)}は、概ねlk程度のスケールで変動している成分であると考えることができる。これは、いま仮にフレーム長lm1のスケールにおいてP的な成分は全て、フレーム長lm2(>lm1)のスケールにおいてもP的であると仮定できるとすると、xm(t)=pm(t)−pm−1(t)より、xm(t)には、フレーム長lm−1以下ではP的ではなく(すなわちH的であり)、フレーム長lmで初めてP的となるような成分が抽出されていることになるためである。そこで以下では、x(t)の各成分の添え字変数をkで表記し、このkは変動を表す指標である。なお、kはフレーム長の対数に相当する。
【0044】
[A−3−2]信号の変動長スペクトル表現と時間−変動表現
以上によって得られるx(t)のうちどの成分が強く現れているかを調べることにより、信号の変動に関する特徴を調べることができる。その方法の一例として、各成分のパワー

が挙げられる。本実施形態ではこれを変動長スペクトルと呼ぶこととする。これは、通常のスペクトル表現

と同様の要領で信号の分析・分離に利用することができると考えられる。すなわち、変動長スペクトル領域上では、通常の周波数領域上での信号処理手法と同様に、例えばバンドパスフィルタと類似した方法により、信号に含まれる特定の変動成分のみを強調するように信号を加工するような処理ができる。
【0045】
他の例として、変動長スペクトルが時間情報を失っているという欠点を補うために、適当な窓関数w(t)により信号を時間局在化した変動長スペクトル表現

を考えることもできる。本実施形態ではこれを信号の時間−変動表現と呼ぶこととする。これは、短時間フーリエ変換による時間(t)−周波数(ω)表現

と同様の要領で信号を扱うことができると考えられる。これにより、時間−周波数領域上でどの時刻にどの周波数が強く現れているのかを分析できるのと同様に、時間−変動領域上ではどの時刻でどの変動成分が強く現れているかを分析することができる。
【0046】
[A−4]変動長スペクトルと時間-変動表現に基づく信号の分析・分離実験
[A−4−1]実験条件
前節にて示した信号の変動長スペクトル表現の、信号の分析・分析に用いる領域としての妥当性や、これらの音響特徴量としての妥当性を検証するため、実際の音響信号に対して本手法により変動長スペクトルと時間-変動表現を求め、信号を表示・分析・分離する実験を行った。
【0047】
実験には新聞記事読み上げ音声コーパス(JNAS)、RWC研究用音楽データベース、および建築と環境のサウンドライブラリ(SMILE2004)より数データを抜粋して使用した。いずれも簡単のためサンプリング周波数8kHzでリサンプリングし、両チャンネルを加算してモノラル信号として用いた。また、いずれの信号もフレーム長が長い場合のHPSSを行うにあたって十分な長さ(10秒程度)になるように、元データの長さが短い場合は適当な回数だけ繰り返すように編集した。
【0048】
STFTのフレーム長はlk=64×2k[samples](1≦k≦8)、すなわち128,…,16384[samples](16,….,2048[ms])とした。分散σ21、σ22はいずれも(0.3)2とした。また、HPSSのスライディング分析におけるブロック数は30とし、後処理として連続値マスキングを施した。これらはいずれも、フレーム長を除き通常のHPSS[非特許文献5]と同じ条件である。
【0049】
[A−4−2]変動長スペクトルとそれに基づく信号の分析・分離
[A−4−2−1]音声信号の変動長スペクトル
新聞記事読み上げ音声コーパス(JNAS)より抜粋した男声,女声それぞれ10話者の各1データずつに関して変動長スペクトルを求めた結果を図6に示す。男声、女声合わせた20話者のほとんどのデータにおいて、変動長スペクトルは、話者に関わらずk=3,4程度(すなわちフレーム長64[ms]、128[ms]程度)の成分に大部分のパワーが集中していること、k=5,6,7,8にはあまり強く現れないことなど、概ね同様な傾向を示していることが観察できる。
【0050】
[A−4−2−2]音楽信号の変動長スペクトル
RWC研究用音楽データベースよりポピュラー音楽、RWC-MDB-P-2001
No. 1‐No.10、クラシック音楽(管弦楽曲)RWC-MDB-C-2001
No. 1‐No.10、クラシック音楽(ピアノ曲)RWC-MDB-C-2001
No. 26‐No. 35、ジャズRWC-MDB-J-2001
No.1‐No.10を抜粋し、各曲冒頭10秒のそれぞれに関して変動長スペクトルを求めた結果を図7、8に示す。
【0051】
いずれのジャンルも、音声に比較すると比較的広いkにパワーが分散していることが観察できる。また、特にピアノ曲、管弦楽曲、ジャズに関しては、いずれの曲も、k=5,6,7程度にパワーが集中する傾向にあることが観察できる。
【0052】
[A−4−2−3]変動長スペクトル上での音声と音楽の分離実験
上述のように、音声と音楽では変動長スペクトルの形状が異なっている。このことを利用すると、k軸上でバンドパスフィルタに類似した処理を行うことにより、音声と音楽が分離できると考えられる。本節では、音楽信号を音声信号を混合した信号を変動長スペクトル領域上で分離する実験を行った例を示す。
【0053】
実験に用いたデータは、音声、音楽ともに建築と環境のサウンドライブラリ(SMILE2004)からの抜粋で、日本語女性朗読音声(s13104.wav)と弦楽四重奏(s12202.wav)である。本実験では両者を0dBで混合して用いた。混合信号の変動長スペクトルを図9、スペクトログラムを図10上図に示す。
【0054】
混合信号の変動長スペクトルにおいて、k=3,4におけるピークは混合信号に含まれる音声の性質に由来していると考えられる。一方、それ以外のkでは、全体にパワーが分散しながらもk=6を中心にパワーが集中しやすいという傾向が見られ、これは音楽の性質と考えられる。そこで、ローパスフィルタに類似した次のようなフィルタ

を考え、これをx(t)にかけることにより、音声^v(t)と音楽^m(t)を分離することができる。
【0055】
すなわち、

これにより得られたそれぞれの信号v^(t)、m^(t)のスペクトログラムを、それぞれ図10中央図、下図に示す。推定された音声信号v^(t),音楽信号m^(t)のいずれのスペクトログラムに関しても、それぞれ音楽、音声に相当する成分の大部分が抑圧されていることが観察できる。なお、このとき得られた信号のそれぞれにおいて、v^(t)中の音声信号のSNRは6.0dB、m^(t)中の音楽信号のSNRは6.3dBであった。
【0056】
[A−4−3]時間−変動表現とそれに基づく信号分析・分離
[A−4−3−1]音声と音楽の時間−変動表現に基づく信号分析
前節で使用したものと同じ音声、音楽信号、および両者の混合信号に関して時間-変動表現を求めた結果を図11、図12に示す。日本語女性朗読音声(図11)の時間-変動領域表現では、変動長スペクトル領域表現と同様に、概ねk=3,4,5に強い成分が現れやすいことが観察できる。一方、非定常的・広帯域的な成分がある時刻では、実際にk=1,2など小さなkに強い成分が現れていることが観察できる。弦楽四重奏(図12)の時間−変動領域表現では、変動長スペクトル領域表現と同様に、概ねk=5,6,7などの成分が強い一方、5-7[s]付近のように、高域にゆらぎがあるなど非定常性が強い時刻には、より小さなk=3,4にも強い成分が現れていることが観察できる。
【0057】
[A−4−3−2]音声と音楽の混合信号の時間−変動表現に基づく信号分離
両者の混合信号の時間-変動表現を図13に示す。ここで、図13から適当な成分のみを取り出すことにより、信号を分離することができると考えられる。今、適当な方法により図14のようなマスクが得られたとする。(なお本実施形態では、混合前の信号の時間-変動表現が既知のものとして、それを利用することによりマスクを設計した。)このマスクを用いて時間−変動表現上でマスキングを行った結果を図15に、さらにこの時間-変動表現に基づいて再合成された信号のスペクトログラムを図16に示す。図15、16を観察すると、信号が効果的に分離されていることが確認できる。なお、推定された音声信号中の真の音声信号のSNRは5.8dB推定された音楽信号中の真の音楽信号のSNRは5.9dBであった。
【0058】
[A−5]小括
本実施形態では、フレーム長の異なる複数のSTFT上で、定常的・狭帯域的成分と非定常的・広帯域的成分とを分離する手法HPSSを並列的に適用することにより、信号を概ね変動の大きさに対応して分離する、新しい信号の分離手法「変動長スペクトル」を提案した。また、ここで得られる分解信号を用いることで、周波数表現と同様の要領で信号を扱うことができる、新しい信号表現が得られることを示した。また、この信号表現を用いることにより音声信号と音楽信号を分析・分離した例を示した。
【0059】
本実施形態ではx(t)の全帯域に関するパワーを用いることで信号の変動軸表現を得たが、これは帯域ごとに分けて考えることも可能である。時間、周波数、および変動の3変数をパラメータとして持つ信号表現を用いた信号処理を行い得ることが当業者に理解される。また、本実施形態で述べた時間周波数マスキング以外にも様々なスペクトログラム領域上での信号処理手法があり、これらを時間−変動領域上での処理に応用することも可能であると考えられる。また、x(t)の各成分を特徴量として利用し、音声認識や音楽情報検索などの認識問題へ応用することも可能であると考えられる。
【0060】
[B]周波数−変動長フィルタによる音声強調
[B−1]概要
本実施形態では、音声信号の「変動長」に着目した音声強調手法、より具体的には、音声を各変動長成分に分解し、加工することにより、音声強調を行うことを検討する。変動長は本発明者らが提案している信号の新しいパラメータであり、ある信号をフレーム分析したとき、その信号が定常的・狭帯域と見なされる場合のフレーム長と非定常的・広帯域と見なされる場合のフレーム長の境界に相当するフレーム長である。音声はごく短時間では定常的な信号と見なせる一方で、長時間では非定常的な信号と見なされるため、いくつかの種類の雑音と比較したとき、特徴的な周波数−変動長の分布を示す。このため、信号の周波数−変動長分布に基づいた処理により音声強調が可能であると考えられる。
【0061】
本実施形態では、信号の周波数−変動長表現と、それに基づくフィルタリング、および音声強調用のフィルタの設計方法について述べる。信号を周波数−変動長の2次元平面上で表現した場合に、音声は話者に関わらずほぼ同様の形状を示すことに着目し、音声を通過するような単一のフィルタを設計し、音声強調を行った。音声は周波数-変動長領域上にて、話者や発話内容に関わらずほぼ同様の形状を示すため、音声を通過するような単一の音声強調用の汎用的なフィルタを構成し、それにより音声をある程度強調することができると考えた。本手法による音声強調の性能の評価を行った結果、0.0dBで混合された音声信号を3‐8dB程度に強調する性能を示した。これらの実験結果より本手法の音声強調への有効性が確認された。
【0062】
[B−2]多重HPSSによる信号分解
信号を変動長ごとに分離・表示する手法である変動長スペクトル、周波数−変動長表現、およびそれに関するいくつかの用語を定義する。
【0063】
[B−2−1]変動長
音声信号のように、あるフレーム長ではほとんど定常的であると見なせる信号も、それより長いフレーム長では定常的とは見なしえないことがある。両者の境界として、信号の「変動長」を以下のように定義する。
【0064】
[定義1](変動長)
信号をフレーム分析する際に、その信号が非定常的・広帯域な信号と見なされうるような最小のフレーム長lを、その信号の変動長と呼ぶ。例えば、打楽器音は瞬間的な信号であり、非常に短いフレーム長で分析してもほとんど非定常的であるため、打楽器は変動長が非常に短い信号である。逆に、長時間持続するような定常的な正弦波は、変動長が非常に長い信号である。これら両極端の信号の中間に位置すると考えられるのが音声などゆらぎがある信号である。これは、音声はごく短時間で見れば定常的と見なせる一方、長時間で見ると非定常的であるためである。すなわち、音声は変動長が中程度の信号である。
【0065】
[B−2−2]調波打楽器音分離(HPSS)
信号を各変動長成分ごとに分離するための準備として、ある変動長以上の成分とそれ以下の成分を大まかに分ける手法について説明する。
【0066】
変動長がある一定値より長い信号は、スペクトログラム上で時間方向に滑らかな形状を示し、一方、変動長がある一定値より短い信号は、スペクトログラム上で周波数方向に滑らかな形状を示すと考えられる。このことに着目すると、HPSSにより前者と後者が分離可能であると考えられる。HPSSは、信号のスペクトログラムが時間方向と周波数方向のいずれの方向により滑らかであるかに着目することで信号を分離する手法であり、信号s(t)が与えられたとき、ある長さlのフレームを用いてスペクトログラムSl(τ,ω)=STFTl[s(t)](τ,ω)を求め、そのスペクトログラムを時間方向に滑らかな成分Hl(τ,ω)と周波数方向に滑らかな成分Pl (τ,ω)に分離することによって、信号s(t)を

と分解する手法である。ただし、hl(t)=STFT-1l[H(τ,ω)]、pl(t)=STFT-1l[P](τ,ω)]とし、X(τ,ω)=STFTl[x(t)](τ,ω)は、フレーム長をl、フレームシフトをl/2、窓関数をサイン窓とした短時間フーリエ変換、x(t)=STFT-1l[H](τ,ω)](t)はその逆変換とする。
【0067】
HPSSでは概ね、変動長がl以上の成分はhl(t)に、l以下の成分はpl(t)に分離されると考えられる。これは、前者については、変動長がl以上の成分は、l程度のフレーム長では定常的・狭帯域な信号と見なされ、スペクトログラム上では時間方向に滑らかに表現されるためである。また後者も同様に、変動長がl以下の成分は、l程度のフレーム長では非定常的・広帯域な信号と見なされ、スペクトログラム上では周波数方向に滑らかに表現されるためである。
【0068】
[B−2−3]多重HPSS
HPSSのこのような性質を利用すると、複数のフレーム長l1、l2を利用することにより、

というように信号を3つ以上の成分に分解することができる。このときの中間的な成分β(t)=pl2(t)−pl1(t)は、変動長がl1からl2程度の間にある成分にほぼ相当していると考えられる。これを一般化すると、次のような信号の分解方法を考えることができる。
【0069】
[定義2](多重HPSS)
Slk(τ,ω)を入力信号s(t)をフレーム長{lk1≦k≦n,(l1<l2<….<ln)で分析して得たスペクトログラムとする。それぞれのスペクトログラム上にてHPSSを適用することにより得たn個の信号{plk(t)}1≦k≦nを用いて次のような新しいn+1個の信号を得る処理を多重HPSSと呼ぶ。

[命題1]多重HPSSにより得られた各信号sl(t)のlに関する総和は原信号s(t)に一致する。
【0070】
多重HPSSにより得られた各成分slk(t)は、それぞれ変動長が概ねlk−1からlk程度の間にある成分にほぼ相当していると考えられる。なお各フレーム長lkは、離散フーリエ変換の計算の効率の観点から、あまり大きな素数を因数に持たないような数であることが望ましい。この点を踏まえ、本実施形態ではフレーム長として、

で表現できる値を用いた。具体的には、64/8000[s]以上、8192/8000[s]以下で条件に該当する44のフレーム長を用いた。
【0071】
[B−3]多重HPSSによる信号分解に基づく信号表現
[B−3−1]変動長スペクトル
多重HPSSにより得られたslk(t)は変動長が概ねlk−1からlk程度までの成分であると考えられるため、slk(t)の各成分のパワーを比較することにより、原信号s(t)はどの変動長の成分が強い信号であるかを調べることができると考えられる。この点を踏まえ、変動長スペクトルを次のように定義する。
【0072】
[定義3](変動長スペクトル)多重HPSSにより得られた各成分sl(t)のパワー

を信号s(t)の変動長スペクトルと呼ぶ。
【0073】
[B−3−2]周波数-変動長表現
変動長スペクトルでは時間や周波数に関する情報が失われているが、特に音声に注目する場合、高次倍音においては低次倍音よりも変動長が短いと考えられることから、変動長に加えて周波数もパラメータとして含むように表現することが有効であると考えられる。そこで、周波数、変動長の2つをパラメータとするような信号表現として、周波数−変動長表現を次にように定義する。
【0074】
[定義4](周波数−変動長表現)
多重HPSSによって得られたsl(t)の各成分の短時間フーリエ変換のパワーの時間方向の総和

によって得られる二次元表現を、信号s(t)の周波数−変動長表現と呼ぶ。ただしl^は適当なフレーム長とする。
【0075】
周波数−変動長表現の例を図17、18に示す。図17は、異なる4話者の音声の周波数−変動長表現である。音声の場合、いずれもほぼ同様の形状を示していることが観察できる。一方、4種類の雑音の周波数-変動長表現を図18に示す。雑音の種類ごとに様々な形状を示しているが、いずれも音声とは異なった形状であることが観察できる。図17、18に見られるように、音声といくつかの種類の雑音の周波数−変動長表現の形状が明確に異なっていることから、周波数−変動長領域における処理により、両者の分離が可能であることを期待することができる。
【0076】
[B−4]周波数−変動長表現上のフィルタリング
図19は音声と雑音の混合信号x(t)の周波数−変動長表現X(ω,l)である。本節では、混合信号x(t)とその多重HPSSxl(t)および周波数−変動長表現X(ω,l)が与えられたとして、これらを用いて音声信号を再現すること、すなわち音声強調手法の検討を行う。
【0077】
[B−4−1]多重HPSSによる信号分解に基づいた信号の加工
周波数−変動長表現X(ω,l)の情報のみからは、一般には信号x(t)に逆変換することはできないが、多重HPSSにより得られた各信号xl(t)のlに関する総和は原信号s(t)に一致することから、各xl(t)に適切にフィルタをかけることにより、x(t)の特定の周波数−変動長成分を強調することができると考えることができる。このことを踏まえ、次のようなフィルタリング手法を定義する。
【0078】
[定義5](周波数−変動長領域上フィルタリング)
信号x(t)の多重HPSSxl(t)が与えられたとき、各変動長lごとにフィルタMl(ω)によりフィルタリングし

さらに変動長lに関する総和x´(t)=Σll(t)をとることにより新しい信号x´(t)を得ることを、周波数−変動長領域上フィルタリングと呼ぶ。また、このときMl(ω)を周波数−変動長フィルタと呼び、以降M(ω,l)と表記する。
【0079】
フィルタM(ω,l)は人手で与えることも可能であるが、本実施形態では最終的に単一の汎用的なフィルタを自動的に決定することの検討を行う。その準備として、まず周波数−変動長領域上でのWiener型フィルタを定義する。
【0080】
[B−4−2]Wiener型フィルタ
混合信号において、仮に目的信号と雑音の周波数−変動長表現が既知であったと仮定すると、次のようなWiener型フィルタを考えることができる。
【0081】
[定義6](周波数−変動長領域上におけるWiener型フィルタ)
目的信号と雑音の周波数−変動長表現をそれぞれS(ω,l),N(ω,l)としたときに、以下によって得られるM(ω,l)を、周波数−変動長領域上のWiener型フィルタと呼ぶ。

【0082】
Wiener型フィルタに得られた信号のSNRのヒストグラムを図20に示す。これらは、0.0dBで混合された60個の信号に関する実験結果であり、音声と雑音の周波数−変動長表現が既知であると仮定してWiener型フィルタを設計している。なお、実験に用いたデータは[B−5−2]で示すものと同じである。いずれのデータに関しても、0.0dBよりも改善していることが観察できる。特に5‐10dB程度に強調されている場合が多く、一部に20dB程度の改善が見られる場合もある。以上のことから、Wiener型フィルタは目的信号と雑音の周波数−変動長表現が既知である条件下では、0.0dBの音声信号を概ね5‐10dB程度に強調することが可能であることが確認された。
【0083】
[B−4−3]単一フィルタによる音声強調の検討
[B−4−2]では、目的信号と雑音の周波数−変動長表現が既知であることを仮定していたが、実際には両者は未知である。このため、実際の問題においてはフィルタを適切に推定する必要がある。
【0084】
ここで、音声の周波数−変動長表現は話者に関わらずほぼ同様の形状を示していることに加え、雑音と音声の周波数−変動長表現はあまり重ならないことに着目する。同程度のSNRの信号であれば、個別の信号それぞれについてフィルタを設計することなく、単一のフィルタによってある程度の分離性能を期待することができると考えられる。そこで本実施形態では、あらかじめ複数の学習データに関して求めた複数のフィルタから単一の汎用的なフィルタを学習することを検討する。
【0085】
今、同程度のSNRのN個の信号xi(t)=si(t)+ni(t)が学習データとして与えられているとすると、それぞれに関するWiener型フィルタMi(ω,l)を得ることができる。これらN個のフィルタから、これらを代表する一つのフィルタMopt(ω,l)を求める。このとき、単一のフィルタによって代表させたことによって生じる誤差を最小二乗規準により評価し、全データiに関する誤差の総和を

で評価すると、これを最小にするようなMopt(ω,l)は、∂E/∂Mopt(ω,l)=0をMopt(ω,l)について解くことによって、以下のように得られる。

このようにして得られるMopt(ω,l)は、N個の学習データとの二乗誤差が最小であるようなフィルタである。本実施形態ではこの方法により求めたフィルタを用いる。
【0086】
[B−5]周波数−変動長フィルタによる音声強調実験
[B−5−1]実験条件
上述の周波数-変動長表現上でのフィルタリングが音声強調において有効であることを確認するため、雑音と音声の混合信号に対して本手法を適用し、その分離性能を評価する実験を行った。
【0087】
実験には音声と雑音を60データずつ用意し、両者を無作為に組み合わせて、0.0dBで混合した信号を使用した。これら60個の混合信号について、周波数-変動長領域上でのフィルタリングにより音声強調を行い、それによって得られた信号のSNRをLOOCVの枠組みにより評価した。すなわち、60個の混合信号のうち59個を学習データとし、これらを用いてフィルタを設計し、残りの1個のデータに関して音声強調の性能評価を行うことを、各データに関して繰り返した。なお、HPSSのパラメータは非特許文献1、5に記されている標準的なパラメータを用いている。また、l^=128/8000[s]とした。
【0088】
[B−5−2]実験に使用した音声と雑音
実験には用いたデータは以下の通りである。音声には、新聞記事読み上げ音声コーパス(JNAS)より、10[s]以上の長さのあるデータの中から男女30話者ずつを無作為に抜粋して使用した。雑音には、建築と環境のサウンドライブラリ(SMILE2004)より、楽音、交通音、機械音、生活音、都市音、自然音のそれぞれから、10[s]以上の長さのあるデータを、それぞれ10データずつ全60データを抜粋して使用した。いずれのデータもサンプリング周波数8kHzでリサンプリングし、両チャンネルを加算してモノラル信号とし、長さは10[s]に揃えて用いた。
【0089】
[B−5−3]実験結果
60個の混合信号に関して本手法を適用した結果得られたフィルタの例を図21に示す。このフィルタは、図18において音声成分が強く合われている成分を概ねカバーしていることを観察することができる。このフィルタによって得られた信号のSNRのヒストグラムを図22に示す。概ね3‐8dB程度に強調されている信号が多いことを観察することができる。
【0090】
学習したフィルタにより得られた信号のSNRと、目的信号と雑音の周波数-変動長表現を既知としたときのWiener型フィルタにより得られた信号のSNRとを比較したものが図23である。この図が示すように、両者の間には相関が見られる。すなわち、目的信号と雑音の周波数−変動長表現が既知の場合に高精度で分離することができる信号は、学習したフィルタでも高精度で分離することができることを示している。なお、両者の相関係数は0.76である。このことは、フィルタの学習のある程度の有効性を示していると考えられる。
【0091】
60個の信号から抜粋した一つの信号(女性音声と琴の混合信号)の、音声信号s(t)、混合信号x(t)、および推定された音声信号x´(t)のスペクトログラムをそれぞれ図24に示す。推定された音声信号のスペクトログラムにおいて、高周波成分がやや失われているものの、背景音楽の多くが抑圧されていることが観察できる。
【0092】
[B−6]小括
本実施形態では、信号の新しいパラメータとして変動長を定義し、音声の周波数-変動長領域上でのパワーの分布が雑音とは異なることに着目して、周波数-変動長の2次元表現上でのフィルタリングを行うことにより音声強調を行う手法の検討を行った。
【0093】
目的信号と雑音の周波数−変動長表現を既知と仮定して設計したWiener型フィルタによる音声強調の性能を評価した結果、0.0dBで混合された音声信号を5‐10dB程度に強調する性能を示した。また、話者や発話内容に関わらず、音声信号は周波数−変動長表現上で同様の形状を示すことを利用し、多量の音声信号からフィルタの学習を行った結果得られたフィルタは、理想的なWiener型フィルタよりも僅かに劣る程度の3‐8dB程度の分離性能を示した。これらの実験結果より本手法の音声強調への有効性が確認された。
【0094】
なお、本実施形態の手法で着目したのは信号の周波数と変動長のみであり、音声の調波構造等の情報は利用していない。これらを利用することにより音声強調性能の改善を行い得ることが当業者に理解される。
【0095】
[C]変動長スペクトル特徴量を用いた朗読音声と歌声の判別
[C−1]概要
ミュージカルや音楽番組の分析、音声対話システムのための基礎技術として、朗読音声と歌声の判別技術が重要である。しかし、これは従来多く研究されてきた音声と音楽の識別と比較すると困難な問題である。その理由として、音声と音楽の識別では、楽器音の様々な性質を利用できるのに対し、音声と歌声の識別では、両者がいずれも人の声であり、音声と楽器音の間ほど明確な違いが見出されにくいという点が挙げられる。本実施形態では、朗読音声/歌声判別の性能の向上を目的とし、音色や基本周波数(これらは従来の識別手法にしばしば用いられる)とは独立していると考えられる新しい特徴量「変動長スペクトル」を利用した識別手法を提案する。変動長スペクトルは信号の新しい表現方法であり、信号のパラメータとして新しく「変動長」を導入し、各変動長成分のパワーにより信号の特徴を表現する手法である。朗読音声と歌声では変動長スペクトルの形状が異なっていると考えられるため、変動長スペクトルは両者の判別の特徴量として有効であると考えられる。
【0096】
[C−2]変動長スペクトル
多重HPSSにより得られた各成分slk(t)は、それぞれ変動長が概ねlk−1からlk程度までの成分で占められていると考えられる。従って、各成分のパワーを比較することにより、原信号s(t)はどの変動長の成分が強いかを調べることができると考えられる。変動長スペクトルは、多重HPSSにより得られた各成分slk(t)のパワーを配列したベクトルS

と定義される
【0097】
信号の変動長スペクトルの例を図25に示す。図25は、サンプリング周波数8kHz、l0=64点、n=6の条件で、朗読音声および歌声の変動長スペクトルを求め、正規化してから、100サンプルずつ重ねてプロットしたものである。朗読音声と歌声の変動長スペクトルを比較すると、朗読音声の変動長スペクトルは、歌声の変動長スペクトルに比べて変動長128点(l1)成分が大きく、変動長8192点(l7)成分が小さい傾向にあり、変動長512点(l3)、1024点(l4)付近に強いパワーが現れやすいことが観察できる。一方、歌声の変動長スペクトルは、概ね朗読音声よりも長い変動長1024点(l4)、2048点(l5)付近に強いパワーが現れやすく、変動長128点(l1)成分が小さい傾向にあることが観察できる。図25に見られるように、朗読音声と歌声の変動長スペクトルの形状が明確に異なっていることから、簡単な識別器により両者を識別することが可能である。
【0098】
[C−3]朗読音声と歌声の判別実験
[C−3−1]実験条件
変動長スペクトルが朗読音声と歌声を識別する際の特徴量として有効であることを検証するため、多数の朗読音声と歌声データに関してそれぞれ変動長スペクトルを求め、それを特徴量として両者を識別する実験を行った。変動長スペクトルはサンプリング周波数8kHz、l0=64点、n=6の条件で求め、それを正規化し、対数値をとったものを使用した。識別器には、簡単な識別器である(1)マハラノビス距離に基づく判別分析、および、強力な識別器として知られる(2)AdaBoostのそれぞれを使用した。AdaBoostの弱識別器には、ある程度の識別能力を有し且つ計算コストが小さい識別器として、朗読音声と歌声の特徴量ベクトルの重心間の垂直二等分面を識別面とするような線形判別器を用いた。なお、本実験では比較対象として、12次MFCC+log energy +Δ+ΔΔの計39次元の時間平均を特徴量として使用した場合の性能、および変動長スペクトルとMFCCを組み合わせて使用した場合の性能も評価した。これらの条件で、10-foldの交差検定を行い、朗読音声/歌声判別の正解率を求めた。
【0099】
[C−3−2]実験データ
実験に用いた歌声と朗読音声データは以下に述べる通りである。歌声データには、RWCデータベースの楽器音データベースより歌声(RWC-MDB-I-2001No.45‐50)、市販の模範歌唱付きカラオケデータからスペクトル減算法により抽出された擬似的なアカペラ、およびMIR-1Kデータベースの歌声のトラックを使用した。これらには、クラシック音楽とポピュラー音楽の両方の歌唱法のデータが含まれており、少数だがラップも含まれている。それぞれのデータは2秒ずつに区切って使用した。また、音量が一定値に満たないデータは、無音区間が占める割合が長いデータであると見なし、実験には不適であるため自動的に除去した。これにより得られた歌声データは、全18715ファイル(10時間23分50秒)である。朗読音声データには、新聞記事読み上げ音声コーパス(JNAS)を使用した。朗読音声も歌声と同様に2秒ずつに区切り、実験に不適なデータを自動的に除去した。これにより得られた朗読音声データのファイル数は8万個強で、実験ではその中から歌声と同数の18715個のファイルを無作為に抽出して使用した。
【0100】
[C−3−3]実験結果・考察
実験により得られた歌声/朗読音声判別の正解率を表1に示す。特徴量に変動長スペクトルを用い、識別器にAdaBoostを用いた場合、朗読音声/歌声判別の正解率は86.7%であった。この値は、MFCCを特徴量とした場合の正解率78.9%と比較して大きな値であり、本特徴量の有効性を示していると考えられる。
【表1】

【0101】
また、マハラノビス距離に基づく判別分析の場合も85%程度の正解率が得られた。この結果は、変動長スペクトルの特徴量空間上において、朗読音声、および歌声がそれぞれ特定の領域に集中して分布していることを示唆していると考えられる。このため、他の特徴量を用いた判別手法に比較的容易に変動長スペクトル特徴量を組み合わせることが可能であること、また、この組み合わせにより性能が改善されることを期待することができると考えられる。実際に本実験においても、MFCCのみを特徴量とした場合のAdaBoostによる判別の正解率が78.9%であったのに対し、変動長スペクトルを組み合わせたことによって性能が10.0ポイント改善し、88.9%の正解率を示した。
[C−4]小括
【0102】
本実施形態では、音響信号の新しい特徴量である変動長スペクトルを朗読音声と歌声の判別に利用することの有効性の検討を行った。変動長スペクトルを特徴量、AdaBoostを識別器として、朗読音声と歌声を識別する実験を行った結果、87%程度の正解率を示した。これは、MFCCを特徴量として用いた場合の正解率を上回っている。また、MFCCと変動長スペクトルを併用した結果、MFCCのみを用いた場合と比較して性能の向上が見られ、89%程度の正解率を示した。これらの結果から、変動長スペクトルの、朗読音声と歌声の判別のための特徴量としての有効性が示された。本実験では朗読音声と歌声の二値判別問題を扱ったが、より現実的な環境においては、朗読音声と歌声以外にも楽器音や雑音などが現れうるため、多値判別が必要となり得ることが当業者に理解される。
【0103】
上記実施形態で述べた手法を以下にまとめる。
(1)音響信号が入力として与えられる。上記実施形態では、音声、歌声、雑音(音楽含)、雑音+音声、の4種類の音響信号を入力として想定している。
(2)入力された音響信号に対して、n種の異なるフレーム長を用いてn個のHPSSを適用することで、n個のH成分分離信号、または、n個のP成分分離信号を取得する。実施形態では、n個のP成分分離信号を取得している。両方の分離信号を取得して、一方の分離信号を選択してもよい。
(3)各分離信号の差分と両端の信号からn+1個の信号を取得する。n+1個の信号の和が原信号である音響信号と一致する。すなわち、原信号は、n+1個の信号に分離されたことになる。
【0104】
(4)n+1個の信号として得られた情報の「圧縮(例えば、時間方向や周波数方向に総和を取る処理)」を行うことによって「特徴量」を得る。特徴量として変動長スペクトル(段落0072、0096)、時間-変動長表現、周波数-変動長表現を示した。
(5)得られた特徴量を用いて音響信号を処理する。
(5-1)得られたn+1個の数値(変動長スペクトル)を音声と歌声の認識タスクへの特徴量として利用する([C]変動長スペクトル特徴量を用いた朗読音声と歌声の判別)。具体的な処理としては、既知の識別器を用いる。
(5-2)得られた時間-変動長表現や周波数-変動長表現での情報を、信号を再合成する際の手掛かりとして利用する([A]複数スペクトログラムに基づく信号の変動長スペクトル表現とそれに基づく信号の分析・分離手法、[B]周波数−変動長フィルタによる音声強調)
【0105】
(5-2-1)上記(5.2)で得られた手掛かりを、上記(3)で得られたn+1個の信号の総和を取るときの係数等の設計に利用する。ここでいう、「係数等」は、具体的にはベクトルaやフィルタM(ω,l)に相当する。
(5-2-2)そして実際に係数をかけて総和をとることにより信号の加工が達成され、音声強調や、音声と音楽の分離が実現する。
【0106】
ただし、上記(5.2)で得られた手掛かり無しでもaやM(ω,l)の設計は可能であり、何らかの方法でaやM(ω,l)が既に得られていれば、上記(3)から直接(5-2-1)にジャンプすることが可能である。例えば、最も初等的な方法としてはaやM(ω,l)を人手で与えてもよく、また、処理対象の信号とは別に用意した「学習データ」から自動的に生成してもよい。実施形態では、特にMopt(ω,l)の設計は学習データを用いている。学習データからMopt(ω,l)を得る際には上記(4)、(5-2)のステップを踏む必要があるが、一旦Mopt(ω,l)が得られてしまえば(3)から直接(5-2-1)に飛ぶことができる。段落0078の式がそれに相当しており、分離信号xl(t)とM(ω,l)のみから信号を加工している。
【産業上の利用可能性】
【0107】
本発明により取得される音響信号の特徴(より具体的な例では、変動長スペクトル、時間-変動長表現、周波数-変動長表現)は、音楽と音声の識別、音楽構造解析、音声認識における特徴量としての利用、音響信号における所定の成分の抑制あるいは強調、音声区間検出等の様々な信号分析に用いられ得るものである。

【特許請求の範囲】
【請求項1】
音響信号をn種の異なるフレーム長を用いて時間周波数領域へ変換することで得られたn個の音響信号のスペクトログラムを用意するステップと、
各スペクトログラム上でHPSS分析を適用することでn個のH成分分離信号セットあるいはn個のP成分分離信号セットを取得するステップと、
前記取得した分離信号セットにおける分離信号間の差分信号を当該音響信号の特徴として取得するステップと、
を備えた音響信号の特徴抽出方法。
ここで、前記HPSS分析は、音響信号の所定のフレーム長での時間周波数分解能のスペクトログラムにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分をH成分信号、周波数方向に滑らかなスペクトル成分をP成分信号として分離するものである。
【請求項2】
前記特徴取得ステップは、選択した分離信号セットにおけるn個の分離信号をフレーム長の長さ順に差分を計算し、n−1個の差分信号を特徴として取得するものである、請求項1に記載の音響信号における特徴抽出方法。
【請求項3】
選択した分離信号セットにおける最小フレーム長に対応する分離信号と、最大フレーム長に対応する分離信号と原信号である前記音響信号との差分信号、
あるいは、
選択した分離信号セットにおける最大フレーム長に対応する分離信号と、最小フレーム長に対応する分離信号と原信号である前記音響信号との差分信号、
を前記特徴に加えることでn+1個の特徴の和を当該音響信号と一致させてなる、請求項2に記載の音響信号における特徴抽出方法。
【請求項4】
前記特徴を、各信号の成分sl(t)のパワー

として表現する、請求項1〜3いずれか1項に記載の音響信号における特徴抽出方法。
【請求項5】
前記特徴を、τ−k領域(τ:時間、k:フレーム長に対応する指標)で二次元表現する、請求項1〜4いずれか1項に記載の音響信号における特徴抽出方法。
【請求項6】
前記特徴を、ω−k領域(ω:周波数、k:フレーム長に対応する指標)で二次元表現する、請求項1〜4いずれか1項に記載の音響信号における特徴抽出方
法。
【請求項7】
前記特徴の二次元表現は、各信号の成分sl(t)の短時間フーリエ変換のパワーの時間方向の総和として、

で取得される、請求項6に記載の音響信号における特徴抽出方法。
ここで、l^は適宜与えられるフレーム長である。
【請求項8】
音響信号をn種の異なるフレーム長を用いて時間周波数領域へ変換することで得られたn個の音響信号のスペクトログラムを用意するステップと、
各スペクトログラム上でHPSS分析を適用することでn個のH成分分離信号セットあるいはn個のP成分分離信号セットを取得するステップと、
前記取得した分離信号セットのn個の成分を用いて、前記音響信号を、
(a)n個の分離信号をフレーム長の長さ順に差分を計算して取得したn−1個の差分信号、
(b)選択した分離信号セットにおける最小フレーム長に対応する1つの成分信号、
(c)最大フレーム長に対応する成分信号と原信号である当該音響信号との1つの差分信号、
からなるn+1個の信号、
あるいは、
(a)n個の分離信号をフレーム長の長さ順に差分を計算して取得したn−1個の差分信号、
(b)選択した分離信号セットにおける最大フレーム長に対応する1つの成分信号、
(c)最小フレーム長に対応する成分信号と原信号である当該音響信号との1つの差分信号、
からなるn+1個の信号に分離するステップと、
を備えた音響信号の処理方法。
ここで、前記HPSS分析は、音響信号の所定のフレーム長での時間周波数分解能のスペクトログラムにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分をH成分信号、周波数方向に滑らかなスペクトル成分をP成分信号として分離するものであり、また、
前記n+1個の分離信号の和は、前記音響信号と一致する。
【請求項9】
請求項4〜7いずれか1項に記載の方法により取得された特徴、および/あるいは、請求項8に記載の方法により取得された分離信号を用いて、音響信号の処理方法。
【請求項10】
請求項8に記載の方法により取得された音響信号x(t)の分離信号xl(t)を、各フレーム長lごとにフィルタMl(ω)によりフィルタリングして、

を取得し、さらに、
フレーム長lについてx´l(x)の総和をとることで、信号x´(t)を取得する、
請求項8、9いずれかに記載の音響信号の処理方法。

【図3】
image rotate

【図4】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図23】
image rotate

【図26】
image rotate

【図1】
image rotate

【図2】
image rotate

【図5】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図24】
image rotate

【図25】
image rotate


【公開番号】特開2012−181475(P2012−181475A)
【公開日】平成24年9月20日(2012.9.20)
【国際特許分類】
【出願番号】特願2011−45895(P2011−45895)
【出願日】平成23年3月3日(2011.3.3)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 2010年9月14日〜16日 社団法人 日本音響学会主催の「2010年秋季研究発表会」において文書をもって発表、 2010年11月24日〜26日 電子情報通信学会 信号処理研究専門委員会主催の「第25回 信号処理シンポジウム」において文書をもって発表、 2011年2月25日 社団法人 電子情報通信学会発行の「電子情報通信学会技術研究報告 Vol.110 No.452」に発表、 2011年3月9日〜11日 社団法人 日本音響学会主催の「2011年春季研究発表会」において文書をもって発表
【出願人】(504137912)国立大学法人 東京大学 (1,942)