説明

声道断面積関数の抽出装置及びその抽出方法

【課題】高サンプリング周波数の音声信号でも声質制御を良好に行なうことができる声道断面積関数の抽出装置及びその抽出方法を提供する。
【解決手段】声道断面積関数の抽出装置は、ディジタル化された音声信号から声道断面積関数を抽出する。ディジタル化された音声信号をフレーム単位に切り出すフレーム切出し部10と、各音声信号を低域成分と高域成分とに分割する帯域分割部20と、各成分の周波数特性を平坦化する平坦化処理部30と、各成分を自己相関関数に変換する自己相関関数変換部40と、各成分の自己相関関数からLSPパラメタを抽出するLSPパラメタ抽出部50と、各成分のLSPパラメタを結合するLSPパラメタ結合部60と、結合されたLSPパラメタからPARCOR係数に変換するPARCOR係数変換部70と、PARCOR係数を声道断面積関数に変換する声道断面積関数変換部80とを備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は声道断面積関数の抽出装置及びその抽出方法に関する。
【背景技術】
【0002】
非特許文献1には、従来の声道断面積関数の抽出方法が開示されている。この声道断面積関数の抽出方法では、適応逆フィルタ法により、声道の特性に含まれない声帯音源、及び唇における放射特性を除去し、音声データの周波数特性を平坦化している。このため、従来の声道断面積関数の抽出方法では、声帯音源及び放射特性を予め除去した上で、声道断面積関数を抽出することができる。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】中島隆之 他、「デコンボルーションによる声道形の推定と適応型音声分析システム」、日本音響学会誌 34巻3号(1978)、P157〜P166
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、上記従来の声道断面積関数の抽出方法では、高品質な音声の合成に必要とされる高サンプリング周波数の音声信号のことが考慮されていない。実験的にも、高サンプリング周波数の音声信号において、声質制御の際の劣化が確認されている。
【0005】
本発明は、上記従来の実情に鑑みてなされたものであって、高サンプリング周波数の音声信号でも声質制御を良好に行なうことができる声道断面積関数の抽出装置及びその抽出方法を提供することを解決すべき課題としている。
【課題を解決するための手段】
【0006】
本発明の声道断面積関数の抽出装置は、ディジタル化された音声信号から声道断面積関数を抽出する抽出装置であって、
ディジタル化された音声信号をフレーム単位に切り出すフレーム切出し部と、
フレーム切出し部で切り出された各音声信号を低域成分と高域成分とに分割する帯域分割部と、
帯域分割部で分割された各成分の周波数特性を平坦化する平坦化処理部と、
平坦化処理部で処理された各成分を自己相関関数に変換する自己相関関数変換部と、
自己相関関数変換部で変換された各成分の自己相関関数からLSPパラメタを抽出するLSPパラメタ抽出部と、
LSPパラメタ抽出部で抽出された各成分のLSPパラメタを結合するLSPパラメタ結合部と、
LSPパラメタ結合部で結合されたLSPパラメタからPARCOR係数に変換するPARCOR係数変換部と、
PARCOR係数変換部で変換されたPARCOR係数を声道断面積関数に変換する声道断面積関数変換部とを備えていることを特徴とする。
【0007】
また、本発明の声道断面積関数を抽出する抽出方法は、ディジタル化された音声信号から声道断面積関数を抽出する抽出方法であって、
ディジタル化された音声信号をフレーム単位に切り出すステップと、
切り出された各音声信号を低域成分と高域成分とに分割するステップと、
分割された各成分の周波数特性を平坦化するステップと、
平坦化された各成分を自己相関関数に変換するステップと、
変換された各成分の自己相関関数からLSPパラメタを抽出するステップと、
抽出された各成分のLSPパラメタを結合するステップと、
結合されたLSPパラメタからPARCOR係数に変換するステップと、
変換されたPARCOR係数を声道断面積関数に変換するステップとを有していることを特徴とする。
【0008】
この声道断面積関数の抽出装置及びその抽出方法では、音声信号を低域成分と高域成分とに分割し、各成分の周波数特性を平坦化している。このため、低域成分及び高域成分において、音源と放射特性を良好に除去することができる。その後、平坦化された各成分を自己相関関数に変換し、各成分の自己相関関数からLSPパラメタを抽出する。抽出された各成分のLSPパラメタを結合し、結合されたLSPパラメタからPARCOR係数に変換するため、音源と放射特性の影響を受けずに声道断面積関数を抽出することができる。
【0009】
したがって、本発明の声道断面積関数の抽出装置及びその抽出方法は、高サンプリング周波数の音声信号でも声質制御を良好に行なうことができる。
【0010】
前記平坦化処理部において、低域成分の周波数特性を平坦化するには、適応逆フィルタ法を用い得る。また、前記平坦化処理部において、高域成分の周波数特性を平坦化するには、ケプストラム処理に基づく方法を用い得る。この場合、各成分から音源及び放射特性を適切に除去することができる。
【0011】
PARCOR係数にマイナスを付したものは反射係数と呼ばれている。このため、本発明において、PARCOR係数は反射係数を含んだ概念である。
【図面の簡単な説明】
【0012】
【図1】実施例の声道断面積関数の抽出装置を示すブロック図である。
【図2】実施例の声道断面積関数の抽出方法を示すステップ図である。
【図3】母音「あ」に関し、図(A)は声道断面積関数を示すグラフであり、図(B)はLSP及びスペクトル包絡を示すグラフである。
【図4】母音「い」に関し、図(A)は声道断面積関数を示すグラフであり、図(B)はLSP及びスペクトル包絡を示すグラフである。
【図5】母音「う」に関し、図(A)は声道断面積関数を示すグラフであり、図(B)はLSP及びスペクトル包絡を示すグラフである。
【図6】母音「え」に関し、図(A)は声道断面積関数を示すグラフであり、図(B)はLSP及びスペクトル包絡を示すグラフである。
【図7】母音「お」に関し、図(A)は声道断面積関数を示すグラフであり、図(B)はLSP及びスペクトル包絡を示すグラフである。
【発明を実施するための形態】
【0013】
本発明の声道断面積関数の抽出装置及びその抽出方法を具体化した実施例を図面を参照しつつ説明する。
【実施例】
【0014】
実施例の声道断面積関数の抽出装置1は、図1に示すように、フレーム切出し部10、帯域分割部20、平坦化処理部30、自己相関関数変換部40、LSPパラメタ抽出部50、LSPパラメタ結合部60、PARCOR係数変換部70及び声道断面積関数変換部80を備えている。
【0015】
この声道断面積関数の抽出装置1を利用した声道断面積関数の抽出方法を説明する。
【0016】
先ず、図2に示すように、ディジタル化された音声信号をフレームと呼ばれる区間に切り出すステップ11がフレーム切出し部10において実行される。これにより、フレーム単位に切り出された音声信号をxn(n=1,…,N)と表わす。
【0017】
フレーム長は30ミリ秒程度を用いることが多い。また、フレーム長は音声の基本周期に同期して決めるピッチ同期分析により決めてもよい。また、次のフレームは、通常、その前のフレームとの重複がある状態にする。前のフレームからの時間のずれをフレームシフト長と呼ぶ。フレームシフト長は、フレーム長が固定長の場合は、4ミリ秒〜フレーム長の半分程度の長さが用いられ、フレーム長がピッチ同期分析により決められる場合は、音声の基本周期に同期して決められる。
【0018】
次に、フレーム単位に切り出された各音声信号を低域成分と高域成分とに分割するステップ21が帯域分割部20において実行される。つまり、フレーム単位に切り出された音声信号xnをフーリエ変換し、音声スペクトルXk(k=0,…,N−1)を得る。その後、音声スペクトルXkを周波数fc、すなわちkc=Nfc/fsで帯域分割する。
【0019】
この際、低域成分は、音声信号において音韻性などを伝えるのに最低限必要な低周波数帯域とし、高域成分は、高品質な音声の合成に必要な高周波数帯域とする。例えば、低周波数帯域は0〜Fs/8(Hz)とし、高周波数帯域はFs/8〜Fs/2(Hz)とする(ここでFsはサンプリング周波数である。)。分割された低周波数帯域のスペクトルは式(1)に表わされ、高周波数帯域のスペクトルは式(2)に表わされる。
【0020】
【数1】

【0021】
次に、分割された各成分の周波数特性を平坦化するステップ31、32が平坦化処理部30において実行される。つまり、式(1)で表わされた低周波数帯域のスペクトルを従来法である適応逆フィルタ処理により平坦化する(ステップ31)。この適応逆フィルタ処理を表わす関数を式(3)に表わす。また、式(2)で表わされた高周波数帯域のスペクトルを周波数帯域を低域へ移動させた後、ケプストラムの0次と1次とを取り除く処理により平坦化する(ステップ32)。このケプストラムの0次と1次とを取り除く処理を表わす関数を式(4)に表わす。
【0022】
【数2】

【0023】
次に、平坦化された各成分を自己相関関数に変換するステップ41、42が自己相関関数変換部40において実行される。つまり、平坦化処理部30で処理された低周波数帯域の成分を式(5)に表わす自己相関関数に変換する(ステップ41)。また、平坦化処理部30で処理された高周波数帯域の成分を式(6)に表わす自己相関関数に変換する(ステップ42)。式(5)及び式(6)に表われたF-1は逆フーリエ変換である。NL及びNHについては、2kc≦NL、N−2kc≦NHを満たすものを選ぶ。なお、スペクトルの中央部に同じ値をとる区間があるが、スペクトルが滑らかに変化すれば良く(急激なスペクトルの谷などができるのは望ましくない)、例えば滑らかな関数を用いるなどの処理を行なってもよい。
【0024】
【数3】

【0025】
次に、変換された各成分の自己相関関数からLSPパラメタを抽出するステップ51、52がLSPパラメタ抽出部50において実行される。つまり、式(5)及び式(6)に表わされた自己相関関数から線形予測分析及びLSP分析によりLSPパラメタを抽出する。低周波数帯域のLSPパラメタを式(7)に表わし、高周波数帯域のLSPパラメタを式(8)に表わす。pLは低周波数帯域の分析次数であり、pHは高周波数帯域の分析次数である。
【0026】
【数4】

【0027】
次に、抽出された各成分のLSPパラメタを結合するステップ61がLSPパラメタ結合部60において実行される。つまり、式(7)及び式(8)に表された各成分のLSPパラメタを式(9)に示すように結合し、元の周波数帯域におけるLSPパラメタωmを求める。ここでは、各成分のLSPパラメタの間に、近接のLSPパラメタの中点となるLSPパラメタの1つを追加することにより、極端なスペクトル包絡の減衰を防ぐ手法を用いている。
【0028】
【数5】

【0029】
ここで、ωcは、帯域分割する周波数の正規化角周波数であり、ωc=2πfc/fsで計算される。
【0030】
次に、結合されたLSPパラメタからPARCOR係数に変換するステップ71がPARCOR係数変換部70において実行される。つまり、結合したLSPパラメタωmを線形予測係数を経てPARCOR係数κmに変換する。
【0031】
次に、変換されたPARCOR係数を声道断面積関数に変換するステップが81声道断面積関数変換部80において実行される。つまり、PARCOR係数κm(m=1,…,p)から声道断面積関数Am(m=1,…,p)へは、式(10)により変換される。
【0032】
【数6】

【0033】
ここで、Agは声門部門の面積であり、測定結果を用いたり、例えば1cmの値を用いたりするのが通例である。
【0034】
以上、説明した本実施例の声道断面積関数の抽出装置及びその抽出方法により抽出された声道断面積関数と、適応逆フィルタ法のみを用いた従来方法により抽出された声道断面積関数とをプロットしたグラフを図3〜図7の(A)図に示す。また、夫々に対応して、LSP及びLSPにより求められたスペクトル包絡を図3〜図7の(B)図に示す。図3は母音「あ」、図4は母音「い」、図5は母音「う」、図6は母音「え」、図7は母音「お」に関するものである。
【0035】
図3〜図7の(A)図において、横軸は唇からの距離を示し、縦軸はその点における声道断面積関数の対数を示す。対数の底は2としている。また、各(A)図のプロットXは、本実施例の抽出装置及びその抽出方法により抽出された声道断面積関数であり、サンプリング周波数を44.1kHzとしたものである。また、各(A)図のプロットY及びZは、適応逆フィルタ法のみを用いた従来方法により抽出された声道断面積関数であり、プロットYはサンプリング周波数を11.025kHzとしたものであり、プロットZはサンプリング周波数を44.1kHzとしたものである。各(A)図に示されているように、プロットZの形状がプロットYの形状と大きく異なっているのに対し、プロットXはプロットYに近い形状を示し、かつ、より精密にした形状が得られている。
【0036】
図3〜図8の(B)図において、横軸は周波数を示し、縦軸は振幅スペクトルを示す。各(B)図に示されているように、スペクトル包絡が周波数の高い領域においても下がっていないことがわかる。
【0037】
したがって、実施例の声道断面積関数の抽出装置及びその抽出方法は、高サンプリング周波数の音声信号でも声質制御を良好に行なうことができる。
【0038】
本発明は、上記記載及び図面によって説明した実施例に限定されるものではなく、例えば次のような実施例も本発明の技術的範囲に含まれる。
(1)実施例では、一連の処理を周波数領域で行なったが、時間領域で行なってもよい。
(2)本実施例では、各成分のLSPパラメタを結合する際、両者のLSPパラメタの間に、近接のLSPパラメタの中点となるLSPパラメタを1つ追加し、極端なスペクトル包絡の減衰を防いだが、中点となるLSPパラメタを追加しなくてもよい。
【産業上の利用可能性】
【0039】
本発明はテキスト音声合成や声質変換システムなどに利用可能である。
【符号の説明】
【0040】
S…音声信号
1…抽出装置
10…フレーム切出し部
20…帯域分割部
30…平坦化処理部
40…自己相関関数変換部
50…LSPパラメタ抽出部
60…LSPパラメタ結合部
70…PARCOR係数変換部
80…声道断面積関数変換部

【特許請求の範囲】
【請求項1】
ディジタル化された音声信号から声道断面積関数を抽出する抽出装置であって、
ディジタル化された音声信号をフレーム単位に切り出すフレーム切出し部と、
フレーム切出し部で切り出された各音声信号を低域成分と高域成分とに分割する帯域分割部と、
帯域分割部で分割された各成分の周波数特性を平坦化する平坦化処理部と、
平坦化処理部で処理された各成分を自己相関関数に変換する自己相関関数変換部と、
自己相関関数変換部で変換された各成分の自己相関関数からLSPパラメタを抽出するLSPパラメタ抽出部と、
LSPパラメタ抽出部で抽出された各成分のLSPパラメタを結合するLSPパラメタ結合部と、
LSPパラメタ結合部で結合されたLSPパラメタからPARCOR係数に変換するPARCOR係数変換部と、
PARCOR係数変換部で変換されたPARCOR係数を声道断面積関数に変換する声道断面積関数変換部とを備えていることを特徴とする声道断面積関数の抽出装置。
【請求項2】
ディジタル化された音声信号から声道断面積関数を抽出する抽出方法であって、
ディジタル化された音声信号をフレーム単位に切り出すステップと、
切り出された各音声信号を低域成分と高域成分とに分割するステップと、
分割された各成分の周波数特性を平坦化するステップと、
平坦化された各成分を自己相関関数に変換するステップと、
変換された各成分の自己相関関数からLSPパラメタを抽出するステップと、
抽出された各成分のLSPパラメタを結合するステップと、
結合されたLSPパラメタからPARCOR係数に変換するステップと、
変換されたPARCOR係数を声道断面積関数に変換するステップとを有していることを特徴とする声道断面積関数の抽出方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−22423(P2011−22423A)
【公開日】平成23年2月3日(2011.2.3)
【国際特許分類】
【出願番号】特願2009−168192(P2009−168192)
【出願日】平成21年7月16日(2009.7.16)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 日本音響学会2009年春季研究発表会講演論文集 講演要旨・講演論文CD−ROM 平成21年3月10日発行 社団法人日本音響学会
【出願人】(599002043)学校法人 名城大学 (142)