説明

ピッチ周波数推定方法及びその装置

【目的】 必要に応じた精度でピッチ周波数を推定することができ,時間分解能が低下せず,少ない計算時間で高精度なピッチ周波数推定ができる。
【構成】 基本波とその高調波からなる音声信号の時間信号の短い区間を切り出して短区間スペクトラム分析を行い,分析結果からピッチ周波数の候補の検出を行い,その結果をダウンサンプリングして複数回ピッチ周波数推定を行って周波数分解能を向上させる。

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば音声認識・合成等の技術分野で用いられるピッチ周波数推定方法及びその装置に関するものである。
【0002】
【従来の技術】従来から音声認識や話者識別、あるいは音声合成等の分野においては、ピッチ周波数は重要な音響パラメータと考えられており、その基本的な検出・推定方法として信号から切り出した短い区間に対してスペクトラム分析を行なう方法がある。
【0003】
【発明が解決しようとする課題】上述した短区間の信号に対してスペクトラム分析を行なう方法では、高精度な推定を行なうためには分析区間を長くとる必要があり、その場合には以下の問題点が生じる。
1.分析に必要な演算量が分析区間長に応じて指数的に増大する。
2.結果として得られるピッチ周波数は分析区間内で平均化された値となるため時間分解能が低くなる。
本発明の目的は、上記1.2.の問題点を解決することにある。
【0004】
【課題を解決するための手段】本発明は上述した課題を解決するために、時間信号の短かい区間を切り出してスペクトラム分析を行ない、分析結果からピッチ周波数の候補(近似値)の検出を行ない、検出された候補(近似値)付近に限り周波数分解能を上げることにより必要に応じた精度でピッチ周波数の推定を行なうようにしている。
【0005】
【作用】時間信号の短かい区間を切り出してスペクトラム分析を行ない、分析結果からピッチ周波数の候補(近似値)の検出を行ない、検出された候補(近似値)付近に限り周波数分解能を上げることにより必要に応じた精度でピッチ周波数の推定を行なう。そのため、元の信号に対する分析区間を長くすることなく、少ない計算量で高精度なピッチ周波数推定を可能にする。
【0006】
【実施例】以下、図面を参照し、本発明の実施例について説明する。図1は本発明の一実施例の全体の構成を示すブロック図、図2は本発明の一実施例の制御系を示すブロック図である。図1において、10は音声信号が入力される信号入力部であり、11は入力された音声信号をアナログ信号からディジタル信号へ変換するA−D変換部であり、12は音声データやその周波数変換された結果を記憶するデータ記憶部であり、13は処理の流れや各部へのデータの授受をつかさどる制御部であり、14は周波数変換・逆変換を行なうデータ演算部であり、15はピッチ周波数を検出するピッチ検出部であり、16は周波数軸上の一部分について分解能を高める周波数分解能制御部である。
【0007】次に、図2の制御ブロック図に基づいて実施例の動作の説明をする。このときには、図1の構成を示すブロック図を参照して説明する。A−D変換部11によりA−D変換された入力信号S(t)20に対して、適当な窓関数W(t)21をかけることによって短い区間を切り出す。この切り出されたデータI(t)をデータ演算部14内の周波数変換部22で周波数変換しデータ記憶部12に記憶するとともにその結果を用いてスペクトラム分析部23によりスペクトラム分析を行ないピッチ検出部15でピッチ周波数(近似値)検出24を行なう。
【0008】ここで、ピッチ周波数推定精度すなわちスペクトラム分析の周波数分解能を上げるために、検出された現在のピッチ周波数を含む帯域を通過させるフィルタ処理26を周波数変換されデータ記憶部12に記憶されているデータすなわち周波数領域のデータに対して行ない、データ演算部14において逆変換27することによって時間領域の信号に戻した後、ダウンサンプリング28を施す。このダウンサンプリングされたデータをI(t)として再び周波数変換22にフィードバックし,この後スペクトラム分析23、ピッチ周波数推定25を行なえば、ピッチ周波数推定精度は2倍となる。
【0009】以後同様にフィルタ処理26、逆変換27、ダウンサンプリング28、周波数変換22、スペクトラム分析23、ピッチ周波数推定25を合計n回行なうことによって、ピッチ周波数推定精度を 2n 倍とすることができる。以下に具体的に各処理の詳細について説明する。窓関数W(t)21として、例えば式(1)のハミング窓を用いることができる。窓の大きさ(分析区間の長さ)Tは、推定の対象となる信号の基本周波数に合わせて決定する。このとき、I(t)は式(2)となる。
【0010】
【数1】


【0011】
【数2】


【0012】周波数変換22は、高速フーリエ変換(以下FFTと略称する)により行なう。FFTにより、入力信号は周波数領域の−Fs /2からFs /2の範囲のΔf=Fs /PFFT (Fs :サンプリング周波数,PFFT :FFT点数)ごとの離散周波数fにおける複素数データC(f)となる。スペクトラム分析23は、FFTの結果の正の周波数領域について複素数データの絶対値(振幅)A(f)を求める演算である。 ピッチ周波数(近似値)検出24は、図3に示すように、23で得られた各周波数ごとの振幅のうち、最大のものからNpeak番目までの周波数fp1,fp2,・・・,fPNpeakについて、式(3)に示すPpeak(n)(1≦n≦Npeak)を求め,そのPpeak(n)が最大となる周波数をピッチ周波数とする。
【0013】
【数3】


【0014】ただし、式(3)においてNharmは、3〜5程度の整数とし、対象とするデータに応じて決定するものとする。フィルタ処理26は、24または25で求められている‘現在の’ピッチ周波数fpitch に応じて、周波数領域のデータC(f)のうち、fpitch ≦(Fupr +Fudr /2)である場合にはf>Fupr の範囲、fpitch >Fupr /2である場合にはf<Fupr の範囲について、C(f)を0で置き換える処理である。この後、C(f)=0とした範囲がf>Fupr であった場合、‘次の’周波数範囲の上限Fupr+及び下限Fudr+を、‘現在の’周波数範囲の上限下限をFupr Fudr に対してそれぞれ、
【0015】
【数4】


【0016】とし、C(f)=0とした範囲がf<Fupr であった場合には、
【0017】
【数5】


【0018】とする。これにより周波数分解能は2倍となる。逆変換27は高速フーリエ逆変換(以下IFFTと略称する)による。ダウンサンプリング28は、逆変換27で得られた時間領域のデータを一つおきにとりだし、I(t)として並べる処理である。これにより、データの数が半分になるため、I(t)の後半分すなわち、T/2からT−1の範囲は0となる。
【0019】ここで、処理は周波数変換22に戻るわけであるが、その場合には前述のようにスペクトラム分析23の後にはピッチ周波数(近似値)検出24の換わりにピッチ周波数推定25の処理を行なう。ピッチ周波数推定25は、スペクトラム分析23で得られたA(f)の‘現在の’ピッチ周波数Fpitch に最も近いピークとなる周波数を探索する処理であり、得られた周波数を新しく‘現在の’ピッチ周波数Fpitch とする。
【0020】ここで必要な精度が得られている場合には処理を終わり、得られていない場合にはフィルタ処理26、逆変換27、ダウンサンプリング28、周波数変換22、スペクトラム分析23、と順に処理を経て、必要な精度が得られるまでピッチ周波数推定25を繰り返す。従って本発明では分析区間を長くすることなくn回のダウンサンプリングとn回の周波数分析を行なうことによって、2n 倍の精度でピッチ周波数を推定することができる。
【0021】
【発明の効果】以上説明したように、本発明によれば必要に応じた精度てピッチ周波数を推定することができ、以下のような効果が得られる。
1.従来のように分析区間を長くすることなく周波数推定精度を上げることができるため、時間分解能が低下しない。
2.推定精度をn倍にするために必要な計算量が、分析区間を長くした場合にはn2 に比例するのに対して2Log2nに比例するので、より少ない計算時間で高精度なピッチ周波数推定を行なうことができる。
【図面の簡単な説明】
【図1】本発明の一実施例の全体の構成を示すブロック図である。
【図2】本発明の一実施例の制御系を示すブロック図である。
【図3】本発明の一実施例のピッチ周波数(近似値)検出を説明するための説明図である。
【符号の説明】
10 信号入力部
11 A−D変換部
12 データ記憶部
13 制御部
14 データ演算部
15 ピッチ検出部
16 周波数分解能制御部
20 入力信号
21 窓関数
22 周波数変換
23 スペクトラム分析
24 ピッチ周波数(近似値)検出
25 ピッチ周波数推定
26 フィルタ処理
27 逆変換
28 ダウンサンプリング

【特許請求の範囲】
【請求項1】 基本波とその高調波とから成り立つディジタル信号を周波数分析した結果から、そのピッチ周波数を推定する方法であって、時間信号の短かい区間を切り出して短区間スペクトラム分析を行ない、分析結果からピッチ周波数の候補の検出を行ない、検出された候補付近に限り周波数分解能を上げることによって必要に応じた精度でピッチ周波数の推定を行なうピッチ周波数推定方法。
【請求項2】 上記ピッチ周波数の候補の検出及び上記周波数分解能の向上を特定の方法で行なうことを特徴とする特許請求の範囲第1項に記載のピッチ周波数推定方法。
【請求項3】 上記特定の方法とは,上記検出された候補に近似させるため,ダウンサンプリング処理を施した後上記スペクトラム分析の前段にフィードバックしてピッチ周波数を推定する動作を複数回繰り返すことにより行われることを特徴とする特許請求の範囲第1項に記載のピッチ周波数推定方法。
【請求項4】 入力された音声信号をディジタル変換するAD変換器と,該AD変換器から出力された音声信号は基本波とその高調波を含み,該音声信号を周波数軸に変換する周波数変換器と,該変換器の出力を周波数分析する周波数分析手段と,該分析された信号からピッチ周波数を検出する検出手段と,該検出結果をフィルタ処理するフィルタ手段と,該フィルタ手段の出力をダウンサンプリングする手段と,その出力を上記周波数変換器に入力するフィードバック経路とを有し,上記周波数分析手段の出力を上記検出手段に入力するに代えて,ピッチ周波数を推定する推定手段に入力し,上記フィードバック経路を複数回介して周波数分解能の向上を図ったことを特徴とするピッチ周波数推定装置。

【図1】
image rotate


【図2】
image rotate


【図3】
image rotate


【公開番号】特開平6−95697
【公開日】平成6年(1994)4月8日
【国際特許分類】
【出願番号】特願平4−243206
【出願日】平成4年(1992)9月11日
【出願人】(000002185)ソニー株式会社 (34,172)