説明

ピッチ検索のための方法及び装置

【課題】本発明は、ピッチ検索のための方法及び装置に関する。
【解決手段】ピッチ検索のための方法であって、入力音声信号をダウンサンプリングする(201)段階と、予め設定されたピッチ範囲の各ピッチに対応する前記ダウンサンプリングされた入力音声信号の残差信号を計算する(204)段階と、前記予め設定されたピッチ範囲の各ピッチに対応する残差信号の残差信号エネルギ値を計算する(205)段階と、ここに、前記残差信号は、前記ダウンサンプリングされた入力音声信号からLTP(長期予測)寄与信号を除去した結果であり、前記計算された残差信号エネルギ値の中の最小値を選択し(206)、該最小値に対応するピッチをピッチとして設定する段階と、
を含む方法。

【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2008年12月30日に出願した中国特許出願第200810247031.1に対する優先権を主張するものであり、その全体を本明細書に引用・参照する。
【0002】
発明の分野
本発明は、音声符号化技術及び音声復号化技術の分野に関し、特に、ピッチ検索のための方法及び装置に関する。
【背景技術】
【0003】
一般的に、音声及びオーディオ信号は、ある程度周期的である。音声及びオーディオ信号における長期周期性は、長期予測(LTP)法により除去し得る。LTP予測の前に、まずピッチを検索する必要がある。ピッチ検索のための従来の方法は、自己相関関数に基づき実施する。MPEG_ALS(Moving_Pictures_Experts_Group_Audio_Lossless_Coding)装置では、バッファ内の履歴データを励振信号として用いて、現フレームの信号を予測する。開ループピッチ解析を例として、本方法について以下に述べる。
【0004】
まず、元の音声信号を知覚的重み付けフィルタに入力して、重み付き音声信号S(n)を得る。知覚的重み付けフィルタ関数の式は、
【数1】

であり、上式において、
【数2】

であり、また、β1=0.68である。各サブフレームについて、サブフレーム長(L)は、64であり、重み付き音声信号S(n)の式は、
【数3】

である。上式において、s(n)は、元の音声信号であり、aは、LP係数であり、また、
【数4】

は、知覚的重み付け係数である。
【0005】
四次有限インパルス応答(FIR)フィルタHdecim2(z)は、重み付き音声信号に2分の1のダウンサンプリングを実施して、Swd(n)を得る。重み付き相関関数は、
【数5】

である。
【0006】
取得するピッチは、C(d)を最大にするピッチ遅延dである。上式において、w(d)は、重み付け関数であり、低遅延重み付け関数w(d)と、先行フレーム遅延重み付け関数w(d)と、を含み、式(3)のように示される。
【数6】

【0007】
低遅延重み付け関数w(d)の式は、
【数7】

である。上式において、cw(d)は、プログラムのタブファイルに存在し、先行フレーム遅延重み付け関数w(d)は、先行フレームのピッチ遅延に依存する。先行フレーム遅延重み付け関数の式w(d)は、
【数8】

である。上式において、Toldは、初めの5フレームのピッチ遅延の平均であり、vは、適応係数である。開ループピッチ利得(g)が0.6より大きい場合、フレームを有声フレームと見なし、次フレームの「v」を1に設定する。そうでない場合、v=0.9vとする。開ループピッチ利得(g)の式は、
【数9】

である。
【0008】
本ピッチ遅延は、C(d)を最大にするピッチ遅延である。中間値フィルタは、有声フレームにおいて更新する。先行フレームが無声又は無音音声を含む場合、重み付け関数は、パラメータ「v」によって減衰される。
【0009】
上述したように、従来技術では、長期周期性を解決するために、フレームの入力音声信号に関して自己相関関数を計算してピッチを得る。
【発明の概要】
【課題を解決するための手段】
【0010】
幾つかの本発明の実施形態は、フレーム全体における入力音声信号の相関関数値を計算することなく、ピッチ検索を行うための方法及び装置を提供する。
【0011】
ピッチ検索のための方法には、
残差信号の特性関数値を得る段階であって、残差信号は、入力音声信号からLTP寄与信号を除去した結果である段階と、
残差信号の特性関数値に応じてピッチを得る段階と、が含まれる。
【0012】
ピッチ検索のための他の方法には、
入力音声信号において最大振幅のパルスを検索する段階と、
最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定する段階と、
対象窓をスライドして引窓を得て、引窓及び対象窓における入力音声信号の相関係数を計算して相関係数の最大値を得る段階と、
相関係数の最大値に応じてピッチを得る段階と、が含まれる。
【0013】
ピッチ検索のための装置には、
残差信号の特性関数値を得るように構成された特性値取得モジュールであって、残差信号は、入力音声信号からLTP寄与信号を除去した結果である上記特性値取得モジュールと、
残差信号の特性関数値に応じてピッチを得るように構成されたピッチ取得モジュールと、が含まれる。
【0014】
ピッチ検索のための他の装置には、
入力音声信号において最大振幅のパルスを検索するように構成された検索モジュールと、
最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定するように構成された対象窓モジュールと、
計算モジュールであって、対象窓をスライドし引窓を得て、引窓及び対象窓における入力音声信号の相関係数を計算して相関係数の最大値を得るように構成された前記計算モジュールと、
相関係数の最大値に応じてピッチを得るように構成されたピッチ取得モジュールと、が含まれる。
【0015】
本発明の実施形態におけるピッチ検索のための方法及び装置では、フレーム全体における入力音声信号の相関関数値を計算することなく、残差信号の特性関数値を得て、残差信号の特性関数値に応じてピッチを得る。
【図面の簡単な説明】
【0016】
【図1】本発明の一実施形態によるピッチ検索の方法を示すフローチャート。
【図2】本発明の他の実施形態によるピッチ検索の方法を示すフローチャート。
【図3】本発明の更に他の実施形態によるピッチ検索の方法を示すフローチャート。
【図4】本発明の更に他の実施形態によるピッチ検索の方法を示すフローチャート。
【図5】本発明の更に他の実施形態によるピッチ検索の方法を示すフローチャート。
【図6】本発明の一実施形態によるピッチ検索のための装置を示す概略構造図。
【図7】本発明の他の実施形態によるピッチ検索のための装置を示す概略構造図。
【発明を実施するための形態】
【0017】
以下、本発明について添付図面及び代表的実施形態を参照して詳細に述べる。
【0018】
図1は、本発明の一実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
【0019】
ステップ101:残差信号の特性関数値を得る。ここで、残差信号は、入力音声信号からLTP寄与信号を除去した結果である。
【0020】
ステップ102:残差信号の特性関数値に応じてピッチを得る。
【0021】
本実施形態による方法では、残差信号の特性関数値を得る。また、ピッチは、フレーム全体における入力音声信号の相関関数値を計算することなく、残差信号の特性関数値に応じて取得する。
【0022】
図2は、本発明の他の実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
【0023】
ステップ201:入力音声信号を前処理する。
【0024】
この前処理は、低域通過フィルタ処理もしくはダウンサンプリングであってよく、又はダウンサンプリング処理を伴う低域通過フィルタ処理であってよい。一実施形態では、低域通過フィルタ処理は、平均値フィルタ処理であってよい。パルス符号変調(PCM)信号を例にとると、y(n)が、入力音声信号を表し、入力音声信号のフレーム長Lが、160である(即ち、1つのフレームは、160個のサンプルを含む)。y2(n)が、ダウンサンプリングされた入力音声信号を表し、以下、ダウンサンプリング信号と称する。本実施形態における2分の1のダウンサンプリングを例にとると、以下の式が成立する。
【数10】

上式において、Mは、平均値フィルタの次数であり、y2(n)のサンプル範囲は、[0,79]である。
【0025】
このステップは、任意である。ステップ202実行前、前処理は省略してよい。
【0026】
ステップ202:入力音声信号において最大振幅のパルスを検索する。
【0027】
パルスは、フレーム全体又はフレームの設定範囲内で検索し得る。フレームの設定範囲でのパルスの検索を例として、そのプロセスについて以下に詳述する。
【0028】
まず、入力音声信号y(n)の場合、そのピッチ範囲は、フレーム長に応じて予め設定する。ピッチ範囲は、フレーム長を基準として設定し、また、ピッチは、高過ぎてはならない。ピッチが高過ぎる場合、フレームの信号のサンプルは、LTP演算に殆ど関与せず、LTP性能が低下する。例えば、フレーム長Lが160に等しい場合、y(n)のピッチ範囲は、[20,83]に設定し得る。一実施形態では、2分の1のダウンサンプリングをステップ202で適用する。ダウンサンプリング信号y2(n)のピッチ範囲は、[10,41]、即ち、[PMIN,PMAX]であってよく、この場合、PMIN=10及びPMAX=41である。ピッチが最大である時に確実にそのピッチを見つけるためには、検索するパルスのサンプル範囲を[41,79]に設定し得る。
【0029】
その後、サンプル範囲[41,79]内において、y2(n)における最大振幅のパルスを見つける。最大振幅のパルスに対応するサンプルをp0とすると(41<=p0<=79)、以下の不等式が成り立つ。
【数11】

【0030】
本実施形態では、y2(n)の振幅は、実数であってよく、y2(n)の振幅値は、y2(n)の絶対値であって、負でない数である。
【0031】
ステップ203:入力音声信号における最大振幅のパルスp0の位置に応じて対象窓を設定する。
【0032】
具体的には、対象窓は、パルスp0周辺に付加し、信号の一部を選択すると、この対象窓が、パルスp0を網羅する。対象窓の範囲は、[smin,smax]であり、対象窓の長さは、len=smax−sminである。「len」の範囲は、[1,L]である。即ち、対象窓は、フレームの全信号を網羅し得る。
【0033】
例えば、
【数12】

であり、上式において、dは、対象窓の長さを制限するために用いる。本実施形態では、d=15である。s_max(p0−d,41)は、p0−dと41との間で大きい方の値を取得することを意味する。s_max(p0+d,79)は、p0+dと79との間で小さい方の値を取得することを意味する。
【0034】
ステップ204:予め設定したピッチ範囲の各ピッチに対応する入力音声信号(即ち、本実施形態では、ダウンサンプリング信号)の残差信号を計算する。残差信号は、入力音声信号からLTP寄与信号を除去した結果であるが、LTP寄与信号x(i)は、LTP励振信号及びピッチ利得により求める。
【数13】

上式において、kは、ピッチを表し、gは、ピッチ利得を表す。gは、固定の経験値、又は、予め設定したピッチ範囲のピッチに応じて適応して求める値であってよい。即ち、異なるピッチ(k)は、同じgを有し得る。他の選択肢として、ピッチkとピッチ利得gとの間のマッピングの表を予め設定してもよく、この場合、gは、kに伴って変動する。
【0035】
ステップ205:各ピッチに対応する残差信号のエネルギを計算する。
【数14】

上式において、[k,k]は、ピッチ範囲を表す。一実施形態では、k=10、k=41であり、E(i)は、kに対応する残差信号のエネルギを表す。
【0036】
ステップ206:計算した残差信号エネルギ値の中の最小値E(P)を選択する。E(P)は、範囲[k,k]内のピッチPに対応するダウンサンプリング信号y2(n)の最小残差信号エネルギである。
【0037】
ステップ207:y(n)のピッチを得る。このピッチは、y2(n)がy(n)から2分の1のダウンサンプリングにより得られることから、2Pである。
【0038】
更に、二倍のピッチをピッチと錯誤しないように、本実施形態による方法には、ピッチ2Pを得た後、更に以下のプロセスを含み得る。
【0039】
音声信号領域では、取得したピッチに対応する相関関数を計算し、二倍ピッチの相関関数を計算する。このステップでは、以下の式に従って、2Pの相関関数nor_cor[2P]、及び2Pの相関関数、即ち、nor_cor[P]を計算する。
【数15】

【0040】
計算した相関関数の最大値に対応するピッチは、最終的なピッチと見なす。即ち、nor_cor[2P]の値をnor_cor[P]の値と比較する。nor_cor[2P]>nor_cor[P]の場合、2Pを音声信号の最終的なピッチとして用いる。nor_cor[2P]<=nor_cor[P]の場合、Pを音声信号の最終的なピッチとして用いる。
【0041】
本実施形態では、フレーム全体における信号の相関関数値を計算することなく、対象窓を設定して、フレームの残差信号のエネルギを計算し、こうしてピッチ検索が大幅に簡素化される。更に、本実施形態では、ピッチの相関関数を二倍ピッチの相関関数と比較し、二倍ピッチをピッチと錯誤することを回避して、ピッチ検索の精度を保証している。
【0042】
図3は、本発明の更に他の実施形態によるピッチ検索のための方法を示すフローチャートである。この実施形態は、次の点において第2実施形態と異なる。即ち、ステップ205及びステップ206が、ステップ305及びステップ306で置き換えられ、また、本実施形態の残差信号の特性関数値は、後述するように、残差信号の絶対値の和である。
【0043】
ステップ305:ピッチ範囲内のピッチに対応するダウンサンプリング信号の残差信号の絶対値の和を計算する。
【数16】

上式において、E(k)は、kに対応する残差信号の絶対値の和である。
【0044】
ステップ306:計算した残差信号の絶対値の和において、最小和E(P)を選択する。これは、範囲[k,k]内のピッチPに対応するダウンサンプリング信号の残差信号の絶対値の最小和である。
【0045】
本実施形態は、フレーム全体における信号の相関関数値を計算することなく、対象窓を設定して、フレームにおける信号の残差信号の絶対値の和を計算し、これによりピッチ検索が大幅に簡素化される。
【0046】
第2実施形態及び第3実施形態は、フレームにおける信号の先行部分を用いて、そのフレームにおける信号の最後の部分を予測する場面に適用可能である。本発明は、この場面に限定されるものではなく、先行フレームの信号を用いて、現フレームの信号を予測する場面にも適用可能である。この場面では、フレーム全体の残差信号の特性関数値をまず取得し、そして、ピッチは、フレーム全体の残差信号の特性関数値に基づき取得してよい。
【0047】
図4は、本発明の更に他の実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
【0048】
ステップ401:入力音声信号において最大振幅のパルスを検索する。
【0049】
ステップ402:最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定する。
【0050】
ステップ403:対象窓をスライドして複数の引窓を取得し、各引窓及び対象窓における入力音声信号の相関係数を計算し、相関係数の最大値を得る。
【0051】
ステップ404:相関係数の最大値に応じてピッチを得る。
【0052】
本実施形態は、対象窓を設定し、対象窓をスライドし、各引窓及び対象窓における信号の相関係数を計算して相関係数の最大値を得て、そして相関係数の最大値に応じたピッチを得る。このことは、フレーム全体の入力音声信号の相関関数値を計算することなく行われ、これによりピッチ検索が大幅に簡素化される。
【0053】
図5は、本発明の更に他の実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
【0054】
ステップ501:入力音声信号を前処理する。
【0055】
更に、前処理は、低域通過フィルタ処理又はダウンサンプリングであってよく、又は、ダウンサンプリング処理を伴う低域通過フィルタ処理であってよい。具体的には、低域通過フィルタ処理は、平均値フィルタ処理であってよい。PCM信号を例にとると、y(n)は、入力音声信号を表し、入力音声信号のフレーム長Lは、160である(即ち、1つのフレームが、160サンプルを含む)。y2(n)は、ダウンサンプリングした入力音声信号を表し、以下、ダウンサンプリング信号と称する。一実施形態において、2分の1のダウンサンプリングを例にとると、以下の式が成り立つ。
【数17】

上式において、Mは、平均値フィルタの次数であり、y2(n)のサンプル範囲は、[0,79]である。
【0056】
このステップは、任意である。ステップ502実行前の前処理は、省略し得る。
【0057】
ステップ502:入力音声信号において最大振幅のパルスを検索する。
【0058】
パルスは、フレーム全体において又はフレームの設定範囲内で探し出し得る。パルスがフレームの設定範囲内で探し出されると仮定して、そのプロセスについて以下に詳述する。
【0059】
まず、入力音声信号y(n)について、そのピッチ範囲は、フレーム長に応じて予め設定する。ピッチ範囲は、フレーム長を基準として設定し、また、ピッチは、高過ぎてはならない。ピッチが高過ぎると、フレームの信号のサンプルは、LTP計算に殆ど関与せず、LTP性能が、低下する。例えば、フレーム長Lが160に等しい場合、y(n)のピッチ範囲は、[20,83]に設定し得る。一実施形態では、2分の1のダウンサンプリングをステップ202で適用する。ダウンサンプリング信号y2(n)のピッチ範囲は、[10,41]、即ち、[PMIN,PMAX]であってよく、ここで、PMIN=10及びPMAX=41である。ピッチが最大である時にピッチを確実に発見できるように、検索されるパルスのサンプル範囲は、[41,79]に設定し得る。
【0060】
その後、サンプル範囲[41,79]内において、y2(n)における最大振幅のパルスを見つける。最大振幅のパルスに対応するサンプルをp0とすると(41<=p0<=79)、以下の不等式が成り立つ。
【数18】

【0061】
本実施形態では、y2(n)の振幅は、実数であってよく、また、y2(n)の振幅値は、y2(n)の絶対値であり、負でない数である。
【0062】
ステップ503:入力音声信号における最大振幅のパルスp0の位置に応じて入力音声信号用の対象窓を設定する。
【0063】
具体的には、対象窓は、パルスp0周辺に付加し、信号の一部を選択すると、この対象窓が、パルスp0を網羅する。対象窓の範囲は、[smin,smax]であり、対象窓の長さは、len=smax−sminである。「len」の範囲は、[1,L]である。即ち、対象窓は、フレームの全信号を網羅し得る。
【0064】
例えば、
【数19】

であり、上式において、dは、対象窓の長さを制限するために用いる。一実施形態では、d=15である。s_max(p0−d,41)は、p0−dと41との間で大きい方の値を得ることを意味する。s_min(p0+d,79)は、p0+dと79との間で小さい方の値を得ることを意味する。
【0065】
ステップ504:対象窓をスライドして複数の引窓を得て、各引窓及び対象窓における信号の相関係数を計算する。
【数20】

上式において、kは、ピッチを表し、[k,k]は、ピッチ範囲を表す。一実施形態では、k=10、k=41である。また、corr[k]は、kに対応する相関係数を表す。
【0066】
ステップ505:計算した相関係数の中で最大の相関係数corr[P]を選択する。corr[P]は、範囲[k,k]内のピッチPに対応するダウンサンプリング信号の最大相関係数である。
【0067】
ステップ506:y(n)のピッチを得る。y2(n)がy(n)から2分の1のダウンサンプリングにより得られることから、このピッチは、2Pである。
【0068】
更に、二倍のピッチをピッチと錯誤しないために、本実施形態による方法には、ピッチ2Pを得た後に以下のプロセスを更に含み得る。
【0069】
音声信号領域では、得られたピッチの相関関数を計算し、また、得られたピッチの二倍の周波数の相関関数を計算する。このステップは、以下の式により、2Pの相関関数nor_cor[2P]と、2Pの二倍の周波数(P)の相関関数、即ち、nor_cor[P]を計算する。
【数21】

【0070】
計算した相関関数の最大値に対応するピッチは、最終的なピッチとして用いる。即ち、nor_cor[2P]の値をnor_cor[P]の値と比較する。nor_cor[2P]>nor_cor[P]の場合、2Pを音声信号の最終的なピッチとして用いる。nor_cor[2P]<=nor_cor[P]の場合、Pを音声信号の最終的なピッチとして用いる。
【0071】
本実施形態は、対象窓を設定して、その対象窓をスライドし、各引窓及び対象窓における信号の相関係数を計算する。そして、相関係数の最大値に応じたピッチを取得する。このことは、フレーム全体の信号の相関関数値を計算することなく行われ、このため、ピッチ検索が大幅に簡素化される。更に、本実施形態は、ピッチの相関関数を二倍ピッチの相関関数と比較して、二倍ピッチをピッチと錯誤することを回避し、ピッチ検索の精度を保証する。
【0072】
図6は、本発明の一実施形態によるピッチ検索のための装置の概略構造図を示す。本装置には、残差信号の特性関数値を得るように構成された特性値取得モジュール11が含まれる。ここで、残差信号は、入力音声信号からLTP寄与信号を除去した結果である。また、本装置には、残差信号の特性関数値に応じてピッチを取得するように構成されたピッチ取得モジュール12が含まれる。
【0073】
具体的には、特性値取得モジュール11は、フレーム全体の残差信号の特性関数値を計算し得る。特性値取得モジュール11には、対象窓ユニット13及び特性値取得ユニット14を含み得る。対象窓ユニット13は、入力音声信号用の対象窓を設定し、特性値取得ユニット14は、対象窓の残差信号の特性値を得る。
【0074】
更に、本実施形態による装置には、検索モジュール15を含み得る。検索モジュール15は、入力音声信号において最大振幅のパルスを検索する。対象窓ユニット13は、入力音声信号における最大振幅のパルスの位置に応じて対象窓を設定する。
【0075】
本実施形態による装置には、更に、前処理モジュール16を含み得る。前処理モジュール16は、入力音声信号を前処理する。具体的には、前処理モジュール16は、低域通過フィルタ処理又はダウンサンプリング処理を実施し、そして、前処理した入力音声信号を対象窓ユニット13及び特性値取得ユニット14に送信する。
【0076】
特性値取得モジュール11には、更に、第1計算ユニット及び第2計算ユニットを含み得る。第1計算ユニットは、予め設定したピッチ範囲内の各ピッチに対応する残差信号を計算する。第2計算ユニットは、各ピッチに対応する残差信号の特性関数値を計算し、特性関数値の最小値を得る。ピッチ取得モジュール12は、特性関数値の最小値に対応するピッチを取得ピッチとして用いる。
【0077】
本実施形態は、フレーム全体の信号の相関関数値を計算することなく、対象窓を設定してフレームにおける信号の残差信号の特性関数値を計算し、こうして、ピッチ検索が大幅に簡素化される。
【0078】
図7は、本発明の他の実施形態によるピッチ検索のための装置の構造図を示す。本装置には、検索モジュール21、対象窓モジュール22、計算モジュール23、及びピッチ取得モジュール24が含まれる。検索モジュール21は、入力音声信号において最大振幅のパルスを検索する。対象窓モジュール22は、最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定する。対象窓がスライドする時、計算モジュール23は、各引窓及び対象窓における入力音声信号の相関係数を計算して、相関係数の最大値を得る。ピッチ取得モジュール24は、相関係数の最大値に応じてピッチを得る。
【0079】
一実施形態による装置には、更に、前処理モジュール25を含み得る。前処理モジュール25は、入力音声信号を前処理する。具体的には、前処理モジュール25は、低域通過フィルタ処理又はダウンサンプリング処理を実施し、そして、前処理した入力音声信号を検索モジュール21、対象窓モジュール22、及び計算モジュール23に送信する。
【0080】
本実施形態は、対象窓を設定し、その対象窓をスライドし、各引窓及び対象窓における信号の相関係数を計算して相関係数の最大値を得て、相関係数の最大値に応じてピッチを得る。このことは、フレーム全体における入力音声信号の相関関数値を計算することなく行われ、これにより、ピッチ検索が大幅に簡素化される。
【0081】
当業者にとって理解可能なように、上記方法実施形態の全ての又は一部のステップは、プログラムによって指示されるハードウェアで実現し得る。そのプログラムは、コンピュータ判読可能記憶媒体に記憶し得る。実行時、プログラムは、上記方法実施形態のステップを実施する。記憶媒体は、プログラムコードの記憶に適した任意の媒体であってよく、例えば、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、又はコンパクトディスクであってよい。
【0082】
幾つかの代表的実施形態を通して本発明について述べたが、本発明は、そのような実施形態に限定されない。当業者が、本発明の精神及び範囲から逸脱することなく、本発明に対して修正や変更を行い得ることは、明らかである。本発明は、修正及び変更が、以下の請求項又はそれらの等価物によって定義される保護の範囲内にあることを前提に、それらを網羅しようとするものである。
【符号の説明】
【0083】
11 特性値取得モジュール
12 ピッチ取得モジュール
13 対象窓ユニット
14 特性値取得ユニット
15 検索モジュール
16 前処理モジュール
21 検索モジュール
22 対象窓モジュール
23 計算モジュール
24 ピッチ取得モジュール
25 前処理モジュール

【特許請求の範囲】
【請求項1】
ピッチ検索のための方法であって、
入力音声信号をダウンサンプリングする(201)段階と、
予め設定されたピッチ範囲の各ピッチに対応する前記ダウンサンプリングされた入力音声信号の残差信号を計算する(204)段階と、
前記予め設定されたピッチ範囲の各ピッチに対応する残差信号の残差信号エネルギ値を計算する(205)段階と、ここに、前記残差信号は、前記ダウンサンプリングされた入力音声信号からLTP(長期予測)寄与信号を除去した結果であり、
前記計算された残差信号エネルギ値の中の最小値を選択し(206)、該最小値に対応するピッチをピッチとして設定する段階と、
を含む方法。
【請求項2】
前記残差信号の残差信号エネルギ値を計算する前記段階は、
前記ダウンサンプリングされた入力音声信号用の対象窓を設定し(203)、前記対象窓の中の前記残差信号の前記残差信号エネルギ値を得る段階
を含む請求項1に記載の方法。
【請求項3】
前記ダウンサンプリングされた入力音声信号用の対象窓を設定する(203)前記段階は、
前記入力音声信号において最大振幅のパルスを検索する段階と、
前記パルスの位置に応じて前記対象窓を設定する段階と、
を含む請求項2に記載の方法。
【請求項4】
前記予め設定されたピッチ範囲の各ピッチに対応する残差信号の残差信号エネルギ値を計算する(205)前記段階は、
【数1】

に従って計算する段階を含み、ここに、[k1,k2] は、ピッチ範囲を表し、xk(i) は、予め設定されたピッチ範囲の各ピッチに対応する残差信号を表し、そして Ek(i) は、k に対応する残差信号のエネルギを表す、請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
LTP寄与信号は、LTP励振信号 y2(i-k) 及びピッチ利得に基づき決定され、y2(n) は、ダウンサンプリングされた入力音声信号を表し、k は、前記ピッチ範囲の各ピッチを表す、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記ピッチ利得は、固定値であるか、又は前記予め設定されたピッチ範囲の前記ピッチに応じて適応して決定された値である請求項5に記載の方法。
【請求項7】
前記予め設定されたピッチ範囲の各ピッチに対応する前記残差信号は、
【数2】

に従って計算され、ここに、xk(i) は、前記予め設定されたピッチ範囲の各ピッチに対応する残差信号を表し、y2(n) は、前記ダウンサンプリングされた入力音声信号を表し、k は、前記ピッチ範囲の各ピッチを表し、対象窓の範囲は、[s min, s max] であり、Lは、前記入力音声信号の長さである、請求項2乃至6のいずれか一項に記載の方法。
【請求項8】
コンピュータプロセッサによって実行されるとき、請求項1乃至7のいずれか一項に記載の段階を該コンピュータプロセッサに実行させるコンピュータプログラムコードを含むコンピュータ判読可能記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2013−68977(P2013−68977A)
【公開日】平成25年4月18日(2013.4.18)
【国際特許分類】
【出願番号】特願2013−12618(P2013−12618)
【出願日】平成25年1月25日(2013.1.25)
【分割の表示】特願2009−298386(P2009−298386)の分割
【原出願日】平成21年12月28日(2009.12.28)
【出願人】(504277388)▲ホア▼▲ウェイ▼技術有限公司 (220)