説明

特に情報がない場合にデコーダで励振を生成するための過度の有声化の減衰

本発明は、連続するブロックから成る信号の合成を提案する。それは、より詳しくは、このような信号の受信時に、この信号の失われたブロック又は誤ったブロックを合成によって置換することを提案する。このために、それは、合成信号の生成の間の過度の有声化の減衰を提案する。より詳しくは、有声励振は、先行するブロックで推定または送出されたピッチ周期(T)に基づいて、(サンプルの数に関して計数された)この周期の期間のうちの1サンプルのプラスまたはマイナスの訂正を任意に適用することによって、少なくとも2サンプルのグループ(A’,B’,C’,D’)を構成して、ランダムに(B’,C’)、または強制的方法で、グループの中でサンプルの位置を反転させることによって、生成される。生成された励振における過度の調波性は壊され、生成された信号の合成における過度の有声化の影響は、これにより減らされる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタルオーディオ信号、例えば電気通信におけるスピーチ信号の処理、特に、このような信号のデコーディングに関する。
【背景技術】
【0002】
簡潔に言うと、スピーチ信号は、その最近の過去(例えば8kHzでは8から12サンプル)から、短いウインドウにわたって評価されるパラメータ(この例では10から20ms)を用いて予測され得ることが想起される。(例えば子音を発音するための)声道伝達関数を表しているこれらの短期予測パラメータは、線形予測コーディング(LPC)法によって取得される。より長期の相関も、声帯の振動から生じる有声音(例えば母音)の周期性を決定するために用いられる。これは、少なくとも有声信号の基本周波数を決定することを含む。これは、通常は、話者によって60Hz(低い音声)から600Hz(高い音声)まで変化する。そして、長期予測(LTP)分析が、長期予測手段のLTPパラメータを決定するために用いられ、特に、基本周波数の逆数は、しばしば「ピッチ周期」と呼ばれる。ピッチ周期中のサンプルの数は、関係式F/F(またはその整数部)によって定義される。ここで、
− Fは、サンプリングレートであり、
− Fは、基本周波数である。
【0003】
従って、ピッチ周期を含む長期予測LTPパラメータは、(有声化される時の)スピーチ信号の基本振動を表す一方で、短期予測LPCパラメータは、この信号のスペクトルエンベロープを表すことが想起される。
【0004】
従って、スピーチコーディングから生じるこれらのLPCおよびLTPパラメータのセットは、元のスピーチが復元され得るように、1つ以上の電気通信ネットワークを経由して、対応するデコーダに、ブロック毎に送信される。
【0005】
ブロック毎のこのような信号の通信のフレームワークの中で、1つ以上の連続するブロックの損失が起こり得る。用語「ブロック」は信号データの系列を意味していて、これは、例えば、移動無線通信におけるフレームであってもよいし、またはインターネットプロトコル(IP)等を通じての通信におけるパケットであってもよい。
【0006】
例えば、移動無線通信において、ほとんどの予測合成コーディング技術、特に「コード励振線形予測(code excited linear predictive)」(CELP)型のコーディングは、消去されたフレームの回復のための解決策を提案する。デコーダは、例えばチャネルデコーダから生じるフレーム消去情報の送信によって、消去されたフレームの発生を知らされる。消去されたフレームの回復は、有効であると考えられる1つ以上の先行フレームから、消去されたフレームのパラメータを推定することを目指す。予測コーダによって処理またはコード化されたあるパラメータは、フレーム間に高い相関を有している。通常、これは、例えば有声音に対する長期予測LTPパラメータ、および短期予測LPCパラメータを含む。この相関のおかげで、消去されたフレームを合成するために、最後の有効なフレームのパラメータを再利用することは、ランダムな、誤りですらあるパラメータを用いるより、ずっと有利である。
【0007】
CELP励振(excitation)を生成するための標準的な方法において、消去されたフレームのパラメータは、以下のようにして得られる。
【0008】
復元されるべきフレームのLPCパラメータは、最後の有効なフレームのLPCパラメータから、単純なパラメータのコピーによって、またはある程度の減衰(例えばG723.1標準化コーダにおいて用いられる技術)の導入と共に、得られる。そして、消去されたフレームでの信号の調波性(harmonicity)の程度を決定するために、有声化(voicing)または無声化(non-voicing)がスピーチ信号の中で検出される。
【0009】
信号が無声化されている場合、励振信号は、(過去の励振からコード名を取ることによって、過去の励振のゲインのわずかな減衰によって、過去の励振の中でのランダムな選択によって、または全く誤りであり得る更に送信されたコードを用いることによって、)ランダムに生成され得る。
【0010】
信号が有声化されている場合、ピッチ周期(「LTP遅延」とも呼ばれる)は、通常、任意に、わずかな「ジッタ」(連続するエラーフレームに対するLTP遅延の値の増加、このLTPゲインは、1に非常に近いか、1に等しい値を取る)と共に、先行フレームに対して計算される。従って、励振信号は、過去の励振から実行される長期予測に限られる。
【0011】
デコーディングで消去されたフレームの隠蔽の手段は、通常、デコーダの構成と強く関係しており、例えば信号合成モジュールのような、このデコーダのモジュールと共通であり得る。これらの手段も、デコーダの中で利用可能な中間信号、例えば、消去されたフレームに先行する有効なフレームの処理の間に格納された過去の励振信号を用いる。
【0012】
時間型コーディングに従ってコード化されたデータの輸送の間に失われたパケットによって引き起こされたエラーを隠すために用いられる特定の技術は、しばしば波形置換技術に依存する。このような技術は、失われた周期の前のデコードされた信号の一部を選択することによって、信号を再構成することを目指していて、合成モデルを実現していない。さらに、スムージング技術が、異なる信号の連結によって生じる人工産物を回避するために用いられる。
【0013】
変換コーディングによってコード化された信号上で動作するデコーダのために、消去されたフレームを復元するための技術は、一般に、用いられるコーディングの構成に依存する。特定の技術は、消去の前にこれらの係数によって取られる値から、失われた変換された係数を再生させることを目指す。
【0014】
消去されたフレームの隠蔽のための他の技術は、チャネルコーディングと共同で開発された。それらは、チャネルデコーダによって提供される情報、例えば受信したパラメータの信頼性の程度に関する情報を利用する。ここで、逆に言えば、本発明の主題は、チャネルコーダの存在を前提としないことであることがわかる。
【0015】
Combescureらによる"A 16.24.32 kbit/s Wideband Speech Codec Based on ATCELP", P. Combescure, J. Schnitzler, K. Ficher, R. Kirchherr, C. Lamblin, A. Le Guyader, D. Massaloux, C. Quinquis, J. Stegmann, P. Vary, ICASSP (1998) Conference Proceedingsの中で、変換コーダのためのCELPコーダの中で用いられたものと等しい消去されたフレームの隠蔽方法の使用のための提案がなされた。
【0016】
この方法の欠点は、可聴スペクトル歪み(「人工的な」音声、望ましくない反響など)の導入であった。これらの欠点は、特に、十分に制御されていない長期合成フィルタの使用(有声音(voiced sounds)の中の1つの調波成分(harmonic component)、無声音(non-voiced sounds)の中の過去の残留信号のうちの一部の使用)が原因であった。さらに、エネルギー制御は、励振信号レベルで、ここで実行され、そして、この信号のエネルギー目標は、消去の全期間の間、一定に保たれ、これが、また、問題となる可聴人工産物を生じる。
【0017】
FR-2.813.722において、消去されたフレームの隠蔽のための技術が提案されている。これは、より高い誤り率で、および/または、より長い消去間隔の間、より大きな歪みを生じることがない。この技術は、有声音に対する過剰な周期性を防止して、無声励振の生成の制御を改善することを目指す。このために、(もし有声化されていれば)励振信号は、以下の2つの信号の合計と考えられる。
− 帯域が全スペクトルのうちの低周波数に限られている高度調波成分(highly harmonic component)。
− より高い周波数に限られている他のより劣る調波成分。
【0018】
高度調波成分は、LTPフィルタリングによって得られる。2番目の成分も、その基本周期のランダムな変更によって非周期性とされたLTPフィルタリングによって得られる。
【発明の概要】
【発明が解決しようとする課題】
【0019】
CELPコーダの中でこれまで用いられていたエラー隠蔽技術の主な課題は、有声励振の生成にある。
これは、いくつかの連続するフレームが失われる時の、
いくつかのフレームにわたる同じピッチ周期の反復による、過度の有声化(overvoicing)の効果に帰着し得る。
【0020】
本発明は、この状況の改善を提供する。
【課題を解決するための手段】
【0021】
このために、本発明は、サンプルの連続するブロックによって表されるデジタルオーディオ信号を合成するための方法を提案する。このような信号を受信したら、少なくとも1つの無効なブロックを置換するために、この無効なブロックに先行する少なくとも1つの有効なブロックのサンプルから置換ブロックが生成される。
【0022】
本発明による方法は、以下のステップを有している。
a) 無効なブロックに先行する少なくとも1つの最後の有効なブロックの中で系列を形成しているサンプルの選ばれた数を選択するステップ。
b) サンプルの系列をサンプルのグループに分解して、グループの少なくとも一部において、予め定められた規則に従ってサンプルを反転させるステップ。
c) 置換ブロックのうちの少なくとも一部を形成するために、ステップb)で反転されたもののうちの少なくともいくつかのサンプルのグループを再度連結するステップ。
d) ステップc)で得られた前記一部が置換ブロックの全体を満たさない場合には、前記一部を置換ブロックの中にコピーして、前記コピーされた一部に対して再度ステップa),b),c)を適用するステップ。
【0023】
サンプルの反転(これは、サンプルの非常に単純な操作から成り、計算および処理手段に関して低コストである)の目的は、もしピッチ周期の単純なコピーが用いられたら存在し得る過度の調波性を「壊す」ことである。
【0024】
このように、本発明によって提供される利点の中で、その実施は、非常に安い計算コストだけを要求する。
【0025】
都合のよいことに、本発明は、デジタルオーディオ信号が有声スピーチ信号である場合に適用され得る。より詳しくは、弱い有声に適用され得る。なぜなら、この場合には、ピッチ周期の単純なコピーは、平凡な結果をもたらすからである。従って、有利な特徴に従って、信号が少なくとも弱く有声化されている場合には、有声化の程度がスピーチ信号の中で検出されて、ステップa)からd)が適用される。
【0026】
本発明は、好都合にも、ステップb)でのグループを構成するデジタルオーディオ信号の基本周波数に依存する。従って、好都合にも、ステップa)において、
a1) トーンが、デジタルオーディオ信号の中で検出され、
a2) ステップa)の中で選択されたサンプルの前記選ばれた数は、検出されたトーンの基本周波数の逆数に相当する周期に含まれるサンプルの数に相当する。
【0027】
もちろん、スピーチ信号の場合、動作a1)は、有声化を検出することから成り、動作a2)は、スピーチ信号が有声化されている場合、サンプルの数を選択することを含み、これは、全ピッチ周期(音声トーンの基本周波数の逆数)にわたって続く。それにもかかわらず、この実現は、スピーチ信号以外の信号を含み得ることを示している。特に、全部の音楽トーンに特有の基本周波数がその中で検出され得る場合、音楽信号を含み得る。
【0028】
一実施形態において、ステップb)の分解は、2サンプルのグループ毎に実行され、1つのグループのサンプルの位置は、一つを他に反転させ得る。
【0029】
しかし、本実施形態において、場合を区別することは、適切である。ここで、ピッチ周期(または、さらに一般的にいえば、基本周波数の逆数の周期)は、偶数個または奇数個のサンプルを含む。特に、検出されたトーンの周期に含まれるサンプルの数が偶数である場合には、ステップa)の選択を形成するために、奇数個のサンプル(好ましくは1つのサンプル)が、好都合にも前記周期のサンプルに加算されるか、または前記周期のサンプルから減算される。
【0030】
「反転の予め定められた規則」が何を意味しているかを特定することは、また、適切である。これらの規則は、受信した信号の特性に従って選ばれ得るが、特に、ステップb)でグループ当たりのサンプルの数を課し、かつ1つのグループの中でサンプルを反転させる方法を課す。上記実施形態においては、2つのサンプルのグループ、および、これらの2つのサンプルのそれぞれの位置の単純な反転が提供される。しかし、他の構成も可能である(2つ以上のサンプルを含むグループ、および、このようなグループの全サンプルの置換)。さらに、反転規則は、反転が実行されるグループの数を設定することもできる。特定の実施形態は、各グループにおけるサンプル反転の例をランダム化すること、および、グループのサンプルの反転または非反転のための確率閾値を設定することから成る。この確率閾値は、一定値または可変値を有することができ、好都合にも、ピッチ周期に関する相関関数に依存する。この場合、ピッチ周期自体の正式な決定は必要ない。さらに一般的に言えば、受信した有効な信号が単純に無声化されていれば、本発明が意図する範囲内での処理も実行され得る。この場合、実際の検出可能なピッチ周期はない。この場合、所定の任意の数のサンプル(例えば200サンプル)を設定して、この数のサンプル上で、本発明が意図する範囲内での処理を実行する。また、検索をある値の間隔に制限することによって、相関関数の最大値に対応する値をとることは可能である(例えば、MAX_PITCH/2とMAX_PITCHとの間、ここで、MAX_PITCHは、ピッチ周期の検索における最大値である)。
【発明の効果】
【0031】
過度の有声化の減衰を提案する本発明は、今後詳述する実施形態から明らかになるであろうが、以下の利点を提供する。
− 1ブロックの損失の間に合成されたスピーチは、もはや実際に過度の調波性または過度の有声化現象を示すことはない。
− 有声励振を生成するために必要な複雑さは、非常に低い。
【0032】
さらに、更なる利点および本発明の特徴が、今後例として与えられる詳細な説明および添付の図面の検討によって明らかになるであろう。
【図面の簡単な説明】
【0033】
【図1】2サンプルのブロック上で、サンプルのランダムな反転を組み込むことによって、過度の有声化の影響が減らされることを可能にする励振の生成の原理を示している。示した例においては、全ピッチ周期にわたって、50%の確率を有している。
【図2】サンプルの反転を組み込んでいる励振の生成の原理を示している。ここで示した例においては、全ピッチ周期にわたって、2サンプルのブロック上で、規則的である。
【図3a】ピッチ周期が奇数個のサンプルを含むと推定された場合の、信号に対する図2の規則的な反転の適用を示している。
【図3b】単なる例としての、ピッチ周期が偶数個のサンプルを含むと推定された場合の、信号に対する図2の規則的な反転の適用を示している。
【図3c】含まれるサンプルの数に関して、この期間を奇数にするために、ピッチ周期に対応する期間に対するサンプルの追加による訂正を伴う、図2の規則的な反転の適用を示している。
【図4】デコーディングにおける、本発明が意図する範囲内での方法の主なステップを概略的に示している。
【図5】本発明が意図する範囲内での方法の実施のための合成装置を備えている、デジタルオーディオ信号を受信するための装置の構成を非常に概略的に示している。
【発明を実施するための形態】
【0034】
まず、本発明の実施の状況を示している図4が参照される。デコーディングにおいて、入力信号Siを受信したら、1つ以上の連続するブロックの損失が検出される(テスト50)。1ブロックの損失も確認されない場合(テスト50の出力における矢印Y)、もちろん問題は起こらず、図4の処理は終了する。
【0035】
他方、1つ以上の連続するブロックの損失が確認された場合(テスト50の出力における矢印N)、信号の有声化の程度が検出される(テスト51)。
【0036】
信号が無声化されている場合(テスト51の出力における矢印N)、失われたブロックは、例えば、「快適雑音」52と呼ばれる可聴白色雑音によって置換され、復元されたブロックのサンプルのゲイン61が調整される。制御は、例えば、展開法の適応によって、復元された信号Soのエネルギー上で行われ得る。そして/または、モデルのパラメータを快適雑音52のような残余信号に変更させる。
【0037】
本発明の一変形例においては、信号の2つのクラスだけが考慮される。すなわち、一方では有声信号、他方では弱い有声または無声信号が考慮される。この変形例の利点は、無声信号の生成が弱い有声の合成と同じだということである。前述したように、無声信号のために用いられる「ピッチ周期」は、好ましくは非常に大きいランダムな値(例えば200サンプル)である。無声ブロックにおいて、先行する信号は、調波ではない。十分に大きい周期に対して本発明が意図する範囲内での処理を適用することによって、生成された信号が調波ではないままであることが、保証され得る。信号の性質は、好都合にも保持されるが、それは、ランダムに生成された信号(例えば白色雑音)を用いるときの場合ではない。
【0038】
信号が高度に有声化されている場合(テスト51の出力における矢印Y)、失われたブロックは、ピッチ周期Tをコピーすることによって置換される。このようにして受信した信号Siの最後のまだ有効な部分の中で識別されたピッチ周期Tが(当然公知である任意の技術53を用いて)決定される。このピッチ周期Tのサンプルは、それから、失われたブロックにコピーされる(参照番号54)。それから、適切なゲイン61が、(例えば減衰または「フェーディング」を実行するために、)このようにして置換されたサンプルに適用される。
【0039】
記載されている例において、信号が平均的に有声化されている場合(または、洗練されていないが、より一般的な変形において、信号が単に有声化されている場合)、本発明が意図する範囲内での方法が適用される(有声化の程度に関するテスト51の出力における矢印A)。
【0040】
図1および2に関して、本発明の原理は、少なくとも2つのサンプルのグループ毎に、受信した最後の有効なブロックのサンプルを組み立てることから成る。図1および2の例において、これらのサンプルは、実際には、2つ一組でグループ化されている。しかし、それらは、2つ以上のサンプル毎にグループ化され得る。その場合には、今後詳述するが、グループ毎のサンプルの反転に対する規則およびピッチ周期Tのサンプルの数におけるパリティを考慮することが、若干適合される。
【0041】
特に図2を参照すると、受信した最後の有効なブロックにおける2サンプルのグループA,B,C,Dは、コピーされて、受信した最後のサンプルと連結される。しかし、A’,B’,C’,D’が示された、これらのコピーされたグループにおいて、各グループにおける2つのサンプルの値は、反転される(または、それらの値は保持され、それらのそれぞれの位置が反転される)。従って、グループAは、(図2のグループA’における2つの矢印に従って)グループAに関して反転されたその2つのサンプルを有するグループA’になる。グループBは、グループBに関して反転されたその2つのサンプルを有するグループB’になる、等々。グループA’,B’,C’,D’のコピーおよび連結は、好都合にもピッチ周期Tを考慮に入れて実行される。このように、グループAの反転されたサンプルによって構成されるグループA’は、ピッチ周期Tの期間に対応するサンプルの数だけグループAから引き離される。同様に、グループB’は、ピッチ周期Tに対応する期間だけグループBから引き離される、等々。
【0042】
図2において、グループ毎のサンプルの反転は、規則的である。図1に示したような変形例において、この反転の発生は、ランダム化され得る。それは、1つのグループのサンプルを反転させるか、または反転させないための確率閾値pを設定することによって提供され得る。図1に示した例においては、閾値pは50%に設定されている。従って、4つのグループのうち、2つのグループB’,C’のみが、反転されたサンプルを有している。さらに、確率閾値pを可変にすることが提供され得る。特に、以下で説明するが、それをピッチ周期Tに関する相関関数に依存するようにすることが提供され得る。
【0043】
図2に示した、グループ毎のサンプルの規則的な反転が適用される実施形態の説明に戻り、今度は図3aを参照すると、そこでは、ピッチ周期Tに相当する期間を有しているが、ペアになっているサンプルが反転された、サンプルの新しい系列T’が得られている。図3aには、信号Siにおいて、最後の有効なブロックのうちの最後のサンプルが受信され、デコーダ内に保存されることが示されている。この場合、反転は、推定された相関に沿って規則的であって、ランダムではないので、有声信号のピッチ周期Tが(当然公知の手段によって)決定され、ピッチ周期Tの期間にわたって続く信号Siにおける最後のサンプル10,11,…22が収集される。最初の2つのサンプル10および11は、Soと標記された復元されるべき信号の中で反転される。第3および第4のサンプル12および13も反転される、等々。ピッチ周期と同じ期間にわたって続くサンプル11,10,13,12,…の系列T’が得られる。いくつかのピッチ周期にわたって続いているいくつかのブロックがデコーディングで失われた場合、信号Soの復元は、系列T’を取ることによって継続され、新しい系列T”を得るために、その中で、系列T’のうちのペアになっているサンプルの反転が再開される、等々。
【0044】
図3aの場合、周期T,T’,T”当たりのサンプルの数は、1つの奇数に等しい(示した例においては13個のサンプル)。これは、信号Soの復元が進行する際に、サンプルの漸進的な混合を得て、これにより過度の調波性(または、換言すれば、復元された信号の過度の有声化)の効果的減衰を得ることを可能にする。
【0045】
他方、周期T,T’,T”当たりのサンプルの数が偶数である(示した例においては12個のサンプル)図3bに示した場合においては、ピッチ周期Tのうちのペアになっているサンプルの2回反転(周期Tから周期T’へ、それから周期T’から周期T”へ)を実行することによって、系列T”の中にピッチ周期Tと正確に同じ系列が発見され、これは、過度の調波性を生じる。
【0046】
この問題は、グループ毎に反転すべきサンプルの数を変更する(例えばグループ毎に奇数個のサンプルを取る)ことによって解決され得る。
【0047】
更なる実施形態が図3cに示されている。この実施形態は、ピッチ周期が偶数個のサンプルを有しているときに、そして反転がグループ毎に偶数個のサンプルを伴うときに、単に、復元されるべき信号のピッチ周期に奇数個のサンプルを加えることから成る。図3cにおいて、最後に検出されたピッチ周期Tは、12個のサンプル31,32,…42を有している。そこで、1つのサンプルが、このピッチ周期に加えられ、奇数個のサンプルを有する周期T+1が得られる。かくして、図3cに示した例において、サンプル30は、メモリのうちの最初のサンプルになり、そこから図2(または図3a)に示したようなペアになったサンプルの反転が適用される。奇数個のサンプルを有する復元された信号Soの周期T’が得られる。これに対して、再び奇数個のサンプルを有する周期T”を得るために、ペアになったサンプルの反転が再び適用される、等々。系列T”のサンプル33,30,35,32,34,…は、今度は、元のピッチ周期Tのサンプル30,31,32,33,…の系列とは非常に異なることに注意するべきである。
【0048】
示した例の中で図2,3aおよび3cに示した実施形態を実現する図4を再度参照すると、信号Siが平均的に有声化されている時(テスト51の出力における矢印A)、ピッチ周期Tは、(当然公知であり得る技術56によって)有効に受信された信号Siの最後のサンプル上で決定される。ピッチ周期Tの中のサンプルが奇数であるか偶数であるかが検出される。この数が奇数の場合(テスト57の出力における矢印N)、図3aを参照して上述したように、ペアになったサンプルの反転(ステップ58)が直接実行される。ピッチ周期Tの中のサンプルの数が偶数の場合(テスト57の出力における矢印Y)、図3cを参照して上述した処理に従って、1つのサンプルがピッチ周期Tに加えられて(ステップ59)、ペアになったサンプルの反転(ステップ58)が実行される。そして、オプションとして、最終的に復元された信号Soを形成するために、選ばれたゲイン61が、このようにして得られたサンプルの系列に適用される。
【0049】
図4を参照して前述したように、ピッチ周期は、最初は、1つ以上の先行フレームから算出される。それから、低減された調波性の励振が、規則的な反転を有する図2に示した方法で生成される。しかし、図1に示した変形例において、それは、ランダムな反転によって生成され得る。有声励振サンプルのこの不規則な反転は、好都合にも、過度の調波性を減衰させることを可能にする。この有利な実施形態は、以下で詳述される。
【0050】
通常、ピッチ周期の単純なコピーにおいて、有声励振は、以下の形の式によって算出される。
【0051】
【数1】

【0052】
ここで、Tは、推定されるピッチ周期であり、gltpは、選ばれたLTPゲインである。
【0053】
本発明の一実施形態において、有声励振は、2サンプルのグループ毎に、以下の処理によるランダムな反転によって算出される。
【0054】
まず、区間[0;1]の中でランダムな数xが生成される。そして、xの値に従って、
・x<pである場合、s(n)およびs(n+1)は式(1)から算出される。
・x≧pである場合、s(n)およびs(n+1)は以下の式(2)および(3)に従って算出される。
【0055】
【数2】

【0056】
【数3】

【0057】
値pは、2つのサンプルs(n)およびs(n+1)を反転させる確率を表す。例えば、値pは、p=50%に設定され得る。
【0058】
有利な変形例において、例えば、以下の形で可変の確率を選択することもできる。
【0059】
【数4】

【0060】
ここで、変数corrは、ピッチ周期にわたる相関関数の最大値に相当し、Corr(T)と標記される。ピッチ周期Tに対して、相関関数Corr(T)は、保存された信号の終わりの2*Tm個のサンプルのみを用いて算出され、
【0061】
【数5】

【0062】
ここで、m0 ... mLmem-1は、先行してデコードされた信号の最後のサンプルであり、デコーダメモリの中でまだ利用可能である。
【0063】
この式から、このメモリの長さLmem(保存されるサンプルの数)は、ピッチ周期の期間(サンプルの数)の最大値の少なくとも2倍に等しくなければならないことは理解されよう。最も低い音声(50Hzのオーダーの最低基本周波数)を考慮に入れるために、保存されるべきサンプルの数は、低い狭帯域サンプリングレートに対しては、300のオーダーであり得る。そして、より高いサンプリングレートに対しては、300以上であり得る。
【0064】
式(5)によって与えられる相関関数corr(T)は、変数Tがピッチ周期Tに相当するとき、最大値に達する。そして、この最大値は、有声化の程度を示す。一般に、この最大値が1に非常に近い場合、この信号は高度に有声化されている。0に近い場合、この信号は有声化されていない。
【0065】
この実施形態において、ピッチ周期の事前の決定が、反転するサンプルのグループを作るために必要ではないことは理解されよう。特に、ピッチ周期Tの決定は、上式(5)を適用することによって、本発明が意図する範囲内でのグループの作成と共同で実行され得る。
【0066】
信号が高度に有声化されている場合、確率pは非常に高く、有声化は式(1)による計算に従って保持される。他方、信号Siの有声化があまり際立っていない場合、確率pは低くなり、好都合にも式(2)および(3)が用いられる。
【0067】
もちろん、他の相関計算も用いられ得る。
【0068】
例えば、予め定義されたクラスに従って調波励振を計算することも可能である。高度に有声化されたクラスのためには、好ましくは式(1)が用いられる。平均的または弱く有声化されたクラスのためには、好ましくは式(2)および(3)が用いられる。無声化されたクラスのためには、調波励振は生成されず、励振は白色雑音から生成され得る。しかし、前述した変形例において、式(2)および(3)は、同様に、十分に大きい任意のピッチ周期と共に用いられる。
【0069】
さらに一般的に言えば、本発明は、例として上述した実施形態に限られず、他の変形例まで拡張される。
【0070】
上記で詳述した本発明の実施形態において、CELP予測合成によるコーディングにおける励振生成は、フレーム伝送エラーの隠蔽の状況において、過度の有声化を避けることを目指す。しかし、帯域拡張のために本発明の原理を用いることは、想定され得る。CELP(またはCELPサブバンド)型のモデルに基づいて、(データ伝送の有無に関わらず)帯域拡張システムにおいて拡張した帯域幅の励振の生成を用いることは可能である。高周波帯域の励振は、前述したように計算することができ、これは、この励振の過度の調波性を制限することができる。
【0071】
さらに、本発明の実施は、特に、ネットワーク上の信号のフレームまたはパケット通信、例えば“voice over internet protocol (VOIP)”に適していて、このようなパケットが失われたときに、IP上で許容できる品質を提供しつつ、一方で、限られた複雑さを保証する。
【0072】
もちろん、サンプルの反転は、2つより大きいサイズのサンプルのグループ上で実行され得る。
【0073】
さらに、無効なブロックに先行する有効なブロックのサンプルから、無効なブロックのための置換ブロックを生成することは、上述した。一変形例において、上記の代わりとして、無効なブロックの合成(事後合成)を実行するために、無効なブロックに続く有効なブロックによることも可能である。この実施は、特に、いくつかの連続する無効なブロックを合成するために、かつ、特に、以下のものを合成するために、有利であり得る。
− 先行する有効なブロックから、これらのブロックの直後に続く無効なブロックを合成する。
− 次に続く有効なブロックから、これらのブロックの直前の無効なブロックを合成する。
【0074】
本発明は、また、デジタルオーディオ信号合成装置のメモリに保存されることを意図しているコンピュータプログラムを含む。このプログラムは、それがこのような合成装置のプロセッサによって実行される時の、本発明が意図する範囲内での方法の実施のための命令を含む。さらに、前述した図4は、このようなコンピュータプログラムの流れ図を示すことができる。
【0075】
さらに、本発明は、ブロックの系列によって構成されるデジタルオーディオ信号合成装置を含む。この装置は、上述したコンピュータプログラムを保存するメモリを更に備えることができる。図5を参照すると、この装置SYNは、以下のものを備えている。
− 合成されるべき少なくとも1つの現行ブロックに先行する信号Siのブロックを受信するための入力部I。
− 少なくとも合成された現行ブロックを含む合成信号Soを送出するための出力部O。
【0076】
本発明の意図する範囲内での合成装置SYNは、ワーキング記憶メモリMEM(または上述したコンピュータプログラムを保存するためのメモリ)のような手段と、本発明の意図する範囲内での方法の実施のため、従って、信号Siの先行するブロックのうちの少なくとも1つから始まる現行ブロックを合成するための、このメモリMEMと協働するプロセッサPROCとを備えている。
【0077】
本発明は、また、ブロックの系列によって構成されるデジタルオーディオ信号を受信する装置、例えば、このような信号のデコーダを含む。再び図5を参照すると、この装置は、本発明の意図する範囲内での装置SYNに加えて、好都合にも、無効なブロックの検出器DETを備えることができる。装置SYNは、検出器DETによって検出された無効なブロックを合成する。
【符号の説明】
【0078】
I 入力部
O 出力部
SYN 合成装置
MEM メモリ
PROC プロセッサ
DET 検出器

【特許請求の範囲】
【請求項1】
サンプルの連続するブロックによって表された、デジタルオーディオ信号を合成するための方法において、このような信号を受信したら、少なくとも1つの無効なブロックを置換するために、置換ブロックが、無効なブロックに先行する少なくとも1つの有効なブロックのサンプルから生成され、
a) 無効なブロックに先行する少なくとも1つの最後の有効なブロックの中で系列を形成しているサンプルの選ばれた数を選択するステップと、
b) サンプルの系列をサンプルのグループ(A,B,C,D)に分解して、グループのうちの少なくとも一部において、予め定められた規則に従ってサンプルを反転させるステップと、
c) 置換ブロックのうちの少なくとも一部(T”)を形成するために、少なくともステップb)で反転されたもののうちのいくつかのサンプルのグループ(A’,B’,C’,D’)を再度連結するステップと、
d) ステップc)で得られた前記一部が置換ブロックの全体を満たさない場合には、前記一部(T’)を置換ブロックの中にコピーして、前記コピーされた一部に再度ステップa),b),c)を適用するステップと
を有していることを特徴とする方法。
【請求項2】
前記デジタルオーディオ信号はスピーチ信号であり、有声化の程度(51)がスピーチ信号の中で検出され、信号が、少なくとも弱く有声化されている場合には、ステップa)からd)が適用されることを特徴とする請求項1に記載の方法。
【請求項3】
前記デジタルオーディオ信号はスピーチ信号であり、有声化の程度(51)がスピーチ信号の中で検出され、信号が、弱く有声化されているか、または無声化されている場合には、ステップa)からd)が適用されることを特徴とする請求項1または2に記載の方法。
【請求項4】
ステップa)を実行するために、
a1) トーンがデジタルオーディオ信号の中で検出され(56)、
a2) ステップa)で選択されたサンプルの前記選ばれた数は、検出されたトーンの基本周波数の逆数に相当する周期(T)の中に含まれているサンプルの数に相当する
ことを特徴とする請求項1から3のうちのいずれか一項に記載の方法。
【請求項5】
ステップb)の分解は、2サンプルのグループ毎に実行され、1つのグループ(B’,C’)のサンプルの位置は、一つが他と反転されることを特徴とする請求項1から5のうちのいずれか一項に記載の方法。
【請求項6】
検出されたトーンの周期(T)の中に含まれているサンプルの数が偶数個である場合には、ステップa)の選択を形成するために、奇数個のサンプル(30)が、前記周期(T)のサンプルに加えられるか、または前記周期(T)のサンプルから減じられることを特徴とする請求項4を引用する請求項5に記載の方法。
【請求項7】
前記予め定められた規則は、各グループのサンプルの反転の例がランダム化され、かつ確率閾値(p)が、グループのサンプルを反転させるか、または反転させないために設定されることを要求することを特徴とする請求項1から6のうちのいずれか一項に記載の方法。
【請求項8】
確率閾値(p)は、可変であり、かつ前記周期(T)に関連する相関関数に依存することを特徴とする請求項4を引用する請求項7に記載の方法。
【請求項9】
デジタルオーディオ信号合成装置のメモリに格納されることを意図されたコンピュータプログラムにおいて、このような合成装置のプロセッサによって実行される時の、請求項1から8のうちのいずれか一項に記載の方法の実施のための命令を含んでいることを特徴とするコンピュータプログラム。
【請求項10】
ブロックの系列によって構成されたデジタルオーディオ信号合成装置において、
− 合成されるべき少なくとも1つの現行ブロックに先行する信号(Si)のブロックを受信するための入力部と、
− 少なくとも前記現行ブロックを含む合成された信号(So)を送出するための出力部とを備えていて、
前記先行するブロックのうちの少なくとも1つから始まる現行ブロックを合成するための、請求項1から8のうちのいずれか一項に記載の方法の実施のための手段(MEM,PROC)を備えていることを特徴とする装置。
【請求項11】
ブロックの系列によって構成されたデジタルオーディオ信号を受信するための装置において、
無効なブロックの検出器(DET)を備えていて、
無効なブロックを合成するための請求項10に記載の装置(SYN)を備えている
ことを特徴とする装置。

【図1】
image rotate

【図2】
image rotate

【図3a】
image rotate

【図3b】
image rotate

【図3c】
image rotate

【図4】
image rotate

【図5】
image rotate


【公表番号】特表2010−507120(P2010−507120A)
【公表日】平成22年3月4日(2010.3.4)
【国際特許分類】
【出願番号】特願2009−532870(P2009−532870)
【出願日】平成19年10月17日(2007.10.17)
【国際出願番号】PCT/FR2007/052188
【国際公開番号】WO2008/047051
【国際公開日】平成20年4月24日(2008.4.24)
【出願人】(591034154)フランス・テレコム (290)
【Fターム(参考)】