説明

ピッチ周期訂正を用いたデジタルオーディオ信号の損失ブロックの合成

本発明は、デジタルオーディオ信号の復号化における損失したブロックの合成のためのピッチ周期の繰り返しの前の信号修正に関する。音声信号の破裂音のような過渡の繰り返しの影響は、ピッチ周期のサンプルを前のピッチ周期のサンプルと比較することによって避けられる。好ましくは、最後のピッチ周期(T)の現在のサンプル(e(3))と、前のピッチ周期(Tj−1)におけるほぼ同じ位置の少なくとも1つのサンプル(e(2−T))との間で最小値を取得することによって信号が修正される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタルオーディオ信号(特に音声信号)の処理に関する。
これは、そのような信号の送信/受信のために適した符号化/復号化システムに関する。より詳しくは、本発明は、データブロックが失われたときに復号化された信号の品質を向上させることを可能とする受信時の処理に関する。
【背景技術】
【0002】
デジタルオーディオ信号をデジタルで変換および圧縮するための様々な技術が存在する。最も一般的な技術は次の通りである。
・パルス符号変調(PCM)および適応的差分パルス符号変調(ADPCM)のような波形符号化方法。
・符号励振線形予測(CELP)符号化のような分析合成符号化法。
・サブバンド知覚符号化法または変換符号化。
【0003】
これらの技術は、サンプル毎(PCMまたはADPCM)に、または、“フレーム”と呼ばれるサンプルのブロック毎(CELPまたは変換符号化)に、入力信号を順次処理する。簡潔には、短いウィンドウ(この例において10から20ms)にわたって評価されたパラメータを用いて最近の過去(例えば8kHzで8から12サンプル)から音声信号を予測することができることが想起される。(例えば子音を発音するための)声道伝達関数を表わすこれらの短期予測パラメータは、線形予測符号化(LPC)法によって得られる。また、声帯の振動による音声(例えば母音のような有声音で発音される音)の準周期性に関する長期の相関関係が存在する。これは、話者によって典型的に60Hz(低い声)から600Hz(高い声)まで変動する音声信号の少なくとも基本周波数を決定することを含む。そして、長期予測(LTP)分析は、長期予測子のLTPパラメータ、特に、多くの場合“ピッチ周期(pitch period)”と呼ばれる基本周波数の逆数を決定するために使用される。そして、ピッチ周期におけるサンプル数は、関係F/F(または、その整数部分)によって定義され、
・Fはサンプリング速度であり、
・Fは基本周波数である。
従って、ピッチ周期を含む長期予測LTPパラメータは(有声音で発音されるとき)音声信号の基本振動を表わし、短期予測LPCパラメータはこの信号のスペクトル包絡線を表わすことが想起される。
【0004】
ある符号化器において、音声符号化から結果として生じるこれらLPCおよびLTPパラメータの集合は、元の音声を再生することができるように、1つまたは複数の電気通信ネットワークを介して同種の復号化器にブロックで送信することができる。
【0005】
一方、音声信号の(16kHzでサンプリングされる)広帯域伝送のためにITU−T(国際電気通信連合の電気通信標準化部門)によって標準化された48、56、64kbit/sにおけるG.722符号化システムを(例として)参照する。G.722符号化は、QMF(quadrature mirror filter(直角位相ミラーフィルタ))バンクによって得られる2つのサブバンドにおけるADPCM符号化方式を有する。さらに詳細は、G.722勧告の本文を有効に参照することができる。
【0006】
図1は、G.722勧告による符号化および復号化の現状の技術の構成を表わす。ブロック100から103は入力信号Siに適用される送信QMFフィルタバンク(高い周波数102および低い周波数100へのスペクトル分離およびサブサンプリング101および103)を表わす。次のブロック104および105は、それぞれ、低い帯域および高い帯域のADPCM符号化器に対応する。ADPCM符号化器の低い帯域の出力は、それぞれ、サンプル毎に6、5、4ビット出力を指示するモード値0、1、2によって特定され、ADPCM符号化器の高い帯域の出力は固定(サンプル毎に2ビット)である。等価なADPCM復号化ブロック(ブロック106および107)が復号化器内に存在し、それらの出力は、合成信号Soを生成するために、QMF受信フィルタバンク(オーバーサンプリング108および110、逆フィルタ109および111、高い周波数帯域と低い周波数帯域の結合112)内で結合される。
【0007】
ここで検討する一般的な問題は、復号化におけるブロック損失を訂正することに関する。実際、符号化から出力されるビットストリームは、一般に、多くの種類のネットワーク上での送信のためにバイナリブロックにフォーマットされる。これらは、例えば、インターネットを介して送信されるブロックについて“インターネットプロトコル(IP)パケット”、非同期転送モード(ATM)ネットワーク上で送信されるブロックについて“フレーム”等と呼ばれる。符号化の後に送信されるブロックは様々な理由のために損失されうる。
・ネットワークのルータが過負荷で、その待ち行列をダンプしたとき。
・リアルタイムで復号化する連続的なフローの間にブロックが遅延して受信された(従って、考慮されない)とき。
・受信したブロックが壊れていたとき(例えば、CRCパリティコードが検証されないとき)。
【0008】
1つまたは複数の連続したブロックの損失が発生するとき、復号化器は損失した、また、誤りのあるブロックについての情報なしで信号を再生しなければならない。それは、受信した有効なブロックから前に復号化された情報に依存する。この問題は、“損失ブロックの訂正”(または、以下、 “消失フレームの訂正”)と呼ばれ、補間された情報と損失の後に復号化された情報との間の連続性の問題とともに、フレームの損失は、多くの場合、特にそれが予測的であるとき、符号化器と復号化器との間で同期の損失を引き起こすので、実際、紛失情報を単に補間するより一般的である。従って、消失フレームの訂正は、状態情報の回復、再収束技術、その他を含む。
【0009】
ITU−T G.711勧告の付録Iは、PCM符号化に適した消失フレームの訂正を説明している。PCM符号化は予測的でないので、フレーム損失の訂正は、単に、紛失情報を補間し、再構成されたフレームと損失に続いて正しく受信されたフレームとの間の連続性を保証することになる。補間(extrapolation)は、基本周波数(または逆に“ピッチ周期”)と同期した方法で、過去の信号の繰り返しによって、すなわち、単にピッチ周期を繰り返すことによって実現される。受信されたサンプルと補間されたサンプルとの間で平滑化またはクロスフェードによって連続性が保証される。
【0010】
非特許文献1において、G.722標準の符号化器/復号化器のために、ピッチ周期繰り返しアルゴリズム(G.711勧告の付録Iで説明されているのと類似しうる繰り返し)を使用して損失フレームを補間することによる消失フレームの訂正が提案された。G.722符号化器の状態(フィルタメモリおよびピッチ適応メモリ)を更新するために、従って、補間されたフレームは、ADPCM符号化によって再度符号化される2つのサブバンドに分割される。
【先行技術文献】
【非特許文献】
【0011】
【非特許文献1】M. Serizawa,Y. Nozawa,“A packet loss concealment method using pitch waveform repetition and internal state update on the decoded speed for the sub-band ADPCM wideband speech codec”,IEEE Speech Coding Workshop,p.68-70,2002年
【発明の概要】
【発明が解決しようとする課題】
【0012】
しかしながら、ピッチ周期の繰り返しによるフレーム損失の訂正のためのそのような技術は、過去の信号が定常(stationary)であり、または、少なくとも周期的に定常であるときのみ正しく動作しうる。従って、(補間されなければならない)損失したフレームに対応する信号が、フレーム損失までに復号化された信号に“類似”であるという暗黙の前提に依存している。音声信号の場合、この定常の前提は、繰り返される母音部分のような音についてのみ厳密に有効である。例えば、母音“a”はいくつか繰り返すことができる(聞き辛さを引き起こすことなく、“aaaa”等となる)。音声信号は、“過渡(transitory)”と呼ばれる音(典型的に母音の出だし(開始)を含む定常でない音、および、“p”、“b”、“d”、“t”、“k”のような短い子音に対応する“破裂音”と呼ばれる音)を含む。従って、例えば、音“t”の直後でフレームが損失したならば、いくつかの連続したフレームの損失(例えば、連続した5つの損失)が存在するとき、単なる繰り返しによるフレーム損失の訂正は、たいへん聞き苦しい連続した“t”のバースト(“t−t−t−t−t”)を生じる。
【0013】
図2aおよび2bはG.722勧告による符号化器によって符号化された広帯域信号の場合における音響の影響を表わす。より詳しくは、図2aは(フレーム損失のない)理想的なチャンネルにおいて復号化された音声信号を表わす。表わされた例において、この信号はフランス語の“temps”に対応し、2つのフランス語の音素/t/そして/an/に分割される。垂直方向の点線はフレーム間の境界を表わす。ここで検討するフレームの長さは約10msである。図2bは、フレーム損失が音素/t/の直後であるとき、非特許文献1のものに類似の技術によって復号化された信号を表わす。この図2bは、過去の信号の繰り返しの問題を明瞭に表わす。補間されたフレームにおいて音素/t/が繰り返されることに留意すべきである。通常の状態での(すなわち、受信された信号における有効なデータが存在している)復号化とのクロスフェーディングを実行するために、表わされている例において、損失の後に補間がわずかに拡大されるので、音素/t/は次のフレームにも存在する。
【0014】
破裂音の繰り返しの問題は、明らかに、知られた先行技術において言及されていない。
【課題を解決するための手段】
【0015】
本発明は、この状況における向上を提供する。
【0016】
この目的のために、サンプルの連続したブロックによって表わされるデジタルオーディオ信号を合成する方法を提供し、デジタルオーディオ信号を受信すると、少なくとも1つの無効なブロックを置換するために、少なくとも1つの有効なブロックのサンプルから置換ブロックが生成される。
前記方法は、概して、次のステップ、
a) 少なくとも1つの有効なブロックにおいて前記デジタルオーディオ信号の繰り返し周期を決定するステップと、
b) 前記繰り返し周期のサンプルを少なくとも1つの置換ブロックに複製するステップと、を有する。
本発明による方法において、
ステップa)において、無効なブロックの直前の少なくとも1つの有効なブロックにおいて最後の繰り返し周期が決定され、
ステップb)において、前記最後の繰り返し周期において存在しうる過渡の信号の振幅を制限するために、前の繰り返し周期のサンプルに従って、前記最後の繰り返し周期のサンプルが訂正される。
従って、前記訂正されたサンプルは前記置換ブロックに複製される。
【0017】
本発明による方法は、好ましくは、音声信号の処理に適用され、発声された信号でない場合とともに、発声された信号の場合に等しく十分に適用される。従って、信号が発声されるならば、繰り返し周期は単にピッチ周期からなり、本方法のステップa)は、特に、損失に先立つ少なくとも1つの有効なブロックにおいて信号のトーン(例えば、音声信号における声のトーン)のピッチ周期(典型的に、基本周波数の逆数によって与えられる)を決定することを含む。
【0018】
受信された有効な信号が発声されていないならば、実際、検出可能なピッチ周期は存在しない。この場合、それは、ピッチ周期の長さ(これは、一般的に、“繰り返し周期”と呼ぶことができる)と考えられる任意の与えられたサンプル数を設定し、この繰り返し周期に基づいて本発明による方法を実現するために設けることができる。例えば、ピッチ周期はできるだけ長く選択することができ、典型的に、20ms(50Hzでのたいへん低い声に対応する)、すなわち、8kHzのサンプリング周波数で160サンプルである。値の区間内に(例えば、MAX_PITCHをピッチ周期の探索における最大値として、MAX_PITCH/2とMAX_PITCHとの間に)探索を制限することによって相関関数の最大値に対応する値を取得することが可能である。
【0019】
好ましくは、複数の連続した無効なブロックが受信において置換されなければならず、これらのブロックが少なくとも1つの繰り返し周期にわたって広がるならば、ステップb)のサンプル訂正は、現在のサンプルとして個々に、最後の繰り返し周期の全てのサンプルに適用される。
【0020】
さらに、これらの無効なブロックがいくつかの繰り返し周期にわたって広がるならば、ステップb)において訂正された繰り返し周期は、前記置換ブロックを形成するために、いくつかの回数、複製される。
【0021】
特定の実施形態において、ステップb)において実行される上記サンプル訂正について、次の手順を適用することができる。前記最後の繰り返し周期の現在のサンプルについて、前記現在のサンプルの絶対値における振幅と、前記現在のサンプルの前の繰り返し周期に時間的にほぼ位置する少なくとも1つのサンプルの絶対値における振幅とを比較し、これら2つの振幅のうち絶対値における最小の振幅を前記現在のサンプルに割り当て、もちろん、それに元の振幅の符号を割り当てる。
【0022】
用語“ほぼ位置する”は、現在のサンプルを対応付けるために前の繰り返し周期において近傍が探索されることを意味する。従って、好ましくは、前記最後の繰り返し周期の現在のサンプルについて、
前記現在のサンプルの前の繰り返し周期に時間的に位置するサンプルの周辺に集中した近傍にサンプルの集合が構成され、
前記近傍のサンプルの絶対値における振幅から選択された振幅が決定され、
前記選択された振幅および前記現在のサンプルの振幅から絶対値における最小の振幅を前記現在のサンプルに割り当てるために、前記選択された振幅が前記現在のサンプルの振幅と絶対値において比較される。
【0023】
前記近傍のサンプルの振幅から選択された振幅は、好ましくは、絶対値における最大の振幅である。
【0024】
さらに、前記置換ブロックにおけるサンプルの振幅に減衰が通常適用される。この場合に、好ましくは、前記ブロック損失の前に前記デジタルオーディオ信号の過渡の特徴が検出され、適用可能ならば、定常の(過渡でない)信号のための減衰より迅速な減衰が適用される。
【0025】
追加として、または、変形として、合成処理の間に次のフィルタメモリの更新(ゼロリセット)を実行し、特に、次の有効なブロックの処理において過渡の音のような影響を受けることを防止するために、過渡の音に適用することが可能である。
【0026】
好ましくは、前記ブロック損失に先立つ過渡の信号の検出は次のように実行される。
前記最後の繰り返し周期の複数の現在のサンプルについて、現在のサンプルの振幅の、上記選択された(上記のように近傍において決定された)振幅との関係が絶対値で測定され、
上記関係が第1の所定の閾値(下記で述べるように、例えば、4付近の値)より大きい前記現在のサンプルについての発生数がカウントされ、
前記発生数が第2の所定の閾値より大きいならば(下記で述べるように、1より多くの事例が存在するならば)、過渡の信号の存在が検出される。
これら上記のステップは、ブロック損失の直前の繰り返し周期における過渡の音の検出の場合に、本発明による訂正ステップb)を引き起こすために使用することができる。
【0027】
しかしながら、本発明による方法の訂正ステップb)を適用するか否かを決定するために、好ましくは、次の手順が実行される。前記デジタルオーディオ信号が音声信号であるならば、好ましくは、前記音声信号における発声の程度が検出され、前記音声信号が高く発声されている(これは、ピッチ周期についての探索において“1”に近い相関係数によって表わされる)ならば、ステップb)における訂正は実行されない。言い換えると、この訂正は、信号が発声されていない、または、弱く発声されたときのみ実行される。
【0028】
従って、実際、安定した母音の発音(例えば、“aaaa”)に対応する、受信された有効な信号が高く発声されている(従って、安定している)ならば、ステップb)の訂正を適用すること、および、前記置換ブロックにおいて不必要に信号を減衰することは防止される。
【0029】
従って、簡単に言うと、本発明は、デジタルオーディオ信号の復号化におけるブロック損失の合成のために、繰り返し周期(または、発声された音声信号についての“ピッチ”の)繰り返しの前の信号の修正に関する。ピッチ周期のサンプルを前のピッチ周期のサンプルと比較することによって、過渡の繰り返しの影響は防止される。好ましくは、現在のサンプルと、前のピッチ周期のほぼ同じ位置からの少なくとも1つのサンプルとの間の最小値を取得することによって信号が修正される。
【0030】
本発明は、特に、ブロック損失の存在における復号化の場合にいくつかの効果を与える。特に、(単なるピッチ周期の繰り返しが用いられるとき)“過渡”の誤った繰り返しから生じる不自然さを防止することを可能とする。さらに、(可変の減衰によって)補間された信号のエネルギー制御を適用するために使用することができる“過渡”の検出を実行する。
【0031】
本発明のさらなる効果および特徴は、以下で例として与えられる添付図面の詳細な説明を精査して明らかになる。
【図面の簡単な説明】
【0032】
【図1】G.722勧告による符号化および復号化の現状の技術の構成を表わす。
【図2a】G.722勧告による符号化器によって符号化された広帯域信号の場合における音響の影響を表わす。
【図2b】G.722勧告による符号化器によって符号化された広帯域信号の場合における音響の影響を表わす。
【図2c】フレームTPが失われた場合に、図2aおよび2bと同じ信号についての本発明による処理の効果を比較として表わす。
【図3】G.722勧告によるが、本発明による消失フレームを訂正するための装置を組み込むことによって改良された復号化器を表わす。
【図4】低い帯域の補間の原理を表わす。
【図5】(励振(excitation)の範囲における)ピッチの繰り返しの原理を表わす。
【図6】ピッチの繰り返しが続く、本発明による励振信号の修正を表わす。
【図7】特定の実施形態による、本発明の方法のステップを表わす。
【図8】本発明による方法の実現のための合成装置を表わす図である。
【図8a】2チャンネルのQMFフィルタバンクの全体の構成を表わす。
【図8b】L(z)およびH(z)フィルタが理想的(すなわち、f’=2f)であるとき、図8aの信号スペクトルx(n)、xl(n)、xh(n)を表わす。
【発明を実施するための形態】
【0033】
以下、本発明の実施の形態について、詳細に説明する。
【実施例1】
【0034】
例としてG.722勧告による符号化システムに依存する本発明の実施形態を以下で説明する。(図1を参照して説明した)G.722符号化器の説明は、ここでは繰り返さない。ここでの説明は、フレーム損失の場合において再生されるピッチ周期の訂正器を組み込んだ改良されたG.722復号化器に限定する。
【0035】
図3を参照すると、(ここではG.722勧告に従う)本発明による復号化器は、QMF受信フィルタバンク(ブロック310から314)を有する2つのサブバンドにおけるアーキテクチャを再び表わす。図1の符号化器に関して、図3の復号化器は消失フレームの訂正のためにさらに装置320を組み込んでいる。
【0036】
G.722復号化器は、16kHzでサンプリングされ、10、20、40msの時間フレーム(またはサンプルのブロック)に区分された出力信号Soを生成する。その動作は、フレーム損失の存在または不存在によって異なる。
【0037】
フレーム損失が全く存在しない場合(従って、全てのフレームが受信され、有効であるならば、低周波数帯域LFのビットストリームは、本発明による装置320のブロック300によって復号化され、クロスフェード(ブロック303)は実行されず、再構成された信号は単にzl=xlによって与えられる。同様に、高周波数帯域HFのビットストリームはブロック304によって復号化される。スイッチ307はチャンネルuh=xhを選択し、スイッチ309はチャンネルzh=uh=xhを選択する。
【0038】
それにもかかわらず、低い帯域LFにおいて、1つまたは複数のフレーム損失の場合に、消失フレームはブロック301において過去の信号xl(特にピッチの複製)から補間され、ブロック302においてADPCM復号化器の状態が更新される。消失フレームはzl=ylとして再構成される。この手順は、フレーム損失が検出されたか否かにかかわらず繰り返される。補間ブロック301は、現在の(損失)フレームにおいて補間される信号を生成することのみに限定されず、ブロック303においてクロスフェードを実行するために、次のフレームのための10msの信号も生成することに留意することが重要である。
【0039】
そして、有効なフレームが受信されるとき、ブロック300によってそれが復号化され、有効なフレームxlと前の補間されたフレームylとの間で最初の10ミリ秒の間にクロスフェード303が実行される。
【0040】
高い帯域HFにおいて、ブロック305において過去の信号xhから消失フレームが補間され、ブロック306においてADPCM復号化器の状態が更新される。好ましい実施形態において、補間yhは過去の信号xhの最後の周期の単なる繰り返しである。スイッチ307は経路uh=yhを選択する。
【0041】
この信号uhは信号vhを生成するために、好ましくは、フィルタリングされる。実際、G.722符号化は逆方向予測符号化方式である。各々のサブバンドにおいて、自己回帰移動平均(ARMA(auto-regressive moving average))型の予測動作、および、符号化器と復号化器で同一の、ピッチ量子化の適合およびARMAフィルタの適合のための手順を使用する。ピッチの予測および適合は、復号化されたデータ(予測誤り、再構成された信号)に依存する。
【0042】
伝送誤り、より詳しくはフレーム損失は、復号化器と符号化器の可変性の間で、結果として脱同期化となる。そして、ピッチの適合および予測の手順は誤り、(300〜500msまでの)かなりの時間間隔にわたって偏る。高い帯域において、この偏りは、結果として、他の不自然さの中で、(最大の動作範囲+/−32767を有する信号について約+/−10の)振幅のたいへん弱い直流成分の出現となりうる。
しかし、QMF合成フィルタバンクを通過した後、この直流成分は、耳に聞こえ、たいへん聞き苦しい8kHzの正弦波の形態を取る。
【0043】
8kHzにおける直流成分(または“DC成分”)の正弦波への変換を以下で説明する。図8aは、2チャンネルの直角位相フィルタバンク(QMF)を表わす。信号x(n)は分析バンクによって2つのサブバンドに分解される。従って、低い帯域xl(n)および高い帯域xh(n)が得られる。これらの信号はそれらのz変換によって定義される。
【0044】
【数1】

【0045】
ローパスフィルタL(z)およびハイパスフィルタH(z)は直角位相であるので、H(z)=L(−z)である。
【0046】
L(z)が完全な再構成の制約が検証するならば、合成フィルタバンクの後に得られる信号は、最も近い時間遅延において信号x(n)に同一である。
【0047】
従って、信号x(n)のサンプリング周波数がf’であるならば、信号xl(n)およびxh(n)は周波数f=f’/2でサンプリングされる。典型的に、多くの場合、f’=16kHz、すなわち、f=8kHzである。さらに、フィルタL(z)およびH(z)は、例えば、ITU−T勧告G.722で指定されている24個の係数のQMFフィルタでありうることが指摘される。
【0048】
図8bは、フィルタL(z)およびH(z)が理想的な中間帯域のフィルタである場合に、信号x(n)、xl(n)、xh(n)のスペクトルを表わす。区間[−f’/2,+f’/2]にわたるL(z)の周波数応答が与えられ、理想的な場合に、次の通りである。
【0049】
【数2】

【0050】
xh(n)のスペクトルは折り畳まれた高い帯域に対応することに留意すべきである。現状の技術においてよく知られたこの“折り畳み(folding)”は、正しくは、XH(z)を定義する上記数式とともに、視覚的に説明することができる。高い帯域の折り畳みは、通常の周波数の順序で高い帯域のスペクトルを復元する合成フィルタバンクによって“反転”される。
【0051】
しかし、実際は、L(z)およびH(z)フィルタは理想的ではない。これらの理想的でない特性は、結果として、合成フィルタバンクによって除去されるスペクトル折り畳み成分の出現となる。それにもかかわらず、高い帯域は反転されたままである。
【0052】
そして、ブロック308は、直流成分を除去する(“DC除去”)ハイパスフィルタリング(HPF)を実行する。そのようなフィルタの使用は、本発明による低い帯域のピッチ周期訂正の範囲外を含み、特に効果的である。
【0053】
さらに、高い帯域において直流成分を除去するそのようなHPFフィルタ(ブロック308)の使用は、復号化におけるフレーム損失の一般的な場合に、分離保護の対象となりうる。従って、概して、この信号の高周波数帯域および低周波数帯域への、従って、G.722標準による復号化における少なくとも2つのチャンネルへの分離を伴う受信信号の復号化の場合に、一般に、復号化器の高周波数経路において置換信号の合成が続く信号損失が発生するとき、これは、結果として、置換信号における直流成分の存在となることを理解すべきである。また、この直流成分の影響は、符号化器および復号化器とフィルタのメモリサイズとの間の脱同期化のために、符号化され受信した信号が再び有効であるにもかかわらず、ある時間の間に、復号化された信号に拡大することがありうる。
【0054】
好ましくは、ハイパスフィルタ308は高周波数経路に設けられる。このハイパスフィルタ308は、好ましくは、G.722復号化器のこの高周波数経路のQMFフィルタバンクの例えば上流に設けられる。この配置は、それがQMFフィルタバンクに適用されるとき、8kHz(サンプリングレートf’から得られた値)における直流成分の折り畳みを防止することを可能とする。より一般的に、高周波数経路における処理の最後において復号化器がフィルタバンクを含むとき、好ましくは、ハイパスフィルタ308はこのフィルタバンクの上流に設けられる。
【0055】
従って、再び図3を参照すると、スイッチ309は、フレーム損失が存在する限り、経路zh=vhを選択する。
【0056】
そして、有効フレームが受信されるとすぐに、それはブロック304によって復号化され、スイッチ307は経路uh=xhを選択する。次の数秒について(例えば4秒後)、スイッチ309は再び経路zh=vhを選択するが、この数秒が経過した後、ブロック308をバイパスし、従って、ハイパスフィルタ308を適用することなく、スイッチ309は再び経路zh=uhを選択する“通常”動作への復帰が存在する。
【0057】
従って、概して、好ましくは、有効ブロックが再び受信されても、ブロック損失の間および後に、一時的に(例えば数秒の間)このハイパスフィルタ308が適用されることを理解すべきである。フィルタ308は永続的に使用することができる。しかし、それは、(損失訂正メカニズムを組み込んだ)改良されたG.722復号化器の出力が、フレーム損失が存在する場合のITU−T G.722復号化器の出力と同一であるように、直流成分による摂動がフレーム損失の場合にのみ生成されるので、この場合にのみ作動する。このフィルタ308は、損失フレームの訂正の間のみ、損失が発生する連続した数秒について適用される。実際、損失の場合に、G.722復号化器は、損失に続く100〜500msの期間について符号化器から脱同期化され、高い帯域における直流成分は、典型的に、1〜2秒の期間のみ存在する。フィルタ308は、安全なマージン(例えば4秒)を持つために、わずかに長く維持される。
【0058】
本発明は特に低帯域補間ブロック内に実装されることが理解されるので、図3における復号化器はさらに詳細には説明しない。このブロック301は図4で詳細に説明する。
【0059】
図4を参照すると、低い帯域の補間は、供給される信号ylの合成(図4の合成と示された部分)が続く、過去の信号xlの分析(図4の分析と示された部分)に依存する。ブロック400は、過去の信号xlについて線形予測分析(LPC)を実行する。この分析は、特に、標準化されたG.729符号化器において実行される分析と類似している。これは、信号を区切り、自己相関を計算し、Levinson-Durbinアルゴリズムを使用して線形予測係数を見つけることからなる。好ましくは、信号の最後の10秒のみが使用され、LPC次数は8に設定される。従って、p=8、a=1として、
A(z)=a+a−1+・・・+a−p
の形式で、9個のLPC係数(以下、a,a,・・・,aと呼ぶ。)が得られる。
【0060】
LPC分析の後、ブロック401によって過去の励振信号が計算される。n=−M,・・・,−1であり、Mは記憶された過去のサンプル数として、過去の励振信号はe(n)と呼ぶ。
ブロック402は、基本周波数、または、その逆数、すなわち、ピッチ周期Tの推定(estimation)を実行する。この推定は、例えば、ピッチ分析(特に、標準化されたG.729符号化器において“オープンループ”と呼ばれる)と同様に実行される。
【0061】
従って、推定されたピッチTは、現在のフレームの励振を補間するためにブロック403によって使用される。
【0062】
さらに、過去の信号xlはブロック404で分類される。ここで、本発明によるピッチ周期訂正を適用するために、過渡の存在、例えば、破裂音の存在を検出することを試みることが可能であるが、好ましい変形において、その代わりに、信号Sが高く発声されたかどうか(例えば、ピッチ周期に関する相関が1にたいへん近いとき)を検出することが試みられる。信号が高く発声されるならば(これは安定した母音、例えば“aaaa・・・・”の発音に対応する)、信号Sは過渡がなく、本発明によるピッチ周期訂正を実行しないことが可能である。そうでなければ、好ましくは、他の全ての場合において本発明によるピッチ周期訂正が適用される。
【0063】
発声の程度(degree)の検出の詳細は、よく知られており、本発明の範囲外であるので、ここでは説明しない。
【0064】
図4を再び参照すると、合成は現状の技術でよく知られた“ソースフィルタ”と呼ばれるモデルに従う。これは、LPCフィルタによって補間された励振をフィルタリングすることからなる。ここで、補間された励振e(n)(ここでn=0,・・・,L−1であり、Lは補間されるフレームの長さである。)が逆フィルタ1/A(z)(ブロック405)によってフィルタリングされる。そして、得られた信号は、ブロック406において計算された減衰に従ってブロック407によって減衰され、最後にylにおいて供給される。
【0065】
このようにして本発明は図4のブロック403によって実現され、その機能をここで詳細に説明する。
図5は、説明の目的のために、現状の技術で実現される簡単な励振の繰り返しの原理を表わす。励振は、単に最後のピッチ周期Tを繰り返すことによって、すなわち、過去の励振の連続した最後のサンプルを複製することによって補間することができ、この連続におけるサンプル数はピッチ周期Tを構成するサンプル数に対応する。
【0066】
ここで図6を参照すると、最後のピッチ周期Tを繰り返す前に、それは、本発明によって次のように修正される。
【0067】
各サンプル、n=−T,・・・,−1について、サンプルe(n)は、次式
【0068】
【数3】

【0069】
によってemod(n)に修正される。
【0070】
上記のように、好ましくは、この信号の修正は、信号xl(従って、入力信号S)が高く発声されるならば適用されない。実際、高く発声された信号の場合に、修正なしで、最後のピッチ周期の単なる繰り返しはより良い結果を生じるが、最後のピッチ周期の修正およびその繰り返しは、品質のわずかな劣化を引き起こしうる。
【0071】
図7は、フローチャートの形式で、本発明の実施形態による方法のステップを説明するために、この数式の適用に対応する処理を表わす。ここで、開始点はブロック401によって供給される過去の信号e(n)である。ステップ70において、発声の程度を判定するモジュール404から、信号xlが高く発声されたか否かによる情報が得られる。信号が高く発声されたならば(検査71の出力における矢印Y)、図4のブロック403において有効なブロックの最後のピッチ周期がそのまま複製され、そして、処理は、モジュール405による逆フィルタリング1/A(z)の適用によって直接に継続する。
【0072】
一方、信号が高く発声されなかったならば(検査71の出力における矢印N)、受信された最後の有効なブロックに対応する励振信号e(n)の最後のサンプルを修正することが試みられ、これらのサンプルは、図4のモジュール402によって(ステップ72において)与えられるピッチ周期Tの全体にわたって広がる(ステップ73)。
【0073】
図7で説明される実施形態において、ピッチ周期Tの全体にわたる全てのサンプルe(n)を修正することが試みられる。ここで、nはn−T+1とnの間からなり、従って、e(n)は受信された最後の有効なサンプルに対応する(ステップ74)。従って、これらの表記を用いて、n−T+1とnの間からなるnを有するサンプルe(n)は、単に、最後の有効に受信されたピッチ周期に属すことを理解すべきである。
【0074】
ステップ75において、前のピッチ周期の近傍NEIGHは、最後から2番目のピッチ周期において、最後のピッチ周期の各サンプルe(n)に対応する。この処理は効果的であるが必須ではない。それが与える効果は後に説明する。この近傍は、説明される例において、奇数2k+1個のサンプルを含むことが述べられる。もちろん、変形において、この数は偶数とすることができる。さらに、図6における例において、k=1である。実際、再び図6を参照すると、e(3)と呼ばれる最後のピッチ周期の3番目のサンプルが選択され(ステップ74)、最後から2番目のピッチ周期において対応付けされる(ステップ75)近傍NEIGHのサンプルはe(2−T),e(3−T),e(4−T)であることに留意すべきである。従って、これらはe(3−T)の周辺に分布する。
【0075】
ステップ76において、近傍NEIGHのサンプルから絶対値での最大値(すなわち、図6の例においてサンプルe(2−T))が決定される。この特徴は効果的であるが必須ではない。それが与える効果は後に説明する。典型的に、変形において、例えば、近傍NEIGHにわたる平均を決定するために選択することが可能である。
【0076】
ステップ77において、現在のサンプルe(n)の値と、ステップ76において近傍NEIGHにわたって発見された最大値Mの値との間の絶対値における最小値が決定される。図6に表わされている例において、e(3)とe(2−T)との間の最小値は、実際、最後から2番目のピッチ周期e(2−T)のサンプルである。このステップ77において、現在のサンプルe(n)の振幅はこの最小値で置換される。図6において、サンプルe(3)の振幅はサンプルe(2−T)の振幅に等しくなる。同じ方法が最後の周期の全てのサンプルe(1)からe(12)に適用される。図6において、訂正されたサンプルは点線で置換されている。本発明によって訂正された、補間されたピッチ周期Tj+1,Tj+2のサンプルは実線で表わされている。
【0077】
従って、ステップ77の効果的な実現によって、最後のピッチ周期Tに実際に破裂音が存在する(図6に表わされているように、絶対値で高い信号強度)ならば、破裂音の強度と、前のピッチ周期におけるほぼ同じ時間位置におけるサンプルの強度との間で最小値が決定され(ここで用語“ほぼ”は、ステップ75における実施形態の効果を生じる、“最も近い近傍±kまで”を意味する)、適切ならば、最後から2番目のピッチ周期Tj−1に属す、より低い強度によって破裂音の強度を置換することが理解される。一方、最後のピッチ周期Tのサンプルの強度が最後から2番目のピッチ周期Tj−1の強度より小さいならば、現在のサンプルe(3)と最後から2番目のピッチ周期Tj−1における強度の値e(2−T)との間の最小値を選択することによって、最後の周期が修正されず、従って、(高い強度を有する)破裂音が最後から2番目のピッチ周期Tj−1から複製される危険性を防止する。
【0078】
従って、ステップ76において、値e(n)の置換を実行するためにステップ77において最小値を選択することの影響を補償するために、近傍のサンプルの絶対値における最大値M(かつ、例えば、この近傍にわたる平均のようなもう1つのパラメータでない)を決定することが可能である。従って、この処理は、置換ピッチ周期Tj+1,Tj+2(図6)の振幅を制限することを防止することを可能とする。
【0079】
さらに、ピッチ周期は規則正しいとは限らないので、ステップ75の近傍の決定は効果的に実行され、サンプルe(n)がピッチ周期Tにおいて最大の強度を有するならば、これは次のピッチ周期におけるサンプルe(n+T)についての場合とは限らない。さらに、ピッチ周期は、(与えられたサンプリング周期における)2つのサンプルの間に来る時間位置まで拡張できる。これは“端数ピッチ”と呼ばれる。従って、次のピッチ周期に位置するサンプルe(n)とこのサンプルe(n−T)を対応付けることが必要ならば、サンプルe(n−T)の周辺に集中した近傍をとることが常に好ましい。
【0080】
最後に、ステップ75から77の処理はサンプルの絶対値に基本的に関係するので、ステップ78は修正されたサンプルemod(n)に単に元のサンプルe(n)の符号を再度割り当てることからなる。
【0081】
ステップ75から78は、ピッチ周期Tが尽きるまで(従って、最後の有効なサンプルe(n)に到達するまで)、次のサンプルe(n)について繰り返される(ステップ79においてnはn+1になる)。
【0082】
従って、修正された信号emod(n)は復号化の残りについて逆フィルタ1/A(z)(図4の参照符号405)に供給される。
【0083】
しかし、2つの可能な変形の実施形態に留意すべきである。この訂正T’をこの最後のピッチ周期Tに適用し、次のピッチ周期について訂正を複製するために、すなわち、T=Tj+1=Tj+2=T’、この方法における最後のピッチ周期Tを訂正することが可能である。
変形において、最後のピッチ周期Tは元のままにされ、一方、その訂正T’は次のピッチ周期Tj+1およびTj+2に複製される。
【0084】
従って、図5と図6の比較は、実行される励振の修正がどのように効果的であるかを示す。従って、簡単に言えば、最後のピッチ周期に破裂音が存在する場合に、最後から2番目のピッチ周期において同等でないので、それはピッチの繰り返しの前に自動的に除去される。従って、この実装は、破裂音の繰り返しからなるピッチの繰り返しの迷惑ないくつかの不自然さの1つを除去することを可能とする。
【0085】
さらに、好ましくは、最後のピッチ周期において破裂音が検出されたならば、合成および繰り返された信号のより迅速な減衰が与えられる。概して、過渡の検出の実施形態の例は、次の条件(1)
【0086】
【数4】

【0087】
の発生数をカウントすることからなりうる。現在のフレームにわたってこの条件が例えば1回より多く確認されるならば、過去の信号xlは過渡(例えば、破裂音)を含み、これは、合成信号ylについてブロック406によって迅速に減衰させること(例えば、10msにわたる減衰)を可能とする。
【0088】
そして、図2cは、図2aおよび図2bと比較して表わされ、本発明が実現されて、破裂音/t/を含むフレームが失われたときの復号化された信号を表わす。この場合において、本発明の実現により、音素/t/の繰り返しは防止される。フレーム損失を受ける相違は、破裂音の実際の検出と関連しない。図2bの場合にG.722復号化器は再初期化されないが、図2cにおけるフレーム損失後の信号の減衰は、この場合にG.722復号化器が再初期化される(図3のブロック302において状態の更新が完了する)という事実によって説明することができる。それにもかかわらず、本発明は、消去されたフレームの補間のための破裂音の検出に関し、フレーム損失後の再開の問題に関係しないことを理解すべきである。
【0089】
しかしながら、図2cに表わされている信号は、図2bに表わされている信号より、耳には良い品質である。
【0090】
また、本発明は、デジタルオーディオ信号合成装置のメモリ内に記憶されることを意図するコンピュータプログラムに関する。そして、このプログラムは、そのような合成装置のプロセッサによって実行されるとき、本発明による方法を実現するための命令を含む。さらに、前述の図7は、そのようなコンピュータプログラムのフローチャートを表わしうる。
【0091】
さらに、本発明は、連続したブロックによって構成されるデジタルオーディオの合成装置に関する。この装置は、上記コンピュータプログラムを記憶するメモリをさらに備え、上記機能を有する図4のブロック403からなりうる。図8を参照すると、この装置SYNは、
合成される少なくとも1つの現在のブロックに先立つ信号e(n)のブロックを受信する入力Iと、
合成された信号emod(n)を供給し、少なくともこの現在の合成されたブロックを含む出力Oとを備える。
本発明による合成装置SYNは、作業用記憶メモリMEMのような(または、上記コンピュータプログラムを記憶するための)手段と、このメモリMEMと協働する、本発明による方法を実現する、従って、信号e(n)の先立つブロックのうち少なくとも1つから現在のブロックを合成するプロセッサPROCとを備える。
【0092】
また、本発明は、デジタルオーディオ信号復号化器に関し、この信号は連続したブロックによって構成され、この復号化器は有効なブロックを合成するために本発明による装置403を備える。
【0093】
より一般に、本発明は、例によって上記実施形態に限定されず、他の変形に及ぶ。
変形の実施形態において、ピッチ周期の訂正のための、かつ/または、過渡の検出のためのパラメータは次の通りとすることができる。最後から2番目のピッチ周期において異なる数の3つのサンプルを含む間隔がとられる。例えば、全体で5つのサンプルを考慮するために、k=2とすることができる。同様に、過渡の検出のために閾値を適用することが可能である(上記の条件(1)の例において1/4)。さらに、検出条件がm≧1として少なくともm回確認されるならば、信号を過渡として宣言することが可能である。
【0094】
さらに、本発明は、上記以外の場合に同様に適用することができる。
例えば、(励振の範囲ではなく)信号の範囲において信号の検出および修正を実行することができる。典型的に、CELP復号化器(これはソースフィルタモデルに従って動作する)におけるフレーム損失の訂正のために、ピッチの繰り返し、および、選択肢として、ランダムな寄与の追加によって励振が補間され、この励振は1/A(z)型のフィルタによってフィルタリングされ、ここでA(z)は正しく受信された最後の予測フィルタから導き出される。
また、これはG.711標準に従う復号化器にも同様に適用することができる。
【0095】
もちろん、新たな合成された周期Tj+1,Tj+2を構成するために最後から2番目のピッチ周期Tj−1を単に複製することは、(例えば、上記の条件(1)の類型の条件を使用することによって、)さらに、最後から2番目のピッチ周期において破裂音を検出するように構成されるならば、破裂音の繰り返しの問題を解決することを可能とする。この実施形態は本発明の範囲内である。
【0096】
さらに、上記説明を明確にする理由のために、訂正されたサンプルを置換ブロックに複製することが続く、ステップb)におけるサンプルの訂正を説明した。もちろん、技術的に、厳密に等価な方法で、最後の繰り返し周期のサンプルを最初に複製し、そして置換ブロックにおいてそれら全てを訂正することが可能である。従って、サンプルの訂正および複製は、任意の順序で行われるステップとすることができ、特に逆順にすることができる。
【符号の説明】
【0097】
303 ・・・ クロスフェード
307、309 ・・・ スイッチ
308 ・・・ ハイパスフィルタ
400 ・・・ 線形予測分析

【特許請求の範囲】
【請求項1】
サンプルの連続したブロックによって表わされるデジタルオーディオ信号を合成する方法であって、
デジタルオーディオ信号を受信すると、少なくとも1つの無効なブロックを置換するために、該無効なブロックに先立つ少なくとも1つの有効なブロックのサンプルから置換ブロックが生成され、
前記方法は、
a) 少なくとも1つの有効なブロックにおいて繰り返し周期を決定するステップ(402)と、
b) 前記繰り返し周期のサンプルを少なくとも1つの置換ブロックに複製するステップ(403)と、を有し、
ステップa)において、無効なブロックの直前の少なくとも1つの有効なブロックにおいて最後の繰り返し周期(T)が決定され、
ステップb)において、前記最後の繰り返し周期における過渡信号の振幅を制限するために、前記最後の繰り返し周期に先立つ前の繰り返し周期(Tj−1)のサンプル(e(2−T),e(3−T),e(4−T))に従って、前記最後の繰り返し周期(T)のサンプル(e(3))が訂正され、該訂正されたサンプルは前記置換ブロック(Tj+1,Tj+2)に複製されることを特徴とする方法。
【請求項2】
前記デジタルオーディオ信号は発声された音声信号であり、
前記繰り返し周期は、前記デジタルオーディオ信号の基本周波数の逆数に対応するピッチ周期であることを特徴とする請求項1に記載の方法。
【請求項3】
ステップb)において、前記最後の繰り返し周期の現在のサンプル(e(3))は、
前記現在のサンプルの絶対値における振幅と、前記現在のサンプルの前の繰り返し周期に時間的にほぼ位置する少なくとも1つのサンプル(e(2−T))の絶対値における振幅とを比較し、
これら2つの振幅のうち絶対値における最小の振幅を前記現在のサンプルに割り当てることによって訂正されることを特徴とする請求項1または2に記載の方法。
【請求項4】
前記最後の繰り返し周期の現在のサンプル(e(3))について、
前記現在のサンプルの前の繰り返し周期に時間的に位置するサンプル(e(3−T))の周辺に集中した近傍にサンプルの集合(75)が構成され、
前記近傍のサンプルの絶対値における振幅から選択された振幅(76)が決定され、
前記選択された振幅および前記現在のサンプルの振幅から絶対値における最小の振幅を前記現在のサンプル(e(3))に割り当てる(77)ために、前記選択された振幅が前記現在のサンプルの振幅と絶対値において比較されることを特徴とする請求項3に記載の方法。
【請求項5】
前記近傍のサンプルの振幅から選択された振幅は、絶対値における最大の振幅(M)であることを特徴とする請求項4に記載の方法。
【請求項6】
前記デジタルオーディオ信号は音声信号であり、
前記音声信号における発声の程度が検出され(71)、
前記音声信号が発声されていない、または、弱く発声されたならば、ステップa)からb)が実行されることを特徴とする請求項1から5のいずれか1項に記載の方法。
【請求項7】
前記置換ブロックにおけるサンプルの振幅の減衰が適用され、
前記最後の繰り返し周期における前記デジタルオーディオ信号の過渡の特徴が検出され、適用可能ならば、定常の信号のための減衰より迅速な減衰が適用されることを特徴とする請求項1から6のいずれか1項に記載の方法。
【請求項8】
前記最後の繰り返し周期の複数の現在のサンプルについて、現在のサンプルの振幅の前記選択された振幅との関係が絶対値で測定され、
前記関係が第1の所定の閾値より大きい前記現在のサンプルについての発生数がカウントされ、
前記発生数が第2の所定の閾値より大きいならば、過渡の特徴の存在が検出されることを特徴とする請求項3または4を引用する請求項7に記載の方法。
【請求項9】
少なくとも1つの繰り返し周期にわたって広がる複数の連続した無効なブロックの繰り返しの場合に、前記最後の繰り返し周期の全てのサンプルに、現在のサンプルとして個々に、前記ステップb)のサンプル訂正が適用されることを特徴とする請求項1から8のいずれか1項に記載の方法。
【請求項10】
いくつかの繰り返し周期にわたって広がる複数の連続した無効なブロックの繰り返しの場合に、前記複数の無効なブロックを置換するために、ステップb)において訂正された繰り返し周期は前記置換ブロックを形成するために、いくつかの回数、複製されることを特徴とする請求項9に記載の方法。
【請求項11】
デジタルオーディオ信号の合成装置のメモリに記憶されるコンピュータプログラムにおいて、
前記合成装置のプロセッサによって実行されるとき、請求項1から10のいずれか1項に記載の方法を実現するための命令を含むことを特徴とするコンピュータプログラム。
【請求項12】
合成される少なくとも1つの現在のブロックに先立つ信号e(n)のブロックを受信する入力Iと、
合成された信号(emod(n))を供給し、少なくとも前記現在のブロックを含む出力Oと、を備える、連続したブロックによって構成されるデジタルオーディオ信号の合成装置において、
前記先立つブロックのうち少なくとも1つから前記現在のブロックを合成するために、請求項1から10のいずれか1項に記載の方法を実現するための手段(MEM,PROC)を備えることを特徴とする合成装置。
【請求項13】
連続したブロックによって構成されるデジタルオーディオ信号の復号化器において、
無効なブロックを合成するために、請求項12に記載の合成装置(403)をさらに備えることを特徴とする復号化器。

【図1】
image rotate

【図2a−2c】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図8a】
image rotate

【図8b】
image rotate


【公表番号】特表2010−507121(P2010−507121A)
【公表日】平成22年3月4日(2010.3.4)
【国際特許分類】
【出願番号】特願2009−532871(P2009−532871)
【出願日】平成19年10月17日(2007.10.17)
【国際出願番号】PCT/FR2007/052189
【国際公開番号】WO2008/096084
【国際公開日】平成20年8月14日(2008.8.14)
【出願人】(591034154)フランス・テレコム (290)