説明

コードブックによるスペクトグラムの復元

雑音及び/又はエコーによって擾乱されたデータ・スペクトグラムを復元する方法を記載する。スペクトグラム・データは信頼尺度の授与にかけられ、低信頼尺度を有するスペクトグラム・データは高信頼度データによって置き換えられる。特に、高信頼度データが記憶されているコードブック・エントリを選択する手段として、高信頼尺度を有するスペクトグラム・データを用いて置き換えが行われる。そのようなコードブックは実施するのが容易であり、本方法は、相関の計算や行列の反転を行わないようにし、使用統計モデルの特定の種類に関する制約がないようにするものである。復元方法は、音声認識結果を改善し、そのことはボイス制御装置では重要なことである。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スペクトグラム・データを備える擾乱スペクトグラムを復元する方法に関し、該データは信頼尺度の授与にかけられ、低信頼尺度を有する該スペクトグラム・データは高信頼度データによって置き換えられる。
【0002】
本発明は、上記方法を実施する装置にも関し、該装置は該スペクトグラム・データを信頼尺度の授与にかける手段と、低信頼尺度を有する該スペクトグラム・データを高信頼度データによって置き換える手段とを備え、更に、該方法を当該装置において適用するのに適した信号にも関する。
【背景技術】
【0003】
そのような公知の方法を記載するものがある(非特許文献1参照。)。該公知の方法は音声スペクトグラムにおける雑音擾乱データに対してゼロから1までの範囲に及ぶ確率的な信頼尺度を授与することを提案している。信号対雑音比は、雑音と信号との相対的な重要性に関する情報を備え、信頼性を有するデータ・スペクトグラム領域及び信頼性のないデータ・スペクトグラム領域を検出するのに適している。信頼性のないスペクトグラム・データは、時間独立混合ガウス分布モデルに基づいた、信頼性のないデータの推定によって置き換えられる。
【非特許文献1】Ph. Renevey 及び A. Drygajlo, “Introduction of a Reliability Measure in Missing Data Approach for Robust Speech Recognition”, Proceedings of the 10th European Signal Processing Conference (EISIPCO 2000), Tampere, Finland, Sept. 5-8, 2000, pp 473-476
【発明の開示】
【発明が解決しようとする課題】
【0004】
例えば、音声スペクトグラムが常にガウス分布モデルに従ってふるまう訳ではないことによって、混合ガウス分布モデルに関する計算の精度が限定的であるということが、公知の方法の欠点である。
【課題を解決するための手段】
【0005】
よって、本発明の目的は、ガウス分布モデルを用いることなく、擾乱スペクトグラムの復元を改良させる、実施するのが低費用であり容易であり、かつ高精度の方法及び装置を備えることにある。
【0006】
更に、本発明による方法は、置き換えを、高信頼度データが記憶されているコードブック・エントリを選択する手段として高信頼度尺度を有するスペクトグラム・データを用いることによって行う。
【0007】
同様に、本発明による装置は、該かける手段と該置き換え手段とに結合されて、高信頼度データが記憶されているコードブック・エントリを選択する手段として高信頼尺度を有するスペクトグラム・データを用いることによって置き換えを行うコードブック手段も備える。
【0008】
本発明による方法及び装置の利点は、コードブックが、実施することが容易なルックアップ・テーブルとしての役割を果たすことにある。実際の復元前に、コードブックは概して高信頼度のデータが記憶されるエントリによって充填され、該データは擾乱データに対する事前情報を構成する。高信頼尺度を有するスペクトグラム・データは、信頼性を有する事前情報が存在するエントリを選択して、コードブックに記憶されている高信頼度データによって、低信頼尺度を有するスペクトグラム・データを置き換えるのに用いられる。
【0009】
更に効果的には、本発明による方法及び装置は、相関の計算と、行列の反転とを行わないようにし、使用統計モデルの特定の種類に関する制約がないようにする。
【0010】
本発明による方法の実施例では、コードブック・エントリの選択は、高信頼尺度を有するスペクトグラム・データHと、コードブックに記憶されている、信頼性を有するスペクトグラム・データH’との間での一致に基づくものである。
【0011】
この場合、コードブックは、信頼性を有するスペクトグラム・データH’と信頼性を有するスペクトグラム・データMとを備え得る。コードブックにおいて記憶されているデータH’が高信頼尺度を有するスペクトグラム・データHにほぼ一致する場合、低信頼尺度を有するスペクトグラム・データLを置き換えるのにデータMが用いられる。最終結果はその場合、高信頼度データH又は場合によってはH’と、改良高信頼度データMとであり、該最終結果は、大部分が音声の復元を行うのに用い得る。
【0012】
本発明による方法の別の実施例では、置き換えは漸進的な置き換えである。
【0013】
そのような漸進的な置き換えは、スペクトグラム・データ(L)と高信頼度データ(M)とを柔軟な重み付け方法で合成する。このように合成したものは更に、当該アルゴリズムによって出力される。
【0014】
本発明による方法の更に別の実施例では、漸進的な置き換えは信頼尺度によって変わってくる。
【0015】
その場合、データ(L)とデータ(M)とを合成したものは信頼尺度に応じて重み付けされる。
【0016】
本発明による方法の更に別の実施例では、コードブックにおいて記憶されているスペクトグラム・データが、訓練から導き出されるデータ(H’,M)を備える。
【0017】
事前訓練セッションによってコードブックを充填することは非常に容易に実現され、歪みのない「クリーンな」コードブック・データをもたらすことになる。
【0018】
本発明による方法のもう1つの別の実施例では、擾乱スペクトグラムは、雑音、特に背景雑音及び/又は音響エコーなどの付加雑音によって擾乱される。
【0019】
効果的には、上記方法は、例えば車の中に存在するような騒音環境において用い得る。
【0020】
本発明による方法の更にもう1つの実施例では、最終的に出力される、信頼性を有するデータは、その時間特性及び/又は周波数特性に関する既知情報に応じて影響される。
【0021】
既知情報は概して、事前情報又はリアル・タイムで導き出される情報となる。当該情報の柔軟性は増し、該情報は、例えば音声スペクトグラムの実物通りの復元を促進する。
【0022】
本発明による方法の更に別の改良実施例では、擾乱スペクトグラムはスペクトル減算処理の結果であり、該減算処理では、推定擾乱又は測定擾乱が元の擾乱信号から減算される。
【0023】
スペクトル減算を有するようにし、それを適用してこのデータに信頼尺度の授与をかけて、置き換えを行う前に、擾乱スペクトグラム・データにおける擾乱量を改善させることによって、復元を更に改良することが可能である。
【発明を実施するための最良の形態】
【0024】
次に、本発明による方法及び装置をそれらの別の効果とともに、添付図面を参照しながら、更に明らかにすることとし、同様な構成部分は、同じ参照数字によって表す。
【実施例】
【0025】
図1は、例えばスペクトグラムにおける擾乱データなどの、擾乱データを復元する方法に関する装置Dにおいてとる対象の機能工程の概要を表す。そのような復元は、例えば音声制御アプリケーションすなわちボイス制御アプリケーションなどの音声認識システムすなわちボイス認識システムにおいて重要である。擾乱は、例えば、雑音、特に、車の中で発生し得るような付加雑音の形式であり得る。別の擾乱の例は、エコー、特に音響エコーである。図1の装置Dに表す、擾乱され、概してウィンドウ化された入力信号が入力1で例えば離散フーリエ変換(DFT)フィルタ・バンク2によるスペクトル領域解析にかけられ、その後は、該DFTの出力3上の出力信号の位相を無視して、例えば、電力スペクトル、2乗振幅スペクトルなどを絶対値装置5の出力4で明らかにし得る。多くの場合、周波数スペクトルの振幅のみが対象である。以下では、時間依存周波数振幅スペクトルをスペクトグラムと呼ぶこととする。多くの音声復元システム又は音声認識システムでは通常、周波数解像度を低減するために、DFTの後にMELスケール・フィルタ6が適用されてMELスケール上で線形の周波数間隔を備えている周波数領域出力が得られる。フィルタ・バンク6なしで用いる場合、装置Dは、音声強調を音声認識装置とは別個に適用し得る。しかし、その場合には、大量の周波数データを処理することを必要とする。入力1上の入力信号が擾乱される場合、スペクトグラムSにおけるデータも擾乱されることになる。スペクトグラムにおける一部のデータ領域はしかし、その他の領域よりも歪みが多いか、その他の領域よりも擾乱される。本復元方法は、より擾乱されていて、よって低信頼度のスペクトグラム・データを、高信頼度データによって置き換えるものである。
【0026】
そのような高信頼度データはコードブック7から入手可能である。そのようなコードブックは、それ自体が公知の方法において音声データによって充填し得る。代表音声ベクトルを導き出す1つの手法は、IEEE Transactions on Communications, Vol. 28. No. 1, pp. 84-95, Jan. 1980発表のY.Linde、A.Buzo、及びR.M.Grayによる、「An Algorithm for Vector Quantizer Design」と題する論文に記載されている。コードブック7は、「クリーン」なデータである、概してより擾乱されていないか、場合によっては擾乱されていない、訓練から導き出されるデータを備える。手段8に入力されるスペクトグラム・データに信頼尺度を手段8が授与することを可能にした後、別の手段9は、コードブック7から選択される高信頼度データMによって、低信頼尺度を有するスペクトグラム・データLを置き換える。高信頼データMが記憶されているコードブック7におけるエントリを選択する手段すなわちポインタとして、高信頼尺度を有するスペクトグラム・データHが用いられるよう該選択が行われる。このようにして、スペクトグラムにおける低信頼度データ部分Lは、コードブック7が有する訓練データから得る事前知識から導き出される高信頼度データ部分Mによって置き換えられる。この方法は、相関の計算と、行列の反転とを行わないようにし、統計モデル、特にガウス分布モデルの特定の種類に関する制約がないようにする。何れかの適切な方法を用いて、信頼度授与手段8によって信頼尺度をスペクトグラム・データに割り当てることが可能である。例えば、局所信号対雑音比(SNR)は、当該スペクトル・データの信頼度に関して示すものである。以下に説明することとする単純な実施例では、周知のスペクトル減算手法において用いる周知の利得関数をデータの信頼度を示すよう適用することが可能である。
【0027】
図2は、コードブック7に対する、上記方法の基本動作を更に詳細に表す。図2は、周波数ビンにおける円によって示す連続する周波数成分を有するベクトル時間フレーム・データの形式でスペクトグラムSを表す。一部のスペクトグラム・データLは低信頼尺度を有するものとして判定され、一部の別のスペクトグラム・データHは高信頼尺度を有するものとして判定され、当該判定は、何れかの擾乱を当該データからスペクトル減算した後に場合によっては行われるが、必ずしもそうでなくてよい。コードブック7は、通常、音声源又は別の入力源に基づいて事前記録訓練セッション中に判定される、連続する、スペクトグラム・データ又はスペクトグラム・ベクトルを備える。各スペクトグラム・フレームでは、そのコンテンツH’が信頼性を有するデータHとの最善の一致があるそのコードブック・エントリが選択される。通常、最善の一致を見つけるよう、周波数成分値及び/又は周波数成分振幅が比較される。コードブック7においてそのように選択されるエントリは、別のスペクトグラム・データ、特に、訓練セッションからの高信頼度データMを備えている1つ又は複数の領域も有する。データMはデータLを置き換えるのに用いられるので、スペクトグラム・データM+Hの、場合によっては重み付けされた合成結果は、良好な全体信頼度を有する最終復元スペクトグラム・データを備える。これは、音声認識結果の改良につながる。好ましくは、置き換えは、漸進的な置き換え又は重み付けされた置き換えである。そのような漸進的な置き換えは、ゼロと1との間に及ぶ信頼尺度R_nによって変わってくる可能性があり、nは周波数ビンの係数nである。当該方法を実施するアルゴリズムの係数入力及び係数出力は、例えば:
出力_n=R_n*入力_n+(1−R_n)*(最善のコードブック一致)_n;
の規則を用い得る。
【0028】
データLをデータMによって置き換えるのみならず、スペクトグラム・データH+LをH’+Mによって置き換えることも考えられ、このことは、事実上擾乱されていない、クリーンな音声などの、クリーン・データを訓練データが備える場合に特に効果的である。
【0029】
更に、概して、先行して判定される時間特性及び/又は周波数特性に関する既知の実用的な情報に応じてそれが影響を受けるようにその高信頼度データMを処理することが考えられる。これは、概略的に図3に表し、図3では、信頼性を有するデータと該特性とを前提にすると、信頼性のない領域におけるデータについての推定の信頼度がより高くなるように、信頼性を有するデータH/H’及び/又は置き換えデータMの周波数/時間特性を所望のように左右する間にたどり得る経路を矢印は示している。
【0030】
上記のように、スペクトル減算はそれ自体が、例えば国際公開第97/45995号から公知であり、当該開示は更に本明細書及び特許請求の範囲にその内容を援用することとし、この手法は動的エコー抑制器(DES)又は動的エコー及び雑音抑制器(DENS)において適用される。スペクトル減算処理では、推定擾乱又は測定擾乱は元の入力擾乱信号から減算される。しかし、スペクトル減算を上記方法と組み合わせる場合、いくつかの効果を達成することが可能である。まず、入力スペクトグラム・データの信号対雑音比(SNR)が改善されることになり、その結果、音声認識率が向上する。第2に、スペクトル減算によって判定される利得関数を用いて当該データのSNR、よって信頼度を数値化することが可能である。例えば、利得が小さいほど、SNRは低くなる。スペクトル減算手法の制約は、これが、時間的にも周波数的にも局所である情報のみを考慮するということである。よって、雑音及び/又はエコーによって大いに破損された、スペクトグラムにおける領域は、十分な精度で推定することはとても可能でない。本方法は、コードブック7の元の概してクリーンなデータからの事前知識を有するようにすることによってスペクトル減算を補完して、スペクトグラム復元と、音声の場合での認識率とを向上させるものである。
【0031】
当然、いくつかの別の修正及び改良が考えられる。最も近いコードブック・エントリを算出する1つの考えられる方法は、距離d2を測定することに関し、多くの重み付けが低信頼度データよりも高信頼度データに割り当てられる。
【0032】
【数1】

の式を実施する場合があり、その場合、nは周波数ビンの周波数係数であり、Gnはスペクトル減算手法の利得値であり、Cnはコードブック・エントリであり、Rnは雑音信号を表すか、スペクトル減算が用いられる場合には、スペクトル減算後の該信号を表す。更に、当該成分の何れも雑音スペクトル・ベクトルの、相当する構成要素よりも大きいものでないという制約下で距離尺度を最小にするコードブック・エントリが選択される。
【0033】
もう1つ別の改良は、スペクトグラム・データがスペクトル減算からのものである場合に、最終出力信号を算出することに関する。SNRによっては、データM及びH/H’の重み付けも行い得る。
【図面の簡単な説明】
【0034】
【図1】擾乱スペクトグラムを復元する、本発明による方法を実施する装置においてとる対象の工程の概要を表す図である。
【図2】本発明による方法及び装置の基本動作を説明する非常に単純な手法を表す図である。
【図3】スペクトグラム復元の目的で、信頼性を有する領域からのデータから推定可能な、信頼性のないデータを有する、信頼性のない領域を示す、考えられる周波数を時間に対して表すグラフである。

【特許請求の範囲】
【請求項1】
スペクトグラム・データを備える擾乱スペクトグラムを復元する方法であって:
該スペクトグラム・データは、信頼尺度の授与にかけられ;
低信頼尺度を有する該スペクトグラム・データを高信頼度データによって置き換える工程が行われ;
該置き換える工程が、該高信頼度データが記憶されているコードブック・エントリを選択する手段として、高信頼尺度を有するスペクトグラム・データを用いることによって行われることを特徴とする方法。
【請求項2】
請求項1記載の方法であって:
該コードブック・エントリの該選択が、該高信頼尺度を有するスペクトグラム・データと、該コードブックに記憶されている、該信頼性を有するスペクトグラム・データとの間の一致に基づくものであることを特徴とする方法。
【請求項3】
請求項1又は2記載の方法であって:
該置き換える工程が、漸進的な置き換えであることを特徴とする方法。
【請求項4】
請求項3記載の方法であって:
該漸進的な置き換えが、前記信頼尺度によって変わってくることを特徴とする方法。
【請求項5】
請求項1乃至4のうちの1つに記載の方法であって、該コードブックにおいて記憶されている前記スペクトグラム・データが:
訓練から導き出されるデータ;
を備えることを特徴とする方法。
【請求項6】
請求項1乃至5のうちの1つに記載の方法であって:
該擾乱スペクトグラムが、雑音によって擾乱されており、特に、背景雑音、及び/又は音響エコーなどの付加雑音によって擾乱されていることを特徴とする方法。
【請求項7】
請求項1乃至6のうちの1つに記載の方法であって:
最終的に出力される、信頼性を有するデータが、該データの時間特性及び/又は周波数特性に関する既知の情報に応じて影響を受けることを特徴とする方法。
【請求項8】
請求項1乃至7のうちの1つに記載の方法であって:
前記擾乱スペクトグラムは、スペクトル減算処理の結果であり;
推定擾乱又は測定擾乱は元の擾乱信号から減算されることを特徴とする方法。
【請求項9】
請求項1乃至8のうちの1つの記載の方法を実施する装置であって:
スペクトグラム・データを、信頼尺度の授与にかける手段;及び
低信頼尺度を有する該スペクトグラム・データを高信頼度データによって置き換える工程を行う手段;
を備え;
更に、該かける手段と該置き換える手段とに結合されて、該置き換える工程を、該高信頼度データが記憶されているコードブック・エントリを選択する手段として、高信頼尺度を有するスペクトグラム・データを用いることによって行うコードブック手段;
を備えることを特徴とする装置。
【請求項10】
信号であって:
請求項1乃至8のうちの1つに記載の方法を請求項9記載の装置に適用するのに適した信号であることを特徴とする信号。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2006−505814(P2006−505814A)
【公表日】平成18年2月16日(2006.2.16)
【国際特許分類】
【出願番号】特願2004−549411(P2004−549411)
【出願日】平成15年10月8日(2003.10.8)
【国際出願番号】PCT/IB2003/004475
【国際公開番号】WO2004/042702
【国際公開日】平成16年5月21日(2004.5.21)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【氏名又は名称原語表記】Koninklijke Philips Electronics N.V.
【住所又は居所原語表記】Groenewoudseweg 1,5621 BA Eindhoven, The Netherlands
【Fターム(参考)】