説明

音声処理システム及び方法

【課題】学習とテストとの間の話者ミスマッチ及び環境ミスマッチを解決する音声処理。
【解決手段】音響モデルをミスマッチした音声入力に適応させる。適応させることは、話者の環境と、音響モデルがその下で学習された環境との間の相違を主としてモデリングするためのミスマッチ関数fと、ミスマッチした話者入力の話者の間の相違を主としてモデリングするための話者変換Fとを使用して、y=f(F(x,v),u)となるように、ミスマッチした話者入力からの音声を、音響モデルを学習するために使用される音声に関連付けることと、u及びvを同時に推定することを含む。ここで、yは、ミスマッチした話者入力からの音声を表し、xは、音響モデルを学習するために使用される音声であり、uは、環境の変化をモデリングするための少なくとも一つのパラメータを表し、vは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す。

【発明の詳細な説明】
【技術分野】
【0001】
本明細書で説明される実施形態は一般に音声処理に関する。
【背景技術】
【0002】
自動音声認識(ASR)システムは、音声と単語を関連付けるように該システムが教示される或るレベルの事前学習を有する。事前学習は、一人又は複数人の話者からの音声を使用して実行される。例えば話者又は環境のような学習条件が、該システムが実際に使用される条件にマッチすることはまれである。学習とテストとの間のそのような話者ミスマッチ及び環境ミスマッチは、ASRのパフォーマンスを劇的に低下させ、そして、多くのアプリケーションにおいて音声認識技術を配置することを難しくする。
【0003】
学習条件と「実際の使用」条件との間の関係をモデル化することによって、様々な条件の下で動作するようにシステムを適応させることが可能である。そのようなモデリングは、環境の相違を補償することによって、また、ユーザの音声とシステムの事前学習に使用される音声との相違を独立して補償することによって、達成された。
【図面の簡単な説明】
【0004】
【図1】図1は、一般的な音声処理システムの概略図である。
【図2】図2は、音声処理用に構成されるプロセッサのアーキテクチャーの概略図である。
【図3】図3は、音声認識プロセッサのコンポーネントの概略図である。
【図4】図4は、ガウス確率関数の概略図である。
【図5】図5は、確率密度関数及び観測ベクトルを表す音響空間の概略プロットである。
【図6】図6は、一実施形態に従った音声処理方法を示すフローチャートである。
【発明を実施するための形態】
【0005】
現在の諸音声処理システム(それらは異なる条件の下で動作するようにそれらの学習条件から適応することができる)は、一つのステージにおいて学習音声とユーザの音声との相違をモデル化し、そして、独立して学習環境と使用環境との相違をモデル化する。しばしば、非常に限られた適応データのみが、利用可能である。
【0006】
しかし、これらの技術は、通常、両方のミスマッチを同時に考慮に入れるように設計されていない。具体的には、文献における話者適応技術はたいてい学習及びテスト環境を無雑音と仮定するのに対して、雑音補償技術はたいてい話者ミスマッチを無視する。話者適応のための方法は雑音ミスマッチをある程度補償するために時として使用されることができ、また、その逆も同じであるが、これらの技術は、両方のミスマッチが存在する場合には、それらのための基本的な前提を満たすことができないので、それらの最大の能力で動作することを保証することができない。これは、特に、雑音ミスマッチが存在するときに、テストの間、クリーン音声の観測が利用できないような話者適応技術の場合に該当する。
【0007】
以前、クリーン音声特徴と、加法性及び乗法性雑音の値を与えられたときの雑音下音声特徴との間の関係をモデル化する雑音ミスマッチ関数が使用された。
【0008】
一実施形態において、本発明は、音声処理方法において、特徴ベクトルの系列を含む音声入力を受信することと、音響モデル及び言語モデルを使用して、前記特徴ベクトルの系列から生じる複数の単語の系列の尤度を判定することを含み、前記尤度を判定することは、特徴ベクトルの系列を含む入力信号に対する音声認識を実行するための音響モデルを提供することを含み、前記モデルは、特徴ベクトルに関係する単語又はその一部の確率分布に関する複数のモデル・パラメータを有し、前記音声入力は、前記音響モデルがその下で学習された話者又は環境にマッチしないある環境においてある話者から受信されるミスマッチした音声入力であり、前記尤度を判定することは、前記音響モデルを前記ミスマッチした音声入力に適応することを更に含み、前記音声処理方法は、更に、言語モデルを使用して、所定の言語において生じる前記特徴の系列の尤度を判定することと、前記音響モデル及び前記言語モデルにより判定される前記尤度を結合することと、前記音声入力信号から識別される複数の単語の系列を出力することを含み、前記音響モデルを前記ミスマッチした話者入力に適応することは、前記話者の前記環境と、前記音響モデルがその下で学習された前記環境との間の相違を主としてモデリングするためのミスマッチ関数fと、前記ミスマッチした話者入力の前記話者の間の相違を主としてモデリングするための話者変換Fとを使用して、y=f(F(x,v),u)となるように、前記ミスマッチした話者入力からの音声を、前記音響モデルを学習するために使用される前記音声に関連付けることと、u及びvを同時に推定することを含み、ここで、yは、前記ミスマッチした話者入力からの前記音声を表し、xは、前記音響モデルを学習するために使用される前記音声であり、uは、前記環境の変化をモデリングするための少なくとも一つのパラメータを表し、vは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す音声処理方法を提供する。
【0009】
上記の実施態様では、話者適応技術が、環境ミスマッチ関数に直接適用される。そして、新たなミスマッチ関数は、話者ミスマッチと環境ミスマッチの両方をモデル化し、したがって、基本的な前提に反することなく、同時に、2つのタイプのミスマッチを扱う能力を与える。
【0010】
上記のフレームワークは、話者適応技術が、雑音補償技術と容易に適合することを可能にする。一般に、音声認識装置の入力において受信される音声信号の音響特性に影響を及ぼす要因は、話者ミスマッチまたは環境ミスマッチのいずれかに分類することができる。
【0011】
話者ミスマッチという用語は、例えば以下のような要因の違違いを指し示すために使用される:アクセント;2.発話スタイル;3.感情(例えば、怒り対平静、及び話者の他の心理状態);4.話者の身体的な特性(例えば、鼻詰まり、唇上のタバコ、性別、声道長など);5.ロンバード効果(雑音による話者影響);6.話者が他のものによって気を散らされる;または、7.吃音。しかし、他のタイプの話者ミスマッチも可能であり、上記のリストは包括的なものではない。
【0012】
更なる実施態様において、上記少なくとも一つのパラメータuは、パラメータnとhを含み、ここで、nは加法性雑音をモデル化するために使用され、hは乗法性雑音をモデル化するために使用される。しかし、ミスマッチ関数fはまた、例えば次のような、環境における他の変動を補償するために使用されることができる:様々なソースからのバックグラウンドノイズ;2.背景話者からの音声;3.残響特性;または、4.記録デバイスの特性(マイクロフォン、電子又はデジタル記録デバイスによりもたらされる他の影響又はひずみ、他のチャネル影響/特性を含む)。
【0013】
一実施態様において、上記ミスマッチ関数fは、次の形である。
【数1】

【0014】
しかし、他の形のミスマッチ、たとえば、次の形が可能である。
【数2】

【0015】
これは、ミスマッチ関数(2)のより一般的な形である。γの異なる値は、音声と雑音が、電力又は大きさ又は他のドメインにおいて加法性であるかについての異なる仮定のためである。γ=1のとき、それは大きさのドメインに関するものであり、最初のミスマッチ関数と一致する。それが2であるとき、それは電力のドメインに関するものである。
【数3】

【0016】
ここで、αは定数である。式(2)のミスマッチ関数と比較して、このミスマッチ関数は、さらにクリーン音声と雑音との間のランダムな位相関係をモデル化する。(方程式(2)のミスマッチ関数は、それらが統計学的に直交であると仮定し、したがって、位相関係を無視する。)
上記他の形のミスマッチ関数の両方において又はそれに関して任意の形のミスマッチ関数において、F(x)はxと置換されても良い。
【0017】
一実施態様において、環境補償のために、ベクトル・テイラー級数(VTS)が使用される。
【0018】
一つの実施態様において、上記話者変換は、線形変換である。更なる実施態様において、話者変換は、声道長正規化(vocal tract length normalisation)(VTLN)変換である。
【0019】
それゆえ、VTLNは、VTLNベースのVTS(VVTS)を形成するために、上記のようなVTSフレームワークに結合されることができる。
【0020】
更なる実施態様において、VVTSは、予測的制約付き最尤回帰(predictive constrained maximum likelihood regression)(PCMLLR)に適用される。PCMLLRにおいて、次のCMLLRフォームが使用される。
【数4】

【0021】
また、A(r)とb(r)(それらはCMLLR変換である)は、式(19)と目標分布との間のダイバージェンスを最小にするPCMLLR技術を使用して、推定される。
【0022】
一実施態様において、適応学習が使用される。適応学習は、すべての学習アルゴリズムのように、学習基準を最適化する。一つの実施態様において、例えば最小音素誤り(minimum phone error)(MPE)のような識別基準が、使用される。また、最尤基準が使用されても良い。
【0023】
一実施態様において、少なくとも一つの話者変換パラメータは、離散的パラメータである。
【0024】
更なる実施態様において、uとvの上記同時推定は、期待値最大化アルゴリズム(expectation maximisation algorithm)を使用して実行される。
【0025】
一実施態様においては、本発明は、新しい話者のための学習モードが存在し且つ新しい話者が既知のテキストを読むシステムにおいて、使用される。そして、音声データ及び読まれるテキストは、音響モデルを新しい話者に適応させるための変換を推定するのに使用することができる。
【0026】
更なる実施態様において、テキストが既知でない音声データが受信される。たとえば、システムが、音声で制御できる衛星ナビゲーション(sat nav)システム、MP3プレーヤ、スマートフォンなどの一部として使用されるならば、一般に、明確な適応学習フェーズは存在しない。そのようなシステムにおいて、入力音声に対応するテキストは、仮説に基づいて推定される。たとえば、テキストは、最初に、適応のないモデルを使用して、推定され得る。システムは、それから、変換を推定するために、この仮説を使用する。変換は、それから、より多くの音声が受信されるにつれて継続的に推定されても良い。
【0027】
また、適応学習フェーズをもつシステムが、上記適応学習フェーズが完了した後に、及び、上記システムが使用中のときに、継続的に変換を更新するように、上記二つの実施態様が組み合わせられても良い。
【0028】
まだ更なる実施形態において、本発明は、音声処理のための音響モデルを、該音響モデルがその下で学習された話者又は環境にマッチしないある環境においてある話者から受信されるミスマッチした音声入力に適応する方法において、前記方法は、特徴ベクトルの系列を含むミスマッチした音声入力を受信することと、特徴ベクトルの系列を含む入力信号に対する音声処理を実行するための音響モデルを提供することを含み、前記モデルは、特徴ベクトルに関係する単語又はその一部の確率分布に関する複数のモデル・パラメータを有し、前記音響モデルをミスマッチした話者入力に適応することは、前記話者の前記環境と、前記音響モデルがその下で学習された前記環境との間の相違を主としてモデリングするためのミスマッチ関数fと、前記ミスマッチした話者入力の前記話者の間の相違を主としてモデリングするための話者変換Fとを使用して、y=f(F(x,v),u)となるように、前記ミスマッチした話者入力からの音声を、前記音響モデルを学習するために使用される前記音声に関連付けることと、u及びvを同時に推定することを含み、ここで、yは、前記ミスマッチした話者入力からの前記音声を表し、xは、前記音響モデルを学習するために使用される前記音声であり、uは、前記環境の変化をモデリングするための少なくとも一つのパラメータを表し、vは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す方法を提供する。
【0029】
本発明の実施態様は、ハードウェアにおいてまたは汎用コンピュータ内のソフトウェアの上において実装されることができる。本発明の更なる実施態様は、ハードウェアとソフトウェアとの組み合せにおいて実装されることができる。本発明の実施態様はまた、単一の処理装置または複数の処理装置の分散ネットワークによって実装されることができる。
【0030】
本発明の実施態様はソフトウェアによって実装されることができるので、本発明は任意の適切なキャリア媒体上の汎用コンピュータに提供されるコンピュータ・コードを含む。キャリア媒体は、例えばフロッピー(登録商標)ディスク、CD−ROM、磁気デバイスまたはプログラム可能なメモリ・デバイスのような、任意の記憶媒体、または、例えば信号(例えば電気、光学又はマイクロ波信号)のような、任意の一時的な媒体を含むことができる。
【0031】
図1は、非常に基本的な音声認識システムの概略図である。ユーザ(図示せず)は、マイクロフォン1またはオーディオ・システム用の他の収集デバイスに音声を発する。デバイス1は、前もって記録された音声データを含むメモリによって代えることができ、あるいは、デバイス1は、遠隔地から音声データを受信するためのネットワーク・コネクションであっても良い。
【0032】
音声信号は、それから、図2を参照して更に詳細に説明される音声プロセッサ3に導かれる。
【0033】
音声プロセッサ3は、音声信号を取り込んで、それを該音声信号に対応するテキストに変換する。多種多様な形の出力が利用可能である。たとえば、出力は、スクリーンに出力するディスプレイ5の形式であっても良い。あるいは、出力は、プリンターまたはその種の他のものに向けられることができる。また、出力は、更なるシステム9に提供される電子信号の形式であることができる。たとえば、更なるシステム9は、プロセッサ3からの出力テキストを取り込んで、それを異なる言語に変換する音声翻訳システムの一部であることができる。変換されたテキストは、それから、更なるテキストを経て音声システムに出力される。
【0034】
あるいは、プロセッサ3により出力されるテキストは、様々なタイプの機器を操作するために使用されることができる。その機器は、たとえば、ユーザが音声により様々な機能を制御するモバイル電話、車などの一部であることができる。出力は、指定された場所までユーザを案内するための車載ナビゲーション・システムにおいて使用されることができる。
【0035】
図2は、音声処理システム51の基本的なアーキテクチャーを示す。音声処理システム51は、プログラム55を実行するプロセッサ53を含む。音声処理システム51は、ストレージ57を更に含む。ストレージ57は、音声をテキストに変換するためのプログラム55により使用されるデータを記憶する。音声処理システム51は、入力モジュール61及び出力モジュール63を更に含む。入力モジュール61は、音声入力65に接続される。音声入力65は、音声を受信する。音声入力65は、たとえば、マイクロフォンであっても良い。あるいは、音声入力65は、外部記憶媒体またはネットワークから音声データを受信するためのデバイスであっても良い。
【0036】
テキスト用の出力67は、出力モジュール63に接続される。テキスト出力67は、音声入力63に入力される音声から変換されるテキスト信号を出力するために使用される。テキスト出力67は、たとえば、直接のテキスト出力(例えば、記憶媒体、ネットワークなどに送信され得るスクリーンまたはデータ・ファイル)であっても良い。
【0037】
使用時において、音声処理システム51は、音声入力65を介して音声を受信する。プロセッサ53の上で実行されるプログラム55は、ストレージ57に記憶されたデータを使用して、音声をテキスト・データに変換する。テキストは、出力モジュール63を介して、テキスト出力67へ出力される。
【0038】
図3は、図1に示されるタイプの音声認識プロセッサ3の標準的なコンポーネントのブロック図である。マイクロフォンから又はネットワークを介して又は記録媒体から受信される(1)音声信号は、フロントエンド・ユニット11に導かれる。
【0039】
フロントエンド・ユニット11は、受信された音声信号をデジタイズし、そして、それを等しい長さのフレームに分割する。音声信号は、それから、「音響空間」または特徴空間においてプロットされる様々なパラメータを決定するために、スペクトル解析を受ける。導出されるパラメータは、後で更に詳細に議論される。
【0040】
フロントエンド・ユニット11はまた、音声信号でないと思われる信号及び他の無関係な情報を取り除く。ポピュラーなフロントエンド・ユニットは、フィルタ・バンク(F BANK)パラメータ、メル周波数ケプストラル係数(Mel Frequency Cepstral Coefficients)(MFCC)及び知覚線形予測(Perceptual Linear Predictive)(PLP)パラメータを使用する装置を含む。フロントエンド・ユニットの出力は、n次元音響空間中に存在する入力ベクトルの形式である。
【0041】
入力ベクトルは、それから、音響モデル・セクション15及び言語モデル・セクション17の両方と協調する復号器13に供給される。音響モデル・セクション15は、一般に、隠れマルコフモデルを使用してオペレートする。しかし、コネクショニスト・モデル及びハイブリッド・モデルに基づく音響モデルを使用することもまた可能である。
【0042】
音響モデル・ユニット15は、音響入力だけに基づいて単語又はその一部に対応する観測値の系列の尤度を導く。
【0043】
言語モデル・セクション17は、与えられた言語において互いに続く複数の単語又は単語の部分の特定の系列の確率に関する情報を含む。一般に、静的モデルが使用される。最もポピュラーな方法は、nグラム・モデルである。
【0044】
復号器13は、それから、音響モデル15及び言語モデル17からの結果を使用して、与えられた音声発話に対する最善のトランスクリプション(転写)を検出するために、動的計画法(DP)アプローチを伝統的に使用する。
【0045】
これは、それから、テキストが表示され又は提示され又は更なる使用のために(例えば、音声対音声翻訳において又は音声駆動デバイスを制御するために)変換されるのを可能にする出力デバイス19を介して出力される。
【0046】
この説明は、主に、隠れマルコフモデル(HMM)である音響モデルの使用に関する。しかし、それはまた、他のモデルに関して使用されることができる。
【0047】
この実施態様において使用される実際のモデルは、標準的なモデルであり、その詳細は、この特許出願の範囲外である。しかし、モデルは、単語又はその一部に関係する音響ベクトル(音声ベクトルまたは特徴ベクトル)によって表される観測値の確率に関係する確率密度関数(probability density functions)(pdfs)の提供を要求する。一般に、この確率分布は、n次元空間におけるガウス分布である。
【0048】
図4に、一般的なガウス分布の概略例が示される。ここでは、水平軸は、一次元の入力ベクトルのパラメータに対応し、確率分布は、観測値に関係する特定の単語又はその一部に関するものである。たとえば、図4において、音響ベクトルxに対応する観測値は、その確率分布が図3で示される単語に対応する確率p1を持つ。ガウス分布の形状と位置は、その平均と分散によって定義される。これらのパラメータは、音響モデルがカバーする音素又は音声単位の学習により決定される。それらは「モデル・パラメータ」と呼ばれる。
【0049】
HMMでは、一旦、典型的なパラメータが決定されるならば、モデルは、複数の単語又は単語の部分の系列に対応する観測値の系列の尤度を判定するのために使用されることができる。
【0050】
図5は、観測ベクトルまたは特徴ベクトルx1により観測値が表される音響空間の概略プロットである。白丸gは、ガウス分布又は音響空間でプロットされる他の確率分布関数の平均に対応する。
【0051】
復号化の間、音響モデルは、特徴ベクトルx1がガウス分布によって表される単語又はその一部に対応する尤度について、いくつかの異なる尤度を計算する。これらの尤度は、それから、音響モデルにおいて使用され、そして、発声されたテキストを判定するために、言語モデルからの確率と結合される。
【0052】
しかし、音声認識のために使用されるべき音響モデルは、異なる条件下で(例えば、異なる話者について及び/又は異なる環境において)対処する必要がある。
【0053】
以前、ミスマッチ関数は、異なる環境の間の関係をモデル化するために導かれた。そのようなミスマッチ関数の一例は、以下のようである。
【数5】

【0054】
ここで、yは、クリーン及び雑音下音声のためのケプストラム特性を意味し、nとhは、それぞれ、加法性及び乗法性雑音であり、Cは、離散コサイン変換(DCT)行列であり、添え字sは、静的成分を意味する。式(1)は、雑音ミスマッチ関数として広く使用されており、文献における大部分の雑音補償技術の基盤である。明確に、それは、yとxとの間において話者のミスマッチが存在しないことを仮定する。
【0055】
話者ミスマッチが存在するときに、例えば、xが、話者非依存のクリーン特徴空間(すなわち、HMM学習空間)にあり、1人の特定のテスト話者からのyが、雑音環境で記録されるときに、このミスマッチ関数を使用し続けることは、xとyとの間の関係を正しくモデル化することはできず、したがって、パフォーマンスを損なう。
【0056】
話者非依存の特徴xを、話者依存の特徴zへマッピングするための関数z=F(x)が存在するならば、zとyは、環境ミスマッチを有するだけであり、そして、それらの関係は、式(1)によって正しくモデル化されることができる。それゆえ、以下のようになる。
【数6】

【0057】
式(1)と比較して、ミスマッチ関数として式(2)を使用することは、多くの利点を有する。第1に、それは話者ミスマッチと環境ミスマッチの両方を含むxとyの間のより正しいミスマッチ関数を形成する。第2に、Fは、クリーン特徴空間において話者ミスマッチをモデル化するだけであり、それゆえ、文献における多くの話者適応技術は、それらの基本的な前提に反することなく、それのために適用されることができる。第3に、両方のミスマッチを含むように1つのミスマッチ関数を使用することは、1つのステップで話者適応及び雑音補償のためのパラメータを同時に推定することを可能にする。これは、より効果的な推定を与え、また、独立したステップでそれらを推定することに比べて、より良いパフォーマンスを与える。最後に、ベクトル・テイラー級数(VTS)のような多くのモデル・ベースの雑音補償技術は、直接、ミスマッチ関数から導かれるので、それらは、新しい強化されたミスマッチ関数に基づいて解を発見するように容易に構成されることができる。
【0058】
関数Fの形に関する限り、多くの選択肢が存在する。最も単純なもののうちの一つは、以下のような一次関数を使用することである。
【数7】

【0059】
ここで、rは、回帰クラスのインデックスである。この場合、A(r)は、連続的であることも離散的であることもできる。それが連続的であるとき、それは実質的に話者適応のためのCMLLRになる。それが離散的であるとき、バイアス項b(r)を無視することができる。すなわち、以下のようになる。
【数8】

【0060】
声道長正規化(VTLN)は、話者の相違をモデル化するための変換である。声VTLNは、特徴ベクトルの上の線形変換として使用されることができ、式(4)におけるA(r)−1としてVTLNを使用することができる。適応データが制限される迅速な適応のために、VTLN変換が有する推定するための自由パラメータは、かなり少数であるので、式(4)は、式(19)よりも有利である。
【0061】
強力な雑音補償技術として、モデル・ベースのベクトル・テイラー級数(VTS)は、直接、HMMパラメータを補償する。上記の強化されたミスマッチ関数は、VTSとともに使用されることができる。
【0062】
VTSは、式(1)のミスマッチ関数から始まり、そして、線形化を達成するために、一次テイラー展開を適用する。HMMにおける第mのミクスチャーが、平均μ(m)と分散Σ(m)をもつガウス分布を有すると仮定すると、
【数9】

【0063】
そのとき、展開点ζ=(μxs(m),μns,μhs)の上で一次テイラー展開を実行することによって、ミスマッチ関数は、次のように線形化されることができる。
【数10】

【0064】
ここで、μnsとμhsは、加法性及び乗法性雑音平均の静的成分である。したがって、雑音下音声の分布はまた、ガウス分布である。
【数11】

【0065】
ここで、Σnsは、加法性雑音の共分散であり、diag(.)は、正方行列の対角化のための演算子である。yのデルタ成分及びデルタ−デルタ成分に関する分布はまた、連続時間近似を使用することによって、静的成分に基づいて、容易に導かれることができる。
【0066】
式(8)と(9)は、VTSにおけるHMM補償のために直接使用され、補償のためのパラメータは、適応データの上の式(7)における尤度を最大にする最善の雑音パラメータΛ=(μns,μhs,Σ)を検出することによって、得られる。これは、通常、次の補助関数を最適化する期待値最大化(EM)アルゴリズムによって、達成される。
【数12】

【0067】
ここで、sは、適応データに対する状態系列であり、ΛとΛは、それぞれ、推定されるべき雑音パラメータと、最後のEM繰り返しからのそれらである。式(10)を解くために、テイラー展開点を修正することによって、すなわち、初期展開点として_nにおいて雑音パラメータを使用し、そして、後で可能な場合に点を新しく推定された雑音に移すことによって、点推定が要求される。
【数13】

【0068】
式(11)に続いて、雑音平均μnsとμhsの閉形式解を得ることができる。そして、数値解析法、例えば、ニュートン法が、雑音分散Σを推定するために採用される。式(2)の強化されたミスマッチ関数が、VTSのために適用されるときに、HMMは、なお、fをqと入れ替えることによって、式(8)と(9)で補償されることができる。F(x)が線形のとき、以下である。
【数14】

【0069】
雑音パラメータ以外に、本発明の実施態様に従った方法はまた、話者適応パラメータ、すなわち、Λns=(μns,μhs,Σ,A(r),b(r))の推定を要求する。最適化は、式(10)における目的関数を最大にすることによって達成されることができる。そして、それは、すべてのパラメータを、EMアルゴリズムにおける1つのM−ステップにおいて、同時に最適化されるようにする。それゆえ、本発明の実施態様に従ったこの方法は、より良い効率を提供し、また、独立したEMステップにおいて雑音と話者適応パラメータとを最適化することに比べて、より大きい尤度を与える。
【0070】
もし(A(r),b(r))が、式(19)において連続的であるならば、最適化手法は、式(11)におけるテイラー展開もA(r)とb(r)のために余剰成分(extra parts)を含むことを除いて、VTSと同じである。
【数15】

【0071】
ここで、aij(r)は、A(r)の第i行第j列の要素であり、b(r)は、b(r)の第iの要素である。
【0072】
連続的なケースと比較して、式(4)における離散変換を使用することは、解を、非常に単純に、そして、より直接的にする。解は、ブルートフォース探索(Bruteforce search)を使用して見つけられる。具体的には、各々のA(r)を与えられたとすると、式(10)が、最善の雑音パラメータΛを見つけるために最適化される。それから、最大尤度のために最善のA(r)とΛが選択される。このプロセスは、次のように表現されることができる。
【数16】

【0073】
この上記の説明は、離散変換を提供するVTLNの使用を詳細に説明した。しかし、離散的あるいは連続的なF(x)のための他の変換が、使用されても良い。
【0074】
更なる実施態様に従った方法では、更なるフレームワークは、上記のVTSベースのシステムの効率を改善するために使用される。
【0075】
モデル・ベースのVTSは強力であるが、各々のHMMコンポーネントの上でのテイラー展開と典型的な補償の両方を要求する。大きなHMMを使用するとき、これはかなりの計算能力を必要とする。同じことはまた、上で説明されたVVTSについても当てはまる。
【0076】
VVTSのパフォーマンスを更に向上させるために、VVTSをPCMLLRフレームワークに適用することは、理にかなっている。推定された雑音とVTLNパラメータを与えられたとすると、VVTSベースのPCMLLRは、回帰クラス・レベルの上でテイラー展開を実行すること(すなわち、展開点としてζ=(μxs(r),μns,μhs)を使用すること)によって、HMMを補償する。ここで、μxs(r)は、回帰クラスrの上での静的クリーン音声平均である。それゆえ、以下のようになる。
【数17】

【0077】
それから、最終的なモデル補償は、次のCMLLRの形を使用して実行された。
【数18】

【0078】
ここで、A(r)とb(r)は、式(19)と、式(17)及び(18)における回帰クラス・ベースのVVTS補償との間のカルバック・ライブラー・ダイバージェンス(Kullback-Leibler divergence)を最小にするPCMLLRによって推定される、CMLLR変換である。
【0079】
本実施態様の方法はまた、例えばPCMLLR適応学習(PAT)のような、適応学習フレームワークにおいて使用されることができる。そのようなフレームワークにおいて例えば最小音素誤り(MPE)のような識別基準を使用することが可能である。
【0080】
図6は、本発明の実施態様に従った音声認識方法を示すフローチャートである。ステップS101において、音声が入力される。大部分の実施態様において、該入力音声は、既知のトランスクリプションに対応しない。しかし、音声に対応するトランスクリプションを推定することが可能である。一般的に、これは第1の推定を得るために復号器の第1のパスを実行することによってなされる。ステップS111の後で、使用可能なオペレーションが説明される。
【0081】
それから、ステップS103において、前向き/後ろ向きアルゴリズムが実行される。S105において、入力データから、同時にミスマッチ関数及び変換のための適応パラメータが推定される。VTLNとVTSが使用される一つの実施態様において、Λns=(μns,μhs,Σ,A(r),b(r))を同時に最適化するために、式16の補助関数の上で、期待値最大化アルゴリズムが実行される。
【0082】
音声認識システムの音響モデル・パラメータは、それから、ステップS105の変換を使用して直接変換され、あるいは、特徴ベクトルは、音響モデルにマッチするようにステップS107においてCMLLRを使用して変換される。
【0083】
音声認識システムはまた、音響モデルに加えて言語モデルを含む。言語モデルは、音響モデルにより出力される複数の単語の系列が、与えられた言語において出現する確率を示すために使用される。様々な系列に対する確率は、音響モデルと言語モデルの両方によってスコアされ、そして、それら確率は結合される。
【0084】
一つの実施態様では、ステップS109において、不変の言語モデルと、修正されたパラメータを使用する新しい話者のための音響モデルとを使って、認識が実行され、そして、識別された単語が、ステップS111において出力される。適応された音響モデルを使った認識は、次の2つの形のうちの一つをとることができる:
(1)標準的なASR − 起こり得る認識仮説を判定するために、音響モデルと言語モデルを必要とする − これは、同一のデータの上での、または、次の入力音声の上で新しい音響モデルを使用する、第2のパスであっても良い;
(2)リスコアすること − 第1の推定においてテキストを判定するために使用される第1の認識パスから、起こり得る仮説のラティス又はN最良リストが、保存される。言語モデル・スコアは、ラティス/N最良リストで保存される。それから、完全な認識が実行される必要はない。各々のフレームにおいて、保存されたラティス・パスを「リスコア」するために、該保存された言語モデル・スコアと結合される、音響モデル・スコアだけが要求される。同一のデータの上で再実行するならば、リスコアが適用されるのみであろう。
複雑な認識タスクについて、リスコアすることは、スクラッチからの全認識パスを実行することに比べて、非常に高速である。
【0085】
上記の実施態様では、初期トランスクリプションを得るために、第1のパスの復号化ランが実行される。第1のパスの復号化のために、任意のモデルが使用されることができるが、しばしば、ベースライン(話者独立)モデルが使用される。初期トランスクリプション及び対応するデータを使って、適応のための変換を推定することができる。この変換は、それから、現在のデータ(すなわち、それは変換を推定するために使用される)を再復号化するために使用されることができ、または、初期仮説を改善するために使用されることができる。または、他のテスト・データの上で、変換が使用されることができる。
【0086】
使用時に、ユーザは、適応が進行中であったことに気付いていない可能性がある。ユーザは、認識が起こるものとして理解しているだけであろう。
【0087】
適応パラメータは、継続的に再推定されても良いし、あるいは、新しい変換が推定される適応学習フェーズがあっても良い。
【0088】
一般に、適応パラメータの何らかの継続的な再推定が存在するであろう。そして、それは、複数のユーザ/ノイズなどが存在するとき、特に役に立つ。起こり得る3つの異なるシナリオが、後に続く。
【0089】
例1−インクリメンタル・モード
a.ユーザ1は、「レット・イット・ビーを演奏せよ(play let it be)」というリクエストをする。
b.システムは、誤って認識し、「あなたと私を演奏せよ(play you and me)」を出力する(ユーザ1は満足しない)。
c.システムは、それから、「あなたと私を演奏せよ(play you and me)」という仮説を使用して変換を得る。
d.ユーザ1は、「ザ・ビートルズを演奏せよ(play the beatles)」という第2のリクエストをする。
e.システムは、復号化するための変換を使用し、「ザ・ビートルズを演奏せよ(play the beatles)」という仮説を出力する(ユーザ1は満足する)。
f.システムは、変換を改善するために、2回目の発話を使用する、などである。
【0090】
例2−類似しているが、再復号化をする
a.ユーザ1は、「レット・イット・ビーを演奏せよ(play let it be)」というリクエストをする。
b.システムは、誤って「あなたと私を演奏せよ(play you and me)」と認識する。
c.システムは、それから、「あなたと私を演奏せよ(play you and me)」という仮説を使用して変換を得る。
d.システムは、元のデータを再復号化するための変換を使用し、「レット・イット・ビーを演奏せよ(play let it be)」という新たな仮説を出力する(ユーザ1は満足する)。
e.ユーザ1は、「ズートンズを演奏せよ(play the zutons)」というリクエストをする。
f.システムは、第1の変換を使用して「ズートンズを演奏せよ(play the zutons)」を復号化する。
g.システムは、第1の変換を改善するために、2回目の発話を使用する。
h.システムは、改善された変換を使用して、2回目の発話を再復号化する、などである。
【0091】
例3−再復号化をするが、複数のユーザ
a.ユーザ1は、「レット・イット・ビーを演奏せよ(play let it be)」というリクエストをする。
b.システムは、誤って「あなたと私を演奏せよ(play you and me)」と認識する。
c.システムは、それから、「あなたと私を演奏せよ(play you and me)」という仮説を使用して変換を得る。
d.システムは、元のデータを再復号化するための変換を使用し、「レット・イット・ビーを演奏せよ(play let it be)」という新たな仮説を出力する(ユーザ1は満足する)。
e.ユーザ2は、「ズートンズを演奏せよ(play the zutons)」というリクエストをする。
f.システムは、元のモデルを使用して「ザ・ビートルズを演奏せよ(play the beatles)」を復号化する。
g.システムは、「ザ・ビートルズを演奏せよ(play the beatles)」を使用して、ユーザ2の変換を推定する。
h.システムは、「ズートンズを演奏せよ(play the zutons)」という新たな仮説を得るために、ユーザ2を使用して、2回目の発話を再復号化する(ユーザ2も満足する)。
【0092】
上記において、システムが、変換を再推定するために、ユーザが間違っていることを示した仮説を使用しないように、システムがユーザ・フィードバックを受信しても良い。
【0093】
上記を実証するために、下で説明される連続数字のオーロラ2(Aurora 2)データベースと東芝車載タスク(Toshiba in-car tasks)の上で、実験が実行された。
【0094】
オーロラ2は、2つの学習セット(クリーンおよび複数雑音条件)と3つのノイジー・テスト・セットに分割される。テスト・セットAとBは、それぞれ、20から0dBにわたるSNRをもつ4つのタイプの加法性雑音をそれぞれ含み、一方、セットCは、乗法性雑音を含む。各々の数字は、3つのミクスチャーをもつ16のHMM状態によってモデル化されたものであり、これに対して、無音は、各々6つのミクスチャーをもつ3つの状態によってモデル化されたものである(全部で546のミクスチャー)。
【0095】
東芝データは、主に、実環境で記録された車運転状件において適応学習技術を評価するために、この論文において使用された。それは、2つの雑音状況(すなわち、エンジン−オン(EN)及びハイウェイ(HW))で各々記録された4つのタスク(電話番号(PH)、数字(4D)、コマンド制御(CC)及び都市名(CN))を含む。ENON条件は、4401個の発話を含み、35dBの平均SNRを有し、これに対して、HW条件は、およそ18dBのSNRで4582個の文を含む。650個の状態をもつトライフォンHMMは、ウォールストリート・ジャーナル、TIDIGITS、TIMIT、及び内部的に収集したノイジーな学習データからなる312時間のデータを含む混合した複数雑音条件セットの上で学習された。HMMにおける各々の音声状態ごとに12のミクスチャーと、各々の無音状態ごとに24のミクスチャーがあった(HMMにおける総数およそ8000個のミクスチャーを与えた)。
【表1】

【0096】
【表2】

【0097】
【表3】

【0098】
【表4】

【0099】
VTSベースの技術のためのフロントエンドは、それらのデルタ成分及びデルタ−デルタ成分をともなう0次係数を含むHTKによって生成される13次元MFCCである。比較として、文献における最も強力なフロントエンド処理技術のうちの一つ、拡張フロントエンド(AFE)に関する結果も、ベースラインとしてここに含まれた。
【0100】
VTSベースの技術については、手続きを復号化する2つのパスは、各々のテスト発話ごとに使用された。
詳しくは、
1)雑音の粗い推定を得て、HMMを補償するために、各々の発話における最初と最後の20のフレームを使用する。
2)初期仮説を得るために復号化を実行する。
3)EMを使用して仮説に基づいて雑音(または雑音と話者)推定をより正確にする。
4)雑音推定でHMMを補償し、そして、最終的な認識結果を出力する。
【0101】
実験の結果は、表Iにおいて与えられた(ここでは、クリーン学習が使用され、テストはセットAのみの上であった)。はっきりした進歩は、AFEと比較してモデル・ベースのVTSから観測された。VTSモデル補償の後で更にVTLNを適用することは、非常に小さな進歩をもたらすだけであった(または、進歩をもたらさなかった)。VTSによって補償された後のモデル(それは雑音下音声分布をモデル化する)は、ノイジーになるので、これは、理にかなっている。VTLNは、元々、クリーン特徴空間における話者適応のために考案されたので、VTSの後で更にVTLNを適用することは、その基本的な前提に反する。ミスマッチ関数の一部としてVTLN変換を組み込んで、同時にそれらを最適化することによって、VVTSは、非常に大きく且つ非常に一貫性のある改善を与える。これは、クリーン空間においてVTLNを適用し、同時にVTLNと雑音パラメータを最適化することが重要である我々の議論の正当性を示す。また、より高いSNRでの進歩がより低いSNRよりも大きく、より雑音が少ないケースで話者補償がより重要であることを示すことに、注目される。
【表5】

【0102】
表Iはまた、PCMLLR、VVTSベースのPCMLLR、及び、PCMLLRの後のVTLNに関する結果を比較した。前の通り、同様の結論と観測値が得られる。これは、VVTSが一貫性のある方法であるということを証明し、そして、新しく提案されたミスマッチ関数は、ジェネリックであり、また、様々な方法で正しく動作することができる。
【0103】
テーブルVにおいてVVPATの結果が与えられた(ここでは、MTRデータがHMM学習のために使用され、すべての3セットの結果がまとめられた)。PATと比較して、すべてのテスト・セットについて、一貫性のある進歩がVVPATから観測された。学習の間、VVTSベースのPCMLLRを適用することが、より良い規範的モデルを与えることを示す。また、適応可能な学習のための更なる結果が、東芝データの上で提供された。観測値は、オーロラ2の上でのそれらと一致していた。ここでは、また、さらにパフォーマンスを高めるために、MPE適応学習が、PATまたはVVPATの後で使用された。MPEを伴うVVPATは、GDを使用せずにさえ、最高のPATパフォーマンスにマッチすることができる。一つの性別非依存のHMMだけが要求されるので、これは更なる利益をもたらす。
【0104】
特定の実施態様が説明されたが、これらの実施態様は、例としてのみ提示されたものであり、本発明の範囲を制限することを意図するものではない。実際に、本明細書で説明される新規な方法及びシステムは、様々な他の形に表現され得る;さらに、本明細書で説明される方法及びシステムの形における様々な省略、代用及び変化が、発明の精神を逸脱しない範囲でなされ得る。添付のクレームとそれらの均等物は、発明の範囲及び精神の範囲内にあるそのような形の修正をカバーすることを意図されている。

【特許請求の範囲】
【請求項1】
音声処理方法において、
特徴ベクトルの系列を含む音声入力を受信することと、
音響モデル及び言語モデルを使用して、前記特徴ベクトルの系列から生じる複数の単語の系列の尤度を判定することを含み、
前記尤度を判定することは、
特徴ベクトルの系列を含む入力信号に対する音声認識を実行するための音響モデルを提供することを含み、前記モデルは、特徴ベクトルに関係する単語又はその一部の確率分布に関する複数のモデル・パラメータを有し、前記音声入力は、前記音響モデルがその下で学習された話者又は環境にマッチしないある環境においてある話者から受信されるミスマッチした音声入力であり、
前記尤度を判定することは、
前記音響モデルを前記ミスマッチした音声入力に適応することを更に含み、
前記音声処理方法は、更に、
言語モデルを使用して、所定の言語において生じる前記特徴の系列の尤度を判定することと、
前記音響モデル及び前記言語モデルにより判定される前記尤度を結合することと、
前記音声入力信号から識別される複数の単語の系列を出力することを含み、
前記音響モデルを前記ミスマッチした話者入力に適応することは、
前記話者の前記環境と、前記音響モデルがその下で学習された前記環境との間の相違を主としてモデリングするためのミスマッチ関数fと、前記ミスマッチした話者入力の前記話者の間の相違を主としてモデリングするための話者変換Fとを使用して、y=f(F(x,v),u)となるように、前記ミスマッチした話者入力からの音声を、前記音響モデルを学習するために使用される前記音声に関連付けることと、
u及びvを同時に推定することを含み、
ここで、yは、前記ミスマッチした話者入力からの前記音声を表し、xは、前記音響モデルを学習するために使用される前記音声であり、uは、前記環境の変化をモデリングするための少なくとも一つのパラメータを表し、vは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す音声処理方法。
【請求項2】
前記少なくとも一つのパラメータuは、パラメータnとhを含み、
前記nは、加法性雑音をモデル化するために使用され、前記hは、乗法性雑音をモデル化するために使用される請求項1に記載の方法。
【請求項3】
前記ミスマッチ関数fは、
【数1】

の形であり、ここで、Cは離散コサイン変換行列であり、添え字sは静的成分を意味する請求項2に記載の方法。
【請求項4】
前記話者変換は線形変換である請求項1ないし3のいずれか1項に記載の方法。
【請求項5】
前記話者変換は、声道長正規化変換である請求項4に記載の方法。
【請求項6】
少なくとも一つの話者変換パラメータは、離散的パラメータである請求項5に記載の方法。
【請求項7】
前記uとvの同時推定は、期待値最大化アルゴリズムを使用して実行される請求項1ないし6のいずれか1項に記載の方法。
【請求項8】
前記音響モデルを適応することは、CMLLRの形
【数2】

をもつPCMLLRを使用することを更に含み、ここで、mは平均μ(m)と分散Σ(m)をもつ隠れマルコフモデルのガウス分布における第m番目のミクスチャーを意味し、A(r)とb(r)は前記CMLLRの形と目標分布との間のダイバージェンスを最小にするPCMLLR技術を使用して推定されるべきCMLLR変換であり、前記目標分布はy=f(F(x,v),u)から導かれる請求項1ないし7のいずれか1項に記載の方法。
【請求項9】
前記適応は、適応学習フレームワークにおいて提供される請求項1ないし8のいずれか1項に記載の方法。
【請求項10】
前記音響モデルを前記ミスマッチした話者入力に適応することは、該ミスマッチした話者入力から既知のテキストに対応する音声を受信することを含む請求項1に記載の方法。
【請求項11】
前記音響モデルをミスマッチした話者入力に適応することは、前記新しい話者から音声を受信することと、前記音声に対応する前記テキストの第1の推定をすることを含む請求項1に記載の方法。
【請求項12】
音声処理のための音響モデルを、該音響モデルがその下で学習された話者又は環境にマッチしないある環境においてある話者から受信されるミスマッチした音声入力に適応する方法において、前記方法は、
特徴ベクトルの系列を含むミスマッチした音声入力を受信することと、
特徴ベクトルの系列を含む入力信号に対する音声処理を実行するための音響モデルを提供することを含み、前記モデルは、特徴ベクトルに関係する単語又はその一部の確率分布に関する複数のモデル・パラメータを有し、
前記音響モデルをミスマッチした話者入力に適応することは、
前記話者の前記環境と、前記音響モデルがその下で学習された前記環境との間の相違を主としてモデリングするためのミスマッチ関数fと、前記ミスマッチした話者入力の前記話者の間の相違を主としてモデリングするための話者変換Fとを使用して、y=f(F(x,v),u)となるように、前記ミスマッチした話者入力からの音声を、前記音響モデルを学習するために使用される前記音声に関連付けることと、
u及びvを同時に推定することを含み、
ここで、yは、前記ミスマッチした話者入力からの前記音声を表し、xは、前記音響モデルを学習するために使用される前記音声であり、uは、前記環境の変化をモデリングするための少なくとも一つのパラメータを表し、vは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す方法。
【請求項13】
請求項1ないし12のいずれか1項の前記方法を実行するように前記コンピュータを制御するためのコンピュータ読み取り可能なインストラクションを伝えるキャリア媒体。
【請求項14】
音声処理システムにおいて、
特徴ベクトルの系列を含む音声入力を受信するための受信機と、
音響モデル及び言語モデルを使用して、前記特徴ベクトルの系列から生じる複数の単語の系列の尤度を判定し、
特徴ベクトルの系列を含む入力信号に対する音声認識を実行するための音響モデルを提供するように構成されたプロセッサとを含み、前記モデルは、特徴ベクトルに関係する単語又はその一部の確率分布に関する複数のモデル・パラメータを有し、前記音声入力は、前記音響モデルがその下で学習された話者又は環境にマッチしないある環境においてある話者から受信されるミスマッチした音声入力であり、
前記プロセッサは、前記音響モデルを前記ミスマッチした音声入力に適応するように更に構成され、
前記プロセッサは、更に、
言語モデルを使用して、所定の言語において生じる前記特徴の系列の尤度を判定し、
前記音響モデル及び前記言語モデルにより判定される前記尤度を結合するように構成され、
前記システムは、前記音声入力信号から識別される複数の単語の系列を出力するように構成された出力を更に含み、
前記音響モデルをミスマッチした話者入力に適応することは、
前記話者の前記環境と、前記音響モデルがその下で学習された前記環境との間の相違を主としてモデリングするためのミスマッチ関数fと、前記ミスマッチした話者入力の前記話者の間の相違を主としてモデリングするための話者変換Fとを使用して、y=f(F(x,v),u)となるように、前記ミスマッチした話者入力からの音声を、前記音響モデルを学習するために使用される前記音声に関連付けることと、
u及びvを同時に推定することを含み、
ここで、yは、前記ミスマッチした話者入力からの前記音声を表し、xは、前記音響モデルを学習するために使用される前記音声であり、uは、前記環境の変化をモデリングするための少なくとも一つのパラメータを表し、vは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す音声処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−42957(P2012−42957A)
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−177854(P2011−177854)
【出願日】平成23年8月16日(2011.8.16)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】