音声処理システム及び方法

【課題】学習とテストとの間の話者ミスマッチ及び環境ミスマッチを解決する音声処理。
【解決手段】音響モデルをミスマッチした音声入力に適応させる。適応させることは、話者の環境と、音響モデルがその下で学習された環境との間の相違を主としてモデリングするためのミスマッチ関数ｆと、ミスマッチした話者入力の話者の間の相違を主としてモデリングするための話者変換Ｆとを使用して、ｙ＝ｆ（Ｆ（ｘ，ｖ），ｕ）となるように、ミスマッチした話者入力からの音声を、音響モデルを学習するために使用される音声に関連付けることと、ｕ及びｖを同時に推定することを含む。ここで、ｙは、ミスマッチした話者入力からの音声を表し、ｘは、音響モデルを学習するために使用される音声であり、ｕは、環境の変化をモデリングするための少なくとも一つのパラメータを表し、ｖは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す。

【発明の詳細な説明】
【技術分野】
【０００１】
本明細書で説明される実施形態は一般に音声処理に関する。
【背景技術】
【０００２】
自動音声認識（ＡＳＲ）システムは、音声と単語を関連付けるように該システムが教示される或るレベルの事前学習を有する。事前学習は、一人又は複数人の話者からの音声を使用して実行される。例えば話者又は環境のような学習条件が、該システムが実際に使用される条件にマッチすることはまれである。学習とテストとの間のそのような話者ミスマッチ及び環境ミスマッチは、ＡＳＲのパフォーマンスを劇的に低下させ、そして、多くのアプリケーションにおいて音声認識技術を配置することを難しくする。
【０００３】
学習条件と「実際の使用」条件との間の関係をモデル化することによって、様々な条件の下で動作するようにシステムを適応させることが可能である。そのようなモデリングは、環境の相違を補償することによって、また、ユーザの音声とシステムの事前学習に使用される音声との相違を独立して補償することによって、達成された。
【図面の簡単な説明】
【０００４】
【図１】図１は、一般的な音声処理システムの概略図である。
【図２】図２は、音声処理用に構成されるプロセッサのアーキテクチャーの概略図である。
【図３】図３は、音声認識プロセッサのコンポーネントの概略図である。
【図４】図４は、ガウス確率関数の概略図である。
【図５】図５は、確率密度関数及び観測ベクトルを表す音響空間の概略プロットである。
【図６】図６は、一実施形態に従った音声処理方法を示すフローチャートである。
【発明を実施するための形態】
【０００５】
現在の諸音声処理システム（それらは異なる条件の下で動作するようにそれらの学習条件から適応することができる）は、一つのステージにおいて学習音声とユーザの音声との相違をモデル化し、そして、独立して学習環境と使用環境との相違をモデル化する。しばしば、非常に限られた適応データのみが、利用可能である。
【０００６】
しかし、これらの技術は、通常、両方のミスマッチを同時に考慮に入れるように設計されていない。具体的には、文献における話者適応技術はたいてい学習及びテスト環境を無雑音と仮定するのに対して、雑音補償技術はたいてい話者ミスマッチを無視する。話者適応のための方法は雑音ミスマッチをある程度補償するために時として使用されることができ、また、その逆も同じであるが、これらの技術は、両方のミスマッチが存在する場合には、それらのための基本的な前提を満たすことができないので、それらの最大の能力で動作することを保証することができない。これは、特に、雑音ミスマッチが存在するときに、テストの間、クリーン音声の観測が利用できないような話者適応技術の場合に該当する。
【０００７】
以前、クリーン音声特徴と、加法性及び乗法性雑音の値を与えられたときの雑音下音声特徴との間の関係をモデル化する雑音ミスマッチ関数が使用された。
【０００８】
一実施形態において、本発明は、音声処理方法において、特徴ベクトルの系列を含む音声入力を受信することと、音響モデル及び言語モデルを使用して、前記特徴ベクトルの系列から生じる複数の単語の系列の尤度を判定することを含み、前記尤度を判定することは、特徴ベクトルの系列を含む入力信号に対する音声認識を実行するための音響モデルを提供することを含み、前記モデルは、特徴ベクトルに関係する単語又はその一部の確率分布に関する複数のモデル・パラメータを有し、前記音声入力は、前記音響モデルがその下で学習された話者又は環境にマッチしないある環境においてある話者から受信されるミスマッチした音声入力であり、前記尤度を判定することは、前記音響モデルを前記ミスマッチした音声入力に適応することを更に含み、前記音声処理方法は、更に、言語モデルを使用して、所定の言語において生じる前記特徴の系列の尤度を判定することと、前記音響モデル及び前記言語モデルにより判定される前記尤度を結合することと、前記音声入力信号から識別される複数の単語の系列を出力することを含み、前記音響モデルを前記ミスマッチした話者入力に適応することは、前記話者の前記環境と、前記音響モデルがその下で学習された前記環境との間の相違を主としてモデリングするためのミスマッチ関数ｆと、前記ミスマッチした話者入力の前記話者の間の相違を主としてモデリングするための話者変換Ｆとを使用して、ｙ＝ｆ（Ｆ（ｘ，ｖ），ｕ）となるように、前記ミスマッチした話者入力からの音声を、前記音響モデルを学習するために使用される前記音声に関連付けることと、ｕ及びｖを同時に推定することを含み、ここで、ｙは、前記ミスマッチした話者入力からの前記音声を表し、ｘは、前記音響モデルを学習するために使用される前記音声であり、ｕは、前記環境の変化をモデリングするための少なくとも一つのパラメータを表し、ｖは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す音声処理方法を提供する。
【０００９】
上記の実施態様では、話者適応技術が、環境ミスマッチ関数に直接適用される。そして、新たなミスマッチ関数は、話者ミスマッチと環境ミスマッチの両方をモデル化し、したがって、基本的な前提に反することなく、同時に、２つのタイプのミスマッチを扱う能力を与える。
【００１０】
上記のフレームワークは、話者適応技術が、雑音補償技術と容易に適合することを可能にする。一般に、音声認識装置の入力において受信される音声信号の音響特性に影響を及ぼす要因は、話者ミスマッチまたは環境ミスマッチのいずれかに分類することができる。
【００１１】
話者ミスマッチという用語は、例えば以下のような要因の違違いを指し示すために使用される：アクセント；２．発話スタイル；３．感情（例えば、怒り対平静、及び話者の他の心理状態）；４．話者の身体的な特性（例えば、鼻詰まり、唇上のタバコ、性別、声道長など）；５．ロンバード効果（雑音による話者影響）；６．話者が他のものによって気を散らされる；または、７．吃音。しかし、他のタイプの話者ミスマッチも可能であり、上記のリストは包括的なものではない。
【００１２】
更なる実施態様において、上記少なくとも一つのパラメータｕは、パラメータｎとｈを含み、ここで、ｎは加法性雑音をモデル化するために使用され、ｈは乗法性雑音をモデル化するために使用される。しかし、ミスマッチ関数ｆはまた、例えば次のような、環境における他の変動を補償するために使用されることができる：様々なソースからのバックグラウンドノイズ；２．背景話者からの音声；３．残響特性；または、４．記録デバイスの特性（マイクロフォン、電子又はデジタル記録デバイスによりもたらされる他の影響又はひずみ、他のチャネル影響／特性を含む）。
【００１３】
一実施態様において、上記ミスマッチ関数ｆは、次の形である。
【数１】

【００１４】
しかし、他の形のミスマッチ、たとえば、次の形が可能である。
【数２】

【００１５】
これは、ミスマッチ関数（２）のより一般的な形である。γの異なる値は、音声と雑音が、電力又は大きさ又は他のドメインにおいて加法性であるかについての異なる仮定のためである。γ＝１のとき、それは大きさのドメインに関するものであり、最初のミスマッチ関数と一致する。それが２であるとき、それは電力のドメインに関するものである。
【数３】

【００１６】
ここで、αは定数である。式（２）のミスマッチ関数と比較して、このミスマッチ関数は、さらにクリーン音声と雑音との間のランダムな位相関係をモデル化する。（方程式（２）のミスマッチ関数は、それらが統計学的に直交であると仮定し、したがって、位相関係を無視する。）
上記他の形のミスマッチ関数の両方において又はそれに関して任意の形のミスマッチ関数において、Ｆ（ｘ）はｘと置換されても良い。
【００１７】
一実施態様において、環境補償のために、ベクトル・テイラー級数（ＶＴＳ）が使用される。
【００１８】
一つの実施態様において、上記話者変換は、線形変換である。更なる実施態様において、話者変換は、声道長正規化（vocal tract length normalisation）（ＶＴＬＮ）変換である。
【００１９】
それゆえ、ＶＴＬＮは、ＶＴＬＮベースのＶＴＳ（ＶＶＴＳ）を形成するために、上記のようなＶＴＳフレームワークに結合されることができる。
【００２０】
更なる実施態様において、ＶＶＴＳは、予測的制約付き最尤回帰（predictive constrained maximum likelihood regression）（ＰＣＭＬＬＲ）に適用される。ＰＣＭＬＬＲにおいて、次のＣＭＬＬＲフォームが使用される。
【数４】

【００２１】
また、Ａ_ｃ^（ｒ）とｂ_ｃ^（ｒ）（それらはＣＭＬＬＲ変換である）は、式（１９）と目標分布との間のダイバージェンスを最小にするＰＣＭＬＬＲ技術を使用して、推定される。
【００２２】
一実施態様において、適応学習が使用される。適応学習は、すべての学習アルゴリズムのように、学習基準を最適化する。一つの実施態様において、例えば最小音素誤り（minimum phone error）（ＭＰＥ）のような識別基準が、使用される。また、最尤基準が使用されても良い。
【００２３】
一実施態様において、少なくとも一つの話者変換パラメータは、離散的パラメータである。
【００２４】
更なる実施態様において、ｕとｖの上記同時推定は、期待値最大化アルゴリズム（expectation maximisation algorithm）を使用して実行される。
【００２５】
一実施態様においては、本発明は、新しい話者のための学習モードが存在し且つ新しい話者が既知のテキストを読むシステムにおいて、使用される。そして、音声データ及び読まれるテキストは、音響モデルを新しい話者に適応させるための変換を推定するのに使用することができる。
【００２６】
更なる実施態様において、テキストが既知でない音声データが受信される。たとえば、システムが、音声で制御できる衛星ナビゲーション（sat nav）システム、ＭＰ３プレーヤ、スマートフォンなどの一部として使用されるならば、一般に、明確な適応学習フェーズは存在しない。そのようなシステムにおいて、入力音声に対応するテキストは、仮説に基づいて推定される。たとえば、テキストは、最初に、適応のないモデルを使用して、推定され得る。システムは、それから、変換を推定するために、この仮説を使用する。変換は、それから、より多くの音声が受信されるにつれて継続的に推定されても良い。
【００２７】
また、適応学習フェーズをもつシステムが、上記適応学習フェーズが完了した後に、及び、上記システムが使用中のときに、継続的に変換を更新するように、上記二つの実施態様が組み合わせられても良い。
【００２８】
まだ更なる実施形態において、本発明は、音声処理のための音響モデルを、該音響モデルがその下で学習された話者又は環境にマッチしないある環境においてある話者から受信されるミスマッチした音声入力に適応する方法において、前記方法は、特徴ベクトルの系列を含むミスマッチした音声入力を受信することと、特徴ベクトルの系列を含む入力信号に対する音声処理を実行するための音響モデルを提供することを含み、前記モデルは、特徴ベクトルに関係する単語又はその一部の確率分布に関する複数のモデル・パラメータを有し、前記音響モデルをミスマッチした話者入力に適応することは、前記話者の前記環境と、前記音響モデルがその下で学習された前記環境との間の相違を主としてモデリングするためのミスマッチ関数ｆと、前記ミスマッチした話者入力の前記話者の間の相違を主としてモデリングするための話者変換Ｆとを使用して、ｙ＝ｆ（Ｆ（ｘ，ｖ），ｕ）となるように、前記ミスマッチした話者入力からの音声を、前記音響モデルを学習するために使用される前記音声に関連付けることと、ｕ及びｖを同時に推定することを含み、ここで、ｙは、前記ミスマッチした話者入力からの前記音声を表し、ｘは、前記音響モデルを学習するために使用される前記音声であり、ｕは、前記環境の変化をモデリングするための少なくとも一つのパラメータを表し、ｖは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す方法を提供する。
【００２９】
本発明の実施態様は、ハードウェアにおいてまたは汎用コンピュータ内のソフトウェアの上において実装されることができる。本発明の更なる実施態様は、ハードウェアとソフトウェアとの組み合せにおいて実装されることができる。本発明の実施態様はまた、単一の処理装置または複数の処理装置の分散ネットワークによって実装されることができる。
【００３０】
本発明の実施態様はソフトウェアによって実装されることができるので、本発明は任意の適切なキャリア媒体上の汎用コンピュータに提供されるコンピュータ・コードを含む。キャリア媒体は、例えばフロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、磁気デバイスまたはプログラム可能なメモリ・デバイスのような、任意の記憶媒体、または、例えば信号（例えば電気、光学又はマイクロ波信号）のような、任意の一時的な媒体を含むことができる。
【００３１】
図１は、非常に基本的な音声認識システムの概略図である。ユーザ（図示せず）は、マイクロフォン１またはオーディオ・システム用の他の収集デバイスに音声を発する。デバイス１は、前もって記録された音声データを含むメモリによって代えることができ、あるいは、デバイス１は、遠隔地から音声データを受信するためのネットワーク・コネクションであっても良い。
【００３２】
音声信号は、それから、図２を参照して更に詳細に説明される音声プロセッサ３に導かれる。
【００３３】
音声プロセッサ３は、音声信号を取り込んで、それを該音声信号に対応するテキストに変換する。多種多様な形の出力が利用可能である。たとえば、出力は、スクリーンに出力するディスプレイ５の形式であっても良い。あるいは、出力は、プリンターまたはその種の他のものに向けられることができる。また、出力は、更なるシステム９に提供される電子信号の形式であることができる。たとえば、更なるシステム９は、プロセッサ３からの出力テキストを取り込んで、それを異なる言語に変換する音声翻訳システムの一部であることができる。変換されたテキストは、それから、更なるテキストを経て音声システムに出力される。
【００３４】
あるいは、プロセッサ３により出力されるテキストは、様々なタイプの機器を操作するために使用されることができる。その機器は、たとえば、ユーザが音声により様々な機能を制御するモバイル電話、車などの一部であることができる。出力は、指定された場所までユーザを案内するための車載ナビゲーション・システムにおいて使用されることができる。
【００３５】
図２は、音声処理システム５１の基本的なアーキテクチャーを示す。音声処理システム５１は、プログラム５５を実行するプロセッサ５３を含む。音声処理システム５１は、ストレージ５７を更に含む。ストレージ５７は、音声をテキストに変換するためのプログラム５５により使用されるデータを記憶する。音声処理システム５１は、入力モジュール６１及び出力モジュール６３を更に含む。入力モジュール６１は、音声入力６５に接続される。音声入力６５は、音声を受信する。音声入力６５は、たとえば、マイクロフォンであっても良い。あるいは、音声入力６５は、外部記憶媒体またはネットワークから音声データを受信するためのデバイスであっても良い。
【００３６】
テキスト用の出力６７は、出力モジュール６３に接続される。テキスト出力６７は、音声入力６３に入力される音声から変換されるテキスト信号を出力するために使用される。テキスト出力６７は、たとえば、直接のテキスト出力（例えば、記憶媒体、ネットワークなどに送信され得るスクリーンまたはデータ・ファイル）であっても良い。
【００３７】
使用時において、音声処理システム５１は、音声入力６５を介して音声を受信する。プロセッサ５３の上で実行されるプログラム５５は、ストレージ５７に記憶されたデータを使用して、音声をテキスト・データに変換する。テキストは、出力モジュール６３を介して、テキスト出力６７へ出力される。
【００３８】
図３は、図１に示されるタイプの音声認識プロセッサ３の標準的なコンポーネントのブロック図である。マイクロフォンから又はネットワークを介して又は記録媒体から受信される（１）音声信号は、フロントエンド・ユニット１１に導かれる。
【００３９】
フロントエンド・ユニット１１は、受信された音声信号をデジタイズし、そして、それを等しい長さのフレームに分割する。音声信号は、それから、「音響空間」または特徴空間においてプロットされる様々なパラメータを決定するために、スペクトル解析を受ける。導出されるパラメータは、後で更に詳細に議論される。
【００４０】
フロントエンド・ユニット１１はまた、音声信号でないと思われる信号及び他の無関係な情報を取り除く。ポピュラーなフロントエンド・ユニットは、フィルタ・バンク（F BANK）パラメータ、メル周波数ケプストラル係数（Mel Frequency Cepstral Coefficients）（ＭＦＣＣ）及び知覚線形予測（Perceptual Linear Predictive）（ＰＬＰ）パラメータを使用する装置を含む。フロントエンド・ユニットの出力は、ｎ次元音響空間中に存在する入力ベクトルの形式である。
【００４１】
入力ベクトルは、それから、音響モデル・セクション１５及び言語モデル・セクション１７の両方と協調する復号器１３に供給される。音響モデル・セクション１５は、一般に、隠れマルコフモデルを使用してオペレートする。しかし、コネクショニスト・モデル及びハイブリッド・モデルに基づく音響モデルを使用することもまた可能である。
【００４２】
音響モデル・ユニット１５は、音響入力だけに基づいて単語又はその一部に対応する観測値の系列の尤度を導く。
【００４３】
言語モデル・セクション１７は、与えられた言語において互いに続く複数の単語又は単語の部分の特定の系列の確率に関する情報を含む。一般に、静的モデルが使用される。最もポピュラーな方法は、ｎグラム・モデルである。
【００４４】
復号器１３は、それから、音響モデル１５及び言語モデル１７からの結果を使用して、与えられた音声発話に対する最善のトランスクリプション（転写）を検出するために、動的計画法（ＤＰ）アプローチを伝統的に使用する。
【００４５】
これは、それから、テキストが表示され又は提示され又は更なる使用のために（例えば、音声対音声翻訳において又は音声駆動デバイスを制御するために）変換されるのを可能にする出力デバイス１９を介して出力される。
【００４６】
この説明は、主に、隠れマルコフモデル（ＨＭＭ）である音響モデルの使用に関する。しかし、それはまた、他のモデルに関して使用されることができる。
【００４７】
この実施態様において使用される実際のモデルは、標準的なモデルであり、その詳細は、この特許出願の範囲外である。しかし、モデルは、単語又はその一部に関係する音響ベクトル（音声ベクトルまたは特徴ベクトル）によって表される観測値の確率に関係する確率密度関数（probability density functions）（ｐｄｆｓ）の提供を要求する。一般に、この確率分布は、ｎ次元空間におけるガウス分布である。
【００４８】
図４に、一般的なガウス分布の概略例が示される。ここでは、水平軸は、一次元の入力ベクトルのパラメータに対応し、確率分布は、観測値に関係する特定の単語又はその一部に関するものである。たとえば、図４において、音響ベクトルｘに対応する観測値は、その確率分布が図３で示される単語に対応する確率ｐ１を持つ。ガウス分布の形状と位置は、その平均と分散によって定義される。これらのパラメータは、音響モデルがカバーする音素又は音声単位の学習により決定される。それらは「モデル・パラメータ」と呼ばれる。
【００４９】
ＨＭＭでは、一旦、典型的なパラメータが決定されるならば、モデルは、複数の単語又は単語の部分の系列に対応する観測値の系列の尤度を判定するのために使用されることができる。
【００５０】
図５は、観測ベクトルまたは特徴ベクトルｘ１により観測値が表される音響空間の概略プロットである。白丸ｇは、ガウス分布又は音響空間でプロットされる他の確率分布関数の平均に対応する。
【００５１】
復号化の間、音響モデルは、特徴ベクトルｘ１がガウス分布によって表される単語又はその一部に対応する尤度について、いくつかの異なる尤度を計算する。これらの尤度は、それから、音響モデルにおいて使用され、そして、発声されたテキストを判定するために、言語モデルからの確率と結合される。
【００５２】
しかし、音声認識のために使用されるべき音響モデルは、異なる条件下で（例えば、異なる話者について及び／又は異なる環境において）対処する必要がある。
【００５３】
以前、ミスマッチ関数は、異なる環境の間の関係をモデル化するために導かれた。そのようなミスマッチ関数の一例は、以下のようである。
【数５】

【００５４】
ここで、ｙは、クリーン及び雑音下音声のためのケプストラム特性を意味し、ｎとｈは、それぞれ、加法性及び乗法性雑音であり、Ｃは、離散コサイン変換（ＤＣＴ）行列であり、添え字ｓは、静的成分を意味する。式（１）は、雑音ミスマッチ関数として広く使用されており、文献における大部分の雑音補償技術の基盤である。明確に、それは、ｙ_ｓとｘ_ｓとの間において話者のミスマッチが存在しないことを仮定する。
【００５５】
話者ミスマッチが存在するときに、例えば、ｘ_ｓが、話者非依存のクリーン特徴空間（すなわち、ＨＭＭ学習空間）にあり、１人の特定のテスト話者からのｙ_ｓが、雑音環境で記録されるときに、このミスマッチ関数を使用し続けることは、ｘとｙ_ｓとの間の関係を正しくモデル化することはできず、したがって、パフォーマンスを損なう。
【００５６】
話者非依存の特徴ｘ_ｓを、話者依存の特徴ｚ_ｓへマッピングするための関数ｚ＝Ｆ（ｘ）が存在するならば、ｚ_ｓとｙ_ｓは、環境ミスマッチを有するだけであり、そして、それらの関係は、式（１）によって正しくモデル化されることができる。それゆえ、以下のようになる。
【数６】

【００５７】
式（１）と比較して、ミスマッチ関数として式（２）を使用することは、多くの利点を有する。第１に、それは話者ミスマッチと環境ミスマッチの両方を含むｘ_ｓとｙ_ｓの間のより正しいミスマッチ関数を形成する。第２に、Ｆは、クリーン特徴空間において話者ミスマッチをモデル化するだけであり、それゆえ、文献における多くの話者適応技術は、それらの基本的な前提に反することなく、それのために適用されることができる。第３に、両方のミスマッチを含むように１つのミスマッチ関数を使用することは、１つのステップで話者適応及び雑音補償のためのパラメータを同時に推定することを可能にする。これは、より効果的な推定を与え、また、独立したステップでそれらを推定することに比べて、より良いパフォーマンスを与える。最後に、ベクトル・テイラー級数（ＶＴＳ）のような多くのモデル・ベースの雑音補償技術は、直接、ミスマッチ関数から導かれるので、それらは、新しい強化されたミスマッチ関数に基づいて解を発見するように容易に構成されることができる。
【００５８】
関数Ｆの形に関する限り、多くの選択肢が存在する。最も単純なもののうちの一つは、以下のような一次関数を使用することである。
【数７】

【００５９】
ここで、ｒは、回帰クラスのインデックスである。この場合、Ａ（ｒ）は、連続的であることも離散的であることもできる。それが連続的であるとき、それは実質的に話者適応のためのＣＭＬＬＲになる。それが離散的であるとき、バイアス項ｂ（ｒ）を無視することができる。すなわち、以下のようになる。
【数８】

【００６０】
声道長正規化（ＶＴＬＮ）は、話者の相違をモデル化するための変換である。声ＶＴＬＮは、特徴ベクトルの上の線形変換として使用されることができ、式（４）におけるＡ^{（ｒ）−１}としてＶＴＬＮを使用することができる。適応データが制限される迅速な適応のために、ＶＴＬＮ変換が有する推定するための自由パラメータは、かなり少数であるので、式（４）は、式（１９）よりも有利である。
【００６１】
強力な雑音補償技術として、モデル・ベースのベクトル・テイラー級数（ＶＴＳ）は、直接、ＨＭＭパラメータを補償する。上記の強化されたミスマッチ関数は、ＶＴＳとともに使用されることができる。
【００６２】
ＶＴＳは、式（１）のミスマッチ関数から始まり、そして、線形化を達成するために、一次テイラー展開を適用する。ＨＭＭにおける第ｍのミクスチャーが、平均μ_ｘ^（ｍ）と分散Σ_ｘ^（ｍ）をもつガウス分布を有すると仮定すると、
【数９】

【００６３】
そのとき、展開点ζ＝（μ_ｘｓ^（ｍ），μ_ｎｓ，μ_ｈｓ）の上で一次テイラー展開を実行することによって、ミスマッチ関数は、次のように線形化されることができる。
【数１０】

【００６４】
ここで、μ_ｎｓとμ_ｈｓは、加法性及び乗法性雑音平均の静的成分である。したがって、雑音下音声の分布はまた、ガウス分布である。
【数１１】

【００６５】
ここで、Σ_ｎｓは、加法性雑音の共分散であり、diag(.)は、正方行列の対角化のための演算子である。ｙのデルタ成分及びデルタ−デルタ成分に関する分布はまた、連続時間近似を使用することによって、静的成分に基づいて、容易に導かれることができる。
【００６６】
式（８）と（９）は、ＶＴＳにおけるＨＭＭ補償のために直接使用され、補償のためのパラメータは、適応データの上の式（７）における尤度を最大にする最善の雑音パラメータΛ_ｎ＝（μ_ｎｓ，μ_ｈｓ，Σ_ｎ）を検出することによって、得られる。これは、通常、次の補助関数を最適化する期待値最大化（ＥＭ）アルゴリズムによって、達成される。
【数１２】

【００６７】
ここで、ｓは、適応データに対する状態系列であり、ΛとΛは、それぞれ、推定されるべき雑音パラメータと、最後のＥＭ繰り返しからのそれらである。式（１０）を解くために、テイラー展開点を修正することによって、すなわち、初期展開点として＿ｎにおいて雑音パラメータを使用し、そして、後で可能な場合に点を新しく推定された雑音に移すことによって、点推定が要求される。
【数１３】

【００６８】
式（１１）に続いて、雑音平均μ_ｎｓとμ_ｈｓの閉形式解を得ることができる。そして、数値解析法、例えば、ニュートン法が、雑音分散Σ_ｎを推定するために採用される。式（２）の強化されたミスマッチ関数が、ＶＴＳのために適用されるときに、ＨＭＭは、なお、ｆをｑと入れ替えることによって、式（８）と（９）で補償されることができる。Ｆ（ｘ）が線形のとき、以下である。
【数１４】

【００６９】
雑音パラメータ以外に、本発明の実施態様に従った方法はまた、話者適応パラメータ、すなわち、Λ_ｎｓ＝（μ_ｎｓ，μ_ｈｓ，Σ_ｎ，Ａ^（ｒ）,ｂ^（ｒ））の推定を要求する。最適化は、式（１０）における目的関数を最大にすることによって達成されることができる。そして、それは、すべてのパラメータを、ＥＭアルゴリズムにおける１つのＭ−ステップにおいて、同時に最適化されるようにする。それゆえ、本発明の実施態様に従ったこの方法は、より良い効率を提供し、また、独立したＥＭステップにおいて雑音と話者適応パラメータとを最適化することに比べて、より大きい尤度を与える。
【００７０】
もし（Ａ^（ｒ）,ｂ^（ｒ））が、式（１９）において連続的であるならば、最適化手法は、式（１１）におけるテイラー展開もＡ^（ｒ）とｂ^（ｒ）のために余剰成分（extra parts）を含むことを除いて、ＶＴＳと同じである。
【数１５】

【００７１】
ここで、ａ_ｉｊ^（ｒ）は、Ａ^（ｒ）の第ｉ行第ｊ列の要素であり、ｂ_ｉ^（ｒ）は、ｂ^（ｒ）の第ｉの要素である。
【００７２】
連続的なケースと比較して、式（４）における離散変換を使用することは、解を、非常に単純に、そして、より直接的にする。解は、ブルートフォース探索（Bruteforce search）を使用して見つけられる。具体的には、各々のＡ^（ｒ）を与えられたとすると、式（１０）が、最善の雑音パラメータΛ_ｎを見つけるために最適化される。それから、最大尤度のために最善のＡ^（ｒ）とΛ_ｎが選択される。このプロセスは、次のように表現されることができる。
【数１６】

【００７３】
この上記の説明は、離散変換を提供するＶＴＬＮの使用を詳細に説明した。しかし、離散的あるいは連続的なＦ（ｘ）のための他の変換が、使用されても良い。
【００７４】
更なる実施態様に従った方法では、更なるフレームワークは、上記のＶＴＳベースのシステムの効率を改善するために使用される。
【００７５】
モデル・ベースのＶＴＳは強力であるが、各々のＨＭＭコンポーネントの上でのテイラー展開と典型的な補償の両方を要求する。大きなＨＭＭを使用するとき、これはかなりの計算能力を必要とする。同じことはまた、上で説明されたＶＶＴＳについても当てはまる。
【００７６】
ＶＶＴＳのパフォーマンスを更に向上させるために、ＶＶＴＳをＰＣＭＬＬＲフレームワークに適用することは、理にかなっている。推定された雑音とＶＴＬＮパラメータを与えられたとすると、ＶＶＴＳベースのＰＣＭＬＬＲは、回帰クラス・レベルの上でテイラー展開を実行すること（すなわち、展開点としてζ_ｒ＝（μ_ｘｓ^（ｒ），μ_ｎｓ，μ_ｈｓ）を使用すること）によって、ＨＭＭを補償する。ここで、μ_ｘｓ^（ｒ）は、回帰クラスｒの上での静的クリーン音声平均である。それゆえ、以下のようになる。
【数１７】

【００７７】
それから、最終的なモデル補償は、次のＣＭＬＬＲの形を使用して実行された。
【数１８】

【００７８】
ここで、Ａ_ｃ^（ｒ）とｂ_ｃ^（ｒ）は、式（１９）と、式（１７）及び（１８）における回帰クラス・ベースのＶＶＴＳ補償との間のカルバック・ライブラー・ダイバージェンス（Kullback-Leibler divergence）を最小にするＰＣＭＬＬＲによって推定される、ＣＭＬＬＲ変換である。
【００７９】
本実施態様の方法はまた、例えばＰＣＭＬＬＲ適応学習（ＰＡＴ）のような、適応学習フレームワークにおいて使用されることができる。そのようなフレームワークにおいて例えば最小音素誤り（ＭＰＥ）のような識別基準を使用することが可能である。
【００８０】
図６は、本発明の実施態様に従った音声認識方法を示すフローチャートである。ステップＳ１０１において、音声が入力される。大部分の実施態様において、該入力音声は、既知のトランスクリプションに対応しない。しかし、音声に対応するトランスクリプションを推定することが可能である。一般的に、これは第１の推定を得るために復号器の第１のパスを実行することによってなされる。ステップＳ１１１の後で、使用可能なオペレーションが説明される。
【００８１】
それから、ステップＳ１０３において、前向き／後ろ向きアルゴリズムが実行される。Ｓ１０５において、入力データから、同時にミスマッチ関数及び変換のための適応パラメータが推定される。ＶＴＬＮとＶＴＳが使用される一つの実施態様において、Λ_ｎｓ＝（μ_ｎｓ，μ_ｈｓ，Σ_ｎ，Ａ^（ｒ）,ｂ^（ｒ））を同時に最適化するために、式１６の補助関数の上で、期待値最大化アルゴリズムが実行される。
【００８２】
音声認識システムの音響モデル・パラメータは、それから、ステップＳ１０５の変換を使用して直接変換され、あるいは、特徴ベクトルは、音響モデルにマッチするようにステップＳ１０７においてＣＭＬＬＲを使用して変換される。
【００８３】
音声認識システムはまた、音響モデルに加えて言語モデルを含む。言語モデルは、音響モデルにより出力される複数の単語の系列が、与えられた言語において出現する確率を示すために使用される。様々な系列に対する確率は、音響モデルと言語モデルの両方によってスコアされ、そして、それら確率は結合される。
【００８４】
一つの実施態様では、ステップＳ１０９において、不変の言語モデルと、修正されたパラメータを使用する新しい話者のための音響モデルとを使って、認識が実行され、そして、識別された単語が、ステップＳ１１１において出力される。適応された音響モデルを使った認識は、次の２つの形のうちの一つをとることができる：
（１）標準的なＡＳＲ − 起こり得る認識仮説を判定するために、音響モデルと言語モデルを必要とする − これは、同一のデータの上での、または、次の入力音声の上で新しい音響モデルを使用する、第２のパスであっても良い；
（２）リスコアすること − 第１の推定においてテキストを判定するために使用される第１の認識パスから、起こり得る仮説のラティス又はＮ最良リストが、保存される。言語モデル・スコアは、ラティス／Ｎ最良リストで保存される。それから、完全な認識が実行される必要はない。各々のフレームにおいて、保存されたラティス・パスを「リスコア」するために、該保存された言語モデル・スコアと結合される、音響モデル・スコアだけが要求される。同一のデータの上で再実行するならば、リスコアが適用されるのみであろう。
複雑な認識タスクについて、リスコアすることは、スクラッチからの全認識パスを実行することに比べて、非常に高速である。
【００８５】
上記の実施態様では、初期トランスクリプションを得るために、第１のパスの復号化ランが実行される。第１のパスの復号化のために、任意のモデルが使用されることができるが、しばしば、ベースライン（話者独立）モデルが使用される。初期トランスクリプション及び対応するデータを使って、適応のための変換を推定することができる。この変換は、それから、現在のデータ（すなわち、それは変換を推定するために使用される）を再復号化するために使用されることができ、または、初期仮説を改善するために使用されることができる。または、他のテスト・データの上で、変換が使用されることができる。
【００８６】
使用時に、ユーザは、適応が進行中であったことに気付いていない可能性がある。ユーザは、認識が起こるものとして理解しているだけであろう。
【００８７】
適応パラメータは、継続的に再推定されても良いし、あるいは、新しい変換が推定される適応学習フェーズがあっても良い。
【００８８】
一般に、適応パラメータの何らかの継続的な再推定が存在するであろう。そして、それは、複数のユーザ／ノイズなどが存在するとき、特に役に立つ。起こり得る３つの異なるシナリオが、後に続く。
【００８９】
例１−インクリメンタル・モード
ａ．ユーザ１は、「レット・イット・ビーを演奏せよ（play let it be）」というリクエストをする。
ｂ．システムは、誤って認識し、「あなたと私を演奏せよ（play you and me）」を出力する（ユーザ１は満足しない）。
ｃ．システムは、それから、「あなたと私を演奏せよ（play you and me）」という仮説を使用して変換を得る。
ｄ．ユーザ１は、「ザ・ビートルズを演奏せよ（play the beatles）」という第２のリクエストをする。
ｅ．システムは、復号化するための変換を使用し、「ザ・ビートルズを演奏せよ（play the beatles）」という仮説を出力する（ユーザ１は満足する）。
ｆ．システムは、変換を改善するために、２回目の発話を使用する、などである。
【００９０】
例２−類似しているが、再復号化をする
ａ．ユーザ１は、「レット・イット・ビーを演奏せよ（play let it be）」というリクエストをする。
ｂ．システムは、誤って「あなたと私を演奏せよ（play you and me）」と認識する。
ｃ．システムは、それから、「あなたと私を演奏せよ（play you and me）」という仮説を使用して変換を得る。
ｄ．システムは、元のデータを再復号化するための変換を使用し、「レット・イット・ビーを演奏せよ（play let it be）」という新たな仮説を出力する（ユーザ１は満足する）。
ｅ．ユーザ１は、「ズートンズを演奏せよ（play the zutons）」というリクエストをする。
ｆ．システムは、第１の変換を使用して「ズートンズを演奏せよ（play the zutons）」を復号化する。
ｇ．システムは、第１の変換を改善するために、２回目の発話を使用する。
ｈ．システムは、改善された変換を使用して、２回目の発話を再復号化する、などである。
【００９１】
例３−再復号化をするが、複数のユーザ
ａ．ユーザ１は、「レット・イット・ビーを演奏せよ（play let it be）」というリクエストをする。
ｂ．システムは、誤って「あなたと私を演奏せよ（play you and me）」と認識する。
ｃ．システムは、それから、「あなたと私を演奏せよ（play you and me）」という仮説を使用して変換を得る。
ｄ．システムは、元のデータを再復号化するための変換を使用し、「レット・イット・ビーを演奏せよ（play let it be）」という新たな仮説を出力する（ユーザ１は満足する）。
ｅ．ユーザ２は、「ズートンズを演奏せよ（play the zutons）」というリクエストをする。
ｆ．システムは、元のモデルを使用して「ザ・ビートルズを演奏せよ（play the beatles）」を復号化する。
ｇ．システムは、「ザ・ビートルズを演奏せよ（play the beatles）」を使用して、ユーザ２の変換を推定する。
ｈ．システムは、「ズートンズを演奏せよ（play the zutons）」という新たな仮説を得るために、ユーザ２を使用して、２回目の発話を再復号化する（ユーザ２も満足する）。
【００９２】
上記において、システムが、変換を再推定するために、ユーザが間違っていることを示した仮説を使用しないように、システムがユーザ・フィードバックを受信しても良い。
【００９３】
上記を実証するために、下で説明される連続数字のオーロラ２（Aurora 2）データベースと東芝車載タスク（Toshiba in-car tasks）の上で、実験が実行された。
【００９４】
オーロラ２は、２つの学習セット（クリーンおよび複数雑音条件）と３つのノイジー・テスト・セットに分割される。テスト・セットＡとＢは、それぞれ、２０から０ｄＢにわたるＳＮＲをもつ４つのタイプの加法性雑音をそれぞれ含み、一方、セットＣは、乗法性雑音を含む。各々の数字は、３つのミクスチャーをもつ１６のＨＭＭ状態によってモデル化されたものであり、これに対して、無音は、各々６つのミクスチャーをもつ３つの状態によってモデル化されたものである（全部で５４６のミクスチャー）。
【００９５】
東芝データは、主に、実環境で記録された車運転状件において適応学習技術を評価するために、この論文において使用された。それは、２つの雑音状況（すなわち、エンジン−オン（ＥＮ）及びハイウェイ（ＨＷ））で各々記録された４つのタスク（電話番号（ＰＨ）、数字（４Ｄ）、コマンド制御（ＣＣ）及び都市名（ＣＮ））を含む。ＥＮＯＮ条件は、４４０１個の発話を含み、３５ｄＢの平均ＳＮＲを有し、これに対して、ＨＷ条件は、およそ１８ｄＢのＳＮＲで４５８２個の文を含む。６５０個の状態をもつトライフォンＨＭＭは、ウォールストリート・ジャーナル、ＴＩＤＩＧＩＴＳ、ＴＩＭＩＴ、及び内部的に収集したノイジーな学習データからなる３１２時間のデータを含む混合した複数雑音条件セットの上で学習された。ＨＭＭにおける各々の音声状態ごとに１２のミクスチャーと、各々の無音状態ごとに２４のミクスチャーがあった（ＨＭＭにおける総数およそ８０００個のミクスチャーを与えた）。
【表１】

【００９６】
【表２】

【００９７】
【表３】

【００９８】
【表４】

【００９９】
ＶＴＳベースの技術のためのフロントエンドは、それらのデルタ成分及びデルタ−デルタ成分をともなう０次係数を含むＨＴＫによって生成される１３次元ＭＦＣＣである。比較として、文献における最も強力なフロントエンド処理技術のうちの一つ、拡張フロントエンド（ＡＦＥ）に関する結果も、ベースラインとしてここに含まれた。
【０１００】
ＶＴＳベースの技術については、手続きを復号化する２つのパスは、各々のテスト発話ごとに使用された。
詳しくは、
１）雑音の粗い推定を得て、ＨＭＭを補償するために、各々の発話における最初と最後の２０のフレームを使用する。
２）初期仮説を得るために復号化を実行する。
３）ＥＭを使用して仮説に基づいて雑音（または雑音と話者）推定をより正確にする。
４）雑音推定でＨＭＭを補償し、そして、最終的な認識結果を出力する。
【０１０１】
実験の結果は、表Ｉにおいて与えられた（ここでは、クリーン学習が使用され、テストはセットＡのみの上であった）。はっきりした進歩は、ＡＦＥと比較してモデル・ベースのＶＴＳから観測された。ＶＴＳモデル補償の後で更にＶＴＬＮを適用することは、非常に小さな進歩をもたらすだけであった（または、進歩をもたらさなかった）。ＶＴＳによって補償された後のモデル（それは雑音下音声分布をモデル化する）は、ノイジーになるので、これは、理にかなっている。ＶＴＬＮは、元々、クリーン特徴空間における話者適応のために考案されたので、ＶＴＳの後で更にＶＴＬＮを適用することは、その基本的な前提に反する。ミスマッチ関数の一部としてＶＴＬＮ変換を組み込んで、同時にそれらを最適化することによって、ＶＶＴＳは、非常に大きく且つ非常に一貫性のある改善を与える。これは、クリーン空間においてＶＴＬＮを適用し、同時にＶＴＬＮと雑音パラメータを最適化することが重要である我々の議論の正当性を示す。また、より高いＳＮＲでの進歩がより低いＳＮＲよりも大きく、より雑音が少ないケースで話者補償がより重要であることを示すことに、注目される。
【表５】

【０１０２】
表Ｉはまた、ＰＣＭＬＬＲ、ＶＶＴＳベースのＰＣＭＬＬＲ、及び、ＰＣＭＬＬＲの後のＶＴＬＮに関する結果を比較した。前の通り、同様の結論と観測値が得られる。これは、ＶＶＴＳが一貫性のある方法であるということを証明し、そして、新しく提案されたミスマッチ関数は、ジェネリックであり、また、様々な方法で正しく動作することができる。
【０１０３】
テーブルＶにおいてＶＶＰＡＴの結果が与えられた（ここでは、ＭＴＲデータがＨＭＭ学習のために使用され、すべての３セットの結果がまとめられた）。ＰＡＴと比較して、すべてのテスト・セットについて、一貫性のある進歩がＶＶＰＡＴから観測された。学習の間、ＶＶＴＳベースのＰＣＭＬＬＲを適用することが、より良い規範的モデルを与えることを示す。また、適応可能な学習のための更なる結果が、東芝データの上で提供された。観測値は、オーロラ２の上でのそれらと一致していた。ここでは、また、さらにパフォーマンスを高めるために、ＭＰＥ適応学習が、ＰＡＴまたはＶＶＰＡＴの後で使用された。ＭＰＥを伴うＶＶＰＡＴは、ＧＤを使用せずにさえ、最高のＰＡＴパフォーマンスにマッチすることができる。一つの性別非依存のＨＭＭだけが要求されるので、これは更なる利益をもたらす。
【０１０４】
特定の実施態様が説明されたが、これらの実施態様は、例としてのみ提示されたものであり、本発明の範囲を制限することを意図するものではない。実際に、本明細書で説明される新規な方法及びシステムは、様々な他の形に表現され得る;さらに、本明細書で説明される方法及びシステムの形における様々な省略、代用及び変化が、発明の精神を逸脱しない範囲でなされ得る。添付のクレームとそれらの均等物は、発明の範囲及び精神の範囲内にあるそのような形の修正をカバーすることを意図されている。

【特許請求の範囲】
【請求項１】
音声処理方法において、
特徴ベクトルの系列を含む音声入力を受信することと、
音響モデル及び言語モデルを使用して、前記特徴ベクトルの系列から生じる複数の単語の系列の尤度を判定することを含み、
前記尤度を判定することは、
特徴ベクトルの系列を含む入力信号に対する音声認識を実行するための音響モデルを提供することを含み、前記モデルは、特徴ベクトルに関係する単語又はその一部の確率分布に関する複数のモデル・パラメータを有し、前記音声入力は、前記音響モデルがその下で学習された話者又は環境にマッチしないある環境においてある話者から受信されるミスマッチした音声入力であり、
前記尤度を判定することは、
前記音響モデルを前記ミスマッチした音声入力に適応することを更に含み、
前記音声処理方法は、更に、
言語モデルを使用して、所定の言語において生じる前記特徴の系列の尤度を判定することと、
前記音響モデル及び前記言語モデルにより判定される前記尤度を結合することと、
前記音声入力信号から識別される複数の単語の系列を出力することを含み、
前記音響モデルを前記ミスマッチした話者入力に適応することは、
前記話者の前記環境と、前記音響モデルがその下で学習された前記環境との間の相違を主としてモデリングするためのミスマッチ関数ｆと、前記ミスマッチした話者入力の前記話者の間の相違を主としてモデリングするための話者変換Ｆとを使用して、ｙ＝ｆ（Ｆ（ｘ，ｖ），ｕ）となるように、前記ミスマッチした話者入力からの音声を、前記音響モデルを学習するために使用される前記音声に関連付けることと、
ｕ及びｖを同時に推定することを含み、
ここで、ｙは、前記ミスマッチした話者入力からの前記音声を表し、ｘは、前記音響モデルを学習するために使用される前記音声であり、ｕは、前記環境の変化をモデリングするための少なくとも一つのパラメータを表し、ｖは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す音声処理方法。
【請求項２】
前記少なくとも一つのパラメータｕは、パラメータｎとｈを含み、
前記ｎは、加法性雑音をモデル化するために使用され、前記ｈは、乗法性雑音をモデル化するために使用される請求項１に記載の方法。
【請求項３】
前記ミスマッチ関数ｆは、
【数１】

の形であり、ここで、Ｃは離散コサイン変換行列であり、添え字ｓは静的成分を意味する請求項２に記載の方法。
【請求項４】
前記話者変換は線形変換である請求項１ないし３のいずれか１項に記載の方法。
【請求項５】
前記話者変換は、声道長正規化変換である請求項４に記載の方法。
【請求項６】
少なくとも一つの話者変換パラメータは、離散的パラメータである請求項５に記載の方法。
【請求項７】
前記ｕとｖの同時推定は、期待値最大化アルゴリズムを使用して実行される請求項１ないし６のいずれか１項に記載の方法。
【請求項８】
前記音響モデルを適応することは、ＣＭＬＬＲの形
【数２】

をもつＰＣＭＬＬＲを使用することを更に含み、ここで、ｍは平均μ_ｘ^（ｍ）と分散Σ_ｘ^（ｍ）をもつ隠れマルコフモデルのガウス分布における第ｍ番目のミクスチャーを意味し、Ａ_ｃ^（ｒ）とｂ_ｃ^（ｒ）は前記ＣＭＬＬＲの形と目標分布との間のダイバージェンスを最小にするＰＣＭＬＬＲ技術を使用して推定されるべきＣＭＬＬＲ変換であり、前記目標分布はｙ＝ｆ（Ｆ（ｘ，ｖ），ｕ）から導かれる請求項１ないし７のいずれか１項に記載の方法。
【請求項９】
前記適応は、適応学習フレームワークにおいて提供される請求項１ないし８のいずれか１項に記載の方法。
【請求項１０】
前記音響モデルを前記ミスマッチした話者入力に適応することは、該ミスマッチした話者入力から既知のテキストに対応する音声を受信することを含む請求項１に記載の方法。
【請求項１１】
前記音響モデルをミスマッチした話者入力に適応することは、前記新しい話者から音声を受信することと、前記音声に対応する前記テキストの第１の推定をすることを含む請求項１に記載の方法。
【請求項１２】
音声処理のための音響モデルを、該音響モデルがその下で学習された話者又は環境にマッチしないある環境においてある話者から受信されるミスマッチした音声入力に適応する方法において、前記方法は、
特徴ベクトルの系列を含むミスマッチした音声入力を受信することと、
特徴ベクトルの系列を含む入力信号に対する音声処理を実行するための音響モデルを提供することを含み、前記モデルは、特徴ベクトルに関係する単語又はその一部の確率分布に関する複数のモデル・パラメータを有し、
前記音響モデルをミスマッチした話者入力に適応することは、
前記話者の前記環境と、前記音響モデルがその下で学習された前記環境との間の相違を主としてモデリングするためのミスマッチ関数ｆと、前記ミスマッチした話者入力の前記話者の間の相違を主としてモデリングするための話者変換Ｆとを使用して、ｙ＝ｆ（Ｆ（ｘ，ｖ），ｕ）となるように、前記ミスマッチした話者入力からの音声を、前記音響モデルを学習するために使用される前記音声に関連付けることと、
ｕ及びｖを同時に推定することを含み、
ここで、ｙは、前記ミスマッチした話者入力からの前記音声を表し、ｘは、前記音響モデルを学習するために使用される前記音声であり、ｕは、前記環境の変化をモデリングするための少なくとも一つのパラメータを表し、ｖは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す方法。
【請求項１３】
請求項１ないし１２のいずれか１項の前記方法を実行するように前記コンピュータを制御するためのコンピュータ読み取り可能なインストラクションを伝えるキャリア媒体。
【請求項１４】
音声処理システムにおいて、
特徴ベクトルの系列を含む音声入力を受信するための受信機と、
音響モデル及び言語モデルを使用して、前記特徴ベクトルの系列から生じる複数の単語の系列の尤度を判定し、
特徴ベクトルの系列を含む入力信号に対する音声認識を実行するための音響モデルを提供するように構成されたプロセッサとを含み、前記モデルは、特徴ベクトルに関係する単語又はその一部の確率分布に関する複数のモデル・パラメータを有し、前記音声入力は、前記音響モデルがその下で学習された話者又は環境にマッチしないある環境においてある話者から受信されるミスマッチした音声入力であり、
前記プロセッサは、前記音響モデルを前記ミスマッチした音声入力に適応するように更に構成され、
前記プロセッサは、更に、
言語モデルを使用して、所定の言語において生じる前記特徴の系列の尤度を判定し、
前記音響モデル及び前記言語モデルにより判定される前記尤度を結合するように構成され、
前記システムは、前記音声入力信号から識別される複数の単語の系列を出力するように構成された出力を更に含み、
前記音響モデルをミスマッチした話者入力に適応することは、
前記話者の前記環境と、前記音響モデルがその下で学習された前記環境との間の相違を主としてモデリングするためのミスマッチ関数ｆと、前記ミスマッチした話者入力の前記話者の間の相違を主としてモデリングするための話者変換Ｆとを使用して、ｙ＝ｆ（Ｆ（ｘ，ｖ），ｕ）となるように、前記ミスマッチした話者入力からの音声を、前記音響モデルを学習するために使用される前記音声に関連付けることと、
ｕ及びｖを同時に推定することを含み、
ここで、ｙは、前記ミスマッチした話者入力からの前記音声を表し、ｘは、前記音響モデルを学習するために使用される前記音声であり、ｕは、前記環境の変化をモデリングするための少なくとも一つのパラメータを表し、ｖは、話者の間の相違をマッピングするために使用される少なくとも一つのパラメータを表す音声処理方法。

【図１】