フラグメントを使用した大規模なリストにおける音声認識

【課題】計算の労力がさらに最小化される、エントリのリストから、エントリを選択する音声認識方法を改善すること。
【解決手段】音声入力によってエントリのリストからエントリを選択する音声認識方法であって、該方法は、以下のステップ：音声入力を検出するステップと、該音声入力を認識するステップと、該リストのエントリのフラグメントを提供するステップと、該認識された音声入力を該エントリのリストと比較することにより、該比較の結果に基づいて最も良く一致するエントリの候補リストを生成するステップであって、該候補リストを生成するために、該認識された音声入力は、該エントリの該フラグメントと比較される、ステップとを包含する、方法。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声入力によってエントリのリストからエントリを選択する音声認識方法と、音声認識システムとに関する。
【背景技術】
【０００２】
ナビゲーション、ネームダイヤリング（ｎａｍｅｄｉａｌｉｎｇ）、またはオーディオプレーヤ／ビデオプレーヤの制御などの多くの用途において、例えば、都市名、通りの名前、固有名詞、住所、または音楽のタイトルなどのエントリの大規模なリストからエントリを選択することが必要である。プロセッサリソースにおける適度なメモリを用いた音声認識を可能にするために、２つのステップの音声認識手法が、頻繁に使用されている。第１のステップにおいて、音素シーケンスまたは音素ストリングが、音声認識モジュールによって認識される。しかしながら、音素認識に対する認識精度は、通常、許容できるものではなく、様々な、音素の置換、音素の挿入、または音素の削除が生じる。次に、音素ストリングなどの認識された音声入力は、音声学的に書き表されたエントリの可能な限り大規模なリストと比較されることにより、最も良く一致する項目のより短い候補リストを決定する。次に、候補リストは、第２の認識経路に対する新たな語彙として音声認識器に供給され得る。かかる手法は、計算リソースを節約する。なぜならば、第１のステップにおいて行われる認識は、あまり労力を必要とせず、そして、計算に費用がかかる第２のステップは、エントリの大規模なリストのうちの少しのサブセットを用いて行われるだけだからである。上記のような２つのステップの音声認識手法は、特許文献１から公知である。
【０００３】
しかしながら、非常に大規模なリストの場合には、計算の労力は、まだ非常に大きい。ナビゲーションシステムの音声駆動制御を有するナビゲーションシステムの場合には、運転手／話者が、目的地の都市における通りと組み合わされた都市などの目的地の組み合わせを述べるという状況が生じる。例えば、ドイツには、約３００万通りの都市と通りとの組み合わせが存在する。認識ステップが、かかる大規模なリストにおいて実行されるときには、上述の一致ステップは、あまりにも多くの、メモリと一致の実行時間とを必要とするので、上述の一致ステップは、車両に埋め込まれたシステムに組み込まれ得ない。これらの大規模なリストは、例えば、音声制御された歌の選択が、製品に組み込まれなければならないときなど、アーティストの名前、アーティストの歌などを選択するときのような他の分野の用途においても存在する。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】国際公開第２００４／０７７４０５号パンフレット
【発明の概要】
【発明が解決しようとする課題】
【０００５】
したがって、エントリのリストからエントリを選択する音声認識方法を改善する必要性が存在し、該音声認識方法においては、計算の労力がさらに最小化される。
【課題を解決するための手段】
【０００６】
この必要性は、独立請求項の特徴によって満たされる。従属請求項においては、本発明の好適な実施形態が記述される。
【０００７】
本発明の第１の局面に従って、音声認識方法が、音声入力によってエントリのリストからエントリを選択するために提供される。方法は、音声入力を検出するステップと、音声入力を認識するステップとを包含する。さらに、リストのエントリのフラグメントが提供される。次に、認識された音声入力が、認識された音声入力を該エントリのリストと比較することにより、比較の結果に基づいて最も良く一致するエントリの候補リストを生成するために使用される。本発明の一局面に従って、候補リストは、認識された音声入力を該エントリのフラグメントと比較することによって生成される。完全なリストのエントリの代わりに、リストのエントリのフラグメントを比較ステップに使用することによって、計算労力が、認識された音声入力が完全なエントリのリストに一致させられる一致プロセスと比較して、最小化され得る。大規模なリストの場合において、各フラグメントは、リストのエントリにおいて繰り返し使用され得る。例えば、目的地の場合において、フラグメント^＊ｓｔｒｅｅｔまたは^＊ｓｔｒａｓｓｅが、多くのリストにおいて提示され得る。さらに、リストのエントリに対する都市と通りとの組み合わせの場合において、都市名は、当該都市の全ての通りに対して存在し得る。結果として、フラグメントのリストは、元々のリストよりもずっと短くなり得る。さらに、フラグメント自体もまた、対応するリストのエントリよりも短くなる。それらの局面が共に、実行時間能力の顕著な増加をもたらす。
【０００８】
好適な実施形態に従って、少なくとも１つのフラグメントが、リストの各エントリに提供される。さらに、少なくとも１つのワイルドカードを各フラグメントに加えることが可能である。フラグメント化によって、フラグメントは、リストのエントリの一部分だけを表す。さらに、ワイルドカードが、リストのエントリのフラグメントが生成されたときに考慮されないリストのエントリの一部分を表す。好適には、ワイルドカードは、他のもの全てに対して一様に一致する。これは、フラグメント自体が、フラグメントと関連付けられる音声入力の一部分に対して正確に一致し、そして、（音声入力の）他のもの全てが、ワイルドカードに一致することを意味する。一致ステップの間のワイルドカードの影響が、完全には回避され得ないときであっても、影響は、最小化されるはずである。ワイルドカードの重みが、計算または実験テストによって決定され得る。
【０００９】
リストのエントリのフラグメント化が、実行されるときに、フラグメントのリストが、リストのエントリの実質的に全ての異なるフラグメントを含むことが好ましい。最も良く一致するエントリの候補リストの生成のために、認識された音声入力は、全ての異なるフラグメントを含むフラグメントのリストと比較される。フラグメントのこの完全なリストは、エントリの完全なリストよりも短くなり得る。多くのフラグメントが、多くの異なるリストのエントリに存在するときには、認識された音声入力は、より短いリストと比較されなければならないので、フラグメントの該完全なリストが、一致ステップに対して使用されるときには、計算能力が、最小化され得る。
【００１０】
一致プロセスの追加のステップにおいて、次に、各フラグメントに対するスコアを計算することが可能であり、該スコアは、認識された音声入力が、該フラグメントと比較されたときに、どの程度適切に、認識された音声入力が、フラグメントに適合するかの測定基準である。スコアに基づいて、次に、リストの最も良く一致するエントリを選択することが可能である。そうするために、スコアが、フラグメントのリストの各フラグメントに対して計算され得、そして、リストのエントリのスコアが、リストのエントリを構築するフラグメントのスコアを加算することによって、リストのエントリに対して計算され得る。２つの異なるスコアの計算が必要であるときであっても、リストのエントリのスコアに到達するためにスコアを単に加算することは、計算的な観点において、完全なリストのエントリに対する認識された音声入力の一致よりもかなり容易である。
【００１１】
フラグメントは、１つまたはいくつかのワイルドカードを伴い得、該１つまたはいくつかのワイルドカードは、一方の側もしくは両側に提供されるか、どちら側にも提供されないかであり得る。ワイルドカードが提示されないときには、これは、リストのエントリが、非常に短くなり得るので、リストのエントリは、さらにフラグメント化され得ないことを意味する。フラグメントの異なる側に異なるワイルドカードを使用することが、さらに可能である。例えば、第１のワイルドカードは、第１の側に第１の重みを有し、第２のワイルドカードは、フラグメントの第２の側に第２の重みを有する。さらに、フラグメントの両側には、ワイルドカードを提供せず、ワイルドカードをフラグメントの一方の側に提供することが可能である。これが、フラグメントが音声入力において現れるフラグメントの場所をより良くモデリングすることに役立つ。ワイルドカードが、一方の側にだけ提供されたことが決定された場合には、ワイルドカードが提供されていない側もまた、決定される。次に、認識された音声入力の対応する側が決定され得、そして、フラグメントに対する認識された音声入力の一致が、認識された音声入力の当該側に提供された認識された音声入力の一部分に基づいて実行され得る。例えば、^＊がワイルドカードを表すフラグメント^＊ｓｔｒａｓｓｅは、通常、都市と通りとのリストのエントリの場合において、発話の最も右側の部分に一致させられる。１つのワイルドカードだけを有するフラグメントの別の有利な点は、発話に対するフラグメントの一致は、事実上、認識される発話全体を必要とはせず、適切な側だけを必要とすることである。認識された音声入力／認識された発話の一方の側だけが、一致のために考慮されるときには、一致プロセスはまた、さらに加速され得る。１つのワイルドカードだけを有するかかる端のフラグメントはまた、リストのエントリをさらに正確にモデリングすることに役立ち、このことが、認識速度をかなり改善し得る。
【００１２】
さらに、エントリのリストにおけるエントリもまた、ワイルドカードを含むことが可能である。これらのワイルドカードは、ユーザがリストのエントリの名前を発するという事実だけでなく、リストのエントリが完全な文章に埋め込まれている（例えば、「ＭｕｎｉｃｈのＬｉｎｄｅｎｓｔｒａｓｓｅに誘導してください」）という事実もモデリングすることに役立つ。
【００１３】
認識された音声入力の右側または左側だけを一致させる特徴はまた、適切なプルーニングメカニズムと組み合わせて一方の側から一致させることによって達成され得る。音声認識方法において、認識された音声入力は、リストのエントリの音声学的表示と比較される。かかる一致アルゴリズムの一例が、Ｌｅｖｅｎｓｈｔｅｉｎアルゴリズムであり、該Ｌｅｖｅｎｓｈｔｅｉｎアルゴリズムは、別のストリングを含むように１つのストリングを修正するために必要である編集動作の最も少ない数を計算する。かかる動作の間に、修正動作または編集動作の数が、計算を続ける必要のない他のフラグメントと比較して、所定のフラグメントに対して既に非常に高いことが検出され得る。このメカニズムは、音声認識において「プルーニング」という表現で知られている。次に、かかるプルーニングメカニズムが、ワイルドカードがフラグメントに存在する認識された音声入力の他方の側に適用され得る。
【００１４】
フラグメントの一方の側が認識された音声入力の一部分だけに一致させられる一致アルゴリズムに対するプルーニングメカニズムの有利な点は、発話における切断点に対する先見的な推測を必要としないことである。不利な点は、能力を増加させるための、左から右への一致と右から左への一致との組み合わせが、可能ではないこと、または容易には可能ではないことである。フラグメント化は、フラグメントの正しい順序における連結が、必ずしも、元々のリストのエントリを与える必要はないという意味で、一対一である必要はない。リストのエントリのフラグメントは、１つのリストのエントリに対するフラグメントが重複するように選択されることが可能である。さらに、リストのエントリのフラグメントは、リストのエントリのフラグメントがリストのエントリの一部分だけを包含する（いわゆるアンダーラップ）ように選択されることが可能である。さらに、両方の組み合わせが可能であり、一部のフラグメントは重複するフラグメントであるが、同じリストのエントリの他のフラグメントは完全なリストのエントリを包含しないことを意味する。さらに、重複は、リストのエントリの全ての部分がちょうど２つのフラグメントによって包含されるように完了し得るが、一部のフラグメントが、１つまたは２つの名前またはサブユニットに重複する不完全な重複として使用することも可能である。
【００１５】
リストのエントリに対して結果として生じるスコアを計算するために、異なるフラグメントのスコアが編集されるときには、正規化されたスコアを計算することが望ましいことがあり得、正規化されたスコアは、リストのエントリのスコアを計算するために加算される。この正規化は、異なるスコアを互いに比較し得るために必要である。正規化を実行する１つの可能性は、認識された結果に対して単一のワイルドカードの記号を一致させることによって決定され得る中立スコアを計算することである。次に、この中立スコアは、異なるフラグメントに対して計算された全てのスコアから減算され得る。さらに、ゼロが中立スコアになるようにフラグメントのスコアを正規化し、そして、次に、完全なリストのエントリに属するフラグメントのスコアを加算することが、可能である。ゆえに、各リストのエントリのスコアは、該リストのエントリのフラグメントの正規化されたスコアを加算することによって獲得される。リストのエントリのスコアの計算のために、フラグメントの数とサイズとを明確に考慮することもまた、可能である。正規化の別の可能性は、全てのフラグメントに対するフラグメント固有の中立スコアの決定である。これは、異なる音声入力に対する多数の音声認識ステップが実行されたときと、フラグメントに対する異なる音声入力に対する認識結果に基づいて、フラグメント固有のスコアが計算され得るときとに、可能であり、異なる音声入力に対する平均スコアであるフラグメント固有のスコアが計算され得る。フラグメント固有のスコアまたは予測スコアは、特定のフラグメントのスコアに対する推計学的予測値であり、そして、観察されたスコアに対する予測値の差をモデリングするために使用され得る。
【００１６】
本発明の一実施形態において、スコアは、リストのエントリにおけるフラグメントの位置に依存しない。しかしながら、フラグメントごとに単一のスコアを使用する代わりに、フラグメントに対して位置ベースのスコアを使用することもまた、可能である。かかる位置ベースのスコアが使用される場合において、「ｌｉｎｄｅｎ−ｆｕｒｔ」に対するスコアは、「ｆｕｒｔ−ｌｉｎｄｅｎ」に対するスコアとは異なり、または「ｌｉｎｄｅｎ−ｓｔｒａｓｓｅ」に対するスコアは、「ｌｉｎｄｅｎ−ｓｔｒａｓｓｅ」に対するスコアとは異なる。
【００１７】
フラグメントの処理の最適化と、それぞれのスコアの処理の最適化とのために、樹状構造でフラグメントを提供することが可能である。この樹状構造は、リストのエントリのスコアを計算するために異なるフラグメントのスコアを加算するために使用され得る。これは、以下の例において理解され得る。リストが、エントリＬｉｎｄｅｎｆｕｒｔとエントリＬｉｎｄｅｎｄｏｒｆとを含むときには、Ｌｉｎｄｅｎｆｕｒｔに対するスコアは、フラグメントＬｉｎに対するスコア＋フラグメントｄｅｎに対するスコア＋フラグメントｆｕｒｔに対するスコアに対応し、Ｌｉｎｄｅｎのスコア＋ｆｕｒｔのスコアに対応する。ＬｉｎｄｅｎｄｏｒｆとＬｉｎｄｅｎｆｕｒｔとのスコアの計算に対して、Ｌｉｎｄｅｎに対するスコアは、既に計算されているので、樹状構造が使用されるときには、１つの加算ステップが回避され得る。
【００１８】
フラグメントベースの一致は、本願の導入部分において述べられた２つのステップの認識ステップと組み合わせて使用され得る。これは、次に、リストのエントリのフラグメントに基づいて決定された最も良く一致するエントリの候補リストが、追加の認識ステップに対する基準として使用され得ることを意味する。この第２のステップにおいて、リストにおける最も適切なエントリは、候補リストにおいて列挙されたエントリの音声学的表示または音響学的表示を音響入力に一致させることによって決定される。候補リストは、計算されたスコアに依存してリストのエントリを区分することによって生成され得、ｎ番目の最も良いリストのエントリは、候補リストを構築するｎ番目の最も良いスコアを有する。
【００１９】
フラグメントに基づいた一致に加えて、候補リストを生成するために、認識された音声入力を完全なリストのエントリの一部にさらに一致させることが可能である。例えば、良いスコアがフラグメントに対して計算されたときには、最も良く一致するエントリの候補リストが生成される前に、認識された音声入力に該フラグメントを含むリストのエントリをさらに一致させることが有利であり得る。この場合に、完全な一致は、単に、リストのエントリの一部において実行されるが、リストの全てのエントリにおいては実行されないので、認識された音声入力が、リストのエントリの完全な数と比較された場合よりも低くなる。
【００２０】
２つのステップの一致の可能な実施形態は、以下の通りであり得る：第１のステップにおいて、音声入力の認識ステップが、開音素ループを使用して実行され得る。次に、認識された音声入力が、フラグメントのリストを使用してリストのエントリに一致させられる。第３のステップとして、完全な一致ステップが、実行され、該完全な一致ステップにおいては、認識された音声入力が、完全なリストのエントリと比較される。このステップは、可能な一致結果のリストをさらに短くし得る。第４のステップにおいて、実際の音声認識が実行され得る。
【００２１】
本発明の一実施形態において、フラグメントへのリストのエントリのフラグメント化は、サブユニットレベル、例えば、音素レベルに基づき得る。リストのエントリが、都市名と通りの名前との組み合わせを含むときには、少なくとも、都市と通りとの間でフラグメント化することが有利であり得る。しかしながら、都市名と通りの名前とは、さらにフラグメント化され得ることが理解されるべきである。フラグメント化はまた、データを格納するためのメモリの必要条件を軽減することに役立つ。
【００２２】
本発明は、さらに、音声入力によってエントリのリストからエントリを選択する音声認識システムに関し、該音声認識システムは、データベースを備え、該データベースは、エントリのリストとフラグメントのリストとを含み、各フラグメントは、上記のように、リストのエントリの少なくとも一部分を表す。音声認識モジュールは、音声入力を認識し、比較結果に基づいて最も良く一致するエントリの候補リストを生成するために、認識された音声入力をエントリのリストと比較する。本発明の一局面に従って、音声認識モジュールは、認識された音声をフラグメントのリストと比較することにより、候補リストを生成する。音声認識システムは、さらに上で詳細に述べられたように機能し得る。
【００２３】
本発明はさらに、コンピュータプログラム製品に関し、該コンピュータプログラム製品は、命令がコンピュータシステムのプロセッサによって実行されたときに、命令が、上でさらに詳細に述べられたような方法を行う命令を含む。
【００２４】
本発明は、さらに以下を提供する。
【００２５】
（項目１）
音声入力によってエントリのリストからエントリを選択する音声認識方法であって、該方法は、以下のステップ：
−音声入力を検出するステップと、
−該音声入力を認識するステップと、
−該リストのエントリのフラグメントを提供するステップと、
−該認識された音声入力を該エントリのリストと比較することにより、該比較の結果に基づいて最も良く一致するエントリの候補リストを生成するステップであって、該候補リストを生成するために、該認識された音声入力は、該エントリの該フラグメントと比較される、ステップと
を包含する、方法。
【００２６】
（項目２）
少なくとも１つのフラグメントが、上記リストの各エントリに提供される、項目１に記載の方法。
【００２７】
（項目３）
上記フラグメントは、少なくとも１つのワイルドカードを伴い、該ワイルドカードは、上記リストのエントリのフラグメントにおいて考慮されない、該リストのエントリの一部分を表す、項目１に記載の方法。
【００２８】
（項目４）
上記リストのエントリの実質的に全ての異なるフラグメントを含むフラグメントのリストが提供され、上記候補リストを生成するために、上記認識された音声入力は、該フラグメントのリストと比較される、項目１に記載の方法。
【００２９】
（項目５）
上記認識された音声入力が、上記フラグメントと比較されたときに、スコアが、該フラグメントに対して計算され、該スコアは、どのように適切に、該認識された音声入力が、１つのフラグメントに適合するかの測定基準である、項目１に記載の方法。
【００３０】
（項目６）
上記スコアは、上記フラグメントのリストの各フラグメントに対して計算される、項目４および項目５に記載の方法。
【００３１】
（項目７）
１つのリストのエントリに対するスコアは、該リストのエントリを構築するフラグメントのスコアを加算することによって計算される、項目５に記載の方法。
【００３２】
（項目８）
上記ワイルドカードが、上記フラグメントの一方の側、該フラグメントの他方の側、または該フラグメントの両側に加えられる項目３に記載の方法。
【００３３】
（項目９）
上記ワイルドカードは、該ワイルドカードが、どの認識された音声入力に対しても実質的に一様に一致するように選択される、項目３に記載の方法。
【００３４】
（項目１０）
上記フラグメントは、異なるワイルドカードを伴い、上記認識された音声入力が該フラグメントと比較されたときに、各ワイルドカードは、異なる重みを有する、項目３に記載の方法。
【００３５】
（項目１１）
上記ワイルドカードが、上記フラグメントの一方の側だけに提供されたときには、どちら側に、該ワイルドカードが提供されていないかを決定し、上記認識された音声入力の対応する側が決定され、該フラグメントに対する認識された音声入力の一致が、実質的に、該認識された音声入力の対応する側に提供された認識された音声入力の一部分に基づいて実行される、項目３に記載の方法。
【００３６】
（項目１２）
上記ワイルドカードが、上記フラグメントの一方の側だけに提供されたときには、上記認識された音声入力の対応する側が決定され、プルーニングメカニズムが、該認識された音声入力の他方の側に適用される、項目３に記載の方法。
【００３７】
（項目１３）
上記フラグメントのリストに対して上記認識された音声入力を一致させたときに計算された上記スコアは、正規化され、該正規化されたスコアは、各リストのエントリのスコアを計算するために加算される、項目５に記載の方法。
【００３８】
（項目１４）
中立スコアが、上記認識された音声入力に対して上記少なくとも１つのワイルドカードを一致させることによって計算され、該中立スコアは、上記異なるフラグメントに対して計算された全てのスコアから減算される、項目５に記載の方法。
【００３９】
（項目１５）
上記フラグメントは、樹状構造で提供される、項目１に記載の方法。
【００４０】
（項目１６）
上記リストのエントリを構築する異なるフラグメントに対するスコアが、該フラグメントの樹状構造に基づいて加算される、項目１５に記載の方法。
【００４１】
（項目１７）
位置ベースのスコアが、上記フラグメントに対して計算され、該位置ベースのスコアにおいては、該フラグメントに対するスコアは、上記リストのエントリにおける該フラグメントの位置に依存する、項目５に記載の方法。
【００４２】
（項目１８）
上記リストのエントリのフラグメントに基づいて決定された最も良く一致するエントリの上記候補リストは、認識ステップの基準として使用される、項目１に記載の方法。
【００４３】
（項目１９）
上記リストのエントリは、以下の情報：個人名、住所、都市名、通りの名前、関心事、歌のタイトルのうちの少なくとも１つを含む、項目１に記載の方法。
【００４４】
（項目２０）
上記最も良く一致するエントリのリストは、計算されたスコアに依存して上記リストのエントリを区分することによって生成され、ｎ番目のリストのエントリは、上記候補リストを構築する最も良いスコアを有する、項目１に記載の方法。
【００４５】
（項目２１）
上記リストのエントリの上記フラグメントに対して上記認識された音声入力を一致させるために、コンテキストに感度の高いＬｅｖｅｎｓｈｔｅｉｎアルゴリズムが使用される、項目１に記載の方法。
【００４６】
（項目２２）
上記中立スコアを計算するために、フラグメント固有の中立スコアが計算され、上記リストのエントリに対するスコアが、該フラグメント固有のスコアに基づいて計算される、項目１４に記載の方法。
【００４７】
（項目２３）
上記認識された音声入力は、さらに、上記候補リストを生成するために、上記完全なリストのエントリの少なくとも一部分と比較される、項目１に記載の方法。
【００４８】
（項目２４）
フラグメントへの上記リストのエントリのフラグメント化は、サブワード単位のレベルで実行される、項目１に記載の方法。
【００４９】
（項目２５）
上記リストのエントリは、都市名と通りの名前との組み合わせを含み、フラグメントへのフラグメント化は、少なくとも、都市名と通りの名前との間で実行される、項目１に記載の方法。
【００５０】
（項目２６）
上記リストのエントリの上記フラグメントは、１つのリストのエントリに対する該フラグメントが、重複するように選択される、項目１に記載の方法。
【００５１】
（項目２７）
上記リストのエントリの上記フラグメントは、該フラグメントが該リストのエントリの一部分だけを含むように選択される、項目１に記載の方法。
【００５２】
（項目２８）
上記リストのエントリは、ワイルドカードと共に格納され、該ワイルドカードは、該リストのエントリから１つのエントリを選択するユーザの発話が、該リストのエントリ自体よりも多くのものを含むという事実を考慮する、項目１に記載の方法。
【００５３】
（項目２９）
音声入力によってエントリのリストからエントリを選択する音声認識システムであって、
−エントリのリストとフラグメントのリストとを含むデータベースであって、各フラグメントは、１つのリストのエントリの一部分を表す、データベースと、
−音声入力を認識し、該認識された音声入力を該エントリのリストと比較することにより、該比較結果に基づいて最も良く一致するエントリの候補リストを生成する音声認識モジュールであって、該音声認識モジュールは、該認識された音声入力を該フラグメントのリストと比較することにより、該候補リストを生成する、音声認識モジュールと
を備えている、音声認識システム。
【００５４】
（項目３０）
上記音声認識システムは、項目１〜項目２８のうちのいずれか１項に記載の方法に従って動作する、項目２９に記載の音声認識システム。
【００５５】
（項目３１）
コンピュータシステムのプロセッサによって実行されたときに、項目１〜項目２８のうちのいずれか１項に記載の方法を行うような命令を含む、コンピュータプログラム製品。
【００５６】
（摘要）
音声入力によってエントリのリストからエントリを選択する音声認識方法であって、該方法は、以下のステップ：
−音声入力を検出するステップと、
−該音声入力を認識するステップと、
−該リストのエントリのフラグメントを提供するステップと、
−該認識された音声入力を該エントリのリストと比較することにより、該比較の結果に基づいて最も良く一致するエントリの候補リストを生成するステップであって、該候補リストを生成するために、該認識された音声入力は、該エントリの該フラグメントと比較される、ステップと
を包含する、方法。
【００５７】
本発明のこれらの潜在的な対象、特徴、および利点、そして、本発明の他の潜在的な対象、特徴、および利点が、本発明の実施形態に対する以下の記述と以下の例とからさらに充分に明らかになる。しかしながら、本発明の範囲は、図面に示されたどの実施形態によっても限定されないということが理解される。
【図面の簡単な説明】
【００５８】
【図１】図１は、フラグメントベースの手法を使用した音声認識システムを概略的に示す。
【図２】図２は、フラグメントベースの手法の主なステップを伴った流れ図を示す。
【図３】図３は、音声認識のためのフラグメントベースの手法の一部のステップの詳細な図を含む別の流れ図を例示する。
【図４】図４は、フラグメントの樹状構造の例を示す。
【発明を実施するための形態】
【００５９】
図１において、音声認識システムが示され、該音声認識システムは、エントリの大規模なリストからエントリを選択するためにフラグメントベースの手法を使用する。図１に示されたシステムは、車両の目的地の場所の音声駆動の選択、メディアデータベースのメディアファイルの選択、住所録における個人の名前を選択することなどのために使用され得る。システムは、車両環境において使用され得るが、示されたシステムは、非車両環境において使用されるスタンドアロンユニットでもあり得る。音声認識システムは、ユーザ１１から音声入力を受信する音声認識モジュール１０を含む。音声認識モジュール１０は、エントリのリスト１３を含むデータベース１２と関連付けて使用される。エントリのリストは、１つの国またはいくつかの国などの所定の地理的範囲に対する都市と通りとの組み合わせを含み得る。示された実施形態において、リスト１３は、異なるエントリ１４を含む。示された実施形態において、リストのエントリ１４は、都市Ａと、通りＢなどの住所との組み合わせである。例えば、リストのエントリは、以下：ＦｒａｎｋｆｕｒｔＬｉｎｄｅｎｓｔｒａｓｓｅ、またはＵｌｍＯｌｇａｓｔｒａｓｓｅ、ＭｕｅｎｃｈｅｎＷｅｔｔｅｒｓｔｅｉｎｐｌａｔｚなどであり得る。エントリの元々のリストに加えて、第２のリスト１５が提供され得、該リスト１５は、リスト１３のエントリ１４からの異なるフラグメントを含む。好適には、フラグメントは、リスト１５において全てのリストのエントリに提供される。リストのエントリは、フラグメント化される。なぜならば、かなり大規模なリストに対しては、フラグメントを一致させることが、実行時間の点において、完全なリストのエントリを一致させることよりもかなり容易であるからである。フラグメント化は、音素または何らかの他のサブワードレベルで実行され得る。どのリストのエントリをどこでフラグメント化するかというフラグメント化の決定は、予測認識速度、メモリの必要条件、および実行時間能力に基づき得る。都市と通りとの組み合わせの場合で示された実施形態において、ほとんどの場合においてデータを格納するためのメモリの必要条件を軽減させるために、少なくとも、都市と通りとの間でフラグメント化することが、有利であり得る。上記の例に対して、フラグメント化は、以下：
ＦｒａｎｋｆｕｒｔＬｉｎｄｅｎｓｔｒａｓｓｅ＝＞Ｆｒａｎｋ｜ｆｕｒｔ｜Ｌｉｎｄｅｎ｜ｓｔｒａｓｓｅ
ＵｌｍＯｌｇａｓｔｒａｓｓｅ＝＞Ｕｌｍ｜Ｏｌｇａ｜ｓｔｒａｓｓｅ
ＭｕｅｎｃｈｅｎＷｅｔｔｅｒｓｔｅｉｎｐｌａｔｚ＝＞Ｍｕｅｎ｜ｃｈｅｎ｜Ｗｅｔｔｅｒ｜ｓｔｅｉｎ｜ｐｌａｔｚ
ＨａｍｂｕｒｇＳｔｅｉｎｓｔｒａｓｓｅ＝＞Ｈａｍ｜ｂｕｒｇ｜Ｓｔｅｉｎ｜ｓｔｒａｓｓｅ
であり得る。
【００６０】
リストにおいて、エントリは、通常、音声学的に書き表されたエントリとして格納されることにより、それらを、音声入力１１の認識された音素ストリングと比較する。簡潔に例示するために、リストのエントリの音声表記法が示されている。上述の例から理解され得るように、先ほど解体されたリストのエントリは、現在、共通のフラグメント「ｓｔｒａｓｓｅ」と「ｓｔｅｉｎ」とを有する。リストが大規模になるほど、この結果は顕著になる。結果として、特有のフラグメントのリストまたは異なるフラグメントのリストは、元々のリストよりも短くなり得る。さらに、フラグメント自体も、完全なリストのエントリよりも短い。これら両方の局面が、大規模なリストにおけるエントリの選択のための音声認識を最適化および加速することに役立つ。図面から理解され得るように、リスト１５におけるフラグメントは、記号^＊によって表されたワイルドカードを伴う。リストにおいて、フラグメントａは、左側にワイルドカードを有し、一方、他のフラグメントｂは、右側にワイルドカードを有する。さらに、ワイルドカードは、両側にも提供され得る。非常に短いリストに対しては、フラグメントがリストのエントリに対応するということが起こるので、ワイルドカードは提供されない。上述の例において、フラグメントは、^＊ｓｔｒａｓｓｅまたは^＊ｏｌｇａ^＊などのように提供され得る。使用されるワイルドカードは、必ずしも同じ属性を有する必要はない。例えば、^＊ｏｌｇａ＄のように、左側と右側とで異なるワイルドカード記号を使用し、２つのワイルドカードの重みの差を表し得る。
【００６１】
音声認識モジュール１０が、例えば、開音素ループまたは何らかの他のサブワード単位を使用して音声入力を認識するための第１の認識ステップを実行したときに、認識された音声入力が、最も良く一致するフラグメントを決定するために、フラグメントのリスト１５と比較される。次に、フラグメントの一致に基づいて、最も良く一致するリストのエントリの候補リストが計算される。最も良く一致するリストのエントリのこのリストは、候補リスト２０に対応する。この短い候補リストは、最も良く一致するエントリＭが、さらなる選択のためにユーザに示されているリストであり得る。しかしながら、この候補リストは、２つのステップの音声認識方法と関連付けても使用され得、該２つのステップの音声認識方法においては、別の認識ステップが、短いリストにおいて実行される。この追加の認識ステップにおいて、同じ音声入力に対する、リストにおける最も適切なエントリが、候補リストにおいて列挙されたエントリの音声学的音響表示を音響入力に一致させ、そして、最も良く一致するエントリを決定することによって決定される。第２のステップは、第１のステップよりもかなり多くの計算能力を必要とする。計算時間を減少させるために、リスト２０におけるリストのエントリの数は、リスト１３のリストのエントリの数と比較して大幅に減少させられる。例えば、リストのエントリの大規模なリスト１３は、数万または数千万のエントリのリストを含み得る。最も良く一致するエントリの第２の候補リスト２０は、かなり少なく、例えば、数百または数千のエントリを有し得る。次に、第２の認識ステップが、かかる短い候補リスト２０において実行され得る。次に、この第２のステップの最も良く一致する結果が、ディスプレイ３０に示され得る。第２の一致ステップは、必ずしも必要であるわけではないことが理解されるべきである。１つの一致ステップだけが実行されることも可能である。
【００６２】
流れ図が、図２に示され、該流れ図は、音声認識方法の主なステップを示している。方法は、ステップ４１において開始する。ステップ４２において、音声入力１１が認識される。ここで、音素シーケンスまたは音素ストリングが、音声認識モジュールによって認識される。音声入力の音素シーケンスが生成されると、フラグメントのリスト１５が、提供される必要がある（ステップ４３）。さらに、フラグメントのリストは、システムに既に格納された所定のリストであり得る。リストのエントリを変更する場合に、一致ステップが実行される前に、フラグメントのリストが、生成されることも可能である。フラグメントのリストに対する認識された音素ストリングの一致が、ステップ４４において実行される。どの程度適切に、認識された音素ストリングが、一致されたフラグメントに対応しているかを決定するために、リスト１５の各フラグメントに対して、スコアが決定され得る（ステップ４５）。異なるフラグメントに対するスコアが既知であるときには、ステップ４６においてエントリのリストに対するスコアを決定することが可能である。どのフラグメントによって、完全なリストのエントリが連結されるかは、既知である。したがって、リストのエントリを構築する異なるフラグメントのスコアは、単に、リストのエントリに対するスコアを決定するために追加される必要があるだけである。スコアに依存して、最も良く一致するエントリの候補のリストが、リスト４７において決定され得る。次に、候補リストは、追加の一致ステップに対して使用され得るか、最も良く一致するエントリが、さらなる選択または確認のためにユーザに示されるかである。しかしながら、この第２のステップは、従来技術から公知であり、さらに詳細には記述しない。示された実施形態において、方法は、ステップ４８において終了する。
【００６３】
図３において、方法がさらに詳細に示されている。図２と関連付けて述べられたように、フラグメントがステップ４３において提供された後に、ステップ５１において、フラグメントがワイルドカードを伴うか否かが尋ねられる。フラグメントがワイルドカードを伴う場合には、ワイルドカードを伴う側が、ステップ５２において決定され得る。フラグメントが、端のフラグメントである場合には、フラグメントの場所をより良くモデリングし、そして、フラグメントが発話において現われる場所をモデリングするために全てのフラグメントの両側にワイルドカードに提供しないことが、有利であり得る。都市−通りの対を含むリストのエントリの場合に、例えば、フラグメント「^＊ｓｔｒａｓｓｅ」は、通常、発話の最も右側の部分に一致させられ得る。それに応じて、ステップ５３において、元々の音声入力における対応する側が、決定される。結果として、^＊ｆｒａｇｍｅｎｔの組み合わせが提供されたときには、対応する認識された音声入力の左側の部分は、あまり考慮されないか、全く考慮されないかであり、一方、組み合わせが、ｆｒａｇｍｅｎｔ^＊であるときには、認識された音声入力の左側の部分を意味する第１の部分が、一致のために使用される。さらに、例えば、ｓｔｒａｓｓｅｎｈａｕｓｅｎおよびｏｌｇａｓｔｒａｓｓｅのようなリストのエントリがある場合には、同じフラグメントに対して異なる変形例、例えば、^＊ｓｔｒａｓｓｅおよびｓｔｒａｓｓｅ^＊を使用することが可能である。これが、より良いスコアリングをもたらし得る。認識された音声入力の一方の側だけが、考慮されたときに、一致プロセスは、かなり速くなる。発話の右側部分および左側部分だけのこの一致は、適切なプルーニングメカニズムと組み合わせた右側からの一致によって達成され得る。これは、発話における切断点に対する先見的な推測を必要としないという有利な点を有する。不利な点は、左から右への一致と右から左への一致との組み合わせが、可能ではないこと、または容易には可能ではないことである。ワイルドカードがフラグメントにおいて検出されなかった場合には、方法は、認識された音声入力をフラグメントと直接的に比較する（ステップ５４）。
【００６４】
本発明の一局面に従って、フラグメント化は、正しい順序におけるフラグメントの連結が、必ず元々のリストのエントリを与えるように実行される必要はない。フラグメントは、重複するか、フラグメントは、リストのエントリの一部分だけを包含するかであり得る。しかしながら、重複するフラグメントを用いて一致ステップを実行することが可能である。重複は、一致の精度を改善さえし得る。ステップ５４における比較ステップに対して、コンテキストに感度の高いＬｅｖｅｎｓｈｔｅｉｎ距離アルゴリズム、または何らかの他の適切な一致アルゴリズムが使用され得る。当業者には公知であるように、Ｌｅｖｅｎｓｈｔｅｉｎアルゴリズムは、１つのストリングを別のストリングに修正するために必要な編集動作の最も少ない数を計算する。これを計算する最も一般的な方法は、行列を使用した動的なプログラミング手法による。行列において、第１のストリングから第２のストリングに変化させるために必要である編集動作が理解され得る。重み付けられたアルゴリズムの場合において、１つの文字を他の文字に変化させる費用は、一定ではないことがあり得る。本例においては、費用はコンテキストに依存していた。しかしながら、その他任意の一致アルゴリズムが使用され得ることが理解されるべきである。認識された音声入力が、フラグメントに一致したときに、各フラグメントに対するスコアが獲得される。異なるスコアのより良い比較のために、スコアは正規化され、それにより、例えば、ゼロが中立スコアになり得る。次に、完全なリストのエントリに属する全てのフラグメントのスコアが、加算される。リストのエントリのスコアを計算するために、フラグメントの数とサイズとを明確に考慮することも可能である。一実施形態において、中立スコアは、認識結果に対して単一のワイルドカードの記号を一致させることによって計算され得る。次に、これは、正規化されたスコアが獲得されるように、全てのフラグメントのスコアから減算される必要がある。さらに、フラグメント固有の中立スコアを使用することが可能であり、該フラグメント固有のスコアは、各フラグメントに依存する。例えば、フラグメントに対する予測スコアを利用したい場合と、観察スコアに対する予測スコアの差をモデリングすることを望む場合とに、フラグメント固有の中立スコアが使用され得る。予測スコアは、多種多様な異なる音声入力に対してフラグメントを一致させることによって獲得されたスコアに対する推計学的な予測値であり得る。全ての音声入力に対して、フラグメントは、固有のスコアを有する。１つのフラグメントに対する全ての固有のスコアの平均値が、フラグメント固有のスコアであり得る。したがって、最後に重要なことに、ステップ５５において各フラグメントに対するスコアを計算した後と、ステップ５６においてスコアを正規化した後とにおいて、異なるリストのエントリに対するスコアが、ステップ５７において計算され得る。
【００６５】
図４において、実施形態は、どのように、フラグメントの効果的な構成が獲得され得るかを示している。図４に示された実施形態において、４つの異なるリストのエントリ、Ｌｉｎｄｅｎｗｅｇ、Ｌｉｎｄｅｎｓｔｒａｓｓｅ、Ｌｉｎｄｅｎｆｕｒｔ、Ｌｉｎｄｅｎｄｏｒｆが、示されている。スコアの格納とスコアの計算のために、樹状構造が、完全なリストの効果的な格納のために使用され得る。リストのエントリは、以下のフラグメント、Ｌｉｎ｜ｄｅｎ｜ｆｕｒｔ、Ｌｉｎ｜ｄｅｎ｜ｄｏｒｆ、Ｌｉｎ｜ｄｅｎ｜ｓｔｒａｓｓｅ、Ｌｉｎ｜ｄｅｎ｜ｗｅｇを有する。したがって、ＬｉｎｄｅｎｆｕｒｔのスコアはＬｉｎのスコア＋ｄｅｎのスコア＋ｆｕｒｔのスコアであり得、Ｌｉｎｄｅｎのスコア＋ｆｕｒｔのスコアに対応する。図４に示されているように、フラグメント６１「Ｌｉｎ」は、第１のスコアｓ１を有し、フラグメント「ｄｅｎ」は、第２のスコアｓ２を有するなどであり得る。４つの異なるエントリに対するスコアを計算するために、ｌｉｎとｄｅｎとのスコアが、一度だけ加算されなければならず、それにより、４つの異なるリストのエントリに対するスコアの決定のために、加算動作が５回だけ実行されることが必要なだけである。フラグメントごとに単一のスコアｓを使用する代わりに、フラグメントに対して位置ベースのスコアを使用することも可能であり得る。これは、フラグメントＡ＋フラグメントＢのスコアは、フラグメントＢ＋フラグメントＡのスコアに対応しないことを意味する。
【００６６】
フラグメントベースのスコアが既知であるときには、完全なリストのエントリに対するスコアが既知であり、そして、最も良く一致するエントリのリストが、スコアに基づいたリストを区分することによって計算され得る。
【００６７】
要するに、上記の記述から理解され得るように、完全なリストのエントリの代わりにフラグメントを使用した音声認識方法は、正しい選択されたリストのエントリを見つけるために必要とされる計算能力と時間とを最適化することに役立ち得る。
【符号の説明】
【００６８】
１０音声認識モジュール
１１ユーザ
１２データベース
１３エントリのリスト
１４エントリ
１５第２のリスト
２０候補リスト
３０ディスプレイ

【特許請求の範囲】
【請求項１】
音声入力によってエントリのリストからエントリを選択する音声認識方法であって、該方法は、以下のステップ：
−音声入力を検出するステップと、
−該音声入力を認識するステップと、
−該リストのエントリのフラグメントを提供するステップと、
−該認識された音声入力を該エントリのリストと比較することにより、該比較の結果に基づいて最も良く一致するエントリの候補リストを生成するステップであって、該候補リストを生成するために、該認識された音声入力は、該エントリの該フラグメントと比較される、ステップと
を包含する、方法。
【請求項２】
少なくとも１つのフラグメントが、前記リストの各エントリに提供される、請求項１に記載の方法。
【請求項３】
前記フラグメントは、少なくとも１つのワイルドカードを伴い、該ワイルドカードは、前記リストのエントリのフラグメントにおいて考慮されない、該リストのエントリの一部分を表す、請求項１に記載の方法。
【請求項４】
前記リストのエントリの実質的に全ての異なるフラグメントを含むフラグメントのリストが提供され、前記候補リストを生成するために、前記認識された音声入力は、該フラグメントのリストと比較される、請求項１に記載の方法。
【請求項５】
前記認識された音声入力が、前記フラグメントと比較されたときに、スコアが、該フラグメントに対して計算され、該スコアは、どのように適切に、該認識された音声入力が、１つのフラグメントに適合するかの測定基準である、請求項１に記載の方法。
【請求項６】
前記スコアは、前記フラグメントのリストの各フラグメントに対して計算される、請求項４および請求項５に記載の方法。
【請求項７】
１つのリストのエントリに対するスコアは、該リストのエントリを構築するフラグメントのスコアを加算することによって計算される、請求項５に記載の方法。
【請求項８】
前記ワイルドカードが、前記フラグメントの一方の側、該フラグメントの他方の側、または該フラグメントの両側に加えられる請求項３に記載の方法。
【請求項９】
前記ワイルドカードは、該ワイルドカードが、どの認識された音声入力に対しても実質的に一様に一致するように選択される、請求項３に記載の方法。
【請求項１０】
前記フラグメントは、異なるワイルドカードを伴い、前記認識された音声入力が該フラグメントと比較されたときに、各ワイルドカードは、異なる重みを有する、請求項３に記載の方法。
【請求項１１】
前記ワイルドカードが、前記フラグメントの一方の側だけに提供されたときには、どちら側に、該ワイルドカードが提供されていないかを決定し、前記認識された音声入力の対応する側が決定され、該フラグメントに対する認識された音声入力の一致が、実質的に、該認識された音声入力の対応する側に提供された認識された音声入力の一部分に基づいて実行される、請求項３に記載の方法。
【請求項１２】
前記ワイルドカードが、前記フラグメントの一方の側だけに提供されたときには、前記認識された音声入力の対応する側が決定され、プルーニングメカニズムが、該認識された音声入力の他方の側に適用される、請求項３に記載の方法。
【請求項１３】
前記フラグメントのリストに対して前記認識された音声入力を一致させたときに計算された前記スコアは、正規化され、該正規化されたスコアは、各リストのエントリのスコアを計算するために加算される、請求項５に記載の方法。
【請求項１４】
中立スコアが、前記認識された音声入力に対して前記少なくとも１つのワイルドカードを一致させることによって計算され、該中立スコアは、前記異なるフラグメントに対して計算された全てのスコアから減算される、請求項５に記載の方法。
【請求項１５】
前記フラグメントは、樹状構造で提供される、請求項１に記載の方法。
【請求項１６】
前記リストのエントリを構築する異なるフラグメントに対するスコアが、該フラグメントの樹状構造に基づいて加算される、請求項１５に記載の方法。
【請求項１７】
位置ベースのスコアが、前記フラグメントに対して計算され、該位置ベースのスコアにおいては、該フラグメントに対するスコアは、前記リストのエントリにおける該フラグメントの位置に依存する、請求項５に記載の方法。
【請求項１８】
前記リストのエントリのフラグメントに基づいて決定された最も良く一致するエントリの前記候補リストは、認識ステップの基準として使用される、請求項１に記載の方法。
【請求項１９】
前記リストのエントリは、以下の情報：個人名、住所、都市名、通りの名前、関心事、歌のタイトルのうちの少なくとも１つを含む、請求項１に記載の方法。
【請求項２０】
前記最も良く一致するエントリのリストは、計算されたスコアに依存して前記リストのエントリを区分することによって生成され、ｎ番目のリストのエントリは、前記候補リストを構築する最も良いスコアを有する、請求項１に記載の方法。
【請求項２１】
前記リストのエントリの前記フラグメントに対して前記認識された音声入力を一致させるために、コンテキストに感度の高いＬｅｖｅｎｓｈｔｅｉｎアルゴリズムが使用される、請求項１に記載の方法。
【請求項２２】
前記中立スコアを計算するために、フラグメント固有の中立スコアが計算され、前記リストのエントリに対するスコアが、該フラグメント固有のスコアに基づいて計算される、請求項１４に記載の方法。
【請求項２３】
前記認識された音声入力は、さらに、前記候補リストを生成するために、前記完全なリストのエントリの少なくとも一部分と比較される、請求項１に記載の方法。
【請求項２４】
フラグメントへの前記リストのエントリのフラグメント化は、サブワード単位のレベルで実行される、請求項１に記載の方法。
【請求項２５】
前記リストのエントリは、都市名と通りの名前との組み合わせを含み、フラグメントへのフラグメント化は、少なくとも、都市名と通りの名前との間で実行される、請求項１に記載の方法。
【請求項２６】
前記リストのエントリの前記フラグメントは、１つのリストのエントリに対する該フラグメントが、重複するように選択される、請求項１に記載の方法。
【請求項２７】
前記リストのエントリの前記フラグメントは、該フラグメントが該リストのエントリの一部分だけを含むように選択される、請求項１に記載の方法。
【請求項２８】
前記リストのエントリは、ワイルドカードと共に格納され、該ワイルドカードは、該リストのエントリから１つのエントリを選択するユーザの発話が、該リストのエントリ自体よりも多くのものを含むという事実を考慮する、請求項１に記載の方法。
【請求項２９】
音声入力によってエントリのリストからエントリを選択する音声認識システムであって、
−エントリのリストとフラグメントのリストとを含むデータベースであって、各フラグメントは、１つのリストのエントリの一部分を表す、データベースと、
−音声入力を認識し、該認識された音声入力を該エントリのリストと比較することにより、該比較結果に基づいて最も良く一致するエントリの候補リストを生成する音声認識モジュールであって、該音声認識モジュールは、該認識された音声入力を該フラグメントのリストと比較することにより、該候補リストを生成する、音声認識モジュールと
を備えている、音声認識システム。
【請求項３０】
前記音声認識システムは、請求項１〜請求項２８のうちのいずれか１項に記載の方法に従って動作する、請求項２９に記載の音声認識システム。
【請求項３１】
コンピュータシステムのプロセッサによって実行されたときに、請求項１〜請求項２８のうちのいずれか１項に記載の方法を行うような命令を含む、コンピュータプログラム製品。

【図１】