説明

フラグメントを使用した大規模なリストにおける音声認識

【課題】計算の労力がさらに最小化される、エントリのリストから、エントリを選択する音声認識方法を改善すること。
【解決手段】音声入力によってエントリのリストからエントリを選択する音声認識方法であって、該方法は、以下のステップ:音声入力を検出するステップと、該音声入力を認識するステップと、該リストのエントリのフラグメントを提供するステップと、該認識された音声入力を該エントリのリストと比較することにより、該比較の結果に基づいて最も良く一致するエントリの候補リストを生成するステップであって、該候補リストを生成するために、該認識された音声入力は、該エントリの該フラグメントと比較される、ステップとを包含する、方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声入力によってエントリのリストからエントリを選択する音声認識方法と、音声認識システムとに関する。
【背景技術】
【0002】
ナビゲーション、ネームダイヤリング(name dialing)、またはオーディオプレーヤ/ビデオプレーヤの制御などの多くの用途において、例えば、都市名、通りの名前、固有名詞、住所、または音楽のタイトルなどのエントリの大規模なリストからエントリを選択することが必要である。プロセッサリソースにおける適度なメモリを用いた音声認識を可能にするために、2つのステップの音声認識手法が、頻繁に使用されている。第1のステップにおいて、音素シーケンスまたは音素ストリングが、音声認識モジュールによって認識される。しかしながら、音素認識に対する認識精度は、通常、許容できるものではなく、様々な、音素の置換、音素の挿入、または音素の削除が生じる。次に、音素ストリングなどの認識された音声入力は、音声学的に書き表されたエントリの可能な限り大規模なリストと比較されることにより、最も良く一致する項目のより短い候補リストを決定する。次に、候補リストは、第2の認識経路に対する新たな語彙として音声認識器に供給され得る。かかる手法は、計算リソースを節約する。なぜならば、第1のステップにおいて行われる認識は、あまり労力を必要とせず、そして、計算に費用がかかる第2のステップは、エントリの大規模なリストのうちの少しのサブセットを用いて行われるだけだからである。上記のような2つのステップの音声認識手法は、特許文献1から公知である。
【0003】
しかしながら、非常に大規模なリストの場合には、計算の労力は、まだ非常に大きい。ナビゲーションシステムの音声駆動制御を有するナビゲーションシステムの場合には、運転手/話者が、目的地の都市における通りと組み合わされた都市などの目的地の組み合わせを述べるという状況が生じる。例えば、ドイツには、約300万通りの都市と通りとの組み合わせが存在する。認識ステップが、かかる大規模なリストにおいて実行されるときには、上述の一致ステップは、あまりにも多くの、メモリと一致の実行時間とを必要とするので、上述の一致ステップは、車両に埋め込まれたシステムに組み込まれ得ない。これらの大規模なリストは、例えば、音声制御された歌の選択が、製品に組み込まれなければならないときなど、アーティストの名前、アーティストの歌などを選択するときのような他の分野の用途においても存在する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2004/077405号パンフレット
【発明の概要】
【発明が解決しようとする課題】
【0005】
したがって、エントリのリストからエントリを選択する音声認識方法を改善する必要性が存在し、該音声認識方法においては、計算の労力がさらに最小化される。
【課題を解決するための手段】
【0006】
この必要性は、独立請求項の特徴によって満たされる。従属請求項においては、本発明の好適な実施形態が記述される。
【0007】
本発明の第1の局面に従って、音声認識方法が、音声入力によってエントリのリストからエントリを選択するために提供される。方法は、音声入力を検出するステップと、音声入力を認識するステップとを包含する。さらに、リストのエントリのフラグメントが提供される。次に、認識された音声入力が、認識された音声入力を該エントリのリストと比較することにより、比較の結果に基づいて最も良く一致するエントリの候補リストを生成するために使用される。本発明の一局面に従って、候補リストは、認識された音声入力を該エントリのフラグメントと比較することによって生成される。完全なリストのエントリの代わりに、リストのエントリのフラグメントを比較ステップに使用することによって、計算労力が、認識された音声入力が完全なエントリのリストに一致させられる一致プロセスと比較して、最小化され得る。大規模なリストの場合において、各フラグメントは、リストのエントリにおいて繰り返し使用され得る。例えば、目的地の場合において、フラグメントstreetまたはstrasseが、多くのリストにおいて提示され得る。さらに、リストのエントリに対する都市と通りとの組み合わせの場合において、都市名は、当該都市の全ての通りに対して存在し得る。結果として、フラグメントのリストは、元々のリストよりもずっと短くなり得る。さらに、フラグメント自体もまた、対応するリストのエントリよりも短くなる。それらの局面が共に、実行時間能力の顕著な増加をもたらす。
【0008】
好適な実施形態に従って、少なくとも1つのフラグメントが、リストの各エントリに提供される。さらに、少なくとも1つのワイルドカードを各フラグメントに加えることが可能である。フラグメント化によって、フラグメントは、リストのエントリの一部分だけを表す。さらに、ワイルドカードが、リストのエントリのフラグメントが生成されたときに考慮されないリストのエントリの一部分を表す。好適には、ワイルドカードは、他のもの全てに対して一様に一致する。これは、フラグメント自体が、フラグメントと関連付けられる音声入力の一部分に対して正確に一致し、そして、(音声入力の)他のもの全てが、ワイルドカードに一致することを意味する。一致ステップの間のワイルドカードの影響が、完全には回避され得ないときであっても、影響は、最小化されるはずである。ワイルドカードの重みが、計算または実験テストによって決定され得る。
【0009】
リストのエントリのフラグメント化が、実行されるときに、フラグメントのリストが、リストのエントリの実質的に全ての異なるフラグメントを含むことが好ましい。最も良く一致するエントリの候補リストの生成のために、認識された音声入力は、全ての異なるフラグメントを含むフラグメントのリストと比較される。フラグメントのこの完全なリストは、エントリの完全なリストよりも短くなり得る。多くのフラグメントが、多くの異なるリストのエントリに存在するときには、認識された音声入力は、より短いリストと比較されなければならないので、フラグメントの該完全なリストが、一致ステップに対して使用されるときには、計算能力が、最小化され得る。
【0010】
一致プロセスの追加のステップにおいて、次に、各フラグメントに対するスコアを計算することが可能であり、該スコアは、認識された音声入力が、該フラグメントと比較されたときに、どの程度適切に、認識された音声入力が、フラグメントに適合するかの測定基準である。スコアに基づいて、次に、リストの最も良く一致するエントリを選択することが可能である。そうするために、スコアが、フラグメントのリストの各フラグメントに対して計算され得、そして、リストのエントリのスコアが、リストのエントリを構築するフラグメントのスコアを加算することによって、リストのエントリに対して計算され得る。2つの異なるスコアの計算が必要であるときであっても、リストのエントリのスコアに到達するためにスコアを単に加算することは、計算的な観点において、完全なリストのエントリに対する認識された音声入力の一致よりもかなり容易である。
【0011】
フラグメントは、1つまたはいくつかのワイルドカードを伴い得、該1つまたはいくつかのワイルドカードは、一方の側もしくは両側に提供されるか、どちら側にも提供されないかであり得る。ワイルドカードが提示されないときには、これは、リストのエントリが、非常に短くなり得るので、リストのエントリは、さらにフラグメント化され得ないことを意味する。フラグメントの異なる側に異なるワイルドカードを使用することが、さらに可能である。例えば、第1のワイルドカードは、第1の側に第1の重みを有し、第2のワイルドカードは、フラグメントの第2の側に第2の重みを有する。さらに、フラグメントの両側には、ワイルドカードを提供せず、ワイルドカードをフラグメントの一方の側に提供することが可能である。これが、フラグメントが音声入力において現れるフラグメントの場所をより良くモデリングすることに役立つ。ワイルドカードが、一方の側にだけ提供されたことが決定された場合には、ワイルドカードが提供されていない側もまた、決定される。次に、認識された音声入力の対応する側が決定され得、そして、フラグメントに対する認識された音声入力の一致が、認識された音声入力の当該側に提供された認識された音声入力の一部分に基づいて実行され得る。例えば、がワイルドカードを表すフラグメントstrasseは、通常、都市と通りとのリストのエントリの場合において、発話の最も右側の部分に一致させられる。1つのワイルドカードだけを有するフラグメントの別の有利な点は、発話に対するフラグメントの一致は、事実上、認識される発話全体を必要とはせず、適切な側だけを必要とすることである。認識された音声入力/認識された発話の一方の側だけが、一致のために考慮されるときには、一致プロセスはまた、さらに加速され得る。1つのワイルドカードだけを有するかかる端のフラグメントはまた、リストのエントリをさらに正確にモデリングすることに役立ち、このことが、認識速度をかなり改善し得る。
【0012】
さらに、エントリのリストにおけるエントリもまた、ワイルドカードを含むことが可能である。これらのワイルドカードは、ユーザがリストのエントリの名前を発するという事実だけでなく、リストのエントリが完全な文章に埋め込まれている(例えば、「MunichのLindenstrasseに誘導してください」)という事実もモデリングすることに役立つ。
【0013】
認識された音声入力の右側または左側だけを一致させる特徴はまた、適切なプルーニングメカニズムと組み合わせて一方の側から一致させることによって達成され得る。音声認識方法において、認識された音声入力は、リストのエントリの音声学的表示と比較される。かかる一致アルゴリズムの一例が、Levenshteinアルゴリズムであり、該Levenshteinアルゴリズムは、別のストリングを含むように1つのストリングを修正するために必要である編集動作の最も少ない数を計算する。かかる動作の間に、修正動作または編集動作の数が、計算を続ける必要のない他のフラグメントと比較して、所定のフラグメントに対して既に非常に高いことが検出され得る。このメカニズムは、音声認識において「プルーニング」という表現で知られている。次に、かかるプルーニングメカニズムが、ワイルドカードがフラグメントに存在する認識された音声入力の他方の側に適用され得る。
【0014】
フラグメントの一方の側が認識された音声入力の一部分だけに一致させられる一致アルゴリズムに対するプルーニングメカニズムの有利な点は、発話における切断点に対する先見的な推測を必要としないことである。不利な点は、能力を増加させるための、左から右への一致と右から左への一致との組み合わせが、可能ではないこと、または容易には可能ではないことである。フラグメント化は、フラグメントの正しい順序における連結が、必ずしも、元々のリストのエントリを与える必要はないという意味で、一対一である必要はない。リストのエントリのフラグメントは、1つのリストのエントリに対するフラグメントが重複するように選択されることが可能である。さらに、リストのエントリのフラグメントは、リストのエントリのフラグメントがリストのエントリの一部分だけを包含する(いわゆるアンダーラップ)ように選択されることが可能である。さらに、両方の組み合わせが可能であり、一部のフラグメントは重複するフラグメントであるが、同じリストのエントリの他のフラグメントは完全なリストのエントリを包含しないことを意味する。さらに、重複は、リストのエントリの全ての部分がちょうど2つのフラグメントによって包含されるように完了し得るが、一部のフラグメントが、1つまたは2つの名前またはサブユニットに重複する不完全な重複として使用することも可能である。
【0015】
リストのエントリに対して結果として生じるスコアを計算するために、異なるフラグメントのスコアが編集されるときには、正規化されたスコアを計算することが望ましいことがあり得、正規化されたスコアは、リストのエントリのスコアを計算するために加算される。この正規化は、異なるスコアを互いに比較し得るために必要である。正規化を実行する1つの可能性は、認識された結果に対して単一のワイルドカードの記号を一致させることによって決定され得る中立スコアを計算することである。次に、この中立スコアは、異なるフラグメントに対して計算された全てのスコアから減算され得る。さらに、ゼロが中立スコアになるようにフラグメントのスコアを正規化し、そして、次に、完全なリストのエントリに属するフラグメントのスコアを加算することが、可能である。ゆえに、各リストのエントリのスコアは、該リストのエントリのフラグメントの正規化されたスコアを加算することによって獲得される。リストのエントリのスコアの計算のために、フラグメントの数とサイズとを明確に考慮することもまた、可能である。正規化の別の可能性は、全てのフラグメントに対するフラグメント固有の中立スコアの決定である。これは、異なる音声入力に対する多数の音声認識ステップが実行されたときと、フラグメントに対する異なる音声入力に対する認識結果に基づいて、フラグメント固有のスコアが計算され得るときとに、可能であり、異なる音声入力に対する平均スコアであるフラグメント固有のスコアが計算され得る。フラグメント固有のスコアまたは予測スコアは、特定のフラグメントのスコアに対する推計学的予測値であり、そして、観察されたスコアに対する予測値の差をモデリングするために使用され得る。
【0016】
本発明の一実施形態において、スコアは、リストのエントリにおけるフラグメントの位置に依存しない。しかしながら、フラグメントごとに単一のスコアを使用する代わりに、フラグメントに対して位置ベースのスコアを使用することもまた、可能である。かかる位置ベースのスコアが使用される場合において、「linden−furt」に対するスコアは、「furt−linden」に対するスコアとは異なり、または「linden−strasse」に対するスコアは、「linden−strasse」に対するスコアとは異なる。
【0017】
フラグメントの処理の最適化と、それぞれのスコアの処理の最適化とのために、樹状構造でフラグメントを提供することが可能である。この樹状構造は、リストのエントリのスコアを計算するために異なるフラグメントのスコアを加算するために使用され得る。これは、以下の例において理解され得る。リストが、エントリLindenfurtとエントリLindendorfとを含むときには、Lindenfurtに対するスコアは、フラグメントLinに対するスコア+フラグメントdenに対するスコア+フラグメントfurtに対するスコアに対応し、Lindenのスコア+furtのスコアに対応する。LindendorfとLindenfurtとのスコアの計算に対して、Lindenに対するスコアは、既に計算されているので、樹状構造が使用されるときには、1つの加算ステップが回避され得る。
【0018】
フラグメントベースの一致は、本願の導入部分において述べられた2つのステップの認識ステップと組み合わせて使用され得る。これは、次に、リストのエントリのフラグメントに基づいて決定された最も良く一致するエントリの候補リストが、追加の認識ステップに対する基準として使用され得ることを意味する。この第2のステップにおいて、リストにおける最も適切なエントリは、候補リストにおいて列挙されたエントリの音声学的表示または音響学的表示を音響入力に一致させることによって決定される。候補リストは、計算されたスコアに依存してリストのエントリを区分することによって生成され得、n番目の最も良いリストのエントリは、候補リストを構築するn番目の最も良いスコアを有する。
【0019】
フラグメントに基づいた一致に加えて、候補リストを生成するために、認識された音声入力を完全なリストのエントリの一部にさらに一致させることが可能である。例えば、良いスコアがフラグメントに対して計算されたときには、最も良く一致するエントリの候補リストが生成される前に、認識された音声入力に該フラグメントを含むリストのエントリをさらに一致させることが有利であり得る。この場合に、完全な一致は、単に、リストのエントリの一部において実行されるが、リストの全てのエントリにおいては実行されないので、認識された音声入力が、リストのエントリの完全な数と比較された場合よりも低くなる。
【0020】
2つのステップの一致の可能な実施形態は、以下の通りであり得る:第1のステップにおいて、音声入力の認識ステップが、開音素ループを使用して実行され得る。次に、認識された音声入力が、フラグメントのリストを使用してリストのエントリに一致させられる。第3のステップとして、完全な一致ステップが、実行され、該完全な一致ステップにおいては、認識された音声入力が、完全なリストのエントリと比較される。このステップは、可能な一致結果のリストをさらに短くし得る。第4のステップにおいて、実際の音声認識が実行され得る。
【0021】
本発明の一実施形態において、フラグメントへのリストのエントリのフラグメント化は、サブユニットレベル、例えば、音素レベルに基づき得る。リストのエントリが、都市名と通りの名前との組み合わせを含むときには、少なくとも、都市と通りとの間でフラグメント化することが有利であり得る。しかしながら、都市名と通りの名前とは、さらにフラグメント化され得ることが理解されるべきである。フラグメント化はまた、データを格納するためのメモリの必要条件を軽減することに役立つ。
【0022】
本発明は、さらに、音声入力によってエントリのリストからエントリを選択する音声認識システムに関し、該音声認識システムは、データベースを備え、該データベースは、エントリのリストとフラグメントのリストとを含み、各フラグメントは、上記のように、リストのエントリの少なくとも一部分を表す。音声認識モジュールは、音声入力を認識し、比較結果に基づいて最も良く一致するエントリの候補リストを生成するために、認識された音声入力をエントリのリストと比較する。本発明の一局面に従って、音声認識モジュールは、認識された音声をフラグメントのリストと比較することにより、候補リストを生成する。音声認識システムは、さらに上で詳細に述べられたように機能し得る。
【0023】
本発明はさらに、コンピュータプログラム製品に関し、該コンピュータプログラム製品は、命令がコンピュータシステムのプロセッサによって実行されたときに、命令が、上でさらに詳細に述べられたような方法を行う命令を含む。
【0024】
本発明は、さらに以下を提供する。
【0025】
(項目1)
音声入力によってエントリのリストからエントリを選択する音声認識方法であって、該方法は、以下のステップ:
−音声入力を検出するステップと、
−該音声入力を認識するステップと、
−該リストのエントリのフラグメントを提供するステップと、
−該認識された音声入力を該エントリのリストと比較することにより、該比較の結果に基づいて最も良く一致するエントリの候補リストを生成するステップであって、該候補リストを生成するために、該認識された音声入力は、該エントリの該フラグメントと比較される、ステップと
を包含する、方法。
【0026】
(項目2)
少なくとも1つのフラグメントが、上記リストの各エントリに提供される、項目1に記載の方法。
【0027】
(項目3)
上記フラグメントは、少なくとも1つのワイルドカードを伴い、該ワイルドカードは、上記リストのエントリのフラグメントにおいて考慮されない、該リストのエントリの一部分を表す、項目1に記載の方法。
【0028】
(項目4)
上記リストのエントリの実質的に全ての異なるフラグメントを含むフラグメントのリストが提供され、上記候補リストを生成するために、上記認識された音声入力は、該フラグメントのリストと比較される、項目1に記載の方法。
【0029】
(項目5)
上記認識された音声入力が、上記フラグメントと比較されたときに、スコアが、該フラグメントに対して計算され、該スコアは、どのように適切に、該認識された音声入力が、1つのフラグメントに適合するかの測定基準である、項目1に記載の方法。
【0030】
(項目6)
上記スコアは、上記フラグメントのリストの各フラグメントに対して計算される、項目4および項目5に記載の方法。
【0031】
(項目7)
1つのリストのエントリに対するスコアは、該リストのエントリを構築するフラグメントのスコアを加算することによって計算される、項目5に記載の方法。
【0032】
(項目8)
上記ワイルドカードが、上記フラグメントの一方の側、該フラグメントの他方の側、または該フラグメントの両側に加えられる項目3に記載の方法。
【0033】
(項目9)
上記ワイルドカードは、該ワイルドカードが、どの認識された音声入力に対しても実質的に一様に一致するように選択される、項目3に記載の方法。
【0034】
(項目10)
上記フラグメントは、異なるワイルドカードを伴い、上記認識された音声入力が該フラグメントと比較されたときに、各ワイルドカードは、異なる重みを有する、項目3に記載の方法。
【0035】
(項目11)
上記ワイルドカードが、上記フラグメントの一方の側だけに提供されたときには、どちら側に、該ワイルドカードが提供されていないかを決定し、上記認識された音声入力の対応する側が決定され、該フラグメントに対する認識された音声入力の一致が、実質的に、該認識された音声入力の対応する側に提供された認識された音声入力の一部分に基づいて実行される、項目3に記載の方法。
【0036】
(項目12)
上記ワイルドカードが、上記フラグメントの一方の側だけに提供されたときには、上記認識された音声入力の対応する側が決定され、プルーニングメカニズムが、該認識された音声入力の他方の側に適用される、項目3に記載の方法。
【0037】
(項目13)
上記フラグメントのリストに対して上記認識された音声入力を一致させたときに計算された上記スコアは、正規化され、該正規化されたスコアは、各リストのエントリのスコアを計算するために加算される、項目5に記載の方法。
【0038】
(項目14)
中立スコアが、上記認識された音声入力に対して上記少なくとも1つのワイルドカードを一致させることによって計算され、該中立スコアは、上記異なるフラグメントに対して計算された全てのスコアから減算される、項目5に記載の方法。
【0039】
(項目15)
上記フラグメントは、樹状構造で提供される、項目1に記載の方法。
【0040】
(項目16)
上記リストのエントリを構築する異なるフラグメントに対するスコアが、該フラグメントの樹状構造に基づいて加算される、項目15に記載の方法。
【0041】
(項目17)
位置ベースのスコアが、上記フラグメントに対して計算され、該位置ベースのスコアにおいては、該フラグメントに対するスコアは、上記リストのエントリにおける該フラグメントの位置に依存する、項目5に記載の方法。
【0042】
(項目18)
上記リストのエントリのフラグメントに基づいて決定された最も良く一致するエントリの上記候補リストは、認識ステップの基準として使用される、項目1に記載の方法。
【0043】
(項目19)
上記リストのエントリは、以下の情報:個人名、住所、都市名、通りの名前、関心事、歌のタイトルのうちの少なくとも1つを含む、項目1に記載の方法。
【0044】
(項目20)
上記最も良く一致するエントリのリストは、計算されたスコアに依存して上記リストのエントリを区分することによって生成され、n番目のリストのエントリは、上記候補リストを構築する最も良いスコアを有する、項目1に記載の方法。
【0045】
(項目21)
上記リストのエントリの上記フラグメントに対して上記認識された音声入力を一致させるために、コンテキストに感度の高いLevenshteinアルゴリズムが使用される、項目1に記載の方法。
【0046】
(項目22)
上記中立スコアを計算するために、フラグメント固有の中立スコアが計算され、上記リストのエントリに対するスコアが、該フラグメント固有のスコアに基づいて計算される、項目14に記載の方法。
【0047】
(項目23)
上記認識された音声入力は、さらに、上記候補リストを生成するために、上記完全なリストのエントリの少なくとも一部分と比較される、項目1に記載の方法。
【0048】
(項目24)
フラグメントへの上記リストのエントリのフラグメント化は、サブワード単位のレベルで実行される、項目1に記載の方法。
【0049】
(項目25)
上記リストのエントリは、都市名と通りの名前との組み合わせを含み、フラグメントへのフラグメント化は、少なくとも、都市名と通りの名前との間で実行される、項目1に記載の方法。
【0050】
(項目26)
上記リストのエントリの上記フラグメントは、1つのリストのエントリに対する該フラグメントが、重複するように選択される、項目1に記載の方法。
【0051】
(項目27)
上記リストのエントリの上記フラグメントは、該フラグメントが該リストのエントリの一部分だけを含むように選択される、項目1に記載の方法。
【0052】
(項目28)
上記リストのエントリは、ワイルドカードと共に格納され、該ワイルドカードは、該リストのエントリから1つのエントリを選択するユーザの発話が、該リストのエントリ自体よりも多くのものを含むという事実を考慮する、項目1に記載の方法。
【0053】
(項目29)
音声入力によってエントリのリストからエントリを選択する音声認識システムであって、
−エントリのリストとフラグメントのリストとを含むデータベースであって、各フラグメントは、1つのリストのエントリの一部分を表す、データベースと、
−音声入力を認識し、該認識された音声入力を該エントリのリストと比較することにより、該比較結果に基づいて最も良く一致するエントリの候補リストを生成する音声認識モジュールであって、該音声認識モジュールは、該認識された音声入力を該フラグメントのリストと比較することにより、該候補リストを生成する、音声認識モジュールと
を備えている、音声認識システム。
【0054】
(項目30)
上記音声認識システムは、項目1〜項目28のうちのいずれか1項に記載の方法に従って動作する、項目29に記載の音声認識システム。
【0055】
(項目31)
コンピュータシステムのプロセッサによって実行されたときに、項目1〜項目28のうちのいずれか1項に記載の方法を行うような命令を含む、コンピュータプログラム製品。
【0056】
(摘要)
音声入力によってエントリのリストからエントリを選択する音声認識方法であって、該方法は、以下のステップ:
−音声入力を検出するステップと、
−該音声入力を認識するステップと、
−該リストのエントリのフラグメントを提供するステップと、
−該認識された音声入力を該エントリのリストと比較することにより、該比較の結果に基づいて最も良く一致するエントリの候補リストを生成するステップであって、該候補リストを生成するために、該認識された音声入力は、該エントリの該フラグメントと比較される、ステップと
を包含する、方法。
【0057】
本発明のこれらの潜在的な対象、特徴、および利点、そして、本発明の他の潜在的な対象、特徴、および利点が、本発明の実施形態に対する以下の記述と以下の例とからさらに充分に明らかになる。しかしながら、本発明の範囲は、図面に示されたどの実施形態によっても限定されないということが理解される。
【図面の簡単な説明】
【0058】
【図1】図1は、フラグメントベースの手法を使用した音声認識システムを概略的に示す。
【図2】図2は、フラグメントベースの手法の主なステップを伴った流れ図を示す。
【図3】図3は、音声認識のためのフラグメントベースの手法の一部のステップの詳細な図を含む別の流れ図を例示する。
【図4】図4は、フラグメントの樹状構造の例を示す。
【発明を実施するための形態】
【0059】
図1において、音声認識システムが示され、該音声認識システムは、エントリの大規模なリストからエントリを選択するためにフラグメントベースの手法を使用する。図1に示されたシステムは、車両の目的地の場所の音声駆動の選択、メディアデータベースのメディアファイルの選択、住所録における個人の名前を選択することなどのために使用され得る。システムは、車両環境において使用され得るが、示されたシステムは、非車両環境において使用されるスタンドアロンユニットでもあり得る。音声認識システムは、ユーザ11から音声入力を受信する音声認識モジュール10を含む。音声認識モジュール10は、エントリのリスト13を含むデータベース12と関連付けて使用される。エントリのリストは、1つの国またはいくつかの国などの所定の地理的範囲に対する都市と通りとの組み合わせを含み得る。示された実施形態において、リスト13は、異なるエントリ14を含む。示された実施形態において、リストのエントリ14は、都市Aと、通りBなどの住所との組み合わせである。例えば、リストのエントリは、以下:Frankfurt Lindenstrasse、またはUlm Olgastrasse、 Muenchen Wettersteinplatzなどであり得る。エントリの元々のリストに加えて、第2のリスト15が提供され得、該リスト15は、リスト13のエントリ14からの異なるフラグメントを含む。好適には、フラグメントは、リスト15において全てのリストのエントリに提供される。リストのエントリは、フラグメント化される。なぜならば、かなり大規模なリストに対しては、フラグメントを一致させることが、実行時間の点において、完全なリストのエントリを一致させることよりもかなり容易であるからである。フラグメント化は、音素または何らかの他のサブワードレベルで実行され得る。どのリストのエントリをどこでフラグメント化するかというフラグメント化の決定は、予測認識速度、メモリの必要条件、および実行時間能力に基づき得る。都市と通りとの組み合わせの場合で示された実施形態において、ほとんどの場合においてデータを格納するためのメモリの必要条件を軽減させるために、少なくとも、都市と通りとの間でフラグメント化することが、有利であり得る。上記の例に対して、フラグメント化は、以下:
Frankfurt Lindenstrasse=>Frank|furt|Linden|strasse
Ulm Olgastrasse=>Ulm|Olga|strasse
Muenchen Wettersteinplatz=>Muen|chen|Wetter|stein|platz
Hamburg Steinstrasse=>Ham|burg|Stein|strasse
であり得る。
【0060】
リストにおいて、エントリは、通常、音声学的に書き表されたエントリとして格納されることにより、それらを、音声入力11の認識された音素ストリングと比較する。簡潔に例示するために、リストのエントリの音声表記法が示されている。上述の例から理解され得るように、先ほど解体されたリストのエントリは、現在、共通のフラグメント「strasse」と「stein」とを有する。リストが大規模になるほど、この結果は顕著になる。結果として、特有のフラグメントのリストまたは異なるフラグメントのリストは、元々のリストよりも短くなり得る。さらに、フラグメント自体も、完全なリストのエントリよりも短い。これら両方の局面が、大規模なリストにおけるエントリの選択のための音声認識を最適化および加速することに役立つ。図面から理解され得るように、リスト15におけるフラグメントは、記号によって表されたワイルドカードを伴う。リストにおいて、フラグメントaは、左側にワイルドカードを有し、一方、他のフラグメントbは、右側にワイルドカードを有する。さらに、ワイルドカードは、両側にも提供され得る。非常に短いリストに対しては、フラグメントがリストのエントリに対応するということが起こるので、ワイルドカードは提供されない。上述の例において、フラグメントは、strasseまたはolgaなどのように提供され得る。使用されるワイルドカードは、必ずしも同じ属性を有する必要はない。例えば、olga$のように、左側と右側とで異なるワイルドカード記号を使用し、2つのワイルドカードの重みの差を表し得る。
【0061】
音声認識モジュール10が、例えば、開音素ループまたは何らかの他のサブワード単位を使用して音声入力を認識するための第1の認識ステップを実行したときに、認識された音声入力が、最も良く一致するフラグメントを決定するために、フラグメントのリスト15と比較される。次に、フラグメントの一致に基づいて、最も良く一致するリストのエントリの候補リストが計算される。最も良く一致するリストのエントリのこのリストは、候補リスト20に対応する。この短い候補リストは、最も良く一致するエントリMが、さらなる選択のためにユーザに示されているリストであり得る。しかしながら、この候補リストは、2つのステップの音声認識方法と関連付けても使用され得、該2つのステップの音声認識方法においては、別の認識ステップが、短いリストにおいて実行される。この追加の認識ステップにおいて、同じ音声入力に対する、リストにおける最も適切なエントリが、候補リストにおいて列挙されたエントリの音声学的音響表示を音響入力に一致させ、そして、最も良く一致するエントリを決定することによって決定される。第2のステップは、第1のステップよりもかなり多くの計算能力を必要とする。計算時間を減少させるために、リスト20におけるリストのエントリの数は、リスト13のリストのエントリの数と比較して大幅に減少させられる。例えば、リストのエントリの大規模なリスト13は、数万または数千万のエントリのリストを含み得る。最も良く一致するエントリの第2の候補リスト20は、かなり少なく、例えば、数百または数千のエントリを有し得る。次に、第2の認識ステップが、かかる短い候補リスト20において実行され得る。次に、この第2のステップの最も良く一致する結果が、ディスプレイ30に示され得る。第2の一致ステップは、必ずしも必要であるわけではないことが理解されるべきである。1つの一致ステップだけが実行されることも可能である。
【0062】
流れ図が、図2に示され、該流れ図は、音声認識方法の主なステップを示している。方法は、ステップ41において開始する。ステップ42において、音声入力11が認識される。ここで、音素シーケンスまたは音素ストリングが、音声認識モジュールによって認識される。音声入力の音素シーケンスが生成されると、フラグメントのリスト15が、提供される必要がある(ステップ43)。さらに、フラグメントのリストは、システムに既に格納された所定のリストであり得る。リストのエントリを変更する場合に、一致ステップが実行される前に、フラグメントのリストが、生成されることも可能である。フラグメントのリストに対する認識された音素ストリングの一致が、ステップ44において実行される。どの程度適切に、認識された音素ストリングが、一致されたフラグメントに対応しているかを決定するために、リスト15の各フラグメントに対して、スコアが決定され得る(ステップ45)。異なるフラグメントに対するスコアが既知であるときには、ステップ46においてエントリのリストに対するスコアを決定することが可能である。どのフラグメントによって、完全なリストのエントリが連結されるかは、既知である。したがって、リストのエントリを構築する異なるフラグメントのスコアは、単に、リストのエントリに対するスコアを決定するために追加される必要があるだけである。スコアに依存して、最も良く一致するエントリの候補のリストが、リスト47において決定され得る。次に、候補リストは、追加の一致ステップに対して使用され得るか、最も良く一致するエントリが、さらなる選択または確認のためにユーザに示されるかである。しかしながら、この第2のステップは、従来技術から公知であり、さらに詳細には記述しない。示された実施形態において、方法は、ステップ48において終了する。
【0063】
図3において、方法がさらに詳細に示されている。図2と関連付けて述べられたように、フラグメントがステップ43において提供された後に、ステップ51において、フラグメントがワイルドカードを伴うか否かが尋ねられる。フラグメントがワイルドカードを伴う場合には、ワイルドカードを伴う側が、ステップ52において決定され得る。フラグメントが、端のフラグメントである場合には、フラグメントの場所をより良くモデリングし、そして、フラグメントが発話において現われる場所をモデリングするために全てのフラグメントの両側にワイルドカードに提供しないことが、有利であり得る。都市−通りの対を含むリストのエントリの場合に、例えば、フラグメント「strasse」は、通常、発話の最も右側の部分に一致させられ得る。それに応じて、ステップ53において、元々の音声入力における対応する側が、決定される。結果として、fragmentの組み合わせが提供されたときには、対応する認識された音声入力の左側の部分は、あまり考慮されないか、全く考慮されないかであり、一方、組み合わせが、fragmentであるときには、認識された音声入力の左側の部分を意味する第1の部分が、一致のために使用される。さらに、例えば、strassenhausenおよびolgastrasseのようなリストのエントリがある場合には、同じフラグメントに対して異なる変形例、例えば、strasseおよびstrasseを使用することが可能である。これが、より良いスコアリングをもたらし得る。認識された音声入力の一方の側だけが、考慮されたときに、一致プロセスは、かなり速くなる。発話の右側部分および左側部分だけのこの一致は、適切なプルーニングメカニズムと組み合わせた右側からの一致によって達成され得る。これは、発話における切断点に対する先見的な推測を必要としないという有利な点を有する。不利な点は、左から右への一致と右から左への一致との組み合わせが、可能ではないこと、または容易には可能ではないことである。ワイルドカードがフラグメントにおいて検出されなかった場合には、方法は、認識された音声入力をフラグメントと直接的に比較する(ステップ54)。
【0064】
本発明の一局面に従って、フラグメント化は、正しい順序におけるフラグメントの連結が、必ず元々のリストのエントリを与えるように実行される必要はない。フラグメントは、重複するか、フラグメントは、リストのエントリの一部分だけを包含するかであり得る。しかしながら、重複するフラグメントを用いて一致ステップを実行することが可能である。重複は、一致の精度を改善さえし得る。ステップ54における比較ステップに対して、コンテキストに感度の高いLevenshtein距離アルゴリズム、または何らかの他の適切な一致アルゴリズムが使用され得る。当業者には公知であるように、Levenshteinアルゴリズムは、1つのストリングを別のストリングに修正するために必要な編集動作の最も少ない数を計算する。これを計算する最も一般的な方法は、行列を使用した動的なプログラミング手法による。行列において、第1のストリングから第2のストリングに変化させるために必要である編集動作が理解され得る。重み付けられたアルゴリズムの場合において、1つの文字を他の文字に変化させる費用は、一定ではないことがあり得る。本例においては、費用はコンテキストに依存していた。しかしながら、その他任意の一致アルゴリズムが使用され得ることが理解されるべきである。認識された音声入力が、フラグメントに一致したときに、各フラグメントに対するスコアが獲得される。異なるスコアのより良い比較のために、スコアは正規化され、それにより、例えば、ゼロが中立スコアになり得る。次に、完全なリストのエントリに属する全てのフラグメントのスコアが、加算される。リストのエントリのスコアを計算するために、フラグメントの数とサイズとを明確に考慮することも可能である。一実施形態において、中立スコアは、認識結果に対して単一のワイルドカードの記号を一致させることによって計算され得る。次に、これは、正規化されたスコアが獲得されるように、全てのフラグメントのスコアから減算される必要がある。さらに、フラグメント固有の中立スコアを使用することが可能であり、該フラグメント固有のスコアは、各フラグメントに依存する。例えば、フラグメントに対する予測スコアを利用したい場合と、観察スコアに対する予測スコアの差をモデリングすることを望む場合とに、フラグメント固有の中立スコアが使用され得る。予測スコアは、多種多様な異なる音声入力に対してフラグメントを一致させることによって獲得されたスコアに対する推計学的な予測値であり得る。全ての音声入力に対して、フラグメントは、固有のスコアを有する。1つのフラグメントに対する全ての固有のスコアの平均値が、フラグメント固有のスコアであり得る。したがって、最後に重要なことに、ステップ55において各フラグメントに対するスコアを計算した後と、ステップ56においてスコアを正規化した後とにおいて、異なるリストのエントリに対するスコアが、ステップ57において計算され得る。
【0065】
図4において、実施形態は、どのように、フラグメントの効果的な構成が獲得され得るかを示している。図4に示された実施形態において、4つの異なるリストのエントリ、Lindenweg、Lindenstrasse、Lindenfurt、Lindendorfが、示されている。スコアの格納とスコアの計算のために、樹状構造が、完全なリストの効果的な格納のために使用され得る。リストのエントリは、以下のフラグメント、Lin|den|furt、Lin|den|dorf、Lin|den|strasse、Lin|den|wegを有する。したがって、LindenfurtのスコアはLinのスコア+denのスコア+furtのスコアであり得、Lindenのスコア+furtのスコアに対応する。図4に示されているように、フラグメント61「Lin」は、第1のスコアs1を有し、フラグメント「den」は、第2のスコアs2を有するなどであり得る。4つの異なるエントリに対するスコアを計算するために、linとdenとのスコアが、一度だけ加算されなければならず、それにより、4つの異なるリストのエントリに対するスコアの決定のために、加算動作が5回だけ実行されることが必要なだけである。フラグメントごとに単一のスコアsを使用する代わりに、フラグメントに対して位置ベースのスコアを使用することも可能であり得る。これは、フラグメントA+フラグメントBのスコアは、フラグメントB+フラグメントAのスコアに対応しないことを意味する。
【0066】
フラグメントベースのスコアが既知であるときには、完全なリストのエントリに対するスコアが既知であり、そして、最も良く一致するエントリのリストが、スコアに基づいたリストを区分することによって計算され得る。
【0067】
要するに、上記の記述から理解され得るように、完全なリストのエントリの代わりにフラグメントを使用した音声認識方法は、正しい選択されたリストのエントリを見つけるために必要とされる計算能力と時間とを最適化することに役立ち得る。
【符号の説明】
【0068】
10 音声認識モジュール
11 ユーザ
12 データベース
13 エントリのリスト
14 エントリ
15 第2のリスト
20 候補リスト
30 ディスプレイ

【特許請求の範囲】
【請求項1】
音声入力によってエントリのリストからエントリを選択する音声認識方法であって、該方法は、以下のステップ:
−音声入力を検出するステップと、
−該音声入力を認識するステップと、
−該リストのエントリのフラグメントを提供するステップと、
−該認識された音声入力を該エントリのリストと比較することにより、該比較の結果に基づいて最も良く一致するエントリの候補リストを生成するステップであって、該候補リストを生成するために、該認識された音声入力は、該エントリの該フラグメントと比較される、ステップと
を包含する、方法。
【請求項2】
少なくとも1つのフラグメントが、前記リストの各エントリに提供される、請求項1に記載の方法。
【請求項3】
前記フラグメントは、少なくとも1つのワイルドカードを伴い、該ワイルドカードは、前記リストのエントリのフラグメントにおいて考慮されない、該リストのエントリの一部分を表す、請求項1に記載の方法。
【請求項4】
前記リストのエントリの実質的に全ての異なるフラグメントを含むフラグメントのリストが提供され、前記候補リストを生成するために、前記認識された音声入力は、該フラグメントのリストと比較される、請求項1に記載の方法。
【請求項5】
前記認識された音声入力が、前記フラグメントと比較されたときに、スコアが、該フラグメントに対して計算され、該スコアは、どのように適切に、該認識された音声入力が、1つのフラグメントに適合するかの測定基準である、請求項1に記載の方法。
【請求項6】
前記スコアは、前記フラグメントのリストの各フラグメントに対して計算される、請求項4および請求項5に記載の方法。
【請求項7】
1つのリストのエントリに対するスコアは、該リストのエントリを構築するフラグメントのスコアを加算することによって計算される、請求項5に記載の方法。
【請求項8】
前記ワイルドカードが、前記フラグメントの一方の側、該フラグメントの他方の側、または該フラグメントの両側に加えられる請求項3に記載の方法。
【請求項9】
前記ワイルドカードは、該ワイルドカードが、どの認識された音声入力に対しても実質的に一様に一致するように選択される、請求項3に記載の方法。
【請求項10】
前記フラグメントは、異なるワイルドカードを伴い、前記認識された音声入力が該フラグメントと比較されたときに、各ワイルドカードは、異なる重みを有する、請求項3に記載の方法。
【請求項11】
前記ワイルドカードが、前記フラグメントの一方の側だけに提供されたときには、どちら側に、該ワイルドカードが提供されていないかを決定し、前記認識された音声入力の対応する側が決定され、該フラグメントに対する認識された音声入力の一致が、実質的に、該認識された音声入力の対応する側に提供された認識された音声入力の一部分に基づいて実行される、請求項3に記載の方法。
【請求項12】
前記ワイルドカードが、前記フラグメントの一方の側だけに提供されたときには、前記認識された音声入力の対応する側が決定され、プルーニングメカニズムが、該認識された音声入力の他方の側に適用される、請求項3に記載の方法。
【請求項13】
前記フラグメントのリストに対して前記認識された音声入力を一致させたときに計算された前記スコアは、正規化され、該正規化されたスコアは、各リストのエントリのスコアを計算するために加算される、請求項5に記載の方法。
【請求項14】
中立スコアが、前記認識された音声入力に対して前記少なくとも1つのワイルドカードを一致させることによって計算され、該中立スコアは、前記異なるフラグメントに対して計算された全てのスコアから減算される、請求項5に記載の方法。
【請求項15】
前記フラグメントは、樹状構造で提供される、請求項1に記載の方法。
【請求項16】
前記リストのエントリを構築する異なるフラグメントに対するスコアが、該フラグメントの樹状構造に基づいて加算される、請求項15に記載の方法。
【請求項17】
位置ベースのスコアが、前記フラグメントに対して計算され、該位置ベースのスコアにおいては、該フラグメントに対するスコアは、前記リストのエントリにおける該フラグメントの位置に依存する、請求項5に記載の方法。
【請求項18】
前記リストのエントリのフラグメントに基づいて決定された最も良く一致するエントリの前記候補リストは、認識ステップの基準として使用される、請求項1に記載の方法。
【請求項19】
前記リストのエントリは、以下の情報:個人名、住所、都市名、通りの名前、関心事、歌のタイトルのうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項20】
前記最も良く一致するエントリのリストは、計算されたスコアに依存して前記リストのエントリを区分することによって生成され、n番目のリストのエントリは、前記候補リストを構築する最も良いスコアを有する、請求項1に記載の方法。
【請求項21】
前記リストのエントリの前記フラグメントに対して前記認識された音声入力を一致させるために、コンテキストに感度の高いLevenshteinアルゴリズムが使用される、請求項1に記載の方法。
【請求項22】
前記中立スコアを計算するために、フラグメント固有の中立スコアが計算され、前記リストのエントリに対するスコアが、該フラグメント固有のスコアに基づいて計算される、請求項14に記載の方法。
【請求項23】
前記認識された音声入力は、さらに、前記候補リストを生成するために、前記完全なリストのエントリの少なくとも一部分と比較される、請求項1に記載の方法。
【請求項24】
フラグメントへの前記リストのエントリのフラグメント化は、サブワード単位のレベルで実行される、請求項1に記載の方法。
【請求項25】
前記リストのエントリは、都市名と通りの名前との組み合わせを含み、フラグメントへのフラグメント化は、少なくとも、都市名と通りの名前との間で実行される、請求項1に記載の方法。
【請求項26】
前記リストのエントリの前記フラグメントは、1つのリストのエントリに対する該フラグメントが、重複するように選択される、請求項1に記載の方法。
【請求項27】
前記リストのエントリの前記フラグメントは、該フラグメントが該リストのエントリの一部分だけを含むように選択される、請求項1に記載の方法。
【請求項28】
前記リストのエントリは、ワイルドカードと共に格納され、該ワイルドカードは、該リストのエントリから1つのエントリを選択するユーザの発話が、該リストのエントリ自体よりも多くのものを含むという事実を考慮する、請求項1に記載の方法。
【請求項29】
音声入力によってエントリのリストからエントリを選択する音声認識システムであって、
−エントリのリストとフラグメントのリストとを含むデータベースであって、各フラグメントは、1つのリストのエントリの一部分を表す、データベースと、
−音声入力を認識し、該認識された音声入力を該エントリのリストと比較することにより、該比較結果に基づいて最も良く一致するエントリの候補リストを生成する音声認識モジュールであって、該音声認識モジュールは、該認識された音声入力を該フラグメントのリストと比較することにより、該候補リストを生成する、音声認識モジュールと
を備えている、音声認識システム。
【請求項30】
前記音声認識システムは、請求項1〜請求項28のうちのいずれか1項に記載の方法に従って動作する、請求項29に記載の音声認識システム。
【請求項31】
コンピュータシステムのプロセッサによって実行されたときに、請求項1〜請求項28のうちのいずれか1項に記載の方法を行うような命令を含む、コンピュータプログラム製品。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2009−169418(P2009−169418A)
【公開日】平成21年7月30日(2009.7.30)
【国際特許分類】
【出願番号】特願2009−3489(P2009−3489)
【出願日】平成21年1月9日(2009.1.9)
【出願人】(504147933)ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー (165)
【Fターム(参考)】