音声認識中に可変数の代替ワードを表示する方法及びシステム
【課題】コンピュータディクテーションシステムにおいて誤って認識されたワードを迅速に修正する間に代替ワードを表示する方法を提供する。
【解決手段】誤って認識されたワードを編集するシステムは、修正ウインドウを再配列することにより修正ウインドウに表示されるべき代替えワードの数を話し手が特定できるようにする。又、このシステムは、修正ウインドウにワードをアルファベット順に表示する。好ましいシステムは、誤って認識されたワードが再び話されたときに、その再び話された発音が同じ誤って認識されたワードとして再び認識されるおそれを排除する。このシステムは、ワードプロセッサと共に動作したときには、ワードプロセッサへ転送される前にバッファされる音声の量を話し手が特定できるようにする。
【解決手段】誤って認識されたワードを編集するシステムは、修正ウインドウを再配列することにより修正ウインドウに表示されるべき代替えワードの数を話し手が特定できるようにする。又、このシステムは、修正ウインドウにワードをアルファベット順に表示する。好ましいシステムは、誤って認識されたワードが再び話されたときに、その再び話された発音が同じ誤って認識されたワードとして再び認識されるおそれを排除する。このシステムは、ワードプロセッサと共に動作したときには、ワードプロセッサへ転送される前にバッファされる音声の量を話し手が特定できるようにする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ音声認識に係り、より詳細には、音声認識システムにより発生されるディクテーションの編集に係る。
【背景技術】
【0002】
話し手が効率的にディクテーションできそしてディクテーションされた語を自動的に認識することのできるコンピュータ音声ディクテーションシステムがコンピュータ音声システムの開発者により長年追求された目標となっている。このようなコンピュータ音声認識(CSR)システムから得られるであろう利益は、多大なものである。例えば、文書をコンピュータシステムに打ち込むのではなく、個人が文書のワードを単に話し、CSRシステムはそのワードを認識し、そして各ワードの文字を、それらワードがあたかもタイプされたかのように記憶する。人々は一般にタイプするよりは速く話せるので、効率が改善される。又、人々は、タイプの仕方を学習する必要がもはやなくなる。又、個人の手がタイプ打ち以外の作業で占有されるためにコンピュータの使用が現在不可能となっている多数の用途にもコンピュータを使用することができる。
【0003】
典型的なCSRシステムは、認識コンポーネントと、ディクテーション編集コンポーネントとを有する。認識コンポーネントは、話し手から一連の発音を受け取り、各発音を認識し、そして各発音に対して認識されたワードをディクテーション編集コンポーネントへ送るように制御を行う。ディクテーション編集コンポーネントは、その認識されたワードを表示し、そして誤って認識されたワードをユーザが修正できるようにする。例えば、ディクテーション編集コンポーネントは、ユーザが、ワードを再び話すか又は正しいワードをタイプ打ちすることにより、誤って認識されたワードを取り換えられるようにする。
【0004】
認識コンポーネントは、一般的に、その語彙の各ワードごとに発音のモデルを含む。認識コンポーネントは、話された発音を受け取ると、その話された発音を、その語彙の各ワードのモデリングされた発音と比較し、その話された発音に最も厳密に一致するモデリングされた発音を見出すように試みる。典型的な認識コンポーネントは、各モデリングされた発音が話された発音に一致する確率を計算する。このような認識コンポーネントは、話された発音に一致する確率が最も高いワードのリスト(認識ワードリストと称する)をディクテーション編集コンポーネントへ送信する。
【0005】
ディクテーション編集コンポーネントは、一般に、最も高い確率をもつ認識されたワードリストからのワードを、その話された発音に対応する認識されたワードとして選択する。次いで、ディクテーション編集コンポーネントは、そのワードを表示する。しかしながら、表示されたワードが、話された発音の誤った認識である場合には、ディクテーション編集コンポーネントは、話し手が、その誤って認識されたワードを修正できるようにする。話し手がその誤って認識されたワードの修正を指示するときに、ディクテーション編集コンポーネントは、認識されたワードリストの中のワードを含む修正ウインドウを表示する。そのリストのワードの1つが正しいワードである場合に、話し手は、そのワード上でクリックするだけで修正を行うことができる。しかしながら、正しいワードがリストにない場合には、話し手は、正しいワードを話すか、又はタイプ打ちする。
【発明の開示】
【発明が解決しようとする課題】
【0006】
あるCSRシステムは、ワードプロセッサのためのディクテーションファシリティとして働く。このようなCSRシステムは、話された発音の受信及び認識を制御し、そして認識されたワードに対応する各キャラクタをワードプロセッサへ送信する。このような構成は、話し手が、既に話したワードを修正しようと試みるときに、ワードプロセッサが認識されたワードのリストをアクセスせず、従って、これらのワードを表示して容易に修正を行うことができない。
【課題を解決するための手段】
【0007】
本発明は、認識コンポーネント及びディクテーション編集コンポーネントを有する新規で且つ改良されたコンピュータ音声認識(CSR)システムを提供する。ディクテーション編集コンポーネントは、誤って認識されたワードを迅速に修正することができる。ディクテーション編集コンポーネントは、話し手が、修正ウインドウを再配列することにより、修正ウインドウに表示されるべき代替えワードの数を選択できるようにする。ディクテーション編集コンポーネントは、正しいワードを探し易くするためにアルファベット順に修正ウインドウにワードを表示する。本発明の別の特徴においては、CSRシステムは、誤って認識されたワード又はフレーズを再び話したときに、以前に話された発音及び新たに話された発音の両方の分析に基づき、その再び話された発音が、同じ誤って認識されたワード又はフレーズとして再び認識されるおそれを排除する。又、ディクテーション編集コンポーネントは、認識されたワードをワードプロセッサへ転送する前にディクテーション編集コンポーネントにバッファされる音声の量を話し手が特定できるようにする。又、ディクテーション編集コンポーネントは、通常はキャラクタベースである編集動作をワードベース又はフレーズベースのいずれかに変更するためのワード修正メタファ又はフレーズ修正メタファも使用する。
【発明を実施するための最良の形態】
【0008】
本発明は、コンピュータ音声認識(CSR)システムによって形成されるディクテーションを編集することのできるディクテーション編集コンポーネントを提供する。1つの実施形態では、ディクテーション編集コンポーネントは、話し手が、修正ウインドウを再配列することにより、修正ウインドウに表示されるべき代替えワードの数を選択できるようにする。更に、ディクテーション編集コンポーネントは、修正ウインドウにワードをアルファベット順に表示する。又、好ましいディクテーション編集コンポーネントは、誤って認識されたワードが再び話されるときに、その再び話される発音が、同じ誤って認識されたワードとして再度認識されるおそれを排除する。ディクテーション編集コンポーネントは、ワードプロセッサのようなアプリケーションプログラムへ認識されたワードを与えるときに、好ましくは、話し手が、認識されたワードをアプリケーションプログラムへ転送する前にディクテーション編集コンポーネントによりバッファされる音声の量を特定できるようにする。以下の説明において、本発明の種々の特徴は、個別のCSRシステム(即ち話し手が各ワード間に休止する)に関連して使用するときについて説明する。しかしながら、これらの特徴は、連続的CRSシステムに関連して使用することもできる。例えば、表示されるべき代替えフレーズの数を指示するように修正ウインドウを再配列することができる。又、話し手が置き換えられるべきフレーズを選択するときには、ユーザインターフェイスシステムが、同じフレーズが再び認識されないよう確保することができる。
【0009】
図1は、再配列可能な修正ウインドウを例示する。ディクテーション編集コンポーネントのウインドウ101は、認識されたワード102及び修正ウインドウ103を含む。この例では、話し手は、ワード「I will make the cake. 」と話している。認識コンポーネントは、ワード「make」をワード「fake」と誤って認識している。このとき、話し手は、ワード「fake」を修正しなければならないことを指示する。修正ウインドウを表示する前に、ディクテーション編集コンポーネントは、再配列可能な修正ウインドウの現在サイズを決定し、そしてその修正ウインドウに表示することのできるワードの数を計算する。次いで、ディクテーション編集コンポーネントは、最も高い確率をもつ認識されたワードのリスト(即ち、代替えワード)からその数のワードを選択し、そして標準的なウインドウ再配列技術(例えば、マウスポインタでウインドウの境界を指しそしてマウスをドラッギングする)を用いて修正ウインドウにそれらのワードを表示する。話し手が更に多くのワードをリストから見たい場合には、修正ウインドウを単に再配列するだけでよい。修正ウインドウが再配列されるときには、ディクテーション編集コンポーネントは、修正ウインドウに表示することのできるワードの数を再び決定し、そしてその数のワードを修正ウインドウに表示する。話し手がワードの修正を指示する次のときに、ディクテーション編集コンポーネントは、その最後の再配列に基づいて適合する数のワードを修正ウインドウに表示する。このように、話し手は、修正ウインドウを単に再配列するだけで、表示されるべきワードの数を効果的に選択することができる。図2は、再配列後の修正ウインドウを例示する。
【0010】
更に、ディクテーション編集コンポーネントは、修正ウインドウにワードをアルファベット順に表示するのが好ましい。アルファベット順にワードを表示することにより、話し手は、正しいワードが表示された場合にそれを素早く見つけることができる。公知のディクテーション編集コンポーネントは、そのコンポーネントにより決定された確率に基づく順序で修正ウインドウにワードを表示する。しかしながら、確率順に表示されたときには、正しいワードが第1番目又は第2番目に表示されない限り、話し手が正しいワードを見つけるのが困難である。
【0011】
図3は、ワードプロセッサとインターフェイスするCSRシステムのための調整可能なディクテーションウインドウを示す。CSRシステムは、話し手からの一連の発音を入力し、発音を認識し、そして発音に対して認識されたワードをディクテーションウインドウ201に表示する。ディクテーションウインドウは、ディクテーション編集コンポーネントによって制御されるので、話し手は、ディクテーションウインドウにおいてワードを修正することができる。従って、話し手は、ディクテーションウインドウ内のワードの修正を選択すると、ディクテーション編集コンポーネントによってサポートされた修正ファシリティのいずれかを使用することができる。例えば、話し手は、ディクテーションウインドウに現在表示されているワードに対して認識されたワードリストのワードを表示するように修正ウインドウを使用することができる。図4は、修正ウインドウを使用して、ディクテーションウインドウのテキストを修正する場合を示す。
【0012】
1つの実施形態において、ディクテーション編集コンポーネントは、話し手が、ディクテーションウインドウが受け入れることのできる音声の量を調整できるようにする。話し手は、ディクテーションウインドウ内のワードに対して修正ファシリティを使用できるだけであって、ワードプロセッサのウインドウ内のワードについては使用できないので、話し手のディクテーションの習慣に基づき音声の量を受け入れるようにディクテーションウインドウのサイズを調整することができる。例えば、話し手は、ディクテーションウインドウが、1つのセンテンス、1つのパラグラフ、又は固定数のワードのみを受け入れねばならないことを特定することができる。或いは又、話し手は、ディクテーションウインドウがウインドウに適合できる数のワードを受け入れねばならないことを指示するために、標準的なウインドウ再配列技術を用いてディクテーションウインドウを再配列することもできる。ディクテーションウインドウがいっぱいになったときには、CSRシステムは、ディクテーションウインドウ内の全てのワード又は幾つかのワードをワードプロセッサへ送信する。例えば、ディクテーションウインドウがセンテンスを受け入れねばならないことを話し手が指示する場合には、新たなセンテンスがスタートするときに、CSRシステムは、全てのワード(即ち、1つのセンテンス)をワードプロセッサへ送信する。逆に、話し手がディクテーションウインドウを再配列した場合には、CSRシステムは、一度に1行のワードのみをワードプロセッサへ送信する。
【0013】
図5は、ディクテーション編集コンポーネントのためのワード修正メタファ(比喩)を示す。ワードプロセスシステムがディクテーションモードにあるときには、ディクテーション編集コンポーネントは、種々の編集事象(例えば、キーボード事象、マウス事象、ペン事象及び音声事象)の定義をキャラクタベースではなく、ワードベースとなるように自動的に変更する。例えば、ディクテーションモードにあるときには、通常は1キャラクタ分バックスペースするバックスペースキーが、一度に1ワードだけバックスペースするように変更される。従って、ディクテーションモードにあるときに、ユーザがバックスペースキーを押すと、現在挿入ポイントの左側にある全ワードが削除される。同様に、ディクテーションモードにあるときに、右及び左矢印キーは、挿入ポイントを左又は右に1ワードだけ移動させ、そして削除キーは、挿入ポイントの右側の全ワードを削除する。又、ユーザがマウスのボタンをクリックしそしてマウスポインタがワードの上にあるときには、ディクテーション編集コンポーネントは、挿入ポイントをワード内に単にセットするのではなく、マウスポインタが上にあるところのワードを選択する。しかしながら、マウスポインタがワード間にある場合は、挿入ポイントが単にワード間にセットされる。行301−304は、ワード修正メタファの作用を例示する。各行は、指示された事象が生じる前後のテキストを示している。例えば、行302は、挿入ポイントがワード「test」の後である場合に、左矢印事象により、挿入ポイントがワード「test」の前に移動されることを示している。ワード修正メタファの使用は、ディクテーションモードにあるときに、典型的な話し手が修正時に全ワードを再度話すことを望むので、ワードの修正を容易にする。従って、話し手がワード上でクリックすると、全ワードが選択され、そして話し手は、選択されたワードを置き換えるように単に話すだけでよい。音声認識が連続的であるときには、フレーズ修正メタファが好ましい。連続的な音声認識は、ワード境界を正しく識別しないことがあるので、ワード修正メタファは、発音がワードの一部分のみを表すか又は多数のワードを表すような誤って認識されたワードを選択する。このような状況では全フレーズを単に再度話すのが好ましい。従って、種々の編集事象の定義は、ワードベースで変更されるのではなく、フレーズベースで変更されることになる。例えば、通常は手前のキャラクタを越えてバックスペースするワード「バックスペース」を話すユーザの編集事象は、一度に1フレーズだけバックスペースするように変更される。図6は、このフレーズ修正メタファを示す。
【0014】
1つの実施形態において、CSRシステムは、再び話された発音を、修正されている同じワードとして再び認識するのを防止するために、誤って認識されたワードの排除を与える。ディクテーション編集コンポーネントは、話し手が誤って認識されたワードをいつ修正するかを決定する。話し手は、誤って認識されたワードを種々の方法で修正することができる。例えば、話し手は、ワードを削除し、そしてワードが削除された位置における挿入ポイントで話すことができる。或いは又、話し手は、誤って認識されたワードをハイライト処理し、次いで、そのハイライト処理されたワードに置き換えるように話すこともできる。認識コンポーネントは、再び話された発音を受け取ると、その発音を認識し、そして新たに認識されたワードのリストをディクテーション編集コンポーネントへ送る。次いで、ディクテーション編集コンポーネントは、修正されているワード以外の最も高い確率をもつワードをその新たに認識されたワードのリストから選択しそして表示する。1つの実施形態において、ディクテーション編集コンポーネントは、誤って認識された発音に対する以前に認識されたワードのリストと、新たに認識されたワードリストとを使用して、両方の発音に一致する確率が最も高いワード(修正されているワード以外の)を選択する。最も高い確率を計算するために、ディクテーション編集コンポーネントは、両方の認識されたワードのリストにあるワードを識別し、そしてそれらの確率を乗算する。例えば、以下のテーブルは、認識されたワードのリスト及びそれに対応する確率の例を示す。
以前に認識されたワードのリスト 新たに認識されたワードのリスト
Fake .4 Fake .4
Make .3 Mace .3
Bake .1 Make .2
Mace .1 Bake .1
話し手がワード「make」を話した場合には、誤って認識されたワードの排除がないと、ディクテーション編集コンポーネントは、両方のリストにおいて最も高い確率を有することから、ワード「fake」を2回とも選択する。誤って認識されたワードの排除がある場合には、ディクテーション編集コンポーネントは、ワード「fake」が修正されるときに、ワード「mace」を選択する。というのは、ワード「mace」は、現在リストにおいてワード「fake」以外に最も高い確率を有するからである。しかしながら、両方の認識されたワードのリストからの確率が合成されたときには、ディクテーション編集コンポーネントは、ワード「make」を正しいワードとして選択する。というのは、最も高い合成確率を有するからである。ワード「make」の合成確率は、0.06(0.3x0.2)であり、ワード「mace」に場合には、0.03(0.1x0.3)であり、そしてワード「bake」の場合には、0.01(0.1x0.1)である。
【0015】
又、CSRシステムは、ワードをその語彙に自動的に追加し、そして自動的にトレーニングする。ユーザが正しいワードをタイプ打ちすることにより誤って認識されたワードを修正するときには、ディクテーション編集コンポーネントは、そのタイプ打ちされたワードが語彙にあるかどうか決定する。そのタイプ打ちされたワードが語彙にない場合には、ディクテーション編集コンポーネントは、誤って認識された話された発音を用いてそれを語彙に加えて、そのワードに対するモデルをトレーニングするように認識コンポーネントに指令する。しかしながら、そのタイプ打ちされたワードが語彙にある場合には、ディクテーション編集コンポーネントは、誤って認識された話された発音でそのタイプ打ちされたワードをトレーニングするように認識コンポーネントに自動的に指令する。
【0016】
ディクテーション編集コンポーネントは、連続的なディクテーションシステムと共に使用したときには、ワード修正に加えて、フレーズ修正を行うことができる。連続的なディクテーションシステムでは、認識コンポーネントは、ワードの境界を誤って識別することがある。例えば、話し手は、フレーズ「I want to recognize speech. 」と言う。認識コンポーネントは、話されたフレーズを「I want to wreck a nice beach. 」と認識することがある。しかしながら、単一ワード修正を使用した場合には、このような誤った認識を修正するための話し手に非常に馴染み易い方法が与えられない。話し手がワード「beach 」の代替えワードを見つけたい場合には、修正ウインドウにワード「peach 」、「teach 」及びおそらくは「speech」が表示される。話し手がワード「nice」の代替えワードを見つけたい場合には、ワード「ice 」及び「rice」が表示され、そしてワード「wreck 」については、ワード「heck」及び「rack」が表示される。このような単一ワード修正は、ワード「recognize speech」を識別しない。
【0017】
ディクテーション編集コンポーネントは、誤ったワード境界から生じた誤った認識を効率的に修正できるようにフレーズを修正することができる。話し手が修正のためのフレーズを選択すると、ディクテーション編集コンポーネントは、代替えフレーズのリストを選択して表示する。例えば、話し手が「wreck a nice beach」を選択する場合には、その代替えフレーズが「wreck a nice peach」、「rack an ice leach 」及び「recognize speech」となる。又、話し手が「wreck a nice」を選択すると、その代替えフレーズは、「rack on ice 」及び「recognize 」となる。
【0018】
更に、ユーザが修正のために誤って認識されたフレーズを選択すると、ディクテーション編集コンポーネントは、現在のフレーズがその誤って認識されたフレーズと2ワード以上異なると仮定する。誤って認識されたフレーズにおいて1ワードだけが不適切な場合には、話し手は、その誤って認識されたワードを単に選択し、誤って認識された全フレーズを選択しない。この仮定を用いると、ディクテーション編集コンポーネントは、誤って認識されたフレーズと1ワードしか相違しない代替えフレーズは表示しない。上記の例を続けると、話し手が「wreck a nice beach」を選択する場合に、代替えフレーズ「rack an ice leach 」及び「recognize speech」のみが表示される。代替えフレーズ「wreck a nice peach」は、1ワードしか相違しないので、表示されない。更に、1つの実施形態において、ディクテーション編集コンポーネントは、話し手が修正のためのフレーズを選択したときに、誤った認識が不適切に識別されたワード境界によるものであると仮定する。特に、表示された代替えワードを選択することによりフレーズを修正できる場合には、話し手は、それらの代替えワードを選択する。従って、ディクテーション編集コンポーネントは、代替えリストから個々のワードを修正することにより修正できる代替えフレーズは表示しない。例えば、ディクテーション編集コンポーネントは、ワード「rack」、「an」、「ice 」及び「leach 」が誤って認識された対応ワードの代替えワードである場合には、フレーズ「rack an ice leach 」を表示しない。
【0019】
図7は、好ましい実施形態のコンピュータシステムのブロック図である。コンピュータシステム400は、メモリ401と、中央処理ユニット402と、I/Oインターフェイスユニット403と、記憶装置404と、ディスプレイ装置405と、キーボード406と、マウス407と、マイクロホン408とを備えている。メモリは、モデルコンポーネント408と、認識コンポーネント409と、ディクテーション編集コンポーネント410とを含むCSRシステムを備えていると共に、アプリケーションプログラム411も備えている。モデルコンポーネントは、語彙のワードに対する種々のモデル発音を含んでいる。認識コンポーネントは、話された発音を受け取り、モデルコンポーネントにアクセスして、認識されたワードのリストを発生する。ディクテーション編集コンポーネントは、認識されたワードのリストを受け取り、そして認識されたワードを表示する。認識コンポーネント、ディクテーション編集コンポーネント、及びアプリケーションプログラムは、種々の方法で相互接続することができる。図8及び9は、認識コンポーネント、ディクテーション編集コンポーネント及びアプリケーションプログラムの種々の相互接続を示すブロック図である。図8において、認識コンポーネントは、ディクテーション編集コンポーネントのアプリケーションプログラムインターフェイス(API)とインターフェイスし、これは、次いで、アプリケーションプログラムのAPIとインターフェイスする。図9において、認識コンポーネントは、ディクテーション編集コンポーネント及びアプリケーションプログラムにより与えられるAPIとインターフェイスする。或いは又、アプリケーションプログラムを、認識コンポーネント及びディクテーション編集コンポーネントにより与えられるAPIとインターフェイスすることもできる。
【0020】
図10は、再配列可能な修正ウインドウをもつCSRシステムのフローチャートである。修正ウインドウを再配列することにより、話し手は、表示しなければならない認識されたワードリストからのワードの数を指示することができる。ステップ501−510において、CSRシステムは、ワードに対応する発音を受け取り、認識されたワードを表示し、そして話し手がワードを修正できるように循環する。ステップ501において、話し手がディクテーションを続ける場合には、システムは、ステップ502へ続き、さもなくば、ディクテーションは完了となる。ステップ502において、システムは、話し手からの次の発音を入力する。ステップ503において、システムは、話された発音を認識するために認識コンポーネントを呼び出す。認識コンポーネントは、認識されたワードのリストを、そのリストの各ワードが話された発音に対応する確率と共に返送する。ステップ504において、システムは、認識されたワードのリストから最も高い確率をもつワードを表示する。ステップ505−510において、システムは、話し手が表示されたワードを修正できるように循環する。ステップ505において、話し手が表示されたワードの修正を指示する場合には、システムは、ステップ506へ続き、さもなくば、システムは、ステップ501へ循環して、ディクテーションを続ける。ステップ506において、システムは、修正ウインドウの現在サイズを決定する。ステップ507において、システムは、その現在サイズに基づき修正ウインドウに適合できるワードの数を決定する。ステップ508において、システムは、認識されたワードのリストから最も高い確率をもつワードの数を選択し、そしてそれらのワードを修正ウインドウに表示する。1つの実施形態において、システムは、これらの選択されたワードを表示の前にアルファベット順に分類する。ステップ509において、システムは話し手から正しいワードを受け取る。ステップ510において、システムは、表示されたワードを正しいワードに置き換え、そしてステップ505へ循環する。
【0021】
図11は、修正ウインドウのウインドウ手順を示すフローチャートである。このウインドウ手順は、修正ウインドウに向けられる全ての事象(即ち、メッセージ)を受け取りそしてその処理を制御する。ステップ501において、ウインドウが再配列されることを指示するメッセージが受け取られた場合には、手順がステップ502へ続き、さもなくば、手順は、他のメッセージの通常の処理で続く。ステップ502において、手順は、修正ウインドウの新たなサイズを記憶する。更に、手順は、CSRシステムが修正ウインドウに適合するワードの数を再計算し、そして修正ウインドウにその数のワードを再表示しなければならないことを指示する。
【0022】
図12は、CSRシステムの調整可能なディクテーションウインドウ処理のフローチャートである。調整可能なディクテーションウインドウは、話し手がディクテーションウインドウに受け入れることのできる音声の量を特定できるようにする。従って、話し手は、ディクテーション編集コンポーネントの修正ファシリティを用いて、最後に話されたその量の音声を修正することができる。ステップ601において、システムは、ディクテーションウインドウを表示する。ステップ602−609において、システムは、音声の各単位(例えばセンテンス又はパラグラフ)を処理し、そして1つの単位が話されたときに、その単位をアプリケーションプログラムへ送信する。音声の単位は、ディクテーションウインドウが再配列されたときのワードの行であってもよい。ステップ602において、音声単位の終了が受け取られた場合に、システムは、ステップ610へ続き、さもなくば、ステップ603に続く。ステップ610において、システムは、音声単位をアプリケーションプログラムへ送り、そしてステップ603に続く。ステップ603において、話し手がディクテーションの完了を指示すると、システムは終了となり、さもなくば、システムは、ステップ604に続く。ステップ604において、システムは、話し手から話された発音を入力する。ステップ605において、システムは、認識コンポーネントを呼び出して、話された発音を認識し、そして認識されたワードのリストを返送する。ステップ606において、システムは、認識されたワードのリストをその後の修正のためにセーブする。ステップ607において、システムは、認識されたワードのリストにおいて最も高い確率をもつワードを選択しそして表示する。ステップ608において、話し手が修正モードに入ることを指示する場合には、システムはステップ609に続き、さもなくば、システムは、ステップ602へ循環して、音声単位の終りに達したかどうか決定する。ステップ609において、システムは、話し手がディクテーションウインドウ内のいずれかのワードを修正できるようにする。システムは、話し手によって要求されたときに、セーブされた認識されたワードのリストからのワードを修正ウインドウに表示する。次いで、システムは、ステップ602へ循環し、次の発音を入力する。
【0023】
図13は、ワード修正メタファを実施するアプリケーションプログラム又はディクテーション編集コンポーネントのウインドウ手順のフローチャートである。このコンポーネントは、ディクテーションモードにあるときに、編集の動作をキャラクタ指向ではなくワード指向に変更する。ステップ701−705において、この手順は、どのメッセージが受け取られたか決定する。ステップ701において、ディクテーションイネーブルメッセージが受け取られた場合には、手順はステップ701Aに続き、さもなくば、手順はステップ702に続く。ステップ701Aにおいて、手順は、モードをディクテーションモードにセットし、そして復帰する。ステップ702において、メッセージがディクテーションディスエイブルメッセージである場合には、手順はステップ702Aに続き、さもなくば、手順はステップ703に続く。ステップ702Aにおいて、手順は、データ入力がディクテーションによるのではなくキーボードによることを指示するようにモードをセットし、そして復帰する。ステップ703において、メッセージが受信キャラクタメッセージである場合には、手順はステップ703Aに続き、さもなくば、手順はステップ704に続く。ステップ703Aにおいて、手順は、受け取ったキャラクタを表示する。キャラクタは、キーボード入力を経て受け取られてもよいし、又は認識されたワードのキャラクタの1つとして受け取られてもよい。ステップ704において、メッセージがバックスペースメッセージである場合には、手順はステップ704Aに続き、さもなくば、手順はステップ705に続く。ステップ704Aにおいて、現在モードがディクテーションの場合には、手順はステップ704Cに続き、さもなくば、手順はステップ704Bに続く。ステップ704Cにおいて、手順は現在挿入ポイントから1ワードだけバックスペースさせる。1ワードのバックスペース動作は、挿入ポイントの左側のワードを削除し、そして復帰となる。ステップ704Bにおいて、手順は1キャラクタの通常のバックスペースを実行しそして復帰となる。ステップ705において、メッセージがマウスクリックメッセージである場合には、手順はステップ705Aに続き、さもなくば、手順は通常の処理を続ける。ステップ705Aにおいて、現在モードがディクテーションである場合には、手順はステップ705Cに続き、さもなくば、手順はステップ705Bに続く。ステップ705Cにおいて、クリックがワード内であれば、手順は全ワードを選択する。さもなくば、手順は挿入ポイントをワード間にセットし、そして復帰する。ステップ705Bにおいて、手順は挿入ポイントを通常にセットし、そして復帰となる。
【0024】
図14は、誤って認識されたワードを更なる認識から除去するディクテーション編集コンポーネントのフローチャートである。このコンポーネントは、話し手が誤って認識されたワードを修正するために話すときを検出し、そしてその誤って認識されたワードが再び話された発音として再び認識されるのを防止する。ステップ801において、ディクテーションが完了した場合には、このコンポーネントが終了となるが、さもなくば、ステップ803へ続く。ステップ803において、このコンポーネントは、ディクテーションコンポーネントから認識されたワードのリストを受け取る。ステップ804において、話された発音が話し手により誤って認識されたワードを修正するよう試みられる場合には、このコンポーネントはステップ805に続き、さもなくば、ステップ806に続く。ステップ805において、このコンポーネントは、認識されたワードのリストから修正されているワード以外のワードを選択しそしてステップ807に続く。ステップ806において、このコンポーネントは、認識されたワードのリストから最も確率の高いワードを選択する。ステップ807において、このコンポーネントは、選択されたワードを表示する。ステップ808において、話し手が修正モードに入ることを指示する場合に、このコンポーネントはステップ809に続くが、さもなくば、ステップ801へ循環して、別の発音を入力する。ステップ809において、このコンポーネントは、表示されたワードに対する修正を受け取る。ステップ810において、修正がキーボードにより入力された場合には、このコンポーネントは、ステップ811に続き、さもなくば、ステップ801へ循環して、次の入力発音を選択する。ステップ811において、タイプ打ちされたワードが既に語彙にある場合には、ステップ813へ続き、さもなくば、ステップ812へ続く。ステップ812において、このコンポーネントは、タイプ打ちされたワードを語彙に加える。ステップ813において、このコンポーネントは、タイプ打ちされたワードに対して認識システムをトレーニングし、そしてステップ801へ循環して次の発音を入力する。
【0025】
図15は、認識プロセスを自動的にトレーニングするディクテーション編集コンポーネントのフローチャートである。ディクテーション編集コンポーネントは、誤って認識された発音を修正されたワード又はフレーズと共に収集する。次いで、ディクテーション編集コンポーネントは、誤って認識された発音を修正されたワード又はフレーズとして認識するよう認識プロセスをトレーニングするように認識コンポーネントに指令する。このトレーニングは、各々の誤って認識された発音が修正されるとき又は情報がセーブされるときに実行することができ、そしてトレーニングは後で行うこともできる。ステップ901−903において、このコンポーネントは、誤って認識された発音及び正しいワード又はフレーズを収集する。この情報は、話し手がワード又はフレーズを修正したことをこのコンポーネントが検出したときに収集することができる。ステップ903において、このコンポーネントは、認識装置をトレーニングすべきかどうか決定する。このようなトレーニングは、それを行わないとコンピュータシステムがアイドル状態になってしまうとき、又は認識の精度が受け入れられないものとなるときに行うことができる。ステップ904においては、このコンポーネントは、収集した発音に基づいて認識装置をトレーニングする。
【0026】
好ましい実施形態について本発明を以上に説明したが、本発明は、この実施形態に限定されるものではなく、当業者であれば、本発明の精神から逸脱せずに、種々の変更がなされ得ることが明らかであろう。従って、本発明の範囲は、特許請求の範囲のみによって限定されるものとする。
【図面の簡単な説明】
【0027】
【図1】再配列可能な修正ウインドウを例示する図である。
【図2】再配列後の修正ウインドウを例示する図である。
【図3】調整可能なディクテーションウインドウを示す図である。
【図4】修正ウインドウを使用して、ディクテーションウインドウのテキストを修正する図である。
【図5】ディクテーション編集コンポーネントに対するワード/フレーズ修正メタファを示す図である。
【図6】ディクテーション編集コンポーネントに対するワード/フレーズ修正メタファを示す図である。
【図7】好ましい実施形態のコンピュータシステムを示すブロック図である。
【図8】好ましい実施形態のコンピュータシステムを示すブロック図である。
【図9】好ましい実施形態のコンピュータシステムを示すブロック図である。
【図10】再配列可能なウインドウをもつディクテーション編集コンポーネントのフローチャートである。
【図11】再配列可能なウインドウに対するウインドウ手順を示すフローチャートである。
【図12】調整可能なディクテーションウインドウをもつディクテーション編集コンポーネントのフローチャートである。
【図13】ワード修正メタファを実施するワードプロセッサ又はディクテーション編集コンポーネントのウインドウ手順を示すフローチャートである。
【図14】誤って認識されたワードが更に確認されるのを排除するCSRシステムのフローチャートである。
【図15】自動認識トレーニングのフローチャートである。
【符号の説明】
【0028】
101 ディクテーション編集コンポーネントのウインドウ
102 認識されたワード
103 修正ウインドウ
201 ディクテーションウインドウ
400 コンピュータシステム
401 メモリ
402 中央処理ユニット
403 I/Oインターフェイスユニット
404 記憶装置
405 ディスプレイ装置
406 キーボード
407 マウス
408 マイクロホン
409 認識コンポーネント
410 ディクテーション編集コンポーネント
411 アプリケーションプログラム
【技術分野】
【0001】
本発明は、コンピュータ音声認識に係り、より詳細には、音声認識システムにより発生されるディクテーションの編集に係る。
【背景技術】
【0002】
話し手が効率的にディクテーションできそしてディクテーションされた語を自動的に認識することのできるコンピュータ音声ディクテーションシステムがコンピュータ音声システムの開発者により長年追求された目標となっている。このようなコンピュータ音声認識(CSR)システムから得られるであろう利益は、多大なものである。例えば、文書をコンピュータシステムに打ち込むのではなく、個人が文書のワードを単に話し、CSRシステムはそのワードを認識し、そして各ワードの文字を、それらワードがあたかもタイプされたかのように記憶する。人々は一般にタイプするよりは速く話せるので、効率が改善される。又、人々は、タイプの仕方を学習する必要がもはやなくなる。又、個人の手がタイプ打ち以外の作業で占有されるためにコンピュータの使用が現在不可能となっている多数の用途にもコンピュータを使用することができる。
【0003】
典型的なCSRシステムは、認識コンポーネントと、ディクテーション編集コンポーネントとを有する。認識コンポーネントは、話し手から一連の発音を受け取り、各発音を認識し、そして各発音に対して認識されたワードをディクテーション編集コンポーネントへ送るように制御を行う。ディクテーション編集コンポーネントは、その認識されたワードを表示し、そして誤って認識されたワードをユーザが修正できるようにする。例えば、ディクテーション編集コンポーネントは、ユーザが、ワードを再び話すか又は正しいワードをタイプ打ちすることにより、誤って認識されたワードを取り換えられるようにする。
【0004】
認識コンポーネントは、一般的に、その語彙の各ワードごとに発音のモデルを含む。認識コンポーネントは、話された発音を受け取ると、その話された発音を、その語彙の各ワードのモデリングされた発音と比較し、その話された発音に最も厳密に一致するモデリングされた発音を見出すように試みる。典型的な認識コンポーネントは、各モデリングされた発音が話された発音に一致する確率を計算する。このような認識コンポーネントは、話された発音に一致する確率が最も高いワードのリスト(認識ワードリストと称する)をディクテーション編集コンポーネントへ送信する。
【0005】
ディクテーション編集コンポーネントは、一般に、最も高い確率をもつ認識されたワードリストからのワードを、その話された発音に対応する認識されたワードとして選択する。次いで、ディクテーション編集コンポーネントは、そのワードを表示する。しかしながら、表示されたワードが、話された発音の誤った認識である場合には、ディクテーション編集コンポーネントは、話し手が、その誤って認識されたワードを修正できるようにする。話し手がその誤って認識されたワードの修正を指示するときに、ディクテーション編集コンポーネントは、認識されたワードリストの中のワードを含む修正ウインドウを表示する。そのリストのワードの1つが正しいワードである場合に、話し手は、そのワード上でクリックするだけで修正を行うことができる。しかしながら、正しいワードがリストにない場合には、話し手は、正しいワードを話すか、又はタイプ打ちする。
【発明の開示】
【発明が解決しようとする課題】
【0006】
あるCSRシステムは、ワードプロセッサのためのディクテーションファシリティとして働く。このようなCSRシステムは、話された発音の受信及び認識を制御し、そして認識されたワードに対応する各キャラクタをワードプロセッサへ送信する。このような構成は、話し手が、既に話したワードを修正しようと試みるときに、ワードプロセッサが認識されたワードのリストをアクセスせず、従って、これらのワードを表示して容易に修正を行うことができない。
【課題を解決するための手段】
【0007】
本発明は、認識コンポーネント及びディクテーション編集コンポーネントを有する新規で且つ改良されたコンピュータ音声認識(CSR)システムを提供する。ディクテーション編集コンポーネントは、誤って認識されたワードを迅速に修正することができる。ディクテーション編集コンポーネントは、話し手が、修正ウインドウを再配列することにより、修正ウインドウに表示されるべき代替えワードの数を選択できるようにする。ディクテーション編集コンポーネントは、正しいワードを探し易くするためにアルファベット順に修正ウインドウにワードを表示する。本発明の別の特徴においては、CSRシステムは、誤って認識されたワード又はフレーズを再び話したときに、以前に話された発音及び新たに話された発音の両方の分析に基づき、その再び話された発音が、同じ誤って認識されたワード又はフレーズとして再び認識されるおそれを排除する。又、ディクテーション編集コンポーネントは、認識されたワードをワードプロセッサへ転送する前にディクテーション編集コンポーネントにバッファされる音声の量を話し手が特定できるようにする。又、ディクテーション編集コンポーネントは、通常はキャラクタベースである編集動作をワードベース又はフレーズベースのいずれかに変更するためのワード修正メタファ又はフレーズ修正メタファも使用する。
【発明を実施するための最良の形態】
【0008】
本発明は、コンピュータ音声認識(CSR)システムによって形成されるディクテーションを編集することのできるディクテーション編集コンポーネントを提供する。1つの実施形態では、ディクテーション編集コンポーネントは、話し手が、修正ウインドウを再配列することにより、修正ウインドウに表示されるべき代替えワードの数を選択できるようにする。更に、ディクテーション編集コンポーネントは、修正ウインドウにワードをアルファベット順に表示する。又、好ましいディクテーション編集コンポーネントは、誤って認識されたワードが再び話されるときに、その再び話される発音が、同じ誤って認識されたワードとして再度認識されるおそれを排除する。ディクテーション編集コンポーネントは、ワードプロセッサのようなアプリケーションプログラムへ認識されたワードを与えるときに、好ましくは、話し手が、認識されたワードをアプリケーションプログラムへ転送する前にディクテーション編集コンポーネントによりバッファされる音声の量を特定できるようにする。以下の説明において、本発明の種々の特徴は、個別のCSRシステム(即ち話し手が各ワード間に休止する)に関連して使用するときについて説明する。しかしながら、これらの特徴は、連続的CRSシステムに関連して使用することもできる。例えば、表示されるべき代替えフレーズの数を指示するように修正ウインドウを再配列することができる。又、話し手が置き換えられるべきフレーズを選択するときには、ユーザインターフェイスシステムが、同じフレーズが再び認識されないよう確保することができる。
【0009】
図1は、再配列可能な修正ウインドウを例示する。ディクテーション編集コンポーネントのウインドウ101は、認識されたワード102及び修正ウインドウ103を含む。この例では、話し手は、ワード「I will make the cake. 」と話している。認識コンポーネントは、ワード「make」をワード「fake」と誤って認識している。このとき、話し手は、ワード「fake」を修正しなければならないことを指示する。修正ウインドウを表示する前に、ディクテーション編集コンポーネントは、再配列可能な修正ウインドウの現在サイズを決定し、そしてその修正ウインドウに表示することのできるワードの数を計算する。次いで、ディクテーション編集コンポーネントは、最も高い確率をもつ認識されたワードのリスト(即ち、代替えワード)からその数のワードを選択し、そして標準的なウインドウ再配列技術(例えば、マウスポインタでウインドウの境界を指しそしてマウスをドラッギングする)を用いて修正ウインドウにそれらのワードを表示する。話し手が更に多くのワードをリストから見たい場合には、修正ウインドウを単に再配列するだけでよい。修正ウインドウが再配列されるときには、ディクテーション編集コンポーネントは、修正ウインドウに表示することのできるワードの数を再び決定し、そしてその数のワードを修正ウインドウに表示する。話し手がワードの修正を指示する次のときに、ディクテーション編集コンポーネントは、その最後の再配列に基づいて適合する数のワードを修正ウインドウに表示する。このように、話し手は、修正ウインドウを単に再配列するだけで、表示されるべきワードの数を効果的に選択することができる。図2は、再配列後の修正ウインドウを例示する。
【0010】
更に、ディクテーション編集コンポーネントは、修正ウインドウにワードをアルファベット順に表示するのが好ましい。アルファベット順にワードを表示することにより、話し手は、正しいワードが表示された場合にそれを素早く見つけることができる。公知のディクテーション編集コンポーネントは、そのコンポーネントにより決定された確率に基づく順序で修正ウインドウにワードを表示する。しかしながら、確率順に表示されたときには、正しいワードが第1番目又は第2番目に表示されない限り、話し手が正しいワードを見つけるのが困難である。
【0011】
図3は、ワードプロセッサとインターフェイスするCSRシステムのための調整可能なディクテーションウインドウを示す。CSRシステムは、話し手からの一連の発音を入力し、発音を認識し、そして発音に対して認識されたワードをディクテーションウインドウ201に表示する。ディクテーションウインドウは、ディクテーション編集コンポーネントによって制御されるので、話し手は、ディクテーションウインドウにおいてワードを修正することができる。従って、話し手は、ディクテーションウインドウ内のワードの修正を選択すると、ディクテーション編集コンポーネントによってサポートされた修正ファシリティのいずれかを使用することができる。例えば、話し手は、ディクテーションウインドウに現在表示されているワードに対して認識されたワードリストのワードを表示するように修正ウインドウを使用することができる。図4は、修正ウインドウを使用して、ディクテーションウインドウのテキストを修正する場合を示す。
【0012】
1つの実施形態において、ディクテーション編集コンポーネントは、話し手が、ディクテーションウインドウが受け入れることのできる音声の量を調整できるようにする。話し手は、ディクテーションウインドウ内のワードに対して修正ファシリティを使用できるだけであって、ワードプロセッサのウインドウ内のワードについては使用できないので、話し手のディクテーションの習慣に基づき音声の量を受け入れるようにディクテーションウインドウのサイズを調整することができる。例えば、話し手は、ディクテーションウインドウが、1つのセンテンス、1つのパラグラフ、又は固定数のワードのみを受け入れねばならないことを特定することができる。或いは又、話し手は、ディクテーションウインドウがウインドウに適合できる数のワードを受け入れねばならないことを指示するために、標準的なウインドウ再配列技術を用いてディクテーションウインドウを再配列することもできる。ディクテーションウインドウがいっぱいになったときには、CSRシステムは、ディクテーションウインドウ内の全てのワード又は幾つかのワードをワードプロセッサへ送信する。例えば、ディクテーションウインドウがセンテンスを受け入れねばならないことを話し手が指示する場合には、新たなセンテンスがスタートするときに、CSRシステムは、全てのワード(即ち、1つのセンテンス)をワードプロセッサへ送信する。逆に、話し手がディクテーションウインドウを再配列した場合には、CSRシステムは、一度に1行のワードのみをワードプロセッサへ送信する。
【0013】
図5は、ディクテーション編集コンポーネントのためのワード修正メタファ(比喩)を示す。ワードプロセスシステムがディクテーションモードにあるときには、ディクテーション編集コンポーネントは、種々の編集事象(例えば、キーボード事象、マウス事象、ペン事象及び音声事象)の定義をキャラクタベースではなく、ワードベースとなるように自動的に変更する。例えば、ディクテーションモードにあるときには、通常は1キャラクタ分バックスペースするバックスペースキーが、一度に1ワードだけバックスペースするように変更される。従って、ディクテーションモードにあるときに、ユーザがバックスペースキーを押すと、現在挿入ポイントの左側にある全ワードが削除される。同様に、ディクテーションモードにあるときに、右及び左矢印キーは、挿入ポイントを左又は右に1ワードだけ移動させ、そして削除キーは、挿入ポイントの右側の全ワードを削除する。又、ユーザがマウスのボタンをクリックしそしてマウスポインタがワードの上にあるときには、ディクテーション編集コンポーネントは、挿入ポイントをワード内に単にセットするのではなく、マウスポインタが上にあるところのワードを選択する。しかしながら、マウスポインタがワード間にある場合は、挿入ポイントが単にワード間にセットされる。行301−304は、ワード修正メタファの作用を例示する。各行は、指示された事象が生じる前後のテキストを示している。例えば、行302は、挿入ポイントがワード「test」の後である場合に、左矢印事象により、挿入ポイントがワード「test」の前に移動されることを示している。ワード修正メタファの使用は、ディクテーションモードにあるときに、典型的な話し手が修正時に全ワードを再度話すことを望むので、ワードの修正を容易にする。従って、話し手がワード上でクリックすると、全ワードが選択され、そして話し手は、選択されたワードを置き換えるように単に話すだけでよい。音声認識が連続的であるときには、フレーズ修正メタファが好ましい。連続的な音声認識は、ワード境界を正しく識別しないことがあるので、ワード修正メタファは、発音がワードの一部分のみを表すか又は多数のワードを表すような誤って認識されたワードを選択する。このような状況では全フレーズを単に再度話すのが好ましい。従って、種々の編集事象の定義は、ワードベースで変更されるのではなく、フレーズベースで変更されることになる。例えば、通常は手前のキャラクタを越えてバックスペースするワード「バックスペース」を話すユーザの編集事象は、一度に1フレーズだけバックスペースするように変更される。図6は、このフレーズ修正メタファを示す。
【0014】
1つの実施形態において、CSRシステムは、再び話された発音を、修正されている同じワードとして再び認識するのを防止するために、誤って認識されたワードの排除を与える。ディクテーション編集コンポーネントは、話し手が誤って認識されたワードをいつ修正するかを決定する。話し手は、誤って認識されたワードを種々の方法で修正することができる。例えば、話し手は、ワードを削除し、そしてワードが削除された位置における挿入ポイントで話すことができる。或いは又、話し手は、誤って認識されたワードをハイライト処理し、次いで、そのハイライト処理されたワードに置き換えるように話すこともできる。認識コンポーネントは、再び話された発音を受け取ると、その発音を認識し、そして新たに認識されたワードのリストをディクテーション編集コンポーネントへ送る。次いで、ディクテーション編集コンポーネントは、修正されているワード以外の最も高い確率をもつワードをその新たに認識されたワードのリストから選択しそして表示する。1つの実施形態において、ディクテーション編集コンポーネントは、誤って認識された発音に対する以前に認識されたワードのリストと、新たに認識されたワードリストとを使用して、両方の発音に一致する確率が最も高いワード(修正されているワード以外の)を選択する。最も高い確率を計算するために、ディクテーション編集コンポーネントは、両方の認識されたワードのリストにあるワードを識別し、そしてそれらの確率を乗算する。例えば、以下のテーブルは、認識されたワードのリスト及びそれに対応する確率の例を示す。
以前に認識されたワードのリスト 新たに認識されたワードのリスト
Fake .4 Fake .4
Make .3 Mace .3
Bake .1 Make .2
Mace .1 Bake .1
話し手がワード「make」を話した場合には、誤って認識されたワードの排除がないと、ディクテーション編集コンポーネントは、両方のリストにおいて最も高い確率を有することから、ワード「fake」を2回とも選択する。誤って認識されたワードの排除がある場合には、ディクテーション編集コンポーネントは、ワード「fake」が修正されるときに、ワード「mace」を選択する。というのは、ワード「mace」は、現在リストにおいてワード「fake」以外に最も高い確率を有するからである。しかしながら、両方の認識されたワードのリストからの確率が合成されたときには、ディクテーション編集コンポーネントは、ワード「make」を正しいワードとして選択する。というのは、最も高い合成確率を有するからである。ワード「make」の合成確率は、0.06(0.3x0.2)であり、ワード「mace」に場合には、0.03(0.1x0.3)であり、そしてワード「bake」の場合には、0.01(0.1x0.1)である。
【0015】
又、CSRシステムは、ワードをその語彙に自動的に追加し、そして自動的にトレーニングする。ユーザが正しいワードをタイプ打ちすることにより誤って認識されたワードを修正するときには、ディクテーション編集コンポーネントは、そのタイプ打ちされたワードが語彙にあるかどうか決定する。そのタイプ打ちされたワードが語彙にない場合には、ディクテーション編集コンポーネントは、誤って認識された話された発音を用いてそれを語彙に加えて、そのワードに対するモデルをトレーニングするように認識コンポーネントに指令する。しかしながら、そのタイプ打ちされたワードが語彙にある場合には、ディクテーション編集コンポーネントは、誤って認識された話された発音でそのタイプ打ちされたワードをトレーニングするように認識コンポーネントに自動的に指令する。
【0016】
ディクテーション編集コンポーネントは、連続的なディクテーションシステムと共に使用したときには、ワード修正に加えて、フレーズ修正を行うことができる。連続的なディクテーションシステムでは、認識コンポーネントは、ワードの境界を誤って識別することがある。例えば、話し手は、フレーズ「I want to recognize speech. 」と言う。認識コンポーネントは、話されたフレーズを「I want to wreck a nice beach. 」と認識することがある。しかしながら、単一ワード修正を使用した場合には、このような誤った認識を修正するための話し手に非常に馴染み易い方法が与えられない。話し手がワード「beach 」の代替えワードを見つけたい場合には、修正ウインドウにワード「peach 」、「teach 」及びおそらくは「speech」が表示される。話し手がワード「nice」の代替えワードを見つけたい場合には、ワード「ice 」及び「rice」が表示され、そしてワード「wreck 」については、ワード「heck」及び「rack」が表示される。このような単一ワード修正は、ワード「recognize speech」を識別しない。
【0017】
ディクテーション編集コンポーネントは、誤ったワード境界から生じた誤った認識を効率的に修正できるようにフレーズを修正することができる。話し手が修正のためのフレーズを選択すると、ディクテーション編集コンポーネントは、代替えフレーズのリストを選択して表示する。例えば、話し手が「wreck a nice beach」を選択する場合には、その代替えフレーズが「wreck a nice peach」、「rack an ice leach 」及び「recognize speech」となる。又、話し手が「wreck a nice」を選択すると、その代替えフレーズは、「rack on ice 」及び「recognize 」となる。
【0018】
更に、ユーザが修正のために誤って認識されたフレーズを選択すると、ディクテーション編集コンポーネントは、現在のフレーズがその誤って認識されたフレーズと2ワード以上異なると仮定する。誤って認識されたフレーズにおいて1ワードだけが不適切な場合には、話し手は、その誤って認識されたワードを単に選択し、誤って認識された全フレーズを選択しない。この仮定を用いると、ディクテーション編集コンポーネントは、誤って認識されたフレーズと1ワードしか相違しない代替えフレーズは表示しない。上記の例を続けると、話し手が「wreck a nice beach」を選択する場合に、代替えフレーズ「rack an ice leach 」及び「recognize speech」のみが表示される。代替えフレーズ「wreck a nice peach」は、1ワードしか相違しないので、表示されない。更に、1つの実施形態において、ディクテーション編集コンポーネントは、話し手が修正のためのフレーズを選択したときに、誤った認識が不適切に識別されたワード境界によるものであると仮定する。特に、表示された代替えワードを選択することによりフレーズを修正できる場合には、話し手は、それらの代替えワードを選択する。従って、ディクテーション編集コンポーネントは、代替えリストから個々のワードを修正することにより修正できる代替えフレーズは表示しない。例えば、ディクテーション編集コンポーネントは、ワード「rack」、「an」、「ice 」及び「leach 」が誤って認識された対応ワードの代替えワードである場合には、フレーズ「rack an ice leach 」を表示しない。
【0019】
図7は、好ましい実施形態のコンピュータシステムのブロック図である。コンピュータシステム400は、メモリ401と、中央処理ユニット402と、I/Oインターフェイスユニット403と、記憶装置404と、ディスプレイ装置405と、キーボード406と、マウス407と、マイクロホン408とを備えている。メモリは、モデルコンポーネント408と、認識コンポーネント409と、ディクテーション編集コンポーネント410とを含むCSRシステムを備えていると共に、アプリケーションプログラム411も備えている。モデルコンポーネントは、語彙のワードに対する種々のモデル発音を含んでいる。認識コンポーネントは、話された発音を受け取り、モデルコンポーネントにアクセスして、認識されたワードのリストを発生する。ディクテーション編集コンポーネントは、認識されたワードのリストを受け取り、そして認識されたワードを表示する。認識コンポーネント、ディクテーション編集コンポーネント、及びアプリケーションプログラムは、種々の方法で相互接続することができる。図8及び9は、認識コンポーネント、ディクテーション編集コンポーネント及びアプリケーションプログラムの種々の相互接続を示すブロック図である。図8において、認識コンポーネントは、ディクテーション編集コンポーネントのアプリケーションプログラムインターフェイス(API)とインターフェイスし、これは、次いで、アプリケーションプログラムのAPIとインターフェイスする。図9において、認識コンポーネントは、ディクテーション編集コンポーネント及びアプリケーションプログラムにより与えられるAPIとインターフェイスする。或いは又、アプリケーションプログラムを、認識コンポーネント及びディクテーション編集コンポーネントにより与えられるAPIとインターフェイスすることもできる。
【0020】
図10は、再配列可能な修正ウインドウをもつCSRシステムのフローチャートである。修正ウインドウを再配列することにより、話し手は、表示しなければならない認識されたワードリストからのワードの数を指示することができる。ステップ501−510において、CSRシステムは、ワードに対応する発音を受け取り、認識されたワードを表示し、そして話し手がワードを修正できるように循環する。ステップ501において、話し手がディクテーションを続ける場合には、システムは、ステップ502へ続き、さもなくば、ディクテーションは完了となる。ステップ502において、システムは、話し手からの次の発音を入力する。ステップ503において、システムは、話された発音を認識するために認識コンポーネントを呼び出す。認識コンポーネントは、認識されたワードのリストを、そのリストの各ワードが話された発音に対応する確率と共に返送する。ステップ504において、システムは、認識されたワードのリストから最も高い確率をもつワードを表示する。ステップ505−510において、システムは、話し手が表示されたワードを修正できるように循環する。ステップ505において、話し手が表示されたワードの修正を指示する場合には、システムは、ステップ506へ続き、さもなくば、システムは、ステップ501へ循環して、ディクテーションを続ける。ステップ506において、システムは、修正ウインドウの現在サイズを決定する。ステップ507において、システムは、その現在サイズに基づき修正ウインドウに適合できるワードの数を決定する。ステップ508において、システムは、認識されたワードのリストから最も高い確率をもつワードの数を選択し、そしてそれらのワードを修正ウインドウに表示する。1つの実施形態において、システムは、これらの選択されたワードを表示の前にアルファベット順に分類する。ステップ509において、システムは話し手から正しいワードを受け取る。ステップ510において、システムは、表示されたワードを正しいワードに置き換え、そしてステップ505へ循環する。
【0021】
図11は、修正ウインドウのウインドウ手順を示すフローチャートである。このウインドウ手順は、修正ウインドウに向けられる全ての事象(即ち、メッセージ)を受け取りそしてその処理を制御する。ステップ501において、ウインドウが再配列されることを指示するメッセージが受け取られた場合には、手順がステップ502へ続き、さもなくば、手順は、他のメッセージの通常の処理で続く。ステップ502において、手順は、修正ウインドウの新たなサイズを記憶する。更に、手順は、CSRシステムが修正ウインドウに適合するワードの数を再計算し、そして修正ウインドウにその数のワードを再表示しなければならないことを指示する。
【0022】
図12は、CSRシステムの調整可能なディクテーションウインドウ処理のフローチャートである。調整可能なディクテーションウインドウは、話し手がディクテーションウインドウに受け入れることのできる音声の量を特定できるようにする。従って、話し手は、ディクテーション編集コンポーネントの修正ファシリティを用いて、最後に話されたその量の音声を修正することができる。ステップ601において、システムは、ディクテーションウインドウを表示する。ステップ602−609において、システムは、音声の各単位(例えばセンテンス又はパラグラフ)を処理し、そして1つの単位が話されたときに、その単位をアプリケーションプログラムへ送信する。音声の単位は、ディクテーションウインドウが再配列されたときのワードの行であってもよい。ステップ602において、音声単位の終了が受け取られた場合に、システムは、ステップ610へ続き、さもなくば、ステップ603に続く。ステップ610において、システムは、音声単位をアプリケーションプログラムへ送り、そしてステップ603に続く。ステップ603において、話し手がディクテーションの完了を指示すると、システムは終了となり、さもなくば、システムは、ステップ604に続く。ステップ604において、システムは、話し手から話された発音を入力する。ステップ605において、システムは、認識コンポーネントを呼び出して、話された発音を認識し、そして認識されたワードのリストを返送する。ステップ606において、システムは、認識されたワードのリストをその後の修正のためにセーブする。ステップ607において、システムは、認識されたワードのリストにおいて最も高い確率をもつワードを選択しそして表示する。ステップ608において、話し手が修正モードに入ることを指示する場合には、システムはステップ609に続き、さもなくば、システムは、ステップ602へ循環して、音声単位の終りに達したかどうか決定する。ステップ609において、システムは、話し手がディクテーションウインドウ内のいずれかのワードを修正できるようにする。システムは、話し手によって要求されたときに、セーブされた認識されたワードのリストからのワードを修正ウインドウに表示する。次いで、システムは、ステップ602へ循環し、次の発音を入力する。
【0023】
図13は、ワード修正メタファを実施するアプリケーションプログラム又はディクテーション編集コンポーネントのウインドウ手順のフローチャートである。このコンポーネントは、ディクテーションモードにあるときに、編集の動作をキャラクタ指向ではなくワード指向に変更する。ステップ701−705において、この手順は、どのメッセージが受け取られたか決定する。ステップ701において、ディクテーションイネーブルメッセージが受け取られた場合には、手順はステップ701Aに続き、さもなくば、手順はステップ702に続く。ステップ701Aにおいて、手順は、モードをディクテーションモードにセットし、そして復帰する。ステップ702において、メッセージがディクテーションディスエイブルメッセージである場合には、手順はステップ702Aに続き、さもなくば、手順はステップ703に続く。ステップ702Aにおいて、手順は、データ入力がディクテーションによるのではなくキーボードによることを指示するようにモードをセットし、そして復帰する。ステップ703において、メッセージが受信キャラクタメッセージである場合には、手順はステップ703Aに続き、さもなくば、手順はステップ704に続く。ステップ703Aにおいて、手順は、受け取ったキャラクタを表示する。キャラクタは、キーボード入力を経て受け取られてもよいし、又は認識されたワードのキャラクタの1つとして受け取られてもよい。ステップ704において、メッセージがバックスペースメッセージである場合には、手順はステップ704Aに続き、さもなくば、手順はステップ705に続く。ステップ704Aにおいて、現在モードがディクテーションの場合には、手順はステップ704Cに続き、さもなくば、手順はステップ704Bに続く。ステップ704Cにおいて、手順は現在挿入ポイントから1ワードだけバックスペースさせる。1ワードのバックスペース動作は、挿入ポイントの左側のワードを削除し、そして復帰となる。ステップ704Bにおいて、手順は1キャラクタの通常のバックスペースを実行しそして復帰となる。ステップ705において、メッセージがマウスクリックメッセージである場合には、手順はステップ705Aに続き、さもなくば、手順は通常の処理を続ける。ステップ705Aにおいて、現在モードがディクテーションである場合には、手順はステップ705Cに続き、さもなくば、手順はステップ705Bに続く。ステップ705Cにおいて、クリックがワード内であれば、手順は全ワードを選択する。さもなくば、手順は挿入ポイントをワード間にセットし、そして復帰する。ステップ705Bにおいて、手順は挿入ポイントを通常にセットし、そして復帰となる。
【0024】
図14は、誤って認識されたワードを更なる認識から除去するディクテーション編集コンポーネントのフローチャートである。このコンポーネントは、話し手が誤って認識されたワードを修正するために話すときを検出し、そしてその誤って認識されたワードが再び話された発音として再び認識されるのを防止する。ステップ801において、ディクテーションが完了した場合には、このコンポーネントが終了となるが、さもなくば、ステップ803へ続く。ステップ803において、このコンポーネントは、ディクテーションコンポーネントから認識されたワードのリストを受け取る。ステップ804において、話された発音が話し手により誤って認識されたワードを修正するよう試みられる場合には、このコンポーネントはステップ805に続き、さもなくば、ステップ806に続く。ステップ805において、このコンポーネントは、認識されたワードのリストから修正されているワード以外のワードを選択しそしてステップ807に続く。ステップ806において、このコンポーネントは、認識されたワードのリストから最も確率の高いワードを選択する。ステップ807において、このコンポーネントは、選択されたワードを表示する。ステップ808において、話し手が修正モードに入ることを指示する場合に、このコンポーネントはステップ809に続くが、さもなくば、ステップ801へ循環して、別の発音を入力する。ステップ809において、このコンポーネントは、表示されたワードに対する修正を受け取る。ステップ810において、修正がキーボードにより入力された場合には、このコンポーネントは、ステップ811に続き、さもなくば、ステップ801へ循環して、次の入力発音を選択する。ステップ811において、タイプ打ちされたワードが既に語彙にある場合には、ステップ813へ続き、さもなくば、ステップ812へ続く。ステップ812において、このコンポーネントは、タイプ打ちされたワードを語彙に加える。ステップ813において、このコンポーネントは、タイプ打ちされたワードに対して認識システムをトレーニングし、そしてステップ801へ循環して次の発音を入力する。
【0025】
図15は、認識プロセスを自動的にトレーニングするディクテーション編集コンポーネントのフローチャートである。ディクテーション編集コンポーネントは、誤って認識された発音を修正されたワード又はフレーズと共に収集する。次いで、ディクテーション編集コンポーネントは、誤って認識された発音を修正されたワード又はフレーズとして認識するよう認識プロセスをトレーニングするように認識コンポーネントに指令する。このトレーニングは、各々の誤って認識された発音が修正されるとき又は情報がセーブされるときに実行することができ、そしてトレーニングは後で行うこともできる。ステップ901−903において、このコンポーネントは、誤って認識された発音及び正しいワード又はフレーズを収集する。この情報は、話し手がワード又はフレーズを修正したことをこのコンポーネントが検出したときに収集することができる。ステップ903において、このコンポーネントは、認識装置をトレーニングすべきかどうか決定する。このようなトレーニングは、それを行わないとコンピュータシステムがアイドル状態になってしまうとき、又は認識の精度が受け入れられないものとなるときに行うことができる。ステップ904においては、このコンポーネントは、収集した発音に基づいて認識装置をトレーニングする。
【0026】
好ましい実施形態について本発明を以上に説明したが、本発明は、この実施形態に限定されるものではなく、当業者であれば、本発明の精神から逸脱せずに、種々の変更がなされ得ることが明らかであろう。従って、本発明の範囲は、特許請求の範囲のみによって限定されるものとする。
【図面の簡単な説明】
【0027】
【図1】再配列可能な修正ウインドウを例示する図である。
【図2】再配列後の修正ウインドウを例示する図である。
【図3】調整可能なディクテーションウインドウを示す図である。
【図4】修正ウインドウを使用して、ディクテーションウインドウのテキストを修正する図である。
【図5】ディクテーション編集コンポーネントに対するワード/フレーズ修正メタファを示す図である。
【図6】ディクテーション編集コンポーネントに対するワード/フレーズ修正メタファを示す図である。
【図7】好ましい実施形態のコンピュータシステムを示すブロック図である。
【図8】好ましい実施形態のコンピュータシステムを示すブロック図である。
【図9】好ましい実施形態のコンピュータシステムを示すブロック図である。
【図10】再配列可能なウインドウをもつディクテーション編集コンポーネントのフローチャートである。
【図11】再配列可能なウインドウに対するウインドウ手順を示すフローチャートである。
【図12】調整可能なディクテーションウインドウをもつディクテーション編集コンポーネントのフローチャートである。
【図13】ワード修正メタファを実施するワードプロセッサ又はディクテーション編集コンポーネントのウインドウ手順を示すフローチャートである。
【図14】誤って認識されたワードが更に確認されるのを排除するCSRシステムのフローチャートである。
【図15】自動認識トレーニングのフローチャートである。
【符号の説明】
【0028】
101 ディクテーション編集コンポーネントのウインドウ
102 認識されたワード
103 修正ウインドウ
201 ディクテーションウインドウ
400 コンピュータシステム
401 メモリ
402 中央処理ユニット
403 I/Oインターフェイスユニット
404 記憶装置
405 ディスプレイ装置
406 キーボード
407 マウス
408 マイクロホン
409 認識コンポーネント
410 ディクテーション編集コンポーネント
411 アプリケーションプログラム
【特許請求の範囲】
【請求項1】
修正ウインドウに可変数のワードを表示するためのコンピュータディクテーションシステムにおける方法であって、
修正ウインドウを表示し、
修正ウインドウの大きさを変更するための話し手からの要求に応答して修正ウインドウの大きさを変更し、
その大きさの変更に基づき修正ウインドウに表示することのできるワードの数を計算し、そしてその計算された数のワードを修正ウインドウに表示する、という段階を備えたことを特徴とする方法。
【請求項2】
修正されているワードに対する代替えワードのリストから表示されるべきワードを選択する請求項1に記載の方法。
【請求項3】
ワードはアルファベット順に表示されている請求項1に記載の方法。
【請求項4】
上記コンピュータディクテーションシステムは、連続的なフレーズの音声入力からワードを認識可能な音声認識システムである請求項1に記載の方法。
【請求項5】
上記コンピュータディクテーションシステムは、個別のワードの音声入力からワードを認識可能なディクテーションシステムである請求項1に記載の方法。
【請求項6】
コンピュータディクテーションシステムが修正ウインドウに可変数のワードを表示するようにさせる命令を含むコンピュータ読み取り可能な媒体において、
修正ウインドウを表示し、
ポインティングデバイスを用いて修正ウインドウの境界を指しながらポインティングデバイスをドラッギングして修正ウインドウの大きさを変更し、
その大きさの変更に基づき修正ウインドウに表示できるワードの数を計算し、そしてその計算された数のワードを修正ウインドウに表示することを特徴とするコンピュータ読み取り可能な媒体。
【請求項7】
編集コマンドはキーボードの削除キーであり、ディクテーションモードにあるときは、編集の動作は、表示されたワードを削除することであり、そして非ディクテーションモードにあるときは、編集の動作は、表示されたキャラクタを削除することである請求項6に記載のコンピュータ読み取り可能な媒体。
【請求項8】
編集コマンドはキーボードの矢印キーであり、ディクテーションモードにあるときは、編集の動作は、1つの表示されたワードを越えて挿入ポイントを移動することであり、そして非ディクテーションモードにあるときは、編集の動作は、1つの表示されたキャラクタを越えて挿入ポイントを移動することである請求項6に記載のコンピュータ読み取り可能な媒体。
【請求項9】
編集コマンドはマウスクリックであり、ディクテーションモードにあるときは、編集の動作は、表示されたワードを選択することであり、そして非ディクテーションモードにあるときは、編集の動作は、挿入ポイントをセットすることである請求項6に記載のコンピュータ読み取り可能な媒体。
【請求項10】
修正されているワードに対する代替えワードのリストから表示されるべきワードを選択することを含む請求項6に記載のコンピュータ読み取り可能な媒体。
【請求項11】
上記ワードはアルファベット順に表示される請求項6に記載のコンピュータ読み取り可能な媒体。
【請求項1】
修正ウインドウに可変数のワードを表示するためのコンピュータディクテーションシステムにおける方法であって、
修正ウインドウを表示し、
修正ウインドウの大きさを変更するための話し手からの要求に応答して修正ウインドウの大きさを変更し、
その大きさの変更に基づき修正ウインドウに表示することのできるワードの数を計算し、そしてその計算された数のワードを修正ウインドウに表示する、という段階を備えたことを特徴とする方法。
【請求項2】
修正されているワードに対する代替えワードのリストから表示されるべきワードを選択する請求項1に記載の方法。
【請求項3】
ワードはアルファベット順に表示されている請求項1に記載の方法。
【請求項4】
上記コンピュータディクテーションシステムは、連続的なフレーズの音声入力からワードを認識可能な音声認識システムである請求項1に記載の方法。
【請求項5】
上記コンピュータディクテーションシステムは、個別のワードの音声入力からワードを認識可能なディクテーションシステムである請求項1に記載の方法。
【請求項6】
コンピュータディクテーションシステムが修正ウインドウに可変数のワードを表示するようにさせる命令を含むコンピュータ読み取り可能な媒体において、
修正ウインドウを表示し、
ポインティングデバイスを用いて修正ウインドウの境界を指しながらポインティングデバイスをドラッギングして修正ウインドウの大きさを変更し、
その大きさの変更に基づき修正ウインドウに表示できるワードの数を計算し、そしてその計算された数のワードを修正ウインドウに表示することを特徴とするコンピュータ読み取り可能な媒体。
【請求項7】
編集コマンドはキーボードの削除キーであり、ディクテーションモードにあるときは、編集の動作は、表示されたワードを削除することであり、そして非ディクテーションモードにあるときは、編集の動作は、表示されたキャラクタを削除することである請求項6に記載のコンピュータ読み取り可能な媒体。
【請求項8】
編集コマンドはキーボードの矢印キーであり、ディクテーションモードにあるときは、編集の動作は、1つの表示されたワードを越えて挿入ポイントを移動することであり、そして非ディクテーションモードにあるときは、編集の動作は、1つの表示されたキャラクタを越えて挿入ポイントを移動することである請求項6に記載のコンピュータ読み取り可能な媒体。
【請求項9】
編集コマンドはマウスクリックであり、ディクテーションモードにあるときは、編集の動作は、表示されたワードを選択することであり、そして非ディクテーションモードにあるときは、編集の動作は、挿入ポイントをセットすることである請求項6に記載のコンピュータ読み取り可能な媒体。
【請求項10】
修正されているワードに対する代替えワードのリストから表示されるべきワードを選択することを含む請求項6に記載のコンピュータ読み取り可能な媒体。
【請求項11】
上記ワードはアルファベット順に表示される請求項6に記載のコンピュータ読み取り可能な媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2006−351028(P2006−351028A)
【公開日】平成18年12月28日(2006.12.28)
【国際特許分類】
【出願番号】特願2006−188990(P2006−188990)
【出願日】平成18年7月10日(2006.7.10)
【分割の表示】特願平9−298945の分割
【原出願日】平成9年10月30日(1997.10.30)
【出願人】(500046438)マイクロソフト コーポレーション (3,165)
【Fターム(参考)】
【公開日】平成18年12月28日(2006.12.28)
【国際特許分類】
【出願日】平成18年7月10日(2006.7.10)
【分割の表示】特願平9−298945の分割
【原出願日】平成9年10月30日(1997.10.30)
【出願人】(500046438)マイクロソフト コーポレーション (3,165)
【Fターム(参考)】
[ Back to top ]