説明

ハンドヘルド携帯装置のための音声入力メソッド・エディタのアーキテクチャ

【課題】 携帯情報端末などのハンドヘルド携帯装置に用いる音声入力メソッド・エディタのためのアーキテクチャ及び方法を提供する。
【解決手段】 音声入力メソッド・エディタは、少なくともマイクロフォン状態/トグル・ボタン(104)を有する音声ツールバー(102)を含むことができる。音声入力メソッド・エディタはまた、口述テキストがターゲット・アプリケーションに転送されるまで一時的口述ターゲットとして用いられる選択可能な口述ウィンドウ領域(108)と、口述された単語を訂正するための代替候補リスト(120)、アルファベット(114)、スペースバー(116)、スペル・モード・リマインダ(118)、又は仮想キーボード(122)のうちの少なくとも1つを有する選択可能な訂正ウィンドウ領域(112)とを含むことができる。音声入力メソッド・エディタは、選択可能な訂正ウィンドウ領域を使用し、かつ、口述テキストをターゲット・アプリケーションに転送している間、作動状態のままとすることができる。音声入力メソッド・エディタはさらに、音声入力メソッド・エディタを使用している間、口述ウィンドウ領域又はターゲット・アプリケーションの少なくとも1つにおいて非音声編集を可能にするのに用いられる代替入力メソッド・エディタ・ウィンドウ(112b)を含むことができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識の分野に関し、より具体的には、音声認識入力メソッド、並びに、ハンドヘルド携帯装置上の他の入力メソッド及び編集機能との対話に関する。
【背景技術】
【0002】
ここ数年におけるハンドヘルド装置の急増は、これらの小型で携帯用の装置との対話に関する新たな非視覚的方法の創出を後押しする要因となっている。音声認識技術は、これらのタイプの装置にとって理想的なものである。小さな形状、及びデータ中心の使用は、あらゆる企業にとって、ユーザのポータブル・アプリケーションのデータ入力、データ・アクセス、及び全体制御を容易にする大きな機会を創出する。
【0003】
今日販売されるほとんどのハンドヘルド携帯情報端末(PDA)には、幾つかの異なるデータ入力方法が含まれる。しかしながら、それらはすべて、仮想小型キーボードへのタッチ、手書き、又は、(Graffitiなどの)ブロック認識のためのスタイラスの使用に頼るものである。PDAで利用可能なほとんどの手書き認識技術は、精度が低く、ユーザの特殊な手書きスタイルに適応させることができない。小型キーボード方法は、より正確であるが、長く複雑な覚え書き及び思考を記録するために用いるには扱いにくい。
【発明の開示】
【発明が解決しようとする課題】
【0004】
現在の音声認識技術は、こうしたハンドヘルド装置に適したものであると思われるが、既存のシステムは、主としてテキストをアプリケーションに転送するために設計されており、ターゲット・フィールド又はターゲット・アプリケーションからの状態情報を、入力マネージャ及び入力メソッド・エディタのためのインターフェースを介して転送することを可能にするものではない。さらに、音声入力メソッド・エディタ及び他の入力メソッド・エディタは、現在のところ、こうしたエディタ内でテキストを柔軟に管理するようには設計されていない。したがって、上述の欠点を克服する、携帯情報端末などのハンドヘルド携帯装置に用いる音声入力メソッド・エディタのためのアーキテクチャ及び方法が必要とされる。
【課題を解決するための手段】
【0005】
本発明に係る実施形態は、ユーザが他の入力メソッド・エディタ(IME)を用いてデータを入力できるいかなる場所でもテキスト・データを入力することを可能にする音声認識技術を使用する。こうした実施形態は、音声IMEにおける代替入力メソッドとして他の(既に利用可能な)IMEの使用を可能にする高レベル設計、ユーザ・モデル、及び対話論理に焦点を当てる。
【0006】
本発明の第1の実施形態においては、ハンドヘルド携帯装置のための音声入力メソッド・エディタのアーキテクチャは、口述領域ウィンドウを含むグラフィカル・ユーザ・インターフェースと、口述領域ウィンドウにおいて口述テキストを追加し、編集するための音声入力メソッド・エディタと、口述テキストを選択的に受け取るユーザのためのターゲット・アプリケーションと、音声入力メソッド・エディタが作動状態のままで口述テキストを編集することが可能な少なくとも1つの代替入力メソッド・エディタと、を含むことができる。音声入力メソッド・エディタは、作動状態に保たれたままで、編集済み口述テキストを、音声入力メソッド・エディタ又は代替入力メソッド・エディタの少なくとも1つから、ターゲット・アプリケーションに転送することができる。音声入力メソッド・エディタを用いるテキストの入力と、代替入力メソッド・エディタを用いるテキストの入力とは、同時に実行することができる。
【0007】
本発明の第2の実施形態においては、音声入力メソッド・エディタは、マイクロフォン状態/トグル・ボタン、拡張機能アクセス・ボタン、及びボリューム・レベル情報インジケータのうちの少なくとも1つを有する音声ツールバーを含むことができる。音声入力メソッド・エディタはまた、口述テキストがターゲット・アプリケーションに転送されるまで一時的口述ターゲットとして用いられる選択可能な口述ウィンドウ領域と、口述された単語を訂正するための代替候補リスト、アルファベット、スペースバー、スペル・モード・リマインダ、及び仮想キーボードを含む選択可能な機能のうちの少なくとも1つを備える選択可能な訂正ウィンドウ領域とを含むことができる。音声入力メソッド・エディタは、選択可能な訂正ウィンドウ領域を使用し、かつ、口述テキストをターゲット・アプリケーションに転送している間、作動状態のままとすることができる。音声入力メソッド・エディタはさらに、音声入力メソッド・エディタを使用している間、選択可能な口述ウィンドウ又はターゲット・アプリケーションの少なくとも1つにおいて非音声編集を可能にするのに用いられる代替入力メソッド・エディタ・ウィンドウを含むことができる。
【0008】
本発明の第3の実施形態においては、ハンドヘルド携帯装置のための音声入力編集の方法は、認識済みテキストを受け取るステップと、口述ウィンドウが可視状態の場合には認識済みテキストを口述ウィンドウに入力するステップと、口述ウィンドウが非表示状態の場合には認識済みテキストをターゲット・アプリケーションに直接入力するステップとを含むことができる。この第3の実施形態はさらに、音声入力メソッド・エディタと、音声入力メソッド・エディタを非作動状態にしない少なくとも1つの代替入力メソッド・エディタとを用いて、口述ウィンドウの認識済みテキストを編集するステップを含むことができる。
【0009】
本発明のさらに別の態様においては、機械可読ストレージは、機械によって実行可能な複数のコード・セクションを有し、認識済みテキストを受け取るステップと、口述ウィンドウが可視状態の場合には認識済みテキストを口述ウィンドウに入力するステップと、口述ウィンドウが非表示状態の場合には認識済みテキストをターゲット・アプリケーションに直接入力するステップとを機械に行わせるためのコンピュータ・プログラムを含むことができる。コンピュータ・プログラムはまた、代替入力メソッド・エディタによる編集が音声入力メソッド・エディタを非作動状態にしないように、音声入力メソッド・エディタ及び少なくとも1つの代替入力メソッド・エディタを用いて口述ウィンドウにおける認識済みテキストの編集を可能にすることができる。
【発明を実施するための最良の形態】
【0010】
現時点で好ましい実施形態が図面に示されているが、本発明は、示されるものと全く同一の構成及び手段に限定されるものではないことが分かるであろう。
【0011】
本発明に係る実施形態は、携帯情報端末などのハンドヘルド携帯装置に用いられる幾つものオペレーティング・システムのための代替的な音声入力メソッド(IM)を実装することができる。特定の一実施形態においては、携帯装置のオペレーティング・システムは、Microsoft社のPocketPC(WinCE3.0以上)とすることができる。ここで説明される実施形態は、PDAなどのハンドヘルド装置に音声認識を統合するための実装ソリューションを提供する。ハンドヘルド装置に音声認識を統合するためのソリューションは、多くの異なるレベルで解決することができる。まず最初に、そのソリューションは、音声認識(口述)を用いるデータ入力を作動状態にするためにユーザが選択することが可能なIMEモジュールとして具体化することができる。ユーザが音声IMEを選択する方法は、多数のプラットホーム間で異なっていてもよいが、通常は、装置上で利用可能なIMEのリストから項目(例えば、「音声口述」)を選択することを必要とする。図1を参照すると、本発明に係るシステム又はアーキテクチャのコンポーネント間の典型的な親子関係を示すウィンドウ階層図10が示される。グラフィカル・ユーザ・インターフェース又はデスクトップ12は、(ワード・プロセシング・プログラム又は音声認識プログラムなどの)ターゲット・アプリケーション14及び音声入力メソッド・エディタ・コンテナ16に対する親として機能する、すなわち、それらの形態の子を持つことができる。音声入力メソッド・エディタ・コンテナ16は、編集制御24、ツールバー制御26、及び他の子ウィンドウに対する親として機能する、すなわち、それらの形態の子を持つことができる。より重要なこととして、音声入力メソッド・エディタ・コンテナ16は、複数の入力メソッド・エディタ22についての集合IMEコンテナ20を含むことができる音声入力エディタ18に対する親として機能する、すなわち、その形態の子を持つことができる。
【0012】
IMEモジュールは、入力メソッド(IM)エージェント又はマネージャによって管理され、実際にそれと対話するが、IMマネージャは、IMEとIMマネージャの間の通信を行うインターフェースを提供する。図2を参照すると、入力マネージャ34と入力メソッド・エディタとの間の参照及び集合関係を示すCOMオブジェクト図30が示される。具体的には、入力マネージャ34は、IMマネージャ・オブジェクト32と対話することができる。音声IMEの場合には、IMマネージャ・オブジェクトは、音声IMEオブジェクト36とインターフェースし、該音声IMEオブジェクトは、一般には次に、他のIMEオブジェクト38とインターフェースすることができる。IMマネージャ34は、次に、(文字メッセージ通知のような)何らかのOS機構によって、ターゲット・アプリケーション及びデータ・フィールドと直接インターフェースすることができる。(本発明以前には)IMEとIMとのインターフェースは、主としてテキストをアプリケーションに取り込むように設計されていたが、(選択範囲、選択テキスト、キャレット位置、マウス・イベント、クリップボード・イベントなどのような)ターゲット・フィールド又はアプリケーションからの状態情報を転送できるようにするものではなかった点を想起することが重要である。本発明に係る実施形態は、口述したテキストをユーザが編集/更新(訂正)することを可能にする方法で、口述クライアントが、後の口述イベントのためにユーザの個人的な音声モデルを改良し、適応させることを可能にする効率的な音声認識口述ソリューションを実装する場合に、インターフェース及びアプリケーションの間で状態情報を理想的に転送することができる。新しい単語を追加し、訂正するこの能力は、音声認識技術において90%以上の認識精度を達成する能力に寄与する。さもなければ、ユーザは、PocketPC PDAのブロック認識及び転記IMEで経験するように、同じ間違いを何度も訂正しなければならない。
【0013】
音声IMEを用いて口述したテキストを訂正できるようにすることは、ここでのアーキテクチャ設計における主要設計要件であると考えられた。さらに、訂正処理の速度を上げるために、当初の単語が正しくなかった場合には音声認識装置が「最良の代替候補」として戻すことができる簡潔な代替候補リスト(4項目以下であることが好ましい)からユーザが選択することが可能になるように、IMEを設計することができる。IMEは、ユーザがIME内でテキストを管理することを可能にするのではなく、単にテキストをターゲット・データ・フィールドに転送するように設計されていたため、こういった議論はさらなる課題を提起した。最終的に、最後かつ最大の課題となる設計事項は、IMEによって生成されたテキストを異なるIMEを用いて訂正する能力に関するものであった。この絶好の例は、ユーザが単語を話し、それが誤認識され、訂正する必要がある場合である。この場合において、ユーザが代替候補リスト内に正しい単語を発見しない場合には、ユーザは、正しい単語を入力又は編集し、自らの個人的な音声モデルが次回には正しく適応するように、その正しい単語を何らかの方法で訂正動作に適用しなければならない。課題はここにあり、単語の訂正を可能にするために、ユーザは、(音声を用いた綴りを利用できるにもかかわらず)音声認識を用いることなく単語を入力することができなければならない。このことは、ユーザに、訂正のために別の(異なる)IMEモジュールに手動で切り替えさせることを意味し、この切り替えは、音声IMEを非作動状態にし、訂正を要するテキストを有する可視領域が喪失することになる。これは決して受け入れ可能なユーザ・シナリオではなく、本発明は、他のIMEジュールを使用している間、音声IMEを作動状態にし続けることによって、この欠点を克服する。
【0014】
したがって、音声IMEの設計は、その使用が自然かつ効率的となるように、これらの及び他の課題を克服しなければならない。図1及び図2に関してすでに示し、検討したように、音声IMEのモデルは、論理設計及びユーザ・インタフェース設計の両方についてこれらの問題を解決する。さらに、図3を参照すると、本発明に係る入力メソッド・エディタの動作方法(すなわち、使用モデル)50を説明するフロー・チャートが示される。方法50は、ステップ52においてハンドヘルド携帯装置に音声IMEモジュールを読み込むことによって開始する。PDA環境の例において、ユーザがその時点のIMEとして音声IMEを選択すると、ステップ54において音声IMEモジュールが作動状態にされる。これを行う幾つかの方法が存在するが、最も一般的なものは、メニュー・リストから音声IMEを選択することである。IMEは使用中には相互排他的であるので、以前のいずれかのIMEクライアント領域がスクリーンから削除され、音声IMEには、その内容を表示する機会が与えられる。
【0015】
IMEはここで、ステップ56において示されるように、音声イベント及びユーザ・イベントを可能にする。当然のことながら、ユーザが音声IMEを選択解除することを1つのユーザ・イベントとすることが可能であり、その場合には、音声IMEモジュールはステップ58において非作動状態にされる。ユーザは、自分の音声IMEの作業領域を自分の好みに合わせて構成した後、スタイラス又は他のいずれかの選択方法を用いることによって、有効なターゲット・アプリケーション/フィールド(自由形式の英数字情報を許容するあらゆるアプリケーション/フィールド)を選択できることに留意されたい。次いで、ユーザは、PDA装置に話し始めるか、又は他のユーザ・イベントを実行することができる。ステップ56においてユーザ・イベントが発生した場合には、判断ブロック68においてボタンが押されたかどうか、判断ブロック72においてメニューが選択されたかどうか、又は、判断ブロック76において代理又は代替のIMEアクションが呼び出されたかどうかが判断される。これらのユーザ・イベントの各々(又は、設計することができる他のユーザ・イベント)が発生しない場合には、方法は、ステップ80において音声コマンドを処理することに進む。判断ブロック68においてボタンが押された場合には、ステップ56に戻る前に、ステップ70においてボタン・アクションが処理される。判断ブロック72においてメニューが選択された場合には、ステップ56に戻る前に、ステップ74においてメニュー・アクションが処理される。判断ブロック76において代理IMEアクションが呼び出された場合には、ステップ56に戻る前に、ステップ78において代理IMEアクションが処理される。
【0016】
ステップ56において音声イベントが発生した場合には、判断ブロック60において、音声イベントが口述テキストを伴うかどうかが判断される。判断ブロック60において、音声イベントが口述テキストでない場合には、方法は、ステップ80において音声コマンドを処理することに進む。判断ブロック60において音声イベントが口述テキストを伴う場合には、口述されたテキストは、ステップ62において(音声IMEの)口述領域に追加される。判断ブロック64において、口述領域が可視状態の場合には、方法はステップ56に戻る。判断ブロック64において、口述領域が非表示状態の場合には、ステップ56に戻る前に、ステップ66において、口述されたテキストがターゲット・アプリケーションに直接送られる。要約すると、ステップ60から66は、認識済みテキストを受け取り、以下のアクション、すなわち、(a)口述ウィンドウ/領域が可視状態の場合には、認識済みテキストを、(訂正ウィンドウが可視状態の場合にはテキストを訂正する能力を持つ)そのテキスト・フィールドに置くか、又は、(b)口述ウィンドウ/領域が非表示状態の場合には、認識済みテキストを、(テキストを訂正する能力のない)ターゲット・アプリケーション/フィールドに直接置くかのいずれか1つを実行する音声IMEに関する。
【0017】
図4から図11に関して、ディスプレイを有する携帯情報端末100は、以下を含むことができる音声IMEの基本的な内容を示すことができる。
1.マイクロフォン状態/トグル・ボタン104と、拡張機能アクセス・ボタン106と、ボリューム・レベル情報とを含むことができる音声ツールバー102(VoiceCenter)。必要に応じて、単一のボタン/アイコンを用いて、マイクロフォン状態とボリューム・レベル情報とを統合することができる。
【0018】
2.ユーザがテキストを実際のターゲット・アプリケーション/フィールドに転送するまで一時的口述ターゲットとして用いられる編集フィールド110を含むことができる口述ウィンドウ(領域)108。このウィンドウ/領域は、本来はオプションであり、音声ツールバーのボタン104によって、可視表示/非表示を切り替えることができる。図4及び図8に示されるように口述ウィンドウが非表示状態の場合には、口述されたすべてのテキストは、ユーザの個人的な言語モデル(LM)キャッシュを改善するために、訂正又は編集する能力のないターゲット・アプリケーション/フィールドに直接入る。
【0019】
3.訂正ウィンドウ/領域112は、図6、図9、及び図11に示されるように、口述された単語を訂正するための代替候補リスト120を含むことができる。訂正ウィンドウ/領域112は、アルファベット114と、スペースバー116と、スペル・モード・リマインダ118とを含むこともできる。ユーザは、これらの領域の各々をタップするか、又は、これらの領域を、音声コマンドにより文字、スペースバー、及びスペル・モードを利用することができるというリマインダ(覚え書き)として用いることができる。ユーザは、訂正する1つ又は複数の単語を口述ウィンドウから選択し、a)スタイラスを用いて代替候補をタップするか、又は、b)「nを選択」(nは代替候補番号である)と言うことによって、その単語を代替候補リスト120の代替候補と置き換えることができる。ユーザが(タップするか、又は「スペル開始(begin spell)」と言うことによって)スペル・モードに入った場合には、アルファベットは、(幾つかの変更/付加を加えた軍用アルファベットと同様の)スペル語彙124のクイック・レファレンスに置き換えられる。ユーザはここで、この極めて認識精度の高いスペル語彙124を用いて、訂正/口述されることになる単語を綴ることができる。訂正ウィンドウ/領域112は、オプションであり、音声ツールバーのユーザ・ボタンによって可視表示/非表示を切り替えることができる。訂正ウィンドウ/領域112は、必要に応じて、訂正ウィンドウに組み込まれる小型キーボード122を含むことができる。このキーボードは、ユーザがスペル・モードにないときに表示され、アルファベット及びスペースバーのみを含む上述のウィンドウに代わるものとなる。
【0020】
4.代替/代理IMEウィンドウ/領域(図9において示される112a又は112b)は、音声IMEを用いている間、音声によらない訂正/編集を可能にするのに用いられる代替IME112bを、口述ウィンドウ又はターゲット・アプリケーション内に含むことができる。この機能は、オペレーティング・システムにおける他の既存の/インストール済みのIMEを用いる能力を損なうことなく、すべての音声機能の完全な使用を可能にする。この設計は、情報をターゲット・アプリケーションに入力するのに必要なユーザの労力量を低減する。本発明は、COM集約技術を用いることによって、完全に機能する外部IMEを音声IME内に含むことができる。このホスティング技術は、ユーザが好む複数の利用可能なIME又は将来のIMEと共に用いることができる。この代替IMEウィンドウ/領域は、音声ツールバー102にある別のユーザ・ボタンによって可視表示/非表示を切り替えることができる。ユーザは、自分の好みの代替IMEをオプション・パネルから選ぶことができ、音声IMEは、ユーザがこの機能を切り替える度に、その選択を用いることになる。
【0021】
ユーザが口述すると、音声IMEは、ユーザが、スペル・モード又は数字モードに入り、(可能な場合には)訂正を実行し、口述ウィンドウ/領域108に口述する場合には、口述されたテキストをその時点で選択済みのアプリケーション/フィールドに転送することを可能にする。テキストの転送は、ユーザの要求で音声IMEによって実行される。これは、音声コマンドによって、又は音声ツールバー102のユーザ・ボタンを押すことによって、行うことができる。いつでもアクセスすることができる2つの転送タイプがある。これらの転送タイプは、以下のとおりである。
【0022】
(a)(単純な)転送−口述されたテキストは、現行アプリケーション/フィールドに転送され、何ら特別に考慮することなく、現行キャレット位置(挿入ポイント)に挿入される。口述ウィンドウ/領域フィールドは、この操作によって影響を受けず、すべてのオリジナル・テキストは、転送が完了した後も残る。この機能のためのアイコンは、矢印付き二重ページ(130)とすることができる。このアイコンは、(例えば二重ページによって表される)標準コピー機能及びViaVoiceのデスクトップ版による(例えば青い矢印によって表される)転送機能に関するユーザの知識を利用するものである。
【0023】
(b)転送及び消去−口述されたテキストは、タイプ(a)のように転送されるが、口述ウィンドウ/領域及び編集フィールドは、新たな口述のために消去され、リセットされる。このタイプは、口述領域のすべての内容を削除し、エンジンのコンテキストをリセットする。この機能のためのアイコンは、例えば、矢印付きはさみ(140)とすることができる。このアイコンは、(はさみによって表される)標準切り取り/消去機能及びViaVoiceのデスクトップ版による転送機能に関するユーザの知識を利用するものである。ユーザは、ターゲット領域から内容の全部又は一部を消去したい場合には、転送オプションを選ぶ前に、消去されることになる領域を選択することができる。
【0024】
別の可能な転送タイプは次のものとすることができる。
(c)転送(及び消去)及び次フィールド−これは、音声IMEが選択カーソルをその時点で作動状態にあるアプリケーションの入力シーケンスにおける次の文書/フィールドに移動させようとすること以外は、上記の転送モードと同じである。これは、より迅速なフォーム記入シナリオを可能にし、ユーザに次のターゲット・フィールドを手動で選択させる余分なステップを取り除く。
【0025】
本発明は、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組合せで実現することができる。本発明はまた、1つのコンピュータ・システムにおける集中方式で、又は異なる構成要素が相互接続された幾つかのコンピュータ・システムにわたって広がる分散方式で、実現することができる。本明細書に記載される方法を実施するように構成されたあらゆる種類のコンピュータ・システム又は他の装置が適する。ハードウェア及びソフトウェアの典型的な組合せは、読み込まれて実行されたときにコンピュータ・システムが本明細書に記載される方法を実施するように、該コンピュータ・システムを制御するコンピュータ・プログラムを持つ汎用コンピュータ・システムとすることができる。
【0026】
本発明はまた、本明細書に記載される方法の実施を可能にするすべての機能を備え、かつ、コンピュータ・システムに読み込まれたときにこれらの方法を実施することが可能なコンピュータ・プログラムに、組み込むことができる。ここでのコンピュータ・プログラム又はアプリケーションは、直接的に、又は、a)別の言語、コード、若しくは表記への変換、b)異なる媒体形式での再生、のいずれか一方若しくは両方の後に、情報処理能力を有するシステムに特定の機能を実行させることを目的とする命令のセットの、任意の言語、コード、又は表記における任意の表現を意味する。
【0027】
本発明は、その精神又は本質的な性質から逸脱することなく、他の形態で具体化することができる。したがって、本発明の範囲を示すものとして、前述の詳細な説明ではなく特許請求の範囲が参照されるべきである。
【図面の簡単な説明】
【0028】
【図1】本明細書に開示される発明の構成に係るハンドヘルド装置の音声入力メソッドと他のコンポーネントとの関係を示す階層図である。
【図2】本発明に係る入力メソッド・マネージャ・オブジェクトと入力マネージャを持つオブジェクトとの間の流れを示すオブジェクト図である。
【図3】本発明に係る入力メソッド・エディタの作動方法を示すフロー・チャートである。
【図4】本発明に係る携帯情報端末において、音声入力メソッド・エディタと、口述ウィンドウが表示されていない状態のスクリーンとを有することを示す。
【図5】図4の携帯情報端末において、表示状態の口述ウィンドウを有するスクリーンを示す。
【図6】図4の携帯情報端末において、編集フィールドを持つ可視状態の口述ウィンドウと、訂正ウィンドウ領域とを有するスクリーンを示す。
【図7】図4の携帯情報端末において、選択された編集フィールドのない可視状態の口述ウィンドウと、訂正ウィンドウ領域とを有するスクリーンを示す。
【図8】図4の携帯情報端末において、非表示状態の口述ウィンドウと、仮想キーボードを持つ訂正ウィンドウ領域とを有するスクリーンを示す。
【図9】図4の携帯情報端末において、編集フィールドを持つ可視状態の口述ウィンドウと、訂正ウィンドウ領域と、追加的な又は代替的なIMEとを有するスクリーンを示す。
【図10】図4の携帯情報端末において、編集フィールドのない可視状態の口述ウィンドウと、スペル語彙を表示するスペル・モードの訂正ウィンドウ領域とを有するスクリーンを示す。
【図11】図4の携帯情報端末において、可視状態の口述ウィンドウと、代替候補リスト及び仮想キーボードを有する訂正ウィンドウ領域とを有するスクリーンを示す。

【特許請求の範囲】
【請求項1】
ハンドヘルド携帯装置のための音声入力メソッド・エディタのアーキテクチャであって、口述領域ウィンドウを含むグラフィカル・ユーザ・インターフェースと、口述領域ウィンドウにおいて口述テキストを追加し、編集するための音声入力メソッド・エディタと、口述テキストを選択的に受け取るユーザのためのターゲット・アプリケーションと、音声入力メソッド・エディタを非作動状態にすることなく口述テキストを編集することが可能な少なくとも1つの代替入力メソッド・エディタと、を含むアーキテクチャ。
【請求項2】
音声入力メソッド・エディタは、編集済み口述テキストを、当該音声入力メソッド・エディタ及び代替入力メソッド・エディタの少なくとも1つからターゲット・アプリケーションに転送し、音声入力メソッド・エディタは作動状態のままに保たれる、請求項1に記載のアーキテクチャ。
【請求項3】
音声入力メソッド・エディタは、代替入力メソッド・エディタが口述テキストを編集するときに可視状態に保たれる音声入力メソッド・エディタ・ウィンドウをさらに含む、請求項1又は請求項2に記載のアーキテクチャ。
【請求項4】
音声入力メソッド・エディタと対話する入力メソッド・マネージャをさらに含む、請求項1、請求項2、又は請求項3に記載のアーキテクチャ。
【請求項5】
入力メソッド・マネージャは、ターゲット・アプリケーション及びデータ・フィールドと対話する、請求項4に記載のアーキテクチャ。
【請求項6】
入力メソッド・マネージャ及び音声入力メソッド・エディタは、ターゲット・フィールド及びターゲット・アプリケーションの少なくとも1つから状態情報をターゲット・アプリケーションに転送する、請求項5に記載のアーキテクチャ。
【請求項7】
状態情報は、選択範囲、選択テキスト、キャレット位置、マウス・イベント、及びクリップボード・イベントで構成される群から選択される、請求項6に記載のアーキテクチャ。
【請求項8】
音声入力メソッド・エディタは、ハンドヘルド携帯装置のユーザが音声入力メソッド・エディタ内のテキストを管理することを可能にする、請求項6に記載のアーキテクチャ。
【請求項9】
代替入力メソッド・エディタは、音声入力メソッド・エディタによって生成された口述テキストを編集することが可能である、請求項6に記載のアーキテクチャ。
【請求項10】
マイクロフォン状態/トグル・ボタン、拡張機能アクセス・ボタン、及びボリューム・レベル情報インジケータのうちの少なくとも1つを有する音声ツールバーと、口述テキストがターゲット・アプリケーションに転送されるまで一時的口述ターゲットとして用いられる選択可能な口述ウィンドウ領域と、口述された単語を訂正するための代替候補リスト、アルファベット、スペースバー、スペル・モード・リマインダ、及び仮想キーボードを含む選択可能な機能のうちの少なくとも1つを備える選択可能な訂正ウィンドウ領域とを含み、選択可能な訂正ウィンドウ領域を使用し、かつ、口述テキストをターゲット・アプリケーションに転送している間、作動状態のままに保たれる音声入力メソッド・エディタ。
【請求項11】
音声入力メソッド・エディタを使用している間、選択可能な口述ウィンドウ領域又はターゲット・アプリケーションの少なくとも1つにおいて非音声編集を可能にするのに用いられる代替入力メソッド・エディタ・ウィンドウをさらに含む、請求項10に記載の音声入力メソッド・エディタ。
【請求項12】
選択可能な口述ウィンドウ領域が非選択モードにあるときは、口述テキストが自動的にターゲット・アプリケーションに転送される、請求項10又は請求項11に記載の音声入力メソッド・エディタ。
【請求項13】
選択可能な訂正ウィンドウ領域が非表示状態と可視状態との間で切り換えられる、請求項10、請求項11、又は請求項12に記載の音声入力メソッド・エディタ。
【請求項14】
音声入力メソッド・エディタを非作動状態にすることなく、編集済み口述テキストを音声入力メソッド・エディタ及び代替入力メソッド・エディタ・ウィンドウの少なくとも1つからターゲット・アプリケーションに転送する、請求項11、請求項12、又は請求項13に記載の音声入力メソッド・エディタ。
【請求項15】
ハンドヘルド携帯情報端末内のアプリケーションである、請求項10から請求項14までのいずれか1つの請求項に記載の音声入力メソッド・エディタ。
【請求項16】
ハンドヘルド携帯装置のための音声入力編集の方法であって、認識済みテキストを受け取るステップと、口述ウィンドウが可視状態の場合には認識済みテキストを口述ウィンドウに入力するステップと、口述ウィンドウが非表示状態の場合には認識済みテキストをターゲット・アプリケーションに直接入力するステップとを含む方法。
【請求項17】
音声入力メソッド・エディタ及び少なくとも1つの代替入力メソッド・エディタを用いて口述ウィンドウの認識済みテキストを編集するステップをさらに含み、代替入力メソッド・エディタによる編集が、音声入力メソッド・エディタによる編集と同時に実行される、請求項16に記載の方法。
【請求項18】
少なくとも1つの代替入力メソッド・エディタを用いて編集するステップが、関連するウィンドウを作動状態にするステップをさらに含む、請求項17に記載の方法。
【請求項19】
音声入力メソッド・エディタを用いて、編集された認識済みテキストをターゲット・アプリケーションに転送するステップをさらに含む、請求項17に記載の方法。
【請求項20】
転送するステップが、1)編集された認識済みテキストをターゲット・アプリケーションの挿入ポイントに挿入するステップ、2)編集された認識済みテキストをターゲット・アプリケーションの挿入ポイントに挿入し、口述ウィンドウを消去するステップ、3)ターゲット・アプリケーションの消去されることになる領域を選択し、次いで、編集された認識済みテキストをターゲット・アプリケーションの挿入ポイントに挿入するステップ、及び、4)編集された認識済みテキストをターゲット・アプリケーションの挿入ポイントに挿入し、口述ウィンドウを消去し、選択カーソルをターゲット・アプリケーションの入力シーケンスにおける次の文書又はフィールドに移動させるステップ、から選択されるステップを含む、請求項19に記載の方法。
【請求項21】
機械によって実行可能な複数のコード・セクションを有し、認識済みテキストを受け取るステップと、口述ウィンドウが可視状態の場合には、認識済みテキストを口述ウィンドウに入力し、音声入力メソッド・エディタ及び少なくとも1つの代替入力メソッド・エディタを用いて口述ウィンドウにおける認識済みテキストの編集を可能にするステップであって、代替入力メソッド・エディタによる編集が音声入力メソッド・エディタを非作動状態にしないステップと、口述ウィンドウが非表示状態の場合には認識済みテキストをターゲット・アプリケーションに直接入力するステップとを機械に行わせるためのコンピュータ・プログラムが記憶された機械可読ストレージ。

【公表番号】特表2007−528037(P2007−528037A)
【公表日】平成19年10月4日(2007.10.4)
【国際特許分類】
【出願番号】特願2006−508302(P2006−508302)
【出願日】平成16年5月18日(2004.5.18)
【国際出願番号】PCT/EP2004/050831
【国際公開番号】WO2004/107315
【国際公開日】平成16年12月9日(2004.12.9)
【出願人】(390009531)インターナショナル・ビジネス・マシーンズ・コーポレーション (4,084)
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【Fターム(参考)】