説明

音声認識システム

【発明の詳細な説明】
技術分野 本発明は、音声認識入力システム又はその一部を有するコンピュータの音声入力に関する。
従来技術 従来の音声認識システムでは、音声認識システムはコンピュータからの指令により入力された音声を認識する処理を実行し、その結果をコンピュータに出力した後、次の命令を待つ様に動作する。
すなわち、音声によるデータ入力が必要なたびにコンピュータから音声認識装置に命令を送って認識動作を行わせ、応答として認識結果を受けとる方式が用いられている。従って、コンピュータのプログラムには音声認識システムに命令を出力し、認識結果を受け取るルーチンと、音声入力が必要となる毎に入力を促すルーチンを具備しなければならなかった。従って、各種のプログラムでこれを用いる場合、上記プログラムを各々のプログラムに具備させねばならず、大幅な修正が必要であるとともに、キーボードとの並行入力が難しかった。また、従来、認識終了時に割り込み信号を生成し、その割り込み信号により認識結果に対応する文字列をキーバッファに転送する方式をとっていたが、この場合、キー入力と音声入力を同時に並行して行った場合、送られてくるキーデータの内容がこわれる事が予想され問題であった。更に、音声認識結果に対応する文字列は予じめ、他のプログラムで生成されており、変更する事が容易ではなかった。
コンピュータに音声を用いて入力する場合の一方法としてキーボード入力をエミュレーションする方法が考えられる。すでに流通している市販のソフトウェアのコマンドはその機能略称をキー入力のために記号化してあり、これに音声入力を用いる場合、機能略称を発声してその認識結果としてキー入力記号をシステムに送ればその機能を実現でき、一般に、これを音声キーエミュレーションと呼んでいる。
一般に、音声キーエミュレータはキーボードの各々のキーに対応する様に単音節認識を行なう方法、また単語単位のキーストロークに対応するように単語認識でおこなう方法などが考えられるが、前者の場合、機能名称に対し必要なキーストロークを区切って発生することは非常に不自然となり、一般には単語認識を用いて行う方がより使いやすい。
単語認識によりキーエミュレーションを実現する場合、認識に必要な音声辞書の各単語に対する発声ストリングと認識結果にしたがってキーボードバッファに転送するキーストロークストリングが必要となるが(例えば「移動」に対して発声ストリングは「いどう」キーストロークストリングは「IDOU」),コマンド入力として用いる場合は発声ストリングに対してキーストロークストリングをユーザの必要なキーストローク列に設定して用いる。つまり「移動」という単語に対して使おうとするアプリケーションのコマンドが「p/s」であるならば「p/s」と設定する。この様に単語認識を用いる場合、アプリケーションプログラム(例えば、ワープロソフトやデータベースソフト)のコマンド操作に置き換えると大変有効に使える。
さらに、そのコマンドの複合動作にも用いることが可能である。つまり、アプリケーションの個別のコマンドの「移動」のコマンドキーストロークが“p/s/改行”、「複写」のそれが“f/改行”であったとすると、発声ストリング「コピー」を有する音声辞書に対してこの文字ストリング“p/s/改行/f/改行”をキーバッファに転送することにより一回の発声でコマンドの複数駆動が可能となる。
しかしながら、この様な音声キーエミュレータを実現しようとする場合、何らかの形で主走行プログラムと認識プログラムとの並行処理が必要となり、一般には、発声トリガキーを用いて認識処理プログラムに切り換える。
この発声トリガキーは一般には特殊なキー操作(例えばALT−V,CTL−V…)を与え、必要に応じて変更する。
更に、第11図に示す様なキーストロークの編集も同様に主走行プログラム上で行える様に同様の方法を用いる。
この様に音声キーエミュレータを実現するためには、走行中のプログラムからそのトリガキーを取得せねばならず、主走行プログラムに影響を及ぼさない様にする方法が難しかった。
目的 本発明は、上述のごとき実情に鑑みてなされたもので、キーボードから入力されるキーデータの内容をチェックし、その内容があらかじめ定められた内容の時のみ音声認識のためのデータ入力を可能とし認識処理を行う事により既存のプログラムを何ら修正せず、又、走行中のプログラムに影響を与えないで、音声入力及び音声認識処理を実行せしめることのできる音声入力システムを提供することを目的としてなされたものである。
構成 本発明は、上記目的を達成するために、(1)キーボードなどのキーデータを入力する手段と、演算処理を行うCPUと、前記演算処理の結果を表示する表示手段と、マイクから入力された音声を増幅、補正などを行う信号処理手段と、得られた信号を周波数解析し、音声の特徴パラメータを得る手段と、更にこの特徴パラメータをある周期毎に入力する手段と、得られた特徴パラメータ列から音声区間を検出する手段と、得られたデータに基いて標準パターンを作成する手段と、その標準パターンをメモリに格納する手段と、更に未知入力データに対して標準パターンと比較認識する手段と、認識結果に対する文字列データを有し、その文字列をキーボードバッファに転送する音声認識システムにおいて、キーボードが押される毎に発声する割り込み信号によりキーボードデータの内容を確認し、その内容があらかじめ定められた内容と合致する時は、割り込みプログラムにより音声入力の割り込みを許可し、データの入力を行い認識処理を行う事、更には、(2)前記(1)において、音声入力が許可された時点では、音声入力の周期割り込みとキーボードの入力割り込みが許可され、音声区間検出手段により音声の始端が検出された時点でキーボード割り込みを禁止する事、更には、(3)前記(1)又は(2)において、前記あらかじめ定められたキーとは別のあらかじめ定めたキーが確認された場合、文字列の変更を可能にする事、或いは、キーボードなどのキーデータを入力する手段と、演算処理を行うCPUと、前記演算処理の結果を表示する表示手段と、マイクから入力された音声を増幅、補正などを行う信号処理手段と、得られた信号を周波数解析し、音声の特徴パラメータを得る手段と、この特徴パラメータをある周期毎に入力する手段と、得られた特徴パラメータ列から音声区間を検出する手段と、得られたデータに基いて標準パターンを作成する手段と、その標準パターンをメモリに格納する手段と、未知入力データに対して標準パターンと比較認識する手段と、認識結果に対する文字列データを有し、その文字列をキーボードバッファに転送する音声認識システムにおいて、キーボードが押される毎に発生する割り込み信号によりキーボードデータの内容を確認し、その内容があらかじめ定められた内容と合致する時は、合致フラグをONとして本割り込みを終了し、このキー割り込み処理とは別の第三の割り込み処理ルーチン又は主走行プログラム中で、この合致フラグを検査してこれがONの時音声入力の割り込みを許可し、データの入力を行って認識処理を行う事を特徴とするものである。以下、本発明の実施例に基いて説明する。
第1図は、本発明の一実施例を説明するための構成図で、図中、1はマイクロフォン、2は前処理部、3は特徴パラメータ抽出部、4は音声区間検出部、5は特徴パラメータ入力制御部、6はキーボード割り込み制御部、7はキーデータチェック部、8は周期信号発生部、9はデータ入力部、10は入力バッファ、11は標準パターンメモリ、12は認識処理部、13は結果出力部、14は文字列変換部、15はキー入力データバッファで、マイク1から入力された音声信号は前処理部2において増幅、補正され、特徴パラメータ抽出部3において周波数解析を行い、例えば、パワースペクトルやLPCケプストラムなどの認識処理に必要な特徴パラメータ列を生成する。一方、前処理部2からの音声信号と、前記特徴パラメータに従って音声区間検出部4で音声区間が検出された特徴パラメータ入力制御部5へその信号が送られる。
又、パーソナルコンピュータへ入力されるキーデータは、キーデータチェック部7で一旦データが格納され、その内容がチェックされる。このチェックは具体的にはキーボードが押される事による割り込み信号に基いて、第2図に示すフローを有する割り込み処理プログラムにおいて、あらかじめ定めた特定のキーが押されたかどうかをチェックする(例えば、“ALT−V"などの特殊キーストローク)。
第3図は、特定のキーが押された場合のフローを示す図で、押されたキーが特殊キーであった場合は、この信号が特徴パラメータ入力制御部5へ送られ、周期信号発生部8で生成される周期時間パルスによる割り込みを許可する。データ入力部9は、この周期信号(例えば5〜20ms周期)に基いて、データの入力を開始する。更にこのデータ入力部9においては音声の入力が開始されるまでは音声データとキーデータの入力をチェックし、音声区間検出部4から区間検出信号に従って音声の始端が検出された事を確認して音声の特徴パラメータ列を入力バッファ10に入れると同時に、認識処理12を開始させ、第3図3図に示した音声処理を行う。この時、キーボードからの不用意な割り込みを禁止するために、この時点でキーボードの割り込みを音声入力より先にキーボード割り込みが生じた場合はキーデータの読み込みを優先して行い、音声入力処理をキャンセルする。この様にして得られた入力バッファの特徴パラメータ列とあらかじめ登録されている標準パターン11を認識処理部12において認識処理を行い、その結果を結果出力部13にて求めてその結果に対応する文字列に文字列変換部14において変換し、キー入力データバッファ15に転送し、キーボード入力と等価する。
更に上記キーデータ入力キーとは別に、第4図に示すように、あらかじめ第2の特定キーを設定しておき(例えば、CTL−Sなど)、そのキーが確認された場合は、認識結果に対応する文字列データーを例えばディスプレイ等で変更できる様構成する事により、同様に即座に結果に対する文字列データが変更され有効である。
なお、以上には、特定のキーを用いてパソコン上で走行しているアプリケーションに割り込む例について説明したが、第2図に破線で示したように入力音声の始端を検出して割り込みをするようにしてもよい。第5図は、その場合のフローを示す図で、周期信号発生部8よりのパルス信号により入力音声の始端を常時検出しており、始端が検出された場合には、前記キー割り込みと同様にして割り込みをかける。この場合、音声入力を行うための周期割り込みパルスにより駆動させる割り込みプログラムを有しており、この割り込みにより、音声のデータ入力及び認識処理を行うものであるが、始端が検出される前にキーボードが押された場合にはキーボードの処理を行い、また、音声の入力、認識処理が行われている途中でキー入力があった場合には、上記の処理をキャンセルする。
而して、以上に説明した例では、ある特定のキー入力があった場合、音声入力のトリガキーとして受けつけ、以後、主走行プログラムから音声入力処理ルーチンに処理を切り換えて認識処理を行っており、この場合、認識処理ルーチンは主走行プログラム又は対象コンピュータの走行環境を考慮しておらず、場合によっては、クリティカルな処理を中断し、システムエラーをもたらす心配があった。つまり、キーボード割り込み処理は、一般には、ハードウェア割り込み処理でキーが押される事により物理的な信号が発生し割り込み処理を行うものであり、従って、本処理ルーチンは、主走行ルーチン又はその他の環境を考慮していないため、本キー割り込み処理ルーチン内で音声入力を促す事がシステム(PC)にとって良いタイミングとは限らない。つまり、アプリケーション等がキー入力を期待しないフェーズでも発生する。
以下に、上述のごとき不具合を回避するための実施例について説明する。
前述のように、キー割り込み中で予め設定されているトリガキーと押されたキーが合致した時にそのまま音声処理にジャンプさせた場合、走行している主プログラムやシステムの事を考慮せずに音声の入力待ちとなり、これが停止するため、不具合を生ずる。従って、本キー入力割り込み処理では、その場合、別途合致フラグを設け、合致フラグをONにしてそのキー割り込み処理を抜け、主プログラムに戻る。つまり、第6図(a)に示すキー割り込み処理ルーチン間で、押されたキーが合致した場合は合致フラグをONにする事により、この時点では通常のキー処理ルーチンを実行し、第6図(b)に示す他割込み処理ルーチン内で、合致フラグを検査し合致フラグがONならば音声入力処理を行う。この第6図(b)に示した処理は、例えば、主走行プログラムが安定状態にある時に発生する割り込みやキーボード待ちになった時に発生する割り込み等を用いる。具体的には、例えば、MS−DOSのシステムコールにおいてMS−DOS状態にある時に発生する割り込みやキー入力待ちになった時に発生するBIOS等がある。
第7図及び第8図は、第6図に示した実施例の有効性を説明するための図で、第7図に示すように、クリティカルなJOBを行っている時に、音声入力のためのキー割り込みが発生しても、この時はクリティカルなJOBを行っているため、音声入力処理に移ると不具合が生じる。つまり、キー割り込みが発声して、その内容が音声入力の場合かどうかの判断は、第8図に示す割り込み処理ルーチン内で行うが、その処理を行うかどうかは主走行プロプログラム又はシステムの状態を鑑みて行う必要がある。従って、キー割り込み処理ルーチン内ではその内容が音声入力を促すものかどうかのみを判断し、主走行プログラムがキー待ちルーチンに入った時点で音声処理に移行する方が望ましい。
第9図は、前述の合致フラグを主走プログラムで検査する場合の例を説明するためのフローチャートである。
この合致フラグは主走行プログラムで検査しても良く、具体的には主走行プログラムの最も都合の良いタイミングを待ってその合致フラグのチェックを行えば良い。この場合、キー割り込みが生じ合致フラグがONされて、ユーザの発声を待たせる場合は、例えば、Busy,Ready等の表示を行って多少の入力タイミングの表示を行っても良い。つまり、主走行プログラムの最も都合の良い時(一般的にはキー入力を要求している時)に音声入力を促し、その認識結果に対応する文字例をキーボードバッファに転送する。而して、上記処理において、例えば、複数の割り込み処理内で合致フラグのチェックを行う事も考えられる。つまり、MS−DOSの安定状態に発生する割り込みとキー入力待ちのBIOSが呼ばれた時に発生する割り込み等の複数の割り込みのどれかで検知された場合に、その処理を行う様にし、その処理が終了したら合致フラグをOFFとする。例えば、MS−DOSのキー入力待ちには、MS−DOSのシステムコール、キー入力待ちのBIOSコール等が用意されており、システムコールではMS−DOSのコマンド入力待ち時の安定状態で呼ばれる内部割り込み等があり、同様にキー入力待ちのコール等もある。
更に、上記の合致フラグのチェックは、例えば第10図に示すように、認識装置20内に設けられているノイズ検知装置21からの信号によって行ってもよい。つまり、ノイズ検知装置により周囲雑音が比較的静かな時に合致フラグのチェックを行いONならば音声入力処理を行う。
効果 以上の説明から明らかなように、本発明によると、音声入力を用いたプログラムを修正する事もなく、又、現在走行中のプログラムに影響を与えずに音声認識結果をキーボード入力と同様に用いる事ができ、更には、現在走行中のプログラムに影響を与えずに音声入力によるキーエミュレーションを実現できる。
【図面の簡単な説明】
第1図は、本発明の一実施例を説明するための構成図、第2図は、割り込み処理のフローチャート、第3図は、請求項1及び2に記載のキーが押された時のフローを示す図、第4図は、請求項3に記載のキーが押された時のフローを示す図、第5図は、入力音声の始端を検出して割り込みをする時のフローを示す図、第6図は、キー割り込み及びキー以外の割り込みルーチンを説明するためのフローチャート、第7図及び第8図は、第6図に示した実施例の有効性を説明するための図、第9図は、合致フラグを主走査プログラムで検査する場合の例を示す図、第10図は、合致フラグチェックを説明するための図、第11図は、結集画面の一例を示すための図である。
1……マイクロフォン、2……前処理部、3……特徴パラメータ抽出部、4……音声区間検出部、5……特徴パラメータ入力制御部、6……キーボード割り込み制御部、7……キーデータチェック部、8……周期信号発生部、9……データ入力部、10……入力バッファ、11……標準パターンメモリ、12……認識処理部、13……結果出力部、14……文字列変換部、15……キー入力データバッファ。

【特許請求の範囲】
【請求項1】キーボードなどのキーデータを入力する手段と、演算処理を行うCPUと、前記演算処理の結果を表示する表示手段と、マイクから入力された音声を増幅、補正などを行う信号処理手段と、得られた信号を周波数解析し、音声の特徴パラメータを得る手段と、この特徴パラメータをある周期毎に入力する手段と、得られた特徴パラメータ列から音声区間を検出する手段と、得られたデータに基いて標準パターンを作成する手段と、その標準パターンをメモリに格納する手段と、未知入力データに対して標準パターンと比較認識する手段と、認識結果に対する文字列データを有し、その文字列をキーボードバッファに転送する音声認識システムにおいて、キーボードが押される毎に発生する割り込み信号によりキーボードデータの内容を確認し、その内容があらかじめ定められた内容と合致する時は、割り込みプログラムにより音声入力の割り込みを許可し、データの入力を行って認識処理を行う事を特徴とする音声認識システム。
【請求項2】音声入力が許可された時点では音声入力の周期割り込みとキーボードの入力割り込みが許可され、音声区間検出手段により音声の始端が検出された時点でキーボード割り込みを禁止する事を特徴とする請求項1に記載の音声認識システム。
【請求項3】前記あらかじめ定められたキーとは別のあらかじめ定めたキーが確認された場合に、文字列の変更を可能にする事を特徴とする請求項1又は2に記載の音声認識システム。
【請求項4】キーボードなどのキーデータを入力する手段と、演算処理を行うCPUと、前記演算処理の結果を表示する表示手段と、マイクから入力された音声を増幅、補正などを行う信号処理手段と、得られた信号を周波数解析し、音声の特徴パラメータを得る手段と、この特徴パラメータをある周期毎に入力する手段と、得られた特徴パラメータ列から音声区間を検出する手段と、得られたデータに基いて標準パターンを作成する手段と、その標準パターンをメモリに格納する手段と、未知入力データに対して標準パターンと比較認識する手段と、認識結果に対する文字列データを有し、その文字列をキーボードバッファに転送する音声認識システムにおいて、キーボードが押される毎に発生する割り込み信号によりキーボードデータの内容を確認し、その内容があらかじめ定められた内容と合致する時は、合致フラグをONとして本割り込みを終了し、このキー割り込み処理とは別の第三の割り込み処理ルーチン又は主走行プログラム中で、この合致フラグを検査し、これがONの時は音声入力の割り込みを許可し、データの入力を行って認識処理を行う事を特徴とする音声認識システム。

【第1図】
image rotate


【第2図】
image rotate


【第7図】
image rotate


【第3図】
image rotate


【第4図】
image rotate


【第8図】
image rotate


【第5図】
image rotate


【第11図】
image rotate


【第6図】
image rotate


【第9図】
image rotate


【第10図】
image rotate


【特許番号】特許第3088739号(P3088739)
【登録日】平成12年7月14日(2000.7.14)
【発行日】平成12年9月18日(2000.9.18)
【国際特許分類】
【出願番号】特願平2−261164
【出願日】平成2年9月28日(1990.9.28)
【公開番号】特開平3−206521
【公開日】平成3年9月9日(1991.9.9)
【審査請求日】平成9年8月27日(1997.8.27)
【出願人】(999999999)株式会社リコー
【参考文献】
【文献】特開 昭60−122850(JP,A)