説明

音声認識システム、音声認識方法および音声認識プログラム

【課題】発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる音声認識システムを提供する。
【解決手段】本発明の音声認識システムは、発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得手段と、入力される音声信号を保持し、前記発話タイミング指示取得手段により発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持手段と、前記音声信号保持手段により出力された音声信号から発話区間を検出する発話区間検出手段と、前記発話区間検出手段により検出された発話区間と、前記発話タイミング指示取得手段により取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知手段と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識システム、音声認識方法および音声認識プログラムに関し、特にユーザが発話のタイミングをボタンなどで指示する音声認識システム、音声認識方法および音声認識プログラムに関する。
【背景技術】
【0002】
この種の音声認識システムでは、雑音や意図しない発話による誤操作を防止することがよく知られている。
【0003】
例えば、特許文献1に記載の音声処理装置は、まず、入力された音声のうち音声処理の対象とする区間として操作者により指定された指定区間の入力を受付け、入力された音声から発声区間を検出する。次に、音声処理装置は、入力された音声に基づいて、操作者または操作者以外の者のいずれが発声の発話者であるかを判断する。さらに、音声処理装置は、指定区間と発声区間とが重複する部分を検出し、重複する部分が検出された場合であって、発話者は操作者以外の者であると判断された場合に、重複する部分が含まれる発声区間を、音声処理の対象の区間として決定する。
【0004】
これにより、特許文献1に記載の音声処理装置は、話者に応じて処理の対象とする音声の区間を適切に決定することができ、誤操作の発生を低減することができる。また、特許文献1に記載の音声処理装置によれば、指定区間の始端の指定が実際の発話開始より遅れたり、終了指示ボタンを押し忘れたりなどの操作者による誤操作を検知することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007-264473号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に記載された手法では、全ての入力された音声から、発話区間を検出するため、常に発話区間検出処理を行っていなければならず、発話区間を検出するための処理負荷が大きい。そのため、発話区間の検出処理負荷が、ユーザの誤操作を検知する処理に影響し、誤操作検知の精度が下がってしまうことがある。
【0007】
以上より、本発明の目的は、発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる音声認識システムを提供することにある。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本発明の音声認識システムは、発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得手段と、入力される音声信号を保持し、前記発話タイミング指示取得手段により発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持手段と、前記音声信号保持手段により出力された音声信号から発話区間を検出する発話区間検出手段と、前記発話区間検出手段により検出された発話区間と、前記発話タイミング指示取得手段により取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知手段と、を備える。
【0009】
また、本発明の音声認識方法は、発話開始の指示を含むユーザによる発話タイミングの指示を取得し、入力される音声信号を保持し、前記発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力し、前記出力された音声信号から発話区間を検出し、前記発話区間と、前記発話タイミングの指示とに基づいて、ユーザの誤操作を検知する。
【0010】
さらに、本発明の音声認識プログラムは、コンピュータに、発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得ステップと、入力される音声信号を保持し、前記発話タイミング指示取得ステップにより発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持ステップと、前記音声信号保持ステップにより出力された音声信号から発話区間を検出する発話区間検出ステップと、前記発話区間検出ステップにより検出された発話区間と、前記発話タイミング指示取得ステップにより取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知ステップと、を実行させる。
【発明の効果】
【0011】
本発明によれば、発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる。
【図面の簡単な説明】
【0012】
【図1】本発明の第1の実施形態にかかる音声認識システム1のハードウェア構成図である。
【図2】本発明の第1の実施形態にかかる音声認識システム1の機能構成を示すブロック図である。
【図3】誤操作検知手段108における誤操作の有無・種類の判定方法の例示である。
【図4】音声認識システム1の動作を示すフローチャートである。
【図5】本発明の第2の実施形態にかかる音声認識システム2の機能構成を示すブロック図である。
【図6】本発明の第3の実施形態にかかる音声認識システム3の機能構成を示すブロック図である。
【図7】本発明の第4の実施形態にかかる音声認識システム4の機能構成を示すブロック図である。
【発明を実施するための形態】
【0013】
<第1の実施形態>
本発明にかかる音声認識システムの第1の実施形態について説明する。
【0014】
図1は、本発明の第1の実施形態にかかる音声認識システム1のハードウェア構成図である。
【0015】
図1に示すように、音声認識システム1は、CPU10、メモリ12、HDD(ハードディスクドライブ)14、図示しないネットワークを介してデータの通信を行なう通信IF(インターフェース)16、ディスプレイ等の出力装置18、キーボードやマウス等のポインティングデバイスを含む入力装置20および音声を入力して音声信号を出力するマイクロホン等の音声入力装置22を有する。これらの構成要素は、バス24を通して互いに接続されており、互いにデータの入出力を行なう。
【0016】
図2は、本発明の第1の実施形態にかかる音声認識システム1の機能構成を示すブロック図である。
【0017】
図2に示すように、音声認識システム1は、音声入力手段100、発話タイミング指示取得手段102、音声信号保持手段104、発話区間検出手段106、誤操作検知手段108、音声認識手段110、音声認識辞書112、音響モデル114および誤操作通知手段116を備える。音声認識システム1の機能は、プログラムがメモリ12(図1)にロードされ、CPU10により実行されて実現される。なお、音声認識システム1の全部または一部の機能は、ハードウェアにより実現されてもよい。
【0018】
音声認識システム1において、音声入力手段100は、音声入力装置22(図1)から出力された音声信号を入力し、必要に応じてAD変換や符号化された信号の復号化などの処理を行い、音声波形のデジタル信号を出力する。
【0019】
発話タイミング指示取得手段102は、入力装置20(図1)を通じて、発話開始の指示を含むユーザによる発話タイミングの指示を取得する。発話タイミングは、少なくとも発話開始のタイミングを含んでおり、発話終了のタイミングを含んでいてもよい。ユーザによる指示は、発話開始前にのみボタンを押す、ボタンを押しながら発話して発話終了後にボタンを離す、発話開始前と発話終了後にそれぞれボタンを押す、などにより行われる。発話タイミング指示取得手段102は、操作の方法により、発話開始の指示のみ、あるいは発話開始と発話終了の指示を取得する。発話タイミング指示取得手段102は、指示を取得すると、取得した発話タイミングの指示を即座に、あるいは指示の時刻情報を付与した上で一定のタイミングで、音声信号保持手段104、誤操作検知手段108および音声認識手段110に出力する。
【0020】
なお、発話タイミング指示取得手段102が発話開始の指示のみを取得する場合、発話終了タイミングは、後述する発話区間検出手段106により検出される発話終了時刻で代用されてもよい。または、発話終了タイミングは、後述する音声認識手段110により検知される発話終了時刻で代用されてもよい。
【0021】
音声信号保持手段104は、所定時間の音声信号を保持するバッファを有する。音声信号保持手段104は、音声入力手段100から入力される音声信号をバッファに格納する。音声信号の容量がバッファの容量を越える場合、音声信号保持手段104は、古いものから順に廃棄し、最新の所定時間分の音声信号を保持するようにしてもよい。ここで、バッファの容量は、発話開始の指示の遅れがある場合において、実際の発話開始から発話開始の指示までの音声信号を十分格納できる大きさであることが望ましい。音声信号保持手段104は、発話タイミング指示取得手段102から発話開始の指示が入力されると、その時点でバッファに格納されている音声信号を、その時刻情報とともに発話区間検出手段106および音声認識手段110に出力する。また、音声信号保持手段104は、発話開始の指示の入力以降に音声入力手段100から入力される音声信号を、その時刻情報とともに発話区間検出手段106および音声認識手段110に出力する。音声信号保持手段104は、発話タイミング指示取得手段102から発話終了の指示が入力されると、音声信号の出力を停止し、以後入力される音声信号をバッファに格納する。
【0022】
発話区間検出手段106は、音声信号保持手段104により出力された音声信号から、ユーザの発話区間を検出する。発話区間検出手段106は、例えば、音声信号のパワー情報やゼロ交差に基づく方法を用いて、発話区間を検出する。発話区間検出手段106は、検出した発話区間の開始時刻および終了時刻の情報を出力する。
【0023】
誤操作検知手段108は、発話区間検出手段106により検出された発話区間と、発話タイミング指示取得手段102により取得された発話タイミングの指示とに基づいて、ユーザの発話タイミング指示の誤操作を検知する。具体的には、誤操作検知手段108は、発話区間検出手段106により入力される発話区間の開始・終了時刻の情報と、発話タイミング指示取得手段102により入力される発話タイミングの指示の有無および時刻情報とを比較して、ユーザの発話タイミング指示の誤操作を検知する。
【0024】
なお、誤操作検知手段108が、誤操作の有無・種類を判定する方法は、後述する。
【0025】
音声認識手段110は、前記音声信号保持手段104により入力された音声信号の少なくとも一部の区間に対して音声認識を行う。音声認識手段110は、音声認識辞書112および音響モデル114などを用いて音声認識を行う。音声認識手段110は、例えば、隠れマルコフモデルを用いる手法を適用して、音声認識を行う。音声認識手段110は、認識結果として、テキストあるいはコマンドを出力する。
【0026】
音声認識辞書112は、認識対象の単語セットおよび各単語の読みの情報を格納する。
【0027】
音響モデル114は、読みに対応する音響パタンをモデル化した音響モデルを格納する。
【0028】
なお、音声認識手段110は、発話タイミング指示取得手段102から入力される発話タイミングの指示の時刻情報に基づいて、音声信号のうち認識対象とする区間を決定してもよい。例えば、発話開始と発話終了の指示が入力される場合は、音声認識手段110は、認識対象とする区間を、発話開始の指示の時刻から発話終了の指示の時刻までに限定してもよい。あるいは、音声認識手段110は、内部に音声信号を保持するバッファを有して、発話開始時刻と発話終了時刻のそれぞれに一定のマージンをつけて、発話開始指示より一定時間前から、発話終了指示より一定時間後までに限定してもよい。また、音声認識手段110は、誤操作検知手段108から誤操作の有無の情報を受取り、誤操作があった場合には、その認識対象区間に対する音声認識処理および認識結果出力を停止してもよい。
【0029】
誤操作通知手段116は、誤操作検知手段108によって誤操作が検知された場合に、誤操作の種類に応じたメッセージを画面表示または音声などでユーザに通知する。
【0030】
なお、本構成に代えて、音声認識手段110の中に誤操作通知手段116を含めて、音声認識手段110が誤操作の有無に応じて、誤操作の種類に応じたメッセージあるいは認識結果を出力するようにしてもよい。
【0031】
次に、誤操作検知手段108における誤操作の有無および種類の判定方法を説明する。
【0032】
図3は、誤操作検知手段108における誤操作の有無・種類の判定方法の例示である。
【0033】
図3において、発話開始は、発話区間検出手段106によって検出される発話区間の開始時刻を示す。発話終了は、発話区間検出手段106によって検出される発話区間の終了時刻を示す。また、発話開始指示は、発話タイミング指示取得手段102によって取得されるユーザによる発話開始の指示の時刻を示す。発話終了指示は、発話タイミング指示取得手段102によって取得されるユーザによる発話終了の指示の時刻を示す。
【0034】
誤操作検知手段108は、発話開始および発話開始指示の時刻を比較する。また、誤操作検知手段108は、発話終了および発話終了指示の時刻を比較する。次に、誤操作検知手段108は、比較した結果が、図3に示す各条件に一致するかどうかを順に調べ、いずれかの条件に一致すると、それに対応した判定結果から、誤操作の有無および種類を判定する。図3で条件A〜Cの少なくともいずれかに一致した場合は、誤操作検知手段108は、判定結果欄に示した種類の誤操作があったと判定する。条件Dに一致した場合は、誤操作検知手段108は、誤操作がなかったと判定する。
【0035】
具体的には、誤操作検知手段108は、比較した結果、発話開始後に発話開始指示があった場合、発話開始指示が遅い、と判定する。また、誤操作検知手段108は、比較した結果、発話終了前に発話終了指示があった場合、発話終了指示が早いと判定する。また、誤操作検知手段108は、比較した結果、発話終了後一定時間内に発話終了指示がなかった場合、発話終了指示のし忘れと判定する。また、誤操作検知手段108は、比較した結果、発話開始前に発話開始指示があり、発話終了後一定時間内に発話終了指示があった場合、誤操作なしと判定する。
【0036】
誤操作通知手段116は、誤操作があった場合に、図3に示された誤操作の種類に応じたメッセージをユーザに通知する。例えば「発話開始指示が遅い」と判定された場合には、誤操作通知手段116は、発話開始タイミングの指示を行ってから発話するよう促すメッセージをユーザに通知する。
【0037】
次に、音声認識システム1の動作を説明する。
【0038】
図4は、音声認識システム1の動作を示すフローチャートである。
【0039】
図4に示すように、ステップ10(S10)において、音声入力手段100は、入力された音声信号に複合化などの処理を行い、音声信号を出力する。具体的には、音声入力手段100は、マイクから音声信号を入力し、AD変換を行って音声波形のデジタル信号を出力する。
【0040】
ステップ12(S12)において、音声信号保持手段104は、音声入力手段100から入力される音声信号をバッファに格納する。
【0041】
ステップ14(S14)において、発話タイミング指示取得手段102は、ユーザによる発話タイミングの指示を受け付けたか否かを判定し、受け付けた場合には、発話タイミングの指示を音声信号保持手段104、誤操作検知手段108および音声認識手段110に対して出力してS16の処理に進み、そうでない場合にはS12の処理に戻る。例えば、発話タイミング指示取得手段102は、ユーザのボタン押下状態を監視し、ボタンが押されると発話開始タイミングの指示、ボタンが離されると発話終了タイミングの指示としてそれぞれ検知する。発話タイミング指示取得手段102は、検知した指示を、音声信号保持手段104、誤操作検知手段108および音声認識手段110に出力する。
【0042】
ステップ16(S16)において、音声信号保持手段104は、発話タイミング指示取得手段102から発話開始タイミングの指示が入力されると、その時点でバッファに格納されている音声信号を、その時刻情報とともに発話区間検出手段106および音声認識手段110に出力する。
【0043】
ステップ18(S18)において、音声信号保持手段104は、発話開始タイミングの指示の通知以降に音声入力手段100から入力される音声信号を、その時刻情報とともに発話区間検出手段106および音声認識手段110に出力する。
【0044】
ステップ20(S20)において、発話区間検出手段106は、音声信号保持手段104から出力された音声信号から発話区間を検出し、その時刻情報を誤操作検知手段108に出力する。具体的には、発話区間検出手段106は、音声信号保持手段104から出力された音声信号を逐次処理し、算出されるパワー情報などを用いて発話開始および発話終了を検出する。
【0045】
ステップ22(S22)において、誤操作検知手段108は、発話区間検出手段106により検出された発話区間と、発話タイミング指示取得手段102により取得された発話タイミングの指示とに基づいて、ユーザの発話タイミング指示の誤操作を検知する。例えば、誤操作検知手段108は、発話区間検出手段106から入力される発話開始・発話終了の時刻情報と、発話タイミング指示取得手段102から通知される発話タイミングの指示の有無および時刻情報を比較する。誤操作検知手段108は、図3の判定基準にしたがって、ユーザの誤操作の有無および種類を判定する。
【0046】
誤操作なしと判定された場合には、ステップ24(S24)において、音声認識手段110は、音声信号保持手段104から出力された音声信号を音声認識して、認識結果を出力する。
【0047】
誤操作ありと判定された場合には、ステップ26(S26)において、誤操作通知手段116は、誤操作の種類に応じたメッセージをユーザに通知する。例えば、誤操作通知手段116は、図3に示される条件に基づいて、「ボタンを押してから発話してください」「発話が終了してからボタンを離してください」等のメッセージを出力する。
【0048】
なお、ここでは簡単のため、ステップ22(S22)において誤操作なしと判定された場合に、音声認識手段110が音声認識を行うとして説明した。実際には、音声認識手段110は、発話開始タイミングの指示が取得された時点で音声認識を開始して、入力される音声信号を逐次受け取って音声認識を進めるようにしてもよい。この場合、誤操作ありと判定された時点で、音声認識手段110は、音声認識を停止してもよい。
【0049】
以上説明したように、本実施の形態にかかる音声認識システム1は、発話開始指示の通知があるまで発話区間検出処理を行わないため、発話区間検出の処理負荷を少なくすることができる。これにより、音声認識システム1は、発話区間検出処理負荷が誤操作を検知する処理に与える影響を小さくすることができるため、ユーザの誤操作を精度よく検知することができる。
【0050】
また、音声認識システム1は、発話タイミング指示の時刻情報に基づいて認識対象区間を限定するため、認識処理を常時行う場合に比べ、音声認識の処理負荷を少なくすることができる。
【0051】
さらに、音声認識システム1は、音声信号保持手段104を有し、発話開始の指示から一定時間遡って発話区間検出処理を行うため、発話開始の指示が実際の発話開始より遅れた場合でも、発話区間を精度よく検出できる。
【0052】
<第2の実施形態>
次に、本発明にかかる音声認識システムの第2の実施形態について説明する。
【0053】
図5は、本発明の第2の実施形態にかかる音声認識システム2の機能構成を示すブロック図である。
【0054】
図5に示すように、本発明の第2の実施形態にかかる音声認識システム2は、第1の実施形態にかかる音声認識システム1と比較すると、音声信号保持手段104のかわりに発話区間検出手段106が音声認識手段110に音声信号を出力する点が異なる。さらに、発話タイミング指示取得手段102が、音声認識手段110に発話タイミングの指示を通知しない点も異なる。
【0055】
発話区間検出手段106は、音声信号保持手段104から入力された音声信号から、ユーザの発話区間を検出し、その開始・終了時刻の情報を誤操作通知手段116に出力する。この際、発話区間検出手段106は、発話区間の前後に一定長のマージンを付加してもよい。また、発話区間検出手段106は、音声信号保持手段104から入力された音声信号を、音声認識手段110に出力する。
【0056】
音声認識手段110は、前記音声信号保持手段104により入力された音声信号の一部の区間に対して音声認識を行う。音声認識手段110は、発話区間検出手段106により検出された発話区間に基づいて、音声認識の対象となる区間を決定する。
【0057】
その他の動作は、本発明の第1の実施形態と同じである。
【0058】
以上説明したように、本実施の形態にかかる音声認識システム2は、音声認識の対象を、発話区間に基づいて限定するため、処理負荷を少なくすることができる。なぜなら、誤操作がない場合には、発話区間検出手段106で検出される発話区間は、発話開始の指示から発話終了の指示までの区間の一部分であり、発話タイミングが指示された区間と比べて短いからである。
【0059】
<第3の実施形態>
次に、本発明にかかる音声認識システムの第3の実施形態について説明する。
【0060】
図6は、本発明の第3の実施形態にかかる音声認識システム3の機能構成を示すブロック図である。
【0061】
図6に示すように、本発明の第3の実施形態にかかる音声認識システム3は、第2の実施形態にかかる音声認識システム2と比較すると、音声認識手段110が発話区間特定手段118を有し、特定した発話区間情報を誤操作検知手段108に出力する点が異なる。
【0062】
本実施形態では、簡単のために離散単語認識を例にして説明するが、連続単語認識にも同様に適用可能である。
【0063】
音声認識手段110は、認識対象の単語が格納された音声認識辞書112を用いて、対象となる区間に対して音声認識を行う。
【0064】
具体的には、音声認識手段110は、音声認識辞書112に格納された各認識対象の単語の読みの情報をもとに、音響モデル114を用いて各単語の標準パタンを生成する。例えば、音響モデルとして音素のHMM(隠れマルコフモデル)を用いる場合には、音声認識手段110は、単語の読みに従って音素のHMMを連結して、単語の標準パタンを構成する。その際、音声認識手段110は、無音のHMMを前後に付加する。無音のHMMは、背景雑音等を表現するモデルとして、音響モデル114内にあらかじめ記憶されている。音声認識手段110は、発話区間検出手段106によって切り出された入力音声信号と、各単語の標準パタンとを照合して、各単語に対する尤度を算出する。音声認識手段110は、尤度の最も高い単語を求め、認識結果とする。
【0065】
発話区間特定手段118は、音声認識の対象となる区間の中で、認識対象の単語が発話された区間を特定する。
【0066】
具体的には、発話区間特定手段118は、入力された音声信号と、音声認識手段110の認識結果の単語の標準パタンとの時間の対応付けを行う。発話区間特定手段118は、入力された音声信号の中で、単語の前後の無音パタンを除く部分に対応づけられる区間を求める。発話区間特定手段118は、対応づけられた区間の開始および終了の時刻情報を、誤操作検知手段108に出力する。
【0067】
音声認識手段110はまた、リジェクション機能を有する。具体的には、音声認識手段110は、入力された音声信号が音声認識辞書112に格納されている認識対象の単語のいずれにも合致しないと判定した場合、認識結果を棄却する。
【0068】
発話区間特定手段118は、認識結果が棄却された場合に、発話区間がなかったという情報を誤操作検知手段108に出力する。
【0069】
誤操作検知手段108は、発話区間検出手段106により検出された発話区間を、発話区間特定手段118により特定された区間に基づいて変更(例えば、置換など)した上で、ユーザの発話タイミング指示の誤操作の有無および種類の判定を行う。なお、誤操作検知手段108は、発話区間検出手段106の検出結果を受け取らずに、発話区間特定手段118の結果を用いてもよい。
【0070】
以上説明したように、本実施の形態にかかる音声認識システム3は、認識対象の単語の情報を用いて音声認識を行うことで、実際の発話区間と雑音区間を詳細に区別することができる。そのため、音声認識システム3は、実際の発話区間、すなわち、より正確な発話区間の情報を用いて誤操作の判定を行うことができる。
【0071】
また、音声認識システム3は、音声認識手段110がリジェクション機能を有し、音声入力を意図したユーザの発話ではない区間をキャンセルすることができるので、精度よく発話区間を検出できる。そのため、音声認識システム3は、ユーザの誤操作を精度よく検知することができる。
【0072】
<第4の実施形態>
次に、本発明にかかる音声認識システムの第4の実施形態について説明する。
【0073】
図7は、本発明の第4の実施形態にかかる音声認識システム4の機能構成を示すブロック図である。
【0074】
発話タイミング指示取得手段102は、発話開始の指示を含むユーザによる発話タイミングの指示を、音声信号保持手段104および誤操作検知手段108に出力する。
【0075】
音声信号保持手段104は、入力される音声信号を保持し、発話タイミング指示取得手段102により発話開始の指示が入力された場合、保持している音声信号を発話区間検出手段106に出力する。また、音声信号保持手段104は、発話タイミング指示取得手段102により発話開始タイミングの指示が入力された時点で、それ以降に入力される音声信号を発話区間検出手段106に出力する。
【0076】
発話区間検出手段106は、音声信号保持手段104により出力された音声信号から発話区間を検出する。
【0077】
誤操作検知手段108は、発話区間検出手段により検出された発話区間と、発話タイミング指示取得手段102により取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する。
【0078】
以上説明したように、本実施の形態にかかる音声認識システム4によれば、発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる。
【産業上の利用可能性】
【0079】
本発明にかかる音声認識システムは、音声によるデータ入力、テキスト入力および機器操作の指示を行う音声認識装置といった用途に適用可能である。
【符号の説明】
【0080】
1 音声認識システム1
2 音声認識システム2
3 音声認識システム3
4 音声認識システム4
10 CPU
12 メモリ
14 HDD
16 通信IF
18 出力装置
20 入力装置
22 音声入力装置
24 バス
100 音声入力手段
102 発話タイミング指示取得手段
104 音声信号保持手段
106 発話区間検出手段
108 誤操作検知手段
110 音声認識手段
112 音声認識辞書
114 音響モデル
116 誤操作通知手段
118 発話区間特定手段

【特許請求の範囲】
【請求項1】
発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得手段と、
入力される音声信号を保持し、前記発話タイミング指示取得手段により発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持手段と、
前記音声信号保持手段により出力された音声信号から発話区間を検出する発話区間検出手段と、
前記発話区間検出手段により検出された発話区間と、前記発話タイミング指示取得手段により取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知手段と、
を備える音声認識システム。
【請求項2】
前記音声信号保持手段は、入力される音声信号のうち最新の所定時間分を保持する、
請求項1に記載の音声認識システム。
【請求項3】
前記誤操作検知手段は、前記発話区間検出手段により検出された発話区間の時刻情報と、前記発話タイミング指示取得手段により取得された発話タイミングの指示の有無および時刻情報とを比較して、ユーザの誤操作を検知する、
請求項1または2に記載の音声認識システム。
【請求項4】
前記誤操作検知手段は、発話開始の指示が遅いこと、発話終了の指示が早いことの少なくともいずれかをユーザの誤操作として検知する、
請求項1〜3のいずれかに記載の音声認識システム。
【請求項5】
前記音声信号保持手段により出力された音声信号の少なくとも一部の区間に対して音声認識を行う音声認識手段をさらに有する、
請求項1〜4のいずれかに記載の音声認識システム。
【請求項6】
前記音声認識手段は、前記発話区間検出手段により検出された発話区間に基づいて、音声認識の対象となる区間を決定する、
請求項5に記載の音声認識システム。
【請求項7】
前記音声認識手段は、前記誤操作検知手段が誤操作を検知した場合、音声認識を停止する、
請求項5または6に記載の音声認識システム。
【請求項8】
前記音声認識手段は、認識対象の単語が格納された音声認識辞書を用いて音声認識を行い、前記一部の区間の中で認識対象の単語が発話された区間を特定し、
前記誤操作検知手段は、前記発話区間検出手段により検出された発話区間を、前記音声認識手段により特定された区間に基づいて変更した上で、ユーザの誤操作を検知する、
請求項5〜7のいずれかに記載の音声認識システム。
【請求項9】
前記誤操作検知手段が誤操作を検知した場合、検知した誤操作の種類に応じたメッセージを通知する誤操作通知手段をさらに有する、
請求項1〜8のいずれかに記載の音声認識システム。
【請求項10】
発話開始の指示を含むユーザによる発話タイミングの指示を取得し、
入力される音声信号を保持し、前記発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力し、
前記出力された音声信号から発話区間を検出し、
前記発話区間と、前記発話タイミングの指示とに基づいて、ユーザの誤操作を検知する、
音声認識方法。
【請求項11】
コンピュータに、
発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得ステップと、
入力される音声信号を保持し、前記発話タイミング指示取得ステップにより発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持ステップと、
前記音声信号保持ステップにより出力された音声信号から発話区間を検出する発話区間検出ステップと、
前記発話区間検出ステップにより検出された発話区間と、前記発話タイミング指示取得ステップにより取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知ステップと、
を実行させる音声認識プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−39222(P2011−39222A)
【公開日】平成23年2月24日(2011.2.24)
【国際特許分類】
【出願番号】特願2009−185520(P2009−185520)
【出願日】平成21年8月10日(2009.8.10)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】