音声認識システム、音声認識方法および音声認識プログラム

【課題】発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる音声認識システムを提供する。
【解決手段】本発明の音声認識システムは、発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得手段と、入力される音声信号を保持し、前記発話タイミング指示取得手段により発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持手段と、前記音声信号保持手段により出力された音声信号から発話区間を検出する発話区間検出手段と、前記発話区間検出手段により検出された発話区間と、前記発話タイミング指示取得手段により取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知手段と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声認識システム、音声認識方法および音声認識プログラムに関し、特にユーザが発話のタイミングをボタンなどで指示する音声認識システム、音声認識方法および音声認識プログラムに関する。
【背景技術】
【０００２】
この種の音声認識システムでは、雑音や意図しない発話による誤操作を防止することがよく知られている。
【０００３】
例えば、特許文献１に記載の音声処理装置は、まず、入力された音声のうち音声処理の対象とする区間として操作者により指定された指定区間の入力を受付け、入力された音声から発声区間を検出する。次に、音声処理装置は、入力された音声に基づいて、操作者または操作者以外の者のいずれが発声の発話者であるかを判断する。さらに、音声処理装置は、指定区間と発声区間とが重複する部分を検出し、重複する部分が検出された場合であって、発話者は操作者以外の者であると判断された場合に、重複する部分が含まれる発声区間を、音声処理の対象の区間として決定する。
【０００４】
これにより、特許文献１に記載の音声処理装置は、話者に応じて処理の対象とする音声の区間を適切に決定することができ、誤操作の発生を低減することができる。また、特許文献１に記載の音声処理装置によれば、指定区間の始端の指定が実際の発話開始より遅れたり、終了指示ボタンを押し忘れたりなどの操作者による誤操作を検知することができる。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開2007-264473号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、特許文献１に記載された手法では、全ての入力された音声から、発話区間を検出するため、常に発話区間検出処理を行っていなければならず、発話区間を検出するための処理負荷が大きい。そのため、発話区間の検出処理負荷が、ユーザの誤操作を検知する処理に影響し、誤操作検知の精度が下がってしまうことがある。
【０００７】
以上より、本発明の目的は、発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる音声認識システムを提供することにある。
【課題を解決するための手段】
【０００８】
上記目的を達成するために、本発明の音声認識システムは、発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得手段と、入力される音声信号を保持し、前記発話タイミング指示取得手段により発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持手段と、前記音声信号保持手段により出力された音声信号から発話区間を検出する発話区間検出手段と、前記発話区間検出手段により検出された発話区間と、前記発話タイミング指示取得手段により取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知手段と、を備える。
【０００９】
また、本発明の音声認識方法は、発話開始の指示を含むユーザによる発話タイミングの指示を取得し、入力される音声信号を保持し、前記発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力し、前記出力された音声信号から発話区間を検出し、前記発話区間と、前記発話タイミングの指示とに基づいて、ユーザの誤操作を検知する。
【００１０】
さらに、本発明の音声認識プログラムは、コンピュータに、発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得ステップと、入力される音声信号を保持し、前記発話タイミング指示取得ステップにより発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持ステップと、前記音声信号保持ステップにより出力された音声信号から発話区間を検出する発話区間検出ステップと、前記発話区間検出ステップにより検出された発話区間と、前記発話タイミング指示取得ステップにより取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知ステップと、を実行させる。
【発明の効果】
【００１１】
本発明によれば、発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる。
【図面の簡単な説明】
【００１２】
【図１】本発明の第１の実施形態にかかる音声認識システム１のハードウェア構成図である。
【図２】本発明の第１の実施形態にかかる音声認識システム１の機能構成を示すブロック図である。
【図３】誤操作検知手段１０８における誤操作の有無・種類の判定方法の例示である。
【図４】音声認識システム１の動作を示すフローチャートである。
【図５】本発明の第２の実施形態にかかる音声認識システム２の機能構成を示すブロック図である。
【図６】本発明の第３の実施形態にかかる音声認識システム３の機能構成を示すブロック図である。
【図７】本発明の第４の実施形態にかかる音声認識システム４の機能構成を示すブロック図である。
【発明を実施するための形態】
【００１３】
＜第１の実施形態＞
本発明にかかる音声認識システムの第１の実施形態について説明する。
【００１４】
図１は、本発明の第１の実施形態にかかる音声認識システム１のハードウェア構成図である。
【００１５】
図１に示すように、音声認識システム１は、CPU１０、メモリ１２、HDD（ハードディスクドライブ）１４、図示しないネットワークを介してデータの通信を行なう通信IF（インターフェース）１６、ディスプレイ等の出力装置１８、キーボードやマウス等のポインティングデバイスを含む入力装置２０および音声を入力して音声信号を出力するマイクロホン等の音声入力装置２２を有する。これらの構成要素は、バス２４を通して互いに接続されており、互いにデータの入出力を行なう。
【００１６】
図２は、本発明の第１の実施形態にかかる音声認識システム１の機能構成を示すブロック図である。
【００１７】
図２に示すように、音声認識システム１は、音声入力手段１００、発話タイミング指示取得手段１０２、音声信号保持手段１０４、発話区間検出手段１０６、誤操作検知手段１０８、音声認識手段１１０、音声認識辞書１１２、音響モデル１１４および誤操作通知手段１１６を備える。音声認識システム１の機能は、プログラムがメモリ１２（図１）にロードされ、CPU１０により実行されて実現される。なお、音声認識システム１の全部または一部の機能は、ハードウェアにより実現されてもよい。
【００１８】
音声認識システム１において、音声入力手段１００は、音声入力装置２２（図１）から出力された音声信号を入力し、必要に応じてAD変換や符号化された信号の復号化などの処理を行い、音声波形のデジタル信号を出力する。
【００１９】
発話タイミング指示取得手段１０２は、入力装置２０（図１）を通じて、発話開始の指示を含むユーザによる発話タイミングの指示を取得する。発話タイミングは、少なくとも発話開始のタイミングを含んでおり、発話終了のタイミングを含んでいてもよい。ユーザによる指示は、発話開始前にのみボタンを押す、ボタンを押しながら発話して発話終了後にボタンを離す、発話開始前と発話終了後にそれぞれボタンを押す、などにより行われる。発話タイミング指示取得手段１０２は、操作の方法により、発話開始の指示のみ、あるいは発話開始と発話終了の指示を取得する。発話タイミング指示取得手段１０２は、指示を取得すると、取得した発話タイミングの指示を即座に、あるいは指示の時刻情報を付与した上で一定のタイミングで、音声信号保持手段１０４、誤操作検知手段１０８および音声認識手段１１０に出力する。
【００２０】
なお、発話タイミング指示取得手段１０２が発話開始の指示のみを取得する場合、発話終了タイミングは、後述する発話区間検出手段１０６により検出される発話終了時刻で代用されてもよい。または、発話終了タイミングは、後述する音声認識手段１１０により検知される発話終了時刻で代用されてもよい。
【００２１】
音声信号保持手段１０４は、所定時間の音声信号を保持するバッファを有する。音声信号保持手段１０４は、音声入力手段１００から入力される音声信号をバッファに格納する。音声信号の容量がバッファの容量を越える場合、音声信号保持手段１０４は、古いものから順に廃棄し、最新の所定時間分の音声信号を保持するようにしてもよい。ここで、バッファの容量は、発話開始の指示の遅れがある場合において、実際の発話開始から発話開始の指示までの音声信号を十分格納できる大きさであることが望ましい。音声信号保持手段１０４は、発話タイミング指示取得手段１０２から発話開始の指示が入力されると、その時点でバッファに格納されている音声信号を、その時刻情報とともに発話区間検出手段１０６および音声認識手段１１０に出力する。また、音声信号保持手段１０４は、発話開始の指示の入力以降に音声入力手段１００から入力される音声信号を、その時刻情報とともに発話区間検出手段１０６および音声認識手段１１０に出力する。音声信号保持手段１０４は、発話タイミング指示取得手段１０２から発話終了の指示が入力されると、音声信号の出力を停止し、以後入力される音声信号をバッファに格納する。
【００２２】
発話区間検出手段１０６は、音声信号保持手段１０４により出力された音声信号から、ユーザの発話区間を検出する。発話区間検出手段１０６は、例えば、音声信号のパワー情報やゼロ交差に基づく方法を用いて、発話区間を検出する。発話区間検出手段１０６は、検出した発話区間の開始時刻および終了時刻の情報を出力する。
【００２３】
誤操作検知手段１０８は、発話区間検出手段１０６により検出された発話区間と、発話タイミング指示取得手段１０２により取得された発話タイミングの指示とに基づいて、ユーザの発話タイミング指示の誤操作を検知する。具体的には、誤操作検知手段１０８は、発話区間検出手段１０６により入力される発話区間の開始・終了時刻の情報と、発話タイミング指示取得手段１０２により入力される発話タイミングの指示の有無および時刻情報とを比較して、ユーザの発話タイミング指示の誤操作を検知する。
【００２４】
なお、誤操作検知手段１０８が、誤操作の有無・種類を判定する方法は、後述する。
【００２５】
音声認識手段１１０は、前記音声信号保持手段１０４により入力された音声信号の少なくとも一部の区間に対して音声認識を行う。音声認識手段１１０は、音声認識辞書１１２および音響モデル１１４などを用いて音声認識を行う。音声認識手段１１０は、例えば、隠れマルコフモデルを用いる手法を適用して、音声認識を行う。音声認識手段１１０は、認識結果として、テキストあるいはコマンドを出力する。
【００２６】
音声認識辞書１１２は、認識対象の単語セットおよび各単語の読みの情報を格納する。
【００２７】
音響モデル１１４は、読みに対応する音響パタンをモデル化した音響モデルを格納する。
【００２８】
なお、音声認識手段１１０は、発話タイミング指示取得手段１０２から入力される発話タイミングの指示の時刻情報に基づいて、音声信号のうち認識対象とする区間を決定してもよい。例えば、発話開始と発話終了の指示が入力される場合は、音声認識手段１１０は、認識対象とする区間を、発話開始の指示の時刻から発話終了の指示の時刻までに限定してもよい。あるいは、音声認識手段１１０は、内部に音声信号を保持するバッファを有して、発話開始時刻と発話終了時刻のそれぞれに一定のマージンをつけて、発話開始指示より一定時間前から、発話終了指示より一定時間後までに限定してもよい。また、音声認識手段１１０は、誤操作検知手段１０８から誤操作の有無の情報を受取り、誤操作があった場合には、その認識対象区間に対する音声認識処理および認識結果出力を停止してもよい。
【００２９】
誤操作通知手段１１６は、誤操作検知手段１０８によって誤操作が検知された場合に、誤操作の種類に応じたメッセージを画面表示または音声などでユーザに通知する。
【００３０】
なお、本構成に代えて、音声認識手段１１０の中に誤操作通知手段１１６を含めて、音声認識手段１１０が誤操作の有無に応じて、誤操作の種類に応じたメッセージあるいは認識結果を出力するようにしてもよい。
【００３１】
次に、誤操作検知手段１０８における誤操作の有無および種類の判定方法を説明する。
【００３２】
図３は、誤操作検知手段１０８における誤操作の有無・種類の判定方法の例示である。
【００３３】
図３において、発話開始は、発話区間検出手段１０６によって検出される発話区間の開始時刻を示す。発話終了は、発話区間検出手段１０６によって検出される発話区間の終了時刻を示す。また、発話開始指示は、発話タイミング指示取得手段１０２によって取得されるユーザによる発話開始の指示の時刻を示す。発話終了指示は、発話タイミング指示取得手段１０２によって取得されるユーザによる発話終了の指示の時刻を示す。
【００３４】
誤操作検知手段１０８は、発話開始および発話開始指示の時刻を比較する。また、誤操作検知手段１０８は、発話終了および発話終了指示の時刻を比較する。次に、誤操作検知手段１０８は、比較した結果が、図３に示す各条件に一致するかどうかを順に調べ、いずれかの条件に一致すると、それに対応した判定結果から、誤操作の有無および種類を判定する。図３で条件Ａ〜Cの少なくともいずれかに一致した場合は、誤操作検知手段１０８は、判定結果欄に示した種類の誤操作があったと判定する。条件Dに一致した場合は、誤操作検知手段１０８は、誤操作がなかったと判定する。
【００３５】
具体的には、誤操作検知手段１０８は、比較した結果、発話開始後に発話開始指示があった場合、発話開始指示が遅い、と判定する。また、誤操作検知手段１０８は、比較した結果、発話終了前に発話終了指示があった場合、発話終了指示が早いと判定する。また、誤操作検知手段１０８は、比較した結果、発話終了後一定時間内に発話終了指示がなかった場合、発話終了指示のし忘れと判定する。また、誤操作検知手段１０８は、比較した結果、発話開始前に発話開始指示があり、発話終了後一定時間内に発話終了指示があった場合、誤操作なしと判定する。
【００３６】
誤操作通知手段１１６は、誤操作があった場合に、図３に示された誤操作の種類に応じたメッセージをユーザに通知する。例えば「発話開始指示が遅い」と判定された場合には、誤操作通知手段１１６は、発話開始タイミングの指示を行ってから発話するよう促すメッセージをユーザに通知する。
【００３７】
次に、音声認識システム１の動作を説明する。
【００３８】
図４は、音声認識システム１の動作を示すフローチャートである。
【００３９】
図４に示すように、ステップ１０（S１０）において、音声入力手段１００は、入力された音声信号に複合化などの処理を行い、音声信号を出力する。具体的には、音声入力手段１００は、マイクから音声信号を入力し、AD変換を行って音声波形のデジタル信号を出力する。
【００４０】
ステップ１２（S１２）において、音声信号保持手段１０４は、音声入力手段１００から入力される音声信号をバッファに格納する。
【００４１】
ステップ１４（S１４）において、発話タイミング指示取得手段１０２は、ユーザによる発話タイミングの指示を受け付けたか否かを判定し、受け付けた場合には、発話タイミングの指示を音声信号保持手段１０４、誤操作検知手段１０８および音声認識手段１１０に対して出力してS１６の処理に進み、そうでない場合にはS１２の処理に戻る。例えば、発話タイミング指示取得手段１０２は、ユーザのボタン押下状態を監視し、ボタンが押されると発話開始タイミングの指示、ボタンが離されると発話終了タイミングの指示としてそれぞれ検知する。発話タイミング指示取得手段１０２は、検知した指示を、音声信号保持手段１０４、誤操作検知手段１０８および音声認識手段１１０に出力する。
【００４２】
ステップ１６（S１６）において、音声信号保持手段１０４は、発話タイミング指示取得手段１０２から発話開始タイミングの指示が入力されると、その時点でバッファに格納されている音声信号を、その時刻情報とともに発話区間検出手段１０６および音声認識手段１１０に出力する。
【００４３】
ステップ１８（S１８）において、音声信号保持手段１０４は、発話開始タイミングの指示の通知以降に音声入力手段１００から入力される音声信号を、その時刻情報とともに発話区間検出手段１０６および音声認識手段１１０に出力する。
【００４４】
ステップ２０（S２０）において、発話区間検出手段１０６は、音声信号保持手段１０４から出力された音声信号から発話区間を検出し、その時刻情報を誤操作検知手段１０８に出力する。具体的には、発話区間検出手段１０６は、音声信号保持手段１０４から出力された音声信号を逐次処理し、算出されるパワー情報などを用いて発話開始および発話終了を検出する。
【００４５】
ステップ２２（S２２）において、誤操作検知手段１０８は、発話区間検出手段１０６により検出された発話区間と、発話タイミング指示取得手段１０２により取得された発話タイミングの指示とに基づいて、ユーザの発話タイミング指示の誤操作を検知する。例えば、誤操作検知手段１０８は、発話区間検出手段１０６から入力される発話開始・発話終了の時刻情報と、発話タイミング指示取得手段１０２から通知される発話タイミングの指示の有無および時刻情報を比較する。誤操作検知手段１０８は、図３の判定基準にしたがって、ユーザの誤操作の有無および種類を判定する。
【００４６】
誤操作なしと判定された場合には、ステップ２４（S２４）において、音声認識手段１１０は、音声信号保持手段１０４から出力された音声信号を音声認識して、認識結果を出力する。
【００４７】
誤操作ありと判定された場合には、ステップ２６（S２６）において、誤操作通知手段１１６は、誤操作の種類に応じたメッセージをユーザに通知する。例えば、誤操作通知手段１１６は、図３に示される条件に基づいて、「ボタンを押してから発話してください」「発話が終了してからボタンを離してください」等のメッセージを出力する。
【００４８】
なお、ここでは簡単のため、ステップ２２（S２２）において誤操作なしと判定された場合に、音声認識手段１１０が音声認識を行うとして説明した。実際には、音声認識手段１１０は、発話開始タイミングの指示が取得された時点で音声認識を開始して、入力される音声信号を逐次受け取って音声認識を進めるようにしてもよい。この場合、誤操作ありと判定された時点で、音声認識手段１１０は、音声認識を停止してもよい。
【００４９】
以上説明したように、本実施の形態にかかる音声認識システム１は、発話開始指示の通知があるまで発話区間検出処理を行わないため、発話区間検出の処理負荷を少なくすることができる。これにより、音声認識システム１は、発話区間検出処理負荷が誤操作を検知する処理に与える影響を小さくすることができるため、ユーザの誤操作を精度よく検知することができる。
【００５０】
また、音声認識システム１は、発話タイミング指示の時刻情報に基づいて認識対象区間を限定するため、認識処理を常時行う場合に比べ、音声認識の処理負荷を少なくすることができる。
【００５１】
さらに、音声認識システム１は、音声信号保持手段１０４を有し、発話開始の指示から一定時間遡って発話区間検出処理を行うため、発話開始の指示が実際の発話開始より遅れた場合でも、発話区間を精度よく検出できる。
【００５２】
＜第２の実施形態＞
次に、本発明にかかる音声認識システムの第２の実施形態について説明する。
【００５３】
図５は、本発明の第２の実施形態にかかる音声認識システム２の機能構成を示すブロック図である。
【００５４】
図５に示すように、本発明の第２の実施形態にかかる音声認識システム２は、第１の実施形態にかかる音声認識システム１と比較すると、音声信号保持手段１０４のかわりに発話区間検出手段１０６が音声認識手段１１０に音声信号を出力する点が異なる。さらに、発話タイミング指示取得手段１０２が、音声認識手段１１０に発話タイミングの指示を通知しない点も異なる。
【００５５】
発話区間検出手段１０６は、音声信号保持手段１０４から入力された音声信号から、ユーザの発話区間を検出し、その開始・終了時刻の情報を誤操作通知手段１１６に出力する。この際、発話区間検出手段１０６は、発話区間の前後に一定長のマージンを付加してもよい。また、発話区間検出手段１０６は、音声信号保持手段１０４から入力された音声信号を、音声認識手段１１０に出力する。
【００５６】
音声認識手段１１０は、前記音声信号保持手段１０４により入力された音声信号の一部の区間に対して音声認識を行う。音声認識手段１１０は、発話区間検出手段１０６により検出された発話区間に基づいて、音声認識の対象となる区間を決定する。
【００５７】
その他の動作は、本発明の第１の実施形態と同じである。
【００５８】
以上説明したように、本実施の形態にかかる音声認識システム２は、音声認識の対象を、発話区間に基づいて限定するため、処理負荷を少なくすることができる。なぜなら、誤操作がない場合には、発話区間検出手段１０６で検出される発話区間は、発話開始の指示から発話終了の指示までの区間の一部分であり、発話タイミングが指示された区間と比べて短いからである。
【００５９】
＜第３の実施形態＞
次に、本発明にかかる音声認識システムの第３の実施形態について説明する。
【００６０】
図６は、本発明の第３の実施形態にかかる音声認識システム３の機能構成を示すブロック図である。
【００６１】
図６に示すように、本発明の第３の実施形態にかかる音声認識システム３は、第２の実施形態にかかる音声認識システム２と比較すると、音声認識手段１１０が発話区間特定手段１１８を有し、特定した発話区間情報を誤操作検知手段１０８に出力する点が異なる。
【００６２】
本実施形態では、簡単のために離散単語認識を例にして説明するが、連続単語認識にも同様に適用可能である。
【００６３】
音声認識手段１１０は、認識対象の単語が格納された音声認識辞書１１２を用いて、対象となる区間に対して音声認識を行う。
【００６４】
具体的には、音声認識手段１１０は、音声認識辞書１１２に格納された各認識対象の単語の読みの情報をもとに、音響モデル１１４を用いて各単語の標準パタンを生成する。例えば、音響モデルとして音素のＨＭＭ（隠れマルコフモデル）を用いる場合には、音声認識手段１１０は、単語の読みに従って音素のＨＭＭを連結して、単語の標準パタンを構成する。その際、音声認識手段１１０は、無音のＨＭＭを前後に付加する。無音のＨＭＭは、背景雑音等を表現するモデルとして、音響モデル１１４内にあらかじめ記憶されている。音声認識手段１１０は、発話区間検出手段１０６によって切り出された入力音声信号と、各単語の標準パタンとを照合して、各単語に対する尤度を算出する。音声認識手段１１０は、尤度の最も高い単語を求め、認識結果とする。
【００６５】
発話区間特定手段１１８は、音声認識の対象となる区間の中で、認識対象の単語が発話された区間を特定する。
【００６６】
具体的には、発話区間特定手段１１８は、入力された音声信号と、音声認識手段１１０の認識結果の単語の標準パタンとの時間の対応付けを行う。発話区間特定手段１１８は、入力された音声信号の中で、単語の前後の無音パタンを除く部分に対応づけられる区間を求める。発話区間特定手段１１８は、対応づけられた区間の開始および終了の時刻情報を、誤操作検知手段１０８に出力する。
【００６７】
音声認識手段１１０はまた、リジェクション機能を有する。具体的には、音声認識手段１１０は、入力された音声信号が音声認識辞書１１２に格納されている認識対象の単語のいずれにも合致しないと判定した場合、認識結果を棄却する。
【００６８】
発話区間特定手段１１８は、認識結果が棄却された場合に、発話区間がなかったという情報を誤操作検知手段１０８に出力する。
【００６９】
誤操作検知手段１０８は、発話区間検出手段１０６により検出された発話区間を、発話区間特定手段１１８により特定された区間に基づいて変更（例えば、置換など）した上で、ユーザの発話タイミング指示の誤操作の有無および種類の判定を行う。なお、誤操作検知手段１０８は、発話区間検出手段１０６の検出結果を受け取らずに、発話区間特定手段１１８の結果を用いてもよい。
【００７０】
以上説明したように、本実施の形態にかかる音声認識システム３は、認識対象の単語の情報を用いて音声認識を行うことで、実際の発話区間と雑音区間を詳細に区別することができる。そのため、音声認識システム３は、実際の発話区間、すなわち、より正確な発話区間の情報を用いて誤操作の判定を行うことができる。
【００７１】
また、音声認識システム３は、音声認識手段１１０がリジェクション機能を有し、音声入力を意図したユーザの発話ではない区間をキャンセルすることができるので、精度よく発話区間を検出できる。そのため、音声認識システム３は、ユーザの誤操作を精度よく検知することができる。
【００７２】
＜第４の実施形態＞
次に、本発明にかかる音声認識システムの第４の実施形態について説明する。
【００７３】
図７は、本発明の第４の実施形態にかかる音声認識システム４の機能構成を示すブロック図である。
【００７４】
発話タイミング指示取得手段１０２は、発話開始の指示を含むユーザによる発話タイミングの指示を、音声信号保持手段１０４および誤操作検知手段１０８に出力する。
【００７５】
音声信号保持手段１０４は、入力される音声信号を保持し、発話タイミング指示取得手段１０２により発話開始の指示が入力された場合、保持している音声信号を発話区間検出手段１０６に出力する。また、音声信号保持手段１０４は、発話タイミング指示取得手段１０２により発話開始タイミングの指示が入力された時点で、それ以降に入力される音声信号を発話区間検出手段１０６に出力する。
【００７６】
発話区間検出手段１０６は、音声信号保持手段１０４により出力された音声信号から発話区間を検出する。
【００７７】
誤操作検知手段１０８は、発話区間検出手段により検出された発話区間と、発話タイミング指示取得手段１０２により取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する。
【００７８】
以上説明したように、本実施の形態にかかる音声認識システム４によれば、発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる。
【産業上の利用可能性】
【００７９】
本発明にかかる音声認識システムは、音声によるデータ入力、テキスト入力および機器操作の指示を行う音声認識装置といった用途に適用可能である。
【符号の説明】
【００８０】
１音声認識システム１
２音声認識システム２
３音声認識システム３
４音声認識システム４
１０ CPU
１２メモリ
１４ HDD
１６通信IF
１８出力装置
２０入力装置
２２音声入力装置
２４バス
１００音声入力手段
１０２発話タイミング指示取得手段
１０４音声信号保持手段
１０６発話区間検出手段
１０８誤操作検知手段
１１０音声認識手段
１１２音声認識辞書
１１４音響モデル
１１６誤操作通知手段
１１８発話区間特定手段

【特許請求の範囲】
【請求項１】
発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得手段と、
入力される音声信号を保持し、前記発話タイミング指示取得手段により発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持手段と、
前記音声信号保持手段により出力された音声信号から発話区間を検出する発話区間検出手段と、
前記発話区間検出手段により検出された発話区間と、前記発話タイミング指示取得手段により取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知手段と、
を備える音声認識システム。
【請求項２】
前記音声信号保持手段は、入力される音声信号のうち最新の所定時間分を保持する、
請求項１に記載の音声認識システム。
【請求項３】
前記誤操作検知手段は、前記発話区間検出手段により検出された発話区間の時刻情報と、前記発話タイミング指示取得手段により取得された発話タイミングの指示の有無および時刻情報とを比較して、ユーザの誤操作を検知する、
請求項１または２に記載の音声認識システム。
【請求項４】
前記誤操作検知手段は、発話開始の指示が遅いこと、発話終了の指示が早いことの少なくともいずれかをユーザの誤操作として検知する、
請求項１〜３のいずれかに記載の音声認識システム。
【請求項５】
前記音声信号保持手段により出力された音声信号の少なくとも一部の区間に対して音声認識を行う音声認識手段をさらに有する、
請求項１〜４のいずれかに記載の音声認識システム。
【請求項６】
前記音声認識手段は、前記発話区間検出手段により検出された発話区間に基づいて、音声認識の対象となる区間を決定する、
請求項５に記載の音声認識システム。
【請求項７】
前記音声認識手段は、前記誤操作検知手段が誤操作を検知した場合、音声認識を停止する、
請求項５または６に記載の音声認識システム。
【請求項８】
前記音声認識手段は、認識対象の単語が格納された音声認識辞書を用いて音声認識を行い、前記一部の区間の中で認識対象の単語が発話された区間を特定し、
前記誤操作検知手段は、前記発話区間検出手段により検出された発話区間を、前記音声認識手段により特定された区間に基づいて変更した上で、ユーザの誤操作を検知する、
請求項５〜７のいずれかに記載の音声認識システム。
【請求項９】
前記誤操作検知手段が誤操作を検知した場合、検知した誤操作の種類に応じたメッセージを通知する誤操作通知手段をさらに有する、
請求項１〜８のいずれかに記載の音声認識システム。
【請求項１０】
発話開始の指示を含むユーザによる発話タイミングの指示を取得し、
入力される音声信号を保持し、前記発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力し、
前記出力された音声信号から発話区間を検出し、
前記発話区間と、前記発話タイミングの指示とに基づいて、ユーザの誤操作を検知する、
音声認識方法。
【請求項１１】
コンピュータに、
発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得ステップと、
入力される音声信号を保持し、前記発話タイミング指示取得ステップにより発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持ステップと、
前記音声信号保持ステップにより出力された音声信号から発話区間を検出する発話区間検出ステップと、
前記発話区間検出ステップにより検出された発話区間と、前記発話タイミング指示取得ステップにより取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知ステップと、
を実行させる音声認識プログラム。

【図１】