説明

音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム

【課題】音声認識結果が誤認識か否かを判定する音声認識の誤認識判定装置を提供する。
【解決手段】音声認識の誤認識判定装置は、音声データと音声コマンド辞書21とに基いて音声コマンドを認識する音声認識部12と、音声認識部12による認識結果に対する応答処理を実行する認識結果応答部と、応答処理後一定時間内にユーザの顔画像データを取得する顔画像取得部15と、発声データを取得する発声データ取得部16と、顔画像取得部15により取得された顔画像データに基いて予め定めた表情及び頭部動作を画像認識する顔画像認識部17と、発声データ取得部16により取得された発声データと無意識発話辞書22とに基いて無意識発話を認識する無意識発話認識部18と、顔画像認識部17により予め定めた表情か頭部動作が認識された場合又は無意識発話認識部18により無意識発話が認識された場合に認識結果が誤認識と判定する誤認識判定部19とを備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザが発声した音声の認識が誤認識か否かを判定する音声認識の誤認識判定装置及び音声認識の誤認識判定プログラムに関する。
【背景技術】
【0002】
従来、様々な分野において、ユーザが発声した音声を認識し、その認識結果に応じて機器を動作させる音声認識装置が用いられている。このような音声認識装置では、音声認識が正しく行われないと、ユーザが意図していない誤認識による機器動作が行われ、ユーザは不快感を覚える場合がある。
【0003】
このような場合に、音声認識が正しく行われなかったことを、誤認識による機器動作を取り消すための機器動作などのユーザの応答によって判定し、その際にユーザに不快感を与えない処置を講ずる音声認識装置(例えば、特許文献1参照。)が提案されている。
【0004】
また、コマンド間違いなど、ユーザが誤操作を行った場合の無意識発話から誤操作を認識し、適切な応答を返す無意識発話による制御装置(例えば、特許文献2参照。)も提案されている。
【特許文献1】特開2001−228894号公報
【特許文献2】特開平5−165600号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の音声認識装置では、音声認識の誤りをユーザの機器操作の反応によって判定している。従って、ユーザによる機器操作が行われた後に判定を行うため、取り消し作業などが煩わしくなる。さらに、ユーザによる取り消し機器操作が行われるまで判定を待つ必要があり、時間がかるという問題点もある。
【0006】
また、特許文献2の無意識発話による制御装置では、ユーザ自身のエラーを対象としており、装置側のエラーへの対応は不十分である。また、無意識発話という音声だけを対象としており、エラーの検出精度にも問題点がある。
【0007】
このように音声認識装置では、誤認識は避けることができない。通常ユーザは、自分が入力した音声と異なる結果が出力された場合(例えば、入力「アバトン」に対して、出力「甘党(あまとう)」)、無意識に何らかの反応を見せる。具体的には、入力と著しく結果が異なった場合の「笑い(苦笑)」や「驚き」、何度も誤認識して目的が達成できないときの「怒り」、「落胆」、「あきれ」、「悲しみ」などの表情を見せたりする。さらに、首をかしげたり、首を振ったり、のけぞったりする頭部のジェスチャ動作をしたり、「えっ」、「うそ」、「何で」などの発声を無意識にしてしまうことがある
本発明は、上記問題点を解決するために成されたものであり、ユーザ発話の音声認識結果が誤りである場合のユーザの反応に着目し、誤認識か否かを精度よく判定する音声認識の誤認識判定装置及び音声認識の誤認識判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、請求項1記載の音声認識の誤認識判定装置は、ユーザにより入力された音声データと、音声データに対応する音声コマンドを登録した音声コマンド辞書とに基づいて、入力された音声データに対応する音声コマンドを認識する音声コマンド認識手段と、前記音声コマンド認識手段による認識結果に対する応答処理を実行する認識結果応答手段と、前記認識結果応答手段による応答処理を実行した後、予め定めた時間内において、前記ユーザの顔画像データを取得する顔画像取得手段と、前記予め定めた時間内において、前記ユーザの発声データを取得する発声データ取得手段と、前記顔画像取得手段により取得された顔画像データに基づいて、予め定めた表情及び予め定めた頭部動作を画像認識する画像認識手段と、前記発声データ取得手段により取得された発声データと、発声データに対応する無意識発話を登録した無意識発話辞書とに基づいて、取得された発声データに対応する無意識発話を認識する無意識発話認識手段と、前記画像認識手段により前記予め定めた表情又は前記予め定めた頭部動作が認識された場合、又は、前記無意識発話認識手段により無意識発話が認識された場合に、前記音声コマンド認識手段による認識結果が誤認識と判定する誤認識判定手段と、を備えている。
【0009】
請求項1記載の発明によれば、ユーザ発話の認識結果に対応した応答処理に対してユーザが見せる表情や頭部動作又は無意識発話に基づいて、音声認識結果の誤認識を判定することができる。
【0010】
請求項2記載の音声認識の誤認識判定装置は、請求項1記載の音声認識の誤認識判定装置において、前記認識結果応答手段は、前記音声コマンド認識手段による認識結果を出力する認識結果出力手段、及び、前記音声コマンド認識手段による認識結果に対応して機器を動作させる機器動作手段の少なくとも何れか一方である。
【0011】
請求項2記載の発明によれば、ユーザ発話の認識結果に対応した認識結果の出力又は機器動作に対してユーザが見せる反応に基づいて、音声認識結果の誤認識を判定することができる。
【0012】
請求項3記載の音声認識の誤認識判定装置は、請求項1又は請求項2記載の音声認識の誤認識判定装置において、前記誤認識判定手段により前記音声コマンド認識手段による認識結果が誤認識と判定された場合に、前記機器動作手段による機器の動作を停止する機器動作制御手段を、更に備えている。
【0013】
請求項3記載の発明によれば、ユーザ発話の認識結果が誤認識と判定された場合に、誤認識に基づく機器動作を停止することができる。
【0014】
請求項4記載の音声認識の誤認識判定装置は、請求項1から請求項3の何れか1項記載の音声認識の誤認識判定装置において、前記予め定めた表情は笑い、驚き、怒り、落胆、あきれ、悲しみなどの前記音声コマンド認識手段が誤認識したときに前記ユーザが示す表情であり、前記予め定めた頭部動作は首かしげ、首振り、のけぞりなどの前記音声コマンド認識手段が誤認識したときに前記ユーザが示す動作である。
【0015】
請求項4記載の発明によれば、ユーザ発話の認識結果に対応した応答処理に対して、ユーザが見せる表情及び頭部動作については、笑い、驚き、怒り、落胆、あきれ、悲しみなどの表情を見せたとき、又は首かしげ、首振り、のけぞりなどの頭部動作をしたときに認識結果が誤認識と判定することができる。
【0016】
請求項5記載の音声認識の誤認識判定プログラムは、コンピュータを、請求項1から請求項4の何れか1項記載の音声認識の誤認識判定装置を構成する各手段として機能させる。
【0017】
請求項5記載の発明によれば、ユーザ発話の認識結果に対応した応答処理に対してユーザが見せる表情や頭部動作又は無意識発話に基づいて、音声認識結果の誤認識を判定することができる。
【0018】
請求項6記載の音声認識の誤認識判定プログラムは、コンピュータを、ユーザにより入力された音声データと、音声データに対応する音声コマンドを登録した音声コマンド辞書とに基づいて、入力された音声データに対応する音声コマンドを認識する音声コマンド認識手段、前記音声コマンド認識手段による認識結果に対する応答処理を実行する認識結果応答手段、前記認識結果応答手段による応答処理を実行した後、予め定めた時間内において、前記ユーザの顔画像データを取得する顔画像取得手段、前記予め定めた時間内において、前記ユーザの発声データを取得する発声データ取得手段、前記顔画像取得手段により取得された顔画像データに基づいて、予め定めた表情及び予め定めた頭部動作を画像認識する画像認識手段、前記発声データ取得手段により取得された発声データと、発声データに対応する無意識発話を登録した無意識発話辞書とに基づいて、取得された発声データに対応する無意識発話を認識する無意識発話認識手段、及び前記画像認識手段により前記予め定めた表情又は前記予め定めた頭部動作が認識された場合、又は、前記無意識発話認識手段により無意識発話が認識された場合に、前記音声コマンド認識手段による認識結果が誤認識と判定する誤認識判定手段、として機能させる。
【0019】
請求項6記載の発明によれば、ユーザ発話の認識結果に対応した応答処理に対してユーザが見せる表情や頭部動作又は無意識発話に基づいて、音声認識結果の誤認識を判定することができる。
【発明の効果】
【0020】
以上説明したように、本発明によれば、ユーザ発話の音声認識結果が誤りであるか否かを精度よく判定することができるという効果が得られる。
【発明を実施するための最良の形態】
【0021】
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。本実施の形態では、音声認識機能を持つ車両用カーナビゲーションシステム(以下、「ナビ」という。)に本発明に係る音声認識の誤認識判定装置を用いた場合の機器操作に関して説明する。なお、本発明は、上述の実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上の変更をされたものにも適用可能である。
【0022】
図1は、本発明の実施の形態に係る音声認識の誤認識判定装置の構成を示すブロック図である。同図に示すように、音声認識の誤認識判定装置は、音声データ入力部11と、音声認識部12と、コマンド実行部13と、認識結果出力部14と、顔画像取得部15と、発声データ取得部16と、顔画像認識部17と、無意識発話認識部18と、音声コマンド辞書21と、無意識発話辞書22と、を備えている。
【0023】
音声データ入力部11は、マイクを含んで構成され、音声コマンド実行のために入力されるユーザの音声データを受理する。
【0024】
音声認識部12は、音声データ入力部11により入力された音声データを音声コマンド辞書21を用いて音声認識する。
【0025】
コマンド実行部13は、音声認識部12により認識された音声コマンドを実行して機器操作を行う。
【0026】
認識結果出力部14は、スピーカを含んで構成され、音声認識部12により認識された音声コマンドに基づくメッセージをスピーカから音声出力する。また、認識結果出力部14は、メッセージを音声出力ではなく、ナビの地図表示画面に文字表示しても、或いは、両方同時に行ってもよい。
【0027】
顔画像取得部15は、CCDカメラを含んで構成され、コマンド実行部13による音声コマンドの実行および認識結果出力部14によるメッセージの出力が行われた後の一定時間、ユーザの顔画像データを取得する。
【0028】
発声データ取得部16は、マイクを含んで構成され、コマンド実行部13による音声コマンドの実行および認識結果出力部14によるメッセージの出力が行われた後の一定時間、ユーザが発声する音声データを取得する。
【0029】
顔画像認識部17は、顔画像取得部15により取得されたユーザの顔画像データに対して画像認識を行い、「笑い」、「驚き」、「怒り」、「落胆」、「あきれ」、「悲しみ」などの表情、及び、「首かしげ」、「首振り」、「のけぞり」などの頭部ジェスチャの何れかが認識された場合に誤認識と判定する。
【0030】
無意識発話認識部18は、発声データ取得部16により取得された発声データを音声コマンド辞書21及び無意識発話辞書22を用いて音声認識し、無意識発話辞書22に登録された単語が1つ以上認識された場合に誤認識と判定する。
【0031】
誤認識判定部19は、顔画像認識部17及び無意識発話認識部18の判定結果に基づいて、音声認識部12による認識結果が誤認識であったか否かを判定する。本実施の形態では、誤認識判定部19は、顔画像認識部17及び無意識発話認識部18の何れか一方でも誤認識と判定した場合には誤認識と判定する。
【0032】
音声コマンド辞書21は、ナビの音声コマンドとその読みとが対で登録された辞書である。図2は、音声コマンド辞書21の一例を示す。
【0033】
無意識発話辞書22は、ユーザが発した音声コマンドが誤認識されたと分かったときに無意識に発すると考えられる発話とその読みとが対で登録された辞書である。無意識発話辞書22は、別途実施する音声認識実験などで音声入力に対し誤認識をわざと生じさせ、誤認識直後のユーザの発話を収集するなどして予め作成しておけばよい。図3は、無意識発話辞書22の一例を示す。
【0034】
以上のように構成された音声認識の誤認識判定装置は、ユーザにより入力された音声コマンドの認識結果に対するユーザの反応に基づいて、認識結果が誤認識か否かを判定する。図4は、音声認識の誤認識判定装置の作用の流れを示すフローチャートである。
【0035】
ステップ100では、音声データ入力部11が、ユーザがナビの操作のために発したコマンド発話を受理する。本実施例では、ナビの地図画面にコンビニエンスストアのアイコンを表示するために「コンビニ表示」と入力されたとする。
【0036】
ステップ102では、音声認識部12が、音声データ入力部11が受理した音声データを音声コマンド辞書21を用いて音声認識する。本実施例では、音声認識部12が、入力された音声データに対し、音声コマンド辞書21に登録された音声コマンドの中から「2画面表示」と誤認識したとする。
【0037】
ステップ104では、コマンド実行部13が音声認識部12により認識された音声コマンドを実行すると共に、認識結果出力部14が認識された音声コマンドに基づいてメッセージを出力する。本実施例では、コマンド実行部13は、認識結果に基づいて、ナビの地図画面表示を2画面分割する機器操作コマンドを実行する。また、認識結果出力部14は、認識結果に基づいて、「2画面表示にします」とスピーカを用いて音声出力する。認識結果出力部14による出力は、音声出力に限らず、ナビの画面に文字出力してもよい。
【0038】
ステップ106では、コマンド実行部13による機器操作コマンドの実行及び認識結果出力部14にいる認識結果に基づくメッセージ出力がなされた後の一定時間において、顔画像取得部15がユーザの顔画像データを取得すると共に、発声データ取得部16がユーザが発声する音声データを取得する。顔画像データ及び音声データを取得する時間は、コマンド実行及びメッセージ出力により認識結果が誤認識と分かったときの反応を捉えるための時間として、本実施の形態では5秒とする。また、本実施例では、ユーザは「驚き」の表情をみせ、「何で」と発声したとする。
【0039】
ステップ108では、顔画像認識部17が、顔画像取得部15が取得した顔画像データに対して画像認識を行い、「笑い」、「驚き」、「怒り」、「落胆」、「あきれ」「悲しみ」などの表情、及び、「首かしげ」、「首振り」、「のけぞり」などの頭部ジェスチャの何れか1つ以上が認識された場合に誤認識と判定する。本実施例では、驚きの表情が認識され、音声認識部12による認識結果が誤認識と判定される。
【0040】
ここで、表情の認識方法は、公知の如何なる方法でもよいが、例えば文献1(特開2008−146318号「感情推定装置」)にあるような方法で行う。具体的には、予め認識対象とする各表情(笑い、驚き、怒り、落胆、あきれ、悲しみ、通常状態)をニューラルネットワークによって各表情の特徴量(表情マップ)を学習しておく。次に、ユーザ反応データとして顔画像取得部15により取得された顔画像を加工処理したデータと上記表情マップとの類似度を算出し、最も類似度の高いものを表情認識結果として採用する。
【0041】
また、頭部ジェスチャの認識方法も公知の如何なる方法でもよいが、例えば文献2(「対話ロボットの動作に頑健な頭部ジェスチャ認識」、電子情報通信学会論文誌D Vol.J89-D No.7 pp.1514-1522)にあるような方法で行う。具体的には、予め対象とする頭部ジェスチャ(首かしげ、首振り、のけぞり、通常状態)の顔画像データを多数収集しておき、各ジェスチャに対する顔画像の特徴点(目尻位置、鼻位置など)をHMM(Hidden Marcov Model)を用いてモデル化する。次に、ユーザ反応データとして顔画像取得部15により取得された顔画像と前記HMMによるモデルとのマッチング度合いによって、頭部ジェスチャを決定する。
【0042】
ステップ110では、無意識発話認識部18が、発声データ取得部16によりユーザの発声データが取得されたか否かを判定し、発声データが取得された場合にはステップ112に進み、発声データが取得されなかった場合にはステップ114に進む。
【0043】
ステップ112では、無意識発話認識部18が、発声データ取得部16により取得されたユーザの発声データを音声コマンド辞書21及び無意識発話辞書22を用いて音声認識し、無意識発話辞書22に登録された単語が1つ以上認識された場合に誤認識と判定する。本実施例では、無意識発話認識部18が、上述の「何で」の発声に対し、音声コマンド「拡大」と認識したものとする。この場合、無意識発話は認識されなかったので、音声認識部12による認識結果が正しいと判定される。
【0044】
ステップ114では、誤認識判定部19が、顔画像認識部17及び無意識発話認識部18の判定結果に基づいて、音声認識部12による認識結果が誤認識であったか否かを判定する。本実施例では、顔画像認識部17では誤認識と判定され、無意識発話認識部18では正しいと判定されたため、音声認識部12による認識結果は誤認識と判定される。
【0045】
以上のように、本実施の形態に係る音声認識の誤認識判定装置は、音声入力に対する音声認識結果出力直後のユーザの反応から、認識結果が誤認識であるか否かを精度よく判定することができる。また、誤認識と判定した場合には、その後の対話処理をスムーズに進めることができる。
【0046】
なお、本発明は、上述の実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上の変更をされたものにも適用可能である。
【0047】
例えば、本実施の形態では、顔画像取得部15及び顔画像認識部17と、発声データ取得部16及び無意識発話認識部18との両方を用いているが、何れか一方のみを用いて判定してもよい。
【0048】
また、誤認識判定部19によりユーザのコマンド発話が誤認識されたと判定された場合には、誤認識に基づくコマンド操作を停止するように機器動作を制御する構成としてもよい。
【図面の簡単な説明】
【0049】
【図1】本発明の実施の形態に係る音声認識の誤認識判定装置の構成を示すブロック図である
【図2】音声コマンド辞書の構成例を示す図である。
【図3】無意識発話辞書の構成例を示す図である。
【図4】本発明の実施の形態に係る音声認識の誤認識判定装置の作用の流れを示すフローチャートである。
【符号の説明】
【0050】
11 音声データ入力部
12 音声認識部
13 コマンド実行部
14 認識結果出力部
15 顔画像取得部
16 発声データ取得部
17 顔画像認識部
18 無意識発話認識部
19 誤認識判定部
21 音声コマンド辞書
22 無意識発話辞書

【特許請求の範囲】
【請求項1】
ユーザにより入力された音声データと、音声データに対応する音声コマンドを登録した音声コマンド辞書とに基づいて、入力された音声データに対応する音声コマンドを認識する音声コマンド認識手段と、
前記音声コマンド認識手段による認識結果に対する応答処理を実行する認識結果応答手段と、
前記認識結果応答手段による応答処理を実行した後、予め定めた時間内において、前記ユーザの顔画像データを取得する顔画像取得手段と、
前記予め定めた時間内において、前記ユーザの発声データを取得する発声データ取得手段と、
前記顔画像取得手段により取得された顔画像データに基づいて、予め定めた表情及び予め定めた頭部動作を画像認識する画像認識手段と、
前記発声データ取得手段により取得された発声データと、発声データに対応する無意識発話を登録した無意識発話辞書とに基づいて、取得された発声データに対応する無意識発話を認識する無意識発話認識手段と、
前記画像認識手段により前記予め定めた表情又は前記予め定めた頭部動作が認識された場合、又は、前記無意識発話認識手段により無意識発話が認識された場合に、前記音声コマンド認識手段による認識結果が誤認識と判定する誤認識判定手段と、
を備えた音声認識の誤認識判定装置。
【請求項2】
前記認識結果応答手段は、前記音声コマンド認識手段による認識結果を出力する認識結果出力手段、及び、前記音声コマンド認識手段による認識結果に対応して機器を動作させる機器動作手段の少なくとも何れか一方である請求項1記載の誤認識判定装置。
【請求項3】
前記誤認識判定手段により前記音声コマンド認識手段による認識結果が誤認識と判定された場合に、前記機器動作手段による機器の動作を停止する機器動作制御手段を、更に備えた請求項1又は請求項2記載の音声認識の誤認識判定装置。
【請求項4】
前記予め定めた表情は笑い、驚き、怒り、落胆、あきれ、悲しみなどの前記音声コマンド認識手段が誤認識したときに前記ユーザが示す表情であり、前記予め定めた頭部動作は首かしげ、首振り、のけぞりなどの前記音声コマンド認識手段が誤認識したときに前記ユーザが示す動作である請求項1から請求項3の何れか1項記載の音声認識の誤認識判定装置。
【請求項5】
コンピュータを、請求項1から請求項4の何れか1項記載の音声認識の誤認識判定装置を構成する各手段として機能させるための音声認識の誤認識判定プログラム。
【請求項6】
コンピュータを、
ユーザにより入力された音声データと、音声データに対応する音声コマンドを登録した音声コマンド辞書とに基づいて、入力された音声データに対応する音声コマンドを認識する音声コマンド認識手段、
前記音声コマンド認識手段による認識結果に対する応答処理を実行する認識結果応答手段、
前記認識結果応答手段による応答処理を実行した後、予め定めた時間内において、前記ユーザの顔画像データを取得する顔画像取得手段、
前記予め定めた時間内において、前記ユーザの発声データを取得する発声データ取得手段、
前記顔画像取得手段により取得された顔画像データに基づいて、予め定めた表情及び予め定めた頭部動作を画像認識する画像認識手段、
前記発声データ取得手段により取得された発声データと、発声データに対応する無意識発話を登録した無意識発話辞書とに基づいて、取得された発声データに対応する無意識発話を認識する無意識発話認識手段、及び
前記画像認識手段により前記予め定めた表情又は前記予め定めた頭部動作が認識された場合、又は、前記無意識発話認識手段により無意識発話が認識された場合に、前記音声コマンド認識手段による認識結果が誤認識と判定する誤認識判定手段、
として機能させるための音声認識の誤認識判定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate