説明

音声認識装置

【課題】誤認識にともなう不快感およびストレスを軽減することができ、操作性を向上させることができる「音声認識装置」を提供すること。
【解決手段】再入力要求出力手段12により、音声認識の誤認識の回数の増加にともなって、再入力要求音声に含まれる謝罪表現の丁寧さの度合を高めること。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置に係り、特に、発話音声に対する音声認識を行う音声認識装置に関する。
【背景技術】
【0002】
一般に、音声認識は、人の発話音声をコンピュータによって解析し、発話内容を文字データとして取り出すことによって、発話音声が表す言語を認識する処理として知られている。
【0003】
音声認識の方法としては、例えば、大量の発話を記録した学習用データから音声の特徴を学習し、入力された発話音声とそれらの特徴と照らし合わせながら、最も尤もらしい言語系列を認識結果として出力する手法等が知られている。
【0004】
このような音声認識を行う音声認識装置は、キーボード、リモコンまたはタッチパネル等に代わるコマンド入力手段として注目を集めており、パソコンや車載器等、その利用分野は多岐にわたっている。
【0005】
【特許文献1】特開2000−193463号公報
【特許文献2】特開平11−37766号公報
【特許文献3】特開2001−166794号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、現状における音声認識装置は、必ずしも発話音声に対する音声認識を正確に行うことができず、誤認識が生じる場合があった。
【0007】
そして、このような誤認識が複数回生じると、ユーザは、不快感が募ることになり、さらに、誤認識が複数回生じた上で最終的に音声認識に失敗する場合には、不快感は非常に大きなものとなる。
【0008】
図3は、このような誤認識が生じた場合における現状の音声認識装置の動作例として、車載用ナビゲーション装置に適用される音声認識装置の動作例を示したものである。
【0009】
図3に示すように、まず、ステップ1(ST1)においては、音声認識装置側の発話によって、ユーザに対して住所の音声入力を促す。
【0010】
次いで、ステップ2(ST2)においては、ユーザの発話により、音声認識装置に対して発話音声「トウキョウトシナガワク」を入力する。
【0011】
次いで、ステップ3(ST3)においては、音声認識装置側の発話によって、ステップ2(ST2)において入力された発話音声に対する音声認識の認識結果「ドウキョウトタイトウク」を出力した後に、「ピー」という音を発した上で次のコマンドの入力を促す。
【0012】
しかしながら、このステップ3(ST3)における認識結果は誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ4(ST4)において、ボタン操作によって「戻る」のコマンドを選択する。
【0013】
次いで、ステップ5(ST5)においては、音声認識装置側の発話によって、再びユーザに対して住所の音声入力を促す。
【0014】
次いで、ステップ6(ST6)においては、ユーザの発話により、音声認識装置に対して発話音声「トウキョウトシナガワク」を再び入力する。
【0015】
次いで、ステップ7(ST7)においては、音声認識装置側の発話によって、ステップ6(ST6)において入力された発話音声に対する音声認識の認識結果「ドウキョウトチュウオウク」を出力した後に、「ピー」という音を発した上で次のコマンドの入力を促す。
【0016】
しかしながら、このステップ7(ST7)における認識結果はまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ8(ST8)において、「戻る」のコマンドを再び選択する。このとき、2度目の誤認識によってユーザは不快感が生じて苛々するであろう。
【0017】
次いで、ステップ9(ST9)においては、音声認識装置側の発話によって、再びユーザに対して住所の音声入力を促す。
【0018】
次いで、ステップ10(ST10)においては、ユーザの発話により、音声認識装置に対して発話音声「トウキョウトシナガワク」を再び入力する。
【0019】
次いで、ステップ11(ST11)においては、音声認識装置側の発話によって、ステップ10(ST10)において入力された発話音声に対する音声認識の認識結果「ドウキョウトシンジュクク」を出力した後に、「ピー」という音を発した上で次のコマンドの入力を促す。
【0020】
しかしながら、このステップ11(ST11)における認識結果もまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ12(ST12)において、「戻る」のコマンドを再び選択する。このとき、3度目の誤認識によってユーザの不快感はさらに大きくなるであろう。
【0021】
次いで、ステップ13(ST13)においては、音声認識装置側の発話により、音声認識に失敗した旨が通知されて、コマンドの再入力の要求はなされなくなる。これにより、ユーザの不快感は極めて大きなものになるであろう。
【0022】
このように、従来から、音声認識装置においては、誤認識が生じる度に、ユーザに不快感を与えるばかりでなく、このような不快感を与えたままユーザに発話音声の再入力を繰り返し強いることになり、操作上のストレスも与えてしまうといった問題が発生していた。
【0023】
そこで、本発明は、このような問題点に鑑みなされたものであり、誤認識にともなう不快感および操作上のストレスを軽減することができる音声認識装置を提供することを目的とするものである。
【課題を解決するための手段】
【0024】
前述した目的を達成するため、本発明に係る音声認識装置は、マイクを介して入力された発話音声が表す言語を認識する音声認識を行う音声認識手段と、この音声認識手段の認識結果を表す音声を、スピーカを介して出力する認識結果出力手段と、この認識結果出力手段によって出力された音声が表す前記認識結果が誤認識である旨の入力が可能とされた誤認識入力手段と、この誤認識入力手段による前記誤認識である旨の入力に応答して、前記発話音声の再入力を要求するための音声である再入力要求音声を、前記スピーカを介して出力する再入力要求出力手段と、前記誤認識が所定回数連続した場合に、前記音声認識に失敗したことを通知するための音声である失敗通知音声を、前記スピーカを介して出力する認識失敗通知手段とを備えた音声認識装置であって、前記再入力要求出力手段は、謝罪表現が含まれた前記再入力要求音声を出力するように形成されているとともに、前記誤認識の回数の増加にともなって、前記再入力要求音声に含まれる謝罪表現の丁寧さの度合いを高めるように形成されていることを特徴としている。
【0025】
そして、このような構成によれば、再入力要求出力手段により、音声認識の誤認識の回数の増加にともなって、再入力要求音声に含まれる謝罪表現の丁寧さの度合を高めることができるので、誤認識にともなう不快感およびストレスを軽減することができる。
【0026】
なお、本明細書において、不快感およびストレスの軽減は、これら不快感およびストレスの発生を未然に抑制するといった意味での軽減の場合のみならず、不快感およびストレスが一旦発生するが直ちに緩和もしくは解消されるといった意味での軽減の場合も含むものとする。換言すれば、音声認識のための一連のユーザ操作における不快感およびストレスの蓄積が、従来よりも軽減されるということである。
【0027】
また、前記認識結果出力手段は、前記誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるように形成されていることが好ましい。
【0028】
そして、このような構成によれば、認識結果出力手段により、誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるようにすることができるので、誤認識にともなう不快感およびストレスをさらに有効に軽減することができる。
【0029】
さらに、前記認識失敗通知手段は、謝罪表現が含まれた前記失敗通知音声を出力するように形成されていることが好ましい。
【0030】
そして、このような構成によれば、認識失敗通知手段により、謝罪表現が含まれた失敗通知音声を出力することができるので、音声認識の失敗にともなう不快感を軽減することができる。
【0031】
さらにまた、音声認識装置本体の動作状態に応じて擬人化されたキャラクタの画像を表示部に表示するキャラクタ表示処理手段を備え、前記キャラクタ表示処理手段は、前記再入力要求音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されているとともに、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるように形成されていることが好ましい。
【0032】
そして、このような構成によれば、キャラクタ表示処理手段により、誤認識の回数の増加にともなって、再入力要求音声の出力の際におけるキャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるようにすることができるので、そのようなキャラクタの画像による癒し効果も手伝って、誤認識にともなう不快感およびストレスをさらに有効に軽減することができる。
【0033】
また、前記認識結果出力手段は、前記誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるように形成され、前記キャラクタ表示処理手段は、前記認識結果を表す音声の出力の際に、前記キャラクタの画像として、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する丁重姿勢の度合いが高まるようなキャラクタの画像を表示するように形成されていることが好ましい。
【0034】
そして、このような構成によれば、キャラクタ表示処理手段により、誤認識の回数の増加にともなって、キャラクタの画像が呈する丁重姿勢の度合を高めることができるので、誤認識にともなう不快感およびストレスをより有効に軽減することができる。
【0035】
さらに、前記認識失敗通知手段は、謝罪表現が含まれた前記失敗通知音声を出力するように形成され、前記キャラクタ表示処理手段は、前記失敗通知音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されていることが好ましい。
【0036】
そして、このような構成によれば、キャラクタ表示処理手段により、失敗通知音声の出力の際に謝罪姿勢を呈するキャラクタの画像を表示することがきるので、音声認識の失敗にともなう不快感をさらに有効に軽減することができる。
【0037】
さらにまた、本発明は、車載器に適用されることが好ましい。
【0038】
そして、このような構成によれば、車載器に適用する場合においても、誤認識にともなう不快感およびストレスの軽減を図ることができるので、ひいては、運転の安全性および快適性を向上させることができる。
【発明の効果】
【0039】
本発明によれば、誤認識にともなう不快感および操作上のストレスを軽減することができる。
【発明を実施するための最良の形態】
【0040】
以下、本発明に係る音声認識装置の実施形態について、図1および図2を参照して説明する。
【0041】
図1は、本実施形態における音声認識装置1を示したものであり、この音声認識装置1は、マイク2および発話ボタン3を有している。
【0042】
ユーザは、発話ボタン3を押し下げた後マイク2に向かって発話することによって、発話音声をマイク2を介して音声認識装置1の内部に入力することが可能とされている。
【0043】
また、本実施形態における音声認識装置1は、音声認識手段としての音声認識部5を有しており、この音声認識部5には、マイク2および発話ボタン3がそれぞれ接続されている。
【0044】
音声認識部5は、発話ボタン3が押し下げられると、音声入力待ち状態となり、マイク2を介してユーザの発話音声が音声認識部5に入力されるようになっている。
【0045】
そして、音声認識部5は、入力された発話音声(音声データ)に対して、発話音声が表す言語を認識する音声認識を行うようになっている。この音声認識は、例えば、認識対象言語の文字列とその音声パターンとを対応付けた音響モデルを、音声辞書データベースにあらかじめ登録しておき、入力された発話音声から算出された特徴量と、音響モデルの特徴量とを比較して、類似度が最も高い音声パターンを検索し、その音声パターンに対応する文字列を発話音声が表す文字列であると認識することによって行うようにしてもよい。
【0046】
さらに、本実施形態における音声認識装置1は、認識結果出力手段としての認識結果出力部6を有しており、この認識結果出力部6には、音声認識部5が接続されている。また、認識結果出力部6には、音声合成部7を介してスピーカ8が接続されている。音声合成部7は、例えば、Text to Speech(TTS)エンジンとされており、テキストベースの情報を入力してオーディオに変換して出力し、音声読み上げを行うようになっている。
【0047】
認識結果出力部6は、音声認識部5から、発話音声に対する音声認識の認識結果を取得するようになっている。そして、認識結果出力部6は取得された認識結果に対応する音声データ(以下、認識結果音声データと称する)を生成し、生成された認識結果音声データを、例えばTTSエンジンを使って1文字分ずつ音声合成部7に出力するようになっている。音声合成部7は、認識結果出力部6から出力された認識結果音声データを文字列(単語)として例えばTTSエンジンに入力して、これをスピーカ8を介して音声出力するようになっている。
【0048】
このようにして、認識結果出力部6により、音声認識部5の認識結果を表す音声が、音声合成部7およびスピーカ8を介して音声出力(トークバック)されるようになっている。
【0049】
そして、ユーザは、この認識結果出力部6によって音声出力された音声を聴取することによって、この音声が表す言語が誤認識であるか否かを判断することができるようになっている。
【0050】
さらにまた、本実施形態における音声認識装置1は、コマンド入力要求出力部10を有しており、このコマンド入力要求出力部10には、発話ボタン3、認識結果出力部6および音声合成部7がそれぞれ接続されている。
【0051】
コマンド入力要求出力部10は、音声認識装置1の動作状態に応じて、ユーザにコマンドの入力を要求するための音声であるコマンド入力要求音声の音声データ(以下、コマンド入力要求音声データと称する)を生成し、生成されたコマンド入力要求音声データを音声合成部7に出力するようになっている。音声合成部7は、コマンド入力要求出力部10から出力されたコマンド入力要求音声データに対応するコマンド入力要求音声を、スピーカ8を介して出力するようになっている。
【0052】
このようにして、コマンド入力要求出力部10により、コマンド入力要求音声が、音声合成部7およびスピーカ8を介して音声出力されるようになっている。
【0053】
本実施形態において、コマンド入力要求出力部10は、認識結果出力部6による認識結果の出力の際に、現段階における最新の入力済みコマンド(すなわち、当該認識結果に対応する発話音声)の次のコマンド(例えば、発話音声)の入力を要求する音声を出力するようにしてもよい。
【0054】
また、本実施形態における音声認識装置1は、誤認識入力手段としてのバックボタン11を有している。ユーザは、認識結果出力部6によって出力された認識結果に対して、バックボタン11を押し下げることによって、認識結果出力部6によって出力された音声が表す認識結果が誤認識である旨の入力(以下、誤認識入力と称する)が可能とされている。
【0055】
さらに、本実施形態において、コマンド入力要求出力部10は、再入力要求出力手段としての再入力要求出力部12を有しており、この再入力要求出力部12には、バックボタン11が接続されている。
【0056】
この再入力要求出力部12は、バックボタン11による誤認識入力の入力結果を取得し、取得された入力結果に応答して、誤認識となった発話音声の再入力を要求する音声である再入力要求音声の音声データ(以下、再入力要求音声データと称する)を生成するようになっている。なお、本実施形態において、再入力要求音声は、コマンド入力要求音声の一態様とされ、再入力要求音声データは、コマンド入力要求音声データの一態様とされている。そして、再入力要求出力部12は、生成された再入力要求音声データを音声合成部7に出力するようになっている。音声合成部7は、再入力要求出力部12から出力された再入力要求音声データに対応する再入力要求音声を、スピーカ8を介して出力するようになっている。このようにして、再入力要求出力部12により、誤認識入力に応答して、音声合成部7およびスピーカ8を介した再入力要求音声の出力を行うことができるようになっている。
【0057】
さらにまた、本実施形態における音声認識装置1は、誤認識回数計測部14を有しており、この誤認識回数計測部14には、バックボタン11および再入力要求出力部12がそれぞれ接続されている。この誤認識回数計測部14は、バックボタン11からの誤認識入力の入力回数に基づいて、誤認識の発生回数を計測するようになっている。
【0058】
また、本実施形態における音声認識装置1は、認識失敗通知手段としての認識失敗通知部15を有しており、この認識失敗通知部15には、誤認識回数計測部14および音声合成部7がそれぞれ接続されている。
【0059】
この認識失敗通知部15は、誤認識回数計測部14の計測結果を取得し、取得された測定結果に基づいて、誤認識が所定回数連続した場合に、音声認識に失敗したことを通知する音声である失敗通知音声の音声データ(以下、失敗通知音声データと称する)を生成し、生成された失敗通知音声データを音声合成部7に出力するようになっている。音声合成部7は、認識失敗通知部15から出力された音声データに対応する失敗通知音声を、スピーカ8を介して出力するようになっている。このようにして、認識失敗通知部15により、音声合成部7およびスピーカ8を介して失敗通知音声を出力することができるようになっている。
【0060】
さらに、本実施形態における音声認識装置1は、キャラクタ表示処理手段としてのキャラクタ描画部16を有しており、このキャラクタ描画部16には、認識結果出力部6、コマンド入力要求出力部10(再入力要求出力部12を含む)、および、認識失敗通知部15がそれぞれ接続されている。また、キャラクタ描画部16には、表示処理部18を介して表示部としてのディスプレイ19が接続されている。
【0061】
キャラクタ描画部16は、音声認識装置1の動作状態に応じて、擬人化されたキャラクタの画像の描画データを生成し、生成された描画データを表示処理部18に出力するようになっている。そして、表示処理部18は、キャラクタ描画部16から出力された描画データに対応するキャラクタの画像を、ディスプレイ19に表示するようになっている。このようにして、キャラクタ描画部16により、表示処理部18を介してディスプレイ19にキャラクタの画像を表示することができるようになっている。
【0062】
より具体的には、本実施形態において、キャラクタ描画部16は、キャラクタの画像として、認識結果出力部6、コマンド入力要求出力部10、再入力要求出力部12、および、認識失敗通知部15のそれぞれの音声出力による音声認識装置1側の発話動作の際に、発話動作に適合した表示状態を呈するキャラクタの画像を表示するようになっている。
【0063】
なお、このようなキャラクタの画像としては、例えば、人物や動物等を模したキャラクタの画像で、音声認識装置1側の発話動作に連動してキャラクタの表情(口等)や身振り手振り等の表示状態が発話動作に適合した状態(動き)を示す画像を表示すればよい。
【0064】
以上のような基本的な構成を備えた上で、本実施形態にける音声認識装置1は、再入力要求出力部12が、謝罪表現が含まれた再入力要求音声を出力するように形成されているとともに、誤認識回数計測部14によって測定される誤認識の回数の増加にともなって、再入力要求音声に含まれる謝罪表現の丁寧さの度合を高めるようになっている。
【0065】
つまり、本実施形態においては、発話音声に対する誤認識の回数が増加するほど、誤認識入力に応答して、より丁寧な言葉遣いによる謝罪表現が含まれた再入力要求音声によって、発話音声の再入力が促されるようになっている。
【0066】
具体的な例としては、再入力要求出力部12は、住所を音声認識する場合における1回目の誤認識に対しては、「すみません、住所をお話下さい。」といった再入力要求音声を出力し、2回目の誤認識に対しては、「申し訳ございません。もう一度住所をお話下さい。」といった再入力要求音声を出力するようにしてもよい。
【0067】
また、再入力要求出力部12は、謝罪表現の丁寧さの度合が異なる複数の再入力要求音声のパターンを、誤認識の回数と対応関係を有した状態としてデータベース化しておき、誤認識回数計測部14から取得された計測結果に対応するパターンに該当する再生入力要求音声を出力するようにしてもよい。
【0068】
ここで、音声認識の誤認識が繰り返されれば、ユーザの不快感は徐々に高まっていくことが多い。しかし、誤認識が生じる度ごとに謝罪の言葉をかけられ、また、謝罪の言葉が誤認識の回数の増加にともなってより丁寧なものになれば、ユーザの不快感は軽減されるであろう。また、不快感が軽減された状態で発話音声の再入力を行えば、再入力の際のストレスも軽減されるであろう。
【0069】
したがって、本実施形態によれば、誤認識が繰り返される場合においても、誤認識の回数の増加にともなってより丁寧な謝罪表現を用いた再入力要求を行うことができるので、誤認識によるユーザの不快感および発話音声の再入力にともなうユーザのストレスを軽減することができる。
【0070】
上記構成に加えて、さらに、本実施形態においては、認識失敗通知部15が、謝罪表現が含まれた失敗通知音声を出力するようになっている。
【0071】
具体的な例としては、認識失敗通知部15は、「大変申し訳ございません。音声認識に失敗しました。」といった内容の失敗通知音声を出力するようにしてもよい。
【0072】
このような構成によれば、誤認識が複数回繰り返された上で最終的に音声認識に失敗した場合においても、謝罪表現が含まれた失敗通知音声を出力することができるので、音声認識の失敗にともなう不快感を軽減することができる。なお、この失敗通知音声に含まれる謝罪表現は、再入力要求音声に含まれる謝罪表現よりも丁寧であることが好ましい。
【0073】
上記構成に加えて、さらに、認識結果出力部6が、誤認識回数計測部14によって計測される誤認識の回数の増加にともなって、認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるようにしてもよい。
【0074】
具体的な例としては、認識結果出力部6は、第1回目の認識結果の出力の際には、「ドウキョウトタイトウク」といった誤認識の音声を出力し、これに続く第2回目の認識結果の出力の際には、「ドウキョウトチュウオウクでよろしいでしょうか。」といった丁寧な表現による認識結果の出力を行うようにしてもよい。
【0075】
このようにすれば、誤認識の回数の増加にともなってより丁重な言葉遣いで再認識の結果を出力することができるので、誤認識によるユーザの不快感および発話音声の再入力にともなうユーザのストレスをさらに有効に軽減することができる。
【0076】
上記構成に加えて、さらに、本実施形態においては、キャラクタ描画部16が、再入力要求出力部12による再入力要求音声の出力の際に、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されているとともに、誤認識の回数の増加にともなって、キャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるようになっている。
【0077】
具体的な例としては、キャラクタ描画部16は、誤認識の回数の増加にともなって、より深々と頭を下げるようなキャラクタの画像を表示するようにしてもよい。
【0078】
また、キャラクタ描画部16は、謝罪姿勢の丁寧さの度合が異なる複数のキャラクタパターンを、誤認識の回数と対応関係を有した状態としてデータベース化しておき、誤認識回数計測部14から取得された計測結果に対応するパターンに該当するキャラクタを表示するようにしてもよい。
【0079】
このような構成によれば、キャラクタが呈する謝罪姿勢も手伝って、誤認識にともなう不快感およびストレスをさらに有効に軽減することができる。
【0080】
上記構成に加えて、さらに、本実施形態においては、キャラクタ描画部16が、認識失敗通知部15による失敗通知音声の出力の際にも、謝罪姿勢を呈するキャラクタを表示するようになっている。
【0081】
具体的な例としては、キャラクタ描画部16は、認識失敗通知部15が失敗通知音声を出力する際に、誤認識の場合よりもより深々と頭を下げるか、もしくは、土下座をするようなキャラクタを表示するようにしてもよい。
【0082】
そして、このような構成によれば、音声認識の失敗にともなう不快感をさらに有効に軽減することができる。
【0083】
上記構成に加えて、さらに、前述のように、誤認識の回数の増加にともなって認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるようにする場合には、キャラクタ描画部16が、キャラクタの画像として、誤認識の回数の増加にともなって、当該キャラクタの画像が呈する丁重姿勢の度合いが高まるようなキャラクタ画像を表示するようにしてもよい。
【0084】
なお、丁重姿勢の具体的な例としては、例えば、お辞儀のようなかしこまった状態であたかもユーザの表情を恐る恐る窺うような姿勢を挙げることができる。
【0085】
このようにすれば、認識結果を表す音声を出力する際の表現の丁寧さの度合が高まることにともなって、表示されるキャラクタが呈する丁重姿勢の度合を高めることができるので、誤認識にともなう不快感およびストレスをより有効に軽減することができる。
【0086】
また、本実施形態における音声認識装置1は、車載器に適用されるようにしてもよい。具体的には、本実施形態における音声認識装置1は、車載器としての車載用ナビゲーション装置における目的地や経由地の設定の際における住所の音声入力等に適用することができる。また、本実施形態における音声認識装置1は、車載器としての車載用のオーディオ装置、DVD再生装置、ラジオおよびテレビ等における音声入力による再生対象(楽曲、映像作品、番組)の選択にも適用することができる。
【0087】
このように、本実施形態における音声認識装置1を車載器に適用すれば、誤認識にともなう不快感およびストレスの軽減を図ることによって、運転の安全性および快適性の向上に繋がることになる。
【0088】
次に、本実施形態の作用として、音声認識装置1の動作例について説明する。
【0089】
図2は、音声認識装置1の動作例として、音声認識装置1を車載用ナビゲーション装置に適用した場合における目的地や経由地の設定の際の住所の入力を行う場合における動作例を示したものである。
【0090】
この動作例においては、図2に示すように、まず、ステップ21(ST21)において、コマンド入力要求出力部10により、ユーザに対して住所の音声入力を促す発話動作として、「住所をお話下さい」といった音声出力をスピーカ8を介して行う。なお、このステップ21(ST21)の発話動作は、車載用ナビゲーション装置(図示せず)に対する住所の音声入力に移行するためのユーザ操作がなされたことを待って行われるようになっている。
【0091】
また、このステップ21(ST21)においては、キャラクタ描画部16により、ディスプレイ19に、画面アイコンとしてキャラクタの画像を表示するとともに、このキャラクタの画像の表示状態が、ステップ21(ST21)における発話動作に適合するようにする。なお、このステップ21(ST21)におけるキャラクタは、謝罪姿勢を呈してはいない通常状態のキャラクタとされている。
【0092】
次いで、ステップ22(ST22)においては、ユーザが、発話ボタン3を押し下げた状態でマイク2に向かって「トウキョウトシナガワク」と発話すると、この発話音声が音声認識装置1内に入力される。
【0093】
次いで、ステップ23(ST23)においては、音声認識部5により、ステップ22(ST22)において入力された発話音声に対する音声認識を行った上で、認識結果出力部6により、当該音声認識の認識結果「ドウキョウトタイトウク」を出力する発話動作を行い、その直後に、コマンド入力要求出力部10により、「ピー」という音を発した上で次のコマンドの入力を促す発話動作を行う。
【0094】
また、このステップ23(ST23)においても、ステップ21(ST21)と同様に、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ23(ST23)における発話動作に適合するようにする。なお、このステップ23(ST23)におけるキャラクタも、謝罪姿勢を呈してはいない通常状態のキャラクタとされている。
【0095】
しかしながら、このステップ23(ST23)における認識結果は誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ24(ST24)において、バックボタン11を操作して「戻る」のコマンドを入力することによって、誤認識入力を行う。
【0096】
このステップ24(ST24)の操作により、誤認識回数計測部14は、1回目の誤認識を計測する。
【0097】
次いで、ステップ25(ST25)においては、再入力要求出力部12により、誤認識回数計測部14の計測結果に基づいて、1回目の誤認識に応答する再入力要求音声として、「すみません、住所をお話下さい。」という音声を出力する発話動作を行う。この再入力要求音声は、ステップ21(ST21)とは異なり、謝罪表現が含まれている。
【0098】
また、このステップ25(ST25)においても、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ25(ST25)における発話動作に適合するようにする。ただし、このステップ25(ST25)におけるキャラクタの画像は、ステップ21(ST21)とは異なり、謝罪姿勢を呈している(例えば、頭を下げている)キャラクタの画像とされている。
【0099】
次いで、ステップ26(ST26)においては、ユーザの発話により、音声認識装置1に対して発話音声「トウキョウトシナガワク」を再び入力する。
【0100】
次いで、ステップ27(ST27)においては、音声認識部5により、ステップ26(ST26)において入力された発話音声に対する音声認識を行った上で、認識結果出力部6により、当該音声認識の認識結果「ドウキョウトチュウオウク」を出力する発話動作を行い、その直後に、コマンド入力要求出力部10により、「ピー」という音を発した上で次のコマンドの入力を促す発話動作を行う。
【0101】
また、このステップ27(ST27)においても、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ27(ST27)における発話動作に適合するようにする。
【0102】
しかしながら、このステップ27(ST27)における認識結果はまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ28(ST28)において、バックボタン11の操作によって「戻る」のコマンドを入力する。
【0103】
このステップ28(ST28)の操作により、誤認識回数計測部14は、2回目の誤認識を計測する。
【0104】
次いで、ステップ29(ST29)においては、再入力要求出力部12により、誤認識回数計測部14の計測結果に基づいて、2回目の誤認識に応答する再入力要求音声として、「申し訳ございません。もう一度住所をお話下さい。」という音声を出力する発話動作を行う。この再入力要求音声は、ステップ25(ST25)のときよりも更に丁寧さおよび謝罪表現の度合が高まったものとなっている。
【0105】
また、このステップ29(ST29)においても、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ29(ST29)における発話動作に適合するようにする。
【0106】
このステップ29(ST29)におけるキャラクタの画像は、ステップ25(ST25)のときよりも更に謝罪姿勢の度合いが高まったキャラクタの画像(例えば、さらに深々と頭を下げている画像)とされている。
【0107】
次いで、ステップ30(ST30)においては、ユーザの発話により、音声認識装置1に対して発話音声「トウキョウトシナガワク」を再び入力する。
【0108】
次いで、ステップ31(ST31)においては、音声認識部5により、ステップ30(ST30)において入力された発話音声に対する音声認識を行った上で、認識結果出力部6により、当該音声認識の認識結果「ドウキョウトシンジュクク」を出力する発話動作を行い、その直後に、コマンド入力要求出力部10により、「ピー」という音を発した上で次のコマンドの入力を促す発話動作を行う。
【0109】
このとき、認識結果出力部6は、「ドウキョウトシンジュククでよろしいですか」という丁寧な表現で認識結果を出力するようにしてもよい。また、このとき、認識結果出力部6は、申し訳なさを表現するために、認識結果を弱い声で出力するようにしてもよい。
【0110】
また、このステップ31(ST31)においても、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ31(ST31)における発話動作に適合するようにする。
【0111】
しかしながら、このステップ31(ST31)における認識結果はまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ32(ST32)において、バックボタン11の操作によって「戻る」のコマンドを入力する。
【0112】
このステップ32(ST32)の操作により、誤認識回数計測部14は、3回目の誤認識を計測する。
【0113】
次いで、ステップ33(ST33)においては、認識失敗通知部15により、誤認識回数計測部14の計測結果に基づいて、失敗通知音声として、「大変申し訳ございません。音声認識に失敗しました。」という音声を出力する発話動作を行う。
【0114】
また、このステップ33(ST33)においても、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ33(ST33)における発話動作に適合するようにする。
【0115】
このステップ33(ST33)におけるキャラクタの画像は、ステップ29(ST29)のときよりも更に謝罪姿勢の度合いが高まったキャラクタの画像とされている。
【0116】
以上述べたように、本実施形態によれば、音声認識の誤認識の回数の増加にともなって、再入力要求音声が表す言語についての丁寧さの度合および謝罪表現の度合を高めることができるので、誤認識にともなう不快感およびストレスを軽減することができる。
【0117】
また、不快感が募った状態では、適正な発話が困難な場合が多いため、最終的な音声認識の成功率が低減してしまうこともあるため、本発明のように不快感を軽減することができれば、最終的な音声認識の成功率を向上させることにもつながる。
【0118】
なお、本発明は、前述した実施の形態に限定されるものではなく、必要に応じて種々の変更が可能である。
【0119】
例えば、前述した実施形態においては、誤認識入力手段として、バックボタン11を用いていたが、本発明は、このような構成に限定されるものではなく、マイク2を誤認識入力手段として機能させることによって、誤認識入力を音声入力によって行うことが可能に構成してもよい。ただし、この場合には、誤認識入力がなされたと判断することができるように、例えば、音声認識装置側で、予め誤認識入力に相当する特定の言語(例えば、「間違い」、「駄目」、あるいは、特定の罵詈雑言等)を保持しておき、この特定の言語が入力されたか否かによって誤認識入力がなされたことの有無を判定することが必要となる。
【0120】
また、誤認識の回数の増加にともなって、キャラクタの画像を徐々に癒し度の高いもの(例えば、丸みを帯びたもの)にするようにしてもよい。
【図面の簡単な説明】
【0121】
【図1】本発明に係る音声認識装置の実施形態を示すブロック図
【図2】本発明に係る音声認識装置の実施形態において、動作例を示す工程図
【図3】従来の音声認識装置における動作例を示す工程図
【符号の説明】
【0122】
1 音声認識装置
2 マイク
5 音声認識部
6 認識結果出力部
8 スピーカ
11 バックボタン
12 再入力要求出力部
15 認識失敗通知部
16 キャラクタ描画部
19 ディスプレイ

【特許請求の範囲】
【請求項1】
マイクを介して入力された発話音声が表す言語を認識する音声認識を行う音声認識手段と、
この音声認識手段の認識結果を表す音声を、スピーカを介して出力する認識結果出力手段と、
この認識結果出力手段によって出力された音声が表す前記認識結果が誤認識である旨の入力が可能とされた誤認識入力手段と、
この誤認識入力手段による前記誤認識である旨の入力に応答して、前記発話音声の再入力を要求するための音声である再入力要求音声を、前記スピーカを介して出力する再入力要求出力手段と、
前記誤認識が所定回数連続した場合に、前記音声認識に失敗したことを通知するための音声である失敗通知音声を、前記スピーカを介して出力する認識失敗通知手段と
を備えた音声認識装置であって、
前記再入力要求出力手段は、謝罪表現が含まれた前記再入力要求音声を出力するように形成されているとともに、前記誤認識の回数の増加にともなって、前記再入力要求音声に含まれる謝罪表現の丁寧さの度合いを高めるように形成されていること
を特徴とする音声認識装置。
【請求項2】
前記認識結果出力手段は、前記誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるように形成されていること
を特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記認識失敗通知手段は、謝罪表現が含まれた前記失敗通知音声を出力するように形成されていること
を特徴とする請求項1または請求項2に記載の音声認識装置。
【請求項4】
音声認識装置本体の動作状態に応じて擬人化されたキャラクタの画像を表示部に表示するキャラクタ表示処理手段を備え、
前記キャラクタ表示処理手段は、前記再入力要求音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されているとともに、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるように形成されていること
を特徴とする請求項1乃至請求項3のいずれか1項に記載の音声認識装置。
【請求項5】
前記認識結果出力手段は、前記誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるように形成され、
前記キャラクタ表示処理手段は、前記認識結果を表す音声の出力の際に、前記キャラクタの画像として、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する丁重姿勢の度合いが高まるようなキャラクタの画像を表示するように形成されていること
を特徴とする請求項4に記載の音声認識装置。
【請求項6】
前記認識失敗通知手段は、謝罪表現が含まれた前記失敗通知音声を出力するように形成され、
前記キャラクタ表示処理手段は、前記失敗通知音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されていること
を特徴とする請求項4または請求項5に記載の音声認識装置。
【請求項7】
車載器に適用されることを特徴とする請求項1乃至請求項6のいずれか1項に記載の音声認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2009−210703(P2009−210703A)
【公開日】平成21年9月17日(2009.9.17)
【国際特許分類】
【出願番号】特願2008−51975(P2008−51975)
【出願日】平成20年3月3日(2008.3.3)
【出願人】(000101732)アルパイン株式会社 (2,424)
【Fターム(参考)】