説明

音声認識装置

【課題】音声データの認識結果に対応する動作の内容に応じて、最適な応答内容を決定することができる音声認識装置を提供することを目的とする。
【解決手段】音声データを認識する認識手段104と、認識手段による認識結果の信頼度を算出する算出手段106と、認識手段による認識結果に基づいて応答した場合のユーザに与える影響度を判定する判定手段107と、算出手段により算出された信頼度と、判定手段により判定された影響度とに基づいて応答内容を決定する決定手段108とを備えることを特徴とする音声認識装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置に関する。
【背景技術】
【0002】
従来から音声認識装置に関する様々な手法が提案されている。例えば、特許文献1には、ユーザが発生した音声データに基づいて音声認識を行い、その認識結果に対応して制御部のいずれかの動作を実行し、その後のユーザの応答内容により、認識結果の正誤を判定し、誤認識したと判定したときは謝罪表現を用いた音声を発生する技術が開示されている。
【0003】
また、特許文献2には、発話者の発話音声を認識し、認識結果に基づいて発話内容を理解し、理解した内容に基づいて応答を生成し、検出した騒音レベルに基づいて生成した応答内容を変更する技術が開示されている。
【特許文献1】特開2001−228894号公報
【特許文献2】特開2007−322757号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、上記特許文献1では、音声認識後、認識結果に基づいた動作を実行した後のユーザの反応を見て認識結果の正誤を判断しているが、動作の実行後では、その動作が、ユーザが所望していない動作だった場合にはユーザに不快感を与えると共に、動作を修正するなどの処理が必要になる。
【0005】
また、上記特許文献2では、発話データの認識内容と、周りの騒音レベルとに基づいて応答内容を変化させているが、その動作を実行した場合のユーザに与える影響は考慮されておらず、ユーザにとって重要ではない動作でも、何度も確認応答をさせられることもある。
【0006】
本発明は、上記問題に鑑みてなされたものであり、音声データの認識結果に対応する動作の内容に応じて、最適な応答内容を決定することができる音声認識装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
音声データを認識する認識手段と、前記認識手段による認識結果の信頼度を算出する算出手段と、前記認識手段による認識結果に基づいて応答した場合のユーザに与える影響度を判定する判定手段と、前記算出手段により算出された信頼度と、前記判定手段により判定された影響度とに基づいて応答内容を決定する決定手段とを備えることを特徴とする。
【発明の効果】
【0008】
本発明によれば、音声データの認識結果に対応する動作の内容に応じて、最適な応答内容を決定することができる。
【発明を実施するための最良の形態】
【0009】
以下、本発明の実施例を図面に基づいて説明する。
【実施例1】
【0010】
本発明の一実施例に係る音声認識装置は、例えば、図1に示すような機能構成を成す。図1は、本発明の実施例1に係る音声認識装置の概略機能ブロック図である。
【0011】
本実施例に係る音声認識装置100は、マイク101、トークスイッチ102、出力手段103、音声認識手段104、標準データ記憶手段105、信頼度算出手段106、影響度判定手段107、応答決定手段108を含んで構成される。
【0012】
マイク101は、ユーザが発話した音声データを入力し、音声認識手段104に音声データを出力する。トークスイッチ102は、ユーザによりスイッチをオン、オフに選択される。
【0013】
出力手段103は、音声認識手段104により認識された音声データを再度出力したり、応答決定手段108により決定された応答内容を表示したりする。具体的には、表示手段103は、スピーカーやディスプレイなどである。
【0014】
音声認識手段104は、トークスイッチ102がオンになったことを検知すると、マイク101より取得した音声データの認識を開始する。音声認識手段104は、音声データの認識に対して従来と同様の処理を行い、マイク101より取得した音声データと、標準記憶手段105に記憶されている標準音声データとを比較して、最も類似する標準音声データを認識した音声データとする。
【0015】
例えば、DP(Dynamic Programming)などの公知の手法を用いて、音声データと標準音声データとの認識距離(類似度)を算出して、この距離が最も小さいものを最も類似する標準音声データと判断する。また、DP以外にもHMM(隠れマルコフモデル)などの確率統計的手法を用いてもよい。
【0016】
標準データ記憶手段105は、音声認識に用いられる標準的な音声データである標準音声データを記憶する。
【0017】
信頼度算出手段106は、音声認識手段104による認識結果の信頼度を算出する。ここでは、簡易な方法にするため、音声認識手段104で算出された類似度を用いる。認識結果が単語であれば類似度をそのまま信頼度とすればよいし、認識結果が文章であれば、文節した単語の類似度に対して、閾値以上であれば真、閾値未満であれば偽とし、単語の総数に対する真の数の割合を信頼度とすればよい。
【0018】
また、より簡単にするため、算出された信頼度を大中小に分類する。また、信頼度算出手段106は、信頼度に対して、第一閾値、第二閾値を設定し、信頼度が第一閾値未満であれば、信頼度小とし、第一閾値以上第二閾値未満であれば、信頼度中とし、第二閾値以上であれば、信頼度大とする。
【0019】
なお、信頼度については、音声認識手段104による認識結果の信頼性の指標が与えられればよいので、大中小の三段階に分けるのではなく、何段階に分けてもよいし、類似度そのものの値を用いて、例えば、0から1の値を有する信頼度に算出し直してもよい。
【0020】
影響度判定手段107は、音声認識手段104による認識結果に対応するタスクが、ユーザにどれくらいの影響を与えるかを判定する。ここで、タスクとは、例えば本実施例の音声認識装置が車両に搭載されることを想定すると、車両の機能であるエアコン、ワイパー、ブレーキ、ディスプレイなどの機能や、備え付けたナビ機能のことをいう。なお、タスクは上記車載用の機能に限られるものではないことは言うまでもない。
【0021】
影響度は、音声認識手段104による認識結果が、誤認識であった場合に、実行したタスクがユーザにどれくらいの影響を与えるかを示す度合いである。例えば、誤認識の結果実行されたタスクにより、再度すぐに本来のタスクを実行しなければならないものなどは影響度が大きく、誤認識により実行されたタスクを無視できるものなどは、影響度が小さい。影響度の判定については、図8を用いて後述する。
【0022】
応答決定手段108は、信頼度算出手段106により算出された信頼度と、影響度判定手段107により判定された影響度とに基づいて、認識結果に対する応答内容を決定する。ここでは、応答内容は、リジェクト、確認応答、タスク即実行の3つとする。
【0023】
リジェクトとは、音声データを適切に入力できなかったり、雑音が多くて適切に認識処理できなかったりした場合などに、ユーザに対して再発話を促す応答である。確認応答とは、認識結果に対応するタスクを、ユーザに対して実行していいか否かを確認する応答である。タスク即実行は、認識結果に対応するタスクを、ユーザに確認せずにすぐに実行する応答である。
【0024】
応答決定手段108は、信頼度と影響度とに基づいて、上記3つの応答内容の中から1つを決定する。また、応答決定手段108は、決定した応答内容を出力手段103に出力する。
【0025】
ここで、図2を用いて、応答内容の判定基準について説明する。図2は、信頼度と影響度とに基づく応答内容を説明する図である。図2に示すように、影響度が大きく、信頼度が小さい場合は、認識結果によるタスクをリジェクトする。これより、影響度が大きいタスクの誤った実行を防止することができる。
【0026】
また、影響度が大きく、信頼度が大きい場合は、タスクを実行していいか否かの確認応答を行なう。これより、信頼度が大きいからといってタスクを即実行するのではなく、実行するタスクの内容によっては、安全のため確認応答を行なうことができる。
【0027】
また、影響度が小さく、信頼度が小さい場合は、認識結果に対応するタスクを即実行する。これより、信頼度が低いからとって何度も確認応答されることを防止することができる。図2は、応答内容の一例を示したにすぎず、これに限られるものではない。
【0028】
ここで、図3、図4又は図5をそれぞれ用いて、応答決定手段108により決定された内容がどのように出力手段103に表示されるかを説明する。
【0029】
図3は、ナビの目的地設定に関するタスクが認識された場合の例を示す図である。図3(a)は、会社へナビ中に目的地変更のタスクが認識された場合の例を示す図である。これに対し、図3(b)は、ニュースを視聴中にナビ開始のタスクが認識された場合の例を示す図である。
【0030】
図3(a)に示す例では、会社までのナビをしているとき、本実施例1に係る音声認識装置が「自宅へ帰る」と音声認識した場合の例である。このとき、ナビを自宅へ変更してしまった場合、仮にこの認識が誤認識であったときには、ユーザにもう一度本来の目的地へ修正させる必要がある。
【0031】
よって、図3(a)に示すように、本実施例1に係る音声認識装置は、この認識結果に対応するタスクを実行するとユーザに与える影響は大きいと判断し、信頼度が高い場合であっても確認応答を行なう。
【0032】
図3(b)に示す例では、ニュース番組を視聴中、本実施例1に係る音声認識装置が「自宅へ帰る」と音声認識した場合の例である。このとき、ナビを自宅へ設定した場合、仮にこの認識が誤認識であったとしても、ユーザはもともとナビを設定していなかったので、自宅へのナビを中止するだけで済む。
【0033】
よって、図3(b)に示すように、本実施例1に係る音声認識装置は、この認識結果に対応するタスクを実行してもユーザに与える影響は小さいと判断して、信頼度に関わらずタスクを即実行する。
【0034】
図4は、車両に搭載されるエアコンの温度変更の例を示す図である。図4(a)は、外の気温5℃、車内の温度が20℃のとき、温度変更のタスクが認識された場合の例を示す図である。図4(b)は、外の気温30℃、車内の温度20℃のとき、温度変更のタスクが認識された場合の例を示す図である。
【0035】
図4(a)に示す例では、車内の温度が20℃のとき、本実施例1に係る音声認識装置が「15℃に設定」と音声認識した場合の例である。このとき、エアコンの設定温度を15℃に設定してしまった場合、仮にこの認識が誤認識であったときには、外の気温が5℃であるため、真冬にエアコンを15℃に設定することとなり、ユーザは再度大幅な温度変更を必要とする。
【0036】
よって、図4(a)に示すように、本実施例1に係る音声認識装置は、この認識結果に対応するタスクを実行するとユーザに与える影響は大きいと判断し、信頼度が高い場合であっても確認応答を行なう。
【0037】
図4(b)に示す例では、車内の温度が20℃のとき、本実施例1に係る音声認識装置が「15℃に設定」と音声認識した場合の例である。このとき、エアコンの設定温度を15℃に設定してしまった場合、仮にこの認識が誤認識であったときには、外の気温は30℃であるため、真夏にエアコンを15℃に設定することとなり、ユーザは温度変更を緊急には必要としない。
【0038】
よって、図4(b)に示すように、本実施例1に係る音声認識装置は、この認識結果に対応するタスクを実行してもユーザに与える影響は小さいと判断し、信頼度に関わらずタスクを即実行する。
【0039】
図5は、ナビの目的地が1つしか設定できないとき、ナビのタスクが認識された場合の例を示す図である。図3と異なるところは、このナビは目的地を1つしか設定できず、新しい目的地が設定されると前の目的地は削除されてしまうところである。
【0040】
図5(a)は、会社へナビ中に目的地変更のタスクが認識された場合の例を示す図である。これに対し、図5(b)は、ニュースを視聴中にナビ開始のタスクが認識された場合の例を示す図である。
【0041】
図5(a)に示す例では、会社までのナビをしているとき、本実施例1に係る音声認識装置が「自宅へ帰る」と音声認識した場合の例である。このとき、ナビを自宅へ変更してしまった場合、仮にこの認識が誤認識であったときには、前の目的地が削除されてしまっているので元の目的地に戻す処理が煩雑である。
【0042】
よって、図5(a)に示すように、本実施例1に係る音声認識装置は、この認識結果に対応するタスクを実行するとユーザに与える影響は大きいと判断し、信頼度が高い場合であっても確認応答を行なう。
【0043】
図5(b)に示す例では、図3(b)と同様に、本実施例1に係る音声認識装置は、この認識結果に対応するタスクを実行してもユーザに与える影響は小さいと判断して、信頼度に関わらずタスクを即実行する。
【0044】
図6は、本実施例1に係る音声認識装置の処理を示すフローチャートである。ステップ601では、マイク101が音声データを入力し、音声認識手段104に出力する。
【0045】
ステップ601に続いてステップ602に進み、音声認識手段104が、取得した音声データと記憶されている標準音声データとの類似度を算出することで音声認識を行ない、算出した類似度を信頼度算出手段106に出力する。
【0046】
ステップ602に続いてステップ603に進み、信頼度算出手段106が、取得した類似度に基づいて信頼度を算出する。なお、ここでは簡易な方法にするため、類似度を閾値判定し、大中小の三段階に分けることにする。また、信頼度算出手段106は、算出した信頼度を応答決定手段108に出力する。
【0047】
ステップ602に続いてステップ604に進み、影響度判定手段107が、音声認識手段104による認識結果に対応するタスクがユーザにどれくらいの影響を与えるかを判定する。ここでも、簡易な方法にするため、影響度を大中小の三段階に分けることにする。影響度の判定については図8を用いて後述する。また、影響度判定手段107は、判定した影響度を応答決定手段108に出力する。
【0048】
ステップ603、ステップ604に続いてステップ605に進み、応答決定手段108が、取得した信頼度、影響度に基づいて応答内容を決定する。上記の信頼度、影響度を3段階に分けた場合には、図7に示すように応答内容を決定する。
【0049】
図7は、応答内容を決定する条件テーブルを示す図である。信頼度が小、かつ、影響度が大の場合は、応答としてリジェクトが決定される。信頼度が小〜大、かつ、影響度が小、又は、信頼度が大、かつ、影響度が中の場合は、応答としてタスク即実行が決定される。上記以外の場合は、応答として確認応答が決定される。なお、図7に示す条件テーブルは一例にすぎず、ユーザによって適宜設定変更可能としてもよい。
【0050】
図6に戻り、ステップ605に続いてステップ606に進み、出力手段103が、応答決定手段108により決定された応答内容を表示画面に表示したり、音声を伴う場合には音声を出力したりする。
【0051】
ここで、図8を用いて、影響度判定処理について説明する。図8は、影響度判定処理のフローチャートである。ステップ801では、影響度判定手段107が、音声認識手段104に対応する認識結果のタスク種別を判別する。ここで、タスクには識別子が割り当てられているとし、この識別子によりタスクを判別する。
【0052】
ステップ801に続いてステップ802に進み、影響度判定手段107が、認識結果に対応するタスクは、現在既に実行しているタスクであるか否かを判定する。ここでは、影響度判定手段107は既に実行しているタスクの識別子を保持しており、ステップ801で判別した識別子と保持している識別子が一致するか否かを判定する。
【0053】
ステップ802に続いてステップ803に進み、影響度判定手段107が、現在のタスクの設定値または設定条件から認識結果に対応するタスクに変更するには、大幅な変更が必要か否かを判定する。ここで、大幅な変更とは、例えば、タスクがナビであれば目的地が所定距離以上離れている場合や、タスクがエアコンであれば、設定温度が所定温度以上変更される場合をいう。
【0054】
図9と図10とを用いてステップ803について具体的に説明する。図9は、既に実行しているタスクと音声認識したタスクとの内容を示す図である。図9(a)は、ナビのタスクに関する内容であり、図9(b)は、エアコンのタスクに関する内容である。
【0055】
図9(a)に示す例について、影響度判定手段107は、まずタスクIDが同じもののパラメータの差分値を算出する。パラメータの要素が2つ以上ある場合は、差分二乗和や差分絶対値和などを算出する。図9(b)に示す例について、影響度判定手段107は、パラメータの差分絶対値を算出する。
【0056】
次に、影響度判定手段107は、求めたパラメータの差分値が、図10に示す閾値以上であるか否かの判定を行なう。図10は、閾値テーブルを示す図である。求めたパラメータの差分値が閾値以上であれば、影響度判定手段107は変更が大きいと判断する。なお、閾値テーブルは、影響度判定手段107により閾値を読み出される。
【0057】
図10に示す例では、各タスクIDに対してパラメータの差分値に対する閾値を設定したが、タスクIDに応じて、パラメータの下限値、上限値などを設定することもできる。例えば、エアコンの温度の下限値を17℃と設定し、認識結果が17℃以下だった場合は、影響度判定手段107は、変更が大きいと判定する。
【0058】
図8に戻り、影響度判定手段107が、ステップ803の判定結果がYESであれば、認識結果に対応するタスクは影響度大と判定し、ステップ803の判定結果がNOであれば、認識結果に対応するタスクは影響度中と判定し、ステップ802の判定結果がNOであれば、認識結果に対応するタスクは影響度小と判定する。
【0059】
以上、本実施例1に係る音声認識装置によれば、音声データの認識結果に対応する動作の内容に応じて、最適な応答内容を決定することができる。つまり、音声認識により実行されるタスクのユーザに与える影響度を考慮することで、例えば、信頼度が大きくても影響度が大きければ、タスクを即実行せずに応答内容を確認することができ、信頼度が小さくても、影響度が小さければ、応答内容を確認せずに、タスクを即実行することができる。
【0060】
なお、本実施例1では、信頼度、影響度共に簡単のため、3段階に分けていたが、信頼度、影響度ともに0以上1以下の値を算出することで、図2に示すように(信頼度,影響度)の座標点に基づいて、応答内容を決定するようにしてもよい。このとき、音声認識装置は、図2に示す座標を保持しておき、応答決定手段108は、取得した信頼度、影響度の値から応答内容を一意に決定することができる。
【0061】
また、影響度の算出方法について、図8を用いて説明したが、より簡易な方法としては、実行されるタスクによって影響度を決めておいても良い。例えば、ナビは影響度大、エアコンの温度設定は影響度中などである。
【0062】
さらに、影響度を算出するときには、外部条件(エアコンを例にすると、外の気温や天気など)を考慮して影響度を算出するようにしてもよい。つまり、外部条件により図10に示す閾値を複数保持してもよい。
【0063】
例えば、図9(b)に示すパラメータに外の気温を追加し、図10に示す閾値テーブルは、外の気温に応じて閾値を複数記憶する。図4(a)の例で説明すると、外の気温5℃により、閾値が下限値16に特定されたとする。次に、認識結果が15℃と閾値である16以下であるので、影響度判定手段107は、変更が大きいと判定する。
【0064】
また、外部条件により図10に示す閾値を変更するようにしても良い。例えば、外の気温を入力すると閾値が算出される関数などを用いることで、閾値の変更を実現することができる。
【0065】
以上、本発明の実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【図面の簡単な説明】
【0066】
【図1】本発明の一実施例に係る画像処理装置の概略機能ブロックを示す図。
【図2】信頼度と影響度とに基づく応答内容を説明する図。
【図3】ナビの目的地設定に関するタスクが認識された場合の例を示す図。
【図4】車両に搭載されるエアコンの温度変更の例を示す図。
【図5】ナビの目的地が1つしか設定できないとき、ナビのタスクが認識された場合の例を示す図。
【図6】本実施例1に係る音声認識装置の処理を示すフローチャート。
【図7】応答内容を決定する条件テーブルを示す図。
【図8】影響度判定処理のフローチャート。
【図9】タスクの内容を示す図。
【図10】閾値テーブルを示す図。
【符号の説明】
【0067】
100 音声認識装置
101 マイク
102 トークスイッチ
103 出力手段
104 音声認識手段
105 標準データ記憶手段
106 信頼度算出手段
107 影響度判定手段
108 応答決定手段

【特許請求の範囲】
【請求項1】
音声データを認識する認識手段と、
前記認識手段による認識結果の信頼度を算出する算出手段と、
前記認識手段による認識結果に基づいて応答した場合のユーザに与える影響度を判定する判定手段と、
前記算出手段により算出された信頼度と、前記判定手段により判定された影響度とに基づいて応答内容を決定する決定手段と
を備えることを特徴とする音声認識装置。
【請求項2】
前記判定手段は、
前記認識結果により実行されるタスクが既に実行しているタスクであるか否かに基づいて、前記影響度を判定することを特徴とする請求項1記載の音声認識装置。
【請求項3】
前記決定手段は、
前記算出手段により算出された信頼度が大きく、かつ、前記判定手段により判定された影響度が大きい場合は、前記応答内容として、前記認識結果の内容をユーザに確認することを特徴とする請求項1又は2記載の音声認識装置。
【請求項4】
前記決定手段は、
前記算出手段により算出された信頼度が小さく、かつ、前記判定手段により判定された影響度が小さい場合は、前記応答内容として、前記認識結果に対応するタスクを実行することを特徴とする請求項1乃至3いずれか一項に記載の音声認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2009−251019(P2009−251019A)
【公開日】平成21年10月29日(2009.10.29)
【国際特許分類】
【出願番号】特願2008−94964(P2008−94964)
【出願日】平成20年4月1日(2008.4.1)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【Fターム(参考)】