説明

音声対話装置

【課題】音声認識の精度を継続的に向上させながら、積極的に対話内容を充実させる音声対話装置を提供すること。
【解決手段】複数の音声認識辞書30を参照対象として用いユーザの発話を認識しながらユーザとの間の対話を制御する音声対話装置100は、ユーザの発話履歴を主題毎に記録する発話履歴記録手段11と、発話履歴記録手段11が主題毎に記録した発話履歴に基づいて各主題における対話の新たなシナリオを決定する対話シナリオ決定手段13と、対話シナリオ決定手段13が決定した対話の新たなシナリオに基づいて参照対象とする音声認識辞書30を決定する参照辞書決定手段14と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声対話装置に関し、特に、所定の主題に関するユーザとの間の過去の対話履歴を利用して音声認識の精度を向上させながら、その所定の主題に関する対話をより円滑なものにする音声対話装置に関する。
【背景技術】
【0002】
従来、音声入力開始ボタン等のボタン操作によらず自動的にユーザの音声入力を待ち受けるようにする地理的領域を設定し、車両がその地理的領域に進入した場合に、発話される可能性の高い語彙をその地理的領域が有する特徴に基づいて予測しながら音声認識に利用される音声認識辞書を変更した上で音声入力の待ち受けを開始させる音声入力装置が知られている(例えば、特許文献1参照。)。
【0003】
この音声入力装置は、施設のジャンルに関する情報、ユーザの嗜好に関する情報、又は、目的地若しくは経由地の設定履歴情報に基づいて地理的領域を設定し、その地理的領域に属する施設名又は地名等の固有名詞を音声認識対象に含む音声認識辞書を一時的に採用して音声認識の精度を向上させながら、その地理的領域に関する主題におけるユーザとの間の対話が円滑になるようにする。
【0004】
これにより、この音声入力装置は、対話を通じてその地理的領域に関する情報を得ようとするユーザの負担を軽減させることができる。
【特許文献1】特開2006−251298号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の音声入力装置は、地理的領域に応じた音声認識辞書を採用した上でユーザが発話するのを待ち受けるだけなので、音声認識の精度向上度合いが固定的かつ限定的であり、積極的に対話内容を充実させるようなこともできない。
【0006】
上述の点に鑑み、本発明は、音声認識の精度を継続的に向上させながら、積極的に対話内容を充実させる音声対話装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
上述の目的を達成するために、第一の発明に係る音声対話装置は、複数の音声認識辞書を参照対象として用いユーザの発話を認識しながらユーザとの間の対話を制御する音声対話装置であって、ユーザの発話履歴を主題毎に記録する発話履歴記録手段と、前記発話履歴記録手段が主題毎に記録した発話履歴に基づいて各主題における対話の新たなシナリオを決定する対話シナリオ決定手段と、前記対話シナリオ決定手段が決定した対話の新たなシナリオに基づいて参照対象とする音声認識辞書を決定する参照辞書決定手段と、を備えることを特徴とする。
【0008】
また、第二の発明は、第一の発明に係る音声対話装置であって、車載機器の操作履歴を記録する操作履歴記録手段を更に備え、前記対話シナリオ決定手段は、前記操作履歴記録手段が記録した各主題に関する車載機器の操作履歴と前記発話履歴記録手段が主題毎に記録した発話履歴とに基づいて各主題における対話の新たなシナリオを決定することを特徴とする。
【0009】
また、第三の発明は、第一又は第二の発明に係る音声対話装置であって、前記参照辞書決定手段は、参照頻度が低い音声認識辞書を参照対象から除外することを特徴とする。
【発明の効果】
【0010】
上述の手段により、本発明は、音声認識の精度を継続的に向上させながら、積極的に対話内容を充実させる音声対話装置を提供することができる。
【発明を実施するための最良の形態】
【0011】
以下、図面を参照しつつ、本発明を実施するための最良の形態の説明を行う。
【実施例】
【0012】
図1は、本発明に係る音声対話装置の構成例を示すブロック図であり、音声対話装置100は、主題(テーマ)毎に決定された対話シナリオに沿って質問やアドバイスを音声出力しユーザの発話内容を認識しながら車室内で交わされるユーザとの間の対話を継続させる車載装置であって、制御部1、音声入力部2、記憶部3、音声出力部4及び表示部5を備え、過去の対話履歴又は車載機器6やナビゲーション装置7の出力履歴に応じて所定の主題における対話シナリオを変えながらユーザとの間の対話内容を充実させるようにする。
【0013】
ここで、「対話シナリオ」とは、音声対話装置100が発する質問の種類(肯定又は否定の何れかを要求する質問か、或いは、3以上の回答が予定される質問かを意味する。)、質問の内容、質問の順番、又は、対話全体の長さ(細かい質問を小刻みに出力するか、或いは、単刀直入に本題に入るかを意味する。)等で構成される対話の進め方であり、各主題に対して複数の対話シナリオが準備され、かつ、採用され得るものとする。
【0014】
制御部1は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備えたコンピュータであって、例えば、音声認識手段10、発話履歴記録手段11、操作履歴記録手段12、対話シナリオ決定手段13、参照辞書決定手段14及び音声対話制御手段15のそれぞれに対応するプログラムをROMに記憶しながら、各手段に対応する処理をCPUに実行させる。
【0015】
音声入力部2は、ユーザ発話を入力するための装置であって、例えば、所定方向からの発話だけを認識する指向性マイク、又は、複数の音の位相差を利用して複数の方向からの発話を聞き分けられるよう複数の受音部を備えたマイクセット等がある。
【0016】
記憶部3は、各種情報を記憶するための装置であり、例えば、ハードディスクやDVD(Digital Versatile Disk)等の記憶媒体であって、音声認識辞書30、発話履歴データベース31及び操作履歴データベース32を格納する。
【0017】
音声認識辞書30は、音声入力部2を介して取得した音声データをテキストデータに変換するために後述の音声認識手段10が参照する辞書群であって、例えば、オートライトコントロールの機能説明(周囲の明るさに応じて自動的にヘッドライトを点灯・消灯させる機能である。)、回生エネルギーの回収方法、又は、追従走行制御の機能説明等のそれぞれの主題に関し発話が期待される表現(例えば、語句又は文である。)を所定の語彙数(例えば、10語彙)毎に纏めた辞書の集合である。
【0018】
発話が期待される表現は、各主題において音声対話装置100が発する質問やアドバイス等に基づいて予め設定されており、言い換えれば、音声対話装置100が発する質問やアドバイス等は、ユーザによる所定の発話を誘導するよう構成される。
【0019】
なお、音声認識辞書30に記憶される語彙は、単語単位であってもよく、句単位であってもよく、或いは、文単位であってもよい。
【0020】
発話履歴データベース31は、ユーザの発話履歴を記憶するためのデータベースであり、例えば、発話時刻、発話内容、発話時における車両の位置情報(緯度、経度、高度)等を関連付けて記憶する。
【0021】
操作履歴データベース32は、車載機器6の操作履歴を記憶するためのデータベースであり、例えば、操作時刻、操作内容、操作時における車両の位置情報(緯度、経度、高度)等を関連付けて記憶する。
【0022】
音声出力部4は、各種情報を音声出力するための装置であり、例えば、車載スピーカであって、制御部1からの制御信号に基づき、後述の対話シナリオ決定手段13が決定した対話シナリオに沿って質問やアドバイス等を音声出力する。
【0023】
表示部5は、各種情報を表示するための装置であり、例えば、液晶ディスプレイ等であって、音声出力部4が出力する音声情報に対応するテキスト情報、又は、その音声情報を補うためのテキスト情報やグラフィック情報を表示する。
【0024】
車載機器6は、車両の走行状態を音声対話装置100に把握させるための情報を出力する機器であって、例えば、オートライトコントロール、フォグライトスイッチ、二輪駆動・四輪駆動切り替えスイッチ、シフトセレクタ、追従走行制御装置等のように自身の設定状態を出力する機器があり、また、操舵角センサ、アクセル開度センサ、ブレーキ踏力センサ、照度センサ、勾配センサ、雨滴センサ、車速センサ等のように測定値を出力する機器をも含むものとする。さらに、車載機器6は、渋滞情報や気象情報を受信する通信機を含むものであってもよい。
【0025】
ナビゲーション装置7は、電子地図情報と車両の現在位置とに基づいて目的地まで車両を誘導するための装置であり、例えば、GPS(Global Positioning System)受信機によりGPS信号を受信しながら車両位置(緯度、経度、高度)を測定し、最短経路探索アルゴリズムとしてダイクストラ法を用いながら目的地に至るまでの最適な経路を導き出し、導き出した最適経路を電子地図上に重畳表示させたり音声案内を出力したりしながら車両を目的地まで誘導する。
【0026】
次に、制御部1が有する各種手段について説明する。
【0027】
音声認識手段10は、ユーザが発した音声をテキストデータとして認識するための手段であり、例えば、音響モデルを用いながらグラマーベースの音声認識エンジンによりユーザ発話を認識したり、音響モデルや言語モデルを用いながらディクテーションベースの音声認識エンジンによりユーザ発話を認識したりする。
【0028】
発話履歴記録手段11は、発話履歴を記録するための手段であり、例えば、音声認識手段10により認識されたユーザ発話に対応するテキストデータを、発話時刻、発話の主題(例えば、オートライトコントロールの機能説明等がある。)、発話時における車両の位置情報(緯度、経度、高度)等と関連付けながら記憶部3の発話履歴データベース31に記録する。
【0029】
また、発話履歴記録手段11は、1台の車両を複数のユーザが利用するような場合には、ユーザ識別番号等を用いながらユーザ毎に発話履歴を記憶するようにしてもよい。
【0030】
また、発話履歴記録手段11は、音声認識できなかった事実を、発話時刻、発話の主題、発話時における車両の位置情報等と関連付けながら記憶部3の発話履歴データベース31に記録するようにしてもよい。音声認識できなかった事実を主題に対するユーザの理解度の推定に利用できるようにするためである。
【0031】
操作履歴記録手段12は、操作履歴を記録するための手段であり、例えば、車載機器6が出力する情報を、操作時刻、操作内容(例えば、ある装置のスイッチがオンからオフに変化した事実等をいう。)、操作時における車両の位置情報(緯度、経度、高度)等を関連付けて記憶する。
【0032】
また、操作履歴記録手段12は、発話履歴記録手段11と同様、1台の車両を複数のユーザが利用するような場合には、ユーザ識別番号等を用いながらユーザ毎に操作履歴を記憶するようにしてもよい。
【0033】
対話シナリオ決定手段13は、発話履歴記録手段11が記録した発話履歴、又は、操作履歴記録手段12が記録した操作履歴に基づいて新たな対話シナリオを決定するための手段である。
【0034】
対話シナリオ決定手段13は、例えば、過去に行ったオートライトコントロールを主題とする対話におけるユーザの発話履歴に基づいて、オートライトコントロールの操作方法がユーザに正しく伝わったか否かを判定し、正しく伝わっていないと判定した場合には、オートライトコントロールを主題とする対話を次回開始させるための条件(以下、「対話開始条件」とする。)、又は、その対話シナリオを変更する。
【0035】
対話開始条件には、例えば、所定地点(例えば、この場合、トンネルのように周囲が暗くなる地点である。)までの距離が閾値未満となった場合、所定時刻(例えば、この場合、夕暮れ時等のように周囲が暗くなる時刻である。)となった場合、或いは、所定の車載機器6(例えば、この場合、ヘッドライトスイッチである。)を操作した場合等がある。なお、自車とトンネルとの間の距離は、ナビゲーション装置7の出力に基づいて取得される。
【0036】
また、対話シナリオの変更には、例えば、音声出力させる質問の内容、質問の順番、説明に用いる用語等の変更が含まれる。
【0037】
なお、対話シナリオ決定手段13は、質問に対するユーザ発話(回答)がなかった場合、或いは、期待した回答とは異なる回答を得た場合に、説明が正しく伝わっていないと判断する。
【0038】
また、対話シナリオ決定手段13は、操作履歴データベース32を参照して、オートライトコントロールを主題とする対話が終了した後にユーザがオートライトコントロールに対して行った操作内容を取得し、対話の最中に説明した通りの操作が行われたか否かを確認することで、オートライトコントロールの操作方法がユーザに正しく伝わったか否かを判定するようにしてもよく、発話履歴と操作履歴との間の関係に基づいてオートライトコントロールの操作方法がユーザに正しく伝わったか否かを判定するようにしてもよい。
【0039】
例えば、期待した回答がなかったにもかかわらず説明通りの操作が行われたときには、操作方法を以前から知っていた、或いは、操作方法が正しく伝わったものと推定できる場合があるからであり、反対に、期待した回答があったにもかかわらず説明通りの操作が行われないときには、意図的に説明した手順とは異なる操作が行われただけであり、操作方法が正しく伝わっているものと推定できる場合があるからである。
【0040】
また、対話シナリオ決定手段13は、ナビゲーション装置7が出力する現在時刻、目的地又はスケジュール等に関する情報から運転目的(例えば、通勤、通学、ショッピング等がある。)を推定し、推定した運転目的に基づいて対話シナリオを変更するようにしてもよい。例えば、対話シナリオ決定手段13は、通勤、通学の途中では、単刀直入に本題に入る対話シナリオを採用し、後述の参照辞書決定手段14により短い命令語を含む音声認識辞書30が参照辞書として採用されるようにする。
【0041】
これにより、音声対話装置100は、ユーザに不快感を与えることなく対話を継続させ、対話を通じて提供する情報により効果的に運転を支援することができる。
【0042】
参照辞書決定手段14は、参照すべき音声認識辞書30を主題毎に決定するための手段であり、例えば、対話シナリオ決定手段13の決定に基づいて変更された対話開始条件や対話シナリオに応じて何れの音声認識辞書30を参照するかを決定する。
【0043】
また、参照辞書決定手段14は、発話履歴記録手段11が記録した発話履歴に基づいて参照頻度の低い音声認識辞書30を参照対象から除外するようにしてもよい。ユーザ発話が誤認識されるのを抑制し、音声認識の精度をより向上させるためである。
【0044】
また、参照辞書決定手段14は、発話履歴記録手段11が記録した発話履歴に基づいてユーザ情報(例えば、あるユーザは、肯定を表す発話として「はい」、否定を表す発話として「いいえ」を用い、別のユーザは、肯定を表す発話として「そう」、否定を表す発話として「ちがう」を用いるといったユーザの特徴に関する情報をいう。)を抽出し、抽出したユーザ情報に基づいて参照すべき音声認識辞書30を決定するようにしてもよい。
【0045】
なお、参照辞書決定手段14は、各音声認識辞書に割り当てられた辞書識別番号のうち音声認識手段10に参照させたい音声認識辞書30に対応する辞書識別番号だけを主題毎に記憶しながら、所望とする音声認識辞書30を音声認識手段10に参照させるようにする。
【0046】
また、参照辞書決定手段14は、各音声認識辞書が有する参照フラグの値を「0(非参照)」から「1(参照)」に切り替えることで音声認識手段10が各音声認識辞書を参照できるようにし、全ての音声認識辞書30の参照フラグの値を主題毎に記憶することで、所望とする音声認識辞書30を音声認識手段10に参照させるようにしてもよい。
【0047】
また、参照辞書決定手段14は、主題毎に複数の音声認識辞書30を参照対象として決定するが、単一の音声認識辞書30を参照対象としてもよい。
【0048】
さらに、参照辞書決定手段14は、主題毎に何れの音声認識辞書30を参照対象とするか決定するが、主題の一部分毎に、又は、質問毎に、何れの音声認識辞書30を参照対象とするかを決定するようにしてもよい。
【0049】
音声対話制御手段15は、対話シナリオに沿ってユーザとの間の対話を制御する手段であり、例えば、所定の主題に対する対話開始条件が満たされた場合に、所定の質問を音声出力部4から音声出力させる。
【0050】
また、音声対話制御手段15は、所定の質問を出力させてから所定時間(例えば、5秒間)にわたって音声入力部2を稼働させ、ユーザの発話を音声認識手段10が認識できない状態(以下、「休止状態」とする。)からユーザの発話を音声認識手段10が認識できる状態(以下、「待ち受け状態」とする。)に遷移させる。
【0051】
音声入力に対するユーザの負荷(例えば、音声入力のために音声入力ボタンの押下を強制することによる負荷がある。)を軽減させるためであり、無意味なユーザ発話を受け付けないようにしながら音声認識の精度をさらに向上させるためである。
【0052】
また、音声対話制御手段15は、対話シナリオ決定手段13が決定した対話シナリオに応じて音声認識手段10が利用する音声認識エンジン(例えば、グラマーベース又はディクテーションベースがある。)を選択するようにしてもよい。
【0053】
次に、図2を参照しながら、音声対話装置100が参照対象となる音声認識辞書30を決定する処理(以下、「音声認識辞書決定処理」とする。)について説明する。なお、図2は、音声認識辞書決定処理の流れを示すフローチャートであり、音声対話装置100は、例えば、エンジンを始動させた時点において、所定の主題に対する次回の対話に備えて音声認識辞書決定処理を実行するものとする。
【0054】
最初に、音声対話装置100の制御部1は、発話履歴データベース31を参照して、主題「二輪駆動・四輪駆動切り替えスイッチの使用方法」に対する発話履歴を取得する(ステップS1)。二輪駆動・四輪駆動切り替えスイッチに対するユーザの理解度を推定するためであり、制御部1は、例えば、質問に対するユーザ発話(回答)がなかった場合、或いは、期待した回答とは異なる回答を得た場合に、二輪駆動・四輪駆動切り替えスイッチに対するユーザの理解度が低いものと推定する。
【0055】
このとき、制御部1は、発話履歴に基づいて対話の受け答えに関するユーザの特徴を抽出するようにしてもよい。対話の受け答えに関するユーザの特徴は、対話シナリオ及び音声認識辞書30を決定する上で重要だからである。
【0056】
また、制御部1は、操作履歴データベース32を参照して、二輪駆動・四輪駆動切り替えスイッチの操作履歴を取得する(ステップS2)。上記同様、二輪駆動・四輪駆動切り替えスイッチに対するユーザの理解度を推定するためであり、制御部1は、例えば、前回の対話で提供したアドバイスに沿った操作が行われていない場合に、二輪駆動・四輪駆動切り替えスイッチに対するユーザの理解度が低いものと推定する。
【0057】
さらに、制御部1は、走行履歴(走行速度の推移等がある。)に基づいて二輪駆動・四輪駆動切り替えスイッチに対するユーザの理解度を推定するようにしてもよい。
【0058】
その後、制御部1は、対話シナリオ決定手段13により、二輪駆動・四輪駆動切り替えスイッチに対するユーザの推定理解度に応じて、対話シナリオを変更する(ステップS3)。
【0059】
前回の対話シナリオでは「二輪駆動・四輪駆動切り替えスイッチの使用方法」がユーザに十分伝わらなかったためユーザの理解度が低いと推定された場合、制御部1は、より詳細に使用方法を説明する対話シナリオ、説明の順序を変えた対話シナリオ、別の観点(例えば、燃費の向上等がある。)で説明をする対話シナリオ等を採用して、ユーザの理解度を高めるようにする。
【0060】
一方、前回の対話シナリオで「二輪駆動・四輪駆動切り替えスイッチの使用方法」がユーザに十分伝えることができたためユーザの理解度が高いと推定された場合、制御部1は、説明を簡略化した対話シナリオ等を採用し、かつ、対話開始条件を変更して対話が実行される頻度を低減させて、不要なアドバイスが繰り返し音声出力されないようにする。
【0061】
これに伴い、制御部1は、参照辞書決定手段14により、対話シナリオ決定手段13によって採用された新たな対話シナリオにおけるユーザ発話の音声認識精度を高めるために、発話が期待される語彙を含む音声認識辞書30を参照対象として新たに採用し、また、参照頻度の低い音声認識辞書30を参照対象から除外するようにする(ステップS4)。
【0062】
以上の構成により、音声対話装置100は、過去の対話履歴に基づいて対話シナリオを変えることで積極的に対話内容を充実させることができる。
【0063】
また、音声対話装置100は、対話シナリオに応じて音声認識辞書30を変えることで音声認識の精度を継続的に向上させることができる。
【0064】
また、音声対話装置100は、過去の対話履歴に加え、各車載機器の操作履歴をも参照しながら過去の対話シナリオの有効性を継続的に検証するので、よりよい対話シナリオを採用しながら積極的に対話内容を充実させることができる。
また、音声対話装置100は、対話シナリオに応じて音声認識辞書30を変えることで、ユーザ発話の誤認識が一時的に増加したり、音声認識の精度が一時的に低下したりするのを防止することができる。
【0065】
また、音声対話装置100は、参照頻度の低い音声認識辞書30を参照対象から除外するので、誤認識の確率を低減させながら、音声認識の精度をさらに向上させることができる。
【0066】
以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなしに上述した実施例に種々の変形及び置換を加えることができる。
【0067】
例えば、上述の実施例において、音声対話装置100は、オートライトコントロールの操作方法を音声案内した場合にユーザが操作方法を正しく理解できたか否かを判断して対話シナリオ及び音声案内辞書を変更するが、燃費が低下していることから燃費を向上させるためのアドバイスを音声案内した場合にアドバイス通りの運転が行われたか否かを判断して対話シナリオ及び音声案内辞書を変更するようにしてもよい。
【図面の簡単な説明】
【0068】
【図1】本発明に係る音声対話装置の構成例を示すブロック図である。
【図2】音声認識辞書決定処理の流れを示すフローチャートである。
【符号の説明】
【0069】
1 制御部
2 音声入力部
3 記憶部
4 音声出力部
5 表示部
6 車載機器
7 ナビゲーション装置
10 音声認識手段
11 発話履歴記録手段
12 操作履歴記録手段
13 対話シナリオ決定手段
14 参照辞書決定手段
15 音声対話制御手段
30 音声認識辞書
31 発話履歴データベース
32 操作履歴データベース
100 音声対話装置

【特許請求の範囲】
【請求項1】
複数の音声認識辞書を参照対象として用いユーザの発話を認識しながらユーザとの間の対話を制御する音声対話装置であって、
ユーザの発話履歴を主題毎に記録する発話履歴記録手段と、
前記発話履歴記録手段が主題毎に記録した発話履歴に基づいて各主題における対話の新たなシナリオを決定する対話シナリオ決定手段と、
前記対話シナリオ決定手段が決定した対話の新たなシナリオに基づいて参照対象とする音声認識辞書を決定する参照辞書決定手段と、
を備えることを特徴とする音声対話装置。
【請求項2】
車載機器の操作履歴を記録する操作履歴記録手段を更に備え、
前記対話シナリオ決定手段は、前記操作履歴記録手段が記録した各主題に関する車載機器の操作履歴と前記発話履歴記録手段が主題毎に記録した発話履歴とに基づいて各主題における対話の新たなシナリオを決定する、
ことを特徴とする請求項1に記載の音声対話装置。
【請求項3】
前記参照辞書決定手段は、参照頻度が低い音声認識辞書を参照対象から除外する、
ことを特徴とする請求項1又は2に記載の音声対話装置。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2008−287193(P2008−287193A)
【公開日】平成20年11月27日(2008.11.27)
【国際特許分類】
【出願番号】特願2007−134781(P2007−134781)
【出願日】平成19年5月21日(2007.5.21)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【Fターム(参考)】