説明

情報端末

【課題】
本発明は、ユーザとの音声対話によってユーザに情報を取得する情報端末を提供する。
【解決手段】
ユーザの音声をコマンドとして認識し、認識したコマンドに基づいた情報を提供する情報端末において、ユーザの指示によってトーク信号を出力するトーク信号部と、ユーザの発声した音声をコマンドとして認識する音声認識部と、情報端末の周囲の環境に関する環境情報を取得する環境情報取得部と、認識したコマンド及び取得した環境情報からユーザが意図する情報を推定する推定部と、情報端末の処理を制御する制御部と、を備え、制御部は、トーク信号の受信を契機として、音声認識部が認識したユーザのコマンドが得られたか否かを判定し、当該コマンドが得られない場合に、環境情報取得部が取得した環境情報を用いて推定部が推定した情報をユーザに提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザとの音声対話によってユーザに情報を取得する情報端末に関するものである。
【背景技術】
【0002】
現在のカーナビゲーションシステムなどの車載情報端末は、DVDやHDDなどの大容量記憶媒体に、店舗情報や施設情報などの大量の情報を保持している。さらに、無線通信を用いてサーバからこれらの情報を取得することができる。
【0003】
一般的な情報検索装置においては、ユーザがキーワードや分類名などを入力・選択することで、大量の情報の中から必要な情報を絞り込む操作を行う方法が用いられる。車載情報端末においても、停車中はこの方法は有効であるため、ユーザがソフトウェアキーボードを利用したキーワード入力や、分類をメニュー画面で選択する方法を用いた情報検索インタフェースが採用されている。一方、走行時は、音声認識システムを利用し、ユーザがキーワードや分類名を音声入力することにより、ハンズフリー/アイズフリーで必要な情報を取り出すシステムが開発されている。
【0004】
また、一般的なウェブの検索エンジンと異なり、ユーザが必要とする情報は、ユーザがどこを走っているか、渋滞が発生しているか、などの周囲状況によって大きく影響を受けることが考えられる。そのため、ユーザの車両が走行している付近や、これから走行する予定の経路上の店舗情報、施設情報に限定して情報を提供することで、ユーザの利便性を高める方法も知られている(特許文献1参照。)。
【0005】
また、ユーザの音声コマンドによる情報の推定方法には、ベイジアンネットワークを用いることができる。ベイジアンネットワークとはグラフ後続を持つ確率モデルの一つであり、不確実性を含む事象の予測や合理的な意志決定、観測結果から原因を探る障害診断などに利用することができる(非特許文献1参照。)。
【特許文献1】特開平11−51666号公報
【非特許文献1】本村陽一、“ベイジアンネットワーク:入門からヒューマンモデリングへの応用まで”、[online]、産業技術総合研究所、[平成17年4月1日検索]、インターネット<URL:http://staff.aist.go.jp/y.motomura/paper/BSJ0403.pdf>
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし、ユーザが必要とする情報を推定する方式の改良によって推定の精度が高くなったとしても、ユーザがその情報を知りたいと思うタイミングを正確に推定することは困難である。
【0007】
例えば、渋滞が発生した場合、渋滞情報は、ユーザがその状況で必要とする情報の種別の推定値として適切であると言える。しかし、ユーザが既に別の手段で渋滞情報を知っている場合や、はじめから渋滞を覚悟している場合など、あらためて渋滞の距離や時間を知らされることはユーザにとって嬉しいことではない。
【0008】
また、車両の位置情報やユーザの購買履歴に基づいて付近の店舗情報を提供するサービスを行うこともできる。この場合、情報を提供する店舗側はできる限り高い頻度で情報を提供したいが、ユーザはこのような情報が頻繁に提供されることをわずらわしいと感じる可能性がある。
【0009】
さらに、定期的にユーザに提供すべき情報や実行すべき操作を推定してユーザに提供する方法もあるが、ある状況である情報が必要とされる可能性が非常に高いと推定された場合でも、実際にはユーザがそのタイミングでは情報を欲していないというミスマッチが起こり得るので、これも同様にユーザは情報が提供されることをわずらわしいと感じる可能性がある。
【0010】
このような問題から、現在では情報端末からの押し付け型の情報提供は車載情報端末向けには普及しておらず、従来技術でも述べたようにユーザの操作によって提供する情報を特定する方式が一般的である。
【0011】
ここで問題となるのは、音声認識を入力手段として用いる場合、ユーザが適切な音声コマンドを思いつけず何も発声しなかった場合、間違った音声コマンドを発声した場合、又は、周囲雑音をシステムがユーザ発声と間違えて認識処理した場合など、認識結果が全く得られない。このような状況では、従来のシステムでは単にユーザに再発声を促すだけであり、ユーザは何度も音声を発するなど、利便性が低くなっていた。
【課題を解決するための手段】
【0012】
本発明は、ユーザの音声をコマンドとして認識し、認識したコマンドに基づいた情報を提供する情報端末において、ユーザの指示によってトーク信号を出力するトーク信号部と、ユーザの発声した音声をコマンドとして認識する音声認識部と、情報端末の周囲の環境に関する環境情報を取得する環境情報取得部と、認識したコマンド及び取得した環境情報からユーザが意図する情報を推定する推定部と、情報端末の処理を制御する制御部と、を備え、制御部は、トーク信号の受信を契機として、音声認識部が認識したユーザのコマンドが得られたか否かを判定し、当該コマンドが得られない場合に、環境情報取得部が取得した環境情報を用いて推定部が推定した情報をユーザに提供することを特徴とする。
【発明の効果】
【0013】
本発明によると、ユーザが、適切な音声コマンドを思いつけず何も発声しなかった場合や、システムが想定していない発声をしてしまった場合でも、ユーザの操作を無駄にせず、状況に応じてユーザが必要としている可能性の高い情報を提供できる。これによって、利便性の高いユーザインタフェースを提供することができる。
【0014】
さらに、ユーザ意図を推定するのは、ユーザがトークボタンを押した場合に限られるため、ユーザは、不必要な情報を押し付けられることがないという利点がある。
【発明を実施するための最良の形態】
【0015】
以下に本発明の実施例について、図面を参照して説明する。
【実施例1】
【0016】
図1は、本発明の第1の実施例の情報端末の構成を表したブロック図である。
【0017】
情報端末100は、自動車等の車両に設置される。そして、ユーザの音声による音声コマンドによる指示を受け付け、その音声コマンドを認識し、認識結果に対応する情報を合成音声又はディスプレイへの表示によって応答する。
【0018】
この情報端末100は、システム制御部101、GPS受信機102、自律航法センサ103、交通情報受信機104、ディスプレイ105、音声出力装置106、ハードディスク(HDD)109、マイク110、トークボタン111、GUI操作部112、AV装置113、路面センサ116、発汗センサ117、メモリ118、インタフェース119等によって構成される。
【0019】
システム制御部101は、情報端末100の処理を実行する。システム制御部101は、CPU、ROM、RAM、データバスなどから構成される。
【0020】
GPS受信機102は、図示しない複数のGPS衛星からの信号を受信して、車両の現在位置を算出する装置である。
【0021】
自律航法センサ103は、ジャイロを備えており、このジャイロからの情報及び車両からインタフェース119を介して取得した車速パルスを利用して、車両の現在位置と車両の向きとを推定する装置である。
【0022】
交通情報受信機104は、ビーコンやFM放送波によって搬送される交通情報信号を受信する装置である。
【0023】
ディスプレイ105は、地図情報、車両の位置情報、交通情報等をユーザに表示する装置である。ディスプレイ105は、例えば液晶ディスプレイ装置によって構成される。
【0024】
音声出力装置106は、システム制御部101の指示によって、合成音声をユーザに応答する。例えば、走行中のルート案内を合成音声によってユーザに伝える。
【0025】
ハードディスク装置(HDD)109はデジタルデータを格納する記憶媒体である。このHDD109は、地図情報を保存する。
【0026】
マイク110は、ユーザの発声する音声コマンドを集音するための装置である。このマイク110は、車両に複数備えられ、複数のマイクが取得した音声の到達時間の差から、音声を発したのが運転席のユーザであるか助手席のユーザであるかを判断できる。
【0027】
トークボタン111は、音声認識部114に音声認識処理の実行を指示するトーク信号を発生させる。具体的には、ユーザがトークボタン111を押した後に、音声コマンドを発声する。システム制御部101は、トークボタン押下によるトーク信号の受信を契機として、音声認識部114に音声コマンドの認識処理を実行させる。これによって、ユーザが音声コマンドを発するタイミングを知ることができ、例えば走行中の騒音環境の中でも雑音による誤認識を防ぎ、良好な音声認識性能を得ることができる。
【0028】
このトークボタン111は、例えば車両のハンドルに取り付けたスイッチによって構成される。なお、ユーザが発話することをシステム制御部101に通知するトーク信号を発生するための手段であればどのようなものでもよい。
【0029】
例えば、音声コマンドを発声する前に、特定のキーワードを発声することによって、トークボタンの代わりとしてもよい。この場合、音声認識部114が常時、特定のキーワードのみを待ち受けており(特定語彙ワードスポット)、音声認識部114が特定のキーワードを検出したことによって、システム制御部101にトーク信号を送信する。すなわち、ユーザが特定のキーワードを発声することが、トークボタン111を押すことに相当する。
【0030】
GUI操作部112は、ユーザが音声コマンド以外の方法で情報端末を操作するための装置であり、リモコンや、タッチパネル、ボタンなどで構成される。
【0031】
AV装置113は、CDプレイヤ、MDプレイヤ、DVDプレイヤやこれらの複合型プレイヤ、ラジオチューナ、テレビチューナ、アンプなどから構成される。これらの再生結果として、音声は音声出力装置106から出力され、映像はディスプレイ105に表示される。
【0032】
路面センサ116は、走行中の路面の状態(乾燥、湿潤、水膜、積雪、凍結)を検出するセンサであり、路面センサ116は、例えば、可視画像式センサ、レーザレーダ式センサ、光ファイバ式センサなどを用いる。
【0033】
発汗センサ117は、ハンドルに取り付けられ、運転中のユーザの発汗を検出して、ユーザの緊張度を測定する。
【0034】
インタフェース(I/F)119は、車両の各種センサに接続され、車速パルス、ハンドブレーキ信号、エンジン始動信号等の各種情報を取得する。
【0035】
メモリ118には、経路探索部107、地図情報読込部108、音声認識部114及び意図推定部115が格納される。これら各部はシステム制御部101によって実行されるプログラムである。
【0036】
経路探索部107は、ユーザの指示等によって設定された目的地への経路を、HDD109に格納されている地図情報から探索する。
【0037】
地図情報読込部108は、HDD109に格納されている地図情報をメモリ118に読み出す。そして、GPS受信機102が受信した情報から計算した位置情報、自律航法センサ103が得た位置情報及び読み出した地図情報を用いてマップマッチングを実行し、車両の現在位置を推定する。そして、ディスプレイ105に推定した自車位置の周辺の地図及び自車を現すシンボルを表示する。
【0038】
音声認識部114は、マイク110によって集音された音声コマンドを、音声コマンドに対応するテキスト又は記号を認識結果として得る。より具体的には、音声認識部114が保持する音声モデルと入力された音声コマンドとの類似度を算出し、類似度が高いものを認識結果とする。そして、認識結果とその類似度とを出力する。
【0039】
意図推定部115は、GPS受信機102及び自律航法センサ103によって計算された位置情報、交通情報受信機104によって受信された交通状況、路面センサ116によって検出された路面の状況、インタフェース119から受信した車両の情報等から、ユーザが必要とする情報又は希望する操作内容を推定する。
【0040】
図2は、本発明の第1の実施例の情報端末101の音声対話処理のフローチャートである。
【0041】
このフローチャートは、ユーザがトークボタン111を押して音声コマンドを発声したときに、情報端末100が、その音声コマンドを認識してどのような応答をするかの処理を示す。
【0042】
まず、ユーザはトークボタン111を押して、情報端末100に音声コマンドの発声を予告する。このトークボタン111の押下によって、システム制御部101にトーク信号が送信される。
【0043】
システム制御部101は、トークボタン111からのトーク信号を受信すると(S1001)、ユーザに発声を促すための質問内容を生成する(S1002)。このとき、すなわちトークボタン111が押された直後に生成する質問内容は、例えば「何でしょう?」、「音声コマンドをどうぞ」のような短い音声、又は、「ピッ」という短い信号音等が適している。
【0044】
システム制御部101は、生成した質問内容を音声出力装置106に指示する。音声出力装置106がこの質問内容を音声として出力する(S1003)。なお、このとき、同時にディスプレイ105に質問内容をテキストとして表示してもよい。
【0045】
ユーザは、この質問内容の出力に応えて音声コマンドを発声する(S1004)。マイク110は、発声された音声コマンドを集音してA/D変換する。A/D変換された音声コマンドは音声認識部114に送られる。音声認識部114は、この音声コマンドを音声認識処理することによって認識結果を得る(S1005)。
【0046】
なお、この音声認識処理の結果は、ユーザの発声した音声コマンドに対応したテキストや記号が音声認識結果として得られる場合と、ユーザの発声に対応したテキストや記号が音声認識結果として得られない場合の二通りがある。
【0047】
後者の場合は、例えば、ユーザがトークボタン111を押した後、一定時間何も発声しなかった場合(タイムアウト)、ユーザが発声した音声が、音声認識部114が想定していない音声であった場合、又は、ユーザがトークボタン111を押した後、周囲の雑音がマイク110によって集音され、音声認識部114がこの雑音をユーザの発声と間違えて音声認識処理をした場合等に起きる。このような場合は、音声認識部114が保持する音声モデルと入力された音声との類似度が低くなり、認識結果が得られない。
【0048】
システム制御部101は、S1005の処理の結果、音声処理結果が得られたか否かを判定する(S1006)。音声認識結果が得られた場合は、システム制御部101は、認識結果に含まれる情報を用いて、ユーザが必要とする情報や希望する操作の候補を絞り込む(S1007)。音声認識結果が得られなかった場合は後述する。
【0049】
次に、システム制御部101は、現在の環境情報を取得する。環境情報とは、GPS受信機102、自律航法センサ103、交通情報受信機104、経路探索部107、地図情報読込部108、路面センサ116、発汗センサ117等の少なくとも1つから取得した情報である(S1008)。環境情報は、車や運転者の状況等に関する情報であって、上記音声入力された情報とは異なる。
【0050】
次に、意図推定部115は、S1007によって絞り込まれた認識結果の範囲において、S1008で取得した環境情報を元に、ユーザが必要とする情報又は希望する操作内容を推定する(S1009)。この推定の具体的な方式は後述する。
【0051】
意図推定部115は、この推定の結果、推定内容及び推定の信頼度を得る。そして、システム制御部101は、この推定の信頼度が予め定めた閾値以上であるか否かを判定する(S1010)。
【0052】
信頼度が閾値よりも高い場合は、推定内容がユーザの意図と等しいと判断する。そこで、推定内容に係る情報をユーザに提供する(S1011)。具体的には、システム制御部101は、ディスプレイ105への表示又は音声出力装置106による音声出力によって、推定内容に係る情報を提示する。又は、推定した操作内容を実行し、操作内容を実行したことをユーザにディスプレイ105への表示又は音声出力装置106による音声出力によって知らせる。
【0053】
一方、S1006において、類似度が低く、認識結果が得られなかった場合について説明する。
【0054】
従来の音声認識を用いたシステムでは、ユーザ発声の認識結果が得られなかった場合は音声認識失敗とみなす。そのため、ユーザに再度発声を求める質問内容を生成して、その質問内容を出力する。
【0055】
これに対して、本発明では、認識結果が得られなかった場合には、環境情報を取得して(S1008)、ユーザが必要とする情報又は希望する操作内容を、取得した環境情報を元に推定する(S1009)。
【0056】
前述したように、結果が得られない状況とは、(A)ユーザがトークボタン111を押した後、一定時間何も発声しなかった場合、(B)ユーザがシステムが想定していない音声を発した場合、(C)ユーザがトークボタン111を押した後、周囲の雑音がマイク110によって集音され、音声認識部114がこの雑音をユーザの発声と間違えて音声認識処理をした場合、に分類できる。これはユーザ視点で考えると、トークボタン111を押したにもかかわらず適切な音声コマンドを思いつけなかった場合や、音声コマンドを発声しようとしたのに周囲雑音に妨害された場合に相当する。このときユーザは、トークボタン111を押下して、音声によって、何らかの情報を必要としている又は何らかの操作をしようとしていることは確実である。
【0057】
従って、従来のシステムように、認識結果が得られなかった場合に再度発声を求めるよりも、ユーザ意図を推定する方が、ユーザに再度の発声を求めることがなくなり、ユーザの利便性が増す。特に、(A)及び(B)の場合では、再度発声を求めても、ユーザは適切な音声コマンドを思いつけない可能性があるため、再度認識結果が得られない場合が発生する。これでは、情報端末100の利便性が損なわれ、ユーザの満足度が低くなる。
【0058】
そこで、S1009において推定した情報をユーザに提供する(S1011)。すなわち、システム制御部101は、ディスプレイ105への表示又は音声出力装置106による音声出力によって、推定内容に係る情報を提示する。又は、推定した操作内容を実行し、操作内容を実行したことをユーザにディスプレイ105への表示又は音声出力装置106による音声出力によって知らせる。
【0059】
このとき、ユーザに出力した推定内容又は操作内容は、必ずしも正しいとは限らない。そのため、ユーザに確認を求めたり、訂正の機会を与えることが必要である。
【0060】
特に、意図推定部115がS1010において信頼度が低いと判定した場合は、ユーザに提供すべき情報や実行すべき操作は適切に推定できない。そこで、システム制御部101は、ユーザにさらなる情報を求める質問内容を生成する(S1002)。生成した質問をディスプレイ105や音声出力装置106を通じてユーザに出力し(S1003)、ユーザの発声を促す。
【0061】
また、システム制御部101は、S1010において信頼度が高いと判定した場合は、まず、ユーザに情報を提供する(S1011)。そして、システム制御部101は、確認発声や訂正発声を促す質問内容を生成する(S1002)。生成した質問をディスプレイ105や音声出力装置106を通じてユーザに出力し(S1003)、ユーザの発声を促す。このときの質問内容は、例えば、「他に何かありますか?」や「この操作でよろしいですか?」のような内容とする。
【0062】
これによって、情報端末100は、ユーザの音声コマンドの認識結果が得られなかった場合には、環境情報を取得してユーザが必要とする情報又は希望する操作内容を推定してユーザに提示する。特に、この推定内容が間違っていた場合でも、ユーザは、再度トークボタン111を押す手間を省いて訂正発話ができ、ユーザの利便性が増す。さらに、ユーザにとっては、情報端末100に要求するときは必ずトークボタン111を押して音声コマンドを発する。これによってユーザインタフェースの一貫性が保たれていることを直感的に把握でき、ユーザの利便性が高まる。
【0063】
また、従来の、定期的にユーザに情報や操作を推定して提供する方法においては、ある状況である情報が必要とされる可能性が非常に高いと推定された場合でも、実際にはユーザがそのタイミングでは情報を欲していないというミスマッチが起こり得た。これに対して、本発明では、ユーザによるトークボタン111の押下を契機として、ユーザが情報が必要であるということが判った上で情報を推定するので、ユーザが情報を必要としているタイミングにて必要な情報が提供され、わずらわしさがなくなり、利便性が高まる。
【0064】
図3は、本発明の情報端末100とユーザとの対話の例の説明図である。
【0065】
なお、「S」は情報端末100からの音声出力による情報提示や質問を表し、「U」はユーザによる発話を表す。
【0066】
図3(A)の例は、まずユーザがトークボタン111を押下すると、トーク信号がシステム制御部101に送信される(S1001)。システム制御部101はこれを受けて、応答のための質問内容を生成し(S1002)、出力する(S1003)。このときの質問内容は、ユーザに発声を促す「何でしょうか?」という音声とする。
【0067】
このとき、ユーザが適切な音声コマンドを思いつかなかったため、トークボタン111押下後、無音が所定時間無音経過し、音声認識部114がタイムアウトと判定する。そのため、音声認識結果が得られない(S1006)。そこで、環境情報を取得する(S1008)。この図3の例では、交通情報受信機104が渋滞情報を取得している。また、GPS受信機102の位置情報、自律航法センサ103の位置情報及び地図情報読込部108が得た地図情報をマッチングして得られた位置情報によって、ユーザが渋滞中の道路にいることが判明している。
【0068】
この環境情報によって、意図推定部115は、ユーザが必要としている情報が渋滞情報であると推定する。そして、この推定内容の信頼度が所定の閾値よりも高いと判定する。
【0069】
そこで、システム制御部101は、図3(A)に示すように、渋滞情報をユーザに提供する。その後に、ユーザに確認発声や訂正発声を促す質問内容(「他に何かありますか」)を出力する。
【0070】
ユーザは、トークボタン111押下時に必要としていた情報が渋滞情報であったため、その情報を得られたので、「いいえ」と返答し、情報端末100との対話を終了する。
【0071】
この例のように、ユーザは、適切な音声コマンドを思いつけなかった場合にも、必要としていた情報を得ることができる。
【0072】
図3(B)の例は、図3(A)の例と同様に、ユーザが適切な音声コマンドを思いつかなかったため、音声認識結果が得られない場合である。意図推定部115は、ユーザが必要としている情報が渋滞情報であることを推定する。システム制御部101は、この渋滞情報をユーザに提供する。その後に、ユーザに確認発声や訂正発声を促す質問内容(「他に何かありますか」)を出力する。
【0073】
しかし、ユーザは、トークボタン111押下時に必要としていた情報と提供された情報とが異なることを認識する。そこで、必要とする情報である「抜け道情報」を返答する。
【0074】
これを受けて、情報端末100は絞り込み処理(S1007)によってユーザの必要とする情報である抜け道情報を絞り込む。そして、抜け道情報の検索の応答をする。
【0075】
この例のように、ユーザが適切な音声コマンドを思いつけず、さらに、環境情報により推定した情報がユーザの要求していた情報と異なっていた場合にも、ユーザが何度もトークボタン111を押下して音声を入力することなく、必要としていた情報を得ることができる。
【0076】
図3(C)の例は、図3(A)の例と同様に、ユーザが適切な音声コマンドを思いつかなかったため、音声認識結果が得られない場合である。意図推定部115は、ユーザが必要としている情報が渋滞情報であることを推定する。しかし、図3(C)の例は、この推定内容の信頼度が所定の閾値よりも低いと判定した場合である。
【0077】
信頼度が低いと判定した場合は、システム制御部101は、ユーザにさらなる情報を求める質問内容を生成する。ここでは、ユーザが渋滞情報を知ろうとしているのかを確認するための「渋滞情報をお知りになりたいのでしょうか?」を出力する。
【0078】
ユーザは、トークボタン111押下時に必要としていた情報は渋滞情報であるため、「はい」と応答する。システム制御部101は、これを受けて、絞り込み処理(S1007)によって渋滞情報を絞り込み、環境情報より得た渋滞情報を提供する。
【0079】
この例のように、ユーザが適切な音声コマンドを思いつけず、さらに、環境情報により推定した情報の信頼度が低い場合にも、ユーザが何度もトークボタン111を押下して音声を入力することなく、必要としていた情報を得ることができる。
【0080】
図3(D)の例は、ユーザが適切な音声コマンドを思いつかなかったため、音声認識部114では音声認識が難しい自然発話をした場合の例である。
【0081】
ユーザがトークボタン111を押下した後、システム制御部101は、「何でしょうか?」と応答する。ここで、ユーザが「この渋滞をどの位で抜けられる?」と、音声コマンドではない発話をする。この発話は音声認識部114では音声認識が難しい自然発話であるため、音声認識結果が得られない(S1006)。そこで、システム制御部101は、環境情報を取得する(S1008)。意図推定部115は、ユーザが必要としている情報が渋滞情報であることを推定する。しかし、図3(D)の例は、この推定内容の信頼度が所定の閾値よりも低いと判定した場合である。
【0082】
信頼度が低いと判定した場合は、システム制御部101は、ユーザにさらなる情報を求める質問内容を生成する。ここでは、ユーザが渋滞情報を知ろうとしているのかを確認するための「渋滞情報をお知りになりたいのでしょうか?」を出力する。
【0083】
ユーザは、トークボタン111押下時に意図していた質問内容は渋滞情報であるため、「はい」と応答する。システム制御部101は、これを受けて、絞り込み処理(S1007)によって渋滞情報を絞り込み、環境情報より得た渋滞情報を提供する。
【0084】
この例のように、ユーザが適切な音声コマンドを思いつけず音声認識が難しい自然発話をし、さらに、環境情報により推定した情報の信頼度が低い場合にも、ユーザが何度もトークボタン111を押下して音声を入力することなく、必要としていた情報を得ることができる。
【0085】
図3(E)の例は、ユーザが適切な音声コマンドを思いつかなかったため、音声認識部114では音声認識が難しい自然発話をした場合の例である。
【0086】
図3(D)の例と同様に、ユーザが「この渋滞をどの位で抜けられる?」と、音声コマンドではない発話をする。この発話は音声認識部114では音声認識が難しい自然発話であるため、音声認識結果が得られない(S1006)。そこで、システム制御部101は、環境情報を取得する(S1008)。意図推定部115は、ユーザが必要としている情報が渋滞情報であることを推定する。この信頼度が低いと判定した場合は、ユーザに提供すべき情報や実行すべき操作が適切に推定できない。そこで、システム制御部101は、ユーザにさらなる情報を求める質問内容を生成する。ここでは、ユーザが渋滞情報を知ろうとしているのかを確認するために「渋滞情報をお知りになりたいのでしょうか?」を出力する。
【0087】
しかし、ユーザは、トークボタン111押下時に必要としていた情報と提供された情報が異なることを認識する。そこで、「いいえ」と応答する。
【0088】
これを受けて、システム制御部101は、渋滞情報を除外した絞り込み処理(S1007)を実行する。この結果、到着時間情報が推定され、これをユーザに提供する。このとき、ユーザに確認発声や訂正発声を促す内容を付加して出力する。
【0089】
ユーザは、トークボタン111押下時に意図していた質問内容は到着時間情報であるため、「はい」と応答する。システム制御部101は、これを受けて、環境情報より得た到着時間情報を提供する。
【0090】
この例のように、ユーザが適切な音声コマンドを思いつけず音声認識が難しい自然発話をし、さらに、環境情報により推定した情報の信頼度が低い場合にも、ユーザが何度もトークボタン111を押下して音声を入力することなく、必要としていた情報を得ることができる。
【0091】
図4は環境情報の例を示す説明図である。
【0092】
この図4に例示する環境情報は、ユーザが必要とする情報又は希望する操作内容に影響を与えるものである。システム制御部101は、この環境情報を取得して、ユーザの要求する情報を推定する。
【0093】
(1)乃至(6)の環境情報は、GPS受信機102が受信した位置情報の変化、HDD109に格納されている地図情報及び交通情報受信機104が受信した誘導情報から、システム制御部101がマッチングして判断する。
【0094】
渋滞中であるか否か(7)は、GPS受信機102が受信した位置情報及び交通情報受信機104が受信したVICSの渋滞情報のマッチングした結果と車速の短時間履歴とによってシステム制御部101が判断する。
【0095】
走行中であるか否か(8)は、車速の短時間履歴又はサイドブレーキ信号によって判断する。
【0096】
長時間運転か否か(9)は、エンジン始動から現在までの経過時間と、予め設定した閾値とをシステム制御部101が比較して判断する。
【0097】
汗をかいているか否か(10)は、ハンドルに設置されている発汗センサ117からの信号によって判断する。
【0098】
現在再生中のCDが既に1回再生済みであるか否か(11)は、システム制御部101が、AV装置113のCD再生装置からリピート信号によって判断する。
【0099】
ご飯時であるか否か(12)は、システム制御部101に内蔵された時計から現在時刻を取得して判断する。
【0100】
路面の状態(13)は、路面センサ116からの信号によって判断する。
【0101】
音声コマンドを発したのはドライバーであるか否か(14)は、システム制御部101が、複数のマイク110の音声の到来方向を推定して判断する。
【0102】
システム制御部101は、これらの環境情報を、それぞれの条件の取りうる値に対する確率分布として表す。
【0103】
例えば、(11)の条件は、取りうる値は真/偽の2値であり、かつ、真/偽の判断は確実にできる。従って、(11)の条件が真である確率をP11(真)、偽である確率をP11(偽)とすると、それらの値は、
P11(真)=1、P11(偽)=0
又は、
P11(真)=0、P11(偽)=1
のどちらかとなる。
【0104】
一方、(14)の条件は、外部の雑音の影響などによって音源方向推定の精度が落ちる場合がある。そのため、システム制御部101は、マイク110に備えられている複数のマイクから取得した情報に基づいて、システム制御部101が推定した音源方向の信頼度をP14(真)の値とする。
【0105】
また、(13)の条件は、取りうる値が2値ではない。このような場合は、システム制御部101は、それぞれの取りうる値に関しての確率を環境情報の値とする。具体的には、路面センサ116から取得した情報から、P13(乾燥)、P13(湿潤)、P13(水膜)、P13(積雪)、P13(凍結)とする。
【0106】
図5は、ユーザが必要とする情報又は希望する操作内容の推定値の一例を示す説明図である。
【0107】
システム制御部101は、このような推定値を予め持っている。そして、図4のような環境情報の取得値から、推定値の近似度を算出する。
【0108】
なお、提供可能な情報全て又は可能な操作全てを推定値とすることは、図4の環境情報の各条件との対応付けがうまくいかなくなる。そのため、想定されうるユーザ意図を絞って推定値とすることが好ましい。
【0109】
次に、推定の方法を説明する。
【0110】
システム制御部101は、図2のS1008で取得した環境情報と、ユーザの発声した音声コマンドの認識結果とを用いて、図5に示すユーザが必要とする情報又は希望する操作内容を推定する。この推定にはベイジアンネットワークを用いることができる。
【0111】
図6は、ベイジアンネットワークを用いた推定方法の説明図である。
【0112】
システム制御部101は、図2のS1008で取得した環境情報と、ユーザの発声した音声コマンドの認識結果とを条件とする。そしてこれらの条件全てを親ノードとし、ユーザが必要とする情報又は希望する操作の内容の種別を確率変数とするユーザの意図を子ノードとする。
【0113】
このベイジアンネットワークの条件付確率表は、経験則による考察から作成する。以下に、経験則から条件付確率表を作成する方式の一実施例を説明する。
【0114】
図7は、経験則によって作成されるベイジアンネットワークの確率変数の一例の説明図である。
【0115】
これは、図5に例示したユーザの意図(1)及び(2)に関して、それぞれの条件がこれらのユーザ意図を生起させる可能性を考慮して、予め作成され、情報端末100に格納される。
【0116】
例えば、渋滞中であるか否か(7)の条件の真偽値が「真」である場合に、自車の位置が有料道路上であって、かつ料金所から遠い場合は、ユーザの意図は渋滞情報を必要としている可能性が高くなる。また、自車の位置が一般道路上であって、交差点付近である場合は、ユーザの意図は抜け道情報を必要としている可能性が高くなる。
【0117】
このようにして、ユーザが必要とする情報又は希望する操作内容を推定する。
【0118】
このように、各条件が取りうる値の組み合わせ全てに対して、その条件の組み合わせにおいてユーザが渋滞情報を必要とする確率や、抜け道情報を必要とする確率を適当に決めればよい。
【0119】
一方、どのような条件の取りうる値の組み合わせで、どのような情報提供の要求や、操作の要求が行われたかに関する実際のデータから、上記資料に記載されている方法により条件付確率表を推定する方法でベイジアンネットワークを完成させることもできる。
【0120】
以上のように本発明の第1の実施例の情報端末100は、ユーザがトークボタン111を押下したことを契機として、ユーザの音声コマンドを解析し、音声コマンドに対応する情報を提供する。このとき、ユーザの音声コマンドの解析結果が得られなかった場合は、環境情報を取得して、ユーザが必要とする情報又は希望する操作内容を推定して、推定内容を提供する。このようにすることによって、ユーザは、何度もトークボタン110を押し何度も音声コマンドを発することなく必要とする情報又は希望する操作内容を得られるので、ユーザの利便性が向上する。
【実施例2】
【0121】
次に、本発明の第2の実施例について説明する。
【0122】
前述した第1の実施例では、ユーザがトークボタンを押下し、ユーザの音声コマンドを受け付けた後、ユーザの意図を推定した。これに対して、第2の実施例では、ユーザがトークボタンを押下した後にユーザの意図を推定し、ユーザに情報を提供する。その後、ユーザの音声コマンドを受け付ける。
【0123】
図8は、本発明の第2の実施の情報端末100の音声対話処理のフローチャートである。
【0124】
まず、ユーザはトークボタン111を押して、情報端末100に音声コマンドの発声を予告する。このトークボタン111の押下によって、システム制御部101にトーク信号が送信される。
【0125】
システム制御部101は、トークボタン111からのトーク信号を受信すると(S1001)、現在の環境情報を、GPS受信機102、自律航法センサ103、交通情報受信機104、経路探索部107、地図情報読込部108、路面センサ116、発汗センサ117等から取得する(S1008)。そして、ユーザが必要とする情報又は希望する操作内容を、取得した環境情報を元に推定する(S1009)。
【0126】
意図推定部115は、この推定処理の結果、推定内容及び推定の信頼度を得る。そして、この推定の信頼度が、予め定めた閾値以上であるか否かを判定する(S1010)。
【0127】
信頼度が閾値よりも高い場合は、推定内容がユーザの意図と等しいと判断する。そこで、推定内容に係る情報をユーザに提供する(S1011)。具体的には、システム制御部101は、ディスプレイ105への表示又は音声出力装置106による音声出力をして、その情報を提示する。また、システム制御部101は、推定した操作内容を実行し、操作内容を実行したことをユーザにディスプレイ105への表示又は音声出力装置106による音声出力によって知らせる。
【0128】
一方、意図推定部115が、S1010において信頼度が低いと判定した場合は、システム制御部101は、ユーザにさらなる情報を求める質問内容を生成する(S1002)。生成した質問をディスプレイ105や音声出力装置106を通じてユーザに出力し(S1003)、ユーザの発声を促す。
【0129】
次に、ユーザが発した音声コマンドは(S1004)、音声認識部114によって音声認識処理することによって認識結果が得られる(S1005)。
【0130】
次に、音声認識部114は、S1005の処理の結果、音声処理結果が得られたか否かを判定する(S1006)。音声認識結果が得られた場合は、音声認識部114は、認識結果に含まれる情報を用いて、ユーザが必要とする情報又は希望する操作内容の候補の絞り込みを実行する(S1007)。
【0131】
従って、S1009の推定結果がユーザの意図と同じであった場合は、ユーザはトークボタン111を押すだけで必要とする情報を得たり、希望する操作が実行できたりするという利点が得られる。
【0132】
また、第1の実施例(図2)と同様に、推定結果が正しくなかった場合は、S1002、S1003のステップによって、ユーザは訂正発声や、本当に必要としている情報、操作に関する発話を行う機会が与えられる。
【0133】
図9は、第2の実施例の情報端末100とユーザとの対話の例の説明図である。
【0134】
なお、「S」は情報端末100からの音声出力による情報提示や質問を表し、「U」はユーザによる発話を表す。
【0135】
図9(A)の例は、まずユーザがトークボタン111を押下すると、トーク信号がシステム制御部101に送信される(S1001)。システム制御部101はこれを受けて、環境情報を取得する(S1008)。なお、この図9の例では、経路探索部107が保持する経路情報と、GPS受信機102からの位置情報、自律航法センサ103からの位置情報、と地図情報読込部108から得られた地図情報をマッチングして得られた位置情報によって、ユーザが高速道路を走行中であり、間もなく料金所に差し掛かることが判明する。
【0136】
この環境情報によって、意図推定部115は、ユーザが必要としている情報が高速道路料金情報であることを推定する。そして、この推定内容の信頼度は所定の閾値よりも高くなっている。
【0137】
そこで、システム制御部101は、図9(A)に示すように、高速道路料金情報をユーザに提供する。その後に、ユーザに確認発声や訂正発声を促す質問内容(「他に何かありますか」)を出力する。
【0138】
このときユーザは、トークボタン111押下時に意図していた質問内容と同等の情報を得られたので、「いいえ」と返答し、情報端末100との対話を終了する。
【0139】
この例のように、ユーザはトークボタン111を押した時点で、意図した質問内容と同等の結果を得ることができる。
【0140】
一方、図9(B)の例は、図9(A)の例と同様に、ユーザがトークボタン111を押下した後、システム制御部101は、高速道路料金情報をユーザに提供する。その後に、ユーザに確認発声や訂正発声を促す質問内容(「他に何かありますか」)を出力する。
【0141】
このときユーザは、トークボタン111押下時に意図していた質問内容とは異なる情報を提供されたため、必要な情報である「近くのコンビニ」と返答する。これを受けてシステム制御部101は、絞り込に処理(S1010)によって、ユーザの意図を特定し、取得した環境情報(S1008)を元に、近くのコンビニ情報を特定する(S1008)。この情報をユーザに提供する(S1011)。
【0142】
この図9(B)の場合は、最初に提供した高速料金の情報はユーザにとって必要な情報であったかどうかは判明しない。しかし、必要であった場合、従来のシステムではこれらの二つの情報を取得するためには、ユーザは最低でも2回(「高速料金」「近くのコンビニ」)の音声コマンド発声をする必要があったが、本発明のシステムにおいては、発声数を減らすことができており、利便性が向上している。
【0143】
以上のように本発明の第2の実施例の情報端末100は、ユーザがトークボタン111を押下したことを契機として、環境情報を取得し、ユーザが必要とする情報又は希望する操作内容を推定して、推定内容を提供する。このようにすることによって、ユーザは、音声コマンドを発することなく必要とする情報又は希望する操作内容を得られるので、ユーザの利便性が向上する。
【0144】
また、提供された情報が必要とする情報又は希望する操作内容したものでなかった場合にも、ユーザは、さらに音声コマンドを発声するので、ユーザの意図がより絞りやすくなり、推定の精度が向上する。このようにすることによって、ユーザが何度もトークボタンを押し何度も音声コマンドを発することなく意図する情報を得られるので、ユーザの利便性が向上する。
【産業上の利用可能性】
【0145】
本発明は、カーナビゲーションシステムなどの車載情報端末に適用し、利便性の高いユーザインタフェースを提供できる。
【図面の簡単な説明】
【0146】
【図1】本発明の第1の実施例の情報端末の構成を表すブロック図である。
【図2】本発明の第1の実施例の音声対話処理のフローチャートである。
【図3】本発明の第1の実施例の情報端末とユーザとの対話の例の説明図である。
【図4】本発明の第1の実施例の環境情報の例を示す説明図である。
【図5】本発明の第1の実施例のユーザが必要とする情報又は希望する操作内容の推定値の一例を示す説明図である。
【図6】本発明の第1の実施例のベイジアンネットワークを用いた推定方法の説明図である。
【図7】本発明の第1の実施例のベイジアンネットワークの確率変数の一例の説明図である。
【図8】本発明の第1の実施例の音声対話処理のフローチャートである。
【図9】本発明の第2の実施例の情報端末とユーザとの対話の例の説明図である。
【符号の説明】
【0147】
100 情報端末
101 システム制御部
102 GPS受信機
103 自律航法センサ
104 交通情報受信機
105 ディスプレイ
106 音声出力装置
107 経路探索部
108 地図情報読込部
109 ハードディスク(HDD)
110 マイク
111 トークボタン
112 GUI操作部
113 AV装置
114 音声認識部
115 意図推定部
116 路面センサ
117 発汗センサ
118 メモリ
119 インタフェース

【特許請求の範囲】
【請求項1】
ユーザの音声をコマンドとして認識し、認識したコマンドに基づいた情報を提供する情報端末において、
ユーザの指示によってトーク信号を出力するトーク信号部と、
ユーザの発声した音声をコマンドとして認識する音声認識部と、
情報端末の周囲の環境に関する環境情報を取得する環境情報取得部と、
前記認識したコマンド及び前記取得した環境情報からユーザが意図する情報を推定する推定部と、
情報端末の処理を制御する制御部と、
を備え、
前記制御部は、
前記トーク信号の受信を契機として、前記音声認識部が認識したユーザのコマンドが得られたか否かを判定し、
当該コマンドが得られない場合に、前記環境情報取得部が取得した環境情報を用いて前記推定部が推定した情報をユーザに提供することを特徴とする情報端末。
【請求項2】
ユーザの音声をコマンドとして認識し、認識したコマンドに基づいた情報を提供する情報端末において、
ユーザの指示によってトーク信号を出力するトーク信号部と、
ユーザの発声した音声をコマンドとして認識する音声認識部と、
情報端末の周囲の環境に関する環境情報を取得する環境情報取得部と、
前記認識したコマンド及び前記取得した環境情報からユーザが意図する情報を推定する推定部と、
情報端末の処理を制御する制御部と、
を備え、
前記制御部は、
前記トーク信号の受信を契機として、
前記環境情報取得部が取得した環境情報を用いて前記推定部が推定した情報を、ユーザに提供し、ユーザの発声に基づく前記音声認識部が認識したコマンドを取得することを特徴とする情報端末。
【請求項3】
前記制御部は、前記音声認識部が認識したユーザの発声と前記音声認識部の保持する音声モデルとの類似度が低い場合に、コマンドを取得できないと判定する請求項1に記載の情報端末。
【請求項4】
前記制御部は、前記音声認識部が認識したコマンドを取得した場合に、前記環境情報取得部が取得した環境情報を用いてユーザのコマンドに対応する情報を選択し、当該選択された情報をユーザに提供することを特徴とする請求項1に記載の情報端末。
【請求項5】
前記制御部は、前記音声認識部が認識したコマンドを取得した後、前記推定内容に基づいてユーザのコマンドに対応する情報を選択し、当該選択された情報をユーザに提供することを特徴とする請求項2に記載の情報端末。
【請求項6】
前記制御部は、前記推定部が推定した情報に、質問を付加してユーザに提示することを特徴とする請求項1又は2に記載の情報端末。
【請求項7】
前記制御部は、前記推定部が推定した情報の信頼度が所定の閾値よりも低い場合は、ユーザにさらなる情報を求める質問を出力することを特徴とする請求項1又は2に記載の情報端末。
【請求項8】
車両に備えられ、
GPS衛星からの電波を受信するGPS受信部と、
ジャイロを備え前記ジャイロによって車両の方向及び加速度を取得する自律航法センサ部と、
地図情報を記憶する地図情報記憶部と、
車両の位置を算出する位置算出部と、
を備え、
前記位置算出部は、前記GPS受信部が受信した電波及び自律航法センサの取得した情報に基づいて、前記車両の地図上の位置を算出し、
前記環境情報取得部は、前記制御部が算出した前記車両の位置を環境情報として取得することを特徴とする請求項1又は2に記載の情報端末。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2006−317573(P2006−317573A)
【公開日】平成18年11月24日(2006.11.24)
【国際特許分類】
【出願番号】特願2005−138252(P2005−138252)
【出願日】平成17年5月11日(2005.5.11)
【出願人】(591132335)株式会社ザナヴィ・インフォマティクス (745)
【Fターム(参考)】