音声対話装置および音声対話方法
【課題】 現在行っている対話の話題が対話全体から見てどの位置にあるのかを分かりやすく提示して使用者の不安感を低減した音声対話装置および音声対話方法を提供する。
【解決手段】 話題情報を提示して使用者の発話を促す提示手段(ディスプレイ5)と、入力された使用者の音声を認識する音声認識手段(11,14)と、を備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置において、提示制御手段(14)により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程としてディスプレイ5に提示する。
【解決手段】 話題情報を提示して使用者の発話を促す提示手段(ディスプレイ5)と、入力された使用者の音声を認識する音声認識手段(11,14)と、を備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置において、提示制御手段(14)により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程としてディスプレイ5に提示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声対話装置および音声対話方法に係り、特に、情報機器に搭載されて種々の条件等をインタラクティブに段階的に設定していく際に、使用者の不安感を低減した音声対話装置および音声対話方法に関する。
【背景技術】
【0002】
従来の音声対話装置としては、例えば、特開平9−292896号公報に開示の「車両用ナビゲーション装置」がある。この従来例は、乗員からの音声入力を用いて車両の走行案内を行うものであるが、車室内のようにノイズが多い環境下であっても音声認識率を高めるために、過去の音声入力時の使用頻度を加味して音声入力された単語を特定するものである。
【特許文献1】特開平9−292896号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上述した特許文献1に開示された技術においては、対話の各時点において受理可能としている話題を画面にガイダンス提示して使用者の発話を促すものであるため、現在行っている対話の話題が対話全体から見てどの位置にあるのかが分かりにくいという問題があった。また、分かりにくいことから、使用者がこの先どこまで話せばいいのか不安になってしまい、対話を完了する前に使用をあきらめてしまうといった事態も発生し、このようなことを数度経験した使用者は音声対話機能自体を使わなくなってしまうという事情もあった。
【0004】
本発明は、上記従来の事情に鑑みてなされたものであって、現在行っている対話の話題が対話全体から見てどの位置にあるのかを分かりやすく提示して使用者の不安感を低減した音声対話装置および音声対話方法を提供することを目的としている。
【課題を解決するための手段】
【0005】
上記目的を解決するため、本発明は、話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段と、を備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置において、提示制御手段により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示手段に提示することを特徴とする。
【発明の効果】
【0006】
本発明に係る音声対話装置および音声対話方法では、提示制御手段(提示制御ステップ)により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するので、使用者は、現在行っている対話の話題が対話全体から見てどの位置にあるかが分かり、不安感を抱くことなく対話を完了することができる。
【発明を実施するための最良の形態】
【0007】
以下、本発明の音声対話装置および音声対話方法の実施例について、〔実施例1〕、〔実施例2〕、〔実施例3〕、〔実施例4〕、〔実施例5〕の順に図面を参照して詳細に説明する。なお、実施例の説明では、一例として車両や携帯端末等に搭載されるナビゲーション装置に適用した構成を示すが、本発明は、情報機器に搭載されて種々の条件等をインタラクティブに段階的に設定していくものであれば、どのようなアプリケーションにも適用可能である。
【実施例1】
【0008】
図1は本発明の実施例1に係る音声対話装置の構成図である。図1において、本実施例の音声対話装置は、信号処理ユニット1、マイク2、スピーカ3、入力装置4およびディスプレイ5を備えて構成されている。なお、本発明に関わる主要構成要素ではないために図示しないが、携帯端末であれば他に送受信手段の構成を備え、また車載用であれば、送受信手段または通信接続手段等を備えた構成であってもよい。
【0009】
マイク2は使用者の発話を音声信号に変換して信号処理ユニット1に供給する。また、スピーカ3はシステムの発話として信号処理ユニット1から出力される音声信号を音声として出力する。また、入力装置4には発話スイッチ4aおよび訂正スイッチ4bを備えている。ここで、発話スイッチ4aは音声認識の開始指示を行うためのスイッチであり、訂正スイッチ4bは誤認識した場合に訂正を行うためのスイッチであって、該訂正スイッチ4bを一定期間押し続けることにより、音声操作を途中で終了することができる。さらに、ディスプレイ5は例えばLCD(液晶表示装置)等で実現され、ナビゲーションの行き先や探索条件設定時の待ち受け画面表示を行ったり、経路誘導等の画面を表示したりする。
【0010】
信号処理ユニット1は、A/Dコンバータ11、D/Aコンバータ12、出力アンプ13、信号処理装置14および外部記憶装置15を備え、信号処理装置14にCPU21およびメモリ22を備えた構成である。信号処理ユニット1は、入力装置4の発話スイッチ4aまたは訂正スイッチ4bの押下に応答して、またマイク2からの使用者の音声入力に応答して信号処理を行い、システム応答としてスピーカ3からシステム発話を出力させたり、ディスプレイ5上に応答画像を表示させたりする。
【0011】
外部記憶装置15には、ナビゲーションに使用するデータや音声認識処理に使用する認識対象データ等が記憶され、また、メモリ22には処理プログラムや使用頻度の高い各種データ等が記憶されている。音声認識処理では、A/Dコンバータ11を介してディジタル信号に変換されたマイク2からの音声入力について、信号処理装置14は外部記憶装置15を参照しながら認識処理を行い、また、その音声入力に対するシステム応答としてのシステム発話を、信号処理装置14はD/Aコンバータ12を介してアナログ信号に変換して出力アンプ13で信号増幅した後に、スピーカ3から音声出力させる。
【0012】
本実施例の音声対話装置は、話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段とを備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了するものであるが、提示手段はディスプレイ5で実現され、音声認識手段はA/Dコンバータ11、信号処理装置14および外部記憶装置15で実現される。また、本発明の特徴であって、提示手段(ディスプレイ5)に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示する提示制御手段は、信号処理装置14で実現される。
【0013】
次に、図2、図3および図4を参照して、本実施例の音声対話装置における音声対話方法を説明する。図2は音声対話方法を説明するフローチャート、図3は認識対象語のデータ構造の説明図、図4はディスプレイ5に表示される待ち受け画面の基本構成を例示する説明図である。
【0014】
なお、音声認識の方式には複数の方式が存在している。計算機へのコマンド入力のように、単語毎に区切って発話された音声を認識する方式のことを「単語音声認識」と呼び、これに対して単語毎に区切らず複数の単語をつなげて発話された音声を認識する方式のことを「連続単語認識」と呼ぶ。用途或いはインタフェース設計の考え方に応じてそれぞれの使い分けが行われ、また両者を同時に用いる実装がなされてもよく、形態としては様々であり、どのような形態が最も良い実装かということも一概には言えない。本実施例では、「単語音声認識」を用いた実装がなされているとして、以下説明する。
【0015】
図2のフローチャートにおいて、まず、使用者が発話スイッチ4aを操作して発話の開始が指示される(ステップS101)と、信号処理装置14は発話開始指示を検出して処理を開始する。
【0016】
次に、信号処理装置14は、音声認識処理のための待ち受け設定を行う(ステップS102)。信号処理装置14は、認識対象語を外部記憶装置15からメモリ22に読み込む。ここで、認識対象語は、車両用のナビゲーション装置および車両用の電子機器に関わるものであり、図3に示されるようなものである。同図に示すように、認識対象語のデータ構造は、3階層以上の階層構造を備えている。第1階層の話題は機能選択であって、「行き先」、「探索条件」、「施設表示」、「電話」および「ヘルプ」の5つの機能を選択可能である。第1階層のそれぞれの認識対象語について第2階層に複数個の認識対象語と話題の接続関係を持ち、第j階層の認識対象語はそれより1つ下位のj+1階層に複数の認識対象語と接続関係を持つ。全体として幾つの階層となるかは、選択する機能および該選択以降に発話する内容に応じて決定される。
【0017】
次に、信号処理装置14は、使用者が音声入力を容易に行えるようにディスプレイ5の表示内容を待ち受け画面に切替え変更する(ステップS103)。
【0018】
図4は、ナビゲーションの行き先をインタラクティブに設定する際の途中(県名選択)段階での待ち受け画面を例示している。待ち受け画面の基本構成は領域A、領域Bおよび領域Cを備える構成である。
【0019】
領域Aは、現在どのような待ち受け設定となっているかを表示する領域であり、使用者はこの領域Aに表示されている内容を見ることで、どのような認識対象語を発話すればよいかを知ることができる。図4の例では、次に都道府県の名称を発声すればよいことが容易に理解できる。また領域Bは、使用者の発話により何が認識されたかを確認のために表示する領域である。図4の例では、使用者が1階層前(話題2)の行き先設定のジャンル選択において、使用者が「駅」という発話を行い、その音声認識結果が継続して表示されている。
【0020】
さらに領域Cは、現在の話題を前後する話題との接続関係と共に提示する領域であり、本発明の特徴的な表示構成である。図4の例では、現在、都道府県名を入力する階層にあるため、その階層(話題3)の県名選択C03が識別表示(表示色が他の話題C01,C02,C04およびC05とは異なる色で表示)されている。このように、現在の話題と前後する話題との接続関係と共に提示することにより、話題1で機能選択がなされ、話題2でジャンル選択がなされ、現在(話題3)の県名選択がなされた後は、話題4の県名選択、話題5の探索条件選択を経て終了するという一連の流れを容易に理解することができ、使用者はこの流れを想定しながら選択設定していく作業を行うことができる。
【0021】
なお、識別表示のやり方は、表示色を変える方法以外にも、階調度(グレイスケール)を変える、或いは、文字の背景として模様を入れるなど種々の方法がある。また、話題1の機能選択から終了に至るまでの階層が領域Cに表示可能な階層数を超える場合には、例えば、現在の話題から終了までの階層を優先的に表示するようにしても良い。また、入力装置4の特定のスイッチや使用者の指先の押圧によって領域Cの表示を左右にスクロール可能な構成としても良い。
【0022】
次に、信号処理装置14は、プロンプト、即ち処理を開始した旨を使用者に知らせるために、外部記憶装置15に記憶してある告知音声信号をD/Aコンバータ12に出力し、アンプ13およびスピーカ3を介して告知音声を出力する。この告知音声を聞くと、使用者は認識対象に含まれる発話を行うので、信号処理装置14は、マイク2からの音声信号をA/Dコンバータ11でディジタル信号に変換したものを取り込む(ステップS104)。
【0023】
信号処理装置14は、発話スイッチ4aの操作がなされるまでは、D/Aコンバータ12の出力(ディジタル音声信号)のパワーを演算しており、発話スイッチ4aの操作がなされた後に、前の平均パワーに比べてディジタル音声信号の瞬間パワーが所定の閾値よりも大きくなった区間を音声区間とみなして、発話区間の検出を行っている。このような音声の発話区間の検出は公知技術であり、例えば、特開昭63−226692号公報「パターン比較方式」に開示されている。
【0024】
次に、信号処理装置14は、メモリ22に記憶されている認識対象との一致度演算を開始する(ステップS105)。一致度は、検出した発話区間のディジタル音声信号と個々の認識対象がどの程度似ているかを示すものであり、スコアとして算出される。ここでは、スコアの値が大きいほど一致度が高いとして評価する。なお、この一致度演算を行う間も、並列処理により音声の取り込みは継続されている。
【0025】
次に、信号処理装置14は、ディジタル音声信号の瞬間パワーが所定の閾値以下になったとき、使用者の発話が終了したと判断して、音声の取り込みを終了する(ステップS107)。この終了判断についても、例えば、特開昭63−226692号公報の「パターン比較方式」と同様である。
【0026】
次に、信号処理装置14は、一致度の演算(ステップS105)の終了を待ち、該一致度演算の結果、一致度の最も大きい認識対象を認識結果として出力する。図4の例では、最も一致度が大きかった認識対象語が「駅」であり、認識結果として「駅」が領域Bに表示されている。なお、認識結果の出力は、ディスプレイ5への表示だけでなく、スピーカ3による音声出力も行われ、音声合成処理機能を用いて認識結果の「駅」を音声信号に変換し、D/Aコンバータ12によりアナログ音声信号に変換された後、アンプ13による信号増幅を経て、スピーカ3から音声出力される。
【0027】
なお、例えば使用者が「駅」と発話したのに対して、誤認識が発生して認識結果が「住所」となった場合には、使用者は、訂正スイッチ4bを操作して認識処理(ステップS102)以前の状態に戻ることができる。すなわち、ステップS107の認識結果の出力後、使用者による訂正スイッチ4bの押下があるかどうか所定時間の間待ち受け、訂正スイッチ4bの押下があった場合は、ステップS102に戻って再度ステップS102からステップS107までの処理を繰り返し、また、所定時間内に訂正スイッチ4bの押下がなかった場合には、認識結果を使用者が容認したとしてステップS109に進む(ステップS108)。
【0028】
次に、ステップS107で認識結果として出力された認識対象を受けて、その下位階層があるかどうかを判断する(ステップS109)。下位階層がある場合にはステップS102に戻り、下位階層に応じた待ち受け処理、即ち代表語彙の指示と認識対象の設定を行う。図4の例では、認識対象語「駅」に対して下位階層が存在し、「都道府県名」が下位階層の待ち受け語として設定され、領域Aに表示されることになる。
【0029】
また、ステップS109において、認識結果として出力された認識対象語に下位階層がない場合には、ステップS110に進んで、該認識対象語に関連づけられた機能を実行する。図4の例では、発話により最終的に確定した場所へ行き先設定する機能および経路探索する機能が対応づけられており、これらの機能が実行されることになる。
【0030】
以上、図2のフローチャートに沿って処理手順を説明したが、本実施例の音声対話装置における音声対話方法では、使用者の発話によって階層を進む毎に、処理が再帰的に実行されている。次に、より具体的に、図5から図10までの説明図を参照して、使用者が「行き先」→「駅」→「神奈川県」→「横浜駅」→「有料道路優先」の発話をして階層を進んでいく場合のディスプレイ5の表示画面の推移を説明する。
【0031】
図5は、使用者が発話スイッチ4aを押下した後に、最初にディスプレイ5に表示される待ち受け画面である。図5では、現在の階層が機能選択(話題1)を行うための画面であることが、領域C中の機能選択C01の識別表示により容易に分かる。また、今後経なくてはならない話題が複数個あることも容易に理解できる。
【0032】
次に、図6は、図5の画面の領域Aに表示された(話題1の)代表語彙から使用者が選択する時の待ち受け画面であり、これに対して使用者は「行き先」と発話している。また、この発話に基づく図2のステップS104からステップS107までの処理を経て、認識結果「行き先」が認識結果表示領域(領域B)に表示されている。
【0033】
次に、図7は、認識対象語「行き先」の次の階層(話題3)についての待ち受け画面である。領域Cの識別表示から、現在の階層は「ジャンル選択」の話題2を入力する階層であることが容易に理解できる。また、使用者の発話の認識結果「行き先」が領域Bに表示されている。そして、認識対象語「行き先」に対して下位階層が存在し、該階層の複数の代表語彙が領域Aに表示されている。つまり、図7の待ち受け画面に対して、次に使用者は、領域Aに表示された代表語彙からジャンル選択を行えばよいことが容易に理解できる。
【0034】
次に、図8は、図7の画面の領域Aに表示された代表語彙から使用者が「駅」を選択して「駅」と発話した後の待ち受け画面である。使用者による発話「駅」を受けて該認識結果が領域Bに表示され、さらに認識対象語「駅」に対して下位階層が存在し、代表語彙の「都道府県名」が待ち受け語として領域Aに表示されている。また、領域Cの表示から、現在の階層が「県名選択」の話題3を入力する階層であることが容易に理解できる。
【0035】
次に、図9は、図8の画面の領域Aに表示された代表語彙「都道府県名」に対し、使用者が「神奈川県」と発話した場合の待ち受け画面である。使用者による発話「神奈川県」を受けて該認識結果が領域Bに表示され、さらに認識対象語「神奈川県」に対して下位階層が存在し、代表語彙の「駅名」が待ち受け語として領域Aに表示されている。また、領域Cの表示から、現在の階層が「駅名選択」の話題4を入力する階層であることが容易に理解できる。
【0036】
さらに、図10は、図9の画面の領域Aに表示された代表語彙「駅名」に対し、使用者が「横浜駅」と発話した場合の待ち受け画面である。使用者による発話「横浜駅」を受けて該認識結果が領域Bに付加表示され、さらに認識対象語「横浜駅」に対して下位階層が存在し、複数の代表語彙が待ち受け語として領域Aに表示されている。また、領域Cの表示から、現在の階層が「探索条件選択」の話題5を入力する階層であることが容易に理解できる。
【0037】
なお、以上説明した具体例では、「行き先」→「駅」→「神奈川県」→「横浜駅」→「有料道路優先」の発話をして、階層を順に進んでいったが、数階層先の階層の発話を受理できるようにすることも可能である。例えば、図5の待ち受け画面において、使用者が2階層先の「駅」を発話した場合には、図8の待ち受け画面に遷移することになる。
【0038】
以上説明したように、本実施例の音声対話装置および音声対話方法では、話題情報を提示して使用者の発話を促す提示手段(ディスプレイ5)と、入力された使用者の音声を認識する音声認識手段(11,14)と、を備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置において、提示制御手段(14)(提示制御ステップ)により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として(ディスプレイ5の画面上の領域Cに)提示する。これにより、使用者は、現在行っている対話の話題が対話全体から見てどの位置にあるかが分かり、不安感を抱くことなく対話を完了することができる。
【0039】
また、(例えば、図4に示すディスプレイ5の画面上の領域Cにおいて、話題3の県名選択C03の表示色を他と変えて表示したように、)話題遷移過程の中で現在の話題情報を識別して提示するので、現在の話題(階層)が何で(どこで)あるのかを容易に理解することができる。
【0040】
さらに、話題遷移過程が対話の完了までの話題の接続関係を含んでいるので、使用者は、現在の話題以降完了までの話題の遷移を認知することができ、完了までの対話の負担をイメージすることが容易になり、従来のように不安感を抱きつつ対話を行うようなことが無くなる。
【実施例2】
【0041】
次に、本発明の実施例2に係る音声対話装置および音声対話方法について説明する。
【0042】
本実施例の音声対話装置の構成は、実施例1と同様に図1で示される構成である。本実施例においても、実施例1と同様に、信号処理装置14で実現される提示制御手段が、提示手段(ディスプレイ5)に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、提示制御手段(14)において、話題毎に音声認識手段(11,14)による認識難易度を計算し、話題遷移過程に併せて提示する点に特徴がある。
【0043】
ここで、認識難易度は、音声認識処理における音声認識の難しさを表し、該認識難易度が低いと、音声認識率を高めるために、明瞭に発話する、或いは、大きい声量で発話するなど、使用者に対して大きな負担が求められることになる。音声認識率の低さは、一般に認識対象語の階層に含まれる単語数に比例し、そのため、階層に含まれる単語数が所定値以上であるときは音声認識率が低いと判断することができる。また、音声認識率の低さは、低認識語を含むかどうかによっても判断できるが、このことは、技術文献「寺嶌;“音声認識における低認識語の予測技術”,技術報告(豊田中央研究所R&Dレビュー),Vol13,No2,2001年6月)」に詳しく述べられている。この技術文献によれば、低認識語を所定数以上含む場合に音声認識率が低いと判断できる。
【0044】
次に、本実施例の音声対話装置における音声対話方法も、実施例1と同様に、図2のフローチャートに示される手順を踏む。但し、ステップS103の待ち受け画面表示における処理内容が異なり、以下詳しく説明する。
【0045】
図11は、本実施例の待ち受け画面における領域Cの表示内容を例示する説明図である。待ち受け画面の領域Aおよび領域Bの表示については実施例1と同様である。つまり、実施例1の図4または図8において領域Cの表示内容が図11に示す内容に置き換わる。
【0046】
図11において、話題3の県名選択C03が識別表示(表示色が他の話題C01,C02,C04およびC05とは異なる色で表示)されており、現在は、都道府県名を入力する階層にあることが容易に分かる。また接続関係の表示から、現在の県名選択をした後は、話題4の県名選択、話題5の探索条件選択を経て終了するという一連の流れを容易に理解することができる。
【0047】
さらに、図11では、次階層の駅名選択時の認識難易度が難しい(音声認識率が低い)ことが、他の話題よりも大きな枠C04bによる識別表示で示されており、次階層の駅名選択時には明瞭に発話する、或いは大きい声量で発話するなど、使用者の発話の負担が大きいことを認知できる。すなわち、話題遷移過程に認識難易度が併せて提示されていることにより、使用者はこの先どの程度の負担があるかを前もって認知することができる。
【0048】
また、図12は、本実施例の待ち受け画面における領域Cの表示内容の他の例を示す説明図である。図11とは別の識別方法として、次階層の駅名選択時の認識難易度が難しい(音声認識率が低い)ことを、他の話題とは異なる色または模様によって識別することができる。図12は、他の話題とは異なる模様の背景C04cによる識別表示であり、これにより、使用者はこの先どの程度の負担があるかを前もって認知することができる。なお、認識難易度を色によって識別する場合には、例えば、認識難易度が難しく使用者負担が大きいときには赤色を使用し、認識難易度が易しく使用者負担が小さいときには青色を使用して識別する方法が考えられる。さらに、話題遷移過程に認識難易度を併せて提示する方法としては、その旨を言葉で表示する方法や、数値化してその値を表示する方法など種々の方法が考えられる。
【0049】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段(14)において、話題毎に音声認識手段(11,14)による認識難易度を計算し、話題遷移過程に併せて提示するので、音声認識の難しさに由来する負担も併せてイメージすることが容易になり、音声対話における使用者の不安感をより低減させることができる。
【実施例3】
【0050】
次に、本発明の実施例3に係る音声対話装置および音声対話方法について説明する。
【0051】
本実施例の音声対話装置の構成は、実施例1と同様に図1で示される構成である。本実施例においても、実施例1と同様に、信号処理装置14で実現される提示制御手段が、提示手段(ディスプレイ5)に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、提示制御手段(14)において、現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、話題遷移過程の中で現在の話題、他の話題およびそれらの接続関係を識別して提示する点に特徴がある。そのため、本実施例では、実施例1とは異なり、「単語音声認識」および「連続単語認識」の両者を同時に用いる実装がなされている。なお、ここでは、話題3の「県名選択」と話題4の「駅名選択」について、連続した単語音声の認識が可能であるとして説明を行う。
【0052】
次に、本実施例の音声対話装置における音声対話方法も、実施例1と同様に、図2のフローチャートに示される手順を踏む。但し、ステップS103の待ち受け画面表示における処理内容が異なり、以下具体例を示して説明する。
【0053】
図13は、本実施例の待ち受け画面における領域Cの表示内容を例示する説明図である。待ち受け画面の領域Aおよび領域Bの表示については実施例1と同様である。つまり、実施例1の図7において領域Cの表示内容が図13に示す内容に置き換わる。領域Cの話題2の識別表示から、現在の階層は「ジャンル選択」を入力する階層であることが容易に理解できる。また、接続関係の表示から、ジャンル選択(で「駅」を選択)した後は、話題3および話題4の県名および駅名選択、話題5の探索条件選択を経て終了するという一連の流れを容易に理解できる。
【0054】
特に、図13では、次階層の県名および駅名選択が太枠C34で強調表示してある。これにより、使用者は次に階層において、県名選択および駅名選択の両者を連結した発話が可能であることを認知でき、それにより、今後の発話負担がどの程度軽減されるかを容易に理解することができる。
【0055】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段(14)において、現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、話題遷移過程の中で現在の話題、他の話題およびそれらの接続関係を識別して提示するので、連続音声の発話によりどの程度対話の負担が減少するかも併せてイメージすることが可能となり、音声対話における使用者の不安感をより低減させることができる。
【実施例4】
【0056】
次に、本発明の実施例4に係る音声対話装置および音声対話方法について説明する。
【0057】
本実施例の音声対話装置の構成は、実施例1と同様に図1で示される構成である。本実施例においても、実施例1と同様に、信号処理装置14で実現される提示制御手段が、提示手段(ディスプレイ5)に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、提示制御手段(14)において、現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示する点に特徴がある。
【0058】
次に、本実施例の音声対話装置における音声対話方法も、実施例1と同様に、図2のフローチャートに示される手順を踏む。但し、ステップS103の待ち受け画面表示における処理内容が異なり、以下詳しく説明する。
【0059】
図14は、本実施例の待ち受け画面における領域Cの表示内容を例示する説明図である。待ち受け画面の領域Aおよび領域Bの表示については実施例1と同様である。つまり、実施例1の図9において領域Cの表示内容が図14に示す内容に置き換わる。
【0060】
図14において、話題4の駅名選択C04が識別表示されており、現在は、駅名を入力する階層にあることが容易に分かる。また接続関係の表示から、現在の駅名選択をした後は、話題5の探索条件選択を経て終了するという一連の流れを容易に理解することができる。但し、図14では実施例1とは異なり、話題2のジャンル選択と話題4の駅名選択の間の話題の接続関係として、県名選択C031と路線選択C032の2つの話題遷移過程が表示されており、話題3において県名選択または路線選択の何れかの選択が可能であったことを示している。
【0061】
つまり、前階層の話題3の階層においては、「県名選択」以外に「路線選択」の選択も可能で、使用者は、例えば、「神奈川県」という発話以外に、「京浜急行」という発話も可能であったことを意味している。なお、この話題3の階層の待ち受け画面では、領域Aに表示される代表語彙として「都道府県名」と「路線名」が表示されることになる。
【0062】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段(14)において、現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示するので、実際に遷移してきた話題遷移過程とは異なる他の話題遷移過程との比較が可能となり、現在行っている対話の話題が、対話全体から見てどの位置にあるかの理解がより容易になる。
【実施例5】
【0063】
次に、本発明の実施例5に係る音声対話装置および音声対話方法について説明する。
【0064】
本実施例の音声対話装置の構成は、実施例1と同様に図1で示される構成である。本実施例においても、実施例1と同様に、信号処理装置14で実現される提示制御手段が、提示手段(ディスプレイ5)に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、記憶手段(メモリ22または外部記憶装置15)に過去に完了した対話の話題遷移過程を記憶しておき、提示制御手段(14)において、現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示する点に特徴がある。
【0065】
次に、本実施例の音声対話装置における音声対話方法も、実施例1と同様に、図2のフローチャートに示される手順を踏む。但し、ステップS103の待ち受け画面表示における処理内容が異なり、以下詳しく説明する。
【0066】
図15は、本実施例の待ち受け画面における領域Cの表示内容を例示する説明図である。待ち受け画面の領域Aおよび領域Bの表示については実施例1と同様である。つまり、実施例1の図8において領域Cの表示内容が図15に示す内容に置き換わる。
【0067】
図15において、話題3の県名選択C03が識別表示されており、現在は、都道府県名を入力する階層にあることが容易に分かる。また接続関係の表示から、現在の県名選択をした後は、話題4の県名選択、話題5の探索条件選択を経て終了するという一連の流れを容易に理解することができる。但し、図15では実施例1とは異なり、話題2のジャンル選択から話題5の探索条件選択の間の話題の接続関係として、県名選択C06,市名選択C07,大字選択C08および番地選択C09の話題を遷移する他の話題遷移過程が表示されている。この他の話題遷移過程(C02→C06〜C09→C05)は、過去に使用者が行った他の入力話題の遷移過程であり、これを併せて表示することにより、使用者は今回の入力負担と過去に経験した入力の負担とを比較することができる。
【0068】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段(14)において、現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示するので、成功経験のある対話の負担との比較により、現在行っている対話の負担をイメージすることが可能となり、音声対話における使用者の不安感をより低減させることができる。
【図面の簡単な説明】
【0069】
【図1】本発明の実施例に係る音声対話装置の構成図である。
【図2】音声対話方法を説明するフローチャートである。
【図3】認識対象語のデータ構造の説明図である。
【図4】実施例1において待ち受け画面の基本構成を例示する説明図である。
【図5】実施例1において発話スイッチ押下時の待ち受け画面を例示する説明図である。
【図6】実施例1において「行き先」と発話する時の待ち受け画面を例示する説明図である。
【図7】実施例1において「行き先」と発話した後の待ち受け画面を例示する説明図である。
【図8】実施例1において「駅」と発話した後の待ち受け画面を例示する説明図である。
【図9】実施例1において「神奈川県」と発話した後の待ち受け画面を例示する説明図である。
【図10】実施例1において「横浜駅」と発話した後の待ち受け画面を例示する説明図である。
【図11】実施例2の待ち受け画面における領域Cの表示内容を例示する説明図である。
【図12】実施例2の待ち受け画面における領域Cの表示内容を例示する説明図である。
【図13】実施例3の待ち受け画面における領域Cの表示内容を例示する説明図である。
【図14】実施例4の待ち受け画面における領域Cの表示内容を例示する説明図である。
【図15】実施例5の待ち受け画面における領域Cの表示内容を例示する説明図である。
【符号の説明】
【0070】
1 信号処理ユニット
2 マイク
3 スピーカ
4 入力装置
5 ディスプレイ(提示手段)
11 A/Dコンバータ(音声認識手段)
12 D/Aコンバータ
13 出力アンプ
14 信号処理装置(音声認識手段または提示制御手段)
15 外部記憶装置
21 CPU
22 メモリ
【技術分野】
【0001】
本発明は音声対話装置および音声対話方法に係り、特に、情報機器に搭載されて種々の条件等をインタラクティブに段階的に設定していく際に、使用者の不安感を低減した音声対話装置および音声対話方法に関する。
【背景技術】
【0002】
従来の音声対話装置としては、例えば、特開平9−292896号公報に開示の「車両用ナビゲーション装置」がある。この従来例は、乗員からの音声入力を用いて車両の走行案内を行うものであるが、車室内のようにノイズが多い環境下であっても音声認識率を高めるために、過去の音声入力時の使用頻度を加味して音声入力された単語を特定するものである。
【特許文献1】特開平9−292896号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上述した特許文献1に開示された技術においては、対話の各時点において受理可能としている話題を画面にガイダンス提示して使用者の発話を促すものであるため、現在行っている対話の話題が対話全体から見てどの位置にあるのかが分かりにくいという問題があった。また、分かりにくいことから、使用者がこの先どこまで話せばいいのか不安になってしまい、対話を完了する前に使用をあきらめてしまうといった事態も発生し、このようなことを数度経験した使用者は音声対話機能自体を使わなくなってしまうという事情もあった。
【0004】
本発明は、上記従来の事情に鑑みてなされたものであって、現在行っている対話の話題が対話全体から見てどの位置にあるのかを分かりやすく提示して使用者の不安感を低減した音声対話装置および音声対話方法を提供することを目的としている。
【課題を解決するための手段】
【0005】
上記目的を解決するため、本発明は、話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段と、を備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置において、提示制御手段により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示手段に提示することを特徴とする。
【発明の効果】
【0006】
本発明に係る音声対話装置および音声対話方法では、提示制御手段(提示制御ステップ)により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するので、使用者は、現在行っている対話の話題が対話全体から見てどの位置にあるかが分かり、不安感を抱くことなく対話を完了することができる。
【発明を実施するための最良の形態】
【0007】
以下、本発明の音声対話装置および音声対話方法の実施例について、〔実施例1〕、〔実施例2〕、〔実施例3〕、〔実施例4〕、〔実施例5〕の順に図面を参照して詳細に説明する。なお、実施例の説明では、一例として車両や携帯端末等に搭載されるナビゲーション装置に適用した構成を示すが、本発明は、情報機器に搭載されて種々の条件等をインタラクティブに段階的に設定していくものであれば、どのようなアプリケーションにも適用可能である。
【実施例1】
【0008】
図1は本発明の実施例1に係る音声対話装置の構成図である。図1において、本実施例の音声対話装置は、信号処理ユニット1、マイク2、スピーカ3、入力装置4およびディスプレイ5を備えて構成されている。なお、本発明に関わる主要構成要素ではないために図示しないが、携帯端末であれば他に送受信手段の構成を備え、また車載用であれば、送受信手段または通信接続手段等を備えた構成であってもよい。
【0009】
マイク2は使用者の発話を音声信号に変換して信号処理ユニット1に供給する。また、スピーカ3はシステムの発話として信号処理ユニット1から出力される音声信号を音声として出力する。また、入力装置4には発話スイッチ4aおよび訂正スイッチ4bを備えている。ここで、発話スイッチ4aは音声認識の開始指示を行うためのスイッチであり、訂正スイッチ4bは誤認識した場合に訂正を行うためのスイッチであって、該訂正スイッチ4bを一定期間押し続けることにより、音声操作を途中で終了することができる。さらに、ディスプレイ5は例えばLCD(液晶表示装置)等で実現され、ナビゲーションの行き先や探索条件設定時の待ち受け画面表示を行ったり、経路誘導等の画面を表示したりする。
【0010】
信号処理ユニット1は、A/Dコンバータ11、D/Aコンバータ12、出力アンプ13、信号処理装置14および外部記憶装置15を備え、信号処理装置14にCPU21およびメモリ22を備えた構成である。信号処理ユニット1は、入力装置4の発話スイッチ4aまたは訂正スイッチ4bの押下に応答して、またマイク2からの使用者の音声入力に応答して信号処理を行い、システム応答としてスピーカ3からシステム発話を出力させたり、ディスプレイ5上に応答画像を表示させたりする。
【0011】
外部記憶装置15には、ナビゲーションに使用するデータや音声認識処理に使用する認識対象データ等が記憶され、また、メモリ22には処理プログラムや使用頻度の高い各種データ等が記憶されている。音声認識処理では、A/Dコンバータ11を介してディジタル信号に変換されたマイク2からの音声入力について、信号処理装置14は外部記憶装置15を参照しながら認識処理を行い、また、その音声入力に対するシステム応答としてのシステム発話を、信号処理装置14はD/Aコンバータ12を介してアナログ信号に変換して出力アンプ13で信号増幅した後に、スピーカ3から音声出力させる。
【0012】
本実施例の音声対話装置は、話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段とを備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了するものであるが、提示手段はディスプレイ5で実現され、音声認識手段はA/Dコンバータ11、信号処理装置14および外部記憶装置15で実現される。また、本発明の特徴であって、提示手段(ディスプレイ5)に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示する提示制御手段は、信号処理装置14で実現される。
【0013】
次に、図2、図3および図4を参照して、本実施例の音声対話装置における音声対話方法を説明する。図2は音声対話方法を説明するフローチャート、図3は認識対象語のデータ構造の説明図、図4はディスプレイ5に表示される待ち受け画面の基本構成を例示する説明図である。
【0014】
なお、音声認識の方式には複数の方式が存在している。計算機へのコマンド入力のように、単語毎に区切って発話された音声を認識する方式のことを「単語音声認識」と呼び、これに対して単語毎に区切らず複数の単語をつなげて発話された音声を認識する方式のことを「連続単語認識」と呼ぶ。用途或いはインタフェース設計の考え方に応じてそれぞれの使い分けが行われ、また両者を同時に用いる実装がなされてもよく、形態としては様々であり、どのような形態が最も良い実装かということも一概には言えない。本実施例では、「単語音声認識」を用いた実装がなされているとして、以下説明する。
【0015】
図2のフローチャートにおいて、まず、使用者が発話スイッチ4aを操作して発話の開始が指示される(ステップS101)と、信号処理装置14は発話開始指示を検出して処理を開始する。
【0016】
次に、信号処理装置14は、音声認識処理のための待ち受け設定を行う(ステップS102)。信号処理装置14は、認識対象語を外部記憶装置15からメモリ22に読み込む。ここで、認識対象語は、車両用のナビゲーション装置および車両用の電子機器に関わるものであり、図3に示されるようなものである。同図に示すように、認識対象語のデータ構造は、3階層以上の階層構造を備えている。第1階層の話題は機能選択であって、「行き先」、「探索条件」、「施設表示」、「電話」および「ヘルプ」の5つの機能を選択可能である。第1階層のそれぞれの認識対象語について第2階層に複数個の認識対象語と話題の接続関係を持ち、第j階層の認識対象語はそれより1つ下位のj+1階層に複数の認識対象語と接続関係を持つ。全体として幾つの階層となるかは、選択する機能および該選択以降に発話する内容に応じて決定される。
【0017】
次に、信号処理装置14は、使用者が音声入力を容易に行えるようにディスプレイ5の表示内容を待ち受け画面に切替え変更する(ステップS103)。
【0018】
図4は、ナビゲーションの行き先をインタラクティブに設定する際の途中(県名選択)段階での待ち受け画面を例示している。待ち受け画面の基本構成は領域A、領域Bおよび領域Cを備える構成である。
【0019】
領域Aは、現在どのような待ち受け設定となっているかを表示する領域であり、使用者はこの領域Aに表示されている内容を見ることで、どのような認識対象語を発話すればよいかを知ることができる。図4の例では、次に都道府県の名称を発声すればよいことが容易に理解できる。また領域Bは、使用者の発話により何が認識されたかを確認のために表示する領域である。図4の例では、使用者が1階層前(話題2)の行き先設定のジャンル選択において、使用者が「駅」という発話を行い、その音声認識結果が継続して表示されている。
【0020】
さらに領域Cは、現在の話題を前後する話題との接続関係と共に提示する領域であり、本発明の特徴的な表示構成である。図4の例では、現在、都道府県名を入力する階層にあるため、その階層(話題3)の県名選択C03が識別表示(表示色が他の話題C01,C02,C04およびC05とは異なる色で表示)されている。このように、現在の話題と前後する話題との接続関係と共に提示することにより、話題1で機能選択がなされ、話題2でジャンル選択がなされ、現在(話題3)の県名選択がなされた後は、話題4の県名選択、話題5の探索条件選択を経て終了するという一連の流れを容易に理解することができ、使用者はこの流れを想定しながら選択設定していく作業を行うことができる。
【0021】
なお、識別表示のやり方は、表示色を変える方法以外にも、階調度(グレイスケール)を変える、或いは、文字の背景として模様を入れるなど種々の方法がある。また、話題1の機能選択から終了に至るまでの階層が領域Cに表示可能な階層数を超える場合には、例えば、現在の話題から終了までの階層を優先的に表示するようにしても良い。また、入力装置4の特定のスイッチや使用者の指先の押圧によって領域Cの表示を左右にスクロール可能な構成としても良い。
【0022】
次に、信号処理装置14は、プロンプト、即ち処理を開始した旨を使用者に知らせるために、外部記憶装置15に記憶してある告知音声信号をD/Aコンバータ12に出力し、アンプ13およびスピーカ3を介して告知音声を出力する。この告知音声を聞くと、使用者は認識対象に含まれる発話を行うので、信号処理装置14は、マイク2からの音声信号をA/Dコンバータ11でディジタル信号に変換したものを取り込む(ステップS104)。
【0023】
信号処理装置14は、発話スイッチ4aの操作がなされるまでは、D/Aコンバータ12の出力(ディジタル音声信号)のパワーを演算しており、発話スイッチ4aの操作がなされた後に、前の平均パワーに比べてディジタル音声信号の瞬間パワーが所定の閾値よりも大きくなった区間を音声区間とみなして、発話区間の検出を行っている。このような音声の発話区間の検出は公知技術であり、例えば、特開昭63−226692号公報「パターン比較方式」に開示されている。
【0024】
次に、信号処理装置14は、メモリ22に記憶されている認識対象との一致度演算を開始する(ステップS105)。一致度は、検出した発話区間のディジタル音声信号と個々の認識対象がどの程度似ているかを示すものであり、スコアとして算出される。ここでは、スコアの値が大きいほど一致度が高いとして評価する。なお、この一致度演算を行う間も、並列処理により音声の取り込みは継続されている。
【0025】
次に、信号処理装置14は、ディジタル音声信号の瞬間パワーが所定の閾値以下になったとき、使用者の発話が終了したと判断して、音声の取り込みを終了する(ステップS107)。この終了判断についても、例えば、特開昭63−226692号公報の「パターン比較方式」と同様である。
【0026】
次に、信号処理装置14は、一致度の演算(ステップS105)の終了を待ち、該一致度演算の結果、一致度の最も大きい認識対象を認識結果として出力する。図4の例では、最も一致度が大きかった認識対象語が「駅」であり、認識結果として「駅」が領域Bに表示されている。なお、認識結果の出力は、ディスプレイ5への表示だけでなく、スピーカ3による音声出力も行われ、音声合成処理機能を用いて認識結果の「駅」を音声信号に変換し、D/Aコンバータ12によりアナログ音声信号に変換された後、アンプ13による信号増幅を経て、スピーカ3から音声出力される。
【0027】
なお、例えば使用者が「駅」と発話したのに対して、誤認識が発生して認識結果が「住所」となった場合には、使用者は、訂正スイッチ4bを操作して認識処理(ステップS102)以前の状態に戻ることができる。すなわち、ステップS107の認識結果の出力後、使用者による訂正スイッチ4bの押下があるかどうか所定時間の間待ち受け、訂正スイッチ4bの押下があった場合は、ステップS102に戻って再度ステップS102からステップS107までの処理を繰り返し、また、所定時間内に訂正スイッチ4bの押下がなかった場合には、認識結果を使用者が容認したとしてステップS109に進む(ステップS108)。
【0028】
次に、ステップS107で認識結果として出力された認識対象を受けて、その下位階層があるかどうかを判断する(ステップS109)。下位階層がある場合にはステップS102に戻り、下位階層に応じた待ち受け処理、即ち代表語彙の指示と認識対象の設定を行う。図4の例では、認識対象語「駅」に対して下位階層が存在し、「都道府県名」が下位階層の待ち受け語として設定され、領域Aに表示されることになる。
【0029】
また、ステップS109において、認識結果として出力された認識対象語に下位階層がない場合には、ステップS110に進んで、該認識対象語に関連づけられた機能を実行する。図4の例では、発話により最終的に確定した場所へ行き先設定する機能および経路探索する機能が対応づけられており、これらの機能が実行されることになる。
【0030】
以上、図2のフローチャートに沿って処理手順を説明したが、本実施例の音声対話装置における音声対話方法では、使用者の発話によって階層を進む毎に、処理が再帰的に実行されている。次に、より具体的に、図5から図10までの説明図を参照して、使用者が「行き先」→「駅」→「神奈川県」→「横浜駅」→「有料道路優先」の発話をして階層を進んでいく場合のディスプレイ5の表示画面の推移を説明する。
【0031】
図5は、使用者が発話スイッチ4aを押下した後に、最初にディスプレイ5に表示される待ち受け画面である。図5では、現在の階層が機能選択(話題1)を行うための画面であることが、領域C中の機能選択C01の識別表示により容易に分かる。また、今後経なくてはならない話題が複数個あることも容易に理解できる。
【0032】
次に、図6は、図5の画面の領域Aに表示された(話題1の)代表語彙から使用者が選択する時の待ち受け画面であり、これに対して使用者は「行き先」と発話している。また、この発話に基づく図2のステップS104からステップS107までの処理を経て、認識結果「行き先」が認識結果表示領域(領域B)に表示されている。
【0033】
次に、図7は、認識対象語「行き先」の次の階層(話題3)についての待ち受け画面である。領域Cの識別表示から、現在の階層は「ジャンル選択」の話題2を入力する階層であることが容易に理解できる。また、使用者の発話の認識結果「行き先」が領域Bに表示されている。そして、認識対象語「行き先」に対して下位階層が存在し、該階層の複数の代表語彙が領域Aに表示されている。つまり、図7の待ち受け画面に対して、次に使用者は、領域Aに表示された代表語彙からジャンル選択を行えばよいことが容易に理解できる。
【0034】
次に、図8は、図7の画面の領域Aに表示された代表語彙から使用者が「駅」を選択して「駅」と発話した後の待ち受け画面である。使用者による発話「駅」を受けて該認識結果が領域Bに表示され、さらに認識対象語「駅」に対して下位階層が存在し、代表語彙の「都道府県名」が待ち受け語として領域Aに表示されている。また、領域Cの表示から、現在の階層が「県名選択」の話題3を入力する階層であることが容易に理解できる。
【0035】
次に、図9は、図8の画面の領域Aに表示された代表語彙「都道府県名」に対し、使用者が「神奈川県」と発話した場合の待ち受け画面である。使用者による発話「神奈川県」を受けて該認識結果が領域Bに表示され、さらに認識対象語「神奈川県」に対して下位階層が存在し、代表語彙の「駅名」が待ち受け語として領域Aに表示されている。また、領域Cの表示から、現在の階層が「駅名選択」の話題4を入力する階層であることが容易に理解できる。
【0036】
さらに、図10は、図9の画面の領域Aに表示された代表語彙「駅名」に対し、使用者が「横浜駅」と発話した場合の待ち受け画面である。使用者による発話「横浜駅」を受けて該認識結果が領域Bに付加表示され、さらに認識対象語「横浜駅」に対して下位階層が存在し、複数の代表語彙が待ち受け語として領域Aに表示されている。また、領域Cの表示から、現在の階層が「探索条件選択」の話題5を入力する階層であることが容易に理解できる。
【0037】
なお、以上説明した具体例では、「行き先」→「駅」→「神奈川県」→「横浜駅」→「有料道路優先」の発話をして、階層を順に進んでいったが、数階層先の階層の発話を受理できるようにすることも可能である。例えば、図5の待ち受け画面において、使用者が2階層先の「駅」を発話した場合には、図8の待ち受け画面に遷移することになる。
【0038】
以上説明したように、本実施例の音声対話装置および音声対話方法では、話題情報を提示して使用者の発話を促す提示手段(ディスプレイ5)と、入力された使用者の音声を認識する音声認識手段(11,14)と、を備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置において、提示制御手段(14)(提示制御ステップ)により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として(ディスプレイ5の画面上の領域Cに)提示する。これにより、使用者は、現在行っている対話の話題が対話全体から見てどの位置にあるかが分かり、不安感を抱くことなく対話を完了することができる。
【0039】
また、(例えば、図4に示すディスプレイ5の画面上の領域Cにおいて、話題3の県名選択C03の表示色を他と変えて表示したように、)話題遷移過程の中で現在の話題情報を識別して提示するので、現在の話題(階層)が何で(どこで)あるのかを容易に理解することができる。
【0040】
さらに、話題遷移過程が対話の完了までの話題の接続関係を含んでいるので、使用者は、現在の話題以降完了までの話題の遷移を認知することができ、完了までの対話の負担をイメージすることが容易になり、従来のように不安感を抱きつつ対話を行うようなことが無くなる。
【実施例2】
【0041】
次に、本発明の実施例2に係る音声対話装置および音声対話方法について説明する。
【0042】
本実施例の音声対話装置の構成は、実施例1と同様に図1で示される構成である。本実施例においても、実施例1と同様に、信号処理装置14で実現される提示制御手段が、提示手段(ディスプレイ5)に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、提示制御手段(14)において、話題毎に音声認識手段(11,14)による認識難易度を計算し、話題遷移過程に併せて提示する点に特徴がある。
【0043】
ここで、認識難易度は、音声認識処理における音声認識の難しさを表し、該認識難易度が低いと、音声認識率を高めるために、明瞭に発話する、或いは、大きい声量で発話するなど、使用者に対して大きな負担が求められることになる。音声認識率の低さは、一般に認識対象語の階層に含まれる単語数に比例し、そのため、階層に含まれる単語数が所定値以上であるときは音声認識率が低いと判断することができる。また、音声認識率の低さは、低認識語を含むかどうかによっても判断できるが、このことは、技術文献「寺嶌;“音声認識における低認識語の予測技術”,技術報告(豊田中央研究所R&Dレビュー),Vol13,No2,2001年6月)」に詳しく述べられている。この技術文献によれば、低認識語を所定数以上含む場合に音声認識率が低いと判断できる。
【0044】
次に、本実施例の音声対話装置における音声対話方法も、実施例1と同様に、図2のフローチャートに示される手順を踏む。但し、ステップS103の待ち受け画面表示における処理内容が異なり、以下詳しく説明する。
【0045】
図11は、本実施例の待ち受け画面における領域Cの表示内容を例示する説明図である。待ち受け画面の領域Aおよび領域Bの表示については実施例1と同様である。つまり、実施例1の図4または図8において領域Cの表示内容が図11に示す内容に置き換わる。
【0046】
図11において、話題3の県名選択C03が識別表示(表示色が他の話題C01,C02,C04およびC05とは異なる色で表示)されており、現在は、都道府県名を入力する階層にあることが容易に分かる。また接続関係の表示から、現在の県名選択をした後は、話題4の県名選択、話題5の探索条件選択を経て終了するという一連の流れを容易に理解することができる。
【0047】
さらに、図11では、次階層の駅名選択時の認識難易度が難しい(音声認識率が低い)ことが、他の話題よりも大きな枠C04bによる識別表示で示されており、次階層の駅名選択時には明瞭に発話する、或いは大きい声量で発話するなど、使用者の発話の負担が大きいことを認知できる。すなわち、話題遷移過程に認識難易度が併せて提示されていることにより、使用者はこの先どの程度の負担があるかを前もって認知することができる。
【0048】
また、図12は、本実施例の待ち受け画面における領域Cの表示内容の他の例を示す説明図である。図11とは別の識別方法として、次階層の駅名選択時の認識難易度が難しい(音声認識率が低い)ことを、他の話題とは異なる色または模様によって識別することができる。図12は、他の話題とは異なる模様の背景C04cによる識別表示であり、これにより、使用者はこの先どの程度の負担があるかを前もって認知することができる。なお、認識難易度を色によって識別する場合には、例えば、認識難易度が難しく使用者負担が大きいときには赤色を使用し、認識難易度が易しく使用者負担が小さいときには青色を使用して識別する方法が考えられる。さらに、話題遷移過程に認識難易度を併せて提示する方法としては、その旨を言葉で表示する方法や、数値化してその値を表示する方法など種々の方法が考えられる。
【0049】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段(14)において、話題毎に音声認識手段(11,14)による認識難易度を計算し、話題遷移過程に併せて提示するので、音声認識の難しさに由来する負担も併せてイメージすることが容易になり、音声対話における使用者の不安感をより低減させることができる。
【実施例3】
【0050】
次に、本発明の実施例3に係る音声対話装置および音声対話方法について説明する。
【0051】
本実施例の音声対話装置の構成は、実施例1と同様に図1で示される構成である。本実施例においても、実施例1と同様に、信号処理装置14で実現される提示制御手段が、提示手段(ディスプレイ5)に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、提示制御手段(14)において、現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、話題遷移過程の中で現在の話題、他の話題およびそれらの接続関係を識別して提示する点に特徴がある。そのため、本実施例では、実施例1とは異なり、「単語音声認識」および「連続単語認識」の両者を同時に用いる実装がなされている。なお、ここでは、話題3の「県名選択」と話題4の「駅名選択」について、連続した単語音声の認識が可能であるとして説明を行う。
【0052】
次に、本実施例の音声対話装置における音声対話方法も、実施例1と同様に、図2のフローチャートに示される手順を踏む。但し、ステップS103の待ち受け画面表示における処理内容が異なり、以下具体例を示して説明する。
【0053】
図13は、本実施例の待ち受け画面における領域Cの表示内容を例示する説明図である。待ち受け画面の領域Aおよび領域Bの表示については実施例1と同様である。つまり、実施例1の図7において領域Cの表示内容が図13に示す内容に置き換わる。領域Cの話題2の識別表示から、現在の階層は「ジャンル選択」を入力する階層であることが容易に理解できる。また、接続関係の表示から、ジャンル選択(で「駅」を選択)した後は、話題3および話題4の県名および駅名選択、話題5の探索条件選択を経て終了するという一連の流れを容易に理解できる。
【0054】
特に、図13では、次階層の県名および駅名選択が太枠C34で強調表示してある。これにより、使用者は次に階層において、県名選択および駅名選択の両者を連結した発話が可能であることを認知でき、それにより、今後の発話負担がどの程度軽減されるかを容易に理解することができる。
【0055】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段(14)において、現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、話題遷移過程の中で現在の話題、他の話題およびそれらの接続関係を識別して提示するので、連続音声の発話によりどの程度対話の負担が減少するかも併せてイメージすることが可能となり、音声対話における使用者の不安感をより低減させることができる。
【実施例4】
【0056】
次に、本発明の実施例4に係る音声対話装置および音声対話方法について説明する。
【0057】
本実施例の音声対話装置の構成は、実施例1と同様に図1で示される構成である。本実施例においても、実施例1と同様に、信号処理装置14で実現される提示制御手段が、提示手段(ディスプレイ5)に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、提示制御手段(14)において、現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示する点に特徴がある。
【0058】
次に、本実施例の音声対話装置における音声対話方法も、実施例1と同様に、図2のフローチャートに示される手順を踏む。但し、ステップS103の待ち受け画面表示における処理内容が異なり、以下詳しく説明する。
【0059】
図14は、本実施例の待ち受け画面における領域Cの表示内容を例示する説明図である。待ち受け画面の領域Aおよび領域Bの表示については実施例1と同様である。つまり、実施例1の図9において領域Cの表示内容が図14に示す内容に置き換わる。
【0060】
図14において、話題4の駅名選択C04が識別表示されており、現在は、駅名を入力する階層にあることが容易に分かる。また接続関係の表示から、現在の駅名選択をした後は、話題5の探索条件選択を経て終了するという一連の流れを容易に理解することができる。但し、図14では実施例1とは異なり、話題2のジャンル選択と話題4の駅名選択の間の話題の接続関係として、県名選択C031と路線選択C032の2つの話題遷移過程が表示されており、話題3において県名選択または路線選択の何れかの選択が可能であったことを示している。
【0061】
つまり、前階層の話題3の階層においては、「県名選択」以外に「路線選択」の選択も可能で、使用者は、例えば、「神奈川県」という発話以外に、「京浜急行」という発話も可能であったことを意味している。なお、この話題3の階層の待ち受け画面では、領域Aに表示される代表語彙として「都道府県名」と「路線名」が表示されることになる。
【0062】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段(14)において、現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示するので、実際に遷移してきた話題遷移過程とは異なる他の話題遷移過程との比較が可能となり、現在行っている対話の話題が、対話全体から見てどの位置にあるかの理解がより容易になる。
【実施例5】
【0063】
次に、本発明の実施例5に係る音声対話装置および音声対話方法について説明する。
【0064】
本実施例の音声対話装置の構成は、実施例1と同様に図1で示される構成である。本実施例においても、実施例1と同様に、信号処理装置14で実現される提示制御手段が、提示手段(ディスプレイ5)に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、記憶手段(メモリ22または外部記憶装置15)に過去に完了した対話の話題遷移過程を記憶しておき、提示制御手段(14)において、現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示する点に特徴がある。
【0065】
次に、本実施例の音声対話装置における音声対話方法も、実施例1と同様に、図2のフローチャートに示される手順を踏む。但し、ステップS103の待ち受け画面表示における処理内容が異なり、以下詳しく説明する。
【0066】
図15は、本実施例の待ち受け画面における領域Cの表示内容を例示する説明図である。待ち受け画面の領域Aおよび領域Bの表示については実施例1と同様である。つまり、実施例1の図8において領域Cの表示内容が図15に示す内容に置き換わる。
【0067】
図15において、話題3の県名選択C03が識別表示されており、現在は、都道府県名を入力する階層にあることが容易に分かる。また接続関係の表示から、現在の県名選択をした後は、話題4の県名選択、話題5の探索条件選択を経て終了するという一連の流れを容易に理解することができる。但し、図15では実施例1とは異なり、話題2のジャンル選択から話題5の探索条件選択の間の話題の接続関係として、県名選択C06,市名選択C07,大字選択C08および番地選択C09の話題を遷移する他の話題遷移過程が表示されている。この他の話題遷移過程(C02→C06〜C09→C05)は、過去に使用者が行った他の入力話題の遷移過程であり、これを併せて表示することにより、使用者は今回の入力負担と過去に経験した入力の負担とを比較することができる。
【0068】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段(14)において、現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示するので、成功経験のある対話の負担との比較により、現在行っている対話の負担をイメージすることが可能となり、音声対話における使用者の不安感をより低減させることができる。
【図面の簡単な説明】
【0069】
【図1】本発明の実施例に係る音声対話装置の構成図である。
【図2】音声対話方法を説明するフローチャートである。
【図3】認識対象語のデータ構造の説明図である。
【図4】実施例1において待ち受け画面の基本構成を例示する説明図である。
【図5】実施例1において発話スイッチ押下時の待ち受け画面を例示する説明図である。
【図6】実施例1において「行き先」と発話する時の待ち受け画面を例示する説明図である。
【図7】実施例1において「行き先」と発話した後の待ち受け画面を例示する説明図である。
【図8】実施例1において「駅」と発話した後の待ち受け画面を例示する説明図である。
【図9】実施例1において「神奈川県」と発話した後の待ち受け画面を例示する説明図である。
【図10】実施例1において「横浜駅」と発話した後の待ち受け画面を例示する説明図である。
【図11】実施例2の待ち受け画面における領域Cの表示内容を例示する説明図である。
【図12】実施例2の待ち受け画面における領域Cの表示内容を例示する説明図である。
【図13】実施例3の待ち受け画面における領域Cの表示内容を例示する説明図である。
【図14】実施例4の待ち受け画面における領域Cの表示内容を例示する説明図である。
【図15】実施例5の待ち受け画面における領域Cの表示内容を例示する説明図である。
【符号の説明】
【0070】
1 信号処理ユニット
2 マイク
3 スピーカ
4 入力装置
5 ディスプレイ(提示手段)
11 A/Dコンバータ(音声認識手段)
12 D/Aコンバータ
13 出力アンプ
14 信号処理装置(音声認識手段または提示制御手段)
15 外部記憶装置
21 CPU
22 メモリ
【特許請求の範囲】
【請求項1】
話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段と、を備え、複数の話題についての前記提示手段による提示および前記音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置であって、
前記提示手段に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示する提示制御手段を有することを特徴とする音声対話装置。
【請求項2】
前記提示制御手段は、前記話題遷移過程の中で前記現在の話題情報を識別して提示することを特徴とする請求項1に記載の音声対話装置。
【請求項3】
前記提示制御手段は、話題毎に前記音声認識手段による認識難易度を計算し、前記話題遷移過程に併せて提示することを特徴とする請求項1または請求項2の何れかに記載の音声対話装置。
【請求項4】
前記提示制御手段は、前記現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、前記話題遷移過程の中で該現在の話題、該他の話題およびそれらの接続関係を識別して提示することを特徴とする請求項1〜請求項3の何れか1項に記載の音声対話装置。
【請求項5】
前記提示制御手段は、前記現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示することを特徴とする請求項1〜請求項4の何れか1項に記載の音声対話装置。
【請求項6】
過去に完了した対話の話題遷移過程を記憶する記憶手段を有し、
前記提示制御手段は、前記現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示することを特徴とする請求項1〜請求項5の何れか1項に記載の音声対話装置。
【請求項7】
前記話題遷移過程は、対話の完了までの話題の接続関係を含むことを特徴とする請求項1〜請求項6の何れか1項に記載の音声対話装置。
【請求項8】
話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段と、を備え、複数の話題についての前記提示手段による提示および前記音声認識手段による音声認識を経て使用者との対話を完了する音声対話方法であって、
前記提示手段に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示する提示制御ステップを有することを特徴とする音声対話方法。
【請求項9】
前記提示制御ステップは、前記話題遷移過程の中で前記現在の話題情報を識別して提示することを特徴とする請求項8に記載の音声対話方法。
【請求項10】
前記提示制御ステップは、話題毎に前記音声認識手段による認識難易度を計算し、前記話題遷移過程に併せて提示することを特徴とする請求項8または請求項9の何れかに記載の音声対話方法。
【請求項11】
前記提示制御ステップは、前記現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、前記話題遷移過程の中で現在の話題、他の話題およびそれらの接続関係を識別して提示することを特徴とする請求項8〜請求項10の何れか1項に記載の音声対話方法。
【請求項12】
前記提示制御ステップは、前記現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示することを特徴とする請求項8〜請求項11の何れか1項に記載の音声対話方法。
【請求項13】
過去に完了した対話の話題遷移過程を記憶する記憶ステップを有し、
前記提示制御ステップは、前記現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示することを特徴とする請求項8〜請求項12の何れか1項に記載の音声対話方法。
【請求項1】
話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段と、を備え、複数の話題についての前記提示手段による提示および前記音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置であって、
前記提示手段に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示する提示制御手段を有することを特徴とする音声対話装置。
【請求項2】
前記提示制御手段は、前記話題遷移過程の中で前記現在の話題情報を識別して提示することを特徴とする請求項1に記載の音声対話装置。
【請求項3】
前記提示制御手段は、話題毎に前記音声認識手段による認識難易度を計算し、前記話題遷移過程に併せて提示することを特徴とする請求項1または請求項2の何れかに記載の音声対話装置。
【請求項4】
前記提示制御手段は、前記現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、前記話題遷移過程の中で該現在の話題、該他の話題およびそれらの接続関係を識別して提示することを特徴とする請求項1〜請求項3の何れか1項に記載の音声対話装置。
【請求項5】
前記提示制御手段は、前記現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示することを特徴とする請求項1〜請求項4の何れか1項に記載の音声対話装置。
【請求項6】
過去に完了した対話の話題遷移過程を記憶する記憶手段を有し、
前記提示制御手段は、前記現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示することを特徴とする請求項1〜請求項5の何れか1項に記載の音声対話装置。
【請求項7】
前記話題遷移過程は、対話の完了までの話題の接続関係を含むことを特徴とする請求項1〜請求項6の何れか1項に記載の音声対話装置。
【請求項8】
話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段と、を備え、複数の話題についての前記提示手段による提示および前記音声認識手段による音声認識を経て使用者との対話を完了する音声対話方法であって、
前記提示手段に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示する提示制御ステップを有することを特徴とする音声対話方法。
【請求項9】
前記提示制御ステップは、前記話題遷移過程の中で前記現在の話題情報を識別して提示することを特徴とする請求項8に記載の音声対話方法。
【請求項10】
前記提示制御ステップは、話題毎に前記音声認識手段による認識難易度を計算し、前記話題遷移過程に併せて提示することを特徴とする請求項8または請求項9の何れかに記載の音声対話方法。
【請求項11】
前記提示制御ステップは、前記現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、前記話題遷移過程の中で現在の話題、他の話題およびそれらの接続関係を識別して提示することを特徴とする請求項8〜請求項10の何れか1項に記載の音声対話方法。
【請求項12】
前記提示制御ステップは、前記現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示することを特徴とする請求項8〜請求項11の何れか1項に記載の音声対話方法。
【請求項13】
過去に完了した対話の話題遷移過程を記憶する記憶ステップを有し、
前記提示制御ステップは、前記現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示することを特徴とする請求項8〜請求項12の何れか1項に記載の音声対話方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2006−251059(P2006−251059A)
【公開日】平成18年9月21日(2006.9.21)
【国際特許分類】
【出願番号】特願2005−64223(P2005−64223)
【出願日】平成17年3月8日(2005.3.8)
【出願人】(000003997)日産自動車株式会社 (16,386)
【出願人】(591132335)株式会社ザナヴィ・インフォマティクス (745)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】
【公開日】平成18年9月21日(2006.9.21)
【国際特許分類】
【出願日】平成17年3月8日(2005.3.8)
【出願人】(000003997)日産自動車株式会社 (16,386)
【出願人】(591132335)株式会社ザナヴィ・インフォマティクス (745)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】
[ Back to top ]