音声対話装置および音声対話方法

【課題】現在行っている対話の話題が対話全体から見てどの位置にあるのかを分かりやすく提示して使用者の不安感を低減した音声対話装置および音声対話方法を提供する。
【解決手段】話題情報を提示して使用者の発話を促す提示手段（ディスプレイ５）と、入力された使用者の音声を認識する音声認識手段（１１，１４）と、を備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置において、提示制御手段（１４）により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程としてディスプレイ５に提示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は音声対話装置および音声対話方法に係り、特に、情報機器に搭載されて種々の条件等をインタラクティブに段階的に設定していく際に、使用者の不安感を低減した音声対話装置および音声対話方法に関する。
【背景技術】
【０００２】
従来の音声対話装置としては、例えば、特開平９−２９２８９６号公報に開示の「車両用ナビゲーション装置」がある。この従来例は、乗員からの音声入力を用いて車両の走行案内を行うものであるが、車室内のようにノイズが多い環境下であっても音声認識率を高めるために、過去の音声入力時の使用頻度を加味して音声入力された単語を特定するものである。
【特許文献１】特開平９−２９２８９６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、上述した特許文献１に開示された技術においては、対話の各時点において受理可能としている話題を画面にガイダンス提示して使用者の発話を促すものであるため、現在行っている対話の話題が対話全体から見てどの位置にあるのかが分かりにくいという問題があった。また、分かりにくいことから、使用者がこの先どこまで話せばいいのか不安になってしまい、対話を完了する前に使用をあきらめてしまうといった事態も発生し、このようなことを数度経験した使用者は音声対話機能自体を使わなくなってしまうという事情もあった。
【０００４】
本発明は、上記従来の事情に鑑みてなされたものであって、現在行っている対話の話題が対話全体から見てどの位置にあるのかを分かりやすく提示して使用者の不安感を低減した音声対話装置および音声対話方法を提供することを目的としている。
【課題を解決するための手段】
【０００５】
上記目的を解決するため、本発明は、話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段と、を備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置において、提示制御手段により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示手段に提示することを特徴とする。
【発明の効果】
【０００６】
本発明に係る音声対話装置および音声対話方法では、提示制御手段（提示制御ステップ）により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するので、使用者は、現在行っている対話の話題が対話全体から見てどの位置にあるかが分かり、不安感を抱くことなく対話を完了することができる。
【発明を実施するための最良の形態】
【０００７】
以下、本発明の音声対話装置および音声対話方法の実施例について、〔実施例１〕、〔実施例２〕、〔実施例３〕、〔実施例４〕、〔実施例５〕の順に図面を参照して詳細に説明する。なお、実施例の説明では、一例として車両や携帯端末等に搭載されるナビゲーション装置に適用した構成を示すが、本発明は、情報機器に搭載されて種々の条件等をインタラクティブに段階的に設定していくものであれば、どのようなアプリケーションにも適用可能である。
【実施例１】
【０００８】
図１は本発明の実施例１に係る音声対話装置の構成図である。図１において、本実施例の音声対話装置は、信号処理ユニット１、マイク２、スピーカ３、入力装置４およびディスプレイ５を備えて構成されている。なお、本発明に関わる主要構成要素ではないために図示しないが、携帯端末であれば他に送受信手段の構成を備え、また車載用であれば、送受信手段または通信接続手段等を備えた構成であってもよい。
【０００９】
マイク２は使用者の発話を音声信号に変換して信号処理ユニット１に供給する。また、スピーカ３はシステムの発話として信号処理ユニット１から出力される音声信号を音声として出力する。また、入力装置４には発話スイッチ４ａおよび訂正スイッチ４ｂを備えている。ここで、発話スイッチ４ａは音声認識の開始指示を行うためのスイッチであり、訂正スイッチ４ｂは誤認識した場合に訂正を行うためのスイッチであって、該訂正スイッチ４ｂを一定期間押し続けることにより、音声操作を途中で終了することができる。さらに、ディスプレイ５は例えばＬＣＤ（液晶表示装置）等で実現され、ナビゲーションの行き先や探索条件設定時の待ち受け画面表示を行ったり、経路誘導等の画面を表示したりする。
【００１０】
信号処理ユニット１は、Ａ／Ｄコンバータ１１、Ｄ／Ａコンバータ１２、出力アンプ１３、信号処理装置１４および外部記憶装置１５を備え、信号処理装置１４にＣＰＵ２１およびメモリ２２を備えた構成である。信号処理ユニット１は、入力装置４の発話スイッチ４ａまたは訂正スイッチ４ｂの押下に応答して、またマイク２からの使用者の音声入力に応答して信号処理を行い、システム応答としてスピーカ３からシステム発話を出力させたり、ディスプレイ５上に応答画像を表示させたりする。
【００１１】
外部記憶装置１５には、ナビゲーションに使用するデータや音声認識処理に使用する認識対象データ等が記憶され、また、メモリ２２には処理プログラムや使用頻度の高い各種データ等が記憶されている。音声認識処理では、Ａ／Ｄコンバータ１１を介してディジタル信号に変換されたマイク２からの音声入力について、信号処理装置１４は外部記憶装置１５を参照しながら認識処理を行い、また、その音声入力に対するシステム応答としてのシステム発話を、信号処理装置１４はＤ／Ａコンバータ１２を介してアナログ信号に変換して出力アンプ１３で信号増幅した後に、スピーカ３から音声出力させる。
【００１２】
本実施例の音声対話装置は、話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段とを備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了するものであるが、提示手段はディスプレイ５で実現され、音声認識手段はＡ／Ｄコンバータ１１、信号処理装置１４および外部記憶装置１５で実現される。また、本発明の特徴であって、提示手段（ディスプレイ５）に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示する提示制御手段は、信号処理装置１４で実現される。
【００１３】
次に、図２、図３および図４を参照して、本実施例の音声対話装置における音声対話方法を説明する。図２は音声対話方法を説明するフローチャート、図３は認識対象語のデータ構造の説明図、図４はディスプレイ５に表示される待ち受け画面の基本構成を例示する説明図である。
【００１４】
なお、音声認識の方式には複数の方式が存在している。計算機へのコマンド入力のように、単語毎に区切って発話された音声を認識する方式のことを「単語音声認識」と呼び、これに対して単語毎に区切らず複数の単語をつなげて発話された音声を認識する方式のことを「連続単語認識」と呼ぶ。用途或いはインタフェース設計の考え方に応じてそれぞれの使い分けが行われ、また両者を同時に用いる実装がなされてもよく、形態としては様々であり、どのような形態が最も良い実装かということも一概には言えない。本実施例では、「単語音声認識」を用いた実装がなされているとして、以下説明する。
【００１５】
図２のフローチャートにおいて、まず、使用者が発話スイッチ４ａを操作して発話の開始が指示される（ステップＳ１０１）と、信号処理装置１４は発話開始指示を検出して処理を開始する。
【００１６】
次に、信号処理装置１４は、音声認識処理のための待ち受け設定を行う（ステップＳ１０２）。信号処理装置１４は、認識対象語を外部記憶装置１５からメモリ２２に読み込む。ここで、認識対象語は、車両用のナビゲーション装置および車両用の電子機器に関わるものであり、図３に示されるようなものである。同図に示すように、認識対象語のデータ構造は、３階層以上の階層構造を備えている。第１階層の話題は機能選択であって、「行き先」、「探索条件」、「施設表示」、「電話」および「ヘルプ」の５つの機能を選択可能である。第１階層のそれぞれの認識対象語について第２階層に複数個の認識対象語と話題の接続関係を持ち、第ｊ階層の認識対象語はそれより１つ下位のｊ＋１階層に複数の認識対象語と接続関係を持つ。全体として幾つの階層となるかは、選択する機能および該選択以降に発話する内容に応じて決定される。
【００１７】
次に、信号処理装置１４は、使用者が音声入力を容易に行えるようにディスプレイ５の表示内容を待ち受け画面に切替え変更する（ステップＳ１０３）。
【００１８】
図４は、ナビゲーションの行き先をインタラクティブに設定する際の途中（県名選択）段階での待ち受け画面を例示している。待ち受け画面の基本構成は領域Ａ、領域Ｂおよび領域Ｃを備える構成である。
【００１９】
領域Ａは、現在どのような待ち受け設定となっているかを表示する領域であり、使用者はこの領域Ａに表示されている内容を見ることで、どのような認識対象語を発話すればよいかを知ることができる。図４の例では、次に都道府県の名称を発声すればよいことが容易に理解できる。また領域Ｂは、使用者の発話により何が認識されたかを確認のために表示する領域である。図４の例では、使用者が１階層前（話題２）の行き先設定のジャンル選択において、使用者が「駅」という発話を行い、その音声認識結果が継続して表示されている。
【００２０】
さらに領域Ｃは、現在の話題を前後する話題との接続関係と共に提示する領域であり、本発明の特徴的な表示構成である。図４の例では、現在、都道府県名を入力する階層にあるため、その階層（話題３）の県名選択Ｃ０３が識別表示（表示色が他の話題Ｃ０１，Ｃ０２，Ｃ０４およびＣ０５とは異なる色で表示）されている。このように、現在の話題と前後する話題との接続関係と共に提示することにより、話題１で機能選択がなされ、話題２でジャンル選択がなされ、現在（話題３）の県名選択がなされた後は、話題４の県名選択、話題５の探索条件選択を経て終了するという一連の流れを容易に理解することができ、使用者はこの流れを想定しながら選択設定していく作業を行うことができる。
【００２１】
なお、識別表示のやり方は、表示色を変える方法以外にも、階調度（グレイスケール）を変える、或いは、文字の背景として模様を入れるなど種々の方法がある。また、話題１の機能選択から終了に至るまでの階層が領域Ｃに表示可能な階層数を超える場合には、例えば、現在の話題から終了までの階層を優先的に表示するようにしても良い。また、入力装置４の特定のスイッチや使用者の指先の押圧によって領域Ｃの表示を左右にスクロール可能な構成としても良い。
【００２２】
次に、信号処理装置１４は、プロンプト、即ち処理を開始した旨を使用者に知らせるために、外部記憶装置１５に記憶してある告知音声信号をＤ／Ａコンバータ１２に出力し、アンプ１３およびスピーカ３を介して告知音声を出力する。この告知音声を聞くと、使用者は認識対象に含まれる発話を行うので、信号処理装置１４は、マイク２からの音声信号をＡ／Ｄコンバータ１１でディジタル信号に変換したものを取り込む（ステップＳ１０４）。
【００２３】
信号処理装置１４は、発話スイッチ４ａの操作がなされるまでは、Ｄ／Ａコンバータ１２の出力（ディジタル音声信号）のパワーを演算しており、発話スイッチ４ａの操作がなされた後に、前の平均パワーに比べてディジタル音声信号の瞬間パワーが所定の閾値よりも大きくなった区間を音声区間とみなして、発話区間の検出を行っている。このような音声の発話区間の検出は公知技術であり、例えば、特開昭６３−２２６６９２号公報「パターン比較方式」に開示されている。
【００２４】
次に、信号処理装置１４は、メモリ２２に記憶されている認識対象との一致度演算を開始する（ステップＳ１０５）。一致度は、検出した発話区間のディジタル音声信号と個々の認識対象がどの程度似ているかを示すものであり、スコアとして算出される。ここでは、スコアの値が大きいほど一致度が高いとして評価する。なお、この一致度演算を行う間も、並列処理により音声の取り込みは継続されている。
【００２５】
次に、信号処理装置１４は、ディジタル音声信号の瞬間パワーが所定の閾値以下になったとき、使用者の発話が終了したと判断して、音声の取り込みを終了する（ステップＳ１０７）。この終了判断についても、例えば、特開昭６３−２２６６９２号公報の「パターン比較方式」と同様である。
【００２６】
次に、信号処理装置１４は、一致度の演算（ステップＳ１０５）の終了を待ち、該一致度演算の結果、一致度の最も大きい認識対象を認識結果として出力する。図４の例では、最も一致度が大きかった認識対象語が「駅」であり、認識結果として「駅」が領域Ｂに表示されている。なお、認識結果の出力は、ディスプレイ５への表示だけでなく、スピーカ３による音声出力も行われ、音声合成処理機能を用いて認識結果の「駅」を音声信号に変換し、Ｄ／Ａコンバータ１２によりアナログ音声信号に変換された後、アンプ１３による信号増幅を経て、スピーカ３から音声出力される。
【００２７】
なお、例えば使用者が「駅」と発話したのに対して、誤認識が発生して認識結果が「住所」となった場合には、使用者は、訂正スイッチ４ｂを操作して認識処理（ステップＳ１０２）以前の状態に戻ることができる。すなわち、ステップＳ１０７の認識結果の出力後、使用者による訂正スイッチ４ｂの押下があるかどうか所定時間の間待ち受け、訂正スイッチ４ｂの押下があった場合は、ステップＳ１０２に戻って再度ステップＳ１０２からステップＳ１０７までの処理を繰り返し、また、所定時間内に訂正スイッチ４ｂの押下がなかった場合には、認識結果を使用者が容認したとしてステップＳ１０９に進む（ステップＳ１０８）。
【００２８】
次に、ステップＳ１０７で認識結果として出力された認識対象を受けて、その下位階層があるかどうかを判断する（ステップＳ１０９）。下位階層がある場合にはステップＳ１０２に戻り、下位階層に応じた待ち受け処理、即ち代表語彙の指示と認識対象の設定を行う。図４の例では、認識対象語「駅」に対して下位階層が存在し、「都道府県名」が下位階層の待ち受け語として設定され、領域Ａに表示されることになる。
【００２９】
また、ステップＳ１０９において、認識結果として出力された認識対象語に下位階層がない場合には、ステップＳ１１０に進んで、該認識対象語に関連づけられた機能を実行する。図４の例では、発話により最終的に確定した場所へ行き先設定する機能および経路探索する機能が対応づけられており、これらの機能が実行されることになる。
【００３０】
以上、図２のフローチャートに沿って処理手順を説明したが、本実施例の音声対話装置における音声対話方法では、使用者の発話によって階層を進む毎に、処理が再帰的に実行されている。次に、より具体的に、図５から図１０までの説明図を参照して、使用者が「行き先」→「駅」→「神奈川県」→「横浜駅」→「有料道路優先」の発話をして階層を進んでいく場合のディスプレイ５の表示画面の推移を説明する。
【００３１】
図５は、使用者が発話スイッチ４ａを押下した後に、最初にディスプレイ５に表示される待ち受け画面である。図５では、現在の階層が機能選択（話題１）を行うための画面であることが、領域Ｃ中の機能選択Ｃ０１の識別表示により容易に分かる。また、今後経なくてはならない話題が複数個あることも容易に理解できる。
【００３２】
次に、図６は、図５の画面の領域Ａに表示された（話題１の）代表語彙から使用者が選択する時の待ち受け画面であり、これに対して使用者は「行き先」と発話している。また、この発話に基づく図２のステップＳ１０４からステップＳ１０７までの処理を経て、認識結果「行き先」が認識結果表示領域（領域Ｂ）に表示されている。
【００３３】
次に、図７は、認識対象語「行き先」の次の階層（話題３）についての待ち受け画面である。領域Ｃの識別表示から、現在の階層は「ジャンル選択」の話題２を入力する階層であることが容易に理解できる。また、使用者の発話の認識結果「行き先」が領域Ｂに表示されている。そして、認識対象語「行き先」に対して下位階層が存在し、該階層の複数の代表語彙が領域Ａに表示されている。つまり、図７の待ち受け画面に対して、次に使用者は、領域Ａに表示された代表語彙からジャンル選択を行えばよいことが容易に理解できる。
【００３４】
次に、図８は、図７の画面の領域Ａに表示された代表語彙から使用者が「駅」を選択して「駅」と発話した後の待ち受け画面である。使用者による発話「駅」を受けて該認識結果が領域Ｂに表示され、さらに認識対象語「駅」に対して下位階層が存在し、代表語彙の「都道府県名」が待ち受け語として領域Ａに表示されている。また、領域Ｃの表示から、現在の階層が「県名選択」の話題３を入力する階層であることが容易に理解できる。
【００３５】
次に、図９は、図８の画面の領域Ａに表示された代表語彙「都道府県名」に対し、使用者が「神奈川県」と発話した場合の待ち受け画面である。使用者による発話「神奈川県」を受けて該認識結果が領域Ｂに表示され、さらに認識対象語「神奈川県」に対して下位階層が存在し、代表語彙の「駅名」が待ち受け語として領域Ａに表示されている。また、領域Ｃの表示から、現在の階層が「駅名選択」の話題４を入力する階層であることが容易に理解できる。
【００３６】
さらに、図１０は、図９の画面の領域Ａに表示された代表語彙「駅名」に対し、使用者が「横浜駅」と発話した場合の待ち受け画面である。使用者による発話「横浜駅」を受けて該認識結果が領域Ｂに付加表示され、さらに認識対象語「横浜駅」に対して下位階層が存在し、複数の代表語彙が待ち受け語として領域Ａに表示されている。また、領域Ｃの表示から、現在の階層が「探索条件選択」の話題５を入力する階層であることが容易に理解できる。
【００３７】
なお、以上説明した具体例では、「行き先」→「駅」→「神奈川県」→「横浜駅」→「有料道路優先」の発話をして、階層を順に進んでいったが、数階層先の階層の発話を受理できるようにすることも可能である。例えば、図５の待ち受け画面において、使用者が２階層先の「駅」を発話した場合には、図８の待ち受け画面に遷移することになる。
【００３８】
以上説明したように、本実施例の音声対話装置および音声対話方法では、話題情報を提示して使用者の発話を促す提示手段（ディスプレイ５）と、入力された使用者の音声を認識する音声認識手段（１１，１４）と、を備え、複数の話題についての提示手段による提示および音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置において、提示制御手段（１４）（提示制御ステップ）により、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として（ディスプレイ５の画面上の領域Ｃに）提示する。これにより、使用者は、現在行っている対話の話題が対話全体から見てどの位置にあるかが分かり、不安感を抱くことなく対話を完了することができる。
【００３９】
また、（例えば、図４に示すディスプレイ５の画面上の領域Ｃにおいて、話題３の県名選択Ｃ０３の表示色を他と変えて表示したように、）話題遷移過程の中で現在の話題情報を識別して提示するので、現在の話題（階層）が何で（どこで）あるのかを容易に理解することができる。
【００４０】
さらに、話題遷移過程が対話の完了までの話題の接続関係を含んでいるので、使用者は、現在の話題以降完了までの話題の遷移を認知することができ、完了までの対話の負担をイメージすることが容易になり、従来のように不安感を抱きつつ対話を行うようなことが無くなる。
【実施例２】
【００４１】
次に、本発明の実施例２に係る音声対話装置および音声対話方法について説明する。
【００４２】
本実施例の音声対話装置の構成は、実施例１と同様に図１で示される構成である。本実施例においても、実施例１と同様に、信号処理装置１４で実現される提示制御手段が、提示手段（ディスプレイ５）に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、提示制御手段（１４）において、話題毎に音声認識手段（１１，１４）による認識難易度を計算し、話題遷移過程に併せて提示する点に特徴がある。
【００４３】
ここで、認識難易度は、音声認識処理における音声認識の難しさを表し、該認識難易度が低いと、音声認識率を高めるために、明瞭に発話する、或いは、大きい声量で発話するなど、使用者に対して大きな負担が求められることになる。音声認識率の低さは、一般に認識対象語の階層に含まれる単語数に比例し、そのため、階層に含まれる単語数が所定値以上であるときは音声認識率が低いと判断することができる。また、音声認識率の低さは、低認識語を含むかどうかによっても判断できるが、このことは、技術文献「寺嶌；“音声認識における低認識語の予測技術”，技術報告（豊田中央研究所Ｒ＆Ｄレビュー），Ｖｏｌ１３，Ｎｏ２，２００１年６月）」に詳しく述べられている。この技術文献によれば、低認識語を所定数以上含む場合に音声認識率が低いと判断できる。
【００４４】
次に、本実施例の音声対話装置における音声対話方法も、実施例１と同様に、図２のフローチャートに示される手順を踏む。但し、ステップＳ１０３の待ち受け画面表示における処理内容が異なり、以下詳しく説明する。
【００４５】
図１１は、本実施例の待ち受け画面における領域Ｃの表示内容を例示する説明図である。待ち受け画面の領域Ａおよび領域Ｂの表示については実施例１と同様である。つまり、実施例１の図４または図８において領域Ｃの表示内容が図１１に示す内容に置き換わる。
【００４６】
図１１において、話題３の県名選択Ｃ０３が識別表示（表示色が他の話題Ｃ０１，Ｃ０２，Ｃ０４およびＣ０５とは異なる色で表示）されており、現在は、都道府県名を入力する階層にあることが容易に分かる。また接続関係の表示から、現在の県名選択をした後は、話題４の県名選択、話題５の探索条件選択を経て終了するという一連の流れを容易に理解することができる。
【００４７】
さらに、図１１では、次階層の駅名選択時の認識難易度が難しい（音声認識率が低い）ことが、他の話題よりも大きな枠Ｃ０４ｂによる識別表示で示されており、次階層の駅名選択時には明瞭に発話する、或いは大きい声量で発話するなど、使用者の発話の負担が大きいことを認知できる。すなわち、話題遷移過程に認識難易度が併せて提示されていることにより、使用者はこの先どの程度の負担があるかを前もって認知することができる。
【００４８】
また、図１２は、本実施例の待ち受け画面における領域Ｃの表示内容の他の例を示す説明図である。図１１とは別の識別方法として、次階層の駅名選択時の認識難易度が難しい（音声認識率が低い）ことを、他の話題とは異なる色または模様によって識別することができる。図１２は、他の話題とは異なる模様の背景Ｃ０４ｃによる識別表示であり、これにより、使用者はこの先どの程度の負担があるかを前もって認知することができる。なお、認識難易度を色によって識別する場合には、例えば、認識難易度が難しく使用者負担が大きいときには赤色を使用し、認識難易度が易しく使用者負担が小さいときには青色を使用して識別する方法が考えられる。さらに、話題遷移過程に認識難易度を併せて提示する方法としては、その旨を言葉で表示する方法や、数値化してその値を表示する方法など種々の方法が考えられる。
【００４９】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段（１４）において、話題毎に音声認識手段（１１，１４）による認識難易度を計算し、話題遷移過程に併せて提示するので、音声認識の難しさに由来する負担も併せてイメージすることが容易になり、音声対話における使用者の不安感をより低減させることができる。
【実施例３】
【００５０】
次に、本発明の実施例３に係る音声対話装置および音声対話方法について説明する。
【００５１】
本実施例の音声対話装置の構成は、実施例１と同様に図１で示される構成である。本実施例においても、実施例１と同様に、信号処理装置１４で実現される提示制御手段が、提示手段（ディスプレイ５）に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、提示制御手段（１４）において、現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、話題遷移過程の中で現在の話題、他の話題およびそれらの接続関係を識別して提示する点に特徴がある。そのため、本実施例では、実施例１とは異なり、「単語音声認識」および「連続単語認識」の両者を同時に用いる実装がなされている。なお、ここでは、話題３の「県名選択」と話題４の「駅名選択」について、連続した単語音声の認識が可能であるとして説明を行う。
【００５２】
次に、本実施例の音声対話装置における音声対話方法も、実施例１と同様に、図２のフローチャートに示される手順を踏む。但し、ステップＳ１０３の待ち受け画面表示における処理内容が異なり、以下具体例を示して説明する。
【００５３】
図１３は、本実施例の待ち受け画面における領域Ｃの表示内容を例示する説明図である。待ち受け画面の領域Ａおよび領域Ｂの表示については実施例１と同様である。つまり、実施例１の図７において領域Ｃの表示内容が図１３に示す内容に置き換わる。領域Ｃの話題２の識別表示から、現在の階層は「ジャンル選択」を入力する階層であることが容易に理解できる。また、接続関係の表示から、ジャンル選択（で「駅」を選択）した後は、話題３および話題４の県名および駅名選択、話題５の探索条件選択を経て終了するという一連の流れを容易に理解できる。
【００５４】
特に、図１３では、次階層の県名および駅名選択が太枠Ｃ３４で強調表示してある。これにより、使用者は次に階層において、県名選択および駅名選択の両者を連結した発話が可能であることを認知でき、それにより、今後の発話負担がどの程度軽減されるかを容易に理解することができる。
【００５５】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段（１４）において、現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、話題遷移過程の中で現在の話題、他の話題およびそれらの接続関係を識別して提示するので、連続音声の発話によりどの程度対話の負担が減少するかも併せてイメージすることが可能となり、音声対話における使用者の不安感をより低減させることができる。
【実施例４】
【００５６】
次に、本発明の実施例４に係る音声対話装置および音声対話方法について説明する。
【００５７】
本実施例の音声対話装置の構成は、実施例１と同様に図１で示される構成である。本実施例においても、実施例１と同様に、信号処理装置１４で実現される提示制御手段が、提示手段（ディスプレイ５）に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、提示制御手段（１４）において、現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示する点に特徴がある。
【００５８】
次に、本実施例の音声対話装置における音声対話方法も、実施例１と同様に、図２のフローチャートに示される手順を踏む。但し、ステップＳ１０３の待ち受け画面表示における処理内容が異なり、以下詳しく説明する。
【００５９】
図１４は、本実施例の待ち受け画面における領域Ｃの表示内容を例示する説明図である。待ち受け画面の領域Ａおよび領域Ｂの表示については実施例１と同様である。つまり、実施例１の図９において領域Ｃの表示内容が図１４に示す内容に置き換わる。
【００６０】
図１４において、話題４の駅名選択Ｃ０４が識別表示されており、現在は、駅名を入力する階層にあることが容易に分かる。また接続関係の表示から、現在の駅名選択をした後は、話題５の探索条件選択を経て終了するという一連の流れを容易に理解することができる。但し、図１４では実施例１とは異なり、話題２のジャンル選択と話題４の駅名選択の間の話題の接続関係として、県名選択Ｃ０３１と路線選択Ｃ０３２の２つの話題遷移過程が表示されており、話題３において県名選択または路線選択の何れかの選択が可能であったことを示している。
【００６１】
つまり、前階層の話題３の階層においては、「県名選択」以外に「路線選択」の選択も可能で、使用者は、例えば、「神奈川県」という発話以外に、「京浜急行」という発話も可能であったことを意味している。なお、この話題３の階層の待ち受け画面では、領域Ａに表示される代表語彙として「都道府県名」と「路線名」が表示されることになる。
【００６２】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段（１４）において、現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示するので、実際に遷移してきた話題遷移過程とは異なる他の話題遷移過程との比較が可能となり、現在行っている対話の話題が、対話全体から見てどの位置にあるかの理解がより容易になる。
【実施例５】
【００６３】
次に、本発明の実施例５に係る音声対話装置および音声対話方法について説明する。
【００６４】
本実施例の音声対話装置の構成は、実施例１と同様に図１で示される構成である。本実施例においても、実施例１と同様に、信号処理装置１４で実現される提示制御手段が、提示手段（ディスプレイ５）に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示するが、本実施例は、記憶手段（メモリ２２または外部記憶装置１５）に過去に完了した対話の話題遷移過程を記憶しておき、提示制御手段（１４）において、現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示する点に特徴がある。
【００６５】
次に、本実施例の音声対話装置における音声対話方法も、実施例１と同様に、図２のフローチャートに示される手順を踏む。但し、ステップＳ１０３の待ち受け画面表示における処理内容が異なり、以下詳しく説明する。
【００６６】
図１５は、本実施例の待ち受け画面における領域Ｃの表示内容を例示する説明図である。待ち受け画面の領域Ａおよび領域Ｂの表示については実施例１と同様である。つまり、実施例１の図８において領域Ｃの表示内容が図１５に示す内容に置き換わる。
【００６７】
図１５において、話題３の県名選択Ｃ０３が識別表示されており、現在は、都道府県名を入力する階層にあることが容易に分かる。また接続関係の表示から、現在の県名選択をした後は、話題４の県名選択、話題５の探索条件選択を経て終了するという一連の流れを容易に理解することができる。但し、図１５では実施例１とは異なり、話題２のジャンル選択から話題５の探索条件選択の間の話題の接続関係として、県名選択Ｃ０６，市名選択Ｃ０７，大字選択Ｃ０８および番地選択Ｃ０９の話題を遷移する他の話題遷移過程が表示されている。この他の話題遷移過程（Ｃ０２→Ｃ０６〜Ｃ０９→Ｃ０５）は、過去に使用者が行った他の入力話題の遷移過程であり、これを併せて表示することにより、使用者は今回の入力負担と過去に経験した入力の負担とを比較することができる。
【００６８】
以上説明したように、本実施例の音声対話装置および音声対話方法では、提示制御手段（１４）において、現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示するので、成功経験のある対話の負担との比較により、現在行っている対話の負担をイメージすることが可能となり、音声対話における使用者の不安感をより低減させることができる。
【図面の簡単な説明】
【００６９】
【図１】本発明の実施例に係る音声対話装置の構成図である。
【図２】音声対話方法を説明するフローチャートである。
【図３】認識対象語のデータ構造の説明図である。
【図４】実施例１において待ち受け画面の基本構成を例示する説明図である。
【図５】実施例１において発話スイッチ押下時の待ち受け画面を例示する説明図である。
【図６】実施例１において「行き先」と発話する時の待ち受け画面を例示する説明図である。
【図７】実施例１において「行き先」と発話した後の待ち受け画面を例示する説明図である。
【図８】実施例１において「駅」と発話した後の待ち受け画面を例示する説明図である。
【図９】実施例１において「神奈川県」と発話した後の待ち受け画面を例示する説明図である。
【図１０】実施例１において「横浜駅」と発話した後の待ち受け画面を例示する説明図である。
【図１１】実施例２の待ち受け画面における領域Ｃの表示内容を例示する説明図である。
【図１２】実施例２の待ち受け画面における領域Ｃの表示内容を例示する説明図である。
【図１３】実施例３の待ち受け画面における領域Ｃの表示内容を例示する説明図である。
【図１４】実施例４の待ち受け画面における領域Ｃの表示内容を例示する説明図である。
【図１５】実施例５の待ち受け画面における領域Ｃの表示内容を例示する説明図である。
【符号の説明】
【００７０】
１信号処理ユニット
２マイク
３スピーカ
４入力装置
５ディスプレイ（提示手段）
１１Ａ／Ｄコンバータ（音声認識手段）
１２Ｄ／Ａコンバータ
１３出力アンプ
１４信号処理装置（音声認識手段または提示制御手段）
１５外部記憶装置
２１ＣＰＵ
２２メモリ

【特許請求の範囲】
【請求項１】
話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段と、を備え、複数の話題についての前記提示手段による提示および前記音声認識手段による音声認識を経て使用者との対話を完了する音声対話装置であって、
前記提示手段に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示する提示制御手段を有することを特徴とする音声対話装置。
【請求項２】
前記提示制御手段は、前記話題遷移過程の中で前記現在の話題情報を識別して提示することを特徴とする請求項１に記載の音声対話装置。
【請求項３】
前記提示制御手段は、話題毎に前記音声認識手段による認識難易度を計算し、前記話題遷移過程に併せて提示することを特徴とする請求項１または請求項２の何れかに記載の音声対話装置。
【請求項４】
前記提示制御手段は、前記現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、前記話題遷移過程の中で該現在の話題、該他の話題およびそれらの接続関係を識別して提示することを特徴とする請求項１〜請求項３の何れか１項に記載の音声対話装置。
【請求項５】
前記提示制御手段は、前記現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示することを特徴とする請求項１〜請求項４の何れか１項に記載の音声対話装置。
【請求項６】
過去に完了した対話の話題遷移過程を記憶する記憶手段を有し、
前記提示制御手段は、前記現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示することを特徴とする請求項１〜請求項５の何れか１項に記載の音声対話装置。
【請求項７】
前記話題遷移過程は、対話の完了までの話題の接続関係を含むことを特徴とする請求項１〜請求項６の何れか１項に記載の音声対話装置。
【請求項８】
話題情報を提示して使用者の発話を促す提示手段と、入力された使用者の音声を認識する音声認識手段と、を備え、複数の話題についての前記提示手段による提示および前記音声認識手段による音声認識を経て使用者との対話を完了する音声対話方法であって、
前記提示手段に、現在の話題情報を、該現在の話題に前後する話題の情報との接続関係と共に話題遷移過程として提示する提示制御ステップを有することを特徴とする音声対話方法。
【請求項９】
前記提示制御ステップは、前記話題遷移過程の中で前記現在の話題情報を識別して提示することを特徴とする請求項８に記載の音声対話方法。
【請求項１０】
前記提示制御ステップは、話題毎に前記音声認識手段による認識難易度を計算し、前記話題遷移過程に併せて提示することを特徴とする請求項８または請求項９の何れかに記載の音声対話方法。
【請求項１１】
前記提示制御ステップは、前記現在の話題と該現在の話題と接続関係を持つ他の話題とについて、連続した単語の音声の認識が可能であるとき、前記話題遷移過程の中で現在の話題、他の話題およびそれらの接続関係を識別して提示することを特徴とする請求項８〜請求項１０の何れか１項に記載の音声対話方法。
【請求項１２】
前記提示制御ステップは、前記現在の話題に到達するための話題の遷移が複数存在する場合に、該現在の話題に至った実際の遷移過程に他の遷移過程も併せて提示することを特徴とする請求項８〜請求項１１の何れか１項に記載の音声対話方法。
【請求項１３】
過去に完了した対話の話題遷移過程を記憶する記憶ステップを有し、
前記提示制御ステップは、前記現在の話題に関する話題遷移過程に過去に完了した対話の話題遷移過程を併せて提示することを特徴とする請求項８〜請求項１２の何れか１項に記載の音声対話方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【公開番号】特開２００６−２５１０５９（Ｐ２００６−２５１０５９Ａ）
【公開日】平成１８年９月２１日（２００６．９．２１）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 音声認識システムの構造上の細部 (875)
      - 音声認識処理中の手順，例．マン・マシン対話 (884)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 計算機で処理しうる形式にデータを変換するための入力装置；処理ユ... (73,920)
      - 音声入力；音声出力 (1,364)

【出願番号】特願２００５−６４２２３（Ｐ２００５−６４２２３）
【出願日】平成１７年３月８日（２００５．３．８）
【出願人】（０００００３９９７）日産自動車株式会社 (16,386)
【出願人】（５９１１３２３３５）株式会社ザナヴィ・インフォマティクス (745)
【出願人】（０００００５１０８）株式会社日立製作所 (27,607)
【Ｆターム（参考）】

音声認識 (5,191)
- 音声認識装置の制御 (1,048)
  - 音声認識装置の用途 (261)

[ Back to top ]

音声対話装置および音声対話方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

音声対話装置および音声対話方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク