音声対話システム

【課題】本発明は、ユーザにとってより利便性の高い音声対話システムの提供を目的とする。
【解決手段】音声による対話をユーザと行う音声対話システムにおいて、携帯電話機５１を介して施設２００の通話相手と行う対話で用いる第１の音声と車室内の乗員と行う対話で用いる第２の音声とを車室内に出力する音声出力手段（スピーカ）３１を備え、車室内の乗員が両音声を聞き分けやすいように、音声出力手段３１によって出力される両音声の音色を互いに異ならせることを特徴とする音声対話システム。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声による対話をユーザと行う音声対話システムに関し、より詳細には、無線通信を介して接続される通信相手と行う対話を含むものに関する。
【背景技術】
【０００２】
従来から、乗員に代わって運転中の通話を代行する車両用通信代行装置が知られている（例えば、特許文献１）。本車両用通信代行装置は、音声対話機能を有しており、擬人化されたエージェントが通話相手と通話を行い、通話相手から取得した情報を乗員に伝えるものである。
【特許文献１】特開２００３−３２３２９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
上記の従来技術では、乗員が自分に話しかけていると誤解しないように、エージェントが通話相手と対話するときには、エージェントの音声が車室内に出力されない（聞こえない）設定になっている。しかしながら、乗員はエージェントが通話相手に対して話す内容を聞くことができないという問題が生ずるため、乗員に不都合となる場合がある。
【０００４】
そこで、本発明は、ユーザにとってより利便性の高い音声対話システムの提供を目的とする。
【課題を解決するための手段】
【０００５】
上記課題を解決するため、本発明の一局面によれば、
音声による対話をユーザと行う音声対話システムにおいて、
無線通信手段を介して接続される通信相手と行う対話で用いる第１の音声と車室内の乗員と行う対話で用いる第２の音声とを車室内に出力する音声出力手段を備え、
前記音声出力手段によって出力される第１及び第２の音声の音色を互いに異ならせることを特徴とする音声対話システムが提供される。
【０００６】
本局面によれば、乗員は、音声対話システムが通信相手に対して話す内容を聴取できるようになるともに、音声対話システムが自分に対して話しかけているのか通信相手に対して話しかけているのかを音色の違いによって容易に識別できるようになり誤解もなくなる。
【０００７】
また、前記音声出力手段は、前記通信相手が発する第３の音声を車室内に出力することが好ましい。これにより、乗員は通話相手の音声も聴取可能になり、音声対話システムと通話相手との間の対話内容が理解できるようになる。
【０００８】
また、前記音声出力手段によって出力される第１乃至第３の音声の音色を互いに異ならせることが好ましい。これにより、通話相手が発する音声も音色の違いよって容易に識別可能である。特に、通話相手も本システムと同様の音声対話システムであれば、両システムが同じ音声であることも考えられるが、どちらの音声対話システムによる音声なのかを乗員は音色の違いによって容易に識別可能になる。
【０００９】
また、音声出力の要否を指示する乗員からの入力に応じて、前記第１乃至第３の音声の中から出力すべき音声を選択する選択手段を備えることが好ましい。これにより、乗員は出力すべき音声を任意に選択でき、対話のやりとりの聞く・聞かないを選択することができる。
【００１０】
また、前記通話相手と行う対話の成否を判断する判断手段を備え、前記音声出力手段は、前記判断手段により対話が成立しないと判断された場合、第１及び第３の音声の少なくとも一つを出力することが好ましい。これにより、音声対話システムが対話不能なやりとりでも、乗員が聞くことによって対話内容を把握することができるようになる。このとき、対話のやりとりを聞かないと選択していたとしても、同様に、乗員は対話内容を把握することができるようになる。
【００１１】
また、前記音声出力手段によって出力されるそれぞれの音声の大きさを制御する音声制御手段を備えることが好ましい。これにより、音色を異ならせることによって音声の大きさに変化がでても、その大きさを調整することができるようになる。
【００１２】
また、前記音声出力手段によって出力されるそれぞれの音声の高さを制御する音声制御手段を備えることが好ましい。これにより、音色を異ならせることによって音声の高さに変化がでても、その高さを調整することができるようになる。
【発明の効果】
【００１３】
本発明によれば、ユーザにとっての利便性をより高くすることができる。
【発明を実施するための最良の形態】
【００１４】
以下、本発明を実施するための最良の形態の説明を行う。
【００１５】
［１．本実施形態の概要］
図１は、本実施形態の音声対話システムの概略動作を示すフローチャートである。本実施形態の音声対話システムは、運転者等の乗員の要求に基づいて乗員に代わって電話をかけ、通話相手と対話する中で乗員が要求する情報を取得し、その取得した情報を乗員に伝えるものである。図１における各ステップの詳細な説明については後述する。
【００１６】
［２．本実施形態の詳細］
図２は、音声対話システムを取り巻く全体的な概略構成を示した図である。図２に示されるように、車両１００には、音声対話システムとして、制御装置１０、入力装置２０、出力装置３０、記憶装置４０及び通信装置５０が搭載されている。また、通信装置５０を介して、車両１００から離れた場所に位置する施設２００にアクセス可能なことが示されている。
【００１７】
制御装置１０は、音声認識手段１１、音声合成手段１２、対話制御手段１３及び音声制御手段１４を備えている。
【００１８】
音声認識手段１１は、本音声対話システムと音声対話するユーザが話す音声を認識し、文字列に変換するものである。音声入力手段２２から入力された音声について、特徴抽出、音素解析、単語解析及び構文解析を行うことによって、その入力された音声を文字列に変換する。
【００１９】
音声合成手段１２は、文字列から音声を生成するものである。音声合成手段１２は、文字列解析、韻律制御及び音声波形生成を行うことによって、音声出力手段３１によって出力される音声や携帯電話機５１を介して送信される音声を文字列から生成する。
【００２０】
対話制御手段１３は、本音声対話システムとそのユーザとの間の音声による対話の流れを制御するものである。対話制御手段１３は、音声認識手段１１によって入力音声から変換された文字列を認識し、その認識された文字列の内容に応じた制御を行う。また、対話制御手段１３は、出力すべき音声がある場合には、音声合成手段１２によって生成される音声の元になる文字列を生成する。
【００２１】
このような音声対話技術は、例えば、電話によるお客様窓口などに採用されている自動応答システム（IVR：Interactive Voice Response）、カーナビゲーションシステムのルート検索に用いる音声認識、通信機能を搭載した際の音声合成による電子メール読み上げ等がよく知られている。
【００２２】
音声制御手段１４は、音声合成手段１２によって生成された音声波形（音波）を制御するものである。音声波形を制御することによって、「音の大きさ（音圧、音圧レベル）」「音の高さ」「音色」に変化を与えることができる。「音の大きさ」は音声波形の振幅によって決まり、「音の高さ」は音声波形の周波数によって決まり、「音色」は音声波形の形状によって決まる。音の大きさと音の高さについてそれぞれ同一な二つの音声波形（つまり、振幅、周波数が同一）を比べた場合、その音声波形の形状が異なれば、その音声の音色は互いに異なる。
【００２３】
入力装置２０は、スイッチ（ＳＷ）入力手段２１及び音声入力手段２２を備えている。ＳＷ入力手段２１には、例えば、プッシュＳＷ、レバーＳＷ及びタッチパネルディスプレイが挙げられる。制御装置１０に対する乗員による操作入力を受け付けるインターフェースである。音声入力手段２２は、車室内の音声を集音し、その集音された音声を音声認識手段１１に供給する。また、音声入力手段２２は、通信装置５０を介して集音した通信相手の音声を音声認識手段１１に供給する。
【００２４】
出力装置３０は、音声出力手段３１及び画像出力手段３２を備えている。音声出力手段３１は、上述の音声波形に基づいて車室内に実際の音声を出力する、いわゆるスピーカである。画像出力手段３２は、乗員に対し視覚的な情報提供をする表示装置であって、より具体的には、ＴＦＴ−ＬＣＤ（薄膜トランジスタ方式液晶ディスプレイ）、自発光タイプのＥＬ（Electro Luminescence）パネル、ＶＦＤ（蛍光表示管）及びヘッドアップディスプレイ等がある。そして、画像出力手段３２には、例えば、ナビゲーションシステム画面（メニュー画面や経路案内画面）、擬人化されたエージェントの像、音声対話のやりとりの中で認識され変換された文字列が表示される。
【００２５】
記憶装置４０には、会話シナリオ４１、施設情報４２、選択施設情報４３及び地図情報４４が記憶されている。会話シナリオ４１は、単語や構文の辞書データ及び文例であって、上述の音声対話の制御をする際に参照されるものである。施設情報４２は、レストランや公園等の施設に関する位置情報や料金等の情報である。選定施設情報４３は、後に詳述するが乗員が選定した施設に関する情報である。地図情報４４は、ＧＰＳからの車両１００の位置、地図データ、建物データ、道路データ等であって、ナビゲーションシステムが経路探索等をする際に参照されるものである。
【００２６】
通信装置５０は、車外との無線通信を可能にする装置であって、より具体的には、携帯電話機５１である。制御装置１０は、携帯電話機５１を介して車外の電話６０を備える施設２００に電話をかけ、電話の相手と対話することを可能にする。
【００２７】
［３．本実施形態の動作］
図を参照しながら、本実施形態の動作例について説明する。図１は、本実施形態の音声対話システムの概略動作を示すフローチャートである。ここでは、擬人化されたエージェントによって本音声対話システムの動作が表現されるものとする。エージェントは、乗員と対話を行ったり、乗員の好みや要求やそれらの学習結果に応じて最適な推奨案（例えば、乗員が好みそうなレストランが近くにあれば場所を案内してくれる）を提供してくれたりする。エージェントの容姿は、人間をはじめとして、動物、ロボット、漫画のキャラクター等、様々存在し、ユーザの好みによって選択可能なものである。エージェントは、ディスプレイ上を動くものであってもよいし、ホログラフィのようなものであってもよい。
【００２８】
以下、乗員が運転中に定食屋を探している状況において音声対話システム（エージェント）自らが定食屋に関する情報を取得するとともにその情報を乗員に提供するというケースに当てはめて、本実施形態の動作の一例を説明する。
【００２９】
図１において、まず、乗員は通話相手の選定を行う（ステップ１００）。ここでの通話相手は定食屋になる。図３を参照しながら、通信相手の選定について詳細に説明する。図３は、通信相手の選定についてのフローチャートである。乗員は、ナビゲーションシステムで施設一覧を画像出力手段３２に表示させ、その施設一覧の中から定食屋を選択する（ステップ１１０）。乗員は、情報取得ボタンを押して、メニューの中から取得したい情報、例えば、「営業時間」や「待ち時間」を選択する（ステップ１２０）。ここで、優先度をつけて複数の定食屋を選択してもよい。優先度に応じて音声対話システムが電話をかける順番（情報を取得したい順番）が変わる。ただし、電話をかける順番は、記憶装置４０に記憶されている施設情報４２（現在値からの距離や定食屋の料金設定等）に応じて自動的に設定されるようにしてもよい。そして、乗員が施設選択完了ボタンを押すことによって、通話相手の選定が完了する（ステップ１３０）。
【００３０】
図１に戻り、エージェントは選択された定食屋に電話をかけ（ステップ２００）、相手が電話に出た場合に対話を開始する（ステップ３００）。図４は、エージェントと通話相手との間の音声対話についてのフローチャートである。エージェントは、相手が話した内容を認識し、電話に出た相手を特定する。特定できなかった場合、エージェントは通話相手に「もしもし、定食屋○○さんでよろしいですね？」と尋ねることによって相手を特定する。
【００３１】
次に、エージェントは、「こちららはドライバーエージェントシステムです。ドライバーに代わり、教えてほしいことがあります。まず「営業時間」について教えて下さい」と話して、自己紹介するとともに取得したい情報について尋ねる（ステップ３１０）。通話相手は、「営業時間は□□です」と答える。そして、エージェントは、自分の質問に対する通話相手の応答音声内容を受信し、その音声認識を行う（ステップ３２０）。音声認識を行ったエージェントは、「営業時間は□□でよろしいですね？」と通話相手に確認する（ステップ３３０）。ＯＫであることを確認した場合、次の取得したい情報についての質問をする（ステップ３５０；Ｎｏ）。
【００３２】
エージェントは、次の質問として「現在どれくらいの「待ち時間」ですか？」と尋ねる（ステップ３１０）。尋ねられた通話相手は「待ち時間は△△です」と答える。その答えを音声認識したエージェントは、上記と同様に、「待ち時間は××でよろしいですね？」と通話相手に確認する（ステップ３２０，３３０）。ここで、その確認内容が間違っていると通話相手から指摘された場合や通話相手の音声認識が不可能な場合、エージェントは、通話相手に対して少し待って欲しい旨を話す（ステップ３３０；Ｎｏ）。
【００３３】
エージェントは、「待ち時間について認識できません。対話内容を聞きますか？」と、乗員に対して情報取得できないため対話内容を聞くか否かを確認する（ステップ３４０）。乗員が「聞く」と答えると、その音声認識をしたエージェントは、車室内のスピーカを通して、その対話内容を乗員が聞くことができるようにする。エージェントは、再び、「現在どれくらいの待ち時間ですか？」と尋ねると、通話相手は「待ち時間は△△です」と答える。今度は、車室内の乗員でも通話相手の音声を聞くことができるようになるので、乗員は相手の音声を直接聞くことによって待ち時間を知ることができるようになる。そのとき、エージェントももちろん通話相手の話しを聞いており、「待ち時間△△」について音声認識をあらためて行っている。エージェントがそれでも音声認識できない場合は、「やっぱり、認識できませんでした。ごめんなさい。」と乗員に謝る。さらに、乗員の聞きたい情報が他にも出てきたならば、乗員が直接通話相手に話しかけ、その通話相手の応答する音声を聞くことができるようにしてもよい。要取得情報がすべて取得できたならば、エージェントは、「質問は以上です。ありがとうございました」と、通話相手に通話を終了する旨を伝える。
【００３４】
そして、エージェントは、「営業時間は□□で、待ち時間は△△です。次の候補も確認しますか？」と、取得した情報を乗員にディスプレイ表示とともに音声で伝え、次の候補の情報を取得するか否かを確認する（図１のステップ４００）。乗員は「もう、確認しなくてよい」と答えれば、その音声が認識され、情報取得が終了する。
【００３５】
このように、車室内のスピーカから流れる音声は、エージェントが通話相手に話しかける音声もあれば乗員に話しかける音声もあり、通話相手がエージェントに話しかける音声もあれば乗員に話しかける音声もあり、対話も入り組んでいる。したがって、乗員、特に運転中のドライバーは、誰が誰に話しかけているのかがわかりにくくなるおそれがある。エージェントや通話相手の話す言葉が質問形式であればなおさらである。そこで、本発明の音声対話システムでは、車室内のスピーカから出力される通話相手と行う対話で用いる音声と車室内の乗員と行う対話で用いる音声と通話相手が発する音声について、その音色を互いに異ならせるようにしている。
【００３６】
図５は、対話音声の音色制御を示すフローチャートである。音声合成手段１２は、エージェントが話す文章の文字列から音声波形を生成する（ステップ５１０）。生成された音声波形に基づいて、エージェントの音声が、車室内のスピーカを通して乗員に且つ携帯電話機５１を介して通話相手に、出力される（ステップ５２０）。音声制御手段１４は、音声波形の振幅や振動数や形状を調整することによって、乗員に話しかける音声と通話相手に話しかける音声の音色を互いに異なるように変える（ステップ５３０）。
【００３７】
また、携帯電話機５１を介して通話相手の音声が入力された場合（ステップ５４０）、車室内のスピーカを介して通話相手の音声が出力されるとともに（ステップ５５０）、音声認識手段１１は通話相手の音声の音声認識を行う（ステップ５６０）。音声制御手段１４は、ステップ５３０で行われたエージェントの音声の音色と異なる音色になるように、通話相手の音声の音声波形の振幅や振動数や形状を調整する（ステップ５７０）。
【００３８】
このように、車室内のスピーカから出力される通話相手と行う対話で用いる音声と車室内の乗員と行う対話で用いる音声の音色を互いに異ならせることによって、音声対話システムが自分（乗員）に対して話しかけているのか通信相手に対して話しかけているのかを容易に識別できるようになる。
【００３９】
以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなく、上述した実施例に種々の変形及び置換を加えることができる。
【００４０】
例えば、音声対話システム側から通話を発信する場合について上述したが、受信する場合についても同様に音声対話することは可能であり、そのときの音声の音色も互いに異ならせるようにすればよい。
【００４１】
また、エージェントが電話をかけたときに電話がつながらない場合には、一定時間後にあらためて電話をかけるようにすればよい。この場合、エージェント自らが一定時間後に自動的に電話をかけなおすようにしてもよいし、乗員にあらためて電話をかけるか否かの判断を問い合わせるようにしてもよい。乗員に問い合わせることによって、待ってでも情報取得するのか、待たずに次の施設の情報取得に移行させるのかを乗員は選択することができる。
【００４２】
また、通話相手の言語を推定する手段を備えてもよい。記憶装置４０内の会話シナリオ４１を言語別に記憶し、通話相手の言語に応じてエージェントが話す言語を切り替えるようにしてもよい。これにより、言語の不一致によって対話ができないと認識されれば、通話相手が理解できる言語に切り替えて対話することにより、情報取得が可能となる。なお、この場合の言語は、人間が話す日本語や英語等であるが、上記例示のIVR等の通信相手が機械の場合にはその通信プロトコル等を相手に合わせて切り替えるようにしてもよい。
【図面の簡単な説明】
【００４３】
【図１】本実施形態の音声対話システムの概略動作を示すフローチャートである。
【図２】音声対話システムを取り巻く全体的な概略構成を示した図である。
【図３】通信相手の選定についてのフローチャートである。
【図４】エージェントと通話相手との間の音声対話についてのフローチャートである。
【図５】対話音声の音色制御を示すフローチャートである。
【符号の説明】
【００４４】
１１音声認識手段
１２音声合成手段
１３対話制御手段
１４音声制御手段
１００車両
２００施設

【特許請求の範囲】
【請求項１】
音声による対話をユーザと行う音声対話システムにおいて、
無線通信手段を介して接続される通信相手と行う対話で用いる第１の音声と車室内の乗員と行う対話で用いる第２の音声とを車室内に出力する音声出力手段を備え、
前記音声出力手段によって出力される第１及び第２の音声の音色を互いに異ならせることを特徴とする音声対話システム。
【請求項２】
前記音声出力手段は、前記通信相手が発する第３の音声を車室内に出力する請求項１記載の音声対話システム。
【請求項３】
前記音声出力手段によって出力される第１乃至第３の音声の音色を互いに異ならせる請求項２記載の音声対話システム。
【請求項４】
音声出力の要否を指示する乗員からの入力に応じて、前記第１乃至第３の音声の中から出力すべき音声を選択する選択手段を備える請求項２記載の音声対話システム。
【請求項５】
前記通話相手と行う対話の成否を判断する判断手段を備え、
前記音声出力手段は、前記判断手段により対話が成立しないと判断された場合、第１及び第３の音声の少なくとも一つを出力する請求項２または４記載の音声対話システム。
【請求項６】
前記音声出力手段によって出力されるそれぞれの音声の大きさを制御する音声制御手段を備える請求項１または３記載の音声対話システム。
【請求項７】
前記音声出力手段によって出力されるそれぞれの音声の高さを制御する音声制御手段を備える請求項１または３記載の音声対話システム。

【図１】