対話支援装置、方法及びプログラム
【課題】話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援することを可能にする。
【解決手段】実施形態によれば、入力部、音声認識部、対話履歴データベース、推定部、判定部、生成部、選択部、提示部を含む。入力部は、話者間の対話の音声を入力する。音声認識部は、入力音声を音声認識して、対応するテキスト情報に変換する。対話履歴データベースは、テキスト情報の全部又は一部を対話履歴として記憶する。推定部は、テキスト情報に基づいて、発話行為を推定する。判定部は、推定された発話行為に基づいて、補足情報を提示するかどうか判定する。生成部は、補足情報を提示すると判定された場合に、補足情報の候補を生成する。選択部は、対話履歴を利用して、補足情報の候補のうちから、提示すべきものを選択する。提示部は、選択された補足情報を提示する。
【解決手段】実施形態によれば、入力部、音声認識部、対話履歴データベース、推定部、判定部、生成部、選択部、提示部を含む。入力部は、話者間の対話の音声を入力する。音声認識部は、入力音声を音声認識して、対応するテキスト情報に変換する。対話履歴データベースは、テキスト情報の全部又は一部を対話履歴として記憶する。推定部は、テキスト情報に基づいて、発話行為を推定する。判定部は、推定された発話行為に基づいて、補足情報を提示するかどうか判定する。生成部は、補足情報を提示すると判定された場合に、補足情報の候補を生成する。選択部は、対話履歴を利用して、補足情報の候補のうちから、提示すべきものを選択する。提示部は、選択された補足情報を提示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、対話支援装置、方法及びプログラムに関する。
【背景技術】
【0002】
近年、音声による機械翻訳器が登場し、知らない言語の相手と会話することが可能になってきた。しかし、入力された情報を正しく翻訳しさえすれば、その情報について、その情報を発した元の話者と同様の理解を、もう一方の話者が得られるとは限らない。例えば、地名又は料理名などのような名称(固有表現)等の中には、元の話者の文化圏又は国等では一般に良く知られているが、もう一方の話者の文化圏等では一般に良く知られていないようなものも多く存在し、たとえ元の話者が発した名称等が訳語に翻訳されたとしても、もう一方の話者は、知識がないために、その訳語を理解できないことがある。
【0003】
また、ある名称等について、それを理解する人(例えば、その名称等が一般的であるような文化圏等の人)が丁寧に説明したつもりでも、話者の間で、背景知識が大きく異なるため、同様のイメージが伝わらない場合がある。例えば、レストランにおいて料理名からその内容が分からないために、説明を求めて説明を受けた場合に、文化圏等によって一般的な調理法が異なるなどの前提知識の相違によって、実際にはイメージが正しく伝わっておらず、結局、実際に食べるまではどのような料理かが分からないということがある。
【0004】
説明する人が、聞き手の文化圏等を考慮して、聞き手の文化圏における類似する料理又は調理法に喩えること又は違いを説明することによって、説明することができれば、聞き手もイメージしやすい。しかしながら、説明する人が、聞き手の文化圏等に関する知識を持たない場合も多く、そのような場合には、喩えること又は違いを説明することが難しい。
【0005】
これは、背景知識の異なる話者が、同じ言語で会話をする場合にも、同様に生じ得る。
【0006】
従来、翻訳をする際に、特定の固有名詞については、その訳語に必ず補足情報を付加して出力するシステムが知られている。しかし、音声による対話時に、特定の固有表現が出現するごとに常に補足情報が出力されるのでは、かえって煩わしく、スムーズな対話を阻害する。
【0007】
また、ユーザが音声ガイドと対話する際に、音声ガイドがユーザの戸惑いを検出して、戸惑いを解消するための情報を提供するシステムが知られている。しかし、このシステムでは、ユーザが戸惑いを示さない場合には機能せず、また、あらかじめユーザが戸惑わないように音声ガイドが先回りして情報を提供することもできない。さらに、このシステムは、背景知識の異なる人間同士の会話を対象とするものではない。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2004−220416号公報
【特許文献2】特開2000−259177号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援する技術は、知られていなかった。
【0010】
本実施形態は、話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援することの可能な対話支援装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
実施形態によれば、入力部と、音声認識部と、対話履歴データベースと、推定部と、判定部と、生成部と、選択部と、提示部とを備える。入力部は、複数の話者による対話に係る音声を入力する。音声認識部は、入力された前記音声を音声認識して、対応するテキスト情報に変換する。対話履歴データベースは、前記テキスト情報の全部又は一部を対話履歴として記憶する。推定部は、前記テキスト情報に基づいて、発話行為を推定する。判定部は、推定された前記発話行為に基づいて、補足情報を提示するかどうか判定する。生成部は、前記補足情報を提示すると判定された場合に、補足情報の候補を生成する。選択部は、前記対話履歴を利用して、前記補足情報の候補のうちから、提示すべきものを選択する。提示部は、選択された前記補足情報を提示する。
【図面の簡単な説明】
【0012】
【図1】第1の実施形態に係る対話支援装置の構成例を示す図である。
【図2】第1の実施形態に係る対話支援装置の処理手順の一例を示すフローチャートである。
【図3】第1の実施形態に係る対話支援装置の利用シチュエーションを説明するための図である。
【図4】音声認識処理部の処理手順の一例を示すフローチャートである。
【図5】音声認識処理部の処理手順の他の一例を示すフローチャートである。
【図6】機械翻訳部の処理手順の一例を示すフローチャートである。
【図7】発話行為推定部の処理手順の一例を示すフローチャートである。
【図8】発話行為タグの例を示す図である。
【図9】提示要否判定部の処理手順の一例を示すフローチャートである。
【図10】補足情報提示可否データベースの一例を示す図である。
【図11】提示候補生成部の処理手順の一例を示すフローチャートである。
【図12】補足説明データベースの一例を示す図である。
【図13】候補選択部の処理手順の一例を示すフローチャートである。
【図14】第1の実施形態に係る対話支援装置の動作例を説明するための図である。
【図15】対話例を示す図である。
【図16】対話支援装置の他の構成例を示す図である。
【図17】対話支援装置のさらに他の構成例を示す図である。
【図18】補足情報提示内容データベースの例を示す。
【図19】対話例を示す図である。
【図20】第2の実施形態に係る対話支援装置の構成例を示す図である。
【図21】第2の実施形態に係る対話支援装置の処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら本発明の実施形態に係る対話支援装置について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
【0014】
(第1の実施形態)
対話しようとする二人の話者が、共通の言語(自然言語)を使用できない場合(例えば、それらの話者が、いずれも、母国語のみを使用し且つ相手の母国語を理解できない場合、あるいは、それらの話者の一方又は両方は、複数の言語を使用できるが、それらの話者が共通して使用できる言語がない場合など)において、そのような話者の間に翻訳器を介在させることによって、それら話者が異なる言語(例えばそれぞれの母国語等)を使用して対話をすることを支援することができる。しかし、一般に、話者同士の背景知識には差があることも多い。それゆえ、翻訳器が一方の話者により発せられた情報を他方の話者向けに正しく翻訳しさえすれば、一方の話者から他方の話者へ情報が正しく伝わる、ということが必ずしも期待できないことがある。これは、背景知識に差がある二人の話者が、共通の言語で会話をする場合にも、同様に生じ得る。
【0015】
第1の実施形態では、対話に機械翻訳が介在する場合に、対話に応じて知識を補うための情報を提示する場合を例にとって説明する。
【0016】
第1の実施形態において、対話支援装置を利用する二人の話者を、第一話者及び第二話者と呼ぶものとする。
【0017】
以下では、第一話者を客、第二話者を接客者(例えば接客する側である店員等)とし、第一話者が理解及び(音声入力のために)発話する第一言語を日本語とし、第二話者が理解及び(音声入力のために)発話する第二言語を英語とした具体例を使用するものとする。もちろん、本実施形態はこれに制限されるものではなく、第一言語が日本語以外の言語でも可能であり、第二言語が英語以外の言語でも可能である。
【0018】
また、以下では、第一話者をレストランの客、第二話者をレストランの接客者とする場合を例に取って説明する。もちろん、本実施形態はこれに制限されるものではなく、他のサービスを提供する際の異言語間のコミュニケーション、商品を販売する際の異言語間のコミュニケーションなど、異言語間の様々な接客コミュニケーションに適用可能である。
【0019】
また、以下では、対話を支援する対話支援装置として、接客者が客を接客する接客コミュニケーションを支援する接客支援装置を例にとって説明するが、本実施形態は、接客以外の対話にも適用可能である。
【0020】
以下では、第一話者と第二話者が異なる言語を使用して会話する際の対話状態を利用して、一方の話者にとって未知情報があることを判断し、翻訳結果を出力する際に所定のタイミングで該一方の話者向けに補足情報(例えば、説明文)を提示する例を示す。ここでは、一方の話者を第一話者として説明するが、これに制限されない。また、未知情報があることを判断し、翻訳結果を出力する際に第二話者向けに補足情報を提示する対象を、一方の話者ではなく、両方の話者とすることも可能である。
【0021】
最初に、図3を参照しながら、本実施形態の接客支援装置(対話支援装置)の利用シチュエーションの例を示す。
【0022】
まず、STEP−C1において、第二話者(接客者)が、英語により、注文を聞くための内容(例えば、“Are you ready to order?”)を発話する。すると、STEP−C2において、接客支援装置が、その内容を日本語に翻訳し、その翻訳内容(例えば、「ご注文はお決まりですか?」)を提示(発声及び/又は表示)する。
【0023】
STEP−C3において、上記翻訳内容を聞いた及び又は読んだ第一話者(客)が、日本語により、お勧め料理を尋ねるための内容(例えば、「お勧めの料理は何ですか?」)を発話する。すると、STEP−C4において、接客支援装置が、その内容を英語に翻訳し、その翻訳内容(例えば、“Which one do you recommend?”)を提示(発声及び/又は表示)する。
【0024】
STEP−C5において、上記翻訳内容を聞いた及び又は読んだ第二話者が、英語により、お勧め料理を答えるための内容(例えば、“I recommend Wiener Schnizel.”)を発話する。すると、STEP−C6において、接客支援装置が、その内容を日本語に翻訳し、その翻訳内容(例えば、「ウィンナーシュニッチェルがおすすめです。」)を提示(発声及び/又は表示)する。
【0025】
ここで、更に、本実施形態の接客支援装置は、詳しくは後述するように補足情報の提示の要否を判定しており、補足情報の提示が必要であると判断したとすると、この例において、例えば、STEP−C7において、補足情報(この例の場合、第一話者(客)に対応する日本語により、例えば「ウィンナーシュニッチェルは、ウィーン風カツレツで、オーストリアの代表的な料理です。」)を提示(発声及び/又は表示)する。
【0026】
図1に、本実施形態の接客支援装置の機能構成例を示す。
【0027】
図1に示されるように、本実施形態の接客支援装置は、入力部101、音声認識部102、機械翻訳部103、発話行為推定部104、提示要否判定部105、提示候補生成部106、候補選択部107、提示部108を含む。
【0028】
入力部101は、第一話者が発した第一言語による音声と、第二話者が発した第二言語による音声を受け付ける。入力部101は、例えば、マイクロフォンを用いて、音声を入力し、これをデジタイズして、音声認識部102に渡しても良い。
【0029】
音声認識部102は、第一言語又は第二言語である入力言語による音声情報を認識し、その入力言語によるテキスト情報(翻訳前テキスト)に変換する。
【0030】
機械翻訳部103は、上記テキスト情報をもとに、その入力言語(第一言語又は第二言語)から他方の言語(第二言語又は第一言語)へ翻訳したテキスト(翻訳テキスト)を生成する。
【0031】
発話行為推定部104は、翻訳テキスト及び/又は翻訳前テキストから、発話行為を推定する。
【0032】
対話履歴データベース121は、音声認識部102で得られる翻訳前テキストによる対話履歴と、機械翻訳部103で得られる翻訳テキストによる対話履歴とを保存するためのデータベースであるである。対話履歴データベース121に、更に、発話行為推定部104で推定された発話行為による対話履歴を保存しても良い。
【0033】
対話履歴データベース121は、候補選択部107が、候補選択時に参照する。
【0034】
補足情報提示要否データベース122は、補足情報を提示するかどうかを判定するために使用する情報を格納するためのデータベースであるである。
【0035】
提示要否判定部105は、推定された発話行為から、第一話者にとっての未知情報が存在し、かつ、その未知情報に対する補足情報を提示するかどうかについて、判定する。
【0036】
補足説明データベース123は、提示すべき補足情報の候補(提示候補)を生成する際に使用する知識情報(補足説明)を格納するためのデータベースである。
【0037】
提示候補生成部106は、提示要否判定部105により補足情報の提示が必要であると判定された場合に、補足説明データベース123を参照して、補足情報(あるいは、補足説明)の候補を生成(あるいは、取得)する。
【0038】
候補選択部107は、生成(あるいは、取得)された補足情報(あるいは、補足説明)の候補のうちから、提示すべきもの(あるいは、提示のために使用すべきもの)を選択する。その際、候補選択部107は、対話履歴データベース121を参照して、選択を行う。
【0039】
提示部108は、翻訳結果を提示するととともに、補足情報を、所定のタイミングで提示する。提示部108は、例えば、翻訳結果と補足情報を、聴覚的に提示(例えば、スピーカから発声)しても良いし、それと共に又はその代わりに、視覚的に提示(例えば、液晶ディスプレイ等の表示画面に表示)しても良い。なお、翻訳結果と補足情報で同一の提示方法を使用しても良いし、補足情報を、翻訳結果とは異なる方法で提示しても良い。例えば、翻訳結果と補足情報を、いずれも、視聴覚的に提示しても良いし、翻訳結果は聴覚的にのみ表示し、補足情報は視覚的にのみ提示しても良いし、それら以外の提示方法も可能である。
【0040】
また、提示部108は、翻訳結果を視覚的に表示する場合に、翻訳前テキストも併せて視覚的に表示するようにしても良い。
【0041】
さらに、提示部108は、補足情報を提示するにあたって、補足情報の提示であることをユーザ知らしめるために、音を鳴らす、表示を点滅させる、装置を振動させるなどの処理を行っても良い。
【0042】
なお、本実施形態では、補足情報を、客向けに第一言語で提示する例を中心に説明しているが、補足情報を、接客者向けに第二言語で提示すること、両者向けに第一言語及び第二言語で提示することを可能にしても良く、これらの場合に、客向けの補足情報を聴覚的に提示するときであっても、接客者のみに向けた補足情報は、客に聞こえないように、視覚的に提示するようにしても良い。
【0043】
図2に、本実施形態の全体的な処理手順の一例を示す。
【0044】
ユーザが会話を行うと、いずれの話者の音声も入力部101に入り(ステップS1)、音声認識部102による音声認識(ステップS2)、機械翻訳部103による機械翻訳(ステップS3)が順次行われる。なお、例えば、ステップS3以降の適当なタイミングで(例えば、ステップS3の直後で)、提示部108において機械翻訳結果を提示しても良い。
【0045】
更に、発話行為推定部104による発話行為の推定(ステップS4)、提示要否判定部105による補足情報の提示要否判定(ステップS4)が順次行われる。
【0046】
提示が必要と判定された場合には(ステップS5)、提示候補生成部106により、補足情報の候補(提示候補)の生成(ステップS6)が行われ、次いで、候補選択部107により、提示候補の中から提示に使用する1以上の提示候補を選択する(ステップS7)。なお、提示候補をそのまま補足情報としても良いし、ステップS7において、候補選択部107により、提示候補をもとに説明文を生成して、これを補足情報としても良い。そして、提示部108において、適切なタイミングで、補足情報を提示する(ステップS8)。そして、ステップS1に戻って、一連の処理を繰り返す。
【0047】
一方、提示が不要と判定された場合には(ステップS5)、ステップS6〜8をスキップして、ステップS1に戻って、一連の処理を繰り返す。
【0048】
以下、図4〜図13を参照しながら、各構成の処理例についてより詳しく説明する。
【0049】
(音声認識部102)
図4に、音声認識部102の処理の例を示す。
【0050】
ステップS11において、入力部1において受け付けられた音声を、入力部1から入力する。
【0051】
ステップS12において、入力音声を、音声認識を行うことによって、テキスト化する(翻訳前テキストを生成する)。
【0052】
ステップS13において、翻訳前テキストを出力する。
【0053】
なお、音声認識時に言語判定を必要とする場合には、図5に示すように、音声認識部102は、ステップS14において、言語判定を行う。言語判定では、入力音声から、直接、言語を特定する処理を行っても良いし、その代わりに、例えば、予め接客者(店員)とその声の特徴と使用する言語との対応を設定しておき、入力音声の特徴から話者が接客者か否かを判定することによって、接客者に対応する言語か否かを判定するようにしても良い。あるいは、発話内容から抽出される特徴などを使用しても良い。あるいは、ユーザ自身が、発話と同時に又は発話の前若しくは後に、ボタン等により言語選択を指示しても良い。あるいは、入力部101において、話者ごとに専用のマイクロフォンを用意し、マイクロフォンと言語との対応を設定しておき、音声が、いずれのマイクロフォンから入力されたかによって、話者と言語を特定する方法も可能である。また、発話される方向と話者とを対応付けておき、発話される方向を推定し、その推定結果によって話者を特定しても良い。また、第一話者と第二話者のボタンを用意し、話者がボタンを押して、選択しても良い。その際、例えば、第一話者/第二話者が選択されて、音声が入力されたときに、自動的に第二話者/第一話者が選択された状態にすることによって、交互に発話する場合のボタン操作を不要とし、同じ話者が続けて発話するときにのみ、その話者のボタンを押すようにしても良い。また、これらの他にも、言語を特定又は指定する様々な方法が可能である。なお、この場合、ステップS12では、ステップS14における言語判定の結果に従って、音声認識、テキスト化を行う。
【0054】
(機械翻訳部103)
図6に、機械翻訳部103の処理の例を示す。
【0055】
ステップS21おいて、音声認識部102によりテキスト化された翻訳前テキストを、入力する。
【0056】
ステップS22おいて、入力テキストの言語判定を行う。
【0057】
音声認識部102において言語判定が行われない場合に、言語判定は、上記した音声認識部102における言語判定と同様でも良い。その代わりに、例えば、翻訳前テキストから、言語判定を行っても良い。
【0058】
音声認識部102において言語判定が行われる場合に、言語判定は、音声認識部102による言語判定結果を利用して、ステップS22を省略しても良いし、ステップS22で独自に言語判定を行っても良い。
【0059】
ここで、入力された言語が第一言語である場合、ステップS23において、第一言語から第二言語への翻訳を行い、ステップS24において、第二言語のテキスト(翻訳テキスト)を出力する。
【0060】
一方、入力された言語が第二言語である場合、ステップS23において、第二言語から第一言語への翻訳を行い、ステップS24において、第一言語のテキスト(翻訳テキスト)を出力する。
【0061】
例えば、ステップS22において、入力言語が日本語であるか英語であるかを判定し、かりに英語と判定したならば、入力テキストを、英語から日本語へ翻訳し、日本語の翻訳テキストを出力する。
【0062】
(発話行為推定部104)
図7は、発話行為推定部104の処理の例を示す。
【0063】
発話行為推定部104は、発話行為推定の処理(ステップS32)においては、常に翻訳後のテキストを使って両言語に対して判定できるようにしても良いし、機械翻訳部103のステップS22の言語判定の判定結果又は音声認識部102のステップS14の言語判定の判定結果を利用して、翻訳前か翻訳後を選択し、常に同一言語に対して推定するようにしても良い。
【0064】
ここでは、常に第二言語でテキスト入力される場合を例示する。
【0065】
ステップS31において、翻訳前または翻訳後の第二言語のテキスト(すなわち、第一話者に係る翻訳テキストまたは第二話者に係る翻訳前テキスト)が入力される。
【0066】
ステップS32において、ステップ402で得られたテキストを用いて、発話行為タグの推定を行う。
【0067】
なお、発話行為タグの推定時に、対話履歴を使って、前の発話も考慮するようにしても良い。すなわち、ステップS31において、対話履歴データベース121にある履歴情報(発話内容と話者タグ)も併せて入力し、ステップS32において、ステップ402で得られたテキストと、上記履歴情報(発話内容と話者タグ)を用いて、発話行為タグの推定を行っても良い。
【0068】
ステップS33において、発話行為タグ推定結果として得られた発話行為タグを出力する。
【0069】
図8に、発話行為タグの例を示す。この例では、「挨拶」「謝辞・謝罪」「相槌」「応答」「質問」「提案」「情報伝達」「要求」といった発話行為タグが定義されている。
【0070】
発話行為の推定には、機械学習などの統計的手法を用いて行う方法、手掛り表現などからルールで推定する方法など、種々の方法が利用できる。例えば、「ウィンナーシュニッチェルはいかがですか?」という入力であれば、発話行為タグ=「提案」、「はい」という入力であれば、発話行為タグ=「応答」、「ウィンナーシュニッチェルを1つ」という入力であれば、発話行為タグ=「依頼」、「ウィンナーシュニッチェルというのはどんな料理ですか?」であれば、発話行為タグ=「質問」のように、発話行為タグを推定することができる。
【0071】
(提示要否判定部105)
図9に、提示要否判定部105の処理の例を示す。
【0072】
ステップS41において、発話行為推定部104により出力された発話行為タグと、機械翻訳部103のステップS22の言語判定の判定結果または音声認識部102のステップS14の言語判定の判定結果とを使用して、話者判定を行う。
【0073】
例えば、第一話者が客であり、第二話者が接客者である場合に、事前に接客者の言語である英語が第二言語であると設定しておけば、言語判定結果を利用して言語が第二言語であれば第二話者である接客者が話者タグとして得られる。
【0074】
なお、その代わりに、例えば、予め接客者(店員)とその声の特徴との対応を設定しておき、入力音声の特徴から、話者が接客者か否かを判定するようにしても良い。
【0075】
また、前述したように、音声認識部102または機械翻訳部103において、言語判定のために話者判定を行っている場合には、その結果を利用しても良い。
【0076】
次に、ステップS42において、発話行為タグと話者タグが入力され、ステップS43において、入力された発話行為タグと話者タグの組み合わせを使用して、補足情報提示要否データベース122を参照する。
【0077】
図10に、補足情報提示要否データベース122の例を示す。この例では、「話者タグ」、「発話行為タグ」、「提示要否」の3つ組データが複数定義されており、「話者タグ」と「発話行為タグ」の組み合わせに対応する「提示要否」欄の内容を参照することによって、要否判定が可能になる。なお、この例では、便宜上、「提示が必要」を○で、「提示が不要」を×で示している。
【0078】
さらに、各条件に対して、補足情報を提示する提示タイミングを合わせて記述しても良い。提示タイミングを記述する場合には、「提示タイミング」欄の内容に従って、補足情報を提示することになり、提示タイミングを記述しない場合には、予め定められたタイミングで(例えば、直ちに、あるいは、接客者の次の発言の後で、など)補足情報を提示することになる。
【0079】
なお、本実施形態では、補足情報は第一話者の使用する第一言語で提示される場合を例にとって説明しているが、各条件に対して、補足情報を提示する際に使用する言語を記載する欄を設けても良い。この場合には、「言語」欄に記載された言語で補足情報を提示することになる。これによって、例えば、補足情報を、客向けに第一言語で提示することと、補足情報を、接客者向けに第二言語で提示することを指示できるようになる。また、この場合に、「言語」欄には、第一言語又は第二言語を記載するようにしても良い。さらに、「言語」欄に、第一言語と第二言語の両方を記載することを、可能にしても良い。
【0080】
図10の例の場合、ステップS43では、ステップS42で入力された「発話行為タグ」と「話者タグ」の組み合わせに対応する「提示要否」欄の内容(「提示タイミング」欄を設ける場合には、「提示要否」欄の内容及び「提示タイミング」欄の内容)を取得する。
【0081】
ステップS44において、補足情報提示要否データベース122上で、ステップS42で入力された「発話行為タグ」と「話者タグ」の組み合わせに対応する「提示要否」欄の内容が、「提示が必要」に該当するかを判定する。
【0082】
「提示が必要」と判定された場合には、ステップS45において、提示要求を出し、提示が不要と判定された場合には、ステップS46において、非提示要求を出す。
【0083】
「提示タイミング」欄を設ける場合に、「提示タイミング」欄の内容は、提示要求に付加するなどして、提示候補生成部106と候補選択部107を介して、提示部108に伝えても良いし、あるいは、「提示タイミング」欄の内容を提示部108に(候補選択部107が「提示タイミング」欄の内容を使用する場合には、候補選択部107にも)直接伝えるようにしても良い。
【0084】
なお、「提示タイミング」欄を設ける場合に、「提示タイミング」欄の内容は、ステップS44において、「提示が必要」に該当すると判定されたときのみ、ステップS46の前に取得するようにしても良い。
【0085】
(提示候補生成部106)
図11に、提示候補生成部106の処理の例を示す。
【0086】
提示要否判定部105により提示要求が出力された場合にのみ、提示候補生成部106の処理を行う。
【0087】
提示候補生成部106は、提示候補生成の処理(ステップS52)においては、常に翻訳後のテキストを使って両言語に対して判定できるようにしても良いし、機械翻訳部103のステップS22の言語判定の判定結果または音声認識部102のステップS14の言語判定の判定結果を利用して、翻訳前か翻訳後を選択し、常に同一言語で判定できるようにしても良い。ここでは、常に第二言語でテキスト入力される場合を例示する。
【0088】
ステップS51において、翻訳前または翻訳後の第二言語のテキスト(すなわち、第一話者に係る翻訳テキストまたは第二話者に係る翻訳前テキスト)が入力される。
【0089】
次に、ステップS52において、テキストから、キーワードを抽出する。
【0090】
ステップS53において、ステップS52で抽出された各キーワードについて、それが補足説明データベース123上に存在するかを確認する。あるキーワードについて、補足説明データベース123上に1つ以上のキーワードの補足説明が登録されている場合には、ステップS54において、当該補足説明を出力する。一方、あるキーワードについて、1つもキーワードが登録されていない場合には、ステップS55において、nullを出力する。
【0091】
図12に、補足説明データベース123の例を示す。補足説明データベース123には、索引付けされたキーワードである「単語」欄、補足説明に関する言語情報を示す「言語」欄、複数の補足説明間の優先度を示す「優先度」欄、各言語に対応して与えられる「補足説明」欄の項目がある。この具体例では、接客者が使用する第二言語である英語の“Wiener Schnitzel”を、日本語、イタリア語などを使用する客にとって、未知情報であるものとしてキーワード登録している。なお、図12の例では、「優先度」欄に記載されている数値が低い程、優先度が高いものとする。
【0092】
例えば、図12の具体例において、ステップS51のテキスト入力が常に第二言語の場合に、ステップS52でキーワードとして“Wiener Schnitzel”が得られたとき、ステップS54では、「ウィーン風カツレツ」「油で揚げた牛肉」「オーストリアの代表的な料理」の3つの補足説明を出力する。
【0093】
(候補選択部107)
図13に、候補選択部107の処理の例を示す。
【0094】
ステップS61において、提示候補生成部106により出力された補足説明を、提示候補として入力する。
【0095】
ステップS62において、複数の補足情報のうちから、提示すべき1以上の補足情報を選択する。
【0096】
候補選択の際には、対話履歴データベース121の情報(例えば、発話内容のみ、あるいは、発話内容と話者タグ)を調べて、既に発話された内容と類似する補足説明を除いた補足説明を選択するのが望ましい。あるいは、対話履歴データベース121の情報から話者タグと発話行為タグの組み合わせにより既知情報を判定して、既知情報と類似する補足説明を除いた補足説明を選択しても良い。例えば、ある対話履歴において、話者タグ=「客」であり、「ウィンナーシュニッチェルが食べたいんですが、…」のような内容であり、発話行為タグ=「願望」である場合には、ウィンナーシュニッチェルについては知っているはずなので、図12のJP−3(日本語、優先度3)の「オーストリアの代表的な料理」のような一般的な知識による補足説明を選択しない、といった判断をしても良い。
【0097】
この選択にあたっては、例えば、優先度の高いものから順に、予め定められた個数(例えば、1つ、2つ、など)の補足説明を選択しても良い。
【0098】
また、この選択にあたっては、「提示タイミング」欄の内容を考慮しても良い。例えば、提示タイミングが「判定直後」であれば、一番優先度の高い補足説明を選択しても良い。あるいは、例えば、提示タイミングが「次発話の直後」であれば、次発話で使われた発話内容と類似する補足説明を除いた補足説明を選択するなどしても良い。
【0099】
ステップS63において、選択された1つ以上の補足説明から、補足情報(ここでは、説明文とする)を生成する。
【0100】
ステップS64において、生成された説明文を出力する。
【0101】
例えば、「ウィンナーシュニッチェルはどんな料理ですか?」と客が質問した場合、話者タグ=「客」であり、発話行為タグ=「質問」であるので、「接客者の回答後」に補足説明あるいは補足説明をもとに生成された説明文を提示することが予定される。そこで、接客者が「ウィンナーシュニッチェルは油であげた牛肉です」と回答した場合、補足説明データベース123のうち、JP−2(日本語、優先度2)の補足説明が回答されてしまったため、これを補足説明から除いて、例えば、JP−2(日本語、優先度2)の補足説明とJP−3(日本語、優先度3)の補足説明から、「ウィーン風カツレツで、オーストリアの代表的な料理です」のような説明文を生成して出力するようにしても良い。
【0102】
また、例えば「ウィンナーシュニッチェルはいかがですか?」と接客者が提案した場合、話者タグ=「接客者」であり、発話行為タグ=「提案」であるので、「接客者の発話直後」に補足情報(説明文)を提示することになる。このとき、優先度の高い2つの補足説明(JP−1とJP−2)を使用して、「ウィーン風カツレツで、油であげた牛肉になります」のような補足説明を生成して出力するようにしても良い。
【0103】
あるいは、話者タグ=「接客者」であり、発話行為タグ=「提案」であるようなときには、具体的な調理法などが出ないようにするように、補足説明データベース123で発話行為タグ及び/又は接客者タグごとの優先度を付けても良い。
【0104】
なお、選択された補足説明をそのまま補足情報としても良い。
【0105】
(提示部108)
提示部108は、前述したように、少なくとも補足情報を所定のタイミングで提示する。
【0106】
図14に、本実施形態の接客支援装置の動作例を示す。
【0107】
客が日本語で「ウィンナーシュニッチェルって何ですか?」と質問すると、その英語による翻訳結果が得られ、これが提示される。
【0108】
ここで、話者タグ=「客」であり、発話行為タグ=「質問」であるので、「接客者の回答後」のタイミングで補足情報を提示することになる。補足説明は、例えば、JP−1(日本語、優先度1)の補足説明「ウィーン風カツレツ」が選択される。
【0109】
上記質問に対して、接客者が「油であげた牛肉です。」と回答すると、その日本語による翻訳結果が得られ、これが提示される。また、このタイミングで、例えば「ウィーン風カツレツです。」のような説明文が補足情報として提示される。
【0110】
図15に、本実施形態の接客支援装置を使用した対話例と補足説明の例を示す。
【0111】
対話例1では、客が「今日のお勧めコースの内容は何ですか?」と質問したとすると、話者タグ=「客」かつ発話行為タグ=「質問」であることから、提示要求が出されるが、補足説明データベースに登録されているキーワードが存在せず、結局、補足情報の提示はない。
【0112】
次に、接客者が「○○○○、ウィンナーシュニッチェル、○○○○です。」と回答したとすると、話者タグ=「接客者」かつ発話行為タグ=「回答」であることから、提示要求が出される。また、提示タイミングは、例えば「接客者の発話直後」となる。そして、補足説明データベースに登録されているキーワード=ウィンナーシュニッチェルが存在し、現在、「接客者の発話直後」であるので、このタイミングで、例えば「ウィンナーシュニッチェルは、ウィーン風カツレツです。」のような説明文が補足情報として提示される。
【0113】
対話例2では、客が「ウィンナーシュニッチェルって何ですか?」と質問したとすると、話者タグ=「客」かつ発話行為タグ=「質問」であることから、提示要求が出される。また、提示タイミングは、例えば「接客者の回答後」となる。そして、補足説明データベースに登録されているキーワード=ウィンナーシュニッチェルが存在し、説明文を補足情報として提示することになる。
【0114】
ここで、接客者が「当店のシュニッチェルは牛肉を油で揚げたものです。」と回答したとする。この場合、JP−2(日本語、優先度2)の補足説明「油であげた牛肉」に類似する内容が発話されたので、これを候補から除外し、例えば、JP−1(日本語、優先度1)の補足説明「ウィーン風カツレツ」が選択される。そして、現在、「接客者の回答後」であるので、このタイミングで、例えば「いわゆるウィーン風カツレツです。」のような説明文が補足情報として提示される。
【0115】
以上では、{第一話者=客=第一言語=日本語、第二話者=接客者=第二言語=英語}の組み合わせを例にとって説明したが、これに制限されない。他の如何なる組み合わせも可能である。例えば、{第一話者=客=第一言語=英語、第二話者=接客者=第二言語=日本語}であっても良いし、例えば、日本語と中国語の組み合わせ、あるいは、英語と中国語の組み合わせであっても良い。
【0116】
また、言語の組み合わせは、予め2つの言語に固定されていても良いし、3以上の言語からユーザが自由に選択できるようにしても良い。また、客と接客者の一方又は両方の言語が予め1つの言語に固定されていても良いし、ユーザが自由に選択できるようにしても良い。
【0117】
また、第一話者が接客者であり、第二話者が客であっても良い。さらに、2名の話者が接客者−客という関係でなくても良い。
【0118】
また、以上では、未知情報があることを判断して補足情報を提示する対象を、第一話者としたが、第二話者とすることも、両方の話者とすることも可能である。また、第一話者を対象にするか、第二話者を対象にするか、両方の話者を対象にするかについて、予め固定されていても良いし、ユーザが自由に選択できるようにしても良い。
【0119】
以上のように、本実施形態によれば、話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援することが可能になる。
【0120】
(第1の変形例)
図16に、ボタンにより言語選択を行う場合の構成例を示す。この場合、これまで説明した構成において、入力部101の前に、言語選択入力部111を設け、言語選択入力部111により入力する言語を指定あるいは選択する。
【0121】
(第2の変形例)
図17に、提示内容判定する場合の構成例を示す。この場合、提示要否判定部105の代わりに提示内容判定部112を設ける。また、補足説明データベース123に加えて、所定数の他のデータベースを設ける。ここでは、一例として、たとえば各料理に関する推奨情報を保持する商品情報データベース125と、たとえば各料理の残り数のような管理情報を保持する管理情報データベース126を設けるものとする。
【0122】
また、補足情報提示要否データベース122の代わりに補足情報提示内容データベース124を使用する。
【0123】
図18に、補足情報提示内容データベース124の例を示す。補足情報提示内容データベース124が、補足情報提示要否データベース122と相違する点は、「表示要否」欄の代わりに、「参照データベース」欄を有する点である。「参照データベース」には、提示要否ではなく、参照すべきデータベースが記載される。例えば、DB1は補足説明データベース123を示し、DB2は商品情報データベース125を示し、DB3は管理情報データベース126を示す。なお、必ず「参照データベース」欄にいずれかのデータベースを記載するようにしても良いし、「参照データベース」欄を空欄にする(すなわち、空欄は、提示が不要であることを示す)ことを、可能にしても良い。
【0124】
本実施形態では、提示内容判定部112は、「参照データベース」欄の内容によって、参照すべきデータベースを特定する。なお、「参照データベース」欄を空欄にすることを、可能にする場合には、提示内容判定部112は、提示の要否及び提示が必要である場合において参照すべきデータベースを特定する。
【0125】
図19に、本実施形態における対話例を示す。客の質問あるいは接客者の提案の際には、補足情報を提示する点は上述のシステムと同様である。(a)の客の質問「ウィンナーシュニッチェルって何ですか?」と、(b)の接客者の提案「ウィンナーシュニッチェルはいかがでしょうか?」は、補足説明データベース123を参照するので、いずれも、第1の実施形態と同様の結果になる。
【0126】
これらに対して、(c)のように客が「ウィンナーシュニッチェルをお願いします。」と要求をした場合には、管理情報データベース126を参照することになる。たとえば、管理情報データベース126には、各料理ごとの残り数が保持されており、ウィンナーシュニッチェルに対応する残り数を検索して、例えば「残り1人前」のような補足情報を提示し、既に売切れてしまった料理の注文を受けないようにしても良い。その際、補足情報提示内容データベース124に「言語」として第二言語が指示されている場合に、例えば「残り1人前」のような補足情報を接客者向けに第二言語で提示するようにしても良い。
【0127】
また、(d)のように接客者が「ウィンナーシュニッチェルですね。」と確認をした場合には、商品情報データベース125を参照することになり、たとえば、接客者向け及び/又は客向けに、さらに追加で頼むと良いお勧め情報(例えばウィンナーシュニッチェルに合うお勧めワインリストのような情報)のような補足情報を提示するようにしても良い。
【0128】
なお、ここで説明した各種データベースは一例であり、様々なデータベースを利用して補足情報を生成し、提示することが可能である。
【0129】
なお、第1の実施形態における第1の変形例と第2の変形例の一方又は両方を、第2の実施形態に組み合わせて実施することが可能である。
【0130】
(第2の実施形態)
以下では、第2の実施形態について、第1の実施形態と相違する点を中心に説明する。
【0131】
第1の実施形態は、異なる言語を使用する話者の対話に機械翻訳を利用する際に、補足説明を提示するものであったが、第2の実施形態は、背景知識の異なる話者が、機械翻訳を利用せず、同一の言語で対話をする際に、補足説明を提示するものである。
【0132】
図20に、本実施形態の接客支援装置の機能構成例を示す。
【0133】
図20に示されるように、本実施形態の接客支援装置は、入力部101、音声認識部102、話者特定部1103、発話行為推定部104、提示要否判定部105、提示候補生成部106、候補選択部107、提示部108を含む。すなわち、図1の構成例において、機械翻訳部103の代わりに話者特定部1103を有するものである。
【0134】
入力部101は、特定の言語(例えば、日本語、英語など、両話者に共通の言語)により、第一話者による音声と、第二話者による音声とを受け付ける。
【0135】
音声認識部102は、特定の言語により、音声情報を認識し、テキスト情報に変換する。
【0136】
話者特定部1103は、話者を特定する。
【0137】
話者特定部1103は、第1の実施形態で例示した話者特定方法(言語により話者を特定するものを除く)を使用しても良いし、他のどのような方法でも良い。
【0138】
なお、音声認識部102が話者を特定する機能を有する場合には、音声認識部102が有する話者特定機能を、話者特定部1103としても良い。
【0139】
発話行為推定部104は、テキスト情報から発話行為を推定する。
【0140】
対話履歴データベース121は、次の点以外、第1の実施形態と同様である。本実施形態では、両話者が共通の言語を使用し、機械翻訳を行わないので、機械翻訳部で得られる翻訳テキストによる対話履歴を保存しない。
【0141】
補足情報提示要否データベース122は、第1の実施形態と同様である。
【0142】
提示要否判定部105は、第1の実施形態と同様である。また、本実施形態では、話者特定部1103により話者特定結果を利用することができる。
【0143】
補足説明データベース123は、次の点以外、第1の実施形態と同様である。本実施形態では、両話者が共通の言語を使用し、機械翻訳を行わないので、「言語」欄は不要であり、「単語」欄と「補足説明」欄には同一の言語が使用される。
【0144】
提示候補生成部106は、第1の実施形態と同様である。
【0145】
候補選択部107は、第1の実施形態と同様である。
【0146】
提示部108は、第1の実施形態と同様である。ただし、本実施形態では、翻訳テキストを提示することはない。また、提示部108は、補足情報のみを提示するようにしても良い。
【0147】
図21に、本実施形態の全体的な処理手順の一例を示す。
【0148】
ユーザが会話を行うと、いずれの話者の音声も入力部101に入り(ステップS101)、音声認識部102による音声認識(ステップS102)、話者特定部1103による話者の特定(ステップS103)が順次行われる。
【0149】
更に、発話行為推定部104による発話行為の推定(ステップS104)、提示要否判定部105による補足情報の提示要否判定(ステップS104)が順次行われる。
【0150】
提示が必要と判定された場合には(ステップS105)、提示候補生成部106により、補足情報の候補(提示候補)の生成(ステップS106)が行われ、次いで、候補選択部107により、提示候補の中から提示に使用する1以上の提示候補を選択する(ステップS107)。なお、提示候補をそのまま補足情報としても良いし、ステップS107において、候補選択部107により、提示候補をもとに説明文を生成して、これを補足情報としても良い。そして、提示部108において、適切なタイミングで、補足情報を提示する(ステップS108)。そして、ステップS101に戻って、一連の処理を繰り返す。
【0151】
一方、提示が不要と判定された場合には(ステップS105)、ステップS106〜108をスキップして、ステップS101に戻って、一連の処理を繰り返す。
【0152】
図20及び図21を参照して説明した構成に、更に、第1の実施形態で説明した第1の変形例と第2の変形例の一方又は両方を組み合わせて実施することも可能である。
【0153】
なお、第2の変形例を適用する場合に、補足情報提示内容データベース124は、第1の実施形態と同様で構わない。
【0154】
なお、以上の各実施形態又は各変形例で説明したデータベースは、例えば、対話支援装置の内部に存在しても良い。あるいは、一部又は全部のデータベースが、例えばLAN等のネットワーク上に存在し、対話支援装置が該ネットワークを介してデータベースから情報を取得するようにしても良い。
【0155】
また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の対話支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の対話支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
【0156】
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
【0157】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0158】
101…入力部、102…音声認識部、103…機械翻訳部、104…発話行為推定部、105…提示要否判定部、106…提示候補生成部、107…候補選択部、108…提示部、111…言語選択入力部、112…提示内容判定部、1103…話者特定部、121…対話履歴データベース、122…補足情報提示要否データベース、123…補足説明データベース、124…補足情報提示内容データベース、125…管理情報データベース、商品情報データベース126。
【技術分野】
【0001】
本発明の実施形態は、対話支援装置、方法及びプログラムに関する。
【背景技術】
【0002】
近年、音声による機械翻訳器が登場し、知らない言語の相手と会話することが可能になってきた。しかし、入力された情報を正しく翻訳しさえすれば、その情報について、その情報を発した元の話者と同様の理解を、もう一方の話者が得られるとは限らない。例えば、地名又は料理名などのような名称(固有表現)等の中には、元の話者の文化圏又は国等では一般に良く知られているが、もう一方の話者の文化圏等では一般に良く知られていないようなものも多く存在し、たとえ元の話者が発した名称等が訳語に翻訳されたとしても、もう一方の話者は、知識がないために、その訳語を理解できないことがある。
【0003】
また、ある名称等について、それを理解する人(例えば、その名称等が一般的であるような文化圏等の人)が丁寧に説明したつもりでも、話者の間で、背景知識が大きく異なるため、同様のイメージが伝わらない場合がある。例えば、レストランにおいて料理名からその内容が分からないために、説明を求めて説明を受けた場合に、文化圏等によって一般的な調理法が異なるなどの前提知識の相違によって、実際にはイメージが正しく伝わっておらず、結局、実際に食べるまではどのような料理かが分からないということがある。
【0004】
説明する人が、聞き手の文化圏等を考慮して、聞き手の文化圏における類似する料理又は調理法に喩えること又は違いを説明することによって、説明することができれば、聞き手もイメージしやすい。しかしながら、説明する人が、聞き手の文化圏等に関する知識を持たない場合も多く、そのような場合には、喩えること又は違いを説明することが難しい。
【0005】
これは、背景知識の異なる話者が、同じ言語で会話をする場合にも、同様に生じ得る。
【0006】
従来、翻訳をする際に、特定の固有名詞については、その訳語に必ず補足情報を付加して出力するシステムが知られている。しかし、音声による対話時に、特定の固有表現が出現するごとに常に補足情報が出力されるのでは、かえって煩わしく、スムーズな対話を阻害する。
【0007】
また、ユーザが音声ガイドと対話する際に、音声ガイドがユーザの戸惑いを検出して、戸惑いを解消するための情報を提供するシステムが知られている。しかし、このシステムでは、ユーザが戸惑いを示さない場合には機能せず、また、あらかじめユーザが戸惑わないように音声ガイドが先回りして情報を提供することもできない。さらに、このシステムは、背景知識の異なる人間同士の会話を対象とするものではない。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2004−220416号公報
【特許文献2】特開2000−259177号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援する技術は、知られていなかった。
【0010】
本実施形態は、話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援することの可能な対話支援装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
実施形態によれば、入力部と、音声認識部と、対話履歴データベースと、推定部と、判定部と、生成部と、選択部と、提示部とを備える。入力部は、複数の話者による対話に係る音声を入力する。音声認識部は、入力された前記音声を音声認識して、対応するテキスト情報に変換する。対話履歴データベースは、前記テキスト情報の全部又は一部を対話履歴として記憶する。推定部は、前記テキスト情報に基づいて、発話行為を推定する。判定部は、推定された前記発話行為に基づいて、補足情報を提示するかどうか判定する。生成部は、前記補足情報を提示すると判定された場合に、補足情報の候補を生成する。選択部は、前記対話履歴を利用して、前記補足情報の候補のうちから、提示すべきものを選択する。提示部は、選択された前記補足情報を提示する。
【図面の簡単な説明】
【0012】
【図1】第1の実施形態に係る対話支援装置の構成例を示す図である。
【図2】第1の実施形態に係る対話支援装置の処理手順の一例を示すフローチャートである。
【図3】第1の実施形態に係る対話支援装置の利用シチュエーションを説明するための図である。
【図4】音声認識処理部の処理手順の一例を示すフローチャートである。
【図5】音声認識処理部の処理手順の他の一例を示すフローチャートである。
【図6】機械翻訳部の処理手順の一例を示すフローチャートである。
【図7】発話行為推定部の処理手順の一例を示すフローチャートである。
【図8】発話行為タグの例を示す図である。
【図9】提示要否判定部の処理手順の一例を示すフローチャートである。
【図10】補足情報提示可否データベースの一例を示す図である。
【図11】提示候補生成部の処理手順の一例を示すフローチャートである。
【図12】補足説明データベースの一例を示す図である。
【図13】候補選択部の処理手順の一例を示すフローチャートである。
【図14】第1の実施形態に係る対話支援装置の動作例を説明するための図である。
【図15】対話例を示す図である。
【図16】対話支援装置の他の構成例を示す図である。
【図17】対話支援装置のさらに他の構成例を示す図である。
【図18】補足情報提示内容データベースの例を示す。
【図19】対話例を示す図である。
【図20】第2の実施形態に係る対話支援装置の構成例を示す図である。
【図21】第2の実施形態に係る対話支援装置の処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら本発明の実施形態に係る対話支援装置について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
【0014】
(第1の実施形態)
対話しようとする二人の話者が、共通の言語(自然言語)を使用できない場合(例えば、それらの話者が、いずれも、母国語のみを使用し且つ相手の母国語を理解できない場合、あるいは、それらの話者の一方又は両方は、複数の言語を使用できるが、それらの話者が共通して使用できる言語がない場合など)において、そのような話者の間に翻訳器を介在させることによって、それら話者が異なる言語(例えばそれぞれの母国語等)を使用して対話をすることを支援することができる。しかし、一般に、話者同士の背景知識には差があることも多い。それゆえ、翻訳器が一方の話者により発せられた情報を他方の話者向けに正しく翻訳しさえすれば、一方の話者から他方の話者へ情報が正しく伝わる、ということが必ずしも期待できないことがある。これは、背景知識に差がある二人の話者が、共通の言語で会話をする場合にも、同様に生じ得る。
【0015】
第1の実施形態では、対話に機械翻訳が介在する場合に、対話に応じて知識を補うための情報を提示する場合を例にとって説明する。
【0016】
第1の実施形態において、対話支援装置を利用する二人の話者を、第一話者及び第二話者と呼ぶものとする。
【0017】
以下では、第一話者を客、第二話者を接客者(例えば接客する側である店員等)とし、第一話者が理解及び(音声入力のために)発話する第一言語を日本語とし、第二話者が理解及び(音声入力のために)発話する第二言語を英語とした具体例を使用するものとする。もちろん、本実施形態はこれに制限されるものではなく、第一言語が日本語以外の言語でも可能であり、第二言語が英語以外の言語でも可能である。
【0018】
また、以下では、第一話者をレストランの客、第二話者をレストランの接客者とする場合を例に取って説明する。もちろん、本実施形態はこれに制限されるものではなく、他のサービスを提供する際の異言語間のコミュニケーション、商品を販売する際の異言語間のコミュニケーションなど、異言語間の様々な接客コミュニケーションに適用可能である。
【0019】
また、以下では、対話を支援する対話支援装置として、接客者が客を接客する接客コミュニケーションを支援する接客支援装置を例にとって説明するが、本実施形態は、接客以外の対話にも適用可能である。
【0020】
以下では、第一話者と第二話者が異なる言語を使用して会話する際の対話状態を利用して、一方の話者にとって未知情報があることを判断し、翻訳結果を出力する際に所定のタイミングで該一方の話者向けに補足情報(例えば、説明文)を提示する例を示す。ここでは、一方の話者を第一話者として説明するが、これに制限されない。また、未知情報があることを判断し、翻訳結果を出力する際に第二話者向けに補足情報を提示する対象を、一方の話者ではなく、両方の話者とすることも可能である。
【0021】
最初に、図3を参照しながら、本実施形態の接客支援装置(対話支援装置)の利用シチュエーションの例を示す。
【0022】
まず、STEP−C1において、第二話者(接客者)が、英語により、注文を聞くための内容(例えば、“Are you ready to order?”)を発話する。すると、STEP−C2において、接客支援装置が、その内容を日本語に翻訳し、その翻訳内容(例えば、「ご注文はお決まりですか?」)を提示(発声及び/又は表示)する。
【0023】
STEP−C3において、上記翻訳内容を聞いた及び又は読んだ第一話者(客)が、日本語により、お勧め料理を尋ねるための内容(例えば、「お勧めの料理は何ですか?」)を発話する。すると、STEP−C4において、接客支援装置が、その内容を英語に翻訳し、その翻訳内容(例えば、“Which one do you recommend?”)を提示(発声及び/又は表示)する。
【0024】
STEP−C5において、上記翻訳内容を聞いた及び又は読んだ第二話者が、英語により、お勧め料理を答えるための内容(例えば、“I recommend Wiener Schnizel.”)を発話する。すると、STEP−C6において、接客支援装置が、その内容を日本語に翻訳し、その翻訳内容(例えば、「ウィンナーシュニッチェルがおすすめです。」)を提示(発声及び/又は表示)する。
【0025】
ここで、更に、本実施形態の接客支援装置は、詳しくは後述するように補足情報の提示の要否を判定しており、補足情報の提示が必要であると判断したとすると、この例において、例えば、STEP−C7において、補足情報(この例の場合、第一話者(客)に対応する日本語により、例えば「ウィンナーシュニッチェルは、ウィーン風カツレツで、オーストリアの代表的な料理です。」)を提示(発声及び/又は表示)する。
【0026】
図1に、本実施形態の接客支援装置の機能構成例を示す。
【0027】
図1に示されるように、本実施形態の接客支援装置は、入力部101、音声認識部102、機械翻訳部103、発話行為推定部104、提示要否判定部105、提示候補生成部106、候補選択部107、提示部108を含む。
【0028】
入力部101は、第一話者が発した第一言語による音声と、第二話者が発した第二言語による音声を受け付ける。入力部101は、例えば、マイクロフォンを用いて、音声を入力し、これをデジタイズして、音声認識部102に渡しても良い。
【0029】
音声認識部102は、第一言語又は第二言語である入力言語による音声情報を認識し、その入力言語によるテキスト情報(翻訳前テキスト)に変換する。
【0030】
機械翻訳部103は、上記テキスト情報をもとに、その入力言語(第一言語又は第二言語)から他方の言語(第二言語又は第一言語)へ翻訳したテキスト(翻訳テキスト)を生成する。
【0031】
発話行為推定部104は、翻訳テキスト及び/又は翻訳前テキストから、発話行為を推定する。
【0032】
対話履歴データベース121は、音声認識部102で得られる翻訳前テキストによる対話履歴と、機械翻訳部103で得られる翻訳テキストによる対話履歴とを保存するためのデータベースであるである。対話履歴データベース121に、更に、発話行為推定部104で推定された発話行為による対話履歴を保存しても良い。
【0033】
対話履歴データベース121は、候補選択部107が、候補選択時に参照する。
【0034】
補足情報提示要否データベース122は、補足情報を提示するかどうかを判定するために使用する情報を格納するためのデータベースであるである。
【0035】
提示要否判定部105は、推定された発話行為から、第一話者にとっての未知情報が存在し、かつ、その未知情報に対する補足情報を提示するかどうかについて、判定する。
【0036】
補足説明データベース123は、提示すべき補足情報の候補(提示候補)を生成する際に使用する知識情報(補足説明)を格納するためのデータベースである。
【0037】
提示候補生成部106は、提示要否判定部105により補足情報の提示が必要であると判定された場合に、補足説明データベース123を参照して、補足情報(あるいは、補足説明)の候補を生成(あるいは、取得)する。
【0038】
候補選択部107は、生成(あるいは、取得)された補足情報(あるいは、補足説明)の候補のうちから、提示すべきもの(あるいは、提示のために使用すべきもの)を選択する。その際、候補選択部107は、対話履歴データベース121を参照して、選択を行う。
【0039】
提示部108は、翻訳結果を提示するととともに、補足情報を、所定のタイミングで提示する。提示部108は、例えば、翻訳結果と補足情報を、聴覚的に提示(例えば、スピーカから発声)しても良いし、それと共に又はその代わりに、視覚的に提示(例えば、液晶ディスプレイ等の表示画面に表示)しても良い。なお、翻訳結果と補足情報で同一の提示方法を使用しても良いし、補足情報を、翻訳結果とは異なる方法で提示しても良い。例えば、翻訳結果と補足情報を、いずれも、視聴覚的に提示しても良いし、翻訳結果は聴覚的にのみ表示し、補足情報は視覚的にのみ提示しても良いし、それら以外の提示方法も可能である。
【0040】
また、提示部108は、翻訳結果を視覚的に表示する場合に、翻訳前テキストも併せて視覚的に表示するようにしても良い。
【0041】
さらに、提示部108は、補足情報を提示するにあたって、補足情報の提示であることをユーザ知らしめるために、音を鳴らす、表示を点滅させる、装置を振動させるなどの処理を行っても良い。
【0042】
なお、本実施形態では、補足情報を、客向けに第一言語で提示する例を中心に説明しているが、補足情報を、接客者向けに第二言語で提示すること、両者向けに第一言語及び第二言語で提示することを可能にしても良く、これらの場合に、客向けの補足情報を聴覚的に提示するときであっても、接客者のみに向けた補足情報は、客に聞こえないように、視覚的に提示するようにしても良い。
【0043】
図2に、本実施形態の全体的な処理手順の一例を示す。
【0044】
ユーザが会話を行うと、いずれの話者の音声も入力部101に入り(ステップS1)、音声認識部102による音声認識(ステップS2)、機械翻訳部103による機械翻訳(ステップS3)が順次行われる。なお、例えば、ステップS3以降の適当なタイミングで(例えば、ステップS3の直後で)、提示部108において機械翻訳結果を提示しても良い。
【0045】
更に、発話行為推定部104による発話行為の推定(ステップS4)、提示要否判定部105による補足情報の提示要否判定(ステップS4)が順次行われる。
【0046】
提示が必要と判定された場合には(ステップS5)、提示候補生成部106により、補足情報の候補(提示候補)の生成(ステップS6)が行われ、次いで、候補選択部107により、提示候補の中から提示に使用する1以上の提示候補を選択する(ステップS7)。なお、提示候補をそのまま補足情報としても良いし、ステップS7において、候補選択部107により、提示候補をもとに説明文を生成して、これを補足情報としても良い。そして、提示部108において、適切なタイミングで、補足情報を提示する(ステップS8)。そして、ステップS1に戻って、一連の処理を繰り返す。
【0047】
一方、提示が不要と判定された場合には(ステップS5)、ステップS6〜8をスキップして、ステップS1に戻って、一連の処理を繰り返す。
【0048】
以下、図4〜図13を参照しながら、各構成の処理例についてより詳しく説明する。
【0049】
(音声認識部102)
図4に、音声認識部102の処理の例を示す。
【0050】
ステップS11において、入力部1において受け付けられた音声を、入力部1から入力する。
【0051】
ステップS12において、入力音声を、音声認識を行うことによって、テキスト化する(翻訳前テキストを生成する)。
【0052】
ステップS13において、翻訳前テキストを出力する。
【0053】
なお、音声認識時に言語判定を必要とする場合には、図5に示すように、音声認識部102は、ステップS14において、言語判定を行う。言語判定では、入力音声から、直接、言語を特定する処理を行っても良いし、その代わりに、例えば、予め接客者(店員)とその声の特徴と使用する言語との対応を設定しておき、入力音声の特徴から話者が接客者か否かを判定することによって、接客者に対応する言語か否かを判定するようにしても良い。あるいは、発話内容から抽出される特徴などを使用しても良い。あるいは、ユーザ自身が、発話と同時に又は発話の前若しくは後に、ボタン等により言語選択を指示しても良い。あるいは、入力部101において、話者ごとに専用のマイクロフォンを用意し、マイクロフォンと言語との対応を設定しておき、音声が、いずれのマイクロフォンから入力されたかによって、話者と言語を特定する方法も可能である。また、発話される方向と話者とを対応付けておき、発話される方向を推定し、その推定結果によって話者を特定しても良い。また、第一話者と第二話者のボタンを用意し、話者がボタンを押して、選択しても良い。その際、例えば、第一話者/第二話者が選択されて、音声が入力されたときに、自動的に第二話者/第一話者が選択された状態にすることによって、交互に発話する場合のボタン操作を不要とし、同じ話者が続けて発話するときにのみ、その話者のボタンを押すようにしても良い。また、これらの他にも、言語を特定又は指定する様々な方法が可能である。なお、この場合、ステップS12では、ステップS14における言語判定の結果に従って、音声認識、テキスト化を行う。
【0054】
(機械翻訳部103)
図6に、機械翻訳部103の処理の例を示す。
【0055】
ステップS21おいて、音声認識部102によりテキスト化された翻訳前テキストを、入力する。
【0056】
ステップS22おいて、入力テキストの言語判定を行う。
【0057】
音声認識部102において言語判定が行われない場合に、言語判定は、上記した音声認識部102における言語判定と同様でも良い。その代わりに、例えば、翻訳前テキストから、言語判定を行っても良い。
【0058】
音声認識部102において言語判定が行われる場合に、言語判定は、音声認識部102による言語判定結果を利用して、ステップS22を省略しても良いし、ステップS22で独自に言語判定を行っても良い。
【0059】
ここで、入力された言語が第一言語である場合、ステップS23において、第一言語から第二言語への翻訳を行い、ステップS24において、第二言語のテキスト(翻訳テキスト)を出力する。
【0060】
一方、入力された言語が第二言語である場合、ステップS23において、第二言語から第一言語への翻訳を行い、ステップS24において、第一言語のテキスト(翻訳テキスト)を出力する。
【0061】
例えば、ステップS22において、入力言語が日本語であるか英語であるかを判定し、かりに英語と判定したならば、入力テキストを、英語から日本語へ翻訳し、日本語の翻訳テキストを出力する。
【0062】
(発話行為推定部104)
図7は、発話行為推定部104の処理の例を示す。
【0063】
発話行為推定部104は、発話行為推定の処理(ステップS32)においては、常に翻訳後のテキストを使って両言語に対して判定できるようにしても良いし、機械翻訳部103のステップS22の言語判定の判定結果又は音声認識部102のステップS14の言語判定の判定結果を利用して、翻訳前か翻訳後を選択し、常に同一言語に対して推定するようにしても良い。
【0064】
ここでは、常に第二言語でテキスト入力される場合を例示する。
【0065】
ステップS31において、翻訳前または翻訳後の第二言語のテキスト(すなわち、第一話者に係る翻訳テキストまたは第二話者に係る翻訳前テキスト)が入力される。
【0066】
ステップS32において、ステップ402で得られたテキストを用いて、発話行為タグの推定を行う。
【0067】
なお、発話行為タグの推定時に、対話履歴を使って、前の発話も考慮するようにしても良い。すなわち、ステップS31において、対話履歴データベース121にある履歴情報(発話内容と話者タグ)も併せて入力し、ステップS32において、ステップ402で得られたテキストと、上記履歴情報(発話内容と話者タグ)を用いて、発話行為タグの推定を行っても良い。
【0068】
ステップS33において、発話行為タグ推定結果として得られた発話行為タグを出力する。
【0069】
図8に、発話行為タグの例を示す。この例では、「挨拶」「謝辞・謝罪」「相槌」「応答」「質問」「提案」「情報伝達」「要求」といった発話行為タグが定義されている。
【0070】
発話行為の推定には、機械学習などの統計的手法を用いて行う方法、手掛り表現などからルールで推定する方法など、種々の方法が利用できる。例えば、「ウィンナーシュニッチェルはいかがですか?」という入力であれば、発話行為タグ=「提案」、「はい」という入力であれば、発話行為タグ=「応答」、「ウィンナーシュニッチェルを1つ」という入力であれば、発話行為タグ=「依頼」、「ウィンナーシュニッチェルというのはどんな料理ですか?」であれば、発話行為タグ=「質問」のように、発話行為タグを推定することができる。
【0071】
(提示要否判定部105)
図9に、提示要否判定部105の処理の例を示す。
【0072】
ステップS41において、発話行為推定部104により出力された発話行為タグと、機械翻訳部103のステップS22の言語判定の判定結果または音声認識部102のステップS14の言語判定の判定結果とを使用して、話者判定を行う。
【0073】
例えば、第一話者が客であり、第二話者が接客者である場合に、事前に接客者の言語である英語が第二言語であると設定しておけば、言語判定結果を利用して言語が第二言語であれば第二話者である接客者が話者タグとして得られる。
【0074】
なお、その代わりに、例えば、予め接客者(店員)とその声の特徴との対応を設定しておき、入力音声の特徴から、話者が接客者か否かを判定するようにしても良い。
【0075】
また、前述したように、音声認識部102または機械翻訳部103において、言語判定のために話者判定を行っている場合には、その結果を利用しても良い。
【0076】
次に、ステップS42において、発話行為タグと話者タグが入力され、ステップS43において、入力された発話行為タグと話者タグの組み合わせを使用して、補足情報提示要否データベース122を参照する。
【0077】
図10に、補足情報提示要否データベース122の例を示す。この例では、「話者タグ」、「発話行為タグ」、「提示要否」の3つ組データが複数定義されており、「話者タグ」と「発話行為タグ」の組み合わせに対応する「提示要否」欄の内容を参照することによって、要否判定が可能になる。なお、この例では、便宜上、「提示が必要」を○で、「提示が不要」を×で示している。
【0078】
さらに、各条件に対して、補足情報を提示する提示タイミングを合わせて記述しても良い。提示タイミングを記述する場合には、「提示タイミング」欄の内容に従って、補足情報を提示することになり、提示タイミングを記述しない場合には、予め定められたタイミングで(例えば、直ちに、あるいは、接客者の次の発言の後で、など)補足情報を提示することになる。
【0079】
なお、本実施形態では、補足情報は第一話者の使用する第一言語で提示される場合を例にとって説明しているが、各条件に対して、補足情報を提示する際に使用する言語を記載する欄を設けても良い。この場合には、「言語」欄に記載された言語で補足情報を提示することになる。これによって、例えば、補足情報を、客向けに第一言語で提示することと、補足情報を、接客者向けに第二言語で提示することを指示できるようになる。また、この場合に、「言語」欄には、第一言語又は第二言語を記載するようにしても良い。さらに、「言語」欄に、第一言語と第二言語の両方を記載することを、可能にしても良い。
【0080】
図10の例の場合、ステップS43では、ステップS42で入力された「発話行為タグ」と「話者タグ」の組み合わせに対応する「提示要否」欄の内容(「提示タイミング」欄を設ける場合には、「提示要否」欄の内容及び「提示タイミング」欄の内容)を取得する。
【0081】
ステップS44において、補足情報提示要否データベース122上で、ステップS42で入力された「発話行為タグ」と「話者タグ」の組み合わせに対応する「提示要否」欄の内容が、「提示が必要」に該当するかを判定する。
【0082】
「提示が必要」と判定された場合には、ステップS45において、提示要求を出し、提示が不要と判定された場合には、ステップS46において、非提示要求を出す。
【0083】
「提示タイミング」欄を設ける場合に、「提示タイミング」欄の内容は、提示要求に付加するなどして、提示候補生成部106と候補選択部107を介して、提示部108に伝えても良いし、あるいは、「提示タイミング」欄の内容を提示部108に(候補選択部107が「提示タイミング」欄の内容を使用する場合には、候補選択部107にも)直接伝えるようにしても良い。
【0084】
なお、「提示タイミング」欄を設ける場合に、「提示タイミング」欄の内容は、ステップS44において、「提示が必要」に該当すると判定されたときのみ、ステップS46の前に取得するようにしても良い。
【0085】
(提示候補生成部106)
図11に、提示候補生成部106の処理の例を示す。
【0086】
提示要否判定部105により提示要求が出力された場合にのみ、提示候補生成部106の処理を行う。
【0087】
提示候補生成部106は、提示候補生成の処理(ステップS52)においては、常に翻訳後のテキストを使って両言語に対して判定できるようにしても良いし、機械翻訳部103のステップS22の言語判定の判定結果または音声認識部102のステップS14の言語判定の判定結果を利用して、翻訳前か翻訳後を選択し、常に同一言語で判定できるようにしても良い。ここでは、常に第二言語でテキスト入力される場合を例示する。
【0088】
ステップS51において、翻訳前または翻訳後の第二言語のテキスト(すなわち、第一話者に係る翻訳テキストまたは第二話者に係る翻訳前テキスト)が入力される。
【0089】
次に、ステップS52において、テキストから、キーワードを抽出する。
【0090】
ステップS53において、ステップS52で抽出された各キーワードについて、それが補足説明データベース123上に存在するかを確認する。あるキーワードについて、補足説明データベース123上に1つ以上のキーワードの補足説明が登録されている場合には、ステップS54において、当該補足説明を出力する。一方、あるキーワードについて、1つもキーワードが登録されていない場合には、ステップS55において、nullを出力する。
【0091】
図12に、補足説明データベース123の例を示す。補足説明データベース123には、索引付けされたキーワードである「単語」欄、補足説明に関する言語情報を示す「言語」欄、複数の補足説明間の優先度を示す「優先度」欄、各言語に対応して与えられる「補足説明」欄の項目がある。この具体例では、接客者が使用する第二言語である英語の“Wiener Schnitzel”を、日本語、イタリア語などを使用する客にとって、未知情報であるものとしてキーワード登録している。なお、図12の例では、「優先度」欄に記載されている数値が低い程、優先度が高いものとする。
【0092】
例えば、図12の具体例において、ステップS51のテキスト入力が常に第二言語の場合に、ステップS52でキーワードとして“Wiener Schnitzel”が得られたとき、ステップS54では、「ウィーン風カツレツ」「油で揚げた牛肉」「オーストリアの代表的な料理」の3つの補足説明を出力する。
【0093】
(候補選択部107)
図13に、候補選択部107の処理の例を示す。
【0094】
ステップS61において、提示候補生成部106により出力された補足説明を、提示候補として入力する。
【0095】
ステップS62において、複数の補足情報のうちから、提示すべき1以上の補足情報を選択する。
【0096】
候補選択の際には、対話履歴データベース121の情報(例えば、発話内容のみ、あるいは、発話内容と話者タグ)を調べて、既に発話された内容と類似する補足説明を除いた補足説明を選択するのが望ましい。あるいは、対話履歴データベース121の情報から話者タグと発話行為タグの組み合わせにより既知情報を判定して、既知情報と類似する補足説明を除いた補足説明を選択しても良い。例えば、ある対話履歴において、話者タグ=「客」であり、「ウィンナーシュニッチェルが食べたいんですが、…」のような内容であり、発話行為タグ=「願望」である場合には、ウィンナーシュニッチェルについては知っているはずなので、図12のJP−3(日本語、優先度3)の「オーストリアの代表的な料理」のような一般的な知識による補足説明を選択しない、といった判断をしても良い。
【0097】
この選択にあたっては、例えば、優先度の高いものから順に、予め定められた個数(例えば、1つ、2つ、など)の補足説明を選択しても良い。
【0098】
また、この選択にあたっては、「提示タイミング」欄の内容を考慮しても良い。例えば、提示タイミングが「判定直後」であれば、一番優先度の高い補足説明を選択しても良い。あるいは、例えば、提示タイミングが「次発話の直後」であれば、次発話で使われた発話内容と類似する補足説明を除いた補足説明を選択するなどしても良い。
【0099】
ステップS63において、選択された1つ以上の補足説明から、補足情報(ここでは、説明文とする)を生成する。
【0100】
ステップS64において、生成された説明文を出力する。
【0101】
例えば、「ウィンナーシュニッチェルはどんな料理ですか?」と客が質問した場合、話者タグ=「客」であり、発話行為タグ=「質問」であるので、「接客者の回答後」に補足説明あるいは補足説明をもとに生成された説明文を提示することが予定される。そこで、接客者が「ウィンナーシュニッチェルは油であげた牛肉です」と回答した場合、補足説明データベース123のうち、JP−2(日本語、優先度2)の補足説明が回答されてしまったため、これを補足説明から除いて、例えば、JP−2(日本語、優先度2)の補足説明とJP−3(日本語、優先度3)の補足説明から、「ウィーン風カツレツで、オーストリアの代表的な料理です」のような説明文を生成して出力するようにしても良い。
【0102】
また、例えば「ウィンナーシュニッチェルはいかがですか?」と接客者が提案した場合、話者タグ=「接客者」であり、発話行為タグ=「提案」であるので、「接客者の発話直後」に補足情報(説明文)を提示することになる。このとき、優先度の高い2つの補足説明(JP−1とJP−2)を使用して、「ウィーン風カツレツで、油であげた牛肉になります」のような補足説明を生成して出力するようにしても良い。
【0103】
あるいは、話者タグ=「接客者」であり、発話行為タグ=「提案」であるようなときには、具体的な調理法などが出ないようにするように、補足説明データベース123で発話行為タグ及び/又は接客者タグごとの優先度を付けても良い。
【0104】
なお、選択された補足説明をそのまま補足情報としても良い。
【0105】
(提示部108)
提示部108は、前述したように、少なくとも補足情報を所定のタイミングで提示する。
【0106】
図14に、本実施形態の接客支援装置の動作例を示す。
【0107】
客が日本語で「ウィンナーシュニッチェルって何ですか?」と質問すると、その英語による翻訳結果が得られ、これが提示される。
【0108】
ここで、話者タグ=「客」であり、発話行為タグ=「質問」であるので、「接客者の回答後」のタイミングで補足情報を提示することになる。補足説明は、例えば、JP−1(日本語、優先度1)の補足説明「ウィーン風カツレツ」が選択される。
【0109】
上記質問に対して、接客者が「油であげた牛肉です。」と回答すると、その日本語による翻訳結果が得られ、これが提示される。また、このタイミングで、例えば「ウィーン風カツレツです。」のような説明文が補足情報として提示される。
【0110】
図15に、本実施形態の接客支援装置を使用した対話例と補足説明の例を示す。
【0111】
対話例1では、客が「今日のお勧めコースの内容は何ですか?」と質問したとすると、話者タグ=「客」かつ発話行為タグ=「質問」であることから、提示要求が出されるが、補足説明データベースに登録されているキーワードが存在せず、結局、補足情報の提示はない。
【0112】
次に、接客者が「○○○○、ウィンナーシュニッチェル、○○○○です。」と回答したとすると、話者タグ=「接客者」かつ発話行為タグ=「回答」であることから、提示要求が出される。また、提示タイミングは、例えば「接客者の発話直後」となる。そして、補足説明データベースに登録されているキーワード=ウィンナーシュニッチェルが存在し、現在、「接客者の発話直後」であるので、このタイミングで、例えば「ウィンナーシュニッチェルは、ウィーン風カツレツです。」のような説明文が補足情報として提示される。
【0113】
対話例2では、客が「ウィンナーシュニッチェルって何ですか?」と質問したとすると、話者タグ=「客」かつ発話行為タグ=「質問」であることから、提示要求が出される。また、提示タイミングは、例えば「接客者の回答後」となる。そして、補足説明データベースに登録されているキーワード=ウィンナーシュニッチェルが存在し、説明文を補足情報として提示することになる。
【0114】
ここで、接客者が「当店のシュニッチェルは牛肉を油で揚げたものです。」と回答したとする。この場合、JP−2(日本語、優先度2)の補足説明「油であげた牛肉」に類似する内容が発話されたので、これを候補から除外し、例えば、JP−1(日本語、優先度1)の補足説明「ウィーン風カツレツ」が選択される。そして、現在、「接客者の回答後」であるので、このタイミングで、例えば「いわゆるウィーン風カツレツです。」のような説明文が補足情報として提示される。
【0115】
以上では、{第一話者=客=第一言語=日本語、第二話者=接客者=第二言語=英語}の組み合わせを例にとって説明したが、これに制限されない。他の如何なる組み合わせも可能である。例えば、{第一話者=客=第一言語=英語、第二話者=接客者=第二言語=日本語}であっても良いし、例えば、日本語と中国語の組み合わせ、あるいは、英語と中国語の組み合わせであっても良い。
【0116】
また、言語の組み合わせは、予め2つの言語に固定されていても良いし、3以上の言語からユーザが自由に選択できるようにしても良い。また、客と接客者の一方又は両方の言語が予め1つの言語に固定されていても良いし、ユーザが自由に選択できるようにしても良い。
【0117】
また、第一話者が接客者であり、第二話者が客であっても良い。さらに、2名の話者が接客者−客という関係でなくても良い。
【0118】
また、以上では、未知情報があることを判断して補足情報を提示する対象を、第一話者としたが、第二話者とすることも、両方の話者とすることも可能である。また、第一話者を対象にするか、第二話者を対象にするか、両方の話者を対象にするかについて、予め固定されていても良いし、ユーザが自由に選択できるようにしても良い。
【0119】
以上のように、本実施形態によれば、話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援することが可能になる。
【0120】
(第1の変形例)
図16に、ボタンにより言語選択を行う場合の構成例を示す。この場合、これまで説明した構成において、入力部101の前に、言語選択入力部111を設け、言語選択入力部111により入力する言語を指定あるいは選択する。
【0121】
(第2の変形例)
図17に、提示内容判定する場合の構成例を示す。この場合、提示要否判定部105の代わりに提示内容判定部112を設ける。また、補足説明データベース123に加えて、所定数の他のデータベースを設ける。ここでは、一例として、たとえば各料理に関する推奨情報を保持する商品情報データベース125と、たとえば各料理の残り数のような管理情報を保持する管理情報データベース126を設けるものとする。
【0122】
また、補足情報提示要否データベース122の代わりに補足情報提示内容データベース124を使用する。
【0123】
図18に、補足情報提示内容データベース124の例を示す。補足情報提示内容データベース124が、補足情報提示要否データベース122と相違する点は、「表示要否」欄の代わりに、「参照データベース」欄を有する点である。「参照データベース」には、提示要否ではなく、参照すべきデータベースが記載される。例えば、DB1は補足説明データベース123を示し、DB2は商品情報データベース125を示し、DB3は管理情報データベース126を示す。なお、必ず「参照データベース」欄にいずれかのデータベースを記載するようにしても良いし、「参照データベース」欄を空欄にする(すなわち、空欄は、提示が不要であることを示す)ことを、可能にしても良い。
【0124】
本実施形態では、提示内容判定部112は、「参照データベース」欄の内容によって、参照すべきデータベースを特定する。なお、「参照データベース」欄を空欄にすることを、可能にする場合には、提示内容判定部112は、提示の要否及び提示が必要である場合において参照すべきデータベースを特定する。
【0125】
図19に、本実施形態における対話例を示す。客の質問あるいは接客者の提案の際には、補足情報を提示する点は上述のシステムと同様である。(a)の客の質問「ウィンナーシュニッチェルって何ですか?」と、(b)の接客者の提案「ウィンナーシュニッチェルはいかがでしょうか?」は、補足説明データベース123を参照するので、いずれも、第1の実施形態と同様の結果になる。
【0126】
これらに対して、(c)のように客が「ウィンナーシュニッチェルをお願いします。」と要求をした場合には、管理情報データベース126を参照することになる。たとえば、管理情報データベース126には、各料理ごとの残り数が保持されており、ウィンナーシュニッチェルに対応する残り数を検索して、例えば「残り1人前」のような補足情報を提示し、既に売切れてしまった料理の注文を受けないようにしても良い。その際、補足情報提示内容データベース124に「言語」として第二言語が指示されている場合に、例えば「残り1人前」のような補足情報を接客者向けに第二言語で提示するようにしても良い。
【0127】
また、(d)のように接客者が「ウィンナーシュニッチェルですね。」と確認をした場合には、商品情報データベース125を参照することになり、たとえば、接客者向け及び/又は客向けに、さらに追加で頼むと良いお勧め情報(例えばウィンナーシュニッチェルに合うお勧めワインリストのような情報)のような補足情報を提示するようにしても良い。
【0128】
なお、ここで説明した各種データベースは一例であり、様々なデータベースを利用して補足情報を生成し、提示することが可能である。
【0129】
なお、第1の実施形態における第1の変形例と第2の変形例の一方又は両方を、第2の実施形態に組み合わせて実施することが可能である。
【0130】
(第2の実施形態)
以下では、第2の実施形態について、第1の実施形態と相違する点を中心に説明する。
【0131】
第1の実施形態は、異なる言語を使用する話者の対話に機械翻訳を利用する際に、補足説明を提示するものであったが、第2の実施形態は、背景知識の異なる話者が、機械翻訳を利用せず、同一の言語で対話をする際に、補足説明を提示するものである。
【0132】
図20に、本実施形態の接客支援装置の機能構成例を示す。
【0133】
図20に示されるように、本実施形態の接客支援装置は、入力部101、音声認識部102、話者特定部1103、発話行為推定部104、提示要否判定部105、提示候補生成部106、候補選択部107、提示部108を含む。すなわち、図1の構成例において、機械翻訳部103の代わりに話者特定部1103を有するものである。
【0134】
入力部101は、特定の言語(例えば、日本語、英語など、両話者に共通の言語)により、第一話者による音声と、第二話者による音声とを受け付ける。
【0135】
音声認識部102は、特定の言語により、音声情報を認識し、テキスト情報に変換する。
【0136】
話者特定部1103は、話者を特定する。
【0137】
話者特定部1103は、第1の実施形態で例示した話者特定方法(言語により話者を特定するものを除く)を使用しても良いし、他のどのような方法でも良い。
【0138】
なお、音声認識部102が話者を特定する機能を有する場合には、音声認識部102が有する話者特定機能を、話者特定部1103としても良い。
【0139】
発話行為推定部104は、テキスト情報から発話行為を推定する。
【0140】
対話履歴データベース121は、次の点以外、第1の実施形態と同様である。本実施形態では、両話者が共通の言語を使用し、機械翻訳を行わないので、機械翻訳部で得られる翻訳テキストによる対話履歴を保存しない。
【0141】
補足情報提示要否データベース122は、第1の実施形態と同様である。
【0142】
提示要否判定部105は、第1の実施形態と同様である。また、本実施形態では、話者特定部1103により話者特定結果を利用することができる。
【0143】
補足説明データベース123は、次の点以外、第1の実施形態と同様である。本実施形態では、両話者が共通の言語を使用し、機械翻訳を行わないので、「言語」欄は不要であり、「単語」欄と「補足説明」欄には同一の言語が使用される。
【0144】
提示候補生成部106は、第1の実施形態と同様である。
【0145】
候補選択部107は、第1の実施形態と同様である。
【0146】
提示部108は、第1の実施形態と同様である。ただし、本実施形態では、翻訳テキストを提示することはない。また、提示部108は、補足情報のみを提示するようにしても良い。
【0147】
図21に、本実施形態の全体的な処理手順の一例を示す。
【0148】
ユーザが会話を行うと、いずれの話者の音声も入力部101に入り(ステップS101)、音声認識部102による音声認識(ステップS102)、話者特定部1103による話者の特定(ステップS103)が順次行われる。
【0149】
更に、発話行為推定部104による発話行為の推定(ステップS104)、提示要否判定部105による補足情報の提示要否判定(ステップS104)が順次行われる。
【0150】
提示が必要と判定された場合には(ステップS105)、提示候補生成部106により、補足情報の候補(提示候補)の生成(ステップS106)が行われ、次いで、候補選択部107により、提示候補の中から提示に使用する1以上の提示候補を選択する(ステップS107)。なお、提示候補をそのまま補足情報としても良いし、ステップS107において、候補選択部107により、提示候補をもとに説明文を生成して、これを補足情報としても良い。そして、提示部108において、適切なタイミングで、補足情報を提示する(ステップS108)。そして、ステップS101に戻って、一連の処理を繰り返す。
【0151】
一方、提示が不要と判定された場合には(ステップS105)、ステップS106〜108をスキップして、ステップS101に戻って、一連の処理を繰り返す。
【0152】
図20及び図21を参照して説明した構成に、更に、第1の実施形態で説明した第1の変形例と第2の変形例の一方又は両方を組み合わせて実施することも可能である。
【0153】
なお、第2の変形例を適用する場合に、補足情報提示内容データベース124は、第1の実施形態と同様で構わない。
【0154】
なお、以上の各実施形態又は各変形例で説明したデータベースは、例えば、対話支援装置の内部に存在しても良い。あるいは、一部又は全部のデータベースが、例えばLAN等のネットワーク上に存在し、対話支援装置が該ネットワークを介してデータベースから情報を取得するようにしても良い。
【0155】
また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の対話支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の対話支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
【0156】
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
【0157】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0158】
101…入力部、102…音声認識部、103…機械翻訳部、104…発話行為推定部、105…提示要否判定部、106…提示候補生成部、107…候補選択部、108…提示部、111…言語選択入力部、112…提示内容判定部、1103…話者特定部、121…対話履歴データベース、122…補足情報提示要否データベース、123…補足説明データベース、124…補足情報提示内容データベース、125…管理情報データベース、商品情報データベース126。
【特許請求の範囲】
【請求項1】
複数の話者による対話に係る音声を入力する入力部と、
入力された前記音声を音声認識して、対応するテキスト情報に変換する音声認識部と、
前記テキスト情報の全部又は一部を対話履歴として記憶する対話履歴データベースと、
前記テキスト情報に基づいて、発話行為を推定する推定部と、
推定された前記発話行為に基づいて、補足情報を提示するかどうか判定する判定部と、
前記補足情報を提示すると判定された場合に、補足情報の候補を生成する生成部と、
前記対話履歴を利用して、前記補足情報の候補のうちから、提示すべきものを選択する選択部と、
選択された前記補足情報を提示する提示部とを備えたことを特徴とする対話支援装置。
【請求項2】
前記テキスト情報に対する話者を特定する話者特定部を更に備え、
前記判定部は、推定された前記発話行為及び特定された前記話者に基づいて、補足情報を提示するかどうか判定することを特徴とする請求項1に記載の対話支援装置。
【請求項3】
前記入力部は、第一話者の第一言語による音声又は第一話者の第二言語による音声を入力し、
前記音声認識部は、前記第一言語又は前記第二言語による音声を音声認識して、前記第一言語又は前記第二言語による翻訳前のテキスト情報に変換し、
前記対話支援装置は、前記第一言語又は前記第二言語による前記テキスト情報を翻訳して、前記第二言語又は前記第一言語による翻訳後のテキスト情報を生成する機械翻訳部を更に備え、
前記対話履歴データベースは、前記第一言語又は前記第二言語による翻訳前又は翻訳後のテキスト情報の全部又は一部を記憶することを特徴とする請求項1に記載の対話支援装置。
【請求項4】
前記判定部は、前記テキスト情報に対する話者を特定するか又は話者特定結果を取得し、推定された前記発話行為及び特定された前記話者に基づいて、補足情報を提示するかどうか判定することを特徴とする請求項3に記載の対話支援装置。
【請求項5】
前記判定部は、特定の一人の話者についてのみ、前記補足情報を提示するかどうか判定することを特徴とする請求項1ないし4のいずれか1項に記載の対話支援装置。
【請求項6】
前記判定部は、いずれの話者についても、前記補足情報を提示するかどうか判定することを特徴とする請求項1ないし5のいずれか1項に記載の対話支援装置。
【請求項7】
前記選択部は、前記補足情報の候補のうちで、既に対応する内容が前記対話履歴に含まれているものは、候補から除外することを特徴とする請求項1ないし6のいずれか1項に記載の対話支援装置。
【請求項8】
前記生成部は、前記補足情報を提示すると判定されるもととなった前記テキスト情報に、予め未知情報として登録されているキーワードが存在する場合に、前記補足情報の候補を生成することを特徴とする請求項1ないし7のいずれか1項に記載の対話支援装置。
【請求項9】
音声の入力に使用する言語を選択する言語選択部を更に備えることを特徴とする請求項1ないし8のいずれか1項に記載の対話支援装置。
【請求項10】
前記生成部は、参照データベースを参照して前記生成を実行するものであり、
前記判定部は、前記生成部が、予め定められた複数の参照データベースのうちのいずれの参照データベースを参照すべきかを判定することを特徴とする請求項1ないし9のいずれか1項に記載の対話支援装置。
【請求項11】
前記推定部は、前記対話履歴をも利用して、前記発話行為を推定することを特徴とする請求項1ないし10のいずれか1項に記載の対話支援装置。
【請求項12】
前記対話履歴データベースは、推定された前記発話行為を示す情報を、そのもととなった前記テキスト情報とともに記憶することを特徴とする請求項1ないし11のいずれか1項に記載の対話支援装置。
【請求項13】
前記選択部は、前記発話行為を含む前記対話履歴を利用して、前記補足情報の候補のうちから、提示すべきものを選択する請求項12に記載の対話支援装置。
【請求項14】
入力部、音声認識部、対話履歴データベース、推定部、判定部、生成部、選択部及び、提示部を備えた対話支援装置の対話支援方法であって、
前記入力部が、話者間の対話の音声を入力するステップと、
前記音声認識部が、入力音声を音声認識して、対応するテキスト情報に変換するステップと、
前記対話履歴データベースが、テキスト情報の全部又は一部を対話履歴として記憶するステップと、
前記推定部が、テキスト情報に基づいて、発話行為を推定するステップと、
前記判定部が、推定された発話行為に基づいて、補足情報を提示するかどうか判定するステップと、
前記生成部が、補足情報を提示すると判定された場合に、補足情報の候補を生成するステップと、
前記選択部が、対話履歴を利用して、補足情報の候補のうちから、提示すべきものを選択するステップと、
前記提示部が、選択された補足情報を提示するステップとを有することを特徴とする対話支援方法。
【請求項15】
入力部、音声認識部、対話履歴データベース、推定部、判定部、生成部、選択部及び、提示部を備えた対話支援装置としてコンピュータを機能させるためのプログラムであって、
複数の話者による対話に係る音声を入力する入力部と、
入力された前記音声を音声認識して、対応するテキスト情報に変換する音声認識部と、
前記テキスト情報の全部又は一部を対話履歴として記憶する対話履歴データベースと、
前記テキスト情報に基づいて、発話行為を推定する推定部と、
推定された前記発話行為に基づいて、補足情報を提示するかどうか判定する判定部と、
前記補足情報を提示すると判定された場合に、補足情報の候補を生成する生成部と、
前記対話履歴を利用して、前記補足情報の候補のうちから、提示すべきものを選択する選択部と、
選択された前記補足情報を提示する提示部とをコンピュータに実現させるためのプログラム。
【請求項1】
複数の話者による対話に係る音声を入力する入力部と、
入力された前記音声を音声認識して、対応するテキスト情報に変換する音声認識部と、
前記テキスト情報の全部又は一部を対話履歴として記憶する対話履歴データベースと、
前記テキスト情報に基づいて、発話行為を推定する推定部と、
推定された前記発話行為に基づいて、補足情報を提示するかどうか判定する判定部と、
前記補足情報を提示すると判定された場合に、補足情報の候補を生成する生成部と、
前記対話履歴を利用して、前記補足情報の候補のうちから、提示すべきものを選択する選択部と、
選択された前記補足情報を提示する提示部とを備えたことを特徴とする対話支援装置。
【請求項2】
前記テキスト情報に対する話者を特定する話者特定部を更に備え、
前記判定部は、推定された前記発話行為及び特定された前記話者に基づいて、補足情報を提示するかどうか判定することを特徴とする請求項1に記載の対話支援装置。
【請求項3】
前記入力部は、第一話者の第一言語による音声又は第一話者の第二言語による音声を入力し、
前記音声認識部は、前記第一言語又は前記第二言語による音声を音声認識して、前記第一言語又は前記第二言語による翻訳前のテキスト情報に変換し、
前記対話支援装置は、前記第一言語又は前記第二言語による前記テキスト情報を翻訳して、前記第二言語又は前記第一言語による翻訳後のテキスト情報を生成する機械翻訳部を更に備え、
前記対話履歴データベースは、前記第一言語又は前記第二言語による翻訳前又は翻訳後のテキスト情報の全部又は一部を記憶することを特徴とする請求項1に記載の対話支援装置。
【請求項4】
前記判定部は、前記テキスト情報に対する話者を特定するか又は話者特定結果を取得し、推定された前記発話行為及び特定された前記話者に基づいて、補足情報を提示するかどうか判定することを特徴とする請求項3に記載の対話支援装置。
【請求項5】
前記判定部は、特定の一人の話者についてのみ、前記補足情報を提示するかどうか判定することを特徴とする請求項1ないし4のいずれか1項に記載の対話支援装置。
【請求項6】
前記判定部は、いずれの話者についても、前記補足情報を提示するかどうか判定することを特徴とする請求項1ないし5のいずれか1項に記載の対話支援装置。
【請求項7】
前記選択部は、前記補足情報の候補のうちで、既に対応する内容が前記対話履歴に含まれているものは、候補から除外することを特徴とする請求項1ないし6のいずれか1項に記載の対話支援装置。
【請求項8】
前記生成部は、前記補足情報を提示すると判定されるもととなった前記テキスト情報に、予め未知情報として登録されているキーワードが存在する場合に、前記補足情報の候補を生成することを特徴とする請求項1ないし7のいずれか1項に記載の対話支援装置。
【請求項9】
音声の入力に使用する言語を選択する言語選択部を更に備えることを特徴とする請求項1ないし8のいずれか1項に記載の対話支援装置。
【請求項10】
前記生成部は、参照データベースを参照して前記生成を実行するものであり、
前記判定部は、前記生成部が、予め定められた複数の参照データベースのうちのいずれの参照データベースを参照すべきかを判定することを特徴とする請求項1ないし9のいずれか1項に記載の対話支援装置。
【請求項11】
前記推定部は、前記対話履歴をも利用して、前記発話行為を推定することを特徴とする請求項1ないし10のいずれか1項に記載の対話支援装置。
【請求項12】
前記対話履歴データベースは、推定された前記発話行為を示す情報を、そのもととなった前記テキスト情報とともに記憶することを特徴とする請求項1ないし11のいずれか1項に記載の対話支援装置。
【請求項13】
前記選択部は、前記発話行為を含む前記対話履歴を利用して、前記補足情報の候補のうちから、提示すべきものを選択する請求項12に記載の対話支援装置。
【請求項14】
入力部、音声認識部、対話履歴データベース、推定部、判定部、生成部、選択部及び、提示部を備えた対話支援装置の対話支援方法であって、
前記入力部が、話者間の対話の音声を入力するステップと、
前記音声認識部が、入力音声を音声認識して、対応するテキスト情報に変換するステップと、
前記対話履歴データベースが、テキスト情報の全部又は一部を対話履歴として記憶するステップと、
前記推定部が、テキスト情報に基づいて、発話行為を推定するステップと、
前記判定部が、推定された発話行為に基づいて、補足情報を提示するかどうか判定するステップと、
前記生成部が、補足情報を提示すると判定された場合に、補足情報の候補を生成するステップと、
前記選択部が、対話履歴を利用して、補足情報の候補のうちから、提示すべきものを選択するステップと、
前記提示部が、選択された補足情報を提示するステップとを有することを特徴とする対話支援方法。
【請求項15】
入力部、音声認識部、対話履歴データベース、推定部、判定部、生成部、選択部及び、提示部を備えた対話支援装置としてコンピュータを機能させるためのプログラムであって、
複数の話者による対話に係る音声を入力する入力部と、
入力された前記音声を音声認識して、対応するテキスト情報に変換する音声認識部と、
前記テキスト情報の全部又は一部を対話履歴として記憶する対話履歴データベースと、
前記テキスト情報に基づいて、発話行為を推定する推定部と、
推定された前記発話行為に基づいて、補足情報を提示するかどうか判定する判定部と、
前記補足情報を提示すると判定された場合に、補足情報の候補を生成する生成部と、
前記対話履歴を利用して、前記補足情報の候補のうちから、提示すべきものを選択する選択部と、
選択された前記補足情報を提示する提示部とをコンピュータに実現させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【公開番号】特開2013−73355(P2013−73355A)
【公開日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願番号】特願2011−211006(P2011−211006)
【出願日】平成23年9月27日(2011.9.27)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願日】平成23年9月27日(2011.9.27)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]