説明

対話文生成装置及び方法

【課題】音声認識処理を利用してテキスト入力を実現しつつ、ユーザビリティを向上可能な対話文生成装置を提供する。
【解決手段】対話相手からの第1のテキストを受信する受信部101と、対話相手となり得る人物毎に、人物固有の情報と人物に対応する定型テキストとが記憶される情報記憶部111と、第1のテキストの内容をユーザに提示する提示部104及び106と、提示された第1のテキストに関するユーザの発話に対して音声認識処理を行って、発話の内容を示す音声認識結果を生成する音声認識部109及び110と、対話相手に対応する情報及び定型テキストと、音声認識結果とに基づき第2のテキストを生成する生成部112と、第2のテキストを対話相手に送信する送信部101とを具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識処理を利用する対話文生成装置及び方法に関する。
【背景技術】
【0002】
近年、電子メール、チャット及び電子掲示板(BBS;Bulletin Board System)等の対話手段が多くのユーザによって利用されている。上記電子メール、チャット及びBBS等は、電話やボイスチャット等の音声ベースの対話手段とは異なり、比較的短いテキストをユーザ間でやり取りすることによって成立するテキストベースの対話手段である。テキストベースの対話手段を利用する場合、ユーザは入力手段としてキーボードや携帯電話機のテンキーまたはタッチパネル等のテキスト入力インタフェースを使用する。一方、テキスト入力におけるユーザビリティを向上させてリズムの良い対話を実現させるために、音声認識処理に基づくテキスト入力インタフェースが使用されることがある。
【0003】
音声認識処理では、ユーザの発話が音響的観点及び言語的観点に基づいて所定の待ち受け単語に順次置き換えられ、当該発話の内容を示す待ち受け単語列で構成される言語テキストが生成される。上記待ち受け単語を少なくすると、個々の単語に対する認識精度は高くなるものの、認識可能な単語数が減る。一方、上記待ち受け単語を多くすると認識可能な単語数が増えるものの、個々の単語を誤認識するおそれが高くなる。従って、音声認識処理の認識精度を効率的に向上させるために、ユーザの発話に含まれることが期待される特定の単語を優先的に認識させたり、上記特定の単語のみを認識させたりすることが提案されている。また、音声認識処理の態様として、いわゆる口述筆記のような連続単語の認識を目的とする連続音声認識処理の他に、機器に対する操作指示やキーワード入力のような短単語の認識を目的とする孤立単語音声認識処理が知られている。孤立単語音声認識処理は、特定の単語に対する認識精度が連続音声認識処理に比べて優れる。
【0004】
特許文献1記載の電子メール通信装置は、電子メール本文中において待ち受け単語を記述するためのフォーマットを予め規定しているので、当該フォーマットに従って受信メールから待ち受け単語を抽出できる。従って、特許文献1記載の電子メール通信装置によれば、上記フォーマットに基づき抽出された待ち受け単語を優先的に認識することにより、高い認識精度を期待できる。
【0005】
特許文献2記載の応答データ出力装置は、疑問文の文末に用いられる文末語に基づいてテキストデータから疑問文を推定する。上記応答データ出力装置は、推定した疑問文に「何時に」及び「何処で」等の特定の文節が存在すれば当該文節に応じて、時刻及び場所を表す単語を夫々優先的に認識する。一方、上記応答データ出力装置は、上記疑問文に「何時に」及び「何処で」等の特定の文節が存在しなければ「はい」及び「いいえ」等の単語を優先的に認識する。従って、特許文献2記載の応答データ出力装置によれば、疑問文に対するユーザの音声応答において、高い認識精度を期待できる。
【0006】
特許文献3記載の音声認識・合成装置は、入力テキストに対して形態素解析を行い、当該入力テキストを構成する単語のみを待ち受け単語として利用することにより、当該待ち受け単語に対して高い認識精度を期待できる。
【特許文献1】特開2002−351791号公報
【特許文献2】特開2006−172110号公報
【特許文献3】特開2003−99089号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
特許文献1記載の電子メール通信装置は、所定のフォーマットに従わなければ、待ち受け単語を電子メール本文において記述できない。即ち、特許文献1記載の電子メール通信装置は、対話の形式が制限されるため、対話の自由度が損なわれる。
【0008】
特許文献2記載の応答データ出力装置は、疑問文に対する応答において高い認識精度を期待できる。一方、上記応答データ出力装置は、疑問文以外の平叙文、感嘆文及び命令文に対する応答において認識精度を向上させるものでない。
【0009】
特許文献3記載の音声認識・合成装置は、メニュー選択やリンク先情報の取得等を目的とし、入力テキストを構成する単語のみを認識するものである。即ち、ユーザの発話対象として、1単語または比較的少数の単語列が想定されている。しかしながら、返事に相当するテキストを入力する場合、入力テキスト(例えば、受信メール)に含まれない単語を認識する必要がある。
【0010】
また、音声認識処理の認識精度は、周囲環境によっても影響され、比較的大きな騒音が入力音声に混入すれば、当該入力音声の内容が音声認識結果に十分に反映されないおそれがある。即ち、ユーザは、上記音声認識結果に満足を得られなければ音声入力を何度も繰り返すか、音声入力を諦めなければならない。
【0011】
また、上記テキストベースの対話手段は、遠隔地に居住する家族との定期連絡、独居高齢者の安否確認等にも利用され得る。このような利用態様では、話題の枯渇により対話の内容が単調になりやすく、対話を継続することが難しいという問題もある。
【0012】
従って、本発明は、音声認識処理を利用してテキスト入力を実現しつつ、ユーザビリティを向上可能な対話文生成装置を提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明の一態様に係る対話文生成装置は、対話相手からの第1のテキストを受信する受信部と、前記対話相手となり得る人物毎に、当該人物固有の情報と当該人物に対応する定型テキストとが記憶される情報記憶部と、前記第1のテキストの内容をユーザに提示する提示部と、提示された前記第1のテキストに関する前記ユーザの発話に対して音声認識処理を行って、前記発話の内容を示す音声認識結果を生成する音声認識部と、前記対話相手に対応する情報及び定型テキストと、前記音声認識結果とに基づき第2のテキストを生成する生成部と、前記第2のテキストを前記対話相手に送信する送信部とを具備する。
【発明の効果】
【0014】
本発明によれば、音声認識処理を利用してテキスト入力を実現しつつ、ユーザビリティを向上可能な対話文生成装置を提供できる。
【発明を実施するための最良の形態】
【0015】
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように、本発明の第1の実施形態に係る対話文生成装置は、テキスト送受信部101、形態素解析部102、音声合成部103、スピーカ104、マイクロホン105、ディスプレイ106、切替指示入力部107、音声蓄積部108、孤立単語音声認識部109、連続音声認識部110、情報記憶部111、返信テキスト生成部112及び制御部113を有する。
【0016】
テキスト送受信部101は、ユーザが対話を行う相手(以下、単に対話相手と称する)からテキスト(以下、単に受信テキストと称する)を受信したり、対話相手に返事に相当するテキスト(以下、単に返信テキストと称する)を送信したりする。上記テキストの送受信は、メールプロトコル等の所定の通信プロトコルに従って、有線ネットワークまたは無線ネットワークを介して行われる。上記テキストは、ユーザと対話相手との間の対話を実現する対話手段によって様々な態様が考えられ、例えば電子メール、チャットメッセージまたはBBSの投稿メッセージが挙げられる。また、テキスト送受信部101は、受信テキストに画像ファイルや音声ファイル等が添付されている場合にはこれらを受信してもよいし、返信テキストにこれらを添付して送信してもよい。また、受信テキストの添付データがテキストデータである場合には、当該添付データも受信テキストと同様に扱ってよい。テキスト送受信部101は、制御部113を介して受信テキストを形態素解析部102、音声合成部103、ディスプレイ106及び返信テキスト生成部112に入力する。
【0017】
形態素解析部102は、制御部113からの受信テキストに対して形態素解析処理を行う。具体的には、上記形態素解析処理によって受信テキストを構成する単語が得られ、更に当該単語の読み情報、品詞情報、基本形及び活用形等の言語情報が得られる。形態素解析部102は、上記受信テキストに対する形態素解析結果を制御部113に返す。
【0018】
音声合成部103は、制御部113からの受信テキストに応じて所定の音声信号を合成する音声合成処理を行うことにより、当該受信テキストを音声信号に変換する。音声合成部103によって合成された音声信号は、スピーカ104を介してユーザに提示される。
【0019】
マイクロホン105は、ユーザからの発話を受け、制御部113を介して音声データを連続音声認識部110に入力する。また、マイクロホン105は、後述する再音声入力時には、ユーザからの発話を再度受けて、制御部113を介して音声データを音声蓄積部108及び孤立単語音声認識部109に入力する。
【0020】
ディスプレイ106は、例えばLCD(Liquid Crystal Display)、有機EL(Electro Luminescence)ディスプレイ等である。ディスプレイ106には、受信テキスト、後述する連続音声認識結果、孤立単語音声認識結果及び返信テキスト等が表示される。
【0021】
切替指示入力部107は、ユーザから返信テキストの生成方式の切替指示の入力を受理する。切替指示入力部107は、受理した切替指示を制御部113に入力する。尚、上記返信テキストの生成方式の詳細は後述する。切替指示入力部107は、例えば図1の対話文生成装置の筐体に備え付けられるボタン、スイッチまたはキー、ディスプレイ106に表示されるボタン等として実現可能である。
【0022】
連続音声認識部110は、制御部113からのユーザの入力音声に対して連続音声認識処理を行う。具体的には、連続音声認識部110は、上記入力音声と、一般的な単語が網羅的に記憶される待ち受け単語記憶部(図示しない)からの待ち受け単語との間の音響的類似度及び言語的信頼度に基づき、当該入力音声を待ち受け単語で構成される言語テキストに変換する。連続音声認識部110は、音声認識結果を制御部113に返す。連続音声認識部110は、音声認識に失敗した場合には、認識失敗をユーザに告知するために所定のエラーメッセージを生成し、制御部113を介して音声合成部103またはディスプレイ106に入力してもよい。また、連続音声認識部110は、音声認識に成功した場合にも、ユーザから承認を得るために音声認識結果及び所定の承認要求メッセージを、制御部113を介して音声合成部103またはディスプレイ106に入力してもよい。
【0023】
孤立単語音声認識部109は、上記連続音声認識部110による音声認識結果に満足しなかったユーザが上記切替指示入力部107を介して切替指示を入力すると、動作を開始する。孤立単語音声認識部109は、動作開始後に、ユーザに対して再音声入力を要求する再音声入力要求メッセージを、制御部113を介して音声合成部103またはディスプレイ106に入力する。孤立単語音声認識部109は、マイクロホン105を介して受信したユーザからの再入力音声に対して孤立単語音声認識処理を行う。具体的には、孤立単語音声認識部109は、上記再入力音声と、図示しない待ち受け単語記憶部に記憶されている待ち受け単語との間の音響的類似度及び言語的信頼度に基づき、当該再入力音声の一部を待ち受け単語に変換する。孤立単語音声認識部109の待ち受け単語は、上記連続音声認識部110の待ち受け単語に比べて限定的である。孤立単語音声認識部109は、音声認識結果を制御部113に返す。孤立単語音声認識部109は、音声認識に失敗した場合には、認識失敗をユーザに告知するために所定のエラーメッセージを生成し、制御部113を介して音声合成部103またはディスプレイ106に入力してもよい。また、孤立単語音声認識部109は、音声認識に成功した場合にも、ユーザから承認を得るために音声認識結果及び所定の承認要求メッセージを、制御部113を介して音声合成部103またはディスプレイ106に入力してもよい。音声蓄積部108には、制御部113からの再入力音声が上記孤立単語音声認識部109の音声認識結果に対応付けて蓄積される。
【0024】
情報記憶部111には、対話相手となり得る人物固有の情報、例えばメールアドレス、誕生日等の情報と、当該対話相手に対応するテキストとが予め記憶されている。例えば、情報記憶部111には、図9に示すように、例えば各人物のメールアドレスと、当該人物の愛称または氏名とが対応付けて記憶される。人物の愛称、氏名等は一般に固有名詞であるから、これらを正しく音声認識することは比較的困難である。一方、対話文の冒頭に愛称、氏名等を宛名として付加することは通例であるから、これらを予めテキスト形式で記憶しておくことは、音声認識処理を利用したテキスト入力の手間を削減できる点においてユーザビリティの向上に寄与する。また、対話相手に対応する上記固有名詞を、連続音声認識部110または孤立単語音声認識部109が使用する待ち受け単語として利用してもよい。尚、情報記憶部111の記憶内容は、ユーザによって適宜削除、追加、変更等されてよい。情報記憶部111の記憶内容は、制御部113を介して返信テキスト生成部112によって適宜読み出される。
【0025】
返信テキスト生成部112は、制御部113から入力される切替指示に応じた生成方式に従って、返信テキストを生成する。具体的には、上記生成方式は、連続音声認識部110による連続音声認識結果を利用する方式と、孤立単語音声認識部109による孤立単語音声認識結果を利用する方式と、音声蓄積部108の記憶内容に基づき作成されたボイスメールを利用する方式とを含み、上記切替指示によっていずれかの方式が指定される。ここで、ボイスメールを作成することとは、生成された返信テキストに音声ファイルを添付するなど、返信テキストを受信した対話相手が当該音声ファイルを参照可能に関連付けることを意味するものとする。返信テキスト生成部112は、生成した返信テキストを制御部113を介してテキスト送受信部101に入力する。
【0026】
制御部113は、例えばCPU(Central Processing Unit)等のプロセッサを有し、図1の各部の動作を制御したり、情報/データの授受を行ったりする。例えば、制御部113は、テキストを受信した旨のメッセージを音声合成部103及びスピーカ104を介して出力させたり、ディスプレイ106に当該メッセージを表示させたり、アラーム、メロディ、楽曲等をスピーカ104を介して出力させたり、図1の対話文生成装置本体を振動させたり、図1の対話文生成装置の筐体に設けられたLED(Light Emitting Diode)ランプ等を点灯させたりすることによって、対話相手からテキストを受信したことをユーザに通知する。
【0027】
以下、図2を用いて図1の対話文生成装置の動作を説明する。
まず、テキスト送受信部101が対話相手から電子メール等のテキストを受信する(ステップS201)。次に、形態素解析部102がステップS201における受信テキストに対して形態素解析を行う(ステップS202)。次に、音声合成部103がステップS202における形態素解析結果に基づき、ステップS201における受信テキストに対応する音声信号を合成し、スピーカ104を介して当該音声信号をユーザに提示する(ステップS203)。
【0028】
次に、ステップS203における提示音声に対し、ユーザは返事に相当する音声をマイクロホン105に入力する(ステップS204)。次に、連続音声認識部110が、ステップS204における入力音声に対して音声認識処理(連続音声認識処理)を行う(ステップS205)。次に、ディスプレイ106が、例えば図4に示すように、ステップS205における音声認識結果(連続音声認識結果)を表示する(ステップS206)。
【0029】
図3は、図1の対話文生成装置のステップS203〜S206に対応する使用例を示す。具体的には、図3の使用例では、スピーカ104を介して受信テキスト「こんにちは、風邪などひいてないですか?もうすぐGWですね。楽しみです。今度そっちに遊びに行くので楽しみにしていてくださいね。」の読み上げが行われ(ステップS203)、提示音声に対する返事「ひいてないよ、大丈夫だよ。楽しみにしているよ、早くきてね。」に相当する音声をユーザがマイクロホン105を介して入力し(ステップS204)、連続音声認識部110が当該入力音声に対して音声認識処理を行い(ステップS205)、ディスプレイ106が音声認識結果「ひいてないよ、タイ丈夫だよ。楽しみにしているよ、早くいてね」を表示している。尚、図3において図1の対話文生成装置は、エージェントと称するロボット型の端末として描かれているが、上記対話文生成装置の形態はこのようなロボット型に限られないものとする。
【0030】
ユーザは、ステップS206において表示された音声認識結果に満足しなければ切替指示入力部107に切替指示を入力する。即ち、例えば図5に示すように、ユーザの発話内容と表示された音声認識結果とが大きく異なる場合に、ユーザは孤立単語音声認識結果を利用した返信テキストの生成方式を選択することができる。上記切替指示が例えば所定の待機時間内に入力されれば、処理はステップS208に進み、そうでなければ処理はステップS214に進む(ステップS207)。
【0031】
ステップS208において、ステップS203における提示音声に対し、ユーザは返事に相当する音声をマイクロホン105に再度入力する。次に、孤立単語音声認識部109が、ステップS208における再入力音声に対して音声認識処理(孤立単語音声認識処理)を行う(ステップS209)。次に、制御部113が、ステップS208における再入力音声を、ステップS209における音声認識結果(孤立単語音声認識結果)に対応付けて音声蓄積部108に記憶させる(ステップS210)。尚、音声蓄積部108の記憶態様は、例えば図8に示すように音声認識結果を構成する単語毎に、分割された再入力音声を対応付けるものであってもよいし、図11に示すように音声認識結果全体に、再入力音声全体を対応付けるものであってもよい。図8及び図11において、説明の便宜上、対応する再入力音声がテキスト化されて表示されているが、実際にはこれらは所定の形式の音声ファイル等である。次に、ディスプレイ106が、例えば図6に示すように、ステップS210における音声認識結果を表示する(ステップS211)。
【0032】
ユーザは、ステップS211において表示された音声認識結果に満足しなければ切替指示入力部107に切替指示を入力する。即ち、例えば図7に示すように、ユーザの発話内容と表示された音声認識結果とが大きく異なる場合に、ユーザはボイスメールを利用した返信テキストの生成方式を選択することができる。上記切替指示が例えば所定の待機時間内に入力されれば、処理はステップS214に進み、そうでなければ処理はステップS213に進む(ステップS212)。ステップS213において、返信テキスト生成部112は、制御部113を介して音声蓄積部108の記憶内容を読み出して、ボイスメールを作成し、処理はステップS214に進む。
【0033】
ステップS214において、返信テキスト生成部112が、制御部113を介して情報記憶部111から対話相手の情報と、当該対話相手に対応するテキストとを読み出す。次に、返信テキスト生成部112が、ステップS205における連続音声認識結果、ステップS209における孤立単語音声認識結果及びステップS213におけるボイスメールの少なくとも1つと、ステップS201における受信テキストと、ステップS214における読み出し内容とに基づき返信テキストを生成する(ステップS215)。次に、テキスト送受信部101は、ステップS215において生成された返信テキストを対話相手に送信する。
【0034】
ステップS215において、例えば図10に示すように、返信テキスト生成部112は、ステップS214において読み出した対話相手のメールアドレス「miwako@softobank.jp」(図9参照)を送信先メールアドレスとして指定した返信メールを返信テキストとして作成する。返信テキスト生成部112は、上記返信メールの件名(Subject)として、受信テキストの件名「ひさしぶり」を引用し、返信を意味する記号として一般に用いられる「RE:」を冒頭に付加して、「RE:ひさしぶり」を生成する。
【0035】
返信テキスト生成部112は、ステップS214において対話相手に対応するテキストとして読み出した、対話相手の愛称「みわこちゃん」(図9参照)を返信テキスト本文の冒頭に挿入する。また、例えば、返信テキスト生成部112は、返信テキストを生成した日がステップS214において読み出した対話相手の誕生日に一致していれば、「みわこちゃん、お誕生日おめでとう」等のお祝いメッセージを追加してもよい。更に、返信テキスト生成部112は、ステップS201における受信テキストの本文「こんにちは。風邪などひいてないですか?もうすぐGWですね。楽しみですね。今度そっちに行くので楽しみにしていて下さいね」を引用し、引用を意味する記号として一般に用いられる「>」を各引用文の冒頭に付加して、返信テキスト本文に挿入する。更に、返信テキスト生成部112は、上記引用部分に対する返事としてステップS209における孤立単語音声認識結果及びステップS213におけるボイスメールを挿入している。即ち、返信テキスト生成部112は、孤立単語音声認識結果「いない タイ 頼み 早く」(図7参照)を挿入すると共に、当該孤立単語音声認識結果を構成する単語「いない」、「タイ」、「頼み」及び「早く」の各々に対応する再入力音声「ひいてないよ」、「大丈夫だよ、」、「楽しみにしているよ」及び「早く来てね」(図8参照)を再生するための音声ファイルを参照可能に関連付けて挿入している。上記音声ファイルを参照するための態様は特に限定されないが、例えば対話相手が返信テキスト中に挿入された上記孤立単語音声認識結果を構成する単語を選択すると、選択された単語に対応する音声ファイルが再生されるようにしてもよい。
【0036】
また、図12に示すように、返信テキスト生成部112は、上記引用部分に対する返事として孤立単語音声認識結果「いない タイ 頼み 早く」(図7参照)を挿入すると共に、当該孤立単語音声認識結果に対応する再入力音声「ひいてないよ、大丈夫だよ、楽しみにしているよ早く来てね」(図11参照)の音声ファイルを参照可能に関連付けて挿入してもよい。また、上記音声ファイルを参照するための態様も特に限定されないが、例えば前述した態様と同様に、対話相手が返信テキスト中に挿入された孤立単語音声認識結果を選択すると、対応する音声ファイルが再生されるようにしてもよい。
【0037】
また、返信テキスト生成部112は、返信テキストの生成方式に応じて、上記引用部分に対する返事としてステップS205における連続音声認識結果またはステップS209における孤立単語音声認識結果を挿入してもよい。
【0038】
以上説明したように本実施形態に係る対話文生成装置は、対話相手固有の情報や当該対話相手に対応する定型テキストを利用して対話文を生成するようにしている。従って本実施形態に係る対話文生成装置によれば、定型的なテキストをユーザが音声入力することなく返信テキストの一部として自動的に挿入可能なため、ユーザの入力の手間を削減できる。また、本実施形態に係る対話文生成装置は、連続音声認識結果、孤立単語音声認識結果、ボイスメール等を選択的に利用して返信テキストを生成している。従って、本実施形態に係る対話文生成装置によれば、周囲環境に影響されて音声認識精度が変動しても、適切な態様で返信テキストを生成することができるため、ユーザは音声認識結果に満足するまで音声入力を繰り返したり、音声入力を諦めたりしなくてもよい。
【0039】
(第2の実施形態)
図13に示すように、本発明の第2の実施形態に係る対話文生成装置は、上記図1に示す対話文生成装置において、制御部113を制御部118に置き換え、通信部114、使用履歴記憶部115、テンプレート記憶部116及び送信テキスト生成部117を更に備えている。以下の説明では、図13において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
【0040】
通信部114は、無線ネットワークまたは有線ネットワークを介して図13の対話文生成装置と通信可能なインタフェースを有する情報家電との間で通信を行う。上記情報家電には、例えばTV、ビデオレコーダ、オーディオプレーヤ等のいわゆるデジタル家電だけでなく、電子レンジ、エアコン等のいわゆる白物家電が含まれる。通信部114は、上記通信によって上記情報家電に対するユーザの使用履歴情報を取得する。上記使用履歴情報は、使用日時、家電種別及び属性を含む。上記属性の態様は、情報家電の家電種別に応じて異なり、例えばテレビまたはビデオレコーダであればユーザの視聴/録画した番組の番組情報(番組名等)、オーディオプレーヤであればユーザの再生した楽曲の楽曲情報(楽曲名等)、電子レンジであればユーザの選択した調理メニューの情報、エアコンであれば設定温度等が挙げられる。上記使用履歴情報は、各機器によって逐次蓄積され、周期的または通信部114からの要求に応じて図13の対話文生成装置に送信される。通信部114は、情報家電から受信した使用履歴情報を、制御部118を介して使用履歴記憶部115に記憶させる。使用履歴記憶部115には、図14に示すように、制御部118からの使用履歴情報が記憶される。
【0041】
テンプレート記憶部116には、例えば図15に示すように、使用履歴記憶部115に記憶され得る使用履歴情報と、当該使用履歴情報に基づいて返信テキストに追加可能な追加テキストとが対応付けて記憶され、追加テキストテンプレートが構築されている。ここで、追加テキストとは、ユーザ以外の者(例えば、図13の対話文生成装置自体)が主体となって上記使用履歴情報から推定されるユーザの生活状況を述べるような形式のテキストである。上記追加テキストの主体(例えば、図15における「ロボット」)も、追加テキストテンプレートに登録され、追加テキストと共に後述する送信テキストに挿入される。図15において、Pは、家電種別が確率的に代入されることを意味し、NULLは、情報家電の使用履歴情報が無い場合を意味する。また、*は、追加テキストの発生が確率的であることを示す。即ち、図15において家電種別が電子レンジである場合、追加テキストは「(ユーザは)(属性)を食べたよ/飲んだよ。おいしかった?」、「(属性)を食べたよ/飲んだよ。おいしかった?」、「(ユーザは)(属性)を食べたよ/飲んだよ。」または「(属性)を食べたよ/飲んだよ。」のいずれかとなる。このように、同一の家電種別に対応する追加テキストにおいて、一部を確率的に発生させることにより、追加テキストが単調になりにくくなる。
【0042】
また、テンプレート記憶部116には、例えば図16に示すように、使用履歴記憶部115に記憶され得る使用履歴情報と、当該使用履歴情報に対応する件名とが対応付けて記憶され、件名テンプレートが構築されている。後述する送信テキスト生成部117は、テンプレート記憶部116に記憶されている件名のうち、例えば1日の中で使用時間が最も長い家電種別に対応するものを選択する。尚、図16において、Aは家電種別毎の使用時間の差が比較的小さい場合、Nはいずれの家電種別の使用時間も比較的短い場合を夫々意味する。
【0043】
送信テキスト生成部117は、制御部118を介して使用履歴記憶部115から読み出した使用履歴情報と、テンプレート記憶部116に記憶されている追加テキストテンプレート及び件名テンプレートとを利用して送信テキストを生成する。より詳細には、送信テキスト生成部117は、上記追加テキストテンプレートを利用して送信テキストに追加テキストを挿入すると共に、当該追加テキストに対するコメントをユーザに要求する。ユーザがマイクロホン105を介して音声を入力すると、送信テキスト生成部117は、当該入力音声に対する音声認識結果を上記追加テキストに対するコメントとして送信テキストに挿入する。送信テキスト生成部117は、生成した送信テキストを制御部118を介してテキスト送受信部101に入力する。制御部118は、例えばCPU等のプロセッサを有し、図13の各部の動作を制御したり、情報/データの授受を行ったりする。
【0044】
以下、図17を用いて送信テキスト生成部117による送信テキストの生成処理を説明する。送信テキスト生成部117は、使用履歴記憶部115に記憶される使用履歴情報(図14参照)を読み出し、使用時間の最も長い家電種別「TV」に対応する件名「今日はTV見たよ」をテンプレート記憶部116に記憶される件名テンプレート(図16参照)に基づき生成し、送信テキストの件名として代入する。また、送信テキスト生成部117は、追加テキストの主体となる「ロボット」をテンプレート記憶部116に記憶される追加テキストテンプレート(図15参照)に基づき生成し、送信テキストに挿入する。次に、送信テキスト生成部117は、上記使用履歴情報のうち、[日時=2008年6月21日 12:00−12:30,家電種別=電子レンジ,属性=塩鮭]を読み出し、上記追加テキストテンプレートを利用して生成した追加テキスト「おかあさんは昼に塩鮭を食べたよ。」を送信テキストに挿入する。次に、送信テキスト生成部117は、上記使用履歴情報のうち、[日時=2008年6月21日 19:00−19:20,家電種別=電子レンジ,属性=鶏の照焼き]を読み出し、上記追加テキストテンプレートを利用して生成した追加テキスト「夜に鶏の照焼きを食べたよ。」を送信テキストに挿入する。次に、送信テキスト生成部117は、上記使用履歴情報のうち、[日時=2008年6月21日 19:25−19:30,家電種別=電子レンジ,属性=お酒]を読み出し、上記追加テキストテンプレートを利用して生成した追加テキスト「お酒も飲んだよ。おいしかった?」を送信テキストに挿入する。以上のように、家電種別「電子レンジ」に関する追加テキストの生成が終了すると、図13の対話文生成装置は上記追加テキストをディスプレイ106に表示するなどして、ユーザにコメントを要求する。ユーザは、上記追加テキストに対するコメントとして音声「おいしかった。」をマイクロホン105を介して入力する。上記入力音声に対して、連続音声認識部110によって音声認識処理が行われ、当該入力音声の内容を示す音声認識結果「おいしかった。」が得られる。送信テキスト生成部117は、上記音声認識結果「おいしかった。」を送信テキストに挿入する。尚、コメントは、1項目の使用履歴情報に基づく追加テキストを挿入する毎に要求されてもよいし、全ての家電種別に関する追加テキストを挿入してからまとめて要求されてもよい。
【0045】
次に、送信テキスト生成部117は、上記使用履歴情報のうち、[日時=2008年6月21日 19:30−21:15,家電種別=TV,属性=プロ野球巨阪−ソフトクリーム戦]を読み出し、上記追加テキストテンプレートを利用して生成した追加テキスト「夜にプロ野球巨阪−ソフトクリーム戦を見たよ。」を、当該追加テキストの主体「ロボット」と共に送信テキストに挿入する。このように、家電種別「TV」に関する追加テキストの生成が終了すると、図13の対話文生成装置はユーザにコメントを要求する。ユーザは、上記追加テキストに対するコメントとして音声「一生懸命応援したわよ。」をマイクロホン105を介して入力する。上記入力音声に対して、連続音声認識部110によって音声認識処理が行われ、当該入力音声の内容を示す音声認識結果「一生懸命応援したわよ。」が得られる。送信テキスト生成部117は、上記音声認識結果「一生懸命応援したわよ。」を送信テキストに挿入する。
【0046】
以上説明したように、本実施形態に係る対話文生成装置は、ユーザの情報家電に対する使用履歴情報を利用して追加テキストを挿入し、当該追加テキストに対するユーザからのコメントを利用して送信テキストを生成している。従って、本実施形態に係る対話文生成装置によれば、話題が単調になりがちな利用態様においても、ユーザに話題のヒントを提供することができるので、対話が継続しやすくなる。
【0047】
尚、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
【0048】
その一例として例えば、上記各実施形態では、日本語のテキストを例にとって説明したが、当業者であれば英語、中国語またはその他のテキストに置き換えて実施しても同様の効果が得られる。
【0049】
その他、本発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
【図面の簡単な説明】
【0050】
【図1】第1の実施形態に係る対話文生成装置を示すブロック図。
【図2】図1の対話文生成装置の動作を示すフローチャート。
【図3】図1の対話文生成装置の使用例を示す図。
【図4】図1のディスプレイの表示内容の一例を示す図。
【図5】図1のディスプレイの表示内容の一例を示す図。
【図6】図1のディスプレイの表示内容の一例を示す図。
【図7】図1のディスプレイの表示内容の一例を示す図。
【図8】図1の音声蓄積部の記憶内容の一例を示す図。
【図9】図1の情報記憶部の記憶内容の一例を示す図。
【図10】図1の返信テキスト生成部によって生成される返信テキストの一例を示す図。
【図11】図1の音声蓄積部の記憶内容の一例を示す図。
【図12】図1の返信テキスト生成部によって生成される返信テキストの一例を示す図。
【図13】第2の実施形態に係る対話文生成装置を示すブロック図。
【図14】図13の使用履歴記憶部の記憶内容の一例を示す図。
【図15】図13のテンプレート記憶部の記憶内容の一例を示す図。
【図16】図13のテンプレート記憶部の記憶内容の一例を示す図。
【図17】図13の送信テキスト生成部によって生成される送信テキストの一例を示す図。
【符号の説明】
【0051】
101・・・テキスト送受信部
102・・・形態素解析部
103・・・音声合成部
104・・・スピーカ
105・・・マイクロホン
106・・・ディスプレイ
107・・・切替指示入力部
108・・・音声蓄積部
109・・・孤立単語音声認識部
110・・・連続音声認識部
111・・・情報記憶部
112・・・返信テキスト生成部
113・・・制御部
114・・・通信部
115・・・使用履歴記憶部
116・・・テンプレート記憶部
117・・・送信テキスト生成部
118・・・制御部

【特許請求の範囲】
【請求項1】
対話相手からの第1のテキストを受信する受信部と、
前記対話相手となり得る人物毎に、当該人物固有の情報と当該人物に対応する定型テキストとが記憶される情報記憶部と、
前記第1のテキストの内容をユーザに提示する提示部と、
提示された前記第1のテキストに関する前記ユーザの発話に対して音声認識処理を行って、前記発話の内容を示す音声認識結果を生成する音声認識部と、
前記対話相手に対応する情報及び定型テキストと、前記音声認識結果とに基づき第2のテキストを生成する生成部と、
前記第2のテキストを前記対話相手に送信する送信部と
を具備することを特徴とする対話文生成装置。
【請求項2】
前記ユーザから、前記第2のテキストの生成方式を切り替える切替指示の入力を受理する入力部を更に具備し、
前記音声認識部は、前記発話に対して連続音声認識処理を行って連続音声認識結果を得る連続音声認識部と、前記発話に対して孤立単語音声認識処理を行って孤立単語音声認識結果を得る孤立単語音声認識部とを有し、前記切替指示に応じて前記連続音声認識結果及び前記孤立単語音声認識結果のいずれか一方を前記音声認識結果として出力することを特徴とする請求項1記載の対話文生成装置。
【請求項3】
前記発話を音声ファイルとして蓄積する蓄積部を更に具備し、
前記生成部は、前記切替指示に応じて前記音声認識結果に前記音声ファイルを参照可能に関連付けて前記第2のテキストを生成することを特徴とする請求項2記載の対話文生成装置。
【請求項4】
前記ユーザの使用する情報家電との間で通信を行って、前記情報家電に対する前記ユーザの使用履歴情報を取得する通信部と、
前記使用履歴情報が記憶される使用履歴記憶部と、
前記使用履歴情報と、当該使用履歴情報に対応する追加テキストとが対応付けられた追加テキストテンプレートが記憶されるテンプレート記憶部とを更に具備し、
前記生成部は、前記使用履歴情報に対応する追加テキスト及び当該追加テキストに関する前記ユーザの発話に対する音声認識結果を用いて前記第2のテキストを生成することを特徴とする請求項1乃至3のいずれか1項記載の対話文生成装置。
【請求項5】
前記テンプレート記憶部には、前記使用履歴情報と、当該使用履歴情報に対応する件名とが対応付けられた件名テンプレートが更に記憶され、
前記生成部は、前記使用履歴情報に対応する件名を用いて前記第2のテキストを生成することを特徴とする請求項4記載の対話文生成装置。
【請求項6】
前記使用履歴情報は、前記ユーザの使用時間、家電種別及び属性の少なくとも1つを含むことを特徴とする請求項4または5記載の対話文生成装置。
【請求項7】
対話相手からの第1のテキストを受信することと、
前記対話相手となり得る人物毎に、当該人物固有の情報と当該人物に対応する定型テキストとを記憶することと、
前記第1のテキストの内容をユーザに提示することと、
提示された前記第1のテキストに関する前記ユーザの発話に対して音声認識処理を行って、前記発話の内容を示す音声認識結果を生成することと、
前記対話相手に対応する情報及び定型テキストと、前記音声認識結果とに基づき第2のテキストを生成することと、
前記第2のテキストを前記対話相手に送信することと
を具備することを特徴とする対話文生成方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2010−72578(P2010−72578A)
【公開日】平成22年4月2日(2010.4.2)
【国際特許分類】
【出願番号】特願2008−243046(P2008−243046)
【出願日】平成20年9月22日(2008.9.22)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】