説明

音声応答装置及び方法

【課題】 通話相手に対して応答者の意図を反映した音声応答を行いつつ、高いユーザビリティを確保可能な音声応答装置を提供する。
【解決手段】 通話相手側の機器からの第1の音声データを音声認識して、第1の音声データの発話内容を示す言語テキストを得る音声認識部102と、言語テキストに対し、定型表現に応じた意図種類及び要求されている情報を規定した解析ルールを適用して通話相手の意図を認識する意図認識部104と、第1の音声データを再生し、応答者に提示する提示部103と、第1の音声データの提示時における応答者の動作情報を取得する取得部107と、動作情報に基づき、応答者の意図を認識する意図認識部108と、第1の音声データの提示時における応答者の状況を認識する状況認識部109と、応答者の状況、通話相手の意図及び応答者の意図を反映した応答を生成する生成部106とを具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通話相手に対して音声応答を行う音声応答装置に関する。
【背景技術】
【0002】
近年、例えば携帯電話機の普及により、音声通話を容易に行うための環境が整えられている。通常、利用者は携帯電話機を常時携帯するが、通話の推奨されない状況が幾つか存在する。例えば、電車及びバスといった公共交通機関の乗車中、会議中、仕事中、講義中、深夜またはプライバシーが保てない場所等における音声通話は、社会通念等の理由により推奨されない。従って、音声通話の推奨されない状況(以下、単に通話非推奨状態と称する)下にある利用者は、多くの場合、留守番電話機能を利用したり、上記通話非推奨状態が解消された後に改めて音声通話を試みたりする。
【0003】
特許文献1記載の対話型留守番電話機は、通話相手(発呼者)からの音声メッセージに応じた応答メッセージを自動生成して送出することにより、上記通話相手等を特定できる音声メッセージを録音することを目的としている。
【0004】
尚、通話非推奨状態であっても、通話相手からの音声を聞くのみであれば許容される場合が考えられる。例えば、深夜に音声通話が推奨されないのは、周囲の人間が就寝しているであろうと予想される時刻に応答者が音声を発することが社会通念に照らして非常識なためであり、応答者が音声を発しなければ特に問題は生じないと考えられる。
【0005】
特許文献2記載の無通話会話方式は、携帯電話機のテンキーに所定の応答音声を割り当てておくことにより、応答者が自ら音声を発することなく、通話相手に対して音声応答を行っている。上記特許文献2記載の無通話会話方式によれば周囲に迷惑をかけることなく通話相手に対して音声応答を行うことが可能となる。
【0006】
特許文献3記載の携帯端末装置は、通話相手に対するメッセージに対応付けられた所定のジェスチャを応答者が行い、カメラ機能を利用して応答者自身を撮影することにより、当該ジェスチャに応じたメッセージを通話相手に送信している。
【特許文献1】特開第2590366号公報
【特許文献2】特開平10−107915号公報
【特許文献3】特開2005−303832号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
特許文献1記載の対話型留守番電話機は、応答メッセージを自動的に生成するため当該応答メッセージに応答者の意図が反映されない。特許文献3記載の携帯端末装置は、応答者が応答メッセージをジェスチャで表現するため、当該応答メッセージには応答者の意図が反映される。しかしながら、特許文献3記載の携帯端末装置は、応答者がカメラ機能を利用して応答者自身を撮影する必要があり、コミュニケーションを円滑に行ううえで問題がある。
【0008】
特許文献2記載の無通話会話方式は、応答者が音声通話中に応答音声の割り当てられたテンキーを押下するため、当該応答音声には応答者の意図が反映される。しかしながら、携帯電話機はテンキーと受話器とが一体になったデザインが一般的であるため、特許文献2記載の無通話会話方式はユーザビリティに欠ける問題がある。即ち、応答者は通話相手からの発話に即座に応答したければテンキーを見ることなく押下しなければならず、誤操作が生じやすいと考えられる。また、応答者が携帯電話機を耳元から一旦離してからテンキーを押下するようにしたとしても、通話相手の発話からテンキーの押下までの間のタイムラグが大きくなるため、コミュニケーションの円滑化に支障をきたす。また、応答者がテンキーと音声応答との対応関係を把握する必要がある。更に、テンキーの数の都合上、応答者が選択可能な応答は「はい」、「いいえ」及び「もう一度お願いします」等の簡単なものに限られるため、通話相手の意図に沿った応答を行うことが困難である。
【0009】
従って、本発明は、通話相手に対して応答者の意図を反映した音声応答を行いつつ、高いユーザビリティを確保可能な音声応答装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明の一態様に係る音声応答装置は、通話相手側の機器からの第1の音声データを入力する入力部と、前記第1の音声データを音声認識して、当該第1の音声データの発話内容を示す言語テキストを得る音声認識部と、前記言語テキストに対し、定型表現に応じた意図種類及び要求されている情報を規定した解析ルールを適用して前記通話相手の意図を認識する第1の意図認識部と、前記第1の音声データを再生し、応答者に提示する提示部と、前記第1の音声データの提示時における前記応答者の動作情報を取得する取得部と、前記動作情報に基づき、前記応答者の意図を認識する第2の意図認識部と、前記第1の音声データの提示時における応答者の状況を認識する状況認識部と、前記第1の音声データの提示時における応答者の状況、前記通話相手の意図及び前記応答者の意図を反映した応答を生成する生成部と、前記応答に応じた第2の音声データを前記通話相手側の機器へ出力する出力部とを具備する。
【発明の効果】
【0011】
本発明によれば、通話相手に対して応答者の意図を反映した音声応答を行いつつ、高いユーザビリティを確保可能な音声応答装置を提供できる。
【発明を実施するための最良の形態】
【0012】
以下、図面を参照して、本発明の一実施形態について説明する。
図1に示すように、本発明の一実施形態に係る音声応答装置は、通話入力部101、音声認識部102、音声提示部103、通話相手の意図認識部104、発話解析ルール記憶部105、応答生成部106、動作情報入力部107、応答者の意図認識部108、状況認識部109、応答生成ルール記憶部110、音声再生部111、応答音声記憶部112及び応答出力部113を有する。図1の音声応答装置は、公衆網または移動体通信等を介して通話相手側の通話機器(固定電話機または携帯電話機等)と音声通信可能であり、例えば、応答者が通話相手からの着信に応じて図示しない通話ボタンをオンすることにより通話相手との通話が開始される。
【0013】
通話入力部101は、通話相手の発声した発話音声データを公衆網または移動体通信等を介して取得し、音声認識部102及び音声提示部103に入力する。音声提示部103は、通話入力部101からの発話音声データを再生し、スピーカ等により応答者に提示する。
【0014】
音声認識部102は、通話入力部101からの発話音声データに対し音声認識を行って、当該発話音声データの内容を示す言語テキストを得る。音声認識部102は、音声認識結果を通話相手の意図認識部104に入力する。音声認識部102は、実際には発話音声データを適当な単位で区切って、音声認識を行う。例えば、音声認識部102は、一定時間の経過毎に、或いは、通話相手の発話が一定時間(例えば0.3秒)以上途切れる毎に発話音声データを区切る。
【0015】
通話相手の意図認識部104は、音声認識部102からの音声認識結果を、発話解析ルール記憶部105から読み出した発話解析ルールを用いて解析し、通話相手の意図を認識する。通話相手の意図認識部104は、例えば、「呼びかけ」、「質問(Yes/No)」、「質問(Factoid)」及び「宣言」等の意図種類と、「状況」、「場所」、「理由」及び「時刻」等の要求されている情報との組み合わせを通話相手の意図として認識する。通話相手の意図認識部104は、通話相手の意図認識結果を応答生成部106に通知する。尚、通話相手の意図認識部104による意図認識処理の詳細は、後述する。
【0016】
発話解析ルール記憶部105には、音声認識結果から通話相手の意図を認識するための発話解析ルールが記憶されている。発話解析ルールは、通話相手の意図認識部104によって適宜読み出される。
【0017】
応答生成部106は、応答生成ルール記憶部110に記憶されている応答生成ルールを用いて、状況認識部109からの状況認識結果と、通話相手の意図認識部104からの意図認識結果と、応答者の意図認識部108からの意図認識結果とを反映した応答を生成する。尚、応答生成部106による応答生成処理の詳細は、後述する。応答生成部106は、生成した応答を音声再生部111に入力する。
【0018】
動作情報入力部107は、応答者の動作情報を取得し、応答者の意図認識部108及び状況認識部109に入力する。動作情報入力部107は、例えば、加速度センサによって図1の音声応答装置の三次元方向の加速度データを検出することにより、応答者の頭部の動き(例えば、「頷き」、「首振り」及び「傾け」)につれて自然に発生する音声応答装置の動きや、応答者が意図的に行う音声応答装置を用いた動作(例えば、上記「頷き」動作を模した「上下方向への振動」や、上記「首振り」を模した「左右方向への振動」)等を示す動作情報を取得する。
【0019】
応答者の意図認識部108は、動作情報入力部107からの動作情報に基づき応答者の意図を認識する。具体的には、応答者の意図認識部108は、動作情報を「肯定」、「否定」、「保留」及び「問い返し」のいずれかのジェスチャに分類し、更に当該ジェスチャの強度や回数(頻度)等の時系列データを生成する。応答者の意図認識部108は、応答者の意図認識結果を応答生成部106に通知する。尚、応答者の意図認識部108による意図認識処理の詳細は、後述する。
【0020】
状況認識部109は、応答者の現在置かれている状況を認識し、認識結果を応答生成部106に通知する。ここで、状況とは例えば、「電車でA駅とB駅との間を走行中」、「A駅周辺を歩行中」、「ABCレストランで食事中」及び「オフィスで会議中」等であって、現在時刻、応答者の現在位置及び現在の活動(予定)等を含む。尚、状況認識部109が認識可能な状況の形式は、特に限定されない。ここで、現在とは、音声提示部103によって、発話音声データが再生され、スピーカ等により応答者に提示された時を指すものとする。
【0021】
例えば、状況認識部109は、図示しないGPS(Global Positioning System)情報取得部によって応答者の現在位置情報を取得し、当該現在位置情報の時系列データに基づいて応答者の状況を認識してよい。また、状況認識部109は、スケジュール機能またはカレンダー機能と、時計機能とを利用して応答者の現在の活動予定を認識してもよい。また、状況認識部109は、動作情報入力部107からの動作情報(加速度データ)によって応答者の移動速度を取得し、「歩行中」、「走行中」「電車で移動中」等の応答者の状況を認識してもよい。また、状況認識部109は、図示しないマイクロホン等により周囲の環境音を取得して状況認識に利用したり、いわゆるマナーモード(サイレントモード)等の機器の動作モード及び応答者による操作履歴を状況認識に利用したりしてもよい。
【0022】
応答生成ルール記憶部110には、状況認識結果、通話相手の意図認識結果及び応答者の意図認識結果を反映した応答を生成するための応答生成ルールが記憶されている。応答生成ルールは、応答生成部106によって適宜読み出される。
【0023】
音声再生部111は、応答生成部106によって生成された応答に応じた応答音声データを応答音声記憶部112から読み出し、応答出力部113に入力する。応答出力部113は、音声再生部111からの応答音声データを通話相手の通話機器に向けて出力する。
【0024】
応答音声記憶部112には、応答生成部106が生成可能な応答に対応する応答音声データが記憶されている。上記応答音声データは予め録音された応答者本人の声であってもよいし、当該応答者本人や他人の声を模した合成音であってもよい。
【0025】
以下、図2を用いて、図1の音声応答装置の動作を説明する。図2において、実線で描かれたフローは図1の音声応答装置の動作を示し、点線で描かれたフローは図1の音声応答装置に対する応答者の操作を示している。
【0026】
通話相手の通話機器からの着信があると(ステップS201)、応答者が通話ボタンをオンすることにより(ステップS211)、通話が開始し(ステップS202)、処理はステップS203に進む。
【0027】
ステップS203において、状況認識部109が状況認識を行う。通話相手からの発話が入力されるまでステップS203が繰り返され、通話相手からの発話音声データが入力されると処理はステップS205に進む(ステップS204)。
【0028】
ステップS204において通話相手からの発話音声データが入力されると、応答者は音声提示部103によって出力される当該発話音声データの再生音声を聞き(ステップS212)、当該再生音声に対する応答としてジェスチャを入力する(ステップS213)。
【0029】
応答者によるステップS212及びステップS213の処理に並行して、通話相手の意図認識部104が、発話音声データの音声認識結果に基づいて通話相手の意図を認識する(ステップS205)。
【0030】
次に、動作情報入力部107が動作情報の取得を試みる(ステップS206)。ステップS213においてジェスチャが入力されていれば、応答者の意図認識部108は当該ジェスチャを認識し、処理はステップS208に進む(ステップS207)。一方、ステップS213においてジェスチャが入力されていなければ、応答者の意図認識部108はジェスチャを認識できず、処理はステップS203に戻る(ステップS207)。
【0031】
ステップS208において、ステップS207におけるジェスチャ認識結果と、ステップS205における通話相手の意図認識結果と、ステップS203における状況認識結果とに基づき、応答生成部106が応答者の意図を反映した応答を生成する。
【0032】
次に、ステップS208において生成された応答に応じた応答音声データを音声再生部111が再生し、応答出力部113が当該応答音声データを通話相手の通話機器に向けて出力する(ステップS209)。通話が終了すれば処理は終了し、通話が終了しなければ処理はステップS203に戻る(ステップS210)。
【0033】
以下、図4を用いて通話相手の意図認識部104による意図認識処理を説明する。
まず、通話相手の意図認識部104は、音声認識部102からの音声認識結果に対し、発話解析ルール記憶部105から読み出した発話解析ルールを適用する(ステップS301)。
【0034】
通話相手の意図認識部104は、ステップS301における発話解析ルールの適用の結果、上記音声認識結果が発話解析ルール中で規定される定型表現に該当するか否かを判定する(ステップS302)。上記音声認識結果が定型表現に該当すれば処理はステップS303に進み、そうでなければ処理はステップS304に進む。
【0035】
ステップS303において、通話相手の意図認識部104は上記音声認識結果の該当する定型表現に応じた意図種類及び要求されている情報を発話解析ルールから取得し、処理は終了する。
【0036】
ここで、定型表現を具体的に説明する。図5に示すように、発話解析ルールにおいて定型表現に、通話相手の意図(意図種類及び要求されている情報)が対応付けて規定されている。即ち、通話相手の意図認識部104は、上記音声認識結果に一致する定型表現をマッチングにより検索し、当該定型表現に対応する通話相手の意図を取得することができる。
【0037】
ステップS304において、通話相手の意図認識部104は、上記音声認識結果が発話解析ルール中で規定される質問パターンに該当するか否かを判定する。上記音声認識結果が質問パターンに該当すれば処理はステップS305に進み、そうでなければ処理はステップS307に進む。
【0038】
ステップS305において、通話相手の意図認識部104は、特開2006−209022号公報等の文献に記載されている既存の質問応答検索技術を利用することにより上記音声認識結果の該当する質問パターンに応じて回答タイプを推定する。ここで、質問パターン及び回答タイプを具体的に説明する。図6に示すように、発話解析ルールにおいて質問パターンに、通話相手の意図として意図種類及び要求されている情報(回答タイプ)が対応付けて規定されている。即ち、通話相手の意図認識部104は、上記音声認識結果に該当する質問パターンを検索し、当該質問パターンに対応する通話相手の意図を取得することができる。通話相手の意図認識部104は、質問パターンの検索において、例えば固有名詞辞書、音声認識結果の形態素解析によって得られる品詞情報及び語の並び等を適宜利用する。
【0039】
質問パターンには、「どこですか」または「何時に着きますか」のように場所や時刻等の具体的情報を尋ねる態様と、「渋谷ですか」または「3時に着きますか」のようにYes/Noで答えられる形式で間接的に場所や時刻等の具体的情報を尋ねる態様とがある。図6において、前者の意図種類は「質問(Factoid)」として、後者の意図種類は「質問(Yes/No)」として互いに区別されているが、両者は同じものとして扱われてもよい。
【0040】
ステップS305の終了後、通話相手の意図認識部104は、意図種類を「質問」とし、要求されている情報をステップS305において推定した回答タイプとする意図認識結果を応答生成部106に通知し(ステップS306)、処理は終了する。
【0041】
ステップS307において、通話相手の意図認識部104は、上記音声認識結果の元となる発話音声データの韻律を分析し、意図種類が「質問」、「保留」及び「その他」のいずれであるかを判定する。通話相手の意図認識部104が、「質問」を意図種類として判定すれば処理は前述したステップS305に進み、「保留」を意図種類として判定すれば処理はステップS308に進み、「その他」を意図種類として判定すれば処理はステップS309に進む。例えば、通話相手の意図認識部104は、通話音声データの韻律を分析した結果、語尾が上昇調であれば「質問(Yes/No)」を意図種類として判定する。
【0042】
ステップS308において、通話相手の意図認識部104は、意図種類を「保留」とし、要求されている情報を「なし」とする意図認識結果を応答生成部106に通知し、処理は終了する。ステップS309において、通話相手の意図認識部104は、意図種類を「その他」とし、要求されている情報を「なし」とする意図認識結果を応答生成部106に通知し、処理は終了する。
【0043】
以下、図7を用いて、加速度データを動作情報として利用する場合の、応答者の意図認識部108によるジェスチャ分類の一例を説明する。
応答者の意図認識部108は、応答者の頷き、あるいは、頷きを模した音声応答装置の動きを示す加速度データが得られれば応答者のジェスチャを「肯定」に分類する。具体的には、図7では高さ方向(y軸方向)の加速度データが−1cm/ms2を2回以上連続して下回れば、応答者の意図認識部108は応答者のジェスチャを「肯定」に分類している。
【0044】
応答者の意図認識部108は、応答者の首振り、あるいは、首振りを模した音声応答装置の動きを示す加速度データが得られれば応答者のジェスチャを「否定」に分類する。具体的には、図7では幅方向(x軸方向)の加速度データが−1cm/ms2を下回ること、或いは1cm/ms2を上回ることが2回以上連続すれば、応答者の意図認識部108は応答者のジェスチャを「否定」に分類している。
【0045】
その他、図7では奥行き方向(z軸方向)の加速度データ及び高さ方向の加速度データに基づき、応答者の意図認識部108は応答者のジェスチャを「保留」及び「問い返し」に夫々分類している。
【0046】
通常、日本人のジェスチャの傾向として「頷き」及び「首振り」は「肯定」及び「否定」を夫々示すので、前述したジェスチャ分類によれば、応答者の意図認識部108は応答者の自然な動作に基づいて当該応答者の意図を認識することが可能となる。また、外国人のジェスチャでは上記関係が逆転したりする等ジェスチャの傾向が異なる場合もあるので、応答者のジェスチャの傾向に合致するように判定条件が適宜変更されてもよい。
【0047】
また、判定条件の設定において、応答者が実際に発話した応答音声データと、当該発話時における加速度データとに基づく教師付き学習が利用されてもよい。応答者の意図認識部108は、上記応答音声データの音声認識結果に「はい」及び「そうです」等の肯定表現が含まれていれば加速度データを「肯定」の正解とし、「いいえ」及び「違います」等の否定表現が含まれていれば加速度データを「否定」の正解として、学習を行う。また、応答者の意図認識部108は、音声認識結果でなく応答音声データの韻律を利用して上記学習を行ってもよい。尚、上記学習は、多数の応答者を対象に行われてもよいし、特定の応答者を対象に行われてもよい。多数の応答者を対象とすれば万人向けの判定条件の設定が可能となり、特定の応答者を対象とすれば応答者に特有の癖や仕草等に対応しやすい。
【0048】
また、応答者の意図認識部108は、状況認識部109からの状況認識結果が「歩行中」、「走行中」または「電車で移動中」等のような応答者の移動を示す場合には、当該移動内容に応じた加速度データの変化量のパターン(典型的な加速度データ)を考慮してよい。即ち、動作情報入力部107からの加速度データをそのまま用いるのではなく、上記移動内容において典型的な加速度データを予めキャンセルすることにより、ジェスチャ分類の精度が向上する。
【0049】
以下、図8を用いて応答生成部106による応答生成処理を説明する。
図8において、応答生成部106は、「保留」、「否定」、「肯定」、「情報提示」、「質問確認」、「繰り返し」、「相槌(共感的)」、「意思確認」、「相槌(否定的)」、「相槌(肯定的)」及び「問い返し」の計11の応答種類のいずれかに属する応答を生成している。
【0050】
まず、応答生成部106は、応答者の意図認識部108からのジェスチャ認識結果が「保留」であるか否かを確認する(ステップS401)。ジェスチャ認識結果が「保留」であれば処理はステップS410に進み、そうでなければ処理はステップS402に進む。ステップS410において、応答生成部106は「保留」の応答(例えば、「うーん」)を生成し、応答生成処理は終了する。
【0051】
ステップS402において、応答生成部106は通話相手の意図認識部104からの意図認識結果のうち、意図種類を確認する。上記意図種類が、「質問」であれば処理はステップS403に進み、「保留」であれば処理はステップS411に進み、「質問」及び「保留」のいずれでもなければ処理はステップS415に進む。
【0052】
ステップS403において、応答生成部106は、上記ジェスチャ認識結果を再度確認する。ジェスチャ認識結果が、「否定」であれば処理はステップS404に進み、「肯定」であれば処理はステップS405に進み、「問い返し」であれば処理はステップS406に進む。
【0053】
ステップS404において、応答生成部106は「否定」の応答(例えば、「いいえ」)を生成し、処理はステップS407に進む。ステップS405において、応答生成部106は「肯定」の応答(例えば、「はい」)を生成し、処理はステップS407に進む。ステップS406において、応答生成部106は「質問確認」の応答(例えば、「もう一度お願いします」)を生成し、応答生成処理は終了する。
【0054】
ステップS407において、応答生成部106は通話相手の意図認識部104からの意図認識結果に含まれる要求されている情報を、状況認識部109からの状況認識結果より検索する。応答生成部106は、要求されている情報が「場所」であれば現在位置を状況認識結果より検索したり、要求されている情報が「時刻」であれば現在時刻を状況認識結果より検索したりする。
【0055】
ステップS407において、要求されている情報が上記状況認識結果より1つ以上検索されれば処理はステップS409に進み、そうでなければ応答生成処理は終了する(ステップS408)。ステップS409において、応答生成部106は「情報提示」の応答を生成し、応答生成処理は終了する。「情報提示」の応答は、例えば「渋谷です」のように、ステップS407における検索結果が代入されたものとなる。
【0056】
尚、ステップS402において確認された意図種類が「質問(Yes/No)」でなく、「質問(Factoid)」である場合には、ステップS405及びステップS406が省略されてもよい。また、ステップS407において検索に失敗した場合(ステップS408)に、「わかりません」等の応答を生成したうえで、応答生成処理が終了するようにしてもよい。
【0057】
ステップS411において、応答生成部106は、上記ジェスチャ認識結果を再度確認する。ジェスチャ認識結果が、「否定」であれば処理はステップS412に進み、「肯定」であれば処理はステップS413に進み、「問い返し」であれば処理はステップS413に進む。
【0058】
ステップS412において、応答生成部106は「繰り返し」の応答(例えば、前回と同じ応答)を生成し、応答生成処理は終了する。ステップS413において、応答生成部106は「相槌(共感的)」の応答(例えば、「そうですね」)を生成し、応答生成処理は終了する。ステップS414において、応答生成部106は「意思確認」の応答(例えば、「どうでしょう」)を生成し、応答生成処理は終了する。
【0059】
ステップS415において、応答生成部106は、上記ジェスチャ認識結果を再度確認する。ジェスチャ認識結果が、「否定」であれば処理はステップS416に進み、「肯定」であれば処理はステップS417に進み、「問い返し」であれば処理はステップS418に進む。
【0060】
ステップS416において、応答生成部106は「相槌(否定的)」の応答(例えば、「そうですか?」)を生成し、応答生成処理は終了する。ステップS417において、応答生成部106は「相槌(肯定的)」の応答(例えば、「うん」)を生成し、応答生成処理は終了する。ステップS418において、応答生成部106は「問い返し」の応答(例えば、「はい?」)を生成し、応答生成処理は終了する。
【0061】
また、応答生成部106は、ジェスチャの強度または頻度を応答者の意図の詳細を補足する補足情報として利用してもよい。即ち、応答生成部106は、例えば図9に示すように、ジェスチャの強度または頻度に応じて応答を異ならせて生成できる。ジェスチャの強度は例えば特定方向の加速度の大きさにより評価され、ジェスチャの頻度は例えば当該ジェスチャの連続数により評価される。応答生成部106がジェスチャの強度または頻度に応じて応答を異ならせて生成すれば、応答者の意図をより細かく反映することが可能となり、円滑なコミュニケーションの実現に寄与する。
【0062】
以上説明したように、本発明の一実施形態に係る音声応答装置は、通話相手の発話を解析して通話相手の意図を認識し、例えばジェスチャで表現される応答者の意図を認識し、応答者の現在の状況を認識し、これらの認識結果を反映した応答を生成している。具体的には、図3に示すように発話音声データの音声認識結果から得られる通話相手の意図認識結果と、応答者の意図(ジェスチャ)認識結果と、状況認識結果との組み合わせに応じて多種多様な音声応答が通話相手に出力される。従って、本実施形態に係る音声応答装置によれば、通話相手からの発話に対し応答者が簡単なジェスチャを行うだけで自身の意図を反映した音声応答を行うことが可能となるため、高いユーザビリティを確保可能できる。
【0063】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。その他、本発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
【0064】
例えば、本発明を音声リモコンに適用すれば、利用者は音声を発することなくシステムに対して指示を行うことができる。また、本発明を音声翻訳装置に適用すれば、簡単な応答であれば発話を必要とせず、自然なジェスチャを行うだけで翻訳文を生成することができる。即ち、応答を発話し、機械翻訳して翻訳文を生成する通常の音声翻訳方式に比べ、短時間で翻訳文を生成できるため、円滑なコミュニケーションの実現に役立つ。
【図面の簡単な説明】
【0065】
【図1】一実施形態に係る音声応答装置を示すブロック図。
【図2】図1の音声応答装置の動作を示すフローチャート。
【図3】図1の音声応答装置の効果の説明図。
【図4】図1の通話相手の意図認識部による意図認識処理を示すフローチャート。
【図5】図1の発話解析ルール記憶部に記憶される発話解析ルールの一例を示す図。
【図6】図5の他の例を示す図。
【図7】図1の応答者の意図認識部によるジェスチャ分類例の説明図。
【図8】図1の応答生成部による応答生成処理を示すフローチャート。
【図9】図1の応答生成ルール記憶部に記憶される応答生成ルールの一例を示す図。
【符号の説明】
【0066】
101・・・通話入力部
102・・・音声認識部
103・・・音声提示部
104・・・通話相手の意図認識部
105・・・発話解析ルール記憶部
106・・・応答生成部
107・・・動作情報入力部
108・・・応答者の意図認識部
109・・・状況認識部
110・・・応答生成ルール記憶部
111・・・音声再生部
112・・・応答音声記憶部
113・・・応答出力部

【特許請求の範囲】
【請求項1】
通話相手側の機器からの第1の音声データを入力する入力部と、
前記第1の音声データを音声認識して、当該第1の音声データの発話内容を示す言語テキストを得る音声認識部と、
前記言語テキストに対し、定型表現に応じた意図種類及び要求されている情報を規定した解析ルールを適用して前記通話相手の意図を認識する第1の意図認識部と、
前記第1の音声データを再生し、応答者に提示する提示部と、
前記第1の音声データの提示時における前記応答者の動作情報を取得する取得部と、
前記動作情報に基づき、前記応答者の意図を認識する第2の意図認識部と、
前記第1の音声データの提示時における応答者の状況を認識する状況認識部と、
前記第1の音声データの提示時における応答者の状況、前記通話相手の意図及び前記応答者の意図を反映した応答を生成する生成部と、
前記応答に応じた第2の音声データを前記通話相手側の機器へ出力する出力部と
を具備することを特徴とする音声応答装置。
【請求項2】
前記第2の意図認識部は、前記応答者の意図が「肯定」及び「否定」を少なくとも含む複数の意図種類のいずれに属するかを認識することを特徴とする請求項1記載の音声応答装置。
【請求項3】
前記第2の意図認識部は、前記応答者の意図の詳細を補足する補足情報として前記応答者の意図の強度及び頻度の少なくとも一方を認識し、
前記生成部は、前記補足情報に応じて前記応答を異ならせて生成することを特徴とする請求項1記載の音声応答装置。
【請求項4】
前記状況認識部は、前記応答者の現在位置及び現在の活動予定の少なくとも一方を前記応答者の現在の状況として認識することを特徴とする請求項1記載の音声応答装置。
【請求項5】
前記取得部は、加速度センサを有し、3次元方向の加速度データを前記動作情報として取得することを特徴とする請求項1記載の音声応答装置。
【請求項6】
前記第2の意図認識部は、前記加速度データの特定方向における大きさに基づき前記応答者の意図を認識することを特徴とする請求項5記載の音声応答装置。
【請求項7】
通話相手側の機器からの第1の音声データを入力することと、
前記第1の音声データを音声認識して、当該第1の音声データの発話内容を示す言語テキストを得ることと、
前記言語テキストに対し、定型表現に応じた意図種類及び要求されている情報を規定した解析ルールを適用して前記通話相手の意図を認識することと、
前記第1の音声データを再生し、応答者に提示することと、
前記第1の音声データの提示時における前記応答者の動作情報を取得することと、
前記動作情報に基づき、前記応答者の意図を認識することと、
前記第1の音声データの提示時における応答者の状況を認識することと、
前記第1の音声データの提示時における応答者の状況、前記通話相手の意図及び前記応答者の意図を反映した応答を生成することと、
前記応答に応じた第2の音声データを前記通話相手側の機器へ出力することと
を具備することを特徴とする音声応答方法。
【請求項8】
コンピュータを
通話相手側の機器からの第1の音声データを入力する入力手段、
前記第1の音声データを音声認識して、当該第1の音声データの発話内容を示す言語テキストを得る音声認識手段、
前記言語テキストに対し、定型表現に応じた意図種類及び要求されている情報を規定した解析ルールを適用して前記通話相手の意図を認識する第1の意図認識手段、
前記第1の音声データを再生し、応答者に提示する提示手段、
前記第1の音声データの提示時における前記応答者の動作情報を取得する取得手段、
前記動作情報に基づき、前記応答者の意図を認識する第2の意図認識手段、
前記第1の音声データの提示時における応答者の状況を認識する状況認識手段、
前記第1の音声データの提示時における応答者の状況、前記通話相手の意図及び前記応答者の意図を反映した応答を生成する生成手段、
前記応答に応じた第2の音声データを前記通話相手側の機器へ出力する出力手段
として機能させるための音声応答プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2010−34695(P2010−34695A)
【公開日】平成22年2月12日(2010.2.12)
【国際特許分類】
【出願番号】特願2008−192532(P2008−192532)
【出願日】平成20年7月25日(2008.7.25)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】