音声応答装置及び方法

【課題】通話相手に対して応答者の意図を反映した音声応答を行いつつ、高いユーザビリティを確保可能な音声応答装置を提供する。
【解決手段】通話相手側の機器からの第１の音声データを音声認識して、第１の音声データの発話内容を示す言語テキストを得る音声認識部１０２と、言語テキストに対し、定型表現に応じた意図種類及び要求されている情報を規定した解析ルールを適用して通話相手の意図を認識する意図認識部１０４と、第１の音声データを再生し、応答者に提示する提示部１０３と、第１の音声データの提示時における応答者の動作情報を取得する取得部１０７と、動作情報に基づき、応答者の意図を認識する意図認識部１０８と、第１の音声データの提示時における応答者の状況を認識する状況認識部１０９と、応答者の状況、通話相手の意図及び応答者の意図を反映した応答を生成する生成部１０６とを具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、通話相手に対して音声応答を行う音声応答装置に関する。
【背景技術】
【０００２】
近年、例えば携帯電話機の普及により、音声通話を容易に行うための環境が整えられている。通常、利用者は携帯電話機を常時携帯するが、通話の推奨されない状況が幾つか存在する。例えば、電車及びバスといった公共交通機関の乗車中、会議中、仕事中、講義中、深夜またはプライバシーが保てない場所等における音声通話は、社会通念等の理由により推奨されない。従って、音声通話の推奨されない状況（以下、単に通話非推奨状態と称する）下にある利用者は、多くの場合、留守番電話機能を利用したり、上記通話非推奨状態が解消された後に改めて音声通話を試みたりする。
【０００３】
特許文献１記載の対話型留守番電話機は、通話相手（発呼者）からの音声メッセージに応じた応答メッセージを自動生成して送出することにより、上記通話相手等を特定できる音声メッセージを録音することを目的としている。
【０００４】
尚、通話非推奨状態であっても、通話相手からの音声を聞くのみであれば許容される場合が考えられる。例えば、深夜に音声通話が推奨されないのは、周囲の人間が就寝しているであろうと予想される時刻に応答者が音声を発することが社会通念に照らして非常識なためであり、応答者が音声を発しなければ特に問題は生じないと考えられる。
【０００５】
特許文献２記載の無通話会話方式は、携帯電話機のテンキーに所定の応答音声を割り当てておくことにより、応答者が自ら音声を発することなく、通話相手に対して音声応答を行っている。上記特許文献２記載の無通話会話方式によれば周囲に迷惑をかけることなく通話相手に対して音声応答を行うことが可能となる。
【０００６】
特許文献３記載の携帯端末装置は、通話相手に対するメッセージに対応付けられた所定のジェスチャを応答者が行い、カメラ機能を利用して応答者自身を撮影することにより、当該ジェスチャに応じたメッセージを通話相手に送信している。
【特許文献１】特開第２５９０３６６号公報
【特許文献２】特開平１０−１０７９１５号公報
【特許文献３】特開２００５−３０３８３２号公報
【発明の開示】
【発明が解決しようとする課題】
【０００７】
特許文献１記載の対話型留守番電話機は、応答メッセージを自動的に生成するため当該応答メッセージに応答者の意図が反映されない。特許文献３記載の携帯端末装置は、応答者が応答メッセージをジェスチャで表現するため、当該応答メッセージには応答者の意図が反映される。しかしながら、特許文献３記載の携帯端末装置は、応答者がカメラ機能を利用して応答者自身を撮影する必要があり、コミュニケーションを円滑に行ううえで問題がある。
【０００８】
特許文献２記載の無通話会話方式は、応答者が音声通話中に応答音声の割り当てられたテンキーを押下するため、当該応答音声には応答者の意図が反映される。しかしながら、携帯電話機はテンキーと受話器とが一体になったデザインが一般的であるため、特許文献２記載の無通話会話方式はユーザビリティに欠ける問題がある。即ち、応答者は通話相手からの発話に即座に応答したければテンキーを見ることなく押下しなければならず、誤操作が生じやすいと考えられる。また、応答者が携帯電話機を耳元から一旦離してからテンキーを押下するようにしたとしても、通話相手の発話からテンキーの押下までの間のタイムラグが大きくなるため、コミュニケーションの円滑化に支障をきたす。また、応答者がテンキーと音声応答との対応関係を把握する必要がある。更に、テンキーの数の都合上、応答者が選択可能な応答は「はい」、「いいえ」及び「もう一度お願いします」等の簡単なものに限られるため、通話相手の意図に沿った応答を行うことが困難である。
【０００９】
従って、本発明は、通話相手に対して応答者の意図を反映した音声応答を行いつつ、高いユーザビリティを確保可能な音声応答装置を提供することを目的とする。
【課題を解決するための手段】
【００１０】
本発明の一態様に係る音声応答装置は、通話相手側の機器からの第１の音声データを入力する入力部と、前記第１の音声データを音声認識して、当該第１の音声データの発話内容を示す言語テキストを得る音声認識部と、前記言語テキストに対し、定型表現に応じた意図種類及び要求されている情報を規定した解析ルールを適用して前記通話相手の意図を認識する第１の意図認識部と、前記第１の音声データを再生し、応答者に提示する提示部と、前記第１の音声データの提示時における前記応答者の動作情報を取得する取得部と、前記動作情報に基づき、前記応答者の意図を認識する第２の意図認識部と、前記第１の音声データの提示時における応答者の状況を認識する状況認識部と、前記第１の音声データの提示時における応答者の状況、前記通話相手の意図及び前記応答者の意図を反映した応答を生成する生成部と、前記応答に応じた第２の音声データを前記通話相手側の機器へ出力する出力部とを具備する。
【発明の効果】
【００１１】
本発明によれば、通話相手に対して応答者の意図を反映した音声応答を行いつつ、高いユーザビリティを確保可能な音声応答装置を提供できる。
【発明を実施するための最良の形態】
【００１２】
以下、図面を参照して、本発明の一実施形態について説明する。
図１に示すように、本発明の一実施形態に係る音声応答装置は、通話入力部１０１、音声認識部１０２、音声提示部１０３、通話相手の意図認識部１０４、発話解析ルール記憶部１０５、応答生成部１０６、動作情報入力部１０７、応答者の意図認識部１０８、状況認識部１０９、応答生成ルール記憶部１１０、音声再生部１１１、応答音声記憶部１１２及び応答出力部１１３を有する。図１の音声応答装置は、公衆網または移動体通信等を介して通話相手側の通話機器（固定電話機または携帯電話機等）と音声通信可能であり、例えば、応答者が通話相手からの着信に応じて図示しない通話ボタンをオンすることにより通話相手との通話が開始される。
【００１３】
通話入力部１０１は、通話相手の発声した発話音声データを公衆網または移動体通信等を介して取得し、音声認識部１０２及び音声提示部１０３に入力する。音声提示部１０３は、通話入力部１０１からの発話音声データを再生し、スピーカ等により応答者に提示する。
【００１４】
音声認識部１０２は、通話入力部１０１からの発話音声データに対し音声認識を行って、当該発話音声データの内容を示す言語テキストを得る。音声認識部１０２は、音声認識結果を通話相手の意図認識部１０４に入力する。音声認識部１０２は、実際には発話音声データを適当な単位で区切って、音声認識を行う。例えば、音声認識部１０２は、一定時間の経過毎に、或いは、通話相手の発話が一定時間（例えば０．３秒）以上途切れる毎に発話音声データを区切る。
【００１５】
通話相手の意図認識部１０４は、音声認識部１０２からの音声認識結果を、発話解析ルール記憶部１０５から読み出した発話解析ルールを用いて解析し、通話相手の意図を認識する。通話相手の意図認識部１０４は、例えば、「呼びかけ」、「質問（Yes/No）」、「質問（Factoid）」及び「宣言」等の意図種類と、「状況」、「場所」、「理由」及び「時刻」等の要求されている情報との組み合わせを通話相手の意図として認識する。通話相手の意図認識部１０４は、通話相手の意図認識結果を応答生成部１０６に通知する。尚、通話相手の意図認識部１０４による意図認識処理の詳細は、後述する。
【００１６】
発話解析ルール記憶部１０５には、音声認識結果から通話相手の意図を認識するための発話解析ルールが記憶されている。発話解析ルールは、通話相手の意図認識部１０４によって適宜読み出される。
【００１７】
応答生成部１０６は、応答生成ルール記憶部１１０に記憶されている応答生成ルールを用いて、状況認識部１０９からの状況認識結果と、通話相手の意図認識部１０４からの意図認識結果と、応答者の意図認識部１０８からの意図認識結果とを反映した応答を生成する。尚、応答生成部１０６による応答生成処理の詳細は、後述する。応答生成部１０６は、生成した応答を音声再生部１１１に入力する。
【００１８】
動作情報入力部１０７は、応答者の動作情報を取得し、応答者の意図認識部１０８及び状況認識部１０９に入力する。動作情報入力部１０７は、例えば、加速度センサによって図１の音声応答装置の三次元方向の加速度データを検出することにより、応答者の頭部の動き（例えば、「頷き」、「首振り」及び「傾け」）につれて自然に発生する音声応答装置の動きや、応答者が意図的に行う音声応答装置を用いた動作（例えば、上記「頷き」動作を模した「上下方向への振動」や、上記「首振り」を模した「左右方向への振動」）等を示す動作情報を取得する。
【００１９】
応答者の意図認識部１０８は、動作情報入力部１０７からの動作情報に基づき応答者の意図を認識する。具体的には、応答者の意図認識部１０８は、動作情報を「肯定」、「否定」、「保留」及び「問い返し」のいずれかのジェスチャに分類し、更に当該ジェスチャの強度や回数（頻度）等の時系列データを生成する。応答者の意図認識部１０８は、応答者の意図認識結果を応答生成部１０６に通知する。尚、応答者の意図認識部１０８による意図認識処理の詳細は、後述する。
【００２０】
状況認識部１０９は、応答者の現在置かれている状況を認識し、認識結果を応答生成部１０６に通知する。ここで、状況とは例えば、「電車でＡ駅とＢ駅との間を走行中」、「Ａ駅周辺を歩行中」、「ＡＢＣレストランで食事中」及び「オフィスで会議中」等であって、現在時刻、応答者の現在位置及び現在の活動（予定）等を含む。尚、状況認識部１０９が認識可能な状況の形式は、特に限定されない。ここで、現在とは、音声提示部１０３によって、発話音声データが再生され、スピーカ等により応答者に提示された時を指すものとする。
【００２１】
例えば、状況認識部１０９は、図示しないＧＰＳ（Global Positioning System）情報取得部によって応答者の現在位置情報を取得し、当該現在位置情報の時系列データに基づいて応答者の状況を認識してよい。また、状況認識部１０９は、スケジュール機能またはカレンダー機能と、時計機能とを利用して応答者の現在の活動予定を認識してもよい。また、状況認識部１０９は、動作情報入力部１０７からの動作情報（加速度データ）によって応答者の移動速度を取得し、「歩行中」、「走行中」「電車で移動中」等の応答者の状況を認識してもよい。また、状況認識部１０９は、図示しないマイクロホン等により周囲の環境音を取得して状況認識に利用したり、いわゆるマナーモード（サイレントモード）等の機器の動作モード及び応答者による操作履歴を状況認識に利用したりしてもよい。
【００２２】
応答生成ルール記憶部１１０には、状況認識結果、通話相手の意図認識結果及び応答者の意図認識結果を反映した応答を生成するための応答生成ルールが記憶されている。応答生成ルールは、応答生成部１０６によって適宜読み出される。
【００２３】
音声再生部１１１は、応答生成部１０６によって生成された応答に応じた応答音声データを応答音声記憶部１１２から読み出し、応答出力部１１３に入力する。応答出力部１１３は、音声再生部１１１からの応答音声データを通話相手の通話機器に向けて出力する。
【００２４】
応答音声記憶部１１２には、応答生成部１０６が生成可能な応答に対応する応答音声データが記憶されている。上記応答音声データは予め録音された応答者本人の声であってもよいし、当該応答者本人や他人の声を模した合成音であってもよい。
【００２５】
以下、図２を用いて、図１の音声応答装置の動作を説明する。図２において、実線で描かれたフローは図１の音声応答装置の動作を示し、点線で描かれたフローは図１の音声応答装置に対する応答者の操作を示している。
【００２６】
通話相手の通話機器からの着信があると（ステップＳ２０１）、応答者が通話ボタンをオンすることにより（ステップＳ２１１）、通話が開始し（ステップＳ２０２）、処理はステップＳ２０３に進む。
【００２７】
ステップＳ２０３において、状況認識部１０９が状況認識を行う。通話相手からの発話が入力されるまでステップＳ２０３が繰り返され、通話相手からの発話音声データが入力されると処理はステップＳ２０５に進む（ステップＳ２０４）。
【００２８】
ステップＳ２０４において通話相手からの発話音声データが入力されると、応答者は音声提示部１０３によって出力される当該発話音声データの再生音声を聞き（ステップＳ２１２）、当該再生音声に対する応答としてジェスチャを入力する（ステップＳ２１３）。
【００２９】
応答者によるステップＳ２１２及びステップＳ２１３の処理に並行して、通話相手の意図認識部１０４が、発話音声データの音声認識結果に基づいて通話相手の意図を認識する（ステップＳ２０５）。
【００３０】
次に、動作情報入力部１０７が動作情報の取得を試みる（ステップＳ２０６）。ステップＳ２１３においてジェスチャが入力されていれば、応答者の意図認識部１０８は当該ジェスチャを認識し、処理はステップＳ２０８に進む（ステップＳ２０７）。一方、ステップＳ２１３においてジェスチャが入力されていなければ、応答者の意図認識部１０８はジェスチャを認識できず、処理はステップＳ２０３に戻る（ステップＳ２０７）。
【００３１】
ステップＳ２０８において、ステップＳ２０７におけるジェスチャ認識結果と、ステップＳ２０５における通話相手の意図認識結果と、ステップＳ２０３における状況認識結果とに基づき、応答生成部１０６が応答者の意図を反映した応答を生成する。
【００３２】
次に、ステップＳ２０８において生成された応答に応じた応答音声データを音声再生部１１１が再生し、応答出力部１１３が当該応答音声データを通話相手の通話機器に向けて出力する（ステップＳ２０９）。通話が終了すれば処理は終了し、通話が終了しなければ処理はステップＳ２０３に戻る（ステップＳ２１０）。
【００３３】
以下、図４を用いて通話相手の意図認識部１０４による意図認識処理を説明する。
まず、通話相手の意図認識部１０４は、音声認識部１０２からの音声認識結果に対し、発話解析ルール記憶部１０５から読み出した発話解析ルールを適用する（ステップＳ３０１）。
【００３４】
通話相手の意図認識部１０４は、ステップＳ３０１における発話解析ルールの適用の結果、上記音声認識結果が発話解析ルール中で規定される定型表現に該当するか否かを判定する（ステップＳ３０２）。上記音声認識結果が定型表現に該当すれば処理はステップＳ３０３に進み、そうでなければ処理はステップＳ３０４に進む。
【００３５】
ステップＳ３０３において、通話相手の意図認識部１０４は上記音声認識結果の該当する定型表現に応じた意図種類及び要求されている情報を発話解析ルールから取得し、処理は終了する。
【００３６】
ここで、定型表現を具体的に説明する。図５に示すように、発話解析ルールにおいて定型表現に、通話相手の意図（意図種類及び要求されている情報）が対応付けて規定されている。即ち、通話相手の意図認識部１０４は、上記音声認識結果に一致する定型表現をマッチングにより検索し、当該定型表現に対応する通話相手の意図を取得することができる。
【００３７】
ステップＳ３０４において、通話相手の意図認識部１０４は、上記音声認識結果が発話解析ルール中で規定される質問パターンに該当するか否かを判定する。上記音声認識結果が質問パターンに該当すれば処理はステップＳ３０５に進み、そうでなければ処理はステップＳ３０７に進む。
【００３８】
ステップＳ３０５において、通話相手の意図認識部１０４は、特開２００６−２０９０２２号公報等の文献に記載されている既存の質問応答検索技術を利用することにより上記音声認識結果の該当する質問パターンに応じて回答タイプを推定する。ここで、質問パターン及び回答タイプを具体的に説明する。図６に示すように、発話解析ルールにおいて質問パターンに、通話相手の意図として意図種類及び要求されている情報（回答タイプ）が対応付けて規定されている。即ち、通話相手の意図認識部１０４は、上記音声認識結果に該当する質問パターンを検索し、当該質問パターンに対応する通話相手の意図を取得することができる。通話相手の意図認識部１０４は、質問パターンの検索において、例えば固有名詞辞書、音声認識結果の形態素解析によって得られる品詞情報及び語の並び等を適宜利用する。
【００３９】
質問パターンには、「どこですか」または「何時に着きますか」のように場所や時刻等の具体的情報を尋ねる態様と、「渋谷ですか」または「３時に着きますか」のようにYes/Noで答えられる形式で間接的に場所や時刻等の具体的情報を尋ねる態様とがある。図６において、前者の意図種類は「質問（Factoid）」として、後者の意図種類は「質問（Yes/No）」として互いに区別されているが、両者は同じものとして扱われてもよい。
【００４０】
ステップＳ３０５の終了後、通話相手の意図認識部１０４は、意図種類を「質問」とし、要求されている情報をステップＳ３０５において推定した回答タイプとする意図認識結果を応答生成部１０６に通知し（ステップＳ３０６）、処理は終了する。
【００４１】
ステップＳ３０７において、通話相手の意図認識部１０４は、上記音声認識結果の元となる発話音声データの韻律を分析し、意図種類が「質問」、「保留」及び「その他」のいずれであるかを判定する。通話相手の意図認識部１０４が、「質問」を意図種類として判定すれば処理は前述したステップＳ３０５に進み、「保留」を意図種類として判定すれば処理はステップＳ３０８に進み、「その他」を意図種類として判定すれば処理はステップＳ３０９に進む。例えば、通話相手の意図認識部１０４は、通話音声データの韻律を分析した結果、語尾が上昇調であれば「質問（Yes/No）」を意図種類として判定する。
【００４２】
ステップＳ３０８において、通話相手の意図認識部１０４は、意図種類を「保留」とし、要求されている情報を「なし」とする意図認識結果を応答生成部１０６に通知し、処理は終了する。ステップＳ３０９において、通話相手の意図認識部１０４は、意図種類を「その他」とし、要求されている情報を「なし」とする意図認識結果を応答生成部１０６に通知し、処理は終了する。
【００４３】
以下、図７を用いて、加速度データを動作情報として利用する場合の、応答者の意図認識部１０８によるジェスチャ分類の一例を説明する。
応答者の意図認識部１０８は、応答者の頷き、あるいは、頷きを模した音声応答装置の動きを示す加速度データが得られれば応答者のジェスチャを「肯定」に分類する。具体的には、図７では高さ方向（ｙ軸方向）の加速度データが−１cm/ms²を２回以上連続して下回れば、応答者の意図認識部１０８は応答者のジェスチャを「肯定」に分類している。
【００４４】
応答者の意図認識部１０８は、応答者の首振り、あるいは、首振りを模した音声応答装置の動きを示す加速度データが得られれば応答者のジェスチャを「否定」に分類する。具体的には、図７では幅方向（ｘ軸方向）の加速度データが−１cm/ms²を下回ること、或いは１cm/ms²を上回ることが２回以上連続すれば、応答者の意図認識部１０８は応答者のジェスチャを「否定」に分類している。
【００４５】
その他、図７では奥行き方向（ｚ軸方向）の加速度データ及び高さ方向の加速度データに基づき、応答者の意図認識部１０８は応答者のジェスチャを「保留」及び「問い返し」に夫々分類している。
【００４６】
通常、日本人のジェスチャの傾向として「頷き」及び「首振り」は「肯定」及び「否定」を夫々示すので、前述したジェスチャ分類によれば、応答者の意図認識部１０８は応答者の自然な動作に基づいて当該応答者の意図を認識することが可能となる。また、外国人のジェスチャでは上記関係が逆転したりする等ジェスチャの傾向が異なる場合もあるので、応答者のジェスチャの傾向に合致するように判定条件が適宜変更されてもよい。
【００４７】
また、判定条件の設定において、応答者が実際に発話した応答音声データと、当該発話時における加速度データとに基づく教師付き学習が利用されてもよい。応答者の意図認識部１０８は、上記応答音声データの音声認識結果に「はい」及び「そうです」等の肯定表現が含まれていれば加速度データを「肯定」の正解とし、「いいえ」及び「違います」等の否定表現が含まれていれば加速度データを「否定」の正解として、学習を行う。また、応答者の意図認識部１０８は、音声認識結果でなく応答音声データの韻律を利用して上記学習を行ってもよい。尚、上記学習は、多数の応答者を対象に行われてもよいし、特定の応答者を対象に行われてもよい。多数の応答者を対象とすれば万人向けの判定条件の設定が可能となり、特定の応答者を対象とすれば応答者に特有の癖や仕草等に対応しやすい。
【００４８】
また、応答者の意図認識部１０８は、状況認識部１０９からの状況認識結果が「歩行中」、「走行中」または「電車で移動中」等のような応答者の移動を示す場合には、当該移動内容に応じた加速度データの変化量のパターン（典型的な加速度データ）を考慮してよい。即ち、動作情報入力部１０７からの加速度データをそのまま用いるのではなく、上記移動内容において典型的な加速度データを予めキャンセルすることにより、ジェスチャ分類の精度が向上する。
【００４９】
以下、図８を用いて応答生成部１０６による応答生成処理を説明する。
図８において、応答生成部１０６は、「保留」、「否定」、「肯定」、「情報提示」、「質問確認」、「繰り返し」、「相槌（共感的）」、「意思確認」、「相槌（否定的）」、「相槌（肯定的）」及び「問い返し」の計１１の応答種類のいずれかに属する応答を生成している。
【００５０】
まず、応答生成部１０６は、応答者の意図認識部１０８からのジェスチャ認識結果が「保留」であるか否かを確認する（ステップＳ４０１）。ジェスチャ認識結果が「保留」であれば処理はステップＳ４１０に進み、そうでなければ処理はステップＳ４０２に進む。ステップＳ４１０において、応答生成部１０６は「保留」の応答（例えば、「うーん」）を生成し、応答生成処理は終了する。
【００５１】
ステップＳ４０２において、応答生成部１０６は通話相手の意図認識部１０４からの意図認識結果のうち、意図種類を確認する。上記意図種類が、「質問」であれば処理はステップＳ４０３に進み、「保留」であれば処理はステップＳ４１１に進み、「質問」及び「保留」のいずれでもなければ処理はステップＳ４１５に進む。
【００５２】
ステップＳ４０３において、応答生成部１０６は、上記ジェスチャ認識結果を再度確認する。ジェスチャ認識結果が、「否定」であれば処理はステップＳ４０４に進み、「肯定」であれば処理はステップＳ４０５に進み、「問い返し」であれば処理はステップＳ４０６に進む。
【００５３】
ステップＳ４０４において、応答生成部１０６は「否定」の応答（例えば、「いいえ」）を生成し、処理はステップＳ４０７に進む。ステップＳ４０５において、応答生成部１０６は「肯定」の応答（例えば、「はい」）を生成し、処理はステップＳ４０７に進む。ステップＳ４０６において、応答生成部１０６は「質問確認」の応答（例えば、「もう一度お願いします」）を生成し、応答生成処理は終了する。
【００５４】
ステップＳ４０７において、応答生成部１０６は通話相手の意図認識部１０４からの意図認識結果に含まれる要求されている情報を、状況認識部１０９からの状況認識結果より検索する。応答生成部１０６は、要求されている情報が「場所」であれば現在位置を状況認識結果より検索したり、要求されている情報が「時刻」であれば現在時刻を状況認識結果より検索したりする。
【００５５】
ステップＳ４０７において、要求されている情報が上記状況認識結果より１つ以上検索されれば処理はステップＳ４０９に進み、そうでなければ応答生成処理は終了する（ステップＳ４０８）。ステップＳ４０９において、応答生成部１０６は「情報提示」の応答を生成し、応答生成処理は終了する。「情報提示」の応答は、例えば「渋谷です」のように、ステップＳ４０７における検索結果が代入されたものとなる。
【００５６】
尚、ステップＳ４０２において確認された意図種類が「質問（Yes/No）」でなく、「質問（Factoid）」である場合には、ステップＳ４０５及びステップＳ４０６が省略されてもよい。また、ステップＳ４０７において検索に失敗した場合（ステップＳ４０８）に、「わかりません」等の応答を生成したうえで、応答生成処理が終了するようにしてもよい。
【００５７】
ステップＳ４１１において、応答生成部１０６は、上記ジェスチャ認識結果を再度確認する。ジェスチャ認識結果が、「否定」であれば処理はステップＳ４１２に進み、「肯定」であれば処理はステップＳ４１３に進み、「問い返し」であれば処理はステップＳ４１３に進む。
【００５８】
ステップＳ４１２において、応答生成部１０６は「繰り返し」の応答（例えば、前回と同じ応答）を生成し、応答生成処理は終了する。ステップＳ４１３において、応答生成部１０６は「相槌（共感的）」の応答（例えば、「そうですね」）を生成し、応答生成処理は終了する。ステップＳ４１４において、応答生成部１０６は「意思確認」の応答（例えば、「どうでしょう」）を生成し、応答生成処理は終了する。
【００５９】
ステップＳ４１５において、応答生成部１０６は、上記ジェスチャ認識結果を再度確認する。ジェスチャ認識結果が、「否定」であれば処理はステップＳ４１６に進み、「肯定」であれば処理はステップＳ４１７に進み、「問い返し」であれば処理はステップＳ４１８に進む。
【００６０】
ステップＳ４１６において、応答生成部１０６は「相槌（否定的）」の応答（例えば、「そうですか？」）を生成し、応答生成処理は終了する。ステップＳ４１７において、応答生成部１０６は「相槌（肯定的）」の応答（例えば、「うん」）を生成し、応答生成処理は終了する。ステップＳ４１８において、応答生成部１０６は「問い返し」の応答（例えば、「はい？」）を生成し、応答生成処理は終了する。
【００６１】
また、応答生成部１０６は、ジェスチャの強度または頻度を応答者の意図の詳細を補足する補足情報として利用してもよい。即ち、応答生成部１０６は、例えば図９に示すように、ジェスチャの強度または頻度に応じて応答を異ならせて生成できる。ジェスチャの強度は例えば特定方向の加速度の大きさにより評価され、ジェスチャの頻度は例えば当該ジェスチャの連続数により評価される。応答生成部１０６がジェスチャの強度または頻度に応じて応答を異ならせて生成すれば、応答者の意図をより細かく反映することが可能となり、円滑なコミュニケーションの実現に寄与する。
【００６２】
以上説明したように、本発明の一実施形態に係る音声応答装置は、通話相手の発話を解析して通話相手の意図を認識し、例えばジェスチャで表現される応答者の意図を認識し、応答者の現在の状況を認識し、これらの認識結果を反映した応答を生成している。具体的には、図３に示すように発話音声データの音声認識結果から得られる通話相手の意図認識結果と、応答者の意図（ジェスチャ）認識結果と、状況認識結果との組み合わせに応じて多種多様な音声応答が通話相手に出力される。従って、本実施形態に係る音声応答装置によれば、通話相手からの発話に対し応答者が簡単なジェスチャを行うだけで自身の意図を反映した音声応答を行うことが可能となるため、高いユーザビリティを確保可能できる。
【００６３】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。その他、本発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
【００６４】
例えば、本発明を音声リモコンに適用すれば、利用者は音声を発することなくシステムに対して指示を行うことができる。また、本発明を音声翻訳装置に適用すれば、簡単な応答であれば発話を必要とせず、自然なジェスチャを行うだけで翻訳文を生成することができる。即ち、応答を発話し、機械翻訳して翻訳文を生成する通常の音声翻訳方式に比べ、短時間で翻訳文を生成できるため、円滑なコミュニケーションの実現に役立つ。
【図面の簡単な説明】
【００６５】
【図１】一実施形態に係る音声応答装置を示すブロック図。
【図２】図１の音声応答装置の動作を示すフローチャート。
【図３】図１の音声応答装置の効果の説明図。
【図４】図１の通話相手の意図認識部による意図認識処理を示すフローチャート。
【図５】図１の発話解析ルール記憶部に記憶される発話解析ルールの一例を示す図。
【図６】図５の他の例を示す図。
【図７】図１の応答者の意図認識部によるジェスチャ分類例の説明図。
【図８】図１の応答生成部による応答生成処理を示すフローチャート。
【図９】図１の応答生成ルール記憶部に記憶される応答生成ルールの一例を示す図。
【符号の説明】
【００６６】
１０１・・・通話入力部
１０２・・・音声認識部
１０３・・・音声提示部
１０４・・・通話相手の意図認識部
１０５・・・発話解析ルール記憶部
１０６・・・応答生成部
１０７・・・動作情報入力部
１０８・・・応答者の意図認識部
１０９・・・状況認識部
１１０・・・応答生成ルール記憶部
１１１・・・音声再生部
１１２・・・応答音声記憶部
１１３・・・応答出力部

【特許請求の範囲】
【請求項１】
通話相手側の機器からの第１の音声データを入力する入力部と、
前記第１の音声データを音声認識して、当該第１の音声データの発話内容を示す言語テキストを得る音声認識部と、
前記言語テキストに対し、定型表現に応じた意図種類及び要求されている情報を規定した解析ルールを適用して前記通話相手の意図を認識する第１の意図認識部と、
前記第１の音声データを再生し、応答者に提示する提示部と、
前記第１の音声データの提示時における前記応答者の動作情報を取得する取得部と、
前記動作情報に基づき、前記応答者の意図を認識する第２の意図認識部と、
前記第１の音声データの提示時における応答者の状況を認識する状況認識部と、
前記第１の音声データの提示時における応答者の状況、前記通話相手の意図及び前記応答者の意図を反映した応答を生成する生成部と、
前記応答に応じた第２の音声データを前記通話相手側の機器へ出力する出力部と
を具備することを特徴とする音声応答装置。
【請求項２】
前記第２の意図認識部は、前記応答者の意図が「肯定」及び「否定」を少なくとも含む複数の意図種類のいずれに属するかを認識することを特徴とする請求項１記載の音声応答装置。
【請求項３】
前記第２の意図認識部は、前記応答者の意図の詳細を補足する補足情報として前記応答者の意図の強度及び頻度の少なくとも一方を認識し、
前記生成部は、前記補足情報に応じて前記応答を異ならせて生成することを特徴とする請求項１記載の音声応答装置。
【請求項４】
前記状況認識部は、前記応答者の現在位置及び現在の活動予定の少なくとも一方を前記応答者の現在の状況として認識することを特徴とする請求項１記載の音声応答装置。
【請求項５】
前記取得部は、加速度センサを有し、３次元方向の加速度データを前記動作情報として取得することを特徴とする請求項１記載の音声応答装置。
【請求項６】
前記第２の意図認識部は、前記加速度データの特定方向における大きさに基づき前記応答者の意図を認識することを特徴とする請求項５記載の音声応答装置。
【請求項７】
通話相手側の機器からの第１の音声データを入力することと、
前記第１の音声データを音声認識して、当該第１の音声データの発話内容を示す言語テキストを得ることと、
前記言語テキストに対し、定型表現に応じた意図種類及び要求されている情報を規定した解析ルールを適用して前記通話相手の意図を認識することと、
前記第１の音声データを再生し、応答者に提示することと、
前記第１の音声データの提示時における前記応答者の動作情報を取得することと、
前記動作情報に基づき、前記応答者の意図を認識することと、
前記第１の音声データの提示時における応答者の状況を認識することと、
前記第１の音声データの提示時における応答者の状況、前記通話相手の意図及び前記応答者の意図を反映した応答を生成することと、
前記応答に応じた第２の音声データを前記通話相手側の機器へ出力することと
を具備することを特徴とする音声応答方法。
【請求項８】
コンピュータを
通話相手側の機器からの第１の音声データを入力する入力手段、
前記第１の音声データを音声認識して、当該第１の音声データの発話内容を示す言語テキストを得る音声認識手段、
前記言語テキストに対し、定型表現に応じた意図種類及び要求されている情報を規定した解析ルールを適用して前記通話相手の意図を認識する第１の意図認識手段、
前記第１の音声データを再生し、応答者に提示する提示手段、
前記第１の音声データの提示時における前記応答者の動作情報を取得する取得手段、
前記動作情報に基づき、前記応答者の意図を認識する第２の意図認識手段、
前記第１の音声データの提示時における応答者の状況を認識する状況認識手段、
前記第１の音声データの提示時における応答者の状況、前記通話相手の意図及び前記応答者の意図を反映した応答を生成する生成手段、
前記応答に応じた第２の音声データを前記通話相手側の機器へ出力する出力手段
として機能させるための音声応答プログラム。

【図１】