音声応答装置及びプログラム

【課題】話者が音声入力に用いる入力手段に関わらず、話者の特性に応じた応答音声信号を出力することができる音声応答装置を提供する。
【解決手段】本発明は、ユーザの発話に基づく入力音声信号の発話内容に応答する応答音声信号を出力する音声応答装置に関する。そして、本発明の音声応答装置は、１又は複数の判定項目の各パラメータに対応する判定用発話特徴データを記憶する手段と、ユーザ発話特徴データを抽出する手段と、抽出したユーザ発話特徴データとそれぞれの判定用発話特徴データとを照合し、ユーザが、それぞれの判定項目について、いずれのパラメータに対応するかを判定する手段と、判定結果に対応する発話特徴を備える応答音声信号を保持する手段とを有することを特徴とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声応答装置及びプログラムに関し、例えば、音声自動応用装置（ＩＶＲ（ＩｎｔｅｒａｃｔｉｖｅＶｏｉｃｅＲｅｓｐｏｎｓｅ）装置）に適用し得る。
【背景技術】
【０００２】
近年、通信・メディア技術の進歩により、企業は顧客との間にＩＶＲ装置など様々な手段でコミュニケーションできるようになっており、発信者の操作や音声認識機能を備え、発話に応じた再生内容を決めることも可能となっている。一方、既存のＩＶＲから再生される音声ガイダンスは、万人向けとするため標準語を使い遅めの速度となっており、利用者によっては音声ガイダンスが機械的な音声に聞こえ親しみを感じられず、直接オペレータとの接続を好む利用者も少なくなかった。
【０００３】
このような課題を解決する従来技術としては特許文献１の記載技術がある。
【０００４】
特許文献１に記載のＩＶＲ装置では、発信元の発信電話番号の市外局番に基づき、該市外局番に対応する音声ガイダンスを再生していた。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００６−２２２６０３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、特許文献１に記載のＩＶＲでは、例えば、話者が旅行等で、自宅から遠方に移動した先で、固定電話からコールセンタに電話すると、方言でガイダンスが流れ、聞き取りにくいことがあった。
【０００７】
また、特許文献１のＩＶＲでは、発信元の電話番号に応じた音声ガイダンスを再生するので、公衆電話網ではなくインターネット等のＩＰ網を介してきたり、携帯電話網を介してきたりする等、多様な入力手段に対応できないという問題もあった。
【０００８】
そのため、話者が音声入力に用いる入力手段に関わらず、話者の特性に応じた応答音声信号を出力することができる音声応答装置及びプログラムが望まれている。
【課題を解決するための手段】
【０００９】
第１の本発明は、ユーザの発話に基づく入力音声信号の発話内容に応答する応答音声信号を出力する音声応答装置において、（１）１又は複数の判定項目の各パラメータに対応する発話特徴を示す判定用発話特徴データを記憶する発話特徴データ記憶手段と、（２）上記入力音声信号から上記ユーザの発話特徴を示すユーザ発話特徴データを抽出する発話特徴データ抽出手段と、（３）上記発話特徴データ抽出手段が抽出したユーザ発話特徴データと、上記発話特徴データ記憶手段に記憶された判定用発話特徴データのそれぞれとを照合し、その照合結果に基づいて、上記ユーザが、それぞれの上記判定項目について、いずれのパラメータに対応するかを判定するユーザ特徴判定手段と、（４）上記ユーザ特徴判定手段の判定結果に対応する発話特徴を備える応答音声信号を保持する応答音声信号保持手段とを有することを特徴とする。
【００１０】
第２の本発明の音声応答プログラムは、ユーザの発話に基づく入力音声信号の発話内容に応答する応答音声信号を出力する音声応答装置に搭載されたコンピュータを、（１）１又は複数の判定項目の各パラメータに対応する発話特徴を示す判定用発話特徴データを記憶する発話特徴データ記憶手段と、（２）上記入力音声信号から上記ユーザの発話特徴を示すユーザ発話特徴データを抽出する発話特徴データ抽出手段と、（３）上記発話特徴データ抽出手段が抽出したユーザ発話特徴データと、上記発話特徴データ記憶手段に記憶された判定用発話特徴データのそれぞれとを照合し、その照合結果に基づいて、上記ユーザが、それぞれの上記判定項目について、いずれのパラメータに対応するかを判定するユーザ特徴判定手段と、（４）上記ユーザ特徴判定手段の判定結果に対応する発話特徴を備える応答音声信号を保持する応答音声信号保持手段として機能させることを特徴とする。
【発明の効果】
【００１１】
本発明によれば、話者が音声入力に用いる入力手段に関わらず、話者の特性に応じた応答音声信号を出力することができる音声応答装置を提供することができる。
【図面の簡単な説明】
【００１２】
【図１】第１の実施形態に係る音声応答装置を搭載したコールセンタシステムの機能的構成について示したブロック図である。
【図２】第１の実施形態に係る音声応答装置のシーケンス図（１）である。
【図３】第１の実施形態に係る音声応答装置のシーケンス図（２）である。
【図４】第２の実施形態に係る音声応答装置を搭載したコールセンタシステムの機能的構成について示したブロック図である。
【図５】第２の実施形態に係る音声応答装置のシーケンス図（１）である。
【図６】第２の実施形態に係る音声応答装置のシーケンス図（２）である。
【図７】第３の実施形態に係る音声応答装置を搭載したコールセンタシステムの機能的構成について示したブロック図である。
【発明を実施するための形態】
【００１３】
（Ａ）第１の実施形態
以下、本発明による音声応答装置及びプログラムの第１の実施形態を、図面を参照しながら詳述する。
【００１４】
（Ａ−１）第１の実施形態の構成
図１は、この実施形態の音声応答装置４０を搭載したコールセンタシステム２０の全体構成を示すブロック図である。
【００１５】
コールセンタシステム２０では、顧客（以下、「話者」ともいう）が使用する電話端末１０から発信された通話を受付けて通話状態となり、顧客が発話した音声信号が入力されると、その入力音声信号における発話内容を認識し、発話内容に応答する内容の応答音声信号を、電話端末１０（顧客）に出力する。
【００１６】
コールセンタシステム２０は、ＩＶＲ装置３０及び音声応答装置４０を有している。
【００１７】
ＩＶＲ装置３０は、電話端末１０から発信された通話を受付けて、電話端末１０の話者である顧客の発声に基づく入力音声信号を音声応答装置４０に与える。
【００１８】
そして、音声応答装置４０は、ＩＶＲ装置３０から与えられた顧客の音声信号の発話内容を認識し、認識した発話内容に応じた応答音声信号を作成して出力する。なお、図１においては、音声応答装置４０が出力する音声信号は、電話端末１０に向けて直接出力するものとして図示しているが、音声応答装置４０による出力方法は限定されないものであり、例えば、ＩＶＲ装置３０を介して出力するようにしても良い。
【００１９】
なお、図１においては、ＩＶＲ装置３０と音声応答装置４０は別個の構成要素として図示しているが、音声応答装置４０をＩＶＲ装置３０自体に搭載するようにしても良い。
【００２０】
次に、音声応答装置４０の内部構成について説明する。
【００２１】
音声応答装置４０は、音声認識エンジン５０及び音声生成エンジン６０を有している。
【００２２】
音声応答装置４０は、例えば、プロセッサやメモリ等のプログラムの実行構成を有する情報処理装置（必要に応じて、音声入力用のマイク及び又は音声出力用のスピーカを備えるようにしても良い）に、実施形態の音声応答プログラム等をインストールすることにより構築するようにしても良い。その場合でも、音声応答装置４０の機能的構成は、図１のように示すことができる。
【００２３】
音声認識エンジン５０は、ＩＶＲ装置３０から与えられた音声信号の発話内容を認識し、さらに、顧客の発話特徴を判定する処理を行う。そして、音声生成エンジン６０は、音声認識エンジン２２が認識した発話特徴に応じた応答音声信号を作成して、電話端末１０に出力する。
【００２４】
音声認識エンジン５０は、音声取得部５１、韻律ＤＢ５２、韻律照合部５３、音声変換部５４、及び発話特徴記憶部５５を有している。
【００２５】
音声取得部５１は、ＩＶＲ装置３０から認識対象の音声信号のデータを取得する。
【００２６】
音声変換部５４は、取得した音声信号において、顧客が発声した内容を文字で表したテキストデータに変換する。なお、音声変換部５４による音声信号をテキストデータに変換する処理については、既存の音声認識処理と同様の処理を適用することができる。
【００２７】
韻律照合部５３は、取得した音声信号について、顧客が発声した音声の大きさや速さ、抑揚等の音響的な発話特徴を表す韻律特徴情報を、韻律ＤＢ５２のデータを参照して生成する。
【００２８】
韻律ＤＢ５２には、韻律特徴（例えば、方言、感情、発話スピード等）ごとに、例えば、既存のコーパスベースの音声合成等に用いられる韻律モデルのデータが登録されている。そして、韻律照合部５３では、それぞれの韻律特徴に係る韻律モデルと、顧客の音声信号の韻律特徴とを照合し、その照合結果に応じて顧客の発話における韻律特徴を判定し、その情報を韻律特徴情報として生成する。
【００２９】
そして、発話特徴記憶部５５では、音声変換部５４が生成したテキストデータ、及び、韻律照合部５３が作成した韻律特徴情報を紐付けして保持し、音声生成エンジン６０に与える。
【００３０】
韻律ＤＢ５２に格納される韻律モデルとしては、サンプルとなる話者の音声データをもとに、その話者の発話における韻律の特徴（例えば、周波数、音声の大きさ(音量)、音声のピッチ（スピード）、抑揚等の項目の一部又は全部の特徴）を、隠れマルコフモデル（ＨＭＭ；ＨｉｄｄｅｎＭａｒｃｏｖＭｏｄｅｌ）等を用いて統計的に表した韻律モデルのデータを用いることができる。また、韻律照合部５３は、顧客の音声信号から、韻律ＤＢ５２に格納される韻律モデルと同様の形式でモデル化した韻律モデルを作成することにより、顧客の発話特徴のデータを抽出する。そして、韻律照合部５３は、顧客の発話特徴を抽出した韻律モデルと、韻律ＤＢ５２に格納された韻律モデルと照合し、その照合結果により、顧客の発話特徴を判定する。
【００３１】
例えば、韻律ＤＢ５２に各地方の方言（例えば、関西弁、沖縄弁、青森弁、標準語）の韻律特徴の韻律モデルを登録しておく。すなわち、方言ごとに、サンプルとなる話者の原音を録音し、その原音に基づいて、予め韻律モデルを作成し、韻律ＤＢ５２に登録しておく。そして、韻律照合部５３は、韻律ＤＢ５２に格納された韻律モデルのそれぞれと、取得した音声信号の韻律モデルとを照合して、顧客の発話特徴を示す韻律モデルと最も近い特徴を持つ韻律モデルを選択する。
【００３２】
韻律照合部５３における照合処理の内容は限定されないものであるが、例えば、韻律ＤＢ５２に格納された韻律モデルのそれぞれと、顧客の発話特徴を示す韻律モデルとの尤度を算出し、韻律ＤＢ５２に格納された韻律モデルのうち最も尤度の高いものを選択するようにしても良い。
【００３３】
韻律ＤＢ５２に格納する韻律モデルの形式や、韻律照合部５３による顧客の発話特徴を抽出した韻律モデルと、韻律ＤＢ５２に格納された韻律モデルとの照合処理については、例えば、「澤井夏美、藤田ハミド、榑松理樹、羽倉淳著，「韻律に基づく音声からの感情推定に関する研究」，＜ＵＲＬ：http://www.fujita.soft.iwate-pu.ac.jp/theses_f/2006b/natumi.pdf＞」（参考文献１）や、「荒木雅弘著，「アクセント型を利用した音声入力予測手法の開発」，[Online]，INTERNET，[２０１０年３月３０日検索]，＜ＵＲＬ：http://www.gavo.t.u-tokyo.ac.jp/tokutei_pub/houkoku/recog/araki.pdf＞」（参考文献２）の記載技術を適用することができる。
【００３４】
そして、韻律照合部５３が、顧客の発話特徴を示す韻律モデルと最も近い特徴を持つ韻律モデルが、例えば、関西弁の韻律モデルだった場合には、顧客の発話における韻律特徴は関西弁と判定し、関西弁を示す情報を挿入した韻律特徴情報を生成する。
【００３５】
韻律照合部５３において、顧客の発話特徴を判定する項目や項目数については限定されず、上述の方言に限らず、複数の項目（組み合わせる項目は限定されない）について韻律特徴情報を生成するように構成しても良い。例えば、方言以外にも、性別、発話スピード（例えば、「ゆっくり」、「普通」、「速い」等のパラメータ）、感情（例えば、「明るい」、「暗い」、「怒っている」等のパラメータ）等の他の判定項目についても判定するようにしても良い。
【００３６】
すなわち、韻律ＤＢ５２には、このような韻律特徴情報を構成する判定項目ごとに、その判定項目の各パラメータの韻律モデルを格納しておき、各パラメータの韻律モデルと、顧客音声に基づく韻律モデルとを照合することにより、１又は複数の判定項目について、顧客の発話特徴を判定し、その判定結果を韻律特徴情報に挿入する。
【００３７】
例えば、判定項目が「性別」であった場合には、「男性」、「女性」という各パラメータに対応する韻律モデルを、それぞれ韻律ＤＢ５２に格納しておく。そして、韻律照合部５３では、顧客の音声データについて「性別」という判定項目について判定する場合には、パラメータ「男性」に対応する韻律モデルと、パラメータ「女性」に対応する韻律モデルとを照合して、その照合結果に基づいていずれかのパラメータを選択し、選択したパラメータの情報を韻律特徴情報に挿入する。
【００３８】
韻律特徴情報の記述方式は限定されないものであるが、例えば、判定項目が「方言」、「性別」、「発話スピード」の３つであり、それぞれの判定項目のパラメータが、「関西弁」、「男性」、「ゆっくり」であった場合には、「方言：関西弁、性別：男性、発話スピード：ゆっくり」というように判定項目とパラメータを記述するようにしても良い。
【００３９】
以上の通り、韻律照合部５３では、顧客の音声信号から、顧客の発話特徴を判定し、顧客の属性（例えば、方言、性別等）や、状況（例えば、感情、発話スピード等）を把握することができる。
【００４０】
音声生成エンジン６０は、解析部６１、発話文生成部６２、アナウンスＤＢ６３、発話音声生成部６４、発話特徴ＤＢ６５、及びアナウンス送出部６６を有している。
【００４１】
解析部６１は、テキストデータから、顧客の発話内容を解析する。そして、発話文生成部６２は、解析部６１での解析結果に基づき、顧客の発話内容に応答するアナウンス文（応答文）をアナウンスＤＢ６３に格納された応答文生成処理用データに基づいて生成する。
【００４２】
解析部６１及び発話文生成部６２では、例えば、テキストデータの内容が、「ＸＹＺの価格に教えてください」（「ＸＹＺ」は製品の型番）という内容であった場合に、「ＸＹＺの価格は消費税込みで２万１千円です。」というアナウンス文を生成する。なお、解析部６１、発話文生成部６２、アナウンスＤＢ６３（応答文生成処理用データの内容を含む）については、既存の音声応答装置（例えば、ＩＶＲや情報案内システム等）と同様の処理方法を用いることができる。
【００４３】
解析部６１、発話文生成部６２において、応答文生成処理用データに基づいてアナウンス文を生成する処理については、例えば、「特開２００６−１７２１１０号公報」（参考文献３）の記載技術を適用することができる。
【００４４】
発話音声生成部６４は、発話文生成部６２から与えられたアナウンス文を読上げる応答音声信号のデータを合成して、アナウンス送出部６６に与えるものである。
【００４５】
発話特徴ＤＢ６５には、例えば、コーパスベースで合成音声を生成するための韻律特徴に関するデータや、合成する音素片等のデータを有する音声合成用データを複数種類格納するようにしても良い。そして、発話音声生成部６４では、韻律特徴情報に応じた音声合成用データを保持して音声合成に適用する。これにより、韻律特徴情報に応じた発話特徴で、応答音声信号の音声合成を行うことができる。音声合成用データの形式については限定されないものであるが、例えば、既存のコーパスベースで音声合成を行う処理と同様のものを適用することができる。
【００４６】
例えば、発話特徴ＤＢ６５に、各地方の方言のサンプルとなる話者の音声を原音とする音声合成用データを格納しておく。そして、発話音声生成部６４では、韻律特徴情報に、「方言：関西弁」という情報が含まれている場合には、少なくとも「方言：関西弁」に対応する音声合成用データを選択して、音声合成に適用するようにしても良い。
【００４７】
また、韻律特徴情報が複数項目である場合には、その組み合わせごとに対応する音声合成用データを発話特徴ＤＢ６５に格納しておいても良いし、発話特徴ＤＢ６５に、音素片のデータだけは共通したデータを保持し、韻律モデルだけを韻律特徴情報における項目の組み合わせごとに保持するようにしても良い。後者の場合、発話音声生成部６４は、韻律特徴情報の内容に応じて、共通の音素片のデータと、選択した韻律モデルを組み合わせて、適用する音声合成用データを保持するようにしてもよい。
【００４８】
また、発話特徴ＤＢ６５において、音素片のデータについても複数備え、発話音声生成部６４において、音素片のデータと韻律モデルの組み合わせを選択して、適用するようにしても良い。例えば、発話特徴ＤＢ６５に、男性の音声を原音とする音素片のデータと、女性の音声を原音とする音素片のデータとを保持しておき、いずれかの音素片のデータを選択して、音声合成用データに適用するようにしても良い。また、方言ごとに音素片のデータを用意しておくようにしても良い。
【００４９】
発話音声生成部６４では、例えば、韻律特徴情報が、「方言：関西弁、発話スピード：ゆっくり」であった場合には、同様に関西弁でゆっくりした発話スピードの音声合成用データを適用するようにしても良い。これにより、顧客は、自分と同じ発話特徴の応答音声を聞くことができ、聴きやすく安心感を得ることができる。一方、韻律特徴情報が、「方言：関西弁、発話スピード：速い」であった場合には、同様に関西弁で速い発話スピードの音声合成用データを適用するようにしても良い。これにより、顧客は、自分と同じ関西弁の音声であるため聴きやすく、さらに、いらだちを感じさせないようにすることができる。これは、発話スピードが速い顧客は、応答音声信号において、ゆっくりした発話スピードより、自分と同じ程度の発話スピードを望んでいる場合が多いためである。
【００５０】
発話音声生成部６４では、上述のように、韻律特徴情報が示す発話特徴と同様の発話特徴の音声合成用データを適用するようにしても良いが、あえて異なる特徴の音声合成用データを適用するようにしても良い。例えば、韻律特徴情報に「感情：怒っている、発話スピード：速い」という情報が含まれている場合には、あえて、ゆっくりした発話スピードの音声合成用データを適用することにより、顧客の感情を落ち着かせることができる場合がある。
【００５１】
なお、発話音声生成部６４において、韻律特徴情報の内容と音声合成用データとの対応関係については、予め設定しておくようにしても良い。
【００５２】
以上のように、発話音声生成部６４では、韻律特徴情報に応じて、それぞれの顧客に合った音声合成用データを適用して応答音声信号を生成する。
【００５３】
なお、韻律特徴情報に方言が含まれ、アナウンス文自体もその方言に対応した内容にしなければならない場合（例えば、標準語では「ありがとうございます」が関西弁では「おおきに」となるような場合）には、アナウンスＤＢ６３にも各地方の方言ごとに異なる応答文生成処理用データを格納しておき、韻律特徴情報の内容に応じて、発話文生成部６２が適用する応答文生成処理用データを選択して適用するようにしてもよい。
【００５４】
アナウンス送出部６６は、発話音声生成部６４が生成した音声データを出力する。アナウンス送出部６６による出力方法は、限定されないものであるが、この実施形態においては、音声信号として、電話端末１０に向けて出力する。アナウンス送出部６６による出力方法としては、例えば、音声データの音声をスピーカにより表音出力するようにしてもよいし、上述のように音声信号として出力しても良いし、音声データのまま他の装置に出力（ネットワークを介して出力するようにしても良い）するようにしても良い。
【００５５】
（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態のコールセンタシステム２０における音声応答装置４０の動作を説明する。
【００５６】
図２、図３は、音声応答装置４０の動作について示したシーケンス図である。
【００５７】
以下の説明では、コールセンタシステム２０を利用する顧客が、電話端末１０を用いて、コールセンタシステム２０へ発呼して接続し、顧客が発話した際の音声信号が、ＩＶＲ装置３０に与えられたものとする。
【００５８】
ここでは例えば、電話端末１０がコールセンタシステム２０（ＩＶＲ装置３０）に接続すると、まず、ＩＶＲ装置３０（又は音声応答装置４０）から、電話端末１０（顧客）に対して、「こちらはＡＢＣ株式会社です。質問の内容をおっしゃってください」というアナウンスの音声が流され、それに対して顧客が、「ＸＹＺの価格に教えてください」（「ＸＹＺ」は製品の型番）という内容の発声を行ったものとする。電話端末１０がＩＶＲ装置３０に接続した際に、上述の最初のアナウンスの音声は省略するようにしても良い。そして、図２、図３では、上述の顧客の発話内容に対して、例えば、「ＸＹＺの価格は消費税込みで２万１千円です。」という内容の応答音声信号を生成して出力する動作について説明している。
【００５９】
まず、ＩＶＲ装置３０から音声認識エンジン５０（音声取得部５１）に、顧客の音声信号が与えられ（Ｓ１０１）、その音声信号が、韻律照合部５３及び音声変換部５４に与えられる（Ｓ１０２）。
【００６０】
そして、音声変換部５４では、顧客の音声信号がテキストデータに変換され、発話特徴記憶部５５に与えられる（Ｓ１０３、Ｓ１０４）。
【００６１】
一方、韻律照合部５３では、与えられた音声信号から顧客の発話特徴をモデル化したデータを生成して、韻律ＤＢ５２に格納された韻律モデルと照合して、その照合結果に応じて韻律特徴情報を生成し（Ｓ１０５〜Ｓ１０７）、発話特徴記憶部５５に与える（Ｓ１０８）。
【００６２】
そして、発話特徴記憶部５５では、音声変換部５４から与えられたテキストデータ及び、韻律照合部５３から与えられた韻律特徴情報とを紐付けして保持し、音声生成エンジン６０（解析部６１）に与える（Ｓ１０９、Ｓ１１０）。
【００６３】
そして、音声生成エンジン６０では、解析部６１により、音声認識エンジン５０から与えられたテキストデータから、顧客の発話内容が分析され、その結果である解析情報が、韻律特徴情報と共に、韻律発話文生成部６２に与えられる（Ｓ２０１、Ｓ２０２）。
【００６４】
そして、発話文生成部６２では、解析部６１からの解析情報と、アナウンスＤＢ６３の応答文生成処理用データとを利用して、顧客の発話内容に対する応答のアナウンス文が生成され、発話音声生成部６４に、韻律特徴情報と共に与えられる（Ｓ２０３〜Ｓ２０６）。
【００６５】
次に、発話音声生成部６４では、まず、音声認識エンジン５０から与えられた韻律特徴情報に応じた音声合成用データが、発話特徴ＤＢ６５から保持される（Ｓ２０７、Ｓ２０８）。そして、発話音声生成部６４では、保持した音声合成用データを用いて、発話文生成部６２から与えられたアナウンス文を読上げる合成音声の音声データを生成し、アナウンス送出部６６に与える（Ｓ２０９、Ｓ２１０）。
【００６６】
次に、アナウンス送出部６６は、発話音声生成部６４から与えられた音声データを、必要に応じて電話端末１０へ送信するための音声信号に変換して、電話端末１０へ送出する（Ｓ２１１）。
【００６７】
（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。
【００６８】
音声応答装置４０では、顧客（話者）の発した音声の特徴を示す韻律特徴情報に応じた、発話内容や発話特徴の応答音声信号を生成して顧客（話者）に聞かせることにより、顧客の入力手段に関わらず、顧客に応じた発話特徴の音声応答信号を出力することができる。これにより、例えば、顧客は、より快適な口調（方言等）、速度等でアナウンス（応答音声信号）を聞くことができ、顧客（話者）の満足度を向上させたりすること等の効果を奏することができる。
【００６９】
また、音声応答装置４０により、従来のＩＶＲの画一的なアナウンスと比較して、顧客（話者）による聞き取りにくさを解消し、通話時間の短縮（例えば、アナウンスの聴きなおす頻度の低減）による通信費用の抑制等の効果を奏することができる。
【００７０】
（Ｂ）第２の実施形態
以下、本発明による音声応答装置及びプログラムの第２の実施形態を、図面を参照しながら詳述する。
【００７１】
（Ｂ−１）第２の実施形態の構成
図４は、この実施形態の音声応答装置４０Ａを搭載したコールセンタシステム２０Ａの全体構成を示すブロック図であり、上述した図１との同一、対応部分には同一、対応符号を付して示している。
【００７２】
以下、第２の実施形態について、第１の実施形態との差異について説明する。
【００７３】
コールセンタシステム２０Ａは、ＩＶＲ装置３０及び音声応答装置４０Ａを有している。ＩＶＲ装置３０については、第１の実施形態と同様のものであるので詳しい説明を省略する。
【００７４】
音声応答装置４０Ａは、音声認識エンジン５０Ａ、及び、音声生成エンジン６０Ａを有している。
【００７５】
次に、音声認識エンジン５０Ａの詳細について説明する。
【００７６】
音声認識エンジン５０Ａは、第１の実施形態の音声認識エンジン５０に年齢推定部５６および年齢推定ＤＢ５７が追加されている点で異なっており、その他の構成は、第１の実施形態の音声認識エンジン５０とほぼ同様であるため詳しい説明を省略する。
【００７７】
第２の実施形態の音声認識エンジン５０Ａでは、年齢推定部５６及び年齢推定ＤＢ５７により、ＩＶＲ装置３０から与えられた顧客の音声信号から、顧客（電話端末１０の話者）の年齢を推定（判定）する処理が追加されている点で第１の実施形態と異なっている。
【００７８】
韻律照合部５３では、上述の通り、顧客の発話の韻律特徴、すなわち発話の音響的な特徴について処理しているが、年齢推定部５６では、言葉遣い（敬語、俗語、若者言葉等）等の言語的な特徴について処理を行う。
【００７９】
例えば、年齢層ごとに、サンプルとなる話者の会話内容等を記したテキストデータに基づいて、単語の出現パターン等を統計的にモデル化した言語モデルのデータを作成して、年齢推定ＤＢ５７に格納しておくようにしてもよい。年齢推定ＤＢ５７に格納する言語モデルとしては、例えば、単語の出現確立を統計的にモデル化したＮ−Ｇｒａｍ言語モデル等を用いることができる。
【００８０】
年齢推定ＤＢ５７に格納する年齢層別の言語モデルとしては、例えば、１０才未満、１０才代、２０才台、３０才台、４０才台、５０才代、６０才以上、と年齢層別の話者の会話内容から作成した言語モデルを適用するようにしても良い。なお、年齢層の分け方や、対象とする年齢層の範囲については、上述の例に限定されないものである。
【００８１】
そして、年齢推定部５６では、音声変換部５４により変換されたテキストデータが示す顧客の発話内容の特徴と、年齢推定ＤＢ５７に格納されたそれぞれの言語モデルの内容とを照合して、最も顧客の発話内容の特徴と近い言語モデルを選択する。年齢推定部５６では、このとき選択した言語モデルに対応する年齢層を顧客の年齢層と推定し、その推定結果（例えば、「１０才台」等の情報）を顧客情報に挿入して、発話特徴記憶部５５に与える。
【００８２】
年齢推定部５６におけるテキストデータが示す顧客の発話内容の特徴と、年齢推定ＤＢ５７に格納された言語モデルの特徴との照合方法は限定されないものであるが、例えば、テキストデータを既存の形態素解析処理等により、単語単位に分解したものを、顧客の発話における言語的な特徴のデータとして保持し、それぞれの単語の各言語モデルにおける生起確率を求める。そして、年齢推定部５６は、求めた生起確率の合計値が最も大きい言語モデルを、最も顧客の発話内容の特徴と近い言語モデルとして選択するようにしても良い。
【００８３】
なお、年齢推定部５６の処理の音声変換部５４により変換されたテキストデータが示す顧客の発話内容の特徴と、年齢推定ＤＢ５７に格納されたそれぞれの言語モデルの内容とを照合して年齢等を推定する処理については、例えば、「特開２００７−２５６３４２号公報」（参考文献４）の記載技術を適用することができる。また、年齢推定部５６の年齢推定の処理方式については限定されないものであり、例えば、「特開２００９−２７３５６２号公報」（参考文献５）や、特開２０００−４７６７３号公報（参考文献６）の記載技術を適用するようにしても良い。
【００８４】
なお、発話特徴記憶部５５は、テキストデータ、韻律特徴情報に加えて、年齢推定部５６から与えられた顧客情報の情報も保持して、音声生成エンジン６０Ａに与える。
【００８５】
次に、音声生成エンジン６０Ａの詳細について説明する。
【００８６】
音声生成エンジン６０Ａは、解析部６１Ａ、発話文生成部６２Ａ、アナウンスＤＢ６３Ａ、発話音声生成部６４、発話特徴ＤＢ６５、及びアナウンス送出部６６を有している。
【００８７】
発話音声生成部６４、発話特徴ＤＢ６５、アナウンス送出部６６については、第１の実施形態と同様のものであるので詳しい説明は省略する。
【００８８】
解析部６１Ａ、発話文生成部６２Ａ、アナウンスＤＢ６３Ａでは、顧客情報の内容に応じたアナウンス文を生成する点で、第１の実施形態と異なっている。
【００８９】
例えば、顧客が２０才以上５０才未満であれば、アナウンス文の語尾を「〜です」とし、６０才以上であれば語尾を「〜でございます」、１０才未満であれば語尾を「〜だよ」などと、同じ内容をアナウンスする場合でも口調や表現を変えることが挙げられる。このように、年齢層が上がるごとに丁寧な言葉遣いとしたり、当該年代の人が理解しやすい語彙を用いる等使い分けることにより、それぞれの年齢層の顧客が聞いた場合に親近感を覚える（あるいは、不快感を感じさせない）アナウンス文とすることができる。
【００９０】
具体的には、例えば、アナウンスＤＢ６３Ａに、年齢層別に予め応答文生成処理用データを用意しておき、発話文生成部６２Ａでは、音声認識エンジン５０Ａから与えられた顧客情報に応じた応答文生成処理用データを、アナウンスＤＢ６３Ａから選択してアナウンス文の生成に適用するようにしても良い。
【００９１】
（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態のコールセンタシステム２０Ａにおける音声応答装置４０Ａの動作について、第１の実施形態との差異を中心に説明する。
【００９２】
図５、図６は、音声応答装置４０Ａの動作について示したシーケンス図である。
【００９３】
以下の説明では、第１の実施形態と同様に、まず、コールセンタシステム２０Ａを利用する顧客が、電話端末１０を用いて、コールセンタシステム２０Ａへ発呼して接続し、顧客が発話した際の音声信号が、ＩＶＲ装置３０に与えられたものとする。
【００９４】
そして、ＩＶＲ装置３０から音声認識エンジン５０Ａ（音声取得部５１）に、顧客の音声信号が与えられ（Ｓ３０１）、その音声信号が、韻律照合部５３及び音声変換部５４に与えられる（Ｓ３０２）。
【００９５】
そして、音声変換部５４では、与えられた音声信号がテキストデータに変換され、発話特徴記憶部５５、年齢推定部５６に与えられる（Ｓ３０３、Ｓ３０４）。
【００９６】
一方、韻律照合部５３では、与えられた音声信号から顧客の発話特徴をモデル化したデータを生成して、韻律ＤＢ５２に格納された韻律モデルと照合し、韻律特徴情報を生成し（Ｓ３０５〜Ｓ３０７）、発話特徴記憶部５５に与える（Ｓ３０８）。
【００９７】
一方、年齢推定部５６では、与えられたテキストデータと、年齢推定ＤＢ５７に格納された各年齢層の言語モデルとを照合し、その照合結果から顧客の年齢層を推定し（Ｓ３０９〜Ｓ３１１）、推定結果を顧客情報に挿入して、発話特徴記憶部５５に与える（Ｓ３１２）。
【００９８】
そして、発話特徴記憶部５５では、音声変換部５４から与えられたテキストデータ、韻律照合部５３から与えられた韻律特徴情報、及び、年齢推定部５６から与えられた顧客情報とを紐付けして保持し、音声生成エンジン６０に与える（Ｓ３１３、Ｓ３１４）。
【００９９】
そして、音声生成エンジン６０Ａでは、解析部６１Ａにより、音声認識エンジン５０ＡＡから与えられたテキストデータから、顧客の発話内容が分析され、その結果である解析情報が、韻律特徴情報及び顧客情報と共に、発話文生成部６２Ａに与えられる（Ｓ４０１、Ｓ４０２）。
【０１００】
そして、発話文生成部６２Ａでは、顧客情報に挿入された顧客の年齢層の情報にも基づいて、アナウンスＤＢ６３Ａからアナウンス文の生成に用いる応答文生成処理用データを選択する。そして、発話文生成部６２Ａでは、選択した応答文生成処理用データと、解析部６１Ａからの解析情報とを利用して、顧客の発話内容に対する応答のアナウンス文が生成され（Ｓ４０３〜Ｓ４０５）、発話音声生成部６４に、韻律特徴情報と共に与えられる（Ｓ４０６）。
【０１０１】
以降の、音声生成エンジン６０ＡにおけるＳ４０７〜Ｓ４１１の処理は、第１の実施形態における上述のステップＳ２０７〜Ｓ２１０と同様であるので詳しい説明を省略する。
【０１０２】
（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果に加えて以下のような効果を奏することができる。
【０１０３】
第２の実施形態では、年齢推定部により顧客の年齢層を推定し、その年齢に応じたアナウンス文を生成することで、第１の実施形態よりもより高い顧客の満足度を得ることができる。
【０１０４】
（Ｃ）第３の実施形態
以下、本発明による音声応答装置及びプログラムの第３の実施形態を、図面を参照しながら詳述する。
【０１０５】
図７は、この実施形態の音声応答装置４０Ｂを搭載したコールセンタシステム２０Ｂの全体構成を示すブロック図であり、上述した図４との同一、対応部分には同一、対応符号を付して示している。
【０１０６】
以下、第３の実施形態について、第２の実施形態との差異について説明する。
【０１０７】
コールセンタシステム２０Ｂは、ＩＶＲ装置３０及び音声応答装置４０Ｂを有している。ＩＶＲ装置３０については、第２の実施形態と同様のものであるので詳しい説明を省略する。
【０１０８】
音声応答装置４０Ｂは、音声認識エンジン５０Ｂ、音声生成エンジン６０Ｂを有している。
【０１０９】
音声認識エンジン５０Ｂは、音声取得部５１、韻律ＤＢ５２、韻律照合部５３、音声変換部５４、発話特徴記憶部５５、年齢推定部５６Ｂ、年齢推定ＤＢ５７を有している。音声認識エンジン５０Ｂでは、年齢推定部５６Ｂ以外の構成については、第２の実施形態とほぼ同様のものであるので詳しい説明を省略する。
【０１１０】
音声生成エンジン６０Ｂは、解析部６１Ｂ、発話文生成部６２Ｂ、アナウンスＤＢ６３Ａ、発話音声生成部６４、発話特徴ＤＢ６５、アナウンス送出部６６を有している。音声生成エンジン６０Ｂでは、解析部６１Ｂ、発話文生成部６２Ｂ以外の構成については、第２の実施形態とほぼ同様のものであるので詳しい説明を省略する。
【０１１１】
第３の実施形態では、年齢推定部５６Ｂによる顧客の年齢推定を行う処理を、音声応答装置４０Ｂに顧客の音声信号が与えられる度に毎回行わない点で、第２の実施形態と異なっている。
【０１１２】
コールセンタシステム２０Ｂでは、顧客が電話端末１０を用いて接続してきて通話状態となった場合、音声応答装置４０Ｂでは、電話端末１０とコールセンタシステム２０Ｂとの間の通話が切断されるまでの間、顧客の発話した音声信号の入力と、応答音声信号の生成が繰り返される。しかし、顧客の年齢層等の属性は、通話中に変動することがないため、最初の一回だけや、最初の所定回数等、一定の回数行えばそれ以上行う必要はない。
【０１１３】
そのため、ここでは、例として、年齢推定部５６Ｂは、一人の顧客（１通話）に対して、最初の一度だけ年齢推定の処理を行い、以降は年齢推定の処理を行わないものとする。
【０１１４】
図７において、韻律照合部５３は、年齢推定部５６を介して韻律特徴情報を、発話特徴記憶部５５に与えるものとして図示しているが、第２の実施形態と同様に直接与えるようにしてもよい。
【０１１５】
また、図７では、音声変換部５４は、テキストデータを、発話特徴記憶部５５を介さずに直接、音声生成エンジン６０Ｂ（解析部６１Ｂ）に与えるものとして図示しているが、第２の実施形態と同様に、発話特徴記憶部５５を介して与えるようにしても良い。
【０１１６】
さらに、図７では、発話特徴記憶部５５は、顧客情報を解析部６１Ｂに与え、韻律特徴情報を直接、発話音声生成部６４に与えるように図示しているが、第２の実施形態と同様に、解析部６１Ｂ及び発話文生成部６２Ｂを介して与えるようにしても良い。そして、解析部６１Ｂ及び発話文生成部６２Ｂでは、最初に与えられた顧客情報に基づいた設定で、以降のテキストデータに対する処理を行う。
【０１１７】
以上のように、音声応答装置４０Ｂでは、顧客の年齢推定を行う処理を、音声応答装置４０Ｂに顧客の音声信号が与えられる度に毎回行わないため、第２の実施形態と比較して処理量を低減することができる。
【０１１８】
（Ｄ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【０１１９】
（Ｄ−１）上記の各実施形態では、顧客の発話特徴において方言の判定をする際に、韻律照合部５３により韻律モデルを用いて判定しているが、第２の実施形態の年齢推定部５６と同様に、言語モデルを用いて判定するようにしても良い。これは、例えば、標準語では「ありがとう」が関西弁では「おおきに」となるように、各方言により、韻律だけでなく語彙が異なり、特定の方言によく発生する単語や、特定の方言にはあまり発生しない単語等があるなどの性質を利用したものである。
【０１２０】
また、顧客の発話特徴において方言の判定をする際に、韻律モデルと言語モデルの両方を用いて総合的に評価して判定するようにしても良い。
【０１２１】
（Ｄ−２）第２の実施形態において、年齢推定部５６では、言語モデルを用いて判定しているが、韻律照合部５３と同様に韻律モデルを用いて判定するようにしても良い。年齢層によって人間の声質等は変化するため、各年齢層の話者の音声に基づいた韻律モデルを、韻律ＤＢ５２に格納しておき、韻律照合部５３で顧客音声の韻律モデルと照合して、顧客の年齢層を把握することができる。
【０１２２】
また、顧客の年齢層を推定する際に、上述の韻律モデルと、言語モデルの両方を用いて総合的に評価して判定するようにしても良い。
【０１２３】
さらに、第２、第３の実施形態では、韻律照合部と年齢推定部の両方を備える構成について説明したが、韻律照合部を省略し、年齢推定部だけを備える構成としても良い。この場合、年齢推定部が作成する顧客情報だけに基づいて、音声生成エンジンは応答音声信号を生成するようにしても良い。
【０１２４】
（Ｄ−３）上記の各実施形態においては、本発明の音声応答装置で処理対象となる言語として日本語を挙げているが、処理対象となる言語は日本語に限定されないものであり、さらに、複数言語に対応するようにしても良い。
【０１２５】
例えば、韻律照合部において、判定項目として、「言語」の項目を設けて、顧客が話す言語（例えば、英語、日本語、フランス語等）を特定し、音声生成エンジンでは、特定した言語に応じたアナウンス文を発話文生成部で生成し、特定した言語に応じた応答音声信号を生成するようにしても良い。また、この場合、特定した言語に応じて、音声変換部でテキストデータの作成に用いるデータとして、当該言語に対応するものを選択し、選択しデータを用いて当該言語の文字でテキストデータを作成することが望ましい。
【０１２６】
これにより、例えば、コールセンタシステムで、顧客の言語ごとに異なる回線や設備を用意する必要がなくなり、構築コストや運営コストを抑制することができる。また、顧客も自分の話す言語を考慮することなくコールセンタに電話をかけることができるので、顧客の満足度もより向上させることができる。
【０１２７】
（Ｄ−４）上記の各実施形態の韻律照合部、第２及び第３の実施形態の年齢推定部では、顧客の発話した音声信号を取得するごとに処理を行っているが、同じ顧客の音声信号のデータを複数蓄積して、蓄積した音声信号のデータを用いて処理を行うようにしても良い。例えば、一つの通話に対して、その通話が終了するまで、顧客の音声信号のデータを蓄積するようにしても良い。これにより、より多くのサンプルデータを用いて、韻律照合部や年齢推定部の判定処理を行うことができるので、判定処理の精度を向上させることができる。
【０１２８】
（Ｄ−５）上記の各実施形態では、音声生成エンジンにおいて、応答音声信号を、アナウンス文から音声合成することにより生成して保持いるが、予め用意された音声データのいずれかを選択して保持し、出力するだけの構成としても良い。この場合、音声生成エンジンでは、韻律特徴情報及び又は顧客情報に対応する発話特徴の音声データを選択する必要がある。
【０１２９】
また、上記の各実施形態では、解析部及び発話文生成部により、顧客の発話内容を示すテキストデータに応答するアナウンス文を生成して保持する処理を行っているが、予め定型のアナウンス文を複数用意しておき、テキストデータの内容に応じたアナウンス文を選択することにより、アナウンス文を保持しても良い。
【０１３０】
（Ｄ−６）上記の各実施形態では、本発明の音声応答装置をコールセンタシステム（ＩＶＲ）に適用した例について説明したが、その他の音声応答を伴う装置に適用するようにしても良い。例えば、自動販売機や金融機関のＡＴＭ等の無人応対システムに適用するようにしても良い。さらには、テレビ、エアコン等の家電、カーナビゲーションシステム等で音声応答を伴う場合に、本発明の音声応答装置を適用するようにしても良い。
【符号の説明】
【０１３１】
１０…電話端末、２０…コールセンタシステム、３０…ＩＶＲ装置、４０…音声応答装置、５０…音声認識エンジン、５１…音声取得部、５２…韻律ＤＢ、５３…韻律照合部、５４…音声変換部、５５…発話特徴記憶部、６０…音声生成エンジン、６１…解析部、６２…発話文生成部、６３…アナウンスＤＢ、６４…発話音声生成部、６５…発話特徴ＤＢ、６６…アナウンス送出部。

【特許請求の範囲】
【請求項１】
ユーザの発話に基づく入力音声信号の発話内容に応答する応答音声信号を出力する音声応答装置において、
１又は複数の判定項目の各パラメータに対応する発話特徴を示す判定用発話特徴データを記憶する発話特徴データ記憶手段と、
上記入力音声信号から上記ユーザの発話特徴を示すユーザ発話特徴データを抽出する発話特徴データ抽出手段と、
上記発話特徴データ抽出手段が抽出したユーザ発話特徴データと、上記発話特徴データ記憶手段に記憶された判定用発話特徴データのそれぞれとを照合し、その照合結果に基づいて、上記ユーザが、それぞれの上記判定項目について、いずれのパラメータに対応するかを判定するユーザ特徴判定手段と、
上記ユーザ特徴判定手段の判定結果に対応する発話特徴を備える応答音声信号を保持する応答音声信号保持手段と
を有することを特徴とする音声応答装置。
【請求項２】
上記入力音声信号の発話内容に応答する内容の応答文を保持する応答文保持手段をさらに備え、
上記応答音声信号保持手段は、上記ユーザ特徴判定手段の判定結果に応じた音声合成処理用データを保持し、保持した音声合成処理用データを用いて、上記応答文保持手段が保持した応答文を読上げる応答音声信号を生成して保持する
ことを特徴とする請求項１に記載の音声応答装置。
【請求項３】
上記応答文保持手段は、上記ユーザ特徴判定手段の判定結果に応じた応答文を保持することを特徴とする請求項２に記載の音声応答装置。
【請求項４】
上記発話特徴データ記憶手段が記憶する、一部又は全部の上記判定項目の各パラメータに対応する判定用発話特徴データのそれぞれには、当該判定項目の当該パラメータに対応する発話の韻律特徴を示す判定用韻律特徴データが含まれており、
上記発話特徴データ抽出手段が抽出するユーザ発話特徴データには、上記入力音声信号から抽出した上記ユーザによる発話の韻律特徴を示すユーザ韻律特徴データが含まれている
ことを特徴とする請求項１〜３のいずれかに記載の音声応答装置。
【請求項５】
上記判定項目には、少なくとも、方言、発話スピード、発話者の感情のいずれかが含まれることを特徴とする請求項４に記載の音声応答装置。
【請求項６】
上記発話特徴データ記憶手段が記憶する、一部又は全部の判定項目の各パラメータに対応する判定用発話特徴データのそれぞれには、当該判定項目の当該パラメータに対応する発話の言語的な特徴を示す言語特徴データが含まれており、
上記発話特徴データ抽出手段が抽出するユーザ発話特徴データには、上記入力音声信号から抽出した上記ユーザによる発話の言語的特徴を示すユーザ言語特徴データが含まれている
ことを特徴とする請求項１〜５のいずれかに記載の音声応答装置。
【請求項７】
上記判定項目には、少なくとも発話者の年齢層が含まれることを特徴とする請求項６に記載の音声応答装置。
【請求項８】
ユーザの発話に基づく入力音声信号の発話内容に応答する応答音声信号を出力する音声応答装置に搭載されたコンピュータを、
１又は複数の判定項目の各パラメータに対応する発話特徴を示す判定用発話特徴データを記憶する発話特徴データ記憶手段と、
上記入力音声信号から上記ユーザの発話特徴を示すユーザ発話特徴データを抽出する発話特徴データ抽出手段と、
上記発話特徴データ抽出手段が抽出したユーザ発話特徴データと、上記発話特徴データ記憶手段に記憶された判定用発話特徴データのそれぞれとを照合し、その照合結果に基づいて、上記ユーザが、それぞれの上記判定項目について、いずれのパラメータに対応するかを判定するユーザ特徴判定手段と、
上記ユーザ特徴判定手段の判定結果に対応する発話特徴を備える応答音声信号を保持する応答音声信号保持手段と
して機能させることを特徴とする音声応答プログラム。

【図１】