説明

音声応答装置及びプログラム

【課題】 話者が音声入力に用いる入力手段に関わらず、話者の特性に応じた応答音声信号を出力することができる音声応答装置を提供する。
【解決手段】 本発明は、ユーザの発話に基づく入力音声信号の発話内容に応答する応答音声信号を出力する音声応答装置に関する。そして、本発明の音声応答装置は、1又は複数の判定項目の各パラメータに対応する判定用発話特徴データを記憶する手段と、ユーザ発話特徴データを抽出する手段と、抽出したユーザ発話特徴データとそれぞれの判定用発話特徴データとを照合し、ユーザが、それぞれの判定項目について、いずれのパラメータに対応するかを判定する手段と、判定結果に対応する発話特徴を備える応答音声信号を保持する手段とを有することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声応答装置及びプログラムに関し、例えば、音声自動応用装置(IVR(Interactive Voice Response)装置)に適用し得る。
【背景技術】
【0002】
近年、通信・メディア技術の進歩により、企業は顧客との間にIVR装置など様々な手段でコミュニケーションできるようになっており、発信者の操作や音声認識機能を備え、発話に応じた再生内容を決めることも可能となっている。一方、既存のIVRから再生される音声ガイダンスは、万人向けとするため標準語を使い遅めの速度となっており、利用者によっては音声ガイダンスが機械的な音声に聞こえ親しみを感じられず、直接オペレータとの接続を好む利用者も少なくなかった。
【0003】
このような課題を解決する従来技術としては特許文献1の記載技術がある。
【0004】
特許文献1に記載のIVR装置では、発信元の発信電話番号の市外局番に基づき、該市外局番に対応する音声ガイダンスを再生していた。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−222603号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に記載のIVRでは、例えば、話者が旅行等で、自宅から遠方に移動した先で、固定電話からコールセンタに電話すると、方言でガイダンスが流れ、聞き取りにくいことがあった。
【0007】
また、特許文献1のIVRでは、発信元の電話番号に応じた音声ガイダンスを再生するので、公衆電話網ではなくインターネット等のIP網を介してきたり、携帯電話網を介してきたりする等、多様な入力手段に対応できないという問題もあった。
【0008】
そのため、話者が音声入力に用いる入力手段に関わらず、話者の特性に応じた応答音声信号を出力することができる音声応答装置及びプログラムが望まれている。
【課題を解決するための手段】
【0009】
第1の本発明は、ユーザの発話に基づく入力音声信号の発話内容に応答する応答音声信号を出力する音声応答装置において、(1)1又は複数の判定項目の各パラメータに対応する発話特徴を示す判定用発話特徴データを記憶する発話特徴データ記憶手段と、(2)上記入力音声信号から上記ユーザの発話特徴を示すユーザ発話特徴データを抽出する発話特徴データ抽出手段と、(3)上記発話特徴データ抽出手段が抽出したユーザ発話特徴データと、上記発話特徴データ記憶手段に記憶された判定用発話特徴データのそれぞれとを照合し、その照合結果に基づいて、上記ユーザが、それぞれの上記判定項目について、いずれのパラメータに対応するかを判定するユーザ特徴判定手段と、(4)上記ユーザ特徴判定手段の判定結果に対応する発話特徴を備える応答音声信号を保持する応答音声信号保持手段とを有することを特徴とする。
【0010】
第2の本発明の音声応答プログラムは、ユーザの発話に基づく入力音声信号の発話内容に応答する応答音声信号を出力する音声応答装置に搭載されたコンピュータを、(1)1又は複数の判定項目の各パラメータに対応する発話特徴を示す判定用発話特徴データを記憶する発話特徴データ記憶手段と、(2)上記入力音声信号から上記ユーザの発話特徴を示すユーザ発話特徴データを抽出する発話特徴データ抽出手段と、(3)上記発話特徴データ抽出手段が抽出したユーザ発話特徴データと、上記発話特徴データ記憶手段に記憶された判定用発話特徴データのそれぞれとを照合し、その照合結果に基づいて、上記ユーザが、それぞれの上記判定項目について、いずれのパラメータに対応するかを判定するユーザ特徴判定手段と、(4)上記ユーザ特徴判定手段の判定結果に対応する発話特徴を備える応答音声信号を保持する応答音声信号保持手段として機能させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、話者が音声入力に用いる入力手段に関わらず、話者の特性に応じた応答音声信号を出力することができる音声応答装置を提供することができる。
【図面の簡単な説明】
【0012】
【図1】第1の実施形態に係る音声応答装置を搭載したコールセンタシステムの機能的構成について示したブロック図である。
【図2】第1の実施形態に係る音声応答装置のシーケンス図(1)である。
【図3】第1の実施形態に係る音声応答装置のシーケンス図(2)である。
【図4】第2の実施形態に係る音声応答装置を搭載したコールセンタシステムの機能的構成について示したブロック図である。
【図5】第2の実施形態に係る音声応答装置のシーケンス図(1)である。
【図6】第2の実施形態に係る音声応答装置のシーケンス図(2)である。
【図7】第3の実施形態に係る音声応答装置を搭載したコールセンタシステムの機能的構成について示したブロック図である。
【発明を実施するための形態】
【0013】
(A)第1の実施形態
以下、本発明による音声応答装置及びプログラムの第1の実施形態を、図面を参照しながら詳述する。
【0014】
(A−1)第1の実施形態の構成
図1は、この実施形態の音声応答装置40を搭載したコールセンタシステム20の全体構成を示すブロック図である。
【0015】
コールセンタシステム20では、顧客(以下、「話者」ともいう)が使用する電話端末10から発信された通話を受付けて通話状態となり、顧客が発話した音声信号が入力されると、その入力音声信号における発話内容を認識し、発話内容に応答する内容の応答音声信号を、電話端末10(顧客)に出力する。
【0016】
コールセンタシステム20は、IVR装置30及び音声応答装置40を有している。
【0017】
IVR装置30は、電話端末10から発信された通話を受付けて、電話端末10の話者である顧客の発声に基づく入力音声信号を音声応答装置40に与える。
【0018】
そして、音声応答装置40は、IVR装置30から与えられた顧客の音声信号の発話内容を認識し、認識した発話内容に応じた応答音声信号を作成して出力する。なお、図1においては、音声応答装置40が出力する音声信号は、電話端末10に向けて直接出力するものとして図示しているが、音声応答装置40による出力方法は限定されないものであり、例えば、IVR装置30を介して出力するようにしても良い。
【0019】
なお、図1においては、IVR装置30と音声応答装置40は別個の構成要素として図示しているが、音声応答装置40をIVR装置30自体に搭載するようにしても良い。
【0020】
次に、音声応答装置40の内部構成について説明する。
【0021】
音声応答装置40は、音声認識エンジン50及び音声生成エンジン60を有している。
【0022】
音声応答装置40は、例えば、プロセッサやメモリ等のプログラムの実行構成を有する情報処理装置(必要に応じて、音声入力用のマイク及び又は音声出力用のスピーカを備えるようにしても良い)に、実施形態の音声応答プログラム等をインストールすることにより構築するようにしても良い。その場合でも、音声応答装置40の機能的構成は、図1のように示すことができる。
【0023】
音声認識エンジン50は、IVR装置30から与えられた音声信号の発話内容を認識し、さらに、顧客の発話特徴を判定する処理を行う。そして、音声生成エンジン60は、音声認識エンジン22が認識した発話特徴に応じた応答音声信号を作成して、電話端末10に出力する。
【0024】
音声認識エンジン50は、音声取得部51、韻律DB52、韻律照合部53、音声変換部54、及び発話特徴記憶部55を有している。
【0025】
音声取得部51は、IVR装置30から認識対象の音声信号のデータを取得する。
【0026】
音声変換部54は、取得した音声信号において、顧客が発声した内容を文字で表したテキストデータに変換する。なお、音声変換部54による音声信号をテキストデータに変換する処理については、既存の音声認識処理と同様の処理を適用することができる。
【0027】
韻律照合部53は、取得した音声信号について、顧客が発声した音声の大きさや速さ、抑揚等の音響的な発話特徴を表す韻律特徴情報を、韻律DB52のデータを参照して生成する。
【0028】
韻律DB52には、韻律特徴(例えば、方言、感情、発話スピード等)ごとに、例えば、既存のコーパスベースの音声合成等に用いられる韻律モデルのデータが登録されている。そして、韻律照合部53では、それぞれの韻律特徴に係る韻律モデルと、顧客の音声信号の韻律特徴とを照合し、その照合結果に応じて顧客の発話における韻律特徴を判定し、その情報を韻律特徴情報として生成する。
【0029】
そして、発話特徴記憶部55では、音声変換部54が生成したテキストデータ、及び、韻律照合部53が作成した韻律特徴情報を紐付けして保持し、音声生成エンジン60に与える。
【0030】
韻律DB52に格納される韻律モデルとしては、サンプルとなる話者の音声データをもとに、その話者の発話における韻律の特徴(例えば、周波数、音声の大きさ(音量)、音声のピッチ(スピード)、抑揚等の項目の一部又は全部の特徴)を、隠れマルコフモデル(HMM;Hidden Marcov Model)等を用いて統計的に表した韻律モデルのデータを用いることができる。また、韻律照合部53は、顧客の音声信号から、韻律DB52に格納される韻律モデルと同様の形式でモデル化した韻律モデルを作成することにより、顧客の発話特徴のデータを抽出する。そして、韻律照合部53は、顧客の発話特徴を抽出した韻律モデルと、韻律DB52に格納された韻律モデルと照合し、その照合結果により、顧客の発話特徴を判定する。
【0031】
例えば、韻律DB52に各地方の方言(例えば、関西弁、沖縄弁、青森弁、標準語)の韻律特徴の韻律モデルを登録しておく。すなわち、方言ごとに、サンプルとなる話者の原音を録音し、その原音に基づいて、予め韻律モデルを作成し、韻律DB52に登録しておく。そして、韻律照合部53は、韻律DB52に格納された韻律モデルのそれぞれと、取得した音声信号の韻律モデルとを照合して、顧客の発話特徴を示す韻律モデルと最も近い特徴を持つ韻律モデルを選択する。
【0032】
韻律照合部53における照合処理の内容は限定されないものであるが、例えば、韻律DB52に格納された韻律モデルのそれぞれと、顧客の発話特徴を示す韻律モデルとの尤度を算出し、韻律DB52に格納された韻律モデルのうち最も尤度の高いものを選択するようにしても良い。
【0033】
韻律DB52に格納する韻律モデルの形式や、韻律照合部53による顧客の発話特徴を抽出した韻律モデルと、韻律DB52に格納された韻律モデルとの照合処理については、例えば、「澤井夏美、藤田ハミド、榑松理樹、羽倉淳 著,「韻律に基づく音声からの感情推定に関する研究」,<URL:http://www.fujita.soft.iwate-pu.ac.jp/theses_f/2006b/natumi.pdf>」(参考文献1)や、「荒木雅弘 著,「アクセント型を利用した音声入力予測手法の開発」,[Online],INTERNET,[2010年3月30日検索],<URL:http://www.gavo.t.u-tokyo.ac.jp/tokutei_pub/houkoku/recog/araki.pdf>」(参考文献2)の記載技術を適用することができる。
【0034】
そして、韻律照合部53が、顧客の発話特徴を示す韻律モデルと最も近い特徴を持つ韻律モデルが、例えば、関西弁の韻律モデルだった場合には、顧客の発話における韻律特徴は関西弁と判定し、関西弁を示す情報を挿入した韻律特徴情報を生成する。
【0035】
韻律照合部53において、顧客の発話特徴を判定する項目や項目数については限定されず、上述の方言に限らず、複数の項目(組み合わせる項目は限定されない)について韻律特徴情報を生成するように構成しても良い。例えば、方言以外にも、性別、発話スピード(例えば、「ゆっくり」、「普通」、「速い」等のパラメータ)、感情(例えば、「明るい」、「暗い」、「怒っている」等のパラメータ)等の他の判定項目についても判定するようにしても良い。
【0036】
すなわち、韻律DB52には、このような韻律特徴情報を構成する判定項目ごとに、その判定項目の各パラメータの韻律モデルを格納しておき、各パラメータの韻律モデルと、顧客音声に基づく韻律モデルとを照合することにより、1又は複数の判定項目について、顧客の発話特徴を判定し、その判定結果を韻律特徴情報に挿入する。
【0037】
例えば、判定項目が「性別」であった場合には、「男性」、「女性」という各パラメータに対応する韻律モデルを、それぞれ韻律DB52に格納しておく。そして、韻律照合部53では、顧客の音声データについて「性別」という判定項目について判定する場合には、パラメータ「男性」に対応する韻律モデルと、パラメータ「女性」に対応する韻律モデルとを照合して、その照合結果に基づいていずれかのパラメータを選択し、選択したパラメータの情報を韻律特徴情報に挿入する。
【0038】
韻律特徴情報の記述方式は限定されないものであるが、例えば、判定項目が「方言」、「性別」、「発話スピード」の3つであり、それぞれの判定項目のパラメータが、「関西弁」、「男性」、「ゆっくり」であった場合には、「方言:関西弁、性別:男性、発話スピード:ゆっくり」というように判定項目とパラメータを記述するようにしても良い。
【0039】
以上の通り、韻律照合部53では、顧客の音声信号から、顧客の発話特徴を判定し、顧客の属性(例えば、方言、性別等)や、状況(例えば、感情、発話スピード等)を把握することができる。
【0040】
音声生成エンジン60は、解析部61、発話文生成部62、アナウンスDB63、発話音声生成部64、発話特徴DB65、及びアナウンス送出部66を有している。
【0041】
解析部61は、テキストデータから、顧客の発話内容を解析する。そして、発話文生成部62は、解析部61での解析結果に基づき、顧客の発話内容に応答するアナウンス文(応答文)をアナウンスDB63に格納された応答文生成処理用データに基づいて生成する。
【0042】
解析部61及び発話文生成部62では、例えば、テキストデータの内容が、「XYZの価格に教えてください」(「XYZ」は製品の型番)という内容であった場合に、「XYZの価格は消費税込みで2万1千円です。」というアナウンス文を生成する。なお、解析部61、発話文生成部62、アナウンスDB63(応答文生成処理用データの内容を含む)については、既存の音声応答装置(例えば、IVRや情報案内システム等)と同様の処理方法を用いることができる。
【0043】
解析部61、発話文生成部62において、応答文生成処理用データに基づいてアナウンス文を生成する処理については、例えば、「特開2006−172110号公報」(参考文献3)の記載技術を適用することができる。
【0044】
発話音声生成部64は、発話文生成部62から与えられたアナウンス文を読上げる応答音声信号のデータを合成して、アナウンス送出部66に与えるものである。
【0045】
発話特徴DB65には、例えば、コーパスベースで合成音声を生成するための韻律特徴に関するデータや、合成する音素片等のデータを有する音声合成用データを複数種類格納するようにしても良い。そして、発話音声生成部64では、韻律特徴情報に応じた音声合成用データを保持して音声合成に適用する。これにより、韻律特徴情報に応じた発話特徴で、応答音声信号の音声合成を行うことができる。音声合成用データの形式については限定されないものであるが、例えば、既存のコーパスベースで音声合成を行う処理と同様のものを適用することができる。
【0046】
例えば、発話特徴DB65に、各地方の方言のサンプルとなる話者の音声を原音とする音声合成用データを格納しておく。そして、発話音声生成部64では、韻律特徴情報に、「方言:関西弁」という情報が含まれている場合には、少なくとも「方言:関西弁」に対応する音声合成用データを選択して、音声合成に適用するようにしても良い。
【0047】
また、韻律特徴情報が複数項目である場合には、その組み合わせごとに対応する音声合成用データを発話特徴DB65に格納しておいても良いし、発話特徴DB65に、音素片のデータだけは共通したデータを保持し、韻律モデルだけを韻律特徴情報における項目の組み合わせごとに保持するようにしても良い。後者の場合、発話音声生成部64は、韻律特徴情報の内容に応じて、共通の音素片のデータと、選択した韻律モデルを組み合わせて、適用する音声合成用データを保持するようにしてもよい。
【0048】
また、発話特徴DB65において、音素片のデータについても複数備え、発話音声生成部64において、音素片のデータと韻律モデルの組み合わせを選択して、適用するようにしても良い。例えば、発話特徴DB65に、男性の音声を原音とする音素片のデータと、女性の音声を原音とする音素片のデータとを保持しておき、いずれかの音素片のデータを選択して、音声合成用データに適用するようにしても良い。また、方言ごとに音素片のデータを用意しておくようにしても良い。
【0049】
発話音声生成部64では、例えば、韻律特徴情報が、「方言:関西弁、発話スピード:ゆっくり」であった場合には、同様に関西弁でゆっくりした発話スピードの音声合成用データを適用するようにしても良い。これにより、顧客は、自分と同じ発話特徴の応答音声を聞くことができ、聴きやすく安心感を得ることができる。一方、韻律特徴情報が、「方言:関西弁、発話スピード:速い」であった場合には、同様に関西弁で速い発話スピードの音声合成用データを適用するようにしても良い。これにより、顧客は、自分と同じ関西弁の音声であるため聴きやすく、さらに、いらだちを感じさせないようにすることができる。これは、発話スピードが速い顧客は、応答音声信号において、ゆっくりした発話スピードより、自分と同じ程度の発話スピードを望んでいる場合が多いためである。
【0050】
発話音声生成部64では、上述のように、韻律特徴情報が示す発話特徴と同様の発話特徴の音声合成用データを適用するようにしても良いが、あえて異なる特徴の音声合成用データを適用するようにしても良い。例えば、韻律特徴情報に「感情:怒っている、発話スピード:速い」という情報が含まれている場合には、あえて、ゆっくりした発話スピードの音声合成用データを適用することにより、顧客の感情を落ち着かせることができる場合がある。
【0051】
なお、発話音声生成部64において、韻律特徴情報の内容と音声合成用データとの対応関係については、予め設定しておくようにしても良い。
【0052】
以上のように、発話音声生成部64では、韻律特徴情報に応じて、それぞれの顧客に合った音声合成用データを適用して応答音声信号を生成する。
【0053】
なお、韻律特徴情報に方言が含まれ、アナウンス文自体もその方言に対応した内容にしなければならない場合(例えば、標準語では「ありがとうございます」が関西弁では「おおきに」となるような場合)には、アナウンスDB63にも各地方の方言ごとに異なる応答文生成処理用データを格納しておき、韻律特徴情報の内容に応じて、発話文生成部62が適用する応答文生成処理用データを選択して適用するようにしてもよい。
【0054】
アナウンス送出部66は、発話音声生成部64が生成した音声データを出力する。アナウンス送出部66による出力方法は、限定されないものであるが、この実施形態においては、音声信号として、電話端末10に向けて出力する。アナウンス送出部66による出力方法としては、例えば、音声データの音声をスピーカにより表音出力するようにしてもよいし、上述のように音声信号として出力しても良いし、音声データのまま他の装置に出力(ネットワークを介して出力するようにしても良い)するようにしても良い。
【0055】
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態のコールセンタシステム20における音声応答装置40の動作を説明する。
【0056】
図2、図3は、音声応答装置40の動作について示したシーケンス図である。
【0057】
以下の説明では、コールセンタシステム20を利用する顧客が、電話端末10を用いて、コールセンタシステム20へ発呼して接続し、顧客が発話した際の音声信号が、IVR装置30に与えられたものとする。
【0058】
ここでは例えば、電話端末10がコールセンタシステム20(IVR装置30)に接続すると、まず、IVR装置30(又は音声応答装置40)から、電話端末10(顧客)に対して、「こちらはABC株式会社です。質問の内容をおっしゃってください」というアナウンスの音声が流され、それに対して顧客が、「XYZの価格に教えてください」(「XYZ」は製品の型番)という内容の発声を行ったものとする。電話端末10がIVR装置30に接続した際に、上述の最初のアナウンスの音声は省略するようにしても良い。そして、図2、図3では、上述の顧客の発話内容に対して、例えば、「XYZの価格は消費税込みで2万1千円です。」という内容の応答音声信号を生成して出力する動作について説明している。
【0059】
まず、IVR装置30から音声認識エンジン50(音声取得部51)に、顧客の音声信号が与えられ(S101)、その音声信号が、韻律照合部53及び音声変換部54に与えられる(S102)。
【0060】
そして、音声変換部54では、顧客の音声信号がテキストデータに変換され、発話特徴記憶部55に与えられる(S103、S104)。
【0061】
一方、韻律照合部53では、与えられた音声信号から顧客の発話特徴をモデル化したデータを生成して、韻律DB52に格納された韻律モデルと照合して、その照合結果に応じて韻律特徴情報を生成し(S105〜S107)、発話特徴記憶部55に与える(S108)。
【0062】
そして、発話特徴記憶部55では、音声変換部54から与えられたテキストデータ及び、韻律照合部53から与えられた韻律特徴情報とを紐付けして保持し、音声生成エンジン60(解析部61)に与える(S109、S110)。
【0063】
そして、音声生成エンジン60では、解析部61により、音声認識エンジン50から与えられたテキストデータから、顧客の発話内容が分析され、その結果である解析情報が、韻律特徴情報と共に、韻律発話文生成部62に与えられる(S201、S202)。
【0064】
そして、発話文生成部62では、解析部61からの解析情報と、アナウンスDB63の応答文生成処理用データとを利用して、顧客の発話内容に対する応答のアナウンス文が生成され、発話音声生成部64に、韻律特徴情報と共に与えられる(S203〜S206)。
【0065】
次に、発話音声生成部64では、まず、音声認識エンジン50から与えられた韻律特徴情報に応じた音声合成用データが、発話特徴DB65から保持される(S207、S208)。そして、発話音声生成部64では、保持した音声合成用データを用いて、発話文生成部62から与えられたアナウンス文を読上げる合成音声の音声データを生成し、アナウンス送出部66に与える(S209、S210)。
【0066】
次に、アナウンス送出部66は、発話音声生成部64から与えられた音声データを、必要に応じて電話端末10へ送信するための音声信号に変換して、電話端末10へ送出する(S211)。
【0067】
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
【0068】
音声応答装置40では、顧客(話者)の発した音声の特徴を示す韻律特徴情報に応じた、発話内容や発話特徴の応答音声信号を生成して顧客(話者)に聞かせることにより、顧客の入力手段に関わらず、顧客に応じた発話特徴の音声応答信号を出力することができる。これにより、例えば、顧客は、より快適な口調(方言等)、速度等でアナウンス(応答音声信号)を聞くことができ、顧客(話者)の満足度を向上させたりすること等の効果を奏することができる。
【0069】
また、音声応答装置40により、従来のIVRの画一的なアナウンスと比較して、顧客(話者)による聞き取りにくさを解消し、通話時間の短縮(例えば、アナウンスの聴きなおす頻度の低減)による通信費用の抑制等の効果を奏することができる。
【0070】
(B)第2の実施形態
以下、本発明による音声応答装置及びプログラムの第2の実施形態を、図面を参照しながら詳述する。
【0071】
(B−1)第2の実施形態の構成
図4は、この実施形態の音声応答装置40Aを搭載したコールセンタシステム20Aの全体構成を示すブロック図であり、上述した図1との同一、対応部分には同一、対応符号を付して示している。
【0072】
以下、第2の実施形態について、第1の実施形態との差異について説明する。
【0073】
コールセンタシステム20Aは、IVR装置30及び音声応答装置40Aを有している。IVR装置30については、第1の実施形態と同様のものであるので詳しい説明を省略する。
【0074】
音声応答装置40Aは、音声認識エンジン50A、及び、音声生成エンジン60Aを有している。
【0075】
次に、音声認識エンジン50Aの詳細について説明する。
【0076】
音声認識エンジン50Aは、第1の実施形態の音声認識エンジン50に年齢推定部56および年齢推定DB57が追加されている点で異なっており、その他の構成は、第1の実施形態の音声認識エンジン50とほぼ同様であるため詳しい説明を省略する。
【0077】
第2の実施形態の音声認識エンジン50Aでは、年齢推定部56及び年齢推定DB57により、IVR装置30から与えられた顧客の音声信号から、顧客(電話端末10の話者)の年齢を推定(判定)する処理が追加されている点で第1の実施形態と異なっている。
【0078】
韻律照合部53では、上述の通り、顧客の発話の韻律特徴、すなわち発話の音響的な特徴について処理しているが、年齢推定部56では、言葉遣い(敬語、俗語、若者言葉等)等の言語的な特徴について処理を行う。
【0079】
例えば、年齢層ごとに、サンプルとなる話者の会話内容等を記したテキストデータに基づいて、単語の出現パターン等を統計的にモデル化した言語モデルのデータを作成して、年齢推定DB57に格納しておくようにしてもよい。年齢推定DB57に格納する言語モデルとしては、例えば、単語の出現確立を統計的にモデル化したN−Gram言語モデル等を用いることができる。
【0080】
年齢推定DB57に格納する年齢層別の言語モデルとしては、例えば、10才未満、10才代、20才台、30才台、40才台、50才代、60才以上、と年齢層別の話者の会話内容から作成した言語モデルを適用するようにしても良い。なお、年齢層の分け方や、対象とする年齢層の範囲については、上述の例に限定されないものである。
【0081】
そして、年齢推定部56では、音声変換部54により変換されたテキストデータが示す顧客の発話内容の特徴と、年齢推定DB57に格納されたそれぞれの言語モデルの内容とを照合して、最も顧客の発話内容の特徴と近い言語モデルを選択する。年齢推定部56では、このとき選択した言語モデルに対応する年齢層を顧客の年齢層と推定し、その推定結果(例えば、「10才台」等の情報)を顧客情報に挿入して、発話特徴記憶部55に与える。
【0082】
年齢推定部56におけるテキストデータが示す顧客の発話内容の特徴と、年齢推定DB57に格納された言語モデルの特徴との照合方法は限定されないものであるが、例えば、テキストデータを既存の形態素解析処理等により、単語単位に分解したものを、顧客の発話における言語的な特徴のデータとして保持し、それぞれの単語の各言語モデルにおける生起確率を求める。そして、年齢推定部56は、求めた生起確率の合計値が最も大きい言語モデルを、最も顧客の発話内容の特徴と近い言語モデルとして選択するようにしても良い。
【0083】
なお、年齢推定部56の処理の音声変換部54により変換されたテキストデータが示す顧客の発話内容の特徴と、年齢推定DB57に格納されたそれぞれの言語モデルの内容とを照合して年齢等を推定する処理については、例えば、「特開2007−256342号公報」(参考文献4)の記載技術を適用することができる。また、年齢推定部56の年齢推定の処理方式については限定されないものであり、例えば、「特開2009−273562号公報」(参考文献5)や、特開2000−47673号公報(参考文献6)の記載技術を適用するようにしても良い。
【0084】
なお、発話特徴記憶部55は、テキストデータ、韻律特徴情報に加えて、年齢推定部56から与えられた顧客情報の情報も保持して、音声生成エンジン60Aに与える。
【0085】
次に、音声生成エンジン60Aの詳細について説明する。
【0086】
音声生成エンジン60Aは、解析部61A、発話文生成部62A、アナウンスDB63A、発話音声生成部64、発話特徴DB65、及びアナウンス送出部66を有している。
【0087】
発話音声生成部64、発話特徴DB65、アナウンス送出部66については、第1の実施形態と同様のものであるので詳しい説明は省略する。
【0088】
解析部61A、発話文生成部62A、アナウンスDB63Aでは、顧客情報の内容に応じたアナウンス文を生成する点で、第1の実施形態と異なっている。
【0089】
例えば、顧客が20才以上50才未満であれば、アナウンス文の語尾を「〜です」とし、60才以上であれば語尾を「〜でございます」、10才未満であれば語尾を「〜だよ」などと、同じ内容をアナウンスする場合でも口調や表現を変えることが挙げられる。このように、年齢層が上がるごとに丁寧な言葉遣いとしたり、当該年代の人が理解しやすい語彙を用いる等使い分けることにより、それぞれの年齢層の顧客が聞いた場合に親近感を覚える(あるいは、不快感を感じさせない)アナウンス文とすることができる。
【0090】
具体的には、例えば、アナウンスDB63Aに、年齢層別に予め応答文生成処理用データを用意しておき、発話文生成部62Aでは、音声認識エンジン50Aから与えられた顧客情報に応じた応答文生成処理用データを、アナウンスDB63Aから選択してアナウンス文の生成に適用するようにしても良い。
【0091】
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態のコールセンタシステム20Aにおける音声応答装置40Aの動作について、第1の実施形態との差異を中心に説明する。
【0092】
図5、図6は、音声応答装置40Aの動作について示したシーケンス図である。
【0093】
以下の説明では、第1の実施形態と同様に、まず、コールセンタシステム20Aを利用する顧客が、電話端末10を用いて、コールセンタシステム20Aへ発呼して接続し、顧客が発話した際の音声信号が、IVR装置30に与えられたものとする。
【0094】
そして、IVR装置30から音声認識エンジン50A(音声取得部51)に、顧客の音声信号が与えられ(S301)、その音声信号が、韻律照合部53及び音声変換部54に与えられる(S302)。
【0095】
そして、音声変換部54では、与えられた音声信号がテキストデータに変換され、発話特徴記憶部55、年齢推定部56に与えられる(S303、S304)。
【0096】
一方、韻律照合部53では、与えられた音声信号から顧客の発話特徴をモデル化したデータを生成して、韻律DB52に格納された韻律モデルと照合し、韻律特徴情報を生成し(S305〜S307)、発話特徴記憶部55に与える(S308)。
【0097】
一方、年齢推定部56では、与えられたテキストデータと、年齢推定DB57に格納された各年齢層の言語モデルとを照合し、その照合結果から顧客の年齢層を推定し(S309〜S311)、推定結果を顧客情報に挿入して、発話特徴記憶部55に与える(S312)。
【0098】
そして、発話特徴記憶部55では、音声変換部54から与えられたテキストデータ、韻律照合部53から与えられた韻律特徴情報、及び、年齢推定部56から与えられた顧客情報とを紐付けして保持し、音声生成エンジン60に与える(S313、S314)。
【0099】
そして、音声生成エンジン60Aでは、解析部61Aにより、音声認識エンジン50AAから与えられたテキストデータから、顧客の発話内容が分析され、その結果である解析情報が、韻律特徴情報及び顧客情報と共に、発話文生成部62Aに与えられる(S401、S402)。
【0100】
そして、発話文生成部62Aでは、顧客情報に挿入された顧客の年齢層の情報にも基づいて、アナウンスDB63Aからアナウンス文の生成に用いる応答文生成処理用データを選択する。そして、発話文生成部62Aでは、選択した応答文生成処理用データと、解析部61Aからの解析情報とを利用して、顧客の発話内容に対する応答のアナウンス文が生成され(S403〜S405)、発話音声生成部64に、韻律特徴情報と共に与えられる(S406)。
【0101】
以降の、音声生成エンジン60AにおけるS407〜S411の処理は、第1の実施形態における上述のステップS207〜S210と同様であるので詳しい説明を省略する。
【0102】
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
【0103】
第2の実施形態では、年齢推定部により顧客の年齢層を推定し、その年齢に応じたアナウンス文を生成することで、第1の実施形態よりもより高い顧客の満足度を得ることができる。
【0104】
(C)第3の実施形態
以下、本発明による音声応答装置及びプログラムの第3の実施形態を、図面を参照しながら詳述する。
【0105】
図7は、この実施形態の音声応答装置40Bを搭載したコールセンタシステム20Bの全体構成を示すブロック図であり、上述した図4との同一、対応部分には同一、対応符号を付して示している。
【0106】
以下、第3の実施形態について、第2の実施形態との差異について説明する。
【0107】
コールセンタシステム20Bは、IVR装置30及び音声応答装置40Bを有している。IVR装置30については、第2の実施形態と同様のものであるので詳しい説明を省略する。
【0108】
音声応答装置40Bは、音声認識エンジン50B、音声生成エンジン60Bを有している。
【0109】
音声認識エンジン50Bは、音声取得部51、韻律DB52、韻律照合部53、音声変換部54、発話特徴記憶部55、年齢推定部56B、年齢推定DB57を有している。音声認識エンジン50Bでは、年齢推定部56B以外の構成については、第2の実施形態とほぼ同様のものであるので詳しい説明を省略する。
【0110】
音声生成エンジン60Bは、解析部61B、発話文生成部62B、アナウンスDB63A、発話音声生成部64、発話特徴DB65、アナウンス送出部66を有している。音声生成エンジン60Bでは、解析部61B、発話文生成部62B以外の構成については、第2の実施形態とほぼ同様のものであるので詳しい説明を省略する。
【0111】
第3の実施形態では、年齢推定部56Bによる顧客の年齢推定を行う処理を、音声応答装置40Bに顧客の音声信号が与えられる度に毎回行わない点で、第2の実施形態と異なっている。
【0112】
コールセンタシステム20Bでは、顧客が電話端末10を用いて接続してきて通話状態となった場合、音声応答装置40Bでは、電話端末10とコールセンタシステム20Bとの間の通話が切断されるまでの間、顧客の発話した音声信号の入力と、応答音声信号の生成が繰り返される。しかし、顧客の年齢層等の属性は、通話中に変動することがないため、最初の一回だけや、最初の所定回数等、一定の回数行えばそれ以上行う必要はない。
【0113】
そのため、ここでは、例として、年齢推定部56Bは、一人の顧客(1通話)に対して、最初の一度だけ年齢推定の処理を行い、以降は年齢推定の処理を行わないものとする。
【0114】
図7において、韻律照合部53は、年齢推定部56を介して韻律特徴情報を、発話特徴記憶部55に与えるものとして図示しているが、第2の実施形態と同様に直接与えるようにしてもよい。
【0115】
また、図7では、音声変換部54は、テキストデータを、発話特徴記憶部55を介さずに直接、音声生成エンジン60B(解析部61B)に与えるものとして図示しているが、第2の実施形態と同様に、発話特徴記憶部55を介して与えるようにしても良い。
【0116】
さらに、図7では、発話特徴記憶部55は、顧客情報を解析部61Bに与え、韻律特徴情報を直接、発話音声生成部64に与えるように図示しているが、第2の実施形態と同様に、解析部61B及び発話文生成部62Bを介して与えるようにしても良い。そして、解析部61B及び発話文生成部62Bでは、最初に与えられた顧客情報に基づいた設定で、以降のテキストデータに対する処理を行う。
【0117】
以上のように、音声応答装置40Bでは、顧客の年齢推定を行う処理を、音声応答装置40Bに顧客の音声信号が与えられる度に毎回行わないため、第2の実施形態と比較して処理量を低減することができる。
【0118】
(D)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0119】
(D−1)上記の各実施形態では、顧客の発話特徴において方言の判定をする際に、韻律照合部53により韻律モデルを用いて判定しているが、第2の実施形態の年齢推定部56と同様に、言語モデルを用いて判定するようにしても良い。これは、例えば、標準語では「ありがとう」が関西弁では「おおきに」となるように、各方言により、韻律だけでなく語彙が異なり、特定の方言によく発生する単語や、特定の方言にはあまり発生しない単語等があるなどの性質を利用したものである。
【0120】
また、顧客の発話特徴において方言の判定をする際に、韻律モデルと言語モデルの両方を用いて総合的に評価して判定するようにしても良い。
【0121】
(D−2)第2の実施形態において、年齢推定部56では、言語モデルを用いて判定しているが、韻律照合部53と同様に韻律モデルを用いて判定するようにしても良い。年齢層によって人間の声質等は変化するため、各年齢層の話者の音声に基づいた韻律モデルを、韻律DB52に格納しておき、韻律照合部53で顧客音声の韻律モデルと照合して、顧客の年齢層を把握することができる。
【0122】
また、顧客の年齢層を推定する際に、上述の韻律モデルと、言語モデルの両方を用いて総合的に評価して判定するようにしても良い。
【0123】
さらに、第2、第3の実施形態では、韻律照合部と年齢推定部の両方を備える構成について説明したが、韻律照合部を省略し、年齢推定部だけを備える構成としても良い。この場合、年齢推定部が作成する顧客情報だけに基づいて、音声生成エンジンは応答音声信号を生成するようにしても良い。
【0124】
(D−3)上記の各実施形態においては、本発明の音声応答装置で処理対象となる言語として日本語を挙げているが、処理対象となる言語は日本語に限定されないものであり、さらに、複数言語に対応するようにしても良い。
【0125】
例えば、韻律照合部において、判定項目として、「言語」の項目を設けて、顧客が話す言語(例えば、英語、日本語、フランス語等)を特定し、音声生成エンジンでは、特定した言語に応じたアナウンス文を発話文生成部で生成し、特定した言語に応じた応答音声信号を生成するようにしても良い。また、この場合、特定した言語に応じて、音声変換部でテキストデータの作成に用いるデータとして、当該言語に対応するものを選択し、選択しデータを用いて当該言語の文字でテキストデータを作成することが望ましい。
【0126】
これにより、例えば、コールセンタシステムで、顧客の言語ごとに異なる回線や設備を用意する必要がなくなり、構築コストや運営コストを抑制することができる。また、顧客も自分の話す言語を考慮することなくコールセンタに電話をかけることができるので、顧客の満足度もより向上させることができる。
【0127】
(D−4)上記の各実施形態の韻律照合部、第2及び第3の実施形態の年齢推定部では、顧客の発話した音声信号を取得するごとに処理を行っているが、同じ顧客の音声信号のデータを複数蓄積して、蓄積した音声信号のデータを用いて処理を行うようにしても良い。例えば、一つの通話に対して、その通話が終了するまで、顧客の音声信号のデータを蓄積するようにしても良い。これにより、より多くのサンプルデータを用いて、韻律照合部や年齢推定部の判定処理を行うことができるので、判定処理の精度を向上させることができる。
【0128】
(D−5)上記の各実施形態では、音声生成エンジンにおいて、応答音声信号を、アナウンス文から音声合成することにより生成して保持いるが、予め用意された音声データのいずれかを選択して保持し、出力するだけの構成としても良い。この場合、音声生成エンジンでは、韻律特徴情報及び又は顧客情報に対応する発話特徴の音声データを選択する必要がある。
【0129】
また、上記の各実施形態では、解析部及び発話文生成部により、顧客の発話内容を示すテキストデータに応答するアナウンス文を生成して保持する処理を行っているが、予め定型のアナウンス文を複数用意しておき、テキストデータの内容に応じたアナウンス文を選択することにより、アナウンス文を保持しても良い。
【0130】
(D−6)上記の各実施形態では、本発明の音声応答装置をコールセンタシステム(IVR)に適用した例について説明したが、その他の音声応答を伴う装置に適用するようにしても良い。例えば、自動販売機や金融機関のATM等の無人応対システムに適用するようにしても良い。さらには、テレビ、エアコン等の家電、カーナビゲーションシステム等で音声応答を伴う場合に、本発明の音声応答装置を適用するようにしても良い。
【符号の説明】
【0131】
10…電話端末、20…コールセンタシステム、30…IVR装置、40…音声応答装置、50…音声認識エンジン、51…音声取得部、52…韻律DB、53…韻律照合部、54…音声変換部、55…発話特徴記憶部、60…音声生成エンジン、61…解析部、62…発話文生成部、63…アナウンスDB、64…発話音声生成部、65…発話特徴DB、66…アナウンス送出部。

【特許請求の範囲】
【請求項1】
ユーザの発話に基づく入力音声信号の発話内容に応答する応答音声信号を出力する音声応答装置において、
1又は複数の判定項目の各パラメータに対応する発話特徴を示す判定用発話特徴データを記憶する発話特徴データ記憶手段と、
上記入力音声信号から上記ユーザの発話特徴を示すユーザ発話特徴データを抽出する発話特徴データ抽出手段と、
上記発話特徴データ抽出手段が抽出したユーザ発話特徴データと、上記発話特徴データ記憶手段に記憶された判定用発話特徴データのそれぞれとを照合し、その照合結果に基づいて、上記ユーザが、それぞれの上記判定項目について、いずれのパラメータに対応するかを判定するユーザ特徴判定手段と、
上記ユーザ特徴判定手段の判定結果に対応する発話特徴を備える応答音声信号を保持する応答音声信号保持手段と
を有することを特徴とする音声応答装置。
【請求項2】
上記入力音声信号の発話内容に応答する内容の応答文を保持する応答文保持手段をさらに備え、
上記応答音声信号保持手段は、上記ユーザ特徴判定手段の判定結果に応じた音声合成処理用データを保持し、保持した音声合成処理用データを用いて、上記応答文保持手段が保持した応答文を読上げる応答音声信号を生成して保持する
ことを特徴とする請求項1に記載の音声応答装置。
【請求項3】
上記応答文保持手段は、上記ユーザ特徴判定手段の判定結果に応じた応答文を保持することを特徴とする請求項2に記載の音声応答装置。
【請求項4】
上記発話特徴データ記憶手段が記憶する、一部又は全部の上記判定項目の各パラメータに対応する判定用発話特徴データのそれぞれには、当該判定項目の当該パラメータに対応する発話の韻律特徴を示す判定用韻律特徴データが含まれており、
上記発話特徴データ抽出手段が抽出するユーザ発話特徴データには、上記入力音声信号から抽出した上記ユーザによる発話の韻律特徴を示すユーザ韻律特徴データが含まれている
ことを特徴とする請求項1〜3のいずれかに記載の音声応答装置。
【請求項5】
上記判定項目には、少なくとも、方言、発話スピード、発話者の感情のいずれかが含まれることを特徴とする請求項4に記載の音声応答装置。
【請求項6】
上記発話特徴データ記憶手段が記憶する、一部又は全部の判定項目の各パラメータに対応する判定用発話特徴データのそれぞれには、当該判定項目の当該パラメータに対応する発話の言語的な特徴を示す言語特徴データが含まれており、
上記発話特徴データ抽出手段が抽出するユーザ発話特徴データには、上記入力音声信号から抽出した上記ユーザによる発話の言語的特徴を示すユーザ言語特徴データが含まれている
ことを特徴とする請求項1〜5のいずれかに記載の音声応答装置。
【請求項7】
上記判定項目には、少なくとも発話者の年齢層が含まれることを特徴とする請求項6に記載の音声応答装置。
【請求項8】
ユーザの発話に基づく入力音声信号の発話内容に応答する応答音声信号を出力する音声応答装置に搭載されたコンピュータを、
1又は複数の判定項目の各パラメータに対応する発話特徴を示す判定用発話特徴データを記憶する発話特徴データ記憶手段と、
上記入力音声信号から上記ユーザの発話特徴を示すユーザ発話特徴データを抽出する発話特徴データ抽出手段と、
上記発話特徴データ抽出手段が抽出したユーザ発話特徴データと、上記発話特徴データ記憶手段に記憶された判定用発話特徴データのそれぞれとを照合し、その照合結果に基づいて、上記ユーザが、それぞれの上記判定項目について、いずれのパラメータに対応するかを判定するユーザ特徴判定手段と、
上記ユーザ特徴判定手段の判定結果に対応する発話特徴を備える応答音声信号を保持する応答音声信号保持手段と
して機能させることを特徴とする音声応答プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−217018(P2011−217018A)
【公開日】平成23年10月27日(2011.10.27)
【国際特許分類】
【出願番号】特願2010−81545(P2010−81545)
【出願日】平成22年3月31日(2010.3.31)
【出願人】(308033722)株式会社OKIネットワークス (165)
【Fターム(参考)】