音声対話装置、方法、プログラム
【課題】実施形態によれば、ユーザからのバージイン発声を精度よく認識することが可能な音声対話装置、方法、及びプログラムが提供される。
【解決手段】検出部は、ユーザの音声を検出する検出する。認識部は、音声を認識する。出力部は、音声の認識結果に対応した応答音声を出力する。制御部は、応答音声の出力中に、ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、応答音声の出力中にユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、バージイン発声を採用するか否かを判定することを特徴とする。
【解決手段】検出部は、ユーザの音声を検出する検出する。認識部は、音声を認識する。出力部は、音声の認識結果に対応した応答音声を出力する。制御部は、応答音声の出力中に、ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、応答音声の出力中にユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、バージイン発声を採用するか否かを判定することを特徴とする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声対話装置、方法、及びプログラムに関する。
【背景技術】
【0002】
入力されたユーザの音声を認識し、当該音声に対応する応答音声を選択制御し、当該応答音声を出力することにより、ユーザとの間で対話を行なう音声対話装置がある。このような音声対話装置では、応答音声を出力している間に、ユーザから割り込まれて入力される音声(バージイン発声)を認識するバージイン機能を有するものがある。
【0003】
このような音声対話システムでは、ユーザからのバージイン発声を精度よく認識することが可能なものが望まれている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−337942号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、ユーザからのバージイン発声を精度よく認識することが可能な音声対話装置、方法、及びプログラムを提供することである。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明の実施形態に係る音声対話システムは、検出部と、認識部と、制御部と、出力部とを備える。
【0007】
検出部は、ユーザの音声を検出する検出する。認識部は、前記音声を認識する。出力部は、前記音声の認識結果に対応した応答音声を出力する。制御部は、前記応答音声の出力中に、前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記応答音声の出力中にユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定することを特徴とする。
【図面の簡単な説明】
【0008】
【図1】第1の実施の形態に係る音声対話装置1の構成を表すブロック図。
【図2】音声対話装置1の処理を表すフローチャート。
【図3】推定部15が、バージイン確率変動を推定する方法の説明図。
【図4】推定部15が、バージイン確率変動を推定する方法の説明図。
【図5】推定部15が、バージイン確率変動を推定する方法の説明図。
【図6】第1の実施の形態の変形例1に係る音声認識装置1の処理を表すフローチャート。
【図7】第1の実施の形態の変形例2に係る音声対話装置10の構成を表すブロック図。
【図8】第2の実施の形態に係る音声対話装置2の構成を表すブロック図。
【図9】音声対話装置2の処理を表すフローチャート。
【図10】推定部25が、バージイン確率変動を推定する方法の説明図。
【図11】第3の実施形態に係る音声対話装置3の構成を表すブロック図。
【図12】音声対話装置3の処理を表すフローチャート。
【図13】推定部35が、バージイン確率変動を推定する方法の説明図。
【図14】第4の実施形態に係る音声対話装置4の構成を表すブロック図。
【図15】音声対話装置4の処理を表すフローチャート。
【発明を実施するための形態】
【0009】
(第1の実施の形態)
第1の実施の形態に係る音声対話装置1は、ユーザとの音声対話により、ハンズフリーダイヤル装置や、カーナビゲーション装置等のシステム100を制御するものである。音声対話装置1は、バージイン機能を有する。本実施形態では、ハンズフリーダイヤル装置を例として説明する。
【0010】
音声対話装置1は、応答音声の出力中にバージイン発声を受け付けるかどうかを、システム動作、出力する応答音声の内容を用いて判定する。音声対話装置1は、応答音声の出力中におけるバージイン発声の起こる確率の時間変化である「バージイン確率変動」を推定し、バージイン確率変動に基づいて、バージイン発声を受け付けるか否かを判定する。
【0011】
これにより、バージイン発声が起こりにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
【0012】
図1は、音声対話装置1の構成を表すブロック図である。音声対話装置1は、検出部11と、認識部12と、制御部13と、出力部14と、推定部15と、生成部16と、音声格納部51とを備える。音声対話装置1には、マイク61と、スピーカ62とが接続される。
【0013】
検出部11は、マイク61に入力されたユーザの音声(音声信号)を検出する。認識部12は、検出された音声の音声認識を行なう。
【0014】
制御部13は、音声認識の結果に基づき、システム動作を決定する。ここでいうシステム動作とは、次の対話時におけるシステム100の動作の設定全てを指す。例えば、システム動作には、ユーザに情報を通知することや、ユーザからの返答を要求するための応答音声の出力の方法や、その際にどのような音声を入力可能としておくか等ということが挙げられる。
【0015】
制御部13が、システム動作を決定する方法には、例えば、ユーザとの対話の進捗状態を管理し、音声認識結果に基づいた状態遷移を行い、その状態に応じてシステム動作を決定する方法や、既定のルールに基づき、音声認識の結果からシステム動作を決定する方法等といった、公知の手法を用いてよい。
【0016】
また、制御部13は、システム動作を決定する際、後述する推定部15が推定したバージイン確率変動に基づいて、バージイン発声の採用のしやすさ(採用するか否かの基準)を調整する。
【0017】
例えば、認識部12が認識した音声認識結果の信頼度を求め(音声認識技術における公知の手法を用いてよい)、当該信頼度を基準としてよい。
【0018】
出力部14は、応答音声を出力するための音声データを格納する音声格納部51から、決定されたシステム動作に応じた音声データから選択又は生成(公知の音声合成技術を用いてよい)し、当該音声データに対応する応答音声(音声信号)をスピーカ62に供給する。スピーカ62は、供給された応答音声を出力する。また、出力部14は、応答音声を推定部15に供給する。
【0019】
推定部15は、供給された応答音声から、次のシステム100側の応答音声の出力中におけるバージイン確率変動を推定し、推定バージイン確率変動を制御部13に供給する。詳細は後述する。
【0020】
図2は、音声対話装置1の処理を表すフローチャートである。音声対話装置1が起動されると、推定部15は、出力部14から出力される初期の応答音声から、応答音声の出力中におけるバージイン確率変動を推定する(S101)。
【0021】
実際に推定部15が、応答音声に基づいて、どの期間にバージイン発声が起こりやすいと推定するかについては後述する。出力部14は、音声データの出力を開始し(S102)、認識部12は、音声認識を開始する(S103)。ステップS102とステップS103とは、逆の順序、又は同時に行ってもよい。
【0022】
認識部12が音声認識を行なっている間、検出部11は、音声認識を開始してから認識結果が得られるまで、音声の検出を行なう。また、検出部11は、音声の検出を開始した時刻を記憶しておく(S104)。
【0023】
認識部12が音声認識の結果を取得した場合(S105)、制御部13は、バージイン確率変動に基づいて、音声認識結果を採用するか否かを判定する(S106)。
【0024】
すなわち、制御部13は、バージイン発声が起こりやすいと推定した時刻では、音声認識結果を採用しやすくする。制御部13は、バージイン発声が起こりにくいと推定されている時刻では、音声認識結果を採用しにくくする。
【0025】
音声認識結果を採用しないと判定した場合(ステップS106においてNO)、ステップS103に遷移する。この際、認識部12は、スピーカ62から応答音声が出力中であっても、音声認識を再開する。
【0026】
音声認識結果を採用すると判定した場合(ステップS106においてYES)、制御部13は、当該音声認識結果に基づき、次に行なうシステム動作を決定する(S107)。制御部13は、ユーザとの対話が完了したか否かを判定する(S108)。例えば、制御部13は、ユーザからの音声入力が一定時間行なわれていないか否かを判定することにより、ユーザとの対話が完了したか否かを判定してもよい。
【0027】
ユーザとの対話が完了したと判定した場合(ステップS108においてYES)は、処理を終了する。
【0028】
ユーザとの対話が完了していないと判定した場合(ステップS108においてNO)は、ステップS101に遷移する。
【0029】
この後、ステップS102では、決定したシステム動作から次の応答音声が出力されるが、その時点まで前の応答音声が出力されている場合は、その出力は中断するのが望ましい。中断するタイミングは、検出部11が音声の検出を開始した時点(ステップS104)から、次の応答が出力される時点(ステップS102)までの期間であればいつでも構わない。
【0030】
これにより、制御部13は、検出部11がユーザの音声の検出を開始した時刻におけるバージイン発声の起こりやすさによって、得られた認識結果を採用するかどうかを制御できる。
【0031】
図3から図5は、推定部15が、バージイン確率変動を推定する方法の説明図である。
【0032】
推定部15が応答音声文の音声データから、どの期間をバージイン発声の起こりやすい期間と推定するかについて説明する。
【0033】
この例は、スピーカ62が応答音声を出力した後に「ピッ」という合図が鳴るようになっている。これにより音声対話装置1は、応答音声が終了したことをユーザに通知し、ユーザからの音声の返答を促す。
【0034】
図3から図5において、応答音声の上に示すグラフが、推定部15が推定したバージイン確率変動の推定結果の例を表している。ラインの位置が点線(すなわち、バージイン確率が0)で示している位置より高いほど、バージイン発声が起こりやすいと推定したことを意味している。
【0035】
図3の例は、特にシステム100に慣れていないユーザ(初心者)に効果的な例を示している。初心者はシステム100をどのように操作できるかが分からないため、基本的に応答音声の出力が終了するまで発声は行わないが、応答音声の出力が終了したと勘違いし、バージイン発声をする傾向があると考えられる。
【0036】
図3(a)に示すバージイン確率変動は、応答音声の出力が終了する直前の期間でバージイン発声が起こりやすいと推定されたものである。図3(b)に示すバージイン確率変動は、応答音声の出力中において、ポーズが発生する期間でバージイン発声が起こりやすいと推定されたものである。
【0037】
図4の例は、熟練者に対して有効なバージイン確率変動を表している。熟練者は、現在の対話の状態において次に何を言えば良いかを把握しているため、認識部12が認識した音声認識結果が正しいかどうか、応答音声の出力から判明した時点で、バージイン発声を行う傾向があると考えられる。
【0038】
図4(a)に示すバージイン確率変動は、認識部12が、ユーザの発声を認識し、出力部14が、その結果を応答出力した(トークバックした)直後の期間にバージイン発声が起こりやすいと推定されたものである。
【0039】
図4(b)に示すバージイン確率変動は、認識部12がユーザの発声を認識できず(リジェクト)、ユーザに対し再入力を要求していることをユーザに通知していると、ユーザが判断できる期間(例では「すみません」と応答した直後)にバージイン発声が起こりやすいと推定されたものである。
【0040】
また、ユーザが発話する単語の発声候補を選択肢として出力している場合、その単語を出力している期間に合わせてバージイン発声をするユーザがいると考えられる。そこで、図4(c)に示すバージイン確率変動は、複数の発声候補(例では自宅、携帯、仕事)をユーザに提示している期間にバージイン発声が起こりやすいと推定されたものである。
【0041】
以上の図3及び図4のバージイン確率変動を合わせると、図5に示すバージイン確率変動となる。
【0042】
この例の場合、推定部15は、図5に示すバージイン確率変動を最終的に推定し、制御部13に供給してよい。
【0043】
制御部13が、バージイン発声の音声認識結果の採用のしやすさを調整する方法としては、音声認識結果と同時に得られる信頼度スコアに対して閾値を設け、閾値以下である場合に音声認識結果を棄却するようにしておき、バージイン発声の起こりやすさによって閾値を変化させる方法が挙げられる。
【0044】
なお、図3から図5では、バージイン確率変動は連続的に変動しているが、離散的な変動をしてもよい。同様に、バージイン発声の採用のしやすさも連続的、離散的などどのような変動の仕方をしてもよい。
【0045】
また、本実施の形態では、推定部15は、応答音声に対して、バージイン確率変動を推定しているが、これに限られない。例えば、推定部15は、予め応答音声に関して、バージイン確率変動を対応付けたテーブル(不図示)を用いてよい。すなわち、推定部15は、応答音声に対応するバージイン確率変動をテーブル(不図示)から抽出して、制御部13に供給しても構わない。
【0046】
(変形例1)
図2のフローチャートでは、応答出力や音声認識の開始の前に応答出力中のバージイン確率変動を推定していた。しかし、そのバージイン確率変動を利用するのは音声認識結果が得られた後(S106)であるため、音声認識結果が得られた後や、音声認識の起動中に、出力し始めた応答音声からバージイン確率変動を推定しても、制御部13は、バージイン確率変動からバージイン発声の採用のしやすさを調整することは可能である。
【0047】
図6は本変形例の音声認識装置1の処理を表すフローチャートである。音声認識結果が得られた後、ステップS601でバージイン発声の起こりやすさの推定し、ステップS106で音声認識結果を採用するか判定する。
【0048】
応答音声をバージイン確率変動に反映させる方法としては、出力する応答音声に対応するバージイン確率変動を別に作成しておき、応答音声と共に読み込む。また、トークバックとその後に続く応答を分けて出力している場合には、その間をバージイン発声が起こりやすいと推定すればよい。
【0049】
また、応答音声を合成音等で出力し、応答音声をテキストで表現できる場合は、そのテキストにバージイン確率変動を付加させてよい。また、テキスト解析を用い句点や文末と検出された期間をバージイン発声が起こりやすいと推定してもよい。
【0050】
バージイン発声を受け付けるかどうかを判定するためのプロセスで、図2のフローチャートでは認識部12が音声認識中に、検出部11が音声検出を開始した時刻を取得しておき、音声認識結果を取得後、音声検出の開始時刻と、バージイン確率変動とから判定していた。
【0051】
しかし、バージイン確率変動を、応答音声を出力している間同期させておき、検出部11が、音声検出を開始した時点で、その時刻でのバージイン発声の起こりやすさからバージイン発声を受け付ける条件を決定し、認識部12が音声認識結果得た時点でその条件と照らし合わせる判定方法でも良い。
【0052】
(変形例2)
スピーカ62からの応答音声の出力がマイク入力に回り込み、ユーザの入力発声と混入してしまう場合は、応答音声を用いて、入力信号からスピーカ62からの応答音声を除去するエコーキャンセル機能を用いてもよい。
【0053】
図7が本実施形態の変形例2に係る音声対話装置10を示すブロック図である。音声対話装置10は、音声対話装置1に対して、エコーキャンセル部16をさらに備える。エコーキャンセル部16は、スピーカ62から出力される音声に基づいて、マイク61から入力された音声信号から当該音声を除去する。エコーキャンセル部16は、当該音声を除去した信号を検出部11に供給する。
【0054】
エコーキャンセル部16は、図2のフローチャートにおけるステップS103からステップS105までの期間のうち、応答音声が出力されている期間または全ての期間において動作する。これにより、エコーキャンセル機能を搭載したバージイン機能付き音声対話装置が実現できる。
【0055】
(変形例3)
本実施形態では、バージイン確率変動からバージイン発声を受け付けるか判定する方法として、バージイン確率変動から音声認識結果の採用のしやすさを調整しており、信頼度スコアや関連度の閾値を上下させることで実現できるとしていが、これに限られない。
【0056】
この方法以外にも、例えば、バージイン確率変動に所定の閾値を設定し、制御部13は、閾値以上である期間に検出され始めた音声の認識結果は採用し、閾値以下である期間に検出され始めた音声の認識結果は採用しないようにしてよい。
【0057】
以上のように、本実施形態によればバージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
【0058】
(第2の実施の形態)
図8は、第2の実施形態に係る音声対話装置2を示すブロック図である。この第2の実施形態に係わるバージイン機能付き音声対話装置2は、音声対話装置1における推定部15が、推定部25に置き換わったものである。
【0059】
本実施形態において、制御部13は、音声認識結果により次のシステム動作を決定した後、その情報を出力部14と共に推定部25に供給する点が、第1の実施の形態の場合と異なる。
【0060】
出力部14は、出力する応答音声をバージイン推定部25には供給しない点が、第1の実施の形態の場合と異なる。
【0061】
推定部25では、制御部13から供給された、次のシステム動作の情報からバージイン確率変動を推定し、当該バージイン確率変動を制御部13に送り返す。詳細については後述する。
【0062】
図9は、音声対話装置2の処理を表すフローチャートである。ただし、ステップS102〜S108は第1の実施形態と同様であるため、詳細な説明は省略する。
【0063】
ステップS201では、システム動作に応じてバージイン確率変動を推定する。図10は、推定部25が、バージイン確率変動を推定する方法の説明図である。
【0064】
図10(a)に示すバージイン確率変動は、ユーザの発声がリジェクトとなった後の応答出力中全ての期間でバージイン発声を起こりやすいと推定されたものである。これは、リジェクトによりユーザがもう一度同じ内容を発声する際はバージイン発声をしたいと感じる傾向があると考えられるためである。
【0065】
また、対話を開始した直後の初期のシステム動作では、システムは常に同じ応答音声を出力し、同様の要求をユーザに行っている。ユーザが熟練者である場合、対話の開始の合図を通知した時点で何を発声すればいいか分かってくるため、バージイン発声をしたいと感じる傾向があると考えられる。
【0066】
そこで図10(b)に示すバージイン確率変動は、対話が開始された直後の応答が出力されている期間、常にバージイン発声が起こりやすいと推定されたものである。
【0067】
このように、本実施形態では、ユーザがバージイン発声を行いやすいシステム動作、具体的にはリジェクト後や対話開始直後のシステム動作による応答出力の際にバージイン発声の音声認識結果を採用しやすくしているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
【0068】
(第3の実施形態)
図11は、第3の実施形態に係る音声対話装置3の構成を表すブロック図である。音声対話装置3は、音声対話装置2における推定部25が、推定部35に置き換わったものである。
【0069】
制御部13は、音声認識結果により次のシステム動作を決定した後、そのシステム動作をユーザがどれだけ習熟しているかを表す習熟度を推定し推定部35に供給する点が、第1の実施形態及び第2の実施形態と異なる。
【0070】
出力部14は、第1の実施形態と同様であるが、出力する応答音声を推定部35に供給しない点が、第1の実施形態と異なる。
【0071】
推定部35では、制御部13から送られてきた次のシステム動作に対するユーザの習熟度からバージイン確率変動を推定し、当該バージイン確率変動を制御部13に送り返す。
【0072】
図12は、音声対話装置3の処理を表すフローチャートである。ただし、ステップS102〜S108は第1の実施形態と同様であるため、詳細な説明は省略する。
【0073】
ステップS301において、推定部13は、次のシステム動作をどれだけユーザが習熟しているかによってバージイン確率変動を推定する。
【0074】
ユーザが習熟しているシステム動作であるほど、そのときに何を発声すればいいかが分かっているためそのシステム動作による応答出力の際にバージイン発声が起こりやすいと考えられる。そこで制御部13は、次のシステム動作をどれだけユーザが習熟しているかを推定し、推定部35は、ユーザが習熟しているシステム動作であるほどバージイン発声を起こりやすいと推定する。
【0075】
図13は、推定部35が、バージイン確率変動を推定する方法の説明図である。図13(a)の例では、ユーザはまだ初心者であり、システム動作をまだあまり習熟していないと推定部35が推定したためバージイン発声を受け付けにくくしている。しかし、図13(b)の例では、同じユーザでも何度もシステム100を利用することで熟練者となっており、その対話におけるシステム動作を習熟したと推定部35が推定したため、バージイン発声を受け付けやすくしている。このように、ユーザが習熟しバージイン発声を行いたいと意図するのに合わせて、バージイン発声の受け付けやすさを上げることができる。
【0076】
本実施形態と第1の実施の形態を組み合わせることも可能である。その場合、ユーザが習熟しておりバージイン発声が起こりやすいシステム動作による応答音声の出力においてバージイン発声を受け付けやすくする方法としては、第1の実施の形態で得られたバージイン発声の採用のしやすさに、全ての期間に一律してバージイン発声の認識結果を採用しやすくするよう上乗せする方法がある。また、第1の実施の形態でバージイン発声が行われやすいと推定した期間のみに対して更にバージイン発声の認識結果を採用しやすくするよう上乗せする方法がある。
【0077】
ユーザがシステム動作にどれだけ習熟しているかを表す習熟度を推定する方法としては、システム100の起動回数、ユーザに対してそのシステム動作をした回数から推定する方法が挙げられる。より正確に推定する場合は、対話履歴から得られる様々な情報を用い、決定木により推定する手法などが利用できる。
【0078】
このように、本実施形態によれば、ユーザが習熟しておりバージイン発声が起こりやすいシステム動作による応答出力の際にバージイン発声の認識結果を採用しやすくしているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
【0079】
(第4の実施形態)
図14は、第4の実施形態に係る音声対話装置4を表すブロック図である。本実施の形態において、検出部11は、推定部15から供給されるバージイン確率変動から、音声の始端の検出のしやすさを調整する点が、第1の実施の形態と異なる。
【0080】
対話制御部13は、推定部15が推定した応答音声の出力中のバージイン確率変動から、その認識結果の採用のしやすさを調整する処理を行わない点が、第1の実施の形態と異なる。
【0081】
推定部15は、推定したバージイン確率変動を検出部11に供給する点が、第1の実施の形態と異なる。
【0082】
図15は、音声対話装置4の処理を表すフローチャートである。ただし、ステップS101〜S103、S105、S107、S108は第1の実施の形態と同様であるため、詳細な説明は省略する。
【0083】
ステップS404では、ステップS101で推定部15が推定したバージイン確率変動を用い、検出部11でバージイン発声の始端の検出のしやすさを調整しながら音声認識を行う。バージイン発声が起こりやすい期間ほど音声の始端を検出しやすくし、バージイン発声が起こりにくい期間ほど音声の始端を検出しにくくするよう制御する。一度音声が検出された後は誤ってユーザの発声の検出を中止してしまうことを防ぐため、発声が終了したと検出部11が判断するまでは、始端を検出した際の検出のしやすさを維持したり、検出のしやすさをあらかじめ決めておいた検出のしやすさに固定をしたりすることで、ある程度音声を検出する状態で音声認識を継続する。
【0084】
音声の始端の検出のしやすさを調整する方法としては、音声区間を検出する装置のパラメータ、特に音量や人間の声らしさの閾値を調整する、などが挙げられる。また第1の実施の形態と同様、調整の変動の仕方、バージイン発声の起こりやすさからの変換の仕方などについては連続的、離散的などどのような変動、変換をしてもよい。
【0085】
ステップS404でバージイン発声が起こりにくい区間ではバージイン発声の始端を検出しにくくなっているため、ステップS105で認識結果が得られた後に認識結果を採用するかどうかの判定をする必要なくステップS107に遷移し、次の対話の動作を決定することができる。
【0086】
このように、本実施形態によれば、出力する応答音声から応答出力中のバージイン発声の起こりやすさを推定し、バージイン発声が起こりやすいと推定された期間ほど音声の始端を検出しやすくなっているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
【0087】
(変形例)
音声対話装置4では、バージイン確率変動からバージイン発声を受け付けるか判定する方法として、バージイン発声の起こりやすさの変動の情報から音声始端の検出のしやすさを調整しており、音声を検出する装置のパラメータを調整することで実現できるとしていた。
【0088】
この方法以外にも、バージイン発声の起こりやすさに閾値を設け、閾値以上である期間、検出部11は動作する。または、音声検出装置のパラメータを音声の検出を行なうように設定する。そして、音声の始端が検出された場合は、発声が終了したと検出部11が判断するまで検出部11の動作、または音声検出装置のパラメータを音声の検出を行なう設定とし、音声の検出を継続する。音声の検出を行っておらずバージイン発声の起こりやすさが閾値以下である期間は検出部11を動作しない。または、音声検出装置のパラメータを音声の検出を行わないように設定する方法がある。
【0089】
上述した実施形態により、ユーザからのバージイン発声を精度よく認識することができる。
【0090】
これまで、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0091】
1、2、3、4 音声対話装置
11 検出部
12 認識部
13 制御部
14 出力部
15、25、35 推定部
16 エコーキャンセル部
51 音声格納部
61マイク
62スピーカ
100 システム
【技術分野】
【0001】
本発明の実施形態は、音声対話装置、方法、及びプログラムに関する。
【背景技術】
【0002】
入力されたユーザの音声を認識し、当該音声に対応する応答音声を選択制御し、当該応答音声を出力することにより、ユーザとの間で対話を行なう音声対話装置がある。このような音声対話装置では、応答音声を出力している間に、ユーザから割り込まれて入力される音声(バージイン発声)を認識するバージイン機能を有するものがある。
【0003】
このような音声対話システムでは、ユーザからのバージイン発声を精度よく認識することが可能なものが望まれている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−337942号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、ユーザからのバージイン発声を精度よく認識することが可能な音声対話装置、方法、及びプログラムを提供することである。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明の実施形態に係る音声対話システムは、検出部と、認識部と、制御部と、出力部とを備える。
【0007】
検出部は、ユーザの音声を検出する検出する。認識部は、前記音声を認識する。出力部は、前記音声の認識結果に対応した応答音声を出力する。制御部は、前記応答音声の出力中に、前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記応答音声の出力中にユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定することを特徴とする。
【図面の簡単な説明】
【0008】
【図1】第1の実施の形態に係る音声対話装置1の構成を表すブロック図。
【図2】音声対話装置1の処理を表すフローチャート。
【図3】推定部15が、バージイン確率変動を推定する方法の説明図。
【図4】推定部15が、バージイン確率変動を推定する方法の説明図。
【図5】推定部15が、バージイン確率変動を推定する方法の説明図。
【図6】第1の実施の形態の変形例1に係る音声認識装置1の処理を表すフローチャート。
【図7】第1の実施の形態の変形例2に係る音声対話装置10の構成を表すブロック図。
【図8】第2の実施の形態に係る音声対話装置2の構成を表すブロック図。
【図9】音声対話装置2の処理を表すフローチャート。
【図10】推定部25が、バージイン確率変動を推定する方法の説明図。
【図11】第3の実施形態に係る音声対話装置3の構成を表すブロック図。
【図12】音声対話装置3の処理を表すフローチャート。
【図13】推定部35が、バージイン確率変動を推定する方法の説明図。
【図14】第4の実施形態に係る音声対話装置4の構成を表すブロック図。
【図15】音声対話装置4の処理を表すフローチャート。
【発明を実施するための形態】
【0009】
(第1の実施の形態)
第1の実施の形態に係る音声対話装置1は、ユーザとの音声対話により、ハンズフリーダイヤル装置や、カーナビゲーション装置等のシステム100を制御するものである。音声対話装置1は、バージイン機能を有する。本実施形態では、ハンズフリーダイヤル装置を例として説明する。
【0010】
音声対話装置1は、応答音声の出力中にバージイン発声を受け付けるかどうかを、システム動作、出力する応答音声の内容を用いて判定する。音声対話装置1は、応答音声の出力中におけるバージイン発声の起こる確率の時間変化である「バージイン確率変動」を推定し、バージイン確率変動に基づいて、バージイン発声を受け付けるか否かを判定する。
【0011】
これにより、バージイン発声が起こりにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
【0012】
図1は、音声対話装置1の構成を表すブロック図である。音声対話装置1は、検出部11と、認識部12と、制御部13と、出力部14と、推定部15と、生成部16と、音声格納部51とを備える。音声対話装置1には、マイク61と、スピーカ62とが接続される。
【0013】
検出部11は、マイク61に入力されたユーザの音声(音声信号)を検出する。認識部12は、検出された音声の音声認識を行なう。
【0014】
制御部13は、音声認識の結果に基づき、システム動作を決定する。ここでいうシステム動作とは、次の対話時におけるシステム100の動作の設定全てを指す。例えば、システム動作には、ユーザに情報を通知することや、ユーザからの返答を要求するための応答音声の出力の方法や、その際にどのような音声を入力可能としておくか等ということが挙げられる。
【0015】
制御部13が、システム動作を決定する方法には、例えば、ユーザとの対話の進捗状態を管理し、音声認識結果に基づいた状態遷移を行い、その状態に応じてシステム動作を決定する方法や、既定のルールに基づき、音声認識の結果からシステム動作を決定する方法等といった、公知の手法を用いてよい。
【0016】
また、制御部13は、システム動作を決定する際、後述する推定部15が推定したバージイン確率変動に基づいて、バージイン発声の採用のしやすさ(採用するか否かの基準)を調整する。
【0017】
例えば、認識部12が認識した音声認識結果の信頼度を求め(音声認識技術における公知の手法を用いてよい)、当該信頼度を基準としてよい。
【0018】
出力部14は、応答音声を出力するための音声データを格納する音声格納部51から、決定されたシステム動作に応じた音声データから選択又は生成(公知の音声合成技術を用いてよい)し、当該音声データに対応する応答音声(音声信号)をスピーカ62に供給する。スピーカ62は、供給された応答音声を出力する。また、出力部14は、応答音声を推定部15に供給する。
【0019】
推定部15は、供給された応答音声から、次のシステム100側の応答音声の出力中におけるバージイン確率変動を推定し、推定バージイン確率変動を制御部13に供給する。詳細は後述する。
【0020】
図2は、音声対話装置1の処理を表すフローチャートである。音声対話装置1が起動されると、推定部15は、出力部14から出力される初期の応答音声から、応答音声の出力中におけるバージイン確率変動を推定する(S101)。
【0021】
実際に推定部15が、応答音声に基づいて、どの期間にバージイン発声が起こりやすいと推定するかについては後述する。出力部14は、音声データの出力を開始し(S102)、認識部12は、音声認識を開始する(S103)。ステップS102とステップS103とは、逆の順序、又は同時に行ってもよい。
【0022】
認識部12が音声認識を行なっている間、検出部11は、音声認識を開始してから認識結果が得られるまで、音声の検出を行なう。また、検出部11は、音声の検出を開始した時刻を記憶しておく(S104)。
【0023】
認識部12が音声認識の結果を取得した場合(S105)、制御部13は、バージイン確率変動に基づいて、音声認識結果を採用するか否かを判定する(S106)。
【0024】
すなわち、制御部13は、バージイン発声が起こりやすいと推定した時刻では、音声認識結果を採用しやすくする。制御部13は、バージイン発声が起こりにくいと推定されている時刻では、音声認識結果を採用しにくくする。
【0025】
音声認識結果を採用しないと判定した場合(ステップS106においてNO)、ステップS103に遷移する。この際、認識部12は、スピーカ62から応答音声が出力中であっても、音声認識を再開する。
【0026】
音声認識結果を採用すると判定した場合(ステップS106においてYES)、制御部13は、当該音声認識結果に基づき、次に行なうシステム動作を決定する(S107)。制御部13は、ユーザとの対話が完了したか否かを判定する(S108)。例えば、制御部13は、ユーザからの音声入力が一定時間行なわれていないか否かを判定することにより、ユーザとの対話が完了したか否かを判定してもよい。
【0027】
ユーザとの対話が完了したと判定した場合(ステップS108においてYES)は、処理を終了する。
【0028】
ユーザとの対話が完了していないと判定した場合(ステップS108においてNO)は、ステップS101に遷移する。
【0029】
この後、ステップS102では、決定したシステム動作から次の応答音声が出力されるが、その時点まで前の応答音声が出力されている場合は、その出力は中断するのが望ましい。中断するタイミングは、検出部11が音声の検出を開始した時点(ステップS104)から、次の応答が出力される時点(ステップS102)までの期間であればいつでも構わない。
【0030】
これにより、制御部13は、検出部11がユーザの音声の検出を開始した時刻におけるバージイン発声の起こりやすさによって、得られた認識結果を採用するかどうかを制御できる。
【0031】
図3から図5は、推定部15が、バージイン確率変動を推定する方法の説明図である。
【0032】
推定部15が応答音声文の音声データから、どの期間をバージイン発声の起こりやすい期間と推定するかについて説明する。
【0033】
この例は、スピーカ62が応答音声を出力した後に「ピッ」という合図が鳴るようになっている。これにより音声対話装置1は、応答音声が終了したことをユーザに通知し、ユーザからの音声の返答を促す。
【0034】
図3から図5において、応答音声の上に示すグラフが、推定部15が推定したバージイン確率変動の推定結果の例を表している。ラインの位置が点線(すなわち、バージイン確率が0)で示している位置より高いほど、バージイン発声が起こりやすいと推定したことを意味している。
【0035】
図3の例は、特にシステム100に慣れていないユーザ(初心者)に効果的な例を示している。初心者はシステム100をどのように操作できるかが分からないため、基本的に応答音声の出力が終了するまで発声は行わないが、応答音声の出力が終了したと勘違いし、バージイン発声をする傾向があると考えられる。
【0036】
図3(a)に示すバージイン確率変動は、応答音声の出力が終了する直前の期間でバージイン発声が起こりやすいと推定されたものである。図3(b)に示すバージイン確率変動は、応答音声の出力中において、ポーズが発生する期間でバージイン発声が起こりやすいと推定されたものである。
【0037】
図4の例は、熟練者に対して有効なバージイン確率変動を表している。熟練者は、現在の対話の状態において次に何を言えば良いかを把握しているため、認識部12が認識した音声認識結果が正しいかどうか、応答音声の出力から判明した時点で、バージイン発声を行う傾向があると考えられる。
【0038】
図4(a)に示すバージイン確率変動は、認識部12が、ユーザの発声を認識し、出力部14が、その結果を応答出力した(トークバックした)直後の期間にバージイン発声が起こりやすいと推定されたものである。
【0039】
図4(b)に示すバージイン確率変動は、認識部12がユーザの発声を認識できず(リジェクト)、ユーザに対し再入力を要求していることをユーザに通知していると、ユーザが判断できる期間(例では「すみません」と応答した直後)にバージイン発声が起こりやすいと推定されたものである。
【0040】
また、ユーザが発話する単語の発声候補を選択肢として出力している場合、その単語を出力している期間に合わせてバージイン発声をするユーザがいると考えられる。そこで、図4(c)に示すバージイン確率変動は、複数の発声候補(例では自宅、携帯、仕事)をユーザに提示している期間にバージイン発声が起こりやすいと推定されたものである。
【0041】
以上の図3及び図4のバージイン確率変動を合わせると、図5に示すバージイン確率変動となる。
【0042】
この例の場合、推定部15は、図5に示すバージイン確率変動を最終的に推定し、制御部13に供給してよい。
【0043】
制御部13が、バージイン発声の音声認識結果の採用のしやすさを調整する方法としては、音声認識結果と同時に得られる信頼度スコアに対して閾値を設け、閾値以下である場合に音声認識結果を棄却するようにしておき、バージイン発声の起こりやすさによって閾値を変化させる方法が挙げられる。
【0044】
なお、図3から図5では、バージイン確率変動は連続的に変動しているが、離散的な変動をしてもよい。同様に、バージイン発声の採用のしやすさも連続的、離散的などどのような変動の仕方をしてもよい。
【0045】
また、本実施の形態では、推定部15は、応答音声に対して、バージイン確率変動を推定しているが、これに限られない。例えば、推定部15は、予め応答音声に関して、バージイン確率変動を対応付けたテーブル(不図示)を用いてよい。すなわち、推定部15は、応答音声に対応するバージイン確率変動をテーブル(不図示)から抽出して、制御部13に供給しても構わない。
【0046】
(変形例1)
図2のフローチャートでは、応答出力や音声認識の開始の前に応答出力中のバージイン確率変動を推定していた。しかし、そのバージイン確率変動を利用するのは音声認識結果が得られた後(S106)であるため、音声認識結果が得られた後や、音声認識の起動中に、出力し始めた応答音声からバージイン確率変動を推定しても、制御部13は、バージイン確率変動からバージイン発声の採用のしやすさを調整することは可能である。
【0047】
図6は本変形例の音声認識装置1の処理を表すフローチャートである。音声認識結果が得られた後、ステップS601でバージイン発声の起こりやすさの推定し、ステップS106で音声認識結果を採用するか判定する。
【0048】
応答音声をバージイン確率変動に反映させる方法としては、出力する応答音声に対応するバージイン確率変動を別に作成しておき、応答音声と共に読み込む。また、トークバックとその後に続く応答を分けて出力している場合には、その間をバージイン発声が起こりやすいと推定すればよい。
【0049】
また、応答音声を合成音等で出力し、応答音声をテキストで表現できる場合は、そのテキストにバージイン確率変動を付加させてよい。また、テキスト解析を用い句点や文末と検出された期間をバージイン発声が起こりやすいと推定してもよい。
【0050】
バージイン発声を受け付けるかどうかを判定するためのプロセスで、図2のフローチャートでは認識部12が音声認識中に、検出部11が音声検出を開始した時刻を取得しておき、音声認識結果を取得後、音声検出の開始時刻と、バージイン確率変動とから判定していた。
【0051】
しかし、バージイン確率変動を、応答音声を出力している間同期させておき、検出部11が、音声検出を開始した時点で、その時刻でのバージイン発声の起こりやすさからバージイン発声を受け付ける条件を決定し、認識部12が音声認識結果得た時点でその条件と照らし合わせる判定方法でも良い。
【0052】
(変形例2)
スピーカ62からの応答音声の出力がマイク入力に回り込み、ユーザの入力発声と混入してしまう場合は、応答音声を用いて、入力信号からスピーカ62からの応答音声を除去するエコーキャンセル機能を用いてもよい。
【0053】
図7が本実施形態の変形例2に係る音声対話装置10を示すブロック図である。音声対話装置10は、音声対話装置1に対して、エコーキャンセル部16をさらに備える。エコーキャンセル部16は、スピーカ62から出力される音声に基づいて、マイク61から入力された音声信号から当該音声を除去する。エコーキャンセル部16は、当該音声を除去した信号を検出部11に供給する。
【0054】
エコーキャンセル部16は、図2のフローチャートにおけるステップS103からステップS105までの期間のうち、応答音声が出力されている期間または全ての期間において動作する。これにより、エコーキャンセル機能を搭載したバージイン機能付き音声対話装置が実現できる。
【0055】
(変形例3)
本実施形態では、バージイン確率変動からバージイン発声を受け付けるか判定する方法として、バージイン確率変動から音声認識結果の採用のしやすさを調整しており、信頼度スコアや関連度の閾値を上下させることで実現できるとしていが、これに限られない。
【0056】
この方法以外にも、例えば、バージイン確率変動に所定の閾値を設定し、制御部13は、閾値以上である期間に検出され始めた音声の認識結果は採用し、閾値以下である期間に検出され始めた音声の認識結果は採用しないようにしてよい。
【0057】
以上のように、本実施形態によればバージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
【0058】
(第2の実施の形態)
図8は、第2の実施形態に係る音声対話装置2を示すブロック図である。この第2の実施形態に係わるバージイン機能付き音声対話装置2は、音声対話装置1における推定部15が、推定部25に置き換わったものである。
【0059】
本実施形態において、制御部13は、音声認識結果により次のシステム動作を決定した後、その情報を出力部14と共に推定部25に供給する点が、第1の実施の形態の場合と異なる。
【0060】
出力部14は、出力する応答音声をバージイン推定部25には供給しない点が、第1の実施の形態の場合と異なる。
【0061】
推定部25では、制御部13から供給された、次のシステム動作の情報からバージイン確率変動を推定し、当該バージイン確率変動を制御部13に送り返す。詳細については後述する。
【0062】
図9は、音声対話装置2の処理を表すフローチャートである。ただし、ステップS102〜S108は第1の実施形態と同様であるため、詳細な説明は省略する。
【0063】
ステップS201では、システム動作に応じてバージイン確率変動を推定する。図10は、推定部25が、バージイン確率変動を推定する方法の説明図である。
【0064】
図10(a)に示すバージイン確率変動は、ユーザの発声がリジェクトとなった後の応答出力中全ての期間でバージイン発声を起こりやすいと推定されたものである。これは、リジェクトによりユーザがもう一度同じ内容を発声する際はバージイン発声をしたいと感じる傾向があると考えられるためである。
【0065】
また、対話を開始した直後の初期のシステム動作では、システムは常に同じ応答音声を出力し、同様の要求をユーザに行っている。ユーザが熟練者である場合、対話の開始の合図を通知した時点で何を発声すればいいか分かってくるため、バージイン発声をしたいと感じる傾向があると考えられる。
【0066】
そこで図10(b)に示すバージイン確率変動は、対話が開始された直後の応答が出力されている期間、常にバージイン発声が起こりやすいと推定されたものである。
【0067】
このように、本実施形態では、ユーザがバージイン発声を行いやすいシステム動作、具体的にはリジェクト後や対話開始直後のシステム動作による応答出力の際にバージイン発声の音声認識結果を採用しやすくしているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
【0068】
(第3の実施形態)
図11は、第3の実施形態に係る音声対話装置3の構成を表すブロック図である。音声対話装置3は、音声対話装置2における推定部25が、推定部35に置き換わったものである。
【0069】
制御部13は、音声認識結果により次のシステム動作を決定した後、そのシステム動作をユーザがどれだけ習熟しているかを表す習熟度を推定し推定部35に供給する点が、第1の実施形態及び第2の実施形態と異なる。
【0070】
出力部14は、第1の実施形態と同様であるが、出力する応答音声を推定部35に供給しない点が、第1の実施形態と異なる。
【0071】
推定部35では、制御部13から送られてきた次のシステム動作に対するユーザの習熟度からバージイン確率変動を推定し、当該バージイン確率変動を制御部13に送り返す。
【0072】
図12は、音声対話装置3の処理を表すフローチャートである。ただし、ステップS102〜S108は第1の実施形態と同様であるため、詳細な説明は省略する。
【0073】
ステップS301において、推定部13は、次のシステム動作をどれだけユーザが習熟しているかによってバージイン確率変動を推定する。
【0074】
ユーザが習熟しているシステム動作であるほど、そのときに何を発声すればいいかが分かっているためそのシステム動作による応答出力の際にバージイン発声が起こりやすいと考えられる。そこで制御部13は、次のシステム動作をどれだけユーザが習熟しているかを推定し、推定部35は、ユーザが習熟しているシステム動作であるほどバージイン発声を起こりやすいと推定する。
【0075】
図13は、推定部35が、バージイン確率変動を推定する方法の説明図である。図13(a)の例では、ユーザはまだ初心者であり、システム動作をまだあまり習熟していないと推定部35が推定したためバージイン発声を受け付けにくくしている。しかし、図13(b)の例では、同じユーザでも何度もシステム100を利用することで熟練者となっており、その対話におけるシステム動作を習熟したと推定部35が推定したため、バージイン発声を受け付けやすくしている。このように、ユーザが習熟しバージイン発声を行いたいと意図するのに合わせて、バージイン発声の受け付けやすさを上げることができる。
【0076】
本実施形態と第1の実施の形態を組み合わせることも可能である。その場合、ユーザが習熟しておりバージイン発声が起こりやすいシステム動作による応答音声の出力においてバージイン発声を受け付けやすくする方法としては、第1の実施の形態で得られたバージイン発声の採用のしやすさに、全ての期間に一律してバージイン発声の認識結果を採用しやすくするよう上乗せする方法がある。また、第1の実施の形態でバージイン発声が行われやすいと推定した期間のみに対して更にバージイン発声の認識結果を採用しやすくするよう上乗せする方法がある。
【0077】
ユーザがシステム動作にどれだけ習熟しているかを表す習熟度を推定する方法としては、システム100の起動回数、ユーザに対してそのシステム動作をした回数から推定する方法が挙げられる。より正確に推定する場合は、対話履歴から得られる様々な情報を用い、決定木により推定する手法などが利用できる。
【0078】
このように、本実施形態によれば、ユーザが習熟しておりバージイン発声が起こりやすいシステム動作による応答出力の際にバージイン発声の認識結果を採用しやすくしているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
【0079】
(第4の実施形態)
図14は、第4の実施形態に係る音声対話装置4を表すブロック図である。本実施の形態において、検出部11は、推定部15から供給されるバージイン確率変動から、音声の始端の検出のしやすさを調整する点が、第1の実施の形態と異なる。
【0080】
対話制御部13は、推定部15が推定した応答音声の出力中のバージイン確率変動から、その認識結果の採用のしやすさを調整する処理を行わない点が、第1の実施の形態と異なる。
【0081】
推定部15は、推定したバージイン確率変動を検出部11に供給する点が、第1の実施の形態と異なる。
【0082】
図15は、音声対話装置4の処理を表すフローチャートである。ただし、ステップS101〜S103、S105、S107、S108は第1の実施の形態と同様であるため、詳細な説明は省略する。
【0083】
ステップS404では、ステップS101で推定部15が推定したバージイン確率変動を用い、検出部11でバージイン発声の始端の検出のしやすさを調整しながら音声認識を行う。バージイン発声が起こりやすい期間ほど音声の始端を検出しやすくし、バージイン発声が起こりにくい期間ほど音声の始端を検出しにくくするよう制御する。一度音声が検出された後は誤ってユーザの発声の検出を中止してしまうことを防ぐため、発声が終了したと検出部11が判断するまでは、始端を検出した際の検出のしやすさを維持したり、検出のしやすさをあらかじめ決めておいた検出のしやすさに固定をしたりすることで、ある程度音声を検出する状態で音声認識を継続する。
【0084】
音声の始端の検出のしやすさを調整する方法としては、音声区間を検出する装置のパラメータ、特に音量や人間の声らしさの閾値を調整する、などが挙げられる。また第1の実施の形態と同様、調整の変動の仕方、バージイン発声の起こりやすさからの変換の仕方などについては連続的、離散的などどのような変動、変換をしてもよい。
【0085】
ステップS404でバージイン発声が起こりにくい区間ではバージイン発声の始端を検出しにくくなっているため、ステップS105で認識結果が得られた後に認識結果を採用するかどうかの判定をする必要なくステップS107に遷移し、次の対話の動作を決定することができる。
【0086】
このように、本実施形態によれば、出力する応答音声から応答出力中のバージイン発声の起こりやすさを推定し、バージイン発声が起こりやすいと推定された期間ほど音声の始端を検出しやすくなっているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
【0087】
(変形例)
音声対話装置4では、バージイン確率変動からバージイン発声を受け付けるか判定する方法として、バージイン発声の起こりやすさの変動の情報から音声始端の検出のしやすさを調整しており、音声を検出する装置のパラメータを調整することで実現できるとしていた。
【0088】
この方法以外にも、バージイン発声の起こりやすさに閾値を設け、閾値以上である期間、検出部11は動作する。または、音声検出装置のパラメータを音声の検出を行なうように設定する。そして、音声の始端が検出された場合は、発声が終了したと検出部11が判断するまで検出部11の動作、または音声検出装置のパラメータを音声の検出を行なう設定とし、音声の検出を継続する。音声の検出を行っておらずバージイン発声の起こりやすさが閾値以下である期間は検出部11を動作しない。または、音声検出装置のパラメータを音声の検出を行わないように設定する方法がある。
【0089】
上述した実施形態により、ユーザからのバージイン発声を精度よく認識することができる。
【0090】
これまで、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0091】
1、2、3、4 音声対話装置
11 検出部
12 認識部
13 制御部
14 出力部
15、25、35 推定部
16 エコーキャンセル部
51 音声格納部
61マイク
62スピーカ
100 システム
【特許請求の範囲】
【請求項1】
ユーザの音声を検出する検出部と、
検出した前記音声を認識する認識部と、
前記音声の認識結果に対応した応答音声を出力する出力部と
前記応答音声の出力中に前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定する制御部とを備える
音声対話装置。
【請求項2】
前記制御部は、前記バージイン確率変動における確率が高い程、前記バージイン発声の前記音声認識結果を採用する基準を下げる
請求項1記載の音声対話装置。
【請求項3】
前記バージイン確率変動を推定する推定部をさらに備え、
前記制御部は、
推定された前記バージイン確率変動に基づいて、前記応答音声の出力中に前記認識部が認識したバージイン発声を採用するか否かを判定する
請求項1記載の音声対話装置。
【請求項4】
前記バージイン発声を採用する場合、
前記制御部は、
前記バージイン発声に応じた応答音声を出力するよう、前記出力部を制御する
請求項1記載の音声対話装置。
【請求項5】
前記制御部は、前記バージイン確率変動に基づいて、前記検出部の前記音声の検出の精度を変更する、
請求項2記載の音声対話装置。
【請求項6】
ユーザの音声を検出し、
検出した前記音声を認識し、
前記音声の認識結果に対応した応答音声を出力し、
前記応答音声の出力中に前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定する
音声対話方法。
【請求項7】
コンピュータを、
ユーザの音声を検出する手段と、
検出した前記音声を認識する手段と、
前記音声の認識結果に対応した応答音声を出力する手段と、
前記ユーザからのバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記応答音声の出力中に前記認識部が認識したバージイン発声を採用するか否かを判定する手段として機能させる音声対話プログラム。
【請求項1】
ユーザの音声を検出する検出部と、
検出した前記音声を認識する認識部と、
前記音声の認識結果に対応した応答音声を出力する出力部と
前記応答音声の出力中に前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定する制御部とを備える
音声対話装置。
【請求項2】
前記制御部は、前記バージイン確率変動における確率が高い程、前記バージイン発声の前記音声認識結果を採用する基準を下げる
請求項1記載の音声対話装置。
【請求項3】
前記バージイン確率変動を推定する推定部をさらに備え、
前記制御部は、
推定された前記バージイン確率変動に基づいて、前記応答音声の出力中に前記認識部が認識したバージイン発声を採用するか否かを判定する
請求項1記載の音声対話装置。
【請求項4】
前記バージイン発声を採用する場合、
前記制御部は、
前記バージイン発声に応じた応答音声を出力するよう、前記出力部を制御する
請求項1記載の音声対話装置。
【請求項5】
前記制御部は、前記バージイン確率変動に基づいて、前記検出部の前記音声の検出の精度を変更する、
請求項2記載の音声対話装置。
【請求項6】
ユーザの音声を検出し、
検出した前記音声を認識し、
前記音声の認識結果に対応した応答音声を出力し、
前記応答音声の出力中に前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定する
音声対話方法。
【請求項7】
コンピュータを、
ユーザの音声を検出する手段と、
検出した前記音声を認識する手段と、
前記音声の認識結果に対応した応答音声を出力する手段と、
前記ユーザからのバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記応答音声の出力中に前記認識部が認識したバージイン発声を採用するか否かを判定する手段として機能させる音声対話プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2012−73364(P2012−73364A)
【公開日】平成24年4月12日(2012.4.12)
【国際特許分類】
【出願番号】特願2010−217487(P2010−217487)
【出願日】平成22年9月28日(2010.9.28)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成24年4月12日(2012.4.12)
【国際特許分類】
【出願日】平成22年9月28日(2010.9.28)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]