説明

音声対話装置および音声対話方法

【課題】 使用者が直感的にどの程度発声方法を変えればよいか理解できるようにして、誤認識の発生を抑制した音声対話装置および音声対話方法を提供する。
【解決手段】 音声認識手段(11,14)により使用者の発声を認識し、発声分析手段(14)により使用者の発声について分析し、推定手段(14)により、発声分析手段による分析結果に基づき誤認識に寄与する誤認識要因を推定し、応答手段(12,14)により使用者の発声の認識結果を含む応答を音声合成して出力する音声対話装置であって、応答手段は、推定手段により誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声対話装置および音声対話方法に係り、特に、音声認識における誤認識の発生を抑制した音声対話装置および音声対話方法に関する。
【背景技術】
【0002】
従来、音声対話装置を使用して実際に音声対話を行おうとする場合、周囲の雑音環境の影響や使用者の発声方法の影響などにより、音声の誤認識が発生して音声対話に失敗する場合が多くある。例えば、周囲の雑音レベルの大きさに対して使用者の発話が小さすぎる場合に誤認識が発生する。また、使用者の発話が大きすぎるときにも、音声信号にひずみが生じる場合や、音声対話装置が入力可能な発声音量の上限を超えてしまう場合などに誤認識が発生する。さらに、使用者の発声の速度が、音声対話装置の持つ音声の標準パターンを構築したときのサンプル音声の速度と比較して大きい隔たりがある場合に、誤認識が発生する。
【0003】
例えば、特開平9−6389号公報に開示の「音声認識対話処理方法および音声認識対話装置」は、話者に対して肯定か否定を要求する返事を要求する場合に、会話モードが肯定否定のモードに切り替えられて、話者の返事の内容から肯定内容か否定内容かを判断して応答メッセージを発生して、認識可能な登録単語数を増やすことなく登録単語以外の言葉でも会話できる技術を提案している。このような従来例においても、誤認識の発生を抑制するために、入力音声の大きさを予め設定した閾値と比較するなどして検出し、所定音量より大きい場合には「もっと小さな声で話して」というような内容のシステム応答を発声し、またこれとは逆に、入力音声の音量が所定音量より小さい場合には「もっと大きな声で話して」というようなシステム応答を行うようにしている。
【特許文献1】特開平9−6389号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した特許文献1に開示された技術においては、使用者に対してシステムが発声方法を直接的に指示するため、使用者によっては煩わしさを感じてしまうという問題があった。また、システムからの発声方法(音量や速度)の指示を聞いたとしても、どの程度発声方法を変えればよいかの程度が分からないという問題点もあった。
【0005】
本発明は、上記従来の課題に鑑みてなされたものであって、システムからの発声方法の指示を、使用者に煩わしさを与えることなく、使用者が直感的にどの程度発声方法を変えればよいか理解できるようにして、誤認識の発生を抑制した音声対話装置および音声対話方法を提供することを目的としている。
【課題を解決するための手段】
【0006】
上記目的を解決するため、本発明は、音声認識手段により使用者の発声を認識し、発声分析手段により前記使用者の発声について分析し、推定手段により、前記発声分析手段による分析結果に基づき誤認識に寄与する誤認識要因を推定し、応答手段により前記使用者の発声の認識結果を含む応答を音声合成して出力する音声対話装置であって、前記応答手段は、前記推定手段により前記誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答することを特徴とする。
【発明の効果】
【0007】
本発明に係る音声対話装置および音声対話方法では、応答手段(応答ステップ)において、推定手段(推定ステップ)により誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答するので、システムからの発声方法の指示で、使用者に煩わしさを与えることなく、使用者が誤認識要因を直感的に理解することができ、また、使用者がどの程度発声方法を変えればよいかも直感的に理解することができる。
【発明を実施するための最良の形態】
【0008】
以下、本発明の音声対話装置および音声対話方法の実施例について、図面を参照して詳細に説明する。なお、実施例の説明では、一例として車両や携帯端末等に搭載されるナビゲーション装置に適用した構成を示すが、本発明は、情報機器に搭載されて種々の条件等をインタラクティブに段階的に設定していくものであれば、どのようなアプリケーションにも適用可能である。
【実施例】
【0009】
図1は本発明の一実施例に係る音声対話装置の構成図である。図1において、本実施例の音声対話装置は、信号処理ユニット1、マイク2、スピーカ3、入力装置4およびディスプレイ5を備えて構成されている。なお、本発明に関わる主要構成要素ではないために図示しないが、携帯端末であれば他に送受信手段の構成を備え、また車載用であれば、送受信手段または通信接続手段等を備えた構成であってもよい。
【0010】
マイク2は使用者の発話を音声信号に変換して信号処理ユニット1に供給する。また、スピーカ3はシステムの発話として信号処理ユニット1から出力される音声信号を音声として出力する。また、入力装置4には発話スイッチ4aおよび訂正スイッチ4bを備えている。ここで、発話スイッチ4aは音声認識の開始指示を行うためのスイッチであり、訂正スイッチ4bは誤認識した場合に訂正を行うためのスイッチであって、該訂正スイッチ4bを一定期間押し続けることにより、音声操作を途中で終了することができる。さらに、ディスプレイ5は例えばLCD(液晶表示装置)等で実現され、ナビゲーションの行き先や探索条件設定時のガイダンス表示を行ったり、経路誘導等の画面を表示したりする。
【0011】
信号処理ユニット1は、A/Dコンバータ11、D/Aコンバータ12、出力アンプ13、信号処理装置14および外部記憶装置15を備え、信号処理装置14にCPU21およびメモリ22を備えた構成である。信号処理ユニット1は、入力装置4の発話スイッチ4aまたは訂正スイッチ4bの押下に応答して、またマイク2からの使用者の音声入力に応答して信号処理を行い、システム応答としてスピーカ3からシステム発話を出力させたり、ディスプレイ5上に応答画像を表示させたりする。
【0012】
外部記憶装置15には、ナビゲーションに使用するデータや音声認識処理に使用する認識対象データ等が記憶され、また、メモリ22には処理プログラムや使用頻度の高い各種データ等が記憶されている。音声認識処理では、A/Dコンバータ11を介してディジタル信号に変換されたマイク2からの音声入力について、信号処理装置14は外部記憶装置15を参照しながら認識処理を行い、また、その音声入力に対するシステム応答としてのシステム発話を、信号処理装置14はD/Aコンバータ12を介してアナログ信号に変換して出力アンプ13で信号増幅した後に、スピーカ3から音声出力させる。
【0013】
本実施例の音声対話装置は、使用者の発声を認識する音声認識手段と、使用者の発声について分析する発声分析手段と、発声分析手段による分析結果に基づき誤認識に寄与する誤認識要因を推定する推定手段と、使用者の発声の認識結果を含む応答を音声合成して出力する応答手段とを備えて構成し、応答手段において、推定手段により誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答するものであるが、音声認識手段はA/Dコンバータ11、信号処理装置14および外部記憶装置15で実現され、応答手段は、信号処理装置14、D/Aコンバータ12、出力アンプ13およびスピーカ3で実現される。また、発声分析手段および推定手段、音声認識手段内の音声認識処理、並びに応答手段内の音声合成処理および発声変換する手段は、信号処理装置14(CPU21)で実行される処理プログラムにより実現される。
【0014】
次に、図2、図3、図4、図5および図6を参照して、本実施例の音声対話装置における音声対話方法を説明する。図2は音声対話方法を説明するフローチャート、図3は認識対象のデータ構造の説明図、図4は使用者の発話とシステム応答を例示する説明図、図5および図6はシステムの応答メッセージを音声信号により説明する説明図である。
【0015】
図2のフローチャートにおいて、まず、使用者が発話スイッチ4aを操作して発話の開始が指示される(ステップS101)と、信号処理装置14は発話開始指示を検出して処理を開始する。
【0016】
次に、信号処理装置14は、外部記憶装置15に入力階層毎に記憶されている単語辞書と文法からなる認識対象データを読み出し、各々の階層における認識対象として該単語辞書および文法をメモリ22に設定する(ステップS102)。
【0017】
ここで、認識対象は、車両用のナビゲーション装置および車両用の電子機器に関わるものであり、図3に示されるようなものである。同図に示すように、認識対象のデータ構造は、第1階層から第3階層までの3階層の階層構造を備えている。第1階層のそれぞれの認識対象について第2階層に複数個の認識対象と話題の接続関係を持ち、また、第2階層の認識対象は第3階層に複数の認識対象と接続関係を持つ。
【0018】
第1階層においては、音声対話で実行可能な機能の名称を認識対象としており、「行き先」、「探索条件」、「施設表示」および「電話」の機能がある。この第1階層で使用者からの発話「行き先」を信号処理装置14が受理した場合は、車両のナビゲーション装置における行き先設定機能が選択され、第2階層に移る。第2階層では行き先に何を設定するかの分類名称を認識対象としている。第2階層で発話「駅」を受理した場合は、駅の名称によって行き先を設定することが決定され、第3階層に移る。第3階層では、どの駅を行き先に設定するのかを認識対象としている。
【0019】
第3階層では、駅を指定する発話の方法が2種類あり、1つは駅名のみを発話する方法である。この場合、使用者は例えば「横浜駅」とだけ発話すればよい。もう1つは駅の存在する都道府県名と駅名を連続的に発話する方法である。この場合、使用者は例えば「神奈川県の横浜駅」と発話すればよい。一般に、後者の方が認識率は高いが同時に使用者の発話負荷は大きい。
【0020】
以下の説明では、この第3階層における発話の対話と様子を説明に用いる。すなわち、使用者が第1階層で「行き先」を発話し、第2階層で「駅」を発話し、それぞれが受理されたとする前提である。そして次に使用者は、駅を指定するべく駅名を発話することになる。
【0021】
次に、信号処理装置14は、処理を開始した旨を使用者に知らせるために、外部記憶装置15に記憶してある告知音声信号をD/Aコンバータ12に出力し、アンプ13およびスピーカ3を介して告知音声を出力する(ステップS103)。
【0022】
この告知音声を聞くと、使用者は認識対象に含まれる発話を行うので、信号処理装置14は、マイク2からの音声信号をA/Dコンバータ11でディジタル信号に変換したものを取り込む(ステップS104)。ここで、前述のように認識対象を車両のナビゲーション装置の機能としており、使用者は「横浜駅」という駅名のみの発話を行ったとする。
【0023】
信号処理装置14は、発話スイッチ4aの操作がなされるまでは、D/Aコンバータ12の出力(ディジタル音声信号)の平均パワーを演算しており、発話スイッチ4aの操作がなされた後に、前記平均パワーに比べてディジタル音声信号の瞬間パワーが所定値以上に大きくなった時、使用者が発話したと判断し、音声取り込みを開始する。その後も平均パワーの検出は継続して行われ、前記平均パワーが所定値よりも小さくなった時、使用者の発話が終了したと判断する。
【0024】
次に、信号処理装置14は、ステップS104で取り込んだ使用者の発話に基づき、発声方法の分析を行う(ステップS105)。具体的には、発声の音量と発声の速度を求める。発声音量は前記平均パワーの発話全体での平均値を求めることにより得ることができる。また、発声速度の検出方法については、例えば「特開平9−146575号公報」の「発声速度検出方法」、並びに特許番号2955247号公報および特開平10−301598号公報の「話速変換方法およびその装置」などに詳しく、次のステップの説明で併せて説明する。
【0025】
次に、信号処理装置14は、ステップS105で分析した発声音量および発声速度に基づき、誤認識につながり得る要因即ち誤認識要因を推定する。
【0026】
ここで、発声音量について信号処理装置14が最適とする範囲は、予め2つの閾値XおよびYで決定されており、発声音量が閾値Xよりも大きく閾値Yよりも小さいときに適正とみなされる。発声音量と特定閾値との比較の方法については公知技術であり、例えば、特開昭63−226692号公報「パターン比較方式」に開示されている。ただし、特開昭63−226692号公報では唯一の閾値である閾値Aとの比較によって音声の発話区間検出を行っているが、本発明においては、閾値Aの他に2つの閾値XおよびYを用意して発声音量の適正判断を行う点が異なる。なお、閾値Aと他の2つの閾値XおよびYの大小関係は閾値A<閾値X<閾値Yであり、各々の閾値はメモリ22に記憶されている。すなわち、閾値Aとの比較によって音声の発話区間の検出を行い、該発話区間の発声音量について、最適範囲(閾値Y)よりも大きかった場合には要因は発声が大きすぎるためと判断し、また、最適範囲(閾値X)よりも小さかった場合には要因は発声が小さすぎるためと判断する。
【0027】
また、発声速度について信号処理装置14が最適とする範囲は、予め2つの閾値VおよびWで決定されており、発声速度が閾値Vよりも速く閾値Wよりも遅いときに適正とみなされる。発声速度検出および適正判断の方法については公知技術であり、例えば、前述の「特開平9−146575号公報」の「発声速度検出方法」に開示されている。ここで、特開平9−146575号公報では、発声速度の検出方法の1つとして、母音区間の継続長を用いるものが提案されている。母音区間の継続長と所定基準値Tsとの比較によって発声速度の分析を行うもので、入力音声の所定時間内に含まれる母音区間の継続長に関する値を算出し、該算出値が基準値Ts以上であるときには発声速度が遅いと判定し、該算出値が基準値Tsより小さいときには発声速度が速いと判定するものである。
【0028】
本発明においては、2つの閾値TvおよびTwを用意してこれら2つの閾値との比較により発声速度の適正判断を行う。なお、2つの閾値TvおよびTwの大小関係は閾値Tv>基準値Ts>閾値Twであり、各々の閾値はメモリ22に記憶されている。すなわち、所定時間内に含まれる母音区間の継続長に関する算出値が閾値Twよりも小さく、発声速度が最適範囲よりも速かった場合には要因は発声が速すぎるためと判断し、該算出値が閾値Tvよりも大きく、発声速度が最適範囲よりも遅かった場合には要因は発声が遅すぎるためと判断する。
【0029】
次に、信号処理装置14は、使用者の発声内容を含む応答メッセージを出力するが、ステップS106で誤認識要因が推定されたときには、該誤認識要因を強調した発声変換を施す(ステップS107)。図4には、使用者の発声音量が大きすぎる場合の使用者の発話とシステム応答のメッセージの具体例を示す。図中、Aが使用者の発話であり、Bがシステム応答のメッセージである。使用者の発話「横浜駅」に対して、該使用者の発話「横浜駅」と予め外部記憶装置15内に記憶しておいたシステム発話「をさがします」を連結して1つの応答メッセージを生成している。この場合、ステップS106において、誤認識要因として「使用者の発声音量が大きすぎる」が推定されるので、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発話内容部分「横浜駅」を、通常の応答時の音量と比較してより大きい音量に発声変換するよう設定されることになる。
【0030】
図5は、強調した発声変換を施さない場合のシステム応答メッセージを説明する説明図であり、図6は、強調した発声変換を施した場合のシステム応答メッセージを説明する説明図である。両図において、上段にはメッセージ内容を、下段には音声信号の信号波形をそれぞれ示す。また、部分A01,A02が使用者の発話内容部分であり、部分B01,B02が使用者発話内容以外の部分で外部記憶装置15内に記憶しておいたシステム発話である。図5と図6を比較すると、図6における使用者発話内容部分A02の信号振幅が図5の使用者の発話内容部分A01よりも大きくなっており、発声音量が大きくなるように強調して発声変換されていることを示している。
【0031】
次に、信号処理装置14は、メモリ22に記憶されている認識対象との一致度演算を開始する(ステップS108)。一致度は、検出した発話区間のディジタル音声信号と個々の認識対象がどの程度似ているかを示すものであり、スコアとして算出される。ここでは、スコアの値が大きいほど一致度が高いとして評価する。すなわち、一致度の最も大きい認識対象を認識結果として出力する。
【0032】
次に、信号処理装置14は、ステップS108の認識結果を使用者発話内容部分とし、これに所定のシステム発話を連結して1つの応答(結果)メッセージとして出力する(ステップS109)。上述の図4の例では、使用者の発話「横浜駅」が正しく認識されており、認識結果「横浜駅」に予め外部記憶装置15内に記憶しておいたシステム発話「をさがします」を連結して1つの応答メッセージが生成され、ステップS107による発声変換の設定で音声合成処理プログラムにより音声信号に変換され、D/Aコンバータ12によりアナログ音声信号に変換された後、アンプ13による信号増幅を経て、スピーカ3から音声出力されることになる。このとき、使用者の発話を認識した結果「横浜駅」が通常の応答時の音量と比較してより大きい音量に発声変換されているので、使用者はこれを聞くことにより自分の発声が大きすぎたことを直感的に認知することができる。
【0033】
なお、例えば使用者が「横浜駅」と発話したのに対して、誤認識が発生して認識結果が「大岡駅」となった場合には、使用者は、訂正スイッチ4bを操作して認識処理(ステップS103)以前の状態に戻ることができる。すなわち、ステップS109の結果メッセージの出力後、使用者による訂正スイッチ4bの押下があるかどうか所定時間の間待ち受け、訂正スイッチ4bの押下があった場合は、ステップS103に戻って再度ステップS103からステップS109までの処理を繰り返す(ステップS110)。このとき、認識した結果「大岡駅」が通常の応答時の音量と比較してより大きい音量に発声変換されているので、使用者は自分の発声が大きすぎたことで誤認識が発生したことを容易に認知することができ、また、どの程度発声音量を下げればよいかも直感的に認知することができ、これらを踏まえた使用者の発声により再処理時の誤認識の発生を抑制することができる。またステップS110において、所定時間内に訂正スイッチ4bの押下がなかった場合には、認識結果を使用者が容認したとしてステップS111に進む。
【0034】
さらに、ステップS110で認識結果として出力された認識対象を受けて、その下位階層があるかどうかを判断する(ステップS111)。下位階層がある場合にはステップS102に戻り、下位階層に応じた辞書・文法の設定を行う。また下位階層がない場合には、ステップS112に進んで、認識結果に関連づけられた機能を実行する。車載ナビゲーション装置に当該音声対話装置および音声対話方法が搭載されている場合には、認識結果の住所が目的地として設定されることになる。
【0035】
以上説明したように、本実施例の音声対話装置および音声対話方法では、信号処理装置14の応答手段(応答ステップ)において、推定手段(推定ステップ)により誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答するので、システムからの発声方法の指示で、使用者に煩わしさを与えることなく、使用者が誤認識要因を直感的に理解することができ、また、使用者がどの程度発声方法を変えればよいかも直感的に理解することができる。
【0036】
特に、発声分析手段(発声分析ステップ)が発声音量を分析して、応答手段(応答ステップ)において、推定手段(推定ステップ)により発声音量が大きすぎることが誤認識要因であると推定されたときには、使用者の発声の認識結果部分を通常の応答時の音量と比較してより大きい音量に発声変換して応答するので、通常聞いている自分の発声との対比により、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【0037】
また、図2のフローチャートにおいて、ステップS107による発声変換の設定には、上述したような、使用者の発話を認識した結果「横浜駅」を通常の応答時の音量と比較してより大きい音量に発声変換する設定以外にも種々の設定パターンがある。以下では、発声変換設定の種々のパターンを図7〜図20を参照して説明する。図10,図13および図17は使用者の発話とシステム応答を例示する説明図、図7〜図9,図11〜図12,図14〜図16および図18〜図20はシステムの応答メッセージを音声信号により説明する説明図である。
【0038】
図7は、ステップS106において、誤認識要因として「使用者の発声音量が大きすぎる」が推定されたときに、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発声の認識結果部分「横浜駅」を、該認識結果以外の部分「をさがします」の音量と比較してより大きい音量に発声変換する設定とした場合の音声信号を示している。図5の通常の応答メッセージの音声信号と比較して、図7におけるシステム発話部分B03の信号振幅が図5のシステム発話部分B01よりも小さくなっており、使用者の発話内容部分A03の発声音量が相対的に大きくなるように強調して発声変換されていることを示している。
【0039】
このように、発声分析手段(発声分析ステップ)が発声音量を分析して、応答手段(応答ステップ)において、推定手段(推定ステップ)により発声音量が大きすぎることが誤認識要因であると推定されたときに、使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより大きい音量に発声変換して応答するので、使用者は自分の発声が大きすぎたことを容易に認知することができ、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【0040】
また図8は、図6および図7と同様に、誤認識要因として「使用者の発声音量が大きすぎる」が推定されたときに、使用者の発声の認識結果部分「横浜駅」を、所定発声音量の範囲内で、且つ該認識結果以外の部分「をさがします」の音量と比較してより大きい音量に発声変換する設定とした場合の音声信号を示している。図5の通常の応答メッセージの音声信号と比較して、図8における使用者発話内容部分A04の信号振幅が図5の使用者の発話内容部分A01よりも大きく、且つ音声信号振幅が所定の範囲内に制限されており、使用者の発話内容部分A04の発声音量が大きくなるように強調して発声変換されていることを示している。この発声変換設定によっても、使用者は自分の発声が大きすぎたことを容易に認知することができ、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【0041】
次に図9には、使用者の発声音量が小さすぎる場合の使用者の発話とシステム応答のメッセージの具体例を示す。図中、Aが使用者の発話であり、Bがシステム応答のメッセージである。使用者の発話「横浜駅」に対して、該使用者の発話「横浜駅」と予め外部記憶装置15内に記憶しておいたシステム発話「をさがします」を連結して1つの応答メッセージを生成している。この場合、ステップS106において、誤認識要因として「使用者の発声音量が小さすぎる」が推定されるので、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発話内容部分「横浜駅」を、通常の応答時の音量と比較してより小さい音量に発声変換するよう設定されることになる。
【0042】
図10は、強調した発声変換を施さない場合のシステム応答メッセージを説明する説明図であり、図11は、強調した発声変換を施した場合のシステム応答メッセージを説明する説明図である。図10と図11を比較すると、図11における使用者発話内容部分A06の信号振幅が図10の使用者の発話内容部分A05よりも小さくなっており、発声音量が小さくなるように強調して発声変換されていることを示している。
【0043】
このように、発声分析手段(発声分析ステップ)が発声音量を分析して、応答手段(応答ステップ)において、推定手段(推定ステップ)により発声音量が小さすぎることが誤認識要因であると推定されたときには、使用者の発声の認識結果部分を通常の応答時の音量と比較してより小さい音量に発声変換して応答するので、使用者は自分の発声が小さすぎたことを容易に認知することができ、通常聞いている自分の発声との対比により、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【0044】
また図12は、ステップS106において、誤認識要因として「使用者の発声音量が小さすぎる」が推定されたときに、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発声の認識結果部分「横浜駅」を、該認識結果以外の部分「をさがします」の音量と比較してより小さい音量に発声変換する設定とした場合の音声信号を示している。図10の通常の応答メッセージの音声信号と比較して、図12におけるシステム発話部分B07の信号振幅が図10のシステム発話部分B05よりも大きくなっており、使用者の発話内容部分A07の発声音量が相対的に小さくなるように強調して発声変換されていることを示している。
【0045】
このように、発声分析手段(発声分析ステップ)が発声音量を分析して、応答手段(応答ステップ)において、推定手段(推定ステップ)により発声音量が小さすぎることが誤認識要因であると推定されたときに、使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより小さい音量に発声変換して応答するので、使用者は自分の発声が小さすぎたことを容易に認知することができ、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【0046】
次に図13には、使用者の発声速度が速すぎる場合の使用者の発話とシステム応答のメッセージの具体例を示す。図中、Aが使用者の発話であり、Bがシステム応答のメッセージである。使用者の発話「横浜駅」に対して、該使用者の発話「横浜駅」と予め外部記憶装置15内に記憶しておいたシステム発話「をさがします」を連結して1つの応答メッセージを生成している。この場合、ステップS106において、誤認識要因として「使用者の発声速度が速すぎる」が推定されるので、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発話内容部分「横浜駅」を、通常の応答時の速度と比較してより速い速度に発声変換するよう設定されることになる。
【0047】
図14は、強調した発声変換を施さない場合のシステム応答メッセージを説明する説明図であり、図15は、強調した発声変換を施した場合のシステム応答メッセージを説明する説明図である。図14と図15を比較すると、図15における使用者発話内容部分A09の期間が図14の使用者の発話内容部分A08よりも短くなっており、発声速度が速くなるように強調して発声変換されていることを示している。
【0048】
このように、発声分析手段(発声分析ステップ)が発声速度を分析して、応答手段(応答ステップ)において、推定手段(推定ステップ)により発声速度が速すぎることが誤認識要因であると推定されたときには、使用者の発声の認識結果部分を通常の応答時の速度と比較してより速い速度に発声変換して応答するので、使用者は自分の発声速度が速すぎたことを容易に認知することができ、通常聞いている自分の発声との対比により、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【0049】
また図16は、ステップS106において、誤認識要因として「使用者の発声速度が速すぎる」が推定されたときに、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発声の認識結果部分「横浜駅」を、該認識結果以外の部分「をさがします」の発声速度と比較してより速い速度に発声変換する設定とした場合の音声信号を示している。図14の通常の応答メッセージの音声信号と比較して、図16におけるシステム発話部分B10の期間が図14のシステム発話部分B08よりも長くなっており、使用者の発話内容部分A07の発声速度が相対的に速くなるように強調して発声変換されていることを示している。
【0050】
このように、発声分析手段(発声分析ステップ)が発声速度を分析して、応答手段(応答ステップ)において、推定手段(推定ステップ)により発声速度が速すぎることが誤認識要因であると推定されたときに、使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより速い速度に発声変換して応答するので、使用者は自分の発声速度が速すぎたことを容易に認知することができ、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【0051】
次に図17には、使用者の発声速度が遅すぎる場合の使用者の発話とシステム応答のメッセージの具体例を示す。図中、Aが使用者の発話であり、Bがシステム応答のメッセージである。使用者の発話「横浜駅」に対して、該使用者の発話「横浜駅」と予め外部記憶装置15内に記憶しておいたシステム発話「をさがします」を連結して1つの応答メッセージを生成している。この場合、ステップS106において、誤認識要因として「使用者の発声速度が遅すぎる」が推定されるので、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発話内容部分「横浜駅」を、通常の応答時の速度と比較してより遅い速度に発声変換するよう設定されることになる。
【0052】
図18は、強調した発声変換を施さない場合のシステム応答メッセージを説明する説明図であり、図19は、強調した発声変換を施した場合のシステム応答メッセージを説明する説明図である。図18と図19を比較すると、図19における使用者発話内容部分A09の期間が図18の使用者の発話内容部分A08よりも長くなっており、発声速度が遅くなるように強調して発声変換されていることを示している。
【0053】
このように、発声分析手段(発声分析ステップ)が発声速度を分析して、応答手段(応答ステップ)において、推定手段(推定ステップ)により発声速度が遅すぎることが誤認識要因であると推定されたときには、使用者の発声の認識結果部分を通常の応答時の速度と比較してより遅い速度に発声変換して応答するので、使用者は自分の発声速度が遅すぎたことを容易に認知することができ、通常聞いている自分の発声との対比により、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【0054】
また図20は、ステップS106において、誤認識要因として「使用者の発声速度が遅すぎる」が推定されたときに、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発声の認識結果部分「横浜駅」を、該認識結果以外の部分「をさがします」の発声速度と比較してより遅い速度に発声変換する設定とした場合の音声信号を示している。図19の通常の応答メッセージの音声信号と比較して、図20におけるシステム発話部分B13の期間が図19のシステム発話部分B11よりも短くなっており、使用者の発話内容部分A13の発声速度が相対的に遅くなるように強調して発声変換されていることを示している。
【0055】
このように、発声分析手段(発声分析ステップ)が発声速度を分析して、応答手段(応答ステップ)において、推定手段(推定ステップ)により発声速度が遅すぎることが誤認識要因であると推定されたときに、使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより遅い速度に発声変換して応答するので、使用者は自分の発声速度が遅すぎたことを容易に認知することができ、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【図面の簡単な説明】
【0056】
【図1】本発明の実施例に係る音声対話装置の構成図である。
【図2】音声対話方法を説明するフローチャートである。
【図3】認識対象のデータ構造の説明図である。
【図4】使用者の発話とシステム応答を例示する説明図(発声音量が大きすぎる場合)である。
【図5】システムの応答メッセージを音声信号により説明する説明図(通常の場合)である。
【図6】システムの応答メッセージを音声信号により説明する説明図(発声音量が大きすぎる場合;その1)である。
【図7】システムの応答メッセージを音声信号により説明する説明図(発声音量が大きすぎる場合;その2)である。
【図8】システムの応答メッセージを音声信号により説明する説明図(発声音量が大きすぎる場合;その3)である。
【図9】使用者の発話とシステム応答を例示する説明図(発声音量が小さすぎる場合)である。
【図10】システムの応答メッセージを音声信号により説明する説明図(通常の場合)である。
【図11】システムの応答メッセージを音声信号により説明する説明図(発声音量が小さすぎる場合;その1)である。
【図12】システムの応答メッセージを音声信号により説明する説明図(発声音量が小さすぎる場合;その2)である。
【図13】使用者の発話とシステム応答を例示する説明図(発声速度が速すぎる場合)である。
【図14】システムの応答メッセージを音声信号により説明する説明図(通常の場合)である。
【図15】システムの応答メッセージを音声信号により説明する説明図(発声速度が速すぎる場合;その1)である。
【図16】システムの応答メッセージを音声信号により説明する説明図(発声速度が速すぎる場合;その2)である。
【図17】使用者の発話とシステム応答を例示する説明図(発声速度が遅すぎる場合)である。
【図18】システムの応答メッセージを音声信号により説明する説明図(通常の場合)である。
【図19】システムの応答メッセージを音声信号により説明する説明図(発声速度が遅すぎる場合;その1)である。
【図20】システムの応答メッセージを音声信号により説明する説明図(発声速度が遅すぎる場合;その2)である。
【符号の説明】
【0057】
1 信号処理ユニット
2 マイク
3 スピーカ
4 入力装置
5 ディスプレイ(提示手段)
11 A/Dコンバータ(音声認識手段)
12 D/Aコンバータ
13 出力アンプ
14 信号処理装置(音声認識手段または提示制御手段)
15 外部記憶装置
21 CPU
22 メモリ

【特許請求の範囲】
【請求項1】
使用者の発声を認識する音声認識手段と、
前記使用者の発声について分析する発声分析手段と、
前記発声分析手段による分析結果に基づき誤認識に寄与する誤認識要因を推定する推定手段と、
前記使用者の発声を認識した結果を含む応答を音声合成して出力する応答手段と、を有し、
前記応答手段は、前記推定手段により前記誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答することを特徴とする音声対話装置。
【請求項2】
前記発声分析手段は発声音量を分析し、
前記応答手段は、前記推定手段により発声音量が大きすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の音量と比較してより大きい音量に発声変換して応答することを特徴とする請求項1に記載の音声対話装置。
【請求項3】
前記発声分析手段は発声音量を分析し、
前記応答手段は、前記推定手段により発声音量が大きすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより大きい音量に発声変換して応答することを特徴とする請求項1に記載の音声対話装置。
【請求項4】
前記発声分析手段は発声音量を分析し、
前記応答手段は、前記推定手段により発声音量が小さすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の音量と比較してより小さい音量に発声変換して応答することを特徴とする請求項1に記載の音声対話装置。
【請求項5】
前記発声分析手段は発声音量を分析し、
前記応答手段は、前記推定手段により発声音量が小さすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより小さい音量に発声変換して応答することを特徴とする請求項1に記載の音声対話装置。
【請求項6】
前記発声分析手段は発声速度を分析し、
前記応答手段は、前記推定手段により発声速度が速すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の速度と比較してより速い速度に発声変換して応答することを特徴とする請求項1〜請求項5の何れか1項に記載の音声対話装置。
【請求項7】
前記発声分析手段は発声速度を分析し、
前記応答手段は、前記推定手段により発声速度が速すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより速い速度に発声変換して応答することを特徴とする請求項1〜請求項5の何れか1項に記載の音声対話装置。
【請求項8】
前記発声分析手段は発声速度を分析し、
前記応答手段は、前記推定手段により発声速度が遅すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の速度と比較してより遅い速度に発声変換して応答することを特徴とする請求項1〜請求項5の何れか1項に記載の音声対話装置。
【請求項9】
前記発声分析手段は発声速度を分析し、
前記応答手段は、前記推定手段により発声速度が遅すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより遅い速度に発声変換して応答することを特徴とする請求項1〜請求項5の何れか1項に記載の音声対話装置。
【請求項10】
使用者の発声を認識する音声認識ステップと、
前記使用者の発声について分析する発声分析ステップと、
前記発声分析ステップによる分析結果に基づき誤認識に寄与する誤認識要因を推定する推定ステップと、
前記使用者の発声を認識した結果を含む応答を音声合成して出力する応答ステップと、を有し、
前記応答ステップは、前記推定ステップにより前記誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答することを特徴とする音声対話方法。
【請求項11】
前記発声分析ステップは発声音量を分析し、
前記応答ステップは、前記推定ステップにより発声音量が大きすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の音量と比較してより大きい音量に発声変換して応答することを特徴とする請求項10に記載の音声対話方法。
【請求項12】
前記発声分析ステップは発声音量を分析し、
前記応答ステップは、前記推定ステップにより発声音量が大きすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより大きい音量に発声変換して応答することを特徴とする請求項10に記載の音声対話方法。
【請求項13】
前記発声分析ステップは発声音量を分析し、
前記応答ステップは、前記推定ステップにより発声音量が小さすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の音量と比較してより小さい音量に発声変換して応答することを特徴とする請求項10に記載の音声対話方法。
【請求項14】
前記発声分析ステップは発声音量を分析し、
前記応答ステップは、前記推定ステップにより発声音量が小さすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより小さい音量に発声変換して応答することを特徴とする請求項10に記載の音声対話方法。
【請求項15】
前記発声分析ステップは発声速度を分析し、
前記応答ステップは、前記推定ステップにより発声速度が速すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の速度と比較してより速い速度に発声変換して応答することを特徴とする請求項10〜請求項14の何れか1項に記載の音声対話方法。
【請求項16】
前記発声分析ステップは発声速度を分析し、
前記応答ステップは、前記推定ステップにより発声速度が速すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより速い速度に発声変換して応答することを特徴とする請求項10〜請求項14の何れか1項に記載の音声対話方法。
【請求項17】
前記発声分析ステップは発声速度を分析し、
前記応答ステップは、前記推定ステップにより発声速度が遅すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の速度と比較してより遅い速度に発声変換して応答することを特徴とする請求項10〜請求項14の何れか1項に記載の音声対話方法。
【請求項18】
前記発声分析ステップは発声速度を分析し、
前記応答ステップは、前記推定ステップにより発声速度が遅すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより遅い速度に発声変換して応答することを特徴とする請求項10〜請求項14の何れか1項に記載の音声対話方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate


【公開番号】特開2006−251061(P2006−251061A)
【公開日】平成18年9月21日(2006.9.21)
【国際特許分類】
【出願番号】特願2005−64227(P2005−64227)
【出願日】平成17年3月8日(2005.3.8)
【出願人】(000003997)日産自動車株式会社 (16,386)
【出願人】(591132335)株式会社ザナヴィ・インフォマティクス (745)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】