音声対話装置および音声対話方法

【課題】使用者が直感的にどの程度発声方法を変えればよいか理解できるようにして、誤認識の発生を抑制した音声対話装置および音声対話方法を提供する。
【解決手段】音声認識手段（１１，１４）により使用者の発声を認識し、発声分析手段（１４）により使用者の発声について分析し、推定手段（１４）により、発声分析手段による分析結果に基づき誤認識に寄与する誤認識要因を推定し、応答手段（１２，１４）により使用者の発声の認識結果を含む応答を音声合成して出力する音声対話装置であって、応答手段は、推定手段により誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は音声対話装置および音声対話方法に係り、特に、音声認識における誤認識の発生を抑制した音声対話装置および音声対話方法に関する。
【背景技術】
【０００２】
従来、音声対話装置を使用して実際に音声対話を行おうとする場合、周囲の雑音環境の影響や使用者の発声方法の影響などにより、音声の誤認識が発生して音声対話に失敗する場合が多くある。例えば、周囲の雑音レベルの大きさに対して使用者の発話が小さすぎる場合に誤認識が発生する。また、使用者の発話が大きすぎるときにも、音声信号にひずみが生じる場合や、音声対話装置が入力可能な発声音量の上限を超えてしまう場合などに誤認識が発生する。さらに、使用者の発声の速度が、音声対話装置の持つ音声の標準パターンを構築したときのサンプル音声の速度と比較して大きい隔たりがある場合に、誤認識が発生する。
【０００３】
例えば、特開平９−６３８９号公報に開示の「音声認識対話処理方法および音声認識対話装置」は、話者に対して肯定か否定を要求する返事を要求する場合に、会話モードが肯定否定のモードに切り替えられて、話者の返事の内容から肯定内容か否定内容かを判断して応答メッセージを発生して、認識可能な登録単語数を増やすことなく登録単語以外の言葉でも会話できる技術を提案している。このような従来例においても、誤認識の発生を抑制するために、入力音声の大きさを予め設定した閾値と比較するなどして検出し、所定音量より大きい場合には「もっと小さな声で話して」というような内容のシステム応答を発声し、またこれとは逆に、入力音声の音量が所定音量より小さい場合には「もっと大きな声で話して」というようなシステム応答を行うようにしている。
【特許文献１】特開平９−６３８９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、上述した特許文献１に開示された技術においては、使用者に対してシステムが発声方法を直接的に指示するため、使用者によっては煩わしさを感じてしまうという問題があった。また、システムからの発声方法（音量や速度）の指示を聞いたとしても、どの程度発声方法を変えればよいかの程度が分からないという問題点もあった。
【０００５】
本発明は、上記従来の課題に鑑みてなされたものであって、システムからの発声方法の指示を、使用者に煩わしさを与えることなく、使用者が直感的にどの程度発声方法を変えればよいか理解できるようにして、誤認識の発生を抑制した音声対話装置および音声対話方法を提供することを目的としている。
【課題を解決するための手段】
【０００６】
上記目的を解決するため、本発明は、音声認識手段により使用者の発声を認識し、発声分析手段により前記使用者の発声について分析し、推定手段により、前記発声分析手段による分析結果に基づき誤認識に寄与する誤認識要因を推定し、応答手段により前記使用者の発声の認識結果を含む応答を音声合成して出力する音声対話装置であって、前記応答手段は、前記推定手段により前記誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答することを特徴とする。
【発明の効果】
【０００７】
本発明に係る音声対話装置および音声対話方法では、応答手段（応答ステップ）において、推定手段（推定ステップ）により誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答するので、システムからの発声方法の指示で、使用者に煩わしさを与えることなく、使用者が誤認識要因を直感的に理解することができ、また、使用者がどの程度発声方法を変えればよいかも直感的に理解することができる。
【発明を実施するための最良の形態】
【０００８】
以下、本発明の音声対話装置および音声対話方法の実施例について、図面を参照して詳細に説明する。なお、実施例の説明では、一例として車両や携帯端末等に搭載されるナビゲーション装置に適用した構成を示すが、本発明は、情報機器に搭載されて種々の条件等をインタラクティブに段階的に設定していくものであれば、どのようなアプリケーションにも適用可能である。
【実施例】
【０００９】
図１は本発明の一実施例に係る音声対話装置の構成図である。図１において、本実施例の音声対話装置は、信号処理ユニット１、マイク２、スピーカ３、入力装置４およびディスプレイ５を備えて構成されている。なお、本発明に関わる主要構成要素ではないために図示しないが、携帯端末であれば他に送受信手段の構成を備え、また車載用であれば、送受信手段または通信接続手段等を備えた構成であってもよい。
【００１０】
マイク２は使用者の発話を音声信号に変換して信号処理ユニット１に供給する。また、スピーカ３はシステムの発話として信号処理ユニット１から出力される音声信号を音声として出力する。また、入力装置４には発話スイッチ４ａおよび訂正スイッチ４ｂを備えている。ここで、発話スイッチ４ａは音声認識の開始指示を行うためのスイッチであり、訂正スイッチ４ｂは誤認識した場合に訂正を行うためのスイッチであって、該訂正スイッチ４ｂを一定期間押し続けることにより、音声操作を途中で終了することができる。さらに、ディスプレイ５は例えばＬＣＤ（液晶表示装置）等で実現され、ナビゲーションの行き先や探索条件設定時のガイダンス表示を行ったり、経路誘導等の画面を表示したりする。
【００１１】
信号処理ユニット１は、Ａ／Ｄコンバータ１１、Ｄ／Ａコンバータ１２、出力アンプ１３、信号処理装置１４および外部記憶装置１５を備え、信号処理装置１４にＣＰＵ２１およびメモリ２２を備えた構成である。信号処理ユニット１は、入力装置４の発話スイッチ４ａまたは訂正スイッチ４ｂの押下に応答して、またマイク２からの使用者の音声入力に応答して信号処理を行い、システム応答としてスピーカ３からシステム発話を出力させたり、ディスプレイ５上に応答画像を表示させたりする。
【００１２】
外部記憶装置１５には、ナビゲーションに使用するデータや音声認識処理に使用する認識対象データ等が記憶され、また、メモリ２２には処理プログラムや使用頻度の高い各種データ等が記憶されている。音声認識処理では、Ａ／Ｄコンバータ１１を介してディジタル信号に変換されたマイク２からの音声入力について、信号処理装置１４は外部記憶装置１５を参照しながら認識処理を行い、また、その音声入力に対するシステム応答としてのシステム発話を、信号処理装置１４はＤ／Ａコンバータ１２を介してアナログ信号に変換して出力アンプ１３で信号増幅した後に、スピーカ３から音声出力させる。
【００１３】
本実施例の音声対話装置は、使用者の発声を認識する音声認識手段と、使用者の発声について分析する発声分析手段と、発声分析手段による分析結果に基づき誤認識に寄与する誤認識要因を推定する推定手段と、使用者の発声の認識結果を含む応答を音声合成して出力する応答手段とを備えて構成し、応答手段において、推定手段により誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答するものであるが、音声認識手段はＡ／Ｄコンバータ１１、信号処理装置１４および外部記憶装置１５で実現され、応答手段は、信号処理装置１４、Ｄ／Ａコンバータ１２、出力アンプ１３およびスピーカ３で実現される。また、発声分析手段および推定手段、音声認識手段内の音声認識処理、並びに応答手段内の音声合成処理および発声変換する手段は、信号処理装置１４（ＣＰＵ２１）で実行される処理プログラムにより実現される。
【００１４】
次に、図２、図３、図４、図５および図６を参照して、本実施例の音声対話装置における音声対話方法を説明する。図２は音声対話方法を説明するフローチャート、図３は認識対象のデータ構造の説明図、図４は使用者の発話とシステム応答を例示する説明図、図５および図６はシステムの応答メッセージを音声信号により説明する説明図である。
【００１５】
図２のフローチャートにおいて、まず、使用者が発話スイッチ４ａを操作して発話の開始が指示される（ステップＳ１０１）と、信号処理装置１４は発話開始指示を検出して処理を開始する。
【００１６】
次に、信号処理装置１４は、外部記憶装置１５に入力階層毎に記憶されている単語辞書と文法からなる認識対象データを読み出し、各々の階層における認識対象として該単語辞書および文法をメモリ２２に設定する（ステップＳ１０２）。
【００１７】
ここで、認識対象は、車両用のナビゲーション装置および車両用の電子機器に関わるものであり、図３に示されるようなものである。同図に示すように、認識対象のデータ構造は、第１階層から第３階層までの３階層の階層構造を備えている。第１階層のそれぞれの認識対象について第２階層に複数個の認識対象と話題の接続関係を持ち、また、第２階層の認識対象は第３階層に複数の認識対象と接続関係を持つ。
【００１８】
第１階層においては、音声対話で実行可能な機能の名称を認識対象としており、「行き先」、「探索条件」、「施設表示」および「電話」の機能がある。この第１階層で使用者からの発話「行き先」を信号処理装置１４が受理した場合は、車両のナビゲーション装置における行き先設定機能が選択され、第２階層に移る。第２階層では行き先に何を設定するかの分類名称を認識対象としている。第２階層で発話「駅」を受理した場合は、駅の名称によって行き先を設定することが決定され、第３階層に移る。第３階層では、どの駅を行き先に設定するのかを認識対象としている。
【００１９】
第３階層では、駅を指定する発話の方法が２種類あり、１つは駅名のみを発話する方法である。この場合、使用者は例えば「横浜駅」とだけ発話すればよい。もう１つは駅の存在する都道府県名と駅名を連続的に発話する方法である。この場合、使用者は例えば「神奈川県の横浜駅」と発話すればよい。一般に、後者の方が認識率は高いが同時に使用者の発話負荷は大きい。
【００２０】
以下の説明では、この第３階層における発話の対話と様子を説明に用いる。すなわち、使用者が第１階層で「行き先」を発話し、第２階層で「駅」を発話し、それぞれが受理されたとする前提である。そして次に使用者は、駅を指定するべく駅名を発話することになる。
【００２１】
次に、信号処理装置１４は、処理を開始した旨を使用者に知らせるために、外部記憶装置１５に記憶してある告知音声信号をＤ／Ａコンバータ１２に出力し、アンプ１３およびスピーカ３を介して告知音声を出力する（ステップＳ１０３）。
【００２２】
この告知音声を聞くと、使用者は認識対象に含まれる発話を行うので、信号処理装置１４は、マイク２からの音声信号をＡ／Ｄコンバータ１１でディジタル信号に変換したものを取り込む（ステップＳ１０４）。ここで、前述のように認識対象を車両のナビゲーション装置の機能としており、使用者は「横浜駅」という駅名のみの発話を行ったとする。
【００２３】
信号処理装置１４は、発話スイッチ４ａの操作がなされるまでは、Ｄ／Ａコンバータ１２の出力（ディジタル音声信号）の平均パワーを演算しており、発話スイッチ４ａの操作がなされた後に、前記平均パワーに比べてディジタル音声信号の瞬間パワーが所定値以上に大きくなった時、使用者が発話したと判断し、音声取り込みを開始する。その後も平均パワーの検出は継続して行われ、前記平均パワーが所定値よりも小さくなった時、使用者の発話が終了したと判断する。
【００２４】
次に、信号処理装置１４は、ステップＳ１０４で取り込んだ使用者の発話に基づき、発声方法の分析を行う（ステップＳ１０５）。具体的には、発声の音量と発声の速度を求める。発声音量は前記平均パワーの発話全体での平均値を求めることにより得ることができる。また、発声速度の検出方法については、例えば「特開平９−１４６５７５号公報」の「発声速度検出方法」、並びに特許番号２９５５２４７号公報および特開平１０−３０１５９８号公報の「話速変換方法およびその装置」などに詳しく、次のステップの説明で併せて説明する。
【００２５】
次に、信号処理装置１４は、ステップＳ１０５で分析した発声音量および発声速度に基づき、誤認識につながり得る要因即ち誤認識要因を推定する。
【００２６】
ここで、発声音量について信号処理装置１４が最適とする範囲は、予め２つの閾値ＸおよびＹで決定されており、発声音量が閾値Ｘよりも大きく閾値Ｙよりも小さいときに適正とみなされる。発声音量と特定閾値との比較の方法については公知技術であり、例えば、特開昭６３−２２６６９２号公報「パターン比較方式」に開示されている。ただし、特開昭６３−２２６６９２号公報では唯一の閾値である閾値Ａとの比較によって音声の発話区間検出を行っているが、本発明においては、閾値Ａの他に２つの閾値ＸおよびＹを用意して発声音量の適正判断を行う点が異なる。なお、閾値Ａと他の２つの閾値ＸおよびＹの大小関係は閾値Ａ＜閾値Ｘ＜閾値Ｙであり、各々の閾値はメモリ２２に記憶されている。すなわち、閾値Ａとの比較によって音声の発話区間の検出を行い、該発話区間の発声音量について、最適範囲（閾値Ｙ）よりも大きかった場合には要因は発声が大きすぎるためと判断し、また、最適範囲（閾値Ｘ）よりも小さかった場合には要因は発声が小さすぎるためと判断する。
【００２７】
また、発声速度について信号処理装置１４が最適とする範囲は、予め２つの閾値ＶおよびＷで決定されており、発声速度が閾値Ｖよりも速く閾値Ｗよりも遅いときに適正とみなされる。発声速度検出および適正判断の方法については公知技術であり、例えば、前述の「特開平９−１４６５７５号公報」の「発声速度検出方法」に開示されている。ここで、特開平９−１４６５７５号公報では、発声速度の検出方法の１つとして、母音区間の継続長を用いるものが提案されている。母音区間の継続長と所定基準値Ｔｓとの比較によって発声速度の分析を行うもので、入力音声の所定時間内に含まれる母音区間の継続長に関する値を算出し、該算出値が基準値Ｔｓ以上であるときには発声速度が遅いと判定し、該算出値が基準値Ｔｓより小さいときには発声速度が速いと判定するものである。
【００２８】
本発明においては、２つの閾値ＴｖおよびＴｗを用意してこれら２つの閾値との比較により発声速度の適正判断を行う。なお、２つの閾値ＴｖおよびＴｗの大小関係は閾値Ｔｖ＞基準値Ｔｓ＞閾値Ｔｗであり、各々の閾値はメモリ２２に記憶されている。すなわち、所定時間内に含まれる母音区間の継続長に関する算出値が閾値Ｔｗよりも小さく、発声速度が最適範囲よりも速かった場合には要因は発声が速すぎるためと判断し、該算出値が閾値Ｔｖよりも大きく、発声速度が最適範囲よりも遅かった場合には要因は発声が遅すぎるためと判断する。
【００２９】
次に、信号処理装置１４は、使用者の発声内容を含む応答メッセージを出力するが、ステップＳ１０６で誤認識要因が推定されたときには、該誤認識要因を強調した発声変換を施す（ステップＳ１０７）。図４には、使用者の発声音量が大きすぎる場合の使用者の発話とシステム応答のメッセージの具体例を示す。図中、Ａが使用者の発話であり、Ｂがシステム応答のメッセージである。使用者の発話「横浜駅」に対して、該使用者の発話「横浜駅」と予め外部記憶装置１５内に記憶しておいたシステム発話「をさがします」を連結して１つの応答メッセージを生成している。この場合、ステップＳ１０６において、誤認識要因として「使用者の発声音量が大きすぎる」が推定されるので、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発話内容部分「横浜駅」を、通常の応答時の音量と比較してより大きい音量に発声変換するよう設定されることになる。
【００３０】
図５は、強調した発声変換を施さない場合のシステム応答メッセージを説明する説明図であり、図６は、強調した発声変換を施した場合のシステム応答メッセージを説明する説明図である。両図において、上段にはメッセージ内容を、下段には音声信号の信号波形をそれぞれ示す。また、部分Ａ０１，Ａ０２が使用者の発話内容部分であり、部分Ｂ０１，Ｂ０２が使用者発話内容以外の部分で外部記憶装置１５内に記憶しておいたシステム発話である。図５と図６を比較すると、図６における使用者発話内容部分Ａ０２の信号振幅が図５の使用者の発話内容部分Ａ０１よりも大きくなっており、発声音量が大きくなるように強調して発声変換されていることを示している。
【００３１】
次に、信号処理装置１４は、メモリ２２に記憶されている認識対象との一致度演算を開始する（ステップＳ１０８）。一致度は、検出した発話区間のディジタル音声信号と個々の認識対象がどの程度似ているかを示すものであり、スコアとして算出される。ここでは、スコアの値が大きいほど一致度が高いとして評価する。すなわち、一致度の最も大きい認識対象を認識結果として出力する。
【００３２】
次に、信号処理装置１４は、ステップＳ１０８の認識結果を使用者発話内容部分とし、これに所定のシステム発話を連結して１つの応答（結果）メッセージとして出力する（ステップＳ１０９）。上述の図４の例では、使用者の発話「横浜駅」が正しく認識されており、認識結果「横浜駅」に予め外部記憶装置１５内に記憶しておいたシステム発話「をさがします」を連結して１つの応答メッセージが生成され、ステップＳ１０７による発声変換の設定で音声合成処理プログラムにより音声信号に変換され、Ｄ／Ａコンバータ１２によりアナログ音声信号に変換された後、アンプ１３による信号増幅を経て、スピーカ３から音声出力されることになる。このとき、使用者の発話を認識した結果「横浜駅」が通常の応答時の音量と比較してより大きい音量に発声変換されているので、使用者はこれを聞くことにより自分の発声が大きすぎたことを直感的に認知することができる。
【００３３】
なお、例えば使用者が「横浜駅」と発話したのに対して、誤認識が発生して認識結果が「大岡駅」となった場合には、使用者は、訂正スイッチ４ｂを操作して認識処理（ステップＳ１０３）以前の状態に戻ることができる。すなわち、ステップＳ１０９の結果メッセージの出力後、使用者による訂正スイッチ４ｂの押下があるかどうか所定時間の間待ち受け、訂正スイッチ４ｂの押下があった場合は、ステップＳ１０３に戻って再度ステップＳ１０３からステップＳ１０９までの処理を繰り返す（ステップＳ１１０）。このとき、認識した結果「大岡駅」が通常の応答時の音量と比較してより大きい音量に発声変換されているので、使用者は自分の発声が大きすぎたことで誤認識が発生したことを容易に認知することができ、また、どの程度発声音量を下げればよいかも直感的に認知することができ、これらを踏まえた使用者の発声により再処理時の誤認識の発生を抑制することができる。またステップＳ１１０において、所定時間内に訂正スイッチ４ｂの押下がなかった場合には、認識結果を使用者が容認したとしてステップＳ１１１に進む。
【００３４】
さらに、ステップＳ１１０で認識結果として出力された認識対象を受けて、その下位階層があるかどうかを判断する（ステップＳ１１１）。下位階層がある場合にはステップＳ１０２に戻り、下位階層に応じた辞書・文法の設定を行う。また下位階層がない場合には、ステップＳ１１２に進んで、認識結果に関連づけられた機能を実行する。車載ナビゲーション装置に当該音声対話装置および音声対話方法が搭載されている場合には、認識結果の住所が目的地として設定されることになる。
【００３５】
以上説明したように、本実施例の音声対話装置および音声対話方法では、信号処理装置１４の応答手段（応答ステップ）において、推定手段（推定ステップ）により誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答するので、システムからの発声方法の指示で、使用者に煩わしさを与えることなく、使用者が誤認識要因を直感的に理解することができ、また、使用者がどの程度発声方法を変えればよいかも直感的に理解することができる。
【００３６】
特に、発声分析手段（発声分析ステップ）が発声音量を分析して、応答手段（応答ステップ）において、推定手段（推定ステップ）により発声音量が大きすぎることが誤認識要因であると推定されたときには、使用者の発声の認識結果部分を通常の応答時の音量と比較してより大きい音量に発声変換して応答するので、通常聞いている自分の発声との対比により、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【００３７】
また、図２のフローチャートにおいて、ステップＳ１０７による発声変換の設定には、上述したような、使用者の発話を認識した結果「横浜駅」を通常の応答時の音量と比較してより大きい音量に発声変換する設定以外にも種々の設定パターンがある。以下では、発声変換設定の種々のパターンを図７〜図２０を参照して説明する。図１０，図１３および図１７は使用者の発話とシステム応答を例示する説明図、図７〜図９，図１１〜図１２，図１４〜図１６および図１８〜図２０はシステムの応答メッセージを音声信号により説明する説明図である。
【００３８】
図７は、ステップＳ１０６において、誤認識要因として「使用者の発声音量が大きすぎる」が推定されたときに、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発声の認識結果部分「横浜駅」を、該認識結果以外の部分「をさがします」の音量と比較してより大きい音量に発声変換する設定とした場合の音声信号を示している。図５の通常の応答メッセージの音声信号と比較して、図７におけるシステム発話部分Ｂ０３の信号振幅が図５のシステム発話部分Ｂ０１よりも小さくなっており、使用者の発話内容部分Ａ０３の発声音量が相対的に大きくなるように強調して発声変換されていることを示している。
【００３９】
このように、発声分析手段（発声分析ステップ）が発声音量を分析して、応答手段（応答ステップ）において、推定手段（推定ステップ）により発声音量が大きすぎることが誤認識要因であると推定されたときに、使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより大きい音量に発声変換して応答するので、使用者は自分の発声が大きすぎたことを容易に認知することができ、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【００４０】
また図８は、図６および図７と同様に、誤認識要因として「使用者の発声音量が大きすぎる」が推定されたときに、使用者の発声の認識結果部分「横浜駅」を、所定発声音量の範囲内で、且つ該認識結果以外の部分「をさがします」の音量と比較してより大きい音量に発声変換する設定とした場合の音声信号を示している。図５の通常の応答メッセージの音声信号と比較して、図８における使用者発話内容部分Ａ０４の信号振幅が図５の使用者の発話内容部分Ａ０１よりも大きく、且つ音声信号振幅が所定の範囲内に制限されており、使用者の発話内容部分Ａ０４の発声音量が大きくなるように強調して発声変換されていることを示している。この発声変換設定によっても、使用者は自分の発声が大きすぎたことを容易に認知することができ、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【００４１】
次に図９には、使用者の発声音量が小さすぎる場合の使用者の発話とシステム応答のメッセージの具体例を示す。図中、Ａが使用者の発話であり、Ｂがシステム応答のメッセージである。使用者の発話「横浜駅」に対して、該使用者の発話「横浜駅」と予め外部記憶装置１５内に記憶しておいたシステム発話「をさがします」を連結して１つの応答メッセージを生成している。この場合、ステップＳ１０６において、誤認識要因として「使用者の発声音量が小さすぎる」が推定されるので、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発話内容部分「横浜駅」を、通常の応答時の音量と比較してより小さい音量に発声変換するよう設定されることになる。
【００４２】
図１０は、強調した発声変換を施さない場合のシステム応答メッセージを説明する説明図であり、図１１は、強調した発声変換を施した場合のシステム応答メッセージを説明する説明図である。図１０と図１１を比較すると、図１１における使用者発話内容部分Ａ０６の信号振幅が図１０の使用者の発話内容部分Ａ０５よりも小さくなっており、発声音量が小さくなるように強調して発声変換されていることを示している。
【００４３】
このように、発声分析手段（発声分析ステップ）が発声音量を分析して、応答手段（応答ステップ）において、推定手段（推定ステップ）により発声音量が小さすぎることが誤認識要因であると推定されたときには、使用者の発声の認識結果部分を通常の応答時の音量と比較してより小さい音量に発声変換して応答するので、使用者は自分の発声が小さすぎたことを容易に認知することができ、通常聞いている自分の発声との対比により、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【００４４】
また図１２は、ステップＳ１０６において、誤認識要因として「使用者の発声音量が小さすぎる」が推定されたときに、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発声の認識結果部分「横浜駅」を、該認識結果以外の部分「をさがします」の音量と比較してより小さい音量に発声変換する設定とした場合の音声信号を示している。図１０の通常の応答メッセージの音声信号と比較して、図１２におけるシステム発話部分Ｂ０７の信号振幅が図１０のシステム発話部分Ｂ０５よりも大きくなっており、使用者の発話内容部分Ａ０７の発声音量が相対的に小さくなるように強調して発声変換されていることを示している。
【００４５】
このように、発声分析手段（発声分析ステップ）が発声音量を分析して、応答手段（応答ステップ）において、推定手段（推定ステップ）により発声音量が小さすぎることが誤認識要因であると推定されたときに、使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより小さい音量に発声変換して応答するので、使用者は自分の発声が小さすぎたことを容易に認知することができ、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【００４６】
次に図１３には、使用者の発声速度が速すぎる場合の使用者の発話とシステム応答のメッセージの具体例を示す。図中、Ａが使用者の発話であり、Ｂがシステム応答のメッセージである。使用者の発話「横浜駅」に対して、該使用者の発話「横浜駅」と予め外部記憶装置１５内に記憶しておいたシステム発話「をさがします」を連結して１つの応答メッセージを生成している。この場合、ステップＳ１０６において、誤認識要因として「使用者の発声速度が速すぎる」が推定されるので、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発話内容部分「横浜駅」を、通常の応答時の速度と比較してより速い速度に発声変換するよう設定されることになる。
【００４７】
図１４は、強調した発声変換を施さない場合のシステム応答メッセージを説明する説明図であり、図１５は、強調した発声変換を施した場合のシステム応答メッセージを説明する説明図である。図１４と図１５を比較すると、図１５における使用者発話内容部分Ａ０９の期間が図１４の使用者の発話内容部分Ａ０８よりも短くなっており、発声速度が速くなるように強調して発声変換されていることを示している。
【００４８】
このように、発声分析手段（発声分析ステップ）が発声速度を分析して、応答手段（応答ステップ）において、推定手段（推定ステップ）により発声速度が速すぎることが誤認識要因であると推定されたときには、使用者の発声の認識結果部分を通常の応答時の速度と比較してより速い速度に発声変換して応答するので、使用者は自分の発声速度が速すぎたことを容易に認知することができ、通常聞いている自分の発声との対比により、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【００４９】
また図１６は、ステップＳ１０６において、誤認識要因として「使用者の発声速度が速すぎる」が推定されたときに、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発声の認識結果部分「横浜駅」を、該認識結果以外の部分「をさがします」の発声速度と比較してより速い速度に発声変換する設定とした場合の音声信号を示している。図１４の通常の応答メッセージの音声信号と比較して、図１６におけるシステム発話部分Ｂ１０の期間が図１４のシステム発話部分Ｂ０８よりも長くなっており、使用者の発話内容部分Ａ０７の発声速度が相対的に速くなるように強調して発声変換されていることを示している。
【００５０】
このように、発声分析手段（発声分析ステップ）が発声速度を分析して、応答手段（応答ステップ）において、推定手段（推定ステップ）により発声速度が速すぎることが誤認識要因であると推定されたときに、使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより速い速度に発声変換して応答するので、使用者は自分の発声速度が速すぎたことを容易に認知することができ、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【００５１】
次に図１７には、使用者の発声速度が遅すぎる場合の使用者の発話とシステム応答のメッセージの具体例を示す。図中、Ａが使用者の発話であり、Ｂがシステム応答のメッセージである。使用者の発話「横浜駅」に対して、該使用者の発話「横浜駅」と予め外部記憶装置１５内に記憶しておいたシステム発話「をさがします」を連結して１つの応答メッセージを生成している。この場合、ステップＳ１０６において、誤認識要因として「使用者の発声速度が遅すぎる」が推定されるので、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発話内容部分「横浜駅」を、通常の応答時の速度と比較してより遅い速度に発声変換するよう設定されることになる。
【００５２】
図１８は、強調した発声変換を施さない場合のシステム応答メッセージを説明する説明図であり、図１９は、強調した発声変換を施した場合のシステム応答メッセージを説明する説明図である。図１８と図１９を比較すると、図１９における使用者発話内容部分Ａ０９の期間が図１８の使用者の発話内容部分Ａ０８よりも長くなっており、発声速度が遅くなるように強調して発声変換されていることを示している。
【００５３】
このように、発声分析手段（発声分析ステップ）が発声速度を分析して、応答手段（応答ステップ）において、推定手段（推定ステップ）により発声速度が遅すぎることが誤認識要因であると推定されたときには、使用者の発声の認識結果部分を通常の応答時の速度と比較してより遅い速度に発声変換して応答するので、使用者は自分の発声速度が遅すぎたことを容易に認知することができ、通常聞いている自分の発声との対比により、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【００５４】
また図２０は、ステップＳ１０６において、誤認識要因として「使用者の発声速度が遅すぎる」が推定されたときに、該誤認識要因を強調した発声変換を施して応答するべく、使用者の発声の認識結果部分「横浜駅」を、該認識結果以外の部分「をさがします」の発声速度と比較してより遅い速度に発声変換する設定とした場合の音声信号を示している。図１９の通常の応答メッセージの音声信号と比較して、図２０におけるシステム発話部分Ｂ１３の期間が図１９のシステム発話部分Ｂ１１よりも短くなっており、使用者の発話内容部分Ａ１３の発声速度が相対的に遅くなるように強調して発声変換されていることを示している。
【００５５】
このように、発声分析手段（発声分析ステップ）が発声速度を分析して、応答手段（応答ステップ）において、推定手段（推定ステップ）により発声速度が遅すぎることが誤認識要因であると推定されたときに、使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより遅い速度に発声変換して応答するので、使用者は自分の発声速度が遅すぎたことを容易に認知することができ、誤認識要因および該誤認識要因の程度をより直感的かつ容易に理解することができる。
【図面の簡単な説明】
【００５６】
【図１】本発明の実施例に係る音声対話装置の構成図である。
【図２】音声対話方法を説明するフローチャートである。
【図３】認識対象のデータ構造の説明図である。
【図４】使用者の発話とシステム応答を例示する説明図（発声音量が大きすぎる場合）である。
【図５】システムの応答メッセージを音声信号により説明する説明図（通常の場合）である。
【図６】システムの応答メッセージを音声信号により説明する説明図（発声音量が大きすぎる場合；その１）である。
【図７】システムの応答メッセージを音声信号により説明する説明図（発声音量が大きすぎる場合；その２）である。
【図８】システムの応答メッセージを音声信号により説明する説明図（発声音量が大きすぎる場合；その３）である。
【図９】使用者の発話とシステム応答を例示する説明図（発声音量が小さすぎる場合）である。
【図１０】システムの応答メッセージを音声信号により説明する説明図（通常の場合）である。
【図１１】システムの応答メッセージを音声信号により説明する説明図（発声音量が小さすぎる場合；その１）である。
【図１２】システムの応答メッセージを音声信号により説明する説明図（発声音量が小さすぎる場合；その２）である。
【図１３】使用者の発話とシステム応答を例示する説明図（発声速度が速すぎる場合）である。
【図１４】システムの応答メッセージを音声信号により説明する説明図（通常の場合）である。
【図１５】システムの応答メッセージを音声信号により説明する説明図（発声速度が速すぎる場合；その１）である。
【図１６】システムの応答メッセージを音声信号により説明する説明図（発声速度が速すぎる場合；その２）である。
【図１７】使用者の発話とシステム応答を例示する説明図（発声速度が遅すぎる場合）である。
【図１８】システムの応答メッセージを音声信号により説明する説明図（通常の場合）である。
【図１９】システムの応答メッセージを音声信号により説明する説明図（発声速度が遅すぎる場合；その１）である。
【図２０】システムの応答メッセージを音声信号により説明する説明図（発声速度が遅すぎる場合；その２）である。
【符号の説明】
【００５７】
１信号処理ユニット
２マイク
３スピーカ
４入力装置
５ディスプレイ（提示手段）
１１Ａ／Ｄコンバータ（音声認識手段）
１２Ｄ／Ａコンバータ
１３出力アンプ
１４信号処理装置（音声認識手段または提示制御手段）
１５外部記憶装置
２１ＣＰＵ
２２メモリ

【特許請求の範囲】
【請求項１】
使用者の発声を認識する音声認識手段と、
前記使用者の発声について分析する発声分析手段と、
前記発声分析手段による分析結果に基づき誤認識に寄与する誤認識要因を推定する推定手段と、
前記使用者の発声を認識した結果を含む応答を音声合成して出力する応答手段と、を有し、
前記応答手段は、前記推定手段により前記誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答することを特徴とする音声対話装置。
【請求項２】
前記発声分析手段は発声音量を分析し、
前記応答手段は、前記推定手段により発声音量が大きすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の音量と比較してより大きい音量に発声変換して応答することを特徴とする請求項１に記載の音声対話装置。
【請求項３】
前記発声分析手段は発声音量を分析し、
前記応答手段は、前記推定手段により発声音量が大きすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより大きい音量に発声変換して応答することを特徴とする請求項１に記載の音声対話装置。
【請求項４】
前記発声分析手段は発声音量を分析し、
前記応答手段は、前記推定手段により発声音量が小さすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の音量と比較してより小さい音量に発声変換して応答することを特徴とする請求項１に記載の音声対話装置。
【請求項５】
前記発声分析手段は発声音量を分析し、
前記応答手段は、前記推定手段により発声音量が小さすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより小さい音量に発声変換して応答することを特徴とする請求項１に記載の音声対話装置。
【請求項６】
前記発声分析手段は発声速度を分析し、
前記応答手段は、前記推定手段により発声速度が速すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の速度と比較してより速い速度に発声変換して応答することを特徴とする請求項１〜請求項５の何れか１項に記載の音声対話装置。
【請求項７】
前記発声分析手段は発声速度を分析し、
前記応答手段は、前記推定手段により発声速度が速すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより速い速度に発声変換して応答することを特徴とする請求項１〜請求項５の何れか１項に記載の音声対話装置。
【請求項８】
前記発声分析手段は発声速度を分析し、
前記応答手段は、前記推定手段により発声速度が遅すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の速度と比較してより遅い速度に発声変換して応答することを特徴とする請求項１〜請求項５の何れか１項に記載の音声対話装置。
【請求項９】
前記発声分析手段は発声速度を分析し、
前記応答手段は、前記推定手段により発声速度が遅すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより遅い速度に発声変換して応答することを特徴とする請求項１〜請求項５の何れか１項に記載の音声対話装置。
【請求項１０】
使用者の発声を認識する音声認識ステップと、
前記使用者の発声について分析する発声分析ステップと、
前記発声分析ステップによる分析結果に基づき誤認識に寄与する誤認識要因を推定する推定ステップと、
前記使用者の発声を認識した結果を含む応答を音声合成して出力する応答ステップと、を有し、
前記応答ステップは、前記推定ステップにより前記誤認識要因が推定されたとき、該誤認識要因を強調した発声変換を施して応答することを特徴とする音声対話方法。
【請求項１１】
前記発声分析ステップは発声音量を分析し、
前記応答ステップは、前記推定ステップにより発声音量が大きすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の音量と比較してより大きい音量に発声変換して応答することを特徴とする請求項１０に記載の音声対話方法。
【請求項１２】
前記発声分析ステップは発声音量を分析し、
前記応答ステップは、前記推定ステップにより発声音量が大きすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより大きい音量に発声変換して応答することを特徴とする請求項１０に記載の音声対話方法。
【請求項１３】
前記発声分析ステップは発声音量を分析し、
前記応答ステップは、前記推定ステップにより発声音量が小さすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の音量と比較してより小さい音量に発声変換して応答することを特徴とする請求項１０に記載の音声対話方法。
【請求項１４】
前記発声分析ステップは発声音量を分析し、
前記応答ステップは、前記推定ステップにより発声音量が小さすぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の音量と比較してより小さい音量に発声変換して応答することを特徴とする請求項１０に記載の音声対話方法。
【請求項１５】
前記発声分析ステップは発声速度を分析し、
前記応答ステップは、前記推定ステップにより発声速度が速すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の速度と比較してより速い速度に発声変換して応答することを特徴とする請求項１０〜請求項１４の何れか１項に記載の音声対話方法。
【請求項１６】
前記発声分析ステップは発声速度を分析し、
前記応答ステップは、前記推定ステップにより発声速度が速すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより速い速度に発声変換して応答することを特徴とする請求項１０〜請求項１４の何れか１項に記載の音声対話方法。
【請求項１７】
前記発声分析ステップは発声速度を分析し、
前記応答ステップは、前記推定ステップにより発声速度が遅すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を通常の応答時の速度と比較してより遅い速度に発声変換して応答することを特徴とする請求項１０〜請求項１４の何れか１項に記載の音声対話方法。
【請求項１８】
前記発声分析ステップは発声速度を分析し、
前記応答ステップは、前記推定ステップにより発声速度が遅すぎることが前記誤認識要因であると推定されたとき、前記使用者の発声の認識結果部分を該認識結果以外の部分の速度と比較してより遅い速度に発声変換して応答することを特徴とする請求項１０〜請求項１４の何れか１項に記載の音声対話方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【公開番号】特開２００６−２５１０６１（Ｐ２００６−２５１０６１Ａ）
【公開日】平成１８年９月２１日（２００６．９．２１）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 音声認識システムの構造上の細部 (875)
      - 音声認識処理中の手順，例．マン・マシン対話 (884)

【出願番号】特願２００５−６４２２７（Ｐ２００５−６４２２７）
【出願日】平成１７年３月８日（２００５．３．８）
【出願人】（０００００３９９７）日産自動車株式会社 (16,386)
【出願人】（５９１１３２３３５）株式会社ザナヴィ・インフォマティクス (745)
【出願人】（０００００５１０８）株式会社日立製作所 (27,607)
【Ｆターム（参考）】

音声認識 (5,191)
- 音声認識装置の制御 (1,048)
  - 後処理 (238)
    - 誤認識の訂正のためのもの (115)

[ Back to top ]

音声対話装置および音声対話方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

音声対話装置および音声対話方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク