説明

音声認識装置

【課題】音声認識された文字列の正誤を容易に判別できるように、トークバック音声を出力する「音声認識装置」を提供する。
【解決手段】マイクロフォン1から入力する、ユーザの発声「024 636 0123」に対して、音声認識部32は間合いの無音区間で区切られた有音区間毎に音声認識を行って、各認識部分文字列「024」、「636」、「0123」を得る。トークバック音声データ生成部34は、各認識部分文字列「024」、「636」、「0123」を間にスペース文字を挿入した形態で連結し、文字列「024 636 0123」を生成する。そして、生成した文字列「024 636 0123」をトークバック音声データとして、音声生成装置35に出力する。音声生成装置35は、トークバック音声データを読み上げた音声を表す音声信号を生成し、スピーカ2から出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置におけるトークバック音声を出力する技術に関するものである。
【背景技術】
【0002】
従来より、音声認識装置において、ユーザの発話音声に対して音声認識した文字列の確認等の目的のために、音声認識した文字列を読み上げた音声であるトークバック音声を出力することが広く行われている。
また、このような音声認識装置におけるトークバック音声の出力技術としては、ユーザの発話音声におけるアクセントと同様なアクセントで、トークバック音声を出力する技術が知られている(たとえば、特許文献1、2)。
【特許文献1】特開平11-175082号公報
【特許文献2】特開2005-37423号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
さて、ユーザは、電話番号やパスワードなどの文字を無意味に羅列した文字列については、ユーザ固有の区切り位置で文字列を区切って記憶している場合がある。
たとえば、市外局番-市内局番-加入者番号が0246-36-0123の電話番号を、024-636-0123等と、市外局番や市内局番や加入者番号の区切りとは異なる区切りで区切って記憶している場合がある。
そして、このような場合には、音声認識装置において音声認識した文字列を、そのまま区切り無く読み上げた音声や、所定の区切りで区切って読み上げた音声をトークバック音声として出力すると、当該文字列の記憶に用いている区切り位置と、トークバック音声における区切り位置が異なるために、音声認識された文字列の正誤をユーザが容易に確認できない場合がある。たとえば、上述のように024-636-0123とユーザ記憶している電話番号0246360123を音声認識した場合に、「0246360123」と区切り無くトークバック音声を出力したり、「0246 36 0123」と市外局番や市内局番や加入者番号で区切ってトークバック音声を出力した場合には、ユーザが当該電話番号の記憶に用いている区切り位置と、トークバック音声における電話番号の区切り位置が異なるため、ユーザは直ちに音声認識された電話番号の正誤を把握し難いことになる。
【0004】
そこで、本発明は、音声認識装置において、ユーザがより容易に音声認識された文字列の正誤を判別できるように、トークバック音声を出力することを課題とする。
【課題を解決するための手段】
【0005】
前記課題達成のために、本発明は、ユーザの発話した文字列を音声認識し、音声認識した文字列を読み上げる音声をトークバック音声として出力する音声認識装置を、ユーザの発話した文字列を音声認識する音声認識部と、ユーザの前記文字列の発話中における、発声の区切位置を検出する発声区切検出部と、前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で区切って読み上げた音声を前記トークバック音声として出力するトークバック音声出力部とを含めて構成したものである。
【0006】
このような音声認識装置によれば、ユーザが、当該ユーザ固有の区切りで区切って記憶している電話番号やパスワードなどの文字列を、当該区切りで区切って発話した場合には、当該発話に対して音声認識した文字列を、当該ユーザと同じ位置で区切って読み上げた音声がトークバック音声として出力される。よって、ユーザが当該記憶に用いている区切り位置と、トークバック音声における区切り位置が同じ位置となるので、ユーザは直ちに音声認識された文字列の正誤を把握することができるようになる。
【0007】
ここで、このような音声認識装置は、より具体的には、前記トークバック音声出力部において、前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で、無音区間によって区切って読み上げた音声を前記トークバック音声として出力するように構成してもよいし、前記トークバック音声出力部において、前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で、所定の効果音によって区切って読み上げた音声を前記トークバック音声として出力するように構成してもよい。
【0008】
また、以上の音声認識装置は、前記音声認識部において、前記発声区切検出部が検出した区切位置で区切られるユーザの各発声区間の各々について音声認識を行って、各発声区間の各々について音声認識した文字列を部分文字列とし、前記トークバック音声出力部において、前記各部分文字列を、順次、各部分文字列毎に区切って読み上げた音声を出力するように構成してもよい。
【0009】
また、前記課題達成のために、本発明は、ユーザの発話した文字列を音声認識し、音声認識した文字列を読み上げる音声をトークバック音声として出力する音声認識装置に、ユーザの発声区間毎の音声を抽出する音声抽出部と、前記音声抽出部が抽出した各発声区間の音声の各々について音声認識を行って、各発声区間の各々について音声認識した文字列を部分文字列とする音声認識部と、前記音声認識部が音声認識した前記各部分文字列を、順次、各部分文字列毎に区切って読み上げた音声を出力するトークバック音声出力部とを備えたものである。
【0010】
このような音声認識装置によっても、ユーザが、当該ユーザ固有の区切りで区切って記憶している電話番号やパスワードなどの文字列を、当該区切りで区切って発話した場合には、当該発話に対して音声認識した文字列を、当該ユーザと同じ位置で区切って読み上げた音声がトークバック音声として出力される。よって、ユーザが当該記憶に用いている区切り位置と、トークバック音声における区切り位置が同じ位置となるので、ユーザは直ちに音声認識された文字列の正誤を把握することができるようになる。
【0011】
なお、このような音声認識装置においても、前記トークバック音声出力部を、前記音声認識部が音声認識した前記各部分文字列を、順次、各部分文字列毎に無音区間によって区切って読み上げた音声を前記トークバック音声として出力するように構成したり、前記音声認識部が音声認識した前記各部分文字列を、順次、各部分文字列毎に所定の効果音によって区切って読み上げた音声を前記トークバック音声として出力するように構成してもよい。
【0012】
ところで、以上の発声区切検出部を備えた音声認識装置においては、トークバック音声出力部に代えて、または、トークバック音声出力部と共に、前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で区切った形態で表示する認識文字列表示部を設けることも好ましい。また、音声抽出部が備えた音声認識装置においては、トークバック音声出力部に代えて、または、トークバック音声出力部と共に、前記音声認識部が音声認識した前記各部分文字列を、各部分文字列毎に区切った形態で表示する認識文字列表示部を設けることも好ましい。
【0013】
これらのような音声認識装置によれば、ユーザが、当該ユーザ固有の区切りで区切って記憶している電話番号やパスワードなどの文字列を、当該区切りで区切って発話した場合には、当該発話に対して音声認識した文字列が、当該ユーザと同じ位置で区切った形態で表示される。よって、ユーザが当該記憶に用いている区切り位置と、表示される文字列における区切り位置が同じ位置となるので、ユーザは直ちに音声認識された文字列の正誤を把握することができるようになる。
【0014】
なお、以上のような各音声認識装置はナビゲーション装置の音声入力用の装置として適用することができる。すなわち、この場合には、たとえば、音声認識装置と、当該音声認識装置が音声認識した文字列が特定する地点を地図上でユーザに提示するナビゲーション装置とを含めて車載システムを構成するようにすればよい。
【発明の効果】
【0015】
以上のように、本発明によれば、音声認識装置において、ユーザがより容易に音声認識された文字列の正誤を判別できるように、トークバック音声を出力することができる。
【発明を実施するための最良の形態】
【0016】
以下、本発明の実施形態を、自動車に搭載される車載システムへの適用を例にとり説明する。
図1に、本実施形態に係る車載システムの構成を示す。
図示するように、本実施形態に係る車載システムは、マイクロフォン1と、スピーカ2と、音声認識システム3と、ナビゲーションシステム4と、表示装置5と、入力装置6とを備えている。
また、音声認識システム3は、音声認識辞書を格納した音声認識辞書データベース31、音声認識辞書DBに格納された音声認識辞書を用いてマイクロフォン1から入力するユーザの発話音声の音声認識を行う音声認識部32、マイクロフォン1から入力するユーザの発話音声の無音区間を検出する間合検出部33、音声認識部32がユーザの発話音声から認識した文字列を読み上げるトークバック音声を表すトークバック音声データを生成するトークバック音声データ生成部34、トークバック音声データ生成部34が生成したトークバック音声データが表す音声を生成しスピーカ2から出力する音声生成装置35とを備えている。
【0017】
また、ナビゲーションシステム4は、ナビゲーション装置41、各電話番号と当該電話番号の加入者の住所地点の座標との対応を記憶した電話番号データベース42、各住所と当該住所地点の座標との対応を記憶した住所データベース43、地図データを記憶した地図データベース44とを備えている。
【0018】
ただし、以上の車載システムにおいて、ナビゲーション装置41や音声認識システム3は、ハードウエア的には、マイクロプロセッサや、メモリや、その他の周辺デバイスを有する一般的な構成を備えたコンピュータであって良く、この場合、以上に示したナビゲーション装置や音声認識システム3の各部は、マイクロプロセッサが予め用意されたプログラムを実行することにより具現化するプロセスとして実現されるものであって良い。また、この場合、このようなプログラムは、前記記録媒体や適当な通信路を介して、車載システムに提供されるものであって良い。
【0019】
さて、ナビゲーション装置41は、内蔵したGPS受信機や各種自律航法装置を用いて、地図データを参照しつつ現在位置を算出したり、算出した現在位置を地図データが表す地図上に表示した案内画像を生成し、表示装置5に表示する処理を行う。また、ナビゲーション装置41は、ユーザから目的地の設定を受け付け、現在位置から受け付けた目的地までの推奨される経路を地図データに基づいて探索し、探索した経路を、表示装置5に表示した前記案内画像上で案内したり、音声生成装置35を介して音声によって案内する処理を行う。
【0020】
ここで、ナビゲーション装置41は、ユーザから入力された電話番号や住所による地点検索や、目的地の設定も行う。すなわち、ナビゲーション装置41は、ユーザから電話番号が入力された場合には、電話番号データベース42に登録されている、入力された電話番号に対応する座標を取得し、取得した座標を検索結果地点の座標として設定したり、目的地の座標として設定する。また、同様に、ユーザから住所が入力された場合には、住所データベース43に登録されている、入力された住所に対応する座標を取得し、取得した座標を検索結果地点の座標として設定したり、目的地の座標として設定する。
【0021】
そして、ナビゲーション装置41は、このような電話番号や住所の入力を、入力装置6からの入力によって受け付ける他、音声入力によっても受け付ける。すなわち、ナビゲーション装置41は、入力装置6を介してユーザから電話番号や住所の音声入力の要求が指示されると、音声認識部32と間合検出部33に音声認識の開始を指示する。そして、音声認識部32がユーザの発話音声から認識した文字列を仮入力文字列として受け入れる。そして、ユーザから、入力装置6の操作や音声入力によって音声認識結果の承認が入力されたならば、仮入力文字列を、入力された電話番号や住所として受け入れ、これらに基づく地点検索や目的地の設定を上述のように行う。
【0022】
以下、このような車載システムにおける音声認識システム3の動作について説明する。
音声認識システム3において、間合検出部33は、ナビゲーション装置41から、音声認識の開始を指示されたならば、マイクロフォン1から入力する音声信号の監視を開始し、音声信号の有音の時間区間である有音区間から、第1の所定時間長(たとえば、0.2秒)以上の無音の時間区間である間合区間への変化が発生したならば、間合検出信号を音声認識部32に出力する。また、第2の所定時間長(たとえば、1秒)以上の無音区間が発生したならば認識終了信号を、音声認識部32に出力する。そして、マイクロフォン1から入力する音声信号の監視を終了する。
【0023】
一方、音声認識システム3において、音声認識部32は、ナビゲーション装置41から、音声認識の開始を指示されたならば、図2aに示す音声認識処理を開始する。
すなわち、音声認識処理において音声認識部32は、まず、マイクロフォン1から入力する音声信号の記録を開始する(ステップ202)。そして、間合検出部33から間合検出信号が入力したならば(ステップ206)、記録されている音声信号のうちの直前の有音区間の音声認識を音声認識辞書を参照して行い、音声認識した文字列を、認識部分文字列として保持する(ステップ208)。また、間合検出部33から認識終了信号が入力したならば(ステップ204)、音声信号の記録を終了し(ステップ210)、保持している認識部分文字列を音声認識した順に連結した文字列を、ユーザの発話音声から認識した文字列として、ナビゲーション装置41に引き渡す(ステップ212)。また、保持している認識部分文字列の各々を音声認識した順に、トークバック音声データ生成部34に出力し、トークバック音声データ生成部34にトークバック音声データ生成処理の起動を指示し(ステップ214)、音声認識処理を終了する。
【0024】
なお、ナビゲーション装置41は、音声認識部32から引き渡された、この認識部分文字列を連結した文字列を、前述のように仮入力文字列として受け入れる。
一方、トークバック音声データ生成部34は、トークバック音声データ生成処理の起動が指示されると、図2bに示すトークバック音声データ生成処理を行う。
図示するように、この処理では、音声認識部32から入力した各認識部分文字列を、音声認識順に(ステップ252、250、262)、間にスペース文字を挿入した(ステップ260)形態で連結した(ステップ254)文字列を生成し、生成した文字列をトークバック音声データとして、音声生成装置35に出力する(ステップ258)。
【0025】
そして、音声生成装置35は、トークバック音声データが表す文字列を読み上げた音声を表す音声信号を生成し、スピーカ2から出力する。ここで、音声生成装置35は、文字列中のスペース文字に対しては一定時間の無音の音声信号を出力する。
この結果、たとえば、ユーザが、市外局番-市内局番-加入者番号が0246-36-0123の電話番号を音声入力するために、「024 636 0123」と、024と636の間と、636と0123の間で間合いで区切って発声した場合、マイクロフォン1から入力する入力音声信号は、図3a1のようになり、間合検出部33において、図3a2に示すように、入力音声信号の024と636の間と、636と0123の間と、0123の直後に間合検出信号が出力される。また、間合検出部33において、入力音声信号の0123の発声後の所定時間経過後に認識終了信号が出力される。
【0026】
そして、図3a3に示すように、音声認識部32において、024と636の間で出力された間合検出信号の直前の有音区間に対して認識部分文字列「024」が認識され、636と0123の間で出力された間合検出信号の直前の有音区間に対して認識部分文字列「636」が認識され、0123の直後に出力された間合検出信号の直前の有音区間に対して認識部分文字列「0123」が認識される。
【0027】
そして、入力音声信号の0123の発声後の所定時間経過後に認識終了信号が出力されると、各認識部分文字列を連結した文字列「0246360123」がナビゲーション装置41に出力されると共に、各認識部分文字列「024」、「636」、「0123」がトークバック音声データ生成部34に出力される。
【0028】
そして、トークバック音声データ生成部34において、図3b1のように音声認識部32より入力する各認識部分文字列「024」、「636」、「0123」を、図3b2のように間にスペース文字を挿入した形態で連結し、文字列「024 636 0123」を生成する。そして、生成した文字列「024 636 0123」をトークバック音声データとして、音声生成装置35に出力する。そして、音声生成装置35において、図3b3に示すように、トークバック音声データが表す文字列「024 636 0123」を読み上げた音声を表す音声信号を生成し、スピーカ2からトークバック音声として出力する。ここで、図示するように、音声生成装置35は、文字列中のスペース文字に対しては一定時間の無音の音声信号を出力する。
【0029】
以上、本発明の実施形態について説明した。
以上のように本実施形態によれば、ユーザが、当該ユーザ固有の区切りで区切って記憶している電話番号などの文字列を、当該区切りで区切って発話した場合には、当該発話に対して音声認識した文字列を、当該ユーザと同じ位置で区切って読み上げた音声がトークバック音声として出力される。よって、ユーザが当該記憶に用いている区切り位置と、トークバック音声における区切り位置が同じ位置となるので、ユーザは直ちに音声認識された文字列の正誤を把握することができるようになる。
【0030】
ところで、以上の実施形態では、トークバック音声データ生成部34において音声認識部32より入力する各認識部分文字列を、間にスペース文字を挿入した形態で連結した文字列をトークバック音声データとすることにより、トークバック音声において、ユーザが発声において間合いをおいた位置と同じ位置に間合い(無音区間)を生成するようにしたが、これは、トークバック音声において、ユーザが発声において間合いをおいた位置と同じ位置に、無音区間に代えて所定の効果音の音声区間を生成するようにしてもよい。
【0031】
すなわち、この場合には、たとえば、トークバック音声データ生成部34において、図4a1のように音声認識部32より入力する各認識部分文字列「024」、「636」、「0123」を、図4a2のように間に、コマンドを挿入した形態で連結し、文字列「0246360123」を生成する。そして、生成した文字列「0246360123」をトークバック音声データとして、音声生成装置35に出力する。そして、音声生成装置35において、図3a3に示すように、トークバック音声データが表す文字列「0246360123」を読み上げた音声を表す音声信号を生成し、スピーカ2からトークバック音声として出力する。ここで、図示するように、音声生成装置35は、文字列中のコマンドに対しては所定の効果音(図では「Pi」)の音声信号を出力する。
【0032】
また、本実施形態に係る車載システムは、トークバック音声の出力に代えて、または、トークバック音声の出力と共に、音声認識した文字列を、ユーザが発声において間合いをおいた箇所と同じ位置で区切った形態で、表示装置5に表示するように構成してもよい。すなわち、この場合には、たとえば、音声認識部32において、間合検出部33から認識終了信号が入力したならば、保持している認識部分文字列の各々を音声認識した順に、ナビゲーション装置41に引き渡すようにする。そして、ナビゲーション装置41において、音声認識部32から引き渡された各認識部分文字列を図4b1や図4b2に示すように、スペースや、ハイフンその他の記号で区切った形態で表示装置5に表示する。
【0033】
このようにすることにより、ユーザが、当該ユーザ固有の区切りで区切って記憶している電話番号などの文字列を、当該区切りで区切って発話した場合には、当該発話に対して音声認識した文字列が、当該ユーザと同じ位置で区切った形態で表示装置5に表示される。よって、ユーザが当該記憶に用いている区切り位置と、表示される文字列における区切り位置が同じ位置となるので、ユーザは直ちに音声認識された文字列の正誤を把握することができるようになる。
【0034】
また、本実施形態に係る車載システムは、図5に示すように構成してもよい。
図示するようにこの車載システムは、図1に示した車載システムの構成において、間合検出部33を廃して、代わりに有音区間抽出部36を設けたものである。
このような構成において有音区間抽出部36は、ナビゲーション装置41から、音声認識の開始を指示されたならば、マイクロフォン1から入力する音声信号の記録と監視を開始し、マイクロフォン1から入力する音声信号の有音の時間区間である有音区間を検出し、有音区間を検出する度に、当該検出した有音区間中にマイクロフォン1から入力した音声信号を有音区間信号として、記録しておいた音声信号中から抽出して、音声認識部32に出力する。また、所定時間長(たとえば、1秒)以上の無音区間が発生したならば認識終了信号を、音声認識部32に出力する。そして、マイクロフォン1から入力する音声信号の監視を終了する。
【0035】
一方、音声認識システム3において、音声認識部32は、ナビゲーション装置41から、音声認識の開始を指示されたならば、有音区間抽出部36から有音区間信号が入力する度に、入力した有音区間信号に対する音声認識を音声認識辞書を参照して行い、音声認識した文字列を、認識部分文字列として保持する。また、有音区間抽出部36から認識終了信号が入力したならば、保持している認識部分文字列を音声認識した順に連結した文字列を、ユーザの発話音声から認識した文字列として、ナビゲーション装置41に引き渡す。また、保持している認識部分文字列の各々を音声認識した順に、トークバック音声データ生成部34に出力し、トークバック音声データ生成部34にトークバック音声データ生成処理の起動を指示し、音声認識処理を終了する。
【0036】
そして、トークバック音声データ生成部34は、トークバック音声データ生成処理の起動が指示されると、音声認識部32から入力した各認識部分文字列を、音声認識順に、間にスペース文字を挿入した形態で連結した文字列を生成し、生成した文字列をトークバック音声データとして、音声生成装置35に出力する。
【0037】
そして、音声生成装置35は、トークバック音声データが表す文字列を読み上げた音声を表す音声信号を生成し、スピーカ2から出力する。ここで、音声生成装置35は、文字列中のスペース文字に対しては一定時間の無音の音声信号を出力する。
この結果、たとえば、ユーザが、市外局番-市内局番-加入者番号が0246-36-0123の電話番号を音声入力するために、「024 636 0123」と、024と636の間と、636と0123の間で間合いで区切って発声した場合、マイクロフォン1から入力する入力音声信号は、図6a1のようになり、有音区間抽出部36において、図6a2に示すように、入力音声信号の024の音声部分、636の音声部分、0123の音声部分が各々有音区間信号として抽出され、音声認識部32に出力される。また、有音区間抽出部36において、入力音声信号の0123の発声後の所定時間Th経過後に認識終了信号が出力される。
【0038】
そして、図6a3に示すように、音声認識部32において、024の有音区間信号に対して認識部分文字列「024」が認識され、636の有音区間信号に対して認識部分文字列「636」が認識され、0123の有音区間信号に対して認識部分文字列「0123」が認識される。
そして、入力音声信号の0123の発声後の所定時間Th経過後に認識終了信号が出力されると、各認識部分文字列を連結した文字列「0246360123」がナビゲーション装置41に出力されると共に、各認識部分文字列「024」、「636」、「0123」がトークバック音声データ生成部34に出力される。
【0039】
そして、トークバック音声データ生成部34において、図6b1のように音声認識部32より入力する各認識部分文字列「024」、「636」、「0123」を、図6b2のように間にスペース文字を挿入した形態で連結し、文字列「024 636 0123」を生成する。そして、生成した文字列「024 636 0123」をトークバック音声データとして、音声生成装置35に出力する。
【0040】
そして、音声生成装置35において、図6b3に示すように、トークバック音声データが表す文字列「024 636 0123」を読み上げた音声を表す音声信号を生成し、スピーカ2からトークバック音声として出力する。ここで、図示するように、音声生成装置35は、文字列中のスペース文字に対しては一定時間の無音の音声信号を出力する。
【0041】
なお、図5のように車載システムを構成した場合においても、前述したように、トークバック音声データ生成部34において、ユーザが発声において間合いをおいた位置と同じ位置に、無音区間ではなく所定の効果音の音声区間が生じるように構成したトークバック音声データを、たとえば、図4a2に示すように生成するようにしてもよい。
【0042】
また、図5のように車載システムを構成した場合においても、前述したように、トークバック音声の出力に代えて、または、トークバック音声の出力と共に、音声認識した文字列を、ユーザが発声において間合いをおいた箇所と同じ位置で区切った形態で、たとえば、図4b1、b2に示すように、表示装置5に表示するように構成してもよい。
【図面の簡単な説明】
【0043】
【図1】本発明の実施形態に係る車載システムの構成を示すブロック図である。
【図2】本発明の実施形態に係る音声認識システムが行う処理を示すフローチャートである。
【図3】本発明の実施形態に係るトークバック音声の生成の様子を示す図である。
【図4】本発明の実施形態に係るトークバック音声の生成の様子を示す図である。
【図5】本発明の実施形態に係る音声認識システムの他の構成例を示す図である。
【図6】本発明の実施形態に係るトークバック音声の生成の様子を示す図である。
【符号の説明】
【0044】
1…マイクロフォン、2…スピーカ、3…音声認識システム、4…ナビゲーションシステム、5…表示装置、6…入力装置、31…音声認識辞書データベース、32…音声認識部、33…間合検出部、34…トークバック音声データ生成部、35…音声生成装置、36…有音区間抽出部、41…ナビゲーション装置、42…電話番号データベース、43…住所データベース、44…地図データベース。

【特許請求の範囲】
【請求項1】
ユーザの発話した文字列を音声認識し、音声認識した文字列を読み上げる音声をトークバック音声として出力する音声認識装置であって、
ユーザの発話した文字列を音声認識する音声認識部と、
ユーザの前記文字列の発話中における、発声の区切位置を検出する発声区切検出部と、
前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で区切って読み上げた音声を前記トークバック音声として出力するトークバック音声出力部とを有することを特徴とする音声認識装置。
【請求項2】
請求項1記載の音声認識装置であって、
前記トークバック音声出力部は、前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で、無音区間によって区切って読み上げた音声を前記トークバック音声として出力することを特徴とする音声認識装置。
【請求項3】
請求項1記載の音声認識装置であって、
前記トークバック音声出力部は、前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で、所定の効果音によって区切って読み上げた音声を前記トークバック音声として出力することを特徴とする音声認識装置。
【請求項4】
請求項1記載の音声認識装置であって、
前記音声認識部は、前記発声区切検出部が検出した区切位置で区切られるユーザの各発声区間の各々について音声認識を行って、各発声区間の各々について音声認識した文字列を部分文字列とし、
前記トークバック音声出力部は、前記各部分文字列を、順次、各部分文字列毎に区切って読み上げた音声を出力することを特徴とする音声認識装置。
【請求項5】
請求項4記載の音声認識装置であって、
前記トークバック音声出力部は、前記各部分文字列を、順次、各部分文字列毎に無音区間によって区切って読み上げた音声を出力することを特徴とする音声認識装置。
【請求項6】
請求項4記載の音声認識装置であって、
前記トークバック音声出力部は、前記各部分文字列を、順次、各部分文字列毎に所定の効果音によって区切って読み上げた音声を出力することを特徴とする音声認識装置。
【請求項7】
請求項1記載の音声認識装置であって、
前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で区切った形態で表示する認識文字列表示部を有することを特徴とする音声認識装置。
【請求項8】
ユーザの発話した文字列を音声認識し、音声認識した文字列を読み上げる音声をトークバック音声として出力する音声認識装置であって、
ユーザの発声区間毎の音声を抽出する音声抽出部と、
前記音声抽出部が抽出した各発声区間の音声の各々について音声認識を行って、各発声区間の各々について音声認識した文字列を部分文字列とする音声認識部と、
前記音声認識部が音声認識した前記各部分文字列を、順次、各部分文字列毎に区切って読み上げた音声を出力するトークバック音声出力部とを有することを特徴とする音声認識装置。
【請求項9】
請求項8記載の音声認識装置であって、
前記トークバック音声出力部は、前記音声認識部が音声認識した前記各部分文字列を、順次、各部分文字列毎に無音区間によって区切って読み上げた音声を前記トークバック音声として出力することを特徴とする音声認識装置。
【請求項10】
請求項8記載の音声認識装置であって、
前記トークバック音声出力部は、前記音声認識部が音声認識した前記各部分文字列を、順次、各部分文字列毎に所定の効果音によって区切って読み上げた音声を前記トークバック音声として出力することを特徴とする音声認識装置。
【請求項11】
ユーザの発話した文字列を音声認識する音声認識部と、
ユーザの前記文字列の発話中における、発声の区切位置を検出する発声区切検出部と、
前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で区切った形態で表示する認識文字列表示部とを有することを特徴とする音声認識装置。
【請求項12】
ユーザの発声区間毎の音声を抽出する音声抽出部と、
前記音声抽出部が抽出した各発声区間の音声の各々について音声認識を行って、各発声区間の各々について音声認識した文字列を部分文字列とする音声認識部と、
前記音声認識部が音声認識した前記各部分文字列を、各部分文字列毎に区切った形態で表示する認識文字列表示部とを有することを特徴とする音声認識装置。
【請求項13】
請求項1記載の音声認識装置と、当該音声認識装置が音声認識した文字列が特定する地点を地図上でユーザに提示するナビゲーション装置とを備えたことを特徴とする車載システム。
【請求項14】
請求項8記載の音声認識装置と、当該音声認識装置が音声認識した文字列が特定する地点を地図上でユーザに提示するナビゲーション装置とを備えたことを特徴とする車載システム。
【請求項15】
請求項11記載の音声認識装置と、当該音声認識装置が音声認識した文字列が特定する地点を地図上でユーザに提示するナビゲーション装置とを備えたことを特徴とする車載システム。
【請求項16】
請求項12記載の音声認識装置と、当該音声認識装置が音声認識した文字列が特定する地点を地図上でユーザに提示するナビゲーション装置とを備えたことを特徴とする車載システム。
【請求項17】
コンピュータに読み取られ実行されるコンピュータプログラムであって、
前記コンピュータを、
ユーザの発話した文字列を音声認識する音声認識部と、
ユーザの前記文字列の発話中における、発声の区切位置を検出する発声区切検出部と、
前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で区切って読み上げた音声をトークバック音声として出力するトークバック音声出力部として機能させることを特徴とするコンピュータプログラム。
【請求項18】
コンピュータに読み取られ実行されるコンピュータプログラムであって、
前記コンピュータを、
ユーザの発声区間毎の音声を抽出する音声抽出部と、
前記音声抽出部が抽出した各発声区間の音声の各々について音声認識を行って、各発声区間の各々について音声認識した文字列を部分文字列とする音声認識部と、
前記音声認識部が音声認識した前記各部分文字列を、順次、各部分文字列毎に区切って読み上げた音声を出力するトークバック音声出力部として機能させることを特徴とするコンピュータプログラム。
【請求項19】
コンピュータに読み取られ実行されるコンピュータプログラムであって、
前記コンピュータを、
ユーザの発話した文字列を音声認識する音声認識部と、
ユーザの前記文字列の発話中における、発声の区切位置を検出する発声区切検出部と、
前記音声認識部が認識した文字列を、前記発声区切検出部が検出した発声の区切位置に対応する当該認識した文字列中の位置で区切った形態で表示する認識文字列表示部として機能させることを特徴とするコンピュータプログラム。
【請求項20】
コンピュータに読み取られ実行されるコンピュータプログラムであって、
前記コンピュータを、
ユーザの発声区間毎の音声を抽出する音声抽出部と、
前記音声抽出部が抽出した各発声区間の音声の各々について音声認識を行って、各発声区間の各々について音声認識した文字列を部分文字列とする音声認識部と、
前記音声認識部が音声認識した前記各部分文字列を、各部分文字列毎に区切った形態で表示する認識文字列表示部として機能させることを特徴とするコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2009−169139(P2009−169139A)
【公開日】平成21年7月30日(2009.7.30)
【国際特許分類】
【出願番号】特願2008−7673(P2008−7673)
【出願日】平成20年1月17日(2008.1.17)
【出願人】(000101732)アルパイン株式会社 (2,424)
【Fターム(参考)】