音声認識装置
【課題】 ユーザ自身に対して誤認識の原因を直感的に理解させて音声認識の発話方法を効率的にマスターさせることができる音声認識装置を提供する。
【解決手段】 発話された音声を入力して音声信号を生成する音声入力手段2と、音声入力手段から送られてくる音声信号に基づいて音声認識を行う音声認識手段12と、音声入力手段から送られてくる音声信号の波形を表す表示データをリアルタイムで作成する表示データ作成手段9と、表示データ作成手段から送られてくる表示データに基づき表示を行う表示手段5とを備えている。
【解決手段】 発話された音声を入力して音声信号を生成する音声入力手段2と、音声入力手段から送られてくる音声信号に基づいて音声認識を行う音声認識手段12と、音声入力手段から送られてくる音声信号の波形を表す表示データをリアルタイムで作成する表示データ作成手段9と、表示データ作成手段から送られてくる表示データに基づき表示を行う表示手段5とを備えている。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、機器を音声で操作するために使用される音声認識装置に関し、特にユーザに対して認識率の向上に寄与する情報を提供する技術に関する。
【背景技術】
【0002】
従来、ユーザが発話した音声を認識して認識結果を出力する音声認識装置が知られている。このような音声認識装置を利用したシステムとして、例えば、音声による操作が可能なカーナビゲーションシステムが開発されている。
【0003】
このようなカーナビゲーションシステムに適用された音声認識装置を用いて音声操作を行う場合、ユーザが音声操作に慣れるまでは、良好な認識結果が得られないことがある。これは、カーナビゲーションシステム自身やマイクロフォンの性能によって、認識処理が可能な音量や騒音レベルなどに制限があることに起因する。例えば、大声または小声で発話したり、窓を空けた状態で高速道路を走行するなどによって、認識処理が可能な音量や騒音レベルを逸脱することがあるが、ユーザは、その理由を知ることができない。そこで、音声認識装置において、「発話音量が小さすぎる」、「周囲騒音が大きすぎる」といった誤認識が発生する原因を音声ガイダンスや文字でユーザに通知するカーナビゲーションシステムも開発されている。
【0004】
なお、入力音声を解析してユーザに通知する装置として、特許文献1は、音声信号の波形解析を用いた画像処理装置を開示している。この画像処理装置は、入力された音声波形の周波数を求め、入力音声の音階情報を得る音階情報作成手段と、この音階情報に基づいて、オブジェクトデータを背景画像上に表示すべき位置を決め、オブジェクト画像データを作成するオブジェクト画像作成手段と、オブジェクト画像を優先して、このオブジェクト画像と背景画像とを合成して、表示用画像データを作成する表示データ作成手段とを備えている。
【0005】
【特許文献1】特開平8−123448号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来の音声認識装置では、「発話音量が小さすぎる」、「周囲騒音が大きすぎる」などといった誤認識の原因をユーザに通知するものも開発されているが、どの程度小さいのか、どのくらい音量を上げればよいかといったことは感覚的にわかりにくく、また、なぜ周囲騒音が大きいのか、どのような音が騒音になり得るのかもわかりにくいという問題がある。
【0007】
なお、特許文献1に記載された画像処理装置は、音階情報や音圧情報に特化した情報しか得ることができないので、音声認識において重要な入力音声の大小と周囲騒音の大小とを同時に知ることはできない。また、画像処理装置であることから、音声認識の結果を出力する機能は有しない。
【0008】
この発明は、上述した問題を解消するためになされたものであり、その課題は、ユーザ自身に対して誤認識の原因を直感的に理解させて音声認識の発話方法を効率的にマスターさせることができる音声認識装置を提供することにある。
【課題を解決するための手段】
【0009】
この発明に係る音声認識装置は、発話された音声を入力して音声信号を生成する音声入力手段と、音声入力手段から送られてくる音声信号に基づいて音声認識を行う音声認識手段と、音声入力手段から送られてくる音声信号の波形を表す表示データをリアルタイムで作成する表示データ作成手段と、表示データ作成手段から送られてくる表示データに基づき表示を行う表示手段とを備えている。
【発明の効果】
【0010】
この発明によれば、発話した音声の波形をリアルタイムで表示手段に表示するように構成したので、ユーザは、波形を見ることにより音量の大小や周囲騒音のレベルを知ることができ、誤認識の原因を直感的に理解できる。従って、ユーザは、音量を変えて発話したり、周囲の騒音を抑える処置を講じた後に発話を行うといった試みができるので、音声認識の発話方法を効率的にマスターできる。
【発明を実施するための最良の形態】
【0011】
以下、この発明の実施の形態を、図面を参照しながら詳細に説明する。なお、以下では、この発明の実施の形態に係る音声認識装置がカーナビゲーションシステムに適用された場合を想定して説明するが、この音声認識装置は、カーナビゲーションシステムに限らず、音声操作を行う種々の機器に適用できる。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、音声認識処理装置1、音声入力手段2、手動入力手段3、音声出力手段4および表示手段5から構成されている。
【0012】
音声入力手段2は、例えばマイクロフォン(マイク)から構成されており、音声認識装置を操作するための音声を入力するために使用される。この音声入力手段2は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置1に送る。手動入力手段3は、例えば、この音声認識装置の操作パネル(図示は省略する)に設けられたキーから構成されており、音声認識装置を手動によって操作するために使用される。この手動入力手段3は、その操作に応じて生成されたキー入力信号を、音声認識処理装置1に送る。なお、手動入力手段3は、キーに限らず、タッチパネルやリモートコントローラから構成することもできる。
【0013】
音声出力手段4は、例えば、スピーカから構成されている。この音声出力手段4は、音声認識処理装置1から送られてくる音声信号に応じて音声を出力する。表示手段5は、例えば液晶ディスプレイ装置やCRT装置といったモニタから構成することができる。表示手段5は、音声認識処理装置1から送られてくる映像信号に応じて文字や画像を、その画面に表示する。
【0014】
音声認識処理装置1は、設定条件格納手段6、画像格納手段7、入力信号解析手段8、表示データ作成手段9、表示データ制御手段10、表示データ出力手段11、音声認識手段12および認識結果出力手段13から構成されている。
【0015】
設定条件格納手段6は、入力された音声信号の解析、表示データの作成や制御などを行うための閾値情報、色情報、設定時間情報などを含む設定条件を格納している。ここで、閾値情報は、ユーザの発話によって得られた音声波形の振幅が、音声認識処理を行う上で適正である範囲を示す値である。この閾値情報で示される範囲を逸脱しない発話の音量が適正であるとされる。また、色情報は、音声波形に付すべき色を規定する情報である。なお、設定時間情報については後述する。この設定条件格納手段6に格納されている設定条件は、入力信号解析手段8、表示データ作成手段9および表示データ制御手段10によって読み出される。
【0016】
画像格納手段7は、地図を表示するための地図データ、線や記号を表示するためのデータなどの画像データを格納する。この画像格納手段7に格納されている画像データは、表示データ作成手段9によって読み出される。
【0017】
入力信号解析手段8は、音声入力手段2から送られてくる音声信号の波形(以下、「音声波形」と略する)の解析を行う。この入力信号解析手段8は、音声分析部14、設定条件判定部15および設定条件付加部16から構成されている。
【0018】
音声分析部14は、例えばA/D変換器から構成されており、人が発話することによって音声入力手段2から送られてくるアナログの音声信号を入力し、デジタルの音声信号に変換する。この音声分析部14で変換することによって得られた音声信号は、設定条件判定部15に送られる。設定条件判定部15は、音声分析部14から送られてくる音声信号が、設定条件格納手段6から読み出した閾値情報に基づき、認識可能な範囲にあるかどうかを判定し、判定結果を付加した音声信号を設定条件付加部16に送る。設定条件付加部16は、設定条件判定部15から送られてくる音声信号に、設定条件格納手段6から読み出した閾値情報および色情報などを付加し、表示データ作成手段9に送る。
【0019】
表示データ作成手段9は、入力信号解析手段8から送られてくる音声波形を、設定条件格納手段6から読み出した閾値情報や色情報などの条件に合致するように加工して表示データを作成する。また、表示データ作成手段9は、画像格納手段7から読み出した画像データに基づき生成された画像に、上記加工された音声波形を重畳させて、表示データを作成する。この表示データ作成手段9で作成された表示データは、表示データ制御手段10に送られる。
【0020】
表示データ制御手段10は、表示データ作成手段9から送られてきた表示データを、手動入力手段3から入力されたキー入力信号や、設定条件格納手段6から読み出された設定時間情報で指定された時間の経過などをトリガとして、表示手段5にリアルタイムで表示される音声波形の動きを停止または一時停止させる。この表示データ制御手段10でリアルタイムな動きの可否が制御された表示データは表示データ出力手段11に送られる。
【0021】
表示データ出力手段11は、例えばD/A変換器から構成されており、表示データ制御手段10から送られてくる表示データを、アナログの映像信号に変換し、表示手段5に送る。これにより、表示手段5の画面に、表示データに応じた画像、例えば音声の波形や地図が表示される。
【0022】
音声認識手段12は、入力信号解析手段8の音声分析部14から送られてくる音声信号に対する音声認識処理を実行する。この音声認識手段12は、音声区間検出部17、特徴パターン記憶部18および認識計算部19から構成されている。
【0023】
音声区間検出部17は、音声分析部14から送られてくる音声信号の中から発話された音声区間を検出する。この音声区間検出部17で検出された音声区間は、認識計算部19に送られる。特徴パターン記億部18は、音声認識辞書とも呼ばれ、音声の特徴パターンを記憶する。この特徴パターン記憶部18は、認識計算部19によってアクセスされる。認識計算部19は、音声区間検出部17から送られてくる音声区間の音声波形と、特徴パターン記憶部18に格納されている特徴パターンとのマッチング処理を実行する。そして、このマッチング処理によって得られた認識結果を、認識語彙として認識結果出力手段13および表示データ作成手段9に送る。
【0024】
認識結果出力手段13は、例えばD/A変換器から構成されており、音声認識手段12から送られてくる認識語彙を表すデータをアナログの音声信号に変換し、音声出力手段4に送る。これにより、音声出力手段4は、音声認識処理によって認識された語彙を音声で出力する。
【0025】
次に、上記のように構成される、この発明の実施の形態1に係る音声認識装置の動作を、図2および図3に示すフローチャートを参照しながら説明する。
【0026】
図2は、この発明の実施の形態1に係る音声認識装置のメイン処理を示すフローチャートである。この音声認識装置では、まず、ユーザが音声操作を行うための発話を行うと、音声入力が行われる(ステップST11)。すなわち、音声入力手段2は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置1の入力信号解析手段8を構成する音声分析部14に送る。次いで、入力信号変換が行われる(ステップST12)。すなわち、音声分析部14は、音声入力手段2から送られてきたアナログの音声信号を、音声認識処理が可能な形式のデジタル信号に変換し、設定条件判定部15および設定条件付加部16を介して表示データ作成手段9に送るとともに、音声認識手段12の音声区間検出部17に送る。音声区間検出部17は、音声信号の中から発話された音声区間を検出して認識計算部19に送る。
【0027】
次いで、音声認識処理が実行される(ステップST13)。すなわち、音声認識手段12の認識計算部19は、音声区間検出部17で検出された音声区間の音声信号と、特徴パターン記憶部18に記憶されている特徴パターンとのマッチング処理を行う。次いで、認識結果の算出が行われる(ステップST14)。すなわち、認識計算部19は、マッチング処理によって最もマッチング度の高い特徴パターンに対応する語彙を選択し、認識結果として決定する。そして、この決定した語彙を表示データ作成手段9および認識結果出力手段13に送る。
【0028】
次いで、表示データ作成処理が実行される(ステップST15)。すなわち、表示データ作成手段9は、入力信号解析手段8から送られてくる音声波形に基づき表示データを作成し、表示データ制御手段10を介して表示データ出力手段11に送る。この表示データ作成処理では、詳細は後述するが、表示形態を様々に変更して表示させる表示データを作成するように構成することもできる。次いで、作成した表示データに基づく表示が行われる(ステップST16)。すなわち、表示データ出力手段11は、表示データ作成手段9から表示データ制御手段10を介して送られてくる表示データに基づき映像信号を生成し、表示手段5に送る。これにより、図8に示すような音声の波形が表示手段5の画面に表示される。なお、図9は、後に詳細に説明する表示データ作成処理において、音声認識結果として得られた「電話番号」という語彙を音声波形に重畳させて表示した例を示している。
【0029】
また、ステップST14において、認識結果の算出が行われると、認識結果の出力が行われる(ステップST17)。すなわち、認識結果出力手段13は、音声認識手段12から送られてくる認識語彙を表すデータを音声信号に変換し、音声出力手段4に送る。これにより、音声認識処理によって認識された語彙が音声で出力される。
【0030】
次に、図2のステップST14で行われる表示データ作成処理の詳細を、図3に示すフローチャートを参照しながら説明する。なお、この表示データ作成処理はオプションであり、必ずしも必須ではない。
【0031】
表示データ作成処理では、まず、画像情報の取得が行われる(ステップST21)。すなわち、表示データ作成手段9は、画像格納手段7から画像情報を取得する。ここで取得される、画像情報は、ナビゲーションに使用される地図を表示するための地図データなどである。次いで、閾値情報の取得が行われる(ステップST22)。すなわち、表示データ作成手段9は、設定条件格納手段6から閾値情報を取得する。
【0032】
次いで、入力された音声波形の振幅が閾値を越えているかどうかが調べられる(ステップST23)。ここで、閾値を越えていることが判断されると、音声波形の色情報が変更される(ステップST24)。この際、音声波形の全体の色、または、音声波形のうちの閾値を超えている部分のみの色、または、音声波形のうちの閾値を越えていない部分のみの色を変更するように構成することもできる。上記ステップST23で、入力された音声波形の振幅が閾値を越えていないことが判断されると、ステップST24の処理はスキップされる。
【0033】
なお、ステップST23では、入力された音声波形の振幅が閾値を越えているかどうかを調べるように構成したが、入力された音声波形が閾値を下回っているかどうか、または、複数の閾値に挟まれている範囲に音声波形が収まっているかどうか、換言すれば、閾値情報で規定された基準値を逸脱しているかどうかを調べるように構成することもできる。この場合、ステップST24では、音声波形の全体の色、または、音声波形のうちの閾値情報で規定された基準値を逸脱している部分のみの色、または、音声波形のうち閾値情報で規定された基準値を逸脱していない部分のみの色を、音声信号が所定の基準値を逸脱していない場合の表示色から変更するように構成することができる。
【0034】
次いで、音声波形に閾値のマークを重畳する処理が行われる(ステップST25)。すなわち、表示データ作成手段9は、線や矢印といったマークを描画するための画像データを画像格納手段7から読み出し、音声波形にマークを重畳した表示データを作成して表示データ制御手段10に送る。これにより、図10に示すように、音声波形に、ステップST22で取得された閾値を表す線およびその線の部分に矢印のマークが重畳されて表示される。
【0035】
次いで、音声波形が取得された画像に重畳される(ステップST26)。すなわち、表示データ作成手段9は、ステップST21で取得した画像データに、ステップST25までの処理によって作成した音声波形を重畳した表示データを作成して表示データ制御手段10に送る。これにより、図11に示すように、例えば地図の画像に、音声波形が重畳されて表示される。
【0036】
次いで、認識結果が表示データに重畳される(ステップST27)。すなわち、表示データ作成手段9は、ステップST26までの処理によって作成した音声波形に、メイン処理(図2参照)のステップST14において音声認識手段12から認識結果として得られた語彙を重畳した表示データを作成し、表示データ制御手段10に送る。これにより、図9に示すように、音声認識結果として得られた「電話番号」という語彙が音声波形に重畳されて表示される。
【0037】
以上説明したように、この発明の実施の形態1に係る音声認識装置によれば、誤認識の原因をガイダンスや文字で通知するだけでなく、発話した音声の波形をリアルタイムで表示手段5に表示するように構成したので、ユーザは、波形を見ることにより音量の大小や周囲騒音のレベルを知ることができ、誤認識の原因を直感的に理解できる。従って、ユーザは、音量を変えて発話したり、周囲の騒音を抑える処置を講じた後に発話を行うといった試みができるので、音声認識の発話方法を効率的にマスターできる。その結果、音声の認識率を向上させることができる。
【0038】
例えば、ガイダンスのみで「もう少し小さな声でお話しください」と提示するだけでなく、音声入力手段2から入カされた音声波形を表示することにより、ユーザは「声が大きすぎて波形が歪んでいる」ことがわかり、「もう少し小さく話してみよう」と試みる。また、音声波形には周囲騒音のレベルも表示されるので、ユーザは「今はかなりノイズが大きい」と理解できる。また、窓が開いているという車両情報を取得し、「窓を閉めるとノイズが小さくなります」などと提示すれば、窓を閉めると音声を認識しやすくなるということを知らせることができる。さらに、ユーザは、入カされた音声波形から「音声が騒音に埋もれてしまっている」ことがわかると、「窓を閉めて騒音を小さくして、もう少し大きな声で話してみよう」と試みる。これにより、ユーザは音声認識させるコツをつかむことができるので、音声の認識率を向上させることができる。
【0039】
また、音声波形に音声認識結果の語彙を重畳して表示させるように構成したので、ユーザは、誤認識が発生した原因や、その因果関係を理解できる。例えば、発話した音声波形が大きすぎて歪んでいる場合に、誤認識が発生すると、その誤認識の理由は発話音量が大きすぎたことが原因であると理解できる。このように、ユーザは、どのような音量や環境で発話すると正しく認識するかを理解でき、それに対処しようとするので認識率を向上させることができる。
【0040】
また、音声入力手段2から送られてくる音声波形に、音声認識手段12による音声認識に好適な範囲を表す基準値を示すためのマークを重畳させて表示するように構成したので、音声操作において、発話音量が基準値を超えているのか、または大きく下回っているのかなどがわかりやすい。例えば、これ以上大きな発話だと認識できなくなるという限界や、これ以上小さい発話だと認識できなくなるという限界が基準値として表示されるので、適正な発話音量がわかりやすくなる。
【0041】
また、音声入力手段から送られてくる音声信号が所定の基準値を逸脱している場合に、音声信号の波形の全体または基準値を逸脱している部分または基準値を逸脱していない部分の色を、前記音声信号が所定の基準値を逸脱していない場合の表示色から変更して表示するように構成したので、音声操作において、基準値を超えたか否かがわかりやすくなる。その結果、発話音量が大きすぎる、小さすぎる、または適正な音量であるということが、より理解しやすくなる。
【0042】
さらに、表示させたい画像がある場合に、その画像に波形を重畳させて表示するように構成したので、例えば、カーナビゲーションシステムにおいて、地図上に波形を重ねて表示させることが可能になる。その結果、ユーザは、ナビゲーション機能が阻害されることなく音声波形を見ることができる。
【0043】
実施の形態2.
この発明の実施の形態2に係る音声認識装置は、発話された音声の周波数または変化量に応じて色が変更された音声波形を出力するようにしたものである。
【0044】
この発明の実施の形態2に係る音声認識装置の構成は、図1に示した実施の形態1に係る音声認識装置の構成と同じである。
【0045】
次に、この発明の実施の形態2に係る音声認識装置の動作を、図4に示すフローチャートを参照しながら説明する。この音声認識装置のメイン処理は、図2に示した実施の形態1に係る音声認識装置のメイン処理と同じであり、メイン処理のステップST15で実行される表示データ作成処理の内容のみが実施の形態1に係る音声認識装置と相違する。以下では、相違する表示データ作成処理についてのみ説明する。
【0046】
表示データ作成処理では、まず、色情報の取得が行われる(ステップST31)。すなわち、表示データ作成手段9は、設定条件格納手段6から色情報を取得する。ここで、実施の形態2における色情報は、入力される音声信号の周波数または変化量により応じて変化させるべき色を規定する情報である。
【0047】
次いで、入力された音声信号の周波数算出または変化量算出が行われる(ステップST32)。すなわち、入力信号解析手段8に含まれる周波数算出部(図示しない)は、入力された音声信号の周波数を周知の方法により算出する。または、入力信号解析手段8に含まれる変化量算出部(図示しない)は、入力された音声信号の変化量を周知の方法により算出する。この発明の算出手段は、周波数算出部または変化量算出部によって構成されている。この周波数算出部で算出された周波数を表すデータまたは変化量算出部で算出された変化量を表すデータは、表示データ作成手段9に送られる。
【0048】
次いで、音声波形の色を変更する処理が行われる(ステップST33)。すなわち、表示データ作成手段9は、周波数算出部で算出された周波数を表すデータまたは変化量算出部で算出された変化量を表すデータとステップST31で取得した色情報と照合し、合致する色情報によって指定される色に音声波形を変化させた表示データを作成する。その後、シーケンスはメイン処理に戻る。
【0049】
以上説明したように、この発明の実施の形態2に係る音声認識装置によれば、ユーザは、音声操作を行う場合に、発話した音声の高低を知ることができるので、見た目が楽しいという効果が得られる。
【0050】
実施の形態3.
この発明の実施の形態3に係る音声認識装置は、リアルタイムで表示される音声波形を手動で停止させることができるようにしたものである。
【0051】
この発明の実施の形態3に係る音声認識装置の構成は、図1に示した実施の形態1に係る音声認識装置の構成と同じである。
【0052】
次に、この発明の実施の形態3に係る音声認識装置の動作を、図5に示すフローチャートを参照しながら説明する。図5は、この発明の実施の形態3に係る音声認識装置のメイン処理を示すフローチャートである。この音声認識装置では、まず、ユーザが音声操作を行うための発話を行うと、音声入力が行われる(ステップST41)。すなわち、音声入力手段2は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置1の入力信号解析手段8を構成する音声分析部14に送る。次いで、入力信号変換が行われる(ステップST42)。すなわち、音声分析部14は、音声入力手段2から送られてきたアナログの音声信号を、音声認識処理が可能な形式のデジタル信号に変換し、設定条件判定部15および設定条件付加部16を介して表示データ作成手段9に送る。
【0053】
次いで、キー入力があったかどうかが調べられる(ステップST43)。すなわち、表示データ制御手段10は、手動入力手段3から停止を指示するキー入力信号が送られてきたかどうかを調べる。ここで、キー入力がなかったことが判断されると、次いで、表示データ作成処理が実行される(ステップST44)。この場合、表示データ制御手段10は、キー入力がなかったことを判断すると、表示データ作成手段9で作成された表示データを、そのまま表示データ出力手段11に送るように設定する。このステップST44の処理は、図2のステップST15の処理と同じである。次いで、作成された表示データに基づき表示が行われる(ステップST45)。このステップST45の処理は、図2のステップST16の処理と同じである。その後、シーケンスはステップST43に戻り、上述した処理が繰り返される。
【0054】
このステップST43〜ST45の繰り返し実行の途中で、ステップST43において、キー入力があったことが判断されると、次いで、キー入力時の表示データが取得される(ステップST46)。すなわち、表示データ制御手段10は、キー入力信号が手動入力手段3から送られてきた時点において、表示データ作成手段9から送られてきた表示データを取得し、リアルタイムに行われる更新を停止する。次いで、ステップST46で取得された表示データの表示が行われる(ステップST47)。すなわち、表示データ制御手段10は、取得した表示データを表示データ出力手段11に送る。これにより、静止した音声の波形(リアルタイムで更新されない音声の波形)が表示手段5の画面に表示される。
【0055】
以上説明したように、この発明の実施の形態3に係る音声認識装置によれば、音声操作において、ユーザが手動入力手段3を操作することにより、音声波形を停止させて表示させることができるので、発話している間はリアルタイムで変化する音声波形を見るより見やすくなる。
【0056】
実施の形態4.
この発明の実施の形態4に係る音声認識装置は、リアルタイムで表示される音声波形を音声が入力されてから所定時間後に停止させることができるようにしたものである。
【0057】
この発明の実施の形態4に係る音声認識装置の構成は、図1に示した実施の形態1に係る音声認識装置の構成と同じである。
【0058】
次に、この発明の実施の形態4に係る音声認識装置の動作を、図6に示すフローチャートを参照しながら説明する。図6は、この発明の実施の形態4に係る音声認識装置のメイン処理を示すフローチャートである。この音声認識装置では、まず、ユーザが音声操作を行うための発話を行うと、音声入力が行われ(ステップST51)、次いで、入力信号変換が行われる(ステップST52)。これらステップST51およびST52の処理は、図5に示したステップST41およびST42の処理とそれぞれ同じである。
【0059】
次いで、設定時間情報が取得される(ステップST53)。すなわち、表示データ作成手段9は、設定条件格納手段6から設定時間情報Tを取得する。ここで、設定時間情報Tは、発話開始から波形を停止させるまでの時間を規定する情報である。次いで、設定時間情報Tがゼロであるかどうかが調べられる(ステップST54)。そして、設定時間情報Tがゼロでないことが判断されると、設定時間情報Tがa(aは任意の正の値)だけ減算される(ステップST55)。これらステップST54およびST55の処理は、表示データ制御手段10によって行われる。
【0060】
次いで、表示データ作成処理が実行される(ステップST56)。この場合、表示データ制御手段10は、設定時間情報Tがゼロでなかったことを判断すると、表示データ作成手段9で作成された表示データを、そのまま表示データ出力手段11に送るように設定する。このステップST56の処理は、図2のステップST15の処理と同じである。次いで、作成された表示データに基づき表示が行われる(ステップST57)。このステップST57の処理は、図2のステップST16の処理と同じである。その後、シーケンスはステップST54に戻り、上述したステップST54〜ST57の処理が繰り返される。この発明の計時手段は、ステップST54〜ST57の処理により実現されている。
【0061】
これらステップST54〜ST57の処理の繰り返し実行の途中で、ステップST54において、設定時間情報Tがゼロになったことが判断されると、次いで、設定時間情報Tがゼロになった時の表示データが取得される(ステップST58)。すなわち、表示データ制御手段10は、設定時間情報Tがゼロになったことを判断した時点において、表示データ作成手段9から送られてきた表示データを取得し、リアルタイムに行われる更新を停止する。次いで、ステップST58で取得された表示データの表示が行われる(ステップST59)。すなわち、表示データ制御手段10は、取得した表示データを表示データ出力手段11に送る。これにより、静止した音声の波形(リアルタイムで更新されない音声の波形)が表示手段5の画面に表示される。
【0062】
以上説明したように、この発明の実施の形態4に係る音声認識装置によれば、音声操作において、ユーザが発話してから所定時間経過後に音声波形を停止させて表示させることができるので、発話している間はリアルタイムで変化する音声波形を見るよりは見やすくなる。
【0063】
実施の形態5.
この発明の実施の形態5に係る音声認識装置は、表示画面を分割して一方に画像を他方に音声波形を表示させるようにしたものである。
【0064】
この発明の実施の形態5に係る音声認識装置の構成は、図1に示した実施の形態1に係る音声認識装置の構成と同じである。
【0065】
次に、この発明の実施の形態5に係る音声認識装置の動作を、図7に示すフローチャートを参照しながら説明する。この音声認識装置のメイン処理は、図2に示した実施の形態1に係る音声認識装置のメイン処理と同じであり、メイン処理のステップST15で実行される表示データ作成処理の内容のみが実施の形態1に係る音声認識装置と相違する。以下では、相違する表示データ作成処理についてのみ説明する。
【0066】
表示データ作成処理では、まず、画像情報の取得が行われる(ステップST61)。すなわち、表示データ作成手段9は、画像格納手段7から画像情報を取得する。ここでは、画像情報は、地図データであるものとする。次いで、画面の表示領域の分割が行われる(ステップST62)。すなわち、表示データ作成手段9は、表示データを一時格納するための表示領域(図示は省略する)を2個に分割する。次いで、各表示領域の表示データが作成される(ステップST63)。すなわち、表示データ作成手段9は、2個に分割された表示領域の一方にステップST61で取得した画像情報(地図データ)を格納し、他方に音声波形を格納して表示データを作成する。その後、シーケンスはメイン処理に戻る。以上のようにして表示データが作成されることにより、例えば図12に示すように、2分割された表示手段5の画面の一方(左画面)に地図が表示され、他方(右画面)に音声波形が表示される。
【0067】
以上説明したように、この発明の実施の形態5に係る音声認識装置によれば、表示させたい画像と波形とを別の画面上の領域に表示するように構成したので、画像と波形が重なることがなく、見やすいという利点がある。
【0068】
なお、上述した実施の形態5では、画面を2分割する場合について説明したが、画面の分割数は任意であり、また、画像および波形を表示させる表示領域も任意に選ぶことができる。
【図面の簡単な説明】
【0069】
【図1】この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。
【図2】この発明の実施の形態1に係る音声認識装置のメイン処理を示すフローチャートである。
【図3】この発明の実施の形態1に係る音声認識装置で実行される表示データ作成処理の詳細を示すフローチャートである。
【図4】この発明の実施の形態2に係る音声認識装置で実行される表示データ作成処理の詳細を示すフローチャートである。
【図5】この発明の実施の形態3に係る音声認識装置のメイン処理を示すフローチャートである。
【図6】この発明の実施の形態4に係る音声認識装置のメイン処理を示すフローチャートである。
【図7】この発明の実施の形態5に係る音声認識装置で実行される表示データ作成処理の詳細を示すフローチャートである。
【図8】この発明の実施の形態1に係る音声認識装置において音声波形が表示された例を示す図である。
【図9】この発明の実施の形態1に係る音声認識装置において音声波形に認識結果を表す語彙が重畳されて表示された例を示す図である。
【図10】この発明の実施の形態1に係る音声認識装置において音声波形にマークが重畳されて表示された例を示す図である。
【図11】この発明の実施の形態1に係る音声認識装置において地図に音声波形が重畳されて表示された例を示す図である。
【図12】この発明の実施の形態5に係る音声認識装置において音声波形と地図とが分割された画面に表示された例を示す図である。
【符号の説明】
【0070】
1 音声認識処理装置、2 音声入力手段、3 手動入力手段、4 音声出力手段、5 表示手段、6 設定条件格納手段、7 画像格納手段8 入力信号解析手段、9 表示データ作成手段、10 表示データ制御手段、11 表示データ出力手段、12 音声認識手段、13 認識結果出力手段、14 音声分析部、15 設定条件判定部、16 設定条件付加部、17 音声区間検出部、18 特徴パターン記憶部、19 認識計算部。
【技術分野】
【0001】
この発明は、機器を音声で操作するために使用される音声認識装置に関し、特にユーザに対して認識率の向上に寄与する情報を提供する技術に関する。
【背景技術】
【0002】
従来、ユーザが発話した音声を認識して認識結果を出力する音声認識装置が知られている。このような音声認識装置を利用したシステムとして、例えば、音声による操作が可能なカーナビゲーションシステムが開発されている。
【0003】
このようなカーナビゲーションシステムに適用された音声認識装置を用いて音声操作を行う場合、ユーザが音声操作に慣れるまでは、良好な認識結果が得られないことがある。これは、カーナビゲーションシステム自身やマイクロフォンの性能によって、認識処理が可能な音量や騒音レベルなどに制限があることに起因する。例えば、大声または小声で発話したり、窓を空けた状態で高速道路を走行するなどによって、認識処理が可能な音量や騒音レベルを逸脱することがあるが、ユーザは、その理由を知ることができない。そこで、音声認識装置において、「発話音量が小さすぎる」、「周囲騒音が大きすぎる」といった誤認識が発生する原因を音声ガイダンスや文字でユーザに通知するカーナビゲーションシステムも開発されている。
【0004】
なお、入力音声を解析してユーザに通知する装置として、特許文献1は、音声信号の波形解析を用いた画像処理装置を開示している。この画像処理装置は、入力された音声波形の周波数を求め、入力音声の音階情報を得る音階情報作成手段と、この音階情報に基づいて、オブジェクトデータを背景画像上に表示すべき位置を決め、オブジェクト画像データを作成するオブジェクト画像作成手段と、オブジェクト画像を優先して、このオブジェクト画像と背景画像とを合成して、表示用画像データを作成する表示データ作成手段とを備えている。
【0005】
【特許文献1】特開平8−123448号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来の音声認識装置では、「発話音量が小さすぎる」、「周囲騒音が大きすぎる」などといった誤認識の原因をユーザに通知するものも開発されているが、どの程度小さいのか、どのくらい音量を上げればよいかといったことは感覚的にわかりにくく、また、なぜ周囲騒音が大きいのか、どのような音が騒音になり得るのかもわかりにくいという問題がある。
【0007】
なお、特許文献1に記載された画像処理装置は、音階情報や音圧情報に特化した情報しか得ることができないので、音声認識において重要な入力音声の大小と周囲騒音の大小とを同時に知ることはできない。また、画像処理装置であることから、音声認識の結果を出力する機能は有しない。
【0008】
この発明は、上述した問題を解消するためになされたものであり、その課題は、ユーザ自身に対して誤認識の原因を直感的に理解させて音声認識の発話方法を効率的にマスターさせることができる音声認識装置を提供することにある。
【課題を解決するための手段】
【0009】
この発明に係る音声認識装置は、発話された音声を入力して音声信号を生成する音声入力手段と、音声入力手段から送られてくる音声信号に基づいて音声認識を行う音声認識手段と、音声入力手段から送られてくる音声信号の波形を表す表示データをリアルタイムで作成する表示データ作成手段と、表示データ作成手段から送られてくる表示データに基づき表示を行う表示手段とを備えている。
【発明の効果】
【0010】
この発明によれば、発話した音声の波形をリアルタイムで表示手段に表示するように構成したので、ユーザは、波形を見ることにより音量の大小や周囲騒音のレベルを知ることができ、誤認識の原因を直感的に理解できる。従って、ユーザは、音量を変えて発話したり、周囲の騒音を抑える処置を講じた後に発話を行うといった試みができるので、音声認識の発話方法を効率的にマスターできる。
【発明を実施するための最良の形態】
【0011】
以下、この発明の実施の形態を、図面を参照しながら詳細に説明する。なお、以下では、この発明の実施の形態に係る音声認識装置がカーナビゲーションシステムに適用された場合を想定して説明するが、この音声認識装置は、カーナビゲーションシステムに限らず、音声操作を行う種々の機器に適用できる。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、音声認識処理装置1、音声入力手段2、手動入力手段3、音声出力手段4および表示手段5から構成されている。
【0012】
音声入力手段2は、例えばマイクロフォン(マイク)から構成されており、音声認識装置を操作するための音声を入力するために使用される。この音声入力手段2は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置1に送る。手動入力手段3は、例えば、この音声認識装置の操作パネル(図示は省略する)に設けられたキーから構成されており、音声認識装置を手動によって操作するために使用される。この手動入力手段3は、その操作に応じて生成されたキー入力信号を、音声認識処理装置1に送る。なお、手動入力手段3は、キーに限らず、タッチパネルやリモートコントローラから構成することもできる。
【0013】
音声出力手段4は、例えば、スピーカから構成されている。この音声出力手段4は、音声認識処理装置1から送られてくる音声信号に応じて音声を出力する。表示手段5は、例えば液晶ディスプレイ装置やCRT装置といったモニタから構成することができる。表示手段5は、音声認識処理装置1から送られてくる映像信号に応じて文字や画像を、その画面に表示する。
【0014】
音声認識処理装置1は、設定条件格納手段6、画像格納手段7、入力信号解析手段8、表示データ作成手段9、表示データ制御手段10、表示データ出力手段11、音声認識手段12および認識結果出力手段13から構成されている。
【0015】
設定条件格納手段6は、入力された音声信号の解析、表示データの作成や制御などを行うための閾値情報、色情報、設定時間情報などを含む設定条件を格納している。ここで、閾値情報は、ユーザの発話によって得られた音声波形の振幅が、音声認識処理を行う上で適正である範囲を示す値である。この閾値情報で示される範囲を逸脱しない発話の音量が適正であるとされる。また、色情報は、音声波形に付すべき色を規定する情報である。なお、設定時間情報については後述する。この設定条件格納手段6に格納されている設定条件は、入力信号解析手段8、表示データ作成手段9および表示データ制御手段10によって読み出される。
【0016】
画像格納手段7は、地図を表示するための地図データ、線や記号を表示するためのデータなどの画像データを格納する。この画像格納手段7に格納されている画像データは、表示データ作成手段9によって読み出される。
【0017】
入力信号解析手段8は、音声入力手段2から送られてくる音声信号の波形(以下、「音声波形」と略する)の解析を行う。この入力信号解析手段8は、音声分析部14、設定条件判定部15および設定条件付加部16から構成されている。
【0018】
音声分析部14は、例えばA/D変換器から構成されており、人が発話することによって音声入力手段2から送られてくるアナログの音声信号を入力し、デジタルの音声信号に変換する。この音声分析部14で変換することによって得られた音声信号は、設定条件判定部15に送られる。設定条件判定部15は、音声分析部14から送られてくる音声信号が、設定条件格納手段6から読み出した閾値情報に基づき、認識可能な範囲にあるかどうかを判定し、判定結果を付加した音声信号を設定条件付加部16に送る。設定条件付加部16は、設定条件判定部15から送られてくる音声信号に、設定条件格納手段6から読み出した閾値情報および色情報などを付加し、表示データ作成手段9に送る。
【0019】
表示データ作成手段9は、入力信号解析手段8から送られてくる音声波形を、設定条件格納手段6から読み出した閾値情報や色情報などの条件に合致するように加工して表示データを作成する。また、表示データ作成手段9は、画像格納手段7から読み出した画像データに基づき生成された画像に、上記加工された音声波形を重畳させて、表示データを作成する。この表示データ作成手段9で作成された表示データは、表示データ制御手段10に送られる。
【0020】
表示データ制御手段10は、表示データ作成手段9から送られてきた表示データを、手動入力手段3から入力されたキー入力信号や、設定条件格納手段6から読み出された設定時間情報で指定された時間の経過などをトリガとして、表示手段5にリアルタイムで表示される音声波形の動きを停止または一時停止させる。この表示データ制御手段10でリアルタイムな動きの可否が制御された表示データは表示データ出力手段11に送られる。
【0021】
表示データ出力手段11は、例えばD/A変換器から構成されており、表示データ制御手段10から送られてくる表示データを、アナログの映像信号に変換し、表示手段5に送る。これにより、表示手段5の画面に、表示データに応じた画像、例えば音声の波形や地図が表示される。
【0022】
音声認識手段12は、入力信号解析手段8の音声分析部14から送られてくる音声信号に対する音声認識処理を実行する。この音声認識手段12は、音声区間検出部17、特徴パターン記憶部18および認識計算部19から構成されている。
【0023】
音声区間検出部17は、音声分析部14から送られてくる音声信号の中から発話された音声区間を検出する。この音声区間検出部17で検出された音声区間は、認識計算部19に送られる。特徴パターン記億部18は、音声認識辞書とも呼ばれ、音声の特徴パターンを記憶する。この特徴パターン記憶部18は、認識計算部19によってアクセスされる。認識計算部19は、音声区間検出部17から送られてくる音声区間の音声波形と、特徴パターン記憶部18に格納されている特徴パターンとのマッチング処理を実行する。そして、このマッチング処理によって得られた認識結果を、認識語彙として認識結果出力手段13および表示データ作成手段9に送る。
【0024】
認識結果出力手段13は、例えばD/A変換器から構成されており、音声認識手段12から送られてくる認識語彙を表すデータをアナログの音声信号に変換し、音声出力手段4に送る。これにより、音声出力手段4は、音声認識処理によって認識された語彙を音声で出力する。
【0025】
次に、上記のように構成される、この発明の実施の形態1に係る音声認識装置の動作を、図2および図3に示すフローチャートを参照しながら説明する。
【0026】
図2は、この発明の実施の形態1に係る音声認識装置のメイン処理を示すフローチャートである。この音声認識装置では、まず、ユーザが音声操作を行うための発話を行うと、音声入力が行われる(ステップST11)。すなわち、音声入力手段2は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置1の入力信号解析手段8を構成する音声分析部14に送る。次いで、入力信号変換が行われる(ステップST12)。すなわち、音声分析部14は、音声入力手段2から送られてきたアナログの音声信号を、音声認識処理が可能な形式のデジタル信号に変換し、設定条件判定部15および設定条件付加部16を介して表示データ作成手段9に送るとともに、音声認識手段12の音声区間検出部17に送る。音声区間検出部17は、音声信号の中から発話された音声区間を検出して認識計算部19に送る。
【0027】
次いで、音声認識処理が実行される(ステップST13)。すなわち、音声認識手段12の認識計算部19は、音声区間検出部17で検出された音声区間の音声信号と、特徴パターン記憶部18に記憶されている特徴パターンとのマッチング処理を行う。次いで、認識結果の算出が行われる(ステップST14)。すなわち、認識計算部19は、マッチング処理によって最もマッチング度の高い特徴パターンに対応する語彙を選択し、認識結果として決定する。そして、この決定した語彙を表示データ作成手段9および認識結果出力手段13に送る。
【0028】
次いで、表示データ作成処理が実行される(ステップST15)。すなわち、表示データ作成手段9は、入力信号解析手段8から送られてくる音声波形に基づき表示データを作成し、表示データ制御手段10を介して表示データ出力手段11に送る。この表示データ作成処理では、詳細は後述するが、表示形態を様々に変更して表示させる表示データを作成するように構成することもできる。次いで、作成した表示データに基づく表示が行われる(ステップST16)。すなわち、表示データ出力手段11は、表示データ作成手段9から表示データ制御手段10を介して送られてくる表示データに基づき映像信号を生成し、表示手段5に送る。これにより、図8に示すような音声の波形が表示手段5の画面に表示される。なお、図9は、後に詳細に説明する表示データ作成処理において、音声認識結果として得られた「電話番号」という語彙を音声波形に重畳させて表示した例を示している。
【0029】
また、ステップST14において、認識結果の算出が行われると、認識結果の出力が行われる(ステップST17)。すなわち、認識結果出力手段13は、音声認識手段12から送られてくる認識語彙を表すデータを音声信号に変換し、音声出力手段4に送る。これにより、音声認識処理によって認識された語彙が音声で出力される。
【0030】
次に、図2のステップST14で行われる表示データ作成処理の詳細を、図3に示すフローチャートを参照しながら説明する。なお、この表示データ作成処理はオプションであり、必ずしも必須ではない。
【0031】
表示データ作成処理では、まず、画像情報の取得が行われる(ステップST21)。すなわち、表示データ作成手段9は、画像格納手段7から画像情報を取得する。ここで取得される、画像情報は、ナビゲーションに使用される地図を表示するための地図データなどである。次いで、閾値情報の取得が行われる(ステップST22)。すなわち、表示データ作成手段9は、設定条件格納手段6から閾値情報を取得する。
【0032】
次いで、入力された音声波形の振幅が閾値を越えているかどうかが調べられる(ステップST23)。ここで、閾値を越えていることが判断されると、音声波形の色情報が変更される(ステップST24)。この際、音声波形の全体の色、または、音声波形のうちの閾値を超えている部分のみの色、または、音声波形のうちの閾値を越えていない部分のみの色を変更するように構成することもできる。上記ステップST23で、入力された音声波形の振幅が閾値を越えていないことが判断されると、ステップST24の処理はスキップされる。
【0033】
なお、ステップST23では、入力された音声波形の振幅が閾値を越えているかどうかを調べるように構成したが、入力された音声波形が閾値を下回っているかどうか、または、複数の閾値に挟まれている範囲に音声波形が収まっているかどうか、換言すれば、閾値情報で規定された基準値を逸脱しているかどうかを調べるように構成することもできる。この場合、ステップST24では、音声波形の全体の色、または、音声波形のうちの閾値情報で規定された基準値を逸脱している部分のみの色、または、音声波形のうち閾値情報で規定された基準値を逸脱していない部分のみの色を、音声信号が所定の基準値を逸脱していない場合の表示色から変更するように構成することができる。
【0034】
次いで、音声波形に閾値のマークを重畳する処理が行われる(ステップST25)。すなわち、表示データ作成手段9は、線や矢印といったマークを描画するための画像データを画像格納手段7から読み出し、音声波形にマークを重畳した表示データを作成して表示データ制御手段10に送る。これにより、図10に示すように、音声波形に、ステップST22で取得された閾値を表す線およびその線の部分に矢印のマークが重畳されて表示される。
【0035】
次いで、音声波形が取得された画像に重畳される(ステップST26)。すなわち、表示データ作成手段9は、ステップST21で取得した画像データに、ステップST25までの処理によって作成した音声波形を重畳した表示データを作成して表示データ制御手段10に送る。これにより、図11に示すように、例えば地図の画像に、音声波形が重畳されて表示される。
【0036】
次いで、認識結果が表示データに重畳される(ステップST27)。すなわち、表示データ作成手段9は、ステップST26までの処理によって作成した音声波形に、メイン処理(図2参照)のステップST14において音声認識手段12から認識結果として得られた語彙を重畳した表示データを作成し、表示データ制御手段10に送る。これにより、図9に示すように、音声認識結果として得られた「電話番号」という語彙が音声波形に重畳されて表示される。
【0037】
以上説明したように、この発明の実施の形態1に係る音声認識装置によれば、誤認識の原因をガイダンスや文字で通知するだけでなく、発話した音声の波形をリアルタイムで表示手段5に表示するように構成したので、ユーザは、波形を見ることにより音量の大小や周囲騒音のレベルを知ることができ、誤認識の原因を直感的に理解できる。従って、ユーザは、音量を変えて発話したり、周囲の騒音を抑える処置を講じた後に発話を行うといった試みができるので、音声認識の発話方法を効率的にマスターできる。その結果、音声の認識率を向上させることができる。
【0038】
例えば、ガイダンスのみで「もう少し小さな声でお話しください」と提示するだけでなく、音声入力手段2から入カされた音声波形を表示することにより、ユーザは「声が大きすぎて波形が歪んでいる」ことがわかり、「もう少し小さく話してみよう」と試みる。また、音声波形には周囲騒音のレベルも表示されるので、ユーザは「今はかなりノイズが大きい」と理解できる。また、窓が開いているという車両情報を取得し、「窓を閉めるとノイズが小さくなります」などと提示すれば、窓を閉めると音声を認識しやすくなるということを知らせることができる。さらに、ユーザは、入カされた音声波形から「音声が騒音に埋もれてしまっている」ことがわかると、「窓を閉めて騒音を小さくして、もう少し大きな声で話してみよう」と試みる。これにより、ユーザは音声認識させるコツをつかむことができるので、音声の認識率を向上させることができる。
【0039】
また、音声波形に音声認識結果の語彙を重畳して表示させるように構成したので、ユーザは、誤認識が発生した原因や、その因果関係を理解できる。例えば、発話した音声波形が大きすぎて歪んでいる場合に、誤認識が発生すると、その誤認識の理由は発話音量が大きすぎたことが原因であると理解できる。このように、ユーザは、どのような音量や環境で発話すると正しく認識するかを理解でき、それに対処しようとするので認識率を向上させることができる。
【0040】
また、音声入力手段2から送られてくる音声波形に、音声認識手段12による音声認識に好適な範囲を表す基準値を示すためのマークを重畳させて表示するように構成したので、音声操作において、発話音量が基準値を超えているのか、または大きく下回っているのかなどがわかりやすい。例えば、これ以上大きな発話だと認識できなくなるという限界や、これ以上小さい発話だと認識できなくなるという限界が基準値として表示されるので、適正な発話音量がわかりやすくなる。
【0041】
また、音声入力手段から送られてくる音声信号が所定の基準値を逸脱している場合に、音声信号の波形の全体または基準値を逸脱している部分または基準値を逸脱していない部分の色を、前記音声信号が所定の基準値を逸脱していない場合の表示色から変更して表示するように構成したので、音声操作において、基準値を超えたか否かがわかりやすくなる。その結果、発話音量が大きすぎる、小さすぎる、または適正な音量であるということが、より理解しやすくなる。
【0042】
さらに、表示させたい画像がある場合に、その画像に波形を重畳させて表示するように構成したので、例えば、カーナビゲーションシステムにおいて、地図上に波形を重ねて表示させることが可能になる。その結果、ユーザは、ナビゲーション機能が阻害されることなく音声波形を見ることができる。
【0043】
実施の形態2.
この発明の実施の形態2に係る音声認識装置は、発話された音声の周波数または変化量に応じて色が変更された音声波形を出力するようにしたものである。
【0044】
この発明の実施の形態2に係る音声認識装置の構成は、図1に示した実施の形態1に係る音声認識装置の構成と同じである。
【0045】
次に、この発明の実施の形態2に係る音声認識装置の動作を、図4に示すフローチャートを参照しながら説明する。この音声認識装置のメイン処理は、図2に示した実施の形態1に係る音声認識装置のメイン処理と同じであり、メイン処理のステップST15で実行される表示データ作成処理の内容のみが実施の形態1に係る音声認識装置と相違する。以下では、相違する表示データ作成処理についてのみ説明する。
【0046】
表示データ作成処理では、まず、色情報の取得が行われる(ステップST31)。すなわち、表示データ作成手段9は、設定条件格納手段6から色情報を取得する。ここで、実施の形態2における色情報は、入力される音声信号の周波数または変化量により応じて変化させるべき色を規定する情報である。
【0047】
次いで、入力された音声信号の周波数算出または変化量算出が行われる(ステップST32)。すなわち、入力信号解析手段8に含まれる周波数算出部(図示しない)は、入力された音声信号の周波数を周知の方法により算出する。または、入力信号解析手段8に含まれる変化量算出部(図示しない)は、入力された音声信号の変化量を周知の方法により算出する。この発明の算出手段は、周波数算出部または変化量算出部によって構成されている。この周波数算出部で算出された周波数を表すデータまたは変化量算出部で算出された変化量を表すデータは、表示データ作成手段9に送られる。
【0048】
次いで、音声波形の色を変更する処理が行われる(ステップST33)。すなわち、表示データ作成手段9は、周波数算出部で算出された周波数を表すデータまたは変化量算出部で算出された変化量を表すデータとステップST31で取得した色情報と照合し、合致する色情報によって指定される色に音声波形を変化させた表示データを作成する。その後、シーケンスはメイン処理に戻る。
【0049】
以上説明したように、この発明の実施の形態2に係る音声認識装置によれば、ユーザは、音声操作を行う場合に、発話した音声の高低を知ることができるので、見た目が楽しいという効果が得られる。
【0050】
実施の形態3.
この発明の実施の形態3に係る音声認識装置は、リアルタイムで表示される音声波形を手動で停止させることができるようにしたものである。
【0051】
この発明の実施の形態3に係る音声認識装置の構成は、図1に示した実施の形態1に係る音声認識装置の構成と同じである。
【0052】
次に、この発明の実施の形態3に係る音声認識装置の動作を、図5に示すフローチャートを参照しながら説明する。図5は、この発明の実施の形態3に係る音声認識装置のメイン処理を示すフローチャートである。この音声認識装置では、まず、ユーザが音声操作を行うための発話を行うと、音声入力が行われる(ステップST41)。すなわち、音声入力手段2は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置1の入力信号解析手段8を構成する音声分析部14に送る。次いで、入力信号変換が行われる(ステップST42)。すなわち、音声分析部14は、音声入力手段2から送られてきたアナログの音声信号を、音声認識処理が可能な形式のデジタル信号に変換し、設定条件判定部15および設定条件付加部16を介して表示データ作成手段9に送る。
【0053】
次いで、キー入力があったかどうかが調べられる(ステップST43)。すなわち、表示データ制御手段10は、手動入力手段3から停止を指示するキー入力信号が送られてきたかどうかを調べる。ここで、キー入力がなかったことが判断されると、次いで、表示データ作成処理が実行される(ステップST44)。この場合、表示データ制御手段10は、キー入力がなかったことを判断すると、表示データ作成手段9で作成された表示データを、そのまま表示データ出力手段11に送るように設定する。このステップST44の処理は、図2のステップST15の処理と同じである。次いで、作成された表示データに基づき表示が行われる(ステップST45)。このステップST45の処理は、図2のステップST16の処理と同じである。その後、シーケンスはステップST43に戻り、上述した処理が繰り返される。
【0054】
このステップST43〜ST45の繰り返し実行の途中で、ステップST43において、キー入力があったことが判断されると、次いで、キー入力時の表示データが取得される(ステップST46)。すなわち、表示データ制御手段10は、キー入力信号が手動入力手段3から送られてきた時点において、表示データ作成手段9から送られてきた表示データを取得し、リアルタイムに行われる更新を停止する。次いで、ステップST46で取得された表示データの表示が行われる(ステップST47)。すなわち、表示データ制御手段10は、取得した表示データを表示データ出力手段11に送る。これにより、静止した音声の波形(リアルタイムで更新されない音声の波形)が表示手段5の画面に表示される。
【0055】
以上説明したように、この発明の実施の形態3に係る音声認識装置によれば、音声操作において、ユーザが手動入力手段3を操作することにより、音声波形を停止させて表示させることができるので、発話している間はリアルタイムで変化する音声波形を見るより見やすくなる。
【0056】
実施の形態4.
この発明の実施の形態4に係る音声認識装置は、リアルタイムで表示される音声波形を音声が入力されてから所定時間後に停止させることができるようにしたものである。
【0057】
この発明の実施の形態4に係る音声認識装置の構成は、図1に示した実施の形態1に係る音声認識装置の構成と同じである。
【0058】
次に、この発明の実施の形態4に係る音声認識装置の動作を、図6に示すフローチャートを参照しながら説明する。図6は、この発明の実施の形態4に係る音声認識装置のメイン処理を示すフローチャートである。この音声認識装置では、まず、ユーザが音声操作を行うための発話を行うと、音声入力が行われ(ステップST51)、次いで、入力信号変換が行われる(ステップST52)。これらステップST51およびST52の処理は、図5に示したステップST41およびST42の処理とそれぞれ同じである。
【0059】
次いで、設定時間情報が取得される(ステップST53)。すなわち、表示データ作成手段9は、設定条件格納手段6から設定時間情報Tを取得する。ここで、設定時間情報Tは、発話開始から波形を停止させるまでの時間を規定する情報である。次いで、設定時間情報Tがゼロであるかどうかが調べられる(ステップST54)。そして、設定時間情報Tがゼロでないことが判断されると、設定時間情報Tがa(aは任意の正の値)だけ減算される(ステップST55)。これらステップST54およびST55の処理は、表示データ制御手段10によって行われる。
【0060】
次いで、表示データ作成処理が実行される(ステップST56)。この場合、表示データ制御手段10は、設定時間情報Tがゼロでなかったことを判断すると、表示データ作成手段9で作成された表示データを、そのまま表示データ出力手段11に送るように設定する。このステップST56の処理は、図2のステップST15の処理と同じである。次いで、作成された表示データに基づき表示が行われる(ステップST57)。このステップST57の処理は、図2のステップST16の処理と同じである。その後、シーケンスはステップST54に戻り、上述したステップST54〜ST57の処理が繰り返される。この発明の計時手段は、ステップST54〜ST57の処理により実現されている。
【0061】
これらステップST54〜ST57の処理の繰り返し実行の途中で、ステップST54において、設定時間情報Tがゼロになったことが判断されると、次いで、設定時間情報Tがゼロになった時の表示データが取得される(ステップST58)。すなわち、表示データ制御手段10は、設定時間情報Tがゼロになったことを判断した時点において、表示データ作成手段9から送られてきた表示データを取得し、リアルタイムに行われる更新を停止する。次いで、ステップST58で取得された表示データの表示が行われる(ステップST59)。すなわち、表示データ制御手段10は、取得した表示データを表示データ出力手段11に送る。これにより、静止した音声の波形(リアルタイムで更新されない音声の波形)が表示手段5の画面に表示される。
【0062】
以上説明したように、この発明の実施の形態4に係る音声認識装置によれば、音声操作において、ユーザが発話してから所定時間経過後に音声波形を停止させて表示させることができるので、発話している間はリアルタイムで変化する音声波形を見るよりは見やすくなる。
【0063】
実施の形態5.
この発明の実施の形態5に係る音声認識装置は、表示画面を分割して一方に画像を他方に音声波形を表示させるようにしたものである。
【0064】
この発明の実施の形態5に係る音声認識装置の構成は、図1に示した実施の形態1に係る音声認識装置の構成と同じである。
【0065】
次に、この発明の実施の形態5に係る音声認識装置の動作を、図7に示すフローチャートを参照しながら説明する。この音声認識装置のメイン処理は、図2に示した実施の形態1に係る音声認識装置のメイン処理と同じであり、メイン処理のステップST15で実行される表示データ作成処理の内容のみが実施の形態1に係る音声認識装置と相違する。以下では、相違する表示データ作成処理についてのみ説明する。
【0066】
表示データ作成処理では、まず、画像情報の取得が行われる(ステップST61)。すなわち、表示データ作成手段9は、画像格納手段7から画像情報を取得する。ここでは、画像情報は、地図データであるものとする。次いで、画面の表示領域の分割が行われる(ステップST62)。すなわち、表示データ作成手段9は、表示データを一時格納するための表示領域(図示は省略する)を2個に分割する。次いで、各表示領域の表示データが作成される(ステップST63)。すなわち、表示データ作成手段9は、2個に分割された表示領域の一方にステップST61で取得した画像情報(地図データ)を格納し、他方に音声波形を格納して表示データを作成する。その後、シーケンスはメイン処理に戻る。以上のようにして表示データが作成されることにより、例えば図12に示すように、2分割された表示手段5の画面の一方(左画面)に地図が表示され、他方(右画面)に音声波形が表示される。
【0067】
以上説明したように、この発明の実施の形態5に係る音声認識装置によれば、表示させたい画像と波形とを別の画面上の領域に表示するように構成したので、画像と波形が重なることがなく、見やすいという利点がある。
【0068】
なお、上述した実施の形態5では、画面を2分割する場合について説明したが、画面の分割数は任意であり、また、画像および波形を表示させる表示領域も任意に選ぶことができる。
【図面の簡単な説明】
【0069】
【図1】この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。
【図2】この発明の実施の形態1に係る音声認識装置のメイン処理を示すフローチャートである。
【図3】この発明の実施の形態1に係る音声認識装置で実行される表示データ作成処理の詳細を示すフローチャートである。
【図4】この発明の実施の形態2に係る音声認識装置で実行される表示データ作成処理の詳細を示すフローチャートである。
【図5】この発明の実施の形態3に係る音声認識装置のメイン処理を示すフローチャートである。
【図6】この発明の実施の形態4に係る音声認識装置のメイン処理を示すフローチャートである。
【図7】この発明の実施の形態5に係る音声認識装置で実行される表示データ作成処理の詳細を示すフローチャートである。
【図8】この発明の実施の形態1に係る音声認識装置において音声波形が表示された例を示す図である。
【図9】この発明の実施の形態1に係る音声認識装置において音声波形に認識結果を表す語彙が重畳されて表示された例を示す図である。
【図10】この発明の実施の形態1に係る音声認識装置において音声波形にマークが重畳されて表示された例を示す図である。
【図11】この発明の実施の形態1に係る音声認識装置において地図に音声波形が重畳されて表示された例を示す図である。
【図12】この発明の実施の形態5に係る音声認識装置において音声波形と地図とが分割された画面に表示された例を示す図である。
【符号の説明】
【0070】
1 音声認識処理装置、2 音声入力手段、3 手動入力手段、4 音声出力手段、5 表示手段、6 設定条件格納手段、7 画像格納手段8 入力信号解析手段、9 表示データ作成手段、10 表示データ制御手段、11 表示データ出力手段、12 音声認識手段、13 認識結果出力手段、14 音声分析部、15 設定条件判定部、16 設定条件付加部、17 音声区間検出部、18 特徴パターン記憶部、19 認識計算部。
【特許請求の範囲】
【請求項1】
発話された音声を入力して音声信号を生成する音声入力手段と、
前記音声入力手段から送られてくる音声信号に基づいて音声認識を行う音声認識手段と、
前記音声入力手段から送られてくる音声信号の波形を表す表示データをリアルタイムで作成する表示データ作成手段と、
前記表示データ作成手段から送られてくる表示データに基づき表示を行う表示手段
とを備えた音声認識装置。
【請求項2】
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形に、音声認識手段で認識された語彙を重畳させた表示データを生成することを特徴とする請求項1記載の音声認識装置。
【請求項3】
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形に、音声認識手段による音声認識に好適な範囲を表す基準値を示すためのマークを重畳させた表示データをリアルタイムで作成することを特徴とする請求項1記載の音声認識装置。
【請求項4】
表示データ作成手段は、音声入力手段から送られてくる音声信号が所定の基準値を逸脱している場合に、該音声信号の波形の全体または基準値を逸脱している部分または基準値を逸脱していない部分の色を、前記音声信号が所定の基準値を逸脱していない場合の表示色から変更した表示データをリアルタイムで作成することを特徴とする請求項1記載の音声認識装置。
【請求項5】
音声入力手段から送られてくる音声信号の周波数または変化量を算出する算出手段を備え、
表示データ作成手段は、前記算出手段で算出された音声信号の周波数または変化量に応じて該音声信号の波形の色を変化させた表示データをリアルタイムで作成することを特徴とする請求項1記載の音声認識装置。
【請求項6】
手動操作により入力を行う手動入力手段と、
前記手段入力手段からの入力に応答して、表示データ作成手段においてリアルタイムで作成された表示データを表示手段に送ることを停止させる表示データ制御手段
とを備えたことを特徴とする請求項1記載の音声認識装置。
【請求項7】
音声入力手段に音声が入力されてからの経過時間を計時する計時手段と、
前記計時手段で所定時間が計時されたことに応答して、表示データ作成手段においてリアルタイムで作成された表示データを表示手段に送ることを停止させる表示データ制御手段
とを備えたことを特徴とする請求項1記載の音声認識装置。
【請求項8】
画像情報を格納する画像格納手段を備え、
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形を、前記画像格納手段から取得した画像情報に重畳させた表示データをリアルタイムで作成することを特徴とする請求項1記載の音声認識装置。
【請求項9】
画像情報を格納する画像格納手段を備え、
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形を表示手段の画面の一部に、前記画像格納手段から取得した画像情報に基づく画像を前記表示手段の他の一部に表示させる表示データをリアルタイムで作成することを特徴とする請求項1記載の音声認識装置。
【請求項1】
発話された音声を入力して音声信号を生成する音声入力手段と、
前記音声入力手段から送られてくる音声信号に基づいて音声認識を行う音声認識手段と、
前記音声入力手段から送られてくる音声信号の波形を表す表示データをリアルタイムで作成する表示データ作成手段と、
前記表示データ作成手段から送られてくる表示データに基づき表示を行う表示手段
とを備えた音声認識装置。
【請求項2】
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形に、音声認識手段で認識された語彙を重畳させた表示データを生成することを特徴とする請求項1記載の音声認識装置。
【請求項3】
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形に、音声認識手段による音声認識に好適な範囲を表す基準値を示すためのマークを重畳させた表示データをリアルタイムで作成することを特徴とする請求項1記載の音声認識装置。
【請求項4】
表示データ作成手段は、音声入力手段から送られてくる音声信号が所定の基準値を逸脱している場合に、該音声信号の波形の全体または基準値を逸脱している部分または基準値を逸脱していない部分の色を、前記音声信号が所定の基準値を逸脱していない場合の表示色から変更した表示データをリアルタイムで作成することを特徴とする請求項1記載の音声認識装置。
【請求項5】
音声入力手段から送られてくる音声信号の周波数または変化量を算出する算出手段を備え、
表示データ作成手段は、前記算出手段で算出された音声信号の周波数または変化量に応じて該音声信号の波形の色を変化させた表示データをリアルタイムで作成することを特徴とする請求項1記載の音声認識装置。
【請求項6】
手動操作により入力を行う手動入力手段と、
前記手段入力手段からの入力に応答して、表示データ作成手段においてリアルタイムで作成された表示データを表示手段に送ることを停止させる表示データ制御手段
とを備えたことを特徴とする請求項1記載の音声認識装置。
【請求項7】
音声入力手段に音声が入力されてからの経過時間を計時する計時手段と、
前記計時手段で所定時間が計時されたことに応答して、表示データ作成手段においてリアルタイムで作成された表示データを表示手段に送ることを停止させる表示データ制御手段
とを備えたことを特徴とする請求項1記載の音声認識装置。
【請求項8】
画像情報を格納する画像格納手段を備え、
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形を、前記画像格納手段から取得した画像情報に重畳させた表示データをリアルタイムで作成することを特徴とする請求項1記載の音声認識装置。
【請求項9】
画像情報を格納する画像格納手段を備え、
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形を表示手段の画面の一部に、前記画像格納手段から取得した画像情報に基づく画像を前記表示手段の他の一部に表示させる表示データをリアルタイムで作成することを特徴とする請求項1記載の音声認識装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2006−163227(P2006−163227A)
【公開日】平成18年6月22日(2006.6.22)
【国際特許分類】
【出願番号】特願2004−357756(P2004−357756)
【出願日】平成16年12月10日(2004.12.10)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】
【公開日】平成18年6月22日(2006.6.22)
【国際特許分類】
【出願日】平成16年12月10日(2004.12.10)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】
[ Back to top ]