音声認識装置及び音声認識方法
【課題】本発明は、従来と比して簡易な操作で、かつ音声認識率を上げながら使い勝手を向上する。
【解決手段】本発明は、モニター3に表示した初期メニュー画面MW1上のメニューアイコンMIの中からロータリコマンダ4の回転操作子21を介して例えば場所アイコンMI1が選択されたことを認識したときから、場所アイコンMI1に関連した単語及び単語列からなる複数の言語モデルが登録された場所辞書14AをRAM13上に読み出し、場所アイコンMI1を認識したとき以降、当該認識している間だけ音声を入力し、その音声信号と、RAM13上に読み出した言語モデルとを比較し、当該音声信号と最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果に対応した目的地検索処理を行うことでき、かくして簡易な操作で、かつ音声認識率を上げながら使い勝手を向上することができる。
【解決手段】本発明は、モニター3に表示した初期メニュー画面MW1上のメニューアイコンMIの中からロータリコマンダ4の回転操作子21を介して例えば場所アイコンMI1が選択されたことを認識したときから、場所アイコンMI1に関連した単語及び単語列からなる複数の言語モデルが登録された場所辞書14AをRAM13上に読み出し、場所アイコンMI1を認識したとき以降、当該認識している間だけ音声を入力し、その音声信号と、RAM13上に読み出した言語モデルとを比較し、当該音声信号と最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果に対応した目的地検索処理を行うことでき、かくして簡易な操作で、かつ音声認識率を上げながら使い勝手を向上することができる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置及び音声認識方法に関し、例えば車両に搭載されるナビゲーション装置(以下、これをカーナビゲーション装置と呼ぶ。)に適用して好適なものである。
【背景技術】
【0002】
従来、カーナビゲーション装置においては、ユーザにより発話された音声をマイクによって集音し、その音声を認識する音声認識装置が備えられたものがある。
【0003】
このようなカーナビゲーション装置のなかには、複数の単語又は単語列を音声認識した場合、当該複数の単語又は単語列をキーワード候補としてタッチ操作可能なモニターにそれぞれ表示し、当該キーワード候補をそれぞれユーザにタッチ操作させ、検索条件、除外条件、或いは排他条件等を設定させ、その条件で例えば目的地を検索するようになされたものがある(例えば、特許文献1参照)。
【0004】
またカーナビゲーション装置のなかには、例えば「レストラン」のリストをモニターに表示している場合、「レストラン」の単語及び単語列だけを対象とした「レストラン」辞書を用い、その「レストラン」辞書に格納された単語及び単語列だけを音声認識の比較対象とするものがある(例えば、特許文献2参照)。
【0005】
すなわち、カーナビゲーション装置は、モニターに表示している状態を認識し、認識した状態に関連する単語及び単語列を抽出することにより辞書として設定し、当該辞書に登録された単語及び単語列だけを音声認識の比較対象とすることにより、比較対象となる単語及び単語列の数を減らすことができるので、認識率の高い音声認識を実現するようになされたものがある。
【特許文献1】特開2006−95576公報
【特許文献2】特開2000−20086公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
ところで上述した特許文献1に記載のカーナビゲーション装置においては、キーワード候補を検索条件、除外条件、或いは排他条件のいずれかに設定するようになされているため、ユーザに対して複数回のタッチ操作を行わせざるを得ず、煩雑な操作を強いるという問題があった。
【0007】
また実際上、カーナビゲーション装置は、メニューを階層型に構成するようになされている。そのため、上述した特許文献2に記載のカーナビゲーション装置においては、メニュー画面を上位階層から下位階層まで移行させる際、ユーザに対して複数回の操作を行わせざるを得ず、煩雑な操作を強いるという問題があった。
【0008】
本発明は以上の点を考慮してなされたもので、従来と比して簡易な操作で、かつ音声認識率を上げながら使い勝手を向上し得る音声認識装置及び音声認識方法を提案しようとするものである。
【課題を解決するための手段】
【0009】
かかる課題を解決するため本発明の音声認識装置においては、表示手段に対して表示した階層型メニューでなる初期メニュー画面上の複数の項目の中から所定の操作手段を介してユーザにより選択された任意の選択項目を認識する選択項目認識手段と、複数の項目の内容にそれぞれ関連した単語及び単語列からなる複数の言語モデルが登録されている項目別辞書を複数種類記憶する記憶手段と、選択項目認識手段により選択項目を認識したとき、選択項目に対応した項目別辞書に登録されている言語モデルを記憶手段から読み出す辞書読出手段と、選択項目認識手段により選択項目を認識した時点から、認識している間だけユーザの音声を入力し、その音声信号と、辞書読出手段により読み出した言語モデルとを比較し、音声信号と最も一致度の高い言語モデルに対応した単語又は単語列を認識結果して供給する音声認識手段とを設けるようにした。
【0010】
これにより、階層型メニューでなる初期メニュー画面上の任意の項目をユーザ選択させるだけの操作により、その選択項目に対応した項目別辞書を読み出し、比較対象となる言語モデルを予め減らした状態で比較することになり、音声認識率を上げることができる。
【0011】
また本発明の音声認識方法においては、表示手段に対して表示した階層型メニューでなる初期メニュー画面上の複数の項目の中から所定の操作手段を介してユーザにより選択された任意の選択項目を認識する選択項目認識ステップと、選択項目認識ステップにより選択項目を認識したときから、複数の項目の内容にそれぞれ関連した単語及び単語列からなる複数の言語モデルが登録されている項目別辞書を複数種類記憶する記憶手段から、選択項目に対応した項目別辞書に登録されている言語モデルを読み出す辞書読出ステップと、選択項目認識ステップにより選択項目を認識した時点以降、当該認識している間だけユーザの音声を入力し、その音声信号と、辞書読出ステップにより読み出した言語モデルとを比較し、音声信号と最も一致度の高い言語モデルに対応した単語又は単語列を認識結果して供給する音声認識ステップとを設けるようにした。
【0012】
これにより、階層型メニューでなる初期メニュー画面上の任意の項目をユーザ選択させるだけの操作により、その選択項目に対応した項目別辞書を読み出し、比較対象となる言語モデルを予め減らした状態で比較することになり、音声認識率を上げることができる。
【発明の効果】
【0013】
本発明によれば、階層型メニューでなる初期メニュー画面上の任意の項目をユーザ選択させるだけの少ない操作により、その選択項目に対応した項目別辞書を読み出し、比較対象となる言語モデルを予め減らした状態で比較することになり、音声認識率を上げることができ、従来と比して簡易な操作で、かつ音声認識率を上げながら使い勝手を向上し得る音声認識装置及び音声認識方法を実現できる。
【発明を実施するための最良の形態】
【0014】
以下に、図面について、本発明の一実施の形態を詳述する。
【0015】
(1)カーナビゲーション装置の全体構成
図1において、1は全体として本発明における音声認識装置を搭載したカーナビゲーション装置を示し、自動車10に取り付けられた本体部2、LCD(Liquid Crystal Display)等からなるモニター3、ユーザに操作させるためのロータリコマンダ4(詳しくは後述する)、マイク5及びスピーカ6等により構成されている。
【0016】
カーナビゲーション装置1は、本体部2に内蔵されたROM(Read Only Memory)やHDD(Hard Disk Drive)等に格納されている地図データに応じた地図画像等をモニター3に対して表示し得るようになされている。
【0017】
またカーナビゲーション装置1は、ユーザにより発話された音声をマイク5によって集音し、音声認識するようになされており、当該音声認識することにより得られた認識結果に対応する目的地検索処理、地図操作処理及びAV(Audio Visual)操作処理等の各種処理を行うようになされている。
【0018】
さらにカーナビゲーション装置1は、本体部2に内蔵されたROMやHDD等に格納されている音楽データ等を再生することにより、その再生音をスピーカ6から出力し得るようになされている。
【0019】
また図2に示すように、カーナビゲーション装置1は、運転席8と助手席(図示せず)との間に設けられたシフトレバー9の近くにロータリコマンダ4を載置するようになされている。従って、カーナビゲーション装置1では、ユーザが自動車10を運転している場合、ユーザに対して片方の手によりハンドル7を握らせたまま、もう片方の手によりロータリコマンダ4を操作させることができるので、ユーザの姿勢をほとんど変えさせることなくロータリコマンダ4を操作させ得るようになされている。
【0020】
因みにカーナビゲーション装置1においては、本体部2及びモニター3が別々に構成されるような場合について述べたが、本体部2及びモニター3が一体型に構成されるようにしても良い。
【0021】
(2)ロータリコマンダの構成
図3に示すように、ロータリコマンダ4は、略円柱形状でなり、回転操作子21と、決定ボタン31、左ボタン32、上ボタン33、右ボタン34及び下ボタン35からなる操作ボタン群23とによって構成されている。
【0022】
ロータリコマンダ4は、その回転操作子21を、ロータリコマンダ4自身の中心を通る軸を回転軸として左右一定の範囲に回転操作させ得るようになされており、何ら力が加えられていない状態において、基準位置に復帰させるようになされている。すなわちロータリコマンダ4は、回転操作子21がユーザによって回転操作された後、ユーザの手が離されると回転操作子21を基準位置に復帰させるようになされている。
【0023】
このようにカーナビゲーション装置1は、ユーザが自動車10を運転中であっても、ロータリコマンダ4の回転操作子21をユーザに対して手探りの状態で操作させ得るようになされている。
【0024】
因みにカーナビゲーション装置1は、ロータリコマンダ4の操作ボタン群23が押下操作された場合、後述する音声認識処理以外にも階層型でなるメニューを操作させ得るようになされている。
【0025】
(3)カーナビゲーション装置の回路構成
図4に示すように、カーナビゲーション装置1は、CPU(Central Processing Unit)11がROM12又はHDD14から読み出した基本プログラム及び各種アプリケーションプログラムをRAM(Random Access Memory)13上で起動し、当該基本プログラム及び各種アプリケーションプログラムに従って全体を統括制御することにより、通常のナビゲーション処理や、音声認識処理等を実現するようになされている。
【0026】
カーナビゲーション装置1は、GPS(Global Positioning System)衛星からの電波をGPSアンテナ15A及びGPSユニット15によって受信することにより、緯度、経度及び高度等からなるGPS情報を常時算出するようになされており、その結果得られたGPS情報をCPU11へ供給するようになされている。
【0027】
このときカーナビゲーション装置1のCPU11は、GPSユニット15から供給されたGPS情報とHDD14に記憶されている地図データを比較することにより、現時点で自動車10(図1)が存在する位置(以下、これを現在地と呼ぶ。)を含む所定範囲の地図データを読み出し、その地図データに応じて自動車10の現在地とその周辺とを表す所定倍率の地図画像をモニター3に表示するようになされている。
【0028】
またカーナビゲーション装置1のCPU11は、目的地が任意に選択された場合、自動車10の現在地から当該目的地までの到達経路等を探索し、その到達経路を表した地図画像をモニター3に表示し得るようになされている。
【0029】
このときカーナビゲーション装置1のCPU11は、到達経路を表した地図画像をモニター3に表示すると共に、自動車10が到達経路に従って目的地まで走行する間、ユーザの運転を誘導及び補助するための音声情報を生成し、そのナビゲート音声を音声処理部17を介してスピーカ6から出力するようになされている。
【0030】
またカーナビゲーション装置1のCPU11は、HDD14に格納された音楽データを読み出し、当該音楽データに対してAV処理部16により所定の信号処理を施した後、その音声信号に基づく音声を音声処理部17を介して所定レベルに増幅し、スピーカ6から出力するようになされている。
【0031】
さらにカーナビゲーション装置1のCPU11は、図示しないDVD(Digital Versatile Disc)ドライブを介してDVDの映像データ及び音声データを読み出し、当該映像データ及び当該音声データに対してAV処理部16により所定の信号処理を施した後、映像信号に基づく映像をモニター3に表示すると共に、音声信号に基づく音声を音声処理部17を介して所定レベルに増幅した後、スピーカ6から出力するようになされている。
【0032】
ところでロータリコマンダ4の回転検出部22は、回転操作子21が基準位置から回転操作されたことを検出すると、CPU11へ開始信号を供給する。また回転検出部22は、回転操作子21が基準位置から回転される角度を検出しており、当該回転操作子21が所定角度回転される毎にCPU11へ検出信号を供給するようになされている。
【0033】
カーナビゲーション装置1のCPU11は、回転操作子21が回転操作され、回転検出部22から開始信号を受信すると、初期メニュー画面MW1(図6(A))をモニター3に表示する。その後、カーナビゲーション装置1のCPU11は、回転検出部22から供給された検出信号を受信すると、その検出信号に応じたユーザ所望のメニューアイコンMIが選択されたことを認識する。そしてカーナビゲーション装置1のCPU11は、ユーザ所望のメニューアイコンMIが選択されたことを認識したとき以降、音声認識部18に対して音声認識させるようになされている。
【0034】
このときカーナビゲーション装置1のCPU11は、ユーザの発話された音声をマイク5によって集音させ、その結果得られた音声信号を音声認識部18に対して認識させることにより認識結果を得るようになされている。このときカーナビゲーション装置1のCPU11は、この認識結果に対応する目的地検索処理、地図操作処理及びAV操作処理等の各種処理を行うようになされている。
【0035】
因みにカーナビゲーション装置1のCPU11は、ロータリコマンダ4の操作ボタン群23に対するユーザ操作に応じて目的地検索処理、地図操作処理及びAV操作処理等の各種処理を実行し得るようになされている。
【0036】
ところでカーナビゲーション装置1のHDD14には、複数の言語モデルが格納されている。この言語モデルは、音素や音節等を組み合わせることにより、音声認識の比較対象となる単語や単語列を構成したものである。
【0037】
図5に示すように、カーナビゲーション装置1のHDD14は、初期メニュー画面MW1(図6(A)及び(B))に表示されたメニュー項目である場所アイコンMI1、地図アイコンMI2、AVアイコンMI3、電話アイコンMI4、WebアイコンMI5及び質問アイコンMI6にそれぞれ関連した複数の言語モデルが登録された場所辞書14A、地図辞書14B、AV辞書14C、電話辞書14D、Web辞書14E及び質問辞書14Fを有している。
【0038】
すなわちカーナビゲーション装置1では、HDD14に対して、例えば「東京都」及び「東京ディズニーランド」等の地名や施設等の目的地を検索するための言語モデルが登録された場所辞書14A、「拡大」、「縮小」及び「目的地表示」等の地図画像の表示設定を変更するための言語モデルが登録された地図辞書14B、「曲送り」、「DVD再生」及び「リピート」等のAV操作を行うための言語モデルが登録されたAV辞書14C、人名や電話番号等の電話帳及び「電話を掛ける」等の電話操作を行うための言語モデルが登録された電話辞書14D、URLやキーワード等によりサーバに接続するための言語モデルが登録されたWeb辞書14E、及び「目的地検索方法」及び「DVD再生方法」等のカーナビゲーション装置1の使い方やエラー対処方法等を質問するための言語モデルが登録された質問辞書14Fが格納されている。
【0039】
(4)音声認識処理
図6(A)に示すように、カーナビゲーション装置1のCPU11は、回転操作子21が回転操作されたことにより回転検出部22から開始信号を受信すると、初期メニュー画面MW1をモニター3に表示するようになされている。このときカーナビゲーション装置1のCPU11は、初期メニュー画面MW1のメニューアイコンMIが何れも選択されていない状態であり、全ての当該メニューアイコンMIを例えば黄色に表示するようになされている。
【0040】
そして図6(B)に示すように、カーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が基準位置から例えば右方向に回転操作され、所定角度回転される毎に回転検出部22から供給される検出信号を受信すると、初期メニュー画面MW1の場所アイコンMI1を例えば橙色に表示し、当該場所アイコンMI1が選択されていることをユーザに対して目視確認させ得るようになされている。
【0041】
またカーナビゲーション装置1のCPU11は、回転操作子21が右方向にさらに回転操作され、回転検出部22から検出信号を再度受信すると、地図アイコンMI2を橙色に表示するようになされている。このようにしてカーナビゲーション装置1のCPU11は、回転操作子21が右方向に回転操作され、回転検出部22から検出信号を受信する毎に、メニューアイコンMIの橙色に表示するアイコンを順に上から下へ移動させるようになされている。
【0042】
なおカーナビゲーション装置1のCPU11は、回転操作子21が基準位置から左方向に回転された場合も右方向に回転された場合と同様に、回転操作子21が左方向に回転操作されたことにより回転検出部22から開始信号を受信すると初期メニュー画面MW1をモニター3に表示し、回転検出部22から検出信号を受信する毎に、メニューアイコンMIの橙色に表示するアイコンを順に上から下へ移動させるようになされている。
【0043】
またカーナビゲーション装置1のCPU11は、例えば回転操作子21が右方向に回転操作されたことにより初期メニュー画面MW1の地図アイコンMI2を橙色に表示した状態で、当該回転操作子21が左方向に回転操作され、回転検出部22から検出信号を受信すると、場所アイコンMI1を橙色に表示するようになされている。すなわち、カーナビゲーション装置1のCPU11は、回転操作子21が右方向に回転操作された後、当該回転操作子21が左方向に回転操作されることにより回転検出部22から検出信号を受信する毎にメニューアイコンMIの橙色に表示するアイコンを順に下から上へ移動させるようになされている。
【0044】
さらにカーナビゲーション装置1のCPU11は、例えば回転操作子21が左方向に回転操作された後、当該回転操作子21が右方向に回転操作されることにより回転検出部22から検出信号を受信する毎にメニューアイコンMIの橙色に表示するアイコンを順に下から上へ移動させるようになされている。
【0045】
なおカーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が回転操作されることによりモニター3に初期メニュー画面MW1を表示した後、音声認識せずに当該回転操作子21が基準位置に復帰したことを認識すると、当該回転操作子21が操作される前に表示していた画面をモニター3に対して表示するようになされている。
【0046】
因みにカーナビゲーション装置1のCPU11は、初期メニュー画面MW1のメニューアイコンMIの何れかが選択された場合、黄色から橙色に変えて表示するようにした場合について述べたが、メニューアイコンMIをどのような色に表示しても良いし、選択されたメニューアイコンMI自体を点滅表示するようにしても良い。
【0047】
ところでカーナビゲーション装置1のCPU11は、例えば場所アイコンMI1が選択されたことを認識すると、当該場所アイコンMI1に対応する場所辞書14Aに登録された言語モデルをRAM13上に読み出し、マイク5から供給された音声信号と直ちに比較可能な状態にするようになされている。
【0048】
またカーナビゲーション装置1のCPU11は、場所辞書14Aに登録された言語モデルをRAM13上に読み出し終えた時点から、マイク5による音声入力を受け付けるようになされている。
【0049】
このときカーナビゲーション装置1のCPU11は、回転検出部22から新たな検出信号が供給されていない間、すなわち場所アイコンMI1が選択され続けている間だけ、マイク5による音声入力を受け付けるようになされている。
【0050】
そしてカーナビゲーション装置1のCPU11は、ユーザの発話した音声をマイク5によって集音させ、その結果得られた音声信号を音声認識部18へ供給するようになされている。
【0051】
カーナビゲーション装置1の音声認識部18は、マイク5から供給された音声信号とRAM13上に読み出された言語モデルとを比較し、最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給するようになされている。
【0052】
このときカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果に対応する目的地検索処理を行うようになされており、例えば認識結果である地名を目的地としてモニター3の地図画像上に表示するようになされている。
【0053】
これによりカーナビゲーション装置1のCPU11は、ユーザに対してロータリコマンダ4の回転操作子21を回転操作させることにより初期メニュー画面MW1の場所アイコンMI1を選択し、ユーザに目的地を発話させるだけの簡易な作業により、その目的地をモニター3の地図画像上に表示し得るようになされている。
【0054】
因みにカーナビゲーション装置1の音声認識部18は、マイク5から供給された音声信号とRAM13上に読み出された言語モデルとを比較する際、一致度に一定の基準値を設けており、すべての言語モデルが基準値未満の一致度であった場合、認識結果を得ることなく、基準値以上の一致度となる認識結果を得るまで音声認識処理を継続し続けるようになされている。
【0055】
なおカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の地図アイコンMI2、AVアイコンMI3、電話アイコンMI4、WebアイコンMI5及び質問アイコンMI6が選択された場合も同様に、それぞれ地図辞書14B、AV辞書14C、電話辞書14D、Web辞書14E及び質問辞書14Fに登録された言語モデルをRAM13上に読み出すようになされている。
【0056】
その後、カーナビゲーション装置1のCPU11は、マイク5から供給された音声信号と、RAM13上に読み出した言語モデルとを音声認識部18に比較させることにより認識結果を得、その認識結果に対応する地図操作処理、AV操作処理、電話操作処理、サーバ接続処理及び質問回答処理等を行うようになされている。
【0057】
(5)音声認識処理手順
図7及びこれに続く図8に示すように、カーナビゲーション装置1のCPU11は、ルーチンRT1の開始ステップから入って次のステップSP1へ移り、ロータリコマンダ4の回転操作子21が回転操作されたことにより回転検出部22から開始信号が供給されたか否かを判断する。ここで否定結果が得られると、カーナビゲーション装置1のCPU11は、回転操作子21が操作され、回転検出部22から開始信号が供給されるまで待ち受けるのに対し、肯定結果が得られると、モニター3に初期メニュー画面MW1を表示して次のステップSP2へ移る。
【0058】
ステップSP2においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の場所アイコンMI1が選択されたか否かを判断し、肯定結果が得られると次のステップSP3へ移る。
【0059】
ステップSP3においてカーナビゲーション装置1のCPU11は、HDD14の場所辞書14A(図5)に登録された複数の言語モデルをRAM13上に読み出し、次のステップSP4へ移る。
【0060】
ステップSP4においてカーナビゲーション装置1のCPU11は、場所アイコンMI1が選択され続けているか否か、すなわち場所アイコンMI1が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP5へ移る。
【0061】
これに対してステップSP4において否定結果が得られると、このことは場所アイコンMI1が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでに場所アイコンMI1が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38(図8)へ移って処理を終了する。
【0062】
ステップSP5においてカーナビゲーション装置1のCPU11は、マイク5による音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP6へ移る。
【0063】
ステップSP6においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から入力された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、このときカーナビゲーション装置1のCPU11は、当該認識結果を受信し、次のステップSP7へ移る。
【0064】
これに対しステップSP6において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給していないことを表しており、このときカーナビゲーション装置1のCPU11はステップSP5に戻って上述の処理を繰り返す。
【0065】
ステップSP7においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、その認識結果から得られた地名を目的地としてモニター3の地図画像上に表示することにより、当該認識結果に対応する目的地検索処理を行い、次のステップSP38へ移って処理を終了する。
【0066】
これに対してステップSP2で否定結果が得られると、このことは初期メニュー画面MW1の場所アイコンMI1が選択されていないことを表しており、カーナビゲーション装置1のCPU11は、次のステップSP8へ移る。
【0067】
ステップSP8においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の地図アイコンMI2が選択されたか否かを判断し、肯定結果が得られると次のステップSP9へ移る。
【0068】
ステップSP9においてカーナビゲーション装置1のCPU11は、HDD14の地図辞書14B(図5)に登録された複数の言語モデルをRAM13上に読み出し、次のステップSP10へ移る。
【0069】
ステップSP10においてカーナビゲーション装置1のCPU11は、地図アイコンMI2が選択され続けているか否か、すなわち地図アイコンMI2が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP11へ移る。
【0070】
これに対してステップSP10において否定結果が得られると、このことは地図アイコンMI2が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでに地図アイコンMI2が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38(図8)へ移って処理を終了する。
【0071】
ステップSP11においてカーナビゲーション装置1のCPU11は、マイク5による音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP12へ移る。
【0072】
ステップSP12においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、このときカーナビゲーション装置1のCPU11は、当該認識結果を受信し、次のステップSP13へ移る。
【0073】
これに対してステップSP12において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給しなかったことを表しており、カーナビゲーション装置1のCPU11は、ステップSP11に戻って上述の処理を繰り返す。
【0074】
ステップSP13においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、認識結果から得られた例えば「拡大」のコマンドに対応してモニター3に表示されていた地図画像を拡大表示するという、当該認識結果に対応する地図操作処理を行い、次のステップSP38(図8)へ移って処理を終了する。
【0075】
これに対してステップSP8で否定結果が得られると、このことは初期メニュー画面MW1の地図アイコンMI2が選択されていないことを表しており、カーナビゲーション装置1のCPU11は、次のステップSP14へ移る。
【0076】
ステップSP14においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1のAVアイコンMI3が選択されたか否かを判断し、肯定結果が得られると次のステップSP15へ移る。
【0077】
ステップSP15においてカーナビゲーション装置1のCPU11は、HDD14のAV辞書14C(図5)に登録された複数の言語モデルをRAM13上に読み出し、次のステップSP16へ移る。
【0078】
ステップSP16においてカーナビゲーション装置1のCPU11は、AVアイコンMI3が選択され続けているか否か、すなわちAVアイコンMI3が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP17へ移る。
【0079】
これに対してステップSP16において否定結果が得られると、このことはAVアイコンMI3が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでにAVアイコンMI3が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38(図8)へ移って処理を終了する。
【0080】
ステップSP17においてカーナビゲーション装置1のCPU11は、マイク5から音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP18へ移る。
【0081】
ステップSP18においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、カーナビゲーション装置1のCPU11は、当該認識結果を受信し、次のステップSP19へ移る。
【0082】
これに対してステップSP18において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給しなかったことを表しており、カーナビゲーション装置1のCPU11は、ステップSP17に戻って上述の処理を繰り返す。
【0083】
ステップSP19においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、認識結果から得られた例えば「DVD再生」のコマンドに対応してDVDを読み出し、その結果得られた映像をモニター3に表示し、音声を音声処理部17を介してスピーカ6から出力する。このようしてカーナビゲーション装置1のCPU11は、認識結果に対応するAV操作処理を行い、次のステップSP38(図8)へ移って処理を終了する。
【0084】
これに対してステップSP14で否定結果が得られると、このことは初期メニュー画面MW1のAVアイコンMI3が選択されていないことを表しており、カーナビゲーション装置1のCPU11は、次のステップSP20(図8)へ移る。
【0085】
ステップSP20においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の電話アイコンMI4が選択されたか否かを判断し、肯定結果が得られると次のステップSP21へ移る。
【0086】
ステップSP21においてカーナビゲーション装置1のCPU11は、HDD14の電話辞書14D(図5)に登録された複数の言語モデルをRAM13上に読み出し、次のステップSP22へ移る。
【0087】
ステップSP22においてカーナビゲーション装置1のCPU11は、電話アイコンMI4が選択され続けているか否か、すなわち電話アイコンMI4が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP23へ移る。
【0088】
これに対してステップSP22において否定結果が得られると、このことは電話アイコンMI4が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでに電話アイコンMI4が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38へ移って処理を終了する。
【0089】
ステップSP23においてカーナビゲーション装置1のCPU11は、マイク5から音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP24へ移る。
【0090】
ステップSP24においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、カーナビゲーション装置1のCPU11は、認識結果を受信し、次のステップSP25へ移る。
【0091】
これに対してステップSP24において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給しなかったことを表しており、カーナビゲーション装置1のCPU11は、ステップSP23に戻って上述の処理を繰り返す。
【0092】
ステップSP25においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、例えば認識結果から得られた氏名に対応した電話番号をモニター3に表示する。このようしてカーナビゲーション装置1のCPU11は、認識結果に対応する電話操作処理を行い、次のステップSP38へ移って処理を終了する。
【0093】
これに対してステップSP20で否定結果が得られると、このことは初期メニュー画面MW1の電話アイコンMI4が選択されていないことを表しており、カーナビゲーション装置1のCPU11は、次のステップSP26へ移る。
【0094】
ステップSP26においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1のWebアイコンMI5が選択されたか否かを判断し、肯定結果が得られると次のステップSP27へ移る。
【0095】
ステップSP27においてカーナビゲーション装置1のCPU11は、HDD14のWeb辞書14E(図5)に登録された複数の言語モデルをRAM13上に読み出し、次のステップSP28へ移る。
【0096】
ステップSP28においてカーナビゲーション装置1のCPU11は、WebアイコンMI5が選択され続けているか否か、すなわちWebアイコンMI5が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP29へ移る。
【0097】
これに対してステップSP28において否定結果が得られると、このことはWebアイコンMI5が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでにWebアイコンMI5が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38へ移って処理を終了する。
【0098】
ステップSP29においてカーナビゲーション装置1のCPU11は、マイク5から音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP30へ移る。
【0099】
ステップSP30においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、カーナビゲーション装置1のCPU11は、認識結果を受信し、次のステップSP31へ移る。
【0100】
これに対してステップSP30において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給しなかったことを表しており、カーナビゲーション装置1のCPU11は、ステップSP29に戻って上述の処理を繰り返す。
【0101】
ステップSP31においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、例えば認識結果から得られたURLをモニター3に表示し、図示しない外部通信ユニットを介して当該URLに従ってサーバに接続する。このようしてカーナビゲーション装置1のCPU11は、認識結果に対応するサーバ接続処理を行い、次のステップSP38へ移って処理を終了する。
【0102】
これに対してステップSP26で否定結果が得られると、このことは初期メニュー画面MW1のWebアイコンMI5が選択されていないことを表しており、カーナビゲーション装置1のCPU11は、次のステップSP32へ移る。
【0103】
ステップSP32においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の質問アイコンMI6(図5)が選択されたか否かを判断し、肯定結果が得られると次のステップSP33へ移る。
【0104】
これに対してステップSP32において否定結果が得られると、このことはメニューアイコンMIの何れも選択されていないことを表しており、カーナビゲーション装置1のCPU11は、ステップSP38へ移って処理を終了する。
【0105】
ステップSP33においてカーナビゲーション装置1のCPU11は、HDD14の質問辞書14Fに登録された複数の言語モデルをRAM13上に読み出し、次のステップSP34へ移る。
【0106】
ステップSP34においてカーナビゲーション装置1のCPU11は、質問アイコンMI6が選択され続けているか否か、すなわち質問アイコンMI6が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP35へ移る。
【0107】
これに対してステップSP34において否定結果が得られると、このことは質問アイコンMI6が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでに質問アイコンMI6が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38へ移って処理を終了する。
【0108】
ステップSP35においてカーナビゲーション装置1のCPU11は、マイク5から音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP36へ移る。
【0109】
ステップSP36においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、カーナビゲーション装置1のCPU11は、当該認識結果を受信し、次のステップSP37へ移る。
【0110】
これに対してステップSP36において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給しなかったことを表しており、カーナビゲーション装置1のCPU11は、ステップSP35に戻って上述の処理を繰り返す。
【0111】
ステップSP37においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、例えば認識結果から得られた質問に対する回答をモニター3に表示する。このようしてカーナビゲーション装置1のCPU11は、認識結果に対応する質問回答処理を行い、次のステップSP38へ移って処理を終了する。
【0112】
(6)動作及び効果
以上の構成において、カーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が回転操作されたことを認識すると、メニュー項目であるメニューアイコンMIが付された初期メニュー画面MW1をモニター3に表示する。その後、カーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が回転操作されることにより場所アイコンMI1が選択されたことを認識したときから、当該場所アイコンMI1に対応する場所辞書14Aに登録された複数の言語モデルをHDD14からRAM13上に読み出す。
【0113】
そしてカーナビゲーション装置1のCPU11は、場所辞書14Aに登録された複数の言語モデルをRAM13上に読み出し終えた時点から、場所アイコンMI1が選択されている間のみ、音声入力を受け付ける。
【0114】
このときカーナビゲーション装置1のCPU11は、ユーザの発話した音声をマイク5によって集音させ、その結果得られた音声信号を音声認識部18へ供給し、その音声信号を音声認識部18に対して認識させる。音声認識部18は、マイク5から供給された音声信号と、RAM13上に読み出された言語モデルとを比較し、基準値以上の一致度である言語モデルのうち、最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、CPU11へ当該認識結果を供給する。カーナビゲーション装置1のCPU11は、音声認識部18から受信した認識結果に対応する目的地検索処理を行うようにした。
【0115】
従ってカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の場所アイコンMI1が選択された場合、当該場所アイコンMI1に対応する場所辞書14Aに登録された言語モデルだけをHDD14からRAM13上に読み出すことにより、認識対象となる言語モデルを限定している分だけ、それ以外の言語モデルに対応した単語又は単語列を誤認識してしまうことを回避できるので、音声認識率を上げることができる。
【0116】
因みにカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の地図アイコンMI2、AVアイコンMI3、電話アイコンMI4、WebアイコンMI5及び質問アイコンMI6が選択されたことを認識した場合も同様に、HDD14からそれぞれ地図辞書14B、AV辞書14C、電話辞書14D、Web辞書14E及び質問辞書14Fに登録された言語モデルだけをRAM13上に読み出し、認識対象となる言語モデルを限定している分だけ、それ以外の言語モデルに対応した単語又は単語列を誤認識してしまうことを回避できるので、音声認識率を上げることができる。
【0117】
カーナビゲーション装置1のCPU11は、初期メニュー画面MW1の例えば場所アイコンMI1が選択され、場所辞書14Aに登録された言語モデルをRAM13上に読み出し終えた時点から直ちにユーザの音声が入力された場合、音声とノイズとを判別する必要がなく、ノイズとして扱われてしまうような音声でも認識することができるので、その分だけ音声認識率を上げることができる。
【0118】
またカーナビゲーション装置1のCPU11は、音声認識処理を行うタイミングをユーザが知っていた場合、ユーザが意識的に静かな環境を作るためにノイズを減らすので、音声認識率を上げることができる。
【0119】
さらにカーナビゲーション装置1のCPU11は、音声認識処理を行うタイミングをユーザが知らない場合にも、初期メニュー画面MW1のメニューアイコンMIのいずれかを選択させ続けている間だけ、音声入力を受け付けるようにしたことにより、例えばラジオの音声やユーザ同士の音声といったノイズが混入される機会を減らすことができるため、音声認識処理における当該ノイズによる誤認識を減らすことができるので、音声認識率を上げることができる。
【0120】
またカーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が回転操作されることにより、モニター3に初期メニュー画面MW1を表示し、当該初期メニュー画面MW1上の例えば場所アイコンMI1が選択されたことを認識したとき以降、音声入力を受け付けるようにした。従ってカーナビゲーション装置1は、音声入力を受け付けるまでに、ユーザに対して回転操作子21を回転操作させるだけ良く、従来のような複数回の操作を行わせる必要がない分、使い勝手を向上できる。
【0121】
カーナビゲーション装置1は、運転席8と助手席(図示せず)との間に設けられたシフトレバー9の近くにロータリコマンダ4を載置するようになされており、ユーザが自動車10を運転している場合でも、ユーザの姿勢をほとんど変えさせることなくロータリコマンダ4を操作させることができ、かつ手探り状態でも当該ロータリコマンダ4を操作させることができる。これによりカーナビゲーション装置1は、ユーザにロータリコマンダ4を注視させなくても簡易に操作を行わせることができる。
【0122】
さらにカーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が回転操作されたことを認識すると、モニター3に初期メニュー画面MW1を表示し、当該初期メニュー画面MW1上の例えば場所アイコンMI1が選択されたことを認識したとき以降、音声入力を受け付けるため、例えばDVDを再生している場合であっても音声認識処理を行うことができる。
【0123】
以上の構成によれば、カーナビゲーション装置1は、ロータリコマンダ4の回転操作子21を回転操作されたことを認識すると、初期メニュー画面MW1をモニター3に表示し、例えば場所アイコンMI1が選択されたことを認識したときから、場所辞書14Aに登録された言語モデルをRAM13上に読み出し終えた時点から、当該場所アイコンMI1が選択されている間だけ音声入力を受け付け、マイク5から供給された音声信号と、RAM13上に読み出した言語モデルとを音声認識部18に比較させ、その結果得られた認識結果に対応した目的地検索処理を行うことでき、かくして簡易な操作で、かつ音声認識率を上げながら使い勝手を向上することができる。
【0124】
またカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の地図アイコンMI2、AVアイコンMI3、電話アイコンMI4、WebアイコンMI5及び質問アイコンMI6が選択された場合も同様に、マイク5から供給された音声信号と、地図辞書14B、AV辞書14C、電話辞書14D、Web辞書14E及び質問辞書14Fに登録された言語モデルとを音声認識部18に比較させ、その結果得られた認識結果に対応した地図操作処理、AV操作処理、電話操作処理、サーバ接続処理及び質問回等処理を行うことができ、かくして簡易な操作で、かつ音声認識率を上げながら使い勝手を向上することができる。
【0125】
(7)他の実施の形態
なお上述した実施の形態においては、ロータリコマンダ4の回転操作子21が回転操作させることにより、初期メニュー画面MW1の例えば場所アイコンMI1が選択されている間だけ、音声入力を受け付けるようにした場合について述べたが、本発明はこれに限らず、タクトスイッチにより、初期メニュー画面MW1の例えば場所アイコンMI1が選択され、当該タクトスイッチが押下されている間だけ、音声入力を受け付けるようにしても良い。
【0126】
この場合カーナビゲーション装置1は、図9に示すように、ハンドル107にタクトスイッチでなる上ボタンUB及び下ボタンDBが設けられ、上ボタンUB及び下ボタンDBが押下操作されたことを認識すると、初期メニュー画面MW1をモニター3に表示し、上ボタンUB及び下ボタンDBが押下され続けている間だけ、音声入力を受け付けるようにする。
【0127】
また上述した実施の形態においては、ロータリコマンダ4の回転操作子21が、左右一定の範囲に回転操作させることができ、かつ力が加えられていない状態において、左右の基準位置に復帰する場合について述べたが、本発明はこれに限らず、回転操作子21を左右に回転操作させることができ、かつ力を加えられていない状態において、基準位置に復帰せず、その位置に止まるようにしても良い。この場合、カーナビゲーション装置1は、ロータリコマンダ4が操作され続けていることを認識するために、例えばタッチセンサ等を設ける必要がある。
【0128】
さらに上述した実施の形態においては、運転席8と助手席(図示せず)との間に設けられたシフトレバー9の近くにロータリコマンダ4が載置された場合について述べたが、本発明はこれに限らず、自動車10のハンドル7又はシフトレバー9に設けられるようにしても良く、要は自動車10を運転中のユーザに姿勢を変えさせることなく、かつ手探り状態でも操作させられる位置であればどこでも良い。
【0129】
さらに上述した実施の形態においては、ロータリコマンダ4の回転操作子21を回転操作させることにより、初期メニュー画面MW1の例えば場所アイコンMI1が選択されている間だけ、音声入力を受け付けるようにした場合について述べたが、本発明はこれに限らず、ロータリコマンダ4の回転操作子21を回転操作させることにより、初期メニュー画面MW1の例えば場所アイコンMI1が選択されてから一定時間の間、音声入力を受け付けるようにしても良いし、場所アイコンMI1が選択された後、発声ボタンが押下されてから音声入力を受け付けるようにしても良い。
【0130】
さらに上述した実施の形態においては、ロータリコマンダ4の回転操作子21が回転操作されたことにより回転検出部22から開始信号を供給されたカーナビゲーション装置1のCPU11が、モニター3に初期メニュー画面MW1を表示し、メニューアイコンMIの何れも橙色に表示していないようにした場合について述べたが、本発明はこれに限らず、ロータリコマンダ4の回転操作子21が回転操作されたことにより回転検出部22から開始信号を供給されたカーナビゲーション装置1のCPU11が、モニター3に初期メニュー画面MW1を表示すると同時に、場所アイコンMI1を橙色に表示するようにしても良い。
【0131】
さらに上述した実施の形態においては、ロータリコマンダ4の回転操作子21を回転操作させることにより、初期メニュー画面MW1をモニター3に表示した場合について述べたが、本発明はこれに限らず、図10に示すように、ロータリコマンダ4回転操作子21を回転操作させることにより、メニューアイコンMIと、例えば「ロータリコマンダをタッチしている間、音声認識を行います」等の通知文とからなる初期メニュー画面MW2をモニター3に表示するようにしても良い。
【0132】
これによりカーナビゲーション装置1は、ロータリコマンダ4の回転操作子21が操作されている間だけ、音声入力が受け付けられていることをユーザに伝えることにより、音声認識処理が行われていることをユーザに意識させることができる。
【0133】
さらに上述した実施の形態においては、初期メニュー画面MW1の例えば場所アイコンMI1が選択され、場所辞書14Aに格納された言語モデルをRAM13上に読み出し終わった時点から、マイク5による音声入力を受け付けるようにした場合について述べたが、本発明はこれに限らず、初期メニュー画面MW1の例えば場所アイコンMI1が選択された時点から、マイク5による音声入力を受け付けるようにしても良い。
【0134】
この場合、カーナビゲーション装置1のCPU11は、場所辞書14Aに格納された言語モデルをRAM13上に読み出すと同時に、マイク5による音声入力を受け付けることになるが、実際上、当該言語モデルを読み出す時間が短いため、当該言語モデルを読み出し終える前に、音声認識することはない。
【0135】
さらに上述した実施の形態においては、カーナビゲーション装置1のCPU11が、予めHDD14に格納されているアプリケーションプログラムに従い、上述したルーチンRT1の音声認識処理手順を行うようにした場合について述べたが、本発明はこれに限らず、記憶媒体からインストールしたアプリケーションプログラムや、インターネットからダウンロードしたアプリケーションプログラム、その他種々のルートによってインストールしたアプリケーションプログラムに従って上述した音声認識処理手順を行うようにしても良い。
【0136】
さらに上述した実施の形態においては、選択項目認識手段としてCPU11、記憶手段としてHDD14、辞書読出手段としてCPU11、音声認識手段として音声認識部18によって本発明の音声認識装置としてのカーナビゲーション装置1を構成するようにした場合について述べたが、本発明はこれに限らず、この他種々の構成でなる選択項目認識手段、記憶手段、辞書読出手段及び音声認識手段によってナビゲーション装置を構成するようにしても良い。
【産業上の利用可能性】
【0137】
本発明の音声認識装置及び音声認識方法は、例えばカーナビゲーション装置以外の携帯電話機、オーディオ装置等のその他種々に実装された音声認識装置及び音声認識方法に適用することができる。
【図面の簡単な説明】
【0138】
【図1】カーナビゲーション装置の構成(1)を示す略線図である。
【図2】カーナビゲーション装置の構成(2)を示す略線図である。
【図3】ロータリコマンダの構成を示す略線図である。
【図4】カーナビゲーション装置の回路構成を示す略線図である。
【図5】ハードディスクドライブの構成を示す略線図である。
【図6】メニュー画面の様子を示す略線図である。
【図7】音声認識処理手順(1)の説明に供するフローチャートである。
【図8】音声認識処理手順(2)の説明に供するフローチャートである。
【図9】他の実施形態におけるハンドルを示す略線図である。
【図10】他の実施形態におけるメニュー画面の様子を示す略線図である。
【符号の説明】
【0139】
1……カーナビゲーション装置、2……本体部、3……モニター、4……ロータリコマンダ、5……マイク、6……スピーカ、7……ハンドル、8……運転席、9……シフトレバー、10……自動車、11……CPU、12……ROM、13……RAM、14……HDD、15…GPSユニット、16……AV処理部、17……音声処理部、18……音声認識部、21……回転操作子、22……回転検出部、23……操作ボタン群、31……決定ボタン、32……左ボタン、33……上ボタン、34……左ボタン、35……下ボタン。
【技術分野】
【0001】
本発明は、音声認識装置及び音声認識方法に関し、例えば車両に搭載されるナビゲーション装置(以下、これをカーナビゲーション装置と呼ぶ。)に適用して好適なものである。
【背景技術】
【0002】
従来、カーナビゲーション装置においては、ユーザにより発話された音声をマイクによって集音し、その音声を認識する音声認識装置が備えられたものがある。
【0003】
このようなカーナビゲーション装置のなかには、複数の単語又は単語列を音声認識した場合、当該複数の単語又は単語列をキーワード候補としてタッチ操作可能なモニターにそれぞれ表示し、当該キーワード候補をそれぞれユーザにタッチ操作させ、検索条件、除外条件、或いは排他条件等を設定させ、その条件で例えば目的地を検索するようになされたものがある(例えば、特許文献1参照)。
【0004】
またカーナビゲーション装置のなかには、例えば「レストラン」のリストをモニターに表示している場合、「レストラン」の単語及び単語列だけを対象とした「レストラン」辞書を用い、その「レストラン」辞書に格納された単語及び単語列だけを音声認識の比較対象とするものがある(例えば、特許文献2参照)。
【0005】
すなわち、カーナビゲーション装置は、モニターに表示している状態を認識し、認識した状態に関連する単語及び単語列を抽出することにより辞書として設定し、当該辞書に登録された単語及び単語列だけを音声認識の比較対象とすることにより、比較対象となる単語及び単語列の数を減らすことができるので、認識率の高い音声認識を実現するようになされたものがある。
【特許文献1】特開2006−95576公報
【特許文献2】特開2000−20086公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
ところで上述した特許文献1に記載のカーナビゲーション装置においては、キーワード候補を検索条件、除外条件、或いは排他条件のいずれかに設定するようになされているため、ユーザに対して複数回のタッチ操作を行わせざるを得ず、煩雑な操作を強いるという問題があった。
【0007】
また実際上、カーナビゲーション装置は、メニューを階層型に構成するようになされている。そのため、上述した特許文献2に記載のカーナビゲーション装置においては、メニュー画面を上位階層から下位階層まで移行させる際、ユーザに対して複数回の操作を行わせざるを得ず、煩雑な操作を強いるという問題があった。
【0008】
本発明は以上の点を考慮してなされたもので、従来と比して簡易な操作で、かつ音声認識率を上げながら使い勝手を向上し得る音声認識装置及び音声認識方法を提案しようとするものである。
【課題を解決するための手段】
【0009】
かかる課題を解決するため本発明の音声認識装置においては、表示手段に対して表示した階層型メニューでなる初期メニュー画面上の複数の項目の中から所定の操作手段を介してユーザにより選択された任意の選択項目を認識する選択項目認識手段と、複数の項目の内容にそれぞれ関連した単語及び単語列からなる複数の言語モデルが登録されている項目別辞書を複数種類記憶する記憶手段と、選択項目認識手段により選択項目を認識したとき、選択項目に対応した項目別辞書に登録されている言語モデルを記憶手段から読み出す辞書読出手段と、選択項目認識手段により選択項目を認識した時点から、認識している間だけユーザの音声を入力し、その音声信号と、辞書読出手段により読み出した言語モデルとを比較し、音声信号と最も一致度の高い言語モデルに対応した単語又は単語列を認識結果して供給する音声認識手段とを設けるようにした。
【0010】
これにより、階層型メニューでなる初期メニュー画面上の任意の項目をユーザ選択させるだけの操作により、その選択項目に対応した項目別辞書を読み出し、比較対象となる言語モデルを予め減らした状態で比較することになり、音声認識率を上げることができる。
【0011】
また本発明の音声認識方法においては、表示手段に対して表示した階層型メニューでなる初期メニュー画面上の複数の項目の中から所定の操作手段を介してユーザにより選択された任意の選択項目を認識する選択項目認識ステップと、選択項目認識ステップにより選択項目を認識したときから、複数の項目の内容にそれぞれ関連した単語及び単語列からなる複数の言語モデルが登録されている項目別辞書を複数種類記憶する記憶手段から、選択項目に対応した項目別辞書に登録されている言語モデルを読み出す辞書読出ステップと、選択項目認識ステップにより選択項目を認識した時点以降、当該認識している間だけユーザの音声を入力し、その音声信号と、辞書読出ステップにより読み出した言語モデルとを比較し、音声信号と最も一致度の高い言語モデルに対応した単語又は単語列を認識結果して供給する音声認識ステップとを設けるようにした。
【0012】
これにより、階層型メニューでなる初期メニュー画面上の任意の項目をユーザ選択させるだけの操作により、その選択項目に対応した項目別辞書を読み出し、比較対象となる言語モデルを予め減らした状態で比較することになり、音声認識率を上げることができる。
【発明の効果】
【0013】
本発明によれば、階層型メニューでなる初期メニュー画面上の任意の項目をユーザ選択させるだけの少ない操作により、その選択項目に対応した項目別辞書を読み出し、比較対象となる言語モデルを予め減らした状態で比較することになり、音声認識率を上げることができ、従来と比して簡易な操作で、かつ音声認識率を上げながら使い勝手を向上し得る音声認識装置及び音声認識方法を実現できる。
【発明を実施するための最良の形態】
【0014】
以下に、図面について、本発明の一実施の形態を詳述する。
【0015】
(1)カーナビゲーション装置の全体構成
図1において、1は全体として本発明における音声認識装置を搭載したカーナビゲーション装置を示し、自動車10に取り付けられた本体部2、LCD(Liquid Crystal Display)等からなるモニター3、ユーザに操作させるためのロータリコマンダ4(詳しくは後述する)、マイク5及びスピーカ6等により構成されている。
【0016】
カーナビゲーション装置1は、本体部2に内蔵されたROM(Read Only Memory)やHDD(Hard Disk Drive)等に格納されている地図データに応じた地図画像等をモニター3に対して表示し得るようになされている。
【0017】
またカーナビゲーション装置1は、ユーザにより発話された音声をマイク5によって集音し、音声認識するようになされており、当該音声認識することにより得られた認識結果に対応する目的地検索処理、地図操作処理及びAV(Audio Visual)操作処理等の各種処理を行うようになされている。
【0018】
さらにカーナビゲーション装置1は、本体部2に内蔵されたROMやHDD等に格納されている音楽データ等を再生することにより、その再生音をスピーカ6から出力し得るようになされている。
【0019】
また図2に示すように、カーナビゲーション装置1は、運転席8と助手席(図示せず)との間に設けられたシフトレバー9の近くにロータリコマンダ4を載置するようになされている。従って、カーナビゲーション装置1では、ユーザが自動車10を運転している場合、ユーザに対して片方の手によりハンドル7を握らせたまま、もう片方の手によりロータリコマンダ4を操作させることができるので、ユーザの姿勢をほとんど変えさせることなくロータリコマンダ4を操作させ得るようになされている。
【0020】
因みにカーナビゲーション装置1においては、本体部2及びモニター3が別々に構成されるような場合について述べたが、本体部2及びモニター3が一体型に構成されるようにしても良い。
【0021】
(2)ロータリコマンダの構成
図3に示すように、ロータリコマンダ4は、略円柱形状でなり、回転操作子21と、決定ボタン31、左ボタン32、上ボタン33、右ボタン34及び下ボタン35からなる操作ボタン群23とによって構成されている。
【0022】
ロータリコマンダ4は、その回転操作子21を、ロータリコマンダ4自身の中心を通る軸を回転軸として左右一定の範囲に回転操作させ得るようになされており、何ら力が加えられていない状態において、基準位置に復帰させるようになされている。すなわちロータリコマンダ4は、回転操作子21がユーザによって回転操作された後、ユーザの手が離されると回転操作子21を基準位置に復帰させるようになされている。
【0023】
このようにカーナビゲーション装置1は、ユーザが自動車10を運転中であっても、ロータリコマンダ4の回転操作子21をユーザに対して手探りの状態で操作させ得るようになされている。
【0024】
因みにカーナビゲーション装置1は、ロータリコマンダ4の操作ボタン群23が押下操作された場合、後述する音声認識処理以外にも階層型でなるメニューを操作させ得るようになされている。
【0025】
(3)カーナビゲーション装置の回路構成
図4に示すように、カーナビゲーション装置1は、CPU(Central Processing Unit)11がROM12又はHDD14から読み出した基本プログラム及び各種アプリケーションプログラムをRAM(Random Access Memory)13上で起動し、当該基本プログラム及び各種アプリケーションプログラムに従って全体を統括制御することにより、通常のナビゲーション処理や、音声認識処理等を実現するようになされている。
【0026】
カーナビゲーション装置1は、GPS(Global Positioning System)衛星からの電波をGPSアンテナ15A及びGPSユニット15によって受信することにより、緯度、経度及び高度等からなるGPS情報を常時算出するようになされており、その結果得られたGPS情報をCPU11へ供給するようになされている。
【0027】
このときカーナビゲーション装置1のCPU11は、GPSユニット15から供給されたGPS情報とHDD14に記憶されている地図データを比較することにより、現時点で自動車10(図1)が存在する位置(以下、これを現在地と呼ぶ。)を含む所定範囲の地図データを読み出し、その地図データに応じて自動車10の現在地とその周辺とを表す所定倍率の地図画像をモニター3に表示するようになされている。
【0028】
またカーナビゲーション装置1のCPU11は、目的地が任意に選択された場合、自動車10の現在地から当該目的地までの到達経路等を探索し、その到達経路を表した地図画像をモニター3に表示し得るようになされている。
【0029】
このときカーナビゲーション装置1のCPU11は、到達経路を表した地図画像をモニター3に表示すると共に、自動車10が到達経路に従って目的地まで走行する間、ユーザの運転を誘導及び補助するための音声情報を生成し、そのナビゲート音声を音声処理部17を介してスピーカ6から出力するようになされている。
【0030】
またカーナビゲーション装置1のCPU11は、HDD14に格納された音楽データを読み出し、当該音楽データに対してAV処理部16により所定の信号処理を施した後、その音声信号に基づく音声を音声処理部17を介して所定レベルに増幅し、スピーカ6から出力するようになされている。
【0031】
さらにカーナビゲーション装置1のCPU11は、図示しないDVD(Digital Versatile Disc)ドライブを介してDVDの映像データ及び音声データを読み出し、当該映像データ及び当該音声データに対してAV処理部16により所定の信号処理を施した後、映像信号に基づく映像をモニター3に表示すると共に、音声信号に基づく音声を音声処理部17を介して所定レベルに増幅した後、スピーカ6から出力するようになされている。
【0032】
ところでロータリコマンダ4の回転検出部22は、回転操作子21が基準位置から回転操作されたことを検出すると、CPU11へ開始信号を供給する。また回転検出部22は、回転操作子21が基準位置から回転される角度を検出しており、当該回転操作子21が所定角度回転される毎にCPU11へ検出信号を供給するようになされている。
【0033】
カーナビゲーション装置1のCPU11は、回転操作子21が回転操作され、回転検出部22から開始信号を受信すると、初期メニュー画面MW1(図6(A))をモニター3に表示する。その後、カーナビゲーション装置1のCPU11は、回転検出部22から供給された検出信号を受信すると、その検出信号に応じたユーザ所望のメニューアイコンMIが選択されたことを認識する。そしてカーナビゲーション装置1のCPU11は、ユーザ所望のメニューアイコンMIが選択されたことを認識したとき以降、音声認識部18に対して音声認識させるようになされている。
【0034】
このときカーナビゲーション装置1のCPU11は、ユーザの発話された音声をマイク5によって集音させ、その結果得られた音声信号を音声認識部18に対して認識させることにより認識結果を得るようになされている。このときカーナビゲーション装置1のCPU11は、この認識結果に対応する目的地検索処理、地図操作処理及びAV操作処理等の各種処理を行うようになされている。
【0035】
因みにカーナビゲーション装置1のCPU11は、ロータリコマンダ4の操作ボタン群23に対するユーザ操作に応じて目的地検索処理、地図操作処理及びAV操作処理等の各種処理を実行し得るようになされている。
【0036】
ところでカーナビゲーション装置1のHDD14には、複数の言語モデルが格納されている。この言語モデルは、音素や音節等を組み合わせることにより、音声認識の比較対象となる単語や単語列を構成したものである。
【0037】
図5に示すように、カーナビゲーション装置1のHDD14は、初期メニュー画面MW1(図6(A)及び(B))に表示されたメニュー項目である場所アイコンMI1、地図アイコンMI2、AVアイコンMI3、電話アイコンMI4、WebアイコンMI5及び質問アイコンMI6にそれぞれ関連した複数の言語モデルが登録された場所辞書14A、地図辞書14B、AV辞書14C、電話辞書14D、Web辞書14E及び質問辞書14Fを有している。
【0038】
すなわちカーナビゲーション装置1では、HDD14に対して、例えば「東京都」及び「東京ディズニーランド」等の地名や施設等の目的地を検索するための言語モデルが登録された場所辞書14A、「拡大」、「縮小」及び「目的地表示」等の地図画像の表示設定を変更するための言語モデルが登録された地図辞書14B、「曲送り」、「DVD再生」及び「リピート」等のAV操作を行うための言語モデルが登録されたAV辞書14C、人名や電話番号等の電話帳及び「電話を掛ける」等の電話操作を行うための言語モデルが登録された電話辞書14D、URLやキーワード等によりサーバに接続するための言語モデルが登録されたWeb辞書14E、及び「目的地検索方法」及び「DVD再生方法」等のカーナビゲーション装置1の使い方やエラー対処方法等を質問するための言語モデルが登録された質問辞書14Fが格納されている。
【0039】
(4)音声認識処理
図6(A)に示すように、カーナビゲーション装置1のCPU11は、回転操作子21が回転操作されたことにより回転検出部22から開始信号を受信すると、初期メニュー画面MW1をモニター3に表示するようになされている。このときカーナビゲーション装置1のCPU11は、初期メニュー画面MW1のメニューアイコンMIが何れも選択されていない状態であり、全ての当該メニューアイコンMIを例えば黄色に表示するようになされている。
【0040】
そして図6(B)に示すように、カーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が基準位置から例えば右方向に回転操作され、所定角度回転される毎に回転検出部22から供給される検出信号を受信すると、初期メニュー画面MW1の場所アイコンMI1を例えば橙色に表示し、当該場所アイコンMI1が選択されていることをユーザに対して目視確認させ得るようになされている。
【0041】
またカーナビゲーション装置1のCPU11は、回転操作子21が右方向にさらに回転操作され、回転検出部22から検出信号を再度受信すると、地図アイコンMI2を橙色に表示するようになされている。このようにしてカーナビゲーション装置1のCPU11は、回転操作子21が右方向に回転操作され、回転検出部22から検出信号を受信する毎に、メニューアイコンMIの橙色に表示するアイコンを順に上から下へ移動させるようになされている。
【0042】
なおカーナビゲーション装置1のCPU11は、回転操作子21が基準位置から左方向に回転された場合も右方向に回転された場合と同様に、回転操作子21が左方向に回転操作されたことにより回転検出部22から開始信号を受信すると初期メニュー画面MW1をモニター3に表示し、回転検出部22から検出信号を受信する毎に、メニューアイコンMIの橙色に表示するアイコンを順に上から下へ移動させるようになされている。
【0043】
またカーナビゲーション装置1のCPU11は、例えば回転操作子21が右方向に回転操作されたことにより初期メニュー画面MW1の地図アイコンMI2を橙色に表示した状態で、当該回転操作子21が左方向に回転操作され、回転検出部22から検出信号を受信すると、場所アイコンMI1を橙色に表示するようになされている。すなわち、カーナビゲーション装置1のCPU11は、回転操作子21が右方向に回転操作された後、当該回転操作子21が左方向に回転操作されることにより回転検出部22から検出信号を受信する毎にメニューアイコンMIの橙色に表示するアイコンを順に下から上へ移動させるようになされている。
【0044】
さらにカーナビゲーション装置1のCPU11は、例えば回転操作子21が左方向に回転操作された後、当該回転操作子21が右方向に回転操作されることにより回転検出部22から検出信号を受信する毎にメニューアイコンMIの橙色に表示するアイコンを順に下から上へ移動させるようになされている。
【0045】
なおカーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が回転操作されることによりモニター3に初期メニュー画面MW1を表示した後、音声認識せずに当該回転操作子21が基準位置に復帰したことを認識すると、当該回転操作子21が操作される前に表示していた画面をモニター3に対して表示するようになされている。
【0046】
因みにカーナビゲーション装置1のCPU11は、初期メニュー画面MW1のメニューアイコンMIの何れかが選択された場合、黄色から橙色に変えて表示するようにした場合について述べたが、メニューアイコンMIをどのような色に表示しても良いし、選択されたメニューアイコンMI自体を点滅表示するようにしても良い。
【0047】
ところでカーナビゲーション装置1のCPU11は、例えば場所アイコンMI1が選択されたことを認識すると、当該場所アイコンMI1に対応する場所辞書14Aに登録された言語モデルをRAM13上に読み出し、マイク5から供給された音声信号と直ちに比較可能な状態にするようになされている。
【0048】
またカーナビゲーション装置1のCPU11は、場所辞書14Aに登録された言語モデルをRAM13上に読み出し終えた時点から、マイク5による音声入力を受け付けるようになされている。
【0049】
このときカーナビゲーション装置1のCPU11は、回転検出部22から新たな検出信号が供給されていない間、すなわち場所アイコンMI1が選択され続けている間だけ、マイク5による音声入力を受け付けるようになされている。
【0050】
そしてカーナビゲーション装置1のCPU11は、ユーザの発話した音声をマイク5によって集音させ、その結果得られた音声信号を音声認識部18へ供給するようになされている。
【0051】
カーナビゲーション装置1の音声認識部18は、マイク5から供給された音声信号とRAM13上に読み出された言語モデルとを比較し、最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給するようになされている。
【0052】
このときカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果に対応する目的地検索処理を行うようになされており、例えば認識結果である地名を目的地としてモニター3の地図画像上に表示するようになされている。
【0053】
これによりカーナビゲーション装置1のCPU11は、ユーザに対してロータリコマンダ4の回転操作子21を回転操作させることにより初期メニュー画面MW1の場所アイコンMI1を選択し、ユーザに目的地を発話させるだけの簡易な作業により、その目的地をモニター3の地図画像上に表示し得るようになされている。
【0054】
因みにカーナビゲーション装置1の音声認識部18は、マイク5から供給された音声信号とRAM13上に読み出された言語モデルとを比較する際、一致度に一定の基準値を設けており、すべての言語モデルが基準値未満の一致度であった場合、認識結果を得ることなく、基準値以上の一致度となる認識結果を得るまで音声認識処理を継続し続けるようになされている。
【0055】
なおカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の地図アイコンMI2、AVアイコンMI3、電話アイコンMI4、WebアイコンMI5及び質問アイコンMI6が選択された場合も同様に、それぞれ地図辞書14B、AV辞書14C、電話辞書14D、Web辞書14E及び質問辞書14Fに登録された言語モデルをRAM13上に読み出すようになされている。
【0056】
その後、カーナビゲーション装置1のCPU11は、マイク5から供給された音声信号と、RAM13上に読み出した言語モデルとを音声認識部18に比較させることにより認識結果を得、その認識結果に対応する地図操作処理、AV操作処理、電話操作処理、サーバ接続処理及び質問回答処理等を行うようになされている。
【0057】
(5)音声認識処理手順
図7及びこれに続く図8に示すように、カーナビゲーション装置1のCPU11は、ルーチンRT1の開始ステップから入って次のステップSP1へ移り、ロータリコマンダ4の回転操作子21が回転操作されたことにより回転検出部22から開始信号が供給されたか否かを判断する。ここで否定結果が得られると、カーナビゲーション装置1のCPU11は、回転操作子21が操作され、回転検出部22から開始信号が供給されるまで待ち受けるのに対し、肯定結果が得られると、モニター3に初期メニュー画面MW1を表示して次のステップSP2へ移る。
【0058】
ステップSP2においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の場所アイコンMI1が選択されたか否かを判断し、肯定結果が得られると次のステップSP3へ移る。
【0059】
ステップSP3においてカーナビゲーション装置1のCPU11は、HDD14の場所辞書14A(図5)に登録された複数の言語モデルをRAM13上に読み出し、次のステップSP4へ移る。
【0060】
ステップSP4においてカーナビゲーション装置1のCPU11は、場所アイコンMI1が選択され続けているか否か、すなわち場所アイコンMI1が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP5へ移る。
【0061】
これに対してステップSP4において否定結果が得られると、このことは場所アイコンMI1が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでに場所アイコンMI1が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38(図8)へ移って処理を終了する。
【0062】
ステップSP5においてカーナビゲーション装置1のCPU11は、マイク5による音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP6へ移る。
【0063】
ステップSP6においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から入力された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、このときカーナビゲーション装置1のCPU11は、当該認識結果を受信し、次のステップSP7へ移る。
【0064】
これに対しステップSP6において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給していないことを表しており、このときカーナビゲーション装置1のCPU11はステップSP5に戻って上述の処理を繰り返す。
【0065】
ステップSP7においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、その認識結果から得られた地名を目的地としてモニター3の地図画像上に表示することにより、当該認識結果に対応する目的地検索処理を行い、次のステップSP38へ移って処理を終了する。
【0066】
これに対してステップSP2で否定結果が得られると、このことは初期メニュー画面MW1の場所アイコンMI1が選択されていないことを表しており、カーナビゲーション装置1のCPU11は、次のステップSP8へ移る。
【0067】
ステップSP8においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の地図アイコンMI2が選択されたか否かを判断し、肯定結果が得られると次のステップSP9へ移る。
【0068】
ステップSP9においてカーナビゲーション装置1のCPU11は、HDD14の地図辞書14B(図5)に登録された複数の言語モデルをRAM13上に読み出し、次のステップSP10へ移る。
【0069】
ステップSP10においてカーナビゲーション装置1のCPU11は、地図アイコンMI2が選択され続けているか否か、すなわち地図アイコンMI2が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP11へ移る。
【0070】
これに対してステップSP10において否定結果が得られると、このことは地図アイコンMI2が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでに地図アイコンMI2が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38(図8)へ移って処理を終了する。
【0071】
ステップSP11においてカーナビゲーション装置1のCPU11は、マイク5による音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP12へ移る。
【0072】
ステップSP12においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、このときカーナビゲーション装置1のCPU11は、当該認識結果を受信し、次のステップSP13へ移る。
【0073】
これに対してステップSP12において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給しなかったことを表しており、カーナビゲーション装置1のCPU11は、ステップSP11に戻って上述の処理を繰り返す。
【0074】
ステップSP13においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、認識結果から得られた例えば「拡大」のコマンドに対応してモニター3に表示されていた地図画像を拡大表示するという、当該認識結果に対応する地図操作処理を行い、次のステップSP38(図8)へ移って処理を終了する。
【0075】
これに対してステップSP8で否定結果が得られると、このことは初期メニュー画面MW1の地図アイコンMI2が選択されていないことを表しており、カーナビゲーション装置1のCPU11は、次のステップSP14へ移る。
【0076】
ステップSP14においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1のAVアイコンMI3が選択されたか否かを判断し、肯定結果が得られると次のステップSP15へ移る。
【0077】
ステップSP15においてカーナビゲーション装置1のCPU11は、HDD14のAV辞書14C(図5)に登録された複数の言語モデルをRAM13上に読み出し、次のステップSP16へ移る。
【0078】
ステップSP16においてカーナビゲーション装置1のCPU11は、AVアイコンMI3が選択され続けているか否か、すなわちAVアイコンMI3が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP17へ移る。
【0079】
これに対してステップSP16において否定結果が得られると、このことはAVアイコンMI3が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでにAVアイコンMI3が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38(図8)へ移って処理を終了する。
【0080】
ステップSP17においてカーナビゲーション装置1のCPU11は、マイク5から音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP18へ移る。
【0081】
ステップSP18においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、カーナビゲーション装置1のCPU11は、当該認識結果を受信し、次のステップSP19へ移る。
【0082】
これに対してステップSP18において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給しなかったことを表しており、カーナビゲーション装置1のCPU11は、ステップSP17に戻って上述の処理を繰り返す。
【0083】
ステップSP19においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、認識結果から得られた例えば「DVD再生」のコマンドに対応してDVDを読み出し、その結果得られた映像をモニター3に表示し、音声を音声処理部17を介してスピーカ6から出力する。このようしてカーナビゲーション装置1のCPU11は、認識結果に対応するAV操作処理を行い、次のステップSP38(図8)へ移って処理を終了する。
【0084】
これに対してステップSP14で否定結果が得られると、このことは初期メニュー画面MW1のAVアイコンMI3が選択されていないことを表しており、カーナビゲーション装置1のCPU11は、次のステップSP20(図8)へ移る。
【0085】
ステップSP20においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の電話アイコンMI4が選択されたか否かを判断し、肯定結果が得られると次のステップSP21へ移る。
【0086】
ステップSP21においてカーナビゲーション装置1のCPU11は、HDD14の電話辞書14D(図5)に登録された複数の言語モデルをRAM13上に読み出し、次のステップSP22へ移る。
【0087】
ステップSP22においてカーナビゲーション装置1のCPU11は、電話アイコンMI4が選択され続けているか否か、すなわち電話アイコンMI4が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP23へ移る。
【0088】
これに対してステップSP22において否定結果が得られると、このことは電話アイコンMI4が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでに電話アイコンMI4が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38へ移って処理を終了する。
【0089】
ステップSP23においてカーナビゲーション装置1のCPU11は、マイク5から音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP24へ移る。
【0090】
ステップSP24においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、カーナビゲーション装置1のCPU11は、認識結果を受信し、次のステップSP25へ移る。
【0091】
これに対してステップSP24において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給しなかったことを表しており、カーナビゲーション装置1のCPU11は、ステップSP23に戻って上述の処理を繰り返す。
【0092】
ステップSP25においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、例えば認識結果から得られた氏名に対応した電話番号をモニター3に表示する。このようしてカーナビゲーション装置1のCPU11は、認識結果に対応する電話操作処理を行い、次のステップSP38へ移って処理を終了する。
【0093】
これに対してステップSP20で否定結果が得られると、このことは初期メニュー画面MW1の電話アイコンMI4が選択されていないことを表しており、カーナビゲーション装置1のCPU11は、次のステップSP26へ移る。
【0094】
ステップSP26においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1のWebアイコンMI5が選択されたか否かを判断し、肯定結果が得られると次のステップSP27へ移る。
【0095】
ステップSP27においてカーナビゲーション装置1のCPU11は、HDD14のWeb辞書14E(図5)に登録された複数の言語モデルをRAM13上に読み出し、次のステップSP28へ移る。
【0096】
ステップSP28においてカーナビゲーション装置1のCPU11は、WebアイコンMI5が選択され続けているか否か、すなわちWebアイコンMI5が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP29へ移る。
【0097】
これに対してステップSP28において否定結果が得られると、このことはWebアイコンMI5が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでにWebアイコンMI5が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38へ移って処理を終了する。
【0098】
ステップSP29においてカーナビゲーション装置1のCPU11は、マイク5から音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP30へ移る。
【0099】
ステップSP30においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、カーナビゲーション装置1のCPU11は、認識結果を受信し、次のステップSP31へ移る。
【0100】
これに対してステップSP30において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給しなかったことを表しており、カーナビゲーション装置1のCPU11は、ステップSP29に戻って上述の処理を繰り返す。
【0101】
ステップSP31においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、例えば認識結果から得られたURLをモニター3に表示し、図示しない外部通信ユニットを介して当該URLに従ってサーバに接続する。このようしてカーナビゲーション装置1のCPU11は、認識結果に対応するサーバ接続処理を行い、次のステップSP38へ移って処理を終了する。
【0102】
これに対してステップSP26で否定結果が得られると、このことは初期メニュー画面MW1のWebアイコンMI5が選択されていないことを表しており、カーナビゲーション装置1のCPU11は、次のステップSP32へ移る。
【0103】
ステップSP32においてカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の質問アイコンMI6(図5)が選択されたか否かを判断し、肯定結果が得られると次のステップSP33へ移る。
【0104】
これに対してステップSP32において否定結果が得られると、このことはメニューアイコンMIの何れも選択されていないことを表しており、カーナビゲーション装置1のCPU11は、ステップSP38へ移って処理を終了する。
【0105】
ステップSP33においてカーナビゲーション装置1のCPU11は、HDD14の質問辞書14Fに登録された複数の言語モデルをRAM13上に読み出し、次のステップSP34へ移る。
【0106】
ステップSP34においてカーナビゲーション装置1のCPU11は、質問アイコンMI6が選択され続けているか否か、すなわち質問アイコンMI6が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されていないか否かを判断し、肯定結果が得られると、このことは回転検出部22から検出信号が供給されていないことを表しており、次のステップSP35へ移る。
【0107】
これに対してステップSP34において否定結果が得られると、このことは質問アイコンMI6が選択された後、ロータリコマンダ4の回転検出部22から新たな検出信号が供給されたことを表しており、すでに質問アイコンMI6が選択されておらず、このときカーナビゲーション装置1のCPU11は、ステップSP38へ移って処理を終了する。
【0108】
ステップSP35においてカーナビゲーション装置1のCPU11は、マイク5から音声入力を受け付け、ユーザの発話した音声をマイク5によって集音させ、その集音結果として得られた音声信号を音声認識部18へ供給して、次のステップSP36へ移る。
【0109】
ステップSP36においてカーナビゲーション装置1のCPU11は、マイク5から供給された音声信号を音声認識部18に対して認識させ、当該音声認識部18から認識結果が供給されたか否かを判断する。このとき肯定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度で、かつ最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、その認識結果をCPU11へ供給したことを表しており、カーナビゲーション装置1のCPU11は、当該認識結果を受信し、次のステップSP37へ移る。
【0110】
これに対してステップSP36において否定結果が得られると、このことは、音声認識部18が、マイク5から供給された音声信号とRAM13上に読み出した言語モデルとを比較し、基準値以上の一致度となる言語モデルが得られず、CPU11へ認識結果を供給しなかったことを表しており、カーナビゲーション装置1のCPU11は、ステップSP35に戻って上述の処理を繰り返す。
【0111】
ステップSP37においてカーナビゲーション装置1のCPU11は、音声認識部18から供給された認識結果を受信すると、例えば認識結果から得られた質問に対する回答をモニター3に表示する。このようしてカーナビゲーション装置1のCPU11は、認識結果に対応する質問回答処理を行い、次のステップSP38へ移って処理を終了する。
【0112】
(6)動作及び効果
以上の構成において、カーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が回転操作されたことを認識すると、メニュー項目であるメニューアイコンMIが付された初期メニュー画面MW1をモニター3に表示する。その後、カーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が回転操作されることにより場所アイコンMI1が選択されたことを認識したときから、当該場所アイコンMI1に対応する場所辞書14Aに登録された複数の言語モデルをHDD14からRAM13上に読み出す。
【0113】
そしてカーナビゲーション装置1のCPU11は、場所辞書14Aに登録された複数の言語モデルをRAM13上に読み出し終えた時点から、場所アイコンMI1が選択されている間のみ、音声入力を受け付ける。
【0114】
このときカーナビゲーション装置1のCPU11は、ユーザの発話した音声をマイク5によって集音させ、その結果得られた音声信号を音声認識部18へ供給し、その音声信号を音声認識部18に対して認識させる。音声認識部18は、マイク5から供給された音声信号と、RAM13上に読み出された言語モデルとを比較し、基準値以上の一致度である言語モデルのうち、最も一致度の高い言語モデルに対応した単語又は単語列を認識結果として得、CPU11へ当該認識結果を供給する。カーナビゲーション装置1のCPU11は、音声認識部18から受信した認識結果に対応する目的地検索処理を行うようにした。
【0115】
従ってカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の場所アイコンMI1が選択された場合、当該場所アイコンMI1に対応する場所辞書14Aに登録された言語モデルだけをHDD14からRAM13上に読み出すことにより、認識対象となる言語モデルを限定している分だけ、それ以外の言語モデルに対応した単語又は単語列を誤認識してしまうことを回避できるので、音声認識率を上げることができる。
【0116】
因みにカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の地図アイコンMI2、AVアイコンMI3、電話アイコンMI4、WebアイコンMI5及び質問アイコンMI6が選択されたことを認識した場合も同様に、HDD14からそれぞれ地図辞書14B、AV辞書14C、電話辞書14D、Web辞書14E及び質問辞書14Fに登録された言語モデルだけをRAM13上に読み出し、認識対象となる言語モデルを限定している分だけ、それ以外の言語モデルに対応した単語又は単語列を誤認識してしまうことを回避できるので、音声認識率を上げることができる。
【0117】
カーナビゲーション装置1のCPU11は、初期メニュー画面MW1の例えば場所アイコンMI1が選択され、場所辞書14Aに登録された言語モデルをRAM13上に読み出し終えた時点から直ちにユーザの音声が入力された場合、音声とノイズとを判別する必要がなく、ノイズとして扱われてしまうような音声でも認識することができるので、その分だけ音声認識率を上げることができる。
【0118】
またカーナビゲーション装置1のCPU11は、音声認識処理を行うタイミングをユーザが知っていた場合、ユーザが意識的に静かな環境を作るためにノイズを減らすので、音声認識率を上げることができる。
【0119】
さらにカーナビゲーション装置1のCPU11は、音声認識処理を行うタイミングをユーザが知らない場合にも、初期メニュー画面MW1のメニューアイコンMIのいずれかを選択させ続けている間だけ、音声入力を受け付けるようにしたことにより、例えばラジオの音声やユーザ同士の音声といったノイズが混入される機会を減らすことができるため、音声認識処理における当該ノイズによる誤認識を減らすことができるので、音声認識率を上げることができる。
【0120】
またカーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が回転操作されることにより、モニター3に初期メニュー画面MW1を表示し、当該初期メニュー画面MW1上の例えば場所アイコンMI1が選択されたことを認識したとき以降、音声入力を受け付けるようにした。従ってカーナビゲーション装置1は、音声入力を受け付けるまでに、ユーザに対して回転操作子21を回転操作させるだけ良く、従来のような複数回の操作を行わせる必要がない分、使い勝手を向上できる。
【0121】
カーナビゲーション装置1は、運転席8と助手席(図示せず)との間に設けられたシフトレバー9の近くにロータリコマンダ4を載置するようになされており、ユーザが自動車10を運転している場合でも、ユーザの姿勢をほとんど変えさせることなくロータリコマンダ4を操作させることができ、かつ手探り状態でも当該ロータリコマンダ4を操作させることができる。これによりカーナビゲーション装置1は、ユーザにロータリコマンダ4を注視させなくても簡易に操作を行わせることができる。
【0122】
さらにカーナビゲーション装置1のCPU11は、ロータリコマンダ4の回転操作子21が回転操作されたことを認識すると、モニター3に初期メニュー画面MW1を表示し、当該初期メニュー画面MW1上の例えば場所アイコンMI1が選択されたことを認識したとき以降、音声入力を受け付けるため、例えばDVDを再生している場合であっても音声認識処理を行うことができる。
【0123】
以上の構成によれば、カーナビゲーション装置1は、ロータリコマンダ4の回転操作子21を回転操作されたことを認識すると、初期メニュー画面MW1をモニター3に表示し、例えば場所アイコンMI1が選択されたことを認識したときから、場所辞書14Aに登録された言語モデルをRAM13上に読み出し終えた時点から、当該場所アイコンMI1が選択されている間だけ音声入力を受け付け、マイク5から供給された音声信号と、RAM13上に読み出した言語モデルとを音声認識部18に比較させ、その結果得られた認識結果に対応した目的地検索処理を行うことでき、かくして簡易な操作で、かつ音声認識率を上げながら使い勝手を向上することができる。
【0124】
またカーナビゲーション装置1のCPU11は、初期メニュー画面MW1の地図アイコンMI2、AVアイコンMI3、電話アイコンMI4、WebアイコンMI5及び質問アイコンMI6が選択された場合も同様に、マイク5から供給された音声信号と、地図辞書14B、AV辞書14C、電話辞書14D、Web辞書14E及び質問辞書14Fに登録された言語モデルとを音声認識部18に比較させ、その結果得られた認識結果に対応した地図操作処理、AV操作処理、電話操作処理、サーバ接続処理及び質問回等処理を行うことができ、かくして簡易な操作で、かつ音声認識率を上げながら使い勝手を向上することができる。
【0125】
(7)他の実施の形態
なお上述した実施の形態においては、ロータリコマンダ4の回転操作子21が回転操作させることにより、初期メニュー画面MW1の例えば場所アイコンMI1が選択されている間だけ、音声入力を受け付けるようにした場合について述べたが、本発明はこれに限らず、タクトスイッチにより、初期メニュー画面MW1の例えば場所アイコンMI1が選択され、当該タクトスイッチが押下されている間だけ、音声入力を受け付けるようにしても良い。
【0126】
この場合カーナビゲーション装置1は、図9に示すように、ハンドル107にタクトスイッチでなる上ボタンUB及び下ボタンDBが設けられ、上ボタンUB及び下ボタンDBが押下操作されたことを認識すると、初期メニュー画面MW1をモニター3に表示し、上ボタンUB及び下ボタンDBが押下され続けている間だけ、音声入力を受け付けるようにする。
【0127】
また上述した実施の形態においては、ロータリコマンダ4の回転操作子21が、左右一定の範囲に回転操作させることができ、かつ力が加えられていない状態において、左右の基準位置に復帰する場合について述べたが、本発明はこれに限らず、回転操作子21を左右に回転操作させることができ、かつ力を加えられていない状態において、基準位置に復帰せず、その位置に止まるようにしても良い。この場合、カーナビゲーション装置1は、ロータリコマンダ4が操作され続けていることを認識するために、例えばタッチセンサ等を設ける必要がある。
【0128】
さらに上述した実施の形態においては、運転席8と助手席(図示せず)との間に設けられたシフトレバー9の近くにロータリコマンダ4が載置された場合について述べたが、本発明はこれに限らず、自動車10のハンドル7又はシフトレバー9に設けられるようにしても良く、要は自動車10を運転中のユーザに姿勢を変えさせることなく、かつ手探り状態でも操作させられる位置であればどこでも良い。
【0129】
さらに上述した実施の形態においては、ロータリコマンダ4の回転操作子21を回転操作させることにより、初期メニュー画面MW1の例えば場所アイコンMI1が選択されている間だけ、音声入力を受け付けるようにした場合について述べたが、本発明はこれに限らず、ロータリコマンダ4の回転操作子21を回転操作させることにより、初期メニュー画面MW1の例えば場所アイコンMI1が選択されてから一定時間の間、音声入力を受け付けるようにしても良いし、場所アイコンMI1が選択された後、発声ボタンが押下されてから音声入力を受け付けるようにしても良い。
【0130】
さらに上述した実施の形態においては、ロータリコマンダ4の回転操作子21が回転操作されたことにより回転検出部22から開始信号を供給されたカーナビゲーション装置1のCPU11が、モニター3に初期メニュー画面MW1を表示し、メニューアイコンMIの何れも橙色に表示していないようにした場合について述べたが、本発明はこれに限らず、ロータリコマンダ4の回転操作子21が回転操作されたことにより回転検出部22から開始信号を供給されたカーナビゲーション装置1のCPU11が、モニター3に初期メニュー画面MW1を表示すると同時に、場所アイコンMI1を橙色に表示するようにしても良い。
【0131】
さらに上述した実施の形態においては、ロータリコマンダ4の回転操作子21を回転操作させることにより、初期メニュー画面MW1をモニター3に表示した場合について述べたが、本発明はこれに限らず、図10に示すように、ロータリコマンダ4回転操作子21を回転操作させることにより、メニューアイコンMIと、例えば「ロータリコマンダをタッチしている間、音声認識を行います」等の通知文とからなる初期メニュー画面MW2をモニター3に表示するようにしても良い。
【0132】
これによりカーナビゲーション装置1は、ロータリコマンダ4の回転操作子21が操作されている間だけ、音声入力が受け付けられていることをユーザに伝えることにより、音声認識処理が行われていることをユーザに意識させることができる。
【0133】
さらに上述した実施の形態においては、初期メニュー画面MW1の例えば場所アイコンMI1が選択され、場所辞書14Aに格納された言語モデルをRAM13上に読み出し終わった時点から、マイク5による音声入力を受け付けるようにした場合について述べたが、本発明はこれに限らず、初期メニュー画面MW1の例えば場所アイコンMI1が選択された時点から、マイク5による音声入力を受け付けるようにしても良い。
【0134】
この場合、カーナビゲーション装置1のCPU11は、場所辞書14Aに格納された言語モデルをRAM13上に読み出すと同時に、マイク5による音声入力を受け付けることになるが、実際上、当該言語モデルを読み出す時間が短いため、当該言語モデルを読み出し終える前に、音声認識することはない。
【0135】
さらに上述した実施の形態においては、カーナビゲーション装置1のCPU11が、予めHDD14に格納されているアプリケーションプログラムに従い、上述したルーチンRT1の音声認識処理手順を行うようにした場合について述べたが、本発明はこれに限らず、記憶媒体からインストールしたアプリケーションプログラムや、インターネットからダウンロードしたアプリケーションプログラム、その他種々のルートによってインストールしたアプリケーションプログラムに従って上述した音声認識処理手順を行うようにしても良い。
【0136】
さらに上述した実施の形態においては、選択項目認識手段としてCPU11、記憶手段としてHDD14、辞書読出手段としてCPU11、音声認識手段として音声認識部18によって本発明の音声認識装置としてのカーナビゲーション装置1を構成するようにした場合について述べたが、本発明はこれに限らず、この他種々の構成でなる選択項目認識手段、記憶手段、辞書読出手段及び音声認識手段によってナビゲーション装置を構成するようにしても良い。
【産業上の利用可能性】
【0137】
本発明の音声認識装置及び音声認識方法は、例えばカーナビゲーション装置以外の携帯電話機、オーディオ装置等のその他種々に実装された音声認識装置及び音声認識方法に適用することができる。
【図面の簡単な説明】
【0138】
【図1】カーナビゲーション装置の構成(1)を示す略線図である。
【図2】カーナビゲーション装置の構成(2)を示す略線図である。
【図3】ロータリコマンダの構成を示す略線図である。
【図4】カーナビゲーション装置の回路構成を示す略線図である。
【図5】ハードディスクドライブの構成を示す略線図である。
【図6】メニュー画面の様子を示す略線図である。
【図7】音声認識処理手順(1)の説明に供するフローチャートである。
【図8】音声認識処理手順(2)の説明に供するフローチャートである。
【図9】他の実施形態におけるハンドルを示す略線図である。
【図10】他の実施形態におけるメニュー画面の様子を示す略線図である。
【符号の説明】
【0139】
1……カーナビゲーション装置、2……本体部、3……モニター、4……ロータリコマンダ、5……マイク、6……スピーカ、7……ハンドル、8……運転席、9……シフトレバー、10……自動車、11……CPU、12……ROM、13……RAM、14……HDD、15…GPSユニット、16……AV処理部、17……音声処理部、18……音声認識部、21……回転操作子、22……回転検出部、23……操作ボタン群、31……決定ボタン、32……左ボタン、33……上ボタン、34……左ボタン、35……下ボタン。
【特許請求の範囲】
【請求項1】
表示手段に対して表示した階層型メニューでなる初期メニュー画面上の複数の項目の中から所定の操作手段を介してユーザにより選択された任意の選択項目を認識する選択項目認識手段と、
上記複数の項目の内容にそれぞれ関連した単語及び単語列からなる複数の言語モデルが登録されている項目別辞書を複数種類記憶する記憶手段と、
上記選択項目認識手段により上記選択項目を認識したときから、上記選択項目に対応した上記項目別辞書に登録されている言語モデルを上記記憶手段から読み出す辞書読出手段と、
上記選択項目認識手段により上記選択項目を認識したとき以降、当該認識している間だけ上記ユーザの音声を入力し、その音声信号と、上記辞書読出手段により読み出した上記言語モデルとを比較し、上記音声信号と最も一致度の高い上記言語モデルに対応した上記単語又は上記単語列を認識結果して供給する音声認識手段と
を具えることを特徴とする音声認識装置。
【請求項2】
上記音声認識手段は、
上記辞書読出手段により上記言語モデルを全て読み出し終わってから上記ユーザの音声を入力する
ことを特徴とする請求項1に記載の音声認識装置。
【請求項3】
上記音声認識装置は、
上記選択項目認識手段により上記選択項目を認識したとき、上記音声認識手段による音声認識処理が行われている旨を上記表示手段に表示させることにより通知する通知手段と
を具えることを特徴とする請求項1に記載の音声認識装置。
【請求項4】
上記操作手段は、
回転操作子が上記ユーザにより回転操作されたことに応じて上記初期メニュー画面上の上記複数の項目の中から上記選択項目を選択し、上記回転操作子が回転操作された後、上記回転操作子が何ら力を加えられなくなると、所定の位置に上記回転操作子が復帰する
ことを特徴とする請求項1に記載の音声認識装置。
【請求項5】
表示手段に対して表示した階層型メニューでなる初期メニュー画面上の複数の項目の中から所定の操作手段を介してユーザにより選択された任意の選択項目を認識する選択項目認識ステップと、
上記選択項目認識ステップにより上記選択項目を認識したときから、上記複数の項目の内容にそれぞれ関連した単語及び単語列からなる複数の言語モデルが登録されている項目別辞書を複数種類記憶する上記記憶手段から、上記選択項目に対応した上記項目別辞書に登録されている言語モデルを読み出す辞書読出ステップと、
上記選択項目認識ステップにより上記選択項目を認識した時点以降、当該認識している間だけユーザの音声を入力し、その音声信号と、上記辞書読出ステップにより読み出した上記言語モデルとを比較し、上記音声信号と最も一致度の高い上記言語モデルに対応した上記単語又は上記単語列を認識結果して供給する音声認識ステップと
を具えることを特徴とする音声認識方法。
【請求項1】
表示手段に対して表示した階層型メニューでなる初期メニュー画面上の複数の項目の中から所定の操作手段を介してユーザにより選択された任意の選択項目を認識する選択項目認識手段と、
上記複数の項目の内容にそれぞれ関連した単語及び単語列からなる複数の言語モデルが登録されている項目別辞書を複数種類記憶する記憶手段と、
上記選択項目認識手段により上記選択項目を認識したときから、上記選択項目に対応した上記項目別辞書に登録されている言語モデルを上記記憶手段から読み出す辞書読出手段と、
上記選択項目認識手段により上記選択項目を認識したとき以降、当該認識している間だけ上記ユーザの音声を入力し、その音声信号と、上記辞書読出手段により読み出した上記言語モデルとを比較し、上記音声信号と最も一致度の高い上記言語モデルに対応した上記単語又は上記単語列を認識結果して供給する音声認識手段と
を具えることを特徴とする音声認識装置。
【請求項2】
上記音声認識手段は、
上記辞書読出手段により上記言語モデルを全て読み出し終わってから上記ユーザの音声を入力する
ことを特徴とする請求項1に記載の音声認識装置。
【請求項3】
上記音声認識装置は、
上記選択項目認識手段により上記選択項目を認識したとき、上記音声認識手段による音声認識処理が行われている旨を上記表示手段に表示させることにより通知する通知手段と
を具えることを特徴とする請求項1に記載の音声認識装置。
【請求項4】
上記操作手段は、
回転操作子が上記ユーザにより回転操作されたことに応じて上記初期メニュー画面上の上記複数の項目の中から上記選択項目を選択し、上記回転操作子が回転操作された後、上記回転操作子が何ら力を加えられなくなると、所定の位置に上記回転操作子が復帰する
ことを特徴とする請求項1に記載の音声認識装置。
【請求項5】
表示手段に対して表示した階層型メニューでなる初期メニュー画面上の複数の項目の中から所定の操作手段を介してユーザにより選択された任意の選択項目を認識する選択項目認識ステップと、
上記選択項目認識ステップにより上記選択項目を認識したときから、上記複数の項目の内容にそれぞれ関連した単語及び単語列からなる複数の言語モデルが登録されている項目別辞書を複数種類記憶する上記記憶手段から、上記選択項目に対応した上記項目別辞書に登録されている言語モデルを読み出す辞書読出ステップと、
上記選択項目認識ステップにより上記選択項目を認識した時点以降、当該認識している間だけユーザの音声を入力し、その音声信号と、上記辞書読出ステップにより読み出した上記言語モデルとを比較し、上記音声信号と最も一致度の高い上記言語モデルに対応した上記単語又は上記単語列を認識結果して供給する音声認識ステップと
を具えることを特徴とする音声認識方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2009−25753(P2009−25753A)
【公開日】平成21年2月5日(2009.2.5)
【国際特許分類】
【出願番号】特願2007−191437(P2007−191437)
【出願日】平成19年7月23日(2007.7.23)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
【公開日】平成21年2月5日(2009.2.5)
【国際特許分類】
【出願日】平成19年7月23日(2007.7.23)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
[ Back to top ]