説明

ナビゲーション装置

【課題】 より使い勝手よく、音声認識による住所入力を可能とする。
【解決手段】 ナビゲーション装置は、ユーザに任意の位置で住所を区切って音声入力させ、区切られた住所の音声ごとに、音声認識する。具体的には、トークボタンが押下されている間に入力された音声を一つの塊として、入力された音声の順に認識する。認識結果を順に並べて表示し、訂正の指示は、区切りで受け付ける。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ナビゲーション装置に関し、特に車載用ナビゲーション装置の音声認識による住所入力に関する。
【背景技術】
【0002】
特許文献1には、ユーザが発話した住所を認識する車載用ナビゲーション装置が記載されている。この車載用ナビゲーション装置は、住所入力の際、まず、「都道府県」を問いかける。そして、ユーザから音声入力を受け付け、入力された音声を認識し「都道府県」を特定し表示する。つぎに、「都市名」を問いかけ、入力された音声を認識し「都市名」を特定し表示する。つぎに、「町村名」を問いかけ、入力された音声を認識し「町村名」を特定し表示する。つぎに、「丁、番地、号」を問いかけ、入力された音声を認識し「丁、番地、号」を特定し表示する。
【0003】
【特許文献1】特開2001−215994号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
特許文献1の方法では、ユーザは、いちいち問われるのを待たなければならない。一方で、ユーザに最初から住所の全てを言わせた後に音声認識したのでは、ユーザが言い間違った場合や、音声認識に誤りがあった場合、再度、ユーザに住所の全てを最初から言わせることになる。これでは、使い勝手が悪い。
【0005】
本発明の目的は、より使い勝手よく、音声認識による住所入力を可能とすることにある。
【課題を解決するための手段】
【0006】
上記課題を解決すべく、本発明では、ユーザが入力しようとする語句(例えば、住所)を、任意の位置で区切って音声入力させる。そして、入力された音声を区切りごとに認識する。認識結果の訂正は、その区切りで行えるようにする。
【0007】
例えば、本発明のナビゲーション装置は、ユーザにより任意に区切られた語句の音声を順に取得する手段と、前記区切られた語句の音声をそれぞれ認識する音声認識手段と、前記区切られた語句の音声ごとの認識結果を順に並べて出力する出力手段とを備えている。
【0008】
また、前記ナビゲーション装置は、前記認識結果の訂正箇所の指定を受け付ける訂正箇所指定手段を備えていてもよい。そして、前記音声取得手段は、前記訂正箇所指定手段により指定された箇所に対応する語句の音声を再取得する。前記音声認識手段は、前記再取得された音声を音声認識する。前記出力手段は、前記訂正箇所指定手段により指定された箇所の認識結果として前記再取得された音声の認識結果を出力する。
【0009】
また、前記ナビゲーション装置は、ユーザが発した音声を入力するための音声入力装置と、ユーザが操作するためのボタンを備える入力装置とを備えていてもよい。そして、前記音声取得手段は、前記ボタンが押下されるごとに、当該ボタンが押下されている間に前記音声入力装置に入力された音声を、前記区切られた語句の音声として順に取得するようにしてもよい。
【発明を実施するための最良の形態】
【0010】
以下に、本発明の一実施形態について、図面を参照して説明する。
【0011】
図1は、車載用ナビゲーション装置100の概略構成図である。図示するように、車載用ナビゲーション装置100は、演算処理部1と、ディスプレイ2と、記憶装置3と、音声入出力装置4と、入力装置5と、車輪速センサ6と、地磁気センサ7と、ジャイロセンサ8と、GPS(Global Positioning System)受信装置9と、を備えている。
【0012】
演算処理部1は、様々な処理を行う中心的ユニットである。例えば各種センサ6〜8やGPS受信装置9から出力される情報を基にして現在位置を検出する。また、音声入出力装置4から入力された音声を認識し、認識した語句から、ユーザの入力内容を特定する。
【0013】
ディスプレイ2は、演算処理部1で生成されたグラフィックス情報を表示するユニットである。
【0014】
記憶装置3は、CD-ROMやDVD-ROMやHDDやICカードといった記憶媒体で構成されている。この記憶媒体には、地図データが記憶されている。
【0015】
音声入出力装置4は、ユーザが発話した音声を取得し、演算処理部1に送信する。また、演算処理部1で生成したユーザへのメッセージを音声信号に変換し出力する。
【0016】
入力装置5は、ユーザからの指示を受け付けるユニットである。図2は、入力装置5の構成を示す。入力装置5は、リモコンであり、トークボタン51を備えている。トークボタン51は、音声入力を受け付けるためのボタンである。なお、入力装置5は、スクロールキー、縮尺変更キーなどのハードスイッチ、ジョイスティック、ディスプレイ上に貼られたタッチパネルなどを備えていても良い。
【0017】
センサ6〜8およびGPS受信装置9は、車載用ナビゲーション装置100で現在地(自車位置)を検出するために使用されるものである。
【0018】
図3は、演算処理部1の機能ブロック図である。
【0019】
図示するように、演算処理部1は、ユーザ操作解析部41と、音声認識部42と、ナビゲーション処理部43と、情報記憶部44、表示処理部45と、音声辞書データベース46と、を備えている。
【0020】
ユーザ操作解析部41は、入力装置5に入力されたユーザからの要求を受け、その要求内容を解析して、その要求内容に対応する処理が実行されるように演算処理部1の各部を制御する。また、音声入出力装置4に入力され音声認識部42により認識された語句からユーザの入力内容を解析して、その入力内容に対応する処理が実行されるように演算処理部1の各部を制御する。
【0021】
音声認識部42は、音声入出力装置4を介してユーザが発話した音声を取得する。そして、取得した音声を、音声辞書データベース46を用いて認識し、ユーザが発した語句(単語)を特定する。音声から語句を認識する音声認識の手法は、既存の技術を適用できる。例えば、DP(動的計画法)マッチングを用いる方法やHMM(隠れマルコフモデル)を用いる方法などを適用できる。なお、音声辞書データベース46には、音声認識に必要な音声モデルが語句に対応させて格納されている。
【0022】
ナビゲーション処理部43は、各センサ6〜8及びGPS受信装置9の出力から現在位置を求めたり、指定された2地点(現在地、目的地)間を結ぶ推奨経路を探索したりする。また、地点検索において、住所の入力があったときは、その住所に対応する地点を地図データから検索し、ディスプレイ2に表示する処理を行う。
【0023】
情報記憶部44は、音声認識部42で認識された語句や、ナビゲーション処理部43により検索された地点の情報を記憶する。
【0024】
表示処理部45は、ディスプレイ2への描画コマンドを生成する。例えば、指定された縮尺、描画方式で、道路、その他の地図構成物や、現在地、目的地、推奨経路のための矢印といったマークを描画するように地図描画コマンドを生成する。
【0025】
図4は、演算処理部1のハードウェア構成例を示す図である。
【0026】
図示するように、演算処理部1は、各デバイス間をバス32で接続した構成としてある。演算処理部1は、数値演算及び各デバイスを制御するといった様々な処理を実行するCPU(Central Processing Unit)21と、記憶装置3から読み出した地図データ、演算データなどを格納するRAM(Random Access Memory)22と、プログラムやデータを格納するROM(Read Only Memory)23と、メモリ間およびメモリと各デバイスとの間のデータ転送を実行するDMA(Direct Memory Access)24と、グラフィックス描画を実行し且つ表示制御を行う描画コントローラ25と、グラフィックスイメージデータを蓄えるVRAM(Video Random Access Memory)26と、イメージデータをRGB信号に変換するカラーパレット27と、アナログ信号をデジタル信号に変換するA/D変換器28と、シリアル信号をバスに同期したパラレル信号に変換するSCI(Serial Communication Interface)29と、パラレル信号をバスに同期させてバス上にのせるPIO(Parallel Input/Output)30と、パルス信号を積分するカウンタ31と、を有する。
【0027】
[動作の説明]次に、上記構成の車載用ナビゲーション装置100の音声認識による住所入力に関する動作について説明する。
【0028】
図5は、かかる音声認識による住所入力の処理のフロー図である。また、図6は、かかる処理におけるディスプレイ2の表示画面の遷移例である。
【0029】
このフローは、例えば、ナビゲーション処理部43の地点検索の処理において、ユーザから入力装置5を介して、音声による住所入力の要求があった場合に開始される。
【0030】
まず、音声認識部42は、図6(a)に示すように、住所の音声入力を受け付ける旨のメッセージを画面500に表示する(S101)。例えば、「トークボタンを押しながら、住所を発話してください。」などと、音声入力を促すためのメッセージを表示処理部45を介して表示する。なお、音声認識部42は、音声入出力装置4を介して音声によりメッセージを出力してもよい。
【0031】
次に、音声認識部42は、後述するS105において前回ユーザの発話が終了したときから、所定時間(例えば10秒)経過したか否か判定する(S102)。
【0032】
所定時間経過していない場合(S102でNo)、音声認識部42は、ユーザ操作解析部41の出力に基づいて、入力装置5のトークボタン51が押下されたか否か判定する(S103)。押下されていない場合、S102に戻って処理を続ける。
【0033】
一方、トークボタン51が押下された場合(S103でYes)、音声認識部42は、音声入力装置4に入力されている音声の取得を開始する(S104)。
【0034】
そして、トークボタン51の押下が解除されると(S105でYes)、音声認識部42は、トークボタン51が押下されている間に取得した音声を一塊(一区切りの音声)として、情報記憶部44に記憶する(S106)。そして、S102に戻り、処理を続ける。
【0035】
すなわち、音声認識部42は、トークボタン51が押下されるたびに、トークボタン51が押下されている間に取得した音声を一塊として順番に記憶していく。例えば、ユーザがトークボタン51を押下するごとに、「神奈川県」、「横浜市」、「戸塚区」、「吉田町」及び「*−*−*」とそれぞれ発話した場合、情報記憶部44には、「神奈川県」、「横浜市」、「戸塚区」、「吉田町」及び「*−*−*」に対応する音声がそれぞれ順番に格納される。また、例えば、ユーザがトークボタン51を押下するごとに、「神奈川県横浜市」、「戸塚区吉田町」及び「*−*−*」とそれぞれ発話した場合、情報記憶部44には、「神奈川県横浜市」、「戸塚区吉田町」及び「*−*−*」に対応する音声がそれぞれ順番に格納される。すなわち、ユーザにより任意に区切られた住所の音声が順番に格納される。
【0036】
S102において、音声認識部42は、トークボタン51の押下がなされることなく所定時間が経過したか否か、又はユーザから入力装置5を介して音声認識の要求を受け付けたか否かを判定する。
【0037】
所定時間が経過した場合又は音声認識の要求があった場合(S102でYes)、音声認識部42は、情報記憶部44に格納されている音声を、塊ごとに順番に認識する。そして、音声認識部42は、図7に示すように、認識結果を塊471ごとに、情報記憶部44の中の認識結果格納テーブル470に格納する(S107)。
【0038】
次に、音声認識部42は、認識結果格納テーブル470に格納された認識結果を、塊ごとに順番に並べて表示する(S108)。図6(b)に表示画面の例を示す。画面510には、ユーザにより任意に区切られた住所511が順番に表示されている。
【0039】
このとき、音声認識部42は、住所の訂正箇所を指定するためのマーク512を、区切られた住所511ごとに、順に移動させて、表示する(S109)。なお、マーク512が最後の語句まで移動した場合、また最初の語句に戻るようにする。
【0040】
そして、この間、音声認識部42は、トークボタン51が押下されたか否か判定する(S110)。
【0041】
トークボタン51が押下された場合(S110でYes)、音声認識部42は、前記したS104に移行し、処理を続ける。すなわち、トークボタン51が押下されている間に音声入出力装置4に入力された音声を取得する。そして、トークボタン51が押下されるごとに、取得した音声を一塊として記憶する。S107においては、新たに取得した音声について、塊ごとに、認識を行い、認識結果格納テーブル470に格納する。ただし、既に格納されている認識結果の中から、訂正部分を削除して更新する必要がある。すなわち、S110において訂正のためにトークボタン51が押されたときに、マーク512が指示していた住所の一部の認識結果と、それに続く部分の認識結果を認識結果格納テーブル470から削除する。そして、残った認識結果に、新たに認識した結果を追加する。
【0042】
そして、音声認識部42は、再びS109において、認識結果格納テーブル470に格納された認識結果に基づいて、認識結果の表示を行う。
【0043】
図6(c)及び(d)を参照して説明する。図6(c)のように、「横浜市戸塚区」の部分にマーク512が来たときに、ユーザがボタン51を押して「横浜市栄区」、「OO町」及び「*−*−*」と、住所を発話し直したとする。かかる場合、図6(d)に示すように、ユーザによりボタン51が押されたときにマーク512が指示していた箇所以降の住所が訂正され表示される。
【0044】
ここで、再び、区切られた住所ごとにマーク512を移動させて表示し(S109)、トークボタン51の押下された場合(S110でYes)、音声認識部42は、S104以降の処理を行う。したがって、ユーザは必要に応じて、訂正を何度も繰り返すことができる。
【0045】
音声認識部42は、認識結果の表示を行っている間(S109〜S110)に、ユーザから確定要求があった場合(S111でYes)、認識結果を確定し(S112)現在の認識結果(住所)をナビゲーション処理部43に出力する。
【0046】
これを受けて、ナビゲーション処理部43は、音声認識部42により特定された住所に対応する地点を地図データの中から検索し、検索した住所の地点の周辺地図をディスプレイ2に表示処理部45を介して表示する(S114)。
【0047】
以上、地点検索において、音声により住所入力を受け付け、音声認識により入力された住所を特定し、特定した住所に対応する地点を地図表示するまでの流れを説明した。なお、図5で示した処理の途中で、ユーザから入力装置5を介して、住所入力処理の終了を要求された場合も、音声認識部42は、本処理を終了する。
【0048】
以上、本発明の一実施形態について説明した。
【0049】
本実施形態によれば、ユーザにより任意に区切られ発せられた語句(住所)の音声を取得する。そして、区切られた音声(一塊の音声)ごとに、認識を行う。また、区切られた音声の認識結果ごとに、訂正指示を受け付ける。したがって、ユーザは、自由に音声認識の単位(音声認識させる語句の長さ)を定めることができ、使い勝手がよいものとなる。例えば、ユーザは、音声認識しやすい語句については、長めに区切って音声入力し、音声認識されにくい語句については、短めに区切って音声入力することが可能となる。また、音声認識すべき区間がユーザにより指定されるので、入力された音声の中から発話区間を特定するといった問題がなく、発話区間が明確となり認識率を向上できる。
【0050】
本発明は、上記実施形態に限定されない。上記実施形態は、本発明の技術的思想の範囲内で、様々な変形が可能である。
【0051】
例えば、上記実施形態では、ユーザが最終的に入力しようとする語句の全部(住所の全部)の入力を待ってから、音声認識を開始しているが、これに限られない。トークボタン51の押下が解除され、押下中に音声入出力装置4に入力された音声を一塊として取得したら(S106)、直ちにその一塊の音声を認識して、認識した語句を表示するようにしてもよい。すなわち、トークボタンが押下されるごとに、押下中に発せられた音声を取得し、音声認識し、表示するようにする。そして、訂正指示を受け付けたときは、新たに音声を取得し、上記の方法と同様に、新たに取得した音声から認識された語句により、訂正指示された語句を訂正する。
【0052】
また、音声認識において、先に入力された音声から特定の概念が認識された場合、続いて入力された音声の認識では、その概念に含まれる候補に絞って認識するようにしてもよい。具体的には、「都道府県」が認識された場合、その次に入力された音声からは、認識された都道府県に含まれる市町村に候補を絞って認識する。
【0053】
また、上記実施形態では、地点検索において住所入力する場合について説明したが、これに限られない。目的地の設定の際の住所入力や、自宅住所の入力、電話番号の検索のための住所入力の際にも適用できる。
【0054】
また、住所でなくても、階層構造をもつデータの入力に適用できる。例えば、「5枚目のCD」、「歌手**」、「曲名**」などと、音楽の曲目の指定を受け付けるときにも適用できる
また、上記の実施形態では、本発明を車載用ナビゲーション装置に適用した例について説明したが、本発明は車載用以外のナビゲーション装置にも適用することができる。また、ナビゲーション装置以外の機器(オーディオ機器など)にも適用できる。
【図面の簡単な説明】
【0055】
【図1】図1は、本発明の一実施形態が適用された車載用ナビゲーション装置の概略構成図である。
【図2】図2は、入力装置の概略構成図である。
【図3】図3は、演算処理部1の機能構成を示す図である。
【図4】図4は、演算処理部1のハードウェア構成を示す図である。
【図5】図5は、地点検索における音声認識による住所入力の処理のフロー図である。
【図6】図6は、表示画面の遷移例である。
【図7】図7は、認識結果格納テーブルの構成を示す図である。
【符号の説明】
【0056】
100…車載用ナビゲーション装置、
1…演算処理部、2…ディスプレイ、3…記憶装置、4…音声出入力装置、5…入力装置、6…車輪速センサ、7…地磁気センサ、8…ジャイロ、9…GPS受信装置、21…CPU、22…RAM、23…ROM、24…DMA、25…描画コントローラ、26…VRAM、27…カラーパレット、28…A/D変換器、29…SCI、30…PIO、31…カウンタ、41…ユーザ操作解析部、42…音声認識装置、43…ナビゲーション装置、44…情報記憶部、45…表示処理部、47…音声辞書データベース

【特許請求の範囲】
【請求項1】
ナビゲーション装置であって、
ユーザにより任意に区切られた語句の音声を順に取得する手段と、
前記区切られた語句の音声をそれぞれ認識する音声認識手段と、
前記区切られた語句の音声ごとの認識結果を順に並べて出力する出力手段と
を備えることを特徴とするナビゲーション装置。
【請求項2】
請求項1において、
前記認識結果の訂正箇所の指定を受け付ける訂正箇所指定手段を備え、
前記音声取得手段は、
前記訂正箇所指定手段により指定された箇所に対応する語句の音声を再取得し、
前記音声認識手段は、
前記再取得された音声を音声認識し、
前記出力手段は、
前記訂正箇所指定手段により指定された箇所の認識結果に代えて前記再取得された音声の認識結果を出力する
ことを特徴とするナビゲーション装置。
【請求項3】
請求項1において、
ユーザが発した音声を入力するための音声入力装置と、
ユーザが操作するためのボタンを備える入力装置とを備え、
前記音声取得手段は、
前記ボタンが押下されるごとに、当該ボタンが押下されている間に前記音声入力装置に入力された音声を、前記区切られた語句の音声として順に取得する
ことを特徴とするナビゲーション装置。
【請求項4】
ナビゲーション装置であって、
ユーザが発した音声を入力するための音声入力装置と、
ユーザが操作するためのボタンを備える入力装置と、
住所の発話を促すメッセージを出力する手段と、
前記ボタンが押下されるごとに、当該ボタンが押下されている間に前記音声入力装置に入力された音声を、区切られた住所の音声として順に取得する音声取得手段と、
前記区切られた住所の音声をそれぞれ認識する音声認識手段と、
前記区切られた住所の音声ごとの認識結果を順に並べて表示する表示手段と、
前記表示手段により表示された認識結果の訂正箇所の指定を受け付ける訂正箇所指定手段とを備え、
前記音声取得手段は、
前記表示手段により認識結果が表示されている間に前記ボタンが押下された場合、当該ボタンが押下されている間に前記音声入力装置に入力された音声を取得し、
前記音声認識手段は、
前記音声取得手段により取得された音声を認識し、
前記表示手段は、
前記訂正箇所指定手段により指定された箇所の認識結果として当該取得された音声の認識結果を表示する
ことを特徴とするナビゲーション装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2007−25075(P2007−25075A)
【公開日】平成19年2月1日(2007.2.1)
【国際特許分類】
【出願番号】特願2005−204847(P2005−204847)
【出願日】平成17年7月13日(2005.7.13)
【出願人】(591132335)株式会社ザナヴィ・インフォマティクス (745)
【Fターム(参考)】