説明

音声認識システム及びナビゲーション装置

【課題】地名の変遷と地図データのバージョンの変遷との対応関係に関わらず、地名の音声認識を適切に行うことができる技術を提供する。
【解決手段】ナビゲーション装置は、ユーザが入力した地名の音声データに対して、ナビ自身が保有する音声認識辞書によって該当の地名を認識できなかった場合、音声データとバージョン情報をサーバへ送信する(S105)。サーバ側では、バージョンの異なる音声認識辞書から該当の地名を認識する(S202)。そして、サーバによる認識結果を、要求元のナビゲーション装置に搭載されている地図データのバージョンに適合する認識結果に変換して(S206)、ナビゲーション装置へ返信する(S209)。ナビゲーション装置側では、その変換された認識結果を用いて、自身が保有する地図データから地名に関するデータを検索する(S106)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ナビゲーションシステムにおける地名や住所の音声入力に用いられる音声認識技術に関する。
【背景技術】
【0002】
従来、車載用のナビゲーション装置では、ユーザによる操作の負担を軽減して走行中の安全性を確保するための手段として、音声認識技術を利用した音声操作が利用されている。例えば、ナビゲーション装置において設定すべき目的地を、ユーザが住所や地名、施設名を音声で入力するために用いられる。
【0003】
また、携帯電話や通信モジュール等を利用して、ナビゲーション装置からセンタサーバに接続して、互いに情報の送受信をするサービスも実用化している。
これらの技術を組み合わせることで、ナビゲーション装置からセンタサーバへユーザの音声データを送信し、センタサーバ側でその音声データに基づく音声認識を実行して、その認識結果をナビゲーション装置へ返信する技術も提案されている(例えば、特許文献1参照)。
【特許文献1】特開2005−91611号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところで、一般的なナビゲーション装置では、地図データに格納されている住所データに基づいて、住所検索や目的地の設定を行う機能を備えている。また、ナビゲーション装置に用いられる地図データの更新は定期的に行われている。地図の更新データは例えば年1回程度の頻度で発行されており、この更新データをナビゲーション装置に適用することで、最新バージョンの地図データを利用可能になる。
【0005】
一方、昨今では、市町村合併に伴い市町村名等の地名が頻繁に変更されている。しかしながら、ナビゲーション装置で用いられる地図データにおいては、次の更新時期に最新バージョンの地図データが発行されるまで、その変更された地名は反映されない。また、新しいバージョンの地図データがリリースされたとしても、ユーザがそれを即座にナビゲーション装置に適用するとは限らない。
【0006】
したがって、最新バージョンの地図データが発行され、それをナビゲーション装置に適用するまでの間、変更された最新の住所に基づく住所検索や目的地の設定をすることができず、ユーザは不便を強いられる。
【0007】
あるいは、地名の変更を把握していないユーザにとっては、最新の地図データがナビゲーション装置に適用されることで、変更前の古い地名を用いて住所検索や目的地の設定をすることができなくなるといった不便が生じることも考えられる。
【0008】
特に、住所検索に用いる地名や目的地を音声で入力する場合、新しい地名が地図データに反映されているか否かをユーザが把握した上で、検索対象の住所や地名を発話することは困難である。つまり、地名の変遷と地図データのバージョンの変遷との対応関係をユーザが知らなければ、現行の地図データに未だ反映されていない新しい地名を発話してしまう可能性がある。その結果、地名の音声認識が正しくなされず、検索対象の地名や目的地を正しく設定できないとった不便が生じることが考えられる。
【0009】
あるいは、最新バージョンの地図データが適用されたナビゲーションシステムにおいて、そのバージョンの地図データにおいて既に廃止された古い地名を発話してしまい、その結果、地名の音声認識が正しくなされず、検索対象の地名や目的地を正しく設定できないことも考えられる。
【0010】
本発明は、上記問題を解決するためになされており、ナビゲーションシステムにおいて、地名の変遷と地図データのバージョンの変遷との対応関係に関わらず、地名の音声認識を適切に行うことができる技術を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するためになされた請求項1に記載の音声認識システムは、ナビゲーション装置とサーバ装置とが互いにデータ通信可能に構成されている。
このうち、ナビゲーション装置は、地図データを格納する地図記憶手段と、地図記憶手段に格納されている地図データ内の地名関連情報を音声認識で特定するための比較対象パターンを有する音声認識辞書を記憶する辞書手段と、発話者の音声を入力する音声入力手段と、認識手段と、端末側送信手段と、端末側受信手段と、検索手段とを備える。
【0012】
認識手段は、音声入力手段を介して入力された音声データを音声認識辞書の比較対象パターンに照合して地名関連情報の音声認識を行う。端末側送信手段は、認識手段において音声入力手段から入力された音声データに適合するパターンが存在せず、地名関連情報の音声認識ができなかった場合、その入力された音声データと、地図記憶手段に格納されている地図データのバージョンを示すバージョン情報とを、サーバ装置へ送信する。端末側受信手段は、端末側送信手段によって送信した音声データ及びバージョン情報に対する応答として、サーバ装置から送信されてくる認識結果を受信する。検索手段は、認識手段において地名関連情報の音声認識が成功した場合、その音声認識された地名関連情報に関するデータを地図記憶手段に格納されている地図データから検索する一方、認識手段において地名関連情報の音声認識ができなかった場合、端末側受信手段によってサーバ装置から受信した認識結果で示される地名関連情報に関するデータを地図データから検索する。
【0013】
一方、サーバ装置は、それぞれバージョンの異なる複数の地図データと、各バージョンの地図データにそれぞれ対応する複数の音声認識辞書とを格納するデータベースと、サーバ側受信手段と、サーバ側認識手段と、変換手段と、サーバ側送信手段とを備える。
【0014】
サーバ側受信手段は、ナビゲーション装置から音声データ及びバージョン情報を受信する。サーバ側認識手段は、データベースに格納されている複数の音声認識辞書の中から比較対象の音声認識辞書を順次選択し、サーバ側受信手段によって受信した音声データを、当該選択した比較対象の音声認識辞書の比較対象パターンに照合して地名関連情報の音声認識を行う。変換手段は、サーバ側認識手段による音声認識において地名関連情報の認識に成功した際に使用した音声認識辞書に対応する地図データと、サーバ側受信手段によって受信したバージョン情報に該当する地図データとの比較に基づき、サーバ側認識手段による地名関連情報の認識結果を、サーバ側受信手段によって受信したバージョン情報に該当する地図データに適合する地名関連情報の認識結果に変換する。サーバ側送信手段は、変換手段によって変換された認識結果を、当該音声データ及びバージョン情報の送信元であるナビゲーション装置へ送信する。なお、サーバ装置のデータベースには、最新バージョンの地図データ及び音声認識辞書を含む、新旧併せてなるべく多くのバージョンの地図データ及び音声認識辞書を格納しておくのが望ましい。
【0015】
このように構成された音声認識システムによれば、ユーザが入力した音声データに基づき、ナビゲーション装置側の地図データに対応する音声認識辞書によって該当の地名関連情報を認識できなかった場合、サーバ装置側で、バージョンの異なる地図データの音声認識辞書から該当の地名関連情報を認識できる。すなわち、ユーザが発話した地名関連情報が、ナビゲーション装置が保有する地図データの音声認識辞書に未収録の新しい地名のものであったり、既に廃止された古い地名のものであっても、サーバ側で保有している新旧複数のバージョンの地図データに対応する音声認識辞書によって地名関連情報を認識できるのである。
【0016】
そして、サーバ装置による認識結果を、要求元のナビゲーション装置に搭載されている地図データのバージョンに適合する認識結果に変換して、ナビゲーション装置へ返信することで、ナビゲーション装置側では、その変換された認識結果を用いて、自身が保有する地図データから地名関連情報に関するデータを検索できるようになる。
【0017】
このようにすることで、ユーザは、地名の変遷と地図データのバージョンの変遷との対応関係を意識することなく、ナビゲーション装置に対して地名関連情報の音声入力を行うことができるので便利である。
【0018】
つぎに、請求項2に記載の音声認識システムは、以下のような特徴を有する。
サーバ装置では、サーバ側認識手段による音声認識において地名関連情報の認識に成功した際に使用した音声認識辞書における当該音声データに適合した比較対象パターンに、変換手段によって変換された認識結果の地名関連情報を対応付けた変換辞書を生成する変換辞書生成手段を更に備える。そして、サーバ側送信手段は、更に、変換辞書生成手段によって作成された変換辞書を、当該音声データ及びバージョン情報の送信元であるナビゲーション装置へ送信する。
【0019】
一方、ナビゲーション装置では、端末側受信手段は、更に、サーバ装置から送信されてくる変換辞書を受信する。また、この端末側受信手段によって受信した変換辞書を記憶する変換辞書記憶手段を更に備える。そして、認識手段は、辞書手段に記憶されている音声認識辞書と、変換辞書記憶手段に記憶されている変換辞書とを併用して音声認識を行い、変換辞書記憶手段に記憶されている変換辞書の比較対象パターンに適合する音声データに対しては、その変換辞書の比較対象パターンに対応付けられている地名関連情報を認識結果とする。
【0020】
このように構成することで、サーバ装置側で地名関連情報の音声認識を行った際に作成した変換辞書をナビゲーション装置が音声認識に用いることで、ナビゲーション装置側で地図データを更新することなく、同様の地名関連情報の音声認識をナビゲーション装置で行えるようになる。つまり、サーバ装置から変換辞書を受信しておけば、次回からは、同様の音声認識をサーバ装置との通信を行うことなく成功できるようになり、音声認識に係る処理負荷や通信コストを低減できる。
【0021】
つぎに、請求項3に記載の音声認識システムは、以下のような特徴を有する。サーバ装置では、サーバ側送信手段は、更に、サーバ側認識手段による音声認識において地名関連情報の認識に成功した際に使用した音声認識辞書に対応する地図データのバージョンを示すバージョン情報を、当該音声データ及びバージョン情報の送信元であるナビゲーション装置へ送信する。
【0022】
一方、ナビゲーション装置では、端末側受信手段は、更に、サーバ装置から送信されてくるバージョン情報を受信する。そして、端末側受信手段によって受信したバージョン情報と、地図記憶手段に格納されている地図データのバーションとの差異に関する情報をユーザに対して報知する報知手段を更に備える。
【0023】
報知手段による具体的な報知内容としては、例えば、ユーザにより音声入力された地名関連情報に対する認識結果が、ナビゲーション装置に搭載された地図データよりも新しい(古い)バージョンの地図データを基づくものである旨を通知するものであったり、音声認識の結果がナビゲーション装置に搭載された地図データよりもバージョンの新しい地図データに該当するものであれば、最新バージョンの地図データへの更新を促す旨のものであってもよい。
【0024】
このように構成することで、地名の変遷と地図データのバージョンの変遷との対応関係をユーザが把握することができ、それを基に、ナビゲーション装置の地図データを更新したり、あるいは、既に廃止された地名を現行の地名へと言い直したりといった具合に、適切な対応をとることができる。
【0025】
なお、サーバ装置が複数のバージョンの音声認識辞書の中から、音声データの照合を行う場合、請求項4に記載のように、サーバ側受信手段によって受信したバージョン情報と同一のバージョンの音声認識辞書を最初に用いるようにするとよい。すなわち、サーバ装置側でも、最初にナビゲーション装置側の音声認識辞書と同じバージョンの音声認識辞書から音声認識を行うのである。
【0026】
一般的に、車載用あるいは携帯用のナビゲーション装置に用いられる情報処理装置と、センタに配置されるサーバ装置に用いられる情報処理装置とでは、サーバ装置の方が高い処理能力を有することが多い。したがって、ノイズ等の多い音声データに基づいて音声認識を行う場合、ナビゲーション装置側の情報処理装置では音声認識に失敗したとしても、より高性能なサーバ装置では、同じ音声認識辞書を使って音声認識に成功する可能性もある。したがって、ナビゲーション装置側で音声認識に失敗した場合、まず、より高性能なサーバ装置に同じバージョンの音声認識辞書で音声認識を代行させることで、ナビゲーション装置側と同じバージョンの音声認識辞書から認識結果を得られる可能性が高まり、好適である。
【0027】
つぎに、請求項5に記載のナビゲーション装置によれば、請求項1〜4に記載の音声認識システと同様の効果を奏する。なお、このようなナビゲーション装置は、車両に搭載されるものであってもよいし、ユーザに携帯されるものであってもよい。
【発明を実施するための最良の形態】
【0028】
以下、本発明の一実施形態を図面に基づいて説明する。
[音声認識システムの構成の説明]
図1は、実施形態の音声認識システムの概略構成を示すブロック図である。実施形態の音声認識システムは、車両に搭載されるナビゲーション装置1と、このナビゲーション装置1と電話回線網4を介して通信可能な情報センタ5とからなる。
【0029】
図1に示すように、ナビゲーション装置1は、車両の現在位置を検出する位置検出器21と、ユーザからの各種指示を入力するための操作スイッチ群22と、地図データやプログラム等の各種データを記憶する外部記憶装置であるハードディスクドライブ(以下、HDD)23と、各種情報を記憶するための外部メモリ24と、地図表示画面等の各種表示を行うための表示装置25と、音声コントローラ26と、スピーカ27と、音声認識部28と、マイク29と、電話回線網4を介して情報センタ5との間で無線通信を行うための通信装置30と、制御部31とを備える。
【0030】
位置検出器21は、GPS(Global Positioning System)用の人工衛星からの送信信号をGPSアンテナを介して受信し、車両の位置や高度を検出するGPS受信機21aと、車両に加えられる回転運動の角速度に応じた検出信号を出力するジャイロスコープ21bと、車両の速度に応じた検出信号を出力する車速センサ21cとを備えている。そして、これらの各センサ21a〜21cは、各々がそれぞれ性質の異なる誤差を有しているため、互いに補完しながら使用するように構成されている。
【0031】
操作スイッチ群22は、表示装置25の表示画面上に一体に設置させるタッチパネル及び表示装置25の周囲に設けられたメカニカルなキースイッチ等によって構成される。
HDD23は、制御部31からの制御に基づいて記憶媒体であるハードディスクからデータを読み出し、これを制御部31へ入力する。このHDD23が記憶しているデータは、地図データ、位置検出精度向上のためのマップマッチングデータ、経路案内用データ、ナビゲーション装置1の作動のためのプログラム等である。なお、地図画像表示や、住所による地点情報の検索、目的地までの経路計算等に用いられる地図データには、その地図データの発行元による改訂の版(バージョン)を示すバージョン情報(例えば、Ver.○○)が記録されている。
【0032】
外部メモリ24は、例えば電気的に書き換え可能な不揮発性の半導体メモリ等が用いられ、ナビゲーション装置1における各種処理に用いられるデータ等を記憶する。表示装置25は、液晶ディスプレイ等の表示面を有するカラー表示装置であり、制御部31からの映像信号の入力に応じて各種画像を表示面に表示可能である。例えば、ナビゲーション画面として、地図データに基づく地図画像と、位置検出器21にて検出した車両の現在位置を示すマークと、更に地図上に表示する誘導経路や地名、目印等の付加情報とを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面や、その選択肢を選んだ場合に、更に複数の選択肢を表示するコマンド入力画面等も表示することができる。
【0033】
音声認識部28は、上記操作スイッチ群22が手動操作により各種コマンド入力のために用いられるのに対して、利用者が音声で入力することによっても同じように各種コマンドを入力できるようにするための装置である。この音声認識部28は、マイク29を介して入力されたユーザの発話音声と、内部に記憶する音声認識辞書中の語彙データ(比較対象パターン)とを照合し、最も一致度の高い語彙データで示される単語を認識結果として音声コントローラ26へ入力する。
【0034】
なお、音声認識部28は、地図データ内の住所データをユーザからの住所地名の発話音声によって検索する処理に用いる音声認識辞書として、HDD23内に格納されている地図データのバージョンと対応するバージョンの住所認識用の音声認識辞書を格納している。この住所認識用の音声認識辞書は、対応するバージョンの地図データ内に含まれる住所地名の語彙に対応する比較対象パターンを記録したものである。すなわち、本実施形態の音声認識システムでは、地図データの1バージョンにつき、それに1対1で対応する住所認識用の音声認識辞書を用いて住所地名の音声認識が行われる。
【0035】
音声コントローラ26は、音声認識部28における認識結果に基づき、音声入力を行ったユーザに対してスピーカ27を介して応答音声を出力する処理や、ナビゲーションシステム自体の処理を実行する制御部31に対して、例えば経路案内処理や住所検索のために必要な目的地や住所、コマンド等を通知して、目的地の設定や住所の検索、コマンドを実行させるように指示する処理を行う。
【0036】
通信装置30は、設定された通信先情報によって特定される通信先とのデータ通信を行うためのものであり、例えば携帯電話等のナビゲーション装置1に着脱可能な移動体通信機や、ナビゲーション装置1に直接組み込まれる通信モジュール等が用いられる。通信装置30は、無線基地局41及び電話局42からなる電話回線網4を介して情報センタ5との間でデータ通信を行う。
【0037】
制御部31は、CPU,ROM,RAM,I/O及びこれらの構成を接続するバスライン等からなる周知のコンピュータを中心に構成に構成されており、上述した各部構成を制御する。この制御部31は、ROMやHDD23から読み出したプログラムに従って各種処理を実行する。
【0038】
例えば、ナビゲーション関係の処理としては、地図表示処理や経路案内処理等が上げられる。地図表示処理は、位置検出器21からの各種検出信号に基づいて座標及び進行方向の組として車両の現在位置を算出し、HDD23から読み込んだ現在位置付近の地図等を表示する処理である。また、経路案内処理は、HDD23に格納されている地図データと、ユーザから手動又は音声により指定された目的地とに基づいて、現在位置から目的地までの最適経路を算出し、その算出した経路に対する走行案内を行う処理である。このように、自動的に最適な経路を計算する手法として、ダイクストラ法によるコスト計算等の手法が知られている。
【0039】
また、音声認識関係の処理としては、音声認識部28による認識結果に基づいて音声コントローラ26から入力される各種指示に基づき、ユーザの発話に対する所定の処理を実行する。ユーザが音声で入力することで実行される処理の一例として、表示中の地図の縮尺を変更する処理、メニュー画面やコマンド画面を呼び出し、その画面内の選択肢やコマンドを選択指示する処理、経路案内の目的地となる地名や住所を入力する処理、経路探索の実行を指示する処理、経路案内の開始を指示する処理、地図上に表示された現在位置を修正する処理、表示画面を変更する処理、音声出力の音量を調整する処理等が挙げられる。
【0040】
さらに、制御部31は、本発明における特徴的な処理として、ユーザから入力された住所地名の発話音声に対する音声認識に失敗した場合、その音声データと地図データのバージョン情報とを情報センタ5へ送信し、情報センタ5から返信された認識結果で示される住所地名に基づき、その住所地名に該当の住所データを検索する処理を行う。なお、この処理に関する詳細な説明については後述する。
【0041】
一方、情報センタ5は、回線端末装置51と、サーバ52と、データベース53とを備えている。
回線端末装置51は、電話回線網4を介してナビゲーション装置1との間でデータ通信を行うための装置である。
【0042】
サーバ52は、適宜な処理能力を有する情報処理装置からなるサーバ装置であり、ナビゲーション装置1から送信されてくる音声データに対して、データベース53に格納されている音声認識辞書を用いて音声認識を行い、その認識結果を回線端末装置51を介して当該音声データの要求元であるナビゲーション装置1へ返信する処理を実行する。
【0043】
データベース53には、初版から最新版までの全バージョンの地図データ及び、その全バージョンの地図データにそれぞれ対応する住所認識用の音声認識辞書が格納されている。当然ながら、このデータベース53には、ナビゲーション装置1が保有する地図データ及びその地図データに対応する住所認識用の音声認識辞書と同一のバージョンの地図データ及び音声認識辞書も格納されている。
【0044】
[住所音声認識処理の説明]
本実施形態の音声認識システムにおけるナビゲーション装置1と情報センタ5とが連携して行う住所音声認識処理について、図2のフローチャートを参照して説明する。図2の左側のフローチャートは、ナビゲーション装置1の制御部31が実行する処理の手順を示しており、右側のフローチャートは情報センタ5のサーバ52が実行する処理の手順を示している。
【0045】
まず、ナビゲーション装置1側において、マイク29を介してユーザから住所地名の発話音声が入力される(S101)。そして、音声認識部28によってユーザから入力された住所地名の発話音声の音声データに対する音声認識を実行する(S102)。そして、音声コントローラ26から入力された音声認識部28による認識結果に基づき、当該音声データの音声認識が成功したか否かを判定する(S103)。ここで、音声認識部28による当該音声データの音声認識に成功したと判定した場合(S103:YES)、S106の処理へ移行する。
【0046】
一方、S103で、音声認識部28において住所地名の音声認識ができなかったと判定した場合(S103:NO)、通信装置30によって情報センタ5のサーバ52に対して通信接続を行う(S104)。サーバ52に通信接続した後、音声認識できなかった音声データ及び、HDD23に格納されている地図データのバージョンを示すバージョン情報を、サーバ52に対して送信する(S105)。
【0047】
ここで、音声認識部28においてユーザから入力された音声データに該当する住所地名の音声認識ができない原因としては、次のようなものが考えられる。まず、入力された音声データ自体が不明瞭であったり、ノイズの影響等により発話内容を正常に認識できない場合が挙げられる。さらに、発話内容自体が正常であっても、ユーザの発話した住所地名が、ナビゲーション装置1のHDD23に格納されている地図データのバージョンには収録されていない場合等が挙げられる。
【0048】
後者の場合、例えば市町村合併等に伴い改名された新しい地名が地図データに反映されているか否かをユーザが把握した上で、検索対象の住所や地名を発話することは難しい。つまり、地名の変遷と地図データのバージョンの変遷との対応関係をユーザが知らなければ、ナビゲーション装置1が保有する地図データに未だ反映されていない新しい地名を発話してしまう可能性がある。あるいは、ナビゲーション装置1が最新バージョンの地図データを保有している場合、そのバージョンの地図データでは既に廃止された古い地名を発話してしまう可能性もある。何れの場合でも、ナビゲーション装置1が保有する住所認識用の音声認識辞書では住所地名の音声認識が正しくなされない。
【0049】
一方、サーバ52では、回線端末装置51を介してナビゲーション装置1から音声データ及びバージョン情報を受信すると、まず、データベース53が保有している各バージョンの音声認識辞書の中から、ナビゲーション装置1から受信したバージョン情報に該当する音声認識辞書を最初に使用する音声認識辞書として設定する(S201)。
【0050】
そして、当該設定した音声認識辞書を用いて、ナビゲーション装置1から受信した住所地名の音声データに対する音声認識を実行する(S202)。そして、当該音声データの音声認識が成功したか否かを判定する(S203)。ここで、当該音声データに該当する住所地名の音声認識ができなかったと判定した場合(S203:NO)、データベース53が保有している音声認識辞書の中に、当該音声データに対する音声認識に未だ使用していない音声認識辞書があるか否かを判定する(S204)。
【0051】
ここで、未使用の音声認識辞書があると判定した場合(S204:YES)、データベース53内にある未使用の音声認識辞書の中から、次に使用する音声認識辞書を選択し、使用する音声認識辞書の設定をその選択した音声認識辞書に変更し(S205)、S202の処理へ戻る。S202では、当該変更した音声認識辞書を用いて、ナビゲーション装置1から受信した住所地名の音声データに対する音声認識を実行する。
【0052】
なお、次に使用する音声認識辞書を選択する際、ナビゲーション装置1から受信したバージョン情報で示されるバージョンよりも新しい音声認識辞書、又は古い音声認識辞書の何れかから先に選択するように構成してもよいし、新しい音声認識辞書と古い音声認識辞書とを交互に選択するように構成してもよい。
【0053】
以降、ナビゲーション装置1から受信した音声データに対する音声認識が成功するまで、S202〜S205の処理を順次繰り返すことで、データベース53が保有する音声認識辞書を変更しながら音声認識を繰り返し試行する。そして、S203で当該音声データの音声認識に成功したと判定した場合(S203:YES)、S206の処理へ移行する。
【0054】
S206では、S202での音声認識に成功した際に使用した音声認識辞書のバージョンと同一バージョンの地図データと、ナビゲーション装置1から受信したバージョン情報に該当する地図データとを比較し、その比較結果から、S202での住所地名の認識結果を、ナビゲーション装置1から受信したバージョン情報に該当する地図データに適合する住所地名の認識結果に変換する。
【0055】
具体的には、S202での音声認識で得られた認識結果で示される住所地名に該当する地域を、その音声認識に使用した音声認識辞書と同一のバージョンの地図データから特定する。そして、この特定した地域をナビゲーション装置1から受信したバージョン情報に該当する地図データに照らし合わせ、この地図データから、その特定した地域に該当する住所地名を変換後の認識結果として取得する。
【0056】
例えば、S202での音声認識において、ナビゲーション装置1から受信したバージョン情報よりも新しい音声認識辞書を使用して「新刈谷市」という住所地名の認識結果を得たと想定する。一方、ナビゲーション装置1から受信したバージョン情報に該当する古い地図データでは、この新しい地図データにおける「新刈谷市」に相当する地理的範囲の住所地名が「刈谷市」となっていた場合、この「刈谷市」という呼称を変換後の認識結果として取得する。
【0057】
逆に、S202での音声認識において、ナビゲーション装置1から受信したバージョン情報よりも古い音声認識辞書を使用して「刈谷市」という住所地名の認識結果を得たと想定する。一方、ナビゲーション装置1から受信したバージョン情報に該当する新しい地図データでは、この古い地図データにおける「刈谷市」に相当する地理的範囲の住所地名が「新刈谷市」となっていた場合、この「新刈谷市」という呼称を変換後の認識結果として取得する。
【0058】
S206で認識結果の変換を行った後、S202での音声認識において住所地名の認識に成功した際に使用した音声認識辞書において当該音声データに合致した比較対象パターンに対して、変換後の認識結果の住所地名を対応付けた変換辞書を生成する(S207)。例えば、S202での音声認識において「新刈谷市」という住所地名の認識結果を得たと想定する。一方、S206での認識結果の変換では「新刈谷市」という認識結果を「刈谷市」という認識結果に変換したと想定する。この場合、音声認識で用いた音声認識辞書において「新刈谷市」という発話音声に適合する比較対象パターンに対して、変換された認識結果である「刈谷市」という認識結果を対応付けた変換辞書を作成する。この変換辞書を音声認識に適用することで、「新刈谷市」という発話音声に対して「刈谷市」という変換された認識結果を出力することができるようになる。
【0059】
つぎに、S209では、S206で変換した認識結果と、S207で作成した変換辞書と、S202での音声認識で住所地名の認識に成功した際に使用した音声変換辞書のバージョンを示すバージョン情報とを、当該音声データの送信元であるナビゲーション装置1に対して送信する(S209)。
【0060】
一方、S202〜S205の処理を順次繰り返すことで、データベース53が保有する音声認識辞書を変更しながら音声認識を繰り返し試行した結果、音声認識に成功しないままS204で未使用の音声認識辞書がなくなったと判定した場合(S204:NO)、認識不可であると決定する(S208)。そして、次のS209では、音声認識が不可能であった旨を認識結果として、当該音声データの送信元であるナビゲーション装置1に対して送信する。
【0061】
一方、ナビゲーション装置1では、S102で住所地名の音声認識に成功した場合の認識結果、または、情報センタ5から送信されてきた認識結果の何れかを用いて、HDD23内の地図データから住所データの検索を行う(S106)。ここでの住所データの検索結果は、例えば目的地設定等のナビゲーション関連の各処理で利用される。なお、情報センタ5から送信されてきた認識結果が「認識不可」を示す場合、住所データの検索を行わず、認識エラーである旨をユーザに対して通知する。
【0062】
つぎに、S106での検索に用いた認識結果が、情報センタ5で音声認識されたものであるか否かを判定する(S107)。ここで、当該認識結果が情報センタ5で音声認識されたものであると判定した場合(S107:YES)、当該認識結果と共に情報センタ5から送信されてきた変換辞書を外部メモリ24に登録する。以降、外部メモリ24に登録された変換辞書は、S102での音声認識の際に音声認識辞書と併せて用いられる。そして、音声認識部28は、外部メモリ24に記憶されている変換辞書の比較対象パターンに適合する音声データに対しては、その変換辞書の比較対象パターンに対応付けられている住所地名を認識結果として出力する。
【0063】
つぎに、当該認識結果と共に情報センタ5から送信されてきたバージョン情報と、自機のHDD23に格納されている地図データのバーションとの差異に関する情報を、表示装置25やスピーカを介してユーザに報知する。例えば、情報センタ5側で音声認識に用いた音声認識辞書のバージョンが、自機が保有する地図データのバーションよりも新しい場合、当該音声データの認識結果は、自車両に搭載されている地図データよりも新しい地図データに適合するものである旨を表示や音声で報知することが考えられる。また、地図データの更新を促すメッセージを報知するようにしてもよい。反対に、情報センタ5側で音声認識に用いた音声認識辞書のバージョンが、自機が保有する地図データのバーションよりも古い場合、当該音声データの認識結果は、自車両に搭載されている地図データにおいては既に廃止されたものである旨を表示や音声で報知することが考えられる。
【0064】
以上、実施形態の音声認識システムの動作について説明したが、本実施形態の音声認識システムの構成と特許請求の範囲に記載した構成との対応は次のとおりである。
ナビゲーション装置1のHDD23が地図記憶手段に相当し、音声認識部28が辞書手段及び認識手段に相当する。また、マイク29が音声入力手段に相当し、制御部31が実行する住所音声認識処理(図2参照)におけるS105の処理、及び通信装置30が端末側送信手段に相当する。また、通信装置30が端末側受信手段に相当し、制御部31が実行する住所音声認識処理におけるS106の処理が検索手段に相当する。また、外部メモリ24が変換辞書記憶手段に相当し、制御部31が実行する住所音声認識処理におけるS109の処理、表示装置25、及びスピーカ27が報知手段に相当する。
【0065】
一方、情報センタ5における回線端末装置51がサーバ側受信手段に相当し、サーバ52が実行する住所音声認識処理におけるS201,S202,S203,S204,S205の処理がサーバ側認識手段に相当する。また、サーバ52が実行する住所音声認識処理におけるS206の処理が変換手段に相当し、S207の処理が変換辞書作成手段に相当する。また、サーバ52が実行する住所音声認識処理におけるS209の処理及び回線端末装置51がサーバ側送信手段に相当する。
【0066】
[効果]
上記実施形態の音声認識システムによれば、以下のような効果を奏する。
(1)ユーザから入力された音声データに基づき、ナビゲーション装置1側で該当の住所地名を認識できなかった場合、情報センタ5側でナビゲーション装置1に搭載されている地図データとはバージョンの異なる地図データに対応する音声認識辞書から該当の住所地名を認識できる。すなわち、ユーザが発話した住所地名が、ナビゲーション装置1が保有する地図データの音声認識辞書に未収録の新しい地名のものであったり、既に廃止された古い地名のものであっても、情報センタ5側で保有している新旧複数のバージョンの地図データに対応する音声認識辞書によって住所地名を認識できるのである。そして、サーバ52による認識結果を、要求元のナビゲーション装置1に搭載されている地図データのバージョンに適合する認識結果に変換してナビゲーション装置1へ返信することで、ナビゲーション装置1側では、その変換された認識結果を用いて、自身が保有する地図データから住所地名に関するデータを検索できるようになる。このようにすることで、ユーザは、地名の変遷と地図データのバージョンの変遷との対応関係を意識することなく、ナビゲーション装置1に対して住所地名の音声入力を行うことができるので便利である。
【0067】
(2)サーバ52が住所地名の音声認識を行った際に作成した変換辞書をナビゲーション装置1が音声認識に用いることで、ナビゲーション装置1側で地図データを更新することなく、同様の住所地名の音声認識をナビゲーション装置1で行えるようになる。つまり、情報センタ5からから変換辞書を受信しておけば、次回からは、同様の音声認識を情報センタ5との通信を行うことなく成功できるようになり、音声認識に係る処理負荷や通信コストを低減できる。
【0068】
(3)ナビゲーション装置1が情報センタ5から受信したバージョン情報と、自機が保有する地図データのバーションとの差異に関する情報をユーザに対して報知することで、地名の変遷と地図データのバージョンの変遷との対応関係をユーザが把握することができ、それを基に、ナビゲーション装置の地図データを更新したり、あるいは、既に廃止された地名を現行の地名へと言い直したりといった具合に、適切な対応をとることができる。
【0069】
(4)サーバ52がナビゲーション装置1から受信した音声データに基づく音声認識を開始する際、ナビゲーション装置1から受信したバージョン情報と同一の音声認識辞書を最初に用いる。すなわち、サーバ52側でも、最初にナビゲーション装置1側の音声認識辞書と同じバージョンの音声認識辞書から音声認識を行うのである。一般的に、車載用あるいは携帯用のナビゲーション装置に用いられる情報処理装置と、情報センタのような大規模な施設に設置されるサーバ装置に用いられる情報処理装置とでは、サーバ装置の方が高い処理能力を有することが多い。したがって、発話が不明瞭であったりノイズの多い音声データに基づいて音声認識を行う場合、ナビゲーション装置側では音声認識に失敗したとしても、より高性能なサーバ装置では、同じ音声認識辞書を使って音声認識に成功する可能性もある。したがって、本実施形態では、ナビゲーション装置1側で音声認識に失敗した場合、まず、サーバ52に同じバージョンの音声認識辞書で音声認識を代行させることで、ナビゲーション装置1が保有する音声認識辞書と同じ音声認識辞書から認識結果を得られる可能性が高まる。
【0070】
[変形例]
以上、本発明の実施形態について説明したが、本発明は上記の実施形態に何ら限定されるものではなく、本発明の技術的範囲に属する限り様々な態様にて実施することが可能である。
【0071】
例えば、上記実施形態では音声認識システムの構成として車載用のナビゲーション装置について説明したが、車載用に限らず、例えば人などの移動体に携帯されるナビゲーション装置を適用してもよい。
【0072】
また、上記実施形態では地名関連情報の一例として、住所地名を音声認識の対象としたが、これに限らず、例えば地図上に記録されている施設名、道路名、交差点名等を本発明における音声認識の対象にしてもよい。
【図面の簡単な説明】
【0073】
【図1】実施形態の音声認識システムの概略構成を示すフローチャートである。
【図2】ナビゲーション装置1と情報センタ5とが連携して行う住所音声認識処理の手順を示すフローチャートである。
【符号の説明】
【0074】
1…ナビゲーション装置、21…位置検出器、22…操作スイッチ群、23…ハードディスクドライブ、24…外部メモリ、25…表示装置、26…音声コントローラ、27…スピーカ、28…音声認識部、29…マイク、30…通信装置、31…制御部、4…電話回線網、41…無線基地局、42…電話局、5…情報センタ、51…回線端末装置、52…サーバ、53…データベース

【特許請求の範囲】
【請求項1】
ナビゲーション装置と、サーバ装置とが互いにデータ通信可能に構成された音声認識システムであって、
前記ナビゲーション装置は、
地図データを格納する地図記憶手段と、
前記地図記憶手段に格納されている地図データ内の地名関連情報を音声認識で特定するための比較対象パターンを有する音声認識辞書を記憶する辞書手段と、
発話者の音声を入力する音声入力手段と、
前記音声入力手段を介して入力された音声データを前記音声認識辞書の比較対象パターンに照合して地名関連情報の音声認識を行う認識手段と、
前記認識手段において、前記音声入力手段から入力された音声データに適合するパターンが存在せず、地名関連情報の音声認識ができなかった場合、その入力された音声データと、前記地図記憶手段に格納されている地図データのバージョンを示すバージョン情報とを、前記サーバ装置へ送信する端末側送信手段と、
前記端末側送信手段によって送信した音声データ及びバージョン情報に対する応答として、前記サーバ装置から送信されてくる認識結果を受信する端末側受信手段と、
前記認識手段による地名関連情報の音声認識が成功した場合、その音声認識された地名関連情報に関するデータを前記地図記憶手段に格納されている地図データから検索する一方、前記認識手段による地名関連情報の音声認識ができなかった場合、前記端末側受信手段によって前記サーバ装置から受信した認識結果で示される地名関連情報に関するデータを地図データから検索する検索手段とを備え、
前記サーバ装置は、
それぞれバージョンの異なる複数の地図データと、各バージョンの地図データにそれぞれ対応する複数の前記音声認識辞書とを格納するデータベースと、
前記ナビゲーション装置から音声データ及びバージョン情報を受信するサーバ側受信手段と、
前記データベースに格納されている複数の音声認識辞書の中から比較対象の音声認識辞書を順次選択し、前記サーバ側受信手段によって受信した音声データを、当該選択した比較対象の音声認識辞書の比較対象パターンに照合して地名関連情報の音声認識を行うサーバ側認識手段と、
前記サーバ側認識手段による音声認識において地名関連情報の認識に成功した際に使用した音声認識辞書に対応する地図データと、前記サーバ側受信手段によって受信したバージョン情報に該当する地図データとの比較に基づき、前記サーバ側認識手段による地名関連情報の認識結果を、前記サーバ側受信手段によって受信したバージョン情報に該当する地図データに適合する地名関連情報の認識結果に変換する変換手段と、
前記変換手段によって変換された認識結果を、当該音声データ及びバージョン情報の送信元であるナビゲーション装置へ送信するサーバ側送信手段とを備えること
を特徴とする音声認識システム。
【請求項2】
請求項1に記載の音声認識システムにおいて、
前記サーバ装置では、
前記サーバ側認識手段による音声認識において地名関連情報の認識に成功した際に使用した音声認識辞書における当該音声データに適合した比較対象パターンに対して、前記変換手段によって変換された認識結果の地名関連情報を対応付けた変換辞書を生成する変換辞書生成手段を更に備え、
前記サーバ側送信手段は、更に、前記変換辞書生成手段によって生成された変換辞書を、当該音声データ及びバージョン情報の送信元であるナビゲーション装置へ送信し、
前記ナビゲーション装置では、
前記端末側受信手段は、更に、前記サーバ装置から送信されてくる変換辞書を受信し、
前記端末側受信手段によって受信した変換辞書を記憶する変換辞書記憶手段を更に備え、
前記認識手段は、前記辞書手段に記憶されている音声認識辞書と、前記変換辞書記憶手段に記憶されている変換辞書とを併用して音声認識を行い、前記変換辞書記憶手段に記憶されている変換辞書の比較対象パターンに適合する音声データに対しては、その変換辞書の比較対象パターンに対応付けられている地名関連情報を認識結果とすること
を特徴とする音声認識システム。
【請求項3】
請求項1又は請求項2に記載の音声認識システムにおいて、
前記サーバ装置では、
前記サーバ側送信手段は、更に、前記サーバ側認識手段による音声認識において地名関連情報の認識に成功した際に使用した音声認識辞書に対応する地図データのバージョンを示すバージョン情報を、当該音声データ及びバージョン情報の送信元であるナビゲーション装置へ送信し、
前記ナビゲーション装置では、
前記端末側受信手段は、更に、前記サーバ装置から送信されてくるバージョン情報を受信し、
前記端末側受信手段によって受信したバージョン情報と、前記地図記憶手段に格納されている地図データのバーションとの差異に関する情報をユーザに対して報知する報知手段を更に備えること
を特徴とする音声認識システム。
【請求項4】
請求項1ないし請求項3の何れか1項に記載の音声認識システムにおいて、
前記サーバ装置では、
前記サーバ側認識手段は、前記データベースに格納されている複数の音声認識辞書の中から、前記サーバ側受信手段によって受信したバージョン情報と同一のバージョンの音声認識辞書を最初に用いて音声認識を行うこと
を特徴とする音声認識システム。
【請求項5】
請求項1ないし請求項4の何れか1項に記載の音声認識システムを構成するナビゲーション装置。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2010−91963(P2010−91963A)
【公開日】平成22年4月22日(2010.4.22)
【国際特許分類】
【出願番号】特願2008−264228(P2008−264228)
【出願日】平成20年10月10日(2008.10.10)
【出願人】(000004260)株式会社デンソー (27,639)
【Fターム(参考)】