説明

車載音声認識装置

【課題】 本発明は、音声認識辞書を各ドライバに適合するように構成することが可能な車載音声認識装置の提供を目的とする。
【解決手段】 本発明は、各認識対象語に対して少なくともその地理的情報が付与された音声認識用のデータを保有するデータベースを備え、該データベースの中からドライバに応じたデータを読み出して該ドライバ用の音声認識辞書を構成し、該音声認識辞書を用いてドライバの発する音声に対する音声認識処理を行う車載音声認識装置において、車両の走行履歴をドライバ毎に記憶し、該記憶した走行履歴に基づいて、各ドライバに応じた前記音声認識辞書を構成することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、地名や施設名のような地理的名称を含む音声認識辞書を用いて、ドライバの発する音声に対して音声認識処理を行う車載音声認識装置に関する。
【背景技術】
【0002】
従来から、地図情報を記憶する地図情報記憶手段と、該地図情報記憶手段に記憶された地名情報群の音声特徴を記憶する音声特徴記憶手段と、入力音声から抽出した音声特徴を音声特徴記憶手段に記憶された音声特徴と比較して地図表示に必要な入力音声の特徴を認識する音声認識手段と、該音声認識手段により認識された音声特徴に対応した地図情報を上記地図情報記憶手段から読み出して表示する地図表示手段とを備えてなる車載用地図表示装置において、上記音声認識手段における認識対象語を、予め設定された車両走行経路もしくは現在の車両走行状態から予測される車両走行域のみに関連する地名情報に限定して決定する認識対象語決定手段を設けてなることを特徴とする車載用地図表示装置が知られている(例えば、特許文献1参照)。
【特許文献1】特開平9−42987号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、上述の特許文献1においても指摘されるように、一般的に音声認識装置では、音声認識辞書を構成するデータ(即ち認識対象語の数)が増加するに伴って、処理負荷が大きくなり(処理速度が落ち)、また、認識候補数が増大するために音声認識率が低下するという問題がある。
【0004】
このため、全てのドライバに対応できる膨大な情報量を持つ音声認識用のデータをデータベースに保有しつつ、実際の音声認識処理を行う際に用いる音声認識辞書を、データベースの中の一部のデータにより構成することで、処理負荷を抑えつつ音声認識率を高めることが提案されている。
【0005】
しかしながら、このようなデータ構成可変の音声認識辞書を用いる音声認識装置では、データベースの中から適切なデータを選択できなければ、必要な認識対象語が音声認識辞書内に存在しないなどの不都合が生ずる。
【0006】
この点、上述の従来技術では、認識対象語を、予め設定された車両走行経路もしくは現在の車両走行状態から予測される車両走行域のみに関連する地名情報に限定して決定することとしているが、車両走行経路の設定前や走行開始前には認識対象語が限定されないため、車両走行経路の設定時の音声認識において不都合が生じうる(例えば、目的地を音声認識させる時に不都合が生じうる)。また、ドライバ毎に認識対象語の限定態様を変えることができないため、音声認識辞書が各ドライバの行動範囲に適合されないという問題もある。
【0007】
そこで、本発明は、音声認識辞書を各ドライバに適合するように構成することが可能な車載音声認識装置の提供を目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明の一局面によれば、地名や施設名のような地理的名称を含む音声認識辞書を用いて、ドライバの発する音声に対して音声認識処理を行う車載音声認識装置において、
車両の走行履歴をドライバ毎に記憶し、各ドライバに係る走行履歴に基づいて、各ドライバに応じた前記音声認識辞書を構成することを特徴とする、車載音声認識装置が提供される。
【0009】
本局面において、走行履歴に応じて地理的領域毎にランク付けを行い、ランクが高い地理的領域に係る地理的名称が優先的に含まれるように前記音声認識辞書を構成することとしてもよい。走行履歴に応じて地理的領域毎にランク付けを行い、ランクが高い地理的領域に対しては、ランクが低い地理的領域に対する場合に比べて低い有名度の地理的名称が含まれるように前記音声認識辞書を構成することとしてもよい。走行履歴が多い地理的領域には、高いランクが付与され、走行履歴が少ない地理的領域には、低いランクが付与されることとしてもよい。前記音声認識辞書を用いた音声認識処理により得られる認識候補が複数ある場合、それぞれの認識候補に係る地理的領域のランク順に認識候補を表示することとしてもよい。
【発明の効果】
【0010】
本発明によれば、音声認識辞書を各ドライバに適合するように構成することが可能な車載音声認識装置を得ることができる。
【発明を実施するための最良の形態】
【0011】
以下、図面を参照して、本発明を実施するための最良の形態の説明を行う。
【0012】
図1は、本発明による車載音声認識装置10の一実施例を示すシステム構成図である。尚、本発明は、音声認識処理方法や音声認識処理のための信号の処理方法や流れ等により限定されるものでなく、如何なるハードウェア構成で如何なるソフトウェア(音声認識エンジン)を用いて実現する音声認識処理においても適用可能である。
【0013】
車載音声認識装置10は、その基本的な構成として、バス20を介して接続されるCPU22、ディスプレイコントローラ24、メモリ26、A/D(analog−to−digital)変換器28を備える。メモリ26には、以下で説明するCPU22及びディスプレイコントローラ24の機能を実現するプログラムやデータ(音声認識辞書を含む。)が格納される。
【0014】
車載音声認識装置10は、車室内の音(音声)を拾うマイク(マイクロフォン)40を備える。マイク40に入力されるアナログ音声は、マイクアンプにて増幅処理やノイズ除去などの所定処理を受けて、A/D変換器28でデジタル形式の音声信号に変換され、バス20を介してCPU22に送られる。CPU22は、音声信号から特徴量を抽出し、次いで、所与の音響モデル(音素の音響的特徴を表す隠れマルコフモデル)及び言語モデル(単語の並びの偏りを表すNグラム確率)を用いたマッチング処理を行う。即ち、CPU22は、音響モデル及び言語モデルを用いて、音声信号から抽出した特徴ベクトル列と、音声認識辞書に登録されている単語との音響的な照合を順次行っていく。このマッチング処理により認識候補が決定されると、認識候補が認識結果として、ディスプレイコントローラ24の制御下で、車室内の適切な場所に設けられるディスプレイ50上に出力される。
【0015】
データベース60は、ハードディスク等から構成され、地点情報(POI:Point Of Interest)が格納される。地点情報は、CPU22により地理的領域毎に読み出し可能に管理されている。CPU22は、地理的情報(緯度経度や住所)を索引としてデータベース60内から所望の地点情報を読み出してメモリ26内に記憶し、メモリ26内の地点情報を用いて各種アプリケーションを行う。尚、データベース60内の地点情報は、ナビゲーションシステムと共用されるものであってよい。
【0016】
地点情報には、地点を特定する緯度経度や住所のような地理的情報、施設名称や地名などの地理的名称、ジャンル、電話番号といった付随的情報が含まれる。また、地点情報には、当該地点の詳細情報(例えば、飲食店の場合にはそのメニュー、外観(画像)等)が含まれてもよい。尚、地理的名称は、上述の如く、遊園地名、飲食店名を含む各種施設名称、交差店名や番地名を含む各種地名、等々、多種多様であり、例えば、日本全国の地理的名称は、およそ1200万件を超えるが、データベース60はその全てを保有するものであってよい。
【0017】
データベース60内の各地点情報は、その地理的名称の有名度(知名度)ないし通用度に応じてランク付けされている。例えば、略大部分の人が知っている有名名称から、その地域に住んでいる人であれば知っている程度の通常名称、その地域に住んでいる人でも知らない人がいるようなローカル名称といったように、少なくとも2段階以上にランク付けされてよい。
【0018】
次に、図2以降を参照して、本実施例の車載音声認識装置10の特徴的な構成について説明する。
【0019】
図2は、本実施例の車載音声認識装置10の基本動作を示すフローチャートである。
【0020】
ステップ100では、ドライバ(ドライバ)の個人識別処理が行われる。この処理は、例えば各ドライバに付与されたIDカードに基づいて実現されてよい。この場合、IDカードのIDは、乗車時にドライバにより適切なインターフェースを介して車載音声認識装置10側に入力されるものであってよい。或いは、個々のドライバの識別は、ドライバの携帯電話などの所持品が持つID(例えば、電話番号)に基づいて実現されてもよい。その他、マイク40に入力される音声の声紋、車内カメラによる画像、指紋等の生体情報等に基づいて個々のドライバを識別することもできる。
【0021】
ステップ110では、走行履歴記憶処理が実行される。この処理では、ドライバ毎に走行履歴が異なることを考慮して、ドライバ毎に管理可能な態様で、各ドライバに係る車両の走行履歴がメモリ26に記憶される。車両の走行履歴は、車両に搭載される各種センサに基づいて算出される。典型的には、GPSアンテナ(図1参照)を介して受信されるGPS信号(衛星信号)に基づいて算出される現在位置の履歴が走行履歴として用いられる。尚、GPS信号に基づいて自車位置の算出方法は、如何なる方法が採用されてもよく、例えば搬送波位相式測位方法が採用されてもよい。また、車両の走行履歴(自車位置)の算出には、ビーコン受信機及びFM多重受信機や、車速センサやジャイロセンサ等の各種センサからの情報が利用されてもよい。
【0022】
ステップ120では、現在運転しているドライバに係る以前の走行履歴がメモリ26内から読み出される。この処理で読み出される走行履歴は、現在運転しているドライバが以前に車両を使用した時に実行される上記ステップ110の走行履歴記憶処理によりメモリ26内に格納されたものとなる。
【0023】
ステップ130では、上記ステップ120で読み出した走行履歴に基づいて、音声認識辞書を構築する。これにより、各ドライバの走行履歴に応じた音声認識辞書を構築することが可能となる。ここで、音声認識辞書とは、単語(本例では、認識対象語である地理的名称)と音素列の対応関係が記述された辞書であり、単語を細分化した「音素」という単位で保有している。音声認識辞書は、メモリ26内で格納され、そこに登録される地理的名称(認識対象語)は、データベース60内に収録されている全ての地理的名称の中の一部である。これにより、処理負荷を抑えつつ音声認識率を高めることが可能となる。
【0024】
走行履歴に基づく音声認識辞書の構築方法の具体例については、後に詳説するが、基本的な考え方は、ドライバ毎に車両を使った行動範囲が異なることを考慮して、ドライバの行動範囲を示す指標となる走行履歴を用いて、ドライバの行動範囲に即した音声認識辞書を作成することであり、より具体的には、ドライバの行動範囲に関連する地理的名称を豊富に含み、ドライバの行動範囲と関連性の低い地理的名称が適宜省略された音声認識辞書を作成することである。
【0025】
ステップ140では、上記ステップ130で構築された音声認識辞書に基づいて、音声認識処理が開始される。
【0026】
上述のステップ100乃至ステップ130の処理、即ちドライバの走行履歴に応じた音声認識辞書を構築する処理は、例えばドライバがイグニションスイッチをオンにした後に速やかに開始される。従って、ドライバが車両に乗り込んでエンジンを始動させると、直ぐに、当該ドライバに応じた音声認識辞書が構成され、それを用いた音声認識処理が実行可能な状態となる。
【0027】
本ステップ140において、例えば、地理的名称に関連する地域や施設の詳細な情報を提供するアプリケーションでは、ドライバが、興味のある地理的名称を発話すると、ディスプレイ50上に認識結果が表示される。この認識結果が正しいときは、ドライバは、例えば詳細情報を要求し、これに応じて、ディスプレイ50上には、当該地理的名称に係る地点情報(又はその詳細情報)が表示される。これにより、ドライバは、任意の地理的名称に関連した地理情報を得ることができる。また、ナビゲーションシステムと協働して音声により目的地設定を行うアプリケーションでは、ドライバが目的地(又はそれに関連する地名)の地理的名称を発話すると、ディスプレイ50上に認識結果が表示される。この認識結果が正しいときは、ドライバは、例えばルート案内開始を指示し、これに応じて、ディスプレイ50上には、当該地理的名称を目的地する案内ルートが表示される。
【0028】
ところで、かかるアプリケーションの有用性を高めるには、車載音声認識装置10における音声認識処理の負荷を抑えつつ、音声認識率を高めることが重要である。特に、音声認識率を高めるには、理想的には、ドライバが発話する地理的名称に対して、それに対応する地理的名称が認識対象語として音声認識辞書内に1つだけ存在することである。即ち、ドライバが発話する地理的名称に対応する複数の認識対象語(例えば、複数店舗ある施設名、同音異義語)が音声認識辞書内に存在したり、或いは、逆にドライバが発話する地理的名称(実在し、データベース60内に収録されているもの。)に対応する認識対象語が音声認識辞書内に存在しなかったりすることを、防止することが重要となる。
【0029】
これに対して、本実施例では、ドライバが車載音声認識装置10に対して音声認識してもらいたいと思う地理的名称は、各ドライバの走行履歴に関連して異なることに着目し、各ドライバの走行履歴に基づいて音声認識辞書を作成するので、車載音声認識装置10における音声認識の処理負荷を抑えつつ、音声認識率を高めることができる。
【0030】
以下、音声認識辞書の構築処理(上記ステップ100乃至ステップ130の処理)の具体例を幾つかの実施例に分けて説明する。尚、以下の説明では、図2のフローチャートのステップ番号を適宜参照して用いる。
【0031】
図3は、音声認識辞書の構築方法の一実施例を説明するための図であり、車両の走行履歴との関係で地理的領域(平面地図)を概念的に表した図である。図3には、車両の走行履歴(走行軌跡)が点を結ぶ実線で示され、それを取り囲む最大外形領域X1が点線で示されている。尚、図3では概念的に示しているが、実際には、車両の走行履歴はより複雑なものとなる。
【0032】
車載音声認識装置10のCPU22は、上記ステップ100で読み出される車両の走行履歴に基づいて、図3に示すような最大外形領域X1及び領域X2を決定する。尚、車両が現在移動中の場合、読み出された走行履歴に、今回の車両の運転による走行履歴が加えられ、走行履歴がリアルタイムに更新されてもよい。
【0033】
領域X2は、図3にて一点差線で示すように、最大外形領域Xの周囲にマージン分(+α分)として設定される領域であり、以下、付加領域X2と称する。尚、最大外形領域X1や付加領域X2の定義方法については多種多様に変更可能である。例えば、最大外形領域Xの境界は、必ずしも走行履歴を厳密に包含するような境界である必要はなく、都道府県や市区町村、番地若しくはその類の境界線に従ったものであってもよく、付加領域Xの境界(マージン分)についても同様である。
【0034】
CPU22は、上記ステップ100で読み出される車両の走行履歴に基づいて、図3に示すような最大外形領域X1及び予備領域X2を決定すると、データベース60内の全地点情報のうち、最大外形領域X1に関連する全ての地理的名称(通常名称やローカル名称をも含む。)と、全国の有名名称とを含む地点情報を抽出し、これらの抽出した地点情報に係る地理的名称を、認識対象語として音声認識辞書に組み入れる。尚、この場合、有名名称だけを認識対象語として登録している標準の音声認識辞書を構築しておき、当該標準の音声認識辞書に対して、最大外形領域X1に属する全ての地理的名称を、認識対象語として追加登録する構成であってもよい。
【0035】
図3に関連したその他の実施例としては、最大外形領域X1に関連する全ての地理的名称(通常名称やローカル名称をも含む。)と、全国の有名名称とから構成される音声認識辞書に、更に、最大外形領域X1の周辺の予備領域X2に関連する全ての地理的名称(通常名称やローカル名称をも含む。)を加えてもよい。これにより、ドライバの行動範囲が広がる場合にも対応することができる。この場合、予備領域X2に関連する地理的名称は、ローカル名称を含めない通常名称のみとしてもよい。或いは、付加領域Xに対する更なる付加領域を設定し、付加領域Xに関してはローカル名称をも含め、更なる付加領域に関しては通常名称を含めるに留めることとしてもよい。
【0036】
図4は、音声認識辞書の構築方法の一実施例を説明するための図であり、車両の走行履歴との関係で地理的領域(平面地図)を概念的に表した図である。図4には、車両が存在する時間数に応じてランキングされた各領域X1〜X4が示されている。
【0037】
車載音声認識装置10のCPU22は、上記ステップ100で読み出される車両の走行履歴に基づいて、各領域X1〜X4における車両の滞在累積時間を表す時間数を算出し、各領域X1〜X4に対してそれぞれの時間数に応じたランクを付与する。即ち、時間数が多いほど上位にランク付けされる。尚、付与するランク数は適宜決定される。
【0038】
CPU22は、データベース60内の全地点情報のうち、上位にランク付けされた領域に関しては、全ての地理的名称(通常名称やローカル名称をも含む。)を含む地点情報を抽出し、下位にランク付けされた領域に関しては、有名名称を含む地点情報を抽出し、これらの抽出した地点情報に係る地理的名称を、認識対象語として音声認識辞書に組み入れる。例えば、領域X1の時間数が300時間、領域X2の時間数が200時間、領域X3の時間数が5時間、領域X4の時間数が0時間である場合、領域X1及び領域X2は、上位にランク付けされ、領域X3及び領域X4は、下位にランク付けされる。そして、CPU22は、領域X1及び領域X2に関しては全ての地理的名称を含み、領域X3及び領域X4に関しては有名名称のみを含む音声認識辞書を構築する。尚、同様に、有名名称だけを認識対象語として登録している標準の音声認識辞書を構築しておき、当該標準の音声認識辞書に対して、領域X1及び領域X2に属する全ての地理的名称を、認識対象語として追加登録する構成であってもよい。
【0039】
図4に関連したその他の実施例としては、ドライバの車両の総使用時間の増加に関連して、ランキングされる各領域の大きさを可変させてもよい。例えば、ドライバの車両の使用時間が少ない間は、各領域が県単位で設定され、総使用時間の増加に伴って、各領域が市区町村別の単位まで細分化され、更には、番地単位まで細分化されてもよい。このとき、例えば時間数が所定時間(例えば300時間)を超える領域だけ細分化してもよい。
【0040】
以上のように上記の各実施例によれば、音声認識辞書に登録する認識対象語を選別する際、車両の走行履歴(走行軌跡)に基づいてドライバの行動範囲に属すると考えられる領域に関しては、当該領域に係る認識対象語が優先的に選別され、且つ、有名度の低い地理的名称までも認識対象語として選別されるので、各ドライバの走行履歴(行動範囲)に適合した、各ドライバにとって使い勝手の良い音声認識辞書を自動的に構築することができる。
【0041】
従って、かかる音声認識辞書を用いた場合、ドライバが発話する地理的名称に対して、複数の認識候補(例えば、複数店舗ある施設名、同音異義語)が存在したり、或いは、逆に認識候補が全く存在しなかったりする不都合が低減される。また、複数の認識候補が存在する場合には、それぞれの認識候補に係る領域に付与されたランクの順位に従って各認識候補を表示することで、ドライバの意図に適合する可能性の高い順番に認識結果を表示することが可能となる(即ち、正解の可能性が高い順番で各認識候補を順次表示することが可能となる)。例えば、先の例では、最大外形領域X1に係る認識候補が、予備領域X2に係る認識候補よりも先に表示されてよく、また、領域X3及び領域X4に係る認識候補が、領域X3及び領域X4に係る認識候補よりも先に表示されてよい。尚、複数の認識候補の表示方法については、複数の認識候補をランクの高い順に画面上から順番に並列的に表示するものであってもよく、或いは、ドライバの操作毎(例えば次候補表示スイッチの操作毎)に、ランクの高い順に各認識候補を1ずつ表示するものであってもよい。
【0042】
以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなく、上述した実施例に種々の変形及び置換を加えることができる。
【0043】
例えば、上述の実施例では、音声認識辞書の構成に関して、ドライバが良く行く地域に関しては、有名度の低い地理的名称まで含め、ドライバがあまり行かない地域に関しては、有名度の高い地理的名称だけを含めることで、CPU22の処理負荷やメモリ26の使用容量を効率的に抑えつつ、ドライバのニーズに見合った音声認識を実現可能としている。しかしながら、本発明はこれに限られず、同様の考え方で、ドライバが良く行く地域に関しては、当該地域に関連した地点情報の詳細度を高めてもよい。例えば、データベース60内の地点情報が上述の如くお店の画像などの詳細情報をも含んでいる場合、地点情報をメモリ26に読み込む際に、良く行く地域に関する地点情報に関してはその詳細情報を含めて読み込み、それ以外の地域に関しては詳細情報を含めないこととしてもよい。これにより、メモリ26の使用容量を効率的に抑えつつ、ドライバが良く行く地域に関しては、高い情報量の地点情報を提供することが可能となる。
【図面の簡単な説明】
【0044】
【図1】本発明による車載音声認識装置10の一実施例を示すシステム構成図である。
【図2】本実施例の車載音声認識装置10の基本動作を示すフローチャートである。
【図3】音声認識辞書の構築方法の一実施例の説明図である。
【図4】音声認識辞書の構築方法のその他の一実施例の説明図である。
【符号の説明】
【0045】
10 車載音声認識装置
20 バス
22 CPU
24 ディスプレイコントローラ
26 メモリ
40 マイク
50 ディスプレイ
60 データベース

【特許請求の範囲】
【請求項1】
地名や施設名のような地理的名称を含む音声認識辞書を用いて、ドライバの発する音声に対して音声認識処理を行う車載音声認識装置において、
車両の走行履歴をドライバ毎に記憶し、各ドライバに係る走行履歴に基づいて、各ドライバに応じた前記音声認識辞書を構成することを特徴とする、車載音声認識装置。
【請求項2】
走行履歴に応じて地理的領域毎にランク付けを行い、ランクが高い地理的領域に係る地理的名称が優先的に含まれるように前記音声認識辞書を構成する、請求項1に記載の車載音声認識装置。
【請求項3】
走行履歴に応じて地理的領域毎にランク付けを行い、ランクが高い地理的領域に対しては、ランクが低い地理的領域に対する場合に比べて低い有名度の地理的名称が含まれるように前記音声認識辞書を構成する、請求項1に記載の車載音声認識装置。
【請求項4】
走行履歴が多い地理的領域には、高いランクが付与され、走行履歴が少ない地理的領域には、低いランクが付与される、請求項3又は4に記載の車載音声認識装置。
【請求項5】
前記音声認識辞書を用いた音声認識処理により得られる認識候補が複数ある場合、それぞれの認識候補に係る地理的領域のランク順に認識候補を表示する、請求項2〜4の何れかに記載の車載音声認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2006−349427(P2006−349427A)
【公開日】平成18年12月28日(2006.12.28)
【国際特許分類】
【出願番号】特願2005−174341(P2005−174341)
【出願日】平成17年6月14日(2005.6.14)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【Fターム(参考)】