説明

音声案内システム

【課題】録音音声を極力使用して音声案内することができ、また、合成音声を使用する場合であっても、高品質の音声案内を実行可能にする。
【解決手段】車載装置2において、分割された単語あるいは文節に対応する録音音声データが記憶手段に存在するか否かを検索し、録音音声データがない単語あるいは文節については、外部サーバ装置4に送信して、録音音声データがサーバ側記憶手段に存在するか否かを検索し、検索された録音音声データを車載装置2へ送信し、検索手段により検索した録音音声データと外部サーバ装置4から受信した録音音声データとを接続し、接続した音声データを音声出力するように構成した。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を出力して音声案内する際に音質の優れた音声を出力することができる音声案内システムに関する。
【背景技術】
【0002】
例えばカーナビゲーション装置などの音声案内システムでは、音声認識のトークバック時や、経路案内時や、交通情報等をユーザに知らせるときなどに、音声を出力する機能を有している。この場合、出力される音声は、記憶装置に保存された録音音声、または、合成音声生成装置にて生成した合成音声、または、両者を組み合わせた音声である。ここで、合成音声は、肉声を録音した録音音声に比べて機械的な音声に近く、ユーザの感性によっては違和感や聞き取れない等の問題があった。このため、音質の良い録音音声を使用したいが、録音音声はデータ量が大きいので、カーナビゲーション装置のような車載装置の場合、記憶装置の記憶量の制約を受けることから、ある程度数が限られた定型の単語や文節しか記憶装置に登録しておくことができない事情がある。その結果、合成音声を使用して音声案内することが多くなり、高品質な音声案内が実現できていない。
【0003】
例えば、特許文献1、2に記載された構成では、音声出力するメッセージを、文節に分解し、その文節ごとに、予め定型録音音声データベースに登録してある内容と一致するものは、その録音音声を使用し、一致しないものは合成音声生成装置で合成された合成音声を使用し、録音音声と合成音声とが混在した音声を出力するようにしている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平9−97094号公報
【特許文献2】特開2007−257231号公報
【特許文献3】特開2008−225254号公報
【特許文献4】特開2009−037214号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記特許文献1、2に記載の構成では、録音音声と合成音声とが混在した音声が出力される可能性があり、このような場合、異なる音声の境界付近で音声の音質が大きく変わるため、了解性が低下するという不具合がある。これに対して、特許文献3、4には、録音音声と規則合成音声を組み合わせて音声を生成する際の了解性を向上させるための装置が記載されている。特許文献3に記載された装置では、直前の単語の音声種別や接続歪を計算することにより異なる音声の変更を少なくしている。また、特許文献4に記載された装置では、録音音声と規則合成音声の聴覚的な自然性の向上を図るようにしている。
【0006】
しかし、上記特許文献3、4の構成においても、異なる音声が混在した場合には、了解性低下を押さえようとする試みはあるものの、録音音声と合成音声の境界付近で音質が異なることには変わりがないため、了解性が低下することがある。
【0007】
そこで、本発明の目的は、録音音声を極力使用して音声案内することができ、また、合成音声を使用する場合であっても、高品質の音声案内を実行することができる音声案内システムを提供することにある。
【課題を解決するための手段】
【0008】
請求項1の発明によれば、車載装置において、分割された単語あるいは文節に対応する録音音声データが記憶手段に存在するか否かを検索し、録音音声データがない単語あるいは文節については、外部サーバ装置に送信して、録音音声データがサーバ側記憶手段に存在するか否かを検索し、検索された録音音声データを車載装置へ送信し、検索手段により検索した録音音声データと外部サーバ装置から受信した録音音声データとを接続し、接続した音声データを音声出力するように構成したので、録音音声を極力使用して音声案内することができ、高品質の音声案内を実行することができる。
【0009】
請求項2の発明によれば、外部サーバ装置において、受信した単語あるいは文節のうちの1個でも対応する録音音声データがなかったときであって、サーバ側音声合成手段の音声合成能力の方が車載装置の音声合成手段の音声合成能力よりも優れているときに、録音音声データがなかった単語あるいは文節に対応する音声データを合成し、合成した合成音声データを車載装置へ送信し、車載装置では、外部サーバ装置から送信された合成音声データを受信し、この受信した合成音声データを音声出力する構成としたので、合成音声を使用する場合であっても、高品質の音声案内を実行することができる。
【0010】
請求項3の発明によれば、外部サーバ装置において、受信した単語あるいは文節のうちの1個でも対応する録音音声データがなかったときであって、前記車載装置の前記音声合成手段の音声合成能力の方が前記サーバ側音声合成手段の音声合成能力よりも優れているときに、前記車載装置側で録音音声データがなかった単語あるいは文節に対応する音声データを合成するように指示する指示命令を、車載装置へ送信し、車載装置は、上記指示命令を受信したときに、録音音声データがなかった単語あるいは文節に対応する音声データを音声合成手段により合成し、この合成した合成音声データを音声出力する構成としたので、合成音声を使用する場合であっても、高品質の音声案内を実行することができる。
【0011】
請求項4の発明によれば、請求項2または3に記載の音声案内システムにおいて、前記車載装置は、音声案内機能毎に要求される、前記音声データの出力処理の迅速さに関するレスポンス情報を保持し、前記レスポンス情報に基づいて、使用する音声案内機能に応じて前記録音音声データがない単語あるいは文節および前記音声合成能力に関する情報を前記外部サーバ装置に送信するか否かを判断するようになっており、前記判断により送信しないとなった場合には、そのまま前記外部サーバ装置に問い合わせることなく、当該車載装置にて音声合成処理を行うように構成し、また請求項5の発明によれば、前記車載機は、前記レスポンス情報に基づき、迅速な音声データの出力処理が必要な前記音声案内機能に対しては、前記録音音声データがない単語あるいは文節および前記音声合成能力に関する情報を前記外部サーバ装置に送信しないと判断するように構成したので、音声案内機能毎に求められる応答性能に応じ、なるべく高品質な音声案内を行うことができる。ユーザに応答性の高い(レスポンスに優れた)音声案内システムを提供できる。
【0012】
請求項6の発明によれば、外部サーバ装置の比較手段は、車両のユーザが使用する言語に基づいて、車載装置側の音声合成能力とサーバ側音声合成手段の音声合成能力とを比較し、どちらが優れているかを判定するように構成したので、使用する言語(例えば英語と日本語)で車載装置の音声合成能力と外部サーバ装置の音声合成能力とに違いがあった場合、それも考慮して音声合成能力の比較を行なうことができるから、音声合成能力の比較判定をより一層正確に実行することができる。
【0013】
請求項7の発明によれば、前記車載装置の前記音声合成手段は、車両のユーザの使用頻度の高い言語について優れた音声合成能力を有し、前記外部サーバ装置の前記サーバ側音声合成手段は、車両のユーザの使用頻度の低い言語について優れた音声合成能力を有する構成としたので、使用頻度の高い言語については、前記車載装置において音声合成するから、レスポンスを高くすることができると共に、合成音声の質を高くすることができ、また、使用頻度の低い言語については、外部サーバ装置を利用して音声合成するから、通信負荷が生じるが、高音質の音声合成を実現できる。
【0014】
請求項8の発明によれば、前記外部サーバ装置は、複数の車載装置と通信することに応じて前記サーバ側音声合成手段により音声合成した音声フレーズの各合成実行回数をカウントし、前記合成実行回数が予め地域毎に定められた前記音声フレーズの合成実行回数の閾値である地域毎閾値を越えた場合に、前記合成実行回数が前記地域毎閾値を超えた音声フレーズの録音音声データを作成するように要請する通知を録音メーカに通知すると共に、単位時間あたりの通知回数が基準回数を超えたか超えないかで前記地域毎閾値を大小変化させる構成としたので、使用頻度の高い音声フレーズについて優先的に録音音声を生成してデータベースに登録することができ、登録以降は高品質の音声案内を実行することができ、また、録音の通知回数をコントロールすることができ、録音作業量を一定に保つことができる。
【図面の簡単な説明】
【0015】
【図1】本発明の一実施形態を示す音声案内システムのブロック図
【図2】車載装置の音声生成部のブロック図
【図3】外部サーバ装置の制御装置のブロック図
【図4】車載装置側の制御を示すフローチャート
【図5】外部サーバ装置側の制御を示すフローチャート
【図6】地域毎閾値を説明する図(その1)
【図7】地域毎閾値を説明する図(その2)
【図8】地域毎閾値を説明する図(その3)
【図9】地域毎閾値を説明する図(その4)
【発明を実施するための形態】
【0016】
以下、本発明の一実施形態について、図1ないし図5を参照して説明する。まず、図1は、本実施形態の音声案内システム1の電気的構成を概略的に示すブロック図である。この図1に示すように、音声案内システム1は、車両に搭載され音声案内機能を有する例えばカーナビゲーション装置(車載装置)2と、このカーナビゲーション装置2と例えば携帯電話網やインターネット等からなる通信網3を介して通信可能な外部サーバ装置4とを備えて構成されている。
【0017】
カーナビゲーション装置2は、位置検出器5、データ入力器6、操作スイッチ群7、通信装置8、外部メモリ9、表示装置10、リモコンセンサ11、音声認識出力装置12、及び、これらに接続された制御回路13を備えて構成されている。尚、制御回路13は、通常のコンピュータとして構成されており、内部には、周知のCPU、ROM、RAM、I/O及びこれらの構成を接続するバスラインを備える。
【0018】
位置検出器5は、周知のジャイロスコープ14、距離センサ15、及び、衛星からの電波に基づいて車両の位置を検出するためのGPS受信機16を有している。これらのセンサ等14、15、16は各々が性質の異なる誤差を持っているため、複数のセンサにより、各々補間しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、更に、ステアリングの回転センサ、各車輪の車輪センサ、車両の傾斜センサ等を適宜用いてもよい。
【0019】
データ入力器6は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ及び目印データを含むナビゲーション用の各種データに加えて、音声認識出力装置12において音声認識処理および音声案内(音声出力)処理を行う際に用いる辞書データベースや音声データベースを入力するための装置である。記憶媒体としては、そのデータ量からハードディスクやDVDを用いるのが一般的であると考えられるが、CD−ROM等の他の媒体を用いても良い。データ記憶媒体としてDVDを用いた場合には、このデータ入力器6はDVDプレーヤとなる。
【0020】
表示装置10はカラー表示装置であり、表示装置10の画面には、位置検出器5から入力された車両現在位置マークと、データ入力器6より入力された地図データと、更に地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。通信装置8は、例えば携帯電話機等の移動体通信機によって構成されており、通信網3を介して外部サーバ装置4と通信可能な構成となっている。
【0021】
また、カーナビゲーション装置2は、リモートコントロール端末(以下、リモコンと称する。)11aを介してリモコンセンサ11から、あるいは操作スイッチ群7により目的地の位置を入力すると、現在位置からその目的地までの最適な経路を自動的に選択して誘導経路を形成して表示する機能、いわゆる経路案内機能も備えている。このような自動的に最適な経路を設定する手法としては、ダイクストラ法等の手法が知られている。操作スイッチ群7は、例えば、表示装置10と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、各種コマンドの入力に利用される。
【0022】
そして、音声認識出力装置12は、上記操作スイッチ群7あるいはリモコン11aが手動操作により各種コマンド入力のために用いられるのに対して、利用者が音声で入力することによっても同様に各種コマンドを入力できるようにするための装置である。この音声認識出力装置12は、音声認識部17と、対話制御部18と、音声生成部19と、音声抽出部20と、マイク21と、スイッチ22と、スピーカ23と、制御部24とを備えて構成されている。
【0023】
音声認識部17は、音声抽出部20から入力された音声データを、対話制御部18からの指示により入力音声の認識処理を行い、その認識結果を対話制御部18に返す。すなわち、音声認識部17は、音声抽出部20から取得した音声データに対し、記憶している辞書データを用いて照合を行い、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを対話制御部18へ出力する。
【0024】
入力音声中の単語系列の認識は、音声抽出部20から入力された音声データを音響モデルと順次音響分析して音響的特徴量(例えばケプストラム)を抽出する。この音響分析によって得られた音響的特徴量時系列データを得る。そして、周知のHMM(隠れマルコフモデル)、DPマッチング法あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データとして格納されたどの単語に対応しているかを求める。
【0025】
対話制御部18は、音声認識部17における認識結果や制御部24からの指示に基づき、音声生成部19への応答音声の出力指示、あるいは、カーナビゲーション装置2自体の処理を実行する制御回路13に対して例えばナビゲート処理のために必要な目的地やコマンドを通知して目的地の設定やコマンドを実行させるよう指示する処理を行う。このような処理の結果として、この音声認識出力装置12を利用すれば、上記操作スイッチ群7あるいはリモコン11aを操作しなくても、音声入力によりカーナビゲーション装置2に対する目的地の指示などが可能となる。
【0026】
なお、音声生成部19は、波形データベース(音声データベース)内に格納されている音声波形(録音音声や規則合成音声等)を用い、対話制御部18からの応答音声の出力指示に基づく音声を生成する。音声生成部19の詳しい制御内容については、後述する。上記生成された音声がスピーカ23から出力される。
【0027】
音声抽出部20は、マイク21にて取り込んだ周囲の音声をデジタルデータに変換して音声認識部17に出力するものである。詳しくは、入力した音声の特徴量を分析するため、例えば数10ms程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が、音声の含まれている音声区間であるのか音声の含まれていない雑音区間であるのか判定する。マイク21から入力される信号は、認識対象の音声だけでなく雑音も混在したものであるため、音声区間と雑音区間の判定を行う。この判定方法としては従来より多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、その入力信号が音声認識部17に出力される。
【0028】
また、本実施形態においては、利用者がスイッチ22を押しながらマイク21を介して音声を入力するという利用方法である。具体的には、制御部24がスイッチ22が押されたタイミングや戻されたタイミング及び押された状態が継続した時間を監視しており、スイッチ22が押された場合には音声抽出部20及び音声認識部17に対して処理の実行を指示する。一方、スイッチ22が押されていない場合にはその処理を実行させないようにしている。したがって、スイッチ22が押されている間にマイク21を介して入力された音声データが音声認識部17へ出力される。
【0029】
このような構成を有することによって、本実施形態のカーナビゲーション装置2では、ユーザがコマンドを入力することによって、経路設定や経路案内あるいは施設検索や施設表示など各種の処理を実行することができる。
【0030】
ここで、音声生成部19について、図2を参照して詳しく説明する。図2に示すように、音声生成部19は、音声フレーズ分割部(分割手段)25と、検索部(検索手段)26と、検索結果保持部27と、外部要求部(通信手段)28と、音声合成部(音声合成手段)29と、音声出力部(音声出力手段)30と、録音音声データ記憶部(記憶手段)31と、音声合成データ記憶部32とを有している。尚、録音音声データ記憶部31と、音声合成データ記憶部32は、データ入力器6を介して入力されるデータベースである。
【0031】
音声生成部19において、対話制御部18より音声出力したい音声フレーズのテキストが入力されると、その入力されたテキストを音声フレーズ分割部25で単語あるいは文節単位に分割する。上記分割された単語あるいは文節に対して、検索部26により録音音声データ記憶部31内に格納された録音音声データと一致するものがあるか否かを検索(照合)し、その検索結果を検索結果保持部27に出力して保持する。
【0032】
外部要求部28は、検索結果保持部27に保持された検索結果を受け取り、録音音声データがない(一致しない)単語あるいは文節について、外部サーバ装置4で検索するための要求を通信装置8を介して外部サーバ装置4に対して送信する。また、外部要求部28は、音声合成部29の音声合成性能を示す情報(音声合成エンジンの名称やバージョンナンバー等の情報)を通信装置8を介して外部サーバ装置4に対して送信する。そして、外部要求部28は、外部サーバ装置4から送信された検索結果や合成音声データ等の情報を通信装置8を介して受信する。
【0033】
音声合成部29は、外部サーバ装置4で検索しても録音音声データがない(一致しない)単語あるいは文節について、外部サーバ装置4が備える音声合成エンジンの音声合成性能(後述する)よりも優れている場合に、音声合成データ記憶部32に記憶されている音声合成データを用いて音声を合成する。このときには、音声合成部29に保持されている音声合成用のプログラム(以後、音声合成プログラム(車載装置側音声合成エンジン)ともいう)を用いる。
【0034】
音声出力部30は、検索結果保持部27に保持された検索結果と、外部サーバ装置4から送信された検索結果や合成音声データ等の情報と、音声合成部29により合成された音声とを受け取り、この受け取った音声(録音音声だけで構成された音声、または、録音音声と合成音声とが混在した音声、または、合成音声だけで構成された音声)をスピーカ23より出力する。
【0035】
一方、外部サーバ装置4は、図1に示すように、通信装置33と、制御装置34と、記憶装置35とから構成されている。通信装置33は、通信網3を介して車両のカーナビゲーション装置2と通信可能なように構成される。記憶装置35は、例えばハードディスク等で構成される。
【0036】
制御装置34は、図3に示すように、受信部(サーバ側通信手段)36と、検索部(サーバ側検索手段)37と、検索結果保持部38と、音声合成性能比較部(比較手段)39と、音声合成部(サーバ側音声合成手段)40と、送信部(サーバ側通信手段)41と、録音音声データ記憶部(サーバ側記憶手段)42と、音声合成データ記憶部43とを有する。尚、録音音声データ記憶部42と、音声合成データ記憶部43は、記憶装置35内に設けられる。
【0037】
制御装置34において、受信部36が、車両のカーナビゲーション装置2より検索したい音声フレーズの単語あるいは文節等を受信すると、その受信した単語あるいは文節等を検索部37へ与える。検索部37は、上記単語あるいは文節に対して、録音音声データ記憶部42内に格納された録音音声データと一致するものがあるか否かを検索(照合)し、その検索結果を検索結果保持部38に出力して保持する。
【0038】
音声合成性能比較部39は、車両のカーナビゲーション装置2より通信装置33を介して受信した音声合成部29の音声合成性能を示す情報(音声合成エンジンの名称やメーカ名やバージョンナンバー等の情報)と、外部サーバ装置4の音声合成部40の音声合成性能を示す情報(音声合成エンジンの名称ややメーカ名やバージョンナンバー等の情報)とを比較し、どちらが優れているかを判定する。そして、音声合成性能比較部39は、外部サーバ装置4の音声合成部40の音声合成性能の方が優れていると判定した場合、検索結果保持部38に保持された検索結果の中で、録音音声データがない(一致しない)単語あるいは文節について、音声合成部40で音声合成する指示を音声合成部40へ与える。また、音声合成性能比較部39は、車両のカーナビゲーション装置2の音声合成部29の音声合成性能の方が優れていると判定した場合には、その旨を表す情報(判定結果)を、送信部41および通信装置33を介して車両のカーナビゲーション装置2へ送信する。
【0039】
音声合成部40は、外部サーバ装置4の検索部37で検索しても録音音声データがない(一致しない)単語あるいは文節について、車両のカーナビゲーション装置2が備える音声合成部29(音声合成エンジン)の音声合成性能よりも優れている場合に、音声合成データ記憶部43に記憶されている音声合成データを用いて音声を合成する。このときには音声合成部40に内蔵された音声合成用のプログラム(以後、音声合成プログラム(外部サーバ装置側音声合成エンジン)ともいう)を用いる。
【0040】
送信部41は、検索結果保持部38に保持された検索結果と、音声合成性能比較部39により判定された判定結果と、音声合成部40により合成された音声データとを受け取り、これら受け取ったデータを、通信装置33を介して車両のカーナビゲーション装置2へ送信する。
【0041】
次に、上記した構成の音声案内システム1の音声生成処理のうちの、車両のカーナビゲーション装置2の音声生成部19の音声生成処理について、図4のフローチャートを参照して説明する。
【0042】
まず、図4のステップS10において、入力された音声フレーズのテキストを言語解析し、単語あるいは文節単位に分割する。続いて、ステップS20において、テキスト中に固有名称(地名や施設名称等)フレーズが含まれているか否かを判断する。ここで、固有名称が含まれている場合には、ステップS20にて、「YES」へ進み、ステップS30へ進む。ステップS30では、含まれているすべての固有名称について、録音音声データが録音音声データ記憶部31内にあるかどうかを検索し、検索(一致)した録音音声データを取得して記憶する。
【0043】
続いて、ステップS40へ進み、すべての固有名称フレーズについて録音音声データがあったか否かを判断し、ここで、すべての固有名称フレーズの録音音声データがあるときには、「YES」へ進み、ステップS50へ進む。
【0044】
上記ステップS50では、入力されたテキスト中に汎用音声フレーズ(一般的によく使用される汎用の言葉の音声フレーズ)が含まれているか否かを判断する。ここで、汎用音声フレーズが含まれている場合には、ステップS50にて、「YES」へ進み、ステップS60へ進む。ステップS60では、含まれているすべての汎用音声フレーズについて、録音音声データが録音音声データ記憶部31内にあるかどうかを検索し、検索(一致)した録音音声データを取得して記憶する。
【0045】
続いて、ステップS70へ進み、すべての汎用音声フレーズについて録音音声データがあったか否かを判断し、ここで、すべての汎用音声フレーズの録音音声データがあるときには、「YES」へ進み、ステップS80へ進む。ステップS80では、すべての固有名称フレーズの録音音声データと、すべての汎用音声フレーズの録音音声データとを接続する。続いて、ステップS90へ進み、上記接続した音声データをスピーカ23から音声出力する。
【0046】
一方、上記ステップS20において、入力されたテキスト中に固有名称フレーズが含まれていない場合には、「NO」へ進み、固有名称の処理を飛ばし、ステップS50へ進み、上述した処理を繰り返す。
【0047】
ここで、入力されたテキスト中に含まれる固有名称フレーズと汎用音声フレーズを2つに分けて処理する理由について説明する。
カーナビゲーション装置2から出力される案内音声は、汎用音声フレーズ(例えば「この先」、「方向」、「右方向です」等の汎用的に使用可能な音声フレーズ)と、固有名称フレーズ(例えば地名、交差点名称、人名等の固有名詞の音声フレーズ)とから構成される。
【0048】
固有名称フレーズの音声を生成する方法としては、肉声を録音する録音音声を使用する方法と、音声合成エンジンにより合成した合成音声を使用する方法とがある。録音音声を使用するためには、あらかじめ肉声を録音し、記憶装置に保持しておく必要があるが、地名や交差点名称や人名等の固有名詞は膨大な個数が存在するので、これら膨大な個数の固有名詞の肉声を録音する行為は、録音作業の時間工数的に非常に困難である。また、車両に搭載するカーナビゲーション装置2の記憶装置の記憶容量の制約(リソース制約)があるため、膨大な個数の固有名詞等の録音音声のデータを記憶保持することは非常に困難である。このため、固有名称フレーズは、合成音声を用いて生成することが一般的である。
【0049】
カーナビゲーション装置2による案内音声は、汎用音声フレーズと固有名称フレーズの組み合わせとなることが多いが、必ず両方のフレーズが必要となるわけではない。汎用音声フレーズのみの場合もあれば、固有名称フレーズのみの場合もある。例えば、音声案内するときに、汎用音声フレーズ(一例として、「100m先右方向です」)のみで案内を実現できる場合もあれば、固有名称フレーズ(人名等)のみで案内を実現できる場合もある。また、汎用音声フレーズと固有名称フレーズの組み合わせ(一例として、「100m先○△交差点を右方向です。」(○△が固有名称フレーズ))で案内を実現する場合もある。
【0050】
従って、本実施形態によれば、固有名称フレーズの音声生成処理と汎用音声フレーズの音声生成処理を分ける構成としたので、案内音声フレーズのパターン(上記した3つのパターン)に合わせて音声生成処理を切り替えることが可能になる。これにより、案内音声フレーズの内容(パターン)によって必要な音声生成処理のみが効率良く動作できる構成となる。
【0051】
また、上記ステップS40において、1つでも固有名称フレーズの録音音声データがないときには、「NO」へ進み、ステップS100へ進む。ステップS100では、高いレスポンスが必要な処理であるか否かを判断し、ここで、高いレスポンスが必要な処理であるときには、「YES」へ進み、ステップS110へ進む。ステップS110では、上記録音音声データがなかった固有名称フレーズについて、カーナビゲーション装置2が備える音声合成プログラム(車載装置側音声合成エンジン)によって音声合成データ記憶部32に記憶されている音声合成データを用いて音声を合成する。そして、ステップS50へ進み、上述した処理を繰り返す。
【0052】
一方、上記ステップS100において、高いレスポンスが必要でない処理であるときには、「NO」へ進み、ステップS140へ進む。ステップS140では、上記録音音声データがなかった固有名称フレーズ(データ)と、カーナビゲーション装置2側の音声合成性能を示す情報(音声合成エンジンの名称やメーカ名やバージョンナンバー等のデータ)とを、外部サーバ装置4へ送信する。
【0053】
ここで、複数の処理の中で、どのような処理が高いレスポンスが必要であるか、または、そうでないか(即ち、高いレスポンスが必要でない処理であるか)について説明する。
何らかのユーザのアクションに対し、高レスポンスで迅速に音声を生成して音声出力しなければならない処理(機能)がある。例えば、音声認識の機能で、ユーザの発声を認識した後、認識に関連する固有名詞(道路名称、人名等)を音声出力する機能がある。具体的には、音声認識により目的地の住所を入力した後、音声認識した目的地の住所のテキスト(フレーズ)の音声を生成して音声出力する機能がある。このように、ユーザが能動的に操作(発声)を行い、認識結果(音声出力)を求める機能では、ユーザは認識結果を早く知りたい傾向があるため、音声出力が遅い場合には音声認識が遅いとユーザが解釈するケースも多々あり、処理の応答性能(レスポンス)は重要な要素となる。
【0054】
これとは反対に、それほど処理の応答性(レスポンス)が求められないケースもある。例えば、ユーザが受動的に結果を受け取る機能の場合である。具体的には、カーナビゲーション装置2が受信したメール等を自動で読み上げる(生成した音声で音声出力する)機能等である。このようなケースでは、生成した音声の音声出力(発声)の開始が、ユーザが認識できる処理(機能)の開始となるから、処理による遅延をユーザは意識することがない。このような処理は、前述した高応答性が要求される処理に比較して、応答性が求められない。従って、処理の求められる応答性能に応じて、その処理が高いレスポンスが必要な処理であるか否か(即ち、カーナビゲーション装置2(車載装置)を使用するか、それとも、サーバを利用するか)を判断することができる。
【0055】
すなわち、車載装置側で、どの音声案内機能がどのような応答性能(音声出力処理の迅速さ)を求められているかを対応させて、レスポンス情報として記憶しておく。そして、そのレスポンス情報に基づいて、現在使用している音声案内機能に応じ、車載装置側で音声合成をするか、外部サーバ側で音声合成をするかを判断するのである。
【0056】
そして、上記求められる応答性能の情報に関しては、そもそも生成(合成)音声を利用する音声認識機能側(制御装置側)で把握していることから、音声認識機能側から音声生成部に対して応答性能の情報を渡すことが可能である。そして、音声生成部においては、受け取った応答性能の情報に応じて、その処理が高いレスポンスが必要な処理であるか否か(即ち、カーナビゲーション装置2(車載装置)を使用するか、それとも、サーバを利用するか)を判断して処理を切り替えることができる。本実施形態では、このようにして、機能毎の応答性能に対応して処理の切り替えを実現している。
【0057】
つまり、上述したユーザが能動的に操作を行い、認識結果を求めるような機能ではまず、レスポンスの速さが重要と考えられるため、フレーズに対応する録音音声が車載機になかったとしてもサーバを利用せず、車載機にて処理を行うことが望ましい。一方、比較的レスポンスの速さを求められない機能では、極力録音音声を使用する(出力音声の品質や了解性を高める)ことが望ましいため、サーバに問合せ、サーバ側のデータや処理を利用するのである。
【0058】
このようにすれば、音声案内機能毎に求められる応答性能に応じ、なるべく高品質な音声案内を行うことができる。
この後、外部サーバ装置4から、上記固有名称フレーズの録音音声データまたは合成音声データまたはカーナビゲーション装置2側で音声合成する指示などの種々のデータが送信されてくるのを待つ。尚、種々のデータが送信されてくるのを待っている間は、カーナビゲーション装置2は他の処理を適宜実行可能な構成となっている。
【0059】
この後、外部サーバ装置4から種々のデータが送信されてくると、ステップS150へ進み、外部サーバ装置4から送信された種々のデータ(録音音声データ等)を受信する。続いて、ステップS160へ進み、受信したデータの中に、カーナビゲーション装置2側で音声合成する指示の情報が含まれているか否かを判断する。ここで、音声合成の指示の情報が含まれているときには、ステップS160にて「YES」へ進み、ステップS110へ進み、外部サーバ装置4側で音声合成しなかった固有名称の音声を車載装置側音声合成エンジンによって合成する。また、ステップS160において、音声合成の指示の情報が含まれていないときには、「NO」へ進み、ステップS50へ進み、上述した処理を繰り返す。
【0060】
一方、ステップS50において、入力されたテキスト中に汎用音声フレーズが含まれていない場合には、「NO」へ進み、汎用音声フレーズの処理を飛ばし、ステップS80へ進み、上述した処理を繰り返す。
【0061】
また、ステップS70において、1つでも汎用音声フレーズの録音音声データがないときには、「NO」へ進み、ステップS120へ進む。ステップS120では、高いレスポンスが必要な処理であるか否かを判断し、ここで、高いレスポンスが必要な処理であるときには、「YES」へ進み、ステップS130へ進む。ステップS130では、上記録音音声データがなかった汎用音声フレーズについて、カーナビゲーション装置2が備える音声合成プログラム(車載装置側音声合成エンジン)によって音声合成データ記憶部32に記憶されている音声合成データを用いて音声を合成する。そして、ステップS80へ進み、音声データを接続する。
【0062】
一方、上記ステップS120において、高いレスポンスが必要でない処理であるときには、「NO」へ進み、ステップS170へ進む。ステップS170では、上記録音音声データがなかった汎用音声フレーズと、カーナビゲーション装置2側の音声合成性能を示す情報(音声合成エンジンの名称やメーカ名やバージョンナンバー等のデータ)とを、外部サーバ装置4へ送信する。この後、外部サーバ装置4から、上記汎用音声フレーズの録音音声データまたは合成音声データまたはカーナビゲーション装置2側で音声合成する指示などの種々のデータが送信されてくるのを待つ。尚、種々のデータが送信されてくるのを待っている間は、カーナビゲーション装置2は他の処理を適宜実行可能な構成となっている。
【0063】
この後、外部サーバ装置4から種々のデータが送信されてくると、ステップS180へ進み、外部サーバ装置4から送信された種々のデータ(録音音声データ等)を受信する。続いて、ステップS190へ進み、受信したデータの中に、カーナビゲーション装置2側で音声合成する指示の情報が含まれているか否かを判断する。ここで、音声合成の指示の情報が含まれているときには、ステップS190にて「YES」へ進み、ステップS130へ進み、外部サーバ装置4側で音声合成しなかった汎用音声フレーズの音声を車載装置側音声合成エンジンによって合成する。また、ステップS190において、音声合成の指示の情報が含まれていないときには、「NO」へ進み、ステップS80へ進み、上述した処理を繰り返す。
【0064】
次に、外部サーバ装置4側の音声生成処理について、図5のフローチャートを参照して説明する。この処理の特徴は、外部サーバ装置4が、カーナビゲーション装置2との音声合成能力を比較し、その結果に応じてどちら側で音声合成を行うか判断する点である。また、録音音声が整備されておらず、合成するしかない音声フレーズであっても、その使用頻度など(地域毎の使用頻度や使用者数等)を考慮してその録音音声の整備(音声フレーズの品質改善)を円滑化できるように工夫している点である。
【0065】
まず、図5のステップS210において、カーナビゲーション装置2から送信された固有名称または汎用音声の音声フレーズとカーナビゲーション装置2側の音声合成性能を示す情報(音声合成エンジンの名称やメーカ名やバージョンナンバー等のデータ)とを受信する。続いて、ステップS220へ進み、上記受信した音声フレーズについて、録音音声データが録音音声データ記憶部42内にあるかどうかを検索し、検索(一致)した録音音声データを取得して記憶する。
【0066】
続いて、ステップS230へ進み、すべての受信した音声フレーズについて録音音声データがあったか否かを判断し、ここで、すべての音声フレーズの録音音声データがあるときには、「YES」へ進み、ステップS240へ進む。
【0067】
上記ステップS240では、すべての音声フレーズの録音音声データと、すべての音声フレーズの後述する合成音声データと、カーナビゲーション装置2側で音声合成する指示のデータとを、カーナビゲーション装置2へ送信する。
【0068】
一方、上記ステップS230において、1つでも音声フレーズの録音音声データがないときには、「NO」へ進み、ステップS250へ進む。ステップS250では、車両のカーナビゲーション装置2から送信された音声合成部29の音声合成性能を示す情報(音声合成エンジンの名称やメーカ名やバージョンナンバー等のデータ)と、外部サーバ装置4の音声合成部40の音声合成性能を示す情報(音声合成エンジンの名称やメーカ名やバージョンナンバー等のデータ)とを比較し、外部サーバ装置4側の音声合成性能が優れている(高い)か否かを判断する。
【0069】
上記ステップS250において、外部サーバ装置4側の音声合成性能が優れているときには、「YES」へ進み、ステップS260へ進む。ステップS260では、上記録音音声データがなかった音声フレーズについて、外部サーバ装置4が備える音声合成プログラム(外部サーバ装置側音声合成エンジン)によって音声合成データ記憶部43に記憶されている音声合成データを用いて音声を合成する。そして、ステップS270へ進み、合成した音声フレーズの出現回数(上記音声フレーズについてその音声合成を実行した回数(合成実行回数))をカウントアップする。
【0070】
この音声フレーズの出現回数は、外部サーバ装置4が通信する複数の車両のカーナビゲーション装置2において出現した回数の累計値である。外部サーバ装置4が通信する相手は、一つのカーナビゲーション装置2に限られることはなく、複数の車両のカーナビゲーション装置2である。つまり、上記音声フレーズの出現回数のカウント値は、他車両のカーナビゲーション装置2(音声案内システム)にて出現した回数も考慮した数値である。
【0071】
続いて、ステップS280へ進み、上記音声フレーズの出現回数が予め決められた地域毎閾値を超えたか否かを判断する。
ここで、上記地域毎閾値について説明する。地域毎閾値とは、本実施形態における音声案内システムにおいて、車両が走行する(使用される)地域ごとにその音声フレーズの品質改善を行う頻度(音声フレーズを録音する頻度)を調整するために外部サーバ装置4が保持し、使用する、音声フレーズの出現回数に関する閾値である。
【0072】
すなわち、ユーザの行動する地域によって、方言や言い回し、流行のフレーズが違っていたり、またユーザ総数が違っていたりする場合がある。地域毎閾値はそうした地域毎の特徴や違いを考慮して音声フレーズの録音を円滑化できるようにするために活用するものである。地域毎閾値を用いた処理(ステップS270以降の処理)の詳細については別途具体例を挙げて後述する。
【0073】
なお、地域毎閾値は、エリア(地域)毎に管理されており、エリア毎に地域毎閾値の数値を調整することが可能になっている。また、カーナビゲーション装置2は外部サーバ装置4に図4のフローチャートに示す固有名称フレーズの送信時点(ステップS140)において、現在位置情報も合わせて送信しておくものとする。この情報をもとに、サーバ装置側では、その現在位置が含まれるエリアに対応する地域毎閾値を選択する。これにより、外部サーバ装置4はどの地域でどのフレーズが出現したのかを把握でき、後述するフレーズの出現回数と地域毎閾値(出現回数の閾値)との比較をすることができる。
【0074】
さて、上記ステップS280において、音声フレーズの出現回数が地域毎閾値を超えていないときには、「NO」へ進み、ステップS240へ進み、音声データや指示情報等の様々なデータをカーナビゲーション装置2へ送信する。
【0075】
一方、ステップS280において、音声フレーズの出現回数が地域毎閾値を超えたときには、「YES」へ進み、ステップS290へ進み、上記出現回数が地域毎閾値を超えた音声フレーズの録音音声データを作成するように要請する通知を、録音メーカに送信する。続いて、ステップS300へ進み、単位時間(例えば1週間または1カ月という時間)当たりの通知回数を計算する。次いで、ステップS310へ進み、単位時間当たりの通知回数が予め決められた基準回数を超えたか否かを判断する。
【0076】
ここで、通知回数が基準回数を超えていないときには、ステップS310にて「NO」へ進み、ステップS320へ進み、地域毎閾値を小さくする(下げる)処理を行い、その後、ステップS240へ進み、上述した処理を繰り返す。一方、ステップS310において、通知回数が基準回数を超えたときには、「YES」へ進み、ステップS330へ進み、地域毎閾値を大きくする(上げる)処理を行い、その後、ステップS240へ進み、音声データや指示情報等の様々なデータをカーナビゲーション装置2へ送信する。
【0077】
一方、前記ステップS250において、カーナビゲーション装置2側の音声合成性能が優れているときには、「NO」へ進み、ステップS340へ進む。ステップS340では、上記録音音声データがなかった音声フレーズについて、カーナビゲーション装置2側で(車載装置側音声合成エンジンによって)音声合成するように指示するデータ(指示命令)を作成する。そして、ステップS240へ進み、音声データや指示情報等の様々なデータをカーナビゲーション装置2へ送信する。
【0078】
以上が図5の処理の概略である。
さて、上記処理について、図面を交えてより具体的に説明する。
<地域毎閾値を用いた処理 具体例>
図6〜図9は、ある地域における、ステップS270にてカウントアップされる、録音音声が整備されていない(したがって音声合成するしかない)フレーズの音声合成回数の累計値データを概念的に示す図である。
【0079】
たとえば、図6において、フレーズAは現在時刻(本処理が実行されている時点)を基点とする所定時間内に、出現時点a0〜a7に示すように、この地域では計8回出現したことを示している。そして、フレーズAの出現回数の累計は、出現時点a0において、カーナビゲーション装置2が存在する地域の地域毎閾値に達し、a1において閾値を越えたことを示している(なお、地域毎閾値は各フレーズ共通の値である)。
【0080】
すなわち、フレーズAに着目すると、出現時点a1において、このフレーズAの録音音声データを作成する要請通知を録音メーカに最初に送信している(ステップS280:yes、およびステップ290)ことになる。なお、録音メーカへの通知は、フレーズの音声合成回数の累計が1回カウントアップされる毎に行われるものとする。これは、録音メーカにおいて録音作業、整備に時間がかかることを考慮したものである。すなわち、あるフレーズの録音メーカへの録音要請通知は、そのフレーズが地域毎閾値を越えている間は、録音音声が整備されるまでそのフレーズの音声合成回数累計が更新されるごとに行われる。
【0081】
よって、この地域の単位時間当たりの通知回数はa1〜a7、b1〜b3、c1、d1〜d6の17回と計算される(ステップS300)。
ここで、この地域の単位時間当たりの通知回数の基準回数が仮に10回とすると、ステップS310の判定は肯定判定となり、ステップS330に移行し、地域毎閾値を上げる処理を行う。
【0082】
図7はステップS330で地域毎閾値を修正した後の様子を概念的に示した図である。この図7では、地域毎閾値の上方修正により、フレーズAおよびDだけが、今後、録音要請通知を行う対象となっており、一方フレーズBよびCはこれから合成回数累計が地域毎閾値を越えない限りは、録音要請通知を行う対象とならないように変化している。
【0083】
すなわち、録音メーカ側にとってみれば、フレーズA〜Dまで4つもの録音を行わねばならなかったのに比べ、A、Dのみを録音すればよくなっている。
よって、ある地域で録音すべきフレーズが過剰となった場合に、地域毎閾値を上記のように自動的に変動させ、より使用頻度(必要性)の高いフレーズ(ここではA、D)だけを選択するように構成したので、録音メーカ側の作業を過剰にすることなく、円滑に録音音声データの整備を行うことに寄与できる。
【0084】
さて、一方、図8のような場合を考えてみる。すなわち、出現回数が地域毎閾値を越えたフレーズはAだけであり(ステップS280:yes)、出現時点a1において最初の録音要請通知を録音メーカにおこなっている(ステップS290)。また単位時間当たりの通知回数はa1〜a7の7回と計算された(ステップS300)場合である。
【0085】
ここで、基準回数は上記と同様に10回であるため、ステップS310の判断は否定判定となり、ステップS320に移行して、地域毎閾値を下げる処理を行う。
図9はステップS320で地域毎閾値を修正した後の様子を概念的に示した図である。この図9では、地域毎閾値の下方修正により当初のフレーズAだけでなく、フレーズEも今後、録音要請通知を行う対象となっている。
【0086】
すなわち、録音メーカ側にとってみればフレーズAしか録音依頼がなされなかったところに、さらにEの録音依頼を受けることができるようになる。また、一方ユーザにとってみれば、より多くのフレーズについて録音音声が整備される機会が増えるので、出力音声を自然な調子で聞くことに繋がり、利便性や快適性の向上が期待できる。
【0087】
またこの場合、特に、フレーズEのように長期的には地域毎閾値を越えない(図8参照)が、最近急に出現回数が増えたような音声、つまりその地域にて流行しているフレーズは、短期間に急激に出現回数が増加する。ゆえに上記のように地域毎閾値を下方修正した場合に録音通知対象となりやすくなる。
【0088】
よって、ある地域で録音すべきフレーズが過剰ではない場合に、地域毎閾値を上記のように自動的に変動させ、より多くのフレーズを録音通知対象とするように構成したので、録音メーカ側の作業を過度に少なくすることなく(一定作業量を確保できるため)、円滑に録音音声データの整備を行うことに繋がる。またユーザにとってみれば、その地域で最近流行しているフレーズを含め、より多くのフレーズに録音音声が整備されるようになり、利便性、快適性向上を期待できる。
【0089】
なお、上記では同じ地域について対比(図6と図8とで対比)して説明したが、異なる地域の場合(たとえば関東エリアが図6で関西エリアが図8の場合)であっても、地域毎閾値や基準回数が異なるだけであって、上記と全く同様に説明できる。
<地域毎閾値を用いた処理 活用例>
また、地域毎閾値を用いた処理を活用した例について説明する。例えば、この処理はある特定の地域を優先して音声の改善(ある特定の地域の固有名称フレーズを優先して録音する作業を多くする改善)を行う場合にも有効利用できる。より具体的には、東京都のユーザが多く、地方のユーザが少ない等のケースで、ユーザの多い東京都の改善を迅速に進めて欲しいという依頼を受けた場合について考察する。
【0090】
この場合、予め地域毎閾値を次のように設定する。例えば、東京、埼玉、千葉、神奈川の地域毎閾値の具体値として、東京の地域毎閾値を100、埼玉を500、千葉を400、神奈川を150とするのである(これら具体値は例であるため数字には根拠はない)。
【0091】
こうすると、東京都の地域毎閾値がもっとも低いため、録音要請通知の対象となる音声フレーズが増え、ひいては改善の優先度が最も高くなる。たとえば同じ道路名称であっても、東京の道路名称では101回で音質改善されるのに対し、埼玉では、501回以上の利用が必要となる。この様に、サーバにある地域毎閾値を変えることによって、優先的に音質改善を進める地域を指定することが可能となる。
【0092】
また、東京において図5ステップS310の判定により単位時間当たりの通知回数が基準回数を越えた判断された場合、ステップS330に移行して地域毎閾値を上げる処理を行うが、この点でも工夫ができる。
【0093】
東京の地域毎閾値が上方修正された場合には、録音要請するための音声フレーズ数が絞り込まれる(減少する)が、その絞り込みによって録音要請するための音声フレーズ数が他の地域よりも少なくなってしまう可能性がある。これでは東京を他地域に優先して録音音声データの整備をするという依頼を達成できない可能性がある。録音作業はそれなりの時間と労力を要するため、一時にできる作業量(すなわち対象となる音声フレーズの数)には限りがあるからである。
【0094】
そこで、工夫として、東京の地域毎閾値を上方修正した場合、その上方修正の割合と同じ割合で、他地域の地域毎閾値も上方修正してもよい。
たとえば、上記の例でいけば、東京が100から120に上方修正された場合、それと同様の割合で、埼玉を500から600へ、千葉を400から480へ、神奈川を150から180へ各地域毎閾値を上方修正するのである。こうすれば、東京の地域毎閾値(注目すべき地域の地域毎閾値)の変動にともなって他地域の地域毎閾値も変更されることになる。よって東京より他地域における録音要請通知の対象フレーズ数が多くなる(優先度順が逆転する)ことが抑止され、東京で他地域に優先し、録音音声データの整備ができるようになる。
【0095】
以上まとめると、上記構成の場合、単位時間あたりの録音の通知回数が基準回数を超えたかどうかによって、地域毎閾値、即ち、録音通知の判断用の閾値を自動的に大小(増減)させるように構成したので、録音の通知回数を自動的にコントロールすることができる。具体的には、単位時間あたりの録音の通知回数が所定の上限値を超えている場合には、録音採用判定用の閾値、即ち、地域毎閾値を上げることによって、録音の通知回数を減らすことが可能となる。また、単位時間あたりの録音の通知回数が上記上限値を超えていない場合には、閾値を下げることによって、録音の通知回数を増やし、録音音声を生成登録する機会を自動的に増やすことができる。これにより、録音メーカにおける録音作業量を一定に保つことが可能となる。
【0096】
また、図示はしないが、上記によれば、注目している地域の地域毎閾値が変化した場合に、それに追従してサーバにある他の地域の地域毎閾値も変化させることで、注目している地域において優先的に録音音声の整備することができる。
【0097】
ここで、参考までに、固有名称フレーズの録音の事情について説明する。録音音声と合成音声の音質を比較した場合、合成音声の技術が進歩しているとは言っても実際に肉声を録音した場合の音質と比較すると合成音声は劣るケースがある。なぜなら、合成音声データは肉声音声の断片や電子音から作成しているのに対して、録音音声データは肉声をそのままディジタルデータとして用いているからである。このため、音声出力の音質をより改善するには、録音音声データによって固有名称フレーズを音声出力する方が良く、そのため、地名や道路名称等の固有名称フレーズについても、録音音声データを作成して外部サーバ装置4の録音音声データベースに登録しておくことが好ましい。
【0098】
実際に、道路名称等の案内音声に合成音声を用いた場合、音質が悪い等の苦情を受けることがあった。このように、正確に目的地まで案内するカーナビゲーション装置2においては、肉声を録音した録音音声データによって固有名称フレーズを音声出力する方が好まれるという実情がある。(尚、ロボット的な合成音声が好まれるケースも例外的にある。例えばSF映画等においてロボットの口から音声出力する場合には、合成音声データの方が演出効果も得られることから、合成音声データが採用されるケースとなる。しかし、カーナビゲーション装置2の音声案内の場合は、やはり自然な音質の音声が求められることが一般的であるため、現状は肉声の録音音声データを理想的な音声としている。尚、将来的には、人間の価値観も変わる可能性があるため、本実施形態の音声案内システムを合成音声を主とした構成に置き換えることも可能である。)
次に、実際に固有名称フレーズを肉声で録音する場合には、次のような問題がある。道路名称は、数百万から数千万個以上存在すると考えられるので、これらの固有名称を全て肉声で録音することは、録音スタジオを準備し、ナレータを採用して、膨大な数の固有名称を録音する作業量を考慮すると現実的には非常に困難であると考えられる。一人のナレータが録音できる数には、時間的、肉体的に限界があるし、外部サーバ装置4の録音音声データベースの記憶容量の制約もある。つまり、肉声を録音するには、多大な労力とコストを要することが問題となる。
【0099】
これに対して、本実施形態によれば、音声フレーズの出現回数をカウントし、該出現回数が地域毎閾値を超える使用頻度の高い音声フレーズについて、優先的に録音メーカに対して録音指示を行うように構成した。これにより、録音メーカで生成した音声(録音メーカで録音した録音音声データ)を録音音声データベースに登録することができ、登録以降は高品質の音声案内を実行することができる。この構成の場合、利用頻度の高い道路に関する固有名称を優先的に録音することができ、しかも、録音作業量を必要最小限にすることができる(尚、地域毎閾値がない従来構成の場合、音質改善のために全ての固有名称を録音する必要があるため、録音作業量が膨大になる)。例えば、ユーザの利用頻度の低い道路は録音作業を抑制することができる。実際、利用頻度の低い道路の名称やその道路が通過する地名まで肉声で録音を行うことは、録音作業が増大する要因になる。また、このような音声整備に投資を行った場合、製品価格が上昇し、ユーザにとって不利益になるという問題がある。これに対して、誰かがよく通るところは、他の人も通る可能性が高いため、音声合成回数が高い音声フレーズについて録音音声データを生成して登録することは、他のユーザの利便性も向上できる。逆に利用頻度の低い道路に対して整備を行っても、多くのユーザが利益を受けられないため効果が薄いと考えられる。
【0100】
即ち、本実施形態によれば、ユーザが受ける利益として音質改善が実現できるだけでなく、音質改善を行う固有名称に対して優先度付け(利用頻度が高い名称を優先して改善する)が可能であるため、ユーザ自身がよく利用する道路が音質改善され、かつ他のユーザも利益を受けられる。また、その逆のこと(ユーザ及び他のユーザがあまり利用しない道路については録音整備をしないようにできること)も言える。
【0101】
また、本実施形態によれば、地域毎閾値を設けることによって、ある地域を優先的に音質改善(肉声の録音作業)を進めることができる。例えば、東京、埼玉、千葉、神奈川の地域毎閾値の具体値として、東京の地域毎閾値を100、埼玉を500、千葉を400、神奈川を150とした場合(これら具体値は例であるため数字には根拠はない)、東京都の地域毎閾値がもっとも低いため、改善の優先度が最も高くなる。東京の道路名称では101回で音質改善されるのに対し、埼玉では、501回以上の利用が必要となる。この様に、サーバにある地域毎閾値を変えることによって、優先的に音質改善を進める地域を指定することが可能となる。
【0102】
これによって、カーナビゲーション装置2の利用者の多い地域の地域毎閾値を下げることによって、優先的に音質改善を進めることができる構成となっている。地域毎閾値は、国単位でも指定することができるから、アメリカのユーザが多い場合には他の国よりも地域毎閾値を下げることによって、世界中の全ての道路名称を録音する構成に比べて、ユーザが利益を受けやすくするために、最適な音質改善を行うことができる。
【0103】
上記した構成の本実施形態によれば、カーナビゲーション装置2において、分割された単語あるいは文節に対応する録音音声データが録音音声データ記憶部31に存在するか否かを検索し、録音音声データがない単語あるいは文節については、外部サーバ装置4に送信して、録音音声データが録音音声データ記憶部42に存在するか否かを検索し、検索された録音音声データをカーナビゲーション装置2へ送信し、カーナビゲーション装置2で検索した録音音声データと外部サーバ装置4から受信した録音音声データとを接続し、接続した音声データを音声出力するように構成したので、録音音声を極力使用して音声案内することができ、高品質の音声案内を実行することができる。
【0104】
また、上記実施形態においては、外部サーバ装置4において、受信した単語あるいは文節のうちの1個でも対応する録音音声データがなかったときであって、音声合成部(サーバ側音声合成手段)40の音声合成能力の方がカーナビゲーション装置2側の音声合成部29の音声合成能力よりも優れているときに、録音音声データがなかった単語あるいは文節に対応する音声データを上記音声合成部40により合成し、合成した合成音声データをカーナビゲーション装置2へ送信し、カーナビゲーション装置2では、外部サーバ装置4から送信された合成音声データを受信し、この受信した合成音声データを音声出力する構成としたので、合成音声を使用する場合であっても、音声合成能力が優れた装置で合成するから、高品質の音声案内を実行することができる。
【0105】
また、上記実施形態においては、外部サーバ装置4において、受信した単語あるいは文節のうちの1個でも対応する録音音声データがなかったときであって、カーナビゲーション装置2側の音声合成部29の音声合成能力の方が外部サーバ装置4側の音声合成部40の音声合成能力よりも優れているときに、録音音声データがなかった単語あるいは文節に対応する音声データをカーナビゲーション装置2側で合成するように指示する指示命令を、カーナビゲーション装置2へ送信し、カーナビゲーション装置2では、上記指示命令を受信したときに、録音音声データがなかった単語あるいは文節に対応する音声データを音声合成部29により合成し、この合成した合成音声データを音声出力する構成としたので、合成音声を使用する場合であっても、音声合成能力が優れた装置で合成するから、高品質の音声案内を実行することができる。
【0106】
また、上記実施形態に限られるものではなく、外部サーバ装置4の音声合成性能比較部39においては、車両のユーザーが使用する言語に基づいて、カーナビゲーション装置2側の音声合成能力と外部サーバ装置4側の音声合成能力とを比較し、どちらが優れているかを判定するように構成しても良い。このように構成すると、使用言語(たとえば英語の場合と日本語の場合)によるカーナビゲーション装置2(車載装置)と外部サーバ装置4との音声合成能力に違いがあった場合、その比較判定を正確に実行することができる。この構成の場合、使用言語の情報も、カーナビゲーション装置2から外部サーバ装置4へ送信するように構成することが好ましい。以下、上記言語によって音声合成エンジンの音声合成能力が相違する事情について説明する。
【0107】
現在の音声合成エンジンを製造するメーカは、強み(得意)とする言語とそうでない言語があり、全ての言語を完璧にサポートできるメーカは存在しない。この傾向は、音声合成エンジンを開発する開発者が全ての言語に精通しているわけではないため、今後も続くと思われる。そのため、高音質の音声合成を実現するためには、音声合成の対象となる言語に応じて複数の音声合成エンジン(メーカ)を使い分けることが好ましいと考えられる。その一例として、カーナビゲーション装置2側の音声合成エンジンのメーカと、外部サーバ装置4側の音声合成エンジンのメーカが異なる場合を考える。
【0108】
例えば、A社製の音声合成エンジンを外部サーバ装置4が採用し、B社製の音声合成エンジンをカーナビゲーション装置2が採用しているとする。ここで、A社が北米・欧州系メーカであると、A社製の音声合成エンジンで北米・欧州系言語を音声合成すると、その音質は「5」となり、A社製の音声合成エンジンでアジア系言語を音声合成すると、その音質は「1」となる(音質の数値は大きいほど良い)。これに対して、B社がアジア系メーカであると、B社製の音声合成エンジンで北米・欧州系言語を音声合成すると、その音質は「1」となり、B社製の音声合成エンジンでアジア系言語を音声合成すると、その音質は「5」となる。
【0109】
上記した2つのメーカ製の音声合成エンジンを使用する場合、次のような事例が考えられる。即ち、北米・欧州系言語とアジア系言語の両方を使用する地域(具体的には中国等)の場合、高品質な音声出力を行うには、A社、B社の両方の音声合成エンジンが必要となる。だが、カーナビゲーション装置2(車載装置)側には、記憶装置の記憶容量(リソース)の制約があり、両社の音声合成エンジンを搭載することが不可能である場合が多い。というのは、カーナビゲーション装置2は高機能化する傾向があり、リソースに関しては限界があるためである。
【0110】
この問題を解決するために、外部サーバ装置4側に両社の音声合成エンジンを搭載する方法がある。この方法であれば、音質の観点では解決することが可能である。しかし、カーナビゲーション装置2においては、ユーザとのシームレスなやり取りをする上で、システムのレスポンスというのは非常に重要な要素となる。外部サーバ装置4を利用する場合には、外部サーバ装置4とカーナビゲーション装置2と間の通信が必要となり、通信負荷を考慮する必要がある。
【0111】
外部サーバ装置4を利用した場合の利点としては、リソースの制約を受けにくい点であるが、欠点として通信負荷による遅延(レスポンスの悪化)が生じる可能性があり、レスポンスの観点ではカーナビゲーション装置2側で音声合成する方が有利である。この観点から、利用頻度の高い言語の合成に強みのある音声合成エンジンをカーナビゲーション装置2(車載装置)側に搭載し、利用頻度の低い言語については外部サーバ装置4(サーバ側)において音声合成するように音声合成エンジンを使い分ける構成が考えられる。
【0112】
このように構成によれば、利用頻度の高い言語については、カーナビゲーション装置2において音声合成するから、レスポンスを高くすることができると共に、合成音声の質を高くすることができる。また、利用頻度の低い言語については、外部サーバ装置4を利用して音声合成するから、通信負荷が生じるが、高音質の音声合成を実現できる。
【0113】
そして、上記実施形態においては、外部サーバ装置4とカーナビゲーション装置2をハイブリッドの形で運用し、両者の音声合成エンジンの音声合成能力を比較し、音声合成能力が優れた方の音声合成エンジンを用いて音声を合成するように構成したので、高品質な合成音声を出力することができる。
【0114】
ここで、カーナビゲーション装置2のレスポンスについて考察してみる。カーナビゲーション装置2で求められるレスポンスは、人間工学的には400ms〜500ms以下が求められる。昨今では、通信スピードも向上しているから、データの送受信時に大量のデータを高速で送信できる可能性はある。しかし、データの送受信を行う前に、必ず通信を確立する必要があり、接続待ちや通信障害、ルーティング処理等が生じた場合に、このような通信を確立するために必要な時間は、今後も400ms〜500ms以下に抑えることは困難な可能性が高い。よって、高いレスポンスが要求される場合には、カーナビゲーション装置2側に搭載した音声合成エンジンを用いて音声を合成する必要がある。
【0115】
これに対して、上記実施形態によれば、音声を合成せざるをえない場合であって、高いレスポンスが要求されるときには、カーナビゲーション装置2側に搭載した音声合成エンジンを用いて音声を合成するように構成したので、高いレスポンスで音声を合成することができる。また、上記実施形態では、音声を合成せざるをえない場合であって、高いレスポンスが要求されないときには、上述したように、外部サーバ装置4の音声合成エンジンの音声合成能力とカーナビゲーション装置2の音声合成エンジンの音声合成能力とを比較し、音声合成能力が優れた方の音声合成エンジンを用いて音声を合成するように構成したので、高品質な合成音声を出力することができる。
【0116】
尚、上記実施形態では、外部サーバ装置4において、外部サーバ装置4の音声合成エンジンの音声合成能力とカーナビゲーション装置2の音声合成エンジンの音声合成能力とを比較するように構成したが、これに代えて、カーナビゲーション装置2において、両者の音声合成能力の比較を行うように構成しても良い。
【0117】
さて、既に述べたように録音音声と合成音声を比べた場合、合成音声は肉声音声の断片や電子音から作成しているのに対して、録音音声は肉声をそのままディジタルデータとして用いているから、録音音声の方が音質が良い。このため、音質を改善するためには、地名や道路名称等の固有名称フレーズについても、録音音声を作成して外部サーバ装置4の録音音声データベースに登録しておくことが好ましい。しかし、固有名称は、数百万から数千万個以上存在すると考えられるので、これら非常に多数の固有名称を肉声を用いて全て録音して録音音声を作成することは、録音作業量を考慮すると現実的には非常に困難である(一人のナレータが録音できる数には、時間的、肉体的に限界があるし、外部サーバ装置4の録音音声データベースの記憶容量の制約もある)。
【0118】
これに対して、上記実施形態においては、外部サーバ装置4において音声合成エンジンを用いて音声合成を行ったときに、音声を合成した音声フレーズを記憶し、その合成回数をカウントすることで合成回数を計測し、この合成回数がある回数(地域毎閾値)以上になったとき、上記記憶した音声フレーズについて肉声の録音指示を録音メーカ(管理者)へ通知するように構成した。この場合、通知する手段としては、電子メールや制御コマンド等がある。これにより、使用頻度の高い固有名称フレーズについて優先的に録音音声を生成してデータベースに登録することができ、登録以降は高品質の音声案内を実行することができる。
【0119】
尚、利用頻度の低い道路の名称やその道路が通過する地名まで肉声で録音を行うことは、録音作業が増大する要因になり、また、このような音声整備に投資を行った場合、製品価格が上昇しユーザにとって不利益になるという問題がある。これに対して、上記実施形態によれば、音質改善が実現できるだけでなく、利用頻度の低い道路の名称等を録音する作業を減らすことが可能となる。また、誰かがよく通るところは、他の人も通る可能性が高いため、音声合成回数が高い音声フレーズについて録音音声を生成登録することは、他のユーザの利便性も向上できる。
【0120】
更に、上記実施形態では、録音通知の判断用の閾値を、単位時間当たりの通知回数(頻度)に応じて自動的に高低コントロールするように構成したので、録音の通知回数をコントロールすることもができる。例えば、録音の通知回数が所定の上限値を超えている場合には、録音採用判定用の閾値を上げることによって、録音の通知回数を減らすことが可能となる。また、録音の通知回数が上記上限値を超えていない場合には、閾値を下げることによって、録音の通知回数を増やし、録音音声を生成登録する機会を自動的に増やすことができる。これにより、録音メーカにおける録音作業量を一定に保つことが可能である。
【0121】
また、上記閾値は、地域(エリア)毎に管理し、地域毎に閾値の値を高低調整することが好ましい。具体的には、ある特定の地域内の地名等の固有名称フレーズについて優先して録音音声を生成登録する改善を行いたい場合には、閾値を地域毎に管理して、上記特定の地域の閾値を他の地域の閾値よりも下げるように構成すれば良い。このように構成すると、ユーザがよく利用する道路に係る固有名称フレーズについて優先して録音音声を生成登録することができるため、誰も利用しない道路に係る固有名称フレーズを録音する場合に比べて、音質改善効果が高くなる。
【0122】
また、上記実施形態では、音声を合成した音声フレーズの合成回数に応じて録音メーカへ通知すると共に、録音メーカへの通知回数がほぼ一定になるように管理するように構成したので、録音音声の生成作業量(稼働率)をほぼ一定に制御することができる。尚、録音した音声データについては、録音メーカからネットワーク(通信網3)を経由して外部サーバ装置4へ随時登録できる構成となっている。そして、登録音声データの登録が完了した時点で、ユーザは録音音声データの利用が可能となる。
【符号の説明】
【0123】
図面中、1は音声案内システム、2はカーナビゲーション装置(車載装置)、3は通信網、4は外部サーバ装置、5は位置検出器、6はデータ入力器、8は通信装置、10は表示装置、12は音声認識出力装置、13は制御回路、17は音声認識部、18は対話制御部、19は音声生成部、20は音声抽出部、21はマイク、23はスピーカ、24は制御部、25は音声フレーズ分割部、26は検索部、27は検索結果保持部、28は外部要求部、29は音声合成部、30は音声出力部、31は録音音声データ記憶部、32は音声合成データ記憶部、33は通信装置、34は制御装置、35は記憶装置、36は受信部、37は検索部、38は検索結果保持部、39は音声合成性能比較部、40は音声合成部、41は送信部、42は録音音声データ記憶部、43は音声合成データ記憶部を示す。

【特許請求の範囲】
【請求項1】
音声で案内する機能を有する車載装置と、この車載装置と通信可能な外部サーバ装置とを備えてなる音声案内システムにおいて、
前記車載装置は、
種々の録音音声データを記憶する記憶手段と、
音声で出力するテキストを単語あるいは文節単位に分割する分割手段と、
前記分割された単語あるいは文節に対応する録音音声データが前記記憶手段に存在するか否かを検索する検索手段と、
前記分割された単語あるいは文節のうちの1個でも対応する録音音声データが前記記憶手段に存在しなかったときに、外部サーバ装置に前記録音音声データがない単語あるいは文節を送信し、前記外部サーバ装置において検索されて前記単語あるいは文節に対応する録音音声データを受信する通信手段と、
前記検索手段により検索した録音音声データと前記通信手段により受信した録音音声データとを接続し、接続した音声データを音声出力する音声出力手段とを備え、
前記外部サーバ装置は、
種々の録音音声データを記憶するサーバ側記憶手段と、
前記車載装置から送信された前記録音音声データがない単語あるいは文節を受信するサーバ側通信手段と、
前記受信した単語あるいは文節に対応する録音音声データが前記サーバ側記憶手段に存在するか否かを検索するサーバ側検索手段とを備え、
前記サーバ側通信手段は、前記サーバ側検索手段により検索された録音音声データを前記車載装置へ送信することを特徴とする音声案内システム。
【請求項2】
前記車載装置は、単語あるいは文節に対応する音声データを合成する音声合成手段を備え、
前記車載装置は、前記分割された単語あるいは文節のうちの1個でも対応する録音音声データが前記記憶手段に存在しなかったときに、前記外部サーバ装置に前記録音音声データがない単語あるいは文節を送信すると共に、前記音声合成手段の音声合成能力に関する情報も送信し、
前記外部サーバ装置は、
単語あるいは文節に対応する音声データを合成するサーバ側音声合成手段と、
前記車載装置からの前記音声合成手段の音声合成能力の情報に基づいて前記車載装置の前記音声合成手段の音声合成能力と前記サーバ側音声合成手段の音声合成能力とを比較し、どちらが優れているかを判定する比較手段とを備え、
前記サーバ側音声合成手段は、前記受信した単語あるいは文節のうちの1個でも対応する録音音声データがなかったときであって、前記サーバ側音声合成手段の音声合成能力の方が前記車載装置の前記音声合成手段の音声合成能力よりも優れているときに、前記録音音声データがなかった単語あるいは文節に対応する音声データを合成し、
前記サーバ側通信手段は、合成された合成音声データを前記車載装置へ送信し、
前記車載装置は、前記外部サーバ装置から送信された合成音声データを前記通信手段により受信し、この受信した合成音声データを前記音声出力手段により音声出力することを特徴とする請求項1記載の音声案内システム。
【請求項3】
前記外部サーバ装置は、前記受信した単語あるいは文節のうちの1個でも対応する録音音声データがなかったときであって、前記車載装置の前記音声合成手段の音声合成能力の方が前記サーバ側音声合成手段の音声合成能力よりも優れているときに、前記車載装置側で録音音声データがなかった単語あるいは文節に対応する音声データを合成するように指示する指示命令を、前記サーバ側通信手段により前記車載装置へ送信し、
前記車載装置は、前記外部サーバ装置から送信された前記指示命令を前記通信手段により受信したときに、前記録音音声データがなかった単語あるいは文節に対応する音声データを前記音声合成手段により合成し、この合成した合成音声データを前記音声出力手段により音声出力することを特徴とする請求項2記載の音声案内システム。
【請求項4】
前記車載装置は、音声案内機能毎に要求される、前記音声データの出力処理の迅速さに関するレスポンス情報を保持し、前記レスポンス情報に基づいて、使用する音声案内機能に応じて前記録音音声データがない単語あるいは文節および前記音声合成能力に関する情報を前記外部サーバ装置に送信するか否かを判断するようになっており、
前記判断により送信しないとなった場合には、そのまま前記外部サーバ装置に問い合わせることなく、当該車載装置にて音声合成処理を行うこと、
を特徴とする請求項2または3記載の音声案内システム。
【請求項5】
前記車載装置は、前記レスポンス情報に基づき、迅速な音声データの出力処理が必要な前記音声案内機能に対しては、前記録音音声データがない単語あるいは文節および前記音声合成能力に関する情報を前記外部サーバ装置に送信しないと判断すること、
を特徴とする請求項4記載の音声案内システム。
【請求項6】
前記外部サーバ装置の比較手段は、車両のユーザが使用する言語に基づいて、前記車載装置側の音声合成能力と前記サーバ側音声合成手段の音声合成能力とを比較し、どちらが優れているかを判定することを特徴とする請求項2ないし5のいずれかに記載の音声案内システム。
【請求項7】
前記車載装置の前記音声合成手段は、車両のユーザの使用頻度の高い言語について優れた音声合成能力を有し、
前記外部サーバ装置の前記サーバ側音声合成手段は、車両のユーザの使用頻度の低い言語について優れた音声合成能力を有することを特徴とする請求項6記載の音声案内システム。
【請求項8】
前記外部サーバ装置は、複数の車載装置と通信することに応じて前記サーバ側音声合成手段により音声合成した音声フレーズの各合成実行回数をカウントし、前記合成実行回数が予め地域毎に定められた前記音声フレーズの合成実行回数の閾値である地域毎閾値を越えた場合に、前記合成実行回数が前記地域毎閾値を超えた音声フレーズの録音音声データを作成するように要請する通知を録音メーカに通知すると共に、単位時間あたりの通知回数が基準回数を超えたか超えないかで前記地域毎閾値を大小変化させることを特徴とする請求項2ないし7のいずれかに記載の音声案内システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−173702(P2012−173702A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−38333(P2011−38333)
【出願日】平成23年2月24日(2011.2.24)
【出願人】(000004260)株式会社デンソー (27,639)