説明

音声案内装置及び音声案内プログラム

【課題】従来のアナウンサー調の音声案内に、有名人やアニメの登場人物等の音声による補助案内を付加できる音声案内装置を提供することである。
【解決手段】音声案内を行う音声データと音声案内情報とを対応づけて記憶する第1記憶手段と、前記第1記憶手段に記憶された音声データに対応づけてキャラクタが補助案内する音声補助データを記憶する第2記憶手段を備え、入力手段により音声案内情報が入力されると、検索手段はその音声案内情報に対応する音声データを第1記憶手段から検索し、その音声データに対応する音声補助データを第2記憶手段から検索し、検索された音声データと音声補助データに基づいて音声出力をする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声案内装置及び音声案内プログラムに関する。
【背景技術】
【0002】
近年、走行ルートや交通情報等の音声案内を行うカーナビゲーション装置や、目的地までの道順を音声案内する携帯端末装置、各種電化製品の操作方法の説明を音声により行う操作補助装置といった各種音声案内装置が開発されている。
【0003】
例えば、音声案内出力装置を備えたカーナビゲーション装置は広く普及しており、カーナビゲーション装置を搭載した自動車が一般的となってきている。カーナビゲーション装置は、目的地までの経路や、進行先の渋滞情報等を、モニタへの地図画像表示と音声案内によりユーザに提供し、ユーザはこれらの案内により目的地に確実に到着することができる。このような従来のカーナビゲーション装置は、目的地までの経路や、進行先の渋滞情報をユーザに提供することのみを目的としており、その音声案内は、肉声を使用しているが、誰もが違和感なく受け入れられるように、アナウンサー調の画一的なものであり、事務的に情報を提供するだけのものであった。しかし、最近では、画面上にアニメの登場人物等のキャラクタを表示し、その個性的なキャラクタが道案内をするというカーナビゲーション装置が開示されている(特許文献1、参照。)
【特許文献1】特開2004−233175
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかし、従来のキャラクタ表示により道案内をするカーナビゲーション装置では、キャラクタの表情を変化させたり、キャラクタによるコメントを吹き出し表示させるものであり、キャラクタの音声による案内ではない。従って、ユーザは、運転中にディスプレイを注視してしまうという問題があった。また、音声案内は従来同様、アナウンサー調の単調なものであるため、キャラクタ表示はするものの、事務的に情報を提供するのみの装置であった。
【0005】
本発明は、従来のアナウンサー調の音声案内に、有名人やアニメの登場人物等の音声による補助案内を付加できる音声案内装置を提供することである。そして、その音声案内装置をカーナビゲーション装置の音声合成部にて使用することにより、ユーザに道順や渋滞情報を提供するだけでなく、ユーザを楽しませ、人間らしい存在感のある装置の提供を可能にすることである。
【課題を解決するための手段】
【0006】
上記課題を解決するために、請求項1に記載の発明は、音声案内を行う音声データと音声案内情報とを対応付けて記憶する第1記憶手段と、前記第1記憶手段に記憶された音声データに対応付けてキャラクタが補助案内する音声補助データを記憶する第2記憶手段と、音声案内情報を入力する入力手段と、前記入力手段により入力された音声案内情報に対応する音声データを第1記憶手段から検索し、その音声データに対応する音声補助データを第2記憶手段から検索する検索手段と、前記検索手段により検索された音声データと音声補助データに基づいて音声出力する音声出力手段とを備えることを特徴としている。
【0007】
請求項2に記載の発明は、請求項1に記載の音声案内装置において、前記第2記憶手段は、複数のキャラクタによる音声補助データを記憶することを特徴としている。
【0008】
請求項3に記載の発明は、請求項2に記載の音声案内装置において、前記複数のキャラクタを切り替える切替手段を更に備え、前記切替手段は、ユーザから入力される操作信号により制御され、前記操作信号によりキャラクタが切り替えられると、前記検索手段は、切り替えられたキャラクタが補助案内する音声補助データを検索することを特徴としている。
【0009】
請求項4に記載の発明は、請求項1から3の何れか一項に記載の音声案内装置において、前記第2記憶手段は、着脱可能な記録媒体であることを特徴としている。
【0010】
請求項5に記載の発明は、請求項1から4の何れか一項に記載の音声案内装置において、地図情報及び交通情報を含む案内情報を受信し、前記案内情報に基づいてナビゲーションをするナビゲーション手段と、前記ナビゲーション手段から送信される前記案内情報を表示画面に表示させる表示制御手段とを更に備え、前記第2記憶手段は、前記案内情報に対応づけて音声補助データを記憶し、前記検索手段は、前記案内情報が入力されると、前記第2記憶手段に記憶された音声補助データを検索することを特徴としている。
【0011】
請求項6に記載の発明は、請求項1から5の何れか一項に記載の音声案内装置において、前記第2記憶手段は、前記ナビゲーション手段の起動時からの時間、現在時刻に対応付けて音声補助データを記憶し、前記検索手段は、該当する時間になると、前記第2記憶手段に記憶された音声補助データを検索することを特徴としている。
【0012】
請求項7に記載の発明は、請求項1から6の何れか一項に記載の音声案内装置において、前記第2記憶手段は、キャラクタに対応づけて画像データを記憶し、前記表示制御手段は、前記画像データをキャラクタの音声に同期させて表示画面に表示させることを特徴としている。
【0013】
請求項8に記載の発明は、コンピュータを、音声案内を行う音声データと音声案内情報とを対応付けて記憶させる第1記憶手段、前記第1記憶手段に記憶された音声データに対応づけてキャラクタが補助案内する音声補助データを記憶させる第2記憶手段、音声案内情報を入力させる入力手段、前記入力手段により入力された音声案内情報に対応する音声データを第1記憶手段から検索させ、その音声データに対応する音声補助データを第2記憶手段から検索させる検索手段、前記検索手段により検索された音声データと音声補助データに基づいて音声出力させる音声出力手段として機能させることを特徴としている。
【発明の効果】
【0014】
本発明によれば、音声合成に使用する音片辞書ファイルにおいて、道案内をさせるためのデータの他に、補助的な案内をさせるためのデータのみを記憶する音片辞書ファイルを追加し、その音片辞書ファイルに記憶する音声データは、有名人等の音声にて作成することにより、道案内や渋滞情報などを提供するという本来の機能を維持しつつ、有名人の声による補助案内を付加することができる。このことにより、ユーザがナビゲーション装置に親しみを持つことができる。
【発明を実施するための最良の形態】
【0015】
以下、図を参照して、本発明の実施形態について詳細に説明する。
【0016】
図1に、カーナビゲーション装置1の主要部構成を示す。図に示すように、カーナビゲーション装置1は、制御部2、ナビゲーション部3、音声合成部4(音声案内装置)、入力部5、表示部6、音声出力部7等により構成される。
【0017】
制御部2は、図示は省略するが、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等により構成される。CPUは、ROMに記憶された各種プログラムに従って、カーナビゲーション装置1を構成する各部の動作を制御する。例えば、ユーザが入力部5を操作することにより目的地を登録すると、制御部2のCPUは、その操作信号を受信する。CPUは、受信した操作信号に従って、カーナビゲーション部3に記憶された地図情報を取得し、取得したデータを表示部6へ出力する。そして、表示部6を制御し、ユーザが登録した目的地までの道順を表示画面へ表示させる。
【0018】
RAMは、CPUによって実行される各種プログラムをプログラム格納エリアに展開する。また、RAMは、各種プログラムの実行時に生じる処理結果等のデータをワークエリアに一時的に記憶する。ROMは、カーナビゲーション装置1の動作に必要なプログラムの実行に係るデータを格納する。これらのプログラムは何れも書き換える必要の無いプログラムや、書き換えてはいけないプログラムである。
【0019】
ナビゲーション部3は、記憶部及び受信手段としての通信部等を備える(図示省略)。記憶部は、プログラムやデータ等が予め記憶されている記録媒体を有しており、例えば、地図情報やテキストデータ等を記憶している。テキストデータは、音声案内のためのデータであり、「次の交差点右折です」といった道案内に必要なデータ等が複数記憶されている。なお、記憶部は着脱可能な構成としてもよく、例えば、新しい店舗の設置や道路の開拓などにより、地図情報が変更となった場合は、その着脱可能な記録媒体を更新することにより実行する。
【0020】
通信部はGPS衛星から送信されてくる位置情報を受信し、受信した情報を制御部2へ送信する。制御部2は、通信部からの位置情報を取得すると、記憶部に記憶された位置情報から現時点の位置を把握し、その位置情報と地図情報を組み合わせ、それらの情報を表示部6へ表示させる制御を行う。また、位置情報と地図情報を組み合わせることにより、ROMに記憶されたプログラムを動作させ最適な道案内情報を取得し、その情報を基に、記憶部に記憶されたテキストデータを読み込む。そして、そのテキストデータを音声合成部4へ出力する。
【0021】
入力部5は、タッチパネル5a及び操作キー5bを有し、ユーザはこれらを操作することにより、目的地の設定や登録、その他の機能を使用する。ユーザにより入力部5が操作されると、その操作信号は制御部2へ入力され、制御部2は、その入力された操作信号に従って、各部の制御を実行する。
【0022】
表示部6は、LCD(Liquid Crystal Display)等の表示画面を備え、制御部2から入力される表示制御信号に従って、地図案内等の各種データを表示する。
【0023】
音声合成部4は、制御部2からテキストデータが入力されると、それらのデータに基づいて音声合成データを生成する(後述)。そして、生成した合成音声データを音声出力部7へ出力する。
【0024】
音声出力部7は、音声合成部4により作成された音声合成データが入力されると、その音声合成データをユーザが把握できる声に変換し、出力する。この音声出力部7が音声を出力することで、ユーザは道案内を聞くことができる。
【0025】
次に、図2に、本実施形態に係る音声合成部4の主要部構成を示し、テキストデータがから音声合成データを生成する動作について説明する。
【0026】
図に示すように、音声合成部4は、言語処理部9、音片編集処理部10、音響処理部11、音片検索部12、素片検索部13、メイン音片辞書ファイル141、サブ音片辞書ファイル142、素片辞書ファイル15等により構成される。言語処理部9、音片編集処理部10、音響処理部11、音片検索部12、素片検索部13は、いずれも、CPUやDSP(Digital Signal Processor)等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどにより構成されている。なお、言語処理部9、音片編集処理部10、音響処理部11、音片検索部12、素片検索部13の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
【0027】
言語処理部9は、制御部2からテキストデータが入力されると、そのテキストデータに形態素解析を施すことにより、このテキストデータを構成する表意文字列を表音文字列へと変換する。また、テキストデータ内で連続する複数の単語を表す表意文字列を、一つの音片の読みを表す表音文字列として変換する。例えば、「今日は天気がいい」という表意文字列が言語処理部9へ入力されると、言語処理部9は、形態素解析の結果として、読みがそれぞれ「今日は」「天気が」「いい」という3個の音片を特定する。
【0028】
なお、テキストデータの取得の手法は任意であり、例えば、インターフェース回路を介して外部の装置やネットワークから取得してもよいし、記録媒体ドライブ装置(図示省略)にセットされた記録媒体(例えば、フレキシブルディスクやCD−ROM等)から、この記録媒体ドライブ装置を介して読み取る構成としてもよい。
【0029】
言語処理部9は、3個の音片データを特定すると、それぞれの表意文字について、これらに相当する3個の表音文字列「キョウハ」「テンキガ」「イイ」に変換する。この場合、言語処理部9は、例えば、表音文字列「テンキガ」を、名詞である「天気(テンキ)」と助詞である「が(ガ)」とを含む1個の音片の読みを示すものとして扱っている。言語処理部9は、テキストデータ内の表意文字列をすべて表音文字列へと置換し、その表音文字列を音片編集処理部10へ出力する。
【0030】
音片編集処理部10は、図示は省略するが、一致音片決定部、韻律予測部、出力合成部等により構成される。音片編集処理部10を構成する一致音片決定部は、言語処理部9から上述した表音文字列が入力されると、この表音文字列に一致する表音文字列が対応付けられている音片データが有るか否かを検索するよう、音片検索部12に対して指示をする。音片検索部12は、一致音片決定部の指示に応答してメイン音片辞書ファイル141を検索し、該当する音片データが有るか否かを検索する。
【0031】
ここで、記憶手段としてのメイン音片辞書ファイル141及びサブ音片辞書ファイル142について説明する。メイン音片辞書ファイル141及びサブ音片辞書ファイル142は、PROMやハードディスク装置等の不揮発性メモリより構成されている。これらのファイルに記憶されるデータは、複数の音片が連続して発話されて得られる音声を表す連続音声データであり、この連続音声データは、例えば、PCM化されたデジタル形式のデータであればよい。
【0032】
この連続音声データ内で個々の音片を表す部分が音片データである。なお、音片とは、音声のうち音素1個以上を含む連続した1区間をいい、通常は、単語1個分又は複数個分の区間からなり、助詞や接続詞を含む場合が多い。また、連続音声データは、個々の音片データの先頭(開始)の論理的位置を示すマークデータを含んでいる。また、個々の音片データの後端(終了)の論理的位置を示すマークデータを更に含んでいる構成としてもよい。
【0033】
また、メイン音片辞書ファイル141に記憶されている音片データは、人により録音された音声であるため、上述した処理により、連続して索出された各音片データが全体として表す音声は、人が実際に発話する音声の連続した一部をなすものであり、これらの音片データ相互のつながりも自然なものである。従って、ロボットのような音声ではなく、誰もが違和感無く受け入れられるように、アナウンサー調の単調なものではあるが、自然な人の声による音声である。
【0034】
また、メイン音片辞書ファイル141は1つに限らず、複数備えるとしてもよい。その場合、最初に検索したメイン音片辞書ファイル141に該当する音片データがなければ、次に別のメイン音片辞書ファイルを検索する。従って、自動的に複数のメイン音片辞書ファイルが検索されるとする。つまり、例えば、最初に検索したメイン音片辞書ファイルに該当する音片データがあれば、一つのメイン音片辞書ファイルの検索だけでよく、すべてのメイン音片辞書ファイルを検索しても該当する音片辞書ファイルが存在しない場合も想定できる。
【0035】
サブ音片辞書ファイル142には、メイン音片辞書ファイル141に含まれるような一般的な音声案内は記憶されない。ユーザへの注意喚起や、運転時のアドバイス、提案、若しくは独り言のような、単なる情報ではない人間的なメッセージである音片データを登録する。また、その音声は一般的なアナウンサー調の声ではなく、有名人の声や、アニメの登場人物等のキャラクタの声で録音される。
【0036】
ここで、キャラクタとは、音声案内を行う人物やアニメの登場人物、擬人化した動物等、特徴的又は個性的な口調、表現方法、役柄、声色、外観等を組み合わせた特有の性格を有する対象のことをいう。また、以下、このキャラクタが発生する音声をキャラクタボイスと称す。
【0037】
サブ音片辞書ファイル142に記憶される音片データは、メイン音片辞書ファイル141に記憶される音片データに対応づけて記憶され、メイン音片辞書ファイル141のデータに基づくメインの音声案内を補助する役割をするための、音声補助データ(以下、補助案内データ)である。従って、補助案内をつけるメイン案内音声と、それに付随する補助案内音声の組み合わせを予め登録しておき、そのメイン案内音声の再生終了をトリガーとして補助案内音声を再生する。また、何も案内がない場合においても、何らかの情報(例えば、高速道路のJCT等)をトリガーとして補助案内音声を再生する構成としてもよい。これらの補助案内の例及び動作は後述する。
【0038】
音片検索部12による音片データの索出は、メイン音片辞書ファイル141が記憶する連続音声データ内での個々の音片データの先頭(開始)アドレス及び終端(終了)アドレスを特定することにより行われる。従って、それぞれの音片データが互いに別個のファイルとして管理されている場合に比べ、連続音声データ内のアドレスに基づいて音片データの索出を実行することにより、音声データの索出に係る処理工程を大幅に削減することができる。
【0039】
また、テキストデータにある複数の表意文字列の連続が、メイン音片辞書ファイル141における連続音声データ内にある複数の連続する音片データ全体の読みに一致している場合には、この音片データの先頭(開始)アドレスと終端(終了)アドレスを特定し、これらの連続する音片データをまとめて索出することが可能である。
【0040】
例えば、メイン音片辞書ファイル141が記憶する連続音声データ内に、読みがそれぞれ「キョウハ」「テンキガ」「イイ」という3個の音片データが、連続して含まれている場合について説明する。これらの音片データのそれぞれには、上述したように、当該音片データの先頭(開始)アドレスと終端(終了)アドレスが対応付けて記憶されている。この場合において、テキストデータとして「今日は天気がいい」という表意文字列が言語処理部9に出力されていると、言語処理部9は、「キョウハ」「テンキガ」「イイ」という3個の表音文字列を生成する。そして、一致音片決定部へ、生成した3個の表音文字列を出力する。一致音片決定部は、これらの表音文字列が入力されると、音片検索部12に対して、これらの表音文字列のいずれかに読みが一致する音片データが有るか否かの検索を実行するように指示をする。
【0041】
音片検索部12は、一致音片決定部からの指示を受けると、その指示に従って、メイン音片辞書ファイル141の検索を開始し、検索の結果、例えば、3個の表音文字列のうち、「キョウハ」「テンキガ」の2個の読みに一致する音片データが有ると判定したとする。音片検索部12は、索出すべき音片データが存在すると判定すると、この連続する表音文字列全体の先頭及び終端アドレス、つまり、先頭アドレスとして「キョウハ」、終端アドレスとして「テンキガ」を特定し、特定した範囲に存在する連続した音片データをメイン音片辞書ファイル141から読み出し、一致音片決定部へ出力する。
【0042】
また、音片検索部12は、これらの連続した音片データが、連続して索出されたものであることを示す識別データを、当該連続した音片データに付加して出力する構成としてもよい。さらに、一致音片決定部は、得られた検索結果のうち、連続する音片データとして索出された音片データが存在する場合には、音片編集処理部10を構成する韻律予測部による韻律予測に結果に拘束されず、これらの連続する音片データを優先的に選択する構成としてもよい。このような構成にすることにより、連続する音片データが表す音片に一致する部分については、韻律予測部に韻律予測を実行させる必要は無く、処理を迅速に行うことが可能となる。
【0043】
ここで、音片編集処理部10を構成する韻律予測部について説明する。韻律予測部は、一致音片決定部から音片データに対応する表音文字列が入力されると、入力された表音文字列に対して、韻律予測の手法に基づいた解析を施すことにより、この表音文字列が表す音声の韻律、つまり、アクセント、イントネーション、強勢、音素の時間長等を予測し、予測結果を表す韻律予測データを生成する。そして、この韻律予測データを音響処理部11へ出力する動作を行う。
【0044】
音片検索部12は、検索の結果、圧縮音片データを索出できなかった音片データがあった場合は、該当する音片を識別するデータ(以下、欠落部分識別データと称す。)を生成する。音片検索部12は、検索により一致した連続音片データと、音片検索部12が検索できなかった音片、つまり、欠落部分識別データが示す音片を含む音片データを一致音片決定部へ出力する。
【0045】
一致音片決定部は、音片検索部12より音片データが入力されると、この音片データのうち連続音声データにより連続して索出されたデータを検出する。この検出は、例えば、上述した識別データに基づいて実行される。
【0046】
上述した処理において、3個の表音文字列のうち、2個の読みに一致する音片データの処理について説明したが、次に、残りの1個の音片データ、つまり、検索部の検索により索出できなかった、音片データについての処理について説明する。
【0047】
音片検索部12から一致音片決定部に出力された音片データに、欠落部分識別データが含まれていると、一致音片決定部は、欠落部分識別データが示す音片の読みを表す表音文字列を抽出して、音響処理部11へ出力し、欠落部分識別データが示す音片の波形を合成するように指示をする。音響処理部11は、一致音片決定部から指示を受けると、指示をされた表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す音素を構成する素片の波形を検索するように、素片検索部13へ指示をする。指示を受けた素片検索部13は、波形辞書ファイル15を検索し、指示された内容に一致する圧縮波形データを索出する。
【0048】
ここで、波形辞書ファイル15は、PROMやハードディスク装置等の不揮発性メモリより構成されている。波形辞書ファイル15には、表音文字と、この表音文字が表す音素を構成する素片(すなわち、1個の音素を構成する音声の波形1サイクル分(又はその他所定数のサイクル分)の音声)を表す素片波形データをエントロピー符号化して得られる圧縮波形データとが、予め互いに対応付けて記憶されている。なお、エントロピー符号化される前の素片波形データは、例えば、PCM化されたデジタル形式のデータから構成されていればよい。
【0049】
音響処理部11の指示内容に一致する圧縮波形データが索出されると、その索出された圧縮波形データを伸長部(図示省略)へ出力する。伸長部は、素片検索部13より入力された圧縮波形データを、圧縮される前の素片波形データへと復元し、素片検索部13へ返送する。そして、素片検索部13は、その素片波形データを、音響処理部11へ出力する。
【0050】
一方、韻律予測部は、一致音片決定部から音片検索部12により検出された音片データに対応する表音文字列が入力されると、予測結果を表す韻律予測データを生成する。そして、生成した韻律予測データを音響処理部11へ出力する。
【0051】
音響処理部11は、素片検索部13から素片波形データが供給され、韻律予測部から韻律予測データが出力されると、供給された素片波形データを用いて、一致音片決定部が入力した表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを生成する。具体的には、音響処理部11は、素片検索部13から入力された各々の素片波形データが表す素片により構成されている音素の時間長を、韻律予測部により生成され、入力された韻律予測データに基づいて特定する。そして、特定した音素の時間長を、当該素片波形データが表す素片の時間長で除した値に最も近い整数を求め、当該素片波形データを、求めた整数に等しい個数分相互に結合することにより、音声波形データを生成する。生成した音声波形データを一致音変決定部により入力された表音文字列内での各表音文字の並びに従った順序で、音片編集処理部10の出力合成部へ出力する。
【0052】
出力合成部は、一致音片決定部より音片データが供給され、音響処理部11により、素片波形データより生成された音声波形データが供給されると、供給されたそれぞれの音声波形データに含まれる素片波形データの個数を調整する。そして、素片波形データの個数の調整が完了した音声波形データと、一致音片決定部により供給された音片データとを、テキストデータ内での各音片又は音素の並びに従った順序で互いに結合し、合成音声データを音声出力部7へ出力する。
【0053】
なお、上述した処理において、音片検索部12が索出した音片データに対応する補助案内データが、サブ音片辞書ファイル142に記憶されていた場合は、合成音声データを音声出力部7へ出力すると共に、対応するサブ音片辞書ファイル142に登録された補助案内としての音片データも出力される。
【0054】
次に図3のフローチャートを参照して、上述した音声合成部4で実行される処理について簡単に説明する。
【0055】
言語処理部9は、ナビゲーション部3からテキストデータを取得すると(ステップT1)、取得したテキストデータに形態素解析を施すことにより、このテキストデータを構成する表意文字列を表音文字列へと変換する(ステップT2)。
【0056】
ステップT2において、テキストデータを表音文字列へと変換すると、その表音文字列を音片編集処理部10へ出力する。音片編集処理部10は表音文字列が入力されると、音片検索部12へ該当する表音文字列の読みに相当する音片データを検出するように指示を出す。音片検索部12は、音片編集処理部10からの指示を受け、言語処理部9が変換した表音文字列の読みに相当する音片データを、メイン音片辞書ファイル141から索出する(ステップT3)。
【0057】
ステップT3において、音片検索部12は、指示された表音文字列の読みに相当する音片データを索出するが、該当する音片データがない表音文字列があった場合は、その表音文字列について欠落部分識別データを生成する(ステップT4)。ステップT3において、該当する音片データがない表音文字列が無かった場合は、索出した音片データを音片編集処理部10へ出力する。
【0058】
ステップT4において、該当する音片データがない表音文字列について欠落部分識別データを生成すると、欠落部分識別データを含む音片データを音片編集処理部10へ出力し、その欠落部分識別データが示す音片の読みを示す表音文字列を抽出し(ステップT5)、抽出した表音文字列を音響処理部11へ出力する。音響処理部11は、欠落部分識別データが示す音片の読みを示す表音文字列が出力されると、素片検索部13に対して、当該表音文字列が表す音素を構成する素片の波形を、素片辞書ファイル15から検索するよう指示をする。素片検索部13は、その指示を受けると検索を開始し(ステップT6)、一致する素片波形データを索出する(ステップT7)。
【0059】
ステップT7において、素片検索部13は、一致する素片波形データを索出すると、索出した素片波形データを音響処理部11へ出力する。音響処理部11は、素片波形データが出力されると、その素片波形データから音声波形データを生成し(ステップT8)、生成した音声波形データを音片編集処理部10へ出力する。音片編集処理部10は、ステップT3において索出した音片データと、音響処理部11から出力された音声波形データを合成し合成音声データを生成する。そして、生成した合成音声データを音声出力部7へ出力する(ステップT9)。
【0060】
以上のように、本実施形態に係るカーナビゲーションを構成する音声合成部4では、音素より大きな単位であり得る音片の波形を表す音片データが、韻律の予測結果に基づいて、録音編集方式により自然につなぎ合わせられ、テキストデータを読み上げる音声が合成される。メイン音片辞書ファイル141の記憶容量は、音素毎に波形を記憶する場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成部4は小型軽量に構成することができ、更に高速な処理が実行できる。
【0061】
また、メイン音片辞書ファイル141の音片データに対応する補助案内データを含むサブ音片辞書ファイル142を備えることにより、アナウンサー調の単調な案内に有名人やアニメの登場人物のキャラクタボイスによる補助案内を付加することができ、ユーザを退屈させず、楽しい道案内を提供できる。また、このサブ音片辞書ファイル142は、メイン音片辞書ファイル141に記憶されるような情報ではなく、その他の補助的な案内のみを記憶するため、容量が比較的小さく、複数設置することが可能となる。
【0062】
さらに、適切な音片データを検索できなかった音片は、音素より小さな単位である素片を表す圧縮波形データを用いて、規則合成方式の手法に従って合成される。圧縮波形データが素片の波形を表すものであるため、波形辞書ファイル15の記憶容量は、圧縮波形データが音素の波形を表すものである場合に比べて小さくでき、同様に高速な処理が可能となる。
【0063】
また、規則合成は素片を用いることにより実行されるため、少ない種類の素片で自然な音声を得ることができる。これは、音素を用いて規則合成する場合と比較すると、音素の端の部分に現れる特殊な波形の影響を受けることがなく、音声合成を行うことができるからである。
【0064】
以下に、サブ音片辞書ファイル142について説明する。本実施形態に係る音声合成部4は、音片辞書ファイルとして、メイン音片辞書ファイル141及びサブ音片辞書ファイル142を備え、これらは複数登録可能である。上述したように、メイン音片辞書ファイル141には、従来通り、音声案内がアナウンサー調の声で複数登録される。そしてサブ音片辞書ファイル142には、辞書にかかる手間を最低限に抑えることを目的としていることから、メイン音片辞書ファイル141に登録される音声案内は登録されず、その他の補助案内が登録される。つまり、サブ音片辞書ファイル142に登録する補助案内は、一日程度で収録可能な注意喚起、独り言のようなメッセージなど、簡単なデータであるため有名人による録音が可能である。
【0065】
次に、サブ音片辞書ファイル142による補助案内の例を示す。例1、例2は、メイン音片辞書ファイル141に記憶されたメイン案内音声に付随する補助案内である。
例1:交差点を右折する場合
メイン案内音声:「100メートル先、交差点を右折です。」
補助案内音声:「対向車に気をつけて。」
例2:VICSで渋滞情報を受信した場合
メイン案内音声:「この先、渋滞があります。」
補助案内音声:「前の車に気をつけて。」
【0066】
上述したように、サブ音片辞書ファイル142に登録される補助案内データは、メイン音片辞書ファイルの音片データに対応付けて登録される。補助案内を付加するメイン案内音声とそれに付随する補助案内の組み合わせを予め登録しておき、そのメイン案内音声の音声データを索出すると共に補助案内データを索出し、音声出力部7へ出力する。
【0067】
サブ音片辞書ファイル142に登録される補助案内データは、上述したようなメイン音片辞書ファイル141に対応づけて登録されるデータに限られない。例えば、時間や位置情報等の案内情報を基準とした補助案内データも登録可能である。特定のランドマーク(例えば、高速道路のSA,SP,JCT、料金所又はメモリ地点等)までの距離や、特定の時間(例えば、カーナビゲーション装置起動時からの経過時間、現在の時刻等)の情報がナビゲーション部3から制御部2へ出力されると、音片検索部12は、制御部2からの指示を受信して、そのデータに関連づけて登録されている補助案内データを検索し、関連する補助案内データがあった場合には、その補助案内を再生する。以下に、時間や位置情報等を基準にした補助案内の例を示す。
例3:高速道路を走行中、SAに近づいた場合
補助案内音声:「もうすぐSAがあるけど、休憩しない?」
例4:カーナビゲーション起動時から一定時間経過した場合
補助案内音声:「あまり長時間運転しないほうがいいよ。」
例5:現在時刻が正午になった場合
補助案内音声:「お腹空いてない?そろそろお昼ご飯にしない?」
【0068】
次に、図4のフローチャートを参照して、図3のステップT3の動作を実行する音片検索部12で実行される処理について説明する。なお、メイン音片辞書ファイルが複数(n個)ある場合について説明する。また、サブ音片辞書ファイル142の補助案内データのうち、メイン音片辞書ファイル141に関連付けて登録されているデータについての処理を説明する。
【0069】
まず、音片編集処理部10から表音文字列が入力される(ステップS1)。ステップS1において、表音文字列が入力されると、次に、その表音文字列に対応する音片データの検索を開始する旨の指示を受信する(ステップS2)。ステップS2において、音片編集処理部10の一致音片決定部から検索開始の指示を受信すると、該当する音片データがメイン音片辞書ファイル1に有るか否かを判定する(ステップS3)。
【0070】
ステップS3において、該当する音片データがメイン音片辞書ファイル1にないと判定すると(ステップS3;NO)、メイン音片辞書ファイル2に該当する音片データがあるか否かを判定する(ステップS4)。ステップS4において、該当する音片データがメイン音片辞書ファイル2にないと判定すると(ステップS4;NO)、その他残りのメイン音片辞書ファイルについても同様の判定をする。n個のメイン音片辞書ファイルについて判定をした結果、メイン音片辞書ファイルnにも該当する音片データがなかった場合は(ステップS5;NO)、該当しない音片データについて欠落部分識別データを生成する(ステップS6)。
【0071】
ステップS3、S4、S5において、複数のメイン音片辞書ファイルのいずれかに該当する音片データが有ると判定すると(ステップS3、S4、S5;YES)、該当する音片データをメイン音片辞書ファイルより索出する(ステップS7)。ステップS7において、表音文字列に該当する音片データをメイン音片辞書ファイルより索出すると、索出した音片データに対応する補助案内データがサブ音片辞書ファイル142に有るか否かを判定する(ステップS8)。
【0072】
ステップS8において、索出した音片データに対応する補助案内データがサブ音片辞書ファイル142に有ると判定すると(ステップS8;YES)、対応する補助案内データをサブ音片辞書ファイル142より取得する(ステップS9)。
【0073】
ステップS9において、対応する補助案内データをサブ音片辞書ファイル142より取得すると、その取得した補助案内データと、ステップS6において生成した欠落部分識別データと、ステップS3,S4,S5のいずれかにおいて索出した音片データを編集処理部10へ出力し(ステップS10)、処理が終了する。
【0074】
上述した処理において、ステップS3の判定の結果、検索を指示された表音文字列に該当する音片データがすべてメイン音片辞書ファイル1からnのいずれかに有った場合は、その音片データを取得し、音片編集処理部10へ出力する。ステップS3の判定の結果、検索を指示された表音文字列について、該当する音片データはあるが、一部について該当する音片データがなかった場合は、その部分について欠落部分識別データを生成する。そして、該当しなかった部分についての欠落部分識別データと、該当した音片データを音片編集処理部10へ出力する。さらに、その該当する音片データに対応する補助案内データがサブ音片辞書ファイルにあった場合は、そのデータを取得し、それらのデータと共に音片編集処理部10へ出力する。
【0075】
以上のように、メイン音片辞書ファイル141の他に、補助的な案内データのみを含むサブ音片辞書ファイル142を備え、その補助案内は単なる情報ではない人間的なメッセージを登録し、そのメッセージをメイン音声案内に付随して再生することにより、使用するユーザ側からも愉快なナビゲーションが実現できる。そのため、このような合成音声機能を用いたカーナビゲーション装置は、単なる情報提供するだけの装置でなく、人間らしい存在感のあるものとなる。
【0076】
また、サブ音片辞書ファイル142に登録する人間的なメッセージは、一日程度で収録可能なものに限定することにより、作成にかかる手間を抑えることができる。従って、有名人に依頼して収録を行うことが可能となるため、人気俳優や、人気アニメの登場人物等のキャラクタによる音声で作成することが可能となる。このことにより、これまで単一だったナビゲーション案内に変化をつけることができ、例えば、人気俳優の声である場合は、助手席にその人気俳優が乗っているかのような感覚を味わうことができる。
【0077】
また、例3〜5のように、何も案内しなタイミングでも時間や位置情報からキャラクタボイスによる補助案内を再生することにより、単にユーザに情報を伝えるだけでなく、より人間らしいナビゲーションを実現することが可能となる。また、何も案内しないタイミングで音声を発することにより、居眠り運転による事故の発生も防止できる。
【0078】
<変形例>
次に、本実施形態に係る音声合成部4の変形例について説明する。図5は、変形例に係る音声合成部4の主要部構成を示す図である。図において、図2と同様の構成には同様の符号を付し、説明は省略する。
【0079】
図に示すように、変形例に係る音声合成部4は、図2に示す各部の他、キャラクタ切替処理部を備える。サブ音片辞書ファイル142は、複数のキャラクタデータベースを格納する。それぞれを、キャラクタDB1、キャラクタDB2、キャラクタDBnと称する。 サブ音片辞書ファイル142が有するキャラクタDBは、それぞれ異なるキャラクタボイスを記憶する。例えば、人気男優の声、人気女優の声、人気アニメの登場人物の声などである。
【0080】
ユーザは、カーナビゲーション装置1の入力部の操作により補助案内をさせるキャラクタの選択が可能である。ユーザによりアプリケーションからキャラクタが選択されると、制御部2はその操作信号を受信する。そして、選択されたキャラクタに切り替えさせるため、音声合成部4のキャラクタ切替処理部8へキャラクタ切替信号を入力する。
【0081】
キャラクタ切替処理部8は、制御部2からキャラクタ切替信号が入力されると、その信号を音片編集処理部10へ出力する。音片編集処理部10は、キャラクタ切替信号が入力されると、その信号に従って、使用するキャラクタDB(例えば、キャラクタDB1)に切り替える制御を行う。この制御により、キャラクタDB1に切り替えると、音片検索部12に音片データの索出指示をする際に、指定したキャラクタDB1に記憶されている、補助案内データのみを取得するように指示する。このことにより、ユーザが選択したキャラクタボイスのみでの補助案内が実行される。
【0082】
次に、図6のフローチャートを参照して、キャラクタDBが複数ある場合に音片検索部12で実行される処理について説明する。なお、メイン音片辞書ファイルは1つの場合とする。また、キャラクタ設定はキャラクタDB1を選択されているとするがこれに限られない。他のキャラクタDBが選択されている場合も、同様の処理が実行される。
【0083】
まず、音片編集処理部10から表音文字列が入力される(ステップP1)。ステップP1において、表音文字列が入力されると、次に、その表音文字列に対応する音片データの検索を開始する旨の指示を受信する(ステップP2)。ステップP2において、音片編集処理部10の一致音片決定部から検索開始の指示を受信すると、該当する音片データがメイン音片辞書ファイル141に有るか否かを判定する(ステップP3)。
【0084】
ステップP3において、該当する音片データがメイン音片辞書ファイルに無いと判定すると(ステップP3;NO)、該当しない音片データについて、欠落部分識別データを生成する(ステップP4)。ステップP3において、該当する音片データがメイン音片辞書ファイルに有ると判定すると(ステップP3;YES)、該当する音片データをメイン音片辞書ファイル141より索出する(ステップP5)。
【0085】
ステップP5において、該当する音片データをメイン音片辞書ファイル141より索出すると、次に、キャラクタ設定が有るか否かを判定する(ステップP6)。ステップP6において、キャラクタ設定が無いと判定すると(ステップP6;NO)、ステップP5において索出した音片データを音片編集処理部10へ出力し(ステップP9)、処理を終了する。
【0086】
ステップP6において、キャラクタ設定が有ると判定すると(ステップP6;YES)、ステップP5において索出した音片データに対応する補助案内データが指定されたキャラクタDB1に有るか否かを判定する(ステップP7)。ステップP7において、指定されたキャラクタDB1に、索出した音片データに対応する補助案内データが無いと判定すると(ステップP7;NO)、ステップP5において索出した音片データを音片編集処理部10へ出力し(ステップP9)、処理を終了する。
【0087】
ステップP7において、設定されたキャラクタDB1に、索出した音片データに対応する補助案内データが有ると判定すると(ステップP7;YES)、該当する音片データに対応する補助案内データを、設定キャラクタDB1から取得する(ステップP8)。そして、取得した補助案内データと、ステップP5において索出した音片データを音片編集処理部10へ出力し(ステップP9)、処理を終了する。
【0088】
なお、ステップP3の判定の結果、検索を指示された表音文字列について、該当する音片データはあるが、一部については該当する音片データが無かった場合は、その部分について欠落部分識別データを生成する。そして、該当しなかった部分についての欠落部分識別データと、該当した音片データを音片編集処理部10へ出力する。さらに、キャラクタ設定が有り、メイン辞書ファイル141から索出した音片データに対応する補助案内データがサブ音片辞書ファイルにあった場合は、そのデータを取得し、それらのデータと共に音片編集処理部10へ出力し処理を終了する。
【0089】
なお、キャラクタによる音声を記憶するキャラクタDBは、着脱可能な磁気的、光学的記録媒体若しくは半導体メモリで構成される記録媒体に記憶するとしてもよい。さらに、ユーザによるキャラクタの選択は、表示画面のアプリケーションから操作部の操作により実行するとしたが、記録媒体を装着することにより、キャラクタの選択をさせるプログラムを組み込む構成としてもよい。
【0090】
また、キャラクタが選択されていな時は、補助案内をしない構成としたがこれに限定されない。メイン音片辞書ファイル141の音片データに関連する補助案内データが有るか否かを、すべてのキャラクタDBにおいて判定し、複数のキャラクタDBの何れかにあれば、その補助案内データを取得する構成としてもよい。
【0091】
さらに、サブ音片辞書ファイル142に登録した各キャラクタに対応付けて画像データを登録し、キャラクタ選択と共に画像が選択され、表示画面にそのキャラクタを表示させるとしてもよい。キャラクタの音声データと対応させて画像を登録させておくことで、複数のキャラクタの音声により補助案内を行わせるときにも対応でき、補助案内の音声が変化すると共に、表示画面に登場するキャラクタを変化させる構成としてもよい。
【0092】
以上のように、サブ音片辞書ファイル142に登録する補助案内の内容を限定することで、収録にかかる時間やコストを抑えることができ、これまで困難だった有名人の音声の利用も可能となる。また、メッセージは簡単なものに限定するため、容量を抑えることができ、1キャラクタによる音声案内のみならず、複数のキャラクタによるサブ音片辞書ファイルを複数備えることができ、いろいろなキャラクタによる補助案内を楽しむことが可能となる。さらに、ユーザはこれら複数のキャラクタから、予め好きなキャラクタを選択することができ、好みのキャラクタのみの音声案内を楽しむことができる。
【0093】
さらに、キャラクタの音声を記憶する各記録媒体について、取り外し可能なメモリなどを使用することにより、ユーザは好きなキャラクタの音声案内のみを所有することができる。また、それらの記録媒体をカーナビゲーション装置に装着することにより、キャラクタの選択を認識させることで、表示画面からキャラクタを選択するという手間を省くことが可能となる。
【0094】
また、キャラクタの音声に対応付けて画像データと登録し、補助案内をするキャラクタを表示画面に表示させることで、ユーザは音声だけでなく視覚的にもキャラクタを認識でき、さらに楽しいナビゲーションによるドライブを楽しむことができる。
【0095】
なお、本発明に係る音声合成部4は、カーナビゲーション装置1に備える構成としたがこれに限られず、携帯電話などの通信情報端末に搭載する構成としても同様の効果を得ることが可能である。
【図面の簡単な説明】
【0096】
【図1】カーナビゲーション装置の主要部構成を示す図である。
【図2】図1のカーナビゲーション装置を構成する、本実施形態に係る音声合成部の主要部構成を示す図である。
【図3】本実施形態の係る音声合成で実行される処理を示すフローチャートである。
【図4】本実施形態の係る音声合成部を構成する音片検索部において実行される処理を示すフローチャートである。
【図5】本実施形態の音声合成部の変形例における主要部構成を示す図である。
【図6】図5の音声合成部を構成する音片検索部で実行される処理を示すフローチャートである。
【符号の説明】
【0097】
1 カーナビゲーション装置
2 制御部
3 ナビゲーション部
4 音声合成部
5 入力部
5a タッチパネル
5b 操作キー
6 表示部
7 音声出力部
8 キャラクタ切替処理部
9 言語処理部
10 音片編集処理部
11 音響処理部
12 音片検索部
13 素片検索部
141 メイン音片辞書ファイル
142 サブ音片辞書ファイル
15 素片辞書ファイル

【特許請求の範囲】
【請求項1】
音声案内を行う音声データと音声案内情報とを対応付けて記憶する第1記憶手段と、
前記第1記憶手段に記憶された音声データに対応付けてキャラクタが補助案内する音声補助データを記憶する第2記憶手段と、
音声案内情報を入力する入力手段と、
前記入力手段により入力された音声案内情報に対応する音声データを第1記憶手段から検索し、その音声データに対応する音声補助データを第2記憶手段から検索する検索手段と、
前記検索手段により検索された音声データと音声補助データに基づいて音声出力する音声出力手段と、
を備えることを特徴とする音声案内装置。
【請求項2】
前記第2記憶手段は、複数のキャラクタによる音声補助データを記憶することを特徴とする請求項1に記載の音声案内装置。
【請求項3】
前記複数のキャラクタを切り替える切替手段を更に備え、
前記切替手段は、ユーザから入力される操作信号により制御され、前記操作信号によりキャラクタが切り替えられると、前記検索手段は、切り替えられたキャラクタが補助案内する音声補助データを検索することを特徴とする請求項2に記載の音声案内装置。
【請求項4】
前記第2記憶手段は、着脱可能な記録媒体であることを特徴とする請求項1から3の何れか一項に記載の音声案内装置。
【請求項5】
地図情報及び交通情報を含む案内情報を受信し、前記案内情報に基づいてナビゲーションをするナビゲーション手段と、
前記ナビゲーション手段から送信される前記案内情報を表示画面に表示させる表示制御手段と、を更に備え、
前記第2記憶手段は、前記案内情報に対応づけて音声補助データを記憶し、
前記検索手段は、前記案内情報が入力されると、前記第2記憶手段に記憶された音声補助データを検索することを特徴とする請求項1から4の何れか一項に記載の音声案内装置。
【請求項6】
前記第2記憶手段は、前記ナビゲーション手段の起動時からの時間、現在時刻に対応付けて音声補助データを記憶し、
前記検索手段は、該当する時間に達すると、前記第2記憶手段に記憶された音声補助データを検索することを特徴とする請求項1から5の何れか一項に記載の音声案内装置。
【請求項7】
前記第2記憶手段は、キャラクタに対応付けて画像データを記憶し、
前記表示制御手段は、前記画像データをキャラクタの音声に同期させて表示画面に表示させることを特徴とする請求項1から6の何れか一項に記載の音声案内装置。
【請求項8】
コンピュータを、
音声案内を行う音声データと音声案内情報とを対応付けて記憶させる第1記憶手段、
前記第1記憶手段に記憶された音声データに対応づけてキャラクタが補助案内する音声補助データを記憶させる第2記憶手段、
音声案内情報を入力させる入力手段、
前記入力手段により入力された音声案内情報に対応する音声データを第1記憶手段から
検索させ、その音声データに対応する音声補助データを第2記憶手段から検索させる検索手段、
前記検索手段により検索された音声データと音声補助データに基づいて音声出力させる音声出力手段、
として機能させることを特徴とする音声案内プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2006−337403(P2006−337403A)
【公開日】平成18年12月14日(2006.12.14)
【国際特許分類】
【出願番号】特願2005−158391(P2005−158391)
【出願日】平成17年5月31日(2005.5.31)
【出願人】(000003595)株式会社ケンウッド (1,981)
【Fターム(参考)】