説明

音声合成用辞書更新方法、端末装置および音声合成システム

【課題】特定用途に合わせて音声合成用辞書を更新する方法を提供することを目的とする。
【解決手段】音声合成用辞書251の更新対象となる対象発音記号列を含む要求情報を生成し、要求情報を辞書更新サーバ3へ送信し、辞書更新サーバ3が、要求情報に含まれる対象発音記号列をキーとして、更新用辞書351を検索し、当該対象発音記号列に対応する変換後発音記号列を取得し、送られた対象発音記号列と、取得した変換後発音記号列とを含む更新情報を受信し、車載ナビゲーション装置2が更新情報に含まれる対象発音記号列と、変換後発音記号列とを音声合成用辞書251に追加する車載ナビゲーション装置2を提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成用辞書更新方法、端末装置および音声合成システムの技術に関する。
【背景技術】
【0002】
車載用ナビゲーション装置や、公共施設における自動放送装置など、音声を用いて自動的に情報を提供する自動音声案内システムが広く普及している。これらのシステムは、録音した音声を接続して再生する録音編集方式と呼ばれるものと、発音を表した文字または符号列から音声を合成する規則合成方式と呼ばれるものに分けられる。
【0003】
録音編集方式は、自動音声案内でしばしば用いられてきた方式である。録音編集方式は、自動音声案内では定型的な表現が多く使用されることを利用して定型部分を録音音声の部品として複数用意しておき、要求に応じてそれらを適宜組み合わせることによって音声データが作成される方式である。
【0004】
規則合成方式は、入力された任意のテキストを音声に変換することを可能とする方式である。録音編集方式では、あらかじめ想定される内容を録音しておく必要があったが、規則合成方式では、テキストのみから任意の音声が即座に合成できるため、日々のニュースや緊急情報など、頻繁に更新される内容を読み上げるシステムとして、車載用ナビゲーション装置をはじめ様々な場所で利用されている。
【0005】
一般的な規則合成方式では、まず、入力されたテキスト(文字列)に対して言語処理を行い、読みおよびアクセントの情報を示す発音記号列を生成した後、基本周波数パタン(すなわち声の高さに対応する声帯の振動周期)および音素継続時間長(すなわち発声速度に対応する各音素の長さ)などの韻律パラメータを決定する。そして、波形生成処理によって、韻律パラメータにあわせた音声波形が生成される。韻律パラメータから音声波形を生成する方法として、音素または音節に対応する音声素片を組み合わせる波形接続型音声合成が広く用いられている。
【0006】
一般的な規則合成方式による音声出力の流れは次の通りである。まず、言語処理では、入力されたテキストから、発音記号列が生成される。発音記号列には、音素(音声の意味を弁別するための最小単位)または音節(1ないし3個程度の音素の結合からなる音声の聞こえの一種のまとまり)の並びを表現する読み情報が含まれる。また、発音記号列には、アクセント(発音の強さを指定する情報)および抑揚(疑問文や話し手の感情を示す情報)を表現するアクセント情報も含まれる。発音記号列の生成には、辞書を用いた言語処理または形態素解析処理などが適用される。次に、音声合成用辞書などを用いて発音記号列のアクセント情報に対応するように、基本周波数パタンおよび音素継続時間長などの韻律パラメータが決定される。韻律パラメータは、予め肉声を用いて学習された韻律モデル、およびヒューリスティクス(発見的に求められた制御規則)に基づいて生成される。最後に波形生成処理によって、韻律パラメータに合わせた音声波形が生成される。
【0007】
規則合成方式によれば、入力された任意のテキストを音声として出力することができるため、録音編集方式と比べて、柔軟性の高い自動音声案内システムが構築できる。しかし、規則合成方式によって出力された音声の品質は、肉声と比べると充分ではない。このため、従来、録音編集方式を利用している車載用カーナビゲーション装置などの音声案内システムに、規則合成方式を導入するには、品質の面で問題がある。
【0008】
規則合成方式を用いた装置は、パーソナルコンピュータや携帯電話などの、個人用途から業務用の音声ガイダンスシステムに至るまで、様々な装置形態を持ち、それぞれの用途に応じた音声合成手段および音声データが用いられる。このような様々な用途に応じて、また、装置形態に起因する記憶容量の制限に応じて、音声合成用データを構成することが、高品質の音声合成を実現するために必要とされている。
【0009】
特に、車載用ナビゲーションシステムで音声合成装置を実現する際には、記憶容量が充分にとれないことがあるため、音声合成用データは、大きく圧縮するか、特定の単語のみを高品質に合成できるようにデータを削減する必要がある。
【0010】
また、車載用ナビゲーションシステムでは、道路交通情報などが主な音声案内の内容であるため、地点名や道路名などは、できるだけ正しい読み方(発音方式)で高品質に音声案内したいというニーズがある。
【0011】
このようなニーズに対し、音声合成装置を、例えば、利用者がよく使用する単語などを高品質で音声出力したいといった特定用途に合わせるためには、特定用途のために録音された音声を用いて、音声素片・韻律モデルを学習する方法や、また、これらの音声素片や韻律モデルを、標準的な音声素片・韻律モデルからの変形によって実現する方法が用いられている。また、記憶容量に合わせた音声合成装置を作成するためには、用途に合わせて音声素片や韻律モデルのデータを圧縮する方法がある。
例えば、録音音声の韻律情報を利用して、規則合成音声の韻律パラメータをより高品質に生成する音声合成方式の韻律制御方法が開示されている(例えば、特許文献1参照)。
【特許文献1】特開平11−249677号公報
【発明の開示】
【発明が解決しようとする課題】
【0012】
しかしながら、音声合成装置を、特定用途に合わせて構成するためには、音声合成の方式を熟知した技術者が作業を行う必要があり、作業の手間がかかるという問題があった。また、音声合成用辞書が固定的であるため、特定用途に応じて構成された音声合成装置は、他の用途に利用すると品質が落ちてしまい、再利用することが難しいという問題があった。
【0013】
このような背景に鑑みて本発明がなされたのであり、本発明は、特定用途に合わせて音声合成用辞書を更新する方法を提供することを目的とする。
【課題を解決するための手段】
【0014】
前記課題を解決するため、本発明は、前記音声合成用辞書の更新対象となる前記対象発音記号列を含む要求情報を生成し、前記要求情報を辞書更新サーバへ送信し、前記辞書更新サーバから、前記要求情報に含まれる前記対象発音記号列と、当該対象発音記号列に対応する前記変換後発音記号列とを含む更新情報を受信し前記更新情報に含まれる前記対象発音記号列と、前記変換後発音記号列とを前記音声合成用辞書に追加することを特徴とする。
課題を解決するためのその他の手段は、実施形態に記載する。
【発明の効果】
【0015】
本発明によれば、特定用途に合わせて音声合成用辞書を更新する方法を提供することができる。
【発明を実施するための最良の形態】
【0016】
次に、本発明を実施するための最良の形態(「実施形態」という)について、適宜図面を参照しながら詳細に説明する。
【0017】
《第1実施形態》
まず、図1から図9を参照して、本発明に係る第1実施形態の説明を行う。第1実施形態では、生成された発音記号列を発音記号列履歴として記憶しておき、この発音記号列履歴から音声合成用辞書251の更新に必要な情報を抽出するものである。
【0018】
(システム構成)
図1は、第1実施形態に係る車載ナビゲーションシステムの構成例を示すブロック図である。
車載ナビゲーションシステム1(自動音声案内システム:音声合成システム)は、車載ナビゲーション装置2(端末装置)と文字情報サーバ4と辞書更新サーバ3とが、ネットワーク5を介して接続されている。ここで、文字情報サーバ4と、辞書更新サーバ3は、例えば、センタなどの設備に設置されている装置である。
車載ナビゲーション装置2は、情報送受信部201(送受信部)と、発音記号列取得部202と、音声合成部203と、音声出力部204と、要求リスト生成部205(要求情報生成部)と、更新処理部206と、音声合成用辞書251と、履歴記憶部252とを有してなる。
情報送受信部201は、文字情報サーバ4と辞書更新サーバ3との間で通信を確立して情報の送受信を行う機能を有する。発音記号列取得部202は、利用者の入力や車内の状況に応じ、情報送受信部201を介して文字情報サーバ4に対し対象発音記号列の要求(発音記号列要求)を送信し、応答として、対象発音記号列を文字情報サーバ4から取得する機能を有する。音声合成部203は、発音記号列取得部202が取得した対象発音記号列を基に、音声合成用辞書251を参照して変換後発音記号列を生成し、この変換後発音記号列を基に音声データを合成する機能を有する。さらに、音声合成部203は、変換後発音記号列の履歴を発音記号列履歴として、履歴記憶部252に記憶させる機能も有する。音声出力部204は、音声合成部203が生成した音声データを音声として出力する機能を有する。要求リスト生成部205は、履歴記憶部252に格納された履歴に基づいて音声合成用辞書251の更新を要求するための要求リスト(要求情報)を生成する機能を有する。更新処理部206は、辞書更新サーバ3に対し要求リストを送信し、応答として更新情報を取得する機能を有する。
【0019】
音声合成用辞書251は、音声合成部203が音声合成を行う際に参照し、文字の読み方を決定するための情報が格納されている。履歴記憶部252には、音声合成部203によって生成された変換後発音記号列の履歴(発音記号列履歴)が格納されている。
【0020】
文字情報サーバ4は、情報送受信部401と、発音記号列要求受信部402と、発音記号列生成部403と、発音記号列送信部404とを有してなる。
情報送受信部401は、車載ナビゲーション装置2との間で接続を確立して情報の送受信を行う機能を有する。発音記号列要求受信部402は、情報送受信部401を介して車載ナビゲーション装置2からの発音記号列要求を受信する機能を有する。発音記号列生成部403は、発音記号列要求受信部402が受信した発音記号列要求に基づいて対象発音記号列を生成する機能を有する。発音記号列送信部404は、発音記号列生成部403が生成した対象発音記号列を、情報送受信部401を介して車載ナビゲーション装置2へ送信する機能を有する。
【0021】
辞書更新サーバ3は、情報送受信部301と、要求リスト受信部302と、更新情報生成部303と、更新情報送信部304と、更新用辞書登録部305と、更新用辞書データベース351とを有してなる。
情報送受信部301(送受信部)は、車載ナビゲーション装置2との間で接続を確立して情報の送受信を行う機能を有する。要求リスト受信部302は、情報送受信部301を介して車載ナビゲーション装置2から要求リストを受信する機能を有する。更新情報生成部303は、要求リスト受信部302が受信した要求リストに応じて、更新用辞書データベース351を検索し、音声合成用辞書251の更新情報を生成する機能を有する。更新情報送信部304は、更新情報生成部303が生成した更新情報を、情報送受信部301を介して車載ナビゲーション装置2へ送信する機能を有する。更新用辞書登録部305は、更新用辞書データベース351に新しいデータを登録する機能を有する。更新用辞書データベース351は、更新情報を生成するためのデータが格納されている。
【0022】
(音声合成用辞書)
図2は、第1実施形態に係る音声合成用辞書の構成例を示す図である。
音声合成用辞書251は、対象発音記号列と変換後発音記号列とが対の情報として格納されている。ここで、対象発音記号列とは、文字情報サーバ4から送られてくる文字列情報であり、音声合成用辞書251を参照して変換される対象となる発音記号列である。また、変換後発音記号列とは、音声合成用辞書251に基づいて対象発音記号列を変換した後の記号列であり、音節を示すラベルの後に音高を示す基本周波数などの韻律パレメータが付される。このように基本周波数が付されることにより、合成音声の抑揚やアクセントの強さなどを制御することができ、何も指定されない発音記号列に比べて多様で、高品質の合成音声を生成することが可能となる。
【0023】
(更新用辞書データベース)
図3は、第1実施形態に係る更新用辞書データベースの構成例を示す図である。
更新用辞書データベース351の構成は、音声合成用辞書251と同様に、対象発音記号列と変換後発音記号列が対の情報として格納されているが、更新用辞書データベース351に格納されているデータは、更新用辞書登録部305を介して入力されたデータである。図3の例では、音声合成用辞書251と比較してレコード3001,3002などが格納されている点が異なる。
【0024】
(音声合成処理)
次に、図1、図2、図6および図7を参照しつつ、図4を参照して、本実施形態に係る音声合成処理の手順を説明する。
図4は、第1実施形態に係る音声合成処理の手順を示すフローチャートである。また、図6は、第1実施形態に係る対照発音記号列の例を示す図であり、(a)は、日本語の例を示し、(b)は、英語の例を示す。さらに、図7は、第1実施形態に係る変換後発音記号列(発音記号列履歴)の例を示す図であり、(a)は、日本語の例を示し、(b)は、英語の例を示す。
まず、音声合成の利用開始時に、車載ナビゲーション装置2の情報送受信部201が文字情報サーバ4の情報送受信部401と通信を確立する(S101)。文字情報サーバ4は、渋滞情報や観光情報など、車の利用者にとって便利な様々な情報を、文字情報として提供することができるように設計されている。なお、文字情報サーバ4は、交通情報センタなどに設置されている。
【0025】
次に、次に、発音記号列取得部202は、発音記号列情報の要求を文字情報サーバ4へ送信する(S102)。例えば、「渋滞情報」用、「観光情報」用、「メール」用、「天気予報」用など、音声出力を行う文字情報の種類(用途)を指定する。この指定は、利用者が車載ナビゲーション装置2の図示しない操作画面などを通じて行った指定に応じて要求を送信する構成であったり、車載ナビゲーション装置2が定期的に自動で要求を送信する構成であったり、様々な構成が可能である。
【0026】
そして、文字情報サーバ4の発音記号列要求受信部402は、情報送受信部401を介して発音記号列情報の要求を受信する。続いて、発音記号列生成部403は、受信した発音記号列情報の要求に基づいて対象発音記号列を生成し(S103)、発音記号列送信部404が、情報送受信部401を介して、生成された対象発音記号列が含まれる発音記号列情報を車載ナビゲーション装置2へ送信する。
ここで、発音記号列生成部403は、受信した発音記号列情報の要求に基づき任意の文章を選択して対象発音記号列を生成することができる。任意の文章から対象発音記号列を生成するためには、一般的な音声合成装置が持つ言語処理装置が利用できる。例えば形態素解析などを行い、形態素辞書に登録された読み情報を文字列化するといった手順で生成することができる。
【0027】
ここでは、例として、「渋滞情報」の要求を受信し、「中央公園付近で渋滞があります」といった文章に基づいて対象発音記号列を生成するものとする。図6に対象発音記号列の例を示す。例えば、図6(a)に示す日本語では、「中央公園付近で渋滞があります」という文章に対して、「chu u o o ko o e nn fu* ki nn de/ju u ta i ga a ri ma su」と、空白記号で区切られた、音節(モーラ)を示すラベルの並び、アスタリスク記号によるアクセント位置の指定(アクセント核、アクセント情報)、スラッシュ記号による文節区切りの指定で対象発音記号列が構成される。
また、図6(b)に示す英語では、「There is a traffic jam around the central park.」という文章に対して、「dh−eh−r ih−z ax t−r−ae* f−ih−k jh−ae*−m / er aw−n−d dh−a s−eh*n t−r−ax−l p−aa−r−k」と、空白で区切られ、音素ラベルをハイフンで結合した音節の並び、アスタリスクによるストレス位置の指定、スラッシュ記号による文節区切りの指定で対象発音記号列が構成される。
なお、本実施形態では、日本語と英語の対象発音記号列について例を挙げたが、音素や音節の並びおよびストレスやアクセントなど、発音を示す文字列であれば言語を問わない。
【0028】
図4に説明を戻し、ステップS103の後、車載ナビゲーション装置2の発音記号列取得部202は、情報送受信部201を介して文字情報サーバ4から送信された発音記号列情報を受信する(S104)。
そして、音声合成部203が、音声合成を行うための前処理として、受信した発音記号列情報に含まれる対象発音記号列に音声合成用辞書251を適用して(S105)、対象発音記号列に韻律パラメータが付加された変換後発音記号列に変換する。
ここで、図2と図6を参照して、ステップS105の処理を具体的に説明する。
ここでは、音声合成部203は、音声合成用辞書251の中に対象発音記号列が含まれている場合に、変換後発音記号列へ変換する処理を行う。つまり、音声合成部203は、音声合成用辞書251の中に対象発音記号列が含まれていない場合、該当する文節に対する変換後発音記号列への変換を行わない。例えば、図6(a)のように「chu u o o ko o e nn fu* ki nn de/ju u ta i ga a ri ma su.」が与えられた際、図2に示す音声合成用辞書251の対象発音記号列には、「chu u o o ko o e nn fu* ki nn de」が存在するため(レコード2001)、対応する変換後発音記号列に変換する。同様に、「ju u ta i ga a ri ma su」も対象発音記号列が含まれているため(レコード2002)、これも対応する変換後発音記号列に変換する。
【0029】
結果として、図6(a)に示す対象発音記号列は、「chu200 u240 o240 o240 ko230 o230 e230 nn 220 fu*240 ki210 nn 190 de160/ju180 u200 ta200 i200 ga190 a170 ri180 ma*180 su170.」という変換後発音記号列となる。ここで、変換発音記号列は、「chu190 u240 o240 o240 ko*230 o210 e190 nn150」と、音節を示すラベルの後に、韻律パラメータの1つである音高を示す基本周波数が指定される。
【0030】
英語の場合も「dh−er−r220 ih−z220 ax200 t−r−ae*240 f−ih k220 jh−ae*−m210/er190 aw−n−d220 sh−ax200 s−eh*−n240 t−r−axl220 p−aa*−r−k200」というように、同様の構成ができる(図2のレコード2003,2004参照)。このように基本周波数が指定されると合成音声の抑揚やアクセントの強さなどを制御することができ、何も指定されない発音記号列に比べて多様で、高品質の合成音声を生成することが可能となる。
なお、ここでは、簡単化のために韻律パラメータとして基本周波数のみを指定する構成をとったが、音素や音節の継続長、音量の指定など、発音を制御する指定をさらに追加する構成をとることもできる。
【0031】
なお、ステップS105において、音声合成用辞書251に対応する発音記号列がない場合、前記したように音声合成部203は、変換後発音記号列への変換を行わない。言い換えれば、音声合成部203は、受信した対象発音記号列を、そのまま変換後発音記号列とする。
例えば、図7(a)における「ko ku bun ji ko o e nn fu* ki nn de」は、音声合成用辞書251に該当するレコードがないため、基本周波数などの韻律パラメータが付加されていない。
同様に、図7(b)における「ax−t dh−a k−aa k−uw b−ah*−n jh−iy p−aa−k」は、音声合成用辞書251に該当するレコードがないため、基本周波数などの韻律パラメータが付加されていない。
【0032】
図4の説明に戻り、音声合成部203は、変換後発音記号列に基づいて、波形データなどの音声データを生成する(S106)。ここで、音声合成部203は、一般的な音声合成プログラムを用いて構成できるが、基本周波数などの指定を考慮して、出力音声が変化することが可能であるように、複数の素片を選択することが可能な素片選択型音声合成プログラム、または、音声の基本周波数の変更が可能な韻律変形処理が可能な音声合成プログラムを用いることが望ましい。
【0033】
そして、音声出力部204は、音声合成部203により生成された合成音声情報を、スピーカなどを用いて出力することによって、合成音声を出力する(S107)。
次に、音声合成部203は、合成音声を生成した発音記号列(変換後発音記号列)を発音記号列履歴として履歴記憶部252に格納する(S108)。
【0034】
このように音声合成用辞書251を適用することによって、車載ナビゲーションシステム1(自動音声案内システム)は、基本周波数など発音を制御する情報(韻律パラメータ)を指定することが可能となる。その結果、車載ナビゲーションシステム1(自動音声案内システム)は、合成音声の抑揚やアクセントの強さなどを制御することができ、何も指定されない発音記号列に比べて多様で、高品質の合成音声を生成することが可能となる。
【0035】
(音声合成用辞書の更新処理)
次に、図1から図3および図7から図9を参照しつつ、図5に沿って本実施形態に係る音声合成用辞書251の更新処理の手順を説明する。
図5は、本実施形態に係る音声合成用辞書251更新処理の手順を示すフローチャートである。また、図8は、第1実施形態に係る要求リストの例を示す図であり、図9は、第1実施形態に係る更新情報の例を示す図である。
まず、車載ナビゲーション装置2の情報送受信部201が、辞書更新サーバ3の情報送受信部301と通信を確立する(S201)。通信を確立するタイミングは、利用者が車載ナビゲーション装置2における図示しない操作画面などで指示した時点や、外部接続機器と接続した時点など様々なタイミングが考えられる。
前記したように、辞書更新サーバ3は、更新用辞書登録部305から入力された各種音声案内のための文字情報を音声合成する際に、より高品質になるように調整された辞書を更新用辞書データベース351に蓄積している。つまり、更新用辞書データベース351は、音声合成用辞書251より多くの辞書情報を格納している。更新用辞書データベース351への情報の入力は、適宜管理者などによって行われる。
【0036】
次に、車載ナビゲーション装置2の要求リスト生成部205は、辞書更新サーバ3から新たな音声合成用辞書251を受信するための要求リストを生成する(S202)。ここでは、履歴記憶部252に記憶されている発音記号列履歴を基に要求リストを生成する。
図7に発音記号列履歴の一例を示し、図8に生成された要求リストの一例を示す。
ここでは、要求リスト生成部205が、発音記号列履歴内から音声合成用辞書251を適用していない文節を抽出する。つまり、要求リスト生成部205は、発音記号列履歴において、基本周波数などの韻律パラメータが付加していない発音記号列の文節を抽出する。例えば、図7(a)における「・・・/ko ku bu nn ji ko o e nn de / mi180 gi200 ho*200 o190 ko170 o160 de140 su130.」に対しては、「ko ku bu nn ji ko o e nn de」の発音記号列を要求リスト生成部205が抽出する。また図7(b)における英語の場合も同様にして、「・・・/t−er*−n220 r−ay*−t220 / ax−t dh−a k−aa k−uw b−ah*−n jh−iy p−aa−k.」から「ax−t dh−a k−aa k−uw b−ah*−n jh−iy p−aa−k.」の発音記号列を要求リスト生成部205が抽出する。要求リスト生成部205は、抽出した発音記号列を図8に示すように、更新の対象である対象発音記号列として要求リストを生成する。
【0037】
次に、更新処理部206は、情報送受信部201を介して、辞書更新サーバ3へ要求リストを送信する(S203)。
そして、辞書更新サーバ3の要求リスト受信部302は、情報送受信部301を介して車載ナビゲーション装置2からの要求リストを受信する。続いて、更新情報生成部303は、受信した要求リストに基づいて、更新用辞書データベース351を検索し、更新情報を生成する(S204)。
例えば、図8のレコード8001に対応する対象発音記号列は、図3のレコード3001に存在するので、レコード3001に対応する対象発音記号列と、対応する変換後発音記号列を対の情報として更新情報に追加する。同様に、図8のレコード8002に対応する発音記号列は、図3のレコード3002に存在するので、レコード3002に対応する対象発音記号列と、対応する変換後発音記号列を対の情報として更新情報に追加する。
このようにして、更新情報生成部303は、図9に示すような更新情報を生成する。
なお、更新用辞書データベース351に該当する発音記号列がないとき、辞書更新サーバ3は、該当する発音記号列がない旨の情報を車載ナビゲーション装置2へ送ってもよいし、辞書更新サーバ3が、図示しない表示部に該当する発音記号列がない旨の表示を行い、管理者に発音記号列の入力を促して入力させてもよい。
【0038】
図5の説明に戻り、更新情報送信部304は、更新情報生成部303が生成し更新情報を、情報送受信部301を介して車載ナビゲーション装置2へ送信する。
車載ナビゲーション装置2の更新処理部206は、情報送受信部201を介して更新情報を受信すると(S205)、音声合成用辞書251に受信した更新情報を追加し、音声合成用辞書251を更新する(S206)。
【0039】
第1実施形態によれば、音声合成用辞書251の差分更新手段が提供され、また、音声合成装置が合成した発音記号列の履歴に基づいて更新内容が決定され、車載ナビゲーションシステム1の特定用途に応じて必要十分な音声合成用辞書251を更新することができる。これにより、特定用途に応じて高品質化された合成音声を出力することが可能となる。つまり、利用者が利用する発音記号列の情報のみを音声合成用辞書251に更新することが可能となる。
【0040】
《第2実施形態》
次に、図10から図16を参照して、本発明に係る第2実施形態を説明する。第2実施形態では、地図情報の更新を利用して、音声合成用辞書251の更新を行う。
【0041】
(システム構成)
図10は、第2実施形態に係る車載ナビゲーションシステムの構成例を示すブロック図である。なお、図10において、図1と同様の構成要素には、同一の符号を付して説明を省略する。
図10における車載ナビゲーションシステム1a(自動音声案内システム)は、図1とは一部異なる機能を有する車載ナビゲーション装置2aと、交通情報センタなどに設置されている地図情報サーバ6とを有している点で図1の車載ナビゲーションシステム1とは異なる。
【0042】
車載ナビゲーション装置2aは、第1実施形態の構成に加えて、地図更新情報取得部207と、地図情報記憶部253と、用例リスト記憶部254とをさらに有している。
地図更新情報取得部207は、地図情報サーバ6に地図情報の更新を要求し、地図情報サーバ6から受信した地図更新情報に応じて地図情報を更新する機能を有している。
地図情報記憶部253は、地図情報を記憶する機能を有する。
用例リスト記憶部254は、特定の単語を基に複数の文節を生成するための情報である用例リストが格納されている。用例リストについては、図12を参照して後記する。なお、用例リストは省略してもよい。
【0043】
地図情報サーバ6は、道路・施設の配置に関する情報や、道路名・施設名・地名に関する情報の変更を地図情報データベース651で管理している。そして、地図情報サーバ6は、情報送受信部601と、地図更新要求受信部602と、地図更新情報生成部603と、地図更新情報送信部604と、地図情報登録部605と、地図情報データベース651とを有してなる。
情報送受信部601は、車載ナビゲーション装置2aとの間で接続を確立して情報の送受信を行う機能を有する。地図更新要求受信部602は、情報送受信部601を介して車載ナビゲーション装置2aからの地図更新の要求を受信する機能を有する。地図更新情報生成部603は、地図更新要求受信部602が受信した地図更新要求に応じて、地図情報データベース651における地図情報の更新情報を生成する機能を有する。地図更新情報送信部604は、更新された地図情報を車載ナビゲーション装置2aへ送信する機能を有する。地図情報登録部605は、地図情報データベース651に新しい地図情報を登録する機能を有する。地図情報データベース651は、地図情報を格納している。
【0044】
(地図更新情報)
図11は、本実施形態に係る地図更新情報の例を示す図である。
図11に示すように、地図更新情報には、地名の表記と、緯度経度と、地名の読みとが情報として格納されている。
【0045】
(用例リスト)
図12は、本実施形態に係る用例リストの例を示す図である。
用例リストには、特定の単語を基に複数の文節を生成するための情報が格納されている。
例えば、図12の「+」部分に、「ko ku bu nn ji ko* o e n」が代入されることにより、「ko ku bu nn ji ko o e n de」や、「ko ku bu nn ji ko* o e n fu* ki nn de」や、「ko ku bu nn ji ko o e n ni」や、「ko ku bu nn ji ko o e n wo」などの文節が生成される。なお、後記するようにアクセントの移動は自動的に行われる。
【0046】
(音声合成用辞書の更新処理)
次に、図10から図12および図14から図16を参照しつつ、図13に沿って第2実施形態に係る音声合成用辞書251の更新処理の手順を説明する。
図13は、第2実施形態に係る音声合成用辞書の更新処理の手順を示すフローチャートである。また、図14は、第2実施形態に係る音声案内文法の例を示す図であり、図15は、第2実施形態に係る要求リストの例を示す図であり、図16は、第2実施形態に係る更新情報の例を示す図である。
なお、図13の処理において、図5と同様の処理については、同一のステップ番号を付して説明を省略する。
また、第2実施形態でも音声合成処理の手順は、図4と同様であるためフローチャートおよび説明を省略する。
【0047】
まず、車載ナビゲーション装置2aの情報送受信部201が地図情報サーバ6と通信を確立すると同時に辞書更新サーバ3との通信も確立する(S301)。通信を確立するタイミングは、利用者が車載ナビゲーション装置2aにおける図示しない操作画面などで指示した時点や、外部接続機器と接続した時点など様々なタイミングが考えられる。
【0048】
次に、地図更新情報取得部207は、地図情報サーバ6から新たな地図情報を受信して、地図情報を更新するための要求を送信する(S302)。ここで、車載ナビゲーション装置2aの持つ図示しないハードディスクなどの記憶装置は、通常限られた容量しか有さないため、常に地図情報サーバ6が扱うすべての地図情報を記憶することは困難である。また、通信容量も制限があることを考慮して、車載ナビゲーション装置2aは、効率的な地図情報の更新を行う必要がある。このような理由で、ステップS302において、車載ナビゲーション装置2aは、公知の地図情報の差分更新技術を用いることができる。例えば、経路履歴などに基づいた要求を地図情報サーバ6に送信することにより、必要な区域のみの地図情報を更新することができる。
【0049】
そして、地図情報サーバ6の地図更新要求受信部602は、情報送受信部601を介して車載ナビゲーション装置2aからの地図情報更新の要求を受信する。続いて、地図更新情報生成部603は、受信した地図情報更新の要求に基づいて地図情報データベース651を検索して、地図更新情報を生成する(S303)。このとき、地図更新情報に含まれる情報は、例えば、前回の音声合成用辞書251の更新処理以降に更新された地図情報である。なお、このとき、公知の地図情報の差分更新技術を用いれば、例えば地図情報更新の要求に含まれる経路履歴などに基づいて、特定の区域のみの地図更新情報を生成することができる。続いて、地図更新情報送信部604は、情報送受信部601を介して、生成された地図更新情報を車載ナビゲーション装置2aへ送信する。
【0050】
次に、車載ナビゲーション装置2aの地図更新情報取得部207は、情報送受信部201を介して受信した地図更新情報を地図情報記憶部253に記憶することによって、地図情報を更新する(S304)。
そして、要求リスト生成部205が、更新された地図情報を基に、辞書更新サーバ3から新たな音声合成用辞書251を受信するための要求リストを生成する(S305)。
図11の説明で前記したように、地図情報の中には、地名の表記のほかに、読みが格納されている。この読みは、車載ナビゲーション装置2aにおいて、目的地設定を行うために利用され、タッチパネルでの読み入力や、音声認識入力に対応することができる。ここでは、この読みを音声合成用辞書251の要求リストとすることによって、利用者がよく利用する区域に関する地名や施設名を含む合成音声の高品質化を図ることができる。
【0051】
また、この要求リストに加えて、ナビゲーションシステムで使用される音声案内文法を付加するようにしてもよい。例えば、図14に示すような音声案内文法が設定されているとき、地名が入る箇所を含む文節を取り出して、要求リストを生成することができる。
生成される要求リストの一例を図15に示す。ここで、要求リスト生成部205が、図14を基に「(place) fu* ki nn de」を抽出し、地図更新情報から抽出された、「ko ku bu nn ji ko* o e n」を「(place)」の部分に代入することにより、「ko ku bu nn ji ko o e n fu* ki nn de」を要求リストに加えることができる。日本語の場合、アクセント結合とよばれる現象により「付近で」の前のアクセントはなくなるが、この変換は、要求リスト生成部205によって自動的に行うようにする。また、要求リスト生成部205は、図12に示す用例リストを用いて、複数の文節を生成して、要求リストに加えてもよい。
【0052】
なお、英語の場合、要求リスト生成部205が、「er aw−n−d (place)」という文節に対して、地図更新情報から抽出した、「dh−a k−aa k−uw b−ah*−n jh−iy p−aa−k」を「(place)」の部分に代入することにより、「er aw−n−d dh−a k−aa k−uw b−ah*−n jh−iy p−aa−k」を要求リストに加えることができる。また、要求リスト生成部205は、日本語のときと同様に、用例リストを用いて、要求リストを生成してもよい。
このように要求リストに音声案内文法を付加することによって、地図更新情報から音声案内に適した音声合成用辞書251を生成することが可能となる。
【0053】
以降の処理(S203〜S206)は、図5における処理と同様であるため、説明を省略する。なお、ステップS204の結果、生成された更新情報を図16に示す。図16では、地図更新情報に含まれている「ko ku bu nn ji ko* o e nn」の他にも、音声案内文法などによる「ko ku bu nn ji ko oe nn fu* ki nn de」が対象発音記号列に加えられている。
【0054】
なお、要求リスト生成部205は、ステップS305で生成した要求リストと、履歴記憶部252に記憶された発音記号列履歴とで整合を取るようにしてもよい。つまり、要求リスト生成部205は、第1実施形態に示した発音記号列履歴から生成した要求リストと、地図更新情報から生成した要求リストの中から共通部分を抽出し、抽出した共通部分を要求リストとする。発音記号列履歴には、利用者が普段使用している発音記号列が格納されているため、共通部分を抽出することにより、利用者が普段通らない地図情報を含む発音記号列を除外することができる。
【0055】
第2実施形態によれば、音声合成用辞書251の差分更新手段が提供され、また、発音記号列履歴に加えて、地図情報の更新に基づいて更新内容が決定されることにより、車載ナビゲーションシステム1の利用目的に応じて高品質化された合成音声を出力することが可能となる。つまり、地図情報の更新に基づいた、音声合成用辞書251の更新が可能となる。
【0056】
なお、本実施形態に記載の技術は、車載用カーナビゲーションシステムへの適用が好適であるが、携帯電話などテキスト入力から音声出力を実現する自動音声案内システム一般に適用可能である。
【0057】
図1および図10に示す各部201〜207,301〜305,401〜404,601〜605は、図示しないROM(Read Only Memory)や、HD(Hard Disk)に格納されたプログラムが、図示しないRAM(Random Access Memory)に展開され、図示しないCPU(Central Processing Unit)によって実行されることによって具現化する。
【図面の簡単な説明】
【0058】
【図1】第1実施形態に係る車載ナビゲーションシステムの構成例を示すブロック図である。
【図2】第1実施形態に係る音声合成用辞書の構成例を示す図である。
【図3】第1実施形態に係る更新用辞書データベースの構成例を示す図である。
【図4】第1実施形態に係る音声合成処理の手順を示すフローチャートである。
【図5】第1実施形態に係る音声合成用辞書の更新処理の手順を示すフローチャートである。
【図6】第1実施形態に係る対象発音記号列の例を示す図であり、(a)は、日本語の例を示し、(b)は、英語の例を示す。
【図7】第1実施形態に係る変換後発音記号列(発音記号列履歴)の例を示す図であり、(a)は、日本語の例を示し、(b)は、英語の例を示す。
【図8】第1実施形態に係る要求リストの例を示す図である。
【図9】第1実施形態に係る更新情報の例を示す図である。
【図10】第2実施形態に係る車載ナビゲーションシステムの構成例を示すブロック図である。
【図11】第2実施形態に係る地図更新情報の例を示す図である。
【図12】第2実施形態に係る用例リストの例を示す図である。
【図13】第2実施形態に係る音声合成用辞書の更新処理の手順を示すフローチャートである。
【図14】第2実施形態に係る音声案内文法の例を示す図である。
【図15】第2実施形態に係る要求リストの例を示す図である。
【図16】第2実施形態に係る更新情報の例を示す図である。
【符号の説明】
【0059】
1,1a 車載ナビゲーションシステム(自動音声案内システム:音声合成システム)
2,2a 車載ナビゲーション装置(端末装置)
3 辞書更新サーバ
4 文字情報サーバ
5 ネットワーク
6 地図情報サーバ
201 情報送受信部(送受信部)
202 発音記号列取得部
203 音声合成部
204 音声出力部
205 要求リスト生成部(要求情報生成部)
206 更新処理部
207 地図更新情報取得部
251 音声合成用辞書
252 履歴記憶部
253 地図情報記憶部
254 用例リスト記憶部
301 情報送受信部(送受信部)
302 要求リスト受信部
303 更新情報生成部
304 更新情報送信部
305 更新用辞書登録部
351 更新用辞書データベース
401 情報送受信部
402 発音記号列要求受信部
403 発音記号列生成部
404 発音記号列送信部
601 情報送受信部
602 地図更新要求受信部
603 地図更新情報生成部
604 地図更新情報送信部
605 地図情報登録部
651 地図情報データベース


【特許請求の範囲】
【請求項1】
韻律パラメータが付加されていない対象発音記号列と、前記韻律パラメータが付加されている変換後発音記号列とが対応付けられて、記憶部に格納されている音声合成用辞書を基に、音声出力の対象となる前記対象発音記号列から、前記変換後発音記号列へ変換し、当該変換された変換後発音記号列に従って音声出力を行う端末装置による音声合成用辞書更新方法であって、
前記端末装置が、
前記音声合成用辞書の更新対象となる前記対象発音記号列を含む要求情報を生成し、
前記要求情報を辞書更新サーバへ送信し、
前記辞書更新サーバから、前記要求情報に含まれる前記対象発音記号列と、当該対象発音記号列に対応する前記変換後発音記号列とを含む更新情報を受信し
前記更新情報に含まれる前記対象発音記号列と、前記変換後発音記号列とを前記音声合成用辞書に追加する
ことを特徴とする音声合成用辞書更新方法。
【請求項2】
前記端末装置が、
前記音声出力を行う際に、前記対象発音記号列に対応する前記変換後発音記号列が前記音声合成用辞書にない場合、前記対象発音記号列を履歴記憶部に格納し、
前記履歴記憶部の対象発音記号列を前記要求情報に含める
ことを特徴とする請求項1に記載の音声合成用辞書更新方法。
【請求項3】
前記端末装置が、
外部装置から更新した地図情報における文字情報を含む地図更新情報を取得し、
前記要求情報生成部は、当該取得した地図更新情報に含まれる文字情報を、前記対象発音記号列とする前記要求情報を生成する
ことを特徴とする請求項1に記載の音声合成用辞書更新方法。
【請求項4】
前記端末装置が、
前記地図更新情報に含まれる文字情報の前および後ろの少なくとも1つに、所定の単語を付加することで、更新情報に含まれる前記対象発音記号列を生成する
ことを特徴とする請求項3に記載の音声合成用辞書更新方法。
【請求項5】
前記端末装置が、
前記音声出力を行う際に生成した変換後発音記号列を履歴記憶部に格納し、さらに前記対象発音記号列に対応する前記変換後発音記号列が前記音声合成用辞書にない場合に、前記対象発音記号列も履歴記憶部に格納し、
前記地図更新情報と、前記履歴記憶部に格納されている前記変換後発音記号列および前記対象発音記号列とを比較して、一致する情報を前記対象発音記号列とする更新情報を生成する
ことを特徴とする請求項4に記載の音声合成用辞書更新方法。
【請求項6】
前記端末装置は、車載ナビゲーション装置に搭載されることを特徴とする請求項1に記載の音声合成用辞書更新方法。
【請求項7】
韻律パラメータが付加されていない対象発音記号列と、前記韻律パラメータが付加されている変換後発音記号列とが対応付けられて、記憶部に格納されている音声合成用辞書を基に、音声出力の対象となる前記対象発音記号列から、前記変換後発音記号列へ変換し、当該変換された変換後発音記号列に従って音声出力を行い、前記前記音声合成用辞書の更新を行う端末装置であって、
情報の送受信を行う送受信部と、
前記音声合成用辞書の更新対象となる前記対象発音記号列を含む要求情報を生成する要求情報生成部と、
辞書更新サーバから送られた、前記要求情報に含まれる前記対象発音記号列と、当該対象発音記号列に対応する前記変換後発音記号列とを、前記音声合成用辞書に追加する更新処理部と、
を有することを特徴とする端末装置。
【請求項8】
前記端末装置は、
前記音声出力を行う際に、前記対象発音記号列に対応する前記変換後発音記号列が前記音声合成用辞書にない場合、前記対象発音記号列を格納している履歴記憶部を、
さらに有し、
前記要求情報生成部は、前記履歴記憶部の対象発音記号列を前記要求情報に含める
ことを特徴とする請求項7に記載の端末装置。
【請求項9】
前記端末装置は、
外部装置から更新した地図情報における文字情報を含む地図更新情報を取得する地図更新情報取得部を、
さらに有し、
前記要求情報生成部は、当該取得した地図更新情報に含まれる文字情報を、前記対象発音記号列とする前記要求情報を生成する
ことを特徴とする請求項7に記載の端末装置。
【請求項10】
前記要求情報生成部は、前記地図更新情報に含まれる文字情報の前および後ろの少なくとも1つに、所定の単語を付加することで、更新情報に含まれる前記対象発音記号列を生成する
ことを特徴とする請求項9に記載の端末装置。
【請求項11】
前記端末装置は、
前記音声出力を行う際に生成した変換後発音記号列を格納し、さらに前記対象発音記号列に対応する前記変換後発音記号列が前記音声合成用辞書にない場合に、前記対象発音記号列を格納している履歴記憶部を、
さらに有し、
前記要求情報生成部は、前記地図更新情報と、前記履歴記憶部に格納されている前記変換後発音記号列および前記対象発音記号列とを比較して、一致する情報を前記対象発音記号列とする更新情報を生成する
ことを特徴とする請求項10に記載の端末装置。
【請求項12】
車載ナビゲーション装置に搭載されることを特徴とする請求項7に記載の端末装置。
【請求項13】
韻律パラメータが付加されていない対象発音記号列と、前記韻律パラメータが付加されている変換後発音記号列とが対応付けられて、記憶部に格納されている音声合成用辞書を基に、音声出力の対象となる前記対象発音記号列から、前記変換後発音記号列へ変換し、当該変換された変換後発音記号列に従って音声出力を行う端末装置と、
前記対象発音記号列と、前記変換後発音記号列とが対応付けられている更新用辞書を、前記音声合成用辞書とは別に記憶部に保持している辞書更新サーバと、
を有し、前記音声合成用辞書の更新を行う音声合成システムであって、
前記辞書更新サーバは、
情報の送受信を行う送受信部と、
前記端末装置から受信した要求情報に含まれる前記対象発音記号列を基に、前記更新用辞書を検索して、当該要求情報に含まれる対象発音記号列に対応する変換後発音記号列を取得し、前記要求情報に含まれる対象発音記号列と、前記取得した変換後発音記号列とを対の情報として有する更新情報を生成する更新情報生成部と、
を有し
前記端末装置は、
情報の送受信を行う送受信部と、
前記音声合成用辞書の更新対象となる前記対象発音記号列を含む要求情報を生成する要求情報生成部と、
前記辞書更新サーバから送られた更新情報に含まれる前記対象発音記号列と、前記変換後発音記号列とを、前記音声合成用辞書に追加する更新処理部と、
を有することを特徴とする音声合成システム。
【請求項14】
前記端末装置は、
前記音声出力を行う際に、前記対象発音記号列に対応する前記変換後発音記号列が前記音声合成用辞書にない場合、前記対象発音記号列を格納している履歴記憶部を、
さらに有し、
前記要求情報生成部は、前記履歴記憶部の対象発音記号列を前記要求情報に含める
ことを特徴とする請求項13に記載の音声合成システム。
【請求項15】
前記端末装置は、
外部装置から更新した地図情報における文字情報を含む地図更新情報を取得する地図更新情報取得部を、
さらに有し、
前記要求情報生成部は、当該取得した地図更新情報に含まれる文字情報を、前記対象発音記号列とする前記要求情報を生成する
ことを特徴とする請求項13に記載の音声合成システム。
【請求項16】
前記要求情報生成部は、前記地図更新情報に含まれる文字情報の前および後ろの少なくとも1つに、所定の単語を付加することで、更新情報に含まれる前記対象発音記号列を生成する
ことを特徴とする請求項15に記載の音声合成システム。
【請求項17】
前記端末装置は、
前記音声出力を行う際に生成した変換後発音記号列を格納し、さらに前記対象発音記号列に対応する前記変換後発音記号列が前記音声合成用辞書にない場合に、前記対象発音記号列を格納している履歴記憶部を、
さらに有し、
前記要求情報生成部は、前記地図更新情報と、前記履歴記憶部に格納されている前記変換後発音記号列および前記対象発音記号列とを比較して、一致する情報を前記対象発音記号列とする更新情報を生成する
ことを特徴とする請求項16に記載の音声合成システム。
【請求項18】
前記端末装置は、車載ナビゲーション装置に搭載されることを特徴とする請求項13に記載の音声合成システム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2010−79190(P2010−79190A)
【公開日】平成22年4月8日(2010.4.8)
【国際特許分類】
【出願番号】特願2008−250372(P2008−250372)
【出願日】平成20年9月29日(2008.9.29)
【出願人】(509186579)日立オートモティブシステムズ株式会社 (2,205)
【Fターム(参考)】