説明

音声合成出力装置

【課題】本発明は、発話者に対して意識的な入力作業を強いることなく、複数の発話者の音声データを収集可能な音声合成出力装置の提供を目的とする。
【解決手段】音声入力部10を介して入力された発話者の音声が音声認識部14によって文字列の音声データに分解され、音声合成部15によってその文字列の音声データを用いて音声合成処理された合成音を出力する音声合成出力装置であって、発話者を自動的に特定するユーザ認証部11を備え、ユーザ認証部11によって自動的に特定された発話者毎にその文字列の音声データが音声データベース13に格納されることを特徴とする、音声合成出力装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話者の音声データを収集して、その収集された音声データを用いて音声合成処理された合成音を出力する音声合成出力装置に関する。
【背景技術】
【0002】
従来から、入力された文章データを解析して当該文章を音声合成により読み上げる文章読み上げシステムが知られている(例えば、特許文献1参照)。この文章読み上げシステムは、実際に人間が発音した音声をサンプリングすることにより作成された音声辞書を交換可能にすることによって、様々な人の声で文章データを読み上げることを可能にするものである。
【特許文献1】特開2003−58177号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上述の従来技術では、音声辞書が交換可能であっても、音声辞書を作成する際に複数の発話者の音声データのサンプリングを行うには、各々の発話者に意識的に音声データの入力作業を強いる必要があった。
【0004】
そこで、本発明は、発話者に対して意識的な入力作業を強いることなく、複数の発話者の音声データを収集可能な音声合成出力装置の提供を目的とする。
【課題を解決するための手段】
【0005】
上記課題を解決するため、第1の発明として、
発話者の発声音の音声データを収集する収集手段を有し、
前記収集手段によって収集された音声データを用いて音声合成処理された合成音を出力する音声合成出力装置であって、
発話者を自動的に特定する認証手段を備え、
前記収集手段は、前記認証手段によって自動的に特定された発話者毎に音声データを収集することを特徴とする、音声合成出力装置を提供する。
【0006】
また、第2の発明は、第1の発明に係る音声合成出力装置であって、
前記収集手段によって収集された発話者毎の音声データが前記合成音の出力を許可できる収集状態であるか否かを判定する出力許可判定手段を備え、
前記合成音は、前記出力許可判定手段によって前記合成音の出力を許可できる収集状態であると判定された場合に出力可能となることを特徴とする。
【0007】
また、第3の発明は、第2の発明に係る音声合成出力装置であって、
前記収集手段は、前記出力許可判定手段によって前記合成音の出力を許可できる収集状態であると判定された発話者の音声データの収集を抑制することを特徴とする。
【0008】
また、第4の発明は、第1から2のいずかの発明に係る音声合成出力装置であって、
前記収集手段によって収集された音声データを格納する記憶手段を備え、
前記認証手段は、発話者の実際の発声音の音声データを前記記憶手段に既に格納された音声データと比較することによって発話者を特定することを特徴とする。
【0009】
また、第5の発明は、第4の発明に係る音声合成出力装置であって、
前記収集手段によって収集された発話者毎の音声データが発話者を特定できる収集状態であるか否かを判定する認証許可判定手段を備え、
前記認証手段による発話者の特定は、前記認証許可判定手段によって発話者を特定できる収集状態であると判定された場合に可能となることを特徴とする。
【0010】
また、第6の発明は、第1から5のいずかの発明に係る音声合成出力装置であって、
前記収集手段は、車両の車室内の乗員の発声音の音声データを収集することを特徴とする。
【0011】
また、第7の発明は、第6の発明に係る音声合成出力装置であって、
前記収集手段によって収集された乗員の音声データは、通信回線を介して接続可能な車外の記憶装置に格納され、
前記車外の記憶装置に格納された音声データが複数の車両に送信されることを特徴とする。
【発明の効果】
【0012】
本発明によれば、発話者に対して意識的な入力作業を強いることなく、複数の発話者の音声データを収集できる。
【発明を実施するための最良の形態】
【0013】
以下、図面を参照して、本発明を実施するための最良の形態の説明を行う。図1は、本発明に係る音声合成出力装置の第1の実施形態を示したブロック図である。本第1の実施形態の音声合成出力装置は、音声入力部10、ユーザ認証部11、収集状態判定部12、音声データベース13、音声認識部14、音声合成部15、対話制御部16及び音声出力部17を備える。
【0014】
音声入力部10は、音声を集音するマイク等の入力装置であって、発話者が発声した音声を集音可能な入力装置である。音声入力部10から入力された音声に係る音声信号は、ユーザ認証部11と音声認識部14に出力される。音声入力部10が車両に搭載される場合、その音声入力部10は車室内の乗員の音声を集音する。
【0015】
ユーザ認証部11は、虹彩認証、顔認証、声紋認証、指紋認証、静脈認証等の生体認証を用いて、発話者を自動的に特定する認証装置である。ユーザ認証部11は、音声入力部10から音声が入力されることによって発話者の認証を自動的に開始したり、カメラ等の撮像装置や赤外線センサ等の検知装置によって人の存在が検知されることによって発話者の認証を自動的に開始したりする。
【0016】
音声認識部14は、本音声合成出力装置と音声対話するユーザが話す音声を認識し、文字列に変換するものである。音声入力部10から入力された音声について、特徴抽出、音素解析、単語解析及び構文解析を行い、その入力された音声を文字列の音声データに変換(分解)する。
【0017】
音声データベース13は、ユーザ認証部11によって特定された発話者毎に音声認識部14によって分解された音声データを格納する。例えば、音声データベース13に音声データが格納される登録ユーザとして、「Aさん」,「Bさん」,「Cさん」が設定されている場合、「Aさん」,「Bさん」,「Cさん」毎に各人の音声データが音声データベース13に格納される。
【0018】
音声合成部15は、音声データベース13に格納された文字列の音声データから音声を生成(音声合成処理)するものである。音声合成部15は、文字列解析、韻律制御及び音声波形生成を行うことによって、音声出力部17によって出力される音声(合成音)を文字列の音声データから生成する。生成された音声は、音声波形(音波)として音声出力部17を介して出力される。この音声波形を制御することによって、「音の大きさ(音圧、音圧レベル)」「音の高さ」「音色」に変化を与えることができる。「音の大きさ」は音声波形の振幅によって決まり、「音の高さ」は音声波形の周波数によって決まり、「音色」は音声波形の形状によって決まる。音の大きさと音の高さについてそれぞれ同一な二つの音声波形(つまり、振幅、周波数が同一)を比べた場合、その音声波形の形状が異なれば、その音声の音色は互いに異なる。
【0019】
音声出力部17は、音声を出力するスピーカ等の音声出力装置であって、上述の音声波形に基づいて実際の合成音を出力するものである。音声出力部17が車両に搭載される場合、その音声出力部17は車室内に合成音を出力する。
【0020】
収集状態判定部12は、音声データベース13に格納されている発話者毎の音声データが、音声合成部15によって音声合成処理された合成音の音声出力部17からの出力を許可可能な収集状態であるか否かを判定する。ある程度の音声データを収集しておかなければ、所定の品質レベルを満足できる合成音を音声出力部17から出力することはできない。そこで、収集状態判定部12は、合成音の音声出力部17からの出力を許可可能な収集状態を、例えば、出力を許可できる音声データ量に対してデータベース13に格納されている音声データ量の比率を示す収集率(以下、「出力判定用収集率」という)に基づいて判定する。したがって、出力判定用収集率100%とは、音声出力部17から合成音の出力を許可することのできる音声データが音声データベース13に蓄積されている状態である。
【0021】
ここで、出力判定用収集率を規定するために導入した「出力を許可できる音声データ量」は、要求される合成音の品質レベルに応じて決定すればよく、合成音の品質レベルの要求が高ければその必要量は多くなり、合成音の品質レベルが低ければその必要量は少なくなる。また、「出力を許可できる音声データ量」は、要求される合成音の種類(数)に応じて決定される場合もある。例えば、カーナビゲーションシステムにおいて経路案内等のための合成音の場合、「100m先の交差点を右に曲がってください」「目的地に到着です」など特定の種類の言葉に限定されるので、出力を許可できる音声データ量について、要求される合成音の数が多くなるほどその必要量は多くなり、要求される合成音の数が少ないほどその必要量は少なくなる。
【0022】
なお、出力判定用収集率を、音声合成部15での音声合成処理に必要な音声データ量に対してデータベース13に格納されている音声データ量の比率と定義してもよい。
【0023】
図4は、音声データベース13に格納される登録ユーザ毎の音声データとその収集率との関係を模式的に示した図である。図4は、音声データベース13に格納されているAさん及びCさんの音声データの収集率は100%であることを示し、音声データベース13に格納されているBさんの音声データの収集率は60%であることを示している。すなわち、音声データベースに格納されているAさん及びCさんの音声データは、音声出力部17から合成音の出力を許可できる音声データ量が蓄積されていることを示している(あるいは、音声合成部15での音声合成処理に必要なデータ量が蓄積されていることを示している)が、音声データベースに格納されているBさんの音声データは、音声出力部17から合成音の出力を許可できる音声データ量が蓄積されていないことを示している(あるいは、音声合成部15での音声合成処理に必要なデータ量が蓄積されていないことを示している)。したがって、Aさん及びCさんの合成音は、音声合成部15によって音声合成処理されて音声出力部17からの出力を許可できる状態であるが、Bさんの合成音は、音声合成部15によって音声合成処理されて音声出力部17からの出力を許可できない状態である。
【0024】
また、収集状態判定部12は、合成音の音声出力部17からの出力を許可可能な収集状態(出力判定用収集率100%)であると判定した発話者の音声データについては、音声認識処理の実行を抑止又は停止するように音声認識部14に指示する。その指示を受けた音声認識部14は、その指示に該当する発話者の音声データについては、特徴抽出や文字列の音声データ変換等の音声認識処理の実行を抑止または停止する。なお、収集状態判定部12は、合成音の音声出力部17からの出力を許可可能な収集状態(出力判定用収集率100%)であると判定した発話者の音声データについては、音声データベース13に格納しないように音声認識部14に指示してもよい。その指示を受けた音声認識部14は、その指示に該当する発話者の音声データについては、音声データベース13に格納しないようする。
【0025】
対話制御部16は、本音声合成出力装置とそのユーザとの間の音声による対話の流れを制御するものである。対話制御部16は、音声認識部14によって入力音声から変換された文字列を認識し、その認識された文字列の内容に応じた所定の制御を行う。対話制御部16は、ROM等の記憶装置に記憶された会話シナリオを参照して音声対話の制御を実行する。会話シナリオには、単語や構文の辞書データ及び文例などが含まれる。音声認識部14によって認識されたユーザの発話内容に応じて会話シナリオを参照して、ユーザに対する返答内容を決定する。
【0026】
また、対話制御部16は、ユーザとの対話に限らず一方的に音声を出力することも可能であって、出力すべき音声がある場合には、会話シナリオ等を参照して音声合成部15によって生成される音声の元になる文字列の音声データを生成する。
【0027】
このような音声対話技術は、例えば、電話によるお客様窓口などに採用されている自動応答システム(IVR:Interactive Voice Response)、カーナビゲーションシステムのルート検索に用いる音声認識、通信機能を搭載した際の音声合成による電子メール読み上げ等に適用され得る。
【0028】
また、対話制御部16は、音声データベース13に格納された文字列の音声データのうちどの登録ユーザの音声データを用いて音声合成処理をすべきかを音声合成部15に対して指示する。音声合成部15は、その指示に従い音声合成処理を実行する。これにより、異なる人(種類)の声色の合成音が出力可能となる。
【0029】
対話制御部16は、ユーザ認証部11によって特定された発話者と音声データベース13に格納された音声データとの所定の対応関係に基づいて、音声合成処理に用いる音声データを決定する。例えば、ユーザ認証部11によって発話者が「Dさん」と特定された場合には、その対応関係によって予め関係付けられた「Aさん」の音声データが音声合成処理に用いられる。また、対話制御部16は、ユーザ認証部11による認証にかかわらず、デフォルトの音声データを音声合成処理に用いるように決定してもよい。さらに、対話制御部16は、ユーザや他のシステムから音声出力部17から出力される合成音を変更する指示を受け付けた場合には、その変更指示に従って音声合成処理に用いる音声データを音声データベース13の中から選択・決定してもよい。
【0030】
ところで、ユーザ認証部11は、上述したように声紋認証を用いて発話者を自動的に特定することが可能であるが、音声入力部10から入力された実際のユーザの発声音の音声データを音声データベース13に既に格納された音声データと比較することによって、声紋認証と同様に、発話者を自動的に特定することができる。音声入力部10から入力された実際のユーザの発声音の音声データを音声データベース13に既に格納された音声データと比較する認証を、以下「音声認証」という。
【0031】
しかしながら、音声データベース13に発話者を特定可能な程度の音声データ量が収集されていなければ、音声認証は正しく実行できない。そこで、収集状態判定部12は、音声データベース13に格納されている発話者毎の音声データが、ユーザ認証部11による音声認証の実行を許可可能な収集状態であるか否かを判定する。この場合、収集状態判定部12は、ユーザ認証部11による音声認証の実行を許可可能な収集状態を、例えば、音声認証の実行を許可できる音声データ量に対してデータベース13に格納されている音声データ量の比率を示す収集率(以下、「認証用収集率」という)に基づいて判定する。したがって、認証用収集率100%とは、ユーザ認証部11による音声認証の実行を許可することのできる音声データが音声データベース13に蓄積されている状態である。なお、収集状態判定部12は、ユーザ認証部11による音声認証の実行を許可可能な収集状態を、「出力判定用収集率」に基づいて判定してもよい。これにより、認証用収集率を新たに設定せずとも出力判定用収集率を流用することで、音声認証を導入することによるROMやCPU等のシステム負荷の増大を抑えることができる。
【0032】
収集状態判定部12は、ユーザ認証部11による音声認証の実行を許可可能な収集状態であると判定した発話者の音声データについては、音声認証の実行を許可する旨をユーザ認証部11に対して指令する。その指令を受けたユーザ認証部11は、その指令に該当する発話者については、音声認証を実行する。
【0033】
ところで、本実施形態の音声合成出力装置は、音声入力部22とは別に、ユーザの操作入力を受け付ける手動入力装置を備えてもよい。手動入力装置として、例えば、プッシュスイッチ、レバースイッチ及びタッチパネルディスプレイが挙げられる。この場合、対話制御部16は、手動入力装置を介して所定の操作信号が入力されると、その操作信号に応じた所定の制御を実行する。
【0034】
また、対話制御部16等、本実施形態の音声合成出力装置の構成の一部は、制御プログラムや制御データを記憶するROM、制御プログラムの処理データを一時的に記憶するRAM、制御プログラムを処理するCPU、外部と情報をやり取りするための入出力インターフェースなどの複数の回路要素によって構成されたものである。
【0035】
それでは、本発明に係る音声合成出力装置の実施形態の動作について図に示したフローを参照しながら説明する。図2を参照しながら音声データの収集動作について説明し、図3を参照しながら合成音の出力動作について説明する。
【0036】
図2は、本発明に係る音声合成出力装置の実施形態の音声データの収集動作のフローである。発話者の存在が自動的に認識されると、ユーザ認証部11は発話者の特定を開始する(ステップ10)。収集状態判定部12は、ユーザ認証部11によって特定された発話者の音声データの収集率が100%未満であるか否かを判定する(ステップ12)。100%未満であると判定された場合には(ステップ12;Yes)、特定された発話者の音声は音声認識部14によって音声データに分解され(ステップ14)、分解された音声データは音声データベース13に発話者毎に格納される(ステップ16)。一方、100%未満ではない(100%である)と判定された場合には(ステップ12;No)、特定された発話者の音声の収集は音声認識部14において抑制される(ステップ18)。発話者の音声の収集の抑制とは、発話者の音声データの音声データベース13への格納が禁止されたり、音声入力部10から入力される音声の認識が行われないようにしたりすることである。
【0037】
図3は、本発明に係る音声合成出力装置の実施形態の合成音の出力動作のフローである。対話制御部16は、上述のように音声合成処理に用いる音声データを音声データベース13の中から選択し、音声合成部15に対してその選択した音声データで音声合成処理を実行するよう指示する。
【0038】
ここで、音声認識部14による音声認識内容や手動入力装置による操作内容などに基づいて、音声出力部17から出力される合成音に関するユーザ等からの変更指示が受け付けられた場合には(ステップ30)、変更指示に該当する登録ユーザの音声データが音声データベース13から選択される(ステップ32)。音声合成部15は、ステップ32において選択された登録ユーザの音声データを読み込んで(ステップ34)、その読み込んだ音声データを用いて音声合成処理を実施する(ステップ36)。ステップ36において音声合成処理された合成音が音声出力部17から出力される(ステップ38)。
【0039】
したがって、本実施形態の音声合成装置によれば、自動的に発話者を特定するので、発話者に対して意識的な音声データの入力作業を強いることなく、音声データの収集をすることができる。その結果、ユーザの音声データの登録作業をする負荷が低減される。また、複数の発話者の音声データが容易に収集可能となるとともに、発話者毎の合成音が容易に出力可能となる。
【0040】
また、本実施形態の音声合成装置によれば、合成音の音声出力部17からの出力を許可可能な収集状態を、出力判定用収集率に基づいて判定しているので、要求される合成音の仕様(品質や種類)に合わせて合成音を出力することができる。また、音声データの収集の上限値を設定することができ、音声認識処理の実行を抑制することができるので、システム負荷の低減を図ることができる。
【0041】
また、本実施形態の音声合成装置によれば、ユーザ認証部11による音声認証の実行を許可可能な収集状態を、認証用収集率に基づいて判定しているので、要求される音声認証の精度に合わせて音声認証を実行することができる。
【0042】
また、本実施形態の音声合成装置によれば、音声データベース13に格納される音声データを音声認証として利用できるので、音声認証のための音声データの登録作業を行う必要がなく、ユーザの負担の低減を図ることができる。また、音声データベースに音声データを格納する前に音声認証を行うことになるので、発話者の音声データを誤って音声データベース13に格納することを防止することができる。例えば、発話者の音声データがその発話者と異なる発話者の音声データとして格納されることを防止することができる。
【0043】
以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなく、上述した実施例に種々の変形及び置換を加えることができる。
【0044】
図5は、本発明に係る音声合成出力装置の第2の実施形態を示したブロック図である。本第2の実施形態の音声合成出力装置は、車両100に搭載され、通信回線を介して車両100に離れて設けられた施設であるセンター200と接続される。センター200は、登録ユーザの音声データを格納する音声データベース31を備えている。車両100側の音声データベース13に格納される音声データとセンター200側の音声データベース31に格納される音声データは、車両100に備えられる通信部18とセンター200に備えられる通信部30とを介して、送受される。車両100に搭載された音声入力部10を介して集音された音声データは、通信回線を介してセンター200に送信され、上述の音声データベース13への格納手法と同様に、音声データベース31に発話者毎に格納される。
【0045】
なお、図5に示される第2の実施形態の音声合成出力装置において、上述の図1に示される第1の実施形態の音声合成出力装置の符号と同一のものは、その機能が同様のため、説明を省略する。
【0046】
したがって、本第2の実施形態の音声合成出力装置によれば、登録したユーザの音声データをセンター200側の音声データベース31に登録しておけば、センター200から複数の異なる車両に音声データをダウンロードすることが可能となる。したがって、あるユーザが別の車両に乗り換えたとしても、乗り換え前の車両と同じ合成音を容易に出力させることが可能となる。また、車両毎に音声データの収集を実行する必要がなくなる。さらに、車両100に搭載される音声データベース13に必ずしも合成音として出力させたい音声データを格納する必要はなく、必要なときのみセンター200からダウンロードすればよい。その結果、音声データベース13の容量の削減を図ることができる。
【図面の簡単な説明】
【0047】
【図1】本発明に係る音声合成出力装置の第1の実施形態を示したブロック図である。
【図2】本発明に係る音声合成出力装置の実施形態の音声データの収集動作のフローである。
【図3】本発明に係る音声合成出力装置の実施形態の合成音の出力動作のフローである。
【図4】音声データベース13に格納される登録ユーザ毎の音声データとその収集率との関係を模式的に示した図である。
【図5】本発明に係る音声合成出力装置の第2の実施形態を示したブロック図である。
【符号の説明】
【0048】
10 音声入力部
11 ユーザ認証部
12 収集状態判定部
13,31 音声データベース
14 音声認識部
15 音声合成部
16 対話制御部
17 音声出力部
18,30 通信部
100 車両
200 センター

【特許請求の範囲】
【請求項1】
発話者の発声音の音声データを収集する収集手段を有し、
前記収集手段によって収集された音声データを用いて音声合成処理された合成音を出力する音声合成出力装置であって、
発話者を自動的に特定する認証手段を備え、
前記収集手段は、前記認証手段によって自動的に特定された発話者毎に音声データを収集することを特徴とする、音声合成出力装置。
【請求項2】
前記収集手段によって収集された発話者毎の音声データが前記合成音の出力を許可できる収集状態であるか否かを判定する出力許可判定手段を備え、
前記合成音は、前記出力許可判定手段によって前記合成音の出力を許可できる収集状態であると判定された場合に出力可能となる、請求項1に記載の音声合成出力装置。
【請求項3】
前記収集手段は、前記出力許可判定手段によって前記合成音の出力を許可できる収集状態であると判定された発話者の音声データの収集を抑制する、請求項2記載の音声合成出力装置。
【請求項4】
前記収集手段によって収集された音声データを格納する記憶手段を備え、
前記認証手段は、発話者の実際の発声音の音声データを前記記憶手段に既に格納された音声データと比較することによって発話者を特定する、請求項1から3のいずれかに記載の音声合成出力装置。
【請求項5】
前記収集手段によって収集された発話者毎の音声データが発話者を特定できる収集状態であるか否かを判定する認証許可判定手段を備え、
前記認証手段による発話者の特定は、前記認証許可判定手段によって発話者を特定できる収集状態であると判定された場合に可能となる、請求項4に記載の音声合成出力装置。
【請求項6】
前記収集手段は、車両の車室内の乗員の発声音の音声データを収集する、請求項1から5のいずれかに記載の音声合成出力装置。
【請求項7】
前記収集手段によって収集された乗員の音声データは、通信回線を介して接続可能な車外の記憶装置に格納され、
前記車外の記憶装置に格納された音声データが複数の車両に送信される、請求項6に記載の音声合成出力装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2007−286198(P2007−286198A)
【公開日】平成19年11月1日(2007.11.1)
【国際特許分類】
【出願番号】特願2006−111269(P2006−111269)
【出願日】平成18年4月13日(2006.4.13)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【Fターム(参考)】