説明

通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム

【課題】話者の声質にあったより近い合成音声を出力することが可能な通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラムを提供する。
【解決手段】第1の言語で入力された入力音声を音声認識する音声認識部101と、音声認識された結果を第2の言語に翻訳する翻訳部102と、翻訳された第2の言語を音声合成する音声合成部103と、第1の言語の声質を分析する声質分析部104と、第1の言語の声質と第2の言語の声質との類似性を計量する声質類似性計量部105と、声質類似性計量部105で得られた声質類似性計量結果に基づいて、音声合成部103で音声合成される第2の言語の声質を制御する声質制御部106とを備えることにより、第1の言語の声質と第2の言語の声質とが比較的類似したものになり、違和感を生じるのを極力少なくすることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、第1の言語で発声され入力された音声信号を第2の言語に通訳し、その通訳結果を合成音声し出力する通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラムに関するものである。
【背景技術】
【0002】
従来、通訳装置は、マイクより入力された音声信号を音声認識手段により自動的に認識し、自動翻訳手段により上記認識結果を所望の外言語に翻訳したのち、音声合成手段により、上記翻訳結果を外言語の音声で合成するという構成により実現されている。
【0003】
ところで、このような通訳装置において、話者の声質に近い自然な通訳結果を得ることを目的として、合成音声の話速を入力の話速に応じて制御するように構成したものも知られている(例えば、特許文献1参照)。
【0004】
図4は、このように話速を制御するように構成した従来の通訳装置の構成を示すブロック図である。
【0005】
図4において、マイク401に向かって発せられた音声は、マイク401によって電気信号に変換され、入力アンプ402によって増幅される。増幅された入力音声信号は、音声分析回路403によって音声認識される。音声認識された結果は、電子翻訳回路404に供給され、ここで所望の外言語に自動的に翻訳される。そして、その後、音声合成回路405によって音声合成され、合成音声信号として出力される。出力された合成音声信号は、出力アンプ406で増幅され、スピーカ407から合成音声として出力される。
【0006】
一方、計測回路408では、入力された音声の話速が計測され、その結果が制御回路409に加えられる。制御回路409は、計測回路408から供給された話速に応じて電子翻訳回路404、搬出速度制御回路410をそれぞれ制御し、合成音声の話速を入力音声の話速に連動するように制御する。
【0007】
これにより、スピーカ407から出力される合成音声が、マイク401に入力された入力音声の話速にあったものになり、自然な話速の通訳結果を得ることができる。
【0008】
なお、文字表示装置411は、翻訳結果を文字として表示するものである。
【0009】
また、同じように、話者の声質に近い自然な通訳結果を得ることを目的として、合成音声の韻律を話者の入力音声を基に制御するようにしたものも公知である(例えば、特許文献2参照)。
【0010】
これによれば、第1の言語からこれとは別の第2の言語に翻訳する場合、アクセントが考慮され、アクセントと言う面でより自然な通訳結果を得ることができ、音声理解を高めることができる。
【特許文献1】特開昭57―57375号公報
【特許文献2】特開平6−332494号公報
【発明の開示】
【発明が解決しようとする課題】
【0011】
しかしながら、上記した従来の通訳装置では、合成音声の話速を入力音声の話速にあわせて制御するものであったり、合成音声のアクセントを入力音声のアクセントに合わせて適正なものになるように制御するものであったりするだけのものであり、合成音声の話速、アクセントに着目しただけのものであるため、話者の声質にあった適正な合成音声を得ることはできなかった。
【0012】
本発明は、このような従来の問題に鑑みてなされたものであり、話者の声質にあったより近い合成音声を出力することができる通訳装置、通訳方法、および通訳プログラムを提供するものである。
【課題を解決するための手段】
【0013】
本発明の通訳装置は、第1の言語で入力された入力音声を音声認識する音声認識手段と、音声認識された結果を第2の言語に翻訳する翻訳手段と、翻訳された第2の言語を音声合成する音声合成手段と、第1の言語の声質を分析する声質分析手段と、第1の言語の声質と第2の言語の声質との類似性を計量する声質類似性計量手段と、声質類似性計量手段で得られた声質類似性計量結果に基づいて音声合成手段によって音声合成される第2の言語の声質を制御する声質制御手段とを備えた構成を有する。
【0014】
この構成により、第1の言語の声質と第2の言語の声質との類似性が声質類似性計量手段によって計量され、その類似性が近づくように音声合成手段が制御されるため、第2の言語の声質が第1の言語の声質に類似し、違和感を極力少なくすることができる。
【0015】
また、本発明の通訳装置は、音声認識手段が、第1の言語で入力された入力音声信号を文字列または単語または単語列または文または意味表現として認識し、音声合成手段が、第2の言語による文字列または単語または単語列または文として合成する構成を有する。
【0016】
この構成により、第1の言語を文字列または単語または単語列または文または意味表現として認識し、第2の言語を文字列または単語または単語列または文として合成することができる。
【0017】
また、本発明の通訳装置は、声質分析手段が、入力音声の個人性を特徴づけている声質の特徴量を抽出し、声質類似性計量手段が、声質分析手段によって抽出された声質の特徴量を音声合成手段によって音声合成された第2の言語の声質の特徴量と比較する構成を有する。
【0018】
この構成により、声質の類似性を、音声の個人性を特徴づけている声質の特徴量で容易に判断することができる。
【0019】
また、本発明の通訳装置は、声質の特徴量が、入力音声信号、および、音声合成された第2の言語の音声信号に含まれる声道特性としてのスペクトル包絡である構成を有する。
【0020】
この構成により、声質の特徴量を容易に抽出することができる。
【0021】
また、本発明の通訳装置は、声質分析手段が、入力音声信号中の声道特徴量を抽出する声道特徴量抽出手段と、入力音声信号中のピッチ周波数を抽出するピッチ周波数抽出手段とを備え、声質類似性計量手段が、声道特徴量抽出手段によって抽出された声道特徴量と音声合成手段によって音声合成された第2の言語の声道特徴量とを比較する声道特徴量類似性計量手段と、ピッチ周波数抽出手段によって抽出されたピッチ周波数と音声合成手段によって音声合成された第2の言語のピッチ周波数とを比較するピッチ周波数類似性計量手段とを備えた構成を有する。
【0022】
この構成により、声道特徴量のみならず、ピッチ周波数も対象として類似性が判断されることになり、個人の特徴をより大きく捕らえ、誰が発生したかをより分かりやすくすることができる。
【0023】
また、本発明の通訳装置は、入力音声信号の信号パワーを抽出する信号パワー抽出手段を更に備え、信号パワー抽出手段で抽出した信号パワーを基に、音声合成手段によって合成される第2の言語の音声信号の信号パワーを制御する構成を有する。
【0024】
この構成により、第2の言語の信号パワーを第1の言語の信号パワーに合わせて類似するように制御することができ、パワーが大きいときには大きく、小さいときには小さく、任意に調整することができる。
【0025】
また、本発明の通訳装置は、入力音声信号から入力音声の発声速度を抽出する発声速度抽出手段を更に備え、発声速度抽出手段で抽出した発声速度を基に、音声合成手段によって合成される第2の言語の音声信号の発声速度を制御する構成を有する。
【0026】
この構成により、第2の言語の発声速度を第1の言語の発声速度に合わせて早くしたり、遅くしたりすることができ、第1の言語を発声する人の特徴を更に1つ付加することができる。
【0027】
さらに、本発明の通訳方法は、第1の言語で入力された入力音声を音声認識する音声認識ステップと、音声認識ステップで音声認識された結果を第2の言語に翻訳する翻訳ステップと、翻訳ステップで翻訳された第2の言語を音声合成する音声合成ステップと、第1の言語で入力された入力音声の声質を分析する声質分析ステップと、第1の言語で入力された入力音声の声質と第2の言語に翻訳された合成音声の声質の類似性を計量する声質類似性計量ステップと、声質類似性計量ステップで得られた声質類似性計量結果に基づいて、音声合成ステップで合成される第2の言語の声質を制御する声質制御ステップとを備えた構成を有する。
【0028】
この構成により、第1の言語の声質と第2の言語の声質とが声質類似性計量ステップで互いに比較され、その結果にしたがって両者の声質の類似性がより近くなるように音声合成の方法が制御されることになり、第2の言語をより第1の言語の音声に近づけることができる。
【0029】
また、本発明の通訳方法は、音声認識ステップが、第1の言語で入力された入力音声信号を文字列または単語または単語列または文または意味表現として認識し、音声合成ステップが、第2の言語による文字列または単語または単語列または文として合成する構成を有する。
【0030】
この構成により、第1の言語を文字列または単語または単語列または文または意味表現として認識し、第2の言語を文字列または単語または単語列または文として合成することができる。
【0031】
さらに、本発明の記録媒体は、第1の言語で入力された入力音声を音声認識する音声認識ステップと、音声認識ステップで音声認識された結果を第2の言語に翻訳する翻訳ステップと、翻訳ステップで翻訳された第2の言語を音声合成する音声合成ステップと、第1の言語で入力された入力音声の声質を分析する声質分析ステップと、第1の言語で入力された入力音声の声質と第2の言語に翻訳された合成音声の声質の類似性を計量する声質類似性計量ステップと、声質類似性計量ステップで得られた声質類似性計量結果に基づいて
、音声合成ステップで合成される第2の言語の声質を制御する声質制御ステップとをコンピュータに実行させるための通訳プログラムを記録している。
【0032】
この構成により、この通訳プログラムを読み出して各ステップを実行し、第1の言語で発声された音声をそれに類似した声質の第2の言語に容易に翻訳することが可能になる。
【0033】
さらに、本発明の通訳プログラムは、第1の言語で入力された入力音声を音声認識する音声認識手順と、音声認識手順で音声認識された結果を第2の言語に翻訳する翻訳手順と、翻訳手順で翻訳された第2の言語を音声合成する音声合成手順と、第1の言語で入力された入力音声の声質を分析する声質分析手順と、第1の言語で入力された入力音声の声質と第2の言語に翻訳された合成音声の声質の類似性を計量する声質類似性計量手順と、声質類似性計量手順で得られた声質類似性計量結果に基づいて、音声合成手順で合成される第2の言語の声質を制御する声質制御手順とをコンピュータに実行させる構成を有する。
【0034】
この構成により、第1の言語で発声された音声をそれに類似した声質の第2の言語に翻訳することをコンピュータで実行させることができる。
【発明の効果】
【0035】
本発明の通訳装置は、第1の言語で入力された入力音声を音声認識する音声認識手段と、音声認識された結果を第2の言語に翻訳する翻訳手段と、翻訳された第2の言語を音声合成する音声合成手段と、第1の言語の声質を分析する声質分析手段と、第1の言語の声質と第2の言語の声質との類似性を計量する声質類似性計量手段と、声質類似性計量手段で得られた声質類似性計量結果に基づいて音声合成手段によって音声合成される第2の言語の声質を制御する声質制御手段とを備えたものであり、第1の言語の声質と第2の言語の声質とが声質類似性計量手段によって計量され、その類似性が近づくように音声合成手段が制御されるため、第2の言語の声質が第1の言語の声質に類似し、違和感を生じることが少なくなるという効果を有する。
【発明を実施するための最良の形態】
【0036】
以下、本発明の実施の形態について、図面を参照しながら説明する。
【0037】
(実施の形態1)
図1は、本発明の実施の形態1における通訳装置の概略構成を示すブロック図である。
【0038】
本発明の実施の形態1における通訳装置は、図1に示すように、入力音声信号を入力する音声認識部101と、音声認識部101の出力を入力とする翻訳部102と、翻訳部102の出力を入力とする音声合成部103と、入力音声信号を入力とする声質分析部104と、声質分析部104の出力及び音声合成部103の音声合成結果を入力とし、これらの結果に基づいて音声合成部103を制御する声質制御部106とを備えている。
【0039】
次に、本実施の形態における通訳装置について、その動作を説明する。
【0040】
第1の言語(例えば、日本語)で発声された音声は、図示していないマイクで音声信号に変換され、入力アンプで増幅されて、入力音声信号として音声認識部101に入力される。音声認識部101に入力音声信号が入力されると、音声認識部101が、入力された入力音声信号を認識し、その結果を単語、単語列、文、意味表現など予め指定された形式で出力する。出力された認識結果は、翻訳部102に入力され、ここで、第2の言語(例えば、英語)に翻訳される。翻訳結果は、認識結果と同様、単語、単語列、文などの予め指定された表現形式で出力される。出力された翻訳結果は、音声合成部103に加えられ、ここで音声合成され、合成音声信号を出力する。
音声合成部103は、声質制御可能な音声合成手段であり、声質制御部106の制御の基でそれぞれ異なる声質の合成音声信号を出力することが可能なように構成されている。具体的には、例えば、公知技術であるボコーダに基づく方法(古井貞護著「音声情報処理」、森北出版1998 P40)等を用いるが、この方法に限定されるものではない。
【0041】
以下、このことについて、より詳細に説明する。
【0042】
入力音声信号は、音声認識部101に入力されると同時に、声質分析部104にも入力される。音声分析部104は、例えば、入力音声信号に含まれるスペクトル包絡(声道特性)などの音声の個人性を特徴づけている声質の特徴量を抽出する。この特徴量としては、例えば、低次ケプストラム係数等のベクトル量を使用する。
【0043】
音声分析部104が入力音声信号から声質の特徴量を抽出すると、その特徴量が、声質類似性計量部105に入力される。声質類似性計量部105に入力音声信号の声質の特徴量が入力されると、声質類似性計量部105、声質制御部105の制御の基で、音声合成部103によって合成され、出力される合成音声信号の声質が入力音声信号の声質に最も近くなるように音声合成部103を制御する。
【0044】
すなわち、声質類似性計量部105では、入力音声信号の声質の特徴量と、現在の制御条件を仮定した場合に音声合成部103により合成される音声の声質の特徴量とを互いに比較し、入力音声と出力音声の声質の類似性を計量する。声質の類似性の計量方法としては、例えば、低次ケプストラム係数等のベクトル量のユークリッド距離、或いは、聴覚重み付け距離等を用いる。
【0045】
このようにして、声質の類似性を計量すると、その結果が声質制御部106に入力される。声質制御部106は、入力された声質の類似性に基づいて、声質の類似性が最適値になるように音声合成部103を制御する。
【0046】
なお、声質の類似性として距離を用いる場合には、距離が小さいほど良好な制御規範である(良く似ている)ことを意味する。
【0047】
かかる構成によれば、声質類似性計量部105によって入力音声信号の声質と合成音声信号の声質を互いに比較しながら声質制御部106を用いて音声合成部103を制御し、合成音声の声質を入力音声の声質により近いものにすることができる。
【0048】
(実施の形態2)
図2は、本発明の実施の形態2における通訳装置の概略構成を示すブロック図である。
【0049】
本発明の実施の形態2における通訳装置は、図2に示すように、入力音声信号を入力とする音声認識部201と、音声認識部201の出力を入力とする翻訳部202と、翻訳部202の出力を入力とする音声合成部203と、入力音声信号を入力とする声道特徴量抽出部204と、同じく入力音声信号を入力とするピッチ周波数抽出部205と、同じく入力音声信号を入力とする信号パワー抽出部206と、同じく入力音声信号を入力とする音声速度抽出部207と、声道抽出部204の出力を入力とする声道特徴量類似性計量部208と、ピッチ周波数抽出部205の出力を入力とするピッチ周波数類似性計量部209と、声道特徴量類似性計量部208、ピッチ周波数類似性計量部209、信号パワー抽出部206、音声速度抽出部207の出力をそれぞれ入力とし、音声合成部203を制御する声質制御部210とを備えている。
【0050】
次に、本実施の形態における通訳装置について、その動作を説明する。
【0051】
第1の言語で発声された音声は、図示していないマイクで音声信号に変換され、入力アンプで増幅されて、入力音声信号として音声認識部201に入力される。音声認識部201に入力音声信号が入力されると、音声認識部201が、入力された入力音声信号を認識し、その結果を単語、単語列、文、意味表現など予め指定された形式で出力する。出力された認識結果は、翻訳部202に入力され、ここで、第2の言語に翻訳される。翻訳結果は、認識結果と同様、単語、単語列、文などの予め指定された表現形式で出力される。出力された翻訳結果は、音声合成部203に加えられ、ここで音声合成され、合成音声信号を出力する。
【0052】
音声合成部203は、声質制御可能な音声合成手段であり、声質制御部210の制御の基でそれぞれ異なる声質の合成音声信号を出力するように構成されている。そして、声質制御部210には、声道特徴量類似性計量部208、ピッチ周波数類似性計量部209、信号パワー抽出部206、発声速度抽出部207の出力が入力されるように構成されている。したがって、声質制御部210は、これらの出力で制御され、その出力に応じて音声合成部203を制御する。
【0053】
以下、このことについて更に詳細に説明する。
【0054】
先ず、声道特徴量抽出部204は、例えば、入力音声信号に含まれるスペクトル包絡(声道特性)などの音声の個人性を特徴づけている声質の特徴量を抽出する。この特徴量としては、例えば、低次ケプストラム係数等のベクトル量を使用する。声質の特徴量を抽出すると、その特徴量が声道特徴量類似性計量部208に供給される。そして、音声合成部203で合成された合成音声の声質の特徴量と比較される。
【0055】
また、ピッチ周波数抽出部205は、入力音声信号のピッチ周波数、または、その推移パターンを抽出する。抽出されたピッチ周波数、または、その推移パターンは、ピッチ周波数類似性計量部209に入力され、ピッチ周波数類似度計量部209で、音声合成部203で合成された合成音声のピッチ周波数、または、その推移パターンと比較される。
【0056】
声道特徴量類似性計量部208で比較され得られた結果と、ピッチ周波数類似性計量部209で比較され得られた結果、並びに、信号パワー抽出部206、発声速度抽出部207でそれぞれ抽出された入力音声信号のパワー、発声速度が、それぞれ声質制御部210に入力される。その結果、次のように、音声合成部203が制御される。
【0057】
すなわち、まず、声道特徴量類似性計量部208、ピッチ周波数類似性計量部209、声質制御部210がそれぞれ動作することにより合成音の声質が入力音声に近い声質になるように音声合成部203が制御される。
【0058】
声道特徴量類似性計量部208では、入力音声信号の声質の特徴量と、現在の制御条件を仮定した場合に音声合成部203により合成される音声の声質の特徴量とを比較し、入力音声と出力音声の声質の類似性を計量する。声質の類似性の計量方法としては、上記ベクトル量のユークリッド距離あるいは聴覚重み付け距離等を用いればよい。このようにして計量した声質の類似性は、声質制御部210に加えられ、それに基づいて音声合成部203が制御される。したがって、音声合成部203で合成される合成音の声質は、入力音声に近い声質になる。なお、類似性として距離を用いる場合は、距離の値が小さいほど良好な制御規範である(良く似ている)ことを意味する。
【0059】
ピッチ周波数類似性計量部209では、入力音声信号のピッチ周波数パターンと現在の制御条件を仮定した場合に音声合成部203により合成される音声のピッチ周波数パター
ンの類似性を計量する。ピッチ周波数パターンの類似性も声質制御部210に供給され、それに基づいて音声合成部203が制御される。したがって、音声合成部203で合成される合成音のピッチ周波数パターンは、入力音声に近いピッチ周波数パターンになる。
【0060】
また、声質の制御を行う際に入力音声信号のパワー、および、入力音声の発声速度も参照することになり、合成音のパワー、および、発声速度も入力音声に連動したパワー、および、発声速度になる。
【0061】
このように、かかる構成によれば、声質特徴量抽出部204、ピッチ周波数抽出部205、信号パワー抽出部206、発声速度抽出部207により声質の特徴をそれぞれ抽出し、声道特徴量類似性計量部208、および、ピッチ周波数類似性計量部209を用いて声道特徴量類似度、ピッチ周波数類似度を算出し、それらを声質制御部210に入力して、声質制御部210で音声合成部203を制御しており、声道特徴量、ピッチ周波数、信号パワー、発声速度をそれぞれ入力音声により近いものにすることができ、より入力音声に近い声質の合成音を得ることができるという効果を有する。
【0062】
(実施の形態3)
図3は、本発明の実施の形態3として、通訳方法を説明するためのフローチャートである。
【0063】
図3において、ステップS301は、第1の言語で発声された音声信号を入力する音声入力ステップである。入力された第1の言語の音声信号は、次の音声認識ステップS302において音声認識され、その結果を単語または単語列または文または意味表現など予め指定された形式で出力する。翻訳ステップS303では、認識結果を第2の言語に翻訳し、翻訳結果を単語または単語列または文などあらかじめ指定された表現形式で出力する。音声合成ステップS304では、翻訳結果を入力し、第2の言語による合成音声信号を出力する。声質分析ステップS305では、例えば、入力音声に含まれるスペクトル包絡(声道特性)などの音声の個人性を特徴づける声質の特徴量を抽出する。この特徴量としては、例えば、低次ケプストラム係数等のベクトル量を使用すればよい。
【0064】
声質類似性計量ステップS306と次の声質制御ステップS307とは、互いに連動して処理を行うことにより、合成音の声質が入力音声に近い声質になるように合成音の声質を制御する。
【0065】
すなわち、声質類似性計量ステップS306では、入力音声信号の声質の特徴量と、現在の制御条件を仮定した場合に音声合成ステップS304により合成される音声の声質の特徴量とを比較することにより、入力音声と出力音声の声質の類似性を計量する。声質の類似性の計量方法としては、ベクトル量のユークリッド距離あるいは聴覚重み付け距離等を用いればよい。なお、類似性として距離を用いる場合は、距離の値が小さいほど良好な制御規範である(良く似ている)ことを意味する。声質制御ステップS307では、声質の類似性計量の結果が最適値になるように合成音声の制御を行う。
【0066】
かかる方法によれば、声質類似性計量ステップS306と、声質制御ステップS307を用いて入力音声の声質と合成音声の声質を比較しながら合成音声の声質を制御することが可能であり、入力音声に近い声質の合成音声を出力することができる。
【0067】
なお、本実施の形態において、これらのステップを含む通訳プログラムを記録媒体に記録した場合には、この記録媒体をコンピュータなどに装着し、コンピュータを用いてこれらのステップを含むプログラムを読み出し、任意に第1の言語で発声した音声を第2の言語に翻訳し、音声として音声合成することができる。
【0068】
また、本実施の形態において、これらのステップを含む通訳プログラムをインターネットなどの通信媒体を介してコンピュータなどに配信あるいは移動などした場合には、配信あるいは移動されたコンピュータはこのプログラムをそのまま実行して、任意に第1の言語で発声した音声を第2の言語に翻訳し、音声として音声合成することができる。
【0069】
そして、本実施の形態によれば、翻訳された第2の言語の声質を第1の言語の声質に近づけることができ、例えば、自分が発生したのに他人の声で翻訳されるとか、男性が発声したのに女性の声で翻訳されるとかといった違和感を生じることが極力少なくなり、より違和感の少ない翻訳を可能にする。
【0070】
なお、上記各実施の形態において、第1の言語とは、翻訳される側の言語を意味し、第2の言語とは、翻訳された後の言語を意味している。すなわち、上記実施の形態のように日本語を英語に翻訳するのであれば、日本語が第1の言語、英語が第2の言語である。そして、同じ日本語でも、大阪弁を標準語に翻訳するのであれば、大阪弁が第1の言語、標準語が第2の言語である。すなわち、第1、第2の言語には、所謂、各国の言語のみならず、方言、現地語、その他言い回しの異なる全ての言語を含む。
【産業上の利用可能性】
【0071】
本発明の通訳装置は、第1の言語で入力された入力音声を音声認識する音声認識手段と、音声認識された結果を第2の言語に翻訳する翻訳手段と、翻訳された第2の言語を音声合成する音声合成手段と、第1の言語の声質を分析する声質分析手段と、第1の言語の声質と第2の言語の声質との類似性を計量する声質類似性計量手段と、声質類似性計量手段で得られた声質類似性計量結果に基づいて音声合成手段によって音声合成される第2の言語の声質を制御する声質制御手段とを備えたものであり、第1の言語の声質と第2の言語の声質とが声質類似性計量手段によって計量され、その類似性が近づくように音声合成手段が制御されるため、第2の言語の声質が第1の言語の声質に類似し、違和感を生じることが極力少なくなリ、音声合成を行う各種機器に有用である。
【図面の簡単な説明】
【0072】
【図1】本発明の実施の形態1における通訳装置の構成を示すブロック図
【図2】本発明の実施の形態2における通訳装置の構成を示すブロック図
【図3】本発明の実施の形態3における通訳方法を説明するためのフローチャート
【図4】従来の通訳装置の構成を示すブロック図
【符号の説明】
【0073】
101、201 音声認識部
102、202 翻訳部
103、203 音声合成部
104 声質分析部
105 声質類似性計量部
106、210 声質制御部
204 声道特徴量抽出部
205 ピッチ周波数抽出部
206 信号パワー抽出部
207 発声速度抽出部
208 声道特徴量類似性計量部
209 ピッチ周波数類似性計量部


【特許請求の範囲】
【請求項1】
第1の言語で入力された入力音声を音声認識する音声認識手段と、前記音声認識された結果を第2の言語に翻訳する翻訳手段と、前記翻訳された第2の言語を音声合成する音声合成手段と、前記第1の言語の声質を分析する声質分析手段と、前記第1の言語の声質と前記第2の言語の声質との類似性を計量する声質類似性計量手段と、前記声質類似性計量手段で得られた声質類似性計量結果に基づいて前記音声合成手段によって音声合成される第2の言語の声質を制御する声質制御手段とを備えたことを特徴とする通訳装置。
【請求項2】
前記音声認識手段が、前記第1の言語で入力された入力音声信号を、文字列、単語、単語列、文又は意味表現として認識し、前記音声合成手段が、前記第2の言語による文字列、単語、単語列又は文として合成することを特徴とする請求項1記載の通訳装置
【請求項3】
前記声質分析手段が、前記入力音声の個人性を特徴づけている声質の特徴量を抽出し、前記声質類似性計量手段が、前記声質分析手段によって抽出された声質の特徴量を前記音声合成手段によって音声合成された第2の言語の声質の特徴量と比較することを特徴とする請求項1または2記載の通訳装置。
【請求項4】
前記声質の特徴量が、前記入力音声信号、および、前記音声合成された第2の言語の音声信号に含まれる声道特性としてのスペクトル包絡であることを特徴とする請求項3記載の通訳装置。
【請求項5】
前記声質分析手段が、前記入力音声信号中の声道特徴量を抽出する声道特徴量抽出手段と、前記入力音声信号中のピッチ周波数を抽出するピッチ周波数抽出手段とを備え、前記声質類似性計量手段が、前記声道特徴量抽出手段によって抽出された声道特徴量と前記音声合成手段によって音声合成された前記第2の言語の声道特徴量とを比較する声道特徴量類似性計量手段と、前記ピッチ周波数抽出手段によって抽出されたピッチ周波数と前記音声合成手段によって音声合成された前記第2の言語のピッチ周波数とを比較するピッチ周波数類似性計量手段とを備えることを特徴とする請求項1から4までのうちのいずれかに記載の通訳装置。
【請求項6】
前記入力音声信号の信号パワーを抽出する信号パワー抽出手段を更に備え、前記信号パワー抽出手段で抽出した前記信号パワーを基に、前記音声合成手段によって合成される前記第2の言語の音声信号の信号パワーを制御することを特徴とする請求項1から5までのうちのいずれかに記載の通訳装置。
【請求項7】
前記入力音声信号から入力音声の発声速度を抽出する発声速度抽出手段を更に備え、前記発声速度抽出手段で抽出した前記発声速度を基に、前記音声合成手段によって合成される前記第2の言語の音声信号の発声速度を制御することを特徴とする請求項1から5までのうちのいずれかに記載の通訳装置。
【請求項8】
第1の言語で入力された入力音声を音声認識する音声認識ステップと、前記音声認識ステップで音声認識された結果を第2の言語に翻訳する翻訳ステップと、前記翻訳ステップで翻訳された前記第2の言語を音声合成する音声合成ステップと、前記第1の言語で入力された入力音声の声質を分析する声質分析ステップと、前記第1の言語で入力された入力音声の声質と前記第2の言語に翻訳された合成音声の声質の類似性を計量する声質類似性計量ステップと、前記声質類似性計量ステップで得られた声質類似性計量結果に基づいて、前記音声合成ステップで合成される前記第2の言語の声質を制御する声質制御ステップとを備えたことを特徴とする通訳方法。
【請求項9】
前記音声認識ステップが、前記第1の言語で入力された入力音声信号を文字列、単語、単語列、文又は意味表現として認識し、前記音声合成ステップが、前記第2の言語による文字列、単語、単語列又は文として合成することを特徴とする請求項8記載の通訳方法。
【請求項10】
第1の言語で入力された入力音声を音声認識する音声認識ステップと、前記音声認識ステップで音声認識された結果を第2の言語に翻訳する翻訳ステップと、前記翻訳ステップで翻訳された前記第2の言語を音声合成する音声合成ステップと、前記第1の言語で入力された入力音声の声質を分析する声質分析ステップと、前記第1の言語で入力された入力音声の声質と前記第2の言語に翻訳された合成音声の声質の類似性を計量する声質類似性計量ステップと、前記声質類似性計量ステップで得られた声質類似性計量結果に基づいて、前記音声合成ステップで合成される前記第2の言語の声質を制御する声質制御ステップとをコンピュータに実行させるための通訳プログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項11】
第1の言語で入力された入力音声を音声認識する音声認識手順と、前記音声認識手順で音声認識された結果を第2の言語に翻訳する翻訳手順と、前記翻訳手順で翻訳された前記第2の言語を音声合成する音声合成手順と、前記第1の言語で入力された入力音声の声質を分析する声質分析手順と、前記第1の言語で入力された入力音声の声質と前記第2の言語に翻訳された合成音声の声質の類似性を計量する声質類似性計量手順と、前記声質類似性計量手順で得られた声質類似性計量結果に基づいて、前記音声合成手順で合成される前記第2の言語の声質を制御する声質制御手順とをコンピュータに実行させるための通訳プログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2006−189544(P2006−189544A)
【公開日】平成18年7月20日(2006.7.20)
【国際特許分類】
【出願番号】特願2005−396(P2005−396)
【出願日】平成17年1月5日(2005.1.5)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】