説明

基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム

音声サンプル内に含まれている基本周波数情報を分析する方法であって、それぞれのサンプルフレームごとに、スペクトル関連情報と基本周波数関連情報を取得するべく、フレームとして1つにグループ化された音声サンプルを分析する少なくとも1つのステップ(2)と、すべてのサンプルのスペクトルおよび基本周波数の共通特性を表すモデルを判定するステップ(20)と、このモデルと音声サンプルに基づいて、スペクトル関連情報にのみ従って基本周波数予測関数を判定するステップ(30)と、を備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声サンプル内に含まれている基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法およびシステムに関する。
【背景技術】
【0002】
生成しようとする音の特性に応じて、発話、特に、発声音の生成には、基本周期(この逆数を基本周波数又はピッチと呼ぶ)を有する発話信号内の周期的構造の存在を通じて表れる声帯の振動が伴っている。
【0003】
音声変換などの特定のアプリケーションにおいては、聴覚レンダリングが極めて大きな重要性を有しており、満足できる品質を得るには、基本周波数を含む韻律にリンクしたパラメータを効果的に制御することが必要である。
【0004】
このため、音声サンプル内に含まれている基本周波数情報を分析する方法として、現在、多数のものが存在している。
【0005】
これらの分析法によれば、基本周波数特性を判定しモデル化することが可能である。例えば、音声サンプルのデータベース全体にわたって基本周波数のスロープや振幅スケールを判定可能な方法が存在している。
【0006】
このようなパラメータを知ることにより、例えば、ターゲット発話者の基本周波数の平均値および変動に対して全体的に留意した方式で、ソース発話者とターゲット発話者と間において基本周波数をスケーリングすることにより、発話信号を変更可能である。
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、これらの分析法によって得られるのは、パラメータを定義可能な基本周波数の表現ではなく、概略的な表現のみであり、従って、これらは、特に、発話スタイルが異なる発話者に関しては、適切なものではない。
【0008】
本発明の目的は、音声サンプルの基本周波数情報を分析する方法を定義し、パラメータを定義可能な基本周波数の表現を定義できるようにすることにより、この問題を克服することにある。
【課題を解決するための手段】
【0009】
この目的を実現するべく、本発明の主題は、音声サンプル内に含まれている基本周波数情報を分析する分析方法であり、この分析方法は、
それぞれのサンプルフレームごとに、スペクトル関連情報および基本周波数関連情報を取得するべくフレームとして1つにグループ化された音声サンプルを分析するステップと、
すべてのサンプルのスペクトルおよび基本周波数の共通特性を表すモデルを判定するステップと、
このモデルおよび音声サンプルに基づいて、スペクトル関連情報のみに従って基本周波数予測関数を判定するステップと、
を少なくとも備えることを特徴としている。
【0010】
この分析方法の更なる特徴によれば、
前述の音声サンプルを分析するステップは、スペクトル関連情報をケプストラム係数の形態で供給するべく適合されており、
この分析ステップは、高調波信号と雑音信号との合計に従って音声サンプルをモデル化するサブステップと、
音声サンプルの周波数パラメータおよび少なくとも基本周波数を推定するサブステップと、
それぞれのサンプルフレームの基本周波数を同期分析するサブステップと、
各サンプルフレームのスペクトルパラメータを推定するサブステップと、
を備え、
かつ、この分析方法は、分析対象のサンプルの基本周波数の平均値との関係において、それぞれのサンプルフレームの基本周波数を正規化する段階をさらに備え、
モデルを判定するステップは、ガウス密度の混合によるモデルの判定に対応しており、
このモデルを判定するステップは、
ガウス密度の混合に対応するモデルを判定するサブステップと、
サンプルおよびモデルのスペクトル情報とサンプルおよびモデルの基本周波数情報との間における最大類似性の推定に基づいて、ガウス密度の混合のパラメータを推定するサブステップと、
を備え、
予測関数を判定するステップは、サンプルのスペクトル情報を知ることによって基本周波数を実現する推定値に基づいて実現されており、
基本周波数予測関数を判定するステップは、モデルに基づいてスペクトル情報が得られる事後確率に基づいて、スペクトル情報を知ることによって基本周波数を実現する条件付きの期待値を判定するサブステップを備えており、この条件付きの期待値が推定値を形成している。
【0011】
また、本発明は、ソース発話者によって発音された音声信号を、特性がターゲット発話者の特性に類似している変換済みの音声信号に変換する方法にも関し、この方法は、
ソース発話者およびターゲット発話者の音声サンプルに基づいて実現され、ソース発話者のスペクトル特性をターゲット発話者のスペクトル特性に変換する関数を判定するステップと、
この変換関数を使用して、変換対象のソース発話者の音声信号のスペクトル情報を変換するステップと、
を少なくとも備える方法であって、
ターゲット発話者のスペクトル関連情報にのみ従って基本周波数予測関数を判定するステップ(この予測関数は、上記で定義した分析方法を使用して得られるものである)と、
この基本周波数予測関数をソース発話者の音声信号の変換済みのスペクトル情報に適用することにより、変換対象の音声信号の基本周波数を予測するステップと、
をさらに備えることを特徴とする。
【0012】
この変換方法のその他の特性によれば、
変換関数を判定するステップは、ソーススペクトル特性を知ることによってターゲットスペクトル特性を実現する推定値に基づいて実現されており、
この変換関数を判定するステップは、
高調波信号と雑音信号の合計モデルに従ってソースおよびターゲット音声サンプルをモデル化するサブステップと、
ソースおよびターゲットサンプルをアライメントするサブステップと、
ソーススペクトル特性の実現を知ることによってターゲットスペクトル特性を実現する条件付き期待値の算出値に基づいて変換関数を判定するサブステップ(この条件付き期待値が推定値を形成している)と、を備え、
この変換関数は、スペクトルエンベロープ変換関数であり、
この方法は、スペクトル関連情報および基本周波数関連情報を供給するべく適合された変換対象の音声信号を分析するステップをさらに備え、
この方法は、変換済みのスペクトル情報と予測基本周波数情報に少なくとも基づいて変換済みの音声信号を形成可能な合成段階をさらに備える。
【0013】
また、本発明は、ソース発話者によって発音された音声信号を、特性がターゲット発話者のものに類似している変換済みの音声信号に変換するシステムにも関係し、このシステムは、
ソース発話者およびターゲット発話者の音声サンプルを入力として受信し、ソース発話者のスペクトル特性をターゲット発話者のスペクトル特性に変換する関数を判定する手段と、
この手段によって供給される変換関数を適用することにより、変換対象であるソース発話者の音声信号のスペクトル情報を変換する手段と、
を少なくとも備えるシステムであって、
ターゲット発話者の音声サンプルに基づいた分析方法を実現するべく適合され、ターゲット発話者のスペクトル関連情報にのみ従って基本周波数予測関数を判定する手段と、
この予測関数を判定する手段によって判定される予測関数を、スペクトル情報を変換する手段によって供給される変換済みのスペクトル情報に適用することにより、変換対象の音声信号の基本周波数を予測する手段と、
をさらに備えることを特徴とする。
【0014】
このシステムのその他の特徴によれば、
このシステムは、変換対象の音声信号のスペクトル関連情報および基本周波数関連情報を出力として供給するべく適合された変換対象の音声信号を分析する手段と、
前述の手段によって供給される変換済みのスペクトル情報と前述の手段によって供給される予測基本周波数情報とに少なくとも基づいて変換済みの音声信号を形成可能な合成手段と、を更に備え、
変換関数を判定する手段は、スペクトルエンベロープ変換関数を供給するべく適合されており、これは、上記で定義した音声変換方法を実現するべく適合されている。
【0015】
純粋に一例として提供されている以下の説明と添付の図面を参照することにより、本発明についてさらに容易に理解することができよう。
【発明を実施するための最良の形態】
【0016】
図1に示されている本発明による方法は、一連の自然発話を含む音声サンプルのデータベースに基づいて実現される。
【0017】
この方法は、それぞれのサンプルフレームごとに、スペクトル関連情報(特に、スペクトルエンベロープ関連情報)および基本周波数関連情報を取得するべく、フレームとして1つにグループ化することによってサンプルを分析するステップ2から始まっている。
【0018】
なお、この説明対象の実施例においては、この分析ステップ2は、一般に「HNM(Harmonic plus Noise Model)」と呼ばれるモデルによる高調波信号と雑音信号との合計の形態の音響信号のモデルを使用することに基づいている。
【0019】
また、この説明対象の実施例は、離散ケプストラムによるスペクトルエンベロープの表現にも基づいている。
【0020】
実際に、ケプストラム表現によれば、発話信号内において、結果的に得られる声帯の振動に対応しかつ基本周波数によって特徴付けられているソース成分から、声道に関連する成分を分離可能である。
【0021】
従って、この分析ステップ2は、それぞれの音声信号フレームを、振幅Al及び位相φlのL個の高調波正弦波の合計から構成された信号の周期的成分を表す高調波部分と摩擦雑音および声門励起変動を表す雑音部分とにモデル化するサブステップ4を備える。
【0022】
従って、これは、次のように定式化可能である。
【0023】
【数1】

【0024】
従って、項h(n)は、信号s(n)の高調波近似を表している。
【0025】
次いで、このステップ2は、例えば、自己相関法により、それぞれのフレームごとに、周波数パラメータ(特に、基本周波数)を推定するサブステップ5を有している。
【0026】
従来同様に、このHNM分析により、最大発声周波数が得られる。なお、変形として、この周波数を任意に定義することも可能であり、あるいは、その他の既知の手段によって推定することも可能である。
【0027】
このサブステップ5の後には、それぞれのフレームの基本周波数を同期分析し、高調波部分のパラメータと信号雑音のパラメータを推定可能なサブステップ6が続いている。
【0028】
この説明対象の実施例においては、この同期分析は、完全な信号と(この説明対象の実施例においては推定雑音信号に対応している)その高調波部分との間における加重最小二乗基準の極小化による高調波パラメータの判定に対応しており、Eと表記されるこの基準は、次式のとおりである。
【0029】
【数2】

【0030】
この式において、w(n)は、分析ウィンドウであり、Tiは、現在のフレームの基本周期である。
【0031】
従って、この分析ウィンドウは、基本周期マーカーを中心としており、その持続時間は、この周期の2倍になっている。
【0032】
そして、この分析ステップ2は、可能な限り忠実に人間の耳の特性を再現するべく、例えば、正規化離散ケプストラム法(regularized discrete cepstrum method)およびBark尺度変換(Bark−scale transformation)を使用して、信号のスペクトルエンベロープの成分パラメータを推定するサブステップ7を最後に備えている。
【0033】
従って、この分析ステップ2は、発話信号サンプルの次数nのそれぞれのフレームごとに、基本周波数情報を有するスカラー(これは、xnと表記される)と、一連のケプストラム係数の形態のスペクトル情報を有するベクトル(これは、ynと表記される)とを供給する。
【0034】
有利なことに、この分析ステップ2の後には、それぞれの音声サンプルフレーム内の基本周波数情報の値を、次の式に従って正規化された基本周波数値によって置換するべく、平均基本周波数との関係において、それぞれのフレームの基本周波数の値を正規化するステップ10が続いている。
【0035】
【数3】

【0036】
尚、この式において、Fomoyは、分析対象のデータベース全体における基本周波数値の平均値に対応している。
【0037】
この正規化により、基本周波数スカラーの変動スケールを変更して、ケプストラム係数の変動スケールと一致させることが可能になる。
【0038】
そして、この正規化段階10の後には、分析対象のすべてのサンプルの共通的なケプストラムおよび基本周波数特性を表すモデルを判定するステップ20が続いている。
【0039】
この説明対象の実施例には、一般に「GMM」と呼ばれるガウス密度混合モデルによる基本周波数および離散ケプストラムの確率モデルが伴っており、このGMMのパラメータを、正規化された基本周波数および離散ケプストラムの同時密度に基づいて推定している。
【0040】
従来同様に、ガウス密度混合モデルGMMに従って、p(z)と一般的に表記されるランダム変数の確率密度は、数学的に次のように表記される。
【0041】
【数4】

【0042】
この式において、N(z:μi;Σi)は、平均値μiの正規則(Normal law)と共分散Σiの確率密度であり、係数αiは、混合の係数である。
【0043】
従って、係数αiは、ランダム変数zが混合のi次ガウスによって生成される事前確率に対応している。
【0044】
さらに詳しくは、このモデルを判定するステップ20は、yとして表記されるケプストラムと、xとして表記される正規化された基本周波数の同時密度を次式のようにモデル化するサブステップ22を備える。
【0045】
【数5】

【0046】
これらの式において、x=[x1,x2,...,xN]は、N個の音声サンプルフレームの正規化された基本周波数情報を含む一連のスカラーに対応しており、y=[y1,y2,...,yn]は、対応する一連のケプストラム係数ベクトルに対応している。
【0047】
次いで、このステップ20は、密度p(z)のGMMパラメータ(α,μ,Σ)を推定するサブステップ24を備える。この推定は、例えば、発話サンプルデータとガウス混合モデルとの間の最大類似性の推定値を取得可能な反復的方法に対応した「EM(Expectation Maximization)」と呼ばれるタイプの従来のアルゴリズムを使用して実現可能である。
【0048】
GMMモデルの初期パラメータの判定は、従来のベクトル量子化法を使用して実行することができる。
【0049】
従って、このモデル判定ステップ20は、ケプストラム係数によって表される共通スペクトル特性を表すガウス密度の混合のパラメータと分析済の音声サンプルの基本周波数を供給する。
【0050】
次いで、この方法は、モデルおよび音声サンプルに基づいて、信号ケプストラムによって供給されるスペクトル情報のみに従って基本周波数予測関数を判定するステップ30を有している。
【0051】
この予測関数は、音声サンプルのケプストラムが与えられた場合に、基本周波数を実現する推定値に基づいて判定される。これは、この説明対象の実施例においては、条件付き期待値によって形成されている。
【0052】
このために、このステップ30は、ケプストラムによって供給されるスペクトル関連情報を知ることによって基本周波数の条件付きの期待値を判定するサブステップ32を有している。この条件付き期待値は、F(y)と表記され、次の式に基づいて判定される。
【0053】
【数6】

【0054】
これらの式において、pi(y)は、共分散行列Σiと正規則(normal law)μiによってステップ20において定義されたモデルのガウス混合のi次成分によってケプストラムベクトルyが生成される事後確率に対応している。
【0055】
従って、この条件付き期待値の判定により、ケプストラム情報から基本周波数予測関数を取得可能である。
【0056】
なお、変形として、このステップ30において実現される推定値は、「MAP」と呼ばれる事後最大基準であってもよく、これは、ソースベクトルを最も良好に表すモデルのみの期待値計算の実現に対応している。
【0057】
従って、本発明による分析方法により、(この説明対象の実施例においては、ケプストラムによって供給される)スペクトル情報のみに従い、モデルと音声サンプルとに基づいて基本周波数予測関数を取得可能であることが明らかである。
【0058】
次いで、このタイプの予測関数により、この信号のスペクトル情報のみに基づいて、発話信号の基本周波数の値を判定可能であり、これにより、特に、分析済の音声サンプル内に存在しない音の基本周波数を適切に予測することができる。
【0059】
次に、図2を参照し、音声変換の文脈において、本発明によるこの分析方法の使用法について説明することとする。
【0060】
音声変換は、生成された信号が、「ターゲット発話者」と呼ばれる別の発話者が発音したものとして聞こえるように、「ソース発話者」と呼ばれる基準発話者の音声信号を変換するステップを有している。
【0061】
そして、この方法は、ソース発話者およびターゲット発話者によって発音された音声サンプルのデータベースを使用して実現される。
【0062】
従来同様に、このタイプの方法は、ソース発話者の音声サンプルのスペクトル特性がターゲット発話者のものに類似するようにするソース発話者の音声サンプルのスペクトル特性の変換関数を判定するステップ50を備える。
【0063】
この説明対象の実施例においては、このステップ50は、ソース発話者およびターゲット発話者の音声信号のスペクトルエンベロープの特性間の関係を判定可能なHNM分析法に基づいている。
【0064】
このためには、同一の音声シーケンスを音響的に実現するソースおよびターゲットの音声録音が必要である。
【0065】
このステップ50は、高調波および雑音信号のHNM合計モデルに従って音声サンプルをモデル化するサブステップ52を有している。
【0066】
そして、このサブステップ52の後には、例えば、「DTW(Dynamic Time Warping)」と呼ばれる従来のアライメントアルゴリズムを使用してソースおよびターゲット信号をアライメント可能なサブステップ54が続いている。
【0067】
次いで、このステップ50は、ソース発話者およびターゲット発話者の音声サンプルスペクトルの共通的特性を表すGMMモデルなどのモデルを判定するサブステップ56を備える。
【0068】
なお、この説明対象の実施例においては、「s」と表記されているソーススペクトルパラメータを知ることにによって、「t」と表記されているターゲットスペクトルパラメータを実現する推定値に対応したスペクトル変換関数を定義できるように、ソースおよびターゲットの64個の成分とケプストラムパラメータを含む単一のベクトルとを有するGMMモデルを使用している。
【0069】
この説明対象の実施例においては、F(s)と表記されるこの変換関数は、次式によって得られる条件付き期待値の形態で表記される。
【0070】
【数7】

【0071】
この関数の正確な判定は、EMアルゴリズムによって得られるソースおよびターゲットのパラメータ間における類似性の極大化によって実行可能である。
【0072】
なお、変形として、推定値は、事後最大基準から形成することも可能である。
【0073】
従って、このように定義された関数により、ターゲット発話者のスペクトルエンベロープに類似するようにソース発話者からの発話信号のスペクトルエンベロープを変更することができる。
【0074】
この極大化の前に、ソースおよびターゲットの共通スペクトル特性を表すGMMモデルのパラメータを、例えば、ベクトル量子化アルゴリズムを使用して初期化する。
【0075】
そして、これと並行し、本発明による分析方法においては、ターゲット発話者の音声サンプルのみを分析するステップ60を実行している。
【0076】
図1を参照して説明したように、本発明によるこの分析ステップ60により、スペクトル情報のみに基づいて、ターゲット発話者の基本周波数予測関数を取得することが可能である。
【0077】
次いで、この変換方法は、ソース発話者が発音した変換対象の音声信号を分析するステップ65を備えており、この変換対象の信号は、ステップ50およびステップ60において使用された音声信号とは異なっている。
【0078】
この分析ステップ65は、例えば、ケプストラム係数、基本周波数情報、ならびに最大周波数および位相発声情報の形態のスペクトル情報を提供可能なHNMモデルによるブレークダウンを使用して実行される。
【0079】
そして、このステップ65の後には、ステップ50において判定された変換関数を、ステップ65において定義されたケプストラム係数に対して適用することにより、変換対象の音声信号のスペクトル特性を変換するステップ70が続いている。
【0080】
このステップ70においては、特に、変換対象の音声信号のスペクトルエンベロープを変更する。
【0081】
従って、このステップ70の終了時点においては、変換対象であるソース発話者の信号サンプルのそれぞれのフレームが、特性がターゲット発話者のサンプルのスペクトル特性に類似している変換済みのスペクトル情報に関連付けられている。
【0082】
次いで、この変換方法は、段階60において本発明による方法を使用して判定された予測関数を、変換対象のソース発話者の音声信号と関連付けられている変換済みのスペクトル情報にのみ適用することにより、ソース発話者の音声サンプルの基本周波数を予測するステップ80を備える。
【0083】
実際に、ソース発話者の音声サンプルが、特性がターゲット発話者のものに類似している変換済みのスペクトル情報に関連付けられているため、ステップ60において定義された予測関数により、基本周波数を適切に予測可能である。
【0084】
次いで、従来同様に、この変換方法は、出力信号合成ステップ90を備えており、このステップは、この説明対象の実施例においては、ステップ70において供給される変換済みのスペクトルエンベロープ情報、ステップ80において生成される予測基本周波数情報、ならびにステップ65において供給される最大周波数および位相発声情報、に基づいて変換された音声信号を直接供給するHNM合成によって実現される。
【0085】
従って、本発明による分析方法を実装した変換方法によれば、高品質の聴覚レンダリングが得られるようにスペクトルの変更および基本周波数の予測を実行する音声変換を得ることができる。
【0086】
特に、このタイプの方法の有効性は、ソース発話者およびターゲット発話者が発音した同一の音声サンプルに基づいて評価することができる。
【0087】
ソース発話者が発音した音声信号を前述の方法を使用して変換し、この変換済みの信号とターゲット発話者が発音した信号と間の類似性を評価するのである。
【0088】
例えば、この類似性は、変換済みの信号をターゲット信号から離隔させている音響的距離と、ターゲット信号をソース信号から離隔させている音響的距離と間の比率の形態で算出する。
【0089】
なお、このケプストラム係数またはこれらのケプストラム係数を使用して得られる信号振幅スペクトルに基づいた音響的距離の算出において、本発明による方法を使用して変換された信号において得られる比率は、0.3〜0.5のレベルである。
【0090】
図3は、図2を参照して説明した方法を実現する音声変換システムの機能ブロック図を示している。
【0091】
このシステムは、ソース発話者が発音した音声サンプルのデータベース100と、ターゲット発話者が発音した少なくとも同一の音声サンプルを含むデータベース102とを入力として使用している。
【0092】
これら2つのデータベースは、ソース発話者のスペクトル特性をターゲット発話者のスペクトル特性に変換するための関数を判定するモジュール104によって使用される。
【0093】
このモジュール104は、図2を参照して説明した方法のステップ50を実現するべく適合されており、従って、スペクトルエンベロープ変換関数を判定可能である。
【0094】
また、このシステムは、スペクトル関連情報のみに従って基本周波数予測関数を判定するモジュール106を有している。これを実行するべく、このモジュール106は、データベース102内に含まれているターゲット発話者の音声サンプルのみを入力として受信する。
【0095】
このモジュール106は、図1を参照して説明した本発明による分析方法に対応する図2を参照して説明した方法のステップ60を実現するべく適合されている。
【0096】
なお、モジュール104によって供給される変換関数と、モジュール106によって供給される予測関数は、後続の使用の観点から、保存しておくのが有利である。
【0097】
この音声変換システムは、ソース発話者が発音した変換を意図する発話信号に対応する信号110を入力として受信する。
【0098】
この信号110は、信号分析モジュール112内に導入されるが、このモジュールは、例えば、HNMブレークダウンを実行し、ケプストラム係数および基本周波数情報の形態で、信号110のスペクトル情報を分離することができる。また、このモジュール112は、HNMモデルを適用することによって得られる最大周波数および位相発声情報をも供給する。
【0099】
従って、このモジュール112は、前述の方法のステップ65を実現している。
【0100】
この分析は、恐らく、事前に実行可能であり、この情報は、後で使用するべく保存される。
【0101】
次いで、このモジュール112が供給するケプストラム係数は、変換モジュール114内に導入されるが、このモジュールは、モジュール104が判定した変換関数を適用するべく適合されている。
【0102】
従って、この変換モジュール114は、図2を参照して説明した方法のステップ70を実装しており、特性がターゲット発話者のスペクトル特性に類似している変換済みのケプストラム係数を供給する。
【0103】
従って、このモジュール114は、音声信号110のスペクトルエンベロープの変更を実行する。
【0104】
次いで、このモジュール114が供給する変換済みのケプストラム係数は、基本周波数予測モジュール116内に導入されるが、このモジュールは、モジュール106が判定した予測関数を実行するべく適合されている。
【0105】
従って、このモジュール116は、図2を参照して説明した方法のステップ80を実装しており、変換済みのスペクトル情報にのみ基づいて予測された基本周波数情報を出力として供給する。
【0106】
次いで、このシステムは、モジュール114から到来したスペクトルエンベロープに対応している変換済みのケプストラム係数、モジュール116から到来した予測基本周波数情報、ならびにモジュール112が供給する最大周波数および位相発声情報を入力として受信する合成モジュール118を備える。
【0107】
従って、このモジュール118は、図2を参照して説明した方法のステップ90を実現しており、スペクトルおよび基本周波数特性がターゲット発話者のものに類似するように変更されていることを除き、ソース発話者の音声信号110に対応した信号120を供給する。
【0108】
なお、この説明対象のシステムは、特に、音響取得ハードウェア手段に接続された好適なコンピュータプログラムを使用することにより、様々な方法で実装可能である。
【0109】
当然のことながら、この説明した実施例以外の実施例も考えられる。
【0110】
具体的には、HNM及びGMMモデルを、例えば、LSF(Line Spectral Frequencies)もしくはLPC(Linear Predictive Coding)法、あるいはフォルマント関連パラメータなどの当業者に周知のその他の技法およびモデルによって置換可能である。
【図面の簡単な説明】
【0111】
【図1】本発明による分析方法のフローチャートである。
【図2】本発明による分析方法を実現する音声変換方法のフローチャートである。
【図3】図2に示されている本発明による方法を実現可能な音声変換システムの機能ブロック図である。

【特許請求の範囲】
【請求項1】
音声サンプル内に含まれている基本周波数情報を分析する分析方法であって、
それぞれのサンプルフレームごとに、スペクトル関連情報および前記基本周波数関連情報を取得するべく、フレームとして1つにグループ化された前記音声サンプルを分析するステップ(2)と、
すべてのサンプルのスペクトルおよび基本周波数の共通特性を表すモデルを判定するステップ(20)と、
前記モデルおよび音声サンプルに基づいて、スペクトル関連情報にのみ従って基本周波数予測関数を判定するステップ(30)と、
を少なくとも備えることを特徴とする分析方法。
【請求項2】
前記音声サンプルを分析するステップ(2)は、ケプストラム係数の形態で前記スペクトル関連情報を提供するべく適合されていることを特徴とする請求項1に記載の分析方法。
【請求項3】
前記音声サンプル分析するステップ(2)は、
高調波および雑音信号の合計に従って音声サンプルをモデル化するサブステップ(4)と、
前記音声サンプルの周波数パラメータおよび少なくとも前記基本周波数を推定するサブステップ(5)と、
それぞれのサンプルフレームの前記基本周波数を同期分析するサブステップ(6)と、
それぞれのサンプルフレームの前記スペクトルパラメータを推定するサブステップ(7)と、
を備えることを特徴とする請求項1または2に記載の分析方法。
【請求項4】
前記分析対象のサンプルの前記基本周波数の平均値との関係において、それぞれのフレームの前記基本周波数を正規化するステップ(10)をさらに備えることを特徴とする請求項1〜3のいずれか一項に記載の分析方法。
【請求項5】
前記モデルを判定するステップ(20)は、混合ガウス密度によるモデルの判定に対応していることを特徴とする請求項1〜4のいずれか一項に記載の分析方法。
【請求項6】
前記モデルを判定するステップ(20)は、
ガウス密度の混合に対応するモデルを判定するサブステップ(22)と、
前記サンプルおよび前記モデルの前記スペクトル情報と前記サンプルおよび前記モデルの前記基本周波数情報との間における最大類似性の推定に基づいて前記ガウス密度の混合のパラメータを推定するステップ(24)と、
を備えることを特徴とする請求項5に記載の分析方法。
【請求項7】
前記基本周波数予測関数を判定するステップ(30)は、前記サンプルの前記スペクトル情報を知ることによって前記基本周波数を実現する推定値に基づいて実行されることを特徴とする請求項1〜6のいずれか一項に記載の分析方法。
【請求項8】
前記基本周波数予測関数を判定するステップ(30)は、前記スペクトル情報が前記モデルに基づいて取得される事後確率に基づいて、前記スペクトル情報を知ることによって前記基本周波数を実現する条件付き期待値を判定するサブステップ(32)を備え、前記条件付き期待値が前記推定値を形成していることを特徴とする請求項7に記載の分析方法。
【請求項9】
ソース発話者が発音した音声信号を、特性がターゲット発話者のものに類似している変換済みの音声信号に変換する方法であって、
前記ソース発話者の音声サンプルおよび前記ターゲット発話者の音声サンプルに基づいて実現され、前記ソース発話者のスペクトル特性を前記ターゲット発話者のスペクトル特性に変換する関数を判定するステップ(50)と、
前記変換関数を使用し、前記変換対象の前記ソース発話者の音声信号のスペクトル情報を変換するステップ(70)と、
を少なくとも備える方法において、
前記ターゲット発話者のスペクトル関連情報にのみ従って基本周波数予測関数を判定するステップ(60)であって、前記予測関数は、請求項1〜8のいずれか一項に記載の分析方法を使用して取得される、ステップと、
前記基本周波数予測関数を、前記ソース発話者の前記音声信号の前記変換済みのスペクトル情報に適用することにより、前記変換対象の音声信号の前記基本周波数を予測するステップ(80)と、
をさらに備えることを特徴とする方法。
【請求項10】
前記変換関数を判定するステップ(50)は、前記ソーススペクトル特性を知ることによって前記ターゲットスペクトル特性を実現する推定値に基づいて実行されることを特徴とする請求項9に記載の方法。
【請求項11】
前記変換関数を判定するステップ(50)は、
高調波信号および雑音信号の合計モデルに従って前記ソース発話者の音声サンプルおよび前記ターゲットの音声サンプルをモデル化するサブステップ(52)と、
前記ソースおよびターゲットのサンプルをアライメントするサブステップ(54)と、
前記ソーススペクトル特性の実現を知ることによって前記ターゲットスペクトル特性を実現する条件付き期待値の計算に基づいて前記変換関数を判定するサブステップ(56)であって、前記条件付き期待値が前記推定値を形成している、ステップと、
を備えることを特徴とする請求項10に記載の方法。
【請求項12】
前記変換関数は、スペクトルエンベロープ変換関数であることを特徴とする請求項9〜11のいずれか一項に記載の方法。
【請求項13】
前記スペクトル関連情報および前記基本周波数関連情報を供給するべく適合された前記変換対象の音声信号を分析するステップ(65)をさらに備えることを特徴とする請求項9〜12の一項に記載の方法。
【請求項14】
前記変換済みのスペクトル情報および前記予測基本周波数情報に少なくとも基づいて変換済みの音声信号を形成可能な合成ステップ(90)をさらに備えることを特徴とする請求項9〜13のいずれか一項に記載の方法。
【請求項15】
ソース発話者によって発音された音声信号(110)を、特性がターゲット発話者のものと類似している変換済みの音声信号(120)に変換するシステムであって、
前記ソース発話者の音声信号(100)と前記ターゲット発話者の音声信号(102)とを入力として受信し、前記ソース発話者のスペクトル特性を前記ターゲット発話者のスペクトル特性に変換する関数を判定する手段(104)と、
前記手段(104)によって供給される前記変換関数を適用することにより、変換対象の前記ソース発話者の前記音声信号(110)のスペクトル情報を変換する手段(114)と、
を少なくとも備えるシステムにおいて、
前記ターゲット発話者の音声サンプル(102)に基づいて、請求項1〜8のいずれか一項に記載の分析方法を実現するべく適合されており、前記ターゲット発話者のスペクトル情報にのみ従って基本周波数予測関数を判定する手段(106)と、
前記予測関数を判定する手段(106)によって判定された前記予測関数を前記変換手段(114)によって供給される前記変換済みのスペクトル情報に適用することにより、前記変換対象の音声信号の前記基準周波数を予測する手段(116)と、
をさらに備えることを特徴とするシステム。
【請求項16】
前記変換対象の音声信号(110)を分析し、前記変換対象の音声信号のスペクトル関連情報と前記基本周波数関連情報とを出力として供給するべく適合された手段(112)と、
前記手段(114)によって供給される前記変換済みのスペクトル情報と前記手段(116)によって供給される前記予測基本周波数情報とに少なくとも基づいて変換済みの音声信号を形成可能な合成手段(118)と、
をさらに備えることを特徴とする請求項15に記載のシステム。
【請求項17】
前記変換関数を判定する手段(104)は、スペクトルエンベロープ変換関数を供給するべく適合されていることを特徴とする請求項15または16に記載のシステム。
【請求項18】
請求項9〜12のいずれか一項に記載の音声変換方法を実装するべく適合されていることを特徴とする請求項15〜17のいずれか一項に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2006−521576(P2006−521576A)
【公表日】平成18年9月21日(2006.9.21)
【国際特許分類】
【出願番号】特願2006−505682(P2006−505682)
【出願日】平成16年3月2日(2004.3.2)
【国際出願番号】PCT/FR2004/000483
【国際公開番号】WO2004/088633
【国際公開日】平成16年10月14日(2004.10.14)
【出願人】(591034154)フランス・テレコム (290)