話者の圧縮表現用の音声信号の分析のための方法およびシステム

本発明は、話者(λ)の音声信号の分析のための方法に関し、そこでは話者(λ)の所定のモデルでの音声表現と、ある人数(E)のレファレンス話者の前記所定のモデルでの音声表現からなる所定の組との間の類似を表す確率密度が使用され、したがってこの確率密度を使用して音声信号についての情報が予測される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声信号を分析するための方法および装置に関する。
【背景技術】
【０００２】
音声信号の分析には、特に、話者の表現を行えることが必要である。話者のガウス分布の混合(a mixture of Gaussians)(「ガウス混合モデル」(Gaussian Mixture Model)またはGMM)による表現は、話者の音響的または音声的な本人性(identity)の効率的な表現である。この技法によれば、話者の表現が、所定の次元の音響レファレンス空間内で、所定の個数のガウス分布の重み付け総和によって行われる。
【０００３】
このタイプの表現が正確であるのは、大量のデータが利用可能であるとき、および、モデルのパラメータの格納に関して、またはこうした数多くのパラメータ上での計算の実行に関して、物理的な制約がないときである。
【０００４】
ところが実際には、ITシステムの内部で話者の表現を行うには、話者の発話する時間が短いこと、ならびに、こうした表現に必要なメモリの大きさおよびこうしたパラメータに関する計算の回数が大きすぎることが明らかとなった。
【０００５】
したがって、話者の表現を、その話者の表現に必要なパラメータの個数を思い切って減らしながらも、正しい性能は維持するような手法で試みることは重要である。性能とは、ある話者に属するまたは属さないと認識される音声系列の、音声系列の総数に対する誤り率という意味である。
【０００６】
この点に関する解決案の提案が、特に、D. E. Sturim、D. A. Reynolds、E. SingerおよびJ. P. Campbellによる「SPEAKER INDEXING IN LARGE AUDIO DATABASES USING ANCHOR MODELS」という文書の中で行われている。具体的には、著者らは、話者の表現は、音響レファレンス空間内で絶対的にではなく、アンカーモデル(anchor model)と呼ばれるレファレンス話者の表現からなる所定の組に関して相対的に行うことを提案しており、これに対してはGMM-UBMモデルが使用可能である(UBMは「Universal Background Model」(普遍背景モデル)を表す)。話者とレファレンス話者の間の近さの評価は、ユークリッド距離によって行われる。これにより、計算の負荷は著しく減少するが、性能はなお限られており不十分である。
【非特許文献１】D. E. Sturim、D. A. Reynolds、E. SingerおよびJ. P. Campbellによる「SPEAKER INDEXING IN LARGE AUDIO DATABASES USING ANCHOR MODELS」という文書
【発明の開示】
【発明が解決しようとする課題】
【０００７】
以上のことに鑑み、本発明の一目的は、音声信号の、話者をレファレンス話者の所定の組に関して表現することによる分析を、パラメータの個数を減らして実時間の適用のために計算の負荷を減少させ、容認できる性能で、GMM-UBMモデルによる表現を用いた分析による比較によって行うことである。
【０００８】
その場合、たとえば、話者がインデキシングキーである大規模データベースのオーディオ文書のインデキシングを行うことが可能になる。
【課題を解決するための手段】
【０００９】
したがって、本発明の一態様によれば、話者(λ)の音声信号の分析の方法であって、話者(λ)の所定のモデルでの音声表現と、E人のレファレンス話者の前記所定のモデルでの音声表現からなる所定の組との間の類似度を表す確率密度を使用し、確率密度を、これから音声信号についての情報を導出するように分析する方法が提案される。
【００１０】
これにより、使用されるパラメータの数を思い切って減らすことが可能になり、この方法を実装する装置の実時間の動作が、計算時間を減少させる一方、必要な記憶装置の大きさを減少させながら行えることができるようになる。
【００１１】
好ましい一実施形態では、D次元の、M個のガウス分布からなる混合分布を用いる絶対モデル(GMM)を所定のモデルとし、これに対する話者(λ)の表現は、前記絶対モデル(GMM)におけるガウス混合分布の重み付け係数(α_i、i=1からMまで)、D次元の平均ベクトル(μ_i、i=1からMまで)、およびD×D型の共分散行列(Σ_i、i=1からMまで)を含むパラメータの組によって行われる。
【００１２】
有利な一実施形態では、話者(λ)の前記音声信号の表現と、レファレンス話者の音声表現からなる所定の組との間の類似度の確率密度の表現が、E人のレファレンス話者からなる所定の組への類似度の空間内で推定されるE次元の平均ベクトル(μ^λ)およびE×E型の共分散行列(Σ^λ)のガウス分布(ψ(μ^λ,Σ^λ))によって行われる。
【００１３】
好ましい一実施形態では、話者(λ)のE人のレファレンス話者に関する類似度(ψ(μ^λ,Σ^λ))の定義は、話者(λ)に対して音声信号のN_λ個のセグメントがあってその表現はE人のレファレンス話者からなる所定の組に関する類似度の前記空間のN_λ個のベクトルによって行われ、話者(λ)のE人のレファレンス話者に関する前記類似度のE次元の平均ベクトル(μ^λ)と共分散行列(Σ^λ)との関数として行われる。
【００１４】
有利な一実施形態では、事前情報が、E人のレファレンス話者に関する類似度
【数１】

の確率密度へとさらに導入される。
【００１５】
好ましい一実施形態では、話者(λ)の共分散行列が、前記話者とは独立
【数２】

である。
【００１６】
本発明の別の態様によれば、E人のレファレンス話者からなる所定の組の音声信号および所定のモデルでのそれに関連する音声表現が格納されるデータベース、ならびにオーディオアーカイブのデータベースを含む話者(λ)の音声信号の分析のためのシステムであって、音声信号の分析を、話者の音声表現と、E人のレファレンス話者の音声表現からなる所定の組との間の類似度のベクトル表現を用いて行う手段を含むことを特徴とするシステムが提案される。
【００１７】
有利な一実施形態では、データベースには、前記分析のための手段によって行われた音声信号分析も格納される。
【００１８】
本発明は、オーディオ文書のインデキシングに適用することができるが、話者の音響的識別や話者の本人性の確認などの他の適用例も想定されている。
【００１９】
本発明の他の目的、特徴および利点は、以下の説明を読むと明らかとなろう。この説明は、非限定的な例として与えてあり、1枚しかない添付の図面への参照とともに提供している。
【発明を実施するための最良の形態】
【００２０】
この図面は、オーディオデータベースのインデキシングに関する本発明の一態様によるシステムの適用例を表している。また、もちろん、本発明は、話者の音響的識別、または話者の本人性の確認に、すなわち、一般的には、その話者に関する音響信号中の情報の認識にも適用される。このシステムは、話者の音声データを受け取る手段、たとえばマイクロフォン1を含み、これは、有線または無線の接続2により、話者λが発声し、1組の音声信号を含む要求を録音する手段3へとリンクされている。録音手段3は、接続4によってストレージ手段5へ、また接続6によって、その要求の音響的処理の手段7へとリンクされている。これら処理の音響的手段により、話者λの音声信号からD次元の音響空間内の表現への変換が、話者λを表現するGMMモデルによって行われる。
【００２１】
この表現は、式
【００２２】
【数３】

【００２３】
によるM個のガウス分布の重み付け総和によって定義され、ここで、
Dは、絶対GMMモデルの音響空間の次元であり、
xは、D次元の音響ベクトル、すなわち、絶対GMMモデル内での話者λのある音声信号系列のケプストラル(cepstral)係数からなるベクトルであり、
Mは、絶対GMMモデルのガウス分布の個数を表し、一般に2の冪乗であって16と1024の間にあり、
b_i(x)は、i=1からDまでとして、D次元の平均ベクトルμ_iおよびD×D型の共分散行列Σ_iをパラメータとするガウス分布を表し、
α_iは、i=1からDまでとして、絶対GMMモデル中のガウス混合分布の重み付け係数を表す。
【００２４】
要求の音響的処理の手段7は、接続8によって分析の手段9へとリンクされる。これら分析の手段9では、ある話者の表現を、選ばれたGMMモデル中の前記話者の音声表現と、選ばれたGMMモデル中のE人のレファレンス話者の音声表現との間の類似度(resemblances)を表す確率密度ベクトルによって行うことができる。分析の手段9では、さらに、話者の確認および/または識別のための検査を行うことができる。
【００２５】
こうした検査を行うために、分析手段では、確率密度のベクトル、すなわち、話者とレファレンス話者の間の類似度の定式化を引き受ける。
【００２６】
これは、話者λの信号の単一のセグメントxの関連性のある表現を、次の式、
【００２７】
【数４】

【００２８】
で表すことを含み、ここで、
w^λは、E人のレファレンス話者からなる所定の組への類似度からなる空間のベクトルであり、この表現空間内でセグメントxを表し、
【数５】

は、確率密度または普遍モデル(universal model)によって正規化された確率であり、レファレンス話者
【数６】

の条件の下での、話者λの音声信号のセグメントの音響表現x^λの類似度を表し、
T_xは、発話セグメントxのフレームのまたは音響ベクトルの個数であり、
【数７】

は、レファレンス話者
【数８】

の条件の下での、話者λの音声信号のセグメントの音響表現x^λの類似度を表す確率であり、
【数９】

は、UBM世界モデル(UBM world model)内での話者λの音声信号のセグメントの音響表現x^λの類似度を表す確率であり、
Mは、相対GMMモデルのガウス分布の個数であり、一般に2の冪乗であって16と1024の間にあり、
Dは、絶対GMMモデルの音響空間の次元であり、
x^λは、D次元の音響ベクトル、すなわち、絶対GMMモデル内での話者λのある音声信号系列のケプストラム係数からなるベクトルであり、
b_k(x)は、k=1からDまでとして、D次元の平均ベクトルμ_kおよびD×D次元の共分散行列Σ_kをパラメータとするガウス密度を表し、
α_kは、k=1からDまでとして、絶対GMMモデルでのガウス混合分布の重み付けを行う係数を表す。
【００２９】
話者λの発話x_j(j=1、...、N_λ)のセグメントの表現W_jに基づいて、話者λの表現は、次の関係で定義されるパラメータμ^λおよびΣ_λのガウス分布ψによって行われ、
【００３０】
【数１０】

【００３１】
ここで、
【数１１】

は、話者λのE人のレファレンス話者に関する類似度ψ(μ^λ,Σ^λ)のE次元の平均ベクトルμ^λの成分を表し、
【数１２】

は、話者λのE人のレファレンス話者に関する類似度ψ(μ^λ,Σ^λ)のE×E型の共分散行列Σ^λの成分を表す。
【００３２】
分析手段9は、接続10によってトレーニング手段11へとリンクされ、これは、選ばれたGMMモデルでのE人のレファレンス話者の音声表現を、D次元のベクトルの形で計算することを可能にしている。トレーニング手段11は、接続12によってデータベース13へとリンクされ、これは、話者からなる所定の組の音声信号、および、レファレンスGMMモデルでのその関連する音声表現を含む。また、このデータベースには、前記E人のレファレンス話者以外の初期話者の音声信号の分析の結果を格納することができる。データベース13は、接続14によって分析の手段9へ、また接続15によって音響処理手段7へとリンクされる。
【００３３】
このシステムは、さらに、データベース16を含み、これは、接続17によって音響処理手段7へ、また接続18によって分析手段9へとリンクされる。データベース16は、音声項目(vocal items)の形のオーディオアーカイブ、および、選ばれたGMMモデルでの関連する音声表現を含む。また、データベース16には、分析手段9によって計算したオーディオ項目の関連する表現を格納することができる。トレーニング手段11は、さらに、接続19によって音響処理手段7へとリンクされる。
【００３４】
次に、このシステムの動作のしかたの例を説明することにするが、これは、使用されるパラメータの数がGMMモデルに関してかなり減っているため、また多くのステップをオフラインで行ってもよいため、実時間で動作することができる。
【００３５】
トレーニングモジュール11では、E人のレファレンス話者のレファレンスGMMモデルでの表現の決定を、データベース13に格納されているこれらE人のレファレンス話者の音声信号と、音響処理手段7の音声信号とによって行うことになる。この決定は、上で触れた関係(1)から(3)に従って行われる。このE人のレファレンス話者からなる組は、新しい音響表現空間に相当することになる。E人のレファレンス話者のGMMモデルでのこうした表現は、記憶装置(memory)、たとえば、データベース13に格納される。これはすべて、オフラインで行ってもよい。
【００３６】
音声データは、話者λからの受け取りが、たとえば、マイクロフォン1を介して行われると、接続2を介して録音手段3へと送られるが、ここでは、こうしたデータのストレージ手段5への格納を接続4の助けで行うことができる。録音手段3は、この録音を、音響処理の手段7へ、接続6を介して送る。音響処理の手段7では、話者の所定のGMMモデルでの音声表現の計算を、上の関係(1)から(3)に関して前に述べたように行う。
【００３７】
さらに、音響処理の手段7では、たとえば、オフラインで、S人のテスト話者からなる組およびT人の話者からなる組の所定のGMMモデルでの音声表現が計算されている。これらの組は別個のものである。これらの表現が、データベース13に格納される。分析の手段9では、たとえば、オフラインで、S人の話者とT人の話者とのE人のレファレンス話者に関する音声表現を計算する。この表現は、前に述べたように、これらE人のレファレンス話者に関するベクトル表現である。また、分析の手段9では、たとえば、オフラインで、S人の話者とT人の話者とのE人のレファレンス話者に関する音声表現、および、オーディオベースの話者の項目の音声表現を行う。この表現は、これらE人のレファレンス話者に関するベクトル表現である。
【００３８】
処理手段7は、話者λの所定のGMMモデルでの音声表現を、分析の手段9へと送るが、ここでは、話者λの音声表現を計算する。この表現は、E人のレファレンス話者への類似度の確率密度による表現である。その計算は、事前情報(a priori information)をT人の話者の音声表現によって導入することによって行われる。具体的には、この事前情報の使用により、信頼できる推定を維持することが、話者λの利用可能な発話セグメントの数が少ないときでも可能になる。事前情報は、次の式によって導入される。
【００３９】
【数１３】

【００４０】
ここで、
μ^λ:話者λのE人のレファレンス話者に関する類似度ψ(μ^λ,Σ^λ)のE次元の平均ベクトル、
N^λ:E人のレファレンス話者からなる所定の組への類似度の空間のN_λ個のベクトルによって表される、話者λの音声信号のセグメントの個数、
W:T人の話者spk_i(i=1からTまで)からなる組の初期データすべての行列であり、その列は、E人のレファレンス話者からなる所定の組に関する類似度の空間のベクトルによって表される音声信号セグメントを表すE次元のベクトルであって、各話者spk_iが、そのE次元の平均ベクトルμ₀と、そのE×E型の共分散行列Σ₀とによって表されるN_i個の音声セグメントをもつもの、
【数１４】

:話者λのE人のレファレンス話者に関する類似度
【数１５】

のE次元の平均ベクトルであって、事前情報を導入したもの、および、
【数１６】

:話者λのE人のレファレンス話者に関する類似度
【数１７】

のE×E型の共分散行列であって、事前情報を導入したものである。
【００４１】
しかも、話者ごとに単一の共分散行列をとり、それにより、前記行列の対角化をオフラインで行えるようにすることが可能であり、すると、確率密度の計算は、対角共分散行列で行われることになる。この場合、この単一の共分散行列は、関係
【００４２】
【数１８】

【００４３】
に従って定義され、ここで、
Wは、T人の話者spk_i(i=1からTまで)からなる組の初期データすべての行列であり、その列は、E人のレファレンス話者からなる所定の組に関する類似度の空間のベクトルによって表される音声信号セグメントを表すE次元のベクトルであって、各話者spk_iが、そのE次元の平均ベクトルμ₀と、そのE×E型の共分散行列Σ₀とによって表されるN_i個の音声セグメントをもつものである。
【００４４】
次に、分析手段9では、要求とベースの項目との音声表現の比較を、話者の識別および/または確認の検査によって行うことになる。話者識別検査は、テストセグメントw_xのベクトルと、オーディオベースの項目の表現からなる組との間の尤度の尺度を評価するものである。識別される話者は、S人の話者からなる組のうちで最尤スコア、すなわち、
【数１９】

を与える話者に対応する。
【００４５】
話者確認検査は、テストセグメントw_xのベクトルと、オーディオベースの項目の表現からなる組との間の尤度のスコアを、事前情報の表現によるその尤度のスコアで正規化したものを計算するものである。セグメントの認証は、そのスコアが与えられた所定の閾値を越えるときに行われ、前記スコアは、次の関係によって与えられる。
【００４６】
【数２０】

【００４７】
話者λがベースの項目の中で認識されるたびに、この項目の情報によるインデキシングが行われ、それにより、話者λがこのオーディオ項目の中で話していることを確かめることが可能になる。
【００４８】
本発明は、話者の認識または識別などの他の用途にも適用することができる。
【００４９】
このコンパクトな話者の表現により、計算コストを思い切って減らすことが可能になるが、これは、話者の表現に必要なパラメータの数の思い切った減少を考えると、より少ない基本演算(elementary operations)が数多くあるためである。
【００５０】
たとえば、ある話者の4秒、すなわち250フレームの発話の要求の場合、ガウス分布が16個の27次元のGMMモデルでは、基本演算の数は540分の1に減り、これにより、計算時間がかなり減らされる。さらに、この話者の表現の格納に使用される記憶装置の大きさが、かなり減らされる。
【００５１】
したがって、本発明により、話者の音声信号の分析を、計算のための時間と、この話者の音声表現を格納するための記憶装置の大きさを思い切って減らしながら行うことが可能になる。
【図面の簡単な説明】
【００５２】
【図１】オーディオ文書のインデキシングに関する方法の使用の適用例を示す図である。
【符号の説明】
【００５３】
1 マイクロフォン
2 有線または無線の接続
3 録音手段
4 接続
5 ストレージ手段
6 接続
7 音響処理手段
8 接続
9 分析手段
10 接続
11 トレーニング手段
12 接続
13 データベース
14 接続
15 接続
16 データベース
17 接続
18 接続
19 接続

【特許請求の範囲】
【請求項１】
話者(λ)の音声信号の分析の方法であって、前記話者(λ)の所定のモデルでの音声表現と、E人のレファレンス話者の前記所定のモデルでの音声表現からなる所定の組との間の類似度を表す確率密度を使用し、前記確率密度を、これから前記音声信号についての情報を導出するように分析することを特徴とする方法。
【請求項２】
D次元の、M個のガウス分布の混合を用いる絶対モデル(GMM)を所定のモデルとし、これに対する前記話者(λ)の表現は、前記絶対モデル(GMM)における前記ガウス分布の混合の重み付け係数(α_i、i=1からMまで)、D次元の平均ベクトル(μ_i、i=1からMまで)、およびD×D型の共分散行列(Σ_i、i=1からMまで)を含むパラメータの組によって行われることを特徴とする、請求項1に記載の方法。
【請求項３】
前記話者(λ)の前記音声信号の前記表現と、前記レファレンス話者の音声表現からなる前記所定の組との間の前記類似度の前記確率密度が、E人のレファレンス話者からなる前記所定の組への類似度の空間内で推定されるE次元の平均ベクトル(μ^λ)およびE×E型の共分散行列(Σ^λ)のガウス分布(ψ(μ^λ,Σ^λ))によって表現されることを特徴とする、請求項2に記載の方法。
【請求項４】
前記話者(λ)の前記E人のレファレンス話者に関する前記類似度(ψ(μ^λ,Σ^λ))は、前記話者(λ)に対して、E人のレファレンス話者からなる前記所定の組に関する類似度の前記空間のN_λ個のベクトルによって表現される音声信号のN_λ個のセグメントが存在し、前記話者(λ)の前記E人のレファレンス話者に関する前記類似度のE次元の平均ベクトル(μ^λ)と共分散行列(Σ^λ)との関数として定義されることを特徴とする、請求項3に記載の方法。
【請求項５】
事前情報が、前記E人のレファレンス話者に関する前記類似度
【数１】

の前記確率密度へとさらに導入されることを特徴とする、請求項4に記載の方法。
【請求項６】
前記話者(λ)の前記共分散行列が、前記話者とは独立
【数２】

であることを特徴とする請求項5に記載の方法。
【請求項７】
話者からなる所定の組の音声信号およびそれに関連する所定のモデルでの音声表現がガウス分布の混合によって格納されるデータベース、ならびにオーディオアーカイブのデータベースを含む話者(λ)の音声信号の分析のためのシステムであって、前記音声信号の分析を、前記話者(λ)の音声表現と、E人のレファレンス話者の音声表現からなる所定の組との間の類似度のベクトル表現を用いて行う手段を含むことを特徴とするシステム。
【請求項８】
前記データベースには、前記分析のための手段によって行われた音声信号分析がさらに格納されることを特徴とする、請求項7に記載のシステム。
【請求項９】
オーディオ文書のインデキシングのための、請求項1から6のいずれか一項に記載の方法の使用。
【請求項１０】
話者の識別のための、請求項1から6のいずれか一項に記載の方法の使用。
【請求項１１】
話者の確認のための、請求項1から6のいずれか一項に記載の方法の使用。

【公表番号】特表２００７−５１４９５９（Ｐ２００７−５１４９５９Ａ）
【公表日】平成１９年６月７日（２００７．６．７）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 話者の同定または識別 (337)
    - 音声認識 (6,879)
      - 音声の識別または探索 (1,500)
        
        統計的モデルを用いるもの，例．隠れマルコフモデル［ＨＭＭ］ (175)

【出願番号】特願２００５−５０７５３９（Ｐ２００５−５０７５３９）
【出願日】平成１５年７月１日（２００３．７．１）
【国際出願番号】ＰＣＴ／ＦＲ２００３／００２０３７
【国際公開番号】ＷＯ２００５／０１５５４７
【国際公開日】平成１７年２月１７日（２００５．２．１７）
【出願人】（５９１０３４１５４）フランス　テレコム (290)
【Ｆターム（参考）】

音声認識 (5,191)
- 目的、機能 (1,020)
  - 話者の識別、照合 (293)

[ Back to top ]

話者の圧縮表現用の音声信号の分析のための方法およびシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

話者の圧縮表現用の音声信号の分析のための方法およびシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク