説明

話者の圧縮表現用の音声信号の分析のための方法およびシステム

本発明は、話者(λ)の音声信号の分析のための方法に関し、そこでは話者(λ)の所定のモデルでの音声表現と、ある人数(E)のレファレンス話者の前記所定のモデルでの音声表現からなる所定の組との間の類似を表す確率密度が使用され、したがってこの確率密度を使用して音声信号についての情報が予測される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号を分析するための方法および装置に関する。
【背景技術】
【0002】
音声信号の分析には、特に、話者の表現を行えることが必要である。話者のガウス分布の混合(a mixture of Gaussians)(「ガウス混合モデル」(Gaussian Mixture Model)またはGMM)による表現は、話者の音響的または音声的な本人性(identity)の効率的な表現である。この技法によれば、話者の表現が、所定の次元の音響レファレンス空間内で、所定の個数のガウス分布の重み付け総和によって行われる。
【0003】
このタイプの表現が正確であるのは、大量のデータが利用可能であるとき、および、モデルのパラメータの格納に関して、またはこうした数多くのパラメータ上での計算の実行に関して、物理的な制約がないときである。
【0004】
ところが実際には、ITシステムの内部で話者の表現を行うには、話者の発話する時間が短いこと、ならびに、こうした表現に必要なメモリの大きさおよびこうしたパラメータに関する計算の回数が大きすぎることが明らかとなった。
【0005】
したがって、話者の表現を、その話者の表現に必要なパラメータの個数を思い切って減らしながらも、正しい性能は維持するような手法で試みることは重要である。性能とは、ある話者に属するまたは属さないと認識される音声系列の、音声系列の総数に対する誤り率という意味である。
【0006】
この点に関する解決案の提案が、特に、D. E. Sturim、D. A. Reynolds、E. SingerおよびJ. P. Campbellによる「SPEAKER INDEXING IN LARGE AUDIO DATABASES USING ANCHOR MODELS」という文書の中で行われている。具体的には、著者らは、話者の表現は、音響レファレンス空間内で絶対的にではなく、アンカーモデル(anchor model)と呼ばれるレファレンス話者の表現からなる所定の組に関して相対的に行うことを提案しており、これに対してはGMM-UBMモデルが使用可能である(UBMは「Universal Background Model」(普遍背景モデル)を表す)。話者とレファレンス話者の間の近さの評価は、ユークリッド距離によって行われる。これにより、計算の負荷は著しく減少するが、性能はなお限られており不十分である。
【非特許文献1】D. E. Sturim、D. A. Reynolds、E. SingerおよびJ. P. Campbellによる「SPEAKER INDEXING IN LARGE AUDIO DATABASES USING ANCHOR MODELS」という文書
【発明の開示】
【発明が解決しようとする課題】
【0007】
以上のことに鑑み、本発明の一目的は、音声信号の、話者をレファレンス話者の所定の組に関して表現することによる分析を、パラメータの個数を減らして実時間の適用のために計算の負荷を減少させ、容認できる性能で、GMM-UBMモデルによる表現を用いた分析による比較によって行うことである。
【0008】
その場合、たとえば、話者がインデキシングキーである大規模データベースのオーディオ文書のインデキシングを行うことが可能になる。
【課題を解決するための手段】
【0009】
したがって、本発明の一態様によれば、話者(λ)の音声信号の分析の方法であって、話者(λ)の所定のモデルでの音声表現と、E人のレファレンス話者の前記所定のモデルでの音声表現からなる所定の組との間の類似度を表す確率密度を使用し、確率密度を、これから音声信号についての情報を導出するように分析する方法が提案される。
【0010】
これにより、使用されるパラメータの数を思い切って減らすことが可能になり、この方法を実装する装置の実時間の動作が、計算時間を減少させる一方、必要な記憶装置の大きさを減少させながら行えることができるようになる。
【0011】
好ましい一実施形態では、D次元の、M個のガウス分布からなる混合分布を用いる絶対モデル(GMM)を所定のモデルとし、これに対する話者(λ)の表現は、前記絶対モデル(GMM)におけるガウス混合分布の重み付け係数(αi、i=1からMまで)、D次元の平均ベクトル(μi、i=1からMまで)、およびD×D型の共分散行列(Σi、i=1からMまで)を含むパラメータの組によって行われる。
【0012】
有利な一実施形態では、話者(λ)の前記音声信号の表現と、レファレンス話者の音声表現からなる所定の組との間の類似度の確率密度の表現が、E人のレファレンス話者からなる所定の組への類似度の空間内で推定されるE次元の平均ベクトル(μλ)およびE×E型の共分散行列(Σλ)のガウス分布(ψ(μλλ))によって行われる。
【0013】
好ましい一実施形態では、話者(λ)のE人のレファレンス話者に関する類似度(ψ(μλλ))の定義は、話者(λ)に対して音声信号のNλ個のセグメントがあってその表現はE人のレファレンス話者からなる所定の組に関する類似度の前記空間のNλ個のベクトルによって行われ、話者(λ)のE人のレファレンス話者に関する前記類似度のE次元の平均ベクトル(μλ)と共分散行列(Σλ)との関数として行われる。
【0014】
有利な一実施形態では、事前情報が、E人のレファレンス話者に関する類似度
【数1】

の確率密度へとさらに導入される。
【0015】
好ましい一実施形態では、話者(λ)の共分散行列が、前記話者とは独立
【数2】

である。
【0016】
本発明の別の態様によれば、E人のレファレンス話者からなる所定の組の音声信号および所定のモデルでのそれに関連する音声表現が格納されるデータベース、ならびにオーディオアーカイブのデータベースを含む話者(λ)の音声信号の分析のためのシステムであって、音声信号の分析を、話者の音声表現と、E人のレファレンス話者の音声表現からなる所定の組との間の類似度のベクトル表現を用いて行う手段を含むことを特徴とするシステムが提案される。
【0017】
有利な一実施形態では、データベースには、前記分析のための手段によって行われた音声信号分析も格納される。
【0018】
本発明は、オーディオ文書のインデキシングに適用することができるが、話者の音響的識別や話者の本人性の確認などの他の適用例も想定されている。
【0019】
本発明の他の目的、特徴および利点は、以下の説明を読むと明らかとなろう。この説明は、非限定的な例として与えてあり、1枚しかない添付の図面への参照とともに提供している。
【発明を実施するための最良の形態】
【0020】
この図面は、オーディオデータベースのインデキシングに関する本発明の一態様によるシステムの適用例を表している。また、もちろん、本発明は、話者の音響的識別、または話者の本人性の確認に、すなわち、一般的には、その話者に関する音響信号中の情報の認識にも適用される。このシステムは、話者の音声データを受け取る手段、たとえばマイクロフォン1を含み、これは、有線または無線の接続2により、話者λが発声し、1組の音声信号を含む要求を録音する手段3へとリンクされている。録音手段3は、接続4によってストレージ手段5へ、また接続6によって、その要求の音響的処理の手段7へとリンクされている。これら処理の音響的手段により、話者λの音声信号からD次元の音響空間内の表現への変換が、話者λを表現するGMMモデルによって行われる。
【0021】
この表現は、式
【0022】
【数3】

【0023】
によるM個のガウス分布の重み付け総和によって定義され、ここで、
Dは、絶対GMMモデルの音響空間の次元であり、
xは、D次元の音響ベクトル、すなわち、絶対GMMモデル内での話者λのある音声信号系列のケプストラル(cepstral)係数からなるベクトルであり、
Mは、絶対GMMモデルのガウス分布の個数を表し、一般に2の冪乗であって16と1024の間にあり、
bi(x)は、i=1からDまでとして、D次元の平均ベクトルμiおよびD×D型の共分散行列Σiをパラメータとするガウス分布を表し、
αiは、i=1からDまでとして、絶対GMMモデル中のガウス混合分布の重み付け係数を表す。
【0024】
要求の音響的処理の手段7は、接続8によって分析の手段9へとリンクされる。これら分析の手段9では、ある話者の表現を、選ばれたGMMモデル中の前記話者の音声表現と、選ばれたGMMモデル中のE人のレファレンス話者の音声表現との間の類似度(resemblances)を表す確率密度ベクトルによって行うことができる。分析の手段9では、さらに、話者の確認および/または識別のための検査を行うことができる。
【0025】
こうした検査を行うために、分析手段では、確率密度のベクトル、すなわち、話者とレファレンス話者の間の類似度の定式化を引き受ける。
【0026】
これは、話者λの信号の単一のセグメントxの関連性のある表現を、次の式、
【0027】
【数4】

【0028】
で表すことを含み、ここで、
wλは、E人のレファレンス話者からなる所定の組への類似度からなる空間のベクトルであり、この表現空間内でセグメントxを表し、
【数5】

は、確率密度または普遍モデル(universal model)によって正規化された確率であり、レファレンス話者
【数6】

の条件の下での、話者λの音声信号のセグメントの音響表現xλの類似度を表し、
Txは、発話セグメントxのフレームのまたは音響ベクトルの個数であり、
【数7】

は、レファレンス話者
【数8】

の条件の下での、話者λの音声信号のセグメントの音響表現xλの類似度を表す確率であり、
【数9】

は、UBM世界モデル(UBM world model)内での話者λの音声信号のセグメントの音響表現xλの類似度を表す確率であり、
Mは、相対GMMモデルのガウス分布の個数であり、一般に2の冪乗であって16と1024の間にあり、
Dは、絶対GMMモデルの音響空間の次元であり、
xλは、D次元の音響ベクトル、すなわち、絶対GMMモデル内での話者λのある音声信号系列のケプストラム係数からなるベクトルであり、
bk(x)は、k=1からDまでとして、D次元の平均ベクトルμkおよびD×D次元の共分散行列Σkをパラメータとするガウス密度を表し、
αkは、k=1からDまでとして、絶対GMMモデルでのガウス混合分布の重み付けを行う係数を表す。
【0029】
話者λの発話xj(j=1、...、Nλ)のセグメントの表現Wjに基づいて、話者λの表現は、次の関係で定義されるパラメータμλおよびΣλのガウス分布ψによって行われ、
【0030】
【数10】

【0031】
ここで、
【数11】

は、話者λのE人のレファレンス話者に関する類似度ψ(μλλ)のE次元の平均ベクトルμλの成分を表し、
【数12】

は、話者λのE人のレファレンス話者に関する類似度ψ(μλλ)のE×E型の共分散行列Σλの成分を表す。
【0032】
分析手段9は、接続10によってトレーニング手段11へとリンクされ、これは、選ばれたGMMモデルでのE人のレファレンス話者の音声表現を、D次元のベクトルの形で計算することを可能にしている。トレーニング手段11は、接続12によってデータベース13へとリンクされ、これは、話者からなる所定の組の音声信号、および、レファレンスGMMモデルでのその関連する音声表現を含む。また、このデータベースには、前記E人のレファレンス話者以外の初期話者の音声信号の分析の結果を格納することができる。データベース13は、接続14によって分析の手段9へ、また接続15によって音響処理手段7へとリンクされる。
【0033】
このシステムは、さらに、データベース16を含み、これは、接続17によって音響処理手段7へ、また接続18によって分析手段9へとリンクされる。データベース16は、音声項目(vocal items)の形のオーディオアーカイブ、および、選ばれたGMMモデルでの関連する音声表現を含む。また、データベース16には、分析手段9によって計算したオーディオ項目の関連する表現を格納することができる。トレーニング手段11は、さらに、接続19によって音響処理手段7へとリンクされる。
【0034】
次に、このシステムの動作のしかたの例を説明することにするが、これは、使用されるパラメータの数がGMMモデルに関してかなり減っているため、また多くのステップをオフラインで行ってもよいため、実時間で動作することができる。
【0035】
トレーニングモジュール11では、E人のレファレンス話者のレファレンスGMMモデルでの表現の決定を、データベース13に格納されているこれらE人のレファレンス話者の音声信号と、音響処理手段7の音声信号とによって行うことになる。この決定は、上で触れた関係(1)から(3)に従って行われる。このE人のレファレンス話者からなる組は、新しい音響表現空間に相当することになる。E人のレファレンス話者のGMMモデルでのこうした表現は、記憶装置(memory)、たとえば、データベース13に格納される。これはすべて、オフラインで行ってもよい。
【0036】
音声データは、話者λからの受け取りが、たとえば、マイクロフォン1を介して行われると、接続2を介して録音手段3へと送られるが、ここでは、こうしたデータのストレージ手段5への格納を接続4の助けで行うことができる。録音手段3は、この録音を、音響処理の手段7へ、接続6を介して送る。音響処理の手段7では、話者の所定のGMMモデルでの音声表現の計算を、上の関係(1)から(3)に関して前に述べたように行う。
【0037】
さらに、音響処理の手段7では、たとえば、オフラインで、S人のテスト話者からなる組およびT人の話者からなる組の所定のGMMモデルでの音声表現が計算されている。これらの組は別個のものである。これらの表現が、データベース13に格納される。分析の手段9では、たとえば、オフラインで、S人の話者とT人の話者とのE人のレファレンス話者に関する音声表現を計算する。この表現は、前に述べたように、これらE人のレファレンス話者に関するベクトル表現である。また、分析の手段9では、たとえば、オフラインで、S人の話者とT人の話者とのE人のレファレンス話者に関する音声表現、および、オーディオベースの話者の項目の音声表現を行う。この表現は、これらE人のレファレンス話者に関するベクトル表現である。
【0038】
処理手段7は、話者λの所定のGMMモデルでの音声表現を、分析の手段9へと送るが、ここでは、話者λの音声表現を計算する。この表現は、E人のレファレンス話者への類似度の確率密度による表現である。その計算は、事前情報(a priori information)をT人の話者の音声表現によって導入することによって行われる。具体的には、この事前情報の使用により、信頼できる推定を維持することが、話者λの利用可能な発話セグメントの数が少ないときでも可能になる。事前情報は、次の式によって導入される。
【0039】
【数13】

【0040】
ここで、
μλ:話者λのE人のレファレンス話者に関する類似度ψ(μλλ)のE次元の平均ベクトル、
Nλ:E人のレファレンス話者からなる所定の組への類似度の空間のNλ個のベクトルによって表される、話者λの音声信号のセグメントの個数、
W:T人の話者spk_i(i=1からTまで)からなる組の初期データすべての行列であり、その列は、E人のレファレンス話者からなる所定の組に関する類似度の空間のベクトルによって表される音声信号セグメントを表すE次元のベクトルであって、各話者spk_iが、そのE次元の平均ベクトルμ0と、そのE×E型の共分散行列Σ0とによって表されるNi個の音声セグメントをもつもの、
【数14】

:話者λのE人のレファレンス話者に関する類似度
【数15】

のE次元の平均ベクトルであって、事前情報を導入したもの、および、
【数16】

:話者λのE人のレファレンス話者に関する類似度
【数17】

のE×E型の共分散行列であって、事前情報を導入したものである。
【0041】
しかも、話者ごとに単一の共分散行列をとり、それにより、前記行列の対角化をオフラインで行えるようにすることが可能であり、すると、確率密度の計算は、対角共分散行列で行われることになる。この場合、この単一の共分散行列は、関係
【0042】
【数18】

【0043】
に従って定義され、ここで、
Wは、T人の話者spk_i(i=1からTまで)からなる組の初期データすべての行列であり、その列は、E人のレファレンス話者からなる所定の組に関する類似度の空間のベクトルによって表される音声信号セグメントを表すE次元のベクトルであって、各話者spk_iが、そのE次元の平均ベクトルμ0と、そのE×E型の共分散行列Σ0とによって表されるNi個の音声セグメントをもつものである。
【0044】
次に、分析手段9では、要求とベースの項目との音声表現の比較を、話者の識別および/または確認の検査によって行うことになる。話者識別検査は、テストセグメントwxのベクトルと、オーディオベースの項目の表現からなる組との間の尤度の尺度を評価するものである。識別される話者は、S人の話者からなる組のうちで最尤スコア、すなわち、
【数19】

を与える話者に対応する。
【0045】
話者確認検査は、テストセグメントwxのベクトルと、オーディオベースの項目の表現からなる組との間の尤度のスコアを、事前情報の表現によるその尤度のスコアで正規化したものを計算するものである。セグメントの認証は、そのスコアが与えられた所定の閾値を越えるときに行われ、前記スコアは、次の関係によって与えられる。
【0046】
【数20】

【0047】
話者λがベースの項目の中で認識されるたびに、この項目の情報によるインデキシングが行われ、それにより、話者λがこのオーディオ項目の中で話していることを確かめることが可能になる。
【0048】
本発明は、話者の認識または識別などの他の用途にも適用することができる。
【0049】
このコンパクトな話者の表現により、計算コストを思い切って減らすことが可能になるが、これは、話者の表現に必要なパラメータの数の思い切った減少を考えると、より少ない基本演算(elementary operations)が数多くあるためである。
【0050】
たとえば、ある話者の4秒、すなわち250フレームの発話の要求の場合、ガウス分布が16個の27次元のGMMモデルでは、基本演算の数は540分の1に減り、これにより、計算時間がかなり減らされる。さらに、この話者の表現の格納に使用される記憶装置の大きさが、かなり減らされる。
【0051】
したがって、本発明により、話者の音声信号の分析を、計算のための時間と、この話者の音声表現を格納するための記憶装置の大きさを思い切って減らしながら行うことが可能になる。
【図面の簡単な説明】
【0052】
【図1】オーディオ文書のインデキシングに関する方法の使用の適用例を示す図である。
【符号の説明】
【0053】
1 マイクロフォン
2 有線または無線の接続
3 録音手段
4 接続
5 ストレージ手段
6 接続
7 音響処理手段
8 接続
9 分析手段
10 接続
11 トレーニング手段
12 接続
13 データベース
14 接続
15 接続
16 データベース
17 接続
18 接続
19 接続


【特許請求の範囲】
【請求項1】
話者(λ)の音声信号の分析の方法であって、前記話者(λ)の所定のモデルでの音声表現と、E人のレファレンス話者の前記所定のモデルでの音声表現からなる所定の組との間の類似度を表す確率密度を使用し、前記確率密度を、これから前記音声信号についての情報を導出するように分析することを特徴とする方法。
【請求項2】
D次元の、M個のガウス分布の混合を用いる絶対モデル(GMM)を所定のモデルとし、これに対する前記話者(λ)の表現は、前記絶対モデル(GMM)における前記ガウス分布の混合の重み付け係数(αi、i=1からMまで)、D次元の平均ベクトル(μi、i=1からMまで)、およびD×D型の共分散行列(Σi、i=1からMまで)を含むパラメータの組によって行われることを特徴とする、請求項1に記載の方法。
【請求項3】
前記話者(λ)の前記音声信号の前記表現と、前記レファレンス話者の音声表現からなる前記所定の組との間の前記類似度の前記確率密度が、E人のレファレンス話者からなる前記所定の組への類似度の空間内で推定されるE次元の平均ベクトル(μλ)およびE×E型の共分散行列(Σλ)のガウス分布(ψ(μλλ))によって表現されることを特徴とする、請求項2に記載の方法。
【請求項4】
前記話者(λ)の前記E人のレファレンス話者に関する前記類似度(ψ(μλλ))は、前記話者(λ)に対して、E人のレファレンス話者からなる前記所定の組に関する類似度の前記空間のNλ個のベクトルによって表現される音声信号のNλ個のセグメントが存在し、前記話者(λ)の前記E人のレファレンス話者に関する前記類似度のE次元の平均ベクトル(μλ)と共分散行列(Σλ)との関数として定義されることを特徴とする、請求項3に記載の方法。
【請求項5】
事前情報が、前記E人のレファレンス話者に関する前記類似度
【数1】

の前記確率密度へとさらに導入されることを特徴とする、請求項4に記載の方法。
【請求項6】
前記話者(λ)の前記共分散行列が、前記話者とは独立
【数2】

であることを特徴とする請求項5に記載の方法。
【請求項7】
話者からなる所定の組の音声信号およびそれに関連する所定のモデルでの音声表現がガウス分布の混合によって格納されるデータベース、ならびにオーディオアーカイブのデータベースを含む話者(λ)の音声信号の分析のためのシステムであって、前記音声信号の分析を、前記話者(λ)の音声表現と、E人のレファレンス話者の音声表現からなる所定の組との間の類似度のベクトル表現を用いて行う手段を含むことを特徴とするシステム。
【請求項8】
前記データベースには、前記分析のための手段によって行われた音声信号分析がさらに格納されることを特徴とする、請求項7に記載のシステム。
【請求項9】
オーディオ文書のインデキシングのための、請求項1から6のいずれか一項に記載の方法の使用。
【請求項10】
話者の識別のための、請求項1から6のいずれか一項に記載の方法の使用。
【請求項11】
話者の確認のための、請求項1から6のいずれか一項に記載の方法の使用。

【公表番号】特表2007−514959(P2007−514959A)
【公表日】平成19年6月7日(2007.6.7)
【国際特許分類】
【出願番号】特願2005−507539(P2005−507539)
【出願日】平成15年7月1日(2003.7.1)
【国際出願番号】PCT/FR2003/002037
【国際公開番号】WO2005/015547
【国際公開日】平成17年2月17日(2005.2.17)
【出願人】(591034154)フランス テレコム (290)
【Fターム(参考)】