説明

男女声識別方法、男女声識別装置及びプログラム

【課題】入力された音声信号の時間長が非常に短い場合であっても、音声信号の話者の性別を正確に識別することができるようにする。
【解決手段】入力された音声信号から音声特徴量を抽出し、その音声特徴量を男声音響モデル及び女声音響モデルと照合した尤度に基づいて音声信号の話者の性別を識別する男女声識別方法において、音声信号の時間長が所定の時間長L未満の場合、音声信号を時間長L以上となるまで繰り返して伸長させ、その伸長させた音声信号を用いて音声特徴量の抽出を行い、前記繰り返しに対応した認識文法を用いて前記照合及び識別を行う。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は入力された音声信号の話者の性別を識別する男女声識別方法、男女声識別装置及びプログラムに関する。
【背景技術】
【0002】
入力された音声信号から話者の性別を識別する男女声識別技術は、単に性別を識別するためだけではなく、例えば音声認識の高精度化のためにも重要な技術である。
【0003】
これまでは、入力された音声信号が男声・女声のいずれかを識別する場合、音声信号から音声特徴量を抽出し、その抽出した音声特徴量をGMM(Gaussian Mixture Model)等の統計的なモデル化に基づいて作成された男声用の音響モデル及び女声用の音響モデルと照合して尤度を求め、その尤度に基づいて男声・女声の識別が行われてきた。
【0004】
特許文献1にはこのように入力された音声信号から抽出した音声特徴量を男声用の音響モデル及び女声用の音響モデルと照合し、尤度を求めることが記載されており、この尤度に基づいて男声・女声を識別することができる。
【0005】
図11は上記のような方法によって、入力された音声信号の話者の性別を識別する男女声識別装置の構成例を示したものである。男女声識別装置は男女声識別処理部10と男声音響モデル20と女声音響モデル30とを備えて構成されている。男声音響モデル20は音声区間モデル21と非音声区間モデル22とを具備し、同様に女声音響モデル30も音声区間モデル31と非音声区間モデル32とを具備するものとなっている。
【0006】
男女声識別処理部10はこの例では音声特徴量抽出部11と認識文法設定部12と識別部13とを備えている。音声特徴量抽出部11は入力された音声信号(A/D変換され、ディジタル化されたディジタル音声信号)の音声特徴量を抽出する。認識文法設定部12は音声特徴量を男声音響モデル20及び女声音響モデル30と照合し、尤度を求める際に用いる認識文法の設定を行う。識別部13は認識文法を用い、音声特徴量を男声音響モデル20及び女声音響モデル30と照合して尤度を求め、求めた尤度に基づいて音声信号の話者の性別を識別する。男女声識別処理部10はこのようにして識別した結果を出力する。
【0007】
男声・女声を識別する際には発話単位で識別する必要があるため、認識文法設定部12で設定される認識文法は一般に下記に示すような認識文法(1)とされる。なお、下記認識文法(1)はBNF記法を拡張した表現で記述している。
【0008】
・認識文法(1)
$[p]=pause;
$[g]=garbage;
$START=$p $g $p;
ここで、$[xxx]=はシンボルの宣言を意味し、右辺のpauseは無音等の非音声を表すシンボル、garbageは音声を表すシンボルである。$STARTは文全体を表す開始記号である。なお、記号=は定義、記号[ ]は単語表記の指定、記号;は定義の終端を表す。
【0009】
上記認識文法(1)は、非音声→音声→非音声の順に出現することを想定した文法となっている。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2011−13543号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
ところで、例えば1秒以下の非常に短い音声信号に対して男女声の識別を行った場合、以下の問題が発生する。
【0012】
即ち、入力された音声信号から音声特徴量を抽出する際に、一般的には話者による音声特徴量の偏りを除去するため、例えばCMN(Cepstrum Mean Normalization)やCVN(Cepstrum Variance Normalization)等の音声特徴量の正規化処理を行う。しかしながら、こうした正規化処理は音声特徴量の統計的な分析に基づいた処理に基づくため、ある程度の長さの音声信号が入力されないと、統計的に正しい結果が得られず、結果的に正しい正規化処理ができない場合がある。
【0013】
従って、例えば“はい”、“いいえ”等のごく短時間の音声が入力された場合には、その音声信号から抽出・正規化された音声特徴量に残った話者に依存した偏りが、男声/女声それぞれの音響モデルとの尤度に影響を与え、識別精度が低下するといった問題が発生する恐れがある。
【0014】
この発明の目的はこのような問題に鑑み、入力された音声信号の時間長が非常に短い場合であっても、音声信号の話者の性別を正確に識別することができるようにした男女声識別方法及び男女声識別装置を提供することにある。
【課題を解決するための手段】
【0015】
請求項1の発明によれば、入力された音声信号から音声特徴量を抽出し、その音声特徴量を男声音響モデル及び女声音響モデルと照合した尤度に基づいて音声信号の話者の性別を識別する男女声識別方法において、音声信号の時間長が所定の時間長L未満の場合、音声信号を時間長L以上となるまで繰り返して伸長させ、その伸長させた音声信号を用いて音声特徴量の抽出を行い、前記繰り返しに対応した認識文法を用いて前記照合及び識別を行う。
【0016】
請求項2の発明では請求項1の発明において、前記繰り返しを行う際、音声信号の音声区間を検出し、その音声区間のみ繰り返して音声信号を伸長させる。
【0017】
請求項3の発明では請求項2の発明において、検出した音声区間の長さが閾値T未満の場合、その音声区間を棄却し、前記識別を行わないこととする。
【0018】
請求項4の発明では請求項1乃至3のいずれかの発明において、時間長Lは外部から設定可能とされる。
【0019】
請求項5の発明では請求項1乃至3のいずれかの発明において、時間長Lは男女声識別を実行する計算機負荷と要求応答時間から算出される。
【0020】
請求項6の発明によれば、男女声識別装置は、入力された音声信号の時間長が所定の時間長L未満か否かを判定し、時間長L未満と判定した場合、音声信号を音声伸長部に出力し、時間長L以上と判定した場合、音声信号を男女声識別処理部に出力する音声長判定部と、音声長判定部から入力された音声信号を時間長L以上となるまで繰り返して伸長させ、その伸長させた音声信号を男女声識別処理部に出力する音声伸長部と、音声長判定部から入力される音声信号及び音声伸長部から入力される音声信号の音声特徴量を抽出し、その音声特徴量を抽出した音声信号に対応する認識文法を用いて音声特徴量を男声音響モデル及び女声音響モデルと照合し、照合した尤度に基づいて音声特徴量を抽出した音声信号の話者の性別を識別して出力する男女声識別処理部とを備える。
【発明の効果】
【0021】
この発明によれば、入力された音声信号の時間長が短く、所定の時間長L未満の場合には音声信号を繰り返し、また繰り返しに対応した認識文法を用いるものとなっており、よって音声特徴量の正規化処理を安定させ、正しく行うことができ、これにより音声信号の話者の性別を正確に識別することが可能となる。
【図面の簡単な説明】
【0022】
【図1】この発明による男女声識別方法の第1の実施例を実行する男女声識別装置の機能構成を示すブロック図。
【図2】この発明による男女声識別方法の第1の実施例の処理フローを示すフローチャート。
【図3】音声伸長例を示す図。
【図4】音声特徴量の正規化処理に対する音声伸長の効果を説明するための図。
【図5】この発明による男女声識別方法の第2の実施例を実行する男女声識別装置の機能構成を示すブロック図。
【図6】この発明による男女声識別方法の第2の実施例の処理フローを示すフローチャート。
【図7】音声伸長例を示す図。
【図8】この発明による男女声識別方法の第3の実施例の処理フローを示すフローチャート。
【図9】この発明による男女声識別方法の第4の実施例を実行する男女声識別装置の機能構成を示すブロック図。
【図10】この発明による男女声識別方法の第5の実施例を実行する男女声識別装置の機能構成を示すブロック図。
【図11】従来の男女声識別方法を実行する男女声識別装置の機能構成を示すブロック図。
【発明を実施するための形態】
【0023】
以下、この発明の実施形態を図面を参照して実施例により説明する。
【実施例1】
【0024】
実施例1の男女声識別装置の機能構成を図1に示し、その処理フローを図2に示す。
【0025】
この例では男女声識別装置は図11に示した従来の男女声識別装置に対し、音声長判定部40と音声伸長部50とが付加された構成となっている。
【0026】
話者の性別を識別したい音声信号は音声長判定部40に入力される(ステップS1)。音声長判定部40は入力された音声信号の時間長が所定の時間長L未満か否かを判定し(ステップS2)、時間長L未満と判定した場合、音声信号を音声伸長部50に出力し、時間長L以上と判定した場合、音声信号を男女声識別処理部10に出力する。
【0027】
音声伸長部50は音声長判定部40から入力された音声信号を時間長L以上となるまで繰り返して伸長させ(ステップS3)、その伸長させた音声信号を男女声識別処理部10に出力する。
【0028】
時間長Lは、0より大きい任意の値にすることができる。時間長Lの値は、男女声識別を適用するタスクの音声セット等から、識別精度向上に有効な適切な値を実験的に求める等の方法で決定すればよい。ここでは、一例として、L=2秒とする。
【0029】
音声伸長部50における音声伸長は具体的には以下のように行われる。即ち、この例では音声伸長部50はバッファ51を備えており、このバッファ51に、入力された音声信号の先頭フレームから順次、1フレームずつコピーが行われる。入力音声信号の最終フレームまで達したら、再び入力音声信号の先頭フレームからコピーが行われる。以上の処理をバッファ51に含まれるフレーム長が時間長L以上となるまで繰り返す。ここでのコピーの繰り返し処理は、バッファ51に含まれるフレーム長が時間長Lと等しくなった時点(もしくは越えた時点)で打ち切ってもよい(図3はこのように繰り返されて伸長された伸長音声信号の一例を入力音声信号と共に示したものである)し、あるいは、バッファ51に含まれるフレーム長が時間長Lを超えた後に入力音声信号の最終フレームまで達した時点でコピーを終了してもよい。
【0030】
なお、一般的な音声認識では、このような音声伸長処理を行うと、認識結果(音声を文字化した結果)が入力音声とは異なってしまうので望ましくはないが、男女声識別においては発話内容(何が話されているか)は識別する必要がないため、このような音声伸長処理を適用することができる。
【0031】
男女声識別処理部10には音声長判定部40及び音声伸長部50から音声信号が入力される。音声特徴量抽出部11はこれら音声信号の音声特徴量を抽出する(ステップS4)。音声伸長部50から入力される音声信号は音声伸長により、音声と非音声が交互に含まれ、また複数回繰り返して含まれうるため、この繰り返しに対応した認識文法を用いる必要がある。認識文法設定部12は音声信号が音声長判定部40から入力された場合及び音声伸長部50から入力された場合のそれぞれに対応して認識文法を設定する。音声信号が音声長判定部40から入力された場合の認識文法は前記した認識文法(1)とされ、音声伸長部50から入力された場合の認識文法は下記に示す認識文法(2)とされる。なお、認識文法(2)は認識文法(1)と同様、BNF記法を拡張した表現で記述している。
【0032】
・認識文法(2)
$[p]=pause;
$[g]=garbage;
$START=<$p|$g>;
但し、記号< >は1回以上の繰り返し、記号|は並列接続を表す。
【0033】
上記認識文法(2)は、非音声と音声が交互に出現することを想定した文法となっている。
【0034】
識別部13は認識文法設定部12で設定された認識文法を用い、音声特徴量を男声音響モデル20及び女声音響モデル30と照合して尤度を求め(ステップS5)、求めた尤度に基づいて音声信号の話者の性別を識別する(ステップS6)。男女声識別処理部10はこのようにして識別した結果を出力する。
【0035】
この例では、上述したように入力された音声信号の時間長が短く、所定の時間長L未満の場合には音声信号を繰り返して時間長を伸長するものとなっており、これにより音声信号の話者の性別の識別に用いる音声特徴量平均を得ることができる区間を増やすことができるものとなっている。
【0036】
図4(B)はこの様子を示したものであり、比較として音声伸長を行わない従来例を図4(A)に示す。
【0037】
窓長N秒間(過去N秒間)の音声特徴量の平均を用い、逐次CMN等の正規化処理を行う場合、図4(A)に示した従来例では平均の計算に使用できるデータ量が少なく、CMNの効果が充分に得られないことになる。なお、図4(A),(B)中、両矢の矢印で示した区間は窓長N秒間を示し、このうち、全て実線で示した矢印は窓長N秒間の音声特徴量の平均が使える区間を示す。
【0038】
図4(A)では冒頭のS,Sの区間は窓長N秒間の音声特徴量の平均が使えず、窓長N秒間の音声特徴量の平均が使える区間はS〜Sの3区間となっている。これに対し、音声伸長を行った図4(B)では窓長N秒間の音声特徴量の平均を使える区間はS〜Sの7区間と増加し、これによりCMN等による正規化の効果を充分に得ることができ、よって男女声の識別精度の向上を図ることができる。
【0039】
なお、Nは例えば0.8秒程度とする。Nは長すぎると、広い区間の平均を求めることになるので、正規化の効果が低下してしまい、識別精度の低下を招く。よって、例えば単純に音声信号の全区間の音声特徴量を用いて正規化処理をするのは望ましくなく、上述したようにNは0.8秒程度に設定する。
【実施例2】
【0040】
実施例2の男女声識別装置の機能構成を図5に示し、その処理フローを図6に示す。
【0041】
この例では図1に示した実施例1の男女声識別装置に対し、音声区間検出部60を追加した構成となっており、図2に示した実施例1の処理フローに対し、音声区間検出処理(ステップS11)を音声伸長処理(ステップS3)の前に行うものとなっている。
【0042】
一般的な環境で入力された音声信号には、雑音や無音等の音声ではない区間(非音声区間)が含まれている。ごく短時間の音声信号であっても同じであり、音声信号の一部には非音声区間が含まれている。しかしながら、比較的時間が短い音声信号が入力された場合、こうした非音声区間の長さと音声区間の長さが同程度か音声区間の長さの方が短い場合がある。
【0043】
一方、音声特徴量の正規化においては特段、音声区間、非音声区間の識別は行われない。そのため、非音声区間に含まれる雑音等が音声特徴量の統計的な分析結果に影響を与え、結果的に正しい正規化処理ができない場合がある。従って、雑音等が含まれるごく短時間の音声信号においては、雑音等による正規化処理の誤りが男女声それぞれの音響モデルとの尤度に影響を与え、識別精度が低下するといったことが起こりうる。
【0044】
実施例2はこの問題を解決するもので、音声長判定部40で所定の時間長L未満と判定された音声信号は音声区間検出部60に入力され、音声区間検出部60は入力された音声信号の音声区間を検出し(ステップS11)、その音声区間のみを音声伸長部50に出力する。音声伸長部50は入力された音声区間のみを時間長L以上となるまで繰り返して伸長させる(ステップS3)。図7は入力された音声信号から音声区間が検出され、さらに音声区間が繰り返されて伸長音声信号が生成される様子を示したものである。
【0045】
音声区間検出部60における音声区間検出には既存の音声区間検出方法を用いることができ、例えば特許第4691079号公報に記載されている音声信号区間推定方法を用いることができる。
【0046】
この例では音声区間に対してのみ正規化処理を行うことで、正規化処理を安定させることができ、より正確に男女声の識別を行うことが可能となる。
【実施例3】
【0047】
実施例3の処理フローを図8に示す。図8では図6に示した実施例2の処理フローに対し、ステップS12とS13の処理が追加されている。
【0048】
入力された音声信号に含まれる音声区間が極端に短い場合には、音声伸長処理を実施しても、十分な精度で男女声の識別を行うことができない恐れが高い。また、そのような音声は誤発声あるいは音声信号ではない入力である可能性もあり、棄却するのが望ましいこともある。
【0049】
実施例3ではこの棄却を行うものとなっており、音声区間の検出(ステップS11)を行った後、音声区間の長さが閾値T未満か否かを判定し(ステップS12)、閾値T未満の場合、その音声区間を棄却し(ステップS13)、男女声の識別を行わないものとする。閾値Tは0より大きい値であり、適切な値を実験的に求める等の方法で決定すればよい。ここでは、一例として、T=0.2秒とする。
【実施例4】
【0050】
実施例4の男女声識別装置の機能構成を図9に示す。
【0051】
この例では図1に示した実施例1の男女声識別装置に対し、伸長時間長入力部70を追加した構成となっている。
【0052】
男女声識別処理の対象となる音声信号が長いと、男女声識別処理に要する時間は長くなる。処理速度に対する要求が厳しく、精度を多少犠牲にしても一定時間内で識別結果を出力する必要がある場合、音声伸長の時間長Lを外部から設定した値L’(L’<L)にすることができれば、都合がよい。
【0053】
この例ではこのような伸長時間長の外部設定を可能とすべく、伸長時間長入力部70を具備しており、処理速度要件に応じて識別に要する時間(識別の応答時間)を制御することができる。
【実施例5】
【0054】
実施例5の男女声識別装置の機能構成を図10に示す。
【0055】
この例では図9に示した実施例4の男女声識別装置における伸長時間長入力部70に替えて伸長時間長算出部80を有するものとなっている。
【0056】
例えば、入力された音声信号を音声認識し、入力音声信号の話者と同じ性別の合成音声で返答を行うシステム等に男女声識別技術を適用する場合、音声認識とほぼ同じ時間内に入力音声信号の性別を識別することが求められる。このように外部から要求され、処理にかけることができる時間を要求応答時間Rとする。
【0057】
伸長時間長算出部80は上記要求応答時間Rと、外部から入力される計算機負荷情報(例えば、OSから取得することができるロードアベレージ情報)とから、音声伸長の時間長を都度、算出し、音声伸長部50に出力するものとなっている。
【0058】
ここで、計算機負荷をWとし、算出する時間長をL''とすれば、時間長L''は例えば、
L''=A×(R/W)
によって計算することができる。Aは所定のWとL''のときに所望の応答時間となるよう、予め実験的に求めることができる定数である。
【0059】
今、あるシステム構成において、計算機負荷W=1.0の場合に、時間長L''=2.0秒の長さであれば、応答時間0.5秒で応答を返せるという実験例がある場合に、定数Aは、
A=L''×(W/R)
=2.0×(1.0/0.5)
=4.0
となる。定数Aはこのようにして求めることができる。
【0060】
定数Aを適切な値の一例として、例えば4.0と設定した場合、計算機負荷W=1.5,要求応答時間R=0.5という入力に対し、時間長L''を、
L''=4.0×(0.5/1.5)
≒1.33(秒)
と求めることができる。
【0061】
このように求めた時間長L''を用いて、実施例1と同様に、音声伸長を行う。すなわち、音声伸長部50はバッファ51を備えており、このバッファ51に、入力された音声信号の先頭フレームから順次、1フレームずつコピーが行われる。入力音声信号の最終フレームまで達したら、再び入力音声信号の先頭フレームからコピーが行われる。以上の処理をバッファ51に含まれるフレーム長が時間長L''以上となるまで繰り返す。ここでのコピーの繰り返し処理は、バッファ51に含まれるフレーム長が時間長L''と等しくなった時点(もしくは越えた時点)で打ち切る。
【0062】
このように、この例では計算機負荷の変動を考慮した上で要求応答時間に対応した男女声の識別処理を行えるものとなっている。
【0063】
以上、各種実施例について説明したが、この発明は入力された音声信号が非常に短い場合に、その音声信号を繰り返し、伸長させることを特徴としている。これに対し、入力データの一部を入力データと組み合わせることで、データを伸長する手法は従来においても用いられている。例えば、伝送されたデータの一部に欠落がある場合、欠落していない部分のデータを用いて欠落した部分のデータを補間する技術がある。また、データとテンプレートのマッチングを行う際に、データの端部の外側にデータの端部のデータをコピーして、データの端部をマッチングの対象とする技術がある。しかしながら、いずれの技術もデータの長さを任意の長さに伸長する目的で、データ全体を繰り返しコピーして用いるものではない。
【0064】
音響モデルを用いて認識を行う技術も従来からある。例えば、音声認識技術等である。しかし、音声認識技術は認識される発話内容を重視する処理である。入力音声を繰り返して入力音声の時間長を伸長すると、発話自体が異なるものとなってしまう。
【0065】
よって、音響モデルを用いて認識を行う技術に対し、入力音声を繰り返して入力音声の時間長を伸長する技術を組み合わせて用いるという発想は従来なかった。
【0066】
これに対し、この発明の男女声識別では、発話内容を認識する必要がない。音響モデルを用いて識別するのは入力された音声信号の話者の性別であり、性別の識別には入力された音声信号から抽出される音声特徴量のみを必要とする。そのため、入力された音声信号を繰り返して伸長したデータで男女声識別を行うことで、男女声の識別の精度を向上させることが可能となる。
【0067】
以上説明した男女声識別装置、男女声識別方法は、コンピュータと、コンピュータにインストールされたプログラムによって実現することができる。コンピュータにインストールされたプログラムはコンピュータのCPUによって解読されてコンピュータに上述した男女声識別方法を実行させる。
【符号の説明】
【0068】
10 男女声識別処理部 11 音声特徴量抽出部
12 認識文法設定部 13 識別部
20 男声音響モデル 30 女声音響モデル
40 音声長判定部 50 音声伸長部
60 音声区間検出部 70 伸長時間長入力部
80 伸長時間長算出部

【特許請求の範囲】
【請求項1】
入力された音声信号から音声特徴量を抽出し、その音声特徴量を男声音響モデル及び女声音響モデルと照合した尤度に基づいて音声信号の話者の性別を識別する男女声識別方法であって、
前記音声信号の時間長が所定の時間長L未満の場合、前記音声信号を前記時間長L以上となるまで繰り返して伸長させ、
その伸長させた音声信号を用いて前記音声特徴量の抽出を行い、前記繰り返しに対応した認識文法を用いて前記照合及び識別を行うことを特徴とする男女声識別方法。
【請求項2】
請求項1記載の男女声識別方法において、
前記繰り返しを行う際、前記音声信号の音声区間を検出し、その音声区間のみ繰り返して前記音声信号を伸長させることを特徴とする男女声識別方法。
【請求項3】
請求項2記載の男女声識別方法において、
前記検出した音声区間の長さが閾値T未満の場合、その音声区間を棄却し、前記識別を行わないことを特徴とする男女声識別方法。
【請求項4】
請求項1乃至3記載のいずれかの男女声識別方法において、
前記時間長Lは外部から設定可能とされていることを特徴とする男女声識別方法。
【請求項5】
請求項1乃至3記載のいずれかの男女声識別方法において、
前記時間長Lは男女声識別を実行する計算機負荷と要求応答時間から算出されることを特徴とする男女声識別方法。
【請求項6】
入力された音声信号の時間長が所定の時間長L未満か否かを判定し、時間長L未満と判定した場合、前記音声信号を音声伸長部に出力し、時間長L以上と判定した場合、前記音声信号を男女声識別処理部に出力する音声長判定部と、
前記音声長判定部から入力された音声信号を前記時間長L以上となるまで繰り返して伸長させ、その伸長させた音声信号を前記男女声識別処理部に出力する前記音声伸長部と、
前記音声長判定部から入力される音声信号及び前記音声伸長部から入力される音声信号の音声特徴量を抽出し、その音声特徴量を抽出した音声信号に対応する認識文法を用いて前記音声特徴量を男声音響モデル及び女声音響モデルと照合し、照合した尤度に基づいて前記音声特徴量を抽出した音声信号の話者の性別を識別して出力する前記男女声識別処理部とを備えることを特徴とする男女声識別装置。
【請求項7】
請求項1乃至5記載のいずれかの男女声識別方法をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2013−83796(P2013−83796A)
【公開日】平成25年5月9日(2013.5.9)
【国際特許分類】
【出願番号】特願2011−223680(P2011−223680)
【出願日】平成23年10月11日(2011.10.11)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】