男女声識別方法、男女声識別装置及びプログラム

【課題】入力された音声信号の時間長が非常に短い場合であっても、音声信号の話者の性別を正確に識別することができるようにする。
【解決手段】入力された音声信号から音声特徴量を抽出し、その音声特徴量を男声音響モデル及び女声音響モデルと照合した尤度に基づいて音声信号の話者の性別を識別する男女声識別方法において、音声信号の時間長が所定の時間長Ｌ未満の場合、音声信号を時間長Ｌ以上となるまで繰り返して伸長させ、その伸長させた音声信号を用いて音声特徴量の抽出を行い、前記繰り返しに対応した認識文法を用いて前記照合及び識別を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は入力された音声信号の話者の性別を識別する男女声識別方法、男女声識別装置及びプログラムに関する。
【背景技術】
【０００２】
入力された音声信号から話者の性別を識別する男女声識別技術は、単に性別を識別するためだけではなく、例えば音声認識の高精度化のためにも重要な技術である。
【０００３】
これまでは、入力された音声信号が男声・女声のいずれかを識別する場合、音声信号から音声特徴量を抽出し、その抽出した音声特徴量をＧＭＭ（Gaussian Mixture Model）等の統計的なモデル化に基づいて作成された男声用の音響モデル及び女声用の音響モデルと照合して尤度を求め、その尤度に基づいて男声・女声の識別が行われてきた。
【０００４】
特許文献１にはこのように入力された音声信号から抽出した音声特徴量を男声用の音響モデル及び女声用の音響モデルと照合し、尤度を求めることが記載されており、この尤度に基づいて男声・女声を識別することができる。
【０００５】
図１１は上記のような方法によって、入力された音声信号の話者の性別を識別する男女声識別装置の構成例を示したものである。男女声識別装置は男女声識別処理部１０と男声音響モデル２０と女声音響モデル３０とを備えて構成されている。男声音響モデル２０は音声区間モデル２１と非音声区間モデル２２とを具備し、同様に女声音響モデル３０も音声区間モデル３１と非音声区間モデル３２とを具備するものとなっている。
【０００６】
男女声識別処理部１０はこの例では音声特徴量抽出部１１と認識文法設定部１２と識別部１３とを備えている。音声特徴量抽出部１１は入力された音声信号（Ａ／Ｄ変換され、ディジタル化されたディジタル音声信号）の音声特徴量を抽出する。認識文法設定部１２は音声特徴量を男声音響モデル２０及び女声音響モデル３０と照合し、尤度を求める際に用いる認識文法の設定を行う。識別部１３は認識文法を用い、音声特徴量を男声音響モデル２０及び女声音響モデル３０と照合して尤度を求め、求めた尤度に基づいて音声信号の話者の性別を識別する。男女声識別処理部１０はこのようにして識別した結果を出力する。
【０００７】
男声・女声を識別する際には発話単位で識別する必要があるため、認識文法設定部１２で設定される認識文法は一般に下記に示すような認識文法（１）とされる。なお、下記認識文法（１）はＢＮＦ記法を拡張した表現で記述している。
【０００８】
・認識文法（１）
$[p]=pause;
$[g]=garbage;
$START=$p $g $p;
ここで、$[xxx]=はシンボルの宣言を意味し、右辺のpauseは無音等の非音声を表すシンボル、garbageは音声を表すシンボルである。$STARTは文全体を表す開始記号である。なお、記号=は定義、記号[ ]は単語表記の指定、記号;は定義の終端を表す。
【０００９】
上記認識文法（１）は、非音声→音声→非音声の順に出現することを想定した文法となっている。
【先行技術文献】
【特許文献】
【００１０】
【特許文献１】特開２０１１−１３５４３号公報
【発明の概要】
【発明が解決しようとする課題】
【００１１】
ところで、例えば１秒以下の非常に短い音声信号に対して男女声の識別を行った場合、以下の問題が発生する。
【００１２】
即ち、入力された音声信号から音声特徴量を抽出する際に、一般的には話者による音声特徴量の偏りを除去するため、例えばＣＭＮ（Cepstrum Mean Normalization）やＣＶＮ（Cepstrum Variance Normalization）等の音声特徴量の正規化処理を行う。しかしながら、こうした正規化処理は音声特徴量の統計的な分析に基づいた処理に基づくため、ある程度の長さの音声信号が入力されないと、統計的に正しい結果が得られず、結果的に正しい正規化処理ができない場合がある。
【００１３】
従って、例えば“はい”、“いいえ”等のごく短時間の音声が入力された場合には、その音声信号から抽出・正規化された音声特徴量に残った話者に依存した偏りが、男声／女声それぞれの音響モデルとの尤度に影響を与え、識別精度が低下するといった問題が発生する恐れがある。
【００１４】
この発明の目的はこのような問題に鑑み、入力された音声信号の時間長が非常に短い場合であっても、音声信号の話者の性別を正確に識別することができるようにした男女声識別方法及び男女声識別装置を提供することにある。
【課題を解決するための手段】
【００１５】
請求項１の発明によれば、入力された音声信号から音声特徴量を抽出し、その音声特徴量を男声音響モデル及び女声音響モデルと照合した尤度に基づいて音声信号の話者の性別を識別する男女声識別方法において、音声信号の時間長が所定の時間長Ｌ未満の場合、音声信号を時間長Ｌ以上となるまで繰り返して伸長させ、その伸長させた音声信号を用いて音声特徴量の抽出を行い、前記繰り返しに対応した認識文法を用いて前記照合及び識別を行う。
【００１６】
請求項２の発明では請求項１の発明において、前記繰り返しを行う際、音声信号の音声区間を検出し、その音声区間のみ繰り返して音声信号を伸長させる。
【００１７】
請求項３の発明では請求項２の発明において、検出した音声区間の長さが閾値Ｔ未満の場合、その音声区間を棄却し、前記識別を行わないこととする。
【００１８】
請求項４の発明では請求項１乃至３のいずれかの発明において、時間長Ｌは外部から設定可能とされる。
【００１９】
請求項５の発明では請求項１乃至３のいずれかの発明において、時間長Ｌは男女声識別を実行する計算機負荷と要求応答時間から算出される。
【００２０】
請求項６の発明によれば、男女声識別装置は、入力された音声信号の時間長が所定の時間長Ｌ未満か否かを判定し、時間長Ｌ未満と判定した場合、音声信号を音声伸長部に出力し、時間長Ｌ以上と判定した場合、音声信号を男女声識別処理部に出力する音声長判定部と、音声長判定部から入力された音声信号を時間長Ｌ以上となるまで繰り返して伸長させ、その伸長させた音声信号を男女声識別処理部に出力する音声伸長部と、音声長判定部から入力される音声信号及び音声伸長部から入力される音声信号の音声特徴量を抽出し、その音声特徴量を抽出した音声信号に対応する認識文法を用いて音声特徴量を男声音響モデル及び女声音響モデルと照合し、照合した尤度に基づいて音声特徴量を抽出した音声信号の話者の性別を識別して出力する男女声識別処理部とを備える。
【発明の効果】
【００２１】
この発明によれば、入力された音声信号の時間長が短く、所定の時間長Ｌ未満の場合には音声信号を繰り返し、また繰り返しに対応した認識文法を用いるものとなっており、よって音声特徴量の正規化処理を安定させ、正しく行うことができ、これにより音声信号の話者の性別を正確に識別することが可能となる。
【図面の簡単な説明】
【００２２】
【図１】この発明による男女声識別方法の第１の実施例を実行する男女声識別装置の機能構成を示すブロック図。
【図２】この発明による男女声識別方法の第１の実施例の処理フローを示すフローチャート。
【図３】音声伸長例を示す図。
【図４】音声特徴量の正規化処理に対する音声伸長の効果を説明するための図。
【図５】この発明による男女声識別方法の第２の実施例を実行する男女声識別装置の機能構成を示すブロック図。
【図６】この発明による男女声識別方法の第２の実施例の処理フローを示すフローチャート。
【図７】音声伸長例を示す図。
【図８】この発明による男女声識別方法の第３の実施例の処理フローを示すフローチャート。
【図９】この発明による男女声識別方法の第４の実施例を実行する男女声識別装置の機能構成を示すブロック図。
【図１０】この発明による男女声識別方法の第５の実施例を実行する男女声識別装置の機能構成を示すブロック図。
【図１１】従来の男女声識別方法を実行する男女声識別装置の機能構成を示すブロック図。
【発明を実施するための形態】
【００２３】
以下、この発明の実施形態を図面を参照して実施例により説明する。
【実施例１】
【００２４】
実施例１の男女声識別装置の機能構成を図１に示し、その処理フローを図２に示す。
【００２５】
この例では男女声識別装置は図１１に示した従来の男女声識別装置に対し、音声長判定部４０と音声伸長部５０とが付加された構成となっている。
【００２６】
話者の性別を識別したい音声信号は音声長判定部４０に入力される（ステップＳ１）。音声長判定部４０は入力された音声信号の時間長が所定の時間長Ｌ未満か否かを判定し（ステップＳ２）、時間長Ｌ未満と判定した場合、音声信号を音声伸長部５０に出力し、時間長Ｌ以上と判定した場合、音声信号を男女声識別処理部１０に出力する。
【００２７】
音声伸長部５０は音声長判定部４０から入力された音声信号を時間長Ｌ以上となるまで繰り返して伸長させ（ステップＳ３）、その伸長させた音声信号を男女声識別処理部１０に出力する。
【００２８】
時間長Ｌは、０より大きい任意の値にすることができる。時間長Ｌの値は、男女声識別を適用するタスクの音声セット等から、識別精度向上に有効な適切な値を実験的に求める等の方法で決定すればよい。ここでは、一例として、Ｌ＝２秒とする。
【００２９】
音声伸長部５０における音声伸長は具体的には以下のように行われる。即ち、この例では音声伸長部５０はバッファ５１を備えており、このバッファ５１に、入力された音声信号の先頭フレームから順次、１フレームずつコピーが行われる。入力音声信号の最終フレームまで達したら、再び入力音声信号の先頭フレームからコピーが行われる。以上の処理をバッファ５１に含まれるフレーム長が時間長Ｌ以上となるまで繰り返す。ここでのコピーの繰り返し処理は、バッファ５１に含まれるフレーム長が時間長Ｌと等しくなった時点（もしくは越えた時点）で打ち切ってもよい（図３はこのように繰り返されて伸長された伸長音声信号の一例を入力音声信号と共に示したものである）し、あるいは、バッファ５１に含まれるフレーム長が時間長Ｌを超えた後に入力音声信号の最終フレームまで達した時点でコピーを終了してもよい。
【００３０】
なお、一般的な音声認識では、このような音声伸長処理を行うと、認識結果（音声を文字化した結果）が入力音声とは異なってしまうので望ましくはないが、男女声識別においては発話内容（何が話されているか）は識別する必要がないため、このような音声伸長処理を適用することができる。
【００３１】
男女声識別処理部１０には音声長判定部４０及び音声伸長部５０から音声信号が入力される。音声特徴量抽出部１１はこれら音声信号の音声特徴量を抽出する（ステップＳ４）。音声伸長部５０から入力される音声信号は音声伸長により、音声と非音声が交互に含まれ、また複数回繰り返して含まれうるため、この繰り返しに対応した認識文法を用いる必要がある。認識文法設定部１２は音声信号が音声長判定部４０から入力された場合及び音声伸長部５０から入力された場合のそれぞれに対応して認識文法を設定する。音声信号が音声長判定部４０から入力された場合の認識文法は前記した認識文法（１）とされ、音声伸長部５０から入力された場合の認識文法は下記に示す認識文法（２）とされる。なお、認識文法（２）は認識文法（１）と同様、ＢＮＦ記法を拡張した表現で記述している。
【００３２】
・認識文法（２）
$[p]=pause;
$[g]=garbage;
$START=<$p|$g>;
但し、記号< >は１回以上の繰り返し、記号|は並列接続を表す。
【００３３】
上記認識文法（２）は、非音声と音声が交互に出現することを想定した文法となっている。
【００３４】
識別部１３は認識文法設定部１２で設定された認識文法を用い、音声特徴量を男声音響モデル２０及び女声音響モデル３０と照合して尤度を求め（ステップＳ５）、求めた尤度に基づいて音声信号の話者の性別を識別する（ステップＳ６）。男女声識別処理部１０はこのようにして識別した結果を出力する。
【００３５】
この例では、上述したように入力された音声信号の時間長が短く、所定の時間長Ｌ未満の場合には音声信号を繰り返して時間長を伸長するものとなっており、これにより音声信号の話者の性別の識別に用いる音声特徴量平均を得ることができる区間を増やすことができるものとなっている。
【００３６】
図４（Ｂ）はこの様子を示したものであり、比較として音声伸長を行わない従来例を図４（Ａ）に示す。
【００３７】
窓長Ｎ秒間（過去Ｎ秒間）の音声特徴量の平均を用い、逐次ＣＭＮ等の正規化処理を行う場合、図４（Ａ）に示した従来例では平均の計算に使用できるデータ量が少なく、ＣＭＮの効果が充分に得られないことになる。なお、図４（Ａ），（Ｂ）中、両矢の矢印で示した区間は窓長Ｎ秒間を示し、このうち、全て実線で示した矢印は窓長Ｎ秒間の音声特徴量の平均が使える区間を示す。
【００３８】
図４（Ａ）では冒頭のＳ_１，Ｓ_２の区間は窓長Ｎ秒間の音声特徴量の平均が使えず、窓長Ｎ秒間の音声特徴量の平均が使える区間はＳ_３〜Ｓ_５の３区間となっている。これに対し、音声伸長を行った図４（Ｂ）では窓長Ｎ秒間の音声特徴量の平均を使える区間はＳ_３〜Ｓ_９の７区間と増加し、これによりＣＭＮ等による正規化の効果を充分に得ることができ、よって男女声の識別精度の向上を図ることができる。
【００３９】
なお、Ｎは例えば０．８秒程度とする。Ｎは長すぎると、広い区間の平均を求めることになるので、正規化の効果が低下してしまい、識別精度の低下を招く。よって、例えば単純に音声信号の全区間の音声特徴量を用いて正規化処理をするのは望ましくなく、上述したようにＮは０．８秒程度に設定する。
【実施例２】
【００４０】
実施例２の男女声識別装置の機能構成を図５に示し、その処理フローを図６に示す。
【００４１】
この例では図１に示した実施例１の男女声識別装置に対し、音声区間検出部６０を追加した構成となっており、図２に示した実施例１の処理フローに対し、音声区間検出処理（ステップＳ１１）を音声伸長処理（ステップＳ３）の前に行うものとなっている。
【００４２】
一般的な環境で入力された音声信号には、雑音や無音等の音声ではない区間（非音声区間）が含まれている。ごく短時間の音声信号であっても同じであり、音声信号の一部には非音声区間が含まれている。しかしながら、比較的時間が短い音声信号が入力された場合、こうした非音声区間の長さと音声区間の長さが同程度か音声区間の長さの方が短い場合がある。
【００４３】
一方、音声特徴量の正規化においては特段、音声区間、非音声区間の識別は行われない。そのため、非音声区間に含まれる雑音等が音声特徴量の統計的な分析結果に影響を与え、結果的に正しい正規化処理ができない場合がある。従って、雑音等が含まれるごく短時間の音声信号においては、雑音等による正規化処理の誤りが男女声それぞれの音響モデルとの尤度に影響を与え、識別精度が低下するといったことが起こりうる。
【００４４】
実施例２はこの問題を解決するもので、音声長判定部４０で所定の時間長Ｌ未満と判定された音声信号は音声区間検出部６０に入力され、音声区間検出部６０は入力された音声信号の音声区間を検出し（ステップＳ１１）、その音声区間のみを音声伸長部５０に出力する。音声伸長部５０は入力された音声区間のみを時間長Ｌ以上となるまで繰り返して伸長させる（ステップＳ３）。図７は入力された音声信号から音声区間が検出され、さらに音声区間が繰り返されて伸長音声信号が生成される様子を示したものである。
【００４５】
音声区間検出部６０における音声区間検出には既存の音声区間検出方法を用いることができ、例えば特許第４６９１０７９号公報に記載されている音声信号区間推定方法を用いることができる。
【００４６】
この例では音声区間に対してのみ正規化処理を行うことで、正規化処理を安定させることができ、より正確に男女声の識別を行うことが可能となる。
【実施例３】
【００４７】
実施例３の処理フローを図８に示す。図８では図６に示した実施例２の処理フローに対し、ステップＳ１２とＳ１３の処理が追加されている。
【００４８】
入力された音声信号に含まれる音声区間が極端に短い場合には、音声伸長処理を実施しても、十分な精度で男女声の識別を行うことができない恐れが高い。また、そのような音声は誤発声あるいは音声信号ではない入力である可能性もあり、棄却するのが望ましいこともある。
【００４９】
実施例３ではこの棄却を行うものとなっており、音声区間の検出（ステップＳ１１）を行った後、音声区間の長さが閾値Ｔ未満か否かを判定し（ステップＳ１２）、閾値Ｔ未満の場合、その音声区間を棄却し（ステップＳ１３）、男女声の識別を行わないものとする。閾値Ｔは０より大きい値であり、適切な値を実験的に求める等の方法で決定すればよい。ここでは、一例として、Ｔ＝０．２秒とする。
【実施例４】
【００５０】
実施例４の男女声識別装置の機能構成を図９に示す。
【００５１】
この例では図１に示した実施例１の男女声識別装置に対し、伸長時間長入力部７０を追加した構成となっている。
【００５２】
男女声識別処理の対象となる音声信号が長いと、男女声識別処理に要する時間は長くなる。処理速度に対する要求が厳しく、精度を多少犠牲にしても一定時間内で識別結果を出力する必要がある場合、音声伸長の時間長Ｌを外部から設定した値Ｌ’（Ｌ’＜Ｌ）にすることができれば、都合がよい。
【００５３】
この例ではこのような伸長時間長の外部設定を可能とすべく、伸長時間長入力部７０を具備しており、処理速度要件に応じて識別に要する時間（識別の応答時間）を制御することができる。
【実施例５】
【００５４】
実施例５の男女声識別装置の機能構成を図１０に示す。
【００５５】
この例では図９に示した実施例４の男女声識別装置における伸長時間長入力部７０に替えて伸長時間長算出部８０を有するものとなっている。
【００５６】
例えば、入力された音声信号を音声認識し、入力音声信号の話者と同じ性別の合成音声で返答を行うシステム等に男女声識別技術を適用する場合、音声認識とほぼ同じ時間内に入力音声信号の性別を識別することが求められる。このように外部から要求され、処理にかけることができる時間を要求応答時間Ｒとする。
【００５７】
伸長時間長算出部８０は上記要求応答時間Ｒと、外部から入力される計算機負荷情報（例えば、ＯＳから取得することができるロードアベレージ情報）とから、音声伸長の時間長を都度、算出し、音声伸長部５０に出力するものとなっている。
【００５８】
ここで、計算機負荷をＷとし、算出する時間長をＬ''とすれば、時間長Ｌ''は例えば、
Ｌ''＝Ａ×（Ｒ／Ｗ）
によって計算することができる。Ａは所定のＷとＬ''のときに所望の応答時間となるよう、予め実験的に求めることができる定数である。
【００５９】
今、あるシステム構成において、計算機負荷Ｗ＝１．０の場合に、時間長Ｌ''＝２．０秒の長さであれば、応答時間０．５秒で応答を返せるという実験例がある場合に、定数Ａは、
Ａ＝Ｌ''×（Ｗ／Ｒ）
＝２．０×（１．０／０．５）
＝４．０
となる。定数Ａはこのようにして求めることができる。
【００６０】
定数Ａを適切な値の一例として、例えば４．０と設定した場合、計算機負荷Ｗ＝１．５，要求応答時間Ｒ＝０．５という入力に対し、時間長Ｌ''を、
Ｌ''＝４．０×（０．５／１．５）
≒１．３３（秒）
と求めることができる。
【００６１】
このように求めた時間長Ｌ''を用いて、実施例１と同様に、音声伸長を行う。すなわち、音声伸長部５０はバッファ５１を備えており、このバッファ５１に、入力された音声信号の先頭フレームから順次、１フレームずつコピーが行われる。入力音声信号の最終フレームまで達したら、再び入力音声信号の先頭フレームからコピーが行われる。以上の処理をバッファ５１に含まれるフレーム長が時間長Ｌ''以上となるまで繰り返す。ここでのコピーの繰り返し処理は、バッファ５１に含まれるフレーム長が時間長Ｌ''と等しくなった時点（もしくは越えた時点）で打ち切る。
【００６２】
このように、この例では計算機負荷の変動を考慮した上で要求応答時間に対応した男女声の識別処理を行えるものとなっている。
【００６３】
以上、各種実施例について説明したが、この発明は入力された音声信号が非常に短い場合に、その音声信号を繰り返し、伸長させることを特徴としている。これに対し、入力データの一部を入力データと組み合わせることで、データを伸長する手法は従来においても用いられている。例えば、伝送されたデータの一部に欠落がある場合、欠落していない部分のデータを用いて欠落した部分のデータを補間する技術がある。また、データとテンプレートのマッチングを行う際に、データの端部の外側にデータの端部のデータをコピーして、データの端部をマッチングの対象とする技術がある。しかしながら、いずれの技術もデータの長さを任意の長さに伸長する目的で、データ全体を繰り返しコピーして用いるものではない。
【００６４】
音響モデルを用いて認識を行う技術も従来からある。例えば、音声認識技術等である。しかし、音声認識技術は認識される発話内容を重視する処理である。入力音声を繰り返して入力音声の時間長を伸長すると、発話自体が異なるものとなってしまう。
【００６５】
よって、音響モデルを用いて認識を行う技術に対し、入力音声を繰り返して入力音声の時間長を伸長する技術を組み合わせて用いるという発想は従来なかった。
【００６６】
これに対し、この発明の男女声識別では、発話内容を認識する必要がない。音響モデルを用いて識別するのは入力された音声信号の話者の性別であり、性別の識別には入力された音声信号から抽出される音声特徴量のみを必要とする。そのため、入力された音声信号を繰り返して伸長したデータで男女声識別を行うことで、男女声の識別の精度を向上させることが可能となる。
【００６７】
以上説明した男女声識別装置、男女声識別方法は、コンピュータと、コンピュータにインストールされたプログラムによって実現することができる。コンピュータにインストールされたプログラムはコンピュータのＣＰＵによって解読されてコンピュータに上述した男女声識別方法を実行させる。
【符号の説明】
【００６８】
１０男女声識別処理部１１音声特徴量抽出部
１２認識文法設定部１３識別部
２０男声音響モデル３０女声音響モデル
４０音声長判定部５０音声伸長部
６０音声区間検出部７０伸長時間長入力部
８０伸長時間長算出部

【特許請求の範囲】
【請求項１】
入力された音声信号から音声特徴量を抽出し、その音声特徴量を男声音響モデル及び女声音響モデルと照合した尤度に基づいて音声信号の話者の性別を識別する男女声識別方法であって、
前記音声信号の時間長が所定の時間長Ｌ未満の場合、前記音声信号を前記時間長Ｌ以上となるまで繰り返して伸長させ、
その伸長させた音声信号を用いて前記音声特徴量の抽出を行い、前記繰り返しに対応した認識文法を用いて前記照合及び識別を行うことを特徴とする男女声識別方法。
【請求項２】
請求項１記載の男女声識別方法において、
前記繰り返しを行う際、前記音声信号の音声区間を検出し、その音声区間のみ繰り返して前記音声信号を伸長させることを特徴とする男女声識別方法。
【請求項３】
請求項２記載の男女声識別方法において、
前記検出した音声区間の長さが閾値Ｔ未満の場合、その音声区間を棄却し、前記識別を行わないことを特徴とする男女声識別方法。
【請求項４】
請求項１乃至３記載のいずれかの男女声識別方法において、
前記時間長Ｌは外部から設定可能とされていることを特徴とする男女声識別方法。
【請求項５】
請求項１乃至３記載のいずれかの男女声識別方法において、
前記時間長Ｌは男女声識別を実行する計算機負荷と要求応答時間から算出されることを特徴とする男女声識別方法。
【請求項６】
入力された音声信号の時間長が所定の時間長Ｌ未満か否かを判定し、時間長Ｌ未満と判定した場合、前記音声信号を音声伸長部に出力し、時間長Ｌ以上と判定した場合、前記音声信号を男女声識別処理部に出力する音声長判定部と、
前記音声長判定部から入力された音声信号を前記時間長Ｌ以上となるまで繰り返して伸長させ、その伸長させた音声信号を前記男女声識別処理部に出力する前記音声伸長部と、
前記音声長判定部から入力される音声信号及び前記音声伸長部から入力される音声信号の音声特徴量を抽出し、その音声特徴量を抽出した音声信号に対応する認識文法を用いて前記音声特徴量を男声音響モデル及び女声音響モデルと照合し、照合した尤度に基づいて前記音声特徴量を抽出した音声信号の話者の性別を識別して出力する前記男女声識別処理部とを備えることを特徴とする男女声識別装置。
【請求項７】
請求項１乃至５記載のいずれかの男女声識別方法をコンピュータに実行させるためのプログラム。

【図１】