説明

音響モデル生成装置、音響モデル生成方法、プログラム

【課題】識別対象となるデータに含まれる非音声区間に影響を受けずに男女識別を行うことができる音響モデル生成装置を提供する。
【解決手段】男性音声データと、女性音声データと、非音声データとを音響モデルの生成に用いる音響モデル生成装置100であって、音響モデルの生成に用いられるデータから特徴量を抽出する特徴量抽出部930と、男性音声データから抽出された特徴量から男性音声区間モデルを、女性音声データから抽出された特徴量から女性音声区間モデルを、非音声データから抽出された特徴量から非音声区間モデルを学習するモデル学習部940と、男性音声区間モデルと非音声区間モデルを統合して男声音響モデルを生成し、女性音声区間モデルと非音声区間モデルを統合して女声音響モデルを生成するモデル統合部150とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は男女声の識別のための統計的な音響モデルを生成する音響モデル生成装置、音響モデル生成方法、プログラムに関する。
【背景技術】
【0002】
入力された音声から話者の性別を識別する男女声識別技術は、単に性別を識別するためだけではなく、音声認識の高精度化のためにも重要な技術である(特許文献1参照)。図1、図2を参照して従来の男女声の識別が可能な音響モデル生成装置の例について説明する。図1は従来の音響モデル生成装置900の構成例を示すブロック図である。図2は従来の音響モデル生成装置900の動作例を示すフローチャートである。男女声の識別が可能な音響モデル生成装置の従来例である音響モデル生成装置900は、データ記憶部910と、特徴量抽出部930と、モデル学習部940とを備える。データ記憶部910は男性音声データ記憶手段914aと、女性音声データ記憶手段914bとを備える。男性音声データ記憶手段914aには、男性が発話した音声のデータが大量に記憶されている。男性が発話した音声のデータには、会話と会話の間の部分、雑音部分など非音声部分が含まれている。女性音声データ記憶手段914bには、女性が発話した音声のデータが大量に記憶されている。女性が発話した音声のデータには、前述同様会話と会話の間の部分、雑音部分など非音声部分が含まれている。特徴量抽出部930は、データ記憶部910に記憶された男性音声データ、女性音声データ各々の音響特徴量を抽出する(S930)。モデル学習部940は、特徴量抽出部930が抽出した音響特徴量からGMM(Gaussian Mixture Model)等の統計的なモデル化に基づいて、男声音響モデル、女声音響モデルを学習する(S940)。このようにして学習した男声音響モデル、女声音響モデルを用いて、ある音声データが男声、女声の何れであるか識別する際には、識別対象となる音声データを前記手順で作成された男声音響モデル、女声音響モデルにそれぞれあてはめて、識別対象となる音声データと男声音響モデル、識別対象となる音声データと女声音響モデルのどちらが適合性が高いか(統計的にはどちらがより高い尤度が得られるか)を調べ、男声音響モデルが適合性が高かった場合は当該音声データを男声と判断し、その逆に女声音響モデルが適合性が高かった場合は当該音声データを女声と判断していた。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2011−013543号公報
【特許文献2】特開2009−063700号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
男性音声データのみから男声音響モデル、女性音声データのみから女声音響モデルを作成した場合、以下の三種類の問題が発生する。
【0005】
<第一の問題>
男女識別の識別対象となる音声データには、入力時に音声のみしか入力されないような特段の工夫が存在しない場合、実際には音声がない無音区間や、音声以外の雑音が含まれる雑音区間(以下、これら音声でない区間を総称する場合に非音声区間という)が含まれる。したがって、音響モデルを学習する際には、音響モデル学習に用いられる音声データに含まれている非音声区間から非音声モデル、音声区間から音声モデルを学習しておく必要がある。識別の際には識別対象となる音声データ(非音声区間含む)に対して、男声音響モデル、女声音響モデルそれぞれの音声区間モデルと非音声区間モデルとの尤度の値に基づいて、男声か女声かを識別する方法が一般的である。しかし、前述のとおり男声音響モデルを学習する際に用いたデータと、女声音響モデルを学習する際に用いたデータとは異なるため、それぞれの非音声区間のデータも当然異なる。そのため男女識別を行う場合に、男声音響モデルの非音声区間モデルと識別対象となる音声データの非音声部分の尤度と、女声音響モデルの非音声区間モデルと当該非音声部分の尤度とはそれぞれ異なった値をとる。例えば識別対象となる音声データの音声区間について、男声音響モデルの音声区間モデルとの尤度が低い一方、女声音響モデルの音声区間モデルとの尤度が高い場合には、識別対象となる音声データは女声と識別すべきである。しかし、当該識別対象となる音声データに含まれている雑音の特徴が、偶然に男声音響モデルの非音声区間モデルと類似しており、当該雑音区間と男声音響モデルの非音声区間モデルとの尤度が高くなってしまった結果、識別対象全体の尤度の総合的な判断として男声と識別されてしまう可能性があり、問題である。
【0006】
<第二の問題>
第一の問題を避けるため、従来の音声区間検出技術(特許文献2)を用いて識別対象となる音声データから音声区間のみを識別・分離し、分離された音声区間のみに対して男女識別を行う方法も考えられる。しかし、従来の音声区間検出技術(特許文献2)によっても、音声区間の識別誤りを完全には避けられないため、結局分離された音声区間に対しても、非音声区間が含まれることを前提に男女識別を行わざるを得ず、前述と同じ問題が生じる。
【0007】
<第三の問題>
第一の問題を避けるため、例えば識別対象となる音声データのうち、音声区間として識別された区間の尤度のみに基づいて男女声を識別する方法も考えられる。しかし前述の問題から、男声音響モデルを用いた場合と、女声音響モデルを用いた場合では、音声区間と非音声区間の識別結果が異なる。そのため例えば男声音声が含まれる音声が識別対象として与えられた場合に、当該識別対象データの非音声区間と音声区間の境界付近の特定部分において、男声音響モデルの非音声区間モデルの尤度が音声区間モデルの尤度より高く非音声と判断される一方で、女声音響モデルの非音声区間モデルの尤度が音声区間モデルの尤度より低く、音声区間として判断されるような場合も生じる。そうすると女声音響モデルを用いた場合と、男声音響モデルを用いた場合で、尤度を求めるべき音声区間が異なることになる。一般的には男女声識別は一定長のフレーム単位で尤度を求め、その尤度の総和または平均値をスコアとし、男声音響モデルを用いた場合と女声音響モデルを用いた場合と、いずれがスコアが高いかで、男声か女声かを識別する。識別に用いる区間が異なるとスコアの基準が異なってしまうことになり、いずれか一方が優位に判定され、結果的に識別誤りが増えるといった問題が生じる。
【0008】
そこで、本発明では、識別対象となるデータに含まれる非音声区間に影響を受けずに男女識別を行うことができる音響モデル生成装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の音響モデル生成装置は、男性音声データと、女性音声データと、非音声データとを音響モデルの生成に用いる。本発明の音響モデル生成装置は、特徴量抽出部と、モデル学習部と、モデル統合部とを備える。特徴量抽出部は、音響モデルの生成に用いられるデータから特徴量を抽出する。モデル学習部は、男性音声データから抽出された特徴量から男性音声区間モデルを、女性音声データから抽出された特徴量から女性音声区間モデルを、非音声データから抽出された特徴量から非音声区間モデルを学習する。モデル統合部は、男性音声区間モデルと非音声区間モデルを統合して男声音響モデルを生成し、女性音声区間モデルと非音声区間モデルを統合して女声音響モデルを生成する。
【発明の効果】
【0010】
本発明の音響モデル生成装置によれば、識別対象となるデータに含まれる非音声区間に影響を受けずに男女識別を行うことができる。
【図面の簡単な説明】
【0011】
【図1】従来の音響モデル生成装置の構成を示すブロック図。
【図2】従来の音響モデル生成装置の動作を示すフローチャート。
【図3】実施例1の音響モデル生成装置の構成を示すブロック図。
【図4】実施例2乃至5の音響モデル生成装置の構成を示すブロック図。
【図5】実施例1乃至5の音響モデル生成装置の動作を示すフローチャート。
【図6】変形例1の音響モデル生成装置の構成を示すブロック図。
【図7】変形例2乃至5の音響モデル生成装置の構成を示すブロック図。
【図8】変形例1乃至5の音響モデル生成装置の動作を示すフローチャート。
【図9】実施例2のデータ生成部の構成を示すブロック図。
【図10】実施例2のデータ生成部の動作を示すフローチャート。
【図11】実施例3のデータ生成部の構成を示すブロック図。
【図12】実施例3のデータ生成部の動作を示すフローチャート。
【図13】実施例4のデータ生成部の構成を示すブロック図。
【図14】実施例4のデータ生成部の動作を示すフローチャート。
【図15】実施例5のデータ生成部の構成を示すブロック図。
【図16】実施例5のデータ生成部の動作を示すフローチャート。
【発明を実施するための形態】
【0012】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例1】
【0013】
以下、図3、図5を参照して本発明の最も基本的な構成である実施例1の音響モデル生成装置について説明する。図3は本実施例の音響モデル生成装置100の構成を示すブロック図である。図5は本実施例の音響モデル生成装置100の動作を示すフローチャートである。図3に示す通り、本実施例の音響モデル生成装置100は、データ記憶部110と、特徴量抽出部930と、モデル学習部940と、モデル統合部150とを備える。データ記憶部110は男性音声データ記憶手段114aと、女性音声データ記憶手段114bと、非音声データ記憶手段114cとを備える。男性音声データ記憶手段114aは男性が発話した音声のデータ(男性音声データ)を記憶している。女性音声データ記憶手段114bは女性が発話した音声のデータ(女性音声データ)を記憶している。非音声データ記憶手段114cは非音声区間のデータ(非音声データ)を記憶している。本実施例の音響モデル生成装置100は、これらの記憶された男性音声データ、女性音声データ、非音声データを音響モデルの生成に用いる。これらの音響モデル生成に用いるデータは、予め何らかの方法で生成しておき、各データ記憶手段114a、114b、114cに記憶しておけばよい。例えば、実施例2以下で説明するデータ生成部210、310、410、510により予め生成しておいた男性音声データ、女性音声データ、非音声データを各データ記憶手段114a、114b、114cに記憶しておくこととしてもよい。特徴量抽出部930は、音響モデルの生成に用いられるデータ(男性音声データ、女性音声データ、非音声データ)から特徴量を抽出する(S930)。モデル学習部940は、男性音声データから抽出された特徴量から男性音声区間モデルを、女性音声データから抽出された特徴量から女性音声区間モデルを、非音声データから抽出された特徴量から非音声区間モデルを学習する(S940)。モデル統合部150は、男性音声区間モデルと非音声区間モデルを統合して男声音響モデルを生成し、女性音声区間モデルと非音声区間モデルを統合して女声音響モデルを生成する(S150)。
【0014】
<モデル学習部940>
以下、モデル学習部940が行う男性(女性)音声区間モデル・非音声区間モデルの学習について、その具体的な方法を説明する。男女声の識別においては、GMM(Gaussian Mixture Model)を用いて、学習と識別を行う。GMMとは以下のような式で表せるモデルである。
【0015】
【数1】

【0016】
t番目のフレームの尤度f(t)はN個のガウス分布それぞれのt番目のフレームの特徴量ベクトルxの尤度の総和で表現される。また、このような混合ガウス分布の各パラメータλ、μ、σ(k番目の混合ガウス分布の混合係数をλ、平均値をμ、分散をσと表記する)を学習データから推定する方法はEMアルゴリズムとしてよく知られている。混合数Nは任意の値にすることができるが、本方式では、音声区間では混合数を50〜70の値の範囲のいずれかとする。非音声区間は、想定される雑音のパターンに比例して決まる。後述する変形例1〜5においては、想定される雑音のバリエーション数をX、比例定数をαとして、混合数をXα+1(+1は完全無音に対応)とし、αは5から10の間の適切な値とする。
【0017】
このように、本実施例の音響モデル生成装置100によれば、男声音響モデルと女声音響モデルの非音声区間モデルを共通化することで、非音声区間における尤度(非音声区間モデルの尤度)が男声音響モデル、女声音響モデルのどちらを用いても同じ値となるため、非音声区間の尤度が最終的な識別結果に影響することがなくなり、音声区間の尤度のみに基づいて識別を行うことが可能となるため識別精度が向上する。
【実施例2】
【0018】
以下、図4、図5を参照して音響モデルの生成に用いるデータを生成するデータ生成部を付加した実施例の一つである実施例2の音響モデル生成装置200について説明する。図4は本実施例の音響モデル生成装置200の構成を示すブロック図である。図5は本実施例の音響モデル生成装置200の動作を示すフローチャートである。図4に示す通り、本実施例の音響モデル生成装置200は、データ生成部210と、特徴量抽出部930と、モデル学習部940と、モデル統合部150とを備える。本実施例の音響モデル生成装置200と実施例1の音響モデル生成装置100との違いは、実施例1のデータ記憶部110が本実施例においてデータ生成部210に変更されている点のみである。従って本実施例の音響モデル生成装置200におけるデータ生成部210以外の構成部については実施例1の対応する構成部と同じ番号を付し、同じ番号を付した各構成部の動作については同じ動作をするため説明を略する。以下、データ生成部210の動作について、図9、図10を参照して説明する。図9は本実施例の音響モデル生成装置200が備えるデータ生成部210の構成を示すブロック図である。図10は本実施例の音響モデル生成装置200が備えるデータ生成部210の動作を示すフローチャートである。図9に示す通り、本実施例の音響モデル生成装置200が備えるデータ生成部210は、男性音声データ記憶手段211aと、女性音声データ記憶手段211bと、音声区間検出手段212と、男性音声データ記憶手段214aと、女性音声データ記憶手段214bと、非音声データ記憶手段214cとを備える。男性音声データ記憶手段211aは、非音声データを含む男性音声データを予め記憶している。女性音声データ記憶手段211bは、非音声データを含む女性音声データを予め記憶している。図9では、記憶手段として男性音声データ記憶手段211aと、女性音声データ記憶手段211bを設けているが、この二つの記憶手段(男性音声データ記憶手段211aと、女性音声データ記憶手段211b)を一つにまとめてデータ記憶手段として構成することもできる。
【0019】
次に音声区間検出手段212は、データ記憶手段(男性音声データ記憶手段211aと、女性音声データ記憶手段211b)に記憶されたデータが非音声であることの尤度(以下、非音声尤度という)を予め定めた区間ごとに計算する。音声区間検出手段212は、記憶された非音声データを含む男性音声データの非音声尤度が予め定めた値以下となる区間のデータを音響モデルの生成に用いられる男性音声データと判定する(SS212AY)。音声区間検出手段212は、記憶された非音声データを含む女性音声データの非音声尤度が予め定めた値以下となる区間のデータを音響モデルの生成に用いられる女性音声データと判定する(SS212AY)。音声区間検出手段212は、記憶されたデータの非音声尤度が予め定めた値を超える区間のデータを音響モデルの生成に用いられる非音声データと判定する(SS212AN)。音声区間検出手段212は、このように、判定された男性音声データを男性音声データ記憶手段214aに、女性音声データを女性音声データ記憶手段214bに、非音声データを非音声データ記憶手段214cにそれぞれ記憶する(SS212B、SS212C)。
【0020】
<音声区間検出手段212>
音声区間検出手段212の具体的な実現方法について以下に説明する。音声区間検出手段212については、例えば特許文献2記載の音声信号区間推定装置をそのまま適応することができる。この場合、音声区間検出手段212は、第1音響信号分析手段と、第2音響信号分析手段と、重み算出手段と、音声確率/非音声確率算出手段と、音声信号区間推定手段とを備える。
【0021】
第1音響信号分析手段は、音響信号(男性音声データ、女性音声データ)をフレーム単位に分割し、フレームの音響特徴量から、フレームの音声確率および非音声確率を求める。第2音響信号分析手段は、音響信号(男性音声データ、女性音声データ)をフレーム単位に分割し、フレームの基本周波数に含まれる周期性成分および非周期性成分から、フレームの音声確率および非音声確率を求める。重み算出手段は、第1音響信号分析手段によって得られたフレームの音声確率/非音声確率と、第2音響信号分析手段によって得られたフレームの音声確率/非音声確率とを用いて、それぞれに対して重み付けする重みを求める。音声確率/非音声確率算出手段は、第1音響信号分析手段によって得られたフレームの音声確率と、第2音響信号分析手段によって得られたフレームの音声確率とを、重み算出手段によって得られた重みによって重み付けして合成した音声合成確率と、第1音響信号分析手段によって得られたフレームの非音声確率と、第2音響信号分析手段によって得られたフレームの非音声確率とを、重み算出手段によって得られた重みによって重み付けして合成した非音声合成確率とを求め、音声合成確率と、非音声合成確率と、音声と非音声との間の状態遷移モデルとに基づき、フレームが音声に属する確率(音声尤度)とフレームが非音声に属する確率(非音声尤度)を求める。音声信号区間推定手段は、音声確率/非音声確率算出手段によって得られた音声尤度と非音声尤度から、フレームが音声信号区間であるか否かを判定する。
【0022】
上述のように、音声区間検出手段212は、データ記憶手段(男性音声データ記憶手段211aと、女性音声データ記憶手段211b)に記憶されたデータについて、非音声尤度を予め定めた区間(フレーム)ごとに計算し、記憶された非音声データを含む男性(女性)音声データの非音声尤度から、フレームが音声信号区間であるか否かを判定する。
【0023】
このように、本実施例の音響モデル生成装置200によれば、実施例1の音響モデル生成装置100の効果に加えて、音声区間検出手段212が記憶されたデータのうち非音声尤度が予め定めた値を超える区間のデータを男女の区別なく音響モデルの生成に用いられる非音声データと判定するため、男声音響モデル、女声音響モデルに共通して用いられる非音声区間モデルを偏りなく生成することができるため、認識精度の高い音響モデルを生成することができる。
【実施例3】
【0024】
以下、図11、図12を参照して実施例2のデータ生成部に尤度を再度判定する尤度判定手段を付加した実施例である実施例3の音響モデル生成装置300について説明する。図11は本実施例の音響モデル生成装置300が備えるデータ生成部310の構成を示すブロック図である。図12は本実施例の音響モデル生成装置300が備えるデータ生成部310の動作を示すフローチャートである。図11に示す通り、本実施例の音響モデル生成装置300のデータ生成部310は、男性音声データ記憶手段211aと、女性音声データ記憶手段211bと、音声区間検出手段212と、尤度判定手段313と、男性音声データ記憶手段214aと、女性音声データ記憶手段214bと、非音声データ記憶手段214cとを備える。実施例2と同様に、男性音声データ記憶手段211aは、非音声データを含む男性音声データを予め記憶している。女性音声データ記憶手段211bは、非音声データを含む女性音声データを予め記憶している。実施例2と同様に、男性音声データ記憶手段211aと、女性音声データ記憶手段211bとを一つにまとめてデータ記憶手段として構成することもできる。本実施例の音響モデル生成装置300と実施例2の音響モデル生成装置200との違いは、実施例2のデータ生成部210に存在しない尤度判定手段313が本実施例においてデータ生成部310に付加されている点のみである。従って本実施例の音響モデル生成装置300におけるデータ生成部310の尤度判定手段313以外の構成部については実施例2の対応する構成部と同じ番号を付し、同じ番号を付した各構成部の動作については同じ動作をするため説明を略する。以下、尤度判定手段313の動作について説明する。
【0025】
実施例2と同様に、音声区間検出手段212は、非音声尤度に基づいて、男性音声データ、女性音声データ、非音声データの別を判定する(SS212AY、N)。次に、尤度判定手段313は、音声区間検出手段212が音響モデルの生成に用いられる非音声データと判定したデータのうち、非音声尤度が予め定めたしきい値θを超えるデータのみを抽出して、当該抽出したデータを音響モデルの生成に用いる非音声データと再判定する(SS313AY)。尤度判定手段313によって音響モデルの生成に用いる非音声データと再判定されたデータは、非音声データ記憶手段214cに記憶される(SS313B)。一方、尤度判定手段313は、音声区間検出手段212が音響モデルの生成に用いられる非音声データと判定したデータのうち、非音声尤度がしきい値θ以下となるデータについては非音声データ記憶手段214cに記憶しない(SS313AN、エンド)。しきい値θは大きな値に設定しておくことが望ましい。
【0026】
このように、本実施例の音響モデル生成装置300によれば、実施例2の音響モデル生成装置200の効果に加えて、非音声区間モデルを学習する際に、大量のデータ中から前述の音声区間検出法(特許文献2)に基づいて非常に高い(しきい値θを超過)尤度で非音声区間と判断されたデータ(音声区間とは厳密に区分された非音声区間のデータ)のみを用いることで、識別対象となるデータに対して、非音声区間では尤度が高く、音声区間では逆に尤度が低い値をとるような音響モデルを作成することができるため、認識精度を高めることができる。
【実施例4】
【0027】
以下、図4、図5を参照して音響モデルの生成に用いるデータを生成するデータ生成部を付加した実施例の一つである実施例4の音響モデル生成装置について説明する。図4は本実施例の音響モデル生成装置400の構成を示すブロック図である。図5は本実施例の音響モデル生成装置400の動作を示すフローチャートである。図4に示す通り、本実施例の音響モデル生成装置400は、データ生成部410と、特徴量抽出部930と、モデル学習部940と、モデル統合部150とを備える。本実施例の音響モデル生成装置400と実施例1の音響モデル生成装置100との違いは、実施例1のデータ記憶部110が本実施例においてデータ生成部410に変更されている点のみである。従って本実施例の音響モデル生成装置400におけるデータ生成部410以外の構成部については実施例1の対応する構成部と同じ番号を付し、同じ番号を付した各構成部の動作については同じ動作をするため説明を略する。以下、データ生成部410の動作について、図13、図14を参照して説明する。図13は本実施例の音響モデル生成装置400が備えるデータ生成部410の構成を示すブロック図である。図14は本実施例の音響モデル生成装置400が備えるデータ生成部410の動作を示すフローチャートである。図13に示す通り、本実施例の音響モデル生成装置400が備えるデータ生成部410は、男性音声データ記憶手段211aと、女性音声データ記憶手段211bと、初期識別手段415と、特徴量抽出手段416と、モデル学習統合手段417と、識別手段419と、男性音声データ記憶手段214aと、女性音声データ記憶手段214bと、非音声データ記憶手段214cとを備える。実施例2、3と同様に、男性音声データ記憶手段211aは、非音声データを含む男性音声データを予め記憶している。女性音声データ記憶手段211bは、非音声データを含む女性音声データを予め記憶している。実施例2、3と同様に、男性音声データ記憶手段211aと、女性音声データ記憶手段211bとを一つにまとめてデータ記憶手段として構成することもできる。
【0028】
初期識別手段415は、データ記憶手段に記憶されたデータが音声であるか非音声であるかを区間ごとに識別する(SS415)。ここで、初期識別手段415が行う初期音声/非音声識別については、一般的な音声認識技術を用いて音声認識を行って、音声として認識可能な区間を音声区間とし、それ以外の区間を非音声区間としてもよい。他にも、少量の音声・非音声区間を人手でラベルされたデータを用いて、式(1)で示すようなGMMで音声区間と非音声区間を学習し、その尤度を用いて音声区間・非音声区間を識別するのでもよい。
【0029】
次に、特徴量抽出手段416は、データ記憶手段に記憶されたデータから特徴量を抽出する(SS416)。モデル学習統合手段417は、記憶された非音声データを含む男性音声データのうち音声と識別された区間のデータから抽出された特徴量から仮男性音声区間モデル418aを、記憶された非音声データを含む女性音声データのうち音声と識別された区間のデータから抽出された特徴量から仮女性音声区間モデル418bを、記憶されたデータのうち非音声と識別された区間のデータから抽出された特徴量から仮非音声区間モデル418cを学習し、仮男性音声区間モデル418aと、仮非音声区間モデル418cを統合して仮男声音響モデルを生成し、仮女性音声区間モデル418bと、仮非音声区間モデル418cを統合して仮女声音響モデルを生成する(SS417)。識別手段419は、仮男声音響モデルと仮女声音響モデルとを用いて、記憶されたデータが音響モデルの生成に用いられる男性音声データ、女性音声データ、非音声データの何れに属するかを区間ごとに識別する(SS419)。
【0030】
このように、本実施例の音響モデル生成装置400によれば、実施例1の音響モデル生成装置100の効果に加えて、初期識別手段415において初期識別されたデータに基づいてモデル学習統合手段417が仮の音響モデルを生成し、当該仮の音響モデルに基づいて、識別手段419が男性音声/女性音声/非音声の別を再度識別する二段階の識別を採用しているため、さらに高精度に音響モデルの生成に用いる男性音声データ、女性音声データ、非音声データを取得することができる。
【実施例5】
【0031】
以下、図4、図5を参照して音響モデルの生成に用いるデータを生成するデータ生成部を付加した実施例の一つである実施例5の音響モデル生成装置500について説明する。図4は本実施例の音響モデル生成装置500の構成を示すブロック図である。図5は本実施例の音響モデル生成装置500の動作を示すフローチャートである。図4に示す通り、本実施例の音響モデル生成装置500は、データ生成部510と、特徴量抽出部930と、モデル学習部940と、モデル統合部150とを備える。本実施例の音響モデル生成装置500と実施例1の音響モデル生成装置100との違いは、実施例1のデータ記憶部110が本実施例においてデータ生成部510に変更されている点のみである。従って本実施例の音響モデル生成装置500におけるデータ生成部510以外の構成部については実施例1の対応する構成部と同じ番号を付し、同じ番号を付した各構成部の動作については同じ動作をするため説明を略する。以下、データ生成部510の動作について、図15、図16を参照して説明する。図15は本実施例の音響モデル生成装置500が備えるデータ生成部510の構成を示すブロック図である。図16は本実施例の音響モデル生成装置500が備えるデータ生成部510の動作を示すフローチャートである。図15に示す通り、本実施例の音響モデル生成装置500が備えるデータ生成部510は、男性音声データ記憶手段211aと、女性音声データ記憶手段211bと、混合音声データ記憶手段211cと、初期識別手段415と、男性音声データ記憶手段214aと、女性音声データ記憶手段214bと、非音声データ記憶手段214cとを備える。実施例2、3、4と同様に、男性音声データ記憶手段211aは、非音声データを含む男性音声データを予め記憶している。女性音声データ記憶手段211bは、非音声データを含む女性音声データを予め記憶している。混合音声データ記憶手段211cは、男性音声データ記憶手段211aに記憶されている非音声データを含む男性音声データと、女性音声データ記憶手段211bに記憶されている非音声データを含む女性音声データとのすべてを混合した音声データ(以下、混合音声データという)を記憶している。なお、混合音声データとしては、必ずしも男性音声データ記憶手段211aに記憶された男性音声データと、女性音声データ記憶手段211bに記憶された女性音声データとの混合である必要はなく、別途取得した男性、女性双方の発話データを適宜混合して生成してもよい。
【0032】
初期識別手段415は、記憶されたデータが音声であるか非音声であるかを区間ごとに識別し、記憶された非音声データを含む男性音声データのうち音声であると識別された区間のデータを音響モデルの生成に用いられる男性音声データと判定し、記憶された非音声データを含む女性音声データのうち音声であると識別された区間のデータを音響モデルの生成に用いられる女性音声データと判定し、記憶された混合音声データのうち非音声であると識別された区間のデータを音響モデルの生成に用いられる非音声データと判定する(SS415)。ここで、初期識別手段415が行う初期音声/非音声識別については、実施例4と同様に、一般的な音声認識技術を用いて音声認識を行って、音声として認識可能な区間を音声区間とし、それ以外の区間を非音声区間としてもよいし、少量の音声・非音声区間を人手でラベルされたデータを用いて、GMMで音声区間と非音声区間を学習し、その尤度を用いて音声区間・非音声区間を識別するのでもよい。
【0033】
サブステップSS415において、音響モデルの生成に用いられる男性音声データ/女性音声データ/非音声データと判定されたデータはそれぞれ、男性音声データ記憶手段214aと、女性音声データ記憶手段214bと、非音声データ記憶手段214cに記憶される。一方、非音声データを含む男性音声データのうち音声であると識別されなかったデータ、非音声データを含む女性音声データのうち音声であると識別されなかったデータ、混合音声データのうち非音声であると識別されなかったデータは全て破棄するなどして、男性音声データ記憶手段214aと、女性音声データ記憶手段214bと、非音声データ記憶手段214cの何れにも記憶しない。
【0034】
[変形例1〜5]
以下、図6、図7、図8を参照して実施例1〜5の変形例1〜5について説明する。図6は変形例1の音響モデル生成装置100’の構成を示すブロック図である。図7は変形例2〜5の音響モデル生成装置200’〜500’の構成を示すブロック図である。図8は変形例1〜5の音響モデル生成装置100’〜500’の動作を示すフローチャートである。変形例1の音響モデル生成装置100’は実施例1の音響モデル生成装置100を変形したものである。変形例2の音響モデル生成装置200’は実施例2の音響モデル生成装置200を変形したものである。変形例3の音響モデル生成装置300’は実施例3の音響モデル生成装置300を変形したものである。変形例4の音響モデル生成装置400’は実施例4の音響モデル生成装置400を変形したものである。変形例5の音響モデル生成装置500’は実施例5の音響モデル生成装置500を変形したものである。
【0035】
ここで、変形例1〜5の音響モデル生成装置100’〜500’は実施例1〜5の音響モデル生成装置100〜500のモデル学習部940をモデル学習部140に代替し、新たに雑音バリエーション記憶部145を設けたことを特徴とする。従って変形例1〜5の音響モデル生成装置100’〜500’が有するその他の構成部については対応する各実施例の音響モデル生成装置100〜500において対応する構成部と同じ番号を付し、同じ番号を付した各構成部の動作については同じ動作をするため説明を略する。
【0036】
以下、雑音バリエーション記憶部145、モデル学習部140について説明する。モデル学習部140は、モデル学習部940と同様に、特徴量抽出部930が抽出した音響特徴量に基づいて、男性音声区間モデル、女性音声区間モデル、非音声区間モデルを学習するが、非音声区間モデルを学習する際には、雑音バリエーション記憶部145に予め記憶しておいた雑音のバリエーション数に比例した数よりも1大きい数の混合ガウス分布により非音声区間モデルを学習する(S140)。なお、雑音バリエーション記憶部145は必須の構成要素ではなく、ユーザ入力により直接モデル学習部140に雑音バリエーション数を入力するように構成することもできる。
【0037】
このように、変形例1〜5の音響モデル生成装置100’〜500’によれば、音声データが目的に応じて収集されており、あらかじめデータ中に含まれる雑音の種別がわかっている場合に、非音声区間の学習において、ガウス分布の混合数を雑音のバリエーション数に比例した数+1(完全無音部分)とすることで、音声に対する非音声区間モデルの尤度を非常に低い値に抑えることを可能とする一方で、非音声区間における非音声区間モデルの尤度をある程度高い値にすることが可能となり、非音声区間と音声区間の識別精度を向上させることができる。
【0038】
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0039】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0040】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0041】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0042】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
【0043】
なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
男性音声データと、女性音声データと、非音声データとを音響モデルの生成に用いる音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータから特徴量を抽出する特徴量抽出部と、
前記男性音声データから抽出された特徴量から男性音声区間モデルを、前記女性音声データから抽出された特徴量から女性音声区間モデルを、前記非音声データから抽出された特徴量から非音声区間モデルを学習するモデル学習部と、
前記男性音声区間モデルと、前記非音声区間モデルを統合して男声音響モデルを生成し、前記女性音声区間モデルと、前記非音声区間モデルを統合して女声音響モデルを生成するモデル統合部と、
を備えることを特徴とする音響モデル生成装置。
【請求項2】
請求項1に記載の音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータを生成するデータ生成部をさらに備え、
前記データ生成部が、
非音声データを含む男性音声データと、非音声データを含む女性音声データを記憶するデータ記憶手段と、
前記記憶されたデータが非音声であることの尤度(以下、非音声尤度という)を予め定めた区間ごとに計算し、前記記憶された非音声データを含む男性音声データの非音声尤度が予め定めた値以下となる区間のデータを前記音響モデルの生成に用いられる男性音声データと判定し、前記記憶された非音声データを含む女性音声データの非音声尤度が予め定めた値以下となる区間のデータを前記音響モデルの生成に用いられる女性音声データと判定し、前記記憶されたデータの非音声尤度が予め定めた値を超える区間のデータを前記音響モデルの生成に用いられる非音声データと判定する音声区間検出手段と、
を備えることを特徴とする音響モデル生成装置。
【請求項3】
請求項2に記載の音響モデル生成装置であって、
前記データ生成部が、
前記音声区間検出手段が前記音響モデルの生成に用いられる非音声データと判定したデータのうち、前記非音声尤度が予め定めたしきい値を超えるデータのみを抽出して、当該抽出したデータを前記音響モデルの生成に用いる非音声データと再判定する尤度判定手段をさらに備えること
を特徴とする音響モデル生成装置。
【請求項4】
請求項1に記載の音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータを生成するデータ生成部をさらに備え、
前記データ生成部が、
非音声データを含む男性音声データと、非音声データを含む女性音声データを記憶するデータ記憶手段と、
前記記憶されたデータが音声であるか非音声であるかを区間ごとに識別する初期識別手段と、
前記記憶されたデータから特徴量を抽出する特徴量抽出手段と、
前記記憶された非音声データを含む男性音声データのうち音声と識別された区間のデータから抽出された特徴量から仮男性音声区間モデルを、前記記憶された非音声データを含む女性音声データのうち音声と識別された区間のデータから抽出された特徴量から仮女性音声区間モデルを、前記記憶されたデータのうち非音声と識別された区間のデータから抽出された特徴量から仮非音声区間モデルを学習し、前記仮男性音声区間モデルと、前記仮非音声区間モデルを統合して仮男声音響モデルを生成し、前記仮女性音声区間モデルと、前記仮非音声区間モデルを統合して仮女声音響モデルを生成するモデル学習統合手段と、
前記仮男声音響モデルと前記仮女声音響モデルとを用いて、前記記憶されたデータが前記音響モデルの生成に用いられる男性音声データ、女性音声データ、非音声データの何れに属するかを区間ごとに識別する識別手段と、
を備えることを特徴とする音響モデル生成装置。
【請求項5】
請求項1に記載の音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータを生成するデータ生成部をさらに備え、
前記データ生成部が、
非音声データを含む男性音声データと非音声データを含む女性音声データとを混合した混合音声データと、前記非音声データを含む男性音声データと、前記非音声データを含む女性音声データと、を記憶するデータ記憶手段と、
前記記憶されたデータが音声であるか非音声であるかを区間ごとに識別し、前記記憶された非音声データを含む男性音声データのうち音声であると識別された区間のデータを前記音響モデルの生成に用いられる男性音声データと判定し、前記記憶された非音声データを含む女性音声データのうち音声であると識別された区間のデータを前記音響モデルの生成に用いられる女性音声データと判定し、前記記憶された混合音声データのうち非音声であると識別された区間のデータを前記音響モデルの生成に用いられる非音声データと判定する初期識別手段と、
を備えることを特徴とする音響モデル生成装置。
【請求項6】
請求項1から5の何れかに記載の音響モデル生成装置であって、
前記モデル学習部が、雑音のバリエーション数に比例した数よりも1大きい数の混合ガウス分布により非音声区間モデルを学習すること
を特徴とする音響モデル生成装置。
【請求項7】
男性音声データと、女性音声データと、非音声データとを音響モデルの生成に用いる音響モデル生成方法であって、
前記音響モデルの生成に用いられるデータから特徴量を抽出する特徴量抽出ステップと、
前記男性音声データから抽出された特徴量から男性音声区間モデルを、前記女性音声データから抽出された特徴量から女性音声区間モデルを、前記非音声データから抽出された特徴量から非音声区間モデルを学習するモデル学習ステップと、
前記男性音声区間モデルと、前記非音声区間モデルを統合して男声音響モデルを生成し、前記女性音声区間モデルと、前記非音声区間モデルを統合して女声音響モデルを生成するモデル統合ステップと、
を備えることを特徴とする音響モデル生成方法。
【請求項8】
コンピュータを、請求項1から6の何れかに記載の音響モデル生成装置として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2013−57789(P2013−57789A)
【公開日】平成25年3月28日(2013.3.28)
【国際特許分類】
【出願番号】特願2011−195854(P2011−195854)
【出願日】平成23年9月8日(2011.9.8)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】