説明

音響モデル学習用ラベル作成装置、その方法及びプログラム

【課題】既存音声DBに対し、音声データを追加する場合に、効率良く、音素環境カバレッジの向上を図ることを可能とする。
【解決手段】音響モデル学習用の既存音声DB10中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部23と、元テキストDB30中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部33と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DB10に含まれず、元テキストDB30に含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出部35と、元テキストDB30から追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部36とよりなる。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は音響モデル学習用ラベル作成装置、その方法及びプログラムに関し、特に音響モデル学習用の既存の音声DB(データベース)に対し、音声データを追加する際に、効率良く、音素環境カバレッジの向上を図ることを可能とする追加収録用ラベルセットを作成する装置、その方法及びプログラムに関する。
【背景技術】
【0002】
特許文献1には自動ラベリングに用いる音素モデルの学習に際して、少ない音声データでより高精度な音素モデルを作成するのに必要とされる、音声データの元となる読み上げ文を効率よく選択する音素モデル学習用文リストの生成方法、生成装置が記載されている。
【0003】
特許文献1では元テキストDBから各音素の個数をカウントして個数リストを生成し、個数リストの音素を個数順に並び換えた並び換えリストを生成し、並び換えリストの中で最も少ない最少個数音素を含む全ての文を最少個数音素文リストに並べ、最少個数音素文リストの音素モデルの学習効率スコア、学習バリエーション効率スコアを下記により計算して効率計算文リストを生成する。
【0004】
学習効率スコア=(個数が基準学習データ数未満である音素(最小個数音素を除く)の種類数)/(当該文に含まれる全ての音素数)
学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)
そして、効率計算文リストから供給される文を学習効率スコア順に並べ換え、学習効率スコアが同値の場合は学習バリエーション効率スコアに並べ換えた並べ換え文リストを生成し、最少個数音素の個数が基準学習データ数に達するまで並べ換え文リストの上位から順に文を選択して選択文リストを生成し、選択文リスト中に含まれる音素の個数を数えて既選択文音素個数リストを生成し、並び換えリストの中で最小個数音素の次に個数の少ない音素について、既選択文音素個数リスト中に基準学習データ数に達していない場合、当該音素をも含む基準学習データ数未満音素文リストを生成するものとなっている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2004−252167号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかるに、特許文献1では単一の元テキストDBからラベルセット(文セット)を選択決定するため、当該元テキストDBにおける音素環境の出現頻度の影響を受けやすいといった問題がある。
【0007】
また、例えば過去に構築したラベルセットから作成した音声DBが存在し、その既存音声DBを含めて複数の音声DBを組み合わせて学習させる場合、特許文献1に記載されているラベルセットの作成方法では既存音声DBとの整合性が考慮されないため、音素環境カバレッジを必ずしも向上させることにはならず、元々の(既存音声DBの)音素環境カバレッジからの改善を図ることができない場合が生じうる。ここで、音素環境カバレッジとは、全ての音素環境のうち、DBのラベル(文)に含まれる音素環境の割合を意味する。
【0008】
なお、実用上、一定の音素環境カバレッジを確保するためには多くのラベル(文)が必要となるが、単にラベルを増やすだけでは、結果として、既存音声DBに十分な頻度で含まれており、増やす必要がない音素環境を多く含むラベルがラベルセットに多く含まれることになってしまい、音声収録の効率が損われ、音声収録コストが増大するといった問題が発生する。
【0009】
この発明の目的はこのような問題に鑑み、既存の音声DBに対し、音声認識精度を向上させるべく、音声データを追加する場合に、効率良く、音素環境カバレッジの向上を図ることを可能とする音響モデル学習用ラベル作成装置、その方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0010】
請求項1の発明によれば、音響モデル学習用ラベル作成装置は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれず、元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出部と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部とよりなる。
【0011】
請求項2の発明によれば、音響モデル学習用ラベル作成装置は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれている頻度が低く、元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出部と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部とよりなる。
【0012】
請求項3の発明では請求項1又は2の発明において、追加収録用ラベルセットのラベルを並び換える並び換え部を具備し、並び換え部はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換える。
【0013】
請求項4の発明では請求項3の発明において、ソート用評価値に追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加する。
【0014】
請求項5の発明では請求項3又は4の発明において、並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割部と、分割部により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合部とを具備し、分割部は並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割する。
【0015】
請求項6の発明によれば、音響モデル学習用ラベル作成方法は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算過程と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算過程と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれず、元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出過程と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程とを含む。
【0016】
請求項7の発明によれば、音響モデル学習用ラベル作成方法は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算過程と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算過程と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれている頻度が低く、元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出過程と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程とを含む。
【0017】
請求項8の発明では請求項6又は7の発明において、追加収録用ラベルセットのラベルを並び換える並び換え過程を具備し、並び換え過程はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換える。
【0018】
請求項9の発明では請求項8の発明において、ソート用評価値に追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加する。
【0019】
請求項10の発明では請求項8又は9の発明において、並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割過程と、分割過程により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合過程とを具備し、分割過程は並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割する。
【0020】
請求項11の発明では請求項5乃至10記載のいずれかの音響モデル学習用ラベル作成方法をコンピュータに実行させるためのプログラムを提案する。
【発明の効果】
【0021】
この発明によれば、既存の音声DBに対し、音声認識精度を向上させるべく、音声データを追加する際に、既存音声DBにおける音素環境頻度を考慮して元テキストDBから追加収録用のラベルセットを抽出作成するものとなっており、よって既存音声DBで十分な学習データ量を持つ音素環境を持つラベルを追加収録対象から排除することができ、少ない追加収録用ラベルで効率良く、音素環境カバレッジの向上を図ることができる。
【図面の簡単な説明】
【0022】
【図1】この発明による音響モデル学習用ラベル作成装置の実施形態1の構成例を示すブロック図。
【図2】この発明による音響モデル学習用ラベル作成装置の実施形態2の構成例を示すブロック図。
【図3】この発明による音響モデル学習用ラベル作成装置の実施形態3の構成例を示すブロック図。
【図4】この発明による音響モデル学習用ラベル作成装置の実施形態5の要部構成例を示すブロック図。
【発明を実施するための形態】
【0023】
以下、この発明の実施形態を図面を参照して説明する。
【0024】
[実施形態1]
図1はこの発明による音響モデル学習用ラベル作成装置の実施形態1の構成例を示したものである。音響モデル学習用ラベル作成装置は音響モデル学習用の既存音声DB10中のラベルを読みに変換する読み変換部21と、その読みを音素に変換する音素変換部22と、音素変換部22により生成された音素系列から既存音声DB10の音素環境頻度を計算する第1の音素環境頻度計算部23を備える。
【0025】
また、追加収録用ラベルセットを選定する元テキストDB30を備え、元テキストDB30中のテキスト(文)を読みに変換する読み変換部31と、その読みを音素に変換する音素変換部32と、音素変換部32により生成された音素系列から元テキストDB30の音素環境頻度を計算する第2の音素環境頻度計算部33を備えており、さらに格納部34、新出音素環境抽出部35、テキスト選択部36及び蓄積部37を備えている。
【0026】
なお、図1では既存音声DB10中のラベル及び元テキストDB30中のテキストは共に仮名漢字交じり文であるとし、仮名漢字交じり文を読みに変換する読み変換部21,31を具備しているが、例えばラベルやテキストが読みラベルや読みテキストである場合はこれら読み変換部21,31の機能は不要となる。
【0027】
第1の音素環境頻度計算部23は音素変換部22から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、既存音声DB10の音素環境頻度を計算して出力する。同様に、第2の音素環境頻度計算部33は音素変換部32から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、元テキストDB30の音素環境頻度を計算して出力する。
【0028】
これら音素環境頻度計算部23,33からそれぞれ出力される既存音声DB音素環境頻度及び元テキストDB音素環境頻度は新出音素環境抽出部35に入力される。新出音素環境抽出部35は入力された既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DB10に含まれず、元テキストDB30に含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する。
【0029】
なお、元テキストDB30中のテキスト、そのテキストを読み変換部31で変換した読み及びその読みを音素変換部32で変換した音素系列は、この例では格納部34に格納され、格納部34はそれらテキスト、読み及び音素系列を組として格納している。
【0030】
新出音素環境抽出部35から出力された追加収録音素環境はテキスト選択部36に入力される。テキスト選択部36は読み、音素系列と組とされて格納部34に格納されている元テキストDB30のテキストの中から追加収録音素環境を含むテキストを選択する。テキストの選択はテキスト毎に追加収録音素環境が含まれているか否かを判定することによって行われる。このようにして選択されたテキストは追加収録用ラベルセットとして出力される。テキスト選択部36より出力された追加収録用ラベルセットはこの例では蓄積部37に蓄積されるものとなっている。
【0031】
以下、上述した音素環境頻度計算部23,33、新出音素環境抽出部35及びテキスト選択部36の各処理を実行するプログラムの例を示す。
【0032】
音素環境はここではtriphoneを前提とする。音素環境を下記に例示する。
音素環境(prec−cent+suc:前接−中心+後続)例
:k−a+i,k−a+o
【0033】
各用語の定義を以下に列記する。
id:各音素環境のID
phnm:音素
phnm_num:音素数
phnm_cnt:音素環境頻度
snt:文(ラベル,テキスト)
extspch:既存音声DB
orgtxt:元テキストDB
【0034】
<音素環境頻度計算部23>
Step 1: 既存音声DBから最後の文になるまで文(ラベル)sntを1つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境(prec−cent+suc:前接−中心+後続)を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
id=prec+cent×(phnm_num+1)+suc×(phnm_num+1)^2
音素数を例えば30とすれば、
id=prec+cent×31+suc×31
Step 4: Step3で付与した音素環境のID(id)から音素環境毎に出現頻度をカウントする。
phnm_cnt extspch[id]++;
【0035】
<音素環境頻度計算部33>
Step 1: 元テキストDBから最後の文になるまで文(ラベル)sntを1つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境(prec−cent+suc:前接−中心+後続)を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
id=prec+cent×(phnm_num+1)+suc×(phnm_num+1)^2
音素数を例えば30とすれば、
id=prec+cent×31+suc×31
Step 4: Step3で付与した音素環境のID(id)から音素環境毎に出現頻度をカウントする。
phnm_cnt orgtxt[id]++;
なお、テキストは単語(形態素)間にpauseが入る可能性があるので、pause抜きで考えても良い。
【0036】
<新出音素環境抽出部35>
Step 1: 全ての音素環境のID(id)を一つずつ取得する。
Step 2: Step 1で取得した音素環境のID (id) 毎に以下のif条件に基づき、既存音声DBに含まれず、元テキストDBに含まれている音素環境である(true)か否(false)かを判定する。
if(phnm_cnt extspch[id]=0 && phnm_cnt orgtxt[id]>0) new_phnm[id]=true;
else new_phnm[id]=false;
Step 3: Step 2の判定結果が true の音素環境を、追加収録音素環境として抽出する。
【0037】
<テキスト選択部36>
Step 1: 元テキストDBから最後の文になるまで文(ラベル)sntを1つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
Step 4: Step3で付与した音素環境のID(id)から追加収録音素環境を含んでいれば、その文(ラベル)sntを選択(採用)し、含んでいなければ、不選択(不採用)とする。
Judge(snt)=reject;
for(id in snt){ if(new_phnm[id]=true) Judge (snt)=accept }
【0038】
なお、図1には上述したプログラムの実行に基づき、音素環境頻度計算部23,33からそれぞれ出力される既存音声DB10及び元テキストDB30の音素環境頻度情報及び新出音素環境抽出部35から出力される追加収録音素環境情報を例示している。
【0039】
以上説明したように、この例によれば既存音声DB10に含まれない音素環境を持つテキストを元テキストDB30から抽出して追加収録用ラベルセットを作成するものとなっており、よって単に追加収録用のラベルを増やす場合に比し、少ないラベルで効率良く、音素環境カバレッジの向上を図ることができる。
【0040】
なお、このように既存音声DB10における音素環境頻度を考慮して追加収録用ラベルセットを作成することで、既存音声DB10における音素環境頻度の影響を排除することができる。
【0041】
また、このようにして作成した追加収録用ラベルセットを用いて音声データの収録を行えば、限られた収録音声で誤認識しやすい単語を減らすことができ、音声収録のコストを低減することができる。
【0042】
[実施形態2]
図2はこの発明による音響モデル学習用ラベル作成装置の実施形態2の構成例を示したものであり、図1と対応する部分には同一符号を付し、その詳細な説明を省略する。
【0043】
実施形態2では実施形態1における新出音素環境抽出部35に替えて低頻度音素環境抽出部41を備えるものとなっている。
【0044】
低頻度音素環境抽出部41は音素環境頻度計算部23から出力される既存音声DB音素環境頻度と、音素環境頻度計算部33から出力される元テキストDB音素環境頻度とから、既存音声DB10に含まれている頻度が低く、元テキストDB30に含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境としてテキスト選択部36に出力する。テキスト選択部36は実施形態1と同様、入力された追加収録音素環境を含むテキストを選択し、追加収録用ラベルセットとして出力する。
【0045】
低頻度音素環境抽出部41の処理を実行するプログラムの例を以下に示す。
【0046】
<低頻度音素環境抽出部41>
Step 1: 全ての音素環境のID(id)を一つずつ取得する。
Step 2: Step 1で取得した音素環境のID (id) 毎に以下のif条件に基づき、既存音声DBに含まている頻度が低く、元テキストDBに含まれている音素環境である(true)か否(false)かを判定する。
if(phnm_cnt extspch[id]=low_th && phnm_cnt orgtxt[id]>0) new_phnm[id]=true;
else new_phnm[id]=false;
Step 3: Step 2の判定結果が true の音素環境を、追加収録音素環境として抽出する。
【0047】
なお、low_thは例えばlow_th=5等とする。
low_thは全音素環境の出現頻度sum_cntに対する相対頻度rel_rateから決定しても良い。この場合、
low_th=rel_rate×sum_cnt
となり、rel_rateは例えばrel_rate=0.0001とする。
【0048】
また、phnm_cnt orgtxt[id]>0の条件を、phnm_cnt orgtxt[id]>low_th2として、元テキストDB30で一定の出現頻度以上ある音素環境を選択するようにしてもよい。この場合、low_th2の値は、low_thと同様の方法で決めても良い。
【0049】
この実施形態2においても、実施形態1と同様、効率良く、音素環境カバレッジの向上を図ることができる。
【0050】
ところで、音声収録には発話者の拘束時間に応じて人件費が必要となる。従って、限られた予算内では拘束時間が限られ、また発話者によって収録にかかる時間が変わり、用意したラベルセット全ての音声が収録できるとは限らない。特に、この発明では珍しい音素環境を含むラベルセットを作成するので、読み間違い等が起こり易く、多くのラベルを発声することが難しくなる。以下、この問題に対処するための実施形態について説明する。
【0051】
[実施形態3]
この発明による音響モデル学習用ラベル作成装置の実施形態3の構成例を図3に示す。図3では図2に示した実施形態2の構成に対し、並び換え部51と蓄積部52とを付加したものとなっている。
【0052】
並び換え部51は蓄積部37に蓄積されている追加収録用ラベルセットのラベルを上位に珍しい音素環境を含むラベルが並ぶように並び換える。この並び換えは追加収録音素環境のうち、既存音声DB10における音素環境頻度が低く、元テキストDB30における音素環境頻度が高いものを選択することによって行われる。
【0053】
具体的には追加収録用ラベルセットのラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と、既存音声DB10におけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換える。
【0054】
ソート用評価値:Sort_eval_valueは、
Sort_eval_value=Σid(phnm_rate orgtxt[id]−phnm_rate extspch[id])
で求められる。なお、音素環境出現率:phnm_rateは、
phnm_rate=phnm_cnt/sum_cnt
で求められる。
【0055】
上記により求められるソート用評価値順に並び換えられた並び換え済み追加収録用ラベルセットはこの例では蓄積部52に蓄積される。なお、長い文が選ばれ過ぎないように、音素数で割っても良い。
【0056】
この実施形態3によれば、並び換え済み追加収録用ラベルセットは上位に珍しい(レアな)音素環境を含むラベルが位置するようになるため、例えば発話者の拘束時間の関係上、ラベルセットが全て発声されない場合であっても効率的に音素環境カバレッジの向上を図ることができる。
【0057】
なお、図3では図2に示した実施形態2の構成に並び換え部51及び蓄積部52を付加した構成となっているが、図1に示した実施形態1の構成に並び換え部51及び蓄積部52を付加しても良い。
【0058】
[実施形態4]
実施形態4は実施形態3における追加収録用ラベルセットの並び換えにおいて、特定の音素環境を含むラベルのみが増えないように制約を加えるものであり、並び換え部51における並び換えの基準とするソート用評価値に重みを加える。
【0059】
重みを加えたソート用評価値:Sort_eval_value_weightは、
Sort_eval_value_weight=Σid(phnm_rate orgtxt[id]−phnm_rate extspch[id])×wid
で求められる。ここで、重み:widは、
id=max(1−use_cnt/use_max,0)
とする。use_cntは使われた数を示し、use_maxは最大使用回数を示す。最大使用回数:use_maxは例えば5とする。すなわち、重み:widは1を起点として最大使用回数に達するまで減少し、最大使用回数に達した後は、0となるものである。
【0060】
このように、ソート用評価値に重みを付加することにより、追加収録用ラベルセットに含まれる各追加収録音素環境の数が制限され、特定の追加収録音素環境を含むラベルのみが増えるといったことを回避することができる。
【0061】
なお、重み:widは、上記に替え、例えば
【0062】
【数1】

【0063】
と単純化してもよい。
【0064】
[実施形態5]
実施形態5は話者数に応じてラベルセットを分割する際、収録時間が余らないように、他の分割ラベルセットを逆順に連結するものである。
【0065】
分割されるラベルセットは実施形態3もしくは実施形態4で並び換えられた並び換え済み追加収録用ラベルセットとする。この実施形態5では図3に示した実施形態3(実施形態4)の構成に対し、分割部53と蓄積部54〜54と結合部55と蓄積部56〜56を付加する。図4は図3の蓄積部52に続く、これら付加された構成を示したものである。
【0066】
分割部53は蓄積部52に蓄積されている並び換え済み追加収録用ラベルセットを話者数や収録サイト(場所)数に応じて所定の分割数に分割する。ここではN個に分割するものとし、分割された分割ラベルセットを分割ラベルセット1、分割ラベルセット2、…、分割ラベルセットNとする。
【0067】
分割ラベルセット1〜Nの上位には並び換え済み追加収録用ラベルセットの上位のラベルが位置するように分割する。分割された分割ラベルセット1〜Nは図4に示したように、蓄積部54〜54にそれぞれ蓄積される。
【0068】
結合部55は各分割ラベルセット1〜Nに他の分割ラベルセットを逆順に結合して結合ラベルセットを作成する。ここでは分割ラベルセットn(n=1,2,…,N−1)とは異なる分割ラベルセット(n+1)を逆順に並び換えた逆順ラベルセット(n+1)invを作成し、分割ラベルセットnと逆順ラベルセット(n+1)invを結合して結合ラベルセットを作成する。なお、分割ラベルセットNには分割ラベルセット1を逆順に並び換えた逆順ラベルセット1invを結合して結合ラベルセットを作成する。結合ラベルセット1,2,…,Nは、
結合ラベルセット1=分割ラベルセット1+2inv
結合ラベルセット2=分割ラベルセット2+3inv

結合ラベルセットN=分割ラベルセットN+1inv
となり、これら結合ラベルセット1〜Nは図4に示したように、蓄積部56〜56にそれぞれ蓄積される。
【0069】
このように結合ラベルセット1〜Nを作成することで、収録時間に余裕がある場合でも時間を無駄にすることなく、収録することができる。また、例えば分割ラベルセット(n+1)担当の発話者が発声しきれなかったラベルを、分割ラベルセットn担当の発話者が収録できるといった可能性が高くなり、発話者により収録ラベル数にばらつきがあってもその影響を極力なくして、収録することが可能となる。
【0070】
なお、最終的に、発話者に読み上げさせることを前提として、ラベル中の文字数、モーラ数等で制限を加えるようにしてもよい。
【0071】
[実験例]
この発明により作成された追加収録用ラベルセットによる音素環境カバレッジの向上を評価した。音素環境カバレッジは物理triphoneではなく、論理triphoneで計算した。既存音声DB、追加収録用ラベルセット及びそれらの和の音素環境カバレッジを以下に示す。
【0072】
a)既存音声DB 21,607文 ⇒ 音素環境カバレッジ 20.57%
b)追加収録文 1,892文 ⇒ 音素環境カバレッジ 19.12%
a)+b) 23,499文 ⇒ 音素環境カバレッジ 24.23%
少ない文数(ラベル数)で音素環境カバレッジが大幅に向上していることが確認できた。なお、b)の追加収録文は3,225,910文から構築した。

【特許請求の範囲】
【請求項1】
音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれず、前記元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出部と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部と、
よりなることを特徴とする音響モデル学習用ラベル作成装置。
【請求項2】
音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれている頻度が低く、前記元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出部と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部と、
よりなることを特徴とする音響モデル学習用ラベル作成装置。
【請求項3】
請求項1又は2記載の音響モデル学習用ラベル作成装置において、
前記追加収録用ラベルセットのラベルを並び換える並び換え部を具備し、
前記並び換え部はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成装置。
【請求項4】
請求項3記載の音響モデル学習用ラベル作成装置において、
前記ソート用評価値に前記追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加することを特徴とする音響モデル学習用ラベル作成装置。
【請求項5】
請求項3又は4記載の音響モデル学習用ラベル作成装置において、
前記並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割部と、
前記分割部により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合部とを具備し、
前記分割部は前記並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割することを特徴とする音響モデル学習用ラベル作成装置。
【請求項6】
音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算過程と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算過程と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれず、前記元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出過程と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程と、
を含むことを特徴とする音響モデル学習用ラベル作成方法。
【請求項7】
音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算過程と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算過程と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれている頻度が低く、前記元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出過程と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程と、
を含むことを特徴とする音響モデル学習用ラベル作成方法。
【請求項8】
請求項6又は7記載の音響モデル学習用ラベル作成方法において、
前記追加収録用ラベルセットのラベルを並び換える並び換え過程を具備し、
前記並び換え過程はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成方法。
【請求項9】
請求項8記載の音響モデル学習用ラベル作成方法において、
前記ソート用評価値に前記追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加することを特徴とする音響モデル学習用ラベル作成方法。
【請求項10】
請求項8又は9記載の音響モデル学習用ラベル作成方法において、
前記並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割過程と、
前記分割過程により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合過程とを具備し、
前記分割過程は前記並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割することを特徴とする音響モデル学習用ラベル作成方法。
【請求項11】
請求項5乃至10記載のいずれかの音響モデル学習用ラベル作成方法をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−248001(P2011−248001A)
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【出願番号】特願2010−119538(P2010−119538)
【出願日】平成22年5月25日(2010.5.25)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】