説明

音素単位セットを最適化する方法及びシステム

【課題】特定のASRタスクのための音素基本単位セットを最適化可能にする。
【解決手段】特定のASRタスク用に音素基本単位セットを最適化するための方法は、コンピュータ読出可能なフォーマットで音素の基本単位セットを準備するステップ(100)と、基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するステップ(102)と、基本単位サブセットの各々について言語的識別力の所定の尺度を計算するステップ(104)と、基本単位セットを、基本単位サブセットのうち最も高い言語的識別力を備えたもので置換えるステップ(106、108及び112)と、生成するステップ、計算するステップ、及び置換えるステップを、所定の基準が満たされるまで繰返すステップ(110)とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は自動音声認識(Automatic Speech Recognition:ASR)に関し、特に、ASRで用いられる音素セット等の音素単位セットの最適化に関する。
【背景技術】
【0002】
ASRはマン−マシン−インタラクションにおける必須のツールである。ASRによって、コンピュータは自然言語によるオペレータの指令を理解することができ、オペレータはコンピュータのための複雑なコマンドシステムを学ぶ必要がなくなる。
【0003】
図6は基本的なASRの機構を示す。図6を参照して、ASRシステム162は、入力音声X160をデコードし、認識された(デコードされた)単語^W164(文中「^」の記号は本来文字Wの上に付されるものである。)を、以下の式166を用いて出力する。
【0004】
【数1】

ここでP(X|W)は音響モデル確率を示し、P(W)は言語モデル確率を示す。これらのモデルは対象となる言語の単語を、それぞれの音素のシーケンスと共に記載するレキシコンを用いて構築される。音素は予め定められた基本音素セットのうちから選択される。
【0005】
大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition:LVCSR)システムでは、広く受入れられた音素セットが用いられる。
【発明の開示】
【発明が解決しようとする課題】
【0006】
簡単なLVCSRタスクと、より複雑なLVCSRタスクとで同じ音素セットを用いるべきか、という問題がある。数字認識タスク等の小さな語彙のタスクでは、数字等の単語が基本単位として用いられる。同様に、簡単なLVCSRタスクでは、簡単な音素セットを用いることが有利かもしれない。
【0007】
ASRに関する多くの研究では、いくつかの発見的手法により決定された音素セットが試され、ASR認識性能に基づいて、1セットが選択される。
【0008】
音素セットにより多くの単位が含まれれば、音素学的により識別性のある情報を提供するであろう。しかしこれは、より詳細な音響的差異を使用するという意味でもある。音声認識の場合、より詳細な、またはより小さい音響差異をモデル化する必要が生じると、AM(Acoustic Model:音響モデル)の頑健性が低下する傾向がある。
【0009】
音素セットに含まれる単位数が少なければ、より大きな音素セットに比べて、各音素AMは、より多くのトレーニングデータを有することが通常である。さらに、音素の数が少ない場合、音素間での差異は多くの音素間での差異より大きくなる傾向がある。この結果、音素セットが小さくなればAMはより頑健になり得る。しかし、音素セットサイズを小さくすると別の問題が生じる。すなわち、言語空間内における識別力が失われることである。例えば、日本語の長母音「A」と短母音「a」とが一つの母音にマージされるので、単語間の混同が増加するであろう。
【0010】
この点に関して、最新のASR最適化は以下の考え方により行なわれる。上述の式を以下の形に書くことができる。
【0011】
【数2】

ここでFは基本単位シーケンスを示し、P(X|F)は頑健な音響モデル化の優勢なトピックを示し、P(F|W)は発音モデル化の注目のトピックを示し、P(W)は顕著な言語モデル化を示す。多くの場合、Fは音素セットである。
【0012】
しかし、先行技術では、種々の基本単位のセットを用いた場合に関する比較についてはヒューリスティックな試みがいくつかあったものの、特に確率を用いたASRの枠組み全体を考慮して基本単位セットの最適化を行なうことはほとんど全くされていないといえる。
【0013】
従って、この発明の目的の一つは、特定のASRタスクのための基本単位セットを最適化する方法と装置とを提供することである。
【0014】
この発明の別の目的は特定のASRタスクのための音素セットを最適化する方法と装置とを提供することである。
【課題を解決するための手段】
【0015】
この発明の一局面によれば、予め定められた言語の音素単位セットを最適化する方法は、コンピュータに、コンピュータ読出可能なフォーマットで基本単位セットを準備するステップと、基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するステップと、基本単位サブセットの各々について言語的識別力の所定の尺度を計算するステップと、基本単位セットを、基本単位サブセットのうち最も高い言語的識別力を備えたもので置換えるステップと、生成するステップ、計算するステップ、及び置換えるステップを、所定の基準が満たされるまで繰返すステップとを実行させる。
【0016】
好ましくは、計算するステップは、基本単位セットと、基本単位サブセットの各々との間の相互情報を計算するステップを含む。
【0017】
より好ましくは、置換えるステップは、基本単位セットを、基本単位サブセットのうち計算するステップで計算された相互情報の最も高い値を有するもので置換えるステップを含む。
【0018】
さらに好ましくは、基本単位セットは予め定められた言語のための基本音素セットである。
【0019】
この発明の別の局面によれば、予め定められた言語の単位セットを最適化するシステムは、基本単位セットをコンピュータ読出可能なフォーマットで記憶するための記憶手段と、基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するための生成手段と、基本単位サブセットの各々について言語的識別力の所定の尺度を計算するための計算手段と、記憶手段に記憶された基本単位セットを、最も高い言語的識別力を有する基本単位サブセットで置換えるための置換手段と、記憶手段、生成手段、計算手段及び置換手段を、所定の基準が満たされるまで繰返し動作するよう制御するための制御手段とを含む。
【発明を実施するための最良の形態】
【0020】
ASRの場合、二つの単語を識別するのに2種類の識別のための手段がある。一つは発音であり、他方は単語の文脈、すなわち言語モデル(Language Model:LM)である。一対の単語を音響スコアで識別することが困難な場合、例えば、同音語や類音語の場合、文脈的な単語情報があれば識別が容易になるであろう。例えば、「橋」と「箸」とは明らかに異なる文脈の単語である。
【0021】
上述の議論に基づき、この実施例は特定のASRタスクのための音素セットの最適な設計、すなわちタスクに基づく音素設計を提案する。基本的な考え方は、ある大きな音素セットから1音素を削除しても言語的識別力が大きく減じられることがなければ、音素セットサイズを減じるためにその音素を削除してもよい、というものである。
【0022】
この実施例では、最大相互情報(Mutual Information:MI)基準に基づく音素セット設計を採用する。すなわち、MIを基本単位サブセットの言語的識別力の尺度として用いる。この実施例は中国語の最適化された音素セットを設計することに関するものである。
【0023】
基本単位セットΦは二つの具体的な局面で重要となる。すなわち、これは音響空間全体の主たる分類を規定し、さらに、言語空間の分類の重要な手がかりを提供する。
【0024】
図1は異なる基本単位セット、Φ={f,f,…f}及びΦ={p,p,…p}による直観的な影響力を示す。図1を参照して、Φの音素数MはΦの音素数Nよりはるかに大きいと仮定する(すなわち、N<<M)。Φは音響空間20をN個のサブスペースf,f,…fに分割し、Φは同じ音響空間22をより小さいサブスペースp,p,…pに分割する。従って、Φは頑健な音響モデルを提供することができるが、その一方で、識別力はΦのそれに比して弱い。
【0025】
図2はこの実施例の単位セットのトレーニングのための構成全体を示す。図2を参照して、トレーニングシステムは、トレーニング用の最新のASRシステム40と、言語モデルのための記憶部42と、レキシコンベースのデコードシステム44とを含む。
【0026】
トレーニング用ASRシステム40は、入力されたテキストWを音素シーケンスFに変換するための音声生成及びASRモジュール50と、音素シーケンスFによって形成される単語ラティス内のデコードされた単語テキストのうちで最も確率の高い単語テキスト^Wを、言語モデル42を参照しつつラティスの各経路をスコアリングすることによって選択するための単語ラティススコアリングモジュール52とを含む。
【0027】
レキシコンベースのデコードシステム44は、見出し語の各々を、それぞれの音素セットΦ及びΦを用いて記述する辞書62及び64と、辞書62及び64をそれぞれ用いて、入力テキストWを音素シーケンスF及びFに変換するためのレキシコンベースの変換モジュール60と、音素シーケンスF及びFによって形成される単語ラティス内の単語テキストのうちで最も確率の高い単語テキストW及びWを、言語モデル42を参照しつつラティスの各経路をスコアリングすることによって選択するための単語ラティススコアリングモジュール66とを含む。図2では説明を簡潔にするため、二つの辞書のみを示す。この実施例は中国語のASRシステムに関し、音素セットΦは声調情報を含み、一方音素セットΦはこれを含まない。
【0028】
トレーニング用ASRシステム40はトレーニングテキストWのコーパスを受け、以下の最大化式に従って、デコードされた単語^Wを出力する。
【0029】
【数3】

確率P(W|F)を最大にする音素セットが最適な音素セット^Φとして選択される。すなわち、
【0030】
【数4】

トレーニング用ASRシステム40とレキシコンベースのデコードシステム44との動作により、上述の式に従って、P(W|F)の要素を計算し、最適な音素セット^Φを選択することができる。
【0031】
図3はこの実施例の音素セット最適化システム80の全体構造を示す図である。図3を参照して、音素セット最適化システム80は、基本単位セット90の記憶装置と、トレーニングテキスト92の記憶装置と、基本単位セット90及びトレーニングテキスト92を用いて音素セットを最適化し、最適化された音素セット94を出力するための音素セット最適化モジュール96とを含む。
【0032】
音素セット最適化モジュール96は、コンピュータ上で実行されるソフトウェアで実現可能である。ソフトウェアの制御の流れを図4のフロー図で示す。図4を参照して、音素セット最適化モジュール96は以下のステップを実行する。初期音素セットΦ(すなわち基本単位セット90)で作業中の音素セットΦを置換える(ステップ100)。音素サブセットΦ(i=1からΦの要素数まで;Φ=Φ―{e};eはΦ中のi番目の音素)を生成する(ステップ102)。作業中のセットΦとサブセットΦの各々との間の相互情報MIを計算する(ステップ104)。以下の式を満たす指数Mを特定する(ステップ106)。
【0033】
【数5】

その後M番目の音素サブセットΦを選択し、選択されたサブセットΦ中の音素を用いてレキシコン及びテキストコーパスを作り変える(ステップ108)。作り変える過程において、レキシコンとテキストコーパスとは、レキシコンとテキストコーパス中で用いられている削除された音素を、それぞれ最も近い音素とマージするように更新される。
【0034】
音素セット最適化モジュール96はさらに、予め定められた停止条件が満たされたか否かを判断するステップを実行する(ステップ110)。もし条件が満たされれば、音素セット最適化モジュール96は動作を停止する。さもなければ、制御はステップ112に進み、ここで選択されたサブセットΦで作業中のセットΦを置換え、その後制御はステップ102に戻る。
【0035】
予め定められた数だけ繰返したあと、動作は停止する。これに代えて、相互情報の減少が予め定められたしきい値を超えた場合に動作を停止することもできる。
【0036】
音素セット最適化モジュール96は以下のように動作する。始めに、ステップ100で、基本単位セット90が作業用セットΦとして選択される。ステップ102で音素サブセットΦからΦまでが生成される。サブセットΦは作業中のセットΦから音素eを除くことで生成される。言換えれば、Φは作業中のセットΦにリーブ・ワン・アウト法を適用することによって生成される。
【0037】
ステップ104で、作業中のセットΦとサブセットΦからΦの各々との間の相互情報MIが計算される。ステップ106で、相互情報MI中で対応の相互情報MIを最大にする指数Mが選択される。
【0038】
ステップ108で、M番目の音素サブセット(サブセットΦ)が選択され、選択された音素サブセットΦを用いてレキシコンとテキストコーパスとが作り変えられる。
【0039】
ステップ110で、停止条件が満たされたか否かが判断される。もし条件が満たされていなければ、制御はステップ112に進み、ここでΦがΦと置換される。その後、制御はステップ102に戻り、ステップ102から108までが繰返される。停止条件が満たされると、動作は停止する。
【0040】
こうして、詳細な音素分類に基づいたものであってかつサイズの大きい初期単位セット90から始めて、音素セット最適化モジュール96は何らかの基準に従って繰返しながら音素セットを減じることができる。
【0041】
図5はこの実施例の検証実験の結果を示す。この実験では、声調情報を含む元の203単位からなるセットを減少させる。声調情報を含まない59単位のセットを比較のために用いた。これら二つのセットは最新の中国語ASRシステムで広く用いられているものである。検証用テキストコーパスは1,614個の短文を含み、単語数は合計で9,484個である。
【0042】
図5を参照して、59の声調なしの単位セットC(ボックス132で示す)と比較して、元の203の声調付きセットは、ビット表現でより高い相互情報を有する。線130で示す削減過程で、同じ59単位の数を備えて生成された単位セットは、図5の点Aで示すように、声調なしの単位セットに比べてより高い相互情報を維持した。言換えれば、生成されたセットAは、数が同じであるにもかかわらず、伝統的な59の声調なし単位セットよりも良好な言語的識別力を有する。図5の点Bの単位セットは、声調なし単位セットCとほぼ同じ量の相互情報を維持しているが、単位数は遥かに少ない。数は47であり、従ってこれはCセットより効率が良い。
【0043】
上述の通り、この実施例のシステムと方法とは、相互情報を減じることなく、音素セット中の音素の数をうまく減じることができる。タスクを特定したテキストをトレーニングに用いれば、音素セットはそのタスク用に最適化でき、その音素セットを用いれば、そのタスクについて十分な識別力を有する頑健な音響モデルを得ることができる。また、十分に詳細な識別力を有する言語モデルを提供できる。
【0044】
上述の実施例では音素セットを最適化したが、この発明は音素セットの最適化に限定されない。この発明は、ASRにおいて音素セットに置換可能ないずれの基本音素単位セットの最適化にも適用可能である。例えば、語彙が比較的小さい場合には、単位セットは語彙中の単語(単語発音)のセットであり得る。
【0045】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
【図面の簡単な説明】
【0046】
【図1】異なる基本単位セットからの直観的な影響力を示す図である。
【図2】この実施例の単位セットのトレーニングの全体構成を示す図である。
【図3】この実施例の音素セット最適化システム80の全体構造を例示する図である。
【図4】この実施例の音素セット最適化モジュール96を実現するソフトウェアの制御フローを示す図である。
【図5】この実施例の検証実験結果をグラフの形で示す図である。
【図6】先行技術による基本ASRスキームを示す図である。
【符号の説明】
【0047】
40 トレーニング用ASRシステム
42 言語モデル
44 レキシコンベースのデコードシステム
50 ASRモジュール
52 単語ラティススコアリングモジュール
60 レキシコンベースの変換モジュール
62、64 辞書
66 単語ラティススコアリングモジュール
80 音素セット最適化システム
90 基本単位セット
92 トレーニングテキスト
94 最適化音素セット
96 音素セット最適化モジュール

【特許請求の範囲】
【請求項1】
予め定められた言語の音素単位セットを最適化する方法であって、コンピュータに、
コンピュータ読出可能なフォーマットで基本単位セットを準備するステップと、
前記基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するステップと、
前記基本単位サブセットの各々について言語的識別力の所定の尺度を計算するステップと、
前記基本単位セットを、前記基本単位サブセットのうち最も高い言語的識別力を備えたもので置換えるステップと、
前記生成するステップ、計算するステップ、及び置換えるステップを、所定の基準が満たされるまで繰返すステップとを実行させる、予め定められた言語の音素単位セットを最適化する方法。
【請求項2】
前記計算するステップが、前記基本単位セットと、前記基本単位サブセットの各々との間の相互情報を計算するステップを含む、請求項1に記載の方法。
【請求項3】
前記置換えるステップが、前記基本単位セットを、前記基本単位サブセットのうち前記計算するステップで計算された相互情報の最も高い値を有するもので置換えるステップを含む、請求項2に記載の方法。
【請求項4】
前記基本単位セットは前記予め定められた言語のための基本音素セットである、請求項1〜請求項3のいずれかに記載の方法。
【請求項5】
予め定められた言語の単位セットを最適化するシステムであって、
基本単位セットをコンピュータ読出可能なフォーマットで記憶するための記憶手段と、
前記基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するための生成手段と、
前記基本単位サブセットの各々について言語的識別力の所定の尺度を計算するための計算手段と、
前記記憶手段に記憶された前記基本単位セットを、最も高い言語的識別力を有する基本単位サブセットで置換えるための置換手段と、
前記記憶手段、生成手段、計算手段及び置換手段を、所定の基準が満たされるまで繰返し動作するよう制御するための制御手段とを含む、システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2006−126730(P2006−126730A)
【公開日】平成18年5月18日(2006.5.18)
【国際特許分類】
【外国語出願】
【出願番号】特願2004−318208(P2004−318208)
【出願日】平成16年11月1日(2004.11.1)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成16年度独立行政法人情報通信研究機構、研究テーマ「大規模コーパスベース音声対話翻訳技術の研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】