説明

音響モデル適応装置、音響モデル適応方法、およびプログラム

【課題】パラメータ修正への寄与が大きく、かつ適応効果を低下させにくいデータを使って音響モデルの適応を行うことができる音響モデル適応装置を提供する。
【解決手段】本発明の音響モデル適応装置10は、音声認識部100が、入力された音声から、適応前音響モデルを用いて、音声認識結果テキストと信頼度を出力する。音声認識結果登録部200が、話者IDと音声と音声認識結果テキストと信頼度からなる音声認識結果を記憶する。苦手話者検出部300が、他の話者よりも音声認識精度が低い苦手話者の話者IDを抽出する。適応用データ選択部400が、話者IDが苦手話者の話者IDであり、かつ、信頼度が予め設定された信頼度閾値以上である音声認識結果を読み込み、適応用データを抽出する。音響モデル適応部500が、予め設定された適応パラメータを用いて、適応後音響モデルを出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識に用いる音響モデルの適応を行う音響モデル適応装置、音響モデル適応方法、およびプログラムに関する。
【背景技術】
【0002】
一般に、不特定多数の話者の音声を音声認識する場合には、不特定話者音響モデルが用いられる。不特定話者音響モデルは、多くの話者において(理想的にはすべての話者において)音声と音素との対応が正しく取れるようにパラメータが設定された音響モデルである。不特定話者音響モデルのパラメータは、数百人以上の多数の話者の音声と、その発声内容を記述したテキストのペアから機械学習アルゴリズムによって決定される。
【0003】
しかしながら、多数の話者の音声を学習に使ったとしても、音声認識システムを利用しうるすべての話者をカバーすることは不可能である。実際の音声認識システムでは、不特定話者音響モデルを用いても音声認識精度が他の話者よりも大きく低くなる話者(以下、苦手話者という。)が存在し、音声認識システムの利便性を低下させる問題が生じる。
【0004】
特許文献1には、この問題に対処するために、音声認識システム運用中に入力された音声のうち、音声認識の信頼度がある閾値を超えている場合、当該音声とその音声認識結果テキストのペアに対して音響モデル適応アルゴリズムを適用することにより、音響モデルのパラメータを更新する方法が記載されている(以下、音声認識結果テキストを用いた音響モデル適応を「教師なし適応」という。)。信頼度が高い音声を用いることで、音声認識結果テキストに含まれる認識誤りにより適応効果が薄れることを防ぐことができる。例えば、音声認識システム運用中に入力された音声を蓄積し、一定量蓄積されたタイミングで特許文献1の方法を適用することにより、実際に入力される音声にマッチするように音響モデルのパラメータを更新することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2011−75622号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に記載された方法では、音響モデルの教師なし適応に用いる音声を選択する際に、適応に用いるべきではないデータが多く選択されてしまう。適応に用いるべきではないデータとは、適応前の音響モデルのパラメータとマッチしている音声や、認識誤りを含む音声認識結果テキストなどである。高い信頼度を示す音声の多くは、適応前の音響モデルのパラメータとマッチしている。このような音声は音響モデル適応によるパラメータ修正への寄与が小さい。一方、信頼度の高い音声認識結果テキストにも少数ながら認識誤りが存在する。認識誤りを含む音声認識結果テキストを音響モデル適応に用いると音響モデル適応の効果を低下させる。このようなデータが適応に用いられることにより、音響モデルの教師なし適応の効果が抑制されてしまうという問題があった。
【0007】
本発明はこのような点に鑑みてなされたものであり、パラメータ修正への寄与が大きく、かつ適応の効果を低下させにくいデータを使って、音響モデルの教師なし適応を行うことができる音響モデル適応装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、本発明の音響モデル適応装置は、音響モデル記憶部と音声認識結果記憶部と音声認識部と音声認識結果登録部と苦手話者検出部と適応用データ選択部と音響モデル適応部を備える。音響モデル記憶部には、適応前音響モデルが記憶される。音声認識結果記憶部には、音声認識結果が記憶される。音声認識部は、入力された音声から、適応前音響モデルを用いて、少なくとも音声認識結果テキストと信頼度を出力する。音声認識結果登録部は、少なくとも話者IDと音声と音声認識結果テキストと信頼度からなる音声認識結果を、音声認識結果記憶部に記憶する。苦手話者検出部は、音声認識結果記憶部から、音声認識結果をすべて読み込み、予め設定された検出条件に基づいて、他の話者よりも音声認識精度が低い苦手話者の話者IDを抽出する。適応用データ選択部は、音声認識結果記憶部から、話者IDが苦手話者の話者IDであり、かつ、信頼度が予め設定された信頼度閾値以上である音声認識結果を読み込み、少なくとも音声と音声認識結果テキストからなる適応用データを抽出する。音響モデル適応部は、適応前音響モデルと適応用データから、予め設定された適応パラメータを用いて、適応後音響モデルを出力する。
【発明の効果】
【0009】
本発明によれば、蓄積された音声を用いた不特定話者音響モデルの教師なし適応において、苦手話者の音声のうち信頼度が高い音声を適応用データとして用いることによって、音響モデルの適応による認識精度向上効果を高めることができる。
【0010】
また、不特定話者音響モデルの認識精度向上は、話者間の音声認識精度のばらつきを小さくするため、より多くの利用者にとって利便性の高い音声認識システムを実現することができる。
【図面の簡単な説明】
【0011】
【図1】実施例1の音響モデル適応装置の構成を示すブロック図。
【図2】実施例1の音響モデル適応装置の動作を示すフローチャート。
【図3】実施例1の変型例の音響モデル適応装置の構成を示すブロック図。
【図4】実施例1の変型例の音響モデル適応装置の動作を示すフローチャート。
【図5】実施例2の音響モデル適応装置の構成を示すブロック図。
【図6】実施例2の音響モデル適応装置の動作を示すフローチャート。
【図7】実施例2の変型例の音響モデル適応装置の構成を示すブロック図。
【図8】実施例2の変型例の音響モデル適応装置の動作を示すフローチャート。
【発明を実施するための形態】
【0012】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0013】
まず、本発明の概要について説明する。実施例1では、音声認識システムに蓄積された音声を分析し苦手話者を検出する。検出した苦手話者の音声のうち信頼度が高い音声を適応用データとして用いて不特定話者音響モデルの教師なし適応を行う。苦手話者の音声は適応前音響モデルのパラメータとマッチしていないため、音響モデル適応によるパラメータ修正への寄与を大きくすることができる。さらに、苦手話者の音声のうち信頼度が高い音声を選別することで、誤りが比較的少ない音声認識結果テキストを適応用データとして用いて、音響モデル適応の効果が抑制されにくくすることができる。
【0014】
実施例1で最終的に出力される適応後音響モデルを使うと、検出した苦手話者以外の話者の音声において認識精度が大きく低下している可能性がある。そのため、実施例2では、複数の適応パラメータを用いて音響モデル適応を行い、複数の適応後音響モデル候補を生成する。生成した各音響モデル候補を用いて、蓄積された音声を再び音声認識して適応後の信頼度を算出し、適応前音響モデルからの信頼度が最も向上する音響モデル候補を適応後音響モデルとして採用する。生成された音響モデル候補のいずれを用いても信頼度がある閾値以上低下する場合には適応後音響モデルを棄却する。この処理により、蓄積された音声全体で認識精度が向上する(つまり、苦手話者以外の話者においても大きな認識精度低下がない)適応後音響モデルを出力することができる。
【実施例1】
【0015】
図1、図2を参照して、本発明の実施例1に係る音響モデル適応装置10の動作を詳細に説明する。図1は本発明の実施例1に係る音響モデル適応装置10の構成を示すブロック図である。図2は本発明の実施例1に係る音響モデル適応装置10の動作を示すフローチャートである。
【0016】
以下、実際に行われる手続きの順に説明してゆく。本実施例の音響モデル適応装置10は、音声認識部100、音声認識結果登録部200、苦手話者検出部300、適応用データ選択部400、音響モデル適応部500、音響モデル記憶部800、音声認識結果記憶部900を備える。
【0017】
音響モデル記憶部800には、適応前音響モデルが記憶されている。
【0018】
音声認識部100は、音声と音響モデル記憶部800に記憶された適応前音響モデルが入力され、入力された音声に対して音声認識を行う(S100)。音声認識と同時に信頼度を計算し、得られた音声認識結果テキストと信頼度をセットにして出力する。入力される音声は、音声文書(電話会議や講義などのような、複数の発話の連なり)としてもよいし、発話(無音区間に挟まれた、一呼吸に発生された音声区間)としてもよい。出力する信頼度は、入力された音声が音声文書である場合には音声文書認識信頼度となり、入力された音声が発話である場合には発話認識信頼度となる。音声文書認識信頼度は、例えば、「浅見太一,小橋川哲,山口義和,政瀧浩和,高橋敏,“単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度の推定”,信学技報,SP,110(43),pp.43-48,2010.」などに記載の方法で計算される。発話認識信頼度は、例えば、「特開2005−148342号公報」などに記載の方法で計算される。なお、以上で示した信頼度の計算方法は一例であり、この他にも様々な信頼度の計算方法を利用することが可能である。
【0019】
音声認識結果登録部200は、話者IDと音声と音声認識部100が出力する音声認識結果テキストと信頼度が入力され、入力された話者IDと音声と音声認識結果テキストと信頼度をセットにした音声認識結果を音声認識結果記憶部900へ記憶する(S200)。入力される話者IDは、例えば、音声認識システムによる利用者認証時に得られる利用者IDの値としてもよいし、「特開2000−148187」に記載の既存の話者識別技術を適用して得られる値としてもよい。
【0020】
苦手話者検出部300は、予め設定された検出条件θが入力され、0個以上の話者IDが含まれる苦手話者の話者IDを出力する。苦手話者検出部300が処理を実行するタイミングは、例えば、システム運用者による実行指示を受けたときとしてもよいし、予め設定された周期(毎月1日、毎週日曜日、など)としてもよいし、予め設定されたデータ量が登録されるたび(新規音声が1000個登録されるたび、など)としてもよい。
【0021】
苦手話者の検出は、音声認識結果記憶部900に記憶されているすべての話者IDについて、以下の(1)〜(4)の処理を行うことにより行われる。以下では、処理対象の話者IDがXであるものとして記述する。
【0022】
(1)音声認識結果記憶部900から、話者ID=Xとなっているすべての音声認識結果に含まれる信頼度を取得する(S301)。以下、取得した信頼度の集合をConfListID_Xという。
(2)音声認識結果記憶部900から、話者ID≠Xとなっているすべての音声認識結果に含まれる信頼度を取得する(S302)。以下、取得した信頼度の集合をConfListID_notXという。
(3)ConfListID_XとConfListID_notXから、検出条件θに基づいて話者ID=Xを苦手話者の話者IDとして検出するか否かを判断する。検出するか否かの判断方法は、以下のパターンA,Bのいずれを用いてもよい。
(パターンA)ConfListID_notXの平均値m_notXからConfListID_Xの平均値m_Xを減算した値が閾値θ以上であれば検出する。この場合、検出条件θは信頼度の平均の差の閾値である。θの決定方法は、例えば、音声認識結果記憶部900に記憶されているすべての信頼度の標準偏差σを算出し、θ=σとする方法がある。
(パターンB)ConfListID_notXの平均値m_notXとConfListID_Xの平均値m_Xに差があるかないかを検定し、有意水準θ%で「m_Xの方がm_notXより小さい」仮説が支持されれば検出する。検定方法にはt検定を用いる。この場合、検出条件θは検定の有意水準である。例えば、θ=5%と設定すればよい。
(4)検出すると判断された場合、話者ID=Xを苦手話者の話者IDとして出力する(S303)。
【0023】
苦手話者検出部300の出力する苦手話者の話者IDは、「他の話者よりも信頼度が低い方に偏っている話者(すなわち、認識精度が低くなっている話者)」を表す。(3)において、すべての話者IDが検出されず、苦手話者の話者IDがひとつも出力されなかった場合には、以降の処理は実行しない。
【0024】
適応用データ選択部400は、予め設定された信頼度閾値δと苦手話者検出部300が出力する苦手話者の話者IDが入力され、音響モデルの適応に用いる適応用データを出力する(S400)。音声認識結果記憶部900から、話者IDが入力された苦手話者の話者IDであり、かつ、信頼度が信頼度閾値δ以上の音声認識結果に含まれる音声と音声認識結果テキストをペアにして取得する。取得した音声と音声認識結果テキストのペアの集合を適応用データとして出力する。δの決定方法は、例えば、音声認識結果記憶部900に記憶されているすべての信頼度の平均値μおよび標準偏差σを算出し、δ=μ−σとするなどの方法がある。
【0025】
適応用データ選択部400の出力する適応用データは、適応前音響モデルのパラメータとマッチしていない話者に限定されているため、適応時のパラメータ修正への寄与が大きい。また、認識誤りが比較的少ない音声認識結果テキストが選択されているため、適応による効果が抑制されにくい。
【0026】
音響モデル適応部500は、予め設定された適応パラメータτと適応用データ選択部400が出力する適応用データと音響モデル記憶部800に記憶された適応前音響モデルが入力され、適応後音響モデルを出力する(S500)。適応後音響モデルは、適応前音響モデルと適応用データに対して、入力された適応パラメータτを用いて、音響モデル適応アルゴリズムを適用することで生成される。音響モデル適応アルゴリズムは、例えば、「J.-L.Gauvain and C.-H.Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”,IEEE trans. on Speech and Audio processing,2(2),pp.291-298,1994.」(参考文献1)などに記載された音響モデル適応アルゴリズムを利用することができる。適応パラメータτの意味は利用する音響モデル適応アルゴリズムによって異なるが、参考文献1に記載の音響モデル適応アルゴリズムを用いる場合には、適応前音響モデルに対する適応用データの重みを表す正の数値である。この場合、例えば、τ=50と設定すればよい。
【0027】
音響モデル適応部500の出力する適応後音響モデルは、適応前音響モデルがマッチしていなかった苦手話者にもマッチするようにパラメータが修正された音響モデルとなっている。
[変型例]
図3、図4を参照して、本発明の実施例1の変型例に係る音響モデル適応装置10’の動作を詳細に説明する。図3は本発明の実施例1の変型例に係る音響モデル適応装置10’の構成を示すブロック図である。図4は本発明の実施例1の変型例に係る音響モデル適応装置10’の動作を示すフローチャートである。
【0028】
本変型例の音響モデル適応装置10’は、音声認識部100、音声認識結果登録部200、苦手話者検出部300、適応用データ選択部400、音響モデル適応部510、音響モデル記憶部800、音声認識結果記憶部900を備える。
【0029】
音響モデル適応部510は、実施例1の音響モデル適応部500と同様の処理を行った後に(S511)、出力した適応後音響モデルを音響モデル記憶部800に記憶する(S512)。続いて、音声認識結果記憶部900に記憶されているすべての音声認識結果に含まれる音声を再び音声認識して(S513)、音声認識結果テキストと信頼度を更新する(S514)。その後、苦手話者検出部300以降の処理を繰り返し実行する。繰り返し処理は、例えば、事前に指定された回数(通常は2〜3回)適応後音響モデルの生成が行われるか(S992)、苦手話者検出部300が苦手話者の話者IDを一つも出力しないか(S991)、のいずれかが満たされたときに処理を停止する。
【実施例2】
【0030】
次に、図5、図6を参照して、本発明の実施例2に係る音響モデル適応装置20の動作を詳細に説明する。図5は本発明の実施例2に係る音響モデル適応装置20の構成を示すブロック図である。図6は本発明の実施例2に係る音響モデル適応装置20の動作を示すフローチャートである。
【0031】
以下、実際に行われる手続きの順に説明してゆく。本実施例の音響モデル適応装置20は、音声認識部100、音声認識結果登録部200、苦手話者検出部300、適応用データ選択部400、音響モデル適応部550、音響モデル選択部600、音響モデル記憶部800、音声認識結果記憶部900を備える。
【0032】
音響モデル適応部550は、予め設定された適応パラメータのリストと音響モデル記憶部800に記憶された適応前音響モデルと適応用データ選択部400が出力する適応用データが入力され、複数の適応後音響モデル候補を出力する(S550)。複数の適応後音響モデル候補は、入力された適応パラメータのリストに含まれる各適応パラメータを用いて、音響モデル適応アルゴリズムを適用することで、各適応パラメータに対応して生成される。音響モデル適応アルゴリズムは、実施例1の音響モデル適応部500と同じものを利用することができる。適応パラメータのリストは、例えば、参考文献1に記載の音響モデル適応アルゴリズムを用いる場合には、10から100までの値を10刻みで設定した10個の値などと設定することができる。値の範囲を広く設定するほど、また、細かい刻み幅に設定するほど、音響モデル選択部の処理で、より精度の高いモデルを選べるようになるが、計算時間が多くかかるようになる。
【0033】
音響モデル選択部600は、予め設定された信頼度低下幅閾値εと音響モデル適応部550が出力する複数の適応後音響モデル候補が入力され、適応後音響モデルを出力する。まず、音声認識結果記憶部900に記憶されているすべての信頼度の平均値である適応前信頼度平均値BeforeAveConfを計算する(S601)。次に、入力された複数の適応後音響モデル候補のそれぞれを用いて、音声認識結果記憶部900に記憶されているすべての音声認識結果に含まれる音声を音声認識し、同時に信頼度を計算し、適応後音響モデル候補毎に信頼度の平均値を求める(S602)。また、適応後音響モデル候補毎の信頼度の平均値の中から、最大値である適応後信頼度平均値AfterAveConf、および適応後信頼度平均値AfterAveConfに対応する適応後音響モデル候補MaxAcouを選択する。続いて、適応前信頼度平均値BeforeAveConfから適応後信頼度平均値AfterAveConfを減算することで、信頼度低下幅を求める(S603)。信頼度低下幅が、入力された信頼度低下幅閾値ε未満であれば、MaxAcouを適応後音響モデルとして出力し、信頼度低下幅が、信頼度低下幅閾値ε以上の場合には、何も出力せずに終了する(S604)。信頼度低下幅閾値εは、0以上の数値であり、例えば、事前に音声認識結果記憶部900に記憶されているすべての信頼度の標準偏差σを求め、ε=σなどと設定することができる。また、消極的に、信頼度が向上した場合のみ出力するようにε=0と設定してもよい。
【0034】
音響モデル選択部600の出力する適応後音響モデルは、音声認識結果記憶部900に記憶されている音声全体で信頼度を大きく低下させない(または、必ず向上させる)適応後音響モデルとなっている。
[変型例]
図7、図8を参照して、本発明の実施例2の変型例に係る音響モデル適応装置20’の動作を詳細に説明する。図7は本発明の実施例2の変型例に係る音響モデル適応装置20’の構成を示すブロック図である。図8は本発明の実施例2の変型例に係る音響モデル適応装置20’の動作を示すフローチャートである。
【0035】
本変型例の音響モデル適応装置20’は、音声認識部100、音声認識結果登録部200、苦手話者検出部300、適応用データ選択部400、音響モデル適応部550、音響モデル選択部610、音響モデル記憶部800、音声認識結果記憶部900を備える。
【0036】
音響モデル選択部610は、実施例2の音響モデル選択部600と同様の処理を行った後に(S611〜S614)、出力した適応後音響モデルを音響モデル記憶部800に記憶する(S615)。続いて、音声認識結果記憶部900に記憶されているすべての音声認識結果に含まれる音声を再び音声認識して(S616)、音声認識結果テキストと信頼度を更新する(S617)。その後、苦手話者検出部300以降の処理を繰り返し実行する。繰り返し処理は、例えば、事前に指定された回数(通常は2〜3回)適応後音響モデルの生成が行われるか(S992)、苦手話者検出部300が苦手話者の話者IDを一つも出力しないか(S991)、音響モデル選択部610が適応後音響モデルを出力しないか(S993)、のいずれかが満たされたときに処理を停止する。
【0037】
<プログラム、記録媒体>
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0038】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0039】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0040】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0041】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0042】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【産業上の利用可能性】
【0043】
本発明は、音声認識に用いる不特定話者音響モデルの教師なし適応を行うために利用することができる。
【符号の説明】
【0044】
10、10’、20、20’ 音響モデル適応装置
100 音声認識部
200 音声認識結果登録部
300 苦手話者検出部
400 適応用データ選択部
500、510、550 音響モデル適応部
600、610 音響モデル選択部
800 音響モデル記憶部
900 音声認識結果記憶部

【特許請求の範囲】
【請求項1】
音響モデル記憶部に、適応前音響モデルが記憶されており、
音声認識部が、入力された音声から、前記適応前音響モデルを用いて、少なくとも音声認識結果テキストと信頼度を出力する音声認識ステップと、
音声認識結果登録部が、少なくとも話者IDと前記音声と前記音声認識結果テキストと前記信頼度からなる音声認識結果を、音声認識結果記憶部に記憶する音声認識結果登録ステップと、
苦手話者検出部が、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、予め設定された検出条件に基づいて、他の話者よりも音声認識精度が低い苦手話者の話者IDを抽出する苦手話者検出ステップと、
適応用データ選択部が、前記音声認識結果記憶部から、話者IDが前記苦手話者の話者IDであり、かつ、信頼度が予め設定された信頼度閾値以上である音声認識結果を読み込み、少なくとも前記音声と前記音声認識結果テキストからなる適応用データを抽出する適応用データ選択ステップと、
音響モデル適応部が、前記適応前音響モデルと前記適応用データから、予め設定された適応パラメータを用いて、適応後音響モデルを出力する音響モデル適応ステップと、
を有することを特徴とする音響モデル適応方法。
【請求項2】
請求項1に記載の音響モデル適応方法であって、
前記検出条件は、話者IDが当該話者IDである音声認識結果に含まれる信頼度の平均値を、話者IDが当該話者ID以外である音声認識結果に含まれる信頼度の平均値から、減算した値が、予め設定された閾値以上であれば、当該話者IDを苦手話者の話者IDとするものである
ことを特徴とする音響モデル適応方法。
【請求項3】
請求項1に記載の音響モデル適応方法であって、
前記検出条件は、予め設定された有意水準で、話者IDが当該話者IDである音声認識結果に含まれる信頼度の平均値が、話者IDが当該話者ID以外である音声認識結果に含まれる信頼度の平均値より小さいことが検定により支持されれば、当該話者IDを苦手話者の話者IDとするものである
ことを特徴とする音響モデル適応方法。
【請求項4】
請求項1から3のいずれかに記載の音響モデル適応方法であって、
音響モデル選択ステップをさらに有し、
前記音響モデル適応ステップは、複数の適応パラメータが予め設定されており、前記適応前音響モデルと前記適応用データから、前記適応パラメータ毎に、複数の適応後音響モデル候補を出力し、
前記音響モデル選択ステップは、音響モデル選択部が、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、前記音声認識結果に含まれるすべての信頼度を用いて、適応前信頼度平均値を求め、前記音声認識結果に含まれるすべての音声と前記適応後音響モデル候補を用いて、適応後信頼度平均値を求め、前記適応後信頼度平均値から前記適応前信頼度平均値を減算して信頼度低下幅を求め、前記信頼度低下幅が予め設定した信頼度低下幅閾値未満であれば、前記適応後信頼度平均値に対応する適応後音響モデル候補を適応後音響モデルとして出力する
ことを特徴とする音響モデル適応方法。
【請求項5】
請求項1から3のいずれかに記載の音響モデル適応方法であって、
前記音響モデル適応ステップは、出力した適応後音響モデルを前記音響モデル記憶部に記憶し、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、前記音声認識結果に含まれるすべての音声について、前記適応後音響モデルを用いて、音声認識結果テキストと信頼度を出力し、当該音声認識結果テキストと当該信頼度を前記音声認識結果記憶部に記憶し、
前記苦手話者検出ステップと前記適応用データ選択ステップと前記音響モデル適応ステップを、所定の条件を満たすまで繰り返し実行する
ことを特徴とする音響モデル適応方法。
【請求項6】
請求項4に記載の音響モデル適応方法であって、
前記音響モデル選択ステップは、出力した適応後音響モデルを前記音響モデル記憶部に記憶し、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、前記音声認識結果に含まれるすべての音声について、前記適応後音響モデルを用いて、音声認識結果テキストと信頼度を出力し、当該音声認識結果テキストと当該信頼度を前記音声認識結果記憶部に記憶し、
前記苦手話者検出ステップと前記適応用データ選択ステップと前記音響モデル適応ステップと音響モデル選択ステップを、所定の条件を満たすまで繰り返し実行する
ことを特徴とする音響モデル適応方法。
【請求項7】
適応前音響モデルを記憶する音響モデル記憶部と、
音声認識結果を記憶する音声認識結果記憶部と、
入力された音声から、前記適応前音響モデルを用いて、少なくとも音声認識結果テキストと信頼度を出力する音声認識部と、
少なくとも話者IDと前記音声と前記音声認識結果テキストと前記信頼度からなる音声認識結果を、前記音声認識結果記憶部に記憶する音声認識結果登録部と、
前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、予め設定された検出条件に基づいて、他の話者よりも音声認識精度が低い苦手話者の話者IDを抽出する苦手話者検出部と、
前記音声認識結果記憶部から、話者IDが前記苦手話者の話者IDであり、かつ、信頼度が予め設定された信頼度閾値以上である音声認識結果を読み込み、少なくとも前記音声と前記音声認識結果テキストからなる適応用データを抽出する適応用データ選択部と、
前記適応前音響モデルと前記適応用データから、予め設定された適応パラメータを用いて、適応後音響モデルを出力する音響モデル適応部と、
を備えることを特徴とする音響モデル適応装置。
【請求項8】
請求項7に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−83798(P2013−83798A)
【公開日】平成25年5月9日(2013.5.9)
【国際特許分類】
【出願番号】特願2011−223745(P2011−223745)
【出願日】平成23年10月11日(2011.10.11)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】