説明

言語モデル生成装置、言語モデル生成方法および言語モデル生成プログラム

【課題】音声認識精度の高い話者の発話に対して応答する話者の発話音声の音声認識精度が低い場合においても、音声認識精度を高める言語モデルを生成することができる言語モデル生成装置を提供する。
【解決手段】会話に参加する音声認識精度が高い話者の発話の特徴である発話特徴を抽出する発話特徴抽出手段101と、発話特徴抽出手段101が抽出した発話特徴と、特定の会話における発話音声を書き起こしたテキスト、発話音声ないし会話から得られる音声特徴量、および発話音声ないし会話から得られる話者情報を対応づけた会話コーパスとを用いて、言語モデル生成用の学習データを選別する言語モデル学習データ選別手段102と、言語モデル学習データ選別手段102が選別した学習データを優先的に用いて、言語モデルを生成する言語モデル生成手段103とを備えたことを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語モデル生成装置、言語モデル生成方法および言語モデル生成プログラムに関する。
【背景技術】
【0002】
音声認識精度を高める技術は種々存在するが、それらの1つとして、認識対象とする音声を1度音声認識し、その音声認識結果を用いて、認識対象の音声認識精度を高める言語モデルを生成する技術が存在する。
【0003】
例えば、非特許文献1に記載された技術では、講演音声を対象として、講演者の発話を音声認識し、その音声認識結果を元に作成した言語モデルを用いて、音声認識精度を高める。
【0004】
また、他の例として、非特許文献2に記載された技術では、音声対話システムを対象として、音声対話システムを利用するユーザがこれまでに発話した音声の音声認識結果と、音声対話システムがユーザに発話したテキストとを用いて言語モデルを生成し、音声対話システムを利用するユーザの次発話の音声認識精度を高める。
【0005】
また、関連する技術として、例えば、特許文献1には、学習コーパスから強調させたい部分を選択して強調学習コーパスを作成し、強調学習コーパスを用いて言語モデルを作成するシステムが記載されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】国際公開第2007/083496号公報
【非特許文献】
【0007】
【非特許文献1】南條浩輝他、「講演音声認識のための言語モデルの教師なし適応」2002-SLP-44-32
【非特許文献2】太田護他、「音声対話システムにおける言語モデルのオンライン適応についての検討」SP2003-63
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上記の技術では、認識対象とする音声の1度目の音声認識結果の音声認識精度が低い場合、認識対象を高精度に認識可能な言語モデルを生成することができない。
【0009】
非特許文献2に記載された技術については、音声対話システムがユーザに発話したテキストも言語モデルの生成に用いるため、音声対話システムがユーザに発話したテキストについては音声認識誤りの影響を受けない。しかしながら、追加されるテキストは音声対話システムがユーザに発話したテキストのみであり、音声対話システムを利用するユーザの発話が、音声対話システムがユーザに発話したテキストと異なる場合、音声認識精度を高めることはできない。
【0010】
また、特許文献1に記載された方法を用いれば、コールセンタ等における会話において、コーパス中の意味のある部分を強調しておくことで、より精度よく音声認識させるような音声認識用言語モデルを作成することができる。しかしながら、例えば、コールセンタにおけるオペレータと顧客との会話において、いずれかの話者の音声認識精度が低い場合に、音声認識精度を高めることを目的として適用することはできない。
【0011】
そこで、本発明は、音声認識精度が高い話者の発話に対して応答する話者の発話音声の音声認識精度が低い場合においても、音声認識精度を高める言語モデルを生成することができる言語モデル生成装置、言語モデル生成方法及び言語モデル生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明による言語モデル生成装置は、会話に参加する音声認識精度が高い話者の発話の特徴である発話特徴を抽出する発話特徴抽出手段と、発話特徴抽出手段が抽出した発話特徴と、特定の会話における発話音声を書き起こしたテキスト、発話音声ないし特定の会話から得られる音声特徴量、および発話音声ないし特定の会話から得られる話者情報を対応づけた会話コーパスとを用いて、言語モデル生成用の学習データを選別する言語モデル学習データ選別手段と、言語モデル学習データ選別手段が選別した学習データを優先的に用いて、言語モデルを生成する言語モデル生成手段とを備えたことを特徴とする。
【0013】
本発明による言語モデル生成方法は、会話に参加する音声認識精度が高い話者の発話の特徴である発話特徴を抽出し、抽出した発話特徴と、特定の会話における発話音声を書き起こしたテキスト、発話音声ないし特定の会話から得られる音声特徴量、および発話音声ないし特定の会話から得られる話者情報を対応づけた会話コーパスとを用いて、言語モデル生成用の学習データを選別し、選別した学習データを優先的に用いて、言語モデルを生成することを特徴とする。
【0014】
本発明による言語モデル生成プログラムは、コンピュータに、会話に参加する音声認識精度が高い話者の発話の特徴である発話の発話特徴を抽出する発話特徴抽出処理と、抽出した発話特徴と、特定の会話における発話音声を書き起こしたテキスト、発話音声ないし特定の会話から得られる音声特徴量、および発話音声ないし特定の会話から得られる話者情報を対応づけた会話コーパスとを用いて、言語モデル生成用の学習データを選別する言語モデル学習データ選別処理と、選別した学習データを優先的に用いて、言語モデルを生成する言語モデル生成処理とを実行させることを特徴とする。
【発明の効果】
【0015】
本発明によれば、音声認識精度が高い話者の発話に応答する話者の発話音声の音声認識精度が低い場合においても、音声認識精度を高める言語モデルを生成することができる。
【図面の簡単な説明】
【0016】
【図1】本発明による言語モデル生成装置の構成の一例を示すブロック図である。
【図2】言語モデル生成装置の動作の一例を示す流れ図である。
【図3】言語モデル生成装置の最小の構成例を示すブロック図である。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について図面を参照して説明する。図1は、本発明の実施形態に係る言語モデル生成装置100の構成を示すブロック図である。
【0018】
同図に示すように、本実施形態の言語モデル生成装置100は、会話コーパス10と、発話特徴抽出手段101と、言語モデル学習データ選別手段102と、言語モデル生成手段103とを備えている。言語モデル生成装置100は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。
【0019】
会話コーパス10は、会話において発話された音声を書き起こしたテキストと、その音声から得られる音声特徴量、発話した話者、発話した時間等を示す情報とを対応づけて記憶デバイスに記憶されている。会話コーパス10は、具体的には、光ディスク装置や磁気ディスク装置等の記憶デバイスに記憶される。
【0020】
発話特徴抽出手段101は、発話音声の特徴を抽出する機能を備えている。また、言語モデル学習データ選別手段102は、会話コーパス10と発話特徴抽出手段101が抽出した発話特徴とを用いて、言語モデル生成用の学習データを選別する機能を備えている。また、言語モデル生成手段103は、言語モデル学習データ選別手段102が選別したデータを用いて、言語モデルを生成する機能を備えている。
【0021】
発話特徴抽出手段101と、言語モデル学習データ選別手段102と、言語モデル生成手段103とは、言語モデル生成装置100のCPU(図示略)が実行するプログラムに対応する構成要素である。
【0022】
会話コーパス10は、会話において発話された音声を書き起こしたテキストと、その音声から得られる音声特徴量や発話した話者、発話した時間等を示す情報とを対応づけて記憶されたデータである。1つの実施形態において、音声から得られる音声特徴量とは、例えば、発話音声の基本周波数や音声認識に用いる特徴ベクトルがある。また話者とは、会話において発話した話者を表したものであり、例えば、発話者の氏名や、役割などがある。また、役割とは、例えば、会議における議長や、コールセンタにおけるオペレータ、顧客などがあげられる。また、発話した時間とは、例えば、会話における会話開始時間からの絶対時間や、発話音声の時間長などがある。上記の情報以外にも、テキストと対応づけられる情報として、例えば、発話者が怒っているなどの感情、発話テキストが質問文、陳述文であるといった発話テキストのスタイルなどがあげられる。
【0023】
発話特徴抽出手段101は、認識精度が高い話者の発話音声を入力とし、その発話音声に含まれる発話特徴を出力する。1つの実施形態において、例えば、発話音声を音声認識し、その音声認識結果を発話特徴とすることができる。他にも発話音声を分析して得られる基本周波数や特徴ベクトル、発話音声の感情、音声認識結果テキストのスタイル、入力される発話音声の時間長などを発話特徴とすることも可能である。
【0024】
言語モデル学習データ選別手段102は、会話コーパス10と、発話特徴抽出手段101が抽出した、音声認識精度が高い話者の発話特徴とを用いて、音声認識精度が高い話者の発話に対して応答する、別の話者が発話しうる発話テキストを、言語モデルの学習データとして選別する。
【0025】
言語モデル生成手段103は、言語モデル学習データ選別手段102が選別した学習データを用いて、言語モデルを生成する。
【0026】
次に、図2に示すフローチャートを参照して、言語モデル生成装置100の具体的な動作について説明する。
【0027】
言語モデル生成装置100は、認識精度が高い話者の発話音声を発話特徴抽出手段101に入力する。また、言語モデル生成装置100は、記憶デバイスから会話コーパス10を読み出し、言語モデル学習データ選別手段102に入力する(ステップS11)。
【0028】
次に、発話音声特徴抽出手段101は、入力された発話音声に含まれる特徴を抽出する(ステップS12)。具体的には、例えば、入力された発話音声の音声認識結果テキストを特徴とする場合、入力された発話を音声認識し、その認識結果テキストを得る。
【0029】
次に、言語モデル学習データ選別手段102は、会話コーパス10とステップS12で抽出された発話特徴とを用いて、発話特徴を含む発話を会話コーパスから特定する。そして、言語モデル学習データ選別手段102は、特定した発話に対して応答する、異なる話者の発話音声に関するテキストを、言語モデル学習データとして選別する(ステップS13)。
【0030】
このステップの具体的な動作を、コンタクトセンタにおける会話を例に説明する。今、会話として、コンタクトセンタにおけるオペレータと顧客との2者による会話を考える。一般にコンタクトセンタのオペレータと顧客との発話の音声認識精度は、オペレータが高く、顧客は低い。これは、コンタクトセンタのオペレータが発話内容、発話方法についてトレーニングを受けている一方で、顧客はそのようなトレーニングを受けていないことが一因である。そこで、本例では、本発明の音声認識精度の高い話者の発話音声としてオペレータの発話音声を入力とし、他方すなわち顧客の発話の音声認識精度を高める言語モデルを生成するための言語モデル学習データ選別方法について説明する。
【0031】
今、入力されるオペレータの発話として「どのようなご用件でしょうか?」という音声の発話が言語モデル生成装置100に入力されたとする。また、発話特徴抽出手段101において、その発話の音声認識結果として、「どのようなご用件でしょうか」というテキストが得られ、その音声認識結果が言語モデル学習データ選別手段102に入力されたとする。
【0032】
このとき、言語モデル学習データ選別手段102は、まず、入力された発話特徴、すなわち「どのようなご用件でしょうか」を含む発話を会話コーパス10から特定する。特定する方法としては、例えば、発話特徴中の単語を含んだ発話を基準とし、会話コーパス10から、基準に合致する発話テキストを特定することができる。上記例では、例えば、発話特徴中の単語を含む発話として、会話コーパス10から「ご用件は」「ご用件お伺いできますか」などの発話を特定することができる。
【0033】
次に、言語モデル学習データ選別手段102は、特定された発話に対して応答する、異なる話者、すなわち顧客の発話音声に関するテキストを、会話コーパス10から言語モデル学習データとして選別する。上記例では、特定された「ご用件は」「ご用件お伺いできますか」のオペレータの発話に対して応答する、顧客の発話音声に関するテキスト、例えば、「プリンタが故障したんですけど」「使い方がわからないんですが」などを、会話コーパス10から選別することができる。このように、オペレータの「どのようなご用件でしょうか」の発話に対して応答する顧客の発話しうるテキストを、言語モデル学習データとして選別することができる。
【0034】
上記の例では、音声認識精度の高い話者のコールセンタ会話における1発話を入力とし、出力として、その1発話に対して応答する他方の顧客の発話の音声認識精度を高める言語モデルを生成するための言語モデル学習データの選別方法について説明した。
【0035】
しかしながら、本発明において入力とする、音声認識精度の高い話者の発話音声の量、および出力となる他方の顧客の発話の音声認識精度を高める言語モデルの適用範囲は、実現形態によって種々の形態をとることができる。
【0036】
例えば、音声認識精度の高い話者の発話音声の量は、本発明の目的とする所望の言語モデルを会話終了後に必要とする場合と、会話中に必要とする場合とによって異なる。具体的には、所望の言語モデルを会話終了後に必要とする場合には、会話の開始から終了までの全てもしくはその一部の音声を利用できる。一方で、所望の言語モデルを会話中に必要とする場合には、会話の開始から所望の言語モデルを必要とするタイミングまでの全てもしくはその一部の音声のみが利用できる。
【0037】
このように、音声認識精度の高い話者の発話音声の量は、実現形態によって様々な量を入力することができる。また、出力となる他方の顧客の発話の音声認識精度を高める言語モデルについても、実現形態によって様々な言語モデルを出力することができる。例えば、ある会話全体における他方の顧客の発話の音声認識精度を高める言語モデルを必要とする場合や、音声認識精度の高い話者の発話に対して応答する次の発話について音声認識精度を高める言語モデルを必要とする場合などの実現形態が想定される。
【0038】
そこで、会話全体の音声を入力とし、ある会話全体における他方の顧客の発話の音声認識精度を高める言語モデルを生成する場合について次に述べる。
【0039】
会話全体の音声を入力とする場合についても、上述した場合と同様に、音声認識精度が高いオペレータの会話音声の全ての発話の音声認識結果毎に、各発話に対して応答する顧客の発話音声に関するテキストを、会話コーパス10から言語モデル学習データとして選別することができる。例えば、「ご用件は?」「ご迷惑おかけして申し訳ございません」「修理にお伺いしますのでご住所は?」などのオペレータの各発話に対して応答する顧客が発話しうるテキストとして「プリンタが故障したんですけど」「すぐ直してください」「住所は東京都港区」などを言語モデル学習データとして選別することができる。
【0040】
会話コーパスに含まれるテキストは、種々の話題を含むことが多く、例えば、コールセンタにおける会話では、商品注文受付/クレーム対応/商品説明などの多様な話題を含む。このような会話コーパスに含まれる多様な話題に関するテキスト中から、オペレータの各発話に対して応答する顧客の発話しうるテキストを言語モデル学習データとして選別することができる。
【0041】
次に、言語モデル生成手段103は、ステップS13で選別された言語モデル学習データを用いて、言語モデルを生成する(ステップS14)。言語モデルの生成技術としては、例えば、文献(鹿野清宏、他著、「音声認識システム」、オーム社、2001年5月15日、P71〜92)などに記載された技術を用いることができる。詳細な説明は、本発明の本質とは異なるため省略する。
【0042】
以上、説明した実施形態では、音声認識精度が高い話者の発話音声から抽出される発話特徴を用いて、会話コーパスに含まれる音声認識精度が高い話者の発話を特定する。そして、その音声認識精度が高い話者の発話に対して応答する、異なる話者の発話音声に関するテキストを、会話コーパスから言語モデル学習データとして選別する。その後、選別した言語モデル学習データを用いて、その音声認識精度が低い話者の音声認識精度を高める言語モデルを生成する。したがって、認識対象の話者の発話音声の音声認識精度が低い場合においても、音声認識精度を高める言語モデルを生成することができる。
【0043】
以上のように、本発明による言語モデル生成装置は、少なくとも1人以上の会話の音声認識において、会話に参加する話者の中で、音声認識精度が高い話者の発話音声の特徴である発話特徴を抽出する発話特徴抽出手段と、発話特徴抽出手段が抽出した発話特徴と、ある会話における発話音声を書き起こしたテキストとその発話音声および会話から得られる音声特徴量や話者情報等を対応づけた会話コーパスとを用いて、音声認識精度が高い話者の発話に対して応答する、別の話者が発話しうる発話テキストを、会話コーパスから選別する言語モデル学習データ選別手段と、言語モデル学習データ選別手段で選別された発話テキストを用いて、言語モデルを生成する言語モデル生成手段とを備える。このような構成を採用することによって、音声認識精度が高い話者の発話に対して応答する話者の発話音声の音声認識精度が低い場合においても、音声認識精度を高める言語モデルを生成することができる。
【0044】
次に、本発明による言語モデル生成装置の最小構成について説明する。図3は、言語モデル生成装置の最小の構成例を示すブロック図である。図3に示すように、言語モデル生成装置100は、発話特徴抽出手段101と、言語モデル学習データ選別手段102と、言語モデル生成手段103と含む。
【0045】
図3に示す最小構成の言語モデル生成装置では、発話特徴抽出手段101は、会話に参加する音声認識精度が高い話者の発話の特徴である発話特徴を抽出する。すると、言語モデル学習データ選別手段102は、発話特徴抽出手段101が抽出した発話特徴と、特定の会話における発話音声を書き起こしたテキスト、発話音声ないし会話から得られる音声特徴量、および発話音声ないし会話から得られる話者情報を対応づけた会話コーパスとを用いて、言語モデル生成用の学習データを選別する。そして、言語モデル生成手段103は、言語モデル学習データ選別手段102が選別した学習データを優先的に用いて、言語モデルを生成する。
【0046】
従って、最小構成の言語モデル生成装置によれば、音声認識精度が高い話者の発話に対して応答する話者の発話音声の音声認識精度が低い場合においても、音声認識精度を高める言語モデルを生成することができる。
【0047】
なお、本実施形態では、以下の(1)〜(5)に示すような言語モデル生成装置の特徴的構成が示されている。
【0048】
(1)言語モデル生成装置は、会話に参加する音声認識精度が高い話者の発話の特徴である発話特徴を抽出する発話特徴抽出手段(例えば、発話特徴抽出手段101によって実現される)と、発話特徴抽出手段が抽出した発話特徴と、特定の会話における発話音声を書き起こしたテキスト、発話音声ないし会話から得られる音声特徴量、および発話音声ないし会話から得られる話者情報を対応づけた会話コーパス(例えば、会話コーパス10)とを用いて、言語モデル生成用の学習データを選別する言語モデル学習データ選別手段(例えば、言語モデル学習データ選別手段102によって実現される)と、言語モデル学習データ選別手段が選別した学習データを優先的に用いて、言語モデルを生成する言語モデル生成手段(例えば、言語モデル生成手段103によって実現される)とを備えたことを特徴とする。
【0049】
(2)言語モデル生成装置において、言語モデル学習データ選別手段は、特定の会話における発話音声を書き起こしたテキストと対応づけられる情報として、発話音声の音量、発話音声の基本周波数、発話音声を音声認識する際に用いる音声特徴量、発話音声の発声時間長、発話音声の感情、発話者の話者名、発話者の会話における役割、会話における発話の発言時間、または発話音声を書き起こしたテキストのスタイルのいずれか1つ以上を含む会話コーパスを用いて、学習データを選別するように構成されていてもよい。
【0050】
(3)言語モデル生成装置において、発話特徴抽出手段は、発話特徴として、発話音声の音量、発話音声の基本周波数、発話音声を音声認識する際に用いる音声特徴量、発話音声の発生時間長、発話音声の感情、発話者の話者名、発話者の会話における役割、会話における発話の発言時間、または発話音声を書き起こしたテキストのスタイルのいずれか1つ以上を抽出するように構成されていてもよい。
【0051】
(4)言語モデル生成装置において、言語モデル学習データ選別手段は、発話特徴抽出手段が抽出した、音声認識精度が高い話者の発話特徴のいずれか1つ以上を用いて、会話コーパスに含まれる音声認識精度が高い話者の発話テキストを特定し、会話コーパスにおいて発話テキストに対応づけられた情報に基づいて、音声認識精度が高い話者の発話に対して応答する、別の話者が発話しうる発話テキストを選別するように構成されていてもよい。
【0052】
(5)言語モデル生成装置において、言語モデル生成手段は、言語モデル学習データ選別手段が選別した発話テキストを学習データとして優先的に用いて、言語モデルを生成するように構成されていてもよい。
【産業上の利用可能性】
【0053】
本発明は、少なくとも1人以上の会話に用いる音声認識や機械翻訳などの言語モデルを用いた装置や、その装置をコンピュータに実現するためのプログラムといった用途に適用可能である。
【符号の説明】
【0054】
10 会話コーパス
100 コンピュータ(中央処理装置;プロセッサ;データ処理装置)
101 発話特徴抽出手段
102 言語モデル学習データ選別手段
103 言語モデル生成手段

【特許請求の範囲】
【請求項1】
会話に参加する音声認識精度が高い話者の発話の特徴である発話特徴を抽出する発話特徴抽出手段と、
前記発話特徴抽出手段が抽出した発話特徴と、特定の会話における発話音声を書き起こしたテキスト、該発話音声ないし該特定の会話から得られる音声特徴量、および該発話音声ないし該特定の会話から得られる話者情報を対応づけた会話コーパスとを用いて、言語モデル生成用の学習データを選別する言語モデル学習データ選別手段と、
前記言語モデル学習データ選別手段が選別した学習データを優先的に用いて、言語モデルを生成する言語モデル生成手段とを
備えたことを特徴とする言語モデル生成装置。
【請求項2】
言語モデル学習データ選別手段は、特定の会話における発話音声を書き起こしたテキストと対応づけられる情報として、発話音声の音量、発話音声の基本周波数、発話音声を音声認識する際に用いる音声特徴量、発話音声の発声時間長、発話音声の感情、発話者の話者名、発話者の会話における役割、会話における発話の発言時間、または発話音声を書き起こしたテキストのスタイルのいずれか1つ以上を含む会話コーパスを用いて、学習データを選別する
請求項1記載の言語モデル生成装置。
【請求項3】
発話特徴抽出手段は、発話特徴として、発話音声の音量、発話音声の基本周波数、発話音声を音声認識する際に用いる音声特徴量、発話音声の発生時間長、発話音声の感情、発話者の話者名、発話者の会話における役割、会話における発話の発言時間、または発話音声を書き起こしたテキストのスタイルのいずれか1つ以上を抽出する
請求項1又は請求項2記載の言語モデル生成装置。
【請求項4】
言語モデル学習データ選別手段は、発話特徴抽出手段が抽出した、音声認識精度が高い話者の発話特徴のいずれか1つ以上を用いて、会話コーパスに含まれる音声認識精度が高い前記話者の発話テキストを特定し、前記会話コーパスにおいて前記発話テキストに対応づけられた情報に基づいて、音声認識精度が高い前記話者の発話に対して応答する、別の話者が発話しうる発話テキストを選別する
請求項1から請求項3のうちのいずれか1項に記載の言語モデル生成装置。
【請求項5】
言語モデル生成手段は、言語モデル学習データ選別手段が選別した発話テキストを学習データとして優先的に用いて、言語モデルを生成する
請求項4記載の言語モデル生成装置。
【請求項6】
会話に参加する音声認識精度が高い話者の発話の特徴である発話特徴を抽出し、
抽出した発話特徴と、特定の会話における発話音声を書き起こしたテキスト、該発話音声ないし該特定の会話から得られる音声特徴量、および該発話音声ないし該特定の会話から得られる話者情報を対応づけた会話コーパスとを用いて、言語モデル生成用の学習データを選別し、
選別した学習データを優先的に用いて、言語モデルを生成する
ことを特徴とする言語モデル生成方法。
【請求項7】
コンピュータに、
会話に参加する音声認識精度が高い話者の発話の特徴である発話特徴を抽出する発話特徴抽出処理と、
抽出した発話特徴と、特定の会話における発話音声を書き起こしたテキスト、該発話音声ないし該特定の会話から得られる音声特徴量、および該発話音声ないし該特定の会話から得られる話者情報を対応づけた会話コーパスとを用いて、言語モデル生成用の学習データを選別する言語モデル学習データ選別処理と、
選別した学習データを優先的に用いて、言語モデルを生成する言語モデル生成処理とを
実行させるための言語モデル生成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−247668(P2012−247668A)
【公開日】平成24年12月13日(2012.12.13)
【国際特許分類】
【出願番号】特願2011−120123(P2011−120123)
【出願日】平成23年5月30日(2011.5.30)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】