コーパス選別装置、コーパス選別方法、およびプログラム

【課題】言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立できる学習コーパスを選別するコーパス選別装置、コーパス選別方法、およびプログラムを提供すること。
【解決手段】コーパス選別装置ＡＡは、学習コーパス（全体）を学習コーパス（サブセット１）〜学習コーパス（サブセット３）に分割し、言語モデリングにより、学習コーパス（サブセット１）〜学習コーパス（サブセット３）のそれぞれに対応するサブセット言語モデル１〜３を生成する。そして、サブセット言語モデル１〜３のそれぞれについて、タスク表現コーパスを用いてｐｅｒｐｌｅｘｉｔｙを算出して、ｐｅｒｐｌｅｘｉｔｙ−１〜ｐｅｒｐｌｅｘｉｔｙ−Ｙを求める。そして、ｐｅｒｐｌｅｘｉｔｙの低いサブセット言語モデルに対応する学習コーパスを、学習コーパス（全体）から除去して、学習コーパス（選別済み）を選別する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、コーパス選別装置、コーパス選別方法、およびプログラムに関する。
【背景技術】
【０００２】
従来より、音声認識を行う際に、言語モデルが用いられる場合がある（例えば、特許文献１参照）。この言語モデルは、図１３に示すように、言語モデリング（確率統計処理）により、学習コーパスを用いて生成される。
【０００３】
学習コーパスとは、いわゆるテキストデータベースのことであり、例えば、形態素解析といった手法により平文から分割された複数の単語と、これら複数の単語のそれぞれの品詞情報と、を含んで構成される。例えば、図１３中左側下部に示した「私は驚いた」という平文は、「私」、「は」、「驚い」、「た」の４つの単語に分割することができる。なお、図１３では、これら４つの単語について、品詞情報が数字で表現されている。また、学習コーパスは、上述の単語および品詞情報だけでなく、例えば読み方の情報といった、他の情報を含んで構成される場合もある。
【０００４】
言語モデリング（確率統計処理）では、図１３中左側下部に示したような単語を多数集め、各単語の繋がる確率を求め、求めた結果から言語モデルを生成する。図１３中右側下部には、言語モデルの内容として、３つ組の単語の繋がる確率の一例が示されている。例えば、「私」と「は」と「驚い」との繋がる確率は、０．０００２９４であり、「は」と「驚い」と「た」との繋がる確率は、０．７１１５４１であることを示しており、これら確率は、３−ｇｒａｍ出現確率と呼ばれる。
【０００５】
図１３中右側下部に示した内容を含む言語モデルを用いると、「私は驚いた」という文の出現確率を求めることができる。具体的には、「私は驚いた」という文には、「私は驚い」と「は驚いた」という２つの３つ組がある。この「私は驚い」の３−ｇｒａｍ出現確率と、「は驚いた」の３−ｇｒａｍ出現確率と、を掛け合わせると、「私は驚いた」という文の出現確率となる。なお、実際には、文頭および文末にダミーの単語が１つずつ存在するものとして、文の出現確率を求める。
【０００６】
なお、文の出現確率の平均を取ったものの逆数を求めると、その文のｐｅｒｐｌｅｘｉｔｙを求めることができる。例えば、「私は驚いた」という文のｐｅｒｐｌｅｘｉｔｙは、「私は驚いた」という文の出現確率の平均を取ったものの逆数、すなわち、「私は驚い」の３−ｇｒａｍ出現確率と、「は驚いた」の３−ｇｒａｍ出現確率と、の相乗平均の逆数に等しくなる。
【０００７】
３−ｇｒａｍ言語モデルについて、図１４を用いて以下に説明する。図１４中左側下部には、言語モデリング（確率統計処理）により一般的な学習コーパスを分析して得られた単語列の出現頻度が示されている。より具体的には、一般的な学習コーパスにおいて、「僕：１４」「は：６５」の次に出てきたそれぞれの単語の出現頻度が示されている。一方、図１４中右側下部には、上述の言語モデリング（確率統計処理）の結果により生成された３−ｇｒａｍ言語モデルの内容が示されている。出現確率は、「僕：１４」「は：６５」の次に特定の単語が出てきた場合の出現頻度（例えば、特定の単語として「大好き：１８」が出てきた場合、出現頻度は「９」）を、「僕：１４」「は：６５」の次に何らかの単語が出てきた場合の出現頻度である「３０」で割ることにより、求められる。なお、次に出てこなかった単語に対しても、出てきた単語と比べて小さい出現確率を割り振る場合がある。
【０００８】
ここで、言語モデルは、音声認識に用いられる際にメモリといった記憶装置に記憶されるが、言語モデルの品質と、記憶領域の使用量と、の間には、図１５に示すようなトレードオフの関係がある。すなわち、学習コーパスの規模が大きくなるに従って、言語モデルの品質は向上するが、言語モデル使用時の記憶領域の使用量は大きくなる。一方、学習コーパスの規模が小さくなるに従って、言語モデルの品質は低下するが、言語モデル使用時の記憶領域の使用量は小さくなる。
【０００９】
そこで、図１６に示すように、学習コーパスをタスク表現コーパスを用いて選別する場合がある。タスク表現コーパスとは、音声認識を行う内容に応じたデータベースのことであり、認識させたい発話内容を含んで構成される。例えばコールセンターにおいて音声認識を行う場合には、タスク表現コーパスとは、コールセンターにおける実際の通話内容を文字に書き起こしたテキストデータベースのことである。このため、タスク表現コーパスに存在している単語列をより多く含んでいるか否かにより、学習コーパスを選別して、音声認識させたい発話内容に近いものだけを学習コーパスの中から抽出することができる。これによれば、認識対象は限定されるものの、言語モデルの品質の向上と、言語モデル使用時の記憶領域の使用量の削減と、を両立することができる。
【先行技術文献】
【特許文献】
【００１０】
【特許文献１】特開平５−２３２９８７号公報
【発明の概要】
【発明が解決しようとする課題】
【００１１】
従来例に係る学習コーパスの選別手法について、図１７を用いて以下に説明する。まず、学習コーパス（全体）を学習コーパス（サブセット１）、学習コーパス（サブセット２）、および学習コーパス（サブセット３）の３つに分割するとともに、タスク表現コーパスを言語モデリング（確率統計処理）してシード言語モデルを生成する。ここで、学習コーパス（全体）とは、規模の大きな学習コーパスであり、例えばウェブ上のデータを集めて生成されたもののことである。
【００１２】
次に、学習コーパス（サブセット１）〜学習コーパス（サブセット３）のそれぞれについて、シード言語モデルを用いてｐｅｒｐｌｅｘｉｔｙを算出して、ｐｅｒｐｌｅｘｉｔｙ−１、ｐｅｒｐｌｅｘｉｔｙ−２、およびｐｅｒｐｌｅｘｉｔｙ−３を求める。
【００１３】
次に、ｐｅｒｐｌｅｘｉｔｙ−１〜ｐｅｒｐｌｅｘｉｔｙ−３を比較して、最も高いｐｅｒｐｌｅｘｉｔｙに対応する学習コーパス（サブセットＸ（Ｘは、１≦Ｘ≦３を満たす整数））を学習コーパス（全体）から除去して、学習コーパス（選別済み）とする。ここで、最も高いｐｅｒｐｌｅｘｉｔｙに対応する学習コーパス（サブセットＸ）とは、最も高いｐｅｒｐｌｅｘｉｔｙを算出する際に用いた学習コーパス（サブセットＸ）のことであり、例えばｐｅｒｐｌｅｘｉｔｙ−１〜ｐｅｒｐｌｅｘｉｔｙ−３のうちｐｅｒｐｌｅｘｉｔｙ−２が最も高い場合には、学習コーパス（サブセット２）のことを示す。
【００１４】
しかしながら、図１７に示したような従来の手法により選別された学習コーパス（選別済み）では、言語モデルの品質の向上と、記憶領域の使用量の削減と、の両立は不十分であった。
【００１５】
そこで、本発明は、上述の課題に鑑みてなされたものであり、言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立できる学習コーパスを選別するコーパス選別装置、コーパス選別方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１６】
本発明は、上記の課題を解決するために、以下の事項を提案している。
【００１７】
（１）本発明は、音声認識に用いられる言語モデルの生成の際に用いられるコーパス（例えば、後述の学習コーパス（選別済み）に相当）を選別するコーパス選別装置（例えば、図１のコーパス選別装置ＡＡに相当）であって、コーパス（例えば、図２の学習コーパス（全体）に相当）を複数の単位コーパス（例えば、図２の学習コーパス（サブセット１）〜学習コーパス（サブセット３）に相当）に分割するコーパス分割手段（例えば、図１の学習コーパス分割部１１に相当）と、前記複数の単位コーパスのそれぞれについて、確率統計処理（例えば、後述の言語モデリング処理（確率統計処理）に相当）を行って、対応する単位言語モデル（例えば、図２のサブセット言語モデル１〜３に相当）を生成する言語モデリング手段（例えば、図１の言語モデリング部１２に相当）と、前記言語モデリング手段により生成された複数の単位言語モデルのそれぞれについて、音声認識を行う内容に応じたタスク表現コーパス（例えば、図２のタスク表現コーパスに相当）を用いて、音声認識の困難性（例えば、図２のｐｅｒｐｌｅｘｉｔｙに相当）を求める困難性算出手段（例えば、図１のスコア算出部１３に相当）と、前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記困難性算出手段により求められた困難性が予め定められた閾値以上または以下であるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除くコーパス選出手段（例えば、図１の学習コーパス選出部１４に相当）と、を備え、前記言語モデリング手段は、前記複数の単位コーパスの中から１つを選択する選択手順（例えば、後述の第１の選択手順に相当）と、前記複数の単位コーパスのうち選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、選択した単位コーパスに対応する単位言語モデルを生成する単位言語モデル生成手順（例えば、後述の第１のサブセット言語モデル生成手順に相当）と、前記選択手順および前記単位言語モデル生成手順を、前記複数の単位コーパスのそれぞれに対して行うまで繰り返す繰り返し手順（例えば、後述の第１の繰り返し手順に相当）と、を行うことを特徴とするコーパス選別装置を提案している。
【００１８】
この発明によれば、コーパス選別装置に、コーパス分割手段、言語モデリング手段、困難性算出手段、およびコーパス選出手段を設けた。そして、コーパス分割手段により、コーパスを複数の単位コーパスに分割することとした。また、言語モデリング手段により、複数の単位コーパスの中から１つを選択する選択手順と、複数の単位コーパスのうち選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、選択した単位コーパスに対応する単位言語モデルを生成する単位言語モデル生成手順と、選択手順および単位言語モデル生成手順を、複数の単位コーパスのそれぞれに対して行うまで繰り返す繰り返し手順と、を行って、複数の単位コーパスのそれぞれに対応する単位言語モデルを生成することとした。また、困難性算出手段により、言語モデリング手段により生成された複数の単位言語モデルのそれぞれについて、音声認識を行う内容に応じたタスク表現コーパスを用いて、音声認識の困難性を求めることとした。また、コーパス選出手段により、言語モデリング手段により生成された複数の単位言語モデルの中から、困難性算出手段により求められた困難性が予め定められた閾値以上または以下であるものを求め、求めた単位言語モデルに対応する単位コーパスをコーパスから除くこととした。
【００１９】
このため、（１）のコーパス選別装置は、コーパスを複数の単位コーパスに分割し、これら複数の単位コーパスのそれぞれについて、自身を除く全ての単位コーパスを用いて確率統計処理を行って、対応する単位言語モデルを生成する。そして、複数の単位言語モデルのそれぞれを用いた場合の音声認識の困難性を求める。そして、求めた音声認識の困難性を用いて、複数の単位コーパスの中から音声認識を行う内容に適していないものを求め、求めた単位コーパスをコーパスから除く。したがって、コーパスを構成する複数の単位コーパスについて、音声認識を行う内容に基づいて選別することができるので、音声認識を行う内容に適した情報はコーパスに残しつつ、コーパスの規模を小さくすることができる。よって、言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立することができる。
【００２０】
（２）本発明は、音声認識に用いられる言語モデルの生成の際に用いられるコーパス（例えば、後述の学習コーパス（選別済み）に相当）を選別するコーパス選別装置（例えば、図４のコーパス選別装置ＢＢに相当）であって、コーパス（例えば、図５の学習コーパス（全体）に相当）を複数の単位コーパス（例えば、図５の学習コーパス（サブセット１）〜学習コーパス（サブセット３）に相当）に分割するコーパス分割手段（例えば、図４の学習コーパス分割部１１に相当）と、前記複数の単位コーパスの中からＴ個（Ｔは、Ｔ≧１を満たす整数）の単位コーパスを１組の単位コーパス群として選択する選択手順（例えば、後述の第２の選択手順に相当）と、前記複数の単位コーパスのうち当該選択手順において選択したものを除く全ての単位コーパスを用いて確率統計処理（例えば、後述の言語モデリング処理（確率統計処理）に相当）を行って、当該単位コーパス群に対応する単位言語モデル（例えば、図５のサブセット言語モデル１〜３に相当）を生成する単位言語モデル生成手順（例えば、後述の第２のサブセット言語モデル生成手順に相当）と、当該選択手順および当該単位言語モデル生成手順を、Ｔ個の単位コーパスの組合せの全てを前記複数の単位コーパスの中から当該選択手順において選択するまで繰り返す繰り返し手順（例えば、後述の第２の繰り返し手順に相当）と、を行う言語モデリング手段（例えば、図４の言語モデリング部１２に相当）と、音声認識を行う内容に応じた音声データと、当該音声データを書き起こしたテキストデータと、を含んで構成されるタスク表現コーパス（例えば、図５のタスク表現コーパス（音声あり）に相当）の音声認識を、前記言語モデリング手段により生成された複数の単位言語モデルのそれぞれを用いて行って、当該複数の単位言語モデルのそれぞれを用いた場合の音声認識結果（例えば、図５の音声認識結果１〜３に相当）を求める音声認識手段（例えば、図４の音声認識部１５に相当）と、前記音声認識手段により求められた複数の音声認識結果のそれぞれについて、前記タスク表現コーパスを用いて識別スコア（例えば、図５の識別スコア１〜３に相当）を求める識別スコア算出手段（例えば、図４のスコア算出部１３Ａに相当）と、前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記識別スコア算出手段により求められた識別スコアが最大または最小であるものを求め、求めた単位言語モデルに対応する単位コーパス群を構成するＴ個の単位コーパスを、前記コーパスから除くコーパス選出手段（例えば、図４の学習コーパス選出部１４Ａに相当）と、を備えることを特徴とするコーパス選別装置を提案している。
【００２１】
この発明によれば、コーパス選別装置に、コーパス分割手段、言語モデリング手段、音声認識手段、識別スコア算出手段、およびコーパス選出手段を設けた。そして、コーパス分割手段により、コーパスを複数の単位コーパスに分割することとした。また、言語モデリング手段により、複数の単位コーパスの中からＴ個の単位コーパスを１組の単位コーパス群として選択する選択手順と、複数の単位コーパスのうち選択手順において選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、単位コーパス群に対応する単位言語モデルを生成する単位言語モデル生成手順と、選択手順および単位言語モデル生成手順を、Ｔ個の単位コーパスの組合せの全てを複数の単位コーパスの中から選択手順において選択するまで繰り返す繰り返し手順と、を行うこととした。また、音声認識手段により、タスク表現コーパスの音声認識を、言語モデリング手段により生成された複数の単位言語モデルのそれぞれを用いて行って、複数の単位言語モデルのそれぞれを用いた場合の音声認識結果を求めることとした。ここで、タスク表現コーパスとは、音声認識を行う内容に応じた音声データと、この音声データを書き起こしたテキストデータと、を含んで構成されるもののことである。また、識別スコア算出手段により、音声認識手段により求められた複数の音声認識結果のそれぞれについて、タスク表現コーパスを用いて識別スコアを求めることとした。また、コーパス選出手段により、言語モデリング手段により生成された複数の単位言語モデルの中から、識別スコア算出手段により求められた識別スコアが最大または最小であるものを求め、求めた単位言語モデルに対応する単位コーパス群を構成するＴ個の単位コーパスを、コーパスから除くこととした。
【００２２】
このため、（２）のコーパス選別装置は、コーパスを複数の単位コーパスに分割し、Ｔ個の単位コーパスで構成される単位コーパス群のそれぞれについて、対応する単位言語モデルを生成する。そして、複数の単位言語モデルのそれぞれを用いて音声認識を行う場合の識別スコアを求める。そして、求めた識別スコアを用いて、複数の単位コーパス群の中から音声認識を行う内容に適していないものを求め、求めた単位コーパス群を構成するＴ個の単位コーパスを、コーパスから除く。したがって、コーパスを構成する複数の単位コーパスについて、音声認識を行う内容に基づいて選別することができるので、音声認識を行う内容に適した情報はコーパスに残しつつ、コーパスの規模を小さくすることができる。よって、言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立することができる。
【００２３】
（３）本発明は、（２）のコーパス選別装置について、前記識別スコア算出手段は、最大相互情報量（例えば、図９のＭＭＩ（最大相互情報量）に相当）に基づいて前記識別スコアを求め、前記コーパス選出手段は、前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記識別スコア算出手段により求められた識別スコアが最大となるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除くことを特徴とするコーパス選別装置を提案している。
【００２４】
この発明によれば、識別スコア算出手段により、最大相互情報量に基づいて識別スコアを求めることとした。また、コーパス選出手段により、言語モデリング手段により生成された複数の単位言語モデルの中から、識別スコア算出手段により求められた識別スコアが最大となるものを求め、求めた単位言語モデルに対応する単位コーパスをコーパスから除くこととした。
【００２５】
このため、（３）のコーパス選別装置は、最大相互情報量学習を利用して、言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立できるコーパスを選別することができる。
【００２６】
（４）本発明は、（２）のコーパス選別装置について、前記識別スコア算出手段は、最小識別誤り化（例えば、図１０のＭＣＥ（最小識別誤り化）に相当）に基づいて前記識別スコアを求め、前記コーパス選出手段は、前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記識別スコア算出手段により求められた識別スコアが最小となるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除くことを特徴とするコーパス選別装置を提案している。
【００２７】
この発明によれば、識別スコア算出手段により、最小識別誤り化に基づいて識別スコアを求めることとした。また、コーパス選出手段により、言語モデリング手段により生成された複数の単位言語モデルの中から、識別スコア算出手段により求められた識別スコアが最小となるものを求め、求めた単位言語モデルに対応する単位コーパスをコーパスから除くこととした。
【００２８】
このため、（４）のコーパス選別装置は、最小識別誤り化学習を利用して、言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立できるコーパスを選別することができる。
【００２９】
（５）本発明は、（２）のコーパス選別装置について、前記識別スコア算出手段は、最小単語誤り化（例えば、図１１のＭＷＥ（最小単語誤り化）に相当）に基づいて前記識別スコアを求め、前記コーパス選出手段は、前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記識別スコア算出手段により求められた識別スコアが最大となるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除くことを特徴とするコーパス選別装置を提案している。
【００３０】
この発明によれば、識別スコア算出手段により、最小単語誤り化に基づいて識別スコアを求めることとした。また、コーパス選出手段により、言語モデリング手段により生成された複数の単位言語モデルの中から、識別スコア算出手段により求められた識別スコアが最大となるものを求め、求めた単位言語モデルに対応する単位コーパスをコーパスから除くこととした。
【００３１】
このため、（５）のコーパス選別装置は、最小単語誤り化学習を利用して、言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立できるコーパスを選別することができる。
【００３２】
（６）本発明は、（２）のコーパス選別装置について、前記識別スコア算出手段は、最小音素誤り化（例えば、図１１のＭＰＥ（最小音素誤り化）に相当）に基づいて前記識別スコアを求め、前記コーパス選出手段は、前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記識別スコア算出手段により求められた識別スコアが最大となるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除くことを特徴とするコーパス選別装置を提案している。
【００３３】
この発明によれば、識別スコア算出手段により、最小音素誤り化に基づいて識別スコアを求めることとした。また、コーパス選出手段により、言語モデリング手段により生成された複数の単位言語モデルの中から、識別スコア算出手段により求められた識別スコアが最大となるものを求め、求めた単位言語モデルに対応する単位コーパスをコーパスから除くこととした。
【００３４】
このため、（６）のコーパス選別装置は、最小音素誤り化学習を利用して、言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立できるコーパスを選別することができる。
【００３５】
（７）本発明は、音声認識に用いられる言語モデルの生成の際に用いられるコーパス（例えば、後述の学習コーパス（選別済み）に相当）を選別するコーパス選別方法であって、コーパス（例えば、図２の学習コーパス（全体）に相当）を複数の単位コーパス（例えば、図２の学習コーパス（サブセット１）〜学習コーパス（サブセット３）に相当）に分割する第１のステップと、前記複数の単位コーパスのそれぞれについて、確率統計処理（例えば、後述の言語モデリング処理（確率統計処理）に相当）を行って、対応する単位言語モデル（例えば、図２のサブセット言語モデル１〜３に相当）を生成する第２のステップと、前記第２のステップにおいて生成した複数の単位言語モデルのそれぞれについて、音声認識を行う内容に応じたタスク表現コーパス（例えば、図２のタスク表現コーパスに相当）を用いて、音声認識の困難性（例えば、図２のｐｅｒｐｌｅｘｉｔｙに相当）を求める第３のステップと、前記第２のステップにおいて生成した複数の単位言語モデルの中から、前記第３のステップにおいて求めた困難性が予め定められた閾値以上または以下であるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除く第４のステップと、を備え、前記第２のステップでは、前記複数の単位コーパスの中から１つを選択する選択手順（例えば、後述の第１の選択手順に相当）と、前記複数の単位コーパスのうち選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、選択した単位コーパスに対応する単位言語モデルを生成する単位言語モデル生成手順（例えば、後述の第１のサブセット言語モデル生成手順に相当）と、前記選択手順および前記単位言語モデル生成手順を、前記複数の単位コーパスのそれぞれに対して行うまで繰り返す繰り返し手順（例えば、後述の第１の繰り返し手順に相当）と、を行うことを特徴とするコーパス選別方法を提案している。
【００３６】
この発明によれば、コーパスを複数の単位コーパスに分割する。そして、複数の単位コーパスの中から１つを選択する選択手順と、複数の単位コーパスのうち選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、選択した単位コーパスに対応する単位言語モデルを生成する単位言語モデル生成手順と、選択手順および単位言語モデル生成手順を、複数の単位コーパスのそれぞれに対して行うまで繰り返す繰り返し手順と、を行って、複数の単位コーパスのそれぞれに対応する単位言語モデルを生成する。そして、生成した複数の単位言語モデルのそれぞれについて、音声認識を行う内容に応じたタスク表現コーパスを用いて、音声認識の困難性を求める。そして、生成した複数の単位言語モデルの中から、求めた困難性が予め定められた閾値以上または以下であるものを求め、求めた単位言語モデルに対応する単位コーパスをコーパスから除く。これによれば、上述の効果と同様の効果を奏することができる。
【００３７】
（８）本発明は、音声認識に用いられる言語モデルの生成の際に用いられるコーパス（例えば、後述の学習コーパス（選別済み）に相当）を選別するコーパス選別方法であって、コーパス（例えば、図５の学習コーパス（全体）に相当）を複数の単位コーパス（例えば、図５の学習コーパス（サブセット１）〜学習コーパス（サブセット３）に相当）に分割する第１のステップと、前記複数の単位コーパスの中からＴ個（Ｔは、Ｔ≧１を満たす整数）の単位コーパスを１組の単位コーパス群として選択する選択手順（例えば、後述の第２の選択手順に相当）と、前記複数の単位コーパスのうち当該選択手順において選択したものを除く全ての単位コーパスを用いて確率統計処理（例えば、後述の言語モデリング処理（確率統計処理）に相当）を行って、当該単位コーパス群に対応する単位言語モデル（例えば、図５のサブセット言語モデル１〜３に相当）を生成する単位言語モデル生成手順（例えば、後述の第２のサブセット言語モデル生成手順に相当）と、当該選択手順および当該単位言語モデル生成手順を、Ｔ個の単位コーパスの組合せの全てを前記複数の単位コーパスの中から当該選択手順において選択するまで繰り返す繰り返し手順（例えば、後述の第２の繰り返し手順に相当）と、を行う第２のステップと、音声認識を行う内容に応じた音声データと、当該音声データを書き起こしたテキストデータと、を含んで構成されるタスク表現コーパス（例えば、図５のタスク表現コーパス（音声あり）に相当）の音声認識を、前記第２のステップにおいて生成した複数の単位言語モデルのそれぞれを用いて行って、当該複数の単位言語モデルのそれぞれを用いた場合の音声認識結果（例えば、図５の音声認識結果１〜３に相当）を求める第３のステップと、前記第３のステップにおいて求めた複数の音声認識結果のそれぞれについて、前記タスク表現コーパスを用いて識別スコア（例えば、図５の識別スコア１〜３に相当）を求める第４のステップと、前記第２のステップにおいて生成した複数の単位言語モデルの中から、前記第４のステップにおいて求めた識別スコアが最大または最小であるものを求め、求めた単位言語モデルに対応する単位コーパス群を構成するＴ個の単位コーパスを、前記コーパスから除く第５のステップと、を備えることを特徴とするコーパス選別方法を提案している。
【００３８】
この発明によれば、コーパスを複数の単位コーパスに分割する。そして、複数の単位コーパスの中からＴ個の単位コーパスを１組の単位コーパス群として選択する選択手順と、複数の単位コーパスのうち選択手順において選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、単位コーパス群に対応する単位言語モデルを生成する単位言語モデル生成手順と、選択手順および単位言語モデル生成手順を、Ｔ個の単位コーパスの組合せの全てを複数の単位コーパスの中から選択手順において選択するまで繰り返す繰り返し手順と、を行う。そして、タスク表現コーパスの音声認識を、生成した複数の単位言語モデルのそれぞれを用いて行って、これら複数の単位言語モデルのそれぞれを用いた場合の音声認識結果を求める。ここで、タスク表現コーパスとは、音声認識を行う内容に応じた音声データと、この音声データを書き起こしたテキストデータと、を含んで構成されるもののことである。そして、求めた複数の音声認識結果のそれぞれについて、タスク表現コーパスを用いて識別スコアを求める。そして、生成した複数の単位言語モデルの中から、求めた識別スコアが最大または最小であるものを求め、求めた単位言語モデルに対応する単位コーパス群を構成するＴ個の単位コーパスを、コーパスから除く。これによれば、上述の効果と同様の効果を奏することができる。
【００３９】
（９）本発明は、音声認識に用いられる言語モデルの生成の際に用いられるコーパス（例えば、後述の学習コーパス（選別済み）に相当）を選別するコーパス選別方法を、コンピュータに実行させるためのプログラムであって、コーパス（例えば、図２の学習コーパス（全体）に相当）を複数の単位コーパス（例えば、図２の学習コーパス（サブセット１）〜学習コーパス（サブセット３）に相当）に分割する第１のステップと、前記複数の単位コーパスのそれぞれについて、確率統計処理（例えば、後述の言語モデリング処理（確率統計処理）に相当）を行って、対応する単位言語モデル（例えば、図２のサブセット言語モデル１〜３に相当）を生成する第２のステップと、前記第２のステップにおいて生成した複数の単位言語モデルのそれぞれについて、音声認識を行う内容に応じたタスク表現コーパス（例えば、図２のタスク表現コーパスに相当）を用いて、音声認識の困難性（例えば、図２のｐｅｒｐｌｅｘｉｔｙに相当）を求める第３のステップと、前記第２のステップにおいて生成した複数の単位言語モデルの中から、前記第３のステップにおいて求めた困難性が予め定められた閾値以上または以下であるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除く第４のステップと、をコンピュータに実行させ、前記第２のステップでは、前記複数の単位コーパスの中から１つを選択する選択手順（例えば、後述の第１の選択手順に相当）と、前記複数の単位コーパスのうち選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、選択した単位コーパスに対応する単位言語モデルを生成する単位言語モデル生成手順（例えば、後述の第１のサブセット言語モデル生成手順に相当）と、前記選択手順および前記単位言語モデル生成手順を、前記複数の単位コーパスのそれぞれに対して行うまで繰り返す繰り返し手順（例えば、後述の第１の繰り返し手順に相当）と、をコンピュータに実行させるためのプログラムを提案している。
【００４０】
この発明によれば、プログラムをコンピュータに実行させることで、コーパスを複数の単位コーパスに分割する。そして、複数の単位コーパスの中から１つを選択する選択手順と、複数の単位コーパスのうち選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、選択した単位コーパスに対応する単位言語モデルを生成する単位言語モデル生成手順と、選択手順および単位言語モデル生成手順を、複数の単位コーパスのそれぞれに対して行うまで繰り返す繰り返し手順と、を行って、複数の単位コーパスのそれぞれに対応する単位言語モデルを生成する。そして、生成した複数の単位言語モデルのそれぞれについて、音声認識を行う内容に応じたタスク表現コーパスを用いて、音声認識の困難性を求める。そして、生成した複数の単位言語モデルの中から、求めた困難性が予め定められた閾値以上または以下であるものを求め、求めた単位言語モデルに対応する単位コーパスをコーパスから除く。これによれば、上述の効果と同様の効果を奏することができる。
【００４１】
（１０）本発明は、音声認識に用いられる言語モデルの生成の際に用いられるコーパス（例えば、後述の学習コーパス（選別済み）に相当）を選別するコーパス選別方法を、コンピュータに実行させるためのプログラムであって、コーパス（例えば、図５の学習コーパス（全体）に相当）を複数の単位コーパス（例えば、図５の学習コーパス（サブセット１）〜学習コーパス（サブセット３）に相当）に分割する第１のステップと、前記複数の単位コーパスの中からＴ個（Ｔは、Ｔ≧１を満たす整数）の単位コーパスを１組の単位コーパス群として選択する選択手順（例えば、後述の第２の選択手順に相当）と、前記複数の単位コーパスのうち当該選択手順において選択したものを除く全ての単位コーパスを用いて確率統計処理（例えば、後述の言語モデリング処理（確率統計処理）に相当）を行って、当該単位コーパス群に対応する単位言語モデル（例えば、図５のサブセット言語モデル１〜３に相当）を生成する単位言語モデル生成手順（例えば、後述の第２のサブセット言語モデル生成手順に相当）と、当該選択手順および当該単位言語モデル生成手順を、Ｔ個の単位コーパスの組合せの全てを前記複数の単位コーパスの中から当該選択手順において選択するまで繰り返す繰り返し手順（例えば、後述の第２の繰り返し手順に相当）と、を行う第２のステップと、音声認識を行う内容に応じた音声データと、当該音声データを書き起こしたテキストデータと、を含んで構成されるタスク表現コーパス（例えば、図５のタスク表現コーパス（音声あり）に相当）の音声認識を、前記第２のステップにおいて生成した複数の単位言語モデルのそれぞれを用いて行って、当該複数の単位言語モデルのそれぞれを用いた場合の音声認識結果（例えば、図５の音声認識結果１〜３に相当）を求める第３のステップと、前記第３のステップにおいて求めた複数の音声認識結果のそれぞれについて、前記タスク表現コーパスを用いて識別スコア（例えば、図５の識別スコア１〜３に相当）を求める第４のステップと、前記第２のステップにおいて生成した複数の単位言語モデルの中から、前記第４のステップにおいて求めた識別スコアが最大または最小であるものを求め、求めた単位言語モデルに対応する単位コーパス群を構成するＴ個の単位コーパスを、前記コーパスから除く第５のステップと、をコンピュータに実行させるためのプログラムを提案している。
【００４２】
この発明によれば、プログラムをコンピュータに実行させることで、コーパスを複数の単位コーパスに分割する。そして、複数の単位コーパスの中からＴ個の単位コーパスを１組の単位コーパス群として選択する選択手順と、複数の単位コーパスのうち選択手順において選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、単位コーパス群に対応する単位言語モデルを生成する単位言語モデル生成手順と、選択手順および単位言語モデル生成手順を、Ｔ個の単位コーパスの組合せの全てを複数の単位コーパスの中から選択手順において選択するまで繰り返す繰り返し手順と、を行う。そして、タスク表現コーパスの音声認識を、生成した複数の単位言語モデルのそれぞれを用いて行って、これら複数の単位言語モデルのそれぞれを用いた場合の音声認識結果を求める。ここで、タスク表現コーパスとは、音声認識を行う内容に応じた音声データと、この音声データを書き起こしたテキストデータと、を含んで構成されるもののことである。そして、求めた複数の音声認識結果のそれぞれについて、タスク表現コーパスを用いて識別スコアを求める。そして、生成した複数の単位言語モデルの中から、求めた識別スコアが最大または最小であるものを求め、求めた単位言語モデルに対応する単位コーパス群を構成するＴ個の単位コーパスを、コーパスから除く。これによれば、上述の効果と同様の効果を奏することができる。
【発明の効果】
【００４３】
本発明によれば、言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立することができる。
【図面の簡単な説明】
【００４４】
【図１】本発明の第１実施形態に係るコーパス選別装置の構成を示すブロック図である。
【図２】前記コーパス選別装置による学習コーパスの選別手法について説明するための図である。
【図３】３−ｇｒａｍ出現確率の調整について説明するための図である。
【図４】本発明の第２実施形態に係るコーパス選別装置の構成を示すブロック図である。
【図５】前記コーパス選別装置による学習コーパスの選別手法について説明するための図である。
【図６】前記コーパス選別装置による学習コーパスの選別手法について説明するための図である。
【図７】Ｍ−ｂｅｓｔについて説明するための図である。
【図８】音声認識結果の精度算出について説明するための図である。
【図９】ＭＭＩ学習のスコア定義と選別手法について説明するための図である。
【図１０】ＭＣＥ学習のスコア定義と選別手法について説明するための図である。
【図１１】ＭＷＥ学習およびＭＰＥ学習のスコア定義と選別手法について説明するための図である。
【図１２】単語の発音およびモーラ・音素について説明するための図である。
【図１３】学習コーパスおよび言語モデルについて説明するための図である。
【図１４】３−ｇｒａｍ言語モデルについて説明するための図である。
【図１５】言語モデルの品質と、記憶領域の使用量と、の関係を示す図である。
【図１６】学習コーパスをタスク表現コーパスを用いて選別する場合について説明するための図である。
【図１７】従来例に係る学習コーパスの選別手法について説明するための図である。
【発明を実施するための形態】
【００４５】
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の実施形態における構成要素は適宜、既存の構成要素などとの置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、以下の実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【００４６】
＜第１実施形態＞
［コーパス選別装置ＡＡの構成］
図１は、本発明の第１実施形態に係るコーパス選別装置ＡＡの構成を示すブロック図である。コーパス選別装置ＡＡは、学習コーパス分割部１１、言語モデリング部１２、スコア算出部１３、および学習コーパス選出部１４を備える。
【００４７】
学習コーパス分割部１１は、学習コーパス（全体）をＹ個（Ｙは、Ｙ≧２を満たす整数）に分割して、学習コーパス（サブセット１）〜学習コーパス（サブセットＹ）を生成する。図２には、学習コーパス分割部１１により、学習コーパス（全体）を３つに分割した例が示されている。
【００４８】
言語モデリング部１２は、学習コーパス（サブセット１）〜学習コーパス（サブセットＹ）のそれぞれについて、言語モデリング（確率統計処理）を行って、対応するサブセット言語モデル１〜Ｙを生成する。具体的には、言語モデリング部１２は、後述の第１の選択手順、第１のサブセット言語モデル生成手順、および第１の繰り返し手順を行って、サブセット言語モデル１〜Ｙを生成する。
【００４９】
上述の第１の選択手順では、学習コーパス（サブセット１）〜学習コーパス（サブセットＹ）の中から１つを選択する。また、第１のサブセット言語モデル生成手順では、学習コーパス（サブセット１）〜学習コーパス（サブセットＹ）のうち第１の選択手順において選択したものを除く全ての学習コーパスを用いて、言語モデリング（確率統計処理）を行って、選択した学習コーパスに対応するサブセット言語モデルを生成する。また、第１の繰り返し手順では、上述の第１の選択手順および第１のサブセット言語モデル生成手順を、学習コーパス（サブセット１）〜学習コーパス（サブセットＹ）のそれぞれに対して１回ずつ行うまで繰り返す。
【００５０】
図２に示した例では、サブセット言語モデル１〜３が生成されている。サブセット言語モデル１は、学習コーパス（サブセット２）と学習コーパス（サブセット３）とを用いて言語モデリング（確率統計処理）が行われたことにより、生成されたものである。サブセット言語モデル２は、学習コーパス（サブセット１）と学習コーパス（サブセット３）とを用いて言語モデリング（確率統計処理）が行われたことにより、生成されたものである。サブセット言語モデル３は、学習コーパス（サブセット１）と学習コーパス（サブセット２）とを用いて言語モデリング（確率統計処理）が行われたことにより、生成されたものである。
【００５１】
スコア算出部１３は、サブセット言語モデル１〜Ｙのそれぞれについて、タスク表現コーパスを用いてｐｅｒｐｌｅｘｉｔｙを算出して、ｐｅｒｐｌｅｘｉｔｙ−１〜ｐｅｒｐｌｅｘｉｔｙ−Ｙを求める。なお、ｐｅｒｐｌｅｘｉｔｙ−１〜ｐｅｒｐｌｅｘｉｔｙ−Ｙを求める際には、Ｎ−ｇｒａｍ出現確率（Ｎは、任意の自然数）を求め、求めたＮ−ｇｒａｍ出現確率を図３に示す３つの手法のいずれかにより調整する。
【００５２】
ここで、ｐｅｒｐｌｅｘｉｔｙ−Ｐ（Ｐは、１≦Ｐ≦Ｙを満たす任意の整数）を求めることとすると、図３に示した第１の手法は、学習コーパス（サブセットＰ）中に３つ組単語として存在した場合に適用される。第２の手法は、学習コーパス（サブセットＰ）中に３つ組単語として存在しないが、２つ組単語として存在した場合に適用される。第３の手法は、第１の手法または第２の手法により調整したものを、さらに調整する場合に適用される。なお、図３では、３−ｇｒａｍ出現確率を調整する場合について例示している。
【００５３】
図１に戻って、学習コーパス選出部１４は、まず、サブセット言語モデル１〜Ｙの中からｐｅｒｐｌｅｘｉｔｙの低いものを求める。具体的には、例えばｐｅｒｐｌｅｘｉｔｙが予め定められた閾値以下であるものを、ｐｅｒｐｌｅｘｉｔｙの低いサブセット言語モデルとして求める。なお、求めるサブセット言語モデルの数は、１つに限らず、複数であってもよい。
【００５４】
上述のように求めたサブセット言語モデルをサブセット言語モデルＱ（Ｑは、１≦Ｑ≦Ｙを満たす任意の整数）と表すこととすると、学習コーパス選出部１４は、次に、サブセット言語モデルＱに対応する学習コーパス（サブセットＱ）を学習コーパス（全体）から除去して、学習コーパス（選別済み）とする。
【００５５】
以上のコーパス選別装置ＡＡによれば、音声認識を行う内容に基づいて、学習コーパス（全体）から学習コーパス（選別済み）を選別することができる。このため、音声認識を行う内容に適した情報は学習コーパス（選別済み）に残しつつ、学習コーパス（選別済み）の規模を小さくすることができる。したがって、言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立できる学習コーパス（選別済み）を選別することができる。
【００５６】
＜第２実施形態＞
［コーパス選別装置ＢＢの構成］
図４は、本発明の第２実施形態に係るコーパス選別装置ＢＢの構成を示すブロック図である。コーパス選別装置ＢＢは、図１に示した本発明の第１実施形態に係るコーパス選別装置ＡＡとは、音声認識部１５を備える点と、言語モデリング部１２の代わりに言語モデリング部１２Ａを備える点と、スコア算出部１３の代わりにスコア算出部１３Ａを備える点と、学習コーパス選出部１４の代わりに学習コーパス選出部１４Ａを備える点と、が異なる。なお、コーパス選別装置ＢＢに設けられた学習コーパス分割部１１については、コーパス選別装置ＡＡに設けられた学習コーパス分割部１１と同様に動作するため、説明を省略する。
【００５７】
言語モデリング部１２Ａは、後述の第２の選択手順、第２のサブセット言語モデル生成手順、および第２の繰り返し手順を行って、サブセット言語モデルを生成する。
【００５８】
上述の第２の選択手順では、学習コーパス（サブセット１）〜学習コーパス（サブセットＹ）の中からＴ個の学習コーパスを１組の学習コーパス群として選択する。また、第２のサブセット言語モデル生成手順では、学習コーパス（サブセット１）〜学習コーパス（サブセットＹ）のうち第２の選択手順において選択したものを除く全ての学習コーパスを用いて言語モデリング（確率統計処理）を行って、上述の１組の学習コーパス群に対応するサブセット言語モデルを生成する。また、第２の繰り返し手順では、上述の第２の選択手順および第２のサブセット言語モデル生成手順を、Ｔ個の学習コーパスの組合せの全てを学習コーパス（サブセット１）〜学習コーパス（サブセットＹ）の中から第２の選択手順において選択するまで繰り返す。なお、第２の選択手順により第２の選択手順および第２のサブセット言語モデル生成手順を繰り返す回数は、式（１）のように表すことができる。
【００５９】
【数１】

【００６０】
図５には、学習コーパス（サブセット１）〜学習コーパス（サブセット３）のうちの１つを学習コーパス（全体）から除去する例が示されている。この図５に示した例では、上述のＴが「１」であるものとして、上述の第２の選択手順、第２のサブセット言語モデル生成手順、および第２の繰り返し手順を行っている。このため、学習コーパス（サブセット１）で構成される学習コーパス群に対して、サブセット言語モデル１が生成されている。また、学習コーパス（サブセット２）で構成される学習コーパス群に対して、サブセット言語モデル２が生成され、学習コーパス（サブセット３）で構成される学習コーパス群に対して、サブセット言語モデル３が生成されている。
【００６１】
図６には、学習コーパス（サブセット１）〜学習コーパス（サブセット３）のうちの２つを学習コーパス（全体）から除去する例が示されている。この図６に示した例では、上述のＴが「２」であるものとして、上述の第２の選択手順、第２のサブセット言語モデル生成手順、および第２の繰り返し手順を行っている。このため、学習コーパス（サブセット１）と学習コーパス（サブセット２）とで構成される学習コーパス群に対して、サブセット言語モデル１、２が生成されている。また、学習コーパス（サブセット２）と学習コーパス（サブセット３）とで構成される学習コーパス群に対して、サブセット言語モデル２、３が生成され、学習コーパス（サブセット３）学習コーパス（サブセット１）とで構成される学習コーパス群に対して、サブセット言語モデル３、１が生成されている。
【００６２】
図４に戻って、音声認識部１５は、タスク表現コーパス（音声あり）の音声認識を、言語モデリング部１２Ａにより生成されたサブセット言語モデルを用いて行って、音声認識結果を求める。ここで、タスク表現コーパス（音声あり）とは、音声認識を行う内容に応じた音声データと、この音声データを書き起こしたテキストデータを含んで構成されるデータベースのことである。このため、タスク表現コーパス（音声あり）には、認識させたい発話内容について、音声データおよびテキストデータが含まれている。
【００６３】
図５に示した例では、サブセット言語モデル１を用いた場合の音声認識結果１と、サブセット言語モデル２を用いた場合の音声認識結果２と、サブセット言語モデル３を用いた場合の音声認識結果３と、が求められている。一方、図６に示した例では、サブセット言語モデル１、２を用いた場合の音声認識結果１、２と、サブセット言語モデル２、３を用いた場合の音声認識結果２、３と、サブセット言語モデル３、１を用いた場合の音声認識結果３、１と、が求められている。
【００６４】
ここで、音声認識部１５が出力する音声認識結果の出力形式は、Ｍ−ｂｅｓｔ（Ｍは、Ｍ≧１を満たす整数）である。図７では、音声認識部１５に３−ｂｅｓｔが適用されている場合を示しており、「１３時になります。」という発話内容の音声データが音声認識部１５に入力され、音声認識結果（１）〜（３）が音声認識部１５から出力された例を示している。音声認識結果（３）、音声認識結果（２）、音声認識結果（１）の順に、音声認識スコアが高く、すなわち尤もらしさが大きくなっている。＜ｓ＞は文頭を示すダミー単語、＜／ｓ＞は文末を示すダミー単語、＜ｐ＞は無音単語を示すダミー単語である。
【００６５】
また、音声認識部１５が出力する音声認識結果の精度算出について、図８を用いて以下に説明する。正解文に含まれかつ正しく認識できた単語について、正解単語と呼ぶこととすると、正解単語の総数Ｓは、図８では「５」となる。また、正解文には含まれていないにもかかわらず認識してしまった単語について、挿入誤り単語と呼ぶこととすると、挿入誤り単語の総数Ｅ_Ｉは、図８では「１」となる。また、正解文には含まれているにもかかわらず認識できなかった単語について、削除誤り単語と呼ぶこととすると、削除誤り単語の総数Ｅ_Ｄは、図８では「１」となる。また、正解文に含まれている単語を誤認識してしまったものについて、置換誤り単語と呼ぶこととすると、置換誤り単語の総数Ｅ_Ｓは、図８では「２」となる。
【００６６】
図４に戻って、スコア算出部１３Ａは、音声認識結果について、タスク表現コーパス（音声あり）を用いて識別スコアを算出して、識別スコアを求める。識別スコアの算出手法としては、図９に示すＭＭＩ（最大相互情報量）を用いた手法や、図１０に示すＭＣＥ（最小識別誤り化）を用いた手法や、図１１に示すＭＷＥ（最小単語誤り化）またはＭＰＥ（最小音素誤り化）を用いた手法を適用することができる。
【００６７】
図５に示した例では、音声認識結果１の識別スコア１と、音声認識結果２の識別スコア２と、音声認識結果３の識別スコア３と、が求められている。一方、図６に示した例では、音声認識結果１、２の識別スコア１、２と、音声認識結果２、３の識別スコア２、３と、音声認識結果３、１の識別スコア３、１と、が求められている。
【００６８】
学習コーパス選出部１４Ａは、学習コーパス（サブセット１）〜学習コーパス（サブセットＹ）の中から１つ以上を除去して、学習コーパス（選別済み）とする。
【００６９】
具体的には、スコア算出部１３ＡにおいてＭＭＩを用いた手法が適用される場合には、学習コーパス選出部１４Ａは、まず、図９に示したスコア定義式（右辺）を最大にするサブセット言語モデルＱを求める。次に、サブセット言語モデルＱに対応する学習コーパス群を構成するＴ個の学習コーパスを、学習コーパス（全体）から除去して、学習コーパス（選別済み）とする。
【００７０】
一方、スコア算出部１３ＡにおいてＭＣＥを用いた手法が適用される場合には、学習コーパス選出部１４Ａは、まず、図１０に示したスコア定義式を最小にするサブセット言語モデルＱを求める。次に、サブセット言語モデルＱに対応する学習コーパス群を構成するＴ個の学習コーパスを、学習コーパス（全体）から除去して、学習コーパス（選別済み）とする。
【００７１】
また、スコア算出部１３ＡにおいてＭＷＥまたはＭＰＥを用いた手法が適用される場合には、学習コーパス選出部１４Ａは、まず、図１１に示したスコア定義式を最大にするサブセット言語モデルＱを求める。次に、サブセット言語モデルＱに対応する学習コーパス群を構成するＴ個の学習コーパスを、学習コーパス（全体）から除去して、学習コーパス（選別済み）とする。
【００７２】
例えば、スコア算出部１３ＡにおいてＭＭＩを用いた手法が適用され、図５に示した識別スコア１〜３のうち識別スコア１が最大となった場合には、サブセット言語モデル１に対応する学習コーパス群を構成する学習コーパス（サブセット１）が、学習コーパス（全体）から除去される。ここで、学習コーパス（サブセット１）〜学習コーパス（サブセット３）のそれぞれのデータ容量が等しければ、学習コーパス（選別済み）の規模は、学習コーパス（全体）の規模の２／３となる。
【００７３】
また、例えば、スコア算出部１３ＡにおいてＭＣＥを用いた手法が適用され、図６に示した識別スコア１、２と、識別スコア２、３と、識別スコア３、１と、のうち識別スコア３、１が最小となった場合には、サブセット言語モデル３、１に対応する学習コーパス群を構成する学習コーパス（サブセット３）および学習コーパス（サブセット１）が、学習コーパス（全体）から除去される。ここで、学習コーパス（サブセット１）〜学習コーパス（サブセット３）のそれぞれのデータ容量が等しければ、学習コーパス（選別済み）の規模は、学習コーパス（全体）の規模の１／３となる。
【００７４】
なお、図１１に示したスコア定義式の△（Ｗ_ｒ，Ｗ_ｒｉ）は、スコア算出部１３ＡにおいてＭＷＥを用いた手法が適用される場合と、スコア算出部１３ＡにおいてＭＰＥを用いた手法が適用される場合と、で異なる。スコア算出部１３ＡにおいてＭＷＥを用いた手法が適用される場合には、△（Ｗ_ｒ，Ｗ_ｒｉ）は、正解単語が多く、かつ、挿入誤り単語や削除誤り単語といった各種誤り単語が少ない場合に大きな値をとる式を示す。一方、スコア算出部１３ＡにおいてＭＰＥを用いた手法が適用される場合には、△（Ｗ_ｒ，Ｗ_ｒｉ）は、上述のＭＷＥを単語レベルではなく音素レベル（図１２参照）で比較し、正解音素が多く、かつ、各種誤り単語が少ない場合に大きな値をとる式を示す。なお、音素の代わりにモーラ・レベルで比較することもできる。
【００７５】
以上のコーパス選別装置ＢＢによれば、音声認識を行う内容に基づいて、学習コーパス（全体）から学習コーパス（選別済み）を選別することができる。このため、音声認識を行う内容に適した情報は学習コーパス（選別済み）に残しつつ、学習コーパス（選別済み）の規模を小さくすることができる。したがって、言語モデルの品質の向上と、記憶領域の使用量の削減と、を両立できる学習コーパス（選別済み）を選別することができる。
【００７６】
なお、本発明のコーパス選別装置ＡＡやコーパス選別装置ＢＢの処理を、コンピュータ読み取り可能な記録媒体に記憶し、記録媒体に記録されたプログラムをコーパス選別装置ＡＡやコーパス選別装置ＢＢに読み込ませ、実行することによって、本発明を実現できる。
【００７７】
また、上述のプログラムは、このプログラムを記憶装置などに格納したコーパス選別装置ＡＡやコーパス選別装置ＢＢから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク（通信網）や電話回線などの通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
【００７８】
また、上述のプログラムは、上述の機能の一部を実現するためのものであってもよい。さらに、上述の機能をコーパス選別装置ＡＡやコーパス選別装置ＢＢにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。
【００７９】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。
【００８０】
例えば、上述の各実施形態では、学習コーパス（全体）を３つに分割したが、これに限らず、１以上の任意の整数に分割することができる。
【００８１】
また、上述の第２実施形態では、音声認識結果の出力形式としてＭ−ｂｅｓｔを適用した場合について説明したが、これに限らず、例えばラティスを適用してもよい。
【符号の説明】
【００８２】
ＡＡ、ＢＢ・・・コーパス選別装置
１１・・・学習コーパス分割部
１２、１２Ａ・・・言語モデリング部
１３、１３Ａ・・・スコア算出部
１４、１４Ａ・・・学習コーパス選出部
１５・・・音声識別部

【特許請求の範囲】
【請求項１】
音声認識に用いられる言語モデルの生成の際に用いられるコーパスを選別するコーパス選別装置であって、
コーパスを複数の単位コーパスに分割するコーパス分割手段と、
前記複数の単位コーパスのそれぞれについて、確率統計処理を行って、対応する単位言語モデルを生成する言語モデリング手段と、
前記言語モデリング手段により生成された複数の単位言語モデルのそれぞれについて、音声認識を行う内容に応じたタスク表現コーパスを用いて、音声認識の困難性を求める困難性算出手段と、
前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記困難性算出手段により求められた困難性が予め定められた閾値以上または以下であるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除くコーパス選出手段と、を備え、
前記言語モデリング手段は、
前記複数の単位コーパスの中から１つを選択する選択手順と、
前記複数の単位コーパスのうち選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、選択した単位コーパスに対応する単位言語モデルを生成する単位言語モデル生成手順と、
前記選択手順および前記単位言語モデル生成手順を、前記複数の単位コーパスのそれぞれに対して行うまで繰り返す繰り返し手順と、を行うことを特徴とするコーパス選別装置。
【請求項２】
音声認識に用いられる言語モデルの生成の際に用いられるコーパスを選別するコーパス選別装置であって、
コーパスを複数の単位コーパスに分割するコーパス分割手段と、
前記複数の単位コーパスの中からＴ個（Ｔは、Ｔ≧１を満たす任意の整数）の単位コーパスを１組の単位コーパス群として選択する選択手順と、前記複数の単位コーパスのうち当該選択手順において選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、当該単位コーパス群に対応する単位言語モデルを生成する単位言語モデル生成手順と、当該選択手順および当該単位言語モデル生成手順を、Ｔ個の単位コーパスの組合せの全てを前記複数の単位コーパスの中から当該選択手順において選択するまで繰り返す繰り返し手順と、を行う言語モデリング手段と、
音声認識を行う内容に応じた音声データと、当該音声データを書き起こしたテキストデータと、を含んで構成されるタスク表現コーパスの音声認識を、前記言語モデリング手段により生成された複数の単位言語モデルのそれぞれを用いて行って、当該複数の単位言語モデルのそれぞれを用いた場合の音声認識結果を求める音声認識手段と、
前記音声認識手段により求められた複数の音声認識結果のそれぞれについて、前記タスク表現コーパスを用いて識別スコアを求める識別スコア算出手段と、
前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記識別スコア算出手段により求められた識別スコアが最大または最小であるものを求め、求めた単位言語モデルに対応する単位コーパス群を構成するＴ個の単位コーパスを、前記コーパスから除くコーパス選出手段と、を備えることを特徴とするコーパス選別装置。
【請求項３】
前記識別スコア算出手段は、最大相互情報量に基づいて前記識別スコアを求め、
前記コーパス選出手段は、前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記識別スコア算出手段により求められた識別スコアが最大となるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除くことを特徴とする請求項２に記載のコーパス選別装置。
【請求項４】
前記識別スコア算出手段は、最小識別誤り化に基づいて前記識別スコアを求め、
前記コーパス選出手段は、前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記識別スコア算出手段により求められた識別スコアが最小となるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除くことを特徴とする請求項２に記載のコーパス選別装置。
【請求項５】
前記識別スコア算出手段は、最小単語誤り化に基づいて前記識別スコアを求め、
前記コーパス選出手段は、前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記識別スコア算出手段により求められた識別スコアが最大となるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除くことを特徴とする請求項２に記載のコーパス選別装置。
【請求項６】
前記識別スコア算出手段は、最小音素誤り化に基づいて前記識別スコアを求め、
前記コーパス選出手段は、前記言語モデリング手段により生成された複数の単位言語モデルの中から、前記識別スコア算出手段により求められた識別スコアが最大となるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除くことを特徴とする請求項２に記載のコーパス選別装置。
【請求項７】
音声認識に用いられる言語モデルの生成の際に用いられるコーパスを選別するコーパス選別方法であって、
コーパスを複数の単位コーパスに分割する第１のステップと、
前記複数の単位コーパスのそれぞれについて、確率統計処理を行って、対応する単位言語モデルを生成する第２のステップと、
前記第２のステップにおいて生成した複数の単位言語モデルのそれぞれについて、音声認識を行う内容に応じたタスク表現コーパスを用いて、音声認識の困難性を求める第３のステップと、
前記第２のステップにおいて生成した複数の単位言語モデルの中から、前記第３のステップにおいて求めた困難性が予め定められた閾値以上または以下であるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除く第４のステップと、を備え、
前記第２のステップでは、
前記複数の単位コーパスの中から１つを選択する選択手順と、
前記複数の単位コーパスのうち選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、選択した単位コーパスに対応する単位言語モデルを生成する単位言語モデル生成手順と、
前記選択手順および前記単位言語モデル生成手順を、前記複数の単位コーパスのそれぞれに対して行うまで繰り返す繰り返し手順と、を行うことを特徴とするコーパス選別方法。
【請求項８】
音声認識に用いられる言語モデルの生成の際に用いられるコーパスを選別するコーパス選別方法であって、
コーパスを複数の単位コーパスに分割する第１のステップと、
前記複数の単位コーパスの中からＴ個（Ｔは、Ｔ≧１を満たす任意の整数）の単位コーパスを１組の単位コーパス群として選択する選択手順と、前記複数の単位コーパスのうち当該選択手順において選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、当該単位コーパス群に対応する単位言語モデルを生成する単位言語モデル生成手順と、当該選択手順および当該単位言語モデル生成手順を、Ｔ個の単位コーパスの組合せの全てを前記複数の単位コーパスの中から当該選択手順において選択するまで繰り返す繰り返し手順と、を行う第２のステップと、
音声認識を行う内容に応じた音声データと、当該音声データを書き起こしたテキストデータと、を含んで構成されるタスク表現コーパスの音声認識を、前記第２のステップにおいて生成した複数の単位言語モデルのそれぞれを用いて行って、当該複数の単位言語モデルのそれぞれを用いた場合の音声認識結果を求める第３のステップと、
前記第３のステップにおいて求めた複数の音声認識結果のそれぞれについて、前記タスク表現コーパスを用いて識別スコアを求める第４のステップと、
前記第２のステップにおいて生成した複数の単位言語モデルの中から、前記第４のステップにおいて求めた識別スコアが最大または最小であるものを求め、求めた単位言語モデルに対応する単位コーパス群を構成するＴ個の単位コーパスを、前記コーパスから除く第５のステップと、を備えることを特徴とするコーパス選別方法。
【請求項９】
音声認識に用いられる言語モデルの生成の際に用いられるコーパスを選別するコーパス選別方法を、コンピュータに実行させるためのプログラムであって、
コーパスを複数の単位コーパスに分割する第１のステップと、
前記複数の単位コーパスのそれぞれについて、確率統計処理を行って、対応する単位言語モデルを生成する第２のステップと、
前記第２のステップにおいて生成した複数の単位言語モデルのそれぞれについて、音声認識を行う内容に応じたタスク表現コーパスを用いて、音声認識の困難性を求める第３のステップと、
前記第２のステップにおいて生成した複数の単位言語モデルの中から、前記第３のステップにおいて求めた困難性が予め定められた閾値以上または以下であるものを求め、求めた単位言語モデルに対応する単位コーパスを前記コーパスから除く第４のステップと、をコンピュータに実行させ、
前記第２のステップでは、
前記複数の単位コーパスの中から１つを選択する選択手順と、
前記複数の単位コーパスのうち選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、選択した単位コーパスに対応する単位言語モデルを生成する単位言語モデル生成手順と、
前記選択手順および前記単位言語モデル生成手順を、前記複数の単位コーパスのそれぞれに対して行うまで繰り返す繰り返し手順と、をコンピュータに実行させるためのプログラム。
【請求項１０】
音声認識に用いられる言語モデルの生成の際に用いられるコーパスを選別するコーパス選別方法を、コンピュータに実行させるためのプログラムであって、
コーパスを複数の単位コーパスに分割する第１のステップと、
前記複数の単位コーパスの中からＴ個（Ｔは、Ｔ≧１を満たす任意の整数）の単位コーパスを１組の単位コーパス群として選択する選択手順と、前記複数の単位コーパスのうち当該選択手順において選択したものを除く全ての単位コーパスを用いて確率統計処理を行って、当該単位コーパス群に対応する単位言語モデルを生成する単位言語モデル生成手順と、当該選択手順および当該単位言語モデル生成手順を、Ｔ個の単位コーパスの組合せの全てを前記複数の単位コーパスの中から当該選択手順において選択するまで繰り返す繰り返し手順と、を行う第２のステップと、
音声認識を行う内容に応じた音声データと、当該音声データを書き起こしたテキストデータと、を含んで構成されるタスク表現コーパスの音声認識を、前記第２のステップにおいて生成した複数の単位言語モデルのそれぞれを用いて行って、当該複数の単位言語モデルのそれぞれを用いた場合の音声認識結果を求める第３のステップと、
前記第３のステップにおいて求めた複数の音声認識結果のそれぞれについて、前記タスク表現コーパスを用いて識別スコアを求める第４のステップと、
前記第２のステップにおいて生成した複数の単位言語モデルの中から、前記第４のステップにおいて求めた識別スコアが最大または最小であるものを求め、求めた単位言語モデルに対応する単位コーパス群を構成するＴ個の単位コーパスを、前記コーパスから除く第５のステップと、をコンピュータに実行させるためのプログラム。

【図１】