言語モデル処理装置および音声認識装置、ならびにプログラム

【課題】統計的言語モデルを構築するためのコストを削減することのできる言語モデル処理装置を提供する。
【解決手段】正解なし認識結果記憶部は、正解のない音声認識結果データを記憶する。言語モデル記憶部は、言語表現の出現確率を表すデータである言語モデルを記憶する。正解なし誤り傾向学習部は、入力される所定の言語モデルと、正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって言語モデルを更新して、更新された言語モデルを言語モデル記憶部に書き込む。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、言語モデルを作成するための言語モデル処理装置、およびその言語モデルを用いる音声認識装置、ならびにそのプログラムに関する。
【背景技術】
【０００２】
背景技術として、非特許文献１には、音声認識の手法が記載されている。この音声認識手法における誤り傾向の学習と、誤り修正の手法は次の通りである。
図１２は、音声認識結果の正解文と、Ｎ個の正解文候補を示す概略図である。この例ではＮ＝４である。これらＮ個の正解文候補は、音声認識装置が統計的音響モデルに基づいて出力する対数音響スコアと、音声認識装置が統計的言語モデルに基づいて出力する対数言語スコアとの和の順に上位から並べたものである。スコアの和の値が大きいほど、上位の候補である。
【０００３】
また、従来技術による方法では、各々の正解文候補に対して、単語の挿入、置換、脱落による誤り修正が、人手で与えられる。図示する例では、正解文が「損害／を／です／ね／補償／する」（「／」は単語の区切りを表す）である。よって、正解文候補第１位の「損害／を／です／ね／［え］／［ま］／保証／する」に対する誤り訂正は、「保証」を「補償」に置換することである。また、正解文候補第４位の「損害／を／です／ね／［え］／［ま］／保障／する」に対する誤り訂正は、「保障」を「補償」に置換することである。そして、音声認識装置が「保証」や「保障」といった誤った単語を選択しないように、（１）「保証」や「保障」を出現しにくくするために、これら各単語に対してペナルティを与え、また、（２）「補償」を出現しやすくするために、この単語に報償を与える。
【０００４】
音声認識装置は、統計的音響モデルおよび統計的言語モデルにそれぞれ基づく音響スコアおよび言語スコアを用いて各正解候補のスコアを算出するが、これらのスコアに加えて、上記の単語の誤り傾向に基づくペナルティや報償を加点することで、尤もらしい正解候補単語列を選択する。なお、ここで，音響スコアは、ＨＭＭ（隠れマルコフモデル）等の統計的音響モデルに基づいて得られた、正解候補単語の音響的な尤もらしさを表すスコアである。言い換えれば、ＨＭＭ等に基づくある音響特徴量が与えられたとき、複数の正解候補単語それぞれに対する尤もらしさを表すスコアが音響スコアである。また、言語スコアは、ｎグラム（n-gram）等の統計的言語モデルに基づいて得られた、正解候補単語の言語的な尤もらしさに対するスコアである。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補単語それぞれに対する尤もらしさを表すスコアが言語スコアである。
また、単語の誤り傾向に基づくペナルティや報償のスコアは、あらかじめ収集された音声認識結果と、対応する正解とを用いて、音声認識装置が統計的に学習することによって得られる。
【０００５】
非特許文献１に記載された技術では、単語ｎ項組が与えられたときの正解・誤りの分布を学習データから統計的に求めて、スコアを算出している。これらは一般にｎグラム素性（単語の誤り傾向を決定するための特徴）と呼ばれ、通常、単語ｎグラム（連続した単語のｎ個組）や、単語を該当する品詞や意味などに置き換えたクラスｎグラムを素性とする。そして、通常、ｎの値として２から３程度を用いる。
【先行技術文献】
【非特許文献】
【０００６】
【非特許文献１】小林彰夫，外４名，「単語誤り最小化に基づく識別的リスコアリングによる音声認識」，電子情報通信学会誌，２０１０年，vol. J93-D，no.5，ｐｐ．５９８−６０９．
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、上記の従来技術による方法には、次のような課題が存在する。
まず、従来技術による方法では、音声認識率を向上させるために、与えられた音声に対する音声認識結果と、その正解を準備することが必要である。その正解は、音声に基づき人手で作成する必要がある。そして、音声認識率を充分に改善させるためには、膨大な量の正解を人手で作成する必要があり、それを行なう場合のコストは膨大である。
【０００８】
また、コストを投じて正解を用意したとしても、それらのデータは、必ずしも認識させたい音声の認識率向上の目的に適うとは限らない。例えば、スポーツニュースの音声認識性能を向上させたいにもかかわらず、政治や経済などの一般的なニュースの音声認識結果とその正解しか用意できなければ、スポーツニュースに出現するような単語、例えばスポーツ選手の名前や各種競技のルール名などの単語誤り傾向を学習することはできない。つまり、タスク（話題、番組のジャンルなど）の不適合が発生し得る。これはタスクに応じて単語やｎグラムや文等の言語表現の出現頻度が異なるためである。
【０００９】
つまり、従来技術による方法では、単語の誤り傾向を反映した統計的言語モデルを学習するために、正解が予め用意されたデータを用いる必要があるため、学習データの収集に要するコストの高くなるという問題があった。また、上記のタスク不適合の問題を回避できないという不都合があった。
【００１０】
本発明は、上記の課題認識に基づいて行なわれたものであり、学習により統計的言語モデルを構築するためのコストを削減することのできる言語モデル処理装置を提供する。
さらに、本発明は、利用者がターゲットとするタスクに適合した学習により統計的言語モデルを構築する言語モデル処理装置を提供する。
【課題を解決するための手段】
【００１１】
［１］上記の課題を解決するため、本発明の一態様による言語モデル処理装置は、正解データのない音声認識結果データを記憶する正解なし認識結果記憶部と、言語表現の出現確率を表すデータである言語モデルを記憶する言語モデル記憶部と、与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって前記言語モデルを更新して、更新された前記言語モデルを前記言語モデル記憶部に書き込む正解なし誤り傾向学習部とを具備することを特徴とする。
【００１２】
ここで、言語表現の例は、単語や、熟語や、所定の長さの文字ｎグラムあるいは単語ｎグラムや、文や、発話単位や、その他所定の単位の単語列などである。
またここで、学習処理とは機械学習処理である。機械学習処理は、例えば、可変要因を有する系において、所望の結果を得るため、または結果を最適化ないしは改善するために、前記可変要因を様々に変えて試行を行いつつその試行結果をフィードバックすることにより、前記可変要因の望ましい形態を得る処理である。ここでは、上記可変要因は言語モデルである。また所望の結果とは、更新された言語モデルを用いる音声認識装置が、音声認識結果として、正解を出力する度合いを高め、また正解以外を出力する度合いを低めることである。機械学習処理は、一例としては、目的関数（評価関数）を適切に定め、可変要因の変化に対する目的関数の値の変化を得て、目的関数値の変化に応じて可変要因を適応的に定めていく処理を行う。
上記の構成により、正解なし誤り傾向学習部は、正解データを用いず、正解のない音声認識結果データのみから学習処理を行い、その結果得られた言語モデルを言語モデル記憶部に書き込む。つまり、正解なし誤り傾向学習部に対して正解データを与える必要がない。
【００１３】
［２］また、上記の言語モデル処理装置において、音声認識結果データと該音声認識結果データに対応する正解データとを記憶する正解付き認識結果記憶部と、予め与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって与えられた前記言語モデルを更新して出力する正解付き誤り傾向学習部とをさらに具備し、前記正解なし誤り傾向学習部は、前記正解付き誤り傾向学習部が更新して出力した前記言語モデルを入力とするようにしてもよい。
【００１４】
上記の正解付き誤り傾向学習部は、それ自身による学習処理の結果得られた言語モデルを出力する。また、正解付き誤り傾向学習部によって更新された言語モデルを、正解なし誤り傾向学習部への入力とする
【００１５】
［３］また、上記の言語モデル処理装置において、以下のようにしても良い。即ち、前記正解付き誤り傾向学習部は、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データにそれぞれ含まれる言語表現と所定の第１のパラメータ集合とを基に計算される第１の目的関数を用いて前記誤り傾向の学習処理を行い、この誤り傾向の学習結果によって得られた前記第１のパラメータ集合の値に基づいて、前記言語モデルの更新および出力を行い、前記正解なし誤り傾向学習部は、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データに基づき、前記正解のない音声認識結果データに含まれる言語表現と所定の第２のパラメータ集合とを基に計算される第２の目的関数を用いて、前記誤り傾向の学習処理を行い、この誤り傾向の学習結果によって得られた前記第２のパラメータ集合の値に基づいて、前記言語モデルを更新し、更新された前記言語モデルと前記言語モデル記憶部に書き込む。
【００１６】
ここで、第１の目的関数の例として、正解データと音声認識結果データとの間のリスクと、正解データの事後確率（この事後確率は第１のパラメータ集合により可変）とに基づく値を取る関数を用いる。第１の目的関数は、確率要素を加味したリスクの総量となるようにする。リスクの一例は、両データ間の編集距離である。そして、このリスクの総量を最小化するような正解データの事後確率を得られることを指向して、正解付き誤り傾向学習部は、学習処理により第１のパラメータ集合の値を求める。
また、第２の目的関数の例として、正解候補である複数の音声認識結果データの相互間のリスクと、正解候補である音声認識データの事後確率（この事後確率は第２のパラメータ集合により可変）とに基づく値を取る関数を用いる。第２の目的関数は、確率要素を加味したリスクの総量となるようにする。そして、このリスクの総量を最小化するような、正解候補である音声認識結果データの事後確率を得られることを指向して、正解なし誤り傾向学習部は、学習処理により第２のパラメータ集合の値を求める。
また、第１のパラメータ集合および第２のパラメータ集合のそれぞれの一例は、所定の与えられた言語モデルを、言語表現に関する複数の素性関数を用いて更新するときに、各素性関数に対応する重み値の集合を用いて良い。
【００１７】
［４］また、上記の言語モデル処理装置において、以下のようにしても良い。即ち、言語モデル処理装置は、テキストを記憶するテキスト記憶部（実施形態における符号１００、１１０、１２０、１３０に対応）と、予め与えられる前記言語モデルと、前記テキスト記憶部から読み出した前記テキストとを用いて、言語表現の出現傾向の学習を行い、この出現傾向の学習結果によって前記言語モデルを更新して出力する出現傾向学習部とをさらに具備し、前記正解付き誤り傾向学習部は、前記出現傾向学習部が出力した前記言語モデルを前記入力された言語モデルとして使用することを特徴とする。
【００１８】
ここで、テキスト記憶部が記憶するテキストは、例えば、ウェブサイト等から得られる一般的なテキストや、音声認識結果として生成されたテキスト等を用いて良い。
【００１９】
［５］また、上記の言語モデル処理装置において、以下のようにしても良い。即ち、言語モデル処理装置は、音声認識結果データと該音声認識結果データに対応する正解データとを蓄積しておく正解付き音声言語資源蓄積部と、正解データのない音声認識結果データを蓄積しておく正解なし音声言語資源蓄積部と、収集されたテキストを蓄積しておく言語資源蓄積部（実施形態における符号４０、５０、６０、およびそれらを包括する符号７０に対応）と、所定のタスクに属する言語情報（テキストあるいは音声）を記憶するターゲットデータ記憶部と、（１）前記ターゲットデータ記憶部から読み出した前記言語情報と前記正解付き音声言語資源蓄積部から読み出した前記正解データとの間で計算した言語表現に関する類似度に基づき、前記正解付き音声言語資源蓄積部から選択した前記音声認識結果データおよび対応する前記正解データを、前記正解付き認識結果記憶部に書き込み、（２）前記ターゲットデータ記憶部から読み出した前記言語情報と前記正解なし音声言語資源蓄積部から読み出した前記正解データのない音声認識結果データとの間で計算した言語表現に関する類似度に基づき、前記正解なし音声言語資源蓄積部から選択した前記正解データのない音声認識結果データを前記正解なし認識結果記憶部に書き込み、（３）前記ターゲットデータ記憶部から読み出した前記言語情報と前記言語資源蓄積部から読み出した前記テキストとの間で計算した言語表現に関する類似度に基づき、前記言語資源蓄積部から選択した前記テキストを前記テキスト記憶部に書き込むデータ抽出部とを具備する。
【００２０】
［６］また、上記の言語モデル処理装置を具備し、言語表現と音響的特徴量に対する言語表現の確率を表すデータである音響モデルを記憶する音響モデル記憶部と、前記言語モデル処理装置の前記言語モデル記憶部から読み出す前記言語モデルと、前記音響モデル記憶部から読み出す前記音響モデルとに基づき、入力される音声の音声認識処理を行い、結果として得られる正解のない音声認識結果データを前記言語モデル処理装置の前記正解なし音声言語資源蓄積部に書き込む音声認識処理部とをさらに具備する音声認識装置としても良い。
【００２１】
［７］また、本発明の一態様は、正解データのない音声認識結果データを記憶する正解なし認識結果記憶部と、言語表現の出現確率を表すデータである言語モデルを記憶する言語モデル記憶部と、与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって前記言語モデルを更新して、更新された前記言語モデルを前記言語モデル記憶部に書き込む正解なし誤り傾向学習部とを具備する言語モデル処理装置としてコンピュータを機能させるプログラムである。
【発明の効果】
【００２２】
本発明の一態様によれば、単語の認識誤りについての機械学習を行って、その結果により言語モデルを更新するため、その言語モデルを用いた場合の音声認識精度を向上させることができる。
また、本発明の一態様によれば、単語の出現傾向についての機械学習を行って、その結果により言語モデルを更新するため、その言語モデルを用いた場合の音声認識精度を向上させることができる。
また、本発明の一態様によれば、特定の言語資源（音声言語資源）との類似度に基づいて選択された言語資源（音声言語資源）によって上記の学習を行なうため、特定のタスクにおいて特に音声認識精度を向上させることができる。
また、正解なし音声言語認識結果をも用いて上記の学習を行なうため、予め正解データを用意する必要がなく、低コスト化が可能となる。
また、本発明の一態様によれば、自動的に収集・蓄積した言語資源を用いて上記の学習を行なうため、低コスト化が可能となる。
【図面の簡単な説明】
【００２３】
【図１】本発明の実施形態による音声認識装置全体の機能構成を示すブロック図である。
【図２】同実施形態による学習部のさらに詳細な機能構成を示すブロック図である。
【図３】同実施形態による正解なし音声言語資源蓄積部が記憶するデータの構成を示す概略図である。
【図４】同実施形態による正解付き音声言語資源蓄積部が記憶するデータの構成を示す概略図である。
【図５】同実施形態による正解なし言語資源蓄積部が記憶するデータの構成を示す概略図である。
【図６】同実施形態による音声認識装置の全体的な処理手順を示すフローチャートである。
【図７】同実施形態のターゲット選定部およびデータ抽出部による、データ抽出処理の手順を示すフローチャートである。
【図８】同実施形態の出現傾向学習部による学習処理の手順を示すフローチャートである。
【図９】同実施形態の正解付き誤り傾向学習部による学習処理の手順を示すフローチャートである。
【図１０】同実施形態の正解なし誤り傾向学習部による学習処理の手順を示すフローチャートである。
【図１１】本発明の第２の実施形態による言語モデル処理装置の機能構成を示すブロック図である。
【図１２】音声認識結果の正解文と、複数個の正解文候補の例を示す概略図である。
【発明を実施するための形態】
【００２４】
［１．第１の実施の形態］
本発明の第１の実施形態について、図面を参照しながら説明する。
［１．１構成］
図１は、本実施形態による音声認識装置全体の機能構成を示すブロック図である。この音声認識装置１は、音声認識処理で使用するための統計的言語モデルを構築する言語モデル処理装置を内部に含んでいる。
図示するように、音声認識装置１は、音声認識処理部１０と、言語資源取得部２０と、資源蓄積部７０と、ターゲット選定部８０と、データ抽出部９０と、ターゲットデータ記憶部１００と、類似テキスト記憶部１１０と、正解付き認識結果記憶部１２０と、正解なし認識結果記憶部１３０と、学習部１４０と、モデル記憶部１７０とを含んで構成される。
【００２５】
また、資源蓄積部７０は、内部に、正解なし音声言語資源蓄積部４０と、正解付き音声言語資源蓄積部５０と、言語資源蓄積部６０とを含んで構成されている。
また、学習部１４０は、出現傾向学習部１５０と、誤り傾向学習部１６０とを含んで構成されている。
また、モデル記憶部１７０は、音響モデル記憶部１８０と、言語モデル記憶部１９０とを含んで構成されている。
【００２６】
なお、本装置の各部は、電子回路を用いて構成する。また、資源蓄積部７０、ターゲットデータ記憶部１００、類似テキスト記憶部１１０、正解付き認識結果記憶部１２０、正解なし認識結果記憶部１３０、モデル記憶部１７０等、情報を記憶する手段は、磁気ハードディスク装置や各種の半導体メモリを併せて用いて構成する。
【００２７】
次に、音声認識装置１を構成する各部について、順次説明する。
音声認識処理部１０は、モデル記憶部１７０から音響モデルおよび言語モデルを読み出しながら、入力される放送音声の音声認識処理を随時行ない、その音声と認識結果のテキストデータを出力する。なお、音声認識処理の対象である音声としては、サンプリングされたデジタルデータを扱う。
【００２８】
資源蓄積部７０は、外部から取得されたテキストデータや、音声や、音声認識結果等を記憶・蓄積するものである。資源蓄積部７０に含まれる正解なし音声言語資源蓄積部４０は、正解なし音声言語資源を記憶する。ここで、正解なし音声言語資源は、音声とその音声認識処理の結果とを対応付けたデータであり、正解を含まないものである。上述した音声認識処理部１０は、音声認識処理によって音声認識結果を得るが、その正解を得ることはなく、よって正解なし音声言語資源をこの音声言語資源蓄積部４０に書き込む。また、正解付き音声言語資源蓄積部５０は、正解付き音声言語資源を記憶する。ここで、正解付き音声言語資源は、音声とその音声認識処理の結果と人の手作業により作成された正解とを対応付けたデータである。また、言語資源蓄積部２０は、言語資源を記憶する。ここで、言語資源は、例えば日本語や英語などといった言語で書かれたテキストのデータである。
【００２９】
言語資源取得部２０は、外部のウェブサーバ３１０から、例えばインターネット等の通信回線を介して、テキストデータを取得する。ここで、ウェブサーバ３１０は、ＨＴＴＰ（ハイパーテキスト転送プロトコル）等を用いてウェブページのデータを提供するコンピュータであり、それらのウェブページには、ニュース記事や、各種話題に関する記事や、用語解説などの様々なテキストデータが含まれている。言語資源取得部２０は、各種ウェブサイトを適宜巡回して取得したテキストデータを言語資源蓄積部６０に書き込む。なお、ここで、言語資源取得部２０が外部から取得するテキストデータは、例えばＨＴＭＬ（ハイパーテキストマークアップ言語）等の形式でマークアップ用の属性情報を含んでいるものであっても良く、また、属性情報を有しないプレインなテキストであっても良い。
【００３０】
ターゲット選定部８０は、音声言語資源蓄積部４０に蓄積されている音声言語資源のデータのうち、利用者が選んだものを読み出して、それら選ばれた音声言語資源をターゲットデータ記憶部１００に書き込む。ターゲット選定部８０は、適宜設計された利用者インターフェースを用いて選定候補を画面等に表示することにより、利用者がターゲットとする音声言語資源を選択できるようにする。利用者は、音声認識率を向上させたいタスクに類似する音声言語資源をターゲットとして選択することができる。なお、ターゲット選定部８０において選択されたデータを、以後、ターゲットデータとも呼ぶ。
ターゲットデータ記憶部１００は、上記のターゲット選定部８０の機能によってターゲットとして選定された音声言語資源を記憶する。つまり、ターゲットデータ記憶部１００は、選択された特定のタスクに属する言語情報を記憶する。
【００３１】
データ抽出部９０は、ターゲットデータ記憶部１００に記憶されているデータと、資源格納部７０内の各部に記憶されている各種言語資源のデータとを比較し、ターゲットデータ即ち利用者が音声認識率を向上させたいと考えて選択したタスクに類似した言語資源を抽出し、出力する。具体的には、データ抽出部９０は、正解なし音声言語資源蓄積部４０に蓄積された正解なし音声言語資源のデータと、ターゲットデータ記憶部１００に記憶された音声言語資源のデータとを比較し、類似したデータを抽出し、抽出されたデータを正解なし認識結果記憶部１３０に書き込む。また、データ抽出部９０は、正解付き音声言語資源蓄積部５０に蓄積された正解付き音声言語資源のデータと、ターゲットデータ記憶部１００に記憶された音声言語資源のデータとを比較し、類似したデータを抽出し、抽出されたデータを正解付き認識結果記憶部１２０に書き込む。また、データ抽出部９０は、言語資源蓄積部６０に蓄積された言語資源のテキストデータと、ターゲットデータ記憶部１００に記憶された音声言語資源のデータとを比較し、類似したデータを抽出し、抽出されたテキストデータを類似テキスト記憶部１１０に書き込む。なお、データ抽出部９０は、言語表現に関する所定の類似度を計算する機能を有しており、この類似度に基づいて上記の各データの抽出を行う。
【００３２】
学習部１４０は、類似テキスト記憶部１１０と正解付き認識結果記憶部１２０と正解なし認識結果記憶部１３０にそれぞれ記憶された類似データ（ターゲットデータとの類似データ）と、ターゲットデータそのものとを用いて、統計的方法を用いて、単語の出現傾向と単語の誤り傾向とを学習する処理を行なう。
【００３３】
学習処理部１４０を構成する出現傾向学習部１５０は、類似テキスト記憶部１１０から読み出すテキストデータと、正解付き認識結果記憶部１２０から読み出すテキストデータ（音声認識結果のテキストおよび正解のテキスト）と、正解なし認識結果記憶部１３０から読み出すテキストデータ（音声認識結果のテキスト）と、ターゲットデータ記憶部１００から読み出すターゲットデータ（音声認識結果のテキスト）から、単語の出現傾向を学習するものである。出現傾向学習部１５０は、この学習処理の結果に基づいて、予め与えられる初期の言語モデルを更新し、出力する。
つまり、ターゲットデータ記憶部１００と類似テキスト記憶部１１０と正解付き認識結果記憶部１２０と正解なし認識結果記憶部１３０は、それぞれ、出現傾向学習部１５０が学習処理に用いるためのテキストを記憶するテキスト記憶部として機能する。
【００３４】
また、学習処理部１４０を構成する誤り傾向学習部１６０は、類似テキスト記憶部１１０のデータを用いず、正解付き認識結果記憶部１２０から読み出すテキストデータ（音声認識結果のテキストおよび正解のテキスト）と、正解なし認識結果記憶部１３０から読み出すテキストデータ（音声認識結果のテキスト）とから、単語の誤り傾向を学習するものである。このとき、誤り傾向学習部１６０は、出現傾向学習部１５０が出力した言語モデルを入力として、そして学習処理により言語モデルを更新する。
【００３５】
学習部１４０内では、まず出現傾向学習部１５０が単語の出現傾向の学習を行い、その後に、出現傾向の学習結果をも用いながら、誤り傾向学習部１６０が単語の誤り傾向の学習を行なう。学習部１４０は、これらの学習処理の結果として、言語モデルを出力する。学習部１４０は、出力する言語モデルを、モデル記憶部１７０内の言語モデル記憶部１９０に書き込む。
【００３６】
なお、音声認識処理部１０は、学習部１４０によって書き込まれた（更新された）言語モデルを用いて、また、音響モデルを用いて、前述の音声認識処理をおこなう。このように、音声認識装置１において、言語モデルを利用した音声認識処理−音声言語資源の蓄積−ターゲットに類似の音声言語資源の抽出−抽出されたデータを用いた統計的処理−言語モデルの出力は、処理の閉ループを構成する。つまり、言語モデルを用いた入力音声の認識処理と、その認識結果（正解なし）に基づく出現傾向と誤り傾向の学習処理および学習結果に基づく言語モデルの更新を、交互に行ないながら、言語モデルを順次改善し成長させることもできる。
【００３７】
図２は、上で説明した学習部１４０のさらに詳細な機能構成を示すブロック図である。図示するように、学習部１４０内の誤り傾向学習部１６０は、正解付き誤り傾向学習部１６１と正解なし誤り傾向学習部１６２とを含んで構成される。
正解付き誤り傾向学習部１６１は、与えられた言語モデルを入力とし、入力された言語モデルと、正解付き認識結果記憶部１２０から読み出した音声認識結果データおよび正解データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって与えられた前記言語モデルを更新して出力する。
正解なし誤り傾向学習部１６２は、正解付き誤り傾向学習部１６１が出力した言語モデルと、正解なし認識結果記憶部１３０から読み出した正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって言語モデルを更新して、更新された言語モデルを表すデータを言語モデル記憶部１９０に書き込む。
【００３８】
次に、音声認識装置１の各部についてさらに詳細に説明する。
音声認識処理部１０における処理は、統計的なモデルを利用して、入力される音声を単語列に変換する処理である。このような統計的特徴を利用する処理では、大量のテキストデータや大量の音声データを収集することが重要な役割を果たす。それらの大量のデータを蓄積・保存するものが、前述の資源蓄積部７０である。
【００３９】
次に、資源蓄積部７０内に記憶する各データについて説明する。
図３は、正解なし音声言語資源蓄積部４０が記憶する正解なし音声言語資源のデータ構成を示す概略図である。図示するように、正解なし音声言語資源蓄積部４０は、番組識別情報と、番組情報と、音声と、音声認識結果の各項目のデータを互いに関連付けて記憶する。正解なし音声言語資源蓄積部４０は番組単位でデータを保持するものであり、図示している表の１行分のデータが１番組に対応する。番組識別情報は番組を一意に識別するためのＩＤ（番号等）である。番組情報は、電子番組表（Electronic Program Guide）に含まれる番組タイトルや番組説明テキストのデータである。音声は、番組の音声であり、例えばＷＡＶ形式などのデジタル化された音声データである。音声認識結果は、上記の音声を入力として音声認識処理を行なった結果得られるデータである。音声認識結果のデータは、複数の正解候補を含むものであってもよい。
【００４０】
図４は、正解付き音声言語資源蓄積部５０が記憶する正解付き音声言語資源のデータ構成を示す概略図である。図示するように、正解付き音声言語資源蓄積部５０は、番組識別情報と、番組情報と、音声と、音声認識結果と、正解の各項目のデータを互いに関連付けて記憶する。これらのうち、番組識別情報と、番組情報と、音声と、音声認識結果の各項目のデータは、正解なし音声言語資源蓄積部４０が保持するそれらと同様のものである。そして、正解は、当該番組の音声に対応する正解のテキストであり、人手で付与されるものである。
【００４１】
図５は、言語資源蓄積部６０が記憶する言語資源のデータ構成を示す概略図である。図示するように、言語資源蓄積部６０は、ページ識別情報と、ＵＲＬ（Uniform Resource Locator）と、日時と、テキストの各項目のデータを互いに関連付けて記憶する。この言語資源蓄積部６０が記憶するテキストデータは、言語資源取得部２０が外部のウェブサーバから取得したニュース記事やブログ（blog）記事等のテキストである。
【００４２】
資源蓄積部７０が蓄積する上記の３種類のデータはいずれも、言語的な情報を含んでいる。また、それらのうちの正解なし音声言語資源と正解付き音声言語資源は、さらに音響的な情報を含んでいる。また、正解なし音声言語資源蓄積部４０に蓄積されるデータと言語資源蓄積部６０に蓄積されるデータは、人手を必要とせず自動処理により、比較的安価に収集することができる。それに対して、正解付き音声言語資源蓄積部５０に蓄積されるデータは、人手によって正解を付与するため、比較的コストのかかるデータである。なお、正解なし音声言語資源蓄積部４０に記憶されるデータには正解のデータが含まれず、音声認識結果には通常は誤りの情報が含まれている。
【００４３】
なお、類似テキスト記憶部１１０と正解付き認識結果記憶部１２０と正解なし認識結果記憶部１３０が記憶する内部のデータの構成も、それぞれ、言語資源蓄積部６０と正解付き音声言語資源蓄積部５０と正解なし音声言語資源蓄積部４０と同様のものである。
【００４４】
音響モデル記憶部１８０は、音響的特徴量と言語表現（認識結果の音素等の表記）の統計的関係（確率値）を表すデータを音響モデルとして記憶するものである。これらのデータは一般的な話者に共通のものであっても良いし、話者個人毎あるいは話者属性（例えば、性別、年齢層等）毎のデータであっても良い。なお、音声認識処理における音響的特長量の処理の仕方については後述する。
言語モデル記憶部１９０は、言語表現の統計的な出現確率を表すデータを記憶するものであり、そのデータ構成については後述する。
【００４５】
［１．２処理概略］
次に、音声認識装置１による処理の概略について説明する。
音声入力ｘに対して、最も尤もらしい単語列ｗ（ハット）は、ベイズ（Bayes）の定理により、下の式（１）で求めることができる。ここで、単語列とは言語表現の一種である。
【００４６】
【数１】

【００４７】
ここで、音声入力ｘおよび単語列ｗは、例えば、発話の単位に対応する。発話の単位は、休止区間（無音区間）に挟まれた音声区間である。そして、Ｐ（ｘ｜ｗ）は、単語列ｗ（認識結果の文仮説）に対する音響的な尤もらしさであり、そのスコアは隠れマルコフモデル（ＨＭＭ，Hidden Markov Model）に代表される統計的音響モデルに基づいて計算できる。一方、P（w）は、単語列ｗに対する言語的な尤もらしさであり、そのスコアは単語ｎグラムモデル等の統計的言語モデルにより計算される。そして、音声認識においては、上の式（１）に基づいて、下の式（２）で表される評価関数ｇ（ｗ｜ｘ）を定める。
【００４８】
【数２】

【００４９】
但し、この式において、νは音響モデルに対する言語モデルの重みであり、その値は適宜定められる。一例としては、ν＝１．０とする。
そして、式（３）によって、正解候補となる単語列の集合Lに属するｗのうち最良の単語列ｗ（ハット）を選択する。
【００５０】
【数３】

【００５１】
また、単語列ｗの事後確率P（ｗ｜ｘ）は、式（２）の評価関数を用いて、下の式（４）によって計算できる。
【００５２】
【数４】

【００５３】
本実施形態による音声認識装置１における出現傾向学習部１５０は、音声認識処理を行なうタスクに合わせて式（１）におけるＰ（ｗ）の値の分布が最適になるように、学習処理を行なう。これは、単語の出現傾向の学習である。音声認識装置１がこの学習処理を行なうことにより、タスクにマッチする単語列ｗに関してＰ（ｗ）がより大きくなり、そうでない単語列ｗに関してＰ（ｗ）が相対的に小さくなる。
また、音声認識装置１における誤り傾向学習部１６０は、音声認識処理を行なうタスクに合わせて、式（４）におけるＰ（ｗ｜ｘ）の値が正解単語列に対して大きくなるように、Ｐ（ｗ）の値の分布についての学習処理を行なう。これは、タスクに合わせた、単語の誤り傾向の学習である。
【００５４】
音声認識装置１は、上記の２種類の機械学習処理を行なうことにより、音声認識率を改善する。言い換えれば、音声認識装置１は、音声認識性能を向上させるべきタスクが利用者によって選択されている条件下で、つまりそのタスクに属する音声言語資源が利用者によって選択されている条件下で、次の２種類の学習を順次行なう。
（１）ウェブ等のテキストデータから得られた言語資源や、過去の放送番組の音声に基づく音声認識結果を用いて、そのタスクにおいて期待される単語の出現傾向を学習する。
（２）上記（１）の学習結果を反映した上で、正解付きの音声言語資源、および大量に収集した放送番組の（正解なしの）音声認識結果から、正解または誤りと見込まれる部分の誤り傾向を学習する。
【００５５】
［１．３処理手順］
次に、音声認識装置１による具体的な処理手順について説明する。
図６は、音声認識装置１の全体的な処理手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まず、ステップＳ１において、ターゲット選定部８０が、音声認識性能の改善対象となるタスクを選択する。具体的には、利用者からの操作に基づき、ターゲット選定部８０が正解なし音声言語資源蓄積部４０に蓄積されているデータの一部を選択し、ターゲットデータ記憶部１００に書き込む。例えば、利用者がスポーツニュース番組の音声認識性能を改善したいと望めば、スポーツニュースの放送音声を選択する。
次に、ステップＳ２において、音声認識処理部１０が、入力される放送音声の認識処理を行い、その音声と音声認識結果と番組情報とをあわせて正解なし音声に言語資源蓄積部に書き込む。
【００５６】
次に、ステップＳ３において、データ抽出部９０が、ターゲットデータに類似したデータを選択・抽出する。具体的には、データ抽出部９０は、ターゲットデータ記憶部１００に記憶されているターゲットデータと、資源蓄積部７０内の各部に蓄積されているデータ（外部のウェブサーバから取得されたテキストデータや、音声認識結果として得られたデータ）との間の類似度を計算する。そして、データ抽出部９０は、その類似度に基づいて、ページ単位（ウェブサーバが提供するページの場合）や番組単位（放送音声の場合）などでターゲットデータに類似するデータを選択する。データ抽出部９０は、選択したデータを、適宜、類似テキスト記憶部１１０や正解付き認識結果記憶部１２０や正解なし認識結果記憶部１３０に書き込む。つまり、このステップで選択されたデータは、対象とするタスクに属するデータである。
【００５７】
なお、ステップＳ３における類似度の計算方法の一例は、次の通りである。即ち、正解付き音声言語資源または正解なし音声言語資源の１番組分の音声認識結果を１つの文書として、あるいはウェブ文書等の言語資源の１ページ分のテキストを１つの文書として、これら文書に含まれる単語の出現頻度をベクトル空間モデルに基づいて表現する。このベクトルが、その文書の特徴を現す特徴ベクトルである。そして、資源蓄積部７０に記憶されている各文書の特徴ベクトルとターゲットデータ記憶部１００に記憶されている文書の特徴ベクトルとの間のコサイン尺度を、両文書間の類似度として計算する。なお、コサイン尺度に基づくデータ選択方法の詳細については、後述する。
【００５８】
次に、ステップＳ４において、学習部１４０内の出現傾向学習部１５０が、データ抽出部９０によって選択されたデータに基づき、対象としているタスクに対して出現が見込まれる単語の出現傾向を学習する。そして、出現傾向学習部１５０は、学習結果に基づいて出現傾向適応化言語モデルを出力する。
【００５９】
本ステップでの単語出現傾向の学習処理の詳細は、次の通りである。
ターゲットデータ、およびステップＳ３で選択・抽出されたデータから得られるテキスト集合をＤ＝｛Ｄ_１，Ｄ_２，Ｄ_３，Ｄ_４｝とする。Ｄ_１は、類似テキスト記憶部１１０に記憶されている言語資源のテキストデータである。Ｄ_２は、正解付き認識結果記憶部１２０に記憶されている正解付き音声言語資源のテキストデータである。Ｄ_３は、正解なし認識結果記憶部１３０に記憶されている正解なし音声言語資源のテキストデータ（認識結果）である。Ｄ_４は、ターゲットデータ記憶部１００に記憶されているターゲットデータに含まれるテキストデータである。このテキスト集合Ｄは、利用者によって選択されたタスクに関するテキストの集合である。このようなテキスト集合Ｄに対して、頻繁に使われている単語や言語表現等の出現傾向を統計的に学習することにより、これに類似した、即ち当該タスクに属する未知の音声が与えられたときの単語の出現傾向を予測することができる。
【００６０】
出現傾向学習部１５０は、単語の出現傾向を学習する方法として、例えば、最大エントロピー法を用いる。単語の出現傾向は、単語列の出現確率として与えられる。単語列ｗが与えられたとき、その出現確率Ｐ（ｗ；Λ）は、下の式（５）の通りである。
【００６１】
【数５】

【００６２】
ここで、Ｐ_０（ｗ）は、出現傾向を学習する前のｎグラムに基づく単語列ｗの出現確率である。また、F =｛ｆ_１，ｆ_２，・・・｝は、与えられた単語列ｗに対して値を返す素性関数である。また、Λ＝｛λ_１，λ_２，・・・｝は、前記素性関数の各々に対応する重み値である。なお、Ｚ（Λ）は、確率Ｐ（ｗ；Λ）の総和が１となるようにするための正規化定数である。
【００６３】
上記の素性関数ｆ_ｉ（ｉ＝１，２，・・・）は、それぞれ単語列ｗに関する言語的ルールに対応しており、単語列ｗに関してそのルールが成立すれば１となり、成立しなければ０となるような関数である。ここで、言語的ルールの例とは、次に挙げるようなものである。なお、ｕやｖは、それぞれ具体的な単語である。
ルール例１：単語列ｗに、連続する単語２項組（ｕ，ｖ）が含まれる。
ルール例２：単語列ｗに、連続しない単語２項組（ｕ，ｖ）が含まれる。
ルール例３：単語列ｗに、ｕからｖに係るような係り受け関係が含まれる（構文的なルール）。
【００６４】
そして、出現傾向学習部１６０は、このようにして得られた出現傾向適応化言語モデルを、誤り傾向学習部１５０に渡す。
【００６５】
次に、ステップＳ５において、学習部１４０内の誤り傾向学習部１６０は、上のステップＳ４で作成された出現傾向適応化言語モデルを初期モデルとして用いて、またデータ抽出部９０によって選択されたデータのうちの正解付き認識結果および正解なし認識結果のデータを用いて、単語の誤り傾向を学習し、その結果として統計的言語モデルを作成する。なお、誤り傾向学習部１６０は、作成した統計的言語モデルによって言語モデル記憶部１９０を更新する。
【００６６】
本ステップでの単語誤り傾向の学習処理の詳細は、次の通りである。
誤り傾向学習部１６０は、ステップＳ３で選択・抽出された正解付き音声言語資源および正解なし音声言語資源を、それぞれ、正解付き認識結果記憶部１２０および正解なし認識結果記憶部１３０から読み出す。また、誤り傾向学習部１６０は、ターゲットデータをターゲットデータ記憶部１００から読み出す。そして、これらの音声認識結果の集合をＣとする。
【００６７】
音声認識処理における単語列の識別関数は、下の式（６）で表される。
【００６８】
【数６】

【００６９】
ここで、ｌｏｇ（Ｐ（ｘ｜ｗ））は対数音響スコアであり、例えば隠れマルコフモデルにより得られる。また、ｌｏｇ（Ｐ（ハット）（ｗ））は対数言語スコアであり、前のステップＳ４で得られた出現傾向適応化言語モデルによって、この対数言語スコアを取得できる。また、ν_ａおよびν_ｌは、ぞれぞれ、対数音響スコアおよび対数言語スコアに対する重み値である。
この誤り傾向の学習では、下の式（７）による識別関数を用いる。
【００７０】
【数７】

【００７１】
ここで，φ_ｉ（ｗ）（ｉ＝１，２，・・・）は、単語列ｗに対して値を返す言語的な素性関数であり、ステップＳ４で述べた素性関数と同等のものである。また、Θ＝｛θ_１，θ_２，・・・｝は、前記の素性関数φ_ｉ（ｗ）にそれぞれ対応する重み値である。式（７）の右辺の第２項および第３項の和であるν_ｌ・ｌｏｇ（Ｐ（ハット）（ｗ））＋Σ_ｉ（θ_ｉφ_ｉ（ｗ））から、誤り傾向を反映した言語モデルＰ（ｗ；Θ）は、式（８）で表される。
【００７２】
【数８】

【００７３】
なお、Ｚ（Θ）は、確率Ｐ（ｗ；Θ）の総和が１となるようにするための正規化定数である。
Ｐ（ｗ；Θ）を用いて、単語列ｗの事後確率は、下の式（９）によって求められる。
【００７４】
【数９】

【００７５】
本ステップにおける単語の誤り傾向の学習では、正解と誤りとのスコアの差が最大となるように、Ｐ（ｗ；Θ）を求める。言い換えれば、正解に対する事後確率が最大となるように、Ｐ（ｗ；Θ）を求める。
正解付きの音声認識結果集合に対しては、既存の技術を用いて重み値集合Θを求めることができるが、正解なしの音声認識結果集合に対しては、正解単語列が存在しないので、既存の技術のみでΘを求めることはできない。
従って、本実施形態は、以下に述べる方法で、従来技術における目的関数を拡張することによって、正解なしの音声認識結果集合に対してもΘを求めることができるようにする。
【００７６】
まず、誤り傾向学習部１６０は、正解付き認識結果記憶部１２０と正解なし認識結果記憶部１３０とターゲットデータ記憶部１００から読み込んだ学習データの集合Ｃを、Ｃ^ｐｏｓとＣ^ｎｅｇの２つに分ける。Ｃ＝｛Ｃ^ｐｏｓ，Ｃ^ｎｅｇ｝である。Ｃ^ｐｏｓは、正解付きの音声・音声認識結果の集合である。Ｃ^ｎｅｇは、正解なしの音声・音声認識結果の集合である。Ｃ^ｎｅｇは、ターゲットデータの音声認識結果を含んでいる。
これらの集合Ｃ^ｐｏｓおよびＣ^ｎｅｇに対応して、それぞれ、素性関数の集合Φ^ｐｏｓおよびΦ^ｎｅｇを定める。但し、Φ^ｐｏｓ∩Φ^ｎｅｇは空集合である。また、Φ^ｐｏｓおよびΦ^ｎｅｇの各要素に対応する重み値の集合が、それぞれ、Θ^ｐｏｓ（第１のパラメータ集合）およびΘ^ｎｅｇ（第２のパラメータ集合）である。
【００７７】
本ステップでは、上記のΘ^ｐｏｓおよびΘ^ｎｅｇについて学習処理を行ない、最適化を図る。そのための手順として、まず第１段階で、正解付き誤り傾向学習部１６１が正解付きの音声認識結果の集合を利用して重み値集合Θ^ｐｏｓを求め、その後の第２段階で、正解なし誤り傾向学習部１６２が正解なしの音声認識結果の集合を利用して重み値集合Θ^ｎｅｇを求める。
【００７８】
第１段階では、下の式（１０）による目的関数を用いて、この関数値が最小になるように、Θ^ｐｏｓを学習する。
【００７９】
【数１０】

【００８０】
式（１０）の目的関数は、正解付き音声認識結果の第m番目の発話ｘ_ｍ∈Ｃ^ｐｏｓに対する正解単語列ｗ_ｍ，０の対数事後確率の、ｍについての総和によるものである。
【００８１】
次に第２段階では、下の式（１１）による目的関数を用いて、この関数値が最小になるように、Θ^ｎｅｇを学習する。
【００８２】
【数１１】

【００８３】
式（１１）の目的関数は、正解なし音声認識結果の第ｎ番目の発話ｘ_ｎ∈Ｃ^ｎｅｇに対する音声認識結果の集合Ｌ_ｎについての対数事後確率の総和によるものである。なお、ｗ_ｎ，ｋは、発話ｘ_ｎに対するｋ番目の音声認識結果（ｋ＝１，２，・・・）である。
【００８４】
式（１０）および（１１）の代わりに、別の新しい目的関数を用いることもできる。まず第１段階では、正解付き音声認識結果について、下の式（１２）による目的関数を定める。
【００８５】
【数１２】

【００８６】
式（１２）の上の目的関数において、関数Ｒ（ｗ，ｗ´）は２つの単語列（ｗ，ｗ´）に関するリスクであり、単語列間の編集距離（レーベンシュタイン距離，Levenshtein Distance）として定義される。この編集距離は、文字の｛挿入、削除、置換｝のいずれかの操作を使って単語列ｗを単語列ｗ´に変形するのに必要な、手順の最小回数として与えられる。
そして、正解単語列に対するベイズリスクの総和を最小化するように、つまり式（１２）の関数値を最小化するように、学習処理を行い、重み値集合Θ^ｐｏｓを求める。
【００８７】
次に第２段階では、正解なし音声認識結果の集合について、下の式（１３）による目的関数を定める。
【００８８】
【数１３】

【００８９】
正解付き音声認識結果に用いる式（１２）の目的関数が正解に対するリスクを用いたのに対して、この式（１３）の目的関数は期待ベイズリスクとして定義されている。そして、この期待ベイズリスクを最小化するように、学習処理を行い、重み値集合Θ^ｎｅｇを求める。
【００９０】
以上述べたように、誤り傾向学習部１６０は、ステップＳ４で得られた出現傾向適応化言語モデルを用いて、２段階の学習処理を行なうことにより、重み値集合Θ^ｐｏｓおよびΘ^ｎｅｇを求める。言い換えれば、入力される出現傾向適応化言語モデルに単語の謝り傾向を反映させ、間違いやすい単語を訂正し、よくある誤りを排除するような統計的言語モデルを作成する。
【００９１】
そして、ステップＳ６において、音声認識装置１は、処理を終了するか否かを決定する。終了しない場合には、ステップＳ２に戻り、ステップＳ５で更新された言語モデルを用いて、当該タスクに関連した未知の音声の認識処理を行なう。
【００９２】
なお、このフローチャートでは、ステップＳ２で音声認識処理を行い、ステップＳ６における判断に基づいてステップＳ２に戻って繰り返し処理を行うようにしているが、ステップＳ１でのターゲット選定の処理の前に音声認識処理をすべて完了させておいても良い。この場合には、ステップＳ２およびＳ６における処理が不要であり、ステップＳ５の完了後にこのフローチャートの処理を終了する。
【００９３】
以上、述べたように、音声認識装置１は、単語の出現傾向と音声認識結果の誤り傾向の両者を用いた学習を行い、音声認識率を改善する。ここで、入力は、利用者が選択したタスクに即した音声認識結果と、蓄積された言語資源、正解なし音声言語資源、正解付き音声言語資源である。また、出力は、選択されたタスクに単語の出現傾向と単語の誤り傾向とを適応させた統計的言語モデルである。
【００９４】
［１．４詳細な処理手順］
次に、音声認識装置１における主要各部のさらに詳細な処理方法について説明する。
図７は、ターゲット選定部８０およびデータ抽出部９０による、データ抽出の処理の手順を示すフローチャートである。この図で示す処理は、図６に示したステップＳ１およびＳ３に相当する部分である。以下、このフローチャートに沿って説明する。
まずステップＳ２００において、ターゲット選定部８０は、正解なし音声言語資源蓄積部４０に記憶されている正解なし音声言語資源から、利用者が音声認識率を改善したいタスク（話題，番組）に関する音声をいくつか選択する。ターゲット選定部８０は、選択されたデータをターゲットデータとしてターゲットデータ記憶部１００に書き込む。
【００９５】
次に、ステップＳ２１０において、データ抽出部９０は、言語資源蓄積部６０に記憶されている言語資源のテキストデータから、上記ターゲットデータと類似したテキストデータを選択する。データ抽出部９０は、テキストデータの選択手法として、ベクトル空間モデルに基づくコサイン尺度を用いる。ベクトル空間モデルでは、放送番組やウェブページなどを１つの文書とみなし、ｍ個の単語、ｎ個の文書からなる文書集合Ｄを、ｍ行ｎ列の単語−文書行列のデータとして表現する。単語−文書行列の要素ｄ_ｉｊは、例えば、文書中の単語の出現頻度に基づいて次の式（１４）〜（１６）ように定める。
【００９６】
【数１４】

【００９７】
【数１５】

【００９８】
【数１６】

【００９９】
ここで、式（１５）のｆ_ｉｊは、単語ｉの文書ｊにおける出現頻度（回数）である。また、式（１６）のｐ_ｉｊは、下の式（１７）で定義される単語ｉの相対頻度である。
【０１００】
【数１７】

【０１０１】
式（１７）に表すように、相対頻度ｐ_ｉｊは、単語ｉの全文書における出現頻度に対する、文書ｊにおける出現頻度の割合である。また、式（１６）における｜Ｄ｜は、文書集合Ｄに属する文書の総数である。
式（１５）のｌ（エル）_ｉｊはｆ_ｉｊの増減に応じて単調に増減する正値であり、式（１６）のｇ_ｉもまた各文書ｊについてのｐ_ｉｊの増減に応じて単調に増減する正値である。つまり、式（１４）のｄ_ｉｊもまた、関係する出現頻度の値に応じて単調に変化する。
ここで，ｄ_ｊを文書集合のｊ番目の列ベクトルとし、ｑをターゲットデータを表す行ベクトルとすると、それら両者間の類似度は、式（１８）で表すコサイン尺度ｃｏｓ（ｄ_ｊ，ｑ）として求められる。
【０１０２】
【数１８】

【０１０３】
そして、データ抽出部９０は、このターゲットデータとの間の類似度が所定の閾値以上である文書のテキストデータを選択し、選択されたテキストを、類似テキスト記憶部１１０に書き込む。
次に、ステップＳ２２０において、データ抽出部９０は、ターゲットデータと、正解付き音声資源蓄積部５０から読み出した正解付き音声資源に含まれる正解データとの間の類似度を計算する。類似度の計算方法は、ステップＳ２１０で述べたものと同様である。そして、ターゲットデータとの間の類似度が所定の閾値以上である正解付き音声資源を選択し、選択されたデータを、正解付き認識結果記憶部１２０に書き込む。
次に、ステップＳ２３０において、データ抽出部９０は、ターゲットデータと、正解なし音声資源蓄積部４０から読み出した正解なし音声資源に含まれる認識結果データとの間の類似度を計算する。類似度の計算方法は、ステップＳ２１０で述べたものと同様である。そして、ターゲットデータとの間の類似度が所定の閾値以上である正解なし音声資源を選択し、選択されたデータを、正解なし認識結果記憶部１３０に書き込む。
【０１０４】
図８は、出現傾向学習部１５０による、出現傾向学習の処理の手順を示すフローチャートである。この図で示す処理は、図６に示したステップＳ４に相当する部分である。
この出現傾向学習処理で用いる最大エントロピー法について、まず説明する。最大エントロピー法に基づく適応化では、既に説明したテキスト集合をＤ＝｛Ｄ_１，Ｄ_２，Ｄ_３，Ｄ_４｝に対して、下の式（１９）で表される、適応モデルＰ（ハット）（ｗ）による負の対数尤度が最小になるように、重み値を求める。
【０１０５】
【数１９】

【０１０６】
但し、このとき、下の式（２０）で表される制約を満たすことを条件とする。
【０１０７】
【数２０】

【０１０８】
ここで、式（２０）の左辺のＰ（チルダ）（ｗ）は、集合Ｄにおける経験分布である。
モデルＰ（ハット）は、下の式（２１）で表すような対数線形モデルとなる。
【０１０９】
【数２１】

【０１１０】
式（２１）におけるλ_ｉ（ｉ＝０，１，２，・・・）は、素性関数ｆ_ｉにそれぞれ対応する重み値であり、学習処理により求める。最大エントロピー法に基づく学習では、式（１９）のＬ_ｍｅを目的関数として、制約式（２０）に従って、勾配を下の式（２２）により求める。
【０１１１】
【数２２】

【０１１２】
ここで、δは、更新のステップ幅である。そして、下の式（２３）により、重み値λ_ｉを更新する。
【０１１３】
【数２３】

【０１１４】
式（２３）による更新は、目的関数の値が変化しなくなるまで繰り返す。具体的には、目的関数の値が収束したか否か、つまり更新前後の目的関数の値の差の絶対値が所定閾値未満であるか否かの判断を行い、収束するまで式（２３）による更新を繰り返す。
【０１１５】
これを、図８のフローチャートに沿って説明すると、まずステップＳ３１０において、出現傾向学習部１５０は、類似テキスト記憶部１１０から読み出したテキストデータ、および正解付き認識結果記憶部１２０と正解なし認識結果記憶部１３０とターゲットデータ記憶部１００から読み出した音声認識結果を用いて、式（２０）の左辺の期待値を計算する。ここで、入力となる類似テキストおよび音声認識結果は既に定まっているため、これらのテキスト集合Ｄにおける単語列ｗの経験分布Ｐ（ｗ）は、このフローチャートの処理全体を通して定数である。よって、式（２０）の左辺の値は、この処理全体を通して定数である。
【０１１６】
次に、ステップＳ３２０において、出現傾向学習部１５０は、素性関数の重みΛ＝｛λ_１，λ_２，・・・｝を全てゼロに初期化する。
【０１１７】
次に、ステップＳ３３０において、出現傾向学習部１５０は、初期言語モデル（式（２１）におけるＰ_０（ｗ））を言語モデル記憶部１９０から読み込むとともに、式（２２）に従ってΛを更新する。言い換えれば、出現傾向学習部１５０は、これによって素性重みΛを推定している。なお、初期言語モデルは、選択されたタスクに応じた学習を行なう前から言語モデル記憶部１９０に記憶されている、単語列の出現確率である。
次に、ステップＳ３４０において、出現傾向学習部１５０は、ステップＳ３３０で更新した素性重みΛを用いて、式（１９）の目的関数の値を計算し、その値をＬ´_ｍｅとする。
【０１１８】
次に、ステップＳ３５０では、出現傾向学習部１５０は、重み更新前の目的関数値Ｌ_ｍｅと更新後の目的関数値Ｌ´_ｍｅとを比較して、予め設定しておいた収束判定のための閾値εに対して、下の不等式（２４）で表される条件を満たすか否かを判定する。
【０１１９】
【数２４】

【０１２０】
つまり、出現傾向学習部１５０は、目的関数値の相対的変化量がε未満かどうかにより、目的関数値が収束したか否かを判定する。その結果、式（２４）を満たさない場合（まだ収束していない場合）にはステップＳ３３０に戻り、式（２４）を満たす場合（収束した場合）には次のステップＳ３６０に進む。
【０１２１】
最後に、ステップＳ３６０では、出現傾向学習部１５０は、得られた素性重みΛを用いて、言語モデルを更新して出力する。ここで、具体的には、出現傾向学習部１５０は、得られた素性関数の重み値λ_ｉ（ｉ＝０，１，２，・・・）を半導体メモリ等に書き込むことによって、これらの値を誤り傾向学習部１６０に渡す。また、重み値λ_ｉに加えて、式（２１）のＰ（ハット）（ｗ）の値を、半導体メモリ等に書き込むことによって、誤り傾向学習部１６０に渡すようにしても良い。
ステップＳ３６０の処理が終わると、出現傾向学習部１５０は、このフローチャート全体の処理を終了する。
【０１２２】
図９は、誤り傾向学習部１６０内の正解付き誤り傾向学習部１６１による処理の手順を示すフローチャートである。
図１０は、誤り傾向学習部１６０内の正解なし誤り傾向学習部１６２による処理の手順を示すフローチャートである。
【０１２３】
まず、正解付き誤り傾向学習部１６１全体の処理について、数式を用いて説明する。
正解付き誤り傾向学習部１６１が用いる目的関数（第１の目的関数）は、前述のベイズリスクに基づくものであり、式（２５）で表される。
【０１２４】
【数２５】

【０１２５】
式（２５）に表すように、この目的関数は、音声認識の正解データと、対応する音声認識結果との間のリスク（編集距離）を用いている。
式（２５）の目的関数は、正解データと正解候補である音声認識結果データとの間のリスクと、正解データの事後確率とに基づく値を取る関数を用いている。またこの目的関数は、確率要素を加味したリスク（編集距離）の総量となるようにしている。そして、正解付き誤り傾向学習部１６１が行う学習処理は、このリスクの総量を最小化するような正解データの事後確率を得られることを指向している。
素性重み値の集合Θ^ｐｏｓに関する勾配を用いて目的関数の最小化を行うために、目的関数値Ｌ_２^ｐｏｓをθ_ｉ^ｐｏｓに関して偏微分すると、下の式（２６）を得る。
【０１２６】
【数２６】

【０１２７】
ここで、Ｈ_ｉ（ｗ_ｍ，ｋ）を下の式（２７）の通りとする。
【０１２８】
【数２７】

【０１２９】
従って、重み値の更新式は、ステップ幅δを用いて、下の式（２８）で表される。
【０１３０】
【数２８】

【０１３１】
式（２８）で更新された重みを用いて目的関数値を再計算し、更新前と更新後の間の目的関数値の相対的変化量が所定の閾値ε未満か否かを判定する。つまり、下の式（２９）による判定を行なう。
【０１３２】
【数２９】

【０１３３】
式（２９）を満たす場合には目的関数値が収束したと判断し、式（２９）を満たさない場合には目的関数値が収束するまで重み値の更新を繰り返す。
【０１３４】
そして、これで得られた重み値を用いた対数線形モデルは、下の式（３０）で表される。
【０１３５】
【数３０】

【０１３６】
続いて、正解なし誤り傾向学習部１６２全体の処理について、数式を用いて説明する。
正解なし誤り傾向学習部１６２が用いる目的関数（第２の目的関数）は、式（３１）で表される。
【０１３７】
【数３１】

【０１３８】
但し、事後確率Ｐ（ｗ｜ｘ；Θ^ｎｅｇ）は、正解付き誤り傾向学習部１６１で得られる言語モデルＰ（ｗ；Θ^ｐｏｓ）を使って計算される。つまり、式（３１）の目的関数値は、正解付き誤り傾向学習部１６１で得られる言語モデルＰ（ｗ；Θ^ｐｏｓ）を使って計算される。
【０１３９】
なおここでは正解データがないため、式（３１）に表す目的関数は、ある音声に対する複数の音声認識結果（正解候補）の相互間のリスク（編集距離）を用いている。本実施形態は、このような目的関数を用いているため、正解データがない音声言語資源を用いた誤り傾向の学習を効率的に行える。つまり、高コストな正解付き音声言語資源のみに頼る必要がない。
つまり、式（３１）で表す目的関数としては、正解候補である複数の音声認識結果データの相互間のリスクと、正解候補である音声認識データの事後確率とに基づく値を取る関数を用いている。また、この目的関数は、確率要素を加味したリスクの総量となるようにしている。正解なし誤り傾向学習部１６１が行う学習処理は、このリスクの総量を最小化するような、正解候補の事後確率を得られることを指向している。
【０１４０】
式（３１）の目的関数値Ｌ_２^ｎｅｇをθ_ｊ^ｎｅｇに関して偏微分すると、下の式（３２）を得る。
【０１４１】
【数３２】

【０１４２】
なお、この式（３２）の計算でも、言語モデルＰ（ｗ；Θ^ｐｏｓ）は用いられる。
そして、重み値の更新式は、ステップ幅δを用いて、下の式（３３）で表される。
【０１４３】
【数３３】

【０１４４】
式（３３）で更新された重みを用いて目的関数値を再計算し、更新前と更新後の間の目的関数値の相対的変化量が所定の閾値ε未満か否かを判定する。つまり、下の式（３４）による判定を行なう。
【０１４５】
【数３４】

【０１４６】
式（３４）を満たす場合には目的関数値が収束したと判断し、式（３４）を満たさない場合には目的関数値が収束するまで重み値の更新を繰り返す。これにより、Θ^ｎｅｇを求めることができる。
そして、以上で得られた重み値Θ＝｛Θ^ｐｏｓ，Θ^ｎｅｇ｝を用いた対数線形モデルは、前述の式（８）で表される。
【０１４７】
次に、誤り傾向学習処理の具体的な手順をフローチャートに沿って説明する。
図９にも示すように、正解付き誤り傾向学習部１６１は、正解付き認識結果記憶部１２０から読み出した正解付き音声認識結果を用いるとともに、出現傾向学習部１５０より渡された出現傾向適応化モデルを読み出して、誤り傾向を学習する。
図９のステップＳ５１０において、正解付き誤り傾向学習部１６１は、素性関数Φ^ｐｏｓに対する重みΘ^ｐｏｓの要素を全てゼロに初期化する。
次に、ステップＳ５２０において、正解付き誤り傾向学習部１６１は、正解付き音声認識結果に基づき、式（２８）を用いた計算を行なって、重み値θ_ｉ^ｐｏｓ（ｉ＝１，２，・・・）の値をそれぞれ更新する。
次に、ステップＳ５３０において、正解付き誤り傾向学習部１６１は、ステップＳ５２０で更新された重み値を用いて、式（２５）で定義される目的関数値を計算する。
【０１４８】
次に、ステップＳ５４０において、正解付き誤り傾向学習部１６１は、式（２９）が満たされるか否かの計算を行い、目的関数値が収束したか否かを判定する。式（２９）を満たせば、つまり目的関数値が収束していれば、次のステップＳ５５０に進む。式（２９）を満たさなければ、つまり目的関数値が収束していなければ素性重み値をさらに更新するために、ステップＳ５２０に戻る。
【０１４９】
次に、ステップＳ５５０に進んだ場合には、正解付き誤り傾向学習部１６１は、式（３０）で表される対数線形モデルの形式で、言語モデルを更新する。ここで、具体的には、正解付き誤り傾向学習部１６１は、得られた素性関数の重み値θ_ｉ^ｐｏｓ（ｉ＝１，２，・・・）を半導体メモリ等に書き込むことによって、これらの値を正解なし誤り傾向学習部１６２に渡す。また、重み値θ_ｉ^ｐｏｓに加えて、式（３０）のＰ（ｗ；Θ^ｐｏｓ）の値を、半導体メモリ等に書き込むことによって、正解なし誤り傾向学習部１６２に渡すようにしても良い。
以上で、このフローチャート全体の処理を終了する。
【０１５０】
次に、図１０にも示すように、正解なし誤り傾向学習部１６２は、正解なし認識結果記憶部１３０から読み出した正解なし音声認識結果と、ターゲットデータ記憶部１００から読み出したターゲットデータとを用いて、誤り傾向を学習する。
図１０のステップＳ５６０において、正解なし誤り傾向学習部１６２は、素性関数Φ^ｎｅｇに対する重みΘ^ｎｅｇの要素を全てゼロに初期化する。
【０１５１】
次に、ステップＳ５７０において、正解なし誤り傾向学習部１６２は、正解なし音声認識結果とターゲットデータに基づき、式（３３）を用いた計算を行なって、重み値θ_ｉ^ｎｅｇ（ｉ＝１，２，・・・）の値をそれぞれ更新する。なお、正解なし誤り傾向学習部１６２は、この計算を行なう際、前述の通り、正解付き誤り傾向学習部１６１から渡された言語モデルＰ（ｗ；Θ^ｐｏｓ）も用いる。
次に、ステップＳ５８０において、正解なし誤り傾向学習部１６２は、ステップＳ５７０で更新された重み値を用いて、式（３１）で定義される目的関数値を計算する。この計算の際にも、言語モデルＰ（ｗ；Θ^ｐｏｓ）が用いられる。
次に、ステップＳ５９０において、正解なし誤り傾向学習部１６２は、式（３４）が満たされるか否かの計算を行い、目的関数値が収束したか否かを判定する。式（３４）を満たせば、つまり目的関数値が収束していれば、次のステップＳ６００に進む。式（３４）を満たさなければ、つまり目的関数値が収束していなければ素性重み値をさらに更新するために、ステップＳ５７０に戻る。
【０１５２】
次に、ステップＳ６００に進んだ場合には、正解なし誤り傾向学習部１６２は、式（８）で表される対数線形モデルの形式で、言語モデルを更新する。ここで、具体的には、正解なし誤り傾向学習部１６２は、得られた素性関数の重み値Θ^ｐｏｓおよびΘ^ｎｅｇを言語モデル記憶部１９０に書き込む。また、重み値Θ^ｐｏｓおよびΘ^ｎｅｇに加えて、式（８）のＰ（ｗ；Θ）の値を、言語モデル記憶部１９０に書き込むようにしても良い。
以上で、このフローチャート全体の処理を終了する。
【０１５３】
以上のようにして、誤り傾向学習部１６０は、正解付き音声認識結果を用いた誤り傾向の学習と、正解なし音声認識結果を用いた誤り傾向の学習とを行う。
そして、以上の学習部１４０全体の処理により、言語モデル記憶部１９０は、利用者によって選択されたタスクに特に適うよう更新される。
以上述べたように、本実施形態の音声認識装置１では、正解付き音声認識結果だけではなく、正解なし音声認識結果をも用いた学習処理を行なうため、安いコストで収集した言語資源を用いて、コスト効率よく、モデルの学習を行なうことができる。これにより、音声認識率を向上させることができる。
【０１５４】
［１．５言語モデル記憶部の構成］
既に述べたように、言語モデルは、式（５）や式（８）や式（３０）で表される、単語列の出現確率のデータである。
言語モデル記憶部１９０は、初期の言語モデルとして、各単語列ｗに対応付けてＰ_０（ｗ）の値を予め記憶しておく。
また、学習部１４０の処理によって更新された言語モデルを保持するための一形態として、言語モデル記憶部１９０は、学習の結果得られた素性関数の重み値のセットを記憶する。このとき、タスクを識別する情報と関連付けて、素性関数の重み値のセットを記憶するようにしてもよい。これにより、複数のタスクにそれぞれ対応する言語モデルを保持することができる。さらに、言語モデル記憶部１９０が、学習結果反映済みの出現確率の値を各単語列ｗに対応付けて記憶するようにしても良い。これは、式（８）におけるＰ（ｗ；Θ）の値である。
【０１５５】
なお、出現傾向学習部１５０から誤り傾向学習部１６０（正解付き誤り傾向学習部１６１）に渡される言語モデルや、正解付き誤り傾向学習部１６１から正解なし誤り傾向学習部１６２に渡される言語モデルについても、そのデータ構成は上記の言語モデル記憶部１９０におけるそれと同様である。
【０１５６】
［１．６その他］
以上述べた本実施形態について整理すると、この手法では、ウェブ上のテキスト等の言語資源や、音声認識結果などの正解のない音声言語資源から、単語の出現傾向を学習できる。また、この手法では、比較的少量の正解付きの音声言語資源を準備して、比較的多量の正解なし音声言語資源を用いて、単語の誤り傾向を学習できる。これにより、単語の出現傾向と誤り傾向の両者を反映した統計的言語モデルを用いることによって、従来技術に比べて音声認識の性能を向上させることができる。また、低コストの言語資源、音声言語資源を利用することにより、正解データを制作するコストを削減できるという著しい利点がある。
【０１５７】
［２．第２の実施の形態］
次に、第２の実施形態について、図面を参照しながら説明する。なお、第１の実施形態と共通の事項については説明を省略し、本実施形態特有の事項のみを以下に説明する。
図１１は、本実施形態による言語モデル処理装置の機能構成を示すブロック図である。図示するように、本実施形態の言語モデル処理装置２は、言語資源取得部２０と、資源蓄積部７０と、ターゲット選定部８０と、データ抽出部９０と、ターゲットデータ記憶部１００と、類似テキスト記憶部１１０と、正解付き認識結果記憶部１２０と、正解なし認識結果記憶部１３０と、学習部１４０と、モデル記憶部１７０とを含んで構成される。これら各部の機能は、第１の実施形態におけるそれらと同様である。なお、第１の実施形態における音声認識装置１と異なり、この言語モデル処理装置２は、音声認識処理部１０を備えていない。
【０１５８】
つまり、言語モデル処理装置２は、外部から入力された音声の認識処理を行なわず、正解なし音声言語資源としては予め正解なし音声言語資源蓄積部４０に蓄積されているもののみを用いて、データ抽出部９０による抽出処理や学習部１４０による学習処理を行なう。またこの言語モデル処理装置２では、学習部１４０による学習処理の結果として特定のタスクに適合した言語モデルが得られ、得られた言語モデルを学習部１４０が言語モデル記憶部１９０に書き込むが、この言語モデル処理装置２自身が得られた言語モデルを用いて音声認識処理を行なうことはない。言語モデル処理装置２によって得られた言語モデルは、適宜、他の音声認識装置で用いることが可能である。
【０１５９】
［３．変形例］
さらに、第１の実施形態および第２の実施形態の変形例について説明する。
一つの態様として、言語資源取得部２０を含まない形で音声認識装置１または言語モデル処理装置２を構成しても良い。このとき、言語資源蓄積部６０には予めテキストを蓄積しておき、そのテキストを用いた処理を行なうようにする。
また、さらなる態様として、資源蓄積部７０の一部または全部を含まない形で音声認識装置１または言語モデル処理装置２を構成しても良い。このとき、資源蓄積部７０に蓄積されない資源（テキストのみによる言語資源、正解付き音声言語資源、正解なし音声言語資源）については、予め、類似テキスト記憶部１１０、正解付き認識結果記憶部１２０、正解なし認識結果記憶部１３０に適切な形で記憶させておくようにする。
【０１６０】
また、さらなる態様として、学習部１４０内に、出現傾向学習部１４０を含まず、誤り傾向学習部１５０のみを含む形で、構成しても良い。このとき、誤り傾向学習部１６０は、与えられた言語モデルに基づいて誤り傾向の学習処理を行い、言語モデルを更新する。このとき、誤り傾向学習部１６０に与えられる言語モデルは、出現傾向適応化済のものであっても良い。
また、さらなる態様として、誤り傾向学習部１６０が、正解なし誤り傾向学習部１６２を有しているものの、正解付き誤り傾向学習部１６１を有していない構成としても良い。このとき、正解なし誤り傾向学習部１６２は、誤り傾向学習部１６０の外部から入力されたまたは読み込んだ言語モデル（即ち、出現傾向学習部１５０が存在する場合には出現傾向学習部１５０から出力される出現傾向適応化言語モデル。出現傾向学習部１５０が存在しない場合には言語モデル記憶部１９０から読み出される初期の言語モデル。）を基に、正解なし認識結果を用いて前述の学習処理を行い、この学習結果により言語モデルを更新する。この場合は、正解付きの音声言語資源を必要とせずに、正解なし認識結果のみに基づいた言語モデルの改善が実現される。
【０１６１】
なお、上述した各実施形態およびその変形例における音声認識装置または言語モデル処理装置の全部または一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【０１６２】
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
上記実施形態では、放送音声を音声認識処理の対象としたが、放送音声以外の音声を対象として音声認識装置または言語モデル処理装置を構成しても良い。この場合は、放送番組の単位の変わりに、適宜定めた単位で音声言語資源を蓄積し、処理を行なう。
また、上記実施形態では、番組単位の放送音声を一文書として扱ったが、適宜これと異なる単位で放送音声を一文書として扱うようにしても良い。例えば、ニュース番組の記事毎に放送音声を一文書として扱ったり、番組内のコーナー（例えば、一般ニュース、スポーツニュース、天気予報など）毎に放送音声を一文書として扱ったりするようにしても良い。
【０１６３】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【０１６４】
本発明は、音声認識処理一般に広く利用できる。また例えば、放送等の音声を含んだコンテンツから、音声認識処理によって自動的に書き起こしテキストを生成する目的で、本発明を利用できる。また例えば、番組等のコンテンツ流通のために必要とされる番組情報を、自動的に取得する目的で、本発明を利用できる。
【符号の説明】
【０１６５】
１音声認識装置
２言語モデル処理装置
１０音声認識処理部
２０言語資源取得部
４０正解なし音声言語資源蓄積部
５０正解付き音声言語資源蓄積部
６０言語資源蓄積部
７０資源蓄積部
８０ターゲット選定部
９０データ抽出部
１００ターゲットデータ記憶部（テキスト記憶部）
１１０類似テキスト記憶部（テキスト記憶部）
１２０正解付き認識結果記憶部（テキスト記憶部）
１３０正解なし認識結果記憶部（テキスト記憶部）
１４０学習部
１５０出現傾向学習部
１６０誤り傾向学習部
１６１正解付き誤り傾向学習部
１６２正解なし誤り傾向学習部
１７０モデル記憶部
１８０音響モデル記憶部
１９０言語モデル記憶部

【特許請求の範囲】
【請求項１】
正解データのない音声認識結果データを記憶する正解なし認識結果記憶部と、
言語表現の出現確率を表すデータである言語モデルを記憶する言語モデル記憶部と、
与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって前記言語モデルを更新して、更新された前記言語モデルを前記言語モデル記憶部に書き込む正解なし誤り傾向学習部と、
を具備することを特徴とする言語モデル処理装置。
【請求項２】
音声認識結果データと該音声認識結果データに対応する正解データとを記憶する正解付き認識結果記憶部と、
予め与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって与えられた前記言語モデルを更新して出力する正解付き誤り傾向学習部と、
をさらに具備し、
前記正解なし誤り傾向学習部は、前記正解付き誤り傾向学習部が更新して出力した前記言語モデルを入力とする、
ことを特徴とする請求項１に記載の言語モデル処理装置。
【請求項３】
前記正解付き誤り傾向学習部は、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データにそれぞれ含まれる言語表現と所定の第１のパラメータ集合とを基に計算される第１の目的関数を用いて前記誤り傾向の学習処理を行い、この誤り傾向の学習結果によって得られた前記第１のパラメータ集合の値に基づいて、前記言語モデルの更新および出力を行い、
前記正解なし誤り傾向学習部は、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データに基づき、前記正解のない音声認識結果データに含まれる言語表現と所定の第２のパラメータ集合とを基に計算される第２の目的関数を用いて、前記誤り傾向の学習処理を行い、この誤り傾向の学習結果によって得られた前記第２のパラメータ集合の値に基づいて、前記言語モデルを更新し、更新された前記言語モデルと前記言語モデル記憶部に書き込む、
ことを特徴とする請求項２に記載の言語モデル処理装置。
【請求項４】
テキストを記憶するテキスト記憶部と、
予め与えられる前記言語モデルと、前記テキスト記憶部から読み出した前記テキストとを用いて、言語表現の出現傾向の学習を行い、この出現傾向の学習結果によって前記言語モデルを更新して出力する出現傾向学習部と、
をさらに具備し、
前記正解付き誤り傾向学習部は、前記出現傾向学習部が出力した前記言語モデルを前記入力された言語モデルとして使用する、
ことを特徴とする請求項２または３のいずれか一項に記載の言語モデル処理装置。
【請求項５】
音声認識結果データと該音声認識結果データに対応する正解データとを蓄積しておく正解付き音声言語資源蓄積部と、
正解データのない音声認識結果データを蓄積しておく正解なし音声言語資源蓄積部と、
収集されたテキストを蓄積しておく言語資源蓄積部と、
所定のタスクに属する言語情報を記憶するターゲットデータ記憶部と、
前記ターゲットデータ記憶部から読み出した前記言語情報と前記正解付き音声言語資源蓄積部から読み出した前記正解データとの間で計算した言語表現に関する類似度に基づき、前記正解付き音声言語資源蓄積部から選択した前記音声認識結果データおよび対応する前記正解データを、前記正解付き認識結果記憶部に書き込み、前記ターゲットデータ記憶部から読み出した前記言語情報と前記正解なし音声言語資源蓄積部から読み出した前記正解データのない音声認識結果データとの間で計算した言語表現に関する類似度に基づき、前記正解なし音声言語資源蓄積部から選択した前記正解データのない音声認識結果データを前記正解なし認識結果記憶部に書き込み、前記ターゲットデータ記憶部から読み出した前記言語情報と前記言語資源蓄積部から読み出した前記テキストとの間で計算した言語表現に関する類似度に基づき、前記言語資源蓄積部から選択した前記テキストを前記テキスト記憶部に書き込むデータ抽出部と、
を具備することを特徴とする請求項４に記載の言語モデル処理装置。
【請求項６】
請求項１から５までのいずれか一項に記載の言語モデル処理装置を具備し、
言語表現と音響的特徴量に対する言語表現の確率を表すデータである音響モデルを記憶する音響モデル記憶部と、
前記言語モデル処理装置の前記言語モデル記憶部から読み出す前記言語モデルと、前記音響モデル記憶部から読み出す前記音響モデルとに基づき、入力される音声の音声認識処理を行い、結果として得られる正解のない音声認識結果データを前記言語モデル処理装置の前記正解なし音声言語資源蓄積部に書き込む音声認識処理部と、
をさらに具備することを特徴とする音声認識装置。
【請求項７】
正解データのない音声認識結果データを記憶する正解なし認識結果記憶部と、
言語表現の出現確率を表すデータである言語モデルを記憶する言語モデル記憶部と、
与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって前記言語モデルを更新して、更新された前記言語モデルを前記言語モデル記憶部に書き込む正解なし誤り傾向学習部と、
を具備する言語モデル処理装置としてコンピュータを機能させるプログラム。

【図１】