説明

言語モデル生成装置、そのプログラムおよび音声認識システム

【課題】本発明は、精度が良い音声認識を可能とする言語モデルを生成する言語モデル生成装置を提供する。
【解決手段】言語モデル生成装置1は、学習テキストを記憶する学習テキスト記憶部11と、同意単語・連鎖語選択部21と、学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示す言語モデルを生成する言語モデル生成部22と、同一の意味を有する同意語について、言語モデルの出現確率に基づいて確率値を算出し、同意語の出現確率をこの確率値で更新する言語モデル変換部23と、発音辞書を記憶する発音辞書記憶部17と、発音辞書を変換する発音辞書変換部24とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、確率的言語モデルによって言語モデルを生成する技術、および、この言語モデルを用いて音声認識を行う技術に関する。
【背景技術】
【0002】
例えば、音声による機械操作(カーナビゲーション装置)、自動音声案内システム、または、放送番組におけるリアルタイム字幕生成では、言語モデルを用いた音声認識が不可欠である。このように、言語モデルは、音声認識の精度を左右する重要なものであるため、この言語モデルに関する従来技術が幾つか提案されている。
【0003】
現在、音声認識で利用されている一般的な言語モデルは、単語Nグラムモデルと呼ばれるものである(例えば、非特許文献1参照)。また、この単語Nグラムモデルを拡張した言語モデルとして、単語クラスという概念を用いた、クラスNグラムモデルがある。このクラスNグラムモデルは、品詞や概念によって単語を分類したクラスとして扱うNグラムモデルであり、学習テキストが少ないために、単語Nグラムモデルで学習を十分に行うことができない場合に有効である。
【0004】
また、Nグラムモデル以外の言語モデルに関する技術として、特許文献1に記載の発明が提案されている。この特許文献1に記載の発明は、正式名称の単語リストと、この言い換え単語リストとを用いて、言い換えのパターン(規則)を確率的に推定(モデル化)する。そして、この特許文献1に記載の発明は、正式名称に加えて、その辞書に言い換えのパターンを辞書(言語モデル)に追加する。さらに、この特許文献1に記載の発明は、短い入力音声(例えば、施設名、地名等の固有名詞)が、この辞書に登録された単語の波形にどれだけ近いものであるかを計算して認識結果を出力する。つまり、特許文献1に記載の発明は、1つ単語が含まれる入力音声を音声認識する孤立単語認識を行うものである。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2005−31255号公報
【非特許文献】
【0006】
【非特許文献1】確率的言語モデル、東京大学出版会、pp.60−62およびpp.72−75
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、Nグラムモデルでは、以下に述べるような問題がある。
主に話し言葉で見られるくだけた日本語には、同一の表現に対応するさまざまな表記や読みが存在する。例えば、「という」は、「っていう」または「っちゅう」等の表現になることが多い。一方、書き言葉では、これら全てが「という」に統一される。
また、話し言葉を書き起こした学習テキストを用いる場合、「という」が、例えば、「っていう」または「っちゅう」に置き換えられることがある。
これらの結果、言語モデルにおいて、一例として、「という」の統計量が分散して学習テキストの量が不十分となり、信頼できる確率値を算出できないことがある。
【0008】
また、学習テキストには、例えば、「取り引きする」は、「取引する」とも記述できるように、表記のゆらぎが含まれる場合がある。この場合、この表現のゆらぎが原因で、「取り引きする」の確率値が、小さな値で算出されることがある。
【0009】
以上をまとめると、Nグラムモデルは、話し言葉や書き言葉、および、表記のゆらぎのように、同一の意味で表記または読みが異なる単語または連鎖語が存在する場合、これら単語または連鎖語の統計量が分散する。このため、Nグラムモデルは、相対的に学習テキスト量が不足することになり、生成された言語モデルにおいて、確率値の信頼性が低くなるという問題がある。
【0010】
また、特許文献1に記載の発明は、孤立単語認識を行うことから、文脈を考慮して辞書を生成していない。このため、特許文献1に記載の発明は、文脈が非常に重要となる大語彙連続音声認識(複数の単語が含まれる入力音声の音声認識)に対応することができない。
【0011】
そこで、本発明は、前記した問題を解決し、認識誤りが少ない音声認識を可能とする言語モデルを生成する言語モデル生成装置およびそのプログラムを提供することを課題とする。
さらに、本発明は、前記した問題を解決し、認識誤りが少ない音声認識を可能とする音声認識システムを提供することも課題とする。
【課題を解決するための手段】
【0012】
前記した課題を解決するため、本願第1発明に係る言語モデル生成装置は、同一の意味で表記または読みが異なる単語または連鎖語からなる同意語を含む学習テキストを用いて、言語モデルを生成する言語モデル生成装置であって、言語モデル生成部と、言語モデル変換部とを備えることを特徴とする。
【0013】
かかる構成によれば、言語モデル生成装置は、言語モデル生成部で、前記学習テキストによって学習を行うことで、前記学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示す言語モデル(例えば、Nグラムモデル)を生成する。つまり、言語モデル生成部は、文脈を考慮した確率的言語モデルを生成する。
【0014】
ここで、前記したように、確率的言語モデルとして生成された言語モデルは、学習テキストに同意語が存在する場合、これら同意語の統計量が分散してしまい、これら同意語の出現確率が低くなる。そこで、言語モデル生成装置は、言語モデル変換部によって、同一の意味を有する前記同意語が予め対応付けられた同意語リストを参照して、前記言語モデルにおいて前記同一の意味を有する同意語の出現確率に基づいて確率値を算出し、前記言語モデルに含まれる前記同意語の出現確率を前記確率値で更新する。つまり、言語モデル変換部は、学習テキストに同意語が存在することによって低い値で算出された同意語の出現確率を補正する。
【0015】
また、本願第2発明に係る言語モデル生成装置は、予め選択された前記同意語を示す選択指示が入力されると共に、当該選択指示に基づいて前記同意語リストを生成する同意語選択部をさらに備え、前記同意語選択部が、予め設定された頻度以上前記学習テキストに出現する単語対を、前記連鎖語として抽出する連鎖語抽出手段と、前記連鎖語抽出手段が抽出した前記連鎖語の編集距離をDPマッチングによって算出する編集距離算出手段と、前記編集距離算出手段によって算出された前記編集距離が最小となる前記連鎖語を同意語候補として選択する連鎖語候補選択手段と、を備えることを特徴とする。
かかる構成によれば、言語モデル生成装置は、利用者が同意語リストの同意語候補を参照して、連鎖語についての同意語を選択することが可能となる。
【0016】
また、本願第3発明に係る言語モデル生成装置は、前記言語モデル変換部が、前記出現確率が最大となる前記同意語の基本型以外である前記同意語の同意型を、前記言語モデル変換部が更新した後の言語モデルから削除する言語モデル削除手段、を備えることを特徴とする。
かかる構成によれば、言語モデル生成装置は、言語モデルのデータサイズを縮小することができる。
【0017】
本願第4発明に係る言語モデル生成装置は、少なくとも前記同意語の表記と当該同意語の発音とを予め対応付けた発音辞書を記憶する発音辞書記憶部と、前記発音辞書を、前記同意語リストを参照して、前記同意語の基本型の表記と、当該基本型に対応する同意語の同意型の表記と、当該同意語の同意型の発音とを少なくとも含む変換後発音辞書に変換する発音辞書変換部とをさらに備えることを特徴とする。
かかる構成によれば、言語モデル生成装置は、発音辞書を、基本型の表記と同意型の表記および発音とを対応付けた変換後発音辞書に変換する。
【0018】
また、前記した課題を解決するため、本願第5発明に係る言語モデル生成プログラムは、同一の意味で表記または読みが異なる単語または連鎖語からなる同意語を含む学習テキストを用いて、言語モデルを生成するために、コンピュータを、言語モデル生成部、言語モデル変換部として機能させることを特徴とする。
【0019】
かかる構成によれば、言語モデル生成プログラムは、言語モデル生成部で、前記学習テキストによって学習を行うことで、前記学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示す言語モデル(例えば、Nグラムモデル)を生成する。つまり、言語モデル生成部は、文脈を考慮した確率的言語モデルを生成する。
【0020】
ここで、前記したように、確率的言語モデルとして生成された言語モデルは、学習テキストに同意語が存在する場合、これら同意語の統計量が分散してしまい、これら同意語の出現確率が低くなる。そこで、言語モデル生成プログラムは、言語モデル変換部によって、同一の意味を有する前記同意語が予め対応付けられた同意語リストを参照して、前記言語モデルにおいて前記同一の意味を有する同意語の出現確率に基づいて確率値を算出し、前記言語モデルに含まれる前記同意語の出現確率を前記確率値で更新する。つまり、言語モデル変換部は、学習テキストに同意語が存在することによって低い値で算出された同意語の出現確率を補正する。
【0021】
また、前記した課題を解決するため、本願第6発明に係る音声認識システムは、本願第4発明に係る言語モデル生成装置と、当該言語モデル生成装置が生成した言語モデルを用いて音声認識を行う音声認識装置とを備える音声認識システムであって、前記音声認識装置は、音声データを学習することで予め生成した音響モデルを記憶する音響モデル記憶部と、音声分析部と、探索部を備えることを特徴とする。
【0022】
かかる構成によれば、音声認識装置は、音声分析部によって、入力される入力音声を音声分析して当該入力音声の特徴ベクトルを算出する。そして、音声認識装置は、探索部によって、前記音声分析部が算出した特徴ベクトルと前記音響モデルとのマッチングにより音響スコアを算出すると共に、前記言語モデルを参照して、音声認識結果の候補となる単語候補の出現確率に第1の定数を乗算した値に第2の定数を加算した言語スコアを算出すると共に、前記言語スコアと前記音響スコアとが最大になる単語候補の列を、前記変換後発音辞書を参照して前記音声認識の結果として出力する。つまり、音声認識装置は、変換後発音辞書を参照することで、基本型に対応する同意型の表記と発音とを出力することができる。
【発明の効果】
【0023】
本発明によれば、以下のような優れた効果を奏する。
本願第1,5発明によれば、文脈を考慮した確率的言語モデルを生成するため、大語彙連続音声認識に対応することができる。そして、本願第1発明によれば、学習テキストに同意語が存在することによって分散して、低い値で算出された同意語の出現確率を補正するので、学習テキストが少量の場合でも、認識誤りが少ない音声認識を可能とする言語モデルを生成できる。
【0024】
本願第2発明によれば、利用者が同意語リストの同意語候補を参照して、連鎖語についての同意語を選択できるため、同意語リストが提示されない場合に比べて、利用者が同意語を選択する手間を大きく低減することができる。
【0025】
本願第3発明によれば、言語モデルのデータサイズを縮小することができるため、この言語モデルを用いる音声認識装置のメモリ容量を節約することができる。
本願第4発明によれば、変換後発音辞書に基本型の表記と同意型の表記および発音とが対応付けられているので、変換後発音辞書を参照することで、基本型に対応する同意型の表記と発音とを容易に出力することができる。
【0026】
本願第6発明によれば、文脈を考慮した確率的言語モデルを生成するため、大語彙連続音声認識に対応することができる。そして、本願第6発明によれば、学習テキストに同意語が存在することによって分散して、低い値で算出された同意語の出現確率を補正するので、学習テキストが少量の場合でも、認識誤りが少ない音声認識を可能とする。さらに、本願第6発明によれば、変換後発音辞書を参照することで、基本型に対応する同意型の表記と発音とを容易に出力することができ、音声認識システムの利便性を向上させることができる。
【図面の簡単な説明】
【0027】
【図1】本発明の実施形態に係る音声認識システムの構成を示すブロック図である。
【図2】図1の同意単語・連鎖語選択部の構成を示すブロック図である。
【図3】図2の連鎖語抽出手段が生成した連鎖語リストの一例を示す図である。
【図4】図2の最小編集距離選択手段が生成した編集距離最小連鎖語関係リストの一例を示す図である。
【図5】図2の同意単語・連鎖語リスト記憶部が記憶する同意単語・連鎖語リストの一例である。
【図6】図1の言語モデル変換部の構成を示すブロック図である。
【図7】図1の言語モデル記憶部が記憶する言語モデルの一例を示す図であり、(a)はユニグラムの場合であり、(b)はバイグラムの場合である。
【図8】図1の発話辞書記憶手段が記憶する発話辞書の一例を示す図である。
【図9】図8の発話辞書を変換した変換後発話辞書の一例を示す図である。
【図10】図2の同意単語・連鎖語選択部の動作を示すフローチャートである。
【図11】図6の言語モデル変換部の動作を示すフローチャートである。
【発明を実施するための形態】
【0028】
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。
【0029】
[音声認識システムの概略]
図1を参照して、本発明の実施形態に係る音声認識システムの概略について説明する。
図1に示すように、音声認識システム100は、言語モデル生成装置1と、音声認識装置3とを備える。
言語モデル生成装置1は、同一の意味で表記または読みが異なる単語または連鎖語からなる同意語を含む学習テキストを用いて、音声認識に用いる言語モデルを生成する。
音声認識装置3は、言語モデル生成装置1が生成した言語モデルを用いて、入力音声を音声認識する。
【0030】
なお、連鎖語(単語連鎖)とは、複数の単語からなる頻出表現であり、1つの単語連鎖中の各単語を結合して1単語として扱うものである。例えば、連鎖語としては、単語「と」および単語「いう」とを連結した「と_いう」がある。ここで、”_“は、単語同士の連結を示す。
【0031】
[言語モデル生成装置の構成]
以下、言語モデル生成装置1の構成を詳細に説明する。
図1に示すように、言語モデル生成装置1は、学習テキスト記憶部11と、連鎖語リスト記憶部12と、編集距離付与連鎖語関係リスト記憶部13と、編集距離最小連鎖語関係リスト記憶部14と、同意単語・連鎖語リスト記憶部15と、言語モデル記憶部16と、発音辞書記憶部17と、変換後発音辞書記憶部18と、同意単語・連鎖語選択部(同意語選択部)21と、言語モデル生成部22と、言語モデル変換部23と、発音辞書変換部24とを備える。
【0032】
[各記憶部]
学習テキスト記憶部11は、言語モデルを生成する際に必要となる学習テキスト(学習データ)を記憶するメモリ、ハードディスク等の記憶手段である。この学習テキストは、例えば、音声認識システムの利用者により、学習テキスト記憶部11に予め記憶される。
【0033】
連鎖語リスト記憶部12は、連鎖語リストを記憶するメモリ、ハードディスク等の記憶手段である。
編集距離付与連鎖語関係リスト記憶部13は、編集距離付与連鎖語関係リストを記憶するメモリ、ハードディスク等の記憶手段である。
編集距離最小連鎖語関係リスト記憶部14は、編集距離最小連鎖語関係リストを記憶するメモリ、ハードディスク等の記憶手段である。
同意単語・連鎖語リスト記憶部15は、同意単語・連鎖語リスト(同意語リスト)を記憶するメモリ、ハードディスク等の記憶手段である。
なお、連鎖語リスト、編集距離付与連鎖語関係リスト、編集距離最小連鎖語関係リストおよび同意単語・連鎖語リストの詳細は、同意単語・連鎖語選択部21とあわせて説明する。
【0034】
言語モデル記憶部16は、言語モデルを記憶するメモリ、ハードディスク等の記憶手段である。この言語モデルは、学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示すものであり、後記する言語モデル生成部22によって生成される。
【0035】
発音辞書記憶部17は、発音辞書を予め記憶するメモリ、ハードディスク等の記憶手段である。この発音辞書は、単語または連鎖語の表記とその発音とを対応付けた辞書である。
変換後発音辞書記憶部18は、変換後発音辞書を記憶するメモリ、ハードディスク等の記憶手段である。この変換後発音辞書は、後記する発音辞書変換部24によって発音辞書が変換されたものであり、音声認識装置3が音声認識を行う際に参照される。
なお、発音辞書および変換後発音辞書の詳細は、発音辞書変換部24とあわせて説明する。
【0036】
[同意単語・連鎖語選択部]
以下、図2を参照し、同意単語・連鎖語選択部21を詳細に説明する。
同意単語・連鎖語選択部21は、学習テキストを参照し、利用者から入力された選択指示に基づいて、同意単語・連鎖語リストを生成する。ここで、図2に示すように、同意単語・連鎖語選択部21は、連鎖語抽出手段211と、編集距離算出手段212と、最小編集距離選択手段(連鎖語候補選択手段)213と、同意単語・連鎖語リスト生成手段214とを備える。
【0037】
連鎖語抽出手段211は、学習テキストの文頭から順に、連続する2個の単語の出現確率を計算するバイグラムを行う。例えば、学習テキストが「きょう_は_温かい_朝_だった」の場合、単語対は、「きょう_は」、「は_温かい」および「朝_だった」になる。この場合、連鎖語抽出手段211は、「きょう_は」、「は_温かい」および「朝_だった」という単語対が1回ずつ出現するため、これら単語対の出現確率「1」をそれぞれ算出する。そして、連鎖語抽出手段211は、予め設定された頻度(閾値)以上であり、かつ、学習テキストの1単語あたりのエントロピーを最も削減する順序でこの学習テキストに出現する単語対を連鎖語として抽出する。その後、連鎖語抽出手段211は、抽出した連鎖語を格納した連鎖語リストを生成し、連鎖語リスト記憶部12に記憶する。
なお、連鎖語の抽出手法の詳細は、例えば、文献「対談音声のための連鎖語とクラスを利用した言語モデル、日本音饗学会講演論文集、pp.71−72、2006年3月」に記載されている。
【0038】
ここで、図3を参照し、連鎖語リストの一例を説明する。
図3の連鎖語リストは、連鎖語抽出手段211によって学習テキストから抽出された連鎖語(例えば、「あり_ます」、「い_ない」、「い_ました」)が、それぞれ格納されている。
【0039】
図2に戻り、同意単語・連鎖語選択部21の説明を続ける。
編集距離算出手段212は、連鎖語リストを参照し、この連鎖語リストに含まれる連鎖語の編集距離をDPマッチングによって算出する。具体的には、編集距離算出手段212は、各連鎖語に対して、その連鎖語を除くN−1個の連鎖語と、その連鎖語を構成する単語単位とでDPマッチングを行って、連鎖語の編集距離を算出する。そして、編集距離算出手段212は、各連鎖語、および、各連鎖語の編集距離を格納した編集距離付与連鎖語関係リストを生成して、編集距離付与連鎖語関係リスト記憶部13に記憶する。
なお、DPマッチングの詳細は、例えば、文献「パターン認識と学習のアルゴリズム、文一総合出版、pp.91−108」に記載されている。
【0040】
最小編集距離選択手段213は、編集距離付与連鎖語関係リストを参照し、この編集距離付与連鎖語関係リストに含まれる編集距離が最小となる連鎖語を同意語候補として選択(リストアップ)する。そして、最小編集距離選択手段213は、選択した同意語候補(連鎖語)を格納した編集距離最小連鎖語関係リストを生成して、編集距離最小連鎖語関係リスト記憶部14に記憶する。
【0041】
ここで、図4を参照し、編集距離最小連鎖語関係リストの一例を説明する(適宜図2参照)。
図4に示すように、最小編集距離選択手段213は、編集距離最小連鎖語関係リストを、例えば、基本型を示す識別子「基本型」で始まる行と、同意型を示す識別子「同意型」で始まる行とが交互に現れるフォーマットとする。このとき、最小編集距離選択手段213は、編集距離最小連鎖語関係リストに、「基本型」で始まる行には1個の連鎖語を含め、「同意型」で始まる行には1個以上の連鎖語を含めるようにする。さらに、最小編集距離選択手段213は、編集距離最小連鎖語関係リストにおいて、「同意型」で始まる行の各連鎖語が、その1行上の「基本型」で始まる行の連鎖語に対して、編集距離が最小となる関係とする。例えば、図4の編集距離最小連鎖語関係リストは、「同意型」で始まる行の2つの連鎖語「なきゃ_いけ_ない」および「なければ_なら_ない」が、その1行上の「基本型」で始まる行の連鎖語「なければ_いけ_ない」に対して、編集距離が最小であることを示している。
【0042】
ここで、編集距離最小連鎖語関係リストは、「同意型」で始まる行の連鎖語の中に、「基本型」で始まる行の連鎖語に対して同意語と言えないものを含んでいる可能性がある。このため、利用者は、編集距離最小連鎖語関係リストをチェックし、「同意型」で始まる行の連鎖語の中から、同意語として問題ない連鎖語だけを選択することが好ましい。そして、利用者は、編集距離最小連鎖語関係リストに基づいて利用者が選択した連鎖語を、選択指示として同意単語・連鎖語リスト生成手段214に入力する。
【0043】
この選択指示は、同意語として選択した単語および連鎖語の少なくとも一方を示すものである。つまり、選択指示は、連鎖語以外に、利用者が予め選択した単語を含めても良い。さらに、選択指示は、同意語として連鎖語および単語の何れか一方だけを用いる場合、当該一方だけを含めても良い。
【0044】
以下、図2に戻り、同意単語・連鎖語選択部21の説明を続ける。
同意単語・連鎖語リスト生成手段214は、利用者から選択指示が入力され、この選択指示に基づいて同意単語・連鎖語リストを生成する。つまり、同意単語・連鎖語リスト生成手段214は、この選択指示に含まれる同意語を格納して同意単語・連鎖語リストを生成する。そして、同意単語・連鎖語リスト生成手段214は、生成した同意単語・連鎖語リストを同意単語・連鎖語リスト記憶部15に記憶する。
【0045】
ここで、図5を参照し、同意単語・連鎖語リストの一例を説明する。
図5の同意単語・連鎖語リストは、図4の編集距離最小連鎖語関係リストから、同意語として選択された連鎖語が含まれる。また、この同意単語・連鎖語リストは、図4の編集距離最小連鎖語関係リストと同様に、「基本型」および「同意型」という識別子を行頭に挿入することで、同意語(同一の意味の単語および同一の意味の連鎖語)を対応付けている。つまり、同意単語・連鎖語リストは、「基本型」で始まる行の連鎖語と、その1行下の「同意型」で始まる行の連鎖語とが同意語であることを示す。例えば、図5の同意単語・連鎖語リストは、「基本型」で始まる行の連鎖語「なければ_いけ_ない」と、その一行下の「同意型」で始まる行の連鎖語「なきゃ_いけ_ない」とが同意語であることを示している。その一方、図4に図示した連鎖語「なければ_なら_ない」は、連鎖語「なければ_いけ_ない」の同意語でないと利用者によって判断されたため、同意単語・連鎖語リストに含まれない。
なお、図5では省略したが、同意単語・連鎖語リストは、連鎖語と同様、同意語として、同一の意味となる単語を対応付けても良いことは言うまでもない。
【0046】
以上をまとめると、同意単語・連鎖語選択部21は、学習テキストの中で出現頻度が大きい単語対を選択し、これら単語対の中で学習テキストのエントロピーを最も大きく削減するものを連鎖語(同意語候補)とする。そして、同意単語・連鎖語選択部21は、この処理を必要に応じて繰り返し、M個の連鎖語(同意語候補)を得て同意単語・連鎖語リストを生成する。これによって、利用者は、例えば、同意単語・連鎖語リストの同意語候補を参照して、連鎖語についての同意語を選択できるため、利用者が同意語を選択する手間を大きく低減することができる。仮に、同意単語・連鎖語リストを利用者が参照できない場合、利用者は、連鎖語について同意語を学習テキストから直接選択するという困難な作業を行う必要があり、負担が極めて大きくなる。ここで、Mの値は、音声認識の精度が高くなるように予め設定しておく。
なお、単語については、連鎖語に比べ、利用者が同意語を選択する手間が少ないため、編集距離最小連鎖語関係リストに相当するリストを生成していない。
【0047】
[言語モデル生成部]
図1に戻り、言語モデル生成装置1の説明を続ける。
言語モデル生成部22は、学習テキストを確率的言語モデルによって学習(機械学習)することで、言語モデルを生成して言語モデル記憶部16に記憶する。ここで、言語モデル生成部22は、確率的言語モデルとして、単語Nグラムモデルを用いる。この単語Nグラムモデルは、学習テキストに含まれる単語列w=w,・・・,wに対して、単語wの出現確率を、直前のN−1単語から予測する確率的言語モデルであり、下記の式(1)で表すことができる。
【0048】
【数1】

【0049】
この単語Nグラムモデルは、N=1とした場合には、ユニグラム(unigram)と呼ばれ、N=2とした場合には、バイグラム(bigram)と呼ばれ、N=3とした場合には、トライグラム(trigram)と呼ばれる。また、直前のN−1単語(wn-1)は、履歴(history)と呼ばれる。
【0050】
ここで、図7を参照し、言語モデルの一例を説明する(適宜図1参照)。
図7の言語モデルは、左列がNグラム確率値(出現確率)であり、中央列がパラメータ名(単語または連鎖語)であり、右列がバックオフ係数である。
【0051】
Nグラム確率値は、パラメータ名に記載の単語または連鎖語の出現確率を示し、図7では、その値を対数表記している。
パラメータ名は、単語または連鎖語を示している。また、パラメータ名の<s>は文頭記号であり、</s>は文末記号である。つまり、この言語モデルでは、文頭記号と文末記号とを単語として扱っている。
バックオフ係数は、学習テキストの中に出現確率がゼロとなるNグラム確率値を、低次の単語Nグラムモデル(例えば、ユニグラム)から推定するときに用いる係数である。
なお、バックオフ係数の詳細は、後記するバックオフ係数処理手段234とあわせて説明する。
【0052】
[言語モデル変換部]
以下、図6に戻り、言語モデル変換部23を詳細に説明する。
言語モデル変換部23は、同意単語・連鎖語リストを参照し、言語モデルの変換(補正)を行う。ここで、図6に示すように、言語モデル変換部23は、パラメータ抽出手段231と、確率値算出手段232と、履歴処理手段233と、バックオフ係数処理手段234と、言語モデル更新手段235とを備える。
【0053】
パラメータ抽出手段231は、同意単語・連鎖語リストを参照して、この同意単語・連鎖語リストに含まれる同意語のNグラムパラメータを、言語モデルから抽出する。そして、パラメータ抽出手段231は、抽出したNグラムパラメータを確率値算出手段232に出力する。以下の説明において、Nグラムパラメータは、言語モデルのNグラム確率値、パラメータ名およびバックオフ係数のことを指す。
【0054】
確率値算出手段232は、パラメータ抽出手段231からNグラムパラメータが入力される。また、確率値算出手段232は、同意単語・連鎖語リストを参照して、この同意単語・連鎖語リストで対応付けられた同一の意味を有する同意語を取得する。そして、確率値算出手段232は、この同一の意味を有する同意語について、入力されたNグラムパラメータの出現確率に基づいて確率値を算出する。ここで、確率値算出手段232は、入力されたNグラムパラメータの出現確率について、加算値等を求める四則演算を行って確率値を算出することができる。また、確率値算出手段232は、入力されたNグラムパラメータの出現確率について、平均値、最大値等を求める統計演算を行って確率値を算出することもできる。さらに、確率値算出手段232は、入力されたNグラムパラメータの出現確率について、加算値(手法1)、平均値(手法2)又は最大値(手法3)の何れかを確率値として算出することが好ましい。以下、確率値を算出する6つの具体例を順に説明する。
【0055】
<第1例:トライグラムで手法1>
まず、第1例〜第3例として、連鎖語列w,wの次に連鎖語wが出現するトライグラムに手法1〜手法3を適用したときの具体例を説明する。
同一の意味の連鎖語毎にクラスタリングした結果、N個の連鎖語クラス{C,・・・,C}が得られ、あるクラスCにおいて(但し、1≦n≦N)、K+1個の同一の意味の連鎖語が存在するとする。この場合、K+1個の連鎖語のうち、出現確率が最大のものを基本型とし、これ以外を同意型とする(単語も基本型と同意型とを有する)。つまり、K+1個の連鎖語は、下記の式(2)で表される。
【0056】
【数2】

【0057】
この第1例では、同一の意味を表す連鎖語が、基本型と同意型とに分散して出現すると解釈する。従って、確率値算出手段232は、下記の式(3)を用いて、連鎖語の出現確率の加算値を確率値として算出する。
なお、式(3)において、S(κ)は、クラスCにおけるκ番目の連鎖語を示す
【0058】
【数3】

【0059】
<第2例:トライグラムで手法2>
この第2例では、基本型と同意型とが均等の確率で出現すると解釈する。従って、確率値算出手段232は、下記の式(4)を用いて、連鎖語の出現確率の平均値を確率値として算出する。
【0060】
【数4】

【0061】
<第3例:トライグラムで手法3>
この第3例では、確率値算出手段232は、手法1および手法2を簡略し、下記の式(5)を用いて、連鎖語の出現確率の最大値を確率値として算出する。つまり、確率値算出手段232は、同意型の出現確率を、基本型の出現確率で置き換える。
【0062】
【数5】

【0063】
<第4例:ユニグラムで手法1>
続いて、第4例〜第6例として、ユニグラムに手法1〜手法3を適用したときの具体例を説明する。この第4例〜第6例では、同意語とその出現確率とが以下の関係であるとする。また、この第4例〜第6例では、同意語「んです_けれど」を基本型とし、それ以外の同意語「んです_けれども」、「んです_けど」および「んです_が」を同意型とする。
【0064】
<<第4例〜第6例における同意語とその出現確率>>
同意語 出現確率
んです_けれど 0.4
んです_けれども 0.3
んです_けど 0.2
んです_が 0.1
【0065】
この第4例では、確率値算出手段232は、第1例と同様、同意語の出現確率を加算した値を確率値とする。つまり、確率値算出手段232は、「0.4+0.3+0.2+0.1=1.0」という計算を行う。従って、各同意語の確率値は、以下のようになる。
【0066】
<<第4例で算出した確率値>>
同意語 確率値
んです_けれど 1.0
んです_けれども 1.0
んです_けど 1.0
んです_が 1.0
【0067】
<第5例:ユニグラムで手法2>
この第5例では、確率値算出手段232は、第2例と同様、同意語の出現確率を平均した値を確率値とする。つまり、確率値算出手段232は、「(0.4+0.3+0.2+0.1)/4=0.25」という計算を行う。従って、各同意語の確率値は、以下のようになる。
【0068】
<<第5例で算出した確率値>>
同意語 確率値
んです_けれど 0.25
んです_けれども 0.25
んです_けど 0.25
んです_が 0.25
【0069】
<第6例:ユニグラムで手法3>
この第6例では、確率値算出手段232は、第3例と同様、同意語の中で出現確率の最大値「0.4」を求める。従って、各同意語の確率値は、以下のようになる。
【0070】
<<第6例で算出した確率値>>
同意語 確率値
んです_けれど 0.4
んです_けれども 0.4
んです_けど 0.4
んです_が 0.4
【0071】
その後、確率値算出手段232は、パラメータ抽出手段231から入力されたNグラムパラメータに含まれる出現確率を、算出した確率値で更新する。そして、確率値算出手段232は、確率値で更新されたNグラムパラメータを履歴処理手段233に出力する。
【0072】
なお、確率値算出手段232は、どの手法で確率値しても良く、例えば、どの手法で確率値を算出するか予め設定しても良い。また、確率値算出手段232は、連鎖語と同様、単語についても確率値を算出することができる。
【0073】
履歴処理手段233は、確率値算出手段232からNグラムパラメータが入力されると共に、同意型が存在する単語が履歴中に存在する場合、履歴処理を行う。ここで、履歴処理の説明を簡略化するため、同意型のパターン数K=1、すなわち、基本型に対して1つの同意型が存在すると仮定する。また、このとき、言語モデルは、バイグラムであるとする。
【0074】
学習テキスト中の単語wn-1の次に単語wが出現する確率は、下記の式(6)で表すことができる。
なお、式(6)において、C(・)は、学習テキスト中の出現確率を示す。
【0075】
【数6】

【0076】
また、同様に、単語wn-1の同意語w´n-1の次に単語wが出現する確率は、下記の式(7)で表すことができる。
【0077】
【数7】

【0078】
これらより、履歴中の基本型と同意型とを統合して得られる出現確率は、下記の式(8)で表すことができる。
なお、式(8)において、Nは、学習テキストの全単語について、ユニグラムでの出現確率の和を表す。
【0079】
【数8】

【0080】
そして、履歴処理手段233は、下記の式(9)を用いて、確率値算出手段232から入力されたNグラムパラメータの出現確率を更新する。その後、履歴処理手段233は、出現確率を更新したNグラムパラメータをバックオフ係数処理手段234に出力する。
【0081】
【数9】

【0082】
つまり、前記した式(8)および式(9)によれば、学習テキストにおいて、基本型および同意型について、どちらか一方の出現確率がゼロの場合には、出現確率がゼロとなっている一方のNグラムパラメータを新たに生成する。そして、この新たなNグラムパラメータにおいて、その出現確率は、出現確率がゼロでない他方の出現確率となる。
【0083】
ところで、単語Nグラムモデルの次数が大きくなると、前記した式(8)が複雑になるため、実用上、近似することが好ましい。この近似手法としては、例えば、以下の手法Aまたは手法Bが考えられる。
なお、履歴処理手段233は、単語と同様、連鎖語についても履歴処理を行うことができる。
【0084】
手法A:出現確率がゼロのNグラムパラメータだけを新たに生成し、他のNグラムパラメータに関する計算を省略する。
手法B:同意型を履歴とするNグラムパラメータに、基本型を履歴とするNグラムパラメータの値を代用する。
【0085】
バックオフ係数処理手段234は、履歴処理手段233からNグラムパラメータが入力されると共に、バックオフ係数を更新するバックオフ係数処理を行う。ここで、バックオフ係数処理の説明を簡略化するため、履歴処理と同様、同意型のパターン数K=1(基本型wに対して同意語w´が存在する)とし、言語モデルがバイグラムであるとする。
【0086】
バックオフ・スムージングは、学習テキストの出現確率C(wn-1)=0の場合、出現確率P(w|wn-1)を出現確率P(w)から推定する手法である。ここで、バックオフ・スムージングの一つであるカッツの手法では、下記の式(10)および式(11)を用いる。このとき、学習テキスト中の低頻度語(出現確率がゼロの単語を含む)の出現確率は、グッド・チューリングの推定法を利用して、予め補正しておくことが好ましい(例えば、「確率的言語モデル、東京大学出版会、pp.67−68」参照)。
なお、式(10)および式(11)において、バックオフ係数はαである。
【0087】
【数10】

【0088】
【数11】

【0089】
ここで、基本型wn-1と同意型w´n-1とを統合する場合、バックオフ係数αは、下記の式(12)で表すことができる(これに式(8)に代入すればさらに展開可能)。
【0090】
【数12】

【0091】
そして、バックオフ係数処理手段234は、下記の式(13)を用いて、履歴処理手段233から入力されたNグラムパラメータのバックオフ係数を更新する。その後、バックオフ係数処理手段234は、バックオフ係数を更新したNグラムパラメータを言語モデル更新手段235に出力する。
【0092】
【数13】

【0093】
ところで、単語Nグラムモデルの次数が大きくなると、前記した式(12)が複雑になるため、実用上、近似することが好ましい。この近似手法としては、例えば、履歴処理と同様に、計算の省略(手法A)、または、基本型のNグラムパラメータの代用(手法B)が考えられる。
なお、バックオフ係数処理手段234は、単語と同様、連鎖語についてもバックオフ係数処理を行うことができる。
【0094】
言語モデル更新手段235は、バックオフ係数処理手段234からNグラムパラメータが入力されると共に、このNグラムパラメータを用いて、言語モデル記憶部16に記憶された言語モデルを更新する。つまり、言語モデル更新手段235は、言語モデル記憶部16の言語モデルに含まれる出現確率をこのNグラムパラメータに含まれる出現確率で更新し、言語モデル記憶部16の言語モデルに含まれるバックオフ係数をこのNグラムパラメータに含まれるバックオフ係数で更新する。
【0095】
ここで、言語モデル更新手段235は、図6に示すように、言語モデル削除手段236を備える。この言語モデル削除手段236は、言語モデル更新手段235が言語モデルを更新した後、この言語モデルから同意型のNグラムパラメータを削除する。このように、言語モデルのデータサイズが縮小されるため、この言語モデルを参照する音声認識装置3は、音声認識の際、そのメモリ容量を節約することができる。
【0096】
[発音辞書変換部]
以下、図8および図9を参照し、発音辞書変換部24の詳細を説明する(適宜図1参照)。
発音辞書変換部24は、同意単語・連鎖語リストを参照して、発音辞書のフォーマット変換を行う。図8に示すように、発音辞書は、左列が連鎖語または単語の表記であり、右列がその連鎖語または単語の発音である。この発音辞書では、発音をローマ字で表しており、“:”はその直前の母音を伸ばして発音することを表している。例えば、この発音辞書には、連鎖語「と_いう」は、「toiu sp」および「toyou:sp」という2つの発音が登録されている。
【0097】
ここで、同意単語・連鎖語リストから、同意語の関係となる単語および連鎖語と、それら同意語のうちの基本型および同意型とを判別できる。例えば、同意単語・連鎖語リストに、基本型「と_いう」、および、その同意型「って_いう」が設定されていたとする。この場合、図8の発音辞書には、基本型「と_いう」の発音が2つ登録されているので、発音辞書変換部24は、図9の変換後発話辞書に基本型の表記「と_いう」と、基本型の2つの発音「toiu sp」および「toyou:sp」をそれぞれ登録する。つまり、図9に示すように、発音辞書変換部24は、左列および中央列に基本型の表記「と_いう」と、右列にその1つ目の発音「toiu sp」とを登録する。また、発音辞書変換部24は、左列および中央列に基本型の表記「と_いう」と、右列にその1つ目の発音「toyou:sp」とを登録する(図8,図9の符号α参照)。
【0098】
また、図8の発音辞書には、同意型「って_いう」の発音が3つ登録されているので、発音辞書変換部24は、図9の変換後発話辞書に基本型の表記「と_いう」と、同意型の表記「って_いう」と、同意型の発音「Qteiu sp」、「Qteyu:sp」および「Qtu:sp」をそれぞれ登録する。つまり、図9に示すように、発音辞書変換部24は、左列に基本型の表記「と_いう」と、中央列に同意型の表記「って_いう」と、右列にその同意型の1つ目の発音「Qteiu sp」とを登録する。また、発音辞書変換部24は、左列に基本型の表記「と_いう」と、中央列に同意型の表記「って_いう」と、右列にその同意型の2つ目の発音「Qteyu:sp」とを登録する。さらに、発音辞書変換部24は、左列に基本型の表記「と_いう」と、中央列に同意型の表記「って_いう」と、右列にその同意型の2つ目の発音「Qtu:sp」とを登録する(図8,図9の符号β参照)。
【0099】
つまり、発音辞書変換部24は、図8の発音辞書を、基本型の表記と、同意型の表記と、同意型の発音とを有する変換後発音辞書に変換する。従って、図9の変換後発音辞書は、左列と中央列の表記が異なる場合には、中央列が左列の同意型となる。
【0100】
[言語モデル生成装置の動作]
<同意単語・連鎖語選択部>
以下、図10を参照して、図2の同意単語・連鎖語選択部21の動作を説明する(適宜図2参照)。
まず、言語モデル生成装置1は、連鎖語抽出手段211によって、学習テキストより連鎖語を抽出する(ステップS1)。また、言語モデル生成装置1は、編集距離算出手段212によって、抽出した連鎖語の編集距離をDPマッチングによって算出する(ステップS2)。
【0101】
また、言語モデル生成装置1は、最小編集距離選択手段213によって、編集距離が最小となる連鎖語を同意語候補として選択し、編集距離最小連鎖語関係リストを生成する(ステップS3)。そして、言語モデル生成装置1は、同意単語・連鎖語リスト生成手段214によって、入力された選択指示に基づいて同意単語・連鎖語リストを生成する(ステップS4)。
【0102】
<言語モデル変換部>
以下、図11を参照して、図6の言語モデル変換部23の動作を説明する(適宜図6参照)。
まず、言語モデル生成装置1は、言語モデル生成部22によって、言語モデルを生成する(ステップS11)。また、言語モデル生成装置1は、パラメータ抽出手段231によって、同意語のNグラムパラメータを言語モデルから抽出する(ステップS12)。
【0103】
また、言語モデル生成装置1は、確率値算出手段232によって、出現確率に基づいて確率値を算出する(ステップS13)。そして、言語モデル生成装置1は、履歴処理手段233によって、履歴処理を行う(ステップS14)。
【0104】
また、言語モデル生成装置1は、バックオフ係数処理手段234によって、バックオフ係数処理を行う(ステップS15)。そして、言語モデル生成装置1は、言語モデル更新手段235によって、確率値およびバックオフ係数を算出したNグラムパラメータで言語モデルを更新する(ステップS16)。
【0105】
以上のように、本発明の実施形態に係る言語モデル生成装置1は、言語モデル生成部22によって、文脈を考慮した単語Nグラムモデルを生成するため、大語彙連続音声認識に対応することができる。そして、言語モデル生成装置1は、言語モデル変換部23によって、学習テキストに同意語が存在することによって分散して、低い値で算出された同意語の出現確率を補正するので、学習テキストが少量の場合でも、認識誤りが少ない音声認識を可能とする言語モデルを生成できる。
【0106】
なお、言語モデル生成装置1は、表記のゆらぎ(例:「取引する」「取り引きする」)の問題を解消するために、言語モデルを更新した後、予め定めた推奨表記を含むNグラムパラメータだけを残し、それ以外のNグラムパラメータを削除することが好ましい。
【0107】
なお、言語モデル生成装置1は、基本型を示す識別子「基本型」、および、同意型を示す識別子「同意型」を用いる例で説明したが、これに限定されない。例えば、言語モデル生成装置1は、基本型を示す識別子として「ref」、および、同意型を示す識別子として「hyp」を用いてもよい。
【0108】
なお、実施形態では、本発明に係る言語モデル生成装置を独立した装置として説明したが、本発明では、一般的なコンピュータを、前記した各手段として機能させるプログラムによっても実現することができる。このプログラムは、通信回線を介して配布しても良く、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布しても良い。
【0109】
[音声認識装置の構成]
図1に戻り、音声認識装置3の構成を説明する。
図1に示すように、音声認識装置3は、音響モデル記憶部31と、音声分析部33と、探索部35とを備える。
【0110】
音響モデル記憶部31は、音響モデルを予め記憶するメモリ、ハードディスク等の記憶手段である。この音響モデルは、大量の音声データを学習(機械学習)することによって予め生成した確率モデルである。
【0111】
音声分析部33は、入力音声(音声信号)が入力されると共に、入力音声を音声分析して入力音声の特徴ベクトルを算出し、探索部35に出力する。具体的には、音声分析部33は、入力音声をハミング窓で切り出して、線形予測分析(LPG)やメルケプストラム分析を行って、入力音声の特徴ベクトル(MFCC特徴量)を求める。
【0112】
探索部35は、音声分析部33から入力音声の特徴ベクトルが入力されると共に、この入力音声の特徴ベクトルから、言語モデルと音響モデルと変換後発音辞書とを用いて、音声認識の結果を出力する。具体的には、探索部35は、入力音声の特徴ベクトルと音響モデルとのマッチングを行って確率値(尤度)を求め、この確率値の対数(log)をとった値を音響スコアとして算出する。また、探索部35は、音声認識の実行中、音声認識結果の候補となった単語候補について、言語モデルから出現確率(Nグラム確率)を求める。このとき、探索部35は、基本型のパラメータ(出現確率およびバックオフ係数)を使って正解語探索を行うことが好ましい。そして、探索部35は、この出現確率の対数をとり、言語重みと呼ばれる第1の定数を乗じ、挿入ペナルティーと呼ばれる第2の定数を加えた値を言語スコアとする。その後、探索部35は、図9の変換後発音辞書を参照して、言語スコアと音響スコアとが最大になる単語候補の列を音声認識の結果(図1では認識結果)として出力する。
【0113】
以上のように、本発明の実施形態に係る音声認識装置3は、探索部35によって、正解語探索中に選ばれた単語候補(基本型)に対応する発音系列を参照できるため、図9の変換後発音辞書を利用して、中央列に記載された同意型の表記を出力することができる。すなわち、音声認識装置3は、基本型に対応する同意型の表記と発音とを出力することができ、音声認識システム100の利便性を向上させることができる。
【実施例】
【0114】
以下、実施例として、本発明の効果について説明する。
ここでは、図1の言語モデル生成装置1によって、手法1〜手法3を用いて言語モデルを生成した。そして、各言語モデルを用いて、図1の音声認識装置3によって、報道情報番組(大語彙連続音声認識)を入力音声として、音声認識を行った。また、比較の対象として、従来の手法で生成した言語モデルを用いて、同一の報道情報番組を音声認識し、単語誤り率を求めた。下記の表1に、単語誤り率の結果を示す。
【0115】
【表1】

【0116】
表1に示すように、手法1〜手法3の言語モデルは、比較例1,2の言語モデルより単語誤り率(認識誤り)が低いことがわかる。つまり、言語モデル生成装置1は、従来技術に比べて、認識誤りが少ない音声認識を可能とする言語モデルを生成することができる。
【0117】
また、図9の変換後発音辞書を利用するために、言語モデル削除手段236によって、同意型のNグラムパラメータを削除した言語モデル(実施例4)と、従来の手法で生成した言語モデルとのデータサイズを比較した。
なお、比較例3の手法は、言語モデルに基本型のNグラムパラメータが存在して同意型のNグラムパラメータが存在しない場合、又は、その逆の場合で存在しない方のNグラムパラメータを追加するものである。
【0118】
【表2】

【0119】
表2に示すように、実施例4の言語モデルは、比較例1,3の言語モデルに比べて、データサイズが小さくなる。つまり、言語モデル生成装置1は、従来技術に比べて言語モデルのデータサイズを縮小することができる。
【符号の説明】
【0120】
1 言語モデル生成装置
11 学習テキスト記憶部
12 連鎖語リスト記憶部
13 編集距離付与連鎖語関係リスト記憶部
14 編集距離最小連鎖語関係リスト記憶部
15 同意単語・連鎖語リスト記憶部
16 言語モデル記憶部
17 発音辞書記憶部
18 変換後発音辞書記憶部
21 同意単語・連鎖語選択部(同意語選択部)
211 連鎖語抽出手段
212 編集距離算出手段
213 最小編集距離選択手段(連鎖語候補選択手段)
214 同意単語・連鎖語リスト生成手段
22 言語モデル生成部
23 言語モデル変換部
231 パラメータ抽出手段
232 確率値算出手段
233 履歴処理手段
234 バックオフ係数処理手段
235 言語モデル更新手段
236 言語モデル削除手段
24 発音辞書変換部
3 音声認識装置
31 音響モデル記憶部
33 音声分析部
35 探索部
100 音声認識システム

【特許請求の範囲】
【請求項1】
同一の意味で表記または読みが異なる単語または連鎖語からなる同意語を含む学習テキストを用いて、言語モデルを生成する言語モデル生成装置であって、
前記学習テキストを確率的言語モデルによって学習することで、前記学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示す言語モデルを生成する言語モデル生成部と、
同一の意味を有する前記同意語が予め対応付けられた同意語リストを参照して、前記言語モデルにおいて前記同一の意味を有する同意語の出現確率に基づいて確率値を算出し、前記言語モデルに含まれる前記同意語の出現確率を前記確率値で更新する言語モデル変換部と、
を備えることを特徴とする言語モデル生成装置。
【請求項2】
予め選択された前記同意語を示す選択指示が入力されると共に、当該選択指示に基づいて前記同意語リストを生成する同意語選択部をさらに備え、
前記同意語選択部は、
予め設定された頻度以上前記学習テキストに出現する単語対を、前記連鎖語として抽出する連鎖語抽出手段と、
前記連鎖語抽出手段が抽出した前記連鎖語の編集距離をDPマッチングによって算出する編集距離算出手段と、
前記編集距離算出手段によって算出された前記編集距離が最小となる前記連鎖語を同意語候補として選択する連鎖語候補選択手段と、
を備えることを特徴とする請求項1に記載の言語モデル生成装置。
【請求項3】
前記言語モデル変換部は、
前記出現確率が最大となる前記同意語の基本型以外である前記同意語の同意型を、前記言語モデル変換部が更新した後の言語モデルから削除する言語モデル削除手段、
を備えることを特徴とする請求項1又は請求項2に記載の言語モデル生成装置。
【請求項4】
少なくとも前記同意語の表記と当該同意語の発音とを予め対応付けた発音辞書を記憶する発音辞書記憶部と、
前記発音辞書を、前記同意語リストを参照して、前記同意語の基本型の表記と、当該基本型に対応する同意語の同意型の表記と、当該同意語の同意型の発音とを少なくとも含む変換後発音辞書に変換する発音辞書変換部と、
をさらに備えることを特徴とする請求項1から請求項3の何れか一項に記載の言語モデル生成装置。
【請求項5】
同一の意味で表記または読みが異なる単語または連鎖語からなる同意語を含む学習テキストを用いて、言語モデルを生成するために、コンピュータを、
前記学習テキストを確率的言語モデルによって学習することで、前記学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示す言語モデルを生成する言語モデル生成部、
同一の意味を有する前記同意語が予め対応付けられた同意語リストを参照して、前記言語モデルにおいて前記同一の意味を有する同意語の出現確率に基づいて確率値を算出し、前記言語モデルに含まれる前記同意語の出現確率を前記確率値で更新する言語モデル変換部、
として機能させることを特徴とする言語モデル生成プログラム。
【請求項6】
請求項4に記載の言語モデル生成装置と、当該言語モデル生成装置が生成した言語モデルを用いて音声認識を行う音声認識装置とを備える音声認識システムであって、
前記音声認識装置は、
音声データを学習することで予め生成した確率モデルである音響モデルを記憶する音響モデル記憶部と、
入力される入力音声を音声分析して当該入力音声の特徴ベクトルを算出する音声分析部と、
前記音声分析部が算出した特徴ベクトルと前記音響モデルとのマッチングにより音響スコアを算出すると共に、前記言語モデルを参照して、音声認識結果の候補となる単語候補の出現確率に第1の定数を乗算した値に第2の定数を加算した言語スコアを算出すると共に、前記言語スコアと前記音響スコアとが最大になる単語候補の列を、前記変換後発音辞書を参照して前記音声認識の結果として出力する探索部と、
を備えることを特徴とする音声認識システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2011−164175(P2011−164175A)
【公開日】平成23年8月25日(2011.8.25)
【国際特許分類】
【出願番号】特願2010−23969(P2010−23969)
【出願日】平成22年2月5日(2010.2.5)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】