言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法
【課題】短時間で最適な言語モデルを判別する。
【解決手段】言語モデル特定装置100は、IDによって区別される複数の言語モデル(LM)から統合された統合LMを利用し、入力音声に対して音声認識を行う音声認識部102と、音声認識の結果の文字列に付されたIDに基づき、音声認識が複数のLMのうち何れのLMを用いて行われたかを判断する判断部103とを備える。好ましくは、各LMに含まれた「読み」フィールドに、当該LMを特定するIDをそれぞれ付与する第1ID付与部107および第2ID付与部109と、IDが付与された「読み」フィールドを含む各LMを統合し統合LMを生成するLM統合部106と、を更に備える。音声認識部102は、統合LMを利用し入力音声に対し音声認識を行い、複数のLMのうち何れかのLMを特定するIDが付された文字列を音声認識の結果として判断部103に出力する。
【解決手段】言語モデル特定装置100は、IDによって区別される複数の言語モデル(LM)から統合された統合LMを利用し、入力音声に対して音声認識を行う音声認識部102と、音声認識の結果の文字列に付されたIDに基づき、音声認識が複数のLMのうち何れのLMを用いて行われたかを判断する判断部103とを備える。好ましくは、各LMに含まれた「読み」フィールドに、当該LMを特定するIDをそれぞれ付与する第1ID付与部107および第2ID付与部109と、IDが付与された「読み」フィールドを含む各LMを統合し統合LMを生成するLM統合部106と、を更に備える。音声認識部102は、統合LMを利用し入力音声に対し音声認識を行い、複数のLMのうち何れかのLMを特定するIDが付された文字列を音声認識の結果として判断部103に出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法に関するものである。
【背景技術】
【0002】
従来、音声認識を行うために、音響モデルや言語モデルを用いた処理を行う。すなわち、言語モデルを用いて類似度計算処理の比較対象となる音素を決定し、音響モデルを用いて当該類似度計算処理を行う。なお、類似度計算処理は全体の音声認識処理における割合として多くの部分を占めており、このことは例えば非特許文献1に開示されている。
【0003】
また、従来、例えば非特許文献2に開示されているように、複数のモデルのうち最適なモデルを判別するために、当該複数のモデルを利用し、平行に音声認識処理を行っている。つまり、従来においては、上記類似度計算処理を含む音声認識処理を判別したいモデルの数だけ行い、その音声認識結果を比較することにより、何れのモデルが最適なモデルであるかを判別している。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】李晃伸、河原達也、武田一哉、鹿野清宏、PhoneticTied-Mixtureモデルを用いた大語彙連続音声認識、情報処理学会研究報告、SLP、音声言語情報処理、pp.43-48、99-SLP-29-8
【非特許文献2】李晃伸、大語彙連続音声認識エンジンJuliusver.4、電子情報通信学会技術研究報告、SP2007-148、pp307-312、2007-12
【発明の開示】
【発明が解決しようとする課題】
【0005】
複数のモデルのうち最適なモデルを判別するために上記のような従来技術を用いる場合には、音声認識処理を判別したいモデルの数だけ行う必要があるため、最適モデル判別処理の結果を得るまで長い時間が所要するといった問題点がある。
【0006】
そこで、本発明は上記に鑑みてなされたもので、短時間で最適なモデルを判別することが可能な言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明の言語モデル特定装置は、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断手段と、を備えることを特徴とする。
【0008】
この場合に、本発明の言語モデル特定装置は、各言語モデルは単語を特定する単語特定情報を複数含み、前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与手段と、前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合手段と、を更に備え、前記音声認識手段は、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【0009】
また、本発明の言語モデル特定方法は、音声認識手段が、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断ステップと、を備えることを特徴とする。
【0010】
この場合に、本発明の言語モデル特定方法は、各言語モデルは単語を特定する単語特定情報を複数含み、識別子付与手段が、前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、統合手段が、前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合ステップと、を更に備え、前記音声認識ステップにおいては、前記音声認識手段が、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【0011】
このような本発明の言語モデル特定装置および言語モデル特定方法によれば、音声認識手段は、入力音声に対して音声認識を行う際に、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用する。そして、判断手段は、音声認識の結果である文字列に付された識別子に基づき、音声認識が複数の言語モデルのうち何れの言語モデルを用いて行われたか、つまり複数の言語モデルのうち何れの言語モデルが最適な言語モデルであるかを判断する。すなわち、複数の言語モデルのうち何れの言語モデルが最適な言語モデルであるかを判断するために、本発明では、複数の言語モデルの数だけの認識処理を複数回行い更にその結果を比較するような処理を行うことを必要とせず、統合言語モデルを利用した1回のみの認識処理で当該判断を行うことができる。従って、本発明によれば、短時間で最適な言語モデルを判別することが可能となる。
【0012】
また、本発明の言語モデル特定装置は、前記複数の言語モデルにおいて共通の単語を検索する共通単語検索手段を更に備え、前記識別子付与手段は、前記共通の単語に前記各言語モデルを特定するための前記各言語モデル毎に異なる前記識別子を付与し、且つ前記共通の単語以外には前記識別子を付与しないことが好ましい。
【0013】
この発明によれば、共通の単語にのみ、識別子を付与する。このため、識別子付与手段の処理負担が減るとともに、全体的に処理時間が短縮される。
【0014】
また、本発明の言語モデル特定装置においては、異なる識別子が付与されている単語間における接続確率は0であることが好ましい。
【0015】
異なる識別子が付与されたというのは言語モデルが異なることを意味するため、異なる言語モデル間における単語間の接続確率を0とし、異なる言語モデルに属する単語間の接続を許容しないことが好ましい。
【0016】
また、本発明の言語モデル特定装置においては、前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間における仮説を示す情報を前記音声認識の中間結果として前記判断手段に出力し、前記判断手段は、前記中間結果である前記仮説に、前記複数の言語モデルのうち何れの言語モデルを特定する識別子のみが付されている場合に、前記音声認識が該何れの言語モデルを用いて行われたことを判断することが好ましい。
【0017】
この場合には、音声認識の中間結果だけで、何れの言語モデルが最適な言語モデルであるかが判断できる。このため、音声認識手段の処理負担が減るとともに、全体的に処理時間が短縮される。
【0018】
また、本発明の言語モデル特定装置においては、前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間に異なる識別子が付与された仮説が混合されるよう前記探索空間の限定を行うことが好ましい。
【0019】
この場合には、任意の探索空間には異なる識別子が付与された仮説が必ず一つ以上混合されるようにすることで、つまり各言語モデルからの中間結果を必ず一つ以上は仮説に残しておくことで、音声認識の精度を高めることができる。
【0020】
また、本発明の音響モデル特定装置は、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断手段と、を備えることを特徴とする。
【0021】
この場合に、本発明の音響モデル特定装置は、各音響モデルは音素を特定する音素特定情報を複数含み、前記各音響モデルに含まれた前記音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与手段と、前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合手段と、を更に備え、前記音声認識手段は、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【0022】
また、本発明の音響モデル特定方法は、音声認識手段が、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断ステップと、を備えることを特徴とする。
【0023】
この場合に、本発明の音響モデル特定方法は、各音響モデルは音素を特定する音素特定情報を複数含み、識別子付与手段が、前記各音響モデルに含まれた前記複数の音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、統合手段が、前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合ステップと、を更に備え、音声認識ステップにおいては、前記音声認識手段が、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【0024】
このような本発明の音響モデル特定装置および音響モデル特定方法によれば、音声認識手段は、入力音声に対して音声認識を行う際に、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用する。そして、判断手段は、音声認識の結果である文字列に付された識別子に基づき、音声認識が複数の音響モデルのうち何れの音響モデルを用いて行われたか、つまり複数の音響モデルのうち何れの音響モデルが最適な音響モデルであるかを判断する。すなわち、複数の音響モデルのうち何れの音響モデルが最適な音響モデルであるかを判断するために、本発明では、複数の音響モデルの数だけの認識処理を複数回行い更にその結果を比較するような処理を行うことを必要とせず、統合音響モデルを利用した1回のみの認識処理で当該判断を行うことができる。従って、本発明によれば、短時間で最適な音響モデルを判別することが可能となる。
【発明の効果】
【0025】
本発明によれば、短時間で最適なモデルを判別することが可能な言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法を提供することができる。
【図面の簡単な説明】
【0026】
【図1】第1実施形態にかかる言語モデル特定装置100の構成概要図である。
【図2】言語モデル特定装置100および音響モデル特定装置200のハードウェア構成図である。
【図3】統合言語モデル保持部104、言語モデル統合部106、第1ID付与部107、第1言語モデル保持部108、第2ID付与部109、および第2言語モデル保持部110の機能を説明するための図である。
【図4】言語モデル特定装置100の他の形態を示す構成概要図である。
【図5】言語モデル特定装置100により行われる動作を示すフローチャートである。
【図6】第1実施形態の優れた効果を示すために行われた実験の結果を示すための図である。
【図7】第1実施形態の変形例1にかかる言語モデル特定装置100Aの構成概要図である。
【図8】言語モデル統合部106が生成した統合言語モデルの一例を示す図である。
【図9】第2実施形態にかかる音響モデル特定装置200の構成概要図である。
【図10】音響モデル特定装置200の他の形態を示す構成概要図である。
【図11】音響モデル特定装置200により行われる動作を示すフローチャートである。
【発明を実施するための最良の形態】
【0027】
以下、添付図面を参照して本発明にかかる言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法の好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
【0028】
<第1実施形態>
(言語モデル特定装置100の構成)
まず、本発明の第1実施形態に係る言語モデル特定装置100の構成および各構成要素の機能について、図1〜図4を参照しながら説明する。図1は言語モデル特定装置100の構成概要図であり、図2はそのハードウェア構成図である。言語モデル特定装置100は、入力音声に対して音声認識を行い、当該音声認識が複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断することにより、当該複数の言語モデルのうち何れの言語モデルが最適な言語モデルであるかを判断する装置である。なお、本実施形態では、言語モデル特定装置100が保持する複数の言語モデルの数の一例として、説明の便宜上、2つの言語モデル(後述するように第1言語モデルおよび第2言語モデル)の場合について説明する。
【0029】
図2に示すように、言語モデル特定装置100は、物理的には、CPU11、ROM12及びRAM13等の主記憶装置、キーボード及びマウス等の入力デバイス14、ディスプレイ等の出力デバイス15、他の装置との間でデータの送受信を行う通信モジュール16、ハードディスク等の補助記憶装置17などを含む通常のコンピュータシステムとして構成される。後述する言語モデル特定装置100の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
【0030】
図1に示すように、言語モデル特定装置100は、機能的には、音声入力部101、音声認識部102(特許請求の範囲の「音声認識手段」に相当)、判断部103(特許請求の範囲の「判断手段」に相当)、統合言語モデル保持部104、音響モデル保持部105、言語モデル統合部106(特許請求の範囲の「統合手段」に相当)、第1ID付与部107(特許請求の範囲の「識別子付与手段」に相当)、第1言語モデル保持部108、第2ID付与部109(特許請求の範囲の「識別子付与手段」に相当)、第2言語モデル保持部110を備える。なお、図面および以下の説明では、「言語モデル」を略して「LM」とも記載し、「音響モデル」を略して「AM」とも記載する。LMはLanguage Modelの略であり、AMはAcoustic Modelの略である。
【0031】
音声入力部101は入力音声を受信するものであり、物理的には図2に示した通信モジュール16として構成することができる。音声入力部101は入力した音声データを音声認識部102に出力する。
【0032】
音声認識部102は、統合LM保持部104に保持された統合LMおよびAM保持部105に保持されたAMを利用し、音声入力部101からの入力音声に対して音声認識を行う。統合LMは、後述するように、ID(特許請求の範囲の「識別子」に相当)によって区別される複数のLMから統合された一つのLMである。音声認識部102は、音声認識の結果(最終結果)を判断部103に出力する。音声認識の結果は文字列であり、当該文字列には複数のLMのうち何れかのLMを特定するIDが付されている。
【0033】
判断部103は、音声認識部102より音声認識の結果である文字列を入力し、当該文字列に付されたIDに基づき、当該音声認識が複数のLMのうち何れのLMを用いて行われたか、つまり複数のLMのうち何れのLMが最適なLMであるかを判断するものである。なお、音声認識部102および判断部103の詳細な動作については、後述する。
【0034】
統合LM保持部104は統合LMを保持するものであり、AM保持部105はAMを保持するものである。統合LMはLM統合部106により生成され、LM統合部106は第1ID付与部107および第2ID付与部109によるID付与後の第1LMおよび第2LMを統合して統合LMを生成する。
【0035】
以下、簡単な一例を用いて、統合LM保持部104、LM統合部106、第1ID付与部107、第1LM保持部108、第2ID付与部109、および第2LM保持部110の機能を説明する。
【0036】
第1LM保持部108には、例えばuni-gramが第1LMとして保持されている。第1LMを簡略化した一例を図3(A)に示す。図3(A)に示すように、第1LMは少なくとも4つのフィールドを含み、各フィールドはそれぞれ「単語名」、「読み」、「アルファベット表記」、「出現確率」を表す。「単語名」、「読み」、「アルファベット表記」は、単語を特定する情報として、特許請求の範囲の「単語特定情報」に相当する。図3(A)の一例は第1ID付与部107によるID付与前の第1LMの一例であり、例えば、単語名「私」は、読みが「わたし」であり、アルファベット表記は「w a t a s i」であり、その出現確率は「0.7」である。第1ID付与部107は、第1LMに含まれた「読み」フィールドに、当該第1LMを特定するIDである「ID1」を付与する。ID付与後の第1LMを図3(B)に示す。各単語の「読み」フィールドに第1LMを特定するIDである「ID1」が付与されている。
【0037】
同様に、第2LM保持部110にも、例えばuni-gramが第2LMとして保持されている。第2LMを簡略化した一例を図3(C)に示す。図3(C)に示すように、第2LMも第1LMと同様に少なくとも4つのフィールドを含み、各フィールドはそれぞれ「単語名」、「読み」、「アルファベット表記」、「出現確率」を表す。図3(C)の一例は第2ID付与部109によるID付与前の第2LMの一例であり、例えば、単語名「私」は、読みが「わたし」であり、アルファベット表記は「w a t a s i」であり、その出現確率は「0.4」である。第2ID付与部109は、第2LMに含まれた「読み」フィールドに、当該第2LMを特定するIDである「ID2」を付与する。ID付与後の第2LMを図3(D)に示す。各単語の「読み」フィールドに第2LMを特定するIDである「ID2」が付与されている。
【0038】
LM統合部106は第1ID付与部107および第2ID付与部109によるID付与後の第1LM(図3(B))および第2LM(図3(D))を統合して統合LMを生成する。LM統合部106が生成した統合LMの一例を図3(E)に示す。図3(E)に示すように、統合LMは、複数の種類のIDが付与された「読み」フィールドを含む。つまり、統合LMに属する単語の「読み」フィールドには、単語毎に異なるIDが付与される場合がある。IDが付与された第1LMの中の単語と第2LMの中の単語はその表記が違うため、統合LMの中では異なる単語として登録される。つまり、統合LMにおいて、「読み」が「わたし-ID1」の単語と「わたし-ID2」の単語は完全に異なる単語である。また、各単語の出現確率に対し正規化を行っても良い。図3(E)はuni-gramにおいて正規化後の出現確率を示している。なお、図示はしないが、bi-gramやtri-gramを第1LMおよび第2LMとして用いた場合には、単語間の接続確率を含めて正規化を行うことが好ましい。
【0039】
また、uni-gram、bi-gram、tri-gramを問わず、異なるIDが付与されている単語間における接続確率は0またはマイナス無限大である。つまり、例えば図3(E)のuni-gramの場合の一例において、「読み」フィールドが「が-ID1」である単語の出現確率は0.15であるが、これはあくまでも同じIDである「ID1」が付与された単語間での出現確率である。つまり以前に出現した単語の読みが例えば「わたし-ID1」である場合の出現確率であり、異なるIDが付与された単語間での出現確率ではない。言い換えれば、uni-gram、bi-gram、tri-gramを問わず、異なるIDが付与された単語間では接続を許容しない。第1LMおよび第2LMは元々別個のLMであったからである。LM統合部106はこのように作成した統合LMを統合LM保持部104に保持させる。
【0040】
以上、本実施形態の言語モデル特定装置100における機能的な構成要素について説明した。以上の説明では、LM統合部106、第1ID付与部107、第1LM保持部108、第2ID付与部109、および第2LM保持部110が言語モデル特定装置100の内部に設けられた場合を説明したが、これに限られることはない。すなわち、例えば図4に示すように、LM統合部106、第1ID付与部107、第1LM保持部108、第2ID付与部109、および第2LM保持部110がLM統合モジュール111を構成し、言語モデル特定装置100の本体112の外部に別装置として設けられていても良い。この場合、言語モデル特定装置100の本体112とLM統合モジュール111とは通信ネットワーク113を介して通信可能に接続され、LM統合部106は、作成した統合LMを通信ネットワーク113を介して言語モデル特定装置100の本体112に送信し統合LM保持部104に保持させる。
【0041】
(言語モデル特定装置100の動作)
続いて、言語モデル特定装置100により行われる動作(特許請求の範囲の「言語モデル特定方法」に相当)について、図5を参照しながら説明する。図5は言語モデル特定装置100により行われる動作を示すフローチャートである。
【0042】
最初に、第1ID付与部107が、第1LMに含まれた「読み」フィールドに、当該第1LMを特定するIDである「ID1」を付与する。ID付与後の第1LMを図3(B)に示す(ステップS11、特許請求の範囲の「識別子付与ステップ」に相当)。
【0043】
次に、第2ID付与部109が、第2LMに含まれた「読み」フィールドに、当該第2LMを特定するIDである「ID2」を付与する。ID付与後の第2LMを図3(D)に示す(ステップS12、特許請求の範囲の「識別子付与ステップ」に相当)。
【0044】
次に、LM統合部106が、第1ID付与部107および第2ID付与部109によるID付与後の第1LMおよび第2LMを統合して統合LMを生成する。LM統合部106が生成した統合LMの一例を図3(E)に示す。LM統合部106は作成した統合LMを統合LM保持部104に保持させる(ステップS13、特許請求の範囲の「統合ステップ」に相当)。
【0045】
次に、音声認識部102が、統合LM保持部104に保持された統合LMおよびAM保持部105に保持されたAMを利用し、音声入力部101からの入力音声に対して音声認識を行う。音声認識部102は、当該音声認識の結果(最終結果)を判断部103に出力する。音声認識の結果は文字列であり、当該文字列には複数のLMのうち何れかのLMを特定するIDが付されている(ステップS14、特許請求の範囲の「音声認識ステップ」に相当)。
【0046】
次に、判断部103が、音声認識部102より音声認識の結果である文字列を入力し、当該文字列に付されたIDに基づき、当該音声認識が複数のLMのうち何れのLMを用いて行われたか、つまり複数のLMのうち何れのLMが最適なLMであるかを判断する(ステップS15およびステップS16、特許請求の範囲の「判断ステップ」に相当)。
【0047】
(言語モデル特定装置100の作用及び効果)
続いて、本実施形態の言語モデル特定装置100における作用及び効果について説明する。上記のステップS14の音声認識ステップにおいては、音声認識処理の仕組みにより、仮説の中で最適な結果を音声認識処理の最終結果として出力する。つまり、第1LMを用いた場合の最適な仮説であるか、それとも第2LMを用いた場合の最適な仮説であるかに関係なく、統合LMとしての最適な仮説を音声認識処理の最終結果として出力する。これは統合LMという一つの言語モデルを用いたことによる。すなわち、1回の認識処理を行うだけで、二つのLMの候補から最適な候補が得られる。従来においては、二つのLMの候補から最適な候補を得るためには、2回の認識処理が必要であった。このように認識処理の回数を減らすことで高速化を図ることができる。
【0048】
また、本実施形態では、統合LMという第1LMおよび第2LMをまとめた一つの言語モデルを用い、更に音響モデルはAM保持部105に保持された一つの音響モデルを用いる。このことにより、音響の共通部分については、統合LMによる一括処理が行われるため、全体としての処理時間を減らすことができる。これに対し、従来においては、複数の言語モデル、つまり本実施形態における第1LMおよび第2LMによるそれぞれの認識処理がそれぞれ行われたため、第1LMおよび第2LMにおいて共通部分があったとしても、当該共通部分に対する認識処理がそれぞれ1回ずつ別個行われることとなり、結果的には、共通部分に対する認識処理が言語モデルの数だけ行われたこととなる。なお、上記の非特許文献1に開示されているように、全体の音声認識処理において類似度計算処理が占める割合は多いため、本実施形態でのように共通部分の認識処理を一括処理として1回のみに行うことにより、重複する類似度計算処理を行わずに済むこととなり、全体的な処理時間は飛躍的に短縮される。
【0049】
以上により短縮された処理時間について、実際の実験結果を用いて更に説明する。図6は、本実施形態の優れた効果を示すために行われた実験の結果を示すための図である。図6に示すように、第1LMを用いた音声認識において1回の音声認識が行われるまでかかった時間は1.59秒であり、第2LMを用いた音声認識において1回の音声認識が行われるまでかかった時間は1.31秒であった。二つの時間の合計に、2回の音声認識の結果を比較してより優れた結果を選択する処理にかかる時間X秒を足した時間が、つまり2.90秒+X秒が、従来の方法を用いて第1LMおよび第2LMのうち何れの言語モデルがより優れたものであるかを判断するための所要時間である。これに対し、本実施形態の総合LMを用いた音声認識において1回の音声認識が行われるまでかかった時間は1.62秒であった。二つの言語モデルを統合して大きい言語モデルになった分だけ1回の認識処理にかかった時間は長くなったが、第1LMおよび第2LMのうち何れの言語モデルがより優れたものであるかを判断するためのトータルの所要時間は1.62秒+X秒であるため、従来の所要時間2.90秒+X秒より遥かに短くなったことが分かる。
【0050】
なお、上記の実験で利用した音響モデルは、話し言葉工学プロジェクト(下記の参考文献1を参照)で作成された音声コーパス中の男性話者による約59時間分の音声データを用いて作成した2,000状態16混合の状態共有型triphone HMMであった。音声特徴量は、MFCCおよびMFCCとパワーの動的特徴からなる25次元のベクトル系列を用いた。また、言語モデルとしては二つの言語モデルを用いており、第1LMとしては話し言葉工学プロジェクトの講演データから作成したもの(語彙サイズ:6万語)を用い、第2LMとしては毎日新聞の記事から作成したもの(語彙サイズ:2万語)を用いた。また、評価用の入力音声は男性話者による20発話で、平均長さは2.5秒であった。
<参考文献1> 古井貞煕、前川喜久雄、井佐原均、『話し言葉工学』プロジェクトのこれまでの成果と展望、第2回話し言葉の科学と工学ワークショップ講演予稿集、pp.1-5 (2002-2)
【0051】
また、本実施形態における認識結果には、第1LMの中の単語列のみ、または第2LMの中の単語列のみになる。つまり、認識結果において、第1LMの中の単語と第2LMの中の単語が混在することはない。その理由は、上述したように、異なるIDが付与された単語間での出現確率は0またはマイナス無限大であるからである。以下に、ステップS14の認識処理の結果の一例を示す。
<ステップS14の認識処理の結果の一例>
私 が 学生 です
上記の結果は「単語名」フィールドからみた結果であり、この結果において、「読み」フィールドは以下のようになる。
<ステップS14の認識処理の結果の「読み」フィールド>
わたし-ID1 が-ID1 がくせい-ID1 です-ID1
このような認識結果の文字列が判断部103に出力されると、判断部103は「読み」フィールドに記載されたIDに基づき、ステップS14の認識処理が第1LMと第2LMのうち何れのLMを用いて行われたか、つまり第1LMと第2LMのうち何れのLMが最適なLMであるかを判断する。上記の例では、判断部103は、ステップS14の認識処理が第1LMを用いて行われ、第1LMが最適なLMであることを判断する。認識結果の「読み」フィールドに全て「ID1」のIDが付されているからである。
【0052】
(第1実施形態の変形例)
以上、本発明の第1実施形態について説明したが、本発明の第1実施形態は上記に限定されないことは言うまでもない。以下、第1実施形態の変形例について説明する。なお、既に説明した部分と重複する部分については説明を省略する。
【0053】
(第1実施形態の変形例1)
上記では、第1LMおよび第2LMの全ての単語に対しIDを付与する一例を説明したが、これに限らず、第1LMおよび第2LMにおいて共通する単語を検索し、共通する単語のみにIDを付与しても良い。この場合の言語モデル特定装置100Aの構成を図7に示す。言語モデル特定装置100Aは図1に示した言語モデル特定装置100の構成要素を全て有し、共通単語検索部114を更に備える。
【0054】
共通単語検索部114は、種々の検索方法により、第1LMおよび第2LMにおいて共通する単語を検索するものである。共通単語検索部114は、当該検索により、共通単語として検索されたものを第1ID付与部107および第2ID付与部109に出力し、共通単語でないものとして検索されたものをLM統合部106に出力する。そして、第1ID付与部107および第2ID付与部109は、上記第1実施形態にて説明した方法と同じ方法により、IDを付与する。すなわち、第1ID付与部107は第1LMからの上記共通単語の「読み」フィールドに当該第1LMを特定するための「ID1」を付与し、第2ID付与部109は第2LMからの上記共通単語の「読み」フィールドに当該第2LMを特定するための「ID2」を付与する。第1ID付与部107および第2ID付与部109は、共通単語でないものとして検索されたものについては、IDを付与しない。
【0055】
LM統合部106は、第1ID付与部107および第2ID付与部109によるID付与後の第1LMおよび第2LM、および共通単語検索部114により入力したIDが付与されていない第1LMおよび第2LMを統合して統合LMを生成する。統合LMの生成方法は上記と同様である。LM統合部106が生成した統合LMの一例を図8に示す。図8に示すように、統合LMは、複数の種類のIDが付与された、またはIDが付与されていない「読み」フィールドを含む。図8において、単語名が「学生」である単語はIDが付与されておらず、この単語は第1LMおよび第2LMのうち何れか一つのみに属する単語である。
【0056】
音声認識部102による認識結果である文字列の「読み」フィールドには、IDが付与されてないか、または1種類のIDのみが付与されている。以下にその一例を示す。
<認識結果の「読み」フィールド>
わたし-ID1 が-ID1 がくせい です
このような認識結果の文字列が判断部103に出力されると、判断部103は「読み」フィールドに記載されたIDに基づき、当該認識処理が第1LMと第2LMのうち何れのLMを用いて行われたかを判断する。上記の例では、判断部103は、当該認識処理が第1LMを用いて行われ、第1LMが最適なLMであることを判断する。認識結果の「読み」フィールドにIDが付されているならば、それは「ID1」であるからである。
【0057】
(第1実施形態の変形例2)
上記では、判断部103は、音声認識部102から出力された音声認識処理の最終結果を用いて、当該認識処理が第1LMと第2LMのうち何れのLMを用いて行われたかを判断したが、これに限らず、音声認識処理の中間結果を用いても良い。この場合に、音声認識部102は、探索空間を限定しながら当該音声認識を行い、且つ任意の探索空間における仮説を示す情報を当該音声認識の中間結果として判断部103に出力する。判断部103は、当該中間結果である仮説に、第1LMと第2LMのうち何れのLMを特定するIDのみが付されている場合に、当該音声認識が該何れのLMを用いて行われたことを判断する。
【0058】
一般に、音声認識処理では、全ての仮説を探索できないため、探索空間の限定が行われる。このときに、例えばビーム幅と呼ばれる探索におけるある時点での仮説の上限数が設定される。本実施形態の目的は、第1LMと第2LMのうちより優れた何れのLMを判定することであるため、探索の途中で生き残っている仮説の全てが、第1LMもしくは第2LMの何れか一方のLMの結果である場合には、その時点で結果の判定が可能であり、以降の認識処理を省略することができる。これにより、処理時間が更に短縮される。
【0059】
(第1実施形態の変形例3)
上記の第1実施形態の変形例2においては、音声認識の中間結果である仮説に、第1LMと第2LMのうち何れのLMを特定するIDのみが付されていることが発見された瞬間に、当該音声認識が該何れのLMを用いて行われたことを判断した。しかし、これに限らず、音声認識部102が、探索空間を限定しながら当該音声認識を行いながらも、任意の探索空間に異なるIDが付与された仮説が必ず混合されるように、当該探索空間の限定を行っても良い。このように、任意の探索空間に異なるIDが付与された仮説が必ず一つ以上混合されるようにすることで、つまり各LMからの中間結果を必ず一つ以上は仮説に残しておくことで、音声認識の精度を高めることができる。
【0060】
前述の第1実施形態の変形例2のように音声認識においては探索の途中で探索空間の限定が行われるため、場合によっては正解の仮説が探索途中で探索対象から外れてしまう恐れがある。そこで、第1LMおよび第2LMに属する仮説の何れもが、探索の何れかの段階で一定数以上または一定割合以上生き残るように仮設の数を制御することで、探索の終了時点において第1LMに属する仮説と第2LMに属する仮説が必ず一つ以上は生き残ることになるため、判定の精度を向上することができる。
【0061】
(第1実施形態の変形例4)
上記の第1実施形態の変形例2および変形例3で説明した二つの方法は、仮説の信頼度(尤度)に応じて適宜切り替えて使用するようにしても良い。
【0062】
(第1実施形態の変形例5)
上記第1実施形態においては、第1LMと第2LMとを区別するために、「読み」フィールドに「ID1」または「ID2」を付与したが、これに限られることなく、例えば「単語名」や「アルファベット表記」フィールドに「ID1」または「ID2」を付与しても良い。また、IDとしては、言語モデルを区別できれば十分であり、上記の例以外の態様であっても良い。すなわち、例えばひらがなおよびカタカナで第1LMと第2LMとを区別しても良く、第1LMおよび第2LMのうち何れか一つのみにIDを付与することにより、第1LMと第2LMとを区別しても良い。
【0063】
(第1実施形態の変形例6)
上記第1実施形態においては、第1LMおよび第2LMの二つの言語モデルの例を説明したが、これに限らず、LM統合部106が三つ以上の言語モデルを統合して統合LMを作成しても良い。
【0064】
<第2実施形態>
(音響モデル特定装置200の構成)
引き続き、本発明の第2実施形態にについて説明する。まず、本発明の第2実施形態に係る音響モデル特定装置200の構成および各構成要素の機能について、図9、図10、および図2を参照しながら説明する。図9は音響モデル特定装置200の構成概要図であり、図2はそのハードウェア構成図である。音響モデル特定装置200は、入力音声に対して音声認識を行い、当該音声認識が複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断することにより、当該複数の音響モデルのうち何れの音響モデルが最適な音響モデルであるかを判断する装置である。なお、本実施形態では、音響モデル特定装置200が保持する複数の音響モデルの数の一例として、説明の便宜上、2つの音響モデル(後述するように第1音響モデルおよび第2音響モデル)の場合について説明する。
【0065】
図2に示すように、音響モデル特定装置200は、物理的には、CPU21、ROM22及びRAM23等の主記憶装置、キーボード及びマウス等の入力デバイス24、ディスプレイ等の出力デバイス25、他の装置との間でデータの送受信を行う通信モジュール26、ハードディスク等の補助記憶装置27などを含む通常のコンピュータシステムとして構成される。後述する音響モデル特定装置200の各機能は、CPU21、ROM22、RAM23等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU21の制御の元で入力デバイス24、出力デバイス25、通信モジュール26を動作させると共に、主記憶装置22,23や補助記憶装置27におけるデータの読み出し及び書き込みを行うことで実現される。
【0066】
図9に示すように、音響モデル特定装置200は、機能的には、音声入力部201、音声認識部202(特許請求の範囲の「音声認識手段」に相当)、判断部203(特許請求の範囲の「判断手段」に相当)、統合音響モデル保持部204、変換言語モデル保持部205、音響モデル統合部206(特許請求の範囲の「統合手段」に相当)、第1ID付与部207(特許請求の範囲の「識別子付与手段」に相当)、第1音響モデル保持部208、第2ID付与部209(特許請求の範囲の「識別子付与手段」に相当)、第2音響モデル保持部210、言語モデル変換部211、および当初言語モデル保持部212を備える。なお、図面および以下の説明では、「言語モデル」を略して「LM」とも記載し、「音響モデル」を略して「AM」とも記載する。
【0067】
音声入力部201は入力音声を受信するものであり、物理的には図2に示した通信モジュール26として構成することができる。音声入力部201は入力した音声データを音声認識部202に出力する。
【0068】
音声認識部202は、統合AM保持部204に保持された統合AMおよび変換LM保持部205に保持された変換LMを利用し、音声入力部201からの入力音声に対して音声認識を行う。統合AMは、後述するように、ID(特許請求の範囲の「識別子」に相当)によって区別される複数のAMから統合された一つのAMである。音声認識部202は、音声認識の結果(最終結果)を判断部203に出力する。音声認識の結果は文字列であり、当該文字列には複数のAMのうち何れかのAMを特定するIDが付されている。
【0069】
判断部203は、音声認識部202より音声認識の結果である文字列を入力し、当該文字列に付されたIDに基づき、当該音声認識が複数のAMのうち何れのAMを用いて行われたか、つまり複数のAMのうち何れのAMが最適なAMであるかを判断するものである。なお、音声認識部202および判断部203の詳細な動作については、後述する。
【0070】
統合AM保持部204は統合AMを保持するものであり、変換LM保持部205は変換LMを保持するものである。統合AMはAM統合部206により生成され、AM統合部206は第1ID付与部207および第2ID付与部209によるID付与後の第1AMおよび第2AMを統合して統合AMを生成する。変換LM保持部205が保持する変換LMは、当初LM保持部212に保持されたLM(当初LM)をLM変換部211が変換したものである。
【0071】
以下、簡単な一例を用いて、統合AM保持部204、AM統合部206、第1ID付与部207、第1AM保持部208、第2ID付与部209、第2AM保持部210、変換LM保持部205、LM変換部211、および当初LM保持部212の機能を説明する。
【0072】
第1AM保持部208には、例えば以下に示すような表記の音素データ(特許請求の範囲の「音素特定情報」に相当)からなる第1AMが保持されている。
<第1AMの音素データ>
a、i、u、e、o、…
第2AM保持部210にも、例えば以下に示すような表記の音素データからなる第2AMが保持されている。
<第2AMの音素データ>
a、i、u、e、o、…
【0073】
第1ID付与部207が、第1AMの各音素に対し当該第1AMを特定するIDを付与し表記を変換する。表記変換後の音素の一例を以下に示す。
<表記変換後の第1AMの音素データ>
a-ID1、i-ID1、u-ID1、e-ID1、o-ID1、…
同様に、第2ID付与部209が、第2AMの各音素に対し当該第2AMを特定するIDを付与し表記を変換する。表記変換後の音素の一例を以下に示す。
<表記変換後の第2AMの音素データ>
a-ID2、i-ID2、u-ID2、e-ID2、o-ID2、…
【0074】
次に、AM統合部206が、第1ID付与部207および第2ID付与部209による表記変換後の第1AMおよび第2AMを統合して統合AMを生成する。AM統合部206が生成した統合AMに含まれる音素データの一例を以下に示す。
<統合AMの音素データ>
a-ID1、i-ID1、u-ID1、e-ID1、o-ID1、…
a-ID2、i-ID2、u-ID2、e-ID2、o-ID2、…
IDが付与され表記が変換された第1AMの中の音素(例えばa-ID1)と第2AMの中の音素(例えばa-ID2)は、統合AMの中においてはその表記が違うため、統合AMの中では異なる音素として登録される。
【0075】
次に、LM変換部211が、当初LM保持部212に保持された当初LMに対し、統合AMの表記に合わせて当該当初LMにおける単語表記を変換する。具体的には、当初LM保持部212に保持された当初LMにおける単語表記を、第1AMの表記方法と第2AMの表記方法の二種類の表記方法にあわせて変換する。その具体的な一例を以下に示す。
【0076】
すなわち、以下に示すように、当初LM保持部212に保持された当初LMに、単語名が「私」、読みが「わたし」、アルファベット表記が「w at as i」、出現確率が「0.7」の単語があったとする。
<当初LM保持部212に保持された当初LM>
単語名:「私」
読み:「わたし」
アルファベット表記:「w at as i」
出現確率:「0.7」
【0077】
これに対して、LM変換部211は、以下のように二種類の表記方法で表記を変換する。
<第1AMの表記方法にあわせた表記変換>
単語名:「私」
読み:「わたし-ID1」
アルファベット表記:「w-ID1 a-ID1 t-ID1 a-ID1 s-ID1 i-ID1」
出現確率:「0.7」
<第2AMの表記方法にあわせた表記変換>
単語名:「私」
読み:「わたし-ID2」
アルファベット表記:「w-ID2 a-ID2 t-ID2 a-ID2 s-ID2 i-ID2」
出現確率:「0.7」
【0078】
すなわち、LM変換部211は、「読み」フィールドおよび「アルファベット表記」フィールドにそれぞれのAMを特定するためのIDを付与し、当初LM保持部212に保持された一つの当初LMを二つの表記変換後のLMに複製している。なお、第1実施形態と同様に、異なるIDが付与された単語間での出現確率は0またはマイナス無限大である。つまり、uni-gram、bi-gram、tri-gramを問わず、異なるIDが付与された単語間では接続を許容しない。変換後の両LMは、元々別個のAMである第1AMおよび第2AMにあわせたものであるからである。LM変換部211はこのように作成した変換後の両LM(変換LM)を変換LM保持部205に保持させる。
【0079】
以上、本実施形態の音響モデル特定装置200における機能的な構成要素について説明した。以上の説明では、統合AM保持部204、AM統合部206、第1ID付与部207、第1AM保持部208、第2ID付与部209、第2AM保持部210、変換LM保持部205、LM変換部211、および当初LM保持部212が音響モデル特定装置200の内部に設けられた場合を説明したが、これに限られることはない。すなわち、例えば図10に示すように、統合AM保持部204、AM統合部206、第1ID付与部207、第1AM保持部208、第2ID付与部209、第2AM保持部210、変換LM保持部205、LM変換部211、および当初LM保持部212がAM統合モジュール213を構成し、音響モデル特定装置200の本体214の外部に別装置として設けられていても良い。この場合、音響モデル特定装置200の本体214とAM統合モジュール213とは通信ネットワーク215を介して通信可能に接続され、AM統合部206は、作成した統合AMを通信ネットワーク215を介して音響モデル特定装置200の本体214に送信し統合AM保持部204に保持させる。また、LM変換部211は、作成した変換後の両LMを通信ネットワーク215を介して音響モデル特定装置200の本体214に送信し変換LM保持部205に保持させる。
【0080】
(音響モデル特定装置200の動作)
続いて、音響モデル特定装置200により行われる動作(特許請求の範囲の「言語モデル特定方法」に相当)について、図11を参照しながら説明する。図11は音響モデル特定装置200により行われる動作を示すフローチャートである。
【0081】
最初に、第1ID付与部207が、第1AMに含まれた音素データに、当該第1AMを特定するIDである「ID1」を付与する。ID付与後の第1AM内の音素データを上記<表記変換後の第1AMの音素データ>に示す(ステップS21、特許請求の範囲の「識別子付与ステップ」に相当)。
【0082】
次に、第2ID付与部209が、第2AMに含まれた音素データに、当該第2AMを特定するIDである「ID2」を付与する。ID付与後の第2AM内の音素データを上記<表記変換後の第2AMの音素データ>に示す(ステップS22、特許請求の範囲の「識別子付与ステップ」に相当)。
【0083】
次に、AM統合部206が、第1ID付与部207および第2ID付与部209によるID付与後の第1AMおよび第2AMを統合して統合AMを生成する。AM統合部206が生成した統合AM内の音素データの一例を上記<統合AMの音素データ>に示す。AM統合部206は作成した統合AMを統合AM保持部204に保持させる(ステップS23、特許請求の範囲の「統合ステップ」に相当)。
【0084】
次に、音声認識部202が、統合AM保持部204に保持された統合AMおよび変換LM保持部205に保持された変換LMを利用し、音声入力部201からの入力音声に対して音声認識を行う。音声認識部202は、当該音声認識の結果(最終結果)を判断部203に出力する。音声認識の結果は文字列であり、当該文字列には複数のAMのうち何れかのAMを特定するIDが付されている(ステップS24、特許請求の範囲の「音声認識ステップ」に相当)。
【0085】
次に、判断部203が、音声認識部202より音声認識の結果である文字列を入力し、当該文字列に付されたIDに基づき、当該音声認識が複数のAMのうち何れのAMを用いて行われたか、つまり複数のAMのうち何れのAMが最適なAMであるかを判断する(ステップS25およびステップS26、特許請求の範囲の「判断ステップ」に相当)。
【0086】
(音響モデル特定装置200の動作)
続いて、本実施形態の音響モデル特定装置200における作用及び効果について説明する。上記のステップS24の音声認識ステップにおいては、音声認識処理の仕組みにより、仮説の中で最適な結果を音声認識処理の最終結果として出力する。つまり、第1AMを用いた場合の最適な仮説であるか、それとも第2AMを用いた場合の最適な仮説であるかに関係なく、統合AMとしての最適な仮説を音声認識処理の最終結果として出力する。これは統合AMという一つの音響モデルを用いたことによる。すなわち、1回の認識処理を行うだけで、二つのAMの候補から最適な候補が得られる。従来においては、二つのAMの候補から最適な候補を得るためには、2回の認識処理が必要であった。このように認識処理の回数を減らすことで高速化を図ることができる。
【0087】
また、本実施形態における認識結果には、第1AMの中の音素に対応する単語列のみ、または第2AMの中の音素に対応する単語列のみになる。つまり、認識結果において、第1AMの中の音素に対応する単語と第2AMの中の音素に対応する単語が混在することはない。その理由は、上述したように、異なるIDが付与された単語間での出現確率は0またはマイナス無限大であるからである。以下に、ステップS24の認識処理の結果の一例を示す。
<ステップS24の認識処理の結果の一例>
私 が 学生 です
上記の結果は「単語名」フィールドからみた結果であり、この結果において、「読み」フィールドは以下のようになる。
<ステップS24の認識処理の結果の「読み」フィールド>
わたし-ID1 が-ID1 がくせい-ID1 です-ID1
このような認識結果の文字列が判断部203に出力されると、判断部203は「読み」フィールドに記載されたIDに基づき、ステップS24の認識処理が第1AMと第2AMのうち何れのAMを用いて行われたか、つまり第1AMと第2AMのうち何れのAMが最適なAMであるかを判断する。上記の例では、判断部203は、ステップS24の認識処理が第1AMを用いて行われ、第1AMが最適なAMであることを判断する。認識結果の「読み」フィールドに全て「ID1」のIDが付されているからである。
【0088】
(第2実施形態の変形例)
以上、本発明の第2実施形態について説明したが、本発明の第2実施形態は上記に限定されないことは言うまでもない。以下、第2実施形態の変形例について説明する。なお、既に説明した部分と重複する部分については説明を省略する。
【0089】
(第2実施形態の変形例1)
上記の第2実施形態においては、判断部203は、音声認識部202から出力された音声認識処理の最終結果を用いて、当該認識処理が第1AMと第2AMのうち何れのAMを用いて行われたかを判断したが、これに限らず、音声認識処理の中間結果を用いても良い。この場合に、音声認識部202は、探索空間を限定しながら当該音声認識を行い、且つ任意の探索空間における仮説を示す情報を当該音声認識の中間結果として判断部203に出力する。判断部203は、当該中間結果である仮説に、第1AMと第2AMのうち何れのAMを特定するIDのみが付されている場合に、当該音声認識が該何れのAMを用いて行われたことを判断する。
【0090】
一般に、音声認識処理では、全ての仮説を探索できないため、探索空間の限定が行われる。このときに、例えばビーム幅と呼ばれる探索におけるある時点での仮説の上限数が設定される。本実施形態の目的は、第1AMと第2AMのうちより優れた何れのAMを判定することであるため、探索の途中で生き残っている仮説の全てが、第1AMもしくは第2AMの何れか一方のAMの結果である場合には、その時点で結果の判定が可能であり、以降の認識処理を省略することができる。これにより、処理時間が更に短縮される。
【0091】
(第2実施形態の変形例2)
上記の第2実施形態の変形例1においては、音声認識の中間結果である仮説に、第1AMと第2AMのうち何れのAMを特定するIDのみが付されていることが発見された瞬間に、当該音声認識が該何れのAMを用いて行われたことを判断した。しかし、これに限らず、音声認識部202が、探索空間を限定しながら当該音声認識を行いながらも、任意の探索空間に異なるIDが付与された仮説が必ず混合されるように、当該探索空間の限定を行っても良い。このように、任意の探索空間に異なるIDが付与された仮説が必ず一つ以上混合されるようにすることで、つまり各AMからの中間結果を必ず一つ以上は仮説に残しておくことで、音声認識の精度を高めることができる。
【0092】
前述の第2実施形態の変形例1のように音声認識においては探索の途中で探索空間の限定が行われるため、場合によっては正解の仮説が探索途中で探索対象から外れてしまう恐れがある。そこで、第1AMおよび第2AMに属する仮説の何れもが、探索の何れかの段階で一定数以上または一定割合以上生き残るように仮設の数を制御することで、探索の終了時点において第1AMに属する仮説と第2AMに属する仮説が必ず一つ以上は生き残ることになるため、判定の精度を向上することができる。
【0093】
(第2実施形態の変形例3)
上記の第2実施形態の変形例1および変形例2で説明した二つの方法は、仮説の信頼度(尤度)に応じて適宜切り替えて使用するようにしても良い。
【0094】
(第2実施形態の変形例4)
上記第2実施形態においては、第1AMと第2AMとを区別するために、音素の表記に「ID1」または「ID2」を付与したが、これに限られることはない。IDとしては、音響モデルを区別できれば十分であり、上記の例以外の態様であっても良い。すなわち、例えばひらがなおよびカタカナで第1AMと第2AMとを区別しても良く、第1AMおよび第2AMのうち何れか一つのみにIDを付与することにより、第1AMと第2AMとを区別しても良い。
【0095】
(第2実施形態の変形例5)
上記第2実施形態においては、第1AMおよび第2AMの二つの音響モデルの例を説明したが、これに限らず、AM統合部206が三つ以上の音響モデルを統合して統合AMを作成しても良い。
【符号の説明】
【0096】
100,100A…言語モデル特定装置、101…音声入力部、102…音声認識部、103…判断部、104…統合言語モデル保持部、105…AM保持部、106…LM統合部、107…第1ID付与部、108…第1LM保持部、109…第2ID付与部、110…第2LM保持部、111…統合モジュール、112…言語モデル特定装置100の本体、113…通信ネットワーク、114…共通単語検索部、200…音響モデル特定装置、201…音声入力部、202…音声認識部、203…判断部、204…統合AM保持部、205…変換LM保持部、206…AM統合部、207…第1ID付与部、208…第1AM保持部、209…第2ID付与部、210…第2AM保持部、211…LM変換部、212…当初LM保持部、213…統合モジュール、214…音響モデル特定装置200の本体、215…通信ネットワーク。
【技術分野】
【0001】
本発明は、言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法に関するものである。
【背景技術】
【0002】
従来、音声認識を行うために、音響モデルや言語モデルを用いた処理を行う。すなわち、言語モデルを用いて類似度計算処理の比較対象となる音素を決定し、音響モデルを用いて当該類似度計算処理を行う。なお、類似度計算処理は全体の音声認識処理における割合として多くの部分を占めており、このことは例えば非特許文献1に開示されている。
【0003】
また、従来、例えば非特許文献2に開示されているように、複数のモデルのうち最適なモデルを判別するために、当該複数のモデルを利用し、平行に音声認識処理を行っている。つまり、従来においては、上記類似度計算処理を含む音声認識処理を判別したいモデルの数だけ行い、その音声認識結果を比較することにより、何れのモデルが最適なモデルであるかを判別している。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】李晃伸、河原達也、武田一哉、鹿野清宏、PhoneticTied-Mixtureモデルを用いた大語彙連続音声認識、情報処理学会研究報告、SLP、音声言語情報処理、pp.43-48、99-SLP-29-8
【非特許文献2】李晃伸、大語彙連続音声認識エンジンJuliusver.4、電子情報通信学会技術研究報告、SP2007-148、pp307-312、2007-12
【発明の開示】
【発明が解決しようとする課題】
【0005】
複数のモデルのうち最適なモデルを判別するために上記のような従来技術を用いる場合には、音声認識処理を判別したいモデルの数だけ行う必要があるため、最適モデル判別処理の結果を得るまで長い時間が所要するといった問題点がある。
【0006】
そこで、本発明は上記に鑑みてなされたもので、短時間で最適なモデルを判別することが可能な言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明の言語モデル特定装置は、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断手段と、を備えることを特徴とする。
【0008】
この場合に、本発明の言語モデル特定装置は、各言語モデルは単語を特定する単語特定情報を複数含み、前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与手段と、前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合手段と、を更に備え、前記音声認識手段は、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【0009】
また、本発明の言語モデル特定方法は、音声認識手段が、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断ステップと、を備えることを特徴とする。
【0010】
この場合に、本発明の言語モデル特定方法は、各言語モデルは単語を特定する単語特定情報を複数含み、識別子付与手段が、前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、統合手段が、前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合ステップと、を更に備え、前記音声認識ステップにおいては、前記音声認識手段が、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【0011】
このような本発明の言語モデル特定装置および言語モデル特定方法によれば、音声認識手段は、入力音声に対して音声認識を行う際に、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用する。そして、判断手段は、音声認識の結果である文字列に付された識別子に基づき、音声認識が複数の言語モデルのうち何れの言語モデルを用いて行われたか、つまり複数の言語モデルのうち何れの言語モデルが最適な言語モデルであるかを判断する。すなわち、複数の言語モデルのうち何れの言語モデルが最適な言語モデルであるかを判断するために、本発明では、複数の言語モデルの数だけの認識処理を複数回行い更にその結果を比較するような処理を行うことを必要とせず、統合言語モデルを利用した1回のみの認識処理で当該判断を行うことができる。従って、本発明によれば、短時間で最適な言語モデルを判別することが可能となる。
【0012】
また、本発明の言語モデル特定装置は、前記複数の言語モデルにおいて共通の単語を検索する共通単語検索手段を更に備え、前記識別子付与手段は、前記共通の単語に前記各言語モデルを特定するための前記各言語モデル毎に異なる前記識別子を付与し、且つ前記共通の単語以外には前記識別子を付与しないことが好ましい。
【0013】
この発明によれば、共通の単語にのみ、識別子を付与する。このため、識別子付与手段の処理負担が減るとともに、全体的に処理時間が短縮される。
【0014】
また、本発明の言語モデル特定装置においては、異なる識別子が付与されている単語間における接続確率は0であることが好ましい。
【0015】
異なる識別子が付与されたというのは言語モデルが異なることを意味するため、異なる言語モデル間における単語間の接続確率を0とし、異なる言語モデルに属する単語間の接続を許容しないことが好ましい。
【0016】
また、本発明の言語モデル特定装置においては、前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間における仮説を示す情報を前記音声認識の中間結果として前記判断手段に出力し、前記判断手段は、前記中間結果である前記仮説に、前記複数の言語モデルのうち何れの言語モデルを特定する識別子のみが付されている場合に、前記音声認識が該何れの言語モデルを用いて行われたことを判断することが好ましい。
【0017】
この場合には、音声認識の中間結果だけで、何れの言語モデルが最適な言語モデルであるかが判断できる。このため、音声認識手段の処理負担が減るとともに、全体的に処理時間が短縮される。
【0018】
また、本発明の言語モデル特定装置においては、前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間に異なる識別子が付与された仮説が混合されるよう前記探索空間の限定を行うことが好ましい。
【0019】
この場合には、任意の探索空間には異なる識別子が付与された仮説が必ず一つ以上混合されるようにすることで、つまり各言語モデルからの中間結果を必ず一つ以上は仮説に残しておくことで、音声認識の精度を高めることができる。
【0020】
また、本発明の音響モデル特定装置は、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断手段と、を備えることを特徴とする。
【0021】
この場合に、本発明の音響モデル特定装置は、各音響モデルは音素を特定する音素特定情報を複数含み、前記各音響モデルに含まれた前記音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与手段と、前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合手段と、を更に備え、前記音声認識手段は、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【0022】
また、本発明の音響モデル特定方法は、音声認識手段が、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断ステップと、を備えることを特徴とする。
【0023】
この場合に、本発明の音響モデル特定方法は、各音響モデルは音素を特定する音素特定情報を複数含み、識別子付与手段が、前記各音響モデルに含まれた前記複数の音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、統合手段が、前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合ステップと、を更に備え、音声認識ステップにおいては、前記音声認識手段が、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【0024】
このような本発明の音響モデル特定装置および音響モデル特定方法によれば、音声認識手段は、入力音声に対して音声認識を行う際に、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用する。そして、判断手段は、音声認識の結果である文字列に付された識別子に基づき、音声認識が複数の音響モデルのうち何れの音響モデルを用いて行われたか、つまり複数の音響モデルのうち何れの音響モデルが最適な音響モデルであるかを判断する。すなわち、複数の音響モデルのうち何れの音響モデルが最適な音響モデルであるかを判断するために、本発明では、複数の音響モデルの数だけの認識処理を複数回行い更にその結果を比較するような処理を行うことを必要とせず、統合音響モデルを利用した1回のみの認識処理で当該判断を行うことができる。従って、本発明によれば、短時間で最適な音響モデルを判別することが可能となる。
【発明の効果】
【0025】
本発明によれば、短時間で最適なモデルを判別することが可能な言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法を提供することができる。
【図面の簡単な説明】
【0026】
【図1】第1実施形態にかかる言語モデル特定装置100の構成概要図である。
【図2】言語モデル特定装置100および音響モデル特定装置200のハードウェア構成図である。
【図3】統合言語モデル保持部104、言語モデル統合部106、第1ID付与部107、第1言語モデル保持部108、第2ID付与部109、および第2言語モデル保持部110の機能を説明するための図である。
【図4】言語モデル特定装置100の他の形態を示す構成概要図である。
【図5】言語モデル特定装置100により行われる動作を示すフローチャートである。
【図6】第1実施形態の優れた効果を示すために行われた実験の結果を示すための図である。
【図7】第1実施形態の変形例1にかかる言語モデル特定装置100Aの構成概要図である。
【図8】言語モデル統合部106が生成した統合言語モデルの一例を示す図である。
【図9】第2実施形態にかかる音響モデル特定装置200の構成概要図である。
【図10】音響モデル特定装置200の他の形態を示す構成概要図である。
【図11】音響モデル特定装置200により行われる動作を示すフローチャートである。
【発明を実施するための最良の形態】
【0027】
以下、添付図面を参照して本発明にかかる言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法の好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
【0028】
<第1実施形態>
(言語モデル特定装置100の構成)
まず、本発明の第1実施形態に係る言語モデル特定装置100の構成および各構成要素の機能について、図1〜図4を参照しながら説明する。図1は言語モデル特定装置100の構成概要図であり、図2はそのハードウェア構成図である。言語モデル特定装置100は、入力音声に対して音声認識を行い、当該音声認識が複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断することにより、当該複数の言語モデルのうち何れの言語モデルが最適な言語モデルであるかを判断する装置である。なお、本実施形態では、言語モデル特定装置100が保持する複数の言語モデルの数の一例として、説明の便宜上、2つの言語モデル(後述するように第1言語モデルおよび第2言語モデル)の場合について説明する。
【0029】
図2に示すように、言語モデル特定装置100は、物理的には、CPU11、ROM12及びRAM13等の主記憶装置、キーボード及びマウス等の入力デバイス14、ディスプレイ等の出力デバイス15、他の装置との間でデータの送受信を行う通信モジュール16、ハードディスク等の補助記憶装置17などを含む通常のコンピュータシステムとして構成される。後述する言語モデル特定装置100の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
【0030】
図1に示すように、言語モデル特定装置100は、機能的には、音声入力部101、音声認識部102(特許請求の範囲の「音声認識手段」に相当)、判断部103(特許請求の範囲の「判断手段」に相当)、統合言語モデル保持部104、音響モデル保持部105、言語モデル統合部106(特許請求の範囲の「統合手段」に相当)、第1ID付与部107(特許請求の範囲の「識別子付与手段」に相当)、第1言語モデル保持部108、第2ID付与部109(特許請求の範囲の「識別子付与手段」に相当)、第2言語モデル保持部110を備える。なお、図面および以下の説明では、「言語モデル」を略して「LM」とも記載し、「音響モデル」を略して「AM」とも記載する。LMはLanguage Modelの略であり、AMはAcoustic Modelの略である。
【0031】
音声入力部101は入力音声を受信するものであり、物理的には図2に示した通信モジュール16として構成することができる。音声入力部101は入力した音声データを音声認識部102に出力する。
【0032】
音声認識部102は、統合LM保持部104に保持された統合LMおよびAM保持部105に保持されたAMを利用し、音声入力部101からの入力音声に対して音声認識を行う。統合LMは、後述するように、ID(特許請求の範囲の「識別子」に相当)によって区別される複数のLMから統合された一つのLMである。音声認識部102は、音声認識の結果(最終結果)を判断部103に出力する。音声認識の結果は文字列であり、当該文字列には複数のLMのうち何れかのLMを特定するIDが付されている。
【0033】
判断部103は、音声認識部102より音声認識の結果である文字列を入力し、当該文字列に付されたIDに基づき、当該音声認識が複数のLMのうち何れのLMを用いて行われたか、つまり複数のLMのうち何れのLMが最適なLMであるかを判断するものである。なお、音声認識部102および判断部103の詳細な動作については、後述する。
【0034】
統合LM保持部104は統合LMを保持するものであり、AM保持部105はAMを保持するものである。統合LMはLM統合部106により生成され、LM統合部106は第1ID付与部107および第2ID付与部109によるID付与後の第1LMおよび第2LMを統合して統合LMを生成する。
【0035】
以下、簡単な一例を用いて、統合LM保持部104、LM統合部106、第1ID付与部107、第1LM保持部108、第2ID付与部109、および第2LM保持部110の機能を説明する。
【0036】
第1LM保持部108には、例えばuni-gramが第1LMとして保持されている。第1LMを簡略化した一例を図3(A)に示す。図3(A)に示すように、第1LMは少なくとも4つのフィールドを含み、各フィールドはそれぞれ「単語名」、「読み」、「アルファベット表記」、「出現確率」を表す。「単語名」、「読み」、「アルファベット表記」は、単語を特定する情報として、特許請求の範囲の「単語特定情報」に相当する。図3(A)の一例は第1ID付与部107によるID付与前の第1LMの一例であり、例えば、単語名「私」は、読みが「わたし」であり、アルファベット表記は「w a t a s i」であり、その出現確率は「0.7」である。第1ID付与部107は、第1LMに含まれた「読み」フィールドに、当該第1LMを特定するIDである「ID1」を付与する。ID付与後の第1LMを図3(B)に示す。各単語の「読み」フィールドに第1LMを特定するIDである「ID1」が付与されている。
【0037】
同様に、第2LM保持部110にも、例えばuni-gramが第2LMとして保持されている。第2LMを簡略化した一例を図3(C)に示す。図3(C)に示すように、第2LMも第1LMと同様に少なくとも4つのフィールドを含み、各フィールドはそれぞれ「単語名」、「読み」、「アルファベット表記」、「出現確率」を表す。図3(C)の一例は第2ID付与部109によるID付与前の第2LMの一例であり、例えば、単語名「私」は、読みが「わたし」であり、アルファベット表記は「w a t a s i」であり、その出現確率は「0.4」である。第2ID付与部109は、第2LMに含まれた「読み」フィールドに、当該第2LMを特定するIDである「ID2」を付与する。ID付与後の第2LMを図3(D)に示す。各単語の「読み」フィールドに第2LMを特定するIDである「ID2」が付与されている。
【0038】
LM統合部106は第1ID付与部107および第2ID付与部109によるID付与後の第1LM(図3(B))および第2LM(図3(D))を統合して統合LMを生成する。LM統合部106が生成した統合LMの一例を図3(E)に示す。図3(E)に示すように、統合LMは、複数の種類のIDが付与された「読み」フィールドを含む。つまり、統合LMに属する単語の「読み」フィールドには、単語毎に異なるIDが付与される場合がある。IDが付与された第1LMの中の単語と第2LMの中の単語はその表記が違うため、統合LMの中では異なる単語として登録される。つまり、統合LMにおいて、「読み」が「わたし-ID1」の単語と「わたし-ID2」の単語は完全に異なる単語である。また、各単語の出現確率に対し正規化を行っても良い。図3(E)はuni-gramにおいて正規化後の出現確率を示している。なお、図示はしないが、bi-gramやtri-gramを第1LMおよび第2LMとして用いた場合には、単語間の接続確率を含めて正規化を行うことが好ましい。
【0039】
また、uni-gram、bi-gram、tri-gramを問わず、異なるIDが付与されている単語間における接続確率は0またはマイナス無限大である。つまり、例えば図3(E)のuni-gramの場合の一例において、「読み」フィールドが「が-ID1」である単語の出現確率は0.15であるが、これはあくまでも同じIDである「ID1」が付与された単語間での出現確率である。つまり以前に出現した単語の読みが例えば「わたし-ID1」である場合の出現確率であり、異なるIDが付与された単語間での出現確率ではない。言い換えれば、uni-gram、bi-gram、tri-gramを問わず、異なるIDが付与された単語間では接続を許容しない。第1LMおよび第2LMは元々別個のLMであったからである。LM統合部106はこのように作成した統合LMを統合LM保持部104に保持させる。
【0040】
以上、本実施形態の言語モデル特定装置100における機能的な構成要素について説明した。以上の説明では、LM統合部106、第1ID付与部107、第1LM保持部108、第2ID付与部109、および第2LM保持部110が言語モデル特定装置100の内部に設けられた場合を説明したが、これに限られることはない。すなわち、例えば図4に示すように、LM統合部106、第1ID付与部107、第1LM保持部108、第2ID付与部109、および第2LM保持部110がLM統合モジュール111を構成し、言語モデル特定装置100の本体112の外部に別装置として設けられていても良い。この場合、言語モデル特定装置100の本体112とLM統合モジュール111とは通信ネットワーク113を介して通信可能に接続され、LM統合部106は、作成した統合LMを通信ネットワーク113を介して言語モデル特定装置100の本体112に送信し統合LM保持部104に保持させる。
【0041】
(言語モデル特定装置100の動作)
続いて、言語モデル特定装置100により行われる動作(特許請求の範囲の「言語モデル特定方法」に相当)について、図5を参照しながら説明する。図5は言語モデル特定装置100により行われる動作を示すフローチャートである。
【0042】
最初に、第1ID付与部107が、第1LMに含まれた「読み」フィールドに、当該第1LMを特定するIDである「ID1」を付与する。ID付与後の第1LMを図3(B)に示す(ステップS11、特許請求の範囲の「識別子付与ステップ」に相当)。
【0043】
次に、第2ID付与部109が、第2LMに含まれた「読み」フィールドに、当該第2LMを特定するIDである「ID2」を付与する。ID付与後の第2LMを図3(D)に示す(ステップS12、特許請求の範囲の「識別子付与ステップ」に相当)。
【0044】
次に、LM統合部106が、第1ID付与部107および第2ID付与部109によるID付与後の第1LMおよび第2LMを統合して統合LMを生成する。LM統合部106が生成した統合LMの一例を図3(E)に示す。LM統合部106は作成した統合LMを統合LM保持部104に保持させる(ステップS13、特許請求の範囲の「統合ステップ」に相当)。
【0045】
次に、音声認識部102が、統合LM保持部104に保持された統合LMおよびAM保持部105に保持されたAMを利用し、音声入力部101からの入力音声に対して音声認識を行う。音声認識部102は、当該音声認識の結果(最終結果)を判断部103に出力する。音声認識の結果は文字列であり、当該文字列には複数のLMのうち何れかのLMを特定するIDが付されている(ステップS14、特許請求の範囲の「音声認識ステップ」に相当)。
【0046】
次に、判断部103が、音声認識部102より音声認識の結果である文字列を入力し、当該文字列に付されたIDに基づき、当該音声認識が複数のLMのうち何れのLMを用いて行われたか、つまり複数のLMのうち何れのLMが最適なLMであるかを判断する(ステップS15およびステップS16、特許請求の範囲の「判断ステップ」に相当)。
【0047】
(言語モデル特定装置100の作用及び効果)
続いて、本実施形態の言語モデル特定装置100における作用及び効果について説明する。上記のステップS14の音声認識ステップにおいては、音声認識処理の仕組みにより、仮説の中で最適な結果を音声認識処理の最終結果として出力する。つまり、第1LMを用いた場合の最適な仮説であるか、それとも第2LMを用いた場合の最適な仮説であるかに関係なく、統合LMとしての最適な仮説を音声認識処理の最終結果として出力する。これは統合LMという一つの言語モデルを用いたことによる。すなわち、1回の認識処理を行うだけで、二つのLMの候補から最適な候補が得られる。従来においては、二つのLMの候補から最適な候補を得るためには、2回の認識処理が必要であった。このように認識処理の回数を減らすことで高速化を図ることができる。
【0048】
また、本実施形態では、統合LMという第1LMおよび第2LMをまとめた一つの言語モデルを用い、更に音響モデルはAM保持部105に保持された一つの音響モデルを用いる。このことにより、音響の共通部分については、統合LMによる一括処理が行われるため、全体としての処理時間を減らすことができる。これに対し、従来においては、複数の言語モデル、つまり本実施形態における第1LMおよび第2LMによるそれぞれの認識処理がそれぞれ行われたため、第1LMおよび第2LMにおいて共通部分があったとしても、当該共通部分に対する認識処理がそれぞれ1回ずつ別個行われることとなり、結果的には、共通部分に対する認識処理が言語モデルの数だけ行われたこととなる。なお、上記の非特許文献1に開示されているように、全体の音声認識処理において類似度計算処理が占める割合は多いため、本実施形態でのように共通部分の認識処理を一括処理として1回のみに行うことにより、重複する類似度計算処理を行わずに済むこととなり、全体的な処理時間は飛躍的に短縮される。
【0049】
以上により短縮された処理時間について、実際の実験結果を用いて更に説明する。図6は、本実施形態の優れた効果を示すために行われた実験の結果を示すための図である。図6に示すように、第1LMを用いた音声認識において1回の音声認識が行われるまでかかった時間は1.59秒であり、第2LMを用いた音声認識において1回の音声認識が行われるまでかかった時間は1.31秒であった。二つの時間の合計に、2回の音声認識の結果を比較してより優れた結果を選択する処理にかかる時間X秒を足した時間が、つまり2.90秒+X秒が、従来の方法を用いて第1LMおよび第2LMのうち何れの言語モデルがより優れたものであるかを判断するための所要時間である。これに対し、本実施形態の総合LMを用いた音声認識において1回の音声認識が行われるまでかかった時間は1.62秒であった。二つの言語モデルを統合して大きい言語モデルになった分だけ1回の認識処理にかかった時間は長くなったが、第1LMおよび第2LMのうち何れの言語モデルがより優れたものであるかを判断するためのトータルの所要時間は1.62秒+X秒であるため、従来の所要時間2.90秒+X秒より遥かに短くなったことが分かる。
【0050】
なお、上記の実験で利用した音響モデルは、話し言葉工学プロジェクト(下記の参考文献1を参照)で作成された音声コーパス中の男性話者による約59時間分の音声データを用いて作成した2,000状態16混合の状態共有型triphone HMMであった。音声特徴量は、MFCCおよびMFCCとパワーの動的特徴からなる25次元のベクトル系列を用いた。また、言語モデルとしては二つの言語モデルを用いており、第1LMとしては話し言葉工学プロジェクトの講演データから作成したもの(語彙サイズ:6万語)を用い、第2LMとしては毎日新聞の記事から作成したもの(語彙サイズ:2万語)を用いた。また、評価用の入力音声は男性話者による20発話で、平均長さは2.5秒であった。
<参考文献1> 古井貞煕、前川喜久雄、井佐原均、『話し言葉工学』プロジェクトのこれまでの成果と展望、第2回話し言葉の科学と工学ワークショップ講演予稿集、pp.1-5 (2002-2)
【0051】
また、本実施形態における認識結果には、第1LMの中の単語列のみ、または第2LMの中の単語列のみになる。つまり、認識結果において、第1LMの中の単語と第2LMの中の単語が混在することはない。その理由は、上述したように、異なるIDが付与された単語間での出現確率は0またはマイナス無限大であるからである。以下に、ステップS14の認識処理の結果の一例を示す。
<ステップS14の認識処理の結果の一例>
私 が 学生 です
上記の結果は「単語名」フィールドからみた結果であり、この結果において、「読み」フィールドは以下のようになる。
<ステップS14の認識処理の結果の「読み」フィールド>
わたし-ID1 が-ID1 がくせい-ID1 です-ID1
このような認識結果の文字列が判断部103に出力されると、判断部103は「読み」フィールドに記載されたIDに基づき、ステップS14の認識処理が第1LMと第2LMのうち何れのLMを用いて行われたか、つまり第1LMと第2LMのうち何れのLMが最適なLMであるかを判断する。上記の例では、判断部103は、ステップS14の認識処理が第1LMを用いて行われ、第1LMが最適なLMであることを判断する。認識結果の「読み」フィールドに全て「ID1」のIDが付されているからである。
【0052】
(第1実施形態の変形例)
以上、本発明の第1実施形態について説明したが、本発明の第1実施形態は上記に限定されないことは言うまでもない。以下、第1実施形態の変形例について説明する。なお、既に説明した部分と重複する部分については説明を省略する。
【0053】
(第1実施形態の変形例1)
上記では、第1LMおよび第2LMの全ての単語に対しIDを付与する一例を説明したが、これに限らず、第1LMおよび第2LMにおいて共通する単語を検索し、共通する単語のみにIDを付与しても良い。この場合の言語モデル特定装置100Aの構成を図7に示す。言語モデル特定装置100Aは図1に示した言語モデル特定装置100の構成要素を全て有し、共通単語検索部114を更に備える。
【0054】
共通単語検索部114は、種々の検索方法により、第1LMおよび第2LMにおいて共通する単語を検索するものである。共通単語検索部114は、当該検索により、共通単語として検索されたものを第1ID付与部107および第2ID付与部109に出力し、共通単語でないものとして検索されたものをLM統合部106に出力する。そして、第1ID付与部107および第2ID付与部109は、上記第1実施形態にて説明した方法と同じ方法により、IDを付与する。すなわち、第1ID付与部107は第1LMからの上記共通単語の「読み」フィールドに当該第1LMを特定するための「ID1」を付与し、第2ID付与部109は第2LMからの上記共通単語の「読み」フィールドに当該第2LMを特定するための「ID2」を付与する。第1ID付与部107および第2ID付与部109は、共通単語でないものとして検索されたものについては、IDを付与しない。
【0055】
LM統合部106は、第1ID付与部107および第2ID付与部109によるID付与後の第1LMおよび第2LM、および共通単語検索部114により入力したIDが付与されていない第1LMおよび第2LMを統合して統合LMを生成する。統合LMの生成方法は上記と同様である。LM統合部106が生成した統合LMの一例を図8に示す。図8に示すように、統合LMは、複数の種類のIDが付与された、またはIDが付与されていない「読み」フィールドを含む。図8において、単語名が「学生」である単語はIDが付与されておらず、この単語は第1LMおよび第2LMのうち何れか一つのみに属する単語である。
【0056】
音声認識部102による認識結果である文字列の「読み」フィールドには、IDが付与されてないか、または1種類のIDのみが付与されている。以下にその一例を示す。
<認識結果の「読み」フィールド>
わたし-ID1 が-ID1 がくせい です
このような認識結果の文字列が判断部103に出力されると、判断部103は「読み」フィールドに記載されたIDに基づき、当該認識処理が第1LMと第2LMのうち何れのLMを用いて行われたかを判断する。上記の例では、判断部103は、当該認識処理が第1LMを用いて行われ、第1LMが最適なLMであることを判断する。認識結果の「読み」フィールドにIDが付されているならば、それは「ID1」であるからである。
【0057】
(第1実施形態の変形例2)
上記では、判断部103は、音声認識部102から出力された音声認識処理の最終結果を用いて、当該認識処理が第1LMと第2LMのうち何れのLMを用いて行われたかを判断したが、これに限らず、音声認識処理の中間結果を用いても良い。この場合に、音声認識部102は、探索空間を限定しながら当該音声認識を行い、且つ任意の探索空間における仮説を示す情報を当該音声認識の中間結果として判断部103に出力する。判断部103は、当該中間結果である仮説に、第1LMと第2LMのうち何れのLMを特定するIDのみが付されている場合に、当該音声認識が該何れのLMを用いて行われたことを判断する。
【0058】
一般に、音声認識処理では、全ての仮説を探索できないため、探索空間の限定が行われる。このときに、例えばビーム幅と呼ばれる探索におけるある時点での仮説の上限数が設定される。本実施形態の目的は、第1LMと第2LMのうちより優れた何れのLMを判定することであるため、探索の途中で生き残っている仮説の全てが、第1LMもしくは第2LMの何れか一方のLMの結果である場合には、その時点で結果の判定が可能であり、以降の認識処理を省略することができる。これにより、処理時間が更に短縮される。
【0059】
(第1実施形態の変形例3)
上記の第1実施形態の変形例2においては、音声認識の中間結果である仮説に、第1LMと第2LMのうち何れのLMを特定するIDのみが付されていることが発見された瞬間に、当該音声認識が該何れのLMを用いて行われたことを判断した。しかし、これに限らず、音声認識部102が、探索空間を限定しながら当該音声認識を行いながらも、任意の探索空間に異なるIDが付与された仮説が必ず混合されるように、当該探索空間の限定を行っても良い。このように、任意の探索空間に異なるIDが付与された仮説が必ず一つ以上混合されるようにすることで、つまり各LMからの中間結果を必ず一つ以上は仮説に残しておくことで、音声認識の精度を高めることができる。
【0060】
前述の第1実施形態の変形例2のように音声認識においては探索の途中で探索空間の限定が行われるため、場合によっては正解の仮説が探索途中で探索対象から外れてしまう恐れがある。そこで、第1LMおよび第2LMに属する仮説の何れもが、探索の何れかの段階で一定数以上または一定割合以上生き残るように仮設の数を制御することで、探索の終了時点において第1LMに属する仮説と第2LMに属する仮説が必ず一つ以上は生き残ることになるため、判定の精度を向上することができる。
【0061】
(第1実施形態の変形例4)
上記の第1実施形態の変形例2および変形例3で説明した二つの方法は、仮説の信頼度(尤度)に応じて適宜切り替えて使用するようにしても良い。
【0062】
(第1実施形態の変形例5)
上記第1実施形態においては、第1LMと第2LMとを区別するために、「読み」フィールドに「ID1」または「ID2」を付与したが、これに限られることなく、例えば「単語名」や「アルファベット表記」フィールドに「ID1」または「ID2」を付与しても良い。また、IDとしては、言語モデルを区別できれば十分であり、上記の例以外の態様であっても良い。すなわち、例えばひらがなおよびカタカナで第1LMと第2LMとを区別しても良く、第1LMおよび第2LMのうち何れか一つのみにIDを付与することにより、第1LMと第2LMとを区別しても良い。
【0063】
(第1実施形態の変形例6)
上記第1実施形態においては、第1LMおよび第2LMの二つの言語モデルの例を説明したが、これに限らず、LM統合部106が三つ以上の言語モデルを統合して統合LMを作成しても良い。
【0064】
<第2実施形態>
(音響モデル特定装置200の構成)
引き続き、本発明の第2実施形態にについて説明する。まず、本発明の第2実施形態に係る音響モデル特定装置200の構成および各構成要素の機能について、図9、図10、および図2を参照しながら説明する。図9は音響モデル特定装置200の構成概要図であり、図2はそのハードウェア構成図である。音響モデル特定装置200は、入力音声に対して音声認識を行い、当該音声認識が複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断することにより、当該複数の音響モデルのうち何れの音響モデルが最適な音響モデルであるかを判断する装置である。なお、本実施形態では、音響モデル特定装置200が保持する複数の音響モデルの数の一例として、説明の便宜上、2つの音響モデル(後述するように第1音響モデルおよび第2音響モデル)の場合について説明する。
【0065】
図2に示すように、音響モデル特定装置200は、物理的には、CPU21、ROM22及びRAM23等の主記憶装置、キーボード及びマウス等の入力デバイス24、ディスプレイ等の出力デバイス25、他の装置との間でデータの送受信を行う通信モジュール26、ハードディスク等の補助記憶装置27などを含む通常のコンピュータシステムとして構成される。後述する音響モデル特定装置200の各機能は、CPU21、ROM22、RAM23等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU21の制御の元で入力デバイス24、出力デバイス25、通信モジュール26を動作させると共に、主記憶装置22,23や補助記憶装置27におけるデータの読み出し及び書き込みを行うことで実現される。
【0066】
図9に示すように、音響モデル特定装置200は、機能的には、音声入力部201、音声認識部202(特許請求の範囲の「音声認識手段」に相当)、判断部203(特許請求の範囲の「判断手段」に相当)、統合音響モデル保持部204、変換言語モデル保持部205、音響モデル統合部206(特許請求の範囲の「統合手段」に相当)、第1ID付与部207(特許請求の範囲の「識別子付与手段」に相当)、第1音響モデル保持部208、第2ID付与部209(特許請求の範囲の「識別子付与手段」に相当)、第2音響モデル保持部210、言語モデル変換部211、および当初言語モデル保持部212を備える。なお、図面および以下の説明では、「言語モデル」を略して「LM」とも記載し、「音響モデル」を略して「AM」とも記載する。
【0067】
音声入力部201は入力音声を受信するものであり、物理的には図2に示した通信モジュール26として構成することができる。音声入力部201は入力した音声データを音声認識部202に出力する。
【0068】
音声認識部202は、統合AM保持部204に保持された統合AMおよび変換LM保持部205に保持された変換LMを利用し、音声入力部201からの入力音声に対して音声認識を行う。統合AMは、後述するように、ID(特許請求の範囲の「識別子」に相当)によって区別される複数のAMから統合された一つのAMである。音声認識部202は、音声認識の結果(最終結果)を判断部203に出力する。音声認識の結果は文字列であり、当該文字列には複数のAMのうち何れかのAMを特定するIDが付されている。
【0069】
判断部203は、音声認識部202より音声認識の結果である文字列を入力し、当該文字列に付されたIDに基づき、当該音声認識が複数のAMのうち何れのAMを用いて行われたか、つまり複数のAMのうち何れのAMが最適なAMであるかを判断するものである。なお、音声認識部202および判断部203の詳細な動作については、後述する。
【0070】
統合AM保持部204は統合AMを保持するものであり、変換LM保持部205は変換LMを保持するものである。統合AMはAM統合部206により生成され、AM統合部206は第1ID付与部207および第2ID付与部209によるID付与後の第1AMおよび第2AMを統合して統合AMを生成する。変換LM保持部205が保持する変換LMは、当初LM保持部212に保持されたLM(当初LM)をLM変換部211が変換したものである。
【0071】
以下、簡単な一例を用いて、統合AM保持部204、AM統合部206、第1ID付与部207、第1AM保持部208、第2ID付与部209、第2AM保持部210、変換LM保持部205、LM変換部211、および当初LM保持部212の機能を説明する。
【0072】
第1AM保持部208には、例えば以下に示すような表記の音素データ(特許請求の範囲の「音素特定情報」に相当)からなる第1AMが保持されている。
<第1AMの音素データ>
a、i、u、e、o、…
第2AM保持部210にも、例えば以下に示すような表記の音素データからなる第2AMが保持されている。
<第2AMの音素データ>
a、i、u、e、o、…
【0073】
第1ID付与部207が、第1AMの各音素に対し当該第1AMを特定するIDを付与し表記を変換する。表記変換後の音素の一例を以下に示す。
<表記変換後の第1AMの音素データ>
a-ID1、i-ID1、u-ID1、e-ID1、o-ID1、…
同様に、第2ID付与部209が、第2AMの各音素に対し当該第2AMを特定するIDを付与し表記を変換する。表記変換後の音素の一例を以下に示す。
<表記変換後の第2AMの音素データ>
a-ID2、i-ID2、u-ID2、e-ID2、o-ID2、…
【0074】
次に、AM統合部206が、第1ID付与部207および第2ID付与部209による表記変換後の第1AMおよび第2AMを統合して統合AMを生成する。AM統合部206が生成した統合AMに含まれる音素データの一例を以下に示す。
<統合AMの音素データ>
a-ID1、i-ID1、u-ID1、e-ID1、o-ID1、…
a-ID2、i-ID2、u-ID2、e-ID2、o-ID2、…
IDが付与され表記が変換された第1AMの中の音素(例えばa-ID1)と第2AMの中の音素(例えばa-ID2)は、統合AMの中においてはその表記が違うため、統合AMの中では異なる音素として登録される。
【0075】
次に、LM変換部211が、当初LM保持部212に保持された当初LMに対し、統合AMの表記に合わせて当該当初LMにおける単語表記を変換する。具体的には、当初LM保持部212に保持された当初LMにおける単語表記を、第1AMの表記方法と第2AMの表記方法の二種類の表記方法にあわせて変換する。その具体的な一例を以下に示す。
【0076】
すなわち、以下に示すように、当初LM保持部212に保持された当初LMに、単語名が「私」、読みが「わたし」、アルファベット表記が「w at as i」、出現確率が「0.7」の単語があったとする。
<当初LM保持部212に保持された当初LM>
単語名:「私」
読み:「わたし」
アルファベット表記:「w at as i」
出現確率:「0.7」
【0077】
これに対して、LM変換部211は、以下のように二種類の表記方法で表記を変換する。
<第1AMの表記方法にあわせた表記変換>
単語名:「私」
読み:「わたし-ID1」
アルファベット表記:「w-ID1 a-ID1 t-ID1 a-ID1 s-ID1 i-ID1」
出現確率:「0.7」
<第2AMの表記方法にあわせた表記変換>
単語名:「私」
読み:「わたし-ID2」
アルファベット表記:「w-ID2 a-ID2 t-ID2 a-ID2 s-ID2 i-ID2」
出現確率:「0.7」
【0078】
すなわち、LM変換部211は、「読み」フィールドおよび「アルファベット表記」フィールドにそれぞれのAMを特定するためのIDを付与し、当初LM保持部212に保持された一つの当初LMを二つの表記変換後のLMに複製している。なお、第1実施形態と同様に、異なるIDが付与された単語間での出現確率は0またはマイナス無限大である。つまり、uni-gram、bi-gram、tri-gramを問わず、異なるIDが付与された単語間では接続を許容しない。変換後の両LMは、元々別個のAMである第1AMおよび第2AMにあわせたものであるからである。LM変換部211はこのように作成した変換後の両LM(変換LM)を変換LM保持部205に保持させる。
【0079】
以上、本実施形態の音響モデル特定装置200における機能的な構成要素について説明した。以上の説明では、統合AM保持部204、AM統合部206、第1ID付与部207、第1AM保持部208、第2ID付与部209、第2AM保持部210、変換LM保持部205、LM変換部211、および当初LM保持部212が音響モデル特定装置200の内部に設けられた場合を説明したが、これに限られることはない。すなわち、例えば図10に示すように、統合AM保持部204、AM統合部206、第1ID付与部207、第1AM保持部208、第2ID付与部209、第2AM保持部210、変換LM保持部205、LM変換部211、および当初LM保持部212がAM統合モジュール213を構成し、音響モデル特定装置200の本体214の外部に別装置として設けられていても良い。この場合、音響モデル特定装置200の本体214とAM統合モジュール213とは通信ネットワーク215を介して通信可能に接続され、AM統合部206は、作成した統合AMを通信ネットワーク215を介して音響モデル特定装置200の本体214に送信し統合AM保持部204に保持させる。また、LM変換部211は、作成した変換後の両LMを通信ネットワーク215を介して音響モデル特定装置200の本体214に送信し変換LM保持部205に保持させる。
【0080】
(音響モデル特定装置200の動作)
続いて、音響モデル特定装置200により行われる動作(特許請求の範囲の「言語モデル特定方法」に相当)について、図11を参照しながら説明する。図11は音響モデル特定装置200により行われる動作を示すフローチャートである。
【0081】
最初に、第1ID付与部207が、第1AMに含まれた音素データに、当該第1AMを特定するIDである「ID1」を付与する。ID付与後の第1AM内の音素データを上記<表記変換後の第1AMの音素データ>に示す(ステップS21、特許請求の範囲の「識別子付与ステップ」に相当)。
【0082】
次に、第2ID付与部209が、第2AMに含まれた音素データに、当該第2AMを特定するIDである「ID2」を付与する。ID付与後の第2AM内の音素データを上記<表記変換後の第2AMの音素データ>に示す(ステップS22、特許請求の範囲の「識別子付与ステップ」に相当)。
【0083】
次に、AM統合部206が、第1ID付与部207および第2ID付与部209によるID付与後の第1AMおよび第2AMを統合して統合AMを生成する。AM統合部206が生成した統合AM内の音素データの一例を上記<統合AMの音素データ>に示す。AM統合部206は作成した統合AMを統合AM保持部204に保持させる(ステップS23、特許請求の範囲の「統合ステップ」に相当)。
【0084】
次に、音声認識部202が、統合AM保持部204に保持された統合AMおよび変換LM保持部205に保持された変換LMを利用し、音声入力部201からの入力音声に対して音声認識を行う。音声認識部202は、当該音声認識の結果(最終結果)を判断部203に出力する。音声認識の結果は文字列であり、当該文字列には複数のAMのうち何れかのAMを特定するIDが付されている(ステップS24、特許請求の範囲の「音声認識ステップ」に相当)。
【0085】
次に、判断部203が、音声認識部202より音声認識の結果である文字列を入力し、当該文字列に付されたIDに基づき、当該音声認識が複数のAMのうち何れのAMを用いて行われたか、つまり複数のAMのうち何れのAMが最適なAMであるかを判断する(ステップS25およびステップS26、特許請求の範囲の「判断ステップ」に相当)。
【0086】
(音響モデル特定装置200の動作)
続いて、本実施形態の音響モデル特定装置200における作用及び効果について説明する。上記のステップS24の音声認識ステップにおいては、音声認識処理の仕組みにより、仮説の中で最適な結果を音声認識処理の最終結果として出力する。つまり、第1AMを用いた場合の最適な仮説であるか、それとも第2AMを用いた場合の最適な仮説であるかに関係なく、統合AMとしての最適な仮説を音声認識処理の最終結果として出力する。これは統合AMという一つの音響モデルを用いたことによる。すなわち、1回の認識処理を行うだけで、二つのAMの候補から最適な候補が得られる。従来においては、二つのAMの候補から最適な候補を得るためには、2回の認識処理が必要であった。このように認識処理の回数を減らすことで高速化を図ることができる。
【0087】
また、本実施形態における認識結果には、第1AMの中の音素に対応する単語列のみ、または第2AMの中の音素に対応する単語列のみになる。つまり、認識結果において、第1AMの中の音素に対応する単語と第2AMの中の音素に対応する単語が混在することはない。その理由は、上述したように、異なるIDが付与された単語間での出現確率は0またはマイナス無限大であるからである。以下に、ステップS24の認識処理の結果の一例を示す。
<ステップS24の認識処理の結果の一例>
私 が 学生 です
上記の結果は「単語名」フィールドからみた結果であり、この結果において、「読み」フィールドは以下のようになる。
<ステップS24の認識処理の結果の「読み」フィールド>
わたし-ID1 が-ID1 がくせい-ID1 です-ID1
このような認識結果の文字列が判断部203に出力されると、判断部203は「読み」フィールドに記載されたIDに基づき、ステップS24の認識処理が第1AMと第2AMのうち何れのAMを用いて行われたか、つまり第1AMと第2AMのうち何れのAMが最適なAMであるかを判断する。上記の例では、判断部203は、ステップS24の認識処理が第1AMを用いて行われ、第1AMが最適なAMであることを判断する。認識結果の「読み」フィールドに全て「ID1」のIDが付されているからである。
【0088】
(第2実施形態の変形例)
以上、本発明の第2実施形態について説明したが、本発明の第2実施形態は上記に限定されないことは言うまでもない。以下、第2実施形態の変形例について説明する。なお、既に説明した部分と重複する部分については説明を省略する。
【0089】
(第2実施形態の変形例1)
上記の第2実施形態においては、判断部203は、音声認識部202から出力された音声認識処理の最終結果を用いて、当該認識処理が第1AMと第2AMのうち何れのAMを用いて行われたかを判断したが、これに限らず、音声認識処理の中間結果を用いても良い。この場合に、音声認識部202は、探索空間を限定しながら当該音声認識を行い、且つ任意の探索空間における仮説を示す情報を当該音声認識の中間結果として判断部203に出力する。判断部203は、当該中間結果である仮説に、第1AMと第2AMのうち何れのAMを特定するIDのみが付されている場合に、当該音声認識が該何れのAMを用いて行われたことを判断する。
【0090】
一般に、音声認識処理では、全ての仮説を探索できないため、探索空間の限定が行われる。このときに、例えばビーム幅と呼ばれる探索におけるある時点での仮説の上限数が設定される。本実施形態の目的は、第1AMと第2AMのうちより優れた何れのAMを判定することであるため、探索の途中で生き残っている仮説の全てが、第1AMもしくは第2AMの何れか一方のAMの結果である場合には、その時点で結果の判定が可能であり、以降の認識処理を省略することができる。これにより、処理時間が更に短縮される。
【0091】
(第2実施形態の変形例2)
上記の第2実施形態の変形例1においては、音声認識の中間結果である仮説に、第1AMと第2AMのうち何れのAMを特定するIDのみが付されていることが発見された瞬間に、当該音声認識が該何れのAMを用いて行われたことを判断した。しかし、これに限らず、音声認識部202が、探索空間を限定しながら当該音声認識を行いながらも、任意の探索空間に異なるIDが付与された仮説が必ず混合されるように、当該探索空間の限定を行っても良い。このように、任意の探索空間に異なるIDが付与された仮説が必ず一つ以上混合されるようにすることで、つまり各AMからの中間結果を必ず一つ以上は仮説に残しておくことで、音声認識の精度を高めることができる。
【0092】
前述の第2実施形態の変形例1のように音声認識においては探索の途中で探索空間の限定が行われるため、場合によっては正解の仮説が探索途中で探索対象から外れてしまう恐れがある。そこで、第1AMおよび第2AMに属する仮説の何れもが、探索の何れかの段階で一定数以上または一定割合以上生き残るように仮設の数を制御することで、探索の終了時点において第1AMに属する仮説と第2AMに属する仮説が必ず一つ以上は生き残ることになるため、判定の精度を向上することができる。
【0093】
(第2実施形態の変形例3)
上記の第2実施形態の変形例1および変形例2で説明した二つの方法は、仮説の信頼度(尤度)に応じて適宜切り替えて使用するようにしても良い。
【0094】
(第2実施形態の変形例4)
上記第2実施形態においては、第1AMと第2AMとを区別するために、音素の表記に「ID1」または「ID2」を付与したが、これに限られることはない。IDとしては、音響モデルを区別できれば十分であり、上記の例以外の態様であっても良い。すなわち、例えばひらがなおよびカタカナで第1AMと第2AMとを区別しても良く、第1AMおよび第2AMのうち何れか一つのみにIDを付与することにより、第1AMと第2AMとを区別しても良い。
【0095】
(第2実施形態の変形例5)
上記第2実施形態においては、第1AMおよび第2AMの二つの音響モデルの例を説明したが、これに限らず、AM統合部206が三つ以上の音響モデルを統合して統合AMを作成しても良い。
【符号の説明】
【0096】
100,100A…言語モデル特定装置、101…音声入力部、102…音声認識部、103…判断部、104…統合言語モデル保持部、105…AM保持部、106…LM統合部、107…第1ID付与部、108…第1LM保持部、109…第2ID付与部、110…第2LM保持部、111…統合モジュール、112…言語モデル特定装置100の本体、113…通信ネットワーク、114…共通単語検索部、200…音響モデル特定装置、201…音声入力部、202…音声認識部、203…判断部、204…統合AM保持部、205…変換LM保持部、206…AM統合部、207…第1ID付与部、208…第1AM保持部、209…第2ID付与部、210…第2AM保持部、211…LM変換部、212…当初LM保持部、213…統合モジュール、214…音響モデル特定装置200の本体、215…通信ネットワーク。
【特許請求の範囲】
【請求項1】
識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、
前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断手段と、
を備えることを特徴とする言語モデル特定装置。
【請求項2】
各言語モデルは単語を特定する単語特定情報を複数含み、
前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与手段と、
前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合手段と、
を更に備え、
前記音声認識手段は、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項1に記載の言語モデル特定装置。
【請求項3】
前記複数の言語モデルにおいて共通の単語を検索する共通単語検索手段を更に備え、
前記識別子付与手段は、前記共通の単語に前記各言語モデルを特定するための前記各言語モデル毎に異なる前記識別子を付与し、且つ前記共通の単語以外には前記識別子を付与しない、
ことを特徴とする請求項2に記載の言語モデル特定装置。
【請求項4】
異なる識別子が付与されている単語間における接続確率は0であることを特徴とする請求項1〜3の何れか1項に記載の言語モデル特定装置。
【請求項5】
前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間における仮説を示す情報を前記音声認識の中間結果として前記判断手段に出力し、
前記判断手段は、前記中間結果である前記仮説に、前記複数の言語モデルのうち何れの言語モデルを特定する識別子のみが付されている場合に、前記音声認識が該何れの言語モデルを用いて行われたことを判断する、
ことを特徴とする請求項1〜4の何れか1項に記載の言語モデル特定装置。
【請求項6】
前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間に異なる識別子が付与された仮説が混合されるよう前記探索空間の限定を行う、
ことを特徴とする請求項1〜4の何れか1項に記載の言語モデル特定装置。
【請求項7】
音声認識手段が、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、
判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断ステップと、
を備えることを特徴とする言語モデル特定方法。
【請求項8】
各言語モデルは単語を特定する単語特定情報を複数含み、
識別子付与手段が、前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、
統合手段が、前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合ステップと、
を更に備え、
前記音声認識ステップにおいては、前記音声認識手段が、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項7に記載の言語モデル特定方法。
【請求項9】
識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、
前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断手段と、
を備えることを特徴とする音響モデル特定装置。
【請求項10】
各音響モデルは音素を特定する音素特定情報を複数含み、
前記各音響モデルに含まれた前記音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与手段と、
前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合手段と、
を更に備え、
前記音声認識手段は、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項9に記載の音響モデル特定装置。
【請求項11】
音声認識手段が、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、
判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断ステップと、
を備えることを特徴とする音響モデル特定方法。
【請求項12】
各音響モデルは音素を特定する音素特定情報を複数含み、
識別子付与手段が、前記各音響モデルに含まれた前記複数の音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、
統合手段が、前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合ステップと、
を更に備え、
音声認識ステップにおいては、前記音声認識手段が、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項11に記載の音響モデル特定方法。
【請求項1】
識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、
前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断手段と、
を備えることを特徴とする言語モデル特定装置。
【請求項2】
各言語モデルは単語を特定する単語特定情報を複数含み、
前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与手段と、
前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合手段と、
を更に備え、
前記音声認識手段は、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項1に記載の言語モデル特定装置。
【請求項3】
前記複数の言語モデルにおいて共通の単語を検索する共通単語検索手段を更に備え、
前記識別子付与手段は、前記共通の単語に前記各言語モデルを特定するための前記各言語モデル毎に異なる前記識別子を付与し、且つ前記共通の単語以外には前記識別子を付与しない、
ことを特徴とする請求項2に記載の言語モデル特定装置。
【請求項4】
異なる識別子が付与されている単語間における接続確率は0であることを特徴とする請求項1〜3の何れか1項に記載の言語モデル特定装置。
【請求項5】
前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間における仮説を示す情報を前記音声認識の中間結果として前記判断手段に出力し、
前記判断手段は、前記中間結果である前記仮説に、前記複数の言語モデルのうち何れの言語モデルを特定する識別子のみが付されている場合に、前記音声認識が該何れの言語モデルを用いて行われたことを判断する、
ことを特徴とする請求項1〜4の何れか1項に記載の言語モデル特定装置。
【請求項6】
前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間に異なる識別子が付与された仮説が混合されるよう前記探索空間の限定を行う、
ことを特徴とする請求項1〜4の何れか1項に記載の言語モデル特定装置。
【請求項7】
音声認識手段が、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、
判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断ステップと、
を備えることを特徴とする言語モデル特定方法。
【請求項8】
各言語モデルは単語を特定する単語特定情報を複数含み、
識別子付与手段が、前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、
統合手段が、前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合ステップと、
を更に備え、
前記音声認識ステップにおいては、前記音声認識手段が、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項7に記載の言語モデル特定方法。
【請求項9】
識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、
前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断手段と、
を備えることを特徴とする音響モデル特定装置。
【請求項10】
各音響モデルは音素を特定する音素特定情報を複数含み、
前記各音響モデルに含まれた前記音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与手段と、
前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合手段と、
を更に備え、
前記音声認識手段は、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項9に記載の音響モデル特定装置。
【請求項11】
音声認識手段が、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、
判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断ステップと、
を備えることを特徴とする音響モデル特定方法。
【請求項12】
各音響モデルは音素を特定する音素特定情報を複数含み、
識別子付与手段が、前記各音響モデルに含まれた前記複数の音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、
統合手段が、前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合ステップと、
を更に備え、
音声認識ステップにおいては、前記音声認識手段が、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項11に記載の音響モデル特定方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2010−224029(P2010−224029A)
【公開日】平成22年10月7日(2010.10.7)
【国際特許分類】
【出願番号】特願2009−68629(P2009−68629)
【出願日】平成21年3月19日(2009.3.19)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【Fターム(参考)】
【公開日】平成22年10月7日(2010.10.7)
【国際特許分類】
【出願日】平成21年3月19日(2009.3.19)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【Fターム(参考)】
[ Back to top ]