言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法

【課題】短時間で最適な言語モデルを判別する。
【解決手段】言語モデル特定装置１００は、ＩＤによって区別される複数の言語モデル(LM)から統合された統合ＬＭを利用し、入力音声に対して音声認識を行う音声認識部１０２と、音声認識の結果の文字列に付されたＩＤに基づき、音声認識が複数のＬＭのうち何れのＬＭを用いて行われたかを判断する判断部１０３とを備える。好ましくは、各ＬＭに含まれた「読み」フィールドに、当該ＬＭを特定するＩＤをそれぞれ付与する第１ＩＤ付与部１０７および第２ＩＤ付与部１０９と、ＩＤが付与された「読み」フィールドを含む各ＬＭを統合し統合ＬＭを生成するＬＭ統合部１０６と、を更に備える。音声認識部１０２は、統合ＬＭを利用し入力音声に対し音声認識を行い、複数のＬＭのうち何れかのＬＭを特定するＩＤが付された文字列を音声認識の結果として判断部１０３に出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法に関するものである。
【背景技術】
【０００２】
従来、音声認識を行うために、音響モデルや言語モデルを用いた処理を行う。すなわち、言語モデルを用いて類似度計算処理の比較対象となる音素を決定し、音響モデルを用いて当該類似度計算処理を行う。なお、類似度計算処理は全体の音声認識処理における割合として多くの部分を占めており、このことは例えば非特許文献１に開示されている。
【０００３】
また、従来、例えば非特許文献２に開示されているように、複数のモデルのうち最適なモデルを判別するために、当該複数のモデルを利用し、平行に音声認識処理を行っている。つまり、従来においては、上記類似度計算処理を含む音声認識処理を判別したいモデルの数だけ行い、その音声認識結果を比較することにより、何れのモデルが最適なモデルであるかを判別している。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】李晃伸、河原達也、武田一哉、鹿野清宏、PhoneticTied-Mixtureモデルを用いた大語彙連続音声認識、情報処理学会研究報告、SLP、音声言語情報処理、pp.43-48、99-SLP-29-8
【非特許文献２】李晃伸、大語彙連続音声認識エンジンJuliusver.4、電子情報通信学会技術研究報告、SP2007-148、pp307-312、2007-12
【発明の開示】
【発明が解決しようとする課題】
【０００５】
複数のモデルのうち最適なモデルを判別するために上記のような従来技術を用いる場合には、音声認識処理を判別したいモデルの数だけ行う必要があるため、最適モデル判別処理の結果を得るまで長い時間が所要するといった問題点がある。
【０００６】
そこで、本発明は上記に鑑みてなされたもので、短時間で最適なモデルを判別することが可能な言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法を提供することを目的とする。
【課題を解決するための手段】
【０００７】
上記課題を解決するために、本発明の言語モデル特定装置は、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断手段と、を備えることを特徴とする。
【０００８】
この場合に、本発明の言語モデル特定装置は、各言語モデルは単語を特定する単語特定情報を複数含み、前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与手段と、前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合手段と、を更に備え、前記音声認識手段は、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【０００９】
また、本発明の言語モデル特定方法は、音声認識手段が、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断ステップと、を備えることを特徴とする。
【００１０】
この場合に、本発明の言語モデル特定方法は、各言語モデルは単語を特定する単語特定情報を複数含み、識別子付与手段が、前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、統合手段が、前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合ステップと、を更に備え、前記音声認識ステップにおいては、前記音声認識手段が、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【００１１】
このような本発明の言語モデル特定装置および言語モデル特定方法によれば、音声認識手段は、入力音声に対して音声認識を行う際に、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用する。そして、判断手段は、音声認識の結果である文字列に付された識別子に基づき、音声認識が複数の言語モデルのうち何れの言語モデルを用いて行われたか、つまり複数の言語モデルのうち何れの言語モデルが最適な言語モデルであるかを判断する。すなわち、複数の言語モデルのうち何れの言語モデルが最適な言語モデルであるかを判断するために、本発明では、複数の言語モデルの数だけの認識処理を複数回行い更にその結果を比較するような処理を行うことを必要とせず、統合言語モデルを利用した１回のみの認識処理で当該判断を行うことができる。従って、本発明によれば、短時間で最適な言語モデルを判別することが可能となる。
【００１２】
また、本発明の言語モデル特定装置は、前記複数の言語モデルにおいて共通の単語を検索する共通単語検索手段を更に備え、前記識別子付与手段は、前記共通の単語に前記各言語モデルを特定するための前記各言語モデル毎に異なる前記識別子を付与し、且つ前記共通の単語以外には前記識別子を付与しないことが好ましい。
【００１３】
この発明によれば、共通の単語にのみ、識別子を付与する。このため、識別子付与手段の処理負担が減るとともに、全体的に処理時間が短縮される。
【００１４】
また、本発明の言語モデル特定装置においては、異なる識別子が付与されている単語間における接続確率は０であることが好ましい。
【００１５】
異なる識別子が付与されたというのは言語モデルが異なることを意味するため、異なる言語モデル間における単語間の接続確率を０とし、異なる言語モデルに属する単語間の接続を許容しないことが好ましい。
【００１６】
また、本発明の言語モデル特定装置においては、前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間における仮説を示す情報を前記音声認識の中間結果として前記判断手段に出力し、前記判断手段は、前記中間結果である前記仮説に、前記複数の言語モデルのうち何れの言語モデルを特定する識別子のみが付されている場合に、前記音声認識が該何れの言語モデルを用いて行われたことを判断することが好ましい。
【００１７】
この場合には、音声認識の中間結果だけで、何れの言語モデルが最適な言語モデルであるかが判断できる。このため、音声認識手段の処理負担が減るとともに、全体的に処理時間が短縮される。
【００１８】
また、本発明の言語モデル特定装置においては、前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間に異なる識別子が付与された仮説が混合されるよう前記探索空間の限定を行うことが好ましい。
【００１９】
この場合には、任意の探索空間には異なる識別子が付与された仮説が必ず一つ以上混合されるようにすることで、つまり各言語モデルからの中間結果を必ず一つ以上は仮説に残しておくことで、音声認識の精度を高めることができる。
【００２０】
また、本発明の音響モデル特定装置は、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断手段と、を備えることを特徴とする。
【００２１】
この場合に、本発明の音響モデル特定装置は、各音響モデルは音素を特定する音素特定情報を複数含み、前記各音響モデルに含まれた前記音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与手段と、前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合手段と、を更に備え、前記音声認識手段は、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【００２２】
また、本発明の音響モデル特定方法は、音声認識手段が、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断ステップと、を備えることを特徴とする。
【００２３】
この場合に、本発明の音響モデル特定方法は、各音響モデルは音素を特定する音素特定情報を複数含み、識別子付与手段が、前記各音響モデルに含まれた前記複数の音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、統合手段が、前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合ステップと、を更に備え、音声認識ステップにおいては、前記音声認識手段が、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力することが好ましい。
【００２４】
このような本発明の音響モデル特定装置および音響モデル特定方法によれば、音声認識手段は、入力音声に対して音声認識を行う際に、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用する。そして、判断手段は、音声認識の結果である文字列に付された識別子に基づき、音声認識が複数の音響モデルのうち何れの音響モデルを用いて行われたか、つまり複数の音響モデルのうち何れの音響モデルが最適な音響モデルであるかを判断する。すなわち、複数の音響モデルのうち何れの音響モデルが最適な音響モデルであるかを判断するために、本発明では、複数の音響モデルの数だけの認識処理を複数回行い更にその結果を比較するような処理を行うことを必要とせず、統合音響モデルを利用した１回のみの認識処理で当該判断を行うことができる。従って、本発明によれば、短時間で最適な音響モデルを判別することが可能となる。
【発明の効果】
【００２５】
本発明によれば、短時間で最適なモデルを判別することが可能な言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法を提供することができる。
【図面の簡単な説明】
【００２６】
【図１】第１実施形態にかかる言語モデル特定装置１００の構成概要図である。
【図２】言語モデル特定装置１００および音響モデル特定装置２００のハードウェア構成図である。
【図３】統合言語モデル保持部１０４、言語モデル統合部１０６、第１ＩＤ付与部１０７、第１言語モデル保持部１０８、第２ＩＤ付与部１０９、および第２言語モデル保持部１１０の機能を説明するための図である。
【図４】言語モデル特定装置１００の他の形態を示す構成概要図である。
【図５】言語モデル特定装置１００により行われる動作を示すフローチャートである。
【図６】第１実施形態の優れた効果を示すために行われた実験の結果を示すための図である。
【図７】第１実施形態の変形例１にかかる言語モデル特定装置１００Ａの構成概要図である。
【図８】言語モデル統合部１０６が生成した統合言語モデルの一例を示す図である。
【図９】第２実施形態にかかる音響モデル特定装置２００の構成概要図である。
【図１０】音響モデル特定装置２００の他の形態を示す構成概要図である。
【図１１】音響モデル特定装置２００により行われる動作を示すフローチャートである。
【発明を実施するための最良の形態】
【００２７】
以下、添付図面を参照して本発明にかかる言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法の好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
【００２８】
＜第１実施形態＞
（言語モデル特定装置１００の構成）
まず、本発明の第１実施形態に係る言語モデル特定装置１００の構成および各構成要素の機能について、図１〜図４を参照しながら説明する。図１は言語モデル特定装置１００の構成概要図であり、図２はそのハードウェア構成図である。言語モデル特定装置１００は、入力音声に対して音声認識を行い、当該音声認識が複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断することにより、当該複数の言語モデルのうち何れの言語モデルが最適な言語モデルであるかを判断する装置である。なお、本実施形態では、言語モデル特定装置１００が保持する複数の言語モデルの数の一例として、説明の便宜上、２つの言語モデル（後述するように第１言語モデルおよび第２言語モデル）の場合について説明する。
【００２９】
図２に示すように、言語モデル特定装置１００は、物理的には、ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３等の主記憶装置、キーボード及びマウス等の入力デバイス１４、ディスプレイ等の出力デバイス１５、他の装置との間でデータの送受信を行う通信モジュール１６、ハードディスク等の補助記憶装置１７などを含む通常のコンピュータシステムとして構成される。後述する言語モデル特定装置１００の各機能は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１１の制御の元で入力デバイス１４、出力デバイス１５、通信モジュール１６を動作させると共に、主記憶装置１２，１３や補助記憶装置１７におけるデータの読み出し及び書き込みを行うことで実現される。
【００３０】
図１に示すように、言語モデル特定装置１００は、機能的には、音声入力部１０１、音声認識部１０２（特許請求の範囲の「音声認識手段」に相当）、判断部１０３（特許請求の範囲の「判断手段」に相当）、統合言語モデル保持部１０４、音響モデル保持部１０５、言語モデル統合部１０６（特許請求の範囲の「統合手段」に相当）、第１ＩＤ付与部１０７（特許請求の範囲の「識別子付与手段」に相当）、第１言語モデル保持部１０８、第２ＩＤ付与部１０９（特許請求の範囲の「識別子付与手段」に相当）、第２言語モデル保持部１１０を備える。なお、図面および以下の説明では、「言語モデル」を略して「ＬＭ」とも記載し、「音響モデル」を略して「ＡＭ」とも記載する。ＬＭはLanguage Modelの略であり、ＡＭはAcoustic Modelの略である。
【００３１】
音声入力部１０１は入力音声を受信するものであり、物理的には図２に示した通信モジュール１６として構成することができる。音声入力部１０１は入力した音声データを音声認識部１０２に出力する。
【００３２】
音声認識部１０２は、統合ＬＭ保持部１０４に保持された統合ＬＭおよびＡＭ保持部１０５に保持されたＡＭを利用し、音声入力部１０１からの入力音声に対して音声認識を行う。統合ＬＭは、後述するように、ＩＤ（特許請求の範囲の「識別子」に相当）によって区別される複数のＬＭから統合された一つのＬＭである。音声認識部１０２は、音声認識の結果（最終結果）を判断部１０３に出力する。音声認識の結果は文字列であり、当該文字列には複数のＬＭのうち何れかのＬＭを特定するＩＤが付されている。
【００３３】
判断部１０３は、音声認識部１０２より音声認識の結果である文字列を入力し、当該文字列に付されたＩＤに基づき、当該音声認識が複数のＬＭのうち何れのＬＭを用いて行われたか、つまり複数のＬＭのうち何れのＬＭが最適なＬＭであるかを判断するものである。なお、音声認識部１０２および判断部１０３の詳細な動作については、後述する。
【００３４】
統合ＬＭ保持部１０４は統合ＬＭを保持するものであり、ＡＭ保持部１０５はＡＭを保持するものである。統合ＬＭはＬＭ統合部１０６により生成され、ＬＭ統合部１０６は第１ＩＤ付与部１０７および第２ＩＤ付与部１０９によるＩＤ付与後の第１ＬＭおよび第２ＬＭを統合して統合ＬＭを生成する。
【００３５】
以下、簡単な一例を用いて、統合ＬＭ保持部１０４、ＬＭ統合部１０６、第１ＩＤ付与部１０７、第１ＬＭ保持部１０８、第２ＩＤ付与部１０９、および第２ＬＭ保持部１１０の機能を説明する。
【００３６】
第１ＬＭ保持部１０８には、例えばuni-gramが第１ＬＭとして保持されている。第１ＬＭを簡略化した一例を図３（Ａ）に示す。図３（Ａ）に示すように、第１ＬＭは少なくとも４つのフィールドを含み、各フィールドはそれぞれ「単語名」、「読み」、「アルファベット表記」、「出現確率」を表す。「単語名」、「読み」、「アルファベット表記」は、単語を特定する情報として、特許請求の範囲の「単語特定情報」に相当する。図３（Ａ）の一例は第１ＩＤ付与部１０７によるＩＤ付与前の第１ＬＭの一例であり、例えば、単語名「私」は、読みが「わたし」であり、アルファベット表記は「ｗａｔａｓｉ」であり、その出現確率は「０．７」である。第１ＩＤ付与部１０７は、第１ＬＭに含まれた「読み」フィールドに、当該第１ＬＭを特定するＩＤである「ＩＤ１」を付与する。ＩＤ付与後の第１ＬＭを図３（Ｂ）に示す。各単語の「読み」フィールドに第１ＬＭを特定するＩＤである「ＩＤ１」が付与されている。
【００３７】
同様に、第２ＬＭ保持部１１０にも、例えばuni-gramが第２ＬＭとして保持されている。第２ＬＭを簡略化した一例を図３（Ｃ）に示す。図３（Ｃ）に示すように、第２ＬＭも第１ＬＭと同様に少なくとも４つのフィールドを含み、各フィールドはそれぞれ「単語名」、「読み」、「アルファベット表記」、「出現確率」を表す。図３（Ｃ）の一例は第２ＩＤ付与部１０９によるＩＤ付与前の第２ＬＭの一例であり、例えば、単語名「私」は、読みが「わたし」であり、アルファベット表記は「ｗａｔａｓｉ」であり、その出現確率は「０．４」である。第２ＩＤ付与部１０９は、第２ＬＭに含まれた「読み」フィールドに、当該第２ＬＭを特定するＩＤである「ＩＤ２」を付与する。ＩＤ付与後の第２ＬＭを図３（Ｄ）に示す。各単語の「読み」フィールドに第２ＬＭを特定するＩＤである「ＩＤ２」が付与されている。
【００３８】
ＬＭ統合部１０６は第１ＩＤ付与部１０７および第２ＩＤ付与部１０９によるＩＤ付与後の第１ＬＭ（図３（Ｂ））および第２ＬＭ（図３（Ｄ））を統合して統合ＬＭを生成する。ＬＭ統合部１０６が生成した統合ＬＭの一例を図３（Ｅ）に示す。図３（Ｅ）に示すように、統合ＬＭは、複数の種類のＩＤが付与された「読み」フィールドを含む。つまり、統合ＬＭに属する単語の「読み」フィールドには、単語毎に異なるＩＤが付与される場合がある。ＩＤが付与された第１ＬＭの中の単語と第２ＬＭの中の単語はその表記が違うため、統合ＬＭの中では異なる単語として登録される。つまり、統合ＬＭにおいて、「読み」が「わたし-ＩＤ１」の単語と「わたし-ＩＤ２」の単語は完全に異なる単語である。また、各単語の出現確率に対し正規化を行っても良い。図３（Ｅ）はuni-gramにおいて正規化後の出現確率を示している。なお、図示はしないが、bi-gramやtri-gramを第１ＬＭおよび第２ＬＭとして用いた場合には、単語間の接続確率を含めて正規化を行うことが好ましい。
【００３９】
また、uni-gram、bi-gram、tri-gramを問わず、異なるＩＤが付与されている単語間における接続確率は０またはマイナス無限大である。つまり、例えば図３（Ｅ）のuni-gramの場合の一例において、「読み」フィールドが「が-ＩＤ１」である単語の出現確率は０．１５であるが、これはあくまでも同じＩＤである「ＩＤ１」が付与された単語間での出現確率である。つまり以前に出現した単語の読みが例えば「わたし-ＩＤ１」である場合の出現確率であり、異なるＩＤが付与された単語間での出現確率ではない。言い換えれば、uni-gram、bi-gram、tri-gramを問わず、異なるＩＤが付与された単語間では接続を許容しない。第１ＬＭおよび第２ＬＭは元々別個のＬＭであったからである。ＬＭ統合部１０６はこのように作成した統合ＬＭを統合ＬＭ保持部１０４に保持させる。
【００４０】
以上、本実施形態の言語モデル特定装置１００における機能的な構成要素について説明した。以上の説明では、ＬＭ統合部１０６、第１ＩＤ付与部１０７、第１ＬＭ保持部１０８、第２ＩＤ付与部１０９、および第２ＬＭ保持部１１０が言語モデル特定装置１００の内部に設けられた場合を説明したが、これに限られることはない。すなわち、例えば図４に示すように、ＬＭ統合部１０６、第１ＩＤ付与部１０７、第１ＬＭ保持部１０８、第２ＩＤ付与部１０９、および第２ＬＭ保持部１１０がＬＭ統合モジュール１１１を構成し、言語モデル特定装置１００の本体１１２の外部に別装置として設けられていても良い。この場合、言語モデル特定装置１００の本体１１２とＬＭ統合モジュール１１１とは通信ネットワーク１１３を介して通信可能に接続され、ＬＭ統合部１０６は、作成した統合ＬＭを通信ネットワーク１１３を介して言語モデル特定装置１００の本体１１２に送信し統合ＬＭ保持部１０４に保持させる。
【００４１】
（言語モデル特定装置１００の動作）
続いて、言語モデル特定装置１００により行われる動作（特許請求の範囲の「言語モデル特定方法」に相当）について、図５を参照しながら説明する。図５は言語モデル特定装置１００により行われる動作を示すフローチャートである。
【００４２】
最初に、第１ＩＤ付与部１０７が、第１ＬＭに含まれた「読み」フィールドに、当該第１ＬＭを特定するＩＤである「ＩＤ１」を付与する。ＩＤ付与後の第１ＬＭを図３（Ｂ）に示す（ステップＳ１１、特許請求の範囲の「識別子付与ステップ」に相当）。
【００４３】
次に、第２ＩＤ付与部１０９が、第２ＬＭに含まれた「読み」フィールドに、当該第２ＬＭを特定するＩＤである「ＩＤ２」を付与する。ＩＤ付与後の第２ＬＭを図３（Ｄ）に示す（ステップＳ１２、特許請求の範囲の「識別子付与ステップ」に相当）。
【００４４】
次に、ＬＭ統合部１０６が、第１ＩＤ付与部１０７および第２ＩＤ付与部１０９によるＩＤ付与後の第１ＬＭおよび第２ＬＭを統合して統合ＬＭを生成する。ＬＭ統合部１０６が生成した統合ＬＭの一例を図３（Ｅ）に示す。ＬＭ統合部１０６は作成した統合ＬＭを統合ＬＭ保持部１０４に保持させる（ステップＳ１３、特許請求の範囲の「統合ステップ」に相当）。
【００４５】
次に、音声認識部１０２が、統合ＬＭ保持部１０４に保持された統合ＬＭおよびＡＭ保持部１０５に保持されたＡＭを利用し、音声入力部１０１からの入力音声に対して音声認識を行う。音声認識部１０２は、当該音声認識の結果（最終結果）を判断部１０３に出力する。音声認識の結果は文字列であり、当該文字列には複数のＬＭのうち何れかのＬＭを特定するＩＤが付されている（ステップＳ１４、特許請求の範囲の「音声認識ステップ」に相当）。
【００４６】
次に、判断部１０３が、音声認識部１０２より音声認識の結果である文字列を入力し、当該文字列に付されたＩＤに基づき、当該音声認識が複数のＬＭのうち何れのＬＭを用いて行われたか、つまり複数のＬＭのうち何れのＬＭが最適なＬＭであるかを判断する（ステップＳ１５およびステップＳ１６、特許請求の範囲の「判断ステップ」に相当）。
【００４７】
（言語モデル特定装置１００の作用及び効果）
続いて、本実施形態の言語モデル特定装置１００における作用及び効果について説明する。上記のステップＳ１４の音声認識ステップにおいては、音声認識処理の仕組みにより、仮説の中で最適な結果を音声認識処理の最終結果として出力する。つまり、第１ＬＭを用いた場合の最適な仮説であるか、それとも第２ＬＭを用いた場合の最適な仮説であるかに関係なく、統合ＬＭとしての最適な仮説を音声認識処理の最終結果として出力する。これは統合ＬＭという一つの言語モデルを用いたことによる。すなわち、１回の認識処理を行うだけで、二つのＬＭの候補から最適な候補が得られる。従来においては、二つのＬＭの候補から最適な候補を得るためには、２回の認識処理が必要であった。このように認識処理の回数を減らすことで高速化を図ることができる。
【００４８】
また、本実施形態では、統合ＬＭという第１ＬＭおよび第２ＬＭをまとめた一つの言語モデルを用い、更に音響モデルはＡＭ保持部１０５に保持された一つの音響モデルを用いる。このことにより、音響の共通部分については、統合ＬＭによる一括処理が行われるため、全体としての処理時間を減らすことができる。これに対し、従来においては、複数の言語モデル、つまり本実施形態における第１ＬＭおよび第２ＬＭによるそれぞれの認識処理がそれぞれ行われたため、第１ＬＭおよび第２ＬＭにおいて共通部分があったとしても、当該共通部分に対する認識処理がそれぞれ１回ずつ別個行われることとなり、結果的には、共通部分に対する認識処理が言語モデルの数だけ行われたこととなる。なお、上記の非特許文献１に開示されているように、全体の音声認識処理において類似度計算処理が占める割合は多いため、本実施形態でのように共通部分の認識処理を一括処理として１回のみに行うことにより、重複する類似度計算処理を行わずに済むこととなり、全体的な処理時間は飛躍的に短縮される。
【００４９】
以上により短縮された処理時間について、実際の実験結果を用いて更に説明する。図６は、本実施形態の優れた効果を示すために行われた実験の結果を示すための図である。図６に示すように、第１ＬＭを用いた音声認識において１回の音声認識が行われるまでかかった時間は１．５９秒であり、第２ＬＭを用いた音声認識において１回の音声認識が行われるまでかかった時間は１．３１秒であった。二つの時間の合計に、２回の音声認識の結果を比較してより優れた結果を選択する処理にかかる時間Ｘ秒を足した時間が、つまり２．９０秒＋Ｘ秒が、従来の方法を用いて第１ＬＭおよび第２ＬＭのうち何れの言語モデルがより優れたものであるかを判断するための所要時間である。これに対し、本実施形態の総合ＬＭを用いた音声認識において１回の音声認識が行われるまでかかった時間は１．６２秒であった。二つの言語モデルを統合して大きい言語モデルになった分だけ１回の認識処理にかかった時間は長くなったが、第１ＬＭおよび第２ＬＭのうち何れの言語モデルがより優れたものであるかを判断するためのトータルの所要時間は１．６２秒＋Ｘ秒であるため、従来の所要時間２．９０秒＋Ｘ秒より遥かに短くなったことが分かる。
【００５０】
なお、上記の実験で利用した音響モデルは、話し言葉工学プロジェクト（下記の参考文献１を参照）で作成された音声コーパス中の男性話者による約５９時間分の音声データを用いて作成した２，０００状態１６混合の状態共有型triphone HMMであった。音声特徴量は、ＭＦＣＣおよびＭＦＣＣとパワーの動的特徴からなる２５次元のベクトル系列を用いた。また、言語モデルとしては二つの言語モデルを用いており、第１LMとしては話し言葉工学プロジェクトの講演データから作成したもの（語彙サイズ：6万語）を用い、第２LMとしては毎日新聞の記事から作成したもの（語彙サイズ：2万語）を用いた。また、評価用の入力音声は男性話者による２０発話で、平均長さは２．５秒であった。
＜参考文献１＞古井貞煕、前川喜久雄、井佐原均、『話し言葉工学』プロジェクトのこれまでの成果と展望、第２回話し言葉の科学と工学ワークショップ講演予稿集、pp.1-5 (2002-2)
【００５１】
また、本実施形態における認識結果には、第１ＬＭの中の単語列のみ、または第２ＬＭの中の単語列のみになる。つまり、認識結果において、第１ＬＭの中の単語と第２ＬＭの中の単語が混在することはない。その理由は、上述したように、異なるＩＤが付与された単語間での出現確率は０またはマイナス無限大であるからである。以下に、ステップＳ１４の認識処理の結果の一例を示す。
＜ステップＳ１４の認識処理の結果の一例＞
私が学生です
上記の結果は「単語名」フィールドからみた結果であり、この結果において、「読み」フィールドは以下のようになる。
＜ステップＳ１４の認識処理の結果の「読み」フィールド＞
わたし-ＩＤ１が-ＩＤ１がくせい-ＩＤ１です-ＩＤ１
このような認識結果の文字列が判断部１０３に出力されると、判断部１０３は「読み」フィールドに記載されたＩＤに基づき、ステップＳ１４の認識処理が第１ＬＭと第２ＬＭのうち何れのＬＭを用いて行われたか、つまり第１ＬＭと第２ＬＭのうち何れのＬＭが最適なＬＭであるかを判断する。上記の例では、判断部１０３は、ステップＳ１４の認識処理が第１ＬＭを用いて行われ、第１ＬＭが最適なＬＭであることを判断する。認識結果の「読み」フィールドに全て「ＩＤ１」のＩＤが付されているからである。
【００５２】
（第１実施形態の変形例）
以上、本発明の第１実施形態について説明したが、本発明の第１実施形態は上記に限定されないことは言うまでもない。以下、第１実施形態の変形例について説明する。なお、既に説明した部分と重複する部分については説明を省略する。
【００５３】
（第１実施形態の変形例１）
上記では、第１ＬＭおよび第２ＬＭの全ての単語に対しＩＤを付与する一例を説明したが、これに限らず、第１ＬＭおよび第２ＬＭにおいて共通する単語を検索し、共通する単語のみにＩＤを付与しても良い。この場合の言語モデル特定装置１００Ａの構成を図７に示す。言語モデル特定装置１００Ａは図１に示した言語モデル特定装置１００の構成要素を全て有し、共通単語検索部１１４を更に備える。
【００５４】
共通単語検索部１１４は、種々の検索方法により、第１ＬＭおよび第２ＬＭにおいて共通する単語を検索するものである。共通単語検索部１１４は、当該検索により、共通単語として検索されたものを第１ＩＤ付与部１０７および第２ＩＤ付与部１０９に出力し、共通単語でないものとして検索されたものをＬＭ統合部１０６に出力する。そして、第１ＩＤ付与部１０７および第２ＩＤ付与部１０９は、上記第１実施形態にて説明した方法と同じ方法により、ＩＤを付与する。すなわち、第１ＩＤ付与部１０７は第１ＬＭからの上記共通単語の「読み」フィールドに当該第１ＬＭを特定するための「ＩＤ１」を付与し、第２ＩＤ付与部１０９は第２ＬＭからの上記共通単語の「読み」フィールドに当該第２ＬＭを特定するための「ＩＤ２」を付与する。第１ＩＤ付与部１０７および第２ＩＤ付与部１０９は、共通単語でないものとして検索されたものについては、ＩＤを付与しない。
【００５５】
ＬＭ統合部１０６は、第１ＩＤ付与部１０７および第２ＩＤ付与部１０９によるＩＤ付与後の第１ＬＭおよび第２ＬＭ、および共通単語検索部１１４により入力したＩＤが付与されていない第１ＬＭおよび第２ＬＭを統合して統合ＬＭを生成する。統合ＬＭの生成方法は上記と同様である。ＬＭ統合部１０６が生成した統合ＬＭの一例を図８に示す。図８に示すように、統合ＬＭは、複数の種類のＩＤが付与された、またはＩＤが付与されていない「読み」フィールドを含む。図８において、単語名が「学生」である単語はＩＤが付与されておらず、この単語は第１ＬＭおよび第２ＬＭのうち何れか一つのみに属する単語である。
【００５６】
音声認識部１０２による認識結果である文字列の「読み」フィールドには、ＩＤが付与されてないか、または１種類のＩＤのみが付与されている。以下にその一例を示す。
＜認識結果の「読み」フィールド＞
わたし-ＩＤ１が-ＩＤ１がくせいです
このような認識結果の文字列が判断部１０３に出力されると、判断部１０３は「読み」フィールドに記載されたＩＤに基づき、当該認識処理が第１ＬＭと第２ＬＭのうち何れのＬＭを用いて行われたかを判断する。上記の例では、判断部１０３は、当該認識処理が第１ＬＭを用いて行われ、第１ＬＭが最適なＬＭであることを判断する。認識結果の「読み」フィールドにＩＤが付されているならば、それは「ＩＤ１」であるからである。
【００５７】
（第１実施形態の変形例２）
上記では、判断部１０３は、音声認識部１０２から出力された音声認識処理の最終結果を用いて、当該認識処理が第１ＬＭと第２ＬＭのうち何れのＬＭを用いて行われたかを判断したが、これに限らず、音声認識処理の中間結果を用いても良い。この場合に、音声認識部１０２は、探索空間を限定しながら当該音声認識を行い、且つ任意の探索空間における仮説を示す情報を当該音声認識の中間結果として判断部１０３に出力する。判断部１０３は、当該中間結果である仮説に、第１ＬＭと第２ＬＭのうち何れのＬＭを特定するＩＤのみが付されている場合に、当該音声認識が該何れのＬＭを用いて行われたことを判断する。
【００５８】
一般に、音声認識処理では、全ての仮説を探索できないため、探索空間の限定が行われる。このときに、例えばビーム幅と呼ばれる探索におけるある時点での仮説の上限数が設定される。本実施形態の目的は、第１ＬＭと第２ＬＭのうちより優れた何れのＬＭを判定することであるため、探索の途中で生き残っている仮説の全てが、第１ＬＭもしくは第２ＬＭの何れか一方のＬＭの結果である場合には、その時点で結果の判定が可能であり、以降の認識処理を省略することができる。これにより、処理時間が更に短縮される。
【００５９】
（第１実施形態の変形例３）
上記の第１実施形態の変形例２においては、音声認識の中間結果である仮説に、第１ＬＭと第２ＬＭのうち何れのＬＭを特定するＩＤのみが付されていることが発見された瞬間に、当該音声認識が該何れのＬＭを用いて行われたことを判断した。しかし、これに限らず、音声認識部１０２が、探索空間を限定しながら当該音声認識を行いながらも、任意の探索空間に異なるＩＤが付与された仮説が必ず混合されるように、当該探索空間の限定を行っても良い。このように、任意の探索空間に異なるＩＤが付与された仮説が必ず一つ以上混合されるようにすることで、つまり各ＬＭからの中間結果を必ず一つ以上は仮説に残しておくことで、音声認識の精度を高めることができる。
【００６０】
前述の第１実施形態の変形例２のように音声認識においては探索の途中で探索空間の限定が行われるため、場合によっては正解の仮説が探索途中で探索対象から外れてしまう恐れがある。そこで、第１ＬＭおよび第２ＬＭに属する仮説の何れもが、探索の何れかの段階で一定数以上または一定割合以上生き残るように仮設の数を制御することで、探索の終了時点において第１ＬＭに属する仮説と第２ＬＭに属する仮説が必ず一つ以上は生き残ることになるため、判定の精度を向上することができる。
【００６１】
（第１実施形態の変形例４）
上記の第１実施形態の変形例２および変形例３で説明した二つの方法は、仮説の信頼度（尤度）に応じて適宜切り替えて使用するようにしても良い。
【００６２】
（第１実施形態の変形例５）
上記第１実施形態においては、第１ＬＭと第２ＬＭとを区別するために、「読み」フィールドに「ＩＤ１」または「ＩＤ２」を付与したが、これに限られることなく、例えば「単語名」や「アルファベット表記」フィールドに「ＩＤ１」または「ＩＤ２」を付与しても良い。また、ＩＤとしては、言語モデルを区別できれば十分であり、上記の例以外の態様であっても良い。すなわち、例えばひらがなおよびカタカナで第１ＬＭと第２ＬＭとを区別しても良く、第１ＬＭおよび第２ＬＭのうち何れか一つのみにＩＤを付与することにより、第１ＬＭと第２ＬＭとを区別しても良い。
【００６３】
（第１実施形態の変形例６）
上記第１実施形態においては、第１ＬＭおよび第２ＬＭの二つの言語モデルの例を説明したが、これに限らず、ＬＭ統合部１０６が三つ以上の言語モデルを統合して統合ＬＭを作成しても良い。
【００６４】
＜第２実施形態＞
（音響モデル特定装置２００の構成）
引き続き、本発明の第２実施形態にについて説明する。まず、本発明の第２実施形態に係る音響モデル特定装置２００の構成および各構成要素の機能について、図９、図１０、および図２を参照しながら説明する。図９は音響モデル特定装置２００の構成概要図であり、図２はそのハードウェア構成図である。音響モデル特定装置２００は、入力音声に対して音声認識を行い、当該音声認識が複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断することにより、当該複数の音響モデルのうち何れの音響モデルが最適な音響モデルであるかを判断する装置である。なお、本実施形態では、音響モデル特定装置２００が保持する複数の音響モデルの数の一例として、説明の便宜上、２つの音響モデル（後述するように第１音響モデルおよび第２音響モデル）の場合について説明する。
【００６５】
図２に示すように、音響モデル特定装置２００は、物理的には、ＣＰＵ２１、ＲＯＭ２２及びＲＡＭ２３等の主記憶装置、キーボード及びマウス等の入力デバイス２４、ディスプレイ等の出力デバイス２５、他の装置との間でデータの送受信を行う通信モジュール２６、ハードディスク等の補助記憶装置２７などを含む通常のコンピュータシステムとして構成される。後述する音響モデル特定装置２００の各機能は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ２１の制御の元で入力デバイス２４、出力デバイス２５、通信モジュール２６を動作させると共に、主記憶装置２２，２３や補助記憶装置２７におけるデータの読み出し及び書き込みを行うことで実現される。
【００６６】
図９に示すように、音響モデル特定装置２００は、機能的には、音声入力部２０１、音声認識部２０２（特許請求の範囲の「音声認識手段」に相当）、判断部２０３（特許請求の範囲の「判断手段」に相当）、統合音響モデル保持部２０４、変換言語モデル保持部２０５、音響モデル統合部２０６（特許請求の範囲の「統合手段」に相当）、第１ＩＤ付与部２０７（特許請求の範囲の「識別子付与手段」に相当）、第１音響モデル保持部２０８、第２ＩＤ付与部２０９（特許請求の範囲の「識別子付与手段」に相当）、第２音響モデル保持部２１０、言語モデル変換部２１１、および当初言語モデル保持部２１２を備える。なお、図面および以下の説明では、「言語モデル」を略して「ＬＭ」とも記載し、「音響モデル」を略して「ＡＭ」とも記載する。
【００６７】
音声入力部２０１は入力音声を受信するものであり、物理的には図２に示した通信モジュール２６として構成することができる。音声入力部２０１は入力した音声データを音声認識部２０２に出力する。
【００６８】
音声認識部２０２は、統合ＡＭ保持部２０４に保持された統合ＡＭおよび変換ＬＭ保持部２０５に保持された変換ＬＭを利用し、音声入力部２０１からの入力音声に対して音声認識を行う。統合ＡＭは、後述するように、ＩＤ（特許請求の範囲の「識別子」に相当）によって区別される複数のＡＭから統合された一つのＡＭである。音声認識部２０２は、音声認識の結果（最終結果）を判断部２０３に出力する。音声認識の結果は文字列であり、当該文字列には複数のＡＭのうち何れかのＡＭを特定するＩＤが付されている。
【００６９】
判断部２０３は、音声認識部２０２より音声認識の結果である文字列を入力し、当該文字列に付されたＩＤに基づき、当該音声認識が複数のＡＭのうち何れのＡＭを用いて行われたか、つまり複数のＡＭのうち何れのＡＭが最適なＡＭであるかを判断するものである。なお、音声認識部２０２および判断部２０３の詳細な動作については、後述する。
【００７０】
統合ＡＭ保持部２０４は統合ＡＭを保持するものであり、変換ＬＭ保持部２０５は変換ＬＭを保持するものである。統合ＡＭはＡＭ統合部２０６により生成され、ＡＭ統合部２０６は第１ＩＤ付与部２０７および第２ＩＤ付与部２０９によるＩＤ付与後の第１ＡＭおよび第２ＡＭを統合して統合ＡＭを生成する。変換ＬＭ保持部２０５が保持する変換ＬＭは、当初ＬＭ保持部２１２に保持されたＬＭ（当初ＬＭ）をＬＭ変換部２１１が変換したものである。
【００７１】
以下、簡単な一例を用いて、統合ＡＭ保持部２０４、ＡＭ統合部２０６、第１ＩＤ付与部２０７、第１ＡＭ保持部２０８、第２ＩＤ付与部２０９、第２ＡＭ保持部２１０、変換ＬＭ保持部２０５、ＬＭ変換部２１１、および当初ＬＭ保持部２１２の機能を説明する。
【００７２】
第１ＡＭ保持部２０８には、例えば以下に示すような表記の音素データ（特許請求の範囲の「音素特定情報」に相当）からなる第１ＡＭが保持されている。
＜第１ＡＭの音素データ＞
ａ、ｉ、ｕ、ｅ、ｏ、…
第２ＡＭ保持部２１０にも、例えば以下に示すような表記の音素データからなる第２ＡＭが保持されている。
＜第２ＡＭの音素データ＞
ａ、ｉ、ｕ、ｅ、ｏ、…
【００７３】
第１ＩＤ付与部２０７が、第１ＡＭの各音素に対し当該第１ＡＭを特定するＩＤを付与し表記を変換する。表記変換後の音素の一例を以下に示す。
＜表記変換後の第１ＡＭの音素データ＞
ａ-ＩＤ１、ｉ-ＩＤ１、ｕ-ＩＤ１、ｅ-ＩＤ１、ｏ-ＩＤ１、…
同様に、第２ＩＤ付与部２０９が、第２ＡＭの各音素に対し当該第２ＡＭを特定するＩＤを付与し表記を変換する。表記変換後の音素の一例を以下に示す。
＜表記変換後の第２ＡＭの音素データ＞
ａ-ＩＤ２、ｉ-ＩＤ２、ｕ-ＩＤ２、ｅ-ＩＤ２、ｏ-ＩＤ２、…
【００７４】
次に、ＡＭ統合部２０６が、第１ＩＤ付与部２０７および第２ＩＤ付与部２０９による表記変換後の第１ＡＭおよび第２ＡＭを統合して統合ＡＭを生成する。ＡＭ統合部２０６が生成した統合ＡＭに含まれる音素データの一例を以下に示す。
＜統合ＡＭの音素データ＞
ａ-ＩＤ１、ｉ-ＩＤ１、ｕ-ＩＤ１、ｅ-ＩＤ１、ｏ-ＩＤ１、…
ａ-ＩＤ２、ｉ-ＩＤ２、ｕ-ＩＤ２、ｅ-ＩＤ２、ｏ-ＩＤ２、…
ＩＤが付与され表記が変換された第１ＡＭの中の音素（例えばａ-ＩＤ１）と第２ＡＭの中の音素（例えばａ-ＩＤ２）は、統合ＡＭの中においてはその表記が違うため、統合ＡＭの中では異なる音素として登録される。
【００７５】
次に、ＬＭ変換部２１１が、当初ＬＭ保持部２１２に保持された当初ＬＭに対し、統合ＡＭの表記に合わせて当該当初ＬＭにおける単語表記を変換する。具体的には、当初ＬＭ保持部２１２に保持された当初ＬＭにおける単語表記を、第１ＡＭの表記方法と第２ＡＭの表記方法の二種類の表記方法にあわせて変換する。その具体的な一例を以下に示す。
【００７６】
すなわち、以下に示すように、当初ＬＭ保持部２１２に保持された当初ＬＭに、単語名が「私」、読みが「わたし」、アルファベット表記が「ｗａｔａｓｉ」、出現確率が「０．７」の単語があったとする。
＜当初ＬＭ保持部２１２に保持された当初ＬＭ＞
単語名：「私」
読み：「わたし」
アルファベット表記：「ｗａｔａｓｉ」
出現確率：「０．７」
【００７７】
これに対して、ＬＭ変換部２１１は、以下のように二種類の表記方法で表記を変換する。
＜第１ＡＭの表記方法にあわせた表記変換＞
単語名：「私」
読み：「わたし-ＩＤ１」
アルファベット表記：「ｗ-ＩＤ１ａ-ＩＤ１ｔ-ＩＤ１ａ-ＩＤ１ｓ-ＩＤ１ｉ-ＩＤ１」
出現確率：「０．７」
＜第２ＡＭの表記方法にあわせた表記変換＞
単語名：「私」
読み：「わたし-ＩＤ２」
アルファベット表記：「ｗ-ＩＤ２ａ-ＩＤ２ｔ-ＩＤ２ａ-ＩＤ２ｓ-ＩＤ２ｉ-ＩＤ２」
出現確率：「０．７」
【００７８】
すなわち、ＬＭ変換部２１１は、「読み」フィールドおよび「アルファベット表記」フィールドにそれぞれのＡＭを特定するためのＩＤを付与し、当初ＬＭ保持部２１２に保持された一つの当初ＬＭを二つの表記変換後のＬＭに複製している。なお、第１実施形態と同様に、異なるＩＤが付与された単語間での出現確率は０またはマイナス無限大である。つまり、uni-gram、bi-gram、tri-gramを問わず、異なるＩＤが付与された単語間では接続を許容しない。変換後の両ＬＭは、元々別個のＡＭである第１ＡＭおよび第２ＡＭにあわせたものであるからである。ＬＭ変換部２１１はこのように作成した変換後の両ＬＭ（変換ＬＭ）を変換ＬＭ保持部２０５に保持させる。
【００７９】
以上、本実施形態の音響モデル特定装置２００における機能的な構成要素について説明した。以上の説明では、統合ＡＭ保持部２０４、ＡＭ統合部２０６、第１ＩＤ付与部２０７、第１ＡＭ保持部２０８、第２ＩＤ付与部２０９、第２ＡＭ保持部２１０、変換ＬＭ保持部２０５、ＬＭ変換部２１１、および当初ＬＭ保持部２１２が音響モデル特定装置２００の内部に設けられた場合を説明したが、これに限られることはない。すなわち、例えば図１０に示すように、統合ＡＭ保持部２０４、ＡＭ統合部２０６、第１ＩＤ付与部２０７、第１ＡＭ保持部２０８、第２ＩＤ付与部２０９、第２ＡＭ保持部２１０、変換ＬＭ保持部２０５、ＬＭ変換部２１１、および当初ＬＭ保持部２１２がＡＭ統合モジュール２１３を構成し、音響モデル特定装置２００の本体２１４の外部に別装置として設けられていても良い。この場合、音響モデル特定装置２００の本体２１４とＡＭ統合モジュール２１３とは通信ネットワーク２１５を介して通信可能に接続され、ＡＭ統合部２０６は、作成した統合ＡＭを通信ネットワーク２１５を介して音響モデル特定装置２００の本体２１４に送信し統合ＡＭ保持部２０４に保持させる。また、ＬＭ変換部２１１は、作成した変換後の両ＬＭを通信ネットワーク２１５を介して音響モデル特定装置２００の本体２１４に送信し変換ＬＭ保持部２０５に保持させる。
【００８０】
（音響モデル特定装置２００の動作）
続いて、音響モデル特定装置２００により行われる動作（特許請求の範囲の「言語モデル特定方法」に相当）について、図１１を参照しながら説明する。図１１は音響モデル特定装置２００により行われる動作を示すフローチャートである。
【００８１】
最初に、第１ＩＤ付与部２０７が、第１ＡＭに含まれた音素データに、当該第１ＡＭを特定するＩＤである「ＩＤ１」を付与する。ＩＤ付与後の第１ＡＭ内の音素データを上記＜表記変換後の第１ＡＭの音素データ＞に示す（ステップＳ２１、特許請求の範囲の「識別子付与ステップ」に相当）。
【００８２】
次に、第２ＩＤ付与部２０９が、第２ＡＭに含まれた音素データに、当該第２ＡＭを特定するＩＤである「ＩＤ２」を付与する。ＩＤ付与後の第２ＡＭ内の音素データを上記＜表記変換後の第２ＡＭの音素データ＞に示す（ステップＳ２２、特許請求の範囲の「識別子付与ステップ」に相当）。
【００８３】
次に、ＡＭ統合部２０６が、第１ＩＤ付与部２０７および第２ＩＤ付与部２０９によるＩＤ付与後の第１ＡＭおよび第２ＡＭを統合して統合ＡＭを生成する。ＡＭ統合部２０６が生成した統合ＡＭ内の音素データの一例を上記＜統合ＡＭの音素データ＞に示す。ＡＭ統合部２０６は作成した統合ＡＭを統合ＡＭ保持部２０４に保持させる（ステップＳ２３、特許請求の範囲の「統合ステップ」に相当）。
【００８４】
次に、音声認識部２０２が、統合ＡＭ保持部２０４に保持された統合ＡＭおよび変換ＬＭ保持部２０５に保持された変換ＬＭを利用し、音声入力部２０１からの入力音声に対して音声認識を行う。音声認識部２０２は、当該音声認識の結果（最終結果）を判断部２０３に出力する。音声認識の結果は文字列であり、当該文字列には複数のＡＭのうち何れかのＡＭを特定するＩＤが付されている（ステップＳ２４、特許請求の範囲の「音声認識ステップ」に相当）。
【００８５】
次に、判断部２０３が、音声認識部２０２より音声認識の結果である文字列を入力し、当該文字列に付されたＩＤに基づき、当該音声認識が複数のＡＭのうち何れのＡＭを用いて行われたか、つまり複数のＡＭのうち何れのＡＭが最適なＡＭであるかを判断する（ステップＳ２５およびステップＳ２６、特許請求の範囲の「判断ステップ」に相当）。
【００８６】
（音響モデル特定装置２００の動作）
続いて、本実施形態の音響モデル特定装置２００における作用及び効果について説明する。上記のステップＳ２４の音声認識ステップにおいては、音声認識処理の仕組みにより、仮説の中で最適な結果を音声認識処理の最終結果として出力する。つまり、第１ＡＭを用いた場合の最適な仮説であるか、それとも第２ＡＭを用いた場合の最適な仮説であるかに関係なく、統合ＡＭとしての最適な仮説を音声認識処理の最終結果として出力する。これは統合ＡＭという一つの音響モデルを用いたことによる。すなわち、１回の認識処理を行うだけで、二つのＡＭの候補から最適な候補が得られる。従来においては、二つのＡＭの候補から最適な候補を得るためには、２回の認識処理が必要であった。このように認識処理の回数を減らすことで高速化を図ることができる。
【００８７】
また、本実施形態における認識結果には、第１ＡＭの中の音素に対応する単語列のみ、または第２ＡＭの中の音素に対応する単語列のみになる。つまり、認識結果において、第１ＡＭの中の音素に対応する単語と第２ＡＭの中の音素に対応する単語が混在することはない。その理由は、上述したように、異なるＩＤが付与された単語間での出現確率は０またはマイナス無限大であるからである。以下に、ステップＳ２４の認識処理の結果の一例を示す。
＜ステップＳ２４の認識処理の結果の一例＞
私が学生です
上記の結果は「単語名」フィールドからみた結果であり、この結果において、「読み」フィールドは以下のようになる。
＜ステップＳ２４の認識処理の結果の「読み」フィールド＞
わたし-ＩＤ１が-ＩＤ１がくせい-ＩＤ１です-ＩＤ１
このような認識結果の文字列が判断部２０３に出力されると、判断部２０３は「読み」フィールドに記載されたＩＤに基づき、ステップＳ２４の認識処理が第１ＡＭと第２ＡＭのうち何れのＡＭを用いて行われたか、つまり第１ＡＭと第２ＡＭのうち何れのＡＭが最適なＡＭであるかを判断する。上記の例では、判断部２０３は、ステップＳ２４の認識処理が第１ＡＭを用いて行われ、第１ＡＭが最適なＡＭであることを判断する。認識結果の「読み」フィールドに全て「ＩＤ１」のＩＤが付されているからである。
【００８８】
（第２実施形態の変形例）
以上、本発明の第２実施形態について説明したが、本発明の第２実施形態は上記に限定されないことは言うまでもない。以下、第２実施形態の変形例について説明する。なお、既に説明した部分と重複する部分については説明を省略する。
【００８９】
（第２実施形態の変形例１）
上記の第２実施形態においては、判断部２０３は、音声認識部２０２から出力された音声認識処理の最終結果を用いて、当該認識処理が第１ＡＭと第２ＡＭのうち何れのＡＭを用いて行われたかを判断したが、これに限らず、音声認識処理の中間結果を用いても良い。この場合に、音声認識部２０２は、探索空間を限定しながら当該音声認識を行い、且つ任意の探索空間における仮説を示す情報を当該音声認識の中間結果として判断部２０３に出力する。判断部２０３は、当該中間結果である仮説に、第１ＡＭと第２ＡＭのうち何れのＡＭを特定するＩＤのみが付されている場合に、当該音声認識が該何れのＡＭを用いて行われたことを判断する。
【００９０】
一般に、音声認識処理では、全ての仮説を探索できないため、探索空間の限定が行われる。このときに、例えばビーム幅と呼ばれる探索におけるある時点での仮説の上限数が設定される。本実施形態の目的は、第１ＡＭと第２ＡＭのうちより優れた何れのＡＭを判定することであるため、探索の途中で生き残っている仮説の全てが、第１ＡＭもしくは第２ＡＭの何れか一方のＡＭの結果である場合には、その時点で結果の判定が可能であり、以降の認識処理を省略することができる。これにより、処理時間が更に短縮される。
【００９１】
（第２実施形態の変形例２）
上記の第２実施形態の変形例１においては、音声認識の中間結果である仮説に、第１ＡＭと第２ＡＭのうち何れのＡＭを特定するＩＤのみが付されていることが発見された瞬間に、当該音声認識が該何れのＡＭを用いて行われたことを判断した。しかし、これに限らず、音声認識部２０２が、探索空間を限定しながら当該音声認識を行いながらも、任意の探索空間に異なるＩＤが付与された仮説が必ず混合されるように、当該探索空間の限定を行っても良い。このように、任意の探索空間に異なるＩＤが付与された仮説が必ず一つ以上混合されるようにすることで、つまり各ＡＭからの中間結果を必ず一つ以上は仮説に残しておくことで、音声認識の精度を高めることができる。
【００９２】
前述の第２実施形態の変形例１のように音声認識においては探索の途中で探索空間の限定が行われるため、場合によっては正解の仮説が探索途中で探索対象から外れてしまう恐れがある。そこで、第１ＡＭおよび第２ＡＭに属する仮説の何れもが、探索の何れかの段階で一定数以上または一定割合以上生き残るように仮設の数を制御することで、探索の終了時点において第１ＡＭに属する仮説と第２ＡＭに属する仮説が必ず一つ以上は生き残ることになるため、判定の精度を向上することができる。
【００９３】
（第２実施形態の変形例３）
上記の第２実施形態の変形例１および変形例２で説明した二つの方法は、仮説の信頼度（尤度）に応じて適宜切り替えて使用するようにしても良い。
【００９４】
（第２実施形態の変形例４）
上記第２実施形態においては、第１ＡＭと第２ＡＭとを区別するために、音素の表記に「ＩＤ１」または「ＩＤ２」を付与したが、これに限られることはない。ＩＤとしては、音響モデルを区別できれば十分であり、上記の例以外の態様であっても良い。すなわち、例えばひらがなおよびカタカナで第１ＡＭと第２ＡＭとを区別しても良く、第１ＡＭおよび第２ＡＭのうち何れか一つのみにＩＤを付与することにより、第１ＡＭと第２ＡＭとを区別しても良い。
【００９５】
（第２実施形態の変形例５）
上記第２実施形態においては、第１ＡＭおよび第２ＡＭの二つの音響モデルの例を説明したが、これに限らず、ＡＭ統合部２０６が三つ以上の音響モデルを統合して統合ＡＭを作成しても良い。
【符号の説明】
【００９６】
１００，１００Ａ…言語モデル特定装置、１０１…音声入力部、１０２…音声認識部、１０３…判断部、１０４…統合言語モデル保持部、１０５…ＡＭ保持部、１０６…ＬＭ統合部、１０７…第１ＩＤ付与部、１０８…第１ＬＭ保持部、１０９…第２ＩＤ付与部、１１０…第２ＬＭ保持部、１１１…統合モジュール、１１２…言語モデル特定装置１００の本体、１１３…通信ネットワーク、１１４…共通単語検索部、２００…音響モデル特定装置、２０１…音声入力部、２０２…音声認識部、２０３…判断部、２０４…統合ＡＭ保持部、２０５…変換ＬＭ保持部、２０６…ＡＭ統合部、２０７…第１ＩＤ付与部、２０８…第１ＡＭ保持部、２０９…第２ＩＤ付与部、２１０…第２ＡＭ保持部、２１１…ＬＭ変換部、２１２…当初ＬＭ保持部、２１３…統合モジュール、２１４…音響モデル特定装置２００の本体、２１５…通信ネットワーク。

【特許請求の範囲】
【請求項１】
識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、
前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断手段と、
を備えることを特徴とする言語モデル特定装置。
【請求項２】
各言語モデルは単語を特定する単語特定情報を複数含み、
前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与手段と、
前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合手段と、
を更に備え、
前記音声認識手段は、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項１に記載の言語モデル特定装置。
【請求項３】
前記複数の言語モデルにおいて共通の単語を検索する共通単語検索手段を更に備え、
前記識別子付与手段は、前記共通の単語に前記各言語モデルを特定するための前記各言語モデル毎に異なる前記識別子を付与し、且つ前記共通の単語以外には前記識別子を付与しない、
ことを特徴とする請求項２に記載の言語モデル特定装置。
【請求項４】
異なる識別子が付与されている単語間における接続確率は０であることを特徴とする請求項１〜３の何れか１項に記載の言語モデル特定装置。
【請求項５】
前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間における仮説を示す情報を前記音声認識の中間結果として前記判断手段に出力し、
前記判断手段は、前記中間結果である前記仮説に、前記複数の言語モデルのうち何れの言語モデルを特定する識別子のみが付されている場合に、前記音声認識が該何れの言語モデルを用いて行われたことを判断する、
ことを特徴とする請求項１〜４の何れか１項に記載の言語モデル特定装置。
【請求項６】
前記音声認識手段は、探索空間を限定しながら前記音声認識を行い、且つ任意の探索空間に異なる識別子が付与された仮説が混合されるよう前記探索空間の限定を行う、
ことを特徴とする請求項１〜４の何れか１項に記載の言語モデル特定装置。
【請求項７】
音声認識手段が、識別子によって区別される複数の言語モデルから統合された統合言語モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、
判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の言語モデルのうち何れの言語モデルを用いて行われたかを判断する判断ステップと、
を備えることを特徴とする言語モデル特定方法。
【請求項８】
各言語モデルは単語を特定する単語特定情報を複数含み、
識別子付与手段が、前記各言語モデルに含まれた前記単語特定情報に、当該言語モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、
統合手段が、前記識別子が付与された前記単語特定情報を含む前記各言語モデルを統合し、複数の種類の識別子が付与された前記単語特定情報を含む前記統合言語モデルを生成する統合ステップと、
を更に備え、
前記音声認識ステップにおいては、前記音声認識手段が、前記統合言語モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の言語モデルのうち何れかの言語モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項７に記載の言語モデル特定方法。
【請求項９】
識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識手段と、
前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断手段と、
を備えることを特徴とする音響モデル特定装置。
【請求項１０】
各音響モデルは音素を特定する音素特定情報を複数含み、
前記各音響モデルに含まれた前記音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与手段と、
前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合手段と、
を更に備え、
前記音声認識手段は、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項９に記載の音響モデル特定装置。
【請求項１１】
音声認識手段が、識別子によって区別される複数の音響モデルから統合された統合音響モデルを利用し、入力音声に対して音声認識を行う音声認識ステップと、
判断手段が、前記音声認識の結果である文字列に付された前記識別子に基づき、前記音声認識が前記複数の音響モデルのうち何れの音響モデルを用いて行われたかを判断する判断ステップと、
を備えることを特徴とする音響モデル特定方法。
【請求項１２】
各音響モデルは音素を特定する音素特定情報を複数含み、
識別子付与手段が、前記各音響モデルに含まれた前記複数の音素特定情報に、当該音響モデルを特定する識別子をそれぞれ付与する識別子付与ステップと、
統合手段が、前記識別子が付与された前記音素特定情報を含む前記各音響モデルを統合し、複数の種類の識別子が付与された前記音素特定情報を含む前記統合音響モデルを生成する統合ステップと、
を更に備え、
音声認識ステップにおいては、前記音声認識手段が、前記統合音響モデルを利用し前記入力音声に対して前記音声認識を行い、前記複数の音響モデルのうち何れかの音響モデルを特定する識別子が付された前記文字列を前記音声認識の結果として前記判断手段に出力する、
ことを特徴とする請求項１１に記載の音響モデル特定方法。

【図１】