統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置

【課題】強い言語的制約性を単音節単語に付与することにより、少ない単語数で未知語を単音節単語の列として正しく認識するための統計的言語モデルを生成する。
【解決手段】複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段と１０１；テキスト中での各単音節単語の出現回数と、連続する複数の単音節単語の組合せ毎の出現回数とを基に、組合せ毎の出現確率を計算する計算手段１０２と；複数の単音節単語と、各単音節単語の読み種類と、組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段１２２と；を具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声認識に用いる統計的言語モデルの生成及び当該統計的言語モデルを用いた音声認識装置に関する。
【背景技術】
【０００２】
音声によって文章を入力可能な音声認識システムは、現在様々な分野で利用されている。音声認識システムでは、予め認識可能な単語（通常単語）を認識辞書中の認識語彙一覧に登録し、例えば入力音声に対する各単語の尤度を求めることにより、入力音声が認識辞書中のどの単語に該当するかを認識する。従って、認識辞書に登録されていない単語（未知語）は正しく認識されない。
【０００３】
そこで、サブワードと呼ばれる音素に相当する単音節単語を認識辞書に登録する機能が知られている。未知語であるか否かに関わらずあらゆる単語は単音節単語の羅列で表現できるから、サブワード機能を用いれば理論上全ての未知語を正しく認識できる。しかしながら、実際にはかつての音声タイプライタ技術が成功を収めず、また現在市販されている音声認識ソフトウエアにサブワード機能が搭載されていないという事実からも予想できるように、サブワード機能を用いても全ての未知語を正しく認識することは困難である。
【０００４】
ここで、音声認識システムの基本技術について説明する。音声認識システムでは認識辞書に登録された各単語に入力音声がどの程度近いかを表す音響的情報と、入力音声の認識候補となる単語を並べて作成した文がどの程度言語的（文脈的）に自然かという言語的情報の２つの情報を用いて入力音声を認識している。言語的情報を得るには、大量のコーパスと呼ばれるテキスト情報を解析し、例えば「音声」という単語の前後にどのような単語が何回出現しているかを集計して、各単語の並びの統計的な出現確率を算出する。即ち、音声認識システムでは入力音声から音響的情報に基づいて推定された単語を並べて作成した文の構成単語列の出現確率を算出することにより、認識結果の言語的制約性を利用している。
【０００５】
前述したサブワード機能の効果が低い主な理由として、単音節単語が通常の単語に比べて上記言語的制約性が緩い点が挙げられる。通常単語の一例として「音声」を考えた場合、前後に出現する単語として「錦」より「認識」、「公園」より「合成」、「親交」より「信号」のほうが有効な候補となることは感覚的に理解できるし、統計的にも正しいと予想される。このように通常の単語は前後に出現する単語との関連性を有しており、言語的（文脈的）な制約（偏り）を利用した絞込みが可能である。一方、単音節単語を考えた場合には前後に出現する単語の関連性は乏しく、上記言語的制約性を利用することは難しい。従って、音声認識システムがサブワード機能によって未知語を認識しようとする場合、上記言語的情報を利用できず主として上記音響的情報のみを利用するため未知語の正確な認識が困難となる。
【０００６】
上記問題に関して特許文献１では、サブワードの言語的制約性を強化する手法について開示されている。具体的には、特許文献１において単音節単語は品詞を示す品詞情報と単音節単語が属していた単語における語頭からの順番を示す順番数を属性情報として保持する。これにより、「異なる品詞の単音節単語は接続できない」、「順番３の単音節単語の後ろには順番４の単音節単語だけが接続する」及び「サブワード以外の通常単語の次には通常単語か順番１の単音節単語だけが接続する」といった言語的制約性を付与することが可能となる。その他、非特許文献１及び非特許文献２にも単語の構成要素中での順番を属性情報として使用する例について開示されている。
【０００７】
また、サブワードとして単漢字を用いる手法も考えられる。表形文字である漢字はそれ単独でも意味を持つため、単語ほどではないにしても言語的制約性を持つ。例えば「音」という感じの次にどのような漢字が出現しやすいかしにくいかを想像すれば明らかである。
【特許文献１】特許第３４１５５８５号公報
【非特許文献１】技術報告 SP-98-110：ＨＭＭ音韻認識における音節連鎖統計情報の利用（ATR 川端）
【非特許文献２】論文 IEIEC Trans. D-II：多空間確率分布ＨＭＭによるピッチパターン生成（東工大益子）電子情報通信学会論文誌 D-II Vol.j83-DII No.7 pp.1600-1609（2000/7）
【発明の開示】
【発明が解決しようとする課題】
【０００８】
特許文献１の手法では未知語の最大語長を例えば１０文字に設定した場合、各単音節単語は順番数によって１０種類に分類されることとなる。また品詞として普通名詞、固有名詞及び形容詞など例えば１０種類を想定するとすれば、各単音節単語は更に１０種類に分類されることとなる。従ってこの例によると、単音節単語の読みを単純に約５０個からなるひらがな１文字として考えても５０×１０×１０＝５０００語がサブワードとして必要となる。更に、実際には「きゃ」や「きょ」などの拗音は「き」とは別音節として扱われるため単音節単語の読みとしては約１００語が必要になる。従って、単音節単語として必要な単語数は更に増え、実際には１００×１０×１０＝１万語程度がサブワードとして必要となる。通常の音声認識システムでは認識辞書に登録されている単語数は５〜１０万語のため、未知語を認識するためだけのサブワードに１万語も用意することは現実的でない。
【０００９】
また、サブワードとして単漢字を用いる手法は言語的制約性強化の立場からは有効であるが、実用的な音声認識システムに利用するには適切ではない。何故なら、単漢字の種類数が非常に多いためである。単漢字はＪＩＳ第１水準及び第２水準を合わせただけでも６０００語以上有り、読みのバリエーションまで考えると１万語程度のサブワードが必要になる。
【００１０】
本発明は強い言語的制約性を単音節単語に付与することにより、少ない単語数で未知語を単音節単語の列として正しく認識するための統計的言語モデルを生成することを目的とする。
【課題を解決するための手段】
【００１１】
本発明の第１の態様に係る統計的言語モデル生成装置は、複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段と；前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と；前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と；を具備する。
【００１２】
本発明の第２の態様に係る統計的言語モデル生成装置は、複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「先頭及び末尾以外（以降「字中」と呼ぶ）」、「末尾」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と；前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と；前記複数の単音節単語と、各単音節単語の前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と；を具備する。
【００１３】
本発明の第３の実施形態に係る統計的言語モデル生成装置は、複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「字中」、「末尾」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と；前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と；前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と；を具備する。
【００１４】
本発明の第４の態様に係る音声認識装置は、（ａ）複数の単音節単語、（ｂ）各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「字中」、「末尾」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも１つ、及び（ｃ）連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶手段と；入力音声の認識候補となる複数の単音節単語列から、（ａ）各単音節単語列と前記入力音声の音響的な一致度と、（ｂ）各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識手段と；を具備する。
【発明の効果】
【００１５】
本発明によれば強い言語的制約性を単音節単語に付与することにより、少ない単語数で未知語を単音節単語の列として正しく認識するための統計的言語モデルを生成できる。
【発明を実施するための最良の形態】
【００１６】
以下、図面を参照して本発明の実施形態について説明する。
（第１の実施形態）
図１に示すように本発明の第１の実施形態に係る統計的言語モデル生成装置１００は単音節単語分割部１０１、単語出現確率計算部１０２、単漢字辞書１１１及び単音節単語辞書１１２を有する。単音節単語用統計的言語モデル生成装置１００は、学習コーパス１２１から単音節単語用統計的言語モデルを生成し、単音節単語用統計的言語モデル記憶部１２２に記録する。
【００１７】
単音節単語分割部１０１は、単漢字に区切られた学習コーパス１２１を単音節単語に分割する。本実施形態では単音節単語に言語的制約性を付与するための属性情報として単音節単語が属していた単漢字の読みの種類を示す読み種類情報を付与している。
【００１８】
以下、単漢字の読みの種類について説明する。
単漢字の読みの種類とは当該単漢字が音読み、訓読みのいずれであるかという情報である。従来、属性として用いられていた品詞情報は単語の読み（発音）との相関が殆どないため、言語的制約性をあまり強化できないと考えられる。一方、音読みまたは訓読みのいずれであるかは単語（単漢字）の読み（発音）と密接に関連している。また、例えば音読みの単漢字の前後には音読みの単漢字が出現しやすく、訓読みの単漢字が出現すること（重箱読みまたは湯桶読み）は特殊なケースである。このように、読みの種類は単漢字の持つ強い言語的制約性の１つとして捉えることができるため、読み種類情報を属性情報として単音節単語に付与することは、単音節単語の言語的制約性の強化に有効である。
【００１９】
単語出現確率計算部１０２は、単音節単語分割部１０１によって単音節単語に分割された学習コーパス１２１を参照し、各単音節単語の前後に出現する単音節単語の出現確率を計算して、単音節単語用統計的言語モデルを生成する。尚、これら単音節単語分割部１０１及び単語出現確率計算部１０２の各機能は、対応するプログラムをコンピュータに実行させることによっても実現できる。
【００２０】
学習コーパス１２１は、単音節単語分割部１０１に入力される前に予め区切りが付与され単漢字列に分割されている。この区切りは人間が手作業で付与したものでもよいし、形態素解析技術を利用してコンピュータが自動的に付与したものでもよい。また、学習コーパス１２１に区切りを付与する際に単漢字の読み情報を予め付与してもよいし、しなくてもよい。同様に上記読み種類情報についても予め付与してもよいし、しなくてもよい。これら読み情報及び読み種類情報を予め付与しない場合には、単音節単語分割部１０１がこれら情報を付与する。
【００２１】
単漢字辞書１１１は、例えば図２に示すような各単漢字に当該単漢字の読み情報及び読み種類情報を対応付ける辞書であり、例えばＲＯＭなどの記憶手段に記録されている。ここで、１つの単漢字は通常複数の読みを持つが単音節単語には全ての読み情報を反映させる必要は無く、代表的な読みだけであってもよい。以下の例では、１つの単漢字に１つの読みだけを付与する場合について説明する。単音節単語分割部１０１は、単漢字辞書１１１を参照して学習コーパス１２１中の単漢字の読み情報と読み種類情報を取得する。尚、学習コーパス１２１中の単漢字に読み情報及び読み種類情報が予め付与されている場合はこれら情報をそのまま流用してもよく、単漢字辞書１１１を用意しなくともよい。
【００２２】
単音節単語辞書１１２は、例えば図３に示すような単音節単語の表記と読み種類情報に基づいて単音節単語を網羅した辞書であり、例えばＲＯＭなどの記憶手段に記録されている。本実施形態では、単音節単語の表記を単漢字の読み情報（単音節の平仮名表記）と一致させているが、単音節単語は音声認識システムで認識する際に取り扱える単位で、かつ読み情報と対応付けられるものであればよい。例えば、単音節単語は平仮名１文字、アルファベット表記された単音節（発音音素の子音と母音を１つにまとめた文字）、または文字化した音素及び子音・母音に分割された音素片文字であってもよい。
【００２３】
次に、図４に示すフローチャート、図５及び図６を用いて図１に示す統計的言語モデル生成装置１００の動作について説明する。
まず、単音節単語分割部１０１は単漢字辞書１１１を参照して、与えられた学習コーパス１２１に含まれる単漢字の読み情報を取得すると共に、読み種類情報を取得する（ステップＳ５０１）。ここで、学習コーパス１２１として例えば図５（ａ）に示す単漢字に分割済みのテキスト「／特／許／提／案／の／受／付／期／限／は／三／月／まで／です／。／当／日／まで／に／必／ず／受／付／窓／口／へ／持／って／来／て／下／さ／い／。／」が与えられたとする。このとき、単音節単語分割部１０１は、単漢字「特」、「許」、・・・、「下」を抽出し、単漢字辞書１１１を参照することにより、「とっ（音読み）」、「きょ（音読み）」、・・・、「くだ（訓読み）」のように読み情報と読み種類情報を取得する。尚、学習コーパス１２１中の単漢字に既に読み情報及び読み種類情報が付与されている場合には本ステップＳ５０１を省略してもよい。また、本実施形態において単漢字以外の部分についてどのような処理を行うかについては言及しない。
【００２４】
次に単音節単語分割部１０１は、ステップＳ５０１にて取得した単漢字の読み情報を、実際に使用する単音節単語の表記に変換する（ステップＳ５０２）。しかしながら、本実施形態では単音節単語の表記として単音節を平仮名表記しており、単漢字の読み情報も平仮名を用いるため、本ステップＳ５０２を省略する。なおここで、単音節単語の「表記」とは、人が言葉をどう発音するかを表した文字である。そのため、この「表記」は認識結果として単音節単語の列を画面に表示する時の文字と同一である必要はない。本実施例では単音節単語の表記は平仮名であるが、例えば画面表示時にはカタカナで表記されても構わない。また、単漢字の読みと単音節単語の表記列が文字列として一致しない例外的な場合も存在する。例えば「東京（読み：とうきょう）」は日本人には一般に「とーきょー」と発声される。そのため、「とうきょう」を単音節単語列に分割すると「と」「ー（お）」「きょ」「ー（お）」に分割されることになる。なお、このような例外的な対応付けは「と」の後ろの「う」や「け」の後ろの「い」のように事前に例外規則としてリストアップすることが可能である。
【００２５】
次に単音節単語分割部１０１は、単音節単語辞書１１２を参照して単漢字の読み情報に対応する単音節単語の表記と読み種類情報から学習コーパス１２１中の単漢字部分を単音節単語に分割する（ステップＳ５０３）。学習コーパス１２１として図５（ａ）に示すテキストを用いる場合、「と（音読み）／っ（音読み）」、「きょ（音読み）」、・・・、「く（訓読み）／だ（訓読み）」のように各単漢字が単音節単語に分割される。具体的には、学習コーパス１２１中の「当日」、「必」、「持」の部分であれば、図５（ｂ）に示すように分割される。最終的に学習コーパス１２１は同図５（ｃ）に示すような単音節単語の列に分割され、当該単音節単語列が単語出現確率計算部１０２に入力される。尚、図５（ｃ）中の「音」は「音読み」、「訓」は「訓読み」を夫々示し、図６についても同様である。
【００２６】
次に、単語出現確率計算部１０２は単音節単語分割部１０１が作成した単音節単語単位に分割された学習コーパス１２１に基づいて各単音節単語の前後に出現する単音節単語の出現数を数えることにより、単音節単語の組み合わせの出現確率を計算し、単音節単語用統計的言語モデル１２２を生成して出力する（ステップＳ５０４）。
【００２７】
以下、一例として２つの単音節単語の組み合わせの出現数を数える場合について説明する。しかしながら、２単語の組み合わせに限らず３単語以上の組み合わせの出現数を数えても同様に本実施形態の効果は得られる。出現確率の計算方法は文献１（「確率モデルによる音声認識」中川聖一著電子情報通信学会 ISBN4088552-072-X）及び文献２（「音声言語処理コーパスに基づくアプローチ」北研二森北出版 ISBN40627-82380-0）に紹介されているいずれの方法を使用してもよい。
【００２８】
以下では例として条件付確率を計算する例を示す。図５に示す例において単音節単語「け（訓読み）」が与えられた際、直後に来る単音節単語を集計すると、図６（ｄ−１４）より単音節単語「き（音読み）」の出現数が１回、図６（ｄ−１５）より単音節単語「つ（訓読み）」の出現数が２回、図６（ｄ−１６）より単音節単語「ま（訓読み）」の出現数が１回となる。従って、単音節単語「け（訓読み）」が与えられた際、直後に単音節単語「き（音読み）」が出現する確率は１／４＝２５％と計算され、単音節単語「つ（訓読み）」が出現する確率は２／４＝５０％と計算され、単音節単語「ま（訓読み）」が出現する確率は１／４＝２５％と計算される。図６に示すように、他の単音節単語についても同様に直後に続く単音節単語を集計することにより条件付確率を計算することができる。また、上記例では簡単のため図５（ａ）に示す比較的短いテキストを学習コーパス１２１として用いたが、より大量のテキストを用いて学習させることによって単漢字が本来持つ強い言語的制約性（偏り）をより反映した単音節単語用統計的言語モデルを得ることが可能である。
【００２９】
以上説明したように本実施形態によれば、サブワードとして必要な単語数は基本的な単音節数を１００語とした場合、読み種類情報は２種類しかないので、１００×２＝２００語程度となる。従って、従来に比べて少ない単語数であるにも関わらず単漢字の持つ強い言語的制約性を利用することによって未知語を正しく認識することができる。
【００３０】
（第２の実施形態）
図７に示すように本発明の第２の実施形態に係る統計的言語モデル生成装置２００は、図１に示す統計的言語モデル１００において、単音節単語分割部１０１を単音節単語分割部２０１に、単音節単語辞書１１２を単音節単語辞書２１２に夫々置き換え、更に読み文字・単音節対応表２１３を新たに設けている。単音節単語用統計的言語モデル生成装置２００は、学習コーパス１２１から単音節単語用言語モデルを生成し、単音節単語用統計的言語モデル記憶部２２２に記録する。以下の説明では図７において、図１と同一部分には同一符号を付して詳細な説明を省略し、図１と異なる部分を中心に述べる。
【００３１】
単音節単語分割部２０１は、単漢字に区切られた学習コーパス１２１を単音節単語に分割する。本実施形態では単音節単語に言語的制約性を付与するための属性情報として単音節単語が属していた単漢字中における当該単音節単語の位置を示す位置情報を付与している。
【００３２】
以下、単漢字における単音節単語の位置について説明する。
本実施形態において、単音節単語の位置として「先頭」、「字中」及び「末尾」を規定している。即ち、「先頭」は各単漢字の読み文字列における先頭を意味し、「末尾」は各単漢字の読み文字列における末尾（終端）を意味し、「字中」は先頭及び末尾のいずれにも該当しないことを意味する。また、単漢字の読みが単音節の場合には当該単音節は先頭であり末尾でもあるため、位置情報として「先頭かつ末尾」と規定する。これに対して従来用いられていた順番数という概念で位置を分類しようとする場合、認識したい単語の最大長に相当する順番数を用意する必要がある。また、順番数で位置情報を規定する場合には末尾を表現することができないため、後続する単音節単語が同一の単漢字に属するのか他の単漢字に属するかを区別できない。一方、単音節単語の位置を「先頭」、「字中」、「末尾」及び「先頭かつ末尾」の４種類で分類すれば５語以上の単語長を持つ単語であっても認識することが可能であり、しかも「末尾」または「先頭かつ末尾」の位置情報によって末尾を表現することも可能である。このように末尾を表現することが可能となれば、位置情報として「先頭」または「字中」を持つ単音節単語の直後には、位置情報として「字中」または「末尾」を持つ単音節単語が出現し（同一単漢字内における言語的制約性）、位置情報として「末尾」または「先頭かつ末尾」を持つ単音節単語の直後には、通常単語または単音節単語の位置情報として「先頭」または「先頭かつ末尾」を持つ単音節単語が出現する（連続する単漢字間における言語的制約性）といった言語的制約性を利用できる。
【００３３】
単音節単語辞書２１２は、例えば図７に示すような単音節単語の表記と位置情報に基づいて単音節単語を網羅した辞書であり、例えばＲＯＭなどの記憶手段によって記録されている。本実施形態では、単音節単語としてアルファベット表記された単音節を用いているが、単音節単語は音声認識システムで認識する際に取り扱える単位で、かつ読み情報と対応付けられるものであればよい。例えば、単音節単語は平仮名１文字、仮名表記された単音節（発音音素の子音と母音を１つにまとめた文字）、または文字化した音素及び子音・母音に分割された音素片文字であってもよい。
【００３４】
読み文字・単音節対応表２１３は、例えば図９に示すような各単漢字の読み文字と単音節の表記を対応付ける表であり、例えばＲＯＭなどの記憶手段によって記録されている。本実施形態では単音節をアルファベット表記しており、単漢字の読み情報（平仮名）は読み文字・単音節対応表によって適切な表記に変換される。即ち、単音節単語分割部２０１は読み文字・単音節対応表２１３に基づいて単漢字の読み情報から単音節の表記を取得する。尚、前述した第１の実施形態のように単漢字の読み情報と単音節の表記が共に平仮名である場合など、両者が一致する場合には読み文字・単音節対応表２１３を用意しなくともよい。
【００３５】
次に、図４に示すフローチャート、図１０及び図１１を用いて図７に示す統計的言語モデル生成装置２００の動作について説明する。
まず、単音節単語分割部２０１は単漢字辞書１１１を参照して、与えられた学習コーパス１２１に含まれる単漢字の読み情報を取得する（ステップＳ５０１）。ここで、学習コーパス１２１として例えば図１０（ａ）に示す単漢字に分割済みのテキスト「／特／許／提／案／の／受／付／期／限／は／三／月／まで／です／。／当／日／まで／に／必／ず／受／付／窓／口／へ／持／って／来／て／下／さ／い／。／」が与えられたとする。このとき、単音節単語分割部２０１は、単漢字「特」、「許」、・・・、「必」、・・・、「下」を抽出し、単漢字辞書１１１を参照することにより、「とっ」「きょ」、・・・、「かなら」、・・・、「くだ」のように読み情報を取得する。尚、学習コーパス１２１中の単漢字に既に読み情報が付与されている場合には本ステップＳ５０１を省略してもよい。また、本実施形態において単漢字以外の部分についてどのような処理を行うかについては言及しない。
【００３６】
次に単音節単語分割部２０１は、ステップＳ５０１にて取得した単漢字の読み情報を、実際に使用する単音節単語の表記に変換する（ステップＳ５０２）。本実施形態において、読み情報として単音節の平仮名表記を用いており、単音節単語として単音節のアルファベット表記を用いているため、ステップＳ５０１にて取得した読み情報をこれ以降の処理に使えない。従って、単音節単語分割部２０１は読み文字・単音節対応表２１３を参照して、読み文字をアルファベット表記された単音節に適宜変換する。具体的には、単音節単語分割部２０１は読み文字・単音節対応表２１３を検索しながら読み文字列が最長一致した単音節列に変換する。
【００３７】
次に単音節単語分割部２０１は、単音節単語辞書２１２を参照して単漢字の読み情報に対応する単音節単語の表記と位置情報から学習コーパス１２１中の単漢字部分を単音節単語に分割する（ステップＳ５０３）。学習コーパス１２１として図１０（ａ）に示すテキストを用いる場合、「ＴＯ（先頭）／ｔｕ（末尾）」、「ＫＹＯ（先頭かつ末尾）」、・・・、「ＫＡ（先頭）／ＮＡ（字中）／ＲＡ（末尾）」、・・・、「ＫＵ（先頭）／ＤＡ（末尾）」のように位置情報を付与されながら、単漢字は単音節単語に分割される。具体的には、学習コーパス１２１中の「当日」、「必」、「持」の部分であれば、図１１（ｂ）に示すように分割される。学習コーパス１２１は最終的に同図１０（ｃ）に示すような単音節単語の列に分割され、当該単音節単語列が単語出現確率計算部１０２に入力される。尚、図１０（ｃ）中の「先」は「先頭」、「中」は「字中」、「末」は「末尾」、「先末」は「先頭かつ末尾」を夫々示し、図１１についても同様である。
【００３８】
次に、単語出現確率計算部１０２は単音節単語分割部２０１が作成した単音節単語単位に分割された学習コーパス１２１に基づいて各単音節単語の前後に出現する単音節単語の出現数を数えることにより、単音節単語の組み合わせの出現確率を計算し、単音節単語用統計的言語モデルを生成して出力する（ステップＳ５０４）。ここでは、一例として前述した第１の実施形態における単語出現確率計算部１０２と同様の計算に基づいて説明する。図１０に示す例において単音節単語「ＫＥ（末尾）」が与えられた際、直後に来る単音節単語を集計すると、図１１（ｅ−１４）より単音節単語「ＫＩ（先頭かつ末尾）」の出現数が１回、図１１（ｅ−１５）より単音節単語「ＴＵ（先頭）」の出現数が２回、図１１（ｅ−１６）より単音節単語「ＭＡ（先頭）」の出現数が１回となる。従って、単音節単語「ＫＥ（末尾）」が与えられた際、直後に単音節単語「ＫＩ（先頭かつ末尾）」が出現する確率は１／４＝２５％と計算され、単音節単語「ＴＵ（先頭）」が出現する確率は２／４＝５０％と計算され、単音節単語「ＭＡ（先頭）」が出現する確率は１／４＝２５％と計算される。図１１に示すように、他の単音節単語についても同様に直後に続く単音節単語を集計することにより条件付確率を計算することができる。また、上記例では簡単のため図１０（ａ）に示す比較的短いテキストを学習コーパス１２１として用いたが、より大量のテキストを用いて学習させることによって単漢字が本来持つ強い言語的制約性（偏り）をより反映した単音節単語用統計的言語モデルを得ることが可能である。
【００３９】
以上説明したように本実施形態によれば、サブワードとして必要な単語数は基本的な単音節数を１００語とした場合、位置情報は４種類しかないので、１００×４＝４００語程度となる。従って、従来に比べて少ない単語数であるにも関わらず単漢字の持つ強い言語的制約性を利用することによって未知語を正しく認識することができる。
【００４０】
（第３の実施形態）
本発明の第３の実施形態に係る統計的言語モデル生成装置３００は、図１に示す統計的言語モデル１００において、単音節単語分割部１０１を単音節単語分割部３０１に、単音節単語辞書１１２を単音節単語辞書３１２に夫々置き換えている。単音節単語用統計的言語モデル生成装置３００は、学習コーパス１２１から単音節単語用言語モデルを生成し、単音節単語用統計的言語モデル記憶部３２２に記録する。以下の説明では図１と同一部分には同一符号を付して詳細な説明を省略し、図１と異なる部分を中心に述べる。
【００４１】
単音節単語分割部３０１は、単漢字に区切られた学習コーパス１２１を単音節単語に分割する。本実施形態では単音節単語に言語的制約性を付与するための属性情報として前述した読み種類情報及び位置情報を付与している。
【００４２】
単音節単語辞書３１２は、例えば図１２に示すような単音節単語の表記、読み種類情報及び位置情報に基づいて単音節単語を網羅した辞書であり、例えばＲＯＭなどの記憶手段によって記録されている。本実施形態では、単音節単語の表記を単漢字の読み情報（単音節の平仮名表記）と一致させているが、単音節単語は音声認識システムで認識する際に取り扱える単位で、かつ読み情報と対応付けられるものであればよい。例えば、単音節単語は平仮名１文字、アルファベット表記された単音節（発音音素の子音と母音を１つにまとめた文字）、または文字化した音素及び子音・母音に分割された音素片文字であってもよい。
【００４３】
次に、図４に示すフローチャート、図１３及び図１４を用いて本実施形態に係る統計的言語モデル生成装置３００の動作について説明する。
まず、単音節単語分割部３０１は単漢字辞書１１１を参照して、与えられた学習コーパス１２１に含まれる単漢字の読み情報を取得すると共に、読み種類情報を取得する（ステップＳ５０１）。ここで、学習コーパス１２１として例えば図１３（ａ）に示す単漢字に分割済みのテキスト「／特／許／提／案／の／受／付／期／限／は／三／月／まで／です／。／当／日／まで／に／必／ず／受／付／窓／口／へ／持／って／来／て／下／さ／い／。／」が与えられたとする。このとき、単音節単語分割部３０１は、単漢字「特」、「許」、・・・、「必」、・・・、「下」を抽出し、単漢字辞書１１１を参照することにより、「とっ（音読み）」「きょ（音読み）」、・・・、「かなら（訓読み）」、・・・、「くだ（訓読み）」のように読み情報及び読み種類情報を取得する。尚、学習コーパス１２１中の単漢字に既に読み情報及び位置情報が付与されている場合には本ステップＳ５０１を省略してもよい。また、本実施形態において単漢字以外の部分についてどのような処理を行うかについては言及しない。
【００４４】
次に単音節単語分割部３０１は、ステップＳ５０１にて取得した単漢字の読み情報を、実際に使用する単音節単語の表記に変換する（ステップＳ５０２）。しかしながら、本実施形態では単音節単語の表記として単音節を平仮名表記しているが、単漢字の読み情報も平仮名であるため、本ステップＳ５０２を省略する。
【００４５】
次に単音節単語分割部３０１は、単音節単語辞書１１２を参照して単漢字の読み情報に対応する単音節単語の表記、読み種類情報及び位置情報から学習コーパス１２１中の単漢字部分を単音節単語に分割する（ステップＳ５０３）。学習コーパス１２１として図１３（ａ）に示すテキストを用いる場合、「と（音読み・先頭）／っ（音読み・末尾）」、「きょ（音読み・先頭かつ末尾）」、・・・、「か（訓読み・先頭）／な（訓読み・字中）／ら（訓読み・末尾）」、・・・、「く（訓読み・先頭）／だ（訓読み・末尾）」のように位置情報を付与されながら、単漢字は単音節単語に分割される。具体的には、学習コーパス１２１中の「当日」、「必」、「持」の部分であれば、図１１（ｂ）に示すように分割される。学習コーパス１２１は最終的に同図１３（ｃ）に示すような単音節単語の列に分割され、当該単音節単語列が単語出現確率計算部１０２に入力される。尚、図１３（ｃ）中の「音」は「音読み」、「訓」は「訓読み」、「先」は「先頭」、「中」は「字中」、「末」は「末尾」、「先末」は「先頭かつ末尾」を夫々示し、図１４についても同様である。
【００４６】
次に、単語出現確率計算部１０２は単音節単語分割部３０１が作成した単音節単語単位に分割された学習コーパス１２１に基づいて各単音節単語の前後に出現する単音節単語の出現数を数えることにより、単音節単語の組み合わせの出現確率を計算し、単音節単語用統計的言語モデルを生成して出力する（ステップＳ５０４）。ここでは、一例として前述した第１の実施形態における単語出現確率計算部１０２と同様の計算に基づいて説明する。図１３に示す例において単音節単語「け（訓読み・末尾）」が与えられた際、直後に来る単音節単語を集計すると、図１３（ｆ−１４）より単音節単語「き（音読み・先頭かつ末尾）」の出現数が１回、図１３（ｆ−１５）より単音節単語「つ（訓読み・先頭）」の出現数が２回、図６（ｆ−１６）より単音節単語「ま（訓読み・先頭）」の出現数が１回となる。従って、単音節単語「け（訓読み・末尾）」が与えられた際、直後に単音節単語「き（音読み・先頭かつ末尾）」が出現する確率は１／４＝２５％と計算され、単音節単語「つ（訓読み・先頭）」が出現する確率は２／４＝５０％と計算され、単音節単語「ま（訓読み・先頭）」が出現する確率は１／４＝２５％と計算される。図１４に示すように、他の単音節単語についても同様に直後に続く単音節単語を集計することにより条件付確率を計算することができる。また、上記例では簡単のため図１３（ａ）に示す比較的短いテキストを学習コーパス１２１として用いたが、より大量のテキストを用いて学習させることによって単漢字が本来持つ強い言語的制約性（偏り）をより反映した単音節単語用統計的言語モデルを得ることが可能である。
【００４７】
以上説明したように本実施形態によれば、サブワードとして必要な単語数は基本的な単音節数を１００語とした場合、読み種類情報は２種類、位置情報は４種類しかないので、１００×２×４＝８００語程度となる。従って、従来に比べて少ない単語数であるにも関わらず単漢字の持つ強い言語的制約性を利用することによって未知語を正しく認識することができる。
【００４８】
（第４の実施形態）
図１５に示すように本発明の第４の実施形態に係る音声認識装置４００は、音声入力部４０１、音声認識部４０２、単音節単語辞書４１１、単音節単語用統計的言語モデル４１２、通常単語辞書４１３、通常単語用統計的言語モデル４１４及び音響モデル４１５を有する。
【００４９】
音声入力部４０１は、ユーザ４２１からの入力音声を受け取り、一定の時間間隔（例えば１０ｍｓｅｃなど）のフレーム単位ごとにマッチング処理に適した音響的な特徴量（入力音声データ）に変換する。なお、ユーザの音声を入力する方法は特に限定しない。認識対象の音声をマイクロホン経由で音声入力部３０１へ入力してもよいし、音声を記録手段によって一旦記憶媒体に保存し、保存された音声データを音声入力部３０１へデジタル信号として入力してもよい。
【００５０】
音声認識部４０２は、音声入力部３０１からフレーム単位で入力された入力音声データを取得し、音響モデル４１５を使用して入力音声データと認識対象の全音素との一致度（音響スコア）を計算する。同時に、音声認識部４０２は通常単語辞書４１３及び単音節単語辞書４１１を用いて入力音素列が認識対象語彙のどの単語と完全一致または部分一致するかを判定する。音声認識部４０２は当該判定結果に基づいて、通常単語用統計的言語モデル４１４及び単音節単語用統計的言語モデル４１２を用いて入力音素列の言語的な妥当性（言語スコア）を計算する。音声認識部４０２は、音響スコアと言語スコアの累積値に基づいてパターンマッチングの探索を発声終端に到達するまで繰り返し、当該累積値の最も高い単語列を認識結果４２２として出力する。尚、これら音声入力部４０１及び音声認識部４０２の各機能は、対応するプログラムをコンピュータに実行させることによっても実現できる。
【００５１】
単音節単語辞書４１１及び単音節単語用統計的言語モデル記憶部４１２は、前述した各実施形態に対応する単音節単語辞書１１２、２１２、３１２及び単音節単語用統計的言語モデル記憶部１２２、２２２、３２２のいずれか１組を用いる。以下では単音節単語辞書１１２及び単音節単語用統計的言語モデル記憶部１２２を用いた例について説明している。
【００５２】
通常単語辞書４１３及び通常単語用統計的言語モデル４１４は音声認識装置４００で使用できるものであればよい。また、音響モデル４１５も同様に音声認識装置４００で使用できるものであればよく、例えば先に挙げた文献１、２に紹介されている方法によって作成できる。また、現在市販されている音声認識システムではＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）技術が一般的に利用されている。
【００５３】
以下、図１６及び図１７を用いて本実施形態に係る音声認識装置４００の動作について説明する。
図１６は「とっきょ」という音声が入力されたときの音声認識部４０２の動作の様子を示している。図１６では音素の認識の様子を理解しやすいように木構造で示している。連続音声認識システムは音声認識された結果を履歴として保存し、文脈を考慮して各単語の言語的な出現のしやすさ（妥当性）を計算している。図１７ではこの文脈を「先行単語」として表現している。なお、本例では先行単語は直前の１単語だが、直前の複数単語の履歴であってもかまわない。まず、最初の発声では先行単語は存在しないので例えば「文頭」にどのような単語が出現しやすいかを表すための<文頭>という特別な単語で代用する。音声認識部４０２は音声データが入力されると、まず音響モデル４１５に基づいて各音素との一致度（音響スコア）を計算する。ここでは、「と」が入力されているので「と」の音素やそれと発音が似ている「の」や「そ」などの音響スコアが高いという結果になる。また同時に音声認識部４０２は、「と」、「の」、「そ」が文頭にどのくらい言語的に出現しやすいか（言語スコア）も計算する。例えば「と」が文頭に出現することの言語的妥当性は「と」で始まる全単語の文頭での出現確率の平均を単語の平均音素長で割るなどして計算される。音声認識部４０２はこの音響スコアと言語スコアの値から「と」、「そ」、「の」のいずれが入力されたかを判定する。ここでは結果的に「と」が選択されたとする。次に、音声認識部４０２は「と」を１文字で構成される単語を通常単語辞書４１３から検索する。ここでは「と（助詞）」、「都（名詞）」の２単語が通常単語辞書４１３中に存在したとする。また、音声認識部４０２は同時に単音節単語辞書４１１を検索する。ここでは「と（音節：音読み）」、「と（音節：訓読み）」の２単語が単音節単語辞書４１１中に存在したとする。このような単語が存在する場合には、音声認識部４０２は検索された単語を先行単語のＷ０に設定し直して図１６の木構造の先端から音声認識処理を繰り返す。
【００５４】
また、前述した検索の際に「と」を部分文字列として含む単語が単音節単語辞書４１１または通常単語辞書４１３に存在する時には「と」に継続する音素列の言語的妥当性を引き続き計算する。本例では「と」の次の入力は「っ」なので、「と」に継続する音素候補の中で「っ」や「つ」が認識結果候補になる。ここで「っ」を終端とする単語がないとすれば、音声認識部４０２は「とっ」に継続する音素列の言語的妥当性を計算する。本例では「っ」の次の入力は「きょ」なので音響的に近い「き」や「きゃ」が認識候補になる。そして、夫々を終端とする「特記（とっき）」や「特許（とっきょ）」が認識候補とされる。ここで、「とっき」や「とっきょ」を発音の先頭部分の部分文字列として含む単語が検索できなければ、この木構造の形の認識候補の探索は終了する。次に、音声認識部４０２は今回認識候補として検出された「特記」「特許」を先行単語とする木構造の先端から改めて探索繰り返す。
【００５５】
探索が入力音声の発声終端位置に到達すると、それまでに検出された単語の組み合わせ列が認識結果候補単語系列となる。そして、各認識結果候補単語列に含まれる各認識結果候補単語の音響スコアと言語スコアの累積値がもっとも大きな認識結果候補単語列が第１位の認識結果４２２となる。図１２の例では「特許」という単独の単語が音響スコア（ａｓ）と言語スコア（ｌｓ）の和が−３３００で最も大きな値になるため、「特許」が第１位の認識結果４２２として出力される。なお、通常単語用辞書４１３に「特許」という単語が存在しない時には、「と（音節：音読み）、っ（音節：音読み）、きょ（音節：音読み）」という認識結果候補単語列のスコアの累積値が−３９００で最も大きな値になるため、「と（音節：音読み）、っ（音節：音読み）、きょ（音節：音読み）」が第１位の音声認識結果４２２となる。従って「特許」という単語が通常単語用辞書４１３に無い時に、従来であれば「特記よ」（累積値：−６４００）を認識結果４２２とする誤認識をしていたが、単音節単語用統計的言語モデル４１２を用いることにより「とっきょ」という音読みの単語を認識結果４２２として出力することができる。
【００５６】
音声認識装置４００は単音節単語用統計的言語モデル４１２を用いることにより、前述した読み種類情報や位置情報といった単漢字の持つ言語的制約性に関する情報を利用しているため、未知語であっても単音節単語の列として精度良く認識できる。例えば、図１７では助詞の「と」の後ろには音読みの「つ」は出現しにくいという情報（ｇ００８）があるために「と（助詞）、つ（音節：音読み）、きょ（音節：音読み）」という誤った単語系列を生成することを回避できる。もし、読み種類の区別なく「と」と「つ」のつながりやすさを計算してしまうと、「と（助詞）」に後続する「つ（音節）」は訓読みの「つ」の影響で本来よりも出現しやいと判定されてしまう。このように読み種類情報や位置情報などを付与せずに単音節単語のみによる認識を行おうとすると、出現頻度の低いつながりを高いと誤認したり、出現頻度の高いつながりを低いと誤認したりするため、正確な認識を期待できない。
【００５７】
なお、本実施形態は音声認識の具体的な処理方式に関して上記に限定されるものではない。先に挙げた文献２に紹介されている他の方法を使用してもかまわない。例えば、複数の単語を連続的に音声入力された場合の音声認識の一般的な方法について文献２の７１ページ以降で解説されている。
【００５８】
以上説明したように本実施形態では、前述した第１乃至第３の実施形態で作成した単音節単語用統計的言語モデルを用いるため、通常単語用辞書に登録されていない未知語を単音節単語の列として正しく認識することができる。
【００５９】
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
【００６０】
その一例として例えば、上記実施の形態では漢字以外の部分に関しては属性情報を付与しない例について説明した。しかしながら、漢字以外の部分について「助詞」などの品詞情報が付与されていてもよい。品詞情報が付与されている場合は、出現確率を計算する際に当該品詞情報を使用することが可能である。即ち、出現確率を計算する際に、例えば平仮名の「の」であれば「助詞の『の』」と「名詞の『の』」を区別して取り扱う。
【００６１】
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
【図面の簡単な説明】
【００６２】
【図１】本発明の第１の実施形態に係る統計的言語モデル生成装置１００を示すブロック図。
【図２】図１に示す単漢字辞書１１１の一例を示す図。
【図３】図１に示す単音節単語辞書１１２の一例を示す図。
【図４】図１に示す統計的言語モデル生成装置１００の動作を示すフローチャート。
【図５】（ａ）図１に示す単音節単語分割部１０１に入力される学習コーパス１２１の一例を示す図。（ｂ）単音節単語分割部１０１による（ａ）に示す学習コーパス１２１の分割例の一部を示す図。（ｃ）単音節単語分割部１０１によって（ａ）に示す学習コーパス１２１から最終的に分割される単音節単語列を示す図。
【図６】図５（ｃ）に示す単音節単語列から抽出可能な２つの単音節単語の組み合わせの出現数の集計結果を示す図。
【図７】本発明の第２の実施形態に係る統計的言語モデル生成装置２００を示すブロック図。
【図８】図７に示す単音節単語辞書２１２の一例を示す図。
【図９】図７に示す読み文字・単音節対応表２１３の一例を示す図。
【図１０】（ａ）図７に示す単音節単語分割部２０１に入力される学習コーパス１２１の一例を示す図。（ｂ）単音節単語分割部２０１による（ａ）に示す学習コーパス１２１の分割例の一部を示す図。（ｃ）単音節単語分割部２０１によって（ａ）に示す学習コーパス１２１から最終的に分割される単音節単語列を示す図。
【図１１】図１０（ｃ）に示す単音節単語列から抽出可能な２つの単音節単語の組み合わせの出現数の集計結果を示す図。
【図１２】本発明の第３の実施形態に係る統計的言語モデル生成装置３００中の単音節単語辞書３１３の一例を示す図。
【図１３】（ａ）本発明の第３の実施形態に係る統計的言語モデル生成装置３００中の単音節単語分割部３０１に入力される学習コーパス１２１の一例を示す図。（ｂ）単音節単語分割部３０１による（ａ）に示す学習コーパス１２１の分割例の一部を示す図。（ｃ）単音節単語分割部３０１によって（ａ）に示す学習コーパス１２１から最終的に分割される単音節単語列を示す図。
【図１４】図１３（ｃ）に示す単音節単語列から抽出可能な２つの単音節単語の組み合わせの出現数の集計結果を示す図。
【図１５】本発明の第４の実施形態に係る音声認識装置４００を示すブロック図。
【図１６】図１５に示す音声認識部４０２の動作例を示す図。
【図１７】図１５に示す音声認識部４０２で用いる単語表と言語スコアの一例を示す図。
【符号の説明】
【００６３】
１００・・・統計的言語モデル生成装置
１０１・・・単音節単語分割部
１０２・・・単語出現確率計算部
１１１・・・単漢字辞書
１１２・・・単音節単語辞書
１２１・・・学習コーパス
１２２・・・単音節単語用統計的言語モデル記憶部
２００・・・統計的言語モデル生成装置
２０１・・・単音節単語分割部
２１２・・・単音節単語辞書
２１３・・・読み文字・単音節対応表
２２２・・・単音節単語用統計的言語モデル記憶部
３００・・・統計的言語モデル生成装置
３１２・・・単音節単語辞書
３２２・・・単音節単語用統計的言語モデル記憶部
４００・・・音声認識装置
４０１・・・音声入力部
４０２・・・音声認識部
４１１・・・単音節単語辞書
４１２・・・単音節単語用統計的言語モデル
４１３・・・通常単語辞書
４１４・・・通常単語用統計的言語モデル
４１５・・・音響モデル
４２１・・・ユーザ
４２２・・・認識結果

【特許請求の範囲】
【請求項１】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と、
を具備することを特徴とする統計的言語モデル生成装置。
【請求項２】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と、
を具備することを特徴とする統計的言語モデル生成装置。
【請求項３】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と、
を具備することを特徴とする統計的言語モデル生成装置。
【請求項４】
前記統計的言語モデルに含まれる前記単音節単語の表記は仮名表記であることを特徴とする請求項１乃至３いずれか１項記載の統計的言語モデル生成装置。
【請求項５】
前記統計的言語モデルに含まれる前記単音節単語の表記はアルファベット表記であることを特徴とする請求項１乃至３いずれか１項記載の統計的言語モデル生成装置。
【請求項６】
（ａ）複数の単音節単語、（ｂ）各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも１つ、及び（ｃ）連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶手段と、
入力音声の認識候補となる複数の単音節単語列から、（ａ）各単音節単語列と前記入力音声の音響的な一致度と、（ｂ）各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識手段と、
を具備したことを特徴とする音声認識装置。
【請求項７】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求めるステップと、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算ステップと、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶ステップと、
を具備することを特徴とする統計的言語モデル生成方法。
【請求項８】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求めるステップと、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算ステップと、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶ステップと、
を具備することを特徴とする統計的言語モデル生成方法。
【請求項９】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求めるステップと、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算ステップと、
前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶ステップと、
を具備することを特徴とする統計的言語モデル生成方法。
【請求項１０】
（ａ）複数の単音節単語、（ｂ）各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも１つ、及び（ｃ）連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶ステップと、
入力音声の認識候補となる複数の単音節単語列から、（ａ）各単音節単語列と前記入力音声の音響的な一致度と、（ｂ）各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識ステップと、
を具備したことを特徴とする音声認識方法。
【請求項１１】
コンピュータを
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段、
として機能させるための統計的言語モデル生成プログラム。
【請求項１２】
コンピュータを
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段、
前記複数の単音節単語と、各単音節単語の前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段、
として機能させるための統計的言語モデル生成プログラム。
【請求項１３】
コンピュータを
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段、
前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段、
として機能させるための統計的言語モデル生成プログラム
【請求項１４】
コンピュータを
（ａ）複数の単音節単語、（ｂ）各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも１つ、及び（ｃ）連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶手段、
入力音声の認識候補となる複数の単音節単語列から、（ａ）各単音節単語列と前記入力音声の音響的な一致度と、（ｂ）各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識手段、
として機能させるための音声認識プログラム。

【図１】