統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置
【課題】強い言語的制約性を単音節単語に付与することにより、少ない単語数で未知語を単音節単語の列として正しく認識するための統計的言語モデルを生成する。
【解決手段】複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段と101;テキスト中での各単音節単語の出現回数と、連続する複数の単音節単語の組合せ毎の出現回数とを基に、組合せ毎の出現確率を計算する計算手段102と;複数の単音節単語と、各単音節単語の読み種類と、組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段122と;を具備する。
【解決手段】複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段と101;テキスト中での各単音節単語の出現回数と、連続する複数の単音節単語の組合せ毎の出現回数とを基に、組合せ毎の出現確率を計算する計算手段102と;複数の単音節単語と、各単音節単語の読み種類と、組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段122と;を具備する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識に用いる統計的言語モデルの生成及び当該統計的言語モデルを用いた音声認識装置に関する。
【背景技術】
【0002】
音声によって文章を入力可能な音声認識システムは、現在様々な分野で利用されている。音声認識システムでは、予め認識可能な単語(通常単語)を認識辞書中の認識語彙一覧に登録し、例えば入力音声に対する各単語の尤度を求めることにより、入力音声が認識辞書中のどの単語に該当するかを認識する。従って、認識辞書に登録されていない単語(未知語)は正しく認識されない。
【0003】
そこで、サブワードと呼ばれる音素に相当する単音節単語を認識辞書に登録する機能が知られている。未知語であるか否かに関わらずあらゆる単語は単音節単語の羅列で表現できるから、サブワード機能を用いれば理論上全ての未知語を正しく認識できる。しかしながら、実際にはかつての音声タイプライタ技術が成功を収めず、また現在市販されている音声認識ソフトウエアにサブワード機能が搭載されていないという事実からも予想できるように、サブワード機能を用いても全ての未知語を正しく認識することは困難である。
【0004】
ここで、音声認識システムの基本技術について説明する。音声認識システムでは認識辞書に登録された各単語に入力音声がどの程度近いかを表す音響的情報と、入力音声の認識候補となる単語を並べて作成した文がどの程度言語的(文脈的)に自然かという言語的情報の2つの情報を用いて入力音声を認識している。言語的情報を得るには、大量のコーパスと呼ばれるテキスト情報を解析し、例えば「音声」という単語の前後にどのような単語が何回出現しているかを集計して、各単語の並びの統計的な出現確率を算出する。即ち、音声認識システムでは入力音声から音響的情報に基づいて推定された単語を並べて作成した文の構成単語列の出現確率を算出することにより、認識結果の言語的制約性を利用している。
【0005】
前述したサブワード機能の効果が低い主な理由として、単音節単語が通常の単語に比べて上記言語的制約性が緩い点が挙げられる。通常単語の一例として「音声」を考えた場合、前後に出現する単語として「錦」より「認識」、「公園」より「合成」、「親交」より「信号」のほうが有効な候補となることは感覚的に理解できるし、統計的にも正しいと予想される。このように通常の単語は前後に出現する単語との関連性を有しており、言語的(文脈的)な制約(偏り)を利用した絞込みが可能である。一方、単音節単語を考えた場合には前後に出現する単語の関連性は乏しく、上記言語的制約性を利用することは難しい。従って、音声認識システムがサブワード機能によって未知語を認識しようとする場合、上記言語的情報を利用できず主として上記音響的情報のみを利用するため未知語の正確な認識が困難となる。
【0006】
上記問題に関して特許文献1では、サブワードの言語的制約性を強化する手法について開示されている。具体的には、特許文献1において単音節単語は品詞を示す品詞情報と単音節単語が属していた単語における語頭からの順番を示す順番数を属性情報として保持する。これにより、「異なる品詞の単音節単語は接続できない」、「順番3の単音節単語の後ろには順番4の単音節単語だけが接続する」及び「サブワード以外の通常単語の次には通常単語か順番1の単音節単語だけが接続する」といった言語的制約性を付与することが可能となる。その他、非特許文献1及び非特許文献2にも単語の構成要素中での順番を属性情報として使用する例について開示されている。
【0007】
また、サブワードとして単漢字を用いる手法も考えられる。表形文字である漢字はそれ単独でも意味を持つため、単語ほどではないにしても言語的制約性を持つ。例えば「音」という感じの次にどのような漢字が出現しやすいかしにくいかを想像すれば明らかである。
【特許文献1】特許第3415585号公報
【非特許文献1】技術報告 SP-98-110:HMM音韻認識における音節連鎖統計情報の利用(ATR 川端)
【非特許文献2】論文 IEIEC Trans. D-II:多空間確率分布HMMによるピッチパターン生成(東工大 益子)電子情報通信学会論文誌 D-II Vol.j83-DII No.7 pp.1600-1609(2000/7)
【発明の開示】
【発明が解決しようとする課題】
【0008】
特許文献1の手法では未知語の最大語長を例えば10文字に設定した場合、各単音節単語は順番数によって10種類に分類されることとなる。また品詞として普通名詞、固有名詞及び形容詞など例えば10種類を想定するとすれば、各単音節単語は更に10種類に分類されることとなる。従ってこの例によると、単音節単語の読みを単純に約50個からなるひらがな1文字として考えても50×10×10=5000語がサブワードとして必要となる。更に、実際には「きゃ」や「きょ」などの拗音は「き」とは別音節として扱われるため単音節単語の読みとしては約100語が必要になる。従って、単音節単語として必要な単語数は更に増え、実際には100×10×10=1万語程度がサブワードとして必要となる。通常の音声認識システムでは認識辞書に登録されている単語数は5〜10万語のため、未知語を認識するためだけのサブワードに1万語も用意することは現実的でない。
【0009】
また、サブワードとして単漢字を用いる手法は言語的制約性強化の立場からは有効であるが、実用的な音声認識システムに利用するには適切ではない。何故なら、単漢字の種類数が非常に多いためである。単漢字はJIS第1水準及び第2水準を合わせただけでも6000語以上有り、読みのバリエーションまで考えると1万語程度のサブワードが必要になる。
【0010】
本発明は強い言語的制約性を単音節単語に付与することにより、少ない単語数で未知語を単音節単語の列として正しく認識するための統計的言語モデルを生成することを目的とする。
【課題を解決するための手段】
【0011】
本発明の第1の態様に係る統計的言語モデル生成装置は、複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段と;前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と;前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と;を具備する。
【0012】
本発明の第2の態様に係る統計的言語モデル生成装置は、複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「先頭及び末尾以外(以降「字中」と呼ぶ)」、「末尾」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と;前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と;前記複数の単音節単語と、各単音節単語の前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と;を具備する。
【0013】
本発明の第3の実施形態に係る統計的言語モデル生成装置は、複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「字中」、「末尾」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と;前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と;前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と;を具備する。
【0014】
本発明の第4の態様に係る音声認識装置は、(a)複数の単音節単語、(b)各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「字中」、「末尾」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも1つ、及び(c)連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶手段と;入力音声の認識候補となる複数の単音節単語列から、(a)各単音節単語列と前記入力音声の音響的な一致度と、(b)各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識手段と;を具備する。
【発明の効果】
【0015】
本発明によれば強い言語的制約性を単音節単語に付与することにより、少ない単語数で未知語を単音節単語の列として正しく認識するための統計的言語モデルを生成できる。
【発明を実施するための最良の形態】
【0016】
以下、図面を参照して本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように本発明の第1の実施形態に係る統計的言語モデル生成装置100は単音節単語分割部101、単語出現確率計算部102、単漢字辞書111及び単音節単語辞書112を有する。単音節単語用統計的言語モデル生成装置100は、学習コーパス121から単音節単語用統計的言語モデルを生成し、単音節単語用統計的言語モデル記憶部122に記録する。
【0017】
単音節単語分割部101は、単漢字に区切られた学習コーパス121を単音節単語に分割する。本実施形態では単音節単語に言語的制約性を付与するための属性情報として単音節単語が属していた単漢字の読みの種類を示す読み種類情報を付与している。
【0018】
以下、単漢字の読みの種類について説明する。
単漢字の読みの種類とは当該単漢字が音読み、訓読みのいずれであるかという情報である。従来、属性として用いられていた品詞情報は単語の読み(発音)との相関が殆どないため、言語的制約性をあまり強化できないと考えられる。一方、音読みまたは訓読みのいずれであるかは単語(単漢字)の読み(発音)と密接に関連している。また、例えば音読みの単漢字の前後には音読みの単漢字が出現しやすく、訓読みの単漢字が出現すること(重箱読みまたは湯桶読み)は特殊なケースである。このように、読みの種類は単漢字の持つ強い言語的制約性の1つとして捉えることができるため、読み種類情報を属性情報として単音節単語に付与することは、単音節単語の言語的制約性の強化に有効である。
【0019】
単語出現確率計算部102は、単音節単語分割部101によって単音節単語に分割された学習コーパス121を参照し、各単音節単語の前後に出現する単音節単語の出現確率を計算して、単音節単語用統計的言語モデルを生成する。尚、これら単音節単語分割部101及び単語出現確率計算部102の各機能は、対応するプログラムをコンピュータに実行させることによっても実現できる。
【0020】
学習コーパス121は、単音節単語分割部101に入力される前に予め区切りが付与され単漢字列に分割されている。この区切りは人間が手作業で付与したものでもよいし、形態素解析技術を利用してコンピュータが自動的に付与したものでもよい。また、学習コーパス121に区切りを付与する際に単漢字の読み情報を予め付与してもよいし、しなくてもよい。同様に上記読み種類情報についても予め付与してもよいし、しなくてもよい。これら読み情報及び読み種類情報を予め付与しない場合には、単音節単語分割部101がこれら情報を付与する。
【0021】
単漢字辞書111は、例えば図2に示すような各単漢字に当該単漢字の読み情報及び読み種類情報を対応付ける辞書であり、例えばROMなどの記憶手段に記録されている。ここで、1つの単漢字は通常複数の読みを持つが単音節単語には全ての読み情報を反映させる必要は無く、代表的な読みだけであってもよい。以下の例では、1つの単漢字に1つの読みだけを付与する場合について説明する。単音節単語分割部101は、単漢字辞書111を参照して学習コーパス121中の単漢字の読み情報と読み種類情報を取得する。尚、学習コーパス121中の単漢字に読み情報及び読み種類情報が予め付与されている場合はこれら情報をそのまま流用してもよく、単漢字辞書111を用意しなくともよい。
【0022】
単音節単語辞書112は、例えば図3に示すような単音節単語の表記と読み種類情報に基づいて単音節単語を網羅した辞書であり、例えばROMなどの記憶手段に記録されている。本実施形態では、単音節単語の表記を単漢字の読み情報(単音節の平仮名表記)と一致させているが、単音節単語は音声認識システムで認識する際に取り扱える単位で、かつ読み情報と対応付けられるものであればよい。例えば、単音節単語は平仮名1文字、アルファベット表記された単音節(発音音素の子音と母音を1つにまとめた文字)、または文字化した音素及び子音・母音に分割された音素片文字であってもよい。
【0023】
次に、図4に示すフローチャート、図5及び図6を用いて図1に示す統計的言語モデル生成装置100の動作について説明する。
まず、単音節単語分割部101は単漢字辞書111を参照して、与えられた学習コーパス121に含まれる単漢字の読み情報を取得すると共に、読み種類情報を取得する(ステップS501)。ここで、学習コーパス121として例えば図5(a)に示す単漢字に分割済みのテキスト「/特/許/提/案/の/受/付/期/限/は/三/月/まで/です/。/当/日/まで/に/必/ず/受/付/窓/口/へ/持/って/来/て/下/さ/い/。/」が与えられたとする。このとき、単音節単語分割部101は、単漢字「特」、「許」、・・・、「下」を抽出し、単漢字辞書111を参照することにより、「とっ(音読み)」、「きょ(音読み)」、・・・、「くだ(訓読み)」のように読み情報と読み種類情報を取得する。尚、学習コーパス121中の単漢字に既に読み情報及び読み種類情報が付与されている場合には本ステップS501を省略してもよい。また、本実施形態において単漢字以外の部分についてどのような処理を行うかについては言及しない。
【0024】
次に単音節単語分割部101は、ステップS501にて取得した単漢字の読み情報を、実際に使用する単音節単語の表記に変換する(ステップS502)。しかしながら、本実施形態では単音節単語の表記として単音節を平仮名表記しており、単漢字の読み情報も平仮名を用いるため、本ステップS502を省略する。なおここで、単音節単語の「表記」とは、人が言葉をどう発音するかを表した文字である。そのため、この「表記」は認識結果として単音節単語の列を画面に表示する時の文字と同一である必要はない。本実施例では単音節単語の表記は平仮名であるが、例えば画面表示時にはカタカナで表記されても構わない。また、単漢字の読みと単音節単語の表記列が文字列として一致しない例外的な場合も存在する。例えば「東京(読み:とうきょう)」は日本人には一般に「とーきょー」と発声される。そのため、「とうきょう」を単音節単語列に分割すると「と」「ー(お)」「きょ」「ー(お)」に分割されることになる。なお、このような例外的な対応付けは「と」の後ろの「う」や「け」の後ろの「い」のように事前に例外規則としてリストアップすることが可能である。
【0025】
次に単音節単語分割部101は、単音節単語辞書112を参照して単漢字の読み情報に対応する単音節単語の表記と読み種類情報から学習コーパス121中の単漢字部分を単音節単語に分割する(ステップS503)。学習コーパス121として図5(a)に示すテキストを用いる場合、「と(音読み)/っ(音読み)」、「きょ(音読み)」、・・・、「く(訓読み)/だ(訓読み)」のように各単漢字が単音節単語に分割される。具体的には、学習コーパス121中の「当日」、「必」、「持」の部分であれば、図5(b)に示すように分割される。最終的に学習コーパス121は同図5(c)に示すような単音節単語の列に分割され、当該単音節単語列が単語出現確率計算部102に入力される。尚、図5(c)中の「音」は「音読み」、「訓」は「訓読み」を夫々示し、図6についても同様である。
【0026】
次に、単語出現確率計算部102は単音節単語分割部101が作成した単音節単語単位に分割された学習コーパス121に基づいて各単音節単語の前後に出現する単音節単語の出現数を数えることにより、単音節単語の組み合わせの出現確率を計算し、単音節単語用統計的言語モデル122を生成して出力する(ステップS504)。
【0027】
以下、一例として2つの単音節単語の組み合わせの出現数を数える場合について説明する。しかしながら、2単語の組み合わせに限らず3単語以上の組み合わせの出現数を数えても同様に本実施形態の効果は得られる。出現確率の計算方法は文献1(「確率モデルによる音声認識」 中川聖一著 電子情報通信学会 ISBN4088552-072-X)及び文献2(「音声言語処理 コーパスに基づくアプローチ」 北研二 森北出版 ISBN40627-82380-0)に紹介されているいずれの方法を使用してもよい。
【0028】
以下では例として条件付確率を計算する例を示す。図5に示す例において単音節単語「け(訓読み)」が与えられた際、直後に来る単音節単語を集計すると、図6(d−14)より単音節単語「き(音読み)」の出現数が1回、図6(d−15)より単音節単語「つ(訓読み)」の出現数が2回、図6(d−16)より単音節単語「ま(訓読み)」の出現数が1回となる。従って、単音節単語「け(訓読み)」が与えられた際、直後に単音節単語「き(音読み)」が出現する確率は1/4=25%と計算され、単音節単語「つ(訓読み)」が出現する確率は2/4=50%と計算され、単音節単語「ま(訓読み)」が出現する確率は1/4=25%と計算される。図6に示すように、他の単音節単語についても同様に直後に続く単音節単語を集計することにより条件付確率を計算することができる。また、上記例では簡単のため図5(a)に示す比較的短いテキストを学習コーパス121として用いたが、より大量のテキストを用いて学習させることによって単漢字が本来持つ強い言語的制約性(偏り)をより反映した単音節単語用統計的言語モデルを得ることが可能である。
【0029】
以上説明したように本実施形態によれば、サブワードとして必要な単語数は基本的な単音節数を100語とした場合、読み種類情報は2種類しかないので、100×2=200語程度となる。従って、従来に比べて少ない単語数であるにも関わらず単漢字の持つ強い言語的制約性を利用することによって未知語を正しく認識することができる。
【0030】
(第2の実施形態)
図7に示すように本発明の第2の実施形態に係る統計的言語モデル生成装置200は、図1に示す統計的言語モデル100において、単音節単語分割部101を単音節単語分割部201に、単音節単語辞書112を単音節単語辞書212に夫々置き換え、更に読み文字・単音節対応表213を新たに設けている。単音節単語用統計的言語モデル生成装置200は、学習コーパス121から単音節単語用言語モデルを生成し、単音節単語用統計的言語モデル記憶部222に記録する。以下の説明では図7において、図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。
【0031】
単音節単語分割部201は、単漢字に区切られた学習コーパス121を単音節単語に分割する。本実施形態では単音節単語に言語的制約性を付与するための属性情報として単音節単語が属していた単漢字中における当該単音節単語の位置を示す位置情報を付与している。
【0032】
以下、単漢字における単音節単語の位置について説明する。
本実施形態において、単音節単語の位置として「先頭」、「字中」及び「末尾」を規定している。即ち、「先頭」は各単漢字の読み文字列における先頭を意味し、「末尾」は各単漢字の読み文字列における末尾(終端)を意味し、「字中」は先頭及び末尾のいずれにも該当しないことを意味する。また、単漢字の読みが単音節の場合には当該単音節は先頭であり末尾でもあるため、位置情報として「先頭かつ末尾」と規定する。これに対して従来用いられていた順番数という概念で位置を分類しようとする場合、認識したい単語の最大長に相当する順番数を用意する必要がある。また、順番数で位置情報を規定する場合には末尾を表現することができないため、後続する単音節単語が同一の単漢字に属するのか他の単漢字に属するかを区別できない。一方、単音節単語の位置を「先頭」、「字中」、「末尾」及び「先頭かつ末尾」の4種類で分類すれば5語以上の単語長を持つ単語であっても認識することが可能であり、しかも「末尾」または「先頭かつ末尾」の位置情報によって末尾を表現することも可能である。このように末尾を表現することが可能となれば、位置情報として「先頭」または「字中」を持つ単音節単語の直後には、位置情報として「字中」または「末尾」を持つ単音節単語が出現し(同一単漢字内における言語的制約性)、位置情報として「末尾」または「先頭かつ末尾」を持つ単音節単語の直後には、通常単語または単音節単語の位置情報として「先頭」または「先頭かつ末尾」を持つ単音節単語が出現する(連続する単漢字間における言語的制約性)といった言語的制約性を利用できる。
【0033】
単音節単語辞書212は、例えば図7に示すような単音節単語の表記と位置情報に基づいて単音節単語を網羅した辞書であり、例えばROMなどの記憶手段によって記録されている。本実施形態では、単音節単語としてアルファベット表記された単音節を用いているが、単音節単語は音声認識システムで認識する際に取り扱える単位で、かつ読み情報と対応付けられるものであればよい。例えば、単音節単語は平仮名1文字、仮名表記された単音節(発音音素の子音と母音を1つにまとめた文字)、または文字化した音素及び子音・母音に分割された音素片文字であってもよい。
【0034】
読み文字・単音節対応表213は、例えば図9に示すような各単漢字の読み文字と単音節の表記を対応付ける表であり、例えばROMなどの記憶手段によって記録されている。本実施形態では単音節をアルファベット表記しており、単漢字の読み情報(平仮名)は読み文字・単音節対応表によって適切な表記に変換される。即ち、単音節単語分割部201は読み文字・単音節対応表213に基づいて単漢字の読み情報から単音節の表記を取得する。尚、前述した第1の実施形態のように単漢字の読み情報と単音節の表記が共に平仮名である場合など、両者が一致する場合には読み文字・単音節対応表213を用意しなくともよい。
【0035】
次に、図4に示すフローチャート、図10及び図11を用いて図7に示す統計的言語モデル生成装置200の動作について説明する。
まず、単音節単語分割部201は単漢字辞書111を参照して、与えられた学習コーパス121に含まれる単漢字の読み情報を取得する(ステップS501)。ここで、学習コーパス121として例えば図10(a)に示す単漢字に分割済みのテキスト「/特/許/提/案/の/受/付/期/限/は/三/月/まで/です/。/当/日/まで/に/必/ず/受/付/窓/口/へ/持/って/来/て/下/さ/い/。/」が与えられたとする。このとき、単音節単語分割部201は、単漢字「特」、「許」、・・・、「必」、・・・、「下」を抽出し、単漢字辞書111を参照することにより、「とっ」「きょ」、・・・、「かなら」、・・・、「くだ」のように読み情報を取得する。尚、学習コーパス121中の単漢字に既に読み情報が付与されている場合には本ステップS501を省略してもよい。また、本実施形態において単漢字以外の部分についてどのような処理を行うかについては言及しない。
【0036】
次に単音節単語分割部201は、ステップS501にて取得した単漢字の読み情報を、実際に使用する単音節単語の表記に変換する(ステップS502)。本実施形態において、読み情報として単音節の平仮名表記を用いており、単音節単語として単音節のアルファベット表記を用いているため、ステップS501にて取得した読み情報をこれ以降の処理に使えない。従って、単音節単語分割部201は読み文字・単音節対応表213を参照して、読み文字をアルファベット表記された単音節に適宜変換する。具体的には、単音節単語分割部201は読み文字・単音節対応表213を検索しながら読み文字列が最長一致した単音節列に変換する。
【0037】
次に単音節単語分割部201は、単音節単語辞書212を参照して単漢字の読み情報に対応する単音節単語の表記と位置情報から学習コーパス121中の単漢字部分を単音節単語に分割する(ステップS503)。学習コーパス121として図10(a)に示すテキストを用いる場合、「TO(先頭)/tu(末尾)」、「KYO(先頭かつ末尾)」、・・・、「KA(先頭)/NA(字中)/RA(末尾)」、・・・、「KU(先頭)/DA(末尾)」のように位置情報を付与されながら、単漢字は単音節単語に分割される。具体的には、学習コーパス121中の「当日」、「必」、「持」の部分であれば、図11(b)に示すように分割される。学習コーパス121は最終的に同図10(c)に示すような単音節単語の列に分割され、当該単音節単語列が単語出現確率計算部102に入力される。尚、図10(c)中の「先」は「先頭」、「中」は「字中」、「末」は「末尾」、「先末」は「先頭かつ末尾」を夫々示し、図11についても同様である。
【0038】
次に、単語出現確率計算部102は単音節単語分割部201が作成した単音節単語単位に分割された学習コーパス121に基づいて各単音節単語の前後に出現する単音節単語の出現数を数えることにより、単音節単語の組み合わせの出現確率を計算し、単音節単語用統計的言語モデルを生成して出力する(ステップS504)。ここでは、一例として前述した第1の実施形態における単語出現確率計算部102と同様の計算に基づいて説明する。図10に示す例において単音節単語「KE(末尾)」が与えられた際、直後に来る単音節単語を集計すると、図11(e−14)より単音節単語「KI(先頭かつ末尾)」の出現数が1回、図11(e−15)より単音節単語「TU(先頭)」の出現数が2回、図11(e−16)より単音節単語「MA(先頭)」の出現数が1回となる。従って、単音節単語「KE(末尾)」が与えられた際、直後に単音節単語「KI(先頭かつ末尾)」が出現する確率は1/4=25%と計算され、単音節単語「TU(先頭)」が出現する確率は2/4=50%と計算され、単音節単語「MA(先頭)」が出現する確率は1/4=25%と計算される。図11に示すように、他の単音節単語についても同様に直後に続く単音節単語を集計することにより条件付確率を計算することができる。また、上記例では簡単のため図10(a)に示す比較的短いテキストを学習コーパス121として用いたが、より大量のテキストを用いて学習させることによって単漢字が本来持つ強い言語的制約性(偏り)をより反映した単音節単語用統計的言語モデルを得ることが可能である。
【0039】
以上説明したように本実施形態によれば、サブワードとして必要な単語数は基本的な単音節数を100語とした場合、位置情報は4種類しかないので、100×4=400語程度となる。従って、従来に比べて少ない単語数であるにも関わらず単漢字の持つ強い言語的制約性を利用することによって未知語を正しく認識することができる。
【0040】
(第3の実施形態)
本発明の第3の実施形態に係る統計的言語モデル生成装置300は、図1に示す統計的言語モデル100において、単音節単語分割部101を単音節単語分割部301に、単音節単語辞書112を単音節単語辞書312に夫々置き換えている。単音節単語用統計的言語モデル生成装置300は、学習コーパス121から単音節単語用言語モデルを生成し、単音節単語用統計的言語モデル記憶部322に記録する。以下の説明では図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。
【0041】
単音節単語分割部301は、単漢字に区切られた学習コーパス121を単音節単語に分割する。本実施形態では単音節単語に言語的制約性を付与するための属性情報として前述した読み種類情報及び位置情報を付与している。
【0042】
単音節単語辞書312は、例えば図12に示すような単音節単語の表記、読み種類情報及び位置情報に基づいて単音節単語を網羅した辞書であり、例えばROMなどの記憶手段によって記録されている。本実施形態では、単音節単語の表記を単漢字の読み情報(単音節の平仮名表記)と一致させているが、単音節単語は音声認識システムで認識する際に取り扱える単位で、かつ読み情報と対応付けられるものであればよい。例えば、単音節単語は平仮名1文字、アルファベット表記された単音節(発音音素の子音と母音を1つにまとめた文字)、または文字化した音素及び子音・母音に分割された音素片文字であってもよい。
【0043】
次に、図4に示すフローチャート、図13及び図14を用いて本実施形態に係る統計的言語モデル生成装置300の動作について説明する。
まず、単音節単語分割部301は単漢字辞書111を参照して、与えられた学習コーパス121に含まれる単漢字の読み情報を取得すると共に、読み種類情報を取得する(ステップS501)。ここで、学習コーパス121として例えば図13(a)に示す単漢字に分割済みのテキスト「/特/許/提/案/の/受/付/期/限/は/三/月/まで/です/。/当/日/まで/に/必/ず/受/付/窓/口/へ/持/って/来/て/下/さ/い/。/」が与えられたとする。このとき、単音節単語分割部301は、単漢字「特」、「許」、・・・、「必」、・・・、「下」を抽出し、単漢字辞書111を参照することにより、「とっ(音読み)」「きょ(音読み)」、・・・、「かなら(訓読み)」、・・・、「くだ(訓読み)」のように読み情報及び読み種類情報を取得する。尚、学習コーパス121中の単漢字に既に読み情報及び位置情報が付与されている場合には本ステップS501を省略してもよい。また、本実施形態において単漢字以外の部分についてどのような処理を行うかについては言及しない。
【0044】
次に単音節単語分割部301は、ステップS501にて取得した単漢字の読み情報を、実際に使用する単音節単語の表記に変換する(ステップS502)。しかしながら、本実施形態では単音節単語の表記として単音節を平仮名表記しているが、単漢字の読み情報も平仮名であるため、本ステップS502を省略する。
【0045】
次に単音節単語分割部301は、単音節単語辞書112を参照して単漢字の読み情報に対応する単音節単語の表記、読み種類情報及び位置情報から学習コーパス121中の単漢字部分を単音節単語に分割する(ステップS503)。学習コーパス121として図13(a)に示すテキストを用いる場合、「と(音読み・先頭)/っ(音読み・末尾)」、「きょ(音読み・先頭かつ末尾)」、・・・、「か(訓読み・先頭)/な(訓読み・字中)/ら(訓読み・末尾)」、・・・、「く(訓読み・先頭)/だ(訓読み・末尾)」のように位置情報を付与されながら、単漢字は単音節単語に分割される。具体的には、学習コーパス121中の「当日」、「必」、「持」の部分であれば、図11(b)に示すように分割される。学習コーパス121は最終的に同図13(c)に示すような単音節単語の列に分割され、当該単音節単語列が単語出現確率計算部102に入力される。尚、図13(c)中の「音」は「音読み」、「訓」は「訓読み」、「先」は「先頭」、「中」は「字中」、「末」は「末尾」、「先末」は「先頭かつ末尾」を夫々示し、図14についても同様である。
【0046】
次に、単語出現確率計算部102は単音節単語分割部301が作成した単音節単語単位に分割された学習コーパス121に基づいて各単音節単語の前後に出現する単音節単語の出現数を数えることにより、単音節単語の組み合わせの出現確率を計算し、単音節単語用統計的言語モデルを生成して出力する(ステップS504)。ここでは、一例として前述した第1の実施形態における単語出現確率計算部102と同様の計算に基づいて説明する。図13に示す例において単音節単語「け(訓読み・末尾)」が与えられた際、直後に来る単音節単語を集計すると、図13(f−14)より単音節単語「き(音読み・先頭かつ末尾)」の出現数が1回、図13(f−15)より単音節単語「つ(訓読み・先頭)」の出現数が2回、図6(f−16)より単音節単語「ま(訓読み・先頭)」の出現数が1回となる。従って、単音節単語「け(訓読み・末尾)」が与えられた際、直後に単音節単語「き(音読み・先頭かつ末尾)」が出現する確率は1/4=25%と計算され、単音節単語「つ(訓読み・先頭)」が出現する確率は2/4=50%と計算され、単音節単語「ま(訓読み・先頭)」が出現する確率は1/4=25%と計算される。図14に示すように、他の単音節単語についても同様に直後に続く単音節単語を集計することにより条件付確率を計算することができる。また、上記例では簡単のため図13(a)に示す比較的短いテキストを学習コーパス121として用いたが、より大量のテキストを用いて学習させることによって単漢字が本来持つ強い言語的制約性(偏り)をより反映した単音節単語用統計的言語モデルを得ることが可能である。
【0047】
以上説明したように本実施形態によれば、サブワードとして必要な単語数は基本的な単音節数を100語とした場合、読み種類情報は2種類、位置情報は4種類しかないので、100×2×4=800語程度となる。従って、従来に比べて少ない単語数であるにも関わらず単漢字の持つ強い言語的制約性を利用することによって未知語を正しく認識することができる。
【0048】
(第4の実施形態)
図15に示すように本発明の第4の実施形態に係る音声認識装置400は、音声入力部401、音声認識部402、単音節単語辞書411、単音節単語用統計的言語モデル412、通常単語辞書413、通常単語用統計的言語モデル414及び音響モデル415を有する。
【0049】
音声入力部401は、ユーザ421からの入力音声を受け取り、一定の時間間隔(例えば10msecなど)のフレーム単位ごとにマッチング処理に適した音響的な特徴量(入力音声データ)に変換する。なお、ユーザの音声を入力する方法は特に限定しない。認識対象の音声をマイクロホン経由で音声入力部301へ入力してもよいし、音声を記録手段によって一旦記憶媒体に保存し、保存された音声データを音声入力部301へデジタル信号として入力してもよい。
【0050】
音声認識部402は、音声入力部301からフレーム単位で入力された入力音声データを取得し、音響モデル415を使用して入力音声データと認識対象の全音素との一致度(音響スコア)を計算する。同時に、音声認識部402は通常単語辞書413及び単音節単語辞書411を用いて入力音素列が認識対象語彙のどの単語と完全一致または部分一致するかを判定する。音声認識部402は当該判定結果に基づいて、通常単語用統計的言語モデル414及び単音節単語用統計的言語モデル412を用いて入力音素列の言語的な妥当性(言語スコア)を計算する。音声認識部402は、音響スコアと言語スコアの累積値に基づいてパターンマッチングの探索を発声終端に到達するまで繰り返し、当該累積値の最も高い単語列を認識結果422として出力する。尚、これら音声入力部401及び音声認識部402の各機能は、対応するプログラムをコンピュータに実行させることによっても実現できる。
【0051】
単音節単語辞書411及び単音節単語用統計的言語モデル記憶部412は、前述した各実施形態に対応する単音節単語辞書112、212、312及び単音節単語用統計的言語モデル記憶部122、222、322のいずれか1組を用いる。以下では単音節単語辞書112及び単音節単語用統計的言語モデル記憶部122を用いた例について説明している。
【0052】
通常単語辞書413及び通常単語用統計的言語モデル414は音声認識装置400で使用できるものであればよい。また、音響モデル415も同様に音声認識装置400で使用できるものであればよく、例えば先に挙げた文献1、2に紹介されている方法によって作成できる。また、現在市販されている音声認識システムではHMM(Hidden Markov Model:隠れマルコフモデル)技術が一般的に利用されている。
【0053】
以下、図16及び図17を用いて本実施形態に係る音声認識装置400の動作について説明する。
図16は「とっきょ」という音声が入力されたときの音声認識部402の動作の様子を示している。図16では音素の認識の様子を理解しやすいように木構造で示している。連続音声認識システムは音声認識された結果を履歴として保存し、文脈を考慮して各単語の言語的な出現のしやすさ(妥当性)を計算している。図17ではこの文脈を「先行単語」として表現している。なお、本例では先行単語は直前の1単語だが、直前の複数単語の履歴であってもかまわない。まず、最初の発声では先行単語は存在しないので例えば「文頭」にどのような単語が出現しやすいかを表すための<文頭>という特別な単語で代用する。音声認識部402は音声データが入力されると、まず音響モデル415に基づいて各音素との一致度(音響スコア)を計算する。ここでは、「と」が入力されているので「と」の音素やそれと発音が似ている「の」や「そ」などの音響スコアが高いという結果になる。また同時に音声認識部402は、「と」、「の」、「そ」が文頭にどのくらい言語的に出現しやすいか(言語スコア)も計算する。例えば「と」が文頭に出現することの言語的妥当性は「と」で始まる全単語の文頭での出現確率の平均を単語の平均音素長で割るなどして計算される。音声認識部402はこの音響スコアと言語スコアの値から「と」、「そ」、「の」のいずれが入力されたかを判定する。ここでは結果的に「と」が選択されたとする。次に、音声認識部402は「と」を1文字で構成される単語を通常単語辞書413から検索する。ここでは「と(助詞)」、「都(名詞)」の2単語が通常単語辞書413中に存在したとする。また、音声認識部402は同時に単音節単語辞書411を検索する。ここでは「と(音節:音読み)」、「と(音節:訓読み)」の2単語が単音節単語辞書411中に存在したとする。このような単語が存在する場合には、音声認識部402は検索された単語を先行単語のW0に設定し直して図16の木構造の先端から音声認識処理を繰り返す。
【0054】
また、前述した検索の際に「と」を部分文字列として含む単語が単音節単語辞書411または通常単語辞書413に存在する時には「と」に継続する音素列の言語的妥当性を引き続き計算する。本例では「と」の次の入力は「っ」なので、「と」に継続する音素候補の中で「っ」や「つ」が認識結果候補になる。ここで「っ」を終端とする単語がないとすれば、音声認識部402は「とっ」に継続する音素列の言語的妥当性を計算する。本例では「っ」の次の入力は「きょ」なので音響的に近い「き」や「きゃ」が認識候補になる。そして、夫々を終端とする「特記(とっき)」や「特許(とっきょ)」が認識候補とされる。ここで、「とっき」や「とっきょ」を発音の先頭部分の部分文字列として含む単語が検索できなければ、この木構造の形の認識候補の探索は終了する。次に、音声認識部402は今回認識候補として検出された「特記」「特許」を先行単語とする木構造の先端から改めて探索繰り返す。
【0055】
探索が入力音声の発声終端位置に到達すると、それまでに検出された単語の組み合わせ列が認識結果候補単語系列となる。そして、各認識結果候補単語列に含まれる各認識結果候補単語の音響スコアと言語スコアの累積値がもっとも大きな認識結果候補単語列が第1位の認識結果422となる。図12の例では「特許」という単独の単語が音響スコア(as)と言語スコア(ls)の和が−3300で最も大きな値になるため、「特許」が第1位の認識結果422として出力される。なお、通常単語用辞書413に「特許」という単語が存在しない時には、「と(音節:音読み)、っ(音節:音読み)、きょ(音節:音読み)」という認識結果候補単語列のスコアの累積値が−3900で最も大きな値になるため、「と(音節:音読み)、っ(音節:音読み)、きょ(音節:音読み)」が第1位の音声認識結果422となる。従って「特許」という単語が通常単語用辞書413に無い時に、従来であれば「特記よ」(累積値:−6400)を認識結果422とする誤認識をしていたが、単音節単語用統計的言語モデル412を用いることにより「とっきょ」という音読みの単語を認識結果422として出力することができる。
【0056】
音声認識装置400は単音節単語用統計的言語モデル412を用いることにより、前述した読み種類情報や位置情報といった単漢字の持つ言語的制約性に関する情報を利用しているため、未知語であっても単音節単語の列として精度良く認識できる。例えば、図17では助詞の「と」の後ろには音読みの「つ」は出現しにくいという情報(g008)があるために「と(助詞)、つ(音節:音読み)、きょ(音節:音読み)」という誤った単語系列を生成することを回避できる。もし、読み種類の区別なく「と」と「つ」のつながりやすさを計算してしまうと、「と(助詞)」に後続する「つ(音節)」は訓読みの「つ」の影響で本来よりも出現しやいと判定されてしまう。このように読み種類情報や位置情報などを付与せずに単音節単語のみによる認識を行おうとすると、出現頻度の低いつながりを高いと誤認したり、出現頻度の高いつながりを低いと誤認したりするため、正確な認識を期待できない。
【0057】
なお、本実施形態は音声認識の具体的な処理方式に関して上記に限定されるものではない。先に挙げた文献2に紹介されている他の方法を使用してもかまわない。例えば、複数の単語を連続的に音声入力された場合の音声認識の一般的な方法について文献2の71ページ以降で解説されている。
【0058】
以上説明したように本実施形態では、前述した第1乃至第3の実施形態で作成した単音節単語用統計的言語モデルを用いるため、通常単語用辞書に登録されていない未知語を単音節単語の列として正しく認識することができる。
【0059】
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
【0060】
その一例として例えば、上記実施の形態では漢字以外の部分に関しては属性情報を付与しない例について説明した。しかしながら、漢字以外の部分について「助詞」などの品詞情報が付与されていてもよい。品詞情報が付与されている場合は、出現確率を計算する際に当該品詞情報を使用することが可能である。即ち、出現確率を計算する際に、例えば平仮名の「の」であれば「助詞の『の』」と「名詞の『の』」を区別して取り扱う。
【0061】
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
【図面の簡単な説明】
【0062】
【図1】本発明の第1の実施形態に係る統計的言語モデル生成装置100を示すブロック図。
【図2】図1に示す単漢字辞書111の一例を示す図。
【図3】図1に示す単音節単語辞書112の一例を示す図。
【図4】図1に示す統計的言語モデル生成装置100の動作を示すフローチャート。
【図5】(a)図1に示す単音節単語分割部101に入力される学習コーパス121の一例を示す図。(b)単音節単語分割部101による(a)に示す学習コーパス121の分割例の一部を示す図。(c)単音節単語分割部101によって(a)に示す学習コーパス121から最終的に分割される単音節単語列を示す図。
【図6】図5(c)に示す単音節単語列から抽出可能な2つの単音節単語の組み合わせの出現数の集計結果を示す図。
【図7】本発明の第2の実施形態に係る統計的言語モデル生成装置200を示すブロック図。
【図8】図7に示す単音節単語辞書212の一例を示す図。
【図9】図7に示す読み文字・単音節対応表213の一例を示す図。
【図10】(a)図7に示す単音節単語分割部201に入力される学習コーパス121の一例を示す図。(b)単音節単語分割部201による(a)に示す学習コーパス121の分割例の一部を示す図。(c)単音節単語分割部201によって(a)に示す学習コーパス121から最終的に分割される単音節単語列を示す図。
【図11】図10(c)に示す単音節単語列から抽出可能な2つの単音節単語の組み合わせの出現数の集計結果を示す図。
【図12】本発明の第3の実施形態に係る統計的言語モデル生成装置300中の単音節単語辞書313の一例を示す図。
【図13】(a)本発明の第3の実施形態に係る統計的言語モデル生成装置300中の単音節単語分割部301に入力される学習コーパス121の一例を示す図。(b)単音節単語分割部301による(a)に示す学習コーパス121の分割例の一部を示す図。(c)単音節単語分割部301によって(a)に示す学習コーパス121から最終的に分割される単音節単語列を示す図。
【図14】図13(c)に示す単音節単語列から抽出可能な2つの単音節単語の組み合わせの出現数の集計結果を示す図。
【図15】本発明の第4の実施形態に係る音声認識装置400を示すブロック図。
【図16】図15に示す音声認識部402の動作例を示す図。
【図17】図15に示す音声認識部402で用いる単語表と言語スコアの一例を示す図。
【符号の説明】
【0063】
100・・・統計的言語モデル生成装置
101・・・単音節単語分割部
102・・・単語出現確率計算部
111・・・単漢字辞書
112・・・単音節単語辞書
121・・・学習コーパス
122・・・単音節単語用統計的言語モデル記憶部
200・・・統計的言語モデル生成装置
201・・・単音節単語分割部
212・・・単音節単語辞書
213・・・読み文字・単音節対応表
222・・・単音節単語用統計的言語モデル記憶部
300・・・統計的言語モデル生成装置
312・・・単音節単語辞書
322・・・単音節単語用統計的言語モデル記憶部
400・・・音声認識装置
401・・・音声入力部
402・・・音声認識部
411・・・単音節単語辞書
412・・・単音節単語用統計的言語モデル
413・・・通常単語辞書
414・・・通常単語用統計的言語モデル
415・・・音響モデル
421・・・ユーザ
422・・・認識結果
【技術分野】
【0001】
本発明は、音声認識に用いる統計的言語モデルの生成及び当該統計的言語モデルを用いた音声認識装置に関する。
【背景技術】
【0002】
音声によって文章を入力可能な音声認識システムは、現在様々な分野で利用されている。音声認識システムでは、予め認識可能な単語(通常単語)を認識辞書中の認識語彙一覧に登録し、例えば入力音声に対する各単語の尤度を求めることにより、入力音声が認識辞書中のどの単語に該当するかを認識する。従って、認識辞書に登録されていない単語(未知語)は正しく認識されない。
【0003】
そこで、サブワードと呼ばれる音素に相当する単音節単語を認識辞書に登録する機能が知られている。未知語であるか否かに関わらずあらゆる単語は単音節単語の羅列で表現できるから、サブワード機能を用いれば理論上全ての未知語を正しく認識できる。しかしながら、実際にはかつての音声タイプライタ技術が成功を収めず、また現在市販されている音声認識ソフトウエアにサブワード機能が搭載されていないという事実からも予想できるように、サブワード機能を用いても全ての未知語を正しく認識することは困難である。
【0004】
ここで、音声認識システムの基本技術について説明する。音声認識システムでは認識辞書に登録された各単語に入力音声がどの程度近いかを表す音響的情報と、入力音声の認識候補となる単語を並べて作成した文がどの程度言語的(文脈的)に自然かという言語的情報の2つの情報を用いて入力音声を認識している。言語的情報を得るには、大量のコーパスと呼ばれるテキスト情報を解析し、例えば「音声」という単語の前後にどのような単語が何回出現しているかを集計して、各単語の並びの統計的な出現確率を算出する。即ち、音声認識システムでは入力音声から音響的情報に基づいて推定された単語を並べて作成した文の構成単語列の出現確率を算出することにより、認識結果の言語的制約性を利用している。
【0005】
前述したサブワード機能の効果が低い主な理由として、単音節単語が通常の単語に比べて上記言語的制約性が緩い点が挙げられる。通常単語の一例として「音声」を考えた場合、前後に出現する単語として「錦」より「認識」、「公園」より「合成」、「親交」より「信号」のほうが有効な候補となることは感覚的に理解できるし、統計的にも正しいと予想される。このように通常の単語は前後に出現する単語との関連性を有しており、言語的(文脈的)な制約(偏り)を利用した絞込みが可能である。一方、単音節単語を考えた場合には前後に出現する単語の関連性は乏しく、上記言語的制約性を利用することは難しい。従って、音声認識システムがサブワード機能によって未知語を認識しようとする場合、上記言語的情報を利用できず主として上記音響的情報のみを利用するため未知語の正確な認識が困難となる。
【0006】
上記問題に関して特許文献1では、サブワードの言語的制約性を強化する手法について開示されている。具体的には、特許文献1において単音節単語は品詞を示す品詞情報と単音節単語が属していた単語における語頭からの順番を示す順番数を属性情報として保持する。これにより、「異なる品詞の単音節単語は接続できない」、「順番3の単音節単語の後ろには順番4の単音節単語だけが接続する」及び「サブワード以外の通常単語の次には通常単語か順番1の単音節単語だけが接続する」といった言語的制約性を付与することが可能となる。その他、非特許文献1及び非特許文献2にも単語の構成要素中での順番を属性情報として使用する例について開示されている。
【0007】
また、サブワードとして単漢字を用いる手法も考えられる。表形文字である漢字はそれ単独でも意味を持つため、単語ほどではないにしても言語的制約性を持つ。例えば「音」という感じの次にどのような漢字が出現しやすいかしにくいかを想像すれば明らかである。
【特許文献1】特許第3415585号公報
【非特許文献1】技術報告 SP-98-110:HMM音韻認識における音節連鎖統計情報の利用(ATR 川端)
【非特許文献2】論文 IEIEC Trans. D-II:多空間確率分布HMMによるピッチパターン生成(東工大 益子)電子情報通信学会論文誌 D-II Vol.j83-DII No.7 pp.1600-1609(2000/7)
【発明の開示】
【発明が解決しようとする課題】
【0008】
特許文献1の手法では未知語の最大語長を例えば10文字に設定した場合、各単音節単語は順番数によって10種類に分類されることとなる。また品詞として普通名詞、固有名詞及び形容詞など例えば10種類を想定するとすれば、各単音節単語は更に10種類に分類されることとなる。従ってこの例によると、単音節単語の読みを単純に約50個からなるひらがな1文字として考えても50×10×10=5000語がサブワードとして必要となる。更に、実際には「きゃ」や「きょ」などの拗音は「き」とは別音節として扱われるため単音節単語の読みとしては約100語が必要になる。従って、単音節単語として必要な単語数は更に増え、実際には100×10×10=1万語程度がサブワードとして必要となる。通常の音声認識システムでは認識辞書に登録されている単語数は5〜10万語のため、未知語を認識するためだけのサブワードに1万語も用意することは現実的でない。
【0009】
また、サブワードとして単漢字を用いる手法は言語的制約性強化の立場からは有効であるが、実用的な音声認識システムに利用するには適切ではない。何故なら、単漢字の種類数が非常に多いためである。単漢字はJIS第1水準及び第2水準を合わせただけでも6000語以上有り、読みのバリエーションまで考えると1万語程度のサブワードが必要になる。
【0010】
本発明は強い言語的制約性を単音節単語に付与することにより、少ない単語数で未知語を単音節単語の列として正しく認識するための統計的言語モデルを生成することを目的とする。
【課題を解決するための手段】
【0011】
本発明の第1の態様に係る統計的言語モデル生成装置は、複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段と;前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と;前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と;を具備する。
【0012】
本発明の第2の態様に係る統計的言語モデル生成装置は、複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「先頭及び末尾以外(以降「字中」と呼ぶ)」、「末尾」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と;前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と;前記複数の単音節単語と、各単音節単語の前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と;を具備する。
【0013】
本発明の第3の実施形態に係る統計的言語モデル生成装置は、複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「字中」、「末尾」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と;前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と;前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と;を具備する。
【0014】
本発明の第4の態様に係る音声認識装置は、(a)複数の単音節単語、(b)各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「字中」、「末尾」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも1つ、及び(c)連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶手段と;入力音声の認識候補となる複数の単音節単語列から、(a)各単音節単語列と前記入力音声の音響的な一致度と、(b)各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識手段と;を具備する。
【発明の効果】
【0015】
本発明によれば強い言語的制約性を単音節単語に付与することにより、少ない単語数で未知語を単音節単語の列として正しく認識するための統計的言語モデルを生成できる。
【発明を実施するための最良の形態】
【0016】
以下、図面を参照して本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように本発明の第1の実施形態に係る統計的言語モデル生成装置100は単音節単語分割部101、単語出現確率計算部102、単漢字辞書111及び単音節単語辞書112を有する。単音節単語用統計的言語モデル生成装置100は、学習コーパス121から単音節単語用統計的言語モデルを生成し、単音節単語用統計的言語モデル記憶部122に記録する。
【0017】
単音節単語分割部101は、単漢字に区切られた学習コーパス121を単音節単語に分割する。本実施形態では単音節単語に言語的制約性を付与するための属性情報として単音節単語が属していた単漢字の読みの種類を示す読み種類情報を付与している。
【0018】
以下、単漢字の読みの種類について説明する。
単漢字の読みの種類とは当該単漢字が音読み、訓読みのいずれであるかという情報である。従来、属性として用いられていた品詞情報は単語の読み(発音)との相関が殆どないため、言語的制約性をあまり強化できないと考えられる。一方、音読みまたは訓読みのいずれであるかは単語(単漢字)の読み(発音)と密接に関連している。また、例えば音読みの単漢字の前後には音読みの単漢字が出現しやすく、訓読みの単漢字が出現すること(重箱読みまたは湯桶読み)は特殊なケースである。このように、読みの種類は単漢字の持つ強い言語的制約性の1つとして捉えることができるため、読み種類情報を属性情報として単音節単語に付与することは、単音節単語の言語的制約性の強化に有効である。
【0019】
単語出現確率計算部102は、単音節単語分割部101によって単音節単語に分割された学習コーパス121を参照し、各単音節単語の前後に出現する単音節単語の出現確率を計算して、単音節単語用統計的言語モデルを生成する。尚、これら単音節単語分割部101及び単語出現確率計算部102の各機能は、対応するプログラムをコンピュータに実行させることによっても実現できる。
【0020】
学習コーパス121は、単音節単語分割部101に入力される前に予め区切りが付与され単漢字列に分割されている。この区切りは人間が手作業で付与したものでもよいし、形態素解析技術を利用してコンピュータが自動的に付与したものでもよい。また、学習コーパス121に区切りを付与する際に単漢字の読み情報を予め付与してもよいし、しなくてもよい。同様に上記読み種類情報についても予め付与してもよいし、しなくてもよい。これら読み情報及び読み種類情報を予め付与しない場合には、単音節単語分割部101がこれら情報を付与する。
【0021】
単漢字辞書111は、例えば図2に示すような各単漢字に当該単漢字の読み情報及び読み種類情報を対応付ける辞書であり、例えばROMなどの記憶手段に記録されている。ここで、1つの単漢字は通常複数の読みを持つが単音節単語には全ての読み情報を反映させる必要は無く、代表的な読みだけであってもよい。以下の例では、1つの単漢字に1つの読みだけを付与する場合について説明する。単音節単語分割部101は、単漢字辞書111を参照して学習コーパス121中の単漢字の読み情報と読み種類情報を取得する。尚、学習コーパス121中の単漢字に読み情報及び読み種類情報が予め付与されている場合はこれら情報をそのまま流用してもよく、単漢字辞書111を用意しなくともよい。
【0022】
単音節単語辞書112は、例えば図3に示すような単音節単語の表記と読み種類情報に基づいて単音節単語を網羅した辞書であり、例えばROMなどの記憶手段に記録されている。本実施形態では、単音節単語の表記を単漢字の読み情報(単音節の平仮名表記)と一致させているが、単音節単語は音声認識システムで認識する際に取り扱える単位で、かつ読み情報と対応付けられるものであればよい。例えば、単音節単語は平仮名1文字、アルファベット表記された単音節(発音音素の子音と母音を1つにまとめた文字)、または文字化した音素及び子音・母音に分割された音素片文字であってもよい。
【0023】
次に、図4に示すフローチャート、図5及び図6を用いて図1に示す統計的言語モデル生成装置100の動作について説明する。
まず、単音節単語分割部101は単漢字辞書111を参照して、与えられた学習コーパス121に含まれる単漢字の読み情報を取得すると共に、読み種類情報を取得する(ステップS501)。ここで、学習コーパス121として例えば図5(a)に示す単漢字に分割済みのテキスト「/特/許/提/案/の/受/付/期/限/は/三/月/まで/です/。/当/日/まで/に/必/ず/受/付/窓/口/へ/持/って/来/て/下/さ/い/。/」が与えられたとする。このとき、単音節単語分割部101は、単漢字「特」、「許」、・・・、「下」を抽出し、単漢字辞書111を参照することにより、「とっ(音読み)」、「きょ(音読み)」、・・・、「くだ(訓読み)」のように読み情報と読み種類情報を取得する。尚、学習コーパス121中の単漢字に既に読み情報及び読み種類情報が付与されている場合には本ステップS501を省略してもよい。また、本実施形態において単漢字以外の部分についてどのような処理を行うかについては言及しない。
【0024】
次に単音節単語分割部101は、ステップS501にて取得した単漢字の読み情報を、実際に使用する単音節単語の表記に変換する(ステップS502)。しかしながら、本実施形態では単音節単語の表記として単音節を平仮名表記しており、単漢字の読み情報も平仮名を用いるため、本ステップS502を省略する。なおここで、単音節単語の「表記」とは、人が言葉をどう発音するかを表した文字である。そのため、この「表記」は認識結果として単音節単語の列を画面に表示する時の文字と同一である必要はない。本実施例では単音節単語の表記は平仮名であるが、例えば画面表示時にはカタカナで表記されても構わない。また、単漢字の読みと単音節単語の表記列が文字列として一致しない例外的な場合も存在する。例えば「東京(読み:とうきょう)」は日本人には一般に「とーきょー」と発声される。そのため、「とうきょう」を単音節単語列に分割すると「と」「ー(お)」「きょ」「ー(お)」に分割されることになる。なお、このような例外的な対応付けは「と」の後ろの「う」や「け」の後ろの「い」のように事前に例外規則としてリストアップすることが可能である。
【0025】
次に単音節単語分割部101は、単音節単語辞書112を参照して単漢字の読み情報に対応する単音節単語の表記と読み種類情報から学習コーパス121中の単漢字部分を単音節単語に分割する(ステップS503)。学習コーパス121として図5(a)に示すテキストを用いる場合、「と(音読み)/っ(音読み)」、「きょ(音読み)」、・・・、「く(訓読み)/だ(訓読み)」のように各単漢字が単音節単語に分割される。具体的には、学習コーパス121中の「当日」、「必」、「持」の部分であれば、図5(b)に示すように分割される。最終的に学習コーパス121は同図5(c)に示すような単音節単語の列に分割され、当該単音節単語列が単語出現確率計算部102に入力される。尚、図5(c)中の「音」は「音読み」、「訓」は「訓読み」を夫々示し、図6についても同様である。
【0026】
次に、単語出現確率計算部102は単音節単語分割部101が作成した単音節単語単位に分割された学習コーパス121に基づいて各単音節単語の前後に出現する単音節単語の出現数を数えることにより、単音節単語の組み合わせの出現確率を計算し、単音節単語用統計的言語モデル122を生成して出力する(ステップS504)。
【0027】
以下、一例として2つの単音節単語の組み合わせの出現数を数える場合について説明する。しかしながら、2単語の組み合わせに限らず3単語以上の組み合わせの出現数を数えても同様に本実施形態の効果は得られる。出現確率の計算方法は文献1(「確率モデルによる音声認識」 中川聖一著 電子情報通信学会 ISBN4088552-072-X)及び文献2(「音声言語処理 コーパスに基づくアプローチ」 北研二 森北出版 ISBN40627-82380-0)に紹介されているいずれの方法を使用してもよい。
【0028】
以下では例として条件付確率を計算する例を示す。図5に示す例において単音節単語「け(訓読み)」が与えられた際、直後に来る単音節単語を集計すると、図6(d−14)より単音節単語「き(音読み)」の出現数が1回、図6(d−15)より単音節単語「つ(訓読み)」の出現数が2回、図6(d−16)より単音節単語「ま(訓読み)」の出現数が1回となる。従って、単音節単語「け(訓読み)」が与えられた際、直後に単音節単語「き(音読み)」が出現する確率は1/4=25%と計算され、単音節単語「つ(訓読み)」が出現する確率は2/4=50%と計算され、単音節単語「ま(訓読み)」が出現する確率は1/4=25%と計算される。図6に示すように、他の単音節単語についても同様に直後に続く単音節単語を集計することにより条件付確率を計算することができる。また、上記例では簡単のため図5(a)に示す比較的短いテキストを学習コーパス121として用いたが、より大量のテキストを用いて学習させることによって単漢字が本来持つ強い言語的制約性(偏り)をより反映した単音節単語用統計的言語モデルを得ることが可能である。
【0029】
以上説明したように本実施形態によれば、サブワードとして必要な単語数は基本的な単音節数を100語とした場合、読み種類情報は2種類しかないので、100×2=200語程度となる。従って、従来に比べて少ない単語数であるにも関わらず単漢字の持つ強い言語的制約性を利用することによって未知語を正しく認識することができる。
【0030】
(第2の実施形態)
図7に示すように本発明の第2の実施形態に係る統計的言語モデル生成装置200は、図1に示す統計的言語モデル100において、単音節単語分割部101を単音節単語分割部201に、単音節単語辞書112を単音節単語辞書212に夫々置き換え、更に読み文字・単音節対応表213を新たに設けている。単音節単語用統計的言語モデル生成装置200は、学習コーパス121から単音節単語用言語モデルを生成し、単音節単語用統計的言語モデル記憶部222に記録する。以下の説明では図7において、図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。
【0031】
単音節単語分割部201は、単漢字に区切られた学習コーパス121を単音節単語に分割する。本実施形態では単音節単語に言語的制約性を付与するための属性情報として単音節単語が属していた単漢字中における当該単音節単語の位置を示す位置情報を付与している。
【0032】
以下、単漢字における単音節単語の位置について説明する。
本実施形態において、単音節単語の位置として「先頭」、「字中」及び「末尾」を規定している。即ち、「先頭」は各単漢字の読み文字列における先頭を意味し、「末尾」は各単漢字の読み文字列における末尾(終端)を意味し、「字中」は先頭及び末尾のいずれにも該当しないことを意味する。また、単漢字の読みが単音節の場合には当該単音節は先頭であり末尾でもあるため、位置情報として「先頭かつ末尾」と規定する。これに対して従来用いられていた順番数という概念で位置を分類しようとする場合、認識したい単語の最大長に相当する順番数を用意する必要がある。また、順番数で位置情報を規定する場合には末尾を表現することができないため、後続する単音節単語が同一の単漢字に属するのか他の単漢字に属するかを区別できない。一方、単音節単語の位置を「先頭」、「字中」、「末尾」及び「先頭かつ末尾」の4種類で分類すれば5語以上の単語長を持つ単語であっても認識することが可能であり、しかも「末尾」または「先頭かつ末尾」の位置情報によって末尾を表現することも可能である。このように末尾を表現することが可能となれば、位置情報として「先頭」または「字中」を持つ単音節単語の直後には、位置情報として「字中」または「末尾」を持つ単音節単語が出現し(同一単漢字内における言語的制約性)、位置情報として「末尾」または「先頭かつ末尾」を持つ単音節単語の直後には、通常単語または単音節単語の位置情報として「先頭」または「先頭かつ末尾」を持つ単音節単語が出現する(連続する単漢字間における言語的制約性)といった言語的制約性を利用できる。
【0033】
単音節単語辞書212は、例えば図7に示すような単音節単語の表記と位置情報に基づいて単音節単語を網羅した辞書であり、例えばROMなどの記憶手段によって記録されている。本実施形態では、単音節単語としてアルファベット表記された単音節を用いているが、単音節単語は音声認識システムで認識する際に取り扱える単位で、かつ読み情報と対応付けられるものであればよい。例えば、単音節単語は平仮名1文字、仮名表記された単音節(発音音素の子音と母音を1つにまとめた文字)、または文字化した音素及び子音・母音に分割された音素片文字であってもよい。
【0034】
読み文字・単音節対応表213は、例えば図9に示すような各単漢字の読み文字と単音節の表記を対応付ける表であり、例えばROMなどの記憶手段によって記録されている。本実施形態では単音節をアルファベット表記しており、単漢字の読み情報(平仮名)は読み文字・単音節対応表によって適切な表記に変換される。即ち、単音節単語分割部201は読み文字・単音節対応表213に基づいて単漢字の読み情報から単音節の表記を取得する。尚、前述した第1の実施形態のように単漢字の読み情報と単音節の表記が共に平仮名である場合など、両者が一致する場合には読み文字・単音節対応表213を用意しなくともよい。
【0035】
次に、図4に示すフローチャート、図10及び図11を用いて図7に示す統計的言語モデル生成装置200の動作について説明する。
まず、単音節単語分割部201は単漢字辞書111を参照して、与えられた学習コーパス121に含まれる単漢字の読み情報を取得する(ステップS501)。ここで、学習コーパス121として例えば図10(a)に示す単漢字に分割済みのテキスト「/特/許/提/案/の/受/付/期/限/は/三/月/まで/です/。/当/日/まで/に/必/ず/受/付/窓/口/へ/持/って/来/て/下/さ/い/。/」が与えられたとする。このとき、単音節単語分割部201は、単漢字「特」、「許」、・・・、「必」、・・・、「下」を抽出し、単漢字辞書111を参照することにより、「とっ」「きょ」、・・・、「かなら」、・・・、「くだ」のように読み情報を取得する。尚、学習コーパス121中の単漢字に既に読み情報が付与されている場合には本ステップS501を省略してもよい。また、本実施形態において単漢字以外の部分についてどのような処理を行うかについては言及しない。
【0036】
次に単音節単語分割部201は、ステップS501にて取得した単漢字の読み情報を、実際に使用する単音節単語の表記に変換する(ステップS502)。本実施形態において、読み情報として単音節の平仮名表記を用いており、単音節単語として単音節のアルファベット表記を用いているため、ステップS501にて取得した読み情報をこれ以降の処理に使えない。従って、単音節単語分割部201は読み文字・単音節対応表213を参照して、読み文字をアルファベット表記された単音節に適宜変換する。具体的には、単音節単語分割部201は読み文字・単音節対応表213を検索しながら読み文字列が最長一致した単音節列に変換する。
【0037】
次に単音節単語分割部201は、単音節単語辞書212を参照して単漢字の読み情報に対応する単音節単語の表記と位置情報から学習コーパス121中の単漢字部分を単音節単語に分割する(ステップS503)。学習コーパス121として図10(a)に示すテキストを用いる場合、「TO(先頭)/tu(末尾)」、「KYO(先頭かつ末尾)」、・・・、「KA(先頭)/NA(字中)/RA(末尾)」、・・・、「KU(先頭)/DA(末尾)」のように位置情報を付与されながら、単漢字は単音節単語に分割される。具体的には、学習コーパス121中の「当日」、「必」、「持」の部分であれば、図11(b)に示すように分割される。学習コーパス121は最終的に同図10(c)に示すような単音節単語の列に分割され、当該単音節単語列が単語出現確率計算部102に入力される。尚、図10(c)中の「先」は「先頭」、「中」は「字中」、「末」は「末尾」、「先末」は「先頭かつ末尾」を夫々示し、図11についても同様である。
【0038】
次に、単語出現確率計算部102は単音節単語分割部201が作成した単音節単語単位に分割された学習コーパス121に基づいて各単音節単語の前後に出現する単音節単語の出現数を数えることにより、単音節単語の組み合わせの出現確率を計算し、単音節単語用統計的言語モデルを生成して出力する(ステップS504)。ここでは、一例として前述した第1の実施形態における単語出現確率計算部102と同様の計算に基づいて説明する。図10に示す例において単音節単語「KE(末尾)」が与えられた際、直後に来る単音節単語を集計すると、図11(e−14)より単音節単語「KI(先頭かつ末尾)」の出現数が1回、図11(e−15)より単音節単語「TU(先頭)」の出現数が2回、図11(e−16)より単音節単語「MA(先頭)」の出現数が1回となる。従って、単音節単語「KE(末尾)」が与えられた際、直後に単音節単語「KI(先頭かつ末尾)」が出現する確率は1/4=25%と計算され、単音節単語「TU(先頭)」が出現する確率は2/4=50%と計算され、単音節単語「MA(先頭)」が出現する確率は1/4=25%と計算される。図11に示すように、他の単音節単語についても同様に直後に続く単音節単語を集計することにより条件付確率を計算することができる。また、上記例では簡単のため図10(a)に示す比較的短いテキストを学習コーパス121として用いたが、より大量のテキストを用いて学習させることによって単漢字が本来持つ強い言語的制約性(偏り)をより反映した単音節単語用統計的言語モデルを得ることが可能である。
【0039】
以上説明したように本実施形態によれば、サブワードとして必要な単語数は基本的な単音節数を100語とした場合、位置情報は4種類しかないので、100×4=400語程度となる。従って、従来に比べて少ない単語数であるにも関わらず単漢字の持つ強い言語的制約性を利用することによって未知語を正しく認識することができる。
【0040】
(第3の実施形態)
本発明の第3の実施形態に係る統計的言語モデル生成装置300は、図1に示す統計的言語モデル100において、単音節単語分割部101を単音節単語分割部301に、単音節単語辞書112を単音節単語辞書312に夫々置き換えている。単音節単語用統計的言語モデル生成装置300は、学習コーパス121から単音節単語用言語モデルを生成し、単音節単語用統計的言語モデル記憶部322に記録する。以下の説明では図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。
【0041】
単音節単語分割部301は、単漢字に区切られた学習コーパス121を単音節単語に分割する。本実施形態では単音節単語に言語的制約性を付与するための属性情報として前述した読み種類情報及び位置情報を付与している。
【0042】
単音節単語辞書312は、例えば図12に示すような単音節単語の表記、読み種類情報及び位置情報に基づいて単音節単語を網羅した辞書であり、例えばROMなどの記憶手段によって記録されている。本実施形態では、単音節単語の表記を単漢字の読み情報(単音節の平仮名表記)と一致させているが、単音節単語は音声認識システムで認識する際に取り扱える単位で、かつ読み情報と対応付けられるものであればよい。例えば、単音節単語は平仮名1文字、アルファベット表記された単音節(発音音素の子音と母音を1つにまとめた文字)、または文字化した音素及び子音・母音に分割された音素片文字であってもよい。
【0043】
次に、図4に示すフローチャート、図13及び図14を用いて本実施形態に係る統計的言語モデル生成装置300の動作について説明する。
まず、単音節単語分割部301は単漢字辞書111を参照して、与えられた学習コーパス121に含まれる単漢字の読み情報を取得すると共に、読み種類情報を取得する(ステップS501)。ここで、学習コーパス121として例えば図13(a)に示す単漢字に分割済みのテキスト「/特/許/提/案/の/受/付/期/限/は/三/月/まで/です/。/当/日/まで/に/必/ず/受/付/窓/口/へ/持/って/来/て/下/さ/い/。/」が与えられたとする。このとき、単音節単語分割部301は、単漢字「特」、「許」、・・・、「必」、・・・、「下」を抽出し、単漢字辞書111を参照することにより、「とっ(音読み)」「きょ(音読み)」、・・・、「かなら(訓読み)」、・・・、「くだ(訓読み)」のように読み情報及び読み種類情報を取得する。尚、学習コーパス121中の単漢字に既に読み情報及び位置情報が付与されている場合には本ステップS501を省略してもよい。また、本実施形態において単漢字以外の部分についてどのような処理を行うかについては言及しない。
【0044】
次に単音節単語分割部301は、ステップS501にて取得した単漢字の読み情報を、実際に使用する単音節単語の表記に変換する(ステップS502)。しかしながら、本実施形態では単音節単語の表記として単音節を平仮名表記しているが、単漢字の読み情報も平仮名であるため、本ステップS502を省略する。
【0045】
次に単音節単語分割部301は、単音節単語辞書112を参照して単漢字の読み情報に対応する単音節単語の表記、読み種類情報及び位置情報から学習コーパス121中の単漢字部分を単音節単語に分割する(ステップS503)。学習コーパス121として図13(a)に示すテキストを用いる場合、「と(音読み・先頭)/っ(音読み・末尾)」、「きょ(音読み・先頭かつ末尾)」、・・・、「か(訓読み・先頭)/な(訓読み・字中)/ら(訓読み・末尾)」、・・・、「く(訓読み・先頭)/だ(訓読み・末尾)」のように位置情報を付与されながら、単漢字は単音節単語に分割される。具体的には、学習コーパス121中の「当日」、「必」、「持」の部分であれば、図11(b)に示すように分割される。学習コーパス121は最終的に同図13(c)に示すような単音節単語の列に分割され、当該単音節単語列が単語出現確率計算部102に入力される。尚、図13(c)中の「音」は「音読み」、「訓」は「訓読み」、「先」は「先頭」、「中」は「字中」、「末」は「末尾」、「先末」は「先頭かつ末尾」を夫々示し、図14についても同様である。
【0046】
次に、単語出現確率計算部102は単音節単語分割部301が作成した単音節単語単位に分割された学習コーパス121に基づいて各単音節単語の前後に出現する単音節単語の出現数を数えることにより、単音節単語の組み合わせの出現確率を計算し、単音節単語用統計的言語モデルを生成して出力する(ステップS504)。ここでは、一例として前述した第1の実施形態における単語出現確率計算部102と同様の計算に基づいて説明する。図13に示す例において単音節単語「け(訓読み・末尾)」が与えられた際、直後に来る単音節単語を集計すると、図13(f−14)より単音節単語「き(音読み・先頭かつ末尾)」の出現数が1回、図13(f−15)より単音節単語「つ(訓読み・先頭)」の出現数が2回、図6(f−16)より単音節単語「ま(訓読み・先頭)」の出現数が1回となる。従って、単音節単語「け(訓読み・末尾)」が与えられた際、直後に単音節単語「き(音読み・先頭かつ末尾)」が出現する確率は1/4=25%と計算され、単音節単語「つ(訓読み・先頭)」が出現する確率は2/4=50%と計算され、単音節単語「ま(訓読み・先頭)」が出現する確率は1/4=25%と計算される。図14に示すように、他の単音節単語についても同様に直後に続く単音節単語を集計することにより条件付確率を計算することができる。また、上記例では簡単のため図13(a)に示す比較的短いテキストを学習コーパス121として用いたが、より大量のテキストを用いて学習させることによって単漢字が本来持つ強い言語的制約性(偏り)をより反映した単音節単語用統計的言語モデルを得ることが可能である。
【0047】
以上説明したように本実施形態によれば、サブワードとして必要な単語数は基本的な単音節数を100語とした場合、読み種類情報は2種類、位置情報は4種類しかないので、100×2×4=800語程度となる。従って、従来に比べて少ない単語数であるにも関わらず単漢字の持つ強い言語的制約性を利用することによって未知語を正しく認識することができる。
【0048】
(第4の実施形態)
図15に示すように本発明の第4の実施形態に係る音声認識装置400は、音声入力部401、音声認識部402、単音節単語辞書411、単音節単語用統計的言語モデル412、通常単語辞書413、通常単語用統計的言語モデル414及び音響モデル415を有する。
【0049】
音声入力部401は、ユーザ421からの入力音声を受け取り、一定の時間間隔(例えば10msecなど)のフレーム単位ごとにマッチング処理に適した音響的な特徴量(入力音声データ)に変換する。なお、ユーザの音声を入力する方法は特に限定しない。認識対象の音声をマイクロホン経由で音声入力部301へ入力してもよいし、音声を記録手段によって一旦記憶媒体に保存し、保存された音声データを音声入力部301へデジタル信号として入力してもよい。
【0050】
音声認識部402は、音声入力部301からフレーム単位で入力された入力音声データを取得し、音響モデル415を使用して入力音声データと認識対象の全音素との一致度(音響スコア)を計算する。同時に、音声認識部402は通常単語辞書413及び単音節単語辞書411を用いて入力音素列が認識対象語彙のどの単語と完全一致または部分一致するかを判定する。音声認識部402は当該判定結果に基づいて、通常単語用統計的言語モデル414及び単音節単語用統計的言語モデル412を用いて入力音素列の言語的な妥当性(言語スコア)を計算する。音声認識部402は、音響スコアと言語スコアの累積値に基づいてパターンマッチングの探索を発声終端に到達するまで繰り返し、当該累積値の最も高い単語列を認識結果422として出力する。尚、これら音声入力部401及び音声認識部402の各機能は、対応するプログラムをコンピュータに実行させることによっても実現できる。
【0051】
単音節単語辞書411及び単音節単語用統計的言語モデル記憶部412は、前述した各実施形態に対応する単音節単語辞書112、212、312及び単音節単語用統計的言語モデル記憶部122、222、322のいずれか1組を用いる。以下では単音節単語辞書112及び単音節単語用統計的言語モデル記憶部122を用いた例について説明している。
【0052】
通常単語辞書413及び通常単語用統計的言語モデル414は音声認識装置400で使用できるものであればよい。また、音響モデル415も同様に音声認識装置400で使用できるものであればよく、例えば先に挙げた文献1、2に紹介されている方法によって作成できる。また、現在市販されている音声認識システムではHMM(Hidden Markov Model:隠れマルコフモデル)技術が一般的に利用されている。
【0053】
以下、図16及び図17を用いて本実施形態に係る音声認識装置400の動作について説明する。
図16は「とっきょ」という音声が入力されたときの音声認識部402の動作の様子を示している。図16では音素の認識の様子を理解しやすいように木構造で示している。連続音声認識システムは音声認識された結果を履歴として保存し、文脈を考慮して各単語の言語的な出現のしやすさ(妥当性)を計算している。図17ではこの文脈を「先行単語」として表現している。なお、本例では先行単語は直前の1単語だが、直前の複数単語の履歴であってもかまわない。まず、最初の発声では先行単語は存在しないので例えば「文頭」にどのような単語が出現しやすいかを表すための<文頭>という特別な単語で代用する。音声認識部402は音声データが入力されると、まず音響モデル415に基づいて各音素との一致度(音響スコア)を計算する。ここでは、「と」が入力されているので「と」の音素やそれと発音が似ている「の」や「そ」などの音響スコアが高いという結果になる。また同時に音声認識部402は、「と」、「の」、「そ」が文頭にどのくらい言語的に出現しやすいか(言語スコア)も計算する。例えば「と」が文頭に出現することの言語的妥当性は「と」で始まる全単語の文頭での出現確率の平均を単語の平均音素長で割るなどして計算される。音声認識部402はこの音響スコアと言語スコアの値から「と」、「そ」、「の」のいずれが入力されたかを判定する。ここでは結果的に「と」が選択されたとする。次に、音声認識部402は「と」を1文字で構成される単語を通常単語辞書413から検索する。ここでは「と(助詞)」、「都(名詞)」の2単語が通常単語辞書413中に存在したとする。また、音声認識部402は同時に単音節単語辞書411を検索する。ここでは「と(音節:音読み)」、「と(音節:訓読み)」の2単語が単音節単語辞書411中に存在したとする。このような単語が存在する場合には、音声認識部402は検索された単語を先行単語のW0に設定し直して図16の木構造の先端から音声認識処理を繰り返す。
【0054】
また、前述した検索の際に「と」を部分文字列として含む単語が単音節単語辞書411または通常単語辞書413に存在する時には「と」に継続する音素列の言語的妥当性を引き続き計算する。本例では「と」の次の入力は「っ」なので、「と」に継続する音素候補の中で「っ」や「つ」が認識結果候補になる。ここで「っ」を終端とする単語がないとすれば、音声認識部402は「とっ」に継続する音素列の言語的妥当性を計算する。本例では「っ」の次の入力は「きょ」なので音響的に近い「き」や「きゃ」が認識候補になる。そして、夫々を終端とする「特記(とっき)」や「特許(とっきょ)」が認識候補とされる。ここで、「とっき」や「とっきょ」を発音の先頭部分の部分文字列として含む単語が検索できなければ、この木構造の形の認識候補の探索は終了する。次に、音声認識部402は今回認識候補として検出された「特記」「特許」を先行単語とする木構造の先端から改めて探索繰り返す。
【0055】
探索が入力音声の発声終端位置に到達すると、それまでに検出された単語の組み合わせ列が認識結果候補単語系列となる。そして、各認識結果候補単語列に含まれる各認識結果候補単語の音響スコアと言語スコアの累積値がもっとも大きな認識結果候補単語列が第1位の認識結果422となる。図12の例では「特許」という単独の単語が音響スコア(as)と言語スコア(ls)の和が−3300で最も大きな値になるため、「特許」が第1位の認識結果422として出力される。なお、通常単語用辞書413に「特許」という単語が存在しない時には、「と(音節:音読み)、っ(音節:音読み)、きょ(音節:音読み)」という認識結果候補単語列のスコアの累積値が−3900で最も大きな値になるため、「と(音節:音読み)、っ(音節:音読み)、きょ(音節:音読み)」が第1位の音声認識結果422となる。従って「特許」という単語が通常単語用辞書413に無い時に、従来であれば「特記よ」(累積値:−6400)を認識結果422とする誤認識をしていたが、単音節単語用統計的言語モデル412を用いることにより「とっきょ」という音読みの単語を認識結果422として出力することができる。
【0056】
音声認識装置400は単音節単語用統計的言語モデル412を用いることにより、前述した読み種類情報や位置情報といった単漢字の持つ言語的制約性に関する情報を利用しているため、未知語であっても単音節単語の列として精度良く認識できる。例えば、図17では助詞の「と」の後ろには音読みの「つ」は出現しにくいという情報(g008)があるために「と(助詞)、つ(音節:音読み)、きょ(音節:音読み)」という誤った単語系列を生成することを回避できる。もし、読み種類の区別なく「と」と「つ」のつながりやすさを計算してしまうと、「と(助詞)」に後続する「つ(音節)」は訓読みの「つ」の影響で本来よりも出現しやいと判定されてしまう。このように読み種類情報や位置情報などを付与せずに単音節単語のみによる認識を行おうとすると、出現頻度の低いつながりを高いと誤認したり、出現頻度の高いつながりを低いと誤認したりするため、正確な認識を期待できない。
【0057】
なお、本実施形態は音声認識の具体的な処理方式に関して上記に限定されるものではない。先に挙げた文献2に紹介されている他の方法を使用してもかまわない。例えば、複数の単語を連続的に音声入力された場合の音声認識の一般的な方法について文献2の71ページ以降で解説されている。
【0058】
以上説明したように本実施形態では、前述した第1乃至第3の実施形態で作成した単音節単語用統計的言語モデルを用いるため、通常単語用辞書に登録されていない未知語を単音節単語の列として正しく認識することができる。
【0059】
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
【0060】
その一例として例えば、上記実施の形態では漢字以外の部分に関しては属性情報を付与しない例について説明した。しかしながら、漢字以外の部分について「助詞」などの品詞情報が付与されていてもよい。品詞情報が付与されている場合は、出現確率を計算する際に当該品詞情報を使用することが可能である。即ち、出現確率を計算する際に、例えば平仮名の「の」であれば「助詞の『の』」と「名詞の『の』」を区別して取り扱う。
【0061】
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
【図面の簡単な説明】
【0062】
【図1】本発明の第1の実施形態に係る統計的言語モデル生成装置100を示すブロック図。
【図2】図1に示す単漢字辞書111の一例を示す図。
【図3】図1に示す単音節単語辞書112の一例を示す図。
【図4】図1に示す統計的言語モデル生成装置100の動作を示すフローチャート。
【図5】(a)図1に示す単音節単語分割部101に入力される学習コーパス121の一例を示す図。(b)単音節単語分割部101による(a)に示す学習コーパス121の分割例の一部を示す図。(c)単音節単語分割部101によって(a)に示す学習コーパス121から最終的に分割される単音節単語列を示す図。
【図6】図5(c)に示す単音節単語列から抽出可能な2つの単音節単語の組み合わせの出現数の集計結果を示す図。
【図7】本発明の第2の実施形態に係る統計的言語モデル生成装置200を示すブロック図。
【図8】図7に示す単音節単語辞書212の一例を示す図。
【図9】図7に示す読み文字・単音節対応表213の一例を示す図。
【図10】(a)図7に示す単音節単語分割部201に入力される学習コーパス121の一例を示す図。(b)単音節単語分割部201による(a)に示す学習コーパス121の分割例の一部を示す図。(c)単音節単語分割部201によって(a)に示す学習コーパス121から最終的に分割される単音節単語列を示す図。
【図11】図10(c)に示す単音節単語列から抽出可能な2つの単音節単語の組み合わせの出現数の集計結果を示す図。
【図12】本発明の第3の実施形態に係る統計的言語モデル生成装置300中の単音節単語辞書313の一例を示す図。
【図13】(a)本発明の第3の実施形態に係る統計的言語モデル生成装置300中の単音節単語分割部301に入力される学習コーパス121の一例を示す図。(b)単音節単語分割部301による(a)に示す学習コーパス121の分割例の一部を示す図。(c)単音節単語分割部301によって(a)に示す学習コーパス121から最終的に分割される単音節単語列を示す図。
【図14】図13(c)に示す単音節単語列から抽出可能な2つの単音節単語の組み合わせの出現数の集計結果を示す図。
【図15】本発明の第4の実施形態に係る音声認識装置400を示すブロック図。
【図16】図15に示す音声認識部402の動作例を示す図。
【図17】図15に示す音声認識部402で用いる単語表と言語スコアの一例を示す図。
【符号の説明】
【0063】
100・・・統計的言語モデル生成装置
101・・・単音節単語分割部
102・・・単語出現確率計算部
111・・・単漢字辞書
112・・・単音節単語辞書
121・・・学習コーパス
122・・・単音節単語用統計的言語モデル記憶部
200・・・統計的言語モデル生成装置
201・・・単音節単語分割部
212・・・単音節単語辞書
213・・・読み文字・単音節対応表
222・・・単音節単語用統計的言語モデル記憶部
300・・・統計的言語モデル生成装置
312・・・単音節単語辞書
322・・・単音節単語用統計的言語モデル記憶部
400・・・音声認識装置
401・・・音声入力部
402・・・音声認識部
411・・・単音節単語辞書
412・・・単音節単語用統計的言語モデル
413・・・通常単語辞書
414・・・通常単語用統計的言語モデル
415・・・音響モデル
421・・・ユーザ
422・・・認識結果
【特許請求の範囲】
【請求項1】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と、
を具備することを特徴とする統計的言語モデル生成装置。
【請求項2】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と、
を具備することを特徴とする統計的言語モデル生成装置。
【請求項3】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と、
を具備することを特徴とする統計的言語モデル生成装置。
【請求項4】
前記統計的言語モデルに含まれる前記単音節単語の表記は仮名表記であることを特徴とする請求項1乃至3いずれか1項記載の統計的言語モデル生成装置。
【請求項5】
前記統計的言語モデルに含まれる前記単音節単語の表記はアルファベット表記であることを特徴とする請求項1乃至3いずれか1項記載の統計的言語モデル生成装置。
【請求項6】
(a)複数の単音節単語、(b)各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも1つ、及び(c)連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶手段と、
入力音声の認識候補となる複数の単音節単語列から、(a)各単音節単語列と前記入力音声の音響的な一致度と、(b)各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識手段と、
を具備したことを特徴とする音声認識装置。
【請求項7】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求めるステップと、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算ステップと、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶ステップと、
を具備することを特徴とする統計的言語モデル生成方法。
【請求項8】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求めるステップと、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算ステップと、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶ステップと、
を具備することを特徴とする統計的言語モデル生成方法。
【請求項9】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求めるステップと、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算ステップと、
前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶ステップと、
を具備することを特徴とする統計的言語モデル生成方法。
【請求項10】
(a)複数の単音節単語、(b)各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも1つ、及び(c)連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶ステップと、
入力音声の認識候補となる複数の単音節単語列から、(a)各単音節単語列と前記入力音声の音響的な一致度と、(b)各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識ステップと、
を具備したことを特徴とする音声認識方法。
【請求項11】
コンピュータを
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段、
として機能させるための統計的言語モデル生成プログラム。
【請求項12】
コンピュータを
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段、
前記複数の単音節単語と、各単音節単語の前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段、
として機能させるための統計的言語モデル生成プログラム。
【請求項13】
コンピュータを
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段、
前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段、
として機能させるための統計的言語モデル生成プログラム
【請求項14】
コンピュータを
(a)複数の単音節単語、(b)各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも1つ、及び(c)連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶手段、
入力音声の認識候補となる複数の単音節単語列から、(a)各単音節単語列と前記入力音声の音響的な一致度と、(b)各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識手段、
として機能させるための音声認識プログラム。
【請求項1】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と、
を具備することを特徴とする統計的言語モデル生成装置。
【請求項2】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と、
を具備することを特徴とする統計的言語モデル生成装置。
【請求項3】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段と、
を具備することを特徴とする統計的言語モデル生成装置。
【請求項4】
前記統計的言語モデルに含まれる前記単音節単語の表記は仮名表記であることを特徴とする請求項1乃至3いずれか1項記載の統計的言語モデル生成装置。
【請求項5】
前記統計的言語モデルに含まれる前記単音節単語の表記はアルファベット表記であることを特徴とする請求項1乃至3いずれか1項記載の統計的言語モデル生成装置。
【請求項6】
(a)複数の単音節単語、(b)各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも1つ、及び(c)連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶手段と、
入力音声の認識候補となる複数の単音節単語列から、(a)各単音節単語列と前記入力音声の音響的な一致度と、(b)各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識手段と、
を具備したことを特徴とする音声認識装置。
【請求項7】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求めるステップと、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算ステップと、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶ステップと、
を具備することを特徴とする統計的言語モデル生成方法。
【請求項8】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求めるステップと、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算ステップと、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶ステップと、
を具備することを特徴とする統計的言語モデル生成方法。
【請求項9】
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求めるステップと、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算ステップと、
前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶ステップと、
を具備することを特徴とする統計的言語モデル生成方法。
【請求項10】
(a)複数の単音節単語、(b)各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも1つ、及び(c)連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶ステップと、
入力音声の認識候補となる複数の単音節単語列から、(a)各単音節単語列と前記入力音声の音響的な一致度と、(b)各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識ステップと、
を具備したことを特徴とする音声認識方法。
【請求項11】
コンピュータを
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類とを求める手段、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段と、
前記複数の単音節単語と、各単音節単語の前記読み種類と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段、
として機能させるための統計的言語モデル生成プログラム。
【請求項12】
コンピュータを
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段、
前記複数の単音節単語と、各単音節単語の前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段、
として機能させるための統計的言語モデル生成プログラム。
【請求項13】
コンピュータを
複数の単漢字列を含むテキスト中の各単漢字の読みを単音節単語に分割することにより、複数の単音節単語と、各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とを求める手段と、
前記テキスト中での各単音節単語の出現回数と、連続する複数の前記単音節単語の組合せ毎の出現回数とを基に、該組合せ毎の出現確率を計算する計算手段、
前記複数の単音節単語と、各単音節単語の前記読み種類及び前記位置情報と、前記組合せ毎の出現確率とを含む統計的言語モデルを記憶する記憶手段、
として機能させるための統計的言語モデル生成プログラム
【請求項14】
コンピュータを
(a)複数の単音節単語、(b)各単音節単語について当該単音節単語を含む単漢字の読みが音読みと訓読みのいずれであるかを示す読み種類と、各単音節単語について当該単音節単語が該単音節単語を含む単漢字の読みの「先頭」、「末尾」、「先頭及び末尾以外」及び「先頭かつ末尾」のうちのいずれに位置するかを示す位置情報とのうちの少なくとも1つ、及び(c)連続する複数の単音節単語の組合せ毎の出現確率を含む統計的言語モデルを記憶する記憶手段、
入力音声の認識候補となる複数の単音節単語列から、(a)各単音節単語列と前記入力音声の音響的な一致度と、(b)各単音節単語列に含まれる各単音節単語の前記読み種類及び前記位置情報の少なくとも一方と、当該単音節単語列の前記出現確率とに基づく言語的な妥当性を示す言語スコアとに基づき、前記入力音声に最も確からしい単漢字列を求める音声認識手段、
として機能させるための音声認識プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公開番号】特開2008−249761(P2008−249761A)
【公開日】平成20年10月16日(2008.10.16)
【国際特許分類】
【出願番号】特願2007−87196(P2007−87196)
【出願日】平成19年3月29日(2007.3.29)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成20年10月16日(2008.10.16)
【国際特許分類】
【出願日】平成19年3月29日(2007.3.29)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]