音声認識装置、音声認識方法及びコンピュータプログラム
【課題】音声認識処理の精度を向上させる音声認識装置、音声認識方法及びコンピュータプログラムを提供する。
【解決手段】単語辞書13cに登録してある認識単語に棄却単語を付与する場合、音声分析部10aは、複数の棄却単語候補のそれぞれに対する複数の音声データのそれぞれから特徴パラメータを抽出する。音声照合部10bは、音声分析部10aによって抽出された特徴パラメータと、単語モデル生成部10cによって生成された各認識単語の単語モデルとの尤度を算出する。結果判定部10dは、各特徴パラメータに対して、尤度が最も高い単語モデルを認識結果とする。棄却単語生成部10eは、各特徴パラメータに対する認識結果に基づいて、棄却単語候補毎に、棄却単語を登録したい認識単語が認識結果であった発声数を計数し、計数した発声数が最も多い棄却単語候補を、前記認識単語に対応する棄却単語として単語辞書13cに登録する。
【解決手段】単語辞書13cに登録してある認識単語に棄却単語を付与する場合、音声分析部10aは、複数の棄却単語候補のそれぞれに対する複数の音声データのそれぞれから特徴パラメータを抽出する。音声照合部10bは、音声分析部10aによって抽出された特徴パラメータと、単語モデル生成部10cによって生成された各認識単語の単語モデルとの尤度を算出する。結果判定部10dは、各特徴パラメータに対して、尤度が最も高い単語モデルを認識結果とする。棄却単語生成部10eは、各特徴パラメータに対する認識結果に基づいて、棄却単語候補毎に、棄却単語を登録したい認識単語が認識結果であった発声数を計数し、計数した発声数が最も多い棄却単語候補を、前記認識単語に対応する棄却単語として単語辞書13cに登録する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号と、予め登録してある認識単語との類似度に基づいて、前記音声信号が前記認識単語のいずれであるかを判断し、認識結果を出力する音声認識装置、該音声認識装置による音声認識方法、前記音声認識装置をコンピュータによって実現するためのコンピュータプログラムに関する。
【背景技術】
【0002】
従来の音声認識装置において、認識単語の情報が登録された単語辞書と、棄却単語の情報が登録された棄却単語辞書とが予め用意されている装置がある(例えば、特許文献1,2参照)。このような音声認識装置は、話者により入力された音声情報と、単語辞書及び棄却単語辞書に登録されている情報とを比較し、入力された音声情報と最も類似する単語を特定する。そして、音声認識装置は、特定した単語が認識単語であれば認識結果として前記認識単語を出力し、特定した単語が棄却単語であれば認識結果無しとして、入力された音声情報を棄却する。
【0003】
上述したように棄却単語辞書を用いる構成では、棄却単語との類似度が1位となるような音声情報に対しては、どのような単語辞書を用いた場合であっても棄却されてしまう。そのため、認識結果に悪影響を与える可能性のある棄却単語を棄却単語辞書に登録しておかないといった対応が取られることがあった。しかし、このような棄却単語を棄却単語辞書に登録しておかない場合であっても、適切な認識結果が得られない場合もある。
【0004】
具体的には、例えば、入力された音声情報の認識結果として「おきなわ」を得たい場合を考える。また、入力された音声情報に対して、類似度を100点満点で表した場合に、「おきなあ」に対して98点、「おきなか」に対して95点、「おきなわ」に対して93点の類似度がそれぞれ得られたとする。
【0005】
ここで、単語辞書に「おきなか」及び「おきなわ」の情報が登録されており、棄却単語辞書に「おきなあ」の情報が登録されているとする。ここでは、類似度が1番高い「おきなあ」の情報が棄却単語辞書に登録されているので、認識結果無しとして、入力された音声信号が棄却される。
【0006】
一方、単語辞書に「おきなか」及び「おきなわ」の情報が登録されているが、棄却単語辞書に「おきなあ」の情報が登録されていないとする。ここでは、類似度が1番高い「おきなあ」の情報が単語辞書及び棄却単語辞書のいずれにも登録されておらず、類似度が2番目に高い「おきなか」の情報が単語辞書に登録されているので、認識結果として「おきなか」が出力される。
【0007】
上述したように、類似度が高い順に「おきなあ」、「おきなか」、「おきなわ」と認識されるような音声情報に対しては、「おきなあ」を棄却単語として登録しておいた場合であっても、登録しておかない場合であっても、適切な認識結果「おきなわ」を得ることができない。
【0008】
そこで、認識単語毎に未知語モデルの尤度(類似度)に掛ける重みを決定し、重みを掛けられた未知語モデルの尤度と認識結果とを比較して、認識結果の採用又は棄却を決定する装置が提案されている(例えば、特許文献3参照)。また、単語辞書に登録されている認識単語の特性に応じて、適切な棄却単語を生成して棄却単語辞書に登録する構成のシステムが提案されている(例えば、特許文献4参照)。
【特許文献1】特開2001−147698号公報
【特許文献2】特許第3105863号公報
【特許文献3】特開平10−171488号公報
【特許文献4】特開2006−154658号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
上述したような音声認識装置では、未知語モデル、未知語モデルに掛ける重みは、何らかの方法に従って人手で決定して登録される場合が多く、この場合、最適な未知語モデルの決定が困難である。また、棄却単語辞書に登録される棄却単語は、例えば認識単語の特徴に基づいて生成されるが、この場合、認識単語の特徴に基づいて棄却単語として生成されないような単語を棄却単語とすることができなかった。
【0010】
本発明は斯かる事情に鑑みてなされたものであり、その目的とするところは、音声認識処理の精度を向上させることが可能な音声認識装置、音声認識方法及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0011】
本願に開示する音声認識装置は、複数の認識単語を記憶する単語辞書を備え、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と単語辞書に記憶してある認識単語のそれぞれとの類似度をそれぞれ算出し、算出した類似度が高い認識単語を認識結果として出力する。本願に開示する音声認識装置では、単語辞書は、認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成であり、抽出した特徴量を用いて前記音声信号と単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出する。また、音声認識装置は、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して単語辞書に記憶してある認識単語を認識結果としないようにする。なお、音声認識装置は、算出した類似度が高い単語が認識単語であれば、この認識単語を認識結果として出力する。
【0012】
本願に開示する音声認識装置によれば、音声認識の処理対象の音声信号が、単語辞書に登録してある棄却単語と認識された場合、この棄却単語に対応して単語辞書に登録してある認識単語を認識結果から除外する。即ち、認識結果として得たい単語(認識単語)に類似する単語(類似単語)を発声した際の音声信号が、前記認識単語とは異なる単語(認識単語)と認識される場合に、前記類似単語を、前記異なる単語に対する棄却単語として登録しておく。これにより、前記音声信号は、前記異なる単語に対する棄却単語と認識され、前記異なる単語を認識結果から除外するので、誤認識を防止できる。
【発明の効果】
【0013】
本願に開示する音声認識装置では、認識結果として得たい認識単語に類似する単語の音声信号が、異なる認識単語と認識される可能性が高い場合であっても、前記異なる認識単語を認識結果としないので、適切な認識結果が得られ、音声認識処理の精度を向上させることができる。
【発明を実施するための最良の形態】
【0014】
以下に、本願に開示する音声認識装置、音声認識方法及びコンピュータプログラムを、各実施形態を示す図面に基づいて詳述する。なお、以下の各実施形態では、本願に開示するコンピュータプログラムを公知のパーソナルコンピュータ等に読み取らせ、パーソナルコンピュータのCPU(Central Processing Unit)等によって実行させることによって本願に開示する音声認識装置を実現する構成について説明する。しかし、等価な働きをす
るハードウェアによって本願に開示する音声認識装置を実現してもよい。
【0015】
(実施形態1)
以下に、本願に開示する音声認識装置を、実施形態1を示す図面に基づいて詳述する。図1は実施形態1の音声認識装置の構成を示すブロック図である。本実施形態1の音声認識装置1は、例えば公知のパーソナルコンピュータであり、制御部10、ROM(Read Only Memory)11、RAM(Random Access Memory)12、ハードディスクドライバ(以下、HDDという)13、操作部14、表示部15等を備え、これらのハードウェア各部はそれぞれバス1aを介して相互に接続されている。
【0016】
制御部10は、CPU又はMPU(Micro Processor Unit)等であり、ROM11又はHDD13に予め格納してある制御プログラムを適宜RAM12に読み出して実行すると共に、上述したハードウェア各部の動作を制御する。ROM11は、音声認識装置1を本発明の音声認識装置として動作させるために必要な種々の制御プログラムを予め格納している。RAM12はSRAM又はフラッシュメモリ等であり、制御部10による制御プログラムの実行時に発生する種々のデータを一時的に記憶する。
【0017】
HDD13は、大容量の記憶装置であり、音声認識装置1を本願に開示する音声認識装置として動作させるために必要な種々の制御プログラム、ユーザに対して各種の情報を通知するための画面情報等を予め格納している。また、HDD13は、本願に開示する音声認識装置として動作させるための種々の情報として、音声認識処理プログラム13a、棄却単語登録処理プログラム13b、図2(a)に示すような単語辞書13c、音響モデル13d、図2(b)に示すような読み付き音声データ13e等を格納している。
【0018】
図2は単語辞書13c及び読み付き音声データ13eの構成を示す模式図である。図2(a)に示すように、単語辞書13cには、音声認識装置1が行なう音声認識処理の認識結果となる認識単語のそれぞれについて読み及び音素列が対応付けて登録されている。なお、各認識単語の音素列は、各認識単語に含まれる音素について、各音素の特徴を示す音響モデルの並びを示している。
【0019】
読み付き音声データ13eは、棄却単語を付加したい認識単語に対する複数の棄却単語候補の単語毎に、複数の音声データ(音声信号)を記憶した複数の音声データファイル(図示せず)と、各単語の音声データファイルのファイル名及び各単語の読みを対応付けて記述したテキストファイルとを含む。図2(b)にはテキストファイルの記述内容の例を示す。
【0020】
なお、音声データファイルは、棄却単語候補の各単語を発声した音声を取得し、取得したアナログの音声データ(音声信号)をアナログ/デジタル変換処理によって変換したデジタルの音声データ(音声信号)を記憶する。また、1つの音声データファイルには、1つの棄却単語候補の単語についての音声データが100個(100発声)程度記憶されている。
【0021】
また、音響モデル13dの登録内容は図示しないが、音響モデル13dは、日本語の音素毎に各音素の特徴を表す音響モデル(特徴パターン)を格納している。なお、音響モデルは、例えば、MFCC(Mel Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)パラメータ等、音声認識の分野で通常用いられるパラメータを利用すればよい。
【0022】
HDD13に格納される各情報は、HDD13に予め格納されている構成に限られない。音声認識装置1が外部メモリ(図示せず)に記憶してあるデータの読み出しが可能なドライバ(図示せず)を備える場合には、外部メモリに記憶された各種情報をドライバによ
って読み出してHDD13に格納させてもよい。また、音声認識装置1がインターネットのようなネットワークとの接続が可能な通信部(図示せず)を備える場合には、ネットワークを介して外部の装置から各種情報をダウンロードしてHDD13に格納させてもよい。
【0023】
操作部14は、キーボード及びマウス等であり、ユーザが音声認識装置1を操作するために必要な各種の操作キーを備えている。ユーザにより各操作キーが操作された場合、操作部14は操作された操作キーに対応した制御信号を制御部10へ送出し、制御部10は操作部14から取得した制御信号に対応した処理を実行する。
表示部15は、液晶ディスプレイ又はCRTディスプレイ等であり、制御部10からの指示に従って、音声認識装置1の動作状態、操作部14を介して入力された情報、ユーザに対して通知すべき情報等を表示する。
【0024】
なお、本実施形態1の音声認識装置1は、マイクロフォン及びアナログ/デジタル変換器等を備えた音声入力部、デジタル/アナログ変換器、音声増幅回路及びスピーカ等を備えた音声出力部等を備える構成であってもよい。
【0025】
以下に、上述した構成の音声認識装置1において、制御部10がROM11又はHDD13に記憶してある制御プログラムを実行することによって実現される各種の機能について説明する。図3は実施形態1の音声認識装置1の機能構成を示す機能ブロック図である。
【0026】
本実施形態1の音声認識装置1において、制御部10は、操作部14を介してユーザから棄却単語登録処理の実行を要求された場合、HDD13に格納してある音声認識処理プログラム13a及び棄却単語登録処理プログラム13bを実行する。これにより、制御部10は、音声分析部10a、音声照合部10b、単語モデル生成部10c、結果判定部10d、棄却単語生成部10e等の各機能を実現する。
【0027】
音声認識装置1が音声認識処理を行なう場合、制御部10は、音声分析部10a、音声照合部10b、単語モデル生成部10c、結果判定部10dの各機能を実行する。また、音声認識装置1は、単語辞書13cに登録してある認識単語に対応させて棄却単語を登録(追加)する機能を有する。
【0028】
なお、棄却単語は、対応する認識単語を認識結果から除外するか否かを規定する単語であり、音声認識の結果として棄却単語が得られた場合、この棄却単語に対応して単語辞書13cに登録してある認識単語が認識結果から除外される。音声認識装置1が棄却単語の登録処理を行なう場合、制御部10は、音声分析部10a、音声照合部10b、単語モデル生成部10c、結果判定部10d、棄却単語生成部10eの各機能を実行する。
【0029】
音声分析部(抽出手段)10aは、音声データを音響分析し、音声データから例えばMFCCパラメータ(特徴パラメータ、特徴量)を抽出する。なお、音声データから抽出される特徴パラメータは、音声データの特徴を表すパラメータであれば、MFCCパラメータに限られない。
【0030】
単語モデル生成部10cは、単語辞書13cに登録されている認識単語について、各認識単語の音素列と、音響モデル13dに登録してある音響モデルとに基づいて、各認識単語の単語モデル(音響パラメータ)を生成する。なお、単語モデル生成部10cは、例えば、隠れマルコフモデル(HMM:Hidden Markov Model )によって表現した単語モデルを生成する。
【0031】
音声照合部(照合手段)10bは、音声分析部10aによって抽出された音声データの特徴パラメータと、単語モデル生成部10cによって生成された各認識単語の単語モデルのそれぞれとを照合し、両者の類似度を表す尤度を算出する。なお、尤度とは、音声データの特徴パラメータが、各認識単語の単語モデルである可能性を示す。音声照合部10bは、単語モデル生成部10cによって生成された全ての単語モデルに対して算出した尤度を結果判定部10dへ送出する。
【0032】
結果判定部(照合手段)10dは、音声照合部10bから取得したそれぞれの単語モデルに対する尤度に基づいて、最も尤度の高い単語モデルを決定し、決定した単語モデルが得られる認識単語を認識結果として出力する。なお、本実施形態1の音声認識装置1が音声認識処理を行なう場合、結果判定部10dは、得られた認識結果を所定の出力先へ送出する。また、本実施形態1の音声認識装置1が単語辞書13cに登録された認識単語に対する棄却単語を登録する処理を行なう場合、結果判定部10dは、得られた認識結果を棄却単語生成部10eへ送出する。
【0033】
棄却単語生成部10eは、結果判定部10dから取得した認識結果に基づいて、単語辞書13cに登録してある認識単語に対応させて棄却単語を登録する。なお、棄却単語生成部10eが行なう具体的な処理については後述する。
【0034】
上述した構成の音声認識装置1が音声データの認識処理を行なう場合、音声分析部10aは、例えば外部から入力された音声データから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部10bへ送出する。音声照合部10bは、音声分析部10aから取得した特徴パラメータと、単語モデル生成部10cによって生成された各認識単語の単語モデルとを照合し、両者の類似度を表す尤度を算出する。音声照合部10bは、各認識単語の単語モデルに対して算出した尤度を結果判定部10dへ送出し、結果判定部10dは、取得した尤度が最も高い単語モデルの認識単語を認識結果とする。
【0035】
次に、上述した構成の音声認識装置1において、単語辞書13cに登録してある認識単語に対して棄却単語を登録する際の処理について説明する。なお、ユーザは、単語辞書13cに登録してあるいずれかの認識単語に対して棄却単語を登録する場合、棄却単語を特定するための学習データとして、図2(b)に示すテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語とテキストデータとを処理対象に指定して、棄却単語登録処理を音声認識装置1に実行させる。
【0036】
ここでは、単語辞書13cに「おきなか」及び「おきなわ」の情報が認識単語として登録してあり、「おきな」、「おきなわ」及び「おきなあ」の各単語を棄却単語候補とし、これらのいずれかを、認識単語「おきなか」の棄却単語として登録する際の処理を例に説明する。
【0037】
音声分析部10aは、読み付き音声データ13eのうちの図2(b)に示すテキストデータから1つの棄却単語候補の情報(音声データファイルのファイル名及び読み)を読み出す。例えば、音声分析部10aは、ファイル名「okina.wav」及び読み「おきな」を読み出す。音声分析部10aは、ファイル名「okina.wav」の音声データファイルに記憶されている100発声(100個)の音声データを読み出す。音声分析部10aは、音声データのそれぞれから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部10bへ送出する。
【0038】
音声照合部10bは、音声分析部10aから送出されてくる特徴パラメータのそれぞれと、単語モデル生成部10cによって生成された各認識単語の単語モデルとを照合し、両
者の類似度を表す尤度を算出する。音声照合部10bは、音声分析部10aから送出されてくる特徴パラメータのそれぞれについて、算出した各認識単語の単語モデルとの尤度を結果判定部10dへ送出する。結果判定部10dは、各音声信号の特徴パラメータ毎に、尤度が最も高い単語モデルを決定し、決定した単語モデルが得られる認識単語を認識結果とし、各特徴パラメータの認識結果を棄却単語生成部10eへ送出する。
【0039】
音声分析部10a、音声照合部10b及び結果判定部10dは、テキストデータにファイル名が記述されている全ての音声データファイルに対して、また、各音声データファイルに記憶されている全ての音声データに対して上述した処理を繰り返す。
【0040】
棄却単語生成部(計数手段)10eは、結果判定部10dから取得した各特徴パラメータの認識結果に基づいて、棄却単語候補毎に、棄却単語を登録したい認識単語が認識結果として得られた発声数を計数する。即ち、棄却単語生成部10eは、それぞれの棄却単語候補の音声データである100発声分の音声データについて、認識単語「おきなか」と認識された発声数を計数する。棄却単語生成部(登録手段)10eは、棄却単語を登録したい認識単語「おきなか」と認識された発声数が最も多い棄却単語候補を、認識単語「おきなか」に対応する棄却単語として単語辞書13cに登録する。
【0041】
例えば、図2(b)に示すテキストデータを処理対象として棄却単語登録処理を行なった場合に、「おきな」と発声した100発声分の音声データを認識した結果、「おきなか」と認識された発声数が10発声であり、「おきなわ」と発声した100発声分の音声データを認識した結果、「おきなか」と認識された発声数が0発声であり、「おきなあ」と発声した100発声分の音声データを認識した結果、「おきなか」と認識された発声数が30発声であったとする。この場合、棄却単語生成部10eは、「おきなか」と認識された発声数が最も多かった「おきなあ」を認識単語「おきなか」の棄却単語として単語辞書13cに登録する。
【0042】
よって、認識結果として得たくない認識単語「おきなか」と認識される可能性がより高い単語を、認識単語「おきなか」の棄却単語に登録するので、誤認識を精度よく防止できる。
上述した処理を行なうことにより、棄却単語生成部10eは、図2(a)に示す単語辞書13cから、図4に示すような単語辞書13cを生成することができる。なお、図4に示す単語辞書13cは、図2(a)に示す単語辞書13cに対して棄却単語を追加して構成されてもよく、新たな単語辞書13cとして生成されてもよい。
【0043】
図4は棄却単語が登録された単語辞書13cの構成を示す模式図である。図4に示す単語辞書13cには、音声認識装置1が行なう音声認識処理の認識結果となる認識単語の読み及び音素列と、各認識単語に対して追加(登録)された棄却単語の読み及び音素列とが対応付けて登録されている。
【0044】
上述したように棄却単語が登録(追加)された単語辞書13cを用いて音声認識装置1が音声データの認識処理を行なう場合、単語モデル生成部10cは、単語辞書13cに登録されている認識単語だけでなく棄却単語についても単語モデルを生成する。即ち、単語モデル生成部10cは、認識単語及び棄却単語のそれぞれの音素列と、音響モデル13dに登録してある音響モデルとに基づいて、認識単語及び棄却単語のそれぞれの単語モデルを生成する。
【0045】
音声分析部10aは、入力された音声データから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部10bへ送出する。音声照合部10bは、音声分析部10aから取得した特徴パラメータと、単語モデル生成部10cによって生成された認識単語及び
棄却単語の単語モデルのそれぞれとを照合し、両者の類似度を表す尤度を算出する。音声照合部10bは、認識単語及び棄却単語の単語モデルに対して算出した尤度を結果判定部10dへ送出する。
【0046】
結果判定部10dは、取得した尤度が最も高い単語モデルを特定し、この単語モデルが認識単語であるか棄却単語であるかを判定する。結果判定部10dは、取得した尤度が最も高い単語モデルが認識単語であると判定した場合、この認識単語を認識結果とする。一方、結果判定部10dは、取得した尤度が最も高い単語モデルが棄却単語であると判定した場合、この棄却単語と、この棄却単語に対応して単語辞書13cに登録してある認識単語を認識結果としない。従って、結果判定部10dは、次に尤度が高い単語モデルを特定し、この単語モデルについて同様の処理を行なう。
【0047】
このような処理により、最も高い尤度が得られた単語が棄却単語であり、2番目に高い尤度が得られた単語が認識結果として得たくない認識単語であり、3番目に高い尤度が得られた単語が認識結果として得たい認識単語であった場合であっても、認識結果として得たい認識単語を認識結果として得ることができる。具体的には、最も高い尤度が得られた棄却単語を、認識結果として得たくない認識単語の棄却単語として登録しておくことにより、認識結果として得たくない認識単語を認識結果から除外できるので、認識結果として得たい認識単語を認識結果として得ることができる。
【0048】
従って、認識結果として得たい認識単語に類似する単語(類似単語)が、認識結果として得たくない認識単語として認識される可能性が高い場合に、この類似単語を、認識結果として得たくない認識単語の棄却単語として登録しておく。これにより、前記類似単語の音声データを音声認識した結果、認識結果として得たい認識単語に類似する単語であると認識された場合に、この単語が棄却単語であるので、この棄却単語に対応する認識単語を認識結果とせず、誤認識を防止できる。
【0049】
以下に、本実施形態1の音声認識装置1による棄却単語登録処理についてフローチャートに基づいて詳述する。図5及び図6は棄却単語登録処理の手順を示すフローチャートである。なお、以下の処理は、音声認識装置1のROM11又はHDD13に格納してある制御プログラムに従って制御部10によって実行される。
【0050】
ユーザは、単語辞書13cに登録してある認識単語に対して棄却単語を登録する場合、図2(b)に示すテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語と共にテキストデータを処理対象に指定して、棄却単語登録処理を音声認識装置1に実行させる。
【0051】
制御部10(音声分析部10a)は、テキストデータから1つの棄却単語候補の情報(音声データファイルのファイル名及び読み)を読み出す(S1)。制御部10(音声分析部10a)は、読み出したファイル名の音声データファイルに記憶されている音声データのうちの1つを読み出し(S2)、読み出した音声データから特徴パラメータを抽出する(S3)。
【0052】
制御部10(音声照合部10b)は、抽出した特徴パラメータと、単語モデル生成部10cによって生成された各認識単語の単語モデルとを照合する(S4)。制御部10(音声照合部10b)は、音声データから抽出した特徴パラメータと、各認識単語の単語モデルとの尤度に基づいて、尤度が最も高い単語モデルに対応する認識単語を認識結果とする。制御部10(結果判定部10d)は、認識結果が、棄却単語を登録したい認識単語と一致するか否かを判断する(S5)。
【0053】
制御部10(結果判定部10d)は、棄却単語を登録したい認識単語と一致すると判断した場合(S5:YES)、棄却単語を登録したい認識単語と認識した発声数に1を加算する(S6)。なお、棄却単語を登録したい認識単語と認識した発声数は、棄却単語登録処理の開始時に0にリセットされている。
【0054】
制御部10は、認識結果が、棄却単語を登録したい認識単語と一致しないと判断した場合(S5:NO)、ステップS6の処理をスキップする。制御部10は、ステップS1で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したか否かを判断し(S7)、読み出していないと判断した場合(S7:NO)、ステップS2へ処理を戻す。制御部10は、ステップS1で読み出したファイル名の音声データファイルに記憶されている全ての音声データに対して、上述したステップS3〜S6の処理を行なう。
【0055】
制御部10は、ステップS1で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したと判断した場合(S7:YES)、ステップS1で読み出した読みに対応させてステップS6で算出した発声数をRAM12に記憶させる(S8)。
【0056】
制御部10は、処理対象のテキストデータに記述されている全ての棄却単語候補の情報を読み出したか否かを判断し(S9)、全ての棄却単語候補の情報を読み出していないと判断した場合(S9:NO)、ステップS1へ処理を戻す。制御部10は、処理対象のテキストデータから、まだ処理されていない棄却単語候補の情報のうちの1つを読み出し(S1)、読み出した情報に基づいて、上述したステップS2〜S8の処理を繰り返す。
【0057】
制御部10は、全ての棄却単語候補の情報を読み出したと判断した場合(S9:YES)、ステップS8でRAM12に記憶させた、棄却単語を登録したい認識単語に認識された発声数に基づいて、棄却単語を決定する(S10)。具体的には、制御部10は、棄却単語を登録したい認識単語に認識された発声数が最も多い単語を棄却単語に決定する。制御部10は、決定した棄却単語を、棄却単語を登録したい認識単語に対応付けて単語辞書13cに登録する(S11)。
【0058】
次に、上述したように棄却単語が登録された単語辞書13cを用いた音声認識処理についてフローチャートに基づいて詳述する。図7は音声認識処理の手順を示すフローチャートである。なお、以下の処理は、音声認識装置1のROM11又はHDD13に格納してある制御プログラムに従って制御部10によって実行される。
【0059】
制御部10(音声分析部10a)は、音声認識の処理対象である音声データから特徴パラメータを抽出する(S21)。制御部10(音声照合部10b)は、抽出した特徴パラメータと、単語モデル生成部10cによって生成された認識単語及び棄却単語の単語モデルのそれぞれとを照合する(S22)。なお、制御部10(単語モデル生成部10c)は、音声認識を行なう場合、単語辞書13cに登録されている認識単語だけでなく棄却単語についても単語モデルを生成しておく。
【0060】
制御部10(音声照合部10b)は、音声データから抽出した特徴パラメータと、認識単語及び棄却単語の単語モデルのそれぞれとの尤度を算出する。制御部10(結果判定部10d)は、算出した尤度が所定値以上の単語を抽出する(S23)。制御部10(結果判定部10d)は、抽出した単語のうちで、尤度が最も高い単語を特定し(S24)、特定した単語が認識単語であるか否かを判断する(S25)。
【0061】
制御部10(結果判定部10d)は、特定した単語が認識単語であると判断した場合(S25:YES)、特定した単語(認識単語)を認識結果として出力し(S26)、音声認識処理を終了する。制御部10(結果判定部10d)は、特定した単語が認識単語でないと判断した場合(S25:NO)、即ち、特定した単語が棄却単語である場合、特定した単語(棄却単語)に対応して単語辞書13cに登録してある認識単語を認識結果から除外する(S27)。
【0062】
制御部10は、ステップS23で抽出した尤度が所定値以上の単語がまだ有るか否かを判断し(S28)、有ると判断した場合(S28:YES)、ステップS24へ処理を戻す。制御部10は、ステップS23で抽出した単語で、既にステップS25〜S27の処理が行なわれた単語を除いた単語のうちで、尤度が最も高い単語を特定する(S24)。制御部10は、特定した単語に対して、上述したステップS25〜S27の処理を行なう。
【0063】
制御部10は、ステップS23で抽出した尤度が所定値以上の単語がもう無いと判断した場合(S28:NO)、音声認識の処理対象である音声データを棄却し(S29)、認識結果を出力せずに音声認識処理を終了する。
【0064】
上述したように、本実施形態1の音声認識装置1では、単語辞書13cに登録されている認識単語毎に棄却単語を登録しておく。よって、音声認識の処理対象の音声データが、認識結果として得たくない認識単語に類似する単語(棄却単語)であると認識された場合に、この棄却単語に対応する認識単語が認識結果から除外される。これにより、誤認識を防止し、音声認識の精度を向上させることができる。
【0065】
上述した実施形態1の音声認識装置1は、認識単語に棄却単語を登録する際に、棄却単語候補の音声データに対して音声認識処理を行ない、前記認識単語であると認識された発声数が最も多かった棄却単語候補を棄却単語として登録する構成であった。このような構成に限られず、音声認識装置1を、例えば、棄却単語候補の音声データに対して音声認識処理を行ない、前記認識単語であると認識された発声数が所定数以上であった全ての棄却単語候補を棄却単語として登録する構成としてもよい。
【0066】
このように、棄却単語を登録したい認識単語に認識された発声数が所定数以上であった全ての棄却単語候補を棄却単語として登録した場合、認識結果として得たくない認識単語を、より確実に認識結果から除外できるので、誤認識する可能性をより低減することができる。
【0067】
また、音声認識装置1を、例えば、棄却単語候補の音声データに対して音声認識処理を行ない、棄却単語を登録したい認識単語であると認識された発声数の、全ての発声数に対する割合が所定値以上となった棄却単語候補を棄却単語として登録する構成としてもよい。
【0068】
上述した構成の音声認識装置1では、例えば、単語長が異なり、発声の一部が似ているために誤認識してしまう発声に対しても有効である。例えば、「あいちけん」と発声した音声データを認識した結果、認識単語「いち」と認識された発声数が50発声であり、「よっかいち」と発声した音声データを認識した結果、認識単語「いち」と認識された発声数が80発声であり、「いちづける」と発声した音声データを認識した結果、認識単語「いち」と認識された発声数が60発声であったとする。
【0069】
この場合、棄却単語生成部10eは、認識単語「いち」と認識した発声数が最も多かった「よっかいち」を認識単語「いち」の棄却単語として単語辞書13cに登録する。なお
、棄却単語生成部10eは、認識単語「いち」と認識した発声数が所定数(例えば、50)以上であった全ての棄却単語候補を棄却単語として登録する構成であれば、「あいちけん」、「よっかいち」、「いちづける」の全てを認識単語「いち」の棄却単語として単語辞書13cに登録する。
【0070】
(実施形態2)
以下に、実施形態2に係る音声認識装置について説明する。なお、本実施形態2の音声認識装置は、上述した実施形態1で説明した図1に示す音声認識装置1と同様の構成によって実現することができるので、同様の構成については同一の符号を付して説明を省略する。
【0071】
上述した実施形態1の音声認識装置1は、棄却単語を付加したい認識単語に対して、複数の棄却単語候補の音声データに音声認識処理を行ない、その結果、棄却単語を付加したい認識単語であると認識された発声数が多い単語を棄却単語とする構成であった。本実施形態2の音声認識装置1は、棄却単語を付加したい認識単語に対する複数の棄却単語候補の音声データに音声認識処理を行ない、その結果、最も尤度が高かった棄却単語候補の音素列(最尤音素列)を棄却単語として単語辞書13cに登録する構成である。
【0072】
本実施形態2の音声認識装置1において、制御部10は、上述した実施形態1の制御部10と同様に、音声分析部10a、音声照合部10b、単語モデル生成部10c、結果判定部10d、棄却単語生成部10e等の各機能を実現する。なお、本実施形態2の音声認識装置1は、音声認識処理を行なう場合、上述した実施形態1の音声認識装置1と同様の処理を行なう。また、本実施形態2の音声認識装置1が棄却単語登録処理を行なう場合、音声分析部10aは、上述した実施形態1の音声分析部10aと同様の処理を行なう。
【0073】
図8は実施形態2の読み付き音声データの構成を示す模式図である。本実施形態2の音声認識装置1においても、単語辞書13cに登録してある認識単語に対して棄却単語を登録する場合、ユーザは、図8に示すようなテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語とテキストデータとを処理対象に指定して、棄却単語登録処理を音声認識装置1に実行させる。
【0074】
ここでは、単語辞書13cに「おきなか」及び「おきなわ」が認識単語として登録してあり、「のきなか」及び「おきなあ」を棄却単語候補とし、これらの棄却単語候補の何れかの音声データに基づいて、認識単語「おきなか」の棄却単語を登録する際の処理を例に説明する。
【0075】
音声分析部10aは、図8に示すテキストデータから1つの棄却単語候補の情報(音声データファイルのファイル名及び読み)を読み出す。音声分析部10aは、読み出したファイル名の音声データファイルに記憶されている100発声の音声データを読み出し、読み出した音声データのそれぞれから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部10bへ送出する。
【0076】
本実施形態2の音声照合部10bは、音声分析部10aから送出されてくる特徴パラメータのそれぞれと、単語モデル生成部10cによって生成された認識単語「おきなか」の単語モデルとを照合し、両者の類似度を表す尤度を算出する。音声照合部10bは、算出した各特徴パラメータと、認識単語「おきなか」の単語モデルとの尤度を結果判定部10dへ送出する。
【0077】
本実施形態2の結果判定部10dは、音声照合部10bから取得する各特徴パラメータ
と認識単語「おきなか」の単語モデルとの尤度のうちで、最も高い尤度の特徴パラメータを特定してRAM12に記憶させる。具体的には、結果判定部10dは、音声照合部10bから送出されてくる尤度のそれぞれを、既にRAM12に記憶されている尤度と比較する。結果判定部10dは、RAM12に記憶させた尤度よりも高い尤度を音声照合部10bから取得した場合、RAM12に記憶してある尤度及び特徴パラメータを、新たに取得した尤度及び特徴パラメータに更新する。
【0078】
音声分析部10a、音声照合部10b及び結果判定部10dが、テキストデータにファイル名が記述されている全ての音声データファイルに対して上述した処理を終了した場合、この時点でRAM12に格納されている尤度は、全ての音声データと認識単語「おきなか」の単語モデルとの尤度において最高値の尤度となる。結果判定部10dは、RAM12に格納してある特徴パラメータ、即ち、最高値の尤度に対応する特徴パラメータを棄却単語生成部10eへ送出する。
【0079】
棄却単語生成部10eは、結果判定部10dから取得した特徴パラメータから最尤音素列を生成する。なお、最尤音素列は、音素単位の音響モデルを自由に連結された中で、特徴パラメータとの類似度が最も高い音響モデル列となる音素のパターン列(音素列)のことを指す。音響モデルの単位は音素に限定されるものではなく、単音節、複数音節であってもよい。
【0080】
棄却単語生成部10eは、生成した最尤音素列を、棄却単語の音素列として単語辞書13cに登録する。なお、単語辞書13cに登録される棄却単語の読みは、図8に示したテキストデータ中の記述から取得すればよい。上述した処理を行なうことにより、棄却単語生成部10eは、図2(a)に示す単語辞書13cから、図4に示すような単語辞書13cを生成することができる。
【0081】
上述したような処理によって、認識結果として得たくない認識単語の単語モデルと最も類似する音声データから得られた音素列(最尤音素列)が棄却単語の音素列として単語辞書13cに登録される。よって、認識結果として得たくない認識単語に発声が類似している音声データが入力された場合であっても、この音声データが棄却単語として認識されるので、この棄却単語に対応する認識単語(認識結果として得たくない認識単語)を認識結果から除外することができる。よって、このような棄却単語が登録された単語辞書13cを用いて音声認識処理を行なうことにより、誤認識を防止できる。
【0082】
なお、本実施形態2における学習データとしての音声データは、棄却単語を付加したい認識単語の音声データではない音声データであれば、雑音から得た音データであってもよい。
【0083】
以下に、本実施形態2の音声認識装置1による棄却単語登録処理についてフローチャートに基づいて詳述する。図9及び図10は棄却単語登録処理の手順を示すフローチャートである。なお、以下の処理は、音声認識装置1のROM11又はHDD13に格納してある制御プログラムに従って制御部10によって実行される。
【0084】
ユーザは、単語辞書13cに登録してある認識単語に対して棄却単語を登録する場合、図8に示すテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語と共にテキストデータを処理対象に指定して、棄却単語登録処理を音声認識装置1に実行させる。
【0085】
制御部10(音声分析部10a)は、テキストデータから1つの棄却単語候補の情報(音声データファイルのファイル名及び読み)を読み出す(S31)。制御部10(音声分
析部10a)は、読み出したファイル名の音声データファイルに記憶されている音声データのうちの1つを読み出し(S32)、読み出した音声データから特徴パラメータを抽出する(S33)。
【0086】
制御部10(音声照合部10b)は、抽出した特徴パラメータと、単語モデル生成部10cによって生成された、棄却単語を付加したい認識単語の単語モデルとを照合する(S34)。制御部10(音声照合部10b)は、音声データから抽出した特徴パラメータと、棄却単語を付加したい認識単語の単語モデルとの尤度を算出し、算出した尤度が、今まで算出した尤度のうちで最高値であるか否かを判断する(S35)。具体的には、制御部10(結果判定部10d)は、算出した尤度が、RAM12に既に記憶してある尤度よりも高いか否かを判断する。
【0087】
なお、制御部10(音声照合部10b)は、音声データから抽出した特徴パラメータと、全ての認識単語及び棄却単語の単語モデルとの尤度を算出してもよい。
制御部10は、算出した尤度が最高値であると判断した場合(S35:YES)、この尤度が得られた特徴パラメータをRAM12に記憶させる(S36)。制御部10は、算出した尤度が最高値でないと判断した場合(S35:NO)、ステップS36の処理をスキップする。
【0088】
制御部10は、ステップS31で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したか否かを判断し(S37)、読み出していないと判断した場合(S37:NO)、ステップS32へ処理を戻す。制御部10は、ステップS31で読み出したファイル名の音声データファイルに記憶されている全ての音声データに対して、上述したステップS33〜S36の処理を行なう。
【0089】
制御部10は、ステップS31で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したと判断した場合(S37:YES)、処理対象のテキストデータに記述されている全ての棄却単語候補の情報を読み出したか否かを判断する(S38)。
【0090】
制御部10は、全ての棄却単語候補の情報を読み出していないと判断した場合(S38:NO)、ステップS31へ処理を戻す。制御部10は、処理対象のテキストデータから、まだ処理されていない棄却単語候補の情報のうちの1つを読み出し(S31)、読み出した情報に基づいて、上述したステップS32〜S37の処理を繰り返す。
【0091】
制御部10は、全ての棄却単語候補の情報を読み出したと判断した場合(S38:YES)、この時点でRAM12に記憶されている特徴パラメータから最尤音素列を生成する(S39)。制御部10は、生成した最尤音素列を棄却単語として、棄却単語を登録したい認識単語に対応付けて単語辞書13cに登録する(S40)。
【0092】
上述したように、本実施形態2の音声認識装置1では、棄却単語を付加する認識単語に発声が類似する音声データから生成された最尤音素列を棄却単語として登録する。よって、認識単語と類似する単語を棄却単語に登録することができる。
【0093】
上述した構成では、認識単語と棄却単語とが類似するので、認識単語を発声した場合に、棄却単語と認識される虞がある。認識単語を発声したにも拘らず棄却単語と認識された場合、この認識単語が認識結果から除外されてしまうので、正しい認識結果を得ることができない。従って、上述したような処理によって棄却単語が決定された場合、認識単語の音声データに音声認識処理を行なった場合に、認識結果として棄却単語が出力されないことを検証することが望ましい。
【0094】
(実施形態3)
以下に、実施形態3に係る音声認識装置について説明する。なお、本実施形態3の音声認識装置は、上述した実施形態1で説明した図1に示す音声認識装置1と同様の構成によって実現することができるので、同様の構成については同一の符号を付して説明を省略する。
【0095】
本実施形態3の音声認識装置1は、上述した実施形態1の音声認識装置1と同様に、複数の棄却単語候補の音声データに対して音声認識処理を行ない、その結果、棄却単語を付加したい認識単語であると認識された発声数が多い単語を棄却単語に決定する。なお、本実施形態3の音声認識装置1において、制御部10は、棄却単語に決定された単語の一部を抽出し、棄却単語として単語辞書13cに登録する。
【0096】
例えば、制御部10は、図2(b)に示すようなテキストデータを処理対象として、認識単語「おきなか」に対する棄却単語を登録する処理を行なった場合、実施形態1で説明した処理を行なう。具体的には、制御部10は、「おきな」と発声した音声データを認識した結果、「おきなか」と認識された発声数が10発声であり、「おきなわ」と発声した音声データを認識した結果、「おきなか」と認識された発声数が0発声であり、「おきなあ」と発声した音声データを認識した結果、「おきなか」と認識された発声数が30発声であることを得たとする。
【0097】
本実施形態3の制御部10(棄却単語生成部10e)は、棄却単語候補の「おきな」、「おきなわ」、「おきなあ」のそれぞれを部分パターンに分割する。ここでは、棄却単語生成部10eは、例えば、「おき」、「きな」、「なわ」、「なあ」の部分パターンに分割する。
【0098】
棄却単語生成部10eは、結果判定部10dから取得した認識結果に基づいて計数した、棄却単語候補毎に、認識単語「おきなか」と認識された発声回数に基づいて、それぞれ分割した部分パターンに対する発声回数を算出する。ここでは、部分パターン「おき」は、棄却単語候補「おきな」、「おきなわ」、「おきなあ」に含まれているので、部分パターン「おき」に対する発声回数は、「おきな」の10発声と「おきなあ」の30発声とを合わせた40発声となる。
【0099】
同様に、棄却単語生成部10eは、部分パターン「きな」に対する発声回数を40発声と算出し、部分パターン「なわ」に対する発声回数を0発声と算出し、部分パターン「なあ」に対する発声回数を30発声と算出する。ここで、棄却単語生成部10eは、それぞれの部分パターンが、棄却単語を付加すべき認識単語「おきなか」の一部であるか否かを判断し、認識単語の一部である部分パターンを棄却単語の候補から除外する。
【0100】
ここでは、部分パターン「おき」、「きな」が認識単語「おきなか」の一部であるので、棄却単語生成部10eは、部分パターン「おき」、「きな」を認識単語「おきなか」の棄却単語の候補から除外する。よって、棄却単語生成部10eは、部分パターン「なあ」を、認識単語「おきなか」に対応する棄却単語として単語辞書13cに登録する。
【0101】
このように、本実施形態3の音声認識装置1は、認識結果として得たくない認識単語に類似する単語の一部を、前記認識単語に対応する棄却単語として単語辞書13cに登録しておく。よって、音声認識の処理対象の音声データが、認識結果として得たくない認識単語に類似する単語の一部(棄却単語)であると認識された場合であっても、この棄却単語に類似する認識単語を認識結果から除外することができる。よって、本実施形態3では、誤認識を防止し、音声認識の精度をより向上させることができる。
【0102】
上述した本実施形態3の音声認識装置1は、実施形態1の音声認識装置1の変形例として説明したが、実施形態2の音声認識装置1の構成にも適用できる。即ち、棄却単語を付加したい認識単語との尤度が最も高かった棄却単語候補の音素列(最尤音素列)を棄却単語として単語辞書13cに登録する際に、この棄却単語候補の音素列の一部を、棄却単語として単語辞書13cに登録する構成としてもよい。
【0103】
上述した実施形態1〜3に説明したように、単語辞書13cに登録してある認識単語毎に棄却単語を登録することにより、単語辞書13cに登録してある他の認識単語に影響を与えずに、認識精度を向上させることができる。具体的には、音声認識処理において、検出率を維持しつつ適合率を改善することができる。
【0104】
なお、検出率は、ある認識単語として認識すべきテストデータ(音声データ)の数に対する、実際に前記認識単語であると正しく認識できた音声データの数の割合を示す。また、適合率は、ある認識単語であると正しく認識した音声データの数と前記認識単語であると誤って認識した音声データの数との合計に対する、前記認識単語であると正しく認識した音声データの数の割合を示す。
【0105】
以上の実施形態1〜3を含む実施形態に関し、更に以下の付記を開示する。
【0106】
(付記1)
音声信号から特徴量を抽出する抽出手段と、複数の認識単語を記憶する単語辞書と、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する照合手段とを備える音声認識装置において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出し、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないように構成してあることを特徴とする音声認識装置。
【0107】
(付記2)
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が出力した認識結果に基づいて、それぞれの棄却単語候補毎に、前記棄却単語を付加すべき認識単語が認識結果として出力された音声信号の数を計数する計数手段と、
該計数手段が計数した数が多い棄却単語候補を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする付記1に記載の音声認識装置。
【0108】
(付記3)
前記登録手段は、前記計数手段が計数した数が所定数以上である棄却単語候補を、前記
棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする付記2に記載の音声認識装置。
【0109】
(付記4)
前記登録手段は、前記棄却単語候補の一部を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする付記2又は3に記載の音声認識装置。
【0110】
(付記5)
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が算出した、前記棄却単語を付加すべき認識単語との類似度が高い音声信号から音響モデルを生成する手段と、
生成した音響モデルを、前記認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする付記1に記載の音声認識装置。
【0111】
(付記6)
音声信号から特徴量を抽出して記憶部に記憶する抽出手段と、複数の認識単語を記憶する単語辞書と、前記抽出手段によって前記記憶部に記憶された特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する照合手段とを備える音声認識装置において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記照合手段は、前記抽出手段によって前記記憶部に記憶された特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出し、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないように構成してあることを特徴とする音声認識装置。
【0112】
(付記7)
複数の認識単語を記憶する単語辞書を有する音声認識装置が、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する音声認識方法において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記音声認識装置が、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出するステップと、
前記音声認識装置が、算出した類似度が高い単語が棄却単語であるか否かを判断するステップと、
前記音声認識装置が、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないステップと
を有することを特徴とする音声認識方法。
【0113】
(付記8)
複数の認識単語を記憶する単語辞書を有するコンピュータに、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力させるためのコンピュータプログラムにおいて、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記コンピュータに、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出させるステップと、
前記コンピュータに、算出した類似度が高い単語が棄却単語であるか否かを判断させるステップと、
前記コンピュータに、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果とさせないステップと
を有することを特徴とするコンピュータプログラム。
【図面の簡単な説明】
【0114】
【図1】実施形態1の音声認識装置の構成を示すブロック図である。
【図2】単語辞書及び読み付き音声データの構成を示す模式図である。
【図3】実施形態1の音声認識装置の機能構成を示す機能ブロック図である。
【図4】棄却単語が登録された単語辞書の構成を示す模式図である。
【図5】棄却単語登録処理の手順を示すフローチャートである。
【図6】棄却単語登録処理の手順を示すフローチャートである。
【図7】音声認識処理の手順を示すフローチャートである。
【図8】実施形態2の読み付き音声データの構成を示す模式図である。
【図9】棄却単語登録処理の手順を示すフローチャートである。
【図10】棄却単語登録処理の手順を示すフローチャートである。
【符号の説明】
【0115】
1 音声認識装置
10 制御部
10a 音声分析部(抽出手段)
10b 音声照合部(照合手段)
10e 棄却単語生成部(計数手段、登録手段)
13 HDD
13c 単語辞書
【技術分野】
【0001】
本発明は、音声信号と、予め登録してある認識単語との類似度に基づいて、前記音声信号が前記認識単語のいずれであるかを判断し、認識結果を出力する音声認識装置、該音声認識装置による音声認識方法、前記音声認識装置をコンピュータによって実現するためのコンピュータプログラムに関する。
【背景技術】
【0002】
従来の音声認識装置において、認識単語の情報が登録された単語辞書と、棄却単語の情報が登録された棄却単語辞書とが予め用意されている装置がある(例えば、特許文献1,2参照)。このような音声認識装置は、話者により入力された音声情報と、単語辞書及び棄却単語辞書に登録されている情報とを比較し、入力された音声情報と最も類似する単語を特定する。そして、音声認識装置は、特定した単語が認識単語であれば認識結果として前記認識単語を出力し、特定した単語が棄却単語であれば認識結果無しとして、入力された音声情報を棄却する。
【0003】
上述したように棄却単語辞書を用いる構成では、棄却単語との類似度が1位となるような音声情報に対しては、どのような単語辞書を用いた場合であっても棄却されてしまう。そのため、認識結果に悪影響を与える可能性のある棄却単語を棄却単語辞書に登録しておかないといった対応が取られることがあった。しかし、このような棄却単語を棄却単語辞書に登録しておかない場合であっても、適切な認識結果が得られない場合もある。
【0004】
具体的には、例えば、入力された音声情報の認識結果として「おきなわ」を得たい場合を考える。また、入力された音声情報に対して、類似度を100点満点で表した場合に、「おきなあ」に対して98点、「おきなか」に対して95点、「おきなわ」に対して93点の類似度がそれぞれ得られたとする。
【0005】
ここで、単語辞書に「おきなか」及び「おきなわ」の情報が登録されており、棄却単語辞書に「おきなあ」の情報が登録されているとする。ここでは、類似度が1番高い「おきなあ」の情報が棄却単語辞書に登録されているので、認識結果無しとして、入力された音声信号が棄却される。
【0006】
一方、単語辞書に「おきなか」及び「おきなわ」の情報が登録されているが、棄却単語辞書に「おきなあ」の情報が登録されていないとする。ここでは、類似度が1番高い「おきなあ」の情報が単語辞書及び棄却単語辞書のいずれにも登録されておらず、類似度が2番目に高い「おきなか」の情報が単語辞書に登録されているので、認識結果として「おきなか」が出力される。
【0007】
上述したように、類似度が高い順に「おきなあ」、「おきなか」、「おきなわ」と認識されるような音声情報に対しては、「おきなあ」を棄却単語として登録しておいた場合であっても、登録しておかない場合であっても、適切な認識結果「おきなわ」を得ることができない。
【0008】
そこで、認識単語毎に未知語モデルの尤度(類似度)に掛ける重みを決定し、重みを掛けられた未知語モデルの尤度と認識結果とを比較して、認識結果の採用又は棄却を決定する装置が提案されている(例えば、特許文献3参照)。また、単語辞書に登録されている認識単語の特性に応じて、適切な棄却単語を生成して棄却単語辞書に登録する構成のシステムが提案されている(例えば、特許文献4参照)。
【特許文献1】特開2001−147698号公報
【特許文献2】特許第3105863号公報
【特許文献3】特開平10−171488号公報
【特許文献4】特開2006−154658号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
上述したような音声認識装置では、未知語モデル、未知語モデルに掛ける重みは、何らかの方法に従って人手で決定して登録される場合が多く、この場合、最適な未知語モデルの決定が困難である。また、棄却単語辞書に登録される棄却単語は、例えば認識単語の特徴に基づいて生成されるが、この場合、認識単語の特徴に基づいて棄却単語として生成されないような単語を棄却単語とすることができなかった。
【0010】
本発明は斯かる事情に鑑みてなされたものであり、その目的とするところは、音声認識処理の精度を向上させることが可能な音声認識装置、音声認識方法及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0011】
本願に開示する音声認識装置は、複数の認識単語を記憶する単語辞書を備え、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と単語辞書に記憶してある認識単語のそれぞれとの類似度をそれぞれ算出し、算出した類似度が高い認識単語を認識結果として出力する。本願に開示する音声認識装置では、単語辞書は、認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成であり、抽出した特徴量を用いて前記音声信号と単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出する。また、音声認識装置は、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して単語辞書に記憶してある認識単語を認識結果としないようにする。なお、音声認識装置は、算出した類似度が高い単語が認識単語であれば、この認識単語を認識結果として出力する。
【0012】
本願に開示する音声認識装置によれば、音声認識の処理対象の音声信号が、単語辞書に登録してある棄却単語と認識された場合、この棄却単語に対応して単語辞書に登録してある認識単語を認識結果から除外する。即ち、認識結果として得たい単語(認識単語)に類似する単語(類似単語)を発声した際の音声信号が、前記認識単語とは異なる単語(認識単語)と認識される場合に、前記類似単語を、前記異なる単語に対する棄却単語として登録しておく。これにより、前記音声信号は、前記異なる単語に対する棄却単語と認識され、前記異なる単語を認識結果から除外するので、誤認識を防止できる。
【発明の効果】
【0013】
本願に開示する音声認識装置では、認識結果として得たい認識単語に類似する単語の音声信号が、異なる認識単語と認識される可能性が高い場合であっても、前記異なる認識単語を認識結果としないので、適切な認識結果が得られ、音声認識処理の精度を向上させることができる。
【発明を実施するための最良の形態】
【0014】
以下に、本願に開示する音声認識装置、音声認識方法及びコンピュータプログラムを、各実施形態を示す図面に基づいて詳述する。なお、以下の各実施形態では、本願に開示するコンピュータプログラムを公知のパーソナルコンピュータ等に読み取らせ、パーソナルコンピュータのCPU(Central Processing Unit)等によって実行させることによって本願に開示する音声認識装置を実現する構成について説明する。しかし、等価な働きをす
るハードウェアによって本願に開示する音声認識装置を実現してもよい。
【0015】
(実施形態1)
以下に、本願に開示する音声認識装置を、実施形態1を示す図面に基づいて詳述する。図1は実施形態1の音声認識装置の構成を示すブロック図である。本実施形態1の音声認識装置1は、例えば公知のパーソナルコンピュータであり、制御部10、ROM(Read Only Memory)11、RAM(Random Access Memory)12、ハードディスクドライバ(以下、HDDという)13、操作部14、表示部15等を備え、これらのハードウェア各部はそれぞれバス1aを介して相互に接続されている。
【0016】
制御部10は、CPU又はMPU(Micro Processor Unit)等であり、ROM11又はHDD13に予め格納してある制御プログラムを適宜RAM12に読み出して実行すると共に、上述したハードウェア各部の動作を制御する。ROM11は、音声認識装置1を本発明の音声認識装置として動作させるために必要な種々の制御プログラムを予め格納している。RAM12はSRAM又はフラッシュメモリ等であり、制御部10による制御プログラムの実行時に発生する種々のデータを一時的に記憶する。
【0017】
HDD13は、大容量の記憶装置であり、音声認識装置1を本願に開示する音声認識装置として動作させるために必要な種々の制御プログラム、ユーザに対して各種の情報を通知するための画面情報等を予め格納している。また、HDD13は、本願に開示する音声認識装置として動作させるための種々の情報として、音声認識処理プログラム13a、棄却単語登録処理プログラム13b、図2(a)に示すような単語辞書13c、音響モデル13d、図2(b)に示すような読み付き音声データ13e等を格納している。
【0018】
図2は単語辞書13c及び読み付き音声データ13eの構成を示す模式図である。図2(a)に示すように、単語辞書13cには、音声認識装置1が行なう音声認識処理の認識結果となる認識単語のそれぞれについて読み及び音素列が対応付けて登録されている。なお、各認識単語の音素列は、各認識単語に含まれる音素について、各音素の特徴を示す音響モデルの並びを示している。
【0019】
読み付き音声データ13eは、棄却単語を付加したい認識単語に対する複数の棄却単語候補の単語毎に、複数の音声データ(音声信号)を記憶した複数の音声データファイル(図示せず)と、各単語の音声データファイルのファイル名及び各単語の読みを対応付けて記述したテキストファイルとを含む。図2(b)にはテキストファイルの記述内容の例を示す。
【0020】
なお、音声データファイルは、棄却単語候補の各単語を発声した音声を取得し、取得したアナログの音声データ(音声信号)をアナログ/デジタル変換処理によって変換したデジタルの音声データ(音声信号)を記憶する。また、1つの音声データファイルには、1つの棄却単語候補の単語についての音声データが100個(100発声)程度記憶されている。
【0021】
また、音響モデル13dの登録内容は図示しないが、音響モデル13dは、日本語の音素毎に各音素の特徴を表す音響モデル(特徴パターン)を格納している。なお、音響モデルは、例えば、MFCC(Mel Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)パラメータ等、音声認識の分野で通常用いられるパラメータを利用すればよい。
【0022】
HDD13に格納される各情報は、HDD13に予め格納されている構成に限られない。音声認識装置1が外部メモリ(図示せず)に記憶してあるデータの読み出しが可能なドライバ(図示せず)を備える場合には、外部メモリに記憶された各種情報をドライバによ
って読み出してHDD13に格納させてもよい。また、音声認識装置1がインターネットのようなネットワークとの接続が可能な通信部(図示せず)を備える場合には、ネットワークを介して外部の装置から各種情報をダウンロードしてHDD13に格納させてもよい。
【0023】
操作部14は、キーボード及びマウス等であり、ユーザが音声認識装置1を操作するために必要な各種の操作キーを備えている。ユーザにより各操作キーが操作された場合、操作部14は操作された操作キーに対応した制御信号を制御部10へ送出し、制御部10は操作部14から取得した制御信号に対応した処理を実行する。
表示部15は、液晶ディスプレイ又はCRTディスプレイ等であり、制御部10からの指示に従って、音声認識装置1の動作状態、操作部14を介して入力された情報、ユーザに対して通知すべき情報等を表示する。
【0024】
なお、本実施形態1の音声認識装置1は、マイクロフォン及びアナログ/デジタル変換器等を備えた音声入力部、デジタル/アナログ変換器、音声増幅回路及びスピーカ等を備えた音声出力部等を備える構成であってもよい。
【0025】
以下に、上述した構成の音声認識装置1において、制御部10がROM11又はHDD13に記憶してある制御プログラムを実行することによって実現される各種の機能について説明する。図3は実施形態1の音声認識装置1の機能構成を示す機能ブロック図である。
【0026】
本実施形態1の音声認識装置1において、制御部10は、操作部14を介してユーザから棄却単語登録処理の実行を要求された場合、HDD13に格納してある音声認識処理プログラム13a及び棄却単語登録処理プログラム13bを実行する。これにより、制御部10は、音声分析部10a、音声照合部10b、単語モデル生成部10c、結果判定部10d、棄却単語生成部10e等の各機能を実現する。
【0027】
音声認識装置1が音声認識処理を行なう場合、制御部10は、音声分析部10a、音声照合部10b、単語モデル生成部10c、結果判定部10dの各機能を実行する。また、音声認識装置1は、単語辞書13cに登録してある認識単語に対応させて棄却単語を登録(追加)する機能を有する。
【0028】
なお、棄却単語は、対応する認識単語を認識結果から除外するか否かを規定する単語であり、音声認識の結果として棄却単語が得られた場合、この棄却単語に対応して単語辞書13cに登録してある認識単語が認識結果から除外される。音声認識装置1が棄却単語の登録処理を行なう場合、制御部10は、音声分析部10a、音声照合部10b、単語モデル生成部10c、結果判定部10d、棄却単語生成部10eの各機能を実行する。
【0029】
音声分析部(抽出手段)10aは、音声データを音響分析し、音声データから例えばMFCCパラメータ(特徴パラメータ、特徴量)を抽出する。なお、音声データから抽出される特徴パラメータは、音声データの特徴を表すパラメータであれば、MFCCパラメータに限られない。
【0030】
単語モデル生成部10cは、単語辞書13cに登録されている認識単語について、各認識単語の音素列と、音響モデル13dに登録してある音響モデルとに基づいて、各認識単語の単語モデル(音響パラメータ)を生成する。なお、単語モデル生成部10cは、例えば、隠れマルコフモデル(HMM:Hidden Markov Model )によって表現した単語モデルを生成する。
【0031】
音声照合部(照合手段)10bは、音声分析部10aによって抽出された音声データの特徴パラメータと、単語モデル生成部10cによって生成された各認識単語の単語モデルのそれぞれとを照合し、両者の類似度を表す尤度を算出する。なお、尤度とは、音声データの特徴パラメータが、各認識単語の単語モデルである可能性を示す。音声照合部10bは、単語モデル生成部10cによって生成された全ての単語モデルに対して算出した尤度を結果判定部10dへ送出する。
【0032】
結果判定部(照合手段)10dは、音声照合部10bから取得したそれぞれの単語モデルに対する尤度に基づいて、最も尤度の高い単語モデルを決定し、決定した単語モデルが得られる認識単語を認識結果として出力する。なお、本実施形態1の音声認識装置1が音声認識処理を行なう場合、結果判定部10dは、得られた認識結果を所定の出力先へ送出する。また、本実施形態1の音声認識装置1が単語辞書13cに登録された認識単語に対する棄却単語を登録する処理を行なう場合、結果判定部10dは、得られた認識結果を棄却単語生成部10eへ送出する。
【0033】
棄却単語生成部10eは、結果判定部10dから取得した認識結果に基づいて、単語辞書13cに登録してある認識単語に対応させて棄却単語を登録する。なお、棄却単語生成部10eが行なう具体的な処理については後述する。
【0034】
上述した構成の音声認識装置1が音声データの認識処理を行なう場合、音声分析部10aは、例えば外部から入力された音声データから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部10bへ送出する。音声照合部10bは、音声分析部10aから取得した特徴パラメータと、単語モデル生成部10cによって生成された各認識単語の単語モデルとを照合し、両者の類似度を表す尤度を算出する。音声照合部10bは、各認識単語の単語モデルに対して算出した尤度を結果判定部10dへ送出し、結果判定部10dは、取得した尤度が最も高い単語モデルの認識単語を認識結果とする。
【0035】
次に、上述した構成の音声認識装置1において、単語辞書13cに登録してある認識単語に対して棄却単語を登録する際の処理について説明する。なお、ユーザは、単語辞書13cに登録してあるいずれかの認識単語に対して棄却単語を登録する場合、棄却単語を特定するための学習データとして、図2(b)に示すテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語とテキストデータとを処理対象に指定して、棄却単語登録処理を音声認識装置1に実行させる。
【0036】
ここでは、単語辞書13cに「おきなか」及び「おきなわ」の情報が認識単語として登録してあり、「おきな」、「おきなわ」及び「おきなあ」の各単語を棄却単語候補とし、これらのいずれかを、認識単語「おきなか」の棄却単語として登録する際の処理を例に説明する。
【0037】
音声分析部10aは、読み付き音声データ13eのうちの図2(b)に示すテキストデータから1つの棄却単語候補の情報(音声データファイルのファイル名及び読み)を読み出す。例えば、音声分析部10aは、ファイル名「okina.wav」及び読み「おきな」を読み出す。音声分析部10aは、ファイル名「okina.wav」の音声データファイルに記憶されている100発声(100個)の音声データを読み出す。音声分析部10aは、音声データのそれぞれから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部10bへ送出する。
【0038】
音声照合部10bは、音声分析部10aから送出されてくる特徴パラメータのそれぞれと、単語モデル生成部10cによって生成された各認識単語の単語モデルとを照合し、両
者の類似度を表す尤度を算出する。音声照合部10bは、音声分析部10aから送出されてくる特徴パラメータのそれぞれについて、算出した各認識単語の単語モデルとの尤度を結果判定部10dへ送出する。結果判定部10dは、各音声信号の特徴パラメータ毎に、尤度が最も高い単語モデルを決定し、決定した単語モデルが得られる認識単語を認識結果とし、各特徴パラメータの認識結果を棄却単語生成部10eへ送出する。
【0039】
音声分析部10a、音声照合部10b及び結果判定部10dは、テキストデータにファイル名が記述されている全ての音声データファイルに対して、また、各音声データファイルに記憶されている全ての音声データに対して上述した処理を繰り返す。
【0040】
棄却単語生成部(計数手段)10eは、結果判定部10dから取得した各特徴パラメータの認識結果に基づいて、棄却単語候補毎に、棄却単語を登録したい認識単語が認識結果として得られた発声数を計数する。即ち、棄却単語生成部10eは、それぞれの棄却単語候補の音声データである100発声分の音声データについて、認識単語「おきなか」と認識された発声数を計数する。棄却単語生成部(登録手段)10eは、棄却単語を登録したい認識単語「おきなか」と認識された発声数が最も多い棄却単語候補を、認識単語「おきなか」に対応する棄却単語として単語辞書13cに登録する。
【0041】
例えば、図2(b)に示すテキストデータを処理対象として棄却単語登録処理を行なった場合に、「おきな」と発声した100発声分の音声データを認識した結果、「おきなか」と認識された発声数が10発声であり、「おきなわ」と発声した100発声分の音声データを認識した結果、「おきなか」と認識された発声数が0発声であり、「おきなあ」と発声した100発声分の音声データを認識した結果、「おきなか」と認識された発声数が30発声であったとする。この場合、棄却単語生成部10eは、「おきなか」と認識された発声数が最も多かった「おきなあ」を認識単語「おきなか」の棄却単語として単語辞書13cに登録する。
【0042】
よって、認識結果として得たくない認識単語「おきなか」と認識される可能性がより高い単語を、認識単語「おきなか」の棄却単語に登録するので、誤認識を精度よく防止できる。
上述した処理を行なうことにより、棄却単語生成部10eは、図2(a)に示す単語辞書13cから、図4に示すような単語辞書13cを生成することができる。なお、図4に示す単語辞書13cは、図2(a)に示す単語辞書13cに対して棄却単語を追加して構成されてもよく、新たな単語辞書13cとして生成されてもよい。
【0043】
図4は棄却単語が登録された単語辞書13cの構成を示す模式図である。図4に示す単語辞書13cには、音声認識装置1が行なう音声認識処理の認識結果となる認識単語の読み及び音素列と、各認識単語に対して追加(登録)された棄却単語の読み及び音素列とが対応付けて登録されている。
【0044】
上述したように棄却単語が登録(追加)された単語辞書13cを用いて音声認識装置1が音声データの認識処理を行なう場合、単語モデル生成部10cは、単語辞書13cに登録されている認識単語だけでなく棄却単語についても単語モデルを生成する。即ち、単語モデル生成部10cは、認識単語及び棄却単語のそれぞれの音素列と、音響モデル13dに登録してある音響モデルとに基づいて、認識単語及び棄却単語のそれぞれの単語モデルを生成する。
【0045】
音声分析部10aは、入力された音声データから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部10bへ送出する。音声照合部10bは、音声分析部10aから取得した特徴パラメータと、単語モデル生成部10cによって生成された認識単語及び
棄却単語の単語モデルのそれぞれとを照合し、両者の類似度を表す尤度を算出する。音声照合部10bは、認識単語及び棄却単語の単語モデルに対して算出した尤度を結果判定部10dへ送出する。
【0046】
結果判定部10dは、取得した尤度が最も高い単語モデルを特定し、この単語モデルが認識単語であるか棄却単語であるかを判定する。結果判定部10dは、取得した尤度が最も高い単語モデルが認識単語であると判定した場合、この認識単語を認識結果とする。一方、結果判定部10dは、取得した尤度が最も高い単語モデルが棄却単語であると判定した場合、この棄却単語と、この棄却単語に対応して単語辞書13cに登録してある認識単語を認識結果としない。従って、結果判定部10dは、次に尤度が高い単語モデルを特定し、この単語モデルについて同様の処理を行なう。
【0047】
このような処理により、最も高い尤度が得られた単語が棄却単語であり、2番目に高い尤度が得られた単語が認識結果として得たくない認識単語であり、3番目に高い尤度が得られた単語が認識結果として得たい認識単語であった場合であっても、認識結果として得たい認識単語を認識結果として得ることができる。具体的には、最も高い尤度が得られた棄却単語を、認識結果として得たくない認識単語の棄却単語として登録しておくことにより、認識結果として得たくない認識単語を認識結果から除外できるので、認識結果として得たい認識単語を認識結果として得ることができる。
【0048】
従って、認識結果として得たい認識単語に類似する単語(類似単語)が、認識結果として得たくない認識単語として認識される可能性が高い場合に、この類似単語を、認識結果として得たくない認識単語の棄却単語として登録しておく。これにより、前記類似単語の音声データを音声認識した結果、認識結果として得たい認識単語に類似する単語であると認識された場合に、この単語が棄却単語であるので、この棄却単語に対応する認識単語を認識結果とせず、誤認識を防止できる。
【0049】
以下に、本実施形態1の音声認識装置1による棄却単語登録処理についてフローチャートに基づいて詳述する。図5及び図6は棄却単語登録処理の手順を示すフローチャートである。なお、以下の処理は、音声認識装置1のROM11又はHDD13に格納してある制御プログラムに従って制御部10によって実行される。
【0050】
ユーザは、単語辞書13cに登録してある認識単語に対して棄却単語を登録する場合、図2(b)に示すテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語と共にテキストデータを処理対象に指定して、棄却単語登録処理を音声認識装置1に実行させる。
【0051】
制御部10(音声分析部10a)は、テキストデータから1つの棄却単語候補の情報(音声データファイルのファイル名及び読み)を読み出す(S1)。制御部10(音声分析部10a)は、読み出したファイル名の音声データファイルに記憶されている音声データのうちの1つを読み出し(S2)、読み出した音声データから特徴パラメータを抽出する(S3)。
【0052】
制御部10(音声照合部10b)は、抽出した特徴パラメータと、単語モデル生成部10cによって生成された各認識単語の単語モデルとを照合する(S4)。制御部10(音声照合部10b)は、音声データから抽出した特徴パラメータと、各認識単語の単語モデルとの尤度に基づいて、尤度が最も高い単語モデルに対応する認識単語を認識結果とする。制御部10(結果判定部10d)は、認識結果が、棄却単語を登録したい認識単語と一致するか否かを判断する(S5)。
【0053】
制御部10(結果判定部10d)は、棄却単語を登録したい認識単語と一致すると判断した場合(S5:YES)、棄却単語を登録したい認識単語と認識した発声数に1を加算する(S6)。なお、棄却単語を登録したい認識単語と認識した発声数は、棄却単語登録処理の開始時に0にリセットされている。
【0054】
制御部10は、認識結果が、棄却単語を登録したい認識単語と一致しないと判断した場合(S5:NO)、ステップS6の処理をスキップする。制御部10は、ステップS1で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したか否かを判断し(S7)、読み出していないと判断した場合(S7:NO)、ステップS2へ処理を戻す。制御部10は、ステップS1で読み出したファイル名の音声データファイルに記憶されている全ての音声データに対して、上述したステップS3〜S6の処理を行なう。
【0055】
制御部10は、ステップS1で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したと判断した場合(S7:YES)、ステップS1で読み出した読みに対応させてステップS6で算出した発声数をRAM12に記憶させる(S8)。
【0056】
制御部10は、処理対象のテキストデータに記述されている全ての棄却単語候補の情報を読み出したか否かを判断し(S9)、全ての棄却単語候補の情報を読み出していないと判断した場合(S9:NO)、ステップS1へ処理を戻す。制御部10は、処理対象のテキストデータから、まだ処理されていない棄却単語候補の情報のうちの1つを読み出し(S1)、読み出した情報に基づいて、上述したステップS2〜S8の処理を繰り返す。
【0057】
制御部10は、全ての棄却単語候補の情報を読み出したと判断した場合(S9:YES)、ステップS8でRAM12に記憶させた、棄却単語を登録したい認識単語に認識された発声数に基づいて、棄却単語を決定する(S10)。具体的には、制御部10は、棄却単語を登録したい認識単語に認識された発声数が最も多い単語を棄却単語に決定する。制御部10は、決定した棄却単語を、棄却単語を登録したい認識単語に対応付けて単語辞書13cに登録する(S11)。
【0058】
次に、上述したように棄却単語が登録された単語辞書13cを用いた音声認識処理についてフローチャートに基づいて詳述する。図7は音声認識処理の手順を示すフローチャートである。なお、以下の処理は、音声認識装置1のROM11又はHDD13に格納してある制御プログラムに従って制御部10によって実行される。
【0059】
制御部10(音声分析部10a)は、音声認識の処理対象である音声データから特徴パラメータを抽出する(S21)。制御部10(音声照合部10b)は、抽出した特徴パラメータと、単語モデル生成部10cによって生成された認識単語及び棄却単語の単語モデルのそれぞれとを照合する(S22)。なお、制御部10(単語モデル生成部10c)は、音声認識を行なう場合、単語辞書13cに登録されている認識単語だけでなく棄却単語についても単語モデルを生成しておく。
【0060】
制御部10(音声照合部10b)は、音声データから抽出した特徴パラメータと、認識単語及び棄却単語の単語モデルのそれぞれとの尤度を算出する。制御部10(結果判定部10d)は、算出した尤度が所定値以上の単語を抽出する(S23)。制御部10(結果判定部10d)は、抽出した単語のうちで、尤度が最も高い単語を特定し(S24)、特定した単語が認識単語であるか否かを判断する(S25)。
【0061】
制御部10(結果判定部10d)は、特定した単語が認識単語であると判断した場合(S25:YES)、特定した単語(認識単語)を認識結果として出力し(S26)、音声認識処理を終了する。制御部10(結果判定部10d)は、特定した単語が認識単語でないと判断した場合(S25:NO)、即ち、特定した単語が棄却単語である場合、特定した単語(棄却単語)に対応して単語辞書13cに登録してある認識単語を認識結果から除外する(S27)。
【0062】
制御部10は、ステップS23で抽出した尤度が所定値以上の単語がまだ有るか否かを判断し(S28)、有ると判断した場合(S28:YES)、ステップS24へ処理を戻す。制御部10は、ステップS23で抽出した単語で、既にステップS25〜S27の処理が行なわれた単語を除いた単語のうちで、尤度が最も高い単語を特定する(S24)。制御部10は、特定した単語に対して、上述したステップS25〜S27の処理を行なう。
【0063】
制御部10は、ステップS23で抽出した尤度が所定値以上の単語がもう無いと判断した場合(S28:NO)、音声認識の処理対象である音声データを棄却し(S29)、認識結果を出力せずに音声認識処理を終了する。
【0064】
上述したように、本実施形態1の音声認識装置1では、単語辞書13cに登録されている認識単語毎に棄却単語を登録しておく。よって、音声認識の処理対象の音声データが、認識結果として得たくない認識単語に類似する単語(棄却単語)であると認識された場合に、この棄却単語に対応する認識単語が認識結果から除外される。これにより、誤認識を防止し、音声認識の精度を向上させることができる。
【0065】
上述した実施形態1の音声認識装置1は、認識単語に棄却単語を登録する際に、棄却単語候補の音声データに対して音声認識処理を行ない、前記認識単語であると認識された発声数が最も多かった棄却単語候補を棄却単語として登録する構成であった。このような構成に限られず、音声認識装置1を、例えば、棄却単語候補の音声データに対して音声認識処理を行ない、前記認識単語であると認識された発声数が所定数以上であった全ての棄却単語候補を棄却単語として登録する構成としてもよい。
【0066】
このように、棄却単語を登録したい認識単語に認識された発声数が所定数以上であった全ての棄却単語候補を棄却単語として登録した場合、認識結果として得たくない認識単語を、より確実に認識結果から除外できるので、誤認識する可能性をより低減することができる。
【0067】
また、音声認識装置1を、例えば、棄却単語候補の音声データに対して音声認識処理を行ない、棄却単語を登録したい認識単語であると認識された発声数の、全ての発声数に対する割合が所定値以上となった棄却単語候補を棄却単語として登録する構成としてもよい。
【0068】
上述した構成の音声認識装置1では、例えば、単語長が異なり、発声の一部が似ているために誤認識してしまう発声に対しても有効である。例えば、「あいちけん」と発声した音声データを認識した結果、認識単語「いち」と認識された発声数が50発声であり、「よっかいち」と発声した音声データを認識した結果、認識単語「いち」と認識された発声数が80発声であり、「いちづける」と発声した音声データを認識した結果、認識単語「いち」と認識された発声数が60発声であったとする。
【0069】
この場合、棄却単語生成部10eは、認識単語「いち」と認識した発声数が最も多かった「よっかいち」を認識単語「いち」の棄却単語として単語辞書13cに登録する。なお
、棄却単語生成部10eは、認識単語「いち」と認識した発声数が所定数(例えば、50)以上であった全ての棄却単語候補を棄却単語として登録する構成であれば、「あいちけん」、「よっかいち」、「いちづける」の全てを認識単語「いち」の棄却単語として単語辞書13cに登録する。
【0070】
(実施形態2)
以下に、実施形態2に係る音声認識装置について説明する。なお、本実施形態2の音声認識装置は、上述した実施形態1で説明した図1に示す音声認識装置1と同様の構成によって実現することができるので、同様の構成については同一の符号を付して説明を省略する。
【0071】
上述した実施形態1の音声認識装置1は、棄却単語を付加したい認識単語に対して、複数の棄却単語候補の音声データに音声認識処理を行ない、その結果、棄却単語を付加したい認識単語であると認識された発声数が多い単語を棄却単語とする構成であった。本実施形態2の音声認識装置1は、棄却単語を付加したい認識単語に対する複数の棄却単語候補の音声データに音声認識処理を行ない、その結果、最も尤度が高かった棄却単語候補の音素列(最尤音素列)を棄却単語として単語辞書13cに登録する構成である。
【0072】
本実施形態2の音声認識装置1において、制御部10は、上述した実施形態1の制御部10と同様に、音声分析部10a、音声照合部10b、単語モデル生成部10c、結果判定部10d、棄却単語生成部10e等の各機能を実現する。なお、本実施形態2の音声認識装置1は、音声認識処理を行なう場合、上述した実施形態1の音声認識装置1と同様の処理を行なう。また、本実施形態2の音声認識装置1が棄却単語登録処理を行なう場合、音声分析部10aは、上述した実施形態1の音声分析部10aと同様の処理を行なう。
【0073】
図8は実施形態2の読み付き音声データの構成を示す模式図である。本実施形態2の音声認識装置1においても、単語辞書13cに登録してある認識単語に対して棄却単語を登録する場合、ユーザは、図8に示すようなテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語とテキストデータとを処理対象に指定して、棄却単語登録処理を音声認識装置1に実行させる。
【0074】
ここでは、単語辞書13cに「おきなか」及び「おきなわ」が認識単語として登録してあり、「のきなか」及び「おきなあ」を棄却単語候補とし、これらの棄却単語候補の何れかの音声データに基づいて、認識単語「おきなか」の棄却単語を登録する際の処理を例に説明する。
【0075】
音声分析部10aは、図8に示すテキストデータから1つの棄却単語候補の情報(音声データファイルのファイル名及び読み)を読み出す。音声分析部10aは、読み出したファイル名の音声データファイルに記憶されている100発声の音声データを読み出し、読み出した音声データのそれぞれから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部10bへ送出する。
【0076】
本実施形態2の音声照合部10bは、音声分析部10aから送出されてくる特徴パラメータのそれぞれと、単語モデル生成部10cによって生成された認識単語「おきなか」の単語モデルとを照合し、両者の類似度を表す尤度を算出する。音声照合部10bは、算出した各特徴パラメータと、認識単語「おきなか」の単語モデルとの尤度を結果判定部10dへ送出する。
【0077】
本実施形態2の結果判定部10dは、音声照合部10bから取得する各特徴パラメータ
と認識単語「おきなか」の単語モデルとの尤度のうちで、最も高い尤度の特徴パラメータを特定してRAM12に記憶させる。具体的には、結果判定部10dは、音声照合部10bから送出されてくる尤度のそれぞれを、既にRAM12に記憶されている尤度と比較する。結果判定部10dは、RAM12に記憶させた尤度よりも高い尤度を音声照合部10bから取得した場合、RAM12に記憶してある尤度及び特徴パラメータを、新たに取得した尤度及び特徴パラメータに更新する。
【0078】
音声分析部10a、音声照合部10b及び結果判定部10dが、テキストデータにファイル名が記述されている全ての音声データファイルに対して上述した処理を終了した場合、この時点でRAM12に格納されている尤度は、全ての音声データと認識単語「おきなか」の単語モデルとの尤度において最高値の尤度となる。結果判定部10dは、RAM12に格納してある特徴パラメータ、即ち、最高値の尤度に対応する特徴パラメータを棄却単語生成部10eへ送出する。
【0079】
棄却単語生成部10eは、結果判定部10dから取得した特徴パラメータから最尤音素列を生成する。なお、最尤音素列は、音素単位の音響モデルを自由に連結された中で、特徴パラメータとの類似度が最も高い音響モデル列となる音素のパターン列(音素列)のことを指す。音響モデルの単位は音素に限定されるものではなく、単音節、複数音節であってもよい。
【0080】
棄却単語生成部10eは、生成した最尤音素列を、棄却単語の音素列として単語辞書13cに登録する。なお、単語辞書13cに登録される棄却単語の読みは、図8に示したテキストデータ中の記述から取得すればよい。上述した処理を行なうことにより、棄却単語生成部10eは、図2(a)に示す単語辞書13cから、図4に示すような単語辞書13cを生成することができる。
【0081】
上述したような処理によって、認識結果として得たくない認識単語の単語モデルと最も類似する音声データから得られた音素列(最尤音素列)が棄却単語の音素列として単語辞書13cに登録される。よって、認識結果として得たくない認識単語に発声が類似している音声データが入力された場合であっても、この音声データが棄却単語として認識されるので、この棄却単語に対応する認識単語(認識結果として得たくない認識単語)を認識結果から除外することができる。よって、このような棄却単語が登録された単語辞書13cを用いて音声認識処理を行なうことにより、誤認識を防止できる。
【0082】
なお、本実施形態2における学習データとしての音声データは、棄却単語を付加したい認識単語の音声データではない音声データであれば、雑音から得た音データであってもよい。
【0083】
以下に、本実施形態2の音声認識装置1による棄却単語登録処理についてフローチャートに基づいて詳述する。図9及び図10は棄却単語登録処理の手順を示すフローチャートである。なお、以下の処理は、音声認識装置1のROM11又はHDD13に格納してある制御プログラムに従って制御部10によって実行される。
【0084】
ユーザは、単語辞書13cに登録してある認識単語に対して棄却単語を登録する場合、図8に示すテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語と共にテキストデータを処理対象に指定して、棄却単語登録処理を音声認識装置1に実行させる。
【0085】
制御部10(音声分析部10a)は、テキストデータから1つの棄却単語候補の情報(音声データファイルのファイル名及び読み)を読み出す(S31)。制御部10(音声分
析部10a)は、読み出したファイル名の音声データファイルに記憶されている音声データのうちの1つを読み出し(S32)、読み出した音声データから特徴パラメータを抽出する(S33)。
【0086】
制御部10(音声照合部10b)は、抽出した特徴パラメータと、単語モデル生成部10cによって生成された、棄却単語を付加したい認識単語の単語モデルとを照合する(S34)。制御部10(音声照合部10b)は、音声データから抽出した特徴パラメータと、棄却単語を付加したい認識単語の単語モデルとの尤度を算出し、算出した尤度が、今まで算出した尤度のうちで最高値であるか否かを判断する(S35)。具体的には、制御部10(結果判定部10d)は、算出した尤度が、RAM12に既に記憶してある尤度よりも高いか否かを判断する。
【0087】
なお、制御部10(音声照合部10b)は、音声データから抽出した特徴パラメータと、全ての認識単語及び棄却単語の単語モデルとの尤度を算出してもよい。
制御部10は、算出した尤度が最高値であると判断した場合(S35:YES)、この尤度が得られた特徴パラメータをRAM12に記憶させる(S36)。制御部10は、算出した尤度が最高値でないと判断した場合(S35:NO)、ステップS36の処理をスキップする。
【0088】
制御部10は、ステップS31で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したか否かを判断し(S37)、読み出していないと判断した場合(S37:NO)、ステップS32へ処理を戻す。制御部10は、ステップS31で読み出したファイル名の音声データファイルに記憶されている全ての音声データに対して、上述したステップS33〜S36の処理を行なう。
【0089】
制御部10は、ステップS31で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したと判断した場合(S37:YES)、処理対象のテキストデータに記述されている全ての棄却単語候補の情報を読み出したか否かを判断する(S38)。
【0090】
制御部10は、全ての棄却単語候補の情報を読み出していないと判断した場合(S38:NO)、ステップS31へ処理を戻す。制御部10は、処理対象のテキストデータから、まだ処理されていない棄却単語候補の情報のうちの1つを読み出し(S31)、読み出した情報に基づいて、上述したステップS32〜S37の処理を繰り返す。
【0091】
制御部10は、全ての棄却単語候補の情報を読み出したと判断した場合(S38:YES)、この時点でRAM12に記憶されている特徴パラメータから最尤音素列を生成する(S39)。制御部10は、生成した最尤音素列を棄却単語として、棄却単語を登録したい認識単語に対応付けて単語辞書13cに登録する(S40)。
【0092】
上述したように、本実施形態2の音声認識装置1では、棄却単語を付加する認識単語に発声が類似する音声データから生成された最尤音素列を棄却単語として登録する。よって、認識単語と類似する単語を棄却単語に登録することができる。
【0093】
上述した構成では、認識単語と棄却単語とが類似するので、認識単語を発声した場合に、棄却単語と認識される虞がある。認識単語を発声したにも拘らず棄却単語と認識された場合、この認識単語が認識結果から除外されてしまうので、正しい認識結果を得ることができない。従って、上述したような処理によって棄却単語が決定された場合、認識単語の音声データに音声認識処理を行なった場合に、認識結果として棄却単語が出力されないことを検証することが望ましい。
【0094】
(実施形態3)
以下に、実施形態3に係る音声認識装置について説明する。なお、本実施形態3の音声認識装置は、上述した実施形態1で説明した図1に示す音声認識装置1と同様の構成によって実現することができるので、同様の構成については同一の符号を付して説明を省略する。
【0095】
本実施形態3の音声認識装置1は、上述した実施形態1の音声認識装置1と同様に、複数の棄却単語候補の音声データに対して音声認識処理を行ない、その結果、棄却単語を付加したい認識単語であると認識された発声数が多い単語を棄却単語に決定する。なお、本実施形態3の音声認識装置1において、制御部10は、棄却単語に決定された単語の一部を抽出し、棄却単語として単語辞書13cに登録する。
【0096】
例えば、制御部10は、図2(b)に示すようなテキストデータを処理対象として、認識単語「おきなか」に対する棄却単語を登録する処理を行なった場合、実施形態1で説明した処理を行なう。具体的には、制御部10は、「おきな」と発声した音声データを認識した結果、「おきなか」と認識された発声数が10発声であり、「おきなわ」と発声した音声データを認識した結果、「おきなか」と認識された発声数が0発声であり、「おきなあ」と発声した音声データを認識した結果、「おきなか」と認識された発声数が30発声であることを得たとする。
【0097】
本実施形態3の制御部10(棄却単語生成部10e)は、棄却単語候補の「おきな」、「おきなわ」、「おきなあ」のそれぞれを部分パターンに分割する。ここでは、棄却単語生成部10eは、例えば、「おき」、「きな」、「なわ」、「なあ」の部分パターンに分割する。
【0098】
棄却単語生成部10eは、結果判定部10dから取得した認識結果に基づいて計数した、棄却単語候補毎に、認識単語「おきなか」と認識された発声回数に基づいて、それぞれ分割した部分パターンに対する発声回数を算出する。ここでは、部分パターン「おき」は、棄却単語候補「おきな」、「おきなわ」、「おきなあ」に含まれているので、部分パターン「おき」に対する発声回数は、「おきな」の10発声と「おきなあ」の30発声とを合わせた40発声となる。
【0099】
同様に、棄却単語生成部10eは、部分パターン「きな」に対する発声回数を40発声と算出し、部分パターン「なわ」に対する発声回数を0発声と算出し、部分パターン「なあ」に対する発声回数を30発声と算出する。ここで、棄却単語生成部10eは、それぞれの部分パターンが、棄却単語を付加すべき認識単語「おきなか」の一部であるか否かを判断し、認識単語の一部である部分パターンを棄却単語の候補から除外する。
【0100】
ここでは、部分パターン「おき」、「きな」が認識単語「おきなか」の一部であるので、棄却単語生成部10eは、部分パターン「おき」、「きな」を認識単語「おきなか」の棄却単語の候補から除外する。よって、棄却単語生成部10eは、部分パターン「なあ」を、認識単語「おきなか」に対応する棄却単語として単語辞書13cに登録する。
【0101】
このように、本実施形態3の音声認識装置1は、認識結果として得たくない認識単語に類似する単語の一部を、前記認識単語に対応する棄却単語として単語辞書13cに登録しておく。よって、音声認識の処理対象の音声データが、認識結果として得たくない認識単語に類似する単語の一部(棄却単語)であると認識された場合であっても、この棄却単語に類似する認識単語を認識結果から除外することができる。よって、本実施形態3では、誤認識を防止し、音声認識の精度をより向上させることができる。
【0102】
上述した本実施形態3の音声認識装置1は、実施形態1の音声認識装置1の変形例として説明したが、実施形態2の音声認識装置1の構成にも適用できる。即ち、棄却単語を付加したい認識単語との尤度が最も高かった棄却単語候補の音素列(最尤音素列)を棄却単語として単語辞書13cに登録する際に、この棄却単語候補の音素列の一部を、棄却単語として単語辞書13cに登録する構成としてもよい。
【0103】
上述した実施形態1〜3に説明したように、単語辞書13cに登録してある認識単語毎に棄却単語を登録することにより、単語辞書13cに登録してある他の認識単語に影響を与えずに、認識精度を向上させることができる。具体的には、音声認識処理において、検出率を維持しつつ適合率を改善することができる。
【0104】
なお、検出率は、ある認識単語として認識すべきテストデータ(音声データ)の数に対する、実際に前記認識単語であると正しく認識できた音声データの数の割合を示す。また、適合率は、ある認識単語であると正しく認識した音声データの数と前記認識単語であると誤って認識した音声データの数との合計に対する、前記認識単語であると正しく認識した音声データの数の割合を示す。
【0105】
以上の実施形態1〜3を含む実施形態に関し、更に以下の付記を開示する。
【0106】
(付記1)
音声信号から特徴量を抽出する抽出手段と、複数の認識単語を記憶する単語辞書と、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する照合手段とを備える音声認識装置において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出し、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないように構成してあることを特徴とする音声認識装置。
【0107】
(付記2)
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が出力した認識結果に基づいて、それぞれの棄却単語候補毎に、前記棄却単語を付加すべき認識単語が認識結果として出力された音声信号の数を計数する計数手段と、
該計数手段が計数した数が多い棄却単語候補を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする付記1に記載の音声認識装置。
【0108】
(付記3)
前記登録手段は、前記計数手段が計数した数が所定数以上である棄却単語候補を、前記
棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする付記2に記載の音声認識装置。
【0109】
(付記4)
前記登録手段は、前記棄却単語候補の一部を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする付記2又は3に記載の音声認識装置。
【0110】
(付記5)
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が算出した、前記棄却単語を付加すべき認識単語との類似度が高い音声信号から音響モデルを生成する手段と、
生成した音響モデルを、前記認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする付記1に記載の音声認識装置。
【0111】
(付記6)
音声信号から特徴量を抽出して記憶部に記憶する抽出手段と、複数の認識単語を記憶する単語辞書と、前記抽出手段によって前記記憶部に記憶された特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する照合手段とを備える音声認識装置において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記照合手段は、前記抽出手段によって前記記憶部に記憶された特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出し、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないように構成してあることを特徴とする音声認識装置。
【0112】
(付記7)
複数の認識単語を記憶する単語辞書を有する音声認識装置が、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する音声認識方法において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記音声認識装置が、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出するステップと、
前記音声認識装置が、算出した類似度が高い単語が棄却単語であるか否かを判断するステップと、
前記音声認識装置が、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないステップと
を有することを特徴とする音声認識方法。
【0113】
(付記8)
複数の認識単語を記憶する単語辞書を有するコンピュータに、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力させるためのコンピュータプログラムにおいて、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記コンピュータに、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出させるステップと、
前記コンピュータに、算出した類似度が高い単語が棄却単語であるか否かを判断させるステップと、
前記コンピュータに、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果とさせないステップと
を有することを特徴とするコンピュータプログラム。
【図面の簡単な説明】
【0114】
【図1】実施形態1の音声認識装置の構成を示すブロック図である。
【図2】単語辞書及び読み付き音声データの構成を示す模式図である。
【図3】実施形態1の音声認識装置の機能構成を示す機能ブロック図である。
【図4】棄却単語が登録された単語辞書の構成を示す模式図である。
【図5】棄却単語登録処理の手順を示すフローチャートである。
【図6】棄却単語登録処理の手順を示すフローチャートである。
【図7】音声認識処理の手順を示すフローチャートである。
【図8】実施形態2の読み付き音声データの構成を示す模式図である。
【図9】棄却単語登録処理の手順を示すフローチャートである。
【図10】棄却単語登録処理の手順を示すフローチャートである。
【符号の説明】
【0115】
1 音声認識装置
10 制御部
10a 音声分析部(抽出手段)
10b 音声照合部(照合手段)
10e 棄却単語生成部(計数手段、登録手段)
13 HDD
13c 単語辞書
【特許請求の範囲】
【請求項1】
音声信号から特徴量を抽出する抽出手段と、複数の認識単語を記憶する単語辞書と、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する照合手段とを備える音声認識装置において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出し、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないように構成してあることを特徴とする音声認識装置。
【請求項2】
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が出力した認識結果に基づいて、それぞれの棄却単語候補毎に、前記棄却単語を付加すべき認識単語が認識結果として出力された音声信号の数を計数する計数手段と、
該計数手段が計数した数が多い棄却単語候補を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記登録手段は、前記計数手段が計数した数が所定数以上である棄却単語候補を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする請求項2に記載の音声認識装置。
【請求項4】
前記登録手段は、前記棄却単語候補の一部を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする請求項2又は3に記載の音声認識装置。
【請求項5】
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が算出した、前記棄却単語を付加すべき認識単語との類似度が高い音声信号から音響モデルを生成する手段と、
生成した音響モデルを、前記認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする請求項1に記載の音声認識装置。
【請求項6】
複数の認識単語を記憶する単語辞書を有する音声認識装置が、音声信号から特徴量を抽
出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する音声認識方法において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記音声認識装置が、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出するステップと、
前記音声認識装置が、算出した類似度が高い単語が棄却単語であるか否かを判断するステップと、
前記音声認識装置が、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないステップと
を有することを特徴とする音声認識方法。
【請求項7】
複数の認識単語を記憶する単語辞書を有するコンピュータに、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力させるためのコンピュータプログラムにおいて、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記コンピュータに、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出させるステップと、
前記コンピュータに、算出した類似度が高い単語が棄却単語であるか否かを判断させるステップと、
前記コンピュータに、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果とさせないステップと
を有することを特徴とするコンピュータプログラム。
【請求項1】
音声信号から特徴量を抽出する抽出手段と、複数の認識単語を記憶する単語辞書と、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する照合手段とを備える音声認識装置において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出し、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないように構成してあることを特徴とする音声認識装置。
【請求項2】
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が出力した認識結果に基づいて、それぞれの棄却単語候補毎に、前記棄却単語を付加すべき認識単語が認識結果として出力された音声信号の数を計数する計数手段と、
該計数手段が計数した数が多い棄却単語候補を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記登録手段は、前記計数手段が計数した数が所定数以上である棄却単語候補を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする請求項2に記載の音声認識装置。
【請求項4】
前記登録手段は、前記棄却単語候補の一部を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする請求項2又は3に記載の音声認識装置。
【請求項5】
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が算出した、前記棄却単語を付加すべき認識単語との類似度が高い音声信号から音響モデルを生成する手段と、
生成した音響モデルを、前記認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする請求項1に記載の音声認識装置。
【請求項6】
複数の認識単語を記憶する単語辞書を有する音声認識装置が、音声信号から特徴量を抽
出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する音声認識方法において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記音声認識装置が、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出するステップと、
前記音声認識装置が、算出した類似度が高い単語が棄却単語であるか否かを判断するステップと、
前記音声認識装置が、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないステップと
を有することを特徴とする音声認識方法。
【請求項7】
複数の認識単語を記憶する単語辞書を有するコンピュータに、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力させるためのコンピュータプログラムにおいて、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記コンピュータに、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出させるステップと、
前記コンピュータに、算出した類似度が高い単語が棄却単語であるか否かを判断させるステップと、
前記コンピュータに、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果とさせないステップと
を有することを特徴とするコンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2010−20102(P2010−20102A)
【公開日】平成22年1月28日(2010.1.28)
【国際特許分類】
【出願番号】特願2008−180515(P2008−180515)
【出願日】平成20年7月10日(2008.7.10)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】
【公開日】平成22年1月28日(2010.1.28)
【国際特許分類】
【出願日】平成20年7月10日(2008.7.10)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】
[ Back to top ]