音声認識装置、音声認識方法及びコンピュータプログラム

【課題】音声認識処理の精度を向上させる音声認識装置、音声認識方法及びコンピュータプログラムを提供する。
【解決手段】単語辞書１３ｃに登録してある認識単語に棄却単語を付与する場合、音声分析部１０ａは、複数の棄却単語候補のそれぞれに対する複数の音声データのそれぞれから特徴パラメータを抽出する。音声照合部１０ｂは、音声分析部１０ａによって抽出された特徴パラメータと、単語モデル生成部１０ｃによって生成された各認識単語の単語モデルとの尤度を算出する。結果判定部１０ｄは、各特徴パラメータに対して、尤度が最も高い単語モデルを認識結果とする。棄却単語生成部１０ｅは、各特徴パラメータに対する認識結果に基づいて、棄却単語候補毎に、棄却単語を登録したい認識単語が認識結果であった発声数を計数し、計数した発声数が最も多い棄却単語候補を、前記認識単語に対応する棄却単語として単語辞書１３ｃに登録する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声信号と、予め登録してある認識単語との類似度に基づいて、前記音声信号が前記認識単語のいずれであるかを判断し、認識結果を出力する音声認識装置、該音声認識装置による音声認識方法、前記音声認識装置をコンピュータによって実現するためのコンピュータプログラムに関する。
【背景技術】
【０００２】
従来の音声認識装置において、認識単語の情報が登録された単語辞書と、棄却単語の情報が登録された棄却単語辞書とが予め用意されている装置がある（例えば、特許文献１，２参照）。このような音声認識装置は、話者により入力された音声情報と、単語辞書及び棄却単語辞書に登録されている情報とを比較し、入力された音声情報と最も類似する単語を特定する。そして、音声認識装置は、特定した単語が認識単語であれば認識結果として前記認識単語を出力し、特定した単語が棄却単語であれば認識結果無しとして、入力された音声情報を棄却する。
【０００３】
上述したように棄却単語辞書を用いる構成では、棄却単語との類似度が１位となるような音声情報に対しては、どのような単語辞書を用いた場合であっても棄却されてしまう。そのため、認識結果に悪影響を与える可能性のある棄却単語を棄却単語辞書に登録しておかないといった対応が取られることがあった。しかし、このような棄却単語を棄却単語辞書に登録しておかない場合であっても、適切な認識結果が得られない場合もある。
【０００４】
具体的には、例えば、入力された音声情報の認識結果として「おきなわ」を得たい場合を考える。また、入力された音声情報に対して、類似度を１００点満点で表した場合に、「おきなあ」に対して９８点、「おきなか」に対して９５点、「おきなわ」に対して９３点の類似度がそれぞれ得られたとする。
【０００５】
ここで、単語辞書に「おきなか」及び「おきなわ」の情報が登録されており、棄却単語辞書に「おきなあ」の情報が登録されているとする。ここでは、類似度が１番高い「おきなあ」の情報が棄却単語辞書に登録されているので、認識結果無しとして、入力された音声信号が棄却される。
【０００６】
一方、単語辞書に「おきなか」及び「おきなわ」の情報が登録されているが、棄却単語辞書に「おきなあ」の情報が登録されていないとする。ここでは、類似度が１番高い「おきなあ」の情報が単語辞書及び棄却単語辞書のいずれにも登録されておらず、類似度が２番目に高い「おきなか」の情報が単語辞書に登録されているので、認識結果として「おきなか」が出力される。
【０００７】
上述したように、類似度が高い順に「おきなあ」、「おきなか」、「おきなわ」と認識されるような音声情報に対しては、「おきなあ」を棄却単語として登録しておいた場合であっても、登録しておかない場合であっても、適切な認識結果「おきなわ」を得ることができない。
【０００８】
そこで、認識単語毎に未知語モデルの尤度（類似度）に掛ける重みを決定し、重みを掛けられた未知語モデルの尤度と認識結果とを比較して、認識結果の採用又は棄却を決定する装置が提案されている（例えば、特許文献３参照）。また、単語辞書に登録されている認識単語の特性に応じて、適切な棄却単語を生成して棄却単語辞書に登録する構成のシステムが提案されている（例えば、特許文献４参照）。
【特許文献１】特開２００１−１４７６９８号公報
【特許文献２】特許第３１０５８６３号公報
【特許文献３】特開平１０−１７１４８８号公報
【特許文献４】特開２００６−１５４６５８号公報
【発明の開示】
【発明が解決しようとする課題】
【０００９】
上述したような音声認識装置では、未知語モデル、未知語モデルに掛ける重みは、何らかの方法に従って人手で決定して登録される場合が多く、この場合、最適な未知語モデルの決定が困難である。また、棄却単語辞書に登録される棄却単語は、例えば認識単語の特徴に基づいて生成されるが、この場合、認識単語の特徴に基づいて棄却単語として生成されないような単語を棄却単語とすることができなかった。
【００１０】
本発明は斯かる事情に鑑みてなされたものであり、その目的とするところは、音声認識処理の精度を向上させることが可能な音声認識装置、音声認識方法及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【００１１】
本願に開示する音声認識装置は、複数の認識単語を記憶する単語辞書を備え、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と単語辞書に記憶してある認識単語のそれぞれとの類似度をそれぞれ算出し、算出した類似度が高い認識単語を認識結果として出力する。本願に開示する音声認識装置では、単語辞書は、認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成であり、抽出した特徴量を用いて前記音声信号と単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出する。また、音声認識装置は、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して単語辞書に記憶してある認識単語を認識結果としないようにする。なお、音声認識装置は、算出した類似度が高い単語が認識単語であれば、この認識単語を認識結果として出力する。
【００１２】
本願に開示する音声認識装置によれば、音声認識の処理対象の音声信号が、単語辞書に登録してある棄却単語と認識された場合、この棄却単語に対応して単語辞書に登録してある認識単語を認識結果から除外する。即ち、認識結果として得たい単語（認識単語）に類似する単語（類似単語）を発声した際の音声信号が、前記認識単語とは異なる単語（認識単語）と認識される場合に、前記類似単語を、前記異なる単語に対する棄却単語として登録しておく。これにより、前記音声信号は、前記異なる単語に対する棄却単語と認識され、前記異なる単語を認識結果から除外するので、誤認識を防止できる。
【発明の効果】
【００１３】
本願に開示する音声認識装置では、認識結果として得たい認識単語に類似する単語の音声信号が、異なる認識単語と認識される可能性が高い場合であっても、前記異なる認識単語を認識結果としないので、適切な認識結果が得られ、音声認識処理の精度を向上させることができる。
【発明を実施するための最良の形態】
【００１４】
以下に、本願に開示する音声認識装置、音声認識方法及びコンピュータプログラムを、各実施形態を示す図面に基づいて詳述する。なお、以下の各実施形態では、本願に開示するコンピュータプログラムを公知のパーソナルコンピュータ等に読み取らせ、パーソナルコンピュータのＣＰＵ（Central Processing Unit）等によって実行させることによって本願に開示する音声認識装置を実現する構成について説明する。しかし、等価な働きをす
るハードウェアによって本願に開示する音声認識装置を実現してもよい。
【００１５】
（実施形態１）
以下に、本願に開示する音声認識装置を、実施形態１を示す図面に基づいて詳述する。図１は実施形態１の音声認識装置の構成を示すブロック図である。本実施形態１の音声認識装置１は、例えば公知のパーソナルコンピュータであり、制御部１０、ＲＯＭ（Read Only Memory）１１、ＲＡＭ（Random Access Memory）１２、ハードディスクドライバ（以下、ＨＤＤという）１３、操作部１４、表示部１５等を備え、これらのハードウェア各部はそれぞれバス１ａを介して相互に接続されている。
【００１６】
制御部１０は、ＣＰＵ又はＭＰＵ（Micro Processor Unit）等であり、ＲＯＭ１１又はＨＤＤ１３に予め格納してある制御プログラムを適宜ＲＡＭ１２に読み出して実行すると共に、上述したハードウェア各部の動作を制御する。ＲＯＭ１１は、音声認識装置１を本発明の音声認識装置として動作させるために必要な種々の制御プログラムを予め格納している。ＲＡＭ１２はＳＲＡＭ又はフラッシュメモリ等であり、制御部１０による制御プログラムの実行時に発生する種々のデータを一時的に記憶する。
【００１７】
ＨＤＤ１３は、大容量の記憶装置であり、音声認識装置１を本願に開示する音声認識装置として動作させるために必要な種々の制御プログラム、ユーザに対して各種の情報を通知するための画面情報等を予め格納している。また、ＨＤＤ１３は、本願に開示する音声認識装置として動作させるための種々の情報として、音声認識処理プログラム１３ａ、棄却単語登録処理プログラム１３ｂ、図２（ａ）に示すような単語辞書１３ｃ、音響モデル１３ｄ、図２（ｂ）に示すような読み付き音声データ１３ｅ等を格納している。
【００１８】
図２は単語辞書１３ｃ及び読み付き音声データ１３ｅの構成を示す模式図である。図２（ａ）に示すように、単語辞書１３ｃには、音声認識装置１が行なう音声認識処理の認識結果となる認識単語のそれぞれについて読み及び音素列が対応付けて登録されている。なお、各認識単語の音素列は、各認識単語に含まれる音素について、各音素の特徴を示す音響モデルの並びを示している。
【００１９】
読み付き音声データ１３ｅは、棄却単語を付加したい認識単語に対する複数の棄却単語候補の単語毎に、複数の音声データ（音声信号）を記憶した複数の音声データファイル（図示せず）と、各単語の音声データファイルのファイル名及び各単語の読みを対応付けて記述したテキストファイルとを含む。図２（ｂ）にはテキストファイルの記述内容の例を示す。
【００２０】
なお、音声データファイルは、棄却単語候補の各単語を発声した音声を取得し、取得したアナログの音声データ（音声信号）をアナログ／デジタル変換処理によって変換したデジタルの音声データ（音声信号）を記憶する。また、１つの音声データファイルには、１つの棄却単語候補の単語についての音声データが１００個（１００発声）程度記憶されている。
【００２１】
また、音響モデル１３ｄの登録内容は図示しないが、音響モデル１３ｄは、日本語の音素毎に各音素の特徴を表す音響モデル（特徴パターン）を格納している。なお、音響モデルは、例えば、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient：メル周波数ケプストラム係数）パラメータ等、音声認識の分野で通常用いられるパラメータを利用すればよい。
【００２２】
ＨＤＤ１３に格納される各情報は、ＨＤＤ１３に予め格納されている構成に限られない。音声認識装置１が外部メモリ（図示せず）に記憶してあるデータの読み出しが可能なドライバ（図示せず）を備える場合には、外部メモリに記憶された各種情報をドライバによ
って読み出してＨＤＤ１３に格納させてもよい。また、音声認識装置１がインターネットのようなネットワークとの接続が可能な通信部（図示せず）を備える場合には、ネットワークを介して外部の装置から各種情報をダウンロードしてＨＤＤ１３に格納させてもよい。
【００２３】
操作部１４は、キーボード及びマウス等であり、ユーザが音声認識装置１を操作するために必要な各種の操作キーを備えている。ユーザにより各操作キーが操作された場合、操作部１４は操作された操作キーに対応した制御信号を制御部１０へ送出し、制御部１０は操作部１４から取得した制御信号に対応した処理を実行する。
表示部１５は、液晶ディスプレイ又はＣＲＴディスプレイ等であり、制御部１０からの指示に従って、音声認識装置１の動作状態、操作部１４を介して入力された情報、ユーザに対して通知すべき情報等を表示する。
【００２４】
なお、本実施形態１の音声認識装置１は、マイクロフォン及びアナログ／デジタル変換器等を備えた音声入力部、デジタル／アナログ変換器、音声増幅回路及びスピーカ等を備えた音声出力部等を備える構成であってもよい。
【００２５】
以下に、上述した構成の音声認識装置１において、制御部１０がＲＯＭ１１又はＨＤＤ１３に記憶してある制御プログラムを実行することによって実現される各種の機能について説明する。図３は実施形態１の音声認識装置１の機能構成を示す機能ブロック図である。
【００２６】
本実施形態１の音声認識装置１において、制御部１０は、操作部１４を介してユーザから棄却単語登録処理の実行を要求された場合、ＨＤＤ１３に格納してある音声認識処理プログラム１３ａ及び棄却単語登録処理プログラム１３ｂを実行する。これにより、制御部１０は、音声分析部１０ａ、音声照合部１０ｂ、単語モデル生成部１０ｃ、結果判定部１０ｄ、棄却単語生成部１０ｅ等の各機能を実現する。
【００２７】
音声認識装置１が音声認識処理を行なう場合、制御部１０は、音声分析部１０ａ、音声照合部１０ｂ、単語モデル生成部１０ｃ、結果判定部１０ｄの各機能を実行する。また、音声認識装置１は、単語辞書１３ｃに登録してある認識単語に対応させて棄却単語を登録（追加）する機能を有する。
【００２８】
なお、棄却単語は、対応する認識単語を認識結果から除外するか否かを規定する単語であり、音声認識の結果として棄却単語が得られた場合、この棄却単語に対応して単語辞書１３ｃに登録してある認識単語が認識結果から除外される。音声認識装置１が棄却単語の登録処理を行なう場合、制御部１０は、音声分析部１０ａ、音声照合部１０ｂ、単語モデル生成部１０ｃ、結果判定部１０ｄ、棄却単語生成部１０ｅの各機能を実行する。
【００２９】
音声分析部（抽出手段）１０ａは、音声データを音響分析し、音声データから例えばＭＦＣＣパラメータ（特徴パラメータ、特徴量）を抽出する。なお、音声データから抽出される特徴パラメータは、音声データの特徴を表すパラメータであれば、ＭＦＣＣパラメータに限られない。
【００３０】
単語モデル生成部１０ｃは、単語辞書１３ｃに登録されている認識単語について、各認識単語の音素列と、音響モデル１３ｄに登録してある音響モデルとに基づいて、各認識単語の単語モデル（音響パラメータ）を生成する。なお、単語モデル生成部１０ｃは、例えば、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model ）によって表現した単語モデルを生成する。
【００３１】
音声照合部（照合手段）１０ｂは、音声分析部１０ａによって抽出された音声データの特徴パラメータと、単語モデル生成部１０ｃによって生成された各認識単語の単語モデルのそれぞれとを照合し、両者の類似度を表す尤度を算出する。なお、尤度とは、音声データの特徴パラメータが、各認識単語の単語モデルである可能性を示す。音声照合部１０ｂは、単語モデル生成部１０ｃによって生成された全ての単語モデルに対して算出した尤度を結果判定部１０ｄへ送出する。
【００３２】
結果判定部（照合手段）１０ｄは、音声照合部１０ｂから取得したそれぞれの単語モデルに対する尤度に基づいて、最も尤度の高い単語モデルを決定し、決定した単語モデルが得られる認識単語を認識結果として出力する。なお、本実施形態１の音声認識装置１が音声認識処理を行なう場合、結果判定部１０ｄは、得られた認識結果を所定の出力先へ送出する。また、本実施形態１の音声認識装置１が単語辞書１３ｃに登録された認識単語に対する棄却単語を登録する処理を行なう場合、結果判定部１０ｄは、得られた認識結果を棄却単語生成部１０ｅへ送出する。
【００３３】
棄却単語生成部１０ｅは、結果判定部１０ｄから取得した認識結果に基づいて、単語辞書１３ｃに登録してある認識単語に対応させて棄却単語を登録する。なお、棄却単語生成部１０ｅが行なう具体的な処理については後述する。
【００３４】
上述した構成の音声認識装置１が音声データの認識処理を行なう場合、音声分析部１０ａは、例えば外部から入力された音声データから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部１０ｂへ送出する。音声照合部１０ｂは、音声分析部１０ａから取得した特徴パラメータと、単語モデル生成部１０ｃによって生成された各認識単語の単語モデルとを照合し、両者の類似度を表す尤度を算出する。音声照合部１０ｂは、各認識単語の単語モデルに対して算出した尤度を結果判定部１０ｄへ送出し、結果判定部１０ｄは、取得した尤度が最も高い単語モデルの認識単語を認識結果とする。
【００３５】
次に、上述した構成の音声認識装置１において、単語辞書１３ｃに登録してある認識単語に対して棄却単語を登録する際の処理について説明する。なお、ユーザは、単語辞書１３ｃに登録してあるいずれかの認識単語に対して棄却単語を登録する場合、棄却単語を特定するための学習データとして、図２（ｂ）に示すテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語とテキストデータとを処理対象に指定して、棄却単語登録処理を音声認識装置１に実行させる。
【００３６】
ここでは、単語辞書１３ｃに「おきなか」及び「おきなわ」の情報が認識単語として登録してあり、「おきな」、「おきなわ」及び「おきなあ」の各単語を棄却単語候補とし、これらのいずれかを、認識単語「おきなか」の棄却単語として登録する際の処理を例に説明する。
【００３７】
音声分析部１０ａは、読み付き音声データ１３ｅのうちの図２（ｂ）に示すテキストデータから１つの棄却単語候補の情報（音声データファイルのファイル名及び読み）を読み出す。例えば、音声分析部１０ａは、ファイル名「okina.wav」及び読み「おきな」を読み出す。音声分析部１０ａは、ファイル名「okina.wav」の音声データファイルに記憶されている１００発声（１００個）の音声データを読み出す。音声分析部１０ａは、音声データのそれぞれから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部１０ｂへ送出する。
【００３８】
音声照合部１０ｂは、音声分析部１０ａから送出されてくる特徴パラメータのそれぞれと、単語モデル生成部１０ｃによって生成された各認識単語の単語モデルとを照合し、両
者の類似度を表す尤度を算出する。音声照合部１０ｂは、音声分析部１０ａから送出されてくる特徴パラメータのそれぞれについて、算出した各認識単語の単語モデルとの尤度を結果判定部１０ｄへ送出する。結果判定部１０ｄは、各音声信号の特徴パラメータ毎に、尤度が最も高い単語モデルを決定し、決定した単語モデルが得られる認識単語を認識結果とし、各特徴パラメータの認識結果を棄却単語生成部１０ｅへ送出する。
【００３９】
音声分析部１０ａ、音声照合部１０ｂ及び結果判定部１０ｄは、テキストデータにファイル名が記述されている全ての音声データファイルに対して、また、各音声データファイルに記憶されている全ての音声データに対して上述した処理を繰り返す。
【００４０】
棄却単語生成部（計数手段）１０ｅは、結果判定部１０ｄから取得した各特徴パラメータの認識結果に基づいて、棄却単語候補毎に、棄却単語を登録したい認識単語が認識結果として得られた発声数を計数する。即ち、棄却単語生成部１０ｅは、それぞれの棄却単語候補の音声データである１００発声分の音声データについて、認識単語「おきなか」と認識された発声数を計数する。棄却単語生成部（登録手段）１０ｅは、棄却単語を登録したい認識単語「おきなか」と認識された発声数が最も多い棄却単語候補を、認識単語「おきなか」に対応する棄却単語として単語辞書１３ｃに登録する。
【００４１】
例えば、図２（ｂ）に示すテキストデータを処理対象として棄却単語登録処理を行なった場合に、「おきな」と発声した１００発声分の音声データを認識した結果、「おきなか」と認識された発声数が１０発声であり、「おきなわ」と発声した１００発声分の音声データを認識した結果、「おきなか」と認識された発声数が０発声であり、「おきなあ」と発声した１００発声分の音声データを認識した結果、「おきなか」と認識された発声数が３０発声であったとする。この場合、棄却単語生成部１０ｅは、「おきなか」と認識された発声数が最も多かった「おきなあ」を認識単語「おきなか」の棄却単語として単語辞書１３ｃに登録する。
【００４２】
よって、認識結果として得たくない認識単語「おきなか」と認識される可能性がより高い単語を、認識単語「おきなか」の棄却単語に登録するので、誤認識を精度よく防止できる。
上述した処理を行なうことにより、棄却単語生成部１０ｅは、図２（ａ）に示す単語辞書１３ｃから、図４に示すような単語辞書１３ｃを生成することができる。なお、図４に示す単語辞書１３ｃは、図２（ａ）に示す単語辞書１３ｃに対して棄却単語を追加して構成されてもよく、新たな単語辞書１３ｃとして生成されてもよい。
【００４３】
図４は棄却単語が登録された単語辞書１３ｃの構成を示す模式図である。図４に示す単語辞書１３ｃには、音声認識装置１が行なう音声認識処理の認識結果となる認識単語の読み及び音素列と、各認識単語に対して追加（登録）された棄却単語の読み及び音素列とが対応付けて登録されている。
【００４４】
上述したように棄却単語が登録（追加）された単語辞書１３ｃを用いて音声認識装置１が音声データの認識処理を行なう場合、単語モデル生成部１０ｃは、単語辞書１３ｃに登録されている認識単語だけでなく棄却単語についても単語モデルを生成する。即ち、単語モデル生成部１０ｃは、認識単語及び棄却単語のそれぞれの音素列と、音響モデル１３ｄに登録してある音響モデルとに基づいて、認識単語及び棄却単語のそれぞれの単語モデルを生成する。
【００４５】
音声分析部１０ａは、入力された音声データから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部１０ｂへ送出する。音声照合部１０ｂは、音声分析部１０ａから取得した特徴パラメータと、単語モデル生成部１０ｃによって生成された認識単語及び
棄却単語の単語モデルのそれぞれとを照合し、両者の類似度を表す尤度を算出する。音声照合部１０ｂは、認識単語及び棄却単語の単語モデルに対して算出した尤度を結果判定部１０ｄへ送出する。
【００４６】
結果判定部１０ｄは、取得した尤度が最も高い単語モデルを特定し、この単語モデルが認識単語であるか棄却単語であるかを判定する。結果判定部１０ｄは、取得した尤度が最も高い単語モデルが認識単語であると判定した場合、この認識単語を認識結果とする。一方、結果判定部１０ｄは、取得した尤度が最も高い単語モデルが棄却単語であると判定した場合、この棄却単語と、この棄却単語に対応して単語辞書１３ｃに登録してある認識単語を認識結果としない。従って、結果判定部１０ｄは、次に尤度が高い単語モデルを特定し、この単語モデルについて同様の処理を行なう。
【００４７】
このような処理により、最も高い尤度が得られた単語が棄却単語であり、２番目に高い尤度が得られた単語が認識結果として得たくない認識単語であり、３番目に高い尤度が得られた単語が認識結果として得たい認識単語であった場合であっても、認識結果として得たい認識単語を認識結果として得ることができる。具体的には、最も高い尤度が得られた棄却単語を、認識結果として得たくない認識単語の棄却単語として登録しておくことにより、認識結果として得たくない認識単語を認識結果から除外できるので、認識結果として得たい認識単語を認識結果として得ることができる。
【００４８】
従って、認識結果として得たい認識単語に類似する単語（類似単語）が、認識結果として得たくない認識単語として認識される可能性が高い場合に、この類似単語を、認識結果として得たくない認識単語の棄却単語として登録しておく。これにより、前記類似単語の音声データを音声認識した結果、認識結果として得たい認識単語に類似する単語であると認識された場合に、この単語が棄却単語であるので、この棄却単語に対応する認識単語を認識結果とせず、誤認識を防止できる。
【００４９】
以下に、本実施形態１の音声認識装置１による棄却単語登録処理についてフローチャートに基づいて詳述する。図５及び図６は棄却単語登録処理の手順を示すフローチャートである。なお、以下の処理は、音声認識装置１のＲＯＭ１１又はＨＤＤ１３に格納してある制御プログラムに従って制御部１０によって実行される。
【００５０】
ユーザは、単語辞書１３ｃに登録してある認識単語に対して棄却単語を登録する場合、図２（ｂ）に示すテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語と共にテキストデータを処理対象に指定して、棄却単語登録処理を音声認識装置１に実行させる。
【００５１】
制御部１０（音声分析部１０ａ）は、テキストデータから１つの棄却単語候補の情報（音声データファイルのファイル名及び読み）を読み出す（Ｓ１）。制御部１０（音声分析部１０ａ）は、読み出したファイル名の音声データファイルに記憶されている音声データのうちの１つを読み出し（Ｓ２）、読み出した音声データから特徴パラメータを抽出する（Ｓ３）。
【００５２】
制御部１０（音声照合部１０ｂ）は、抽出した特徴パラメータと、単語モデル生成部１０ｃによって生成された各認識単語の単語モデルとを照合する（Ｓ４）。制御部１０（音声照合部１０ｂ）は、音声データから抽出した特徴パラメータと、各認識単語の単語モデルとの尤度に基づいて、尤度が最も高い単語モデルに対応する認識単語を認識結果とする。制御部１０（結果判定部１０ｄ）は、認識結果が、棄却単語を登録したい認識単語と一致するか否かを判断する（Ｓ５）。
【００５３】
制御部１０（結果判定部１０ｄ）は、棄却単語を登録したい認識単語と一致すると判断した場合（Ｓ５：ＹＥＳ）、棄却単語を登録したい認識単語と認識した発声数に１を加算する（Ｓ６）。なお、棄却単語を登録したい認識単語と認識した発声数は、棄却単語登録処理の開始時に０にリセットされている。
【００５４】
制御部１０は、認識結果が、棄却単語を登録したい認識単語と一致しないと判断した場合（Ｓ５：ＮＯ）、ステップＳ６の処理をスキップする。制御部１０は、ステップＳ１で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したか否かを判断し（Ｓ７）、読み出していないと判断した場合（Ｓ７：ＮＯ）、ステップＳ２へ処理を戻す。制御部１０は、ステップＳ１で読み出したファイル名の音声データファイルに記憶されている全ての音声データに対して、上述したステップＳ３〜Ｓ６の処理を行なう。
【００５５】
制御部１０は、ステップＳ１で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したと判断した場合（Ｓ７：ＹＥＳ）、ステップＳ１で読み出した読みに対応させてステップＳ６で算出した発声数をＲＡＭ１２に記憶させる（Ｓ８）。
【００５６】
制御部１０は、処理対象のテキストデータに記述されている全ての棄却単語候補の情報を読み出したか否かを判断し（Ｓ９）、全ての棄却単語候補の情報を読み出していないと判断した場合（Ｓ９：ＮＯ）、ステップＳ１へ処理を戻す。制御部１０は、処理対象のテキストデータから、まだ処理されていない棄却単語候補の情報のうちの１つを読み出し（Ｓ１）、読み出した情報に基づいて、上述したステップＳ２〜Ｓ８の処理を繰り返す。
【００５７】
制御部１０は、全ての棄却単語候補の情報を読み出したと判断した場合（Ｓ９：ＹＥＳ）、ステップＳ８でＲＡＭ１２に記憶させた、棄却単語を登録したい認識単語に認識された発声数に基づいて、棄却単語を決定する（Ｓ１０）。具体的には、制御部１０は、棄却単語を登録したい認識単語に認識された発声数が最も多い単語を棄却単語に決定する。制御部１０は、決定した棄却単語を、棄却単語を登録したい認識単語に対応付けて単語辞書１３ｃに登録する（Ｓ１１）。
【００５８】
次に、上述したように棄却単語が登録された単語辞書１３ｃを用いた音声認識処理についてフローチャートに基づいて詳述する。図７は音声認識処理の手順を示すフローチャートである。なお、以下の処理は、音声認識装置１のＲＯＭ１１又はＨＤＤ１３に格納してある制御プログラムに従って制御部１０によって実行される。
【００５９】
制御部１０（音声分析部１０ａ）は、音声認識の処理対象である音声データから特徴パラメータを抽出する（Ｓ２１）。制御部１０（音声照合部１０ｂ）は、抽出した特徴パラメータと、単語モデル生成部１０ｃによって生成された認識単語及び棄却単語の単語モデルのそれぞれとを照合する（Ｓ２２）。なお、制御部１０（単語モデル生成部１０ｃ）は、音声認識を行なう場合、単語辞書１３ｃに登録されている認識単語だけでなく棄却単語についても単語モデルを生成しておく。
【００６０】
制御部１０（音声照合部１０ｂ）は、音声データから抽出した特徴パラメータと、認識単語及び棄却単語の単語モデルのそれぞれとの尤度を算出する。制御部１０（結果判定部１０ｄ）は、算出した尤度が所定値以上の単語を抽出する（Ｓ２３）。制御部１０（結果判定部１０ｄ）は、抽出した単語のうちで、尤度が最も高い単語を特定し（Ｓ２４）、特定した単語が認識単語であるか否かを判断する（Ｓ２５）。
【００６１】
制御部１０（結果判定部１０ｄ）は、特定した単語が認識単語であると判断した場合（Ｓ２５：ＹＥＳ）、特定した単語（認識単語）を認識結果として出力し（Ｓ２６）、音声認識処理を終了する。制御部１０（結果判定部１０ｄ）は、特定した単語が認識単語でないと判断した場合（Ｓ２５：ＮＯ）、即ち、特定した単語が棄却単語である場合、特定した単語（棄却単語）に対応して単語辞書１３ｃに登録してある認識単語を認識結果から除外する（Ｓ２７）。
【００６２】
制御部１０は、ステップＳ２３で抽出した尤度が所定値以上の単語がまだ有るか否かを判断し（Ｓ２８）、有ると判断した場合（Ｓ２８：ＹＥＳ）、ステップＳ２４へ処理を戻す。制御部１０は、ステップＳ２３で抽出した単語で、既にステップＳ２５〜Ｓ２７の処理が行なわれた単語を除いた単語のうちで、尤度が最も高い単語を特定する（Ｓ２４）。制御部１０は、特定した単語に対して、上述したステップＳ２５〜Ｓ２７の処理を行なう。
【００６３】
制御部１０は、ステップＳ２３で抽出した尤度が所定値以上の単語がもう無いと判断した場合（Ｓ２８：ＮＯ）、音声認識の処理対象である音声データを棄却し（Ｓ２９）、認識結果を出力せずに音声認識処理を終了する。
【００６４】
上述したように、本実施形態１の音声認識装置１では、単語辞書１３ｃに登録されている認識単語毎に棄却単語を登録しておく。よって、音声認識の処理対象の音声データが、認識結果として得たくない認識単語に類似する単語（棄却単語）であると認識された場合に、この棄却単語に対応する認識単語が認識結果から除外される。これにより、誤認識を防止し、音声認識の精度を向上させることができる。
【００６５】
上述した実施形態１の音声認識装置１は、認識単語に棄却単語を登録する際に、棄却単語候補の音声データに対して音声認識処理を行ない、前記認識単語であると認識された発声数が最も多かった棄却単語候補を棄却単語として登録する構成であった。このような構成に限られず、音声認識装置１を、例えば、棄却単語候補の音声データに対して音声認識処理を行ない、前記認識単語であると認識された発声数が所定数以上であった全ての棄却単語候補を棄却単語として登録する構成としてもよい。
【００６６】
このように、棄却単語を登録したい認識単語に認識された発声数が所定数以上であった全ての棄却単語候補を棄却単語として登録した場合、認識結果として得たくない認識単語を、より確実に認識結果から除外できるので、誤認識する可能性をより低減することができる。
【００６７】
また、音声認識装置１を、例えば、棄却単語候補の音声データに対して音声認識処理を行ない、棄却単語を登録したい認識単語であると認識された発声数の、全ての発声数に対する割合が所定値以上となった棄却単語候補を棄却単語として登録する構成としてもよい。
【００６８】
上述した構成の音声認識装置１では、例えば、単語長が異なり、発声の一部が似ているために誤認識してしまう発声に対しても有効である。例えば、「あいちけん」と発声した音声データを認識した結果、認識単語「いち」と認識された発声数が５０発声であり、「よっかいち」と発声した音声データを認識した結果、認識単語「いち」と認識された発声数が８０発声であり、「いちづける」と発声した音声データを認識した結果、認識単語「いち」と認識された発声数が６０発声であったとする。
【００６９】
この場合、棄却単語生成部１０ｅは、認識単語「いち」と認識した発声数が最も多かった「よっかいち」を認識単語「いち」の棄却単語として単語辞書１３ｃに登録する。なお
、棄却単語生成部１０ｅは、認識単語「いち」と認識した発声数が所定数（例えば、５０）以上であった全ての棄却単語候補を棄却単語として登録する構成であれば、「あいちけん」、「よっかいち」、「いちづける」の全てを認識単語「いち」の棄却単語として単語辞書１３ｃに登録する。
【００７０】
（実施形態２）
以下に、実施形態２に係る音声認識装置について説明する。なお、本実施形態２の音声認識装置は、上述した実施形態１で説明した図１に示す音声認識装置１と同様の構成によって実現することができるので、同様の構成については同一の符号を付して説明を省略する。
【００７１】
上述した実施形態１の音声認識装置１は、棄却単語を付加したい認識単語に対して、複数の棄却単語候補の音声データに音声認識処理を行ない、その結果、棄却単語を付加したい認識単語であると認識された発声数が多い単語を棄却単語とする構成であった。本実施形態２の音声認識装置１は、棄却単語を付加したい認識単語に対する複数の棄却単語候補の音声データに音声認識処理を行ない、その結果、最も尤度が高かった棄却単語候補の音素列（最尤音素列）を棄却単語として単語辞書１３ｃに登録する構成である。
【００７２】
本実施形態２の音声認識装置１において、制御部１０は、上述した実施形態１の制御部１０と同様に、音声分析部１０ａ、音声照合部１０ｂ、単語モデル生成部１０ｃ、結果判定部１０ｄ、棄却単語生成部１０ｅ等の各機能を実現する。なお、本実施形態２の音声認識装置１は、音声認識処理を行なう場合、上述した実施形態１の音声認識装置１と同様の処理を行なう。また、本実施形態２の音声認識装置１が棄却単語登録処理を行なう場合、音声分析部１０ａは、上述した実施形態１の音声分析部１０ａと同様の処理を行なう。
【００７３】
図８は実施形態２の読み付き音声データの構成を示す模式図である。本実施形態２の音声認識装置１においても、単語辞書１３ｃに登録してある認識単語に対して棄却単語を登録する場合、ユーザは、図８に示すようなテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語とテキストデータとを処理対象に指定して、棄却単語登録処理を音声認識装置１に実行させる。
【００７４】
ここでは、単語辞書１３ｃに「おきなか」及び「おきなわ」が認識単語として登録してあり、「のきなか」及び「おきなあ」を棄却単語候補とし、これらの棄却単語候補の何れかの音声データに基づいて、認識単語「おきなか」の棄却単語を登録する際の処理を例に説明する。
【００７５】
音声分析部１０ａは、図８に示すテキストデータから１つの棄却単語候補の情報（音声データファイルのファイル名及び読み）を読み出す。音声分析部１０ａは、読み出したファイル名の音声データファイルに記憶されている１００発声の音声データを読み出し、読み出した音声データのそれぞれから特徴パラメータを抽出し、抽出した特徴パラメータを音声照合部１０ｂへ送出する。
【００７６】
本実施形態２の音声照合部１０ｂは、音声分析部１０ａから送出されてくる特徴パラメータのそれぞれと、単語モデル生成部１０ｃによって生成された認識単語「おきなか」の単語モデルとを照合し、両者の類似度を表す尤度を算出する。音声照合部１０ｂは、算出した各特徴パラメータと、認識単語「おきなか」の単語モデルとの尤度を結果判定部１０ｄへ送出する。
【００７７】
本実施形態２の結果判定部１０ｄは、音声照合部１０ｂから取得する各特徴パラメータ
と認識単語「おきなか」の単語モデルとの尤度のうちで、最も高い尤度の特徴パラメータを特定してＲＡＭ１２に記憶させる。具体的には、結果判定部１０ｄは、音声照合部１０ｂから送出されてくる尤度のそれぞれを、既にＲＡＭ１２に記憶されている尤度と比較する。結果判定部１０ｄは、ＲＡＭ１２に記憶させた尤度よりも高い尤度を音声照合部１０ｂから取得した場合、ＲＡＭ１２に記憶してある尤度及び特徴パラメータを、新たに取得した尤度及び特徴パラメータに更新する。
【００７８】
音声分析部１０ａ、音声照合部１０ｂ及び結果判定部１０ｄが、テキストデータにファイル名が記述されている全ての音声データファイルに対して上述した処理を終了した場合、この時点でＲＡＭ１２に格納されている尤度は、全ての音声データと認識単語「おきなか」の単語モデルとの尤度において最高値の尤度となる。結果判定部１０ｄは、ＲＡＭ１２に格納してある特徴パラメータ、即ち、最高値の尤度に対応する特徴パラメータを棄却単語生成部１０ｅへ送出する。
【００７９】
棄却単語生成部１０ｅは、結果判定部１０ｄから取得した特徴パラメータから最尤音素列を生成する。なお、最尤音素列は、音素単位の音響モデルを自由に連結された中で、特徴パラメータとの類似度が最も高い音響モデル列となる音素のパターン列（音素列）のことを指す。音響モデルの単位は音素に限定されるものではなく、単音節、複数音節であってもよい。
【００８０】
棄却単語生成部１０ｅは、生成した最尤音素列を、棄却単語の音素列として単語辞書１３ｃに登録する。なお、単語辞書１３ｃに登録される棄却単語の読みは、図８に示したテキストデータ中の記述から取得すればよい。上述した処理を行なうことにより、棄却単語生成部１０ｅは、図２（ａ）に示す単語辞書１３ｃから、図４に示すような単語辞書１３ｃを生成することができる。
【００８１】
上述したような処理によって、認識結果として得たくない認識単語の単語モデルと最も類似する音声データから得られた音素列（最尤音素列）が棄却単語の音素列として単語辞書１３ｃに登録される。よって、認識結果として得たくない認識単語に発声が類似している音声データが入力された場合であっても、この音声データが棄却単語として認識されるので、この棄却単語に対応する認識単語（認識結果として得たくない認識単語）を認識結果から除外することができる。よって、このような棄却単語が登録された単語辞書１３ｃを用いて音声認識処理を行なうことにより、誤認識を防止できる。
【００８２】
なお、本実施形態２における学習データとしての音声データは、棄却単語を付加したい認識単語の音声データではない音声データであれば、雑音から得た音データであってもよい。
【００８３】
以下に、本実施形態２の音声認識装置１による棄却単語登録処理についてフローチャートに基づいて詳述する。図９及び図１０は棄却単語登録処理の手順を示すフローチャートである。なお、以下の処理は、音声認識装置１のＲＯＭ１１又はＨＤＤ１３に格納してある制御プログラムに従って制御部１０によって実行される。
【００８４】
ユーザは、単語辞書１３ｃに登録してある認識単語に対して棄却単語を登録する場合、図８に示すテキストデータと、このテキストデータにファイル名が記述されている音声データファイルとを用意する。そして、ユーザは、棄却単語を登録したい認識単語と共にテキストデータを処理対象に指定して、棄却単語登録処理を音声認識装置１に実行させる。
【００８５】
制御部１０（音声分析部１０ａ）は、テキストデータから１つの棄却単語候補の情報（音声データファイルのファイル名及び読み）を読み出す（Ｓ３１）。制御部１０（音声分
析部１０ａ）は、読み出したファイル名の音声データファイルに記憶されている音声データのうちの１つを読み出し（Ｓ３２）、読み出した音声データから特徴パラメータを抽出する（Ｓ３３）。
【００８６】
制御部１０（音声照合部１０ｂ）は、抽出した特徴パラメータと、単語モデル生成部１０ｃによって生成された、棄却単語を付加したい認識単語の単語モデルとを照合する（Ｓ３４）。制御部１０（音声照合部１０ｂ）は、音声データから抽出した特徴パラメータと、棄却単語を付加したい認識単語の単語モデルとの尤度を算出し、算出した尤度が、今まで算出した尤度のうちで最高値であるか否かを判断する（Ｓ３５）。具体的には、制御部１０（結果判定部１０ｄ）は、算出した尤度が、ＲＡＭ１２に既に記憶してある尤度よりも高いか否かを判断する。
【００８７】
なお、制御部１０（音声照合部１０ｂ）は、音声データから抽出した特徴パラメータと、全ての認識単語及び棄却単語の単語モデルとの尤度を算出してもよい。
制御部１０は、算出した尤度が最高値であると判断した場合（Ｓ３５：ＹＥＳ）、この尤度が得られた特徴パラメータをＲＡＭ１２に記憶させる（Ｓ３６）。制御部１０は、算出した尤度が最高値でないと判断した場合（Ｓ３５：ＮＯ）、ステップＳ３６の処理をスキップする。
【００８８】
制御部１０は、ステップＳ３１で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したか否かを判断し（Ｓ３７）、読み出していないと判断した場合（Ｓ３７：ＮＯ）、ステップＳ３２へ処理を戻す。制御部１０は、ステップＳ３１で読み出したファイル名の音声データファイルに記憶されている全ての音声データに対して、上述したステップＳ３３〜Ｓ３６の処理を行なう。
【００８９】
制御部１０は、ステップＳ３１で読み出したファイル名の音声データファイルに記憶されている全ての音声データを読み出したと判断した場合（Ｓ３７：ＹＥＳ）、処理対象のテキストデータに記述されている全ての棄却単語候補の情報を読み出したか否かを判断する（Ｓ３８）。
【００９０】
制御部１０は、全ての棄却単語候補の情報を読み出していないと判断した場合（Ｓ３８：ＮＯ）、ステップＳ３１へ処理を戻す。制御部１０は、処理対象のテキストデータから、まだ処理されていない棄却単語候補の情報のうちの１つを読み出し（Ｓ３１）、読み出した情報に基づいて、上述したステップＳ３２〜Ｓ３７の処理を繰り返す。
【００９１】
制御部１０は、全ての棄却単語候補の情報を読み出したと判断した場合（Ｓ３８：ＹＥＳ）、この時点でＲＡＭ１２に記憶されている特徴パラメータから最尤音素列を生成する（Ｓ３９）。制御部１０は、生成した最尤音素列を棄却単語として、棄却単語を登録したい認識単語に対応付けて単語辞書１３ｃに登録する（Ｓ４０）。
【００９２】
上述したように、本実施形態２の音声認識装置１では、棄却単語を付加する認識単語に発声が類似する音声データから生成された最尤音素列を棄却単語として登録する。よって、認識単語と類似する単語を棄却単語に登録することができる。
【００９３】
上述した構成では、認識単語と棄却単語とが類似するので、認識単語を発声した場合に、棄却単語と認識される虞がある。認識単語を発声したにも拘らず棄却単語と認識された場合、この認識単語が認識結果から除外されてしまうので、正しい認識結果を得ることができない。従って、上述したような処理によって棄却単語が決定された場合、認識単語の音声データに音声認識処理を行なった場合に、認識結果として棄却単語が出力されないことを検証することが望ましい。
【００９４】
（実施形態３）
以下に、実施形態３に係る音声認識装置について説明する。なお、本実施形態３の音声認識装置は、上述した実施形態１で説明した図１に示す音声認識装置１と同様の構成によって実現することができるので、同様の構成については同一の符号を付して説明を省略する。
【００９５】
本実施形態３の音声認識装置１は、上述した実施形態１の音声認識装置１と同様に、複数の棄却単語候補の音声データに対して音声認識処理を行ない、その結果、棄却単語を付加したい認識単語であると認識された発声数が多い単語を棄却単語に決定する。なお、本実施形態３の音声認識装置１において、制御部１０は、棄却単語に決定された単語の一部を抽出し、棄却単語として単語辞書１３ｃに登録する。
【００９６】
例えば、制御部１０は、図２（ｂ）に示すようなテキストデータを処理対象として、認識単語「おきなか」に対する棄却単語を登録する処理を行なった場合、実施形態１で説明した処理を行なう。具体的には、制御部１０は、「おきな」と発声した音声データを認識した結果、「おきなか」と認識された発声数が１０発声であり、「おきなわ」と発声した音声データを認識した結果、「おきなか」と認識された発声数が０発声であり、「おきなあ」と発声した音声データを認識した結果、「おきなか」と認識された発声数が３０発声であることを得たとする。
【００９７】
本実施形態３の制御部１０（棄却単語生成部１０ｅ）は、棄却単語候補の「おきな」、「おきなわ」、「おきなあ」のそれぞれを部分パターンに分割する。ここでは、棄却単語生成部１０ｅは、例えば、「おき」、「きな」、「なわ」、「なあ」の部分パターンに分割する。
【００９８】
棄却単語生成部１０ｅは、結果判定部１０ｄから取得した認識結果に基づいて計数した、棄却単語候補毎に、認識単語「おきなか」と認識された発声回数に基づいて、それぞれ分割した部分パターンに対する発声回数を算出する。ここでは、部分パターン「おき」は、棄却単語候補「おきな」、「おきなわ」、「おきなあ」に含まれているので、部分パターン「おき」に対する発声回数は、「おきな」の１０発声と「おきなあ」の３０発声とを合わせた４０発声となる。
【００９９】
同様に、棄却単語生成部１０ｅは、部分パターン「きな」に対する発声回数を４０発声と算出し、部分パターン「なわ」に対する発声回数を０発声と算出し、部分パターン「なあ」に対する発声回数を３０発声と算出する。ここで、棄却単語生成部１０ｅは、それぞれの部分パターンが、棄却単語を付加すべき認識単語「おきなか」の一部であるか否かを判断し、認識単語の一部である部分パターンを棄却単語の候補から除外する。
【０１００】
ここでは、部分パターン「おき」、「きな」が認識単語「おきなか」の一部であるので、棄却単語生成部１０ｅは、部分パターン「おき」、「きな」を認識単語「おきなか」の棄却単語の候補から除外する。よって、棄却単語生成部１０ｅは、部分パターン「なあ」を、認識単語「おきなか」に対応する棄却単語として単語辞書１３ｃに登録する。
【０１０１】
このように、本実施形態３の音声認識装置１は、認識結果として得たくない認識単語に類似する単語の一部を、前記認識単語に対応する棄却単語として単語辞書１３ｃに登録しておく。よって、音声認識の処理対象の音声データが、認識結果として得たくない認識単語に類似する単語の一部（棄却単語）であると認識された場合であっても、この棄却単語に類似する認識単語を認識結果から除外することができる。よって、本実施形態３では、誤認識を防止し、音声認識の精度をより向上させることができる。
【０１０２】
上述した本実施形態３の音声認識装置１は、実施形態１の音声認識装置１の変形例として説明したが、実施形態２の音声認識装置１の構成にも適用できる。即ち、棄却単語を付加したい認識単語との尤度が最も高かった棄却単語候補の音素列（最尤音素列）を棄却単語として単語辞書１３ｃに登録する際に、この棄却単語候補の音素列の一部を、棄却単語として単語辞書１３ｃに登録する構成としてもよい。
【０１０３】
上述した実施形態１〜３に説明したように、単語辞書１３ｃに登録してある認識単語毎に棄却単語を登録することにより、単語辞書１３ｃに登録してある他の認識単語に影響を与えずに、認識精度を向上させることができる。具体的には、音声認識処理において、検出率を維持しつつ適合率を改善することができる。
【０１０４】
なお、検出率は、ある認識単語として認識すべきテストデータ（音声データ）の数に対する、実際に前記認識単語であると正しく認識できた音声データの数の割合を示す。また、適合率は、ある認識単語であると正しく認識した音声データの数と前記認識単語であると誤って認識した音声データの数との合計に対する、前記認識単語であると正しく認識した音声データの数の割合を示す。
【０１０５】
以上の実施形態１〜３を含む実施形態に関し、更に以下の付記を開示する。
【０１０６】
（付記１）
音声信号から特徴量を抽出する抽出手段と、複数の認識単語を記憶する単語辞書と、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する照合手段とを備える音声認識装置において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出し、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないように構成してあることを特徴とする音声認識装置。
【０１０７】
（付記２）
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が出力した認識結果に基づいて、それぞれの棄却単語候補毎に、前記棄却単語を付加すべき認識単語が認識結果として出力された音声信号の数を計数する計数手段と、
該計数手段が計数した数が多い棄却単語候補を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする付記１に記載の音声認識装置。
【０１０８】
（付記３）
前記登録手段は、前記計数手段が計数した数が所定数以上である棄却単語候補を、前記
棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする付記２に記載の音声認識装置。
【０１０９】
（付記４）
前記登録手段は、前記棄却単語候補の一部を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする付記２又は３に記載の音声認識装置。
【０１１０】
（付記５）
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が算出した、前記棄却単語を付加すべき認識単語との類似度が高い音声信号から音響モデルを生成する手段と、
生成した音響モデルを、前記認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする付記１に記載の音声認識装置。
【０１１１】
（付記６）
音声信号から特徴量を抽出して記憶部に記憶する抽出手段と、複数の認識単語を記憶する単語辞書と、前記抽出手段によって前記記憶部に記憶された特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する照合手段とを備える音声認識装置において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記照合手段は、前記抽出手段によって前記記憶部に記憶された特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出し、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないように構成してあることを特徴とする音声認識装置。
【０１１２】
（付記７）
複数の認識単語を記憶する単語辞書を有する音声認識装置が、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する音声認識方法において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記音声認識装置が、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出するステップと、
前記音声認識装置が、算出した類似度が高い単語が棄却単語であるか否かを判断するステップと、
前記音声認識装置が、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないステップと
を有することを特徴とする音声認識方法。
【０１１３】
（付記８）
複数の認識単語を記憶する単語辞書を有するコンピュータに、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力させるためのコンピュータプログラムにおいて、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記コンピュータに、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出させるステップと、
前記コンピュータに、算出した類似度が高い単語が棄却単語であるか否かを判断させるステップと、
前記コンピュータに、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果とさせないステップと
を有することを特徴とするコンピュータプログラム。
【図面の簡単な説明】
【０１１４】
【図１】実施形態１の音声認識装置の構成を示すブロック図である。
【図２】単語辞書及び読み付き音声データの構成を示す模式図である。
【図３】実施形態１の音声認識装置の機能構成を示す機能ブロック図である。
【図４】棄却単語が登録された単語辞書の構成を示す模式図である。
【図５】棄却単語登録処理の手順を示すフローチャートである。
【図６】棄却単語登録処理の手順を示すフローチャートである。
【図７】音声認識処理の手順を示すフローチャートである。
【図８】実施形態２の読み付き音声データの構成を示す模式図である。
【図９】棄却単語登録処理の手順を示すフローチャートである。
【図１０】棄却単語登録処理の手順を示すフローチャートである。
【符号の説明】
【０１１５】
１音声認識装置
１０制御部
１０ａ音声分析部（抽出手段）
１０ｂ音声照合部（照合手段）
１０ｅ棄却単語生成部（計数手段、登録手段）
１３ＨＤＤ
１３ｃ単語辞書

【特許請求の範囲】
【請求項１】
音声信号から特徴量を抽出する抽出手段と、複数の認識単語を記憶する単語辞書と、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する照合手段とを備える音声認識装置において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出し、算出した類似度が高い単語が棄却単語であるか否かを判断し、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないように構成してあることを特徴とする音声認識装置。
【請求項２】
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が出力した認識結果に基づいて、それぞれの棄却単語候補毎に、前記棄却単語を付加すべき認識単語が認識結果として出力された音声信号の数を計数する計数手段と、
該計数手段が計数した数が多い棄却単語候補を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする請求項１に記載の音声認識装置。
【請求項３】
前記登録手段は、前記計数手段が計数した数が所定数以上である棄却単語候補を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする請求項２に記載の音声認識装置。
【請求項４】
前記登録手段は、前記棄却単語候補の一部を、前記棄却単語を付加すべき認識単語に対する棄却単語として前記単語辞書に記憶させるように構成してあることを特徴とする請求項２又は３に記載の音声認識装置。
【請求項５】
棄却単語を付加すべき認識単語に対する複数の棄却単語候補のそれぞれについて複数の音声信号を前記抽出手段に入力する手段を備え、
前記抽出手段は、入力された複数の音声信号のそれぞれから特徴量を抽出するように構成してあり、
前記照合手段は、前記抽出手段が抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度に基づく認識結果を出力するように構成してあり、
前記照合手段が算出した、前記棄却単語を付加すべき認識単語との類似度が高い音声信号から音響モデルを生成する手段と、
生成した音響モデルを、前記認識単語に対する棄却単語として前記単語辞書に記憶させる登録手段と
を備えることを特徴とする請求項１に記載の音声認識装置。
【請求項６】
複数の認識単語を記憶する単語辞書を有する音声認識装置が、音声信号から特徴量を抽
出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力する音声認識方法において、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記音声認識装置が、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出するステップと、
前記音声認識装置が、算出した類似度が高い単語が棄却単語であるか否かを判断するステップと、
前記音声認識装置が、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果としないステップと
を有することを特徴とする音声認識方法。
【請求項７】
複数の認識単語を記憶する単語辞書を有するコンピュータに、音声信号から特徴量を抽出し、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語のそれぞれとの類似度を算出し、算出した類似度が高い認識単語を認識結果として出力させるためのコンピュータプログラムにおいて、
前記単語辞書は、前記認識単語に対応させて、該認識単語を認識結果から除外するか否かを規定する棄却単語を記憶する構成としてあり、
前記コンピュータに、抽出した特徴量を用いて前記音声信号と前記単語辞書に記憶してある認識単語及び棄却単語のそれぞれとの類似度を算出させるステップと、
前記コンピュータに、算出した類似度が高い単語が棄却単語であるか否かを判断させるステップと、
前記コンピュータに、棄却単語であると判断した場合、該棄却単語に対応して前記単語辞書に記憶してある認識単語を認識結果とさせないステップと
を有することを特徴とするコンピュータプログラム。

【図１】