音声認識装置、音声認識方法及びプログラム

【課題】設定された音声認識率と実際の音声認識率との間で大きな誤差が生じないようにする。
【解決手段】音声認識装置１０は、複数の単語それぞれの特徴量を記録した記憶部１２と、外部から入力された音声の特徴量と記憶部１２に記録された複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得部１１ｂと、類似度最大値取得部１１ｂが取得した類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定部１１ｃと、類似度範囲決定部１１ｃが決定した類似度の範囲に含まれる類似度を有する単語を選択し、選択した単語を認識結果として表示部１５に表示する制御を行う表示制御部１１ｄとを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声認識装置、音声認識方法及びプログラムに関する。
【背景技術】
【０００２】
利用者が発した音声を認識し、認識した音声に対応する複数の単語を表示部の画面に表示する音声認識装置が、例えば特許文献１に開示されている。この音声認識装置は、音声が認識される比率（音声認識率）と、音声認識の結果として表示部に表示する単語の候補数（単語候補数）とを互いに対応付けた対応表を記録している。音声認識装置は、指定された音声認識率に対応付けられた単語候補数を対応表から読み出して設定し、認識した音声に対応する各単語の尤もらしさを表す類似度の値が高いものから順に、設定された単語候補数に相当する順位までの単語を認識結果として表示する。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開平５−３５２９３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、上記の対応表は、装置の設計段階で設計者等によって行われた複数回の音声認識テストの結果に基づいて、例えば、一定の音声認識率に対応する単語候補数の平均等を求めることにより生成された相対的なものである。
【０００５】
音声認識装置によって算出される類似度の値は、利用者が発した音声の内容（単語）や音声を発した利用者によって変化する。例えば、同じ利用者が異なる単語を発した場合や、同じ単語を異なる利用者が発した場合、算出結果として得られる類似度の値は異なる。そのため、音声認識装置によって算出される各単語の類似度の値のうち、類似度の最大値と互いに近似する類似度の値、つまり、認識結果の第１候補の単語と互いに類似していると認識される単語が、比較的多く得られる場合と得られない場合とがある。例えば、第１候補の単語と互いに類似していると認識される単語が、比較的、多く得られる場合、予め設定された単語候補数に対応する順位以下の単語は、認識結果として表示されない。このような場合、実際の音声認識率は、予め設定された音声認識率よりも低くなってしまう。
【０００６】
このように、上記の音声認識装置は、設定された音声認識率と実際の音声認識率との間で大きな誤差が生じることがあった。
【０００７】
本発明は、上記実情に鑑みてなされたものであり、設定された音声認識率と実際の音声認識率との間で大きな誤差が生じないようにする、音声認識装置、音声認識方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
本発明の第１の観点に係る音声認識装置は、
複数の単語それぞれの特徴量を記録した辞書記憶手段と、
外部から入力された音声の特徴量と前記辞書記憶手段に記録された前記複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得手段と、
前記類似度最大値取得手段が取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定手段と、
前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語を選択し、選択した前記単語を認識結果として表示部に表示する制御を行う表示制御手段と、を備えたことを特徴とする。
【０００９】
また、本発明の第２の観点に係る音声認識方法は、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得工程と、
前記類似度最大値取得工程で取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定工程と、
前記類似度範囲決定工程で決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御工程と、を有することを特徴とする。
【００１０】
また、本発明の第３の観点に係るプログラムは、
コンピュータに、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得ステップと、
前記類似度最大値取得ステップで取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定ステップと、
前記類似度範囲決定ステップで決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御ステップと、を実行させることを特徴とする。
【発明の効果】
【００１１】
本発明によれば、設定された音声認識率と実際の音声認識率との間で大きな誤差が生じないようにすることができる。
【図面の簡単な説明】
【００１２】
【図１】本発明の一実施形態に係る音声認識装置の構成を示すブロック図である。
【図２】本発明の一実施形態に係る辞書データの構成を示す図である。
【図３】本発明の一実施形態に係る類似度差データの構成を示す図である。
【図４】本発明の一実施形態に係る音声認識装置が行う音声認識処理の手順を示すフローチャート図である。
【図５】本発明の一実施形態に係る音声認識率設定画面を示す図である。
【図６】本発明の一実施形態に係る類似度の範囲を説明するための図である。
【図７】本発明の一実施形態に係る音声認識結果画面を示す図である。
【発明を実施するための形態】
【００１３】
以下、本発明の一実施形態に係る音声認識装置を説明する。本実施形態では、音声認識機能を有する携帯電話を音声認識装置として説明する。
【００１４】
はじめに、図１を参照して音声認識装置１０の構成を説明する。音声認識装置１０は、制御部１１と、記憶部１２と、操作部１３と、音声入力部１４と、表示部１５とを備える。
【００１５】
制御部１１は、音声認識装置１０の全体を制御する。制御部１１は、物理的には、例えば、ＣＰＵ（Central Processing Unit）、ＣＰＵのメインメモリとして機能するＲＡＭ（Random Access Memory）等から構成される。なお、制御部１１は、一部がＡＳＩＣ（Application Specific Integrated Circuit）等の専用回路から構成されてもよい。
【００１６】
また、制御部１１は、機能的には、類似度差取得部１１ａと、類似度最大値取得部１１ｂと、類似度範囲決定部１１ｃと、表示制御部１１ｄとを備える。類似度差取得部１１ａ、類似度最大値取得部１１ｂ、類似度範囲決定部１１ｃ、及び表示制御部１１ｄは、それぞれ制御部１１を構成するＣＰＵが記憶部１２に記録されたプログラム１２ａを実行することにより実現され、後述の処理を行う。
【００１７】
類似度差取得部１１ａは、音声が認識される比率を表す（音声認識率）、または、音声認識の結果として表示部に表示する単語の候補数（単語候補数）が、利用者によって設定されたことに従って、これに対応する類似度差を、記憶部１２に記録された類似度差データ１２ｃから取得する。なお、類似度差の詳細については後述する。
【００１８】
類似度最大値取得部１１ｂは、音声入力部１４で入力される利用者の音声の特徴量と、記憶部１２に記録された辞書データ１２ｂに含まれる各単語の特徴量との比較結果に基づいて利用者が発した音声に対する各単語の尤もらしさを表す類似度を算出し、算出された各単語の類似度の中から類似度の最大値を取得する。
【００１９】
類似度範囲決定部１１ｃは、類似度差取得部１１ａが取得した類似度差と、類似度最大値取得部１１ｂが取得した類似度の最大値とを用いて、認識結果として表示可能な単語に対応する類似度の範囲を決定する。
【００２０】
表示制御部１１ｄは、類似度範囲決定部１１ｃが決定した類似度の範囲に含まれる類似度を有する単語を認識結果として表示部１５に表示する制御を行う。
【００２１】
記憶部１２は、ＣＰＵが実行するプログラム１２ａ、利用者が発した音声の特徴量と比較される複数の単語の特徴量を記録した辞書データ１２ｂ、類似度差を記録した類似度差データ１２ｃ等、各種プログラム及びデータ等を記録する。記憶部１２は、例えば、ＲＯＭ（Read Only Memory）や、フラッシュメモリ等の不揮発性メモリから構成される。
【００２２】
辞書データ１２ｂは、図２に示すように、複数の単語と、各単語の特徴量とを対応付けたデータである。類似度最大値取得部１１ｂは、利用者が発した音声から抽出される特徴量を、辞書データ１２ｂに含まれる各単語の特徴量と比較して、各単語の類似度を算出する。
【００２３】
類似度差データ１２ｃは、図３に示すように、音声認識率と、単語候補数と、類似度差とを対応付けたデータである。音声認識率、単語候補数及び類似度差は、例えば、装置の設計段階で設計者等によって行われた複数回の音声認識テストの結果に基づいて得られた相対的なものである。音声認識率と単語候補数との対応関係は、例えば、一定の音声認識率と、その音声認識率に対応する単語候補数の平均等を求めることにより得られる。また、単語候補数と類似度差との対応関係は、例えば、一定の単語候補数と、その単語候補数に対応する類似度の最大値と最小値との差の平均等を求めることにより得られる。
【００２４】
操作部１３は、利用者の操作を受け付け、受け付けた操作に対応する操作信号を制御部１１（類似度差取得部１１ａを含む）に供給する。操作部１３は、例えば、選択キー、十字キー等のユーザインタフェース装置によって構成される。
【００２５】
音声入力部１４は、利用者が発した音声を入力する。音声入力部１４は、入力された音声に所定の処理を施して音声データを生成し、生成した音声データを制御部１１（類似度最大値取得部１１ｂ）に供給する。音声入力部１４は、音声をアナログ信号に変換するマイク、アナログ信号を増幅する増幅器、及び増幅されたアナログ信号をデジタル信号に変換するＡ／Ｄ変換器等によって構成される。
【００２６】
表示部１５は、制御部１１（表示制御部１１ｄを含む）の制御のもと駆動され、制御部１１（表示制御部１１ｄを含む）から供給される各種画像データ等に基づいて各種画像を画面に表示する。表示部１５は、例えば、液晶表示装置、有機ＥＬ(Electro Luminescence)表示装置等によって構成される。
【００２７】
なお、操作部１３と表示部１５とは、タッチパネルによって構成されても良い。タッチパネルは、所定の操作を受け付ける画面を表示すると共に、ユーザが画面に接触した位置に対応する操作信号を制御部１１（類似度差取得部１１ａ）に供給する。
【００２８】
以上のように構成された音声認識装置１０の動作を、図４を用いて説明する。
【００２９】
音声認識装置１０を用いる利用者は、表示部１５に表示されたメニュー画面を確認し、操作部１３を用いて、音声認識装置１０の記憶部１２に記録されたプログラム１２ａを実行する操作を行う。制御部１１は、操作部１３が受け付けた操作に対応する操作信号を操作部１３から受け取ると、これに従って、記憶部１２に記録されたプログラム１２ａを読み出して実行する。
【００３０】
プログラム１２ａの実行に従って、類似度差取得部１１ａは、利用者に音声認識率の設定を要求する画面（音声認識率設定画面）を表示部１５に表示する（ステップＳ０１）。利用者は、表示部１５に表示された、例えば、図５に示すような音声認識率設定画面を確認し、操作部１３を用いて音声認識率を入力する操作を行う。
【００３１】
ここで、単語候補数と音声認識率とは、トレードオフの関係にある。つまり、音声認識率は、その値が大きければ大きいほど認識結果の信頼性が上がるが、その一方で、表示部１５に表示される単語候補数は増加するため、利用者の視認性が低下する。そのため、利用者は、単語候補数と音声認識率との両方のバランスを考慮して音声認識率の入力を行う必要がある。
【００３２】
利用者が操作部１３を用いて音声認識率を入力する操作を行うと、操作部１３は、この操作に対応する操作信号を類似度差取得部１１ａに供給する。類似度差取得部１１ａは、操作部１３から操作信号を受け取ったことに従って、記憶部１２に記録された類似度差データ１２ｃを読み出す。類似度差取得部１１ａは、操作信号により表される音声認識率に対応する単語候補数を表示部１５に表示する。例えば、利用者の操作部１３を用いた操作によって音声認識率「８５（％）」が入力された場合、類似度差取得部１１ａは、図３に示す類似度差データ１２ｃから単語候補数「１５〜１１（個）」を表示部１５に表示する。なお、ここで表示される単語候補数は、利用者が目安として確認するための数であり、以下の音声認識処理を行って実際に表示部１５に表示される単語の数とは異なる。
【００３３】
利用者は、表示部１５に表示された目安の単語候補数を確認し、その内容で良いか否かを判断する。なお、利用者は、操作部１３を用いて、音声認識率を入力する代わりに単語候補数を入力する操作を行っても良い。この場合、類似度差取得部１１ａは、操作信号により表される単語候補数に対応する音声認識率を表示部１５に表示する。利用者は、表示部１５に表示された音声認識率を確認し、その内容で良いか否かを判断しても良い。
【００３４】
利用者は、表示部１５に表示された内容（音声認識率と単語候補数）で良くないと判断した場合、操作部１３を用いて、音声認識率を再入力する操作を行う（ＮＧを選択する操作を行う（ステップＳ０２；Ｎｏ））。この操作に従って、類似度差取得部１１ａは、音声認識率設定画面を表示部１５に再表示する（ステップＳ０１）。
【００３５】
一方、良いと判断した場合、利用者は、操作部１３を用いて、音声認識率を設定する操作を行う（ＯＫを選択する操作を行う（ステップＳ０２；Ｙｅｓ））。この操作に従って、類似度差取得部１１ａは、設定された音声認識率に対応する類似度差を、類似度差データ１２ｃから取得する（ステップＳ０３）。例えば、音声認識率「８５（％）」を設定する操作が行われた場合、設定された音声認識率「８５（％）」に対応する類似度差「１０」を取得する。
【００３６】
つづいて、類似度最大値取得部１１ｂは、利用者に音声入力を要求する画面（音声入力画面）を表示部１５に表示する（ステップＳ０４）。類似度最大値取得部１１ｂは、音声入力部１４から音声データを受け取るまで待機状態となる（ステップＳ０５；Ｎｏ）。
【００３７】
利用者は、表示部１５に表示された音声入力画面を確認し、音声入力部１４に向かって、認識させたい単語を含む音声を発する。音声入力部１４は、利用者が発した音声を入力し、入力された音声に所定の処理を施して音声データを生成し、生成した音声データを類似度最大値取得部１１ｂに供給する。
【００３８】
類似度最大値取得部１１ｂは、音声入力部１４から音声データを受け取ると（ステップＳ０５；Ｙｅｓ）、音声データに含まれる音声の特徴量を抽出する。類似度最大値取得部１１ｂは、抽出された音声の特徴量と、記憶部１２に記録された辞書データ１２ｂに含まれる各単語の特徴量との比較を行って、各単語の類似度を算出する（ステップＳ０６）。類似度最大値取得部１１ｂは、算出された各単語の類似度の値が大きいものから順に並べ、その中から類似度の最大値を取得する（ステップＳ０７）。
【００３９】
類似度範囲決定部１１ｃは、ステップＳ０３で類似度差取得部１１ａが取得した類似度差と、ステップＳ０７で類似度最大値取得部１１ｂが取得した類似度最大値とを用いて、認識結果として表示可能な類似度の範囲を決定する（ステップＳ０８）。
【００４０】
例えば、類似度最大値取得部１１ｂが類似度最大値「Ｖｍａｘ＝９４」を取得し、類似度差取得部１１ａが類似度差「１０」を取得していた場合、図６（ａ）に示すように、類似度範囲決定部１１ｃは、類似度最大値「Ｖｍａｘ＝９４」から類似度差「１０」を差し引いた類似度の値を、認識結果として表示可能な類似度の最小値「Ｖｍｉｎ＝８４」として決定する。そして、類似度範囲決定部１１ｃは、類似度の最小値「Ｖｍｉｎ＝８４」から類似度最大値「Ｖｍａｘ＝９４」までの範囲（Ｖｍｉｎ≦Ｖ（類似度）≦Ｖｍａｘ）を認識結果として表示可能な類似度の範囲として決定する。
【００４１】
その後、表示制御部１１ｄは、類似度範囲決定部１１ｃが決定した類似度の範囲（Ｖｍｉｎ≦Ｖ≦Ｖｍａｘ）に含まれる類似度を有する単語を認識結果として表示部１５に表示する制御を行う。例えば、類似度範囲決定部１１ｃによって、図６（ａ）に示した類似度の範囲（８４≦Ｖ（類似度）≦９４）が決定された場合、表示制御部１１ｄは、この範囲に含まれる類似度を有する３個の単語Ａ１〜Ａ３を表示部１５に表示する制御を行う。
【００４２】
表示部１５は、表示制御部１１ｄの制御のもと駆動され、表示制御部１１ｄから供給される、認識結果に対応する画像データにより表される画像を、画面に表示する。以上により音声認識処理は終了する。
【００４３】
その後、利用者は、表示部１５に表示された、例えば、図７（ａ）に示すような認識結果を表す画面の中に、自身が認識させたかった単語があるか否かを確認し、操作部１３を用いて、自身が認識させたかった単語を選択する操作を行う。ここでは、音声認識率（８５（％））の設定時に利用者によって確認された単語候補数（１５〜１１（個））よりも少ない数の単語（３個の単語Ａ１〜Ａ３）が表示されている。この場合、認識結果として表示される単語の数は、目安として設定された単語候補数（１５〜１１（個））よりも少ないが、実際の音声認識率は、利用者によって設定された音声認識率（８５（％））を確保している。
【００４４】
以上説明したように、本実施形態の音声認識装置１０によれば、利用者によって設定された音声認識率と実際の音声認識率との間で大きな誤差を生じないように認識結果の単語を表示することができる。
【００４５】
なお、図４に示したステップＳ０８において、類似度範囲決定部１１ｃによって、図６（ｂ）に示すように、類似度の範囲（８５≦Ｖ（類似度）≦９５）が決定された場合、表示部１５には、図７（ｂ）に示すような認識結果を表す画面が表示される。この場合、認識結果として表示される単語の数は、目安として設定された単語候補数（１５〜１１（個））よりも多いが、実際の音声認識率は、利用者によって設定された音声認識率（８５（％））を確保しており、利用者によって設定された音声認識率と実際の音声認識率との間で大きな誤差を生じないように認識結果を表示することができる。
【００４６】
なお、上記したように、表示部１５に表示される単語候補数が増加すると、利用者の視認性が低下してしまう。そこで、音声認識装置１０は、表示部１５に表示される単語の数について閾値を設定することにより、単語候補数を絞り込むようにしても良い。表示部１５に表示される単語の数の閾値は、例えば、目安として設定された単語候補数とする。また、記憶部１２に記録された辞書データ１２ｂに含まれる複数の単語を属性毎に記録する。表示制御部１１ｄは、類似度範囲決定部１１ｃが決定した類似度の範囲に含まれる類似度を有する単語の数が、目安として設定された単語候補数を超えているか否かを判別し、超えていると判別した場合は、利用者に属性の指定を要求する画面（属性指定画面）を表示部１５に表示する。利用者は、この画面を確認し、操作部１３を用いて、自身が認識させたかった単語の属性（例えば、氏名等）を指定する操作を行う。表示制御部１１ｄは、上記の類似度の範囲に含まれる類似度を有する単語の中から、指定された属性を有する単語を、認識結果として表示部１５に表示する制御を行う。これにより、認識結果として表示される単語の数が、目安として設定された単語候補数よりも多い場合でも、利用者によって指定された属性を有する単語に絞り込むことができ、利用者の視認性を低下させることなく、音声認識率を確保することができる。
【００４７】
また、上記実施形態では、プログラム１２ａを実行する度に、音声認識率の設定と類似度差の取得を行うものとして説明したが、音声認識率及び類似度差は、それぞれ予め設定された値を用いても良い。
【００４８】
また、上記実施形態では、類似度範囲を決定するために、類似度の最大値との差を求める類似度差を用いたが、類似度の最大値との比率を表す類似度比を用いても良い。
【００４９】
また、音声認識装置１０は、類似度最大値取得部１１ｂが取得する類似度の最大値について、閾値を設定しても良い。類似度最大値取得部１１ｂは、各単語の類似度の中から取得する類似度の最大値（第１候補の単語の類似度の値）が、閾値を超えているか否かを判別し、超えていないと判別した場合は、利用者に再度の音声入力を要求する画面を表示部１５に表示しても良い。これにより、例えば、周囲の雑音等によって、利用者が発した音声が正常に入力されなかった場合には、認識結果の単語を表示しないので、利用者によって設定された音声認識率と実際の音声認識率との間で大きな誤差を生じないように認識結果の単語を表示することができる。
【００５０】
また、音声認識装置１０は、表示部１５に表示された認識結果から（利用者が認識させたかった）単語が選択されたか否かを判別し、その判別結果に従って、記憶部１２に記録された類似度差データ１２ｃを更新する学習機能を備えても良い。これにより、音声認識装置１０は、音声認識処理を行う度に、類似度差データ１２ｃの精度を向上させることができる。
【００５１】
なお、本発明の音声認識装置１０は、携帯電話等の専用の装置を用いる必要はなく、通常のコンピュータにより実現できる。この場合、上記実施形態で説明したプログラム１２ａは、コンピュータにより実行され、コンピュータは、プログラム１２ａに従って、上記実施形態で説明した動作を行う。また、上記実施形態のプログラム１２ａは、持ち運び可能な記録媒体等に記録されたものでもよい。持ち運び可能な記録媒体には、例えば、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）等がある。また、プログラム１２ａは、持ち運び可能な記録媒体から各種読取装置を介して、対応する音声認識装置１０にインストールされたものでも良い。さらに、プログラム１２ａは、インターネット等を介して、対応する音声認識装置１０にダウンロード及びインストールされたものでもよい。また、プログラム１２ａは、対応する音声認識装置１０と通信可能なサーバ等の記憶装置に格納されたものでも良い。
【００５２】
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【００５３】
（付記１）
複数の単語それぞれの特徴量を記録した辞書記憶手段と、
外部から入力された音声の特徴量と前記辞書記憶手段に記録された前記複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得手段と、
前記類似度最大値取得手段が取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定手段と、
前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語を選択し、選択した前記単語を認識結果として表示部に表示する制御を行う表示制御手段と、を備えた、
ことを特徴とする音声認識装置。
【００５４】
（付記２）
前記所定値を、音声が認識される目安の比率を表す音声認識率、および、音声の認識結果として表示される単語の目安の数を表す単語候補数の何れかまたはその両方と対応付けて記録した所定値記憶手段と、
外部から設定された前記音声認識率または前記単語候補数に従って、前記所定値記憶手段から前記音声認識率または前記単語候補数に対応付けられた前記所定値を読み出して取得する所定値取得手段と、を備えた、
ことを特徴とする付記１に記載の音声認識装置。
【００５５】
（付記３）
前記所定値は、前記類似度の最大値との差、または、前記類似度の最大値との比を表す値である、
ことを特徴とする付記１または２に記載の音声認識装置。
【００５６】
（付記４）
前記辞書記憶手段は、前記複数の単語を属性毎に記録し、
前記表示制御手段は、前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語の数が所定の閾値を超えているか否かを判別し、その判別結果に従って、前記類似度の範囲に含まれる類似度を有する単語のうち、外部から指定された属性を有する単語を認識結果として前記表示部に表示する制御を行う、
ことを特徴とする付記１乃至３の何れか１つに記載の音声認識装置。
【００５７】
（付記５）
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得工程と、
前記類似度最大値取得工程で取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定工程と、
前記類似度範囲決定工程で決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御工程と、を有する、
ことを特徴とする音声認識方法。
【００５８】
（付記６）
コンピュータに、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得ステップと、
前記類似度最大値取得ステップで取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定ステップと、
前記類似度範囲決定ステップで決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御ステップと、を実行させる、
ことを特徴とするプログラム。
【００５９】
その他、本発明は、上記実施形態の説明及び図面によって限定されるものではなく、上記実施形態及び図面に適宜変更等を加えることは可能である。
【符号の説明】
【００６０】
１０音声認識装置
１１制御部
１１ａ類似度差取得部
１１ｂ類似度最大値取得部
１１ｃ類似度範囲決定部
１１ｄ表示制御部
１２記憶部
１２ａプログラム
１２ｂ辞書データ
１２ｃ類似度差データ
１３操作部
１４音声入力部
１５表示部

【特許請求の範囲】
【請求項１】
複数の単語それぞれの特徴量を記録した辞書記憶手段と、
外部から入力された音声の特徴量と前記辞書記憶手段に記録された前記複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得手段と、
前記類似度最大値取得手段が取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定手段と、
前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語を選択し、選択した前記単語を認識結果として表示部に表示する制御を行う表示制御手段と、を備えた、
ことを特徴とする音声認識装置。
【請求項２】
前記所定値を、音声が認識される目安の比率を表す音声認識率、および、音声の認識結果として表示される単語の目安の数を表す単語候補数の何れかまたはその両方と対応付けて記録した所定値記憶手段と、
外部から設定された前記音声認識率または前記単語候補数に従って、前記所定値記憶手段から前記音声認識率または前記単語候補数に対応付けられた前記所定値を読み出して取得する所定値取得手段と、を備えた、
ことを特徴とする請求項１に記載の音声認識装置。
【請求項３】
前記所定値は、前記類似度の最大値との差、または、前記類似度の最大値との比を表す値である、
ことを特徴とする請求項１または２に記載の音声認識装置。
【請求項４】
前記辞書記憶手段は、前記複数の単語を属性毎に記録し、
前記表示制御手段は、前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語の数が所定の閾値を超えているか否かを判別し、その判別結果に従って、前記類似度の範囲に含まれる類似度を有する単語のうち、外部から指定された属性を有する単語を認識結果として前記表示部に表示する制御を行う、
ことを特徴とする請求項１乃至３の何れか１項に記載の音声認識装置。
【請求項５】
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得工程と、
前記類似度最大値取得工程で取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定工程と、
前記類似度範囲決定工程で決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御工程と、を有する、
ことを特徴とする音声認識方法。
【請求項６】
コンピュータに、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得ステップと、
前記類似度最大値取得ステップで取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定ステップと、
前記類似度範囲決定ステップで決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御ステップと、を実行させる、
ことを特徴とするプログラム。

【図１】