音声認識装置、音声認識方法及びプログラム
【課題】設定された音声認識率と実際の音声認識率との間で大きな誤差が生じないようにする。
【解決手段】音声認識装置10は、複数の単語それぞれの特徴量を記録した記憶部12と、外部から入力された音声の特徴量と記憶部12に記録された複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得部11bと、類似度最大値取得部11bが取得した類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定部11cと、類似度範囲決定部11cが決定した類似度の範囲に含まれる類似度を有する単語を選択し、選択した単語を認識結果として表示部15に表示する制御を行う表示制御部11dとを備える。
【解決手段】音声認識装置10は、複数の単語それぞれの特徴量を記録した記憶部12と、外部から入力された音声の特徴量と記憶部12に記録された複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得部11bと、類似度最大値取得部11bが取得した類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定部11cと、類似度範囲決定部11cが決定した類似度の範囲に含まれる類似度を有する単語を選択し、選択した単語を認識結果として表示部15に表示する制御を行う表示制御部11dとを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、音声認識方法及びプログラムに関する。
【背景技術】
【0002】
利用者が発した音声を認識し、認識した音声に対応する複数の単語を表示部の画面に表示する音声認識装置が、例えば特許文献1に開示されている。この音声認識装置は、音声が認識される比率(音声認識率)と、音声認識の結果として表示部に表示する単語の候補数(単語候補数)とを互いに対応付けた対応表を記録している。音声認識装置は、指定された音声認識率に対応付けられた単語候補数を対応表から読み出して設定し、認識した音声に対応する各単語の尤もらしさを表す類似度の値が高いものから順に、設定された単語候補数に相当する順位までの単語を認識結果として表示する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平5−35293号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の対応表は、装置の設計段階で設計者等によって行われた複数回の音声認識テストの結果に基づいて、例えば、一定の音声認識率に対応する単語候補数の平均等を求めることにより生成された相対的なものである。
【0005】
音声認識装置によって算出される類似度の値は、利用者が発した音声の内容(単語)や音声を発した利用者によって変化する。例えば、同じ利用者が異なる単語を発した場合や、同じ単語を異なる利用者が発した場合、算出結果として得られる類似度の値は異なる。そのため、音声認識装置によって算出される各単語の類似度の値のうち、類似度の最大値と互いに近似する類似度の値、つまり、認識結果の第1候補の単語と互いに類似していると認識される単語が、比較的多く得られる場合と得られない場合とがある。例えば、第1候補の単語と互いに類似していると認識される単語が、比較的、多く得られる場合、予め設定された単語候補数に対応する順位以下の単語は、認識結果として表示されない。このような場合、実際の音声認識率は、予め設定された音声認識率よりも低くなってしまう。
【0006】
このように、上記の音声認識装置は、設定された音声認識率と実際の音声認識率との間で大きな誤差が生じることがあった。
【0007】
本発明は、上記実情に鑑みてなされたものであり、設定された音声認識率と実際の音声認識率との間で大きな誤差が生じないようにする、音声認識装置、音声認識方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の第1の観点に係る音声認識装置は、
複数の単語それぞれの特徴量を記録した辞書記憶手段と、
外部から入力された音声の特徴量と前記辞書記憶手段に記録された前記複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得手段と、
前記類似度最大値取得手段が取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定手段と、
前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語を選択し、選択した前記単語を認識結果として表示部に表示する制御を行う表示制御手段と、を備えたことを特徴とする。
【0009】
また、本発明の第2の観点に係る音声認識方法は、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得工程と、
前記類似度最大値取得工程で取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定工程と、
前記類似度範囲決定工程で決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御工程と、を有することを特徴とする。
【0010】
また、本発明の第3の観点に係るプログラムは、
コンピュータに、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得ステップと、
前記類似度最大値取得ステップで取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定ステップと、
前記類似度範囲決定ステップで決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御ステップと、を実行させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、設定された音声認識率と実際の音声認識率との間で大きな誤差が生じないようにすることができる。
【図面の簡単な説明】
【0012】
【図1】本発明の一実施形態に係る音声認識装置の構成を示すブロック図である。
【図2】本発明の一実施形態に係る辞書データの構成を示す図である。
【図3】本発明の一実施形態に係る類似度差データの構成を示す図である。
【図4】本発明の一実施形態に係る音声認識装置が行う音声認識処理の手順を示すフローチャート図である。
【図5】本発明の一実施形態に係る音声認識率設定画面を示す図である。
【図6】本発明の一実施形態に係る類似度の範囲を説明するための図である。
【図7】本発明の一実施形態に係る音声認識結果画面を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態に係る音声認識装置を説明する。本実施形態では、音声認識機能を有する携帯電話を音声認識装置として説明する。
【0014】
はじめに、図1を参照して音声認識装置10の構成を説明する。音声認識装置10は、制御部11と、記憶部12と、操作部13と、音声入力部14と、表示部15とを備える。
【0015】
制御部11は、音声認識装置10の全体を制御する。制御部11は、物理的には、例えば、CPU(Central Processing Unit)、CPUのメインメモリとして機能するRAM(Random Access Memory)等から構成される。なお、制御部11は、一部がASIC(Application Specific Integrated Circuit)等の専用回路から構成されてもよい。
【0016】
また、制御部11は、機能的には、類似度差取得部11aと、類似度最大値取得部11bと、類似度範囲決定部11cと、表示制御部11dとを備える。類似度差取得部11a、類似度最大値取得部11b、類似度範囲決定部11c、及び表示制御部11dは、それぞれ制御部11を構成するCPUが記憶部12に記録されたプログラム12aを実行することにより実現され、後述の処理を行う。
【0017】
類似度差取得部11aは、音声が認識される比率を表す(音声認識率)、または、音声認識の結果として表示部に表示する単語の候補数(単語候補数)が、利用者によって設定されたことに従って、これに対応する類似度差を、記憶部12に記録された類似度差データ12cから取得する。なお、類似度差の詳細については後述する。
【0018】
類似度最大値取得部11bは、音声入力部14で入力される利用者の音声の特徴量と、記憶部12に記録された辞書データ12bに含まれる各単語の特徴量との比較結果に基づいて利用者が発した音声に対する各単語の尤もらしさを表す類似度を算出し、算出された各単語の類似度の中から類似度の最大値を取得する。
【0019】
類似度範囲決定部11cは、類似度差取得部11aが取得した類似度差と、類似度最大値取得部11bが取得した類似度の最大値とを用いて、認識結果として表示可能な単語に対応する類似度の範囲を決定する。
【0020】
表示制御部11dは、類似度範囲決定部11cが決定した類似度の範囲に含まれる類似度を有する単語を認識結果として表示部15に表示する制御を行う。
【0021】
記憶部12は、CPUが実行するプログラム12a、利用者が発した音声の特徴量と比較される複数の単語の特徴量を記録した辞書データ12b、類似度差を記録した類似度差データ12c等、各種プログラム及びデータ等を記録する。記憶部12は、例えば、ROM(Read Only Memory)や、フラッシュメモリ等の不揮発性メモリから構成される。
【0022】
辞書データ12bは、図2に示すように、複数の単語と、各単語の特徴量とを対応付けたデータである。類似度最大値取得部11bは、利用者が発した音声から抽出される特徴量を、辞書データ12bに含まれる各単語の特徴量と比較して、各単語の類似度を算出する。
【0023】
類似度差データ12cは、図3に示すように、音声認識率と、単語候補数と、類似度差とを対応付けたデータである。音声認識率、単語候補数及び類似度差は、例えば、装置の設計段階で設計者等によって行われた複数回の音声認識テストの結果に基づいて得られた相対的なものである。音声認識率と単語候補数との対応関係は、例えば、一定の音声認識率と、その音声認識率に対応する単語候補数の平均等を求めることにより得られる。また、単語候補数と類似度差との対応関係は、例えば、一定の単語候補数と、その単語候補数に対応する類似度の最大値と最小値との差の平均等を求めることにより得られる。
【0024】
操作部13は、利用者の操作を受け付け、受け付けた操作に対応する操作信号を制御部11(類似度差取得部11aを含む)に供給する。操作部13は、例えば、選択キー、十字キー等のユーザインタフェース装置によって構成される。
【0025】
音声入力部14は、利用者が発した音声を入力する。音声入力部14は、入力された音声に所定の処理を施して音声データを生成し、生成した音声データを制御部11(類似度最大値取得部11b)に供給する。音声入力部14は、音声をアナログ信号に変換するマイク、アナログ信号を増幅する増幅器、及び増幅されたアナログ信号をデジタル信号に変換するA/D変換器等によって構成される。
【0026】
表示部15は、制御部11(表示制御部11dを含む)の制御のもと駆動され、制御部11(表示制御部11dを含む)から供給される各種画像データ等に基づいて各種画像を画面に表示する。表示部15は、例えば、液晶表示装置、有機EL(Electro Luminescence)表示装置等によって構成される。
【0027】
なお、操作部13と表示部15とは、タッチパネルによって構成されても良い。タッチパネルは、所定の操作を受け付ける画面を表示すると共に、ユーザが画面に接触した位置に対応する操作信号を制御部11(類似度差取得部11a)に供給する。
【0028】
以上のように構成された音声認識装置10の動作を、図4を用いて説明する。
【0029】
音声認識装置10を用いる利用者は、表示部15に表示されたメニュー画面を確認し、操作部13を用いて、音声認識装置10の記憶部12に記録されたプログラム12aを実行する操作を行う。制御部11は、操作部13が受け付けた操作に対応する操作信号を操作部13から受け取ると、これに従って、記憶部12に記録されたプログラム12aを読み出して実行する。
【0030】
プログラム12aの実行に従って、類似度差取得部11aは、利用者に音声認識率の設定を要求する画面(音声認識率設定画面)を表示部15に表示する(ステップS01)。利用者は、表示部15に表示された、例えば、図5に示すような音声認識率設定画面を確認し、操作部13を用いて音声認識率を入力する操作を行う。
【0031】
ここで、単語候補数と音声認識率とは、トレードオフの関係にある。つまり、音声認識率は、その値が大きければ大きいほど認識結果の信頼性が上がるが、その一方で、表示部15に表示される単語候補数は増加するため、利用者の視認性が低下する。そのため、利用者は、単語候補数と音声認識率との両方のバランスを考慮して音声認識率の入力を行う必要がある。
【0032】
利用者が操作部13を用いて音声認識率を入力する操作を行うと、操作部13は、この操作に対応する操作信号を類似度差取得部11aに供給する。類似度差取得部11aは、操作部13から操作信号を受け取ったことに従って、記憶部12に記録された類似度差データ12cを読み出す。類似度差取得部11aは、操作信号により表される音声認識率に対応する単語候補数を表示部15に表示する。例えば、利用者の操作部13を用いた操作によって音声認識率「85(%)」が入力された場合、類似度差取得部11aは、図3に示す類似度差データ12cから単語候補数「15〜11(個)」を表示部15に表示する。なお、ここで表示される単語候補数は、利用者が目安として確認するための数であり、以下の音声認識処理を行って実際に表示部15に表示される単語の数とは異なる。
【0033】
利用者は、表示部15に表示された目安の単語候補数を確認し、その内容で良いか否かを判断する。なお、利用者は、操作部13を用いて、音声認識率を入力する代わりに単語候補数を入力する操作を行っても良い。この場合、類似度差取得部11aは、操作信号により表される単語候補数に対応する音声認識率を表示部15に表示する。利用者は、表示部15に表示された音声認識率を確認し、その内容で良いか否かを判断しても良い。
【0034】
利用者は、表示部15に表示された内容(音声認識率と単語候補数)で良くないと判断した場合、操作部13を用いて、音声認識率を再入力する操作を行う(NGを選択する操作を行う(ステップS02;No))。この操作に従って、類似度差取得部11aは、音声認識率設定画面を表示部15に再表示する(ステップS01)。
【0035】
一方、良いと判断した場合、利用者は、操作部13を用いて、音声認識率を設定する操作を行う(OKを選択する操作を行う(ステップS02;Yes))。この操作に従って、類似度差取得部11aは、設定された音声認識率に対応する類似度差を、類似度差データ12cから取得する(ステップS03)。例えば、音声認識率「85(%)」を設定する操作が行われた場合、設定された音声認識率「85(%)」に対応する類似度差「10」を取得する。
【0036】
つづいて、類似度最大値取得部11bは、利用者に音声入力を要求する画面(音声入力画面)を表示部15に表示する(ステップS04)。類似度最大値取得部11bは、音声入力部14から音声データを受け取るまで待機状態となる(ステップS05;No)。
【0037】
利用者は、表示部15に表示された音声入力画面を確認し、音声入力部14に向かって、認識させたい単語を含む音声を発する。音声入力部14は、利用者が発した音声を入力し、入力された音声に所定の処理を施して音声データを生成し、生成した音声データを類似度最大値取得部11bに供給する。
【0038】
類似度最大値取得部11bは、音声入力部14から音声データを受け取ると(ステップS05;Yes)、音声データに含まれる音声の特徴量を抽出する。類似度最大値取得部11bは、抽出された音声の特徴量と、記憶部12に記録された辞書データ12bに含まれる各単語の特徴量との比較を行って、各単語の類似度を算出する(ステップS06)。類似度最大値取得部11bは、算出された各単語の類似度の値が大きいものから順に並べ、その中から類似度の最大値を取得する(ステップS07)。
【0039】
類似度範囲決定部11cは、ステップS03で類似度差取得部11aが取得した類似度差と、ステップS07で類似度最大値取得部11bが取得した類似度最大値とを用いて、認識結果として表示可能な類似度の範囲を決定する(ステップS08)。
【0040】
例えば、類似度最大値取得部11bが類似度最大値「Vmax=94」を取得し、類似度差取得部11aが類似度差「10」を取得していた場合、図6(a)に示すように、類似度範囲決定部11cは、類似度最大値「Vmax=94」から類似度差「10」を差し引いた類似度の値を、認識結果として表示可能な類似度の最小値「Vmin=84」として決定する。そして、類似度範囲決定部11cは、類似度の最小値「Vmin=84」から類似度最大値「Vmax=94」までの範囲(Vmin≦V(類似度)≦Vmax)を認識結果として表示可能な類似度の範囲として決定する。
【0041】
その後、表示制御部11dは、類似度範囲決定部11cが決定した類似度の範囲(Vmin≦V≦Vmax)に含まれる類似度を有する単語を認識結果として表示部15に表示する制御を行う。例えば、類似度範囲決定部11cによって、図6(a)に示した類似度の範囲(84≦V(類似度)≦94)が決定された場合、表示制御部11dは、この範囲に含まれる類似度を有する3個の単語A1〜A3を表示部15に表示する制御を行う。
【0042】
表示部15は、表示制御部11dの制御のもと駆動され、表示制御部11dから供給される、認識結果に対応する画像データにより表される画像を、画面に表示する。以上により音声認識処理は終了する。
【0043】
その後、利用者は、表示部15に表示された、例えば、図7(a)に示すような認識結果を表す画面の中に、自身が認識させたかった単語があるか否かを確認し、操作部13を用いて、自身が認識させたかった単語を選択する操作を行う。ここでは、音声認識率(85(%))の設定時に利用者によって確認された単語候補数(15〜11(個))よりも少ない数の単語(3個の単語A1〜A3)が表示されている。この場合、認識結果として表示される単語の数は、目安として設定された単語候補数(15〜11(個))よりも少ないが、実際の音声認識率は、利用者によって設定された音声認識率(85(%))を確保している。
【0044】
以上説明したように、本実施形態の音声認識装置10によれば、利用者によって設定された音声認識率と実際の音声認識率との間で大きな誤差を生じないように認識結果の単語を表示することができる。
【0045】
なお、図4に示したステップS08において、類似度範囲決定部11cによって、図6(b)に示すように、類似度の範囲(85≦V(類似度)≦95)が決定された場合、表示部15には、図7(b)に示すような認識結果を表す画面が表示される。この場合、認識結果として表示される単語の数は、目安として設定された単語候補数(15〜11(個))よりも多いが、実際の音声認識率は、利用者によって設定された音声認識率(85(%))を確保しており、利用者によって設定された音声認識率と実際の音声認識率との間で大きな誤差を生じないように認識結果を表示することができる。
【0046】
なお、上記したように、表示部15に表示される単語候補数が増加すると、利用者の視認性が低下してしまう。そこで、音声認識装置10は、表示部15に表示される単語の数について閾値を設定することにより、単語候補数を絞り込むようにしても良い。表示部15に表示される単語の数の閾値は、例えば、目安として設定された単語候補数とする。また、記憶部12に記録された辞書データ12bに含まれる複数の単語を属性毎に記録する。表示制御部11dは、類似度範囲決定部11cが決定した類似度の範囲に含まれる類似度を有する単語の数が、目安として設定された単語候補数を超えているか否かを判別し、超えていると判別した場合は、利用者に属性の指定を要求する画面(属性指定画面)を表示部15に表示する。利用者は、この画面を確認し、操作部13を用いて、自身が認識させたかった単語の属性(例えば、氏名等)を指定する操作を行う。表示制御部11dは、上記の類似度の範囲に含まれる類似度を有する単語の中から、指定された属性を有する単語を、認識結果として表示部15に表示する制御を行う。これにより、認識結果として表示される単語の数が、目安として設定された単語候補数よりも多い場合でも、利用者によって指定された属性を有する単語に絞り込むことができ、利用者の視認性を低下させることなく、音声認識率を確保することができる。
【0047】
また、上記実施形態では、プログラム12aを実行する度に、音声認識率の設定と類似度差の取得を行うものとして説明したが、音声認識率及び類似度差は、それぞれ予め設定された値を用いても良い。
【0048】
また、上記実施形態では、類似度範囲を決定するために、類似度の最大値との差を求める類似度差を用いたが、類似度の最大値との比率を表す類似度比を用いても良い。
【0049】
また、音声認識装置10は、類似度最大値取得部11bが取得する類似度の最大値について、閾値を設定しても良い。類似度最大値取得部11bは、各単語の類似度の中から取得する類似度の最大値(第1候補の単語の類似度の値)が、閾値を超えているか否かを判別し、超えていないと判別した場合は、利用者に再度の音声入力を要求する画面を表示部15に表示しても良い。これにより、例えば、周囲の雑音等によって、利用者が発した音声が正常に入力されなかった場合には、認識結果の単語を表示しないので、利用者によって設定された音声認識率と実際の音声認識率との間で大きな誤差を生じないように認識結果の単語を表示することができる。
【0050】
また、音声認識装置10は、表示部15に表示された認識結果から(利用者が認識させたかった)単語が選択されたか否かを判別し、その判別結果に従って、記憶部12に記録された類似度差データ12cを更新する学習機能を備えても良い。これにより、音声認識装置10は、音声認識処理を行う度に、類似度差データ12cの精度を向上させることができる。
【0051】
なお、本発明の音声認識装置10は、携帯電話等の専用の装置を用いる必要はなく、通常のコンピュータにより実現できる。この場合、上記実施形態で説明したプログラム12aは、コンピュータにより実行され、コンピュータは、プログラム12aに従って、上記実施形態で説明した動作を行う。また、上記実施形態のプログラム12aは、持ち運び可能な記録媒体等に記録されたものでもよい。持ち運び可能な記録媒体には、例えば、CD−ROM(Compact Disk Read Only Memory)等がある。また、プログラム12aは、持ち運び可能な記録媒体から各種読取装置を介して、対応する音声認識装置10にインストールされたものでも良い。さらに、プログラム12aは、インターネット等を介して、対応する音声認識装置10にダウンロード及びインストールされたものでもよい。また、プログラム12aは、対応する音声認識装置10と通信可能なサーバ等の記憶装置に格納されたものでも良い。
【0052】
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0053】
(付記1)
複数の単語それぞれの特徴量を記録した辞書記憶手段と、
外部から入力された音声の特徴量と前記辞書記憶手段に記録された前記複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得手段と、
前記類似度最大値取得手段が取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定手段と、
前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語を選択し、選択した前記単語を認識結果として表示部に表示する制御を行う表示制御手段と、を備えた、
ことを特徴とする音声認識装置。
【0054】
(付記2)
前記所定値を、音声が認識される目安の比率を表す音声認識率、および、音声の認識結果として表示される単語の目安の数を表す単語候補数の何れかまたはその両方と対応付けて記録した所定値記憶手段と、
外部から設定された前記音声認識率または前記単語候補数に従って、前記所定値記憶手段から前記音声認識率または前記単語候補数に対応付けられた前記所定値を読み出して取得する所定値取得手段と、を備えた、
ことを特徴とする付記1に記載の音声認識装置。
【0055】
(付記3)
前記所定値は、前記類似度の最大値との差、または、前記類似度の最大値との比を表す値である、
ことを特徴とする付記1または2に記載の音声認識装置。
【0056】
(付記4)
前記辞書記憶手段は、前記複数の単語を属性毎に記録し、
前記表示制御手段は、前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語の数が所定の閾値を超えているか否かを判別し、その判別結果に従って、前記類似度の範囲に含まれる類似度を有する単語のうち、外部から指定された属性を有する単語を認識結果として前記表示部に表示する制御を行う、
ことを特徴とする付記1乃至3の何れか1つに記載の音声認識装置。
【0057】
(付記5)
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得工程と、
前記類似度最大値取得工程で取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定工程と、
前記類似度範囲決定工程で決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御工程と、を有する、
ことを特徴とする音声認識方法。
【0058】
(付記6)
コンピュータに、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得ステップと、
前記類似度最大値取得ステップで取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定ステップと、
前記類似度範囲決定ステップで決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御ステップと、を実行させる、
ことを特徴とするプログラム。
【0059】
その他、本発明は、上記実施形態の説明及び図面によって限定されるものではなく、上記実施形態及び図面に適宜変更等を加えることは可能である。
【符号の説明】
【0060】
10 音声認識装置
11 制御部
11a 類似度差取得部
11b 類似度最大値取得部
11c 類似度範囲決定部
11d 表示制御部
12 記憶部
12a プログラム
12b 辞書データ
12c 類似度差データ
13 操作部
14 音声入力部
15 表示部
【技術分野】
【0001】
本発明は、音声認識装置、音声認識方法及びプログラムに関する。
【背景技術】
【0002】
利用者が発した音声を認識し、認識した音声に対応する複数の単語を表示部の画面に表示する音声認識装置が、例えば特許文献1に開示されている。この音声認識装置は、音声が認識される比率(音声認識率)と、音声認識の結果として表示部に表示する単語の候補数(単語候補数)とを互いに対応付けた対応表を記録している。音声認識装置は、指定された音声認識率に対応付けられた単語候補数を対応表から読み出して設定し、認識した音声に対応する各単語の尤もらしさを表す類似度の値が高いものから順に、設定された単語候補数に相当する順位までの単語を認識結果として表示する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平5−35293号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の対応表は、装置の設計段階で設計者等によって行われた複数回の音声認識テストの結果に基づいて、例えば、一定の音声認識率に対応する単語候補数の平均等を求めることにより生成された相対的なものである。
【0005】
音声認識装置によって算出される類似度の値は、利用者が発した音声の内容(単語)や音声を発した利用者によって変化する。例えば、同じ利用者が異なる単語を発した場合や、同じ単語を異なる利用者が発した場合、算出結果として得られる類似度の値は異なる。そのため、音声認識装置によって算出される各単語の類似度の値のうち、類似度の最大値と互いに近似する類似度の値、つまり、認識結果の第1候補の単語と互いに類似していると認識される単語が、比較的多く得られる場合と得られない場合とがある。例えば、第1候補の単語と互いに類似していると認識される単語が、比較的、多く得られる場合、予め設定された単語候補数に対応する順位以下の単語は、認識結果として表示されない。このような場合、実際の音声認識率は、予め設定された音声認識率よりも低くなってしまう。
【0006】
このように、上記の音声認識装置は、設定された音声認識率と実際の音声認識率との間で大きな誤差が生じることがあった。
【0007】
本発明は、上記実情に鑑みてなされたものであり、設定された音声認識率と実際の音声認識率との間で大きな誤差が生じないようにする、音声認識装置、音声認識方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の第1の観点に係る音声認識装置は、
複数の単語それぞれの特徴量を記録した辞書記憶手段と、
外部から入力された音声の特徴量と前記辞書記憶手段に記録された前記複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得手段と、
前記類似度最大値取得手段が取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定手段と、
前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語を選択し、選択した前記単語を認識結果として表示部に表示する制御を行う表示制御手段と、を備えたことを特徴とする。
【0009】
また、本発明の第2の観点に係る音声認識方法は、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得工程と、
前記類似度最大値取得工程で取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定工程と、
前記類似度範囲決定工程で決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御工程と、を有することを特徴とする。
【0010】
また、本発明の第3の観点に係るプログラムは、
コンピュータに、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得ステップと、
前記類似度最大値取得ステップで取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定ステップと、
前記類似度範囲決定ステップで決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御ステップと、を実行させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、設定された音声認識率と実際の音声認識率との間で大きな誤差が生じないようにすることができる。
【図面の簡単な説明】
【0012】
【図1】本発明の一実施形態に係る音声認識装置の構成を示すブロック図である。
【図2】本発明の一実施形態に係る辞書データの構成を示す図である。
【図3】本発明の一実施形態に係る類似度差データの構成を示す図である。
【図4】本発明の一実施形態に係る音声認識装置が行う音声認識処理の手順を示すフローチャート図である。
【図5】本発明の一実施形態に係る音声認識率設定画面を示す図である。
【図6】本発明の一実施形態に係る類似度の範囲を説明するための図である。
【図7】本発明の一実施形態に係る音声認識結果画面を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態に係る音声認識装置を説明する。本実施形態では、音声認識機能を有する携帯電話を音声認識装置として説明する。
【0014】
はじめに、図1を参照して音声認識装置10の構成を説明する。音声認識装置10は、制御部11と、記憶部12と、操作部13と、音声入力部14と、表示部15とを備える。
【0015】
制御部11は、音声認識装置10の全体を制御する。制御部11は、物理的には、例えば、CPU(Central Processing Unit)、CPUのメインメモリとして機能するRAM(Random Access Memory)等から構成される。なお、制御部11は、一部がASIC(Application Specific Integrated Circuit)等の専用回路から構成されてもよい。
【0016】
また、制御部11は、機能的には、類似度差取得部11aと、類似度最大値取得部11bと、類似度範囲決定部11cと、表示制御部11dとを備える。類似度差取得部11a、類似度最大値取得部11b、類似度範囲決定部11c、及び表示制御部11dは、それぞれ制御部11を構成するCPUが記憶部12に記録されたプログラム12aを実行することにより実現され、後述の処理を行う。
【0017】
類似度差取得部11aは、音声が認識される比率を表す(音声認識率)、または、音声認識の結果として表示部に表示する単語の候補数(単語候補数)が、利用者によって設定されたことに従って、これに対応する類似度差を、記憶部12に記録された類似度差データ12cから取得する。なお、類似度差の詳細については後述する。
【0018】
類似度最大値取得部11bは、音声入力部14で入力される利用者の音声の特徴量と、記憶部12に記録された辞書データ12bに含まれる各単語の特徴量との比較結果に基づいて利用者が発した音声に対する各単語の尤もらしさを表す類似度を算出し、算出された各単語の類似度の中から類似度の最大値を取得する。
【0019】
類似度範囲決定部11cは、類似度差取得部11aが取得した類似度差と、類似度最大値取得部11bが取得した類似度の最大値とを用いて、認識結果として表示可能な単語に対応する類似度の範囲を決定する。
【0020】
表示制御部11dは、類似度範囲決定部11cが決定した類似度の範囲に含まれる類似度を有する単語を認識結果として表示部15に表示する制御を行う。
【0021】
記憶部12は、CPUが実行するプログラム12a、利用者が発した音声の特徴量と比較される複数の単語の特徴量を記録した辞書データ12b、類似度差を記録した類似度差データ12c等、各種プログラム及びデータ等を記録する。記憶部12は、例えば、ROM(Read Only Memory)や、フラッシュメモリ等の不揮発性メモリから構成される。
【0022】
辞書データ12bは、図2に示すように、複数の単語と、各単語の特徴量とを対応付けたデータである。類似度最大値取得部11bは、利用者が発した音声から抽出される特徴量を、辞書データ12bに含まれる各単語の特徴量と比較して、各単語の類似度を算出する。
【0023】
類似度差データ12cは、図3に示すように、音声認識率と、単語候補数と、類似度差とを対応付けたデータである。音声認識率、単語候補数及び類似度差は、例えば、装置の設計段階で設計者等によって行われた複数回の音声認識テストの結果に基づいて得られた相対的なものである。音声認識率と単語候補数との対応関係は、例えば、一定の音声認識率と、その音声認識率に対応する単語候補数の平均等を求めることにより得られる。また、単語候補数と類似度差との対応関係は、例えば、一定の単語候補数と、その単語候補数に対応する類似度の最大値と最小値との差の平均等を求めることにより得られる。
【0024】
操作部13は、利用者の操作を受け付け、受け付けた操作に対応する操作信号を制御部11(類似度差取得部11aを含む)に供給する。操作部13は、例えば、選択キー、十字キー等のユーザインタフェース装置によって構成される。
【0025】
音声入力部14は、利用者が発した音声を入力する。音声入力部14は、入力された音声に所定の処理を施して音声データを生成し、生成した音声データを制御部11(類似度最大値取得部11b)に供給する。音声入力部14は、音声をアナログ信号に変換するマイク、アナログ信号を増幅する増幅器、及び増幅されたアナログ信号をデジタル信号に変換するA/D変換器等によって構成される。
【0026】
表示部15は、制御部11(表示制御部11dを含む)の制御のもと駆動され、制御部11(表示制御部11dを含む)から供給される各種画像データ等に基づいて各種画像を画面に表示する。表示部15は、例えば、液晶表示装置、有機EL(Electro Luminescence)表示装置等によって構成される。
【0027】
なお、操作部13と表示部15とは、タッチパネルによって構成されても良い。タッチパネルは、所定の操作を受け付ける画面を表示すると共に、ユーザが画面に接触した位置に対応する操作信号を制御部11(類似度差取得部11a)に供給する。
【0028】
以上のように構成された音声認識装置10の動作を、図4を用いて説明する。
【0029】
音声認識装置10を用いる利用者は、表示部15に表示されたメニュー画面を確認し、操作部13を用いて、音声認識装置10の記憶部12に記録されたプログラム12aを実行する操作を行う。制御部11は、操作部13が受け付けた操作に対応する操作信号を操作部13から受け取ると、これに従って、記憶部12に記録されたプログラム12aを読み出して実行する。
【0030】
プログラム12aの実行に従って、類似度差取得部11aは、利用者に音声認識率の設定を要求する画面(音声認識率設定画面)を表示部15に表示する(ステップS01)。利用者は、表示部15に表示された、例えば、図5に示すような音声認識率設定画面を確認し、操作部13を用いて音声認識率を入力する操作を行う。
【0031】
ここで、単語候補数と音声認識率とは、トレードオフの関係にある。つまり、音声認識率は、その値が大きければ大きいほど認識結果の信頼性が上がるが、その一方で、表示部15に表示される単語候補数は増加するため、利用者の視認性が低下する。そのため、利用者は、単語候補数と音声認識率との両方のバランスを考慮して音声認識率の入力を行う必要がある。
【0032】
利用者が操作部13を用いて音声認識率を入力する操作を行うと、操作部13は、この操作に対応する操作信号を類似度差取得部11aに供給する。類似度差取得部11aは、操作部13から操作信号を受け取ったことに従って、記憶部12に記録された類似度差データ12cを読み出す。類似度差取得部11aは、操作信号により表される音声認識率に対応する単語候補数を表示部15に表示する。例えば、利用者の操作部13を用いた操作によって音声認識率「85(%)」が入力された場合、類似度差取得部11aは、図3に示す類似度差データ12cから単語候補数「15〜11(個)」を表示部15に表示する。なお、ここで表示される単語候補数は、利用者が目安として確認するための数であり、以下の音声認識処理を行って実際に表示部15に表示される単語の数とは異なる。
【0033】
利用者は、表示部15に表示された目安の単語候補数を確認し、その内容で良いか否かを判断する。なお、利用者は、操作部13を用いて、音声認識率を入力する代わりに単語候補数を入力する操作を行っても良い。この場合、類似度差取得部11aは、操作信号により表される単語候補数に対応する音声認識率を表示部15に表示する。利用者は、表示部15に表示された音声認識率を確認し、その内容で良いか否かを判断しても良い。
【0034】
利用者は、表示部15に表示された内容(音声認識率と単語候補数)で良くないと判断した場合、操作部13を用いて、音声認識率を再入力する操作を行う(NGを選択する操作を行う(ステップS02;No))。この操作に従って、類似度差取得部11aは、音声認識率設定画面を表示部15に再表示する(ステップS01)。
【0035】
一方、良いと判断した場合、利用者は、操作部13を用いて、音声認識率を設定する操作を行う(OKを選択する操作を行う(ステップS02;Yes))。この操作に従って、類似度差取得部11aは、設定された音声認識率に対応する類似度差を、類似度差データ12cから取得する(ステップS03)。例えば、音声認識率「85(%)」を設定する操作が行われた場合、設定された音声認識率「85(%)」に対応する類似度差「10」を取得する。
【0036】
つづいて、類似度最大値取得部11bは、利用者に音声入力を要求する画面(音声入力画面)を表示部15に表示する(ステップS04)。類似度最大値取得部11bは、音声入力部14から音声データを受け取るまで待機状態となる(ステップS05;No)。
【0037】
利用者は、表示部15に表示された音声入力画面を確認し、音声入力部14に向かって、認識させたい単語を含む音声を発する。音声入力部14は、利用者が発した音声を入力し、入力された音声に所定の処理を施して音声データを生成し、生成した音声データを類似度最大値取得部11bに供給する。
【0038】
類似度最大値取得部11bは、音声入力部14から音声データを受け取ると(ステップS05;Yes)、音声データに含まれる音声の特徴量を抽出する。類似度最大値取得部11bは、抽出された音声の特徴量と、記憶部12に記録された辞書データ12bに含まれる各単語の特徴量との比較を行って、各単語の類似度を算出する(ステップS06)。類似度最大値取得部11bは、算出された各単語の類似度の値が大きいものから順に並べ、その中から類似度の最大値を取得する(ステップS07)。
【0039】
類似度範囲決定部11cは、ステップS03で類似度差取得部11aが取得した類似度差と、ステップS07で類似度最大値取得部11bが取得した類似度最大値とを用いて、認識結果として表示可能な類似度の範囲を決定する(ステップS08)。
【0040】
例えば、類似度最大値取得部11bが類似度最大値「Vmax=94」を取得し、類似度差取得部11aが類似度差「10」を取得していた場合、図6(a)に示すように、類似度範囲決定部11cは、類似度最大値「Vmax=94」から類似度差「10」を差し引いた類似度の値を、認識結果として表示可能な類似度の最小値「Vmin=84」として決定する。そして、類似度範囲決定部11cは、類似度の最小値「Vmin=84」から類似度最大値「Vmax=94」までの範囲(Vmin≦V(類似度)≦Vmax)を認識結果として表示可能な類似度の範囲として決定する。
【0041】
その後、表示制御部11dは、類似度範囲決定部11cが決定した類似度の範囲(Vmin≦V≦Vmax)に含まれる類似度を有する単語を認識結果として表示部15に表示する制御を行う。例えば、類似度範囲決定部11cによって、図6(a)に示した類似度の範囲(84≦V(類似度)≦94)が決定された場合、表示制御部11dは、この範囲に含まれる類似度を有する3個の単語A1〜A3を表示部15に表示する制御を行う。
【0042】
表示部15は、表示制御部11dの制御のもと駆動され、表示制御部11dから供給される、認識結果に対応する画像データにより表される画像を、画面に表示する。以上により音声認識処理は終了する。
【0043】
その後、利用者は、表示部15に表示された、例えば、図7(a)に示すような認識結果を表す画面の中に、自身が認識させたかった単語があるか否かを確認し、操作部13を用いて、自身が認識させたかった単語を選択する操作を行う。ここでは、音声認識率(85(%))の設定時に利用者によって確認された単語候補数(15〜11(個))よりも少ない数の単語(3個の単語A1〜A3)が表示されている。この場合、認識結果として表示される単語の数は、目安として設定された単語候補数(15〜11(個))よりも少ないが、実際の音声認識率は、利用者によって設定された音声認識率(85(%))を確保している。
【0044】
以上説明したように、本実施形態の音声認識装置10によれば、利用者によって設定された音声認識率と実際の音声認識率との間で大きな誤差を生じないように認識結果の単語を表示することができる。
【0045】
なお、図4に示したステップS08において、類似度範囲決定部11cによって、図6(b)に示すように、類似度の範囲(85≦V(類似度)≦95)が決定された場合、表示部15には、図7(b)に示すような認識結果を表す画面が表示される。この場合、認識結果として表示される単語の数は、目安として設定された単語候補数(15〜11(個))よりも多いが、実際の音声認識率は、利用者によって設定された音声認識率(85(%))を確保しており、利用者によって設定された音声認識率と実際の音声認識率との間で大きな誤差を生じないように認識結果を表示することができる。
【0046】
なお、上記したように、表示部15に表示される単語候補数が増加すると、利用者の視認性が低下してしまう。そこで、音声認識装置10は、表示部15に表示される単語の数について閾値を設定することにより、単語候補数を絞り込むようにしても良い。表示部15に表示される単語の数の閾値は、例えば、目安として設定された単語候補数とする。また、記憶部12に記録された辞書データ12bに含まれる複数の単語を属性毎に記録する。表示制御部11dは、類似度範囲決定部11cが決定した類似度の範囲に含まれる類似度を有する単語の数が、目安として設定された単語候補数を超えているか否かを判別し、超えていると判別した場合は、利用者に属性の指定を要求する画面(属性指定画面)を表示部15に表示する。利用者は、この画面を確認し、操作部13を用いて、自身が認識させたかった単語の属性(例えば、氏名等)を指定する操作を行う。表示制御部11dは、上記の類似度の範囲に含まれる類似度を有する単語の中から、指定された属性を有する単語を、認識結果として表示部15に表示する制御を行う。これにより、認識結果として表示される単語の数が、目安として設定された単語候補数よりも多い場合でも、利用者によって指定された属性を有する単語に絞り込むことができ、利用者の視認性を低下させることなく、音声認識率を確保することができる。
【0047】
また、上記実施形態では、プログラム12aを実行する度に、音声認識率の設定と類似度差の取得を行うものとして説明したが、音声認識率及び類似度差は、それぞれ予め設定された値を用いても良い。
【0048】
また、上記実施形態では、類似度範囲を決定するために、類似度の最大値との差を求める類似度差を用いたが、類似度の最大値との比率を表す類似度比を用いても良い。
【0049】
また、音声認識装置10は、類似度最大値取得部11bが取得する類似度の最大値について、閾値を設定しても良い。類似度最大値取得部11bは、各単語の類似度の中から取得する類似度の最大値(第1候補の単語の類似度の値)が、閾値を超えているか否かを判別し、超えていないと判別した場合は、利用者に再度の音声入力を要求する画面を表示部15に表示しても良い。これにより、例えば、周囲の雑音等によって、利用者が発した音声が正常に入力されなかった場合には、認識結果の単語を表示しないので、利用者によって設定された音声認識率と実際の音声認識率との間で大きな誤差を生じないように認識結果の単語を表示することができる。
【0050】
また、音声認識装置10は、表示部15に表示された認識結果から(利用者が認識させたかった)単語が選択されたか否かを判別し、その判別結果に従って、記憶部12に記録された類似度差データ12cを更新する学習機能を備えても良い。これにより、音声認識装置10は、音声認識処理を行う度に、類似度差データ12cの精度を向上させることができる。
【0051】
なお、本発明の音声認識装置10は、携帯電話等の専用の装置を用いる必要はなく、通常のコンピュータにより実現できる。この場合、上記実施形態で説明したプログラム12aは、コンピュータにより実行され、コンピュータは、プログラム12aに従って、上記実施形態で説明した動作を行う。また、上記実施形態のプログラム12aは、持ち運び可能な記録媒体等に記録されたものでもよい。持ち運び可能な記録媒体には、例えば、CD−ROM(Compact Disk Read Only Memory)等がある。また、プログラム12aは、持ち運び可能な記録媒体から各種読取装置を介して、対応する音声認識装置10にインストールされたものでも良い。さらに、プログラム12aは、インターネット等を介して、対応する音声認識装置10にダウンロード及びインストールされたものでもよい。また、プログラム12aは、対応する音声認識装置10と通信可能なサーバ等の記憶装置に格納されたものでも良い。
【0052】
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0053】
(付記1)
複数の単語それぞれの特徴量を記録した辞書記憶手段と、
外部から入力された音声の特徴量と前記辞書記憶手段に記録された前記複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得手段と、
前記類似度最大値取得手段が取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定手段と、
前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語を選択し、選択した前記単語を認識結果として表示部に表示する制御を行う表示制御手段と、を備えた、
ことを特徴とする音声認識装置。
【0054】
(付記2)
前記所定値を、音声が認識される目安の比率を表す音声認識率、および、音声の認識結果として表示される単語の目安の数を表す単語候補数の何れかまたはその両方と対応付けて記録した所定値記憶手段と、
外部から設定された前記音声認識率または前記単語候補数に従って、前記所定値記憶手段から前記音声認識率または前記単語候補数に対応付けられた前記所定値を読み出して取得する所定値取得手段と、を備えた、
ことを特徴とする付記1に記載の音声認識装置。
【0055】
(付記3)
前記所定値は、前記類似度の最大値との差、または、前記類似度の最大値との比を表す値である、
ことを特徴とする付記1または2に記載の音声認識装置。
【0056】
(付記4)
前記辞書記憶手段は、前記複数の単語を属性毎に記録し、
前記表示制御手段は、前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語の数が所定の閾値を超えているか否かを判別し、その判別結果に従って、前記類似度の範囲に含まれる類似度を有する単語のうち、外部から指定された属性を有する単語を認識結果として前記表示部に表示する制御を行う、
ことを特徴とする付記1乃至3の何れか1つに記載の音声認識装置。
【0057】
(付記5)
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得工程と、
前記類似度最大値取得工程で取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定工程と、
前記類似度範囲決定工程で決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御工程と、を有する、
ことを特徴とする音声認識方法。
【0058】
(付記6)
コンピュータに、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得ステップと、
前記類似度最大値取得ステップで取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定ステップと、
前記類似度範囲決定ステップで決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御ステップと、を実行させる、
ことを特徴とするプログラム。
【0059】
その他、本発明は、上記実施形態の説明及び図面によって限定されるものではなく、上記実施形態及び図面に適宜変更等を加えることは可能である。
【符号の説明】
【0060】
10 音声認識装置
11 制御部
11a 類似度差取得部
11b 類似度最大値取得部
11c 類似度範囲決定部
11d 表示制御部
12 記憶部
12a プログラム
12b 辞書データ
12c 類似度差データ
13 操作部
14 音声入力部
15 表示部
【特許請求の範囲】
【請求項1】
複数の単語それぞれの特徴量を記録した辞書記憶手段と、
外部から入力された音声の特徴量と前記辞書記憶手段に記録された前記複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得手段と、
前記類似度最大値取得手段が取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定手段と、
前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語を選択し、選択した前記単語を認識結果として表示部に表示する制御を行う表示制御手段と、を備えた、
ことを特徴とする音声認識装置。
【請求項2】
前記所定値を、音声が認識される目安の比率を表す音声認識率、および、音声の認識結果として表示される単語の目安の数を表す単語候補数の何れかまたはその両方と対応付けて記録した所定値記憶手段と、
外部から設定された前記音声認識率または前記単語候補数に従って、前記所定値記憶手段から前記音声認識率または前記単語候補数に対応付けられた前記所定値を読み出して取得する所定値取得手段と、を備えた、
ことを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記所定値は、前記類似度の最大値との差、または、前記類似度の最大値との比を表す値である、
ことを特徴とする請求項1または2に記載の音声認識装置。
【請求項4】
前記辞書記憶手段は、前記複数の単語を属性毎に記録し、
前記表示制御手段は、前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語の数が所定の閾値を超えているか否かを判別し、その判別結果に従って、前記類似度の範囲に含まれる類似度を有する単語のうち、外部から指定された属性を有する単語を認識結果として前記表示部に表示する制御を行う、
ことを特徴とする請求項1乃至3の何れか1項に記載の音声認識装置。
【請求項5】
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得工程と、
前記類似度最大値取得工程で取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定工程と、
前記類似度範囲決定工程で決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御工程と、を有する、
ことを特徴とする音声認識方法。
【請求項6】
コンピュータに、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得ステップと、
前記類似度最大値取得ステップで取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定ステップと、
前記類似度範囲決定ステップで決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御ステップと、を実行させる、
ことを特徴とするプログラム。
【請求項1】
複数の単語それぞれの特徴量を記録した辞書記憶手段と、
外部から入力された音声の特徴量と前記辞書記憶手段に記録された前記複数の単語の特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得手段と、
前記類似度最大値取得手段が取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定手段と、
前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語を選択し、選択した前記単語を認識結果として表示部に表示する制御を行う表示制御手段と、を備えた、
ことを特徴とする音声認識装置。
【請求項2】
前記所定値を、音声が認識される目安の比率を表す音声認識率、および、音声の認識結果として表示される単語の目安の数を表す単語候補数の何れかまたはその両方と対応付けて記録した所定値記憶手段と、
外部から設定された前記音声認識率または前記単語候補数に従って、前記所定値記憶手段から前記音声認識率または前記単語候補数に対応付けられた前記所定値を読み出して取得する所定値取得手段と、を備えた、
ことを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記所定値は、前記類似度の最大値との差、または、前記類似度の最大値との比を表す値である、
ことを特徴とする請求項1または2に記載の音声認識装置。
【請求項4】
前記辞書記憶手段は、前記複数の単語を属性毎に記録し、
前記表示制御手段は、前記類似度範囲決定手段が決定した前記類似度の範囲に含まれる類似度を有する単語の数が所定の閾値を超えているか否かを判別し、その判別結果に従って、前記類似度の範囲に含まれる類似度を有する単語のうち、外部から指定された属性を有する単語を認識結果として前記表示部に表示する制御を行う、
ことを特徴とする請求項1乃至3の何れか1項に記載の音声認識装置。
【請求項5】
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得工程と、
前記類似度最大値取得工程で取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定工程と、
前記類似度範囲決定工程で決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御工程と、を有する、
ことを特徴とする音声認識方法。
【請求項6】
コンピュータに、
外部から入力された音声の特徴量と複数の単語それぞれの特徴量とから各単語の類似度を算出し、算出した各単語の類似度から類似度の最大値を取得する類似度最大値取得ステップと、
前記類似度最大値取得ステップで取得した前記類似度の最大値と所定値とを用いて類似度の範囲を決定する類似度範囲決定ステップと、
前記類似度範囲決定ステップで決定した前記類似度の範囲に含まれる類似度を有する単語を認識結果として表示部に表示する制御を行う表示制御ステップと、を実行させる、
ことを特徴とするプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【公開番号】特開2012−242401(P2012−242401A)
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願番号】特願2011−108677(P2011−108677)
【出願日】平成23年5月13日(2011.5.13)
【出願人】(310006855)NECカシオモバイルコミュニケーションズ株式会社 (1,081)
【Fターム(参考)】
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願日】平成23年5月13日(2011.5.13)
【出願人】(310006855)NECカシオモバイルコミュニケーションズ株式会社 (1,081)
【Fターム(参考)】
[ Back to top ]