説明

音声認識装置および音声認識装置の制御プログラム

【課題】音声認識処理における処理負荷の軽減と応答時間の短縮を図る。
【解決手段】音声認識要求および音声信号を入力する認識処理要求受信手段10と、音声認識要求と共に入力された音声信号と、過去にデータベースに蓄積された音声信号との類似度を測定する類似度測定手段31と、音響モデル21および言語モデル22を用いて、入力された音声信号の音声認識処理を行なう音声認識処理手段20と、を備え、認識処理要求受信手段10は、認識処理を実行する前に、過去にデータベースに蓄積された該当ユーザの音声信号との類似度を測定し、類似度が高い音声信号が存在した場合は、該当音声信号に対する音声認識結果をデータベース33から読み出して、音声認識要求と共に入力された音声信号に対する音声認識結果として出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、過去の音声認識結果を利用する音声認識技術に関する。
【背景技術】
【0002】
従来から、音声入力が行なわれたときに、過去に入力された音声との類似度を測定し、類似度がある閾値以上である場合に、その音声に対応した認識結果を出力する音声認識装置が知られている(特許文献1)。この音声認識装置では、認識対象単語の標準パターンの中で、音声分析部が音声波形を分析した入力パターンとの類似度計算の対象となる部分標準パターンと、これらのパターンの累積類似度を記憶する。また、累積類似度を現行閾値と比較して、部分標準パターンの類似度の大きいものの個数を計数する。現行閾値および個数の対応関係に応じて枝刈閾値を計算し、この枝刈閾値に基づいて、部分標準パターンの中で、類似度の大きいものに関して特徴量との類似度を計算する。そして、部分標準パターンの中で、最も類似度の大きい標準パターンに対応する単語を認識結果として決定する。
【特許文献1】特開平10−153999号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、特許文献1記載の技術では、過去に入力されたすべての音声との類似度を計算するため、比較する音声データの個数が多くなり、処理時間が長くなるという問題がある。また、比較対象の音声については、ユーザの情報を加味せずに、異なるユーザの音声とも類似度を計算するため、処理時間が長くなると共に、誤った認識結果を返信してしまう場合がある。さらに、比較対象の音声として、認識結果の正誤に関係なく、類似度を計算するため、処理時間が長くなると共に、誤った認識結果を出力してしまう場合がある。その他にも、ユーザが語彙外発声と気づかずに何度も発声した音声とも比較するため、ユーザが希望しない認識結果が何度も出力される場合もある。
【0004】
本発明は、このような事情に鑑みてなされたものであり、類似度測定に要する処理時間を短縮し、認識結果の誤りを回避することができる音声認識装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の音声認識装置は、音声認識要求と共に入力された音声信号と過去に蓄積された音声信号との類似度が高い場合に、前記類似度が高い過去の音声認識結果を前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する音声認識装置であって、音声認識要求および音声信号を入力する認識処理要求受信手段と、前記音声認識要求と共に入力された音声信号と、データベースに既に蓄積されている音声信号との類似度を測定する類似度測定手段と、音響モデルおよび言語モデルを用いて、入力された音声信号の音声認識処理を行なう音声認識処理手段と、を備え、前記認識処理要求受信手段は、前記測定の結果、データベースに既に蓄積されている音声信号に、前記類似度が高い音声信号が存在する場合は、前記類似度が高い音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する一方、データベースに既に蓄積されている音声信号に、前記類似度が高い音声信号が存在しない場合は、前記音声認識要求と共に入力された音声信号を前記音声認識処理手段に出力して音声認識処理を実行させることを特徴としている。
【0006】
このように、過去にデータベースに蓄積された音声信号に、類似度が高い音声信号が存在した場合は、類似度が高い音声信号に対する音声認識結果をデータベースから読み出して、音声認識要求と共に入力された音声信号に対する音声認識結果として出力するので、処理負荷の大きい音声認識処理を行なう必要がなく、処理負荷の軽減と応答時間の短縮を図ることができる。
【0007】
(2)また、本発明の音声認識装置において、前記認識処理要求受信手段は、音声認識要求、音声信号およびユーザIDを入力し、前記類似度測定手段は、音声認識要求と共に入力されたユーザIDおよび音声信号を取得し、前記音声認識要求と共に入力された音声データと、データベースに既に蓄積されている音声信号のうち、前記ユーザIDで特定される音声信号との類似度を測定することを特徴としている。
【0008】
このように、音声認識要求と共に入力されたユーザIDおよび音声信号を取得し、音声認識要求と共に入力された音声データと、データベースに既に蓄積されている音声信号のうち、ユーザIDで特定される音声信号との類似度を測定するので、ユーザIDで特定される音声信号のみを対象として類似度を測定することができ、処理時間の短縮と認識結果の誤りを回避することが可能となる。
【0009】
(3)また、本発明の音声認識装置において、前記類似度測定手段は、前記音声認識要求と共に入力された音声データと、データベースに既に蓄積されている音声信号のうち、前記ユーザIDで特定される音声信号であって、前記音声認識処理手段の認識結果に含まれる認識スコアが所定の閾値よりも高い音声信号との類似度を測定することを特徴としている。
【0010】
このように、音声認識要求と共に入力された音声データと、データベースに既に蓄積されている音声信号のうち、ユーザIDで特定される音声信号であって、音声認識処理手段の認識結果に含まれる認識スコアが所定の閾値よりも高い音声信号との類似度を測定するので、過去の誤った認識結果を出力することを回避することができると共に、類似度測定に要する処理時間を短縮することができる。
【0011】
(4)また、本発明の音声認識装置において、前記類似度測定手段は、前記音声認識要求と共に入力された音声信号が入力された時刻より前の所定期間内に、前記ユーザIDに対応する複数の音声信号が入力され、これらが相互に類似する場合は、これらを前記類似度の測定対象から除外すると共に、前記ユーザIDに対応し前記類似度の測定対象となる音声信号のうち、前記類似度が閾値以上で最も高い音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する一方、前記ユーザIDに対応し前記類似度の測定対象となる音声信号のうち、前記類似度が閾値以上となる音声信号が前記所定期間内に入力されていなかった場合は、前記音声認識要求と共に入力された音声信号を前記音声認識処理手段に出力して音声認識処理を実行させることを特徴としている。
【0012】
このように、音声認識要求と共に入力された音声信号が入力された時刻より前の所定期間内に、ユーザIDに対応する複数の音声信号が入力され、これらが相互に類似する場合は、これらを前記類似度の測定対象から除外するので、処理負担の低減と処理時間の短縮を図ると共に、誤った認識結果を何度も出力することを回避することができる。また、ユーザIDに対応し類似度の測定対象となる音声信号のうち、類似度が閾値以上で最も高い音声信号に対する音声認識結果をデータベースから読み出して、音声認識要求と共に入力された音声信号に対する音声認識結果として出力するので、正しい音声認識結果を出力する確率を高めることが可能となる。
【0013】
(5)また、本発明の音声認識装置において、前記認識処理要求受信手段は、前記音声認識要求と共に入力された音声信号が入力された時刻より所定期間以上前に、前記ユーザIDに対応する複数の音声信号が入力され、これらが前記音声認識要求と共に入力された音声信号と類似する場合は、前記類似度が閾値以上で最も類似度の高い音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する一方、前記類似度が閾値以上となる音声信号が前記時刻より所定期間以上前に入力されていなかった場合は、前記音声認識要求と共に入力された音声信号を前記音声認識処理手段に出力して音声認識処理を実行させることを特徴としている。
【0014】
このように、音声認識要求と共に入力された音声信号が入力された時刻より所定期間以上前に、ユーザIDに対応する複数の音声信号が入力され、これらが音声認識要求と共に入力された音声信号と類似する場合は、類似度が閾値以上で最も類似度の高い音声信号に対する音声認識結果をデータベースから読み出して、音声認識要求と共に入力された音声信号に対する音声認識結果として出力するので、正しい音声認識結果を出力する確率を高めることが可能となる。
【0015】
(6)また、本発明の音声認識装置において、前記認識処理要求受信手段は、前記音声認識要求と共に入力された音声信号が入力された時刻より所定期間以上前に、前記ユーザIDに対応する複数の音声信号が入力され、これらが前記音声認識要求と共に入力された音声信号と類似する場合は、前記類似度が閾値以上で最新の音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する一方、前記類似度が閾値以上となる音声信号が前記時刻より所定期間以上前に入力されていなかった場合は、前記音声認識要求と共に入力された音声信号を前記音声認識処理手段に出力して音声認識処理を実行させることを特徴としている。
【0016】
このように、音声認識要求と共に入力された音声信号が入力された時刻より所定期間以上前に、ユーザIDに対応する複数の音声信号が入力され、これらが音声認識要求と共に入力された音声信号と類似する場合は、類似度が閾値以上で最新の音声信号に対する音声認識結果をデータベースから読み出して、音声認識要求と共に入力された音声信号に対する音声認識結果として出力するので、正しい音声認識結果を出力する確率を高めることが可能となる。
【0017】
(7)また、本発明の音声認識装置の制御プログラムは、音声認識要求と共に入力された音声信号と過去に蓄積された音声信号との類似度が高い場合に、前記類似度が高い過去の音声認識結果を前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する音声認識装置の制御プログラムであって、音声認識要求および音声信号を入力する処理と、前記音声認識要求と共に入力された音声信号と、データベースに既に蓄積されている音声信号との類似度を測定する処理と、前記測定の結果、データベースに既に蓄積されている音声信号に、前記類似度が高い音声信号が存在する場合は、前記類似度が高い音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する処理と、データベースに既に蓄積されている音声信号に、前記類似度が高い音声信号が存在しない場合は、前記音声認識要求と共に入力された音声信号に対して、音響モデルおよび言語モデルを用いて、音声認識処理を行なう処理と、を含む一連の処理を、コンピュータで読み取りおよび実行可能にコマンド化したことを特徴としている。
【0018】
このように、過去にデータベースに蓄積された音声信号に、類似度が高い音声信号が存在した場合は、類似度が高い音声信号に対する音声認識結果をデータベースから読み出して、音声認識要求と共に入力された音声信号に対する音声認識結果として出力するので、処理負荷の大きい音声認識処理を行なう必要がなく、処理負荷の軽減と応答時間の短縮を図ることができる。
【発明の効果】
【0019】
本発明によれば、入力音声との類似度を測定する蓄積音声について、ユーザIDを利用するので、類似度測定に要する処理時間の短縮を図り、誤った認識結果を出力することを回避することができる。また、類似度を測定する蓄積音声について、その認識スコアがある閾値以上のもののみを対象とするので、過去の誤った認識結果を出力することを回避することができ、類似度測定に要する処理時間を短縮することができる。さらに、アクセス情報を利用し、近い過去に発声された複数の音声のうち類似度の近い音声を、語彙外発声や誤認識発声と判定して、類似度を求める対象から除外するので、処理負荷の低減および処理時間の短縮を図ることができ、誤った認識結果を何度も出力することを回避することができる。
【発明を実施するための最良の形態】
【0020】
本実施形態に係る音声認識装置では、ユーザによって過去に発生された蓄積音声と類似した音声が入力された場合には、音声認識処理をせずに、過去の音声認識結果を返信する。これにより、短い応答時間で音声認識結果を出力することができ、かつ、処理負担を低減させることが可能となる。音声認識処理は、処理負担が大きく、処理時間を要するのに対し、類似判定処理は、音声認識処理よりも処理負担が小さく、処理時間が短い。従って、過去に発生された蓄積音声と類似した音声が入力された場合には、音声認識処理を行なわず、過去の音声認識結果を返信することによって、処理負担の低減と応答時間の短縮を図ることが可能となる。以下、本実施形態について、図面を参照して説明する。
【0021】
図1は、本実施形態に係る音声認識装置の概略構成を示す図である。認識処理要求受信手段10は、ユーザ端末からの音声認識要求と音声データを受信し、音声認識処理手段20に対して、認識処理を指示する。また、認識結果をユーザ端末に返信するほか、入力音声や認識結果、アクセス情報を各々のDBに蓄積する。処理制御手段13は、音声認識要求を受信すると、入力された音声を類似度測定手段31に送信し、過去の蓄積音声との類似度の測定を指示する。過去に類似した音声が存在する場合には、その音声に対する音声認識結果を過去履歴DB33から取得して、出力する。また、過去に類似した音声が存在しない場合には、音声認識処理手段20に対して、音声認識処理を実行させる。
【0022】
音声認識処理手段20は、認識処理要求受信手段10から受信した認識要求に従って、音響モデル21および言語モデル22を用いて認識処理を行なう。そして、認識結果を認識処理要求受信手段10に返信する。
【0023】
類似度測定手段31は、入力音声と過去に発声された蓄積音声データの類似度を判定する。求めた音声データ間の距離が閾値以下である場合に、両者が類似していると判定する。類似度を測定する音声は、該当するユーザIDのものに限る。また、過去履歴DB33は、後述するように、蓄積音声DB33a、認識結果DB33bおよびアクセス情報DB33cを備える。詳細については、後述する。
【0024】
図2は、図1に示した過去履歴DB33の概略構成を示す図である。蓄積音声DB33aは、入力された音声を蓄積するDBである。蓄積される音声データは、PCM形式などの音声データの他、スペクトル領域のデータ、ケプストラム領域のデータ、VQデータなどであってもよい。認識結果DB33bは、認識結果を蓄積するDBである。蓄積される認識結果は、認識された文字および認識スコアである。認識スコアは、さらに音響尤度と言語確率に別けて保持してもよい。アクセス情報DB33cは、アクセス情報を蓄積するDBである。蓄積されるアクセス情報としては、アクセス時間、アクセスユーザID、および、対応する蓄積音声DBに格納された音声データ名、対応する認識結果DBに格納された認識結果ファイル名がある。
【0025】
図3は、図1に示した類似度測定手段31の概略構成を示すブロック図である。類似度測定手段31において、類似度判定制御手段31aは、認識処理要求受信手段10から入力音声データとユーザIDを受信した後、蓄積音声DB33aにある同一ユーザIDの音声データを取得する。データ加工手段31cは、入力音声、および蓄積音声DB33aから取得した音声データを同じ種類のデータ形式に加工する。例えば、両者がPCM等の音声データやスペクトル領域のデータである場合には、スペクトル領域のデータ、ケプストラム領域のデータ、VQデータなどに加工する。両者が、ケプストラム領域のデータの場合には、ケプストラム領域のデータ、VQデータなどに加工する。両者がVQデータの場合にはそのままにする。
【0026】
距離計算手段31dは、音声データ間の距離または、認識結果の距離を計算する。求めた距離は、音声間距離情報テーブルや認識結果間距離情報テーブル、および類似度判定手段31eに出力する。類似度判定手段31eは、距離計算手段31dで求めた距離が閾値以下である場合に、類似していると判定する。判定した結果と該当するデータの情報を、認識処理要求受信手段10に出力する。
【0027】
図1に示した類似度測定手段31は、他の構成を採ることも可能である。図4は、類似度測定手段31の他の構成を示す図である。図4において、アクセス情報分析手段31bは、認識処理要求受信手段10における処理制御手段13から、入力音声データとユーザIDを受信した後、アクセス情報DB33cから該当ユーザIDのアクセス情報を取得し、類似度を判定するために用いる音声データを選択する。アクセス情報分析手段31bは、以下の2つの条件のいずれか一方を満足するものを、類似度を測定する音声データとして選択する。なお、図4において、その他の構成要素については、図3と同様である。
(条件1)現時刻からT以内に発声された複数の音声については、これらが相互に類似する場合は、これらを類似度の測定対象から除外する。そして、ユーザIDに対応し類似度の測定対象となる音声信号のうち、最も類似度が高い(距離が小さい)もののみを選択する。
(条件2)現時刻からT’以上の間隔が開いている音声データを選択する。
【0028】
また、図1に示した類似度測定手段31は、他の構成を採ることも可能である。図5は、類似度測定手段31の他の構成を示す図である。図5において、アクセス情報/認識結果分析手段31fは、認識処理要求受信手段10における処理制御手段13から、入力音声データとユーザIDを受信した後、アクセス情報DB33cから該当ユーザIDのアクセス情報を取得し、また、認識結果DBから認識スコアが高い認識結果のみを取得し、類似度を判定するために用いる音声データを選択する。なお、図5において、その他の構成要素については、図3および図4と同様である。
【0029】
図6は、図3および図4に示した距離計算手段31dが行なう距離計算方法の概念を示す図である。この距離計算では、異なるフレーム数の2つの音声の距離は、DTW(動的時間伸縮法)を用いて求める。各フレーム間の距離の例として、以下の距離尺度がある。(1)対数スペクトル、LPCスペクトル、ケプストラム、VQデータのユークリッド距離。
(2)LPCスペクトルを用いた最尤スペクトル距離。
(3)Cosh尺度。
【0030】
図7は、図3および図4に示した類似度判定手段31eの動作の概念を示す図である。類似度判定手段31eは、アクセス時刻が、現時刻からT以内の複数の発声の場合は、これらが相互に類似する場合は、これらを類似度の測定対象から除外する。そして、ユーザIDに対応し類似度の測定対象となる音声信号のうち、最も類似度が高い(距離が小さい)もののみを判定対象とする。また、アクセス時刻が、T’以上の間隔にある音声を判定対象とする。
【0031】
図8は、本実施形態に係る音声認識装置の動作を示すフローチャートである。まず、音声認識要求を受信し(ステップS1)、入力音声とユーザIDを類似度測定手段31に送信する(ステップS2)。次に、類似度を測定する該当ユーザIDの音声を蓄積音声DB33aから取得し(ステップS3)、入力音声と過去の音声のデータ形式を統一化する(ステップS4)。そして、入力音声と過去の音声との間の距離を計算する(ステップS5)。
【0032】
次に、音声間の距離による類似度判定を行ない(ステップS6)、類似していない場合、すなわち、音声間の距離が閾値以上である場合は、入力音声を用いて、音声認識処理を行ない(ステップS7)、認識結果を返信する(ステップS8)。一方、ステップS6において、類似している場合、すなわち、音声間の距離が閾値以下である場合は、入力音声と類似した過去の音声の音声認識結果を、認識結果DB33bから取得し(ステップS9)、取得した過去の音声認識結果を返信する(ステップS10)。
【0033】
以上のような本実施形態の特徴的な動作は、コンピュータでプログラムを実行させることにより行なうことができる。すなわち、本実施形態に係る音声認識装置の制御プログラムは、音声認識要求と共に入力された音声信号と過去に蓄積された音声信号との類似度が高い場合に、前記類似度が高い過去の音声認識結果を前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する音声認識装置の制御プログラムであって、音声認識要求および音声信号を入力する処理と、前記音声認識要求と共に入力された音声信号と、データベースに既に蓄積されている音声信号との類似度を測定する処理と、前記測定の結果、データベースに既に蓄積されている音声信号に、前記類似度が高い音声信号が存在する場合は、前記類似度が高い音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する処理と、データベースに既に蓄積されている音声信号に、前記類似度が高い音声信号が存在しない場合は、前記音声認識要求と共に入力された音声信号に対して、音響モデルおよび言語モデルを用いて、音声認識処理を行なう処理と、を含む一連の処理を、コンピュータで読み取りおよび実行可能にコマンド化したことを特徴としている。
【0034】
このように、過去にデータベースに蓄積された音声信号に、類似度が高い音声信号が存在した場合は、類似度が高い音声信号に対する音声認識結果をデータベースから読み出して、音声認識要求と共に入力された音声信号に対する音声認識結果として出力するので、処理負荷の大きい音声認識処理を行なう必要がなく、処理負荷の軽減と応答時間の短縮を図ることができる。
【図面の簡単な説明】
【0035】
【図1】本実施形態に係る音声認識装置の概略構成を示す図である。
【図2】図1に示した過去履歴DB33の概略構成を示す図である。
【図3】図1に示した類似度測定手段31の概略構成を示すブロック図である。
【図4】類似度測定手段31の他の構成を示す図である。
【図5】類似度測定手段31の他の構成を示す図である。
【図6】図3および図4に示した距離計算手段31dが行なう距離計算方法の概念を示す図である。
【図7】図3および図4に示した類似度判定手段31eの動作の概念を示す図である。
【図8】本実施形態に係る音声認識装置の動作を示すフローチャートである。
【符号の説明】
【0036】
10 認識処理要求受信手段
13 処理制御手段
20 音声認識処理手段
21 音響モデル
22 言語モデル
31 類似度測定手段
31a 類似度判定制御手段
31b アクセス情報分析手段
31c データ加工手段
31d 距離計算手段
31e 類似度判定手段
31f アクセス情報/認識結果分析手段
33 過去履歴DB
33a 蓄積音声DB
33b 認識結果DB
33c アクセス情報DB

【特許請求の範囲】
【請求項1】
音声認識要求と共に入力された音声信号と過去に蓄積された音声信号との類似度が高い場合に、前記類似度が高い過去の音声認識結果を前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する音声認識装置であって、
音声認識要求および音声信号を入力する認識処理要求受信手段と、
前記音声認識要求と共に入力された音声信号と、データベースに既に蓄積されている音声信号との類似度を測定する類似度測定手段と、
音響モデルおよび言語モデルを用いて、入力された音声信号の音声認識処理を行なう音声認識処理手段と、を備え、
前記認識処理要求受信手段は、前記測定の結果、データベースに既に蓄積されている音声信号に、前記類似度が高い音声信号が存在する場合は、前記類似度が高い音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する一方、データベースに既に蓄積されている音声信号に、前記類似度が高い音声信号が存在しない場合は、前記音声認識要求と共に入力された音声信号を前記音声認識処理手段に出力して音声認識処理を実行させることを特徴とする音声認識装置。
【請求項2】
前記認識処理要求受信手段は、音声認識要求、音声信号およびユーザIDを入力し、
前記類似度測定手段は、音声認識要求と共に入力されたユーザIDおよび音声信号を取得し、前記音声認識要求と共に入力された音声データと、データベースに既に蓄積されている音声信号のうち、前記ユーザIDで特定される音声信号との類似度を測定することを特徴とする請求項1記載の音声認識装置。
【請求項3】
前記類似度測定手段は、前記音声認識要求と共に入力された音声データと、データベースに既に蓄積されている音声信号のうち、前記ユーザIDで特定される音声信号であって、前記音声認識処理手段の認識結果に含まれる認識スコアが所定の閾値よりも高い音声信号との類似度を測定することを特徴とする請求項2記載の音声認識装置。
【請求項4】
前記類似度測定手段は、前記音声認識要求と共に入力された音声信号が入力された時刻より前の所定期間内に、前記ユーザIDに対応する複数の音声信号が入力され、これらが相互に類似する場合は、これらを前記類似度の測定対象から除外すると共に、前記ユーザIDに対応し前記類似度の測定対象となる音声信号のうち、前記類似度が閾値以上で最も高い音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する一方、前記ユーザIDに対応し前記類似度の測定対象となる音声信号のうち、前記類似度が閾値以上となる音声信号が前記所定期間内に入力されていなかった場合は、前記音声認識要求と共に入力された音声信号を前記音声認識処理手段に出力して音声認識処理を実行させることを特徴とする請求項2または請求項3記載の音声認識装置。
【請求項5】
前記認識処理要求受信手段は、前記音声認識要求と共に入力された音声信号が入力された時刻より所定期間以上前に、前記ユーザIDに対応する複数の音声信号が入力され、これらが前記音声認識要求と共に入力された音声信号と類似する場合は、前記類似度が閾値以上で最も類似度の高い音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する一方、前記類似度が閾値以上となる音声信号が前記時刻より所定期間以上前に入力されていなかった場合は、前記音声認識要求と共に入力された音声信号を前記音声認識処理手段に出力して音声認識処理を実行させることを特徴とする請求項2または請求項3記載の音声認識装置。
【請求項6】
前記認識処理要求受信手段は、前記音声認識要求と共に入力された音声信号が入力された時刻より所定期間以上前に、前記ユーザIDに対応する複数の音声信号が入力され、これらが前記音声認識要求と共に入力された音声信号と類似する場合は、前記類似度が閾値以上で最新の音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する一方、前記類似度が閾値以上となる音声信号が前記時刻より所定期間以上前に入力されていなかった場合は、前記音声認識要求と共に入力された音声信号を前記音声認識処理手段に出力して音声認識処理を実行させることを特徴とする請求項2または請求項3記載の音声認識装置。
【請求項7】
音声認識要求と共に入力された音声信号と過去に蓄積された音声信号との類似度が高い場合に、前記類似度が高い過去の音声認識結果を前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する音声認識装置の制御プログラムであって、
音声認識要求および音声信号を入力する処理と、
前記音声認識要求と共に入力された音声信号と、データベースに既に蓄積されている音声信号との類似度を測定する処理と、
前記測定の結果、データベースに既に蓄積されている音声信号に、前記類似度が高い音声信号が存在する場合は、前記類似度が高い音声信号に対する音声認識結果をデータベースから読み出して、前記音声認識要求と共に入力された音声信号に対する音声認識結果として出力する処理と、
データベースに既に蓄積されている音声信号に、前記類似度が高い音声信号が存在しない場合は、前記音声認識要求と共に入力された音声信号に対して、音響モデルおよび言語モデルを用いて、音声認識処理を行なう処理と、を含む一連の処理を、コンピュータで読み取りおよび実行可能にコマンド化したことを特徴とする音声認識装置の制御プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図8】
image rotate

【図7】
image rotate


【公開番号】特開2010−44241(P2010−44241A)
【公開日】平成22年2月25日(2010.2.25)
【国際特許分類】
【出願番号】特願2008−208546(P2008−208546)
【出願日】平成20年8月13日(2008.8.13)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】