説明

音声認識装置および音声認識プログラム

【課題】ユーザが煩わしい操作をしなくとも、認識性能を向上することができる音声認識装置および音声認識プログラムを提供する。
【解決手段】複数の語彙を予め格納した語彙辞書記憶部11と、認識対象語彙を抽出する語彙辞書管理部12と、受け付けた音声に基づいて、認識対象語彙との一致度を算出する照合部13と、一致度の算出結果から最もスコアの良かった語彙を認識結果として出力する結果出力部14と、監視制御部15の監視結果に応じて、抽出基準情報を変更する抽出基準情報管理部12cとを備え、語彙辞書記憶部11は、更に、認識対象語彙を抽出する際の尺度となる尺度情報20を格納した尺度情報記憶部と、認識対象語彙を抽出する際の認識対象語彙20の基準を示す抽出基準情報24を格納した抽出基準情報記憶部とを含み、抽出基準情報24が変更されることにより、語彙辞書管理部12は、認識対象語彙の数を増減する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置および音声認識プログラムに関し、より詳細には、語彙辞書記憶部に格納されている複数の語彙から認識対象となる認識対象語彙を抽出し、抽出した認識対象語彙を用いて照合処理を行う音声認識装置および音声認識プログラムに関する。
【背景技術】
【0002】
従来、ユーザからの入力を受け付ける一手段として、音声認識エンジンを利用し、ユーザの発話(音声)を認識してシステムへの入力として受け付ける音声認識装置が知られている。このような音声認識装置は、例えば、音声ポータルやカーナビゲーションシステムをはじめとする情報提供システムなどにおいて、既に実用化されている。
【0003】
ここで、このような情報提供システムの機能は多様化(多機能化)しており、情報提供システムにて認識対象となる語彙が増加する傾向にある。例えば、音声認識装置がカーナビゲーションシステムに搭載される場合、認識対象となる語彙は、操作などの各機能、全国の地名や施設名などが含まれることになる。このため、認識対象となる語彙は膨大な数となる。膨大な数の語彙を語彙辞書記憶部に格納し、語彙辞書記憶部の中から、ユーザからの発話を的確かつ効率的に認識することは、たいへん難しい。
【0004】
ところで、多機能化されている情報提供システムにおいて、実用上、ユーザが実際に使用する機能は、全体の機能の中の一部にすぎないことが多い。これに着目し、特許文献1には、語彙辞書記憶部に格納されている使用頻度の低い語彙を自動的に削除する技術が開示されている。具体的には、音声認識装置の消去制御部は、タイマーのカウント期間内に、語彙辞書記憶部に格納されている語彙の認識使用の有無を監視する。そして、消去制御部は、所定時間内に一度も認識使用されなかった語彙を削除する。これにより、語彙辞書記憶部の中から、ユーザからの発話を的確かつ効率的に認識することができるようになる。
【0005】
また、特許文献2においても、語彙辞書記憶部に格納されている使用頻度の低い語彙を削除する技術が開示されている。特許文献2は、音声認識装置をカーナビゲーションシステムに搭載する構成が開示されている。
【0006】
しかしながら、上記の特許文献1または特許文献2に開示されている構成では、例えばユーザが、削除した語彙を使用する場合、その削除した語彙を発話しても、その発話した語彙は語彙辞書記憶部から削除されているので、音声認識装置による認識ができないという問題を生じる。
【0007】
このような問題を解決するため、特許文献3には、語彙辞書記憶部に格納されている使用頻度の低い語彙を削除するとともに、その削除した語彙を再び語彙辞書記憶部に格納する技術が開示されている。具体的には、削除した語彙のリストを表示画面に表示し、ユーザが、削除した語彙の中から語彙辞書記憶部に格納すべき語彙を選択する。そして、選択された語彙を語彙辞書記憶部に再び格納する。これにより、一旦は語彙を削除したが、後からその語彙を認識対象とする必要が生じた場合であっても、容易に、削除した語彙を語彙辞書記憶部に格納することができる。
【特許文献1】実開平5−61800号公報(第1図−第2図)
【特許文献2】特開平9−26799号公報(第1図−第4図)
【特許文献3】特開2000−259180号公報(第1図−第9図)
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、上述の特許文献3に開示された構成であっても、以下のような問題を生じる。
【0009】
すなわち、特許文献3は、削除した語彙のリストを表示画面に表示し、ユーザが、語彙辞書記憶部に格納すべき語彙を選択する構成である。このため、ユーザは、語彙辞書記憶部に格納すべき語彙を把握する必要があるとともに、表示されたリストから語彙辞書記憶部に格納すべき語彙を選択する必要がある。それゆえ、ユーザが煩わしい操作をする必要があるという問題を生じる。
【0010】
また、表示されたリストから語彙辞書記憶部に格納すべき語彙を選択する時点で、いわゆるアイズフリー(目を使わない)、ハンズフリー(手を使わない)という音声認識装置の利点が損なわれている。
【0011】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置および音声認識プログラムを提供することにある。
【課題を解決するための手段】
【0012】
上記目的を達成するために本発明における音声認識装置は、受け付けた音声を発話音声データに変換する音声入力部と、前記発話音声データを特徴量に変換する音声分析部と、複数の語彙を予め格納した語彙辞書記憶部と、前記語彙辞書記憶部に格納されている複数の語彙から認識対象となる認識対象語彙を抽出する語彙辞書管理部と、前記音声分析部により変換された前記特徴量を用いて、前記語彙辞書管理部により抽出された前記認識対象語彙との一致度を算出する照合部と、前記照合部による一致度の算出結果から最もスコアの良かった語彙を認識結果として出力する結果出力部とを備えた音声認識装置において、前記語彙辞書記憶部に格納されている複数の語彙のそれぞれについて、前記認識対象語彙を抽出する尺度となる尺度情報を予め格納する尺度情報記憶部と、前記認識対象語彙を抽出する際の前記尺度情報の基準を示す抽出基準情報を予め格納する抽出基準情報記憶部と、所定の状態を監視する監視制御部と、前記監視制御部の監視結果に応じて、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する抽出基準情報管理部とを備え、前記抽出基準情報が変更されることにより、前記語彙辞書管理部は、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数を増減することを特徴とする。
【0013】
本発明の音声認識装置によれば、語彙辞書管理部は、認識対象語彙を抽出する際の尺度情報の基準を示す抽出基準情報が変更されることにより、語彙辞書記憶部に格納されている複数の語彙から抽出される認識対象語彙の数を増減する。このため、監視制御部の監視結果に応じて、抽出基準情報が変更されると、語彙辞書管理部は、語彙辞書記憶部に格納されている複数の語彙から抽出される認識対象語彙の数を増減する。語彙辞書管理部が認識対象語彙の数を増加した場合、照合部は、増加した認識対象語彙に従って照合処理を行う。それゆえ、音声認識装置の認識対象語彙の数が増加し、発話の自由度が向上する。また、語彙辞書管理部が認識対象語彙の数を減少した場合、照合部は、減少した認識対象語彙に従って照合処理を行う。それゆえ、音声認識装置の認識対象語彙の数が制限され、認識率および認識速度が向上する。この結果、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置を実現することができる。
【0014】
上記本発明における音声認識装置においては、前記監視制御部は、ユーザから受け付けた操作の処理状態、ユーザから受け付けた音声の処理状態、および、時刻を計測する測定部からの所定の時刻の経過のうちの少なくとも1つの監視対象を監視し、前記語彙辞書管理部は、変更された前記抽出基準情報に応じて、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数を増減し、前記照合部は、前記音声分析部により変換された前記特徴量を用いて、増減した前記認識対象語彙との一致度を算出する態様とするのが好ましい。
【0015】
この態様によれば、監視制御部は、ユーザから受け付けた操作の処理状態、ユーザから受け付けた音声の処理状態、および、時刻を計測する測定部からの所定の時刻の経過のうちの少なくとも1つの監視対象を監視する。語彙辞書管理部は、変更された抽出基準情報に応じて、語彙辞書記憶部に格納されている複数の語彙から抽出される認識対象語彙の数を増減する。語彙辞書管理部が認識対象語彙の数を増加した場合、照合部は、増加した認識対象語彙に従って照合処理を行う。それゆえ、音声認識装置の認識対象語彙の数が増加し、発話の自由度が向上する。また、語彙辞書管理部が認識対象語彙の数を減少した場合、照合部は、減少した認識対象語彙に従って照合処理を行う。それゆえ、音声認識装置の認識対象語彙の数が制限され、認識率および認識速度が向上する。この結果、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置を実現することができる。
【0016】
上記本発明における音声認識装置においては、前記監視制御部は、下記(a)〜(h)のうちの少なくとも1つの監視対象を監視するとともに、前記監視制御部は、下記(a)〜(d)の状態を検出すると、前記抽出基準情報管理部に第1の更新信号を送信し、前記抽出基準情報管理部は、前記第1の更新信号に基づいて、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数が増加するように、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する一方、前記監視制御部は、前記抽出基準情報管理部に第1の更新信号を送信した後、下記(e)〜(h)の状態を検出すると、前記抽出基準情報管理部に第2の更新信号を送信し、前記抽出基準情報管理部は、前記第2の更新信号に基づいて、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数が減少するように、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する態様とするのが好ましい。
(a)認識結果が得られない場合
(b)ユーザが直前の操作または発話に対して、修正・訂正的な操作または発話を行った場合
(c)処理の確定操作が必要であるにも関わらず、所定時間経過しても、ユーザが確定操作を行わない場合
(d)操作または発話が所定時間行われない場合
(e)前記照合部が一致度を算出する処理を所定回数行った場合
(f)所定の時刻が経過した場合
(g)処理の確定操作が必要であるとき、所定時間内に、ユーザが確定操作を行った場合
(h)ユーザが直前の操作または発話に対して、修正・訂正的な操作または発話を行わない場合
【0017】
この態様によれば、監視制御部は、前記(a)〜(d)の状態を検出すると、抽出基準情報管理部に第1の更新信号を送信する。抽出基準情報管理部は、第1の更新信号に基づいて、語彙辞書記憶部に格納されている複数の語彙から抽出される認識対象語彙の数が増加するように、抽出基準情報を変更する。このため、語彙辞書管理部は、変更された抽出基準情報に応じて、認識対象語彙の数を増加する。それゆえ、音声認識装置の認識対象語彙の数が増加し、発話の自由度が向上する。また、監視制御部は、抽出基準情報管理部に第1の更新信号を送信した後、前記(e)〜(h)の状態を検出すると、抽出基準情報管理部に第2の更新信号を送信する。抽出基準情報管理部は、第2の更新信号に基づいて、語彙辞書記憶部に格納されている複数の語彙から抽出される認識対象語彙の数が減少するように、抽出基準情報を変更する。このため、語彙辞書管理部は、変更された抽出基準情報に応じて、認識対象語彙の数を減少する。それゆえ、音声認識装置の認識対象語彙の数が制限され、認識率および認識速度が向上する。この結果、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置を実現することができる。
【0018】
上記本発明における音声認識装置においては、前記語彙辞書管理部は、前記抽出基準情報記憶部に格納されている前記抽出基準情報に応じて、下記(1)および(2)のいずれか一方の処理を選択的に行う態様とするのが好ましい。
(1)前記語彙辞書管理部は、前記尺度情報に基づいて、前記認識対象語彙を抽出する。
(2)前記語彙辞書管理部は、前記尺度情報に関わらず、前記語彙辞書記憶部に格納されている全ての語彙を前記認識対象語彙として抽出する。
【0019】
この態様によれば、語彙辞書管理部は、抽出基準情報に応じて、(1)尺度情報に基づいて、認識対象語彙を抽出するのか、または、(2)尺度情報に関わらず、全ての語彙を認識対象語彙として抽出するのか、いずれか一方の処理を選択的に行う。このため、例えばユーザから受け付けた処理の状態に応じて、抽出基準情報が変更される。語彙辞書管理部は、抽出基準情報に応じて、前記(1)または(2)のいずれか一方の処理を選択的に行う。語彙辞書管理部が、前記(1)の処理を行っている場合、照合部は、尺度情報に基づいて抽出された認識対象語彙に従って照合処理を行う。それゆえ、音声認識装置の認識対象語彙の数が制限され、認識率および認識速度が向上する。また、語彙辞書管理部が、前記(2)の処理を行っている場合、照合部は、語彙辞書記憶部に格納されている全ての語彙を認識対象とする認識対象語彙に従って照合処理を行う。それゆえ、音声認識装置の認識対象語彙の数が増加し、発話の自由度が向上する。この結果、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置を実現することができる。
【0020】
上記本発明における音声認識装置においては、前記語彙辞書記憶部に格納されている複数の語彙のそれぞれの使用回数を監視して、複数の語彙のそれぞれの使用頻度を算出する使用頻度管理部と、前記使用頻度管理部により算出された前記使用頻度を、前記語彙辞書記憶部に格納されている複数の語彙のそれぞれに対応させて、使用頻度データとして格納する使用頻度記憶部と、少なくとも前記使用頻度記憶部に格納されている前記使用頻度データを用いて、前記尺度情報記憶部に格納されている前記尺度情報を更新する尺度情報管理部とを更に備えている態様とするのが好ましい。
【0021】
この態様によれば、尺度情報管理部は、少なくとも使用頻度データを用いて尺度情報を更新する。このため、語彙辞書管理部は、例えば尺度情報に基づいて、認識対象語彙を抽出している場合、使用頻度の高い語彙を認識対象語彙として抽出できるとともに、使用頻度の低い語彙を認識対象から除くことができる。それゆえ、音声認識装置の認識率が向上する。この結果、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置を実現することができる。
【0022】
上記本発明における音声認識装置においては、前記語彙辞書記憶部に格納されている複数の語彙を複数の語彙グループとして分割するとともに、前記語彙辞書記憶部に格納されている前記語彙グループに属する複数の語彙のそれぞれの前記使用頻度に基づいて、前記語彙グループの使用頻度を算出する語彙グループ使用頻度管理部と、前記語彙グループ使用頻度管理部により算出された前記語彙グループの使用頻度を、前記語彙グループのそれぞれに対応させて、語彙グループの使用頻度データとして格納する語彙グループ使用頻度記憶部と、前記認識対象語彙を抽出する際の前記語彙グループの使用頻度データの基準を示す閾値を格納する閾値記憶部とを更に備え、前記語彙辞書管理部は、前記抽出基準情報記憶部に格納されている前記抽出基準情報に応じて、前記閾値記憶部に格納されている前記閾値および前記語彙グループ使用頻度記憶部に格納されている前記語彙グループの使用頻度データを参照し、下記(3)および(4)のいずれか一方の処理を選択的に行う態様とするのが好ましい。
(3)前記語彙辞書管理部は、前記語彙グループの使用頻度データが前記閾値以上の語彙グループについては、前記尺度情報に関わらず、当該語彙グループに属する全ての語彙を前記認識対象語彙として抽出する。
(4)前記語彙辞書管理部は、前記語彙グループの使用頻度データが前記閾値未満の語彙グループについては、前記尺度情報に基づいて、当該語彙グループに属する語彙から前記認識対象語彙を抽出する。
【0023】
この態様によれば、語彙辞書管理部は、閾値および語彙グループの使用頻度データを参照して、(3)語彙グループの使用頻度データが閾値以上の語彙グループについては、尺度情報に関わらず、この語彙グループに属する全ての語彙を認識対象語彙として抽出するのか、または、(4)語彙グループの使用頻度データが閾値未満の語彙グループについては、尺度情報に基づいて、この語彙グループに属する語彙から認識対象語彙を抽出するのか、いずれか一方の処理を選択的に行う。このため、語彙辞書管理部は、語彙グループの使用頻度データが閾値以上の語彙グループについて、前記(3)の処理を行っている場合、照合部は、この語彙グループに属する全ての語彙を認識対象とする認識対象語彙に従って照合処理を行う。それゆえ、例えば使用頻度の高い語彙グループに属する全ての語彙を認識対象語彙としているので、それらの語彙グループに関する音声認識装置の認識対象語彙の数が増加し、発話の自由度が向上する。また、語彙辞書管理部は、語彙グループの使用頻度データが閾値未満の語彙グループについて、前記(4)の処理を行っている場合、照合部は、尺度情報に基づいて、語彙グループに属する語彙から抽出された認識対象語彙に従って照合処理を行う。それゆえ、例えば使用頻度の低い語彙グループに属する語彙を尺度情報に基づいて抽出した認識対象語彙としているので、それらの語彙グループに関する音声認識装置の認識対象語彙の数が制限され、認識率および認識速度が向上する。この結果、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置を実現することができる。
【0024】
上記本発明における音声認識装置においては、前記監視制御部は、ユーザから受け付けた操作の処理状態、ユーザから受け付けた音声の処理状態、および、時刻を計測する測定部からの所定の時刻の経過のうちの少なくとも1つの監視対象を監視し、前記監視制御部の監視結果に応じて、前記閾値記憶部に格納されている前記閾値を更新する閾値管理部を更に備え、前記語彙辞書管理部は、更新された前記閾値に応じて、前記(3)および前記(4)のいずれか一方の処理を選択的に行う態様とするのが好ましい。この態様によれば、閾値管理部は、監視制御部の監視結果に応じて、閾値を更新する。例えば、認識結果が得られない場合やユーザが操作に行き詰るような場合が生じると、閾値管理部は、閾値が小さくなるように更新する。このため、例えば語彙辞書管理部は、前記(4)の処理を行っている語彙グループについて、前記(3)の処理を行うように変更することができる。それゆえ、音声認識装置の認識対象語彙の数が増加し、発話の自由度が向上する。この結果、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置を実現することができる。
【0025】
上記本発明における音声認識装置においては、前記音声入力部により変換された前記発話音声データまたは前記音声分析部により変換された前記特徴量を格納する音声記憶部を更に備え、前記照合部は、前記音声記憶部に格納されている前記発話音声データまたは前記特徴量を用いて、前記語彙辞書管理部が抽出する前記認識対象語彙との一致度を算出する態様とするのが好ましい。この態様によれば、照合部は、音声記憶部に格納されている発話音声データまたは特徴量を用いて照合処理を行う。このため、例えばユーザから受け付けた処理の状態に応じて、語彙辞書管理部が、認識対象語彙の数を増加した場合、照合部は、音声記憶部に格納されている発話音声データまたは特徴量を用いて、増加した認識対象語彙との照合処理を行う。それゆえ、ユーザが再び同じ語彙を発話しなくともよく、ユーザの負担が軽減する。
【0026】
上記本発明における音声認識装置においては、前記照合部が、前記音声記憶部に格納されている前記発話音声データまたは前記特徴量を用いて、前記語彙辞書管理部が抽出する前記認識対象語彙との一致度を算出する際、前記語彙辞書管理部は、直前に前記認識対象語彙として抽出した語彙を除いて、前記語彙辞書記憶部に格納されている複数の語彙から前記認識対象語彙を抽出する態様とするのが好ましい。この態様によれば、例えば認識結果が得られない状態が生じた後、再び同じ語彙の照合処理を行う際、照合部は、直前に認識対象語彙として抽出した語彙を除いた認識対象語彙を用いて照合処理を行う。それゆえ、音声認識装置の認識速度が向上する。この結果、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置を実現することができる。
【0027】
ところで、上記音声認識装置は、ハードウェアで実現してもよいが、コンピュータがプログラムを実行することで実現してもよい。具体的には、上記本発明における音声認識プログラムは、受け付けた音声を発話音声データに変換する音声入力処理と、前記発話音声データを特徴量に変換する音声分析処理と、複数の語彙を予め格納した語彙辞書記憶部から認識対象となる認識対象語彙を抽出する語彙辞書管理処理と、前記音声分析処理により変換された前記特徴量を用いて、前記語彙辞書管理処理により抽出された前記認識対象語彙との一致度を算出する照合処理と、前記照合処理による一致度の算出結果から最もスコアの良かった語彙を認識結果として出力する結果出力処理とをコンピュータに実行させる音声認識プログラムにおいて、前記語彙辞書管理処理は、尺度情報記憶部に予め格納された前記認識対象語彙を抽出する尺度となる尺度情報を参照するとともに、抽出基準情報記憶部に予め格納された前記認識対象語彙を抽出する際の前記尺度情報の基準を示す抽出基準情報を参照する処理をコンピュータに実行させる一方、所定の状態を監視する監視制御処理と、前記監視制御処理の監視結果に応じて、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する抽出基準情報管理処理とをコンピュータに実行させ、前記抽出基準情報が変更されることにより、前記語彙辞書管理処理は、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数を増減する処理をコンピュータに実行させることを特徴とする音声認識プログラムである。
【発明の効果】
【0028】
以上のように、本発明の音声認識装置および音声認識プログラムは、認識対象語彙を抽出する際の尺度情報の基準を示す抽出基準情報が変更されることにより、語彙辞書記憶部に格納されている複数の語彙から抽出される認識対象語彙を増減することができる。このため、ユーザが煩わしい操作をしなくとも、認識性能を向上することができるという効果を奏する。
【発明を実施するための最良の形態】
【0029】
以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。
【0030】
(実施の形態1)
本発明の一実施形態について図1ないし図11に基づいて説明すると以下の通りである。
【0031】
すなわち、本実施形態に係る情報提供システム1は、ユーザの発話を認識する音声認識処理を行うものであって、例えば音声対話アプリケーションなどの上位プログラムからユーザの音声が渡され、その認識結果を例えば上位プログラムへ返す機能を有する音声認識装置2と、ユーザの操作を受け付ける操作処理部3と、所定の時刻を計測する時刻計測部4と、インターネットNと接続する通信処理部5と、統計データを格納する統計データ記憶部6とを備えている。
【0032】
以下では、音声認識装置2の詳細な構成について説明する前に、情報提供システム1の全体構成について簡単に説明する。
【0033】
操作処理部3は、ポインティングデバイス、キーボード、タッチパネルなどから入力されるユーザの操作を受け付け、受け付けた操作を操作データに変換する。そして、操作処理部3は、変換した操作データが示す操作内容を実行する。操作データとしては、例えば、システムの電源投入や電源切断を示すデータ、操作の開始を示すデータ、操作の停止を示すデータ、操作の中止を示すデータ、操作の取り消し(リセット)を示すデータ、操作の確定を示すデータなどがある。
【0034】
時刻計測部(測定部)4は、例えば図示しないGPS受信機から送られてくる測位信号を解析し、この測位信号に含まれる日付および時刻のデータに基づいて現在の年月日および時刻を検出する。時刻計測部4は、単にカウンタやタイマーなどから構成されていてもよく、特に限定されるものではない。
【0035】
通信処理部5は、インターネットN上でWebクライアントとして機能する。通信処理部5は、音声認識装置2からの要求に従って、例えばHTTP(Hyper Text Transfer Protocol)で後述する統計データ記憶部6からHTML(Hyper Text Markup Language)形式の統計データを受け取る。受け取った統計データは、音声認識装置2に出力する。なお、通信処理部5は、受け取った統計データを閲覧するブラウザを備えていてもよい。
【0036】
統計データ記憶部6は、複数の語彙に関する統計データを格納する。統計データ記憶部6は、インターネットN上でWebサーバとして機能する。統計データは、例えば、性別、年齢、地域などに応じて、複数の語彙の使用頻度を統計的に示したデータである。統計データ記憶部6は、通信処理部5から要求があると、例えば、URI(Universal Resource Identifier)などに基づいて、通信処理部5が要求している統計データを判別し、この統計データを例えばHTML形式で通信処理部5へ送信する。
【0037】
(音声認識装置の構成)
ここで、本実施形態に係る音声認識装置2は、音声入力部7、音声分析部8、特徴量記憶部9、音響モデル記憶部10、語彙辞書記憶部11、語彙辞書管理部12、照合部13、結果出力部14、監視制御部15、統計データ取得部16、使用頻度管理部17、および、使用頻度記憶部18を備えている。
【0038】
音声入力部7は、マイクロフォンなどから入力されるユーザの発話(音声)を受け付け、受け付けた音声を発話音声データに変換する。すなわち、音声入力部7は、ユーザの発話を受け付けると、所定の音声区間判定基準を用いて、入力された音声中の音声区間を判定する。そして、判定された音声区間における音声を、発話音声データに変換する。発話音声データは、後述する音声分析部8に出力される。
【0039】
音声分析部8は、発話音声データを分析して特徴量を算出する。特徴量には、MFCC、LPCケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが使用されることが多いが、本実施形態では特に限定されるものではない。特徴量は、後述する特徴量記憶部9および照合部13に出力される。
【0040】
特徴量記憶部(音声記憶部)9は、特徴量を履歴情報として格納する。すなわち、特徴量記憶部9は、音声分析部8から出力された特徴量を固有の情報とともに格納する。固有の情報は、特徴量の開始時点、終了時点、識別番号などを表す情報である。なお、特徴量記憶部9は、特徴量を格納する代わりに、音声入力部7から出力される発話音声データを格納してもよい。
【0041】
音響モデル記憶部10は、どの音素がどういう特徴量になりやすいかという情報を統計的にモデル化したデータを格納する。音響モデルの例として、HMM(Hidden Markov Model)などが挙げられる。
【0042】
語彙辞書記憶部(尺度情報記憶部、抽出基準情報記憶部)11は、複数の語彙および複数の語彙の情報を予め格納する。語彙の情報としては、例えば、単語(語彙)に固有に付されるIDや単語表記などを含むが、他に、単語間の接続規則(文法情報)などの任意の情報を含み得る。また、語彙辞書記憶部11は、複数の語彙のそれぞれについて、後述する語彙辞書管理部12が、認識対象となる認識対象語彙を抽出する尺度となる尺度情報を予め格納する。さらに、語彙辞書記憶部11は、語彙辞書管理部12が認識対象語彙を抽出する際の尺度情報の基準を示す抽出基準情報を予め格納する。
【0043】
語彙辞書管理部12は、語彙辞書記憶部11に格納されている複数の語彙から認識対象となる認識対象語彙を抽出する。具体的には、語彙辞書管理部12の認識対象語彙抽出部12a(図2参照)が認識対象語彙を抽出する。また、語彙辞書管理部12は、後述する監視制御部15から入力される更新信号(第1の更新信号、第2の更新信号)に基づいて、語彙辞書記憶部11に格納されている抽出基準情報を変更する。なお、語彙辞書管理部12が認識対象語彙抽出部12aを含んでいる例について説明したが、これに限定されるものではない。例えば、後述する照合部13が認識対象語彙抽出部を含んでいてもよい。すなわち、照合部13が認識対象語彙を抽出してもよい。
【0044】
また、語彙辞書管理部12は、後述する統計データ取得部16から入力される統計データ、および、後述する使用頻度記憶部18に格納されている使用頻度データを用いて、語彙辞書記憶部11に格納されている尺度情報を更新する。なお、語彙辞書記憶部11および語彙辞書管理部12の具体例については後述する。
【0045】
照合部13は、音声分析部8から特徴量を受け取ると、この特徴量に基づいて、照合処理を行う。すなわち、照合部13は、この特徴量と音響モデル記憶部10とを比較することにより、音声区間に含まれるフレーム(一定時間)毎の音素列を抽出する。照合部13は、抽出した音素列をもとに、語彙辞書管理部12により抽出された認識対象語彙に従って、一致度(類似度)を算出する。この一致度を算出する処理は、従来から知られている照合処理用のプログラムを使用して実行するように構成されている。算出された一致度は、後述する結果出力部14に出力される。なお、照合部13は、例えば、認識結果が得られないため、後述する監視制御部15から読出信号を受け取ると、特徴量記憶部9に格納されている特徴量を読み出す態様であることが好ましい。この態様によれば、例えば、認識結果が得られないため、語彙辞書管理部12が認識対象語彙の数を増加した場合、照合部13は、特徴量記憶部9に格納されている特徴量を用いて、増加した認識対象語彙との照合処理を行う。それゆえ、ユーザが再び同じ語彙を発話しなくともよく、ユーザの負担が軽減する。
【0046】
結果出力部14は、照合部13で算出された一致度の中から基準値を超える語彙を抽出し、抽出した語彙の中から最もスコアが良い語彙を認識結果として出力する。認識結果は、上位プログラムへ渡されるが、ディスプレイ、スピーカ、プリンタなどの出力装置に出力してもよい。また、認識結果は、図示しないCPUにコマンドとして出力してもよい。
【0047】
監視制御部15は、ユーザから受け付けた操作の処理状態、ユーザから受け付けた音声の処理状態、および、時刻計測部4からの所定の時刻の経過のうちの少なくとも1つの監視対象を監視する。このため、監視制御部15は、上記の操作処理部3、時刻計測部4、音声入力部7、照合部13、および、結果出力部14を監視している。監視制御部15は、監視結果に応じて、語彙辞書管理部12に第1の更新信号または第2の更新信号を出力する。また、監視制御部15は、監視結果に応じて、照合部13に読出信号を出力する。なお、監視制御部15の具体例については後述する。
【0048】
統計データ取得部16は、任意のタイミングで、通信処理部5に統計データの取得を要求する。統計データは、上述のように、例えば、性別、年齢、地域などに応じて、複数の語彙の使用頻度を統計的に示したデータである。統計データ取得部16は、通信処理部5から入力された統計データを、語彙辞書管理部12に出力する。なお、統計データ取得部16は、インターネットNを挟んで統計データを取得しているが、これに限定されるものではない。例えば、CD−ROMなどの記録媒体に格納された統計データを読み込んで取得してもよい。
【0049】
使用頻度管理部17は、語彙辞書記憶部11に格納されている複数の語彙のそれぞれの使用頻度を算出する。本実施形態では、使用頻度管理部17は、語彙辞書記憶部11に格納されている複数の語彙のそれぞれの使用回数の監視結果と、後述する使用頻度記憶部18に格納されている過去の使用頻度データに基づいて、複数の語彙のそれぞれの使用頻度を算出しているが、これに限るものではない。例えば、照合部13から出力される一致度を利用して使用頻度を算出してもよい。
【0050】
使用頻度記憶部18は、使用頻度管理部17により算出された使用頻度を、使用頻度データとして格納する。使用頻度データは、語彙辞書記憶部11に格納されている複数の語彙のそれぞれに対応して格納する。
【0051】
ところで、上記の音声認識装置2は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによって実現される。すなわち、上記の音声入力部7、音声分析部8、語彙辞書管理部12、照合部13、結果出力部14、監視制御部15、統計データ取得部16、および、使用頻度管理部17は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、音声入力部7、音声分析部8、語彙辞書管理部12、照合部13、結果出力部14、監視制御部15、統計データ取得部16、および、使用頻度管理部17の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、特徴量記憶部9、音響モデル記憶部10、語彙辞書記憶部11、および、使用頻度記憶部18は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。なお、本実施形態は、インターネットNと接続可能な構成であることから、インターネットNから上記のプログラムをダウンロードするようにしてもよい。
【0052】
(語彙辞書記憶部の具体例)
次に、音声認識装置2に含まれる語彙辞書記憶部11および語彙辞書管理部12の具体例について、図2に基づき説明する。なお、図2に示す語彙辞書記憶部11に格納されている語彙の例は、音声認識装置2がカーナビゲーションシステムに用いられる場合の例である。
【0053】
図2に示すように、語彙辞書記憶部11は、尺度情報20、単語ID21、単語表記22、および、単語読み23を格納する。尺度情報20は、語彙辞書管理部12が認識対象語彙を抽出する尺度となる情報である。単語ID21は、語彙(単語)に固有に付された情報である。単語表記22は、単語を書き表した情報である。単語読み23は、単語表記22におけるその単語の読みに関する情報である。この単語読み23に対応する図示しない音素系列が照合部13による照合処理に用いられる語彙となる。すなわち、語彙辞書管理部12の認識対象語彙抽出部12aは、この単語読み23に対応する音素系列から認識対象となる認識対象語彙を抽出する。なお、単語読み23は、図2では、ひらがなで格納されているが、これに限定されるものではない。すなわち、単語読み23は、ひらがなに代えて、かたかなで格納されていてもよいし、上記の音素系列が格納されていてもよい。また、語彙辞書記憶部11は、認識対象語彙抽出部12aが認識対象語彙を抽出する際の尺度情報20の基準を示す抽出基準情報24を更に格納する。なお、語彙辞書記憶部11は、尺度情報20、単語ID21、単語表記22、および、単語読み23をテーブル構造で格納しているが、これに限定されるものではない。すなわち、テーブル構造に代えて、ツリー構造、ネットワーク構造、ファイル構造などであってもよい。
【0054】
ここで、図2に示す例では、尺度情報20として、1行目R1には“1”、2行目R2には“0”、3行目R3には“0”、・・・N行目RNには“1”が格納されている。単語ID21として、1行目R1には“001”、2行目R2には“002”、3行目R3には“003”、・・・N行目RNには“NNN”が格納されている。単語表記22として、1行目R1には“自宅に帰る”、2行目R2には“家に帰る”、3行目R3には“AMラジオ”、・・・N行目RNには“一般道優先”が格納されている。単語読み23として、1行目R1には“じたくにかえる”、2行目R2には“うちにかえる”、3行目R3には“えーえむらじお”、・・・N行目RNには“いっぱんどーゆーせん”が格納されている。そして、抽出基準情報24として“1”が格納されている。
【0055】
本実施形態では、抽出基準情報24が“1”のとき、認識対象語彙抽出部12aは、尺度情報20に基づいて、認識対象語彙を抽出する。具体的には、認識対象語彙抽出部12aは、尺度情報20が“1”に対応する語彙を認識対象語彙として抽出する。また、抽出基準情報24が“0”のとき、認識対象語彙抽出部12aは、尺度情報20に関わらず、語彙辞書記憶部11に格納されている全ての語彙を認識対象語彙として抽出する。
【0056】
したがって、図2に示す例では、抽出基準情報24として“1”が格納されているので、認識対象語彙抽出部12aは、尺度情報20に基づいて、認識対象語彙を抽出する。すなわち、認識対象語彙抽出部12aは、尺度情報20が“1”を示している1行目R1およびN行目RNの語彙を認識対象語彙として抽出する。
【0057】
ところで、上記では、尺度情報20および抽出基準情報24を“1”、“0”の2値のデータで表現する場合の例について説明したが、例えば、図3に示すように、尺度情報20および抽出基準情報24を“0”〜“1”までの連続的なデータで表現してもよい。
【0058】
すなわち、図3に示す例では、尺度情報20として、1行目R1には“0.95”、2行目R2には“0.31”、3行目R3には“0.04”、・・・N行目RNには“0.88”が格納されている。また、抽出基準情報24として、“0.80”が格納されている。なお、図3では、尺度情報20および抽出基準情報24を小数点2桁で表現しているが、これに限るものではなく、任意の桁数で尺度情報20および抽出基準情報24を表現することができる。
【0059】
本実施形態では、抽出基準情報24が“0”以外のとき、認識対象語彙抽出部12aは、尺度情報20に基づいて、認識対象語彙を抽出する。具体的には、認識対象語彙抽出部12aは、抽出基準情報24を閾値とし、この抽出基準情報24より大きい尺度情報20に対応する語彙を認識対象語彙として抽出する。また、抽出基準情報24が“0”のとき、認識対象語彙抽出部12aは、尺度情報20に関わらず、語彙辞書記憶部11に格納されている全ての語彙を認識対象語彙として抽出する。
【0060】
したがって、図3に示す例では、抽出基準情報24として“0.80”が格納されているので、認識対象語彙抽出部12aは、尺度情報20に基づいて、認識対象語彙を抽出する。すなわち、認識対象語彙抽出部12aは、抽出基準情報24“0.80”より大きい尺度情報20に対応する語彙を認識対象語彙として抽出する。ここでは、1行目R1の尺度情報20“0.95”およびN行目RNの尺度情報“0.88”が該当するので、1行目R1およびN行目RNの語彙を認識対象語彙として抽出する。
【0061】
また、図4に示すように、尺度情報20および抽出基準情報24をランクで表現してもよい。図4は、尺度情報20をAランク、Bランク、Cランクの3つのランクに分類する例である。例えば、語彙の使用頻度の高い順にAランク、Bランク、Cランクとするが、これに限定されるものではない。抽出基準情報24は、Aランク、Bランク、Cランクに加えて、尺度情報20に関わらず、全ての語彙を対象とするDランクを格納することができる。なお、抽出基準情報24として、AランクおよびBランクを対象とするEランク、AランクおよびCランクを対象とするFランク、BランクおよびCランクを対象とするGランクを含んでいてもよい。
【0062】
ここで、図4に示す例では、尺度情報20として、1行目R1にはランクA、2行目R2にはランクB、3行目R3にはランクC、・・・N行目RNにはランクAが格納されている。また、抽出基準情報24として、ランクAが格納されている。
【0063】
本実施形態では、抽出基準情報24がDランク以外のとき、認識対象語彙抽出部12aは、尺度情報20に基づいて、認識対象語彙を抽出する。具体的には、認識対象語彙抽出部12aは、抽出基準情報24と同一のランクの尺度情報20に対応する語彙を認識対象語彙として抽出する。また、抽出基準情報24がDランクのとき、認識対象語彙抽出部12aは、尺度情報20に関わらず、語彙辞書記憶部11に格納されている全ての語彙を認識対象語彙として抽出する。
【0064】
したがって、図4に示す例では、抽出基準情報24としてランクAが格納されているので、認識対象語彙抽出部12aは、尺度情報20に基づいて、認識対象語彙を抽出する。すなわち、認識対象語彙抽出部12aは、抽出基準情報24のランクAと同一のランクの尺度情報20に対応する語彙を認識対象語彙として抽出する。ここでは、1行目R1の尺度情報20のランクAおよびN行目RNの尺度情報20のランクAが該当するので、1行目R1およびN行目RNの語彙を認識対象語彙として抽出する。
【0065】
(語彙辞書管理部の具体例)
語彙辞書管理部12は、認識対象語彙抽出部12a、尺度情報管理部12b、および、抽出基準情報管理部12cを備えている。
【0066】
認識対象語彙抽出部12aは、上述のように、認識対象語彙を抽出する際の尺度情報20の基準を示す抽出基準情報24が変更されることにより、語彙辞書記憶部11に格納されている複数の語彙から抽出される認識対象語彙の数を増減する。なお、照合部13が特徴量記憶部9に格納されている特徴量を用いて、認識対象語彙との照合処理を行う際、認識対象語彙抽出部12aは、直前に認識対象語彙として抽出した語彙を除いて認識対象語彙を抽出する態様であることが好ましい。この態様によれば、例えば認識結果が得られない状態が生じた後、再び同じ語彙の照合処理を行う際、照合部13は、直前に認識対象語彙として抽出した語彙を除いた認識対象語彙を用いて照合処理を行うことができる。それゆえ、音声認識装置2の認識速度が向上する。
【0067】
尺度情報管理部12bは、使用頻度記憶部18に格納されている使用頻度データおよび統計データ取得部16から入力される統計データを用いて、尺度情報20を更新する。尺度情報20を“1”、“0”の2値のデータで表現する場合、尺度情報管理部12bは、使用頻度の高い語彙に対応する尺度情報20を“1”に更新するとともに、使用頻度の低い語彙に対応する尺度情報20を“0”に更新する。例えば、使用頻度データおよび統計データから算出した値が基準値以上であれば、使用頻度が高い語彙であると判定し、尺度情報20を“1”に更新する。また、使用頻度データおよび統計データから算出した値が基準値未満であれば、使用頻度が低い語彙であると判定し、尺度情報20を“0”に更新する。また、尺度情報20を“0”〜“1”までの連続的なデータで表現する場合、尺度情報管理部12bは、使用頻度の高い語彙に対応する尺度情報20を大きくする(“1”に近づける)とともに、使用頻度の低い語彙に対応する尺度情報20を小さくする(“0”に近づける)ように更新する。さらに、尺度情報20をランクで表現する場合、尺度情報管理部12bは、使用頻度の高い語彙に対応する尺度情報20のランクを上げるとともに、使用頻度の低い語彙に対応する尺度情報20のランクを下げるように更新する。なお、尺度情報管理部12bが尺度情報20を更新するタイミングは、使用頻度データが更新されるタイミング、または、統計データが入力されるタイミングで更新されるが、これに限定されるものではなく、任意のタイミングで更新することができる。
【0068】
抽出基準情報管理部12cは、監視制御部15から入力される更新信号(第1の更新信号、第2の更新信号)に基づいて、語彙辞書記憶部11に格納されている抽出基準情報24を変更する。抽出基準情報24を“1”、“0”の2値のデータで表現する場合、抽出基準情報管理部12cは、第1の更新信号が入力されると、抽出基準情報24を“1”に変更する。抽出基準情報管理部12cは、第2の更新信号が入力されると、抽出基準情報24を“0”に変更する。また、抽出基準情報24を“0”〜“1”までの連続的なデータで表現する場合、抽出基準情報管理部12cは、第1の更新信号が入力されると、抽出基準情報24が小さくなる(“0”に近づける)ように変更する。抽出基準情報管理部12cは、第2の更新信号が入力されると、抽出基準情報24が大きくなる(“1”に近づける)ように変更する。さらに、抽出基準情報24をランクで表現する場合、抽出基準情報管理部12cは、第1の更新信号が入力されると、抽出基準情報24のランクを下げる。抽出基準情報管理部12cは、第2の更新信号が入力されると、抽出基準情報24のランクを上げる。なお、監視制御部15からの第1の更新信号および第2の更新信号の詳細については後述する。
【0069】
(格納形式の変形例)
ところで、上記では、尺度情報20および抽出基準情報24が語彙辞書記憶部11に格納されている例について説明したが、これに限るものではない。すなわち、上記では、語彙辞書記憶部11が、尺度情報20を格納する尺度情報記憶部および抽出基準情報24を格納する抽出基準情報記憶部に対応している例を説明したが、例えば、図5ないし図7に示すような構成であってもよい。
【0070】
まず、図5に示すように、尺度情報記憶部200および抽出基準情報記憶部240が語彙辞書記憶部11とは分離する態様であってもよい。すなわち、図5に示す例では、尺度情報20は、尺度情報記憶部200に格納されている。抽出基準情報24は、抽出基準情報記憶部240に格納されている。なお、尺度情報記憶部200および抽出基準情報記憶部240は、それぞれ異なるハードウェアで構成してもよいし、同一のハードウェアの異なる領域で構成してもよい。
【0071】
本実施形態では、認識対象語彙抽出部12aは、抽出基準情報記憶部240から抽出基準情報24を読み出す(参照する)。抽出基準情報24が“1”のとき、認識対象語彙抽出部12aは、尺度情報記憶部200から尺度情報20を読み出す(参照する)。認識対象語彙抽出部12aは、尺度情報20に基づいて、語彙辞書記憶部11から認識対象語彙を抽出する。また、抽出基準情報24が“0”のとき、認識対象語彙抽出部12aは、尺度情報20に関わらず、語彙辞書記憶部11に格納されている全ての語彙を認識対象語彙として抽出する。
【0072】
また、図6に示すように、尺度情報20に応じて、語彙辞書記憶部11を、第1の語彙辞書記憶部11aおよび第2の語彙辞書記憶部11bに分離する態様であってもよい。なお、第1の語彙辞書記憶部11aおよび第2の語彙辞書記憶部11bは、それぞれ異なるハードウェアで構成してもよいし、同一のハードウェアの異なる領域で構成してもよい。
【0073】
本実施形態では、認識対象語彙抽出部12aは、尺度情報20を読み出す(参照する)。尺度情報20が“1”のとき、認識対象語彙抽出部12aは、尺度情報20が“1”に対応する語彙を第1の語彙辞書記憶部11aに格納する。尺度情報20が“0”のとき、認識対象語彙抽出部12aは、尺度情報20が“0”に対応する語彙を第2の語彙辞書記憶部11bに格納する。そして、認識対象語彙抽出部12aは、抽出基準情報24を読み出す(参照する)。抽出基準情報24が“1”のとき、認識対象語彙抽出部12aは、第1の語彙辞書記憶部11aに格納されている語彙を認識対象語彙として抽出する。また、抽出基準情報24が“0”のとき、認識対象語彙抽出部12aは、第1の語彙辞書記憶部11aおよび第2の語彙辞書記憶部11bに格納されている語彙を認識対象語彙として抽出する。
【0074】
さらに、図7に示すように、語彙辞書記憶部7を、認識対象となる語彙を格納する第3の語彙辞書記憶部11cおよび全ての語彙を格納する第4の語彙辞書記憶部11dに分離する態様であってもよい。第3の語彙辞書記憶部11cおよび第4の語彙辞書記憶部11dは、それぞれ異なるハードウェアで構成してもよいし、同一のハードウェアの異なる領域で構成してもよい。
【0075】
本実施形態では、認識対象語彙抽出部12aは、尺度情報20および抽出基準情報24を読み出す(参照する)。抽出基準情報24が“1”のとき、認識対象語彙抽出部12aは、尺度情報20が“1”に対応する語彙を第4の語彙辞書記憶部11dから抽出し、抽出した語彙を第3の語彙辞書記憶部11aに格納する。抽出基準情報24が“0”のとき、認識対象語彙抽出部12aは、第4の語彙辞書記憶部11dに格納されている全ての語彙を抽出し、抽出した全ての語彙を第3の語彙辞書記憶部11cに格納する。そして、認識対象語彙抽出部12aは、第3の語彙辞書記憶部11cに格納されている語彙を認識対象語彙として抽出する。
【0076】
(監視制御部の具体例)
監視制御部15は、下記(a)〜(h)を監視対象とする。監視制御部15は、まず、下記(a)〜(d)のうちの少なくとも1つの状態を検出すると、語彙辞書管理部12に第1の更新信号を出力し、照合部13に読出信号を出力する。
(a)認識結果が得られない場合(例えば、照合部13で算出された一致度が“0”であるため、認識結果が得られない場合、または、照合部13で算出された一致度が結果出力部14による基準値を満たしていないため、認識結果が得られない場合)
(b)ユーザが直前の操作または発話に対して、修正・訂正的な操作または発話を行った場合(例えば、ユーザが、操作の停止、操作の中止、操作の取り消し、発話の言い直しをした場合など)
(c)処理の確定操作が必要であるにも関わらず、所定時間経過しても、ユーザが確定操作を行わない場合
(d)操作または発話が所定時間行われない場合
【0077】
また、監視制御部15は、語彙辞書管理部12に第1の更新信号を出力した後、上記(a)〜(d)の監視対象に加えて、下記(e)〜(h)の監視対象も監視する。監視制御部15は、下記(e)〜(h)のうちの少なくとも1つの状態を検出すると、語彙辞書管理部12に第2の更新信号を出力する。また、監視制御部15は、再度、上記(a)〜(d)のうちの少なくとも1つの状態を検出すると、語彙辞書管理部12に再度第1の更新信号を出力する。
(e)照合部13が一致度を算出する処理を所定回数行った場合
(f)所定の時刻が経過した場合
(g)処理の確定操作が必要であるとき、所定時間内に、ユーザが確定操作を行った場合
(h)ユーザが直前の操作または発話に対して、修正・訂正的な操作または発話を行わない場合
【0078】
なお、監視対象として、上記(a)〜(h)には限られず、用途に応じて任意の監視対象を設定できる。
【0079】
(音声認識装置の動作例)
上記の構成において、音声認識装置2の概略動作について、例えば、図8に基づき説明すると、以下のとおりである。すなわち、図8に示すように、ユーザが音声の入力を開始すると(Op1)、入力した音声は音声入力部7に出力される。音声入力部7は、所定の音声区間判定基準を用いて、入力された音声中の音声区間を判定し、判定された音声区間における音声を、発話音声データに変換する(Op2)。変換された発話音声データは音声分析部8に出力される。音声分析部8は、入力された発話音声データを分析して特徴量を算出する(Op3)。算出された特徴量は、特徴量記憶部9および照合部13に出力される。照合部13は、入力された特徴量に基づいて照合処理を行う(Op4)。そして、照合処理の結果は、照合部13から結果出力部14に出力され、結果出力部14が認識結果を出力する(Op5)。なお、上記の音声認識装置2の概略動作は一例であって、これに限定されるものではない。
【0080】
次に、図9を参照しながら、図8の照合処理(Op4)の動作を詳細に説明する。すなわち、図9に示すように、認識対象語彙抽出部12aは、語彙辞書記憶部(抽出基準情報記憶部)11に格納されている抽出基準情報20を読み出す(参照する)(Op41)。読み出した抽出基準情報24が“1”であれば(Op42にてYES)、認識対象語彙抽出部12aは、語彙辞書記憶部(尺度情報記憶部)11に格納されている尺度情報20を読み出し(参照し)、読み出した尺度情報20に基づいて、認識対象語彙を抽出する(Op43)。一方、読み出した抽出基準情報24が“0”であれば(Op42にてNO)、認識対象語彙抽出部12aは、尺度情報20に関わらず、語彙辞書記憶部11に格納されている全ての語彙を認識対象語彙として抽出する(Op44)。そして、照合部13は、図8のOp3で算出された特徴量を用いて、Op43またはOp44で抽出した認識対象語彙との一致度を算出する(Op45)。
【0081】
続いて、図10を参照しながら、尺度情報管理部12bが尺度情報20を更新する動作を説明する。なお、尺度情報管理部12bが尺度情報20を更新するタイミングは、使用頻度データが更新されるタイミング、または、統計データが入力されるタイミングで適宜更新される。したがって、尺度情報管理部12bが尺度情報20を更新する動作は、図8では、Op1〜Op5の間のいずれにも入ることになる。
【0082】
図10に示すように、尺度情報管理部12bは、使用頻度記憶部12に格納されている使用頻度データを読み出す(Op11)。例えば、尺度情報管理部12bは、使用頻度記憶部18に格納されている使用頻度データが更新されるタイミングで、使用頻度記憶部18から使用頻度データを読み出す。尺度情報管理部12bは、統計データ取得部16から統計データが入力される(Op12)。そして、尺度情報管理部12bは、使用頻度データおよび統計データを用いて、尺度情報20を更新する(Op13)。
【0083】
次に、図11を参照しながら、抽出基準情報管理部12cが抽出基準情報24を変更する動作を説明する。なお、抽出基準情報管理部12cが抽出基準情報24を変更するタイミングは、監視制御部15から第1の更新信号または第2の更新信号が入力されるタイミングで適宜更新される。したがって、抽出基準情報管理部12cが抽出基準情報24を変更する動作は、図8では、Op1〜Op5の間のいずれにも入ることになる。
【0084】
図11に示すように、監視制御部15は、上述の(a)〜(d)を監視対象として監視する(Op21)。監視制御部15は、上述の(a)〜(d)のうちの少なくとも1つの状態を検出すると(Op22にてYES)、抽出基準情報管理部12cに第1の更新信号を出力する(Op23)。なお、監視制御部15は、照合部13に読出信号を出力する。一方、Op22で上述の(a)〜(d)のうちの少なくとも1つの状態を検出しなければ(Op22にてNO)、Op21に戻って、監視制御部15は、上述の(a)〜(d)の監視対象を監視する。抽出基準情報管理部12cは、第1の更新信号が入力されると、抽出基準情報を変更する(Op24)。
【0085】
監視制御部15は、抽出基準情報管理部12cに第1の更新信号を出力した後、上述の(a)〜(d)の監視対象に加えて、上述の(e)〜(h)も監視対象として監視する。すなわち、監視制御部15は、上述の(a)〜(h)を監視対象として監視する(Op25)。監視制御部15は、上述の(e)〜(h)のうちの少なくとも1つの状態を検出すると(Op26にてYES)、抽出基準情報管理部12cに第2の更新信号を出力する(Op27)。一方、Op26で上述の(e)〜(h)のうちの少なくとも1つの状態を検出しなければ(Op26にてNO)、Op25に戻って、監視制御部15は、上述の(a)〜(h)の監視対象を監視する。抽出基準情報管理部12cは、第2の更新信号が入力されると、抽出基準情報を変更する(Op28)。なお、図示は省略するが、Op25で上述の(a)〜(d)のうちの少なくとも1つの状態を検出すると、Op23に戻って、監視制御部15は、再度、抽出基準情報管理部12cに第1の更新信号を出力する。
【0086】
以上に述べたように、本実施形態における音声認識装置2においては、認識対象語彙抽出部12aは、認識対象語彙を抽出する際の尺度情報20の基準を示す抽出基準情報24が変更されることにより、語彙辞書記憶部11に格納されている複数の語彙から抽出される認識対象語彙の数を増減する。このため、例えばユーザから受け付けた処理の状態に応じて、抽出基準情報24が変更される。認識対象語彙抽出部12aは、語彙辞書記憶部11に格納されている複数の語彙から抽出される認識対象語彙の数を増減する。認識対象語彙抽出部12aが認識対象語彙の数を増加した場合、照合部13は、増加した認識対象語彙に従って照合処理を行う。それゆえ、音声認識装置2の認識対象語彙の数が増加し、発話の自由度が向上する。また、認識対象語彙抽出部12aが認識対象語彙の数を減少した場合、照合部13は、減少した認識対象語彙に従って照合処理を行う。それゆえ、音声認識装置2の認識対象語彙の数が制限され、認識率および認識速度が向上する。この結果、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置2を実現することができる。
【0087】
なお、本実施形態では、統計データ取得部からの要求に対して、通信処理部がインターネットを挟んで統計データ記憶部から統計データを取得する例について説明したが、これに限るものではない。すなわち、統計データ記憶部を例えばDVD、MO、CD、フレキシブルディスク、磁気テープなどの記憶装置で形成し、統計データ取得部は、この記憶装置から直接的あるいは間接的に統計データを読み出してもよい。要するに、統計データ取得部は、統計データを取得できる態様であれば、いかなる態様であってもよい。
【0088】
また、本実施形態では、尺度情報および抽出基準情報の格納形式を、図2〜図7を例として説明したが、これに限るものではない。すなわち、語彙辞書管理部が、尺度情報および抽出基準情報を読み出し、読み出した尺度情報および抽出基準情報に基づいて認識対象語彙を抽出できれば、いかなる格納形式であってもよい。
【0089】
さらに、本実施形態では、尺度情報管理部が尺度情報を更新し、抽出基準情報管理部が抽出基準情報を更新する例について説明したが、これに限るものではない。すなわち、音声認識装置の初期設定時にあっては、システム管理者が尺度情報および抽出基準情報を設定してもよい。また、音声認識装置の稼動時であっても、システム管理者またはユーザが、尺度情報を更新し、抽出基準情報を変更してもよい。
【0090】
(実施の形態2)
実施の形態1では、語彙辞書記憶部11に格納されている複数の語彙から認識対象語彙を抽出する例について説明した。これに対して、実施の形態2では、語彙辞書記憶部11に格納されている複数の語彙を複数の語彙グループに分割し、分割した語彙グループ毎に、認識対象語彙を抽出する例について図12ないし図15に基づき以下に説明する。なお、第1の実施形態において説明した構成と同様の機能を有する構成については、第1の実施形態と同じ参照符号を付記し、その詳細な説明を省略する。
【0091】
図12に示すように、本実施形態に係る情報提供システム30における音声認識装置50は、語彙グループ使用頻度管理部51、語彙グループ使用頻度記憶部52、および、閾値記憶部53を更に備えている。
【0092】
語彙グループ使用頻度管理部51は、語彙辞書記憶部11に格納されている複数の語彙を複数の語彙グループとして分割する。例えば、共通の機能(役割)を有する語彙を纏めて語彙グループを形成する。そして、語彙グループ使用頻度管理部51は、使用頻度管理部17から語彙グループに属する複数の語彙のそれぞれの使用頻度を取得し、取得した使用頻度から語彙グループの使用頻度を算出する。なお、図示は省略するが、語彙グループ使用頻度管理部51は、使用頻度記憶部18に格納されている使用頻度データを直接参照して、語彙グループに属する複数の語彙のそれぞれの使用頻度を取得し、取得した使用頻度から語彙グループの使用頻度を算出してもよい。
【0093】
語彙グループ使用頻度記憶部52は、語彙グループ使用頻度管理部51により算出された語彙グループの使用頻度を、語彙グループの使用頻度データとして格納する。語彙グループの使用頻度データは、複数の語彙グループのそれぞれに対応して格納されている。
【0094】
閾値記憶部53は、認識対象語彙を抽出する際の語彙グループの使用頻度データの基準を示す閾値を格納する。閾値は、語彙辞書管理部12により参照される。なお、閾値記憶部53の具体例については後述する。
【0095】
ところで、語彙グループ使用頻度管理部51は、パーソナルコンピュータ等の任意のコンピュータにプログラムをインストールすることによって実現される。なお、語彙グループ使用頻度管理部51の機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、語彙グループ使用頻度記憶部52、および、閾値記憶部53は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。なお、本実施形態は、インターネットNと接続可能な構成であることから、インターネットNから上記のプログラムをダウンロードするようにしてもよい。
【0096】
(語彙グループ使用頻度記憶部および閾値記憶部の具体例)
次に、音声認識装置50に含まれる語彙グループ使用頻度記憶部52および閾値記憶部53の具体例について、図13に基づき説明する。なお、図13に示す語彙辞書記憶部11に格納されている語彙の例は、音声認識装置50がカーナビゲーションシステムに用いられる場合の例である。
【0097】
図13に示すように、語彙グループ使用頻度記憶部52は、単語ID21、語彙グループ25、および、語彙グループの使用頻度データ26を格納する。語彙グループ25は、語彙辞書記憶部11に格納されている複数の語彙を複数の語彙グループとして分割したものである。具体的には、語彙グループ25は、共通の機能(役割)を有する語彙を纏めて形成している。語彙グループの使用頻度データ26は、語彙グループ25の使用頻度を示すデータである。
【0098】
閾値記憶部53は、認識対象語彙を抽出する際の語彙グループの使用頻度データ26の基準を示す閾値27を格納する。具体的には、認識対象語彙抽出部12aは、語彙グループの使用頻度データ26が閾値27以上の語彙グループ25については、尺度情報20に関わらず、この語彙グループ25に属する全ての語彙を認識対象語彙として抽出する。また、認識対象語彙抽出部12aは、語彙グループの使用頻度データ26が閾値27未満の語彙グループ25については、尺度情報20に基づいて、この語彙グループ25に属する語彙から認識対象語彙を抽出する。具体的には、認識対象語彙抽出部12aは、語彙グループ25に属する語彙から尺度情報20が“1”に対応する語彙を認識対象語彙として抽出する。
【0099】
語彙辞書管理部12は、認識対象語彙抽出部12a、尺度情報管理部12b、および、抽出基準情報管理部12cに加えて、閾値管理部12dを備えている。閾値管理部12dは、閾値記憶部53に格納されている閾値27を更新する。具体的には、閾値管理部12dは、監視制御部15から第1の監視信号が入力されると、閾値27が小さくなるように更新する。例えば、認識結果が得られない状況が繰り返し続いた場合、監視制御部15は、閾値管理部12dに、第1の更新信号を繰り返し出力する。閾値管理部12dは、第1の更新信号が入力される度に、閾値27を徐々に小さくしていく。また、閾値管理部12dは、監視制御部15から第2の更新信号が入力されると、閾値27が大きくなるように更新する。
【0100】
ここで、図13に示す例では、単語ID21“001”に対応する単語表記22“自宅に帰る”と、単語ID“002”に対応する単語表記22“家に帰る”とは、両者とも目的となる場所を操作する機能として同一であることから、これらを纏めて語彙グループ25“目的地セット”としている。同様に、オーディオを操作する機能として共通している語彙を纏めて“オーディオ設定”、探索条件を操作する機能として共通している語彙を纏めて“探索条件設定”としている。また、語彙グループ25“目的地セット”に対応して語彙グループの使用頻度データ26“0.85”が格納されている。語彙グループ25“オーディオ設定”に対応して語彙グループの使用頻度データ26“0.50”が格納されている。語彙グループ25“探索条件設定”に対応して語彙グループの使用頻度データ26“0.24”が格納されている。そして、閾値27として “0.80”が格納されている。
【0101】
したがって、認識対象語彙抽出部12aは、閾値27“0.80”より大きい語彙グループの使用頻度データ26を抽出する。ここでは、語彙グループ25“目的地セット”に対応する語彙グループの使用頻度データ“0.85”が対応している。このため、認識対象語彙抽出部12aは、尺度情報20に関わらず、語彙グループ25“目的地セット”に属する全ての語彙を認識対象語彙として抽出する。また、認識対象語彙抽出部12aは、閾値27“0.80”より小さい語彙グループの使用頻度データ26を抽出する。ここでは、語彙グループ25“オーディオ設定”に対応する語彙グループの使用頻度データ“0.50”と、語彙グループ25“探索条件設定”に対応する語彙グループの使用頻度データ“0.24”とが対応している。このため、認識対象語彙抽出部12aは、尺度情報20に基づいて、語彙グループ25“オーディオ設定”、“探索条件設定”に属する語彙から認識対象語彙を抽出する。具体的には、認識対象語彙抽出部12aは、語彙グループ25に属する語彙から尺度情報20が“1”に対応する語彙を認識対象語彙として抽出する。
【0102】
(音声認識装置の動作例)
上記の構成において、図14を参照しながら、本実施形態の音声認識装置50の照合処理の動作を詳細に説明する。すなわち、図14に示すように、認識対象語彙抽出部12aは、閾値記憶部53に格納されている閾値27を読み出す(参照する)(Op411)。認識対象語彙抽出部12aは、抽出基準情報24に応じて、閾値27を読み出す。本実施形態では、抽出基準情報24が“0”のとき、認識対象語彙抽出部12aは、閾値27を読み出す。次に、認識対象語彙抽出部12aは、語彙グループ使用頻度記憶部52に格納されている語彙グループの使用頻度データ26を読み出す(Op412)。そして、語彙グループの使用頻度データ26が閾値27以上の場合(Op413にてYES)、認識対象語彙抽出部12aは、尺度情報20に関わらず、語彙グループ25に属する全ての語彙を認識対象語彙として抽出する(Op414)。一方、Op413で語彙グループの使用頻度データ26が閾値27未満の場合(Op413にてNO)、認識対象語彙抽出部12aは、尺度情報20に基づいて、語彙グループ25に属する語彙から認識対象語彙を抽出する(Op415)。そして、認識対象語彙の抽出が、全ての語彙グループ25について終了した場合(Op416にてYES)、照合部13は、算出された特徴量を用いて、Op414またはOp415で抽出した認識対象語彙との一致度を算出する(Op417)。一方、Op416で認識対象語彙の抽出が、全ての語彙グループ25について終了していない場合(Op416にてNo)、Op412に戻って、認識対象語彙抽出部12aは、次に認識対象語彙を抽出すべき語彙グループの使用頻度データ26を読み出す。
【0103】
次に、図15を参照しながら、閾値管理部12dが閾値27を更新する動作を説明する。なお、閾値管理部12dが閾値27を更新するタイミングは、監視制御部15から第1の更新信号または第2の更新信号が入力されるタイミングで適宜更新される。
【0104】
図15に示すように、監視制御部15は、上述の(a)〜(d)を監視対象として監視する(Op31)。監視制御部15は、上述の(a)〜(d)のうちの少なくとも1つの状態を検出すると(Op32にてYES)、閾値管理部12dに第1の更新信号を出力する(Op33)。一方、Op32で上述の(a)〜(d)のうちの少なくとも1つの状態を検出しなければ(Op32にてNO)、Op31に戻って、監視制御部15は、上述の(a)〜(d)の監視対象を監視する。閾値管理部12dは、第1の更新信号が入力されると、閾値27を更新する(Op34)。例えば、閾値管理部12dは、閾値27が小さくなるように更新する。
【0105】
そして、監視制御部15は、閾値管理部12dに第1の更新信号を出力した後、上述の(a)〜(d)の監視対象に加えて、上述の(e)〜(h)も監視対象として監視する。すなわち、監視制御部15は、上述の(a)〜(h)を監視対象として監視する(Op35)。監視制御部15は、上述の(e)〜(h)のうちの少なくとも1つの状態を検出すると(Op36にてYES)、閾値管理部12dに第2の更新信号を出力する(Op37)。一方、Op36で上述の(e)〜(h)のうちの少なくとも1つの状態を検出しなければ(Op36にてNO)、Op35に戻って、監視制御部15は、上述の(a)〜(h)の監視対象を監視する。閾値管理部12dは、第2の更新信号が入力されると、閾値27を更新する(Op38)。例えば、閾値管理部12dは、閾値27が大きくなるように更新する。なお、図示は省略するが、Op36で上述の(a)〜(d)のうちの少なくとも1つの状態を検出すると、Op33に戻って、監視制御部15は、再度、閾値管理部12dに第1の更新信号を出力する。そして、閾値管理部12dは、閾値27が更に小さくなるように更新する。
【0106】
以上に述べたように、本実施形態における音声認識装置50においては、認識対象語彙抽出部12aは、閾値27および語彙グループの使用頻度データ26を参照して、語彙グループの使用頻度データ26が閾値27より大きい語彙グループ25については、尺度情報20に関わらず、この語彙グループ25に属する全ての語彙を認識対象語彙として抽出するのか、語彙グループの使用頻度データ26が閾値27より小さい語彙グループ25については、尺度情報20に基づいて、この語彙グループ25に属する語彙から認識対象語彙を抽出するのか、いずれか一方の処理を選択的に行う。このため、認識対象語彙抽出部12aは、語彙グループの使用頻度データ26が閾値27より大きい語彙グループ25について、照合部13は、この語彙グループ25に属する全ての語彙を認識対象とする認識対象語彙に従って照合処理を行う。それゆえ、例えば使用頻度の高い語彙グループ25に属する全ての語彙を認識対象語彙としているので、これらの語彙グループ25に関する音声認識装置50の認識対象語彙の数が増加し、発話の自由度が向上する。また、認識対象語彙抽出部12aは、語彙グループの使用頻度データ26が閾値27より小さい語彙グループ25について、照合部13は、尺度情報20に基づいて、語彙グループ25に属する語彙から抽出された認識対象語彙に従って照合処理を行う。それゆえ、例えば使用頻度の低い語彙グループ25に属する語彙を尺度情報20に基づいて抽出した認識対象語彙としているので、これらの語彙グループ25に関する音声認識装置50の認識対象語彙の数が制限され、認識率および認識速度が向上する。この結果、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置50を実現することができる。
【0107】
なお、本実施形態では、閾値管理部が閾値を更新する例について説明したが、これに限るものではない。すなわち、音声認識装置の初期設定時にあっては、システム管理者が閾値を設定してもよい。また、音声認識装置の稼動時であっても、システム管理者またはユーザが、閾値を更新してもよい。
【0108】
すなわち、本発明は上述した実施形態1および実施形態2に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0109】
以上の実施の形態に関し、更に以下の付記を開示する。
【0110】
(付記1)
受け付けた音声を発話音声データに変換する音声入力部と、
前記発話音声データを特徴量に変換する音声分析部と、
複数の語彙を予め格納した語彙辞書記憶部と、
前記語彙辞書記憶部に格納されている複数の語彙から認識対象となる認識対象語彙を抽出する語彙辞書管理部と、
前記音声分析部により変換された前記特徴量を用いて、前記語彙辞書管理部により抽出された前記認識対象語彙との一致度を算出する照合部と、
前記照合部による一致度の算出結果から最もスコアの良かった語彙を認識結果として出力する結果出力部とを備えた音声認識装置において、
前記語彙辞書記憶部に格納されている複数の語彙のそれぞれについて、前記認識対象語彙を抽出する尺度となる尺度情報を予め格納する尺度情報記憶部と、
前記認識対象語彙を抽出する際の前記尺度情報の基準を示す抽出基準情報を予め格納する抽出基準情報記憶部と、
所定の状態を監視する監視制御部と、
前記監視制御部の監視結果に応じて、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する抽出基準情報管理部とを備え、
前記抽出基準情報が変更されることにより、前記語彙辞書管理部は、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数を増減することを特徴とする音声認識装置(1)。
【0111】
(付記2)
前記監視制御部は、ユーザから受け付けた操作の処理状態、ユーザから受け付けた音声の処理状態、および、時刻を計測する測定部からの所定の時刻の経過のうちの少なくとも1つの監視対象を監視し、
前記語彙辞書管理部は、変更された前記抽出基準情報に応じて、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数を増減し、
前記照合部は、前記音声分析部により変換された前記特徴量を用いて、増減した前記認識対象語彙との一致度を算出する付記1に記載の音声認識装置(2)。
【0112】
(付記3)
前記監視制御部は、下記(a)〜(h)のうちの少なくとも1つの監視対象を監視するとともに、
前記監視制御部は、下記(a)〜(d)の状態を検出すると、前記抽出基準情報管理部に第1の更新信号を送信し、前記抽出基準情報管理部は、前記第1の更新信号に基づいて、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数が増加するように、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する一方、
前記監視制御部は、前記抽出基準情報管理部に第1の更新信号を送信した後、下記(e)〜(h)の状態を検出すると、前記抽出基準情報管理部に第2の更新信号を送信し、前記抽出基準情報管理部は、前記第2の更新信号に基づいて、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数が減少するように、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する付記2に記載の音声認識装置(3)。
(a)認識結果が得られない場合
(b)ユーザが直前の操作または発話に対して、修正・訂正的な操作または発話を行った場合
(c)処理の確定操作が必要であるにも関わらず、所定時間経過しても、ユーザが確定操作を行わない場合
(d)操作または発話が所定時間行われない場合
(e)前記照合部が一致度を算出する処理を所定回数行った場合
(f)所定の時刻が経過した場合
(g)処理の確定操作が必要であるとき、所定時間内に、ユーザが確定操作を行った場合
(h)ユーザが直前の操作または発話に対して、修正・訂正的な操作または発話を行わない場合
【0113】
(付記4)
前記語彙辞書管理部は、前記抽出基準情報記憶部に格納されている前記抽出基準情報に応じて、下記(1)および(2)のいずれか一方の処理を選択的に行う付記2または3に記載の音声認識装置(4)。
(1)前記語彙辞書管理部は、前記尺度情報に基づいて、前記認識対象語彙を抽出する。
(2)前記語彙辞書管理部は、前記尺度情報に関わらず、前記語彙辞書記憶部に格納されている全ての語彙を前記認識対象語彙として抽出する。
【0114】
(付記5)
前記語彙辞書記憶部に格納されている複数の語彙のそれぞれの使用回数を監視して、複数の語彙のそれぞれの使用頻度を算出する使用頻度管理部と、
前記使用頻度管理部により算出された前記使用頻度を、前記語彙辞書記憶部に格納されている複数の語彙のそれぞれに対応させて、使用頻度データとして格納する使用頻度記憶部と、
少なくとも前記使用頻度記憶部に格納されている前記使用頻度データを用いて、前記尺度情報記憶部に格納されている前記尺度情報を更新する尺度情報管理部とを更に備えている付記1〜4のいずれか一項に記載の音声認識装置(5)。
【0115】
(付記6)
前記語彙辞書記憶部に格納されている複数の語彙を複数の語彙グループとして分割するとともに、前記語彙辞書記憶部に格納されている前記語彙グループに属する複数の語彙のそれぞれの前記使用頻度に基づいて、前記語彙グループの使用頻度を算出する語彙グループ使用頻度管理部と、
前記語彙グループ使用頻度管理部により算出された前記語彙グループの使用頻度を、前記語彙グループのそれぞれに対応させて、語彙グループの使用頻度データとして格納する語彙グループ使用頻度記憶部と、
前記認識対象語彙を抽出する際の前記語彙グループの使用頻度データの基準を示す閾値を格納する閾値記憶部とを更に備え、
前記語彙辞書管理部は、前記抽出基準情報記憶部に格納されている前記抽出基準情報に応じて、前記閾値記憶部に格納されている前記閾値および前記語彙グループ使用頻度記憶部に格納されている前記語彙グループの使用頻度データを参照し、下記(3)および(4)のいずれか一方の処理を選択的に行う付記5に記載の音声認識装置(6)。
(3)前記語彙辞書管理部は、前記語彙グループの使用頻度データが前記閾値より大きい語彙グループについては、前記尺度情報に関わらず、当該語彙グループに属する全ての語彙を前記認識対象語彙として抽出する。
(4)前記語彙辞書管理部は、前記語彙グループの使用頻度データが前記閾値より小さい語彙グループについては、前記尺度情報に基づいて、当該語彙グループに属する語彙から前記認識対象語彙を抽出する。
【0116】
(付記7)
前記監視制御部は、ユーザから受け付けた操作の処理状態、ユーザから受け付けた音声の処理状態、および、時刻を計測する測定部からの所定の時刻の経過のうちの少なくとも1つの監視対象を監視し、
前記監視制御部の監視結果に応じて、前記閾値記憶部に格納されている前記閾値を更新する閾値管理部を更に備え、
前記語彙辞書管理部は、更新された前記閾値に応じて、前記(3)および前記(4)のいずれか一方の処理を選択的に行う付記6に記載の音声認識装置(7)。
【0117】
(付記8)
前記音声入力部により変換された前記発話音声データまたは前記音声分析部により変換された前記特徴量を格納する音声記憶部を更に備え、
前記照合部は、前記音声記憶部に格納されている前記発話音声データまたは前記特徴量を用いて、前記語彙辞書管理部が抽出する前記認識対象語彙との一致度を算出する付記1〜7いずれか一項に記載の音声認識装置(8)。
【0118】
(付記9)
前記照合部が、前記音声記憶部に格納されている前記発話音声データまたは前記特徴量を用いて、前記語彙辞書管理部が抽出する前記認識対象語彙との一致度を算出する際、前記語彙辞書管理部は、直前に前記認識対象語彙として抽出した語彙を除いて、前記語彙辞書記憶部に格納されている複数の語彙から前記認識対象語彙を抽出する付記8に記載の音声認識装置(9)。
【0119】
(付記10)
受け付けた音声を発話音声データに変換する音声入力処理と、
前記発話音声データを特徴量に変換する音声分析処理と、
複数の語彙を予め格納した語彙辞書記憶部から認識対象となる認識対象語彙を抽出する語彙辞書管理処理と、
前記音声分析処理により変換された前記特徴量を用いて、前記語彙辞書管理処理により抽出された前記認識対象語彙との一致度を算出する照合処理と、
前記照合処理による一致度の算出結果から最もスコアの良かった語彙を認識結果として出力する結果出力処理とをコンピュータに実行させる音声認識プログラムにおいて、
前記語彙辞書管理処理は、尺度情報記憶部に予め格納された前記認識対象語彙を抽出する尺度となる尺度情報を参照するとともに、抽出基準情報記憶部に予め格納された前記認識対象語彙を抽出する際の前記尺度情報の基準を示す抽出基準情報を参照する処理をコンピュータに実行させる一方、
所定の状態を監視する監視制御処理と、
前記監視制御処理の監視結果に応じて、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する抽出基準情報管理処理とをコンピュータに実行させ、
前記抽出基準情報が変更されることにより、前記語彙辞書管理処理は、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数を増減する処理をコンピュータに実行させることを特徴とする音声認識プログラム(10)。
【0120】
(付記11)
複数の語彙に関する統計データを格納した統計データ記憶装置から前記統計データを取得する統計データ取得部を更に備え、
前記尺度情報管理部は、前記使用頻度記憶部に格納されている前記使用頻度データおよび前記統計データ取得部が取得した前記統計データを用いて、前記尺度情報記憶部に格納されている前記尺度情報を更新する付記5に記載の音声認識装置。
【0121】
(付記12)
前記監視制御部は、下記(a)〜(h)のうちの少なくとも1つの監視対象を監視するとともに、
前記監視制御部は、下記(a)〜(d)の状態を検出すると、前記閾値管理部に第1の更新信号を送信し、前記閾値管理部は、前記第1の更新信号に基づいて、前記閾値記憶部に格納されている前記閾値が小さくなるように更新する一方、
前記監視制御部は、前記閾値管理部に第1の更新信号を送信した後、下記(e)〜(h)の状態を検出すると、前記閾値管理部に第2の更新信号を送信し、前記閾値管理部は、前記第2の更新信号に基づいて、前記閾値記憶部に格納されている前記閾値が大きくなるように更新する付記7に記載の音声認識装置。
(a)認識結果が得られない場合
(b)ユーザが直前の操作または発話に対して、修正・訂正的な操作または発話を行った場合
(c)処理の確定操作が必要であるにも関わらず、所定時間経過しても、ユーザが確定操作を行わない場合
(d)操作または発話が所定時間行われない場合
(e)前記照合部が一致度を算出する処理を所定回数行った場合
(f)所定の時刻が経過した場合
(g)処理の確定操作が必要であるとき、所定時間内に、ユーザが確定操作を行った場合
(h)ユーザが直前の操作または発話に対して、修正・訂正的な操作または発話を行わない場合
【0122】
(付記13)
付記10に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
【産業上の利用可能性】
【0123】
以上のように、本発明は、ユーザが煩わしい操作をしなくとも、認識性能が向上する音声認識装置および音声認識プログラムとして有用である。
【図面の簡単な説明】
【0124】
【図1】本発明の第1の実施形態に係る音声認識装置の構成を示すブロック図である。
【図2】上記の音声認識装置における語彙辞書記憶部および語彙辞書管理部を中心とする要部を示すブロック図である。
【図3】上記の音声認識装置における語彙辞書記憶部および語彙辞書管理部を中心とする要部を示すブロック図である。
【図4】上記の音声認識装置における語彙辞書記憶部および語彙辞書管理部を中心とする要部を示すブロック図である。
【図5】図2における第1の変形例を示すブロック図である。
【図6】図2における第2の変形例を示すブロック図である。
【図7】図2における第3の変形例を示すブロック図である。
【図8】上記の音声認識装置の動作を示すフローチャートである。
【図9】上記の音声認識装置における照合処理の動作を示すフローチャートである。
【図10】上記の音声認識装置における尺度情報管理部が尺度情報を更新する動作を示すフローチャートである。
【図11】上記の音声認識装置における抽出基準情報管理部が抽出基準情報を更新する動作を示すフローチャートである。
【図12】第2の実施形態に係る音声認識装置の構成を示すブロック図である。
【図13】上記の音声認識装置における語彙辞書記憶部および語彙辞書管理部を中心とする要部を示すブロック図である。
【図14】上記の音声認識装置における照合処理の動作を示すフローチャートである。
【図15】上記の音声認識装置における閾値管理部が閾値を更新する動作を示すフローチャートである。
【符号の説明】
【0125】
2、50 音声認識装置
4 時刻計測部(測定部)
7 音声入力部
8 音声分析部
9 特徴量記憶部(音声記憶部)
11 語彙辞書記憶部(尺度情報記憶部、抽出基準情報記憶部)
12 語彙辞書管理部
12a 認識対象語彙抽出部
12b 尺度情報管理部
12c 抽出基準情報管理部
12d 閾値管理部
13 照合部
14 結果出力部
15 監視制御部
17 使用頻度管理部
18 使用頻度記憶部
20 尺度情報
200 尺度情報記憶部
24 抽出基準情報
240 抽出基準情報記憶部
27 閾値
51 語彙グループ使用頻度管理部
52 語彙グループ使用頻度記憶部
53 閾値記憶部

【特許請求の範囲】
【請求項1】
受け付けた音声を発話音声データに変換する音声入力部と、
前記発話音声データを特徴量に変換する音声分析部と、
複数の語彙を予め格納した語彙辞書記憶部と、
前記語彙辞書記憶部に格納されている複数の語彙から認識対象となる認識対象語彙を抽出する語彙辞書管理部と、
前記音声分析部により変換された前記特徴量を用いて、前記語彙辞書管理部により抽出された前記認識対象語彙との一致度を算出する照合部と、
前記照合部による一致度の算出結果から最もスコアの良かった語彙を認識結果として出力する結果出力部とを備えた音声認識装置において、
前記語彙辞書記憶部に格納されている複数の語彙のそれぞれについて、前記認識対象語彙を抽出する尺度となる尺度情報を予め格納する尺度情報記憶部と、
前記認識対象語彙を抽出する際の前記尺度情報の基準を示す抽出基準情報を予め格納する抽出基準情報記憶部と、
所定の状態を監視する監視制御部と、
前記監視制御部の監視結果に応じて、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する抽出基準情報管理部とを備え、
前記抽出基準情報が変更されることにより、前記語彙辞書管理部は、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数を増減することを特徴とする音声認識装置。
【請求項2】
前記監視制御部は、ユーザから受け付けた操作の処理状態、ユーザから受け付けた音声の処理状態、および、時刻を計測する測定部からの所定の時刻の経過のうちの少なくとも1つの監視対象を監視し、
前記語彙辞書管理部は、変更された前記抽出基準情報に応じて、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数を増減し、
前記照合部は、前記音声分析部により変換された前記特徴量を用いて、増減した前記認識対象語彙との一致度を算出する請求項1に記載の音声認識装置。
【請求項3】
前記監視制御部は、下記(a)〜(h)のうちの少なくとも1つの監視対象を監視するとともに、
前記監視制御部は、下記(a)〜(d)の状態を検出すると、前記抽出基準情報管理部に第1の更新信号を送信し、前記抽出基準情報管理部は、前記第1の更新信号に基づいて、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数が増加するように、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する一方、
前記監視制御部は、前記抽出基準情報管理部に第1の更新信号を送信した後、下記(e)〜(h)の状態を検出すると、前記抽出基準情報管理部に第2の更新信号を送信し、前記抽出基準情報管理部は、前記第2の更新信号に基づいて、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数が減少するように、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する請求項2に記載の音声認識装置。
(a)認識結果が得られない場合
(b)ユーザが直前の操作または発話に対して、修正・訂正的な操作または発話を行った場合
(c)処理の確定操作が必要であるにも関わらず、所定時間経過しても、ユーザが確定操作を行わない場合
(d)操作または発話が所定時間行われない場合
(e)前記照合部が一致度を算出する処理を所定回数行った場合
(f)所定の時刻が経過した場合
(g)処理の確定操作が必要であるとき、所定時間内に、ユーザが確定操作を行った場合
(h)ユーザが直前の操作または発話に対して、修正・訂正的な操作または発話を行わない場合
【請求項4】
前記語彙辞書管理部は、前記抽出基準情報記憶部に格納されている前記抽出基準情報に応じて、下記(1)および(2)のいずれか一方の処理を選択的に行う請求項2または3に記載の音声認識装置。
(1)前記語彙辞書管理部は、前記尺度情報に基づいて、前記認識対象語彙を抽出する。
(2)前記語彙辞書管理部は、前記尺度情報に関わらず、前記語彙辞書記憶部に格納されている全ての語彙を前記認識対象語彙として抽出する。
【請求項5】
前記語彙辞書記憶部に格納されている複数の語彙のそれぞれの使用回数を監視して、複数の語彙のそれぞれの使用頻度を算出する使用頻度管理部と、
前記使用頻度管理部により算出された前記使用頻度を、前記語彙辞書記憶部に格納されている複数の語彙のそれぞれに対応させて、使用頻度データとして格納する使用頻度記憶部と、
少なくとも前記使用頻度記憶部に格納されている前記使用頻度データを用いて、前記尺度情報記憶部に格納されている前記尺度情報を更新する尺度情報管理部とを更に備えている請求項1〜4のいずれか一項に記載の音声認識装置。
【請求項6】
前記語彙辞書記憶部に格納されている複数の語彙を複数の語彙グループとして分割するとともに、前記語彙辞書記憶部に格納されている前記語彙グループに属する複数の語彙のそれぞれの前記使用頻度に基づいて、前記語彙グループの使用頻度を算出する語彙グループ使用頻度管理部と、
前記語彙グループ使用頻度管理部により算出された前記語彙グループの使用頻度を、前記語彙グループのそれぞれに対応させて、語彙グループの使用頻度データとして格納する語彙グループ使用頻度記憶部と、
前記認識対象語彙を抽出する際の前記語彙グループの使用頻度データの基準を示す閾値を格納する閾値記憶部とを更に備え、
前記語彙辞書管理部は、前記抽出基準情報記憶部に格納されている前記抽出基準情報に応じて、前記閾値記憶部に格納されている前記閾値および前記語彙グループ使用頻度記憶部に格納されている前記語彙グループの使用頻度データを参照し、下記(3)および(4)のいずれか一方の処理を選択的に行う請求項5に記載の音声認識装置。
(3)前記語彙辞書管理部は、前記語彙グループの使用頻度データが前記閾値以上の語彙グループについては、前記尺度情報に関わらず、当該語彙グループに属する全ての語彙を前記認識対象語彙として抽出する。
(4)前記語彙辞書管理部は、前記語彙グループの使用頻度データが前記閾値未満の語彙グループについては、前記尺度情報に基づいて、当該語彙グループに属する語彙から前記認識対象語彙を抽出する。
【請求項7】
前記監視制御部は、ユーザから受け付けた操作の処理状態、ユーザから受け付けた音声の処理状態、および、時刻を計測する測定部からの所定の時刻の経過のうちの少なくとも1つの監視対象を監視し、
前記監視制御部の監視結果に応じて、前記閾値記憶部に格納されている前記閾値を更新する閾値管理部を更に備え、
前記語彙辞書管理部は、更新された前記閾値に応じて、前記(3)および前記(4)のいずれか一方の処理を選択的に行う請求項6に記載の音声認識装置。
【請求項8】
前記音声入力部により変換された前記発話音声データまたは前記音声分析部により変換された前記特徴量を格納する音声記憶部を更に備え、
前記照合部は、前記音声記憶部に格納されている前記発話音声データまたは前記特徴量を用いて、前記語彙辞書管理部が抽出する前記認識対象語彙との一致度を算出する請求項1〜7いずれか一項に記載の音声認識装置。
【請求項9】
前記照合部が、前記音声記憶部に格納されている前記発話音声データまたは前記特徴量を用いて、前記語彙辞書管理部が抽出する前記認識対象語彙との一致度を算出する際、前記語彙辞書管理部は、直前に前記認識対象語彙として抽出した語彙を除いて、前記語彙辞書記憶部に格納されている複数の語彙から前記認識対象語彙を抽出する請求項8に記載の音声認識装置。
【請求項10】
受け付けた音声を発話音声データに変換する音声入力処理と、
前記発話音声データを特徴量に変換する音声分析処理と、
複数の語彙を予め格納した語彙辞書記憶部から認識対象となる認識対象語彙を抽出する語彙辞書管理処理と、
前記音声分析処理により変換された前記特徴量を用いて、前記語彙辞書管理処理により抽出された前記認識対象語彙との一致度を算出する照合処理と、
前記照合処理による一致度の算出結果から最もスコアの良かった語彙を認識結果として出力する結果出力処理とをコンピュータに実行させる音声認識プログラムにおいて、
前記語彙辞書管理処理は、尺度情報記憶部に予め格納された前記認識対象語彙を抽出する尺度となる尺度情報を参照するとともに、抽出基準情報記憶部に予め格納された前記認識対象語彙を抽出する際の前記尺度情報の基準を示す抽出基準情報を参照する処理をコンピュータに実行させる一方、
所定の状態を監視する監視制御処理と、
前記監視制御処理の監視結果に応じて、前記抽出基準情報記憶部に格納されている前記抽出基準情報を変更する抽出基準情報管理処理とをコンピュータに実行させ、
前記抽出基準情報が変更されることにより、前記語彙辞書管理処理は、前記語彙辞書記憶部に格納されている複数の語彙から抽出される前記認識対象語彙の数を増減する処理をコンピュータに実行させることを特徴とする音声認識プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2007−310137(P2007−310137A)
【公開日】平成19年11月29日(2007.11.29)
【国際特許分類】
【出願番号】特願2006−139070(P2006−139070)
【出願日】平成18年5月18日(2006.5.18)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】