音声認識装置、および音声認識方法

【課題】発話音声を音声認識すること。
【解決手段】ＣＰＵ１０３４ａは、使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を、音声認識実行時の認識対象語彙として記憶し、使用者による発話音声を入力し、記憶した認識対象語彙と、入力した発話音声との一致度を演算し、一致度の演算結果に基づいて、認識対象語彙から認識結果候補を抽出し、抽出したそれぞれの認識結果候補の一致度、およびその認識結果候補を含む言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、認識結果候補の中から認識結果を特定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声を認識するための音声認識装置、および音声認識方法に関する。
【背景技術】
【０００２】
次のような音声認識装置が知られている。この音声認識装置は、音声認識エンジンと規定コマンド用辞書とを備え、音声認識エンジンは、使用者の発話音声を規定コマンド辞書と照合することによって、認識結果を出力する（例えば、特許文献１）。
【０００３】
【特許文献１】特開平０６−０９５６８７号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来の音声認識装置では、使用者が規定コマンドの表現を変更して発話した場合には、誤認識が生じる恐れがあった。
【課題を解決するための手段】
【０００５】
本発明は、使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を、音声認識実行時の認識対象語彙として記憶し、使用者による発話音声を入力し、記憶した認識対象語彙と、入力した発話音声との一致度を演算し、一致度の演算結果に基づいて、認識対象語彙から認識結果候補を抽出し、抽出した認識結果候補に含まれる各認識対象語彙の一致度、および各認識対象語彙の言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、認識結果候補の中から認識結果を特定することを特徴とする。
【発明の効果】
【０００６】
本発明によれば、使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を待ち受け語彙とすることで、使用者が規定コマンドの表現を変更して、拘束性の低い語彙を発話した場合でも、誤認識が生じる可能性を低減することができる。
【発明を実施するための最良の形態】
【０００７】
図１は、本実施の形態における音声認識装置の一実施の形態の構成を示すブロック図である。音声認識装置１００は、マイク１０１と、スピーカ１０２と、信号処理ユニット１０３と、入力装置１０４と、ディスプレイ１０５とを備えている。
【０００８】
信号処理ユニット１０３は、Ａ／Ｄコンバータ１０３１、Ｄ／Ａコンバータ１０３２、出力アンプ１０３３、信号処理装置１０３４、および外部記憶装置１０３５を備えている。信号処理装置１０３４は、ＣＰＵ１０３４ａ、メモリ１０３４ｂ、およびその他周辺回路により構成されている。また、入力装置１０４は、発話スイッチ１０４ａおよび訂正スイッチ１０４ｂを備えている。
【０００９】
音声認識装置１００においては、使用者は、発話スイッチ１０４ａを押下することによって、音声認識の開始を指示することができる。使用者によって音声認識の開始が指示された場合、使用者による発話音声はマイク１０１を通して信号処理ユニット１０３へ入力される。信号処理ユニット１０３へ入力された音声信号（入力音声信号）は、Ａ／Ｄコンバータ１０３１でデジタル信号に変換された後、信号処理装置１０３４へ入力される。
【００１０】
信号処理装置１０３４では、ＣＰＵ１０３４ａは、図２により後述する処理を実行して、使用者による発話音声を音声認識する。また、音声認識の結果に基づいて、使用者への応答文を生成する。生成した応答文は、Ｄ／Ａコンバータ１０３２でアナログ信号に変換され、出力アンプ１０３３で増幅された後、スピーカ１０２を介して出力される。使用者は、応答文の内容から音声認識結果が誤認識であると判断した場合には、訂正ボタン１０４ｂを押下して訂正指示をすることができる。また、使用者は、訂正ボタン１０４ｂを一定時間押下（長押し）することにより、音声認識を途中で中断することもできる。
【００１１】
図２は、本実施の形態における音声認識装置１００の処理を示すフローチャートである。図２に示す処理は、使用者によって発話スイッチ１０４ａが押下されると起動するプログラムとして、ＣＰＵ１０３４ａによって実行される。
【００１２】
ステップＳ１０において、ＣＰＵ１０３４ａは、音声認識に使用する認識対象語彙を外部記憶装置１０３５からメモリ１０３４ｂに読み込んで、音声認識処理のための待ち受け設定を行う。ここで読み込む認識対象語彙は、使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される。以下、言語モデルの具体例について、図３〜図８を用いて説明する。
【００１３】
ＣＰＵ１０３４ａは、まず、外部記憶装置１０３５から拘束性の高レベルの言語モデルで表される認識対象語彙を読み込む。拘束性の高レベルの言語モデルとは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容しない規定コマンド用の言語モデルであって、例えば、図３に示すように、第一階層Ａ、第二階層Ｂ、および第三階層Ｃとで構成される階層構造になっている。なお、図３は、車両に搭載されるナビゲーション装置を音声操作するためのコマンドを待ち受けるための言語モデルを表しており、以下の説明では、使用者がナビゲーション装置を音声操作する場合の音声認識処理について説明する。
【００１４】
図３において、第一階層Ａは、「行き先設定」、「ルート設定」などのナビゲーション装置を操作するためのコマンドを保持している。第二階層Ｂは、第一階層Ａのコマンドの下位コマンドを保持しており、例えば、第一階層Ａに含まれる「行き先設定」の下位コマンドとして、「自宅設定」や「登録地表示」などのコマンドを保持している。第三階層Ｃは、第二階層Ｂの下位コマンドを保持しており、例えば、第二階層Ｂに含まれる「登録地表示」の下位コマンドとして、「○○さん」や「○○社」などの具体的な登録地の名称を保持している。
【００１５】
ここでは、ＣＰＵ１０３４ａは、この図３に示す拘束性の高レベルの言語モデルの中から、第一階層Ａに含まれる全てのコマンド、第二階層Ｂに含まれる一部のコマンド、および第三階層Ｃに含まれる一部のコマンドを抽出して読み込む。例えば、図３に示す枠３ａ内に含まれるコマンドを抽出して読み込む。この拘束性の高レベルの言語モデルとして、例えば、図４に示すような語彙を認識対象語彙として待ち受けることが可能になる。すなわち、使用者が行き先を設定しようとして「行き先設定」と発話した場合に、認識対象語彙４ａによってこれを音声認識することができる。
【００１６】
次に、ＣＰＵ１０３４ａは、外部記憶装置１０３５から拘束性の中レベルの言語モデルで表される認識対象語彙を読み込む。拘束性の中レベルの言語モデルとは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定している言語モデルである。例えば図５に示すように、「行き先」、「目的地」など、ナビゲーション装置を操作する上での目的語５ａと、「設定」、「決定」などナビゲーション装置を操作するための操作語５ｂとをガベージ５ｃを挟んで接続し、さらに目的語５ａの前にもガベージ５ｄを挟んで操作語５ｅを接続することによって、目的語と操作語の倒置も許した言語モデルである。
【００１７】
なお、ガベージは、操作語や目的語などのキーワード以外の部分を吸収する。この拘束性の中レベルの言語モデルで表される認識対象語彙を読み込むことによって、例えば、図６に示すような語彙を認識対象語彙として待ち受けることが可能になる。すなわち、使用者が行き先を設定しようとして「行き先を設定」と発話した場合でも、認識対象語彙６ａにより、これを音声認識することができる。
【００１８】
最後に、ＣＰＵ１０３４ａは、外部記憶装置１０３５から拘束性の低レベルの言語モデルで表される認識対象語彙を読み込む。拘束性の低レベルの言語モデルとは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定していない言語モデルである。例えば、図７に示すように、「行き先」、「目的地」などのナビゲーション装置を操作する上での目的語および「設定」、「決定」などナビゲーション装置を操作するための操作語からなる語彙７ａをガベージ７ｂおよび７ｃを挟んで任意に接続することを許した言語モデルである。
【００１９】
この拘束性の低レベルの言語モデルで表される認識対象語彙を読み込むことによって、例えば、図８に示すような語彙を認識対象語彙として待ち受けることが可能になる。すなわち、使用者が行き先を設定しようとして「行き先、行き先設定」のように誤った発話した場合でも、認識対象語彙８ａにより、これを音声認識することができる。
【００２０】
次に、ステップＳ２０へ進み、ＣＰＵ１０３４ａは、例えば図９に示すような音声入力用のメニュー画面をディスプレイ１０５へ出力して表示する。図９（ａ）は、ステップＳ１０で読み込んだ拘束性の高レベルの言語モデルの第一階層Ａに含まれるコマンドを表示して、使用者に発話を促すためのメニュー画面例である。また、図９（ｂ）は、第二階層Ｂに含まれるコマンドを表示して、使用者に発話を促すためのメニュー画面例であり、図９（ｃ）は、第三階層Ｃに含まれるコマンドを表示して、使用者に発話を促すためのメニュー画面例である。ＣＰＵ１０３４ａは、まず、図９（ａ）に示すメニュー画面を表示して、使用者に対して、第一階層Ａに含まれるコマンドを発話するように促す。
【００２１】
このようなメニュー画面例を表示して、使用者に発話可能なコマンドを提示することによって、使用者は、どのようなコマンドを発話すればよいかを把握することができる。なお、ここでメニュー画面上に表示されるのは、第一階層Ａに含まれるコマンドのうちの一部であるが、このメニュー画面に表示されているコマンドは、全て目的語と操作語の組み合わせとなっている。このため、使用者は、他のコマンドを発話しようとした場合であっても、このメニュー画面を見ることによって、目的語と操作語とからなるコマンドを発話すればよいことを把握することができる。
【００２２】
次に、ＣＰＵ１０３４ａは、処理を開始した旨を使用者に通知するために、外部記憶装置１０３５に記憶されている音声メッセージ、例えば「処理を開始しました」や「発話を開始してください」などを出力する。すなわちＣＰＵ１０３４ａは、音声メッセージの音声データを外部記憶装置１０３５から読み込み、Ｄ／Ａコンバータ１０３２へ出力する。音声メッセージの音声データは、Ｄ／Ａコンバータ１０３２でアナログデータに変換され、出力アンプ１０３３で増幅された後、スピーカ１０２を介して出力される。使用者は、音声メッセージを受けて発話を行う。
【００２３】
ＣＰＵ１０３４ａは、マイク１０１を介した音声入力を監視して、使用者による発話音声の入力開始を検出する。具体的には、ＣＰＵ１０３４ａは、次のようにして発話音声の入力開始を検出する。ＣＰＵ１０３４ａは、使用者によって、発話スイッチ１０４ａが押下されるまでの間は、マイク１０１およびＡ／Ｄコンバータ１０３１を介して入力されるデジタル信号の平均パワーを演算している。
【００２４】
そして、使用者によって発話スイッチ１０４ａが押下された後は、マイク１０１およびＡ／Ｄコンバータ１０３１を介して入力されるデジタル信号の瞬間パワーが、上記平均パワーを所定値以上大きくなったときに、使用者による発話音声の入力が開始されたと検出する。そして、発話音声の入力が開始されたことを検出した場合には、ＣＰＵ１０３４ａは、音声の取り込みを開始する。
【００２５】
その後、ステップＳ３０へ進み、ＣＰＵ１０３４ａは、上述したステップＳ１０でメモリ１０３４ｂに読み込んだ認識対象語彙（待ち受け単語）と、取り込んだ音声との一致度を演算する。一致度とは、認識対象語彙と取り込んだ音声とがどの程度似ているかを表す指標であって、本実施の形態では、一致度はスコアとして算出される。このスコアは、数値で表され、値が大きいほど認識対象語彙と取り込んだ音声とが似ていることを意味する。なお、ＣＰＵ１０３４ａがこの一致度を演算している間も、発話音声の取り込みは継続されている。
【００２６】
ステップＳ４０では、ＣＰＵ１０３４ａは、入力されるデジタル信号の瞬間パワーが、所定時間以上継続して所定値以下である場合には、発話音声の入力は終了したと判断して、音声の取り込みを終了する。
【００２７】
その後、ステップＳ５０へ進み、ＣＰＵ１０３４ａは、ステップＳ３０で開始した一致度の演算が終了したら、一致度の最も大きな認識対象語彙から順番にＮ個の認識対象語彙を認識結果Ｎ−ｂｅｓｔとして出力する。図１０は、使用者が、ナビゲーション装置を操作するための規定コマンドである「行き先設定」を発話した場合の認識結果Ｎ−ｂｅｓｔを示す図である。なお、図１０では、Ｎが５の場合、すなわち認識結果Ｎ−ｂｅｓｔとして、一致度が上位の５個の認識対象語彙が出力された場合の具体例を示している。
【００２８】
この図１０に示す例では、使用者による実際の発話内容と一致する認識対象語彙「行き先設定」は、その一致度が第四位と低く算出されている。この場合、従来の一般的な音声認識方法と同様に一致度の最上位の認識対象語彙を最終的な認識結果として採用した場合には、誤認識が生じることになる。よって、本実施の形態では、次のようにして誤認識を防止する。
【００２９】
ＣＰＵ１０３４ａは、認識結果Ｎ−ｂｅｓｔの中で、最も拘束性のレベルが高い言語モデルから出力された認識対象語彙を選択する。例えば、図１０に示す例では、第一位の認識結果である「（ガベージ）・（ガベージ）」は拘束性の低レベルの言語モデルから出力された認識対象語彙である。第二位の認識結果である「駅・（ガベージ）・探す」は、拘束性の中レベルの言語モデルから出力された認識対象語彙である。第三位の認識結果である「地図・見せて」は、拘束性の中レベルの言語モデルから出力された認識対象語彙である。第四位の認識結果である「行き先設定」は、拘束性の高レベルの言語モデルから出力された認識対象語彙である。第五位の認識結果である「（ガベージ）・設定」は、拘束性の低レベルの言語モデルから出力された認識対象語彙である。
【００３０】
よって、この図１０に示す例では、ＣＰＵ１０３４ａは、最も拘束性のレベルが高い第四位の認識結果である「行き先設定」を選択する。そして、ＣＰＵ１０３４ａは、この第四位の認識結果である「行き先設定」を最終的な認識結果として優先採用するか否かの判定を行う。本実施の形態では、ＣＰＵ１０３４ａは、（Ａ）判定対象の認識結果の順位が所定の順位Ｎｔｈより高く、かつ（Ｂ）第一位の認識機結果と判定対象の認識結果とのスコア差が所定値Ｌｔｈより小さい場合には、判定対象の認識結果を上位の他の認識結果よりも優先して採用する。なお、判定時の閾値として用いるＮｔｈとＬｔｈは、それぞれ実験的に求められる値であって、ここでは、Ｎｔｈ＝５、Ｌｔｈ＝０．１０とする。
【００３１】
ここで、判定対象の認識結果である第四位の認識結果についてみると、順位は第四位であるので閾値Ｎｔｈより大きく条件（Ａ）を満たす。また、第一位の認識結果のスコア（０．２５）と第四位の認識結果のスコア（０．１８）の差は０，０７であって閾値Ｌｔｈより小さく条件（Ｂ）も満たす。よって、ＣＰＵ１０３４ａは、図１０に示す例では、第四位の認識結果を他の上位の認識結果よりも優先して採用すると判定し、第四位の認識結果である「行き先設定」を最終的な認識結果とする。そして、ＣＰＵ１０３４ａは、音声合成処理を行い、認識結果「行き先設定」を音声信号に変換した後、Ｄ／Ａコンバータ１０３２、出力アンプ１０３３を介して、スピーカ１０２から音声出力する。
【００３２】
また、別の例として、使用者が、ナビゲーション装置を操作するための規定コマンドとは異なる「行き先をえーと探す」を発話した場合に、認識結果Ｎ−ｂｅｓｔが図１１に示すように出力された場合について説明する。この場合もＣＰＵ１０３４ａは、認識結果Ｎ−ｂｅｓｔの中で、最も拘束性のレベルが高い言語モデルから出力された認識対象語彙、すなわち第四位の「ルート設定」を選択する。そして、この第四位の認識結果である「行き先設定」が上述した（Ａ）および（Ｂ）の条件を満たすか否かを判定して、最終的な認識結果として優先して採用するか否かを判定する。
【００３３】
この場合には、順位は第四位であるので閾値Ｎｔｈより大きく条件（Ａ）を満たすが、第一位の認識結果のスコア（０．２５）と第四位の認識結果のスコア（０．０２）の差は０，１２であって閾値Ｌｔｈより大きいため条件（Ｂ）は満たさない。よって、ＣＰＵ１０３４ａは、この第四位の認識結果は優先して採用しない。
【００３４】
ＣＰＵ１０３４ａは、次に、認識結果Ｎ−ｂｅｓｔの中から２番目に拘束性のレベルが高い言語モデルから出力された認識対象語彙を選択する。図１１に示す例では、拘束性の中レベルの言語モデルから出力された第二位の認識結果である「行き先・（ガベージ）・探す」を選択する。そして、この第二位の認識結果が上述した（Ａ）および（Ｂ）の条件を満たすか否かを判定して、最終的な認識結果として優先して採用するか否かを判定する。
【００３５】
この場合には、順位は第２位であるので閾値Ｎｔｈより大きく条件（Ａ）を満たす。また、第一位の認識結果のスコア（０．２５）と第二位の認識結果のスコア（０．２２）の差は０，０３であって閾値Ｌｔｈより小さいため条件（Ｂ）も満たす。よって、ＣＰＵ１０３４ａは、この第二位の認識結果を優先して採用する。
【００３６】
以上より、ＣＰＵ１０３４ａは、図１１に示す例では、第二位の認識結果を他の上位の認識結果よりも優先して採用すると判定し、第二位の認識結果である「行き先・（ガベージ）・探す」を最終的な認識結果とする。この場合、最終的な認識結果である「行き先・（ガベージ）・探す」をナビゲーション装置用の規定コマンドに変換する必要があるため、「行き先・（ガベージ）・探す」を対応する規定コマンド「行き先設定」に変換する。そして、ＣＰＵ１０３４ａは、音声合成処理を行い、認識結果「行き先設定」を音声信号に変換した後、Ｄ／Ａコンバータ１０３２、出力アンプ１０３３を介して、スピーカ１０２から音声出力する。
【００３７】
なお、この場合、認識結果である「行き先・（ガベージ）・探す」に基づいて、使用者の発話内容に近い「行き先を探す」を音声出力する方法も考えられる。しかしながら、本実施の形態では、使用者に規定コマンドの習得を促すために、規定コマンドに変換した後の「行き先設定」を音声出力するようにしている。
【００３８】
ステップＳ６０では、ＣＰＵ１０３４ａは、入力装置１０４からの出力に基づいて、使用者によって訂正スイッチ１０４ｂが操作されたか否かを判断する。例えば、使用者は、「行き先設定」と発話したのに対して、認識結果として異なる認識対象語彙、例えば「電話」が音声出力された場合には、誤認識が発生したと判断して訂正スイッチ１０４ｂを押下する。ＣＰＵ１０３４ａは、認識結果を音声出力した後、所定時間、使用者による訂正スイッチ１０４ｂの操作を受け付ける。
【００３９】
ＣＰＵ１０３４ａは、所定時間以内に使用者によって訂正スイッチ１０４ｂが操作されたと判断した場合には、認識結果を取り消して、ステップＳ１０へ戻り、使用者からの再発話を受け付ける。一方、ＣＰＵ１０３４ａは、所定時間以内に訂正スイッチ１０４ｂが操作されないと判断した場合には、使用者は認識結果を容認したものとして認識結果を確定し、ステップＳ７０へ進む。
【００４０】
ステップＳ７０では、ＣＰＵ１０３４ａは、認識結果として確定した認識対象語彙に下位の階層があるか否かを判断する。下位の階層が存在すると判断した場合には、ステップＳ１０へ戻って、下位階層を対象とした待ち受け設定を行う。例えば、確定した認識結果が「行き先設定」である場合には、当該認識結果は、図３に示したように、第一階層Ａに含まれる認識対象語彙であることから、下位階層として第二階層と第三階層が存在すると判断する。そして、この場合には、ＣＰＵ１０３４ａは、図９（ｂ）および図９（ｃ）に示した音声入力用のメニュー画面をディスプレイ１０５へ出力して、使用者に下位階層に含まれるコマンドの発話を促す。
【００４１】
これに対して、下位階層がないと判断した場合、すなわち最も下の階層まで音声認識が完了したと判断した場合には、ステップＳ８０へ進む。ステップＳ８０では、ＣＰＵ１０３４ａは、下位階層まで音声認識したことによって特定される使用者からの操作指示に基づいて、処理を実行する。例えば、ナビゲーション装置上で目的地設定や経路探索を行う。
【００４２】
図１２は、本実施の形態における音声認識装置１００を使用してナビゲーション装置を操作する場合の使用者による発話と音声認識装置１００による応答の具体例を示した図である。この図１２は、使用者が規定のコマンドを発話して、ナビゲーション装置を操作する場合を示している。
【００４３】
ＣＰＵ１０３４ａは、使用者に対してコマンドの発話を促すためのシステムメッセージＡとして「コマンドをどうぞ」をスピーカ１０２から出力し、使用者からの発話を待ち受ける。同時に、ＣＰＵ１０３４ａは、ディスプレイ１０５に、図９（ａ）に示した拘束性の高レベルの言語モデルの第一階層Ａに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、ナビゲーション装置で行き先を設定するためのユーザ発話Ｂとして規定コマンドである「行き先設定」を発話する。
【００４４】
ＣＰＵ１０３４ａは、使用者による発話を受け付けて、上述した音声認識処理を実行し、図１０で上述したように、認識結果Ｎ−ｂｅｓｔの中から「行き先設定」を認識結果として特定する。そして、ＣＰＵ１０３４ａは、使用者に対して下位の階層のコマンドの発話を促すためのシステムメッセージＣとして「行き先設定のコマンドをどうぞ」をスピーカ１０２から出力し、使用者からの発話を待ち受ける。同時に、ＣＰＵ１０３４ａは、ディスプレイ１０５に、図９（ｂ）に示した拘束性の高レベルの言語モデルの第二階層Ｂに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から行き先を選択するためのユーザ発話Ｄとして規定コマンドである「登録地表示」を発話する。
【００４５】
ＣＰＵ１０３４ａは、使用者による発話を受け付けて、上述した音声認識処理を実行し、
認識結果Ｎ−ｂｅｓｔの中から「登録地表示」を認識結果として特定する。そして、ＣＰＵ１０３４ａは、使用者に対してさらに下位の階層のコマンドの発話を促すためのシステムメッセージＥとして「登録地表示の番号をどうぞ」をスピーカ１０２から出力し、使用者からの発話を待ち受ける。同時に、ＣＰＵ１０３４ａは、ディスプレイ１０５に、図９（ｃ）に示した拘束性の高レベルの言語モデルの第三階層Ｃに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から登録地の番号を選択するためのユーザ発話Ｆとして「３番」を発話する。
【００４６】
ＣＰＵ１０３４ａは、以上の処理によって、「△△社」を行き先として設定するようにナビゲーション装置を制御する。これによって、使用者は音声操作によりナビゲーション装置を操作できる。
【００４７】
次に、図１３により、使用者が規定のコマンドとは異なる内容を発話した場合の具体例について説明する。使用者に対してコマンドの発話を促すためのシステムメッセージＡとして「コマンドをどうぞ」をスピーカ１０２から出力し、使用者からの発話を待ち受ける。同時に、ＣＰＵ１０３４ａは、ディスプレイ１０５に、図９（ａ）に示した拘束性の高レベルの言語モデルの第一階層Ａに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、ナビゲーション装置で行き先を設定するためのユーザ発話Ｂとして規定コマンドとは異なる内容の「行き先をえーと探す」を発話する。
【００４８】
ＣＰＵ１０３４ａは、使用者による発話を受け付けて、上述した音声認識処理を実行し、図１１で上述したように、認識結果Ｎ−ｂｅｓｔの中から「行き先・（ガベージ）・探す」を認識結果として特定し、これを対応する規定コマンド「行き先設定」に変換する。そして、ＣＰＵ１０３４ａは、使用者に対して下位の階層のコマンドの発話を促すためのシステムメッセージＣとして「行き先設定のコマンドをどうぞ」をスピーカ１０２から出力し、使用者からの発話を待ち受ける。同時に、ＣＰＵ１０３４ａは、ディスプレイ１０５に、図９（ｂ）に示した拘束性の高レベルの言語モデルの第二階層Ｂに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から行き先を選択するためのユーザ発話Ｄとして規定コマンドである「登録地表示」を発話する。
【００４９】
ＣＰＵ１０３４ａは、使用者による発話を受け付けて、上述した音声認識処理を実行し、
認識結果Ｎ−ｂｅｓｔの中から「登録地表示」を認識結果として特定する。そして、ＣＰＵ１０３４ａは、使用者に対してさらに下位の階層のコマンドの発話を促すためのシステムメッセージＥとして「登録地表示の番号をどうぞ」をスピーカ１０２から出力し、使用者からの発話を待ち受ける。同時に、ＣＰＵ１０３４ａは、ディスプレイ１０５に、図９（ｃ）に示した拘束性の高レベルの言語モデルの第三階層Ｃに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から登録地の番号を選択するためのユーザ発話Ｆとして「３番」を発話する。
【００５０】
以上説明した本実施の形態によれば、以下のような作用効果を得ることができる。
（１）使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を音声認識実行時の認識対象語彙として待ち受け、使用者による発話音声と認識対象語彙との一致度を演算して、認識結果候補として認識結果Ｎ−ｂｅｓｔを抽出する。そして、認識結果Ｎ−ｂｅｓｔに含まれる認識対象語彙の一致度、およびその認識結果候補を含む言語モデルの拘束性のレベルに基づいて、認識結果Ｎ−ｂｅｓｔの中から認識結果を特定するようにした。これによって、使用者が規定コマンドを表現を変更して、拘束性の低い語彙を発話した場合でも、誤認識が生じる可能性を低減することができる。
【００５１】
（２）拘束性のレベルが異なる複数の言語モデルは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容しない拘束性の高レベルの言語モデル、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定している拘束性の中レベルの言語モデル、および認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定していない拘束性の低レベルの言語モデルを含むようにした。これによって、使用者による様々な態様の発話を待ち受けて、精度高く音声認識することができる。
【００５２】
（３）認識結果候補である認識結果Ｎ−ｂｅｓｔの中から、より拘束性のレベルが高い言語モデルの認識対象語彙を優先して認識結果として特定するようにした。これによって、使用者が規定コマンドのような拘束性のレベルが高い言語モデルの発話を行った場合に、拘束性のレベルが低い言語モデルの認識対象語彙が誤って認識されることを防止することができる。
【００５３】
（４）認識結果候補である認識結果Ｎ−ｂｅｓｔの中から、より拘束性のレベルが高い言語モデルの認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙の一致度との差（スコア差）が所定の閾値より小さい場合に、その認識対象語彙を優先して認識結果として特定するようにした。これによって、認識結果Ｎ−ｂｅｓｔの中に、より拘束性のレベルが高い言語モデルの認識対象語彙が含まれている場合であっても、その一致度が低い場合には、それが優先的に採用されることを防いで、誤認識を防止することができる。
【００５４】
（５）使用者が発話可能な認識対象語彙をディスプレイ１０５に表示して提示するようにした。これによって、使用者は、発話すべき語彙をあらかじめ把握することができる。
【００５５】
（６）認識結果に基づいて、使用者に対する応答文を生成して出力するようにした。これによって、使用者は、直前の発話内容が正しく認識されたかを把握することができる。
【００５６】
（７）一致度の演算によって得られる一致度が所定値以上となる所定数の認識対象語彙を認識結果Ｎ−ｂｅｓｔとして抽出するようにした。これによって、使用者による発話内容と一致する可能性が高い語彙を認識結果の候補とすることができる。
【００５７】
―変形例―
なお、上述した実施の形態の音声認識装置は、以下のように変形することもできる。
（１）上述した実施の形態では、ＣＰＵ１０３４ａは、認識結果Ｎ−ｂｅｓｔの中から、より拘束性のレベルが高い言語モデルの認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙とスコア差が所定の閾値より小さい場合に、その認識対象語彙を優先して認識結果として特定するようにした。しかしながら、ＣＰＵ１０３４ａは、認識結果Ｎ−ｂｅｓｔに含まれる認識対象語彙の一致度、およびその認識対象語彙を含む言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、認識結果を特定するようにしてもよい。例えば、認識結果Ｎ−ｂｅｓｔの中から、より拘束性のレベルが高い言語モデルの認識対象語彙を優先して認識結果として特定するようにしてもよい。
【００５８】
（２）上述した実施の形態では、ＣＰＵ１０３４ａは、認識結果Ｎ−ｂｅｓｔの中から、より拘束性のレベルが高い言語モデルの認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙とスコア差が所定の閾値より小さい場合に、その認識対象語彙を優先して認識結果として特定するようにした。しかしながら、ＣＰＵ１０３４ａは、一致度演算に際して、拘束性のレベルが高い言語モデルの認識対象語彙のスコアに所定のスコアを加算する、あるいは所定の重み付け係数を乗算することにより、前記語彙を優先して認識結果として特定するようにしてもよい。
【００５９】
（３）上述した実施の形態では、音声認識装置１００を用いて音声操作が可能なナビゲーション装置を操作する例について説明した。しかしながら、音声認識装置１００は、音声操作可能な他の機器に適用することも可能である。
【００６０】
なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
【図面の簡単な説明】
【００６１】
【図１】音声認識装置の一実施の形態の構成を示すブロック図である。
【図２】音声認識装置１００の処理を示すフローチャート図である。
【図３】拘束性の高レベルの言語モデルの具体例を示す図である。
【図４】拘束性の高レベルの言語モデルを読み込むことにより待ち受け可能な認識対象語彙の具体例を示す図である。
【図５】拘束性の中レベルの言語モデルの具体例を示す図である。
【図６】拘束性の中レベルの言語モデルを読み込むことにより待ち受け可能な認識対象語彙の具体例を示す図である。
【図７】拘束性の低レベルの言語モデルの具体例を示す図である。
【図８】拘束性の低レベルの言語モデルを読み込むことにより待ち受け可能な認識対象語彙の具体例を示す図である。
【図９】音声入力用のメニュー画面の具体例を示す図である。
【図１０】認識結果Ｎ−ｂｅｓｔの具体例を示す第１の図である。
【図１１】認識結果Ｎ−ｂｅｓｔの具体例を示す第２の図である。
【図１２】使用者による発話と音声認識装置１００による応答の具体例を示した第１の図である。
【図１３】使用者による発話と音声認識装置１００による応答の具体例を示した第２の図である。
【符号の説明】
【００６２】
１００音声認識装置、１０１マイク、１０２スピーカ、１０３信号処理ユニット、１０３１Ａ／Ｄコンバータ、１０３２Ｄ／Ａコンバータ、１０３３出力アンプ、１０３４信号処理装置、１０３４ａＣＰＵ、１０３４ｂメモリ、１０３５外部記憶装置、１０４入力装置、１０４ａ発話スイッチ、１０４ｂ訂正スイッチ、１０５ディスプレイ

【特許請求の範囲】
【請求項１】
使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を、音声認識実行時の認識対象語彙として記憶する記憶手段と、
使用者による発話音声を入力する音声入力手段と、
前記記憶手段に記憶した前記認識対象語彙と、前記音声入力手段で入力した前記発話音声との一致度を演算する一致度演算手段と、
前記一致度演算手段による演算結果に基づいて、前記認識対象語彙から認識結果候補を抽出する候補抽出手段と、
前記候補抽出手段で抽出した前記認識結果候補に含まれる各認識対象語彙の一致度、および各認識対象語彙の言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、前記認識結果候補の中から認識結果を特定する認識結果特定手段とを備えることを特徴とする音声認識装置。
【請求項２】
請求項１に記載の音声認識装置において、
前記拘束性のレベルが異なる複数の言語モデルは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容しない拘束性の高レベルの言語モデル、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定している拘束性の中レベルの言語モデル、および認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定していない拘束性の低レベルの言語モデルを含むことを特徴とする音声認識装置。
【請求項３】
請求項２に記載の音声認識装置において、
前記認識結果特定手段は、前記認識結果候補の中から、より拘束性のレベルが高い前記言語モデルの前記認識対象語彙を優先して前記認識結果として特定することを特徴とする音声認識装置。
【請求項４】
請求項２に記載の音声認識装置において、
前記認識結果特定手段は、前記認識結果候補の中から、より拘束性のレベルが高い前記言語モデルの前記認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙との差が所定値より小さい前記認識対象語彙を優先して前記認識結果として特定することを特徴とする音声認識装置。
【請求項５】
請求項１〜４のいずれか一項に記載の音声認識装置において、
使用者が発話可能な前記認識対象語彙を表示装置に表示する表示制御手段をさらに備えることを特徴とする音声認識装置。
【請求項６】
請求項１〜５のいずれか一項に記載の音声認識装置において、
前記認識結果特定手段で特定した前記認識結果に基づいて、使用者に対する応答文を生成して出力する応答文出力手段をさらに備えることを特徴とする音声認識装置。
【請求項７】
請求項１〜６のいずれか一項に記載の音声認識装置において、
前記候補抽出手段は、前記一致度演算手段による演算の結果、前記一致度が所定値以上となる所定数の前記認識対象語彙を前記認識結果候補として抽出することを特徴とする音声認識装置。
【請求項８】
使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を、音声認識実行時の認識対象語彙として記憶し、
使用者による発話音声を入力し、
記憶した前記認識対象語彙と、入力した前記発話音声との一致度を演算し、
前記一致度の演算結果に基づいて、前記認識対象語彙から認識結果候補を抽出し、
抽出した前記認識結果候補に含まれる各認識対象語彙の一致度、および各認識対象語彙の言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、前記認識結果候補の中から認識結果を特定することを特徴とする音声認識方法。

【図１】