説明

音声認識装置および音声認識方法

【課題】車載装置へ向かってその制御のために発話する発話者をトークスイッチの押下操作のわずらわしさから開放し、該発話が車載装置に対するものであるか否かを明確に認識して誤作動を起こさない音声認識装置および音声認識方法を提供する。
【解決手段】本発明の音声認識装置10aは、音声認識処理結果判定処理部13bが音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれていると判定する場合は、音声認識処理部13aは、音声認識辞書12bを参照して対応するコマンドへと変換しカーナビゲーション装置20へと出力するコマンド変換出力処理部13cへ音声認識結果を受け渡し、音声認識処理結果判定処理部13bが音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれていると判定されない場合は、音声認識処理部13aは、音声認識結果をコマンド変換出力処理部13cへ受け渡さない。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、車両の搭乗者によって発話された発話語彙を音声認識する音声認識手段と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換手段とを有する音声認識装置および該音声認識装置による音声認識方法に関し、特に、車載装置へ向かってその制御のために発話する発話者をトークスイッチの押下操作のわずらわしさから開放し、かつ該発話が車載装置に対するものであるか否かを明確に認識して誤作動を起こさない音声認識装置および音声認識方法に関する。
【背景技術】
【0002】
近年、利用者の音声を認識する技術の実現に向けて、各種考案がなされている。利用者の音声を認識することができれば、利用者は各種機器の操作を音声によって実行することが可能であり、特に車載装置では運転者による手動操作の運転への影響が懸念されることから音声操作技術の実用化が切望されている。
【0003】
ところで、現在では、車両の音声認識機能を搭載した車載装置は、トークスイッチを押下した後に発話された特定のコマンドを認識する仕様となっている。このトークスイッチを使用することによって、車載装置は、特定のコマンドをより的確に認識することが可能となる(例えば、特許文献1参照)。
【0004】
【特許文献1】特開平10−97281号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上記特許文献1に代表される従来技術では、トークスイッチを押下するという操作が発話者の負担になるが、特に、発話者が運転者である場合には、運転操作以外の負荷を与える要因となる。このため、将来的には、トークスイッチを使用しない常時音声認識が主流となってくることが予想される。
【0006】
しかし、車両に搭乗している発話者が車載装置以外へ向かって発話した場合(例えば、同乗者へ向かう発話や独り言など)にも、車載装置は、自装置へ向かう発話として認識してしまい、この発話に基づいて誤動作を起こしてしまうおそれがあった。
【0007】
本発明は、上記問題点(課題)を解消するためになされたものであって、車載装置へ向かってその制御のために発話する発話者をトークスイッチの押下操作のわずらわしさから開放し、かつ該発話が車載装置に対するものであるか否かを明確に認識して誤作動を起こさない音声認識装置および音声認識方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した問題を解決し、目的を達成するため、本発明は、車両の搭乗者によって発話された発話語彙を音声認識する音声認識手段と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換手段とを有する音声認識装置であって、前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定手段をさらに有し、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。
【0009】
また、本発明は、上記発明において、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が特定語彙であると前記音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。
【0010】
また、本発明は、上記発明において、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が特定語彙であると前記音声認識結果判定手段により判定された場合に、該特定語彙以前に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。
【0011】
また、本発明は、上記発明において、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が第1の特定語彙であると前記音声認識結果判定手段により判定された場合に、該第1の特定語彙より後に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを開始し、前記音声認識手段によって該第1の特定語彙以降に音声認識された発話語彙が第2の特定語彙であると前記音声認識結果判定手段により判定された場合に、該第2の特定語彙以降に音声認識した発話語彙を音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを終了すことを特徴とする。
【0012】
また、本発明は、上記発明において、前記音声認識手段によって音声認識された発話語彙を所定数だけバッファリングするバッファリング手段と、前記発話語彙に、該発話語彙が属するカテゴリを対応付けて記憶する語彙カテゴリ記憶手段とをさらに有し、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のカテゴリに基づいて、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。
【0013】
また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合に、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。
【0014】
また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルすることを特徴とする。
【0015】
また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合に、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。
【0016】
また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルすることを特徴とする。
【0017】
また、本発明は、車両の搭乗者によって発話された発話語彙を音声認識する音声認識工程と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換工程とを含む音声認識方法であって、前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定工程をさらに含み、前記音声認識工程は、前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定工程により判定された場合にのみ、該音声認識した発話語彙を前記コマンド変換肯定へと受け渡すことを特徴とする。
【発明の効果】
【0018】
本発明によれば、音声認識手段は、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙をコマンド変換手段へと受け渡すので、トークスイッチを必要としないために搭乗者はトークスイッチの押下操作のわずらわしさから開放され、かつ音声認識によって、車載装置へ向けられた発話語彙とに車載装置へ向けられたものではない発話語彙とを常時区別し、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。
【0019】
また、本発明によれば、音声認識手段によって音声認識された発話語彙が特定語彙であると音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すので、車載装置の制御のための発話を開始するためのトークスイッチの押下を必要とせず発話開始を音声認識手段に明確に認識させるとともに、搭乗者はトークスイッチの押下操作のわずらわしさから開放されるという効果を奏する。
【0020】
また、本発明によれば、音声認識手段によって音声認識された発話語彙が特定語彙であると音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すので、車載装置の制御のための発話を開始するためのトークスイッチの押下を必要とせず発話開始を音声認識手段に明確に認識させるとともに車載装置の制御のための発話の終了を音声認識手段に明確に認識させることができ、搭乗者はトークスイッチの押下操作のわずらわしさから開放されるという効果を奏する。
【0021】
また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のカテゴリに基づいて、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙をコマンド変換手段へと受け渡すので、常時音声認識をしつつも、搭乗者が車載装置を制御するための発話の開始を意識しなくても、車載装置へ向けられた発話語彙とに車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。
【0022】
また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合に、該音声認識した発話語彙をコマンド変換手段へと受け渡すので、発話内容が特定の傾向を示すことを認識することによって、搭乗者が車載装置を制御するための発話を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。
【0023】
また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルするので、発話内容が特定の傾向を示さなくなったことを認識することによって、搭乗者が車載装置を制御するための発話の終了を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。
【0024】
また、本発明によれば、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合に、該音声認識した発話語彙をコマンド変換手段へと受け渡すので、発話内容が特定の傾向を一時的であっても強く示すことを認識することによって、搭乗者が車載装置を制御するための発話を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。
【0025】
また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙をコマンド変換手段へと受け渡すことをキャンセルするので、発話内容が特定の傾向を一時的に強く示さなくなったことを認識することによって、搭乗者が車載装置を制御するための発話の終了を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。
【発明を実施するための最良の形態】
【0026】
以下に添付図面を参照し、本発明の音声認識装置および音声認識方法に係る実施例を詳細に説明する。
【実施例1】
【0027】
以下に図1〜図3を参照して、本発明にかかる実施例1を説明する。実施例1は、車両の搭乗者による発話語彙の常時音声認識において、予め設定されている特定のキーワードが音声認識されると、該キーワードの直後に音声認識された発話語彙を、カーナビゲーション装置などを制御可能なコマンドへ変換するために所定のコマンド変換部へと受け渡す実施例である。
【0028】
先ず、実施例1にかかる音声認識装置の構成について説明する。図1は、実施例1にかかる音声認識装置の構成を示す機能ブロック図である。同図に示すように、車両1において、CAN(Controller Area Network)2を介して、実施例1にかかる音声認識装置10aと、音声認識された発話内容に基づく制御コマンドによる制御対象であるカーナビゲーション装置20とが接続されている。以下の実施例では、音声認識された発話内容が変換された、カーナビゲーション装置20などの車載装置を制御する制御コマンドを、単に“コマンド”と呼ぶ。
【0029】
音声認識装置10aは、所定の表示画面を有するディスプレイ装置などの表示手段である表示部11aと、音声を発するスピーカー装置などの音声発生手段である音声発生部11bと、揮発性または不揮発性の記憶手段である記憶部12と、制御部13とを有する。また、音声認識装置10aには、外部から検知した音声データを音声認識装置10aへと入力するマイク14が接続されている。
【0030】
記憶部12は、キーワード辞書12aと、音声認識辞書12bとを格納している。キーワード辞書12aおよび音声認識辞書12bは、所定のテーブルとして記憶部12に格納されている。キーワード辞書12aは、予め設定された特定の語彙のリストである。また、音声認識辞書12bは、音声認識された発話内容から変換されるべきコマンドのリストである。
【0031】
制御部13は、音声認識装置10aの全体制御をつかさどるが、特に実施例1に関連する特徴的な機能構成としては、音声認識処理部13aと、音声認識処理結果判定処理部13bと、コマンド変換出力処理部13cとを有する。その他の機能構成については省略している。
【0032】
音声認識処理部13aは、車両1の搭乗者によって発話された語彙がマイク14によって検知されると、その検知された発話語彙をひとまず受け付けて一時記憶しておく。そして、その発話語彙がキーワード辞書12aに含まれている場合(以上を前段の音声認識と呼ぶ)に、該発話語彙より後に検知された語彙を音声認識処理(この音声認識処理による音声認識を、後段の音声認識と呼ぶ)する。なお、単に音声認識と呼ぶ場合は、検知された発話語彙が音声認識辞書12bに含まれていると判定された場合を示し、音声認識処理は、音声認識を試みる処理である。
【0033】
音声認識処理結果判定処理部13bは、音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれているか否かを判定する処理部である。音声認識処理結果判定処理部13bが音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれていると判定する場合には、音声認識処理部13aは、音声認識結果をコマンド変換出力処理部13cへと受け渡す。なお、音声認識処理結果判定処理部13bが音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれていると判定されない場合には、音声認識処理部13aは、音声認識結果をコマンド変換出力処理部13cへ受け渡さない。
【0034】
コマンド変換出力処理部13cは、音声認識処理部13aから受け渡された音声認識結果を、音声認識辞書12bを参照して対応するコマンドへと変換し、カーナビゲーション装置20へと出力する。
【0035】
次に、実施例1の音声認識処理(その1)について説明する。実施例1の音声認識処理(その1)は、前段の音声認識による音声認識結果がキーワードである場合に、そのキーワードの直後に音声認識された1語彙をコマンド変換する場合の処理である。図2は、実施例1の音声認識処理手順(その1)を示すフローチャートである。
【0036】
先ず、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS101)。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」がオンであるか否かを判定する(ステップS102)。「コマンド変換フラグ」がオンであると判定された場合に(ステップS102肯定)、ステップS103へ移り、「コマンド変換フラグ」がオンであると判定されなかった場合に(ステップS102否定)、ステップS105へ移る。
【0037】
ステップS103では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする(ステップS104)。
【0038】
ステップS105では、音声認識処理結果判定処理部13bは、キーワード辞書12aを参照し、音声認識処理部13aから入力された音声認識処理結果がキーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識処理結果がキーワードであると判定された場合に(ステップS105肯定)、ステップS106へ移り、音声認識処理部13aから入力された音声認識処理結果がキーワードであると判定されなかった場合に(ステップS105否定)、ステップS107へ移る。
【0039】
ステップS106では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオンにする。また、ステップS107では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする。これらの処理が終了すると、ステップS108へ移る。
【0040】
ステップS108では、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS108肯定)、実施例1の音声認識処理(その1)は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS108否定)、ステップS101へ移る。
【0041】
次に、実施例1の音声認識処理(その2)について説明する。実施例1の音声認識処理(その2)は、前段の音声認識による音声認識結果がキーワードである場合に、そのキーワードの直前に音声認識された1語彙をコマンド変換する場合の処理である。図3は、実施例1の音声認識処理手順(その2)を示すフローチャートである。
【0042】
先ず、音声認識処理部13aは、「所定のバッファ」をクリアする(ステップS111)。このバッファは、揮発性または不揮発性の記憶手段に設けられる。
【0043】
続いて、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS112)。続いて、音声認識処理部13aは、「所定のバッファ」がクリアされているか否かを判定する(ステップS113)。「所定のバッファ」がクリアされていると判定される場合に(ステップS113肯定)、ステップS117へ移り、「所定のバッファ」がクリアされていると判定されない場合に(ステップS113否定)、ステップS114へ移る。
【0044】
ステップS114では、音声認識処理結果判定処理部13bは、キーワード辞書12aを参照し、音声認識処理部13aから入力された音声認識結果がキーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識結果がキーワードであると判定された場合に(ステップS114肯定)、ステップS115へ移り、音声認識処理部13aから入力された音声認識結果がキーワードであると判定されなかった場合に(ステップS114否定)、ステップS117へ移る。
【0045】
ステップS115では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする(ステップS116)。
【0046】
続いて、音声認識処理部13aは、ステップS112で入力された音声認識結果を「所定のバッファ」に記憶する(ステップS117)。このステップS117の処理の際に、すでに「所定のバッファ」に音声認識結果が記憶されている場合は、この古い音声認識結果を消去して、新しい音声認識結果を記憶する。続いて、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し(ステップS118)、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS118肯定)、実施例1の音声認識処理(その2)は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS118否定)、ステップS112へ移る。
【実施例2】
【0047】
以下に図4および図5を参照して、本発明にかかる実施例2を説明する。実施例1は、車両の搭乗者による発話語彙の常時音声認識において、予め設定されている特定の開始キーワードが音声認識されると、該キーワード以降に音声認識された発話語彙を、カーナビゲーション装置などを制御可能なコマンドへ変換するために所定のコマンド変換部へと受け渡し、特定の開始キーワードが音声認識された以降に特定の終了キーワードが音声認識されると、声認識された発話語彙を所定のコマンド変換部へと受け渡すことを終了する実施例である。以下は、実施例1との差異のみを説明することとする。
【0048】
先ず、実施例2にかかる音声認識装置の構成について説明する。図4は、実施例2にかかる音声認識装置の構成を示す機能ブロック図である。実施例2の音声認識装置10bは、実施例1の音声認識装置10aと比較して、記憶部12においてキーワード辞書12aに代えて開始キーワード辞書12cおよび終了キーワード辞書12dが含まれる構成となっている。これらの構成以外は、実施例2の音声認識装置10bは、実施例1の音声認識装置10aと同一であるので、説明を省略する。
【0049】
開始キーワード辞書12cおよび終了キーワード辞書12dは、所定のテーブルとして記憶部12に格納されている。開始キーワード辞書12cおよび終了キーワード辞書12dは、予め設定された特定の語彙のリストである。特に、開始キーワード辞書12cには、カーナビゲーション装置20などの車載装置へ向けた発話の開始を示すキーワードが格納されており、終了キーワード辞書12dには、カーナビゲーション装置20などの車載装置へ向けた発話の終了を示すキーワードが格納されている。
【0050】
次に、実施例2の音声認識処理について説明する。実施例2の音声認識処理は、前段の音声認識による音声認識結果が開始キーワードである場合に、そのキーワード以降に音声認識された語彙をコマンド変換し、その後終了キーワードが音声認識されると、音声認識された語彙のコマンド変換を終了する処理である。図5は、実施例2の音声認識処理手順を示すフローチャートである。
【0051】
先ず、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS121)。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」がオンであるか否かを判定する(ステップS122)。「コマンド変換フラグ」がオンであると判定された場合に(ステップS122肯定)、ステップS123へ移り、「コマンド変換フラグ」がオンであると判定されなかった場合に(ステップS122否定)、ステップS126へ移る。
【0052】
ステップS123では、音声認識処理結果判定処理部13bは、終了キーワード辞書12dを参照し、音声認識処理部13aから入力された音声認識結果が終了キーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識結果が終了キーワードであると判定された場合に(ステップS123肯定)、ステップS124へ移り、音声認識処理部13aから入力された音声認識結果が終了キーワードであると判定されなかった場合に(ステップS123否定)、ステップS125へ移る。
【0053】
ステップS124では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする。ステップS125では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。
【0054】
一方、ステップS126では、音声認識処理結果判定処理部13bは、開始キーワード辞書12cを参照し、音声認識処理部13aから入力された音声認識結果が開始キーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識結果が開始キーワードであると判定された場合に(ステップS126肯定)、ステップS127へ移り、音声認識処理部13aから入力された音声認識結果が開始キーワードであると判定されなかった場合に(ステップS126否定)、ステップS129へ移る。
【0055】
ステップS127では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオンにする(ステップS128)この処理が終了すると、ステップS129へ移る。
【0056】
ステップS129では、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS129肯定)、実施例2の音声認識処理は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS129否定)、ステップS121へ移る。
【実施例3】
【0057】
以下に図6〜図9を参照して、本発明にかかる実施例3を説明する。実施例3は、車両の搭乗者による発話語彙の常時音声認識において、特定のカテゴリの語彙が一定時間において音声認識された語彙のなかで所定割合を占める、あるいは特定のカテゴリの語彙が一定回数連続して音声認識されると、これらの条件が充足された以降に音声認識された発話語彙を、カーナビゲーション装置などを制御可能なコマンドへ変換するために所定のコマンド変換部へと受け渡する実施例である。以下は、実施例1または2実施例との差異のみを説明することとする。
【0058】
先ず、実施例3にかかる音声認識装置の構成について説明する。図6は、実施例3にかかる音声認識装置の構成を示す機能ブロック図である。実施例3の音声認識装置10cは、実施例1の音声認識装置10aと比較して、記憶部12においてキーワード辞書12aに代えて語彙カテゴリ分類テーブル12eおよび認識語彙格納バッファ12fが含まれる構成となっている。これらの構成以外は、実施例3の音声認識装置10cは、実施例1の音声認識装置10aと同一であるので、説明を省略する。
【0059】
語彙カテゴリ分類テーブル12eは、音声認識された発話語彙にその所属カテゴリを少なくとも一つ対応付けて記憶するテーブルである。例えば図7にそのテーブル例を示すように、「語彙」“そば”には、「所属カテゴリ」として“食事”、“和食”などが対応付けられている。また、「語彙」“目的地”には、「所属カテゴリ」として“ナビ”、“地図”などが対応付けられている。「語彙」“xxテレビ局”には、「所属カテゴリ」として“テレビ”、“オーディオ”などが対応付けられている。
【0060】
このように、音声認識処理結果判定処理部13bによって語彙カテゴリ分類テーブル12eに含まれると判定された語彙は、該語彙カテゴリ分類テーブル12eに基づきその所属カテゴリが少なくとも一つ取得されることとなる。
【0061】
認識語彙格納バッファ12fは、音声認識処理部13aによって連続して音声認識がなされた語彙を所定数(例えば、500語彙など)だけバッファリングする記憶領域である。この認識語彙格納バッファ12fにバッファリングされる語彙は、先入れ先出しによって管理され、前述の所定数を超えて新たに音声認識された語彙が格納されようとしたならば、時間的に最も古く格納された語彙を消去して該新たに音声認識された語彙が格納される。
【0062】
次に、実施例3の音声認識処理(その1)について説明する。実施例3の音声認識処理(その3)は、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一の所属カテゴリである語彙の割合が所定閾値以上であると判定される場合に、その判定以後に音声認識された語彙をコマンド変換する場合の処理である。図8は、実施例3の音声認識処理手順(その1)を示すフローチャートである。
【0063】
先ず、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS131)。続いて、音声認識処理結果判定処理部13bは、語彙カテゴリ分類テーブル12eを参照して、入力された音声認識結果の語彙の所属カテゴリを取得する(ステップS132)。
【0064】
続いて、音声認識処理結果判定処理部13bは、入力された音声認識結果を、認識語彙格納バッファ12fに所定数(例えば、500語彙など)だけバッファリングする(ステップS133)。
【0065】
続いて、音声認識処理結果判定処理部13bは、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上(例えば、80%など)であるか否かを判定する(ステップS134)。認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上と判定された場合に(ステップS134肯定)、ステップS135へ移り、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であると判定さなかった場合に(ステップS134否定)、ステップS137へ移る。
【0066】
ステップS135では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオンにする(ステップS136)。この処理が終了すると、ステップS141へ移る。
【0067】
一方、ステップS137では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」がオンであるか否かを判定する。「コマンド変換フラグ」がオンであると判定された場合に(ステップS137肯定)、ステップS138へ移り、「コマンド変換フラグ」がオンであると判定されなかった場合に(ステップS137否定)、ステップS139へ移る。
【0068】
続いて、音声認識処理結果判定処理部13bは、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であると所定回数判定されなかったか(すなわち、ステップS134否定が所定回数連続したか)否かを判定する(ステップS139)。ステップS134否定が所定回数連続した場合に(ステップS139肯定)、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにし(ステップS140)、ステップS134否定が所定回数連続しなかった場合に(ステップS139否定)、ステップS141へ移る。
【0069】
ステップS141では、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS141肯定)、実施例3の音声認識処理は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS141否定)、ステップS131へ移る。
【0070】
以上のステップS134の判定処理によって、発話語彙のカテゴリ分類による発話内容の傾向がある時間内にある程度現れた場合に、音声認識結果をコマンド変換処理部へと受け渡してコマンド変換をおこなうようにし、ステップS139の判定処理によって、発話語彙のカテゴリ分類による発話内容の傾向が現れなくなった場合に、音声認識結果をコマンド変換処理部へと受け渡すことをキャンセルしてコマンド変換をおこなわせないように制御することが可能になる。
【0071】
なお、ステップS134の判定条件として、「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であるか否か」に代えて「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙が所定数連続しているか否か」を採用してもよい。これを図8のステップS134に代えてステップS134aとする(図9参照)。
【0072】
これに応じて、図8のステップS139の判定条件として、「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であると所定回数判定されなかったか(すなわち、ステップS134否定が所定回数連続したか)否か」に代えて「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙が所定数連続していると所定回数判定されなかったか(すなわち、ステップS134a否定が所定回数連続したか)否か」を採用することとなる。これを図8のステップS139に代えてステップS139aとする(図9参照)。
【0073】
以上のステップS134aの判定処理によって、発話語彙のカテゴリ分類による発話内容に一時的な強い傾向が現れた場合に、音声認識結果をコマンド変換処理部へと受け渡してコマンド変換をおこなうようにし、ステップS139aの判定処理によって、発話語彙のカテゴリ分類による発話内容の一時的な強い傾向が現れなくなった場合に、音声認識結果をコマンド変換処理部へと受け渡すことをキャンセルしてコマンド変換をおこなわせないように制御することが可能になる。
【0074】
以上、本発明の実施例を説明したが、本発明は、これに限られるものではなく、特許請求の範囲に記載した技術的思想の範囲内で、更に種々の異なる実施例で実施されてもよいものである。また、実施例に記載した効果は、これに限定されるものではない。
【0075】
また、上記実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記実施例で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0076】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0077】
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現されてもよい。
【産業上の利用可能性】
【0078】
本発明は、音声認識装置において、車載装置へ向かってその制御のために発話する発話者をトークスイッチの押下操作のわずらわしさから開放し、かつ該発話が車載装置に対するものであるか否かを明確に認識して誤作動を起こさないようにしたい場合に有用である。
【図面の簡単な説明】
【0079】
【図1】実施例1にかかる音声認識装置の構成を示す機能ブロック図である。
【図2】実施例1の音声認識処理手順(その1)を示すフローチャートである。
【図3】実施例1の音声認識処理手順(その2)を示すフローチャートである。
【図4】実施例2にかかる音声認識装置の構成を示す機能ブロック図である。
【図5】実施例2の音声認識処理手順を示すフローチャートである。
【図6】実施例3にかかる音声認識装置の構成を示す機能ブロック図である。
【図7】語彙カテゴリ分類テーブルの例を示す図である。
【図8】実施例3の音声認識処理手順(その1)を示すフローチャートである。
【図9】実施例3の音声認識処理手順(その2)を示すフローチャートである。
【符号の説明】
【0080】
1 車両
10a 音声認識装置
10b 音声認識装置
10c 音声認識装置
11a 表示部
11b 音声発生部
12 記憶部
12a キーワード辞書
12b 音声認識辞書
12c 開始キーワード辞書
12d 終了キーワード辞書
12e 語彙カテゴリ分類テーブル
12f 認識語彙格納バッファ
13 制御部
13a 音声認識処理部
13b 音声認識処理結果判定処理部
13c コマンド変換出力処理部
14 マイク
20 カーナビゲーション装置

【特許請求の範囲】
【請求項1】
車両の搭乗者によって発話された発話語彙を音声認識する音声認識手段と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換手段とを有する音声認識装置であって、
前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定手段をさらに有し、
前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする音声認識装置。
【請求項2】
前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が特定語彙であると前記音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が特定語彙であると前記音声認識結果判定手段により判定された場合に、該特定語彙以前に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項1に記載の音声認識装置。
【請求項4】
前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が第1の特定語彙であると前記音声認識結果判定手段により判定された場合に、該第1の特定語彙より後に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを開始し、前記音声認識手段によって該第1の特定語彙以降に音声認識された発話語彙が第2の特定語彙であると前記音声認識結果判定手段により判定された場合に、該第2の特定語彙以降に音声認識した発話語彙を音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを終了すことを特徴とする請求項1に記載の音声認識装置。
【請求項5】
前記音声認識手段によって音声認識された発話語彙を所定数だけバッファリングするバッファリング手段と、
前記発話語彙に、該発話語彙が属するカテゴリを対応付けて記憶する語彙カテゴリ記憶手段と
をさらに有し、
前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のカテゴリに基づいて、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項1に記載の音声認識装置。
【請求項6】
前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合に、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項5に記載の音声認識装置。
【請求項7】
前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルすることを特徴とする請求項6に記載の音声認識装置。
【請求項8】
前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合に、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項5に記載の音声認識装置。
【請求項9】
前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルすることを特徴とする請求項8に記載の音声認識装置。
【請求項10】
車両の搭乗者によって発話された発話語彙を音声認識する音声認識工程と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換工程とを含む音声認識方法であって、
前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定工程をさらに含み、
前記音声認識工程は、前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定工程により判定された場合にのみ、該音声認識した発話語彙を前記コマンド変換肯定へと受け渡すことを特徴とする音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2008−309864(P2008−309864A)
【公開日】平成20年12月25日(2008.12.25)
【国際特許分類】
【出願番号】特願2007−155212(P2007−155212)
【出願日】平成19年6月12日(2007.6.12)
【出願人】(000237592)富士通テン株式会社 (3,383)
【Fターム(参考)】