説明

音声認識装置及び車載システム

【課題】 音声認識装置の作動制御が破綻してしまうことを抑制する。
【解決手段】 ユーザが触れて操作するトークスイッチの操作回数(クリック回数c)に基づいて音声認識エンジンが参照すべき認識辞書を選択する。これにより、音声の誤認識に起因して参照すべき認識辞書の選択ミスが発生することはないので、音声認識装置の作動制御が破綻してしまうことを抑制することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置及びこれを用いた車載システムに関するものである。
【背景技術】
【0002】
音声認識装置は、例えば、ユーザから発せられた音声に基づいて生成された発話音声データと音声認識用辞書に既に登録されている登録音声データとを照合することにより、当該音声を認識するものである(例えば、特許文献1参照)。
【0003】
しかし、1つの音声認識用辞書に登録されている登録音声データ(認識語彙)が過度に多いと、照合に時間を要するとともに誤認識の発生確率が大きくなるので、通常、認識対象となる音声(発話)に対応した複数の音声認識用辞書を事前に準備し、ユーザから発せられた音声を認識して、上記複数の音声認識用辞書の中から参照すべき音声認識用辞書を自動的に選択している。
【0004】
つまり、1つの音声認識用辞書に認識対象となる全ての認識語彙を登録するのではなく、音声が意味する情報(内容)に応じて認識語彙を分類して複数の音声認識用辞書を作成し、ユーザから発せられた音声を認識して、参照すべき音声認識用辞書を自動的に選択することにより、1つの音声認識用辞書に登録されている認識語彙が過度に多くなることを抑制して照合時間の短縮を図りながら誤認識の発生を抑制している。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】国際公開第2008/149482号
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、上記の音声認識装置では、ユーザから発せられた音声を認識して参照すべき音声認識用辞書を自動的に選択しているので、参照すべき音声認識用辞書を選択する際に音声を誤認識してしまうと、その時点で正確な音声認識を行うことは不可能となり、音声認識装置の作動制御が破綻してしまう。
【0007】
本発明は、上記点に鑑み、音声認識装置の作動制御が破綻してしまうことを抑制することを目的とする。
【課題を解決するための手段】
【0008】
本発明は、上記目的を達成するために、請求項1に記載の発明では、ユーザから発せられた音声に基づいて生成された発話音声データと音声認識用辞書に既に登録されている登録音声データとを照合することにより、当該音声を認識する音声認識装置であって、発話音声データを生成する音声データ生成手段(5、7)と、ユーザが触れて操作することにより、音声データ生成手段(5、7)を作動可能状態とするトークスイッチ(13)と、発話音声データと登録音声データとを照合する音声認識手段(7)と、音声認識手段(7)による参照を可能とした状態で複数の音声認識用辞書を保持するワークメモリ(9)と、トークスイッチ(13)の操作量又は操作回数に基づいて音声認識手段(7)が参照すべき音声認識用辞書を選択する辞書選択手段(S33)とを備えることを特徴とする。
【0009】
これにより、請求項1に記載の発明では、ユーザが触れて操作するトークスイッチ(13)の操作量又は操作回数に基づいて音声認識手段(7)が参照すべき音声認識用辞書が選択されるので、音声の誤認識に起因して参照すべき音声認識用辞書の選択ミスが発生することはない。したがって、音声認識装置の作動制御が破綻してしまうことを抑制することができる。
【0010】
ところで、請求項2に記載の発明のごとく、各音声認識用辞書が階層木構造にて連関して場合においては、上位の階層に属するノードから順に下位の階層に属するノードに遷移しながら参照すべき音声認識用辞書が切り替えられていくので、同一程度の深度を有する階層であって他のノードに遷移するには、一旦、上位の階層に属するノードまで遡る必要がある。
【0011】
このため、上記した通常の音声認識装置では、一旦、上位の階層に属するノードまで遡った後、再び、他のノードに向けて階層を掘り下げる必要があるので、階層を遷移させるためのコマンド(命令)を発話する回数が多くなり、使い勝手が著しく悪いという問題がある。
【0012】
これに対して、請求項2に記載の発明では、辞書選択手段(S33)は、トークスイッチ(13)の操作量又は操作回数に基づいて、現在の階層より上位の階層に属する音声認識用辞書を音声認識手段(7)が参照すべき音声認識用辞書として選択することを特徴としているので、トークスイッチ(13)の操作量又は操作回数に基づいて所望の階層のノードに容易に遡ることができる。したがって、使い勝手を向上させることができる。
【0013】
なお、請求項3に記載の発明では、請求項1又は2に記載の音声認識装置(3)と、音声認識装置(3)により認識された音声に対応する命令を受けて作動可能な車載機器(1)とを備えることを特徴とするものである。
【0014】
因みに、上記各手段等の括弧内の符号は、後述する実施形態に記載の具体的手段等との対応関係を示す一例であり、本発明は上記各手段等の括弧内の符号に示された具体的手段等に限定されるものではない。
【図面の簡単な説明】
【0015】
【図1】本発明の実施形態に係る車載システムのブロック図である。
【図2】(a)は音声認識辞書の構成を示す図であり、(b)は音声認識辞書の概要を示す図である。
【図3】本発明の実施形態に係るユーザインタフェース装置3の作動を示すフローチャートである。
【発明を実施するための形態】
【0016】
本実施形態は、本発明に係る音声認識装置を車両用空調装置等の車載機器からなる車載システムのユーザインタフェース装置に適用したものであり、以下に本発明の実施形態を図面と共に説明する。
【0017】
なお、音声認識装置を用いたユーザインタフェース装置とは、ユーザから発せられた音声により車載機器の操作命令(コマンド)を受け付け、その操作命令を示す信号を車載機器に送信する装置である。
【0018】
そして、音声認識装置をユーザインタフェース装置に組み込むことにより、機械的なスイッチやタッチパネルを用いた擬似的なスイッチ等を用いた操作パネルを廃止することが可能となる。
【0019】
1.車載システムの概要(図1参照)
車両に搭載された車両用空調装置やカーナビゲーションシステム等の各車載機器1は、図1に示すように、音声認識機能を有するユーザインタフェース装置3を介してユーザからの操作命令を受け付け、その操作命令を示す信号を該当する車載機器1に送信する。
【0020】
因みに、本実施形態に係るユーザインタフェース装置3は、音声認識機能に加えて、機械的なスイッチ等からなる操作パネルも有しているが、本願発明の要旨ではないので、図1では省略されている。
【0021】
制御部5は、ユーザインタフェース装置3に組み込まれた各機器を統合的に制御する制御手段であり、この制御部5に設けられた記憶部(ROM)に、後述する音声認識処理フロー(図3参照)を実行するためのプログラム等が格納(保存)されている。
【0022】
音声認識エンジン7は、発話音声データと登録音声データとを照合することにより、ユーザから発せられた音声により操作命令を認識する音声認識手段である。
なお、ユーザから発せられた音声は、音声入力装置であるマイクロフォン7A(図1では「マイク」と表記)を介して音声認識エンジン7に入力され、音声認識エンジン7は、制御部5と協働して入力された音声を音声認識エンジン7にて解析可能な発話音声データに変換する。
【0023】
ワークメモリ9は、音声認識エンジン7よる参照を可能とした状態で複数の音声認識用辞書を保持する記憶手段であり、このワークメモリ9は、本実施形態では、ユーザインタフェース装置3を起動させるメインスイッチ(図1では「メインSW」と表記)3Aが投入されているときに限り、情報を記憶・保持することができる揮発性記憶手段により構成されている。
【0024】
ところで、音声認識用辞書は、各車載機器1についての操作命令に対応する音声データの集合体であり、音声認識用辞書は車載機器1毎に準備されている。そして、音声認識用辞書に登録されている音声データを登録音声データという。
【0025】
また、音声認識用辞書は、図2(a)及び図2(b)に示すように、ノードA〜F毎に準備されており、各音声認識用辞書(以下、認識辞書と略す。)は階層木構造にて連関している(図2(a)参照)。
【0026】
具体的には、最上位階層のノードA用の認識辞書には、ユーザインタフェース装置3からの操作命令を受け付けることが可能な複数の車載機器1の中から操作対象とする車載機器1を音声認識により特定(選択)するための音声データが登録されている。
【0027】
また、中間階層のノードB用の認識辞書には、最上位階層(ノードA用)の認識辞書を参照することにより選択された車載機器1についての具体的な操作命令を音声認識するための音声データが登録されている。
【0028】
同様に、最下位階層のノードD用の認識辞書には、中間階層(ノードB用)の認識辞書を参照することにより選択された操作命令についての具体的な選択枝を音声認識するための音声データが登録されている。
【0029】
すなわち、ユーザインタフェース装置3からの操作命令を受け付けることが可能な車載機器が、例えば「空調装置」及び「カーナビゲーションシステム」である場合においては、最上位階層のノードA用の認識辞書には、ユーザから発せられた音声が、「空調装置」及び「カーナビゲーションシステム」のうちいずれの車載機器であるかを音声認識するための音声データが登録されている。
【0030】
そして、最上位階層のノードAにより、例えば「空調装置」が選択されたと音声認識された場合において、空調装置についての具体的な操作命令として、「風量」及び「室内設定温度」が設定可能であるときには、中間階層のノードB用の認識辞書には、ユーザから発せられた音声が、「風量」及び「室内設定温度」のうちいずれの操作命令であるかを音声認識するための音声データが登録されている。
【0031】
また、中間階層のノードBにより、例えば「風量」が選択されたと音声認識された場合において、操作命令についての具体的な選択枝として、「3」、「2」及び「1」が設定可能であるときには、最下位階層のノードD用の認識辞書には、ユーザから発せられた音声が、「3」、「2」及び「1」のうちいずれの選択枝であるかを音声認識するための音声データが登録されている。
【0032】
また、辞書保持メモリ11は、図1に示すように、メインスイッチ3Aの状態によらず、音声認識エンジン7が参照可能な認識辞書の全てを記憶・保持する記憶手段であり、この辞書保持メモリ11は、メインスイッチ3Aが遮断されたときであっても認識辞書を記憶することが可能な不揮発性記憶手段にて構成されている。
【0033】
なお、認識辞書の更新(登録音声データの変更・追加・削除)及び認識辞書の追加・削除等の操作は、辞書保持メモリ11に記憶されている認識辞書に対して実行される。
つまり、メインスイッチ3Aが投入され、ユーザインタフェース装置3が起動されると、後述するように、辞書保持メモリ11からワークメモリ9に認識辞書が読み込まれるが、認識辞書の更新等は、辞書保持メモリ11に記憶されている認識辞書に対して実行される。
【0034】
また、トークスイッチ13は、マイクロフォン7Aを介して入力された音声を発話音声データに変換可能な状態とするか否かを選択するためのスイッチ手段であり、このトークスイッチ13は、ユーザが触れることにより操作されるものである。
【0035】
なお、本実施形態に係るトークスイッチ13は、機械的なスイッチやタッチパネルを用いた擬似的なスイッチ等にて構成されており、ユーザにより押圧操作(クリック)されると、その押圧操作回数が計数されて制御部5に出力される。
【0036】
また、トークスイッチ13が1回以上押圧操作されると、ユーザインタフェース装置3は、入力された音声を発話音声データに変換可能な状態となった後、音声が入力されない状態が所定時間(例えば、1.5秒)以上継続すると、自動的に変換不可状態となる。
【0037】
また、ディスプレイ15は、トークスイッチ13の状態(ON又はOFF)、ユーザにより選択可能な操作命令、及びユーザインタフェース装置3(音声認識エンジン7)により認識された操作命令等の情報を表示する表示器である。
【0038】
なお、本実施形態では、ユーザインタフェース装置3(音声認識エンジン7)により認識された操作命令(認識結果)は、ディスプレイ15に表示されるとともに、ディスプレイ15に内蔵されたスピーカから音声にて出力される。
【0039】
2.音声認識処理フロー(図3参照)
音声認識処理フロー(以下、本制御という。)は、メインスイッチ3Aが投入されると、ROMから読み込まれて制御部5で起動・実行され、メインスイッチ3Aが遮断されると、その時点で停止する。
【0040】
なお、本実施形態では、メインスイッチ3Aは、イグニッションスイッチ等の車両スイッチ(図示せず。)に連動しており、車両スイッチが投入されると自動的に投入(ON)状態となり、車両スイッチが遮断されると自動的に遮断(OFF)状態となる。
【0041】
因みに、車両スイッチは、車両に搭載された燃料噴射装置等の各電装部品への電力供給を許可するためのスイッチであり、通常、車両スイッチが投入されると、エンジンや電動モータ等の駆動源が稼働可能な状態となる。
【0042】
そして、メインスイッチ3Aが投入されて図3に示す本制御が起動されると、先ず、辞書保持メモリ11に記憶されている認識辞書の全てがワークメモリ9に読み込まれ(S1)、本制御の作動中は、読み込まれた認識辞書は常に音声認識エンジン7による参照を可能とした状態でワークメモリ9に保持される。
【0043】
次に、現在の階層レベル番号nとして1が代入された後(S3)、現在のノード(階層木構造の節)が設定される(S5)。なお、本実施形態では、階層レベル番号nが1のときには、ノードが1つであるため(図2(a)参照)、ノードAが現在のノードとして設定される。
【0044】
そして、現在のノードが設定されると(S5)、ワークメモリ9に常駐する認識辞書のうち現在のノードに対応する認識辞書が、音声認識対象つまり参照すべき認識辞書として選択設定されるとともに(S7)、トークスイッチ13がユーザの操作を待ち受ける待機状態となる。つまり、例えば、現在のノードがAであるときには、ノードA用の認識辞書が参照すべき認識辞書として選択設定された状態で、トークスイッチ13が入力待機状態となる。
【0045】
このとき、トークスイッチ13が押圧操作(クリック)され、その押圧操作回数(クリック回数c)が1である場合には(S11:c=1)、現在のノード用に選択設定された認識辞書を参照すべき認識辞書として、ユーザが発した音声に基づいて発話音声データが生成された後(S13)、音声認識エンジン7にて発話音声データと登録音声データとが照合されて音声認識処理が実行される(S15)。
【0046】
なお、S13及びS15で実行される処理は、例えば特開2007−286136号公報、特開2005−208798号公報又はWO2008/149482等と同様であるので、その詳細説明は省略する。
【0047】
そして、S15にて認識された音声(発話)内容に対応する遷移先ノードが、現在の階層レベルより1つ下位の階層レベルに存在するか否かが判定される(S17)。つまり、現在のノードにおいて設定されている複数の選択枝のうち、S15にて音声認識された選択枝について、更に下位の階層レベルにノードが存在するか否かが判定される。
【0048】
具体的には、現在のノードが、例えばノードAである場合には、現在のノードAにおいて設定されている複数の選択枝B、Cのうちいずれが選択されても、更に下位の階層レベルにノードB、Cが存在するので、このような場合には、遷移先ノードが存在すると判定される。一方、現在のノードが、例えばノードDである場合には、更に下位の階層レベルが存在しないので、このような場合には、遷移先ノードが存在しないと判定される。
【0049】
そして、S17にて遷移先ノードが存在しないと判定された場合には(S17:NO)、S15にて音声認識された操作命令(コマンド)に対応する操作指令信号が車載機器制御インターフェース部1A(図1参照)を介して車載機器1に発信された後(S19)、再び、S9が実行される。これにより、操作命令を受信した車載機器1は、その音声による操作命令に対応する処理を実行する。
【0050】
一方、S17にて遷移先ノードが存在すると判定された場合には(S17:YES)、階層レベル番号nに1が加算されるとともに(S21)、S15にて認識された内容(遷移先ノード)が現在のノードとして設定された後(S23)、再び、S7が実行される。これにより、現在のノードが1つ下位の階層レベルに遷移することとなる。
【0051】
また、トークスイッチ13が押圧操作(クリック)され、その押圧操作回数(クリック回数c)が1より大きい場合には(S11:c>1)、階層レベル番号nからクリック回数cを減算した値に1を加算した値(=n−c+1)、つまり「n−(c−1)」の値(以下、遡及後階層レベル番号という。)が正であるか否かが判定される(S25)。
【0052】
そして、遡及後階層レベル番号が正であると判定された場合には(S25:YES)、階層レベル番号nの値が遡及後階層レベル番号と同一の値に設定され(S27)、一方、遡及後階層レベル番号が0以下であると判定された場合には(S25:NO)、階層レベル番号nの値が1に設定される(S29)。
【0053】
このとき、S27又はS29にて設定された階層レベル番号nに対応する階層レベル(以下、遡及後階層レベルという。)は、現在のノードが位置する階層レベルより必ず上位の階層レベルとなるので、現在のノードから遡及後階層レベルまで階層木構造に沿って順に階層レベルを遡ると、特定のノードが一義的に決定される。
【0054】
そこで、遡及後階層レベルが設定されると(S27又はS29)、その遡及後階層レベルに存在するノードであって、現在のノードから遡及後階層レベルまで遡ることによって一義的に決定されるノードが新たに現在のノードとして設定されるとともに(S31)、ワークメモリ9に常駐する認識辞書のうちS31にて設定されたノードに対応する認識辞書が音声認識対象として選択設定された後(S33)、S13が実行される。
【0055】
3.本実施形態に係る車載システムの特徴
本実施形態では、S11、S25〜S33に示されるように、ユーザが触れて操作するトークスイッチ13の操作回数(クリック回数c)に基づいて音声認識エンジン7が参照すべき認識辞書を選択するので、音声の誤認識に起因して参照すべき認識辞書の選択ミスが発生することはない。したがって、音声認識装置の作動制御が破綻してしまうことを抑制することができる。
【0056】
また、ユーザインタフェース装置3が起動されると、利用可能な認識辞書の全てが音声認識エンジン7にて参照可能な状態でワークメモリ9に保持されるので、参照すべき認識辞書を選択すると同時に速やかに、その認識辞書に登録されている登録音声データを参照・照合することができる。
【0057】
つまり仮に、認識辞書がワークメモリ9に読み込まれることなく、辞書保持メモリ11に記憶された状態で参照すべき認識辞書が選択された後、その選択された認識辞書がワークメモリ9に読み込まれて照合が実行される構成であると、参照すべき認識辞書の選択と同時に速やかに照合を開始することができない。したがって、本実施形態では、音声認識のための照合を速やかに実行することができる。
【0058】
ところで、本実施形態のごとく、各認識辞書が階層木構造にて連関して場合においては、上位の階層に属するノードから順に下位の階層に属するノードに遷移しながら参照すべき認識辞書が切り替えられていくので、同一程度の深度を有する階層であって他のノードに遷移するには、一旦、上位の階層に属するノードまで遡る必要がある。
【0059】
つまり、現在のノードが階層レベル番号3に存在するノードDであるときに、同一の階層レベル番号3に存在するノードFに遷移したい場合には、一旦、上記の階層レベルである階層レベル番号1に存在するノードAまで遡った後、順次、下位の階層レベルまで遷移する必要がある(図2(a)参照)。
【0060】
このため、一旦、上位の階層に属するノードまで遡った後、再び、他のノードに向けて階層を掘り下げる必要があるので、階層を遷移させるための操作命令を発話する回数が多くなり、使い勝手が著しく悪いという問題がある。
【0061】
これに対して、本実施形態では、S25〜S33に示されるように、トークスイッチ13の操作回数に基づいて、現在の階層より上位の階層に属する認識辞書を音声認識エンジン7が参照すべき認識辞書として選択するので、トークスイッチ13のクリック回数cに基づいて所望の階層のノードに容易に遡ることができる。したがって、使い勝手を向上させることができる。
【0062】
ところで、本実施形態では、トークスイッチ13の操作を起因(トリガー)として現在のノードが存在する階層レベルより上位の階層レベルに遡ることを特徴の1つとしているが、階層レベル(ノード)を遷移させる専用のスイッチ(例えば、階層レベル遡りスイッチ)を設ける手段も考えることができる。
【0063】
しかし、専用のスイッチを設けると、部品点数の増加を招いてしまうが、本実施形態では、音声認識装置の必須の構成要素であるトークスイッチ13に階層レベルを遷移させる機能を付加しているので、部品点数の増加を招くことなく、音声認識装置の作動制御が破綻してしまうことを抑制することができる。
【0064】
4.発明特定事項と実施形態との対応関係
本実施形態では、制御部5及び音声認識エンジン7等により特許請求の範囲に記載された音声データ生成手が構成され、S33が特許請求の範囲に記載された辞書選択手段に相当する。
【0065】
(その他の実施形態)
上述の実施形態では、トークスイッチ13の操作回数(クリック回数c)に基づいて音声認識エンジン7が参照すべき認識辞書を選択したが、本発明はこれに限定されるものはなく、トークスイッチ13の操作量に基づいて音声認識エンジン7が参照すべき認識辞書を選択してもよい。
【0066】
なお、トークスイッチ13の操作量とは、例えばトークスイッチ13を押圧している時間やトークスイッチ13の移動量等のトークスイッチ13の操作に起因して連続して変化する量をいう。
【0067】
また、上述の実施形態では、複数の音声認識用辞書それぞれが階層木構造にて連関していたが、本発明はこれに限定されるものではなく、例えば、複数の音声認識用辞書それぞれが同一の階層レベル、つまり並列的に連関していてもよい。
【0068】
また、上述の実施形態では、ワークメモリ9に全ての認識辞書が参照可能な状態で保持されていたが、本発明はこれに限定されるものではなく、例えば、現在のノードが存在する階層レベルの認識辞書、及び現在のノードが存在する階層レベルより上位の階層レベルの認識辞書のみをワークメモリ9にて参照可能な状態で保持してもよい。
【0069】
また、上述の実施形態では、本発明に係る音声認識装置を車載システムに適用したが、本発明はこれに限定されるものではなく、例えば家電製品の音声操作システム等にも適用することができる。
【0070】
また、本発明は、特許請求の範囲に記載された発明の趣旨に合致するものであればよく、上述の実施形態に限定されるものではない。
【符号の説明】
【0071】
1…階層レベル番号、1…車載機器、3…ユーザインタフェース装置、
3A…メインスイッチ、5…制御部、7…音声認識エンジン、
7A…マイクロフォン、9…ワークメモリ、11…辞書保持メモリ、
13…トークスイッチ、15…ディスプレイ。

【特許請求の範囲】
【請求項1】
ユーザから発せられた音声に基づいて生成された発話音声データと音声認識用辞書に既に登録されている登録音声データとを照合することにより、当該音声を認識する音声認識装置であって、
前記発話音声データを生成する音声データ生成手段と、
ユーザが触れて操作することにより、前記音声データ生成手段を作動可能状態とするトークスイッチと、
前記発話音声データと前記登録音声データとを照合する音声認識手段と、
前記音声認識手段による参照を可能とした状態で複数の前記音声認識用辞書を保持するワークメモリと、
前記トークスイッチの操作量又は操作回数に基づいて前記音声認識手段が参照すべき前記音声認識用辞書を選択する辞書選択手段と
を備えることを特徴とする音声認識装置。
【請求項2】
前記複数の音声認識用辞書それぞれは階層木構造にて連関しており、
前記辞書選択手段は、前記トークスイッチの操作量又は操作回数に基づいて、現在の階層より上位の階層に属する前記音声認識用辞書を前記音声認識手段が参照すべき音声認識用辞書として選択することを特徴とする請求項1に記載の音声認識装置。
【請求項3】
請求項1又は2に記載の音声認識装置と、
前記音声認識装置により認識された音声に対応する命令を受けて作動可能な車載機器と
を備えることを特徴とする車載システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−128239(P2012−128239A)
【公開日】平成24年7月5日(2012.7.5)
【国際特許分類】
【出願番号】特願2010−280387(P2010−280387)
【出願日】平成22年12月16日(2010.12.16)
【出願人】(000004260)株式会社デンソー (27,639)
【Fターム(参考)】