説明

音声認識装置及びそれを用いたナビゲーション装置、音声認証装置、方法及びプログラム

【課題】車載機器の指示入力等に用いる音声認識の技術において、操作性と認識率を改善し、あわせて運転の安全性も向上すること。
【解決手段】辞書限定部14の受付部がタッチパッド部6で入力を受け付け、判定部が、操作パタン記憶部12を参照することにより、前記受付部の受け付けた入力の該当する操作パタンを判定し、その操作パタンに対応する前記操作階層を特定する。限定部が、関連記憶部13に記憶された属性又はインデックスを参照することにより、前記判定部の特定した操作階層に関連付けられた各特徴データを、入力音声との照合対象範囲として限定する。音声認識部15は、マイク部7を含む前記音声入力部が入力を受け付けた入力音声を、前記照合対象範囲の各特徴データと照合することにより、発話された単語を認識する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、車載機器の指示入力等に用いる音声認識技術の改良に関する。
【背景技術】
【0002】
近年、ナビゲーション装置など各種電子機器の普及に伴って、キーボード等での文字入力や各種操作を簡易化したり、操作部を見ずに操作できるようにする等の目的で、音声認識の技術を利用する機器も増えている。
【0003】
ところで、音声認識では、発話された音声の特徴を、候補となる各単語の特徴を表す特徴データの集合である辞書データと照合して最も一致する単語を特定するため、同じ場面で使える単語の候補数が多いほど認識精度が低下し、誤認識により正しい操作が困難という問題があった。
【0004】
特に、静かな室内での音声認識と比べて、ナビゲーション装置のような車載機器など屋外での音声認識においては、外来の騒音等による影響が大きいので、認識精度向上のため、メニューの階層ごとに照合対象とする辞書を制限する工夫も存在する。
【0005】
しかし、この場合も、所定の動作を音声認識により操作するには、各階層ごとにその場面で使える単語を発話して音声認識動作を行う必要があり、深い階層にある操作項目に辿り着くにはそのような手順を何度も繰り返さねばならず煩雑という問題があった。
【0006】
例えば、地図表示画面(例えば図3)から住所検索を行うには、まず「目的地」と発話して、検索方法選択用の目的地メニュー画面を呼び出し(図4)、この画面でさらに「住所」と発話して、住所選択用の住所検索画面を呼び出し(図5)、「千葉県」と発話して千葉県内の市区町村選択の画面(図7)へ移行する、といった具合であった。
【特許文献1】特開2001−159896
【発明の開示】
【発明が解決しようとする課題】
【0007】
また、携帯電話などにおいて、認識しようとする語彙をキー入力操作で限定することにより、音声認識の精度を改善する提案もあるが(例えば特許文献1)、多数の中から特定のキーを操作するには、結局、操作部の注視を要し煩雑という問題があった。
【0008】
本発明は、上記の課題を解決するもので、その目的は、車載機器の指示入力等に用いる音声認識の技術において、操作性と認識率を改善し、あわせて運転の安全性も向上することである。
【課題を解決するための手段】
【0009】
上記の目的を達成するため、請求項1の音声認識装置は、発話した音声を取得する音声取得手段と、音声以外の第2の方法で入力した内容を取得する第2入力取得手段と、前記音声取得手段で取得した音声を識別する音声識別手段と、階層毎に音声と命令とを対応づけて記憶している音声認識辞書記憶手段と、前記第2入力取得手段で取得した内容により前記音声認識辞書記憶手段に記憶されている階層を識別する階層識別手段と、前記音声識別手段で識別された音声の命令を前記階層識別手段で識別された階層から検索する命令内容検索手段と、から構成されることを特徴とした。
【0010】
請求項2の発明は、請求項1に記載の音声認識装置において、前記第2入力取得手段は、所定部分をなぞり、なぞった軌跡から入力した内容を認識することを特徴とした。
【0011】
請求項3の発明は、請求項1又は2のいずれかに記載の音声認識装置において、前記第2入力取得手段は、音声認識装置とは別体に構成したことを特徴とする。
【0012】
請求項4のナビゲーション装置は、道路地図データの記憶手段と、自車位置の検出手段と、を備え、請求項1から3のいずれか一項に記載の音声認識装置を命令の入力に用い、前記音声認識装置から入力される命令に従って、前記記憶手段に記憶されている道路地図データと、前記検出手段で検出する自車位置と、に基いて、経路の計算、地図表示及び誘導案内を行うナビゲーション手段を備えたことを特徴とする。
【0013】
請求項5の発明は、音声入力手段と、タッチパッド入力部と、を有する音声認識装置において、各操作階層で認識可能な語彙を選別する為の情報を付与した辞書データと、前記タッチパッドの特徴を活かした入力により指定される操作階層に対応する語彙を、照合対象範囲として前記辞書データから検索し限定する辞書限定手段と、前記タッチパッドでの前記入力を発話のトリガーとして、限定された前記照合対象範囲との照合により音声を認識する音声認識手段と、を備えたことを特徴とする。
【0014】
請求項6の発明は、車両に搭載して音声を認識する音声認識装置において、音声の入力を受け付ける音声入力部と、車両のステアリング又はその近傍に設置したタッチパッドと、コンピュータの演算制御部と、を備え、前記演算制御部が、辞書データ記憶部と、操作パタン記憶部と、関連記憶部と、辞書限定手段と、音声認識手段と、を実現し、前記辞書データ記憶部は、単語ごとの特徴データを含む辞書データを予め記憶し、前記操作パタン記憶部は、前記タッチパッドでの各操作パタンと、階層的な操作メニューの各操作階層と、を対応付けて記憶し、前記関連記憶部は、前記操作メニューの前記各操作階層と、前記辞書データ中の一以上の特徴データと、を関連付ける属性又はインデックスを記憶し、前記辞書限定手段は、前記タッチパッドで入力を受け付ける受付部と、前記操作パタン記憶部を参照することにより、前記受付部の受け付けた入力の該当する操作パタンを判定し、その操作パタンに対応する前記操作階層を特定する判定部と、前記関連記憶部に記憶された属性又はインデックスを参照することにより、前記判定部の特定した操作階層に関連付けられた各特徴データを、入力音声との照合対象範囲として限定する限定部と、を備え、前記音声認識手段は、前記音声入力部が入力を受け付けた入力音声を、前記照合対象範囲の各特徴データと照合することにより、発話された単語を認識することを特徴とする。
【0015】
このように、走行中でも運転者が表示部や操作部に視線をそらすことなく、タッチパッド操作により手指の感覚と動作のみで操作階層を指定し、辞書データ中で照合対象とする認識語彙の範囲限定を可能とすることにより、運転の安全性が改善し、複雑な操作も簡便化できて操作性が向上し、認識率も改善できる。また、タッチパッド操作を契機に発話を開始することにより認識用の入力音声の頭切れが防止できる。
【0016】
請求項7の発明は、請求項6記載の音声認識装置において、前記辞書データ記憶部と前記関連記憶部とを一体とし、前記属性又はインデックスは、いずれかの前記操作階層を指すポインタとして個々の特徴データと共に、又は、いずれかの前記特徴データを指すポインタとして個々の操作階層における各分岐選択肢を表すメニュー情報と共に、構成したことを特徴とする。
【0017】
このように、関連付け用の属性やインデックスを辞書データ又はメニュー情報の側に一体化することにより、データ構造が単純化しデータ領域が節約される。
【0018】
請求項8の発明は、請求項6又は7記載の音声認識装置において、前記コンピュータの外部記憶装置上に前記辞書データ記憶部を構成し、前記辞書限定手段は、前記照合対象範囲の各特徴データを前記辞書データ記憶部から抽出し、前記コンピュータの主メモリ上に一時的に複製して前記音声認識手段の参照に供することを特徴とする。
【0019】
このように、入力音声と照合すべき語彙範囲の特徴データを、外部記憶上の辞書データから抽出し一時的に主メモリにコピーして用いることにより、外部記憶へのアクセスが減って性能が改善し、照合も高速化し、主メモリの利用効率も改善される。
【0020】
請求項9の発明は、請求項5から8のいずれか一項に記載の音声認識装置において、前記辞書限定手段は、前記タッチパッドの特徴を生かした各種操作を組み合わせることにより、複数階層に構成された操作メニューの任意の階層に対する直接の指定を受け付けるように構成されたことを特徴とする。
【0021】
請求項10の発明は、請求項5から9のいずれか一項に記載の音声認識装置において、前記操作パタンとして、指で特定の文字や記号等の図形パターンをなぞることによる指定操作と、タッチパッドの操作面内の押す位置による指定操作と、タッチパッドを触れるリズムなど時間的タイミングでの指定操作と、タッチパッドを触れる力の強弱による指定操作と、の少なくともいずれか一種以上を複数組み合わせた操作パタンと、各操作パタンに対応し、操作メニューの多重の階層構造を構成する各操作階層と、を対応付けて前記パタン記憶部に記憶し、前記辞書限定手段の前記判定部は、前記パタン記憶部を参照することにより、前記複数組み合わせた操作パタンを構成する各指定操作を所定の時間内で連続して受け付けたときに、対応する前記操作階層を特定するように構成されたことを特徴とする。
【0022】
このように、多重の階層構造をなす操作メニューの深い階層についても、従来のように階層を辿っての多くの入力回数を要さずまた視認性を損なう事無く、複数操作の組合せにより直接的に指定可能とし、その後の発話による音声認識と組み合わせる事により、操作手順を大幅に簡略化し操作性を効果的に向上可能となる。
【0023】
請求項11の発明は、請求項5から10のいずれか一項に記載の音声認識装置において、前記タッチパッドでの操作により音声認識用の前記辞書データを限定するための前記各操作パタンについて、登録、編集又は削除するための編集手段を備えたことを特徴とする。
【0024】
請求項12の発明は、請求項5から11のいずれか一項に記載の音声認識装置において、前記操作パタン記憶部を参照及び更新書込みすることにより、前記タッチパッドでの各操作パタンと、操作メニューで対応する操作階層と、の少なくとも一方について、新規登録、編集又は削除の少なくともいずれかを受け付ける、編集手段を前記演算制御部が実現することを特徴とする。
【0025】
このように、認識する語彙を限定する操作等を編集可能とすることにより、個別具体的なユーザの好みなどの事情に合わせて優れた使い勝手や満足感が実現可能となる。
【0026】
請求項13の発明は、音声入力手段と、タッチパッド入力部と、を有する音声認証装置において、前記タッチパッド入力部での各種操作と、その後の発話による音声認識と、の組み合わせによりユーザ認証を行う認証手段を備えたことを特徴とする。
【0027】
請求項14の発明は、音声の入力を受け付ける音声入力部と、平面状のセンサ面への接触を検出するタッチパッドと、コンピュータの演算制御部と、を備え、音声を認識することによって認証を行う音声認証装置において、前記演算制御部が、認証データ記憶部と、操作認証手段と、音声認識手段と、を実現し、前記認証データ記憶部は、前記タッチパッドで入力されるべき真正な操作パタンと、前記音声入力部で入力されるべき真正な単語の特徴データと、を記憶し、前記操作認証手段は、前記タッチパッドで入力を受け付ける受付部と、前記認証データ記憶部を参照することにより、前記受付部の受け付けた入力が前記真正な操作パタンと一致するか否かを判定し、一致すれば第一認証OKの判定を行う判定部と、を備え、前記音声認識手段は、前記操作認証手段により前記第一認証OKの場合に、前記音声入力部が入力を受け付けた入力音声を、前記認証データ記憶部に記憶された真正な特徴データと照合することにより、発話された単語を認識したときに認証OKと判断することを特徴とする。
【0028】
このように、タッチパッドで特定の操作を行い、その後、音声認識により特定の発話を認識させる組合せにより、簡単かつ効果的に、ユーザ認証や、個人情報保護の設定や解除などの手段とすることが可能となる。
【0029】
なお、方法及びプログラムについても同様である。
【発明を実施するための最良の形態】
【0030】
次に、本発明を実施するための最良の実施形態について、図を参照して説明する。なお、背景技術や課題を含め、ここまでに既に述べた事柄と共通の前提は繰り返さない。
【0031】
〔1.構成〕
本実施形態は、車両に搭載して音声を認識する本発明の音声認識装置の機能を備えた情報処理装置(以下「本装置」と呼ぶ)で、方法及びプログラムとしても把握できる。
【0032】
〔1−1.構成の概要〕
概要としては、本装置は、音声入力手段(音声取得手段)と、タッチパッド入力部(第2入力取得手段)と、各操作階層で認識可能な語彙を選別する為の情報を付与した辞書データと、前記タッチパッドの特徴を活かした入力により指定される操作階層に対応する語彙を、照合対象範囲として前記辞書データから検索し限定する辞書限定手段と、前記タッチパッドでの前記入力を発話のトリガーとして、限定された前記照合対象範囲との照合により音声を認識する音声認識手段(音声識別手段)と、を備える。
【0033】
〔1−2.具体的な構成〕
本装置のより具体的な構成を図1に示す。すなわち、本装置は、この図に示すように、主制御装置1と、主メモリ2と、外部記憶装置3と、画像描画制御部4と、表示部5と、タッチパッド部6と、マイク部7と、音声入力処理部8と、音声出力処理部9と、スピーカー部10と、を備える。
【0034】
このうち、主制御装置1は、システム全体を制御するとともに本発明及び本装置に必要な処理を行うコンピュータのCPUなど演算制御部であり、主メモリ2と外部記憶装置3に格納されている辞書データについて、検索や、音声入力処理部8でデジタル変換された音声認識用の入力データとの照合など、各種の情報処理を行う。
【0035】
主メモリ2は、典型的にはDRAMなどで構成されるもので、上記の制御や処理に必要なプログラムやデータを一時的に格納する為の作業エリアに用いられ、また、タッチパッド部6の操作によって決定された操作階層に応じた辞書データ(部分辞書とも呼ぶ)の格納に用いられる。外部記憶装置3は、典型的にはハードディスクドライブなどで、上記の制御や処理に必要なプログラム、全辞書データ(全体辞書とも呼ぶ)、ユーザーデータなどの記録に用いる書き換え可能な不揮発性記憶装置である。
【0036】
画像描画制御部4は、ユーザへの情報表示や操作画面などの表示内容について、表示部5に表示用画像を送るといった描画や制御などを行う部分で、例えばグラフィックチップなどである。
【0037】
タッチパッド部6は、車両のステアリング又はその近傍に設置して装置の基本操作に使用するもので、音声認識の階層指定、認識率向上に使用するタッチパッドすなわちタッチパッド入力部であり、トラックパッドとも呼び、また、タッチパネルを用いる場合を含むものとする。タッチパッドやタッチパネルは、ポインティングデバイスの一種で、センサ機能を持つ平面状の操作面を手指で叩いたりなぞる操作を検出することにより、カーソル移動、ボタンクリック、各種記号や文字等の入力などに相当する操作を行うもので、精度に限界はあるが、通常のスイッチ類と比べ操作部の注視が不要である。
【0038】
マイク部7は、装置の音声入力に使用し、特に音声認識のために音声の入力を受け付ける部分である。また、音声入力処理部8は、マイク部7により入力された音声を主制御装置1で処理できるようにデジタル信号に変換する部分で、例えばA/D変換回路(ADC)やDSP(デジタルシグナルプロセッサ/デジタルサウンドプロセッサ)などである。マイク部7と音声入力処理部8は、ユーザの発話する音声の入力を受け付ける音声入力部を構成している。
【0039】
音声出力処理部9は、出力用の音声データをスピーカー部10で再生する為のアナログ信号に変換する部分で、DSPやD/A変換回路(DAC)などを用いる。スピーカー部10は、音声認識のアンサーバックなど、装置の音声出力に使用する。
【0040】
また、主制御装置1は、主メモリ2や外部記憶装置3を用いて、辞書データ記憶部11(音声認識辞書記憶手段)と、操作パタン記憶部12と、関連記憶部13と、辞書限定部14と、音声認識部15と、を実現する。
【0041】
〔2.作用効果〕
上記のように構成された本装置は、次のように作用する。
〔2−1.基本的作用効果〕
まず、辞書データ記憶部11は、単語ごとの特徴データを含む辞書データ(全体辞書)を予め記憶する(辞書データ記憶処理)。また、前記操作パタン記憶部12は、タッチパッド部6での各操作パタンと、階層的な操作メニューの各操作階層と、を対応付けて記憶する(操作パタン記憶処理)。関連記憶部13は、前記操作メニューの前記各操作階層と、前記辞書データ中の一以上の特徴データと、を関連付ける属性又はインデックスを記憶する(関連記憶処理)。
【0042】
そして、辞書限定部14(辞書限定手段)では、受付部がタッチパッド部6で入力を受け付け(受付ステップ)、判定部が、操作パタン記憶部12を参照することにより、前記受付部の受け付けた入力の該当する操作パタンを判定し、その操作パタンに対応する前記操作階層を特定する(判定ステップ)。
【0043】
また、限定部が、関連記憶部13に記憶された属性又はインデックスを参照することにより、前記判定部の特定した操作階層に関連付けられた各特徴データを、入力音声との照合対象範囲として限定する(限定ステップ)。
【0044】
そして、音声認識部15(音声認識手段)は、マイク部7を含む前記音声入力部が入力を受け付けた入力音声を、前記照合対象範囲の各特徴データすなわち部分辞書と照合することにより、発話された単語を認識する(音声認識処理)。
【0045】
このように、走行中でも運転者が表示部や操作部に視線をそらすことなく、タッチパッド操作により手指の感覚と動作のみで操作階層を指定し、辞書データ中で照合対象とする認識語彙の範囲限定を可能とすることにより、運転の安全性が改善し、複雑な操作も簡便化できて操作性が向上し、認識率も改善できる。また、タッチパッド操作を契機に発話を開始することにより認識用の入力音声の頭切れが防止できる。
【0046】
〔2−2.記憶部の構成〕
また、辞書データ記憶部11と関連記憶部13とは、一体とすることが可能であり、この場合、操作階層と特徴データを関連付ける前記属性又はインデックスは、いずれかの操作階層を指すポインタとして個々の特徴データと共に構成するか、または、いずれかの特徴データを指すポインタとして個々の操作階層における各分岐選択肢を表すメニュー情報と共に構成する。
【0047】
このように、関連付け用の属性やインデックスを辞書データ又はメニュー情報の側に一体化することは、必須ではないが、これにより、データ構造が単純化しデータ領域が節約される。
【0048】
〔2−3.辞書データの展開〕
また、辞書データ記憶部11は外部記憶装置3上に構成し、辞書限定部14は、前記照合対象範囲の各特徴データを辞書データ記憶部11内の辞書データすなわち全体辞書から抽出し、主メモリ2上に一時的に部分辞書として複製して音声認識部15の参照に供する。
【0049】
このように、入力音声と照合すべき語彙範囲の特徴データを、外部記憶上の辞書データから抽出し一時的に主メモリにコピーして用いることは、必須ではないが、これにより、外部記憶へのアクセスが減って性能が改善し、照合も高速化し、主メモリの利用効率も改善される。
【0050】
〔2−4.操作パタンと階層指定〕
また、辞書限定部14は、タッチパッド部6の特徴を生かした各種操作を組み合わせることにより、複数階層に構成された操作メニューの任意の階層に対する直接の指定を受け付ける。
【0051】
この場合、パタン記憶部12には、具体的な操作パタンとして、指で特定の文字や記号等の図形パターンをなぞることによる指定操作と、タッチパッドの操作面内の押す位置による指定操作と、タッチパッドを触れるリズムなど時間的タイミングでの指定操作と、タッチパッドを触れる力の強弱による指定操作と、の少なくともいずれか一種以上を複数組み合わせた操作パタンと、これら各操作パタンに対応し、操作メニューの多重の階層構造を構成する各操作階層と、を対応付けて記憶する。
【0052】
そして、辞書限定部14の判定部は、パタン記憶部12を参照することにより、前記複数組み合わせた操作パタンを構成する各指定操作を所定の時間内で連続して受け付けたときに、対応する操作階層を特定する。
【0053】
このように、多重の階層構造をなす操作メニューの深い階層についても、従来のように階層を辿っての多くの入力回数を要さずまた視認性を損なう事無く、複数操作の組合せにより直接的に指定可能とし、その後の発話による音声認識と組み合わせる事により、操作手順を大幅に簡略化し操作性を効果的に向上可能となる。
【0054】
〔2−5.操作パタン等の編集〕
また、本装置は、タッチパッド部6での操作により音声認識用の辞書データを限定するための各操作パタンについて、登録、編集又は削除するための編集部16(編集手段)を備える。すなわち、編集部16(編集手段)は、操作パタン記憶部12を参照及び更新書込みすることにより、タッチパッド部6での各操作パタンと、操作メニューで対応する操作階層と、の少なくとも一方について、新規登録、編集又は削除の少なくともいずれかを受け付ける(編集処理)。
【0055】
このように、認識する語彙を限定する操作等を編集可能とすることにより、個別具体的なユーザの好みなどの事情に合わせて優れた使い勝手や満足感が実現可能となる。
【0056】
〔3.処理の例〕
以上を組み合わせた処理手順の例を図2のフローチャートに示す。
〔3−1.辞書の限定〕
まず、本装置では、発話しようとする際にタッチパッドにおいて、予め決められたパターンの入力操作を用いて認識用の辞書を限定する事が出来る(ステップS11)。例えば、上記のように、外部記憶装置3に格納されている音声認識用の全体辞書には、認識用の辞書データ以外に各種検索用の属性等の情報が付与されている。この情報は音声認識機器の操作階層と関連付けがされており、その操作画面において認識可能な辞書を外部記憶装置3より検索し、主制御装置1で照合を行い合致した語彙を主メモリ2に展開しその操作階層での音声認識用辞書(部分辞書)とする。
【0057】
タッチパッド上で語彙群を指定する際は、上記のように、指で特定の文字や記号等の図形パターンをなぞることによる指定や、押す位置による指定、タッチパッドを触れるリズムなど時間的タイミングでの指定、タッチパッドを触れる力の強弱による指定、これらの組み合わせなどを用いることにより、従来では階層を辿って多くの入力回数を要した階層にも直接到達する事が出来る。
【0058】
この際、タッチパッド操作による入力データは、接触を検出した座標や時分秒といったタイミングなど操作パタンを表す入力データを含み、これら入力データを主メモリ2に展開されている登録済の(操作パタンの)入力データと主制御装置1で照合する。合致する入力データがある場合は(ステップS12)その入力データに関連付けのされている操作階層の音声認識用データを外部記憶装置3より読み込み、部分辞書として主メモリ2に展開する(ステップS15)。
【0059】
合致する入力データがない場合は(ステップS12)、合致する入力データがない旨の表示、アンサーバックを行い(ステップS13)、再度のタッチパッド操作を受け付ける(ステップS14)。
【0060】
このように、本実施形態では、音声認識辞書限定の操作をタッチパッド部6にて、表示部5を注視すること無くまたハンドルから手を離す事も無く、安全に行うことが可能となる。
【0061】
〔3−2.音声認識〕
上記のように、タッチパッド操作により、照合用の部分辞書が主メモリ2に展開されると、照合した階層のメニュー画面等を示す表示データが主制御装置1から画像描画制御部4に送られ、画像描画制御部4が表示部5に、前記表示データに基く表示用信号を出力することにより、タッチパッド操作により照合したメニューの操作階層を表示させる。これと同時に、主制御装置1から送られた音声データが音声出力処理部9で音声信号に変換されスピーカー部10でアンサーバックとして出力される(ステップS16)。
【0062】
上記のアンサーバック出力を音声入力の許可(きっかけ、合図)として(ステップS16)ユーザがマイク部7より入力した音声を(ステップS17)、音声入力処理部8が音声データに変換し主制御装置1へ送る。この音声データを主制御装置1が、主メモリ2に展開されている辞書データ(部分辞書)と照合し(ステップS18)、合致する辞書データ(特徴データ)がある場合、入力が確定し(ステップS19)合致した入力内容のデータを外部記憶装置3より読み込み、主制御装置1にて表示データが画像描画制御部4に送られ表示信号を表示部5に出力し表示する。
【0063】
これと同時に主制御装置1から送られた音声データを音声出力処理部9で音声信号に変換しスピーカー部10でアンサーバックとして出力する(ステップS19)。一方、合致する特徴データがない場合(ステップS18)、再入力要求のメッセージとアンサーバックの出力を行う(ステップS20)。
【0064】
〔3−3.操作パタンの編集ほか〕
また、以上のように用いるタッチパッドの操作パタンを表す入力データを、編集部16により登録・編集・抹消することにより、よく使用する操作階層へ一操作で到達できる等のカスタマイズが可能となり、このような入力データの変更等は外部記憶装置3のパタン記憶部12に記録される。
【0065】
そしてさらに、上記タッチパッドの入力データの変更機能により、音声認識を用いる機器の起動時の認証用に使用したり個人データの保護等に利用することができる。さらに、このような認証の機能のみを音声認証装置(方法、プログラム)の形で本発明の態様として実施することも可能である。
【0066】
この場合、概要としては、音声入力手段と、タッチパッド部6などのタッチパッド入力部と、を用いるとともに、図示はしないが、主制御装置1の実現する認証手段が、前記タッチパッド入力部での各種操作と、その後の発話による音声認識と、の組み合わせによりユーザ認証を行う(認証処理)。
【0067】
より具体的には、音声を認識することによって認証を行う音声認証装置において、音声の入力を受け付ける音声入力部と、平面状のセンサ面への接触を検出するタッチパッドと、コンピュータの演算制御部と、を備え、前記演算制御部が、認証データ記憶部と、操作認証手段と、音声認識手段と、を実現する。
【0068】
そして、前記認証データ記憶部は、前記タッチパッドで入力されるべき真正な操作パタンと、前記音声入力部で入力されるべき真正な単語の特徴データと、を予め記憶しておく。そして、前記操作認証手段はその実行する操作認証処理において、受付部により前記タッチパッドで入力を受け付け(受付ステップ)、判定部により、前記認証データ記憶部を参照することにより、前記受付部の受け付けた入力が前記真正な操作パタンと一致するか否かを判定し、一致すれば第一認証OKの判定を行う(判定ステップ)。
【0069】
また、前記音声認識手段はその実行する音声認識処理において、前記操作認証手段(処理)により前記第一認証OKの場合に、前記音声入力部が入力を受け付けた入力音声を、前記認証データ記憶部に記憶された真正な特徴データと照合することにより、発話された単語を認識したときに認証OKと判断する。
【0070】
このように、タッチパッドで特定の操作を行い、その後、音声認識により特定の発話を認識させる組合せにより、簡単かつ効果的に、ユーザ認証や、個人情報保護の設定や解除などの手段とすることが可能となる。
【0071】
〔4.具体例〕
画面表示と操作の具体例として、例えば、地図表示画面の状態において(図3)、住所検索画面へ移行させる場合、従来では地図表示画面(図3)のまま「目的地」と発話し、目的地検索のメニュー画面(図4)に移ったうえ「住所」と発話し、住所検索用の都道府県選択画面(図5)から「千葉県」のように発話し千葉県内の市区町村選択画面(図7)へ移行するなど段階的に辿りながら操作する必要があった。
【0072】
これに対し、本実施形態では、地図表示画面(図3)の状態から、タッチパッドを図6に例示するようなL字型に手指でなぞったうえ、「千葉県」のように発話する。この形の操作パタンは、多段の操作階層の中で住所検索の画面(図5)を表すため、図6の操作により認識用辞書の照合対象範囲が都道府県名の各特徴データに限定され、この状態で「千葉県」と発話することにより、目的地検索のメニュー画面(図4)や都道府県選択画面(図5)を飛ばして、市区町村選択画面(図7)へダイレクトにジャンプできる。
【0073】
さらに、例えば、この市区町村選択画面(図7)において、図8に例示するようにひらがなの「ち」など地名の頭文字をタッチパッドに描いて認識用辞書の照合対象範囲を絞り込んだうえ、千葉市内の「稲毛区」のように発話することにより、認識精度向上やさらに深い階層の例えば丁目の選択画面(例えば図9)へのジャンプも可能となる。
【0074】
〔5.他の実施形態〕
なお、本発明は上記実施形態に限定されるものではなく、以下に例示するもの及びそれ以外の他の実施形態も含むものである。例えば、図1に示した構成や図2に示したフローチャート、図3以降の画面例等はあくまで例示であり、適宜変更実施可能である。例えば、本発明は、情報処理における音声認識全般に適用可能であり、カーナビゲーションや住所の入力等に用途が限定されるものではない。
【図面の簡単な説明】
【0075】
【図1】本発明の実施形態の構成を示す機能ブロック図。
【図2】本発明の実施形態における処理手順を示すフローチャート。
【図3】本発明の実施形態における地図表示画面の表示例を示す図。
【図4】本発明の実施形態における目的地メニュー画面の表示例を示す図。
【図5】本発明の実施形態における住所検索用の都道府県選択画面の表示例を示す図。
【図6】本発明の実施形態におけるタッチパッドでの操作パタンを例示する図。
【図7】本発明の実施形態における市区町村選択画面の表示例を示す図。
【図8】本発明の実施形態におけるタッチパッドでの操作パタンの一例(ひらがなの「ち」)を示す図。
【図9】本発明の実施形態における丁目の選択画面の表示例を示す図。
【符号の説明】
【0076】
1…主制御装置
2…主メモリ
3…外部記憶装置
4…画像描画制御部
5…表示部
6…タッチパッド部
7…マイク部
8…音声入力処理部
9…音声出力処理部
10…スピーカー部
11…辞書データ記憶部
12…パタン記憶部
13…関連記憶部
14…辞書限定部
15…音声認識部
16…編集部

【特許請求の範囲】
【請求項1】
発話した音声を取得する音声取得手段と、
音声以外の第2の方法で入力した内容を取得する第2入力取得手段と、
前記音声取得手段で取得した音声を識別する音声識別手段と、
階層毎に音声と命令とを対応づけて記憶している音声認識辞書記憶手段と、
前記第2入力取得手段で取得した内容により前記音声認識辞書記憶手段に記憶されている階層を識別する階層識別手段と、
前記音声識別手段で識別された音声の命令を前記階層識別手段で識別された階層から検索する命令内容検索手段と、
から構成されることを特徴とした音声認識装置。
【請求項2】
前記第2入力取得手段は、所定部分をなぞり、なぞった軌跡から入力した内容を認識することを特徴とした請求項1に記載の音声認識装置。
【請求項3】
前記第2入力取得手段は、音声認識装置とは別体に構成したことを特徴とする請求項1又は2のいずれかに記載の音声認識装置。
【請求項4】
道路地図データの記憶手段と、
自車位置の検出手段と、
を備え、
請求項1から3のいずれか一項に記載の音声認識装置を命令の入力に用い、
前記音声認識装置から入力される命令に従って、前記記憶手段に記憶されている道路地図データと、前記検出手段で検出する自車位置と、に基いて、経路の計算、地図表示及び誘導案内を行うナビゲーション手段を備えたことを特徴とするナビゲーション装置。
【請求項5】
音声入力手段と、タッチパッド入力部と、を有する音声認識装置において、
各操作階層で認識可能な語彙を選別する為の情報を付与した辞書データと、
前記タッチパッドの特徴を活かした入力により指定される操作階層に対応する語彙を、照合対象範囲として前記辞書データから検索し限定する辞書限定手段と、
前記タッチパッドでの前記入力を発話のトリガーとして、限定された前記照合対象範囲との照合により音声を認識する音声認識手段と、
を備えたことを特徴とする音声認識装置。
【請求項6】
車両に搭載して音声を認識する音声認識装置において、
音声の入力を受け付ける音声入力部と、
車両のステアリング又はその近傍に設置したタッチパッドと、
コンピュータの演算制御部と、
を備え、前記演算制御部が、辞書データ記憶部と、操作パタン記憶部と、関連記憶部と、辞書限定手段と、音声認識手段と、を実現し、
前記辞書データ記憶部は、単語ごとの特徴データを含む辞書データを予め記憶し、
前記操作パタン記憶部は、前記タッチパッドでの各操作パタンと、階層的な操作メニューの各操作階層と、を対応付けて記憶し、
前記関連記憶部は、前記操作メニューの前記各操作階層と、前記辞書データ中の一以上の特徴データと、を関連付ける属性又はインデックスを記憶し、
前記辞書限定手段は、
前記タッチパッドで入力を受け付ける受付部と、
前記操作パタン記憶部を参照することにより、前記受付部の受け付けた入力の該当する操作パタンを判定し、その操作パタンに対応する前記操作階層を特定する判定部と、
前記関連記憶部に記憶された属性又はインデックスを参照することにより、前記判定部の特定した操作階層に関連付けられた各特徴データを、入力音声との照合対象範囲として限定する限定部と、
を備え、
前記音声認識手段は、前記音声入力部が入力を受け付けた入力音声を、前記照合対象範囲の各特徴データと照合することにより、発話された単語を認識すること
を特徴とする音声認識装置。
【請求項7】
前記辞書データ記憶部と前記関連記憶部とを一体とし、前記属性又はインデックスは、いずれかの前記操作階層を指すポインタとして個々の特徴データと共に、又は、いずれかの前記特徴データを指すポインタとして個々の操作階層における各分岐選択肢を表すメニュー情報と共に、構成したことを特徴とする請求項6記載の音声認識装置。
【請求項8】
前記コンピュータの外部記憶装置上に前記辞書データ記憶部を構成し、
前記辞書限定手段は、前記照合対象範囲の各特徴データを前記辞書データ記憶部から抽出し、前記コンピュータの主メモリ上に一時的に複製して前記音声認識手段の参照に供する
ことを特徴とする請求項6又は7記載の音声認識装置。
【請求項9】
請求項5から8のいずれか一項に記載の音声認識装置において、
前記辞書限定手段は、前記タッチパッドの特徴を生かした各種操作を組み合わせることにより、複数階層に構成された操作メニューの任意の階層に対する直接の指定を受け付けるように構成されたことを特徴とする音声認識装置。
【請求項10】
前記操作パタンとして、指で特定の文字や記号等の図形パターンをなぞることによる指定操作と、タッチパッドの操作面内の押す位置による指定操作と、タッチパッドを触れるリズムなど時間的タイミングでの指定操作と、タッチパッドを触れる力の強弱による指定操作と、の少なくともいずれか一種以上を複数組み合わせた操作パタンと、
各操作パタンに対応し、操作メニューの多重の階層構造を構成する各操作階層と、
を対応付けて前記パタン記憶部に記憶し、
前記辞書限定手段の前記判定部は、
前記パタン記憶部を参照することにより、前記複数組み合わせた操作パタンを構成する各指定操作を所定の時間内で連続して受け付けたときに、対応する前記操作階層を特定するように構成された
ことを特徴とする請求項5から9のいずれか一項に記載の音声認識装置。
【請求項11】
前記タッチパッドでの操作により音声認識用の前記辞書データを限定するための前記各操作パタンについて、登録、編集又は削除するための編集手段を備えたことを特徴とする請求項5から10のいずれか一項に記載の音声認識装置。
【請求項12】
前記操作パタン記憶部を参照及び更新書込みすることにより、前記タッチパッドでの各操作パタンと、操作メニューで対応する操作階層と、の少なくとも一方について、
新規登録、編集又は削除の少なくともいずれかを受け付ける、編集手段を前記演算制御部が実現することを特徴とする請求項5から11のいずれか一項に記載の音声認識装置。
【請求項13】
音声入力手段と、タッチパッド入力部と、を有し、
前記タッチパッド入力部での各種操作と、その後の発話による音声認識と、の組み合わせによりユーザ認証を行う認証手段を備えたことを特徴とする音声認証装置。
【請求項14】
音声を認識することによって認証を行う音声認証装置において、
音声の入力を受け付ける音声入力部と、
平面状のセンサ面への接触を検出するタッチパッドと、
コンピュータの演算制御部と、
を備え、前記演算制御部が、認証データ記憶部と、操作認証手段と、音声認識手段と、を実現し、
前記認証データ記憶部は、前記タッチパッドで入力されるべき真正な操作パタンと、前記音声入力部で入力されるべき真正な単語の特徴データと、を記憶し、
前記操作認証手段は、
前記タッチパッドで入力を受け付ける受付部と、
前記認証データ記憶部を参照することにより、前記受付部の受け付けた入力が前記真正な操作パタンと一致するか否かを判定し、一致すれば第一認証OKの判定を行う判定部と、
を備え、
前記音声認識手段は、前記操作認証手段により前記第一認証OKの場合に、前記音声入力部が入力を受け付けた入力音声を、前記認証データ記憶部に記憶された真正な特徴データと照合することにより、発話された単語を認識したときに認証OKと判断する
ことを特徴とする音声認証装置。
【請求項15】
音声入力手段と、タッチパッド入力部と、を有する音声認識装置における音声認識方法であって、
各操作階層で認識可能な語彙を選別する為の情報を付与した辞書データを用いて、
前記タッチパッドの特徴を活かした入力により指定される操作階層に対応する語彙を、照合対象範囲として前記辞書データから検索し限定する辞書限定処理と、
前記タッチパッドでの前記入力を発話のトリガーとして、限定された前記照合対象範囲との照合により音声を認識する音声認識処理と、
を含むことを特徴とする音声認識方法。
【請求項16】
音声の入力を受け付ける音声入力部と、
車両のステアリング又はその近傍に設置したタッチパッドと、
コンピュータの演算制御部と、
を備え車両に搭載して音声を認識する音声認識装置における音声認識方法であって、
前記演算制御部により、辞書データ記憶部と、操作パタン記憶部と、関連記憶部と、を実現し、及び、辞書限定処理と、音声認識処理と、を実行し、
前記辞書データ記憶部に、単語ごとの特徴データを含む辞書データを予め記憶させ、
前記操作パタン記憶部に、前記タッチパッドでの各操作パタンと、階層的な操作メニューの各操作階層と、を対応付けて記憶させ、
前記関連記憶部に、前記操作メニューの前記各操作階層と、前記辞書データ中の一以上の特徴データと、を関連付ける属性又はインデックスを記憶させ、
前記辞書限定処理は、
前記タッチパッドで入力を受け付ける受付ステップと、
前記操作パタン記憶部を参照することにより、前記受付ステップにおいて受け付けた入力の該当する操作パタンを判定し、その操作パタンに対応する前記操作階層を特定する判定ステップと、
前記関連記憶部に記憶された属性又はインデックスを参照することにより、前記判定ステップにおいて特定した操作階層に関連付けられた各特徴データを、入力音声との照合対象範囲として限定する限定ステップと、
を含み、
前記音声認識処理は、前記音声入力部が入力を受け付けた入力音声を、前記照合対象範囲の各特徴データと照合することにより、発話された単語を認識すること
を特徴とする音声認識方法。
【請求項17】
前記辞書データ記憶部と前記関連記憶部とを一体とし、前記属性又はインデックスは、いずれかの前記操作階層を指すポインタとして個々の特徴データと共に、又は、いずれかの前記特徴データを指すポインタとして個々の操作階層における各分岐選択肢を表すメニュー情報と共に、構成・管理及びアクセスすることを特徴とする請求項16記載の音声認識方法。
【請求項18】
前記コンピュータの外部記憶装置上に前記辞書データ記憶部を構成し、
前記辞書限定処理は、前記照合対象範囲の各特徴データを前記辞書データ記憶部から抽出し、前記コンピュータの主メモリ上に一時的に複製して前記音声認識処理による参照に供する
ことを特徴とする請求項16又は17記載の音声認識方法。
【請求項19】
請求項15から18のいずれか一項に記載の音声認識方法において、
前記辞書限定処理は、前記タッチパッドの特徴を生かした各種操作を組み合わせることにより、複数階層に構成された操作メニューの任意の階層に対する直接の指定を受け付けることを特徴とする音声認識方法。
【請求項20】
前記操作パタンとして、指で特定の文字や記号等の図形パターンをなぞることによる指定操作と、タッチパッドの操作面内の押す位置による指定操作と、タッチパッドを触れるリズムなど時間的タイミングでの指定操作と、タッチパッドを触れる力の強弱による指定操作と、の少なくともいずれか一種以上を複数組み合わせた操作パタンと、
各操作パタンに対応し、操作メニューの多重の階層構造を構成する各操作階層と、
を対応付けて前記パタン記憶部に記憶させ、
前記辞書限定処理の前記判定ステップは、
前記パタン記憶部を参照することにより、前記複数組み合わせた操作パタンを構成する各指定操作を所定の時間内で連続して受け付けたときに、対応する前記操作階層を特定する
ことを特徴とする請求項15から19のいずれか一項に記載の音声認識方法。
【請求項21】
前記タッチパッドでの操作により音声認識用の前記辞書データを限定するための前記各操作パタンについて、登録、編集又は削除の操作を受付及び処理するための編集処理を含むことを特徴とする請求項15から20のいずれか一項に記載の音声認識方法。
【請求項22】
前記操作パタン記憶部を参照及び更新書込みすることにより、前記タッチパッドでの各操作パタンと、操作メニューで対応する操作階層と、の少なくとも一方について、
新規登録、編集又は削除の少なくともいずれかを受け付け及び処理する、編集処理を前記演算制御部が実行することを特徴とする請求項15から21のいずれか一項に記載の音声認識方法。
【請求項23】
音声入力手段と、タッチパッド入力部と、を有する音声認証装置における音声認証方法であって、
前記タッチパッド入力部での各種操作と、その後の発話による音声認識と、の組み合わせによりユーザ認証を行う認証処理を含むことを特徴とする音声認証方法。
【請求項24】
音声の入力を受け付ける音声入力部と、
平面状のセンサ面への接触を検出するタッチパッドと、
コンピュータの演算制御部と、
を備え、音声を認識することによって認証を行う音声認証装置における音声認証方法であって、
前記演算制御部が、認証データ記憶部を実現し、及び、操作認証処理と、音声認識処理と、を実行し、
前記認証データ記憶部に、前記タッチパッドで入力されるべき真正な操作パタンと、前記音声入力部で入力されるべき真正な単語の特徴データと、を記憶させ、
前記操作認証処理は、
前記タッチパッドで入力を受け付ける受付ステップと、
前記認証データ記憶部を参照することにより、前記受付ステップの受け付けた入力が前記真正な操作パタンと一致するか否かを判定し、一致すれば第一認証OKの判定を行う判定ステップと、
を含み、
前記音声認識処理は、前記操作認証処理により前記第一認証OKの場合に、前記音声入力部が入力を受け付けた入力音声を、前記認証データ記憶部に記憶された真正な特徴データと照合することにより、発話された単語を認識したときに認証OKと判断する
ことを特徴とする音声認証方法。
【請求項25】
音声入力手段と、タッチパッド入力部と、を有する音声認識装置を制御する音声認識プログラムであって、
各操作階層で認識可能な語彙を選別する為の情報を付与した辞書データを用いて、
前記タッチパッドの特徴を活かした入力により指定される操作階層に対応する語彙を、照合対象範囲として前記辞書データから検索し限定する辞書限定処理と、
前記タッチパッドでの前記入力を発話のトリガーとして、限定された前記照合対象範囲との照合により音声を認識する音声認識処理と、
を、コンピュータの演算制御部に実行させることを特徴とする音声認識プログラム。
【請求項26】
音声の入力を受け付ける音声入力部と、
車両のステアリング又はその近傍に設置したタッチパッドと、
コンピュータの演算制御部と、
を備え車両に搭載して音声を認識する音声認識装置を制御する音声認識プログラムであって、
前記演算制御部を制御することにより、辞書データ記憶部と、操作パタン記憶部と、関連記憶部と、を実現させ、及び、辞書限定処理と、音声認識処理と、を実行させ、
前記辞書データ記憶部に、単語ごとの特徴データを含む辞書データを予め記憶させ、
前記操作パタン記憶部に、前記タッチパッドでの各操作パタンと、階層的な操作メニューの各操作階層と、を対応付けて記憶させ、
前記関連記憶部に、前記操作メニューの前記各操作階層と、前記辞書データ中の一以上の特徴データと、を関連付ける属性又はインデックスを記憶させ、
前記辞書限定処理において、
前記タッチパッドで入力を受け付ける受付ステップと、
前記操作パタン記憶部を参照することにより、前記受付ステップにおいて受け付けた入力の該当する操作パタンを判定し、その操作パタンに対応する前記操作階層を特定する判定ステップと、
前記関連記憶部に記憶された属性又はインデックスを参照することにより、前記判定ステップにおいて特定した操作階層に関連付けられた各特徴データを、入力音声との照合対象範囲として限定する限定ステップと、
を実行させ、
前記音声認識処理において、前記音声入力部が入力を受け付けた入力音声を、前記照合対象範囲の各特徴データと照合することにより、発話された単語を認識させること
を特徴とする音声認識プログラム。
【請求項27】
前記辞書データ記憶部と前記関連記憶部とを一体とし、前記属性又はインデックスは、いずれかの前記操作階層を指すポインタとして個々の特徴データと共に、又は、いずれかの前記特徴データを指すポインタとして個々の操作階層における各分岐選択肢を表すメニュー情報と共に、構成・管理及びアクセスすることを特徴とする請求項26記載の音声認識プログラム。
【請求項28】
前記コンピュータの外部記憶装置上に前記辞書データ記憶部を構成させ、
前記辞書限定処理において、前記照合対象範囲の各特徴データを前記辞書データ記憶部から抽出し、前記コンピュータの主メモリ上に一時的に複製して前記音声認識処理による参照に供させる
ことを特徴とする請求項26又は27記載の音声認識プログラム。
【請求項29】
請求項25から28のいずれか一項に記載の音声認識プログラムであって、
前記辞書限定処理において、前記タッチパッドの特徴を生かした各種操作を組み合わせることにより、複数階層に構成された操作メニューの任意の階層に対する直接の指定を受け付けさせることを特徴とする音声認識プログラム。
【請求項30】
前記操作パタンとして、指で特定の文字や記号等の図形パターンをなぞることによる指定操作と、タッチパッドの操作面内の押す位置による指定操作と、タッチパッドを触れるリズムなど時間的タイミングでの指定操作と、タッチパッドを触れる力の強弱による指定操作と、の少なくともいずれか一種以上を複数組み合わせた操作パタンと、
各操作パタンに対応し、操作メニューの多重の階層構造を構成する各操作階層と、
を対応付けて前記パタン記憶部に記憶させ、
前記辞書限定処理の前記判定ステップにおいて、
前記パタン記憶部を参照することにより、前記複数組み合わせた操作パタンを構成する各指定操作を所定の時間内で連続して受け付けたときに、対応する前記操作階層を特定させる
ことを特徴とする請求項25から29のいずれか一項に記載の音声認識プログラム。
【請求項31】
前記タッチパッドでの操作により音声認識用の前記辞書データを限定するための前記各操作パタンについて、登録、編集又は削除の操作を受付及び処理するための編集処理を行わせることを特徴とする請求項25から30のいずれか一項に記載の音声認識プログラム。
【請求項32】
前記操作パタン記憶部を参照及び更新書込みすることにより、前記タッチパッドでの各操作パタンと、操作メニューで対応する操作階層と、の少なくとも一方について、
新規登録、編集又は削除の少なくともいずれかを受け付け及び処理する、編集処理を前記演算制御部に実行させることを特徴とする請求項25から31のいずれか一項に記載の音声認識プログラム。
【請求項33】
音声入力手段と、タッチパッド入力部と、を有する音声認証装置を制御する音声認証プログラムであって、
前記タッチパッド入力部での各種操作と、その後の発話による音声認識と、の組み合わせによりユーザ認証を行う認証処理を行わせることを特徴とする音声認証プログラム。
【請求項34】
音声の入力を受け付ける音声入力部と、
平面状のセンサ面への接触を検出するタッチパッドと、
コンピュータの演算制御部と、
を備え、音声を認識することによって認証を行う音声認証装置を制御する音声認証プログラムであって、
前記演算制御部に、認証データ記憶部を実現させ、及び、操作認証処理と、音声認識処理と、を実行させ、
前記認証データ記憶部に、前記タッチパッドで入力されるべき真正な操作パタンと、前記音声入力部で入力されるべき真正な単語の特徴データと、を記憶させ、
前記操作認証処理において、
前記タッチパッドで入力を受け付ける受付ステップと、
前記認証データ記憶部を参照することにより、前記受付ステップの受け付けた入力が前記真正な操作パタンと一致するか否かを判定し、一致すれば第一認証OKの判定を行う判定ステップと、
を実行させ、
前記音声認識処理において、前記操作認証処理により前記第一認証OKの場合に、前記音声入力部が入力を受け付けた入力音声を、前記認証データ記憶部に記憶された真正な特徴データと照合することにより、発話された単語を認識したときに認証OKと判断させる
ことを特徴とする音声認証プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2007−240688(P2007−240688A)
【公開日】平成19年9月20日(2007.9.20)
【国際特許分類】
【出願番号】特願2006−60552(P2006−60552)
【出願日】平成18年3月7日(2006.3.7)
【出願人】(000001487)クラリオン株式会社 (1,722)
【Fターム(参考)】