説明

音声認識処理装置及びその制御方法

【課題】少ない発話で、一連の複雑な処理を行わせることができ、操作の簡略化を図ることが可能な音声認識処理装置及びその制御方法を提供する。
【解決手段】発話された音声を入力するマイク9、マイクから入力された音声を認識する音声認識部10、音声認識部10により認識された内容に応じて処理を実行するナビゲーション処理部41、AV処理部42、音声認識部10に認識させる認識語句を記憶する認識語句記憶手段と、認識語句に対応付けられた処理を記憶する処理記憶手段とをメモリに構成し、処理記憶手段に、複数の異なる機能に対応する複数の処理を、認識語句に対応付けて記憶させる処理設定部44を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、所望の語句を音声認識して、これに対応する処理を実行する音声認識処理装置及びその制御方法に関するものである。
【背景技術】
【0002】
自動車などに代表される移動体の現在位置や目的地への経路を自動的に案内する電子機器として、ナビゲーション装置が普及している。このナビゲーション装置は、人工衛星からの電波をGPS受信機で受けたり、ジャイロセンサーなどを使って、装置が搭載されている移動体の現在位置や現在の日時を計算し、予め用意された道路地図データに基づいて、現在位置及びその周辺地図を表示しながら、次にどこをどちらに曲がるといった道案内を画面表示や合成音声などで行うものである。
【0003】
このようなナビゲーション装置の操作は、タッチパネル、リモコン等の入力手段から手操作で入力することにより行われるが、かかる手操作の手間を省いて、安全な運転を実現するための技術として、音声認識処理機能がある。かかる音声認識処理機能は、車内に設置されたマイクに向かって、あらかじめ登録された語句を発話すると、その語句に対応する処理を自動的に行う機能である。
【0004】
例えば、特許文献1には、マイクに向かって「××県 ××市」や「××市 ××区」と話すだけで、その音声が認識されて、その地域の道路地図が表示される機能が開示されている。また、特許文献1の技術では、「目的地」,「出発地」、「経由地」、「自宅」などの表示位置を指示する言葉や、「今何時」(現在時刻を聞く指令)、「今どこ」(現在位置を聞く指令)等の各種操作指令を行うことができる。
【特許文献1】特開平9−114490号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
ところで、上記のような従来のナビゲーション装置に搭載された音声認識処理機能は、所定のメニュー操作に従った音声認識処理が中心であり、一つ若しくは類似した複数の認識語句に対して、あらかじめ設定された処理のみを行う機能に過ぎなかった。
【0006】
しかし、かかる音声認識処理機能では、一回の発話で一つの処理を行うことになるため、再度他の処理を行わせるには、再度発話して他の処理に該当する音声を認識させる必要があった。このため、複雑な操作を行わせるためには、一度の発話の音声認識で済ませることができず、操作性に難点があった。
【0007】
本発明は、上記のような従来技術の問題点を解決するものであり、その目的は、少ない発話で、一連の複雑な処理を行わせることができ、操作の簡略化を図ることが可能な音声認識処理装置及びその制御方法を提供することにある。
【課題を解決するための手段】
【0008】
上記の目的を達成するため、請求項1の発明は、発話された音声を入力する音声入力手段と、前記音声入力手段から入力された音声を認識する認識手段と、前記認識手段により認識された内容に応じて処理を実行する実行手段と、を有する音声認識処理装置において、前記認識手段に認識させる認識語句を記憶する認識語句記憶手段と、前記認識語句に対応付けられた処理を記憶する処理記憶手段と、を有し、前記処理記憶手段に、複数の異なる機能に対応する複数の処理を、前記認識語句に対応付けて記憶させる複数処理設定手段と、を有することを特徴とする。なお、本発明は、上記の各手段の機能を実現する方法としても捉えることができる。
【0009】
以上のような発明では、ユーザは、音声認識のために一度発話することで、複数の処理を連続的に行わせることができるので、各々の処理をさせる度に発話する場合に比べて、操作の簡略化が実現できる。
【0010】
請求項2の発明は、請求項1の音声認識処理装置において、前記処理記憶手段には、同一若しくは類似の認識語句に対応して、異なる処理が記憶されており、同一若しくは類似の認識語句の優先度を記憶する優先度記憶手段を有することを特徴とする。なお、本発明は、上記の各手段の機能を実現する方法としても捉えることができる。
【0011】
以上のような発明では、例えば、設定する認識語句が、デフォルトの認識語句と重複する場合等には、いずれか一方を優先させて適用することができるので、ユーザが使用しやすい認識語句を選択し、利便性を向上させることができる。
【0012】
請求項3の発明は、請求項1又は請求項2の音声認識処理装置において、前記機能について、前記認識語句に対応させて前記複数処理設定手段により設定できるか否かの機能情報を記憶する機能情報記憶手段を有することを特徴とする。なお、本発明は、上記の各手段の機能を実現する方法としても捉えることができる。
【0013】
以上のような発明では、複数の機能のうち、設定できないものは自動的に排除することができるので、ユーザが個々の機能を判断する手間が省ける。
【発明の効果】
【0014】
以上のような本発明によれば、少ない発話で、一連の複雑な処理を行わせることができ、操作の簡略化を図ることが可能な音声認識処理装置及びその制御方法を提供することができる。
【発明を実施するための最良の形態】
【0015】
次に、本発明を実施するための最良の形態(以下「実施形態」と呼ぶ)について、図面を参照して具体的に説明する。なお、本実施形態は、周辺装置を備えたコンピュータをプログラムで制御することで実現できるが、この場合のハードウェアやプログラムの実現態様は各種変更可能である。
【0016】
また、本発明は、上記のようなプログラム、そのようなプログラムを記録したコンピュータ読取可能な記憶媒体としても把握できる。したがって、以下の説明では、本発明及び本実施形態の各機能を実現する仮想的回路ブロックを用いる。
【0017】
[構成]
まず、本実施形態は、図1に示すように、所望の認識語句を認識させて、処理を実行させる音声認識処理機能を、ナビゲーション装置Nに構成したものである。まず、ナビゲーション装置Nは、以下のように、一般的な経路探索と誘導案内の機能を発揮するため、絶対位置・方位検出部1、相対方位検出部2、車速検出部3、HDD制御部5等を備えている。
【0018】
HDD制御部5は、ハードディスク(大容量記憶装置)に記録されたナビゲーションデータなど各種データをデータベースから読み出す手段であり、道路又は道路の区間のネットワーク構造をあらかじめ表した道路地図データ、施設検索のための施設名、種別、住所等の施設情報等が格納されている。なお、同様の情報をCDやDVDに記録したものも使用できるように、CD/DVD−ROM制御部(図示せず)も設けられている。
【0019】
また、メモリ群Mは、本装置の動作に必要な各種のメモリで、例えば、プログラム格納用のROM5は本装置の起動時にメインCPUによりアクセスされる。また、ワークエリアなどを提供するダイナミックRAM(DRAM)6にはメインプログラムがロードされる。
【0020】
また、SRAM(スタティックRAM)7は、後述する認識語句、認識語句に対応付けられた機能、認識語句の優先度、機能情報テーブル等の各種設定や地図データを含む情報を記憶する記憶手段であり、メイン電源がオフになっている間もバッテリーバックアップされ、オンになったときにメモリ内容を提供するが、フラッシュメモリやHDDなど、他の記憶手段によっても置換可能である。
【0021】
なお、通常の認識語句とこれに対応する処理は、基本音声コマンドとして、あらかじめデフォルトでメモリ等に記憶されているものとする。また、表示用のVRAM(ビデオRAM)8はディスプレイ6に表示すべき画像のビットマップデータを格納する。
【0022】
本実施形態では、上記のHDD、メモリ等によって、請求項の認識語句記憶手段、処理記憶手段、優先度記憶手段、機能情報記憶手段が構成されているが、いずれのデータについてどのような記憶媒体を用いるかを限定するものではない。
【0023】
ディスプレイ6は、地図や操作メニューなど各種の情報を、画面に表示する手段である。特に、本実施形態においては、後述する認識語句の入力画面、編集画面等が表示される。スピーカ7は音声出力により音声案内を行う手段である。リモコンユニット8は、ユーザが各種操作入力を行う入力手段である。
【0024】
マイク9は、ユーザが音声を入力する入力手段である。音声認識部10は、マイク9から入力された音声を、ナビゲーション装置Nにおいて処理可能な情報形式に変換し、メインCPU及びその周辺回路4に入力する入力手段である。なお、ディスプレイ6は、タッチパネルとしての機能も有している。リモコンユニット8、マイク9、ディスプレイ(タッチパネル)6及びフロントパネルに設けられたスイッチ(図示せず)等は、入力手段として機能し、命令、文字列等の入力、メニュー、項目、名称等の選択や決定等を入力することができる。
【0025】
さらに、メインCPU及びその周辺回路4は、ナビゲーション装置Nの全体を制御する制御回路の役割を果たす部分であり、上記のようなプログラムの作用によって、図1に示す下記の各部分としての役割を実現するように構成されている。すなわち、ナビゲーション処理部41は、ナビゲーションの機能を実行する手段であり、自車位置の計算、目的地の設定、経路計算、経路設定、地図表示等、公知のあらゆるナビゲーションに対応する機能を含んでいる。
【0026】
AV処理部42は、CD、DVD、HDD、その他各種メモリ等に記録された情報の記録、再生等を行う機能であり、音量や音質の調整、選曲等、公知のあらゆる機能が含まれる。なお、ナビゲーションの機能やAV機能は、典型的な機能を例示したものである。登録できる機能は、車載用の電子機器として持つ機能の一部又は全てを網羅しており、後述する機能には、これらの機能も含まれているものとする。例えば、コンピュータとして機能する場合のネットワーク接続機能、メール機能や、携帯情報端末との接続を前提としてハンズフリー機能等も含まれる。
【0027】
認識語句設定部43は、各種入力手段から入力された認識語句を、メモリに記憶させることにより設定する手段である。処理設定部44は、各認識語句に対応させて、異なる機能に対応する複数の処理を、メモリに記憶させることにより設定する手段である。例えば、図2は、複数の認識語句情報のうち、認識語句2に対して、複数の機能A〜mの処理を割り付けた場合の概念図である。優先度設定部45は、認識語句設定部43が、基本音声コマンドと同じ認識語句を設定した場合に、設定した認識語句と、基本音声コマンドとのどちらを優先するかを記憶する手段である。
【0028】
設定表示制御部46は、後述するように、認識語句やこれに対応する機能等、本実施形態の設定入力に必要な表示画面を含むインタフェースを制御する手段である。表示画面データは、あらかじめメモリ等に記憶されたものを用いることができる。照合部47は、音声認識部10において認識された音声と、メモリに記憶された認識語句とを照合して、一致するか否かを判定する手段である。処理指示部48は、照合部47により、一致すると判定された場合に、ナビゲーション処理部41、AV処理部42等に、認識語句に対応する処理の実行を指示する手段である。
【0029】
[作用]
以上のような本実施形態による検索処理の一例を、図3〜5の表示画面例を参照して説明する。なお、あらかじめデフォルトで登録されている基本音声コマンドに対して、ユーザが所望の複数の処理に対応させて設定・記憶(登録)させる認識語句を、登録コマンドとする。
【0030】
[新規登録の場合]
まず、新規に登録を行う場合、リモコンユニット8やタッチパネル、マイク9等の入力手段を用いた指示入力により、設定表示制御部46が、図3(1)に示すような認識語句の登録設定画面を、ディスプレイ6に表示させる。この登録設定画面には、基本音声コマンドと同じ認識語句を設定する場合に、基本音声コマンドよりも優先するかどうかの設定ができる。
【0031】
例えば、○の場合には、基本音声コマンドよりも、新規に設定する認識語句が優先して働き、×の場合には、基本音声コマンドが優先して働くものとする。この優先度に関する情報は、ユーザが○×ボタンを選択する度に、○×が反転するので、これに応じて、優先度設定部45が、優先度をメモリに登録する。
【0032】
そして、登録設定画面に表示された「新規」ボタンを選択することにより、図3(2)に示すように、認識語句入力画面に移行する。この認識語句入力画面には、例えば、50音入力画面が表示されており、これを用いて入力された文字列は、認識語句設定部43がメモリに登録する。
【0033】
ユーザは、編集ボタンを選択することにより、図3(3)に示すように、新たに登録された認識語句に対して、これに対応付ける機能を選択する画面に遷移する。例えば、図3(3)は、新規の登録例のため、すべてのリストは「なし」の状態となっている。この「なし」のどれか一つのボタンを選択すると、図4(4)の機能設定画面に遷移する。
【0034】
なお、このとき、入力された文字列が基本コマンドと同じかどうかをチェックして、ユーザが基本コマンドでよい場合には、特に編集処理を行わない。一方、ユーザが、新たな登録コマンドとしたい場合には、画面表示等により編集するかどうかの確認を行う。
【0035】
機能設定画面では、図4(4)に示すように、あらかじめデフォルトで登録された機能のリストの一覧表が表示される。この画面では、オーディオ(Audio)機能、ナビゲーション(Navi)機能のいずれかを選択することができる。例えば、機能Aが仮にナビゲーション機能であるとすると、デフォルトではナビゲーション機能が表示されるように設定されており、この状態からAudio機能ボタンを選択すると、オーディオ機能の一覧が表示される。Navi機能ボタンを選択すれば、ナビゲーション機能の一覧に戻る。
【0036】
このように表示された一覧から、ユーザが所望の機能を選択すると、処理設定部44は、選択された機能に対応する処理を、認識語句に対応づけてメモリに記憶する。なお、基本コマンドと同じ語句が登録されようとしていた場合、どちらを優先するかの情報を入力すれば、優先度設定部45が、その優先度をメモリに記憶する。デフォルトで、新たに登録された認識語句を優先するように設定しておいてもよい。
【0037】
以上のような機能の選択を複数回行うことにより、認識語句に対して、複数の機能に対応する処理が登録される。図4(5)は、機能選択が終了後、機能が登録された状態を示す。
【0038】
[登録を編集する場合]
次に、既に設定された機能を編集する場合、上記の図3(1)に示す画面から、編集ボタンを選択すると、図5(6)に示す登録認識語句編集画面へ遷移する。ここで表示された認識語句のリストのボタンのいずれかを選択すると、図5(7)に示すように、選択された認識語句の入力画面へ遷移する。
【0039】
この入力画面は、50音入力画面であり、この画面により、既に登録された機能に対応する認識語句を編集する。認識語句設定部43は、編集された認識語句へ変更して、メモリに記憶する。さらに、図5(8)に示すように、当該認識語句に対応する機能一覧が表示される。機能を編集する場合には、編集ボタンを選択することにより、図5(9)に示すように、機能のリストが表示された機能編集画面が表示される。表示されたリストを選択すると、図4(4)に示すように、そのリストに割り当てることができる機能一覧が表示され、上記と同様の処理を行うことができる(図4(5)参照)。
【0040】
[処理実行例]
上記のように、ユーザは、認識語句に対して複数の機能を自由に設定し、複雑な操作を自由に組み合わせることができる。すなわち、図2に示すように、認識語句階層のそれぞれの認識語句情報には、認識語句を認識したときに実行する複数の機能が登録されている。そして、マイク9から入力され、音声認識部10によって認識された認識語句が、上記で設定された認識語句に合致すると照合部47が判定した場合、処理指示部48は、ナビゲーション処理部41、AV機能部42に対して、当該認識語句に割り当てられた機能を順次実行させる。
【0041】
例えば、CD等に記録されたアーティストAの曲をランダム再生したい場合、認識語句nに「A」というアーティスト名を割り付ける。また、その発話をした際の機能として、「アーティストAの検索」、「検索結果からプレイリストの作成」、「作成されたプレイリストのランダム再生」等の機能を割り付ける。
【0042】
これらを登録しておくことにより、認識語句nに対応する音声を発することにより、認識語句nに割り当てられている機能を連続的に実行する。この機能実行の間は、画面上には操作経過は表示せず、最終的なプレイリストのランダム再生状態にする。
【0043】
また、既にデフォルトで登録されている「じたく」という、自宅を自動的に設定し誘導を開始する認識語句(基本コマンド)に対して、特定のオーディオソースを選択する機能を追加したり、必ず高速道路優先で経路を設定したりすることが可能となる。
【0044】
[効果]
以上のような本実施形態によれば、音声認識のための一度の発話で、ユーザによるいわばカスタマイズで設定された複数の処理を、連続的に行わせることができるので、操作の簡略化が可能となる。また、ユーザが設定する認識語句が、基本音声コマンドと重複するような場合であっても、いずれか一方を優先させて適用することができるので、ユーザが使用しやすい認識語句を選択することができ、利便性が向上する。
【0045】
[他の実施形態]
本発明は、上記のような実施形態に限定されるものではない。例えば、上記の実施形態では、図4(4)の「認識語句に登録する機能」の画面で、機能が一覧表示されている。この例では、「認識語句1の機能編集」画面で機能Aを選択した場合の一覧で、機能Aは最初に実行する機能である。
【0046】
しかし、機能によっては最初に実行できないものもあることが考えられる。そこで、設定表示制御部46は、後述する機能情報テーブルを参照して、実行できない機能は表示させない、若しくはグレイアウトとすることにより、選択できないようにすることが考えられる。これにより、複数の機能のうち、設定できないものは自動的に排除されるので、ユーザが個々の有効性を機能を判断する手間が省ける。
【0047】
図4(4)(5)の表示例では、機能Cを選択しているが、この機能Cを選択したことにより、次に続くように設定されていた機能Xが実行できないとすれば、機能Xは設定できない旨を報知して、機能を再設定するように促すことも可能である。
【0048】
ここで、機能情報テーブルの例を、図6に示す。これは、機能に通し番号を付与し、機能番号と、最初に登録できないことを示すフラグと、次に選択できない機能番号とを、対応付けたものである。図6では、機能毎の通し番号は、機能A:1、機能B:2、…のように付与している。そして、最初に登録できないものは1、登録できるものは0を付与している。次に選択できない機能番号は、12,13、11…のように設定している。
【0049】
なお、設定対象となる機能、設定等のための表示画面、データ構造についても、上記の実施形態には限定されない。特定の認識語句に対して割り当てられる機能の数も、自由である。一度の発話にて実行される処理同士は、関連がなくてもよい。複数の機能を対応付けた認識語句同士の優先度を設定できるようにしてもよい。また、音声入力された認識語句が、設定された認識語句と一致する場合のみならず、一部一致や類似する場合も、その認識語句と認定できるように、一致する文字数や複数の認識語句を設定しておいてもよい。
【0050】
また、本発明は、車載用には限定されず、他の移動手段や携帯用のナビゲーション装置にも適用可能である。さらに、本発明が適用される装置は、ナビゲーション装置には限定されず、コンピュータにより音声認識をして、対応する機能を実行させる技術として、広く適用可能である。
【図面の簡単な説明】
【0051】
【図1】本発明の実施形態の構成の一例を示す機能ブロック図である。
【図2】図1の実施形態における機能の割り付け例を示す説明図である。
【図3】図1の実施形態における認識語句の新規登録時の表示画面例を示す説明図である。
【図4】図1の実施形態における認識語句の登録時の表示画面例を示す説明図である。
【図5】図1の実施形態における認識語句の編集時の表示画面例を示す説明図である。
【図6】図1の実施形態における機能情報テーブルの一例を示す説明図である。
【符号の説明】
【0052】
1…絶対位置・方位検出部
2…相対方位検出部
3…車速検出部
4…メインCPU及びその周辺回路
5…HDD制御部
6…ディスプレイ
7…スピーカ
8…リモコンユニット
9…マイク
10…音声認識部
41…ナビゲーション処理部
42…AV処理部
43…認識語句設定部
44…処理設定部
45…優先度設定部
46…設定表示制御部
47…照合部
48…処理指示部

【特許請求の範囲】
【請求項1】
発話された音声を入力する音声入力手段と、前記音声入力手段から入力された音声を認識する認識手段と、前記認識手段により認識された内容に応じて処理を実行する実行手段と、を有する音声認識処理装置において、
前記認識手段に認識させる認識語句を記憶する認識語句記憶手段と、
前記認識語句に対応付けられた処理を記憶する処理記憶手段と、
を有し、
前記処理記憶手段に、複数の異なる機能に対応する複数の処理を、前記認識語句に対応付けて記憶させる複数処理設定手段と、
を有することを特徴とする音声認識処理装置。
【請求項2】
前記処理記憶手段には、同一若しくは類似の認識語句に対応して、異なる処理が記憶されており、
同一若しくは類似の認識語句の優先度を記憶する優先度記憶手段を有することを特徴とする請求項1記載の音声認識処理装置。
【請求項3】
前記機能について、前記認識語句に対応させて前記複数処理設定手段により設定できるか否かの機能情報を記憶する機能情報記憶手段を有することを特徴とする請求項1又は請求項2記載の音声認識処理装置。
【請求項4】
発話された音声を入力する音声入力手段と、前記音声入力手段から入力された音声を認識する認識手段と、前記認識手段により認識された内容に応じて処理を実行する実行手段と、を有する音声認識処理装置を、コンピュータ又は電子回路により制御する音声認識処理装置の制御方法において、
前記コンピュータ又は電子回路は、認識語句記憶手段と、処理記憶手段と、複数処理設定手段と、を有し、
前記認識語句記憶手段が、前記認識手段に認識させる認識語句を記憶する処理と、
前記処理記憶手段が、前記認識語句に対応付けられた処理を記憶する処理と、
前記複数処理設定手段が、前記処理記憶手段に、複数の異なる機能に対応する複数の処理を、前記認識語句に対応付けて記憶させる処理と、
を含むことを特徴とする音声認識処理装置の制御方法。
【請求項5】
前記コンピュータ又は電子回路は、優先度記憶手段を有し、
前記処理記憶手段には、同一若しくは類似の認識語句に対応して、異なる処理が記憶されており、
前記優先度記憶手段が、同一若しくは類似の認識語句の優先度を記憶する処理を含むことを特徴とする請求項4記載の音声認識処理装置の制御方法。
【請求項6】
前記コンピュータ又は電子回路は、機能情報記憶手段を有し、
前記機能情報記憶手段が、前記機能について、前記認識語句に対応させて前記複数処理設定手段により設定できるか否かの機能情報を記憶する処理を含むことを特徴とする請求項4又は請求項5記載の音声認識処理装置の制御方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2008−243146(P2008−243146A)
【公開日】平成20年10月9日(2008.10.9)
【国際特許分類】
【出願番号】特願2007−86848(P2007−86848)
【出願日】平成19年3月29日(2007.3.29)
【出願人】(000001487)クラリオン株式会社 (1,722)
【Fターム(参考)】