説明

音声認識システム

【課題】クライアントとサーバとで分散して音声認識処理を行う場合に認識結果が得られるまでに要する時間を短縮するとともに、音声認識処理に関するクライアントの規模および処理負担の軽減が可能な音声認識システムを提供すること。
【解決手段】車載装置1において入力された利用者の音声に対して、この車載装置1あるいはネットワーク3を介して接続されたサーバ2による音声認識処理が行われる。車載装置1は、マイクロホン22と、あらかじめ用意された複数の単語あるいは文章を対象に音声認識処理を行う音声認識処理部100と、入力された音声について音声認識処理部100において音声認識処理を行うものとサーバ2において音声認識処理を行うものとを振り分ける振り分け判定部102と、サーバ2側で音声認識処理を行う場合に音声データをサーバ2に送信する音声データ送信部56とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力音声に対して音声認識処理を行う音声認識システムに関する。
【背景技術】
【0002】
従来から、ネットワークを介して接続されたサーバとクライアントを備え、クライアントで処理できるものはクライアントで処理し、サーバでなければ処理できないもののみをサーバに送信して処理するようにした音声認識システムが知られている(例えば、特許文献1参照。)。クライアントとサーバのどちらの音声認識エンジンを使用するかの判定は、基本的にクライントに音響モデル辞書・言語モデル辞書・単語辞書のうちのいずれか1以上を含む小語彙辞書群があるかどうかで行われる。すなわち、小語彙辞書群がある場合にはクライアントで音声認識処理が行われ、ない場合にはサーバで音声認識処理が行われる。また、クライントで音声認識処理を行った結果、認識不可能であった場合もサーバで音声認識処理が行われる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−249829号公報(第8−11頁、図1−3)
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した特許文献1には、音声入力がなされたときにこの入力音声に対する音声認識処理をクライントで行うかサーバで行うかについては、以下のような具体例の記載が含まれる。
(1)各国の言語に合わせた音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群を用意しておけば、各言語に合わせた音声認識がクライアントでも行える。
(2)病院やレストランの予約システムで使用する場合とか、インターネット株取引で使う場合とかなどによって、分野別音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群を用意しておけば、ユーザが利用したい分野ごとに音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群を選択することができ、クライアントでの音声認識のヒット率も高めることができる。
【0005】
これらの記載からもわかるように、特許文献1の音声認識システムでは、特定の用途(特定の言語や分野)についてはこの用途に対応する小語彙辞書群をクライアントに用意しておいて音声認識処理を行い、クライアントで認識不可能な場合や他の用途についてはサーバで音声認識処理を行っている。
【0006】
しかし、このような音声認識システムでは、クライアントで音声認識処理を行った結果認識不可能な場合には、その後サーバによる音声認識処理が行われるため、このような場合に最終的な認識結果が得られるまでに時間がかかるという問題があった。この問題は、クライアントとサーバの両方において音声認識処理を行うことにより生じるものであるが、クライアントで音声認識処理を行った場合に確実に良好な認識結果を得ようとすると、クライアントに備わった小語彙辞書群の規模やこれを用いた音声認識エンジンの性能を上げる必要があり、クライアントとサーバとで分散して音声認識処理を行う趣旨に反することになる。
【0007】
本発明は、このような点に鑑みて創作されたものであり、その目的は、クライアントとサーバとで分散して音声認識処理を行う場合に認識結果が得られるまでに要する時間を短縮するとともに、音声認識処理に関するクライアントの規模および処理負担の軽減が可能な音声認識システムを提供することにある。
【課題を解決するための手段】
【0008】
上述した課題を解決するために、本発明の音声認識システムは、クライアントにおいて入力された利用者の音声に対して、このクライアントあるいはこのクライアントにネットワークを介して接続されたサーバによる音声認識処理を行う。クライアントは、認識対象となる音声の入力を行う音声入力手段と、あらかじめ用意された複数の単語あるいは文章を対象に音声認識処理を行うクライアント側音声認識処理手段と、音声入力手段によって入力された音声について、クライアント側音声認識処理手段において音声認識処理を行うものとサーバにおいて音声認識処理を行うものとを振り分ける振り分け手段と、振り分け手段によってサーバにおいて音声認識処理を行うもとのして振り分けられた音声のデータをサーバに送信するクライアント側通信手段とを備える。サーバは、クライアントから送られてきた音声のデータを受信するサーバ側通信手段と、サーバ側通信手段によって受信した音声のデータを用いて音声認識処理を行うサーバ側音声認識処理手段とを備える。具体的には、上述したクライアント側音声認識処理手段は、音声入力手段によって入力された音声に対して音声認識処理を行うことにより、あらかじめ用意された複数の単語あるいは文章のいずれかの読みを特定している。
【0009】
あらかじめ用意された単語や文章に限定してクライアント側での音声認識処理を行うことにより、クライアント側で行う音声認識処理とサーバ側で行う音声認識処理を正確に振り分けることができるため、クライアント側とサーバ側の両方で音声認識処理を行うことを回避することができ、認識結果が得られるまでに要する時間を短縮することができる。また、クライアント側では、あらかじめ用意された単語や文章についてのみ認識結果が得られればよいため、音声認識処理に関するクライアントの規模および処理負担の軽減が可能となる。
【0010】
また、上述したクライアントは、車載装置であり、クライアントは、クライアント側音声認識処理手段あるいはサーバ側音声認識処理手段による認識結果に応じて、車載装置に対する操作指示あるいは情報入力を行う入力処理手段をさらに備えることが望ましい。これにより、車載装置における各種入力を音声認識処理を用いた音声入力によって行うことができるとともに、その際の音声認識処理に要する時間の短縮や、車載装置の規模や処理負担の軽減が可能となる。
【0011】
また、上述したクライアントは、利用者による手動操作を受け付ける操作手段をさらに備え、入力処理手段は、クライアント側音声認識処理手段による認識結果、サーバ側音声認識処理手段による認識結果、操作手段を用いた手動操作のいずれかに応じて、車載装置に対する操作指示あるいは情報入力を行うことが望ましい。これにより、車載装置において各種入力を行う際に、音声認識処理を用いた音声入力と、操作手段を用いた手動操作による入力とを必要に応じて使い分けることができ、操作性の向上が可能となる。
【0012】
また、上述した振り分け手段は、ネットワークを介してサーバに対する接続ができないときに、サーバにおける音声認識処理に代えて、クライアント側音声認識処理手段における音声認識処理に振り分けることが望ましい。これにより、何らかの原因によりサーバとの間の接続ができない場合であっても、音声認識処理を用いて操作指示や情報入力を行うことが可能となる。
【0013】
また、上述した入力処理手段は、ネットワークを介してサーバに対する接続ができないときに、サーバ側音声認識処理手段による認識結果に代えて、操作手段を用いた手動操作に応じて、車載装置に対する操作指示あるいは情報入力を行うことが望ましい。これにより、何らかの原因によりサーバとの間の接続ができない場合であっても、操作手段を用いて操作指示や情報入力を行うことが可能となる。
【0014】
また、上述した車載装置に対する操作指示あるいは情報入力の対象となる複数の単語あるいは文章が既知である場合に、振り分け手段は、クライアント側音声認識処理手段による音声認識処理に振り分けを行い、クライアント側音声認識処理手段は、音声入力手段によって入力された音声に対し音声認識処理を行うことにより、複数の単語あるいは文章の中から音声認識結果に対応するものを選択することが望ましい。また、上述したクライアント側音声認識処理手段は、既知の複数の単語あるいは文章に対する音声認識辞書を有することが望ましい。これにより、クライアント側音声認識処理手段において、あらかじめ用意された単語や文章の中から入力音声に対応するものを確実に抽出することができる。
【0015】
また、上述した複数の単語あるいは文章は、車載装置に対して操作指示を行う複数の操作コマンドであることが望ましい。これにより、車載装置に対する操作指示については車載装置側における音声認識処理を行い、迅速にその指示内容を判定して車載装置の動作に反映させることが可能となる。
【0016】
また、上述した車載装置は、通話先の電話番号および各電話番号に対応する名称が含まれる電話帳データが内蔵された移動体電話が接続されているときに、電話帳データに含まれる電話番号に対して移動体電話を用いた発呼を行うハンズフリー電話システムとして動作し、複数の単語あるいは文章は、電話番号および名称の少なくとも一方であることが望ましい。また、上述したクライアント側音声認識処理手段は、移動体電話が接続されたときに、電話帳データに含まれる電話番号および名称の少なくとも一方の読みに対応する音声認識辞書を作成する音声認識辞書作成手段を有することが望ましい。これにより、車載装置としてのハンズフリー電話システムにおいて電話番号や名称の入力に本発明を適用することが可能となる。
【0017】
また、上述した車載装置は、複数の楽曲に対して選択的に再生を行うオーディオ装置として動作し、複数の単語あるいは文章は、複数の楽曲のそれぞれに対応する楽曲名、アルバム名、アーティスト名の少なくとも一つであることが望ましい。また、上述したクライアント側音声認識処理手段は、楽曲名、アルバム名、アーティスト名の少なくとも一つの読みに対応する音声認識辞書を作成する音声認識辞書作成手段を有することが望ましい。これにより、車載装置としてのオーディオ装置において楽曲名、アルバム名、アーティスト名の入力に本発明を適用することが可能となる。
【0018】
また、上述した車載装置は、ネットワークを介して発信する文書を作成する文書作成手段をさらに備え、文書の作成に必要なテキスト入力を音声入力手段によって入力された音声に基づいて行う際に、振り分け手段は、サーバ側音声認識処理手段における音声認識処理に振り分けることが望ましい。また、上述した車載装置は、サーバから送信されるサーバ側音声認識処理手段による認識結果を取得する認識結果取得手段をさらに備え、文書作成手段は、認識結果所得手段によって取得した認識結果を、文書の作成に必要なテキストとして用いることが望ましい。これにより、車載装置において電子メール作成等の文書作成を行う際のテキスト入力に本発明を適用することが可能となる。
【0019】
また、上述した車載装置は、特定施設の詳細情報を表示する施設情報表示手段をさらに備え、施設情報表示手段による詳細情報表示の対象となる特定施設の入力を音声入力手段によって入力された音声に基づいて行う際に、振り分け手段は、サーバ側音声認識処理手段における音声認識処理に振り分けることが望ましい。また、上述した車載装置は、サーバから送信されるサーバ側音声認識手段による認識結果、あるいは、この認識結果を用いて検索された詳細情報を取得する認識結果取得手段をさらに備え、施設情報表示手段は、認識結果取得手段によって取得した認識結果を用いて検索された詳細情報、あるいは、認識結果取得手段によって取得した詳細情報を表示することが望ましい。これにより、車載装置において特定施設の詳細情報の表示を行う際に、表示対象となる特定施設の入力に本発明を適用することが可能となる。
【0020】
また、上述した音声入力手段は、マイクロホンであることが望ましい。これにより、利用者はクライアントに備わったマイクロホンに向かった発声するだけで、クライアント側あるいはサーバ側における音声認識処理が適切に振り分けられ、短時間のうちに認識結果を取得することが可能となる。
【0021】
また、上述したマイクロホンに向けて発声する際に利用者によって操作可能な発話スイッチをさらに備え、振り分け手段は、発話スイッチが操作された後にマイクロホンによって集音された利用者の音声に対して振り分けを行うことが望ましい。これにより、音声認識処理の対象となる音声の入力タイミングが明確になり、処理手順の簡略化や認識精度の向上が可能となる。
【0022】
また、それぞれがサーバ側音声認識処理手段を備える複数のサーバがクライアントと接続可能であり、振り分け手段は、サーバにおいて音声認識処理を行うものとして振り分けを行う際に、複数のサーバのいずれかを選択することが望ましい。これにより、得意とする分野等が異なる複数のサーバを使い分けて音声認識処理を依頼することができ、サーバに依頼する場合の認識精度を向上させることができる。
【図面の簡単な説明】
【0023】
【図1】一実施形態の音声認識システムの全体構成を示す図である。
【図2】車載装置の詳細構成を示す図である。
【図3】利用者が発話してその内容を車載装置の操作等に反映させるまでの動作手順を示す流れ図である。
【図4】サーバと接続ができない場合の変形例の動作手順を示す流れ図である。
【図5】サーバと接続ができない場合の他の変形例の動作手順を示す流れ図である。
【図6】携帯電話の接続時に電話帳データを読み出して音声認識辞書を登録する動作手順を示す流れ図である。
【図7】USBメモリの接続時にコンテンツリストの付属情報を読み出して音声認識辞書を登録する動作手順を示す流れ図である。
【図8】変形例の音声認識システムの全体構成を示す図である。
【図9】複数のサーバを使い分ける場合の変形例の動作手順を示す流れ図である。
【発明を実施するための形態】
【0024】
以下、本発明を適用した一実施形態の音声認識システムについて図面を参照しながら説明する。図1は、一実施形態の音声認識システムの全体構成を示す図である。本実施形態の音声認識システムは、車載装置1とサーバ2を含んで構成されている。車載装置1は、ナビゲーション装置やオーディオ装置などの機能を有し、車両に搭載されている。また、サーバ2は、車両の外部に設けられており、車載装置1と所定のネットワーク3を介して接続される。このネットワーク3は、例えばインターネットであり、車載装置1に接続された移動体電話としての携帯電話および基地局(ともに図示せず)を介して接続されている。なお、車載装置1のネットワーク3への接続は、必ずしも携帯電話を介して行う必要はなく、車載装置1に接続(あるいは内蔵)された無線LAN用の通信装置およびアクセスポイント(ともに図示せず)を介して接続するようにしてもよい。また、無線LANによってネットワーク3に接続可能な場合には無線LANによる接続を行い、無線LANによる接続が不可能な場合(近くにアクセスポイントがない場合など)には携帯電話を用いた接続を行うようにしてもよい。
【0025】
また、車載装置1には音声認識処理部100と振り分け判定部102とが備わっており、サーバ2には音声認識処理部200が備わっている。本実施形態の音声認識システムでは、クライアントとしての車載装置1において入力された利用者の音声に対して、車載装置1内の音声認識処理部100あるいはこの車載装置1にネットワーク3を介して接続されたサーバ2内の音声認識処理部200による音声認識処理を行っており、車載装置1とサーバ2のいずれにおいて音声認識処理を行うかの判定を振り分け判定部102によって行っている。
【0026】
図2は、車載装置1の詳細構成を示す図である。図2に示すように、車載装置1は、ナビゲーション処理部10、TVチューナ処理部14、ラジオチューナ処理部16、音声入力処理部20、音声認識処理部100、操作部40、発話スイッチ(SW)42、入力制御部44、制御部50、表示処理部60、表示装置62、デジタル−アナログ変換器(D/A)64、スピーカ66、ハードディスク装置(HDD)70、USB(Universal Serial Bus)インタフェース部(USB I/F)80、82を備えている。
【0027】
ナビゲーション処理部10は、ハードディスク装置70に記憶されている地図データを用いて車載装置1が搭載された車両の走行を案内するナビゲーション動作を行う。自車位置を検出するGPS装置12とともに用いられ、車両の走行を案内するナビゲーション動作には、地図表示、経路探索・誘導のほかに周辺施設やPOI(Point Of Interest)を検索して表示する動作などが含まれる。なお、自車位置検出は、GPS12の他にジャイロセンサや車速センサ等の自律航法センサを組み合わせて用いるようにしてもよい。
【0028】
TVチューナ処理部14は、地上デジタル放送等の放送信号を受信し、映像および音声を再生する処理を行う。ラジオチューナ処理部16は、ラジオ放送の信号を受信し、音声を再生する処理を行う。
【0029】
音声入力処理部20は、マイクロホン22によって集音された利用者(話者)の音声の入力処理を行う。具体的には、音声入力処理部20は、アナログ−デジタル変換器(A/D)24と圧縮処理部26を備えている。アナログ−デジタル変換器24は、マイクロホン22の出力信号をデジタルの音声データに変換する。圧縮処理部26は、アナログ−デジタル変換器24から出力される音声データを圧縮する。
【0030】
音声認識処理部100は、マイクロホン22によって集音した音声に対して音声認識処理を行うためのものであり、音声認識辞書作成部32、音声認識辞書34、音声認識部36を含んでいる。音声認識辞書作成部32は、車載装置1がハンズフリー電話システムとして動作する場合に発呼先となる電話番号および各電話番号に対応する名称(個人の氏名も含む)や、車載装置1がオーディオ装置として動作する場合に再生対象となる楽曲名、アルバム名、アーティスト名などを読み上げた音声に対応する音声認識辞書34を作成する。この音声認識辞書34の作成は所定のタイミングで行われるが、その具体例については後述する。音声認識辞書34は、既知の複数の単語あるいは文章について音声認識処理を行うためのものであり、これら複数の単語あるいは文章には、上述した電話番号や楽曲名などのように所定のタイミングで生成されるものの他に、車載装置1に対して操作指示を行う操作コマンドなどが含まれる。音声認識部36は、マイクロホン22によって集音した利用者の音声に対して音声認識辞書34を用いて音声認識処理を行い、利用者が発声した音声の内容(文字列)を特定する。
【0031】
操作部40は、車載装置1に対する利用者による手動操作を受け付けるためのものであり、各種の操作キー、操作スイッチ、操作つまみ等が含まれる。また、表示装置62に各種の操作画面や入力画面が表示された時点で、これらの操作画面や入力画面の一部を利用者が指などで直接指し示すことにより、操作画面や入力画面の表示項目を選択することができるようになっており、このような操作画面や入力画面を用いた操作を可能とするために、指し示された指などの位置を検出するタッチパネルが操作部40の一部として備わっている。なお、タッチパネルを用いる代わりに、リモートコントロールユニット等を用いて操作画面や入力画面の一部を利用者の指示に応じて選択するようにしてもよい。発話スイッチ42は、利用者がマイクロホン22に向けて発声する際に利用者によって操作されて発話タイミングを指示するために用いられる。入力制御部44は、操作部40および発話スイッチ42を監視しており、これらの操作内容を決定する。
【0032】
制御部50は、車載装置1の全体を制御するとともに、オーディオ装置やハンズフリー電話システムとしての動作を行う。この制御部50は、ROMやRAMなどに格納された動作プログラムをCPUによって実行することにより実現される。また、図1では、この制御部50とは別にナビゲーション処理部10やTVチューナ処理部14、ラジオチューナ処理部16、音声認識処理部100などを設けて図示したが、これらの一部の機能を制御部50によって実現するようにしてもよい。制御部50の詳細については後述する。
【0033】
表示処理部60は、各種の操作画面や入力画面、TVチューナ処理部14によって受信した放送信号に対応する映像画面等を表示する映像信号を出力し、表示装置62にこれらの各種画面を表示する。デジタル−アナログ変換器64は、車載装置1がハンズフリー電話システムとして動作する場合の音声データをアナログの音声信号に変換してスピーカ66から出力するとともに、車載装置1がオーディオ装置として動作する場合のオーディオデータ(楽曲データ)をアナログのオーディオ信号に変換してスピーカ66から出力する。なお、実際には、デジタル−アナログ変換器64とスピーカ66の間には信号を増幅する増幅器が接続されているが、図2ではこの増幅器は省略されている。また、デジタル−アナログ変換器64とスピーカ66との組合せは再生チャンネル数分備わっているが、図2では一組のみが図示されている。
【0034】
ハードディスク装置70は、ナビゲーション処理部10によるナビゲーション動作に用いる地図データや周辺施設・POI検索用データ、オーディオ装置における再生動作に用いるコンテンツリスト、ハンズフリー電話システムで用いる電話帳データなどを格納する。ここで、コンテンツリストには、コンテンツデータ(楽曲データ)のフォルダ構成、ファイル構成、ファイル属性が含まれる。このファイル属性には、各楽曲に対応する付属情報、具体的には、楽曲の歌唱あるいは演奏を行うアーティスト名と、楽曲が収録されたアルバムが存在する場合にはアルバム名と、この楽曲の名称(楽曲名)とが含まれる。また、電話帳データには、あらかじめ登録されている電話番号と、各電話番号に対応する名称(個人の場合には個人の氏名やニックネーム等、会社やその他の団体の場合には会社名やその略称等)が含まれる。
【0035】
USBインタフェース部80、82は、USBケーブルを介して携帯電話90や外部の記憶媒体としてのUSBメモリ92などとの間で信号の入出力を行うためのものであり、USBポートやUSBホストコントローラが含まれる。USBメモリ92には楽曲データが記録されている。
【0036】
次に、制御部50の詳細について説明する。図2に示すように、制御部50は、電話帳取得部51、電話処理部52、コンテンツリスト作成部53、AV処理部54、インターネット処理部55、振り分け判定部102、音声データ送信部56、認識結果取得部57、入力処理部58を有している。
【0037】
電話帳取得部51は、USBインタフェース部80、82のいずれかに接続された携帯電話90に登録されている電話帳データを読み込んで取得する。取得した電話帳データは、例えばハードディスク装置70に格納される。この電話帳データには、発呼先となる「電話番号」と、各電話番号に対応する個人名や会社名等の「名称」と、電子メールのアドレスがわかっている場合にはその「アドレス」とが含まれている。なお、本実施形態では、一方のUSBインタフェース部80に携帯電話90が接続され、他方のUSBインタフェース部82に楽曲データを格納したUSBメモリ92が接続されるものとして、以下では説明を行う。
【0038】
電話処理部52は、電話帳取得部51によって取得した電話帳データに含まれるいずれかの電話番号に対して、あるいは、利用者が操作部40を用いて直接電話番号を入力した場合にはその電話番号に対して、携帯電話90を用いて電話を掛ける発呼処理を行う。また、電話処理部52は、通話相手との間で電話回線の接続が行われた後は、マイクロホン22によって集音した話者の音声を通話相手に送信するとともに、通話相手の音声をスピーカ66から出力する処理を行う。このようにして、電話処理部52によって携帯電話90を利用したハンズフリー電話システムが実現される。
【0039】
コンテンツリスト作成部53は、接続が検出された記録メディアとしてのUSBメモリ92に記録されたコンテンツデータ(楽曲データ)を解析し、解析結果に基づいてコンテンツリストを作成する。上述したように、コンテンツリストには、コンテンツデータのフォルダ構成、ファイル構成およびファイル属性(アーティスト名、アルバム名、楽曲名等)が含まれる。作成されたコンテンツリストは、例えばハードディスク装置70に格納される。なお、このコンテンツリストの作成は、例えば、USBインタフェース部82にUSBメモリ92が接続されたタイミングで行われる。
【0040】
AV処理部54は、USBメモリ92に格納されている所定形式の楽曲データを読み出して復調処理を行い、デジタル−アナログ変換器64に入力する形式の楽曲データ(例えばPCMデータ)に変換することにより楽曲の再生を行う。また、AV処理部54は、この再生動作に際して、利用者によって楽曲の再生箇所を選択したり、音量変更等を行うための再生メニュー画面を作成する。この再生メニュー画面は表示処理部60を介して表示装置62に表示される。
【0041】
インターネット処理部55は、インターネットを介した各種のサービスを利用するために必要な処理を行う。具体的には、インターネット処理部55は、ウェブブラウザとメールソフトの機能を有しており、利用者の指示や入力に応じて、ウェブページの閲覧や、電子メールの作成および送受信、SNS(ソーシャル・ネットワーキング・サービス)画面の閲覧や入力等を行う。
【0042】
振り分け判定部102は、マイクロホン22によって集音された音声について、クライアント側(車載装置1)の音声認識処理部100において音声認識処理を行うものとサーバ2の音声認識処理部200において音声認識処理を行うものとを振り分ける。音声データ送信部56は、サーバ2の音声認識処理部200に音声認識処理を依頼する際に、マイクロホン22で集音して圧縮処理部26で圧縮した音声データをサーバ2に向けて送信する処理を行う。認識結果取得部57は、音声認識処理の結果(認識結果)がサーバ2から送り返されてきたときにこの認識結果を受信する。なお、サーバ2には、車載装置1から送られてくる音声データを受信して音声認識処理部200に入力するとともに、音声認識処理部200による認識結果を取得して車載装置1に送り返す制御を行う通信制御部202が備わっている。
【0043】
入力処理部58は、音声認識処理部100による認識結果、サーバ2から取得した音声認識処理部200による認識結果、操作部40を用いた操作内容の中からいずれかを、車載装置1に対する操作指示あるいは情報入力の内容として選択する。これらの選択の具体例については後述する。
【0044】
上述したマイクロホン22が音声入力手段に、音声認識処理部100がクライアント側音声認識処理手段に、振り分け判定部102が振り分け手段に、音声データ送信部52がクライアント側通信手段に、通信制御部200がサーバ側通信手段に、音声認識処理部200がサーバ側音声認識処理手段にそれぞれ対応する。また、入力処理部58が入力処理手段に、操作部40が操作手段に、インターネット処理部55が文書作成手段に、認識結果取得部57が認識結果取得手段に、ナビゲーション処理部10が施設情報表示手段にそれぞれ対応する。
【0045】
本実施形態の音声認識システムはこのような構成を有しており、次に、マイクロホン22に向けて利用者が発話し、この発話音声に対して音声認識処理を行う動作について説明する。
【0046】
図3は、利用者が発話してその内容を車載装置1の操作等に反映させるまでの動作手順を示す流れ図である。音声認識部36は、発話スイッチ42がオンされたか否かを判定する(ステップ100)。発話スイッチ42がオンされない場合には否定判断が行われ、この判定が繰り返される。
【0047】
また、発話スイッチ42がオンされるとステップ100の判定において肯定判断が行われる。次に、振り分け判定部102は、その時点の表示内容に基づいて入力モードを解析する(ステップ102)。例えば、該当項目を選択するメニュー画面等が表示されている入力モード(この入力モードを「該当項目選択モード」と称する)に該当するか、テキストボックスが含まれてテキストの入力状態になっている入力モード(この入力モードを「テキスト入力モード」と称する)に該当するかが判定される。
【0048】
ところで、本実施形態では、各種の操作指示や情報入力を、音声入力によって行うことを想定している。また、入力音声に対しては音声認識処理を行ってその内容を特定するが、あらかじめ1対1に対応する音声辞書が用意されている単語あるいは文章を音声認識処理の対象とするか、対応する音声辞書があらかじめ用意されていない不特定の単語や文章を音声認識処理の対象とするかの振り分けが振り分け判定部102によって行われる。
【0049】
さらに具体的には、入力モードが「該当項目選択モード」である場合が、あらかじめ1対1に対応する音声辞書が用意されている単語あるいは文章を音声認識処理の対象とするものであって、このときの音声認識処理が車載装置1の音声認識処理部100によって行われる。一方、入力モードが「テキスト入力モード」である場合が、対応する音声辞書があらかじめ用意されていない不特定の単語や文章を音声認識処理の対象とするものであって、このときの音声認識処理がサーバ2の音声認識処理部200によって行われる。
【0050】
振り分け判定部102は、解析した入力モードが該当項目選択モードであるか否かを判定する(ステップ104)。現在の入力モードが該当項目選択モードである場合には肯定判断が行われる。次に、車載装置1に内蔵された音声認識処理部100は、マイクロホン22によって集音された利用者の音声に対して音声認識処理を行う(ステップ106)。また、入力処理部58は、この音声認識結果をその時点の表示内容に対応する操作指示や情報入力の内容として用いて車載装置1に対する操作や入力を実行する(ステップ108)。
【0051】
例えば、ナビゲーション処理部10によるナビゲーション動作中に地図画像表示が行われているときに、「シュクシャク」と音声入力されたときに表示縮尺の変更を指示したり、「モクテキチ」と音声入力されたときに目的地の設定を指示することがあらかじめ決められており、「シュクシャク」、「モクテキチ」などを音声認識するための音声認識辞書34が用意されている。振り分け判定部102は、その時点の表示内容が「地図画像」である場合に入力モードが「該当項目選択モード」であると判定し、音声認識部36は、入力音声「シュクシャク」等に対して音声認識辞書34を用いた音声認識を行い、認識結果として文字列「シュクシャク」等を得ることができる。この認識結果を受けて、ナビゲーション処理部10は、表示中の地図画像の表示縮尺を変更する処理を開始する。
【0052】
また、TVチューナ処理部14による受信動作中に受信対象となる放送局を選択する選局画面が表示されているときに、「○○テレビ」と音声入力されたときにこの放送局への選局の切り替えを指示することがあらかじめ決められており、「○○テレビ」などを音声認識するための音声認識辞書34が用意されている。振り分け判定部102は、その時点の表示内容が「選局画面」である場合に入力モードが「該当項目選択モード」であると判定し、音声認識部36は、入力音声「○○テレビ」等に対して音声認識辞書34を用いた音声認識を行い、認識結果として文字列「○○テレビ」等を得ることができる。この認識結果を受けて、TVチューナ処理部14は、選局を○○テレビ等に変更する。
【0053】
一方、現在の入力モードがテキスト入力モードである場合にはステップ104の判定において否定判断が行われる。次に、音声データ送信部56は、マイクロホン22から入力されて圧縮処理部26によって圧縮処理された音声データをネットワーク3を介してサーバ2に向けて送信して、サーバ2内の音声認識処理部200による音声認識処理を依頼する(ステップ110)。その後、認識結果取得部57は、サーバ2から送り返されてくる認識結果を受信したか否かを判定する(ステップ112)。受信していない場合には否定判断が行われ、この判定が繰り返される。また、認識結果を受信した場合にはステップ112の判定において肯定判断が行われる。次に、入力処理部58は、サーバ2から受信した音声認識結果をその時点の表示内容に対応する操作指示や情報入力の内容として用いて車載装置1に対する操作や入力を実行する(ステップ108)。
【0054】
例えば、インターネット処理部55によるメール作成動作中にメール作成画面が表示され、入力位置がメール本文を指しているときに、振り分け判定部102は「テキスト入力モード」であると判定し、メール本文に入力する文章を示す入力音声に対する音声認識(自然言語認識)がサーバ2内の音声認識処理部200に依頼される。そして、認識結果(入力する文章に対応する文字列)が送り返されてくると、インターネット処理部55は、メール本文にこの認識結果としての文字列を入力してメール作成を行う。
【0055】
このように、本実施形態の音声認識システムでは、あらかじめ用意された単語や文章に限定して車載装置1側での音声認識処理を行うことにより、車載装置1側で行う音声認識処理とサーバ2側で行う音声認識処理を正確に振り分けることができるため、車載装置1側とサーバ2側の両方で音声認識処理を行うことを回避することができ、認識結果が得られるまでに要する時間を短縮することができる。また、車載装置1側では、あらかじめ用意された単語や文章についてのみ認識結果が得られればよいため、音声認識処理に関する車載装置1の規模および処理負担の軽減が可能となる。
【0056】
また、車載装置1に操作部40を備えることにより、車載装置1において各種入力を行う際に、音声認識処理を用いた音声入力と、操作部40を用いた手動操作による入力とを必要に応じて使い分けることができ、操作性の向上が可能となる。
【0057】
また、車載装置1に対する操作指示あるいは情報入力の対象となる複数の単語あるいは文章が既知である場合に、振り分け判定部102は、車載装置1において音声認識処理を行う振り分けを行うととに、これら既知の単語あるいは文章に対応する音声認識辞書34を車載装置1に備えて音声認識処理を行っており、これにより、車載装置1において入力音声に対する音声認識処理を確実に行うことができる。
【0058】
また、上述した既知の複数の単語あるいは文章を、車載装置1に対して操作指示を行う複数の操作コマンドとすることにより、車載装置1に対する操作指示については車載装置1側における音声認識処理を行い、迅速にその指示内容を判定して車載装置1の動作に反映させることが可能となる。
【0059】
ところで、図3に示した動作手順は、いつでもサーバ2と接続可能な状態にあることが前提となっている。しかし、車載装置1が搭載された車両が携帯電話90の電波の届かない場所を走行中やこのような場所に車両を駐車しているときにはサーバ2と接続できない場合がある。例えば、携帯電話90の基地局が存在しないような山間部を走行中または駐車中や、長いトンネル内を走行中などの場合にが、サーバ2との間の接続ができないことが多い。
【0060】
図4は、サーバ2と接続ができない場合の変形例の動作手順を示す流れ図である。図4に示す動作手順は、図3に示した動作手順に対して、ステップ110の動作の前にステップ109の動作を追加した点が異なっている。
【0061】
このステップ109では、現在の入力モードがテキスト入力モードである場合であってステップ104の判定において否定判断が行われた後、音声データ送信部56は、サーバ2に接続できたか否かを判定する。接続できた場合には肯定判断が行われ、ステップ110のサーバ2内の音声認識処理部200による音声認識処理の依頼動作に移行する。
【0062】
また、サーバ2の接続が困難な場合(電波状態が悪い場合の他に、携帯電話90が接続されていない場合や故障した場合も含まれる)にはステップ109の判定において否定判断が行われる。この場合にはステップ106に移行し、車載装置1に内蔵された音声認識処理部100を用いた音声認識処理に移行する。なお、テキスト入力モードの場合には、入力対象となる単語や文章が事前にわかっていないため、音声認識部36では、利用者の発話音声の一語一語に対して音声認識処理を行って内容を特定する処理が行われる。
【0063】
このように、サーバ2と接続ができない状況にある場合には車載装置1において音声認識処理が行われるため、サーバ2と接続できないことが原因で処理が中断してしまうことを防止することができる。
【0064】
図5は、サーバ2と接続ができない場合の他の変形例の動作手順を示す流れ図である。図5に示す動作手順は、図4に示した動作手順に対して、ステップ109の判定において否定判断が行われた後の動作としてステップ111の動作を追加した点が異なっている。
【0065】
このステップ111では、サーバ2と接続ができない場合であってステップ109の判定において否定判断が行われた後、操作部40を用いた入力動作が行われる。入力処理部58は、サーバ2から受信した音声認識結果の代わりに、操作部40の操作内容をその時点の表示内容に対応する操作指示や情報入力の内容として用いて車載装置1に対する操作や入力を実行する(ステップ108)。
【0066】
このように、サーバ2と接続ができない状況にある場合には、サーバ2による音声認識処理の代わりに操作部40を用いた利用者の手動操作が行われるため、サーバ2と接続できないことが原因で処理が中断してしまうことを防止することができる。
【0067】
また、上述した該当項目選択モードに対応して車載装置1内の音声認識処理部100によって音声認識処理を行う場合には、その前提として、音声認識の対象となる単語や文章が既知であって、これらに対応する音声認識辞書34を備える必要がある。例えば、車載装置1をオーディオ装置やナビゲーション装置等として用いる場合にその操作コマンド(操作指示)を音声によって行う場合には、各操作コマンドとしての単語あるいは文章に対応する音声認識辞書34をあらかじめ作成しておけばよい。
【0068】
一方、車載装置1をハンズフリー電話システムとして使用して通話先の氏名や電話番号を音声で入力する場合や、車載装置1をオーディオ装置として使用してアーティスト名、アルバム名、楽曲名を音声で入力する場合などについては、音声入力する内容が車載装置1毎に、あるいは接続される携帯電話90やUSBメモリ92毎に異なるため、音声認識の対象となる単語や文章に対応する音声認識辞書34を必要に応じて作成する必要がある。
【0069】
図6は、携帯電話90の接続時に電話帳データを読み出して音声認識辞書34を登録する動作手順を示す流れ図である。電話帳取得部51は、携帯電話90が接続されたか否かを判定しており(ステップ200)、接続されるまで否定判断を行ってこの判定を繰り返す。また、携帯電話90が接続された場合にはステップ200の判定において肯定判断が行われる。
【0070】
次に、電話帳取得部51は、携帯電話90に格納された電話帳データを読み込む(ステップ202)。この電話帳データには通話先となる電話番号および名称の他に住所等の情報も含まれる。電話帳取得部51は、読み込んだ電話帳データの中から電話番号と名称を抽出する(ステップ204)。
【0071】
次に、音声認識処理部100内の音声認識辞書作成部32は、抽出された電話番号と名称に対応する音声認識辞書を作成して(ステップ206)、音声認識部36によって用いられる音声認識辞書34として登録する(ステップ208)。例えば、音声認識辞書作成部32は、抽出された電話番号と名称のそれぞれの文字列に対してGTP(Grapheme To Phoneme、書記素−音素変換)処理を行って、文字列の「よみ情報」を作成した後、このよみ情報から音声認識処理用の動的な認識辞書を作成する。例えば、よみ情報に対してTTS(Text-to-Speech)処理を行って音声波形を生成し、この音声波形について音声認識処理用の特徴抽出を行うことにより動的な認識辞書の作成が行われる。作成された認識辞書が音声認識辞書34として登録される。
【0072】
このように、携帯電話90を接続した際に電話帳データを読み出して電話番号や名称を抽出し、動的な認識辞書が作成されるため、これらを音声入力した際に車載装置1側の音声認識処理によって確実にハンズフリー電話システムの通話先を決定することができる。
【0073】
図7は、USBメモリ92の接続時にコンテンツリストの付属情報を読み出して音声認識辞書34を登録する動作手順を示す流れ図である。コンテンツリスト作成部53は、USBメモリ92が接続されたか否かを判定しており(ステップ300)、接続されるまで否定判断を行ってこの判定を繰り返す。また、USBメモリ92が接続された場合にはステップ300の判定において肯定判断が行われる。
【0074】
次に、コンテンツリスト作成部53は、USBメモリ92に記録されたコンテンツデータを解析する(ステップ302)。この解析結果に基づいてコンテンツリストが作成されるが、このコンテンツリストにはコンテンツデータのフォルダ構成、ファイル構成およびファイル属性(アーティスト名、アルバム名、楽曲名等)が含まれる。コンテンツリスト作成部53は、解析結果に基づいて作成したコンテンツリストの中からアーティスト名、アルバム名、楽曲名を抽出する(ステップ304)。
【0075】
次に、音声認識処理部100内の音声認識辞書作成部32は、抽出されたアーティスト名、アルバム名、楽曲名に対応する音声認識辞書を作成して(ステップ306)、音声認識部36によって用いられる音声認識辞書34として登録する(ステップ308)。例えば、音声認識辞書作成部32は、抽出されたアーティスト名、アルバム名、楽曲名のそれぞれの文字列に対してGTP処理を行って、文字列の「よみ情報」を作成した後、このよみ情報から音声認識処理用の動的な認識辞書を作成する。作成された認識辞書が音声認識辞書34として登録される。
【0076】
このように、USBメモリ92を接続した際にコンテンツデータを読み出してアーティスト名、アルバム名、楽曲名を抽出し、動的な認識辞書が作成されるため、これらを音声入力した際に車載装置1側の音声認識処理によって確実にオーディオ装置において再生対象となる楽曲等を決定することができる。
【0077】
また、上述した本実施形態では、入力モードが「テキスト入力モード」の場合にはサーバ2に対して音声認識処理を依頼するようにしているが、この依頼は、複数のサーバに分散して行うようにしてもよい。例えば、車載装置1をナビゲーション装置として用いる際に周辺施設やPOI(Point Of Interest)の検索を行う場合には、施設名等を含む単語を対象に音声認識処理(単語認識)を行うことになる。一方、電子メール作成時にテキストボックスを開いて入力する場合には、単語よりもむしろ文章を対象に音声認識処理(自然言語認識)を行うことになる。このように、音声認識処理の種類(単語認識か自然言語認識か)によって、それぞれの音声認識処理に適したサーバを選択するようにしてもよい。なお、一概に単語認識といっても、認識対象となる単語の分野によって適した音声認識処理を行うサーバが異なる場合なども考えられるため、複数のサーバを使い分ける方法は上述した分野に応じて分ける場合だけでなく、さらに分野等を考慮して別の分け方をするようにしてもよい。あるいは、利用料金が安いサーバを優先的に選択するようにしてもよい(その前提として、利用料金に関する情報を保持しておく必要がある)。
【0078】
図8は、変形例の音声認識システムの全体構成を示す図である。この音声認識システムは、車載装置1と複数のサーバ2A、2Bを含んで構成されている。サーバ2Aは、単語認識に適した音声認識処理部200Aを備えている。また、サーバ2Bは、自然言語認識に適した音声認識処理部200Bを備えている。
【0079】
図9は、複数のサーバ2A、2Bを使い分ける場合の変形例の動作手順を示す流れ図である。図9に示した動作手順は、図3に示した動作手順に対して、ステップ110の動作をステップ110A、110Bの動作に置き換えた点が異なっている。以下では、これらの置き換えたステップに着目して説明する。
【0080】
現在の入力モードがテキスト入力モードであってステップ104の判定において否定判断が行われると、次に、音声データ送信部56は、音声認識処理を依頼するサーバを選択し(ステップ110A)、マイクロホン22から入力されて圧縮処理部26によって圧縮処理された音声データを、選択されたサーバ2A、2Bのいずれかに向けて送信して音声認識処理を依頼する(ステップ110B)。
【0081】
例えば、ステップ110Aにおけるサーバの選択は、入力音声に対する音声認識処理の種類に応じて行われる。単語認識を行う場合にはサーバ2Aが選択され、サーバ2A内の音声認識処理部200Aに対して音声認識処理が依頼される。また、自然言語認識を行う場合にはサーバ2Bが選択され、サーバ2B内の音声認識処理部200Bに対して音声認識処理が依頼される。このように、得意とする分野等が異なる複数のサーバ2A、2Bを使い分けて音声認識処理を依頼することができ、サーバに依頼する場合の認識精度を向上させることができる。
【0082】
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、車載装置1にナビゲーション装置、オーディオ装置、ハンズフリー電話システム、テレビ受信機、ラジオ受信機の機能を持たせたが、これらの一部の機能を持たせて入力音声に対して音声認識処理を行うようにしてもよい。
【0083】
また、上述した実施形態では、電子メールの作成に必要な音声に入力については「テキスト入力モード」を適用したが、送信先アドレスの入力については「該当項目選択モード」を適用するようにしてもよい。例えば、図6に示したステップ204において、読み込んだ電話帳データの中から電話番号と名称の他にアドレスを抽出し、ステップ205において、抽出された電話番号、名称、アドレスに対応する音声認識辞書を作成しておくようにする。そして、電子メール作成の際に、メール作成画面における入力位置が電子メールの送信先アドレスを入力する「宛先」の位置にある場合であって、アドレスの入力が音声でなされた場合には、この入力音声に対する音声認識処理を車載装置1側で行うようにしてもよい。また、このアドレスの音声入力は、アドレスそのものを音声で読み上げる場合の他に、このアドレスに対応する名称や電話番号を音声で読み上げるようにしてもよい。電話帳取得部51によって取得した電話帳データに基づいて、名称(あるいは電話番号)に1対1に対応するアドレスを抽出することができるため、この抽出したアドレスを電子メールの宛先として割り当てることができる。
【0084】
また、上述した実施形態では、入力音声に対応する音声データをサーバ2等に送り、サーバ2等から車載装置1に向けて認識結果を送り返すようにしたが、サーバ2等において認識結果に基づく所定の処理を行った結果を車載装置1に送り返すようにしてもよい。例えば、車載装置1をナビゲーション装置として使用し、周辺施設やPOIの検索に必要な事項を音声入力する場合に、入力音声に対する音声認識処理をサーバ2内の音声認識処理部200によって行い、その認識結果を用いて検索処理部(図示せず)にて周辺施設等の検索を行い、その検索結果を車載装置1に送り返すようにしてもよい。
【産業上の利用可能性】
【0085】
上述したように、本発明によれば、あらかじめ用意された単語や文章に限定して車載装置1側での音声認識処理を行うことにより、車載装置1側で行う音声認識処理とサーバ2側で行う音声認識処理を正確に振り分けることができるため、車載装置1側とサーバ2側の両方で音声認識処理を行うことを回避することができ、認識結果が得られるまでに要する時間を短縮することができる。また、車載装置1側では、あらかじめ用意された単語や文章についてのみ認識結果が得られればよいため、音声認識処理に関する車載装置1の規模および処理負担の軽減が可能となる。
【符号の説明】
【0086】
1 車載装置
2、2A、2B サーバ
10 ナビゲーション処理部
14 TVチューナ処理部
16 ラジオチューナ処理部
20 音声入力処理部
22 マイクロホン
24 アナログ−デジタル変換器(A/D)
26 圧縮処理部
32 音声認識辞書作成部
34 音声認識辞書
36 音声認識部
40 操作部
42 発話スイッチ(SW)
44 入力制御部
50 制御部
51 電話帳取得部
52 電話処理部
53 コンテンツリスト作成部
54 AV処理部
55 インターネット処理部
56 音声データ送信部
57 認識結果取得部
58 入力処理部
60 表示処理部
62 表示装置
64 デジタル−アナログ変換器(D/A)
66 スピーカ
70 ハードディスク装置(HDD)
80、82 USBインタフェース部(USB I/F)
90 携帯電話
92 USBメモリ
100 音声認識処理部
102 振り分け判定部
200、200A、200B 音声認識処理部
202 通信制御部

【特許請求の範囲】
【請求項1】
クライアントにおいて入力された利用者の音声に対して、このクライアントあるいはこのクライアントにネットワークを介して接続されたサーバによる音声認識処理を行う音声認識システムであって、
前記クライアントは、
認識対象となる音声の入力を行う音声入力手段と、
あらかじめ用意された複数の単語あるいは文章を対象に音声認識処理を行うクライアント側音声認識処理手段と、
前記音声入力手段によって入力された音声について、前記クライアント側音声認識処理手段において音声認識処理を行うものと前記サーバにおいて音声認識処理を行うものとを振り分ける振り分け手段と、
前記振り分け手段によって前記サーバにおいて音声認識処理を行うもとのして振り分けられた音声のデータを前記サーバに送信するクライアント側通信手段と、を備え、
前記サーバは、
前記クライアントから送られてきた音声のデータを受信するサーバ側通信手段と、
前記サーバ側通信手段によって受信した音声のデータを用いて音声認識処理を行うサーバ側音声認識処理手段と、を備えることを特徴とする音声認識システム。
【請求項2】
請求項1において、
前記クライアント側音声認識処理手段は、前記音声入力手段によって入力された音声に対して音声認識処理を行うことにより、あらかじめ用意された前記複数の単語あるいは文章のいずれかの読みを特定することを特徴とする音声認識システム。
【請求項3】
請求項2において、
前記クライアントは、車載装置であり、
前記クライアントは、前記クライアント側音声認識処理手段あるいは前記サーバ側音声認識処理手段による認識結果に応じて、前記車載装置に対する操作指示あるいは情報入力を行う入力処理手段をさらに備えることを特徴とする音声認識システム。
【請求項4】
請求項3において、
前記クライアントは、利用者による手動操作を受け付ける操作手段をさらに備え、
前記入力処理手段は、前記クライアント側音声認識処理手段による認識結果、前記サーバ側音声認識処理手段による認識結果、前記操作手段を用いた手動操作のいずれかに応じて、前記車載装置に対する操作指示あるいは情報入力を行うことを特徴とする音声認識システム。
【請求項5】
請求項3または4において、
前記振り分け手段は、ネットワークを介して前記サーバに対する接続ができないときに、前記サーバにおける音声認識処理に代えて、前記クライアント側音声認識処理手段における音声認識処理に振り分けることを特徴とする音声認識システム。
【請求項6】
請求項4において、
前記入力処理手段は、ネットワークを介して前記サーバに対する接続ができないときに、前記サーバ側音声認識処理手段による認識結果に代えて、前記操作手段を用いた手動操作に応じて、前記車載装置に対する操作指示あるいは情報入力を行うことを特徴とする音声認識システム。
【請求項7】
請求項3〜6のいずれかにおいて、
前記車載装置に対する操作指示あるいは情報入力の対象となる前記複数の単語あるいは文章が既知である場合に、前記振り分け手段は、前記クライアント側音声認識処理手段による音声認識処理に振り分けを行い、前記クライアント側音声認識処理手段は、前記音声入力手段によって入力された音声に対し音声認識処理を行うことにより、前記複数の単語あるいは文章の中から音声認識結果に対応するものを選択することを特徴とする音声認識システム。
【請求項8】
請求項7において、
前記クライアント側音声認識処理手段は、既知の前記複数の単語あるいは文章に対する音声認識辞書を有することを特徴とする音声認識システム。
【請求項9】
請求項8において、
前記複数の単語あるいは文章は、前記車載装置に対して操作指示を行う複数の操作コマンドであることを特徴とする音声認識システム。
【請求項10】
請求項8において、
前記車載装置は、通話先の電話番号および各電話番号に対応する名称が含まれる電話帳データが内蔵された移動体電話が接続されているときに、前記電話帳データに含まれる前記電話番号に対して前記移動体電話を用いた発呼を行うハンズフリー電話システムとして動作し、
前記複数の単語あるいは文章は、前記電話番号および前記名称の少なくとも一方であることを特徴とする音声認識システム。
【請求項11】
請求項10において、
前記クライアント側音声認識処理手段は、前記移動体電話が接続されたときに、前記電話帳データに含まれる前記電話番号および前記名称の少なくとも一方の読みに対応する前記音声認識辞書を作成する音声認識辞書作成手段を有することを特徴とする音声認識システム。
【請求項12】
請求項8において、
前記車載装置は、複数の楽曲に対して選択的に再生を行うオーディオ装置として動作し、
前記複数の単語あるいは文章は、前記複数の楽曲のそれぞれに対応する楽曲名、アルバム名、アーティスト名の少なくとも一つであることを特徴とする音声認識システム。
【請求項13】
請求項12において、
前記クライアント側音声認識処理手段は、前記楽曲名、アルバム名、アーティスト名の少なくとも一つの読みに対応する前記音声認識辞書を作成する音声認識辞書作成手段を有することを特徴とする音声認識システム。
【請求項14】
請求項3〜13のいずれかにおいて、
前記車載装置は、ネットワークを介して発信する文書を作成する文書作成手段をさらに備え、
前記文書の作成に必要なテキスト入力を前記音声入力手段によって入力された音声に基づいて行う際に、前記振り分け手段は、前記サーバ側音声認識処理手段における音声認識処理に振り分けることを特徴とする音声認識システム。
【請求項15】
請求項14において、
前記車載装置は、前記サーバから送信される前記サーバ側音声認識処理手段による認識結果を取得する認識結果取得手段をさらに備え、
前記文書作成手段は、前記認識結果所得手段によって取得した認識結果を、前記文書の作成に必要なテキストとして用いることを特徴とする音声認識システム。
【請求項16】
請求項3〜13のいずれかにおいて、
前記車載装置は、特定施設の詳細情報を表示する施設情報表示手段をさらに備え、
前記施設情報表示手段による詳細情報表示の対象となる前記特定施設の入力を前記音声入力手段によって入力された音声に基づいて行う際に、前記振り分け手段は、前記サーバ側音声認識処理手段における音声認識処理に振り分けることを特徴とする音声認識システム。
【請求項17】
請求項16において、
前記車載装置は、前記サーバから送信される前記サーバ側音声認識手段による認識結果、あるいは、この認識結果を用いて検索された前記詳細情報を取得する認識結果取得手段をさらに備え、
前記施設情報表示手段は、前記認識結果取得手段によって取得した認識結果を用いて検索された前記詳細情報、あるいは、前記認識結果取得手段によって取得した前記詳細情報を表示することを特徴とする音声認識システム。
【請求項18】
請求項1〜17のいずれかにおいて、
前記音声入力手段は、マイクロホンであることを特徴とする音声認識システム。
【請求項19】
請求項18において、
前記マイクロホンに向けて発声する際に利用者によって操作可能な発話スイッチをさらに備え、
前記振り分け手段は、前記発話スイッチが操作された後に前記マイクロホンによって集音された利用者の音声に対して振り分けを行うことを特徴とする音声認識システム。
【請求項20】
請求項1〜19のいずれかにおいて、
それぞれが前記サーバ側音声認識処理手段を備える複数の前記サーバが前記クライアントと接続可能であり、
前記振り分け手段は、前記サーバにおいて音声認識処理を行うものとして振り分けを行う際に、前記複数のサーバのいずれかを選択することを特徴とする音声認識システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2013−88477(P2013−88477A)
【公開日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願番号】特願2011−226051(P2011−226051)
【出願日】平成23年10月13日(2011.10.13)
【出願人】(000101732)アルパイン株式会社 (2,424)
【Fターム(参考)】