音声認識システム

【課題】クライアントとサーバとで分散して音声認識処理を行う場合に認識結果が得られるまでに要する時間を短縮するとともに、音声認識処理に関するクライアントの規模および処理負担の軽減が可能な音声認識システムを提供すること。
【解決手段】車載装置１において入力された利用者の音声に対して、この車載装置１あるいはネットワーク３を介して接続されたサーバ２による音声認識処理が行われる。車載装置１は、マイクロホン２２と、あらかじめ用意された複数の単語あるいは文章を対象に音声認識処理を行う音声認識処理部１００と、入力された音声について音声認識処理部１００において音声認識処理を行うものとサーバ２において音声認識処理を行うものとを振り分ける振り分け判定部１０２と、サーバ２側で音声認識処理を行う場合に音声データをサーバ２に送信する音声データ送信部５６とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、入力音声に対して音声認識処理を行う音声認識システムに関する。
【背景技術】
【０００２】
従来から、ネットワークを介して接続されたサーバとクライアントを備え、クライアントで処理できるものはクライアントで処理し、サーバでなければ処理できないもののみをサーバに送信して処理するようにした音声認識システムが知られている（例えば、特許文献１参照。）。クライアントとサーバのどちらの音声認識エンジンを使用するかの判定は、基本的にクライントに音響モデル辞書・言語モデル辞書・単語辞書のうちのいずれか１以上を含む小語彙辞書群があるかどうかで行われる。すなわち、小語彙辞書群がある場合にはクライアントで音声認識処理が行われ、ない場合にはサーバで音声認識処理が行われる。また、クライントで音声認識処理を行った結果、認識不可能であった場合もサーバで音声認識処理が行われる。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００５−２４９８２９号公報（第８−１１頁、図１−３）
【発明の概要】
【発明が解決しようとする課題】
【０００４】
上述した特許文献１には、音声入力がなされたときにこの入力音声に対する音声認識処理をクライントで行うかサーバで行うかについては、以下のような具体例の記載が含まれる。
（１）各国の言語に合わせた音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群を用意しておけば、各言語に合わせた音声認識がクライアントでも行える。
（２）病院やレストランの予約システムで使用する場合とか、インターネット株取引で使う場合とかなどによって、分野別音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群を用意しておけば、ユーザが利用したい分野ごとに音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群を選択することができ、クライアントでの音声認識のヒット率も高めることができる。
【０００５】
これらの記載からもわかるように、特許文献１の音声認識システムでは、特定の用途（特定の言語や分野）についてはこの用途に対応する小語彙辞書群をクライアントに用意しておいて音声認識処理を行い、クライアントで認識不可能な場合や他の用途についてはサーバで音声認識処理を行っている。
【０００６】
しかし、このような音声認識システムでは、クライアントで音声認識処理を行った結果認識不可能な場合には、その後サーバによる音声認識処理が行われるため、このような場合に最終的な認識結果が得られるまでに時間がかかるという問題があった。この問題は、クライアントとサーバの両方において音声認識処理を行うことにより生じるものであるが、クライアントで音声認識処理を行った場合に確実に良好な認識結果を得ようとすると、クライアントに備わった小語彙辞書群の規模やこれを用いた音声認識エンジンの性能を上げる必要があり、クライアントとサーバとで分散して音声認識処理を行う趣旨に反することになる。
【０００７】
本発明は、このような点に鑑みて創作されたものであり、その目的は、クライアントとサーバとで分散して音声認識処理を行う場合に認識結果が得られるまでに要する時間を短縮するとともに、音声認識処理に関するクライアントの規模および処理負担の軽減が可能な音声認識システムを提供することにある。
【課題を解決するための手段】
【０００８】
上述した課題を解決するために、本発明の音声認識システムは、クライアントにおいて入力された利用者の音声に対して、このクライアントあるいはこのクライアントにネットワークを介して接続されたサーバによる音声認識処理を行う。クライアントは、認識対象となる音声の入力を行う音声入力手段と、あらかじめ用意された複数の単語あるいは文章を対象に音声認識処理を行うクライアント側音声認識処理手段と、音声入力手段によって入力された音声について、クライアント側音声認識処理手段において音声認識処理を行うものとサーバにおいて音声認識処理を行うものとを振り分ける振り分け手段と、振り分け手段によってサーバにおいて音声認識処理を行うもとのして振り分けられた音声のデータをサーバに送信するクライアント側通信手段とを備える。サーバは、クライアントから送られてきた音声のデータを受信するサーバ側通信手段と、サーバ側通信手段によって受信した音声のデータを用いて音声認識処理を行うサーバ側音声認識処理手段とを備える。具体的には、上述したクライアント側音声認識処理手段は、音声入力手段によって入力された音声に対して音声認識処理を行うことにより、あらかじめ用意された複数の単語あるいは文章のいずれかの読みを特定している。
【０００９】
あらかじめ用意された単語や文章に限定してクライアント側での音声認識処理を行うことにより、クライアント側で行う音声認識処理とサーバ側で行う音声認識処理を正確に振り分けることができるため、クライアント側とサーバ側の両方で音声認識処理を行うことを回避することができ、認識結果が得られるまでに要する時間を短縮することができる。また、クライアント側では、あらかじめ用意された単語や文章についてのみ認識結果が得られればよいため、音声認識処理に関するクライアントの規模および処理負担の軽減が可能となる。
【００１０】
また、上述したクライアントは、車載装置であり、クライアントは、クライアント側音声認識処理手段あるいはサーバ側音声認識処理手段による認識結果に応じて、車載装置に対する操作指示あるいは情報入力を行う入力処理手段をさらに備えることが望ましい。これにより、車載装置における各種入力を音声認識処理を用いた音声入力によって行うことができるとともに、その際の音声認識処理に要する時間の短縮や、車載装置の規模や処理負担の軽減が可能となる。
【００１１】
また、上述したクライアントは、利用者による手動操作を受け付ける操作手段をさらに備え、入力処理手段は、クライアント側音声認識処理手段による認識結果、サーバ側音声認識処理手段による認識結果、操作手段を用いた手動操作のいずれかに応じて、車載装置に対する操作指示あるいは情報入力を行うことが望ましい。これにより、車載装置において各種入力を行う際に、音声認識処理を用いた音声入力と、操作手段を用いた手動操作による入力とを必要に応じて使い分けることができ、操作性の向上が可能となる。
【００１２】
また、上述した振り分け手段は、ネットワークを介してサーバに対する接続ができないときに、サーバにおける音声認識処理に代えて、クライアント側音声認識処理手段における音声認識処理に振り分けることが望ましい。これにより、何らかの原因によりサーバとの間の接続ができない場合であっても、音声認識処理を用いて操作指示や情報入力を行うことが可能となる。
【００１３】
また、上述した入力処理手段は、ネットワークを介してサーバに対する接続ができないときに、サーバ側音声認識処理手段による認識結果に代えて、操作手段を用いた手動操作に応じて、車載装置に対する操作指示あるいは情報入力を行うことが望ましい。これにより、何らかの原因によりサーバとの間の接続ができない場合であっても、操作手段を用いて操作指示や情報入力を行うことが可能となる。
【００１４】
また、上述した車載装置に対する操作指示あるいは情報入力の対象となる複数の単語あるいは文章が既知である場合に、振り分け手段は、クライアント側音声認識処理手段による音声認識処理に振り分けを行い、クライアント側音声認識処理手段は、音声入力手段によって入力された音声に対し音声認識処理を行うことにより、複数の単語あるいは文章の中から音声認識結果に対応するものを選択することが望ましい。また、上述したクライアント側音声認識処理手段は、既知の複数の単語あるいは文章に対する音声認識辞書を有することが望ましい。これにより、クライアント側音声認識処理手段において、あらかじめ用意された単語や文章の中から入力音声に対応するものを確実に抽出することができる。
【００１５】
また、上述した複数の単語あるいは文章は、車載装置に対して操作指示を行う複数の操作コマンドであることが望ましい。これにより、車載装置に対する操作指示については車載装置側における音声認識処理を行い、迅速にその指示内容を判定して車載装置の動作に反映させることが可能となる。
【００１６】
また、上述した車載装置は、通話先の電話番号および各電話番号に対応する名称が含まれる電話帳データが内蔵された移動体電話が接続されているときに、電話帳データに含まれる電話番号に対して移動体電話を用いた発呼を行うハンズフリー電話システムとして動作し、複数の単語あるいは文章は、電話番号および名称の少なくとも一方であることが望ましい。また、上述したクライアント側音声認識処理手段は、移動体電話が接続されたときに、電話帳データに含まれる電話番号および名称の少なくとも一方の読みに対応する音声認識辞書を作成する音声認識辞書作成手段を有することが望ましい。これにより、車載装置としてのハンズフリー電話システムにおいて電話番号や名称の入力に本発明を適用することが可能となる。
【００１７】
また、上述した車載装置は、複数の楽曲に対して選択的に再生を行うオーディオ装置として動作し、複数の単語あるいは文章は、複数の楽曲のそれぞれに対応する楽曲名、アルバム名、アーティスト名の少なくとも一つであることが望ましい。また、上述したクライアント側音声認識処理手段は、楽曲名、アルバム名、アーティスト名の少なくとも一つの読みに対応する音声認識辞書を作成する音声認識辞書作成手段を有することが望ましい。これにより、車載装置としてのオーディオ装置において楽曲名、アルバム名、アーティスト名の入力に本発明を適用することが可能となる。
【００１８】
また、上述した車載装置は、ネットワークを介して発信する文書を作成する文書作成手段をさらに備え、文書の作成に必要なテキスト入力を音声入力手段によって入力された音声に基づいて行う際に、振り分け手段は、サーバ側音声認識処理手段における音声認識処理に振り分けることが望ましい。また、上述した車載装置は、サーバから送信されるサーバ側音声認識処理手段による認識結果を取得する認識結果取得手段をさらに備え、文書作成手段は、認識結果所得手段によって取得した認識結果を、文書の作成に必要なテキストとして用いることが望ましい。これにより、車載装置において電子メール作成等の文書作成を行う際のテキスト入力に本発明を適用することが可能となる。
【００１９】
また、上述した車載装置は、特定施設の詳細情報を表示する施設情報表示手段をさらに備え、施設情報表示手段による詳細情報表示の対象となる特定施設の入力を音声入力手段によって入力された音声に基づいて行う際に、振り分け手段は、サーバ側音声認識処理手段における音声認識処理に振り分けることが望ましい。また、上述した車載装置は、サーバから送信されるサーバ側音声認識手段による認識結果、あるいは、この認識結果を用いて検索された詳細情報を取得する認識結果取得手段をさらに備え、施設情報表示手段は、認識結果取得手段によって取得した認識結果を用いて検索された詳細情報、あるいは、認識結果取得手段によって取得した詳細情報を表示することが望ましい。これにより、車載装置において特定施設の詳細情報の表示を行う際に、表示対象となる特定施設の入力に本発明を適用することが可能となる。
【００２０】
また、上述した音声入力手段は、マイクロホンであることが望ましい。これにより、利用者はクライアントに備わったマイクロホンに向かった発声するだけで、クライアント側あるいはサーバ側における音声認識処理が適切に振り分けられ、短時間のうちに認識結果を取得することが可能となる。
【００２１】
また、上述したマイクロホンに向けて発声する際に利用者によって操作可能な発話スイッチをさらに備え、振り分け手段は、発話スイッチが操作された後にマイクロホンによって集音された利用者の音声に対して振り分けを行うことが望ましい。これにより、音声認識処理の対象となる音声の入力タイミングが明確になり、処理手順の簡略化や認識精度の向上が可能となる。
【００２２】
また、それぞれがサーバ側音声認識処理手段を備える複数のサーバがクライアントと接続可能であり、振り分け手段は、サーバにおいて音声認識処理を行うものとして振り分けを行う際に、複数のサーバのいずれかを選択することが望ましい。これにより、得意とする分野等が異なる複数のサーバを使い分けて音声認識処理を依頼することができ、サーバに依頼する場合の認識精度を向上させることができる。
【図面の簡単な説明】
【００２３】
【図１】一実施形態の音声認識システムの全体構成を示す図である。
【図２】車載装置の詳細構成を示す図である。
【図３】利用者が発話してその内容を車載装置の操作等に反映させるまでの動作手順を示す流れ図である。
【図４】サーバと接続ができない場合の変形例の動作手順を示す流れ図である。
【図５】サーバと接続ができない場合の他の変形例の動作手順を示す流れ図である。
【図６】携帯電話の接続時に電話帳データを読み出して音声認識辞書を登録する動作手順を示す流れ図である。
【図７】ＵＳＢメモリの接続時にコンテンツリストの付属情報を読み出して音声認識辞書を登録する動作手順を示す流れ図である。
【図８】変形例の音声認識システムの全体構成を示す図である。
【図９】複数のサーバを使い分ける場合の変形例の動作手順を示す流れ図である。
【発明を実施するための形態】
【００２４】
以下、本発明を適用した一実施形態の音声認識システムについて図面を参照しながら説明する。図１は、一実施形態の音声認識システムの全体構成を示す図である。本実施形態の音声認識システムは、車載装置１とサーバ２を含んで構成されている。車載装置１は、ナビゲーション装置やオーディオ装置などの機能を有し、車両に搭載されている。また、サーバ２は、車両の外部に設けられており、車載装置１と所定のネットワーク３を介して接続される。このネットワーク３は、例えばインターネットであり、車載装置１に接続された移動体電話としての携帯電話および基地局（ともに図示せず）を介して接続されている。なお、車載装置１のネットワーク３への接続は、必ずしも携帯電話を介して行う必要はなく、車載装置１に接続（あるいは内蔵）された無線ＬＡＮ用の通信装置およびアクセスポイント（ともに図示せず）を介して接続するようにしてもよい。また、無線ＬＡＮによってネットワーク３に接続可能な場合には無線ＬＡＮによる接続を行い、無線ＬＡＮによる接続が不可能な場合（近くにアクセスポイントがない場合など）には携帯電話を用いた接続を行うようにしてもよい。
【００２５】
また、車載装置１には音声認識処理部１００と振り分け判定部１０２とが備わっており、サーバ２には音声認識処理部２００が備わっている。本実施形態の音声認識システムでは、クライアントとしての車載装置１において入力された利用者の音声に対して、車載装置１内の音声認識処理部１００あるいはこの車載装置１にネットワーク３を介して接続されたサーバ２内の音声認識処理部２００による音声認識処理を行っており、車載装置１とサーバ２のいずれにおいて音声認識処理を行うかの判定を振り分け判定部１０２によって行っている。
【００２６】
図２は、車載装置１の詳細構成を示す図である。図２に示すように、車載装置１は、ナビゲーション処理部１０、ＴＶチューナ処理部１４、ラジオチューナ処理部１６、音声入力処理部２０、音声認識処理部１００、操作部４０、発話スイッチ（ＳＷ）４２、入力制御部４４、制御部５０、表示処理部６０、表示装置６２、デジタル−アナログ変換器（Ｄ／Ａ）６４、スピーカ６６、ハードディスク装置（ＨＤＤ）７０、ＵＳＢ（Universal Serial Bus）インタフェース部（ＵＳＢＩ／Ｆ）８０、８２を備えている。
【００２７】
ナビゲーション処理部１０は、ハードディスク装置７０に記憶されている地図データを用いて車載装置１が搭載された車両の走行を案内するナビゲーション動作を行う。自車位置を検出するＧＰＳ装置１２とともに用いられ、車両の走行を案内するナビゲーション動作には、地図表示、経路探索・誘導のほかに周辺施設やＰＯＩ（Point Of Interest）を検索して表示する動作などが含まれる。なお、自車位置検出は、ＧＰＳ１２の他にジャイロセンサや車速センサ等の自律航法センサを組み合わせて用いるようにしてもよい。
【００２８】
ＴＶチューナ処理部１４は、地上デジタル放送等の放送信号を受信し、映像および音声を再生する処理を行う。ラジオチューナ処理部１６は、ラジオ放送の信号を受信し、音声を再生する処理を行う。
【００２９】
音声入力処理部２０は、マイクロホン２２によって集音された利用者（話者）の音声の入力処理を行う。具体的には、音声入力処理部２０は、アナログ−デジタル変換器（Ａ／Ｄ）２４と圧縮処理部２６を備えている。アナログ−デジタル変換器２４は、マイクロホン２２の出力信号をデジタルの音声データに変換する。圧縮処理部２６は、アナログ−デジタル変換器２４から出力される音声データを圧縮する。
【００３０】
音声認識処理部１００は、マイクロホン２２によって集音した音声に対して音声認識処理を行うためのものであり、音声認識辞書作成部３２、音声認識辞書３４、音声認識部３６を含んでいる。音声認識辞書作成部３２は、車載装置１がハンズフリー電話システムとして動作する場合に発呼先となる電話番号および各電話番号に対応する名称（個人の氏名も含む）や、車載装置１がオーディオ装置として動作する場合に再生対象となる楽曲名、アルバム名、アーティスト名などを読み上げた音声に対応する音声認識辞書３４を作成する。この音声認識辞書３４の作成は所定のタイミングで行われるが、その具体例については後述する。音声認識辞書３４は、既知の複数の単語あるいは文章について音声認識処理を行うためのものであり、これら複数の単語あるいは文章には、上述した電話番号や楽曲名などのように所定のタイミングで生成されるものの他に、車載装置１に対して操作指示を行う操作コマンドなどが含まれる。音声認識部３６は、マイクロホン２２によって集音した利用者の音声に対して音声認識辞書３４を用いて音声認識処理を行い、利用者が発声した音声の内容（文字列）を特定する。
【００３１】
操作部４０は、車載装置１に対する利用者による手動操作を受け付けるためのものであり、各種の操作キー、操作スイッチ、操作つまみ等が含まれる。また、表示装置６２に各種の操作画面や入力画面が表示された時点で、これらの操作画面や入力画面の一部を利用者が指などで直接指し示すことにより、操作画面や入力画面の表示項目を選択することができるようになっており、このような操作画面や入力画面を用いた操作を可能とするために、指し示された指などの位置を検出するタッチパネルが操作部４０の一部として備わっている。なお、タッチパネルを用いる代わりに、リモートコントロールユニット等を用いて操作画面や入力画面の一部を利用者の指示に応じて選択するようにしてもよい。発話スイッチ４２は、利用者がマイクロホン２２に向けて発声する際に利用者によって操作されて発話タイミングを指示するために用いられる。入力制御部４４は、操作部４０および発話スイッチ４２を監視しており、これらの操作内容を決定する。
【００３２】
制御部５０は、車載装置１の全体を制御するとともに、オーディオ装置やハンズフリー電話システムとしての動作を行う。この制御部５０は、ＲＯＭやＲＡＭなどに格納された動作プログラムをＣＰＵによって実行することにより実現される。また、図１では、この制御部５０とは別にナビゲーション処理部１０やＴＶチューナ処理部１４、ラジオチューナ処理部１６、音声認識処理部１００などを設けて図示したが、これらの一部の機能を制御部５０によって実現するようにしてもよい。制御部５０の詳細については後述する。
【００３３】
表示処理部６０は、各種の操作画面や入力画面、ＴＶチューナ処理部１４によって受信した放送信号に対応する映像画面等を表示する映像信号を出力し、表示装置６２にこれらの各種画面を表示する。デジタル−アナログ変換器６４は、車載装置１がハンズフリー電話システムとして動作する場合の音声データをアナログの音声信号に変換してスピーカ６６から出力するとともに、車載装置１がオーディオ装置として動作する場合のオーディオデータ（楽曲データ）をアナログのオーディオ信号に変換してスピーカ６６から出力する。なお、実際には、デジタル−アナログ変換器６４とスピーカ６６の間には信号を増幅する増幅器が接続されているが、図２ではこの増幅器は省略されている。また、デジタル−アナログ変換器６４とスピーカ６６との組合せは再生チャンネル数分備わっているが、図２では一組のみが図示されている。
【００３４】
ハードディスク装置７０は、ナビゲーション処理部１０によるナビゲーション動作に用いる地図データや周辺施設・ＰＯＩ検索用データ、オーディオ装置における再生動作に用いるコンテンツリスト、ハンズフリー電話システムで用いる電話帳データなどを格納する。ここで、コンテンツリストには、コンテンツデータ（楽曲データ）のフォルダ構成、ファイル構成、ファイル属性が含まれる。このファイル属性には、各楽曲に対応する付属情報、具体的には、楽曲の歌唱あるいは演奏を行うアーティスト名と、楽曲が収録されたアルバムが存在する場合にはアルバム名と、この楽曲の名称（楽曲名）とが含まれる。また、電話帳データには、あらかじめ登録されている電話番号と、各電話番号に対応する名称（個人の場合には個人の氏名やニックネーム等、会社やその他の団体の場合には会社名やその略称等）が含まれる。
【００３５】
ＵＳＢインタフェース部８０、８２は、ＵＳＢケーブルを介して携帯電話９０や外部の記憶媒体としてのＵＳＢメモリ９２などとの間で信号の入出力を行うためのものであり、ＵＳＢポートやＵＳＢホストコントローラが含まれる。ＵＳＢメモリ９２には楽曲データが記録されている。
【００３６】
次に、制御部５０の詳細について説明する。図２に示すように、制御部５０は、電話帳取得部５１、電話処理部５２、コンテンツリスト作成部５３、ＡＶ処理部５４、インターネット処理部５５、振り分け判定部１０２、音声データ送信部５６、認識結果取得部５７、入力処理部５８を有している。
【００３７】
電話帳取得部５１は、ＵＳＢインタフェース部８０、８２のいずれかに接続された携帯電話９０に登録されている電話帳データを読み込んで取得する。取得した電話帳データは、例えばハードディスク装置７０に格納される。この電話帳データには、発呼先となる「電話番号」と、各電話番号に対応する個人名や会社名等の「名称」と、電子メールのアドレスがわかっている場合にはその「アドレス」とが含まれている。なお、本実施形態では、一方のＵＳＢインタフェース部８０に携帯電話９０が接続され、他方のＵＳＢインタフェース部８２に楽曲データを格納したＵＳＢメモリ９２が接続されるものとして、以下では説明を行う。
【００３８】
電話処理部５２は、電話帳取得部５１によって取得した電話帳データに含まれるいずれかの電話番号に対して、あるいは、利用者が操作部４０を用いて直接電話番号を入力した場合にはその電話番号に対して、携帯電話９０を用いて電話を掛ける発呼処理を行う。また、電話処理部５２は、通話相手との間で電話回線の接続が行われた後は、マイクロホン２２によって集音した話者の音声を通話相手に送信するとともに、通話相手の音声をスピーカ６６から出力する処理を行う。このようにして、電話処理部５２によって携帯電話９０を利用したハンズフリー電話システムが実現される。
【００３９】
コンテンツリスト作成部５３は、接続が検出された記録メディアとしてのＵＳＢメモリ９２に記録されたコンテンツデータ（楽曲データ）を解析し、解析結果に基づいてコンテンツリストを作成する。上述したように、コンテンツリストには、コンテンツデータのフォルダ構成、ファイル構成およびファイル属性（アーティスト名、アルバム名、楽曲名等）が含まれる。作成されたコンテンツリストは、例えばハードディスク装置７０に格納される。なお、このコンテンツリストの作成は、例えば、ＵＳＢインタフェース部８２にＵＳＢメモリ９２が接続されたタイミングで行われる。
【００４０】
ＡＶ処理部５４は、ＵＳＢメモリ９２に格納されている所定形式の楽曲データを読み出して復調処理を行い、デジタル−アナログ変換器６４に入力する形式の楽曲データ（例えばＰＣＭデータ）に変換することにより楽曲の再生を行う。また、ＡＶ処理部５４は、この再生動作に際して、利用者によって楽曲の再生箇所を選択したり、音量変更等を行うための再生メニュー画面を作成する。この再生メニュー画面は表示処理部６０を介して表示装置６２に表示される。
【００４１】
インターネット処理部５５は、インターネットを介した各種のサービスを利用するために必要な処理を行う。具体的には、インターネット処理部５５は、ウェブブラウザとメールソフトの機能を有しており、利用者の指示や入力に応じて、ウェブページの閲覧や、電子メールの作成および送受信、ＳＮＳ（ソーシャル・ネットワーキング・サービス）画面の閲覧や入力等を行う。
【００４２】
振り分け判定部１０２は、マイクロホン２２によって集音された音声について、クライアント側（車載装置１）の音声認識処理部１００において音声認識処理を行うものとサーバ２の音声認識処理部２００において音声認識処理を行うものとを振り分ける。音声データ送信部５６は、サーバ２の音声認識処理部２００に音声認識処理を依頼する際に、マイクロホン２２で集音して圧縮処理部２６で圧縮した音声データをサーバ２に向けて送信する処理を行う。認識結果取得部５７は、音声認識処理の結果（認識結果）がサーバ２から送り返されてきたときにこの認識結果を受信する。なお、サーバ２には、車載装置１から送られてくる音声データを受信して音声認識処理部２００に入力するとともに、音声認識処理部２００による認識結果を取得して車載装置１に送り返す制御を行う通信制御部２０２が備わっている。
【００４３】
入力処理部５８は、音声認識処理部１００による認識結果、サーバ２から取得した音声認識処理部２００による認識結果、操作部４０を用いた操作内容の中からいずれかを、車載装置１に対する操作指示あるいは情報入力の内容として選択する。これらの選択の具体例については後述する。
【００４４】
上述したマイクロホン２２が音声入力手段に、音声認識処理部１００がクライアント側音声認識処理手段に、振り分け判定部１０２が振り分け手段に、音声データ送信部５２がクライアント側通信手段に、通信制御部２００がサーバ側通信手段に、音声認識処理部２００がサーバ側音声認識処理手段にそれぞれ対応する。また、入力処理部５８が入力処理手段に、操作部４０が操作手段に、インターネット処理部５５が文書作成手段に、認識結果取得部５７が認識結果取得手段に、ナビゲーション処理部１０が施設情報表示手段にそれぞれ対応する。
【００４５】
本実施形態の音声認識システムはこのような構成を有しており、次に、マイクロホン２２に向けて利用者が発話し、この発話音声に対して音声認識処理を行う動作について説明する。
【００４６】
図３は、利用者が発話してその内容を車載装置１の操作等に反映させるまでの動作手順を示す流れ図である。音声認識部３６は、発話スイッチ４２がオンされたか否かを判定する（ステップ１００）。発話スイッチ４２がオンされない場合には否定判断が行われ、この判定が繰り返される。
【００４７】
また、発話スイッチ４２がオンされるとステップ１００の判定において肯定判断が行われる。次に、振り分け判定部１０２は、その時点の表示内容に基づいて入力モードを解析する（ステップ１０２）。例えば、該当項目を選択するメニュー画面等が表示されている入力モード（この入力モードを「該当項目選択モード」と称する）に該当するか、テキストボックスが含まれてテキストの入力状態になっている入力モード（この入力モードを「テキスト入力モード」と称する）に該当するかが判定される。
【００４８】
ところで、本実施形態では、各種の操作指示や情報入力を、音声入力によって行うことを想定している。また、入力音声に対しては音声認識処理を行ってその内容を特定するが、あらかじめ１対１に対応する音声辞書が用意されている単語あるいは文章を音声認識処理の対象とするか、対応する音声辞書があらかじめ用意されていない不特定の単語や文章を音声認識処理の対象とするかの振り分けが振り分け判定部１０２によって行われる。
【００４９】
さらに具体的には、入力モードが「該当項目選択モード」である場合が、あらかじめ１対１に対応する音声辞書が用意されている単語あるいは文章を音声認識処理の対象とするものであって、このときの音声認識処理が車載装置１の音声認識処理部１００によって行われる。一方、入力モードが「テキスト入力モード」である場合が、対応する音声辞書があらかじめ用意されていない不特定の単語や文章を音声認識処理の対象とするものであって、このときの音声認識処理がサーバ２の音声認識処理部２００によって行われる。
【００５０】
振り分け判定部１０２は、解析した入力モードが該当項目選択モードであるか否かを判定する（ステップ１０４）。現在の入力モードが該当項目選択モードである場合には肯定判断が行われる。次に、車載装置１に内蔵された音声認識処理部１００は、マイクロホン２２によって集音された利用者の音声に対して音声認識処理を行う（ステップ１０６）。また、入力処理部５８は、この音声認識結果をその時点の表示内容に対応する操作指示や情報入力の内容として用いて車載装置１に対する操作や入力を実行する（ステップ１０８）。
【００５１】
例えば、ナビゲーション処理部１０によるナビゲーション動作中に地図画像表示が行われているときに、「シュクシャク」と音声入力されたときに表示縮尺の変更を指示したり、「モクテキチ」と音声入力されたときに目的地の設定を指示することがあらかじめ決められており、「シュクシャク」、「モクテキチ」などを音声認識するための音声認識辞書３４が用意されている。振り分け判定部１０２は、その時点の表示内容が「地図画像」である場合に入力モードが「該当項目選択モード」であると判定し、音声認識部３６は、入力音声「シュクシャク」等に対して音声認識辞書３４を用いた音声認識を行い、認識結果として文字列「シュクシャク」等を得ることができる。この認識結果を受けて、ナビゲーション処理部１０は、表示中の地図画像の表示縮尺を変更する処理を開始する。
【００５２】
また、ＴＶチューナ処理部１４による受信動作中に受信対象となる放送局を選択する選局画面が表示されているときに、「○○テレビ」と音声入力されたときにこの放送局への選局の切り替えを指示することがあらかじめ決められており、「○○テレビ」などを音声認識するための音声認識辞書３４が用意されている。振り分け判定部１０２は、その時点の表示内容が「選局画面」である場合に入力モードが「該当項目選択モード」であると判定し、音声認識部３６は、入力音声「○○テレビ」等に対して音声認識辞書３４を用いた音声認識を行い、認識結果として文字列「○○テレビ」等を得ることができる。この認識結果を受けて、ＴＶチューナ処理部１４は、選局を○○テレビ等に変更する。
【００５３】
一方、現在の入力モードがテキスト入力モードである場合にはステップ１０４の判定において否定判断が行われる。次に、音声データ送信部５６は、マイクロホン２２から入力されて圧縮処理部２６によって圧縮処理された音声データをネットワーク３を介してサーバ２に向けて送信して、サーバ２内の音声認識処理部２００による音声認識処理を依頼する（ステップ１１０）。その後、認識結果取得部５７は、サーバ２から送り返されてくる認識結果を受信したか否かを判定する（ステップ１１２）。受信していない場合には否定判断が行われ、この判定が繰り返される。また、認識結果を受信した場合にはステップ１１２の判定において肯定判断が行われる。次に、入力処理部５８は、サーバ２から受信した音声認識結果をその時点の表示内容に対応する操作指示や情報入力の内容として用いて車載装置１に対する操作や入力を実行する（ステップ１０８）。
【００５４】
例えば、インターネット処理部５５によるメール作成動作中にメール作成画面が表示され、入力位置がメール本文を指しているときに、振り分け判定部１０２は「テキスト入力モード」であると判定し、メール本文に入力する文章を示す入力音声に対する音声認識（自然言語認識）がサーバ２内の音声認識処理部２００に依頼される。そして、認識結果（入力する文章に対応する文字列）が送り返されてくると、インターネット処理部５５は、メール本文にこの認識結果としての文字列を入力してメール作成を行う。
【００５５】
このように、本実施形態の音声認識システムでは、あらかじめ用意された単語や文章に限定して車載装置１側での音声認識処理を行うことにより、車載装置１側で行う音声認識処理とサーバ２側で行う音声認識処理を正確に振り分けることができるため、車載装置１側とサーバ２側の両方で音声認識処理を行うことを回避することができ、認識結果が得られるまでに要する時間を短縮することができる。また、車載装置１側では、あらかじめ用意された単語や文章についてのみ認識結果が得られればよいため、音声認識処理に関する車載装置１の規模および処理負担の軽減が可能となる。
【００５６】
また、車載装置１に操作部４０を備えることにより、車載装置１において各種入力を行う際に、音声認識処理を用いた音声入力と、操作部４０を用いた手動操作による入力とを必要に応じて使い分けることができ、操作性の向上が可能となる。
【００５７】
また、車載装置１に対する操作指示あるいは情報入力の対象となる複数の単語あるいは文章が既知である場合に、振り分け判定部１０２は、車載装置１において音声認識処理を行う振り分けを行うととに、これら既知の単語あるいは文章に対応する音声認識辞書３４を車載装置１に備えて音声認識処理を行っており、これにより、車載装置１において入力音声に対する音声認識処理を確実に行うことができる。
【００５８】
また、上述した既知の複数の単語あるいは文章を、車載装置１に対して操作指示を行う複数の操作コマンドとすることにより、車載装置１に対する操作指示については車載装置１側における音声認識処理を行い、迅速にその指示内容を判定して車載装置１の動作に反映させることが可能となる。
【００５９】
ところで、図３に示した動作手順は、いつでもサーバ２と接続可能な状態にあることが前提となっている。しかし、車載装置１が搭載された車両が携帯電話９０の電波の届かない場所を走行中やこのような場所に車両を駐車しているときにはサーバ２と接続できない場合がある。例えば、携帯電話９０の基地局が存在しないような山間部を走行中または駐車中や、長いトンネル内を走行中などの場合にが、サーバ２との間の接続ができないことが多い。
【００６０】
図４は、サーバ２と接続ができない場合の変形例の動作手順を示す流れ図である。図４に示す動作手順は、図３に示した動作手順に対して、ステップ１１０の動作の前にステップ１０９の動作を追加した点が異なっている。
【００６１】
このステップ１０９では、現在の入力モードがテキスト入力モードである場合であってステップ１０４の判定において否定判断が行われた後、音声データ送信部５６は、サーバ２に接続できたか否かを判定する。接続できた場合には肯定判断が行われ、ステップ１１０のサーバ２内の音声認識処理部２００による音声認識処理の依頼動作に移行する。
【００６２】
また、サーバ２の接続が困難な場合（電波状態が悪い場合の他に、携帯電話９０が接続されていない場合や故障した場合も含まれる）にはステップ１０９の判定において否定判断が行われる。この場合にはステップ１０６に移行し、車載装置１に内蔵された音声認識処理部１００を用いた音声認識処理に移行する。なお、テキスト入力モードの場合には、入力対象となる単語や文章が事前にわかっていないため、音声認識部３６では、利用者の発話音声の一語一語に対して音声認識処理を行って内容を特定する処理が行われる。
【００６３】
このように、サーバ２と接続ができない状況にある場合には車載装置１において音声認識処理が行われるため、サーバ２と接続できないことが原因で処理が中断してしまうことを防止することができる。
【００６４】
図５は、サーバ２と接続ができない場合の他の変形例の動作手順を示す流れ図である。図５に示す動作手順は、図４に示した動作手順に対して、ステップ１０９の判定において否定判断が行われた後の動作としてステップ１１１の動作を追加した点が異なっている。
【００６５】
このステップ１１１では、サーバ２と接続ができない場合であってステップ１０９の判定において否定判断が行われた後、操作部４０を用いた入力動作が行われる。入力処理部５８は、サーバ２から受信した音声認識結果の代わりに、操作部４０の操作内容をその時点の表示内容に対応する操作指示や情報入力の内容として用いて車載装置１に対する操作や入力を実行する（ステップ１０８）。
【００６６】
このように、サーバ２と接続ができない状況にある場合には、サーバ２による音声認識処理の代わりに操作部４０を用いた利用者の手動操作が行われるため、サーバ２と接続できないことが原因で処理が中断してしまうことを防止することができる。
【００６７】
また、上述した該当項目選択モードに対応して車載装置１内の音声認識処理部１００によって音声認識処理を行う場合には、その前提として、音声認識の対象となる単語や文章が既知であって、これらに対応する音声認識辞書３４を備える必要がある。例えば、車載装置１をオーディオ装置やナビゲーション装置等として用いる場合にその操作コマンド（操作指示）を音声によって行う場合には、各操作コマンドとしての単語あるいは文章に対応する音声認識辞書３４をあらかじめ作成しておけばよい。
【００６８】
一方、車載装置１をハンズフリー電話システムとして使用して通話先の氏名や電話番号を音声で入力する場合や、車載装置１をオーディオ装置として使用してアーティスト名、アルバム名、楽曲名を音声で入力する場合などについては、音声入力する内容が車載装置１毎に、あるいは接続される携帯電話９０やＵＳＢメモリ９２毎に異なるため、音声認識の対象となる単語や文章に対応する音声認識辞書３４を必要に応じて作成する必要がある。
【００６９】
図６は、携帯電話９０の接続時に電話帳データを読み出して音声認識辞書３４を登録する動作手順を示す流れ図である。電話帳取得部５１は、携帯電話９０が接続されたか否かを判定しており（ステップ２００）、接続されるまで否定判断を行ってこの判定を繰り返す。また、携帯電話９０が接続された場合にはステップ２００の判定において肯定判断が行われる。
【００７０】
次に、電話帳取得部５１は、携帯電話９０に格納された電話帳データを読み込む（ステップ２０２）。この電話帳データには通話先となる電話番号および名称の他に住所等の情報も含まれる。電話帳取得部５１は、読み込んだ電話帳データの中から電話番号と名称を抽出する（ステップ２０４）。
【００７１】
次に、音声認識処理部１００内の音声認識辞書作成部３２は、抽出された電話番号と名称に対応する音声認識辞書を作成して（ステップ２０６）、音声認識部３６によって用いられる音声認識辞書３４として登録する（ステップ２０８）。例えば、音声認識辞書作成部３２は、抽出された電話番号と名称のそれぞれの文字列に対してＧＴＰ（Grapheme To Phoneme、書記素−音素変換）処理を行って、文字列の「よみ情報」を作成した後、このよみ情報から音声認識処理用の動的な認識辞書を作成する。例えば、よみ情報に対してＴＴＳ（Text-to-Speech）処理を行って音声波形を生成し、この音声波形について音声認識処理用の特徴抽出を行うことにより動的な認識辞書の作成が行われる。作成された認識辞書が音声認識辞書３４として登録される。
【００７２】
このように、携帯電話９０を接続した際に電話帳データを読み出して電話番号や名称を抽出し、動的な認識辞書が作成されるため、これらを音声入力した際に車載装置１側の音声認識処理によって確実にハンズフリー電話システムの通話先を決定することができる。
【００７３】
図７は、ＵＳＢメモリ９２の接続時にコンテンツリストの付属情報を読み出して音声認識辞書３４を登録する動作手順を示す流れ図である。コンテンツリスト作成部５３は、ＵＳＢメモリ９２が接続されたか否かを判定しており（ステップ３００）、接続されるまで否定判断を行ってこの判定を繰り返す。また、ＵＳＢメモリ９２が接続された場合にはステップ３００の判定において肯定判断が行われる。
【００７４】
次に、コンテンツリスト作成部５３は、ＵＳＢメモリ９２に記録されたコンテンツデータを解析する（ステップ３０２）。この解析結果に基づいてコンテンツリストが作成されるが、このコンテンツリストにはコンテンツデータのフォルダ構成、ファイル構成およびファイル属性（アーティスト名、アルバム名、楽曲名等）が含まれる。コンテンツリスト作成部５３は、解析結果に基づいて作成したコンテンツリストの中からアーティスト名、アルバム名、楽曲名を抽出する（ステップ３０４）。
【００７５】
次に、音声認識処理部１００内の音声認識辞書作成部３２は、抽出されたアーティスト名、アルバム名、楽曲名に対応する音声認識辞書を作成して（ステップ３０６）、音声認識部３６によって用いられる音声認識辞書３４として登録する（ステップ３０８）。例えば、音声認識辞書作成部３２は、抽出されたアーティスト名、アルバム名、楽曲名のそれぞれの文字列に対してＧＴＰ処理を行って、文字列の「よみ情報」を作成した後、このよみ情報から音声認識処理用の動的な認識辞書を作成する。作成された認識辞書が音声認識辞書３４として登録される。
【００７６】
このように、ＵＳＢメモリ９２を接続した際にコンテンツデータを読み出してアーティスト名、アルバム名、楽曲名を抽出し、動的な認識辞書が作成されるため、これらを音声入力した際に車載装置１側の音声認識処理によって確実にオーディオ装置において再生対象となる楽曲等を決定することができる。
【００７７】
また、上述した本実施形態では、入力モードが「テキスト入力モード」の場合にはサーバ２に対して音声認識処理を依頼するようにしているが、この依頼は、複数のサーバに分散して行うようにしてもよい。例えば、車載装置１をナビゲーション装置として用いる際に周辺施設やＰＯＩ（Point Of Interest）の検索を行う場合には、施設名等を含む単語を対象に音声認識処理（単語認識）を行うことになる。一方、電子メール作成時にテキストボックスを開いて入力する場合には、単語よりもむしろ文章を対象に音声認識処理（自然言語認識）を行うことになる。このように、音声認識処理の種類（単語認識か自然言語認識か）によって、それぞれの音声認識処理に適したサーバを選択するようにしてもよい。なお、一概に単語認識といっても、認識対象となる単語の分野によって適した音声認識処理を行うサーバが異なる場合なども考えられるため、複数のサーバを使い分ける方法は上述した分野に応じて分ける場合だけでなく、さらに分野等を考慮して別の分け方をするようにしてもよい。あるいは、利用料金が安いサーバを優先的に選択するようにしてもよい（その前提として、利用料金に関する情報を保持しておく必要がある）。
【００７８】
図８は、変形例の音声認識システムの全体構成を示す図である。この音声認識システムは、車載装置１と複数のサーバ２Ａ、２Ｂを含んで構成されている。サーバ２Ａは、単語認識に適した音声認識処理部２００Ａを備えている。また、サーバ２Ｂは、自然言語認識に適した音声認識処理部２００Ｂを備えている。
【００７９】
図９は、複数のサーバ２Ａ、２Ｂを使い分ける場合の変形例の動作手順を示す流れ図である。図９に示した動作手順は、図３に示した動作手順に対して、ステップ１１０の動作をステップ１１０Ａ、１１０Ｂの動作に置き換えた点が異なっている。以下では、これらの置き換えたステップに着目して説明する。
【００８０】
現在の入力モードがテキスト入力モードであってステップ１０４の判定において否定判断が行われると、次に、音声データ送信部５６は、音声認識処理を依頼するサーバを選択し（ステップ１１０Ａ）、マイクロホン２２から入力されて圧縮処理部２６によって圧縮処理された音声データを、選択されたサーバ２Ａ、２Ｂのいずれかに向けて送信して音声認識処理を依頼する（ステップ１１０Ｂ）。
【００８１】
例えば、ステップ１１０Ａにおけるサーバの選択は、入力音声に対する音声認識処理の種類に応じて行われる。単語認識を行う場合にはサーバ２Ａが選択され、サーバ２Ａ内の音声認識処理部２００Ａに対して音声認識処理が依頼される。また、自然言語認識を行う場合にはサーバ２Ｂが選択され、サーバ２Ｂ内の音声認識処理部２００Ｂに対して音声認識処理が依頼される。このように、得意とする分野等が異なる複数のサーバ２Ａ、２Ｂを使い分けて音声認識処理を依頼することができ、サーバに依頼する場合の認識精度を向上させることができる。
【００８２】
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、車載装置１にナビゲーション装置、オーディオ装置、ハンズフリー電話システム、テレビ受信機、ラジオ受信機の機能を持たせたが、これらの一部の機能を持たせて入力音声に対して音声認識処理を行うようにしてもよい。
【００８３】
また、上述した実施形態では、電子メールの作成に必要な音声に入力については「テキスト入力モード」を適用したが、送信先アドレスの入力については「該当項目選択モード」を適用するようにしてもよい。例えば、図６に示したステップ２０４において、読み込んだ電話帳データの中から電話番号と名称の他にアドレスを抽出し、ステップ２０５において、抽出された電話番号、名称、アドレスに対応する音声認識辞書を作成しておくようにする。そして、電子メール作成の際に、メール作成画面における入力位置が電子メールの送信先アドレスを入力する「宛先」の位置にある場合であって、アドレスの入力が音声でなされた場合には、この入力音声に対する音声認識処理を車載装置１側で行うようにしてもよい。また、このアドレスの音声入力は、アドレスそのものを音声で読み上げる場合の他に、このアドレスに対応する名称や電話番号を音声で読み上げるようにしてもよい。電話帳取得部５１によって取得した電話帳データに基づいて、名称（あるいは電話番号）に１対１に対応するアドレスを抽出することができるため、この抽出したアドレスを電子メールの宛先として割り当てることができる。
【００８４】
また、上述した実施形態では、入力音声に対応する音声データをサーバ２等に送り、サーバ２等から車載装置１に向けて認識結果を送り返すようにしたが、サーバ２等において認識結果に基づく所定の処理を行った結果を車載装置１に送り返すようにしてもよい。例えば、車載装置１をナビゲーション装置として使用し、周辺施設やＰＯＩの検索に必要な事項を音声入力する場合に、入力音声に対する音声認識処理をサーバ２内の音声認識処理部２００によって行い、その認識結果を用いて検索処理部（図示せず）にて周辺施設等の検索を行い、その検索結果を車載装置１に送り返すようにしてもよい。
【産業上の利用可能性】
【００８５】
上述したように、本発明によれば、あらかじめ用意された単語や文章に限定して車載装置１側での音声認識処理を行うことにより、車載装置１側で行う音声認識処理とサーバ２側で行う音声認識処理を正確に振り分けることができるため、車載装置１側とサーバ２側の両方で音声認識処理を行うことを回避することができ、認識結果が得られるまでに要する時間を短縮することができる。また、車載装置１側では、あらかじめ用意された単語や文章についてのみ認識結果が得られればよいため、音声認識処理に関する車載装置１の規模および処理負担の軽減が可能となる。
【符号の説明】
【００８６】
１車載装置
２、２Ａ、２Ｂサーバ
１０ナビゲーション処理部
１４ＴＶチューナ処理部
１６ラジオチューナ処理部
２０音声入力処理部
２２マイクロホン
２４アナログ−デジタル変換器（Ａ／Ｄ）
２６圧縮処理部
３２音声認識辞書作成部
３４音声認識辞書
３６音声認識部
４０操作部
４２発話スイッチ（ＳＷ）
４４入力制御部
５０制御部
５１電話帳取得部
５２電話処理部
５３コンテンツリスト作成部
５４ＡＶ処理部
５５インターネット処理部
５６音声データ送信部
５７認識結果取得部
５８入力処理部
６０表示処理部
６２表示装置
６４デジタル−アナログ変換器（Ｄ／Ａ）
６６スピーカ
７０ハードディスク装置（ＨＤＤ）
８０、８２ＵＳＢインタフェース部（ＵＳＢＩ／Ｆ）
９０携帯電話
９２ＵＳＢメモリ
１００音声認識処理部
１０２振り分け判定部
２００、２００Ａ、２００Ｂ音声認識処理部
２０２通信制御部

【特許請求の範囲】
【請求項１】
クライアントにおいて入力された利用者の音声に対して、このクライアントあるいはこのクライアントにネットワークを介して接続されたサーバによる音声認識処理を行う音声認識システムであって、
前記クライアントは、
認識対象となる音声の入力を行う音声入力手段と、
あらかじめ用意された複数の単語あるいは文章を対象に音声認識処理を行うクライアント側音声認識処理手段と、
前記音声入力手段によって入力された音声について、前記クライアント側音声認識処理手段において音声認識処理を行うものと前記サーバにおいて音声認識処理を行うものとを振り分ける振り分け手段と、
前記振り分け手段によって前記サーバにおいて音声認識処理を行うもとのして振り分けられた音声のデータを前記サーバに送信するクライアント側通信手段と、を備え、
前記サーバは、
前記クライアントから送られてきた音声のデータを受信するサーバ側通信手段と、
前記サーバ側通信手段によって受信した音声のデータを用いて音声認識処理を行うサーバ側音声認識処理手段と、を備えることを特徴とする音声認識システム。
【請求項２】
請求項１において、
前記クライアント側音声認識処理手段は、前記音声入力手段によって入力された音声に対して音声認識処理を行うことにより、あらかじめ用意された前記複数の単語あるいは文章のいずれかの読みを特定することを特徴とする音声認識システム。
【請求項３】
請求項２において、
前記クライアントは、車載装置であり、
前記クライアントは、前記クライアント側音声認識処理手段あるいは前記サーバ側音声認識処理手段による認識結果に応じて、前記車載装置に対する操作指示あるいは情報入力を行う入力処理手段をさらに備えることを特徴とする音声認識システム。
【請求項４】
請求項３において、
前記クライアントは、利用者による手動操作を受け付ける操作手段をさらに備え、
前記入力処理手段は、前記クライアント側音声認識処理手段による認識結果、前記サーバ側音声認識処理手段による認識結果、前記操作手段を用いた手動操作のいずれかに応じて、前記車載装置に対する操作指示あるいは情報入力を行うことを特徴とする音声認識システム。
【請求項５】
請求項３または４において、
前記振り分け手段は、ネットワークを介して前記サーバに対する接続ができないときに、前記サーバにおける音声認識処理に代えて、前記クライアント側音声認識処理手段における音声認識処理に振り分けることを特徴とする音声認識システム。
【請求項６】
請求項４において、
前記入力処理手段は、ネットワークを介して前記サーバに対する接続ができないときに、前記サーバ側音声認識処理手段による認識結果に代えて、前記操作手段を用いた手動操作に応じて、前記車載装置に対する操作指示あるいは情報入力を行うことを特徴とする音声認識システム。
【請求項７】
請求項３〜６のいずれかにおいて、
前記車載装置に対する操作指示あるいは情報入力の対象となる前記複数の単語あるいは文章が既知である場合に、前記振り分け手段は、前記クライアント側音声認識処理手段による音声認識処理に振り分けを行い、前記クライアント側音声認識処理手段は、前記音声入力手段によって入力された音声に対し音声認識処理を行うことにより、前記複数の単語あるいは文章の中から音声認識結果に対応するものを選択することを特徴とする音声認識システム。
【請求項８】
請求項７において、
前記クライアント側音声認識処理手段は、既知の前記複数の単語あるいは文章に対する音声認識辞書を有することを特徴とする音声認識システム。
【請求項９】
請求項８において、
前記複数の単語あるいは文章は、前記車載装置に対して操作指示を行う複数の操作コマンドであることを特徴とする音声認識システム。
【請求項１０】
請求項８において、
前記車載装置は、通話先の電話番号および各電話番号に対応する名称が含まれる電話帳データが内蔵された移動体電話が接続されているときに、前記電話帳データに含まれる前記電話番号に対して前記移動体電話を用いた発呼を行うハンズフリー電話システムとして動作し、
前記複数の単語あるいは文章は、前記電話番号および前記名称の少なくとも一方であることを特徴とする音声認識システム。
【請求項１１】
請求項１０において、
前記クライアント側音声認識処理手段は、前記移動体電話が接続されたときに、前記電話帳データに含まれる前記電話番号および前記名称の少なくとも一方の読みに対応する前記音声認識辞書を作成する音声認識辞書作成手段を有することを特徴とする音声認識システム。
【請求項１２】
請求項８において、
前記車載装置は、複数の楽曲に対して選択的に再生を行うオーディオ装置として動作し、
前記複数の単語あるいは文章は、前記複数の楽曲のそれぞれに対応する楽曲名、アルバム名、アーティスト名の少なくとも一つであることを特徴とする音声認識システム。
【請求項１３】
請求項１２において、
前記クライアント側音声認識処理手段は、前記楽曲名、アルバム名、アーティスト名の少なくとも一つの読みに対応する前記音声認識辞書を作成する音声認識辞書作成手段を有することを特徴とする音声認識システム。
【請求項１４】
請求項３〜１３のいずれかにおいて、
前記車載装置は、ネットワークを介して発信する文書を作成する文書作成手段をさらに備え、
前記文書の作成に必要なテキスト入力を前記音声入力手段によって入力された音声に基づいて行う際に、前記振り分け手段は、前記サーバ側音声認識処理手段における音声認識処理に振り分けることを特徴とする音声認識システム。
【請求項１５】
請求項１４において、
前記車載装置は、前記サーバから送信される前記サーバ側音声認識処理手段による認識結果を取得する認識結果取得手段をさらに備え、
前記文書作成手段は、前記認識結果所得手段によって取得した認識結果を、前記文書の作成に必要なテキストとして用いることを特徴とする音声認識システム。
【請求項１６】
請求項３〜１３のいずれかにおいて、
前記車載装置は、特定施設の詳細情報を表示する施設情報表示手段をさらに備え、
前記施設情報表示手段による詳細情報表示の対象となる前記特定施設の入力を前記音声入力手段によって入力された音声に基づいて行う際に、前記振り分け手段は、前記サーバ側音声認識処理手段における音声認識処理に振り分けることを特徴とする音声認識システム。
【請求項１７】
請求項１６において、
前記車載装置は、前記サーバから送信される前記サーバ側音声認識手段による認識結果、あるいは、この認識結果を用いて検索された前記詳細情報を取得する認識結果取得手段をさらに備え、
前記施設情報表示手段は、前記認識結果取得手段によって取得した認識結果を用いて検索された前記詳細情報、あるいは、前記認識結果取得手段によって取得した前記詳細情報を表示することを特徴とする音声認識システム。
【請求項１８】
請求項１〜１７のいずれかにおいて、
前記音声入力手段は、マイクロホンであることを特徴とする音声認識システム。
【請求項１９】
請求項１８において、
前記マイクロホンに向けて発声する際に利用者によって操作可能な発話スイッチをさらに備え、
前記振り分け手段は、前記発話スイッチが操作された後に前記マイクロホンによって集音された利用者の音声に対して振り分けを行うことを特徴とする音声認識システム。
【請求項２０】
請求項１〜１９のいずれかにおいて、
それぞれが前記サーバ側音声認識処理手段を備える複数の前記サーバが前記クライアントと接続可能であり、
前記振り分け手段は、前記サーバにおいて音声認識処理を行うものとして振り分けを行う際に、前記複数のサーバのいずれかを選択することを特徴とする音声認識システム。

【図１】