説明

音声認識装置およびデータ更新方法

【課題】地図情報の更新の際に、装置への負荷をかけずに音声認識の差分情報を端末に送信し、音声認識装置を更新する。
【解決手段】サーバと通信網によって接続された端末に備わる音声認識装置であり、端末は目標物を含む地図情報を保持し、音声認識装置は地図情報に含まれる目標物の名称に対応した語彙を含む識別用データを備え、更新対象とされる地図情報の領域を示す更新領域情報と領域の更新情報とをサーバへ送信し、サーバは端末から送信された更新領域情報が示す領域の識別用データが、更新情報が示す時点より後に変更されている場合は、その時点における識別用データと最新の識別用データとの差分情報を生成し、更新領域情報が示す領域の地図情報と差分情報とを端末に送信し、端末はサーバから送信された地図情報に基づいて地図情報を更新し、音声認識装置は差分情報に基づいて端末に保持された識別用データを更新する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置に関し、特に、ナビゲーション装置で使用される音声認識装置の誤認識パターンを最新の状態でユーザに提供する技術に関する。
【背景技術】
【0002】
カーナビゲーション装置における音声認識装置は、手や目を拘束せずに装置を操作できる利点を持つ。特に、ユーザが発話した施設名を音声で入力することによって目的地を設定できる機能をもつカーナビゲーションが販売されている。
【0003】
しかし、音声認識装置が保有する音声認識辞書に登録されている語彙が多数ある場合、音声認識装置が誤認識する語彙の組が発生しやすくなり、ユーザの発話から目的地を認識する可能性が低くなる。このため、特許文献1では、音素間の誤認識傾向をあらかじめ取得しておき、これに基づいて、本来得られた認識結果に対して、誤認識傾向に基づいて誤り訂正を行った結果も音声認識結果に追加する方法が公開されている。また、誤認識傾向を利用して、音声認識辞書に登録されている語彙以外の単語を認識結果に追加する方法が公開されている(例えば、非特許文献1参照。)。
【0004】
また、特許文献2には、ネットワークを利用し、ナビゲーションサーバ(以下、サーバ)からナビゲーション端末(以下、端末)に特定の領域の地図データの差分情報を送信することで、少ない通信量で地図更新を行う技術が公開されている。
【0005】
また、非特許文献2には、音声認識を行う方法が記載されている。
【特許文献1】特開平8−171396号公報
【特許文献2】特開2006−317643号公報
【非特許文献1】T.Fukada、Y.Sagisaka、“Automatic generation of a pronunciation dictionary based on a pronunciation network”、Proc.Eurospeech 1997、1997、pp.2471−2472
【非特許文献2】鹿野、他4名、“音声認識システム”、オーム社、2001年
【発明の開示】
【発明が解決しようとする課題】
【0006】
通信ネットワークを介してカーナビゲーションサーバから端末に地図情報の差分を更新する場合、この地図情報の差分の中には、ほとんどの場合、施設名の追加、更新または削除が含まれる。
【0007】
地図情報の施設名が変更されると、音声認識装置の音声認識辞書の施設名の語彙にも変更すべき語彙が発生する。そして、音声認識辞書の語彙に変更が発生すると、変更された語彙と既存の語彙との間に、互いに誤認識しやすい語彙の組が発生する場合があり、誤認識傾向をあらためて見直す必要がある。
【0008】
また、差分情報の音声認識装置への送信、誤認識傾向の取得には、以下の課題が考慮されている必要がある。
【0009】
まず、誤認識傾向の取得について、端末の計算機リソースが限られるため、端末の処理のみによって誤認識傾向を算出し直すことは難しい。また、サーバのみによって誤認識傾向を算出し、各端末に送付する場合も、各端末によって保有される地図のバージョンはそれぞれ異なり、サーバが、全ての端末の地図バージョン情報を管理することはできないため、端末により認識辞書に登録されている語彙の内訳が異なる。よって、サーバのみによって誤認識傾向を取得することも難しい。
【0010】
そして、音声認識装置には、ユーザからの発話によって音声が入力されると認識結果を1つだけ出力する処理と、可能性のある候補を複数出力する処理とが知られている。また、音声認識装置が出力する各候補には、その結果の尤もらしさの度合いを示すスコアが付与される。スコアが最も高い認識結果が間違っていたとしても、候補を複数出力することによって、候補の中に正解が存在する可能性が高くなる。しかし、候補を複数出す音声認識処理には、必要となる計算機リソースが大きくなるため、端末のみの処理では、出力できる候補の数に制限があった。
【0011】
前述した課題を解決するために、本発明は、地図情報の更新で発生した差分情報を、端末の音声認識装置に送信し誤認識傾向を取得し、より正確性の高い認識結果をユーザに出力することを目的としており、また、カーナビゲーションサーバ、端末および通信網のリソースに過重な負荷をかけない仕組みを提供することを目的とする。
【課題を解決するための手段】
【0012】
サーバと通信網によって接続された端末に備わる音声認識装置であって、端末は目標物を含む地図情報を保持し、音声認識装置は保持された地図情報に含まれる目標物の名称に対応した語彙を含む識別用データを備え、更新対象とされる地図情報の領域を示す更新領域情報と、更新対象とされる領域の更新情報とをサーバへ送信し、サーバは端末から送信された更新領域情報が示す領域の識別用データが、端末から送信された更新情報が示す時点より後に変更されている場合は、更新領域情報が示す領域に対応する更新情報が示す時点における識別用データと最新の識別用データとの差分の情報を生成し、更新領域情報が示す領域の地図情報と共に、生成された差分情報とを端末に送信し、端末はサーバから送信された地図情報に基づいて、端末に保持された地図情報を更新し、音声認識装置は、サーバから送信された差分情報に基づいて端末に保持された識別用データを更新することを特徴とする音声認識装置を用いる。
【発明の効果】
【0013】
本発明によると、地図情報に変更があった場合、限られた計算機リソース(CPU、メモリ等)および通信網のリソースで、端末の音声認識辞書の更新が可能となる。
【発明を実施するための最良の形態】
【0014】
以下、本発明の実施形態を添付図面に基づいて説明する。なお、本実施形態では、カーナビゲーション装置の施設名認識に関する音声認識辞書の更新について説明する。しかし、施設名に限らず、楽曲名、住所、交差点名、道路名、機器の操作のための音声コマンドなど、他の音声認識操作における辞書更新でも適用が可能である。また、通信端末は、カーナビゲーション装置に限らず、ポータブルカーナビゲーション装置、携帯電話機およびPDAなどにも適用できる。
【0015】
(第1の実施形態)
(システムの全体/サーバと端末)
図1は、本発明の第1の実施形態のカーナビゲーション端末とサーバの関係を示すシステム構成図である。
【0016】
複数の自動車11010のそれぞれには、カーナビゲーション端末が備わっている。各自動車11010に備わる通信部は、通信網11020を介してサーバ11030と通信する。
【0017】
(サーバの構成)
図2は、本発明の第1の実施形態のサーバ11030の構成を示すブロック図である。
【0018】
サーバ11030は、CPU、出力装置、入力装置、ネットワークインターフェースおよびメモリと補助記憶装置を備えるコンピュータで、通信網11020を介して自動車11010の端末と通信をする。メモリには、分析部1012、音声認識部1040および言語モデル作成部1060を実現するプログラムが格納される。また、補助記憶装置には、音声データ1010、音響モデル記憶部1014、言語モデル記憶部1041、混同情報データ1050および施設名データ1020が格納されている。
【0019】
音声データ1010には、さまざまな施設名を読み上げた音声データをあらかじめ格納しておく。また、音声データ1010には、一つの施設名を複数人によって別々に発話した音声データが格納される。この音声データは、異なる話者による音声であってもよく、同一話者による音声が複数あってもよい。また、異なる騒音環境の下で採取された音声データが格納されていてもよい。
【0020】
分析部1012は、ユーザが発話した音声データを、特徴ベクトル列に変換する。特徴ベクトル列とは、時刻で区切られた音声の、各時刻の特徴量を多次元ベクトル量で表し、それを時系列に並べたものである。たとえば、特徴ベクトル列は、入力音声データを数十msごとに分割し、各時刻の音声データをMFCC(Mel Frequency Cepstrum Coefficient)パラメータと呼ばれる多次元ベクトル量に変換し、変換されたベクトル量を時系列に並べたものである。
【0021】
音響モデル記憶部1014には、各音素に対応する音響モデルをあらかじめ格納しておく。この音響モデルの表現形態は、各音素を3状態で定義したHMM(Hidden Marcov Model)を用いることができる。
【0022】
言語モデル記憶部1041には、辞書1042と文法1044が格納される。辞書1042には、音声認識が認識対象とする単語と、認識対象とされる単語の音素列が格納される。文法1044には、辞書1042に格納された各単語の連結規則が格納される。
【0023】
音声認識部1040は、音声認識処理を実行する。すなわち、音響モデル記憶部1014に記憶されているHMMを言語モデル記憶部1041に記憶された辞書1042と文法1044の連結規則に従って連結させたHMMネットワークの中から、分析部1012から渡された入力音声の特徴ベクトル列をもっとも高い確率で出力する状態系列を探索する。さらに、探索結果の状態系列に沿った単語列を認識結果として出力する。また、単語列に加えて、認識結果の単語列の確からしさを表すスコアを計算する。音声認識処理の実装方法は、非特許文献2に記載の方法を使うことができる。出力された単語列とスコアは、混同情報データ1050に格納される。ここでは、スコアが最も高かった単語列だけを出力してもよいし、スコアが高かった上位複数個の単語列を出力してもよい。
【0024】
施設名データ1020には、さまざまな日時における施設名のデータ1030が含まれる。
【0025】
図3Aから図3Dは、本発明の第1の実施形態の施設名データ1020に含まれるデータ1030の例の説明図である。
【0026】
施設名データ1020では、複数の日時における施設名のデータ1030を含んでいる。この例では、古いものから新しいものまで施設名のデータ1030の四つのバージョンのセット(図3A〜図3D)がある。このセットはバージョン番号によって管理される。本実施の形態では、古いものから、バージョン1の施設名のデータ2010(図3A)、バージョン2の施設名のデータ2080(図3B)、バージョン3の施設名のデータ2090(図3C)およびバージョン4の施設名のデータ2100(図3D)がある。なお、バージョン番号の代わりに、そのデータの作成日時を管理番号として割り当ててもよい。
【0027】
各バージョンの施設名のデータ1030には、ID2030、施設名2040、音素列2050、領域2060および緯度経度2070が含まれる。ID2030は、施設名を特定するための一意の識別子である。音素列2050は、施設名2040の読み方を示すデータである。領域2060は、施設名が含まれる地図上の領域を特定するデータである。緯度経度2070は、この施設の位置を表す。なお、これらのレコードの他にも、カーナビゲーションにおいて一般的に施設に付与されている施設ジャンル、住所、電話番号、および、タッチパネルやリモコンによる名称入力の際に参照される仮名読みなどを付与してもよい。また、領域2060は必須ではなく、必要に応じて緯度経度2070から所定の計算によって領域2060を導出してもよい。
【0028】
また、第1の実施形態では、サーバ11030および端末の双方で、施設名データ1020を使用する。施設名2040が検索のためのインデックスキーとして使用されるが、施設名に一意に付与されたID2030をインデックスキーとして用いてもよい。
【0029】
ここで、図2の説明に戻る。
【0030】
言語モデル作成部1060は、施設名データ1020に記憶されている施設名の音素列を用いて、音声認識で使用できる形式の言語モデルに変換し、変換された言語モデルを言語モデル記憶部1040に記憶する。
【0031】
音声認識部1040は、施設名データ1020に含まれる施設名の音素列2050から言語モデル作成部1060を介して作成された言語モデルを使用し、音声データ1010に含まれるさまざまな音声データを認識し、各音声データの誤認識傾向を計算し、計算された認識結果を用いて混同情報データ1050を更新する。
【0032】
誤認識傾向の計算方法は複数考えられるが、ここでは一つの方法を例にとって説明する。
【0033】
例として、施設名の音声データ「あさってホテル」と、施設名の音声データ「パークホテル」との誤認識傾向を把握する。以下、ユーザが発した音声データを音声認識装置がユーザの意図通りに正しく認識することを正解と呼び、正解となる施設名(本例では「あさってホテル」)を正解施設名と呼び、音声データに対して誤認識となる施設名(本例では「パークホテル」)を誤り施設名という。
【0034】
「あさってホテル」とユーザが発話した音声データが、あらかじめN個あるものとする。なお、音声データは、複数の人が発話した音声でもよいし、同一人物が複数回発話した音声でもよい。
【0035】
次に、正解施設名「あさってホテル」および誤り施設名「パークホテル」それぞれの音声データに対する対数出力確率を算出する。対数出力確率とは、ある施設名Wを構成する音素系列の音響モデルから、ある音声データXの特徴ベクトル列が生成される確率を算出し、その対数を取った値として求められる。この計算方法として、非特許文献2に記載の方法を用いることができる。また、音声データXの施設名Wに対する対数出力確率のことをP(X|W)という記号で表す。
【0036】
次に、「あさってホテル」とユーザが読み上げた各音声データの、正解施設名「あさってホテル」、誤り施設名「パークホテル」それぞれに対して算出された対数出力確率の差を求める。i番目の音声データで算出された対数出力確率の差Diは、下記の式で求められる。
【0037】
i=P(Xi|Wtgt)−P(Xi|Wref
ただし、各記号の意味は下記のとおりである。
【0038】
i:音声データの番号(i=1〜N)
i:i番目の音声データ
tgt:誤り施設名
ref:正解施設名
iが正の値であれば、音声データの対数出力確率は、正解施設名「あさってホテル」に対する値よりも、誤り施設名「パークホテル」に対する値のほうが高いことを意味する。よって、Diが正の値である音声データが多いほど、音声データ「あさってホテル」は、間違った施設名である「パークホテル」に誤認識されやすい傾向を示す。
【0039】
そこで、Diが正の値であった音声データの数を、すべての音声データの数で割った値を用いて、誤認識の起こりやすさを表すこととする。以下、誤認識の起こりやすさのことを混同スコアという言葉で表す。この方法を使えば、正解施設名Lrefに対する誤り施設名Ltgtの混同スコアC(Ltgt|Lref)は、下記の式で表される。
【0040】
C(Ltgt|Lref)=nDi>0/N
ただし、nDi>0は、N個ある音声データのうち、対数出力確率の差Diが正であった音声データの個数である。
【0041】
たとえば、「あさってホテル」と読み上げた音声データが100個あり、各音声データを用いて施設名「あさってホテル」、「パークホテル」の両方に対する対数出力確率を計算したところ、「パークホテル」に対する対数出力確率のほうが「あさってホテル」に対する対数出力確率より高かった音声データが30個あったとする。この場合、混同スコアは30÷100=0.3と計算される。また、同様の方法により、施設名「アークホテル」の混同スコアが0.2と計算された。
【0042】
この誤認識傾向の計算の方法では、混同スコアが1以下でかつ1に近いほど、ユーザの発話が誤認識される可能性が高いとされる。そこで、この混同スコアを用いて、誤認識の可能性の大きさを表現することにする。
【0043】
混同情報データ1050は、音声認識部1040で算出された混同スコアを格納する。これについては図4において詳しく説明する。
【0044】
図4は、本発明の第1の実施形態の混同スコア表3010の例の説明図である。
【0045】
混同スコア表3010は、施設名3010、バージョン3030、領域3040および混同情報3050を含む。混同情報3050は、混同施設名3060、バージョン−領域3070および混同スコア3080を含む。
【0046】
施設名3020は、施設の名称である。
【0047】
バージョン3030は、施設名称3010が含まれる地図のバージョンである。例えば、東西病院は、バージョン2、3、4の地図に含まれているが、バージョン1の地図には含まれていないことが、表3010から読み取ることができる。
【0048】
領域3040は、施設名3020が含まれる地図上の領域を示す。
【0049】
混同情報3050は、施設名3020と誤認識される可能性がある施設である。
【0050】
混同施設名3060は、誤認識される可能性のある施設名である。
【0051】
バージョン−領域3070は、混同施設名3060が含まれる地図のバージョンと領域との対応関係である。
【0052】
混同スコア3080は、誤認識のされやすさの度合いを表す数値である。前述した計算例によれば、施設名「パークホテル」に対する、混同施設名「あさってホテル」の混同スコアが0.3となる。また、施設名「アークホテル」に対する、混同施設名「あさってホテル」の混同スコアが0.2となる。
【0053】
なお、ここで説明した混同スコアの計算方法は一例である。誤認識傾向を付与できればどのような方法でもよい。たとえば、音素単位の誤認識傾向をあらかじめ取得しておき、取得した音素単位の誤認識傾向から、施設名単位の誤認識傾向を計算してもよい。また、音声認識部1040において実行される音声認識処理をサーバで行うことなく、別の計算機で行われた結果に基づいて混同スコアを決定してもよい。また、人手によって混同スコアを決定してもよい。
【0054】
また、混同スコアは、同一施設名においても、途中で何らかの理由により変更される場合もある。図4の例では、施設名「東西病院」に対する混同施設名「葛西病院」の混同スコアが、バージョン1〜3までは0.7であるが、バージョン4では0.5に変更されている。このような混同スコアの変更の情報も表3010に記録してよい。
【0055】
また、音声データ1010に異なる雑音状況である音声データを格納しておき、混同スコアを雑音状況ごとに別に計算してもよい。さらに、端末では、各端末が使用されている環境に最も近い雑音状況の混同スコアを利用することによって、より高精度な誤認識傾向による認識結果の補正が可能となる。
【0056】
(端末の構成)
図5は、本発明の第1の実施形態の端末の音声認識装置の構成を示すブロック図である。
【0057】
端末は、自動車11010に取り付けられており、CPU、出力装置、入力装置、ネットワークインターフェース、メモリおよび補助記憶装置を備え、通信網11020を介してサーバ11030と通信をする。
【0058】
音声取込部10010は、ユーザからの音声信号をデジタル信号に変換し、音声データとして取り込む。
【0059】
分析部10020は、音声取込部10010から取り込んだ音声データを、特徴ベクトル列に変換する。変換する方法は、サーバの分析部1012で用いられる方法と同じ方法を用いてもよい。
【0060】
音響モデル記憶部10030は、各音素に対応する音響モデルをあらかじめ保存する。この音響モデルの保存の方法は、サーバの音響モデル記憶部1014で用いる方法と同じ方法を用いてもよい。
【0061】
言語モデル記憶部10040には、辞書10042と文法10044を格納する。
【0062】
辞書10042は、音声認識部10050が認識対象とする単語と、その音素列を格納する。第1の実施形態では、辞書10042に、施設名の名称の単語、および施設名の音素列を格納する。なお、音声認識対象としてすべての施設名が辞書10042に格納されていなくても、ユーザの自車位置、または、あらかじめ入力された住所や施設ジャンルなどによって限定された施設名のみが格納されていてもよい。
【0063】
文法10044は、辞書10042に格納された各単語の連結規則を格納する。
【0064】
音声認識部10050は、音声認識処理を実行する。すなわち、音響モデル記憶部10030に記憶されているHMMを言語モデル記憶部10040に記憶された辞書10042と文法10044の連結規則に従って連結させたHMMネットワークの中から、分析部10020から渡された入力音声の特徴ベクトル列をもっとも高い確率で出力する状態系列を探索する。さらに、探索結果の状態系列に沿った単語列を認識結果として出力する。また、単語列に加えて、認識結果の単語列の確からしさを示すスコアを計算する。音声認識処理の実装方法は、非特許文献2に記載の方法を使うことができる。ここでは、スコアが最も高かった単語列だけを出力してもよいし、スコアが高かった上位複数個の単語列を出力してもよい。
【0065】
認識結果記憶部10052は、音声認識部10050によって出力された結果を一時的に保存する。音声認識部10050は認識結果記憶部10052に格納されている結果を認識結果補正部10060または出力部10090に出力してもよい。
【0066】
認識結果補正部10060は、音声認識部10050から出力された結果に対して施設名データ10070に基づいて補正を加える。施設名データ10070には、施設名の一覧と、施設名の混同情報が含まれている。また、施設名データ10070には、施設名の読み方を表す音素列が含まれており、音声認識装置の音声認識辞書として機能する。これらの動作については後ほど詳しく説明する。
【0067】
言語モデル作成部10080は、施設名データ10070に格納されている施設名の音素列を、音声認識で使用できる形式の言語モデルに変換し、変換された言語モデルを言語モデル記憶部10040に格納する。なお、一般に、音声認識の処理を行っていないときに、この言語モデルの変換処理が実行されるが、音声認識処理の起動時または認識処理中に言語モデルの変換処理が実行されてもよい。
【0068】
出力部10090は、認識結果補正部10060または音声認識部10050から送られた音声認識結果を、カーナビゲーション装置の画面出力、音声出力などの機能へ出力する。
【0069】
(施設名データ10070の構成)
次に、施設名データ10070について説明する。
【0070】
図6は、本発明の第1の実施形態の端末に保持されている地図4010とそのバージョンを示す説明図である。
図6の記載されている通り、端末に保持されている地図4010は、網目状の領域に区分され、領域A〜Dの4個を含む。また、領域A〜Dのそれぞれのバージョンは、3、3、2、3である。また、登録されている施設名は、図6の地図4010に示した「東西病院」「華津温泉」「パークホテル」「あさってホテル」「葛西病院」の5個である。端末が保持する地図およびバージョン情報は、端末内に電子データとして格納されている。
【0071】
この状態において、施設名データ10070には、端末に搭載されている施設名の情報と、端末が誤認識しやすい施設名の情報とが記憶されている。
【0072】
図10Aから図10Eは、本発明の第1の実施形態の施設名データ10070の例の説明図である。
【0073】
施設名データ10070は、施設名8060、バージョン−領域8070および混同情報8080を含む。混同情報8080は、混同施設名8090、バージョン−領域8100および混同スコア8120を含む。
【0074】
施設名8060は、端末に格納されている施設名称である。
【0075】
バージョン−領域8070は、施設名8060が含まれる領域と地図のバージョン番号との対応関係である。例えば、東西病院は、領域Aにあり、また、領域Aのバージョンが3であるため、「3−A」と記録されている。
【0076】
混同情報8080は、端末の音声認識装置から施設名8060と誤認識される可能性がある施設名である。
【0077】
混同施設名8090は、誤認識される可能性のある施設名である。
【0078】
バージョン−領域8100は、混同施設名8090が含まれる地図のバージョンと領域との対応関係である。
【0079】
混同スコア8120は、誤認識されやすさの度合いを表す数値である。たとえば、東西病院に対して葛西病院は、誤認識される可能性があるため、混同スコアとして0.7が付与されている。
【0080】
この混同スコアを付与する方法としては、(1)カーナビゲーションを購入した際に最初に付与する、(2)地図更新のDVDやCDなどのメディアに付与する、(3)ネットワークを介した地図の差分更新時に、合わせて混同情報を更新する、などのいずれの方法を採用してもよい。
【0081】
なお、本実施形態の施設名データ10070では省略しているが、各施設名には、施設の一意な識別子、施設名の読み方を記述した音素列、位置を表す緯度経度、カーナビゲーションで一般的に施設に付与されている施設ジャンル、住所、電話番号、および、タッチパネルやリモコンによる名称入力の際に参照される仮名読み、なども対応づけられてもよい。
【0082】
(混同情報8080の更新)
次に、通信網11020を介した端末が保持する地図の更新において、施設名データ10070の混同情報8080を更新する方法について説明する。ここでは例として、図6の地図4010で示したDの領域が、バージョン3から4に更新され、地図4020となる場合について説明する。具体的には、地図4010の「あさってホテル」が削除され、「東海病院」「アークホテル」が追加される。
【0083】
図7は、本発明の第1の実施形態の地図情報の更新時の端末の処理を示すフローチャートである。
【0084】
まず、ステップ5010において、端末はサーバ11030に地図情報の更新の要求を送信する。この更新の要求の送信タイミングは、ユーザが明示的に更新を指示した場合や、端末が自動的に(例えば、周期的に)更新を指示する場合である。
【0085】
端末からサーバ11030に送信される情報5012は、更新対象の領域、更新対象の地図領域の現在端末で使用しているバージョン番号、端末で使用されている地図の中で最も古いバージョン番号を含む。更新対象の領域は領域Dで、かつ端末の領域Dの地図のバージョンは3であるので、更新対象のバージョン番号として「3」、領域として「D」を送信する。また、図6の4010に示した地図において、最も古い地図バージョンは領域Cの「2」であるので、最も古いバージョン番号として「2」を送信する。
【0086】
この情報5012を受信すると、サーバ11030は、差分更新の処理を開始する。
【0087】
図8は、本発明の第1の実施の形態の地図情報の更新時のサーバ11030の処理を示すフローチャートである。また、図9Aは、本発明の第1の実施形態のサーバ11030から端末に送信される差分情報の削除施設名7010を示す説明図であり、図9Bは、差分情報の追加施設名7015を示す説明図であり、図9Cは、差分情報のなかで、混同情報が変化する施設名を示す情報7085を示す説明図である(以下、7085を混同情報変化施設名と称す)。
【0088】
サーバ11030は、ステップ5010によって送られた更新要求をステップ6010で受信する。
【0089】
ステップ6020では、更新要求のあった領域の地図の最新のバージョンがいくつであるかを、施設名データ1020から検索する。この結果、バージョン4が最新であることが分かる。また、領域Dがバージョン3から4に更新するために、サーバ10030に登録されているデータから施設の削除・追加・変更の情報を抽出する。この施設の削除、追加および変更の情報を差分情報という。
【0090】
以下に、ステップ6030以降の差分情報の作成方法について説明する。ステップ6030では、地図情報の更新により領域Dから削除される施設名の一覧を取得する。施設名データ1020でのバージョン3の一覧は図3Cの表2090に、バージョン4の一覧は図3Dの表2100に示されている。表2090と表2100との比較によって、領域Dから削除する施設を抽出すると、「あさってホテル」が領域Dから削除されるべきことが分かる。よって、「あさってホテル」を抽出し、抽出された施設名を削除施設名7010(図9A)に一時領域に保存する。
【0091】
ステップ6040では、更新によって領域Dに追加される施設名と、追加される施設名の混同情報を取得する。バージョン3の一覧である表2090とバージョン4の一覧である表2100との比較によって、領域Dに追加される施設名を抽出すると、「東海病院」、「アークホテル」の二つの施設が抽出される。
【0092】
また、「東海病院」、「アークホテル」の混同情報は、表3010から抽出される。これらの抽出された混同情報を、追加施設名7015(図9B)に一時的に保存する。
【0093】
ステップ6050では、ステップ6040で抽出された追加施設名7015の情報から、端末で持つ最も古いバージョンより以前の情報を削除する。ステップ6010で受信した情報5012によると、端末で持つ最も古い地図のバージョン番号は「2」であった。よって、バージョン番号が2より前のバージョン(つまり、バージョン1)の情報は不要となる。よって、追加施設名7015より、バージョン1に関する施設名や混同情報などの情報を削除する。具体的には、混同情報のうち、バージョン1にしか含まれない施設の情報を削除する(7081)。また、バージョン−領域7070のうち、バージョン1に関する情報を削除する(7082)。
【0094】
ステップ6060では、ステップ6050で出力された追加施設名の情報の、更新対象領域(つまり、領域D)に関する情報の中から、端末に次に配信されるバージョン(つまり、バージョン4)より前の情報を削除する。具体的には、領域Dのバージョン3までしか含まれない施設名を削除し(7083)、バージョン−領域7070のうち、領域Dのバージョン3までの情報を削除する(7084)。
【0095】
ステップ6070では、表3010を参照し、更新対象領域の施設名が更新されることにより(つまり、3−Dが4−Dとなることによって)、すべての領域において変化する混同情報を抽出する。抽出された混同情報を混同情報変化施設名7085(図9C)に一時的に保存する。
【0096】
施設名7090は、地図の更新により変化する混同情報を持つ更新対象領域以外の施設名である。
【0097】
バージョン7100、領域7110は、それぞれ、施設名7090が含まれる地図のバージョンと領域の識別子である。
【0098】
混同情報7120は、更新により変化する混同情報である。
【0099】
更新種別7130は、それぞれの混同情報の更新の種別である。具体的には、追加、更新、削除の3通りとなる。
【0100】
混同施設名7140は、音声認識装置が誤認識しやすい施設名である。
【0101】
バージョン−領域7150は、混同施設名7140が含まれる地図のバージョン番号と領域である。
【0102】
混同スコア7160は、混同施設名7140の混同スコアである。
【0103】
ステップ6073では、ステップ6070で出力された情報のうち、端末で持つ最も古い地図バージョンより前の混同情報を削除する。端末の最も古い地図バージョンは「2」であるため、それより前のバージョン(つまり、バージョン1)のみに存在する施設名「東西クリニック」の情報は削除する(7170)。
【0104】
ステップ6076では、ステップ6073において出力された情報のうち、更新対象領域(つまり、領域D)に関する情報の中から、端末に次に配信されるバージョン(つまり、バージョン4)より前の情報を削除する。具体的には、更新領域Dでのバージョンは「4」になるため、領域Dでバージョン3までにしか含まれない「あさってホテル」の情報を削除する(7180)。
【0105】
ステップ6080では、端末に送る更新情報を作成する。送信される更新情報は、これまで生成してきた結果である削除施設名7010、追加施設名7015、混同情報変化施設名7085である。
【0106】
なお、ここでは省略したが、更新情報にある各施設名には、施設の一意の識別子が付与されてもよい。また、追加施設名7015には、この他に、施設名の読み方を記述した音素列、位置を表す緯度経度、カーナビゲーションで一般的に施設に付与されている施設ジャンル、住所、電話番号、および、タッチパネルやリモコンによる名称入力の際に参照される仮名読み、などが付加されてもよい。
【0107】
ステップ6090では、抽出された更新情報と、ステップ6010で受信した更新要求のあった地図情報とを端末に送信する。
【0108】
図7に戻って、サーバ11030から送られた更新情報の端末による処理について説明する。
【0109】
ステップ5020では、サーバ11030から送られた更新情報を受信する。
【0110】
ステップ5030では、受信した更新情報を参照し、端末の施設名データ10070から削除すべき施設名があるか否かを判定する。この例では、削除施設名7010には「あさってホテル」が存在するため、ステップ5040に進む。
【0111】
ステップ5040では、削除対象となる施設名8060を施設名データ10070から削除する。この様子を、図10A〜Dを用いて説明する。
【0112】
図10Aの表8010は、更新開始時における施設名データ10070を示す。
【0113】
施設名データ10070から、施設名8060に含まれる「あさってホテル」を検索し、削除する(8022)。
【0114】
ステップ5050では、混同情報に含まれる混同施設名8090から、削除対象となる施設名8060を検索し、削除する(8024)。これらの結果、施設名データ10070は、図10Bに示す表8020となる。
【0115】
ステップ5060では、更新情報を参照し、端末の施設名データ10070に追加する施設名があるか否かを判定する。この例では、追加施設名7015が存在するため、ステップ5070に進む。
【0116】
ステップ5070では、追加対象となる施設名7020を施設名データ10070に追加する。追加対象となる施設名7020は、「東海病院」「アークホテル」の二つであるので、これらを追加する(8032)。このとき、音声認識用辞書10042にも追加される施設名を追加するとよい。
【0117】
また、このとき、領域Dに含まれる変更されない施設名のバージョンも更新する(8034)。この結果、施設名データ10070は図10Cに示す表8030となる。
【0118】
ステップ5080は、追加施設名7015に付与されている混同情報7050のうち、端末に保持されていない施設名の情報を削除する(8043、8046)。この結果、施設名データ10070は図10Dに示す表8040となる。
【0119】
ステップ5090では、既存の施設名8060に付与されている混同情報8080において、変更しなければならない混同情報8080があるか否かを判定する。この例では、混同情報変化施設名7085が存在する。よって、ステップ5100に進む。
【0120】
ステップ5100では、サーバから送られた更新情報7085に基づいて、施設名データ10070を変更する。たとえば、更新情報7085には、施設名「東西病院」に対して混同施設名「東海病院」を追加する変更情報が含まれるため、そのように施設名データ10070に追加する。また、施設名「葛西病院」についても、混同スコア8120が変更される情報があるため、この情報に基づいて施設名データ10070の混同スコア8120を変更する。また、サーバ11030から送られた情報には、端末には含まれない施設名7090に関する情報も含まれる。これについては、このステップ5100では追加しない。具体的には、「東八病院」は領域Aのバージョン4に含まれるが、端末では領域Aはバージョン3であるため、施設名データ10070に追加しない(削除8056)。この結果、施設名データ10070は図10Eに示す表8050になる。
【0121】
ステップ5110では、新しい施設名を認識できるように端末の音声認識用言語モデル10040を更新する。具体的には、施設名データ10070の施設名8060の読みを登録した音素列を使用し、音声認識部10050で読み込める形態の言語モデルを作成する。
【0122】
(対話の説明/認識結果補正部の働き)
次に、更新後の状態において、実際にユーザが施設名入力し、混同情報を利用することによる認識結果の補正について説明する。
【0123】
図11は、本発明の実施の形態のユーザと端末との対話例を示す説明図である。
【0124】
ユーザは、指示9010で、ユーザは端末に対して「東西病院」と発話する。
【0125】
ステップ9020では、まず、ユーザの発話に対して音声認識を行う。音声認識には、図5に示した音声認識装置を使用し、認識結果の単語列とその確からしさを表すスコアを出力する。この結果、音声認識部10050は誤認識を起こし、「東海病院」という結果をスコア1.0で出力した。この結果は、認識結果記憶部10052に格納される。また、この結果は、出力部10090に送られる。出力部10090は、画面、音声合成装置、その他の端末のモジュールに結果を送信する。その結果、ユーザに対して「東海病院ですね」という応答を返す(9030)。
【0126】
これに対して、ユーザは、異なった意図の結果が返ってきたため、「ちがう」と発話したとする(指示9032)。この音声は図5の音声認識装置によって認識され、端末は結果が否定されたことを認識する。
【0127】
次に、音声認識部10050は、先に認識された結果である「東海病院」を認識結果記憶部10052から取り出し、認識結果補正部10060に送る。
【0128】
認識結果補正部10060では、端末に保存されている施設名データ10070を参照し、名称「東海病院」に対応する混同情報を参照する。このときの施設名データ10070のデータは図10Eの表8050のようになっているものとする。表8050を参照すると、混同施設名8090として、「東西病院」、「葛西病院」が該当する。また、それぞれの混同スコア8120は、0.6、0.5となっている。
【0129】
この結果を利用し、もとの認識結果の「東海病院」に加えて、「東西病院」、「葛西病院」も認識結果の候補に追加する。また、「東西病院」、「葛西病院」のスコアは、もとの認識結果である「東海病院」のスコアである1.0に、上記混同スコア8120をそれぞれ乗じて、0.6、0.5という値に補正する。認識結果補正部10060は、この三つの施設名を出力部10090に送る。出力部10090は、画面、音声合成装置、その他の端末のモジュールに結果を送信する。そして、この三つの候補から選ばせるために、「候補が3件あります。1東海病院、2東西病院、3葛西病院」という応答をユーザへ出力する(応答9050)。
【0130】
これに対して、ユーザから「2番」という音声が入力されると(指示9052)、端末は、2番である「東西病院」を選択し(ステップ9060)、画面、音声合成装置、その他の端末のモジュールに結果を送信する(応答9070)。これにより、ユーザは希望した施設名を入力することができる。
【0131】
以上により、第1の実施形態のステップの流れを説明したが、上記のユーザと端末の対話の方法は、第1の実施形態で示した方法に限定されない。端末の音声認識ステップ(9020)の結果をすぐに認識結果補正部10060に送り、候補を増やす方法でもよい。この場合、認識結果記憶部10052を端末の音声認識装置から除いて構成してもよい。
【0132】
また、誤認識傾向を利用した方法であれば、第1の実施形態で示した方法に限定されない。たとえば、混同情報として、正解施設名の辞書を用いてある施設名を発話した音声データを認識したときのスコアを計算し、また、異なる施設名の辞書で音声データを認識したときのスコアを計算し、計算されたスコアの平均差をそのまま混同情報として利用する。さらに、この平均差にしたがって、認識結果のスコアを補正する方法や、結果の単語を増やす方法をとることができる。その他、混同情報を差分更新時に付与する様々な方法に適用が可能である。
【0133】
また、混同スコアや音声認識部が出力するスコアの使い方については、第1の実施形態ではとくに言及していないが、これは、認識結果のスコアを利用したさまざまな対話制御手法に用いることができる。
【0134】
第1の実施形態で説明した対話例では、応答9050において全ての候補を読み上げている。その他の方法として、ユーザが「ちがう」と発話したときには、次にスコアが高い施設名を参照し、ユーザに確認する方法が考えられる。つまり、ユーザが「ちがう」と発話すると、端末からは次にスコアが高かった東西病院を参照した「東西病院ですか?」という応答を生成する。さらにユーザが「ちがう」と発話したときには、次にスコアが高い葛西病院をつかって「葛西病院ですか?」という応答を生成する。
【0135】
また、別の方法として、混同情報によって得られた複数の施設名の候補から、ユーザのこれまでの自動車の使用履歴に基づいて、最もユーザが選ぶと予測される施設名をユーザに出力してもよい。
【0136】
本発明の第1の実施形態によると、地図情報に変更があった場合、限られた計算機リソース(CPU、メモリ等)および通信網のリソースで、端末の音声認識辞書の更新が可能となる。また、端末で誤認識傾向を把握することで、ユーザが意図する結果を音声認識装置から速やかに得ることができる。
【0137】
音声認識辞書の差分更新において、通常の地図の更新と同様に、辞書に含まれる語彙の追加、削除だけを行う方法もある。しかし、「東西病院」に行きたいと思って発話した音声が、更新によって追加された施設名である「東海病院」に誤認識される場合がある。また、この逆に、新しく追加された施設名を発話しても、以前からある他の施設名に誤認識されてしまう場合がある。
【0138】
この状況に対して、端末が高い計算機処理能力を持っていれば、音声認識部は複数の結果を出力することができ、候補として正解である「東西病院」も出力できる可能性がある。しかし、端末では計算機のリソースが限られるため、出力できる候補数も限られる。
【0139】
このような場合でも、第1の実施形態で示した手法によって、正解となる施設名を候補に入れることができる。
【0140】
また、混同情報を差分更新によりダウンロードする際に、すべての施設に関する混同情報をダウンロードすることは、通信量が膨大となるため実現が困難である。第1の実施形態では、更新対象施設の混同情報だけをダウンロードすることにより、通信量を減らすことができる。また、端末において、更新対象施設によって誤認識傾向の影響を受ける既存の施設名に対しての混同情報も更新することによって、より正確な誤認識傾向を端末で把握することができる。
【0141】
(第2の実施形態)
(差分情報の中に、誤認識対象の先となっている単語の混同スコアを含まない)
第2の実施形態では、更新の前提は第1の実施形態と同じである。第1の実施形態と異なる点は、(1)サーバ11030から送信される混同情報のうち、図9Cに示される混同情報変化施設名(7085)を送信しない、(2)図7に示される端末のステップ手順における5100のステップ方法が異なる、という2点である。この実施例では、端末の施設名の混同情報を更新するステップ5090およびステップ5100において、追加施設名の混同情報を利用した方法をとる。
【0142】
図12Aおよび図12Bは、本発明の第2の実施形態の施設名データ10070の例の説明図である。図13は、本発明の第2の実施形態の地図情報の更新時の端末の処理を示すフローチャートである。
【0143】
図13のステップ13010からステップ13080は、図7のステップ5010からステップ5080と同じであるので、詳細な説明は省略する。
【0144】
ステップ13090およびステップ13100による施設名データの変化を、図12Aから図12Bに示す。図12Aに示す表12010は、図10Dに示す更新途中の施設名データの表8040と同一である。ただし、表8040において取り消し線で示した混同情報の削除8043および削除8046は、表12010から既に削除されている。
【0145】
追加された施設名「東海病院」、「アークホテル」の混同施設名を参照すると、「東海病院」に対して「東西病院」と「葛西病院」とが、「アークホテル」に対して「パークホテル」が記載されており、それぞれ混同スコアが付与されている。
【0146】
そこで、この追加された施設名と混同施設名の対応関係を逆にした組み合わせ、つまり追加された混同施設名が施設名となっている既存の施設名を探し、同一のものがある場合(ステップ13090)、その既存の施設名の混同情報に、追加された混同施設名と混同スコアとを追加または更新する(ステップ13100)。更新した後の施設名データを表12020(図12B)に示す。たとえば、施設名「アークホテル」に対して混同施設名「パークホテル」があり、混同スコアは0.2であった。ここから、施設名「パークホテル」を探し、この混同情報として、混同施設名「アークホテル」を追加し、「アークホテル」に対する混同スコアを0.2とする。同様に、追加された施設名の「東海病院」に対しても同じ処理によって混同情報を追加する。
【0147】
ステップ13100が完了もしくは、ステップ13090で条件に該当するする施設名がない場合、ステップ13110に移る。ステップ13110は図7の5110と同じであり、以降のステップは第1の実施形態と同じであるので、詳細な説明は省略する。
【0148】
第2の実施形態では、サーバから端末に既存施設名の混同情報を送信しない方法をとった。このような場合、一般に、単語Aの音声が単語Bに誤認識される場合には、単語Bの音声が単語Aに誤認識される可能性もあるという経験則を利用し、施設名と混同施設名の対の内訳が同じであれば、同じ混同スコアを付与することが可能となる。
【0149】
よって、サーバから端末に既存施設名の混同情報を送信しない、通信量をより減らしリソースの使用を低減し、混同情報を効率よく更新できる。
【0150】
また、第2の実施形態では、サーバから送信された追加施設名情報に基づいて、既存施設名の混同情報を更新する場合を述べた。しかし、既存施設名が先に更新されている場合もある。その場合には、上書きせず、元の混同情報を保持してもよい。
【0151】
(ネットワークに拠らない構成における使用)
また、第1の実施形態、および第2の実施形態では、サーバと端末とに構成が分かれている実施形態の説明を行った。しかし、サーバと端末とに分けることは必須ではなく、図2と図5とが同一の端末に備わっていてもよい。
【0152】
また、混同情報を更新する際には、ネットワークを介した通信を行わなくても良い。たとえば、第1の実施形態、第2の実施形態において、サーバから通信によってダウンロードした情報を使って更新を行う代わりに、DVDなどのディスクメディアに保存された情報を使って更新を行うことも考えられる。このメディアを端末の入力装置を介して補助記憶装置に入力し、第1の実施形態、第2の実施形態でサーバからダウンロードした情報と同一のものをDVDより読み出し、混同情報を含む施設名データの更新、言語モデルの更新を行ってもよい。
【0153】
(地図以外の情報の更新における使用)
また、第1の実施形態、および第2の実施形態では、地図データの更新における実施方法を説明した。しかし、部分的な更新が起こりうるデータに対しては、地図以外の情報に対しても、本発明は適用することができる。たとえば、施設名データにおける緯度、および経度をなくした状態で、単なる施設名リストとして利用しても良い。また、カーオーディオで聞くことができる楽曲名データなどに対して使用してもよい。
【図面の簡単な説明】
【0154】
【図1】本発明の第1の実施形態のカーナビゲーション端末とサーバの関係を示すシステム構成図である。
【図2】本発明の第1の実施形態のサーバの構成を示すブロック図である。
【図3A】本発明の第1の実施形態のサーバでの施設名データを示す説明図である。
【図3B】本発明の第1の実施形態のサーバでの施設名データを示す説明図である。
【図3C】本発明の第1の実施形態のサーバでの施設名データを示す説明図である。
【図3D】本発明の第1の実施形態のサーバでの施設名データを示す説明図である。
【図4】本発明の第1の実施形態の混同スコアの表の例の説明図である。
【図5】本発明の第1の実施形態の端末の音声認識装置の構成を示すブロック図である。
【図6】本発明の第1の実施形態の端末に保持されている地図とそのバージョンを示す説明図である。
【図7】本発明の第1の実施形態の地図情報の更新時の端末の処理を示すフローチャートである。
【図8】本発明の第1の実施形態の地図情報の更新時のサーバの処理を示すフローチャートである。
【図9A】本発明の第1の実施形態の差分情報の削除施設名を示す説明図である。
【図9B】本発明の第1の実施形態の差分情報の追加施設名を示す説明図である。
【図9C】本発明の第1の実施形態の差分情報の混同情報変化施設名を示す説明図である。
【図10A】本発明の第1の実施形態の端末の施設名データを示す説明図である。
【図10B】本発明の第1の実施形態の端末の施設名データを示す説明図である。
【図10C】本発明の第1の実施形態の端末の施設名データを示す説明図である。
【図10D】本発明の第1の実施形態の端末の施設名データを示す説明図である。
【図10E】本発明の第1の実施形態の端末の施設名データを示す説明図である。
【図11】本発明の第1の実施形態のユーザと端末の対話例を示す説明図である。
【図12A】本発明の第2の実施形態の端末の施設名データを示す説明図である。
【図12B】本発明の第2の実施形態の端末の施設名データを示す説明図である。
【図13】本発明の第2の実施形態の地図情報の更新時の端末の処理を示すフローチャートである。
【符号の説明】
【0155】
11010 自動車
11020 通信網
11030 サーバ
1010 音声データ
1012 分析部
1014 音響モデル記憶部
1020 施設名データ
1030 データ
1040 音声認識部
1041 言語モデル記憶部
1042 辞書
1044 文法
1050 混同情報データ
1060 言語モデル作成部
10010 音声取込部
10020 分析部
10030 音響モデル記憶部
10040 言語モデル記憶部
10042 辞書
10044 文法
10050 音声認識部
10052 認識結果記憶部
10060 認識結果補正部
10070 施設名データ
10080 言語モデル作成部
10090 出力部

【特許請求の範囲】
【請求項1】
サーバとネットワークによって接続された端末に備わる音声認識装置であって、
前記端末は、目標物を含む地図情報を保持し、
前記音声認識装置は、
前記保持された地図情報に含まれる前記目標物の名称に対応した語彙を含む識別用データを備え、
更新対象とされる前記地図情報の領域を示す更新領域情報と、前記更新対象とされる領域の更新情報と、を前記サーバへ送信し、
前記サーバは、
前記端末から送信された前記更新領域情報が示す領域の識別用データが、前記端末から送信された前記更新情報が示す時点より後に変更されている場合は、前記更新領域情報が示す領域に対応する前記更新情報が示す時点における識別用データと最新の識別用データとの差分の情報を生成し、
前記更新領域情報が示す領域の地図情報と共に、前記生成された差分情報とを前記端末に送信し、
前記端末は、前記サーバから送信された地図情報に基づいて、前記端末に保持された地図情報を更新し、
前記音声認識装置は、前記サーバから送信された差分情報に基づいて、前記端末に保持された識別用データを更新することを特徴とする音声認識装置。
【請求項2】
前記識別用データは、各単語に対して互いに誤認識されやすい単語である混同単語と、前記混同単語の誤認識しやすさを表した数値である混同スコアと、を含む混同情報を含み、
前記サーバは、前記混同情報を含む前記差分情報を前記端末に送信し、
前記音声認識装置は、前記サーバから送信された混同情報に基づいて、前記端末に保持された識別用データに含まれる混同情報を更新することを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記サーバから送信された混同情報に含まれる単語が他の領域の混同情報に含まれる場合、当該他の領域の単語に対応する混同情報を更新することを特徴とする請求項2に記載の音声認識装置。
【請求項4】
ユーザが発話した音声の認識結果に基づいて、前記混同情報を参照し、
前記参照された混同情報に基づいて、前記認識結果を補正することを特徴とする請求項2に記載の音声認識装置。
【請求項5】
ユーザが発話した音声の認識結果に基づいて、前記混同情報を参照し、
前記参照された混同情報に誤認識されやすい単語が含まれる場合は、当該誤認識されやすい単語を認識結果に追加し、
当該誤認識されやすい単語のスコアを前記混同スコアに基づいて決定することを特徴とする請求項4に記載の音声認識装置。
【請求項6】
前記混同スコアに基づいて決定された単語のスコアに基づいて、前記出力される認識結果を変更することを特徴とする請求項4に記載の音声認識装置。
【請求項7】
前記サーバは、前記差分情報に含まれる単語と誤認識されやすい単語の混同情報を抽出し、前記抽出された混同情報を混同対象情報として前記端末に送信し、
前記音声認識装置は、前記サーバから送信された混同対象情報に基づいて、前記端末に保持された混同情報を更新することを特徴とする請求項2に記載の音声認識装置。
【請求項8】
前記サーバから送信された混同情報に含まれる単語と誤認識されやすい単語の混同情報を抽出し、
前記抽出された混同情報の前記混同スコアを、当該誤認識されやすい単語が正しく認識されるべき場合の混同情報にも設定することを特徴とする請求項2に記載の音声認識装置。
【請求項9】
サーバとネットワークによって接続された端末におけるデータ更新方法であって、
前記端末は、音声認識装置を備え、目標物を含む地図情報を保持し、
前記音声認識装置は、前記保持された地図情報に含まれる前記目標物の名称に対応した語彙を含む識別用データを備え、
前記方法は、
前記端末が、更新対象とされる前記地図情報の領域を示す更新領域情報と、前記更新対象とされる領域の更新情報と、を前記サーバへ送信し、
前記サーバが、前記端末から送信された前記更新領域情報が示す領域の識別用データが、前記端末から送信された前記更新情報が示す時点より後に変更されている場合は、前記更新領域情報が示す領域に対応する前記更新情報が示す時点における識別用データと最新の識別用データとの差分の情報を生成し、
前記サーバが、前記更新領域情報が示す領域の地図情報と共に、前記生成された差分情報とを前記端末に送信し、
前記端末が、前記サーバから送信された地図情報に基づいて、前記端末に保持された地図情報を更新し、
前記端末が、前記サーバから送信された差分情報に基づいて、前記端末に保持された識別用データを更新することを特徴とするデータ更新方法。
【請求項10】
前記識別用データは、各単語に対して互いに誤認識されやすい単語である混同単語と、前記混同単語の誤認識しやすさを表した数値である混同スコアと、を含む混同情報を含み、
前記サーバは、前記混同情報を含む前記差分情報を前記端末に送信し、
前記方法は、前記端末が、前記サーバから送信された混同情報に基づいて、前記端末に保持された識別用データに含まれる混同情報を更新することを特徴とする請求項9に記載のデータ更新方法。
【請求項11】
前記端末は、前記サーバから送信された混同情報に含まれる単語が他の領域の混同情報に含まれる場合、当該他の領域の単語に対応する混同情報を更新することを特徴とする請求項10に記載のデータ更新方法。
【請求項12】
前記端末は、
ユーザが発話した音声の認識結果に基づいて、前記混同情報を参照し、
前記参照された混同情報に基づいて、前記認識結果を補正することを特徴とする請求項10に記載のデータ更新方法。
【請求項13】
前記端末は、
ユーザが発話した音声の認識結果に基づいて、前記混同情報を参照し、
前記参照された混同情報に誤認識されやすい単語が含まれる場合は、当該誤認識されやすい単語を認識結果に追加し、
当該誤認識されやすい単語のスコアを前記混同スコアに基づいて決定することを特徴とする請求項12に記載のデータ更新方法。
【請求項14】
前記混同スコアに基づいて決定された単語のスコアに基づいて、前記出力される認識結果を変更することを特徴とする請求項12に記載のデータ更新方法。
【請求項15】
前記サーバは、前記差分情報に含まれる単語と誤認識されやすい単語の混同情報を抽出し、前記抽出された混同情報を混同対象情報として前記端末に送信し、
前記端末は、前記サーバから送信された混同対象情報に基づいて、前記端末に保持された混同情報を更新することを特徴とする請求項10に記載のデータ更新方法。
【請求項16】
前記端末は、
前記サーバから送信された混同情報に含まれる単語と誤認識されやすい単語の混同情報を抽出し、
前記抽出された混同情報の前記混同スコアを、当該誤認識されやすい単語が正しく認識されるべき場合の混同情報にも設定することを特徴とする請求項10に記載のデータ更新方法。
【請求項17】
音声を識別するための複数の識別用データを使用し、前記音声を識別する音声識別手段と、
前記複数の識別用データを記憶する識別用データ記憶手段と、
前記識別用データ記憶手段に記憶された前記複数の識別用データのいずれかを更新する識別用データ更新手段と、
を有することを特徴とした音声認識装置。
【請求項18】
前記音声識別手段で識別される前記音声に対応する複数のデータを記憶する情報記憶手段と、
前記情報記憶手段に記憶された前記複数のデータのいずれかを更新するデータベース更新手段とを有し、
前記識別用データ更新手段は、前記データベース更新手段によって更新される前記データと関連した前記識別用データを更新する
ことを特徴とした請求項17に記載の音声認識装置。
【請求項19】
情報センタから更新データを受信するための受信手段を有し、
前記識別用データ更新手段は、前記受信手段により受信される前記更新データを用いて前記識別用データを更新することを特徴とした
請求項17に記載の音声認識装置。
【請求項20】
記憶媒体に記録された更新データを入力するデータ入力手段を有し、
前記識別用データ更新手段は、前記データ入力手段により入力される更新データを用いて
前記識別用データを更新することを特徴とした
請求項17に記載の音声認識装置。
【請求項21】
前記情報記憶手段に記憶された複数のデータは、前記音声認識装置に接続されたナビゲーション装置に使用される地図情報であることを特徴とした
請求項18に記載の音声認識装置。
【請求項22】
前記識別用データ更新手段は、
前記データの更新内容に基づき、前記データベース更新手段によって更新された前記データに関連した前記識別用データから変更が必要な識別用データを
選択する更新識別用データ選択手段と、
前記更新識別用データ選択手段で選択された前記識別用データを更新する
ことを特徴とした
請求項18に記載の音声認識装置。

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図3C】
image rotate

【図3D】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9A】
image rotate

【図9B】
image rotate

【図9C】
image rotate

【図10A】
image rotate

【図10B】
image rotate

【図10C】
image rotate

【図10D】
image rotate

【図10E】
image rotate

【図11】
image rotate

【図12A】
image rotate

【図12B】
image rotate

【図13】
image rotate

【図1】
image rotate


【公開番号】特開2010−191400(P2010−191400A)
【公開日】平成22年9月2日(2010.9.2)
【国際特許分類】
【出願番号】特願2009−86097(P2009−86097)
【出願日】平成21年3月31日(2009.3.31)
【出願人】(591132335)株式会社ザナヴィ・インフォマティクス (745)
【Fターム(参考)】