説明

音声認識システム、音声認識端末、およびセンター

【課題】センターの認識辞書を利用して音声認識端末の認識辞書を拡充しつつも、音声認識端末における認識辞書のサイズの無駄な増大を抑える。
【解決手段】音声認識端末1は、ユーザの発話音声を自機で音声認識することに失敗した場合を選んで、センター2から当該発話音声の音声認識結果の単語と共に、センター側認識辞書における当該単語の比較用音声特徴データを受信し、受信した当該単語の比較用音声特徴データを端末側認識辞書に追加する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識システム、音声認識端末、およびセンターに関するものである。
【背景技術】
【0002】
従来、音声認識端末とセンターにて音声認識を行う音声認識システムがある。例えば、特許文献1には、ユーザの発話音声を音声認識端末が認識できなかった場合に、発話音声の音声データがセンターに送信され、センターがこの音声データを用いて音声認識を行い、その認識結果を音声認識端末に送信する技術が記載されている。
【0003】
また、特許文献2には、音声認識端末が、センターから認識辞書の提供を受けることで、自機の認識辞書を最新に保つ技術が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2004−184858号公報
【特許文献2】特開2000−105681号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の技術では、音声認識端末の辞書が変化しないので、いつまで経ってもセンターに頼る頻度は変わらない。したがって、センターとの通信ができないような状況で、認識結果を得られないという事態になる可能性が高いままとなってしまう。
【0006】
一方、サーバの認識辞書は多くの場合サイズが大きいので、特許文献2のように、サーバの認識辞書全体を音声認識端末が受信して使用するのでは、音声認識端末の記憶領域が圧迫されてしまう。また、音声認識端末が大量の認識単語を持つことで、その中に使われない単語が多く含まれることになり、認識精度が低下する可能性もある。
【0007】
本発明は上記点に鑑み、センターの認識辞書を利用して音声認識端末の認識辞書を拡充しつつも、音声認識端末における認識辞書のサイズの無駄な増大を抑えることを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するための請求項1に記載の発明は、音声認識端末(1)およびセンター(2)を備えた音声認識システムであって、前記音声認識端末(1)は、車載側認識辞書が記録された車載側認識辞書記憶部(14)と、端末側制御回路部(15)と、を備え、前記センター(2)は、センター側認識辞書が記録されたセンター側認識辞書記憶部(22)と、センター側制御回路部(23)とを備え、前記センター側認識辞書は、前記端末側認識辞書が有さない単語の比較用音声特徴データを有し、前記端末側制御回路部(15)は、前記ユーザの発話音声に基づく音声特徴データを取得し(110)、取得した音声特徴データと前記車載側認識辞書中の各単語の比較用音声特徴データとの比較に基づいて、前記発話音声に相当する単語を抽出する端末側音声認識手段(110、115)と、前記端末側音声認識手段(15a、110、115)が単語の抽出に失敗したことに基づいて、前記発話音声に基づく音声データを、問い合わせ音声データとして前記センター(2)に送信する問い合わせ送信手段(130)と、を備え、前記センター側制御回路部(23)は、前記音声認識端末(1)から送信された前記問い合わせ音声データに基づく音声特徴データと、前記センター側認識辞書中の各単語の比較用音声特徴データとの比較に基づいて、前記発話音声に相当する単語を抽出するセンター側音声認識手段(23b)と、前記センター側音声認識手段(23b)が抽出した単語と、前記センター側認識辞書中の当該単語の比較用音声特徴データと、を含む認識結果を、前記音声認識端末(1)に送信する応答手段(23a)と、を備え、更に前記端末側制御回路部(15)は、前記センター(2)から受信した前記認識結果に含まれる比較用音声特徴データを、受信した前記認識結果に含まれる単語の比較用音声特徴データとして、前記端末側認識辞書に追加登録する辞書更新手段(150)を備えたことを特徴とする音声認識システムである。
【0009】
このように、音声認識端末(1)は、ユーザの発話音声を自機で音声認識することに失敗した場合を選んで、センター(2)から当該発話音声の音声認識結果の単語と共に、センター側認識辞書における当該単語の比較用音声特徴データを受信し、受信した当該単語の比較用音声特徴データを端末側認識辞書に追加する。
【0010】
このようにすることで、少なくとも1回は音声認識端末で音声認識することが必要になった単語の比較用音声特徴データを選択的に音声認識端末に登録することになる。そのような単語を再度認識する必要が発生する可能性は、一度も認識する必要が発生していない単語よりは高いので、当該単語の比較用音声特徴データも、無駄になる可能性が比較的低い。したがって、センターの認識辞書を利用して音声認識端末の認識辞書を拡充しつつも、音声認識端末における認識辞書のサイズの増大量を低減することができる。
【0011】
また、請求項2に記載の発明は、センター(2)と通信する音声認識端末であって、車載側認識辞書が記録された車載側認識辞書記憶部(14)と、端末側制御回路部(15)と、を備え、前記端末側制御回路部(15)は、前記ユーザの発話音声に基づく音声特徴データを取得し(110)、取得した音声特徴データと前記車載側認識辞書中の各単語の比較用音声特徴データとの比較に基づいて、前記発話音声に相当する単語を抽出する端末側音声認識手段(110、115)と、前記端末側音声認識手段(15a、110、115)が単語の抽出に失敗したことに基づいて、前記発話音声に基づく音声データを、問い合わせ音声データとして前記センター(2)に送信する問い合わせ送信手段(130)と、前記センター(2)が、前記音声認識端末(1)から送信された前記問い合わせ音声データに基づく音声特徴データと、センター側認識辞書中の各単語の比較用音声特徴データとの比較に基づいて、発話音声に相当する単語を抽出し、抽出した単語と、前記センター側認識辞書中の当該単語の比較用音声特徴データと、を含む認識結果を、当該音声認識端末に送信したとき、前記センター(2)から受信した前記認識結果に含まれる比較用音声特徴データを、受信した前記認識結果に含まれる単語の比較用音声特徴データとして、前記端末側認識辞書に追加登録する辞書更新手段(150)と、を備えたことを特徴とする音声認識端末である。このように、音声認識システムの発明の特徴は、音声認識端末の発明の特徴としても捉えることができる。
【0012】
また、請求項3に記載の発明は、音声認識端末(1)と通信するセンターであって、センター側認識辞書が記録されたセンター側認識辞書記憶部(22)と、センター側制御回路部(23)とを備え、前記センター側制御回路部(23)は、前記音声認識端末(1)が、ユーザの発話音声に基づく音声データを、問い合わせ音声データとして当該センター(2)に送信したとき、前記問い合わせ音声データに基づく音声特徴データと、前記センター側認識辞書中の各単語の比較用音声特徴データとの比較に基づいて、前記発話音声に相当する単語を抽出するセンター側音声認識手段(23b)と、前記センター側音声認識手段(23b)が抽出した単語と、前記センター側認識辞書中の当該単語の比較用音声特徴データと、を含む認識結果を、前記音声認識端末(1)に送信し、それにより、前記音声認識端末(1)に、前記認識結果に含まれる比較用音声特徴データを、前記認識結果に含まれる単語の比較用音声特徴データとして、前記端末側認識辞書に追加登録させる応答手段(23a)と、を備えたセンターである。このように、音声認識システムの発明の特徴は、センターの発明の特徴としても捉えることができる。
【0013】
なお、上記および特許請求の範囲における括弧内の符号は、特許請求の範囲に記載された用語と後述の実施形態に記載される当該用語を例示する具体物等との対応関係を示すものである。
【図面の簡単な説明】
【0014】
【図1】本発明の実施形態に係る音声認識システムの模式図である。
【図2】車載機1およびセンター2の構成図である。
【図3】端末側制御回路部15が実行する処理のフローチャートである。
【発明を実施するための形態】
【0015】
以下、本発明の一実施形態について説明する。図1に、本実施形態に係る音声認識システムを模式的に示す。この音声認識システムは、車両に搭載される車載機1(音声認識端末の一例に相当する)と、車両の外部の遠隔地(例えば建物内)に設置されたセンター2とを備えている。車載機1とセンター2の通信経路は、どのようなものでもよい。例えば、無線基地局、広域ネットワーク(例えばインターネット)等の通信経路を介して通信できるようになっていてもよいし、直接無線通信可能となっていてもよい。
【0016】
本実施形態では、車載機1は、車両内のユーザの発話音声の認識を試み、認識に失敗すると、その発話音声に基づく音声データを問い合わせデータとしてセンター2に送信し、センター2は、その問い合わせデータに基づく音声データに対して音声認識を行い、音声認識の結果得た単語と、音声認識辞書における当該単語の語彙データ(当該単語の文字列および当該単語の比較用音声特徴データ(後述する)を含む)とを、車載機1に送信する。そして車載機1は、受信した語彙データを、受信した単語の語彙データとして、自機の音声認識辞書に追加する。
【0017】
以下、このような音声認識システムの構成および作動について説明する。図2に、車載機1およびセンター2の構成をブロック図で示す。この図に示す通り、車載機1は、入力装置11、出力装置12、端末側通信部13、端末側認識辞書記憶部14、および端末側制御回路部15を有している。
【0018】
入力装置11は、車両内のユーザが発した発話音声の入力を受け付け、受け付けた発話音声の音声信号を端末側制御回路部15に出力するマイクロフォンである。出力装置12は、画像を出力するディスプレイ、音声を出力するスピーカ等の、ユーザに情報を提供する装置である。
【0019】
端末側通信部13は、センター2および他の通信装置と通信するための周知の無線通信デバイスである。端末側制御回路部15は、この端末側通信部13を用いてセンター2および他の通信装置と通信を行うことができる。他の通信装置としては、例えば、広域ネットワークに接続されたWebサーバ等がある。
【0020】
端末側認識辞書記憶部14は、端末側認識辞書が記録された不揮発性の書き込み可能な記憶媒体(例えば、磁気記憶媒体、フラッシュメモリ)である。端末側認識辞書は、それぞれが1つの単語に対応する複数の語彙データを有し、各語彙データは、当該単語の比較用音声特徴データ、および、当該単語の文字列データを含んでいる。比較用音声特徴データは、発話音声に基づく音声特徴データと比較するためのデータである。
【0021】
例えば、「コンビニエンスストア」という単語に対応する語彙データの比較用音声特徴データは、「コンビニエンスストア」と人が発話したときの音の典型的特徴を示すデータ(例えば、その音の特徴量、周波数スペクトルデータ、時系列にサンプリングした強度等)である。また、「コンビニエンスストア」という単語に対応する語彙データには、「コンビニエンスストア」という単語に対応する語彙データの比較用音声特徴データとして、「コンビニエンスストア」の他の呼称(「コンビニ」、「コンビニエンス」等)を発話したときの音の典型的特徴を示すデータ(当該音の特徴量でもよいし、周波数スペクトルでもよいし、時系列にサンプリングした強度でもよい)が、更に含まれていてもよい。また、「コンビニエンスストア」という単語に対応する語彙データの文字列データは、「コンビニエンスストア」という文字列である。
【0022】
端末側制御回路部15は、CPU、RAM、ROM、I/O等を備えたマイクロコンピュータによって実現され、CPUがROMに記録されるプログラムを実行することで、各種処理が実現される。処理の詳細については後述する。
【0023】
センター2は、センター側通信部21、センター側認識辞書記憶部22、センター側制御回路部23を備えている。センター側通信部21は、車載機1と通信するための周知の通信インターフェース装置である。センター側制御回路部23は、このセンター側通信部21を用いて車載機1と通信を行うことができる。
【0024】
センター側認識辞書記憶部22は、センター側認識辞書が記録された不揮発性の書き込み可能な記憶媒体(例えば、磁気記憶媒体、フラッシュメモリ)である。センター側認識辞書は、端末側認識辞書と同様、それぞれが1つの単語に対応する複数の語彙データを有し、各語彙データは、当該単語の比較用音声特徴データ、および、当該単語の文字列データを含んでいる。
【0025】
ただし、センター側認識辞書は、端末側認識辞書が有するすべての単語の比較用音声特徴データを有すると共に、端末側認識辞書が有さない単語の比較用音声特徴データをも多数有する拡張認識辞書である。したがって、センター側認識辞書のデータサイズは、端末側認識辞書のデータサイズよりも遙かに大きい(例えば100倍以上)。
【0026】
このセンター側認識辞書全体を車載機1にダウンロードしようとすると、記憶容量が圧迫され、場合によってはセンター側認識辞書全体を格納するような記憶容量がない場合もある。また、車載機1が大量の認識単語を持つことで、その中には車載機1で使われない単語が多く含まれることになり、認識精度が低下する恐れもある。
【0027】
次に、音声認識システムの作動について説明する。図2に示すように、端末側制御回路部15は、その機能構成として、端末側音声認識部15a、端末側処理制御部15b、辞書更新部15cを有している。
【0028】
端末側音声認識部15aは、入力装置11から入力された発話音声の音声信号に対して、端末側認識辞書記憶部14中の端末側認識辞書を用いて音声認識を行う。端末側処理制御部15bは、端末側音声認識部15aの音声認識の結果に応じて、音声認識が成功すれば、認識結果の単語を出力装置12に出力させる等の処理を行い、音声認識が失敗すれば、端末側通信部13を用いてセンター2と通信することで、発話音声の音声認識結果をセンター2から受信する等の処理を行う。辞書更新部15cは、端末側処理制御部15bの処理結果に応じて、後述するようにセンター2から受信した語彙データを端末側認識辞書に追加記録する。
【0029】
なお、端末側制御回路部15は、上記のような機能に加え、端末側通信部13を用いてWebサーバにアクセスし、Webページのデータを受信し、受信したWebページのデータに従って、出力装置12のディスプレイに当該Webページを表示させる等の処理も行うようになっている。
【0030】
また、センター側制御回路部23は、その機能構成として、センター側処理制御部23a、センター側音声認識部23bを有している。
【0031】
センター側処理制御部23aは、センター側通信部21を用いて、車載機1からのデータの受信、および、センター側音声認識部23bの音声認識結果に応じた車載機1へのデータの送信を行う。センター側音声認識部23bは、車載機1から受信した発話音声の音声特徴データに対して、センター側認識辞書記憶部22中のセンター側認識辞書を用いて音声認識を行う。
【0032】
図3に、端末側制御回路部15が実行する処理のフローチャートを示す。以下、このフローチャートに従い、音声認識システムの具体的な作動について説明する。
【0033】
まず、端末側制御回路部15が、端末側通信部13を用いて検索サイト(例えばgoogle(登録商標))のWebサーバにアクセスし、当該検索サイトのWebページのデータを受信し、受信したWebページのデータに従って、出力装置12のディスプレイに当該Webページを表示させているとする。このとき、当該Webページには、検索ワードを入力するための文字入力欄(入力フォーム)が含まれているとする。
【0034】
このときユーザは、当該文字入力欄に入力する文字を音声認識させるため、車載機1の図示しない操作部に対して、音声認識を開始する旨の操作(例えば、音声認識開始ボタンの押下)を行い、認識してほしい音声を発話する。以下、発話された音声を発話音声という。
【0035】
すると端末側制御回路部15は、当該音声認識を開始する旨の操作が行われたことに基づいて、図3の処理を開始し、まずステップ110で、発話音声入力処理を実行する。具体的には、入力装置11が出力した発話音声の音声信号を受け付け、受け付けた音声信号に基づく音声特徴データを取得する。ここで、音声特徴データは、例えば発話音声の音声信号の特徴を表すデータである。例えば、音声信号の特徴量のデータであってもよいし、音声信号の周波数スペクトルのデータであってもよいし、時系列にサンプリングした強度のデータであってもよいが、端末側認識辞書の比較用音声特徴データと同じ形式のデータであることが望ましい。
【0036】
なお、音声信号を受け付ける期間は、あらかじめ決められた一定期間でもよいし、ユーザが音声認識を終了する旨の操作を行うまでの期間でもよいし、取得した音声信号のレベルが閾値を下回る期間が所定期間以上続くまでの期間でもよい。
【0037】
続いてステップ115では、取得した音声特徴データと、端末側認識辞書記憶部14に記録されている端末側認識辞書中の各単語の比較用音声特徴データとを、周知の方法(例えば、隠れマルコフモデルによる方法で)で比較し、当該音声特徴データとの尤度(類似度)が最も高く、かつ所定の基準値よりも高い比較用音声特徴データを1つ特定する。
【0038】
ただし、当該音声特徴データとの尤度が所定の基準値よりも高くなっている比較用音声特徴データが1つもない場合があるので、その場合は、音声認識が失敗したことになる。逆に当該音声特徴データとの尤度が所定の基準値よりも高くなっている比較用音声特徴データが1つでもあれば、音声認識が成功したことになる。
【0039】
そして、音声認識が成功した場合には、抽出した比較用音声特徴データに対応する単語を、当該発話音声に相当する単語として抽出する。具体的には、抽出した比較用音声特徴データと同じ語彙データに含まれる文字列データを抽出する。これらステップ110、115の処理によって実現する機能が、端末側音声認識部15aの機能に相当する。
【0040】
続いてステップ120では、ステップ115の音声認識処理が成功したか失敗したかを判定し、成功したと判定した場合は、続いてステップ125に進み、抽出した単語の文字列(例えば「コンビニエンスストア」)を出力装置12に出力させる。これにより、出力装置12は、Webページの文字入力欄に、当該単語の文字列を表示する。この後、ユーザは、図示しない車載機1の操作部に対して、送信の操作を行うと、端末側制御回路部15は、当該検索サイトのWebサーバに対し、検索ワードとして当該文字列を送信する。そしてWebサーバは、当該検索ワードにヒットする項目(例えば、他のWebサイト)のデータを車載機1に送信し、端末側制御回路部15は、当該データを受信して出力装置12に表示させる。ステップ120、125の処理によって実現する機能が、端末側処理制御部15bの機能の一部に相当する。
【0041】
一方、ステップ120で音声認識が失敗したと判定した場合、続いてステップ130に進み、上記発話音声に基づく音声データを問い合わせ音声データとし、端末側通信部13を用いて、センター2に送信する。そして続いてステップ135で、当該問い合わせ音声データに対する応答をセンター2から受信するまで待つ。
【0042】
なお、この問い合わせ音声データは、発話音声の特徴を表すデータであればよく、例えば、発話音声の音声信号の特徴量のデータであってもよいし、音声信号の周波数スペクトルのデータであってもよいし、時系列にサンプリングした強度のデータであってもよい。
【0043】
センター2のセンター側制御回路部23は、センター側処理制御部23aの機能により、車載機1から上記のように送信された問い合わせ音声データを、センター側通信部21を介して受信する。
【0044】
また、センター側制御回路部23は、センター側音声認識部23bの機能により、以下のような処理を行う。まず、受信した問い合わせ音声データに基づいて音声特徴データを作成する。作成する音声特徴データは、発話音声の音声信号の特徴量のデータであってもよいし、発話音声の音声信号の周波数スペクトルのデータであってもよいし、発話音声を時系列にサンプリングした強度のデータであってもよいが、センター側認識辞書の比較用音声特徴データと同じ形式のデータであることが望ましい。問い合わせ音声データがセンター側認識辞書の比較用音声特徴データと同じ形式であれば、それをそのまま音声特徴データとしてもよい。
【0045】
そして、作成した音声特徴データと、センター側認識辞書記憶部22に記録されているセンター側認識辞書中の各単語の比較用音声特徴データとを、周知の方法(例えば、隠れマルコフモデルによる方法で)で比較し、当該音声特徴データとの尤度(類似度)が最も高く、かつ所定の基準値よりも高い比較用音声特徴データを1つ特定する。
【0046】
ただし、図3のステップ115の処理と同様、当該音声特徴データとの尤度が所定の基準値よりも高くなっている比較用音声特徴データが1つもない場合があるので、その場合は、音声認識が失敗したことになる。逆に当該音声特徴データとの尤度が所定の基準値よりも高くなっている比較用音声特徴データが1つでもあれば、音声認識が成功したことになる。
【0047】
そして、音声認識が成功した場合には、抽出した比較用音声特徴データに対応する単語を、当該発話音声に相当する単語として抽出する。具体的には、抽出した比較用音声特徴データを含む語彙データを抽出する。センター側制御回路部23は、センター側音声認識部23bの機能を実現するこのような処理を実行することで、センター側音声認識手段の一例として機能する。
【0048】
また、センター側制御回路部23は、センター側処理制御部23aの機能により、音声認識部23bの機能によって単語の抽出に成功したか失敗したかを判定する。
【0049】
そして、成功したと判定した場合、センター側音声認識部23bの機能によって抽出された語彙データを含む認識結果を、センター側通信部21を用いて、車載機1に送信する。この語彙データには、当該発話音声に相当する単語の文字列と、当該単語の比較用音声データが含まれている。
【0050】
一方、単語の抽出に失敗したと判定した場合、失敗したことを示す失敗データを含む認識結果を、センター側通信部21を用いて、車載機1に送信する。センター側制御回路部23は、センター側処理制御部23aの機能を実現するこのような処理を実行することで、応答手段の一例として機能する。
【0051】
また、端末側制御回路部15は、ステップ135において、端末側通信部13bを用いて、センター2から、上記問い合わせ音声データの応答として上記認識結果を受信すると、続いてステップ140に進む。
【0052】
ステップ140では、受信した認識結果の内容に基づいて、センター2において音声認識が成功したか失敗したかを判定する。具体的には、認識結果が語彙データを含んでいれば、音声認識が成功したと判定し、認識結果が失敗データを含んでいれば音声認識が失敗したと判定する。失敗したと判定した場合は、ステップ145に進み、音声認識に失敗した旨の情報を出力装置12に出力させ、図3の処理を終了する。ステップ130、135、145の処理によって、端末側処理制御部15bの機能の一部が実現する。
【0053】
成功したと判定した場合は、ステップ150に進み、受信した認識結果中の語彙データを、端末側認識辞書記憶部14の端末側認識辞書に追加登録する。つまり、センター2から受信した認識結果に含まれる比較用音声特徴データが、当該認識結果に含まれる単語の比較用音声特徴データとして、端末側認識辞書に追加登録されることになる。この追加登録される語彙データは、車載機1側で認識できなった語彙のデータなので、ほとんどの場合、端末側認識辞書に含まれていなかった単語の語彙データである。このステップ150の処理によって、辞書更新部15cの機能が実現する。
【0054】
更にステップ160では、受信した認識結果に含まれる語彙データ中の単語の文字列に基づく情報を出力装置12に出力させる。具体的には、ステップ125と同様、当該単語の文字列(例えば「コンビニエンスストア」)を出力装置12に出力させる。これにより、出力装置12は、Webページの文字入力欄に、当該単語の文字列を表示する。この後、ユーザは、図示しない車載機1の操作部に対して、送信の操作を行うと、端末側制御回路部15は、当該検索サイトのWebサーバに対し、検索ワードとして当該文字列を送信する。そしてWebサーバは、当該検索ワードにヒットする項目(例えば、他のWebサイト)のデータを車載機1に送信し、端末側制御回路部15は、当該データを受信して出力装置12に表示させる。ステップ160の処理によって実現する機能が、端末側処理制御部15bの機能の一部に相当する。
【0055】
以上説明した通り、車載機1は、ユーザの発話音声を自機で音声認識することに失敗した場合を選んで、センター2から当該発話音声の音声認識結果の単語と共に、センター側認識辞書における当該単語の比較用音声特徴データを受信し、受信した当該単語の比較用音声特徴データを端末側認識辞書に追加する。
【0056】
このようにすることで、少なくとも1回は音声認識端末で音声認識することが必要になった単語の比較用音声特徴データを選択的に音声認識端末に登録することになる。そのような単語を再度認識する必要が発生する可能性は、一度も認識する必要が発生していない単語よりは高いので、当該単語の比較用音声特徴データも、無駄になる可能性が比較的低い。したがって、センターの認識辞書を利用して音声認識端末の認識辞書を拡充しつつも、音声認識端末における認識辞書のサイズの増大量を低減することができる。
【0057】
なお、上記実施形態では、端末側制御回路部15が、図3のステップ110、115を実行することで端末側音声認識手段の一例として機能し、ステップ130を実行することで問い合わせ送信手段の一例として機能し、ステップ150を実行することで辞書更新手段の一例として機能する。
(他の実施形態)
以上、本発明の実施形態について説明したが、本発明の範囲は、上記実施形態のみに限定されるものではなく、本発明の各発明特定事項の機能を実現し得る種々の形態を包含するものである。
【0058】
例えば、上記実施形態では、発話音声に相当する単語として抽出された単語は、検索サイトに入力する検索ワードであったが、発話音声に相当する単語として抽出された単語は、必ずしもこのようなものに限らない。例えば、車載機1が、複数の施設の名称と所在位置の対応関係を含む地図データを有し、現在地から目的地までの誘導経路を算出して案内するナビゲーション装置である場合、ユーザが目的地の施設の名称を発話音声として発し、ステップ125、160では、発話音声に相当する単語として抽出された単語の文字列を用いて、地図データから目的地を検索し、その検索結果を出力装置12に出力させるようになっていてもよい。つまり、ステップ125、160では、検索結果の単語を用いた処理結果を出力装置12に出力させるようになっていてもよい。つまり、出力装置12は、検索結果の単語に基づく表示であれば、どのような表示を行うようになっていてもよい。なお、目的地の名称の発話音声が車載機1で音声認識に失敗し、センター2で音声認識に成功した場合、車載機1がセンター2から語彙データを受信して端末側認識辞書に追加登録することになる。このように、新たに車載機1に語彙データが追加されれば有益な目的地名称としては、車載機1の製造後、新たに新設されたため、上述の対応関係のデータには含まれていない施設の名称が考えられる。このような場合、車載機1は、センター2から、当該名称の施設の位置データを更に取得して、上述の対応関係のデータに追加登録するようになっていてもよい。
【0059】
また、上記の実施形態において、制御回路17がプログラムを実行することで実現している各機能は、それらの機能を有するハードウェア(例えば回路構成をプログラムすることが可能なFPGA)を用いて実現するようになっていてもよい。
【0060】
また、上記実施形態では、端末側制御回路部15が、端末側音声認識部15a、端末側処理制御部15b、辞書更新部15cの機能を実現するようになっていたが、端末側音声認識部15a、端末側処理制御部15b、辞書更新部15cが別々のICとして実現されていてもよい。
【0061】
同様に、上記実施形態では、センター側制御回路部23は、センター側処理制御部23a、センター側音声認識部23bの機能を実現するようになっていたが、センター側処理制御部23a、センター側音声認識部23bが別々のICとして実現されていてもよい。
【0062】
また、上記実施形態では、音声認識端末の一例として車載機1を用いているが、音声認識端末は、必ずしも車載用の装置でなくてもよい。例えば、ユーザが携帯する端末でもよい。
【符号の説明】
【0063】
1 車載機
2 センター
11 入力装置
12 出力装置
13 端末側通信部
14 端末側認識辞書記憶部
15 端末側制御回路部
15a 端末側音声認識部
15b 端末側処理制御部
15c 辞書更新部
21 センター側通信部
22 センター側認識辞書記憶部
23 センター側制御回路部
23a センター側処理制御部
23b センター側音声認識部

【特許請求の範囲】
【請求項1】
音声認識端末(1)およびセンター(2)を備えた音声認識システムであって、
前記音声認識端末(1)は、車載側認識辞書が記録された車載側認識辞書記憶部(14)と、端末側制御回路部(15)と、を備え、
前記センター(2)は、センター側認識辞書が記録されたセンター側認識辞書記憶部(22)と、センター側制御回路部(23)とを備え、
前記センター側認識辞書は、前記端末側認識辞書が有さない単語の比較用音声特徴データを有し、
前記端末側制御回路部(15)は、
前記ユーザの発話音声に基づく音声特徴データを取得し(110)、取得した音声特徴データと前記車載側認識辞書中の各単語の比較用音声特徴データとの比較に基づいて、前記発話音声に相当する単語を抽出する端末側音声認識手段(110、115)と、
前記端末側音声認識手段(15a、110、115)が単語の抽出に失敗したことに基づいて、前記発話音声に基づく音声データを、問い合わせ音声データとして前記センター(2)に送信する問い合わせ送信手段(130)と、を備え、
前記センター側制御回路部(23)は、
前記音声認識端末(1)から送信された前記問い合わせ音声データに基づく音声特徴データと、前記センター側認識辞書中の各単語の比較用音声特徴データとの比較に基づいて、前記発話音声に相当する単語を抽出するセンター側音声認識手段(23b)と、
前記センター側音声認識手段(23b)が抽出した単語と、前記センター側認識辞書中の当該単語の比較用音声特徴データと、を含む認識結果を、前記音声認識端末(1)に送信する応答手段(23a)と、を備え、
更に前記端末側制御回路部(15)は、前記センター(2)から受信した前記認識結果に含まれる比較用音声特徴データを、受信した前記認識結果に含まれる単語の比較用音声特徴データとして、前記端末側認識辞書に追加登録する辞書更新手段(150)を備えたことを特徴とする音声認識システム。
【請求項2】
センター(2)と通信する音声認識端末であって、
車載側認識辞書が記録された車載側認識辞書記憶部(14)と、端末側制御回路部(15)と、を備え、
前記端末側制御回路部(15)は、
前記ユーザの発話音声に基づく音声特徴データを取得し(110)、取得した音声特徴データと前記車載側認識辞書中の各単語の比較用音声特徴データとの比較に基づいて、前記発話音声に相当する単語を抽出する端末側音声認識手段(110、115)と、
前記端末側音声認識手段(15a、110、115)が単語の抽出に失敗したことに基づいて、前記発話音声に基づく音声データを、問い合わせ音声データとして前記センター(2)に送信する問い合わせ送信手段(130)と、
前記センター(2)が、前記音声認識端末(1)から送信された前記問い合わせ音声データに基づく音声特徴データと、センター側認識辞書中の各単語の比較用音声特徴データとの比較に基づいて、発話音声に相当する単語を抽出し、抽出した単語と、前記センター側認識辞書中の当該単語の比較用音声特徴データと、を含む認識結果を、当該音声認識端末に送信したとき、前記センター(2)から受信した前記認識結果に含まれる比較用音声特徴データを、受信した前記認識結果に含まれる単語の比較用音声特徴データとして、前記端末側認識辞書に追加登録する辞書更新手段(150)と、を備えたことを特徴とする音声認識端末。
【請求項3】
音声認識端末(1)と通信するセンターであって、
センター側認識辞書が記録されたセンター側認識辞書記憶部(22)と、センター側制御回路部(23)とを備え、
前記センター側制御回路部(23)は、
前記音声認識端末(1)が、ユーザの発話音声に基づく音声データを、問い合わせ音声データとして当該センター(2)に送信したとき、前記問い合わせ音声データに基づく音声特徴データと、前記センター側認識辞書中の各単語の比較用音声特徴データとの比較に基づいて、前記発話音声に相当する単語を抽出するセンター側音声認識手段(23b)と、
前記センター側音声認識手段(23b)が抽出した単語と、前記センター側認識辞書中の当該単語の比較用音声特徴データと、を含む認識結果を、前記音声認識端末(1)に送信し、それにより、前記音声認識端末(1)に、前記認識結果に含まれる比較用音声特徴データを、前記認識結果に含まれる単語の比較用音声特徴データとして、前記端末側認識辞書に追加登録させる応答手段(23a)と、を備えたセンター。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−88370(P2012−88370A)
【公開日】平成24年5月10日(2012.5.10)
【国際特許分類】
【出願番号】特願2010−232516(P2010−232516)
【出願日】平成22年10月15日(2010.10.15)
【出願人】(000004260)株式会社デンソー (27,639)
【Fターム(参考)】