説明

音声認識装置

【課題】 ユーザーが発話した音声に含まれるコマンドのみを確実に識別することが可能な音声認識装置を提供すること。
【解決手段】パラメータ算出器B4は、接続機器B1が受信した特徴量データと、コマンドデータベースB2に記憶されている音声データとから、音声認識エンジンB5に設定する識別パラメータを算出する。音声認識エンジンB5は、パラメータ算出器B4が算出した識別パラメータと、コマンドデータベースB2に記憶された音声データとから、マイクB3から取得した音声信号と対応する音声データを認識するとともに、認識された音声データと対応するコマンドの識別を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザーの発話した音声に対応するコマンドの識別を行う音声認識装置に関する。
【背景技術】
【0002】
従来、発話された音声に対応するコマンドを識別し、当該コマンドに対応する動作を行う装置が公知である。例えば特許文献1の装置では、当該装置の各動作状態において選択可能なコマンドのみを含むコマンドリストが、それぞれ用意される。そして、ユーザーが発話したコマンドのうち、当該装置の動作状態に対応するコマンドリストに含まれるコマンドのみが識別され、そのコマンドに対応する動作が実行される。そのため、当該コマンドリストに含まれないコマンドをユーザーが発話しても識別されず、そのコマンドに対応する動作も実行されない。
【特許文献1】特開2004−86150号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
このように、従来装置では、ユーザーが発話したコマンドのうち、当該装置の各動作状態に応じて選択可能なコマンドのみが識別されるため、誤認識の低減を図ることができる。しかしながら、従来装置では、当該装置の各動作状態において選択可能なコマンドをユーザー以外の第三者が発話した場合でも、当該コマンドが識別されて対応する動作が行われるため、ユーザーが予期せぬ動作を行ってしまうことがある。
【0004】
本発明は、上記の問題に鑑みてなされたものであり、ユーザーが発話した音声に含まれるコマンドのみを確実に識別することが可能な音声認識装置の提供を目的とする。
【課題を解決するための手段】
【0005】
上記目的を達成するために、請求項1に記載の音声認識装置では、予め用意された所定のコマンドの中から、発話された音声に対応するコマンドを識別する識別手段を備えた音声認識装置であって、ユーザーが通話機器を利用した際に発話した音声から、当該ユーザーの音声特徴量を抽出する抽出手段と、抽出手段が抽出した音声特徴量を記憶する記憶手段とを設け、識別手段は、ユーザーの発話した音声と、記憶手段に記憶された音声特徴量とから、当該ユーザーの発話した音声と対応するコマンドを識別することを特徴とする。
【0006】
このように、本発明の音声認識装置では、ユーザーが通話機器を利用した際に発話した音声から、当該ユーザーの音声特徴量を抽出手段によって抽出し、記憶手段に記憶する。識別手段は、ユーザーの発話した音声と、記憶手段に記憶された音声特徴量とから、当該ユーザーの発話した音声と対応するコマンドの識別を行う。これにより、ユーザーが発話した音声に含まれるコマンドのみを確実に識別でき、ユーザー以外の第三者の発話した音声に含まれるコマンドが識別されるのを防止できる。すなわち、ユーザーの発話した音声に含まれるコマンドの認識率を向上させ、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを防止できるのである。
【0007】
請求項2に記載のように、識別手段は、ユーザーが発話したコマンドを識別するための識別用パラメータを有し、記憶手段に記憶された音声特徴量に従って、前期識別手段は、識別用パラメータの設定を行うことが望ましい。記憶手段に記憶された音声特徴量に従って識別用パラメータの設定を行うことで、識別手段は、ユーザーが発話した音声に含まれるコマンドのみを、より確実に識別することができる。また、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを、より確実に防止できる。
【0008】
請求項3に記載のように、ユーザーが通信機器を利用して文章を送信した際の通信文に使用されている単語を認識する単語認識手段を設け、識別手段は、単語認識手段が認識した単語にも従って、識別パラメータの設定を行うことが望ましい。単語認識手段が認識した単語にも従って識別パラメータの設定を行うことで、識別手段は、ユーザーが発話した音声に含まれるコマンドのみを、さらに確実に識別することができる。また、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを、さらに確実に防止できる。
【0009】
請求項4に記載のように、単語認識手段は、ユーザーが所持する携帯電話に組み込まれることが望ましい。ユーザーが所持する携帯電話に単語認識手段を組み込むことで、ユーザーが携帯電話から送信した通信文に含まれる単語に従って、識別用パラメータの設定を確実に行うことができる。
【0010】
請求項5に記載のように、抽出手段は、ユーザーが所持する携帯電話に組み込まれることが望ましい。ユーザーが所持する携帯電話に抽出手段を組み込むことで、ユーザーの通話音声から音声特徴量を抽出し、識別パラメータの設定を確実に行うことができる。
【0011】
請求項6に記載のように、音声認識装置は、車両用のナビゲーション装置を操作するコマンドの識別に利用されることが望ましい。車両用のナビゲーション装置におけるコマンドの識別を行う場合、ユーザーの発話した音声に含まれるコマンドのみを確実に識別するとともに、搭乗者の発話した音声に含まれるコマンドが誤って識別されるのを確実に防止し、ユーザーが予期せぬ動作を行わないようにする必要があるためである。
【発明を実施するための最良の形態】
【0012】
図1は、本発明の一実施形態における音声認識装置の全体構成を示すブロック図である。本音声認識装置は、携帯電話Aおよびカーナビゲーション装置Bから構成される。
【0013】
はじめに、携帯電話Aの各部について説明する。
【0014】
図1に示すように、マイクA1は、例えば小型のディジタルマイクであり、当該マイクに発話された音声をディジタルの音声信号に変換して出力する。
【0015】
音声特徴量抽出器A2は、公知のコンピュータで構成され、マイクA1から出力される音声信号から音声特徴量を抽出し、特徴量データを生成する。音声信号から音声特徴量を抽出して特徴用データを生成する方法に関しては、例えばニューラルネットを用いて音声パターンを検出する方法や、パワースペクトルを用いて周波数特性を検出する方法等が公知であるため、説明を省略する。
【0016】
音声特徴量データベースA3は、例えば不揮発性メモリに構築されるものであり、音声特徴量抽出器A2が抽出した特徴量データをデータベースとして記憶する。特徴量データの記憶に関しては、メモリカード等に記憶することとしても良い。
【0017】
接続装置A4は、コネクタとハーネスから構成され、音声特徴量データベースA3に記憶された特徴量データをカーナビゲーション装置Bへと送信する。
【0018】
次に、カーナビゲーション装置Bについて説明する。
【0019】
接続装置B1は、コネクタとハーネスから構成され、携帯電話Aから送信される特徴量データを受信する。
【0020】
コマンドデータベースB2は、例えばハードディスクに記憶され、カーナビゲーション装置Bの各種ナビゲーション動作を指示するコマンドの各々に対応する音声データからなる。前述の音声データに関しては、CD−ROMやDVD−ROM等に記憶することとしても良い。
【0021】
マイクB3は、例えば小型のディジタルマイクであり、当該マイクに発話された音声をディジタルの音声信号に変換して出力する。
【0022】
パラメータ算出器B4は、接続機器B1が受信した特徴量データと、コマンドデータベースB2に記憶されている音声データとから、例えば、適応フィルタのフィルタ係数や周波数特性値等、後述する音声認識エンジンB5に設定する識別パラメータを算出する。前述した識別パラメータの算出方法に関しては、公知のインパルス応答やインピーダンス解析といった方法によって算出できるため、説明を省略する。
【0023】
音声認識エンジンB5は、公知のコンピュータから構成され、パラメータ算出器B4が算出した識別パラメータと、コマンドデータベースB2に記憶された音声データとから、マイクB3から取得した音声信号と対応する音声データを認識するとともに、認識された音声データと対応するコマンドの識別を行う。なお、例えば携帯電話Aから特徴データを受信できない場合など、パラメータ算出器B4から識別パラメータを取得できない場合には、予め用意された所定の識別パラメータに従って、前述の識別動作を行う。
【0024】
ナビゲーション機能部B6は、音声認識エンジンB5が識別したコマンドに応じて、公知の各種ナビゲーション動作を行う。具体的には、音声認識エンジンB5が識別したコマンドに従って、車両の現在位置周辺の地図画像を図示しないディスプレイに表示したり、図示しないスピーカから各種音声案内を行わせたりする。
【0025】
図2は、本実施形態の音声認識装置において、音声認識エンジンB5に識別パラメータを設定する際のフローチャートである。本フローチャートの処理は、カーナビゲーション装置Aが起動した際に実行される。
【0026】
ステップ201では、パラメータ算出器B4は、携帯電話Aが接続装置B1に接続されているか否か、すなわち、携帯電話Aから特徴量データを取得できるか否かを判定する。携帯電話Aが接続装置B1に接続されている、すなわち、携帯電話Aから特徴量データを取得できる場合は、ステップ202へ進む。そうでない場合は、ステップ206へ進む。
【0027】
ステップ202では、携帯電話Aから特徴量データを取得する。ステップ203では、携帯電話Aから全ての特徴量データを取得できたか否かを判定する。全ての特徴量データを取得できた場合は、ステップ204へ進む。未だ全ての特徴量データを取得できていない場合は、ステップ202へ戻り、特徴量データの取得を継続する。
【0028】
ステップ204では、ステップ202で取得した特徴量データ、および、コマンドデータベースB2に記憶されている音声データから、識別パラメータの算出を行い、音声認識エンジンB5へ出力する。これにより、音声認識エンジンB5は、ユーザーが発話した音声に含まれるコマンドのみを、より確実に識別することができ、また、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを、より確実に防止できるのである。一方、ステップ205では、予め用意された所定の識別パラメータを音声認識エンジンB5へ出力する。
【0029】
ステップ206では、音声認識エンジンB5は、ステップ204またはステップ205でパラメータ算出器B4から出力された識別パラメータを取得してパラメータ設定を行い、音声認識を開始する。これにより、音声認識エンジンB5が識別したコマンドに対応する操作が、ナビゲーション装置機能部B6に対してなされることとなる。
【0030】
このように、本実施形態の音声認識装置では、ユーザーが携帯電話Aに発話した音声から当該ユーザーの音声特徴量が抽出され、特徴量データとして記憶される。カーナビゲーション装置Bの音声認識エンジンB5は、携帯電話Aに記憶された特徴量データと、コマンドデータベースB2に記憶された音声データとから、パラメータ算出器B4が算出した識別パラメータを利用して、ユーザーが発話した音声に含まれるコマンドを識別する。これにより、ユーザーが発話した音声に含まれるコマンドのみを確実に識別でき、ユーザー以外の第三者の発話した音声に含まれるコマンドが識別されるのを防止できる。すなわち、ユーザーの発話した音声に含まれるコマンドの認識率を向上させ、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを防止できるのである。
【0031】
次に、本実施形態の変形例について説明する。本変形例の音声認識装置では、ユーザーが携帯電話Aを利用して文章を送信した際の通信文に使用されている単語を認識するとともに、認識された単語にも従って、識別パラメータの算出を行う。上述した点が、本変形例のポイントである。
【0032】
図3は、本変形例における音声認識装置の全体構成を示すブロック図である。
【0033】
図3に示すように、入力キーA5は、複数のメカニカルなキーによって構成され、ユーザーが携帯電話Aから送信する文章の作成に利用される。前述の入力キーA5に関しては、ユーザーがタッチした文字を入力可能に構成されたタッチスイッチによって構成しても良い。
【0034】
文章特徴量抽出器A6は、入力キーA5から入力された文章に用いられる単語を認識し、各単語の意味や当該単語の使用頻度を示す単語データを生成して記憶する。
【0035】
接続装置A4は、前述した実施形態の機能に加え、文章特徴量抽出器A6生成した単語データも、カーナビゲーション装置Aへと送信する。
【0036】
パラメータ算出器B4は、前述の実施形態の機能に加え、接続装置B1が受信した単語データから、各単語の意味に最も良く該当するコマンドが選択されたり、使用頻度の高い単語が最も優先的に識別されたりするよう、識別パラメータの算出を行う。
【0037】
その他の構成・動作に関しては、前述の実施形態の場合と同様であるため、説明を省略する。また、本実施形態の音声認識装置において、音声認識エンジンB5に識別パラメータを設定する際のフローチャートに関しては、図2のフローチャートの各ステップにおける「特徴量データ」を「特徴量データおよび単語データ」に読み換えれば良いため、説明を省略する。
【0038】
このように、本変形例の音声認識装置では、ユーザーが携帯電話Aを利用して文章を送信した際の通信文に使用されている単語を認識するとともに、認識された単語にも従って、識別パラメータの算出を行う。これにより、本音声認識装置は、ユーザーが発話した音声に含まれるコマンドのみを、さらに確実に識別することができる。また、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを、さらに確実に防止できる。
【0039】
前述した実施形態および変形例では、音声特徴量抽出器A2および文章特徴量抽出器A6は、携帯電話に設けられた。こうすることで、ユーザーの通話音声から音声特徴量を抽出したり、ユーザーが携帯電話から送信した通信文に含まれる各単語の意味や使用頻度に従って、識別用パラメータの設定を確実に行うことができるためである。しかしながら、前述の動作を確実に行うことができるのであれば、携帯電話に設けられることに限定されるものではなく、例えば自動車電話や無線通信機に設けることとしても良い。されども、携帯電話に設けることが最も好適である。
【0040】
前述した実施形態および変形例では、本音声認識装置は、カーナビゲーション装置Aを操作するコマンドの識別に利用された。しかしながら、ユーザー以外の搭乗者の発話した音声に含まれるコマンドが誤って識別されるのを確実に防止し、ユーザーが予期せぬ動作を行わないようにするために利用されるのであれば、これに限定されるものではなく、例えば車両用のオーディオなど、ユーザーが音声コマンドによって操作を行う機能を有する機器であれば、好適に用いることができる。しかしながら、最も好適なのは、カーナビゲーション装置Aを操作するコマンドの識別に利用された場合であることを言及しておく。
【図面の簡単な説明】
【0041】
【図1】本発明の一実施形態における音声認識装置の全体構成を示すブロック図である。
【図2】本実施形態の音声認識装置において、音声認識エンジンに識別パラメータを設定する際のフローチャートである。
【図3】本変形例における音声認識装置の全体構成を示すブロック図である。
【符号の説明】
【0042】
A…携帯電話
A1…マイク
A2…音声特徴量抽出器
A3…音声特徴量データベース
A4…接続装置
A5…入力キー
A6…文章特徴量抽出器
B…カーナビゲーション装置
B1…接続装置
B2…コマンドデータベース
B3…マイク
B4…パラメータ算出器
B5…音声認識エンジン
B6…ナビゲーション機能部

【特許請求の範囲】
【請求項1】
予め用意された所定のコマンドの中から、発話された音声に対応するコマンドを識別する識別手段を備えた音声認識装置であって、
ユーザーが通話機器を利用した際に発話した音声から、当該ユーザーの音声特徴量を抽出する抽出手段と、
前記抽出手段が抽出した音声特徴量を記憶する記憶手段とを設け、
前記識別手段は、前記ユーザーの発話した音声と、前記記憶手段に記憶された音声特徴量とから、当該ユーザーの発話した音声と対応するコマンドを識別することを特徴とする音声認識装置。
【請求項2】
前記識別手段は、前記ユーザーが発話したコマンドを識別するための識別用パラメータを有し、前記記憶手段に記憶された音声特徴量に従って、前記識別手段は、前記識別用パラメータの設定を行うことを特徴とする請求項1記載の音声認識装置。
【請求項3】
前記ユーザーが通信機器を利用して文章を送信した際の通信文に使用されている単語を認識する単語認識手段を設け、
前記識別手段は、前記単語認識手段が認識した単語にも従って、前記識別パラメータの設定を行うことを特徴とする請求項2記載の音声認識装置。
【請求項4】
前記単語認識手段は、前記ユーザーが所持する携帯電話に組み込まれることを特徴とする請求項3記載の音声認識装置。
【請求項5】
前記抽出手段は、前記ユーザーが所持する携帯電話に組み込まれることを特徴とする請求項1から請求項4のいずれかに記載の音声認識装置。
【請求項6】
前記音声認識装置は、車両用のナビゲーション装置を操作するコマンドの識別に利用されることを特徴とする請求項1から請求項5のいずれかに記載の音声認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2006−251699(P2006−251699A)
【公開日】平成18年9月21日(2006.9.21)
【国際特許分類】
【出願番号】特願2005−71556(P2005−71556)
【出願日】平成17年3月14日(2005.3.14)
【出願人】(000004260)株式会社デンソー (27,639)
【Fターム(参考)】