説明

車載用音声認識装置及び音声認識方法

【課題】発話内容を音声認識して車載機器を制御するに際し、その発話内容に対する認識率を高めることができる「車載用音声認識装置及び音声認識方法」を提供すること。
【解決手段】音声入力手段9を介して発話したユーザを発話者特定手段11により特定したときに、制御手段12により、辞書格納手段8に格納されている複数の専用の音声認識辞書D1〜D3の中から、その発話者が視聴している情報のソース(制御対象機器)に対応した専用の音声認識辞書を選択し(12a)、その選択した辞書を使用して音声認識を実行し(12b)、その認識した発話内容に対応する制御を当該制御対象機器に対して行う(12c)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識機能を利用して車載機器等を制御する技術に関し、特に、車室内で乗員が発話した操作指示に対応した音声認識を行うよう適応された車載用音声認識装置及び音声認識方法に関する。
【背景技術】
【0002】
最近の車両には、運転者や助手席の乗員、リア席の乗員等(以下、便宜上「ユーザ」ともいう。)に対して様々なサービスを提供するための機器や装置などが搭載されている。その代表的な車載機器として、設定した目的地に向けて道路を間違うことなく走行できるように案内する機能(経路誘導機能)を搭載したナビゲーション装置や、各種ソース(ラジオ受信機、CDプレーヤ、TV受信機、DVDプレーヤ等)から出力される音声(オーディオ)情報や映像(ビデオ)情報などの各種エンターテイメントを提供するオーディオ/ビデオ(A/V)機器、エアコン装置などがある。これらの車載機器(装置)は、ユーザがリモコンや操作パネル等を操作して所要の指示を与えることにより、その操作指示に応じてその動作状態が変更される。変更された機器の動作状態は、車室内に設置されたスピーカ(リア席のユーザについてはワイヤレスヘッドホン等)を介して聴くことができ、また車載モニタ等の表示装置の画面を通して見ることができる。
【0003】
このように各車載機器に対してはリモコン操作等のマニュアル操作に基づいて所要の操作指示を入力することができるが、最近では、操作指示を音声入力(発話)するだけで当該機器の制御を行える機能(音声認識機能)を搭載した装置も出現している。かかる音声認識機能は、ユーザの操作上の便宜を図る点で有利であり、特に、運転者にとっては安全走行の点で非常に有用である。
【0004】
この音声認識機能を実現するには音声認識辞書を必要とし、この音声認識辞書には、音声認識の対象とする単語や語句などの語彙、すなわち、音声認識に基づいて制御されるべき車載機器(以下、「制御対象機器」ともいう。)の操作指示に関連した語彙があらかじめ登録されている。例えば、ナビゲーション装置であれば、「目的地」、「メニュー」、「周辺検索」などの語彙が登録され、A/V機器であれば、「ラジオ」、「FM」、「AM」、「メニュー」、「再生」、「停止」などの語彙が登録されている。
【0005】
上記の従来技術に関連する技術としては、例えば、特許文献1に記載されるように、ユーザが発話した内容を音声認識して制御対象機器の制御を行う音声制御装置において、制御対象機器の動作状態を考慮してユーザの発話を認識することで、制御対象機器の音声による操作を適切に行えるようにしたものがある。
【特許文献1】特開2004−86150号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
上述したように従来の技術では、制御対象機器に対する操作指示を発話するだけで当該機器の制御を行える機能が実現されているが、従来の方法では音声認識辞書に登録されている全ての語彙に対して音声認識を行っているため、その登録されている語彙の数が多くなってくると、以下に説明するような不都合が起こり得る。
【0007】
すなわち、音声認識エンジンでは、ユーザの発話した内容(音声コマンド)と音声認識辞書に登録されている全ての語彙(コマンド)との合致度を算出し、その算出結果から最も合致度の大きいコマンドをユーザが発した音声コマンドとして決定する(音声認識)。このとき、その最も合致度の大きいコマンドが1つに特定できれば問題はないが、登録されている語彙の数が多くなってくると発音上「読み」の類似した語彙も多くなるため、音声認識エンジンでは必ずしも1つに特定することができず、結果として、マッチングしない語彙を誤認識してしまう場合が起こり得る。つまり、従来の音声認識方法では、使用する音声認識辞書に登録されている語彙の数が多くなってくると、それに応じて誤認識する割合が高くなり、ユーザの発話内容を正確に認識するのが困難になる(音声コマンドに対する認識率が低下する)といった課題があった。
【0008】
本発明は、かかる従来技術における課題に鑑み創作されたもので、発話内容を音声認識して車載機器を制御するに際し、その発話内容に対する認識率を高めることができる車載用音声認識装置及び音声認識方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上述した従来技術の課題を解決するため、本発明の一形態によれば、車室内でユーザが指示する情報を音声入力する音声入力手段と、前記音声入力手段を介して発話したユーザを特定する発話者特定手段と、複数の制御対象機器に対応させてそれぞれ当該機器の操作指示に関連した専用の語彙が登録されている複数の音声認識辞書を格納した辞書格納手段と、前記音声入力手段、発話者特定手段及び辞書格納手段に動作可能に接続された制御手段とを備え、前記制御手段は、前記発話者特定手段と協働して発話者を特定したときに、前記辞書格納手段から当該発話者が視聴している情報のソースである制御対象機器に対応した専用の音声認識辞書を選択し、該選択した音声認識辞書を参照して当該発話者の発話内容に対する音声認識を行い、該認識した発話内容に応じた制御を当該制御対象機器に対して行うことを特徴とする車載用音声認識装置が提供される。
【0010】
本発明に係る車載用音声認識装置によれば、車室内で発話したユーザ(発話者)を特定したときに、辞書格納手段に格納されている複数の専用の音声認識辞書の中から、その発話者が視聴している情報のソース(制御対象機器)に対応した専用の音声認識辞書を選択するようにしている。つまり、その発話者が当該制御対象機器に対し音声コマンドとして発する頻度の高い語彙を登録した専用の音声認識辞書を選択するようにしている。
【0011】
これにより、そのユーザが発話した内容を認識するに際し、その選択した専用の音声認識辞書に登録されている語彙のみを認識すればよいので、従来のように音声認識辞書に登録されている全ての語彙に対して音声認識を行う場合と比べて、マッチングしない語彙を誤認識する割合を減らすことができる。つまり、ユーザが発話した内容(音声コマンド)に対する認識率を向上させることができる。
【0012】
また、本発明の他の形態によれば、車室内でユーザが発話した制御対象機器に対する操作指示に対応した音声認識を行う機能を備えた車載用音声認識装置において、あらかじめ複数の制御対象機器に対応させてそれぞれ当該機器の操作指示に関連した専用の語彙を登録した複数の音声認識辞書を記憶手段に格納しておき、発話を検出したときに当該発話者を特定し、前記記憶手段から当該発話者が視聴している情報のソースである制御対象機器に対応した専用の音声認識辞書を選択し、該選択した音声認識辞書を使用して当該発話者の発話内容に対する音声認識を行い、該認識した発話内容に応じた制御を当該制御対象機器に対して行うことを特徴とする音声認識方法が提供される。
【0013】
本発明に係る車載用音声認識装置及び音声認識方法の他の構成上の特徴及びそれに基づく具体的な処理態様等については、後述する発明の実施の形態を参照しながら詳細に説明する。
【発明を実施するための最良の形態】
【0014】
以下、本発明の実施の形態について、添付の図面を参照しながら説明する。
【0015】
図1は、本発明の一実施形態に係る車載用音声認識装置を組み込んだ車載オーディオ/ビデオ(A/V)・ナビゲーションシステムの構成を示したものである。
【0016】
図示のように車載A/V・ナビゲーションシステム40は、本発明の特徴をなす車載用音声認識装置ARと、その音声認識結果に基づいて発話内容(音声コマンド)に対応した制御が行われる対象機器(図示の例では、ラジオ受信機1、CDプレーヤ2、DVDプレーヤ3、TV受信機4、ナビゲーションユニット5及びエアコン6)と、フロント席のユーザが各制御対象機器に対して各種設定操作を行うためのフロント席用操作ユニット(ヘッドユニット(H/U))20と、リア席のユーザが各制御対象機器(ナビゲーションユニット5を除く)に対して各種設定操作を行うためのリア席用操作ユニット30と、フロント席用表示ユニット25と、アンプユニット26と、スピーカ27と、リア席用表示ユニット31と、ワイヤレスヘッドホン32とを備えて構成されている。車載用音声認識装置AR、各ソース(制御対象機器)1〜6、フロント席用操作ユニット20、各表示ユニット25,31及びアンプユニット26は、伝送路として供される光ファイバ等のバス7を介して相互に接続されている。
【0017】
図示の例では、スピーカ27は1個のみ示されているが、実際には車室内の所定の場所に所要の個数、例えば、リア席が1列の場合であれば少なくともリア席の左右の近傍とフロント席の左右の近傍にそれぞれ2個ずつ、計4個のスピーカ27が設置されている。リア席用の操作ユニット30、表示ユニット31及びワイヤレスヘッドホン32についても同様に、それぞれ1台(1個)のみ示されているが、実際にはリア席の搭乗者数に応じて所要の個数、例えば、リア席が1列の場合であればそのリア席の左右の搭乗者用にそれぞれ2台(2個)の操作ユニット30、表示ユニット31及びワイヤレスヘッドホン32がそれぞれ設けられている。
【0018】
本発明の特徴をなす車載用音声認識装置ARは、記憶媒体としてのハードディスクドライブ(HDD)8と、マイクロホンアレイ9と、音声認識ユニット10とを備えている。HDD8によって駆動されるディスク(図示せず)には、ナビゲーション機能を実行する際に使用する地図データと共に、音声認識機能を実行する際に使用するデータ(音声認識辞書)がそれぞれ割り当てられた記憶領域に格納されている。地図データは、各縮尺レベル(1/12500、1/25000、1/50000等)に応じて適当な大きさの経度幅及び緯度幅に区切られており、経路探索やマップマッチング等の各種処理に必要な道路ユニットのデータ及び交差点の詳細を表す交差点ユニットのデータ、各種施設(コンビニエンスストア、ガソリンスタンド、スーパー・ディスカウントショップ等)に関するデータ(位置、住所、電話番号、ジャンル等の各種情報)などを含んでいる。HDD8に格納されている音声認識辞書の内容については後で説明する。
【0019】
マイクロホンアレイ9は、複数のマイクロホンを所定の間隔でアレイ状に並置して構成され、例えば、車室内の運転席前方のサンバイザー又はルームミラーの近傍に適宜設置されている。このマイクロホンアレイ9(各マイクロホン)は、ユーザ(運転者、助手席の乗員又はリア席の乗員)が発話する制御対象機器の操作等に係る指示(音声)を検出してその音圧レベルに応じたアナログ音声信号に変換するものである。各マイクロホンで検出された信号は、後述するように、車室内で発話したユーザ(発話者)の居る場所、すなわち、その発話者を特定するのに利用される。この発話者の特定方法については、音声認識ユニット10の内部構成と併せて後で説明する。
【0020】
フロント席用操作ユニット(H/U)20は、運転者と助手席の乗員が共用できるように両座席の中間のセンターコンソール上に「操作パネル」の形態で設置されており、その対応する表示ユニット25は、その操作パネル(H/U)の上方に配置されている。この表示ユニット25は、例えば、デュアル表示タイプのLCDモニタ(便宜上「デュアルディスプレイ」という。)からなり、これは、同じ画面を右方向(運転席の側)から見た場合と左方向(助手席の側)から見た場合とでそれぞれ違う画像を同時に表示することができるものである。このデュアルディスプレイ(表示ユニット25)の画面には、ナビゲーションユニット5から出力された各種の映像情報(自車位置の周囲の地図、自車位置から目的地までの誘導経路、音声認識に基づいた施設検索等の案内情報など)、DVDプレーヤ3やTV受信機4などの映像ソースから出力された映像情報などが表示される。
【0021】
一方、リア席用操作ユニット30は、リア席のユーザが操作し易いように「リモコン」の形態で設けられており、これに対応するリア席用表示ユニット31と赤外線通信により接続されている。このリア席用表示ユニット31は、例えば、前の座席のヘッドレストの後部に設置されており、フロント側の表示ユニット25と同様に映像情報をディスプレイ画面に表示するLCDモニタ等を有している。また、この表示ユニット31は、その対応するワイヤレスヘッドホン32と赤外線通信及びRF通信により接続されている。
【0022】
各ソース(制御対象機器)1〜6は、基本的な動作として、フロント席用操作ユニット20からバス7に送出された操作指示に係るデータ、又はリア席用操作ユニット(リモコン)30から赤外線通信により表示ユニット31を介してバス7に送出された操作指示に係るデータ、あるいは音声認識ユニット10からバス7に送出された操作指示に係るデータ(後述する「機器制御信号」)を受信し、それぞれ操作指示に係るデータに基づいて自己の動作状態を設定もしくは変更し、その結果(現在の動作状態)を指示するデータを音声/映像信号としてバス7に送出する。例えば、ラジオ受信機1の場合、各操作ユニット20,30あるいは音声認識ユニット10から与えられる操作指示に応答して、FM放送やAM放送の信号を受信して復調することにより音声信号を生成し、これをデジタルの音声データに変換して、バス7に送出する。また、DVDプレーヤ3の場合、同様に与えられる操作指示に応答して、ユーザにより選択されたDVDの記録面に記録された信号を読み取り、再生された映像データをバス7に送出する。
【0023】
フロント席用操作ユニット20は、制御部21と、操作部22と、表示部23と、メモリ部24とを備えている。このうち、操作部22は、各ソース(制御対象機器)1〜6に対して各種設定操作を行うための操作キー、例えば、電源のオン/オフ及び音量調整を行うための電源キー、各ソースを選択するための選択キー、数字キー、所定の機能を行わせるためのプリセットキー、矢印が付されたシフトキー(矢印の部分を操作することでFF/REW動作、シーク・アップ/ダウン動作等の操作を指示する)等を備えている。表示部23は、操作パネル(H/U)上にLCD等の形態で配置されており、制御部21から出力されるデータに基づいて、各種情報、例えば、ラジオ受信機1に関してはFM/AMの種別やその放送局の受信周波数など、CDプレーヤ2に関してはCD演奏時のディスク番号や再生位置(トラック数、経過時間等)などを表示する。
【0024】
メモリ部24は、フラッシュメモリ等の不揮発性半導体メモリからなり、制御部21からの制御に基づいて必要な情報(データ)を格納しておくためのものである。このメモリ部24には、各操作ユニット20,30あるいは音声認識ユニット10から与えられる操作指示に基づき選択ソース(制御対象機器)からの音声/映像信号の出力動作が停止された時点での当該機器の動作状態を示すデータ(以下、「機器動作状態データ」という。)が格納される。この機器動作状態データは、次の出力動作開始時に必要に応じて参照するために格納される。この機器動作状態データには、例えば、いずれの機器(ソース)を使用していたかを指示する「ソース種別」、オーディオソースであればその音声を聴取していた際の音量や音質の調整値を指示する「音量・音質」、各ソース別の詳細な機器動作状態を指示する「ソース別詳細情報」等が含まれる。ソース別詳細情報には、例えば、ラジオ受信機1を使用していた場合にはFM/AMの種別や放送局(受信周波数)の情報等が含まれ、CDプレーヤ2を使用していた場合には複数枚装填されているCDの中でいずれのCDを再生していたかを示すディスク番号や何曲目の頭からどれくらいの時間が経過した位置を再生していたかを示す再生位置の情報等が含まれる。
【0025】
制御部21はマイクロコンピュータ(マイコン)等により構成され、本システム40全体の制御を行うものである。基本的には、各操作ユニット20,30あるいは音声認識ユニット10から与えられた操作指示に基づき、選択ソース(制御対象機器)からバス7を介して送られてくる音声/映像データを取得して音声/映像情報の再生を行う動作、操作状況や動作状態等を指示する情報を表示部23に表示させる動作、機器動作状態データの格納動作や読み出し動作などの制御を行う。この場合、取得された音声データは、制御部21によりバス7を介してアンプユニット26に送られ、適宜D/A変換され、また音量や音質等の制御が行われ、増幅された後、スピーカ27を通して音声出力される。また、取得された映像データは、制御部21によりバス7を介して表示ユニット25に送られ、そのディスプレイ画面に映像情報として表示される。
【0026】
一方、リア席用操作ユニット(リモコン)30は、特に図示はしないが、フロント側の操作部22と同等の機能を有する操作部と、この操作部から入力された操作指示に応じた信号を赤外線通信により表示ユニット31に向けて送信するための赤外線送信部とを備えている。また、リア席用表示ユニット31は、特に図示はしないが、リモコン30及びワイヤレスヘッドホン32との間で制御信号やデータ等を通信するための赤外線通信部と、フロント側の制御部21と同等の制御を行う制御部と、フロント側の表示ユニット25と同様のLCDモニタ等からなる表示部と、フロント側のメモリ部24と同様のメモリ部とを備えている。
【0027】
<第1の実施形態(図2〜図4参照)>
図2は、第1の実施形態に係る車載用音声認識装置の構成を一部模式的に示したものである。
【0028】
本実施形態に係る車載用音声認識装置ARは、図示のようにHDD8と、マイクロホンアレイ9と、デジタル信号プロセッサ(DSP)11と、CPU12と、RAM等からなるメモリ部13とを備えている。このうちDSP11、CPU12及びメモリ部13は、音声認識ユニット10(図1)を構成する。DSP11は、その機能ブロックとして、音声入力部11aと、ビームフォーミング部11bと、音源方向特定部11cとを備えている。一方、CPU12は、その機能ブロックとして、認識辞書選択部12aと、音声認識処理部12bと、機器制御信号発生部12cとを備えている。
【0029】
HDD8には、音声認識に基づいて制御されるべきソース(制御対象機器)に対応させてそれぞれ当該機器の操作指示に関連した専用の語彙(すなわち、当該機器に対し音声コマンドとして発する頻度の高い語彙)をあらかじめ登録した複数の専用認識辞書が格納されている。図示の例では、ナビゲーションユニット5に関連した語彙(「目的地」、「メニュー」、「周辺検索」、「現在地」など)を登録した専用認識辞書D1と、DVDプレーヤ3に関連した語彙(「メニュー」、「再生」、「停止」など)を登録した専用認識辞書D2と、ラジオ受信機1に関連した語彙(「ラジオ」、「FM」、「AM」など)を登録した専用認識辞書D3の3種類の辞書が格納されている。
【0030】
メモリ部13には、ユーザが着座している座席(運転席、助手席、リア席)と当該座席のユーザが視聴している情報のソース(制御対象機器)との関係を示す情報(管理テーブル)が格納される。この管理テーブルは、CPU12とフロント席用操作ユニット20内の制御部21及びリア席用表示ユニット31内の制御部(図示せず)とが協働し、各ユニット内のメモリ部24に格納されている「機器動作状態データ」に基づいて作成される。従って、各ソース(制御対象機器)の動作状態が変更されると、それに応じて管理テーブルの内容も更新される。
【0031】
本実施形態では、マイクロホンアレイ9とその検出信号を処理するDSP11とを用いて、音源の方向(この場合、発話者が着座している座席の方向)を特定している。複数のマイクロホンを用いて音源の方向を特定する方法は知られている。すなわち、個々のマイクロホンは無指向性であるが、複数のマイクロホンをアレイ状に配置して音源からの音を各マイクロホンで検出し、それぞれ検出したデータを加算処理することで指向性をもたせることができる。例えば、図3に示すように、マイクロホンアレイ9の真正面から音が入射する場合(図示の例では、リア席のユーザP3が発話している場合)、マイクロホンアレイ9の各マイクロホンに到達する音圧信号は位相的にほぼ同相となるため、これらを加算するとレベル的に大きな信号となる。これに対し、音が斜めから入射した場合(図示の例では、運転席のユーザP1、助手席のユーザP2が発話している場合)、各マイクロホンに到達する時間に差が生じ、位相的に正方向又は負方向にずれるため、これらを加算するとお互いに打ち消しあってレベル的に小さな信号となる。この原理を利用して、各マイクロホンで検出した信号のレベルと位相差に基づき、音の到来方向(すなわち、発話者の居る方向)を特定することができる。その特定に際し、本実施形態ではビームフォーミング法を用いている。
【0032】
すなわち、音声認識ユニット10において、マイクロホンアレイ9の各マイクロホンで検出された信号(アナログ音声信号)は、DSP11の音声入力部11aを通して適宜増幅され、デジタル化された後、ビームフォーミング部11bに入力されると共に、CPU12の音声認識処理部12bに入力される。ビームフォーミング部11bでは、入力された信号に基づき方向推定を行ってビーム信号を生成し(ビームフォーミング)、その生成されたビーム信号に基づいて音源方向特定部11cにより、音圧レベルの大きい信号を受信している方向を音源の方向(発話者の居る方向)として特定する。
【0033】
CPU12では、認識辞書選択部12aにより、メモリ部13に格納されている管理テーブルを参照して、HDD8に格納されている複数の専用認識辞書D1〜D3の中から、その特定された発話者が視聴している情報のソース(制御対象機器)に対応した専用の音声認識辞書を選択する。次いで音声認識処理部12bでは、その選択された専用認識辞書を使用して、その発話内容(音声コマンド)とその選択された専用認識辞書に含まれる各語彙(コマンド)とを比較照合し、それぞれ合致度を算出する。そして、その算出結果に基づき最も合致度の大きい「語彙」をユーザの発話したコマンドとして決定する。次いで機器制御信号発生部12cでは、その決定されたコマンドを取得し、そのコマンドの内容に応じた機器制御信号を出力する。出力された機器制御信号は、当該制御対象機器に対する操作指示データとして、CPU12によりバス7に送出される。
【0034】
以下、本実施形態に係る車載用音声認識装置AR(図2)においてCPU12がDSP11と協働して行う発話者の特定及びそれに基づく音声認識辞書の切替選択等に係る処理について、その一例を示す図4を参照しながら説明する。
【0035】
先ず初期状態として、各座席(運転席、助手席、リア席)のユーザがそれぞれ所望のソース(制御対象機器)の情報を既に視聴しており、音声認識ユニット10内のCPU12により管理テーブル(ユーザが着座している座席と当該座席で視聴している情報のソースとの関係を示す情報)が作成され、メモリ部13に格納されているものとする。
【0036】
この状態で最初のステップS1では、CPU12において、マイクロホンアレイ9からDSP11(音声入力部11a)を介して発話を検出した(YES)か否(NO)かを判定する。判定結果がYESの場合には次のステップS2に進み、判定結果がNOの場合には発話を検出するまで判定処理を繰り返す。なお、ステップS1の処理内容において括弧書きで記載する「発話操作」については後で説明する。
【0037】
次のステップS2では、CPU12からの制御に基づきDSP11において、マイクロホンアレイ9を用いたビームフォーミング法により、その発話を行ったユーザ(発話者)の居る方向(座席)を特定する。つまり、当該発話者を特定する。
【0038】
次のステップS3では、CPU12において認識辞書選択部12aにより、メモリ部13に格納されている管理テーブルを参照して、HDD8に格納されている複数の専用の認識辞書D1〜D3の中から、その発話者が視聴している情報のソース(例えば、運転席であればナビゲーションユニット5、助手席であればラジオ受信機1、リア席であればDVDプレーヤ3)に対応した専用の音声認識辞書を選択する。
【0039】
次のステップS4では、CPU12において音声認識処理部12bにより、その選択された専用認識辞書を使用して、当該発話者の発話内容(音声コマンド)に対する音声認識を実行する。
【0040】
最後のステップS5では、CPU12において機器制御信号発生部12cにより、その認識されたコマンド(発話内容)に応じた機器制御信号を出力し、これに対応する制御を当該制御対象機器に対して実行する。その際、CPU12からの制御に基づき、当該制御対象機器の動作状態に係る映像を表示している表示ユニット25,31に対して当該発話内容に応じた制御(画面の変更など)を行うと共に、当該制御対象機器の動作状態に係る音声を出力しているスピーカ27(ワイヤレスヘッドホン32を含む)に対して当該発話内容に応じた制御(音声の変更など)を行う。
【0041】
以上説明したように、第1の実施形態に係る車載用音声認識装置ARによれば、マイクロホンアレイ9を用いたビームフォーミング法(DSP11)により、車室内で発話したユーザ(の居る方向)を特定し、CPU12により、HDD8に格納されている複数の専用認識辞書D1〜D3の中から、その特定した発話者が視聴している情報のソース(制御対象機器)に対応した専用の音声認識辞書を選択するようにしている。つまり、その発話者が当該制御対象機器に対し音声コマンドとして発する頻度の高い語彙を登録した専用認識辞書を選択するようにしている。
【0042】
これにより、その発話者の発話内容(音声コマンド)を認識するに際し、その選択した専用認識辞書に登録されている語彙のみを認識すればよいので、従来のように音声認識辞書に登録されている全ての語彙に対して音声認識を行う場合と比べて、マッチングしない語彙を誤認識する割合を減らすことができる。つまり、その発話者に適した音声認識を行うことで、音声コマンドに対する認識率を高めることができる。
【0043】
例えば、発話者がリア席に着座していた場合、リア席用表示ユニット31の画面上で再生されているDVD操作のみに対する音声認識辞書D2を使用することで、誤認識の割合を減らすことができる。この場合、フロント席用表示ユニット(デュアルディスプレイ)25の運転席側の画面にナビゲーション情報が表示されていても、リア席での発話操作によりそのナビゲーションの動作に影響を与えることがない。また、発話者が助手席に着座していた場合も、同様である。
【0044】
<第2の実施形態(図5参照)>
上述した第1の実施形態に係る車載用音声認識装置AR(図2)では、発話者を特定する手段としてマイクロホンアレイ9を用いたビームフォーミング法(DSP11)により音源の方向(発話者の居る方向)を特定する場合を例にとって説明したが、発話者を特定する手段がこれに限定されないことはもちろんである。例えば、操作指示を音声入力(発話)する際に何らかのスイッチ等を操作し(発話操作)、この発話操作をCPUで検出してその発話者を特定するようにしてもよい。図5はその場合の実施形態に係る車載用音声認識装置の構成を示したものである。
【0045】
この第2の実施形態に係る車載用音声認識装置AR1(図5)は、第1の実施形態に係る車載用音声認識装置AR(図2)と比べて、フロント席用及びリア席用の各操作ユニット20,30の操作部にそれぞれ発話スイッチ50を設けた点、マイクロホンアレイ9に代えてマイクロホン9aを設けた点、DSP11を省略した点、CPU12の代わりにCPU14を有し、このCPU14が音声入力部14aと、発話者特定部14bと、認識辞書選択部14cと、音声認識処理部14dと、機器制御信号発生部14eとを備えている点で相違する。他の構成及びその機能については、第1の実施形態の場合と同じであるのでその説明は省略する。
【0046】
また、この第2の実施形態においてCPU14が行う発話者の特定及びそれに基づく音声認識辞書の切替選択等に係る処理についても、第1の実施形態に係る処理(図4)と基本的に同じであるのでその説明は省略する。
【0047】
この第2の実施形態に係る車載用音声認識装置AR1においても、上述した第1の実施形態に係る車載用音声認識装置ARにおいて得られた効果と同様の効果を得ることができる。さらに本実施形態では、発話スイッチ50の操作を検出することで発話者を容易に特定することができるので、マイクロホンアレイ9とDSP11を使用して発話者を特定する場合と比べて、構成の簡素化及びコストの低減化を図ることができる。
【0048】
<第3の実施形態(図6参照)>
上述した第1、第2の実施形態に係る車載用音声認識装置AR,AR1(図2、図5)では、HDD8に複数の専用の認識辞書D1〜D3を用意し、DSP11の機能又は発話スイッチ50の操作に基づいて特定した座席の発話者が視聴している情報のソース(制御対象機器)に対応させていずれか1つの専用認識辞書を選択する場合を例にとって説明したが、認識辞書を変更する形態は必ずしもこれに限定されない。
【0049】
上記のように複数の専用認識辞書の中から選択するのではなく、例えば、発話内容に対する音声認識を実行する際に、特定した発話者の視聴している情報のソース(制御対象機器)に応じて認識すべき単語を優先させる「重み付け」を付加し、その「重み付け」が付加された認識単語を当該発話者のコマンドとして認識するようにしてもよい。図6はその場合の音声認識方法の一例を示したものである。
【0050】
本実施形態に係る車載用音声認識装置は、特に図示はしないが、基本的に第1、第2の実施形態に係る車載用音声認識装置AR,AR1(図2、図5)と同等の構成を有している。構成上相違する点は、CPU12,14において認識辞書選択部12a,14cに相当する機能ブロックを備えていない点、HDD8に複数の専用の認識辞書D1〜D3を用意する代わりに、各ソース(制御対象機器)に共用される1つの音声認識辞書を用意すると共に、各ソース毎にそれぞれ認識すべき語彙(単語)とあらかじめ設定した重み付けとの関係を規定したテーブル(図6のWT1,WT2)を用意している点である。
【0051】
この第3の実施形態では、CPU12(14)において特定された発話者の発話内容に対する音声認識を実行する際に、上記のテーブルWT1,WT2を参照して「重み付け」を付加する。例えば、運転席側と助手席側からマイクロホン9(9a)を介してナビゲーション関連の単語「会社」が発話された場合、CPU12(14)では、図6に示すように運転席側の認識単語「会社」にのみ重み付け(+10)を付加することで、運転席側から発話された「会社」を音声コマンドとして認識し、その認識したコマンドに対応する制御をナビゲーションユニット5に対して実行する。また、運転席側と助手席側からマイクロホン9(9a)を介してオーディオ関連の単語「停止」が発話された場合には、助手席側の認識単語「停止」にのみ重み付け(+10)を付加することにより、助手席側から発話された「停止」を音声コマンドとして認識し、その認識したコマンドに対応する制御をオーディオ機器(ラジオ受信機1、DVDプレーヤ3など)に対して実行する。
【0052】
上述した各実施形態では、車載用音声認識装置AR(AR1)を車載A/V・ナビゲーションシステム40の一部として組み込んだ場合を例にとって説明したが、本発明の要旨(発話者を特定し、その発話者が視聴している情報のソース(制御対象機器)に対応させて認識辞書を変更(専用の音声認識辞書を選択、又は認識単語の重み付けを変更)し、その変更された辞書を使用して音声認識を実行し、その認識した発話内容に対応する制御を当該制御対象機器に対して行うこと)からも明らかなように、必ずしもA/V機器とナビゲーション装置の両方を含むシステムに組み込んで使用する必要がないことはもちろんである。
【0053】
また、上述した各実施形態では、車室内でユーザが着座している座席と当該座席で視聴している情報のソース(制御対象機器)との関係を示す「管理テーブル」を音声認識ユニット10内のメモリ部13に格納する場合を例にとって説明したが、本発明の要旨からも明らかなように、必ずしも音声認識ユニット10内に保有しておく必要がないことはもちろんである。例えば、その管理テーブルをH/U20内のメモリ部24に格納しておき、音声認識ユニット10内のCPU12(14)が、必要な時にH/U20内の制御部21と協働して、メモリ部24(管理テーブル)を参照するようにしてもよい。
【0054】
また、上述した各実施形態では、リア席用にワイヤレスヘッドホン32を備えた場合を例にとって説明したが、かかる「ワイヤレス」タイプのものに限定されず、ジャック付きのヘッドホンを使用した場合にも本発明は同様に適用することができる。この場合、ヘッドホンは対応する表示ユニット31とジャックを介して有線接続されることになる。
【0055】
また、上述した各実施形態では、地図データ及び音声認識辞書を格納する記憶媒体としてHDD8を使用しているが、これに代えて、DVDドライブ(DVD−ROM)やCDドライブ(CD−ROM)等の他の記憶媒体を使用してもよい。
【図面の簡単な説明】
【0056】
【図1】本発明の一実施形態に係る車載用音声認識装置を組み込んだ車載オーディオ/ビデオ(A/V)・ナビゲーションシステムの構成を示すブロック図である。
【図2】第1の実施形態に係る車載用音声認識装置の構成を一部模式的に示すブロック図である。
【図3】図2の車載用音声認識装置においてマイクロホンアレイを用いたビームフォーミング法により音源の方向(発話者の居る方向)を特定する方法を説明するための図である。
【図4】図2の車載用音声認識装置において行う発話者の特定及びそれに基づく音声認識辞書の切替選択等に係る処理の一例を示すフロー図である。
【図5】第2の実施形態に係る車載用音声認識装置の構成を一部模式的に示すブロック図である。
【図6】第3の実施形態に係る車載用音声認識装置において行う音声認識の方法を説明するための図である。
【符号の説明】
【0057】
1〜6…発話者が視聴している情報のソース(制御対象機器)、
8…HDD(辞書格納手段)、
9…マイクロホンアレイ(音声入力手段)、
9a…マイクロホン(音声入力手段)、
10…音声認識ユニット、
11…DSP(発話者特定手段)、
12,14…CPU(制御手段)、
13…メモリ部(テーブル格納手段)、
20,30…操作ユニット、
25,31…表示ユニット(表示手段)、
27…スピーカ(音声出力手段)、
32…ヘッドホン(音声出力手段)、
40…車載オーディオ/ビデオ(A/V)・ナビゲーションシステム、
50…発話スイッチ(発話者特定手段)、
AR,AR1…車載用音声認識装置、
D1,D2,D3…(各制御対象機器に対応した)音声認識辞書、
P1,P2,P3…車室内の乗員(ユーザ)、
WT1,WT2…認識単語と重み付けとの関係を規定したテーブル。

【特許請求の範囲】
【請求項1】
車室内でユーザが指示する情報を音声入力する音声入力手段と、
前記音声入力手段を介して発話したユーザを特定する発話者特定手段と、
複数の制御対象機器に対応させてそれぞれ当該機器の操作指示に関連した専用の語彙が登録されている複数の音声認識辞書を格納した辞書格納手段と、
前記音声入力手段、発話者特定手段及び辞書格納手段に動作可能に接続された制御手段とを備え、
前記制御手段は、前記発話者特定手段と協働して発話者を特定したときに、前記辞書格納手段から当該発話者が視聴している情報のソースである制御対象機器に対応した専用の音声認識辞書を選択し、該選択した音声認識辞書を参照して当該発話者の発話内容に対する音声認識を行い、該認識した発話内容に応じた制御を当該制御対象機器に対して行うことを特徴とする車載用音声認識装置。
【請求項2】
車室内の各座席と当該座席のユーザが視聴している情報のソースである制御対象機器との関係を示すテーブルを格納したテーブル格納手段を備え、
前記制御手段は、前記発話者特定手段と協働して発話者を特定したときに、前記テーブルを参照して前記辞書格納手段から当該制御対象機器に対応した専用の音声認識辞書を選択することを特徴とする請求項1に記載の車載用音声認識装置。
【請求項3】
車室内でユーザが指示する情報を音声入力する音声入力手段と、
前記音声入力手段を介して発話したユーザを特定する発話者特定手段と、
複数の制御対象機器の各々の操作指示に関連した語彙が登録されている1つの音声認識辞書を格納した辞書格納手段と、
前記音声入力手段、発話者特定手段及び辞書格納手段に動作可能に接続された制御手段とを備え、
前記制御手段は、前記発話者特定手段と協働して発話者を特定したときに、前記音声認識辞書を参照して、当該発話者が視聴している情報のソースである制御対象機器に対応した語彙に所定の重み付けを付加し、該重み付けの付加された語彙を参照して当該発話者の発話内容に対する音声認識を行い、該認識した発話内容に応じた制御を当該制御対象機器に対して行うことを特徴とする車載用音声認識装置。
【請求項4】
前記辞書格納手段は、さらに、各ソース毎にそれぞれ認識すべき語彙とあらかじめ設定された重み付けとの関係を規定したテーブルを格納し、
前記制御手段は、当該発話者の発話内容に対する音声認識を行う際に前記テーブルを参照して前記所定の重み付けを付加することを特徴とする請求項3に記載の車載用音声認識装置。
【請求項5】
前記音声入力手段は、車室内の所定の箇所に設置されたマイクロホンアレイであり、
前記発話者特定手段は、前記マイクロホンアレイの各マイクロホンで検出された信号に基づき方向推定を行ってビーム信号を生成する手段と、該生成されたビーム信号に基づいて音圧レベルの大きい信号を受信している方向を当該発話者の居る方向として特定する手段とを有することを特徴とする請求項1又は請求項3に記載の車載用音声認識装置。
【請求項6】
前記音声入力手段は、車室内の所定の箇所に設置されたマイクロホンであり、
前記発話者特定手段は、前記マイクロホンを介してユーザが発話する際に操作する発話スイッチであることを特徴とする請求項1又は請求項3に記載の車載用音声認識装置。
【請求項7】
車室内の各座席に対応して設けられた複数の表示手段を備え、
前記制御手段は、前記認識した発話内容に応じた制御を当該制御対象機器に対して行う際に、当該制御対象機器の動作状態に係る映像を表示している表示手段に対して当該発話内容に応じた制御を行うことを特徴とする請求項1又は請求項3に記載の車載用音声認識装置。
【請求項8】
前記複数の表示手段にそれぞれ動作可能に接続された複数の音声出力手段を備え、
前記制御手段は、前記認識した発話内容に応じた制御を当該制御対象機器に対して行う際に、当該制御対象機器の動作状態に係る音声を出力している音声出力手段に対して当該発話内容に応じた制御を行うことを特徴とする請求項1又は請求項3に記載の車載用音声認識装置。
【請求項9】
車室内でユーザが発話した制御対象機器に対する操作指示に対応した音声認識を行う機能を備えた車載用音声認識装置において、
あらかじめ複数の制御対象機器に対応させてそれぞれ当該機器の操作指示に関連した専用の語彙を登録した複数の音声認識辞書を記憶手段に格納しておき、
発話を検出したときに当該発話者を特定し、
前記記憶手段から当該発話者が視聴している情報のソースである制御対象機器に対応した専用の音声認識辞書を選択し、
該選択した音声認識辞書を使用して当該発話者の発話内容に対する音声認識を行い、
該認識した発話内容に応じた制御を当該制御対象機器に対して行うことを特徴とする音声認識方法。
【請求項10】
さらに、車室内の各座席と当該座席のユーザが視聴している情報のソースである制御対象機器との関係を示すテーブルを記憶手段に格納しておき、
前記発話を検出して当該発話者を特定したときに、前記テーブルを参照して前記記憶手段から当該制御対象機器に対応した専用の音声認識辞書を選択することを特徴とする請求項9に記載の音声認識方法。
【請求項11】
車室内でユーザが発話した制御対象機器に対する操作指示に対応した音声認識を行う機能を備えた車載用音声認識装置において、
あらかじめ複数の制御対象機器の各々の操作指示に関連した語彙を登録した1つの音声認識辞書を記憶手段に格納しておき、
発話を検出したときに当該発話者を特定し、
前記音声認識辞書を参照して、当該発話者が視聴している情報のソースである制御対象機器に対応した語彙に所定の重み付けを付加し、
該重み付けの付加された語彙を参照して当該発話者の発話内容に対する音声認識を実行し、
該認識した発話内容に応じた制御を当該制御対象機器に対して行うことを特徴とする音声認識方法。
【請求項12】
さらに、各ソース毎にそれぞれ認識すべき語彙とあらかじめ設定された重み付けとの関係を規定したテーブルを記憶手段に格納しておき、
当該発話者の発話内容に対する音声認識を実行する際に前記テーブルを参照して前記所定の重み付けを付加することを特徴とする請求項11に記載の音声認識方法。
【請求項13】
マイクロホンアレイにより発話を検出し、該発話を検出したときに、前記マイクロホンアレイを用いたビームフォーミング法により当該発話者の居る方向を特定することを特徴とする請求項9又は請求項11に記載の音声認識方法。
【請求項14】
マイクロホンにより発話を検出し、発話スイッチの操作に基づいて当該発話者を特定することを特徴とする請求項9又は請求項11に記載の音声認識方法。
【請求項15】
前記認識した発話内容に応じた制御を当該制御対象機器に対して行う際に、当該制御対象機器の動作状態に係る映像を表示している表示手段に対して当該発話内容に応じた制御を行うことを特徴とする請求項9又は請求項11に記載の音声認識方法。
【請求項16】
前記認識した発話内容に応じた制御を当該制御対象機器に対して行う際に、当該制御対象機器の動作状態に係る音声を出力している音声出力手段に対して当該発話内容に応じた制御を行うことを特徴とする請求項9又は請求項11に記載の音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2007−286136(P2007−286136A)
【公開日】平成19年11月1日(2007.11.1)
【国際特許分類】
【出願番号】特願2006−110379(P2006−110379)
【出願日】平成18年4月13日(2006.4.13)
【出願人】(000101732)アルパイン株式会社 (2,424)
【Fターム(参考)】