説明

音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体

【課題】利用者の発話以外の音声による誤認識を防止すること。
【解決手段】音声認識装置100は、登録部101と、受付部102と、音声認識部103と、制御部104と、出力部105と、を備える。登録部101には、利用者の音声情報が予め登録される。受付部102は、利用者からの音声を受け付ける。音声認識部103は、受付部102が受け付けた音声のうち、登録部101に登録されている利用者の音声情報を認識する。制御部104は、音声認識部103によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる。出力部105は、制御部104によって制御された音声情報を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体に関する。
【背景技術】
【0002】
近年、自動車などの車両には、目的地までの経路を探索して、当該目的地まで誘導するナビゲーション装置が搭載されている。このようなナビゲーション装置において、目的地の設定など各種設定や入力は、タッチパネルなどの操作入力によっておこなわれるものが知られている。また、このほかにも、音声認識機能を具備したものであれば、利用者からの発話により各種設定や入力がおこなわれるものが知られている。
【0003】
音声認識機能を具備した技術としては、たとえば、音声の誤認識の低減を図るために、利用者からの語彙のジャンルの発話に基づき、語彙のジャンルを指定し、指定されたジャンルの中から音声認識をおこなうようにした技術が提案されている(たとえば、特許文献1参照。)。
【0004】
【特許文献1】特開平10−97281号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した特許文献1の技術は、マイクが利用者の発話以外に他人の発話や周囲のノイズなどを全て収集してしまうので、音声認識をおこなう際に誤認識を招くおそれがあるといった問題が一例として挙げられる。また、特許文献1の技術を用いて、携帯電話などで通話する場合には、周囲の音声を全て収集してしまうことにより、当方の発話が相手先に聞き取り難いといった問題が一例として挙げられる。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる音声認識装置は、利用者の音声情報が予め登録される登録手段と、利用者からの音声を受け付ける受付手段と、前記受付手段が受け付けた音声のうち、前記登録手段に登録されている利用者の音声情報を認識する音声認識手段と、前記音声認識手段によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる制御手段と、前記制御手段によって制御された音声情報を出力する出力手段と、を備えることを特徴とする。
【0007】
請求項8に記載のナビゲーション装置は、上記音声認識装置を備えることを特徴とする。
【0008】
請求項9に記載の電子機器は、上記音声認識装置を備えることを特徴とする。
【0009】
また、請求項10の発明にかかる音声認識方法は、利用者の音声情報が予め登録される登録工程と、音声情報を受け付ける受付工程と、前記受付工程にて受け付けた音声情報のうち、前記登録工程にて登録される利用者の音声情報を認識する音声認識工程と、前記音声認識工程によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる制御工程と、前記制御工程によって制御された音声情報を出力する出力工程と、を含むことを特徴とする。
【0010】
また、請求項11の発明にかかる音声認識プログラムは、請求項10に記載の音声認識方法をコンピュータに実行させることを特徴とする。
【0011】
また、請求項12の発明にかかる記録媒体は、請求項11に記載の音声認識プログラムをコンピュータに読み取り可能に記録したことを特徴とする。
【発明を実施するための最良の形態】
【0012】
以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体の好適な実施の形態を詳細に説明する。
【0013】
(実施の形態)
(音声認識装置の機能的構成)
この発明の実施の形態にかかる音声認識装置100の機能的構成について説明する。図1は、本実施の形態にかかる音声認識装置100の機能的構成の一例を示すブロック図である。
【0014】
図1において、音声認識装置100は、登録部101と、受付部102と、音声認識部103と、制御部104と、出力部105と、設定部106と、変更部107と、入力部108と、を備えている。
【0015】
登録部101には、利用者の音声情報が予め登録される。登録される音声情報は、具体的には、利用者の音声パターンである。音声情報の登録は、たとえば、音声情報の登録を受け付ける登録モードなどを設け、当該登録モードにて利用者の音声情報を登録するようにしてもよいし、利用者からの発話を学習し、ある一定回数以上の発話があった場合に、当該利用者の音声情報を登録するようにしてもよい。
【0016】
受付部102は、利用者からの音声を受け付ける。受付部102は、マイクロフォンからの音声信号を受け付け、代表的には、ハンズフリー・マイクロフォンからの音声信号を受け付ける。また、受付部102は、ハンズフリー・マイクロフォンとして、たとえば、ヘッドセットなどに小型のマイクを装着させたものや、携帯電話などの電話機本体に内蔵されたもの、車両などの移動体内に配置されるものなどが挙げられる。
【0017】
音声認識部103は、受付部102が受け付けた音声のうち、登録部101に登録されている利用者の音声情報を認識する。音声認識部103は、登録されている利用者の音声パターンと入力された音声パターンとを照らし合わせ、一致した場合に、言語の認識をおこなう。言語の認識は、予め記録される言語データと、入力された音声情報の特徴とを照らし合わせ、尤もらしい言語を推定することによりおこなわれる。
【0018】
制御部104は、音声認識部103によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる。音声情報の低減は、音声情報の除去をも含む。制御部104は、演算処理部を含み、制御をおこなった音声情報(音声データ)を所定のプログラムにしたがって演算および加工する。なお、所定のプログラムは、たとえば、ナビゲーション装置であれば、経路探索プログラムなどが挙げられ、また、携帯電話であれば、音響制御プログラムなどが挙げられる。
【0019】
出力部105は、制御部104によって制御された音声情報を出力する。出力部105から出力された音声情報により、たとえば、ナビゲーション装置における各種設定や、携帯電話装置における音声の補正がおこなわれる。
【0020】
また、本実施の形態において、設定部106は、任意の構成要素である。設定部106には、複数の利用者の音声情報が登録される登録部101の中から、音声認識の対象となる利用者(以下、「認識対象者」という)が設定される。この場合、音声認識部103は、受付部102が受け付けた音声のうち、設定部106に設定されている認識対象者の音声情報を認識する。本構成は、登録部101に複数の利用者の音声情報が登録されている場合であっても、設定により認識対象者のみの音声を認識することを可能にした構成である。
【0021】
また、本実施の形態において、変更部107は、任意の構成要素である。変更部107は、設定部106に設定されている認識対象者を変更する。この場合、音声認識部103は、受付部102が受け付けた音声のうち、変更部107によって変更された認識対象者の音声情報を認識する。変更部107は、具体的には、利用者からの操作入力に基づいて、認識対象者を変更するものでもよいし、後述するように、利用者からの音声入力に基づいて、認識対象者を変更するものでもよい。本構成は、音声認識の対象となる認識対象者を変更可能にした具体的な構成である。
【0022】
上述した、利用者からの音声入力に基づく認識対象者の変更について説明する。この場合、登録部101は、利用者の音声情報と、認識対象者を変更するための所定の語彙とを登録する。音声認識部103は、受付部102が受け付けた音声のうち、登録部101に登録される利用者の音声情報と所定の語彙とを音声認識する。また、変更部107は、音声認識部103によって認識された結果により、設定部106に設定されている認識対象者を発話した利用者に変更する。
【0023】
所定の語彙は、具体的には、たとえば、「利用者変更」、「ドライバー変更」といった語彙である。本構成は、このような語彙を発話した者の音声情報が予め登録部101に登録されている場合に、認識対象者を発話者に変更するものである。なお、利用者ごとに固有の語彙を登録しておき、各利用者が固有の語彙を発話した場合に、発話した利用者を認識対象者として変更するようにしてもよい。本構成は、発話によって認識対象者の変更を可能にした具体的な構成である。
【0024】
また、本実施の形態において、登録部101に、複数の利用者の音声情報と、利用者の音声情報に対応付けられ且つ認識対象者を特定するための優先度に関する情報とを登録してもよい。この場合、音声認識部103は、受付部102が受け付けた音声のうち、登録部101に登録されている優先度の高い音声情報を認識する。また、制御部104は、音声認識部103によって認識された優先度の高い音声情報を抽出するとともに、優先度の高い音声情報以外の音声情報を低減させる。また、出力部105は、制御部104によって制御された音声情報を出力する。
【0025】
優先度は、たとえば、10人の利用者が登録されている場合には、10段階の値を示すものである。本構成は、優先度が上位の利用者の音声を認識するものであり、たとえば、優先度が5位と8位の利用者の音声を受け付けた場合、優先度5位の利用者の音声を音声認識の対象とするものである。また、優先度5位の利用者が認識対象者として設定されている場合に、優先度1位の利用者の音声を受け付けたときには、優先度1位の利用者の音声を認識するとともに、優先度1位の利用者を、認識対象者として設定を変更するようにしてもよい。
【0026】
また、音声認識部103は、優先度を、利用者が発話した回数の多い利用者ほど高くして、登録部101に登録させてもよい。発話した回数の多い利用者は、具体的には、ナビゲーション装置やカーオーディオなど移動体に搭載される電子機器においては運転頻度の高いドライバーとなる傾向にあり、携帯電話、テレビ、パソコンなど他の電子機器においては使用者となる傾向にある。
【0027】
なお、本実施の形態において、入力部108は、任意の構成要素である。入力部108は、登録部101に未登録の音声情報を認識するための切り替えの入力を受け付ける。具体的には、入力部108は、上述した特定の利用者の音声を認識するようにした機能を解除させるための入力を受け付ける。この場合、音声認識部103は、入力部108が切り替えの入力を受け付けた場合、受付部102が受け付けた全ての音声情報を認識すればよい。
【0028】
切り替えの入力は、利用者からの操作入力に基づくものでもよいし、利用者からの発話に基づくものでもよい。利用者からの発話に基づく切り替えの場合、音声認識部103により当該利用者を認識する必要があるため、登録部101に登録されている利用者、または設定部106に設定される認識対象者からの発話に基づく切り替えとすればよい。
【0029】
また、本実施の形態においては、音声認識装置100単体を例に挙げているが、音声認識装置100を、移動体に搭載されるナビゲーション装置に具備させてもよい。このようなナビゲーション装置において、利用者ごとに経路探索条件などの各種設定情報が格納されている場合には、音声認識装置100によって認識された利用者の設定情報を読み込み、利用者ごとの設定情報に基づいた経路案内や施設検索などをおこなうことも可能である。
【0030】
また、音声認識装置100を携帯電話や、オーディオ機器などの電子機器に具備させてもよい。このような電子機器においては、電子機器に利用者ごとの各種設定情報が格納されている場合には、利用者ごとに設定情報に応じた通話や取り扱いをおこなうことが可能になる。
【0031】
(音声認識装置の音声認識処理手順)
つぎに、図2を用いて、音声認識装置100の音声認識処理手順について説明する。図2は、本実施の形態にかかる音声認識装置100の音声認識処理手順の一例を示すフローチャートである。
【0032】
図2のフローチャートにおいて、音声認識装置100は、音声を受け付けるまで待機し(ステップS201:Noのループ)、音声を受け付けた場合(ステップS201:Yes)、受け付けた音声のうち、登録部101に登録されている利用者の音声情報を認識する(ステップS202)。
【0033】
そして、認識された利用者の音声情報を抽出するとともに(ステップS203)、当該利用者以外の音声情報を低減させる制御をおこなう(ステップS204)。このあと、制御された音声情報を出力し(ステップS205)、一連の処理を終了する。
【0034】
以上説明したように、本実施の形態にかかる音声認識装置100は、受け付けた音声のうち、登録されている利用者の音声情報を認識し、認識した利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させるようにした。したがって、利用者の発話以外に、他人の発話や周囲のノイズなどを収集することにより、音声認識における誤認識を防止することができる。また、携帯電話などを用いて通話する場合には、周囲の雑音を低減することにより、クリアな通話が可能になる。
【実施例】
【0035】
以下に、本発明の実施例について説明する。本実施例では、車両に搭載されるナビゲーション装置によって、本発明の音声認識装置100を実施した場合の一例について説明する。
【0036】
(ナビゲーション装置300のハードウェア構成)
図3を用いて、本実施例にかかるナビゲーション装置300のハードウェア構成について説明する。図3は、本実施例にかかるナビゲーション装置のハードウェア構成の一例を示すブロック図である。図3において、ナビゲーション装置300は、車両などの移動体に搭載されており、CPU301と、ROM302と、RAM303と、磁気ディスクドライブ304と、磁気ディスク305と、光ディスクドライブ306と、光ディスク307と、音声I/F(インターフェース)308と、マイク309と、スピーカ310と、入力デバイス311と、映像I/F312と、ディスプレイ313と、通信I/F314と、GPSユニット315と、各種センサ316と、カメラ317と、を備えている。また、各構成部301〜317はバス320によってそれぞれ接続されている。
【0037】
CPU301は、ナビゲーション装置300の全体の制御を司る。ROM302は、ブートプログラム、現在地点算出プログラム、経路探索プログラム、経路誘導プログラム、地図データ表示プログラム、音声認識プログラムなどの各種プログラムを記録している。また、RAM303は、CPU301のワークエリアとして使用される。
【0038】
現在地点算出プログラムは、たとえば、後述するGPSユニット315および各種センサ316の出力情報に基づいて、車両の現在地点(ナビゲーション装置300の現在地点)を算出させる。
【0039】
経路探索プログラムは、後述する磁気ディスク305に記録されている地図データなどを利用して、出発地点から目的地点までの最適な経路を探索させる。ここで、最適な経路とは、目的地点までの最短(または最速)経路やユーザが指定した条件に最も合致する経路などである。また、目的地点のみならず、立ち寄り地点や休憩地点までの経路を探索してもよい。探索された誘導経路は、CPU301を介して音声I/F308や映像I/F312へ出力される。
【0040】
経路誘導プログラムは、経路探索プログラムを実行することによって探索された誘導経路情報、現在地点算出プログラムを実行することによって算出された車両の現在地点情報、磁気ディスク305から読み出された地図データに基づいて、リアルタイムな経路誘導情報を生成させる。生成された経路誘導情報は、CPU301を介して音声I/F308や映像I/F312へ出力される。
【0041】
地図データ表示プログラムは、磁気ディスク305や光ディスク307に記録されている地図データを映像I/F312によってディスプレイ313に表示させる。
【0042】
音声認識プログラムは、音声I/F308を介して受け付けた音声のうち、磁気ディスク305や光ディスク307に記録される利用者の音声情報を認識し、認識した利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる。
【0043】
磁気ディスクドライブ304は、CPU301の制御にしたがって磁気ディスク305に対するデータの読み取り/書き込みを制御する。磁気ディスク305は、磁気ディスクドライブ304の制御で書き込まれたデータを記録する。磁気ディスク305としては、たとえば、HD(ハードディスク)やFD(フレキシブルディスク)を用いることができる。
【0044】
光ディスクドライブ306は、CPU301の制御にしたがって光ディスク307に対するデータの読み取り/書き込みを制御する。光ディスク307は、光ディスクドライブ306の制御にしたがってデータの読み出される着脱自在な記録媒体である。光ディスク307は、書き込み可能な記録媒体を利用することもできる。また、この着脱可能な記録媒体として、光ディスク307のほか、MO、メモリカードなどであってもよい。
【0045】
音声I/F308は、音声入力用のマイク309および音声出力用のスピーカ310に接続される。マイク309は、車室内の音を収集するハンズフリー・マイクロフォンによって構成される。マイク309は、たとえば、車両のサンバイザー付近に設置され、その数は単数でも複数でもよい。マイク309に受音された音声は、音声I/F308内でA/D変換される。マイク309から入力された音声は、利用者ごとの音声情報として、適宜、磁気ディスク305または光ディスク307に記録される。スピーカ310からは、音声が出力される。
【0046】
入力デバイス311は、文字、数値、各種指示などの入力のための複数のキーを備えたリモコン、キーボード、マウス、タッチパネルなどが挙げられる。
【0047】
映像I/F312は、ディスプレイ313と接続される。映像I/F312は、具体的には、たとえば、ディスプレイ313全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記録するVRAM(Video RAM)などのバッファメモリと、グラフィックコントローラから出力される画像データに基づいて、ディスプレイ313を表示制御する制御ICなどによって構成される。
【0048】
ディスプレイ313には、アイコン、カーソル、メニュー、ウインドウ、あるいは文字や画像などの各種データが表示される。このディスプレイ313は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【0049】
通信I/F314は、無線を介してネットワークに接続され、ナビゲーション装置300とCPU301とのインターフェースとして機能する。通信I/F314は、さらに、無線を介してインターネットなどの通信網に接続され、この通信網とCPU301とのインターフェースとしても機能する。
【0050】
通信網には、LAN、WAN、公衆回線網や携帯電話網などがある。具体的には、通信I/F314は、たとえば、FMチューナー、VICS(Vehicle Information and Communication System)/ビーコンレシーバ、無線ナビゲーション装置、およびそのほかのナビゲーション装置によって構成され、VICSセンターから配信される渋滞や交通規制などの道路交通情報を取得する。なお、VICSは登録商標である。
【0051】
また、通信I/F314は、たとえば、DSRC(Dedicated Short Range Communication)を用いた場合は、路側に設置された無線装置と双方向の無線通信をおこなう車載無線装置によって構成され、交通情報や地図情報などの各種情報を取得する。なお、DSRCの具体例としては、ETC(ノンストップ自動料金支払いシステム)が挙げられる。
【0052】
GPSユニット315は、GPS衛星からの電波を受信し、車両の現在地点を示す情報を出力する。GPSユニット315の出力情報は、後述する各種センサ316の出力値とともに、CPU301による車両の現在地点の算出に際して利用される。現在地点を示す情報は、たとえば緯度・経度、高度などの、地図情報上の1点を特定する情報である。
【0053】
各種センサ316は、車速センサや加速度センサ、角速度センサなどを含み、車両の位置や挙動を判断することが可能な情報を出力する。各種センサ316の出力値は、CPU301による車両の現在地点の算出や、速度や方位の変化量の測定などに用いられる。
【0054】
カメラ317は、車両内部あるいは外部の映像を撮影する。映像は静止画あるいは動画のどちらでもよい。また、カメラ317によって撮影された映像を映像I/F312を介して磁気ディスク305や光ディスク307などの記録媒体に出力する。
【0055】
図1に示した音声認識装置100が備える登録部101と、受付部102と、音声認識部103と、制御部104と、出力部105と、設定部106と、変更部107と、入力部108とは、図3に示したナビゲーション装置300におけるROM302、RAM303、磁気ディスク305、光ディスク307などに記録されたプログラムやデータを用いて、CPU301が所定のプログラムを実行し、ナビゲーション装置300における各部を制御することによって、その機能を実現する。
【0056】
すなわち、本実施例のナビゲーション装置300は、ナビゲーション装置300における記録媒体としてのROM302に記録されている音声認識プログラムを実行することにより、図1に示した音声認識装置100が備える機能を、図2に示した音声認識処理手順で実行することができる。
【0057】
(ナビゲーション装置の音声認識処理の一例)
つぎに、図4を用いて、本実施例にかかるナビゲーション装置300がおこなう音声認識処理の一例について説明する。図4は、本実施例にかかるナビゲーション装置300の音声認識処理の一例を示すフローチャートである。
【0058】
図4のフローチャートにおいて、ナビゲーション装置300は、音声I/F308を介して、ハンズフリー・マイクロフォンが用いられるマイク309から、音声を受け付けるまで待機し(ステップS401:Noのループ)、音声を受け付けた場合(ステップS401:Yes)、音声解析をおこなう(ステップS402)。
【0059】
そして、複数人の音声情報か否かを判断する(ステップS403)。ステップS403において、複数人の音声情報ではないと判断した場合(ステップS403:No)、音声情報が登録されているものか否かを判断する(ステップS404)。
【0060】
ステップS404において、音声情報が登録されているものと判断した場合(ステップS404:Yes)、音声情報を演算処理部へ送信し(ステップS405)、一連の処理を終了する。なお、演算処理部は、音声情報(音声データ)を所定のプログラムにしたがい演算および加工をおこなう。
【0061】
なお、この後の処理について、具体例を挙げて補足しておくと、たとえば、受け付けた音声が「目的地○○」という音声であった場合、演算処理部の制御に基づき、目的地を設定し、経路探索をおこなう。また、ナビゲーション装置300に、利用者に応じた経路探索条件や施設検索条件などの設定情報が記録されている場合には、音声情報を基に利用者が特定されることにより、発話した利用者に応じた経路探索条件や施設検索条件などを設定することも可能である。
【0062】
一方、ステップS404において、音声情報が登録されていないものと判断した場合(ステップS404:No)、音声情報を除去し(ステップS406)、一連の処理を終了する。したがって、この場合、ナビゲーション装置300の各種設定などはおこなわれない。
【0063】
また、ステップS403において、複数人の音声情報であると判断した場合(ステップS403:Yes)、登録されている音声情報があるか否かを判断する(ステップS407)。ステップS407において、登録されている音声情報があると判断した場合(ステップS407:Yes)、登録されている音声情報以外を除去し(ステップS408)、ステップS405に移行する。このように、複数の人が発話した場合であっても、登録されている音声情報のみを認識し、ナビゲーション装置300の各種設定をおこなうことが可能になっている。
【0064】
また、ステップS407において、登録されている音声情報がないと判断した場合(ステップS407:No)、音声情報を除去し(ステップS409)、一連の処理を終了する。
【0065】
上述した処理によれば、受け付けた音声のうち、登録されている利用者の音声情報を認識し、当該利用者以外の音声情報を除去するようにしたので、登録されている利用者の発話以外の音声による誤認識を防止することができる。特に、本実施例では、ハンズフリー・マイクロフォンを用いているため、車室内の全ての音を収集することになるが、このようなハンズフリー・マイクロフォンを用いた場合であっても、登録されている利用者の発話以外の音声による誤認識を防止することができる。
【0066】
(ナビゲーション装置300に設定される利用者の変更処理の一例)
つぎに、図5を用いて、本実施例にかかるナビゲーション装置300に設定される利用者の変更処理の一例について説明する。図5は、本実施例にかかるナビゲーション装置300に設定される利用者の変更処理の一例を示すフローチャートである。なお、図5に示すフローチャートでは、音声認識の対象となる認識対象者が設定され、当該認識対象者を変更可能にする処理について説明する。
【0067】
図5のフローチャートにおいて、ナビゲーション装置300は、認識対象者の設定の入力を受け付けたか否かを判断する(ステップS501)。認識対象者の設定は、登録される利用者のうち、音声認識を対象とする利用者を特定するための設定であり、利用者からの入力によりおこなわれる。ステップS501において、認識対象者の設定の入力を受け付けるまで待機状態にあり(ステップS501:Noのループ)、認識対象者の設定の入力を受け付けた場合(ステップS501:Yes)、認識対象者を設定する(ステップS502)。
【0068】
このあと、音声I/F308を介して、ハンズフリー・マイクロフォンが用いられるマイク309から、音声を受け付けるまで待機し(ステップS503:Noのループ)、音声を受け付けた場合(ステップS503:Yes)、音声解析をおこなう(ステップS504)。そして、登録されている音声情報か否かを判断する(ステップS505)。
【0069】
ステップS505において、登録されている音声情報であると判断した場合(ステップS505:Yes)、音声情報に所定の語彙が含まれるか否かを判断する(ステップS506)。所定の語彙は、たとえば、「利用者の変更」、「ドライバーの変更」といった語彙である。なお、このような語彙は、磁気ディスク305や光ディスク307に予め登録されている。
【0070】
ステップS506において、音声情報に所定の語彙が含まれると判断した場合(ステップS506:Yes)、認識対象者を発話者に変更し(ステップS507)、ステップS503に移行する。一方、ステップS506において、音声情報に所定の語彙が含まれないと判断した場合(ステップS506:No)、当該音声情報が認識対象者の音声情報か否かを判断する(ステップS508)。
【0071】
ステップS508において、当該音声情報が認識対象者の音声情報であると判断した場合(ステップS508:Yes)、音声情報を演算処理部へ送信し(ステップS509)一連の処理を終了する。また、ステップS508において、当該音声情報が認識対象者の音声情報ではないと判断した場合(ステップS508:No)、一連の処理を終了する。また、ステップS505において、登録されている音声情報ではないと判断した場合(ステップS505:No)、音声情報を除去し(ステップS510)、一連の処理を終了する。
【0072】
上述した処理によれば、受け付けた音声のうち、登録されている利用者の音声情報を認識し、当該利用者以外の音声情報を除去するようにしたので、登録されている利用者の発話以外の音声による誤認識を防止することができる。
【0073】
また、設定により認識対象者のみの音声を認識することを可能にしたので、認識対象者の発話以外の音声による誤認識を防止することができ、より誤認識の少ない音声認識を実現できる。また、音声認識の対象となる認識対象者を変更可能にしたので、登録されている利用者の中から、適宜、状況に応じて認識対象者を選択することができる。
【0074】
また、認識対象者の変更にあっては、利用者からの操作入力に基づくものであってもよいが、上述した処理では、利用者からの発話によって、認識対象者を当該発話者に変更可能にした。したがって、簡単且つ確実に認識対象者を変更することができる。
【0075】
(ナビゲーション装置300がおこなう優先度に基づく音声認識処理の一例)
つぎに、図6を用いて、本実施例にかかるナビゲーション装置300がおこなう優先度に基づく音声認識処理の一例について説明する。図6は、本実施例にかかるナビゲーション装置300がおこなう優先度に基づく音声認識処理の一例を示すフローチャートである。
【0076】
図6に示すフローチャートでは、音声認識の対象となる認識対象者(たとえば、Aさん)が予め設定されているものとし、認識対象者の優先順位を示す優先度に基づいて認識対象者を変更する処理について説明する。また、優先度は、発話される回数の多い利用者ほど高く設定されており、以下の説明では、たとえば、発話される回数の多い利用者として、運転頻度の高いBさんがAさんよりも高く設定されているものとする。
【0077】
図6のフローチャートにおいて、ナビゲーション装置300は、音声I/F308を介して、ハンズフリー・マイクロフォンが用いられるマイク309から、音声を受け付けるまで待機し(ステップS601:Noのループ)、音声を受け付けた場合(ステップS601:Yes)、音声解析をおこなう(ステップS602)。なお、ステップS601において受け付ける音声は、予め登録されている利用者からの発話とする。
【0078】
そして、認識対象者(Aさん)よりも優先度の高い音声情報(Bさんの音声情報)があるか否かを判断する(ステップS603)。ステップS603において、認識対象者よりも優先度の高い音声情報があると判断した場合(ステップS603:Yes)、優先度の低い音声情報を除去する(ステップS604)。そして、優先度の高い音声情報の利用者(Bさん)に認識対象者を変更する(ステップS605)。
【0079】
そして、認識対象者の音声情報を演算処理部へ送信し(ステップS606)、一連の処理を終了する。一方、ステップS603において、認識対象者よりも優先度の高い音声情報がないと判断した場合(ステップS603:No)、ステップS606に移行する。なお、上述した優先度に基づく音声認識処理は、図4に示すステップS404、ステップS407、および図5に示すステップS508においておこなうことも可能である。
【0080】
上述した処理によれば、受け付けた音声のうち、優先度の高い利用者の音声情報を認識し、優先度の低い当該利用者以外の音声情報を除去するようにしたので、優先度の高い利用者の発話以外の音声による誤認識を防止することができる。特に、ナビゲーション装置300においては、発話される回数が多い利用者として、運転頻度の高い利用者を対象とし、当該利用者に対応付けられた経路探索条件や検索条件などの各種設定情報を読み込むことができるので、利用者が自身に対応した各種設定情報を選択するなどといった手間を省くことができる。
【0081】
(ナビゲーション装置300がおこなう音声登録処理の一例)
つぎに、図7を用いて、本実施例にかかるナビゲーション装置300がおこなう音声登録処理の一例について説明する。図7は、本実施例にかかるナビゲーション装置300がおこなう音声登録処理の一例を示すフローチャートである。
【0082】
図7のフローチャートにおいて、利用者からの操作入力により、利用者登録画面の選択を受け付けるまで待機し(ステップS701:Noのループ)、利用者登録画面の選択を受け付けると(ステップS701:Yes)、利用者から音声を受け付けたか否かを判断する(ステップS702)。ステップS702において、利用者から音声を受け付けるまで待機し(ステップS702:Noのループ)、利用者から音声を受け付けると(ステップS702:Yes)、受け付けた音声情報が未登録の音声情報か否かを判断する(ステップS703)。
【0083】
ステップS703において、受け付けた音声情報が未登録の音声情報であると判断した場合(ステップS703:Yes)、利用者から「登録」の入力があるか否かを判断する(ステップS704)。ステップS704において、「登録」の入力がある場合(ステップS704:Yes)、利用者の音声情報を登録し(ステップS705)、一連の処理を終了する。一方、ステップS703において、受け付けた音声情報が未登録の音声情報ではないと判断した場合(ステップS703:No)、一連の処理を終了する。また、ステップS704において、「登録」の入力がない場合(ステップS704:No)、一連の処理を終了する。
【0084】
上述した処理により、未登録の利用者を登録することができる。なお、この登録時において、優先度を設定してもよい。
【0085】
以上説明したように、本実施例にかかるナビゲーション装置300によれば、受け付けた音声のうち、登録されている利用者の音声情報を認識し、当該利用者以外の音声情報を除去するようにしたので、登録されている利用者の発話以外の音声による誤認識を防止することができる。特に、本実施例では、ハンズフリー・マイクロフォンを用いているため、車室内の全ての音を収集することになるが、このようなハンズフリー・マイクロフォンを用いた場合であっても、登録されている利用者の発話以外の音声による誤認識を防止することができる。
【0086】
また、設定により認識対象者のみの音声を認識することを可能にしたので、認識対象者の発話以外の音声による誤認識を防止することができ、より誤認識の少ない音声認識を実現できる。さらに、音声認識の対象となる認識対象者を変更可能にしたので、登録されている利用者の中から、適宜、認識対象者を選択することができる。さらに、認識対象者の変更にあっては、利用者からの発話によって、認識対象者を当該発話者に変更可能にしたので、簡単且つ確実に認識対象者を変更することができる。
【0087】
また、受け付けた音声のうち、優先度の高い利用者の音声情報を認識し、優先度の低い当該利用者以外の音声情報を除去するようにしたので、優先度の高い利用者の発話以外の音声による誤認識を防止することができる。特に、ナビゲーション装置300においては、発話される回数が多い利用者として、運転頻度の高い利用者を対象とし、当該利用者に対応付けられた経路探索条件や検索条件などの各種設定情報を読み込むことができるので、利用者が自身に対応した各種設定情報を選択するなどといった手間を省くことができる。
【0088】
また、本実施例においては、図1に示した音声認識装置100をナビゲーション装置によって実現する構成について説明したが、音声認識装置100を携帯電話やテレビなど他の電子機器によって実現することも可能である。このような電子機器によれば、電子機器に利用者ごとの各種設定情報が格納されている場合には、利用者ごとの設定に応じた通話や取り扱いをおこなうことが可能になる。
【0089】
なお、本実施例で説明した音声認識方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。
【図面の簡単な説明】
【0090】
【図1】本実施の形態にかかる音声認識装置の機能的構成の一例を示すブロック図である。
【図2】本実施の形態にかかる音声認識装置の音声認識処理手順の一例を示すフローチャートである。
【図3】本実施例にかかるナビゲーション装置のハードウェア構成の一例を示すブロック図である。
【図4】本実施例にかかるナビゲーション装置の音声認識処理の一例を示すフローチャートである。
【図5】本実施例にかかるナビゲーション装置に設定される利用者の変更処理の一例を示すフローチャートである。
【図6】本実施例にかかるナビゲーション装置がおこなう優先度に基づく音声認識処理の一例を示すフローチャートである。
【図7】本実施例にかかるナビゲーション装置がおこなう音声登録処理の一例を示すフローチャートである。
【符号の説明】
【0091】
100 音声認識装置
101 登録部
102 受付部
103 音声認識部
104 制御部
105 出力部
106 設定部
107 変更部
108 入力部
300 ナビゲーション装置

【特許請求の範囲】
【請求項1】
利用者の音声情報が予め登録される登録手段と、
利用者からの音声を受け付ける受付手段と、
前記受付手段が受け付けた音声のうち、前記登録手段に登録されている利用者の音声情報を認識する音声認識手段と、
前記音声認識手段によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる制御手段と、
前記制御手段によって制御された音声情報を出力する出力手段と、
を備えることを特徴とする音声認識装置。
【請求項2】
複数の利用者の音声情報が登録される前記登録手段の中から、音声認識の対象となる利用者(以下、「認識対象者」という)が設定される設定手段をさらに備え、
前記音声認識手段は、前記受付手段が受け付けた音声のうち、前記設定手段に設定されている前記認識対象者の音声情報を認識することを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記設定手段に設定されている前記認識対象者を変更する変更手段をさらに備え、
前記音声認識手段は、前記受付手段が受け付けた音声のうち、前記変更手段によって変更された前記認識対象者の音声情報を認識することを特徴とする請求項2に記載の音声認識装置。
【請求項4】
前記登録手段には、利用者の音声情報と、前記認識対象者を変更するための所定の語彙とが登録され、
前記音声認識手段は、前記受付手段が受け付けた音声のうち、前記登録手段に登録される利用者の音声情報と前記所定の語彙とを認識し、
前記変更手段は、前記音声認識手段によって認識された結果により、前記設定手段に設定されている前記認識対象者を発話した利用者に変更することを特徴とする請求項3に記載の音声認識装置。
【請求項5】
前記登録手段には、複数の利用者の音声情報と、利用者の音声情報に対応付けられ且つ音声認識の対象となる認識対象者の優先度に関する情報とが登録され、
前記音声認識手段は、前記受付手段が受け付けた音声のうち、前記登録手段に登録されている優先度の高い音声情報を認識し、
前記制御手段は、前記音声認識手段によって認識された優先度の高い音声情報を抽出するとともに、優先度の高い音声情報以外の音声情報を低減させ、
前記出力手段は、前記制御手段によって制御された音声情報を出力することを特徴とする請求項1〜4のいずれか一つに記載の音声認識装置。
【請求項6】
前記音声認識手段は、前記優先度を、利用者が発話した回数の多い利用者ほど高くして、前記登録手段に登録させることを特徴とする請求項5に記載の音声認識装置。
【請求項7】
前記受付手段は、ハンズフリー・マイクロフォンからの音声信号を受け付けることを特徴とする請求項1〜6のいずれか一つに記載の音声認識装置。
【請求項8】
請求項1〜7のいずれか一つに記載の音声認識装置を備えることを特徴とするナビゲーション装置。
【請求項9】
請求項1〜7のいずれか一つに記載の音声認識装置を備えることを特徴とする電子機器。
【請求項10】
利用者の音声情報が予め登録される登録工程と、
音声情報を受け付ける受付工程と、
前記受付工程にて受け付けた音声情報のうち、前記登録工程にて登録される利用者の音声情報を認識する音声認識工程と、
前記音声認識工程によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる制御工程と、
前記制御工程によって制御された音声情報を出力する出力工程と、
を含むことを特徴とする音声認識方法。
【請求項11】
請求項10に記載の音声認識方法をコンピュータに実行させることを特徴とする音声認識プログラム。
【請求項12】
請求項11に記載の音声認識プログラムを記録したことを特徴とするコンピュータに読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2009−86132(P2009−86132A)
【公開日】平成21年4月23日(2009.4.23)
【国際特許分類】
【出願番号】特願2007−253679(P2007−253679)
【出願日】平成19年9月28日(2007.9.28)
【出願人】(000005016)パイオニア株式会社 (3,620)
【Fターム(参考)】