説明

音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体

【課題】音声認識を開始させる際の、利用者の手間を軽減すること。
【解決手段】音声認識装置100は、入力部101と、検知部102と、画像認識部103と、音声認識部104と、を備える。入力部101には、利用者からの音声が入力される。検知部102は、利用者の身体のうち発話時に動作する部位を検知する。画像認識部103は、検知部102による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する。音声認識部104は、画像認識部103によって利用者の発話に関する行動状態が画像認識された後に、入力部101に入力される音声に対する音声認識を開始する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体に関する。
【背景技術】
【0002】
近年、自動車などの車両には、目的地までの経路を探索して、当該目的地まで誘導するナビゲーション装置が搭載されている。このようなナビゲーション装置において、目的地の設定など各種設定や入力は、タッチパネルなどの操作入力によっておこなわれるものが知られている。また、このほかにも、音声認識機能を具備したものであれば、利用者からの発話により各種設定や入力がおこなわれるものが知られている。
【0003】
音声認識機能を具備した技術としては、たとえば、音声の誤認識の低減を図るために、利用者からの語彙のジャンルの発話に基づき、語彙のジャンルを指定し、指定されたジャンルの中から音声認識をおこなうようにした技術が提案されている(たとえば、特許文献1参照。)。
【0004】
【特許文献1】特開平10−97281号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した特許文献1の技術は、音声認識を開始させるためには、利用者がトークスイッチをオンにする必要があり、利用者にとって手間がかかるといった問題が一例として挙げられる。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる音声認識装置は、利用者からの音声が入力される入力手段と、利用者の身体のうち発話時に動作する部位を検知する検知手段と、前記検知手段による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する画像認識手段と、前記画像認識手段によって利用者の発話に関する行動状態が画像認識された後に、前記入力手段に入力される音声に対する音声認識を開始する音声認識手段と、を備えることを特徴とする。
【0007】
また、請求項8に記載のナビゲーション装置は、上記音声認識装置を備えることを特徴とする。
【0008】
また、請求項10の発明にかかる音声認識方法は、利用者からの音声が入力される入力工程と、利用者の発話に関する行動状態を検知する検知工程と、前記検知工程による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する画像認識工程と、前記画像認識工程によって利用者の発話に関する行動状態が画像認識された後に、前記入力工程にて入力される音声に対する音声認識を開始する音声認識工程と、を含むことを特徴とする。
【0009】
また、請求項11の発明にかかる音声認識プログラムは、請求項10に記載の音声認識方法をコンピュータに実行させることを特徴とする。
【0010】
また、請求項12の発明にかかる記録媒体は、請求項11に記載の音声認識プログラムをコンピュータに読み取り可能に記録したことを特徴とする。
【発明を実施するための最良の形態】
【0011】
以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体の好適な実施の形態を詳細に説明する。
【0012】
(実施の形態)
(音声認識装置の機能的構成)
この発明の実施の形態にかかる音声認識装置100の機能的構成について説明する。図1は、本実施の形態にかかる音声認識装置100の機能的構成の一例を示すブロック図である。図1において、音声認識装置100は、入力部101と、検知部102と、画像認識部103と、音声認識部104と、出力部105と、電源制御部106と、記録部107とを備えている。
【0013】
入力部101には、利用者からの音声が入力される。入力部101は、具体的には、マイクロフォンである。マイクロフォンには、たとえば、ハンズフリー・マイクロフォンが用いられ、ヘッドセットなどに小型のマイクを装着させたものや、車両などの移動体内に配置されるものなどが挙げられる。
【0014】
検知部102は、利用者の身体のうち発話時に動作する部位を検知する。検知部102には、たとえば、画像を撮影するカメラからの撮像信号を検知する。発話時に変化する部位は、たとえば、目、眉、鼻、頬のほか、人によっては手なども挙げられるが、代表的には、口元が挙げられる。
【0015】
画像認識部103は、検知部102による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する。発話に関する行動状態は、具体的には、利用者が発話する状態であり、目、眉、鼻、頬の動いた状態であってもよいが、代表的には、口元の動いた状態が挙げられる。
【0016】
音声認識部104は、画像認識部103によって利用者の発話に関する行動状態が画像認識された後に、入力部101に入力される音声に対する音声認識を開始する。音声認識部104は、代表的には、画像認識部103によって利用者の口元に動きがあると画像認識された後に、入力部101に入力される音声に対する音声認識を開始する。この音声認識部104は、入力部101に入力された音声を音声解析し、解析した音声データを出力部105に出力する。音声認識部104による音声解析は、具体的には、記録部107に、予め記録される言語データと、入力された音声の特徴とを照らし合わせ、尤もらしい言語を推定することによりおこなわれる。
【0017】
出力部105は、音声認識部104によって音声解析された音声データを出力する。出力部105から出力された音声データにより、たとえば、ナビゲーション装置において各種プログラムが実行され、各種設定や処理がおこなわれる。
【0018】
また、本実施の形態において、電源制御部106を備えてもよい。電源制御部106は、画像認識部103によって利用者の発話に関する行動状態が画像認識された場合に、入力部101の電源をオンにする。この場合、音声認識部104は、入力部101の電源がオンになってから、入力部101に入力される音声に対する音声認識処理を開始すればよい。本構成は、音声認識をおこなう必要があるときに、入力部101の電源をオンにすることにより、消費電力の低減を図ったものである。
【0019】
また、本実施の形態において、画像認識部103は、検知部102による検知結果に基づいて、利用者の口元の動きが所定時間ないことを画像認識してもよい。この場合、音声認識部104は、画像認識部103によって利用者の口元の動きが所定時間ないと画像認識された場合に、入力部101に入力される音声に対する音声認識を停止する。本構成は、利用者の口元の動きが所定時間ない場合に、利用者に発話する様子がないものと想定できることに基づき、音声認識を停止させることにより、誤認識や、これに伴う誤作動を防止するようにしたものである。
【0020】
また、このような、音声認識部104が入力部101に入力される音声に対する音声認識を停止する条件下で、電源制御部106により、入力部101の電源をオフにさせてもよい。本構成は、音声認識をおこなう必要のないときに、入力部101の電源をオフにさせることにより、消費電力の低減を図ったものである。
【0021】
また、本実施の形態において、音声認識部104は、入力部101に所定時間以上音声が入力されていないと判断した場合に、入力部101に入力される音声に対する音声認識を停止してもよい。本構成は、所定時間以上音声が入力されない場合に、利用者に発話する様子がないものと想定できることに基づき、音声認識を停止させるようにしたものである。また、このような、音声認識部104が入力部101に入力される音声に対する音声認識を停止する条件下で、電源制御部106により入力部101の電源をオフにさせてもよい。
【0022】
また、本実施の形態において、音声認識部104は、入力部101に非言語音が入力された場合に、入力部101に入力される音声に対する音声認識を停止してもよい。非言語音は、具体的には、咳払い、あくび、くしゃみなどの音声である。本構成は、入力部101に非言語音が入力された場合に、利用者からの発話ではないものと認識できることにより、音声認識を停止させるようにしたものである。また、このような、音声認識部104が入力部101に入力される音声に対する音声認識を停止する条件下で、電源制御部106により入力部101の電源をオフにさせてもよい。
【0023】
また、本実施の形態において、音声認識部104は、入力部101に一定の周波数の音声が所定時間以上入力された場合に、入力部101に入力される音声に対する音声認識を停止してもよい。一定の周波数の音声は、具体的には、ガムを噛んでいる場合などの音声である。本構成は、入力部101に一定の周波数の音声が所定時間以上入力された場合に、利用者からの発話ではないものと認識できることにより、音声認識を停止させるようにしたものである。また、このような、音声認識部104が入力部101に入力される音声に対する音声認識を停止する条件下で、電源制御部106により入力部101の電源をオフにさせてもよい。
【0024】
また、本実施の形態において、音声認識装置100を、移動体に搭載されるナビゲーション装置に用いてもよい。この場合、検知部102は、移動体に搭乗する複数の利用者のうち、少なくとも一人の身体のうち発話時に動作する部位を検知すればよい。移動体に搭乗する複数の利用者のうち、少なくとも一人とは、ナビゲーション装置に対して発話する利用者であり、たとえば、運転者や助手席の搭乗者が挙げられるが、後部座席の搭乗者であってもよい。
【0025】
また、画像認識部103は、検知部102による検知結果に基づいて、少なくとも一人の発話に関する行動状態を画像認識する。音声認識部104は、画像認識部103によって少なくとも一人の発話に関する行動状態が画像認識された後に、入力部101に入力される音声に対する音声認識を開始する。本構成は、移動体に搭乗する利用者のうち、少なくとも一人の身体のうち発話時に動作する部位を検知するようにし、搭乗者からのナビゲーション装置に対する音声入力を可能にしたものである。
【0026】
(音声認識装置の音声認識処理手順)
つぎに、図2を用いて、音声認識装置100の音声認識処理手順について説明する。図2は、本実施の形態にかかる音声認識装置100の音声認識処理手順の一例を示すフローチャートである。
【0027】
図2のフローチャートにおいて、音声認識装置100は、検知部102により利用者の身体のうち発話時に動作する部位を検知する(ステップS201)。そして、検知部102による検知結果に基づいて、画像認識部103が利用者の発話に関する行動状態を画像認識するまで待機する(ステップS202:Noのループ)。
【0028】
そして、利用者の発話に関する行動状態を画像認識すると(ステップS202:Yes)、電源制御部106が入力部101の電源をオンにする(ステップS203)。このあと、音声認識部104が入力部101に入力される音声に対する音声認識を開始し(ステップS204)、一連の処理を終了する。
【0029】
以上説明したように、本実施の形態にかかる音声認識装置100は、利用者の身体のうち発話時に動作する部位の検知結果に基づいて、利用者の発話に関する行動状態が画像認識された後に、入力される音声に対する音声認識を開始するようにした。これにより、利用者の操作によりトークスイッチをオンにすることなく、音声認識を開始させることができる。したがって、利用者の手間を軽減することが可能になる。
【0030】
また、本実施の形態において、利用者の口元の検知結果に基づいて、利用者の口元の動きを画像認識するようにすれば、簡単に、利用者の発話に関する行動状態を画像認識することができる。
【0031】
また、本実施の形態において、利用者の発話に関する行動状態が画像認識された場合に、入力部101の電源をオンにし、音声に対する音声認識処理を開始するようにすれば、音声認識をおこなう必要があるときにのみ、電源をオンにすることができ、消費電力を低減させることができる。
【0032】
また、本実施の形態において、利用者の口元の動きが所定時間ない場合など、利用者に発話する様子がないものと想定できる場合や、非言語音など利用者からの発話ではないものと認識できる場合に、音声認識を停止させるようにすれば、不要な音声認識をおこなうことなく、音声認識における誤認識や、これに伴う誤作動を防止することができる。特に、このような、入力される音声に対する音声認識を停止する条件下で、入力部101の電源をオフにさせるようにすれば、消費電力を低減させることができる。
【0033】
また、本実施の形態において、音声認識装置100を備えたナビゲーション装置によれば、利用者がトークスイッチを操作する手間を省くことができることにより、利用者は、運転動作に早く就くことができるとともに、運転に専念することができる。
【0034】
また、同乗者移動体に搭乗する複数の利用者のうち、少なくとも一人の身体のうち発話時に動作する部位を検知するようにすれば、たとえば、運転者以外の搭乗者からの発話を受け付けることも可能になる。
【実施例】
【0035】
以下に、本発明の実施例について説明する。本実施例では、車両に搭載されるナビゲーション装置によって、本発明の音声認識装置100を実施した場合の一例について説明する。
【0036】
(ナビゲーション装置のハードウェア構成)
図3を用いて、本実施例にかかるナビゲーション装置300のハードウェア構成について説明する。図3は、本実施例にかかるナビゲーション装置300のハードウェア構成の一例を示すブロック図である。図3において、ナビゲーション装置300は、車両などの移動体に搭載されており、CPU301と、ROM302と、RAM303と、磁気ディスクドライブ304と、磁気ディスク305と、光ディスクドライブ306と、光ディスク307と、音声I/F(インターフェース)308と、マイク309と、スピーカ310と、入力デバイス311と、映像I/F312と、ディスプレイ313と、通信I/F314と、GPSユニット315と、各種センサ316と、カメラ317と、を備えている。また、各構成部301〜317はバス320によってそれぞれ接続されている。
【0037】
CPU301は、ナビゲーション装置300の全体の制御を司る。ROM302は、ブートプログラム、現在位置算出プログラム、経路探索プログラム、経路誘導プログラム、音声認識プログラムなどの各種プログラムを記録している。また、RAM303は、CPU301のワークエリアとして使用される。
【0038】
現在位置算出プログラムは、たとえば、後述するGPSユニット315および各種センサ316の出力情報に基づいて、車両の現在位置(ナビゲーション装置300の現在位置)を算出させる。
【0039】
経路探索プログラムは、後述する磁気ディスク305に記録されている地図データなどを利用して、出発地点から目的地点までの最適な経路を探索させる。ここで、最適な経路とは、目的地点までの最短(または最速)経路やユーザが指定した条件に最も合致する経路などである。また、目的地点のみならず、立ち寄り地点や休憩地点までの経路を探索してもよい。探索された誘導経路は、CPU301を介して音声I/F308や映像I/F312へ出力される。
【0040】
経路誘導プログラムは、経路探索プログラムを実行することによって探索された誘導経路情報、現在位置算出プログラムを実行することによって算出された車両の現在位置情報、磁気ディスク305から読み出された地図データに基づいて、リアルタイムな経路誘導情報を生成させる。生成された経路誘導情報は、CPU301を介して音声I/F308や映像I/F312へ出力される。
【0041】
音声認識プログラムは、カメラ317によって撮影された利用者の口元の撮像結果に基づいて、利用者の口元の動きが画像認識された後に、音声I/F308から入力される音声に対する音声認識を開始させる。
【0042】
磁気ディスクドライブ304は、CPU301の制御にしたがって磁気ディスク305に対するデータの読み取り/書き込みを制御する。磁気ディスク305は、磁気ディスクドライブ304の制御で書き込まれたデータを記録する。磁気ディスク305としては、たとえば、HD(ハードディスク)やFD(フレキシブルディスク)を用いることができる。
【0043】
光ディスクドライブ306は、CPU301の制御にしたがって光ディスク307に対するデータの読み取り/書き込みを制御する。光ディスク307は、光ディスクドライブ306の制御にしたがってデータの読み出される着脱自在な記録媒体である。光ディスク307は、書き込み可能な記録媒体を利用することもできる。また、この着脱可能な記録媒体として、光ディスク307のほか、MO、メモリカードなどであってもよい。
【0044】
音声I/F308は、音声入力用のマイク309および音声出力用のスピーカ310に接続される。マイク309は、車室内の音を収集するハンズフリー・マイクロフォンによって構成される。マイク309は、たとえば、車両のサンバイザー付近に設置され、その数は単数でも複数でもよい。マイク309に受音された音声は、音声I/F308内でA/D変換される。スピーカ310からは、音声が出力される。
【0045】
入力デバイス311は、文字、数値、各種指示などの入力のための複数のキーを備えたリモコン、キーボード、マウス、タッチパネルなどが挙げられる。
【0046】
映像I/F312は、ディスプレイ313と接続される。映像I/F312は、具体的には、たとえば、ディスプレイ313全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記録するVRAM(Video RAM)などのバッファメモリと、グラフィックコントローラから出力される画像データに基づいて、ディスプレイ313を表示制御する制御ICなどによって構成される。
【0047】
ディスプレイ313には、アイコン、カーソル、メニュー、ウインドウ、あるいは文字や画像などの各種データが表示される。このディスプレイ313は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【0048】
通信I/F314は、無線を介してネットワークに接続され、ナビゲーション装置300とCPU301とのインターフェースとして機能する。通信I/F314は、さらに、無線を介してインターネットなどの通信網に接続され、この通信網とCPU301とのインターフェースとしても機能する。
【0049】
通信網には、LAN、WAN、公衆回線網や携帯電話網などがある。具体的には、通信I/F314は、たとえば、FMチューナー、VICS(Vehicle Information and Communication System)/ビーコンレシーバ、無線ナビゲーション装置、およびそのほかのナビゲーション装置によって構成され、VICSセンターから配信される渋滞や交通規制などの道路交通情報を取得する。なお、VICSは登録商標である。
【0050】
また、通信I/F314は、たとえば、DSRC(Dedicated Short Range Communication)を用いた場合は、路側に設置された無線装置と双方向の無線通信をおこなう車載無線装置によって構成され、交通情報や地図情報などの各種情報を取得する。なお、DSRCの具体例としては、ETC(ノンストップ自動料金支払いシステム)が挙げられる。
【0051】
GPSユニット315は、GPS衛星からの電波を受信し、車両の現在位置を示す情報を出力する。GPSユニット315の出力情報は、後述する各種センサ316の出力値とともに、CPU301による車両の現在位置の算出に際して利用される。現在位置を示す情報は、たとえば緯度・経度、高度などの、地図情報上の1点を特定する情報である。
【0052】
各種センサ316は、車速センサや加速度センサ、角速度センサなどを含み、車両の位置や挙動を判断することが可能な情報を出力する。各種センサ316の出力値は、CPU301による車両の現在位置の算出や、速度や方位の変化量の測定などに用いられる。
【0053】
カメラ317は、たとえば、運転者の口元の映像を撮影する。なお、カメラ317は、助手席や後部座席の搭乗者の口元の映像を撮影してもよい。映像は、動画が用いられる。
【0054】
図1に示した音声認識装置100が備える入力部101と、検知部102と、画像認識部103と、音声認識部104と、出力部105と、電源制御部106とは、図3に示したナビゲーション装置300におけるROM302、RAM303、磁気ディスク305、光ディスク307などに記録されたプログラムやデータを用いて、CPU301が所定のプログラムを実行し、ナビゲーション装置300における各部を制御することによって、その機能を実現する。
【0055】
すなわち、本実施例のナビゲーション装置300は、ナビゲーション装置300における記録媒体としてのROM302に記録されている音声認識プログラムを実行することにより、図1に示した音声認識装置100が備える機能を、図2に示した音声認識処理手順で実行することができる。
【0056】
(ナビゲーション装置の音声認識処理の一例)
つぎに、図4を用いて、本実施例にかかるナビゲーション装置300がおこなう音声認識処理の一例について説明する。図4は、本実施例にかかるナビゲーション装置300の音声認識処理の一例を示すフローチャートである。
【0057】
図4のフローチャートにおいて、ナビゲーション装置300は、カメラ317により利用者の口元を撮像する(ステップS401)。そして、利用者の口元の動きを画像認識するまで(ステップS402:Noのループ)、ステップS401に移行し、利用者の口元の動きを画像認識すると(ステップS402:Yes)、マイク309の電源をオンにする(ステップS403)。
【0058】
このあと、マイク309に入力される音声に対する音声認識を開始する(ステップS404)。そして、所定時間以上、口元の動きがないか否かを判断する(ステップS405)。ステップS405において、所定時間内に口元の動きがあると判断した場合(ステップS405:No)、所定時間以上、音声の入力がないか否かを判断する(ステップS406)。
【0059】
ステップS406において、所定時間内に音声の入力があると判断した場合(ステップS406:No)、入力された音声が非言語音か否かを判断する(ステップS407)。なお、非言語音は、咳払い、くしゃみ、あくびなどの音声である。ステップS407において、入力された音声が非言語音ではないと判断した場合(ステップS407:No)、一定の周波数の音声が所定時間以上入力されているか否かを判断する(ステップS408)。一定の周波数の音声が所定時間以上入力されている場合とは、たとえば、ガムを噛んでいる場合などである。
【0060】
ステップS408において、一定の周波数の音声が所定時間以上入力されていないと判断した場合(ステップS408:No)、ステップS404に移行する。一方、ステップS408において、一定の周波数の音声が所定時間以上入力されていると判断した場合(ステップS408:Yes)、マイク309の電源をオフにし(ステップS409)、一連の処理を終了する。
【0061】
また、ステップS405において、所定時間以上、口元の動きがないと判断した場合(ステップS405:Yes)、ステップS409に移行する。また、ステップS406において、所定時間以上、音声の入力がないと判断した場合(ステップS406:Yes)、ステップS409に移行する。また、ステップS407において、入力された音声が非言語音であると判断した場合(ステップS407:Yes)、ステップS409に移行する。
【0062】
以上説明したように、本実施例にかかるナビゲーション装置300は、利用者の口元の撮像結果に基づいて、利用者の口元の動きが画像認識された後に、マイクの電源をオンにし、入力される音声に対する音声認識を開始するようにした。これにより、利用者の操作によりトークスイッチをオンにすることなく、音声認識を開始させることができる。したがって、利用者の手間を軽減することが可能になる。
【0063】
また、本実施例において、利用者の発話に関する行動状態が画像認識された場合に、マイクの電源をオンにし、音声に対する音声認識処理を開始するようにすれば、音声認識をおこなう必要があるときにのみ、電源をオンにすることができ、消費電力を低減させることができる。
【0064】
また、本実施例において、利用者の口元の動きが所定時間ない場合など、利用者に発話する様子がないものと想定できる場合や、非言語音など利用者からの発話ではないものと認識できる場合に、音声認識を停止させるようにしたので、不要な音声認識をおこなうことなく、音声認識における誤認識や、これに伴う誤作動を防止することができる。特に、このような、入力される音声に対する音声認識を停止する条件下で、マイクの電源をオフにしたので、消費電力を低減させることができる。
【0065】
また、本実施例にかかるナビゲーション装置300によれば、利用者がトークスイッチを操作する手間を省くことができることにより、利用者は、運転動作に早く就くことができるとともに、運転に専念することができる。また、同乗者移動体に搭乗する複数の利用者のうち、助手席や後部座席に搭乗する少なくとも一人の口元を検知するようにすれば、運転者以外の搭乗者からの発話を受け付けることも可能になる。
【0066】
以上説明したように、本発明の音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体は、利用者の身体のうち発話時に動作する部位の検知結果に基づいて、利用者の発話に関する行動状態が画像認識された後に、入力される音声に対する音声認識を開始するようにした。これにより、利用者の操作によりトークスイッチをオンにすることなく、音声認識を開始させることができる。したがって、利用者の手間を軽減することが可能になる。
【0067】
なお、本実施例で説明した音声認識方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。
【図面の簡単な説明】
【0068】
【図1】本実施の形態にかかる音声認識装置の機能的構成の一例を示すブロック図である。
【図2】本実施の形態にかかる音声認識装置の音声認識処理手順の一例を示すフローチャートである。
【図3】本実施例にかかるナビゲーション装置のハードウェア構成の一例を示すブロック図である。
【図4】本実施例にかかるナビゲーション装置の音声認識処理の一例を示すフローチャートである。
【符号の説明】
【0069】
100 音声認識装置
101 入力部
102 検知部
103 画像認識部
104 音声認識部
105 出力部
106 電源制御部
300 ナビゲーション装置

【特許請求の範囲】
【請求項1】
利用者からの音声が入力される入力手段と、
利用者の身体のうち発話時に動作する部位を検知する検知手段と、
前記検知手段による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する画像認識手段と、
前記画像認識手段によって利用者の発話に関する行動状態が画像認識された後に、前記入力手段に入力される音声に対する音声認識処理を開始する音声認識手段と、
を備えることを特徴とする音声認識装置。
【請求項2】
前記検知手段は、利用者の口元を検知し、
前記画像認識手段は、前記検知手段による検知結果に基づいて、利用者の口元に動きがあることを画像認識し、
前記音声認識手段は、前記画像認識手段によって利用者の口元に動きがあると画像認識された後に、前記入力手段に入力される音声に対する音声認識処理を開始することを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記画像認識手段は、前記検知手段による検知結果に基づいて、利用者の口元の動きが所定時間ないことを画像認識し、
前記音声認識手段は、前記画像認識手段によって利用者の口元の動きが所定時間ないことを画像認識された場合に、前記入力手段に入力される音声に対する音声認識処理を停止することを特徴とする請求項1に記載の音声認識装置。
【請求項4】
前記音声認識手段は、前記入力手段に所定時間以上音声が入力されていないと判断した場合に、前記入力手段に入力される音声に対する音声認識処理を停止することを特徴とする請求項1〜3のいずれか一つに記載の音声認識装置。
【請求項5】
前記音声認識手段は、前記入力手段に非言語音が入力された場合に、前記入力手段に入力される音声に対する音声認識処理を停止することを特徴とする請求項1〜4のいずれか一つに記載の音声認識装置。
【請求項6】
前記音声認識手段は、前記入力手段に一定の周波数の音声が所定時間以上入力された場合に、前記入力手段に入力される音声に対する音声認識処理を停止することを特徴とする請求項5に記載の音声認識装置。
【請求項7】
前記画像認識手段によって利用者の発話に関する行動状態が画像認識された場合に、前記入力手段の電源をオンにする電源制御手段をさらに備え、
前記音声認識手段は、前記入力手段の電源がオンになってから、前記入力手段に入力される音声に対する音声認識処理を開始することを特徴とする請求項1〜6のいずれか一つに記載の音声認識装置。
【請求項8】
前記電源制御手段は、前記音声認識手段が音声認識処理を停止した場合に、前記入力手段の電源をオフにすることを特徴とする請求項7に記載の音声認識装置。
【請求項9】
請求項1〜8のいずれか一つに記載の音声認識装置を備え、移動体に搭載されるナビゲーション装置であって、
前記検知手段は、前記移動体に搭乗する複数の利用者のうち、少なくとも一人の身体のうち発話時に動作する部位を検知し、
前記画像認識手段は、前記検知手段による検知結果に基づいて、少なくとも一人の発話に関する行動状態を画像認識し、
前記音声認識手段は、前記画像認識手段によって少なくとも一人の発話に関する行動状態が画像認識された後に、前記入力手段に入力される音声に対する音声認識を開始することを特徴とするナビゲーション装置。
【請求項10】
利用者からの音声が入力される入力工程と、
利用者の発話に関する行動状態を検知する検知工程と、
前記検知工程による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する画像認識工程と、
前記画像認識工程によって利用者の発話に関する行動状態が画像認識された後に、前記入力工程にて入力される音声に対する音声認識処理を開始する音声認識工程と、
を含むことを特徴とする音声認識方法。
【請求項11】
請求項10に記載の音声認識方法をコンピュータに実行させることを特徴とする音声認識プログラム。
【請求項12】
請求項11に記載の音声認識プログラムを記録したことを特徴とするコンピュータに読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2009−98217(P2009−98217A)
【公開日】平成21年5月7日(2009.5.7)
【国際特許分類】
【出願番号】特願2007−267128(P2007−267128)
【出願日】平成19年10月12日(2007.10.12)
【出願人】(000005016)パイオニア株式会社 (3,620)
【Fターム(参考)】