説明

音声認識装置

【課題】処理負荷やコストの大幅な増大を招くことなく、制御機器をより適切に制御することが可能な音声認識装置を提供する。
【解決手段】音声認識装置10は、ユーザからの発話音声を入力し、入力した発話音声が予め登録された登録語彙に該当すると認識した場合に、その登録語彙に基づいて制御機器20を制御するもので、登録語彙を記憶した登録語彙記憶部12aと、登録語彙がどの話者によって発話されたかを識別するための複数の音声モデルを記憶した音声モデル記憶部12bと、ユーザによる登録語彙の発話音声が入力された場合に複数の音声モデルから登録語彙がどの話者によって発話されたかを識別する音声認識部13と、登録語彙が特定の話者によって発話された場合と他の話者によって発話された場合とで登録語彙に基づく制御機器20への制御内容を異ならせる制御機器制御部14と、を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置に関する。
【背景技術】
【0002】
近年、ユーザからの発話音声を入力し、入力した発話音声が予め登録された登録語彙に該当すると認識した場合に、認識した登録語彙に応じて制御機器を制御する音声認識装置が知られている。また、大人による登録語彙の発話であるか、子供による登録語彙の発話であるかなどを識別するための音声モデルを複数記憶した音声認識装置についても知られている(特許文献1参照)。
【特許文献1】特開平9−230890号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかし、従来の音声認識装置では、制御機器を適切に制御しているとはいえない。例えば、制御機器が浴室装置であって湯温の設定などを子供にさせないようにチャイルドロック機能がある場合において、子供によってチャイルドロックを解除する登録語彙が発話された場合、チャイルドロックを解除してしまう。このような場合、音声認識装置は、適切な制御を行っているとはいえない。なお、この問題はチャイルドロックが設けられている装置の場合に限らず、チャイルドロックが設けられていない場合においても同様に生じるものである。
【0004】
また、上記のような事情から、子供等の話者を識別する音声認識装置が望まれるが、話者の識別を行うためには、処理負荷やコストの大幅な増大を招くこともあり、望ましいとはいえない。
【0005】
本発明は、上記問題点を解決するために成されたものであり、その目的とするところは、処理負荷やコストの大幅な増大を招くことなく、制御機器をより適切に制御することが可能な音声認識装置を提供することである。
【課題を解決するための手段】
【0006】
本発明に係る音声認識装置は、ユーザからの発話音声を入力し、入力した発話音声が予め登録された登録語彙に該当すると認識した場合に、認識された登録語彙に基づいて制御機器を制御する制御信号を出力する音声認識装置であって、少なくとも1つの登録語彙を記憶した登録語彙記憶手段と、登録語彙記憶手段により記憶される登録語彙が、どの話者によって発話されたかを識別するための複数の音声モデルを記憶した音声モデル記憶手段と、ユーザによる登録語彙の発話音声が入力された場合、音声モデル記憶手段によって記憶された複数の音声モデルから、当該登録語彙がどの話者によって発話されたかを識別する話者識別手段と、話者識別手段により登録語彙が特定の話者によって発話されたと識別された場合と、話者識別手段により登録語彙が特定の話者を除く他の話者によって発話されたと識別された場合とで、登録語彙に基づく制御機器への制御内容を異ならせる制御手段と、を備えている。
【0007】
この音声認識装置によれば、複数の音声モデルに基づいて話者を識別し、登録語彙が特定の話者によって発話された場合と、他の話者による発話であると識別された場合とで制御機器への制御内容を異ならせる。このため、話者に応じて制御信号を異ならせることとなり、話者に応じて制御機器を制御することができ、制御機器を話者に応じて適切に制御することができる。さらに、複数の音声モデルにより話者を識別する手法は、従来の音声認識装置に対して処理量の大幅な増加やハードウェアの追加をする必要性がない。従って、処理負荷やコストの大幅な増大を招くことなく、制御機器をより適切に制御することができる。
【0008】
また、本発明に係る音声認識装置において、音声モデル記憶手段は、登録語彙が子供によって発話されたことを認識する子供音声モデルを記憶し、制御手段は、話者識別手段により登録語彙が子供によって発話されたと識別された場合、話者識別手段により登録語彙が子供を除く他の話者によって発話されたと識別された場合とで、登録語彙に基づく制御機器への制御内容を異ならせることが好ましい。
【0009】
この音声認識装置によれば、子供音声モデルを記憶し、登録語彙が子供によって発話されたと識別した場合と、他の話者によって発話されたと識別した場合とで、制御機器への制御内容を異ならせる。このため、子供用の制御を行うことが可能となり、制御機器がテレビであってテレビの電源をオンする登録語彙が認識された場合に子供向けアニメ等の番組をつけることなどができる。従って、例えば、制御機器の操作が不慣れな子供に対して利便性を向上させることができる。
【0010】
また、本発明に係る音声認識装置において、制御手段は、話者識別手段により登録語彙が子供によって発話されたと識別された場合、制御信号の出力をせず、話者識別手段により登録語彙が子供を除く他の話者によって発話されたと識別された場合、制御信号を出力することが好ましい。
【0011】
この音声認識装置によれば、登録語彙が子供によって発話されたと識別された場合に制御信号の出力をせず、登録語彙が子供を除く他の話者によって発話されたと識別された場合に制御信号を出力する。このため、制御機器が浴室装置である場合に湯温の設定を禁止したり、制御機器がパーソナルコンピュータ等のインターネット接続が可能な機器である場合に成人向けコンテンツへの接続を禁止したりなど、不用意に制御機器を動かしてしまいがちな子供に対して制御機器をより適切に制御することができる。
【0012】
また、本発明に係る音声認識装置において、登録語彙記憶手段は、子供による制御機器の制御を許可するロック解除語彙を登録語彙として記憶し、制御手段は、話者識別手段によりロック解除語彙が子供によって発話されたと識別された場合、子供による制御機器の制御を許可せず、話者識別手段により登録語彙が子供を除く他の話者によって発話されたと識別された場合、子供による制御機器の制御を許可することが好ましい。
【0013】
この音声認識装置によれば、ロック解除語彙を登録語彙として記憶し、ロック解除語彙が子供によって発話されたと識別した場合、子供による制御機器の制御を許可しない。このため、子供によってチャイルドロックが解除されてしまい、子供にとって不適切な制御内容が制御可能となってしまう事態を防止することができる。
【0014】
また、本発明に係る音声認識装置において、音声モデル記憶手段は、登録語彙が高齢者によって発話されたことを認識する高齢者音声モデルを記憶し、制御手段は、話者識別手段により登録語彙が高齢者によって発話されたと識別された場合、制御機器に対して予め登録された高齢者向けの制御をし、話者識別手段により登録語彙が高齢者を除く他の話者によって発話されたと識別された場合、制御機器に対して高齢者向けの制御を行わないことが好ましい。
【0015】
この音声認識装置によれば、高齢者音声モデルを記憶し、登録語彙が高齢者によって発話された識別した場合、制御機器に対して、予め登録された高齢者向けの制御をする。このため、制御機器がパーソナルコンピュータ等の文字を表示するものであって、高齢者からの発話により電源がオンされた場合に、文字を大きく表示することや、制御機器がマッサージ機である場合に、強くマッサージし過ぎないようにすることができる。従って、高齢者向けの制御が可能となって、制御機器をより適切に制御することができる。
【0016】
また、本発明に係る音声認識装置において、音声モデル記憶手段は、特定の登録語彙に対してのみ、複数の音声モデルを記憶していることが好ましい。
【0017】
この音声認識装置によれば、また、特定の登録語彙に対してのみ、複数の音声モデルを記憶しているため、話者を識別する必要がない語彙について、話者の識別処理を省略して処理負荷の軽減を図ることができる。
【発明の効果】
【0018】
本発明によれば、処理負荷やコストの大幅な増大を招くことなく、制御機器をより適切に制御することができる。
【発明を実施するための最良の形態】
【0019】
以下、図面を参照して、本発明の実施の形態を説明する。図1は、本発明の実施形態に係る音声認識装置を含む音声認識システムを示す構成図である。音声認識システム1は、ユーザからの発話音声によって制御機器20を制御するものであって、音声認識装置10と、制御機器20とを備えている。
【0020】
音声認識装置10は、ユーザから音声及びスイッチ操作による入力を受け付け、受け付けた入力内容に応じて制御機器20を制御するための制御信号を出力するものである。この音声認識装置10は、音声により制御機器20を制御できる音声入力モードと、スイッチ操作により制御機器20を制御できるボタン操作入力モードとが選択可能となっている。音声入力モードにおいて、音声認識装置10は、ユーザからの発話音声を入力して、入力した発話音声が予め登録された登録語彙に該当すると認識した場合に、認識した登録語彙に応じて制御機器20を制御する制御信号を出力する。また、ボタン操作入力モードにおいて、音声認識装置10は、ユーザからのスイッチ操作を入力し、スイッチ操作に該当する内容で制御機器20を制御する制御信号を出力する。
【0021】
制御機器20は、音声認識装置10からの制御信号の内容に応じて動作する外部機器である。具体的に制御機器20は、浴室装置21、換気扇22及びテレビ23の3機器からなっており、音声認識装置10からの制御信号に応じて運転したり、運転を停止したりなどする。一例を挙げると、制御機器20の1つであるテレビ23は、音声認識装置10からの制御信号によって、電源がオンされたり、チャンネルが変えられたりする。
【0022】
図2は、図1に示した音声認識装置10の設置例を示す外観図である。図2に示すように、音声認識装置10は、例えば浴室に設けられる。浴室には、浴室装置21(図2において図示せず)、換気扇22、及びテレビ23が設けられている。さらに、浴室の浴槽30付近には、音声認識装置10の構成要素である後述のコントローラ11が設置されている。
【0023】
なお、図1及び図2では、浴室装置21、換気扇22及びテレビ23を制御機器20の一例として挙げたが、これに限らず、制御機器20は、床暖房機器やマッサージ機やパーソナルコンピュータや音響機器など他の機器であってもよい。また、音声認識装置10は浴室に設けられていなくともよく、寝室、リビング、会社のデスク付近及び会議室など、他の箇所に設けられていてもよい。
【0024】
再度、図1を参照する。図1に示すように、音声認識装置10は、コントローラ11と、記憶部12と、音声認識部(話者識別手段)13と、制御機器制御部(制御手段)14と、装置制御部15とを備えている。コントローラ11は、ユーザから音声及びスイッチ操作による入力を受け付けるものである。
【0025】
図3は、図1に示したコントローラ11の詳細を示す正面図である。図3に示すように、コントローラ11は、音声入力部11aと、操作ボタン11bと、表示部11cと、LEDランプ11dとを備えている。なお、表示部11c及びLEDランプ11dは他の要素12〜15,20との接続関係がないため、図1における表示部11c及びLEDランプ11dの図示は省略した。
【0026】
図3に示す音声入力部11aは、マイク等によって構成され、ユーザからの音声入力を受け付けるものである。操作ボタン11bは、ユーザによるスイッチ操作を受け付けるものである。表示部11cは、LCDなどによって構成され、各種制御機器20の動作状況等(例えばふろの温度や現在時刻など)を表示するものである。LEDランプ11dは、現在音声入力モードであるか、ボタン操作入力モードであるかをユーザに提示するものである。このLEDランプ11dは、3つのLEDによって構成され、例えば1つが点灯しているときには音声入力モードであり、他の1つが点灯しているときにはボタン操作入力モードであり、残り1つが点灯しているときには双方のモードの併用状態であることを示す構成となっている。
【0027】
具体的に各種操作ボタン11bを説明する。各種操作ボタン11bは、優先ボタン11b1、追いだきボタン11b2、ふろ自動ボタン11b3、通話ボタン11b4、コントローラオンオフボタン11b5、メニューボタン11b6、確定ボタン11b7、戻るボタン11b8、及び十字キー11b9からなっている。
【0028】
優先ボタン11b1は、浴室で給湯温度やシャワー温度を設定したいときに使用するボタンである。一般的に水や湯は、浴室以外にも台所等で用いられる。このため、浴室装置21の給湯温度やシャワー温度を設定しても他の箇所で水や湯を使用されると、実際の給湯温度やシャワー温度にズレが生じる可能性がある。そこで、優先ボタン11b1を押下することにより、他の箇所よりも浴室を優先し、実際の給湯温度やシャワー温度にズレが生じ難いようにすることができる。また、優先ボタン11b1が押下されると、表示部11cに優先マーク(不図示)が表示される。
【0029】
追いだきボタン11b2は、浴槽30内で冷たくなった湯水の温度を高くするときに使用されるボタンである。また、追いだきボタン11b2が押下されると、表示部11cに追いだきマーク(不図示)が表示される。
【0030】
ふろ自動ボタン11b3は、設定した湯量と温度とで浴槽30内にお湯をはるときに使用されるボタンである。また、ふろ自動ボタン11b3が押下されると、表示部11cに自動マーク(不図示)が表示される。
【0031】
通話ボタン11b4は、浴室外、例えば台所などに設置される台所用リモコンと通話するときに使用されるボタンである。また、通話ボタン11b4が押下されると、表示部11cに通話マーク(不図示)が表示される。
【0032】
コントローラオンオフボタン11b5は、コントローラ11自体の電源をオンオフするためのボタンである。コントローラオンオフボタン11b5により電源がオフされた場合、表示部11cの表示は消去することとなる。
【0033】
メニューボタン11b6は、手入力により制御機器20の動作を設定するためのボタンである。このボタン11b6が押下されると、各制御機器20の動作項目(例えば換気扇オフ、テレビ電源オン、テレビチャンネル+1など)が表示部11cに複数個表示される。ユーザは、これら複数の動作項目から十字キー11b9を操作して1つの動作項目を選択することとなる。
【0034】
確定ボタン11b7は、十字キー11b9を操作して選択された動作項目の動作を制御機器20に実行させる際に押下されるボタンである。戻るボタン11b8は、表示部11cに表示される画面を1つ前の状態に戻すときなどに使用されるボタンである。例えば、表示部11c上に動作項目を3つ程度しか表示できない場合、十字キー11b9を操作することにより、表示画面を次の画面に移行させて新たな動作項目を表示させることができる。この状態において、戻るボタン11b8を押下すれば、移行した画面を元に戻して、前回画面の動作項目を表示部11cに表示させることができる。
【0035】
十字キー11b9は、給湯温度やシャワー温度の温度設定、及び湯量の設定などに用いられるボタンである。また、十字キー11b9は、表示部11cにより表示される動作項目の選択にも用いられる。
【0036】
さらに、本実施形態では、コントローラ11の操作ボタン11bを操作することにより、音声入力モードと、ボタン操作入力モードとを選択可能となっている。具体的にユーザは、メニューボタン11b6を操作し、表示部11cに表示される入力モードを選択することによって、音声入力モードとボタン操作入力モードとを選択することができる。
【0037】
再度、図1を参照する。記憶部12は、音声認識に必要となる情報を記憶したものであり、登録語彙記憶部(登録語彙記憶手段)12aと、音声モデル記憶部(音声モデル記憶手段)12bとを備えている。登録語彙記憶部12aは、少なくとも1つの登録語彙を記憶したものであり、例えば「チャイルドロック」、「ロック解除(ロック解除語彙)」、「湯温1℃アップ」、「テレビ電源オン」、「テレビ電源オフ」、及び「モード切替」などの登録語彙を記憶している。
【0038】
音声モデル記憶部12bは、登録語彙が、どの話者によって発話されたかを識別するための複数の音声モデルを記憶したものである。具体的に音声モデル記憶部12bは、登録語彙が子供によって発話されたことを識別する子供音声モデルと、登録語彙が大人によって発話されたことを識別する大人音声モデルと、登録語彙が高齢者によって発話されたことを識別する高齢者音声モデルとを記憶している。なお、本実施形態において子供とは幼児、小学生など12歳以下の子供を意味し、高齢者とは60歳以上の成人を意味し、大人とは13歳以上59歳以下の成人を意味している。しかし、子供、高齢者及び大人は、これらに限らず、制御機器20の用途や音声認識システム1の用いられる環境にあわせて、年齢等は変更可能である。さらに、音声モデルは、特に子供、大人、高齢者による発話を識別するものに限らず、男性や女性を識別したり、同じ大人であってもAさんやBさんなど特定人を識別したりするものであってもよい。
【0039】
ここで、記憶部12の記憶内容をさらに詳細に説明する。図4は、図1に示した記憶部12の記憶内容の一例を示す概念図である。図4に示すように、登録語彙記憶部12aは、「チャイルドロック」、「ロック解除」、「湯温1℃アップ」、「テレビ電源オン」、「テレビ電源オフ」、及び「モード切替」などの登録語彙を記憶している。「チャイルドロック」は、子供にとって不適切な制御機器20の制御を行わせないようにするための登録語彙である。「ロック解除」は、「チャイルドロック」によるロック状態を解除するための登録語彙である。「湯温1℃アップ」は、浴室装置21による給湯及びシャワーの設定温度を1度上げるための登録語彙である。「テレビ電源オン」及び「テレビ電源オフ」は、それぞれテレビ23の電源をオンオフするための登録語彙である。「モード切替」は、音声入力モードからボタン操作入力モードへ移行させるための登録語彙である。
【0040】
また、音声モデル記憶部12bは、登録語彙毎に1又は複数の音声モデルを記憶している。具体的に、音声モデル記憶部12bは、「ロック解除」、「湯温1℃アップ」、及び「テレビ電源オン」に対して、子供音声モデル、大人音声モデル、及び高齢者音声モデルを対応付けて記憶している。
【0041】
また、音声モデル記憶部12bは、子供、大人及び高齢者などの区別がない一般音声モデルを記憶している。この一般音声モデルは、「チャイルドロック」、「テレビ電源オフ」、及び「モード切替」に対応付けて記憶されている。このように、音声モデル記憶部12bは、特定の登録語彙に対してのみ、複数の音声モデルを記憶している。
【0042】
再度、図1を参照する。音声認識部13は、音声入力モード中に音声入力部11aを介して入力されたユーザからの発話音声が予め登録される登録語彙に該当するか否かを判断するものである。さらに、音声認識部13は、ユーザからの発話音声が登録語彙に該当するか否かを判断するのみならず、音声モデル記憶部12bに記憶される複数の音声モデルに基づいて、登録語彙がどの話者によって発話されたかを識別する構成となっている。すなわち、音声認識部13は、ユーザからの発話音声が登録語彙に該当する否か、及び、話者の識別の2処理を行う構成となっている。
【0043】
以下、音声認識部13による登録語彙の認識及び話者の識別方法の一例を説明する。まず、子供により「ロック解除」が発話されたとする。このとき、音声認識部13は、図4に示す記憶内容に沿ってどの登録語彙がどの話者によって発話されたか判断することとなる。まず、音声認識部13は、一般音声モデルに基づく「チャイルドロック」という登録語彙と、ユーザからの発話音声との一致度を算出する。その後、音声認識部13は、子供音声モデルに基づく「ロック解除」、大人音声モデルに基づく「ロック解除」、及び高齢者音声モデルに基づく「ロック解除」との一致度を算出する。さらに、音声認識部13は、他の登録語彙についても音声モデル毎に一致度を算出する。これにより、音声認識部13は、一致度を算出し、最も一致度が高い登録語彙及び音声モデルを判断する。
【0044】
ここでは、子供により「ロック解除」が発話されている。このため、ユーザからの発話音声は、子供音声モデルに基づく「ロック解除」と最も一致度が高いこととなり、音声認識部13は、最も一致度が高い「ロック解除」が子供により発話されたと判断する。そして、音声認識部13は、認識した「ロック解除」の登録語彙の情報を制御機器制御部14に出力すると共に、登録語彙が子供により発話されたこと、すなわち、話者に関する情報を制御機器制御部14に出力することとなる。
【0045】
なお、音声認識部13は、「チャイルドロック」など、複数の音声モデルと対応付けられていない登録語彙に関しては、一般音声モデルのみに基づいて、発話が「チャイルドロック」であったか否かを判断することとなる。このため、ユーザからの発話音声が「チャイルドロック」に該当した場合、話者は識別されないこととなり、音声認識部13は、話者に関する情報を制御機器制御部14に出力しないこととなる。
【0046】
また、音声認識部13は、所定の閾値を有しており、入力した音声の音圧が雑音によるものなど所定の閾値未満である場合、登録語彙に該当するか否か、及び話者の識別の判断を行わない構成となっている。
【0047】
制御機器制御部14は、制御機器20の動作を制御するものである。制御機器制御部14は、例えば音声認識部13からテレビ23の電源をオフする旨の信号を受信した場合、テレビ23に対して電源をオフする制御信号を出力する。これにより、テレビ23の電源はオフすることとなる。
【0048】
また、制御機器制御部14は、音声認識部13により「ロック解除」などの登録語彙が特定の話者によって発話されたと識別された場合と、他の話者による発話されたと識別された場合とで、制御機器20への制御内容を異ならせる。なお、制御機器20への制御内容を異ならせるとは、制御信号の出力制御を異ならせるという意味であって、出力する制御信号の種類を異ならせる場合のみならず、制御信号の出力を禁止することも含む概念である。
【0049】
制御機器20への制御内容を異ならせる一例を説明する。例えば、制御機器制御部14は、音声認識部13により「ロック解除」の登録語彙が大人や高齢者によって発話されたと識別された場合、チャイルドロックによるロック状態を解除する制御信号を出力する。一方、制御機器制御部14は、「ロック解除」の登録語彙が特定の話者である子供によって発話されたと識別された場合、ロック状態の解除する制御信号を出力せず、ロック状態を維持し続ける。このように、制御機器制御部14は、登録語彙に基づく制御機器20に対する制御を異ならせて、子供にとって不適切な制御機器20の制御が可能となってしまう事態を防止する。なお、制御機器制御部14は、音声認識部13により「テレビ電源オン」などの他の登録語彙が子供によって発話されたと識別された場合、テレビ23等の制御機器の操作に不慣れな子供のために、テレビ23の電源オンと同時に、子供向けアニメ等の番組をつけることなどをしてもよい。
【0050】
さらに、制御機器制御部14は、子供による発話の場合のみ、制御機器20への制御内容を異ならせるわけでなく、高齢者による発話によっても、制御機器20への制御内容を異ならせてもよい。例えば、制御機器制御部14は、音声認識部13により「テレビ電源オン」の登録語彙が子供や大人によって発話されたと識別された場合、単にテレビ23の電源をオンさせる制御信号を出力する。一方、制御機器制御部14は、「テレビ電源オン」の登録語彙が特定の話者である高齢者によって発話されたと識別された場合、テレビ23の電源をオンさせると共に、テレビ23が字幕等のデータを受信している場合には、字幕を大きくして、高齢者向けの制御を行う制御信号を出力する。これにより、高齢者向けの制御ができ、制御機器20より適切に制御することとなる。
【0051】
装置制御部15は、操作ボタン11bによって入力された入力内容を認識して、その旨の信号を制御機器制御部14に出力するものである。例えばふろ自動ボタン11b3が操作された場合、装置制御部15は、自動に湯をはる旨の信号を制御機器制御部14に出力する。これにより、制御機器制御部14は、設定温度及び設定湯量で湯をはる旨の制御信号を浴室装置21に出力する。そして、浴室装置21は、設定温度及び設定湯量で湯をはることとなる。
【0052】
次に、本実施形態に係る音声認識装置10の動作の概略を説明する。まず、ユーザが操作ボタン11bを操作して音声認識装置10をボタン操作入力モードから音声入力モードに移行させる。これにより、ユーザは、発話によって制御機器20を制御可能となる。
【0053】
そして、大人や高齢者により「ロック解除」と発話されたとする。この場合、音声認識部13は、大人や高齢者によって「ロック解除」と発話されたと判断し、その登録語彙の情報と話者(大人や高齢者)の情報とを制御機器制御部14に送信する。これにより、制御機器制御部14は、制御機器20のロック状態を解除することとなる。
【0054】
また、子供により「ロック解除」と発話されたとする。この場合、音声認識部13は、子供によって「ロック解除」と発話されたと判断し、その登録語彙の情報と話者(子供)の情報とを制御機器制御部14に送信する。これにより、制御機器制御部14は、大人や高齢者によって「ロック解除」と発話された場合と制御を異ならせることとなる。すなわち、制御機器制御部14は、制御機器20のロック状態を解除せず、ロック状態を維持することとなる。
【0055】
さらに、大人により「テレビ電源オン」と発話されたとする。この場合、音声認識部13は、大人によって「テレビ電源オン」と発話されたと判断し、その登録語彙の情報と話者(子供や大人)の情報とを制御機器制御部14に送信する。これにより、制御機器制御部14は、テレビ23の電源をオンさせることとなる。
【0056】
また、子供により「テレビ電源オン」と発話されたとする。この場合、音声認識部13は、子供によって「テレビ電源オン」と発話されたと判断し、その登録語彙の情報と話者(子供)の情報とを制御機器制御部14に送信する。これにより、制御機器制御部14は、大人によって「テレビ電源オン」と発話された場合と制御を異ならせることとなる。すなわち、制御機器制御部14は、単にテレビ23の電源をオンするだけでなく、テレビ23を子供向けの番組をつけ、子供向けの制御をすることとなる。
【0057】
また、高齢者により「テレビ電源オン」と発話されたとする。この場合、音声認識部13は、高齢者によって「テレビ電源オン」と発話されたと判断し、その登録語彙の情報と話者(高齢者)の情報とを制御機器制御部14に送信する。これにより、制御機器制御部14は、子供や大人によって「テレビ電源オン」と発話された場合と制御を異ならせることとなる。すなわち、制御機器制御部14は、単にテレビ23の電源をオンするだけでなく、テレビ23の字幕を大きくして、高齢者向けの制御をすることとなる。
【0058】
次に、本実施形態に係る音声認識装置10の詳細動作を説明する。図5は、図1に示した音声認識装置10の動作の詳細を示すフローチャートである。なお、図5に示す処理は音声認識装置10の電源がオフされるまで繰り返される。
【0059】
図5に示すように、まず、音声認識部13は、ユーザからの発話音声を入力したか否かを判断する(S1)。この際、音声認識部13は、入力した音声の音圧と所定の閾値とに基づいて発話音声が入力したか否かを判断する。ユーザからの発話音声を入力しなかったと判断した場合(S1:NO)、すなわち、所定の閾値未満の音圧を有する音声が入力した場合、処理はステップS1の処理を繰り返すこととなる。
【0060】
一方、ユーザからの発話音声を入力したと判断した場合(S1:YES)、すなわち、所定の閾値以上の音圧を有する音声が入力した場合、音声認識部13は、音声認識処理を実行する(S2)。この音声認識処理において、ユーザからの発話音声は、どの登録語彙に該当するか、並びに、話者は子供、大人、及び高齢者のいずれかであったかが判断されることとなる。
【0061】
その後、音声認識部13は、ユーザからの発話音声が登録語彙に該当したか否かを判断する(S3)。ユーザからの発話音声が登録語彙に該当しなかったと判断した場合(S3:NO)、処理はステップS1に移行する。一方、ユーザからの発話音声が登録語彙に該当したと判断した場合(S3:YES)、音声認識部13は、話者が子供であったか否かを判断する(S4)。すなわち、音声認識部13は、子供音声モデルにより発話音声が認識されたか否かを判断することとなる。
【0062】
子供音声モデルにより発話音声が認識された場合(S4:YES)、制御機器制御部14は、子供向けの制御を行う(S6)。例えば、「ロック解除」の登録語彙が認識されたとしても、ロックを解除する旨の制御信号を制御機器20に出力することなく、子供にとって適切な制御を行う。その後、図5に示す処理は終了する。
【0063】
一方、子供音声モデルにより発話音声が認識されなかった場合(S4:NO)、音声認識部13は、話者が高齢者であったか否かを判断する(S5)。すなわち、音声認識部13は、高齢者音声モデルにより発話音声が認識されたか否かを判断することとなる。
【0064】
高齢者音声モデルにより発話音声が認識された場合(S5:YES)、制御機器制御部14は、高齢者向けの制御を行う(S6)。例えば、「テレビ電源オン」の登録語彙が認識された場合に、テレビ23の電源をオンするだけでなく、字幕等の文字を大きく表示するなど、テレビ23に出力する制御信号の内容を変更して、高齢者にとって適切な制御を行う。その後、図5に示す処理は終了する。
【0065】
一方、高齢者音声モデルにより発話音声が認識されなかった場合(S5:NO)、登録語彙は、大人音声モデル又は一般音声モデルによって認識されたこととなる。このため、制御機器制御部14は、通常の制御を行う(S7)。その後、図5に示す処理は終了する。
【0066】
このようにして、本実施形態に係る音声認識装置10によれば、複数の音声モデルに基づいて話者を識別し、登録語彙が特定の話者によって発話された場合と、他の話者による発話であると識別された場合とで制御機器20への制御内容を異ならせる。このため、話者に応じて制御信号を異ならせることとなり、話者に応じて制御機器20を制御することができ、制御機器20を話者に応じて適切に制御することができる。さらに、複数の音声モデルにより話者を識別する手法は、従来の音声認識装置に対して処理量の大幅な増加やハードウェアの追加をする必要性がない。従って、処理負荷やコストの大幅な増大を招くことなく、制御機器20をより適切に制御することができる。
【0067】
また、子供音声モデルを記憶し、登録語彙が子供によって発話されたと識別した場合と、他の話者によって発話されたと識別した場合とで、制御機器20への制御内容を異ならせる。このため、子供用の制御を行うことが可能となり、制御機器20がテレビ23であってテレビ23の電源をオンする登録語彙が認識された場合に子供向けアニメ等の番組をつけることなどができる。従って、例えば、制御機器20の操作が不慣れな子供に対して利便性を向上させることができる。
【0068】
また、登録語彙が子供によって発話されたと識別された場合に制御信号の出力をせず、登録語彙が子供を除く他の話者によって発話されたと識別された場合に制御信号を出力する。このため、制御機器20が浴室装置21である場合に湯温の設定を禁止したり、制御機器20がパーソナルコンピュータ等のインターネット接続が可能な機器である場合に成人向けコンテンツへの接続を禁止したりなど、不用意に制御機器20を動かしてしまいがちな子供に対して制御機器20をより適切に制御することができる。
【0069】
また、ロック解除語彙を登録語彙として記憶し、ロック解除語彙が子供によって発話された識別した場合、子供による制御機器20の制御を許可しない。このため、子供によってチャイルドロックが解除されてしまい、子供にとって不適切な制御内容が制御可能となってしまう事態を防止することができる。
【0070】
また、高齢者音声モデルを記憶し、登録語彙が高齢者によって発話された識別した場合、制御機器20に対して、予め登録された高齢者向けの制御をする。このため、制御機器20がパーソナルコンピュータ等の文字を表示するものであって、高齢者からの発話により電源がオンされた場合に、文字を大きく表示することや、制御機器20がマッサージ機である場合に、強くマッサージし過ぎないようにすることができる。従って、高齢者向けの制御が可能となって、制御機器20をより適切に制御することができる。
【0071】
また、特定の登録語彙に対してのみ、複数の音声モデルを記憶しているため、話者を識別する必要がない語彙について、話者の識別処理を省略して処理負荷の軽減を図ることができる。
【0072】
以上、本発明に係る音声認識装置を実施形態に基づいて説明したが、本発明はこれに限定されるものではなく、本発明の趣旨を逸脱しない範囲で、変更を加えてもよい。
【0073】
例えば、本実施形態では、テレビ23の字幕を大きくすることを高齢者向けの制御の一例として説明したが、高齢者向けの制御はこれに限られるものではない。例えば、「テレビ電源オン」の登録語彙を高齢者音声モデルにより認識した場合、テレビ23の電源をオンすることにあわせて、テレビ23の音量を大きくするようにしてもよい。また、制御機器20がパーソナルコンピュータである場合にも同様に、文字等のフォントを大きくしたり、音量を大きくしたりしてもよい。また、制御機器20が、パーソナルコンピュータ等の音声ガイダンスを流す機器である場合、ガイダンス音声を比較的ゆっくりと流すようにしてもよい。さらに、制御機器20がマッサージ機である場合、強くマッサージし過ぎないようにしてもよい。
【0074】
また、本実施形態では、「ロック解除」を子供音声モデルにより認識した場合、ロックを解除しないこと等を、子供向けの制御として説明したが、子供向けの制御は、これに限られるものではない。例えば、テレビ23やパーソナルコンピュータ等によって、子供が成人向けの番組やコンテンツを視聴しようとした場合に、視聴を禁止するように制御を行ってもよいし、子供がウェブブラウザや動画検索サイトにおいて検索を行った場合に、検索結果から成人向けコンテンツを取り除くフィルタを機能させるようにしてもよい。
【0075】
また、本実施形態では、大人、子供及び高齢者を識別する例を説明したが、これに限らず、例えば男性や女性、AさんやBさんなどの特定人を識別するようにされていてもよい。この場合、制御機器20を男性向けにカスタマイズしたり、女性用にカスタマイズしたりすることができる。同様に、制御機器20が音響機器であって、Aさんの発話により電源がオンされた場合に、Aさんが好み重低音を大きくすることなどできる。
【0076】
また、本実施形態では、操作ボタン11bを操作することにより音声入力モードとボタン操作入力モードと切り替え可能となっているが、これに限らず、音声入力モード中には、発話によりボタン操作入力モードへ移行させるようにしてもよい。
【図面の簡単な説明】
【0077】
【図1】本発明の実施形態に係る音声認識装置を含む音声認識システムを示す構成図である。
【図2】図1に示した音声認識装置の設置例を示す外観図である。
【図3】図1に示したコントローラの詳細を示す正面図である。
【図4】図1に示した記憶部の記憶内容の一例を示す概念図である。
【図5】図1に示した音声認識装置の動作の詳細を示すフローチャートである。
【符号の説明】
【0078】
1 音声認識システム
10 音声認識装置
11 コントローラ
11a 音声入力部
11b 操作ボタン
11c 表示部
11d LEDランプ
12 記憶部
12a 登録語彙記憶部
12b 音声モデル記憶部
13 音声認識部
14 制御機器制御部
15 装置制御部
20 制御機器
21 浴室装置
22 換気扇
23 テレビ

【特許請求の範囲】
【請求項1】
ユーザからの発話音声を入力し、入力した発話音声が予め登録された登録語彙に該当すると認識した場合に、認識された登録語彙に基づいて制御機器を制御する制御信号を出力する音声認識装置であって、
少なくとも1つの前記登録語彙を記憶した登録語彙記憶手段と、
前記登録語彙記憶手段により記憶される前記登録語彙が、どの話者によって発話されたかを識別するための複数の音声モデルを記憶した音声モデル記憶手段と、
ユーザによる前記登録語彙の発話音声が入力された場合、前記音声モデル記憶手段によって記憶された複数の音声モデルから、当該登録語彙がどの話者によって発話されたかを識別する話者識別手段と、
前記話者識別手段により前記登録語彙が特定の話者によって発話されたと識別された場合と、前記話者識別手段により前記登録語彙が特定の話者を除く他の話者によって発話されたと識別された場合とで、前記登録語彙に基づく制御機器への制御内容を異ならせる制御手段と、
を備えることを特徴とする音声認識装置。
【請求項2】
前記音声モデル記憶手段は、前記登録語彙が子供によって発話されたことを認識する子供音声モデルを記憶し、
前記制御手段は、前記話者識別手段により前記登録語彙が子供によって発話されたと識別された場合、前記話者識別手段により前記登録語彙が子供を除く他の話者によって発話されたと識別された場合とで、前記登録語彙に基づく制御機器への制御内容を異ならせる
ことを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記制御手段は、前記話者識別手段により前記登録語彙が子供によって発話されたと識別された場合、制御信号の出力をせず、前記話者識別手段により前記登録語彙が子供を除く他の話者によって発話されたと識別された場合、制御信号を出力する
ことを特徴とする請求項2に記載の音声認識装置。
【請求項4】
前記登録語彙記憶手段は、子供による制御機器の制御を許可するロック解除語彙を前記登録語彙として記憶し、
前記制御手段は、前記話者識別手段により前記ロック解除語彙が子供によって発話されたと識別された場合、子供による制御機器の制御を許可せず、前記話者識別手段により前記登録語彙が子供を除く他の話者によって発話されたと識別された場合、子供による制御機器の制御を許可する
ことを特徴とする請求項3に記載の音声認識装置。
【請求項5】
前記音声モデル記憶手段は、前記登録語彙が高齢者によって発話されたことを認識する高齢者音声モデルを記憶し、
前記制御手段は、前記話者識別手段により前記登録語彙が高齢者によって発話されたと識別された場合、前記制御機器に対して予め登録された高齢者向けの制御をし、前記話者識別手段により前記登録語彙が高齢者を除く他の話者によって発話されたと識別された場合、前記制御機器に対して前記高齢者向けの制御を行わない
ことを特徴とする請求項1から請求項4のいずれか1項に記載の音声認識装置。
【請求項6】
前記音声モデル記憶手段は、特定の登録語彙に対してのみ、前記複数の音声モデルを記憶している
ことを特徴とする請求項1から請求項5のいずれか1項に記載の音声認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2009−104020(P2009−104020A)
【公開日】平成21年5月14日(2009.5.14)
【国際特許分類】
【出願番号】特願2007−277232(P2007−277232)
【出願日】平成19年10月25日(2007.10.25)
【出願人】(000005832)パナソニック電工株式会社 (17,916)
【Fターム(参考)】