説明

音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機

【課題】ローカル型と分散型の音声認識の切り替えをユーザに意識させることなく、音声認識の使い分けを実現することである。
【解決手段】実施形態の音声認識装置は、音声を入力する音声入力手段と、当該音声入力手段に入力された音声を認識する第1の音声認識手段と、外部サーバと通信する通信手段と、当該通信手段で接続された外部サーバ上で前記音声入力手段に入力された音声を認識する第2の音声認識手段と、リモコン信号を入力するリモコン信号入力手段と、当該リモコン信号入力手段に入力されたリモコン信号から認識開始指示を検出した場合は前記第2の音声認識手段で前記音声入力手段に入力された音声を認識し、前記音声入力手段に入力された音声から認識開始指示を検出した場合は前記第1の音声認識手段で前記音声入力手段に入力された音声を認識するよう第1と第2の音声認識手段を切り替える音声認識切替手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機に関する。
【背景技術】
【0002】
手による機器操作や文字入力の代替手段として、ユーザの音声を認識して所望の動作を実現する音声認識がある。従来、音声認識には、対象機器内で閉じて音声認識処理を行うローカル型の音声認識が用いられてきた。これに対し近年、ネットワークの大容量化、分散処理技術の進歩により、機器のマイクに入力されたユーザの音声(もしくは音声から抽出した特徴量)をネットワーク経由で外部サーバに送信し、外部サーバ上で音声認識処理の一部を行う分散型の音声認識が普及しつつある。
【0003】
ローカル型音声認識と分散型音声認識は、対照的な特徴を持つ。ローカル型音声認識は、外部サーバと接続せずに使用できるためレスポンスが早いが、ローカルに使用できる処理能力の制限により大規模な認識語彙への対応が困難である。これに対し、分散型音声認識は、高い処理能力を持つ外部サーバを分散的に利用できるため大規模な認識語彙に対応することができるが、外部サーバとの接続が必要となるためレスポンスが遅くなる。
【0004】
このように、ローカル型音声認識と分散型音声認識は対照的な特徴を持つため、音声認識を使用する目的に応じて使い分けることが望ましい。従来の技術では、リモコンのボタン押下等によって分散型を使うのかローカル型を使うのかを切り替えており、ユーザ自身が音声認識の切り替えを明確に意識する必要があった。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特表2002−540479号公報
【特許文献2】特開2002−182896号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
発明が解決しようとする課題は、ローカル型と分散型の音声認識の切り替えをユーザに意識させることなく、音声認識の使い分けを実現することである。
【課題を解決するための手段】
【0007】
実施形態の音声認識装置は、音声を入力する音声入力手段と、当該音声入力手段に入力された音声を認識する第1の音声認識手段と、外部サーバと通信する通信手段と、当該通信手段で接続された外部サーバ上で前記音声入力手段に入力された音声を認識する第2の音声認識手段と、リモコン信号を入力するリモコン信号入力手段と、当該リモコン信号入力手段に入力されたリモコン信号から認識開始指示を検出した場合は前記第2の音声認識手段で前記音声入力手段に入力された音声を認識し、前記音声入力手段に入力された音声から認識開始指示を検出した場合は前記第1の音声認識手段で前記音声入力手段に入力された音声を認識するよう第1と第2の音声認識手段を切り替える音声認識切替手段とを備える。
【図面の簡単な説明】
【0008】
【図1】第1の実施形態の音声認識装置を示すブロック図。
【図2】第1の実施形態のテレビの外観を示した模式図。
【図3】第1の実施形態のテレビおよび音声認識装置のハードウェア構成を示す図。
【図4】第1の実施形態の音声認識装置の処理の全体の流れを示すフローチャート。
【図5】第1の実施形態の認識語彙のリストを示す図。
【図6】第1の実施形態の認識語彙のリストを示す図。
【図7】第1の実施形態のN件の認識結果のリストを示す図。
【図8】第1の実施形態の番組検索結果のリストを示す図。
【図9】第1の実施形態のN件の認識結果のリストを示す図。
【図10】第2の実施形態の音声認識装置を示すブロック図。
【図11】第2の実施形態のテレビの外観を示した模式図。
【図12】第2の実施形態の音声認識装置の処理の全体の流れを示すフローチャート。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について図面を参照しながら説明する。
【0010】
(第1の実施形態)
図1は、第1の実施形態にかかるテレビ受像機200に内蔵された音声認識装置100を示すブロック図である。図2は、テレビ受像機200の外観を示した模式図である。第1の実施形態では、ユーザが音声でテレビを操作したり番組名等の情報を検索したりする状況を想定しており、音声認識装置100はテレビ受像機200の本体に内蔵される。本実施形態の音声認識装置100は、ローカル型の第1の音声認識部101と分散型の第2の音声認識部102を備えている。これらの音声認識は、ユーザによって音声認識を開始する旨の指示(認識開始指示)が出された場合に起動する。本実施形態においてユーザは、リモコンのボタン押下もしくは所定の合図音のいずれかの操作によって認識開始指示を出すことができる。所定の合図音は、ユーザの音声、ユーザの動作で発生する動作音などである。音声認識装置100は、検出された認識開始指示に応じてユーザの音声の認識に使用する音声認識部を切り替える。具体的には、リモコンによる認識開始指示を検出した場合は第2の音声認識部102を、合図音による認識開始指示を検出した場合には第1の音声認識部101を使用する。
【0011】
図2のテレビ受像機200は、テレビ本体を支持する筐体201と、情報を表示するディスプレイ202と、リモコンからの赤外線を受信する赤外線受信部203と、ユーザの音声(合図音を含む)を取得する2本のマイク204と、制御信号を赤外線で送信するリモコン205とを備える。図1の音声認識装置100は、リモコンからの信号を入力するリモコン信号入力部103と、音声(合図音を含む)を入力する音声入力部104と、音声入力部104が取得した音声から合図音を検出する合図音検出部105と、リモコン信号入力部103が取得したリモコン信号と合図音検出部105が検出した合図音とに応じて音声認識を切り替える音声認識切替部106と、ローカル型の第1の音声認識部101と、分散型の第2の音声認識部102と、外部サーバ110と通信する通信部107とを備える。第1の音声認識部101および第2の音声認識部102の認識結果は、テレビの操作等を行うテレビ操作部108に送信される。テレビ操作部108は、テレビ受像機200に内蔵されている。更に、分散型の第2の音声認識部102は、通信部107を介して外部サーバ110と接続しており、外部サーバ110は、音声認識装置100と通信する通信部111と、音声認識処理の一部を実行するサーバ処理部112とを備える。
【0012】
音声認識装置100および外部サーバ110は、図3に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部130と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部131と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部132と、ユーザの指示入力を受け付ける操作部133と、外部装置との通信を制御する通信部134と、これらを接続するバス135とを備えている。さらに、音声認識装置100には、音声が入力されるマイクなどの音声入力部136が接続される。ここで、外部サーバ110は、複数台のハードウェアで構成できる。
【0013】
このようなハードウェア構成において、制御部130がROM等の記憶部131や外部記憶部132に記憶された各種プログラムを実行することにより以下の機能が実現される。
【0014】
音声認識装置100のリモコン信号入力部103は、赤外線受信部203を介してリモコン205のボタン押下によって発せられた認識開始指示を取得する。認識開始指示とは、ユーザからの音声認識を開始する旨の指示を表している。音声認識装置100の音声入力部104は、2本のマイク204を介してユーザの音声もしくは合図音を取得する。音声入力部104は、マイクアレー技術を用いて、認識開始指示の到来方向の推定およびこの推定方向への指向性付与を実行できる。合図音検出部105は、音声入力部104が取得した音声からユーザの認識開始指示である合図音を検出する。音声認識切替部106は、リモコン信号入力部103もしくは合図音検出部105で検出された認識開始指示に応じて、使用する音声認識部を切り替える。本実施形態では、合図音による認識開始指示が検出された場合はローカル型の第1の音声認識部101を、リモコンによる認識開始指示が検出された場合は分散型の第2の音声認識部102を使用する。第2の音声認識部102は、通信部107を介して外部サーバ110と接続しており、音声認識処理の一部を外部サーバ110のサーバ処理部112で実行する。通信部107および通信部111は有線もしくは無線のネットワークで接続される。テレビ受像機200のテレビ操作部108は、第1の音声認識部101もしくは第2の音声認識部102で得られた認識結果を取得し、チャンネル切替等のテレビ受像機の操作や番組名等の情報検索を行う。テレビ操作部108から出力される認識結果や各種情報はディスプレイ202に表示される。
【0015】
このように構成された第1の実施形態にかかる音声認識装置100の動作について説明する。図4は、第1の実施形態における音声認識装置100の処理の全体の流れを示すフローチャートである。本実施形態における音声認識装置100は、テレビ受像機200に内蔵されており、ユーザが音声でテレビを操作したり番組名等の情報を検索したりすることを実現する。ここで、テレビ受像機の操作をする場合は合図音を使って、情報を検索する場合はリモコンを使って認識開始指示を出すようマニュアルでユーザに通知しておく。テレビ受像機の操作には、例えば100〜200程度の小規模な語彙が必要であり、その性質上早急なレスポンスが求められる。一方、情報検索には、例えば10万程度の大規模な語彙が必要であり、十分な計算機リソースを利用した認識精度の確保が求められる。したがって、テレビ受像機の操作の場合はローカル型の第1の音声認識部101を、情報検索の場合は分散型の第2の音声認識部102を使用してユーザの音声を認識する。さらに、第2の音声認識部102は、認識結果に正解が含まれる確率を高めるため、正解候補として尤度が高い順にN件の認識結果(Nは2以上)を出力する。以下、図4のフローチャートにおける各ステップの詳細を説明する。
【0016】
まず、音声認識装置100は、ユーザからの認識開始指示を待つ(ステップS1)。本実施形態において、ユーザは、リモコンのボタン押下による認識開始指示もしくは合図音による認識開始指示を行うことができる。
【0017】
本実施形態では、リモコンのボタン押下による認識開始指示を可能にするため、リモコンの所定ボタンに認識開始を指示する制御信号を割り当てる。音声認識切替部106は、リモコン信号入力部103で取得された信号に制御信号が含まれるか否かを判別し、制御信号が含まれていると判別した場合、ユーザからの認識開始指示を検出したものとする(ステップS2)。
【0018】
合図音による認識開始指示の場合、合図音検出部105は、音声入力部104が取得した信号からユーザの認識開始指示を検出し、検出結果を音声認識切替部106に送信する。ここで、合図音としては、特定単語(例えば、「テレビくん」)を発声したユーザの音声、もしくは手のひらを2回叩く、親指と中指で音を鳴らすなどの動作音が考えられる。特定単語を発声したユーザの音声を合図音として使用する場合、合図音検出部105は、特定単語を認識語彙として登録したローカル型の第1の音声認識部101を起動させておく。そして、この特定単語に対する認識の尤度が所定値より大きくなった場合に、ユーザの認識開始指示を検出したものとする(ステップS2)。ここで、合図音検出部105は、第1の音声認識部101以外の音声認識を用いて特定単語を認識してもよい。
【0019】
ユーザの動作音を合図音として使用する場合、合図音検出部105は、音声入力部104で取得した信号のレベルを抽出する。そして、このレベルが所定値を超えたか否か、所定値を超えるレベルが連続して2回発生したか否か等の、予め決められた動作音検出のルールに基づいて認識開始指示を検出する(ステップS2)。例えば、認識開始指示として拍手を使用する場合、信号のレベルが2回連続して所定値を超えたか否か、を動作音検出のルールとして用いる。これにより、物を落とす、ドアを閉める等といった単発的な音に対する語検出を防ぐことができる。
【0020】
音声認識切替部106は、検出された認識開始指示に応じて使用する音声認識を切り替える(ステップS3)。本実施形態では、音声入力部104の信号から認識開始指示を検出した場合(ユーザが合図音で認識開始指示を行った場合)はローカル型の第1の音声認識部101を、リモコン信号入力部103の信号から認識開始指示を検出した場合(ユーザがリモコンで認識開始指示を行った場合)は分散型の第2の音声認識部102を使用する。
【0021】
第1の音声認識部101を使用した場合の音声認識処理(ステップS4)について説明する。ローカル型の第1の音声認識部101は、100〜200程度の比較的小規模な認識語彙を対象としており、テレビ受像機200の操作に利用される。第1の音声認識部101に登録された認識語彙は、図5のようなテレビのチャンネル切替、音量調節、電源オン/オフや、図6のような天気予報、ニュースなどの各種情報画面の起動など、テレビ受像機200の操作に関する語彙である。これらの認識語彙は、予め固定的に保持していてもよいし、各種情報の見出しなどを解析して動的に生成してもよい。そして、第1の音声認識部101は、音声入力部104に入力されたユーザの音声からMFCC(Mel-Frequency Cepstral Coefficient)などの特徴量の抽出と、特徴量と音響モデルの照合とを行い、最も尤度が高い認識語彙を認識結果としてテレビ操作部108に出力する。そして、テレビ操作部108は、認識結果に応じたテレビ受像機の操作とディスプレイ202への表示画面出力を実行する(ステップS11)。
【0022】
次に、第2の音声認識部102を使用した場合の音声認識処理(ステップS5)について説明する。第2の音声認識部102は、分散型音声認識であり10万程度の大規模な認識語彙を対象とした情報検索に利用される。第2の音声認識部102の認識語彙は、EPG(Electronic Program Guide:電子番組表)から抽出した番組名、出演者名や、それらの略称・愛称など情報検索の対象となる語彙である。ここで、EPGなどは日々変動するため、定期的に(例えば、一日に一度)認識語彙を更新する。
【0023】
第2の音声認識部102は、外部サーバ110のサーバ処理部112で音声認識処理の一部を実行する。例えば、第2の音声認識部102で音声認識の特徴量(MFCC)を抽出し、この特徴量と音響モデルの照合を外部サーバ110のサーバ処理部112で実行する。また、音声入力部104で取得した信号の取り込みと通信部107への送信のみを第2の音声認識部102で行い、その他の音声認識処理(特徴量の抽出および特徴量と音響モデルの照合)をサーバ処理部112で実行することもできる。いずれの場合も、サーバ処理部112での処理結果は、通信部111を介して第2の音声認識部102に送信される。第2の音声認識部102は、認識処理で得られたN件の認識結果をテレビ操作部108に伝える。そして、テレビ操作部108は、第2の音声認識部102で得られたN件の認識結果をディスプレイ202にリスト表示する(ステップS6)。図7は、Nが3に設定された場合のリスト表示の例である。
【0024】
次に、ディスプレイ202に表示されたN件の認識結果の中から正解を選択する方法について説明する。正解の選択方法には、リモコンによる選択と音声認識による選択の2通りがある(ステップS7)。リモコンを使用する場合、ユーザは十字キーなどを用いて正解にカーソルを移動させ、決定ボタンを押して選択する(ステップS8)。テレビ操作部108は、図7の認識結果リストの最上位(東芝太郎)が選択された場合、図8のように東芝太郎が出演している番組をEPGから検索しリストアップする(ステップS11)。また、所望の番組をリモコンで選択して番組情報を確認したり、録画予約したりすることもできる(ステップS11)。
【0025】
正解の選択に音声認識を使用する場合は、N件の認識結果をローカル型の第1の音声認識部101の認識語彙として動的に登録する(ステップS9)。そして、音声入力部104に入力されたユーザの音声を第1の音声認識部101で認識する(ステップS10)。これにより、ユーザは、音声を使ってN件の認識結果から正解を選択できる。ここで、図9のように認識結果のリストに通し番号を付与し、その番号もあわせて第1の音声認識部101の認識語彙に登録すれば、番号による指定も可能になる。また、同様な枠組みにより、図8のような番組検索結果が表示された場合も、リモコンによる選択と音声認識による選択とのいずれかで所望の番組を選択できる。
【0026】
このように、第1の実施形態にかかる音声認識装置100では、リモコンもしくは合図音による認識開始指示によって、情報検索やテレビ受像機の操作といったタスクを起動する。そして、起動されるタスクに連動してローカル型の第1の音声認識部101と分散型の第2の音声認識部102が切り替えられる。これにより、音声認識装置100は、分散型とローカル型の使い分けをユーザに意識させることなく、音声認識を切り替えることができる。
【0027】
また、テレビ受像機の操作などの小規模な認識語彙にはローカル型の第1の音声認識が、情報検索などの大規模な認識語彙には分散型の第2の音声認識が使用されるよう音声認識が切り替えられるため、ユーザの認識開始指示によって目的に応じた音声認識を選択できる。
【0028】
また、第1の実施形態にかかる音声認識装置100では、合図音でテレビ受像機操作のタスクを起動できる。これにより、ユーザはリモコン等の機器を一切持たずにテレビ受像機を操作できる。
【0029】
また、第1の実施形態にかかる音声認識装置100では、情報検索に用いられる第2の音声認識部102が2つ以上の認識結果を出力するよう動作する。これにより、大規模な認識語彙が対象となる場合においても認識結果に正解が含まれる確率を高めることができる。
【0030】
また、第1の実施形態にかかる音声認識装置100では、第2の音声認識部102が出力した2つ以上の認識結果からの正解の選択に、認識語彙を動的に生成した第1の音声認識部101を利用している。これにより、ユーザはリモコン等の機器操作を用いずに正解を選択できる。
【0031】
また、第1の実施形態にかかる音声認識装置100では、分散型の第2の音声認識部102の認識語彙を定期的に更新する。これにより、ユーザは最新の情報を利用して情報検索を行うことができる。
【0032】
(第2の実施形態)
図10は、第2の実施形態にかかる音声認識装置150の構成を示すブロック図である。図11は、第2の実施形態にかかるテレビ受像機300の外観を示した模式図である。第2の実施形態が第1の実施形態と異なるのは、テレビ受像機300に画像を撮影するカメラ301が追加されている点と、音声認識装置150にカメラ301からの画像を入力する画像入力部151と画像入力部151で取得した画像に含まれるジェスチャを認識するジェスチャ認識部152が追加されている点と、合図音認識部105が削除されている点である。
【0033】
本実施形態においてユーザは、リモコンのボタン押下もしくは所定のジェスチャのいずれかの操作によって認識開始指示を行うことができる。ここで、ジェスチャとしては、ユーザが手を振る、指で特定の方向を指すなどの所定の動作が考えられる。ジェスチャ認識部152は、映像入力部151が取得したジェスチャの映像を画像認識技術で認識する。そして、予め設定した所定のジェスチャを認識した場合、ユーザの認識開始指示を検出したものとする。
【0034】
音声認識切替部106は、検出された認識開始指示に応じて、ユーザの音声を認識する際に使用する音声認識部を切り替える。本実施形態では、ユーザのジェスチャによる認識開始指示が検出された場合はローカル型の第1の音声認識部101を、リモコンによる認識開始指示が検出された場合は分散型の第2の音声認識部102を使用する。
【0035】
このように構成された第2の実施形態にかかる音声認識装置150の動作について説明する。図12は、第2の実施形態における音声認識装置150の処理の全体の流れを示すフローチャートである。第1の実施形態にかかる音声認識装置150と異なる処理は、ステップS23およびステップS29である。
【0036】
ステップS23では、検出された認識開始指示に応じて使用する音声認識部を切り替えている。本実施形態では、映像入力部151の信号から認識開始指示を検出した場合(ユーザがジェスチャで認識開始指示を行った場合)はローカル型の第1の音声認識部101を、リモコン信号入力部103の信号から認識開始指示を検出した場合(ユーザがリモコンで認識開始指示を行った場合)は分散型の第2の音声認識部102を使用する。
【0037】
ステップS29は、第2の音声認識部102のN件の認識結果の中から正解を選択する際にジェスチャを利用している。例えば、図7のフォーカス700を手の位置で動かし、目的の候補にフォーカス700が移った後に親指を立てて決定するなど、予め定めたジェスチャによって選択する。なお、ジェスチャの画像認識には、ジェスチャ認識部152を利用する。
【0038】
このように、第2の実施形態にかかる音声認識装置150では、ジェスチャで分散型の第1の音声認識部101に認識開始指示を行うことができる。これにより、ユーザはリモコン等の機器を一切持たずにテレビ受像機を操作することができる。
【0039】
以上述べた少なくとも一つの実施形態の音声認識装置によれば、ユーザの認識開始指示によって、情報検索やテレビ受像機の操作といったタスクを起動する。そして、起動されるタスクに連動してローカル型の第1の音声認識部101と分散型の第2の音声認識部102が切り替えられる。これにより、音声認識装置100は、分散型とローカル型の使い分けをユーザに意識させることなく、音声認識を切り替えることができる。
【0040】
また、テレビ受像機の操作等の小規模な認識語彙にはローカル型の第1の音声認識部101が、情報検索等の大規模な認識語彙には分散型の第2の音声認識部102が使用されるよう音声認識が切り替えられる。これにより、音声認識装置は、ユーザの認識開始指示によって目的に応じた音声認識を選択できる。
【0041】
また、ユーザがリモコンを用いずにテレビ受像機を操作するための認識開始指示を行うことができる。これにより、ユーザはリモコン等の機器を一切持たずにテレビ受像機を操作することができる。
【0042】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0043】
100 音声認識装置
101 第1の音声認識部
102 第2の音声認識部
103 リモコン信号入力部
104 音声入力部
105 合図音検出部
106 音声認識切替部
107 通信部
108 テレビ操作部
110 外部サーバ
111 通信部
112 サーバ処理部
130 制御部
131 記憶部
132 外部記憶部
133 操作部
134 通信部
135 バス
136 音声入力部
150 音声認識装置
151 画像入力部
152 ジェスチャ認識部
200 テレビ受像機
201 筐体
202 ディスプレイ
203 赤外線受信部
204 マイク
205 リモコン
300 テレビ受像機
301 カメラ
700 フォーカス

【特許請求の範囲】
【請求項1】
音声を入力する音声入力手段と、
当該音声入力手段に入力された音声を認識する第1の音声認識手段と、
外部サーバと通信する通信手段と、
当該通信手段で接続された外部サーバ上で前記音声入力手段に入力された音声を認識する第2の音声認識手段と、
リモコン信号を入力するリモコン信号入力手段と、
当該リモコン信号入力手段に入力されたリモコン信号から認識開始指示を検出した場合は前記第2の音声認識手段で前記音声入力手段に入力された音声を認識し、前記音声入力手段に入力された音声から認識開始指示を検出した場合は前記第1の音声認識手段で前記音声入力手段に入力された音声を認識するよう第1と第2の音声認識手段を切り替える音声認識切替手段と、
を備えた音声認識装置。
【請求項2】
音声を入力する音声入力手段と、
当該音声入力手段に入力された音声を認識する第1の音声認識手段と、
外部サーバと通信する通信手段と、
当該通信手段で接続された外部サーバ上で前記音声入力手段に入力された音声を認識する第2の音声認識手段と、
リモコン信号を入力するリモコン信号入力手段と、
画像を入力する画像入力手段と、
当該リモコン信号入力手段に入力されたリモコン信号から認識開始指示を検出した場合は前記第2の音声認識手段で前記音声入力手段に入力された音声を認識し、前記画像入力手段に入力された画像から認識開始指示を検出した場合は前記第1の音声認識手段で前記音声入力手段に入力された音声を認識するよう第1と第2の音声認識手段を切り替える音声認識切替手段と、
を備えた音声認識装置。
【請求項3】
前記第2の音声認識手段が2以上の認識結果を出力する請求項1乃至2に記載の音声認識装置。
【請求項4】
前記第1の音声認識手段が前記第2の音声認識手段が出力した2以上の認識結果を認識語彙に登録して前記音声入力手段に入力された音声を認識する請求項3に記載の音声認識装置。
【請求項5】
前記第2の音声認識手段が音声認識の認識語彙を定期的に更新する請求項1乃至請求項2に記載の音声認識装置。
【請求項6】
請求項1乃至請求項2に記載の音声認識装置を搭載したテレビ受像機であって、
前記第1の音声認識手段の認識語彙が情報検索の語彙で構成され、前記第2の音声認識手段の認識語彙が前記テレビ受像機の操作の語彙で構成されたテレビ受像機。
【請求項7】
音声を入力する音声入力工程と、
リモコン信号を入力するリモコン信号入力工程と、
当該リモコン信号入力工程で取得したリモコン信号から認識開始指示を検出した場合は第1の音声認識工程で前記音声を認識し、前記音声入力工程で取得した音声から認識開始指示を検出した場合は外部サーバを利用した第2の音声認識工程で前記音声を認識するよう第1と第2の音声認識工程を切り替える音声認識切替工程と、
を備えた音声認識方法。
【請求項8】
音声を入力する音声入力工程と、
リモコン信号を入力するリモコン信号入力工程と、
画像を入力する画像入力工程と、
前記リモコン信号入力工程で取得したリモコン信号から認識開始指示を検出した場合は第1の音声認識工程で前記音声を認識し、前記画像入力工程で取得した映像から認識開始指示を検出した場合は外部サーバを利用した第2の音声認識工程で前記音声を認識するよう第1と第2の音声認識工程を切り替える音声認識切替工程と、
を備えた音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−133243(P2012−133243A)
【公開日】平成24年7月12日(2012.7.12)
【国際特許分類】
【出願番号】特願2010−286759(P2010−286759)
【出願日】平成22年12月22日(2010.12.22)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】