説明

テレビジョン装置及び遠隔操作装置

【課題】 音声認識で操作するテレビジョン装置において、音声認識中に出力音声をミュートする機会を必要最小限に抑える。
【解決手段】 ユーザによる音声認識開始の指示の入力を受けてから、音声認識処理が終わるまでの間、出力音量の設定値を一時的に閾値以下の値に変更する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声で操作可能なテレビジョン装置及び遠隔操作装置に関する。
【背景技術】
【0002】
ユーザの発話を音声認識して、機器の操作に使う技術がある。操作対象の機器が音声を発する機器である場合、その機器が発する音声が音声認識の上では雑音となる。機器が発する音声と話者が発した音声が混在して入力された信号から、機器が発する音声をキャンセルするエコーキャンセル技術を使って音声認識精度を向上させる技術がある。しかし、エコーキャンセルのための演算処理が必要となるため、処理能力に制約がある機器では実現が困難な場合がある。
【0003】
音声認識中に機器が発する音声をミュートする装置がある。音声認識中は機器の音声がないため、その影響を受けることなく音声認識できる。しかし、操作対象の機器がテレビ受像機である場合、視聴者は音声認識中に放送された音声を聞くことができない。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−109536
【特許文献2】特開平11−15494
【発明の概要】
【発明が解決しようとする課題】
【0005】
発明が解決しようとする課題は、少ない処理量で音声認識の精度を保ちつつ、音声での操作によって視聴が妨げられにくいテレビ受像機を提供することである。
【課題を解決するための手段】
【0006】
実施形態のテレビジョン装置は、音声を入力する音声入力部と、音声認識を開始する指示の入力をユーザから受ける指示入力部と、前記指示の入力を受けた後のユーザの発話に対して音声認識を行って音声認識結果を得る音声認識部と、前記音声認識結果に対応付けられた操作コマンドを実行する制御部とを有する。前記制御部は、前記指示の入力を受けた時の出力音量の設定値が閾値以上である場合、前記音声認識部が音声認識を行う間の出力音量の設定値を一時的に前記閾値以下の値に変更する。
【図面の簡単な説明】
【0007】
【図1】第1の実施形態のテレビジョン装置のブロック図。
【図2】第1の実施形態のテレビジョン装置の外観の一例を示す模式図。
【図3】第1の実施形態のテレビジョン装置の外観の一例を示す模式図。
【図4】第1の実施形態のテレビジョン装置のハードウェア構成を示す図。
【図5】第1の実施形態の音声認識装置100の処理のフローチャート。
【図6】第1の実施形態にテレビ受像機110の処理のフローチャート。
【図7】第1の実施形態の音量変更の設定値の一例。
【図8】第1の実施形態の音量変更の設定値の一例。
【図9】第1の実施形態の音量変更の設定値の一例。
【図10】第1の実施形態の音量変更の設定値の一例。
【図11】第1の実施形態のタイムアウト時間の表示例の模式図。
【図12】第1の実施形態のLED点灯パターンの一例を示した図。
【図13】第1の実施形態の音声認識コマンドと操作コマンドの対応関係の一例。
【図14】第1の実施形態の音声認識コマンドと操作コマンドの対応関係の一例。
【図15】第2の実施形態のテレビ受像機110の処理を示すフローチャート。
【図16】第3の実施形態のテレビジョン装置のブロック図。
【図17】第3の実施形態のテレビジョン装置の外観の一例を示す模式図。
【図18】第3の実施形態の音声認識装置100の処理のフローチャート。
【図19】第3の実施形態のテレビ受像機110の処理のフローチャート。
【図20】第4の実施形態のテレビジョン装置のブロック図。
【図21】第4の実施形態のテレビ受像機110の処理のフローチャート。
【発明を実施するための形態】
【0008】
以下、実施形態について図面を参照して詳細に説明する。本願明細書と各図において、既出の図に関して前述したものと同様の要素には同一の符号を付して詳細な説明は適宜省略する。
【0009】
(第1の実施形態)
図1は本実施形態のテレビジョン装置10の構成を示すブロック図である。ユーザは音声でテレビジョン装置10を操作することができる。テレビジョン装置10は音声認識装置100およびテレビ受像機110を有する。音声認識装置100はテレビ受像機110に内蔵されるか、テレビ受像機110と無線または有線で接続される。
【0010】
図2は、音声認識装置100がテレビ受像機110に内蔵された場合のテレビジョン装置10の外観の一例を示す模式図である。図3は、音声認識装置100がテレビ受像機とケーブルで接続された場合のテレビジョン装置10の外観の一例を示す模式図である。図2及び図3のいずれの場合もテレビジョン装置10の構成のブロック図は図1である。尚、図2、図3ではマイク204がともに2個設置された場合の外観を示しているが、1個であっても、3個以上あっても構わなく、その設置場所も図示された限りではない。
【0011】
第1の実施形態に係る音声認識装置100は、マイク101と、マイクからの音声を取り込む音声入力部102と、予め定められたユーザからの音声認識開始の合図を検出する音声認識開始検出部103と、ユーザの発話の有無を検出する発話検出部104と、無音区間検出により音声認識終了を検出する音声認識終了検出部105と、エコーキャンセル部106と、音声入力部102から入力された音声を認識する音声認識部107と、音声認識結果に基づいて所定の信号をテレビ受像機110に送信する信号送信部108を有する。音声認識開始検出部103は、ユーザからの合図により音声認識の入力が開始されてからのユーザ発話の有無を検出する。エコーキャンセル部106は、マイク101を経由して音声入力部102に入力されるテレビ受像機110のスピーカ115から発せられる音声をキャンセルする。
【0012】
テレビ受像機110は、信号送信部108から送られてきた信号に基づいてテレビ音量の制御をはじめ所望のテレビ操作を実行するテレビ制御部111と、テレビ受像機110のメインプロセッサの計算リソースをモニタする計算リソース監視部112と、映像再生部113と、放送されている番組を録画する録画部114と、視聴している番組の音を出力するスピーカ115と、視聴している番組の映像を表示する表示部116を有する。映像再生部113は、放送中の番組コンテンツ、録画された番組コンテンツ、又は、記録媒体に記録された映像コンテンツを再生する。記録媒体として、例えばDVD(Digital Versatile Disc)やBD(Blu-ray Disc)が挙げられる。
【0013】
図4は音声認識装置100およびテレビ受像機110のハードウェア構成の例を示す。図4のハードウェアは、装置全体を制御するCPU(Central Processing Unit)等の制御部130と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部131と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部132と、ユーザの指示入力を受け付ける操作部133と、外部装置との通信を制御する通信部134と、これらを接続するバス135とを備える。さらに、音声認識装置100には、音声が入力されるマイクなどの音声入力部136が有線又は無線により接続される。なお、図4のハードウェアの構成は一例である。音声認識装置100及びテレビ受像機110の一部ないし全部の構成がLSIやASICなどの専用の半導体集積回路で実現されても構わない。
【0014】
図5は、第1の実施形態に係る音声認識装置100の処理動作を示すフローチャートである。図6は、第1の実施形態に係るテレビ受像機110の処理動作を示すフローチャートである。次に、第1の実施形態に係る音声認識装置100およびテレビ受像機110の処理動作について、図5、図6のフローチャートを参照して説明する。
【0015】
まず、音声認識開始検出部103は、ユーザからの音声認識開始指示の入力を待つ(ステップS1)。ユーザからの音声認識開始指示として、予め定められた音を用いる。例えば、手を連続して2回叩いた音を指示として用いる。この場合、マイク101から入力された音声の中から、手を連続して2回叩いた音を検出する。
【0016】
別の例として、ユーザが発した特定の言葉を用いることもできる。合図に用いる言葉を認識するための合図認識用辞書と、テレビ操作コマンドの言葉を認識するためのコマンド認識用辞書とを用意しておく。普段、音声認識部107は合図認識用辞書を用いて音声認識を行う。合図となる言葉が認識された時に、音声認識部107は音声認識用の辞書をコマンド認識用辞書に切り替える。さらに別の例として、リモコン205に音声認識開始ボタンを設け、そのボタン押下に対応したリモコン信号をリモコン受信部203から受信したことを音声認識開始の合図としても良い。これら以外の合図としても良い。またこれらの合図を一つだけ受理するようにしても良いし、複数の合図により音声認識開始を指示できるようにしても良い。
【0017】
音声認識開始検出部103が音声認識開始の合図を検出した場合に(ステップS2)、信号送信部108は、テレビ受像機110のテレビ制御部111に音声認識開始信号を送信する(ステップS3)。このとき、音声認識が開始されたことをユーザにフィードバックするために、LED(発光ダイオード)の点灯やOSD(On-Screen Display)でその旨表示しても良い。
【0018】
テレビ受像機110は、まず音声認識装置100の信号送信部108からの信号の待ち受け状態となる(ステップS101)。信号送信部108から何らかの信号を受信すると、テレビ制御部111は音声認識開始コマンドかどうかを判断する(ステップS102)。受信したコマンドが音声認識コマンドである場合、テレビ受像機110の映像再生部113は、現在表示している映像が、放送コンテンツであるか、蓄積コンテンツあるかを判断する(ステップS103)。放送コンテンツとは、地上波デジタル放送、BSデジタル放送、CSデジタル放送及びCATVなどで放送されている映像である。蓄積コンテンツとは、録画部114に録画された番組、及び、DVDやBD等のメディアに記録された映像である。
【0019】
視聴している映像が放送波である場合、計算リソース監視部112は、テレビ受像機110の制御部130内のCPUの計算負荷を計測し(ステップS104)、計算負荷が所定の閾値より大きいか小さいかを判定する(ステップS105)。この際、計算負荷がCPUの全リソースの内どのくらいの割合を占有しているかを基準に判定しても良いし、現在テレビ受像機110で実行する処理ごとに計算量を定義しておき、現在実行している処理の計算量の総和で判定しても良い。エコーキャンセルに要する計算量を事前に調べておき、CPUでエコーキャンセル処理を実行する余裕があるかどうかを基準に閾値は設定される。したがって、CPUの計算負荷が閾値より小さければ、CPUにエコーキャンセル処理を行う余裕があることを意味する。計算負荷が所定の閾値より小さい場合はエコーキャンセル処理を実行し(ステップS106)、音声認識部107は音声認識の対象となる音声信号の入力(音声認識入力)を開始する(ステップS4)。この場合は、テレビ制御部111は音量変更を行わない。
【0020】
計算負荷が所定の閾値以上である場合、テレビ制御部111は、現在のテレビ音量の設定値を読み取る(ステップS107)。その設定値が所定の閾値より大きいか小さいかでテレビ音量の変更動作を変更する。図7、図8、図9及び図10に音量レベルの変更動作設定の例を示す。なお、これらの図では、音量レベルの数字が大きくなるほど音量が大きくなるものとする。
【0021】
図7の設定例では、テレビ制御部111は音量レベルが第1の閾値以上であれば音声をミュートし、音量レベルが第1の閾値未満であれば音量レベルを変更しない。なお「音量レベルを変更しない」とは「音量レベルを保つ」と言い換えてもよい。
【0022】
図8の設定例では、テレビ制御部111は音量レベルが第1の閾値以上であれば音量レベルをある一定のレベルに設定し、音量レベルが第1の閾値未満であれば音量レベルを変更しない。例えば、音量レベルが20以上の場合は音量レベルを一定値(例えば20以下の値)に設定し、音量レベルが20未満の場合には音量レベルを変更しない。
【0023】
図9の設定例では、第1の閾値と第2の閾値(第1の閾値>第2の閾値)が用いられる。音量レベル第1の閾値以上の場合、テレビ制御部111は音声をミュートする。音量レベル第2の閾値以上第1の閾値未満の場合、テレビ制御部111は音量レベルを一定の値に下げる。音量レベル第2の閾値未満の場合、テレビ制御部111は音量レベルを変更しない。
【0024】
図10の設定例では、第1の閾値と第2の閾値(第1の閾値>第2の閾値)が用いられる。第1の閾値以上の場合、テレビ制御部111は音声をミュートする。第2の閾値以上第1の閾値未満の場合、テレビ制御部111は音量レベルを現在値の半分のレベルに下げる。第2の閾値未満の場合、テレビ制御部111は音量を変更しない。例えば、音量レベルが40以上の場合はミュート、音量レベルが20以上40未満の場合は1/2ミュート、音量レベルが20未満の場合は音量を変更しないという設定である。もちろん、他の設定でも構わない。
【0025】
図7、図8、図9及び図10では、第1の閾値として「20」が用いられ、第2の閾値として「40」を用いられたが、この数値に限定されるものではない。上述の第1、第2の閾値を他の音量レベルに変更しても構わない。一般的には事前に音声認識性能評価を行い、その結果に応じて音声認識性能を確保できる程度に適宜設定される。上述の例の第1の閾値「20」や、第2の閾値「40」という数値そのものは、音声認識装置100及びテレビ受像機110の構成・性能に応じて適宜変更される。
【0026】
このようにしてテレビ音量に応じた音量変更を実行した後、音声認識部107は音声認識入力を実行する(ステップS4)。
【0027】
一方、蓄積されたコンテンツを視聴している場合、映像再生部113は再生中の映像を一時停止させ(ステップS109)、音声認識部107は音声認識入力を実行する(ステップS4)。蓄積されたコンテンツとは、例えば録画部114に録画された番組や、DVD、BD等の記録メディアに記録された映像である。
【0028】
音声認識装置100の発話検出部104はユーザの発話が開始されたかどうかを検出する。ユーザが誤って音声認識開始の合図をした場合や、音声認識開始検出部103が音声認識開始の合図を誤検出した場合に、自動的に元の状態へ復帰させるためのタイムアウトを設定しておくと良い。さらに、図11の表示1101のようにタイムアウトまでの時間をOSD表示しても良いし、図12に示すパターンのようにLEDの点灯や点滅で表示しても良い。また、発話検出部104がユーザの発話を検出する前後で、LED点滅、OSD表示を変更すると、ユーザは自分の発話が受理されているかどうかがわかりやすい。図12はLEDによるステータス表示の一例である。図12のグラフの横軸は時間であり、縦軸はLEDの点灯・消灯の状態を表す。この例では、時刻t1で音声認識開始合図が検出されるとLEDが点灯し、時刻t2で発話が検出されるとLEDが点滅し、時刻t3で音声認識が終了するとLEDが消灯する。
【0029】
音声認識終了検出部105は、音声認識を終了するか否かを判定する(ステップS5)。例えば「無音区間が一定時間以上継続していること」は本実施形態の音声認識終了条件の一つである。音声認識部107は音声認識を実行し音声認識結果を得る(ステップS6)。信号送信部108は音声認識結果に応じてテレビ受像機110の操作コマンドをテレビ音量制御部111に送信する(ステップS7)。
【0030】
ここでは、チャンネル切替、音量変更、入力切り替え、画面モード切替など、あらかじめ特定の音声コマンド(音声認識結果)と対応づけられた操作コマンドを送信する。操作コマンドと音声コマンドとの対応付けの例を図13のテーブル1300と図14のテーブル1400に示す。この際、ユーザが誤って音声認識開始の合図をしてしまった場合や、音声認識開始検出部103が音声認識開始の合図を語検出した場合に元の状態に復帰するための音声コマンド(図13のコマンド1301)を用意しておくと良い。
【0031】
テレビ受像機110は、音声認識開始コマンド以外の操作コマンドを受信した場合(ステップS102−No)、キャンセルコマンドかどうかを判断する(ステップS110)。キャンセルコマンドである場合(ステップS110−Yes)、テレビ操作を実行せずに音声認識開始前の状態に戻す(ステップS112)。キャンセルコマンドでない場合(ステップS111−No)、受信した操作コマンドに対応づけられたテレビ操作を実行し(ステップS111)、音声認識開始前の音量設定に戻す(ステップS112)。
【0032】
上述したように、本実施形態のテレビは、音声認識開始前のテレビ音量に応じて、音声認識処理の間のテレビ音量を一時的に制御する。これにより、少ない演算量で精度良い音声認識をしつつ、音声での操作によって視聴が妨げられにくいテレビが実現される。
【0033】
また、本実施形態のテレビは、蓄積コンテンツを再生している場合、音声認識中に再生を一時停止させる。これにより、音声での操作中に、蓄積コンテンツを不完全な状態で視聴することが避けられる。
【0034】
(第2の実施形態)
図面を用いて第2の実施形態のテレビを説明する。第1の実施形態と同じ処理・構成については同じ符号を付して説明を省略し、第1の実施形態と異なる部分を説明する。図15は、本実施形態のテレビ受像機110が行う処理のフローチャートである。
【0035】
テレビ受像機110は、音声認識開始コマンドを受信した後、現在の視聴メディアに応じて処理動作を変える(ステップS103)。現在の視聴メディアが放送である場合、テレビ制御部111は画面を静止させるとともに音声をミュート状態にする(ステップS201)。その後、すぐに録画部114はその放送の録画を開始する(ステップS202)。
【0036】
テレビ制御部111は、音声認識終了後に音声認識結果に基づく操作コマンドを受信し、操作コマンドに対応するテレビ操作を実行する(ステップS111)。制御部111は(1)音声認識開始前の視聴メディアが放送であるか、(2)ステップS201の処理によって画面が静止し、かつ、音声がミュート状態になっているか、(3)音声認識開始前の視聴メディアの録画が開始されているか、並びに、(4)テレビ制御部111によって実行されたテレビ操作が放送波のチャンネル変更でないか、の4つの条件を満たすかを判定する(ステップS203)。(1)〜(4)のすべての条件を満たす場合は、静止した画面からの追っかけ再生を開始する(ステップS204)。典型的には、チャンネル変更でない操作(例えば音量変更)が行われた場合である。
【0037】
一方、(1)〜(4)のいずれか一つでも条件を満たさない場合には、追っかけ再生を行わなずに、制御部111は音声認識開始前の音量設定に復帰させる(ステップS112)。ステップS202で録画処理が実行され、その後、視聴チャンネルの変更が行われた場合は録画を停止しても構わない。録画を停止した場合、録画したデータは消去しても構わない。
【0038】
本実施形態のテレビは、音声をミュートした状態で音声認識できるので、少ない演算量で精度良く音声認識できる。また、音声認識中の放送内容が録画され、音声認識後に追っかけ再生されるので、音声でテレビを操作しても視聴が妨げられにくくなる。
【0039】
(第3の実施形態)
図面を用いて第3実施形態のテレビを説明する。第1及び第2の実施形態と同じ処理及び構成については同じ符号を付して説明を省略する。第1及び第2の実施形態と異なる処理及び構成を説明する。
【0040】
図16は、本実施形態の音声認識装置100およびテレビ受像機110の構成を示すブロック図である。図17は、第3の実施形態に係る音声認識装置100およびテレビ受像機の外観の一例を示す模式図である。
【0041】
図17に示すように、本実施形態の音声認識装置100(210)とテレビ受像機110(200)は離れた位置にある。本実施形態の音声認識装置100はテレビ受像機110を離れた場所から操作するためのリモコン装置(リモートコマンダー)である。本実施形態の音声認識装置100はテレビ受像機110に無線(例えば、赤外線パルスや電波)で操作コマンドを送信する。
【0042】
本実施形態の音声認識装置100は、音声認識装置100が置かれた位置での環境音を推定するために、テレビ音量推定部120を備える。テレビ音量計測部120は、音声入力部102に入力された環境音の過去一定時間の音量の平均値からテレビ音量を推定する。
【0043】
本実施形態の信号送信部108は、テレビ音量推定部120で推定されたテレビ音量に応じて音声認識中のテレビ受像機110の音量レベルを変更する。信号送信部108は推定された音量レベルに基づいて音声認識中の音量レベルを求める。推定された音量レベルと音声認識中の音量レベルとの対応関係として、例えば図7、図8、図9及び図10に示した設定例を用いることができる。もちろん、他の設定例を用いても構わない。信号送信部108は求められた音量レベルに設定するための操作コマンドをテレビ受像機110へ送信する。信号送信部108は音量レベルを下げる操作コマンドを繰り返し送信しても構わないし、音量レベルの値を直接指定する操作コマンド(ダイレクトコード)を送信しても構わない。また、音量レベルを半分にする(1/2ミュート)のような特別な操作コマンドを送信しても構わない。音声認識を行う間の音量レベルを、ある一定の水準よりも低くすることができれば他の操作コマンドでも構わない。
【0044】
図18は、第3の実施形態に係る音声認識装置100の処理動作を示すフローチャートである。図19は、第3の実施形態に係るテレビ受像機110の処理動作を示すフローチャートである。
【0045】
音声認識開始検出部103が音声認識開始を検出すると、テレビ音量推定部120は音声入力部102に入力された環境音の過去一定時間の音量の平均値からテレビ音量を推定する(ステップS10)。推定されたテレビ音量に応じて、信号送信部108は音声認識中のテレビ音量を変更するための操作コマンドを送信する(ステップS11)。その後、音声認識部107は音声認識を行って音声認識結果を得る(ステップS4、ステップS5、ステップS6)。信号送信部108は音声認識結果に基づく操作コマンド送信を実行し(ステップS7)、その後、ミュート解除コマンド等、音量を音声認識入力前の状態に戻すための操作コマンドを送信する(ステップS12)。
【0046】
上述したように、本実施形態のテレビは、音声認識開始前のテレビ音量に応じて、音声認識処理の間のテレビ音量を一時的に制御する。これにより、少ない演算量で精度良い音声認識をしつつ、音声での操作によって視聴が妨げられにくいテレビが実現される。また、本実施形態のテレビは音声認識部で計測されるテレビ音量に基づいて音声認識中のテレビ音量を制御する。これにより、音声認識のために必要な範囲でテレビ音量を制御できる。
【0047】
(第4の実施形態)
図面を用いて第4実施形態のテレビを説明する。第1〜第3の実施形態と同じ処理及び構成については同じ符号を付して説明を省略する。第1〜第3の実施形態と異なる処理及び構成を説明する。
【0048】
図20は本実施形態のテレビジョン装置10の構成を示すブロック図である。本実施形態のテレビジョン装置10は、音声認識装置100とテレビ受像機110を有する。音声認識装置100は、マイク101、音声入力部102、音声認識開始検出部103、発話検出部104、音声認識終了検出部105、音声認識部107、及び信号送信部108を有する。テレビ受像機110はテレビ制御部111、映像再生部113、スピーカー115及び表示部116を有する。
【0049】
図21は本実施形態に係るテレビ受像機110の処理動作を示すフローチャートである。本実施形態のテレビ受像機110は、蓄積コンテンツを視聴している場合にも放送コンテンツを視聴している場合にも、音声認識開始コマンドを受信した後に音量の制御を行う(ステップS107、ステップS108)。
【0050】
本実施形態のテレビは、音声認識開始前のテレビ音量に応じて、音声認識処理の間のテレビ音量を一時的に制御する。これにより、少ない演算量で精度良い音声認識をしつつ、音声での操作によって視聴が妨げられにくいテレビジョン装置が実現される。
【0051】
(変形例)
本発明は上述した各実施形態に限定されるものではない。各実施形態の各要素の具体的な構成に関しては、当業者が公知の範囲から適宜選択することにより本発明を同様に実施し、同様の効果を得ることができる限り、本発明の範囲に包含される。
【0052】
また、各実施形態のいずれか2つ以上の要素を技術的に可能な範囲で組み合わせたものも、本発明の要旨を包含する限り本発明の範囲に含まれる。一つの実施形態又は複数の実施形態を組み合わせたものを当業者が適宜設計変更したものも、本発明の要旨を包含する限り、本発明の範囲に属する。
【0053】
その他、本発明の思想の範疇において、当業者であれば、各種の変更例及び修正例に想到し得るものであり、それら変更例及び修正例についても本発明の範囲に属するものと了解される。
【0054】
本発明の幾つかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0055】
10 テレビ 100 音声認識装置 101 マイク
102 音声入力部 103 音声認識開始検出部 104 発話検出部
105 音声認識終了検出部 106 エコーキャンセル部 107 音声認識部
108 信号送信部 110 テレビ受像機 111 テレビ音量制御部
112 計算リソース監視部 113 映像再生部 114 録画部
115 スピーカ 116 表示部 130 制御部
131 記憶部 132 外部記憶部 133 操作部
134 通信部 135 バス 136 音声入力部
200 テレビ受像機 201 フレーム 202 表示部
203 リモコン受信部 204 マイク 205 リモコン
210 音声認識装置

【特許請求の範囲】
【請求項1】
音声を入力する音声入力部と、
音声認識を開始する指示の入力をユーザから受ける指示入力部と、
前記指示の入力を受けた後のユーザの発話に対して音声認識を行って音声認識結果を得る音声認識部と、
前記音声認識結果に対応付けられた操作コマンドを実行する制御部と、
を有し、
前記制御部は、前記指示の入力を受けた時の出力音量の設定値が閾値以上である場合、前記音声認識部が音声認識を行う間の出力音量の設定値を一時的に前記閾値以下の値に変更する、
ことを特徴とするテレビジョン装置。
【請求項2】
記録媒体に記録された蓄積コンテンツを再生する再生部を更に備え、
前記蓄積コンテンツの再生中に前記指示の入力を受けた場合、前記音声認識部が音声認識を行う間、前記再生部は前記蓄積コンテンツの再生を一時停止する、
ことを特徴とする請求項1に記載のテレビジョン装置。
【請求項3】
放送番組を録画して録画コンテンツを得る録画部と、
録画コンテンツを再生する再生部と、
を更に備え、
前記放送番組の視聴中に前記指示の入力を受けた場合、前記録画部は前記放送番組の録画を開始し、
前記音声認識部による音声認識処理が終わってから、前記再生部は前記録画コンテンツの追っかけ再生を行う、
ことを特徴とする請求項1に記載のテレビジョン装置。
【請求項4】
前記制御部は、特定の音声認識結果を受けた場合、出力音量の設定値を前記指示の入力を受ける前の値に戻すことを特徴とする請求項1に記載のテレビジョン装置。
【請求項5】
ユーザの発話を検出する発話検出部を更に備え、
前記制御部は、前記指示の入力を受けてから前記所定時間を経過するまでの残り時間を画面に表示するとともに、
前記指示の入力を受けてから所定時間内に発話が検出されなかった場合、前記制御部は出力音量の設定値を前記指示の入力を受ける前の値に戻す、
ことを特徴とする請求項1に記載のテレビジョン装置。
【請求項6】
前記音声入力部に入力された音から出力音声をキャンセルするエコーキャンセル部と、
前記テレビジョン装置のメインプロセッサの計算リソースを監視する計算リソース監視部と、
を備え、
前記制御部は、前記指示の入力を受けた時の計算リソースに応じて、出力音量の制御を行うか、前記エコーキャンセル部にエコーキャンセル処理を実行させるかを切り替える、
ことを特徴とする請求項1に記載のテレビジョン装置。
【請求項7】
テレビジョン装置を操作するための遠隔操作装置であって、
音声を入力する音声入力部と、
前記音声入力部に入力される音量に基づいて、前記テレビジョン装置の出力音量レベルを推定する音量推定部と、
音声認識を開始する指示の入力をユーザから受ける指示入力部と、
前記指示の入力を受けた後のユーザの発話に対して音声認識を行って音声認識結果を得る音声認識部と、
前記音声認識結果に対応付けられた操作コマンドを表す信号を前記テレビジョン装置に送信する送信部と、
を有し、
前記送信部は、前記出力音量レベルの推定値が閾値以上である場合、前記音声認識部が音声認識を行う間の前記テレビジョン装置の出力音量の設定値を一時的に所定値に変更するための特定の操作コマンドを前記テレビジョン装置に送信する、
ことを特徴とする遠隔操作装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate


【公開番号】特開2012−181374(P2012−181374A)
【公開日】平成24年9月20日(2012.9.20)
【国際特許分類】
【出願番号】特願2011−44430(P2011−44430)
【出願日】平成23年3月1日(2011.3.1)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】