テレビジョン装置及び遠隔操作装置

【課題】音声認識で操作するテレビジョン装置において、音声認識中に出力音声をミュートする機会を必要最小限に抑える。
【解決手段】ユーザによる音声認識開始の指示の入力を受けてから、音声認識処理が終わるまでの間、出力音量の設定値を一時的に閾値以下の値に変更する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、音声で操作可能なテレビジョン装置及び遠隔操作装置に関する。
【背景技術】
【０００２】
ユーザの発話を音声認識して、機器の操作に使う技術がある。操作対象の機器が音声を発する機器である場合、その機器が発する音声が音声認識の上では雑音となる。機器が発する音声と話者が発した音声が混在して入力された信号から、機器が発する音声をキャンセルするエコーキャンセル技術を使って音声認識精度を向上させる技術がある。しかし、エコーキャンセルのための演算処理が必要となるため、処理能力に制約がある機器では実現が困難な場合がある。
【０００３】
音声認識中に機器が発する音声をミュートする装置がある。音声認識中は機器の音声がないため、その影響を受けることなく音声認識できる。しかし、操作対象の機器がテレビ受像機である場合、視聴者は音声認識中に放送された音声を聞くことができない。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００９−１０９５３６
【特許文献２】特開平１１−１５４９４
【発明の概要】
【発明が解決しようとする課題】
【０００５】
発明が解決しようとする課題は、少ない処理量で音声認識の精度を保ちつつ、音声での操作によって視聴が妨げられにくいテレビ受像機を提供することである。
【課題を解決するための手段】
【０００６】
実施形態のテレビジョン装置は、音声を入力する音声入力部と、音声認識を開始する指示の入力をユーザから受ける指示入力部と、前記指示の入力を受けた後のユーザの発話に対して音声認識を行って音声認識結果を得る音声認識部と、前記音声認識結果に対応付けられた操作コマンドを実行する制御部とを有する。前記制御部は、前記指示の入力を受けた時の出力音量の設定値が閾値以上である場合、前記音声認識部が音声認識を行う間の出力音量の設定値を一時的に前記閾値以下の値に変更する。
【図面の簡単な説明】
【０００７】
【図１】第１の実施形態のテレビジョン装置のブロック図。
【図２】第１の実施形態のテレビジョン装置の外観の一例を示す模式図。
【図３】第１の実施形態のテレビジョン装置の外観の一例を示す模式図。
【図４】第１の実施形態のテレビジョン装置のハードウェア構成を示す図。
【図５】第１の実施形態の音声認識装置１００の処理のフローチャート。
【図６】第１の実施形態にテレビ受像機１１０の処理のフローチャート。
【図７】第１の実施形態の音量変更の設定値の一例。
【図８】第１の実施形態の音量変更の設定値の一例。
【図９】第１の実施形態の音量変更の設定値の一例。
【図１０】第１の実施形態の音量変更の設定値の一例。
【図１１】第１の実施形態のタイムアウト時間の表示例の模式図。
【図１２】第１の実施形態のＬＥＤ点灯パターンの一例を示した図。
【図１３】第１の実施形態の音声認識コマンドと操作コマンドの対応関係の一例。
【図１４】第１の実施形態の音声認識コマンドと操作コマンドの対応関係の一例。
【図１５】第２の実施形態のテレビ受像機１１０の処理を示すフローチャート。
【図１６】第３の実施形態のテレビジョン装置のブロック図。
【図１７】第３の実施形態のテレビジョン装置の外観の一例を示す模式図。
【図１８】第３の実施形態の音声認識装置１００の処理のフローチャート。
【図１９】第３の実施形態のテレビ受像機１１０の処理のフローチャート。
【図２０】第４の実施形態のテレビジョン装置のブロック図。
【図２１】第４の実施形態のテレビ受像機１１０の処理のフローチャート。
【発明を実施するための形態】
【０００８】
以下、実施形態について図面を参照して詳細に説明する。本願明細書と各図において、既出の図に関して前述したものと同様の要素には同一の符号を付して詳細な説明は適宜省略する。
【０００９】
（第１の実施形態）
図１は本実施形態のテレビジョン装置１０の構成を示すブロック図である。ユーザは音声でテレビジョン装置１０を操作することができる。テレビジョン装置１０は音声認識装置１００およびテレビ受像機１１０を有する。音声認識装置１００はテレビ受像機１１０に内蔵されるか、テレビ受像機１１０と無線または有線で接続される。
【００１０】
図２は、音声認識装置１００がテレビ受像機１１０に内蔵された場合のテレビジョン装置１０の外観の一例を示す模式図である。図３は、音声認識装置１００がテレビ受像機とケーブルで接続された場合のテレビジョン装置１０の外観の一例を示す模式図である。図２及び図３のいずれの場合もテレビジョン装置１０の構成のブロック図は図１である。尚、図２、図３ではマイク２０４がともに２個設置された場合の外観を示しているが、１個であっても、３個以上あっても構わなく、その設置場所も図示された限りではない。
【００１１】
第１の実施形態に係る音声認識装置１００は、マイク１０１と、マイクからの音声を取り込む音声入力部１０２と、予め定められたユーザからの音声認識開始の合図を検出する音声認識開始検出部１０３と、ユーザの発話の有無を検出する発話検出部１０４と、無音区間検出により音声認識終了を検出する音声認識終了検出部１０５と、エコーキャンセル部１０６と、音声入力部１０２から入力された音声を認識する音声認識部１０７と、音声認識結果に基づいて所定の信号をテレビ受像機１１０に送信する信号送信部１０８を有する。音声認識開始検出部１０３は、ユーザからの合図により音声認識の入力が開始されてからのユーザ発話の有無を検出する。エコーキャンセル部１０６は、マイク１０１を経由して音声入力部１０２に入力されるテレビ受像機１１０のスピーカ１１５から発せられる音声をキャンセルする。
【００１２】
テレビ受像機１１０は、信号送信部１０８から送られてきた信号に基づいてテレビ音量の制御をはじめ所望のテレビ操作を実行するテレビ制御部１１１と、テレビ受像機１１０のメインプロセッサの計算リソースをモニタする計算リソース監視部１１２と、映像再生部１１３と、放送されている番組を録画する録画部１１４と、視聴している番組の音を出力するスピーカ１１５と、視聴している番組の映像を表示する表示部１１６を有する。映像再生部１１３は、放送中の番組コンテンツ、録画された番組コンテンツ、又は、記録媒体に記録された映像コンテンツを再生する。記録媒体として、例えばＤＶＤ（Digital Versatile Disc）やＢＤ（Blu-ray Disc）が挙げられる。
【００１３】
図４は音声認識装置１００およびテレビ受像機１１０のハードウェア構成の例を示す。図４のハードウェアは、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部１３０と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の記憶部１３１と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部１３２と、ユーザの指示入力を受け付ける操作部１３３と、外部装置との通信を制御する通信部１３４と、これらを接続するバス１３５とを備える。さらに、音声認識装置１００には、音声が入力されるマイクなどの音声入力部１３６が有線又は無線により接続される。なお、図４のハードウェアの構成は一例である。音声認識装置１００及びテレビ受像機１１０の一部ないし全部の構成がＬＳＩやＡＳＩＣなどの専用の半導体集積回路で実現されても構わない。
【００１４】
図５は、第１の実施形態に係る音声認識装置１００の処理動作を示すフローチャートである。図６は、第１の実施形態に係るテレビ受像機１１０の処理動作を示すフローチャートである。次に、第１の実施形態に係る音声認識装置１００およびテレビ受像機１１０の処理動作について、図５、図６のフローチャートを参照して説明する。
【００１５】
まず、音声認識開始検出部１０３は、ユーザからの音声認識開始指示の入力を待つ（ステップＳ１）。ユーザからの音声認識開始指示として、予め定められた音を用いる。例えば、手を連続して２回叩いた音を指示として用いる。この場合、マイク１０１から入力された音声の中から、手を連続して２回叩いた音を検出する。
【００１６】
別の例として、ユーザが発した特定の言葉を用いることもできる。合図に用いる言葉を認識するための合図認識用辞書と、テレビ操作コマンドの言葉を認識するためのコマンド認識用辞書とを用意しておく。普段、音声認識部１０７は合図認識用辞書を用いて音声認識を行う。合図となる言葉が認識された時に、音声認識部１０７は音声認識用の辞書をコマンド認識用辞書に切り替える。さらに別の例として、リモコン２０５に音声認識開始ボタンを設け、そのボタン押下に対応したリモコン信号をリモコン受信部２０３から受信したことを音声認識開始の合図としても良い。これら以外の合図としても良い。またこれらの合図を一つだけ受理するようにしても良いし、複数の合図により音声認識開始を指示できるようにしても良い。
【００１７】
音声認識開始検出部１０３が音声認識開始の合図を検出した場合に（ステップＳ２）、信号送信部１０８は、テレビ受像機１１０のテレビ制御部１１１に音声認識開始信号を送信する（ステップＳ３）。このとき、音声認識が開始されたことをユーザにフィードバックするために、ＬＥＤ（発光ダイオード）の点灯やＯＳＤ（On-Screen Display）でその旨表示しても良い。
【００１８】
テレビ受像機１１０は、まず音声認識装置１００の信号送信部１０８からの信号の待ち受け状態となる（ステップＳ１０１）。信号送信部１０８から何らかの信号を受信すると、テレビ制御部１１１は音声認識開始コマンドかどうかを判断する（ステップＳ１０２）。受信したコマンドが音声認識コマンドである場合、テレビ受像機１１０の映像再生部１１３は、現在表示している映像が、放送コンテンツであるか、蓄積コンテンツあるかを判断する（ステップＳ１０３）。放送コンテンツとは、地上波デジタル放送、ＢＳデジタル放送、ＣＳデジタル放送及びＣＡＴＶなどで放送されている映像である。蓄積コンテンツとは、録画部１１４に録画された番組、及び、ＤＶＤやＢＤ等のメディアに記録された映像である。
【００１９】
視聴している映像が放送波である場合、計算リソース監視部１１２は、テレビ受像機１１０の制御部１３０内のＣＰＵの計算負荷を計測し（ステップＳ１０４）、計算負荷が所定の閾値より大きいか小さいかを判定する（ステップＳ１０５）。この際、計算負荷がＣＰＵの全リソースの内どのくらいの割合を占有しているかを基準に判定しても良いし、現在テレビ受像機１１０で実行する処理ごとに計算量を定義しておき、現在実行している処理の計算量の総和で判定しても良い。エコーキャンセルに要する計算量を事前に調べておき、ＣＰＵでエコーキャンセル処理を実行する余裕があるかどうかを基準に閾値は設定される。したがって、ＣＰＵの計算負荷が閾値より小さければ、ＣＰＵにエコーキャンセル処理を行う余裕があることを意味する。計算負荷が所定の閾値より小さい場合はエコーキャンセル処理を実行し（ステップＳ１０６）、音声認識部１０７は音声認識の対象となる音声信号の入力（音声認識入力）を開始する（ステップＳ４）。この場合は、テレビ制御部１１１は音量変更を行わない。
【００２０】
計算負荷が所定の閾値以上である場合、テレビ制御部１１１は、現在のテレビ音量の設定値を読み取る（ステップＳ１０７）。その設定値が所定の閾値より大きいか小さいかでテレビ音量の変更動作を変更する。図７、図８、図９及び図１０に音量レベルの変更動作設定の例を示す。なお、これらの図では、音量レベルの数字が大きくなるほど音量が大きくなるものとする。
【００２１】
図７の設定例では、テレビ制御部１１１は音量レベルが第１の閾値以上であれば音声をミュートし、音量レベルが第１の閾値未満であれば音量レベルを変更しない。なお「音量レベルを変更しない」とは「音量レベルを保つ」と言い換えてもよい。
【００２２】
図８の設定例では、テレビ制御部１１１は音量レベルが第１の閾値以上であれば音量レベルをある一定のレベルに設定し、音量レベルが第１の閾値未満であれば音量レベルを変更しない。例えば、音量レベルが２０以上の場合は音量レベルを一定値（例えば２０以下の値）に設定し、音量レベルが２０未満の場合には音量レベルを変更しない。
【００２３】
図９の設定例では、第１の閾値と第２の閾値（第１の閾値＞第２の閾値）が用いられる。音量レベル第１の閾値以上の場合、テレビ制御部１１１は音声をミュートする。音量レベル第２の閾値以上第１の閾値未満の場合、テレビ制御部１１１は音量レベルを一定の値に下げる。音量レベル第２の閾値未満の場合、テレビ制御部１１１は音量レベルを変更しない。
【００２４】
図１０の設定例では、第１の閾値と第２の閾値（第１の閾値＞第２の閾値）が用いられる。第１の閾値以上の場合、テレビ制御部１１１は音声をミュートする。第２の閾値以上第１の閾値未満の場合、テレビ制御部１１１は音量レベルを現在値の半分のレベルに下げる。第２の閾値未満の場合、テレビ制御部１１１は音量を変更しない。例えば、音量レベルが４０以上の場合はミュート、音量レベルが２０以上４０未満の場合は１／２ミュート、音量レベルが２０未満の場合は音量を変更しないという設定である。もちろん、他の設定でも構わない。
【００２５】
図７、図８、図９及び図１０では、第１の閾値として「２０」が用いられ、第２の閾値として「４０」を用いられたが、この数値に限定されるものではない。上述の第１、第２の閾値を他の音量レベルに変更しても構わない。一般的には事前に音声認識性能評価を行い、その結果に応じて音声認識性能を確保できる程度に適宜設定される。上述の例の第１の閾値「２０」や、第２の閾値「４０」という数値そのものは、音声認識装置１００及びテレビ受像機１１０の構成・性能に応じて適宜変更される。
【００２６】
このようにしてテレビ音量に応じた音量変更を実行した後、音声認識部１０７は音声認識入力を実行する（ステップＳ４）。
【００２７】
一方、蓄積されたコンテンツを視聴している場合、映像再生部１１３は再生中の映像を一時停止させ（ステップＳ１０９）、音声認識部１０７は音声認識入力を実行する（ステップＳ４）。蓄積されたコンテンツとは、例えば録画部１１４に録画された番組や、ＤＶＤ、ＢＤ等の記録メディアに記録された映像である。
【００２８】
音声認識装置１００の発話検出部１０４はユーザの発話が開始されたかどうかを検出する。ユーザが誤って音声認識開始の合図をした場合や、音声認識開始検出部１０３が音声認識開始の合図を誤検出した場合に、自動的に元の状態へ復帰させるためのタイムアウトを設定しておくと良い。さらに、図１１の表示１１０１のようにタイムアウトまでの時間をＯＳＤ表示しても良いし、図１２に示すパターンのようにＬＥＤの点灯や点滅で表示しても良い。また、発話検出部１０４がユーザの発話を検出する前後で、ＬＥＤ点滅、ＯＳＤ表示を変更すると、ユーザは自分の発話が受理されているかどうかがわかりやすい。図１２はＬＥＤによるステータス表示の一例である。図１２のグラフの横軸は時間であり、縦軸はＬＥＤの点灯・消灯の状態を表す。この例では、時刻ｔ１で音声認識開始合図が検出されるとＬＥＤが点灯し、時刻ｔ２で発話が検出されるとＬＥＤが点滅し、時刻ｔ３で音声認識が終了するとＬＥＤが消灯する。
【００２９】
音声認識終了検出部１０５は、音声認識を終了するか否かを判定する（ステップＳ５）。例えば「無音区間が一定時間以上継続していること」は本実施形態の音声認識終了条件の一つである。音声認識部１０７は音声認識を実行し音声認識結果を得る（ステップＳ６）。信号送信部１０８は音声認識結果に応じてテレビ受像機１１０の操作コマンドをテレビ音量制御部１１１に送信する（ステップＳ７）。
【００３０】
ここでは、チャンネル切替、音量変更、入力切り替え、画面モード切替など、あらかじめ特定の音声コマンド（音声認識結果）と対応づけられた操作コマンドを送信する。操作コマンドと音声コマンドとの対応付けの例を図１３のテーブル１３００と図１４のテーブル１４００に示す。この際、ユーザが誤って音声認識開始の合図をしてしまった場合や、音声認識開始検出部１０３が音声認識開始の合図を語検出した場合に元の状態に復帰するための音声コマンド（図１３のコマンド１３０１）を用意しておくと良い。
【００３１】
テレビ受像機１１０は、音声認識開始コマンド以外の操作コマンドを受信した場合（ステップＳ１０２−Ｎｏ）、キャンセルコマンドかどうかを判断する（ステップＳ１１０）。キャンセルコマンドである場合（ステップＳ１１０−Ｙｅｓ）、テレビ操作を実行せずに音声認識開始前の状態に戻す（ステップＳ１１２）。キャンセルコマンドでない場合（ステップＳ１１１−Ｎｏ）、受信した操作コマンドに対応づけられたテレビ操作を実行し（ステップＳ１１１）、音声認識開始前の音量設定に戻す（ステップＳ１１２）。
【００３２】
上述したように、本実施形態のテレビは、音声認識開始前のテレビ音量に応じて、音声認識処理の間のテレビ音量を一時的に制御する。これにより、少ない演算量で精度良い音声認識をしつつ、音声での操作によって視聴が妨げられにくいテレビが実現される。
【００３３】
また、本実施形態のテレビは、蓄積コンテンツを再生している場合、音声認識中に再生を一時停止させる。これにより、音声での操作中に、蓄積コンテンツを不完全な状態で視聴することが避けられる。
【００３４】
（第２の実施形態）
図面を用いて第２の実施形態のテレビを説明する。第１の実施形態と同じ処理・構成については同じ符号を付して説明を省略し、第１の実施形態と異なる部分を説明する。図１５は、本実施形態のテレビ受像機１１０が行う処理のフローチャートである。
【００３５】
テレビ受像機１１０は、音声認識開始コマンドを受信した後、現在の視聴メディアに応じて処理動作を変える（ステップＳ１０３）。現在の視聴メディアが放送である場合、テレビ制御部１１１は画面を静止させるとともに音声をミュート状態にする（ステップＳ２０１）。その後、すぐに録画部１１４はその放送の録画を開始する（ステップＳ２０２）。
【００３６】
テレビ制御部１１１は、音声認識終了後に音声認識結果に基づく操作コマンドを受信し、操作コマンドに対応するテレビ操作を実行する（ステップＳ１１１）。制御部１１１は（１）音声認識開始前の視聴メディアが放送であるか、（２）ステップＳ２０１の処理によって画面が静止し、かつ、音声がミュート状態になっているか、（３）音声認識開始前の視聴メディアの録画が開始されているか、並びに、（４）テレビ制御部１１１によって実行されたテレビ操作が放送波のチャンネル変更でないか、の４つの条件を満たすかを判定する（ステップＳ２０３）。（１）〜（４）のすべての条件を満たす場合は、静止した画面からの追っかけ再生を開始する（ステップＳ２０４）。典型的には、チャンネル変更でない操作（例えば音量変更）が行われた場合である。
【００３７】
一方、（１）〜（４）のいずれか一つでも条件を満たさない場合には、追っかけ再生を行わなずに、制御部１１１は音声認識開始前の音量設定に復帰させる（ステップＳ１１２）。ステップＳ２０２で録画処理が実行され、その後、視聴チャンネルの変更が行われた場合は録画を停止しても構わない。録画を停止した場合、録画したデータは消去しても構わない。
【００３８】
本実施形態のテレビは、音声をミュートした状態で音声認識できるので、少ない演算量で精度良く音声認識できる。また、音声認識中の放送内容が録画され、音声認識後に追っかけ再生されるので、音声でテレビを操作しても視聴が妨げられにくくなる。
【００３９】
（第３の実施形態）
図面を用いて第３実施形態のテレビを説明する。第１及び第２の実施形態と同じ処理及び構成については同じ符号を付して説明を省略する。第１及び第２の実施形態と異なる処理及び構成を説明する。
【００４０】
図１６は、本実施形態の音声認識装置１００およびテレビ受像機１１０の構成を示すブロック図である。図１７は、第３の実施形態に係る音声認識装置１００およびテレビ受像機の外観の一例を示す模式図である。
【００４１】
図１７に示すように、本実施形態の音声認識装置１００（２１０）とテレビ受像機１１０（２００）は離れた位置にある。本実施形態の音声認識装置１００はテレビ受像機１１０を離れた場所から操作するためのリモコン装置（リモートコマンダー）である。本実施形態の音声認識装置１００はテレビ受像機１１０に無線（例えば、赤外線パルスや電波）で操作コマンドを送信する。
【００４２】
本実施形態の音声認識装置１００は、音声認識装置１００が置かれた位置での環境音を推定するために、テレビ音量推定部１２０を備える。テレビ音量計測部１２０は、音声入力部１０２に入力された環境音の過去一定時間の音量の平均値からテレビ音量を推定する。
【００４３】
本実施形態の信号送信部１０８は、テレビ音量推定部１２０で推定されたテレビ音量に応じて音声認識中のテレビ受像機１１０の音量レベルを変更する。信号送信部１０８は推定された音量レベルに基づいて音声認識中の音量レベルを求める。推定された音量レベルと音声認識中の音量レベルとの対応関係として、例えば図７、図８、図９及び図１０に示した設定例を用いることができる。もちろん、他の設定例を用いても構わない。信号送信部１０８は求められた音量レベルに設定するための操作コマンドをテレビ受像機１１０へ送信する。信号送信部１０８は音量レベルを下げる操作コマンドを繰り返し送信しても構わないし、音量レベルの値を直接指定する操作コマンド（ダイレクトコード）を送信しても構わない。また、音量レベルを半分にする（１／２ミュート）のような特別な操作コマンドを送信しても構わない。音声認識を行う間の音量レベルを、ある一定の水準よりも低くすることができれば他の操作コマンドでも構わない。
【００４４】
図１８は、第３の実施形態に係る音声認識装置１００の処理動作を示すフローチャートである。図１９は、第３の実施形態に係るテレビ受像機１１０の処理動作を示すフローチャートである。
【００４５】
音声認識開始検出部１０３が音声認識開始を検出すると、テレビ音量推定部１２０は音声入力部１０２に入力された環境音の過去一定時間の音量の平均値からテレビ音量を推定する（ステップＳ１０）。推定されたテレビ音量に応じて、信号送信部１０８は音声認識中のテレビ音量を変更するための操作コマンドを送信する（ステップＳ１１）。その後、音声認識部１０７は音声認識を行って音声認識結果を得る（ステップＳ４、ステップＳ５、ステップＳ６）。信号送信部１０８は音声認識結果に基づく操作コマンド送信を実行し（ステップＳ７）、その後、ミュート解除コマンド等、音量を音声認識入力前の状態に戻すための操作コマンドを送信する（ステップＳ１２）。
【００４６】
上述したように、本実施形態のテレビは、音声認識開始前のテレビ音量に応じて、音声認識処理の間のテレビ音量を一時的に制御する。これにより、少ない演算量で精度良い音声認識をしつつ、音声での操作によって視聴が妨げられにくいテレビが実現される。また、本実施形態のテレビは音声認識部で計測されるテレビ音量に基づいて音声認識中のテレビ音量を制御する。これにより、音声認識のために必要な範囲でテレビ音量を制御できる。
【００４７】
（第４の実施形態）
図面を用いて第４実施形態のテレビを説明する。第１〜第３の実施形態と同じ処理及び構成については同じ符号を付して説明を省略する。第１〜第３の実施形態と異なる処理及び構成を説明する。
【００４８】
図２０は本実施形態のテレビジョン装置１０の構成を示すブロック図である。本実施形態のテレビジョン装置１０は、音声認識装置１００とテレビ受像機１１０を有する。音声認識装置１００は、マイク１０１、音声入力部１０２、音声認識開始検出部１０３、発話検出部１０４、音声認識終了検出部１０５、音声認識部１０７、及び信号送信部１０８を有する。テレビ受像機１１０はテレビ制御部１１１、映像再生部１１３、スピーカー１１５及び表示部１１６を有する。
【００４９】
図２１は本実施形態に係るテレビ受像機１１０の処理動作を示すフローチャートである。本実施形態のテレビ受像機１１０は、蓄積コンテンツを視聴している場合にも放送コンテンツを視聴している場合にも、音声認識開始コマンドを受信した後に音量の制御を行う（ステップＳ１０７、ステップＳ１０８）。
【００５０】
本実施形態のテレビは、音声認識開始前のテレビ音量に応じて、音声認識処理の間のテレビ音量を一時的に制御する。これにより、少ない演算量で精度良い音声認識をしつつ、音声での操作によって視聴が妨げられにくいテレビジョン装置が実現される。
【００５１】
（変形例）
本発明は上述した各実施形態に限定されるものではない。各実施形態の各要素の具体的な構成に関しては、当業者が公知の範囲から適宜選択することにより本発明を同様に実施し、同様の効果を得ることができる限り、本発明の範囲に包含される。
【００５２】
また、各実施形態のいずれか２つ以上の要素を技術的に可能な範囲で組み合わせたものも、本発明の要旨を包含する限り本発明の範囲に含まれる。一つの実施形態又は複数の実施形態を組み合わせたものを当業者が適宜設計変更したものも、本発明の要旨を包含する限り、本発明の範囲に属する。
【００５３】
その他、本発明の思想の範疇において、当業者であれば、各種の変更例及び修正例に想到し得るものであり、それら変更例及び修正例についても本発明の範囲に属するものと了解される。
【００５４】
本発明の幾つかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【００５５】
１０テレビ１００音声認識装置１０１マイク
１０２音声入力部１０３音声認識開始検出部１０４発話検出部
１０５音声認識終了検出部１０６エコーキャンセル部１０７音声認識部
１０８信号送信部１１０テレビ受像機１１１テレビ音量制御部
１１２計算リソース監視部１１３映像再生部１１４録画部
１１５スピーカ１１６表示部１３０制御部
１３１記憶部１３２外部記憶部１３３操作部
１３４通信部１３５バス１３６音声入力部
２００テレビ受像機２０１フレーム２０２表示部
２０３リモコン受信部２０４マイク２０５リモコン
２１０音声認識装置

【特許請求の範囲】
【請求項１】
音声を入力する音声入力部と、
音声認識を開始する指示の入力をユーザから受ける指示入力部と、
前記指示の入力を受けた後のユーザの発話に対して音声認識を行って音声認識結果を得る音声認識部と、
前記音声認識結果に対応付けられた操作コマンドを実行する制御部と、
を有し、
前記制御部は、前記指示の入力を受けた時の出力音量の設定値が閾値以上である場合、前記音声認識部が音声認識を行う間の出力音量の設定値を一時的に前記閾値以下の値に変更する、
ことを特徴とするテレビジョン装置。
【請求項２】
記録媒体に記録された蓄積コンテンツを再生する再生部を更に備え、
前記蓄積コンテンツの再生中に前記指示の入力を受けた場合、前記音声認識部が音声認識を行う間、前記再生部は前記蓄積コンテンツの再生を一時停止する、
ことを特徴とする請求項１に記載のテレビジョン装置。
【請求項３】
放送番組を録画して録画コンテンツを得る録画部と、
録画コンテンツを再生する再生部と、
を更に備え、
前記放送番組の視聴中に前記指示の入力を受けた場合、前記録画部は前記放送番組の録画を開始し、
前記音声認識部による音声認識処理が終わってから、前記再生部は前記録画コンテンツの追っかけ再生を行う、
ことを特徴とする請求項１に記載のテレビジョン装置。
【請求項４】
前記制御部は、特定の音声認識結果を受けた場合、出力音量の設定値を前記指示の入力を受ける前の値に戻すことを特徴とする請求項１に記載のテレビジョン装置。
【請求項５】
ユーザの発話を検出する発話検出部を更に備え、
前記制御部は、前記指示の入力を受けてから前記所定時間を経過するまでの残り時間を画面に表示するとともに、
前記指示の入力を受けてから所定時間内に発話が検出されなかった場合、前記制御部は出力音量の設定値を前記指示の入力を受ける前の値に戻す、
ことを特徴とする請求項１に記載のテレビジョン装置。
【請求項６】
前記音声入力部に入力された音から出力音声をキャンセルするエコーキャンセル部と、
前記テレビジョン装置のメインプロセッサの計算リソースを監視する計算リソース監視部と、
を備え、
前記制御部は、前記指示の入力を受けた時の計算リソースに応じて、出力音量の制御を行うか、前記エコーキャンセル部にエコーキャンセル処理を実行させるかを切り替える、
ことを特徴とする請求項１に記載のテレビジョン装置。
【請求項７】
テレビジョン装置を操作するための遠隔操作装置であって、
音声を入力する音声入力部と、
前記音声入力部に入力される音量に基づいて、前記テレビジョン装置の出力音量レベルを推定する音量推定部と、
音声認識を開始する指示の入力をユーザから受ける指示入力部と、
前記指示の入力を受けた後のユーザの発話に対して音声認識を行って音声認識結果を得る音声認識部と、
前記音声認識結果に対応付けられた操作コマンドを表す信号を前記テレビジョン装置に送信する送信部と、
を有し、
前記送信部は、前記出力音量レベルの推定値が閾値以上である場合、前記音声認識部が音声認識を行う間の前記テレビジョン装置の出力音量の設定値を一時的に所定値に変更するための特定の操作コマンドを前記テレビジョン装置に送信する、
ことを特徴とする遠隔操作装置。

【図１】