説明

音声処理装置、音声処理システム及び音声処理方法

【課題】入力される音の誤認識を抑制することを可能とする音声処理装置、音声処理システム及び音声処理方法の提供。
【解決手段】本実施形態の音声処理装置は、外部からの入力を受け付ける第1受付手段と、前記第1受付手段が前記入力を受け付けた場合に、音声出力機能を有する少なくとも1の外部機器に対して音量制限命令を送出する制限手段と、前記第1受付手段が前記入力を受け付けた後に、音の入力を受け付ける第2受付手段と、前記制限手段により制限された前記1以上の外部機器の音量の解除命令を、前記第2受付手段が受け付けた前記音に応じて異なるタイミングで送出する解除手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、入力された音声に応じた処理を実行する情報処理装置、音声出力システム及び音声出力方法に関する。
【背景技術】
【0002】
ユーザからの音声が入力され、当該入力音声に含まれる語を認識して入力音声に応じた処理を実行する装置がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−290859号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、入力された音声に含まれる語を装置が誤認識すると、ユーザの意図に応じた処理を実行できない恐れがある。
そこで本発明の実施形態は、入力された音の誤認識を抑制することを可能とする音声処理装置、音声処理システム及び音声処理方法の提供を目的とする。
【課題を解決するための手段】
【0005】
上記の課題を解決するために、本実施形態の音声処理装置は、外部からの入力を受け付ける第1受付手段と、前記第1受付手段が前記入力を受け付けた場合に、音声出力機能を有する少なくとも1の外部機器に対して音量制限命令を送出する制限手段と、前記第1受付手段が前記入力を受け付けた後に、音の入力を受け付ける第2受付手段と、前記制限手段により制限された前記1以上の外部機器の音量の解除命令を、前記第2受付手段が受け付けた前記音に応じて異なるタイミングで送出する解除手段とを備える。
【図面の簡単な説明】
【0006】
【図1】実施形態に係る音声リモコンの利用形態例を示す図。
【図2】実施形態に係る音声リモコン、表示装置、オーディオ装置のシステム構成例を示す図。
【図3】実施形態に係る音声リモコンが備えるデータベースの構成例を示す図。
【図4】実施形態に係る表示装置が表示する入力切替画面例を示す図。
【図5】実施形態に係る音声リモコン、表示装置、オーディオ装置による処理シーケンス例を示す図。
【図6】実施形態に係る音声リモコンによる音声認識処理に係る処理フロー例を示す図。
【図7】実施形態に係る表示装置による、音声リモコンからの指示に応じた処理フロー例を示す図。
【発明を実施するための形態】
【0007】
以下、図面を参照して実施形態を説明する。
図1は本実施形態に係る情報処理システムの利用形態例を示す図である。ここで、本情報処理システムは、例えば音声認識リモートコントローラ(以下音声リモコン)100、表示装置200、オーディオ装置300等を備えている。
【0008】
音声リモコン100は、音声入力部101、操作受付部102、音声認識部104、信号送信部110等を備え、表示装置200を操作するリモートコントローラとしての機能を有する。ここで音声入力部101は、例えばマイク等の音声入力装置であり、ユーザが発声/発音した音声が入力される。そして音声認識部104は、音声入力部101に入力された音声を解析して入力音声に含まれる語を判別し、信号送信部110は、判別された語に対応する操作信号を無線や赤外線により表示装置200に送信する。また信号送信部110は、例えば操作受付部102が操作入力を受けた場合や、音声入力部101に拍手音等のトリガ音声が入力された場合に、表示装置200及びオーディオ装置300に対して音量の制限を指示する信号を送信する。
【0009】
表示装置200は、スピーカ部210、表示部211、信号受信部212等を備え、コンテンツを再生(デコード)する機能を有する。ここでスピーカ部210は、再生されたコンテンツの音声を出力し、表示部211は、再生コンテンツの映像を表示する。また信号受信部212は、音声リモコン100から送信された、音量操作信号等の各種操作信号(コマンド)を受信する。そして表示装置200は、受信した操作信号に応じた処理を実行する。
【0010】
オーディオ装置300は、スピーカ部305、信号受信部306等を備え、ODDや記憶装置に格納された音声コンテンツを再生する機能を有する。ここでスピーカ部305は、再生された音声コンテンツの音声を出力する。また信号受信部306は、音声リモコン100から送信された音量制限信号等を受信する。そしてオーディオ装置300は、受信した操作信号に応じた処理を実行する。
【0011】
そして本実施形態に係る情報処理システムにおいて、音声リモコン100は、ユーザからのトリガ入力を受けた場合、表示装置200及びオーディオ装置300等の、音声を音声出力する装置に対して音量の制限を指示する信号を送信する。これにより、音声リモコン100は、当該音声リモコン100の周囲における音声出力を抑制して、ユーザが発声した音声を入力して音声認識する場合に、入力音声にユーザの発声した音声以外の雑音が混じることを抑制して、発声音声のご認識を抑えることができる。
【0012】
次に図2を参照して、音声リモコン100、表示装置200、オーディオ装置300のシステム構成例を説明する。
まず音声リモコン100を説明する。音声リモコン100は、音声入力部101、操作受付部102、トリガ検出部103、音声認識部104、タイマ部105、信号受信部106、制御部107、学習部108、記憶部109、信号送信部110等を備える。
【0013】
音声入力部101には、ユーザが発声/発音した音声が入力される。ここで入力される音声としては、例えば表示装置200に対する操作を指示する音声(語)や、拍手音等が挙げられる。そして音声入力部101は、入力された音声をトリガ検出部103及び音声認識部104に出力する。
【0014】
操作受付部102は、例えば音声リモコン100の筐体に設けられた1以上のボタンであり、音声認識開始操作や所定のラベル、所定の音声(語)に対する信号追加操作等を受け付ける。そして操作受付部102は、音声認識開始操作を受けた場合、トリガ検出部103に通知を出力し、信号追加操作を受けた場合、制御部107に信号追加通知を出力する。なおラベルについては図3を参照して後述する。
【0015】
トリガ検出部103は、音声入力部101から入力された音声からトリガ音声を検出する。ここでトリガ検出部103は、例えば所定音量以上の所定回数の拍手音等をトリガ音声として検出する。そしてトリガ検出部103は、トリガ音声を検出した場合、及び操作受付部102からの通知を受けた場合、制御部107にトリガ検出通知を出力する。またトリガ検出部103は、操作受付部102からの通知を受けた場合にも、制御部107にトリガ検出通知を出力する。
【0016】
音声認識部104は、音声入力部101から入力された音声を解析して、当該音声に含まれる音声(語)を判別する。ここで音声認識部104は、記憶部109に記憶された複数のデータベースのうちの何れかのデータベースに基づいて判別を行う。夫々のデータベースには、音声リモコン100が送信できる操作信号と、当該操作信号に対応する音声(語)と、当該音声の参照用の特徴量とが対応付けて格納されている。なお当該データベースについては、図3を参照して後述する。
【0017】
そして音声認識部104は、データベースに格納された参照用音声特徴量のうち、例えば入力音声の特徴量に対して所定の閾値以上の一致度を示す参照用音声特徴量に対応付けられた音声(語)を、入力された音声(語)であると判別する。次に音声認識部104は、入力音声が何れの操作信号に対応する音声(語)であるかを示す通知を制御部107に出力する。なお、音声認識部104は、制御部107からの指示に応じて音声認識を開始/終了する。
【0018】
タイマ部105は、制御部107の指示に応じてタイマをスタート/リセットさせる。
信号受信部106は、音声リモコン100とは異なるリモートコントローラから送信された操作信号を受信する機能を有する。ここで、異なるリモートコントローラとは、例えば表示装置200用の、当該表示装置200が対応する操作信号を送信する装置や、オーディオ装置300用の操作信号を送信する装置等である。また、図示しないセットトップボックス用の操作信号を送信する装置から操作信号を受信してもよい。ここで、信号受信部106は、例えば音声リモコン100が、他のリモートコントローラの操作信号の信号を学習する場合に、当該他のリモートコントローラからの操作信号を受信する。そして信号受信部106は、受信した信号を制御部107を経由して学習部108に出力する。
【0019】
制御部107は、音声リモコン100の各構成を制御する機能を有する。制御部107は、例えば、音声認識部104による音声認識(判別)処理の開始/終了、音声認識部104による音声認識処理に使用するデータベースの選択、信号送信部110による操作信号の送信等を制御する。なお音声認識の開始/終了、データベース選択、操作信号の送信の制御については、図3乃至図6を参照して後述する。
【0020】
学習部108は、記憶部109に予め登録されていない機器に対する操作信号を学習して記憶部109に記憶させる機能を有する。学習部108は、操作受付部102から所定のラベルや音声(語)に対する信号追加通知が入力されると、追加する操作信号を信号受信部106に送信するようユーザに要求する。なお、ここで学習部108は、例えば図示しない表示部や音声出力部から、ユーザに対して上記の要求を行う。そして学習部108は、信号受信部106が受信した操作信号をラベルや音声(語)に対応付けて、例えば図3に示すようなテーブル形式で記憶部109に記憶させる。つまり学習部108は、記憶部109に予め登録されていないミュート等の音量制限をかける信号や、音量制限を解除する信号等を記憶部109に記憶させる。言い換えると学習部108は、音声入力部101に入力される音声と、信号受信部106が受信した、予め音声リモコン100に登録されていない操作信号との対応付けをユーザに許可する。
【0021】
る。また学習部108は、音量制限に関する操作信号の他の操作信号も学習でき、例えばチャンネル変更を指示する操作信号等を学習して記憶部109に記憶させる。
記憶部109は、音声入力部101に入力された音声の判別に用いるデータベースを記憶する。ここで前述の通り、データベースには、音声リモコン100が送信できる操作信号と、当該操作信号に対応する音声(語)と、当該音声の参照用の特徴量とが対応付けて格納される。なお当該データベースについては、図3を参照して後述する。
【0022】
信号送信部110は、表示装置200及びオーディオ装置300に対して各種の操作信号を送信する。
次に表示装置200を説明する。表示装置200は、チューナ201、復調部202、入力部203、切替部204、分離部205、音声デコード部206、映像デコード部207、音声処理部208、表示処理部209、スピーカ部210、表示部211、信号受信部212、制御部213、GUI生成部214等を備える。
【0023】
チューナ201は、例えばBS/CS(Broadcasting Satellite/Communication Satellite)デジタル放送受信用のアンテナ(不図示)が受信した衛星デジタルテレビジョン放送信号や、地上波放送受信用のアンテナ(不図示)が受信した地上波デジタルテレビジョン放送信号を受信する。
【0024】
そして復調部202は、例えばPSK(Phase Shift Keying)方式やOFDM(Orthogonal Frequency Division Multiplexing)方式等により、チューナ201が受信した放送信号を、TS(Transport Stream)形式のデータに復調する。そして復調されたデータは切替部204に出力される。
【0025】
入力部203は、例えばHDMI等の外部入力端子である。そして入力部203には、接続された外部機器から出力された映像・音声データが入力され、入力されたデータは切替部204に出力される。
【0026】
切替部204は、復調部202及び入力部203等のモジュールから入力された映像・音声データのうち、制御部213からの指示に応じたモジュールから入力されたデータを分離部205に出力する。
【0027】
分離部205は、入力されたデータから映像データと音声データとを分離させる。そして分離部205は、音声データを音声デコード部206に、映像データを映像デコード部207に出力する。
【0028】
音声デコード部206は、分離部205から入力された音声データを復号して当該復号した音声データを音声処理部208に出力する。また映像デコード部207は、分離部205から入力された映像データをデコードし、デコードした映像データを表示処理部209に出力する。なお映像デコード部207は、メインの映像のデータであるビデオデータと字幕等の映像のデータであるサブピクチャとの両方をデコードすることができるが、制御部213からの指示に応じて、サブピクチャのデコードの実行/停止を切り替える。
【0029】
音声処理部208は、音声デコード部206がデコードした音声データを、スピーカ等の音声出力装置が出力可能な形式の音声信号に変換する。そして音声処理部208は、変換した当該音声信号をスピーカ部210に出力する。
【0030】
表示処理部209は、映像デコード部207がデコードした映像データ、及びGUI生成部214が生成した画面の映像データを、ディスプレイ等の表示装置が表示可能な形式の映像信号に変換して、当該映像信号を表示部211に出力する。また表示処理部209は、映像デコード部207から、ビデオデータとサブピクチャの両方のデコードデータが入力された場合は、これらを重畳した形式の映像信号を生成する。
【0031】
スピーカ部210は、音声処理部208から入力された音声信号の音声を、制御部213からの指示に応じた音量で出力する。また、表示部211は、表示処理部209から入力された映像信号の映像を表示する。
【0032】
信号受信部212は、音声リモコン100からの操作信号を受信し、制御部213に出力する。そして制御部213は、入力された操作信号に応じて表示装置200の各構成を制御する。制御部213は、例えば音量制御についての信号を受けた場合はスピーカ部209を制御して出力音声の音量を制御し、字幕表示制御についての信号を受けた場合はデコード部206を制御して字幕のデータのデコード及び出力を制御する。また制御部213は、チャンネル制御についての信号を受けるとチューナ201を制御して受信チャンネルを制御し、入力切替用GUI表示信号を受けるとGUI生成部214にGUIの生成を指示し、入力切替についての信号を受けると、切替部204を制御して映像の入力先を切り替える。
【0033】
GUI生成部214は、制御部213からの指示に応じてGUIを生成し、当該生成したGUIの映像データを表示処理部209に出力する。なおGUI生成部214が生成する画面については図4を参照して後述する。
【0034】
次にオーディオ装置300を説明する。オーディオ装置300は、メディアリーダ301、分離部302、音声デコード部303、音声処理部304、スピーカ部305、信号受信部306、制御部307等を備える。
【0035】
メディアリーダ301は光学ディスクやフラッシュデバイス等の記憶メディアから、音声データ等のデータを読み出す機能を有し、読み出したデータを分離部302に出力する。そして分離部302は、入力されたデータのうち音声データを分離して音声デコード部303に出力する。音声デコード部303は、入力された符号化データをデコードして、当該デコードデータは、音声処理部304によりスピーカ装置用の音声信号に変換される。そしてスピーカ部305は、当該音声信号に基づいた音声を、制御部307からの指示に応じた音量で出力する。
【0036】
信号受信部306は、音声リモコン100からの操作信号を受信する。そして制御部307は、信号受信部307が受信した操作信号のうち、当該制御部307が解釈可能な自機器用の信号に応じてオーディオ装置300の各構成を制御する。つまり、信号受信部306が、自機器に対応した音量操作信号を受信すると、当該信号に応じてスピーカ部305を制御して出力音量を調整する。
【0037】
次に図3を参照して、音声リモコン100の記憶部109が格納して操作信号の送信に用いるデータベースの構成例を説明する。
図3(A)、(B)及び(C)は、音声(語)と操作信号とを対応付けたデータベースの構成例を示す。
図3(A)に示す「Grm_First」は、音声リモコン100が音声認識を開始するトリガを検出した場合に音声認識に利用するデータベースの構成例である。データベース30には、音声(語)フィールドA1、制御信号フィールドB1、次状態フィールドC1が格納される。ここで、音声(語)フィールドA1は、音声リモコン100に入力された音声(語)に対して一致度を判別する候補となる音声(語)を格納するフィールドである。そして夫々の音声(語)に対して、参照用の音声特徴量が対応付けられる(音声特徴量は不図示)。
【0038】
操作信号フィールドB1には、音声(語)に対応する操作信号又はラベルIDが格納される。そして音声リモコン100は、音声フィールドA1中の音声(語)が入力されたと判別した場合、当該音声に対応付けられた操作信号を表示装置200に送信する。なおラベルIDには、所定の操作信号が対応付けられており、音声リモコン100は、ラベルID毎に設定された条件を満たす場合に、当該IDに対応付けられた操作信号を送信する。
【0039】
次状態フィールドC1には、音声(語)に対応するデータベース名が格納される。ここで、音声リモコン100が、ある音声(語)が入力されたと判別した場合に当該音声(語)に対応するデータベース名が格納されていると、音声リモコン100は、当該データベース名に対応したデータベースを用いた音声認識を開始する。一方データベース名が格納されていない場合、音声リモコン100は、音声認識を終了する。
【0040】
そして、データベース30の音声フィールドA1には、例えば「音量上げる」、「音量下げる」、「字幕」、「テレビのチャンネルスキャン」、「セットトップボックスのチャンネルスキャン」「入力切替」、「1」、「2」といった音声(語)が格納されている。つまり音声リモコン100は、音声認識に用いるデータベースとしてデータベース30を設定している場合に、自機器に入力された音声が「音量上げる」であると判別すると、当該音声リモコン100は操作信号「TV_VolumeUP」を送信する。なお、「TV_VolumeUP」は、表示装置200に出力音量の増加を指示する操作信号である。
【0041】
同様に音声リモコン100は、「音量下げる」「字幕」「1」「2」の音声(語)が入力されたと判別すると、夫々「TV_VolumeDown」、「TV_Subtitle」、「TV_Number1」、「TV_Number2」の操作信号を送信する。なおこれらの信号は夫々、音量の減少、字幕表示ON/OFF切替、チャンネル1の映像表示、チャンネル2の映像表示、を表示装置200に対して指示する信号である。
【0042】
また音声リモコン100は、「テレビのチャンネルスキャン」、「セットトップボックスのチャンネルスキャン」の音声(語)が入力されたと判別すると、夫々「TV Ch Up」、「Box Ch Up」のラベルIDに対応する処理を実行するとともに、「Grm_Scanning」のデータベースを音声認識に用いるデータベースとして設定する。「TV Ch Up」、「Box Ch Up」のラベルID及び「Grm_Scanning」のデータベースについては後述する。
【0043】
また音声リモコン100は、「入力切替」の音声(語)が入力されると、「TV_ShowInputGUI」の操作信号を送信すると共に、「Grm_InputNumber」のデータベースを音声認識用のデータベースとしてセットする。なお「TV_ShowInputGUI」は、表示装置200に入力切替画面の表示を指示する信号である。
【0044】
次に図3(B)を参照して、「Grm_Inputnumber」のデータベース構成例を説明する。
データベース31は、音声リモコン100に「入力切替」の音声(語)が入力された場合に、当該音声リモコンが音声認識に利用するデータベースの構成例である。データベース31には、音声(語)フィールドD1、操作信号フィールドE1が格納される。なお音声(語)フィールドD1は、音声リモコン100に入力された音声(語)に対して一致度を判別する候補となる音声(語)を格納するフィールドである。夫々の音声(語)に対しては参照用の音声特徴量が対応付けられる(音声特徴量は不図示)。
【0045】
操作信号フィールドE1には、音声(語)に対応する操作信号が格納される。そして音声リモコン100は、音声フィールドD1に含まれる音声(語)が入力されたと判別した場合、当該音声に対応付けられた操作信号を表示装置200に送信する。
【0046】
そして、データベース31の音声フィールドD1には、例えば「1」、「2」等の番号の音声(語)や「キャンセル」等の音声(語)が格納される。
つまり音声リモコン100は、音声認識に用いるデータベースとしてデータベース31を設定している場合に、自機器に「1」又は「2」等の番号の音声が入力されたと判別すると、当該音声リモコン100は操作信号「TV_InputNumber1」又は「TV_InputNumber2」を送信する。なお、これらの信号は、表示装置200が表示する映像や出力する音声の入力先の指示をする操作信号である。
【0047】
次に図3(B)を参照して、「Grm_Scanning」のデータ構成例を説明する。
データベース32は、音声リモコン100が「Grm_Scanning」のデータベースを設定した場合に音声認識に利用するデータベースの構成例である。データベース32には、音声(語)フィールドF1、処理フィールドG1、次状態フィールドH1が格納される。音声(語)フィールドF1は、音声リモコン100に入力された音声(語)に対する候補の音声(語)を格納し、夫々の音声(語)について参照用の特徴量が対応付けられる。
【0048】
処理フィールドG1には、音声(語)に対応する処理内容が格納される。そして音声リモコン100は、音声フィールドG1中の音声(語)が入力されたと判別した場合、当該音声に対応付けられた処理を実行する。
【0049】
次状態フィールドH1には、音声(語)に対応するデータベース名が格納される。音声リモコン100は、ある音声(語)が入力されたと判別した場合に当該音声に対応するデータベース名が格納されていると、当該データベース名に対応したデータベースを用いた音声認識を開始する。一方入力音声に対応するデータベース名が次状態フィールドH1に格納されていない場合、音声リモコン100は音声認識を終了する。
【0050】
つまり音声リモコン100は、「停止」の音声が入力されたと判別すると、ラベルIDに対応する信号の送信を停止して音声認識を終了し、「逆」の音声が入力されると、「逆順」のフラグを立て、音声認識を継続する。
【0051】
次に図4(D)を参照して、音声リモコン100が利用する「Label Table」のデータ構成例を説明する。音声リモコン100は、当該データベース33を用い、所定の条件を満たした場合に操作信号を送信する。
【0052】
データベース33には、ラベルIDフィールドK1、操作信号フィールドL1,逆順フィールドM1等が格納される。
ラベルフィールドK1には、「Mute on」、「Mute off」、「TV Ch up」、「TV Ch down」、「Box Ch up」、「Box Ch down」等のIDが格納される。そして夫々のIDには、ID毎に設定された条件が対応付けられる。例えば「Mute on」にはトリガ入力が条件として設定され、また、「Mute off」には、例えば入力された音声に対応する次状態フィールドに次状態が格納されていないことが条件として設定されている。また、例えば「TV Ch up」には、当該ラベルに対応する音声認識結果が(テレビのチャンネルスキャン)が得られたことが条件として設定されている。
【0053】
操作信号フィールドL1には、ラベルIDに対応する操作信号が格納される。そして音声リモコン100は、ラベルフィールドL1に対応付けられた条件が満たされた場合、ラベルに対応する操作信号を送信する。なお、操作信号フィールドL1には、前述の学習機能により新たな信号を追加登録することが可能である。例えば、「Box Ch up」に相当する操作信号を学習すれば、テレビ以外の機器のチャンネルスキャン機能を新たに実現することも可能である。
【0054】
データベース33において「Mute on」のラベルIDには例えば「TV_Mute」「Audio_Mute」が対応付けられている。ここで「TV_Mute」は表示装置200に出力音量の抑制を指示し、「Audio_Mute」はオーディオ装置300に出力音量の抑制を指示する信号である。
【0055】
「Mute off」のラベルIDには「TV_MuteOff」、「Audio_MuteOff」が対応付けられている。これらは夫々前述の「TV_Mute」「Audio_Mute」が指示した出力音量の抑制を解除させる信号である。
【0056】
「TV Ch Up」「TV Ch Down」には、「TV_Channel_up」「TV_Channel_down」の信号が対応付けられている。これらの信号は、表示装置200に対して表示する放送番組のチャンネルの上/下を指示する。
【0057】
なおこれらの信号は、予め工場出荷時に音声リモコン100に記憶されていても良いし、あるいは前述した学習機能により音声リモコン100が記憶しても良い。つまり音声リモコン100は、表示装置200やオーディオ装置300が対応する操作信号を受信して記憶し、当該記憶した操作信号を、音声認識の際に入力された音声や、ラベルに付随する条件に応じて送信できる。
【0058】
次に図4を参照して、表示装置200が表示する入力切替画面の画面例を説明する。
画面40には、入力先のポート名と番号と対応付けて配置される。そして表示装置200は、当該画面40を表示している場合に音声リモコン100から「TV_InputNumber1」等の、入力切替を指示する操作信号が入力されると、当該信号に応じた入力ポートを入力先として設定し、設定されたポートから入力された映像・音声データを再生・出力する。
【0059】
次に図5を参照して、音声リモコン100、表示装置200、オーディオ装置300による処理シーケンスを説明する。
まず音声リモコン100は、音声認識開始のトリガ入力を受けると(S501)、音声認識用のデータベースとして図3(A)で示したデータベースをセットし(S502)、音量抑制の指示信号を送信する(S503)。そして表示装置200及びオーディオ装置300は、当該信号を受信すると、出力音量を制限する(S504)。なお出力音量の制限の際に表示装置200及びオーディオ装置300は、音量をミュートさせて音声の出力を停止しても、あるいは所定の音量以下にしてもよい。
【0060】
続いて音声リモコン100はユーザが発声した音声を受け付けて、当該音声が何れの操作信号の送信を指示しているかを判別する(S506)。ここで音声リモコン100は、入力された音声に対応する操作信号を送信し(S507)、表示装置200は、受信した操作信号に応じた処理を実行する(S508)。
【0061】
そして音声リモコン100は、受け付けた音声に対して、セットされている音声認識データベースの次状態フィールドに次状態が格納されているか否かを判別する(S509)。ここで次状態が設定されている場合(S510のYes)、音声リモコン100は新たなデータベースをセットし(S510)、ユーザからの音声を受け付けて(S511)、当該音声が何れの音声であるかを、セットされたデータベースに基づき判別する。そして音声リモコン100は、入力されたと判別された音声に対応する操作信号を送信し(S512)、表示装置200は指示に応じた処理を実行する(S513)。
【0062】
そして音声リモコン100は、音量抑制の解除信号を送信し(S514)、表示装置200及びオーディオ装置300は、当該信号を受信すると音量抑制を解除する(S515、S516)。
【0063】
次に図6を参照して、音声リモコン100による音声認識処理に係る処理フロー例を説明する。
まず音声リモコン100は、音声認識の開始となるトリガを受け付けたか否かを判別する(S601)。なお前述の通り、音声リモコン100は例えば拍手音等の音声やボタン入力等をトリガとして受け付ける。トリガを受け付けると、音声リモコン100は図3(A)に示したGrm_Firstを音声認識に用いる参照データベースとして設定し(S602)、図3(D)の「Mute On」ラベルに対応付けられたミュート指示信号を送信する(S603)。そして音声リモコン100は、音声認識を開始して(S604)、音声の入力を受け付ける(S605)。そして音声が入力されると(S605のYes)、入力された音声が何れの操作を指示する信号であるかを判別する。ここで、入力切替を指示する音声が入力された場合(S606のYes)、音声リモコン100は図3(B)に示したGrm_InputNumberを音声認識用のデータベースとしてセットするとともに(S607)、表示装置200に対して入力切替画面の表示指示信号を送信する(S608)。ここで音声リモコン100は、入力ポートを指示する音声が入力されたと判別すると(S609のYes)、当該ポートへの入力切替信号を表示装置200に送信する(S610)。なお、ここで音声リモコン100は、前述した「TV_InputNumberN」(Nは番号等)を送信することにより所定の番号のポートへの入力切替を指示してもよいし、あるいは、少なくとも番号等の識別子を示す操作コマンドを送信することで、当該識別子に表示装置200側で対応付けられたポートへの入力切替を指示してもよい。そして音声リモコン100は、ミュート解除信号を送信し(S610)、音声認識停止して(S611)、音声認識に係る処理は完了する。
【0064】
一方、S606において、入力音声が入力切替を指示する音声ではなかった場合(S606のNo)、音声リモコン100は、入力音声がチャンネルスキャンを指示する音声であるかを判別する(S613)。そしてチャンネルスキャンの指示であった場合(S613のYes)、図3(C)に示したGrm_Scanningを参照データベースとしてセットして(S614)、タイマをセットする(S615)。
【0065】
続いて音声リモコン100は、所定時間が経過したか否かを判別し(S616)、所定時間が経過した場合には(S616のYes)、チャンネル上/下等のチャンネル変更信号を送信する(S617)。ここで音声リモコン100は、タイマをリセットして(S618)、再度所定時間が経過したか否かを判別する(S616)。そしてタイマ時間が経過していない場合(S616のNo)、音声リモコン100は、チャンネル変更の停止を指示する音声を受け付けたか否かを判別する(S619)。ここで停止を指示する音声を受けた場合(S619のYes)、音声リモコン100はS611及びS612の処理を実行して音声認識に係る処理は完了する。一方停止指示音声を受けていない場合には(S619のNO)、所定時間が経過したか否かを判別する(S616)。なお音声リモコン100は、S616〜S619において逆順フラグを立てるための音声の入力を受けた場合、当該入力の前にS617で出力していたチャンネル変更指示とは異なる順のチャンネル変更指示を当該入力以降のS617において送信する。
【0066】
また音声リモコン100は、S613においてスキャン指示の音声が入力されたと判別しなかった場合(S613のNo)、S605で受け付けた音声に対応する操作信号を送信したのち(S620)、S611及びS612の処理を実行し、音声認識に係る処理は完了する。
【0067】
そして当処理フローによれば、音声リモコン100は、トリガ受付の後に音声入力を受け付け、表示装置200やオーディオ装置300のミュートの継続/解除を、受付けた音声に応じて切り替えることができる。つまり音声リモコン100は、表示装置200やオーディオ装置300をミュートさせた後に音声を受け付け、当該音声受付の後に自装置に対するユーザ入力等の外部入力がない場合であっても、表示装置200やオーディオ装置300の音量制限の解除タイミングを受け付けた音声の内容に応じて制御できる。
【0068】
なお当処理フローにおいて、音声リモコン100は音声認識をS604で開始してS612で停止しているが、音声認識の開始/停止のタイミングはこれに限るものではなく、例えばS605にて音声を受付けた場合に音声認識を停止し、次の音声認識用参照データベースがセットされた場合に再度音声認識を開始しても良い。また音声リモコン100は、音声認識を開始した後一定時間、音声認識用参照データベースに格納された音声が入力されたと判別しない場合に音声認識を終了してミュート解除信号を送信しても良い。
【0069】
続いて図7を参照して、表示装置200による音声出力に係る処理フロー例を説明する。
表示装置200は、チューナ201や入力部203等に入力された映像・音声を再生して出力している場合に、音声リモコン100からのミュート指示信号が入力されると(S701のYes)、音声の出力を停止する(S702)。ここで表示装置200は、音声リモコンからの操作信号を待ち受け、信号受信すると(S703のYes)、次のステップに処理を進める。そして、受信した信号がミュート解除を指示する信号である場合(S704のYes)、表示装置200は音量の制限を解除して(S705)、当該音声出力に係る処理フローは完了する。
【0070】
一方、受信した信号がミュート解除信号ではなく(S704のNo)、チャンネル変更信号であった場合(S706のYes)、表示装置200は当該信号に従ってチャンネルを変更し(S707)、S703の処理を実行する。また、受信した信号が入力切替画面の表示信号であった場合(S706のNo、S708のYes)、表示装置200は、入力切替画面を表示して(S709)、再度S703の処理を実行する。
【0071】
また、受信した信号が映像や音声の入力ポートを指定する信号であった場合(S708のNo、S710のYes)、表示装置200は映像や音声の入力ポートを当該信号に応じたポートに切り替えて(S711)、再びS703の処理を実行する。なお、ここで表示装置200は、前述の「TV_InputNumberN」(Nは番号等)を受信して、当該コマンドが示すポートに入力切替してもよいし、あるいは、少なくとも番号等の識別子を示すコマンドを受信して、当該識別子に対応付けられたポートに入力切替してもよい。
【0072】
また、ミュート解除、チャンネル変更、入力切替画面表示及び入力ポートを指示する信号以外の信号を受信した場合(S710のNo)、表示装置200は当該信号に応じた処理を実行して(S712)、再びS703の処理を実行する。そして表示装置200は、S703、S704、S706乃至S712の処理を繰り返し、ミュート解除指示を受信すると(S704のYes)、ミュートを解除して(S705)、当該音声出力に係る処理フローは完了する。
【0073】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。例えば、本実施形態に係る音声処理装置は、表示装置200の外部から表示装置200に動作を指示する音声リモコンでなくともよく、例えば表示装置200の筐体に内蔵されてもよい。また、本実施形態の音声リモコンが操作信号を送信する相手となる機器は表示装置に限るものではなく、例えばチューナ等の受信装置を備え、受信した映像・音声データをデコードしてディスプレイ・スピーカ機器に出力し、これら機器に映像・音声を出力させるセットトップボックス等に対して操作信号を送信してもよい。また同様に音声リモコンは、セットトップボックス用の操作信号も学習できる。そして、これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0074】
100…音声認識リモートコントローラ、101…音声入力部、102…操作受付部、103…トリガ検出部、104…音声認識部、105…タイマ部、106…信号受信部、107…制御部、108…学習部、109…記憶部、110…信号送信部、200…表示装置、201…チューナ、202…復調部、203…入力部、204…切替部、205…分離部、206…音声デコード部、207…映像デコード部、208…音声処理部、209…表示処理部、210…スピーカ部、211…表示部、212…信号受信部、213…制御部、214…GUI生成部、300…オーディオ装置、301…メディアリーダ、302…分離部、303…音声デコード部、304…音声処理部、305…スピーカ部、306…信号受信部、307…制御部

【特許請求の範囲】
【請求項1】
外部からの入力を受け付ける第1受付手段と、
前記第1受付手段が前記入力を受け付けた場合に、音声出力機能を有する少なくとも1の外部機器に対して音量制限命令を送出する制限手段と、
前記第1受付手段が前記入力を受け付けた後に、音の入力を受け付ける第2受付手段と、
前記制限手段により制限された前記1以上の外部機器の音量の解除命令を、前記第2受付手段が受け付けた前記音に応じて異なるタイミングで送出する解除手段と
を備える音声処理装置。
【請求項2】
前記第2受付手段が前記音を受け付けた場合、当該第2受付手段が受け付けた音に応じた動作命令を外部機器に送出する動作制御手段を更に備える、請求項1記載の音声処理装置。
【請求項3】
前記第2受付手段が第1音を受け付けた場合、テレビ番組の映像を出力する外部機器に対して、出力する映像の番組の変更命令を一定時間毎に送出する動作制御手段を更に備える、請求項1記載の音声処理装置。
【請求項4】
前記動作制御手段は、前記第2受付手段が前記第1音の後に第2音を受け付けた場合に前記変更命令の送出を停止し、
前記解除手段は、前記受付手段が前記第2音を受け付けた場合に前記解除命令を送出する、請求項3記載の音声処理装置。
【請求項5】
前記動作制御手段は、前記第2受付手段が前記第1音を受け付けた場合、出力する映像の番組を第1の順で変更させる前記変更命令を送出し、前記第2受付手段が第3音を受け付けた場合、出力する映像の番組を第2の順で変更させる前記変更命令を送出する、請求項3記載の音声処理装置。
【請求項6】
前記動作制御手段は、前記第2受付手段が第1音を受け付けた場合は第1動作を、第2音を受け付けた場合は第2動作を、前記第1音を受け付けた後に前記第2音を受け付けた場合は前記第1動作とは異なる第3動作を前記外部機器に実行させる前記動作命令を送出する、請求項2記載の音声処理装置。
【請求項7】
前記動作制御手段は、前記第2受付手段が前記第1音を受け付けた場合は当該第1音に応じた番組の映像の出力を実行させる前記動作命令を、前記第2受付手段が前記第2音を受け付けた場合は第1画面の出力を実行させる前記動作命令を、前記第2受付手段が前記第2音の後に前記第1音を受け付けた場合は当該第1音に応じた入力切替を実行させる前記動作命令を前記外部機器に送出する、請求項6記載の音声処理装置。
【請求項8】
前記外部機器が対応する操作信号を送信可能な信号送信装置から送信された操作信号を受信する受信手段と、
受信された前記操作信号を格納する格納手段と
を更に備え、
前記動作制御手段は、前記第2受付手段が受け付けた音に応じた、前記格納手段に格納された前記操作信号を前記外部機器に送信する、請求項2記載の音声処理装置。
【請求項9】
受信された前記操作信号と、前記第2受付手段が受け付ける音との対応付けをユーザに許可する許可手段を更に備え、
前記動作制御手段は、前記第2受付手段が受け付けた音に対応付けられた前記操作信号を前記外部機器に送信する、請求項8記載の音声処理装置。
【請求項10】
受信装置と、音声処理装置とを備える音声処理システムであって、
前記受信装置は、映像データと音声データとを受信する受信手段と、
受信された映像データの映像を表示装置に表示させ、音声データの音声を音声出力装置に出力させる制御手段と
を備え、
前記音声処理装置は、
外部からの入力を受け付ける第1受付手段と、
前記入力が受け付けられた場合に、前記音声出力装置が出力する音声の音量を制限する制御手段と、
前記第1受付手段が前記入力を受け付けた後に、音の入力を受け付ける第2受付手段と、
前記制限手段により制限された前記音声出力装置の音量の解除命令を、前記第2受付手段が受け付けた音に応じて異なるタイミングで送出する解除手段と
を備える、音声処理システム。
【請求項11】
外部からの入力を受け付けることと、
前記入力が受け付けられた場合に、音声出力機能を有する少なくとも1の外部機器に対して音量制限命令を送出することと、
前記入力が受け付けられた後に、音の入力を受け付けることと、
制限された前記1以上の外部機器の音量の解除命令を、受け付けられた音に応じて異なるタイミングで送出することと
を備える音声処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−141449(P2012−141449A)
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2010−294068(P2010−294068)
【出願日】平成22年12月28日(2010.12.28)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】