説明

音声制御システム及びプログラム

【課題】1つの自然文によって複数のコマンドを実行可能とした音声制御システムにおいて、従来よりも幅広い表現の自然文を受け入れることを可能とし、ユーザの利便性を向上する。
【解決手段】自然文から抽出される言葉と制御コマンドとを直接結びつけるコマンド変換辞書を記憶手段104に備えると共に、制御コマンドに直接結びつかない言葉を制御コマンド生成用のパラメータに変換するための変換補助情報を記憶手段106に記憶する。また、制御コマンドに直接結びつかない言葉については変換補助情報を参照して制御コマンド生成用のパラメータに変換し、制御コマンドを生成するコマンド変換手段103を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然文を音声で入力することにより、機器の動作を制御するシステムに関する。
【背景技術】
【0002】
この種の従来例として、特開2000−56944号公報が開示されている。この公報に開示された発明によると、段落0090に記載されているように、音声で自然文を入力することができ、例えば、段落0048に記載されているように「ビデオのチャンネルを1にして」という自然文を入力すると、段落0051に記載されているように、「電源をオンする」というコマンドと、「チャンネルを1にする」という複数のコマンドを連続して実行することが可能となっている。
【0003】
しかし、この発明で解釈できる自然文は、「電源をオンする」「チャンネルを1にする」といった、従来のリモコンの個々のボタンに対応する要求に限られ、例えば、「ニュースを見たい」といった自然文の要求に対しては応えることができなかった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2000−56944号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、1つの自然文によって複数のコマンドを実行可能とした音声制御システムにおいて、従来よりも幅広い表現の自然文を受け入れることを可能とし、ユーザの利便性を向上することを課題とする。
【課題を解決するための手段】
【0006】
この課題を解決するため、本発明は以下のように構成する。
1.音声入力された1つの自然文による希望に応じて当該希望に沿った動作を制御対象機器に指令する複数の連続する制御コマンドを生成し、当該複数の連続する制御コマンドを制御対象機器に出力する音声制御システムにおいて、
前記自然文から抽出される言葉と前記制御コマンドとを直接結びつけるコマンド変換辞書を記憶手段に備えると共に、前記制御コマンドに直接結びつかない言葉を前記制御コマンド生成用のパラメータに変換するための変換補助情報を記憶手段に記憶し、
前記制御コマンドに直接結びつかない言葉については前記変換補助情報を参照して前記制御コマンド生成用のパラメータに変換し、前記制御コマンドを生成するコマンド変換手段を備えた、音声制御システム。
【発明の効果】
【0007】
本発明によれば、1つの自然文によって複数のコマンドを実行可能とした音声制御システムにおいて、従来よりも幅広い表現の自然文を受け入れることを可能とし、ユーザの利便性を向上することができる。
【図面の簡単な説明】
【0008】
【図1】本発明の第1実施形態を示すブロック構成図。
【図2】図1の記憶手段に記憶される、コマンド変換辞書の例を示すデータ構造図。
【図3】本発明の第2実施形態を示すブロック構成図。
【発明を実施するための形態】
【0009】
[第1実施形態]
【0010】
以下に本発明の第1実施形態を説明する。図1は、本実施形態の構成図である。音声入力手段101は、マイクを備え、自然文の音声の入力を受け付ける。また、音声入力手段101は、入力された音声信号をデジタル変換し、音声認識手段102に入力する。音声認識手段102は、既知の音声認識処理に基づき、自然文の音声から複数の言葉を抽出し、コマンド変換手段103に入力する。音声認識処理により自然文から単語を抽出する従来例としては例えば、特許第3581044号公報などがある。コマンド変換手段103は、音声認識手段102において抽出された複数の言葉をコマンド変換辞書に照合し、当該言葉の元となる自然文に対応して実行すべき複数のコマンドを決定する。同変換辞書は、コマンド変換辞書記憶手段104に記憶されている。コマンド出力手段105は、コマンド変換手段103において実行を決定された複数のコマンドを、当該コマンドを表す信号に変換し、制御対象機器に宛てて出力する。
【0011】
また、コマンド変換手段103は、自然文に対応するコマンドを決定する際、変換補助情報を参照する。変換補助情報とは、コマンド変換辞書を参照しても制御対象機器用のコマンドに直接結び付けることのできない言葉を、制御対象機器用のコマンドに結びつけるための補助情報である。例えば、「ニュース」という言葉から現在ニュースを放送している放送チャンネルを導くための番組表の情報が含まれる。変換補助情報は、変換補助情報記憶手段106に記憶されている。
【0012】
また、コマンド変換手段103は、自然文に対応して実行するコマンドを決定するにあたり、補助信号入力手段107から入力される情報を参照する。補助信号入力手段107は、ユーザが発する音声以外の信号を取得するもので、当該信号の種別に応じた適切なセンサを備えている。例えば、補助信号入力手段107は、カメラを備え、ユーザの手の姿勢や動作を撮影する。また、補助信号入力手段107は、捉えた補助信号をデジタル変換し、補助信号認識手段108に入力する。補助信号認識手段108は、補助信号入力手段107から入力された情報のパターンを認識し、当該認識したパターンの種別をコマンド変換手段103に入力する。例えば、補助信号入力手段107のカメラが捉えたユーザの動作が所定のジェスチャーであることを認識し、当該認識結果をコマンド変換手段103に通知する。ユーザの動作をカメラで捉え、当該動作を認識し制御入力とする従来例としては、例えば、特許第4457983号公報がある。
【0013】
コマンド変換手段103には、学習指示手段109が接続されている。学習指示手段109は、ユーザが操作可能な操作子を備えている。この操作子は、通常制御対象機器を制御するために用いる操作子であり、例えば、当該制御対象機器用のリモコンのボタンである。コマンド変換手段103は、音声認識手段102によって自然文から抽出された言葉を取得した後、学習指示手段109の操作子が操作されたことを検出すると、当該取得した言葉と、当該操作された操作子に対応するコマンドとを関連付け、コマンド変換辞書に登録する。
【0014】
また、コマンド出力手段105には、出力先記憶手段110が接続されている。出力先記憶手段110には、コマンドをどの制御対象機器に出力すべきかを表す制御対象機器の識別子が設定されるようになっている。コマンド出力手段105は、出力先記憶手段に設定されている制御対象機器の識別子に応じて、コマンドを当該制御対象機器の解釈可能な赤外線などの信号に変換して出力する。コマンド出力手段105は、制御対象機器の仕様に対応したコマンド信号の出力デバイスを備えている。
【0015】
この図1において、音声認識手段102、コマンド変換手段103、コマンド出力手段105および補助信号認識手段108は、それぞれ専用プロセッサにより構成されてもよいし、汎用プロセッサがプログラムを実行することにより、各手段を実現するように構成してもよい。また、各記憶手段104,106,110は、データを記憶できる記憶領域を備えていればよく、素子や媒体の種類は限定されない。
【0016】
図2は、コマンド変換辞書の一例である。コマンド変換辞書は、言葉と、コマンドとを関連付けている。また、コマンドには実行の優先順位が関連付けられている。また、コマンドには、対応する学習指示手段の操作子が関連付けられている。1つのコマンドには、複数の言葉を関連付けることができるようになっている。例えば、電源オンのコマンドに対応する言葉として、「つける」「オン」「Turn on」といった複数の言葉が関連付けられている。また、「見る」「Watch」という言葉に対し、「テレビ電源オン」というコマンドが関連付けられ、一つの動詞により、複数の制御対象機器の中から特定の制御対象機器(テレビ)を選択して電源を入れることが可能となっている。また、「ニュース」「音楽」「Music」といった、制御対象機器宛てのコマンドに直接結びつかない言葉に対しては、コマンド変換手段103が行う「チャンネル選択」プロセスの起動が紐付けられている。また、「テレビ」「ラジオ」「ビデオ」といった複数の制御対象機器のいずれかを表す言葉には、コマンド変換手段103が行う「機器選択」プロセスの起動が紐付けられている。
【0017】
各コマンド又はプロセスには優先順位が与えられ、機器選択は1番、電源オンは2番、チャンネル選択は3番となっている。また、電源オンのコマンドには、電源ボタンの操作子が関連付けられ、上述したように或る言葉が入力された後に電源ボタンが操作されると、当該言葉が新たにコマンド変換辞書に登録され、電源オンのコマンドに紐づけられる。同様に、テレビ電源オンのコマンドには、テレビ電源オンのボタンが紐付けられている。
【0018】
本システムを稼働状態に設定し、ユーザが音声入力手段101から自然文の音声を入力すると、音声認識手段102が、入力された自然文から言葉を抽出し、コマンド変換手段103に入力する。例えば、「テレビつけて」と発音すると、「テレビ」と「つける」の言葉が認識され、コマンド変換手段103に入力される。コマンド変換手段103は、コマンド変換辞書を参照し、「テレビ」の語に基づいて優先順位1番の機器選択プロセスを起動し、出力先記憶手段110に制御対象機器として特定のテレビを設定する。次いで、「つける」の語に基づき、優先順位2番として電源オンコマンドを発信するように、コマンド出力手段105に指示する。コマンド出力手段105は、出力先記憶手段110の設定に基づき、電源オンのコマンドを制御対象機器であるテレビが解釈可能な信号に変換し、当該制御対象機器に宛てて出力する。これにより、テレビの電源が入る。
【0019】
また、例えば「ニュースを見たい」と発音すると、「ニュース」と「見る」の言葉が認識され、コマンド変換手段103に入力される。コマンド変換手段103は、コマンド変換辞書を参照し、「見る」の語に基づき、優先順位2番のテレビ電源オンのコマンドを実行する。即ち、出力先記憶手段110に制御対象機器として特定のテレビを設定する。次いで、電源オンコマンドを発信するように、コマンド出力手段105に指示する。コマンド出力手段105は、出力先記憶手段110の設定に基づき、電源オンのコマンドを制御対象機器である特定のテレビが解釈可能な信号に変換し、当該制御対象機器に宛てて出力する。これにより、テレビの電源が入る。続いて、コマンド変換手段103は、「ニュース」の語に基づき、優先順位3番の「チャンネル選択」プロセスを実行する。
【0020】
即ち、コマンド変換手段103は、まず、変換補助情報を参照し、変換補助情報として記憶されている現在時刻の情報を得る。次に、変換補助情報として記憶されている当日のテレビ番組表を参照し、現在の時刻にニュースが放送されているテレビチャンネルを判定する。番組表の各番組には、ニュース、映画、サッカーなどの番組の種別が予め埋め込まれているものとする。次いで、コマンド変換手段103は、ニュースを放送しているチャンネルにテレビのチャンネルを切り替えるためのコマンドをコマンド出力手段105に入力する。コマンド出力手段105は、出力先記憶手段110を参照し、当該コマンドを制御対象機器であるテレビが解釈可能な信号に変換し、当該制御対象機器宛てに出力する。これにより、テレビのチャンネルが切り替わり、ニュース番組が表示される。
【0021】
コマンド変換手段103は、補助信号入力手段107からの入力に基づいてコマンドの実行を決定してもよい。例えば、補助信号入力手段107から入力されたユーザのジェスチャーが所定のジェスチャーに一致する場合に限りコマンドを実行し、所定のジェスチャーが無い場合は、単に会話の音声を拾っただけで、制御対象機器を制御する意思は無いものと判断し、コマンドの実行を中止してもよい。また、例えば、音声から電源オンのコマンドを把握し、どの制御対象機器の電源をオンするかについては、補助信号入力手段107から入力されたジェスチャー等に基づいて判定するようにしてもよい。
【0022】
コマンド出力手段105は、制御対象機器がウェブブラウザを実行している場合、コマンドを当該ウェブブラウザにおいて解釈可能なスクリプトに変換して出力する。この場合、連続して実行すべき複数のコマンドを1つのスクリプトの中に記述する。制御対象機器がコンピュータネットワーク上にある場合、コマンド出力手段105がLANに対応したネットワークアダプタを備える構成とする。
【0023】
本実施形態の音声制御システムは、制御対象機器用のリモコンに内蔵することができる。また、携帯端末装置に内蔵することができる。
【0024】
以上説明した本実施形態によれば、音声による1つの自然文の発生により、例えば、テレビの電源を入れてニュースを放送中のチャンネルにあわせる、といった制御をおこなうことができる。よって、1つの自然文によって複数のコマンドを実行可能とした音声制御システムにおいて、従来よりも幅広い表現の自然文を受け入れることを可能とし、ユーザの利便性を向上することができる。
【0025】
[第2実施形態]
次に、本発明の第2実施形態を説明する。図3は、本実施形態の構成図である。本実施形態において、音声制御システムは、デバイス100と、サーバ200とによって構成される。デバイス100の基本構成は、第1実施形態とほぼ同一である。デバイス100が、サーバ200との通信手段111を備えている点と、コマンド変換手段103が、ローカルにおいて言葉からコマンドを決定できない場合に、サーバに処理を移譲する点が第1実施形態と異なっている。その他の各手段の動作は第1実施形態と同一である。
【0026】
本実施形態において、デバイス100のコマンド変換手段103は、ローカルで言葉に対応するコマンドを決定できない場合、音声からコマンドへの変換をサーバ200に依頼する。例えば、コマンド変換辞書に登録されていない言葉が抽出された場合や、コマンド変換辞書に登録されていない他国の言語が抽出された場合である。この場合、コマンド変換手段103は、音声入力手段101に入力された自然文の音声を記録した音声ファイルを音声認識手段102から取得する。また、コマンド変換手段103は、補助信号入力手段107から入力された補助信号の情報を記録した情報ファイルを補助信号認識手段108から取得する。そして、コマンド変換手段103は、取得した自然文の音声ファイルと、補助信号の情報ファイルとを通信手段111を介してサーバ200に出力し、コマンドへの変換をサーバ200に依頼する。デバイスの通信手段111およびサーバの通信手段211は、IPネットワークに対応した通信デバイスを備えている。
【0027】
一方、サーバ200は、当該通信手段211と、コマンド変換手段203とを備えている。また、サーバ200は、コマンド変換辞書記憶手段204と、変換補助情報記憶手段206とを備えている。コマンド変換手段203は、デバイス100のコマンド変換手段103と同等の機能を備えるほか、音声認識手段102の機能と、補助信号認識手段108の機能も備えている。また、コマンド変換辞書記憶手段204および変換補助情報記憶手段206は、デバイス100が持っているコマンド変換辞書の情報および変換補助情報に加え、デバイス100が持っていない情報も大量に記憶している。
【0028】
デバイス100において言葉および補助情報に基づくコマンドの決定ができなかった場合、デバイス100のコマンド変換手段103は、デバイス100において取得した音声ファイルと、補助情報の情報ファイルとを通信手段111を介してサーバ200に送信する。サーバ200は、デバイス100から送信された音声ファイルおよび補助情報の情報ファイルを通信手段211を介して受信し、記憶手段に蓄積する。サーバ200のコマンド変換手段203は、デバイス100よりも情報量の多いコマンド変換辞書および変換補助情報を参照し、デバイス100ではコマンドに変換することのできなかった音声および補助情報を適切なコマンドに変換する。そして、サーバ200において変換されたコマンドは、通信手段211を介して送信され、デバイス100の通信手段111に受信される。
【0029】
デバイス100のコマンド変換手段103は、サーバ200から受信したコマンドをコマンド出力手段105に渡す。コマンド出力手段105は、ローカルの出力先記憶手段110に設定されている出力先を参照し、サーバ200から受信したコマンドを当該出力先の制御対象機器の解釈可能なコマンド信号に変換し、当該制御対象機器に宛てて出力する。これにより、音声入力された自然文および補助信号に応じて制御対象機器の動作が制御される。
【0030】
この第2実施形態によれば、第1実施形態の効果に加え、デバイス100単体ではコマンドに変換できない音声および補助情報をサーバのもつ豊富な情報量によってコマンドに変換することができる。また、コマンドを制御対象機器向けの信号に変換する処理はローカルで受け持つので、具体的にどのような機器を制御するのか、というプライベートな情報はサーバに対して隠すことができる。
【0031】
以上の説明では、サーバ200で変換したコマンドを、当該コマンドの変換を依頼したデバイス100に戻すように構成しているが、サーバ200は、変換したコマンドをデバイス100以外の他のデバイスに宛てて送信するようにしてもよい。この場合、送信先のデバイスのIPアドレスをデバイス100からサーバ200に対して指示するように構成してもよい。
【符号の説明】
【0032】
100 デバイス
101 音声入力手段
102 音声認識手段
103 コマンド変換手段
104 コマンド変換辞書記憶手段
105 コマンド出力手段
106 変換補助情報記憶手段
107 補助信号入力手段
108 補助信号認識手段
109 学習指示手段
110 出力先記憶手段
200 サーバ
203 コマンド変換手段
204 コマンド変換辞書記憶手段
206 変換補助情報記憶手段
211 通信手段

【特許請求の範囲】
【請求項1】
音声入力された1つの自然文による希望に応じて当該希望に沿った動作を制御対象機器に指令する複数の連続する制御コマンドを生成し、当該複数の連続する制御コマンドを制御対象機器に出力する音声制御システムにおいて、
前記自然文から抽出される言葉と前記制御コマンドとを直接結びつけるコマンド変換辞書を記憶手段に備えると共に、前記制御コマンドに直接結びつかない言葉を前記制御コマンド生成用のパラメータに変換するための変換補助情報を記憶手段に記憶し、
前記制御コマンドに直接結びつかない言葉については前記変換補助情報を参照して前記制御コマンド生成用のパラメータに変換し、前記制御コマンドを生成するコマンド変換手段を備えた、音声制御システム。
【請求項2】
請求項1に記載の音声制御システムにおいて、
ユーザが発する音声以外の補助信号を入力する補助信号入力手段を備え、前記コマンド変換手段は、前記言葉と前記補助信号とに基づいて前記制御コマンドを生成する、音声制御システム。
【請求項3】
請求項1又は2に記載の音声制御システムをデバイスとして備えると共に、このデバイスと通信するサーバを備え、
前記サーバは、前記デバイスが記憶する前記コマンド変換辞書の情報量を超える情報量のサーバ側コマンド変換辞書を記憶手段に記憶すると共に、前記デバイスが記憶する前記変換補助情報の情報量を超える情報量のサーバ側変換補助情報を記憶手段に記憶し、
前記デバイスは、当該デバイスに記憶する前記コマンド変換辞書又は変換補助情報の情報量の不足により前記言葉に基づいて前記制御コマンドを生成できない場合、前記自然文の音声情報を前記サーバに送信し、
前記サーバは、前記デバイスから受信した前記自然文の音声情報に基づいて前記言葉を抽出し、当該言葉をサーバ側コマンド変換辞書及びサーバ側変換補助情報を参照して制御コマンドに変換し、前記デバイスに送信し、
前記デバイスは、前記サーバから受信した制御コマンドを制御対象機器に出力する、音声制御システム。
【請求項4】
請求項3に記載の音声制御システムにおいて、
前記デバイスは、前記サーバに前記音声情報を送信する際に、前記補助信号入力手段から入力された補助信号に基づく情報も前記サーバに送信し、
前記サーバは、前記言葉と前記補助信号に基づく情報との双方に基づいて前記制御コマンドを生成する、音声制御システム。
【請求項5】
請求項3又は4に記載の音声制御システムにおいて、
前記デバイスは、前記サーバから制御コマンドを受信した後、当該制御コマンドを前記制御対象機器の解釈可能なコマンド信号に変換し、当該制御対象機器に出力する、音声制御システム。
【請求項6】
請求項1乃至5に記載の音声制御システムにおいて、
前記制御対象機器がスクリプトを実行する場合、前記複数の連続する制御コマンドを1つのスクリプトに記述して前記制御対象機器に出力する、音声制御システム。
【請求項7】
音声入力された1つの自然文による希望に応じて当該希望に沿った動作を制御対象機器に指令する複数の連続する制御コマンドを生成し、当該複数の連続する制御コマンドを制御対象機器に出力する音声制御システムにおいて、
前記自然文から抽出される言葉と前記制御コマンドとを直接結びつけるコマンド変換辞書を記憶手段に備えると共に、前記制御コマンドに直接結びつかない言葉を前記制御コマンド生成用のパラメータに変換するための変換補助情報を記憶手段に記憶し、
前記制御コマンドに直接結びつかない言葉については前記変換補助情報を参照して前記制御コマンド生成用のパラメータに変換し、前記制御コマンドを生成する処理をコンピュータに実行させる、音声制御プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−88535(P2013−88535A)
【公開日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願番号】特願2011−227492(P2011−227492)
【出願日】平成23年10月14日(2011.10.14)
【出願人】(510189662)ヴイアールアイ株式会社 (7)
【Fターム(参考)】