電子機器、発話検出装置、音声認識操作システム、音声認識操作方法及びプログラム

【課題】ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行う。
【解決手段】テレビジョン装置１００及び携帯電話２００は、周囲の音声を収集する。携帯電話２００は、収集された音声からユーザの発話の開始を検出し、発話開始信号と、その音声に相当する音声信号をテレビジョン装置１００に送信し、収集された音声からユーザの発話の終了を検出し、発話終了信号をテレビジョン装置１００に送信するとともに音声信号の送信を停止する。テレビジョン装置１００は、発話開始信号を受信すると、音声認識により操作命令を抽出する命令抽出部を起動して、収集した音声に基づく音声信号と受信した音声信号とに基づいて操作命令を抽出する。テレビジョン装置１００は、発話終了信号を受信すると、命令抽出部を停止する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、発話により遠隔操作が可能な電子機器、発話を検出する発話検出装置、発話検出装置を用いて音声認識により電子機器本体の操作を行う音声認識操作システム及び音声認識操作方法、電子機器又は発話検出装置を制御するコンピュータに実行させるプログラムに関する。
【背景技術】
【０００２】
テレビ等のＡＶ機器のリモコンは、電源のオン／オフ操作やチャンネル切り替え操作などの単純な操作に用いられるのが常であった。しかしながら、近年では、録画再生機能、インターネット接続によるコンテンツの再生機能、宅内ネットワーク機能等、付加的な機能が増加するのに比例して、リモコンの操作ボタンが増え、メニュー操作が複雑になっている。このため、ＡＶ機器に詳しくない人にとってはリモコンを使いこなすことが難しくなってきている。
【０００３】
そこで、視聴者の表情、ジェスチャ、音声を認識し、その認識結果に基づいて家電機器を操作し、リモコンを必要としない操作技術の研究開発が盛んになっている。視聴者の動作に応じて、その視聴者がどのような操作を行いたいのかを家電機器が自動的に判断し、該当する操作を行う技術の実現は究極の目標であり、ユーザの利便性向上に大きく貢献するものとして期待されている。
【０００４】
リモコンを用いることなく家電機器を操作する形態の１つとして、音声認識による操作が挙げられる。健全な声帯の持ち主であるならば、発声は特別な学習を必要とせず万人が行うことができ、自分の考えを直感的に表現できる手段であるため、音声認識によりＡＶ機器を操作できるようになれば、ユーザの利便性を著しく高めることができる。また、音声ならば、キーボード操作、リモコン操作による入力の煩わしさを感じることなく、ダイレクトにキーワード（例えば、検索キーワード）を入力することも可能になる。
【０００５】
音声によって機器を操作する装置は、従来から提案されている。例えば、テレビ本体にマイクロホンを設置し、そのマイクロホンに入力されるユーザの操作命令を音声認識し、テレビの操作を行う装置はその代表例である。しかしながら、マイクロホンで収集した音には、スピーカから発生する音が混入するので、音声認識の性能が劣化してしまう。そこで、スピーカから出力される音が、既知であることを利用し、エコーキャンセラ等の適応的なノイズ除去を施すことにより、音声認識の性能が向上するシステムが開示されている（例えば、特許文献１参照）。
【０００６】
しかしながら、より高精度な音声認識を実現するためには、マイクロホンで収集した音からスピーカからの音を除去するエコーキャンセラ処理のみならず、遠くの人物からの発話を抽出するために、周囲のノイズを除去する空間的な雑音除去処理や、マイクロホンで収集した音声が雑談等の非命令なものか操作命令であるのかを判定する発話判定処理や、最後に音声を特徴量に変換し、データベースとのパターンマッチングを行う音声認識処理等、多様な処理が必要とされる。
【０００７】
また、音声認識により命令を検出する装置では、音声認識機能を常時起動し続ける必要がある。この結果、発話が無い時間帯でも冗長な雑音除去処理と音声認識処理が実行されるようになる。特に、テレビのオン／オフ操作も音声認識で行うならば、テレビがオフ中にも上記音声認識のための処理を常に実行しておく必要があるため、テレビがオフ中であるにも関わらず、電力を消費してしまう。
【０００８】
一方、テレビのリモコンにマイクロホンを設置し、リモコン内部において音声認識を行い、認識結果をテレビに送信するシステムが開示されている（例えば、特許文献２参照）。リモコンにマイクロホンが設置されている場合、ユーザの口とマイクロホンとの距離が極めて近くなるため、周囲の雑音の影響が少なくなるので、音声認識精度を高めることができる。
【０００９】
しかしながら、このシステムでは、発話を行う際にリモコンを口元に持っていく動作が必要になる。また、音声認識処理部をリモコンに内包する必要があるため、消費電力の増大によって電池の消耗が激しくなる。さらに、テレビの音や、周囲の雑音のレベルによっては、それらを除去する機能もリモコンに搭載する必要があるため、消費電力がさらに増大する場合も考えられる。
【００１０】
また、リモコンに無線通信部を搭載し、リモコンのマイクロホンに入力された音声信号を無線通信経由でインターネット上のサーバに送り、認識結果を受信、リモコンからテレビ部に送信するシステムが開示されている（例えば、特許文献３参照）。このシステムによれば、音声認識処理部がリモコンに不要となり、コストや消費電力の削減が期待できるが、リモコンを持って発話しなくてはならないという点は変わらない。加えて、一旦インターネットサーバを経由するため、通信速度や環境によってはリアルタイム性が損なわれる可能性もある。
【００１１】
さらに、携帯電話を音声認識のためのデバイスとして使用し、携帯電話に向かって発話した命令を携帯電話で認識し、テレビに送信するシステムが開示されている（例えば、特許文献４参照）。携帯電話はユーザの近くに置かれる傾向があり、元々マイクロホンを備えているので、追加のコストが少ないことがこの装置の利点である。しかしながら、このシステムでも、携帯電話を持って発話する動作が必要となるため、従来のリモコンのボタンを押す動作と煩わしさは変わらないことになる。また、他の従来のシステムと同様に、周囲の雑音環境によってはうまく音声認識がなされない可能性がある。
【先行技術文献】
【特許文献】
【００１２】
【特許文献１】特開平５−２２７７９号公報
【特許文献２】特開２００１−３１８６８９号公報
【特許文献３】特開２００３−１１５９３９号公報
【特許文献４】特開２００５−６５１５６号公報
【発明の概要】
【発明が解決しようとする課題】
【００１３】
上述のように、上記特許文献１乃至４に開示されたシステムでは、発話を行う度に、音声認識スイッチを押下したり、マイクロホンを口の近くに持って行ったりするような煩わしい操作を行わなければ、音声認識精度を高めるのが困難になる。また、音声認識による遠隔操作が行われていないときでも、一連の命令抽出処理を行う必要があるので、消費電力が増大する。
【００１４】
本発明は、上記実情に鑑みてなされたものであり、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる電子機器、発話検出装置、音声認識操作システム、音声認識操作方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１５】
上記目的を達成するため、本発明の第１の観点に係る電子機器は、
周囲の音声を収集し、その音声に対応する第１の音声信号を出力する少なくとも１つの音声収集部と、
外部機器と無線通信を行う無線通信部と、
前記第１の音声信号と、前記無線通信部で受信される第２の音声信号との少なくとも一方に対して音声認識処理を含む信号処理を行って、ユーザが発声した操作命令を抽出する命令抽出部と、
抽出された前記操作命令に従って、本体を操作する操作部と、
前記無線通信部で受信されたタイミング信号に基づいて、前記命令抽出部の起動及び停止を制御する制御部と、
を備える。
【００１６】
この場合、周囲に前記ユーザが存在することを検出する人感センサをさらに備え、
前記無線通信部は、
前記人感センサのセンサ出力を、前記外部機器に送信し、
前記制御部は、
前記人感センサのセンサ出力に基づいて、前記命令抽出部の起動及び停止を制御する、
こととしてもよい。
【００１７】
また、前記無線通信部で受信されるタイミング信号には、
発話開始信号及び発話終了信号が含まれ、
前記制御部は、
前記無線通信部で前記発話開始信号が受信されると、前記命令抽出部を起動し、
前記無線通信部で前記発話終了信号が受信されると、前記命令抽出部を停止する、
こととしてもよい。
【００１８】
この場合、前記第１の音声信号を保存する記録部をさらに備え、
前記無線通信部で受信されるタイミング信号には、
前記記録部に対する保存命令及び破棄命令が含まれ、
前記制御部は、
前記無線通信部で前記保存命令が受信されると、前記記録部への前記第１の音声信号の保存を開始し、
前記無線通信部で前記破棄命令が受信されると、前記記録部に保存された前記第１の音声信号を破棄し、
前記記録部に保存された前記第１の音声信号を用いて前記操作命令を抽出するように、前記命令抽出部を制御する、
こととしてもよい。
【００１９】
この場合、音声を出力する出力部をさらに備え、
前記制御部は、
前記無線通信部で、前記保存命令を受信すると、前記出力部から出力される音声の音量を小さくする、
こととしてもよい。
【００２０】
また、前記制御部は、
音声認識モード以外の動作モードでは、前記命令抽出部を停止し、
前記操作部に、前記音声認識モードへの切り替え操作が入力されると、
前記命令抽出部を起動するとともに、前記音声認識モードへの切り替え信号を、前記無線通信部を介して、前記外部機器に送信する、
こととしてもよい。
【００２１】
この場合、情報を表示する表示部をさらに備え、
前記制御部は、
前記命令抽出部を起動後、前記ユーザに発話を控えてもらう旨のメッセージを、前記表示部に表示させる、
こととしてもよい。
【００２２】
また、前記制御部は、
前記外部機器との無線接続が確立されない場合に、
前記音声認識モードを終了し、前記命令抽出部を停止する、
こととしてもよい。
【００２３】
また、前記制御部は、
所定の期間、前記無線通信部で発話の開始が検出された旨の信号が受信されない場合に、
前記音声認識モードを終了し、前記命令抽出部を停止するとともに、前記無線通信部を介して、前記外部機器に前記音声認識モードの終了通知を送信する、
こととしてもよい。
【００２４】
また、前記制御部は、
前記操作命令が、前記音声認識モードの終了命令であった場合に、
前記音声認識モードを終了し、前記命令抽出部を停止するとともに、前記無線通信部を介して、前記外部機器に前記音声認識モードの終了通知を送信する、
こととしてもよい。
【００２５】
また、前記制御部は、
前記命令抽出部に、
前記第１の音声信号及び前記第２の音声信号の両方に対して音声認識処理を行わせ、
前記音声認識処理の処理結果の尤度が高い方を用いて前記操作命令を抽出させる、
こととしてもよい。
【００２６】
本発明の第２の観点に係る発話検出装置は、
周囲の音声を収集し、その音声に対応する音声信号を出力する音声収集部と、
電子機器と無線通信を行う無線通信部と、
前記音声信号の音圧レベルに基づいて、ユーザの発話の開始及び終了を検出する発話検出処理部と、
前記発話検出処理部により前記ユーザの発話の開始及び終了が検出される度に、タイミング信号を、前記無線通信部を介して、前記電子機器に送信する制御部と、
を備える。
【００２７】
この場合、前記制御部は、
前記人感センサのセンサ出力に基づいて、前記発話検出処理部の起動及び停止を制御する、
こととしてもよい。
【００２８】
また、前記制御部は、
前記発話検出処理部により前記ユーザの発話の開始が検出されると、前記無線通信部を介して、前記タイミング信号としての発話開始信号とともに前記音声信号を前記電子機器に送信し、前記発話検出処理部により前記ユーザの発話の終了が検出されると、前記無線通信部を介して、前記タイミング信号としての発話終了信号を前記電子機器に送信するとともに前記音声信号の送信を停止する、
こととしてもよい。
【００２９】
この場合、前記音声信号を保存する記録部をさらに備え、
前記発話検出処理部は、
前記音声信号の音圧レベルが閾値を超えるか否かを判定する音圧レベル判定処理部をさらに備え、
前記制御部は、
前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値を超えたと判定されると、前記記録部への前記音声信号の保存を開始するとともに、保存命令を前記電子機器に送信し、
所定の期間経過後に、前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値以下になったと判定されると、前記記録部へ保存された前記音声信号を破棄するとともに、破棄命令を前記電子機器に送信し、
前記所定の期間経過後に、前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値を超えたと判定されると、前記無線通信部を介して、発話開始信号と前記記録部へ保存された前記音声信号とを、前記電子機器に送信する、
こととしてもよい。
【００３０】
また、前記制御部は、
前記無線通信部を介して、前記電子機器から音声認識モードへの切り替え信号を受信すると、前記発話検出処理部を起動する、
こととしてもよい。
【００３１】
この場合、前記制御部は、
前記発話検出処理部を起動させた後、
所定の期間、前記音圧レベル判定処理部に、前記音声信号の音圧レベルが閾値を超えたか否かを判定させ、
前記所定の期間に対する前記音声信号の音圧レベルが閾値を超えていた期間の割合が、所定の割合より小さくなるように、前記閾値を調整する、
こととしてもよい。
【００３２】
また、前記制御部は、
前記電子機器との無線接続が確立されない場合に、
前記発話検出処理部を停止する、
こととしてもよい。
【００３３】
また、前記制御部は、
前記無線通信部を介して、前記電子機器から前記音声認識モードの終了通知を受信すると、前記発話検出処理部を停止する、
こととしてもよい。
【００３４】
本発明の第３の観点に係る音声認識操作システムは、
本発明の電子機器と、
本発明の発話検出装置と、
を備える。
【００３５】
この場合、前記電子機器が、テレビジョン装置である、
こととしてもよい。
【００３６】
また、前記発話検出装置が、携帯電話である、
こととしてもよい。
【００３７】
本発明の第４の観点に係る音声認識操作方法は、
周囲の音声を、ユーザの近くに置かれた発話検出装置と電子機器とで同時に収集する音声収集工程と、
前記発話検出装置を用いて、収集された音声に対応する音声信号に基づいて、ユーザの発話の開始を検出する発話開始検出工程と、
前記発話開始検出工程で、前記ユーザの発話の開始が検出されると、無線通信により、前記発話検出装置から前記電子機器に、発話開始信号を送信する第１の送信工程と、
受信した発話開始信号に従って、前記電子機器において入力された音声信号からユーザが発声した操作命令を抽出する命令抽出部を起動する起動工程と、
収集された音声に対応する音声信号から、前記命令抽出部により、前記操作命令を抽出する抽出工程と、
前記発話検出装置を用いて、収集された音声に対応する音声信号に基づいて、ユーザの発話の終了を検出する発話終了検出工程と、
前記発話終了検出工程で、前記ユーザの発話の終了が検出されると、無線通信により、前記発話検出装置から前記電子機器に、発話終了信号を送信する第２の送信工程と、
前記電子機器で、発話終了信号を受信すると、前記命令抽出部を停止する停止工程と、
抽出された前記操作命令に従って、本体を操作する操作工程と、
を含む。
【００３８】
本発明の第５の観点に係るプログラムは、
電子機器を制御するコンピュータを、
周囲の音声を収集し、その音声に対応する第１の音声信号を出力する少なくとも１つの音声収集手段と、
外部機器と無線通信を行う無線通信手段と、
前記第１の音声信号と、外部機器から送信される第２の音声信号との少なくとも一方に対して音声認識処理を含む信号処理を行って、ユーザが発声した操作命令を抽出する命令抽出手段と、
抽出された前記操作命令に従って、本体を操作する操作手段と、
前記外部機器から送信されるタイミング信号に基づいて、前記命令抽出手段の起動及び停止を制御する制御手段と、
して機能させる。
【００３９】
本発明の第６の観点に係るプログラムは、
ユーザの発話を検出する発話検出装置を制御するコンピュータを、
周囲の音声を収集し、その音声に対応する音声信号を出力する音声収集手段と、
電子機器と無線通信を行う無線通信手段と、
前記音声信号の音圧レベルに基づいて、ユーザの発話の開始及び終了を検出する発話検出処理手段と、
前記発話検出処理手段により前記ユーザの発話の開始及び終了が検出される度に、タイミング信号を、電子機器に送信する制御手段と、
して機能させる。
【発明の効果】
【００４０】
本発明によれば、以下に示す効果を奏する。
（１）本発明の第１の観点に係る電子機器は、収集された音声に基づく音声信号と、外部機器から受信した音声信号を取得する。これにより、２つの音声信号のうち、良好な方又は両方を用いて、ユーザが発声した操作命令を抽出することができる。このようにすれば、この電子機器は、外部機器から受信したタイミング信号に基づいて、発話が検出されていない時は命令抽出部を停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【００４１】
（２）本発明の第２の観点に係る発話検出装置は、収集された音声信号に基づいてユーザの発話の開始及び終了を検出する度にタイミング信号を電子機器に送信する。このようにすれば、タイミング信号を受信した電子機器は、ユーザが発声した操作命令を正確なタイミングで抽出することができるうえ、ユーザが発声した操作命令を抽出する命令抽出部を不要な時に停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【００４２】
（３）本発明の第３の観点に係る音声認識操作システムによれば、本発明の電子機器と発話検出装置とを備えているので、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【００４３】
（４）本発明の第４の観点に係る音声認識操作方法によれば、発話検出はユーザの近くに置かれた発話検出装置で行われる。また、音声認識等による操作命令の抽出は、発話検出装置で収集された音声に基づく音声信号と、電子機器で収集された音声に基づく音声信号との少なくとも一方を用いて、例えば良好な方又は両方を組み合わせて行われる。また、発話開始信号が送信されてから発話終了信号が送信されるまでの間だけ、操作命令を抽出する命令抽出部を起動させておくことができる。これにより、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【００４４】
（５）本発明の第５の観点に係るプログラムによれば、コンピュータは、収集された音声に基づく音声信号と、外部機器から送信される音声信号を取得する。このようにすれば、２つの音声信号のうち、良好な方又は両方を用いて、ユーザが発声した操作命令を抽出することができる。また、この電子機器は、外部機器から送信されるタイミング信号に基づいて、発話が検出されていない時は命令抽出部を停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【００４５】
（６）本発明の第６の観点に係るプログラムによれば、コンピュータは、収集された音声信号に基づいてユーザの発話の開始及び終了を検出する度にタイミング信号を電子機器に送信する。これにより、タイミング信号を受信した電子機器は、操作命令を正確なタイミングで抽出することができるうえ、命令抽出部を不要な時に停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【図面の簡単な説明】
【００４６】
【図１】本発明の実施の形態に係る音声認識操作システムの構成を示す模式図である。
【図２】図１の音声認識操作システムを構成するテレビジョン装置の構成を示すブロック図である。
【図３】図１の音声認識操作システムを構成する携帯電話の構成を示すブロック図である。
【図４】図２のテレビジョン装置の操作モードによる状態遷移図である。
【図５】図１の音声認識操作システムにおける音声認識モードにおける一連の全体動作のフローチャートである。
【図６】図５の音圧検知閾値キャリブレーションのサブルーチンである。
【図７】図７（Ａ）乃至図７（Ｃ）は、音圧検知閾値キャリブレーションを説明するためのタイミングチャート（その１）である。
【図８】図８（Ａ）乃至図８（Ｃ）は、音圧検知閾値キャリブレーションを説明するためのタイミングチャート（その２）である。
【図９】図５の発話検出処理のサブルーチンである。
【図１０】図１０（Ａ）乃至図１０（Ｆ）は、発話検出処理を説明するためのタイミングチャートである。
【図１１】図５の継続判定処理のサブルーチンである。
【発明を実施するための形態】
【００４７】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
【００４８】
図１に示すように、本実施の形態に係る音声認識操作システム３００は、テレビジョン装置１００と、携帯電話２００とを備える。テレビジョン装置１００は、本実施の形態に係る音声認識操作システム３００の電子機器に対応する。携帯電話２００は、ユーザの近くに置かれている。本実施の形態では、携帯電話２００が、音声認識操作システム３００を構成する発話検出機器に対応する。
【００４９】
（テレビジョン装置）
テレビジョン装置１００は、図２に示すように、テレビ基幹部１、スピーカ２、表示部３、マイクロホン４、音響処理部５及び音響制御部６を備える。
【００５０】
テレビ基幹部１には、放送電波を受信して再生するためのテレビが有する一般的な各種機能がまとめられている。スピーカ２は、テレビ基幹部１から出力された音声信号に対応する音声を、音響処理部５を介して出力する。表示部３には、テレビ基幹部１から出力された映像信号に対応する映像が表示される。例えば、表示部３は、後述する音圧検知閾値キャリブレーションを精度良く行うためのメッセージ等を表示する。
【００５１】
マイクロホン４は１つ以上設けられている。マイクロホン４は、テレビジョン装置１００の周囲の音声を収集し、アナログの音声信号に変換して出力する。
【００５２】
音響処理部５は、音声の入出力処理を行う。マイクロホン４から送られた音声信号は、音響処理部５に入力され、そこで音響処理された後、必要に応じてテレビ基幹部１に入力される。テレビ基幹部１から出力された音声信号は、音響処理部５に入力され、そこで音響処理された後、必要に応じてスピーカ２から出力される。
【００５３】
音響制御部６は、主として、音響処理部５を制御する。
【００５４】
テレビ基幹部１について、さらに詳細に説明する。図２では、テレビ基幹部１を構成する構成要素として、操作制御部１０、人感センサ１１及び無線通信部１２が示されている。
【００５５】
操作制御部１０は、ユーザの操作入力（例えば、リモコンの操作入力）や後述の操作命令に従ってテレビジョン装置１００を制御する。
【００５６】
人感センサ１１は、超音波センサや赤外線センサ等を備える。これらのセンサ出力は、テレビジョン装置１００の周囲にユーザが存在するか否かを判定するために用いられる。
【００５７】
無線通信部１２は、ＷＬＡＮ等の一般的な無線通信や、Ｂｌｕｅｔｏｏｔｈ（登録商標）、低消費電力版Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｚｉｇｂｅｅ（登録商標）等の近距離無線通信機能を有する。人感センサ１１の出力は、無線通信部１２を介して、外部に送信可能である。
【００５８】
続いて、音響処理部５について、さらに詳細に説明する。音響処理部５は、ＡＤコンバータ（ＡＤＣ）２０、記録領域部２１、エコーキャンセラ２２、雑音除去処理部２３、発話判定処理部２４、音声認識処理部２５、音声認識制御部２６、ＤＡコンバータ（ＤＡＣ）２７を備える。ＡＤＣ２０、記録領域部２１、エコーキャンセラ２２、雑音除去処理部２３、発話判定処理部２４、音声認識処理部２５、音声認識制御部２６で、命令抽出部７が形成される。
【００５９】
ＡＤＣ２０は、アンプ付きのＡＤコンバータである。ＡＤＣ２０は、マイクロホン４から入力されたアナログの音声信号の増幅、デジタル音声データへの変換を行う。
【００６０】
記録領域部２１には、ＡＤＣ２０から出力されるデジタル音声データが保存される。保存されたデジタル音声データは、エコーキャンセラ２２や、雑音除去処理部２３のデジタルフィルタ等、操作命令の抽出に用いられる。
【００６１】
エコーキャンセラ２２は、ＡＤＣ２０から出力されたデジタル音声データから、スピーカ２から発せられる音声の成分（エコー）をキャンセルする。より具体的には、エコーキャンセラ２２は、テレビ基幹部１から出力されスピーカ２から出力される音声に対応するデジタル音声データを参照信号として入力する。エコーキャンセラ２２は、ＡＤＣ２０から出力されたデジタル音声データから、適用フィルタなどを用いて、この参照信号の成分を抑圧したデータを出力する。
【００６２】
雑音除去処理部２３は、ユーザの音声がユーザからマイクロホン４に到達するまでに混入したその他の雑音を、デジタルフィルタ処理を行って除去して出力する。マイクロホン４が複数設置されている場合には、このデジタルフィルタ処理には、マイクロホンアレイ技術が適用される。一方、設置されているマイクロホン４が１つである場合には、このデジタルフィルタ処理には、単一のマイク向けの雑音除去技術が適用される。
【００６３】
発話判定処理部２４は、雑音除去処理部２３又は無線通信部１２から出力されたデジタル音声データが操作命令であるのか否か（その他の日常的な会話等であるのか）を判定する。発話判定処理部２４は、入力したデジタル音声データを操作命令であると判定すると、そのデジタル音声データを出力する。
【００６４】
音声認識処理部２５は、発話判定処理部２４から出力されたデジタル音声データに対して音声認識処理を行う。より具体的には、音声認識処理部２５は、図示しない命令データベース（ＤＢ）を有する。音声認識処理部２５は、命令ＤＢを参照して、入力したデジタル音声データからその特徴量を抽出したり、パターンマッチングを行ったりして、デジタル音声データに含まれる操作命令の内容を特定する。音声認識処理部２５は、特定された操作命令の内容を、テレビ基幹部１の操作制御部１０に入力する。操作制御部１０は、ユーザの操作入力や後述の操作命令に従ってテレビジョン装置１００の本体を操作制御する。
【００６５】
音声認識制御部２６は、エコーキャンセラ２２、雑音除去処理部２３、発話判定処理部２４及び音声認識処理部２５を制御する。
【００６６】
ＤＡＣ２７は、テレビ基幹部１から出力されたデジタル音声データをアナログの音声信号に変換してスピーカ２に出力する。
【００６７】
続いて、音響制御部６について、さらに詳細に説明する。音響制御部６は、ＡＤＣ２０、記録領域部２１、音声認識制御部２６及びＤＡＣ２７を制御する。
【００６８】
音響制御部６は、例えば、ＡＤＣ２０から出力されたデジタル音声データの記録領域部２１へのデジタル音声データの保存を制御する。また、音響制御部６は、上位コントローラとしての音声認識制御部２６を制御する。例えば、音響制御部６は、音声認識制御部２６を介して、テレビ基幹部１から出力されたデジタル音声データのエコーキャンセラ２２への入力制御、音声認識処理部２６から出力された音声認識結果の操作制御部１０への伝送制御等を行う。
【００６９】
音響制御部６は、人感センサ１１のセンサ出力を入力している。音響制御部６は、人感センサ１１のセンサ出力に基づいて、命令抽出部７のオン／オフを制御する。このオン／オフ制御には、ＡＤＣ２０のアンプの電源のオン／オフ制御も含まれる。
【００７０】
また、音響制御部６は、テレビ基幹部１の無線通信部１２を介して、携帯電話２００との間でデータを送受信する。例えば、音響制御部６は、携帯電話２００から、デジタル音声データを受信する。
【００７１】
（携帯電話）
続いて、図３を参照して、携帯電話２００について説明する。
【００７２】
図３に示すように、携帯電話２００は、携帯電話基幹部３０、マイクロホン３１、発話検出処理部３２及び発話検出制御部３３を備える。
【００７３】
携帯電話基幹部３０には、音声通話機能等、一般的な携帯電話に必要とされる機能がまとめられている。例えば、携帯電話基幹部３０は、無線通信部４０を備える。無線通信部４０は、ＷＬＡＭ等の一般的な無線通信や、Ｂｌｕｅｔｏｏｔｈ（登録商標）、低消費電力版Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＺｉｇＢｅｅ（登録商標）等の近距離無線通信機能を有する。
【００７４】
マイクロホン３１は、携帯電話２００の周囲の音声を収集し、アナログの音声信号に変換して出力する。
【００７５】
発話検出処理部３２は、マイクロホン３１から出力されたアナログの音声信号に基づいて、ユーザの発話の検出処理を行う。発話検出処理部３２は、ＡＤＣ４１、音圧レベル判定処理部４２、記録領域部４３を備える。
【００７６】
ＡＤＣ４１は、アンプ付きである。ＡＤＣ４１は、マイクロホン３１から入力されたアナログ音声信号の増幅、デジタル音声データへの変換を行う。
【００７７】
音圧レベル判定処理部４２は、ＡＤＣ４１から出力されるデジタル音声データに基づいて、周囲の音圧を監視する。より具体的には、音圧レベル判定処理部４２は、ＡＤＣ４１から出力されるデジタル音声データの音圧レベルが、一定の閾値を超えるか否かを判定する。
【００７８】
記録領域部４３には、ＡＤＣ４１から出力されるデジタル音声データが保存される。
【００７９】
発話検出制御部３３は、タイマ４４を備える。発話検出制御部３３は、このタイマ４４４等を用いて、発話検出処理部３２の動作制御を行う。
【００８０】
より具体的には、音圧レベル判定処理部４２により、ＡＤＣ４１から出力されるデジタル音声データの音圧レベルが閾値を超えていると判定されると、発話検出制御部３３は、記録領域部４３にデジタル音声データの保存を開始させるとともに、タイマ４４に計時を開始させる。また、これと同時に、発話検出制御部３３は、デジタル音声データの保存命令を、テレビジョン装置１００に送信する。
【００８１】
タイマ４４によって一定時間計時されると、発話検出制御部３３は、音圧レベル判定処理部４２により、再び、ＡＤＣ４１から出力されるデジタル音声データの音圧レベルが閾値を超えていたと判定されると、無線通信部４０を介して、テレビジョン装置１００に、発話が開始された旨の発話開始信号とデジタル音声データとを送信する。
【００８２】
一方、発話検出制御部３３は、テレビジョン装置１００から、人感センサ１１のセンサ出力を、無線通信部４０を介して受信する。発話検出制御部３３は、人感センサ１１のセンサ出力に基づいて、発話検出処理部３２の起動及び停止を制御する。また、これと同時に、発話検出制御部３３は、無線通信部４０を介して、テレビジョン装置１００から音声認識モードの開始、終了の切り替え等の制御命令を受信し、その命令に従って、発話検出処理部３２の起動及び停止を制御する。
【００８３】
ところで、テレビジョン装置１００では、操作モードの切り替えによって４つの状態を遷移する。図４を参照して、操作モードによる状態遷移について説明する。
【００８４】
図４に示すように、４つの操作モードは、リモコンによって操作できる通常モード（状態３０１、状態３０２）と、音声認識によっても操作できる音声認識モード（状態３０３、状態３０４）の２つに大別できる。
【００８５】
状態３０１は、テレビジョン装置１００の電源がオンされており、映像を受信、表示し、リモコンによって電源のオン／オフ、チャンネル変更等の各種操作ができる状態である。状態３０２は、テレビジョン装置１００の電源がオフとなっており、リモコンからの起動要求のみを待ち受けている状態である。
【００８６】
状態３０３は、通常のリモコン操作に加えて、命令抽出部７が起動している状態で、音声認識によりテレビジョン装置１００の操作が可能な状態である。状態３０４は、テレビジョン装置１００の電源がオフされているが、リモコンからの起動要求と命令抽出部７が起動している状態での音声認識による起動要求とのいずれかを待ち受けている状態である。
【００８７】
通常モードから音声認識モードへの切り替えは、リモコン操作により切り替ることができる。この他、ユーザがあらかじめ音声認識モードでの操作を望む時間帯（例えば、９：００〜２４：００等）を設定しておき、自動的にモードを切り替えるようにすることができる。この時間帯の設定を以下では、スケジューリングともいう。
【００８８】
図４において、２つの状態を結ぶ実線の矢印ａは、リモコン操作やスケジューリングで、その矢印の方向の状態の切り替えが可能であることを示している。また、２つの状態を結ぶ一点鎖線の矢印ｂは、リモコン操作、スケジューリングに加え、音声操作でも、その矢印の方向の状態の切り替え可能であることを示している。
【００８９】
本実施の形態では、音声認識モード切り替えのためのスケジュール管理等は、テレビジョン装置１００で行われる。携帯電話２００の操作モードは、音声認識モードのテレビジョン装置１００からの切り替え信号に従って切り替わるようになる。
【００９０】
この場合、携帯電話２００とテレビジョン装置１００との無線通信方式に、Ｂｌｕｅｔｏｏｔｈ（登録商標）や低消費電力Ｂｌｕｅｔｏｏｔｈ（登録商標）を用いるようにすれば、信号待機の待ち受け消費電力は非常に小さくなる。音声認識モードから通常のモードへの切り替えは、上記と同様にスケジューリングや、リモコン操作での切り替えに加えて、音声操作でも切り替えることができる。
【００９１】
次に、上述の構成を有する音声認識操作システム３００の動作について説明する。
【００９２】
（音声認識モード中の動作）
まず、テレビジョン装置１００において、音声認識モードに切り替わった後の一連の全体動作について、図５のフローチャート等を参照して説明する。なお、図面では、テレビジョン装置１００をＴＶとも略述している。
【００９３】
上述のリモコン操作やスケジューリング等により、音声認識モードへの切り替え操作がなされると、操作制御部１０から、音声認識モードに切り替える操作信号が、音響制御部６に入力される。これにより、図５に示す処理が開始される。
【００９４】
まず、音響制御部６は、命令抽出部７を起動すると同時に、無線通信部１２を介して、携帯電話２００の発話検出制御部３３に音声認識モードに切り替える命令を送信することにより、発話検出制御部３３に発話検出処理部３２を起動させる（ステップＳ１）。
【００９５】
続いて、音響制御部６及び発話検出制御部３３は、発話検出処理部３２を起動して、音圧検知のための閾値を校正する音圧検知閾値キャリブレーションのサブルーチンを行う（ステップＳ２）。音圧検知閾値キャリブレーションの詳細については、後述する。
【００９６】
音圧検知閾値キャリブレーションが終了すると、音響制御部６及び発話検出制御部３３は、人感センサ１１によって、ユーザが検出されたか否かを判定する（ステップＳ３）。
【００９７】
ユーザが検出されなかった場合（ステップＳ３；Ｎｏ）、音響制御部６は、音声認識をする必要は無いものとみなし、命令抽出部７を停止する一方、発話検出制御部３３は、発話検出処理部３２を停止する（ステップＳ４）。
【００９８】
ユーザが検出された場合（ステップＳ３；Ｙｅｓ）、携帯電話２００の発話検出制御部３３は、発話検出処理を行う（ステップＳ５）。これにより、発話検出処理が開始される。この発話検出処理の詳細については、後述するが、この発話検出処理で、発話が検出されると、記録領域部４３には、マイクロホン３１から入力された音声に対応するデジタル音声データが保存されている。
【００９９】
続いて、発話検出処理の結果、発話検出制御部３３は、発話の開始を検出したか否かを判定する（ステップＳ６）。発話の開始が検出されない場合（ステップＳ６；Ｎｏ）、後述する音声認識モードの継続判定処理が行われる（ステップＳ１３）。継続判定処理の詳細については後述する。
【０１００】
発話の開始が検出されると（ステップＳ６；Ｙｅｓ）、発話検出制御部３３は、無線通信部４０を介して、テレビジョン装置１００へ、発話の開始が検出されたことを伝える信号（発話開始信号）と、記録領域部４３に保存されたデジタル音声データとの送信を開始する（ステップＳ７）。
【０１０１】
音響制御部６は、起動した命令抽出部７の音声認識制御部２６を制御し、携帯電話２００から受信したデジタル音声データと、記録領域部２１に格納されたデジタル音声データとに基づいて、エコーキャンセラ２２、雑音消去処理部２３、発話判定処理部２４、音声認識処理部２５を動作させ、一連の命令抽出処理の実行を開始させる（ステップＳ８）。
【０１０２】
続いて、発話検出制御部３３は、音圧レベル判定処理部４２の判定結果を参照して、発話が終了するまで待つ（ステップＳ９；Ｎｏ）。この間にも、携帯電話２００からテレビジョン装置１００へのデジタル音声データの転送、一連の命令抽出処理が継続されている。
【０１０３】
発話の終了が検出されると（ステップＳ９；Ｙｅｓ）、発話検出制御部３３は、発話終了信号を、テレビジョン装置１００に送信するとともに、デジタル音声データの送信を停止する（ステップＳ１０）。発話終了信号を受けて、音響制御部６は、命令抽出部７における命令抽出処理を停止させる。
【０１０４】
続いて、音響制御部６は、音声認識の結果得られた発話内容が、音響認識処理部２５の命令ＤＢに存在するか否か判定する（ステップＳ１１）。発話内容が命令ＤＢに存在しない場合（ステップＳ１１；Ｎｏ）、後述する音声認識モードの継続判定処理が行われる（ステップＳ１３）。継続判定処理の詳細については後述する。
【０１０５】
発話内容が命令ＤＢに存在する場合（ステップＳ１１；Ｙｅｓ）、操作制御部１０は、その発話内容（操作命令）に従って、テレビジョン装置１００の操作制御を行う（ステップＳ１２）。
【０１０６】
続いて、音響制御部６は、音声認識モードの継続判定処理を行う（ステップＳ１３）。継続判定処理の詳細については後述する。
【０１０７】
継続判定処理の結果、音声認識モードを継続する場合（ステップＳ１４；Ｙｅｓ）、音響制御部６は、人感センサ１１によって、ユーザが検出されたか否かを判定する（ステップＳ３）。一方、音声認識モードを継続しない場合（ステップＳ１４；Ｎｏ）、音響制御部６及び発話検出制御部３３は、音声認識モード中の動作を終了する。
【０１０８】
以上、音声認識モードにおける一連の全体動作について説明した。
【０１０９】
続いて、音圧検知閾値キャリブレーション（ステップＳ２）、発話検出処理（ステップＳ５）、音声認識モードの継続判定処理（ステップＳ１３）のそれぞれの詳細について説明する。
【０１１０】
（音圧検知閾値キャリブレーション）
まず、図６を参照して、ステップＳ２（図５参照）の音圧検知閾値キャリブレーションについて説明する。
【０１１１】
図６に示すように、音圧検知閾値キャリブレーションのサブルーチン（ステップＳ２）が開始されると、まず、音響制御部６は、表示部３に、音圧検知閾値キャリブレーション中のため、ユーザに発話を控えてもらう旨のメッセージを表示させる（ステップＳ２１）。
【０１１２】
続いて、一定時間（例えば５秒間）、発話検出制御部３３は、音圧レベル判定処理部４２に、ＡＤＣ４１から出力されたデジタル音声データの音圧レベルを監視させる（ステップＳ２２）。デジタル音声データの音圧は、音声認識モード開始時のテレビジョン装置１００と携帯電話２００の位置関係や、テレビジョン装置１００の音量に依存する。本実施の形態では、このデジタル音声データの音圧レベルが閾値を超えたか否かにより、発話検出を行うため、ユーザが発話していない時のデジタル音声データの音圧レベルをあらかじめ調べておき、そのレベルに応じて必要であれば、閾値を調整するのである。
【０１１３】
このとき、テレビジョン装置１００のスピーカ２から発する音は、選局中のテレビ放送や映像の音、もしくはキャリブレーション用の音（例えば、ピンクノイズ）が採用される。さらに、この際に、デジタル音声データの音圧レベルに基づいて、テレビジョン装置１００のエコーキャンセラ２２における適応フィルタの更新を行うようにしてもよい。
【０１１４】
続いて、監視期間（例えば５秒間）が経過したら、発話検出制御部３３は、監視期間中、音圧レベル判定処理部４２の判定により、初期閾値を上回り、音圧検知された時間の割合（音圧検知時間率）を算出する（ステップＳ２３）。音圧検知時間率が所定の割合（本実施の形態では５％）より少なければ（ステップＳ２４；Ｎｏ）、発話検出制御部３３は、音圧検知閾値キャリブレーションを終了する。すなわち、この場合には、音圧検知のための閾値として初期閾値がそのまま用いられる。
【０１１５】
一方、音圧検知時間率が所定の割合（本実施の形態では５％）以上である場合（ステップＳ２４；Ｙｅｓ）、発話検出制御部３３は、音圧検知のための閾値を、監視期間中の音圧検知時間率が５％より少なくなるような値に調整する（ステップＳ２５）。
【０１１６】
続いて、図７（Ａ）乃至図７（Ｃ）、図８（Ａ）乃至図８（Ｃ）のタイミングチャートを参照して、音圧検知閾値キャリブレーションにおける閾値調整のタイミングについて説明する。
【０１１７】
図７（Ａ）乃至図７（Ｃ）には、音声認識モード開始時から、取得されるデジタル音声データの音圧レベルが、ある程度大きくなっている場合が示されている。図７（Ａ）に示すように、非発話時でも、スピーカ２の音や周囲の音がある程度大きく、デジタル音声データの音圧レベルが大きい場合、監視時間中の初期閾値による音圧検知、すなわち音圧監視を行うと、図７（Ｂ）に示すように、監視期間中、すべての時間において、発話が検出されたことになり、音圧検知時間率はほぼ１００％となった。そこで、ここでは、図７（Ｃ）に示すように、閾値がより大きな値（調整後の閾値）に調整され、非発話時に発話が誤検出されないように校正される。
【０１１８】
一方、図８（Ａ）乃至図８（Ｃ）には、音声認識モード開始時から、携帯電話２００のデジタル音声データの音圧レベルが低かった場合が示されている。図８（Ａ）に示すように、非発話時に、デジタル音声データの音圧レベルが初期閾値を上回らない場合、図８（Ｂ）に示すように、監視期間中、すべての時間において、発話が検出されていなかったことになり、音圧検知閾値をこのままとしても誤検出の恐れが無いので、図８（Ｃ）に示すように、閾値は初期閾値のままとなる。
【０１１９】
なお、スケジューリングにより、自動的に音声認識モードの電源オフの状態３０４に切り替わった場合、携帯電話２００は、必ずしもテレビジョン装置１００の前にあるとは限らないので、この場合の閾値として初期閾値を設定しておき、テレビジョン装置１００の電源をオンした後に、この音圧検知閾値キャリブレーションを実施すればよい。
【０１２０】
初期閾値としては、工場出荷前に、一般的なテレビジョン装置１００の音量と、２ｍ〜３ｍ程離れた場所に携帯電話２００を置いた場合とを想定して、発話が誤検出されないような値を設定しておくのが望ましい。また、本実施の形態に係る音声認識操作システム３００の運用開始に先立って、テレビジョン装置１００の視聴環境や使用状況に基づいて、初期閾値をユーザが調整できるようにしてもよい。
【０１２１】
また、調整後の閾値は、テレビジョン装置１００の記録領域部２１又は携帯電話２００の記録領域部４３に保存しておき、次回起動時の初期閾値とするようにしてもよい。調整後の閾値が高くなり過ぎて、発話検出の精度が悪い場合は、音声認識モード切り替え時に限らず、ユーザがいつでも音圧検知閾値キャリブレーションを実行できるようにしてもよい。
【０１２２】
さらに、音圧検知閾値キャリブレーション後に、テレビジョン装置１００の音量調整によってスピーカ２の音量が変化した場合は、その音量の変化量に合わせて自動的に音圧検知閾値キャリブレーションを実施して、閾値を調整できるようにしてもよい。
【０１２３】
（発話検出処理）
続いて、図９を参照して、図５のステップＳ５の発話検出処理について説明する。
【０１２４】
発話検出処理では、まず、発話検出制御部３３は、音圧レベル判定処理部４２を用いて、ＡＤＣ４１から出力されるデジタル音声データの音圧レベルを監視する（ステップＳ３１）。
【０１２５】
デジタル音声データの音圧レベルが、閾値より以下である場合（ステップＳ３２；Ｎｏ）、発話検出制御部３３は、発話が検出されなかったことを設定し（ステップＳ４２）、発話検出処理を終了する。
【０１２６】
デジタル音声データの音圧レベルが、閾値を超えた場合（ステップＳ３２；Ｙｅｓ）、発話検出制御部３３は、記録領域部４３に、デジタル音声データの保存を開始させる（ステップＳ３３）。これと同時に、発話検出制御部３３は、無線通信部４０を介して、テレビジョン装置１００（より具体的には、音響制御部６）に、ＡＤＣ４１から出力されたデジタル音声データの記録領域部２１への保存を開始する命令（保存命令）を送信する（ステップＳ３４）。音響制御部６は、この保存命令を受け、記録領域部２１に、ＡＤＣ２０から出力されたデジタル音声データの保存を開始させる（ステップＳ３５）。
【０１２７】
その後、発話検出制御部３３は、タイマ４４を用いて、一定期間（例えば、０．５秒）が経過するまで、動作を保留する（ステップＳ３６）。
【０１２８】
一定期間が経過した後、発話検出制御部３３は、音圧レベル判定処理部４２に、デジタル音声データの音圧レベルが閾値を超えているか否かを再び判定させる（ステップＳ３７）。デジタル信号データの音圧レベルが閾値を超えている場合（ステップＳ３７；Ｙｅｓ）、発話検出制御部３３は、０．５秒前に検知した音圧は発話であるとみなし、発話を検出したことを設定し（ステップＳ３８）、発話検出処理を終了する。
【０１２９】
一方、デジタル音声データの音圧レベルが閾値を超えていない場合（ステップＳ３７；Ｎｏ）、０．５秒前に検知した音圧は発話では無く、ノイズであったとみなし、発話検出制御部３３は、記録領域部４３に保存されているデジタル音声データ（保存データ）を破棄する（ステップＳ３９）。また、これと同時に、発話検出制御部３３は、無線通信部４０を介して、テレビジョン装置１００に保存されていたデジタル音声データを破棄する破棄命令を送信する（ステップＳ４０）。テレビジョン装置１００の音響制御部６は、この破棄命令を受け、記録領域部２１に保存されていたデジタル音声データ（保存データ）を破棄する（ステップＳ４１）。そして、発話検出制御部３３は、発話が検出されなかったことを設定する（ステップＳ４２）。
【０１３０】
このように、ＡＤＣ４１から出力されるデジタル音声データの音圧レベルに基づいて、発話を検出する。このため、操作命令では無い音（例えば、携帯電話２００の本体を移動した時、近くにコップ等を置いた時…）が混入されることが予想される。このため、この発話検出処理では、突発的な音圧検知のみで発話を検知するのでは無く、一定時間後（例えば０．５秒）にも、継続して音圧が閾値を超えている場合に発話を検出したものとみなす。その音声が操作命令であるならば、ある程度の時間（少なくとも１秒以上）、音圧レベルは継続して高いままになると考えられるからである。
【０１３１】
したがって、本実施の形態では、最初の音圧検知時点では、テレビジョン装置１００の命令抽出部７が起動していないため、最初の音圧検知がノイズであったときに、命令抽出処理が無駄に実行されることを防止することができる。
【０１３２】
なお、本実施の形態では、音声が操作命令であった場合に、理論的には、発話開始から０．５秒後に音声認識が開始されることになるが、操作命令は、発話が完全に終了しなくてはその内容を特定することができないため、発話から０．５秒後に起動することは音声認識の性能に悪影響を与えるものではない。
【０１３３】
また、本実施の形態では、最初の音圧検知から一定時間後に、音圧を再度検知した場合を発話とみなしているが、時間間隔をより短くしてもよいし、数回（３回以上）音圧を検知した場合を発話とみなすようにしてもよい。
【０１３４】
続いて、上述の発話検出処理の動作タイミングについて、図１０（Ａ）乃至図１０（Ｆ）のタイミングチャートを参照して説明する。
【０１３５】
図１０（Ａ）に示すように、時点ｔ１において、突発的な雑音が混入し、音圧レベルが高くなって閾値を超えると、図１０（Ｂ）に示すように、音圧レベル判定処理部４２の音圧検知結果が検知となり、図１０（Ｃ）に示すように、携帯電話２００においてデジタル音声データの保存が開始される。そして、図１０（Ｄ）に示すように、携帯電話２００からテレビジョン装置１００に保存命令が送信され、図１０（Ｅ）に示すように、テレビジョン装置１００においてデジタル音声データの保存が開始される。
【０１３６】
しかし、その０．５秒後の時点ｔ２では、図１０（Ａ）に示すように、音圧レベルが閾値より小さくなり、図１０（Ｂ）に示すように、発声が検知されなくなるので、図１０（Ｃ）に示すように、記録領域部４３へのデジタル音声データの保存は停止され、保存されたデジタル音声データは破棄される。そして、図１０（Ｄ）に示すように携帯電話２００からテレビジョン装置１００に破棄命令が送信され、図１０（Ｅ）に示すように、記録領域部２１へのデジタル音声データの保存が停止され、保存されたデジタル音声データは破棄される。このとき、図１０（Ｅ）に示すように、テレビジョン装置１００の命令抽出部７が起動することはない。
【０１３７】
さらに、時点ｔ３において、実際にユーザが発話を行った場合には、図１０（Ａ）に示すように、０．５秒後の時点ｔ４においてもその音圧レベルが高く維持されている。このため、図１０（Ｂ）に示すように、時点ｔ４でも、発声が検知されたままとなる。この場合、図１０（Ｃ）、図１０（Ｅ）に示すように、記録領域部４３、２１への発話音声が含まれるデジタル音声データの保存が継続されたままとなる。さらに、図１０（Ｄ）に示すように、時点ｔ４において、携帯電話２００からテレビジョン装置１００へ発話開始信号及びデジタル音声データが送信される。これにより、図１０（Ｆ）に示すように、命令抽出部７が起動され、記録領域部２１に保存されたデジタル音声データ及び送信されたデジタル音声データを用いて、一連の命令抽出処理が行われる。
【０１３８】
このようにして発話検出処理を行うことにより、突発的な雑音には反応せず、意味を持つ発話のみ検出し、その検出結果に基づいて、テレビジョン装置１００の命令抽出部７の起動及び停止を効率的に制御することができる。
【０１３９】
（継続判定処理）
次に、本実施の形態に係る音声認識モードの継続判定処理（ステップＳ１３）について説明する。携帯電話２００では、通常の待ち受け動作時に比べ、音声認識モードにおける消費電力は大きくなる。そこで、ユーザが携帯電話２００を音声認識モードのまま外に持ち出したり、室内にユーザがいないのに発話検出を行い続けたりして消費電力が増大してしまう状態が極力生じないようにするために、音声認識モードの継続判定処理が行われる。
【０１４０】
図１１を参照して、音声認識モードの継続判定処理について説明する。
【０１４１】
まず、音響制御部６は、人感センサ１１により、周囲にユーザが存在するか否かを判定する（ステップＳ５１）。
【０１４２】
ユーザが存在していないと判定した場合（ステップＳ５１；Ｎｏ）、ユーザがいない状態が一定期間（例えば１時間）継続しているか否かを判定する（ステップＳ５２）。ユーザがいない状態が、一定期間継続されていた場合（ステップＳ５２；Ｙｅｓ）、音響制御部６は、音声認識モードを終了する（ステップＳ５７）。続いて、音響制御部６は、命令抽出部７を停止し、発話検出制御部３３に停止命令を送信し、発話検出制御部３３に、発話検出処理部３２を停止させる（ステップＳ５８）。
【０１４３】
一方、ユーザが検出された場合（ステップＳ５１；Ｙｅｓ）又はユーザがいない状態が、一定期間継続されていない場合（ステップＳ５２；Ｎｏ）、音響制御部６は、携帯電話２００とテレビジョン装置１００の無線接続が確立されているか否かを判定する（ステップＳ５３）。例えば、音声認識モードのままで携帯電話２００を持って外出した場合、テレビジョン装置１００と携帯電話２００の距離が離れることで、無線接続が解除され、通信不能となる。この場合、無線接続は確立されていないので（ステップＳ５３；Ｎｏ）、音響制御部６は、音声認識モードを終了する（ステップＳ５７）。続いて、音響制御部６は、命令抽出部７を停止し、発話検出制御部３３に停止命令を送信し、発話検出制御部３３に、発話検出処理部３２を停止させる（ステップＳ５８）。
【０１４４】
無線接続が確立されている場合（ステップＳ５３；Ｙｅｓ）、音響制御部６は、一定時間（例えば１時間）、操作命令が有るか否かを判定する（ステップＳ５４）。一定時間継続して、命令が発せられていない場合（ステップＳ５４；Ｎｏ）、音響制御部６は、音声認識モードを終了する（ステップＳ５７）。続いて、音響制御部６は、命令抽出部７を停止し、発話検出制御部３３に停止信号を送信し、発話検出制御部３３に、発話検出処理部３２を停止させる（ステップＳ５８）。
【０１４５】
例えば、ユーザが音声認識モードにしていることを認識していなかったり、その場で寝てしまったりしていた場合に、音声認識モードを設定したままであると電力を無駄に消費してしまうことになるので、音声認識モードを終了し、命令抽出部７及び発話検出処理部３２を停止させるのである。
【０１４６】
一方、一定時間中に命令が発せられた場合（ステップＳ５４；Ｙｅｓ）、音響制御部６は、リモコン操作又は操作命令により音声認識モードの終了命令が発せられているか否かを判定する（ステップＳ５５）。音声認識モードの終了命令が発せられていれば（ステップＳ５５；Ｙｅｓ）、音響制御部６は、音声認識モードを終了する（ステップＳ５７）。続いて、音響制御部６は、命令抽出部７を停止し、発話検出制御部３３に停止信号を送信し、発話検出制御部３３に、発話検出処理部３２を停止させる（ステップＳ５８）。
【０１４７】
一方、音声認識モードの終了命令が発せられていなければ（ステップＳ５５：Ｎｏ）、音響制御部６は、音声認識モードの継続設定を行う（ステップＳ５６）。
【０１４８】
ステップＳ５８、ステップＳ５６終了後は、継続判定処理を終了する。
【０１４９】
以上詳細に説明したように、本実施の形態によれば、テレビジョン装置１００は、収集された音声に基づく音声信号と、携帯電話２００から受信した音声信号を取得する。これにより、２つの音声信号のうち、良好な方又は両方を用いて、ユーザが発声した操作命令を抽出することができる。このようにすれば、このテレビジョン装置１００は、携帯電話２００から受信したタイミング信号（発話開始信号、発話終了信号）に基づいて、発話が検出されていない時は命令抽出部７を停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等によるテレビジョン装置１００本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【０１５０】
また、本実施の形態によれば、携帯電話２００は、収集された音声信号に基づいてユーザの発話の開始及び終了を検出する度にタイミング信号をテレビジョン装置１００に送信する。このようにすれば、タイミング信号を受信したテレビジョン装置１００は、ユーザが発声した操作命令を正確なタイミングで抽出することができるうえ、ユーザが発声した操作命令を抽出する命令抽出部７を不要な時に停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等によるテレビジョン装置１００本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【０１５１】
すなわち、本実施の形態によれば、発話検出はユーザの近くに置かれた携帯電話２００で行われる。また、音声認識等による操作命令の抽出は、携帯電話２００で収集された音声に基づく音声信号と、テレビジョン装置１００で収集された音声に基づく音声信号との少なくとも一方を用いて、良好な方又は両方を組み合わせて行われる。また、発話開始信号が送信されてから発話停止信号が送信されるまでの間だけ、操作命令を抽出する命令抽出部７を起動させておくことができる。これにより、ユーザが煩わしい操作を行うことなく、音声認識等によるテレビジョン装置１００本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【０１５２】
より詳細には、本実施の形態では、異なる位置で収集された２つの音声信号を用いて音声認識が行われる。これにより、より頑健な（ノイズに対して強い）音声認識が可能となる。
【０１５３】
また、比較的に電力に余裕のあるテレビジョン装置１００で大きな電力を必要とする雑音消去、音声認識が行われ、発話検出は、ユーザの近くに置かれる携帯電話２００で行われる。このため、本実施の形態に係る音声認識操作システム３００は、精度及び電力の観点からすれば、最適なシステム構成となる。
【０１５４】
また、携帯電話２００を発話検出装置とすることで、ハードウエアの追加を最小限に留めることができる。
【０１５５】
また、本実施の形態によれば、人感センサによってユーザの存在が検出される。ユーザが存在しなければ、テレビジョン装置１００の命令抽出部７と、携帯電話２００の発話検出処理部３２を停止する。これにより双方の消費電力を低減することができる。
【０１５６】
また、本実施の形態によれば、携帯電話２００において、発話が検出されている間だけ、テレビジョン装置１００における命令抽出部７を起動させておくことができるので、消費電力を低減することができる。
【０１５７】
また、本実施の形態によれば、収集された音声に対応する音圧レベルが、一定期間高くなければ、命令抽出部７を起動しないので、無駄な消費電力を費やさないようにすることができる。
【０１５８】
また、本実施の形態では、音声認識モード以外の動作モードでは、音響処理部５及び発話検出処理部３２は、その動作を停止している。これにより、消費電力をさらに低減することができる。
【０１５９】
また、本実施の形態では、音声認識モードに切り替わると、発話を検出するための音圧レベルの閾値の校正を行う。これにより、周囲の状況に応じた高精度な音声認識が可能となる。また、この閾値の校正をする行う際には、表示部３で、発話を控える旨のメッセージを表示する。これにより、周囲の状況に応じた閾値の校正をより適切に行うことができる。
【０１６０】
また、本実施の形態では、テレビジョン装置１００と携帯電話２００との間の無線接続が確立されない場合には、音声認識モードを終了する。これにより、命令抽出部７及び発話検出処理部３３が停止されるので、消費電力をさらに低減することができる。
【０１６１】
また、本実施の形態では、一定期間、発話が行われない場合に、音声認識モードを終了する。これにより、命令抽出部７及び発話検出処理部３２が停止されるので、消費電力をさらに低減することができる。
【０１６２】
また、本実施の形態では、操作命令の内容が、音声認識モードの終了命令である場合に、音声認識モードを終了する。これにより、命令抽出部７及び発話検出処理部３２が停止されるので、消費電力をさらに低減することができる。
【０１６３】
また、本実施の形態では、音声から操作命令を抽出する一連の命令抽出処理において、テレビジョン装置１００に複数のマイクロホン４、エコーキャンセラ２２、雑音除去処理部２３等の機能を備えることで、高精度な音声認識が可能となる。
【０１６４】
しかしながら、周囲の環境や雑音状況によっては、雑音をうまく除去できない場合があり得る。例えば、ユーザとテレビジョン装置１００の位置が非常に遠かったり、スピーカ２の音が非常に大きくて、テレビジョン装置１００のマイクロホン４に到達するユーザの音声のＳＮ比が極端に小さかったり場合には、そのような状況が起こり得る。
【０１６５】
そこで、本実施の形態では、ユーザに近い場所にある携帯電話２００を、発話検出装置として使用するとともに、マイクロホン３１から入力された音声データをテレビジョン装置１００に送信し、操作命令の抽出に用いる。このため、高いＳＮ比で、操作命令を取得することができる。
【０１６６】
テレビジョン装置１００は、リモコンによる操作が複雑であるため、本実施の形態のように、音声認識による操作が可能となれば、ユーザの作業負担が著しく軽減される。しかしながら、本発明は、チューナ、オーディオ、レコーダなど、あらゆるＡＶ機器に適用可能であり、ＡＶ機器以外の家電製品にも適用可能である。
【０１６７】
本実施の形態では、エコーキャンセルを施し、雑音除去処理を施したテレビジョン装置１００で取得されたデジタル音声データと、比較的ＳＮ比が高い携帯電話２００のデジタル音声データの２系統の音声データを取得することができる。そこで、それぞれを独立して音声認識を行い、より音声認識精度が高い方を用いて、音声認識結果とするようにしてもよい。
【０１６８】
いずれの音声データを採用するかは、それぞれの音声データが、どれくらいの確実さであるかを表わす尺度である尤度を基準とすることができる。この尤度を比較し、尤度が高いほうを音声認識結果として採用すればよい。例えば、ユーザがテレビジョン装置１００から遠い場所にいて、机等に携帯電話２００を置いた状態で、携帯電話２００に向かって発話している状況等では、携帯電話２００で取得された音声データを用いた方が、尤度が高くなるので、高精度な音声認識の精度を期待できる。
【０１６９】
また、携帯電話２００側のマイクロホン３１とテレビジョン装置１００のマイクロホン４を合わせて、１つのマイクロホンアレイとみなし、雑音除去処理を行うようにしてもよい。複数のマイクロホンを用いた雑音除去処理の手法のうち、特にＩＣＡ（独立成分分析）を用いた雑音除去手法を用いるようにすれば、マイク特性やマイク位置の事前情報が未知であっても雑音除去が可能となる。このようにして高精度に雑音が除去された音声データを用いて音声認識を行うことにより、高精度な認識結果を期待することができる。
【０１７０】
また、本実施の形態では、図９の発話検出処理を実行することにより、発話をしている時間を検出することができるので、発話中は自動的にテレビジョン装置１００の音量を下げたり、ゼロにしたりすることで、テレビジョン装置１００から発せられる音の影響を小さくし、ユーザから発せられる音声を高ＳＮ比でマイクロホン３１に到達させることが可能となる。
【０１７１】
このように、本実施の形態によれば、発話を行う度に、音声認識スイッチを押したり、マイクロホン３１を口の近くに持ってきたりしなくても、ユーザが命令を発声するだけで、周囲の雑音に影響を受けない高精度な音声認識による家電機器の操作を実現し、さらに、その機能を低消費電力で実現することが可能である。
【０１７２】
なお、本実施の形態で指定した各種時間（発話検出のための音圧検知の区間、人感センサによって音声認識モードを終了する区間、等）は、一例であり、本実施の形態において例示した値には限られない。また、本実施の形態では、携帯電話２００側のデジタル音声データをテレビジョン装置１００側に送信したが、携帯電話２００のさらなる消費電力削減のために、音声自体の送信は行わず、発話検出の信号送信のみに限定することもできる。さらに、本実施の形態では携帯電話２００を発話検出用の機器として用いているが、同等の機能を実現する発話検出専用のモジュールを用意してもよい。
【０１７３】
なお、上記実施の形態において、テレビジョン装置１００及び携帯電話２００により実行されるプログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disk Read-Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＭＯ（Magneto-Optical Disk）等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをインストールすることにより、上述の処理を実行するシステムを構成することとしてもよい。
【０１７４】
また、プログラムをインターネット等の通信ネットワーク上の所定のサーバ装置が有するディスク装置等に格納しておき、例えば、搬送波に重畳させて、ダウンロード等するようにしてもよい。
【０１７５】
また、上述の機能を、ＯＳ（Operating System）が分担して実現する場合又はＯＳとアプリケーションとの協働により実現する場合等には、ＯＳ以外の部分のみを媒体に格納して配布してもよく、また、ダウンロード等してもよい。
【０１７６】
なお、本発明は、上記実施の形態及び図面によって限定されるものではない。本発明の要旨を変更しない範囲で実施の形態及び図面に変更を加えることができるのはもちろんである。
【産業上の利用可能性】
【０１７７】
本発明は、ＡＶ機器等の電子機器等の遠隔操作に好適である。
【符号の説明】
【０１７８】
１…テレビ基幹部、２…スピーカ、３…表示部、４…マイクロホン、５…音響処理部、６…音響制御部、７…命令抽出部、１０…操作制御部、１１…人感センサ、１２…無線通信部、２０…ＡＤコンバータ（ＡＤＣ）、２１…記録領域部、２２…エコーキャンセラ、２３…雑音除去処理部、２４…発話判定処理部、２５…音声認識処理部、２６…音声認識制御部、２７…ＤＡコンバータ（ＤＡＣ）、３０…携帯電話基幹部、３１…マイクロホン、３２…発話検出処理部、３３…発話検出制御部、４０…無線通信部、４１…ＡＤコンバータ（ＡＤＣ）、４２…音圧レベル判定処理部、４３…記録領域部、４４…タイマ、１００…テレビジョン装置、２００…携帯電話、３００…音声認識操作システム、３０１、３０２、３０３、３０４…状態

【特許請求の範囲】
【請求項１】
周囲の音声を収集し、その音声に対応する第１の音声信号を出力する少なくとも１つの音声収集部と、
外部機器と無線通信を行う無線通信部と、
前記第１の音声信号と、前記無線通信部で受信される第２の音声信号との少なくとも一方に対して音声認識処理を含む信号処理を行って、ユーザが発声した操作命令を抽出する命令抽出部と、
抽出された前記操作命令に従って、本体を操作する操作部と、
前記無線通信部で受信されたタイミング信号に基づいて、前記命令抽出部の起動及び停止を制御する制御部と、
を備える電子機器。
【請求項２】
周囲に前記ユーザが存在することを検出する人感センサをさらに備え、
前記無線通信部は、
前記人感センサのセンサ出力を、前記外部機器に送信し、
前記制御部は、
前記人感センサのセンサ出力に基づいて、前記命令抽出部の起動及び停止を制御する、
ことを特徴とする請求項１に記載の電子機器。
【請求項３】
前記無線通信部で受信されるタイミング信号には、
発話開始信号及び発話終了信号が含まれ、
前記制御部は、
前記無線通信部で前記発話開始信号が受信されると、前記命令抽出部を起動し、
前記無線通信部で前記発話終了信号が受信されると、前記命令抽出部を停止する、
ことを特徴とする請求項１又は２に記載の電子機器。
【請求項４】
前記第１の音声信号を保存する記録部をさらに備え、
前記無線通信部で受信されるタイミング信号には、
前記記録部に対する保存命令及び破棄命令が含まれ、
前記制御部は、
前記無線通信部で前記保存命令が受信されると、前記記録部への前記第１の音声信号の保存を開始し、
前記無線通信部で前記破棄命令が受信されると、前記記録部に保存された前記第１の音声信号を破棄し、
前記記録部に保存された前記第１の音声信号を用いて前記操作命令を抽出するように、前記命令抽出部を制御する、
ことを特徴とする請求項３に記載の電子機器。
【請求項５】
音声を出力する出力部をさらに備え、
前記制御部は、
前記無線通信部で、前記保存命令を受信すると、前記出力部から出力される音声の音量を小さくする、
ことを特徴とする請求項４に記載の電子機器。
【請求項６】
前記制御部は、
音声認識モード以外の動作モードでは、前記命令抽出部を停止し、
前記操作部に、前記音声認識モードへの切り替え操作が入力されると、
前記命令抽出部を起動するとともに、前記音声認識モードへの切り替え信号を、前記無線通信部を介して、前記外部機器に送信する、
ことを特徴とする請求項１乃至５のいずれか一項に記載の電子機器。
【請求項７】
情報を表示する表示部をさらに備え、
前記制御部は、
前記命令抽出部を起動後、前記ユーザに発話を控えてもらう旨のメッセージを、前記表示部に表示させる、
ことを特徴とする請求項６に記載の電子機器。
【請求項８】
前記制御部は、
前記外部機器との無線接続が確立されない場合に、
前記音声認識モードを終了し、前記命令抽出部を停止する、
ことを特徴とする請求項６又は７に記載の電子機器。
【請求項９】
前記制御部は、
所定の期間、前記無線通信部で発話の開始が検出された旨の信号が受信されない場合に、
前記音声認識モードを終了し、前記命令抽出部を停止するとともに、前記無線通信部を介して、前記外部機器に前記音声認識モードの終了通知を送信する、
ことを特徴とする請求項６乃至８のいずれか一項に記載の電子機器。
【請求項１０】
前記制御部は、
前記操作命令が、前記音声認識モードの終了命令であった場合に、
前記音声認識モードを終了し、前記命令抽出部を停止するとともに、前記無線通信部を介して、前記外部機器に前記音声認識モードの終了通知を送信する、
ことを特徴とする請求項６乃至９のいずれか一項に記載の電子機器。
【請求項１１】
前記制御部は、
前記命令抽出部に、
前記第１の音声信号及び前記第２の音声信号の両方に対して音声認識処理を行わせ、
前記音声認識処理の処理結果の尤度が高い方を用いて前記操作命令を抽出させる、
ことを特徴とする請求項１乃至１０のいずれか一項に記載の電子機器。
【請求項１２】
周囲の音声を収集し、その音声に対応する音声信号を出力する音声収集部と、
電子機器と無線通信を行う無線通信部と、
前記音声信号の音圧レベルに基づいて、ユーザの発話の開始及び終了を検出する発話検出処理部と、
前記発話検出処理部により前記ユーザの発話の開始及び終了が検出される度に、タイミング信号を、前記無線通信部を介して、前記電子機器に送信する制御部と、
を備える発話検出装置。
【請求項１３】
前記制御部は、
前記人感センサのセンサ出力に基づいて、前記発話検出処理部の起動及び停止を制御する、
ことを特徴とする請求項１２に記載の発話検出装置。
【請求項１４】
前記制御部は、
前記発話検出処理部により前記ユーザの発話の開始が検出されると、前記無線通信部を介して、前記タイミング信号としての発話開始信号とともに前記音声信号を前記電子機器に送信し、前記発話検出処理部により前記ユーザの発話の終了が検出されると、前記無線通信部を介して、前記タイミング信号としての発話終了信号を前記電子機器に送信するとともに前記音声信号の送信を停止する、
ことを特徴とする請求項１２又は１３に記載の発話検出装置。
【請求項１５】
前記音声信号を保存する記録部をさらに備え、
前記発話検出処理部は、
前記音声信号の音圧レベルが閾値を超えるか否かを判定する音圧レベル判定処理部をさらに備え、
前記制御部は、
前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値を超えたと判定されると、前記記録部への前記音声信号の保存を開始するとともに、保存命令を前記電子機器に送信し、
所定の期間経過後に、前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値以下になったと判定されると、前記記録部へ保存された前記音声信号を破棄するとともに、破棄命令を前記電子機器に送信し、
前記所定の期間経過後に、前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値を超えたと判定されると、前記無線通信部を介して、発話開始信号と前記記録部へ保存された前記音声信号とを、前記電子機器に送信する、
ことを特徴とする請求項１４に記載の発話検出装置。
【請求項１６】
前記制御部は、
前記無線通信部を介して、前記電子機器から音声認識モードへの切り替え信号を受信すると、前記発話検出処理部を起動する、
ことを特徴とする請求項１２乃至１５のいずれか一項に記載の発話検出装置。
【請求項１７】
前記制御部は、
前記発話検出処理部を起動させた後、
所定の期間、前記音圧レベル判定処理部に、前記音声信号の音圧レベルが閾値を超えたか否かを判定させ、
前記所定の期間に対する前記音声信号の音圧レベルが閾値を超えていた期間の割合が、所定の割合より小さくなるように、前記閾値を調整する、
ことを特徴とする請求項１６に記載の発話検出装置。
【請求項１８】
前記制御部は、
前記電子機器との無線接続が確立されない場合に、
前記発話検出処理部を停止する、
ことを特徴とする請求項１６又は１７に記載の発話検出装置。
【請求項１９】
前記制御部は、
前記無線通信部を介して、前記電子機器から前記音声認識モードの終了通知を受信すると、前記発話検出処理部を停止する、
ことを特徴とする請求項１６乃至１８のいずれか一項に記載の発話検出装置。
【請求項２０】
請求項１乃至１１のいずれか一項に記載の電子機器と、
請求項１２乃至１９のいずれか一項に記載の発話検出装置と、
を備える音声認識操作システム。
【請求項２１】
前記電子機器が、テレビジョン装置である、
ことを特徴とする請求項２０に記載の音声認識操作システム。
【請求項２２】
前記発話検出装置が、携帯電話である、
ことを特徴とする請求項２０又は２１に記載の音声認識操作システム。
【請求項２３】
周囲の音声を、ユーザの近くに置かれた発話検出装置と電子機器とで同時に収集する音声収集工程と、
前記発話検出装置を用いて、収集された音声に対応する音声信号に基づいて、ユーザの発話の開始を検出する発話開始検出工程と、
前記発話開始検出工程で、前記ユーザの発話の開始が検出されると、無線通信により、前記発話検出装置から前記電子機器に、発話開始信号を送信する第１の送信工程と、
受信した発話開始信号に従って、前記電子機器において入力された音声信号からユーザが発声した操作命令を抽出する命令抽出部を起動する起動工程と、
収集された音声に対応する音声信号から、前記命令抽出部により、前記操作命令を抽出する抽出工程と、
前記発話検出装置を用いて、収集された音声に対応する音声信号に基づいて、ユーザの発話の終了を検出する発話終了検出工程と、
前記発話終了検出工程で、前記ユーザの発話の終了が検出されると、無線通信により、前記発話検出装置から前記電子機器に、発話終了信号を送信する第２の送信工程と、
前記電子機器で、発話終了信号を受信すると、前記命令抽出部を停止する停止工程と、
抽出された前記操作命令に従って、本体を操作する操作工程と、
を含む音声認識操作方法。
【請求項２４】
電子機器を制御するコンピュータを、
周囲の音声を収集し、その音声に対応する第１の音声信号を出力する少なくとも１つの音声収集手段と、
外部機器と無線通信を行う無線通信手段と、
前記第１の音声信号と、外部機器から送信される第２の音声信号との少なくとも一方に対して音声認識処理を含む信号処理を行って、ユーザが発声した操作命令を抽出する命令抽出手段と、
抽出された前記操作命令に従って、本体を操作する操作手段と、
前記外部機器から送信されるタイミング信号に基づいて、前記命令抽出手段の起動及び停止を制御する制御手段と、
して機能させるプログラム。
【請求項２５】
ユーザの発話を検出する発話検出装置を制御するコンピュータを、
周囲の音声を収集し、その音声に対応する音声信号を出力する音声収集手段と、
電子機器と無線通信を行う無線通信手段と、
前記音声信号の音圧レベルに基づいて、ユーザの発話の開始及び終了を検出する発話検出処理手段と、
前記発話検出処理手段により前記ユーザの発話の開始及び終了が検出される度に、タイミング信号を、電子機器に送信する制御手段と、
して機能させるプログラム。

【図１】