説明

電子機器、発話検出装置、音声認識操作システム、音声認識操作方法及びプログラム

【課題】ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行う。
【解決手段】テレビジョン装置100及び携帯電話200は、周囲の音声を収集する。携帯電話200は、収集された音声からユーザの発話の開始を検出し、発話開始信号と、その音声に相当する音声信号をテレビジョン装置100に送信し、収集された音声からユーザの発話の終了を検出し、発話終了信号をテレビジョン装置100に送信するとともに音声信号の送信を停止する。テレビジョン装置100は、発話開始信号を受信すると、音声認識により操作命令を抽出する命令抽出部を起動して、収集した音声に基づく音声信号と受信した音声信号とに基づいて操作命令を抽出する。テレビジョン装置100は、発話終了信号を受信すると、命令抽出部を停止する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話により遠隔操作が可能な電子機器、発話を検出する発話検出装置、発話検出装置を用いて音声認識により電子機器本体の操作を行う音声認識操作システム及び音声認識操作方法、電子機器又は発話検出装置を制御するコンピュータに実行させるプログラムに関する。
【背景技術】
【0002】
テレビ等のAV機器のリモコンは、電源のオン/オフ操作やチャンネル切り替え操作などの単純な操作に用いられるのが常であった。しかしながら、近年では、録画再生機能、インターネット接続によるコンテンツの再生機能、宅内ネットワーク機能等、付加的な機能が増加するのに比例して、リモコンの操作ボタンが増え、メニュー操作が複雑になっている。このため、AV機器に詳しくない人にとってはリモコンを使いこなすことが難しくなってきている。
【0003】
そこで、視聴者の表情、ジェスチャ、音声を認識し、その認識結果に基づいて家電機器を操作し、リモコンを必要としない操作技術の研究開発が盛んになっている。視聴者の動作に応じて、その視聴者がどのような操作を行いたいのかを家電機器が自動的に判断し、該当する操作を行う技術の実現は究極の目標であり、ユーザの利便性向上に大きく貢献するものとして期待されている。
【0004】
リモコンを用いることなく家電機器を操作する形態の1つとして、音声認識による操作が挙げられる。健全な声帯の持ち主であるならば、発声は特別な学習を必要とせず万人が行うことができ、自分の考えを直感的に表現できる手段であるため、音声認識によりAV機器を操作できるようになれば、ユーザの利便性を著しく高めることができる。また、音声ならば、キーボード操作、リモコン操作による入力の煩わしさを感じることなく、ダイレクトにキーワード(例えば、検索キーワード)を入力することも可能になる。
【0005】
音声によって機器を操作する装置は、従来から提案されている。例えば、テレビ本体にマイクロホンを設置し、そのマイクロホンに入力されるユーザの操作命令を音声認識し、テレビの操作を行う装置はその代表例である。しかしながら、マイクロホンで収集した音には、スピーカから発生する音が混入するので、音声認識の性能が劣化してしまう。そこで、スピーカから出力される音が、既知であることを利用し、エコーキャンセラ等の適応的なノイズ除去を施すことにより、音声認識の性能が向上するシステムが開示されている(例えば、特許文献1参照)。
【0006】
しかしながら、より高精度な音声認識を実現するためには、マイクロホンで収集した音からスピーカからの音を除去するエコーキャンセラ処理のみならず、遠くの人物からの発話を抽出するために、周囲のノイズを除去する空間的な雑音除去処理や、マイクロホンで収集した音声が雑談等の非命令なものか操作命令であるのかを判定する発話判定処理や、最後に音声を特徴量に変換し、データベースとのパターンマッチングを行う音声認識処理等、多様な処理が必要とされる。
【0007】
また、音声認識により命令を検出する装置では、音声認識機能を常時起動し続ける必要がある。この結果、発話が無い時間帯でも冗長な雑音除去処理と音声認識処理が実行されるようになる。特に、テレビのオン/オフ操作も音声認識で行うならば、テレビがオフ中にも上記音声認識のための処理を常に実行しておく必要があるため、テレビがオフ中であるにも関わらず、電力を消費してしまう。
【0008】
一方、テレビのリモコンにマイクロホンを設置し、リモコン内部において音声認識を行い、認識結果をテレビに送信するシステムが開示されている(例えば、特許文献2参照)。リモコンにマイクロホンが設置されている場合、ユーザの口とマイクロホンとの距離が極めて近くなるため、周囲の雑音の影響が少なくなるので、音声認識精度を高めることができる。
【0009】
しかしながら、このシステムでは、発話を行う際にリモコンを口元に持っていく動作が必要になる。また、音声認識処理部をリモコンに内包する必要があるため、消費電力の増大によって電池の消耗が激しくなる。さらに、テレビの音や、周囲の雑音のレベルによっては、それらを除去する機能もリモコンに搭載する必要があるため、消費電力がさらに増大する場合も考えられる。
【0010】
また、リモコンに無線通信部を搭載し、リモコンのマイクロホンに入力された音声信号を無線通信経由でインターネット上のサーバに送り、認識結果を受信、リモコンからテレビ部に送信するシステムが開示されている(例えば、特許文献3参照)。このシステムによれば、音声認識処理部がリモコンに不要となり、コストや消費電力の削減が期待できるが、リモコンを持って発話しなくてはならないという点は変わらない。加えて、一旦インターネットサーバを経由するため、通信速度や環境によってはリアルタイム性が損なわれる可能性もある。
【0011】
さらに、携帯電話を音声認識のためのデバイスとして使用し、携帯電話に向かって発話した命令を携帯電話で認識し、テレビに送信するシステムが開示されている(例えば、特許文献4参照)。携帯電話はユーザの近くに置かれる傾向があり、元々マイクロホンを備えているので、追加のコストが少ないことがこの装置の利点である。しかしながら、このシステムでも、携帯電話を持って発話する動作が必要となるため、従来のリモコンのボタンを押す動作と煩わしさは変わらないことになる。また、他の従来のシステムと同様に、周囲の雑音環境によってはうまく音声認識がなされない可能性がある。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】特開平5−22779号公報
【特許文献2】特開2001−318689号公報
【特許文献3】特開2003−115939号公報
【特許文献4】特開2005−65156号公報
【発明の概要】
【発明が解決しようとする課題】
【0013】
上述のように、上記特許文献1乃至4に開示されたシステムでは、発話を行う度に、音声認識スイッチを押下したり、マイクロホンを口の近くに持って行ったりするような煩わしい操作を行わなければ、音声認識精度を高めるのが困難になる。また、音声認識による遠隔操作が行われていないときでも、一連の命令抽出処理を行う必要があるので、消費電力が増大する。
【0014】
本発明は、上記実情に鑑みてなされたものであり、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる電子機器、発話検出装置、音声認識操作システム、音声認識操作方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0015】
上記目的を達成するため、本発明の第1の観点に係る電子機器は、
周囲の音声を収集し、その音声に対応する第1の音声信号を出力する少なくとも1つの音声収集部と、
外部機器と無線通信を行う無線通信部と、
前記第1の音声信号と、前記無線通信部で受信される第2の音声信号との少なくとも一方に対して音声認識処理を含む信号処理を行って、ユーザが発声した操作命令を抽出する命令抽出部と、
抽出された前記操作命令に従って、本体を操作する操作部と、
前記無線通信部で受信されたタイミング信号に基づいて、前記命令抽出部の起動及び停止を制御する制御部と、
を備える。
【0016】
この場合、周囲に前記ユーザが存在することを検出する人感センサをさらに備え、
前記無線通信部は、
前記人感センサのセンサ出力を、前記外部機器に送信し、
前記制御部は、
前記人感センサのセンサ出力に基づいて、前記命令抽出部の起動及び停止を制御する、
こととしてもよい。
【0017】
また、前記無線通信部で受信されるタイミング信号には、
発話開始信号及び発話終了信号が含まれ、
前記制御部は、
前記無線通信部で前記発話開始信号が受信されると、前記命令抽出部を起動し、
前記無線通信部で前記発話終了信号が受信されると、前記命令抽出部を停止する、
こととしてもよい。
【0018】
この場合、前記第1の音声信号を保存する記録部をさらに備え、
前記無線通信部で受信されるタイミング信号には、
前記記録部に対する保存命令及び破棄命令が含まれ、
前記制御部は、
前記無線通信部で前記保存命令が受信されると、前記記録部への前記第1の音声信号の保存を開始し、
前記無線通信部で前記破棄命令が受信されると、前記記録部に保存された前記第1の音声信号を破棄し、
前記記録部に保存された前記第1の音声信号を用いて前記操作命令を抽出するように、前記命令抽出部を制御する、
こととしてもよい。
【0019】
この場合、音声を出力する出力部をさらに備え、
前記制御部は、
前記無線通信部で、前記保存命令を受信すると、前記出力部から出力される音声の音量を小さくする、
こととしてもよい。
【0020】
また、前記制御部は、
音声認識モード以外の動作モードでは、前記命令抽出部を停止し、
前記操作部に、前記音声認識モードへの切り替え操作が入力されると、
前記命令抽出部を起動するとともに、前記音声認識モードへの切り替え信号を、前記無線通信部を介して、前記外部機器に送信する、
こととしてもよい。
【0021】
この場合、情報を表示する表示部をさらに備え、
前記制御部は、
前記命令抽出部を起動後、前記ユーザに発話を控えてもらう旨のメッセージを、前記表示部に表示させる、
こととしてもよい。
【0022】
また、前記制御部は、
前記外部機器との無線接続が確立されない場合に、
前記音声認識モードを終了し、前記命令抽出部を停止する、
こととしてもよい。
【0023】
また、前記制御部は、
所定の期間、前記無線通信部で発話の開始が検出された旨の信号が受信されない場合に、
前記音声認識モードを終了し、前記命令抽出部を停止するとともに、前記無線通信部を介して、前記外部機器に前記音声認識モードの終了通知を送信する、
こととしてもよい。
【0024】
また、前記制御部は、
前記操作命令が、前記音声認識モードの終了命令であった場合に、
前記音声認識モードを終了し、前記命令抽出部を停止するとともに、前記無線通信部を介して、前記外部機器に前記音声認識モードの終了通知を送信する、
こととしてもよい。
【0025】
また、前記制御部は、
前記命令抽出部に、
前記第1の音声信号及び前記第2の音声信号の両方に対して音声認識処理を行わせ、
前記音声認識処理の処理結果の尤度が高い方を用いて前記操作命令を抽出させる、
こととしてもよい。
【0026】
本発明の第2の観点に係る発話検出装置は、
周囲の音声を収集し、その音声に対応する音声信号を出力する音声収集部と、
電子機器と無線通信を行う無線通信部と、
前記音声信号の音圧レベルに基づいて、ユーザの発話の開始及び終了を検出する発話検出処理部と、
前記発話検出処理部により前記ユーザの発話の開始及び終了が検出される度に、タイミング信号を、前記無線通信部を介して、前記電子機器に送信する制御部と、
を備える。
【0027】
この場合、前記制御部は、
前記人感センサのセンサ出力に基づいて、前記発話検出処理部の起動及び停止を制御する、
こととしてもよい。
【0028】
また、前記制御部は、
前記発話検出処理部により前記ユーザの発話の開始が検出されると、前記無線通信部を介して、前記タイミング信号としての発話開始信号とともに前記音声信号を前記電子機器に送信し、前記発話検出処理部により前記ユーザの発話の終了が検出されると、前記無線通信部を介して、前記タイミング信号としての発話終了信号を前記電子機器に送信するとともに前記音声信号の送信を停止する、
こととしてもよい。
【0029】
この場合、前記音声信号を保存する記録部をさらに備え、
前記発話検出処理部は、
前記音声信号の音圧レベルが閾値を超えるか否かを判定する音圧レベル判定処理部をさらに備え、
前記制御部は、
前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値を超えたと判定されると、前記記録部への前記音声信号の保存を開始するとともに、保存命令を前記電子機器に送信し、
所定の期間経過後に、前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値以下になったと判定されると、前記記録部へ保存された前記音声信号を破棄するとともに、破棄命令を前記電子機器に送信し、
前記所定の期間経過後に、前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値を超えたと判定されると、前記無線通信部を介して、発話開始信号と前記記録部へ保存された前記音声信号とを、前記電子機器に送信する、
こととしてもよい。
【0030】
また、前記制御部は、
前記無線通信部を介して、前記電子機器から音声認識モードへの切り替え信号を受信すると、前記発話検出処理部を起動する、
こととしてもよい。
【0031】
この場合、前記制御部は、
前記発話検出処理部を起動させた後、
所定の期間、前記音圧レベル判定処理部に、前記音声信号の音圧レベルが閾値を超えたか否かを判定させ、
前記所定の期間に対する前記音声信号の音圧レベルが閾値を超えていた期間の割合が、所定の割合より小さくなるように、前記閾値を調整する、
こととしてもよい。
【0032】
また、前記制御部は、
前記電子機器との無線接続が確立されない場合に、
前記発話検出処理部を停止する、
こととしてもよい。
【0033】
また、前記制御部は、
前記無線通信部を介して、前記電子機器から前記音声認識モードの終了通知を受信すると、前記発話検出処理部を停止する、
こととしてもよい。
【0034】
本発明の第3の観点に係る音声認識操作システムは、
本発明の電子機器と、
本発明の発話検出装置と、
を備える。
【0035】
この場合、前記電子機器が、テレビジョン装置である、
こととしてもよい。
【0036】
また、前記発話検出装置が、携帯電話である、
こととしてもよい。
【0037】
本発明の第4の観点に係る音声認識操作方法は、
周囲の音声を、ユーザの近くに置かれた発話検出装置と電子機器とで同時に収集する音声収集工程と、
前記発話検出装置を用いて、収集された音声に対応する音声信号に基づいて、ユーザの発話の開始を検出する発話開始検出工程と、
前記発話開始検出工程で、前記ユーザの発話の開始が検出されると、無線通信により、前記発話検出装置から前記電子機器に、発話開始信号を送信する第1の送信工程と、
受信した発話開始信号に従って、前記電子機器において入力された音声信号からユーザが発声した操作命令を抽出する命令抽出部を起動する起動工程と、
収集された音声に対応する音声信号から、前記命令抽出部により、前記操作命令を抽出する抽出工程と、
前記発話検出装置を用いて、収集された音声に対応する音声信号に基づいて、ユーザの発話の終了を検出する発話終了検出工程と、
前記発話終了検出工程で、前記ユーザの発話の終了が検出されると、無線通信により、前記発話検出装置から前記電子機器に、発話終了信号を送信する第2の送信工程と、
前記電子機器で、発話終了信号を受信すると、前記命令抽出部を停止する停止工程と、
抽出された前記操作命令に従って、本体を操作する操作工程と、
を含む。
【0038】
本発明の第5の観点に係るプログラムは、
電子機器を制御するコンピュータを、
周囲の音声を収集し、その音声に対応する第1の音声信号を出力する少なくとも1つの音声収集手段と、
外部機器と無線通信を行う無線通信手段と、
前記第1の音声信号と、外部機器から送信される第2の音声信号との少なくとも一方に対して音声認識処理を含む信号処理を行って、ユーザが発声した操作命令を抽出する命令抽出手段と、
抽出された前記操作命令に従って、本体を操作する操作手段と、
前記外部機器から送信されるタイミング信号に基づいて、前記命令抽出手段の起動及び停止を制御する制御手段と、
して機能させる。
【0039】
本発明の第6の観点に係るプログラムは、
ユーザの発話を検出する発話検出装置を制御するコンピュータを、
周囲の音声を収集し、その音声に対応する音声信号を出力する音声収集手段と、
電子機器と無線通信を行う無線通信手段と、
前記音声信号の音圧レベルに基づいて、ユーザの発話の開始及び終了を検出する発話検出処理手段と、
前記発話検出処理手段により前記ユーザの発話の開始及び終了が検出される度に、タイミング信号を、電子機器に送信する制御手段と、
して機能させる。
【発明の効果】
【0040】
本発明によれば、以下に示す効果を奏する。
(1)本発明の第1の観点に係る電子機器は、収集された音声に基づく音声信号と、外部機器から受信した音声信号を取得する。これにより、2つの音声信号のうち、良好な方又は両方を用いて、ユーザが発声した操作命令を抽出することができる。このようにすれば、この電子機器は、外部機器から受信したタイミング信号に基づいて、発話が検出されていない時は命令抽出部を停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【0041】
(2)本発明の第2の観点に係る発話検出装置は、収集された音声信号に基づいてユーザの発話の開始及び終了を検出する度にタイミング信号を電子機器に送信する。このようにすれば、タイミング信号を受信した電子機器は、ユーザが発声した操作命令を正確なタイミングで抽出することができるうえ、ユーザが発声した操作命令を抽出する命令抽出部を不要な時に停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【0042】
(3)本発明の第3の観点に係る音声認識操作システムによれば、本発明の電子機器と発話検出装置とを備えているので、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【0043】
(4)本発明の第4の観点に係る音声認識操作方法によれば、発話検出はユーザの近くに置かれた発話検出装置で行われる。また、音声認識等による操作命令の抽出は、発話検出装置で収集された音声に基づく音声信号と、電子機器で収集された音声に基づく音声信号との少なくとも一方を用いて、例えば良好な方又は両方を組み合わせて行われる。また、発話開始信号が送信されてから発話終了信号が送信されるまでの間だけ、操作命令を抽出する命令抽出部を起動させておくことができる。これにより、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【0044】
(5)本発明の第5の観点に係るプログラムによれば、コンピュータは、収集された音声に基づく音声信号と、外部機器から送信される音声信号を取得する。このようにすれば、2つの音声信号のうち、良好な方又は両方を用いて、ユーザが発声した操作命令を抽出することができる。また、この電子機器は、外部機器から送信されるタイミング信号に基づいて、発話が検出されていない時は命令抽出部を停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【0045】
(6)本発明の第6の観点に係るプログラムによれば、コンピュータは、収集された音声信号に基づいてユーザの発話の開始及び終了を検出する度にタイミング信号を電子機器に送信する。これにより、タイミング信号を受信した電子機器は、操作命令を正確なタイミングで抽出することができるうえ、命令抽出部を不要な時に停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等による電子機器本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【図面の簡単な説明】
【0046】
【図1】本発明の実施の形態に係る音声認識操作システムの構成を示す模式図である。
【図2】図1の音声認識操作システムを構成するテレビジョン装置の構成を示すブロック図である。
【図3】図1の音声認識操作システムを構成する携帯電話の構成を示すブロック図である。
【図4】図2のテレビジョン装置の操作モードによる状態遷移図である。
【図5】図1の音声認識操作システムにおける音声認識モードにおける一連の全体動作のフローチャートである。
【図6】図5の音圧検知閾値キャリブレーションのサブルーチンである。
【図7】図7(A)乃至図7(C)は、音圧検知閾値キャリブレーションを説明するためのタイミングチャート(その1)である。
【図8】図8(A)乃至図8(C)は、音圧検知閾値キャリブレーションを説明するためのタイミングチャート(その2)である。
【図9】図5の発話検出処理のサブルーチンである。
【図10】図10(A)乃至図10(F)は、発話検出処理を説明するためのタイミングチャートである。
【図11】図5の継続判定処理のサブルーチンである。
【発明を実施するための形態】
【0047】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
【0048】
図1に示すように、本実施の形態に係る音声認識操作システム300は、テレビジョン装置100と、携帯電話200とを備える。テレビジョン装置100は、本実施の形態に係る音声認識操作システム300の電子機器に対応する。携帯電話200は、ユーザの近くに置かれている。本実施の形態では、携帯電話200が、音声認識操作システム300を構成する発話検出機器に対応する。
【0049】
(テレビジョン装置)
テレビジョン装置100は、図2に示すように、テレビ基幹部1、スピーカ2、表示部3、マイクロホン4、音響処理部5及び音響制御部6を備える。
【0050】
テレビ基幹部1には、放送電波を受信して再生するためのテレビが有する一般的な各種機能がまとめられている。スピーカ2は、テレビ基幹部1から出力された音声信号に対応する音声を、音響処理部5を介して出力する。表示部3には、テレビ基幹部1から出力された映像信号に対応する映像が表示される。例えば、表示部3は、後述する音圧検知閾値キャリブレーションを精度良く行うためのメッセージ等を表示する。
【0051】
マイクロホン4は1つ以上設けられている。マイクロホン4は、テレビジョン装置100の周囲の音声を収集し、アナログの音声信号に変換して出力する。
【0052】
音響処理部5は、音声の入出力処理を行う。マイクロホン4から送られた音声信号は、音響処理部5に入力され、そこで音響処理された後、必要に応じてテレビ基幹部1に入力される。テレビ基幹部1から出力された音声信号は、音響処理部5に入力され、そこで音響処理された後、必要に応じてスピーカ2から出力される。
【0053】
音響制御部6は、主として、音響処理部5を制御する。
【0054】
テレビ基幹部1について、さらに詳細に説明する。図2では、テレビ基幹部1を構成する構成要素として、操作制御部10、人感センサ11及び無線通信部12が示されている。
【0055】
操作制御部10は、ユーザの操作入力(例えば、リモコンの操作入力)や後述の操作命令に従ってテレビジョン装置100を制御する。
【0056】
人感センサ11は、超音波センサや赤外線センサ等を備える。これらのセンサ出力は、テレビジョン装置100の周囲にユーザが存在するか否かを判定するために用いられる。
【0057】
無線通信部12は、WLAN等の一般的な無線通信や、Bluetooth(登録商標)、低消費電力版Bluetooth(登録商標)、Zigbee(登録商標)等の近距離無線通信機能を有する。人感センサ11の出力は、無線通信部12を介して、外部に送信可能である。
【0058】
続いて、音響処理部5について、さらに詳細に説明する。音響処理部5は、ADコンバータ(ADC)20、記録領域部21、エコーキャンセラ22、雑音除去処理部23、発話判定処理部24、音声認識処理部25、音声認識制御部26、DAコンバータ(DAC)27を備える。ADC20、記録領域部21、エコーキャンセラ22、雑音除去処理部23、発話判定処理部24、音声認識処理部25、音声認識制御部26で、命令抽出部7が形成される。
【0059】
ADC20は、アンプ付きのADコンバータである。ADC20は、マイクロホン4から入力されたアナログの音声信号の増幅、デジタル音声データへの変換を行う。
【0060】
記録領域部21には、ADC20から出力されるデジタル音声データが保存される。保存されたデジタル音声データは、エコーキャンセラ22や、雑音除去処理部23のデジタルフィルタ等、操作命令の抽出に用いられる。
【0061】
エコーキャンセラ22は、ADC20から出力されたデジタル音声データから、スピーカ2から発せられる音声の成分(エコー)をキャンセルする。より具体的には、エコーキャンセラ22は、テレビ基幹部1から出力されスピーカ2から出力される音声に対応するデジタル音声データを参照信号として入力する。エコーキャンセラ22は、ADC20から出力されたデジタル音声データから、適用フィルタなどを用いて、この参照信号の成分を抑圧したデータを出力する。
【0062】
雑音除去処理部23は、ユーザの音声がユーザからマイクロホン4に到達するまでに混入したその他の雑音を、デジタルフィルタ処理を行って除去して出力する。マイクロホン4が複数設置されている場合には、このデジタルフィルタ処理には、マイクロホンアレイ技術が適用される。一方、設置されているマイクロホン4が1つである場合には、このデジタルフィルタ処理には、単一のマイク向けの雑音除去技術が適用される。
【0063】
発話判定処理部24は、雑音除去処理部23又は無線通信部12から出力されたデジタル音声データが操作命令であるのか否か(その他の日常的な会話等であるのか)を判定する。発話判定処理部24は、入力したデジタル音声データを操作命令であると判定すると、そのデジタル音声データを出力する。
【0064】
音声認識処理部25は、発話判定処理部24から出力されたデジタル音声データに対して音声認識処理を行う。より具体的には、音声認識処理部25は、図示しない命令データベース(DB)を有する。音声認識処理部25は、命令DBを参照して、入力したデジタル音声データからその特徴量を抽出したり、パターンマッチングを行ったりして、デジタル音声データに含まれる操作命令の内容を特定する。音声認識処理部25は、特定された操作命令の内容を、テレビ基幹部1の操作制御部10に入力する。操作制御部10は、ユーザの操作入力や後述の操作命令に従ってテレビジョン装置100の本体を操作制御する。
【0065】
音声認識制御部26は、エコーキャンセラ22、雑音除去処理部23、発話判定処理部24及び音声認識処理部25を制御する。
【0066】
DAC27は、テレビ基幹部1から出力されたデジタル音声データをアナログの音声信号に変換してスピーカ2に出力する。
【0067】
続いて、音響制御部6について、さらに詳細に説明する。音響制御部6は、ADC20、記録領域部21、音声認識制御部26及びDAC27を制御する。
【0068】
音響制御部6は、例えば、ADC20から出力されたデジタル音声データの記録領域部21へのデジタル音声データの保存を制御する。また、音響制御部6は、上位コントローラとしての音声認識制御部26を制御する。例えば、音響制御部6は、音声認識制御部26を介して、テレビ基幹部1から出力されたデジタル音声データのエコーキャンセラ22への入力制御、音声認識処理部26から出力された音声認識結果の操作制御部10への伝送制御等を行う。
【0069】
音響制御部6は、人感センサ11のセンサ出力を入力している。音響制御部6は、人感センサ11のセンサ出力に基づいて、命令抽出部7のオン/オフを制御する。このオン/オフ制御には、ADC20のアンプの電源のオン/オフ制御も含まれる。
【0070】
また、音響制御部6は、テレビ基幹部1の無線通信部12を介して、携帯電話200との間でデータを送受信する。例えば、音響制御部6は、携帯電話200から、デジタル音声データを受信する。
【0071】
(携帯電話)
続いて、図3を参照して、携帯電話200について説明する。
【0072】
図3に示すように、携帯電話200は、携帯電話基幹部30、マイクロホン31、発話検出処理部32及び発話検出制御部33を備える。
【0073】
携帯電話基幹部30には、音声通話機能等、一般的な携帯電話に必要とされる機能がまとめられている。例えば、携帯電話基幹部30は、無線通信部40を備える。無線通信部40は、WLAM等の一般的な無線通信や、Bluetooth(登録商標)、低消費電力版Bluetooth(登録商標)、ZigBee(登録商標)等の近距離無線通信機能を有する。
【0074】
マイクロホン31は、携帯電話200の周囲の音声を収集し、アナログの音声信号に変換して出力する。
【0075】
発話検出処理部32は、マイクロホン31から出力されたアナログの音声信号に基づいて、ユーザの発話の検出処理を行う。発話検出処理部32は、ADC41、音圧レベル判定処理部42、記録領域部43を備える。
【0076】
ADC41は、アンプ付きである。ADC41は、マイクロホン31から入力されたアナログ音声信号の増幅、デジタル音声データへの変換を行う。
【0077】
音圧レベル判定処理部42は、ADC41から出力されるデジタル音声データに基づいて、周囲の音圧を監視する。より具体的には、音圧レベル判定処理部42は、ADC41から出力されるデジタル音声データの音圧レベルが、一定の閾値を超えるか否かを判定する。
【0078】
記録領域部43には、ADC41から出力されるデジタル音声データが保存される。
【0079】
発話検出制御部33は、タイマ44を備える。発話検出制御部33は、このタイマ444等を用いて、発話検出処理部32の動作制御を行う。
【0080】
より具体的には、音圧レベル判定処理部42により、ADC41から出力されるデジタル音声データの音圧レベルが閾値を超えていると判定されると、発話検出制御部33は、記録領域部43にデジタル音声データの保存を開始させるとともに、タイマ44に計時を開始させる。また、これと同時に、発話検出制御部33は、デジタル音声データの保存命令を、テレビジョン装置100に送信する。
【0081】
タイマ44によって一定時間計時されると、発話検出制御部33は、音圧レベル判定処理部42により、再び、ADC41から出力されるデジタル音声データの音圧レベルが閾値を超えていたと判定されると、無線通信部40を介して、テレビジョン装置100に、発話が開始された旨の発話開始信号とデジタル音声データとを送信する。
【0082】
一方、発話検出制御部33は、テレビジョン装置100から、人感センサ11のセンサ出力を、無線通信部40を介して受信する。発話検出制御部33は、人感センサ11のセンサ出力に基づいて、発話検出処理部32の起動及び停止を制御する。また、これと同時に、発話検出制御部33は、無線通信部40を介して、テレビジョン装置100から音声認識モードの開始、終了の切り替え等の制御命令を受信し、その命令に従って、発話検出処理部32の起動及び停止を制御する。
【0083】
ところで、テレビジョン装置100では、操作モードの切り替えによって4つの状態を遷移する。図4を参照して、操作モードによる状態遷移について説明する。
【0084】
図4に示すように、4つの操作モードは、リモコンによって操作できる通常モード(状態301、状態302)と、音声認識によっても操作できる音声認識モード(状態303、状態304)の2つに大別できる。
【0085】
状態301は、テレビジョン装置100の電源がオンされており、映像を受信、表示し、リモコンによって電源のオン/オフ、チャンネル変更等の各種操作ができる状態である。状態302は、テレビジョン装置100の電源がオフとなっており、リモコンからの起動要求のみを待ち受けている状態である。
【0086】
状態303は、通常のリモコン操作に加えて、命令抽出部7が起動している状態で、音声認識によりテレビジョン装置100の操作が可能な状態である。状態304は、テレビジョン装置100の電源がオフされているが、リモコンからの起動要求と命令抽出部7が起動している状態での音声認識による起動要求とのいずれかを待ち受けている状態である。
【0087】
通常モードから音声認識モードへの切り替えは、リモコン操作により切り替ることができる。この他、ユーザがあらかじめ音声認識モードでの操作を望む時間帯(例えば、9:00〜24:00等)を設定しておき、自動的にモードを切り替えるようにすることができる。この時間帯の設定を以下では、スケジューリングともいう。
【0088】
図4において、2つの状態を結ぶ実線の矢印aは、リモコン操作やスケジューリングで、その矢印の方向の状態の切り替えが可能であることを示している。また、2つの状態を結ぶ一点鎖線の矢印bは、リモコン操作、スケジューリングに加え、音声操作でも、その矢印の方向の状態の切り替え可能であることを示している。
【0089】
本実施の形態では、音声認識モード切り替えのためのスケジュール管理等は、テレビジョン装置100で行われる。携帯電話200の操作モードは、音声認識モードのテレビジョン装置100からの切り替え信号に従って切り替わるようになる。
【0090】
この場合、携帯電話200とテレビジョン装置100との無線通信方式に、Bluetooth(登録商標)や低消費電力Bluetooth(登録商標)を用いるようにすれば、信号待機の待ち受け消費電力は非常に小さくなる。音声認識モードから通常のモードへの切り替えは、上記と同様にスケジューリングや、リモコン操作での切り替えに加えて、音声操作でも切り替えることができる。
【0091】
次に、上述の構成を有する音声認識操作システム300の動作について説明する。
【0092】
(音声認識モード中の動作)
まず、テレビジョン装置100において、音声認識モードに切り替わった後の一連の全体動作について、図5のフローチャート等を参照して説明する。なお、図面では、テレビジョン装置100をTVとも略述している。
【0093】
上述のリモコン操作やスケジューリング等により、音声認識モードへの切り替え操作がなされると、操作制御部10から、音声認識モードに切り替える操作信号が、音響制御部6に入力される。これにより、図5に示す処理が開始される。
【0094】
まず、音響制御部6は、命令抽出部7を起動すると同時に、無線通信部12を介して、携帯電話200の発話検出制御部33に音声認識モードに切り替える命令を送信することにより、発話検出制御部33に発話検出処理部32を起動させる(ステップS1)。
【0095】
続いて、音響制御部6及び発話検出制御部33は、発話検出処理部32を起動して、音圧検知のための閾値を校正する音圧検知閾値キャリブレーションのサブルーチンを行う(ステップS2)。音圧検知閾値キャリブレーションの詳細については、後述する。
【0096】
音圧検知閾値キャリブレーションが終了すると、音響制御部6及び発話検出制御部33は、人感センサ11によって、ユーザが検出されたか否かを判定する(ステップS3)。
【0097】
ユーザが検出されなかった場合(ステップS3;No)、音響制御部6は、音声認識をする必要は無いものとみなし、命令抽出部7を停止する一方、発話検出制御部33は、発話検出処理部32を停止する(ステップS4)。
【0098】
ユーザが検出された場合(ステップS3;Yes)、携帯電話200の発話検出制御部33は、発話検出処理を行う(ステップS5)。これにより、発話検出処理が開始される。この発話検出処理の詳細については、後述するが、この発話検出処理で、発話が検出されると、記録領域部43には、マイクロホン31から入力された音声に対応するデジタル音声データが保存されている。
【0099】
続いて、発話検出処理の結果、発話検出制御部33は、発話の開始を検出したか否かを判定する(ステップS6)。発話の開始が検出されない場合(ステップS6;No)、後述する音声認識モードの継続判定処理が行われる(ステップS13)。継続判定処理の詳細については後述する。
【0100】
発話の開始が検出されると(ステップS6;Yes)、発話検出制御部33は、無線通信部40を介して、テレビジョン装置100へ、発話の開始が検出されたことを伝える信号(発話開始信号)と、記録領域部43に保存されたデジタル音声データとの送信を開始する(ステップS7)。
【0101】
音響制御部6は、起動した命令抽出部7の音声認識制御部26を制御し、携帯電話200から受信したデジタル音声データと、記録領域部21に格納されたデジタル音声データとに基づいて、エコーキャンセラ22、雑音消去処理部23、発話判定処理部24、音声認識処理部25を動作させ、一連の命令抽出処理の実行を開始させる(ステップS8)。
【0102】
続いて、発話検出制御部33は、音圧レベル判定処理部42の判定結果を参照して、発話が終了するまで待つ(ステップS9;No)。この間にも、携帯電話200からテレビジョン装置100へのデジタル音声データの転送、一連の命令抽出処理が継続されている。
【0103】
発話の終了が検出されると(ステップS9;Yes)、発話検出制御部33は、発話終了信号を、テレビジョン装置100に送信するとともに、デジタル音声データの送信を停止する(ステップS10)。発話終了信号を受けて、音響制御部6は、命令抽出部7における命令抽出処理を停止させる。
【0104】
続いて、音響制御部6は、音声認識の結果得られた発話内容が、音響認識処理部25の命令DBに存在するか否か判定する(ステップS11)。発話内容が命令DBに存在しない場合(ステップS11;No)、後述する音声認識モードの継続判定処理が行われる(ステップS13)。継続判定処理の詳細については後述する。
【0105】
発話内容が命令DBに存在する場合(ステップS11;Yes)、操作制御部10は、その発話内容(操作命令)に従って、テレビジョン装置100の操作制御を行う(ステップS12)。
【0106】
続いて、音響制御部6は、音声認識モードの継続判定処理を行う(ステップS13)。継続判定処理の詳細については後述する。
【0107】
継続判定処理の結果、音声認識モードを継続する場合(ステップS14;Yes)、音響制御部6は、人感センサ11によって、ユーザが検出されたか否かを判定する(ステップS3)。一方、音声認識モードを継続しない場合(ステップS14;No)、音響制御部6及び発話検出制御部33は、音声認識モード中の動作を終了する。
【0108】
以上、音声認識モードにおける一連の全体動作について説明した。
【0109】
続いて、音圧検知閾値キャリブレーション(ステップS2)、発話検出処理(ステップS5)、音声認識モードの継続判定処理(ステップS13)のそれぞれの詳細について説明する。
【0110】
(音圧検知閾値キャリブレーション)
まず、図6を参照して、ステップS2(図5参照)の音圧検知閾値キャリブレーションについて説明する。
【0111】
図6に示すように、音圧検知閾値キャリブレーションのサブルーチン(ステップS2)が開始されると、まず、音響制御部6は、表示部3に、音圧検知閾値キャリブレーション中のため、ユーザに発話を控えてもらう旨のメッセージを表示させる(ステップS21)。
【0112】
続いて、一定時間(例えば5秒間)、発話検出制御部33は、音圧レベル判定処理部42に、ADC41から出力されたデジタル音声データの音圧レベルを監視させる(ステップS22)。デジタル音声データの音圧は、音声認識モード開始時のテレビジョン装置100と携帯電話200の位置関係や、テレビジョン装置100の音量に依存する。本実施の形態では、このデジタル音声データの音圧レベルが閾値を超えたか否かにより、発話検出を行うため、ユーザが発話していない時のデジタル音声データの音圧レベルをあらかじめ調べておき、そのレベルに応じて必要であれば、閾値を調整するのである。
【0113】
このとき、テレビジョン装置100のスピーカ2から発する音は、選局中のテレビ放送や映像の音、もしくはキャリブレーション用の音(例えば、ピンクノイズ)が採用される。さらに、この際に、デジタル音声データの音圧レベルに基づいて、テレビジョン装置100のエコーキャンセラ22における適応フィルタの更新を行うようにしてもよい。
【0114】
続いて、監視期間(例えば5秒間)が経過したら、発話検出制御部33は、監視期間中、音圧レベル判定処理部42の判定により、初期閾値を上回り、音圧検知された時間の割合(音圧検知時間率)を算出する(ステップS23)。音圧検知時間率が所定の割合(本実施の形態では5%)より少なければ(ステップS24;No)、発話検出制御部33は、音圧検知閾値キャリブレーションを終了する。すなわち、この場合には、音圧検知のための閾値として初期閾値がそのまま用いられる。
【0115】
一方、音圧検知時間率が所定の割合(本実施の形態では5%)以上である場合(ステップS24;Yes)、発話検出制御部33は、音圧検知のための閾値を、監視期間中の音圧検知時間率が5%より少なくなるような値に調整する(ステップS25)。
【0116】
続いて、図7(A)乃至図7(C)、図8(A)乃至図8(C)のタイミングチャートを参照して、音圧検知閾値キャリブレーションにおける閾値調整のタイミングについて説明する。
【0117】
図7(A)乃至図7(C)には、音声認識モード開始時から、取得されるデジタル音声データの音圧レベルが、ある程度大きくなっている場合が示されている。図7(A)に示すように、非発話時でも、スピーカ2の音や周囲の音がある程度大きく、デジタル音声データの音圧レベルが大きい場合、監視時間中の初期閾値による音圧検知、すなわち音圧監視を行うと、図7(B)に示すように、監視期間中、すべての時間において、発話が検出されたことになり、音圧検知時間率はほぼ100%となった。そこで、ここでは、図7(C)に示すように、閾値がより大きな値(調整後の閾値)に調整され、非発話時に発話が誤検出されないように校正される。
【0118】
一方、図8(A)乃至図8(C)には、音声認識モード開始時から、携帯電話200のデジタル音声データの音圧レベルが低かった場合が示されている。図8(A)に示すように、非発話時に、デジタル音声データの音圧レベルが初期閾値を上回らない場合、図8(B)に示すように、監視期間中、すべての時間において、発話が検出されていなかったことになり、音圧検知閾値をこのままとしても誤検出の恐れが無いので、図8(C)に示すように、閾値は初期閾値のままとなる。
【0119】
なお、スケジューリングにより、自動的に音声認識モードの電源オフの状態304に切り替わった場合、携帯電話200は、必ずしもテレビジョン装置100の前にあるとは限らないので、この場合の閾値として初期閾値を設定しておき、テレビジョン装置100の電源をオンした後に、この音圧検知閾値キャリブレーションを実施すればよい。
【0120】
初期閾値としては、工場出荷前に、一般的なテレビジョン装置100の音量と、2m〜3m程離れた場所に携帯電話200を置いた場合とを想定して、発話が誤検出されないような値を設定しておくのが望ましい。また、本実施の形態に係る音声認識操作システム300の運用開始に先立って、テレビジョン装置100の視聴環境や使用状況に基づいて、初期閾値をユーザが調整できるようにしてもよい。
【0121】
また、調整後の閾値は、テレビジョン装置100の記録領域部21又は携帯電話200の記録領域部43に保存しておき、次回起動時の初期閾値とするようにしてもよい。調整後の閾値が高くなり過ぎて、発話検出の精度が悪い場合は、音声認識モード切り替え時に限らず、ユーザがいつでも音圧検知閾値キャリブレーションを実行できるようにしてもよい。
【0122】
さらに、音圧検知閾値キャリブレーション後に、テレビジョン装置100の音量調整によってスピーカ2の音量が変化した場合は、その音量の変化量に合わせて自動的に音圧検知閾値キャリブレーションを実施して、閾値を調整できるようにしてもよい。
【0123】
(発話検出処理)
続いて、図9を参照して、図5のステップS5の発話検出処理について説明する。
【0124】
発話検出処理では、まず、発話検出制御部33は、音圧レベル判定処理部42を用いて、ADC41から出力されるデジタル音声データの音圧レベルを監視する(ステップS31)。
【0125】
デジタル音声データの音圧レベルが、閾値より以下である場合(ステップS32;No)、発話検出制御部33は、発話が検出されなかったことを設定し(ステップS42)、発話検出処理を終了する。
【0126】
デジタル音声データの音圧レベルが、閾値を超えた場合(ステップS32;Yes)、発話検出制御部33は、記録領域部43に、デジタル音声データの保存を開始させる(ステップS33)。これと同時に、発話検出制御部33は、無線通信部40を介して、テレビジョン装置100(より具体的には、音響制御部6)に、ADC41から出力されたデジタル音声データの記録領域部21への保存を開始する命令(保存命令)を送信する(ステップS34)。音響制御部6は、この保存命令を受け、記録領域部21に、ADC20から出力されたデジタル音声データの保存を開始させる(ステップS35)。
【0127】
その後、発話検出制御部33は、タイマ44を用いて、一定期間(例えば、0.5秒)が経過するまで、動作を保留する(ステップS36)。
【0128】
一定期間が経過した後、発話検出制御部33は、音圧レベル判定処理部42に、デジタル音声データの音圧レベルが閾値を超えているか否かを再び判定させる(ステップS37)。デジタル信号データの音圧レベルが閾値を超えている場合(ステップS37;Yes)、発話検出制御部33は、0.5秒前に検知した音圧は発話であるとみなし、発話を検出したことを設定し(ステップS38)、発話検出処理を終了する。
【0129】
一方、デジタル音声データの音圧レベルが閾値を超えていない場合(ステップS37;No)、0.5秒前に検知した音圧は発話では無く、ノイズであったとみなし、発話検出制御部33は、記録領域部43に保存されているデジタル音声データ(保存データ)を破棄する(ステップS39)。また、これと同時に、発話検出制御部33は、無線通信部40を介して、テレビジョン装置100に保存されていたデジタル音声データを破棄する破棄命令を送信する(ステップS40)。テレビジョン装置100の音響制御部6は、この破棄命令を受け、記録領域部21に保存されていたデジタル音声データ(保存データ)を破棄する(ステップS41)。そして、発話検出制御部33は、発話が検出されなかったことを設定する(ステップS42)。
【0130】
このように、ADC41から出力されるデジタル音声データの音圧レベルに基づいて、発話を検出する。このため、操作命令では無い音(例えば、携帯電話200の本体を移動した時、近くにコップ等を置いた時…)が混入されることが予想される。このため、この発話検出処理では、突発的な音圧検知のみで発話を検知するのでは無く、一定時間後(例えば0.5秒)にも、継続して音圧が閾値を超えている場合に発話を検出したものとみなす。その音声が操作命令であるならば、ある程度の時間(少なくとも1秒以上)、音圧レベルは継続して高いままになると考えられるからである。
【0131】
したがって、本実施の形態では、最初の音圧検知時点では、テレビジョン装置100の命令抽出部7が起動していないため、最初の音圧検知がノイズであったときに、命令抽出処理が無駄に実行されることを防止することができる。
【0132】
なお、本実施の形態では、音声が操作命令であった場合に、理論的には、発話開始から0.5秒後に音声認識が開始されることになるが、操作命令は、発話が完全に終了しなくてはその内容を特定することができないため、発話から0.5秒後に起動することは音声認識の性能に悪影響を与えるものではない。
【0133】
また、本実施の形態では、最初の音圧検知から一定時間後に、音圧を再度検知した場合を発話とみなしているが、時間間隔をより短くしてもよいし、数回(3回以上)音圧を検知した場合を発話とみなすようにしてもよい。
【0134】
続いて、上述の発話検出処理の動作タイミングについて、図10(A)乃至図10(F)のタイミングチャートを参照して説明する。
【0135】
図10(A)に示すように、時点t1において、突発的な雑音が混入し、音圧レベルが高くなって閾値を超えると、図10(B)に示すように、音圧レベル判定処理部42の音圧検知結果が検知となり、図10(C)に示すように、携帯電話200においてデジタル音声データの保存が開始される。そして、図10(D)に示すように、携帯電話200からテレビジョン装置100に保存命令が送信され、図10(E)に示すように、テレビジョン装置100においてデジタル音声データの保存が開始される。
【0136】
しかし、その0.5秒後の時点t2では、図10(A)に示すように、音圧レベルが閾値より小さくなり、図10(B)に示すように、発声が検知されなくなるので、図10(C)に示すように、記録領域部43へのデジタル音声データの保存は停止され、保存されたデジタル音声データは破棄される。そして、図10(D)に示すように携帯電話200からテレビジョン装置100に破棄命令が送信され、図10(E)に示すように、記録領域部21へのデジタル音声データの保存が停止され、保存されたデジタル音声データは破棄される。このとき、図10(E)に示すように、テレビジョン装置100の命令抽出部7が起動することはない。
【0137】
さらに、時点t3において、実際にユーザが発話を行った場合には、図10(A)に示すように、0.5秒後の時点t4においてもその音圧レベルが高く維持されている。このため、図10(B)に示すように、時点t4でも、発声が検知されたままとなる。この場合、図10(C)、図10(E)に示すように、記録領域部43、21への発話音声が含まれるデジタル音声データの保存が継続されたままとなる。さらに、図10(D)に示すように、時点t4において、携帯電話200からテレビジョン装置100へ発話開始信号及びデジタル音声データが送信される。これにより、図10(F)に示すように、命令抽出部7が起動され、記録領域部21に保存されたデジタル音声データ及び送信されたデジタル音声データを用いて、一連の命令抽出処理が行われる。
【0138】
このようにして発話検出処理を行うことにより、突発的な雑音には反応せず、意味を持つ発話のみ検出し、その検出結果に基づいて、テレビジョン装置100の命令抽出部7の起動及び停止を効率的に制御することができる。
【0139】
(継続判定処理)
次に、本実施の形態に係る音声認識モードの継続判定処理(ステップS13)について説明する。携帯電話200では、通常の待ち受け動作時に比べ、音声認識モードにおける消費電力は大きくなる。そこで、ユーザが携帯電話200を音声認識モードのまま外に持ち出したり、室内にユーザがいないのに発話検出を行い続けたりして消費電力が増大してしまう状態が極力生じないようにするために、音声認識モードの継続判定処理が行われる。
【0140】
図11を参照して、音声認識モードの継続判定処理について説明する。
【0141】
まず、音響制御部6は、人感センサ11により、周囲にユーザが存在するか否かを判定する(ステップS51)。
【0142】
ユーザが存在していないと判定した場合(ステップS51;No)、ユーザがいない状態が一定期間(例えば1時間)継続しているか否かを判定する(ステップS52)。ユーザがいない状態が、一定期間継続されていた場合(ステップS52;Yes)、音響制御部6は、音声認識モードを終了する(ステップS57)。続いて、音響制御部6は、命令抽出部7を停止し、発話検出制御部33に停止命令を送信し、発話検出制御部33に、発話検出処理部32を停止させる(ステップS58)。
【0143】
一方、ユーザが検出された場合(ステップS51;Yes)又はユーザがいない状態が、一定期間継続されていない場合(ステップS52;No)、音響制御部6は、携帯電話200とテレビジョン装置100の無線接続が確立されているか否かを判定する(ステップS53)。例えば、音声認識モードのままで携帯電話200を持って外出した場合、テレビジョン装置100と携帯電話200の距離が離れることで、無線接続が解除され、通信不能となる。この場合、無線接続は確立されていないので(ステップS53;No)、音響制御部6は、音声認識モードを終了する(ステップS57)。続いて、音響制御部6は、命令抽出部7を停止し、発話検出制御部33に停止命令を送信し、発話検出制御部33に、発話検出処理部32を停止させる(ステップS58)。
【0144】
無線接続が確立されている場合(ステップS53;Yes)、音響制御部6は、一定時間(例えば1時間)、操作命令が有るか否かを判定する(ステップS54)。一定時間継続して、命令が発せられていない場合(ステップS54;No)、音響制御部6は、音声認識モードを終了する(ステップS57)。続いて、音響制御部6は、命令抽出部7を停止し、発話検出制御部33に停止信号を送信し、発話検出制御部33に、発話検出処理部32を停止させる(ステップS58)。
【0145】
例えば、ユーザが音声認識モードにしていることを認識していなかったり、その場で寝てしまったりしていた場合に、音声認識モードを設定したままであると電力を無駄に消費してしまうことになるので、音声認識モードを終了し、命令抽出部7及び発話検出処理部32を停止させるのである。
【0146】
一方、一定時間中に命令が発せられた場合(ステップS54;Yes)、音響制御部6は、リモコン操作又は操作命令により音声認識モードの終了命令が発せられているか否かを判定する(ステップS55)。音声認識モードの終了命令が発せられていれば(ステップS55;Yes)、音響制御部6は、音声認識モードを終了する(ステップS57)。続いて、音響制御部6は、命令抽出部7を停止し、発話検出制御部33に停止信号を送信し、発話検出制御部33に、発話検出処理部32を停止させる(ステップS58)。
【0147】
一方、音声認識モードの終了命令が発せられていなければ(ステップS55:No)、音響制御部6は、音声認識モードの継続設定を行う(ステップS56)。
【0148】
ステップS58、ステップS56終了後は、継続判定処理を終了する。
【0149】
以上詳細に説明したように、本実施の形態によれば、テレビジョン装置100は、収集された音声に基づく音声信号と、携帯電話200から受信した音声信号を取得する。これにより、2つの音声信号のうち、良好な方又は両方を用いて、ユーザが発声した操作命令を抽出することができる。このようにすれば、このテレビジョン装置100は、携帯電話200から受信したタイミング信号(発話開始信号、発話終了信号)に基づいて、発話が検出されていない時は命令抽出部7を停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等によるテレビジョン装置100本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【0150】
また、本実施の形態によれば、携帯電話200は、収集された音声信号に基づいてユーザの発話の開始及び終了を検出する度にタイミング信号をテレビジョン装置100に送信する。このようにすれば、タイミング信号を受信したテレビジョン装置100は、ユーザが発声した操作命令を正確なタイミングで抽出することができるうえ、ユーザが発声した操作命令を抽出する命令抽出部7を不要な時に停止させておくことができる。この結果、ユーザが煩わしい操作を行うことなく、音声認識等によるテレビジョン装置100本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【0151】
すなわち、本実施の形態によれば、発話検出はユーザの近くに置かれた携帯電話200で行われる。また、音声認識等による操作命令の抽出は、携帯電話200で収集された音声に基づく音声信号と、テレビジョン装置100で収集された音声に基づく音声信号との少なくとも一方を用いて、良好な方又は両方を組み合わせて行われる。また、発話開始信号が送信されてから発話停止信号が送信されるまでの間だけ、操作命令を抽出する命令抽出部7を起動させておくことができる。これにより、ユーザが煩わしい操作を行うことなく、音声認識等によるテレビジョン装置100本体の遠隔操作を、高精度かつ低消費電力で行うことができる。
【0152】
より詳細には、本実施の形態では、異なる位置で収集された2つの音声信号を用いて音声認識が行われる。これにより、より頑健な(ノイズに対して強い)音声認識が可能となる。
【0153】
また、比較的に電力に余裕のあるテレビジョン装置100で大きな電力を必要とする雑音消去、音声認識が行われ、発話検出は、ユーザの近くに置かれる携帯電話200で行われる。このため、本実施の形態に係る音声認識操作システム300は、精度及び電力の観点からすれば、最適なシステム構成となる。
【0154】
また、携帯電話200を発話検出装置とすることで、ハードウエアの追加を最小限に留めることができる。
【0155】
また、本実施の形態によれば、人感センサによってユーザの存在が検出される。ユーザが存在しなければ、テレビジョン装置100の命令抽出部7と、携帯電話200の発話検出処理部32を停止する。これにより双方の消費電力を低減することができる。
【0156】
また、本実施の形態によれば、携帯電話200において、発話が検出されている間だけ、テレビジョン装置100における命令抽出部7を起動させておくことができるので、消費電力を低減することができる。
【0157】
また、本実施の形態によれば、収集された音声に対応する音圧レベルが、一定期間高くなければ、命令抽出部7を起動しないので、無駄な消費電力を費やさないようにすることができる。
【0158】
また、本実施の形態では、音声認識モード以外の動作モードでは、音響処理部5及び発話検出処理部32は、その動作を停止している。これにより、消費電力をさらに低減することができる。
【0159】
また、本実施の形態では、音声認識モードに切り替わると、発話を検出するための音圧レベルの閾値の校正を行う。これにより、周囲の状況に応じた高精度な音声認識が可能となる。また、この閾値の校正をする行う際には、表示部3で、発話を控える旨のメッセージを表示する。これにより、周囲の状況に応じた閾値の校正をより適切に行うことができる。
【0160】
また、本実施の形態では、テレビジョン装置100と携帯電話200との間の無線接続が確立されない場合には、音声認識モードを終了する。これにより、命令抽出部7及び発話検出処理部33が停止されるので、消費電力をさらに低減することができる。
【0161】
また、本実施の形態では、一定期間、発話が行われない場合に、音声認識モードを終了する。これにより、命令抽出部7及び発話検出処理部32が停止されるので、消費電力をさらに低減することができる。
【0162】
また、本実施の形態では、操作命令の内容が、音声認識モードの終了命令である場合に、音声認識モードを終了する。これにより、命令抽出部7及び発話検出処理部32が停止されるので、消費電力をさらに低減することができる。
【0163】
また、本実施の形態では、音声から操作命令を抽出する一連の命令抽出処理において、テレビジョン装置100に複数のマイクロホン4、エコーキャンセラ22、雑音除去処理部23等の機能を備えることで、高精度な音声認識が可能となる。
【0164】
しかしながら、周囲の環境や雑音状況によっては、雑音をうまく除去できない場合があり得る。例えば、ユーザとテレビジョン装置100の位置が非常に遠かったり、スピーカ2の音が非常に大きくて、テレビジョン装置100のマイクロホン4に到達するユーザの音声のSN比が極端に小さかったり場合には、そのような状況が起こり得る。
【0165】
そこで、本実施の形態では、ユーザに近い場所にある携帯電話200を、発話検出装置として使用するとともに、マイクロホン31から入力された音声データをテレビジョン装置100に送信し、操作命令の抽出に用いる。このため、高いSN比で、操作命令を取得することができる。
【0166】
テレビジョン装置100は、リモコンによる操作が複雑であるため、本実施の形態のように、音声認識による操作が可能となれば、ユーザの作業負担が著しく軽減される。しかしながら、本発明は、チューナ、オーディオ、レコーダなど、あらゆるAV機器に適用可能であり、AV機器以外の家電製品にも適用可能である。
【0167】
本実施の形態では、エコーキャンセルを施し、雑音除去処理を施したテレビジョン装置100で取得されたデジタル音声データと、比較的SN比が高い携帯電話200のデジタル音声データの2系統の音声データを取得することができる。そこで、それぞれを独立して音声認識を行い、より音声認識精度が高い方を用いて、音声認識結果とするようにしてもよい。
【0168】
いずれの音声データを採用するかは、それぞれの音声データが、どれくらいの確実さであるかを表わす尺度である尤度を基準とすることができる。この尤度を比較し、尤度が高いほうを音声認識結果として採用すればよい。例えば、ユーザがテレビジョン装置100から遠い場所にいて、机等に携帯電話200を置いた状態で、携帯電話200に向かって発話している状況等では、携帯電話200で取得された音声データを用いた方が、尤度が高くなるので、高精度な音声認識の精度を期待できる。
【0169】
また、携帯電話200側のマイクロホン31とテレビジョン装置100のマイクロホン4を合わせて、1つのマイクロホンアレイとみなし、雑音除去処理を行うようにしてもよい。複数のマイクロホンを用いた雑音除去処理の手法のうち、特にICA(独立成分分析)を用いた雑音除去手法を用いるようにすれば、マイク特性やマイク位置の事前情報が未知であっても雑音除去が可能となる。このようにして高精度に雑音が除去された音声データを用いて音声認識を行うことにより、高精度な認識結果を期待することができる。
【0170】
また、本実施の形態では、図9の発話検出処理を実行することにより、発話をしている時間を検出することができるので、発話中は自動的にテレビジョン装置100の音量を下げたり、ゼロにしたりすることで、テレビジョン装置100から発せられる音の影響を小さくし、ユーザから発せられる音声を高SN比でマイクロホン31に到達させることが可能となる。
【0171】
このように、本実施の形態によれば、発話を行う度に、音声認識スイッチを押したり、マイクロホン31を口の近くに持ってきたりしなくても、ユーザが命令を発声するだけで、周囲の雑音に影響を受けない高精度な音声認識による家電機器の操作を実現し、さらに、その機能を低消費電力で実現することが可能である。
【0172】
なお、本実施の形態で指定した各種時間(発話検出のための音圧検知の区間、人感センサによって音声認識モードを終了する区間、等)は、一例であり、本実施の形態において例示した値には限られない。また、本実施の形態では、携帯電話200側のデジタル音声データをテレビジョン装置100側に送信したが、携帯電話200のさらなる消費電力削減のために、音声自体の送信は行わず、発話検出の信号送信のみに限定することもできる。さらに、本実施の形態では携帯電話200を発話検出用の機器として用いているが、同等の機能を実現する発話検出専用のモジュールを用意してもよい。
【0173】
なお、上記実施の形態において、テレビジョン装置100及び携帯電話200により実行されるプログラムは、フレキシブルディスク、CD−ROM(Compact Disk Read-Only Memory)、DVD(Digital Versatile Disk)、MO(Magneto-Optical Disk)等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをインストールすることにより、上述の処理を実行するシステムを構成することとしてもよい。
【0174】
また、プログラムをインターネット等の通信ネットワーク上の所定のサーバ装置が有するディスク装置等に格納しておき、例えば、搬送波に重畳させて、ダウンロード等するようにしてもよい。
【0175】
また、上述の機能を、OS(Operating System)が分担して実現する場合又はOSとアプリケーションとの協働により実現する場合等には、OS以外の部分のみを媒体に格納して配布してもよく、また、ダウンロード等してもよい。
【0176】
なお、本発明は、上記実施の形態及び図面によって限定されるものではない。本発明の要旨を変更しない範囲で実施の形態及び図面に変更を加えることができるのはもちろんである。
【産業上の利用可能性】
【0177】
本発明は、AV機器等の電子機器等の遠隔操作に好適である。
【符号の説明】
【0178】
1…テレビ基幹部、2…スピーカ、3…表示部、4…マイクロホン、5…音響処理部、6…音響制御部、7…命令抽出部、10…操作制御部、11…人感センサ、12…無線通信部、20…ADコンバータ(ADC)、21…記録領域部、22…エコーキャンセラ、23…雑音除去処理部、24…発話判定処理部、25…音声認識処理部、26…音声認識制御部、27…DAコンバータ(DAC)、30…携帯電話基幹部、31…マイクロホン、32…発話検出処理部、33…発話検出制御部、40…無線通信部、41…ADコンバータ(ADC)、42…音圧レベル判定処理部、43…記録領域部、44…タイマ、100…テレビジョン装置、200…携帯電話、300…音声認識操作システム、301、302、303、304…状態

【特許請求の範囲】
【請求項1】
周囲の音声を収集し、その音声に対応する第1の音声信号を出力する少なくとも1つの音声収集部と、
外部機器と無線通信を行う無線通信部と、
前記第1の音声信号と、前記無線通信部で受信される第2の音声信号との少なくとも一方に対して音声認識処理を含む信号処理を行って、ユーザが発声した操作命令を抽出する命令抽出部と、
抽出された前記操作命令に従って、本体を操作する操作部と、
前記無線通信部で受信されたタイミング信号に基づいて、前記命令抽出部の起動及び停止を制御する制御部と、
を備える電子機器。
【請求項2】
周囲に前記ユーザが存在することを検出する人感センサをさらに備え、
前記無線通信部は、
前記人感センサのセンサ出力を、前記外部機器に送信し、
前記制御部は、
前記人感センサのセンサ出力に基づいて、前記命令抽出部の起動及び停止を制御する、
ことを特徴とする請求項1に記載の電子機器。
【請求項3】
前記無線通信部で受信されるタイミング信号には、
発話開始信号及び発話終了信号が含まれ、
前記制御部は、
前記無線通信部で前記発話開始信号が受信されると、前記命令抽出部を起動し、
前記無線通信部で前記発話終了信号が受信されると、前記命令抽出部を停止する、
ことを特徴とする請求項1又は2に記載の電子機器。
【請求項4】
前記第1の音声信号を保存する記録部をさらに備え、
前記無線通信部で受信されるタイミング信号には、
前記記録部に対する保存命令及び破棄命令が含まれ、
前記制御部は、
前記無線通信部で前記保存命令が受信されると、前記記録部への前記第1の音声信号の保存を開始し、
前記無線通信部で前記破棄命令が受信されると、前記記録部に保存された前記第1の音声信号を破棄し、
前記記録部に保存された前記第1の音声信号を用いて前記操作命令を抽出するように、前記命令抽出部を制御する、
ことを特徴とする請求項3に記載の電子機器。
【請求項5】
音声を出力する出力部をさらに備え、
前記制御部は、
前記無線通信部で、前記保存命令を受信すると、前記出力部から出力される音声の音量を小さくする、
ことを特徴とする請求項4に記載の電子機器。
【請求項6】
前記制御部は、
音声認識モード以外の動作モードでは、前記命令抽出部を停止し、
前記操作部に、前記音声認識モードへの切り替え操作が入力されると、
前記命令抽出部を起動するとともに、前記音声認識モードへの切り替え信号を、前記無線通信部を介して、前記外部機器に送信する、
ことを特徴とする請求項1乃至5のいずれか一項に記載の電子機器。
【請求項7】
情報を表示する表示部をさらに備え、
前記制御部は、
前記命令抽出部を起動後、前記ユーザに発話を控えてもらう旨のメッセージを、前記表示部に表示させる、
ことを特徴とする請求項6に記載の電子機器。
【請求項8】
前記制御部は、
前記外部機器との無線接続が確立されない場合に、
前記音声認識モードを終了し、前記命令抽出部を停止する、
ことを特徴とする請求項6又は7に記載の電子機器。
【請求項9】
前記制御部は、
所定の期間、前記無線通信部で発話の開始が検出された旨の信号が受信されない場合に、
前記音声認識モードを終了し、前記命令抽出部を停止するとともに、前記無線通信部を介して、前記外部機器に前記音声認識モードの終了通知を送信する、
ことを特徴とする請求項6乃至8のいずれか一項に記載の電子機器。
【請求項10】
前記制御部は、
前記操作命令が、前記音声認識モードの終了命令であった場合に、
前記音声認識モードを終了し、前記命令抽出部を停止するとともに、前記無線通信部を介して、前記外部機器に前記音声認識モードの終了通知を送信する、
ことを特徴とする請求項6乃至9のいずれか一項に記載の電子機器。
【請求項11】
前記制御部は、
前記命令抽出部に、
前記第1の音声信号及び前記第2の音声信号の両方に対して音声認識処理を行わせ、
前記音声認識処理の処理結果の尤度が高い方を用いて前記操作命令を抽出させる、
ことを特徴とする請求項1乃至10のいずれか一項に記載の電子機器。
【請求項12】
周囲の音声を収集し、その音声に対応する音声信号を出力する音声収集部と、
電子機器と無線通信を行う無線通信部と、
前記音声信号の音圧レベルに基づいて、ユーザの発話の開始及び終了を検出する発話検出処理部と、
前記発話検出処理部により前記ユーザの発話の開始及び終了が検出される度に、タイミング信号を、前記無線通信部を介して、前記電子機器に送信する制御部と、
を備える発話検出装置。
【請求項13】
前記制御部は、
前記人感センサのセンサ出力に基づいて、前記発話検出処理部の起動及び停止を制御する、
ことを特徴とする請求項12に記載の発話検出装置。
【請求項14】
前記制御部は、
前記発話検出処理部により前記ユーザの発話の開始が検出されると、前記無線通信部を介して、前記タイミング信号としての発話開始信号とともに前記音声信号を前記電子機器に送信し、前記発話検出処理部により前記ユーザの発話の終了が検出されると、前記無線通信部を介して、前記タイミング信号としての発話終了信号を前記電子機器に送信するとともに前記音声信号の送信を停止する、
ことを特徴とする請求項12又は13に記載の発話検出装置。
【請求項15】
前記音声信号を保存する記録部をさらに備え、
前記発話検出処理部は、
前記音声信号の音圧レベルが閾値を超えるか否かを判定する音圧レベル判定処理部をさらに備え、
前記制御部は、
前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値を超えたと判定されると、前記記録部への前記音声信号の保存を開始するとともに、保存命令を前記電子機器に送信し、
所定の期間経過後に、前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値以下になったと判定されると、前記記録部へ保存された前記音声信号を破棄するとともに、破棄命令を前記電子機器に送信し、
前記所定の期間経過後に、前記音圧レベル判定処理部により前記音声信号の音圧レベルが閾値を超えたと判定されると、前記無線通信部を介して、発話開始信号と前記記録部へ保存された前記音声信号とを、前記電子機器に送信する、
ことを特徴とする請求項14に記載の発話検出装置。
【請求項16】
前記制御部は、
前記無線通信部を介して、前記電子機器から音声認識モードへの切り替え信号を受信すると、前記発話検出処理部を起動する、
ことを特徴とする請求項12乃至15のいずれか一項に記載の発話検出装置。
【請求項17】
前記制御部は、
前記発話検出処理部を起動させた後、
所定の期間、前記音圧レベル判定処理部に、前記音声信号の音圧レベルが閾値を超えたか否かを判定させ、
前記所定の期間に対する前記音声信号の音圧レベルが閾値を超えていた期間の割合が、所定の割合より小さくなるように、前記閾値を調整する、
ことを特徴とする請求項16に記載の発話検出装置。
【請求項18】
前記制御部は、
前記電子機器との無線接続が確立されない場合に、
前記発話検出処理部を停止する、
ことを特徴とする請求項16又は17に記載の発話検出装置。
【請求項19】
前記制御部は、
前記無線通信部を介して、前記電子機器から前記音声認識モードの終了通知を受信すると、前記発話検出処理部を停止する、
ことを特徴とする請求項16乃至18のいずれか一項に記載の発話検出装置。
【請求項20】
請求項1乃至11のいずれか一項に記載の電子機器と、
請求項12乃至19のいずれか一項に記載の発話検出装置と、
を備える音声認識操作システム。
【請求項21】
前記電子機器が、テレビジョン装置である、
ことを特徴とする請求項20に記載の音声認識操作システム。
【請求項22】
前記発話検出装置が、携帯電話である、
ことを特徴とする請求項20又は21に記載の音声認識操作システム。
【請求項23】
周囲の音声を、ユーザの近くに置かれた発話検出装置と電子機器とで同時に収集する音声収集工程と、
前記発話検出装置を用いて、収集された音声に対応する音声信号に基づいて、ユーザの発話の開始を検出する発話開始検出工程と、
前記発話開始検出工程で、前記ユーザの発話の開始が検出されると、無線通信により、前記発話検出装置から前記電子機器に、発話開始信号を送信する第1の送信工程と、
受信した発話開始信号に従って、前記電子機器において入力された音声信号からユーザが発声した操作命令を抽出する命令抽出部を起動する起動工程と、
収集された音声に対応する音声信号から、前記命令抽出部により、前記操作命令を抽出する抽出工程と、
前記発話検出装置を用いて、収集された音声に対応する音声信号に基づいて、ユーザの発話の終了を検出する発話終了検出工程と、
前記発話終了検出工程で、前記ユーザの発話の終了が検出されると、無線通信により、前記発話検出装置から前記電子機器に、発話終了信号を送信する第2の送信工程と、
前記電子機器で、発話終了信号を受信すると、前記命令抽出部を停止する停止工程と、
抽出された前記操作命令に従って、本体を操作する操作工程と、
を含む音声認識操作方法。
【請求項24】
電子機器を制御するコンピュータを、
周囲の音声を収集し、その音声に対応する第1の音声信号を出力する少なくとも1つの音声収集手段と、
外部機器と無線通信を行う無線通信手段と、
前記第1の音声信号と、外部機器から送信される第2の音声信号との少なくとも一方に対して音声認識処理を含む信号処理を行って、ユーザが発声した操作命令を抽出する命令抽出手段と、
抽出された前記操作命令に従って、本体を操作する操作手段と、
前記外部機器から送信されるタイミング信号に基づいて、前記命令抽出手段の起動及び停止を制御する制御手段と、
して機能させるプログラム。
【請求項25】
ユーザの発話を検出する発話検出装置を制御するコンピュータを、
周囲の音声を収集し、その音声に対応する音声信号を出力する音声収集手段と、
電子機器と無線通信を行う無線通信手段と、
前記音声信号の音圧レベルに基づいて、ユーザの発話の開始及び終了を検出する発話検出処理手段と、
前記発話検出処理手段により前記ユーザの発話の開始及び終了が検出される度に、タイミング信号を、電子機器に送信する制御手段と、
して機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2011−118822(P2011−118822A)
【公開日】平成23年6月16日(2011.6.16)
【国際特許分類】
【出願番号】特願2009−277686(P2009−277686)
【出願日】平成21年12月7日(2009.12.7)
【出願人】(310006855)NECカシオモバイルコミュニケーションズ株式会社 (1,081)
【Fターム(参考)】