説明

音声処理装置、及び音声処理方法

【課題】操作負担を軽減する。
【解決手段】実施形態の音声処理装置は、音声入力手段と、情報入力手段と、音声認識手段と、アプリケーション制御手段と、を備える。音声入力手段は、音声を、音声信号として入力処理する。情報入力手段は、自装置のハードウェアにおける状態変化を示す状態情報を入力処理する。音声認識手段は、情報入力手段が入力した前記状態情報に基づいてハードウェアの状態変化が生じた場合に、音声入力手段により入力処理された前記音声信号に対して音声認識を行い、音声認識結果情報を生成する。アプリケーション制御手段は、前記音声認識手段により生成された前記音声認識結果情報を利用するアプリケーションを起動する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声処理装置、及び音声処理方法に関する。
【背景技術】
【0002】
従来、情報処理装置においては、様々な機能や様々なセンサが搭載される傾向にある。多機能化及び様々なセンサの搭載に伴って、様々なユーザインターフェイスが提案される傾向にある。
【0003】
例えば、ユーザに発せられた音声をマイクロフォンが入力処理した後、情報処理装置が音声認識し、認識された情報に従って様々な処理を行うことが提案されている。この音声認識は、ユーザが音声認識を開始するための操作を情報処理装置に対して行うことで開始されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】大内一成、“日常的使用を目指した音声認識検索システム”、東芝レビュー、株式会社東芝、2010年5月、Vol.65、No.5、pp.64-65
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術においては、音声認識を行う際にユーザによるボタン操作等が行われた場合に限り音声認識を行うのでは、ユーザの操作負担が大きい。また、距離センサー等を用いてユーザの有無を検知した場合に限り音声認識が開始する技術も提案されているが、当該技術ではユーザを検知した場合には情報処理装置を使用しない場合であっても音声認識を行うため、誤動作等が生じることも考えられる。
【0006】
本発明は、上記に鑑みてなされたものであって、ユーザが所望した場合に音声認識を開始する音声処理装置、及び音声処理方法を提案する。
【課題を解決するための手段】
【0007】
実施形態の音声処理装置は、音声入力手段と、情報入力手段と、音声認識手段と、アプリケーション制御手段と、を備える。音声入力手段は、音声を、音声信号として入力処理する。情報入力手段は、自装置のハードウェアにおける状態変化を示す状態情報を入力処理する。音声認識手段は、情報入力手段が入力した前記状態情報に基づいてハードウェアの状態変化が生じた場合に、音声入力手段により入力処理された前記音声信号に対して音声認識を行い、音声認識結果情報を生成する。アプリケーション制御手段は、前記音声認識手段により生成された前記音声認識結果情報を利用するアプリケーションを起動する。
【図面の簡単な説明】
【0008】
【図1】図1は、第1の実施形態にかかる情報処理装置を示す外観斜視図である。
【図2】図2は、第1の実施形態にかかる情報処理装置の内部構成を示した図である。
【図3】図3は、第1の実施形態にかかる情報処理装置が通常モードの場合における音声認識の状態遷移を示した図である。
【図4】図4は、第1の実施形態にかかる情報処理装置が音声認識自動開始モードの場合における音声認識の状態遷移を示した図である。
【図5】図5は、第1の実施形態にかかる情報処理装置が音声認識自動開始モードの場合における音声認識の処理の手順を示すフローチャートである。
【図6】図6は、第1の実施形態にかかる情報処理装置が通常モードと音声認識開始自動検知モードとを併用した場合における音声認識の状態遷移を示した図である。
【図7】図7は、第2の実施形態にかかる情報処理装置を示す外観斜視図である。
【図8】図8は、第2の実施形態にかかる情報処理装置が通常モードの場合における音声認識の状態遷移を示した図である。
【図9】図9は、第2の実施形態にかかる音声認識処理部が実行する音声認識モードを示した図である。
【図10】図10は、第3の実施形態にかかるリモコン装置の開状態における上面図である。
【図11】図11は、第3の実施形態にかかるテレビジョン放送受信装置が通常モードの場合における音声認識の状態遷移を示した図である。
【図12】図12は、第3の実施形態にかかるテレビジョン放送受信装置が音声認識自動開始モードの場合における音声認識の状態遷移を示した図である。
【発明を実施するための形態】
【0009】
(第1の実施形態)
図1は、第1の実施形態にかかる情報処理装置100を示す外観斜視図である。図1に示すように、情報処理装置100は、パネル側筐体101と、スライド式キーボード102と、で構成されている。スライド式キーボード102は、図示しないスライド機構を介してパネル側筐体101と接続されている。これにより、スライド式キーボード102は、方向Aにスライド可能であり、パネル側筐体101に収納可能とする。
【0010】
パネル側筐体101は、LCDパネル111と、カメラ112と、各種ボタン113と、ユーザの発話を収音するために用いるマイクロフォン114と、ユーザに対して音声を出力するために用いる内蔵スピーカ115と、を備えている。LCDパネル111は、パネル側筐体104の中央領域に設けられ、様々な情報を表示する。LCDパネル111の表面に(図示しない)タッチパネルを備えている。情報処理装置100は、このタッチパネルにより検出されたペンや指などの座標位置やその接触面の面積を入力として受け付ける。
【0011】
スライド式キーボード102は、キーボード121と、照度センサ122と、を備えている。そして、この情報処理装置100の内部に、後述の各種ハードウェアが内蔵されている。なお、本実施形態にかかる情報処理装置100では、上述した構成を備えたモバイル通信端末の例について説明するが、このような構成に制限するものではなく、例えばノートPCやテレビジョン放送受信装置など様々な装置に適用できる。
【0012】
次に、情報処理装置100の内部構成について説明する。図2は、情報処理装置100の内部構成を示した図である。図2に示すように、情報処理装置100はハードウェア状態の検出するためのセンサ等と、検出結果に基づいた処理を行うための構成と、を備えている。
【0013】
音声出力部202は、出力信号を音声に変換して出力する。記憶部201は、出力信号として音声出力部202が出力するための再生信号を記憶する。
【0014】
音声入力部203は、図1のマイクロフォン114を含んだ構成であって、音声を入力処理し、音声信号に変換する。
【0015】
音声フロントエンド処理部204は、音声入力部203により入力されたユーザの音声に対して、記憶部201が記憶する再生信号と、音声出力部202及び音声入力部203を介して入力された音声信号と、の違いに基づいて、エコーや周囲ノイズを抑圧する。
【0016】
情報処理装置100は、AC電源・コンセント206を介して、外部からの電力の供給を受け付ける。給電可能検出部207は、外部から給電可能であるか否かを検出する。
【0017】
ドッグ208は、情報処理装置100を固定して据え置くための台であり、情報処理装置100に接続可能に備えている。ここではAC電源・コンセント206との接続を介して充電台としての機能の兼ね備えているとする。ドック接続検出部209は、情報処理装置100にドッグ208が接続されているか否かを検知する。また、給電可能検出部207は、ドッグ208を介してAC電源・コンセント206と接続されているか否かを検知する。
【0018】
格納検知スイッチ211が、スライド式キーボード102が格納されているか否かを検知する。この検知には、スライド式キーボード102と、パネル側筐体101と、のいずれか一方以上に小型の磁石を設け、磁気を用いて検出することが考えられる。
【0019】
画面ロック解除検出部213は、情報処理装置100のタッチパネル212に対する所定の位置座標のタッチが検出されたか否かにより、画面ロックが解除されたか否かを検出する。
【0020】
圧力センサ214は、ユーザが情報処理装置100を保持する場所に対して備えられたセンサとする。圧力検出部215は、圧力センサ214の検出結果に従って、ユーザが情報処理装置100両手で保持しているか否かを検知する。
【0021】
照度センサ122は、外光が十分に足りているか否かを検知する。例えば、室内照明の点灯の有無を検知したり、屋外での日光の照度を検知したりする。
【0022】
映像フロントエンド処理部220は、カメラ112から入力された信号に対して所定の処理を行い、処理後の信号を映像信号として、読唇認識部223に出力する。読唇認識部223は、映像信号から、ユーザの読唇認識を行う。
【0023】
音声区間検出部205は、入力された音声信号から、ユーザが発話した区間を検知する。音声区間検出部205は、発話区間の始端及び終端を検知する。
【0024】
第1アプリケーション225A、及び第2アプリケーション225Bは、情報処理装置100が備える図示しないCPU上で動作するプログラムとする。第1アプリケーション225Aが、音声認識結果を用いるアプリケーションであり、アプリケーション制御部224による起動制御の対象となる。
【0025】
アプリケーション制御部224により起動された第1アプリケーション225Aが常駐し、第1アプリケーション225Aが音声認識結果に基づく動作が可能になった後、本実施形態にかかる音声区間検出部205は、音声入力部203が入力処理した音声信号から、ユーザが発話した区間を検知する。
【0026】
認識制御部221は、情報処理装置100のハードウェアにおける状態変化や、外部環境の変化を示す状態情報を入力処理する。本実施形態にかかる認識制御部221は、状態情報として、給電可能検出部207から給電可能か否かを示した給電情報と、ドッグ接続検出部209からドッグ208に接続されたか否かを示した接続情報と、格納検知スイッチ211からスライド式キーボード102が格納(スライド操作)されたか否かを示した格納情報と、画面ロック解除検出部213から画面ロックが解除されたか否かを示した画面情報と、圧力検出部215からユーザが両手で保持しているか否かを示した圧力情報と、照度センサ122からの照度と、を入力処理する。
【0027】
認識制御部221は、入力処理された各種の状態情報に基づいてハードウェアの状態変化等が生じたと判定した場合に、音声認識処理部222に対して、音声認識の開始を指示する。さらには、認識制御部221は、入力された各種の状態情報や必要に応じて、音声認識処理部222に対して、音声認識の終了を指示する。また、アプリケーション制御部224は、必要に応じて入力された各種の状態情報を音声認識処理部222に出力する。
【0028】
そして、音声認識処理部222は、認識制御部221からの命令に従って、音声認識処理の開始、終了を行う。音声認識の処理が開始された場合、音声認識処理部222は、音声入力部203により入力、変換処理された音声信号に対して音声認識を行い、音声認識結果情報を生成する。
【0029】
アプリケーション制御部224は、音声認識処理部222により生成された音声認識結果情報を利用するアプリケーションを起動する。本実施形態では、第1アプリケーション225Aが起動対象となる。そして、アプリケーション制御部224は、第1アプリケーションを起動させた後、音声区間検出部205による発話区間の検出が終了した後、予め定められた期間、ユーザの発話区間の始端を検出できない場合に、第1アプリケーションの起動を停止させる制御を行う。
【0030】
本実施形態にかかる情報処理装置100では、通常モードと、音声認識自動開始モードと、いう複数の音声認識モードを備えている。まずは通常モードが設定された場合について説明する。
【0031】
通常モードは、ユーザにより所定の操作が行われた場合に音声認識を開始するモードとする。図3は、通常モードの場合における音声認識の状態遷移を示した図である。図3に示す例では、電源OFF状態301と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態302と、アプリケーション起動休止状態303と、アプリケーション起動中における音声認識の開始待ち状態304と、アプリケーション起動中における音声認識中305と、の状態を有している。図3においては、起動対象が第1アプリケーション225Aの場合とする。
【0032】
電源OFF状態301は、情報処理装置100のシステム全体が休止している状態とする。アプリケーション起動休止状態303とは、情報処理装置100の待ち受け画面の表示状態などとする。また、情報処理装置100がPCの場合には、モニタ電源OFF、HDD電源OFF、又はシステムスタンバイ状態などがアプリケーション起動休止状態303に該当する。
【0033】
そして、電源OFF状態301と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態302と、の間の状態遷移は、電源ボタン等の操作により行われる。また、アプリケーション起動待ち状態又は他のアプリケーションの起動状態302と、アプリケーション起動中における音声認識の開始待ち状態304と、の間の状態遷移は、情報処理装置100のタッチパネル212に対するGUIの操作により行われる。
【0034】
アプリケーション起動休止状態303から、アプリケーション起動待ち状態又は他のアプリケーションの起動状態302への移行は、キーボード121やボタン113等のインターフェースの操作により行われる。アプリケーション起動待ち状態又は他のアプリケーションの起動状態302から、アプリケーション起動休止状態303への移行は、タイマーにより自動的に行われる。
【0035】
通常モードにおいて、アプリケーション起動中における音声認識の開始待ち状態304から、アプリケーション起動中における音声認識中305への移行は、情報処理装置100のタッチパネル212に対するGUIの操作により行われる。アプリケーション起動中における音声認識中305から、アプリケーション起動中における音声認識の開始待ち状態304への移行は、音声区間検出部205による音声区間の終端検知をトリガーとして、認識制御部221が音声認識処理部222に対する指示により行われる。
【0036】
上述した状態遷移では、アプリケーション起動中における音声認識中305に移行するためには、ユーザがGUI操作を行う必要があるため、操作負担が生じる。そこで、本実施形態にかかる情報処理装置100では、操作負担を軽減するために、以下に示す状態遷移が存在する。
【0037】
つまり、アプリケーション起動待ち状態又は他のアプリケーションの起動状態302において、認識制御部221が、格納検知スイッチ211から、スライド式キーボード102が格納されたことを示す格納情報の入力を受け付けた場合に、ユーザが音声認識を使用する可能性が高いとみなし、音声認識処理部222に対して、通常モードで音声認識を開始する旨を通知する。これにより音声認識処理部222が、アプリケーション制御部224に対して、第1アプリケーション225Aを起動させるコマンドを送信する。当該送信に基づいて、第1アプリケーション225Aが起動する。これにより、アプリケーション起動中における音声認識の開始待ち状態304に移行する。このように、スライド式キーボード102が格納された場合に音声認識の開始待ち状態304になることで、ユーザがGUI操作を行うことなく状態遷移が可能なため、操作負担を軽減できる。
【0038】
また、このような状態遷移は、格納検知スイッチ211がスライド式キーボード102の格納を検知した場合に制限するものではない。例えば、室内で情報処理装置100を用いる際、照度センサ122により外光が十分に足りている状況と判定された場合には室内であれば音声認識を使う可能性が高いと考え、認識制御部221、音声認識処理部222、及びアプリケーション制御部224の処理により、アプリケーション起動中における音声認識の開始待ち状態304に移行する。また、外光が十分に足りていると判定された場合に、アプリケーション起動中における音声認識の開始待ち状態304に移行してもよい。
【0039】
また、アプリケーション起動休止状態303(情報処理装置100の待ち受け画面の表示状態)において、認識制御部221が、格納検知スイッチ211から、スライド式キーボード102によるスライド操作がなされたことを示す格納情報の入力を受け付けた場合に、音声認識処理部222に対して、通常モードで音声認識を開始する旨を通知する。これにより音声認識処理部222が、アプリケーション制御部224に対して、第1アプリケーション225Aを起動させるコマンドを送信することで、アプリケーション起動中における音声認識の開始待ち状態304に移行する。また、このような状態遷移は、格納検知スイッチ211によりスライド操作がなされたことを検出した場合に制限するものではない。例えば、照度センサ122が、自宅等で所定の照度を検出した場合についても同様の状態遷移を行うこととする。
【0040】
さらに、画面ロック解除検出部213により画面ロックが解除された場合に、解除された時点から暫くはユーザが情報処理装置100の操作又は音声認識を使う可能性も高いと考え、認識制御部221、音声認識処理部222、及びアプリケーション制御部224の処理により、アプリケーション起動中における音声認識の開始待ち状態304に移行する。
【0041】
同様に、圧力検出部215によりユーザが両手で保持していると判定した場合に、音声認識を使う可能性が高いと考え、認識制御部221、音声認識処理部222、及びアプリケーション制御部224の処理により、アプリケーション起動中における音声認識の開始待ち状態304に移行する。さらに、ドック接続検出部209がドッグ208に接続されたことを検出した場合、接続されたことをトリガーとして直後の所定の時間(例えば数秒間)、認識制御部221、音声認識処理部222、及びアプリケーション制御部224の処理により、アプリケーション起動中における音声認識の開始待ち状態304に移行する。
【0042】
本実施形態にかかる情報処理装置100では、ユーザがGUI操作を行うことなく状態遷移が可能なため、操作負担を軽減できる。上述した通常モードでは、アプリケーション起動中における音声認識の開始待ち状態304に移行した後、GUI操作を受け付けた場合に、音声認識中305に移行する。また、アプリケーション起動中における音声認識の開始待ち状態304では、ユーザからのGUI操作や音声信号の入力もなく一定時間経過した場合、アプリケーション制御部224が、第1アプリケーション225Aを終了させ、アプリケーション起動待ち状態又は他のアプリケーションの起動状態302に移行する。
【0043】
次に、音声認識自動開始モードが設定された場合について説明する。音声認識自動開始モードは、ユーザの発話が開始されたことをトリガーとして、ユーザの発話区間を検知し、当該発話区間だけ音声認識を行うモードとする。
【0044】
音声認識自動開始モードでは、本実施形態にかかる音声認識処理部222は、ハードウェアの状態の変化のみをトリガーとするのではなく、音声区間検出部205によりユーザの発話区間の始端の検出と組み合わせて音声認識を行う。つまり、ハードウェアの状態変化が生じ、かつユーザの発話区間の始端を検出した場合に、音声認識処理部222は、音声信号に対して音声認識の処理を開始する。また、発話区間の終端が検知された場合に、音声信号の情報だけで自動に音声認識を終了する。
【0045】
図4は、音声認識自動開始モードの場合における音声認識の状態遷移を示した図である。図4に示す例は、電源OFF状態301と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態302と、アプリケーション起動休止状態303と、アプリケーション起動中における音声認識の開始待ち状態401と、アプリケーション起動中における音声認識中305と、による状態を有している。図3と同様の状態は、図3と同様の符号を割り当て、説明を省略する。
【0046】
アプリケーション起動中における音声認識の開始待ち状態401は、図3のアプリケーション起動中における音声認識の開始待ち状態304と異なる点としては、GUI操作ではなく、音声区間検出部205が音声区間の開始を検出した場合に、状態が遷移する点とする。つまり、音声区間検出部205が音声区間の開始を検出した場合に、始端情報を認識制御部221に出力する。その後、認識制御部221が音声認識の開始を音声認識処理部222に対して指示する。これに伴い、音声認識処理部222は、自動的に音声認識処理を開始する。このように、アプリケーション起動中における音声認識の開始待ち状態401から、アプリケーション起動中における音声認識中305が遷移する。その後、音声認識処理部222は、音声認識結果に基づいて生成された文字列情報又はコマンドを、アプリケーション制御部224に出力する。これにより、アプリケーション制御部224は、第1アプリケーション225Aに対して、コマンドに基づく制御情報又は文字列情報を出力する。
【0047】
次に、本実施形態にかかる情報処理装置100が音声認識自動開始モードの場合における、スライド操作に基づいて行われる音声認識の処理について説明する。図5は、本実施形態にかかる情報処理装置100における上述した処理の手順を示すフローチャートである。なお、本フローではスライド操作が行われた場合について説明するが、照度などの他のハードウェアの状態変化が生じた場合についても同様として説明を省略する。
【0048】
まず、認識制御部221は、格納検知スイッチ211からの格納情報により、スライド式キーボード102に対するスライド操作が行われたか否かを判定する(ステップS501)。スライド操作が行われなかった場合(ステップS501:No)、スライド操作が行われるまで待機する。
【0049】
一方、認識制御部221が、スライド操作が行われたと判定した場合(ステップS501:Yes)、音声認識処理部222に対して処理の開始を指示する。これにより音声認識処理部222が、アプリケーション制御部224に対して第1アプリケーション225Aを起動させる旨のコマンドを出力する。そして、アプリケーション制御部224が、第1アプリケーション225Aを起動させる(ステップS502)。その後、認識制御部221が、音声信号が入力されていない時間が所定の時間経過したか否かを判定する(ステップS503)。所定の時間を経過したと判定した場合(ステップS503:Yes)、認識制御部221が音声認識処理部222を介して、アプリケーション制御部224に対して、第1アプリケーション225Aの終了を指示する。当該指示に伴い、アプリケーション制御部224は、第1アプリケーション225Aを終了させる(ステップS504)。
【0050】
一方、認識制御部221が、音声信号が入力されていない時間が所定の時間経過していないと判定した場合(ステップS503:No)、音声区間検出部205が、ユーザに発せられた音声区間の始端を検出する(ステップS505)。始端を検出できない場合(ステップS505:No)、再びステップS503から処理を行う。
【0051】
一方、認識制御部221が始端を検出した場合(ステップS505:Yes)、当該始端の検出をトリガーとして、認識制御部221が、音声認識処理部222に対して、入力された音声信号の認識処理を指示する(ステップS506)。これにより音声認識処理部222が、音声認識処理を開始する。その後、音声区間検出部205が、音声区間の終端を検出する(ステップS507)。終端を検出していない場合(ステップS507:No)、ステップS506による音声認識処理を継続する。
【0052】
一方、音声区間検出部205が、音声区間の終端を検出した場合(ステップS507:Yes)、認識制御部221が、音声認識処理部222に対して、音声信号の認識処理の終了を指示する。当該指示に基づいて、音声認識処理部222が、アプリケーション制御部224を介して、音声認識結果に基づく制御情報を、第1アプリケーション225Aに出力する(ステップS508)。これにより、第1アプリケーション225Aは、ユーザが発した音声に基づく処理を行う。
【0053】
また、本実施形態にかかる情報処理装置100では、音声認識モードとして、上述した通常モードと、音声認識開始自動検知モードと、を併用しても良い。つまり、情報処理装置100に給電可能である場合は、処理量を多くしてもよいため、音声フロントエンド処理部204及び音声区間検出部205を常に動作させる音声認識開始自動検知モードで処理を行い、給電不可能である場合に通常モードで処理を行ってもよい。
【0054】
図6は、通常モードと音声認識開始自動検知モードとを併用した場合における音声認識の状態遷移を示した図である。図6に示す例は、電源OFF状態301と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態302と、アプリケーション起動休止状態601と、通常モードのアプリケーション起動中における音声認識の開始待ち状態304と、音声認識開始自動検知モードのアプリケーション起動中における音声認識の開始待ち状態401と、アプリケーション起動中における音声認識中603と、による状態を有している。図3及び図4と同様の状態は、図3及び図4と同様の符号を割り当て、説明を省略する。
【0055】
アプリケーション起動休止状態601(情報処理装置100の待ち受け画面の表示状態)において、認識制御部221が、格納検知スイッチ211からスライド式キーボード102によるスライド操作がなされたことを示す格納情報の入力を受け付けと共に給電可能検出部207から給電が不可能である旨の給電情報の入力を受け付けた場合に、音声認識処理部222に対して、通常モードで音声認識を開始する旨を通知する。これにより、通常モードのアプリケーション起動中における音声認識の開始待ち状態304に移行する。なお、当該状態遷移は、スライド操作の代わりに照度センサ122が、自宅等で所定の照度を検出した場合についても同様の状態遷移を行う。
【0056】
これに対し、アプリケーション起動休止状態601(情報処理装置100の待ち受け画面の表示状態)において、認識制御部221が、格納検知スイッチ211からスライド式キーボード102によるスライド操作がなされたことを示す格納情報の入力を受け付けと共に給電可能検出部207から給電が可能である旨の給電情報の入力を受け付けた場合に、音声認識処理部222に対して、音声認識開始自動検知モードで音声認識を開始する旨を通知する。これにより、アプリケーション起動中における音声認識の開始待ち状態401に遷移する。なお、当該遷移は、スライド操作の代わりに照度センサ122が、自宅等で所定の照度を検出した場合についても同様の状態遷移を行う。
【0057】
そして、音声認識中602において、音声区間検出部205が、音声区間の終端を検出した際、給電が不可能、すなわち通常モードの場合、アプリケーション起動中における音声認識の開始待ち状態304に遷移する。一方、音声区間検出部205が、音声区間の終端を検出した際、給電が可能、すなわち音声認識開始自動検知モードの場合、アプリケーション起動中における音声認識の開始待ち状態401に遷移する。
【0058】
本実施形態にかかる情報処理装置100では、スライド操作や所定の照度が検出された場合、又は音声区間の終端が検出された場合に、電源の供給があるか否かにより、状態の遷移先が切り替えられる。このように、電源の供給状態に応じて、音声認識モードを切り替えることができるため、ユーザの操作性と、電力の適切な利用と、の両立を図ることができる。
【0059】
(第2の実施形態)
第1の実施形態では、情報処理装置100としてモバイル通信端末の場合を主に説明した。しかしながら、モバイル通信端末に制限するものではなく、他の装置に適用できる。そこで第2の実施形態では、ノートPCに適応した例について説明する。
【0060】
図7は、第2の実施形態にかかる情報処理装置700を示す外観斜視図である。図7に示すように、情報処理装置700は、筐体701と、この筐体701上に設けられたキーボード702と、筐体701にヒンジ部703を介して回動可能に接続されるパネル側筐体704と、を有している。筐体701の上面前端部はパームレスト部705を構成し、このパームレスト部705のほぼ中央にはタッチパッド706が設けられている。また、パネル側筐体704の中央領域には、表示を行うLCDパネルディスプレイ707が設けられている。さらにパネル側筐体704の上部領域には、カメラ708や照度センサ709が設けられている。
【0061】
図7に示すようなクラムシェル型端末においては、情報処理装置100内の(図示しない)LCDパネル開閉検出部がLCDパネルディスプレイ707の開閉を検知する。なお、他の内部のハードウェア構成は、第1の実施形態の図2と同様の構成を備えているものとする。
【0062】
本実施形態ではLCDパネルディスプレイ707による開閉に基づいて状態遷移がなされる例について説明する。本実施形態にかかる情報処理装置700では、音声認識モードとして、通常モードと、音声認識開始自動検知モードと、これらを併用したモードと、とが存在する。まず、通常モードについて説明する。
【0063】
図8は、第2の実施形態にかかる通常モードの場合における音声認識の状態遷移を示した図である。図8に示す例は、電源OFF状態301と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態801と、アプリケーション起動休止状態802と、アプリケーション起動中における音声認識の開始待ち状態803と、アプリケーション起動中における音声認識中305と、による状態を有している。図3と同様の状態は、図3と同様の符号を割り当て、説明を省略する。
【0064】
アプリケーション起動待ち状態又は他のアプリケーションの起動状態801は、第1の実施形態にかかるアプリケーション起動待ち状態又は他のアプリケーションの起動状態302と同様の操作(電源操作及びGUI操作)で、電源OFF状態301と、アプリケーション起動中における音声認識の開始待ち状態803と、に状態遷移する他、次の状態遷移を有する。つまり、アプリケーション起動待ち状態又は他のアプリケーションの起動状態801は、タイマーで所定時間が経過した場合やパネル側筐体704が閉じられた場合に、アプリケーション起動休止状態802に遷移する。なお、パネル側筐体704の開閉度合いは、LCDパネル開閉検出部が認識制御部221に出力する。
【0065】
アプリケーション起動休止状態802は、LCDパネル開閉検出部によりパネル側筐体704が開いたことが検出された場合に、アプリケーション起動中における音声認識の開始待ち状態803に状態遷移する。
【0066】
本実施形態にかかる音声認識処理部222は、認識制御部221が受け取った情報に応じて、3種類の音声認識モードのうち、いずれか1つが選択される。図9は、音声認識処理部222が実行する音声認識モードを示した図である。
【0067】
図9に示すように、LCDパネル開閉検出部によりパネル側筐体704が全開であることを検出した場合には、音声認識処理部222が通常の音声認識を行う。また、LCDパネル開閉検出部によりパネル側筐体704が半開でありマイク収音が可能であることを検出すると共にカメラ708の撮影が不可能であると認識制御部221が判定した場合には、ユーザのつぶやいた声や小声でも音声認識できるように音声認識処理部222がつぶやき音声認識を行う。
【0068】
また、LCDパネル開閉検出部によりパネル側筐体704が半開であることを検出すると共にカメラ708の撮影が可能であると認識制御部221が判定した場合には、音声認識処理部222による音声認識を行わず、読唇認識部223が、口からの映像に基づいてユーザが発話した内容を認識し、当該認識結果に基づくコマンドを、アプリケーション制御部224に出力する。このような読唇認識モードの場合、カメラ708と映像フロントエンド処理部220と読唇認識部223とを用いて処理を行う。
【0069】
また、本実施形態にかかる情報処理装置700は、通常モード以外に、音声認識開始自動検知モードと、これらを併用したモードと、を有している。音声認識開始自動検知モード、及びこれらを併用したモードは、第1の実施形態で示した説明と、図8及び図9で示した構成を組み合わせることで実現されるものとして説明を省略する。
【0070】
(第3の実施形態)
上述した実施形態のようにモバイル通信端末やノートPCに制限するものではなく、他の装置に適用しても良い。そこで第3の実施形態では、テレビジョン放送受信装置の場合について説明する。近年のコンピュータ技術の発展に伴い、テレビジョン放送受信装置において、様々なアプリケーションが搭載可能となるプラットフォームが提案されている。
【0071】
これにより、テレビジョン放送受信装置は、いくつかのセンサ等が異なるが、図2と同様の構成を実現することができる。そして、テレビジョン放送受信装置では、これらアプリケーションを操作するためのリモコン装置が必要となる。
【0072】
図10は、本実施形態にかかるリモコン装置1000の開状態における上面図である。図10に示すように、リモコン装置1000は、略直方形状を有した第1筐体としての上面側筐体1001と、略直方形状を有した第2筐体としての底面側筐体1002と、上面側筐体1001と底面側筐体1002とを回動軸AXを中心に相対回動(回動方向R)可能に連結(接続)する(図示しない)回動連結部とを備えている。ここで、上面側筐体1001と底面側筐体1002とは、回動連結部の回動軸AX方向(Z軸方向)から見て略同一の外縁を有している。
【0073】
上面側筐体1001の上面となる操作面上には、操作キー群1011と、方向キー1012と、中央キー1013と、ライトキー1014とが配置されている。ここで、操作キー群1011は、リモート操作先の機器(以下、操作機器という)が有する主要な機能を作動させるものであり、例えば、チャンネル選択や音量コントロール等の各種キーが含まれる。
【0074】
ライトキー1014は、リモコン装置1000が具備するバックライトの点灯を指示するものである。このバックライトが点灯しているか否かをトリガーとして、音声認識を行っても良い。
【0075】
一方、底面側筐体1002の上面となる操作面上、つまり上面側筐体1001の底面と対向する面上には、ENTERキーを含んだ文字入力のための入力キー群1021が配置されている。入力キー群1021の入力キーをユーザが押下することによって、押下された入力キーに対応する数字や文字を表す信号(キーコード)が操作機器に送信される。
【0076】
本実施形態にかかるテレビジョン放送受信装置では、上述した実施形態と同様、通常モードと、音声認識自動開始モードと、いう複数の音声認識モードを備えている。まずは通常モードが設定された場合について説明する。
【0077】
図11は、通常モードの場合における音声認識の状態遷移を示した図である。図11に示す例では、電源OFF状態301と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態1101と、アプリケーション起動中における音声認識の開始待ち状態1102と、アプリケーション起動中における音声認識中305と、の状態を有している。上述した実施形態との違いとしては、テレビジョン放送受信装置においては、アプリケーション起動休止状態がない点である。なお、図3と同様の状態は、図3と同様の符号を割り当て、説明を省略する。
【0078】
アプリケーション起動待ち状態又は他のアプリケーションの起動状態1101と、アプリケーション起動中における音声認識の開始待ち状態1102と、の間の状態遷移は、情報処理装置100のタッチパネル212に対するGUI操作の他に、以下に示す操作等で行われる。
【0079】
アプリケーション起動待ち状態又は他のアプリケーションの起動状態1101において、認識制御部221が、リモコン装置1000の回転操作を検出した場合に、音声認識処理部222に対して、通常モードで音声認識を開始する旨を通知する。そして、音声認識処理部222が、アプリケーション制御部224に対して、第1アプリケーション225Aを起動させるコマンドを送信する。当該送信で、第1アプリケーション225Aが起動する。これにより、アプリケーション起動中における音声認識の開始待ち状態1102に移行する。また、このような状態遷移は、リモコン装置1000の回転操作を検出した場合に制限するものではなく、所定の照度を検出した場合についても同様の状態遷移を行うこととする。
【0080】
また、認識制御部221は、アプリケーション起動中における音声認識の開始待ち状態1102で、ユーザから発せられた音声信号の入力もなく所定の時間経過した場合、アプリケーション起動待ち状態又は他のアプリケーションの起動状態1101に遷移させる。
【0081】
次に、音声認識自動開始モードが設定された場合について説明する。図12は、音声認識自動開始モードの場合における音声認識の状態遷移を示した図である。図12に示す例は、電源OFF状態301と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態1101と、アプリケーション起動中における音声認識の開始待ち状態1201と、アプリケーション起動中における音声認識中305と、による状態を有している。図11と同様の状態は、図11と同様の符号を割り当て、説明を省略する。
【0082】
アプリケーション起動中における音声認識の開始待ち状態1201は、図11のアプリケーション起動中における音声認識の開始待ち状態1102と異なる点としては、GUI操作ではなく、音声区間検出部205が音声区間の開始を検出した場合に、アプリケーション起動中における音声認識中305に遷移する点とする。なお、遷移の際の処理は、上述した実施形態と同様として説明を省略する。
【0083】
上述した実施形態にかかる情報処理装置及びテレビジョン放送受信装置では、ユーザ自ら音声認識を開始することを目的としたボタン操作などをすることなく、情報処理装置及びテレビジョン放送受信装置を利用する際の通常の操作をトリガーとして、音声認識も開始されるため、ユーザの操作負担を軽減できる。
【0084】
つまり、従来、ユーザがモバイル通信端末やノートPCなどは、スライド操作やパネルの開閉などを行う際に、主たる利用用途は定められている可能性が高い。しかしながら、ユーザは上述した操作を行った後、利用用途に応じたボタン操作・キー操作を行い、目的のアプリケーションを立ち上げる必要があったため、操作負担が大きかった。
【0085】
そこで、上述した実施形態では、情報処理装置の様々なハードウェアの状態の変化をトリガーとして、所定のアプリケーションを起動させ、音声認識の準備を行うこととした。つまり、ユーザが音声認識のためのボタン操作やGUI操作を行う必要なく、所望のアプリケーションを利用することが可能となる。これにより、ユーザが所望しているタイミングで音声認識が行われるため、操作負担を軽減できる。
【0086】
上述した実施形態の情報処理装置又はテレビジョン放送受信装置で実行される音声認識処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0087】
さらに、上述した実施形態の情報処理装置又はテレビジョン放送受信装置で実行される音声認識処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施形態の情報処理装置又はテレビジョン放送受信装置で実行される音声認識処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
【0088】
上述した実施形態の情報処理装置又はテレビジョン放送受信装置で実行される音声認識処理プログラムは、上述した各部(音声区間検出部、認識制御部、音声認識処理部、アプリケーション制御部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記ROMから音声認識処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、音声区間検出部、認識制御部、音声認識処理部、アプリケーション制御部が主記憶装置上に生成されるようになっている。
【0089】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。
【符号の説明】
【0090】
100、700…情報処理装置、201…記憶部、202…音声出力部、203…音声入力部、204…音声フロントエンド処理部、205…音声区間検出部、206…電源・コンセント、207…給電可能検出部、208…ドッグ、209…ドック接続検出部、211…格納検知スイッチ、212…タッチパネル、213…画面ロック解除検出部、214…圧力センサ、215…圧力検出部、220…映像フロントエンド処理部、221…認識制御部、222…音声認識処理部、223…読唇認識部、224…アプリケーション制御部、225A…第1アプリケーション、225B…第2アプリケーション、1000…リモコン装置

【特許請求の範囲】
【請求項1】
音声を、音声信号として入力処理する音声入力手段と、
自装置のハードウェアにおける状態変化を示す状態情報を入力処理する情報入力手段と、
前記情報入力手段が入力した前記状態情報に基づいてハードウェアの状態変化が生じた場合に、前記音声入力手段により入力処理された前記音声信号に対して音声認識を行い、音声認識結果情報を生成する音声認識手段と、
前記音声認識手段により生成された前記音声認識結果情報を利用するアプリケーションを起動するアプリケーション制御手段と、
を備えることを特徴とする音声処理装置。
【請求項2】
前記情報入力手段は、入力処理する前記状態情報として、自装置がクラムシェル型端末であって当該端末の開閉動作の検出結果を示した開閉情報、自装置が備える照度センサによる照度情報、自装置に対する給電情報、自装置が他の装置に接続されているか否かを示した接続情報、自装置が有するスライド式キーボードへのスライド操作がなされたか否かを示した操作情報、及び圧力センサに基づいて自装置をユーザが保持しているか否かを示した圧力情報のうち、いずれか1つ以上を入力処理すること、
を特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記アプリケーション制御手段は、前記アプリケーションを起動させた後、予め定められた期間において前記音声入力手段による音声信号の入力処理がない場合に、前記アプリケーションの起動を停止すること、
を特徴とする請求項1又は2に記載の音声処理装置。
【請求項4】
前記アプリケーション制御手段により起動された前記アプリケーションが常駐した後、前記音声入力手段により入力処理された前記音声信号から、ユーザが発話した区間を検知する検知手段をさらに備え、
前記音声認識手段は、前記検知手段によりユーザが発話した区間を検出したことをトリガーとして、前記音声認識を開始すること、
を特徴とする請求項1乃至3のいずれか1つに記載の音声処理装置。
【請求項5】
音声処理装置で実行される音声処理方法であって、
情報入力手段が、前記音声処理装置のハードウェアにおける状態変化を示す状態情報を入力処理する情報入力ステップと、
音声認識手段が、前記情報入力ステップが入力した前記状態情報に基づいてハードウェアの状態変化が生じた場合に、音声入力手段により入力処理された音声信号に対して音声認識を行い、音声認識結果情報を生成する音声認識ステップと、
前記音声認識ステップにより生成された前記音声認識結果情報を利用するアプリケーションを起動するアプリケーション制御ステップと、
を含むことを特徴とする音声処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−216057(P2012−216057A)
【公開日】平成24年11月8日(2012.11.8)
【国際特許分類】
【出願番号】特願2011−80704(P2011−80704)
【出願日】平成23年3月31日(2011.3.31)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】