情報処理装置

【課題】手が使用できないような環境で、音声や呼気によって小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことを可能とする。
【解決手段】複数のマイクロフォンが所定配置で設けられているマイクロフォンアレイで取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定すると共に、ユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発生位置特定手段、前記継続時間が所定時間より長いか否かを判定する手段、およびユーザーに対する表示を行う表示制御手段とを有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、ディスプレイ上の表示態様を変更するように制御する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、３次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示する情報処理装置に関する。
【背景技術】
【０００２】
コンピュータへの入力手段としてキーボードやマウスなどが広く用いられている。いずれも手を用いて操作することが前提になっているため、手に不自由がある身体障害者がコンピュータへアクセスすることの障害となっている。手を用いない入力手段として、「目線」、「舌」、「音声」などを利用するものがある。「目線」を利用する手法はヘッドマウント型のデバイスを用いるため、手の不自由な方が自力で装着するのが困難という問題がある。「舌」を用いた手法では口腔内にセンサを入れて使用するため、デバイス装着時の困難に加え衛生的な問題もある。「音声」を用いた手法では卓上に置かれたマイクロフォンに向かって話すことによりセンサ類を装着する必要はなくなるが、音声認識が可能な程度の明瞭な音声コマンドを発声できることが前提条件となっている。
【０００３】
マウス操作など手による操作が困難で、かつ音声認識が出来るほどの明瞭な音声コマンドの発声が困難な方を対象として、音声や呼気音などの発声位置をマイクロフォンアレイ処理で特定する音声ポインティングデバイスの開発が行われている。例えば、特許文献１（特開２００４−２８０３０１号公報）では、マイクロフォンアレイに呼気を吹きかけながら口先または顔を移動させることで、カーソルを操作する音声ポインティングデバイスとそれを用いたインターフェイスの開発事例が公開されている。これは、平面上に配列したマイクロフォンアレイ上で検出した入力音の２次元的な位置情報に基づいてカーソルの移動方向を決定し、入力音の強度でカーソル移動の速さを制御する仕様となっている
また、特許文献２（特開２００７−２２８１３５号公報）では、雑音に対する頑健性を高めた音声ポインティングデバイスを開発し、ユーザが進みたい方向を向いて音声、呼気音、または口笛などの音をたてることで、進行方向の指示が可能な電動車いすの開発を行っている。電動車いすの例では、ポインティングデバイスのセンサ部である２つのマイクロフォンアレイを左右の肘掛先端に実装することで、音源の２次元的な位置を推定している。
【特許文献１】特開２００４−２８０３０１号公報
【特許文献２】特開２００７−２２８１３５号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、特許文献１に記載された手法のようにカーソル移動の速さを入力音の強度だけで入力操作を行うと、特に、小さなアイコンやボタンへのカーソル移動など細かな入力が困難となる。また、周囲雑音の干渉に弱いため、雑音のある一般的な環境下での実用性は低かった。
【０００５】
ところで、発明者は、ポインティングデバイスを卓上で使えるように小型化し、かつ３次元的な音源位置の推定も高精度に行えるように３軸マイクロフォンアレイの構成とした、３次元音声ポインティングデバイスの開発を既に行っている。このような発明者の開発した３次元音声ポインティングデバイスを用いることで、雑音に対する脆弱性の問題を回避することができた。
【０００６】
しかし、このような３次元音声ポインティングデバイスを用いても、小さなアイコンやボタンへのカーソル移動など細かなコントロールが困難という問題点に関しては、インタ
ーフェイスの改善の余地が大いに残されている。
【０００７】
以上のような従来技術の問題点を鑑み、本発明では、雑音がある環境下でもユーザーの３次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示する情報処理装置を提供し、なおかつ、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことを可能とする情報処理装置を提供することである。
【課題を解決するための手段】
【０００８】
上記課題を解決するために、請求項１に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発声位置特定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記発声位置特定手段によって特定された発声位置に応じて、前記表示手段上に表示されるカーソル位置の変更を行うように制御することを有することを特徴とする情報処理装置である。
【０００９】
また、請求項２に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示態様を変更するように制御することを特徴とする情報処理装置である。
【００１０】
また、請求項３に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における拡大表示実行又は拡大表示解除の別を変更するように制御することを特徴とする情報処理装置である。
【００１１】
また、請求項４に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示の拡大率を変更するように制御することを特徴とする情報処理装置である。
【００１２】
また、請求項５に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイ
クロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段に表示されるカーソルの移動量の変更を行うように制御することを有することを特徴とする情報処理装置である。
【００１３】
また、請求項６に係る発明は、請求項３又は請求項４に記載の情報処理装置において、前記表示制御手段は、前記表示手段における表示の拡大率の変更に伴い、前記表示手段に表示されるカーソルの移動量を変更することを特徴とする。
【００１４】
また、請求項７に係る発明は、請求項６に記載の情報処理装置において、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の音量を特定する音量特定手段、を有し、前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記音量特定手段によって特定された音量又は音量の対数値に比例させるように制御することを特徴とする。
【００１５】
また、請求項８に係る発明は、請求項６に記載の情報処理装置において、前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記発声位置特定手段によって特定された発声位置と所定線分との間の距離に比例させるように制御することを特徴とする。
【００１６】
また、請求項９に係る発明は、請求項１乃至請求項８に記載の情報処理装置において、前記表示制御手段は、前記発声位置特定手段によって特定された発声位置を前記表示手段に表示するように制御することを特徴とする。
【発明の効果】
【００１７】
本発明の情報処理装置によれば、雑音がある環境下でもユーザーの３次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示することが可能となる。
【００１８】
また、本発明の情報処理装置によれば、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【発明を実施するための最良の形態】
【００１９】
以下、本発明の実施の形態を図面を参照しつつ説明する。
図１は本発明の実施の形態に係る情報処理装置の外観を斜視的に示す図であり、図２は本発明の実施の形態に係る情報処理装置に用いられるインターフェイス装置の外観を斜視的に示す図であり、図３は本発明の実施の形態に係る情報処理装置のブロック構成を示す図である。
【００２０】
図１及び図２において、１０は情報処理装置、２０はコンピュータ本体部、３０はディスプレイ部、１００はインターフェイス装置、２００はマイクロフォンアレイ、２０１はシリコンマイク、２０２はウインドスクリーン、２１０はスタンド、２１１は主支柱、２１２は左側支柱、２１３は右側支柱、２８０はマイクアンプ、２９０はＡＤ変換部、３００はＣＰＵ、４００は記憶部、５００は接続ポート部をそれぞれ示している。
【００２１】
情報処理装置１０は、マウスなどの入力用ポインティングデバイスの代替となるインタ
ーフェイス装置１００と、インターフェイス装置１００からの入力を受けこれに基づいて演算処理などを行うコンピュータ本体部２０と、コンピュータ本体部２０からの出力をユーザーのために表示するディスプレイ部３０とから主として構成されている。コンピュータ本体部２０は、ＣＰＵ（不図示）とＣＰＵ上で動作するプログラムを保持するＲＯＭ（不図示）やＨＤＤ（不図示）、ＣＰＵのワークエリアとして機能するＲＡＭ（不図示）、他の機器と接続するためのインターフェイス手段（不図示）などからなる汎用の情報処理機構であり、例えば汎用のパーソナルコンピュータを用いることができる。また、特許請求の範囲において「表示制御手段」として表現される構成は、コンピュータ本体部２０のＣＰＵとＣＰＵ上で動作するプログラムとビデオＲＡＭ（不図示）などによって実現されるものである。このようなコンピュータ本体部２０の構成や動作については、いずれも周知であるので詳述を避ける。また、特許請求の範囲において「表示手段」として記載されている構成はディスプレイ部３０である。このディスプレイ部３０についても一般的なものを用いることができる。なお、コンピュータ本体部２０としては、汎用のパーソナルコンピュータなどを用いることができるが、これに限らず、その他の種々のコンピュータを用いることができる。
【００２２】
以下、本発明に係る情報処理装置１０において、特徴的なインターフェイス装置１００について詳しく説明する。図２はインターフェイス装置１００のユーザーインターフェイス部の構成を示しており、図示するようなユーザーの鼻腔・口腔から発せられた音に基づいて、コンピュータなどに対する入力デバイスとして機能するものである。なお、このようなインターフェイス装置１００は、コンピュータに対する入力用途のみならず、電気製品や車両に対する入力用途にも用いることが可能である。
【００２３】
インターフェイス装置１００の外観は、スタンド２１０上に立設された主支柱２１１と、主支柱２１１から左右に枝分かれし、左側支柱２１２と右側支柱２１３と、それぞれの支柱に設けられたマイクロフォン群とから構成されており、卓上に設置が可能なようになっている。より具体的には、これら主支柱２１１、左側支柱２１２、右側支柱２１３のそれぞれに３ｃｍ間隔でシリコンマイク２０１が不図示の基板上に設けられており、計１２個のマイクロフォン群からマイクロフォンアレイ２００が構成されている。なお、本実施形態に係るインターフェイス装置１００においては、シリコンマイク２０１が１２個用いられたものに基づいて説明するが、シリコンマイク２０１の数は３個以上で構成すればよく、本発明が１２個のシリコンマイク２０１の使用に限定されるものではない。なお、シリコンマイク２０１の数が少ないと耐雑音性が悪化するし、また、シリコンマイク２０１の数が多いと音声データの処理負荷が重くなるので、本実施形態では先に述べたようにマイクロフォンアレイ２００を１２個のシリコンマイク２０１で構成している。また、シリコンマイク２０１には、３ｍｍ×５ｍｍ程度の小型シリコンマイクを採用している。
【００２４】
それぞれの支柱に配された４つのシリコンマイク２０１は、ウインドスクリーン２０２によって覆われており、風きり音が入力されるのを伏せいている。また、左側支柱２１２に配されたマイクロフォン群、右側支柱２１３に配されたマイクロフォン群は略「ハ」の字のレイアウトとなるように配置されており、主支柱２１１に配されたマイクロフォン群は垂直に配置されている。
【００２５】
図３はインターフェイス装置１００を含むブロック構成が示される図である。１２個のシリコンマイク２０１から構成されるマイクロフォンアレイ２００の出力は、マイクアンプ２８０で増幅されＡＤ変換部２９０でアナログ−デジタル変換された後、ＣＰＵ３００に入力されるようになっている。記憶部４００は、ＣＰＵ３００上で動作するプログラムを保持するＲＯＭや、ＣＰＵ３００のワークエリアとして機能するＲＡＭから構成されている。この記憶部４００に記憶されているプログラムに基づいてＣＰＵ３００が動作することによって、本発明のインターフェイス装置１００として機能する。
【００２６】
なお、特許請求の範囲に記載されている「継続時間特定手段」、「発声位置特定手段」、「継続時間判定手段」、「音量特定手段」、などの各手段は、記憶部４００に記憶されているプログラムに基づいて動作するＣＰＵ３００によって実現されるものである。
【００２７】
また、記憶部４００には、後述するイベントデータベースが記憶保持されている。接続ポート部５００は、コンピュータ本体部２０などの他の機器と接続するためのインターフェイス手段であり、ＵＳＢなどの周知のものを利用することができる。
【００２８】
以上のように構成されるインターフェイス装置１００の利用形態について説明する。なお、以下に種々の実施形態を個別的に説明するが、それぞれの実施形態は記憶部４００に記憶させるプログラムを変更することによってそれぞれ実現することができる。また、以下に個別的に説明する種々の実施形態を任意に組み合わせて構成したインターフェイス装置も、本実施形態のインターフェイス装置に含まれるものである。
【００２９】
図４は本発明の実施の形態に係るインターフェイス装置の利用形態例を示す図である。本実施形態に係るインターフェイス装置１００では、インターフェイス装置１００を用いて、３次元空間内で推定された発声位置がどの領域に属すかを特定するものである。
【００３０】
なお、以下、「発声」という語には、ユーザーの鼻口腔から発せられた全ての種類の音が含まれるものとする。ユーザーの鼻口腔から発せられた音には、例えば、舌打ちの音なども含まれるものであるが、一般的な利用としては、ユーザーの「シュッ」、「パッ」などの短い発声音や「シュー」、「アー」などの継続する継続的発声音が想定される。
【００３１】
図４に示す実施形態においては、ユーザーの発声検出領域Rを定義し、この発声検出領
域の中のユーザーの発声のみを検出するようにして、発声検出領域R外からの音は雑音と
して処理する。
【００３２】
そして、定義されたユーザーの発声検出領域Rの中で、発声がどの位置からなされたの
かが特定される。このような特定を行う構成は、特許請求の範囲において「発声位置特定手段」として表現されている。
【００３３】
また、後述するように発声検出領域Rの中は、仮想的な空間に領域に分割する。そして
、仮想的に分割された空間の中で、発声がどの空間内で発声があったのかに係る情報が利用される。
【００３４】
また、定義されたユーザーの発声検出領域の中で、発声の開始から終了までの継続時間が特定される。すなわち、ユーザーの「シュッ」、「パッ」などの短い発声音と、「シュー」、「アー」などの継続する継続的発声音との別が特定される。このような特定を行う構成は、特許請求の範囲において「継続時間特定手段」として表現されている。
【００３５】
また、定義されたユーザーの発声検出領域の中で、ユーザーの発声の音量の特定が行われる。このような特定を行う構成は、特許請求の範囲において「音量特定手段」として表現されている。
【００３６】
以上のような実施形態におけるインターフェイス装置の処理について説明する。図５は本発明の実施の形態に係るインターフェイス装置の処理のフローチャートを示す図である。
【００３７】
ステップＳ１００で、処理が開始されると、次にステップＳ１０１に進み、マイクロフ
ォンアレイ２００から音声データの取り込みが行われる。このステップではより具体的には、マイクロフォンアレイ２００から出力される音声のアナログ信号をマイクアンプ２８０で増幅した後、ＡＤ変換部２９０でデジタル信号に変換し、記憶部４００に一時記憶する。
【００３８】
次のステップＳ１０２では、ユーザー発声位置と周囲雑音到来方向の３次元的な情報の特定を行う。より詳細には、本願の発明者らによる特開２００７−２２８１３５号公報、特開２００８−６７８５４号公報、特願２００６−２４０７２１号の明細書、図面に記載の手法を用いて、ユーザーの発声位置と周囲雑音到来方向を３次元空間内で特定する。
【００３９】
次に、ステップＳ１０３では、ユーザーの発声があるか否かが判定される。このステップでは、特願２００６−２４０７２１号に記載の手法を用いてユーザーの発声を検出し、もしユーザーの発声が検出されなければ、ステップＳ１０１から繰り返す。もしユーザーの発声が検出されればステップＳ１０４へ進む。
【００４０】
ステップＳ１０４では、周囲雑音の抑制を実行する。このステップでは、特願２００６−２４０７２１号に記載の手法を用いて周囲雑音を抑圧しユーザーの発声を強調する音源分離処理を行う。
【００４１】
ステップＳ１０５では、ユーザーの発声の継続時間の特定が行われる。すなわち、このステップでは、ユーザーの発声の継続音の開始から終了までの時間を特定する処理を行う。
【００４２】
ステップＳ１０６では、３次元的な発声位置の特定を行う。より具体的には、３次元空間内で推定された発声位置がどの領域に属すかを特定する。例えば、図３示すようにユーザーの発声検出領域を定義し、更にその発声検出領域を８つの領域に分割する。そして、その８つの分割領域の中で、発声がどの領域内で検出されたかを特定する。
【００４３】
ステップＳ１０７では、ユーザーの発声の発声音量の特定が行われる。音の大きさを表すパワーなどの音量に相当するパラメータを計測することによって行う。
【００４４】
ステップＳ１０８では、イベント特定処理のサブルーチンが実行される。記憶部４００に保持されるイベントデータベースには、例えば、発声継続時間、発声検出位置、発声音量などに応じたイベントが記憶されている。すなわち、発声継続時間、発声検出位置、発声音量などとイベントとの組み合わせが定義されて、当該イベントデータベースに保持されるようになっている。イベント特定処理では、このイベントデータベースの情報が参照される。
【００４５】
イベントデータベースには、例えば、図３の上段手前の左側の領域で短時間の発声として定義したイベントがあらかじめ登録されている。そして、ステップＳ１０６のイベントの特定処理では、発声位置が前述の位置になっているかを判断し、発声継続時間があるしきい値以下であるかを判断し、発声が所定の発声音量以上であるかなどを判断し、全ての条件が適合したときにそのイベントが発生したと判断する。
【００４６】
ステップＳ１０９では、該当イベントがあるかが判定される。ステップＳ１０８で、イベントデータベースに適合するイベントが検出されたかどうかを調べ、もしイベントが一つも検出されなければ、ステップＳ１０１へ戻る。もし、イベントが検出された場合は、ステップＳ１１０へ進む。
【００４７】
ステップＳ１１０では、コンピュータ本体部２０に対して、イベント検出信号を送信す
る。
【００４８】
アプリケーション側の典型的な処理が点線の囲み中に示されている。以下、アプリケーション側で想定される典型的な処理について説明する。ステップＳ２０１では、本発明のインターフェイス装置から送られるイベント検出信号の受信を待ち続ける。もし、イベント検出信号を受信した場合は、ステップＳ２０２へ移る。ステップＳ２０２では、受信したイベント検出信号に対応した適切な処理を実行する。そして、ステップＳ２０１へ戻る。
【００４９】
インターフェイス装置１００では、例えば、手前、左上の分割領域での発声が検出された場合には、マウスの左クリックに相当するイベント検出信号を生成し、コンピュータ本体部２０側に送信する。このようなイベント検出信号を受信したコンピュータ本体部２０は、ステップＳ２０２でマウスの左クリックに相当する処理を実行する。
【００５０】
このように本実施形態の情報処理装置によれば、雑音がある環境下でもユーザーの呼気音や発声の発声位置などが３次元的に特定され、特定された事項に応じた処理をコンピュータ本体部２０側で実行することができるようになる。
【００５１】
次に、ステップＳ１０８におけるサブルーチン処理の第１実施形態について説明する。図６は本発明の第１実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図７は本発明の第１実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図であり、図８は本発明の第１実施の形態
に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【００５２】
図６において、ステップＳ３００で、イベント特定処理のサブルーチンが開始されると、次に、ステップＳ３０１に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。
【００５３】
ステップＳ３０１の判定結果ＹＥＳであるときにはステップＳ３０２に進み、判定結果ＮＯであるときにはステップＳ３０４に進む。
【００５４】
ステップＳ３０２では、仮想空間Ａに基づいてイベントの特定を行うようにする。このような仮想空間Ａは、図７に示されるようなものである。仮想空間Ａは、Ａ₁、Ａ₂、Ａ₃
、Ａ₄の４つの空間に分割されており、それぞれ空間で発声があった場合には、一般的な
十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、Ａ₁の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上」に相
当するイベント検出信号が生成される訳である。
【００５５】
ステップＳ３０３では、発声音量（又はその対数値）に比例したカーソル移動量を特定する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部３０では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。例えば、Ａ₁の領域内でユーザーが、比較的大きな声で長く「シュー」と発音
すると、十字キーの「上」の方向に速くカーソルが移動するようなイベント検出信号が生成される。
【００５６】
ステップＳ３０４では、仮想空間Ｂに基づいてイベントの特定を行うようにする。このような仮想空間Ｂは、図８に示されるようなものである。仮想空間Ｂは、Ｂ₁、Ｂ₂の２つ
の空間に分割されており、それぞれ空間で発声があった場合には、一般的なマウスの「右クリック」、「左クリック」に相当するイベントとして定義されている。例えば、Ｂ₁の
領域内でユーザーが短く「シュッ」と発音すると、マウスの「右クリック」に相当するイベント検出信号が生成される訳である。
【００５７】
ステップＳ３０５では、上記のように左クリックか右クリックかが特定される。
【００５８】
ステップＳ３０６ではリターンする。
【００５９】
上記のようにインターフェイス装置１００で生成されたイベント検出信号によって、コンピュータ本体部２０はディスプレイ部３０における表示を制御する。すなわち、例えばＡ₁の領域内でユーザーが長く「シュー」などと発音すると、ディスプレイ部３０におい
てカーソルが上方向に移動するように表示制御がされる。また、Ｂ₁の領域内でユーザー
が短く「シュッ」などと発音すると、ディスプレイ部３０において、マウスの右クリックに相当するような表示制御がされる。
【００６０】
なお、上記の実施形態においては、仮想空間Ａは、Ａ₁、Ａ₂、Ａ₃、Ａ₄の４つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、Ａ₁とＡ₃との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置１００で生成し、ディスプレイ部３０においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、Ｘ−Ｙ平面の原点の真上で発声が検出されたらカーソルは上へ移動し、右上４５°の方向で発声が検出されたらカーソルは右上４５°の方向に移動するように表示制御する。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分（Ｏ−Ｏ’）からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【００６１】
このような本発明の情報処理装置によれば、雑音がある環境下でもユーザーの３次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示することが可能となる。
【００６２】
次に、本発明の第２実施形態について説明する。図９は本発明の第２実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図１０は本発明の第２実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空
間例を示す図である。
【００６３】
ステップＳ４００において、イベント特定処理のサブルーチンが開始されると、次に、ステップＳ４０１に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。
【００６４】
ステップＳ４０２では、仮想空間Ａに基づいてイベントの特定を行うようにする。このような仮想空間Ａは、図７に示されるようなものである。仮想空間Ａは、Ａ₁、Ａ₂、Ａ₃
、Ａ₄の４つの空間に分割されており、それぞれ空間で発声があった場合には、一般的な
十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、Ａ₁の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上」に相
当するイベント検出信号が生成される訳である。
【００６５】
ステップＳ４０３では、発声音量（又はその対数値）に比例したカーソル移動量を特定する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部３０では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。
【００６６】
ステップＳ３０４では、仮想空間Ｃに基づいてイベントの特定を行うようにする。このような仮想空間Ｃは、図８に示されるようなものである。仮想空間Ｃは、Ｃ₁、Ｃ₂、Ｃ₃
の３つの空間に分割されており、それぞれ空間で発声があった場合には、一般的なマウスの「右クリック」、「左クリック」、「拡大表示の実行／解除」に相当するイベントとして定義されている。例えば、Ｃ₁の領域内でユーザーが短く「シュッ」と発音すると、マ
ウスの「右クリック」に相当するイベント検出信号が生成される訳である。また、Ｃ₃の
領域内でユーザーが短く「シュッ」と発音すると、カーソル近傍の表示の拡大表示を実行したり、或いは拡大表示を解除したりするコマンドに相当するイベント検出信号が生成される訳である。
【００６７】
本実施形態では、このようなイベント検出信号が、コンピュータ本体部２０側に送信され、それに基づいて、コンピュータ本体部２０がディスプレイ部３０の表示制御を行うようになっているので、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となるのである。
【００６８】
ステップＳ４０５では、上記のように左クリックか右クリックか拡大表示の実行／解除かが特定される。
【００６９】
ステップＳ４０６ではリターンする。
【００７０】
上記のようにインターフェイス装置１００で生成されたイベント検出信号によって、コンピュータ本体部２０はディスプレイ部３０における表示を制御する。すなわち、Ｃ₃の
領域内でユーザーが短く「シュッ」などと発音すると、ディスプレイ部３０においてカーソル近傍の表示の拡大表示を実行したり、或いは拡大表示を解除したりする表示制御がなされる。つまり、Ｃ₃の領域内でユーザーの短時間の発声が、拡大表示ＯＮ・ＯＦＦのト
グルスイッチのような役割を果たし、ユーザーはこのようなスイッチ機能によって、必要に応じて拡大表示を行い、細かい入力作業を実行することができるようになる。これにより、本発明の情報処理装置１０では、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【００７１】
なお、上記の実施形態においては、仮想空間Ａは、Ａ₁、Ａ₂、Ａ₃、Ａ₄の４つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能であることは先に述べた通りである。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分（Ｏ−Ｏ’）からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【００７２】
次に、本発明の第３実施形態について説明する。図１１は本発明の第３実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図１２は本発明の第３実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【００７３】
図１１において、ステップＳ５００で、イベント特定処理のサブルーチンが開始されると、次に、ステップＳ５０１に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。本実施形態においても、まずユーザーの発声継続音の長短によって、発声検出領域R中で用いる仮想空間を異なるものとするように処理する。
【００７４】
ステップＳ５０１の判定結果ＹＥＳであるときにはステップＳ５０２に進み、判定結果ＮＯであるときにはステップＳ５０６に進む。
【００７５】
ステップＳ５０２では、仮想空間Ｄに基づいてイベントの特定を行うようにする。このような仮想空間Ｄは、図１２に示されるようなものである。仮想空間Ｄは、Ｄ₁、Ｄ₂、Ｄ₃、Ｄ₄、Ｄ₅の５つの空間に分割されており、それぞれ空間で発声があった場合には、一
般的な十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、Ｄ₁の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上
」に相当するイベント検出信号が生成される訳である。また、発声検出領域Rの奥側に設
定されたＤ₅の領域は、ディスプレイ部３０における表示の拡大率をユーザーが変更可能
なように設けられた空間である。そして、拡大率の変更においては、ＰＱＲＳ平面と発声位置と間の距離に応じて拡大率が設定されるようにしている。領域Ｄ₅において、ＰＱＲ
Ｓ平面と発声位置とが近ければ近いほど、拡大率が大きくなるように設定し、ＰＱＲＳ平面と発声位置とが近ければ近いほど、拡大率が小さくなるように設定すると、入力デバイスとして直感的に用いることが可能である。例えば、Ｄ₅の領域内でユーザーが長く「シ
ュー」と発音しながら、長い発声で近づくと拡大率が大きくなるようなイベント検出信号がインターフェイス装置１００によって生成され、これをコンピュータ本体部２０に送信し、ディスプレイ部３０における表示の拡大率を大きくするように表示制御させる。
【００７６】
ステップＳ５０３では、発声位置がＤ₁，Ｄ₂，Ｄ₃，Ｄ₄内であるか否かが判定される。ステップＳ５０３の判定結果がＹＥＳであるときにはステップＳ５０４に進み、判定結果がＮＯであるときにはステップＳ５０５に進む。
【００７７】
ステップＳ５０４では、発声音量（又はその対数値）に比例したカーソル移動量を特定する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部３０では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。例えば、Ｄ₁の領域内でユーザーが、比較的大きな声で長く「シュー」と発音
すると、十字キーの「上」の方向に速くカーソルが移動するようなイベント検出信号が生成される。
【００７８】
ステップＳ５０５では、先に述べたような方法―ＰＱＲＳ平面と発声位置とが近ければ近いほど、拡大率が大きくし、ＰＱＲＳ平面と発声位置とが近ければ近いほど、拡大率が小さくする―で、拡大率の特定を行う。
【００７９】
ステップＳ５０６では、仮想空間Ｂに基づいてイベントの特定を行うようにする。このような仮想空間Ｂは、図８に示されるようなものである。仮想空間Ｂは、Ｂ₁、Ｂ₂の２つの空間に分割されており、それぞれ空間で発声があった場合には、一般的なマウスの「右クリック」、「左クリック」に相当するイベントとして定義されている。例えば、Ｂ₁
の領域内でユーザーが短く「シュッ」と発音すると、マウスの「右クリック」に相当するイベント検出信号が生成される訳である。
【００８０】
ステップＳ５０７では、上記のように左クリックか右クリックかが特定される。
【００８１】
ステップＳ５０８ではリターンする。
【００８２】
上記のようにインターフェイス装置１００で生成されたイベント検出信号によって、コンピュータ本体部２０はディスプレイ部３０における表示を制御する。すなわち、Ｄ₅の
領域内でユーザーが長く「シュー」などと発音しながら、ＰＱＲＳ平面に近づけば近づくほど、ディスプレイ部３０での表示の拡大率が大きくなり、Ｄ₅の領域内でユーザーが長
く「シュー」などと発音しながら、ＰＱＲＳ平面から離れれば離れるほど、ディスプレイ部３０での表示の拡大率が小さくなるように、表示制御がなされるようになっている。ユーザーはこのような拡大率の変更機能によって、必要に応じて拡大表示を行い、細かい入力作業を実行することができるようになる。これにより、本発明の情報処理装置１０では、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【００８３】
なお、上記の実施形態においては、仮想空間Ｄは、Ｄ₁、Ｄ₂、Ｄ₃、Ｄ₄の４つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、Ｄ₁とＤ₃との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置１００で生成し、ディスプレイ部３０においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、Ｘ−Ｙ平面の原点の真上で発声が検出されたらカーソルは上へ移動し、右上４５°の方向で発声が検出されたらカーソルは右上４５°の方向に移動するように表示制御する。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分（Ｏ−Ｏ’）からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【００８４】
次に、本発明の第４実施形態について説明する。図１３は本発明の第４実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図１４は本発明の第４実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【００８５】
図１３において、ステップＳ６００で、イベント特定処理のサブルーチンが開始されると、次に、ステップＳ６０１に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。本実施形態においても、まずユーザーの発声継続音の長短によって、発声検出領域R中で用いる仮想空間を異なるものとするように処理する。
【００８６】
ステップＳ６０１の判定結果ＹＥＳであるときにはステップＳ６０２に進み、判定結果ＮＯであるときにはステップＳ６０４に進む。
【００８７】
ステップＳ６０２では、仮想空間Ａに基づいてイベントの特定を行うようにする。このような仮想空間Ａは、図７に示されるようなものである。仮想空間Ａは、Ａ₁、Ａ₂、Ａ₃
、Ａ₄の４つの空間に分割されており、それぞれ空間で発声があった場合には、一般的な
十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、Ａ₁の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上」に相
当するイベント検出信号が生成される訳である。
【００８８】
ステップＳ６０３では、発声音量（又はその対数値）に比例したカーソル移動量を特定
する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部３０では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。例えば、Ａ₁の領域内でユーザーが、比較的大きな声で長く「シュー」と発音
すると、十字キーの「上」の方向に速くカーソルが移動するようなイベント検出信号が生成される。
【００８９】
ステップＳ６０４では、仮想空間Ｅに基づいてイベントの特定を行うようにする。このような仮想空間Ｅは、図１４に示されるようなものである。仮想空間ＥはＥ₁、Ｅ₂、Ｅ₃
、Ｅ₄、Ｅ₅、Ｅ₆の６つの空間に分割されており、Ｅ₁、Ｅ₂の領域で発声があった場合に
は、一般的なマウスの「右クリック」、「左クリック」に相当するイベントとして定義されている。例えば、Ｅ₁の領域内でユーザーが短く「シュッ」と発音すると、マウスの「
右クリック」に相当するイベント検出信号が生成される訳である。
【００９０】
また、奥側において４つに分割されている空間領域のＥ₃、Ｅ₄、Ｅ₅、Ｅ₆のそれぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」に相当し、かつ、カーソルの移動量を微少量とするイベントとして定義されている。例えば、Ｅ₃の領域内でユーザーが短く「シュッ」と発音すると、「上」への微少量のカーソル移動
に相当するイベント検出信号が生成される訳である。このようなイベント検出信号によれば、ディスプレイ部３０では、カーソルが微小移動するような表示制御がなされる。すなわち、ユーザーは必要に応じて、空間領域のＥ₃、Ｅ₄、Ｅ₅、Ｅ₆の短い発声を行うことにより、カーソルの細かい移動を実行することができるようになる。
【００９１】
ステップＳ６０５においては、発声位置がＥ１，Ｅ２内であるか否かが判定される。ステップＳ６０５における判定結果がＹＥＳであるときにはステップＳ６０６に進み、判定結果がＮＯであるときにはステップＳ６０７に進む。
【００９２】
ステップＳ６０６では、上記のように左クリックか右クリックかが特定される。
【００９３】
また、ステップＳ６０７では、先に述べたように十字の方向別で微小量のカーソル移動が特定される。
【００９４】
ステップＳ６０８でリターンする。
【００９５】
上記のようにインターフェイス装置１００で生成されたイベント検出信号によって、コンピュータ本体部２０はディスプレイ部３０における表示を制御する。すなわち、特に本実施形態においては、奥側において４つに分割されている空間領域のＥ₃、Ｅ₄、Ｅ₅、Ｅ₆のそれぞれ空間で短い発声があった場合には、カーソルの移動量が微量になるように表示制御がなされるものであり、ユーザーは必要に応じて、空間領域のＥ₃、Ｅ₄、Ｅ₅、Ｅ₆の短い発声を行うことにより、カーソルの細かい移動を実行することができるようになる。これにより、本発明の情報処理装置１０では、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【００９６】
なお、上記の実施形態においては、仮想空間Ａは、Ａ₁、Ａ₂、Ａ₃、Ａ₄の４つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、Ａ₁とＡ₃との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置１００で生成し、ディスプレイ部３０においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、Ｘ−Ｙ平面の原点の真上で発声が検出されたらカーソルは上へ
移動し、右上４５°の方向で発声が検出されたらカーソルは右上４５°の方向に移動するように表示制御する。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分（Ｏ−Ｏ’）からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【００９７】
また、上記の実施形態においては、仮想空間Ｅの奥側においては、Ｅ₃、Ｅ₄、Ｅ₅、Ｅ₆の４つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、Ｅ₃とＥ₅との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置１００で生成し、ディスプレイ部３０においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、Ｘ−Ｙ平面の原点の真上で発声が検出されたらカーソルは上へ移動し、右上４５°の方向で発声が検出されたらカーソルは右上４５°の方向に移動するように表示制御する。
【００９８】
次に、本発明の第５実施形態について説明する。図１５は本発明の第５実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。本実施形態は、第２実施形態の変形例であり、図９に示すフローチャートのステップＳ４０３がステップＳ４０３’に変更されたものである。そこで、このステップを中心に説明する。
【００９９】
第５実施の形態に係るインターフェイス装置のサブルーチン処理のステップＳ４０３’においては、カーソル移動量を特定する際には、発声音量(又はその対数値)に比例し、なおかつ、拡大率に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が２倍となると、例えば、カーソルの移動量は１／２となるように設定されている。
【０１００】
この実施形態では、カーソルを大局的な範囲で大きく移動させる場合は、画面の拡大率を等倍として、小さく移動する場合は拡大率を上げて表示するが、画面を拡大した時にカーソルの移動量が拡大前と同じままでは、拡大画面内をカーソルが大きく移動してしまい操作が困難となる。そこで、これを避けるために、拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにする。例えば、２倍表示の場合には実際のカーソルの移動量が２分の一になる。小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくする。
【０１０１】
次に、本発明の第６実施形態について説明する。図１６は本発明の第６実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図１７は本発明の第６実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【０１０２】
本実施形態は、第２実施形態の変形例であり、図９に示すフローチャートのステップＳ４０３がステップＳ４０３’ ’に変更されたものである。そこで、このステップを中心
に説明する。
【０１０３】
第６実施の形態に係るインターフェイス装置のサブルーチン処理のステップＳ４０３’
’においては、カーソル移動量を特定する際には、距離ｄに比例し、なおかつ、拡大率
に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が２倍となると、例えば、カーソルの移動量は１／２となるように設定されている。
【０１０４】
この実施形態では、カーソルの移動量は、分割された領域の境界部に存在する所定の線
分（Ｏ−Ｏ’）からの距離ｄに比例して決定する。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。
【０１０５】
また、拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにすることで、小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくすることが可能となる。
【０１０６】
次に、本発明の第７実施形態について説明する。図１８は本発明の第７実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。本実施形態は、第３実施形態の変形例であり、図１１に示すフローチャートのステップＳ５０４がステップＳ５０４’に変更されたものである。そこで、このステップを中心に説明する。
【０１０７】
第７実施の形態に係るインターフェイス装置のサブルーチン処理のステップＳ５０４’においては、カーソル移動量を特定する際には、発声音量(又はその対数値)に比例し、なおかつ、拡大率に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が２倍となると、例えば、カーソルの移動量は１／２となるように設定されている。このように拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにすることで、小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくすることが可能となる。
【０１０８】
次に、本発明の第８実施形態について説明する。図１９は本発明の第８実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図２０は本発明の第８実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【０１０９】
本実施形態は、第３実施形態の変形例であり、図１１に示すフローチャートのステップＳ５０４がステップＳ５０４’ ’に変更されたものである。そこで、このステップを中
心に説明する。
【０１１０】
第８実施の形態に係るインターフェイス装置のサブルーチン処理のステップＳ５０４’
’においては、カーソル移動量を特定する際には、距離ｄに比例し、なおかつ、拡大率
に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が２倍となると、例えば、カーソルの移動量は１／２となるように設定されている。
【０１１１】
この実施形態では、カーソルの移動量は、分割された領域の境界部に存在する所定の線分（Ｏ−Ｏ’）からの距離ｄに比例して決定する。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。
【０１１２】
また、拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにすることで、小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくすることが可能となる。
【０１１３】
次に、本発明の第９実施形態について説明する。本実施形態は、これまで説明してきた任意の実施形態と組み合わせて用いるものである。図２１は本発明の第９実施の形態に係る情報処理装置におけるディスプレイ部での表示例を示す図である。図２１において、３１はインターフェイス装置１００が、発声検出領域R中のどの位置において、ユーザーの
発声位置を認識しているかをグラフィカルに示すウインドウである。
【０１１４】
本発明の情報処理装置１０は、視覚で確認できるマウス等のポインティングデバイスと異なり、発声しているユーザー自身の位置が３次元の発声検出領域R中どの位置に相当す
るのかを把握することは容易ではない。また、発声音量は発声する音「シー」や「シュー」の違いでも変化し、把握しにくい。
【０１１５】
そこでディスプレイ部３０上に現在の発声位置を表示することで、ユーザーが自らの発声位置を把握しやすくする。表示は擬似的な３次元領域に発声位置を円で表示する。なお、各平面（X−Y、Y−Z、Z−X）に陰を表示することで空間的な位置をとらえやすくするようにしてもよい。また、過去一定時間中の発声音量の変化をグラフにした物を逐次表示させるようにしてもよい。これにより、発声音量とカーソルの速度の関係も理解しやすくなる。
【０１１６】
次に、本発明の情報処理装置１０を用いた使用感に係る実験について説明する。操作するＷｉｎｄｏｗｓ（登録商標）のディスプレイ部３０の前に三軸のマイクロフォンアレイであるインターフェイス装置１００を設置して使用する。評価のために５人の被験者に本発明の情報処理装置１０を用い、目標までのカーソル操作を行ってもらい、使用感についてインタビューを行った。
【０１１７】
目標までのカーソル操作実験は目標をディスプレイ部３０上に表示し、その上にカーソルを移動、左クリックを行うまでを１試行とし、開始位置からの到達時間と移動経路を記録した。使用したディスプレイは解像度１６００×１２００である。目標のサイズは１６×１６であり、Ｗｉｎｄｏｗｓ（登録商標）のウインドウの閉じるボタンと同程度の大きさである。また、ズーム機能の有効性を検証するために各被験者には以下の三条件についてそれぞれ３試行行った。
１）ズーム機能無し（第１実施形態）
２）クリック動作によるＯＮ／ＯＦＦ切り替えズーム有り（第２実施形態）
３）発話位置によるＯＮ／ＯＦＦ切り替えズーム有り（第３実施形態）
それぞれの条件について本人が操作可能であると判断するまで練習を行い、実験を行った。
いずれのズーム機能においてもズーム無しの時と比較して目標への到達時間が短縮されている。このことからズームによりカーソルの細かい操作が可能になったといえ、ズーム機能の有効性が示された。また、二つのズーム機能を比較すると、概ね発話位置によるＯＮ／ＯＦＦ切り替えズームが短い時間で目標に到達している。これは、クリックによるＯＮ／ＯＦＦ切り替えでは、一度移動を停止し、クリックを行う必要があったためであると考えられる。しかし、いくつかの試行では位置によるＯＮ／ＯＦＦ切り替えの方が目標到達へ長い時間を要している。これは、Ｚ軸方向の発話位置がユーザの意図しない時に変化したことによる。このときズーム倍率が変化し、カーソルが予期しない速度で移動し制御が困難になる。この傾向は練習時間が短かった被験者ほど現れやすかった。
被験者へのインタビューの結果、システムの使用感に関して以下のことがわかった。
・前後（Ｚ軸）方向の発話位置が制御しにくく、思ったようにズームの倍率を制御できない。
・カーソル位置の微調整が（ズーム機能なしでは）できない。
・短時間発話でクリックではなく微調整ができるようにしてほしい。
【０１１８】
以上のことからわかるように、多くの被験者はズームの制御をしづらいと感じており、できる限りズーム機能を使用しないで目標にカーソルを移動させようとする傾向にあった。発話位置をＺ軸座標、すなわち、ディスプレイ部３０に対して垂直方向について絶対的に制御することは容易では無いことが判明した。その原因は、左右へのカーソル移動を行う場合、首を回転させて発話位置を左右に動かすためである。首を回転させた場合、ディ
スプレイからの距離も変化し、ユーザの意図しないＺ軸座標の変化が現れる。これにより、拡大率が予期せず変化し、ユーザの混乱を招く。練習時間を長くとった場合、発話位置のＺ軸座標制御が可能になるが、多くの被験者はできる限り前後への移動をしない、すなわち、ズーム機能を使用しないように操作を行っていた。また、
・拡大表示内に目標が入っていないと目標を見失う。
・視覚フィードバックを見ながら操作するのは難しい。
・カーソルを見失いやすい
等の視覚的な面での問題点が挙げられた。視覚フィードバックは操作の邪魔にならないようにディスプレイ部３０右下に表示されている。操作をしながらその表示を確認することは難しい。また、マウスなどと比較して制御が難しいため、予想以上に大きく移動してしまうことがしばしば発生し、カーソルを見失うことがある。そこで、視覚フィードバックをカーソルに重ねる形で表示する等の方法が考えられる。
【０１１９】
次に、インターフェイス装置１００の処理における要素技術について説明する。
【０１２０】
インターフェイス装置１００では、周囲雑音が存在する環境下でも、３次元的なユーザの発声位置、および雑音を分離したユーザー音声が必要となる。これらの情報を抽出するために必要な3次元音声ポインティングデバイスであるインターフェイス装置１００の５
つの処理、1．ユーザ発声位置の推定（近距離音源の推定）、2．周囲雑音の到来方向推定（遠距離にある音源の音波到来方向の推定）、3．ユーザーの発話検出、４．音源分離、
５．音声認識処理（特願２００３−３２０１８３号）について以下に述べる。
1．ユーザー発声位置の推定（近距離音源の推定）
マイクロフォンアレイから約１ｍ以内の近距離にある音源の位置を、マイクロフォンアレイで推定する方法について以下に説明する。
【０１２１】
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。３次元空間中の
任意の位置
【０１２２】
【数１】

に置かれた音源から出力された音響信号を、３次元空間中の任意の位置
【０１２３】
【数２】

に配置されたＱ個のマイクロフォンで受音する。音源と各マイクロフォン間の距離Ｒｑは次式で求められる。
【０１２４】
【数３】

音源から各マイクロフォンまでの伝播時間τｑは、音速をｖとすると、次式で求められる。
【０１２５】
【数４】

各マイクロフォンで受音した中心周波数ωの狭帯域信号の、音源のそれに対する利得ｇｑは、一般的に、音源とマイクロフォン間の距離Ｒｑと中心周波数ωの関数として定義される。
【０１２６】
【数５】

例えば、利得を距離Ｒｑだけの関数として、実験的に求めた次式のような関数を用いる。
【０１２７】
【数６】

中心周波数ωの狭帯域信号に関する、音源と各マイクロフォン間の伝達特性は、
【０１２８】
【数７】

と表される。そして、位置Ｐ０にある音源を表す位置ベクトルａ（ω，Ｐ０）を、次式のように、狭帯域信号に関する、音源と各マイクロフォン間の伝達特性を要素とする複素ベクトルとして定義する。
【０１２９】
【数８】

音源位置の推定はＭＵＳＩＣ法（相関行列を固有値分解することで信号部分空間と雑音部分空間を求め、任意の音源位置ベクトルと雑音部分空間の内積の逆数を求めることにより、音源の音波到来方向や位置を調べる手法）を用いて、以下の手順で行う。ｑ番目のマイクロフォン入力の短時間フーリエ変換を
【０１３０】
【数９】

で表し、これを要素として観測ベクトルを次のように定義する。
【０１３１】
【数１０】

ここで、ｎはフレーム時刻のインデックスである。連続するＮ個の観測ベクトルから相関行列を次式により求める。
【０１３２】
【数１１】

この相関行列の大きい順に並べた固有値を
【０１３３】
【数１２】

とし、それぞれに対応する固有ベクトルを
【０１３４】
【数１３】

とする。そして、音源数Ｓを次式により推定する。
【０１３５】
【数１４】

もしくは、固有値に対する閾値を設け、その閾値を超える固有値の数を音源数Sとするこ
とも可能である。
雑音部分空間の基底ベクトルから行列Ｒｎ（ω）を次のように定義し、
【０１３６】
【数１５】

周波数帯域
【０１３７】
【数１６】

および音源位置推定の探索領域Ｕを
【０１３８】
【数１７】

として、
【０１３９】
【数１８】

を計算する。そして、関数Ｆ（Ｐ）が極大値をとる座標ベクトルを求める。ここでは仮にＳ個の極大値を与える座標ベクトルがＰ１，Ｐ２，・・・，Ｐｓが推定されたとする。次にその各々の座標ベクトルにある音源のパワーを次式により求める。
【０１４０】
【数１９】

そして、２つの閾値Ｆｔｈｒ，Ｐｔｈｒを用意し、各位置ベクトルにおけるＦ（Ｐｓ）とＰ（Ｐｓ）が次の条件を満足するときに、
【０１４１】
【数２０】

連続するＮ個のフレーム時間内の座標ベクトルＰｌにおいて発声があったと判断する。
音源位置の推定処理は連続するＮ個のフレームを１つのブロックとして処理する。音源位置の推定をより安定に行うためには、フレーム数Ｎを増やす、そして／また連続するＮｂ個のブロックの全てで式（３０）の条件が満たされたら発声があったと判断する。ブロック数は任意に設定する。連続するＮフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音源の移動奇跡を捉えることができる。
2．周囲雑音の到来方向推定（遠距離にある音源の音波到来方向の推定）
マイクロフォンアレイから遠距離にある音源の音波が到来する方向を、マイクロフォンアレイで推定する手法について以下に述べる。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。遠距離から到来す
る音波は平面波として観測されると考える。
【０１４２】
図２２は本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。図２２は、例として、任意の位置に配置された３個のマイクロフォンｍ１、ｍ２、ｍ３で、音源から到来した音波を受音する場合を示している。図２２で、点ｃは基準点を示しており、この基準点のまわりで音波の到来方向を推定する。図２２で、平面ｓは、基準点ｃを含む平面波の断面を示している。平面ｓの法線ベクトルｎは、そのベクトルの向きを音波の伝播方向と逆向きとし、次式のように定義する。
【０１４３】
【数２１】

3次元空間中の音源の音波到来方向は２つのパラメータ（θ，φ）で表される。方向（θ
，φ）から到来する音波を各マイクロフォンで受音し、そのフーリエ変換を求めることで受音信号を狭帯域信号に分解し、各受音信号の狭帯域信号毎に利得と位相を複素数として表し、それを要素として狭帯域信号毎に全受音信号分だけ並べたベクトルを音源の位置ベクトルと定義する。以下の処理において、方向（θ，φ）から到来する音波は、前述の位置ベクトルとして表現される。位置ベクトルは具体的に以下のように求められる。ｑ番目のマイクロフォンと平面ｓの間の距離ｒｑを次式により求める。
【０１４４】
【数２２】

距離ｒｑは平面ｓに関してマイクロフォンが音源側に位置すれば正となり、逆に音源と反対側にある場合は負の値をとる。音速をｖとするとマイクロフォンと平面ｓ間の伝播時間Ｔｑは次式で表される。
【０１４５】
【数２３】

平面ｓでの振幅を基準としてそこから距離ｒｑ離れた位置の振幅に関する利得を、狭帯域信号の中心周波数ωと距離ｒｑの関数として次のように定義する。
【０１４６】
【数２４】

平面ｓでの位相を基準としてそこから距離ｒｑ離れた位置の位相差は、次式で表される。
【０１４７】
【数２５】

以上より、平面ｓを基準として、各マイクロフォンで観測される狭帯域信号の利得と位相差は次式で表される。
【０１４８】
【数２６】

Ｑ個のマイクで（θ、φ）方向から到来する音波を観測するとき、音源の位置ベクトルは、各マイクロフォンについて式（２６）に従い求めた値を要素とするベクトルとして次式のように定義される。
【０１４９】
【数２７】

音源の位置ベクトルが定義されたら、音波の到来方向推定は、ＭＵＳＩＣ法を用いて行われる。式（１５）で与えられる行列Ｒｎ（ω）を用い、音波到来方向推定の探索領域Ｉを
【０１５０】
【数２８】

として、
【０１５１】
【数２９】

を計算する。そして、関数Ｊ（θ、φ）が極大値を与える方向（θ、φ）を求める。ここでは仮にＫ個の音源が存在し、極大値を与えるＫ個の音波到来方向（（θ１、φ１），・・・，（θＫ、φＫ））が推定されたとする。次にその各々の音波到来方向にある音源のパワーを次式により求める。
【０１５２】
【数３０】

そして、２つの閾値Ｊｔｈｒ，Ｑｔｈｒを用意し、各到来方向におけるＪ（θｋ，φｋ）とＱ（θｋ，φｋ）が次の条件を満足するときに、
【０１５３】
【数３１】

連続するＮ個のフレーム時間内の到来方向（θｋ，φｋ）において発声があったと判断する。音波の到来方向の推定処理は連続するＮ個のフレームを１つのブロックとして処理する。到来方向の推定をより安定に行うためには、フレーム数Ｎを増やす、そして／また連続するＮｂ個のブロックの全てで式（３１）の条件が満たされたらその方向から音波の到来があったと判断する。ブロック数は任意に設定する。連続するＮフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音波の到来方向の移動奇跡を捉えることができる。
【０１５４】
近距離音源の位置推定結果と遠距離音源の音波到来方向推定結果は、続く発話検出処理や音源分離処理で重要な役割を果たすが、近距離音源と遠距離音源が同時に発生していて、更に、遠距離音源から到来する音波に対して近距離音源のパワーが著しく大きくなるとき、遠距離音源の音波の到来方向推定がうまく行えない場合がある。このような時は、近
距離音源が発生する直前に推定された、遠距離音源の音波の到来方向推定結果を用いるなどして対処する。
3．ユーザーの発話検出
複数の音源が存在している場合、どの音源が認識すべき音声なのかの特定は一般的に難しい。一方、音声を用いたインタフェースを採用するシステムでは、予めシステムのユーザがシステムに対して相対的にどのような位置で発声するかを表すユーザ発声領域を決めておくことができる。この場合、前述の方法でシステムの周囲に音源が複数存在しているとしても、各音源の位置や音波の到来方向を推定できれば、システムが予め想定しているユーザ発声領域に入る音源を選択することで容易にユーザの音声を特定できるようになる。
【０１５５】
式（２０）や式（３１）の条件が満たされることで音源の存在を検出し、更に音源の位置や音波の到来方向の条件が満たされてユーザの発声が検出される。この検出結果は発話区間情報として、後続音声認識処理において重要な役割を果たす。音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。一般的に、発話区間の開始時点がずれると音声認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式（１８）や式（２９）で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができるという利点を持つ。
【０１５６】
例えば、図２３に示すようなユーザの発声領域を定義することができる。図２３は本発明による発話検出処理の機能説明図である。この図では簡単のためにＸ−Ｙ平面のみで表すが、一般的に3次元空間においても同様に任意のユーザ発声領域を定義することができ
る。図２３では、任意の位置に配置された８個のマイクロフォンｍ１〜ｍ８を用いた処理を仮定し、近距離音源の探索領域および遠距離音源の探索領域のそれぞれで、ユーザ発声領域を定義している。近距離音源の探索空間は、（ＰｘＬ，ＰｙＬ）と（ＰｘＨ，ＰｙＨ）の2点を結ぶ直線を対角線とする矩形領域で、その領域内で（ＰＴｘＬ１，ＰＴｙＬ１
）と（ＰＴｘＨ１，ＰＴｙＨ１）、（ＰＴｘＬ２，ＰＴｙＬ２）と（ＰＴｘＨ２，ＰＴｙＨ２）のそれぞれの2点を結ぶ直線を対角線とする２つの矩形領域をユーザー発声領域と
定義している。従って、式（２０）により発声があったと判断された音源位置のなかで、その座標ベクトルが前記ユーザ発声領域内に入っているものを選択することで、近距離に存在する音源の中でユーザー声を特定できる。
【０１５７】
一方、遠距離音源の探索空間は点Ｃを基準として、角度θＬからθＨの方向を探索領域とし、その領域内で角度θＴＬ１からθＴＨ１の領域をユーザーの発声領域と定義している。従って、式（３１）により発声があったと判断された音波の到来方向のなかで、到来方向が前記ユーザ発声領域内に入っているものを選択することで、遠距離に存在する音源の中でユーザ音声を特定できる。
４．音源分離
発話検出された音源の位置推定結果または音波の到来方向推定結果を用いて、ユーザの音声を強調し周囲雑音を抑圧する音源分離処理について以下に説明する。ユーザ音声の発話位置または到来方向は前記発話検出処理により求められている。また、周囲雑音の音源位置または到来方向も既に推定されている。これらの推定結果と式（８）と式（２７）の音源位置ベクトル、そして無指向性雑音の分散を表すσを用いて、行列Ｖ（ω）を次式のように定義する。
【０１５８】
【数３２】

この相関行列の大きい順に並べた固有値を
【０１５９】
【数３３】

とし、それぞれに対応する固有ベクトルを
【０１６０】
【数３４】

とする。
ここで、相関行列Ｖ（ω）には近距離音源Ｓ個と遠距離音源Ｋ個を合わせて（Ｓ＋Ｋ）個の音源が含まれているから、固有値の大きい方から（Ｓ＋Ｋ）の固有値と固有ベクトルを用いて、Ｚ（ω）を次式のように定義する。
【０１６１】
【数３５】

そして、近距離の座標ベクトルＰに居るユーザの音声を強調する分離フィルタＷ（ω）は、次式で与えられる。
【０１６２】
【数３６】

式（３６）の分離フィルタに式（１０）の観測ベクトルを乗じることで座標ベクトルＰに居るユーザの音声ｖ（ω）が得られる。
【０１６３】
【数３７】

この強調されたユーザ音声の波形信号は式（３７）の逆フーリエ変換を計算することで求められる。
【０１６４】
一方、遠距離の方向（θ，φ）に居るユーザの音声を強調する場合の分離フィルタＭ（ω）は次式で与えられる。
【０１６５】
【数３８】

式（３８）の分離フィルタに式（１０）の観測ベクトルを乗じることで方向（θ，φ）に居るユーザの強調音声ｖ（ω）が得られる。
【０１６６】
【数３９】

この強調されたユーザ音声の波形信号は式（３７）の逆フーリエ変換を計算することで求められる。連続するＮフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により移動しているユーザーの強調音声が得られる。
５．音声認識処理
前記音源分離処理は、指向性雑音に対しては有効であるが、無指向性雑音に対してはある程度雑音が残留してしまう。また、突発性雑音のように短時間で発生する雑音に対してもあまり雑音抑圧効果を望めない。そこで、前記音源分離処理により強調されたユーザー音声の認識に、例えば、特願２００３−３２０１８３号「背景雑音歪みの補正処理方法及びそれを用いた音声認識システム」で述べられている特徴補正法を組み込んだ音声認識エンジンを用いることで、残留雑音の影響を軽減する。なお本発明は、音声認識エンジンとして特願２００３−３２０１８３号に限定するものではなく、この他にも雑音に頑健な様々な手法を実装した音声認識エンジンを使用することが考えられる。
【０１６７】
特願２００３−３２０１８３号で述べられている特徴補正法は、音声認識エンジンが予め音声認識のためにテンプレートモデルとして持っているＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）に基づいて雑音重畳音声の特徴量補正を行う。ＨＭＭは雑音のないクリーン音声から求めたＭｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ（ＭＦＣＣ）に基づいて学習されている。このため、特徴補正のために新たにパラメータを用意する必要がなく、既存の認識エンジンに比較的容易に特徴補正法を組み込むことができるという利点がある。この手法は雑音を定常成分と一時的に変化を示す非定常成分に分けて考え、定常成分に関しては発話直前の数フレームから雑音の定常成分を推定する。
【０１６８】
ＨＭＭが持っている分布のコピーを生成し、推定した雑音の定常成分を加えることで定常雑音重畳音声の特徴量分布を生成する。観測された雑音重畳音声の特徴量の事後確率を、この定常雑音重畳音声の特徴量分布で評価することで、雑音の定常成分による歪を吸収する。しかし、この処理だけでは雑音の非定常成分による歪が考慮されていないので、雑音の非定常成分が存在する場合には、前記手段で求めた事後確率は正確ではなくなる。一方、特徴補正にＨＭＭを用いることで、特徴量時系列の時間的構造とそれに沿って求め
られる累積出力確率が利用可能となる。この累積出力確率から算出される重みを前述の事後確率に付与することにより、雑音の一時的に変化する非定常成分により劣化した事後確率の信頼度を改善することが出来る。
【０１６９】
音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。特に、前記特徴補正を組み込んだ音声認識エンジンは、発話開始直前の数フレームか
ら周囲雑音の定常的な特徴を推定するので、発話区間の開始時点がずれると認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式（１８）や式（２９）で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができる。
【０１７０】
以上、本発明の情報処理装置によれば、雑音がある環境下でもユーザーの３次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示することが可能となる。
【０１７１】
また、本発明の情報処理装置によれば、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【図面の簡単な説明】
【０１７２】
【図１】本発明の実施の形態に係る情報処理装置の外観を斜視的に示す図である。
【図２】本発明の実施の形態に係る情報処理装置に用いられるインターフェイス装置の外観を斜視的に示す図である。
【図３】本発明の実施の形態に係る情報処理装置のブロック構成を示す図である。
【図４】本発明の実施の形態に係るインターフェイス装置の利用形態例を示す図である。
【図５】本発明の実施の形態に係るインターフェイス装置の処理のフローチャートを示す図である。
【図６】本発明の第１実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図７】本発明の第１実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図８】本発明の第１実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図９】本発明の第２実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図１０】本発明の第２実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図１１】本発明の第３実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図１２】本発明の第３実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図１３】本発明の第４実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図１４】本発明の第４実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図１５】本発明の第５実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図１６】本発明の第６実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図１７】本発明の第６実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図１８】本発明の第７実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図１９】本発明の第８実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図２０】本発明の第８実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図２１】本発明の第９実施の形態に係る情報処理装置におけるディスプレイ部での表示例を示す図である。
【図２２】本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。
【図２３】本発明による発話検出処理の機能説明図である。
【符号の説明】
【０１７３】
１０・・・情報処理装置、２０・・・コンピュータ本体部、３０・・・ディスプレイ部、３１・・・ウインドウ、１００・・・インターフェイス装置、２００・・・マイクロフォンアレイ、２０１・・・シリコンマイク、２０２・・・ウインドスクリーン、２１０・・・スタンド、２１１・・・主支柱、２１２・・・左側支柱、２１３・・・右側支柱、２８０・・・マイクアンプ、２９０・・・ＡＤ変換部、３００・・・ＣＰＵ、４００・・・記憶部、５００・・・接続ポート部

【特許請求の範囲】
【請求項１】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発声位置特定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記発声位置特定手段によって特定された発声位置に応じて、前記表示手段上に表示されるカーソル位置の変更を行うように制御することを有することを特徴とする情報処理装置。
【請求項２】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示態様を変更するように制御することを特徴とする情報処理装置。
【請求項３】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における拡大表示実行又は拡大表示解除の別を変更するように制御することを特徴とする情報処理装置。
【請求項４】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示の拡大率を変更するように制御することを特徴とする情報処理装置。
【請求項５】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を３次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段に表示されるカーソルの移動量の変更を行うように制御することを有することを特徴とする情報処理装置。
【請求項６】
前記表示制御手段は、前記表示手段における表示の拡大率の変更に伴い、前記表示手段に表示されるカーソルの移動量を変更することを特徴とする請求項３又は請求項４に記載の情報処理装置。
【請求項７】
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の音量を特定する音量特定手段、を有し、
前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記音量特定手段によって特定された音量又は音量の対数値に比例させるように制御することを特徴とする請求項６に記載の情報処理装置。
【請求項８】
前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記発声位置特定手段によって特定された発声位置と所定線分との間の距離に比例させるように制御することを特徴とする請求項６に記載の情報処理装置。
【請求項９】
前記表示制御手段は、前記発声位置特定手段によって特定された発声位置を前記表示手段に表示するように制御することを特徴とする請求項１乃至請求項８に記載の情報処理装置。

【図１】