情報処理装置
【課題】手が使用できないような環境で、音声や呼気によって小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことを可能とする。
【解決手段】複数のマイクロフォンが所定配置で設けられているマイクロフォンアレイで取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定すると共に、ユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発生位置特定手段、前記継続時間が所定時間より長いか否かを判定する手段、およびユーザーに対する表示を行う表示制御手段とを有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、ディスプレイ上の表示態様を変更するように制御する。
【解決手段】複数のマイクロフォンが所定配置で設けられているマイクロフォンアレイで取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定すると共に、ユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発生位置特定手段、前記継続時間が所定時間より長いか否かを判定する手段、およびユーザーに対する表示を行う表示制御手段とを有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、ディスプレイ上の表示態様を変更するように制御する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、3次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示する情報処理装置に関する。
【背景技術】
【0002】
コンピュータへの入力手段としてキーボードやマウスなどが広く用いられている。いずれも手を用いて操作することが前提になっているため、手に不自由がある身体障害者がコンピュータへアクセスすることの障害となっている。手を用いない入力手段として、「目線」、「舌」、「音声」などを利用するものがある。「目線」を利用する手法はヘッドマウント型のデバイスを用いるため、手の不自由な方が自力で装着するのが困難という問題がある。「舌」を用いた手法では口腔内にセンサを入れて使用するため、デバイス装着時の困難に加え衛生的な問題もある。「音声」を用いた手法では卓上に置かれたマイクロフォンに向かって話すことによりセンサ類を装着する必要はなくなるが、音声認識が可能な程度の明瞭な音声コマンドを発声できることが前提条件となっている。
【0003】
マウス操作など手による操作が困難で、かつ音声認識が出来るほどの明瞭な音声コマンドの発声が困難な方を対象として、音声や呼気音などの発声位置をマイクロフォンアレイ処理で特定する音声ポインティングデバイスの開発が行われている。例えば、特許文献1(特開2004−280301号公報)では、マイクロフォンアレイに呼気を吹きかけながら口先または顔を移動させることで、カーソルを操作する音声ポインティングデバイスとそれを用いたインターフェイスの開発事例が公開されている。これは、平面上に配列したマイクロフォンアレイ上で検出した入力音の2次元的な位置情報に基づいてカーソルの移動方向を決定し、入力音の強度でカーソル移動の速さを制御する仕様となっている
また、特許文献2(特開2007−228135号公報)では、雑音に対する頑健性を高めた音声ポインティングデバイスを開発し、ユーザが進みたい方向を向いて音声、呼気音、または口笛などの音をたてることで、進行方向の指示が可能な電動車いすの開発を行っている。電動車いすの例では、ポインティングデバイスのセンサ部である2つのマイクロフォンアレイを左右の肘掛先端に実装することで、音源の2次元的な位置を推定している。
【特許文献1】特開2004−280301号公報
【特許文献2】特開2007−228135号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載された手法のようにカーソル移動の速さを入力音の強度だけで入力操作を行うと、特に、小さなアイコンやボタンへのカーソル移動など細かな入力が困難となる。また、周囲雑音の干渉に弱いため、雑音のある一般的な環境下での実用性は低かった。
【0005】
ところで、発明者は、ポインティングデバイスを卓上で使えるように小型化し、かつ3次元的な音源位置の推定も高精度に行えるように3軸マイクロフォンアレイの構成とした、3次元音声ポインティングデバイスの開発を既に行っている。このような発明者の開発した3次元音声ポインティングデバイスを用いることで、雑音に対する脆弱性の問題を回避することができた。
【0006】
しかし、このような3次元音声ポインティングデバイスを用いても、小さなアイコンやボタンへのカーソル移動など細かなコントロールが困難という問題点に関しては、インタ
ーフェイスの改善の余地が大いに残されている。
【0007】
以上のような従来技術の問題点を鑑み、本発明では、雑音がある環境下でもユーザーの3次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示する情報処理装置を提供し、なおかつ、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことを可能とする情報処理装置を提供することである。
【課題を解決するための手段】
【0008】
上記課題を解決するために、請求項1に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記発声位置特定手段によって特定された発声位置に応じて、前記表示手段上に表示されるカーソル位置の変更を行うように制御することを有することを特徴とする情報処理装置である。
【0009】
また、請求項2に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示態様を変更するように制御することを特徴とする情報処理装置である。
【0010】
また、請求項3に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における拡大表示実行又は拡大表示解除の別を変更するように制御することを特徴とする情報処理装置である。
【0011】
また、請求項4に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示の拡大率を変更するように制御することを特徴とする情報処理装置である。
【0012】
また、請求項5に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイ
クロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段に表示されるカーソルの移動量の変更を行うように制御することを有することを特徴とする情報処理装置である。
【0013】
また、請求項6に係る発明は、請求項3又は請求項4に記載の情報処理装置において、前記表示制御手段は、前記表示手段における表示の拡大率の変更に伴い、前記表示手段に表示されるカーソルの移動量を変更することを特徴とする。
【0014】
また、請求項7に係る発明は、請求項6に記載の情報処理装置において、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の音量を特定する音量特定手段、を有し、前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記音量特定手段によって特定された音量又は音量の対数値に比例させるように制御することを特徴とする。
【0015】
また、請求項8に係る発明は、請求項6に記載の情報処理装置において、前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記発声位置特定手段によって特定された発声位置と所定線分との間の距離に比例させるように制御することを特徴とする。
【0016】
また、請求項9に係る発明は、請求項1乃至請求項8に記載の情報処理装置において、前記表示制御手段は、前記発声位置特定手段によって特定された発声位置を前記表示手段に表示するように制御することを特徴とする。
【発明の効果】
【0017】
本発明の情報処理装置によれば、雑音がある環境下でもユーザーの3次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示することが可能となる。
【0018】
また、本発明の情報処理装置によれば、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【発明を実施するための最良の形態】
【0019】
以下、本発明の実施の形態を図面を参照しつつ説明する。
図1は本発明の実施の形態に係る情報処理装置の外観を斜視的に示す図であり、図2は本発明の実施の形態に係る情報処理装置に用いられるインターフェイス装置の外観を斜視的に示す図であり、図3は本発明の実施の形態に係る情報処理装置のブロック構成を示す図である。
【0020】
図1及び図2において、10は情報処理装置、20はコンピュータ本体部、30はディスプレイ部、100はインターフェイス装置、200はマイクロフォンアレイ、201はシリコンマイク、202はウインドスクリーン、210はスタンド、211は主支柱、212は左側支柱、213は右側支柱、280はマイクアンプ、290はAD変換部、300はCPU、400は記憶部、500は接続ポート部をそれぞれ示している。
【0021】
情報処理装置10は、マウスなどの入力用ポインティングデバイスの代替となるインタ
ーフェイス装置100と、インターフェイス装置100からの入力を受けこれに基づいて演算処理などを行うコンピュータ本体部20と、コンピュータ本体部20からの出力をユーザーのために表示するディスプレイ部30とから主として構成されている。コンピュータ本体部20は、CPU(不図示)とCPU上で動作するプログラムを保持するROM(不図示)やHDD(不図示)、CPUのワークエリアとして機能するRAM(不図示)、他の機器と接続するためのインターフェイス手段(不図示)などからなる汎用の情報処理機構であり、例えば汎用のパーソナルコンピュータを用いることができる。また、特許請求の範囲において「表示制御手段」として表現される構成は、コンピュータ本体部20のCPUとCPU上で動作するプログラムとビデオRAM(不図示)などによって実現されるものである。このようなコンピュータ本体部20の構成や動作については、いずれも周知であるので詳述を避ける。また、特許請求の範囲において「表示手段」として記載されている構成はディスプレイ部30である。このディスプレイ部30についても一般的なものを用いることができる。なお、コンピュータ本体部20としては、汎用のパーソナルコンピュータなどを用いることができるが、これに限らず、その他の種々のコンピュータを用いることができる。
【0022】
以下、本発明に係る情報処理装置10において、特徴的なインターフェイス装置100について詳しく説明する。図2はインターフェイス装置100のユーザーインターフェイス部の構成を示しており、図示するようなユーザーの鼻腔・口腔から発せられた音に基づいて、コンピュータなどに対する入力デバイスとして機能するものである。なお、このようなインターフェイス装置100は、コンピュータに対する入力用途のみならず、電気製品や車両に対する入力用途にも用いることが可能である。
【0023】
インターフェイス装置100の外観は、スタンド210上に立設された主支柱211と、主支柱211から左右に枝分かれし、左側支柱212と右側支柱213と、それぞれの支柱に設けられたマイクロフォン群とから構成されており、卓上に設置が可能なようになっている。より具体的には、これら主支柱211、左側支柱212、右側支柱213のそれぞれに3cm間隔でシリコンマイク201が不図示の基板上に設けられており、計12個のマイクロフォン群からマイクロフォンアレイ200が構成されている。なお、本実施形態に係るインターフェイス装置100においては、シリコンマイク201が12個用いられたものに基づいて説明するが、シリコンマイク201の数は3個以上で構成すればよく、本発明が12個のシリコンマイク201の使用に限定されるものではない。なお、シリコンマイク201の数が少ないと耐雑音性が悪化するし、また、シリコンマイク201の数が多いと音声データの処理負荷が重くなるので、本実施形態では先に述べたようにマイクロフォンアレイ200を12個のシリコンマイク201で構成している。また、シリコンマイク201には、3mm×5mm程度の小型シリコンマイクを採用している。
【0024】
それぞれの支柱に配された4つのシリコンマイク201は、ウインドスクリーン202によって覆われており、風きり音が入力されるのを伏せいている。また、左側支柱212に配されたマイクロフォン群、右側支柱213に配されたマイクロフォン群は略「ハ」の字のレイアウトとなるように配置されており、主支柱211に配されたマイクロフォン群は垂直に配置されている。
【0025】
図3はインターフェイス装置100を含むブロック構成が示される図である。12個のシリコンマイク201から構成されるマイクロフォンアレイ200の出力は、マイクアンプ280で増幅されAD変換部290でアナログ−デジタル変換された後、CPU300に入力されるようになっている。記憶部400は、CPU300上で動作するプログラムを保持するROMや、CPU300のワークエリアとして機能するRAMから構成されている。この記憶部400に記憶されているプログラムに基づいてCPU300が動作することによって、本発明のインターフェイス装置100として機能する。
【0026】
なお、特許請求の範囲に記載されている「継続時間特定手段」、「発声位置特定手段」、「継続時間判定手段」、「音量特定手段」、などの各手段は、記憶部400に記憶されているプログラムに基づいて動作するCPU300によって実現されるものである。
【0027】
また、記憶部400には、後述するイベントデータベースが記憶保持されている。接続ポート部500は、コンピュータ本体部20などの他の機器と接続するためのインターフェイス手段であり、USBなどの周知のものを利用することができる。
【0028】
以上のように構成されるインターフェイス装置100の利用形態について説明する。なお、以下に種々の実施形態を個別的に説明するが、それぞれの実施形態は記憶部400に記憶させるプログラムを変更することによってそれぞれ実現することができる。また、以下に個別的に説明する種々の実施形態を任意に組み合わせて構成したインターフェイス装置も、本実施形態のインターフェイス装置に含まれるものである。
【0029】
図4は本発明の実施の形態に係るインターフェイス装置の利用形態例を示す図である。本実施形態に係るインターフェイス装置100では、インターフェイス装置100を用いて、3次元空間内で推定された発声位置がどの領域に属すかを特定するものである。
【0030】
なお、以下、「発声」という語には、ユーザーの鼻口腔から発せられた全ての種類の音が含まれるものとする。ユーザーの鼻口腔から発せられた音には、例えば、舌打ちの音なども含まれるものであるが、一般的な利用としては、ユーザーの「シュッ」、「パッ」などの短い発声音や「シュー」、「アー」などの継続する継続的発声音が想定される。
【0031】
図4に示す実施形態においては、ユーザーの発声検出領域Rを定義し、この発声検出領
域の中のユーザーの発声のみを検出するようにして、発声検出領域R外からの音は雑音と
して処理する。
【0032】
そして、定義されたユーザーの発声検出領域Rの中で、発声がどの位置からなされたの
かが特定される。このような特定を行う構成は、特許請求の範囲において「発声位置特定手段」として表現されている。
【0033】
また、後述するように発声検出領域Rの中は、仮想的な空間に領域に分割する。そして
、仮想的に分割された空間の中で、発声がどの空間内で発声があったのかに係る情報が利用される。
【0034】
また、定義されたユーザーの発声検出領域の中で、発声の開始から終了までの継続時間が特定される。すなわち、ユーザーの「シュッ」、「パッ」などの短い発声音と、「シュー」、「アー」などの継続する継続的発声音との別が特定される。このような特定を行う構成は、特許請求の範囲において「継続時間特定手段」として表現されている。
【0035】
また、定義されたユーザーの発声検出領域の中で、ユーザーの発声の音量の特定が行われる。このような特定を行う構成は、特許請求の範囲において「音量特定手段」として表現されている。
【0036】
以上のような実施形態におけるインターフェイス装置の処理について説明する。図5は本発明の実施の形態に係るインターフェイス装置の処理のフローチャートを示す図である。
【0037】
ステップS100で、処理が開始されると、次にステップS101に進み、マイクロフ
ォンアレイ200から音声データの取り込みが行われる。このステップではより具体的には、マイクロフォンアレイ200から出力される音声のアナログ信号をマイクアンプ280で増幅した後、AD変換部290でデジタル信号に変換し、記憶部400に一時記憶する。
【0038】
次のステップS102では、ユーザー発声位置と周囲雑音到来方向の3次元的な情報の特定を行う。より詳細には、本願の発明者らによる特開2007−228135号公報、特開2008−67854号公報、特願2006−240721号の明細書、図面に記載の手法を用いて、ユーザーの発声位置と周囲雑音到来方向を3次元空間内で特定する。
【0039】
次に、ステップS103では、ユーザーの発声があるか否かが判定される。このステップでは、特願2006−240721号に記載の手法を用いてユーザーの発声を検出し、もしユーザーの発声が検出されなければ、ステップS101から繰り返す。もしユーザーの発声が検出されればステップS104へ進む。
【0040】
ステップS104では、周囲雑音の抑制を実行する。このステップでは、特願2006−240721号に記載の手法を用いて周囲雑音を抑圧しユーザーの発声を強調する音源分離処理を行う。
【0041】
ステップS105では、ユーザーの発声の継続時間の特定が行われる。すなわち、このステップでは、ユーザーの発声の継続音の開始から終了までの時間を特定する処理を行う。
【0042】
ステップS106では、3次元的な発声位置の特定を行う。より具体的には、3次元空間内で推定された発声位置がどの領域に属すかを特定する。例えば、図3示すようにユーザーの発声検出領域を定義し、更にその発声検出領域を8つの領域に分割する。そして、その8つの分割領域の中で、発声がどの領域内で検出されたかを特定する。
【0043】
ステップS107では、ユーザーの発声の発声音量の特定が行われる。音の大きさを表すパワーなどの音量に相当するパラメータを計測することによって行う。
【0044】
ステップS108では、イベント特定処理のサブルーチンが実行される。記憶部400に保持されるイベントデータベースには、例えば、発声継続時間、発声検出位置、発声音量などに応じたイベントが記憶されている。すなわち、発声継続時間、発声検出位置、発声音量などとイベントとの組み合わせが定義されて、当該イベントデータベースに保持されるようになっている。イベント特定処理では、このイベントデータベースの情報が参照される。
【0045】
イベントデータベースには、例えば、図3の上段手前の左側の領域で短時間の発声として定義したイベントがあらかじめ登録されている。そして、ステップS106のイベントの特定処理では、発声位置が前述の位置になっているかを判断し、発声継続時間があるしきい値以下であるかを判断し、発声が所定の発声音量以上であるかなどを判断し、全ての条件が適合したときにそのイベントが発生したと判断する。
【0046】
ステップS109では、該当イベントがあるかが判定される。ステップS108で、イベントデータベースに適合するイベントが検出されたかどうかを調べ、もしイベントが一つも検出されなければ、ステップS101へ戻る。もし、イベントが検出された場合は、ステップS110へ進む。
【0047】
ステップS110では、コンピュータ本体部20に対して、イベント検出信号を送信す
る。
【0048】
アプリケーション側の典型的な処理が点線の囲み中に示されている。以下、アプリケーション側で想定される典型的な処理について説明する。ステップS201では、本発明のインターフェイス装置から送られるイベント検出信号の受信を待ち続ける。もし、イベント検出信号を受信した場合は、ステップS202へ移る。ステップS202では、受信したイベント検出信号に対応した適切な処理を実行する。そして、ステップS201へ戻る。
【0049】
インターフェイス装置100では、例えば、手前、左上の分割領域での発声が検出された場合には、マウスの左クリックに相当するイベント検出信号を生成し、コンピュータ本体部20側に送信する。このようなイベント検出信号を受信したコンピュータ本体部20は、ステップS202でマウスの左クリックに相当する処理を実行する。
【0050】
このように本実施形態の情報処理装置によれば、雑音がある環境下でもユーザーの呼気音や発声の発声位置などが3次元的に特定され、特定された事項に応じた処理をコンピュータ本体部20側で実行することができるようになる。
【0051】
次に、ステップS108におけるサブルーチン処理の第1実施形態について説明する。図6は本発明の第1実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図7は本発明の第1実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図であり、図8は本発明の第1実施の形態
に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【0052】
図6において、ステップS300で、イベント特定処理のサブルーチンが開始されると、次に、ステップS301に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。
【0053】
ステップS301の判定結果YESであるときにはステップS302に進み、判定結果NOであるときにはステップS304に進む。
【0054】
ステップS302では、仮想空間Aに基づいてイベントの特定を行うようにする。このような仮想空間Aは、図7に示されるようなものである。仮想空間Aは、A1、A2、A3
、A4の4つの空間に分割されており、それぞれ空間で発声があった場合には、一般的な
十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、A1の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上」に相
当するイベント検出信号が生成される訳である。
【0055】
ステップS303では、発声音量(又はその対数値)に比例したカーソル移動量を特定する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部30では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。例えば、A1の領域内でユーザーが、比較的大きな声で長く「シュー」と発音
すると、十字キーの「上」の方向に速くカーソルが移動するようなイベント検出信号が生成される。
【0056】
ステップS304では、仮想空間Bに基づいてイベントの特定を行うようにする。このような仮想空間Bは、図8に示されるようなものである。仮想空間Bは、B1、B2の2つ
の空間に分割されており、それぞれ空間で発声があった場合には、一般的なマウスの「右クリック」、「左クリック」に相当するイベントとして定義されている。例えば、B1の
領域内でユーザーが短く「シュッ」と発音すると、マウスの「右クリック」に相当するイベント検出信号が生成される訳である。
【0057】
ステップS305では、上記のように左クリックか右クリックかが特定される。
【0058】
ステップS306ではリターンする。
【0059】
上記のようにインターフェイス装置100で生成されたイベント検出信号によって、コンピュータ本体部20はディスプレイ部30における表示を制御する。すなわち、例えばA1の領域内でユーザーが長く「シュー」などと発音すると、ディスプレイ部30におい
てカーソルが上方向に移動するように表示制御がされる。また、B1の領域内でユーザー
が短く「シュッ」などと発音すると、ディスプレイ部30において、マウスの右クリックに相当するような表示制御がされる。
【0060】
なお、上記の実施形態においては、仮想空間Aは、A1、A2、A3、A4の4つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、A1とA3との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置100で生成し、ディスプレイ部30においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、X−Y平面の原点の真上で発声が検出されたらカーソルは上へ移動し、右上45°の方向で発声が検出されたらカーソルは右上45°の方向に移動するように表示制御する。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分(O−O’)からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【0061】
このような本発明の情報処理装置によれば、雑音がある環境下でもユーザーの3次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示することが可能となる。
【0062】
次に、本発明の第2実施形態について説明する。図9は本発明の第2実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図10は本発明の第2実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空
間例を示す図である。
【0063】
ステップS400において、イベント特定処理のサブルーチンが開始されると、次に、ステップS401に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。
【0064】
ステップS402では、仮想空間Aに基づいてイベントの特定を行うようにする。このような仮想空間Aは、図7に示されるようなものである。仮想空間Aは、A1、A2、A3
、A4の4つの空間に分割されており、それぞれ空間で発声があった場合には、一般的な
十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、A1の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上」に相
当するイベント検出信号が生成される訳である。
【0065】
ステップS403では、発声音量(又はその対数値)に比例したカーソル移動量を特定する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部30では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。
【0066】
ステップS304では、仮想空間Cに基づいてイベントの特定を行うようにする。このような仮想空間Cは、図8に示されるようなものである。仮想空間Cは、C1、C2、C3
の3つの空間に分割されており、それぞれ空間で発声があった場合には、一般的なマウスの「右クリック」、「左クリック」、「拡大表示の実行/解除」に相当するイベントとして定義されている。例えば、C1の領域内でユーザーが短く「シュッ」と発音すると、マ
ウスの「右クリック」に相当するイベント検出信号が生成される訳である。また、C3の
領域内でユーザーが短く「シュッ」と発音すると、カーソル近傍の表示の拡大表示を実行したり、或いは拡大表示を解除したりするコマンドに相当するイベント検出信号が生成される訳である。
【0067】
本実施形態では、このようなイベント検出信号が、コンピュータ本体部20側に送信され、それに基づいて、コンピュータ本体部20がディスプレイ部30の表示制御を行うようになっているので、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となるのである。
【0068】
ステップS405では、上記のように左クリックか右クリックか拡大表示の実行/解除かが特定される。
【0069】
ステップS406ではリターンする。
【0070】
上記のようにインターフェイス装置100で生成されたイベント検出信号によって、コンピュータ本体部20はディスプレイ部30における表示を制御する。すなわち、C3の
領域内でユーザーが短く「シュッ」などと発音すると、ディスプレイ部30においてカーソル近傍の表示の拡大表示を実行したり、或いは拡大表示を解除したりする表示制御がなされる。つまり、C3の領域内でユーザーの短時間の発声が、拡大表示ON・OFFのト
グルスイッチのような役割を果たし、ユーザーはこのようなスイッチ機能によって、必要に応じて拡大表示を行い、細かい入力作業を実行することができるようになる。これにより、本発明の情報処理装置10では、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【0071】
なお、上記の実施形態においては、仮想空間Aは、A1、A2、A3、A4の4つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能であることは先に述べた通りである。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分(O−O’)からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【0072】
次に、本発明の第3実施形態について説明する。図11は本発明の第3実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図12は本発明の第3実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【0073】
図11において、ステップS500で、イベント特定処理のサブルーチンが開始されると、次に、ステップS501に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。本実施形態においても、まずユーザーの発声継続音の長短によって、発声検出領域R中で用いる仮想空間を異なるものとするように処理する。
【0074】
ステップS501の判定結果YESであるときにはステップS502に進み、判定結果NOであるときにはステップS506に進む。
【0075】
ステップS502では、仮想空間Dに基づいてイベントの特定を行うようにする。このような仮想空間Dは、図12に示されるようなものである。仮想空間Dは、D1、D2、D3、D4、D5の5つの空間に分割されており、それぞれ空間で発声があった場合には、一
般的な十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、D1の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上
」に相当するイベント検出信号が生成される訳である。また、発声検出領域Rの奥側に設
定されたD5の領域は、ディスプレイ部30における表示の拡大率をユーザーが変更可能
なように設けられた空間である。そして、拡大率の変更においては、PQRS平面と発声位置と間の距離に応じて拡大率が設定されるようにしている。領域D5において、PQR
S平面と発声位置とが近ければ近いほど、拡大率が大きくなるように設定し、PQRS平面と発声位置とが近ければ近いほど、拡大率が小さくなるように設定すると、入力デバイスとして直感的に用いることが可能である。例えば、D5の領域内でユーザーが長く「シ
ュー」と発音しながら、長い発声で近づくと拡大率が大きくなるようなイベント検出信号がインターフェイス装置100によって生成され、これをコンピュータ本体部20に送信し、ディスプレイ部30における表示の拡大率を大きくするように表示制御させる。
【0076】
ステップS503では、発声位置がD1,D2,D3,D4内であるか否かが判定される。ステップS503の判定結果がYESであるときにはステップS504に進み、判定結果がNOであるときにはステップS505に進む。
【0077】
ステップS504では、発声音量(又はその対数値)に比例したカーソル移動量を特定する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部30では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。例えば、D1の領域内でユーザーが、比較的大きな声で長く「シュー」と発音
すると、十字キーの「上」の方向に速くカーソルが移動するようなイベント検出信号が生成される。
【0078】
ステップS505では、先に述べたような方法―PQRS平面と発声位置とが近ければ近いほど、拡大率が大きくし、PQRS平面と発声位置とが近ければ近いほど、拡大率が小さくする―で、拡大率の特定を行う。
【0079】
ステップS506では、仮想空間Bに基づいてイベントの特定を行うようにする。このような仮想空間Bは、図8に示されるようなものである。仮想空間Bは、B1、B2の2つの空間に分割されており、それぞれ空間で発声があった場合には、一般的なマウスの「右クリック」、「左クリック」に相当するイベントとして定義されている。例えば、B1
の領域内でユーザーが短く「シュッ」と発音すると、マウスの「右クリック」に相当するイベント検出信号が生成される訳である。
【0080】
ステップS507では、上記のように左クリックか右クリックかが特定される。
【0081】
ステップS508ではリターンする。
【0082】
上記のようにインターフェイス装置100で生成されたイベント検出信号によって、コンピュータ本体部20はディスプレイ部30における表示を制御する。すなわち、D5の
領域内でユーザーが長く「シュー」などと発音しながら、PQRS平面に近づけば近づくほど、ディスプレイ部30での表示の拡大率が大きくなり、D5の領域内でユーザーが長
く「シュー」などと発音しながら、PQRS平面から離れれば離れるほど、ディスプレイ部30での表示の拡大率が小さくなるように、表示制御がなされるようになっている。ユーザーはこのような拡大率の変更機能によって、必要に応じて拡大表示を行い、細かい入力作業を実行することができるようになる。これにより、本発明の情報処理装置10では、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【0083】
なお、上記の実施形態においては、仮想空間Dは、D1、D2、D3、D4の4つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、D1とD3との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置100で生成し、ディスプレイ部30においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、X−Y平面の原点の真上で発声が検出されたらカーソルは上へ移動し、右上45°の方向で発声が検出されたらカーソルは右上45°の方向に移動するように表示制御する。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分(O−O’)からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【0084】
次に、本発明の第4実施形態について説明する。図13は本発明の第4実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図14は本発明の第4実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【0085】
図13において、ステップS600で、イベント特定処理のサブルーチンが開始されると、次に、ステップS601に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。本実施形態においても、まずユーザーの発声継続音の長短によって、発声検出領域R中で用いる仮想空間を異なるものとするように処理する。
【0086】
ステップS601の判定結果YESであるときにはステップS602に進み、判定結果NOであるときにはステップS604に進む。
【0087】
ステップS602では、仮想空間Aに基づいてイベントの特定を行うようにする。このような仮想空間Aは、図7に示されるようなものである。仮想空間Aは、A1、A2、A3
、A4の4つの空間に分割されており、それぞれ空間で発声があった場合には、一般的な
十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、A1の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上」に相
当するイベント検出信号が生成される訳である。
【0088】
ステップS603では、発声音量(又はその対数値)に比例したカーソル移動量を特定
する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部30では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。例えば、A1の領域内でユーザーが、比較的大きな声で長く「シュー」と発音
すると、十字キーの「上」の方向に速くカーソルが移動するようなイベント検出信号が生成される。
【0089】
ステップS604では、仮想空間Eに基づいてイベントの特定を行うようにする。このような仮想空間Eは、図14に示されるようなものである。仮想空間EはE1、E2、E3
、E4、E5、E6の6つの空間に分割されており、E1、E2の領域で発声があった場合に
は、一般的なマウスの「右クリック」、「左クリック」に相当するイベントとして定義されている。例えば、E1の領域内でユーザーが短く「シュッ」と発音すると、マウスの「
右クリック」に相当するイベント検出信号が生成される訳である。
【0090】
また、奥側において4つに分割されている空間領域のE3、E4、E5、E6のそれぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」に相当し、かつ、カーソルの移動量を微少量とするイベントとして定義されている。例えば、E3の領域内でユーザーが短く「シュッ」と発音すると、「上」への微少量のカーソル移動
に相当するイベント検出信号が生成される訳である。このようなイベント検出信号によれば、ディスプレイ部30では、カーソルが微小移動するような表示制御がなされる。すなわち、ユーザーは必要に応じて、空間領域のE3、E4、E5、E6の短い発声を行うことにより、カーソルの細かい移動を実行することができるようになる。
【0091】
ステップS605においては、発声位置がE1,E2内であるか否かが判定される。ステップS605における判定結果がYESであるときにはステップS606に進み、判定結果がNOであるときにはステップS607に進む。
【0092】
ステップS606では、上記のように左クリックか右クリックかが特定される。
【0093】
また、ステップS607では、先に述べたように十字の方向別で微小量のカーソル移動が特定される。
【0094】
ステップS608でリターンする。
【0095】
上記のようにインターフェイス装置100で生成されたイベント検出信号によって、コンピュータ本体部20はディスプレイ部30における表示を制御する。すなわち、特に本実施形態においては、奥側において4つに分割されている空間領域のE3、E4、E5、E6のそれぞれ空間で短い発声があった場合には、カーソルの移動量が微量になるように表示制御がなされるものであり、ユーザーは必要に応じて、空間領域のE3、E4、E5、E6の短い発声を行うことにより、カーソルの細かい移動を実行することができるようになる。これにより、本発明の情報処理装置10では、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【0096】
なお、上記の実施形態においては、仮想空間Aは、A1、A2、A3、A4の4つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、A1とA3との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置100で生成し、ディスプレイ部30においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、X−Y平面の原点の真上で発声が検出されたらカーソルは上へ
移動し、右上45°の方向で発声が検出されたらカーソルは右上45°の方向に移動するように表示制御する。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分(O−O’)からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【0097】
また、上記の実施形態においては、仮想空間Eの奥側においては、E3、E4、E5、E6の4つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、E3とE5との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置100で生成し、ディスプレイ部30においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、X−Y平面の原点の真上で発声が検出されたらカーソルは上へ移動し、右上45°の方向で発声が検出されたらカーソルは右上45°の方向に移動するように表示制御する。
【0098】
次に、本発明の第5実施形態について説明する。図15は本発明の第5実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。本実施形態は、第2実施形態の変形例であり、図9に示すフローチャートのステップS403がステップS403’に変更されたものである。そこで、このステップを中心に説明する。
【0099】
第5実施の形態に係るインターフェイス装置のサブルーチン処理のステップS403’においては、カーソル移動量を特定する際には、発声音量(又はその対数値)に比例し、なおかつ、拡大率に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が2倍となると、例えば、カーソルの移動量は1/2となるように設定されている。
【0100】
この実施形態では、カーソルを大局的な範囲で大きく移動させる場合は、画面の拡大率を等倍として、小さく移動する場合は拡大率を上げて表示するが、画面を拡大した時にカーソルの移動量が拡大前と同じままでは、拡大画面内をカーソルが大きく移動してしまい操作が困難となる。そこで、これを避けるために、拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにする。例えば、2倍表示の場合には実際のカーソルの移動量が2分の一になる。小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくする。
【0101】
次に、本発明の第6実施形態について説明する。図16は本発明の第6実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図17は本発明の第6実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【0102】
本実施形態は、第2実施形態の変形例であり、図9に示すフローチャートのステップS403がステップS403’ ’に変更されたものである。そこで、このステップを中心
に説明する。
【0103】
第6実施の形態に係るインターフェイス装置のサブルーチン処理のステップS403’
’においては、カーソル移動量を特定する際には、距離dに比例し、なおかつ、拡大率
に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が2倍となると、例えば、カーソルの移動量は1/2となるように設定されている。
【0104】
この実施形態では、カーソルの移動量は、分割された領域の境界部に存在する所定の線
分(O−O’)からの距離dに比例して決定する。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。
【0105】
また、拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにすることで、小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくすることが可能となる。
【0106】
次に、本発明の第7実施形態について説明する。図18は本発明の第7実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。本実施形態は、第3実施形態の変形例であり、図11に示すフローチャートのステップS504がステップS504’に変更されたものである。そこで、このステップを中心に説明する。
【0107】
第7実施の形態に係るインターフェイス装置のサブルーチン処理のステップS504’においては、カーソル移動量を特定する際には、発声音量(又はその対数値)に比例し、なおかつ、拡大率に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が2倍となると、例えば、カーソルの移動量は1/2となるように設定されている。このように拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにすることで、小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくすることが可能となる。
【0108】
次に、本発明の第8実施形態について説明する。図19は本発明の第8実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図20は本発明の第8実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【0109】
本実施形態は、第3実施形態の変形例であり、図11に示すフローチャートのステップS504がステップS504’ ’に変更されたものである。そこで、このステップを中
心に説明する。
【0110】
第8実施の形態に係るインターフェイス装置のサブルーチン処理のステップS504’
’においては、カーソル移動量を特定する際には、距離dに比例し、なおかつ、拡大率
に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が2倍となると、例えば、カーソルの移動量は1/2となるように設定されている。
【0111】
この実施形態では、カーソルの移動量は、分割された領域の境界部に存在する所定の線分(O−O’)からの距離dに比例して決定する。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。
【0112】
また、拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにすることで、小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくすることが可能となる。
【0113】
次に、本発明の第9実施形態について説明する。本実施形態は、これまで説明してきた任意の実施形態と組み合わせて用いるものである。図21は本発明の第9実施の形態に係る情報処理装置におけるディスプレイ部での表示例を示す図である。図21において、31はインターフェイス装置100が、発声検出領域R中のどの位置において、ユーザーの
発声位置を認識しているかをグラフィカルに示すウインドウである。
【0114】
本発明の情報処理装置10は、視覚で確認できるマウス等のポインティングデバイスと異なり、発声しているユーザー自身の位置が3次元の発声検出領域R中どの位置に相当す
るのかを把握することは容易ではない。また、発声音量は発声する音「シー」や「シュー」の違いでも変化し、把握しにくい。
【0115】
そこでディスプレイ部30上に現在の発声位置を表示することで、ユーザーが自らの発声位置を把握しやすくする。表示は擬似的な3次元領域に発声位置を円で表示する。なお、各平面(X−Y、Y−Z、Z−X)に陰を表示することで空間的な位置をとらえやすくするようにしてもよい。また、過去一定時間中の発声音量の変化をグラフにした物を逐次表示させるようにしてもよい。これにより、発声音量とカーソルの速度の関係も理解しやすくなる。
【0116】
次に、本発明の情報処理装置10を用いた使用感に係る実験について説明する。操作するWindows(登録商標)のディスプレイ部30の前に三軸のマイクロフォンアレイであるインターフェイス装置100を設置して使用する。評価のために5人の被験者に本発明の情報処理装置10を用い、目標までのカーソル操作を行ってもらい、使用感についてインタビューを行った。
【0117】
目標までのカーソル操作実験は目標をディスプレイ部30上に表示し、その上にカーソルを移動、左クリックを行うまでを1試行とし、開始位置からの到達時間と移動経路を記録した。使用したディスプレイは解像度1600×1200である。目標のサイズは16×16であり、Windows(登録商標)のウインドウの閉じるボタンと同程度の大きさである。また、ズーム機能の有効性を検証するために各被験者には以下の三条件についてそれぞれ3試行行った。
1)ズーム機能無し (第1実施形態)
2)クリック動作によるON/OFF切り替えズーム有り (第2実施形態)
3)発話位置によるON/OFF切り替えズーム有り (第3実施形態)
それぞれの条件について本人が操作可能であると判断するまで練習を行い、実験を行った。
いずれのズーム機能においてもズーム無しの時と比較して目標への到達時間が短縮されている。このことからズームによりカーソルの細かい操作が可能になったといえ、ズーム機能の有効性が示された。また、二つのズーム機能を比較すると、概ね発話位置によるON/OFF切り替えズームが短い時間で目標に到達している。これは、クリックによるON/OFF切り替えでは、一度移動を停止し、クリックを行う必要があったためであると考えられる。しかし、いくつかの試行では位置によるON/OFF切り替えの方が目標到達へ長い時間を要している。これは、Z軸方向の発話位置がユーザの意図しない時に変化したことによる。このときズーム倍率が変化し、カーソルが予期しない速度で移動し制御が困難になる。この傾向は練習時間が短かった被験者ほど現れやすかった。
被験者へのインタビューの結果、システムの使用感に関して以下のことがわかった。
・前後(Z軸)方向の発話位置が制御しにくく、思ったようにズームの倍率を制御できない。
・カーソル位置の微調整が(ズーム機能なしでは)できない。
・短時間発話でクリックではなく微調整ができるようにしてほしい。
【0118】
以上のことからわかるように、多くの被験者はズームの制御をしづらいと感じており、できる限りズーム機能を使用しないで目標にカーソルを移動させようとする傾向にあった。発話位置をZ軸座標、すなわち、ディスプレイ部30に対して垂直方向について絶対的に制御することは容易では無いことが判明した。その原因は、左右へのカーソル移動を行う場合、首を回転させて発話位置を左右に動かすためである。首を回転させた場合、ディ
スプレイからの距離も変化し、ユーザの意図しないZ軸座標の変化が現れる。これにより、拡大率が予期せず変化し、ユーザの混乱を招く。練習時間を長くとった場合、発話位置のZ軸座標制御が可能になるが、多くの被験者はできる限り前後への移動をしない、すなわち、ズーム機能を使用しないように操作を行っていた。また、
・拡大表示内に目標が入っていないと目標を見失う。
・視覚フィードバックを見ながら操作するのは難しい。
・カーソルを見失いやすい
等の視覚的な面での問題点が挙げられた。視覚フィードバックは操作の邪魔にならないようにディスプレイ部30右下に表示されている。操作をしながらその表示を確認することは難しい。また、マウスなどと比較して制御が難しいため、予想以上に大きく移動してしまうことがしばしば発生し、カーソルを見失うことがある。そこで、視覚フィードバックをカーソルに重ねる形で表示する等の方法が考えられる。
【0119】
次に、インターフェイス装置100の処理における要素技術について説明する。
【0120】
インターフェイス装置100では、周囲雑音が存在する環境下でも、3次元的なユーザの発声位置、および雑音を分離したユーザー音声が必要となる。これらの情報を抽出するために必要な3次元音声ポインティングデバイスであるインターフェイス装置100の5
つの処理、1.ユーザ発声位置の推定(近距離音源の推定)、2.周囲雑音の到来方向推定(遠距離にある音源の音波到来方向の推定)、3.ユーザーの発話検出、4.音源分離、
5.音声認識処理(特願2003−320183号)について以下に述べる。
1.ユーザー発声位置の推定(近距離音源の推定)
マイクロフォンアレイから約1m以内の近距離にある音源の位置を、マイクロフォンアレイで推定する方法について以下に説明する。
【0121】
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。3次元空間中の
任意の位置
【0122】
【数1】
に置かれた音源から出力された音響信号を、3次元空間中の任意の位置
【0123】
【数2】
に配置されたQ個のマイクロフォンで受音する。音源と各マイクロフォン間の距離Rqは次式で求められる。
【0124】
【数3】
音源から各マイクロフォンまでの伝播時間τqは、音速をvとすると、次式で求められる。
【0125】
【数4】
各マイクロフォンで受音した中心周波数ωの狭帯域信号の、音源のそれに対する利得gqは、一般的に、音源とマイクロフォン間の距離Rqと中心周波数ωの関数として定義される。
【0126】
【数5】
例えば、利得を距離Rqだけの関数として、実験的に求めた次式のような関数を用いる。
【0127】
【数6】
中心周波数ωの狭帯域信号に関する、音源と各マイクロフォン間の伝達特性は、
【0128】
【数7】
と表される。そして、位置P0にある音源を表す位置ベクトルa(ω,P0)を、次式のように、狭帯域信号に関する、音源と各マイクロフォン間の伝達特性を要素とする複素ベクトルとして定義する。
【0129】
【数8】
音源位置の推定はMUSIC法(相関行列を固有値分解することで信号部分空間と雑音部分空間を求め、任意の音源位置ベクトルと雑音部分空間の内積の逆数を求めることにより、音源の音波到来方向や位置を調べる手法)を用いて、以下の手順で行う。q番目のマイクロフォン入力の短時間フーリエ変換を
【0130】
【数9】
で表し、これを要素として観測ベクトルを次のように定義する。
【0131】
【数10】
ここで、nはフレーム時刻のインデックスである。連続するN個の観測ベクトルから相関行列を次式により求める。
【0132】
【数11】
この相関行列の大きい順に並べた固有値を
【0133】
【数12】
とし、それぞれに対応する固有ベクトルを
【0134】
【数13】
とする。そして、音源数Sを次式により推定する。
【0135】
【数14】
もしくは、固有値に対する閾値を設け、その閾値を超える固有値の数を音源数Sとするこ
とも可能である。
雑音部分空間の基底ベクトルから行列Rn(ω)を次のように定義し、
【0136】
【数15】
周波数帯域
【0137】
【数16】
および音源位置推定の探索領域Uを
【0138】
【数17】
として、
【0139】
【数18】
を計算する。そして、関数F(P)が極大値をとる座標ベクトルを求める。ここでは仮にS個の極大値を与える座標ベクトルがP1,P2,・・・,Psが推定されたとする。次にその各々の座標ベクトルにある音源のパワーを次式により求める。
【0140】
【数19】
そして、2つの閾値Fthr, Pthrを用意し、各位置ベクトルにおけるF(Ps)とP(Ps)が次の条件を満足するときに、
【0141】
【数20】
連続するN個のフレーム時間内の座標ベクトルPlにおいて発声があったと判断する。
音源位置の推定処理は連続するN個のフレームを1つのブロックとして処理する。音源位置の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで式(30)の条件が満たされたら発声があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音源の移動奇跡を捉えることができる。
2.周囲雑音の到来方向推定(遠距離にある音源の音波到来方向の推定)
マイクロフォンアレイから遠距離にある音源の音波が到来する方向を、マイクロフォンアレイで推定する手法について以下に述べる。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。遠距離から到来す
る音波は平面波として観測されると考える。
【0142】
図22は本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。図22は、例として、任意の位置に配置された3個のマイクロフォンm1、m2、m3で、音源から到来した音波を受音する場合を示している。図22で、点cは基準点を示しており、この基準点のまわりで音波の到来方向を推定する。図22で、平面sは、基準点cを含む平面波の断面を示している。平面sの法線ベクトルnは、そのベクトルの向きを音波の伝播方向と逆向きとし、次式のように定義する。
【0143】
【数21】
3次元空間中の音源の音波到来方向は2つのパラメータ(θ,φ)で表される。方向(θ
,φ)から到来する音波を各マイクロフォンで受音し、そのフーリエ変換を求めることで受音信号を狭帯域信号に分解し、各受音信号の狭帯域信号毎に利得と位相を複素数として表し、それを要素として狭帯域信号毎に全受音信号分だけ並べたベクトルを音源の位置ベクトルと定義する。以下の処理において、方向(θ,φ)から到来する音波は、前述の位置ベクトルとして表現される。位置ベクトルは具体的に以下のように求められる。q番目のマイクロフォンと平面sの間の距離rqを次式により求める。
【0144】
【数22】
距離rqは平面sに関してマイクロフォンが音源側に位置すれば正となり、逆に音源と反対側にある場合は負の値をとる。音速をvとするとマイクロフォンと平面s間の伝播時間Tqは次式で表される。
【0145】
【数23】
平面sでの振幅を基準としてそこから距離rq離れた位置の振幅に関する利得を、狭帯域信号の中心周波数ωと距離rqの関数として次のように定義する。
【0146】
【数24】
平面sでの位相を基準としてそこから距離rq離れた位置の位相差は、次式で表される。
【0147】
【数25】
以上より、平面sを基準として、各マイクロフォンで観測される狭帯域信号の利得と位相差は次式で表される。
【0148】
【数26】
Q個のマイクで(θ、φ)方向から到来する音波を観測するとき、音源の位置ベクトルは、各マイクロフォンについて式(26)に従い求めた値を要素とするベクトルとして次式のように定義される。
【0149】
【数27】
音源の位置ベクトルが定義されたら、音波の到来方向推定は、MUSIC法を用いて行われる。式(15)で与えられる行列Rn(ω)を用い、音波到来方向推定の探索領域Iを
【0150】
【数28】
として、
【0151】
【数29】
を計算する。そして、関数J(θ、φ)が極大値を与える方向(θ、φ)を求める。ここでは仮にK個の音源が存在し、極大値を与えるK個の音波到来方向((θ1、φ1),・・・,(θK、φK))が推定されたとする。次にその各々の音波到来方向にある音源のパワーを次式により求める。
【0152】
【数30】
そして、2つの閾値Jthr, Qthrを用意し、各到来方向におけるJ(θk,φk)とQ(θk,φk)が次の条件を満足するときに、
【0153】
【数31】
連続するN個のフレーム時間内の到来方向(θk,φk)において発声があったと判断する。音波の到来方向の推定処理は連続するN個のフレームを1つのブロックとして処理する。到来方向の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで式(31)の条件が満たされたらその方向から音波の到来があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音波の到来方向の移動奇跡を捉えることができる。
【0154】
近距離音源の位置推定結果と遠距離音源の音波到来方向推定結果は、続く発話検出処理や音源分離処理で重要な役割を果たすが、近距離音源と遠距離音源が同時に発生していて、更に、遠距離音源から到来する音波に対して近距離音源のパワーが著しく大きくなるとき、遠距離音源の音波の到来方向推定がうまく行えない場合がある。このような時は、近
距離音源が発生する直前に推定された、遠距離音源の音波の到来方向推定結果を用いるなどして対処する。
3.ユーザーの発話検出
複数の音源が存在している場合、どの音源が認識すべき音声なのかの特定は一般的に難しい。一方、音声を用いたインタフェースを採用するシステムでは、予めシステムのユーザがシステムに対して相対的にどのような位置で発声するかを表すユーザ発声領域を決めておくことができる。この場合、前述の方法でシステムの周囲に音源が複数存在しているとしても、各音源の位置や音波の到来方向を推定できれば、システムが予め想定しているユーザ発声領域に入る音源を選択することで容易にユーザの音声を特定できるようになる。
【0155】
式(20)や式(31)の条件が満たされることで音源の存在を検出し、更に音源の位置や音波の到来方向の条件が満たされてユーザの発声が検出される。この検出結果は発話区間情報として、後続音声認識処理において重要な役割を果たす。音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。一般的に、発話区間の開始時点がずれると音声認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式(18)や式(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができるという利点を持つ。
【0156】
例えば、図23に示すようなユーザの発声領域を定義することができる。図23は本発明による発話検出処理の機能説明図である。この図では簡単のためにX−Y平面のみで表すが、一般的に3次元空間においても同様に任意のユーザ発声領域を定義することができ
る。図23では、任意の位置に配置された8個のマイクロフォンm1〜m8を用いた処理を仮定し、近距離音源の探索領域および遠距離音源の探索領域のそれぞれで、ユーザ発声領域を定義している。近距離音源の探索空間は、(PxL,PyL)と(PxH,PyH)の2点を結ぶ直線を対角線とする矩形領域で、その領域内で(PTxL1,PTyL1
)と(PTxH1,PTyH1)、(PTxL2,PTyL2)と(PTxH2,PTyH2)のそれぞれの2点を結ぶ直線を対角線とする2つの矩形領域をユーザー発声領域と
定義している。従って、式(20)により発声があったと判断された音源位置のなかで、その座標ベクトルが前記ユーザ発声領域内に入っているものを選択することで、近距離に存在する音源の中でユーザー声を特定できる。
【0157】
一方、遠距離音源の探索空間は点Cを基準として、角度θLからθHの方向を探索領域とし、その領域内で角度θTL1からθTH1の領域をユーザーの発声領域と定義している。従って、式(31)により発声があったと判断された音波の到来方向のなかで、到来方向が前記ユーザ発声領域内に入っているものを選択することで、遠距離に存在する音源の中でユーザ音声を特定できる。
4.音源分離
発話検出された音源の位置推定結果または音波の到来方向推定結果を用いて、ユーザの音声を強調し周囲雑音を抑圧する音源分離処理について以下に説明する。ユーザ音声の発話位置または到来方向は前記発話検出処理により求められている。また、周囲雑音の音源位置または到来方向も既に推定されている。これらの推定結果と式(8)と式(27)の音源位置ベクトル、そして無指向性雑音の分散を表すσを用いて、行列V(ω)を次式のように定義する。
【0158】
【数32】
この相関行列の大きい順に並べた固有値を
【0159】
【数33】
とし、それぞれに対応する固有ベクトルを
【0160】
【数34】
とする。
ここで、相関行列V(ω)には近距離音源S個と遠距離音源K個を合わせて(S+K)個の音源が含まれているから、固有値の大きい方から(S+K)の固有値と固有ベクトルを用いて、Z(ω)を次式のように定義する。
【0161】
【数35】
そして、近距離の座標ベクトルPに居るユーザの音声を強調する分離フィルタW(ω)は、次式で与えられる。
【0162】
【数36】
式(36)の分離フィルタに式(10)の観測ベクトルを乗じることで座標ベクトルPに居るユーザの音声v(ω)が得られる。
【0163】
【数37】
この強調されたユーザ音声の波形信号は式(37)の逆フーリエ変換を計算することで求められる。
【0164】
一方、遠距離の方向(θ,φ)に居るユーザの音声を強調する場合の分離フィルタM(ω)は次式で与えられる。
【0165】
【数38】
式(38)の分離フィルタに式(10)の観測ベクトルを乗じることで方向(θ,φ)に居るユーザの強調音声v(ω)が得られる。
【0166】
【数39】
この強調されたユーザ音声の波形信号は式(37)の逆フーリエ変換を計算することで求められる。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により移動しているユーザーの強調音声が得られる。
5.音声認識処理
前記音源分離処理は、指向性雑音に対しては有効であるが、無指向性雑音に対してはある程度雑音が残留してしまう。また、突発性雑音のように短時間で発生する雑音に対してもあまり雑音抑圧効果を望めない。そこで、前記音源分離処理により強調されたユーザー音声の認識に、例えば、特願2003−320183号「背景雑音歪みの補正処理方法及びそれを用いた音声認識システム」で述べられている特徴補正法を組み込んだ音声認識エンジンを用いることで、残留雑音の影響を軽減する。なお本発明は、音声認識エンジンとして特願2003−320183号に限定するものではなく、この他にも雑音に頑健な様々な手法を実装した音声認識エンジンを使用することが考えられる。
【0167】
特願2003−320183号で述べられている特徴補正法は、音声認識エンジンが予め音声認識のためにテンプレートモデルとして持っているHidden Markov Model(HMM)に基づいて雑音重畳音声の特徴量補正を行う。HMMは雑音のないクリーン音声から求めたMel−Frequency Cepstrum Coefficient(MFCC)に基づいて学習されている。このため、特徴補正のために新たにパラメータを用意する必要がなく、既存の認識エンジンに比較的容易に特徴補正法を組み込むことができるという利点がある。この手法は雑音を定常成分と一時的に変化を示す非定常成分に分けて考え、定常成分に関しては発話直前の数フレームから雑音の定常成分を推定する。
【0168】
HMMが持っている分布のコピーを生成し、推定した雑音の定常成分を加えることで定常雑音重畳音声の特徴量分布を生成する。観測された雑音重畳音声の特徴量の事後確率を、この定常雑音重畳音声の特徴量分布で評価することで、雑音の定常成分による歪を吸収する。しかし、この処理だけでは雑音の非定常成分による歪が考慮されていないので、雑音の非定常成分が存在する場合には、前記手段で求めた事後確率は正確ではなくなる。一方、特徴補正にHMMを用いることで、 特徴量時系列の時間的構造とそれに沿って求め
られる累積出力確率が利用可能となる。この累積出力確率から算出される重みを前述の事後確率に付与することにより、雑音の一時的に変化する非定常成分により劣化した事後確率の信頼度を改善することが出来る。
【0169】
音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。特に、前記特徴補正を組み込んだ音声認識エンジンは、発話開始直前の数フレームか
ら周囲雑音の定常的な特徴を推定するので、発話区間の開始時点がずれると認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式(18)や式(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができる。
【0170】
以上、本発明の情報処理装置によれば、雑音がある環境下でもユーザーの3次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示することが可能となる。
【0171】
また、本発明の情報処理装置によれば、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【図面の簡単な説明】
【0172】
【図1】本発明の実施の形態に係る情報処理装置の外観を斜視的に示す図である。
【図2】本発明の実施の形態に係る情報処理装置に用いられるインターフェイス装置の外観を斜視的に示す図である。
【図3】本発明の実施の形態に係る情報処理装置のブロック構成を示す図である。
【図4】本発明の実施の形態に係るインターフェイス装置の利用形態例を示す図である。
【図5】本発明の実施の形態に係るインターフェイス装置の処理のフローチャートを示す図である。
【図6】本発明の第1実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図7】本発明の第1実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図8】本発明の第1実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図9】本発明の第2実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図10】本発明の第2実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図11】本発明の第3実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図12】本発明の第3実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図13】本発明の第4実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図14】本発明の第4実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図15】本発明の第5実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図16】本発明の第6実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図17】本発明の第6実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図18】本発明の第7実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図19】本発明の第8実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図20】本発明の第8実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図21】本発明の第9実施の形態に係る情報処理装置におけるディスプレイ部での表示例を示す図である。
【図22】本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。
【図23】本発明による発話検出処理の機能説明図である。
【符号の説明】
【0173】
10・・・情報処理装置、20・・・コンピュータ本体部、30・・・ディスプレイ部、31・・・ウインドウ、100・・・インターフェイス装置、200・・・マイクロフォンアレイ、201・・・シリコンマイク、202・・・ウインドスクリーン、210・・・スタンド、211・・・主支柱、212・・・左側支柱、213・・・右側支柱、280・・・マイクアンプ、290・・・AD変換部、300・・・CPU、400・・・記憶部、500・・・接続ポート部
【技術分野】
【0001】
本発明は、3次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示する情報処理装置に関する。
【背景技術】
【0002】
コンピュータへの入力手段としてキーボードやマウスなどが広く用いられている。いずれも手を用いて操作することが前提になっているため、手に不自由がある身体障害者がコンピュータへアクセスすることの障害となっている。手を用いない入力手段として、「目線」、「舌」、「音声」などを利用するものがある。「目線」を利用する手法はヘッドマウント型のデバイスを用いるため、手の不自由な方が自力で装着するのが困難という問題がある。「舌」を用いた手法では口腔内にセンサを入れて使用するため、デバイス装着時の困難に加え衛生的な問題もある。「音声」を用いた手法では卓上に置かれたマイクロフォンに向かって話すことによりセンサ類を装着する必要はなくなるが、音声認識が可能な程度の明瞭な音声コマンドを発声できることが前提条件となっている。
【0003】
マウス操作など手による操作が困難で、かつ音声認識が出来るほどの明瞭な音声コマンドの発声が困難な方を対象として、音声や呼気音などの発声位置をマイクロフォンアレイ処理で特定する音声ポインティングデバイスの開発が行われている。例えば、特許文献1(特開2004−280301号公報)では、マイクロフォンアレイに呼気を吹きかけながら口先または顔を移動させることで、カーソルを操作する音声ポインティングデバイスとそれを用いたインターフェイスの開発事例が公開されている。これは、平面上に配列したマイクロフォンアレイ上で検出した入力音の2次元的な位置情報に基づいてカーソルの移動方向を決定し、入力音の強度でカーソル移動の速さを制御する仕様となっている
また、特許文献2(特開2007−228135号公報)では、雑音に対する頑健性を高めた音声ポインティングデバイスを開発し、ユーザが進みたい方向を向いて音声、呼気音、または口笛などの音をたてることで、進行方向の指示が可能な電動車いすの開発を行っている。電動車いすの例では、ポインティングデバイスのセンサ部である2つのマイクロフォンアレイを左右の肘掛先端に実装することで、音源の2次元的な位置を推定している。
【特許文献1】特開2004−280301号公報
【特許文献2】特開2007−228135号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載された手法のようにカーソル移動の速さを入力音の強度だけで入力操作を行うと、特に、小さなアイコンやボタンへのカーソル移動など細かな入力が困難となる。また、周囲雑音の干渉に弱いため、雑音のある一般的な環境下での実用性は低かった。
【0005】
ところで、発明者は、ポインティングデバイスを卓上で使えるように小型化し、かつ3次元的な音源位置の推定も高精度に行えるように3軸マイクロフォンアレイの構成とした、3次元音声ポインティングデバイスの開発を既に行っている。このような発明者の開発した3次元音声ポインティングデバイスを用いることで、雑音に対する脆弱性の問題を回避することができた。
【0006】
しかし、このような3次元音声ポインティングデバイスを用いても、小さなアイコンやボタンへのカーソル移動など細かなコントロールが困難という問題点に関しては、インタ
ーフェイスの改善の余地が大いに残されている。
【0007】
以上のような従来技術の問題点を鑑み、本発明では、雑音がある環境下でもユーザーの3次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示する情報処理装置を提供し、なおかつ、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことを可能とする情報処理装置を提供することである。
【課題を解決するための手段】
【0008】
上記課題を解決するために、請求項1に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記発声位置特定手段によって特定された発声位置に応じて、前記表示手段上に表示されるカーソル位置の変更を行うように制御することを有することを特徴とする情報処理装置である。
【0009】
また、請求項2に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示態様を変更するように制御することを特徴とする情報処理装置である。
【0010】
また、請求項3に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における拡大表示実行又は拡大表示解除の別を変更するように制御することを特徴とする情報処理装置である。
【0011】
また、請求項4に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示の拡大率を変更するように制御することを特徴とする情報処理装置である。
【0012】
また、請求項5に係る発明は、複数のマイクロフォンが所定配置で設けられてなるマイ
クロフォンアレイと、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、ユーザーに対する表示を行う表示手段と、前記表示手段を制御する表示制御手段と、を有し、前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段に表示されるカーソルの移動量の変更を行うように制御することを有することを特徴とする情報処理装置である。
【0013】
また、請求項6に係る発明は、請求項3又は請求項4に記載の情報処理装置において、前記表示制御手段は、前記表示手段における表示の拡大率の変更に伴い、前記表示手段に表示されるカーソルの移動量を変更することを特徴とする。
【0014】
また、請求項7に係る発明は、請求項6に記載の情報処理装置において、前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の音量を特定する音量特定手段、を有し、前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記音量特定手段によって特定された音量又は音量の対数値に比例させるように制御することを特徴とする。
【0015】
また、請求項8に係る発明は、請求項6に記載の情報処理装置において、前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記発声位置特定手段によって特定された発声位置と所定線分との間の距離に比例させるように制御することを特徴とする。
【0016】
また、請求項9に係る発明は、請求項1乃至請求項8に記載の情報処理装置において、前記表示制御手段は、前記発声位置特定手段によって特定された発声位置を前記表示手段に表示するように制御することを特徴とする。
【発明の効果】
【0017】
本発明の情報処理装置によれば、雑音がある環境下でもユーザーの3次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示することが可能となる。
【0018】
また、本発明の情報処理装置によれば、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【発明を実施するための最良の形態】
【0019】
以下、本発明の実施の形態を図面を参照しつつ説明する。
図1は本発明の実施の形態に係る情報処理装置の外観を斜視的に示す図であり、図2は本発明の実施の形態に係る情報処理装置に用いられるインターフェイス装置の外観を斜視的に示す図であり、図3は本発明の実施の形態に係る情報処理装置のブロック構成を示す図である。
【0020】
図1及び図2において、10は情報処理装置、20はコンピュータ本体部、30はディスプレイ部、100はインターフェイス装置、200はマイクロフォンアレイ、201はシリコンマイク、202はウインドスクリーン、210はスタンド、211は主支柱、212は左側支柱、213は右側支柱、280はマイクアンプ、290はAD変換部、300はCPU、400は記憶部、500は接続ポート部をそれぞれ示している。
【0021】
情報処理装置10は、マウスなどの入力用ポインティングデバイスの代替となるインタ
ーフェイス装置100と、インターフェイス装置100からの入力を受けこれに基づいて演算処理などを行うコンピュータ本体部20と、コンピュータ本体部20からの出力をユーザーのために表示するディスプレイ部30とから主として構成されている。コンピュータ本体部20は、CPU(不図示)とCPU上で動作するプログラムを保持するROM(不図示)やHDD(不図示)、CPUのワークエリアとして機能するRAM(不図示)、他の機器と接続するためのインターフェイス手段(不図示)などからなる汎用の情報処理機構であり、例えば汎用のパーソナルコンピュータを用いることができる。また、特許請求の範囲において「表示制御手段」として表現される構成は、コンピュータ本体部20のCPUとCPU上で動作するプログラムとビデオRAM(不図示)などによって実現されるものである。このようなコンピュータ本体部20の構成や動作については、いずれも周知であるので詳述を避ける。また、特許請求の範囲において「表示手段」として記載されている構成はディスプレイ部30である。このディスプレイ部30についても一般的なものを用いることができる。なお、コンピュータ本体部20としては、汎用のパーソナルコンピュータなどを用いることができるが、これに限らず、その他の種々のコンピュータを用いることができる。
【0022】
以下、本発明に係る情報処理装置10において、特徴的なインターフェイス装置100について詳しく説明する。図2はインターフェイス装置100のユーザーインターフェイス部の構成を示しており、図示するようなユーザーの鼻腔・口腔から発せられた音に基づいて、コンピュータなどに対する入力デバイスとして機能するものである。なお、このようなインターフェイス装置100は、コンピュータに対する入力用途のみならず、電気製品や車両に対する入力用途にも用いることが可能である。
【0023】
インターフェイス装置100の外観は、スタンド210上に立設された主支柱211と、主支柱211から左右に枝分かれし、左側支柱212と右側支柱213と、それぞれの支柱に設けられたマイクロフォン群とから構成されており、卓上に設置が可能なようになっている。より具体的には、これら主支柱211、左側支柱212、右側支柱213のそれぞれに3cm間隔でシリコンマイク201が不図示の基板上に設けられており、計12個のマイクロフォン群からマイクロフォンアレイ200が構成されている。なお、本実施形態に係るインターフェイス装置100においては、シリコンマイク201が12個用いられたものに基づいて説明するが、シリコンマイク201の数は3個以上で構成すればよく、本発明が12個のシリコンマイク201の使用に限定されるものではない。なお、シリコンマイク201の数が少ないと耐雑音性が悪化するし、また、シリコンマイク201の数が多いと音声データの処理負荷が重くなるので、本実施形態では先に述べたようにマイクロフォンアレイ200を12個のシリコンマイク201で構成している。また、シリコンマイク201には、3mm×5mm程度の小型シリコンマイクを採用している。
【0024】
それぞれの支柱に配された4つのシリコンマイク201は、ウインドスクリーン202によって覆われており、風きり音が入力されるのを伏せいている。また、左側支柱212に配されたマイクロフォン群、右側支柱213に配されたマイクロフォン群は略「ハ」の字のレイアウトとなるように配置されており、主支柱211に配されたマイクロフォン群は垂直に配置されている。
【0025】
図3はインターフェイス装置100を含むブロック構成が示される図である。12個のシリコンマイク201から構成されるマイクロフォンアレイ200の出力は、マイクアンプ280で増幅されAD変換部290でアナログ−デジタル変換された後、CPU300に入力されるようになっている。記憶部400は、CPU300上で動作するプログラムを保持するROMや、CPU300のワークエリアとして機能するRAMから構成されている。この記憶部400に記憶されているプログラムに基づいてCPU300が動作することによって、本発明のインターフェイス装置100として機能する。
【0026】
なお、特許請求の範囲に記載されている「継続時間特定手段」、「発声位置特定手段」、「継続時間判定手段」、「音量特定手段」、などの各手段は、記憶部400に記憶されているプログラムに基づいて動作するCPU300によって実現されるものである。
【0027】
また、記憶部400には、後述するイベントデータベースが記憶保持されている。接続ポート部500は、コンピュータ本体部20などの他の機器と接続するためのインターフェイス手段であり、USBなどの周知のものを利用することができる。
【0028】
以上のように構成されるインターフェイス装置100の利用形態について説明する。なお、以下に種々の実施形態を個別的に説明するが、それぞれの実施形態は記憶部400に記憶させるプログラムを変更することによってそれぞれ実現することができる。また、以下に個別的に説明する種々の実施形態を任意に組み合わせて構成したインターフェイス装置も、本実施形態のインターフェイス装置に含まれるものである。
【0029】
図4は本発明の実施の形態に係るインターフェイス装置の利用形態例を示す図である。本実施形態に係るインターフェイス装置100では、インターフェイス装置100を用いて、3次元空間内で推定された発声位置がどの領域に属すかを特定するものである。
【0030】
なお、以下、「発声」という語には、ユーザーの鼻口腔から発せられた全ての種類の音が含まれるものとする。ユーザーの鼻口腔から発せられた音には、例えば、舌打ちの音なども含まれるものであるが、一般的な利用としては、ユーザーの「シュッ」、「パッ」などの短い発声音や「シュー」、「アー」などの継続する継続的発声音が想定される。
【0031】
図4に示す実施形態においては、ユーザーの発声検出領域Rを定義し、この発声検出領
域の中のユーザーの発声のみを検出するようにして、発声検出領域R外からの音は雑音と
して処理する。
【0032】
そして、定義されたユーザーの発声検出領域Rの中で、発声がどの位置からなされたの
かが特定される。このような特定を行う構成は、特許請求の範囲において「発声位置特定手段」として表現されている。
【0033】
また、後述するように発声検出領域Rの中は、仮想的な空間に領域に分割する。そして
、仮想的に分割された空間の中で、発声がどの空間内で発声があったのかに係る情報が利用される。
【0034】
また、定義されたユーザーの発声検出領域の中で、発声の開始から終了までの継続時間が特定される。すなわち、ユーザーの「シュッ」、「パッ」などの短い発声音と、「シュー」、「アー」などの継続する継続的発声音との別が特定される。このような特定を行う構成は、特許請求の範囲において「継続時間特定手段」として表現されている。
【0035】
また、定義されたユーザーの発声検出領域の中で、ユーザーの発声の音量の特定が行われる。このような特定を行う構成は、特許請求の範囲において「音量特定手段」として表現されている。
【0036】
以上のような実施形態におけるインターフェイス装置の処理について説明する。図5は本発明の実施の形態に係るインターフェイス装置の処理のフローチャートを示す図である。
【0037】
ステップS100で、処理が開始されると、次にステップS101に進み、マイクロフ
ォンアレイ200から音声データの取り込みが行われる。このステップではより具体的には、マイクロフォンアレイ200から出力される音声のアナログ信号をマイクアンプ280で増幅した後、AD変換部290でデジタル信号に変換し、記憶部400に一時記憶する。
【0038】
次のステップS102では、ユーザー発声位置と周囲雑音到来方向の3次元的な情報の特定を行う。より詳細には、本願の発明者らによる特開2007−228135号公報、特開2008−67854号公報、特願2006−240721号の明細書、図面に記載の手法を用いて、ユーザーの発声位置と周囲雑音到来方向を3次元空間内で特定する。
【0039】
次に、ステップS103では、ユーザーの発声があるか否かが判定される。このステップでは、特願2006−240721号に記載の手法を用いてユーザーの発声を検出し、もしユーザーの発声が検出されなければ、ステップS101から繰り返す。もしユーザーの発声が検出されればステップS104へ進む。
【0040】
ステップS104では、周囲雑音の抑制を実行する。このステップでは、特願2006−240721号に記載の手法を用いて周囲雑音を抑圧しユーザーの発声を強調する音源分離処理を行う。
【0041】
ステップS105では、ユーザーの発声の継続時間の特定が行われる。すなわち、このステップでは、ユーザーの発声の継続音の開始から終了までの時間を特定する処理を行う。
【0042】
ステップS106では、3次元的な発声位置の特定を行う。より具体的には、3次元空間内で推定された発声位置がどの領域に属すかを特定する。例えば、図3示すようにユーザーの発声検出領域を定義し、更にその発声検出領域を8つの領域に分割する。そして、その8つの分割領域の中で、発声がどの領域内で検出されたかを特定する。
【0043】
ステップS107では、ユーザーの発声の発声音量の特定が行われる。音の大きさを表すパワーなどの音量に相当するパラメータを計測することによって行う。
【0044】
ステップS108では、イベント特定処理のサブルーチンが実行される。記憶部400に保持されるイベントデータベースには、例えば、発声継続時間、発声検出位置、発声音量などに応じたイベントが記憶されている。すなわち、発声継続時間、発声検出位置、発声音量などとイベントとの組み合わせが定義されて、当該イベントデータベースに保持されるようになっている。イベント特定処理では、このイベントデータベースの情報が参照される。
【0045】
イベントデータベースには、例えば、図3の上段手前の左側の領域で短時間の発声として定義したイベントがあらかじめ登録されている。そして、ステップS106のイベントの特定処理では、発声位置が前述の位置になっているかを判断し、発声継続時間があるしきい値以下であるかを判断し、発声が所定の発声音量以上であるかなどを判断し、全ての条件が適合したときにそのイベントが発生したと判断する。
【0046】
ステップS109では、該当イベントがあるかが判定される。ステップS108で、イベントデータベースに適合するイベントが検出されたかどうかを調べ、もしイベントが一つも検出されなければ、ステップS101へ戻る。もし、イベントが検出された場合は、ステップS110へ進む。
【0047】
ステップS110では、コンピュータ本体部20に対して、イベント検出信号を送信す
る。
【0048】
アプリケーション側の典型的な処理が点線の囲み中に示されている。以下、アプリケーション側で想定される典型的な処理について説明する。ステップS201では、本発明のインターフェイス装置から送られるイベント検出信号の受信を待ち続ける。もし、イベント検出信号を受信した場合は、ステップS202へ移る。ステップS202では、受信したイベント検出信号に対応した適切な処理を実行する。そして、ステップS201へ戻る。
【0049】
インターフェイス装置100では、例えば、手前、左上の分割領域での発声が検出された場合には、マウスの左クリックに相当するイベント検出信号を生成し、コンピュータ本体部20側に送信する。このようなイベント検出信号を受信したコンピュータ本体部20は、ステップS202でマウスの左クリックに相当する処理を実行する。
【0050】
このように本実施形態の情報処理装置によれば、雑音がある環境下でもユーザーの呼気音や発声の発声位置などが3次元的に特定され、特定された事項に応じた処理をコンピュータ本体部20側で実行することができるようになる。
【0051】
次に、ステップS108におけるサブルーチン処理の第1実施形態について説明する。図6は本発明の第1実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図7は本発明の第1実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図であり、図8は本発明の第1実施の形態
に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【0052】
図6において、ステップS300で、イベント特定処理のサブルーチンが開始されると、次に、ステップS301に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。
【0053】
ステップS301の判定結果YESであるときにはステップS302に進み、判定結果NOであるときにはステップS304に進む。
【0054】
ステップS302では、仮想空間Aに基づいてイベントの特定を行うようにする。このような仮想空間Aは、図7に示されるようなものである。仮想空間Aは、A1、A2、A3
、A4の4つの空間に分割されており、それぞれ空間で発声があった場合には、一般的な
十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、A1の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上」に相
当するイベント検出信号が生成される訳である。
【0055】
ステップS303では、発声音量(又はその対数値)に比例したカーソル移動量を特定する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部30では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。例えば、A1の領域内でユーザーが、比較的大きな声で長く「シュー」と発音
すると、十字キーの「上」の方向に速くカーソルが移動するようなイベント検出信号が生成される。
【0056】
ステップS304では、仮想空間Bに基づいてイベントの特定を行うようにする。このような仮想空間Bは、図8に示されるようなものである。仮想空間Bは、B1、B2の2つ
の空間に分割されており、それぞれ空間で発声があった場合には、一般的なマウスの「右クリック」、「左クリック」に相当するイベントとして定義されている。例えば、B1の
領域内でユーザーが短く「シュッ」と発音すると、マウスの「右クリック」に相当するイベント検出信号が生成される訳である。
【0057】
ステップS305では、上記のように左クリックか右クリックかが特定される。
【0058】
ステップS306ではリターンする。
【0059】
上記のようにインターフェイス装置100で生成されたイベント検出信号によって、コンピュータ本体部20はディスプレイ部30における表示を制御する。すなわち、例えばA1の領域内でユーザーが長く「シュー」などと発音すると、ディスプレイ部30におい
てカーソルが上方向に移動するように表示制御がされる。また、B1の領域内でユーザー
が短く「シュッ」などと発音すると、ディスプレイ部30において、マウスの右クリックに相当するような表示制御がされる。
【0060】
なお、上記の実施形態においては、仮想空間Aは、A1、A2、A3、A4の4つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、A1とA3との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置100で生成し、ディスプレイ部30においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、X−Y平面の原点の真上で発声が検出されたらカーソルは上へ移動し、右上45°の方向で発声が検出されたらカーソルは右上45°の方向に移動するように表示制御する。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分(O−O’)からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【0061】
このような本発明の情報処理装置によれば、雑音がある環境下でもユーザーの3次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示することが可能となる。
【0062】
次に、本発明の第2実施形態について説明する。図9は本発明の第2実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図10は本発明の第2実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空
間例を示す図である。
【0063】
ステップS400において、イベント特定処理のサブルーチンが開始されると、次に、ステップS401に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。
【0064】
ステップS402では、仮想空間Aに基づいてイベントの特定を行うようにする。このような仮想空間Aは、図7に示されるようなものである。仮想空間Aは、A1、A2、A3
、A4の4つの空間に分割されており、それぞれ空間で発声があった場合には、一般的な
十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、A1の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上」に相
当するイベント検出信号が生成される訳である。
【0065】
ステップS403では、発声音量(又はその対数値)に比例したカーソル移動量を特定する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部30では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。
【0066】
ステップS304では、仮想空間Cに基づいてイベントの特定を行うようにする。このような仮想空間Cは、図8に示されるようなものである。仮想空間Cは、C1、C2、C3
の3つの空間に分割されており、それぞれ空間で発声があった場合には、一般的なマウスの「右クリック」、「左クリック」、「拡大表示の実行/解除」に相当するイベントとして定義されている。例えば、C1の領域内でユーザーが短く「シュッ」と発音すると、マ
ウスの「右クリック」に相当するイベント検出信号が生成される訳である。また、C3の
領域内でユーザーが短く「シュッ」と発音すると、カーソル近傍の表示の拡大表示を実行したり、或いは拡大表示を解除したりするコマンドに相当するイベント検出信号が生成される訳である。
【0067】
本実施形態では、このようなイベント検出信号が、コンピュータ本体部20側に送信され、それに基づいて、コンピュータ本体部20がディスプレイ部30の表示制御を行うようになっているので、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となるのである。
【0068】
ステップS405では、上記のように左クリックか右クリックか拡大表示の実行/解除かが特定される。
【0069】
ステップS406ではリターンする。
【0070】
上記のようにインターフェイス装置100で生成されたイベント検出信号によって、コンピュータ本体部20はディスプレイ部30における表示を制御する。すなわち、C3の
領域内でユーザーが短く「シュッ」などと発音すると、ディスプレイ部30においてカーソル近傍の表示の拡大表示を実行したり、或いは拡大表示を解除したりする表示制御がなされる。つまり、C3の領域内でユーザーの短時間の発声が、拡大表示ON・OFFのト
グルスイッチのような役割を果たし、ユーザーはこのようなスイッチ機能によって、必要に応じて拡大表示を行い、細かい入力作業を実行することができるようになる。これにより、本発明の情報処理装置10では、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【0071】
なお、上記の実施形態においては、仮想空間Aは、A1、A2、A3、A4の4つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能であることは先に述べた通りである。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分(O−O’)からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【0072】
次に、本発明の第3実施形態について説明する。図11は本発明の第3実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図12は本発明の第3実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【0073】
図11において、ステップS500で、イベント特定処理のサブルーチンが開始されると、次に、ステップS501に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。本実施形態においても、まずユーザーの発声継続音の長短によって、発声検出領域R中で用いる仮想空間を異なるものとするように処理する。
【0074】
ステップS501の判定結果YESであるときにはステップS502に進み、判定結果NOであるときにはステップS506に進む。
【0075】
ステップS502では、仮想空間Dに基づいてイベントの特定を行うようにする。このような仮想空間Dは、図12に示されるようなものである。仮想空間Dは、D1、D2、D3、D4、D5の5つの空間に分割されており、それぞれ空間で発声があった場合には、一
般的な十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、D1の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上
」に相当するイベント検出信号が生成される訳である。また、発声検出領域Rの奥側に設
定されたD5の領域は、ディスプレイ部30における表示の拡大率をユーザーが変更可能
なように設けられた空間である。そして、拡大率の変更においては、PQRS平面と発声位置と間の距離に応じて拡大率が設定されるようにしている。領域D5において、PQR
S平面と発声位置とが近ければ近いほど、拡大率が大きくなるように設定し、PQRS平面と発声位置とが近ければ近いほど、拡大率が小さくなるように設定すると、入力デバイスとして直感的に用いることが可能である。例えば、D5の領域内でユーザーが長く「シ
ュー」と発音しながら、長い発声で近づくと拡大率が大きくなるようなイベント検出信号がインターフェイス装置100によって生成され、これをコンピュータ本体部20に送信し、ディスプレイ部30における表示の拡大率を大きくするように表示制御させる。
【0076】
ステップS503では、発声位置がD1,D2,D3,D4内であるか否かが判定される。ステップS503の判定結果がYESであるときにはステップS504に進み、判定結果がNOであるときにはステップS505に進む。
【0077】
ステップS504では、発声音量(又はその対数値)に比例したカーソル移動量を特定する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部30では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。例えば、D1の領域内でユーザーが、比較的大きな声で長く「シュー」と発音
すると、十字キーの「上」の方向に速くカーソルが移動するようなイベント検出信号が生成される。
【0078】
ステップS505では、先に述べたような方法―PQRS平面と発声位置とが近ければ近いほど、拡大率が大きくし、PQRS平面と発声位置とが近ければ近いほど、拡大率が小さくする―で、拡大率の特定を行う。
【0079】
ステップS506では、仮想空間Bに基づいてイベントの特定を行うようにする。このような仮想空間Bは、図8に示されるようなものである。仮想空間Bは、B1、B2の2つの空間に分割されており、それぞれ空間で発声があった場合には、一般的なマウスの「右クリック」、「左クリック」に相当するイベントとして定義されている。例えば、B1
の領域内でユーザーが短く「シュッ」と発音すると、マウスの「右クリック」に相当するイベント検出信号が生成される訳である。
【0080】
ステップS507では、上記のように左クリックか右クリックかが特定される。
【0081】
ステップS508ではリターンする。
【0082】
上記のようにインターフェイス装置100で生成されたイベント検出信号によって、コンピュータ本体部20はディスプレイ部30における表示を制御する。すなわち、D5の
領域内でユーザーが長く「シュー」などと発音しながら、PQRS平面に近づけば近づくほど、ディスプレイ部30での表示の拡大率が大きくなり、D5の領域内でユーザーが長
く「シュー」などと発音しながら、PQRS平面から離れれば離れるほど、ディスプレイ部30での表示の拡大率が小さくなるように、表示制御がなされるようになっている。ユーザーはこのような拡大率の変更機能によって、必要に応じて拡大表示を行い、細かい入力作業を実行することができるようになる。これにより、本発明の情報処理装置10では、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【0083】
なお、上記の実施形態においては、仮想空間Dは、D1、D2、D3、D4の4つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、D1とD3との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置100で生成し、ディスプレイ部30においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、X−Y平面の原点の真上で発声が検出されたらカーソルは上へ移動し、右上45°の方向で発声が検出されたらカーソルは右上45°の方向に移動するように表示制御する。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分(O−O’)からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【0084】
次に、本発明の第4実施形態について説明する。図13は本発明の第4実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図14は本発明の第4実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【0085】
図13において、ステップS600で、イベント特定処理のサブルーチンが開始されると、次に、ステップS601に進み、特定された発声継続時間が所定の時間より長いか否かが判定される。この判定ステップは、ユーザーが「シュッ」、「パッ」などの短い発声を行っているのか、「シュー」、「アー」などの長い発声を行っているのかを判定するものである。本実施形態においても、まずユーザーの発声継続音の長短によって、発声検出領域R中で用いる仮想空間を異なるものとするように処理する。
【0086】
ステップS601の判定結果YESであるときにはステップS602に進み、判定結果NOであるときにはステップS604に進む。
【0087】
ステップS602では、仮想空間Aに基づいてイベントの特定を行うようにする。このような仮想空間Aは、図7に示されるようなものである。仮想空間Aは、A1、A2、A3
、A4の4つの空間に分割されており、それぞれ空間で発声があった場合には、一般的な
十字キーの「上」、「下」、「右」、「左」に相当するイベントとして定義されている。例えば、A1の領域内でユーザーが長く「シュー」と発音すると、十字キーの「上」に相
当するイベント検出信号が生成される訳である。
【0088】
ステップS603では、発声音量(又はその対数値)に比例したカーソル移動量を特定
する。すなわち、大きな音量で発声するほど一度に大きく移動することができるようなイベント検出信号を生成する。このようなイベント検出信号によれば、ディスプレイ部30では、大きな音量で発声されるほど、カーソルが一度に大きく移動するような表示制御がなされる。例えば、A1の領域内でユーザーが、比較的大きな声で長く「シュー」と発音
すると、十字キーの「上」の方向に速くカーソルが移動するようなイベント検出信号が生成される。
【0089】
ステップS604では、仮想空間Eに基づいてイベントの特定を行うようにする。このような仮想空間Eは、図14に示されるようなものである。仮想空間EはE1、E2、E3
、E4、E5、E6の6つの空間に分割されており、E1、E2の領域で発声があった場合に
は、一般的なマウスの「右クリック」、「左クリック」に相当するイベントとして定義されている。例えば、E1の領域内でユーザーが短く「シュッ」と発音すると、マウスの「
右クリック」に相当するイベント検出信号が生成される訳である。
【0090】
また、奥側において4つに分割されている空間領域のE3、E4、E5、E6のそれぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」に相当し、かつ、カーソルの移動量を微少量とするイベントとして定義されている。例えば、E3の領域内でユーザーが短く「シュッ」と発音すると、「上」への微少量のカーソル移動
に相当するイベント検出信号が生成される訳である。このようなイベント検出信号によれば、ディスプレイ部30では、カーソルが微小移動するような表示制御がなされる。すなわち、ユーザーは必要に応じて、空間領域のE3、E4、E5、E6の短い発声を行うことにより、カーソルの細かい移動を実行することができるようになる。
【0091】
ステップS605においては、発声位置がE1,E2内であるか否かが判定される。ステップS605における判定結果がYESであるときにはステップS606に進み、判定結果がNOであるときにはステップS607に進む。
【0092】
ステップS606では、上記のように左クリックか右クリックかが特定される。
【0093】
また、ステップS607では、先に述べたように十字の方向別で微小量のカーソル移動が特定される。
【0094】
ステップS608でリターンする。
【0095】
上記のようにインターフェイス装置100で生成されたイベント検出信号によって、コンピュータ本体部20はディスプレイ部30における表示を制御する。すなわち、特に本実施形態においては、奥側において4つに分割されている空間領域のE3、E4、E5、E6のそれぞれ空間で短い発声があった場合には、カーソルの移動量が微量になるように表示制御がなされるものであり、ユーザーは必要に応じて、空間領域のE3、E4、E5、E6の短い発声を行うことにより、カーソルの細かい移動を実行することができるようになる。これにより、本発明の情報処理装置10では、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【0096】
なお、上記の実施形態においては、仮想空間Aは、A1、A2、A3、A4の4つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、A1とA3との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置100で生成し、ディスプレイ部30においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、X−Y平面の原点の真上で発声が検出されたらカーソルは上へ
移動し、右上45°の方向で発声が検出されたらカーソルは右上45°の方向に移動するように表示制御する。また、カーソルの移動量は、分割された領域の境界部に存在する所定の線分(O−O’)からの距離に比例して決定するようにしてもよい。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。カーソルの移動量は、距離と発声音量に比例して決定するようにしてもよい。
【0097】
また、上記の実施形態においては、仮想空間Eの奥側においては、E3、E4、E5、E6の4つの空間に分割し、それぞれ空間で発声があった場合には、一般的な十字キーの「上」、「下」、「右」、「左」を割り付ける単純な場合について説明したが、より詳細に仮想空間を分割することも可能である。すなわち、E3とE5との中間の辺りで長く発声すると、斜め上方向にカーソルが移動するようなイベント検出信号をインターフェイス装置100で生成し、ディスプレイ部30においてカーソルが斜め上方向に移動するように表示制御がされるようにしても良い。つまり、X−Y平面の原点の真上で発声が検出されたらカーソルは上へ移動し、右上45°の方向で発声が検出されたらカーソルは右上45°の方向に移動するように表示制御する。
【0098】
次に、本発明の第5実施形態について説明する。図15は本発明の第5実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。本実施形態は、第2実施形態の変形例であり、図9に示すフローチャートのステップS403がステップS403’に変更されたものである。そこで、このステップを中心に説明する。
【0099】
第5実施の形態に係るインターフェイス装置のサブルーチン処理のステップS403’においては、カーソル移動量を特定する際には、発声音量(又はその対数値)に比例し、なおかつ、拡大率に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が2倍となると、例えば、カーソルの移動量は1/2となるように設定されている。
【0100】
この実施形態では、カーソルを大局的な範囲で大きく移動させる場合は、画面の拡大率を等倍として、小さく移動する場合は拡大率を上げて表示するが、画面を拡大した時にカーソルの移動量が拡大前と同じままでは、拡大画面内をカーソルが大きく移動してしまい操作が困難となる。そこで、これを避けるために、拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにする。例えば、2倍表示の場合には実際のカーソルの移動量が2分の一になる。小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくする。
【0101】
次に、本発明の第6実施形態について説明する。図16は本発明の第6実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図17は本発明の第6実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【0102】
本実施形態は、第2実施形態の変形例であり、図9に示すフローチャートのステップS403がステップS403’ ’に変更されたものである。そこで、このステップを中心
に説明する。
【0103】
第6実施の形態に係るインターフェイス装置のサブルーチン処理のステップS403’
’においては、カーソル移動量を特定する際には、距離dに比例し、なおかつ、拡大率
に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が2倍となると、例えば、カーソルの移動量は1/2となるように設定されている。
【0104】
この実施形態では、カーソルの移動量は、分割された領域の境界部に存在する所定の線
分(O−O’)からの距離dに比例して決定する。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。
【0105】
また、拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにすることで、小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくすることが可能となる。
【0106】
次に、本発明の第7実施形態について説明する。図18は本発明の第7実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。本実施形態は、第3実施形態の変形例であり、図11に示すフローチャートのステップS504がステップS504’に変更されたものである。そこで、このステップを中心に説明する。
【0107】
第7実施の形態に係るインターフェイス装置のサブルーチン処理のステップS504’においては、カーソル移動量を特定する際には、発声音量(又はその対数値)に比例し、なおかつ、拡大率に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が2倍となると、例えば、カーソルの移動量は1/2となるように設定されている。このように拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにすることで、小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくすることが可能となる。
【0108】
次に、本発明の第8実施形態について説明する。図19は本発明の第8実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図であり、図20は本発明の第8実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想
空間例を示す図である。
【0109】
本実施形態は、第3実施形態の変形例であり、図11に示すフローチャートのステップS504がステップS504’ ’に変更されたものである。そこで、このステップを中
心に説明する。
【0110】
第8実施の形態に係るインターフェイス装置のサブルーチン処理のステップS504’
’においては、カーソル移動量を特定する際には、距離dに比例し、なおかつ、拡大率
に反比例したカーソル移動量が特定されるようになっている。例えば、拡大率が2倍となると、例えば、カーソルの移動量は1/2となるように設定されている。
【0111】
この実施形態では、カーソルの移動量は、分割された領域の境界部に存在する所定の線分(O−O’)からの距離dに比例して決定する。すなわち、中心から離れて発声するほど一度に大きくカーソルを移動させることができるように表示制御を行う。
【0112】
また、拡大率と実際のカーソルの移動量を反比例させることで、拡大表示内でのカーソルの移動量を一定に保つようにすることで、小さなアイコンやボタンなどの対象を選択するときは拡大率を上げることで、見かけ上の対象物を大きくし、選択しやすくすることが可能となる。
【0113】
次に、本発明の第9実施形態について説明する。本実施形態は、これまで説明してきた任意の実施形態と組み合わせて用いるものである。図21は本発明の第9実施の形態に係る情報処理装置におけるディスプレイ部での表示例を示す図である。図21において、31はインターフェイス装置100が、発声検出領域R中のどの位置において、ユーザーの
発声位置を認識しているかをグラフィカルに示すウインドウである。
【0114】
本発明の情報処理装置10は、視覚で確認できるマウス等のポインティングデバイスと異なり、発声しているユーザー自身の位置が3次元の発声検出領域R中どの位置に相当す
るのかを把握することは容易ではない。また、発声音量は発声する音「シー」や「シュー」の違いでも変化し、把握しにくい。
【0115】
そこでディスプレイ部30上に現在の発声位置を表示することで、ユーザーが自らの発声位置を把握しやすくする。表示は擬似的な3次元領域に発声位置を円で表示する。なお、各平面(X−Y、Y−Z、Z−X)に陰を表示することで空間的な位置をとらえやすくするようにしてもよい。また、過去一定時間中の発声音量の変化をグラフにした物を逐次表示させるようにしてもよい。これにより、発声音量とカーソルの速度の関係も理解しやすくなる。
【0116】
次に、本発明の情報処理装置10を用いた使用感に係る実験について説明する。操作するWindows(登録商標)のディスプレイ部30の前に三軸のマイクロフォンアレイであるインターフェイス装置100を設置して使用する。評価のために5人の被験者に本発明の情報処理装置10を用い、目標までのカーソル操作を行ってもらい、使用感についてインタビューを行った。
【0117】
目標までのカーソル操作実験は目標をディスプレイ部30上に表示し、その上にカーソルを移動、左クリックを行うまでを1試行とし、開始位置からの到達時間と移動経路を記録した。使用したディスプレイは解像度1600×1200である。目標のサイズは16×16であり、Windows(登録商標)のウインドウの閉じるボタンと同程度の大きさである。また、ズーム機能の有効性を検証するために各被験者には以下の三条件についてそれぞれ3試行行った。
1)ズーム機能無し (第1実施形態)
2)クリック動作によるON/OFF切り替えズーム有り (第2実施形態)
3)発話位置によるON/OFF切り替えズーム有り (第3実施形態)
それぞれの条件について本人が操作可能であると判断するまで練習を行い、実験を行った。
いずれのズーム機能においてもズーム無しの時と比較して目標への到達時間が短縮されている。このことからズームによりカーソルの細かい操作が可能になったといえ、ズーム機能の有効性が示された。また、二つのズーム機能を比較すると、概ね発話位置によるON/OFF切り替えズームが短い時間で目標に到達している。これは、クリックによるON/OFF切り替えでは、一度移動を停止し、クリックを行う必要があったためであると考えられる。しかし、いくつかの試行では位置によるON/OFF切り替えの方が目標到達へ長い時間を要している。これは、Z軸方向の発話位置がユーザの意図しない時に変化したことによる。このときズーム倍率が変化し、カーソルが予期しない速度で移動し制御が困難になる。この傾向は練習時間が短かった被験者ほど現れやすかった。
被験者へのインタビューの結果、システムの使用感に関して以下のことがわかった。
・前後(Z軸)方向の発話位置が制御しにくく、思ったようにズームの倍率を制御できない。
・カーソル位置の微調整が(ズーム機能なしでは)できない。
・短時間発話でクリックではなく微調整ができるようにしてほしい。
【0118】
以上のことからわかるように、多くの被験者はズームの制御をしづらいと感じており、できる限りズーム機能を使用しないで目標にカーソルを移動させようとする傾向にあった。発話位置をZ軸座標、すなわち、ディスプレイ部30に対して垂直方向について絶対的に制御することは容易では無いことが判明した。その原因は、左右へのカーソル移動を行う場合、首を回転させて発話位置を左右に動かすためである。首を回転させた場合、ディ
スプレイからの距離も変化し、ユーザの意図しないZ軸座標の変化が現れる。これにより、拡大率が予期せず変化し、ユーザの混乱を招く。練習時間を長くとった場合、発話位置のZ軸座標制御が可能になるが、多くの被験者はできる限り前後への移動をしない、すなわち、ズーム機能を使用しないように操作を行っていた。また、
・拡大表示内に目標が入っていないと目標を見失う。
・視覚フィードバックを見ながら操作するのは難しい。
・カーソルを見失いやすい
等の視覚的な面での問題点が挙げられた。視覚フィードバックは操作の邪魔にならないようにディスプレイ部30右下に表示されている。操作をしながらその表示を確認することは難しい。また、マウスなどと比較して制御が難しいため、予想以上に大きく移動してしまうことがしばしば発生し、カーソルを見失うことがある。そこで、視覚フィードバックをカーソルに重ねる形で表示する等の方法が考えられる。
【0119】
次に、インターフェイス装置100の処理における要素技術について説明する。
【0120】
インターフェイス装置100では、周囲雑音が存在する環境下でも、3次元的なユーザの発声位置、および雑音を分離したユーザー音声が必要となる。これらの情報を抽出するために必要な3次元音声ポインティングデバイスであるインターフェイス装置100の5
つの処理、1.ユーザ発声位置の推定(近距離音源の推定)、2.周囲雑音の到来方向推定(遠距離にある音源の音波到来方向の推定)、3.ユーザーの発話検出、4.音源分離、
5.音声認識処理(特願2003−320183号)について以下に述べる。
1.ユーザー発声位置の推定(近距離音源の推定)
マイクロフォンアレイから約1m以内の近距離にある音源の位置を、マイクロフォンアレイで推定する方法について以下に説明する。
【0121】
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。3次元空間中の
任意の位置
【0122】
【数1】
に置かれた音源から出力された音響信号を、3次元空間中の任意の位置
【0123】
【数2】
に配置されたQ個のマイクロフォンで受音する。音源と各マイクロフォン間の距離Rqは次式で求められる。
【0124】
【数3】
音源から各マイクロフォンまでの伝播時間τqは、音速をvとすると、次式で求められる。
【0125】
【数4】
各マイクロフォンで受音した中心周波数ωの狭帯域信号の、音源のそれに対する利得gqは、一般的に、音源とマイクロフォン間の距離Rqと中心周波数ωの関数として定義される。
【0126】
【数5】
例えば、利得を距離Rqだけの関数として、実験的に求めた次式のような関数を用いる。
【0127】
【数6】
中心周波数ωの狭帯域信号に関する、音源と各マイクロフォン間の伝達特性は、
【0128】
【数7】
と表される。そして、位置P0にある音源を表す位置ベクトルa(ω,P0)を、次式のように、狭帯域信号に関する、音源と各マイクロフォン間の伝達特性を要素とする複素ベクトルとして定義する。
【0129】
【数8】
音源位置の推定はMUSIC法(相関行列を固有値分解することで信号部分空間と雑音部分空間を求め、任意の音源位置ベクトルと雑音部分空間の内積の逆数を求めることにより、音源の音波到来方向や位置を調べる手法)を用いて、以下の手順で行う。q番目のマイクロフォン入力の短時間フーリエ変換を
【0130】
【数9】
で表し、これを要素として観測ベクトルを次のように定義する。
【0131】
【数10】
ここで、nはフレーム時刻のインデックスである。連続するN個の観測ベクトルから相関行列を次式により求める。
【0132】
【数11】
この相関行列の大きい順に並べた固有値を
【0133】
【数12】
とし、それぞれに対応する固有ベクトルを
【0134】
【数13】
とする。そして、音源数Sを次式により推定する。
【0135】
【数14】
もしくは、固有値に対する閾値を設け、その閾値を超える固有値の数を音源数Sとするこ
とも可能である。
雑音部分空間の基底ベクトルから行列Rn(ω)を次のように定義し、
【0136】
【数15】
周波数帯域
【0137】
【数16】
および音源位置推定の探索領域Uを
【0138】
【数17】
として、
【0139】
【数18】
を計算する。そして、関数F(P)が極大値をとる座標ベクトルを求める。ここでは仮にS個の極大値を与える座標ベクトルがP1,P2,・・・,Psが推定されたとする。次にその各々の座標ベクトルにある音源のパワーを次式により求める。
【0140】
【数19】
そして、2つの閾値Fthr, Pthrを用意し、各位置ベクトルにおけるF(Ps)とP(Ps)が次の条件を満足するときに、
【0141】
【数20】
連続するN個のフレーム時間内の座標ベクトルPlにおいて発声があったと判断する。
音源位置の推定処理は連続するN個のフレームを1つのブロックとして処理する。音源位置の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで式(30)の条件が満たされたら発声があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音源の移動奇跡を捉えることができる。
2.周囲雑音の到来方向推定(遠距離にある音源の音波到来方向の推定)
マイクロフォンアレイから遠距離にある音源の音波が到来する方向を、マイクロフォンアレイで推定する手法について以下に述べる。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。遠距離から到来す
る音波は平面波として観測されると考える。
【0142】
図22は本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。図22は、例として、任意の位置に配置された3個のマイクロフォンm1、m2、m3で、音源から到来した音波を受音する場合を示している。図22で、点cは基準点を示しており、この基準点のまわりで音波の到来方向を推定する。図22で、平面sは、基準点cを含む平面波の断面を示している。平面sの法線ベクトルnは、そのベクトルの向きを音波の伝播方向と逆向きとし、次式のように定義する。
【0143】
【数21】
3次元空間中の音源の音波到来方向は2つのパラメータ(θ,φ)で表される。方向(θ
,φ)から到来する音波を各マイクロフォンで受音し、そのフーリエ変換を求めることで受音信号を狭帯域信号に分解し、各受音信号の狭帯域信号毎に利得と位相を複素数として表し、それを要素として狭帯域信号毎に全受音信号分だけ並べたベクトルを音源の位置ベクトルと定義する。以下の処理において、方向(θ,φ)から到来する音波は、前述の位置ベクトルとして表現される。位置ベクトルは具体的に以下のように求められる。q番目のマイクロフォンと平面sの間の距離rqを次式により求める。
【0144】
【数22】
距離rqは平面sに関してマイクロフォンが音源側に位置すれば正となり、逆に音源と反対側にある場合は負の値をとる。音速をvとするとマイクロフォンと平面s間の伝播時間Tqは次式で表される。
【0145】
【数23】
平面sでの振幅を基準としてそこから距離rq離れた位置の振幅に関する利得を、狭帯域信号の中心周波数ωと距離rqの関数として次のように定義する。
【0146】
【数24】
平面sでの位相を基準としてそこから距離rq離れた位置の位相差は、次式で表される。
【0147】
【数25】
以上より、平面sを基準として、各マイクロフォンで観測される狭帯域信号の利得と位相差は次式で表される。
【0148】
【数26】
Q個のマイクで(θ、φ)方向から到来する音波を観測するとき、音源の位置ベクトルは、各マイクロフォンについて式(26)に従い求めた値を要素とするベクトルとして次式のように定義される。
【0149】
【数27】
音源の位置ベクトルが定義されたら、音波の到来方向推定は、MUSIC法を用いて行われる。式(15)で与えられる行列Rn(ω)を用い、音波到来方向推定の探索領域Iを
【0150】
【数28】
として、
【0151】
【数29】
を計算する。そして、関数J(θ、φ)が極大値を与える方向(θ、φ)を求める。ここでは仮にK個の音源が存在し、極大値を与えるK個の音波到来方向((θ1、φ1),・・・,(θK、φK))が推定されたとする。次にその各々の音波到来方向にある音源のパワーを次式により求める。
【0152】
【数30】
そして、2つの閾値Jthr, Qthrを用意し、各到来方向におけるJ(θk,φk)とQ(θk,φk)が次の条件を満足するときに、
【0153】
【数31】
連続するN個のフレーム時間内の到来方向(θk,φk)において発声があったと判断する。音波の到来方向の推定処理は連続するN個のフレームを1つのブロックとして処理する。到来方向の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで式(31)の条件が満たされたらその方向から音波の到来があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音波の到来方向の移動奇跡を捉えることができる。
【0154】
近距離音源の位置推定結果と遠距離音源の音波到来方向推定結果は、続く発話検出処理や音源分離処理で重要な役割を果たすが、近距離音源と遠距離音源が同時に発生していて、更に、遠距離音源から到来する音波に対して近距離音源のパワーが著しく大きくなるとき、遠距離音源の音波の到来方向推定がうまく行えない場合がある。このような時は、近
距離音源が発生する直前に推定された、遠距離音源の音波の到来方向推定結果を用いるなどして対処する。
3.ユーザーの発話検出
複数の音源が存在している場合、どの音源が認識すべき音声なのかの特定は一般的に難しい。一方、音声を用いたインタフェースを採用するシステムでは、予めシステムのユーザがシステムに対して相対的にどのような位置で発声するかを表すユーザ発声領域を決めておくことができる。この場合、前述の方法でシステムの周囲に音源が複数存在しているとしても、各音源の位置や音波の到来方向を推定できれば、システムが予め想定しているユーザ発声領域に入る音源を選択することで容易にユーザの音声を特定できるようになる。
【0155】
式(20)や式(31)の条件が満たされることで音源の存在を検出し、更に音源の位置や音波の到来方向の条件が満たされてユーザの発声が検出される。この検出結果は発話区間情報として、後続音声認識処理において重要な役割を果たす。音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。一般的に、発話区間の開始時点がずれると音声認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式(18)や式(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができるという利点を持つ。
【0156】
例えば、図23に示すようなユーザの発声領域を定義することができる。図23は本発明による発話検出処理の機能説明図である。この図では簡単のためにX−Y平面のみで表すが、一般的に3次元空間においても同様に任意のユーザ発声領域を定義することができ
る。図23では、任意の位置に配置された8個のマイクロフォンm1〜m8を用いた処理を仮定し、近距離音源の探索領域および遠距離音源の探索領域のそれぞれで、ユーザ発声領域を定義している。近距離音源の探索空間は、(PxL,PyL)と(PxH,PyH)の2点を結ぶ直線を対角線とする矩形領域で、その領域内で(PTxL1,PTyL1
)と(PTxH1,PTyH1)、(PTxL2,PTyL2)と(PTxH2,PTyH2)のそれぞれの2点を結ぶ直線を対角線とする2つの矩形領域をユーザー発声領域と
定義している。従って、式(20)により発声があったと判断された音源位置のなかで、その座標ベクトルが前記ユーザ発声領域内に入っているものを選択することで、近距離に存在する音源の中でユーザー声を特定できる。
【0157】
一方、遠距離音源の探索空間は点Cを基準として、角度θLからθHの方向を探索領域とし、その領域内で角度θTL1からθTH1の領域をユーザーの発声領域と定義している。従って、式(31)により発声があったと判断された音波の到来方向のなかで、到来方向が前記ユーザ発声領域内に入っているものを選択することで、遠距離に存在する音源の中でユーザ音声を特定できる。
4.音源分離
発話検出された音源の位置推定結果または音波の到来方向推定結果を用いて、ユーザの音声を強調し周囲雑音を抑圧する音源分離処理について以下に説明する。ユーザ音声の発話位置または到来方向は前記発話検出処理により求められている。また、周囲雑音の音源位置または到来方向も既に推定されている。これらの推定結果と式(8)と式(27)の音源位置ベクトル、そして無指向性雑音の分散を表すσを用いて、行列V(ω)を次式のように定義する。
【0158】
【数32】
この相関行列の大きい順に並べた固有値を
【0159】
【数33】
とし、それぞれに対応する固有ベクトルを
【0160】
【数34】
とする。
ここで、相関行列V(ω)には近距離音源S個と遠距離音源K個を合わせて(S+K)個の音源が含まれているから、固有値の大きい方から(S+K)の固有値と固有ベクトルを用いて、Z(ω)を次式のように定義する。
【0161】
【数35】
そして、近距離の座標ベクトルPに居るユーザの音声を強調する分離フィルタW(ω)は、次式で与えられる。
【0162】
【数36】
式(36)の分離フィルタに式(10)の観測ベクトルを乗じることで座標ベクトルPに居るユーザの音声v(ω)が得られる。
【0163】
【数37】
この強調されたユーザ音声の波形信号は式(37)の逆フーリエ変換を計算することで求められる。
【0164】
一方、遠距離の方向(θ,φ)に居るユーザの音声を強調する場合の分離フィルタM(ω)は次式で与えられる。
【0165】
【数38】
式(38)の分離フィルタに式(10)の観測ベクトルを乗じることで方向(θ,φ)に居るユーザの強調音声v(ω)が得られる。
【0166】
【数39】
この強調されたユーザ音声の波形信号は式(37)の逆フーリエ変換を計算することで求められる。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により移動しているユーザーの強調音声が得られる。
5.音声認識処理
前記音源分離処理は、指向性雑音に対しては有効であるが、無指向性雑音に対してはある程度雑音が残留してしまう。また、突発性雑音のように短時間で発生する雑音に対してもあまり雑音抑圧効果を望めない。そこで、前記音源分離処理により強調されたユーザー音声の認識に、例えば、特願2003−320183号「背景雑音歪みの補正処理方法及びそれを用いた音声認識システム」で述べられている特徴補正法を組み込んだ音声認識エンジンを用いることで、残留雑音の影響を軽減する。なお本発明は、音声認識エンジンとして特願2003−320183号に限定するものではなく、この他にも雑音に頑健な様々な手法を実装した音声認識エンジンを使用することが考えられる。
【0167】
特願2003−320183号で述べられている特徴補正法は、音声認識エンジンが予め音声認識のためにテンプレートモデルとして持っているHidden Markov Model(HMM)に基づいて雑音重畳音声の特徴量補正を行う。HMMは雑音のないクリーン音声から求めたMel−Frequency Cepstrum Coefficient(MFCC)に基づいて学習されている。このため、特徴補正のために新たにパラメータを用意する必要がなく、既存の認識エンジンに比較的容易に特徴補正法を組み込むことができるという利点がある。この手法は雑音を定常成分と一時的に変化を示す非定常成分に分けて考え、定常成分に関しては発話直前の数フレームから雑音の定常成分を推定する。
【0168】
HMMが持っている分布のコピーを生成し、推定した雑音の定常成分を加えることで定常雑音重畳音声の特徴量分布を生成する。観測された雑音重畳音声の特徴量の事後確率を、この定常雑音重畳音声の特徴量分布で評価することで、雑音の定常成分による歪を吸収する。しかし、この処理だけでは雑音の非定常成分による歪が考慮されていないので、雑音の非定常成分が存在する場合には、前記手段で求めた事後確率は正確ではなくなる。一方、特徴補正にHMMを用いることで、 特徴量時系列の時間的構造とそれに沿って求め
られる累積出力確率が利用可能となる。この累積出力確率から算出される重みを前述の事後確率に付与することにより、雑音の一時的に変化する非定常成分により劣化した事後確率の信頼度を改善することが出来る。
【0169】
音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。特に、前記特徴補正を組み込んだ音声認識エンジンは、発話開始直前の数フレームか
ら周囲雑音の定常的な特徴を推定するので、発話区間の開始時点がずれると認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式(18)や式(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができる。
【0170】
以上、本発明の情報処理装置によれば、雑音がある環境下でもユーザーの3次元空間内の位置を呼気や音声を用いてディスプレイなどにユーザー操作を表示することが可能となる。
【0171】
また、本発明の情報処理装置によれば、小さなアイコンやボタンへのカーソル移動などの細かな入力操作を行うことが可能となる。
【図面の簡単な説明】
【0172】
【図1】本発明の実施の形態に係る情報処理装置の外観を斜視的に示す図である。
【図2】本発明の実施の形態に係る情報処理装置に用いられるインターフェイス装置の外観を斜視的に示す図である。
【図3】本発明の実施の形態に係る情報処理装置のブロック構成を示す図である。
【図4】本発明の実施の形態に係るインターフェイス装置の利用形態例を示す図である。
【図5】本発明の実施の形態に係るインターフェイス装置の処理のフローチャートを示す図である。
【図6】本発明の第1実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図7】本発明の第1実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図8】本発明の第1実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図9】本発明の第2実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図10】本発明の第2実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図11】本発明の第3実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図12】本発明の第3実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図13】本発明の第4実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図14】本発明の第4実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図15】本発明の第5実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図16】本発明の第6実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図17】本発明の第6実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図18】本発明の第7実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図19】本発明の第8実施の形態に係るインターフェイス装置のサブルーチン処理のフローチャートを示す図である。
【図20】本発明の第8実施の形態に係る情報処理装置において発声検出領域R中に定義された仮想空間例を示す図である。
【図21】本発明の第9実施の形態に係る情報処理装置におけるディスプレイ部での表示例を示す図である。
【図22】本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。
【図23】本発明による発話検出処理の機能説明図である。
【符号の説明】
【0173】
10・・・情報処理装置、20・・・コンピュータ本体部、30・・・ディスプレイ部、31・・・ウインドウ、100・・・インターフェイス装置、200・・・マイクロフォンアレイ、201・・・シリコンマイク、202・・・ウインドスクリーン、210・・・スタンド、211・・・主支柱、212・・・左側支柱、213・・・右側支柱、280・・・マイクアンプ、290・・・AD変換部、300・・・CPU、400・・・記憶部、500・・・接続ポート部
【特許請求の範囲】
【請求項1】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記発声位置特定手段によって特定された発声位置に応じて、前記表示手段上に表示されるカーソル位置の変更を行うように制御することを有することを特徴とする情報処理装置。
【請求項2】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示態様を変更するように制御することを特徴とする情報処理装置。
【請求項3】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における拡大表示実行又は拡大表示解除の別を変更するように制御することを特徴とする情報処理装置。
【請求項4】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示の拡大率を変更するように制御することを特徴とする情報処理装置。
【請求項5】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段に表示されるカーソルの移動量の変更を行うように制御することを有することを特徴とする情報処理装置。
【請求項6】
前記表示制御手段は、前記表示手段における表示の拡大率の変更に伴い、前記表示手段に表示されるカーソルの移動量を変更することを特徴とする請求項3又は請求項4に記載の情報処理装置。
【請求項7】
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の音量を特定する音量特定手段、を有し、
前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記音量特定手段によって特定された音量又は音量の対数値に比例させるように制御することを特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記発声位置特定手段によって特定された発声位置と所定線分との間の距離に比例させるように制御することを特徴とする請求項6に記載の情報処理装置。
【請求項9】
前記表示制御手段は、前記発声位置特定手段によって特定された発声位置を前記表示手段に表示するように制御することを特徴とする請求項1乃至請求項8に記載の情報処理装置。
【請求項1】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記発声位置特定手段によって特定された発声位置に応じて、前記表示手段上に表示されるカーソル位置の変更を行うように制御することを有することを特徴とする情報処理装置。
【請求項2】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示態様を変更するように制御することを特徴とする情報処理装置。
【請求項3】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における拡大表示実行又は拡大表示解除の別を変更するように制御することを特徴とする情報処理装置。
【請求項4】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段における表示の拡大率を変更するように制御することを特徴とする情報処理装置。
【請求項5】
複数のマイクロフォンが所定配置で設けられてなるマイクロフォンアレイと、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の継続時間を特定する継続時間特定手段と、
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の発声位置を3次元的に特定する発声位置特定手段と、
前記継続時間特定手段によって特定された継続時間が所定時間より長いか否かを判定する継続時間判定手段と、
ユーザーに対する表示を行う表示手段と、
前記表示手段を制御する表示制御手段と、を有し、
前記表示制御手段は、前記継続時間判定手段による判定結果と、前記発声位置特定手段によって特定された発声位置とに応じて、前記表示手段に表示されるカーソルの移動量の変更を行うように制御することを有することを特徴とする情報処理装置。
【請求項6】
前記表示制御手段は、前記表示手段における表示の拡大率の変更に伴い、前記表示手段に表示されるカーソルの移動量を変更することを特徴とする請求項3又は請求項4に記載の情報処理装置。
【請求項7】
前記マイクロフォンアレイにより取得された音声データに基づいてユーザーの鼻口腔から発せられた音の音量を特定する音量特定手段、を有し、
前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記音量特定手段によって特定された音量又は音量の対数値に比例させるように制御することを特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記表示制御手段は、前記表示手段に表示されるカーソルの移動量を、前記発声位置特定手段によって特定された発声位置と所定線分との間の距離に比例させるように制御することを特徴とする請求項6に記載の情報処理装置。
【請求項9】
前記表示制御手段は、前記発声位置特定手段によって特定された発声位置を前記表示手段に表示するように制御することを特徴とする請求項1乃至請求項8に記載の情報処理装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【公開番号】特開2009−282645(P2009−282645A)
【公開日】平成21年12月3日(2009.12.3)
【国際特許分類】
【出願番号】特願2008−132552(P2008−132552)
【出願日】平成20年5月20日(2008.5.20)
【出願人】(301021533)独立行政法人産業技術総合研究所 (6,529)
【Fターム(参考)】
【公開日】平成21年12月3日(2009.12.3)
【国際特許分類】
【出願日】平成20年5月20日(2008.5.20)
【出願人】(301021533)独立行政法人産業技術総合研究所 (6,529)
【Fターム(参考)】
[ Back to top ]