音声妨害を検出および除去する方法および装置
マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減する方法が提供される。この方法は、前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する操作から開始する。次に、前記音声信号のサンプリングレートが下げられる。次に、検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数が適用される。次に、前記音声信号の前記ノイズ妨害が、前記検出信号の統計平均に従って調整される。音声信号に関連する妨害をキャンセル可能なシステム、ビデオゲームコントローラ、および音声信号に関連するノイズ妨害を低減する集積回路が含まれる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に音声処理に関し、より詳細には、本発明は、音声信号からノイズ妨害を特定して、これを除去することが可能なシステムに関する。
【背景技術】
【0002】
音声入力システムは、典型的には、話者の口の近くに着用される、ヘッドセットにつながれたマイクロフォンとして設計されている。このことが、ヘッドセットを着用しなければならないという物理的な制約をユーザに課するため、ユーザは、通常、ヘッドセットの着用を避けるため、実質的に口述のためにのみヘッドセットを使用し、比較的短い入力を行ったりコンピュータにコマンドを出すのにキーボードによるタイプ入力に頼っている。
【0003】
ビデオゲーム機は家庭内に普及してきた。ビデオゲームメーカは、ユーザがより現実に近い体験をでき、オンラインアプリケーションなどのゲームの制限を広げるべく絶えず努力を続けている。例えば、多くのノイズが発生している部屋にいる別のプレーヤと通信する機能、または、プレーヤ間でオンラインゲームをプレイ中に、バックグラウンドノイズとゲーム自体から出るノイズがこの通信に干渉する場合にユーザが音声信号を送受信する機能が、これまで、リアルタイムのクリアかつ効果的なプレーヤ間通信を阻んできた。この同じ障壁により、プレーヤが、ビデオゲームコンソールに音声命令を出す機能が妨げられてきた。この場合も、バックグラウンドノイズ、ゲームのノイズおよび部屋の残響の全てが、プレーヤが発する音声信号に干渉する。
【発明の開示】
【発明が解決しようとする課題】
【0004】
ユーザがヘッドセットの着用をしたがらない傾向にあるため、音をキャプチャするために、ヘッドセットの代わりにマイクロフォンを使用する方法がある。しかし、現在市販されているマイクロフォンシステムの不具合に、音声信号からノイズ妨害を検出してこれを除去できない点がある。マイクロフォンが、ビデオゲームコントローラなどの入力装置に搭載されている場合、入力装置でのさまざまな機械的な活動に起因してノイズ妨害が発生するという点に留意すべきである。例えば、ゲームコントローラの場合、ボタンを押下したり、ジョイスティックをクリックしたり、指を叩いたり、テーブルに衝突したり、コントローラの振動や表面摩擦などによって、ノイズ妨害が発生することがある。
【0005】
ゲームコントローラなどの入力装置に搭載されるマイクロフォンセンサと各種の機械式入力装置の距離が近いという特有の性質のため、マイクロフォンが、近くで発生した機械のノイズ(ゲームボタンを押下したり、ジョイスティックをクリックしたり、テーブルに衝突したり、コントローラの表面を叩いたとき、フォースフィードバック、振動など)を検出して、それを増幅すると、激しい妨害が発生する。アナログ信号の伝送によって発生する衝撃ノイズを除去する従来の課題とは異なり、この場合は、機械的妨害の持続期間は非常に長く、より動的である。妨害の可聴できる期間は、50ミリ秒未満の(ジョイスティックのクリックなど)鋭い急なインパルスから、発話の間じゅう(触覚装置の表面を触りながら話す場合など)に及ぶ。更に、人間が出す打的な音の一部(例えば叫び、閉鎖子音など)は、所望の「通常の音」(目的音声とも呼ばれる)と機械的妨害(ノイズ妨害と呼ばれる)との境目を更にわからなくしてしまう。更に、壊れた音声信号を復旧するには、音声信号から機械的ノイズを効果的に分離しなければならない。
【0006】
その結果、従来技術の課題を解決して、近距離場において発生するノイズ妨害を検出してこれを除去するために、入力装置と共に用いられるマイクロフォンを提供することが求められている。
【課題を解決するための手段】
【0007】
大まかにいうと、本発明は、音声トラック信号から機械的妨害を検出して、これを除去するための手法を規定する方法および装置を提供することによって、このようなニーズを満たす。本発明は、方法、システム、計算機可読媒体または装置などの多くの方法で実施できる点を理解すべきである。以下に本発明のいくつかの発明の実施形態を記載する。
【0008】
一実施形態では、音声信号を処理する方法が提供される。この方法は、調和部分と妨害部分とから構成される信号を受信する操作から開始する。次に、前記音声信号の前記調和部分に関連する振幅が下げられる。次に、前記調和部分の振幅を下げた前記音声信号のサンプリングレートが下げられる。次に、前記音声信号の前記妨害部分に関連する信号シーケンスの種類が特定される。次に、前記信号シーケンスの前記種類に従って前記妨害部分が変更される。
【0009】
別の実施形態では、マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減する方法が提供される。この方法は、前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する操作から開始する。次に、前記音声信号のサンプリングレートが下げられる。次に、検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数が適用される。次に、前記音声信号の前記ノイズ妨害が、前記検出信号の統計平均に従って調整される。
【0010】
更に別の実施形態では、音声信号を処理するプログラム命令を有する計算機可読媒体が提供される。この計算機可読媒体は、調和部分および妨害部分から構成される信号を受信するプログラム命令を有する。前記音声信号の前記調和部分に関連する振幅を下げるプログラム命令と、前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げるプログラム命令とが提供される。前記音声信号の前記妨害部分に関連する信号シーケンスの種類を特定するプログラム命令と、前記信号シーケンスの前記種類に従って前記妨害部分を変更するプログラム命令とが含まれる。
【0011】
更に別の実施形態では、マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減するプログラム命令を有する計算機可読媒体が提供される。この計算機可読媒体は、前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調するプログラム命令を有する。前記音声信号のサンプリングレートを下げるプログラム命令が含まれる。検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用するプログラム命令と、前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整するプログラム命令とが含まれる。
【0012】
別の実施形態では、音声信号に関連する妨害をキャンセル可能なシステムが提供される。このシステムは、音声信号を処理する論理回路を有するコンピューティング装置を有する。前記音声信号を処理する前記論理回路は、前記音声信号から検出信号を生成する論理回路と、前記音声信号の信号シーケンスが妨害であるかどうかを、前記検出信号の対応する信号シーケンスを分析することによって判定する論理回路とを有する。また、このシステムは、前記コンピューティング装置に動作可能に接続された入力装置と、前記音声信号をキャプチャするように構成されたマイクロフォンとを有する。前記妨害の発生源が、前記マイクロフォンに関連する近距離場内に存在し、前記音声信号の目的成分の発生源が前記マイクロフォンに関連する遠距離場内に存在するように、前記マイクロフォンは配置されている。
【0013】
更に別の実施形態では、ビデオゲームコントローラが提供される。このビデオゲームコントローラは、前記ビデオゲームコントローラに取り付けられたマイクロフォンを有する。前記マイクロフォンは、前記マイクロフォンに対して遠距離場にある目的音声信号と、前記マイクロフォンに対して近距離場にある妨害ノイズとを含む音声信号を検出するように構成されている。前記ビデオゲームコントローラは、音声信号を処理するように構成された論理回路を有する。前記論理回路は、前記音声信号に偶数次の導関数を適用することによって、検出信号を生成するように構成された検出信号論理回路と、前記検出信号の分析によって前記音声信号から妨害ノイズを除去するように構成された妨害キャンセル論理回路とを有する。
【0014】
更に別の実施形態では、集積回路が提供される。この集積回路は、複数のノイズ源環境において少なくとも1つのマイクロフォンから音声信号を受信するように構成された回路を有する。前記音声信号に対して信号の非相関化を実行するように構成された回路と、前記非相関化された音声信号をダウンサンプリングするように構成された回路とが提供される。前記ダウンサンプリングされた音声信号に微分操作を適用するように構成された回路が含まれる。前記微分された音声信号内にノイズ妨害信号シーケンスを検出するように構成された回路と、前記ノイズ妨害信号シーケンスに関連する前記音声信号の信号シーケンスを除去するように構成された回路が提供される。
【0015】
本発明の他の態様および利点は、例示のために本発明の原理を示す添付の図面と併せて、以下の詳細な説明を読めば明らかとなるであろう。
【発明を実施するための最良の形態】
【0016】
本発明は添付の図面と併せて以下の詳細な説明を読めば容易に理解できるであろう。図面において、同じ参照符号が同じ構造要素に使用されている。
【0017】
音声入力システムの入力装置に対して近距離場で発生したノイズ妨害を検出してこれをキャンセルするように構成された音声入力システムのためのシステム、装置および方法について本発明を記載する。しかし、本発明を、このような詳細な内容の一部または全てを用いなくても実施しうることは当業者にとって自明である。場合によっては、本発明を不必要にあいまいにすることのないよう、公知の処理操作は詳述していない。
【0018】
本発明の各種実施形態は、コンシューマデバイスに関連付けられた音声入力システムのためのシステムおよび方法を提供する。この入力システムは、「クリーンな」信号を提供するために、ノイズ妨害を検出して、音声信号からこのノイズ妨害を能率的に除去することができる。ここに記載する実施形態が入力装置に搭載される場合には、目的信号は遠距離場(far field)から発生するが、ノイズ妨害は近距離場(near field)から発生する。目的信号は、ユーザの発話、音楽、音声トラック信号、あるいは記録が求められているほかのどのような音であってもよいという点に留意すべきである。このため、ビデオゲーム環境では、ゲームやオンラインゲームアプリケーションなどの入力制御のために、ユーザの声をキャプチャすることが求められうる。ノイズ妨害は、入力装置を操作しているユーザが発生させる機械的ノイズでありうるという点に留意すべきである。基本的に、ノイズ妨害は、パルスを有する任意の信号でありうる。また、ノイズ妨害が、ユーザによる発話のこともある。下記に記載するように、ノイズ妨害の信号の検出と分離は、(1)スペクトル白色化、(2)妨害検出および(3)信号補正の3段階に分けられる。
【0019】
スペクトル白色化段階は、音声信号の目的信号部分のスペクトルを平坦にする効果を有する。このため、スペクトル白色化を適用した後は、ノイズ妨害の部分が、目的信号の部分に対して増幅される。妨害検出段階では、スペクトル白色化段階の出力を受け、目的信号をノイズ妨害から更に差別化することに加えて、検出信号を生成する。ここでは、スペクトル白色化段階のダウンサンプリングされた出力に対して偶数次の導関数を適用することにより、この目的が達成される。信号補正段階では、検出信号が解析され、信号シーケンスが、ノイズ妨害のみを含むか、目的信号のみを含むか、または何らかの形でこの両者を含んでいるかが決定される。ノイズ妨害が存在する場合、ノイズ妨害を実質的に除去するために、検出信号に関連する信号の種類に基づいて、音声信号が補正される。ここに記載する実施形態はビデオゲームコントローラに関して説明しているが、これらの実施形態は、音声信号がキャプチャされており、目的信号にノイズ妨害が含まれている可能性のある適切な入力装置であれば、どのようなものにも拡張することができることは当業者であれば理解できるであろう。
【0020】
ゲームコントローラに搭載されたマイクロフォンが記録するデジタル音声に現れる激しい機械的妨害を検出してこれをキャンセルするための、コンピュータによる効率的な方法およびシステムについて、以下に更に詳細に説明する。ノイズ妨害の発生源は、ゲームコントローラなどの入力装置におけるさまざまな機械的な活動である。これらの機械的な活動には、ゲームボタンの押下、ジョイスティックのクリック、指叩き、テーブルへの衝突、コントローラの振動、触覚フィードバック、表面摩擦などがある。本検出方式の目的は、音声中に打的な声、激しい音楽または閉鎖子音が存在する場合に、誤認識することなく機械的妨害を検出および検証することにある。音声信号からのこのような妨害の分離および除去は、記録品質の低下を抑えるような方法で実行される。多くの場合、ここに提案する方法は、音響ひずみをまったく感知できない、あるいはほとんど感知できない量に保ちつつ、激しいノイズのレベルを効果的に低減させる。
【0021】
図1A,1Bは、本発明の一実施形態によるノイズ妨害除去の前後の音声信号のフットプリントをそれぞれ示す代表的なグラフである。グラフ100は妨害の除去前の音声信号のフットプリントを示し、グラフ102は妨害の除去後の音声のフットプリントを示している。ここに記載した実施形態を適用した後は、グラフ100において鋭い急激なピークによって示される機械的な音声妨害が除去されて、その結果、グラフ102の音声のフットプリントは実質的に音の音声信号の全てを含むことになり、これがキャプチャされている目的音声信号となりうる。マイクロフォンが、および例えばゲームボタンを押下したり、ジョイスティックをクリックしたり、テーブルに衝突したり、コントローラ表面を叩いたりしたとき、フォースフィードバック、振動などの近隣の(nearside)機械的ノイズを検出して増幅すると、激しい妨害が発生することが理解されるべきである。機械的妨害の持続期間は動的でありうる。
【0022】
図2は、本発明の一実施形態によるノイズ妨害の除去に関連するモジュールを示す簡略模式図である。モジュール104は、スペクトル白色化ブロック106、妨害検出ブロック108、および信号補正ブロック110を有する。これらのブロックの各々は、音声信号を検出しているマイクロフォンから機械的な音声妨害を除去するために、後述する特定の機能的な態様を実行する。音声信号のノイズ妨害が近距離場に存在するが、音声信号の目的成分は遠距離場に存在するという点に留意すべきである。更に、モジュール104は、コンピューティング装置またはコンピューティング装置と通信している入力装置に組み込まれてもよいという点に更に留意すべきである。別の実施形態では、モジュール104は、プラグインカード、あるいはコンピューティング装置または入力装置に搭載されるプリント回路基板上の集積回路として構成されてもよい。ここに記載した実施形態は、後から詳しく説明するように、ビデオゲームコンソール、および対応のゲームコントローラに適用できることを当業者は認めるであろう。しかし、ここに記載した実施形態は、キャプチャされた音声信号から取り除くことが望ましいノイズ妨害に関連する入力装置であれば、どのようなものにも拡張することができる。
【0023】
図3A,3Bは、本発明の一実施形態によるスペクトル白色化機能の効果を示す代表的なグラフである。図3Aは、一実施形態において、ゲームコントローラ上のマイクロフォンによってキャプチャされた元の音声信号を示している。図3Bは、図3Aの音声信号にスペクトル白色化技術を適用した後の、図3Aから得られた音声信号である。ここで、図3Bの信号を得るため、図3Aに示す信号をフィルタリングするために、逆インパルスレスポンス(inverse impulse response:IIR)フィルタ(線形予測誤差フィルタとも呼ばれる)が使用される。図3Aと図3Bを比較すればわかるように、図3Aの領域112a−1および112b−1に示される、目的信号の共振に関連する振幅が、図3Bのそれぞれの対応する領域112a−2および112b−2に示すように平らになっている。
【0024】
しかし、機械的な音声妨害または他の何らかのノイズ妨害を表すピーク114aおよび114bは、スペクトル白色化操作の影響を受けていない。要するに、音声信号のノイズ妨害が、音声信号の目的成分に対して増幅される。すなわち、全極IIRの逆フィルタは、音声トラックモデルをシミュレートして、信号の非相関化を実行するために用いられ、これが、入力信号のスペクトルを平らにする効果を有する。記録中の声の音声または音楽(すなわち目的音声)は、相関性が非常に高く、楽器の音の通り道(vocal tract)の共振によりスペクトル成形され増幅された不規則な励振から構成されている。信号の非相関化を実行すると、音声/音楽信号の振幅の大きさが、ほぼ元の励振信号の振幅にまで低下する。元の励振信号は、多くの場合振幅範囲が非常に狭いが、機械的ノイズの振幅の程度はほとんど変化しないか、場合によっては広がる。このため、目的ノイズとノイズ妨害の差を増幅することによって、ノイズの検出度が実質的に改善される。
【0025】
妨害検出は、本発明の一実施形態に従って、図3Bに示すスペクトル的に白色化した信号を受け、この信号を1/10にダウンサンプルすることにより、この関係を更に強化する。ここで、検出信号を生成するために、スペクトル的に白色化した信号に数学モデルが適用される。音声信号は相関性が非常に高い、すなわち、現在の信号が過去の信号に基づいているという点に留意すべきである。音声信号を非相関化するため、ダウンサンプリングされた検出信号に微分演算が実行される。一実施形態では、非相関化演算のために音声信号を微分するため、4次導関数が用いられる。任意の適切な導関数(10次以下の偶数次の導関数)をこの演算に使用することができるという点に更に留意すべきである。
【0026】
図4は、本発明の一実施形態による妨害検出モジュールの各種構成要素の簡略図である。目的信号とノイズ妨害を含む音声入力信号115が、IIRフィルタ117によって受信される。前述のように、IIRフィルタ117は、目的信号の振幅を平らにすることによって、ノイズ妨害と目的信号間の差を増幅する。IIRフィルタ117の出力信号が、ダウンサンプリングモジュール119によってダウンサンプリングされる。ここではカットオフ800Hzのローパスフィルタを用いることができることを当業者は認めるであろう。入力装置に関連する機械的ノイズは、周波数が800Hzを下回るものが多いという点に留意すべきである。このため、この場合は機械的ノイズの周波数特性が保持される。例示のために、ここではダウンサンプリングファクタ(downsampling factor)として10を採り上げている。しかし、機械的ノイズの周波数特性が保持される一方で、知覚できる検出誤差が許容可能なレベルに抑えられさえすれば、10以外のファクタを用いるほかのダウンサンプリング方式を使用してもよいことを当業者は認めるであろう。ダウンサンプリングにより、知覚可能な検出誤差を生じさせることなく、計算が簡略化される。このため、スペクトル的に白色化した入力信号が、圧縮信号を生成するために1/10にダウンサンプリングされて1.6KHzとされ(音声サンプリングレートが16KHzの場合)、これにより、ダウンサンプリングフィルタの周波数上限(800Hz)の少なくとも2倍のサンプリング周波数が確保される。
【0027】
引き続き図4を参照すると、ダウンサンプリングモジュール119からの圧縮信号が、微分モジュール121に入力される。一実施形態では、ダウンサンプリングされた信号に4次導関数が適用される。妨害と高調波の特徴の別の差を利用することによって、ノイズの検出度を更に上げることができるという点に留意すべきである。すなわち、妨害により、通常は相関性を示す信号が、特徴のない不連続性(急激かつ急速な変化)を示すようになる。この不連続性は、信号を離散信号微分によって微分して検出信号を形成すると、より検出しやすくなる。一実施形態では、離散信号微分は、連続する信号間の差をみるものである(すなわち信号の離散的な導関数)。一実施形態では、4次導関数は、聞き取り可能な最小の変化を検出する高い精度の評価法(measure)となる。例示のために4次導関数を採り上げたが、ここでは、2次〜10次の任意の次数(ただしこの次数は偶数)の導関数を適用してもよいことを、当業者は認めるであろう。
【0028】
検出の戦略には、適応型しきい値処理(adaptive thresholding)が含まれる。この方法論では、その値を超えると、信号サンプルが「妨害」として判定されるしきい値が、入力信号の4次導関数である検出信号の統計平均を計算すること(適応型しきい値処理)によって、適応的に調整される。ダウンサンプリングされた圧縮信号を使用することによって、計算が長さの面で単純化されたのみならず、検出信号がより判別可能となるという点に留意すべきである。これは、一部には、高次の導関数は遙かに不安定であるが、縮小信号は検出に低次の導関数を求めるということによる。
【0029】
次に、後述するように、妨害検出信号に基づいて信号補正機能が適用される。妨害検出信号は、この妨害検出信号の特定の信号シーケンスが、ノイズ妨害のみ、音声または目的信号のみ、あるいはこの両者の何らかの混合、の信号シーケンス種類の1つであることを示しうることを理解すべきである。信号シーケンスが妨害のみの場合、その信号シーケンスが除去されて、除去された信号シーケンスが、その前後のシーケンスの線形補間によって求めた信号シーケンスで置き換えられる。信号シーケンスが通常の音声(目的信号)のみの場合、この周波数領域における目的信号の最新の特徴を反映するために、各周波数ビンについて、周波数加重係数(frequency weighting factor)が更新される。信号シーケンスが、ノイズ妨害、または目的音声とノイズ/機械的妨害の混合の可能性がある場合、信号が時間領域から周波数領域に変換される。次に、各周波数ビンが、適応的な周波数加重係数に関してスケール調整され、その後、周波数でスケール調整された複合信号が時間領域に再変換されて、クリーンな出力信号が形成される。一実施形態では、機械的ノイズの周波数分布は、音声品質を最大限に保持し、信号ゆがみを抑えるために、連続的な学習によって適応的に更新される。ここでは、ノイズ成分の疑いのある周波数ビンのみがスケール調整されるが、ノイズのない残りの周波数成分は処理されない。
【0030】
図5A〜5Cは、本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。図5Aにおいて、領域116aはノイズ妨害のみの信号シーケンスである。この場合、図5Aの領域116aに含まれる信号が除去されて、図5Bの領域116bに示す空隙が生ずる。領域118aと118b(すなわち空隙の前後の領域)が、この空隙を埋める信号を線形補間するために用いられる。この直線補間処理によって、領域116bの空隙を埋めるための信号シーケンスが、図5Cの領域116cに示すように求められる。一実施形態では、純粋なノイズ妨害は、ユーザがゲームをプレイしており、発話せずにゲームコントローラを操作している場合に発生する。あるいは、ユーザが目的信号に関連しない閉鎖子音または打的な音を発している場合があり、その場合、ここに記載したように、信号からその閉鎖子音が除去されうる。
【0031】
図6Aは、本発明の一実施形態による、音声信号に、目的成分とノイズ妨害が混在している場合の、時間領域における検出信号のグラフ図である。ここで、時間1.0におけるピークは、目的成分とノイズ妨害を両方含んでいる。この場合、後述するように、信号補正機能により、特定の時点が周波数領域に変換される。
【0032】
図6B〜6Dは、図6Aの特定の時点に対応する周波数領域を示す図である。図6Bは、時点0.5に対応する周波数領域を示している。図6Cは、時点0.6に対応する周波数領域を示している。図6Dは、時点1.0に対応する周波数領域を示している。信号を周波数領域に変換するために短時間高速フーリエ変換(FFT)を用いることができることを当業者は認めるであろう。これは、数学的には以下のように表すことができる。
X(t)→x(k,j)(k=0:k) 左式において、kは周波数ビンを、jはフレームインデックスをそれぞれ表す
各周波数ビンの周波数加重係数は以下のように表すことができる。
S(j)k=mean(Xvoice(k))。前の信号を保存せずに済むように、平均演算子の代わりに、1次平滑化演算子S(j)k=S(j−1)k×α+(1.0−α)×Xvoice(k,j)(ただし、αは、0〜1の忘却係数である)を使用する。
【0033】
図6Bおよび図6Cに見られるように、図6Bの120a−1〜120a−nと、図6Cの120b−1〜120b−nの周波数ビンは、目的成分を示している。しかし、図6Dの120m−1〜120m−nの周波数ビンは、目的成分とノイズ妨害を含む周波数成分を示している。一実施形態では、各周波数ビンは、20Hzの周波数範囲に対応している。すなわち、周波数ビン1は0〜20の周波数範囲に対応しており、周波数ビン2は21〜40の周波数範囲に対応しており、これが8KHzまで続いている。当然、任意の適切な間隔を使用することができるため、周波数ビンの間隔は20Hzに限らない。各周波数ビンの幅は、加重係数によって調整される。この加重係数は、基本的には各周波数ビンのノイズ妨害成分を除去する。
【0034】
図7は、本発明の一実施形態による、音声信号に関連するノイズ妨害を低減させるための方法操作を示すフローチャート図である。この方法は、操作130から開始し、検出信号が生成される。検出信号は、図4を参照して前述したように、スペクトル的に白色化した信号をダウンサンプリングして、その後、このダウンサンプリングされた信号に4次導関数を適用することによって生成されうるという点に留意すべきである。この操作は、図2の検出モジュールの一環として行われる。次に、方法は操作132に進み、元の信号が周波数領域に変換される。ここでは、高速フーリエ変換(FFT)を使用して、信号が時間領域から周波数領域に変換される。操作134において、検出信号から、目的信号成分と妨害信号成分が特定される。検出信号は、図4を参照して前述したように生成される。操作136において、特定の信号シーケンスについて、その信号シーケンスがノイズ妨害のみであるかどうかが判定される。信号シーケンスが妨害のみの場合、方法は操作138に進み、図5A〜5Cを参照して前述したように、妨害が除去され、線形補間を適用して信号シーケンスが復元される。この操作は、信号シーケンスを周波数領域に変換することを必要とせずに実行できるという点に留意すべきである。信号シーケンスが妨害のみを含むわけではない場合、方法は操作140に移動し、信号シーケンスが目的音声のみを含むかどうかが判定される。信号シーケンスが目的音声のみを含むわけではない場合、方法は操作142に進む。操作142において、調整された周波数加重係数に従って、周波数ビンの幅が再度スケール調整される。調整された周波数加重係数は、統計平均演算子によって求められるが、実際には、1次平滑化演算子で代用される。すなわち、以前の周波数スペクトルを現在の周波数スペクトルによって平滑化して、各周波数ビンについて加重係数として統計学的に平均を求めた周波数スペクトルを得る。操作140において信号シーケンスが目的音声のみを含むと判定された場合、方法は操作144に進む。操作144において、各周波数ビンの周波数加重係数が調整される。
【0035】
図8は、本発明の一実施形態による、検出信号によって特定される各種の信号シーケンスに適用される信号補正を更に示す簡略模式図である。モジュール150は、特定の信号シーケンスの種類を表している。特定のシーケンスの種類は、目的シーケンスのみ162、ノイズシーケンスと目的シーケンスの混合158、またはノイズシーケンスのみ152でありうる。信号シーケンスの種類がノイズ152のみの場合、線形補間モジュール154は、線形補間した出力調整信号156を生成する。信号シーケンスの種類が目的信号シーケンス162のみの場合、このシーケンスは時間領域から周波数領域155に変換され、調整加重係数が求められる。ブロック164において、調整された出力信号156を生成するために、元の音声が複製される。ここで、各周波数ビンについて周波数加重係数が調整されるという点に留意すべきである。信号シーケンスの種類がノイズ妨害と目的成分の混合158である場合、このシーケンスが周波数領域155に変換される。次に、図6A〜6Dを参照して前述したように、関連する信号シーケンスの周波数ビンが調整される。ここでは、調整された周波数加重係数を用いて、個々の周波数ビンが調整される。次に、モジュール160において、周波数領域の調整された信号が、逆高速フーリエ変換(IFFT)を適用することにより、時間領域に変換される。次に、モジュール160から得られた信号が、出力調整信号156として用いられる。
【0036】
図9A〜9Cは、本発明の一実施形態による、1つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。図9Aは、ビデオゲームコントローラ110に、直線アレイ形状に等間隔で配置されたマイクロフォンセンサ112−1,112−2,112−3,112−4を示す。一実施形態では、マイクロフォンセンサ112−1〜112−4同士は、約2.5cm離れている。しかし、マイクロフォンセンサ112−1〜112−4は、適切な間隔であれば、どのような間隔を置いてビデオゲームコントローラ110に配置されてもよい点を理解すべきである。更に、ビデオゲームコントローラ110は、SONY PLAYSTATION2ビデオゲームコントローラとして示されているが、ビデオゲームコントローラ110は、適切なビデオゲームコントローラであれば、どのようなものであってもよい。特定の発生源からの音声信号をトラッキングしつつ、他の競合するまたは干渉する発生源からの信号を除外するために、ここに記載した実施形態を、米国特許出願第10/650,409号に記載の実施形態に組み込むことができる。
【0037】
米国特許出願第10/650,409号に記載の音声入力システムは、複数のノイズ信号から目的音声信号を分離可能である。更に、マイクロフォンアレイが取り付けられているポータブルコンシューマデバイスに移動上の制限はない。本発明の一実施形態では、マイクロフォンアレイフレームワークは、4つの主要モジュールを有する。第1のモジュールは、音響エコーキャンセル(acoustic echo cancellation:AEC)モジュールである。AECモジュールは、ポータブルコンシューマデバイスが発生させるノイズをキャンセルするように構成されている。例えば、ポータブルコンシューマデバイスがビデオゲームコントローラの場合、ビデオゲームのプレイに関連したノイズ、すなわち音楽、爆発音、声などは全て既知である。このため、マイクロフォンアレイの各マイクロフォンセンサから入って来る信号に適用するフィルタが、デバイスが発生させるこれらの既知のノイズを除去しうる。別の実施形態では、AECモジュールは、任意選択であり、後述するモジュールと一緒に含まれていなくてもよい。音響エコーキャンセルに関する更に詳しい説明はジョン・J・シャンク(John J. Shynk)、“Frequency-Domain and Multirate Adaptive Filtering”、IEEE Signal Processing Magazine、14〜37ページ、1992年1月に記載されている。
【0038】
第2のモジュールは、分離フィルタを含む。一実施形態では、この分離フィルタは、信号パスフィルタと信号ブロッキングフィルタを有する。このモジュールでは、識別された聴取方向以外から入って来る信号を抑制するために、アレイビーム形成が実行される。信号パスフィルタとブロッキングフィルタは、いずれも、アダプティブアレイ較正モジュールによって生成される有限インパルス応答(finite impulse response:FIR)フィルタである。アダプティブアレイ較正モジュールは第3のモジュールであり、バックグラウンドで実行するように構成されている。アダプティブアレイ較正モジュールは、センサアレイのマイクロフォンセンサによってノイズとソース信号がキャプチャされた場合に、ソース信号から干渉またはノイズを分離するようにも構成されている。アダプティブアレイ較正モジュールによって、ユーザは、音声の記録中に6自由度で三次元空間を自由に移動できる。更に、ビデオゲームのアプリケーションに関して、ここに記載するマイクロフォンアレイフレームワークは、テレビの音声信号、忠実度の高い音楽、ほかのプレーヤの声、周囲ノイズなどのバックグラウンドノイズが含まれうる騒がしいゲーム環境において使用することができる。信号パスフィルタは、ソース信号を増強するためにフィルタアンドサム(filter-and-sum)ビームフォーマによって使用される。信号ブロッキングフィルタは、ソース信号を効果的にブロックして、干渉またはノイズを生成し、これが、ノイズ低減信号を生成するために、後に信号パスフィルタの出力と共に使用される。
【0039】
第4のモジュールである適応ノイズキャンセルモジュールは、ビーム形成出力、すなわち信号パスフィルタの出力から減じるために、信号ブロッキングフィルタからの干渉を取る。適応ノイズキャンセル(adaptive noise cancellation:ANC)は、AECに例えて説明できるが、その例外は、ANCのノイズテンプレートは、ビデオゲームコンソールの出力ではなく、マイクロフォンセンサアレイの信号ブロッキングフィルタから生成されるという点を理解すべきである。一実施形態では、目的信号のゆがみをできるだけ押さえつつ、ノイズを最大限にキャンセルするため、ノイズテンプレートとして用いる干渉は、信号ブロッキングフィルタがカバーするソース信号のリークを防ぐものではなければならない。更に、ANCを使用することによって、比較的少ない数のマイクロフォンを狭い領域(compact region)に配置して、高い干渉除去性能を実現できる。
【0040】
図9Bは、ビデオゲームコントローラ110に設けた8つのセンサであるマイクロフォンセンサ112−1〜112−8の、等間隔の長方形のアレイ形状を示す。ビデオゲームコントローラ110に使用するセンサの個数は、適切であればいかなる数でもよいことが、当業者に明らかであろう。更に、音声サンプリングレートとゲームコントローラの取付可能な領域によって、マイクロフォンセンサアレイの構成が制約されることがある。一実施形態では、アレイ形状には、4〜12のセンサが含まれ、凸状形状(長方形など)を形成している。凸状形状では、直線アレイのように、音源方向(二次元)の追跡が可能となるのみならず、三次元空間における音の位置の正確な検出が可能となる。本明細書に記載の実施形態は、通常は直線アレイシステムを指すが、ここに記載の実施形態は、適切であれば、任意の個数のセンサにも、どのようなアレイ形状の構成にも拡張可能であることが、当業者に明らかであろう。更に、ここに記載の実施形態は、マイクロフォンが取り付けられているビデオゲームコントローラを指している。しかし、後述する実施形態は、マイクロフォンが入力装置に固定されない音声入力システムを使用するどのような適切なポータブルコンシューマデバイスにも拡張可能である。
【0041】
一実施形態では、4個のセンサを使用した代表的なマイクロフォンアレイは、以下の特徴を備えるように構成されうる。
1.音声サンプリングレート16kHz。
2.等間隔に配置された直線アレイ形状。各マイクロフォンセンサ間の間隔は、対象とする最大周波数における波長の半分(例えば2.0cm)に設定。周波数範囲は約120Hz〜約8kHz。
3.4個のセンサを使用したマイクロフォンアレイ用のハードウェアは、サンプリングレート64kHzのシーケンシャルA/Dコンバータも備えうる。
4.マイクロフォンセンサは、汎用の全方向センサでありうる。
【0042】
図9Cは、マイクロフォン172−1を1つ有するゲームコントローラ170を示している。マイクロフォン172−1はゲームコントローラ170のほぼ中央に位置するように示されているが、マイクロフォン172−1は、ゲームコントローラのどこに配置されてもよいという点に留意すべきである。別の実施形態では、ノイズ妨害の発生源が近距離場に存在し、目的成分の発生源が遠距離場に存在していれば、マイクロフォン172−1が、ゲームコントローラに固定されずに、ゲームコントローラの近くに置かれてもよい。
【0043】
図10A,10Bは、本発明の一実施形態による、ここに記載する機能が複数のマイクロフォン(入力装置に固定されたマイクロフォンアレイなど)に適用された場合に、更に得られる信頼性を示す図である。マイクロフォンが様々な位置に配置されているため、この様々な位置で検出される信号の振幅が違ってくることが理解されるべきである。このため、図10Aでは、ある位置にあるマイクロフォンは特定の振幅の信号を生成するが、図10Bでは、別の位置にあるマイクロフォンが、同じ音声信号について生成する信号の振幅が小さくなる。ノイズ妨害と判定されるには振幅がしきい値を超えなければならないが、図10Bで生成される信号はそのしきい値を超えない。しかし、図10Aで生成される信号は、線180で示すしきい値を超えている。この実施形態では、チャネルの任意の1つにおいて妨害と思われるものが検出された場合に、現在の音声が妨害であるかどうかの判定を行うことができ、これにより、信頼性が向上する。
【0044】
図11は、本発明の一実施形態による、音声信号に関連する妨害をキャンセル可能なシステムを示す簡略模式図である。ここで、マイクロフォン172を有するゲームコントローラ170が、コンソール182に動作可能に接続されている。コンソール182はディスプレイ184と通信している。ここに記載した実施形態では、ビデオゲームコントローラ170またはコンソール182内の論理回路が、ビデオゲームコントローラ170を操作しているユーザにより発生する機械的妨害を検出して、これをキャンセルするために用いられうる。このため、目的音声信号の記録が必要であり、機械的妨害によって妨害されるおそれのある音声認識やその他のアプリケーションが、ノイズ妨害の除去の結果、より効率的に動作するようになる。
【0045】
図12は、本発明の一実施形態による、ノイズ妨害キャンセル機能を有するコンピューティング装置の各種構成要素を示す簡略模式図である。ここで、コンピューティング装置182は、中央処理装置(CPU)186とメモリ188を有する。更に、コンピューティング装置182にグラフィック処理装置(GPU)190が含まれていてもよい。当然、グラフィック処理機能は、CPU186に組み込まれていてもよい。ノイズキャンセルモジュール192は、ここに記載した実施形態を実行するように構成されている論理回路を有する。論理モジュール192はスペクトル白色化論理回路194、妨害検出論理回路196および信号補正論理回路192を有する。スペクトル白色化論理回路194は、図3A,図3Bを参照して記載した機能を実行するように構成されている論理回路、すなわち、目的信号に関連する値とノイズ妨害に関連する値の差を増幅するための論理回路を有する。妨害検出論理回路196は、スペクトル白色化論理回路194の出力のダウンサンプリングに関連する機能を実行するように構成されている論理回路を有する。更に、妨害検出論理回路196は、図4を参照して記載したように、ダウンサンプリングされた信号から検出信号を生成する論理回路を有する。信号補正論理回路198は、図5〜8を参照して前述した機能を実行する論理回路を有する。CPU186、メモリ188、GPU190、およびノイズキャンセル論理モジュール194,196,198は、バス200を介して相互に接続されている。
【0046】
以上まとめると、上記に記載した発明は、高ノイズ環境において音声入力を提供するための方法および装置について記載している。この音声入力システムは、SONY PLAYSTATION2(登録商標)用のビデオゲームコントローラ、PLAYSTATION PORTABLE(PSP)ユニットや、その他の任意の適切なビデオゲームコントローラなどのビデオゲームコントローラに取り付けられうるマイクロフォンアレイを有する。マイクロフォンは、ビデオゲームコントローラの移動に一切の制限を課さないように構成されている。マイクロフォンが受ける信号には、遠距離場の目的ノイズと近距離場のノイズ妨害が含まれると仮定される。目的ノイズ(調和成分とも呼ばれる)は、例えば、ユーザの声、音楽など、記録したい任意のノイズである。ノイズ妨害は、例えば入力装置からの機械的ノイズや、打奏音など、近距離場から発生するノイズを含みうる。音声信号が、ノイズ信号の特徴を保持しつつ、目的音声に関連する振幅を低減するスペクトル白色化方式によって処理され、これにより、妨害検出段階を支援するために、目的成分とノイズ成分の差(magnitude)が増幅される。妨害検出方式では、スペクトル白色化方式の出力がIIRフィルタによって処理され、ダウンサンプリングされて、この信号に導関数が適用される。ここで、信号シーケンスの種類を特定するために、この信号の信号シーケンスが更に「白色化」されて、次に非相関化される。信号シーケンスが特定されると、信号が、上記したように信号シーケンスの種類に応じて調整される。ダウンサンプリング方式により、サンプリングすべきデータ量が低減できるだけではなく、高次の導関数を適用することに比べて遙かに安定な低次の導関数を使用できるようになる。
【0047】
また、本明細書に記載した各種実施形態は、オンラインゲームアプリケーションに適用できる点を理解すべきである。すなわち、前述の実施形態は、インターネットなどの分散ネットワークを介してビデオ信号を複数のユーザに送信するサーバで行われ、騒音のある遠隔地点でプレーヤが相互に通信できるようにする。ここに記載した実施形態は、ハードウェア実装、ソフトウェア実装のいずれによって実装されてもよいという点を更に理解すべきである。すなわち、上で述べた機能の説明を組み合わせて、ノイズキャンセル方式に関連する各モジュールの機能タスクを実行するように構成された論理回路を有するマイクロチップを定義してもよい。
【0048】
上記の実施形態を考慮に入れて、本発明が、コンピュータシステムに記憶されたデータを使用する、各種のコンピュータ実装操作を使用してもよい点を理解すべきである。これらの操作には、物理量の物理的な操作を必要とする操作が含まれる。この物理量は通常、記憶、転送、結合、比較などの操作が可能な電気信号または磁気信号の形を取るが、必ずしもこれらに限定されない。更に、実行される操作は、生成、特定、決定または比較などと呼ばれることが多い。
【0049】
上記した発明は、携帯式デバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電気製品、ミニコンピュータ、メインフレームコンピュータなど、他のコンピュータシステム構成によって実施されてもよい。また、本発明は、分散コンピューティング環境で実施されてもよく、このような環境では、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される。本発明は、また、計算機可読媒体上の計算機可読コードとして実施されてもよい。計算機可読媒体は、電磁搬送波(electromagnetic wave carrier)を含め、コンピュータシステムによって後から読取ることができるデータを記憶できるデータ記憶装置であれば、どのようなものに存在してもよい。計算機可読媒体の例には、ハードディスク、ネットワーク接続記憶装置(NAS)、リードオンリーメモリ、ランダムアクセスメモリ、CD−ROM、CD−R、CD−RW、磁気テープおよび他の光学式データ記憶装置および非光学式データ記憶装置などがある。また、計算機可読媒体は、計算機可読コードが分散式に記憶されて、実行されるように、ネットワークに結合されたコンピュータシステムを介して分散されてもよい。
【0050】
上記に、本発明を明確に理解できるようにある程度詳細に記載したが、添付の特許請求の範囲内で変更例または変形例を実施できることは明らかである。したがって、本実施形態は例示的なものであり、制限するものではなく、本発明は本明細書に記載されている詳細な事項に限定されず、添付の特許請求の範囲およびその均等物の範囲内で変更されてもよい。特許請求の範囲において、各種構成要素および/またはステップの順序は、請求項に明示的に記載されていない限り、特定の操作の順序を示すものではない。
【図面の簡単な説明】
【0051】
【図1A】本発明の一実施形態によるノイズ妨害除去前の音声信号のフットプリントを示す代表的なグラフである。
【図1B】本発明の一実施形態によるノイズ妨害除去後の音声信号のフットプリントを示す代表的なグラフである。
【図2】本発明の一実施形態によるノイズ妨害の除去に関連するモジュールを示す簡略模式図である。
【図3A】本発明の一実施形態によるスペクトル白色化機能の効果を示す代表的なグラフである。
【図3B】本発明の一実施形態によるスペクトル白色化機能の効果を示す代表的なグラフである。
【図4】本発明の一実施形態による妨害検出モジュールの各種構成要素の簡略図である。
【図5A】本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。
【図5B】本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。
【図5C】本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。
【図6A】本発明の一実施形態による、音声信号に、目的成分とノイズ妨害が混在している場合の、時間領域における検出信号のグラフ図である。
【図6B】図6Aの特定の時点に対応する周波数領域表す図である。
【図6C】図6Aの特定の時点に対応する周波数領域表す図である。
【図6D】図6Aの特定の時点に対応する周波数領域表す図である。
【図7】本発明の一実施形態による、音声信号に関連するノイズ妨害を低減させるための方法操作を示すフローチャート図である。
【図8】本発明の一実施形態による、検出信号によって特定される、さまざまな種類の信号シーケンスに適用される信号補正を更に示す簡略模式図である。
【図9A】本発明の一実施形態による、1つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。
【図9B】本発明の一実施形態による、1つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。
【図9C】本発明の一実施形態による、1つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。
【図10A】本発明の一実施形態による、ここに記載する機能が複数のマイクロフォン(入力装置に固定されたマイクロフォンアレイなど)に適用された場合に、更に得られる信頼性を示す図である。
【図10B】本発明の一実施形態による、ここに記載する機能が複数のマイクロフォン(入力装置に固定されたマイクロフォンアレイなど)に適用された場合に、更に得られる信頼性を示す図である。
【図11】本発明の一実施形態による、音声信号に関連する妨害をキャンセル可能なシステムを示す簡略模式図である。
【図12】本発明の一実施形態による、ノイズ妨害キャンセル機能を有するコンピューティング装置の各種構成要素を示す簡略模式図である。
【技術分野】
【0001】
本発明は、一般に音声処理に関し、より詳細には、本発明は、音声信号からノイズ妨害を特定して、これを除去することが可能なシステムに関する。
【背景技術】
【0002】
音声入力システムは、典型的には、話者の口の近くに着用される、ヘッドセットにつながれたマイクロフォンとして設計されている。このことが、ヘッドセットを着用しなければならないという物理的な制約をユーザに課するため、ユーザは、通常、ヘッドセットの着用を避けるため、実質的に口述のためにのみヘッドセットを使用し、比較的短い入力を行ったりコンピュータにコマンドを出すのにキーボードによるタイプ入力に頼っている。
【0003】
ビデオゲーム機は家庭内に普及してきた。ビデオゲームメーカは、ユーザがより現実に近い体験をでき、オンラインアプリケーションなどのゲームの制限を広げるべく絶えず努力を続けている。例えば、多くのノイズが発生している部屋にいる別のプレーヤと通信する機能、または、プレーヤ間でオンラインゲームをプレイ中に、バックグラウンドノイズとゲーム自体から出るノイズがこの通信に干渉する場合にユーザが音声信号を送受信する機能が、これまで、リアルタイムのクリアかつ効果的なプレーヤ間通信を阻んできた。この同じ障壁により、プレーヤが、ビデオゲームコンソールに音声命令を出す機能が妨げられてきた。この場合も、バックグラウンドノイズ、ゲームのノイズおよび部屋の残響の全てが、プレーヤが発する音声信号に干渉する。
【発明の開示】
【発明が解決しようとする課題】
【0004】
ユーザがヘッドセットの着用をしたがらない傾向にあるため、音をキャプチャするために、ヘッドセットの代わりにマイクロフォンを使用する方法がある。しかし、現在市販されているマイクロフォンシステムの不具合に、音声信号からノイズ妨害を検出してこれを除去できない点がある。マイクロフォンが、ビデオゲームコントローラなどの入力装置に搭載されている場合、入力装置でのさまざまな機械的な活動に起因してノイズ妨害が発生するという点に留意すべきである。例えば、ゲームコントローラの場合、ボタンを押下したり、ジョイスティックをクリックしたり、指を叩いたり、テーブルに衝突したり、コントローラの振動や表面摩擦などによって、ノイズ妨害が発生することがある。
【0005】
ゲームコントローラなどの入力装置に搭載されるマイクロフォンセンサと各種の機械式入力装置の距離が近いという特有の性質のため、マイクロフォンが、近くで発生した機械のノイズ(ゲームボタンを押下したり、ジョイスティックをクリックしたり、テーブルに衝突したり、コントローラの表面を叩いたとき、フォースフィードバック、振動など)を検出して、それを増幅すると、激しい妨害が発生する。アナログ信号の伝送によって発生する衝撃ノイズを除去する従来の課題とは異なり、この場合は、機械的妨害の持続期間は非常に長く、より動的である。妨害の可聴できる期間は、50ミリ秒未満の(ジョイスティックのクリックなど)鋭い急なインパルスから、発話の間じゅう(触覚装置の表面を触りながら話す場合など)に及ぶ。更に、人間が出す打的な音の一部(例えば叫び、閉鎖子音など)は、所望の「通常の音」(目的音声とも呼ばれる)と機械的妨害(ノイズ妨害と呼ばれる)との境目を更にわからなくしてしまう。更に、壊れた音声信号を復旧するには、音声信号から機械的ノイズを効果的に分離しなければならない。
【0006】
その結果、従来技術の課題を解決して、近距離場において発生するノイズ妨害を検出してこれを除去するために、入力装置と共に用いられるマイクロフォンを提供することが求められている。
【課題を解決するための手段】
【0007】
大まかにいうと、本発明は、音声トラック信号から機械的妨害を検出して、これを除去するための手法を規定する方法および装置を提供することによって、このようなニーズを満たす。本発明は、方法、システム、計算機可読媒体または装置などの多くの方法で実施できる点を理解すべきである。以下に本発明のいくつかの発明の実施形態を記載する。
【0008】
一実施形態では、音声信号を処理する方法が提供される。この方法は、調和部分と妨害部分とから構成される信号を受信する操作から開始する。次に、前記音声信号の前記調和部分に関連する振幅が下げられる。次に、前記調和部分の振幅を下げた前記音声信号のサンプリングレートが下げられる。次に、前記音声信号の前記妨害部分に関連する信号シーケンスの種類が特定される。次に、前記信号シーケンスの前記種類に従って前記妨害部分が変更される。
【0009】
別の実施形態では、マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減する方法が提供される。この方法は、前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する操作から開始する。次に、前記音声信号のサンプリングレートが下げられる。次に、検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数が適用される。次に、前記音声信号の前記ノイズ妨害が、前記検出信号の統計平均に従って調整される。
【0010】
更に別の実施形態では、音声信号を処理するプログラム命令を有する計算機可読媒体が提供される。この計算機可読媒体は、調和部分および妨害部分から構成される信号を受信するプログラム命令を有する。前記音声信号の前記調和部分に関連する振幅を下げるプログラム命令と、前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げるプログラム命令とが提供される。前記音声信号の前記妨害部分に関連する信号シーケンスの種類を特定するプログラム命令と、前記信号シーケンスの前記種類に従って前記妨害部分を変更するプログラム命令とが含まれる。
【0011】
更に別の実施形態では、マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減するプログラム命令を有する計算機可読媒体が提供される。この計算機可読媒体は、前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調するプログラム命令を有する。前記音声信号のサンプリングレートを下げるプログラム命令が含まれる。検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用するプログラム命令と、前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整するプログラム命令とが含まれる。
【0012】
別の実施形態では、音声信号に関連する妨害をキャンセル可能なシステムが提供される。このシステムは、音声信号を処理する論理回路を有するコンピューティング装置を有する。前記音声信号を処理する前記論理回路は、前記音声信号から検出信号を生成する論理回路と、前記音声信号の信号シーケンスが妨害であるかどうかを、前記検出信号の対応する信号シーケンスを分析することによって判定する論理回路とを有する。また、このシステムは、前記コンピューティング装置に動作可能に接続された入力装置と、前記音声信号をキャプチャするように構成されたマイクロフォンとを有する。前記妨害の発生源が、前記マイクロフォンに関連する近距離場内に存在し、前記音声信号の目的成分の発生源が前記マイクロフォンに関連する遠距離場内に存在するように、前記マイクロフォンは配置されている。
【0013】
更に別の実施形態では、ビデオゲームコントローラが提供される。このビデオゲームコントローラは、前記ビデオゲームコントローラに取り付けられたマイクロフォンを有する。前記マイクロフォンは、前記マイクロフォンに対して遠距離場にある目的音声信号と、前記マイクロフォンに対して近距離場にある妨害ノイズとを含む音声信号を検出するように構成されている。前記ビデオゲームコントローラは、音声信号を処理するように構成された論理回路を有する。前記論理回路は、前記音声信号に偶数次の導関数を適用することによって、検出信号を生成するように構成された検出信号論理回路と、前記検出信号の分析によって前記音声信号から妨害ノイズを除去するように構成された妨害キャンセル論理回路とを有する。
【0014】
更に別の実施形態では、集積回路が提供される。この集積回路は、複数のノイズ源環境において少なくとも1つのマイクロフォンから音声信号を受信するように構成された回路を有する。前記音声信号に対して信号の非相関化を実行するように構成された回路と、前記非相関化された音声信号をダウンサンプリングするように構成された回路とが提供される。前記ダウンサンプリングされた音声信号に微分操作を適用するように構成された回路が含まれる。前記微分された音声信号内にノイズ妨害信号シーケンスを検出するように構成された回路と、前記ノイズ妨害信号シーケンスに関連する前記音声信号の信号シーケンスを除去するように構成された回路が提供される。
【0015】
本発明の他の態様および利点は、例示のために本発明の原理を示す添付の図面と併せて、以下の詳細な説明を読めば明らかとなるであろう。
【発明を実施するための最良の形態】
【0016】
本発明は添付の図面と併せて以下の詳細な説明を読めば容易に理解できるであろう。図面において、同じ参照符号が同じ構造要素に使用されている。
【0017】
音声入力システムの入力装置に対して近距離場で発生したノイズ妨害を検出してこれをキャンセルするように構成された音声入力システムのためのシステム、装置および方法について本発明を記載する。しかし、本発明を、このような詳細な内容の一部または全てを用いなくても実施しうることは当業者にとって自明である。場合によっては、本発明を不必要にあいまいにすることのないよう、公知の処理操作は詳述していない。
【0018】
本発明の各種実施形態は、コンシューマデバイスに関連付けられた音声入力システムのためのシステムおよび方法を提供する。この入力システムは、「クリーンな」信号を提供するために、ノイズ妨害を検出して、音声信号からこのノイズ妨害を能率的に除去することができる。ここに記載する実施形態が入力装置に搭載される場合には、目的信号は遠距離場(far field)から発生するが、ノイズ妨害は近距離場(near field)から発生する。目的信号は、ユーザの発話、音楽、音声トラック信号、あるいは記録が求められているほかのどのような音であってもよいという点に留意すべきである。このため、ビデオゲーム環境では、ゲームやオンラインゲームアプリケーションなどの入力制御のために、ユーザの声をキャプチャすることが求められうる。ノイズ妨害は、入力装置を操作しているユーザが発生させる機械的ノイズでありうるという点に留意すべきである。基本的に、ノイズ妨害は、パルスを有する任意の信号でありうる。また、ノイズ妨害が、ユーザによる発話のこともある。下記に記載するように、ノイズ妨害の信号の検出と分離は、(1)スペクトル白色化、(2)妨害検出および(3)信号補正の3段階に分けられる。
【0019】
スペクトル白色化段階は、音声信号の目的信号部分のスペクトルを平坦にする効果を有する。このため、スペクトル白色化を適用した後は、ノイズ妨害の部分が、目的信号の部分に対して増幅される。妨害検出段階では、スペクトル白色化段階の出力を受け、目的信号をノイズ妨害から更に差別化することに加えて、検出信号を生成する。ここでは、スペクトル白色化段階のダウンサンプリングされた出力に対して偶数次の導関数を適用することにより、この目的が達成される。信号補正段階では、検出信号が解析され、信号シーケンスが、ノイズ妨害のみを含むか、目的信号のみを含むか、または何らかの形でこの両者を含んでいるかが決定される。ノイズ妨害が存在する場合、ノイズ妨害を実質的に除去するために、検出信号に関連する信号の種類に基づいて、音声信号が補正される。ここに記載する実施形態はビデオゲームコントローラに関して説明しているが、これらの実施形態は、音声信号がキャプチャされており、目的信号にノイズ妨害が含まれている可能性のある適切な入力装置であれば、どのようなものにも拡張することができることは当業者であれば理解できるであろう。
【0020】
ゲームコントローラに搭載されたマイクロフォンが記録するデジタル音声に現れる激しい機械的妨害を検出してこれをキャンセルするための、コンピュータによる効率的な方法およびシステムについて、以下に更に詳細に説明する。ノイズ妨害の発生源は、ゲームコントローラなどの入力装置におけるさまざまな機械的な活動である。これらの機械的な活動には、ゲームボタンの押下、ジョイスティックのクリック、指叩き、テーブルへの衝突、コントローラの振動、触覚フィードバック、表面摩擦などがある。本検出方式の目的は、音声中に打的な声、激しい音楽または閉鎖子音が存在する場合に、誤認識することなく機械的妨害を検出および検証することにある。音声信号からのこのような妨害の分離および除去は、記録品質の低下を抑えるような方法で実行される。多くの場合、ここに提案する方法は、音響ひずみをまったく感知できない、あるいはほとんど感知できない量に保ちつつ、激しいノイズのレベルを効果的に低減させる。
【0021】
図1A,1Bは、本発明の一実施形態によるノイズ妨害除去の前後の音声信号のフットプリントをそれぞれ示す代表的なグラフである。グラフ100は妨害の除去前の音声信号のフットプリントを示し、グラフ102は妨害の除去後の音声のフットプリントを示している。ここに記載した実施形態を適用した後は、グラフ100において鋭い急激なピークによって示される機械的な音声妨害が除去されて、その結果、グラフ102の音声のフットプリントは実質的に音の音声信号の全てを含むことになり、これがキャプチャされている目的音声信号となりうる。マイクロフォンが、および例えばゲームボタンを押下したり、ジョイスティックをクリックしたり、テーブルに衝突したり、コントローラ表面を叩いたりしたとき、フォースフィードバック、振動などの近隣の(nearside)機械的ノイズを検出して増幅すると、激しい妨害が発生することが理解されるべきである。機械的妨害の持続期間は動的でありうる。
【0022】
図2は、本発明の一実施形態によるノイズ妨害の除去に関連するモジュールを示す簡略模式図である。モジュール104は、スペクトル白色化ブロック106、妨害検出ブロック108、および信号補正ブロック110を有する。これらのブロックの各々は、音声信号を検出しているマイクロフォンから機械的な音声妨害を除去するために、後述する特定の機能的な態様を実行する。音声信号のノイズ妨害が近距離場に存在するが、音声信号の目的成分は遠距離場に存在するという点に留意すべきである。更に、モジュール104は、コンピューティング装置またはコンピューティング装置と通信している入力装置に組み込まれてもよいという点に更に留意すべきである。別の実施形態では、モジュール104は、プラグインカード、あるいはコンピューティング装置または入力装置に搭載されるプリント回路基板上の集積回路として構成されてもよい。ここに記載した実施形態は、後から詳しく説明するように、ビデオゲームコンソール、および対応のゲームコントローラに適用できることを当業者は認めるであろう。しかし、ここに記載した実施形態は、キャプチャされた音声信号から取り除くことが望ましいノイズ妨害に関連する入力装置であれば、どのようなものにも拡張することができる。
【0023】
図3A,3Bは、本発明の一実施形態によるスペクトル白色化機能の効果を示す代表的なグラフである。図3Aは、一実施形態において、ゲームコントローラ上のマイクロフォンによってキャプチャされた元の音声信号を示している。図3Bは、図3Aの音声信号にスペクトル白色化技術を適用した後の、図3Aから得られた音声信号である。ここで、図3Bの信号を得るため、図3Aに示す信号をフィルタリングするために、逆インパルスレスポンス(inverse impulse response:IIR)フィルタ(線形予測誤差フィルタとも呼ばれる)が使用される。図3Aと図3Bを比較すればわかるように、図3Aの領域112a−1および112b−1に示される、目的信号の共振に関連する振幅が、図3Bのそれぞれの対応する領域112a−2および112b−2に示すように平らになっている。
【0024】
しかし、機械的な音声妨害または他の何らかのノイズ妨害を表すピーク114aおよび114bは、スペクトル白色化操作の影響を受けていない。要するに、音声信号のノイズ妨害が、音声信号の目的成分に対して増幅される。すなわち、全極IIRの逆フィルタは、音声トラックモデルをシミュレートして、信号の非相関化を実行するために用いられ、これが、入力信号のスペクトルを平らにする効果を有する。記録中の声の音声または音楽(すなわち目的音声)は、相関性が非常に高く、楽器の音の通り道(vocal tract)の共振によりスペクトル成形され増幅された不規則な励振から構成されている。信号の非相関化を実行すると、音声/音楽信号の振幅の大きさが、ほぼ元の励振信号の振幅にまで低下する。元の励振信号は、多くの場合振幅範囲が非常に狭いが、機械的ノイズの振幅の程度はほとんど変化しないか、場合によっては広がる。このため、目的ノイズとノイズ妨害の差を増幅することによって、ノイズの検出度が実質的に改善される。
【0025】
妨害検出は、本発明の一実施形態に従って、図3Bに示すスペクトル的に白色化した信号を受け、この信号を1/10にダウンサンプルすることにより、この関係を更に強化する。ここで、検出信号を生成するために、スペクトル的に白色化した信号に数学モデルが適用される。音声信号は相関性が非常に高い、すなわち、現在の信号が過去の信号に基づいているという点に留意すべきである。音声信号を非相関化するため、ダウンサンプリングされた検出信号に微分演算が実行される。一実施形態では、非相関化演算のために音声信号を微分するため、4次導関数が用いられる。任意の適切な導関数(10次以下の偶数次の導関数)をこの演算に使用することができるという点に更に留意すべきである。
【0026】
図4は、本発明の一実施形態による妨害検出モジュールの各種構成要素の簡略図である。目的信号とノイズ妨害を含む音声入力信号115が、IIRフィルタ117によって受信される。前述のように、IIRフィルタ117は、目的信号の振幅を平らにすることによって、ノイズ妨害と目的信号間の差を増幅する。IIRフィルタ117の出力信号が、ダウンサンプリングモジュール119によってダウンサンプリングされる。ここではカットオフ800Hzのローパスフィルタを用いることができることを当業者は認めるであろう。入力装置に関連する機械的ノイズは、周波数が800Hzを下回るものが多いという点に留意すべきである。このため、この場合は機械的ノイズの周波数特性が保持される。例示のために、ここではダウンサンプリングファクタ(downsampling factor)として10を採り上げている。しかし、機械的ノイズの周波数特性が保持される一方で、知覚できる検出誤差が許容可能なレベルに抑えられさえすれば、10以外のファクタを用いるほかのダウンサンプリング方式を使用してもよいことを当業者は認めるであろう。ダウンサンプリングにより、知覚可能な検出誤差を生じさせることなく、計算が簡略化される。このため、スペクトル的に白色化した入力信号が、圧縮信号を生成するために1/10にダウンサンプリングされて1.6KHzとされ(音声サンプリングレートが16KHzの場合)、これにより、ダウンサンプリングフィルタの周波数上限(800Hz)の少なくとも2倍のサンプリング周波数が確保される。
【0027】
引き続き図4を参照すると、ダウンサンプリングモジュール119からの圧縮信号が、微分モジュール121に入力される。一実施形態では、ダウンサンプリングされた信号に4次導関数が適用される。妨害と高調波の特徴の別の差を利用することによって、ノイズの検出度を更に上げることができるという点に留意すべきである。すなわち、妨害により、通常は相関性を示す信号が、特徴のない不連続性(急激かつ急速な変化)を示すようになる。この不連続性は、信号を離散信号微分によって微分して検出信号を形成すると、より検出しやすくなる。一実施形態では、離散信号微分は、連続する信号間の差をみるものである(すなわち信号の離散的な導関数)。一実施形態では、4次導関数は、聞き取り可能な最小の変化を検出する高い精度の評価法(measure)となる。例示のために4次導関数を採り上げたが、ここでは、2次〜10次の任意の次数(ただしこの次数は偶数)の導関数を適用してもよいことを、当業者は認めるであろう。
【0028】
検出の戦略には、適応型しきい値処理(adaptive thresholding)が含まれる。この方法論では、その値を超えると、信号サンプルが「妨害」として判定されるしきい値が、入力信号の4次導関数である検出信号の統計平均を計算すること(適応型しきい値処理)によって、適応的に調整される。ダウンサンプリングされた圧縮信号を使用することによって、計算が長さの面で単純化されたのみならず、検出信号がより判別可能となるという点に留意すべきである。これは、一部には、高次の導関数は遙かに不安定であるが、縮小信号は検出に低次の導関数を求めるということによる。
【0029】
次に、後述するように、妨害検出信号に基づいて信号補正機能が適用される。妨害検出信号は、この妨害検出信号の特定の信号シーケンスが、ノイズ妨害のみ、音声または目的信号のみ、あるいはこの両者の何らかの混合、の信号シーケンス種類の1つであることを示しうることを理解すべきである。信号シーケンスが妨害のみの場合、その信号シーケンスが除去されて、除去された信号シーケンスが、その前後のシーケンスの線形補間によって求めた信号シーケンスで置き換えられる。信号シーケンスが通常の音声(目的信号)のみの場合、この周波数領域における目的信号の最新の特徴を反映するために、各周波数ビンについて、周波数加重係数(frequency weighting factor)が更新される。信号シーケンスが、ノイズ妨害、または目的音声とノイズ/機械的妨害の混合の可能性がある場合、信号が時間領域から周波数領域に変換される。次に、各周波数ビンが、適応的な周波数加重係数に関してスケール調整され、その後、周波数でスケール調整された複合信号が時間領域に再変換されて、クリーンな出力信号が形成される。一実施形態では、機械的ノイズの周波数分布は、音声品質を最大限に保持し、信号ゆがみを抑えるために、連続的な学習によって適応的に更新される。ここでは、ノイズ成分の疑いのある周波数ビンのみがスケール調整されるが、ノイズのない残りの周波数成分は処理されない。
【0030】
図5A〜5Cは、本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。図5Aにおいて、領域116aはノイズ妨害のみの信号シーケンスである。この場合、図5Aの領域116aに含まれる信号が除去されて、図5Bの領域116bに示す空隙が生ずる。領域118aと118b(すなわち空隙の前後の領域)が、この空隙を埋める信号を線形補間するために用いられる。この直線補間処理によって、領域116bの空隙を埋めるための信号シーケンスが、図5Cの領域116cに示すように求められる。一実施形態では、純粋なノイズ妨害は、ユーザがゲームをプレイしており、発話せずにゲームコントローラを操作している場合に発生する。あるいは、ユーザが目的信号に関連しない閉鎖子音または打的な音を発している場合があり、その場合、ここに記載したように、信号からその閉鎖子音が除去されうる。
【0031】
図6Aは、本発明の一実施形態による、音声信号に、目的成分とノイズ妨害が混在している場合の、時間領域における検出信号のグラフ図である。ここで、時間1.0におけるピークは、目的成分とノイズ妨害を両方含んでいる。この場合、後述するように、信号補正機能により、特定の時点が周波数領域に変換される。
【0032】
図6B〜6Dは、図6Aの特定の時点に対応する周波数領域を示す図である。図6Bは、時点0.5に対応する周波数領域を示している。図6Cは、時点0.6に対応する周波数領域を示している。図6Dは、時点1.0に対応する周波数領域を示している。信号を周波数領域に変換するために短時間高速フーリエ変換(FFT)を用いることができることを当業者は認めるであろう。これは、数学的には以下のように表すことができる。
X(t)→x(k,j)(k=0:k) 左式において、kは周波数ビンを、jはフレームインデックスをそれぞれ表す
各周波数ビンの周波数加重係数は以下のように表すことができる。
S(j)k=mean(Xvoice(k))。前の信号を保存せずに済むように、平均演算子の代わりに、1次平滑化演算子S(j)k=S(j−1)k×α+(1.0−α)×Xvoice(k,j)(ただし、αは、0〜1の忘却係数である)を使用する。
【0033】
図6Bおよび図6Cに見られるように、図6Bの120a−1〜120a−nと、図6Cの120b−1〜120b−nの周波数ビンは、目的成分を示している。しかし、図6Dの120m−1〜120m−nの周波数ビンは、目的成分とノイズ妨害を含む周波数成分を示している。一実施形態では、各周波数ビンは、20Hzの周波数範囲に対応している。すなわち、周波数ビン1は0〜20の周波数範囲に対応しており、周波数ビン2は21〜40の周波数範囲に対応しており、これが8KHzまで続いている。当然、任意の適切な間隔を使用することができるため、周波数ビンの間隔は20Hzに限らない。各周波数ビンの幅は、加重係数によって調整される。この加重係数は、基本的には各周波数ビンのノイズ妨害成分を除去する。
【0034】
図7は、本発明の一実施形態による、音声信号に関連するノイズ妨害を低減させるための方法操作を示すフローチャート図である。この方法は、操作130から開始し、検出信号が生成される。検出信号は、図4を参照して前述したように、スペクトル的に白色化した信号をダウンサンプリングして、その後、このダウンサンプリングされた信号に4次導関数を適用することによって生成されうるという点に留意すべきである。この操作は、図2の検出モジュールの一環として行われる。次に、方法は操作132に進み、元の信号が周波数領域に変換される。ここでは、高速フーリエ変換(FFT)を使用して、信号が時間領域から周波数領域に変換される。操作134において、検出信号から、目的信号成分と妨害信号成分が特定される。検出信号は、図4を参照して前述したように生成される。操作136において、特定の信号シーケンスについて、その信号シーケンスがノイズ妨害のみであるかどうかが判定される。信号シーケンスが妨害のみの場合、方法は操作138に進み、図5A〜5Cを参照して前述したように、妨害が除去され、線形補間を適用して信号シーケンスが復元される。この操作は、信号シーケンスを周波数領域に変換することを必要とせずに実行できるという点に留意すべきである。信号シーケンスが妨害のみを含むわけではない場合、方法は操作140に移動し、信号シーケンスが目的音声のみを含むかどうかが判定される。信号シーケンスが目的音声のみを含むわけではない場合、方法は操作142に進む。操作142において、調整された周波数加重係数に従って、周波数ビンの幅が再度スケール調整される。調整された周波数加重係数は、統計平均演算子によって求められるが、実際には、1次平滑化演算子で代用される。すなわち、以前の周波数スペクトルを現在の周波数スペクトルによって平滑化して、各周波数ビンについて加重係数として統計学的に平均を求めた周波数スペクトルを得る。操作140において信号シーケンスが目的音声のみを含むと判定された場合、方法は操作144に進む。操作144において、各周波数ビンの周波数加重係数が調整される。
【0035】
図8は、本発明の一実施形態による、検出信号によって特定される各種の信号シーケンスに適用される信号補正を更に示す簡略模式図である。モジュール150は、特定の信号シーケンスの種類を表している。特定のシーケンスの種類は、目的シーケンスのみ162、ノイズシーケンスと目的シーケンスの混合158、またはノイズシーケンスのみ152でありうる。信号シーケンスの種類がノイズ152のみの場合、線形補間モジュール154は、線形補間した出力調整信号156を生成する。信号シーケンスの種類が目的信号シーケンス162のみの場合、このシーケンスは時間領域から周波数領域155に変換され、調整加重係数が求められる。ブロック164において、調整された出力信号156を生成するために、元の音声が複製される。ここで、各周波数ビンについて周波数加重係数が調整されるという点に留意すべきである。信号シーケンスの種類がノイズ妨害と目的成分の混合158である場合、このシーケンスが周波数領域155に変換される。次に、図6A〜6Dを参照して前述したように、関連する信号シーケンスの周波数ビンが調整される。ここでは、調整された周波数加重係数を用いて、個々の周波数ビンが調整される。次に、モジュール160において、周波数領域の調整された信号が、逆高速フーリエ変換(IFFT)を適用することにより、時間領域に変換される。次に、モジュール160から得られた信号が、出力調整信号156として用いられる。
【0036】
図9A〜9Cは、本発明の一実施形態による、1つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。図9Aは、ビデオゲームコントローラ110に、直線アレイ形状に等間隔で配置されたマイクロフォンセンサ112−1,112−2,112−3,112−4を示す。一実施形態では、マイクロフォンセンサ112−1〜112−4同士は、約2.5cm離れている。しかし、マイクロフォンセンサ112−1〜112−4は、適切な間隔であれば、どのような間隔を置いてビデオゲームコントローラ110に配置されてもよい点を理解すべきである。更に、ビデオゲームコントローラ110は、SONY PLAYSTATION2ビデオゲームコントローラとして示されているが、ビデオゲームコントローラ110は、適切なビデオゲームコントローラであれば、どのようなものであってもよい。特定の発生源からの音声信号をトラッキングしつつ、他の競合するまたは干渉する発生源からの信号を除外するために、ここに記載した実施形態を、米国特許出願第10/650,409号に記載の実施形態に組み込むことができる。
【0037】
米国特許出願第10/650,409号に記載の音声入力システムは、複数のノイズ信号から目的音声信号を分離可能である。更に、マイクロフォンアレイが取り付けられているポータブルコンシューマデバイスに移動上の制限はない。本発明の一実施形態では、マイクロフォンアレイフレームワークは、4つの主要モジュールを有する。第1のモジュールは、音響エコーキャンセル(acoustic echo cancellation:AEC)モジュールである。AECモジュールは、ポータブルコンシューマデバイスが発生させるノイズをキャンセルするように構成されている。例えば、ポータブルコンシューマデバイスがビデオゲームコントローラの場合、ビデオゲームのプレイに関連したノイズ、すなわち音楽、爆発音、声などは全て既知である。このため、マイクロフォンアレイの各マイクロフォンセンサから入って来る信号に適用するフィルタが、デバイスが発生させるこれらの既知のノイズを除去しうる。別の実施形態では、AECモジュールは、任意選択であり、後述するモジュールと一緒に含まれていなくてもよい。音響エコーキャンセルに関する更に詳しい説明はジョン・J・シャンク(John J. Shynk)、“Frequency-Domain and Multirate Adaptive Filtering”、IEEE Signal Processing Magazine、14〜37ページ、1992年1月に記載されている。
【0038】
第2のモジュールは、分離フィルタを含む。一実施形態では、この分離フィルタは、信号パスフィルタと信号ブロッキングフィルタを有する。このモジュールでは、識別された聴取方向以外から入って来る信号を抑制するために、アレイビーム形成が実行される。信号パスフィルタとブロッキングフィルタは、いずれも、アダプティブアレイ較正モジュールによって生成される有限インパルス応答(finite impulse response:FIR)フィルタである。アダプティブアレイ較正モジュールは第3のモジュールであり、バックグラウンドで実行するように構成されている。アダプティブアレイ較正モジュールは、センサアレイのマイクロフォンセンサによってノイズとソース信号がキャプチャされた場合に、ソース信号から干渉またはノイズを分離するようにも構成されている。アダプティブアレイ較正モジュールによって、ユーザは、音声の記録中に6自由度で三次元空間を自由に移動できる。更に、ビデオゲームのアプリケーションに関して、ここに記載するマイクロフォンアレイフレームワークは、テレビの音声信号、忠実度の高い音楽、ほかのプレーヤの声、周囲ノイズなどのバックグラウンドノイズが含まれうる騒がしいゲーム環境において使用することができる。信号パスフィルタは、ソース信号を増強するためにフィルタアンドサム(filter-and-sum)ビームフォーマによって使用される。信号ブロッキングフィルタは、ソース信号を効果的にブロックして、干渉またはノイズを生成し、これが、ノイズ低減信号を生成するために、後に信号パスフィルタの出力と共に使用される。
【0039】
第4のモジュールである適応ノイズキャンセルモジュールは、ビーム形成出力、すなわち信号パスフィルタの出力から減じるために、信号ブロッキングフィルタからの干渉を取る。適応ノイズキャンセル(adaptive noise cancellation:ANC)は、AECに例えて説明できるが、その例外は、ANCのノイズテンプレートは、ビデオゲームコンソールの出力ではなく、マイクロフォンセンサアレイの信号ブロッキングフィルタから生成されるという点を理解すべきである。一実施形態では、目的信号のゆがみをできるだけ押さえつつ、ノイズを最大限にキャンセルするため、ノイズテンプレートとして用いる干渉は、信号ブロッキングフィルタがカバーするソース信号のリークを防ぐものではなければならない。更に、ANCを使用することによって、比較的少ない数のマイクロフォンを狭い領域(compact region)に配置して、高い干渉除去性能を実現できる。
【0040】
図9Bは、ビデオゲームコントローラ110に設けた8つのセンサであるマイクロフォンセンサ112−1〜112−8の、等間隔の長方形のアレイ形状を示す。ビデオゲームコントローラ110に使用するセンサの個数は、適切であればいかなる数でもよいことが、当業者に明らかであろう。更に、音声サンプリングレートとゲームコントローラの取付可能な領域によって、マイクロフォンセンサアレイの構成が制約されることがある。一実施形態では、アレイ形状には、4〜12のセンサが含まれ、凸状形状(長方形など)を形成している。凸状形状では、直線アレイのように、音源方向(二次元)の追跡が可能となるのみならず、三次元空間における音の位置の正確な検出が可能となる。本明細書に記載の実施形態は、通常は直線アレイシステムを指すが、ここに記載の実施形態は、適切であれば、任意の個数のセンサにも、どのようなアレイ形状の構成にも拡張可能であることが、当業者に明らかであろう。更に、ここに記載の実施形態は、マイクロフォンが取り付けられているビデオゲームコントローラを指している。しかし、後述する実施形態は、マイクロフォンが入力装置に固定されない音声入力システムを使用するどのような適切なポータブルコンシューマデバイスにも拡張可能である。
【0041】
一実施形態では、4個のセンサを使用した代表的なマイクロフォンアレイは、以下の特徴を備えるように構成されうる。
1.音声サンプリングレート16kHz。
2.等間隔に配置された直線アレイ形状。各マイクロフォンセンサ間の間隔は、対象とする最大周波数における波長の半分(例えば2.0cm)に設定。周波数範囲は約120Hz〜約8kHz。
3.4個のセンサを使用したマイクロフォンアレイ用のハードウェアは、サンプリングレート64kHzのシーケンシャルA/Dコンバータも備えうる。
4.マイクロフォンセンサは、汎用の全方向センサでありうる。
【0042】
図9Cは、マイクロフォン172−1を1つ有するゲームコントローラ170を示している。マイクロフォン172−1はゲームコントローラ170のほぼ中央に位置するように示されているが、マイクロフォン172−1は、ゲームコントローラのどこに配置されてもよいという点に留意すべきである。別の実施形態では、ノイズ妨害の発生源が近距離場に存在し、目的成分の発生源が遠距離場に存在していれば、マイクロフォン172−1が、ゲームコントローラに固定されずに、ゲームコントローラの近くに置かれてもよい。
【0043】
図10A,10Bは、本発明の一実施形態による、ここに記載する機能が複数のマイクロフォン(入力装置に固定されたマイクロフォンアレイなど)に適用された場合に、更に得られる信頼性を示す図である。マイクロフォンが様々な位置に配置されているため、この様々な位置で検出される信号の振幅が違ってくることが理解されるべきである。このため、図10Aでは、ある位置にあるマイクロフォンは特定の振幅の信号を生成するが、図10Bでは、別の位置にあるマイクロフォンが、同じ音声信号について生成する信号の振幅が小さくなる。ノイズ妨害と判定されるには振幅がしきい値を超えなければならないが、図10Bで生成される信号はそのしきい値を超えない。しかし、図10Aで生成される信号は、線180で示すしきい値を超えている。この実施形態では、チャネルの任意の1つにおいて妨害と思われるものが検出された場合に、現在の音声が妨害であるかどうかの判定を行うことができ、これにより、信頼性が向上する。
【0044】
図11は、本発明の一実施形態による、音声信号に関連する妨害をキャンセル可能なシステムを示す簡略模式図である。ここで、マイクロフォン172を有するゲームコントローラ170が、コンソール182に動作可能に接続されている。コンソール182はディスプレイ184と通信している。ここに記載した実施形態では、ビデオゲームコントローラ170またはコンソール182内の論理回路が、ビデオゲームコントローラ170を操作しているユーザにより発生する機械的妨害を検出して、これをキャンセルするために用いられうる。このため、目的音声信号の記録が必要であり、機械的妨害によって妨害されるおそれのある音声認識やその他のアプリケーションが、ノイズ妨害の除去の結果、より効率的に動作するようになる。
【0045】
図12は、本発明の一実施形態による、ノイズ妨害キャンセル機能を有するコンピューティング装置の各種構成要素を示す簡略模式図である。ここで、コンピューティング装置182は、中央処理装置(CPU)186とメモリ188を有する。更に、コンピューティング装置182にグラフィック処理装置(GPU)190が含まれていてもよい。当然、グラフィック処理機能は、CPU186に組み込まれていてもよい。ノイズキャンセルモジュール192は、ここに記載した実施形態を実行するように構成されている論理回路を有する。論理モジュール192はスペクトル白色化論理回路194、妨害検出論理回路196および信号補正論理回路192を有する。スペクトル白色化論理回路194は、図3A,図3Bを参照して記載した機能を実行するように構成されている論理回路、すなわち、目的信号に関連する値とノイズ妨害に関連する値の差を増幅するための論理回路を有する。妨害検出論理回路196は、スペクトル白色化論理回路194の出力のダウンサンプリングに関連する機能を実行するように構成されている論理回路を有する。更に、妨害検出論理回路196は、図4を参照して記載したように、ダウンサンプリングされた信号から検出信号を生成する論理回路を有する。信号補正論理回路198は、図5〜8を参照して前述した機能を実行する論理回路を有する。CPU186、メモリ188、GPU190、およびノイズキャンセル論理モジュール194,196,198は、バス200を介して相互に接続されている。
【0046】
以上まとめると、上記に記載した発明は、高ノイズ環境において音声入力を提供するための方法および装置について記載している。この音声入力システムは、SONY PLAYSTATION2(登録商標)用のビデオゲームコントローラ、PLAYSTATION PORTABLE(PSP)ユニットや、その他の任意の適切なビデオゲームコントローラなどのビデオゲームコントローラに取り付けられうるマイクロフォンアレイを有する。マイクロフォンは、ビデオゲームコントローラの移動に一切の制限を課さないように構成されている。マイクロフォンが受ける信号には、遠距離場の目的ノイズと近距離場のノイズ妨害が含まれると仮定される。目的ノイズ(調和成分とも呼ばれる)は、例えば、ユーザの声、音楽など、記録したい任意のノイズである。ノイズ妨害は、例えば入力装置からの機械的ノイズや、打奏音など、近距離場から発生するノイズを含みうる。音声信号が、ノイズ信号の特徴を保持しつつ、目的音声に関連する振幅を低減するスペクトル白色化方式によって処理され、これにより、妨害検出段階を支援するために、目的成分とノイズ成分の差(magnitude)が増幅される。妨害検出方式では、スペクトル白色化方式の出力がIIRフィルタによって処理され、ダウンサンプリングされて、この信号に導関数が適用される。ここで、信号シーケンスの種類を特定するために、この信号の信号シーケンスが更に「白色化」されて、次に非相関化される。信号シーケンスが特定されると、信号が、上記したように信号シーケンスの種類に応じて調整される。ダウンサンプリング方式により、サンプリングすべきデータ量が低減できるだけではなく、高次の導関数を適用することに比べて遙かに安定な低次の導関数を使用できるようになる。
【0047】
また、本明細書に記載した各種実施形態は、オンラインゲームアプリケーションに適用できる点を理解すべきである。すなわち、前述の実施形態は、インターネットなどの分散ネットワークを介してビデオ信号を複数のユーザに送信するサーバで行われ、騒音のある遠隔地点でプレーヤが相互に通信できるようにする。ここに記載した実施形態は、ハードウェア実装、ソフトウェア実装のいずれによって実装されてもよいという点を更に理解すべきである。すなわち、上で述べた機能の説明を組み合わせて、ノイズキャンセル方式に関連する各モジュールの機能タスクを実行するように構成された論理回路を有するマイクロチップを定義してもよい。
【0048】
上記の実施形態を考慮に入れて、本発明が、コンピュータシステムに記憶されたデータを使用する、各種のコンピュータ実装操作を使用してもよい点を理解すべきである。これらの操作には、物理量の物理的な操作を必要とする操作が含まれる。この物理量は通常、記憶、転送、結合、比較などの操作が可能な電気信号または磁気信号の形を取るが、必ずしもこれらに限定されない。更に、実行される操作は、生成、特定、決定または比較などと呼ばれることが多い。
【0049】
上記した発明は、携帯式デバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電気製品、ミニコンピュータ、メインフレームコンピュータなど、他のコンピュータシステム構成によって実施されてもよい。また、本発明は、分散コンピューティング環境で実施されてもよく、このような環境では、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される。本発明は、また、計算機可読媒体上の計算機可読コードとして実施されてもよい。計算機可読媒体は、電磁搬送波(electromagnetic wave carrier)を含め、コンピュータシステムによって後から読取ることができるデータを記憶できるデータ記憶装置であれば、どのようなものに存在してもよい。計算機可読媒体の例には、ハードディスク、ネットワーク接続記憶装置(NAS)、リードオンリーメモリ、ランダムアクセスメモリ、CD−ROM、CD−R、CD−RW、磁気テープおよび他の光学式データ記憶装置および非光学式データ記憶装置などがある。また、計算機可読媒体は、計算機可読コードが分散式に記憶されて、実行されるように、ネットワークに結合されたコンピュータシステムを介して分散されてもよい。
【0050】
上記に、本発明を明確に理解できるようにある程度詳細に記載したが、添付の特許請求の範囲内で変更例または変形例を実施できることは明らかである。したがって、本実施形態は例示的なものであり、制限するものではなく、本発明は本明細書に記載されている詳細な事項に限定されず、添付の特許請求の範囲およびその均等物の範囲内で変更されてもよい。特許請求の範囲において、各種構成要素および/またはステップの順序は、請求項に明示的に記載されていない限り、特定の操作の順序を示すものではない。
【図面の簡単な説明】
【0051】
【図1A】本発明の一実施形態によるノイズ妨害除去前の音声信号のフットプリントを示す代表的なグラフである。
【図1B】本発明の一実施形態によるノイズ妨害除去後の音声信号のフットプリントを示す代表的なグラフである。
【図2】本発明の一実施形態によるノイズ妨害の除去に関連するモジュールを示す簡略模式図である。
【図3A】本発明の一実施形態によるスペクトル白色化機能の効果を示す代表的なグラフである。
【図3B】本発明の一実施形態によるスペクトル白色化機能の効果を示す代表的なグラフである。
【図4】本発明の一実施形態による妨害検出モジュールの各種構成要素の簡略図である。
【図5A】本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。
【図5B】本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。
【図5C】本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。
【図6A】本発明の一実施形態による、音声信号に、目的成分とノイズ妨害が混在している場合の、時間領域における検出信号のグラフ図である。
【図6B】図6Aの特定の時点に対応する周波数領域表す図である。
【図6C】図6Aの特定の時点に対応する周波数領域表す図である。
【図6D】図6Aの特定の時点に対応する周波数領域表す図である。
【図7】本発明の一実施形態による、音声信号に関連するノイズ妨害を低減させるための方法操作を示すフローチャート図である。
【図8】本発明の一実施形態による、検出信号によって特定される、さまざまな種類の信号シーケンスに適用される信号補正を更に示す簡略模式図である。
【図9A】本発明の一実施形態による、1つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。
【図9B】本発明の一実施形態による、1つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。
【図9C】本発明の一実施形態による、1つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。
【図10A】本発明の一実施形態による、ここに記載する機能が複数のマイクロフォン(入力装置に固定されたマイクロフォンアレイなど)に適用された場合に、更に得られる信頼性を示す図である。
【図10B】本発明の一実施形態による、ここに記載する機能が複数のマイクロフォン(入力装置に固定されたマイクロフォンアレイなど)に適用された場合に、更に得られる信頼性を示す図である。
【図11】本発明の一実施形態による、音声信号に関連する妨害をキャンセル可能なシステムを示す簡略模式図である。
【図12】本発明の一実施形態による、ノイズ妨害キャンセル機能を有するコンピューティング装置の各種構成要素を示す簡略模式図である。
【特許請求の範囲】
【請求項1】
音声信号を処理する方法であって、
調和部分および妨害部分から構成される信号を受信する操作と、
前記音声信号の前記調和部分に関連する振幅を下げる操作と、
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げる操作と、
前記音声信号の前記妨害部分に関連する信号シーケンスの種類を特定する操作と、
前記信号シーケンスの前記種類に従って前記妨害部分を変更する操作と、を有する方法。
【請求項2】
前記信号シーケンスの前記種類に従って前記妨害部分を変更する前記方法操作は、
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去する操作と、
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用する操作と、
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換する操作と、を有する請求項1に記載の方法。
【請求項3】
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去する前記方法操作は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換する操作を有する請求項2に記載の方法。
【請求項4】
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用する前記方法操作は、
前記音声信号に関連する各周波数ビンについて前記周波数加重係数を更新する操作を有する請求項2に記載の方法。
【請求項5】
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換する前記方法操作は、
各周波数ビン信号をスケール調整する操作と、
前記スケール調整された周波数ビン信号を時間領域に変換する操作と、を有する請求項2に記載の方法。
【請求項6】
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げる前記方法操作は、
前記振幅を下げた前記音声信号を1/10にダウンサンプリングする操作を有する請求項1に記載の方法。
【請求項7】
マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減する方法であって、
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する操作と、
前記音声信号のサンプリングレートを下げる操作と、
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用する操作と、
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整する操作と、を有する方法。
【請求項8】
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する前記方法操作は、
前記音声信号を逆インパルスレスポンスフィルタで処理する操作を有する請求項7に記載の方法。
【請求項9】
前記音声信号のサンプリングレートを下げる前記方法操作は、
前記音声信号を1/10にダウンサンプリングする操作を有する請求項7に記載の方法。
【請求項10】
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用する前記方法操作は、前記音声信号の前記ノイズ妨害を前記音声信号の前記残りの成分から更に差別化する請求項7に記載の方法。
【請求項11】
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整する前記方法操作は、
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含むかどうかを特定する操作を有する請求項7に記載の方法。
【請求項12】
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含む場合、前記方法は、
前記音声信号を時間領域から周波数領域に変換する操作と、
スケール調整された音声信号を定義するために、前記変換された音声信号の各周波数ビンを加重係数に従ってスケール調整する操作と、
前記スケール調整された音声信号を前記時間領域に再変換する操作と、を有する請求項11に記載の方法。
【請求項13】
前記ノイズ妨害に関連する前記信号シーケンスがノイズ妨害信号のみの場合、前記方法は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換する操作を有する請求項11に記載の方法。
【請求項14】
音声信号を処理するプログラム命令を有する計算機可読媒体であって、
調和部分および妨害部分から構成される信号を受信するプログラム命令と、
前記音声信号の前記調和部分に関連する振幅を下げるプログラム命令と、
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げるプログラム命令と、
前記音声信号の前記妨害部分に関連する信号シーケンスの種類を特定するプログラム命令と、
前記信号シーケンスの前記種類に従って前記妨害部分を変更するプログラム命令と、を有する計算機可読媒体。
【請求項15】
前記信号シーケンスの前記種類に従って前記妨害部分を変更する前記プログラム命令は、
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去するプログラム命令と、
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用するプログラム命令と、
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換するプログラム命令と、を有する請求項14に記載の計算機可読媒体。
【請求項16】
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去する前記プログラム命令は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換するプログラム命令を有する請求項15に記載の計算機可読媒体。
【請求項17】
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用する前記プログラム命令は、
前記音声信号に関連する各周波数ビンについて前記周波数加重係数を更新するプログラム命令を有する請求項15に記載の計算機可読媒体。
【請求項18】
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換する前記プログラム命令は、
各周波数ビン信号をスケール調整するプログラム命令と、
前記スケール調整された周波数ビン信号を時間領域に変換するプログラム命令と、を有する請求項15に記載の計算機可読媒体。
【請求項19】
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げる前記プログラム命令は、
前記振幅を下げた前記音声信号を1/10にダウンサンプリングする操作を有するプログラム命令を有する請求項14に記載の計算機可読媒体。
【請求項20】
マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減するプログラム命令を有する計算機可読媒体であって、
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調するプログラム命令と、
前記音声信号のサンプリングレートを下げるプログラム命令と、
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用するプログラム命令と、前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整するプログラム命令と、を有する計算機可読媒体。
【請求項21】
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する前記プログラム命令は、
前記音声信号を逆インパルスレスポンスフィルタで処理するプログラム命令を有する請求項20に記載の計算機可読媒体。
【請求項22】
前記音声信号のサンプリングレートを下げる前記方法操作は、
前記音声信号を1/10にダウンサンプリングするプログラム命令を有する請求項20に記載の計算機可読媒体。
【請求項23】
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用する前記プログラム命令は、前記音声信号の前記ノイズ妨害を前記音声信号の前記残りの成分から更に差別化する請求項20に記載の計算機可読媒体。
【請求項24】
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整する前記プログラム命令は、
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含むかどうかを特定するプログラム命令を有する請求項20に記載の計算機可読媒体。
【請求項25】
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含む場合、前記計算機可読媒体は、
前記音声信号を時間領域から周波数領域に変換するプログラム命令と、
スケール調整された音声信号を定義するために、前記変換された音声信号の各周波数ビンを加重係数に従ってスケール調整するプログラム命令と、
前記スケール調整された音声信号を前記時間領域に再変換するプログラム命令と、を有する請求項24に記載の計算機可読媒体。
【請求項26】
前記ノイズ妨害に関連する前記信号シーケンスがノイズ妨害信号のみの場合、前記計算機可読媒体は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換するプログラム命令を有する請求項24に記載の計算機可読媒体。
【請求項27】
音声信号に関連する妨害をキャンセル可能なシステムであって、
音声信号を処理するための論理回路であって、前記論理回路は、
前記音声信号から検出信号を生成する論理回路と、
前記音声信号の信号シーケンスが妨害であるかどうかを、前記検出信号の対応する信号シーケンスを分析することによって判定する論理回路と、を有するコンピューティング装置と、
前記コンピューティング装置に動作可能に接続された入力装置と、
前記音声信号をキャプチャするように構成されたマイクロフォンとを有し、前記妨害の発生源が、前記マイクロフォンに関連する近距離場内に存在し、前記音声信号の目的成分の発生源が前記マイクロフォンに関連する遠距離場内に存在するように、前記マイクロフォンが配置されているシステム。
【請求項28】
前記マイクロフォンは前記入力装置に固定されている請求項27に記載のシステム。
【請求項29】
前記音声信号の信号シーケンスが妨害であるかどうかを、前記検出信号の対応する信号シーケンスを分析することによって判定する前記論理回路は、
前記音声信号を時間領域から周波数領域に変換する論理回路と、
前記周波数領域における前記音声信号の周波数ビンを調整する論理回路と、
前記調整された音声信号を前記周波数領域から前記時間領域に変換する論理回路と、を有する請求項27に記載のシステム。
【請求項30】
前記妨害は、周波数範囲が約0ヘルツ〜約800ヘルツの機械的妨害である請求項27に記載のシステム。
【請求項31】
前記入力装置はビデオゲームコントローラである請求項27に記載のシステム。
【請求項32】
前記コンピューティング装置はゲームコンソールである請求項27に記載のシステム。
【請求項33】
各論理回路要素はソフトウェアまたはハードウェアのいずれかであるか、ソフトウェアとハードウェアを組み合わせたものである請求項27に記載のシステム。
【請求項34】
ビデオゲームコントローラであって、
前記ビデオゲームコントローラに固定されたマイクロフォンであって、前記マイクロフォンに対して遠距離場にある目的音声信号と、前記マイクロフォンに対して近距離場にある妨害ノイズとを含む音声信号を検出するように構成された前記マイクロフォンと、
前記音声信号を処理するように構成された論理回路と、を有し、前記論理回路は、
前記音声信号に偶数次の導関数を適用することによって、検出信号を生成するように構成された検出信号論理回路と、
前記検出信号の分析によって前記音声信号から妨害ノイズを除去するように構成された妨害キャンセル論理回路と、を有するビデオゲームコントローラ。
【請求項35】
前記妨害キャンセル論理回路は、
前記妨害ノイズの信号シーケンスが前記目的音声信号に関連しているかどうかを判定する論理回路を有する請求項34に記載のビデオゲームコントローラ。
【請求項36】
複数のマイクロフォンを更に有し、前記複数のマイクロフォンの各々は、前記妨害ノイズがしきい値を超えているかどうかを独立して判定するように構成されている請求項35に記載のビデオゲームコントローラ。
【請求項37】
前記検出信号論理回路は、
前記検出信号に関連するデータ量を、前記音声信号と比較して1/10に減らすように構成されたダウンサンプリング論理回路を有する請求項34に記載のビデオゲームコントローラ。
【請求項38】
集積回路であって、
複数のノイズ源環境において少なくとも1つのマイクロフォンから音声信号を受信するように構成された回路と、
前記音声信号に対して信号の非相関化を実行するように構成された回路と、
前記非相関化された音声信号をダウンサンプリングするように構成された回路と、
前記ダウンサンプリングされた音声信号に微分操作を適用するように構成された回路と、
前記微分された音声信号内にノイズ妨害信号シーケンスを検出するように構成された回路と、
前記ノイズ妨害信号シーケンスに関連する前記音声信号の信号シーケンスを除去するように構成された回路と、を有する集積回路。
【請求項39】
前記音声信号に対して信号の非相関化を実行するように構成された前記回路は線形予測誤差フィルタである請求項38に記載の集積回路。
【請求項40】
前記非相関化された音声信号をダウンサンプリングするように構成された前記回路は、前記音声信号に関連するデータ量を1/10に減らす請求項38に記載の集積回路。
【請求項41】
前記微分は4次の微分操作である請求項38に記載の集積回路。
【請求項42】
前記微分された音声信号内にノイズ妨害信号シーケンスを検出するように構成された前記回路は、
前記ノイズ妨害信号シーケンスが目的信号シーケンスを含むかどうかを判定するように構成された回路を有する請求項38に記載の集積回路。
【請求項43】
前記ノイズ妨害信号シーケンスに関連する前記音声信号の信号シーケンスを除去するように構成された前記回路は、
前の信号シーケンスと後の信号シーケンスとに基づく線形補間を実行するように構成された回路を有する請求項38に記載の集積回路。
【請求項44】
前記集積回路は、ビデオゲームコントローラおよびビデオゲームコンソールの一方に搭載されている請求項38に記載の集積回路。
【請求項1】
音声信号を処理する方法であって、
調和部分および妨害部分から構成される信号を受信する操作と、
前記音声信号の前記調和部分に関連する振幅を下げる操作と、
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げる操作と、
前記音声信号の前記妨害部分に関連する信号シーケンスの種類を特定する操作と、
前記信号シーケンスの前記種類に従って前記妨害部分を変更する操作と、を有する方法。
【請求項2】
前記信号シーケンスの前記種類に従って前記妨害部分を変更する前記方法操作は、
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去する操作と、
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用する操作と、
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換する操作と、を有する請求項1に記載の方法。
【請求項3】
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去する前記方法操作は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換する操作を有する請求項2に記載の方法。
【請求項4】
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用する前記方法操作は、
前記音声信号に関連する各周波数ビンについて前記周波数加重係数を更新する操作を有する請求項2に記載の方法。
【請求項5】
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換する前記方法操作は、
各周波数ビン信号をスケール調整する操作と、
前記スケール調整された周波数ビン信号を時間領域に変換する操作と、を有する請求項2に記載の方法。
【請求項6】
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げる前記方法操作は、
前記振幅を下げた前記音声信号を1/10にダウンサンプリングする操作を有する請求項1に記載の方法。
【請求項7】
マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減する方法であって、
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する操作と、
前記音声信号のサンプリングレートを下げる操作と、
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用する操作と、
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整する操作と、を有する方法。
【請求項8】
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する前記方法操作は、
前記音声信号を逆インパルスレスポンスフィルタで処理する操作を有する請求項7に記載の方法。
【請求項9】
前記音声信号のサンプリングレートを下げる前記方法操作は、
前記音声信号を1/10にダウンサンプリングする操作を有する請求項7に記載の方法。
【請求項10】
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用する前記方法操作は、前記音声信号の前記ノイズ妨害を前記音声信号の前記残りの成分から更に差別化する請求項7に記載の方法。
【請求項11】
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整する前記方法操作は、
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含むかどうかを特定する操作を有する請求項7に記載の方法。
【請求項12】
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含む場合、前記方法は、
前記音声信号を時間領域から周波数領域に変換する操作と、
スケール調整された音声信号を定義するために、前記変換された音声信号の各周波数ビンを加重係数に従ってスケール調整する操作と、
前記スケール調整された音声信号を前記時間領域に再変換する操作と、を有する請求項11に記載の方法。
【請求項13】
前記ノイズ妨害に関連する前記信号シーケンスがノイズ妨害信号のみの場合、前記方法は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換する操作を有する請求項11に記載の方法。
【請求項14】
音声信号を処理するプログラム命令を有する計算機可読媒体であって、
調和部分および妨害部分から構成される信号を受信するプログラム命令と、
前記音声信号の前記調和部分に関連する振幅を下げるプログラム命令と、
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げるプログラム命令と、
前記音声信号の前記妨害部分に関連する信号シーケンスの種類を特定するプログラム命令と、
前記信号シーケンスの前記種類に従って前記妨害部分を変更するプログラム命令と、を有する計算機可読媒体。
【請求項15】
前記信号シーケンスの前記種類に従って前記妨害部分を変更する前記プログラム命令は、
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去するプログラム命令と、
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用するプログラム命令と、
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換するプログラム命令と、を有する請求項14に記載の計算機可読媒体。
【請求項16】
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去する前記プログラム命令は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換するプログラム命令を有する請求項15に記載の計算機可読媒体。
【請求項17】
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用する前記プログラム命令は、
前記音声信号に関連する各周波数ビンについて前記周波数加重係数を更新するプログラム命令を有する請求項15に記載の計算機可読媒体。
【請求項18】
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換する前記プログラム命令は、
各周波数ビン信号をスケール調整するプログラム命令と、
前記スケール調整された周波数ビン信号を時間領域に変換するプログラム命令と、を有する請求項15に記載の計算機可読媒体。
【請求項19】
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げる前記プログラム命令は、
前記振幅を下げた前記音声信号を1/10にダウンサンプリングする操作を有するプログラム命令を有する請求項14に記載の計算機可読媒体。
【請求項20】
マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減するプログラム命令を有する計算機可読媒体であって、
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調するプログラム命令と、
前記音声信号のサンプリングレートを下げるプログラム命令と、
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用するプログラム命令と、前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整するプログラム命令と、を有する計算機可読媒体。
【請求項21】
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する前記プログラム命令は、
前記音声信号を逆インパルスレスポンスフィルタで処理するプログラム命令を有する請求項20に記載の計算機可読媒体。
【請求項22】
前記音声信号のサンプリングレートを下げる前記方法操作は、
前記音声信号を1/10にダウンサンプリングするプログラム命令を有する請求項20に記載の計算機可読媒体。
【請求項23】
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用する前記プログラム命令は、前記音声信号の前記ノイズ妨害を前記音声信号の前記残りの成分から更に差別化する請求項20に記載の計算機可読媒体。
【請求項24】
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整する前記プログラム命令は、
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含むかどうかを特定するプログラム命令を有する請求項20に記載の計算機可読媒体。
【請求項25】
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含む場合、前記計算機可読媒体は、
前記音声信号を時間領域から周波数領域に変換するプログラム命令と、
スケール調整された音声信号を定義するために、前記変換された音声信号の各周波数ビンを加重係数に従ってスケール調整するプログラム命令と、
前記スケール調整された音声信号を前記時間領域に再変換するプログラム命令と、を有する請求項24に記載の計算機可読媒体。
【請求項26】
前記ノイズ妨害に関連する前記信号シーケンスがノイズ妨害信号のみの場合、前記計算機可読媒体は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換するプログラム命令を有する請求項24に記載の計算機可読媒体。
【請求項27】
音声信号に関連する妨害をキャンセル可能なシステムであって、
音声信号を処理するための論理回路であって、前記論理回路は、
前記音声信号から検出信号を生成する論理回路と、
前記音声信号の信号シーケンスが妨害であるかどうかを、前記検出信号の対応する信号シーケンスを分析することによって判定する論理回路と、を有するコンピューティング装置と、
前記コンピューティング装置に動作可能に接続された入力装置と、
前記音声信号をキャプチャするように構成されたマイクロフォンとを有し、前記妨害の発生源が、前記マイクロフォンに関連する近距離場内に存在し、前記音声信号の目的成分の発生源が前記マイクロフォンに関連する遠距離場内に存在するように、前記マイクロフォンが配置されているシステム。
【請求項28】
前記マイクロフォンは前記入力装置に固定されている請求項27に記載のシステム。
【請求項29】
前記音声信号の信号シーケンスが妨害であるかどうかを、前記検出信号の対応する信号シーケンスを分析することによって判定する前記論理回路は、
前記音声信号を時間領域から周波数領域に変換する論理回路と、
前記周波数領域における前記音声信号の周波数ビンを調整する論理回路と、
前記調整された音声信号を前記周波数領域から前記時間領域に変換する論理回路と、を有する請求項27に記載のシステム。
【請求項30】
前記妨害は、周波数範囲が約0ヘルツ〜約800ヘルツの機械的妨害である請求項27に記載のシステム。
【請求項31】
前記入力装置はビデオゲームコントローラである請求項27に記載のシステム。
【請求項32】
前記コンピューティング装置はゲームコンソールである請求項27に記載のシステム。
【請求項33】
各論理回路要素はソフトウェアまたはハードウェアのいずれかであるか、ソフトウェアとハードウェアを組み合わせたものである請求項27に記載のシステム。
【請求項34】
ビデオゲームコントローラであって、
前記ビデオゲームコントローラに固定されたマイクロフォンであって、前記マイクロフォンに対して遠距離場にある目的音声信号と、前記マイクロフォンに対して近距離場にある妨害ノイズとを含む音声信号を検出するように構成された前記マイクロフォンと、
前記音声信号を処理するように構成された論理回路と、を有し、前記論理回路は、
前記音声信号に偶数次の導関数を適用することによって、検出信号を生成するように構成された検出信号論理回路と、
前記検出信号の分析によって前記音声信号から妨害ノイズを除去するように構成された妨害キャンセル論理回路と、を有するビデオゲームコントローラ。
【請求項35】
前記妨害キャンセル論理回路は、
前記妨害ノイズの信号シーケンスが前記目的音声信号に関連しているかどうかを判定する論理回路を有する請求項34に記載のビデオゲームコントローラ。
【請求項36】
複数のマイクロフォンを更に有し、前記複数のマイクロフォンの各々は、前記妨害ノイズがしきい値を超えているかどうかを独立して判定するように構成されている請求項35に記載のビデオゲームコントローラ。
【請求項37】
前記検出信号論理回路は、
前記検出信号に関連するデータ量を、前記音声信号と比較して1/10に減らすように構成されたダウンサンプリング論理回路を有する請求項34に記載のビデオゲームコントローラ。
【請求項38】
集積回路であって、
複数のノイズ源環境において少なくとも1つのマイクロフォンから音声信号を受信するように構成された回路と、
前記音声信号に対して信号の非相関化を実行するように構成された回路と、
前記非相関化された音声信号をダウンサンプリングするように構成された回路と、
前記ダウンサンプリングされた音声信号に微分操作を適用するように構成された回路と、
前記微分された音声信号内にノイズ妨害信号シーケンスを検出するように構成された回路と、
前記ノイズ妨害信号シーケンスに関連する前記音声信号の信号シーケンスを除去するように構成された回路と、を有する集積回路。
【請求項39】
前記音声信号に対して信号の非相関化を実行するように構成された前記回路は線形予測誤差フィルタである請求項38に記載の集積回路。
【請求項40】
前記非相関化された音声信号をダウンサンプリングするように構成された前記回路は、前記音声信号に関連するデータ量を1/10に減らす請求項38に記載の集積回路。
【請求項41】
前記微分は4次の微分操作である請求項38に記載の集積回路。
【請求項42】
前記微分された音声信号内にノイズ妨害信号シーケンスを検出するように構成された前記回路は、
前記ノイズ妨害信号シーケンスが目的信号シーケンスを含むかどうかを判定するように構成された回路を有する請求項38に記載の集積回路。
【請求項43】
前記ノイズ妨害信号シーケンスに関連する前記音声信号の信号シーケンスを除去するように構成された前記回路は、
前の信号シーケンスと後の信号シーケンスとに基づく線形補間を実行するように構成された回路を有する請求項38に記載の集積回路。
【請求項44】
前記集積回路は、ビデオゲームコントローラおよびビデオゲームコンソールの一方に搭載されている請求項38に記載の集積回路。
【図1A】
【図1B】
【図2】
【図3A】
【図3B】
【図4】
【図5A】
【図5B】
【図5C】
【図6A】
【図6B】
【図6C】
【図6D】
【図7】
【図8】
【図9A】
【図9B】
【図9C】
【図10A】
【図10B】
【図11】
【図12】
【図1B】
【図2】
【図3A】
【図3B】
【図4】
【図5A】
【図5B】
【図5C】
【図6A】
【図6B】
【図6C】
【図6D】
【図7】
【図8】
【図9A】
【図9B】
【図9C】
【図10A】
【図10B】
【図11】
【図12】
【公表番号】特表2007−532946(P2007−532946A)
【公表日】平成19年11月15日(2007.11.15)
【国際特許分類】
【出願番号】特願2007−507316(P2007−507316)
【出願日】平成17年3月2日(2005.3.2)
【国際出願番号】PCT/US2005/007243
【国際公開番号】WO2005/104091
【国際公開日】平成17年11月3日(2005.11.3)
【出願人】(395015319)株式会社ソニー・コンピュータエンタテインメント (871)
【Fターム(参考)】
【公表日】平成19年11月15日(2007.11.15)
【国際特許分類】
【出願日】平成17年3月2日(2005.3.2)
【国際出願番号】PCT/US2005/007243
【国際公開番号】WO2005/104091
【国際公開日】平成17年11月3日(2005.11.3)
【出願人】(395015319)株式会社ソニー・コンピュータエンタテインメント (871)
【Fターム(参考)】
[ Back to top ]