音声妨害を検出および除去する方法および装置

マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減する方法が提供される。この方法は、前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する操作から開始する。次に、前記音声信号のサンプリングレートが下げられる。次に、検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数が適用される。次に、前記音声信号の前記ノイズ妨害が、前記検出信号の統計平均に従って調整される。音声信号に関連する妨害をキャンセル可能なシステム、ビデオゲームコントローラ、および音声信号に関連するノイズ妨害を低減する集積回路が含まれる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、一般に音声処理に関し、より詳細には、本発明は、音声信号からノイズ妨害を特定して、これを除去することが可能なシステムに関する。
【背景技術】
【０００２】
音声入力システムは、典型的には、話者の口の近くに着用される、ヘッドセットにつながれたマイクロフォンとして設計されている。このことが、ヘッドセットを着用しなければならないという物理的な制約をユーザに課するため、ユーザは、通常、ヘッドセットの着用を避けるため、実質的に口述のためにのみヘッドセットを使用し、比較的短い入力を行ったりコンピュータにコマンドを出すのにキーボードによるタイプ入力に頼っている。
【０００３】
ビデオゲーム機は家庭内に普及してきた。ビデオゲームメーカは、ユーザがより現実に近い体験をでき、オンラインアプリケーションなどのゲームの制限を広げるべく絶えず努力を続けている。例えば、多くのノイズが発生している部屋にいる別のプレーヤと通信する機能、または、プレーヤ間でオンラインゲームをプレイ中に、バックグラウンドノイズとゲーム自体から出るノイズがこの通信に干渉する場合にユーザが音声信号を送受信する機能が、これまで、リアルタイムのクリアかつ効果的なプレーヤ間通信を阻んできた。この同じ障壁により、プレーヤが、ビデオゲームコンソールに音声命令を出す機能が妨げられてきた。この場合も、バックグラウンドノイズ、ゲームのノイズおよび部屋の残響の全てが、プレーヤが発する音声信号に干渉する。
【発明の開示】
【発明が解決しようとする課題】
【０００４】
ユーザがヘッドセットの着用をしたがらない傾向にあるため、音をキャプチャするために、ヘッドセットの代わりにマイクロフォンを使用する方法がある。しかし、現在市販されているマイクロフォンシステムの不具合に、音声信号からノイズ妨害を検出してこれを除去できない点がある。マイクロフォンが、ビデオゲームコントローラなどの入力装置に搭載されている場合、入力装置でのさまざまな機械的な活動に起因してノイズ妨害が発生するという点に留意すべきである。例えば、ゲームコントローラの場合、ボタンを押下したり、ジョイスティックをクリックしたり、指を叩いたり、テーブルに衝突したり、コントローラの振動や表面摩擦などによって、ノイズ妨害が発生することがある。
【０００５】
ゲームコントローラなどの入力装置に搭載されるマイクロフォンセンサと各種の機械式入力装置の距離が近いという特有の性質のため、マイクロフォンが、近くで発生した機械のノイズ（ゲームボタンを押下したり、ジョイスティックをクリックしたり、テーブルに衝突したり、コントローラの表面を叩いたとき、フォースフィードバック、振動など）を検出して、それを増幅すると、激しい妨害が発生する。アナログ信号の伝送によって発生する衝撃ノイズを除去する従来の課題とは異なり、この場合は、機械的妨害の持続期間は非常に長く、より動的である。妨害の可聴できる期間は、５０ミリ秒未満の（ジョイスティックのクリックなど）鋭い急なインパルスから、発話の間じゅう（触覚装置の表面を触りながら話す場合など）に及ぶ。更に、人間が出す打的な音の一部（例えば叫び、閉鎖子音など）は、所望の「通常の音」（目的音声とも呼ばれる）と機械的妨害（ノイズ妨害と呼ばれる）との境目を更にわからなくしてしまう。更に、壊れた音声信号を復旧するには、音声信号から機械的ノイズを効果的に分離しなければならない。
【０００６】
その結果、従来技術の課題を解決して、近距離場において発生するノイズ妨害を検出してこれを除去するために、入力装置と共に用いられるマイクロフォンを提供することが求められている。
【課題を解決するための手段】
【０００７】
大まかにいうと、本発明は、音声トラック信号から機械的妨害を検出して、これを除去するための手法を規定する方法および装置を提供することによって、このようなニーズを満たす。本発明は、方法、システム、計算機可読媒体または装置などの多くの方法で実施できる点を理解すべきである。以下に本発明のいくつかの発明の実施形態を記載する。
【０００８】
一実施形態では、音声信号を処理する方法が提供される。この方法は、調和部分と妨害部分とから構成される信号を受信する操作から開始する。次に、前記音声信号の前記調和部分に関連する振幅が下げられる。次に、前記調和部分の振幅を下げた前記音声信号のサンプリングレートが下げられる。次に、前記音声信号の前記妨害部分に関連する信号シーケンスの種類が特定される。次に、前記信号シーケンスの前記種類に従って前記妨害部分が変更される。
【０００９】
別の実施形態では、マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減する方法が提供される。この方法は、前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する操作から開始する。次に、前記音声信号のサンプリングレートが下げられる。次に、検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数が適用される。次に、前記音声信号の前記ノイズ妨害が、前記検出信号の統計平均に従って調整される。
【００１０】
更に別の実施形態では、音声信号を処理するプログラム命令を有する計算機可読媒体が提供される。この計算機可読媒体は、調和部分および妨害部分から構成される信号を受信するプログラム命令を有する。前記音声信号の前記調和部分に関連する振幅を下げるプログラム命令と、前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げるプログラム命令とが提供される。前記音声信号の前記妨害部分に関連する信号シーケンスの種類を特定するプログラム命令と、前記信号シーケンスの前記種類に従って前記妨害部分を変更するプログラム命令とが含まれる。
【００１１】
更に別の実施形態では、マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減するプログラム命令を有する計算機可読媒体が提供される。この計算機可読媒体は、前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調するプログラム命令を有する。前記音声信号のサンプリングレートを下げるプログラム命令が含まれる。検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用するプログラム命令と、前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整するプログラム命令とが含まれる。
【００１２】
別の実施形態では、音声信号に関連する妨害をキャンセル可能なシステムが提供される。このシステムは、音声信号を処理する論理回路を有するコンピューティング装置を有する。前記音声信号を処理する前記論理回路は、前記音声信号から検出信号を生成する論理回路と、前記音声信号の信号シーケンスが妨害であるかどうかを、前記検出信号の対応する信号シーケンスを分析することによって判定する論理回路とを有する。また、このシステムは、前記コンピューティング装置に動作可能に接続された入力装置と、前記音声信号をキャプチャするように構成されたマイクロフォンとを有する。前記妨害の発生源が、前記マイクロフォンに関連する近距離場内に存在し、前記音声信号の目的成分の発生源が前記マイクロフォンに関連する遠距離場内に存在するように、前記マイクロフォンは配置されている。
【００１３】
更に別の実施形態では、ビデオゲームコントローラが提供される。このビデオゲームコントローラは、前記ビデオゲームコントローラに取り付けられたマイクロフォンを有する。前記マイクロフォンは、前記マイクロフォンに対して遠距離場にある目的音声信号と、前記マイクロフォンに対して近距離場にある妨害ノイズとを含む音声信号を検出するように構成されている。前記ビデオゲームコントローラは、音声信号を処理するように構成された論理回路を有する。前記論理回路は、前記音声信号に偶数次の導関数を適用することによって、検出信号を生成するように構成された検出信号論理回路と、前記検出信号の分析によって前記音声信号から妨害ノイズを除去するように構成された妨害キャンセル論理回路とを有する。
【００１４】
更に別の実施形態では、集積回路が提供される。この集積回路は、複数のノイズ源環境において少なくとも１つのマイクロフォンから音声信号を受信するように構成された回路を有する。前記音声信号に対して信号の非相関化を実行するように構成された回路と、前記非相関化された音声信号をダウンサンプリングするように構成された回路とが提供される。前記ダウンサンプリングされた音声信号に微分操作を適用するように構成された回路が含まれる。前記微分された音声信号内にノイズ妨害信号シーケンスを検出するように構成された回路と、前記ノイズ妨害信号シーケンスに関連する前記音声信号の信号シーケンスを除去するように構成された回路が提供される。
【００１５】
本発明の他の態様および利点は、例示のために本発明の原理を示す添付の図面と併せて、以下の詳細な説明を読めば明らかとなるであろう。
【発明を実施するための最良の形態】
【００１６】
本発明は添付の図面と併せて以下の詳細な説明を読めば容易に理解できるであろう。図面において、同じ参照符号が同じ構造要素に使用されている。
【００１７】
音声入力システムの入力装置に対して近距離場で発生したノイズ妨害を検出してこれをキャンセルするように構成された音声入力システムのためのシステム、装置および方法について本発明を記載する。しかし、本発明を、このような詳細な内容の一部または全てを用いなくても実施しうることは当業者にとって自明である。場合によっては、本発明を不必要にあいまいにすることのないよう、公知の処理操作は詳述していない。
【００１８】
本発明の各種実施形態は、コンシューマデバイスに関連付けられた音声入力システムのためのシステムおよび方法を提供する。この入力システムは、「クリーンな」信号を提供するために、ノイズ妨害を検出して、音声信号からこのノイズ妨害を能率的に除去することができる。ここに記載する実施形態が入力装置に搭載される場合には、目的信号は遠距離場（far field）から発生するが、ノイズ妨害は近距離場（near field）から発生する。目的信号は、ユーザの発話、音楽、音声トラック信号、あるいは記録が求められているほかのどのような音であってもよいという点に留意すべきである。このため、ビデオゲーム環境では、ゲームやオンラインゲームアプリケーションなどの入力制御のために、ユーザの声をキャプチャすることが求められうる。ノイズ妨害は、入力装置を操作しているユーザが発生させる機械的ノイズでありうるという点に留意すべきである。基本的に、ノイズ妨害は、パルスを有する任意の信号でありうる。また、ノイズ妨害が、ユーザによる発話のこともある。下記に記載するように、ノイズ妨害の信号の検出と分離は、（１）スペクトル白色化、（２）妨害検出および（３）信号補正の３段階に分けられる。
【００１９】
スペクトル白色化段階は、音声信号の目的信号部分のスペクトルを平坦にする効果を有する。このため、スペクトル白色化を適用した後は、ノイズ妨害の部分が、目的信号の部分に対して増幅される。妨害検出段階では、スペクトル白色化段階の出力を受け、目的信号をノイズ妨害から更に差別化することに加えて、検出信号を生成する。ここでは、スペクトル白色化段階のダウンサンプリングされた出力に対して偶数次の導関数を適用することにより、この目的が達成される。信号補正段階では、検出信号が解析され、信号シーケンスが、ノイズ妨害のみを含むか、目的信号のみを含むか、または何らかの形でこの両者を含んでいるかが決定される。ノイズ妨害が存在する場合、ノイズ妨害を実質的に除去するために、検出信号に関連する信号の種類に基づいて、音声信号が補正される。ここに記載する実施形態はビデオゲームコントローラに関して説明しているが、これらの実施形態は、音声信号がキャプチャされており、目的信号にノイズ妨害が含まれている可能性のある適切な入力装置であれば、どのようなものにも拡張することができることは当業者であれば理解できるであろう。
【００２０】
ゲームコントローラに搭載されたマイクロフォンが記録するデジタル音声に現れる激しい機械的妨害を検出してこれをキャンセルするための、コンピュータによる効率的な方法およびシステムについて、以下に更に詳細に説明する。ノイズ妨害の発生源は、ゲームコントローラなどの入力装置におけるさまざまな機械的な活動である。これらの機械的な活動には、ゲームボタンの押下、ジョイスティックのクリック、指叩き、テーブルへの衝突、コントローラの振動、触覚フィードバック、表面摩擦などがある。本検出方式の目的は、音声中に打的な声、激しい音楽または閉鎖子音が存在する場合に、誤認識することなく機械的妨害を検出および検証することにある。音声信号からのこのような妨害の分離および除去は、記録品質の低下を抑えるような方法で実行される。多くの場合、ここに提案する方法は、音響ひずみをまったく感知できない、あるいはほとんど感知できない量に保ちつつ、激しいノイズのレベルを効果的に低減させる。
【００２１】
図１Ａ，１Ｂは、本発明の一実施形態によるノイズ妨害除去の前後の音声信号のフットプリントをそれぞれ示す代表的なグラフである。グラフ１００は妨害の除去前の音声信号のフットプリントを示し、グラフ１０２は妨害の除去後の音声のフットプリントを示している。ここに記載した実施形態を適用した後は、グラフ１００において鋭い急激なピークによって示される機械的な音声妨害が除去されて、その結果、グラフ１０２の音声のフットプリントは実質的に音の音声信号の全てを含むことになり、これがキャプチャされている目的音声信号となりうる。マイクロフォンが、および例えばゲームボタンを押下したり、ジョイスティックをクリックしたり、テーブルに衝突したり、コントローラ表面を叩いたりしたとき、フォースフィードバック、振動などの近隣の（nearside）機械的ノイズを検出して増幅すると、激しい妨害が発生することが理解されるべきである。機械的妨害の持続期間は動的でありうる。
【００２２】
図２は、本発明の一実施形態によるノイズ妨害の除去に関連するモジュールを示す簡略模式図である。モジュール１０４は、スペクトル白色化ブロック１０６、妨害検出ブロック１０８、および信号補正ブロック１１０を有する。これらのブロックの各々は、音声信号を検出しているマイクロフォンから機械的な音声妨害を除去するために、後述する特定の機能的な態様を実行する。音声信号のノイズ妨害が近距離場に存在するが、音声信号の目的成分は遠距離場に存在するという点に留意すべきである。更に、モジュール１０４は、コンピューティング装置またはコンピューティング装置と通信している入力装置に組み込まれてもよいという点に更に留意すべきである。別の実施形態では、モジュール１０４は、プラグインカード、あるいはコンピューティング装置または入力装置に搭載されるプリント回路基板上の集積回路として構成されてもよい。ここに記載した実施形態は、後から詳しく説明するように、ビデオゲームコンソール、および対応のゲームコントローラに適用できることを当業者は認めるであろう。しかし、ここに記載した実施形態は、キャプチャされた音声信号から取り除くことが望ましいノイズ妨害に関連する入力装置であれば、どのようなものにも拡張することができる。
【００２３】
図３Ａ，３Ｂは、本発明の一実施形態によるスペクトル白色化機能の効果を示す代表的なグラフである。図３Ａは、一実施形態において、ゲームコントローラ上のマイクロフォンによってキャプチャされた元の音声信号を示している。図３Ｂは、図３Ａの音声信号にスペクトル白色化技術を適用した後の、図３Ａから得られた音声信号である。ここで、図３Ｂの信号を得るため、図３Ａに示す信号をフィルタリングするために、逆インパルスレスポンス（inverse impulse response：ＩＩＲ）フィルタ（線形予測誤差フィルタとも呼ばれる）が使用される。図３Ａと図３Ｂを比較すればわかるように、図３Ａの領域１１２ａ−１および１１２ｂ−１に示される、目的信号の共振に関連する振幅が、図３Ｂのそれぞれの対応する領域１１２ａ−２および１１２ｂ−２に示すように平らになっている。
【００２４】
しかし、機械的な音声妨害または他の何らかのノイズ妨害を表すピーク１１４ａおよび１１４ｂは、スペクトル白色化操作の影響を受けていない。要するに、音声信号のノイズ妨害が、音声信号の目的成分に対して増幅される。すなわち、全極ＩＩＲの逆フィルタは、音声トラックモデルをシミュレートして、信号の非相関化を実行するために用いられ、これが、入力信号のスペクトルを平らにする効果を有する。記録中の声の音声または音楽（すなわち目的音声）は、相関性が非常に高く、楽器の音の通り道（vocal tract）の共振によりスペクトル成形され増幅された不規則な励振から構成されている。信号の非相関化を実行すると、音声／音楽信号の振幅の大きさが、ほぼ元の励振信号の振幅にまで低下する。元の励振信号は、多くの場合振幅範囲が非常に狭いが、機械的ノイズの振幅の程度はほとんど変化しないか、場合によっては広がる。このため、目的ノイズとノイズ妨害の差を増幅することによって、ノイズの検出度が実質的に改善される。
【００２５】
妨害検出は、本発明の一実施形態に従って、図３Ｂに示すスペクトル的に白色化した信号を受け、この信号を１／１０にダウンサンプルすることにより、この関係を更に強化する。ここで、検出信号を生成するために、スペクトル的に白色化した信号に数学モデルが適用される。音声信号は相関性が非常に高い、すなわち、現在の信号が過去の信号に基づいているという点に留意すべきである。音声信号を非相関化するため、ダウンサンプリングされた検出信号に微分演算が実行される。一実施形態では、非相関化演算のために音声信号を微分するため、４次導関数が用いられる。任意の適切な導関数（１０次以下の偶数次の導関数）をこの演算に使用することができるという点に更に留意すべきである。
【００２６】
図４は、本発明の一実施形態による妨害検出モジュールの各種構成要素の簡略図である。目的信号とノイズ妨害を含む音声入力信号１１５が、ＩＩＲフィルタ１１７によって受信される。前述のように、ＩＩＲフィルタ１１７は、目的信号の振幅を平らにすることによって、ノイズ妨害と目的信号間の差を増幅する。ＩＩＲフィルタ１１７の出力信号が、ダウンサンプリングモジュール１１９によってダウンサンプリングされる。ここではカットオフ８００Ｈｚのローパスフィルタを用いることができることを当業者は認めるであろう。入力装置に関連する機械的ノイズは、周波数が８００Ｈｚを下回るものが多いという点に留意すべきである。このため、この場合は機械的ノイズの周波数特性が保持される。例示のために、ここではダウンサンプリングファクタ（downsampling factor）として１０を採り上げている。しかし、機械的ノイズの周波数特性が保持される一方で、知覚できる検出誤差が許容可能なレベルに抑えられさえすれば、１０以外のファクタを用いるほかのダウンサンプリング方式を使用してもよいことを当業者は認めるであろう。ダウンサンプリングにより、知覚可能な検出誤差を生じさせることなく、計算が簡略化される。このため、スペクトル的に白色化した入力信号が、圧縮信号を生成するために１／１０にダウンサンプリングされて１．６ＫＨｚとされ（音声サンプリングレートが１６ＫＨｚの場合）、これにより、ダウンサンプリングフィルタの周波数上限（８００Ｈｚ）の少なくとも２倍のサンプリング周波数が確保される。
【００２７】
引き続き図４を参照すると、ダウンサンプリングモジュール１１９からの圧縮信号が、微分モジュール１２１に入力される。一実施形態では、ダウンサンプリングされた信号に４次導関数が適用される。妨害と高調波の特徴の別の差を利用することによって、ノイズの検出度を更に上げることができるという点に留意すべきである。すなわち、妨害により、通常は相関性を示す信号が、特徴のない不連続性（急激かつ急速な変化）を示すようになる。この不連続性は、信号を離散信号微分によって微分して検出信号を形成すると、より検出しやすくなる。一実施形態では、離散信号微分は、連続する信号間の差をみるものである（すなわち信号の離散的な導関数）。一実施形態では、４次導関数は、聞き取り可能な最小の変化を検出する高い精度の評価法（measure）となる。例示のために４次導関数を採り上げたが、ここでは、２次〜１０次の任意の次数（ただしこの次数は偶数）の導関数を適用してもよいことを、当業者は認めるであろう。
【００２８】
検出の戦略には、適応型しきい値処理（adaptive thresholding）が含まれる。この方法論では、その値を超えると、信号サンプルが「妨害」として判定されるしきい値が、入力信号の４次導関数である検出信号の統計平均を計算すること（適応型しきい値処理）によって、適応的に調整される。ダウンサンプリングされた圧縮信号を使用することによって、計算が長さの面で単純化されたのみならず、検出信号がより判別可能となるという点に留意すべきである。これは、一部には、高次の導関数は遙かに不安定であるが、縮小信号は検出に低次の導関数を求めるということによる。
【００２９】
次に、後述するように、妨害検出信号に基づいて信号補正機能が適用される。妨害検出信号は、この妨害検出信号の特定の信号シーケンスが、ノイズ妨害のみ、音声または目的信号のみ、あるいはこの両者の何らかの混合、の信号シーケンス種類の１つであることを示しうることを理解すべきである。信号シーケンスが妨害のみの場合、その信号シーケンスが除去されて、除去された信号シーケンスが、その前後のシーケンスの線形補間によって求めた信号シーケンスで置き換えられる。信号シーケンスが通常の音声（目的信号）のみの場合、この周波数領域における目的信号の最新の特徴を反映するために、各周波数ビンについて、周波数加重係数（frequency weighting factor）が更新される。信号シーケンスが、ノイズ妨害、または目的音声とノイズ／機械的妨害の混合の可能性がある場合、信号が時間領域から周波数領域に変換される。次に、各周波数ビンが、適応的な周波数加重係数に関してスケール調整され、その後、周波数でスケール調整された複合信号が時間領域に再変換されて、クリーンな出力信号が形成される。一実施形態では、機械的ノイズの周波数分布は、音声品質を最大限に保持し、信号ゆがみを抑えるために、連続的な学習によって適応的に更新される。ここでは、ノイズ成分の疑いのある周波数ビンのみがスケール調整されるが、ノイズのない残りの周波数成分は処理されない。
【００３０】
図５Ａ〜５Ｃは、本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。図５Ａにおいて、領域１１６ａはノイズ妨害のみの信号シーケンスである。この場合、図５Ａの領域１１６ａに含まれる信号が除去されて、図５Ｂの領域１１６ｂに示す空隙が生ずる。領域１１８ａと１１８ｂ（すなわち空隙の前後の領域）が、この空隙を埋める信号を線形補間するために用いられる。この直線補間処理によって、領域１１６ｂの空隙を埋めるための信号シーケンスが、図５Ｃの領域１１６ｃに示すように求められる。一実施形態では、純粋なノイズ妨害は、ユーザがゲームをプレイしており、発話せずにゲームコントローラを操作している場合に発生する。あるいは、ユーザが目的信号に関連しない閉鎖子音または打的な音を発している場合があり、その場合、ここに記載したように、信号からその閉鎖子音が除去されうる。
【００３１】
図６Ａは、本発明の一実施形態による、音声信号に、目的成分とノイズ妨害が混在している場合の、時間領域における検出信号のグラフ図である。ここで、時間１．０におけるピークは、目的成分とノイズ妨害を両方含んでいる。この場合、後述するように、信号補正機能により、特定の時点が周波数領域に変換される。
【００３２】
図６Ｂ〜６Ｄは、図６Ａの特定の時点に対応する周波数領域を示す図である。図６Ｂは、時点０．５に対応する周波数領域を示している。図６Ｃは、時点０．６に対応する周波数領域を示している。図６Ｄは、時点１．０に対応する周波数領域を示している。信号を周波数領域に変換するために短時間高速フーリエ変換（ＦＦＴ）を用いることができることを当業者は認めるであろう。これは、数学的には以下のように表すことができる。
Ｘ（ｔ）→ｘ（ｋ，ｊ）（ｋ＝０：ｋ）左式において、ｋは周波数ビンを、ｊはフレームインデックスをそれぞれ表す
各周波数ビンの周波数加重係数は以下のように表すことができる。
Ｓ（ｊ）_ｋ＝ｍｅａｎ（Ｘ_{ｖｏｉｃｅ}（ｋ））。前の信号を保存せずに済むように、平均演算子の代わりに、１次平滑化演算子Ｓ（ｊ）_ｋ＝Ｓ（ｊ−１）_ｋ×α＋（１．０−α）×Ｘ_{ｖｏｉｃｅ}（ｋ，ｊ）（ただし、αは、０〜１の忘却係数である）を使用する。
【００３３】
図６Ｂおよび図６Ｃに見られるように、図６Ｂの１２０ａ−１〜１２０ａ−ｎと、図６Ｃの１２０ｂ−１〜１２０ｂ−ｎの周波数ビンは、目的成分を示している。しかし、図６Ｄの１２０ｍ−１〜１２０ｍ−ｎの周波数ビンは、目的成分とノイズ妨害を含む周波数成分を示している。一実施形態では、各周波数ビンは、２０Ｈｚの周波数範囲に対応している。すなわち、周波数ビン１は０〜２０の周波数範囲に対応しており、周波数ビン２は２１〜４０の周波数範囲に対応しており、これが８ＫＨｚまで続いている。当然、任意の適切な間隔を使用することができるため、周波数ビンの間隔は２０Ｈｚに限らない。各周波数ビンの幅は、加重係数によって調整される。この加重係数は、基本的には各周波数ビンのノイズ妨害成分を除去する。
【００３４】
図７は、本発明の一実施形態による、音声信号に関連するノイズ妨害を低減させるための方法操作を示すフローチャート図である。この方法は、操作１３０から開始し、検出信号が生成される。検出信号は、図４を参照して前述したように、スペクトル的に白色化した信号をダウンサンプリングして、その後、このダウンサンプリングされた信号に４次導関数を適用することによって生成されうるという点に留意すべきである。この操作は、図２の検出モジュールの一環として行われる。次に、方法は操作１３２に進み、元の信号が周波数領域に変換される。ここでは、高速フーリエ変換（ＦＦＴ）を使用して、信号が時間領域から周波数領域に変換される。操作１３４において、検出信号から、目的信号成分と妨害信号成分が特定される。検出信号は、図４を参照して前述したように生成される。操作１３６において、特定の信号シーケンスについて、その信号シーケンスがノイズ妨害のみであるかどうかが判定される。信号シーケンスが妨害のみの場合、方法は操作１３８に進み、図５Ａ〜５Ｃを参照して前述したように、妨害が除去され、線形補間を適用して信号シーケンスが復元される。この操作は、信号シーケンスを周波数領域に変換することを必要とせずに実行できるという点に留意すべきである。信号シーケンスが妨害のみを含むわけではない場合、方法は操作１４０に移動し、信号シーケンスが目的音声のみを含むかどうかが判定される。信号シーケンスが目的音声のみを含むわけではない場合、方法は操作１４２に進む。操作１４２において、調整された周波数加重係数に従って、周波数ビンの幅が再度スケール調整される。調整された周波数加重係数は、統計平均演算子によって求められるが、実際には、１次平滑化演算子で代用される。すなわち、以前の周波数スペクトルを現在の周波数スペクトルによって平滑化して、各周波数ビンについて加重係数として統計学的に平均を求めた周波数スペクトルを得る。操作１４０において信号シーケンスが目的音声のみを含むと判定された場合、方法は操作１４４に進む。操作１４４において、各周波数ビンの周波数加重係数が調整される。
【００３５】
図８は、本発明の一実施形態による、検出信号によって特定される各種の信号シーケンスに適用される信号補正を更に示す簡略模式図である。モジュール１５０は、特定の信号シーケンスの種類を表している。特定のシーケンスの種類は、目的シーケンスのみ１６２、ノイズシーケンスと目的シーケンスの混合１５８、またはノイズシーケンスのみ１５２でありうる。信号シーケンスの種類がノイズ１５２のみの場合、線形補間モジュール１５４は、線形補間した出力調整信号１５６を生成する。信号シーケンスの種類が目的信号シーケンス１６２のみの場合、このシーケンスは時間領域から周波数領域１５５に変換され、調整加重係数が求められる。ブロック１６４において、調整された出力信号１５６を生成するために、元の音声が複製される。ここで、各周波数ビンについて周波数加重係数が調整されるという点に留意すべきである。信号シーケンスの種類がノイズ妨害と目的成分の混合１５８である場合、このシーケンスが周波数領域１５５に変換される。次に、図６Ａ〜６Ｄを参照して前述したように、関連する信号シーケンスの周波数ビンが調整される。ここでは、調整された周波数加重係数を用いて、個々の周波数ビンが調整される。次に、モジュール１６０において、周波数領域の調整された信号が、逆高速フーリエ変換（ＩＦＦＴ）を適用することにより、時間領域に変換される。次に、モジュール１６０から得られた信号が、出力調整信号１５６として用いられる。
【００３６】
図９Ａ〜９Ｃは、本発明の一実施形態による、１つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。図９Ａは、ビデオゲームコントローラ１１０に、直線アレイ形状に等間隔で配置されたマイクロフォンセンサ１１２−１，１１２−２，１１２−３，１１２−４を示す。一実施形態では、マイクロフォンセンサ１１２−１〜１１２−４同士は、約２．５ｃｍ離れている。しかし、マイクロフォンセンサ１１２−１〜１１２−４は、適切な間隔であれば、どのような間隔を置いてビデオゲームコントローラ１１０に配置されてもよい点を理解すべきである。更に、ビデオゲームコントローラ１１０は、ＳＯＮＹＰＬＡＹＳＴＡＴＩＯＮ２ビデオゲームコントローラとして示されているが、ビデオゲームコントローラ１１０は、適切なビデオゲームコントローラであれば、どのようなものであってもよい。特定の発生源からの音声信号をトラッキングしつつ、他の競合するまたは干渉する発生源からの信号を除外するために、ここに記載した実施形態を、米国特許出願第１０／６５０,４０９号に記載の実施形態に組み込むことができる。
【００３７】
米国特許出願第１０／６５０,４０９号に記載の音声入力システムは、複数のノイズ信号から目的音声信号を分離可能である。更に、マイクロフォンアレイが取り付けられているポータブルコンシューマデバイスに移動上の制限はない。本発明の一実施形態では、マイクロフォンアレイフレームワークは、４つの主要モジュールを有する。第１のモジュールは、音響エコーキャンセル（acoustic echo cancellation：ＡＥＣ）モジュールである。ＡＥＣモジュールは、ポータブルコンシューマデバイスが発生させるノイズをキャンセルするように構成されている。例えば、ポータブルコンシューマデバイスがビデオゲームコントローラの場合、ビデオゲームのプレイに関連したノイズ、すなわち音楽、爆発音、声などは全て既知である。このため、マイクロフォンアレイの各マイクロフォンセンサから入って来る信号に適用するフィルタが、デバイスが発生させるこれらの既知のノイズを除去しうる。別の実施形態では、ＡＥＣモジュールは、任意選択であり、後述するモジュールと一緒に含まれていなくてもよい。音響エコーキャンセルに関する更に詳しい説明はジョン・Ｊ・シャンク（John J. Shynk）、“Frequency-Domain and Multirate Adaptive Filtering”、IEEE Signal Processing Magazine、１４〜３７ページ、１９９２年１月に記載されている。
【００３８】
第２のモジュールは、分離フィルタを含む。一実施形態では、この分離フィルタは、信号パスフィルタと信号ブロッキングフィルタを有する。このモジュールでは、識別された聴取方向以外から入って来る信号を抑制するために、アレイビーム形成が実行される。信号パスフィルタとブロッキングフィルタは、いずれも、アダプティブアレイ較正モジュールによって生成される有限インパルス応答（finite impulse response：ＦＩＲ）フィルタである。アダプティブアレイ較正モジュールは第３のモジュールであり、バックグラウンドで実行するように構成されている。アダプティブアレイ較正モジュールは、センサアレイのマイクロフォンセンサによってノイズとソース信号がキャプチャされた場合に、ソース信号から干渉またはノイズを分離するようにも構成されている。アダプティブアレイ較正モジュールによって、ユーザは、音声の記録中に６自由度で三次元空間を自由に移動できる。更に、ビデオゲームのアプリケーションに関して、ここに記載するマイクロフォンアレイフレームワークは、テレビの音声信号、忠実度の高い音楽、ほかのプレーヤの声、周囲ノイズなどのバックグラウンドノイズが含まれうる騒がしいゲーム環境において使用することができる。信号パスフィルタは、ソース信号を増強するためにフィルタアンドサム（filter-and-sum）ビームフォーマによって使用される。信号ブロッキングフィルタは、ソース信号を効果的にブロックして、干渉またはノイズを生成し、これが、ノイズ低減信号を生成するために、後に信号パスフィルタの出力と共に使用される。
【００３９】
第４のモジュールである適応ノイズキャンセルモジュールは、ビーム形成出力、すなわち信号パスフィルタの出力から減じるために、信号ブロッキングフィルタからの干渉を取る。適応ノイズキャンセル（adaptive noise cancellation：ＡＮＣ）は、ＡＥＣに例えて説明できるが、その例外は、ＡＮＣのノイズテンプレートは、ビデオゲームコンソールの出力ではなく、マイクロフォンセンサアレイの信号ブロッキングフィルタから生成されるという点を理解すべきである。一実施形態では、目的信号のゆがみをできるだけ押さえつつ、ノイズを最大限にキャンセルするため、ノイズテンプレートとして用いる干渉は、信号ブロッキングフィルタがカバーするソース信号のリークを防ぐものではなければならない。更に、ＡＮＣを使用することによって、比較的少ない数のマイクロフォンを狭い領域（compact region）に配置して、高い干渉除去性能を実現できる。
【００４０】
図９Ｂは、ビデオゲームコントローラ１１０に設けた８つのセンサであるマイクロフォンセンサ１１２−１〜１１２−８の、等間隔の長方形のアレイ形状を示す。ビデオゲームコントローラ１１０に使用するセンサの個数は、適切であればいかなる数でもよいことが、当業者に明らかであろう。更に、音声サンプリングレートとゲームコントローラの取付可能な領域によって、マイクロフォンセンサアレイの構成が制約されることがある。一実施形態では、アレイ形状には、４〜１２のセンサが含まれ、凸状形状（長方形など）を形成している。凸状形状では、直線アレイのように、音源方向（二次元）の追跡が可能となるのみならず、三次元空間における音の位置の正確な検出が可能となる。本明細書に記載の実施形態は、通常は直線アレイシステムを指すが、ここに記載の実施形態は、適切であれば、任意の個数のセンサにも、どのようなアレイ形状の構成にも拡張可能であることが、当業者に明らかであろう。更に、ここに記載の実施形態は、マイクロフォンが取り付けられているビデオゲームコントローラを指している。しかし、後述する実施形態は、マイクロフォンが入力装置に固定されない音声入力システムを使用するどのような適切なポータブルコンシューマデバイスにも拡張可能である。
【００４１】
一実施形態では、４個のセンサを使用した代表的なマイクロフォンアレイは、以下の特徴を備えるように構成されうる。
１．音声サンプリングレート１６ｋＨｚ。
２．等間隔に配置された直線アレイ形状。各マイクロフォンセンサ間の間隔は、対象とする最大周波数における波長の半分（例えば２．０ｃｍ）に設定。周波数範囲は約１２０Ｈｚ〜約８ｋＨｚ。
３．４個のセンサを使用したマイクロフォンアレイ用のハードウェアは、サンプリングレート６４ｋＨｚのシーケンシャルＡ／Ｄコンバータも備えうる。
４．マイクロフォンセンサは、汎用の全方向センサでありうる。
【００４２】
図９Ｃは、マイクロフォン１７２−１を１つ有するゲームコントローラ１７０を示している。マイクロフォン１７２−１はゲームコントローラ１７０のほぼ中央に位置するように示されているが、マイクロフォン１７２−１は、ゲームコントローラのどこに配置されてもよいという点に留意すべきである。別の実施形態では、ノイズ妨害の発生源が近距離場に存在し、目的成分の発生源が遠距離場に存在していれば、マイクロフォン１７２−１が、ゲームコントローラに固定されずに、ゲームコントローラの近くに置かれてもよい。
【００４３】
図１０Ａ，１０Ｂは、本発明の一実施形態による、ここに記載する機能が複数のマイクロフォン（入力装置に固定されたマイクロフォンアレイなど）に適用された場合に、更に得られる信頼性を示す図である。マイクロフォンが様々な位置に配置されているため、この様々な位置で検出される信号の振幅が違ってくることが理解されるべきである。このため、図１０Ａでは、ある位置にあるマイクロフォンは特定の振幅の信号を生成するが、図１０Ｂでは、別の位置にあるマイクロフォンが、同じ音声信号について生成する信号の振幅が小さくなる。ノイズ妨害と判定されるには振幅がしきい値を超えなければならないが、図１０Ｂで生成される信号はそのしきい値を超えない。しかし、図１０Ａで生成される信号は、線１８０で示すしきい値を超えている。この実施形態では、チャネルの任意の１つにおいて妨害と思われるものが検出された場合に、現在の音声が妨害であるかどうかの判定を行うことができ、これにより、信頼性が向上する。
【００４４】
図１１は、本発明の一実施形態による、音声信号に関連する妨害をキャンセル可能なシステムを示す簡略模式図である。ここで、マイクロフォン１７２を有するゲームコントローラ１７０が、コンソール１８２に動作可能に接続されている。コンソール１８２はディスプレイ１８４と通信している。ここに記載した実施形態では、ビデオゲームコントローラ１７０またはコンソール１８２内の論理回路が、ビデオゲームコントローラ１７０を操作しているユーザにより発生する機械的妨害を検出して、これをキャンセルするために用いられうる。このため、目的音声信号の記録が必要であり、機械的妨害によって妨害されるおそれのある音声認識やその他のアプリケーションが、ノイズ妨害の除去の結果、より効率的に動作するようになる。
【００４５】
図１２は、本発明の一実施形態による、ノイズ妨害キャンセル機能を有するコンピューティング装置の各種構成要素を示す簡略模式図である。ここで、コンピューティング装置１８２は、中央処理装置（ＣＰＵ）１８６とメモリ１８８を有する。更に、コンピューティング装置１８２にグラフィック処理装置（ＧＰＵ）１９０が含まれていてもよい。当然、グラフィック処理機能は、ＣＰＵ１８６に組み込まれていてもよい。ノイズキャンセルモジュール１９２は、ここに記載した実施形態を実行するように構成されている論理回路を有する。論理モジュール１９２はスペクトル白色化論理回路１９４、妨害検出論理回路１９６および信号補正論理回路１９２を有する。スペクトル白色化論理回路１９４は、図３Ａ，図３Ｂを参照して記載した機能を実行するように構成されている論理回路、すなわち、目的信号に関連する値とノイズ妨害に関連する値の差を増幅するための論理回路を有する。妨害検出論理回路１９６は、スペクトル白色化論理回路１９４の出力のダウンサンプリングに関連する機能を実行するように構成されている論理回路を有する。更に、妨害検出論理回路１９６は、図４を参照して記載したように、ダウンサンプリングされた信号から検出信号を生成する論理回路を有する。信号補正論理回路１９８は、図５〜８を参照して前述した機能を実行する論理回路を有する。ＣＰＵ１８６、メモリ１８８、ＧＰＵ１９０、およびノイズキャンセル論理モジュール１９４，１９６，１９８は、バス２００を介して相互に接続されている。
【００４６】
以上まとめると、上記に記載した発明は、高ノイズ環境において音声入力を提供するための方法および装置について記載している。この音声入力システムは、ＳＯＮＹＰＬＡＹＳＴＡＴＩＯＮ２（登録商標）用のビデオゲームコントローラ、ＰＬＡＹＳＴＡＴＩＯＮＰＯＲＴＡＢＬＥ（ＰＳＰ）ユニットや、その他の任意の適切なビデオゲームコントローラなどのビデオゲームコントローラに取り付けられうるマイクロフォンアレイを有する。マイクロフォンは、ビデオゲームコントローラの移動に一切の制限を課さないように構成されている。マイクロフォンが受ける信号には、遠距離場の目的ノイズと近距離場のノイズ妨害が含まれると仮定される。目的ノイズ（調和成分とも呼ばれる）は、例えば、ユーザの声、音楽など、記録したい任意のノイズである。ノイズ妨害は、例えば入力装置からの機械的ノイズや、打奏音など、近距離場から発生するノイズを含みうる。音声信号が、ノイズ信号の特徴を保持しつつ、目的音声に関連する振幅を低減するスペクトル白色化方式によって処理され、これにより、妨害検出段階を支援するために、目的成分とノイズ成分の差（magnitude）が増幅される。妨害検出方式では、スペクトル白色化方式の出力がＩＩＲフィルタによって処理され、ダウンサンプリングされて、この信号に導関数が適用される。ここで、信号シーケンスの種類を特定するために、この信号の信号シーケンスが更に「白色化」されて、次に非相関化される。信号シーケンスが特定されると、信号が、上記したように信号シーケンスの種類に応じて調整される。ダウンサンプリング方式により、サンプリングすべきデータ量が低減できるだけではなく、高次の導関数を適用することに比べて遙かに安定な低次の導関数を使用できるようになる。
【００４７】
また、本明細書に記載した各種実施形態は、オンラインゲームアプリケーションに適用できる点を理解すべきである。すなわち、前述の実施形態は、インターネットなどの分散ネットワークを介してビデオ信号を複数のユーザに送信するサーバで行われ、騒音のある遠隔地点でプレーヤが相互に通信できるようにする。ここに記載した実施形態は、ハードウェア実装、ソフトウェア実装のいずれによって実装されてもよいという点を更に理解すべきである。すなわち、上で述べた機能の説明を組み合わせて、ノイズキャンセル方式に関連する各モジュールの機能タスクを実行するように構成された論理回路を有するマイクロチップを定義してもよい。
【００４８】
上記の実施形態を考慮に入れて、本発明が、コンピュータシステムに記憶されたデータを使用する、各種のコンピュータ実装操作を使用してもよい点を理解すべきである。これらの操作には、物理量の物理的な操作を必要とする操作が含まれる。この物理量は通常、記憶、転送、結合、比較などの操作が可能な電気信号または磁気信号の形を取るが、必ずしもこれらに限定されない。更に、実行される操作は、生成、特定、決定または比較などと呼ばれることが多い。
【００４９】
上記した発明は、携帯式デバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電気製品、ミニコンピュータ、メインフレームコンピュータなど、他のコンピュータシステム構成によって実施されてもよい。また、本発明は、分散コンピューティング環境で実施されてもよく、このような環境では、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される。本発明は、また、計算機可読媒体上の計算機可読コードとして実施されてもよい。計算機可読媒体は、電磁搬送波（electromagnetic wave carrier）を含め、コンピュータシステムによって後から読取ることができるデータを記憶できるデータ記憶装置であれば、どのようなものに存在してもよい。計算機可読媒体の例には、ハードディスク、ネットワーク接続記憶装置（ＮＡＳ）、リードオンリーメモリ、ランダムアクセスメモリ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープおよび他の光学式データ記憶装置および非光学式データ記憶装置などがある。また、計算機可読媒体は、計算機可読コードが分散式に記憶されて、実行されるように、ネットワークに結合されたコンピュータシステムを介して分散されてもよい。
【００５０】
上記に、本発明を明確に理解できるようにある程度詳細に記載したが、添付の特許請求の範囲内で変更例または変形例を実施できることは明らかである。したがって、本実施形態は例示的なものであり、制限するものではなく、本発明は本明細書に記載されている詳細な事項に限定されず、添付の特許請求の範囲およびその均等物の範囲内で変更されてもよい。特許請求の範囲において、各種構成要素および／またはステップの順序は、請求項に明示的に記載されていない限り、特定の操作の順序を示すものではない。
【図面の簡単な説明】
【００５１】
【図１Ａ】本発明の一実施形態によるノイズ妨害除去前の音声信号のフットプリントを示す代表的なグラフである。
【図１Ｂ】本発明の一実施形態によるノイズ妨害除去後の音声信号のフットプリントを示す代表的なグラフである。
【図２】本発明の一実施形態によるノイズ妨害の除去に関連するモジュールを示す簡略模式図である。
【図３Ａ】本発明の一実施形態によるスペクトル白色化機能の効果を示す代表的なグラフである。
【図３Ｂ】本発明の一実施形態によるスペクトル白色化機能の効果を示す代表的なグラフである。
【図４】本発明の一実施形態による妨害検出モジュールの各種構成要素の簡略図である。
【図５Ａ】本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。
【図５Ｂ】本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。
【図５Ｃ】本発明の一実施形態による、信号シーケンスがノイズ妨害のみであることが妨害検出信号によって示される場合に、適用される信号補正方式を示す代表的なグラフである。
【図６Ａ】本発明の一実施形態による、音声信号に、目的成分とノイズ妨害が混在している場合の、時間領域における検出信号のグラフ図である。
【図６Ｂ】図６Ａの特定の時点に対応する周波数領域表す図である。
【図６Ｃ】図６Ａの特定の時点に対応する周波数領域表す図である。
【図６Ｄ】図６Ａの特定の時点に対応する周波数領域表す図である。
【図７】本発明の一実施形態による、音声信号に関連するノイズ妨害を低減させるための方法操作を示すフローチャート図である。
【図８】本発明の一実施形態による、検出信号によって特定される、さまざまな種類の信号シーケンスに適用される信号補正を更に示す簡略模式図である。
【図９Ａ】本発明の一実施形態による、１つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。
【図９Ｂ】本発明の一実施形態による、１つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。
【図９Ｃ】本発明の一実施形態による、１つのマイクロフォンおよび複数のマイクロフォンを有する入力装置のさまざまな実施形態を示す図である。
【図１０Ａ】本発明の一実施形態による、ここに記載する機能が複数のマイクロフォン（入力装置に固定されたマイクロフォンアレイなど）に適用された場合に、更に得られる信頼性を示す図である。
【図１０Ｂ】本発明の一実施形態による、ここに記載する機能が複数のマイクロフォン（入力装置に固定されたマイクロフォンアレイなど）に適用された場合に、更に得られる信頼性を示す図である。
【図１１】本発明の一実施形態による、音声信号に関連する妨害をキャンセル可能なシステムを示す簡略模式図である。
【図１２】本発明の一実施形態による、ノイズ妨害キャンセル機能を有するコンピューティング装置の各種構成要素を示す簡略模式図である。

【特許請求の範囲】
【請求項１】
音声信号を処理する方法であって、
調和部分および妨害部分から構成される信号を受信する操作と、
前記音声信号の前記調和部分に関連する振幅を下げる操作と、
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げる操作と、
前記音声信号の前記妨害部分に関連する信号シーケンスの種類を特定する操作と、
前記信号シーケンスの前記種類に従って前記妨害部分を変更する操作と、を有する方法。
【請求項２】
前記信号シーケンスの前記種類に従って前記妨害部分を変更する前記方法操作は、
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去する操作と、
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用する操作と、
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換する操作と、を有する請求項１に記載の方法。
【請求項３】
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去する前記方法操作は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換する操作を有する請求項２に記載の方法。
【請求項４】
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用する前記方法操作は、
前記音声信号に関連する各周波数ビンについて前記周波数加重係数を更新する操作を有する請求項２に記載の方法。
【請求項５】
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換する前記方法操作は、
各周波数ビン信号をスケール調整する操作と、
前記スケール調整された周波数ビン信号を時間領域に変換する操作と、を有する請求項２に記載の方法。
【請求項６】
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げる前記方法操作は、
前記振幅を下げた前記音声信号を１／１０にダウンサンプリングする操作を有する請求項１に記載の方法。
【請求項７】
マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減する方法であって、
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する操作と、
前記音声信号のサンプリングレートを下げる操作と、
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用する操作と、
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整する操作と、を有する方法。
【請求項８】
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する前記方法操作は、
前記音声信号を逆インパルスレスポンスフィルタで処理する操作を有する請求項７に記載の方法。
【請求項９】
前記音声信号のサンプリングレートを下げる前記方法操作は、
前記音声信号を１／１０にダウンサンプリングする操作を有する請求項７に記載の方法。
【請求項１０】
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用する前記方法操作は、前記音声信号の前記ノイズ妨害を前記音声信号の前記残りの成分から更に差別化する請求項７に記載の方法。
【請求項１１】
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整する前記方法操作は、
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含むかどうかを特定する操作を有する請求項７に記載の方法。
【請求項１２】
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含む場合、前記方法は、
前記音声信号を時間領域から周波数領域に変換する操作と、
スケール調整された音声信号を定義するために、前記変換された音声信号の各周波数ビンを加重係数に従ってスケール調整する操作と、
前記スケール調整された音声信号を前記時間領域に再変換する操作と、を有する請求項１１に記載の方法。
【請求項１３】
前記ノイズ妨害に関連する前記信号シーケンスがノイズ妨害信号のみの場合、前記方法は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換する操作を有する請求項１１に記載の方法。
【請求項１４】
音声信号を処理するプログラム命令を有する計算機可読媒体であって、
調和部分および妨害部分から構成される信号を受信するプログラム命令と、
前記音声信号の前記調和部分に関連する振幅を下げるプログラム命令と、
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げるプログラム命令と、
前記音声信号の前記妨害部分に関連する信号シーケンスの種類を特定するプログラム命令と、
前記信号シーケンスの前記種類に従って前記妨害部分を変更するプログラム命令と、を有する計算機可読媒体。
【請求項１５】
前記信号シーケンスの前記種類に従って前記妨害部分を変更する前記プログラム命令は、
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去するプログラム命令と、
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用するプログラム命令と、
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換するプログラム命令と、を有する請求項１４に記載の計算機可読媒体。
【請求項１６】
前記信号シーケンスの前記種類が妨害のみである場合に、前記信号シーケンスを除去する前記プログラム命令は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換するプログラム命令を有する請求項１５に記載の計算機可読媒体。
【請求項１７】
前記信号シーケンスの前記種類が調和のみである場合に、前記信号シーケンスに周波数加重係数を適用する前記プログラム命令は、
前記音声信号に関連する各周波数ビンについて前記周波数加重係数を更新するプログラム命令を有する請求項１５に記載の計算機可読媒体。
【請求項１８】
前記信号シーケンスの前記種類が調和と妨害との混合である場合に、前記信号シーケンスを周波数領域に変換する前記プログラム命令は、
各周波数ビン信号をスケール調整するプログラム命令と、
前記スケール調整された周波数ビン信号を時間領域に変換するプログラム命令と、を有する請求項１５に記載の計算機可読媒体。
【請求項１９】
前記調和部分の振幅を下げた前記音声信号のサンプリングレートを下げる前記プログラム命令は、
前記振幅を下げた前記音声信号を１／１０にダウンサンプリングする操作を有するプログラム命令を有する請求項１４に記載の計算機可読媒体。
【請求項２０】
マイクロフォンによって受信された音声信号に関連するノイズ妨害を低減するプログラム命令を有する計算機可読媒体であって、
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調するプログラム命令と、
前記音声信号のサンプリングレートを下げるプログラム命令と、
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用するプログラム命令と、前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整するプログラム命令と、を有する計算機可読媒体。
【請求項２１】
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して強調する前記プログラム命令は、
前記音声信号を逆インパルスレスポンスフィルタで処理するプログラム命令を有する請求項２０に記載の計算機可読媒体。
【請求項２２】
前記音声信号のサンプリングレートを下げる前記方法操作は、
前記音声信号を１／１０にダウンサンプリングするプログラム命令を有する請求項２０に記載の計算機可読媒体。
【請求項２３】
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用する前記プログラム命令は、前記音声信号の前記ノイズ妨害を前記音声信号の前記残りの成分から更に差別化する請求項２０に記載の計算機可読媒体。
【請求項２４】
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整する前記プログラム命令は、
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含むかどうかを特定するプログラム命令を有する請求項２０に記載の計算機可読媒体。
【請求項２５】
前記ノイズ妨害に関連する信号シーケンスが前記音声信号の前記残りの成分を含む場合、前記計算機可読媒体は、
前記音声信号を時間領域から周波数領域に変換するプログラム命令と、
スケール調整された音声信号を定義するために、前記変換された音声信号の各周波数ビンを加重係数に従ってスケール調整するプログラム命令と、
前記スケール調整された音声信号を前記時間領域に再変換するプログラム命令と、を有する請求項２４に記載の計算機可読媒体。
【請求項２６】
前記ノイズ妨害に関連する前記信号シーケンスがノイズ妨害信号のみの場合、前記計算機可読媒体は、
前記信号シーケンスの前の信号と前記信号シーケンスの後の信号との両者の補間により、前記信号シーケンスを置換するプログラム命令を有する請求項２４に記載の計算機可読媒体。
【請求項２７】
音声信号に関連する妨害をキャンセル可能なシステムであって、
音声信号を処理するための論理回路であって、前記論理回路は、
前記音声信号から検出信号を生成する論理回路と、
前記音声信号の信号シーケンスが妨害であるかどうかを、前記検出信号の対応する信号シーケンスを分析することによって判定する論理回路と、を有するコンピューティング装置と、
前記コンピューティング装置に動作可能に接続された入力装置と、
前記音声信号をキャプチャするように構成されたマイクロフォンとを有し、前記妨害の発生源が、前記マイクロフォンに関連する近距離場内に存在し、前記音声信号の目的成分の発生源が前記マイクロフォンに関連する遠距離場内に存在するように、前記マイクロフォンが配置されているシステム。
【請求項２８】
前記マイクロフォンは前記入力装置に固定されている請求項２７に記載のシステム。
【請求項２９】
前記音声信号の信号シーケンスが妨害であるかどうかを、前記検出信号の対応する信号シーケンスを分析することによって判定する前記論理回路は、
前記音声信号を時間領域から周波数領域に変換する論理回路と、
前記周波数領域における前記音声信号の周波数ビンを調整する論理回路と、
前記調整された音声信号を前記周波数領域から前記時間領域に変換する論理回路と、を有する請求項２７に記載のシステム。
【請求項３０】
前記妨害は、周波数範囲が約０ヘルツ〜約８００ヘルツの機械的妨害である請求項２７に記載のシステム。
【請求項３１】
前記入力装置はビデオゲームコントローラである請求項２７に記載のシステム。
【請求項３２】
前記コンピューティング装置はゲームコンソールである請求項２７に記載のシステム。
【請求項３３】
各論理回路要素はソフトウェアまたはハードウェアのいずれかであるか、ソフトウェアとハードウェアを組み合わせたものである請求項２７に記載のシステム。
【請求項３４】
ビデオゲームコントローラであって、
前記ビデオゲームコントローラに固定されたマイクロフォンであって、前記マイクロフォンに対して遠距離場にある目的音声信号と、前記マイクロフォンに対して近距離場にある妨害ノイズとを含む音声信号を検出するように構成された前記マイクロフォンと、
前記音声信号を処理するように構成された論理回路と、を有し、前記論理回路は、
前記音声信号に偶数次の導関数を適用することによって、検出信号を生成するように構成された検出信号論理回路と、
前記検出信号の分析によって前記音声信号から妨害ノイズを除去するように構成された妨害キャンセル論理回路と、を有するビデオゲームコントローラ。
【請求項３５】
前記妨害キャンセル論理回路は、
前記妨害ノイズの信号シーケンスが前記目的音声信号に関連しているかどうかを判定する論理回路を有する請求項３４に記載のビデオゲームコントローラ。
【請求項３６】
複数のマイクロフォンを更に有し、前記複数のマイクロフォンの各々は、前記妨害ノイズがしきい値を超えているかどうかを独立して判定するように構成されている請求項３５に記載のビデオゲームコントローラ。
【請求項３７】
前記検出信号論理回路は、
前記検出信号に関連するデータ量を、前記音声信号と比較して１／１０に減らすように構成されたダウンサンプリング論理回路を有する請求項３４に記載のビデオゲームコントローラ。
【請求項３８】
集積回路であって、
複数のノイズ源環境において少なくとも１つのマイクロフォンから音声信号を受信するように構成された回路と、
前記音声信号に対して信号の非相関化を実行するように構成された回路と、
前記非相関化された音声信号をダウンサンプリングするように構成された回路と、
前記ダウンサンプリングされた音声信号に微分操作を適用するように構成された回路と、
前記微分された音声信号内にノイズ妨害信号シーケンスを検出するように構成された回路と、
前記ノイズ妨害信号シーケンスに関連する前記音声信号の信号シーケンスを除去するように構成された回路と、を有する集積回路。
【請求項３９】
前記音声信号に対して信号の非相関化を実行するように構成された前記回路は線形予測誤差フィルタである請求項３８に記載の集積回路。
【請求項４０】
前記非相関化された音声信号をダウンサンプリングするように構成された前記回路は、前記音声信号に関連するデータ量を１／１０に減らす請求項３８に記載の集積回路。
【請求項４１】
前記微分は４次の微分操作である請求項３８に記載の集積回路。
【請求項４２】
前記微分された音声信号内にノイズ妨害信号シーケンスを検出するように構成された前記回路は、
前記ノイズ妨害信号シーケンスが目的信号シーケンスを含むかどうかを判定するように構成された回路を有する請求項３８に記載の集積回路。
【請求項４３】
前記ノイズ妨害信号シーケンスに関連する前記音声信号の信号シーケンスを除去するように構成された前記回路は、
前の信号シーケンスと後の信号シーケンスとに基づく線形補間を実行するように構成された回路を有する請求項３８に記載の集積回路。
【請求項４４】
前記集積回路は、ビデオゲームコントローラおよびビデオゲームコンソールの一方に搭載されている請求項３８に記載の集積回路。

【図１Ａ】

【図１Ｂ】

【図２】

【図３Ａ】

【図３Ｂ】

【図４】

【図５Ａ】

【図５Ｂ】

【図５Ｃ】

【図６Ａ】

【図６Ｂ】

【図６Ｃ】

【図６Ｄ】

【図７】

【図８】

【図９Ａ】

【図９Ｂ】

【図９Ｃ】

【図１０Ａ】

【図１０Ｂ】

【図１１】

【図１２】

【公表番号】特表２００７−５３２９４６（Ｐ２００７−５３２９４６Ａ）
【公表日】平成１９年１１月１５日（２００７．１１．１５）
【国際特許分類】

【出願番号】特願２００７−５０７３１６（Ｐ２００７−５０７３１６）
【出願日】平成１７年３月２日（２００５．３．２）
【国際出願番号】ＰＣＴ／ＵＳ２００５／００７２４３
【国際公開番号】ＷＯ２００５／１０４０９１
【国際公開日】平成１７年１１月３日（２００５．１１．３）
【出願人】（３９５０１５３１９）株式会社ソニー・コンピュータエンタテインメント (871)
【Ｆターム（参考）】

電子ゲーム機 (52,106)

[ Back to top ]

音声妨害を検出および除去する方法および装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

音声妨害を検出および除去する方法および装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク