コンピュータ対話型処理と共に使用する選択的音源聴音

音声処理方法および装置が提供される。音声キャプチャユニットは、１つ以上の音源を識別するように構成されている。音声キャプチャユニットは、音が処理されて、聴取ゾーンの外の音がほぼ除去される聴取ゾーンを決定するために分析可能なデータを生成する。聴取ゾーンについてキャプチャされ、処理された音が、コンピュータプログラムとの対話機能に使用されうる。音源の位置に基づいて聴取ゾーンが調整されうる。１つ以上の聴取ゾーンが事前較正されうる。装置は、１つ以上の画像フレームをキャプチャするように構成された画像キャプチャユニットを任意選択で有しうる。画像に基づいて聴取ゾーンが調整されうる。コントローラによって慣性、光学および／または音響信号を生成して、この慣性、音響および／または光信号を使用してコントローラの位置および／または向きをトラッキングすることによって、ビデオゲームユニットが制御されうる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、音声信号処理を対象としており、より詳細にはマイクロフォンアレイからの音声信号の処理を対象としている。
【背景技術】
【０００２】
ビデオゲーム産業は、長年にわたって多くの変化を経験してきた。演算能力が拡大するにつれ、ビデオゲームの開発者も同様に、この演算能力の増大を利用するゲームソフトウェアを作成してきた。このために、ビデオゲーム開発者は、極めて現実的なゲーム体験を生み出すべく、高度な演算と数学を採用したゲームをコーディングしてきた。
【０００３】
ゲームプラットホームの例に、ソニープレイステーションまたはソニープレイステーション２（ＰＳ２）があり、これらはそれぞれ、ゲームコンソールの形で販売されている。周知のように、ゲームコンソールはモニタ（通常はテレビ）と接続されて、手持ち式のコントローラによってユーザとの対話を可能にするように設計されている。ゲームコンソールは、ＣＰＵ、処理量の多いグラフィック操作のためのグラフィクシンセサイザ、ジオメトリ変換を実行するためのベクトル装置などの特化した処理ハードウェアと、各ハードウェア等をつなげるグルーハードウェア、ファームウェアおよびソフトウェア等のその他のハードウェアを備えて設計される。また、ゲームコンソールは、ゲームコンソールによるローカルプレイを行うためにゲームのコンパクトディスクを受け容れるための光ディスクトレイを備えて設計される。また、ユーザが、インターネット上で他のユーザと対戦して、または、他のユーザと一緒に対話的にプレイすることができるオンラインゲームも可能である。
【発明の開示】
【発明が解決しようとする課題】
【０００４】
ゲームの複雑さがプレーヤの興味を引き続けるため、ゲームおよびハードウェアのメーカは追加の対話機能を実現するために革新を続けてきた。しかし、実際は、ユーザがゲームと対話するやり方は、長年にわたって劇的には変わることはなかった。
【０００５】
前述を鑑みて、ゲームのプレイとのより高度なユーザ対話機能を可能にする方法およびシステムが求められている。
【課題を解決するための手段】
【０００６】
概して、本発明は、コンピュータプログラムとの対話機能を容易にする装置および方法を提供することによって、これらのニーズを満たす。一実施形態では、このコンピュータプログラムはゲームプログラムであるが、これに限定されることはなく、この装置および方法は、制御の起動、入力、通信の実現のために音声入力を取り入れることができる任意のコンピュータ環境に適用可能である。詳細には、制御の起動または入力のために音声が使用される場合、本発明の実施形態は、特定の音源のフィルタされた入力を可能にし、このフィルタされた入力は、関心のない音源を無視または対象外とするように構成されている。ビデオゲーム環境では、選択した音源に応じて、ビデオゲームは、対象の音源を処理した後に、対象ではない可能性のある他の音の歪みまたはノイズがない状態で、特定の反応で応答しうる。一般に、ゲームをプレイする環境は、音楽、他の人、および物体の移動などの多くの背景ノイズに曝されている。対象ではない音がほぼフィルタ除去されると、コンピュータプログラムは、対象音により適切に応答することができる。この反応は、どのような形であってもよく、例えば、コマンド、動作の開始、選択、ゲームステータスまたは状態の変化、機能の解除などがある。
【０００７】
一実施形態では、コンピュータプログラムとの対話機能中に音をキャプチャする装置が提供される。この装置は、１つ以上の画像フレームをキャプチャするように構成された画像キャプチャユニットを有する。音声キャプチャユニットも提供される。音声キャプチャユニットは、１つ以上の音源を識別するように構成されている。音声キャプチャユニットは、焦点ゾーンを決定するために分析されうるデータを生成し、この焦点ゾーンにおいて音が処理されて、焦点ゾーンの外の音がほぼ除去される。このようにして、焦点ゾーンについてキャプチャされ、処理された音が、コンピュータプログラムとの対話機能のために使用される。
【０００８】
別の実施形態では、コンピュータプログラムとの対話機能中の選択的な音源聴取のための方法が開示される。この方法は、２つ以上の音源キャプチャマイクロフォンにおいて１つ以上の音源からの入力を受信するステップを有する。次に、この方法は、前記音源のそれぞれから遅延路を決定するステップと、前記１つ以上の音源のそれぞれの前記受信された入力のそれぞれについて方向を特定するステップと、を有する。次に、この方法は、識別された焦点ゾーンの方向にない音源をフィルタ除去するステップを有する。前記焦点ゾーンは、前記コンピュータプログラムとの前記対話機能のために前記音源を提供するように構成されている。
【０００９】
更に別の実施形態では、ゲームシステムが提供される。このゲームシステムは、対話型のコンピュータゲームの実行を可能にするコンピューティングシステムとインタフェースするように構成された画像−音声キャプチャ装置を有する。画像キャプチャ装置は、焦点ゾーンからビデオをキャプチャするために配置可能なビデオキャプチャハードウェアを有する。１つ以上の音源から音をキャプチャするために、マイクロフォンのアレイが提供される。各音源は、識別され、画像−音声キャプチャ装置に対する方向と関連付けられる。ビデオキャプチャハードウェアと関連付けられた焦点ゾーンは、その焦点ゾーンの近くの方向にある音源のうちの１つを識別するために使用されるように構成されている。
【００１０】
一般に、対話型の音の識別とトラッキングは、どのようなコンピューティング装置のどのようなコンピュータプログラムとインタフェースするために適用可能である。音源が識別されると、その音源の内容が更に処理されて、コンピュータプログラムによって実現（rendered）される機能または物体が、起動、駆動、指示または制御される。
【００１１】
一実施形態では、マイクロフォンの聴取領域を調整する方法および装置は、初期聴取ゾーンを検出し、マイクロフォンアレイによって、キャプチャされた音をキャプチャし、前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別し、前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成し、前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別する。
【００１２】
別の実施形態では、この方法および装置は、音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出し、画像キャプチャユニットの視野（view）を検出し、前記視覚装置の前記視野を前記初期聴取ゾーンの前記初期領域と比較し、前記初期聴取ゾーンを調整して、前記視野と前記初期領域との比較に基づいて調整された領域を含む前記調整された聴取ゾーンを形成する。
【００１３】
一実施形態では、この方法および装置は、音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出し、前記初期聴取ゾーン内で初期音を検出し、前記初期聴取ゾーンを調整して、調整された領域を含む前記調整された聴取ゾーンを形成し、前記初期音は前記調整された聴取ゾーンから発せられる。
【００１４】
本発明の他の実施形態は、事前較正された聴取ゾーンを使用した、対象音検出のための方法および装置を対象としている。このような実施形態は、２つ以上のマイクロフォンを有するマイクロフォンアレイによって実装することができる。各マイクロフォンは複数のフィルタに結合されている。このフィルタは、マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成されている。複数のフィルタに対するフィルタ係数の１つ以上の組が再較正されて、１つ以上の対応する事前較正された聴取ゾーンが決定される。フィルタパラメータの各組は、入力信号の、所定の聴取ゾーン内で発生した音に対応する部分を検出し、所定の聴取ゾーンの外で発生する音をフィルタ除去するように選択される。実行時に、特定の事前較正された聴取ゾーンが選択されうるが、これは、その特定の事前較正された聴取ゾーンに対応するフィルタ係数の組を前記複数のフィルタに適用することによって行われる。その結果、マイクロフォンアレイは、特定の聴取ゾーン内で発生した音を検出し、特定の聴取セクタの外で発生する音をフィルタ除去することができる。
【００１５】
本発明の特定の実施形態では、ジョイスティックコントローラによって慣性および／または光信号を生成して、この慣性および／または光信号を使用してジョイスティックコントローラの位置および／または向きをトラッキングすることによって、ビデオゲームユニット内の動作が制御されうる。
【００１６】
本発明の他の態様および利点は、例示のために本発明の原理を示す添付の図面と併せて、以下の詳細な説明を読めば明らかとなるであろう。
【発明を実施するための最良の形態】
【００１７】
本発明とその更なる利点とは、添付の図面を参照して以下の記載をよめば、よりよく理解できるであろう。
【００１８】
本発明の実施形態は、コンピュータプログラムとの対話手段として音声が使用される場合に、特定の音源の識別を容易にし、不要な音源をフィルタ除去するための方法および装置に関する。
【００１９】
以下の説明では、本発明を完全に理解できるように、具体的な詳細を数多く記載する。しかし、これらの詳細な内容の一部または全てを用いなくとも本発明を実施し得ることは当業者にとって自明である。場合によっては、本発明を不必要にわかりにくくしないように、公知のプロセス操作については詳しく記載しない。
【００２０】
「電子デバイス」、「電子装置」および「電子機器」という場合、パーソナルデジタルビデオテープレコーダ、デジタルオーディオプレーヤ、ゲームコンソール、セットトップボックス、コンピュータ、携帯電話機、個人情報端末、自動車との電子インタフェース等の特化したコンピュータなどの装置が含まれる。
【００２１】
図１は、本発明の一実施形態による、１人以上のユーザとの対話機能のためにビデオゲームプログラムを実行することができるゲーム環境１００を示す。図に示すように、プレーヤ１０２が、ディスプレイ１１０を備えたモニタ１０８の前に示されている。モニタ１０８は、コンピューティングシステム１０４と相互接続されている。コンピューティングシステムは、標準のコンピュータシステム、ゲームコンソールまたはポータブルコンピュータシステムであってよい。具体例としては、ゲームコンソールは、ソニーコンピュータエンターテインメント社、マイクロソフト社または他の任意のメーカによって製造されたものなどがあるが、任意のブランドに限定されない。
【００２２】
コンピューティングシステム１０４は、画像−音声キャプチャ装置１０６と相互接続されて示されている。画像−音声キャプチャ装置１０６は、音声キャプチャユニット１０６ａと画像キャプチャユニット１０６ｂを備える。プレーヤ１０２は、ディスプレイ１１０上のゲームの画面１１２と対話的に通信しているように示されている。実行中のビデオゲームは、画像キャプチャユニット１０６ｂおよび音声キャプチャユニット１０６ａにより、入力がプレーヤ１０２によって少なくとも部分的に提供されるものである。図に示すように、プレーヤ１０２は、手を動かして、ディスプレイ１１０上の対話的アイコン１１４を選択することができる。画像キャプチャユニット１０６ｂによってキャプチャされると、プレーヤ１０２’の半透明の画像が、ディスプレイ１１０に投射される。したがって、プレーヤ１０２は、アイコンを選択するか、あるいはゲーム画面１１２と相互作用するには、手をどこに動かせばよいかがわかる。これらの動きおよび対話をキャプチャするための技術は変わりうるが、例示的な技術は、それぞれ２００３年２月２１日に出願された英国特許出願公開第０３０４０２４．３号明細書（国際公開第ＧＢ２００４／０００６９３号パンフレット）および英国特許出願公開第０３０４０２２．７明細書（国際公開第ＧＢ２００４／０００７０３号パンフレット）号に記載されており、これらの各々は参照によりここに援用される。
【００２３】
図示した例では、対話的アイコン１１４は、ゲーム画面１１２が、扱われているオブジェクトを揺らすように、プレーヤが「スイング」を選択することができるアイコンである。更に、プレーヤ１０２が音声コマンドを与えてもよく、このコマンドは、音声キャプチャユニット１０６ａによってキャプチャされ、コンピューティングシステム１０４によって処理されて、実行中のビデオゲームとの対話機能が実現提供されうる。図に示すように、音源１１６ａは「ジャンプ！」音声コマンドである。次に、この音源１１６ａが、音声キャプチャユニット１０６ａによってキャプチャされ、コンピューティングシステム１０４によって処理されて、ゲーム画面１１２をジャンプさせる。音声コマンドの識別を可能にするために、音声認識が使用されうる。別の実施形態では、プレーヤ１０２が、インターネットまたはネットワークに接続しているが、ゲームの対話機能に直接的または部分的に関わってもいるリモートユーザと通信していてもよい。
【００２４】
本発明の一実施形態によれば、音声キャプチャユニット１０６ａは、コンピューティングシステム１０４が特定の方向から来る音を選択できるようにする少なくとも２つのマイクロフォンを備えるように構成されうる。コンピューティングシステム１０４が、ゲームのプレイの中心（または焦点）から外れる方向をフィルタ除去できるようにすることで、プレーヤ１０２が特定のコマンドを与えているときに、ゲーム環境１００内の気を散らすような音が、ゲームの実行を妨げたり混乱させることはない。例えば、ゲームプレーヤ１０２が、足踏みしており、非言語音１１７である足踏みノイズを発生させることがある。このような音は、音声キャプチャユニット１０６ａによってキャプチャされるが、プレーヤの足１０２から来る音がビデオゲームの焦点ゾーン内にないため、フィルタ除去されうる。
【００２５】
後述するように、焦点ゾーンは、画像キャプチャユニット１０６ｂの焦点であるアクティブな画像領域によって好ましくは識別される。他の方法では、焦点ゾーンは、初期化段階の後で、ユーザに提示されたゾーンの選択肢の中から、手動または自動的に選択されてもよい。ゾーンの選択肢には、事前較正された聴取ゾーンが１つ以上含まれうる。音源を含む事前較正された聴取ゾーンが、後述するように決定されうる。図１の例の説明を続けると、対話的ゲームのプレイ中に、ゲームを見ている人１０３がコンピューティングシステムによる処理を攪乱させる可能性のある音源１１６ｂを与えることもある。しかし、ゲームを見ている人１０３は画像キャプチャユニット１０６ｂのアクティブな画像領域内にいないため、コンピューティングシステム１０４が誤って、音源１１６ｂから来るコマンドを、音源１１６ａとしてプレーヤ１０２から来る音源と混同しないように、ゲームを見ている人１０３の方向から来る音がフィルタ除去される。
【００２６】
画像−音声キャプチャ装置１０６は、画像キャプチャユニット１０６ｂと音声キャプチャユニット１０６ａを備える。画像−音声キャプチャ装置１０６は、好ましくは、画像フレームをデジタル形式でキャプチャして、次にこれらの画像フレームを、その後の処理のためにデータ処理システム１０４に転送することができる。画像キャプチャユニット１０６ｂの例にウェブカメラがあり、これは、ビデオ画像を、その後記憶したり、インターネットなどのネットワークを介して通信できるように、デジタル形式でコンピューティング装置に転送することが望ましいときに一般に使用される。その他のタイプの画像キャプチャ装置も、識別とフィルタリングが可能なように画像データがデジタル形式で処理されるものであれば、アナログ、デジタルを問わず機能する。好ましい一実施形態では、入力データを受け取ったのち、フィルタリングを可能にするデジタル処理がソフトウェアで行われる。音声キャプチャユニット１０６ａは、一対のマイクロフォン（ＭＩＣ１およびＭＩＣ２）を備えて示されている。マイクロフォンは標準的なマイクロフォンであり、これは画像−音声キャプチャ装置１０６を構成しているハウジングに一体化することができる。
【００２７】
図３Ａは、音Ａからの音源１１６と音Ｂからの音源１１６に向かい合った状態の音声キャプチャユニット１０６ａを示す。図に示すように、音Ａがその可聴音を発して、音経路２０１ａおよび２０１ｂに沿ってＭＩＣ１およびＭＩＣ２によって検出される。音Ｂは、音経路２０２ａおよび２０２ｂを通ってＭＩＣ１およびＭＩＣ２の方に発せられる。図に示すように、音Ａの音経路の長さは異なり、したがって、音経路２０２ａおよび２０２ｂに対して相対的な遅延が生じる。次に、図３Ｂに示すボックス２１６で方向選択が行われるように、音Ａおよび音Ｂのそれぞれから来る音が、標準の三角測量アルゴリズムを使用して処理されうる。ＭＩＣ１およびＭＩＣ２から来る音は、それぞれバッファ１およびバッファ２（２１０ａ、２１０ｂ）にバッファされて、遅延ライン（２１２ａ、２１２ｂ）を通る。一実施形態では、バッファリングおよび遅延処理はソフトウェアによって制御されるが、ハードウェアが同様に演算を扱うようにカスタム設計されてもよい。三角測量に基づいて、方向選択２１６によって、音源１１６のうちの１つの識別および選択が行われる。
【００２８】
ＭＩＣ１およびＭＩＣ２のそれぞれから来る音は、ボックス２１４で合算されてから、選択した発生源の出力として出力される。このように、このような音源がコンピュータシステム１０４による処理を攪乱させたり、または、ネットワークまたはインターネットを介してビデオゲームを対話的にプレイしている他のユーザとの通信を攪乱させることのないように、アクティブな画像領域の方向以外の方向から来る音がフィルタ除去される。
【００２９】
図４は、本発明の一実施形態による、画像−音声キャプチャ装置１０６と共に使用することができるコンピューティングシステム２５０を示す。コンピューティングシステム２５０は、プロセッサ２５２とメモリ２５６を備える。バス２５４は、プロセッサとメモリ２５６を、画像−音声キャプチャ装置１０６と相互接続する。メモリ２５６は、対話型プログラム２５８の少なくとも一部を格納しており、更に、受信した音源データを処理するための選択的音源聴取ロジックまたはコード２６０も格納している。画像キャプチャユニット１０６ｂによって識別される焦点ゾーンの場所に基づいて、焦点ゾーンの外の音源が、（例えば、プロセッサによって実行中であり、メモリ２５６に少なくとも部分的に記憶されているなどの）選択的音源聴取ロジック２６０によって選択的にフィルタされる。コンピューティングシステムは最も単純な形で示されているが、到来する音源の処理を行って、このため選択的聴取を可能にするために命令を処理することができるハードウェアであれば、どのようなハードウェア構成を使用してもよいという点を強調する。
【００３０】
また、コンピューティングシステム２５０は、バスを経由してディスプレイ１１０と相互接続されて示されている。この例では、焦点ゾーンは、音源Ｂの方に焦点を合わせている画像キャプチャユニットによって識別される。音Ａなどの他の音源から来る音は、音声キャプチャユニット１０６aによってキャプチャされて、コンピューティングシステム２５０へ転送されると、選択的音源聴取ロジック２６０によって実質的にフィルタ除去される。
【００３１】
１つの具体例では、プレーヤは、他のユーザとのインターネットまたはネットワーク対応ビデオゲームの試合に参加しており、この場合、各ユーザの聴取可能な体験の主なものがスピーカから出される音でありうる。スピーカは、コンピューティングシステムの一部であっても、モニタ１０８の一部であってもよい。ここで、図４に示すように、ローカルスピーカが音源Ａを生成していると仮定する。音源Ａについてローカルスピーカから来る音を、試合に参加しているユーザにフィードバックしないために、選択的音源聴取ロジック２６０は、試合に参加しているユーザが自分自身の音または音声のフィードバックを受けないように、音源Ａの音をフィルタ除去する。このフィルタリングを提供することによって、ビデオゲームと相互作用している間にネットワーク上で対話的通信を行う一方で、処理中の妨害となるフィードバックを有利に回避することが可能となる。
【００３２】
図５は、画像−音声キャプチャ装置１０６が少なくとも４つのマイクロフォン（ＭＩＣ１〜ＭＩＣ４）を備える例を示す。このため、音声キャプチャユニット１０６ａは、音源１１６（ＡおよびＢ）の位置を識別するために、より良好な粒度で三角測量ができる。すなわち、追加のマイクロフォンを提供することによって、音源の位置をより正確に定義し、このため、対象外であるかまたはゲームのプレイまたはコンピューティングシステムとの対話機能に害を及ぼしかねない音源を除去してフィルタ除去することが可能である。図５に示すように、音源１１６（Ｂ）は、ビデオキャプチャユニット１０６ｂによって識別された対象の音源である。図５の例の説明を続けると、図６は音源Ｂが空間体積に識別される方法を識別している。
【００３３】
音源Ｂが位置する空間体積は、焦点体積２７４を定義する。焦点体積を識別することによって、特定の体積内にないノイズ（すなわち、正しい方向にないもの）を除去またはフィルタ除去することが可能である。焦点体積２７４の選択が容易となるように、画像−音声キャプチャ装置１０６は、好ましくは少なくとも４つのマイクロフォンを備える。マイクロフォンのうちの少なくとも１つは、ほかの３つのマイクロフォンとは異なる平面にある。画像−音声キャプチャ装置１０６のマイクロフォンのうちの１つを平面２７１に保持し、４つのうちの残りを平面２７０に置くことによって、空間体積を定義することが可能である。
【００３４】
したがって、周辺にいる他の人（２７６ａおよび２７６ｂとして示される）から来るノイズは、体積焦点２７４内に画定される空間体積内に存在していないため、フィルタ除去される。更に、スピーカ２７６ｃで示すように、空間体積のすぐ外で生成されたノイズも、空間体積の外に存在しているためにフィルタ除去される。
【００３５】
図７は、本発明の一実施形態によるフローチャート図を示す。この方法は、操作３０２から開始し、２つ以上の音声キャプチャマイクロフォンにおいて、１つ以上の音源からの入力が受信される。１つの例では、この２つ以上の音声キャプチャマイクロフォンは画像−音声キャプチャ装置１０６に組み込まれている。別の実施形態では、２つ以上の音声キャプチャマイクロフォンが、画像キャプチャ装置１０６ｂとインタフェースする第２のモジュール／ハウジングの一部であってもよい。あるいは、音声キャプチャユニット１０６ａが備える音声キャプチャマイクロフォンの個数はいくつであってもよく、音声キャプチャマイクロフォンが、コンピューティングシステムと相互作用しているユーザから音をキャプチャするように設計された特定の位置に設置されてもよい。
【００３６】
この方法は操作３０４に移動し、各音源について遅延路が決定される。遅延路の例は、図３Ａの音経路２０１，２０２によって定義される。周知のように、遅延路は、音源から、音をキャプチャするために配置された特定のマイクロフォンまで音波が進むのに要する時間を定義している。マイクロフォンは、音が特定の音源１１６から進むのに要する遅延に基づいて、遅延がどのようなものであるかを決定することができ、標準の三角測量アルゴリズムを使用して、その音が発せられた位置を概算することができる。
【００３７】
次に、方法は操作３０６に進み、１つ以上の音源についてそれぞれ受信された入力の方向が識別される。つまり、音源１１６から音が発せられる方向が、音声キャプチャユニット１０６ａを含む画像−音声キャプチャ装置の位置に対して識別される。操作３０８において、識別された方向に基づいて、識別された焦点ゾーン（または体積）の方向にない音源がフィルタ除去される。操作３１０に示すように、焦点ゾーンの近くの方向から発生したのではない音源をフィルタ除去することにより、コンピュータプログラムとの対話機能のために、フィルタ除去されていない音源を使用することが可能である。
【００３８】
例えば、対話型プログラムは、ユーザがビデオゲームの機能またはビデオゲームの主プレーヤと対戦しているプレーヤと対話的に通信することができるビデオゲームであってもよい。対戦しているプレーヤは、ローカルであっても、またはリモートにいて、インターネットなどのネットワークを介して主ユーザと通信していてもよい。更に、ビデオゲームと関連する特定のコンテストにおいて、互いのスキルを対話的に競い合うように設計されたグループ内の多数のユーザ間でビデオゲームがプレイされてもよい。
【００３９】
図８は、フローチャート図であり、画像−音声キャプチャ装置の操作３２０が、操作３４０で受信した入力に対して実行されるソフトウェア実行操作とは独立して示される。したがって、操作３０２において、２つ以上の音声キャプチャマイクロフォンで１つ以上の音源からの入力が受信されると、方法は操作３０４に進み、ソフトウェア内で、各音源の遅延路が決定される。上記したように、操作３０６において、遅延路に基づいて、１つ以上音源のそれぞれについて、受信された各入力の方向が識別される。
【００４０】
この時点で、方法は操作３１２に移動し、ビデオキャプチャの近くにある識別された方向が決定される。例えば、図１に示すように、ビデオキャプチャの標的が、アクティブな画像領域に定められる。したがって、ビデオキャプチャの近くは、このアクティブな画像領域（または体積）の中であり、この画像アクティブ領域にあるかまたはその近くの音源と関連する任意の方向が決定される。この決定に基づいて、方法は操作３１４に進み、ビデオキャプチャの近くにない方向（または体積）がフィルタ除去される。このため、主プレーヤのビデオゲームのプレイに干渉する可能性のある攪乱、ノイズおよびその他の無関係な入力が、ゲームのプレイ中に実行されるソフトウェアによって実行される処理でフィルタ除去される。
【００４１】
したがって、主ユーザは、ビデオゲームと対話したり、ビデオゲームを能動的に使用しているビデオゲームの他のユーザと対話したり、対象とする同じビデオゲームのためにトランザクションにログインしているかまたはこれと関連しているネットワーク上の他のユーザと通信することができる。したがって、このようなビデオゲームの通信、対話機能および制御は、無関係なノイズおよび／または特定のゲームまたは対話型プログラムと対話的に通信しているか、またはこれに参加していない観察者によって妨害されることはない。
【００４２】
ここに記載されている実施形態は、オンラインゲームアプリケーションにも適用しうるという点を理解すべきである。すなわち、前述の実施形態は、インターネットなどの分散ネットワークを介してビデオ信号を複数のユーザに送信するサーバで行われ、騒音のあるリモート点でプレーヤが相互に通信できるようにする。ここに記載した実施形態は、ハードウェア実装、ソフトウェア実装のいずれによって実装されてもよいという点を更に理解すべきである。すなわち、上で述べた機能の説明を組み合わせて、ノイズキャンセル方式に関連する各モジュールの機能タスクを実行するように構成された論理回路を有するマイクロチップを定義してもよい。
【００４３】
また、音源の選択的なフィルタリングは、電話などのほかの用途を有していてもよい。電話を使用する環境では、通常、主人物（すなわち発呼者）が、第三者（すなわち被発呼者）と会話することを望んでいる。しかし、この通信中に、話しているかまたはノイズを発しているほかの人が近くにいることがある。主ユーザに標的を定めた（例えば、受話器の方向によって）電話が、主ユーザの口から出る音を、焦点ゾーンとすることができ、このため、主ユーザのみを聴取する選択が可能となる。このため、この選択的聴取は、主人物と関連付けられていない音声またはノイズの実質的なフィルタ除去を可能にし、したがって、受話側は、電話を使用している主人物から、より明瞭な通信を受信することが可能となる。
【００４４】
追加の技術は、制御または通信のための入力として音声を取り込むことに利点を有するより別の電子機器を有していてもよい。例えば、ユーザが、音声コマンドによって自動車の設定を制御する一方で、他の乗客がコマンドに妨害するのを防ぐことができる。ほかの用途に、ブラウズ用アプリケーション、文書作成または通信などのアプリケーションのコンピュータ制御がある。このフィルタリングを可能にすることによって、周囲音によって妨害されずに、音声または音のコマンドをより効果的に発することが可能である。このように、どのような電子装置も、本明細書に記載した任意の実施形態と併用して、音声コマンドによって制御することができる。
【００４５】
更に、本発明の実施形態は用途が非常に広く、特許請求の範囲はこのような実施形態から利益を得ることができるこのような任意の用途を含むものとして解釈されるべきである。
【００４６】
例えば、類似の用途として、音分析を使用して音源をフィルタ除去することが可能であると考えられる。音分析が使用される場合、使用するマイクロフォンは１つだけで済む。１つのマイクロフォンによってキャプチャされた音が（ソフトウェアまたはハードウェアで）デジタル的に分析されて、対象の音声または音が決定される。ゲームなどの一部の環境では、主ユーザが自分の声を一度記録して、この特定の音声を識別できるようにシステムを訓練することができる。このように、他の音声または音の排除が容易となる。したがって、フィルタリングを１つの音のトーンおよび／または周波数に基づいて行うことができるため、方向を特定する必要がないと考えられる。
【００４７】
方向および体積を考慮に入れたときに、音声フィルタリングに関して上に記載した利点の全てが等しく適用できる。
【００４８】
一実施形態では、音をキャプチャするための聴取領域を調整する方法および装置は、対応する聴取ゾーンを含む異なる領域または体積を識別するように構成されうる。より詳細には、マイクロフォンアレイは、これらの聴取ゾーンに対応する領域または体積から発生する音を検出するように構成されうる。更に、これらの領域または体積は、マイクロフォンアレイによって音をモニタすることができる領域または体積のより小さなサブセットであってもよい。一実施形態では、聴取ゾーンを拡大または縮小できるか、あるいはサイズは不変であるが位置を移動できるように、マイクロフォンアレイによって音を求めて検出される聴取ゾーンが動的に調整されうる。例えば、モニタされているゾーンが初期聴取ゾーンから小さくなるように、特定の場所の音を検出するために、聴取ゾーンが更に絞り込まれてもよい。更に、音を検証するために、音のレベルが、しきい値レベルと比較されてもよい。継続的な音を求めて、特定の場所からの音源がモニタされる。一実施形態では、初期領域から縮小領域まで小さくすることによって、不必要な背景ノイズが最小化される。一部の実施形態では、検出される領域または体積の調整が、画像キャプチャ装置の焦点ゾーンまたは視野に基づいて決定されうる。例えば、画像キャプチャ装置の視野が、ズームイン（拡大）、ズームアウト（最小化）、および／または横軸または縦軸に対して回転されうる。一実施形態では、マイクロフォンによって検出された領域に実行される調整が、画像キャプチャユニットの現在のビューに関連する領域をトラッキングする。
【００４９】
図９は、視覚画像または音声信号の発生源の場所に基づいて、音をキャプチャする、または音声信号をキャプチャするために、聴取領域を調整する方法および装置が実装される環境を示す図である。この環境には、電子装置４１０（例えば、クライアント装置として動作するように構成されたコンピューティングプラットホーム、例えば、パーソナルデジタルビデオレコーダ、デジタルオーディオプレーヤ、コンピュータ、個人情報端末、携帯電話機、カメラ装置、セットトップボックス、ゲーム機など）、ユーザインタフェース４１５、ネットワーク４２０（ローカル領域ネットワーク、ホームネットワーク、インターネットなど）、およびサーバ４３０（サーバとして動作するように構成されたコンピューティングプラットホームなど）が含まれる。一実施形態では、ネットワーク４２０は、無線または有線のソリューションによって実装されうる。
【００５０】
一実施形態では、１つ以上のユーザインタフェース４１５コンポーネントは、電子装置４１０と一体化されており、例えば、個人情報端末電子装置（ソニー株式会社が製造しているクリエ（登録商標）など）と同じ筐体に収容されたキーパッドおよびビデオ表示画面入出力インタフェースなどである。別の実施形態では、１つ以上のユーザインタフェース４１５コンポーネント（例えばキーボード、マウスやトラックボールなどのポインティングデバイス、マイクロフォン、スピーカ、ディスプレイ、カメラ）は、電子装置４１０と物理的に分離されているか、あるいは、従来の方法によってこれと結合されている。ユーザは、電子装置４１０、サーバ４３０、またはネットワーク４２０を介して結合されたリモート記憶装置（図示せず）に記憶されているコンテンツおよびアプリケーションにアクセスおよび制御するために、インタフェース４１５を使用する。
【００５１】
本発明によれば、後述するような信号の位置に基づいて音声信号をキャプチャする実施形態は、電子装置４１０、サーバ４３０内の電子プロセッサによって、あるいは、電子装置４１０とサーバ４３０の協働するそれぞれのプロセッサによって実行される。図１ではサーバ４３０は１つのコンピューティングプラットホームとして図示されているが、別の例では、１つのサーバとして動作する、相互接続された２つ以上のコンピューティングプラットホームである。
【００５２】
音をキャプチャするために聴取範囲を調整するか、または、視覚画像または音声信号の発生源の位置に基づいて音声信号をキャプチャするための方法および装置を、複数のユーザプロファイルからユーザプロファイルが選択されるアプリケーションの代表的な実施形態を用いて示す。一実施形態では、ユーザプロファイルが電子装置４１０からアクセスされ、ユーザプロファイルと関連付けられたコンテンツを作成、変更したり、他の電子装置４１０に配布することができる。一実施形態では、ユーザプロファイルに関連するコンテンツは、テレビまたは音楽の番組編成と関連付けられたカスタマイズされたチャネルリストと、カスタマイズされた記録時間に関連する記録情報を含む。
【００５３】
一実施形態では、特定のユーザプロファイルと関連付けられたコンテンツを作成または変更するためのアクセスは、許可されたユーザに制限されている。一実施形態では、許可されたユーザは、周辺装置（ポータブルメモリデバイス、ドングルなど）に基づいている。一実施形態では、各周辺装置は一意のユーザ識別子に関連付けられており、このユーザ識別子は、一意のユーザプロファイルに関連付けられている。
【００５４】
図１０は、信号の位置に基づいて音声信号をキャプチャするための方法および装置が実装される例示的なアーキテクチャを示す簡略図である。例示的なアーキテクチャには、複数の電子装置４１０、サーバ装置４３０、ならびに電子装置４１０とサーバ４３０および電子装置４１０同士を接続しているネットワーク４２０が含まれる。複数の電子装置４１０は、電子プロセッサ２０９に結合された計算機可読媒体５０９（ランダムアクセスメモリなど）を有するようにそれぞれ構成されている。プロセッサ２０８は、計算機可読媒体２０９に記憶されているプログラム命令を実行する。図９に関して記載したように、個々のユーザが、インタフェース４１５を介してそれぞれの電子装置４１０を操作する。
【００５５】
サーバ装置４３０は、サーバメモリ５１２など、計算機可読媒体に結合されたプロセッサ５１１を有する。一実施形態では、サーバ装置４３０は、１つ以上の追加の外部装置または内蔵装置と結合されており、これには、例えばデータベース５４０などの補助データ記憶要素があるが、これに限定されない。
【００５６】
１つの例では、プロセッサ５０８，５１１は、米国カリフォルニア州サンタクララ所在のインテルコーポレーションによって製造される。別の例では、ほかのマイクロプロセッサが使用される。
【００５７】
複数のクライアント装置４１０およびサーバ４３０は、信号の位置に基づいて音声信号をキャプチャするためのカスタマイズされたアプリケーションの命令を含む。一実施形態では、複数の計算機可読媒体５０９，５１２は、その一部に、カスタマイズされたアプリケーションを格納している。更に、複数のクライアント装置４１０とサーバ４３０は、カスタマイズされたアプリケーションと併用するために、電子メッセージを受信および送信するように構成されている。同様に、ネットワーク４２０は、カスタマイズされたアプリケーションと併用するために、電子メッセージを送信するように構成されている。
【００５８】
１つ以上のユーザアプリケーションが、メモリ５０９、サーバメモリ５１２に記憶されるか、あるいは１つのユーザアプリケーションが、その一部が１つのメモリ５０９に、一部がサーバメモリ５１２に保存されている。１つの例では、記憶されているユーザアプリケーションは、記憶場所を問わず、後述する実施形態を使用して決定された信号の位置に基づいた音声信号のキャプチャに基づいて、カスタマイズ可能とされる。
【００５９】
上記の説明の一部は、２つ以上の音源キャプチャマイクロフォンで１つ以上の音源からの入力を受信し、各音源から遅延路を決定し、１つ以上の音源のそれぞれの受信した入力の各々について方向を特定し、識別された焦点ゾーンの方向にない音源をフィルタ除去することに言及している。例として、このような音声入力処理は、図１１Ａ、１１Ｂ、１２Ａ、１２Ｂおよび１３を参照して後述するように進みうるが、これに限定されない。図１１Ａに示すように、マイクロフォンアレイ６０２は、４つのマイクロフォンＭ_０、Ｍ_１、Ｍ_２およびＭ_３を備えうる。一般に、マイクロフォンＭ_０、Ｍ_１、Ｍ_２およびＭ_３は、無指向性マイクロフォン（すなわち、ほぼどの方向からの音声でも検出することができるマイクロフォン）でありうる。無指向性マイクロフォンは、通常、構造的に単純であり、好適な聴取方向をもつマイクロフォンよりは低価格である。１つ以上の発生源６０４からマイクロフォンアレイ６０２に到達した音声信号は、ベクトルｘ＝［ｘ_０，ｘ_１，ｘ_２，ｘ_３］（ｘ_０、ｘ_１、ｘ_２およびｘ_３は、それぞれマイクロフォンＭ_０、Ｍ_１、Ｍ_２およびＭ_３によって受信される信号である）で表すことができる。各信号ｘ_ｍは、通常、異なる音源のために、下位成分を備える。この例では、添字ｍは０〜３の範囲をとり、アレイ内の異なるマイクロフォンを区別するために使用される。下位成分は、ベクトルｓ＝［ｓ_１，ｓ_２，…，ｓ_Ｋ］（Ｋは異なる発生源の個数）で表すことができる。異なる発生源から発生する信号ｓから音を分離するには、最良の到達時間遅延（Time Delay of Arrival：ＴＤＡ）フィルタを決定しなければならない。正確なＴＤＡ検出のために、最新ではあるが、計算量の多いブラインド音源分離（Blind Source Separation：ＢＳＳ）が理論上は好ましい。ブラインド音源分離は一組の信号を他の一組の信号に分離し、これにより、得られたそれぞれの信号の規則性が最大となるとともに、信号間の規則性が最小となる（すなわち、統計的独立が最大となるか、非相関性が最小となる）。
【００６０】
ブラインド音源分離では、二次統計量に基づく独立成分解析（Independent Component Analysis：ＩＣＡ）が行われうる。このような場合、各マイクロフォンに到達した信号のデータはランダムベクトルｘ_ｍ＝［ｘ_１，…，ｘ_ｎ］、成分はランダムベクトルｓ＝［ｓ_１，…，ｓ_ｎ］で表現できる。この作業は、線形静的変換ｓ＝Ｗｘを使用して、観測データｘ_ｍを、独立の一部の関数Ｆ（ｓ_１，…，ｓ_ｎ）によって測定された独立度が最大の成分ｓに変換することである。
【００６１】
観察されたランダムベクトルｘ_ｍ＝（ｘ_ｍ１，…，ｘ_ｍｎ）の成分ｘ_ｍｉは、混合重みａ_ｍｉｎによって重み付けられた独立成分ｓ_ｍｋの合計として生成される（ｋ、ｋ＝１，…，ｎ、ｘ_ｍｉ＝ａ_ｍｉ１ｓ_ｍ１＋…＋ａ_ｍｉｋｓ_ｍｋ＋…＋ａ_ｍｉｎｓ_ｍｎ）。換言すれば、データベクトルｘ_ｍは、混合行列Ａと発生源ベクトルｓ^Ｔとの積として表される。すなわち、ｘ_ｍ＝Ａ・ｓ^Ｔ、すなわち下記式で表される。
【００６２】
【数１】

【００６３】
元の発生源ｓは、観察された信号ベクトルｘ_ｍと、分離行列とも呼ばれる、混合行列の逆行列Ｗ＝Ａ^−１を乗算することによって復元することができる。分離行列Ａ^−１の決定は、計算を多用するものとなることがある。本発明の一部の実施形態は、マイクロフォンアレイの聴取方向を決定するために、ブラインド音源分離（ＢＳＳ）を使用する。マイクロフォンアレイの聴取方向および／または１つ以上の聴取ゾーンは、実行時の前（例えば、マイクロフォンアレイの設計および／または製造時に）に較正され、実行時に再び較正されうる。
【００６４】
例えば、聴取方向は、次のように決定することができる。マイクロフォンアレイに対して聴取方向に立っているユーザが、約１０〜３０秒間のスピーチを記録しうる。録音室には、一時的な干渉（例えば競合するような発話、バックグラウンドミュージックなど）が含まれていてはならない。所定の間隔の（約８ミリ秒ごとなど）記録された音声信号が、分析フレームに形成されて、時間領域から周波数領域に変換される。このフレーム内の各周波数ビン成分に対して、音声区間検出（ＶＡＤ）が実行されてもよい。各フレーム内の各周波数ビンについて、各フレーム内で強い音声信号を含むビンのみが収集されて、その二次統計量の概算に使用される。すなわち、較正共分散行列Ｃａｌ＿Ｃｏｖ（ｊ，ｋ）＝Ｅ（（Ｘ’_ｊｋ）^Ｔ＊Ｘ’_ｊｋ）であり、ここで、Ｅは期待値を決定する操作であり、（Ｘ’_ｊｋ）^ＴはベクトルＸ’_ｊｋの転置である。ベクトルＸ’_ｊｋは、ｊ番目のフレームおよびｋ番目の周波数ビンのための較正信号のフーリエ変換を表しているＭ＋１次のベクトルである。
【００６５】
このとき、合計した共分散行列は、ターゲット聴取方向から発せられた最も強い信号相関を含む。較正共分散行列Ｃａｌ＿Ｃｏｖ（ｊ，ｋ）のそれぞれは主成分解析（ＰＣＡ）によって分解されて、その対応する固有行列Ｃが生成されうる。したがって、固有行列Ｃの逆行列Ｃ^−１は、共分散行列を非相関させるために最も多くの情報を基本的に含む「聴取方向」であるとみなすことができ、較正結果として保存される。ここで使用するように、較正共分散行列Ｃａｌ＿Ｃｏｖ（ｊ，ｋ）の「固有行列」とは、共分散行列の固有ベクトルである列（または行）を有する行列のことを指す。
【００６６】
実行時に、この逆固有行列Ｃ^−１が、単純な線形変換によって混合行列Ａを非相関させるために使用されうる。非相関後、Ａは、その対角主ベクトルによって良好に近似され、したがって、分離行列（すなわち、Ａ^−１）の計算が、以下の線形ベクトルの逆Ａ１＝Ａ＊Ｃ^−１（ここで、Ａ１は独立成分解析（ＩＣＡ）における新しい変換された混合行列）の計算に簡略化される。主ベクトルは、Ａ１行列のまさに対角である。
【００６７】
実行時の再較正は、以前のステップに従って行われうる。しかし、製造時の既定の較正では、偏りがなく、個人に依存しない統計的推定を確実に行えるように、膨大な量の記録データ（例えば、何百人もの人からの何十時間分もの明瞭な音声）が必要となる。実行時の再較正では特定の人からの少ない量の記録データがあれば済むが、得られたＣ^−１の推定は偏っており、したがって個人に依存している。
【００６８】
上述の通り、主成分分析（ＰＣＡ）は、混合行列Ａを対角化する固有値を決定するために使用されうる。聴取方向が事前にわかっていれば、混合行列Ａのエネルギーをその対角に圧縮することができる。この手順は、ここではセミブラインド音源分離（ＳＢＳＳ）と呼ぶが、独立成分ベクトルｓ^Ｔの計算を極めて簡略化する。
【００６９】
また、本発明の実施形態は、反因果的フィルタリングを利用することもできる。因果律の問題は、図１１Ｂに示される。マイクロフォンアレイ６０２において、１つのマイクロフォン（例えばＭ_０）が参照マイクロフォンに選ばれる。マイクロフォンアレイからの信号ｘ（ｔ）が因果的であるためには、発生源６０４からの信号が、最初に参照マイクロフォンＭ_０に到達しなければならない。しかし、信号が他のマイクロフォンのいずれかに最初に到達した場合、Ｍ_０は、参照マイクロフォンとして使用することができない。通常、信号は、発生源６０４に最も近いマイクロフォンに最初に到達する。本発明の実施形態は、参照マイクロフォンが常に最初に信号を受信するように、アレイ３０２内のマイクロフォンＭ_０、Ｍ_１、Ｍ_２、Ｍ_３の間で参照マイクロフォンを切り替えることによって、発生源３０４の位置の変化に対して調整される。詳しくは、この反因果律は、参照マイクロフォンを除いたアレイ内の全てのマイクロフォンで受信される信号を遅延させる一方、これを行うために使用される遅延フィルタの長さを最小化することで、実現することができる。
【００７０】
例えば、マイクロフォンＭ_０が参照マイクロフォンの場合に、他の３つの非参照マイクロフォンＭ_１，Ｍ_２、Ｍ_３での信号が、システム出力ｙ（ｔ）に基づいて微小な遅延Δｔ_ｍ（ｍ＝１、２、３）によって調整されうる。微小な遅延Δｔ_ｍは、システム出力ｙ（ｔ）の信号対雑音比（ＳＮＲ）の変化に基づいて調整されうる。通常、遅延はＳＮＲを最大にするように選択される。例えば、離散時間信号の場合、時間サンプルｔにおける各非参照マイクロフォンからの信号の遅延Δｔ_ｍは、式Δｔ_ｍ（ｔ）＝Δｔ_ｍ（ｔ−１）＋μΔＳＮＲ（ここで、ΔＳＮＲはｔ−２とｔ−１間のＳＮＲの変化であり、μは定義済みのステップ幅であり、これは経験的に決定されうる）に従って計算することができる。Δｔ（ｔ）＞１の場合、遅延は１サンプルごとに増加する。反因果律のためこのような遅延を使用する本発明の実施形態では、合計遅延時間（すなわちΔｔ_ｍの合計）は、通常は２〜３の整数サンプルである。これは、２〜３のフィルタタップを用いて実現することができる。これは、代表的なデジタルシグナルプロセッサが最大５１２のタップを有するディジタルフィルタを使用することがあることを考えると、比較的少ない遅延量である。人工的な遅延Δｔｍを非参照マイクロフォンに適用することは、参照マイクロフォンＭ_０が音源６０４に最も近くなるように、アレイ６０２の向きを物理的に定めることと、デジタル的に等価であることに注意されたい。
【００７１】
図１２Ａは、アレイ６０２内のマイクロフォンのうちの１つであるＭ_０からの信号のフィルタリングを示す。装置７００Ａにおいて、マイクロフォンｘ_０（ｔ）からの信号が、７０４_０，…，７０４_ＮのＮ＋１個のタップから構成されるフィルタ７０２に供給される。先頭のタップ７０４_０を除き、各タップ７０４_ｉは、ｚ変換ｚ^−１および有限レスポンスフィルタによって表現される遅延部分を有する。各遅延部分が、単位整数遅延を信号x（t）に導入する。有限インパルス応答フィルタは、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，ｂ_２，ｂ_３，…，ｂ_Ｎによって表現される。本発明の実施形態では、フィルタ７０２は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせで実装することができる。所定のフィルタタップ７０４_ｉからの出力ｙ（ｔ）は、対応する有限インパルス応答係数b_ｉによってフィルタタップ７０４_ｉに対する入力信号のまさにコンボルーションである。なお、先頭のフィルタタップ７０４_０を除いた全フィルタタップ７０４_ｉの全てについて、フィルタタップへの入力は、以前のフィルタタップ７０４_ｉ−１の遅延部分Ｚ^−１の出力そのものである。したがって、フィルタ４０２の出力は、
【００７２】
ｙ（ｔ）＝ｘ（ｔ）＊ｂ_０＋ｘ（ｔ−１）＊ｂ_１＋ｘ（ｔ−２）＊ｂ_２＋…＋ｘ（ｔ−Ｎ）ｂ_Ｎ
【００７３】
で表現することができ、上記式において、記号「＊」はコンボルーション操作を表す。２つの離散時間関数ｆ（ｔ）とｇ（ｔ）間のコンボルーションは、以下のように定義される。
【数２】

【００７４】
音声信号処理の一般的な問題は、信号ｙ（ｔ）から音声の異なる発生源を最も良好に分解する有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎの値を選択することである。
【００７５】
信号ｘ（ｔ）およびｙ（ｔ）が離散時間信号である場合、各遅延Ｚ^−１は必ず整数遅延であり、遅延の大きさはマイクロフォンの最大周波数と逆相関している。通常、これが、装置４００Ａの解像度を制限してしまう。通常よりも高い解像度は、以下の式のようになるように、このような微小な時間遅延Δを信号ｙ（ｔ）に導入することができる場合に得られる。
【００７６】
ｙ（ｔ＋Δ）＝ｘ（ｔ＋Δ）＊ｂ_０＋ｘ（ｔ−１＋Δ）＊ｂ_１＋ｘ（ｔ−２＋Δ）＊ｂ_２＋…＋ｘ（ｔ−Ｎ＋Δ）ｂ_Ｎ
【００７７】
上記式において、Δは０〜±１である。本発明の実施形態において、微小な遅延またはその等価は、以下のように得ることができる。第１に、ｘ（ｔ）をｊ個のサンプル毎に遅延させ、有限インパルス応答フィルタ係数ｂｉ（ｉ＝０，１，…，Ｎ）を以下の（Ｊ＋１）次元の列ベクトル
【数３】

で表し、ｙ（ｔ）を以下のように書き換えることができる。
【００７８】
【数４】

ｙ（ｔ）が上記の形で表現される場合、ｔ＝ｔ＋Δの任意の微小な値についてｙ（ｔ）の値を補間することができる。詳しくは、ｙ（ｔ）の３つの値が、多項式補間に使用されうる。微小な値Δの予想される統計精度はＪ＋１に反比例し、これはｙ（ｔ）の直前の表現の「行」の数である。
【００７９】
本発明の実施形態では、量ｔ＋Δは、この概念を時間領域で説明する数学的要約であるとみなすことができる。実際には、正確な「ｔ＋Δ」を概算する必要があるというわけではない。それよりも、信号ｙ（ｔ）は周波数領域に変換されることがあるため、このような明示的な「ｔ＋Δ」がない。それよりも、周波数領域関数Ｆ（ｂ_ｉ）の推定は、微小な遅延Δの等価を提供するのに十分である。時間領域出力信号ｙ（ｔ）のための上記の数式は、例えば、フーリエ変換をとることによって時間領域から周波数領域に変換され、その結果得られる数式が、周波数領域出力信号Ｙ（ｋ）について解かれうる。これは、Ｊ＋１個のフレームについてフーリエ変換（例えば、高速フーリエ変換（ｆｆｔ）によって）を実行することに同等であり、フーリエ変換の各周波数ビンは（Ｊ＋１）×１列のベクトルである。周波数ビンの数はＮ＋１と等しい。
【００８０】
上記の式の各行について、有限インパルス応答フィルタ係数は、ｘ（ｔ）のフーリエ変換をとり、セミブラインド音源分離によって、求めることができる。詳しくは、上記の式の各「行」は、以下のようになる。
【００８１】
Ｘ_０＝ＦＴ（ｘ（ｔ，ｔ−１，…，ｔ−Ｎ））＝［Ｘ_００，Ｘ_０１，…，Ｘ_０Ｎ］
【００８２】
Ｘ_１＝ＦＴ（ｘ（ｔ−１，ｔ−２，…，ｔ−（Ｎ＋１））＝［Ｘ_１０，Ｘ_１１，…，Ｘ_１Ｎ］
【００８３】
Ｘ_Ｊ＝ＦＴ（ｘ（ｔ，ｔ−１，…，ｔ−（Ｎ＋Ｊ）））＝［Ｘ_Ｊ０，Ｘ_Ｊ１，…，Ｘ_ＪＮ］
【００８４】
上記式で、ＦＴ（）は括弧内の量のフーリエ変換をとる演算を表す。
【００８５】
更に、前述の内容は１つのマイクロフォンのみを扱っていたが、本発明の実施形態が２つ以上のマイクロフォンのアレイを使用してもよい。このような場合、入力信号ｘ（ｔ）は、Ｍ＋１次元のベクトルｘ（ｔ）＝（ｘ_０（ｔ），ｘ_１（ｔ），…，ｘ_Ｍ（ｔ））で表すことができる（Ｍ＋１はアレイ内のマイクロフォンの個数）。
【００８６】
図１２Ｂは、Ｍ＋１個のマイクロフォンＭ_０，Ｍ１，…，Ｍ_Ｍのマイクロフォンアレイ６０２を有する装置７００Ｂを示す。各マイクロフォンは、Ｍ＋１個の対応するフィルタ７０２_０，７０２_１，…，７０２_Ｍのうちの１つと接続されている。各フィルタ７０２_０，７０２_１，…，７０２_Ｍは、対応するＮ＋１個のフィルタタップの組７０４_００，…７０４_０Ｎ，７０４_１０，…，７０４_１Ｎ，７０４_Ｍ０，…，７０４_ＭＮを有する。各フィルタタップ７０４_ｍｉは、有限インパルス応答フィルタｂ_ｍｊ（ただし、ｍ＝０，…，Ｍ、ｉ＝０，…，Ｎ）を有する。先頭のフィルタタップ７０４_ｍ０を除き、各フィルタ７０２_ｍ内のフィルタタップもＺ^−１によって示される遅延を有する。各フィルタ７０２_ｍは、対応している出力ｙ_ｍ（ｔ）を生成し、これは、フィルタの合成した出力ｙ（ｔ）の成分とみなすことができる。前述のように、各出力信号ｙ_ｍ（ｔ）に微小な遅延が加えられうる。
【００８７】
Ｍ＋１個のマイクロフォンを有するアレイでは、量Ｘｊは、通常（Ｍ＋１）次元のベクトルである。例えば、４チャンネルマイクロフォンアレイの場合、ｘ_０（ｔ）、ｘ１（ｔ）、ｘ２（ｔ）、ｘ３（ｔ）の４つの入力信号がある。４チャンネルの入力ｘ_ｍ（ｔ）は周波数領域に変換され、１×４のベクトル“Ｘ_ｊｋ”としてまとめられる。ベクトルＸ_ｊｋの外積は４×４行列となり、この行列の統計的平均が共分散」行列となり、これは各ベクトル要素間の相関を示す。
【００８８】
例えば、４つの入力信号ｘ_０（ｔ）、ｘ１（ｔ）、ｘ２（ｔ）、ｘ３（ｔ）は、Ｊ＋１＝１０ブロックを有する周波数領域に変換されうる。詳細には、以下のようになる。
【００８９】
チャネル０：
Ｘ_００＝ＦＴ（［ｘ_０（ｔ−０），ｘ_０（ｔ−１），ｘ_０（ｔ−２），…，ｘ_０（ｔ−Ｎ−１＋０）］）
Ｘ_０１＝ＦＴ（［ｘ０（ｔ−１），ｘ_０（ｔ−２），ｘ_０（ｔ−３），…，ｘ_０（ｔ−Ｎ−１＋１）］）
……
Ｘ_０９＝ＦＴ（［ｘ_０（ｔ−９），ｘ_０（ｔ−１０）ｘ_０（ｔ−２），…，ｘ_０（ｔ−Ｎ−１＋１０）］）
【００９０】
チャネル１：
ｘ_０１＝ＦＴ（［ｘ_１（ｔ−０），ｘ_１（ｔ−１），ｘ_１（ｔ−２），…，ｘ_１（ｔ−Ｎ−１＋０）］）
ｘ_１１＝ＦＴ（［ｘ_１（ｔ−１），ｘ_１（ｔ−２），ｘ_１（ｔ−３），…，ｘ_１（ｔ−Ｎ−１＋１）］）
……
ｘ_１９＝ＦＴ（［ｘ_１（ｔ−９），ｘ_１（ｔ−１０）ｘ_１（ｔ−２），…，ｘ_１（ｔ−Ｎ−１＋１０）］）
【００９１】
チャネル２：
ｘ_２０＝ＦＴ（［ｘ_２（ｔ−０）），ｘ_２（ｔ−１），ｘ_２（ｔ−２），…，ｘ_２（ｔ−Ｎ−１＋０）］）
ｘ_２１＝ＦＴ（［ｘ_２（ｔ−１），ｘ_２（ｔ−２），ｘ_２（ｔ−３），…，ｘ_２（ｔ−Ｎ−１＋１）］）
……
ｘ_２９＝ＦＴ（［ｘ_２（ｔ−９），ｘ_２（ｔ−１０）ｘ_２（ｔ−２），…，ｘ_２（ｔ−Ｎ−１＋１０）］）
【００９２】
チャネル３：
ｘ_３０＝ＦＴ（［ｘ_３（ｔ−０），ｘ_３（ｔ−１），ｘ_３（ｔ−２），…，ｘ_３（ｔ−Ｎ−１＋０）］
ｘ_３１＝ＦＴ（［ｘ_３（ｔ−１），ｘ_３（ｔ−２），ｘ_３（ｔ−３），…，ｘ_３（ｔ−Ｎ−１＋１）］）
……
Ｘ_３９＝ＦＴ（［ｘ_３（ｔ−９），ｘ３（ｔ−１０）ｘ_３（ｔ−２），…，ｘ_３（ｔ−Ｎ−１＋１０）］）
【００９３】
例えば、微小な遅延を作成するために１０のフレームが使用されるとする。各フレームｊについてｊ＝０：９であり、各周波数ビン＜ｋ＞についてｎ＝０：Ｎ−１であり、以下の、１×４ベクトルを生成することができる。
【００９４】
Ｘ_ｊｋ＝［Ｘ_０ｊ（ｋ），Ｘ_１ｊ（ｋ），Ｘ_２ｊ（ｋ），Ｘ_３ｊ（ｋ）］
【００９５】
ベクトルＸ_ｊｋがＳＢＳＳアルゴリズムに供給され、フィルタ係数ｂ_ｊｎが求められる。混合行列Ａ（例えば４つのマイクを有するアレイのための４×４行列）は、４×１の混合重みベクトルｂ_ｊｋに置換される。これは、Ａ１＝Ａ＊Ｃ^−１（すなわちｂ_ｊｋ＝Ｄｉａｇｏｎａｌ（Ａ１））（Ｃ^−１は、上記の較正操作から得られる逆固有行列）の対角行列）である。周波数領域補正信号ベクトルＸ´_ｊｋは、上記の説明にて記載したように生成されうることに注意されたい。
【００９６】
混合行列Ａは、実行時共分散行列Ｃｏｖ（ｊ,ｋ）＝Ｅ（（Ｘ_ｊｋ）^Ｔ＊Ｘ_ｊｋ）によって近似することができ、ここで、Ｅは期待値を決定する演算であり、（Ｘ_ｊｋ）^ＴはベクトルＸ_ｊｋの転置行列である。各ベクトルｂ_ｊｋの成分は、各フレームｊと各周波数ビンｋの対応するフィルタ係数であり、すなわち、以下のようになる。
【００９７】
ｂ_ｊｋ＝［ｂ_ｊ０（ｋ），ｂ_１ｊ（ｋ），ｂ_２ｊ（ｋ），ｂ_３ｊ（ｋ）］
【００９８】
各ベクトルＸ_ｊｋを構成している個々の音源の独立周波数領域成分は、以下の式から決定することができる。
【００９９】
Ｓ（ｊ，ｋ）^Ｔ＝ｂ_ｊｋ^−１・Ｘ_ｊｋ＝［（ｂ_０ｊ（ｋ））^−１Ｘ_０ｊ（ｋ），（ｂ_１ｊ（ｋ）Ｘ_１ｊ（ｋ），（ｂ_２ｊ（ｋ））^−１Ｘ_２ｊ（ｋ），（ｂ_３ｊ（ｋ））^−１Ｘ_３ｊ（ｋ）］、この式において、各Ｓ（ｊ,ｋ）^Ｔは、元の入力信号ｘ（ｔ）の独立周波数領域を含む１×４ベクトルである。
【０１００】
マイクロフォンアレイ３０２において、ＩＣＡアルゴリズムは、「共分散」独立に基づいている。Ｍ＋１個の独立成分（音源）が常にあり、これらの二次統計量が独立であると仮定される。換言すれば、信号ｘ_０（ｔ）、ｘ_１（ｔ）、ｘ_２（ｔ）、ｘ_３（ｔ）間の相互相関がゼロでなければならない。この結果、共分散行列Ｃｏｖ（ｊ,ｋ）内の非対角の要素も、同様にゼロでなければならない。
【０１０１】
これと対照的に、問題を逆に考えると、Ｍ＋１の信号源があることがわかっている場合、相互相関を非相関させることができる行列Ａをみつけることによって、これらの相互相関する「共分散行列」を決定することもできる。すなわち、この行列Ａによって、共分散行列Ｃｏｖ（ｊ，ｋ）を対角（非対角の要素が全てゼロである）にすることができ、このとき、Ａは、４つの発生源を分離するための条件（recipe）を保持する「分離行列」である。
【０１０２】
「分離行列Ａ」を解くことは「逆問題」であるため、これは実際には非常に複雑で、Ａの決定的な数学的解は通常存在しない。その代わり、Ａを最初に推測して、次に、各信号ベクトルｘ_ｍ（ｔ）（ｍ＝０，１，…，Ｍ）について、Ａを少しずつ（適応ステップサイズと呼ばれる）適応的に更新していく。４マイクロフォンアレイの場合、Ａの適応は、通常、元のＩＣＡアルゴリズムにおいて４×４行列の逆行列を決定することに関連する。望ましくは、適応されたＡは真のＡに収束していくものと思われる。本発明の実施形態によれば、セミブラインド音源分離を使用することにより、分離行列ＡがＡ１ベクトルとなるが、この理由は、これが、上記の事前較正の結果である逆固有行列Ｃ^−１によって既に非相関されているためである。
【０１０３】
実行時の共分散行列Ｃｏｖ（ｊ,ｋ）と事前に較正された逆固有行列Ｃ^−１とを乗算することは、基本的には、Ａの対角要素を拾い出し、これらをＡ１ベクトルにすることである。Ａ１の各要素には最も強い相互相関があり、Ａの逆行列では、この相関が事実上なくなる。このため、本発明の実施形態は、従来のＩＣＡ適応手順を単純にし、各更新において、Ａの逆行列はベクトルの逆ｂ^−１となる。行列の逆の計算はＮ立方の複雑さであるが、ベクトルの逆の計算はＮ線形の複雑さである点に留意されたい。詳細には、Ｎ＝４の場合、行列の逆の計算は、ベクトルの逆の計算よりも６４回多く計算が必要である。
【０１０４】
また、（Ｍ＋１）×（Ｍ＋１）行列を（Ｍ＋１）×１ベクトルに小さくすることによって、必要なパラメータが遙かに少なくなり、数学的に「自由度」と呼ばれる数値的安定性に関する問題が著しく小さいため、適応がはるかに確実なものとなる。ＳＢＳＳによって自由度が（Ｍ＋１）倍下がるため、適応の収束が早くなる。実世界の音響環境では、音源が絶えず変わっている、すなわち、分離行列Ａが非常に早く変化するため、これは、非常に望ましい。Ａの適応は、この変化をリアルタイムにトラッキングして、その真の値に収束するのに十分早くなければならない。ＳＢＳＳの代わりに従来のＩＣＡベースのＢＳＳアルゴリズムを使用する場合、２を超えるマイクロフォンのアレイによって実時間アプリケーションを構築することは、ほぼ不可能である。単純なマイクロフォンアレイのなかにはＢＳＳを使用するものがあるが、全てではないにせよ、ほとんどのアレイが２つのマイクロフォンのみを使用している。
【０１０５】
周波数領域出力Ｙ（ｋ）は、Ｎ＋１次元のベクトルＹ＝［Ｙ_０，Ｙ_１，…，Ｙ_Ｎ］で表現することができ、各成分Ｙ_ｉは、以下の式によって計算することができる。
【数５】

各成分Ｙは、フィルタに対する単位応答を実現するために正規化されうる。
【数６】

【０１０６】
本発明の実施形態では、Ｎ、Ｊは任意の値をとることができるが、実際は、Ｎ＝５１１、Ｊ＝９によって、望ましいレベルの解像度（例えば、１６ｋＨｚのマイクロフォンを有するアレイでは、波長の約１／１０）が得られることが示されている。
【０１０７】
図１３は、本発明の一実施形態を示すフロー図を示す。ブロック８０２において、マイクロフォンＭ_０…Ｍ_Ｍから離散的時間領域入力信号ｘ_ｍ（ｔ）が生成されうる。ブロック８０４において、例えば、前述のように較正共分散行列に対する逆固有行列Ｃ^−１を計算することによって、マイクロフォンアレイの聴取方向が決定されうる。上記のように、聴取方向は、設計または製造の際の、マイクロフォンアレイの較正時に決定されても、または実行時に再較正されてもよい。詳細には、マイクロフォンアレイに対して好適な聴取方向にある発生源からの信号が、所定時間記録されうる。信号の分析フレームが、所定間隔で作成されて、この分析フレームが、周波数領域に変換されうる。周波数領域に変換された分析フレームのベクトルから、較正共分散行列が推定されうる。較正共分散行列の固有行列Ｃが計算されて、固有行列の逆から聴取方向が提供される。
【０１０８】
ブロック５０６において、参照マイクロフォンＭ_０からの入力信号ｘ_０（ｔ）を除く選択された入力信号ｘ_ｍ（ｔ）に、１つ以上の微小な遅延が適用されうる。微小な遅延のそれぞれは、マイクロフォンアレイからの離散的時間領域出力信号ｙ（ｔ）の信号対雑音比を最適化するために選択される。参照マイクロフォンＭ_０からの信号が、アレイ内の他のマイクロフォンからの信号に比べて時間が一番早くなるように、微小な遅延が選択される。
【０１０９】
ブロック５０８において、ｙ（ｔ＋Δ）＝ｘ（ｔ＋Δ）＊ｂ_０＋ｘ（ｔ−１＋Δ）＊ｂ_１＋ｘ（ｔ−２＋Δ）＊ｂ_２＋，…，＋ｘ（ｔ−Ｎ＋Δ）ｂ_Ｎ（ただし、Δは０〜±１）となるように、微小な時間遅延Δが出力信号ｙ（ｔ）に導入される。この微小な遅延は、図４Ａおよび４Ｂに関して上述したように導入されうる。詳細には、ｋ＝０：Ｎの周波数ビンの各々について、ドメイン入力信号ｘ_ｍ（ｔ）がｊ＋１フレームだけ遅延されるたびに、得られた遅延入力信号が、周波数領域に変換されて、周波数領域入力信号ベクトルＸ_ｊｋが生成される。
【０１１０】
ブロック５１０において、ブロック５０４で決定された聴取方向（例えば逆固有行列Ｃ^−１）が、セミブラインド音源分離で使用されて、入力信号ｘ_ｍ（ｔ）から異なる音源を分離するための有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎが選択される。詳細には、各マイクロフォンｍ、各フレームｊ、および各周波数ビンｋについて、入力信号ｘ_ｍ（ｔ）から２つ以上の音源を最も良好に分離することができるフィルタ係数［ｂ_０ｊ（ｋ），ｂ_１ｊ（ｋ），…，ｂ_Ｍｊ（ｋ）］が計算される。詳細には、各周波数領域入力信号ベクトルＸ_ｊｋから、実行時共分散行列が生成されうる。実行時共分散行列と固有行列Ｃの逆行列Ｃ^−１が乗算されて、混合行列Ａが生成され、混合行列Ａの対角から混合ベクトルが得られうる。混合ベクトルの１つ以上の成分から、フィルタ係数の値が決定されうる。更に、一実施形態では、フィルタ係数は、マイクロフォンアレイに対する位置を表しうる。別の実施形態では、フィルタ係数は、マイクロフォンアレイに対する領域を表しうる。
【０１１１】
図１４は、信号の位置に基づいて音声信号をキャプチャするためのシステム９００の一実施形態を示す。システム９００は、領域検出モジュール９１０、領域調整モジュール９２０、記憶モジュール９３０、インタフェースモジュール９４０、音検出モジュール９４５、制御モジュール９５０、領域プロファイルモジュール９６０、および視野検出モジュール９７０を有する。制御モジュール９５０は、領域検出モジュール９１０、領域調整モジュール９２０、記憶モジュール９３０、インタフェースモジュール９４０、音検出モジュール９４５、領域プロファイルモジュール９６０、および視野検出モジュール９７０と通信しうる。
【０１１２】
制御モジュール９５０は、領域検出モジュール９１０、領域調整モジュール９２０、記憶モジュール９３０、インタフェースモジュール９４０、音検出モジュール９４５、領域プロファイルモジュール９６０、および視野検出モジュール９７０の間でタスク、要求および通信を調整しうる。
【０１１３】
領域検出モジュール９１０は、音を求めてモニタされている聴取ゾーンを検出しうる。一実施形態では、マイクロフォンアレイは、特定の電子装置４１０によって音を検出する。例えば、所定の領域から発生する音を求めて、その特定の領域を取り囲む特定の聴取ゾーンがモニタされうる。一実施形態では、前述のように、聴取ゾーンは、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎによって定義される。
【０１１４】
一実施形態では、領域調整モジュール９２０は、音を求めてモニタされている聴取ゾーンによって定義される領域を調整する。例えば、領域調整モジュール９２０は、領域検出モジュール９１０によって定義されるように特定の聴取ゾーンを含む所定の領域を変えるように構成されている。一実施形態では、この所定の領域が拡大される。別の実施形態では、この所定の領域が縮小される。一実施形態では、聴取ゾーンの領域の変更を反映するために、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎが変更される。
【０１１５】
記憶モジュール９３０は、複数のプロファイルを記憶しており、各プロファイルは、音を検出するための異なる仕様（specification）と関連している。一実施形態では、プロファイルは、例えば、図１５の例示的なプロファイルに示すように、さまざまな情報を記憶している。一実施形態では、記憶モジュール９３０は、サーバ装置４３０に存在する。別の実施形態では、記憶モジュール９３０の一部は、電子装置４１０に存在する。
【０１１６】
別の実施形態では、記憶モジュール９３０は、検出された音の表現も記憶している。
【０１１７】
一実施形態では、インタフェースモジュール９４０は、電子装置４１０がネットワーク４２０に接続されたときに、この電子装置４１０を検出する。
【０１１８】
別の実施形態では、インタフェースモジュール９４０は、キーボード、マウス、マイクロフォン、スチルカメラ、ビデオカメラなどのインタフェース装置４１５からの入力を検出する。
【０１１９】
更に別の実施形態では、インタフェースモジュール６４０は、ディスプレイ、スピーカ、外部記憶装置、外部ネットワークなどのインタフェース装置４１５への出力を供給する。
【０１２０】
一実施形態では、音検出モジュール９４５は、聴取ゾーン内で発生した音を検出するように構成されている。一実施形態では、聴取ゾーンが、領域検出モジュール９１０によって決定される。別の実施形態では、聴取ゾーンは、領域調整モジュール９２０によって決定される。
【０１２１】
一実施形態では、音検出モジュール９４５は、聴取ゾーンから発生する音をキャプチャする。別の実施形態では、音検出モジュール９４５は、聴取ゾーン内の音の位置を検出する。音の位置は、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎに関して表現されうる。
【０１２２】
一実施形態では、領域プロファイルモジュール９６０は、音を検出するための特定の聴取ゾーンに関連するプロファイル情報を処理する。例えば、プロファイル情報には、音を求めて検出されている特定の聴取ゾーンを詳細に記述するパラメータが含まれうる。これらのパラメータには、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎが含まれうる。
【０１２３】
一実施形態では、例示的なプロファイル情報が、図１５に示すレコードに示される。一実施形態では、領域プロファイルモジュール９６０はこのプロファイル情報を利用する。別の実施形態では、領域プロファイルモジュール９６０は、追加のプロファイル情報を有する追加レコードを作成する。
【０１２４】
一実施形態では、視野検出モジュール９７０は、例えばスチルカメラまたはビデオカメラなどの画像キャプチャユニットの視野を検出する。例えば、視野検出モジュール９７０は、画像キャプチャユニットの視角を、画像キャプチャユニットを通して見ているように検出するように構成されている。一例を挙げると、視野検出モジュール９７０は、画像キャプチャユニットの倍率レベルを検出する。例えば、倍率レベルは、特定の画像フレームを記述しているメタデータ内に含まれうる。別の実施形態では、画像キャプチャユニットがズームインするかまたはズームアウトと、視野検出モジュール９７０によって現在の視野が検出されるように、視野検出モジュール９７０は定期的に視野を検出する。
【０１２５】
別の実施形態では、視野検出モジュール９７０は、マイクロフォンアレイに対する画像キャプチャユニットの水平および垂直の回転位置を検出する。
【０１２６】
図１４のシステム９００は、例示を目的として図示するものであり、信号の位置に基づいて音声信号をキャプチャするための方法および装置の一実施形態に過ぎない。信号の位置に基づいて音声信号をキャプチャするための方法および装置から逸脱することなく、システム９００に別のモジュールを追加してもよい。同様に、視覚画像または音声信号の発生源の位置に基づいて、音をキャプチャするまたは音声信号をキャプチャするための聴取領域を調整する方法および装置の範囲を逸脱することなく、モジュール同士を組み合わせたり、モジュールを省略してもよい。
【０１２７】
図１５は、聴取領域を記述しているプロファイルに対応する対応する簡略化されたレコード１０００を示す。一実施形態では、レコード１０００は、記憶モジュール９３０に記憶され、システム９００内で利用される。一実施形態では、レコード１０００には、ユーザ識別フィールド１０１０、プロファイル名フィールド１０２０、聴取ゾーンフィールド１０３０、およびパラメータフィールド１０４０が含まれる。
【０１２８】
一実施形態では、ユーザ識別フィールド１０１０は、特定のユーザに対応するカスタマイズ可能なラベルを与える。例えば、ユーザ識別フィールド１０１０には、任意の名前（例えば「ボブ」、「エミリーのプロファイル」など）のラベルが与えられうる。
【０１２９】
一実施形態では、プロファイル名フィールド１０２０は、音を検出するために各プロファイルを一意に識別している。例えば、一実施形態では、プロファイル名フィールド１０２０は、場所および／または参加者を記述している。例えば、プロファイル名フィールド１０２０は、「ＸＹＺ講堂」、「ソニープレイステーション（登録商標）ＡＢＣＧａｍｅ」などの説明的な名前が付されうる。更に、プロファイル名フィールド１０２０は、「定員の半分のＸＹＺ講堂」、他の参加者が２人いるソニープレイステーション（登録商標）ＡＢＣＧａｍｅ」などの名前が更に付されてもよい。
【０１３０】
一実施形態では、聴取ゾーンフィールド１０３０は、音を求めてモニタすべき異なる領域を識別している。例えば、ＸＹＺ講堂の全体が、音を求めてモニタされてもよい。しかし、別の実施形態では、前部分、後部分、中心部分、左部分および／または右部分など、ＸＹＺ講堂の選択された部分が音を求めてモニタされる。
【０１３１】
別の例において、ソニープレイステーション（登録商標）を取り囲む全ての領域が、音を求めてモニタされうる。しかし、別の実施形態では、例えば、ソニープレイステーション（登録商標）の前、ソニープレイステーション（登録商標）から所定の距離内など、ソニープレイステーション（登録商標）を取り囲む選択された領域が、音のためにモニタされる。
【０１３２】
一実施形態では、聴取ゾーンフィールド１０３０は、音をモニタするための１つの領域を含む。別の実施形態では、聴取ゾーンフィールド１０３０は、音をモニタするための複数の領域を含む。
【０１３３】
一実施形態では、パラメータフィールド１０４０は、聴取ゾーンフィールド１０３０内で記載したように聴取ゾーン内で音を適切に検出するために、音検出装置を構成するのに利用されるパラメータを記述している。
【０１３４】
一実施形態では、パラメータフィールド１０４０は、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎを含む。
【０１３５】
図１６、１７、１８および１９に示すフロー図は、視覚画像または音声信号の発生源の位置に基づいて音をキャプチャするため、または音声信号をキャプチャするために、聴取領域を調整するための方法および装置の実施形態の例を示す。これらフロー図内のブロックは、信号の位置に基づいて音声信号をキャプチャするための方法および装置の趣旨から逸脱することなく、異なる順序で実行されてもよい。更に、このような方法および装置の趣旨から逸脱することなく、ブロックを省略したり、追加したり、あるいは組み合わせてもよい。
【０１３６】
図１６のフロー図は、音をキャプチャするために聴取領域を調整する方法を示す。このような方法は、本発明の一実施形態による音声信号の発生源の位置に基づいた音声信号のキャプチャと共に使用することができる。
【０１３７】
ブロック１１１０において、音を検出するための初期聴取ゾーンが識別される。例えば、初期聴取ゾーンが、レコード１０００と関連するプロファイル内で識別されうる。更に、領域プロファイルモジュール９６０が、初期聴取ゾーンと関連するパラメータを提供しうる。
【０１３８】
別の例では、初期聴取ゾーンは、特定の電子装置４１０に予めプログラムされている。更に別の実施形態では、部屋、講堂または車などの特定の位置が決定されて、初期聴取ゾーンとして定義される。
【０１３９】
別の実施形態では、マイクロフォンアレイの周囲の、聴覚により検出可能な領域を集合的に構成している複数の聴取ゾーンが定義される。各聴取ゾーンは、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎによって表される。一実施形態では、初期聴取ゾーンが複数の聴取ゾーンから選択される。
【０１４０】
ブロック１１２０において、音検出のために初期聴取ゾーンが開始される。一実施形態では、マイクロフォンアレイが音を検出し始める。一例を挙げると、初期聴取ゾーン内の音のみが、装置４１０によって認識される。一例では、マイクロフォンアレイが、まず全ての音を検出しうる。しかし、初期聴取ゾーンの外で発生するかまたはそこから発せられた音は、装置４１０によって認識されない。一実施形態では、領域検出モジュール１１１０が、初期聴取ゾーンから発生する音を検出する。
【０１４１】
ブロック１１３０において、定義された領域内で検出された音がキャプチャされる。一実施形態では、マイクロフォンアレイが音を検出する。一実施形態では、キャプチャされた音が記憶モジュール９３０に記憶される。別の実施形態では、音検出モジュール９４５は、定義された領域から発生する音を検出する。一実施形態では、この定義された領域は、ブロック１１１０によって決定された初期聴取ゾーンを含む。別の実施形態では、定義された領域は、ブロック１１６０の調整された定義された領域に対応する領域を含む。
【０１４２】
ブロック１１４０において、定義された領域に対する調整が検出される。一実施形態では、定義された領域が拡大されうる。例えば、初期聴取ゾーンが設定された後に、定義された領域が、音をモニタするために、より大きな領域を含むように拡大されうる。
【０１４３】
一実施形態では、定義された領域が縮小されうる。例えば、初期聴取ゾーンが設定された後に、定義された領域が、音をモニタするために、より狭い領域に絞り込まれるように縮小されうる。
【０１４４】
別の実施形態では、定義された領域のサイズは一定であるが、定義された領域が回転されるか、または異なる位置に移動される。例えば、定義された領域が、マイクロフォンアレイに対して旋回されうる。
【０１４５】
更に、初期聴取ゾーンに対する最初の調整が実行されてから、定義された領域に対する調整が行われてもよい。
【０１４６】
一実施形態では、定義された領域に対する調整を示す信号が、音検出モジュール９４５によって検出された音、視野検出モジュール９７０によって検出された視野、および／または定義された領域内の調整の変更を示すインタフェースモジュール９４０によって受け取った入力によって開始され得る。
【０１４７】
ブロック１１５０において、定義された領域に対する調整が検出された場合は、ブロック１１６０において定義された領域が調整される。一実施形態では、ブロック１１６０において、調整された定義された領域を反映するために、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎが変更される。別の実施形態では、聴取ゾーンの追加または減少を反映するために、異なるフィルタ係数が利用される。
【０１４８】
ブロック１１５０において、定義された領域に対する調整が検出されない場合、ブロック８３０において定義された領域内の音が検出される。
【０１４９】
図１２のフロー図は、本発明の一実施形態による、聴取ゾーンの作成、聴取ゾーンの選択および音のモニタを示す。
【０１５０】
ブロック１２１０において、聴取ゾーンが定義される。一実施形態では、マイクロフォンアレイがカバーしているフィールドが複数の聴取ゾーンを含む。一実施形態では、聴取ゾーンが、マイクロフォンアレイに対する区画あるいはセグメントによって定義される。例えば、北東、北西、南東および南西などの４つの異なる四分区間として聴取ゾーンが定義され、各四分区間は、中心にあるマイクロフォンアレイの位置からみた位置である。別の例では、聴取領域が、任意の数の聴取ゾーンに分割されてもよい。説明の便宜上、聴取領域は、マイクロフォンアレイに対してＸ°の聴取ゾーンによって定義されうる。聴取領域全体がマイクロフォンアレイの周囲の３６０°の全てをカバーしており、１０つの別個の聴取ゾーンがある場合、各聴取ゾーンまたは区画は３６°である。
【０１５１】
一実施形態では、マイクロフォンアレイによって音を検出できる領域の全体が、聴取ゾーンのうちの１つによってカバーされる。一実施形態では、聴取ゾーンのそれぞれは、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎの組と対応している。
【０１５２】
一実施形態では、特定の聴取ゾーンは、レコード１０００内に記憶されたプロファイルに保存されうる。更に、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎは、レコード１０００に保存されうる。
【０１５３】
ブロック１２１５において、聴取ゾーンを選択することを目的として、マイクロフォンアレイによって音が検出される。検出された音の位置も検出されうる。一実施形態では、検出された音の位置が、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎの組によって識別される。
【０１５４】
ブロック１２２０において、少なくとも１つの聴取ゾーンが選択される。一例を挙げると、マイクロフォンアレイによって検出したい音に、無関係なノイズが干渉するのを防ぐために、特定の聴取ゾーンの選択が行われる。聴取ゾーンを狭い領域に限定することによって、モニタされていない領域から発生する音を最低限に抑えることができる。
【０１５５】
一実施形態では、聴取ゾーンが自動的に選択される。例えば、ブロック１２１５で検出された音に基づいて、特定の聴取ゾーンが自動的に選択されうる。選択された特定の聴取ゾーンは、ブロック１２１５で検出された音の位置と相関しうる。更に、検出された音に対して、聴取ゾーンに隣接しているかまたはその近くにある追加の聴取ゾーンが選択されてもよい。別の例では、レコード１２００内のプロファイルに基づいて、特定の聴取ゾーンが選択される。
【０１５６】
別の実施形態では、オペレータによって聴取ゾーンが手動で選択される。例えば、オペレータが、検出された音の位置にどの聴取ゾーンが対応しているかを示すグラフィック表現を視覚的に検出することができるように、検出された音がオペレータに視覚的に示されうる。更に、特定の聴取ゾーンの選択が、検出された音の位置に基づいて行われてもよい。別の例では、聴取ゾーンが、音の予想のみに基づいて選択されてもよい。
【０１５７】
ブロック１２３０において、マイクロフォンアレイによって音が検出される。一実施形態では、選択された聴取ゾーンに関わらず、マイクロフォンアレイによってあらゆる音がキャプチャされる。別の実施形態では、検出された音を表す情報が強度について分析されて、その後更に別の分析が行われる。一例では、検出された音の強度が所定のしきい値を満たさない場合、音はノイズとして特徴付けられて放棄される。
【０１５８】
ブロック１２４０において、ブロック１２３０で検出された音がブロック１２２０で選択された聴取ゾーンの１つの中でみつかった場合には、ブロック１２５０において、音を表す情報がオペレータに伝えられる。一実施形態では、音を表す情報が、再生、記録および／または更に処理されうる。
【０１５９】
ブロック１２４０において、ブロック１２３０で検出された音が、選択された聴取ゾーンの１つの中でみつからなかった場合には、ブロック１２４５で更に分析が行われる。
【０１６０】
ブロック１２４５で、選択された聴取ゾーンの外で音が検出されない場合には、ブロック１２３０において音の検出が続行される。
【０１６１】
しかし、選択された聴取ゾーンの外で音が検出された場合には、ブロック１２６０において、オペレータによる確認が求められる。一実施形態では、オペレータは、選択された聴取ゾーンの外で検出された音を知らされ、音が発生した領域を含む追加の聴取ゾーンを提示される。この例では、オペレータは、この追加の聴取ゾーンを、選択された聴取ゾーンの１つに追加する機会を得ることができる。別の実施形態では、オペレータに対して聴取ゾーンの追加が求められないように、追加の聴取ゾーンを含めるか含めないかの優先的処理が事前に設定されうる。この例では、追加の聴取ゾーンを含めるか含めないかの判断は、システム１２００によって自動的に行われる。
【０１６２】
ブロック１２６０の後、選択された聴取ゾーンが、ブロック１２６０での選択に基づいて、ブロック１２２０で更新される。例えば、追加の聴取ゾーンが選択された場合、その追加の聴取ゾーンが、選択された聴取ゾーンの１つとして加えられる。
【０１６３】
図１８のフロー図は、本発明の一実施形態による、視野に基づいた聴取ゾーンの調整を示す。
【０１６４】
ブロック１３１０において、聴取ゾーンが選択されて初期化される。一実施形態では、複数の聴取ゾーンから１つの聴取ゾーンが選択される。別の実施形態では、複数の聴取ゾーンが選択される。一実施形態では、マイクロフォンアレイが聴取ゾーンをモニタする。更に、聴取ゾーンは、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎまたはレコード１０００に示す事前決定されたプロファイルによって表されうる。
【０１６５】
ブロック１３２０において、視野が検出される。一実施形態では、視野は、スチルカメラ、ビデオカメラなどの画像キャプチャユニットが見ている画像を表している一実施形態では、視野を検出するために、視野検出モジュール９７０が利用される。画像キャプチャユニットの実効焦点距離（倍率）が変更されると、現在の視野が変更されうる。更に、画像キャプチャユニットがマイクロフォンアレイに対して回転しても、現在の視野が変更されうる。
【０１６６】
ブロック１３３０において、現在の視野が、現在の聴取ゾーンと比較される。一実施形態では、画像キャプチャユニットの倍率、および画像キャプチャユニットとマイクロフォンアレイとの回転関係が、視野の決定に利用される。画像キャプチャユニットのこの視野が、マイクロフォンアレイの現在の聴取ゾーンと比較される。
【０１６７】
画像キャプチャユニットの現在の視野と、マイクロフォンアレイの現在の聴取ゾーンが一致した場合、ブロック１３５０において、現在の聴取ゾーン内で音が検出される。
【０１６８】
画像キャプチャユニットの現在の視野と、マイクロフォンアレイの現在の聴取ゾーンが一致しない場合、ブロック１３４０において、現在の聴取ゾーンが調整される。現在の視野の回転位置と、マイクロフォンアレイの現在の聴取ゾーンの位置が揃っていない場合には、現在の視野の回転位置を含む異なる聴取ゾーンが選択される。
【０１６９】
更に、一実施形態では、画像キャプチャユニットの現在の視野が現在の聴取ゾーンより狭い場合には、現在の聴取ゾーンのうちの１つが無効化され、これにより、無効化された聴取ゾーンは、この無効化された聴取ゾーンから音を検出できなくなる。別の実施形態では、画像キャプチャユニットの現在の視野が、現在の唯一の聴取ゾーンよりも狭い場合には、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎを操作することによって現在の聴取ゾーンが変更されて、現在の聴取ゾーンによって音が検出される領域が縮小されうる。
【０１７０】
更に、一実施形態では、画像キャプチャユニットの現在の視野が現在の聴取ゾーンより広い場合には、現在の聴取ゾーンに隣接する追加の聴取ゾーンが追加されて、これにより、この追加の聴取ゾーンによって音が検出される領域が拡大される。別の実施形態では、画像キャプチャユニットの現在の視野が、現在の唯一の聴取ゾーンよりも広い場合には、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎを操作することによって現在の聴取ゾーンが変更されて、現在の聴取ゾーンによって音が検出される領域が拡大されうる。
【０１７１】
ブロック１３４０において聴取ゾーンが調整された後、ブロック１３５０において現在の聴取ゾーン内で音が検出される。
【０１７２】
図１９のフロー図は、本発明の一実施形態による、視野に基づいた聴取ゾーンの調整を示す。
【０１７３】
ブロック１４１０において、聴取ゾーンが選択されて初期化される。一実施形態では、複数の聴取ゾーンから１つの聴取ゾーンが選択される。別の実施形態では、複数の聴取ゾーンが選択される。一実施形態では、聴取ゾーンをマイクロフォンアレイがモニタする。更に、聴取ゾーンは、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎまたはレコード１０００に示す事前決定されたプロファイルによって表されうる。
【０１７４】
ブロック１４２０において、現在の聴取ゾーン内で音が検出される。一実施形態では、音検出モジュール９４５により、音がマイクロフォンアレイによって検出される。
【０１７５】
ブロック１４３０において、ブロック１４２０で検出された音から、音量レベルが決定される。
【０１７６】
ブロック１４４０において、ブロック１４３０で決定された音量レベルが、音しきい値レベルと比較される。一実施形態では、この音しきい値レベルは、無関係な意図しないノイズを除外する音モデルに基づいて選択される。別の実施形態では、音しきい値は、マイクロフォンアレイの現在の環境に基づいて動的に選択される。例えば、非常に静かな環境では、小さな音をキャプチャするために、音しきい値が低く設定されうる。これに対して、騒がしい環境では、背景ノイズを除外するために、音しきい値が高く設定されうる。
【０１７７】
ブロック１１４０で記載したように、ブロック１４３０で得た音量レベルが音しきい値レベルを下回る場合には、ブロック１４２０で音の検出が続行される。
【０１７８】
ブロック１４４０で記載したように、ブロック１４３０で得た音量レベルが音しきい値レベルを超える場合には、ブロック１４４５において、検出された音の位置が決定される。一実施形態では、検出された音の位置は、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎの形で表現される。
【０１７９】
ブロック１４５０において、ブロック１４１０で初期選択された聴取ゾーンが調整される。一実施形態では、この初期聴取ゾーンがカバーしている領域が減らされる。例えば、初期聴取ゾーンを絞り込むために、ブロック１４４５で識別された検出された音の位置が使用され、これにより、初期聴取ゾーンが、この音の位置に隣接する領域を含むように調整される。
【０１８０】
一実施形態では、初期聴取ゾーンを構成している複数の聴取ゾーンが存在することがある。複数の聴取ゾーンを有するこの例では、音の位置を含む聴取ゾーンが、調整された聴取ゾーンとして保持される。同様の例では、音の位置を含む聴取ゾーンと隣接する聴取ゾーンが、調整された聴取ゾーンとして保持される。
【０１８１】
別の実施形態では、初期聴取ゾーンとして、１つの聴取ゾーンが存在してもよい。この例では、調整された聴取ゾーンは、音の位置の周りの狭い領域として構成されうる。一実施形態では、音の位置の周りの狭い領域は、音の位置のすぐ近くの周りの領域を識別している有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎによって表されうる。
【０１８２】
ブロック１４６０において、調整された聴取ゾーン内で音が検出される。一実施形態では、音検出モジュール９４５により、音がマイクロフォンアレイによって検出される。更に、調整された聴取ゾーンから音量レベルも検出される。更に、調整された聴取ゾーン内で検出された音が、システム９００によって録音、ストリーミング、送信および／または更に処理されうる。
【０１８３】
ブロック１４７０において、ブロック１４６０で決定された音量レベルが、音しきい値レベルと比較される。一実施形態では、音しきい値レベルは、ブロック１４２０で最初に検出された音が続いているかどうかを決定するために選択される。
【０１８４】
ブロック１４７０で記載したように、ブロック１４６０で得た音量レベルが音しきい値レベルをより上にある場合には、ブロック１４６０において音の検出が続行される。
【０１８５】
ブロック１４７０で記載したように、ブロック１４６０で得た音量レベルが音しきい値レベルを下回る場合には、ブロック１４８０において、調整された聴取ゾーンが更に調整される。一実施形態では、調整された聴取ゾーンは、ブロック１４１０に示す初期聴取ゾーンに戻される。
【０１８６】
図２０の図は、図１８で説明したように、視野を用いたアプリケーションの使用を示す。図２０において、電子装置１５００は、上記したものなどのマイクロフォンアレイと画像キャプチャユニットを有する。物体１５１０、１５２０は、音源とみなすことができる。一実施形態では、周辺装置１５００はカムコーダである。装置１５００は、領域１５３０、１５４０および１５５０内で音と視覚画像をキャプチャすることができる。更に、装置１５００は、視覚画像をキャプチャするための視野を調整することができ、音をキャプチャするための聴取ゾーンを調整することができる。領域１５３０、１５４０および１５５０は、任意の領域として選択される。別の例では、領域の数がこれより増減しても、領域の大きさがこれより大きくても小さくてもよい。
【０１８７】
一実施形態では、装置１５００は、領域１５４０の視覚画像と、領域１５４０からの音をキャプチャする。このため、物体１５２０から音と視覚画像がキャプチャされうる。しかし、この例では、物体１５１０から音と視覚画像はキャプチャされない。
【０１８８】
一例を挙げると、装置１５００の視野が、物体１５１０を含むように、領域１５４０から拡大されうる。したがって、装置１５００によってキャプチャされる音が視覚的視野に追従し、更に聴取ゾーンが物体１５１０を含むように領域１５４０から拡大される。
【０１８９】
別の例では、装置１５００の視覚画像は、領域１５４０と同じ大きさをカバーするが、物体１５１０を含むように回転されうる。したがって、装置１５００によってキャプチャされる音が視覚的視野に追従し、更に聴取ゾーンが物体１５１０を含むように領域１５４０から回転する。
【０１９０】
図２１は、図１９に記載した方法の使用を示す図である。図２１は、マイクロフォンアレイ１６００と物体１６１０、１６２０を示している。マイクロフォンアレイ１６００は、領域１６３０、１６４０および１６５０内で音をキャプチャすることができる。更に、マイクロフォンアレイ１６００は、音をキャプチャするための聴取ゾーンを調整することができる。領域１６３０、１６４０および１６５０は、任意の領域として選択される。別の例では、領域の数がこれより増減しても、領域の大きさがこれより大きくても小さくてもよい。
【０１９１】
一実施形態では、マイクロフォンアレイ１６００は、領域１６３０、１６４０および１６５０からの音をモニタする。物体１６２０が音量レベルしきい値を超える音を発生させた場合、マイクロフォンアレイ１６００は、音の検出を領域１６５０まで狭くする。物体１６２０からの音が止んだら、マイクロフォンアレイ１６００は領域１６３０、１６４０および１６５０からの音を検出することができる。
【０１９２】
一実施形態では、マイクロフォンアレイ１６００は、ソニープレイステーション（登録商標）ゲーム装置に一体化されていてもよい。このアプリケーションでは、物体１６１０および１６２０は、それぞれプレイステーション（登録商標）装置のユーザの左右のプレーヤを表している。このアプリケーションでは、プレイステーション（登録商標）装置のユーザは、そのユーザのいずれかの側にいる仲間のプレーヤまたは友人をモニタする一方で、音をキャプチャするためにマイクロフォンアレイ１６００によってモニタされる聴取ゾーンを狭くすることによって不要なノイズをブロックすることができる。
【０１９３】
図２２は、図１４で記載したシステム９００と共に使用するアプリケーションの使用を示す図である。図２２は、マイクロフォンアレイ１７００、物体１７１０、およびマイクロフォンアレイ１７４０を示している。マイクロフォンアレイ１７００および１７４０は、領域１７５０を含む領域１７０５内で音をキャプチャすることができる。更に、マイクロフォンアレイ１７００、１７４０の両方は、音をキャプチャするためにそれぞれの聴取ゾーンを調整することができる。
【０１９４】
一実施形態では、マイクロフォンアレイ１７００および１７４０は、領域１７０５内で音をモニタする。物体１７１０が音量レベルしきい値を超える音を発生させた場合、マイクロフォンアレイ１７００および１７４０は、音の検出を領域１７５０まで狭くする。一実施形態では、領域１７５０は、線１７２０、１７２５、１７５０および１７５５に囲まれている。音が止んだら、マイクロフォンアレイ１７００および１７４０は領域１７０５内で再び音をモニタし始める。
【０１９５】
別の実施形態では、１つのマイクロフォンアレイがマイクロフォンアレイ１７００および１７４０を機能的に代用するように、マイクロフォンアレイ１７００および１７４０は、凸状の形状を有する１つのマイクロフォンアレイに結合される。
【０１９６】
図１１Ａに示すマイクロフォンアレイ６０２は、マイクロフォンアレイの一実施形態を示す。図２３Ａ、２３Ｂ、および２３Ｃは、マイクロフォンアレイの別の実施形態を示す。
【０１９７】
図２３Ａは、マイクロフォン１８０２、１８０４、１８０６、１８０８、１８１０、１８１２、１８１４および１８１６を有するマイクロフォンアレイ１８１０を示す。一実施形態では、マイクロフォンアレイ１８１０は長方形に形成されており、マイクロフォン１８０２、１８０４、１８０６、１８０８、１８１０、１８１２、１８１４および１８１６は、互いに同一平面に置かれており、マイクロフォンアレイ１８１０の周囲に沿って配置されている。別の実施形態では、マイクロフォンの数がこれよりも増減してもよい。更に、別の実施形態では、マイクロフォン１８０２、１８０４、１８０６、１８０８、１８１０、１８１２、１８１４および１８１６の位置が変わってもよい。
【０１９８】
図２３Ｂは、マイクロフォン１８３２、１８３４、１８３６、１８３８、１８４０、１８４２、１８４４および１８４６を有するマイクロフォンアレイ１８３０を示す。一実施形態では、マイクロフォンアレイ１８３０は円形に形成されており、マイクロフォン１８３２、１８３４、１８３６、１８３８、１８４０、１８４２、１８４４および１８４６は、互いに同一平面に置かれており、マイクロフォンアレイ１５３０の周囲に沿って配置されている。別の実施形態では、マイクロフォンの数がこれよりも増減してもよい。更に、別の実施形態では、マイクロフォンの１８３２、１８３４、１８３６、１８３８、１８４０、１８４２、１８４４および１８４６の位置が変わってもよい。
【０１９９】
図２３Ｃは、マイクロフォン１８６２、１８６４、１８６６および１８６８を有するマイクロフォンアレイ１８６０を示す。一実施形態では、マイクロフォン１８６２、１８６４、１８６６および１８６８は、マイクロフォンのうちの少なくとも１つがほかの３つに対して異なる面にあるように三次元構成に分布されている。例えば、マイクロフォン１８６２、１８６４、１８６６および１８６８は、三次元の球体の外面に沿って配置されうる。別の実施形態では、マイクロフォンの数がこれよりも増減してもよい。更に、別の実施形態では、マイクロフォン１８６２、１８６４、１８６６および１８６８の位置が変わってもよい。
【０２００】
図２４は、図１４で記載したシステム９００と共に使用するアプリケーションの使用を示す図である。図２４は、マイクロフォンアレイ１９１０と物体１９１５を含む。マイクロフォンアレイ１９１０は、領域１９００内で音をキャプチャすることができる。更に、マイクロフォンアレイ１９１０は、物体１９１５から音をキャプチャするための聴取ゾーンを調整することができる。
【０２０１】
一実施形態では、マイクロフォンアレイ１９１０は、領域１９００内で音をモニタする。物体１９１５が音量レベルしきい値を超える音を発生させた場合、マイクロフォンアレイ１９１０に結合されたコントローラの構成要素（例えば図６のシステム６００の領域調整モジュール６２０）が、領域１９１５まで音の検出を狭めうる。一実施形態では、領域１９１５は、図形１９３０、１９４０、１９５０および１９６０に囲まれている。更に、領域１９１５は、音がマイクロフォンアレイ１９１０によってキャプチャされる三次元の空間量を表している。
【０２０２】
一実施形態では、マイクロフォンアレイ１９１０は、二次元のアレイを利用する。例えば、図２３Ａおよび２３Ｂに示すマイクロフォンアレイ１８００および１８３０は、それぞれ、二次元のアレイの一実施形態である。マイクロフォンアレイ１９１０を二次元のアレイとして構成することによって、領域１９１５が、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎによって空間量として表すことができる。一実施形態では、二次元のマイクロフォンアレイを利用することによって、領域１９１５が、線１９３０、１９４０、１９５０および１９６０によって囲まれるようになる。別の実施形態では、二次元のマイクロフォンアレイとは対照的に、線形のマイクロフォンアレイを利用することによって、領域１９１５が線１９４０と１９５０に囲まれるようになる。
【０２０３】
別の実施形態では、マイクロフォンアレイ１９１０は、図２３Ｃに示すマイクロフォンアレイ１８６０などの三次元のアレイを利用する。マイクロフォンアレイ１９１０を三次元のアレイとすることによって、領域１９１５が、有限インパルス応答フィルタ係数ｂ_０，ｂ_１，…，ｂ_Ｎによって空間量として表すことができる。一実施形態では、三次元のマイクロフォンアレイを利用することによって、領域１９１５が、図形１９３０、１９４０、１９５０および１９６０によって囲まれるようになる。更に、一実施形態では、物体１９２０の位置を決定するために、三次元のアレイはＴＤＡ検出を利用する。
【０２０４】
本発明の特定の実施形態は事前較正された聴取ゾーンを使用した、対象音検出のための方法および装置を対象としている。このような実施形態は、２つ以上のマイクロフォンを有するマイクロフォンアレイによって実装することができる。図２５Ａに示すように、マイクロフォンアレイ２００２は、対応する信号フィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３に結合された４つのマイクロフォンＭ_０、Ｍ_１、Ｍ_２およびＭ_３を有しうる。各フィルタは、有限インパルス応答（ＦＩＲ）フィルタリングと、到着時間遅延（ＴＤＡ）フィルタリングの時間遅延の何らかの組合せを実装しうる。一般に、マイクロフォンＭ_０、Ｍ_１、Ｍ_２およびＭ_３は、無指向性マイクロフォン（すなわち、ほぼどの方向からの音声でも検出することができるマイクロフォン）でありうる。無指向性マイクロフォンは、通常、構造的に単純であり、好適な聴取方向をもつマイクロフォンよりは低価格である。マイクロフォンＭ_０、Ｍ_１、Ｍ_２およびＭ_３は、対応する出力ｘ_０（ｔ）、ｘ_１（ｔ）、ｘ_２（ｔ）、ｘ_３（ｔ）を生成する。これらの出力は、フィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３への入力となる。各フィルタは、到達時間遅延（ＴＤＡ）および／または有限インパルス応答（ＦＩＲ）を、その入力に適用しうる。フィルタの出力は結合されて、フィルタ出力ｙ（ｔ）とされる。図２５Ａには、例示を目的として、４つのマイクロフォンＭ_０、Ｍ_１、Ｍ_２およびＭ_３と４つのフィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３が示されているが、本発明の実施形態は、２つを超える任意の数のマイクロフォンと、対応する数のフィルタとを有してもよいことを当業者は認めるであろう。図２５Ａは例示のためにマイクロフォンの線形のアレイを示しているが、本発明の実施形態は、このような構成に限定されない。別の実施形態では、上で述べたように、３つ以上のマイクロフォンが二次元のアレイに配置されていても、４つ以上のマイクロフォンが三次元のアレイに配置されていてもよい。１つの特定の実施形態では、２マイクロフォンアレイに基づくシステムが、ビデオゲーム用のコントローラユニットに組み込まれうる。
【０２０５】
１つ以上の発生源２００４、２００６からマイクロフォンアレイ２００２に到達した音声信号は、ベクトルｘ＝［ｘ_０，ｘ_１，ｘ_２，ｘ_３］（ｘ_０、ｘ_１、ｘ_２およびｘ_３は、それぞれマイクロフォンＭ_０、Ｍ_１、Ｍ_２およびＭ_３によって受信される信号である）で表すことができる。各信号ｘ_ｍは、通常、異なる音源のために、下位成分を備える。この例では、添字ｍは０〜３の範囲をとり、アレイ内の異なるマイクロフォンと区別するために使用される。下位成分は、ベクトルｓ＝［ｓ_１，ｓ_２，…，ｓ_Ｋ］（Ｋは異なる発生源の個数）で表すことができる。
【０２０６】
異なる発生源から発生した信号ｓから音を分離するには、フィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３のそれぞれに対して最良のＴＤＡフィルタを決定しなければならない。発生源２００４、２００６からの音の分離を容易にするために、フィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３は、１つ以上の事前較正された聴取ゾーンＺを定義するフィルタパラメータ（例えばＦＩＲフィルタ係数および／またはＴＤＡ値）によって事前に較正される。各聴取ゾーンＺは、マイクロフォンアレイ２００２に近い空間の領域である。パラメータは、聴取ゾーンＺ内に存在する発生源２００４から発生する音が検出されるが、聴取ゾーンＺの外に存在する発生源２００６から発生する音がフィルタ除去される、すなわち実質的に減衰されるように選択される。図２５Ａに示す例では、聴取ゾーンＺは、マイクロフォンアレイ２００２の中心またはその近くに原点を有する、多少くさび形のセクタ（sector）として示されている。別の実施形態では、聴取ゾーンＺは、離散的な体積（例えば、空間内の矩形、球形、円錘形、または任意の形状の体積）であってもよい。くさび形の聴取ゾーンは、マイクロフォンの線形のアレイを使用して確実に設定することができる。任意の形状の体積によって定義される確実な聴取ゾーンは、平面アレイまたは少なくとも４つのマイクロフォンからなるアレイを使用して構成することができる。その場合、例えば、図６および図２３Ｃに図示したように、少なくとも１つのマイクロフォンが、ほかのマイクロフォンとは異なる平面にある。このようなアレイは、ここでは凹形のマイクロフォンアレイと呼ぶ。
【０２０７】
図２５Ｂのフロー図に示すように、マイクロフォンアレイ２００２を使用する対象音声検出のための方法２０１０は、以下のように進みうる。２０１２に示すように、事前較正された１つ以上の聴取ゾーンＺに対応するフィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３に対するフィルタ係数の１つ以上の組が決定される。図１２Ａおよび図１２Ｂに関して上述したように、フィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３は、フィルタ７０２_０，…，７０２_Ｍと、遅延ｚ^−１を有する対応するフィルタタップ７０４_ｍｉ、および有限インパルス応答フィルタ係数ｂ_ｍｉを使用するなどによって、ハードウェアまたはソフトウェアで実装されうる。フィルタ係数の各組は、入力信号の、所定の聴取セクタ内で発生した音に対応する部分を検出するために選択され、所定の聴取セクタの外で発生する音をフィルタ除去する。聴取セクタＳを事前較正するために、１つ以上の既知の較正音源が、セクタＳ内、およびのその外のいくつかの異なる既知の位置に配置されうる。較正中に、較正源は、マイクロフォンアレイ２００２がおそらく実行時に受信すると思われる音と同じような既知のスペクトル分布によって特徴付けられる音を発しうる。次に、発生源の、この既知の位置とスペクトル特性が、フィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３に対するフィルタパラメータの値を選択するために使用されうる。
【０２０８】
例えば、フィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３を事前較正して聴取ゾーンＺを定義するために、ブラインド音源分離（ＢＳＳ）を使用することができるが、これに限定されない。ブラインド音源分離は一組の信号を他の一組の信号に分離し、これにより、得られたそれぞれの信号の規則性が最大となるとともに、信号間の規則性が最小となる（すなわち、統計的独立が最大となるか、非相関性が最小となる）。ブラインド音源分離では、二次統計量に基づく独立成分解析（ＩＣＡ）が行われうる。このような場合、各マイクロフォンに到達した信号のデータはランダムベクトルｘ_ｍ＝［ｘ_１，…，ｘ_ｎ］、成分はランダムベクトルｓ＝［ｓ_１，…，ｓ_ｎ］で表現できる。例えば、図１１Ａ、１１Ｂ、１２Ａ、１２Ｂおよび１３に関して上に記載したように、観測データｘ_ｍは、線形静的変換ｓ＝Ｗｘを使用して、独立の何らかの関数Ｆ（ｓ_１，…，ｓ_ｎ）によって測定された独立度が最大の成分ｓに変換される。マイクロフォンアレイ２００の聴取ゾーンＺは、実行時の前（例えば、マイクロフォンアレイの設計および／または製造時に）に較正され、任意選択で実行時に再較正されうる。図１１Ａ、１１Ｂ、１２Ａ、１２Ｂおよび１３に関して、聴取方向の較正に関して上に記載したように、例えば、聴取ゾーンＺは、聴取ゾーン（listening）内で発話している人を記録して、記録した発話に二次統計量を適用することによって、事前較正されることができる。
【０２０９】
聴取ゾーンＺ内の異なる位置にユーザを立たせて、上記の手順を繰り返すことによって、較正プロセスをより精密に行うことができる。マイクロフォンアレイのノイズ除去では、ユーザが話しながらある程度自由に動ける空間が得られるように、ビーム形成が一定の許容差を有するように（事実上、聴取円錐領域を形成する）、較正中にユーザが聴取セクタ内を動き回ることが好ましい。これに対して、本発明の実施形態では、聴取セクタＳの円錐領域の全体について、音声／音検出を較正する必要はない。その代わり、聴取セクタは、好ましくは、聴取ゾーンＺの中心に沿った非常に狭いビームＢについて較正され、その結果、ノイズ圧縮比に基づく最終的なセクタ決定がより確実なものとなる。このプロセスが、１つ以上の追加の聴取ゾーンについて繰り返されうる。
【０２１０】
再び図２５Ｂを参照すると、２０１４に示すように、特定の事前較正された聴取ゾーンＺに対応するフィルタパラメータの組を、フィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３に適用することによって、特定の事前較正された聴取ゾーンＺが実行時に選択されうる。その結果、マイクロフォンアレイは、特定の聴取セクタ内で発生した音を検出し、特定の聴取セクタの外で発生する音をフィルタ除去することができる。図２５Ａには１つの聴取セクタしか示されていないが、本発明の実施形態は、複数の異なる聴取セクタが事前較正される場合に拡張することができる。図２５Ｂの２０１６に示すように、音源が存在するセクタを決定するために、マイクロフォンアレイ２００２は、次に、実行時に２つ以上の事前較正されたセクタ間をトラッキングしうる。例えば図２５Ｃに示すように、マイクロフォンアレイ２００２を取り囲む空間が、マイクロフォンアレイ２００２を取り囲んで約３６０°をなす、１８の異なる事前較正された２０°のくさび形の聴取セクタＳ_０，…，Ｓ_ｎの形で、複数の聴取ゾーンに分割されうる。これは、上で簡単に説明した較正操作を異なるセクタの各々に実行して、異なるセクタのそれぞれを、ＦＩＲフィルタ係数とＴＤＡ値の異なる組と関連付けることによって得られる。所定のフィルタ設定の適切な組（例えば前述のように、較正中に決定されるＦＩＲフィルタ係数および／またはＴＤＡ値）をフィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３に適用することによって、聴取セクタＳ_０，…，Ｓ_１７のいずれかが選択されうる。
【０２１１】
フィルタ設定のある組から別の組に切り替えることによって、マイクロフォンアレイ２００２は、あるセクタから別のセクタに切り替えて、音源２００４をあるセクタから別のセクタでトラッキングすることができる。例えば、再度図２５Ｃを参照すると、音源２００４がセクタＳ_７にあり、フィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３が、セクタＳ_４を選択するために設定されている場合を考える。フィルタがセクタＳ_４の外で発生する音をフィルタ除去するように設定されているため、音源２００４からの音の入力エネルギーＥは減衰される。入力エネルギーＥは以下のドット積として定義することができる。
【０２１２】
【数７】

【０２１３】
上記式において、ｘ_ｍ^Ｔ（ｔ）はベクトルｘ_ｍ（ｔ）の転置であり、マイクロフォン出力ｘ_ｍ（ｔ）を表している。この合計は、アレイ内のＭ個の全マイクロフォンについて求めた平均である。
【０２１４】
すなわち、入力エネルギーＥの減衰は、入力エネルギーＥとフィルタ出力エネルギーの比から求めることができる。すなわち、減衰＝
【０２１５】
【数８】

となる。
フィルタが音源２００４を含むセクタを選択するように設定されている場合、減衰はほぼ１に等しい。このため、音源２００４は、フィルタＦ_０、Ｆ_１、Ｆ_２およびＦ_３の設定を、あるセクタから別のセクタに切り替えて、異なるセクタの減衰を決定することによってトラッキングすることができる。異なる聴取セクタの減衰の決定を使用する対象音声検出方法２０２０は、図２５Ｄのフロー図に示すように進みうる。２０２２において、最初に、事前較正された聴取セクタのいずれかが選択されうる。例えば、セクタＳ_４（前方の聴取方向にほぼ対応している）が、既定の初期聴取セクタとして選択されうる。２０２４において、この初期傾聴セクタについて、入力信号エネルギーの減衰が決定される。２０２６において、減衰が最適値にない場合、２０２８において、別の事前較正されたセクタが選択されうる。
【０２１６】
音源２００４を含むセクタを求めて、セクタＳ_０，…，Ｓ_１７を検索する方法は数多く存在する。例えば、アレイの端のマイクロフォンＭ_０とＭ_３の入力信号エネルギー入力を比較することによって、音源２００４が、既定のセクタＳ_４のどちら側にあるかを決定することが可能である。例えば、場合によっては、正しいセクタが、マイクロフォンアレイ２００２の後方、例えば、セクタＳ_９，…，Ｓ_１７に存在する場合がある。多くの場合、マイクロフォンアレイの取り付けによって、発生源２００４がこのようなセクタのいずれかに存在する場合に、例えば約１ｄＢの最小の減衰が存在するように、これらのセクタから来る音に、固有の減衰が入り込むことがある。したがって、発生源２００４がマイクロフォンアレイ２００２の「前方」または「後方」のいずれに存在するかを、入力信号の減衰から決定することができる。
【０２１７】
最初の概算として、音源２００４が、大きな入力信号エネルギーを有するマイクロフォンに近いことが予想されうる。図２５Ｃに示す例では、右手のマイクロフォンＭ_３が入力信号エネルギーが大きく、除去処理によって、音源２００４が、セクタＳ_６、Ｓ_７、Ｓ_８、Ｓ_９、Ｓ_１０、Ｓ_１１、Ｓ_１２のうちの１つに存在することが予想される。好ましくは、次に選択されるセクタは、初期セクタＳ_４から、右手のマイクロフォンＭ_３に向かう方向に約９０°離れたセクタ（例えばセクタＳ_８）である。２０２４に示されるように、セクタＳ_８に対する入力信号エネルギーの減衰が決定されうる。減衰が最適値でない場合、２０２６において、別のセクタが選択されうる。例えば、次のセクタは、前のセクタから、初期セクタの方向に約４５°戻るセクタ（例えばセクタＳ_６）でありうる。ここでも、入力信号エネルギーの減衰が決定され、最適な減衰と比較されうる。入力信号エネルギーが最適値に近くない場合、この例では、２つのセクタのみが残る。このため、図２５Ｃに示す例では、最大４つのセクタが切り替わり、正しいセクタが決定されうる。入力信号のエネルギーの減衰を決定して、異なる聴取セクタ間を切り替える処理は、入力信号が十分に強い場合には、約１００ミリ秒で行われうる。
【０２１８】
前述のように、音源の位置は、ここで「音波レーダー」と呼ぶ音源の位置特定および特徴付け法と共に使用することができる。図２５Ｅは、プロセッサ２０３４とメモリ２０３６を有する電子装置２０３２と結合された、マイクロフォンアレイ２００２を有する上記の音源の位置特定および特徴付け装置２０３０の例を示す。装置は、ビデオゲーム、テレビまたは他の家庭用電気製品でありうる。プロセッサ２０３４は、上記に記載したＦＩＲフィルタおよび時間遅延を実装する命令を実行しうる。メモリ２０３６は、複数の聴取ゾーンの事前較正に関するデータ２０３８を有しうる。例えば、事前較正された聴取ゾーンには、くさび形の聴取セクタＳ_０、Ｓ_１、Ｓ_２、Ｓ_３、Ｓ_４、Ｓ_５、Ｓ_６、Ｓ_７、Ｓ_８が含まれうる。
【０２１９】
プロセッサ２０３４によって実行される命令は、装置２０３０を、図２５Ｆのフロー図２０３１に説明する方法に従って動作させうる。聴取ゾーン内の音源２００４、２００５が、マイクロフォンアレイ２００２を使用して検出されうる。一方の音源２００４は、装置２０３２または同装置のユーザにとって関心のあるものである。もう一方の音源２００５は、背景ノイズ源であるか、あるいは装置２０３２またはそのユーザにとって関心のないものである。マイクロフォンアレイ２００２が音を検出すると、図２５Ｆの２０３３に示すように、装置２０３０は、音源２００４を含む聴取ゾーンを決定する。例えば、音源２００４、２００５を含む事前較正された聴取ゾーン（例えば、それぞれセクタＳ_３とＳ_６）を決定するために、図２５Ｃ〜２５Ｄに関して上記した反復的な音源セクタの位置特定ルーチンが使用されうる。
【０２２０】
音源を含む聴取ゾーンが識別されると、例えば、適応ビーム形成を使用するなどにより、マイクロフォンアレイが音源に再び焦点を合わせられる。適応ビーム形成法の使用は、例えば、シャドンマオ（ＸｉａｄｏｎｇＭａｏ）の米国特許出願公開第２００５／００４７６１１号明細書に記載されており、同文献は参照によりここに援用される。次に、２０３５に示すように、例えば、音源から発生する音声信号の音スペクトルを解析することによって、音源２００４が特徴付けられうる。詳細には、音源からの時間領域信号が、所定の時間ウィンドウにわたって分析され、高速フーリエ変換（ＦＦＴ）が実行されて、音源の周波数分布特性が得られうる。検出された周波数分布が、既知の音響モデルと比較されうる。既知の音響モデルは、既知の音源から得られたトレーニングデータから生成される周波数分布（frequency distribution）などである。数多くの異なる音響モデルが、メモリ２０３６またはほかの記憶媒体にデータ２０３８の一部として記憶されており、検出された周波数分布と比較されうる。発生源２００４、２００５から検出された音を、これらの音響モデルと比較することによって、数多くの異なる可能な音源を識別することができる。
【０２２１】
装置２０３２は、音源２００４、２００５の特徴付けに基づいて、音源が関心のあるものがどうかに基づいて適切な動作をとることができる。例えば、音源２００４が装置２０３２にとって関心のあるものであると決定された場合、装置はセクタＳ_３から来る音を強調または増幅するか、ほかの適切な動作をとるか、この両方を行うことができる。例えば、装置２０３２がビデオゲームコントローラであり、発生源２００４がゲームのプレーヤの場合、装置２０３２は、ゲームコマンドとして解釈される発生源２００４からの音に反応して、「ジャンプ」、「スイング」などのゲームコマンドを実行しうる。同様に、音源２００５が、装置２０３２またはそのユーザにとって関心がないと決定された場合、装置は、セクタＳ_６から来る音をフィルタ除去するか、または他の適切な動作をとりうる。一部の実施形態では、例えば、音源を含む聴取ゾーンと音源の種類を示すアイコンがディスプレイ画面に表示されうる。
【０２２２】
一部の実施形態では、音の増幅やほかの適切な動作では、音源と関連するノイズ妨害の低減が行われうる。例えば、音源１０４と関連する音声信号のノイズ妨害が、音声信号の残りの成分に対して増幅されうる。次に、音声信号のサンプリングレートが下げられて、サンプリングレートを下げた音声信号に偶数次の導関数が適用されて検出信号が定義される。次に、音声信号のノイズ妨害が、検出信号の統計平均に従って調整されうる。音声信号に関連する妨害をキャンセル可能なシステム、ビデオゲームコントローラ、および音声信号に関連するノイズ妨害を低減する集積回路が含まれる。このような技術の詳細は、例えば、シャドンマオ（Xiadong Mao）による、譲受人共通の２００４年４月７日出願の米国特許出願第１０／８２０，４６９号「音声妨害を検出および除去する方法および装置（METHOD AND APPARATUS TO DETECT AND REMOVE AUDIO DISTURBANCES）」に記載されている。同出願は、２００５年１０月１３日に米国特許出願公開第２００５／０２２６４３１号として公開されており、これらの全開示が参照によりここに援用される。
【０２２３】
例えば、装置２０３０は、乳児モニタアプリケーションで使用されうる。詳細には、メモリ２０３６に記憶された音響モデルには、乳児、または場合によっては特定の乳児に特有の周波数分布が含まれうる。このような音は、装置１３０またはそのユーザによって関心のあるものとして識別されうる。電話、テレビ、ラジオ、コンピュータ、人の会話など、ほかの既知の音源の周波数分布が、メモリ２０３６に記憶されていてもよい。これらの音源は、関心のないものとして識別されうる。
【０２２４】
音源の位置特定および特徴付けのための装置および方法は、超音波および音波をベースとした家電遠隔制御に使用することができる。これは、例えば、スティーブンオスマン（Steven Osman）による、譲受人共通の米国特許出願第号「可聴装置による制御のためのシステムおよび方法（SYSTEM AND METHOD FOR CONTROL BY AUDIBLE DEVICE）」（代理人書類番号ＳＣＥＡＪＰ１．０−００１）に記載されており、これらの全開示が参照によりここに援用される。詳細には、マイクロフォンアレイ２００２によって受信された音が分析されて、それが所定の特徴を１つ以上含んでいるかどうかが決定される。音が１つ以上の所定の特徴を含んでいないと決定された場合には、装置２０３２の少なくとも１つの要素（aspect）を制御するために、少なくとも１つの制御信号が生成されうる。
【０２２５】
本発明の一部の実施形態では、事前較正された聴取ゾーンＺが、カメラの視野に対応していてもよい。例えば、図２５Ｇ〜２５Ｈに示すように、オーディオビデオ装置２０４０は、上記したものなどのマイクロフォンアレイ２００２と信号フィルタＦ_０、Ｆ_１、Ｆ_２、Ｆ_３、および画像キャプチャユニット２０４２を備えうる。例えば、画像キャプチャユニット２０４２はデジタルカメラでありうる。適切なデジタルカメラの例に、米国カリフォルニア州フリーモント所在のロジテック社（Ｌｏｇｉｔｅｃｈ）によって「ＥｙｅＴｏｙ」という名称で販売されているカラーのデジタルカメラがある。画像キャプチャユニット２０４２は、例えば、マイクロフォンアレイ２００２を画像キャプチャユニット２０４２に取り付けるか、またはその逆を行うことによって、マイクロフォンアレイ２００２に対して固定位置に取り付けられうる。別の実施形態では、マイクロフォンアレイ２００２と画像キャプチャユニット２０４２の両方が、共通のフレームまたはマウント（図示せず）に取り付けられてもよい。好ましくは、画像キャプチャユニット２０４２のレンズ系２０４６の光軸２０４４が、マイクロフォンアレイ２００２のマイクロフォンＭ_０、Ｍ_１、Ｍ_２、Ｍ_３の共通面に垂直な軸と平行になるように位置合わせされるように、画像キャプチャユニット２０４２の向きが設定される。レンズ系２０４６は、画像キャプチャユニットの、時として「視野」と呼ばれる焦点体積ＦＯＶによって特徴付けられうる。通常、視野ＦＯＶの外の物体は、画像キャプチャユニット２０４２が生成する画像には現れない。フィルタＦ_０、Ｆ_１、Ｆ_２、Ｆ_３の設定は、マイクロフォンアレイ２００２が画像キャプチャユニット２０４２の視野ＦＯＶに対応する聴取ゾーンＺを有するように、事前較正されうる。ここで使用するように、視野ＦＯＶと聴取ゾーンＺがかなりの程度重複している場合、聴取ゾーンＺが視野ＦＯＶに「対応している」という。ここで使用するように、視野ＦＯＶ内の物体も聴取ゾーンＺ内にあり、視野ＦＯＶの外にある物体も聴取ゾーンＺの外にある場合、両者は「かなりの程度重複している」という。図２５Ｇ〜２５Ｈに示した実施形態の範囲内で、前述の「対応している」と「かなりの程度重複している」との文言の定義では、物体が聴取ゾーンＺ内にあるが、視野ＦＯＶの外にある場合も許容する点に注意されたい。
【０２２６】
上記の通り、聴取ゾーンＺは、例えば較正段階で、視野ＦＯＶ内のさまざまな場所に置いた１つ以上の公知の発生源を使用することにより、フィルタＦ_０、Ｆ_１、Ｆ_２、Ｆ_３に対するＦＩＲフィルタ係数およびＴＤＡ値を調整することによって事前較正することができる。ＦＩＲフィルタ係数およびＴＤＡ値は、ＦＯＶ内にある発生源２００４からの音が検出されて、ＦＯＶの外の発生源２００６からの音がフィルタ除去されるように、（例えば、ＩＣＡを使用して）選択される。装置２０４０によって、ビデオおよび音声画像の処理が向上する。画像キャプチャユニット２０４２の視野ＦＯＶに対応させて聴取ゾーンＺを事前較正することによって、ＦＯＶ内の発生源から発生する音が増強される一方、ＦＯＶの外で発生する音が低減されうる。このような装置へのアプリケーションには、オーディオビデオ（ＡＶ）チャットがある。
【０２２７】
図２５Ｇ〜図２５Ｈには、事前較正された聴取セクタが１つしか図示されていないが、本発明の実施形態は、カメラと共に、事前較正された聴取セクタを複数使用してもよい。例えば、図２５Ｉ〜２５Ｊは、マイクロフォンアレイ２００２と、１つ以上のポインティングアクチュエータ２０５４（サーボモータなど）に取り付けられた画像キャプチャユニット２０５２（デジタルカメラなど）を有する装置２０５０を示す。マイクロフォンアレイ２００２、画像キャプチャユニット２０５２およびアクチュエータは、プロセッサ２０５７およびメモリ２０５８を有する制御装置２０５６と結合されうる。メモリ２０５８に記憶されているソフトウェアデータ２０５５と、メモリ２０５８に記憶され、プロセッサ２０５７によって実行される命令２０５９とが、上記の信号フィルタ機能を実装しうる。ソフトウェアデータは、事前較正された聴取ゾーンの組（例えば、それぞれマイクロフォンアレイ２００２の前方で１８０°の領域をカバーしている９の２０°のくさび形セクタＳ_０，…，Ｓ_８）に対応するＦＩＲフィルタ係数およびＴＤＡ値を含みうる。ポインティングアクチュエータ２０５０は、プロセッサ２０５７が生成した信号に反応して、画像キャプチャユニット２０５２を視覚（viewing）方向に向けうる。本発明の実施形態では、図２５Ｃ〜２５Ｄに関して上述したように、例えば、音源２００４を含む聴取ゾーンが決定されうる。音源２００４を含むセクタが決定されると、図２５Jに示すように、アクチュエータ２０５４は、音源２００４を含むこの事前較正された聴取ゾーンの方向に、画像キャプチャユニット２０５２を向けうる。マイクロフォンアレイ２００２は固定位置に置かれるが、ポインティングアクチュエータは、選択された聴取ゾーンの方向にカメラを向ける。
【０２２８】
本発明の実施形態によれば、図２５Ａ〜２５Ｊに関して上記したタイプの、上記のように機能する信号処理方法は、図２６に示すように信号処理装置２１００の一部として実装されうる。装置２１００は、プロセッサ２１０１とメモリ２１０２（例えばＲＡＭ、ＤＲＡＭ、ＲＯＭなど）を備えうる。更に、並列処理を実装する場合は、信号処理装置２１００は複数のプロセッサ２１０１を備えていてもよい。メモリ２１０２は、上記のように構成されたデータとコードを格納している。詳細には、メモリ２１０２は、図１２Ａおよび図１２Ｂに関して上述した、入力信号ｘ_ｍ（ｔ）のデジタル表現、フィルタ７０２_０，…，７０２_Ｍを実装しているコードおよび／またはデータ、ならびに遅延Ｚ^−１を有する対応するフィルタタップ７０４_ｍｉおよび有限インパルス応答フィルタ係数ｂ_ｍｉを含む信号データ２１０６を格納しうる。また、メモリ２１０２は、較正データ２１０８も格納し、これには例えば、上記のようにマイクロフォンアレイ２１２２の較正から得られた１つ以上の対応する事前較正された聴取ゾーンのための１つ以上の逆固有行列Ｃ^−１を表現するデータなどがある。例えば、メモリ２１０２は、マイクロフォンアレイ２１２２を含む１８の２０°のセクタのための固有行列を格納しうる。また、メモリ２１０２は、例えば、図１５に関して上述したようにプロファイル情報を格納しうる。
【０２２９】
また、装置２１００は、入出力（Ｉ／Ｏ）構成要素２１１１、電源（Ｐ／Ｓ）２１１２、クロック（ＣＬＫ）２１１３およびキャッシュ２１１４などの周知の支持機能２１１０も備えうる。装置２１００は、プログラムおよび／またはデータを記憶するためのディスクドライブ、ＣＤ−ＲＯＭドライブ、テープ装置などの大容量記憶装置２１１５を任意選択で備えていてもよい。制御装置は、制御装置２１００とユーザとの間で対話できるようにするためのディスプレイ装置２１１６およびユーザインタフェースユニット２１１８を任意選択で備えていてもよい。ディスプレイ装置２１１６は、テキスト、数字、グラフィックシンボルまたは画像を表示する陰極線管（ＣＲＴ）スクリーンまたはフラットパネルスクリーンの形をとりうる。ユーザインタフェース２１１８は、キーボード、マウス、ジョイスティック、ライトペンやその他の装置を備えうる。更に、ユーザインタフェース２１１８は、分析すべき信号を直接キャプチャできるようにするマイクロフォン、ビデオカメラまたはその他の信号変換装置を備えうる。プロセッサ２１０１、メモリ２１０２およびシステム２１００の他の構成要素は、図２６に示すようにシステムバス２１２０を介して、互いに信号（コード命令およびデータなど）を交換しうる。
【０２３０】
マイクロフォンアレイ２１２２は、Ｉ／Ｏ機能２１１１によって装置２１００と結合されうる。マイクロフォンアレイは、近くのマイクロフォンと約４センチメートル未満、好ましくは約１センチメートル〜約２センチメートル離間させた約２〜約８のマイクロフォン、好ましくは約４のマイクロフォンを有しうる。好ましくは、アレイ２１２２内のマイクロフォンは、無指向性マイクロフォンである。任意選択の画像キャプチャユニット２１２３（デジタルカメラなど）が、Ｉ／Ｏ機能２１１１によって装置２１００と結合されうる。カメラと機械的に結合される１つ以上のポインティングアクチュエータ２１２５は、Ｉ／Ｏ機能２１１１を介してプロセッサ２１０１と信号を交換しうる。
【０２３１】
ここで使用するように、「Ｉ／Ｏ」との文言は、一般に、システム２１００との間で、および周辺装置との間でデータを転送する任意のプログラム、操作または装置を指す。あらゆるデータ転送は、ある装置からの出力と、別の装置への入力と考えることができる。周辺装置は、キーボードおよびマウスなどの入力専用装置、プリンタなどの出力専用装置のほか、入力装置と出力装置の両方として機能することができる書き込み可能ＣＤ−ＲＯＭなどの装置を含む。「周辺装置」との文言には、マウス、キーボード、プリンタ、モニタ、マイクロフォン、ゲームコントローラ、カメラ、外部Ｚｉｐドライブまたはスキャナなどの外部装置のほか、ＣＤ−ＲＯＭドライブ、ＣＤ−Ｒドライブ、内蔵モデム、フラッシュメモリリーダライタ、ハードディスク等のほかの周辺装置などの内蔵装置が含まれる。
【０２３２】
本発明の特定の実施形態では、装置２１００はビデオゲームユニットであり、これは、有線（ＵＳＢケーブルなど）によってまたは無線でＩ／Ｏ機能２１１１を介してプロセッサと結合されたジョイスティックコントローラ２１３０を有しうる。ジョイスティックコントローラ２１３０は、ビデオゲームのプレイ中に共通に使用される制御信号を供給するアナログジョイスティック制御部２１３１と、従来のボタン２１３３を有しうる。このようなビデオゲームは、プロセッサ可読のデータおよび／または命令として実装され、これらは、メモリ２１０２または他のプロセッサ可読媒体（大容量記憶装置２１１５に関連するものなど）に記憶されうる。
【０２３３】
ジョイスティック制御部２１３１は、通常、コントロールスティックを左または右に動かすと、Ｘ軸に沿った移動の信号が生成され、前（上）または後ろ（下）に動かすとＹ軸に沿った移動の信号が生成されるように構成されうる。三次元移動するように構成されたジョイスティックでは、スティックを左（反時計回り）または右（時計回りに）を回転させると、Ｚ軸に沿った移動の信号が生成されうる。これらの３本の軸（Ｘ軸、Ｙ軸およびＺ軸）は、多くの場合、特に航空機に関連して、ロール、ピッチおよびヨーと呼ばれる。
【０２３４】
ジョイスティックコントローラ２１３０は、従来の機能に加えて、１つ以上の慣性センサ２１３２を有していてもよく、これは、慣性信号によって、位置および／または向きの情報をプロセッサ２１０１に供給しうる。向きの情報には、ジョイスティックコントローラ２１３０のチルト、ロールまたはヨーなどの角度情報が含まれうる。例えば、慣性センサ２１３２は、加速度計、ジャイロスコープまたはチルトセンサを、任意の数および／または組合せで有していてもよい。好ましい実施形態において、慣性センサ２１３２は、チルト軸およびロール軸に対して、ジョイスティックコントローラの向きを検出するように適合されたチルトセンサと、ヨー軸に沿った加速度を検出するように適合された第１の加速度計と、ヨー軸に対する角加速度を検出するために適合する第２の加速度計を有する。加速度計は、例えば、１つ以上のスプリングによって質量が取り付けられ、１つ以上の方向に対してその質量の移動を検出するためのセンサを有するＭＥＭＳ装置として実装されうる。質量の移動に応じて変わるセンサからの信号を使用して、ジョイスティックコントローラ２１３０の加速度が決定されうる。このような手法は、メモリ２１０２に記憶されており、プロセッサ２１０１によって実行されるプログラムコード命令２１０４によって実装されうる。
【０２３５】
更に、プログラムコード２１０４は、１つ以上の命令を有するプロセッサ実行可能命令を任意選択で有してもよく、これは、実行されると、ゲーム環境に対するコントローラの操作のマッピングを調整する１つ以上のプログラム命令を有しうる。このような機能により、ユーザは、ゲームの状態に対して、ジョイスティックコントローラ２１３０の操作の「ギヤリング（gearing）」を変更できるようになる。例えば、ジョイスティックコントローラ２１３０を４５°回転させることが、ゲーム物体の４５°の回転にマップされうる。しかし、コントローラをＸ°回転させる（またはチルトまたはヨーまたは「操作」）と、ゲーム物体のＹ回転（またはチルトまたはヨーまたは「操作」）に変換されるように、このマッピングが変更されてもよい。このようなマッピングのギアリングまたは比率の変更は、ゲームのプレイまたはゲームの状態に従って、あるいはジョイスティックコントローラ２１３０にあるユーザ変更ボタン（キーパッドなど）を使用して、プログラムコード２１０４によって調整されうる。特定の実施形態では、プログラムコード２１０４は、所定の時間に依存する方法で、経時により、Ｘ：Ｘの比をＸ：Ｙの比にマッピングを変更しうる。
【０２３６】
更に、ジョイスティックコントローラ２１３０は、発光ダイオード（ＬＥＤ）などの１つ以上の光源２１３４も有していてもよい。光源２１３４は、コントローラ同士を区別するために使用されうる。例えば、１つ以上のＬＥＤが、点滅するかまたはＬＥＤパターンコードを保持することによってこれを行ってもよい。例えば、５つのＬＥＤが、線形または二次元のパターンで、ジョイスティックコントローラ２１３０に設けられうる。ＬＥＤの線形のアレイが好ましいが、別の実施形態では、画像キャプチャユニット２１２３によって得られたＬＥＤパターンの画像を分析する際に、ＬＥＤアレイの画像平面が決定しやすいように、ＬＥＤが矩形のパターンまたは弓状のパターンで配置されていてもよい。更に、ＬＥＤパターンコードが、ゲームプレイ中にジョイスティックコントローラ２１３０の位置を決定するために使用されてもよい。例えば、ＬＥＤは、コントローラのチルト、ヨーおよびロールを識別するのを支援しうる。この検出パターンは、航空機飛行ゲームなどのゲームにおいて、ユーザの感覚をより現実に近づけるのを支援することができる。画像キャプチャユニット２１２３は、ジョイスティックコントローラ２１３０と光源２１３４を含む画像をキャプチャしうる。このような画像を分析することで、ジョイスティックコントローラの位置および／または向きを決定することができる。このような手法は、メモリ２１０２に記憶されており、プロセッサ２１０１によって実行されるプログラムコード命令２１０４によって実装されうる。画像キャプチャユニット２１２３が光源２１３４の画像をキャプチャしやすくなるように、光源２１３４は、ジョイスティックコントローラ２１３０の２つ以上の異なる側、例えば、（想像線に示すように）前面と背面に配置されうる。このように配置することで、ユーザによるジョイスティックコントローラ２１３０の持ち方に応じて変わるジョイスティックコントローラ２１３０の異なる向きに対して、画像キャプチャユニット２１２３は、光源２１３４の画像を得ることが可能となる。
【０２３７】
更に、光源２１３４は、テレメトリ信号を、例えば、パルスコード、振幅変調または周波数変調方式で、プロセッサ２１０１に供給しうる。このようなテレメトリ信号は、押下されているジョイスティックボタンおよび／またはこのボタンの押下強度を示しうる。テレメトリ信号は、例えば、パルス符号化、パルス幅変調、周波数変調または光強度（振幅）変調によって、光信号に符号化されうる。プロセッサ２１０１は、光信号からテレメトリ信号を復号化して、復号化したテレメトリ信号に応じてゲームコマンドを実行しうる。テレメトリ信号は、画像キャプチャユニット２１２３によって得られたジョイスティックコントローラ２１３０の画像を分析することで復号化されてもよい。別の実施形態では、装置２１０１が、光源２１３４からのテレメトリ信号を受信する専用の別個の光センサを有してもよい。コンピュータプログラムとインタフェースする際の強度量の決定と併用されるＬＥＤの使用は、譲受人共通の米国特許出願第号、リチャードＬ.マークスらの「コンピュータプログラムとインタフェースする場合に、強度量を決定する際のコンピュータ画像および音声処理の使用（USE OF COMPUTER IMAGE AND AUDIO PROCESSING IN DETERMINING AN INTENSITY AMOUNT WHEN INTERFACING WITH A COMPUTER PROGRAM）」（代理人書類番号ＳＯＮＹＰ０５２）に記載されており、その全体が参照によりここに援用される。更に、光源２１３４を含む画像の分析は、テレメトリのためと、ジョイスティックコントローラ２１３０の位置および／または向きの決定のための両方に使用することができる。このような手法は、メモリ２１０２に記憶されており、プロセッサ２１０１によって実行されるプログラムコード命令２１０４によって実装されうる。
【０２３８】
プロセッサ２１０１は、画像キャプチャユニット２１２３によって検出された光源２１３４からの光信号および／またはマイクロフォンアレイ２１２２によって検出された音響信号からの音源の位置および特徴付けの情報と共に、慣性センサ２１３２からの慣性信号を使用して、ジョイスティックコントローラ２１３０および／またはそのユーザの位置および／または向きに関する情報を推論することができる。例えば、移動する音声をトラッキングするために、「音波レーダー」の音源の位置特定および特徴付けが、マイクロフォンアレイ２１２２と共に使用されうる一方で、ジョイスティックコントローラの移動が、（慣性センサ２１３２および／または光源２１３４によって）独立してトラッキングされる。プロセッサ２１０１に制御信号に供給する異なるモードについて、本発明の実施形態と共に、任意の数のモードを異なる組合せで使用することができる。このような手法は、メモリ２１０２に記憶されており、プロセッサ２１０１によって実行されるプログラムコード命令２１０４によって実装されうる。
【０２３９】
慣性センサ２１３２からの信号は、トラッキング情報入力の一部となり、１つ以上の光源２１３４をトラッキングすることにより画像キャプチャユニット２１３２から生成された信号は、トラッキング情報入力の別の部分となりうる。例えば、このような「混合モード」信号は、クォーターバックが、ひっかけのために左に頭を動かした後に、右にボールを投げるフットボールタイプのビデオゲームで使用することができるが、これに限定されない。詳細には、コントローラ２１３０を持っているゲームのプレーヤが、頭を左に向けた後に、コントローラを、それがフットボールであるかのように、コントローラを右に（out to the right）振って投げる動作をしながら音を発しうる。「音波レーダー」プログラムコードと共に用いられるマイクロフォンアレイ２１２０が、ユーザの音をトラッキングしうる。画像キャプチャユニット２１２３は、ユーザの頭の移動をトラッキングするか、または音声やコントローラの使用を必要としない他のコマンドをトラッキングしうる。センサ２１３２は、ジョイスティックコントローラ（フットボールを表す）の移動をトラッキングしうる。画像キャプチャユニット２１２３は、コントローラ２１３０にある光源２１３４もトラッキングしうる。ジョイスティックコントローラ２１３０の加速度が特定の量および／または方向に達したら、あるいはまたはジョイスティックコントローラ２１３０のボタンを押すことによってトリガされるキーコマンドが発生されたら、ユーザは「ボール」を離しうる。
【０２４０】
本発明の特定の実施形態では、ジョイスティックコントローラ２１３０の位置を決定するために、加速度計またはジャイロスコープなどからの慣性信号が使用されうる。詳細には、加速度計からの加速度信号が、時間に関して積分されて、速度の変化が決定され、この速度が時間に関して積分されて、位置の変化が決定されうる。初期位置の値と、ある時点での速度が既知の場合には、これらの値と速度および位置の変化を使用して、絶対位置が決定されうる。慣性センサを使用した位置決定は、画像キャプチャユニット２１２３と光源２１３４を使用する場合よりも迅速に実行されうるが、慣性センサ２１３２は、「ドリフト」として知られるタイプの誤差を受けることがある。この誤差では、経時的に蓄積された誤差により、慣性信号から計算されるジョイスティック２１３０の位置（想像線に示される）と、ジョイスティックコントローラ２１３０の実際の位置の間に不一致Ｄが生じることがある。本発明の実施形態では、このような誤差を処理する数多くの方法が可能である。
【０２４１】
例えば、ジョイスティックコントローラ２１３０の初期位置を、計算で求めた現在の位置の値にリセットすることによって、ドリフトを手動で相殺することができる。ユーザは、初期位置をリセットするコマンドを起動させるために、ジョイスティックコントローラ２１３０のボタンの１つ以上を使用することができる。別の実施形態では、画像に基づくドリフトは、画像キャプチャユニット２１２３から得られた画像から決定された位置を基準として、現在の位置をリセットすることによって実装されうる。このような画像に基づくドリフト補償は、例えば、ユーザがジョイスティックコントローラ２１３０のボタンの１つ以上を起動したときに、手動で実装されうる。別の実施形態では、画像に基づくドリフト補償は、例えば、定期的な時間間隔で、あるいはゲームのプレイに応答してなど、自動的に実装されうる。このような手法は、メモリ２１０２に記憶されており、プロセッサ２１０１によって実行されるプログラムコード命令２１０４によって実装されうる。
【０２４２】
特定の実施形態では、慣性センサ信号の偽のデータを補償することが望ましいことがある。例えば、慣性センサ信号から偽のデータを除去するために、慣性センサ２１３２から信号がオーバーサンプリングされて、オーバーサンプリングされた信号から、スライド平均（sliding average）が計算されうる。一部の状況では、信号をオーバーサンプリングして、データ点の一部の部分集合から高い値および／または低い値を棄却して、残りのデータ点からスライド平均を計算することが望ましいことがある。更に、偽のデータの影響を取り除くか低減させるために、他のデータのサンプリングおよび操作手法を使用して、慣性センサからの信号が調整されうる。どの手法を選択するかは、信号の性質、信号に行われる計算、ゲームのプレイの性質、またはこれらの２つ以上の何らかの組合せに応じて決まる。このような手法は、メモリ２１０２に記憶されており、プロセッサ２１０１によって実行されるプログラムコード命令２１０４によって実装されうる。
【０２４３】
前述のように、プロセッサ２１０１は、データ２１０６と、メモリ２１０２によって記憶および取り出され、プロセッサモジュール２１０１によって実行されるプログラム２１０４のプログラムコード命令とに応じて、信号データ２１０６に対してデジタル信号処理を実行しうる。プログラム２１０４のコード部分は、アセンブラ、Ｃ＋＋、ＪＡＶＡや他の多くの言語などの多くの異なるプログラミング言語のいずれか１つに準拠しうる。プロセッサモジュール２１０１は汎用コンピュータであり、プログラムコード２１０４などのプログラムを実行する際に、特定用途コンピュータとなる。プログラムコード２１０４は、ソフトウェアで実装され、汎用コンピュータで実行されるものとしてここに記載したが、別の実施形態では、タスク管理のこの方法が、特定用途向け集積回路（ＡＳＩＣ）または他のハードウェア回路などのハードウェアを使用して実装されてもよいことを、当業者は理解するであろう。このようにして、本発明の実施形態が、全体あるいは部分的に、ソフトウェア、ハードウェアまたはこの両者の何らかの組合せで実装できることを理解すべきである。
【０２４４】
一実施形態では、プログラムコード２１０４は、なかでも、図２５Ｂの方法２０１０、図２５Ｄの方法２０２０、図２５Ｆの方法２０４０、または図７、８、１３、１６、１７、１８または１９に示した方法、あるいはこれらの２つ以上の何らかの組み合わせと共通する機能を有する方法を実装するプロセッサ読み込み可能な命令の組を含みうる。一実施形態では、プログラムコード２１０４は、一般に、１つ以上のプロセッサに対して、実行時に事前較正された聴取ゾーンを選択させて、この事前較正された聴取ゾーンの外の発生源から発生する音をフィルタさせる１つ以上の命令を備えうる。事前較正された聴取ゾーンは、画像キャプチャユニット２１２３の焦点体積または視野に対応する聴取ゾーンを含みうる。
【０２４５】
プログラムコードは、実行されると、装置２１００に対して、音源を含む事前較正された聴取セクタを選択させる１つ以上の命令を備えうる。このような命令は、装置に対して、音源が初期セクタ内にあるか、または初期セクタの特定の側に存在するかどうかを決定させうる。音源が既定のセクタ内にない場合、命令は、実行されると、既定のセクタの特定の側にある異なるセクタを選択しうる。この異なるセクタは、入力信号の減衰が最適値に最も近いという特徴を有する。これらの命令は、実行されると、マイクロフォンアレイ２１２２からの入力信号の減衰と最適値の減衰を算出しうる。命令は、実行されると、装置２１００に対し、１つ以上のセクタについて、入力信号の減衰の値を決定させて、減衰が最適値に最も近いセクタを選択させうる。
【０２４６】
プログラムコード２１０４は、１つ以上のプロセッサに対して、マイクロフォンＭ_０，．．，Ｍ_Ｍから離散的な時間領域入力信号ｘ_ｍ（ｔ）を生成させ、聴取セクタを決定させ、入力信号ｘ_ｍ（ｔ）から異なる音源を分離するための有限インパルス応答フィルタ係数を選択するために、セミブラインド音源分離において聴取セクタを使用させるように指示する１つ以上の命令を任意選択で含んでいてもよい。プログラム２１０４は、参照マイクロフォンＭ_０からの入力信号ｘ_０（ｔ）を除く選択された入力信号ｘ_ｍ（ｔ）に、１つ以上の微小な遅延を適用するための命令を含みうる。微小な遅延のそれぞれは、マイクロフォンアレイからの離散的時間領域出力信号ｙ（ｔ）の信号対雑音比を最適化するために選択されうる。参照マイクロフォンＭ_０からの信号が、アレイ内の他のマイクロフォンからの信号に比べて時間が一番早くなるように、微小な遅延が選択される。また、プログラム２１０４は、ｙ（ｔ＋Δ）＝ｘ（ｔ＋Δ）＊ｂ_０＋ｘ（ｔ−１＋Δ）＊ｂ_１＋ｘ（ｔ−２＋Δ）＊ｂ_２＋，…，＋ｘ（ｔ−Ｎ＋Δ）ｂ_Ｎ（ただし、Δは０〜±１）となるように、微小な時間遅延Δをマイクロフォンアレイの出力信号ｙ（ｔ）に導入しうる。
【０２４７】
プログラムコード２１０４は、任意選択で１つ以上の命令を有するプロセッサ実行可能命令を有し、この命令は、実行されると、画像キャプチャユニット２１２３に対して、画像キャプチャユニット２１２３の前の視野をモニタさせ、この視野内で光源２１３４を１つ以上識別させ、光源２１３４から発せられる光の変化を検出させ、この変化を検出すると、プロセッサ２１０１への入力コマンドを発生させる。ゲームコントローラにおいて動作を起動させるために画像キャプチャ装置と併用するＬＥＤの使用は、リチャードＬ.マークスによる、譲受人共通の米国特許出願第１０／７５９，７８２号「光入力装置のための方法および装置（METHOD AND APPARATUS FOR LIGHT INPUT DEVICE）」に記載されており、その全体が参照によりここに援用される。
【０２４８】
プログラムコード２１０４は、任意選択で１つ以上の命令を有するプロセッサ実行可能命令を有し、この命令は、実行されると、例えば、前述のように、慣性センサからの信号と、１つ以上の光源をトラッキングすることにより画像キャプチャユニットから生成された信号とを、ゲームシステムへの入力として使用する。プログラムコード２１０４は、任意選択で１つ以上の命令を有するプロセッサ実行可能命令を有し、この命令は、実行されると、慣性センサ２１３２内のドリフトを補償させる。
【０２４９】
更に、プログラムコード２１０４は、１つ以上の命令を有するプロセッサ実行可能命令を任意選択で有してもよく、これは、実行されると、ゲーム環境に対するコントローラの操作のギアリングおよびマッピングを調整する。このような機能により、ユーザは、ゲームの状態に対するジョイスティックコントローラ２１３０の操作の「ギヤリング」を変更できるようになる。例えば、ジョイスティックコントローラ２１３０を４５°回転させることが、ゲーム物体の４５°の回転にギアリングされうる。しかし、コントローラをＸ°回転させる（またはチルトまたはヨーまたは「操作」）と、ゲーム物体のＹ回転（またはチルトまたはヨーまたは「操作」）に変換されるように、この１：１のギア比が変更されてもよい。ギアリングは１:１の比、１:２の比、１：Ｘの比、Ｘ：Ｙの比であってよく、ここでＸとＹは任意の値をとることができる。更に、ゲームの制御に対する入力チャネルのマッピングは、経時的に変更されても、即時に変更されてもよい。変更には、ジェスチャ軌道モデルの変更、ジェスチャの位置、スケール、しきい値等の変更などが含まれうる。このようなマッピングは、ユーザの操作性のダイナミックレンジを広げるために、プログラムされていても、ランダムでも、層状になっていても（tiered）、互い違いにされていても（staggered）よい。マッピング、ギアリングまたは比率の変更は、ゲームのプレイまたはゲームの状態に従って、あるいはジョイスティックコントローラ２１３０にあるユーザ変更ボタン（キーパッドなど）を使用して、あるいは、広くは入力チャンネルに応じて、プログラムコード２１０４によって調整されうる。入力チャネルには、ユーザの音声の要素、コントローラによって生成された音声、コントローラによって生成されたトラッキング音声、コントローラのボタンの状態、ビデオカメラの出力、加速度計のデータ、チルト、ヨー、ロール、位置、加速度を含むコントローラのテレメトリデータ、ユーザまたは物体に対するユーザの操作をトラッキングすることができるセンサからのほかの任意のデータなどがある。
【０２５０】
特定の実施形態では、プログラムコード２１０４は、経時的なマッピングまたはギアリングを、所定の時間に依存する方法で、１つの方式または比率から別の方式に変更しうる。ギアリングおよびマッピングの変更は、さまざまな方法でゲーム環境に適用されうる。１つの例では、ビデオゲームのキャラクタが、そのキャラクタが健康なときはあるギアリング方式下で制御され、そのキャラクタの健康状態が悪化すると、システムが、コントローラコマンドのギアを変更しうる。このため、ユーザが、キャラクタにコマンドを提示するための（gesture）、コントローラの動きが悪化する。ビデオゲームのキャラクタが方向感覚を失った場合、例えば、ユーザが、入力を調整して、新しいマッピング下でキャラクタの制御を取り戻すことが必要なため、入力チャネルのマッピングが強制的に変更されうる。入力チャネルのゲームコマンドへの変換を変更するマッピング方式は、ゲームのプレイ中も変更を行うことができる。この変換は、ゲームの状態に応じて、または入力チャネルの１つ以上の構成要素の下で発行される変更コマンドに応じて、さまざまな方法で行われうる。ギアリングおよびマッピングは、入力チャネルの１つ以上の構成要素の構成および／または処理に影響するようにも構成することができる。
【０２５１】
更に、ジョイスティックコントローラ２１３０にスピーカ２１３６が取り付けられうる。プログラムコード２１０４が、マイクロフォンアレイ２１２２によって検出される音の位置を特定し、特徴付ける「音波レーダー」の実施形態では、スピーカ２１３６が音声信号を供給することができる。この音声信号は、マイクロフォンアレイ２１２２によって検出可能であり、ジョイスティックコントローラ２１３０の位置をトラッキングするためにプログラムコード２１０４によって使用されうる。スピーカ２１３６は、ジョイスティックコントローラ２１３０からプロセッサ２１０１への追加の「入力チャネル」を提供するためにも使用することができる。スピーカ２１３６からの音声信号は、位置をトラッキングするための音波レーダー用のビーコンを提供するために、定期的にパルス発信される。音声信号（パルスまたはそれ以外）は、可聴域でも、超音波でもよい。音波レーダーは、ジョイスティックコントローラ２１３０のユーザ操作をトラッキングし、このような操作のトラッキングには、ジョイスティックコントローラ２１３０の位置および向きに関する情報（例えば、ピッチ、ロールまたはヨー、角度）などが含まれうる。パルスは、当業者が適用することができるような適切な動作周期で起動されうる。パルスは、システムから介入されたる制御信号に基づいて始動されうる。装置２１００は、プロセッサ２１０１に結合された２つ以上のジョイスティックコントローラ２１３０の間での制御信号の発信を、複数のコントローラが確実にトラッキングできるように、（プログラムコード２１０４によって）調整しうる。
【０２５２】
例えば、本発明の実施形態は、並列処理システムに実装されうる。このような並列処理システムは、通常、別個のプロセッサを使用して、プログラムの一部分を並列で実行するように構成された２つ以上のプロセッサ要素を有する。例えば、図２７は、本発明の一実施形態によるセルプロセッサの一種２２００を示すが、これに限定されるものではない。セルプロセッサ２２００は、図２６のプロセッサ２１０１として使用することができる。図２７に示した例では、セルプロセッサ２２００は、メインメモリ２２０２、パワープロセッサ要素（ＰＰＥ）２２０４、および多くの相乗的プロセッサ要素（ＳＰＥ）２２０６を有する。図２７に示す例では、セルプロセッサ２２００は、１つのＰＰＥ２２０４と、８つのＳＰＥ２２０６を有する。このような構成において、ＳＰＥ２２０６のうちの７つは並列処理のために使用され、１つのプロセッサは、他の７つのプロセッサの１つが故障したときのバックアップとして予約されうる。別の実施形態では、セルプロセッサが、ＰＰＥの複数のグループ（ＰＰＥのグループ）と、ＳＰＥの複数のグループ（ＳＰＥのグループ）を有していてもよい。このような場合、ハードウェア資源が、グループ内のユニット間で共有されうる。しかし、ＳＰＥとＰＰＥは、ソフトウェアからみて、独立した要素でなければならない。このように、本発明の実施形態は、図２７に示す構成との使用に限定されない。
【０２５３】
メインメモリ２２０２は、通常、汎用の不揮発性の記憶装置のほかに、システム構成、データ転送同期、メモリーマップドＩ／ＯおよびＩ／Ｏサブシステムなどの機能に使用される特殊用途のハードウェアレジスタまたはアレイも有する。本発明の実施形態では、信号処理プログラム２２０３は、メインメモリ２２０２に置かれうる。信号処理プログラム２２０３は、上記の図７、８、１３、１６、１７、１８、１９、２５Ｂ、２５Ｄまたは２５Ｆに関して記載したように構成されても、これらの２つ以上の何らかの組み合わせで構成されてもよい。信号処理プログラム２２０３は、ＰＰＥで実行されうる。プログラム２２０３は、複数の信号処理タスクに分割され、これらは、ＳＰＥおよび／またはＰＰＥで実行することができる。
【０２５４】
例えば、ＰＰＥ２２０４は、関連するキャッシュＬ１およびＬ２を有する６４ビットＰｏｗｅｒＰＣプロセッサユニット（ＰＰＵ）であってもよい。ＰＰＥ２２０４は、汎用の処理ユニットであり、システム管理資源（例えば、メモリ保護テーブルなど）にアクセスすることができる。ハードウェア資源は、ＰＰＥによって参照される実アドレス空間に明示的にマップされうる。このため、ＰＰＥは、任意の適切な実効アドレス値を用いて、これらの資源のいずれをも直接アドレス指定を行うことができる。ＰＰＥ２２０４の主な機能は、セルプロセッサ２２００内のＳＰＥ２２０６のタスクの管理と割り当てである。
【０２５５】
図２７には１つのＰＰＥしか図示されていないが、セルブロードバンドエンジンアーキテクチャ（ＣＢＥＡ）などのセルプロセッサの一部の実装では、セルプロセッサ２２００が、ＰＰＥのグループに編成された複数のＰＰＥを有していてもよく、このグループは２つ以上存在しうる。これらのＰＰＥのグループは、メインメモリ２２０２へのアクセスを共有しうる。更に、セルプロセッサ２２００が、２つ以上のＳＰＥのグループを有していてもよい。ＳＰＥのグループも、メインメモリ２２０２へのアクセスを共有しうる。このような構成は、本発明の範囲に含まれる。
【０２５６】
各ＳＰＥ２２０６は、シナジスティックプロセッサユニット（Synergistic Processor Unit：ＳＰＵ）と自身のローカル記憶領域ＬＳを有する。ローカル記憶域ＬＳは、メモリ領域の、それぞれが特定のＳＰＵと関連付けられた１つ以上の別個の領域を有しうる。各ＳＰＵは、自身の関連するローカル記憶域ドメインにある命令（データロード操作とデータストア操作を含む）のみを実行するように構成されうる。このような構成では、ローカル記憶域ＬＳとシステム２２００の他の部分との間のデータ転送は、メモリフローコントローラ（ＭＦＣ）からダイレクトメモリアクセス（ＤＭＡ）コマンドを発行して、（個々のＳＰＥの）ローカル記憶域ドメインとの間でデータを転送することによって実行されうる。ＳＰＵは、演算ユニットとしては、システム管理機能を実行しないという点で、ＰＰＥ２２０４ほどは複雑でない。ＳＰＵは、一般に、単一命令複数データ（ＳＩＭＤ）機能を有し、通常は、その割当タスクを実行するために、データを処理して、任意の要求されたデータ転送を開始する（ＰＰＥによって設定されたアクセスプロパティに制約される）。ＳＰＵの目的は、高密度の演算ユニットを必要とし、与えられた命令セットを効率的に使用することができるアプリケーションを可能にすることにある。ＰＰＥ２２０４によって、システム内の多くの数のＳＰＥが管理されることにより、多様なアプリケーションにわたり、コスト効率の高い処理が可能となる。
【０２５７】
ＳＰＥ２２０６のそれぞれは、メモリ保護およびアクセス許可の情報を保持および処理することができる関連するＭＭＵを有する、専用のメモリフローコントローラ（ＭＦＣ）を有しうる。ＭＦＣは、セルプロセッサの主記憶域とＳＰＥのローカル記憶域間でのデータの転送、保護および同期のための主要な方法を提供している。ＭＦＣコマンドは、実行すべき転送を規定している。データを転送するためのコマンドは、時として、ＭＦＣダイレクトメモリアクセス（ＤＭＡ）コマンド（またはＭＦＣＤＭＡコマンド）と呼ばれる。
【０２５８】
各ＭＦＣは、同時に複数のＤＭＡ転送に対応することができ、複数のＭＦＣコマンドを保持および処理することができる。各ＭＦＣＤＭＡデータ転送コマンド要求には、ローカル記憶域アドレス（ＬＳＡ）と実効アドレス（ＥＡ）が含まれうる。ローカル記憶域アドレスは、その関連するＳＰＥのローカル記憶領域のみを直接アドレス指定しうる。実効アドレスは、より一般的な用途を有することができ、例えば、実アドレス空間にエイリアスされている場合には、全てのＳＰＥローカル記憶領域を含む主記憶装置を参照することができる。
【０２５９】
ＳＰＥ２２０６間、および／またはＳＰＥ２２０６とＰＰＥ２２０４間の通信を容易にするために、ＳＰＥ２２０６とＰＰＥ２２０４は、信号発生事象に結び付けられた信号通知レジスタを有しうる。ＰＰＥ２２０４とＳＰＥ２２０６は、ＰＰＥ２２０４がＳＰＥ２２０６にメッセージを伝達するルーターとして機能するスター型トポロジーに結合されていてもよい。別の実施形態では、ＳＰＥ２２０６とＰＰＥ２２０４のそれぞれが、メールボックスと呼ばれる一方向の信号通知レジスタを有していてもよい。メールボックスは、オペレーティングシステム（ＯＳ）の同期をホストするために、ＳＰＥ２２０６によって使用されうる。
【０２６０】
セルプロセッサ２２００は入出力（Ｉ／Ｏ）機能２２０８を有し、これを介して、セルプロセッサ２２００は、マイクロフォンアレイ２２１２および任意選択の画像キャプチャユニット２２１３などの周辺装置とインタフェースしうる。更に、要素相互接続バス２２１０は、上に挙げた各種の構成要素を接続しうる。ＳＰＥとＰＰＥのそれぞれは、バスインタフェースユニットＢＩＵを介してバス２２１０にアクセスしうる。また、セルプロセッサ２２００は、通常はプロセッサ内にある、バス２２１０とメインメモリ２２０２間のデータの流れを制御するメモリインタフェースコントローラ（ＭＩＣ）と、Ｉ／Ｏ２２０８とバス２２１０間のデータの流れを制御するバスインターフェースコントローラ（ＢＩＣ）の２つのコントローラを有しうる。ＭＩＣ、ＢＩＣ、ＢＩＵおよびバス２２１０に対する要件は、実装によって大きく変わりうるが、当業者であれば、その機能とそれを実装するための回路について熟知しているであろう。
【０２６１】
セルプロセッサ２２００は、内部割込みコントローラ（ＩＩＣ）も有しうる。ＩＩＣ構成要素は、ＰＰＥに提示される割り込みの優先度を管理している。ＩＩＣによって、セルプロセッサ２２００は、メインシステムの割込みコントローラを使用することなく、他の構成要素からの割り込みを処理できるようになる。ＩＩＣは、２次レベルのコントローラであると考えることができる。メインシステムの割込みコントローラは、セルプロセッサの外で発生した割込みを処理しうる。
【０２６２】
本発明の実施形態では、上記の微小な遅延などの特定の計算は、ＰＰＥ２２０４および／またはＳＰＥ２２０６の１つ以上を使用して、並列で実行されうる。微小な遅延計算のそれぞれは１つ以上の別個のタスクとして実行され、これらは、異なるＳＰＥ２２０６が利用可能になると、それが処理しうる。
【０２６３】
本発明の実施形態は、マイクロフォン間隔ｄが約０．５ｃｍ〜約２ｃｍであるアレイを特徴とする約２〜約８のマイクロフォンのアレイを利用しうる。マイクロフォンのダイナミックレンジは、約１２０Ｈｚ〜約１６ｋＨｚでありうる。前述のように、出力信号ｙ（ｔ）に微小な遅延を導入することで、離散的な整数の時間遅延を出力信号に適用することに限定されるデジタルプロセッサで可能なよりも、音源分離において極めて高い解像度が実現されることが理解されよう。本発明の実施形態が、このような短いマイクロフォン間隔と比較的低価格のマイクロフォンによって、高解像度を実現することができるのは、このような微小な時間遅延の導入のためである。本発明の実施形態は超音波の位置トラッキングにも適用することができ、その際、マイクロフォンアレイに超音波発生器を追加して、この発生器からの超音波パルスの反響の到達時間遅延を分析して、物体の位置をトラッキングする。
【０２６４】
本発明の方法および装置は、携帯電話機、個人情報端末、ビデオ／デジタルカメラなどの携帯式手持ち式のデバイスに利用されるのに十分小さいマイクロフォンアレイを使用しうる。本発明の特定の実施形態では、アレイのマイクロフォンの数を増やしても有利な効果がなく、場合によっては、マイクロフォンが少ないほうが、多い場合よりも良好に機能することがある。詳細には、４マイクロフォンアレイのほうが、８マイクロフォンアレイよりも良好に機能することが確認されている。
【０２６５】
ここに記載した方法および装置は、例えば、遠隔地の相手の背景音声とゲームのキャラクタを組み合わせることによって、オンラインゲームの機能を拡張するために使用されることができる。マイクロフォンを備えたゲームコンソールが、ローカルの背景音声を連続的に収集しうる。マイクロフォンアレイは、事前に定義された聴取ゾーンに基づいて、音声を選択的に収集しうる。例えば、マイクロフォンの焦点の±２０°の円錐または他の領域を定義することができる。この円錐の外のあらゆる音は、背景音声であるとみなされる。音声処理によって、前景のゲームプレーヤの声から、背景音を確実に除去することができる。背景音声に、今話しているゲームキャラクタの、事前に録音された音声が混合されうる。この新たに混合した音声信号が、リモートの相手（ネットワークを介した別のゲームプレーヤなど）に転送される。同様に、同じ方法が同様にリモート側にも適用されて、その結果、ローカルのプレーヤに対して、リモートの相手から背景音声が提示される。これにより、ゲームにおける現実的な体験を、実世界に比べて改善することができる。マイクロフォンアレイについて上記したように、背景音声を録音することによって、１つのマイクロフォンによるアレイの選択する聴取能力のほうが、むしろ理解しやすい。プレーヤの音声を背景音と区別するために、有音／無音検出（Voice Activity Detection：ＶＡＤ）を使用することができる。音声活動が検出されると、以前の無音信号が、背景を置換するために使用されうる。
【０２６６】
ユーザが「スイートスポット」にいない場合、多くのビデオ表示または音声の質が低下する。ユーザのいる場所が不明であるため、従来技術が採用していた手法は、スイートスポットを可能な限り広げることであった。これに対して、本発明の実施形態では、例えば、ビデオ画像または「音波レーダー」からユーザのいる位置がわかり、表示または音声のパラメータを調整して、スイートスポットを移動させることができる。例えば、デジタルカメラなどの画像キャプチャユニットによる頭部の検出およびトラッキングを使用して、ユーザの位置を決定することができる。表示の質を動的に改善するために、これに対応して、ＬＣＤの角度または他の電子的なパラメータが変更されうる。音声の場合、スイートスポットを調整するために、各チャネルの位相と振幅が調整されうる。本発明の実施形態は、ビデオカメラおよび／またはマイクロフォンアレイの入力によって、頭部またはユーザの位置のトラッキングを行うことができる。
【０２６７】
本発明の実施形態は、ここに記載したように、あるいは他のユーザ入力機構およびその他の機構と組み合わせて使用することができる。これらには、音の角方向またはボリュームをトラッキングまたは分析する機構および／または物体の位置を能動的または受動的にトラッキングする機構、機械的視覚を使用する機構、またはそれらの組み合わせがある。その際、トラッキングされる物体は、システムへのフィードバックを操作する補助的制御部またはボタンを有していてもよい。このようなフィードバックには、光源からの発光、音歪み手段、または他の適切な送信器および変調器のほか、同じエンコード状態の送信または変調、に影響しうる制御部、ボタン、圧力パッドなど、および／または装置（システムによってトラッキングされる装置を含む）との間でやり取りされるコマンドがあるが、これらに限定されない。これらの装置が、本発明の実施形態と関連して使用されるシステムの一部であるか、それとインタフェースするか、それに影響するかに影響しうる。
【０２６８】
上に記載した、本発明の特定の実施形態の説明は、例示および説明を目的として採り上げた。この実施形態は全てを網羅するものでも、本発明を開示したそのままの実施形態に制限することを意図するものではなく、当然、上記の教示を鑑みれば、多くの修正および変更が可能である。各種実施形態は、本発明の原理およびその実際的な用途を説明して、これにより、当業者が、本発明および実施形態を、特定の用途に合致するように様々に変更して、最もよく活用できるように、選んで記載した。本発明は、ほかの様々な用途に利用することができる。
【０２６９】
上記の実施形態を考慮に入れて、本発明が、コンピュータシステムに記憶されたデータを使用する、各種のコンピュータ実装操作を使用してもよい点を理解すべきである。これらの操作には、物理量の物理的な操作を必要とする操作が含まれる。この物理量は通常、記憶、転送、結合、比較などの操作が可能な電気信号または磁気信号の形を取るが、必ずしもこれらに限定されない。更に、実行される操作は、生成、特定、決定または比較などと呼ばれることが多い。
【０２７０】
上記した発明は、携帯式デバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電気製品、ミニコンピュータ、メインフレームコンピュータなど、他のコンピュータシステム構成によって実施されてもよい。また、本発明は、分散コンピューティング環境で実施されてもよく、このような環境では、通信ネットワークを介してリンクされる遠隔処理デバイスによってタスクが実行される。
【０２７１】
本発明は、また、計算機可読媒体上の計算機可読コードとして実施されてもよい。計算機可読媒体は、電磁搬送波（electromagnetic wave carrier）を含め、コンピュータシステムによって後から読取ることができるデータを記憶できるデータ記憶装置であれば、どのようなものに存在してもよい。計算機可読媒体の例には、ハードディスク、ネットワーク接続記憶装置（ＮＡＳ）、リードオンリーメモリ、ランダムアクセスメモリ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープおよび他の光学式データ記憶装置および非光学式データ記憶装置などがある。また、計算機可読媒体は、計算機可読コードが分散式に記憶されて、実行されるように、ネットワークに結合されたコンピュータシステムを介して分散されてもよい。
【０２７２】
上記に、本発明を明確に理解できるように多少詳細に記載したが、添付の特許請求の範囲内で変更例または変形例を実施できることは明らかである。ここに記載した任意の機能は、好適なものであってもなくても、好適なものであってもなくても、好適または好適ではない他の任意の機能と組み合わせることができる。したがって、本実施形態は例示的なものであり、制限するものではなく、本発明は本明細書に記載されている詳細な事項に限定されず、添付の特許請求の範囲およびその均等物の範囲内で変更されてもよい。
【図面の簡単な説明】
【０２７３】
【図１】本発明の一実施形態による、１人以上のユーザとの対話機能のためにビデオゲームプログラムを実行することができるゲーム環境を示す。
【図２】本発明の一実施形態による画像−音声キャプチャ装置の例の三次元図である。
【図３Ａ】本発明の一実施形態による、入力を受信するように設計された異なるマイクロフォンでの音経路の処理と、選択された音源を出力するための論理回路を示す図である。
【図３Ｂ】本発明の一実施形態による、入力を受信するように設計された異なるマイクロフォンでの音経路の処理と、選択された音源を出力するための論理回路を示す図である。
【図４】本発明の一実施形態による、入力音源を処理するために、画像−音声キャプチャ装置とインタフェースするコンピューティングシステムの例を示す図である。
【図５】本発明の一実施形態による、特定の音源の方向識別の精度を上げるために複数のマイクロフォンが使用される例を示す図である。
【図６】本発明の一実施形態による、異なる面にあるマイクロフォンを使用して、特定の空間体積において音が識別される例を示す図である。
【図７】本発明の一実施形態による、音源を識別して、焦点外の音源を除去する際に処理されうる例示的な方法操作を示す図である。
【図８】本発明の一実施形態による、音源を識別して、焦点外の音源を除去する際に処理されうる例示的な方法操作を示す図である。
【図９】視覚画像に基づいて音をキャプチャするか音声信号をキャプチャする、または音声信号の場所に基づいてその信号をキャプチャするために、聴取領域を調整する方法および装置が実装される環境を示す図である。
【図１０】視覚画像に基づいて音をキャプチャするか音声信号をキャプチャする、または音声信号の場所に基づいてその信号をキャプチャするために、聴取領域を調整する方法および装置が実装される一実施形態を示す簡略ブロック図である。
【図１１Ａ】本発明の一実施形態による聴取方向の決定を示すマイクロフォンアレイの模式図である。
【図１１Ｂ】本発明の実施形態と共に、反因果的フィルタリングを示すマイクロフォンアレイの模式図である。
【図１２Ａ】本発明の特定の実施形態による方法および装置を実装できるマイクロフォンアレイおよびフィルタ装置の模式図である。
【図１２Ｂ】本発明の特定の実施形態による方法および装置を実装することができる別のマイクロフォンアレイおよびフィルタ装置の模式図である。
【図１３】本発明の実施形態による、２つ以上のマイクロフォンのアレイからの信号の処理のためのフロー図である。
【図１４】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するシステムの簡略ブロック図である。
【図１５】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合する例示的なレコードを示す図である。
【図１６】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図１７】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図１８】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図１９】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図２０】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置の実施形態と整合する、視野に基づく聴取ゾーンのモニタを示す図である。
【図２１】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するいくつかの聴取ゾーンを示す図である。
【図２２】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合する音声検出に焦点を絞った図である。
【図２３Ａ】音声信号の位置に基づいてその信号をキャプチャする方法および装置が実装されるマイクロフォンアレイを示す模式図である。
【図２３Ｂ】音声信号の位置に基づいてその信号をキャプチャする方法および装置が実装されるマイクロフォンアレイを示す模式図である。
【図２３Ｃ】音声信号の位置に基づいてその信号をキャプチャする方法および装置が実装されるマイクロフォンアレイを示す模式図である。
【図２４】音声信号の位置に基づいてその信号をキャプチャする方法および装置の一実施形態と整合する音声検出に焦点を絞った図である。
【図２５Ａ】本発明の一実施形態によるマイクロフォンアレイの模式図である。
【図２５Ｂ】本発明の一実施形態による、対象音検出のための方法を示すフロー図である。
【図２５Ｃ】本発明の好ましい実施形態による、対象音検出を示す模式図である。
【図２５Ｄ】本発明の好ましい実施形態による、対象音検出のための方法を示すフロー図である。
【図２５Ｅ】本発明の一実施形態による、音源の位置特定および特徴付け装置の上面図である。
【図２５Ｆ】本発明の一実施形態による、音源の位置特定および特徴付けのための方法を示すフロー図である。
【図２５Ｇ】本発明の一実施形態による、カメラの視野内から対象の音を検出するための、カメラとマイクロフォンアレイを有する装置の上面模式図である。
【図２５Ｈ】図２５Ｅの装置の上正面図である。
【図２５Ｉ】本発明の別の実施形態によるオーディオビデオ装置の平面模式図である。
【図２５Ｊ】本発明の別の実施形態によるオーディオビデオ装置の平面模式図である。
【図２６】本発明の一実施形態に係る信号処理装置のブロック図である。
【図２７】本発明の一実施形態による信号処理システムのセルプロセッサの実装のブロック図である。

【特許請求の範囲】
【請求項１】
初期聴取ゾーンを検出するステップと、
マイクロフォンアレイによって、キャプチャされた音をキャプチャするステップと、
前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別するステップと、
前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成するステップと、
前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別するステップと、を有する方法。
【請求項２】
前記初期音を生成するために、前記キャプチャされた音の一部を破棄するステップを更に有する請求項１に記載の方法。
【請求項３】
前記キャプチャされた音は、前記初期聴取ゾーンの外からの音を含む請求項１に記載の方法。
【請求項４】
調整する前記ステップは、前記初期聴取ゾーンの領域を拡大するステップを更に有する請求項１に記載の方法。
【請求項５】
調整する前記ステップは、前記初期聴取ゾーンの領域を縮小するステップを更に有する請求項１に記載の方法。
【請求項６】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項１に記載の方法。
【請求項７】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項１に記載の方法。
【請求項８】
前記調整された音を送信するステップを更に有する請求項１に記載の方法。
【請求項９】
前記調整された音を記憶するステップを更に有する請求項１に記載の方法。
【請求項１０】
前記調整された音は、前記調整された聴取ゾーン内で発生した音を含み、前記調整された聴取ゾーンの外からの音が除外されている請求項１に記載の方法。
【請求項１１】
調整する前記ステップは、前記調整された聴取ゾーンの外で検出された音に基づいて前記初期聴取ゾーンを拡大するステップを更に有する請求項１に記載の方法。
【請求項１２】
前記調整された聴取ゾーンは、前記調整された聴取ゾーンの外で検出された前記音の位置を含む請求項１１に記載の方法。
【請求項１３】
前記初期聴取ゾーンを調整する前記ステップは、前記キャプチャされた音の位置および前記初期聴取ゾーンに基づく請求項１に記載の方法。
【請求項１４】
前記調整された聴取ゾーンは、前記キャプチャされた音の前記位置を含む請求項１３に記載の方法。
【請求項１５】
マイクロフォンアレイは１つを超えるマイクロフォンを有する請求項１に記載の方法。
【請求項１６】
マイクロフォンアレイによってカバーされる音場を検出するステップと、
それぞれが前記音場の一部を表している複数の聴取ゾーンを定義するステップと、
複数の聴取ゾーンから選択された聴取ゾーンを指定するステップと、
前記選択された聴取ゾーンをプロファイルに記憶するステップと、を有する方法。
【請求項１７】
前記複数の聴取ゾーンのそれぞれの領域はフィルタ係数の組によって表現される請求項１６に記載の方法。
【請求項１８】
前記複数の聴取ゾーンを表現している領域は、前記マイクロフォンアレイによってカバーされる音場を含む請求項１６に記載の方法。
【請求項１９】
音を求めてマイクロフォンアレイによってモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
前記聴取ゾーンからの音を記憶するように構成された記憶モジュールと、
前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発生する音を検出するように構成された音検出モジュールと、を有するシステム。
【請求項２０】
前記聴取ゾーンと関連するパラメータを記憶するように構成された領域プロファイルモジュールを更に有する請求項１９に記載のシステム。
【請求項２１】
前記パラメータは、前記聴取ゾーンによってカバーされる領域を示すフィルタ係数の組である請求項１９に記載のシステム。
【請求項２２】
初期聴取ゾーンを検出するステップと、
マイクロフォンアレイによって、キャプチャされた音をキャプチャするステップと、
前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別するステップと、
前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成するステップと、
前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別するステップと、を有する方法を実行する計算機実行可能命令を有する計算機可読媒体。
【請求項２３】
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
視覚装置の視野を検出するステップと、
前記視覚装置の前記視野を前記初期聴取ゾーンの前記初期領域と比較するステップと、
前記初期聴取ゾーンを調整して、前記視野と前記初期領域との比較に基づいて調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有する方法。
【請求項２４】
前記調整された領域から発せられる音をキャプチャするステップを更に有する請求項２３に記載の方法。
【請求項２５】
前記初期領域から発せられる音をキャプチャするステップを更に有する請求項２３に記載の方法。
【請求項２６】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域を拡大するステップを更に有する請求項２３に記載の方法。
【請求項２７】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域を縮小するステップを更に有する請求項２３に記載の方法。
【請求項２８】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域の位置を移動させるステップを更に有する請求項２３に記載の方法。
【請求項２９】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項２３に記載の方法。
【請求項３０】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項２３に記載の方法。
【請求項３１】
マイクロフォンアレイによって、前記調整された聴取ゾーンから調整された音をキャプチャするステップを更に有する請求項２３に記載の方法。
【請求項３２】
前記調整された音を送信するステップを更に有する請求項３１に記載の方法。
【請求項３３】
前記調整された音を記憶するステップを更に有する請求項３１に記載の方法。
【請求項３４】
マイクロフォンアレイは１つを超えるマイクロフォンを有する請求項３１に記載の方法。
【請求項３５】
前記視覚装置はスチルカメラである請求項２３に記載の方法。
【請求項３６】
前記視覚装置はスチルカメラである請求項２３に記載の方法。
【請求項３７】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項２３に記載の方法。
【請求項３８】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項２３に記載の方法。
【請求項３９】
視覚装置からの画像を検出するステップと、
前記画像と関連する領域から発せられた音を検出するように構成された聴取ゾーンを形成するステップと、
前記聴取ゾーンから発せられた音をキャプチャするステップと、
前記画像に基づいて前記聴取ゾーンを動的に調整するステップと、有する方法。
【請求項４０】
前記動的に調整する前記ステップは、前記聴取ゾーンを拡大するステップを更に有する請求項３９に記載の方法。
【請求項４１】
前記動的に調整する前記ステップは、前記聴取ゾーンを縮小するステップを更に有する請求項３９に記載の方法。
【請求項４２】
前記動的に調整する前記ステップは、前記聴取ゾーンを別の位置に移動させるステップを更に有する請求項３９に記載の方法。
【請求項４３】
前記画像は、ビデオのセグメントを形成する複数の画像のうちの１つである請求項３９に記載の方法。
【請求項４４】
音を求めてモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
視覚装置によってモニタされる視野を検出するように構成された視野検出モジュールと、
前記視野に基づいて前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発せられた音を検出するように構成された音検出モジュールと、を有するシステム。
【請求項４５】
前記聴取ゾーンと関連する領域は、フィルタ係数の組によって記述される請求項４４に記載のシステム。
【請求項４６】
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
前記初期聴取ゾーン内で初期音を検出するステップと、
前記初期聴取ゾーンを調整して、調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有し、前記初期音は前記調整された聴取ゾーン内から発せられる方法。
【請求項４７】
前記調整された領域から発せられる音をキャプチャするステップを更に有する請求項４６に記載の方法。
【請求項４８】
前記初期領域から発せられる音をキャプチャするステップを更に有する請求項４６に記載の方法。
【請求項４９】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域を狭めるステップを更に有する請求項４６に記載の方法。
【請求項５０】
前記初期音の初期騒音レベルを検出するステップを更に有する請求項４６に記載の方法。
【請求項５１】
前記初期騒音レベルをしきい値レベルと比較するステップを更に有する請求項５０に記載の方法。
【請求項５２】
前記しきい値レベルは、背景音の検出を低減させるように予め決定されている請求項５１に記載の方法。
【請求項５３】
前記初期聴取ゾーンを調整する前記ステップは、前記初期の騒音レベルが前記しきい値レベルを上回ると行われる請求項５１に記載の方法。
【請求項５４】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項４６に記載の方法。
【請求項５５】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項４６に記載の方法。
【請求項５６】
マイクロフォンアレイによって、前記調整された聴取ゾーンから調整された音をキャプチャするステップを更に有する請求項４６に記載の方法。
【請求項５７】
前記調整された音を送信するステップを更に有する請求項５６に記載の方法。
【請求項５８】
前記調整された音を記憶するステップを更に有する請求項５６に記載の方法。
【請求項５９】
マイクロフォンアレイは１つを超えるマイクロフォンを有する請求項５６に記載の方法。
【請求項６０】
前記調整された音の調整された騒音レベルを検出するステップを更に有する請求項５６に記載の方法。
【請求項６１】
前記調整された騒音レベルをしきい値レベルと比較するステップを更に有する請求項６０に記載の方法。
【請求項６２】
前記しきい値レベルが前記調整された音レベルを上回る時に、前記調整された聴取ゾーンを前記初期聴取ゾーンに戻すステップを更に有する請求項６１に記載の方法。
【請求項６３】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項４６に記載の方法。
【請求項６４】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項４６に記載の方法。
【請求項６５】
音を求めてモニタすべき初期聴取ゾーンを検出するように構成された領域検出モジュールと、
前記初期聴取ゾーンから発せられた音を検出し、前記音の位置を検出するように構成された音検出モジュールと、
前記音の前記位置に基づいて前記初期聴取ゾーンを調整し、前記音の前記位置を含む調整された聴取ゾーンを形成するように構成された領域調整モジュールと、を有するシステム。
【請求項６６】
前記調整された聴取ゾーンは、フィルタ係数の組によって記述される請求項６５に記載のシステム。
【請求項６７】
前記音検出モジュールは、前記初期聴取ゾーンから発せられた前記音の音レベルを検出するように構成されている請求項６５に記載のシステム。
【請求項６８】
前記領域調整モジュールは、前記音レベルがしきい値レベルを上回っていることに基づいて前記初期聴取ゾーンを調整するように構成されている請求項６７に記載のシステム。
【請求項６９】
前記音検出モジュールに結合されたマイクロフォンまたはマイクロフォンアレイを更に有する請求項６５に記載のシステム。
【請求項７０】
前記マイクロフォンアレイは、一次元のアレイに配置された２つ以上のマイクロフォンを有する請求項６９に記載のシステム。
【請求項７１】
前記マイクロフォンアレイは、二次元のアレイに配置された３つ以上のマイクロフォンを有する請求項６９に記載のシステム。
【請求項７２】
前記マイクロフォンアレイは、三次元のアレイに配置された４つ以上のマイクロフォンを有する請求項６９に記載のシステム。
【請求項７３】
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
前記初期聴取ゾーン内で初期音を検出するステップと、
前記初期聴取ゾーンを調整して、調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有し、前記初期音は前記調整された聴取ゾーン内から発せられる方法を実行する計算機実行可能命令を有する計算機可読媒体。
【請求項７４】
２つ以上のマイクロフォンＭ_０，…，Ｍ_Ｍを有するマイクロフォンアレイを使用する標的音検出のための方法であって、各マイクロフォンは、複数のフィルタと結合されており、前記フィルタは前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成されている方法であって、前記方法は、
１つ以上の対応する事前較正された聴取ゾーンを決定するために、前記複数のフィルタに対して、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出して、前記所定の聴取セクタの外で発生する音をフィルタ除去するように選択されたフィルタパラメータの１つ以上の組を事前較正するステップと、
特定の事前較正された聴取ゾーンに対応するフィルタ係数の組を前記複数のフィルタに適用することによって、実行時に、前記特定の事前較正された聴取ゾーンを選択するステップと、を有し、これにより、前記マイクロフォンアレイが、前記特定の聴取ゾーン内で発生した音を検出して、前記特定の聴取ゾーンの外で発生する音をフィルタ除去することができる方法。
【請求項７５】
前記フィルタパラメータの複数の組を事前較正する前記ステップは、有限インパルス応答（ＦＩＲ）フィルタ係数の組を決定するためにブラインド音源分離を使用するステップを有する請求項７４に記載の方法。
【請求項７６】
前記１つ以上の聴取ゾーンは、画像キャプチャユニットの視野に対応する聴取ゾーンを含み、これにより、前記マイクロフォンアレイが、前記画像キャプチャユニットの前記視野内で発生した音を検出して、前記画像キャプチャユニットの前記視野の外で発生する音をフィルタすることができる請求項７４に記載の方法。
【請求項７７】
前記１つ以上の聴取ゾーンは複数の異なる聴取ゾーンを含む請求項７４に記載の方法。
【請求項７８】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、１つ以上のゾーンについて前記入力信号の減衰の値を決定するステップと、前記減衰が最適値に最も近いセクタを選択するステップと、を有する請求項７７に記載の方法。
【請求項７９】
前記複数の事前較正された聴取ゾーンは約１８のセクタを含み、各セクタは約２０°の角度幅を有し、これにより、前記複数の事前較正されたセクタは、前記マイクロフォンアレイを取り囲む約３６０°をなす請求項７７に記載の方法。
【請求項８０】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、音源を含む事前較正された聴取ゾーンを選択するステップを有する請求項７４に記載の方法。
【請求項８１】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、複数の聴取ゾーンの初期ゾーンを選択するステップと、
音源が前記初期ゾーン内に存在するか、前記初期セクタの特定の側に存在するかを決定するステップと、
前記音源が前記初期ゾーンに存在しない場合に、前記初期ゾーンの前記特定の側にある異なる聴取ゾーンを選択するステップと、を有し、前記異なる聴取ゾーンは、前記入力信号の減衰が最適値に最も近いという特徴を有する請求項７４に記載の方法。
【請求項８２】
音源が前記初期ゾーン内に存在するか、前記初期ゾーンの特定の側に存在するかを決定する前記ステップは、前記入力信号および前記出力信号から、前記入力信号の減衰を計算するステップと、前記減衰を最適値と比較するステップと、を有する請求項８１に記載の方法。
【請求項８３】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、所定の聴取ゾーンについて、力信号の減衰がしきい値を下回るかどうかを決定するステップを有する請求項７４に記載の方法。
【請求項８４】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、音源を含む事前較正された聴取セクタを選択するステップを有し、前記方法は、画像キャプチャユニットを、前記音源を含む前記事前較正された聴取ゾーンの方に機械的に向けるステップを更に有する請求項７４に記載の方法。
【請求項８５】
前記１つ以上の事前較正された聴取ゾーンは、複数の異なる事前較正された聴取ゾーンを含み、前記方法は、
前記マイクロフォンアレイによって音を検出するステップと、
前記音の発生源を含む特定の事前較正された聴取ゾーンを識別するステップと、
前記音または前記音の前記発生源を特徴付けるステップと、
前記音の特徴付けに応じて、前記音を強調またはフィルタ除去するステップと、を有する請求項７４に記載の方法。
【請求項８６】
前記音の特徴付けに応じて、前記音を強調またはフィルタ除去する前記ステップは、前記音または前記発生源が背景ノイズに関連する場合に、前記音をフィルタ除去するステップを有する請求項８５に記載の方法。
【請求項８７】
前記音または前記音の前記発生源を特徴付ける前記ステップは、
前記音に対する周波数分布を決定するステップと、
既知の音または音の発生源に対する１つ以上の音響モデルに対して、前記周波数分布を比較するステップと、を有する請求項８５に記載の方法。
【請求項８８】
前記音または前記音の前記発生源を特徴付けるステップは、前記音または前記音の前記発生源が１つ以上の所定の特徴を有するかどうかを決定するために前記音を分析するステップを有する請求項８５に記載の方法。
【請求項８９】
前記音が１つ以上の所定の特徴を有すると決定された場合に、電子装置の少なくとも１つの要素を制御することを目的として、少なくとも１つの制御信号を生成するステップを更に有する請求項８８に記載の方法。
【請求項９０】
前記電子装置はビデオゲームコントローラであり、前記制御信号は、前記ビデオゲームコントローラに対して、前記音の発生源からの音に応じてゲームコマンドを実行させる請求項８９に記載の方法。
【請求項９１】
前記音の特徴付けに応じて、前記音を強調またはフィルタ除去する前記ステップは、
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して拡大するステップと、
前記音声信号のサンプリングレートを下げるステップと、
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用するステップと、
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整するステップと、を有する請求項７４に記載の方法。
【請求項９２】
前記電子装置は乳児モニタである請求項７４に記載の方法。
【請求項９３】
前記電子装置はジョイスティックコントローラを有するビデオゲームユニットであり、前記方法は、
前記音または前記音の発生源が１つ以上の所定の特徴を有すると決定された場合に、前記ビデオゲームユニットの少なくとも１つの要素を制御することを目的として、少なくとも１つの制御信号を生成するステップと、
前記ジョイスティックコントローラにより１つ以上の追加の制御信号を生成するステップと、を更に有する請求項７４に記載の方法。
【請求項９４】
前記ジョイスティックコントローラにより１つ以上の追加の制御信号を生成する前記ステップは、前記ジョイスティックコントローラにある１つ以上の光源により光信号を生成するステップと、画像キャプチャユニットにより前記光信号を受信するステップと、を有する請求項９３に記載の方法。
【請求項９５】
光信号を受信する前記ステップは、１つ以上の光源を含む１つ以上の画像をキャプチャするステップと、前記ジョイスティックコントローラの位置または向きを決定するか、前記ジョイスティックコントローラからのテレメトリ信号を復号化するか、この両方を行うために前記１つ以上の画像を分析するステップと、を有する請求項９４に記載の方法。
【請求項９６】
前記ジョイスティックコントローラにより１つ以上の追加の制御信号を生成する前記ステップは、前記ジョイスティックコントローラにある慣性センサにより位置および／または向きの信号を生成するステップを有する請求項９３に記載の方法。
【請求項９７】
前記位置および／または向きの信号から決定された位置および／または向きのドリフトを補償するステップを更に有する請求項９６に記載の方法。
【請求項９８】
ドリフトを補償する前記ステップは、初期位置の値を、前記位置および／または向きの信号から決定された計算された現在の位置の値に設定するステップを有する請求項９７に記載の方法。
【請求項９９】
ドリフトを補償する前記ステップは、画像キャプチャユニットにより、前記ジョイスティックコントローラの画像をキャプチャするステップと、前記ジョイスティックコントローラの位置を決定するために前記画像を分析するステップと、前記ジョイスティックコントローラの前記位置の現在値を、前記画像の分析から決定された前記ジョイスティックコントローラの前記位置に設定するステップと、を有する請求項９７に記載の方法。
【請求項１００】
前記慣性センサからの信号内の偽のデータを補償するステップを更に有する請求項９７に記載の方法。
【請求項１０１】
対象音検出装置であって、
２つ以上のマイクロフォンＭ_０，…，Ｍ_Ｍを有するマイクロフォンアレイと、
各マイクロフォンに結合されており、前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成された複数のフィルタと、
前記マイクロフォンアレイおよび前記複数のフィルタに結合されたプロセッサと、
前記プロセッサに結合されたメモリと、
１つ以上の事前較正された聴取ゾーンに対応して、前記メモリ内に実装されたフィルタパラメータの１つ以上の組と、を有し、フィルタパラメータの各組は、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出するように選択されており、前記所定の聴取ゾーンの外で発生する音をフィルタ除去し、
前記メモリは、プロセッサ実行可能命令の組を格納しており、前記命令は実行されると、前記装置に対して実行時に特定の事前較正された聴取ゾーンを選択させ、その際、前記特定の事前較正された聴取ゾーンに対応するフィルタパラメータの組が前記複数のフィルタに適用され、
これにより、前記装置は、前記特定の事前較正された聴取ゾーン内で発生した音を検出して、前記特定の事前較正された聴取ゾーンの外で発生する音をフィルタ除去できるようになる装置。
【請求項１０２】
前記１つ以上の事前較正された聴取ゾーンは、複数の異なる事前較正された聴取ゾーンを含む請求項１０１に記載の装置。
【請求項１０３】
前記複数の事前較正された聴取ゾーンは約１８のセクタを含み、各セクタは約２０°の角度幅を有し、これにより、前記複数の事前較正されたセクタは、前記マイクロフォンアレイを取り囲む約３６０°をなす請求項１０１に記載の装置。
【請求項１０４】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、音の発生源を含む事前較正された聴取ゾーンを選択させる１つ以上の命令を有する請求項１０１に記載の装置。
【請求項１０５】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、音源が前記初期聴取ゾーン内に存在するか、前記初期聴取ゾーンの特定の側に存在するかを決定させ、前記音源が前記聴取初期ゾーンに存在しない場合に、前記初期聴取ゾーンの前記特定の側にある異なる聴取ゾーンを選択させる１つ以上の命令を有し、前記異なる聴取ゾーンは、前記入力信号の減衰が最適値に最も近いという特徴を有する請求項１０１に記載の装置。
【請求項１０６】
実行されると、前記装置に対して、音源が前記初期聴取ゾーン内に存在するか、前記初期聴取ゾーンの特定の側に存在するかを決定させる前記１つ以上の命令は、実行されると、前記入力信号および前記出力信号から、前記入力信号の減衰を計算させ、前記減衰を最適値と比較させる１つ以上の命令を有する請求項１０５に記載の装置。
【請求項１０７】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、１つ以上のセクタについて前記入力信号の減衰の値を決定させ、前記減衰が最適値に最も近い聴取ゾーンを選択させる１つ以上の命令を有する請求項１０１に記載の装置。
【請求項１０８】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、所定の聴取ゾーンについて、入力信号の減衰がしきい値を下回っているかどうかを決定させる１つ以上の命令を有する請求項１０１に記載の装置。
【請求項１０９】
前記プロセッサに結合された画像キャプチャユニットを更に有し、前記１つ以上の聴取セクタは、前記画像キャプチャユニットの視野に対応する聴取ゾーンを有する請求項１０１に記載の装置。
【請求項１１０】
前記プロセッサに結合された画像キャプチャユニットと、前記プロセッサに結合された１つ以上のポインティングアクチュエータと、を更に有し、前記ポインティングアクチュエータは、前記プロセッサによって生成された信号に応えて、前記画像キャプチャユニットを視覚方向に向けるように適合されており、前記メモリは、実行されると、前記アクチュエータに対して、前記画像キャプチャユニットを前記特定の事前較正された聴取ゾーンの方向に向けさせるプロセッサ実行可能命令の組を格納している請求項１０１に記載の装置。
【請求項１１１】
前記１つ以上の事前較正された聴取ゾーンは、複数の異なる聴取ゾーンを含み、前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、
前記マイクロフォンアレイによって音を検出させ、
前記音の発生源を含む特定の事前較正された聴取ゾーンを識別させ、
前記音または前記音の前記発生源を特徴付けさせ、
前記音の特徴付けに応じて、前記音を強調またはフィルタさせる１つ以上の命令を有する請求項１０１に記載の装置。
【請求項１１２】
前記命令の組は、実行されると、前記装置に対して、前記音または前記発生源が関連する背景ノイズである場合に、前記音をフィルタ除去させる１つ以上の命令を有する請求項１１１に記載の装置。
【請求項１１３】
前記装置に対して、前記音または前記音の前記発生源を特徴付けさせる前記命令は、実行されると、前記装置に対して、
前記音に対する周波数分布を決定させ、
既知の音または音の発生源に対する１つ以上の音響モデルに対して、前記周波数分布を比較させる命令を有する請求項１１１に記載の装置。
【請求項１１４】
前記１つ以上の音響モデルは前記メモリに記憶されている請求項１１３に記載の装置。
【請求項１１５】
前記装置に対して、前記音または前記音の前記発生源を特徴付けさせる前記命令は、実行されると、前記装置に対して、前記音が１つ以上の所定の特徴を有するかどうかを決定するために前記音を分析させる命令を有する請求項１１１に記載の装置。
【請求項１１６】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、前記音が１つ以上の所定の特徴を有すると決定された場合に、電子装置の少なくとも１つの要素を制御することを目的として、少なくとも１つの制御信号を生成させる１つ以上の命令を更に有する請求項１１５に記載の装置。
【請求項１１７】
前記装置はビデオゲームコントローラであり、前記制御信号は、前記ビデオゲームコントローラに対して、前記音の発生源からの音に応じてゲームコマンドを実行させる請求項１１６に記載の装置。
【請求項１１８】
前記装置は乳児モニタである請求項１０１に記載の装置。
【請求項１１９】
前記プロセッサに結合されたジョイスティックコントローラを更に有する請求項１０１に記載の装置。
【請求項１２０】
前記ジョイスティックコントローラは、前記プロセッサと結合された慣性センサを有する請求項１１９に記載の装置。
【請求項１２１】
前記慣性センサは加速時計またはジャイロスコープを有する請求項１２０に記載の装置。
【請求項１２２】
前記プロセッサ実行可能命令は、実行されると、前記慣性センサからの位置および／または向きの信号から決定された位置および／または向きのドリフトを補償させる１つ以上の命令を有する請求項１２０に記載の装置。
【請求項１２３】
移動を補償することは、初期位置の値を、前記位置および／または向きの信号から決定された計算された現在の位置の値に設定することを有する請求項１２２に記載の装置。
【請求項１２４】
移動を補償することは、画像キャプチャユニットにより、前記ジョイスティックコントローラの画像をキャプチャすることと、前記ジョイスティックコントローラの位置を決定するために前記画像を分析することと、前記ジョイスティックコントローラの前記位置の現在値を、前記画像の分析から決定された前記ジョイスティックコントローラの前記位置に設定することと、を有する請求項１２２に記載の装置。
【請求項１２５】
前記ジョイスティックコントローラは１つ以上の光源を有し、前記装置は画像キャプチャユニットを更に有し、前記プロセッサ実行可能命令は、実行されると、前記画像キャプチャユニットに対して、画像キャプチャ装置の前の視野をモニタさせ、前記視野内で前記光源を識別させ、前記光源から発せられる光の変化を検出させ、前記変化の検出に応えて、前記プロセッサへの入力コマンドを発生させる１つ以上の命令を有する請求項１１９に記載の装置。
【請求項１２６】
前記ジョイスティックコントローラは１つ以上の光源を有し、前記装置は画像キャプチャユニットを更に有し、前記プロセッサ実行可能命令は、実行されると、前記画像キャプチャユニットに対して、前記光源から発せられる光の変化を検出させ、前記ジョイスティックコントローラの位置または向きを決定するか、前記ジョイスティックコントローラからのテレメトリ信号を復号化するか、この両方を行うために前記１つ以上の画像を分析させる１つ以上の命令を有する請求項１１９に記載の装置。
【請求項１２７】
前記光源は、線形のアレイに構成された２つ以上の光源を有する請求項１２６に記載の装置。
【請求項１２８】
前記光源は、線形のアレイに構成された２つ以上の光源を有する請求項１２６に記載の装置。
【請求項１２９】
前記光源は、前記画像キャプチャユニットが前記光源を見やすいように、前記ジョイスティックコントローラの２つ以上の異なる側に配置されている請求項１２６に記載の装置。
【請求項１３０】
前記ジョイスティックコントローラに取り付けられた慣性センサを更に有し、前記慣性センサからの信号、および前記１つ以上の光源をトラッキングすることにより前記画像キャプチャユニットから生成された信号が、ゲームシステムへの入力として使用される請求項１２６に記載の装置。
【請求項１３１】
前記ジョイスティックコントローラに取り付けられた慣性センサを更に有し、前記慣性センサからの信号は、トラッキング情報入力の一部となり、前記１つ以上の光源をトラッキングすることにより前記画像キャプチャユニットから生成された信号は、前記トラッキング情報入力の別の部分となる請求項１２６に記載の装置。
【請求項１３２】
前記プロセッサ実行可能命令は、実行されると、前記慣性センサからの信号内の偽のデータを補償させる１つ以上の命令を有する請求項１２０に記載の装置。
【請求項１３３】
２つ以上のマイクロフォンＭ_０，…，Ｍ_Ｍを有するマイクロフォンアレイを使用する標的音検出のための方法であって、各マイクロフォンは、複数のフィルタと結合されており、前記フィルタは前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成されている方法を実行する計算機実行可能命令が実装されている計算機可読媒体であって、前記方法は、
１つ以上の対応する事前較正された聴取ゾーンを決定するために、前記複数のフィルタに対して、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出して、前記所定の聴取セクタの外で発生する音をフィルタ除去するように選択されたフィルタパラメータの１つ以上の組を事前較正するステップと、
特定の事前較正された聴取ゾーンに対応するフィルタ係数の組を前記複数のフィルタに適用することによって、実行時に、前記特定の事前較正された聴取ゾーンを選択するステップと、を有し、これにより、前記マイクロフォンアレイが、前記特定の聴取ゾーン内で発生した音を検出して、前記特定の聴取ゾーンの外で発生する音をフィルタ除去することができる計算機可読媒体。
【請求項１３４】
コンピュータプログラムとの対話機能中に音をキャプチャする装置であって、
音声キャプチャユニットを有し、前記音声キャプチャユニットは、１つ以上の音源を識別するように構成されており、前記音声キャプチャユニットは、聴取ゾーンを決定するために分析されうるデータを生成し、前記聴取ゾーンにおいて音が処理されて、前記焦点ゾーンの外の音がほぼ除去され、前記焦点ゾーンについてキャプチャされ、処理された音が、前記コンピュータプログラムとの対話機能に使用される装置。
【請求項１３５】
前記音声キャプチャユニットはマイクロフォンのアレイを有し、前記マイクロフォンのアレイは、前記１つ以上の音源からの音を受け取るように構成されており、前記１つ以上の音源の前記音は、前記マイクロフォンのそれぞれへの音経路を定義している請求項１３４に記載の装置。
【請求項１３６】
前記音経路は、画像および音をキャプチャするために、前記装置に対する前記１つ以上の音源のそれぞれの方向の計算を可能にする特定の遅延を含む請求項１３５に記載の装置。
【請求項１３７】
前記アレイ内のマイクロフォン同士の間隔は、約０．５ｃｍ〜約２ｃｍである請求項１３５に記載の装置。
【請求項１３８】
音を求めてマイクロフォンアレイによってモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
前記聴取ゾーンからの音を記憶するように構成された記憶モジュールと、
前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発生する音を検出するように構成された音検出モジュールと、を更に有する請求項１３４に記載の装置。
【請求項１３９】
音を求めてモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
視覚装置によってモニタされる視野を検出するように構成された視野検出モジュールと、
前記視野に基づいて前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発せられた音を検出するように構成された音検出モジュールと、を更に有する請求項１３４に記載の装置。
【請求項１４０】
音を求めてモニタすべき初期聴取ゾーンを検出するように構成された領域検出モジュールと、
前記初期聴取ゾーンから発せられた音を検出し、前記音の位置を検出するように構成された音検出モジュールと、
前記音の前記位置に基づいて前記初期聴取ゾーンを調整し、前記音の前記位置を含む調整された聴取ゾーンを形成するように構成された領域調整モジュールと、を更に有する請求項１３４に記載の装置。
【請求項１４１】
前記音声キャプチャユニットは、２つ以上のマイクロフォンを有するマイクロフォンアレイと、
各マイクロフォンに結合されており、前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成された複数のフィルタと、を有する請求項１３４に記載の装置。
【請求項１４２】
前記マイクロフォンアレイおよび前記複数のフィルタに結合されたプロセッサと、
前記プロセッサに結合されたメモリと、
１つ以上の事前較正された聴取ゾーンに対応して、前記メモリ内に実装されたフィルタパラメータの１つ以上の組と、を更に有し、フィルタパラメータの各組は、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出するように選択されており、前記所定の聴取ゾーンの外で発生する音をフィルタ除去し、
前記メモリは、プロセッサ実行可能命令の組を格納しており、前記命令は実行されると、前記装置に対して実行時に特定の事前較正された聴取ゾーンを選択させ、その際、前記特定の事前較正された聴取ゾーンに対応するフィルタパラメータの組が前記複数のフィルタに適用され、
これにより、前記装置は、前記特定の事前較正された聴取ゾーン内で発生した音を検出して、前記特定の事前較正された聴取ゾーンの外で発生する音をフィルタ除去できるようになる請求項１４１に記載の装置。
【請求項１４３】
前記コンピュータプログラムはゲームプログラムである請求項１３４に記載の装置。
【請求項１４４】
コンピュータプログラムとの対話機能中の選択的な音源聴取のための方法であって、
２つ以上の音源キャプチャマイクロフォンにおいて１つ以上の音源からの入力を受信するステップと、
前記１つ以上の音源のそれぞれの前記受信された入力について方向を識別するステップと、
聴取ゾーンの識別された方向にない音源をフィルタ除去するステップと、を有し、前記聴取ゾーンは前記コンピュータプログラムとの前記対話機能のために前記音源を提供している方法。
【請求項１４５】
方向を識別して、音源をフィルタ除去する前記ステップは、
初期聴取ゾーンを検出するステップと、
マイクロフォンアレイによって、キャプチャされた音をキャプチャするステップと、
前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別するステップと、
前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成するステップと、
前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別するステップと、を有する請求項１４４に記載の方法。
【請求項１４６】
前記２つ以上のマイクロフォンによって受信された前記入力が１つ以上の所定の特徴を有するかどうかを決定するために、前記入力を分析するステップを更に有する請求項１４４に記載の方法。
【請求項１４７】
前記音が１つ以上の所定の特徴を有すると決定された場合に、前記コンピュータプログラムの少なくとも１つの要素を制御するように構成された少なくとも１つの制御信号を生成するステップを更に有する請求項１４６に記載の方法。
【請求項１４８】
方向を識別して、音源をフィルタ除去する前記ステップは、
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
視覚装置の視野を検出するステップと、
前記視覚装置の前記視野を前記初期聴取ゾーンの前記初期領域と比較するステップと、
前記初期聴取ゾーンを調整して、前記視野と前記初期領域との比較に基づいて調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有する請求項１４４に記載の方法。
【請求項１４９】
方向を識別して、音源をフィルタ除去する前記ステップは、
視覚装置からの画像を検出するステップと、
前記画像と関連する領域から発せられた音を検出するように構成された聴取ゾーンを形成するステップと、
前記聴取ゾーンから発せられた音をキャプチャするステップと、
前記画像に基づいて前記聴取ゾーンを動的に調整するステップと、を有する請求項１４４に記載の方法。
【請求項１５０】
前記聴取ゾーンは、フィルタ係数の組によって表現される請求項１４４に記載の方法。
【請求項１５１】
前記フィルタ係数の組は事前較正された聴取ゾーンに対応している請求項１５０に記載の方法。
【請求項１５２】
ジョイスティックコントローラを有するビデオゲームユニットにおいて動作を制御するための方法であって、
前記ジョイスティックコントローラにより慣性信号および／または光信号を生成するステップと、
前記慣性信号および／または光信号を使用して前記ジョイスティックコントローラの位置および／または向きをトラッキングするステップと、を有する方法。
【請求項１５３】
前記慣性信号および／または光信号を生成する前記ステップは、前記ジョイスティックコントローラに取り付けられた加速度計またはジャイロスコープにより慣性信号を生成するステップを有する請求項１５２に記載の方法。
【請求項１５４】
前記慣性信号および／または光信号を生成する前記ステップは、前記ジョイスティックコントローラに取り付けられた１つ以上の光源により光信号を生成するステップを有する請求項１５２に記載の方法。
【請求項１５５】
前記ジョイスティックコントローラの位置および／または向きをトラッキングする前記ステップは、前記光信号を含む１つ以上の画像をキャプチャするステップと、前記１つ以上の画像から前記光源の移動をトラッキングするステップと、を有する請求項１５４に記載の方法。
【請求項１５６】
前記慣性信号および／または光信号を生成する前記ステップは、前記ジョイスティックコントローラに取り付けられた加速度計またはジャイロスコープにより慣性信号を生成するステップと、前記ジョイスティックコントローラに取り付けられた１つ以上の光源により光信号を生成するステップと、を有する請求項１５２に記載の方法。
【請求項１５７】
前記慣性信号と前記光信号の両方が前記ゲームユニットへの入力として使用される請求項１５６に記載の方法。
【請求項１５８】
前記慣性信号は、前記ゲームユニットへのトラッキング情報入力の一部となり、前記光信号は前記トラッキング情報入力の別の部分となる請求項１５７に記載の方法。
【請求項１５９】
前記慣性信号内の偽のデータを補償するステップを更に有する請求項１５２に記載の方法。
【請求項１６０】
前記光信号からテレメトリ信号を符号化し、前記光信号から前記テレメトリ信号を復号化して、前記復号化されたテレメトリ信号に応じてゲームコマンドを実行するステップを更に有する請求項１５２に記載の方法。
【請求項１６１】
ビデオゲームにおける動作を制御するための装置であって、
プロセッサと、
前記プロセッサに結合されたメモリと、
前記プロセッサに結合され、慣性センサおよび光源を有するジョイスティックコントローラと、
前記メモリに記憶された１つ以上のプロセッサ実行可能命令と、を有し、前記命令は、前記プロセッサによって実行されると、前記装置に対して、前記慣性センサからの慣性信号および／または前記光源からの光信号を使用して前記ジョイスティックコントローラの位置および／または向きをトラッキングさせる装置。
【請求項１６２】
前記慣性センサは、前記ジョイスティックコントローラに取り付けられた加速度計またはジャイロスコープである請求項６５に記載の装置。
【請求項１６３】
前記光源は、前記ジョイスティックコントローラに取り付けられた１つ以上の発光ダイオードを有する請求項６５に記載の装置。
【請求項１６４】
前記プロセッサに結合された画像キャプチャユニットを更に有し、前記１つ以上のプロセッサ実行可能命令は、実行されると、前記画像キャプチャユニットに対し、前記光信号を含む１つ以上の画像をキャプチャさせる１つ以上の命令と、実行されると、前記１つ以上の画像からの前記光源の移動をトラッキングさせる１つ以上の命令を有する請求項６７に記載の装置。
【請求項１６５】
前記慣性センサは、前記ジョイスティックコントローラに取り付けられた加速度計であり、光源は、前記ジョイスティックコントローラに取り付けられた１つ以上の発光ダイオードを有する請求項６５に記載の装置。
【請求項１６６】
前記加速度計からの慣性信号と前記発光ダイオードからの光信号の両方が、前記ビデオゲームユニットへの入力として使用される請求項６９に記載の装置。
【請求項１６７】
前記慣性信号は、前記ゲームユニットへのトラッキング情報入力の一部となり、前記光信号は前記トラッキング情報入力の別の部分となる請求項７０に記載の装置。
【請求項１６８】
前記１つ以上のプロセッサ実行可能命令は、実行されると、前記慣性信号内の偽のデータを補償させる１つ以上の命令を有する請求項７１に記載の装置。
【請求項１６９】
ジョイスティックコントローラを有するビデオゲームユニットにおいて動作を制御するための方法であって、
前記ジョイスティックコントローラに取り付けられた光源のアレイにより１つ以上の光信号を生成するステップと、
前記ジョイスティックコントローラの位置および／または向きをトラッキングするステップと、
前記１つ以上の光信号に１つ以上のテレメトリ信号を符号化するステップと、
前記ジョイスティックコントローラの前記位置および／または向きに応えて、および／または前記１つ以上の光信号に符号化されたテレメトリ信号に応えて、１つ以上のゲーム命令を実行するステップと、のうちの少なくとも１つを有する方法。
【請求項１７０】
前記光源は、線形のアレイに構成された２つ以上の光源を有する請求項１６９に記載の方法。
【請求項１７１】
前記光源は、矩形または弓状に構成された複数の光源を有する請求項１６９に記載の方法。
【請求項１７２】
前記光源は、前記画像キャプチャユニットが前記光源を見やすいように、前記ジョイスティックコントローラの２つ以上の異なる側に配置されている請求項１６９に記載の方法。
【請求項１７３】
ビデオゲームにおける動作を制御するための装置であって、
プロセッサと、
前記プロセッサに結合されたメモリと、
前記プロセッサに結合され、光源のアレイが取り付けられたジョイスティックコントローラと、
前記メモリに記憶された１つ以上のプロセッサ実行可能命令と、を有し、前記命令は、前記プロセッサによって実行されると、前記装置に対して、前記光源のアレイにより１つ以上の光信号を生成させ、
前記ジョイスティックコントローラの位置および／または向きをトラッキングさせ、
前記１つ以上の光信号に１つ以上のテレメトリ信号を符号化させ、
前記ジョイスティックコントローラの前記位置および／または向きに応えて、および／または前記１つ以上の光信号に符号化されたテレメトリ信号に応えて、１つ以上のゲーム命令を実行させる、のうちの少なくとも１つを実行させる装置。
【請求項１７４】
前記光源のアレイは、線形のアレイに構成された２つ以上の光源を有する請求項１７３に記載の装置。
【請求項１７５】
前記光源のアレイは、矩形または弓状に構成された複数の光源を有する請求項１７３に記載の装置。
【請求項１７６】
前記光源は、前記画像キャプチャユニットが前記光源を見やすいように、前記ジョイスティックコントローラの２つ以上の異なる側に配置されている請求項１７３に記載の装置。
【請求項１７７】
ビデオゲームユニット用のコントローラであって、
前記コントローラに取り付けられ、前記ビデオゲームユニットに光信号を提供して、画像キャプチャユニットによる前記光源のトラッキングを容易にするように、および／または前記光信号によって前記ゲームユニットに入力チャネルを提供するように適合された１つ以上の光源であって、の光源と、
前記コントローラに取り付けられ、前記ジョイスティックコントローラの位置または向きに関する信号を前記ゲームユニットに提供するように構成された慣性センサと、
前記コントローラに取り付けられ、前記コントローラをトラッキングするためおよび／または前記音声信号によって前記ビデオゲームユニットに入力チャネルを提供するために、前記ゲームユニットへの音声信号を生成するように構成されたスピーカと、を有するコントローラ。

【図１】

【図２】

【図３Ａ】

【図３Ｂ】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１Ａ】

【図１１Ｂ】

【図１２Ａ】

【図１２Ｂ】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【図２２】

【図２３Ａ】

【図２３Ｂ】

【図２３Ｃ】

【図２４】

【図２５Ａ】

【図２５Ｂ】

【図２５Ｃ】

【図２５Ｄ】

【図２５Ｅ】

【図２５Ｆ】

【図２５Ｇ】

【図２５Ｈ】

【図２５Ｉ】

【図２５Ｊ】

【図２６】

【図２７】

【公表番号】特表２００８−５４２７９８（Ｐ２００８−５４２７９８Ａ）
【公表日】平成２０年１１月２７日（２００８．１１．２７）
【国際特許分類】

【出願番号】特願２００８−５１０２８２（Ｐ２００８−５１０２８２）
【出願日】平成１８年５月４日（２００６．５．４）
【国際出願番号】ＰＣＴ／ＵＳ２００６／０１７４８３
【国際公開番号】ＷＯ２００６／１２１８９６
【国際公開日】平成１８年１１月１６日（２００６．１１．１６）
【公序良俗違反の表示】
（特許庁注：以下のものは登録商標）
１．ＪＡＶＡ
【出願人】（３９５０１５３１９）株式会社ソニー・コンピュータエンタテインメント (871)
【Ｆターム（参考）】

[ Back to top ]

コンピュータ対話型処理と共に使用する選択的音源聴音

メニュー

スポンサーリンク

次の公報 »

« 前の公報

コンピュータ対話型処理と共に使用する選択的音源聴音

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク