コンピュータ対話型処理と共に使用する選択的音源聴音
音声処理方法および装置が提供される。音声キャプチャユニットは、1つ以上の音源を識別するように構成されている。音声キャプチャユニットは、音が処理されて、聴取ゾーンの外の音がほぼ除去される聴取ゾーンを決定するために分析可能なデータを生成する。聴取ゾーンについてキャプチャされ、処理された音が、コンピュータプログラムとの対話機能に使用されうる。音源の位置に基づいて聴取ゾーンが調整されうる。1つ以上の聴取ゾーンが事前較正されうる。装置は、1つ以上の画像フレームをキャプチャするように構成された画像キャプチャユニットを任意選択で有しうる。画像に基づいて聴取ゾーンが調整されうる。コントローラによって慣性、光学および/または音響信号を生成して、この慣性、音響および/または光信号を使用してコントローラの位置および/または向きをトラッキングすることによって、ビデオゲームユニットが制御されうる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声信号処理を対象としており、より詳細にはマイクロフォンアレイからの音声信号の処理を対象としている。
【背景技術】
【0002】
ビデオゲーム産業は、長年にわたって多くの変化を経験してきた。演算能力が拡大するにつれ、ビデオゲームの開発者も同様に、この演算能力の増大を利用するゲームソフトウェアを作成してきた。このために、ビデオゲーム開発者は、極めて現実的なゲーム体験を生み出すべく、高度な演算と数学を採用したゲームをコーディングしてきた。
【0003】
ゲームプラットホームの例に、ソニープレイステーションまたはソニープレイステーション2(PS2)があり、これらはそれぞれ、ゲームコンソールの形で販売されている。周知のように、ゲームコンソールはモニタ(通常はテレビ)と接続されて、手持ち式のコントローラによってユーザとの対話を可能にするように設計されている。ゲームコンソールは、CPU、処理量の多いグラフィック操作のためのグラフィクシンセサイザ、ジオメトリ変換を実行するためのベクトル装置などの特化した処理ハードウェアと、各ハードウェア等をつなげるグルーハードウェア、ファームウェアおよびソフトウェア等のその他のハードウェアを備えて設計される。また、ゲームコンソールは、ゲームコンソールによるローカルプレイを行うためにゲームのコンパクトディスクを受け容れるための光ディスクトレイを備えて設計される。また、ユーザが、インターネット上で他のユーザと対戦して、または、他のユーザと一緒に対話的にプレイすることができるオンラインゲームも可能である。
【発明の開示】
【発明が解決しようとする課題】
【0004】
ゲームの複雑さがプレーヤの興味を引き続けるため、ゲームおよびハードウェアのメーカは追加の対話機能を実現するために革新を続けてきた。しかし、実際は、ユーザがゲームと対話するやり方は、長年にわたって劇的には変わることはなかった。
【0005】
前述を鑑みて、ゲームのプレイとのより高度なユーザ対話機能を可能にする方法およびシステムが求められている。
【課題を解決するための手段】
【0006】
概して、本発明は、コンピュータプログラムとの対話機能を容易にする装置および方法を提供することによって、これらのニーズを満たす。一実施形態では、このコンピュータプログラムはゲームプログラムであるが、これに限定されることはなく、この装置および方法は、制御の起動、入力、通信の実現のために音声入力を取り入れることができる任意のコンピュータ環境に適用可能である。詳細には、制御の起動または入力のために音声が使用される場合、本発明の実施形態は、特定の音源のフィルタされた入力を可能にし、このフィルタされた入力は、関心のない音源を無視または対象外とするように構成されている。ビデオゲーム環境では、選択した音源に応じて、ビデオゲームは、対象の音源を処理した後に、対象ではない可能性のある他の音の歪みまたはノイズがない状態で、特定の反応で応答しうる。一般に、ゲームをプレイする環境は、音楽、他の人、および物体の移動などの多くの背景ノイズに曝されている。対象ではない音がほぼフィルタ除去されると、コンピュータプログラムは、対象音により適切に応答することができる。この反応は、どのような形であってもよく、例えば、コマンド、動作の開始、選択、ゲームステータスまたは状態の変化、機能の解除などがある。
【0007】
一実施形態では、コンピュータプログラムとの対話機能中に音をキャプチャする装置が提供される。この装置は、1つ以上の画像フレームをキャプチャするように構成された画像キャプチャユニットを有する。音声キャプチャユニットも提供される。音声キャプチャユニットは、1つ以上の音源を識別するように構成されている。音声キャプチャユニットは、焦点ゾーンを決定するために分析されうるデータを生成し、この焦点ゾーンにおいて音が処理されて、焦点ゾーンの外の音がほぼ除去される。このようにして、焦点ゾーンについてキャプチャされ、処理された音が、コンピュータプログラムとの対話機能のために使用される。
【0008】
別の実施形態では、コンピュータプログラムとの対話機能中の選択的な音源聴取のための方法が開示される。この方法は、2つ以上の音源キャプチャマイクロフォンにおいて1つ以上の音源からの入力を受信するステップを有する。次に、この方法は、前記音源のそれぞれから遅延路を決定するステップと、前記1つ以上の音源のそれぞれの前記受信された入力のそれぞれについて方向を特定するステップと、を有する。次に、この方法は、識別された焦点ゾーンの方向にない音源をフィルタ除去するステップを有する。前記焦点ゾーンは、前記コンピュータプログラムとの前記対話機能のために前記音源を提供するように構成されている。
【0009】
更に別の実施形態では、ゲームシステムが提供される。このゲームシステムは、対話型のコンピュータゲームの実行を可能にするコンピューティングシステムとインタフェースするように構成された画像−音声キャプチャ装置を有する。画像キャプチャ装置は、焦点ゾーンからビデオをキャプチャするために配置可能なビデオキャプチャハードウェアを有する。1つ以上の音源から音をキャプチャするために、マイクロフォンのアレイが提供される。各音源は、識別され、画像−音声キャプチャ装置に対する方向と関連付けられる。ビデオキャプチャハードウェアと関連付けられた焦点ゾーンは、その焦点ゾーンの近くの方向にある音源のうちの1つを識別するために使用されるように構成されている。
【0010】
一般に、対話型の音の識別とトラッキングは、どのようなコンピューティング装置のどのようなコンピュータプログラムとインタフェースするために適用可能である。音源が識別されると、その音源の内容が更に処理されて、コンピュータプログラムによって実現(rendered)される機能または物体が、起動、駆動、指示または制御される。
【0011】
一実施形態では、マイクロフォンの聴取領域を調整する方法および装置は、初期聴取ゾーンを検出し、マイクロフォンアレイによって、キャプチャされた音をキャプチャし、前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別し、前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成し、前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別する。
【0012】
別の実施形態では、この方法および装置は、音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出し、画像キャプチャユニットの視野(view)を検出し、前記視覚装置の前記視野を前記初期聴取ゾーンの前記初期領域と比較し、前記初期聴取ゾーンを調整して、前記視野と前記初期領域との比較に基づいて調整された領域を含む前記調整された聴取ゾーンを形成する。
【0013】
一実施形態では、この方法および装置は、音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出し、前記初期聴取ゾーン内で初期音を検出し、前記初期聴取ゾーンを調整して、調整された領域を含む前記調整された聴取ゾーンを形成し、前記初期音は前記調整された聴取ゾーンから発せられる。
【0014】
本発明の他の実施形態は、事前較正された聴取ゾーンを使用した、対象音検出のための方法および装置を対象としている。このような実施形態は、2つ以上のマイクロフォンを有するマイクロフォンアレイによって実装することができる。各マイクロフォンは複数のフィルタに結合されている。このフィルタは、マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成されている。複数のフィルタに対するフィルタ係数の1つ以上の組が再較正されて、1つ以上の対応する事前較正された聴取ゾーンが決定される。フィルタパラメータの各組は、入力信号の、所定の聴取ゾーン内で発生した音に対応する部分を検出し、所定の聴取ゾーンの外で発生する音をフィルタ除去するように選択される。実行時に、特定の事前較正された聴取ゾーンが選択されうるが、これは、その特定の事前較正された聴取ゾーンに対応するフィルタ係数の組を前記複数のフィルタに適用することによって行われる。その結果、マイクロフォンアレイは、特定の聴取ゾーン内で発生した音を検出し、特定の聴取セクタの外で発生する音をフィルタ除去することができる。
【0015】
本発明の特定の実施形態では、ジョイスティックコントローラによって慣性および/または光信号を生成して、この慣性および/または光信号を使用してジョイスティックコントローラの位置および/または向きをトラッキングすることによって、ビデオゲームユニット内の動作が制御されうる。
【0016】
本発明の他の態様および利点は、例示のために本発明の原理を示す添付の図面と併せて、以下の詳細な説明を読めば明らかとなるであろう。
【発明を実施するための最良の形態】
【0017】
本発明とその更なる利点とは、添付の図面を参照して以下の記載をよめば、よりよく理解できるであろう。
【0018】
本発明の実施形態は、コンピュータプログラムとの対話手段として音声が使用される場合に、特定の音源の識別を容易にし、不要な音源をフィルタ除去するための方法および装置に関する。
【0019】
以下の説明では、本発明を完全に理解できるように、具体的な詳細を数多く記載する。しかし、これらの詳細な内容の一部または全てを用いなくとも本発明を実施し得ることは当業者にとって自明である。場合によっては、本発明を不必要にわかりにくくしないように、公知のプロセス操作については詳しく記載しない。
【0020】
「電子デバイス」、「電子装置」および「電子機器」という場合、パーソナルデジタルビデオテープレコーダ、デジタルオーディオプレーヤ、ゲームコンソール、セットトップボックス、コンピュータ、携帯電話機、個人情報端末、自動車との電子インタフェース等の特化したコンピュータなどの装置が含まれる。
【0021】
図1は、本発明の一実施形態による、1人以上のユーザとの対話機能のためにビデオゲームプログラムを実行することができるゲーム環境100を示す。図に示すように、プレーヤ102が、ディスプレイ110を備えたモニタ108の前に示されている。モニタ108は、コンピューティングシステム104と相互接続されている。コンピューティングシステムは、標準のコンピュータシステム、ゲームコンソールまたはポータブルコンピュータシステムであってよい。具体例としては、ゲームコンソールは、ソニーコンピュータエンターテインメント社、マイクロソフト社または他の任意のメーカによって製造されたものなどがあるが、任意のブランドに限定されない。
【0022】
コンピューティングシステム104は、画像−音声キャプチャ装置106と相互接続されて示されている。画像−音声キャプチャ装置106は、音声キャプチャユニット106aと画像キャプチャユニット106bを備える。プレーヤ102は、ディスプレイ110上のゲームの画面112と対話的に通信しているように示されている。実行中のビデオゲームは、画像キャプチャユニット106bおよび音声キャプチャユニット106aにより、入力がプレーヤ102によって少なくとも部分的に提供されるものである。図に示すように、プレーヤ102は、手を動かして、ディスプレイ110上の対話的アイコン114を選択することができる。画像キャプチャユニット106bによってキャプチャされると、プレーヤ102’の半透明の画像が、ディスプレイ110に投射される。したがって、プレーヤ102は、アイコンを選択するか、あるいはゲーム画面112と相互作用するには、手をどこに動かせばよいかがわかる。これらの動きおよび対話をキャプチャするための技術は変わりうるが、例示的な技術は、それぞれ2003年2月21日に出願された英国特許出願公開第0304024.3号明細書(国際公開第GB2004/000693号パンフレット)および英国特許出願公開第0304022.7明細書(国際公開第GB2004/000703号パンフレット)号に記載されており、これらの各々は参照によりここに援用される。
【0023】
図示した例では、対話的アイコン114は、ゲーム画面112が、扱われているオブジェクトを揺らすように、プレーヤが「スイング」を選択することができるアイコンである。更に、プレーヤ102が音声コマンドを与えてもよく、このコマンドは、音声キャプチャユニット106aによってキャプチャされ、コンピューティングシステム104によって処理されて、実行中のビデオゲームとの対話機能が実現提供されうる。図に示すように、音源116aは「ジャンプ!」音声コマンドである。次に、この音源116aが、音声キャプチャユニット106aによってキャプチャされ、コンピューティングシステム104によって処理されて、ゲーム画面112をジャンプさせる。音声コマンドの識別を可能にするために、音声認識が使用されうる。別の実施形態では、プレーヤ102が、インターネットまたはネットワークに接続しているが、ゲームの対話機能に直接的または部分的に関わってもいるリモートユーザと通信していてもよい。
【0024】
本発明の一実施形態によれば、音声キャプチャユニット106aは、コンピューティングシステム104が特定の方向から来る音を選択できるようにする少なくとも2つのマイクロフォンを備えるように構成されうる。コンピューティングシステム104が、ゲームのプレイの中心(または焦点)から外れる方向をフィルタ除去できるようにすることで、プレーヤ102が特定のコマンドを与えているときに、ゲーム環境100内の気を散らすような音が、ゲームの実行を妨げたり混乱させることはない。例えば、ゲームプレーヤ102が、足踏みしており、非言語音117である足踏みノイズを発生させることがある。このような音は、音声キャプチャユニット106aによってキャプチャされるが、プレーヤの足102から来る音がビデオゲームの焦点ゾーン内にないため、フィルタ除去されうる。
【0025】
後述するように、焦点ゾーンは、画像キャプチャユニット106bの焦点であるアクティブな画像領域によって好ましくは識別される。他の方法では、焦点ゾーンは、初期化段階の後で、ユーザに提示されたゾーンの選択肢の中から、手動または自動的に選択されてもよい。ゾーンの選択肢には、事前較正された聴取ゾーンが1つ以上含まれうる。音源を含む事前較正された聴取ゾーンが、後述するように決定されうる。図1の例の説明を続けると、対話的ゲームのプレイ中に、ゲームを見ている人103がコンピューティングシステムによる処理を攪乱させる可能性のある音源116bを与えることもある。しかし、ゲームを見ている人103は画像キャプチャユニット106bのアクティブな画像領域内にいないため、コンピューティングシステム104が誤って、音源116bから来るコマンドを、音源116aとしてプレーヤ102から来る音源と混同しないように、ゲームを見ている人103の方向から来る音がフィルタ除去される。
【0026】
画像−音声キャプチャ装置106は、画像キャプチャユニット106bと音声キャプチャユニット106aを備える。画像−音声キャプチャ装置106は、好ましくは、画像フレームをデジタル形式でキャプチャして、次にこれらの画像フレームを、その後の処理のためにデータ処理システム104に転送することができる。画像キャプチャユニット106bの例にウェブカメラがあり、これは、ビデオ画像を、その後記憶したり、インターネットなどのネットワークを介して通信できるように、デジタル形式でコンピューティング装置に転送することが望ましいときに一般に使用される。その他のタイプの画像キャプチャ装置も、識別とフィルタリングが可能なように画像データがデジタル形式で処理されるものであれば、アナログ、デジタルを問わず機能する。好ましい一実施形態では、入力データを受け取ったのち、フィルタリングを可能にするデジタル処理がソフトウェアで行われる。音声キャプチャユニット106aは、一対のマイクロフォン(MIC1およびMIC2)を備えて示されている。マイクロフォンは標準的なマイクロフォンであり、これは画像−音声キャプチャ装置106を構成しているハウジングに一体化することができる。
【0027】
図3Aは、音Aからの音源116と音Bからの音源116に向かい合った状態の音声キャプチャユニット106aを示す。図に示すように、音Aがその可聴音を発して、音経路201aおよび201bに沿ってMIC1およびMIC2によって検出される。音Bは、音経路202aおよび202bを通ってMIC1およびMIC2の方に発せられる。図に示すように、音Aの音経路の長さは異なり、したがって、音経路202aおよび202bに対して相対的な遅延が生じる。次に、図3Bに示すボックス216で方向選択が行われるように、音Aおよび音Bのそれぞれから来る音が、標準の三角測量アルゴリズムを使用して処理されうる。MIC1およびMIC2から来る音は、それぞれバッファ1およびバッファ2(210a、210b)にバッファされて、遅延ライン(212a、212b)を通る。一実施形態では、バッファリングおよび遅延処理はソフトウェアによって制御されるが、ハードウェアが同様に演算を扱うようにカスタム設計されてもよい。三角測量に基づいて、方向選択216によって、音源116のうちの1つの識別および選択が行われる。
【0028】
MIC1およびMIC2のそれぞれから来る音は、ボックス214で合算されてから、選択した発生源の出力として出力される。このように、このような音源がコンピュータシステム104による処理を攪乱させたり、または、ネットワークまたはインターネットを介してビデオゲームを対話的にプレイしている他のユーザとの通信を攪乱させることのないように、アクティブな画像領域の方向以外の方向から来る音がフィルタ除去される。
【0029】
図4は、本発明の一実施形態による、画像−音声キャプチャ装置106と共に使用することができるコンピューティングシステム250を示す。コンピューティングシステム250は、プロセッサ252とメモリ256を備える。バス254は、プロセッサとメモリ256を、画像−音声キャプチャ装置106と相互接続する。メモリ256は、対話型プログラム258の少なくとも一部を格納しており、更に、受信した音源データを処理するための選択的音源聴取ロジックまたはコード260も格納している。画像キャプチャユニット106bによって識別される焦点ゾーンの場所に基づいて、焦点ゾーンの外の音源が、(例えば、プロセッサによって実行中であり、メモリ256に少なくとも部分的に記憶されているなどの)選択的音源聴取ロジック260によって選択的にフィルタされる。コンピューティングシステムは最も単純な形で示されているが、到来する音源の処理を行って、このため選択的聴取を可能にするために命令を処理することができるハードウェアであれば、どのようなハードウェア構成を使用してもよいという点を強調する。
【0030】
また、コンピューティングシステム250は、バスを経由してディスプレイ110と相互接続されて示されている。この例では、焦点ゾーンは、音源Bの方に焦点を合わせている画像キャプチャユニットによって識別される。音Aなどの他の音源から来る音は、音声キャプチャユニット106aによってキャプチャされて、コンピューティングシステム250へ転送されると、選択的音源聴取ロジック260によって実質的にフィルタ除去される。
【0031】
1つの具体例では、プレーヤは、他のユーザとのインターネットまたはネットワーク対応ビデオゲームの試合に参加しており、この場合、各ユーザの聴取可能な体験の主なものがスピーカから出される音でありうる。スピーカは、コンピューティングシステムの一部であっても、モニタ108の一部であってもよい。ここで、図4に示すように、ローカルスピーカが音源Aを生成していると仮定する。音源Aについてローカルスピーカから来る音を、試合に参加しているユーザにフィードバックしないために、選択的音源聴取ロジック260は、試合に参加しているユーザが自分自身の音または音声のフィードバックを受けないように、音源Aの音をフィルタ除去する。このフィルタリングを提供することによって、ビデオゲームと相互作用している間にネットワーク上で対話的通信を行う一方で、処理中の妨害となるフィードバックを有利に回避することが可能となる。
【0032】
図5は、画像−音声キャプチャ装置106が少なくとも4つのマイクロフォン(MIC1〜MIC4)を備える例を示す。このため、音声キャプチャユニット106aは、音源116(AおよびB)の位置を識別するために、より良好な粒度で三角測量ができる。すなわち、追加のマイクロフォンを提供することによって、音源の位置をより正確に定義し、このため、対象外であるかまたはゲームのプレイまたはコンピューティングシステムとの対話機能に害を及ぼしかねない音源を除去してフィルタ除去することが可能である。図5に示すように、音源116(B)は、ビデオキャプチャユニット106bによって識別された対象の音源である。図5の例の説明を続けると、図6は音源Bが空間体積に識別される方法を識別している。
【0033】
音源Bが位置する空間体積は、焦点体積274を定義する。焦点体積を識別することによって、特定の体積内にないノイズ(すなわち、正しい方向にないもの)を除去またはフィルタ除去することが可能である。焦点体積274の選択が容易となるように、画像−音声キャプチャ装置106は、好ましくは少なくとも4つのマイクロフォンを備える。マイクロフォンのうちの少なくとも1つは、ほかの3つのマイクロフォンとは異なる平面にある。画像−音声キャプチャ装置106のマイクロフォンのうちの1つを平面271に保持し、4つのうちの残りを平面270に置くことによって、空間体積を定義することが可能である。
【0034】
したがって、周辺にいる他の人(276aおよび276bとして示される)から来るノイズは、体積焦点274内に画定される空間体積内に存在していないため、フィルタ除去される。更に、スピーカ276cで示すように、空間体積のすぐ外で生成されたノイズも、空間体積の外に存在しているためにフィルタ除去される。
【0035】
図7は、本発明の一実施形態によるフローチャート図を示す。この方法は、操作302から開始し、2つ以上の音声キャプチャマイクロフォンにおいて、1つ以上の音源からの入力が受信される。1つの例では、この2つ以上の音声キャプチャマイクロフォンは画像−音声キャプチャ装置106に組み込まれている。別の実施形態では、2つ以上の音声キャプチャマイクロフォンが、画像キャプチャ装置106bとインタフェースする第2のモジュール/ハウジングの一部であってもよい。あるいは、音声キャプチャユニット106aが備える音声キャプチャマイクロフォンの個数はいくつであってもよく、音声キャプチャマイクロフォンが、コンピューティングシステムと相互作用しているユーザから音をキャプチャするように設計された特定の位置に設置されてもよい。
【0036】
この方法は操作304に移動し、各音源について遅延路が決定される。遅延路の例は、図3Aの音経路201,202によって定義される。周知のように、遅延路は、音源から、音をキャプチャするために配置された特定のマイクロフォンまで音波が進むのに要する時間を定義している。マイクロフォンは、音が特定の音源116から進むのに要する遅延に基づいて、遅延がどのようなものであるかを決定することができ、標準の三角測量アルゴリズムを使用して、その音が発せられた位置を概算することができる。
【0037】
次に、方法は操作306に進み、1つ以上の音源についてそれぞれ受信された入力の方向が識別される。つまり、音源116から音が発せられる方向が、音声キャプチャユニット106aを含む画像−音声キャプチャ装置の位置に対して識別される。操作308において、識別された方向に基づいて、識別された焦点ゾーン(または体積)の方向にない音源がフィルタ除去される。操作310に示すように、焦点ゾーンの近くの方向から発生したのではない音源をフィルタ除去することにより、コンピュータプログラムとの対話機能のために、フィルタ除去されていない音源を使用することが可能である。
【0038】
例えば、対話型プログラムは、ユーザがビデオゲームの機能またはビデオゲームの主プレーヤと対戦しているプレーヤと対話的に通信することができるビデオゲームであってもよい。対戦しているプレーヤは、ローカルであっても、またはリモートにいて、インターネットなどのネットワークを介して主ユーザと通信していてもよい。更に、ビデオゲームと関連する特定のコンテストにおいて、互いのスキルを対話的に競い合うように設計されたグループ内の多数のユーザ間でビデオゲームがプレイされてもよい。
【0039】
図8は、フローチャート図であり、画像−音声キャプチャ装置の操作320が、操作340で受信した入力に対して実行されるソフトウェア実行操作とは独立して示される。したがって、操作302において、2つ以上の音声キャプチャマイクロフォンで1つ以上の音源からの入力が受信されると、方法は操作304に進み、ソフトウェア内で、各音源の遅延路が決定される。上記したように、操作306において、遅延路に基づいて、1つ以上音源のそれぞれについて、受信された各入力の方向が識別される。
【0040】
この時点で、方法は操作312に移動し、ビデオキャプチャの近くにある識別された方向が決定される。例えば、図1に示すように、ビデオキャプチャの標的が、アクティブな画像領域に定められる。したがって、ビデオキャプチャの近くは、このアクティブな画像領域(または体積)の中であり、この画像アクティブ領域にあるかまたはその近くの音源と関連する任意の方向が決定される。この決定に基づいて、方法は操作314に進み、ビデオキャプチャの近くにない方向(または体積)がフィルタ除去される。このため、主プレーヤのビデオゲームのプレイに干渉する可能性のある攪乱、ノイズおよびその他の無関係な入力が、ゲームのプレイ中に実行されるソフトウェアによって実行される処理でフィルタ除去される。
【0041】
したがって、主ユーザは、ビデオゲームと対話したり、ビデオゲームを能動的に使用しているビデオゲームの他のユーザと対話したり、対象とする同じビデオゲームのためにトランザクションにログインしているかまたはこれと関連しているネットワーク上の他のユーザと通信することができる。したがって、このようなビデオゲームの通信、対話機能および制御は、無関係なノイズおよび/または特定のゲームまたは対話型プログラムと対話的に通信しているか、またはこれに参加していない観察者によって妨害されることはない。
【0042】
ここに記載されている実施形態は、オンラインゲームアプリケーションにも適用しうるという点を理解すべきである。すなわち、前述の実施形態は、インターネットなどの分散ネットワークを介してビデオ信号を複数のユーザに送信するサーバで行われ、騒音のあるリモート点でプレーヤが相互に通信できるようにする。ここに記載した実施形態は、ハードウェア実装、ソフトウェア実装のいずれによって実装されてもよいという点を更に理解すべきである。すなわち、上で述べた機能の説明を組み合わせて、ノイズキャンセル方式に関連する各モジュールの機能タスクを実行するように構成された論理回路を有するマイクロチップを定義してもよい。
【0043】
また、音源の選択的なフィルタリングは、電話などのほかの用途を有していてもよい。電話を使用する環境では、通常、主人物(すなわち発呼者)が、第三者(すなわち被発呼者)と会話することを望んでいる。しかし、この通信中に、話しているかまたはノイズを発しているほかの人が近くにいることがある。主ユーザに標的を定めた(例えば、受話器の方向によって)電話が、主ユーザの口から出る音を、焦点ゾーンとすることができ、このため、主ユーザのみを聴取する選択が可能となる。このため、この選択的聴取は、主人物と関連付けられていない音声またはノイズの実質的なフィルタ除去を可能にし、したがって、受話側は、電話を使用している主人物から、より明瞭な通信を受信することが可能となる。
【0044】
追加の技術は、制御または通信のための入力として音声を取り込むことに利点を有するより別の電子機器を有していてもよい。例えば、ユーザが、音声コマンドによって自動車の設定を制御する一方で、他の乗客がコマンドに妨害するのを防ぐことができる。ほかの用途に、ブラウズ用アプリケーション、文書作成または通信などのアプリケーションのコンピュータ制御がある。このフィルタリングを可能にすることによって、周囲音によって妨害されずに、音声または音のコマンドをより効果的に発することが可能である。このように、どのような電子装置も、本明細書に記載した任意の実施形態と併用して、音声コマンドによって制御することができる。
【0045】
更に、本発明の実施形態は用途が非常に広く、特許請求の範囲はこのような実施形態から利益を得ることができるこのような任意の用途を含むものとして解釈されるべきである。
【0046】
例えば、類似の用途として、音分析を使用して音源をフィルタ除去することが可能であると考えられる。音分析が使用される場合、使用するマイクロフォンは1つだけで済む。1つのマイクロフォンによってキャプチャされた音が(ソフトウェアまたはハードウェアで)デジタル的に分析されて、対象の音声または音が決定される。ゲームなどの一部の環境では、主ユーザが自分の声を一度記録して、この特定の音声を識別できるようにシステムを訓練することができる。このように、他の音声または音の排除が容易となる。したがって、フィルタリングを1つの音のトーンおよび/または周波数に基づいて行うことができるため、方向を特定する必要がないと考えられる。
【0047】
方向および体積を考慮に入れたときに、音声フィルタリングに関して上に記載した利点の全てが等しく適用できる。
【0048】
一実施形態では、音をキャプチャするための聴取領域を調整する方法および装置は、対応する聴取ゾーンを含む異なる領域または体積を識別するように構成されうる。より詳細には、マイクロフォンアレイは、これらの聴取ゾーンに対応する領域または体積から発生する音を検出するように構成されうる。更に、これらの領域または体積は、マイクロフォンアレイによって音をモニタすることができる領域または体積のより小さなサブセットであってもよい。一実施形態では、聴取ゾーンを拡大または縮小できるか、あるいはサイズは不変であるが位置を移動できるように、マイクロフォンアレイによって音を求めて検出される聴取ゾーンが動的に調整されうる。例えば、モニタされているゾーンが初期聴取ゾーンから小さくなるように、特定の場所の音を検出するために、聴取ゾーンが更に絞り込まれてもよい。更に、音を検証するために、音のレベルが、しきい値レベルと比較されてもよい。継続的な音を求めて、特定の場所からの音源がモニタされる。一実施形態では、初期領域から縮小領域まで小さくすることによって、不必要な背景ノイズが最小化される。一部の実施形態では、検出される領域または体積の調整が、画像キャプチャ装置の焦点ゾーンまたは視野に基づいて決定されうる。例えば、画像キャプチャ装置の視野が、ズームイン(拡大)、ズームアウト(最小化)、および/または横軸または縦軸に対して回転されうる。一実施形態では、マイクロフォンによって検出された領域に実行される調整が、画像キャプチャユニットの現在のビューに関連する領域をトラッキングする。
【0049】
図9は、視覚画像または音声信号の発生源の場所に基づいて、音をキャプチャする、または音声信号をキャプチャするために、聴取領域を調整する方法および装置が実装される環境を示す図である。この環境には、電子装置410(例えば、クライアント装置として動作するように構成されたコンピューティングプラットホーム、例えば、パーソナルデジタルビデオレコーダ、デジタルオーディオプレーヤ、コンピュータ、個人情報端末、携帯電話機、カメラ装置、セットトップボックス、ゲーム機など)、ユーザインタフェース415、ネットワーク420(ローカル領域ネットワーク、ホームネットワーク、インターネットなど)、およびサーバ430(サーバとして動作するように構成されたコンピューティングプラットホームなど)が含まれる。一実施形態では、ネットワーク420は、無線または有線のソリューションによって実装されうる。
【0050】
一実施形態では、1つ以上のユーザインタフェース415コンポーネントは、電子装置410と一体化されており、例えば、個人情報端末電子装置(ソニー株式会社が製造しているクリエ(登録商標)など)と同じ筐体に収容されたキーパッドおよびビデオ表示画面入出力インタフェースなどである。別の実施形態では、1つ以上のユーザインタフェース415コンポーネント(例えばキーボード、マウスやトラックボールなどのポインティングデバイス、マイクロフォン、スピーカ、ディスプレイ、カメラ)は、電子装置410と物理的に分離されているか、あるいは、従来の方法によってこれと結合されている。ユーザは、電子装置410、サーバ430、またはネットワーク420を介して結合されたリモート記憶装置(図示せず)に記憶されているコンテンツおよびアプリケーションにアクセスおよび制御するために、インタフェース415を使用する。
【0051】
本発明によれば、後述するような信号の位置に基づいて音声信号をキャプチャする実施形態は、電子装置410、サーバ430内の電子プロセッサによって、あるいは、電子装置410とサーバ430の協働するそれぞれのプロセッサによって実行される。図1ではサーバ430は1つのコンピューティングプラットホームとして図示されているが、別の例では、1つのサーバとして動作する、相互接続された2つ以上のコンピューティングプラットホームである。
【0052】
音をキャプチャするために聴取範囲を調整するか、または、視覚画像または音声信号の発生源の位置に基づいて音声信号をキャプチャするための方法および装置を、複数のユーザプロファイルからユーザプロファイルが選択されるアプリケーションの代表的な実施形態を用いて示す。一実施形態では、ユーザプロファイルが電子装置410からアクセスされ、ユーザプロファイルと関連付けられたコンテンツを作成、変更したり、他の電子装置410に配布することができる。一実施形態では、ユーザプロファイルに関連するコンテンツは、テレビまたは音楽の番組編成と関連付けられたカスタマイズされたチャネルリストと、カスタマイズされた記録時間に関連する記録情報を含む。
【0053】
一実施形態では、特定のユーザプロファイルと関連付けられたコンテンツを作成または変更するためのアクセスは、許可されたユーザに制限されている。一実施形態では、許可されたユーザは、周辺装置(ポータブルメモリデバイス、ドングルなど)に基づいている。一実施形態では、各周辺装置は一意のユーザ識別子に関連付けられており、このユーザ識別子は、一意のユーザプロファイルに関連付けられている。
【0054】
図10は、信号の位置に基づいて音声信号をキャプチャするための方法および装置が実装される例示的なアーキテクチャを示す簡略図である。例示的なアーキテクチャには、複数の電子装置410、サーバ装置430、ならびに電子装置410とサーバ430および電子装置410同士を接続しているネットワーク420が含まれる。複数の電子装置410は、電子プロセッサ209に結合された計算機可読媒体509(ランダムアクセスメモリなど)を有するようにそれぞれ構成されている。プロセッサ208は、計算機可読媒体209に記憶されているプログラム命令を実行する。図9に関して記載したように、個々のユーザが、インタフェース415を介してそれぞれの電子装置410を操作する。
【0055】
サーバ装置430は、サーバメモリ512など、計算機可読媒体に結合されたプロセッサ511を有する。一実施形態では、サーバ装置430は、1つ以上の追加の外部装置または内蔵装置と結合されており、これには、例えばデータベース540などの補助データ記憶要素があるが、これに限定されない。
【0056】
1つの例では、プロセッサ508,511は、米国カリフォルニア州サンタクララ所在のインテル コーポレーションによって製造される。別の例では、ほかのマイクロプロセッサが使用される。
【0057】
複数のクライアント装置410およびサーバ430は、信号の位置に基づいて音声信号をキャプチャするためのカスタマイズされたアプリケーションの命令を含む。一実施形態では、複数の計算機可読媒体509,512は、その一部に、カスタマイズされたアプリケーションを格納している。更に、複数のクライアント装置410とサーバ430は、カスタマイズされたアプリケーションと併用するために、電子メッセージを受信および送信するように構成されている。同様に、ネットワーク420は、カスタマイズされたアプリケーションと併用するために、電子メッセージを送信するように構成されている。
【0058】
1つ以上のユーザアプリケーションが、メモリ509、サーバメモリ512に記憶されるか、あるいは1つのユーザアプリケーションが、その一部が1つのメモリ509に、一部がサーバメモリ512に保存されている。1つの例では、記憶されているユーザアプリケーションは、記憶場所を問わず、後述する実施形態を使用して決定された信号の位置に基づいた音声信号のキャプチャに基づいて、カスタマイズ可能とされる。
【0059】
上記の説明の一部は、2つ以上の音源キャプチャマイクロフォンで1つ以上の音源からの入力を受信し、各音源から遅延路を決定し、1つ以上の音源のそれぞれの受信した入力の各々について方向を特定し、識別された焦点ゾーンの方向にない音源をフィルタ除去することに言及している。例として、このような音声入力処理は、図11A、11B、12A、12Bおよび13を参照して後述するように進みうるが、これに限定されない。図11Aに示すように、マイクロフォンアレイ602は、4つのマイクロフォンM0、M1、M2およびM3を備えうる。一般に、マイクロフォンM0、M1、M2およびM3は、無指向性マイクロフォン(すなわち、ほぼどの方向からの音声でも検出することができるマイクロフォン)でありうる。無指向性マイクロフォンは、通常、構造的に単純であり、好適な聴取方向をもつマイクロフォンよりは低価格である。1つ以上の発生源604からマイクロフォンアレイ602に到達した音声信号は、ベクトルx=[x0,x1,x2,x3](x0、x1、x2およびx3は、それぞれマイクロフォンM0、M1、M2およびM3によって受信される信号である)で表すことができる。各信号xmは、通常、異なる音源のために、下位成分を備える。この例では、添字mは0〜3の範囲をとり、アレイ内の異なるマイクロフォンを区別するために使用される。下位成分は、ベクトルs=[s1,s2,…,sK](Kは異なる発生源の個数)で表すことができる。異なる発生源から発生する信号sから音を分離するには、最良の到達時間遅延(Time Delay of Arrival:TDA)フィルタを決定しなければならない。正確なTDA検出のために、最新ではあるが、計算量の多いブラインド音源分離(Blind Source Separation:BSS)が理論上は好ましい。ブラインド音源分離は一組の信号を他の一組の信号に分離し、これにより、得られたそれぞれの信号の規則性が最大となるとともに、信号間の規則性が最小となる(すなわち、統計的独立が最大となるか、非相関性が最小となる)。
【0060】
ブラインド音源分離では、二次統計量に基づく独立成分解析(Independent Component Analysis:ICA)が行われうる。このような場合、各マイクロフォンに到達した信号のデータはランダムベクトルxm=[x1,…,xn]、成分はランダムベクトルs=[s1,…,sn]で表現できる。この作業は、線形静的変換s=Wxを使用して、観測データxmを、独立の一部の関数F(s1,…,sn)によって測定された独立度が最大の成分sに変換することである。
【0061】
観察されたランダムベクトルxm=(xm1,…,xmn)の成分xmiは、混合重みaminによって重み付けられた独立成分smkの合計として生成される(k、k=1,…,n、xmi=ami1sm1+…+amiksmk+…+aminsmn)。換言すれば、データベクトルxmは、混合行列Aと発生源ベクトルsTとの積として表される。すなわち、xm=A・sT、すなわち下記式で表される。
【0062】
【数1】
【0063】
元の発生源sは、観察された信号ベクトルxmと、分離行列とも呼ばれる、混合行列の逆行列W=A−1を乗算することによって復元することができる。分離行列A−1の決定は、計算を多用するものとなることがある。本発明の一部の実施形態は、マイクロフォンアレイの聴取方向を決定するために、ブラインド音源分離(BSS)を使用する。マイクロフォンアレイの聴取方向および/または1つ以上の聴取ゾーンは、実行時の前(例えば、マイクロフォンアレイの設計および/または製造時に)に較正され、実行時に再び較正されうる。
【0064】
例えば、聴取方向は、次のように決定することができる。マイクロフォンアレイに対して聴取方向に立っているユーザが、約10〜30秒間のスピーチを記録しうる。録音室には、一時的な干渉(例えば競合するような発話、バックグラウンドミュージックなど)が含まれていてはならない。所定の間隔の(約8ミリ秒ごとなど)記録された音声信号が、分析フレームに形成されて、時間領域から周波数領域に変換される。このフレーム内の各周波数ビン成分に対して、音声区間検出(VAD)が実行されてもよい。各フレーム内の各周波数ビンについて、各フレーム内で強い音声信号を含むビンのみが収集されて、その二次統計量の概算に使用される。すなわち、較正共分散行列Cal_Cov(j,k)=E((X’jk)T*X’jk)であり、ここで、Eは期待値を決定する操作であり、(X’jk)TはベクトルX’jkの転置である。ベクトルX’jkは、j番目のフレームおよびk番目の周波数ビンのための較正信号のフーリエ変換を表しているM+1次のベクトルである。
【0065】
このとき、合計した共分散行列は、ターゲット聴取方向から発せられた最も強い信号相関を含む。較正共分散行列Cal_Cov(j,k)のそれぞれは主成分解析(PCA)によって分解されて、その対応する固有行列Cが生成されうる。したがって、固有行列Cの逆行列C−1は、共分散行列を非相関させるために最も多くの情報を基本的に含む「聴取方向」であるとみなすことができ、較正結果として保存される。ここで使用するように、較正共分散行列Cal_Cov(j,k)の「固有行列」とは、共分散行列の固有ベクトルである列(または行)を有する行列のことを指す。
【0066】
実行時に、この逆固有行列C−1が、単純な線形変換によって混合行列Aを非相関させるために使用されうる。非相関後、Aは、その対角主ベクトルによって良好に近似され、したがって、分離行列(すなわち、A−1)の計算が、以下の線形ベクトルの逆A1=A*C−1(ここで、A1は独立成分解析(ICA)における新しい変換された混合行列)の計算に簡略化される。主ベクトルは、A1行列のまさに対角である。
【0067】
実行時の再較正は、以前のステップに従って行われうる。しかし、製造時の既定の較正では、偏りがなく、個人に依存しない統計的推定を確実に行えるように、膨大な量の記録データ(例えば、何百人もの人からの何十時間分もの明瞭な音声)が必要となる。実行時の再較正では特定の人からの少ない量の記録データがあれば済むが、得られたC−1の推定は偏っており、したがって個人に依存している。
【0068】
上述の通り、主成分分析(PCA)は、混合行列Aを対角化する固有値を決定するために使用されうる。聴取方向が事前にわかっていれば、混合行列Aのエネルギーをその対角に圧縮することができる。この手順は、ここではセミブラインド音源分離(SBSS)と呼ぶが、独立成分ベクトルsTの計算を極めて簡略化する。
【0069】
また、本発明の実施形態は、反因果的フィルタリングを利用することもできる。因果律の問題は、図11Bに示される。マイクロフォンアレイ602において、1つのマイクロフォン(例えばM0)が参照マイクロフォンに選ばれる。マイクロフォンアレイからの信号x(t)が因果的であるためには、発生源604からの信号が、最初に参照マイクロフォンM0に到達しなければならない。しかし、信号が他のマイクロフォンのいずれかに最初に到達した場合、M0は、参照マイクロフォンとして使用することができない。通常、信号は、発生源604に最も近いマイクロフォンに最初に到達する。本発明の実施形態は、参照マイクロフォンが常に最初に信号を受信するように、アレイ302内のマイクロフォンM0、M1、M2、M3の間で参照マイクロフォンを切り替えることによって、発生源304の位置の変化に対して調整される。詳しくは、この反因果律は、参照マイクロフォンを除いたアレイ内の全てのマイクロフォンで受信される信号を遅延させる一方、これを行うために使用される遅延フィルタの長さを最小化することで、実現することができる。
【0070】
例えば、マイクロフォンM0が参照マイクロフォンの場合に、他の3つの非参照マイクロフォンM1,M2、M3での信号が、システム出力y(t)に基づいて微小な遅延Δtm(m=1、2、3)によって調整されうる。微小な遅延Δtmは、システム出力y(t)の信号対雑音比(SNR)の変化に基づいて調整されうる。通常、遅延はSNRを最大にするように選択される。例えば、離散時間信号の場合、時間サンプルtにおける各非参照マイクロフォンからの信号の遅延Δtmは、式Δtm(t)=Δtm(t−1)+μΔSNR(ここで、ΔSNRはt−2とt−1間のSNRの変化であり、μは定義済みのステップ幅であり、これは経験的に決定されうる)に従って計算することができる。Δt(t)>1の場合、遅延は1サンプルごとに増加する。反因果律のためこのような遅延を使用する本発明の実施形態では、合計遅延時間(すなわちΔtmの合計)は、通常は2〜3の整数サンプルである。これは、2〜3のフィルタタップを用いて実現することができる。これは、代表的なデジタルシグナルプロセッサが最大512のタップを有するディジタルフィルタを使用することがあることを考えると、比較的少ない遅延量である。人工的な遅延Δtmを非参照マイクロフォンに適用することは、参照マイクロフォンM0が音源604に最も近くなるように、アレイ602の向きを物理的に定めることと、デジタル的に等価であることに注意されたい。
【0071】
図12Aは、アレイ602内のマイクロフォンのうちの1つであるM0からの信号のフィルタリングを示す。装置700Aにおいて、マイクロフォンx0(t)からの信号が、7040,…,704NのN+1個のタップから構成されるフィルタ702に供給される。先頭のタップ7040を除き、各タップ704iは、z変換z−1および有限レスポンスフィルタによって表現される遅延部分を有する。各遅延部分が、単位整数遅延を信号x(t)に導入する。有限インパルス応答フィルタは、有限インパルス応答フィルタ係数b0,b1,b2,b3,…,bNによって表現される。本発明の実施形態では、フィルタ702は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせで実装することができる。所定のフィルタタップ704iからの出力y(t)は、対応する有限インパルス応答係数biによってフィルタタップ704iに対する入力信号のまさにコンボルーションである。なお、先頭のフィルタタップ7040を除いた全フィルタタップ704iの全てについて、フィルタタップへの入力は、以前のフィルタタップ704i−1の遅延部分Z−1の出力そのものである。したがって、フィルタ402の出力は、
【0072】
y(t)=x(t)*b0+x(t−1)*b1+x(t−2)*b2+…+x(t−N)bN
【0073】
で表現することができ、上記式において、記号「*」はコンボルーション操作を表す。2つの離散時間関数f(t)とg(t)間のコンボルーションは、以下のように定義される。
【数2】
【0074】
音声信号処理の一般的な問題は、信号y(t)から音声の異なる発生源を最も良好に分解する有限インパルス応答フィルタ係数b0,b1,…,bNの値を選択することである。
【0075】
信号x(t)およびy(t)が離散時間信号である場合、各遅延Z−1は必ず整数遅延であり、遅延の大きさはマイクロフォンの最大周波数と逆相関している。通常、これが、装置400Aの解像度を制限してしまう。通常よりも高い解像度は、以下の式のようになるように、このような微小な時間遅延Δを信号y(t)に導入することができる場合に得られる。
【0076】
y(t+Δ)=x(t+Δ)*b0+x(t−1+Δ)*b1+x(t−2+Δ)*b2+…+x(t−N+Δ)bN
【0077】
上記式において、Δは0〜±1である。本発明の実施形態において、微小な遅延またはその等価は、以下のように得ることができる。第1に、x(t)をj個のサンプル毎に遅延させ、有限インパルス応答フィルタ係数bi(i=0,1,…,N)を以下の(J+1)次元の列ベクトル
【数3】
で表し、y(t)を以下のように書き換えることができる。
【0078】
【数4】
y(t)が上記の形で表現される場合、t=t+Δの任意の微小な値についてy(t)の値を補間することができる。詳しくは、y(t)の3つの値が、多項式補間に使用されうる。微小な値Δの予想される統計精度はJ+1に反比例し、これはy(t)の直前の表現の「行」の数である。
【0079】
本発明の実施形態では、量t+Δは、この概念を時間領域で説明する数学的要約であるとみなすことができる。実際には、正確な「t+Δ」を概算する必要があるというわけではない。それよりも、信号y(t)は周波数領域に変換されることがあるため、このような明示的な「t+Δ」がない。それよりも、周波数領域関数F(bi)の推定は、微小な遅延Δの等価を提供するのに十分である。時間領域出力信号y(t)のための上記の数式は、例えば、フーリエ変換をとることによって時間領域から周波数領域に変換され、その結果得られる数式が、周波数領域出力信号Y(k)について解かれうる。これは、J+1個のフレームについてフーリエ変換(例えば、高速フーリエ変換(fft)によって)を実行することに同等であり、フーリエ変換の各周波数ビンは(J+1)×1列のベクトルである。周波数ビンの数はN+1と等しい。
【0080】
上記の式の各行について、有限インパルス応答フィルタ係数は、x(t)のフーリエ変換をとり、セミブラインド音源分離によって、求めることができる。詳しくは、上記の式の各「行」は、以下のようになる。
【0081】
X0=FT(x(t,t−1,…,t−N))=[X00,X01,…,X0N]
【0082】
X1=FT(x(t−1,t−2,…,t−(N+1))=[X10,X11,…,X1N]
【0083】
XJ=FT(x(t,t−1,…,t−(N+J)))=[XJ0,XJ1,…,XJN]
【0084】
上記式で、FT()は括弧内の量のフーリエ変換をとる演算を表す。
【0085】
更に、前述の内容は1つのマイクロフォンのみを扱っていたが、本発明の実施形態が2つ以上のマイクロフォンのアレイを使用してもよい。このような場合、入力信号x(t)は、M+1次元のベクトルx(t)=(x0(t),x1(t),…,xM(t))で表すことができる(M+1はアレイ内のマイクロフォンの個数)。
【0086】
図12Bは、M+1個のマイクロフォンM0,M1,…,MMのマイクロフォンアレイ602を有する装置700Bを示す。各マイクロフォンは、M+1個の対応するフィルタ7020,7021,…,702Mのうちの1つと接続されている。各フィルタ7020,7021,…,702Mは、対応するN+1個のフィルタタップの組70400,…7040N,70410,…,7041N,704M0,…,704MNを有する。各フィルタタップ704miは、有限インパルス応答フィルタbmj(ただし、m=0,…,M、i=0,…,N)を有する。先頭のフィルタタップ704m0を除き、各フィルタ702m内のフィルタタップもZ−1によって示される遅延を有する。各フィルタ702mは、対応している出力ym(t)を生成し、これは、フィルタの合成した出力y(t)の成分とみなすことができる。前述のように、各出力信号ym(t)に微小な遅延が加えられうる。
【0087】
M+1個のマイクロフォンを有するアレイでは、量Xjは、通常(M+1)次元のベクトルである。例えば、4チャンネルマイクロフォンアレイの場合、x0(t)、x1(t)、x2(t)、x3(t)の4つの入力信号がある。4チャンネルの入力xm(t)は周波数領域に変換され、1×4のベクトル“Xjk”としてまとめられる。ベクトルXjkの外積は4×4行列となり、この行列の統計的平均が共分散」行列となり、これは各ベクトル要素間の相関を示す。
【0088】
例えば、4つの入力信号x0(t)、x1(t)、x2(t)、x3(t)は、J+1=10ブロックを有する周波数領域に変換されうる。詳細には、以下のようになる。
【0089】
チャネル0:
X00=FT([x0(t−0),x0(t−1),x0(t−2),…,x0(t−N−1+0)])
X01=FT([x0(t−1),x0(t−2),x0(t−3),…,x0(t−N−1+1)])
……
X09=FT([x0(t−9),x0(t−10)x0(t−2),…,x0(t−N−1+10)])
【0090】
チャネル1:
x01=FT([x1(t−0),x1(t−1),x1(t−2),…,x1(t−N−1+0)])
x11=FT([x1(t−1),x1(t−2),x1(t−3),…,x1(t−N−1+1)])
……
x19=FT([x1(t−9),x1(t−10)x1(t−2),…,x1(t−N−1+10)])
【0091】
チャネル2:
x20=FT([x2(t−0)),x2(t−1),x2(t−2),…,x2(t−N−1+0)])
x21=FT([x2(t−1),x2(t−2),x2(t−3),…,x2(t−N−1+1)])
……
x29=FT([x2(t−9),x2(t−10)x2(t−2),…,x2(t−N−1+10)])
【0092】
チャネル3:
x30=FT([x3(t−0),x3(t−1),x3(t−2),…,x3(t−N−1+0)]
x31=FT([x3(t−1),x3(t−2),x3(t−3),…,x3(t−N−1+1)])
……
X39=FT([x3(t−9),x3(t−10)x3(t−2),…,x3(t−N−1+10)])
【0093】
例えば、微小な遅延を作成するために10のフレームが使用されるとする。各フレームjについてj=0:9であり、各周波数ビン<k>についてn=0:N−1であり、以下の、1×4ベクトルを生成することができる。
【0094】
Xjk=[X0j(k),X1j(k),X2j(k),X3j(k)]
【0095】
ベクトルXjkがSBSSアルゴリズムに供給され、フィルタ係数bjnが求められる。混合行列A(例えば4つのマイクを有するアレイのための4×4行列)は、4×1の混合重みベクトルbjkに置換される。これは、A1=A*C−1(すなわちbjk=Diagonal(A1))(C−1は、上記の較正操作から得られる逆固有行列)の対角行列)である。周波数領域補正信号ベクトルX´jkは、上記の説明にて記載したように生成されうることに注意されたい。
【0096】
混合行列Aは、実行時共分散行列Cov(j,k)=E((Xjk)T*Xjk)によって近似することができ、ここで、Eは期待値を決定する演算であり、(Xjk)TはベクトルXjkの転置行列である。各ベクトルbjkの成分は、各フレームjと各周波数ビンkの対応するフィルタ係数であり、すなわち、以下のようになる。
【0097】
bjk=[bj0(k),b1j(k),b2j(k),b3j(k)]
【0098】
各ベクトルXjkを構成している個々の音源の独立周波数領域成分は、以下の式から決定することができる。
【0099】
S(j,k)T=bjk−1・Xjk=[(b0j(k))−1X0j(k),(b1j(k)X1j(k),(b2j(k))−1X2j(k),(b3j(k))−1X3j(k)]、この式において、各S(j,k)Tは、元の入力信号x(t)の独立周波数領域を含む1×4ベクトルである。
【0100】
マイクロフォンアレイ302において、ICAアルゴリズムは、「共分散」独立に基づいている。M+1個の独立成分(音源)が常にあり、これらの二次統計量が独立であると仮定される。換言すれば、信号x0(t)、x1(t)、x2(t)、x3(t)間の相互相関がゼロでなければならない。この結果、共分散行列Cov(j,k)内の非対角の要素も、同様にゼロでなければならない。
【0101】
これと対照的に、問題を逆に考えると、M+1の信号源があることがわかっている場合、相互相関を非相関させることができる行列Aをみつけることによって、これらの相互相関する「共分散行列」を決定することもできる。すなわち、この行列Aによって、共分散行列Cov(j,k)を対角(非対角の要素が全てゼロである)にすることができ、このとき、Aは、4つの発生源を分離するための条件(recipe)を保持する「分離行列」である。
【0102】
「分離行列A」を解くことは「逆問題」であるため、これは実際には非常に複雑で、Aの決定的な数学的解は通常存在しない。その代わり、Aを最初に推測して、次に、各信号ベクトルxm(t)(m=0,1,…,M)について、Aを少しずつ(適応ステップサイズと呼ばれる)適応的に更新していく。4マイクロフォンアレイの場合、Aの適応は、通常、元のICAアルゴリズムにおいて4×4行列の逆行列を決定することに関連する。望ましくは、適応されたAは真のAに収束していくものと思われる。本発明の実施形態によれば、セミブラインド音源分離を使用することにより、分離行列AがA1ベクトルとなるが、この理由は、これが、上記の事前較正の結果である逆固有行列C−1によって既に非相関されているためである。
【0103】
実行時の共分散行列Cov(j,k)と事前に較正された逆固有行列C−1とを乗算することは、基本的には、Aの対角要素を拾い出し、これらをA1ベクトルにすることである。A1の各要素には最も強い相互相関があり、Aの逆行列では、この相関が事実上なくなる。このため、本発明の実施形態は、従来のICA適応手順を単純にし、各更新において、Aの逆行列はベクトルの逆b−1となる。行列の逆の計算はN立方の複雑さであるが、ベクトルの逆の計算はN線形の複雑さである点に留意されたい。詳細には、N=4の場合、行列の逆の計算は、ベクトルの逆の計算よりも64回多く計算が必要である。
【0104】
また、(M+1)×(M+1)行列を(M+1)×1ベクトルに小さくすることによって、必要なパラメータが遙かに少なくなり、数学的に「自由度」と呼ばれる数値的安定性に関する問題が著しく小さいため、適応がはるかに確実なものとなる。SBSSによって自由度が(M+1)倍下がるため、適応の収束が早くなる。実世界の音響環境では、音源が絶えず変わっている、すなわち、分離行列Aが非常に早く変化するため、これは、非常に望ましい。Aの適応は、この変化をリアルタイムにトラッキングして、その真の値に収束するのに十分早くなければならない。SBSSの代わりに従来のICAベースのBSSアルゴリズムを使用する場合、2を超えるマイクロフォンのアレイによって実時間アプリケーションを構築することは、ほぼ不可能である。単純なマイクロフォンアレイのなかにはBSSを使用するものがあるが、全てではないにせよ、ほとんどのアレイが2つのマイクロフォンのみを使用している。
【0105】
周波数領域出力Y(k)は、N+1次元のベクトルY=[Y0,Y1,…,YN]で表現することができ、各成分Yiは、以下の式によって計算することができる。
【数5】
各成分Yは、フィルタに対する単位応答を実現するために正規化されうる。
【数6】
【0106】
本発明の実施形態では、N、Jは任意の値をとることができるが、実際は、N=511、J=9によって、望ましいレベルの解像度(例えば、16kHzのマイクロフォンを有するアレイでは、波長の約1/10)が得られることが示されている。
【0107】
図13は、本発明の一実施形態を示すフロー図を示す。ブロック802において、マイクロフォンM0…MMから離散的時間領域入力信号xm(t)が生成されうる。ブロック804において、例えば、前述のように較正共分散行列に対する逆固有行列C−1を計算することによって、マイクロフォンアレイの聴取方向が決定されうる。上記のように、聴取方向は、設計または製造の際の、マイクロフォンアレイの較正時に決定されても、または実行時に再較正されてもよい。詳細には、マイクロフォンアレイに対して好適な聴取方向にある発生源からの信号が、所定時間記録されうる。信号の分析フレームが、所定間隔で作成されて、この分析フレームが、周波数領域に変換されうる。周波数領域に変換された分析フレームのベクトルから、較正共分散行列が推定されうる。較正共分散行列の固有行列Cが計算されて、固有行列の逆から聴取方向が提供される。
【0108】
ブロック506において、参照マイクロフォンM0からの入力信号x0(t)を除く選択された入力信号xm(t)に、1つ以上の微小な遅延が適用されうる。微小な遅延のそれぞれは、マイクロフォンアレイからの離散的時間領域出力信号y(t)の信号対雑音比を最適化するために選択される。参照マイクロフォンM0からの信号が、アレイ内の他のマイクロフォンからの信号に比べて時間が一番早くなるように、微小な遅延が選択される。
【0109】
ブロック508において、y(t+Δ)=x(t+Δ)*b0+x(t−1+Δ)*b1+x(t−2+Δ)*b2+,…,+x(t−N+Δ)bN(ただし、Δは0〜±1)となるように、微小な時間遅延Δが出力信号y(t)に導入される。この微小な遅延は、図4Aおよび4Bに関して上述したように導入されうる。詳細には、k=0:Nの周波数ビンの各々について、ドメイン入力信号xm(t)がj+1フレームだけ遅延されるたびに、得られた遅延入力信号が、周波数領域に変換されて、周波数領域入力信号ベクトルXjkが生成される。
【0110】
ブロック510において、ブロック504で決定された聴取方向(例えば逆固有行列C−1)が、セミブラインド音源分離で使用されて、入力信号xm(t)から異なる音源を分離するための有限インパルス応答フィルタ係数b0,b1,…,bNが選択される。詳細には、各マイクロフォンm、各フレームj、および各周波数ビンkについて、入力信号xm(t)から2つ以上の音源を最も良好に分離することができるフィルタ係数[b0j(k),b1j(k),…,bMj(k)]が計算される。詳細には、各周波数領域入力信号ベクトルXjkから、実行時共分散行列が生成されうる。実行時共分散行列と固有行列Cの逆行列C−1が乗算されて、混合行列Aが生成され、混合行列Aの対角から混合ベクトルが得られうる。混合ベクトルの1つ以上の成分から、フィルタ係数の値が決定されうる。更に、一実施形態では、フィルタ係数は、マイクロフォンアレイに対する位置を表しうる。別の実施形態では、フィルタ係数は、マイクロフォンアレイに対する領域を表しうる。
【0111】
図14は、信号の位置に基づいて音声信号をキャプチャするためのシステム900の一実施形態を示す。システム900は、領域検出モジュール910、領域調整モジュール920、記憶モジュール930、インタフェースモジュール940、音検出モジュール945、制御モジュール950、領域プロファイルモジュール960、および視野検出モジュール970を有する。制御モジュール950は、領域検出モジュール910、領域調整モジュール920、記憶モジュール930、インタフェースモジュール940、音検出モジュール945、領域プロファイルモジュール960、および視野検出モジュール970と通信しうる。
【0112】
制御モジュール950は、領域検出モジュール910、領域調整モジュール920、記憶モジュール930、インタフェースモジュール940、音検出モジュール945、領域プロファイルモジュール960、および視野検出モジュール970の間でタスク、要求および通信を調整しうる。
【0113】
領域検出モジュール910は、音を求めてモニタされている聴取ゾーンを検出しうる。一実施形態では、マイクロフォンアレイは、特定の電子装置410によって音を検出する。例えば、所定の領域から発生する音を求めて、その特定の領域を取り囲む特定の聴取ゾーンがモニタされうる。一実施形態では、前述のように、聴取ゾーンは、有限インパルス応答フィルタ係数b0,b1,…,bNによって定義される。
【0114】
一実施形態では、領域調整モジュール920は、音を求めてモニタされている聴取ゾーンによって定義される領域を調整する。例えば、領域調整モジュール920は、領域検出モジュール910によって定義されるように特定の聴取ゾーンを含む所定の領域を変えるように構成されている。一実施形態では、この所定の領域が拡大される。別の実施形態では、この所定の領域が縮小される。一実施形態では、聴取ゾーンの領域の変更を反映するために、有限インパルス応答フィルタ係数b0,b1,…,bNが変更される。
【0115】
記憶モジュール930は、複数のプロファイルを記憶しており、各プロファイルは、音を検出するための異なる仕様(specification)と関連している。一実施形態では、プロファイルは、例えば、図15の例示的なプロファイルに示すように、さまざまな情報を記憶している。一実施形態では、記憶モジュール930は、サーバ装置430に存在する。別の実施形態では、記憶モジュール930の一部は、電子装置410に存在する。
【0116】
別の実施形態では、記憶モジュール930は、検出された音の表現も記憶している。
【0117】
一実施形態では、インタフェースモジュール940は、電子装置410がネットワーク420に接続されたときに、この電子装置410を検出する。
【0118】
別の実施形態では、インタフェースモジュール940は、キーボード、マウス、マイクロフォン、スチルカメラ、ビデオカメラなどのインタフェース装置415からの入力を検出する。
【0119】
更に別の実施形態では、インタフェースモジュール640は、ディスプレイ、スピーカ、外部記憶装置、外部ネットワークなどのインタフェース装置415への出力を供給する。
【0120】
一実施形態では、音検出モジュール945は、聴取ゾーン内で発生した音を検出するように構成されている。一実施形態では、聴取ゾーンが、領域検出モジュール910によって決定される。別の実施形態では、聴取ゾーンは、領域調整モジュール920によって決定される。
【0121】
一実施形態では、音検出モジュール945は、聴取ゾーンから発生する音をキャプチャする。別の実施形態では、音検出モジュール945は、聴取ゾーン内の音の位置を検出する。音の位置は、有限インパルス応答フィルタ係数b0,b1,…,bNに関して表現されうる。
【0122】
一実施形態では、領域プロファイルモジュール960は、音を検出するための特定の聴取ゾーンに関連するプロファイル情報を処理する。例えば、プロファイル情報には、音を求めて検出されている特定の聴取ゾーンを詳細に記述するパラメータが含まれうる。これらのパラメータには、有限インパルス応答フィルタ係数b0,b1,…,bNが含まれうる。
【0123】
一実施形態では、例示的なプロファイル情報が、図15に示すレコードに示される。一実施形態では、領域プロファイルモジュール960はこのプロファイル情報を利用する。別の実施形態では、領域プロファイルモジュール960は、追加のプロファイル情報を有する追加レコードを作成する。
【0124】
一実施形態では、視野検出モジュール970は、例えばスチルカメラまたはビデオカメラなどの画像キャプチャユニットの視野を検出する。例えば、視野検出モジュール970は、画像キャプチャユニットの視角を、画像キャプチャユニットを通して見ているように検出するように構成されている。一例を挙げると、視野検出モジュール970は、画像キャプチャユニットの倍率レベルを検出する。例えば、倍率レベルは、特定の画像フレームを記述しているメタデータ内に含まれうる。別の実施形態では、画像キャプチャユニットがズームインするかまたはズームアウトと、視野検出モジュール970によって現在の視野が検出されるように、視野検出モジュール970は定期的に視野を検出する。
【0125】
別の実施形態では、視野検出モジュール970は、マイクロフォンアレイに対する画像キャプチャユニットの水平および垂直の回転位置を検出する。
【0126】
図14のシステム900は、例示を目的として図示するものであり、信号の位置に基づいて音声信号をキャプチャするための方法および装置の一実施形態に過ぎない。信号の位置に基づいて音声信号をキャプチャするための方法および装置から逸脱することなく、システム900に別のモジュールを追加してもよい。同様に、視覚画像または音声信号の発生源の位置に基づいて、音をキャプチャするまたは音声信号をキャプチャするための聴取領域を調整する方法および装置の範囲を逸脱することなく、モジュール同士を組み合わせたり、モジュールを省略してもよい。
【0127】
図15は、聴取領域を記述しているプロファイルに対応する対応する簡略化されたレコード1000を示す。一実施形態では、レコード1000は、記憶モジュール930に記憶され、システム900内で利用される。一実施形態では、レコード1000には、ユーザ識別フィールド1010、プロファイル名フィールド1020、聴取ゾーンフィールド1030、およびパラメータフィールド1040が含まれる。
【0128】
一実施形態では、ユーザ識別フィールド1010は、特定のユーザに対応するカスタマイズ可能なラベルを与える。例えば、ユーザ識別フィールド1010には、任意の名前(例えば「ボブ」、「エミリーのプロファイル」など)のラベルが与えられうる。
【0129】
一実施形態では、プロファイル名フィールド1020は、音を検出するために各プロファイルを一意に識別している。例えば、一実施形態では、プロファイル名フィールド1020は、場所および/または参加者を記述している。例えば、プロファイル名フィールド1020は、「XYZ講堂」、「ソニープレイステーション(登録商標)ABC Game」などの説明的な名前が付されうる。更に、プロファイル名フィールド1020は、「定員の半分のXYZ講堂」、他の参加者が2人いるソニープレイステーション(登録商標)ABC Game」などの名前が更に付されてもよい。
【0130】
一実施形態では、聴取ゾーンフィールド1030は、音を求めてモニタすべき異なる領域を識別している。例えば、XYZ講堂の全体が、音を求めてモニタされてもよい。しかし、別の実施形態では、前部分、後部分、中心部分、左部分および/または右部分など、XYZ講堂の選択された部分が音を求めてモニタされる。
【0131】
別の例において、ソニープレイステーション(登録商標)を取り囲む全ての領域が、音を求めてモニタされうる。しかし、別の実施形態では、例えば、ソニープレイステーション(登録商標)の前、ソニープレイステーション(登録商標)から所定の距離内など、ソニープレイステーション(登録商標)を取り囲む選択された領域が、音のためにモニタされる。
【0132】
一実施形態では、聴取ゾーンフィールド1030は、音をモニタするための1つの領域を含む。別の実施形態では、聴取ゾーンフィールド1030は、音をモニタするための複数の領域を含む。
【0133】
一実施形態では、パラメータフィールド1040は、聴取ゾーンフィールド1030内で記載したように聴取ゾーン内で音を適切に検出するために、音検出装置を構成するのに利用されるパラメータを記述している。
【0134】
一実施形態では、パラメータフィールド1040は、有限インパルス応答フィルタ係数b0,b1,…,bNを含む。
【0135】
図16、17、18および19に示すフロー図は、視覚画像または音声信号の発生源の位置に基づいて音をキャプチャするため、または音声信号をキャプチャするために、聴取領域を調整するための方法および装置の実施形態の例を示す。これらフロー図内のブロックは、信号の位置に基づいて音声信号をキャプチャするための方法および装置の趣旨から逸脱することなく、異なる順序で実行されてもよい。更に、このような方法および装置の趣旨から逸脱することなく、ブロックを省略したり、追加したり、あるいは組み合わせてもよい。
【0136】
図16のフロー図は、音をキャプチャするために聴取領域を調整する方法を示す。このような方法は、本発明の一実施形態による音声信号の発生源の位置に基づいた音声信号のキャプチャと共に使用することができる。
【0137】
ブロック1110において、音を検出するための初期聴取ゾーンが識別される。例えば、初期聴取ゾーンが、レコード1000と関連するプロファイル内で識別されうる。更に、領域プロファイルモジュール960が、初期聴取ゾーンと関連するパラメータを提供しうる。
【0138】
別の例では、初期聴取ゾーンは、特定の電子装置410に予めプログラムされている。更に別の実施形態では、部屋、講堂または車などの特定の位置が決定されて、初期聴取ゾーンとして定義される。
【0139】
別の実施形態では、マイクロフォンアレイの周囲の、聴覚により検出可能な領域を集合的に構成している複数の聴取ゾーンが定義される。各聴取ゾーンは、有限インパルス応答フィルタ係数b0,b1,…,bNによって表される。一実施形態では、初期聴取ゾーンが複数の聴取ゾーンから選択される。
【0140】
ブロック1120において、音検出のために初期聴取ゾーンが開始される。一実施形態では、マイクロフォンアレイが音を検出し始める。一例を挙げると、初期聴取ゾーン内の音のみが、装置410によって認識される。一例では、マイクロフォンアレイが、まず全ての音を検出しうる。しかし、初期聴取ゾーンの外で発生するかまたはそこから発せられた音は、装置410によって認識されない。一実施形態では、領域検出モジュール1110が、初期聴取ゾーンから発生する音を検出する。
【0141】
ブロック1130において、定義された領域内で検出された音がキャプチャされる。一実施形態では、マイクロフォンアレイが音を検出する。一実施形態では、キャプチャされた音が記憶モジュール930に記憶される。別の実施形態では、音検出モジュール945は、定義された領域から発生する音を検出する。一実施形態では、この定義された領域は、ブロック1110によって決定された初期聴取ゾーンを含む。別の実施形態では、定義された領域は、ブロック1160の調整された定義された領域に対応する領域を含む。
【0142】
ブロック1140において、定義された領域に対する調整が検出される。一実施形態では、定義された領域が拡大されうる。例えば、初期聴取ゾーンが設定された後に、定義された領域が、音をモニタするために、より大きな領域を含むように拡大されうる。
【0143】
一実施形態では、定義された領域が縮小されうる。例えば、初期聴取ゾーンが設定された後に、定義された領域が、音をモニタするために、より狭い領域に絞り込まれるように縮小されうる。
【0144】
別の実施形態では、定義された領域のサイズは一定であるが、定義された領域が回転されるか、または異なる位置に移動される。例えば、定義された領域が、マイクロフォンアレイに対して旋回されうる。
【0145】
更に、初期聴取ゾーンに対する最初の調整が実行されてから、定義された領域に対する調整が行われてもよい。
【0146】
一実施形態では、定義された領域に対する調整を示す信号が、音検出モジュール945によって検出された音、視野検出モジュール970によって検出された視野、および/または定義された領域内の調整の変更を示すインタフェースモジュール940によって受け取った入力によって開始され得る。
【0147】
ブロック1150において、定義された領域に対する調整が検出された場合は、ブロック1160において定義された領域が調整される。一実施形態では、ブロック1160において、調整された定義された領域を反映するために、有限インパルス応答フィルタ係数b0,b1,…,bNが変更される。別の実施形態では、聴取ゾーンの追加または減少を反映するために、異なるフィルタ係数が利用される。
【0148】
ブロック1150において、定義された領域に対する調整が検出されない場合、ブロック830において定義された領域内の音が検出される。
【0149】
図12のフロー図は、本発明の一実施形態による、聴取ゾーンの作成、聴取ゾーンの選択および音のモニタを示す。
【0150】
ブロック1210において、聴取ゾーンが定義される。一実施形態では、マイクロフォンアレイがカバーしているフィールドが複数の聴取ゾーンを含む。一実施形態では、聴取ゾーンが、マイクロフォンアレイに対する区画あるいはセグメントによって定義される。例えば、北東、北西、南東および南西などの4つの異なる四分区間として聴取ゾーンが定義され、各四分区間は、中心にあるマイクロフォンアレイの位置からみた位置である。別の例では、聴取領域が、任意の数の聴取ゾーンに分割されてもよい。説明の便宜上、聴取領域は、マイクロフォンアレイに対してX°の聴取ゾーンによって定義されうる。聴取領域全体がマイクロフォンアレイの周囲の360°の全てをカバーしており、10つの別個の聴取ゾーンがある場合、各聴取ゾーンまたは区画は36°である。
【0151】
一実施形態では、マイクロフォンアレイによって音を検出できる領域の全体が、聴取ゾーンのうちの1つによってカバーされる。一実施形態では、聴取ゾーンのそれぞれは、有限インパルス応答フィルタ係数b0,b1,…,bNの組と対応している。
【0152】
一実施形態では、特定の聴取ゾーンは、レコード1000内に記憶されたプロファイルに保存されうる。更に、有限インパルス応答フィルタ係数b0,b1,…,bNは、レコード1000に保存されうる。
【0153】
ブロック1215において、聴取ゾーンを選択することを目的として、マイクロフォンアレイによって音が検出される。検出された音の位置も検出されうる。一実施形態では、検出された音の位置が、有限インパルス応答フィルタ係数b0,b1,…,bNの組によって識別される。
【0154】
ブロック1220において、少なくとも1つの聴取ゾーンが選択される。一例を挙げると、マイクロフォンアレイによって検出したい音に、無関係なノイズが干渉するのを防ぐために、特定の聴取ゾーンの選択が行われる。聴取ゾーンを狭い領域に限定することによって、モニタされていない領域から発生する音を最低限に抑えることができる。
【0155】
一実施形態では、聴取ゾーンが自動的に選択される。例えば、ブロック1215で検出された音に基づいて、特定の聴取ゾーンが自動的に選択されうる。選択された特定の聴取ゾーンは、ブロック1215で検出された音の位置と相関しうる。更に、検出された音に対して、聴取ゾーンに隣接しているかまたはその近くにある追加の聴取ゾーンが選択されてもよい。別の例では、レコード1200内のプロファイルに基づいて、特定の聴取ゾーンが選択される。
【0156】
別の実施形態では、オペレータによって聴取ゾーンが手動で選択される。例えば、オペレータが、検出された音の位置にどの聴取ゾーンが対応しているかを示すグラフィック表現を視覚的に検出することができるように、検出された音がオペレータに視覚的に示されうる。更に、特定の聴取ゾーンの選択が、検出された音の位置に基づいて行われてもよい。別の例では、聴取ゾーンが、音の予想のみに基づいて選択されてもよい。
【0157】
ブロック1230において、マイクロフォンアレイによって音が検出される。一実施形態では、選択された聴取ゾーンに関わらず、マイクロフォンアレイによってあらゆる音がキャプチャされる。別の実施形態では、検出された音を表す情報が強度について分析されて、その後更に別の分析が行われる。一例では、検出された音の強度が所定のしきい値を満たさない場合、音はノイズとして特徴付けられて放棄される。
【0158】
ブロック1240において、ブロック1230で検出された音がブロック1220で選択された聴取ゾーンの1つの中でみつかった場合には、ブロック1250において、音を表す情報がオペレータに伝えられる。一実施形態では、音を表す情報が、再生、記録および/または更に処理されうる。
【0159】
ブロック1240において、ブロック1230で検出された音が、選択された聴取ゾーンの1つの中でみつからなかった場合には、ブロック1245で更に分析が行われる。
【0160】
ブロック1245で、選択された聴取ゾーンの外で音が検出されない場合には、ブロック1230において音の検出が続行される。
【0161】
しかし、選択された聴取ゾーンの外で音が検出された場合には、ブロック1260において、オペレータによる確認が求められる。一実施形態では、オペレータは、選択された聴取ゾーンの外で検出された音を知らされ、音が発生した領域を含む追加の聴取ゾーンを提示される。この例では、オペレータは、この追加の聴取ゾーンを、選択された聴取ゾーンの1つに追加する機会を得ることができる。別の実施形態では、オペレータに対して聴取ゾーンの追加が求められないように、追加の聴取ゾーンを含めるか含めないかの優先的処理が事前に設定されうる。この例では、追加の聴取ゾーンを含めるか含めないかの判断は、システム1200によって自動的に行われる。
【0162】
ブロック1260の後、選択された聴取ゾーンが、ブロック1260での選択に基づいて、ブロック1220で更新される。例えば、追加の聴取ゾーンが選択された場合、その追加の聴取ゾーンが、選択された聴取ゾーンの1つとして加えられる。
【0163】
図18のフロー図は、本発明の一実施形態による、視野に基づいた聴取ゾーンの調整を示す。
【0164】
ブロック1310において、聴取ゾーンが選択されて初期化される。一実施形態では、複数の聴取ゾーンから1つの聴取ゾーンが選択される。別の実施形態では、複数の聴取ゾーンが選択される。一実施形態では、マイクロフォンアレイが聴取ゾーンをモニタする。更に、聴取ゾーンは、有限インパルス応答フィルタ係数b0,b1,…,bNまたはレコード1000に示す事前決定されたプロファイルによって表されうる。
【0165】
ブロック1320において、視野が検出される。一実施形態では、視野は、スチルカメラ、ビデオカメラなどの画像キャプチャユニットが見ている画像を表している一実施形態では、視野を検出するために、視野検出モジュール970が利用される。画像キャプチャユニットの実効焦点距離(倍率)が変更されると、現在の視野が変更されうる。更に、画像キャプチャユニットがマイクロフォンアレイに対して回転しても、現在の視野が変更されうる。
【0166】
ブロック1330において、現在の視野が、現在の聴取ゾーンと比較される。一実施形態では、画像キャプチャユニットの倍率、および画像キャプチャユニットとマイクロフォンアレイとの回転関係が、視野の決定に利用される。画像キャプチャユニットのこの視野が、マイクロフォンアレイの現在の聴取ゾーンと比較される。
【0167】
画像キャプチャユニットの現在の視野と、マイクロフォンアレイの現在の聴取ゾーンが一致した場合、ブロック1350において、現在の聴取ゾーン内で音が検出される。
【0168】
画像キャプチャユニットの現在の視野と、マイクロフォンアレイの現在の聴取ゾーンが一致しない場合、ブロック1340において、現在の聴取ゾーンが調整される。現在の視野の回転位置と、マイクロフォンアレイの現在の聴取ゾーンの位置が揃っていない場合には、現在の視野の回転位置を含む異なる聴取ゾーンが選択される。
【0169】
更に、一実施形態では、画像キャプチャユニットの現在の視野が現在の聴取ゾーンより狭い場合には、現在の聴取ゾーンのうちの1つが無効化され、これにより、無効化された聴取ゾーンは、この無効化された聴取ゾーンから音を検出できなくなる。別の実施形態では、画像キャプチャユニットの現在の視野が、現在の唯一の聴取ゾーンよりも狭い場合には、有限インパルス応答フィルタ係数b0,b1,…,bNを操作することによって現在の聴取ゾーンが変更されて、現在の聴取ゾーンによって音が検出される領域が縮小されうる。
【0170】
更に、一実施形態では、画像キャプチャユニットの現在の視野が現在の聴取ゾーンより広い場合には、現在の聴取ゾーンに隣接する追加の聴取ゾーンが追加されて、これにより、この追加の聴取ゾーンによって音が検出される領域が拡大される。別の実施形態では、画像キャプチャユニットの現在の視野が、現在の唯一の聴取ゾーンよりも広い場合には、有限インパルス応答フィルタ係数b0,b1,…,bNを操作することによって現在の聴取ゾーンが変更されて、現在の聴取ゾーンによって音が検出される領域が拡大されうる。
【0171】
ブロック1340において聴取ゾーンが調整された後、ブロック1350において現在の聴取ゾーン内で音が検出される。
【0172】
図19のフロー図は、本発明の一実施形態による、視野に基づいた聴取ゾーンの調整を示す。
【0173】
ブロック1410において、聴取ゾーンが選択されて初期化される。一実施形態では、複数の聴取ゾーンから1つの聴取ゾーンが選択される。別の実施形態では、複数の聴取ゾーンが選択される。一実施形態では、聴取ゾーンをマイクロフォンアレイがモニタする。更に、聴取ゾーンは、有限インパルス応答フィルタ係数b0,b1,…,bNまたはレコード1000に示す事前決定されたプロファイルによって表されうる。
【0174】
ブロック1420において、現在の聴取ゾーン内で音が検出される。一実施形態では、音検出モジュール945により、音がマイクロフォンアレイによって検出される。
【0175】
ブロック1430において、ブロック1420で検出された音から、音量レベルが決定される。
【0176】
ブロック1440において、ブロック1430で決定された音量レベルが、音しきい値レベルと比較される。一実施形態では、この音しきい値レベルは、無関係な意図しないノイズを除外する音モデルに基づいて選択される。別の実施形態では、音しきい値は、マイクロフォンアレイの現在の環境に基づいて動的に選択される。例えば、非常に静かな環境では、小さな音をキャプチャするために、音しきい値が低く設定されうる。これに対して、騒がしい環境では、背景ノイズを除外するために、音しきい値が高く設定されうる。
【0177】
ブロック1140で記載したように、ブロック1430で得た音量レベルが音しきい値レベルを下回る場合には、ブロック1420で音の検出が続行される。
【0178】
ブロック1440で記載したように、ブロック1430で得た音量レベルが音しきい値レベルを超える場合には、ブロック1445において、検出された音の位置が決定される。一実施形態では、検出された音の位置は、有限インパルス応答フィルタ係数b0,b1,…,bNの形で表現される。
【0179】
ブロック1450において、ブロック1410で初期選択された聴取ゾーンが調整される。一実施形態では、この初期聴取ゾーンがカバーしている領域が減らされる。例えば、初期聴取ゾーンを絞り込むために、ブロック1445で識別された検出された音の位置が使用され、これにより、初期聴取ゾーンが、この音の位置に隣接する領域を含むように調整される。
【0180】
一実施形態では、初期聴取ゾーンを構成している複数の聴取ゾーンが存在することがある。複数の聴取ゾーンを有するこの例では、音の位置を含む聴取ゾーンが、調整された聴取ゾーンとして保持される。同様の例では、音の位置を含む聴取ゾーンと隣接する聴取ゾーンが、調整された聴取ゾーンとして保持される。
【0181】
別の実施形態では、初期聴取ゾーンとして、1つの聴取ゾーンが存在してもよい。この例では、調整された聴取ゾーンは、音の位置の周りの狭い領域として構成されうる。一実施形態では、音の位置の周りの狭い領域は、音の位置のすぐ近くの周りの領域を識別している有限インパルス応答フィルタ係数b0,b1,…,bNによって表されうる。
【0182】
ブロック1460において、調整された聴取ゾーン内で音が検出される。一実施形態では、音検出モジュール945により、音がマイクロフォンアレイによって検出される。更に、調整された聴取ゾーンから音量レベルも検出される。更に、調整された聴取ゾーン内で検出された音が、システム900によって録音、ストリーミング、送信および/または更に処理されうる。
【0183】
ブロック1470において、ブロック1460で決定された音量レベルが、音しきい値レベルと比較される。一実施形態では、音しきい値レベルは、ブロック1420で最初に検出された音が続いているかどうかを決定するために選択される。
【0184】
ブロック1470で記載したように、ブロック1460で得た音量レベルが音しきい値レベルをより上にある場合には、ブロック1460において音の検出が続行される。
【0185】
ブロック1470で記載したように、ブロック1460で得た音量レベルが音しきい値レベルを下回る場合には、ブロック1480において、調整された聴取ゾーンが更に調整される。一実施形態では、調整された聴取ゾーンは、ブロック1410に示す初期聴取ゾーンに戻される。
【0186】
図20の図は、図18で説明したように、視野を用いたアプリケーションの使用を示す。図20において、電子装置1500は、上記したものなどのマイクロフォンアレイと画像キャプチャユニットを有する。物体1510、1520は、音源とみなすことができる。一実施形態では、周辺装置1500はカムコーダである。装置1500は、領域1530、1540および1550内で音と視覚画像をキャプチャすることができる。更に、装置1500は、視覚画像をキャプチャするための視野を調整することができ、音をキャプチャするための聴取ゾーンを調整することができる。領域1530、1540および1550は、任意の領域として選択される。別の例では、領域の数がこれより増減しても、領域の大きさがこれより大きくても小さくてもよい。
【0187】
一実施形態では、装置1500は、領域1540の視覚画像と、領域1540からの音をキャプチャする。このため、物体1520から音と視覚画像がキャプチャされうる。しかし、この例では、物体1510から音と視覚画像はキャプチャされない。
【0188】
一例を挙げると、装置1500の視野が、物体1510を含むように、領域1540から拡大されうる。したがって、装置1500によってキャプチャされる音が視覚的視野に追従し、更に聴取ゾーンが物体1510を含むように領域1540から拡大される。
【0189】
別の例では、装置1500の視覚画像は、領域1540と同じ大きさをカバーするが、物体1510を含むように回転されうる。したがって、装置1500によってキャプチャされる音が視覚的視野に追従し、更に聴取ゾーンが物体1510を含むように領域1540から回転する。
【0190】
図21は、図19に記載した方法の使用を示す図である。図21は、マイクロフォンアレイ1600と物体1610、1620を示している。マイクロフォンアレイ1600は、領域1630、1640および1650内で音をキャプチャすることができる。更に、マイクロフォンアレイ1600は、音をキャプチャするための聴取ゾーンを調整することができる。領域1630、1640および1650は、任意の領域として選択される。別の例では、領域の数がこれより増減しても、領域の大きさがこれより大きくても小さくてもよい。
【0191】
一実施形態では、マイクロフォンアレイ1600は、領域1630、1640および1650からの音をモニタする。物体1620が音量レベルしきい値を超える音を発生させた場合、マイクロフォンアレイ1600は、音の検出を領域1650まで狭くする。物体1620からの音が止んだら、マイクロフォンアレイ1600は領域1630、1640および1650からの音を検出することができる。
【0192】
一実施形態では、マイクロフォンアレイ1600は、ソニープレイステーション(登録商標)ゲーム装置に一体化されていてもよい。このアプリケーションでは、物体1610および1620は、それぞれプレイステーション(登録商標)装置のユーザの左右のプレーヤを表している。このアプリケーションでは、プレイステーション(登録商標)装置のユーザは、そのユーザのいずれかの側にいる仲間のプレーヤまたは友人をモニタする一方で、音をキャプチャするためにマイクロフォンアレイ1600によってモニタされる聴取ゾーンを狭くすることによって不要なノイズをブロックすることができる。
【0193】
図22は、図14で記載したシステム900と共に使用するアプリケーションの使用を示す図である。図22は、マイクロフォンアレイ1700、物体1710、およびマイクロフォンアレイ1740を示している。マイクロフォンアレイ1700および1740は、領域1750を含む領域1705内で音をキャプチャすることができる。更に、マイクロフォンアレイ1700、1740の両方は、音をキャプチャするためにそれぞれの聴取ゾーンを調整することができる。
【0194】
一実施形態では、マイクロフォンアレイ1700および1740は、領域1705内で音をモニタする。物体1710が音量レベルしきい値を超える音を発生させた場合、マイクロフォンアレイ1700および1740は、音の検出を領域1750まで狭くする。一実施形態では、領域1750は、線1720、1725、1750および1755に囲まれている。音が止んだら、マイクロフォンアレイ1700および1740は領域1705内で再び音をモニタし始める。
【0195】
別の実施形態では、1つのマイクロフォンアレイがマイクロフォンアレイ1700および1740を機能的に代用するように、マイクロフォンアレイ1700および1740は、凸状の形状を有する1つのマイクロフォンアレイに結合される。
【0196】
図11Aに示すマイクロフォンアレイ602は、マイクロフォンアレイの一実施形態を示す。図23A、23B、および23Cは、マイクロフォンアレイの別の実施形態を示す。
【0197】
図23Aは、マイクロフォン1802、1804、1806、1808、1810、1812、1814および1816を有するマイクロフォンアレイ1810を示す。一実施形態では、マイクロフォンアレイ1810は長方形に形成されており、マイクロフォン1802、1804、1806、1808、1810、1812、1814および1816は、互いに同一平面に置かれており、マイクロフォンアレイ1810の周囲に沿って配置されている。別の実施形態では、マイクロフォンの数がこれよりも増減してもよい。更に、別の実施形態では、マイクロフォン1802、1804、1806、1808、1810、1812、1814および1816の位置が変わってもよい。
【0198】
図23Bは、マイクロフォン1832、1834、1836、1838、1840、1842、1844および1846を有するマイクロフォンアレイ1830を示す。一実施形態では、マイクロフォンアレイ1830は円形に形成されており、マイクロフォン1832、1834、1836、1838、1840、1842、1844および1846は、互いに同一平面に置かれており、マイクロフォンアレイ1530の周囲に沿って配置されている。別の実施形態では、マイクロフォンの数がこれよりも増減してもよい。更に、別の実施形態では、マイクロフォンの1832、1834、1836、1838、1840、1842、1844および1846の位置が変わってもよい。
【0199】
図23Cは、マイクロフォン1862、1864、1866および1868を有するマイクロフォンアレイ1860を示す。一実施形態では、マイクロフォン1862、1864、1866および1868は、マイクロフォンのうちの少なくとも1つがほかの3つに対して異なる面にあるように三次元構成に分布されている。例えば、マイクロフォン1862、1864、1866および1868は、三次元の球体の外面に沿って配置されうる。別の実施形態では、マイクロフォンの数がこれよりも増減してもよい。更に、別の実施形態では、マイクロフォン1862、1864、1866および1868の位置が変わってもよい。
【0200】
図24は、図14で記載したシステム900と共に使用するアプリケーションの使用を示す図である。図24は、マイクロフォンアレイ1910と物体1915を含む。マイクロフォンアレイ1910は、領域1900内で音をキャプチャすることができる。更に、マイクロフォンアレイ1910は、物体1915から音をキャプチャするための聴取ゾーンを調整することができる。
【0201】
一実施形態では、マイクロフォンアレイ1910は、領域1900内で音をモニタする。物体1915が音量レベルしきい値を超える音を発生させた場合、マイクロフォンアレイ1910に結合されたコントローラの構成要素(例えば図6のシステム600の領域調整モジュール620)が、領域1915まで音の検出を狭めうる。一実施形態では、領域1915は、図形1930、1940、1950および1960に囲まれている。更に、領域1915は、音がマイクロフォンアレイ1910によってキャプチャされる三次元の空間量を表している。
【0202】
一実施形態では、マイクロフォンアレイ1910は、二次元のアレイを利用する。例えば、図23Aおよび23Bに示すマイクロフォンアレイ1800および1830は、それぞれ、二次元のアレイの一実施形態である。マイクロフォンアレイ1910を二次元のアレイとして構成することによって、領域1915が、有限インパルス応答フィルタ係数b0,b1,…,bNによって空間量として表すことができる。一実施形態では、二次元のマイクロフォンアレイを利用することによって、領域1915が、線1930、1940、1950および1960によって囲まれるようになる。別の実施形態では、二次元のマイクロフォンアレイとは対照的に、線形のマイクロフォンアレイを利用することによって、領域1915が線1940と1950に囲まれるようになる。
【0203】
別の実施形態では、マイクロフォンアレイ1910は、図23Cに示すマイクロフォンアレイ1860などの三次元のアレイを利用する。マイクロフォンアレイ1910を三次元のアレイとすることによって、領域1915が、有限インパルス応答フィルタ係数b0,b1,…,bNによって空間量として表すことができる。一実施形態では、三次元のマイクロフォンアレイを利用することによって、領域1915が、図形1930、1940、1950および1960によって囲まれるようになる。更に、一実施形態では、物体1920の位置を決定するために、三次元のアレイはTDA検出を利用する。
【0204】
本発明の特定の実施形態は事前較正された聴取ゾーンを使用した、対象音検出のための方法および装置を対象としている。このような実施形態は、2つ以上のマイクロフォンを有するマイクロフォンアレイによって実装することができる。図25Aに示すように、マイクロフォンアレイ2002は、対応する信号フィルタF0、F1、F2およびF3に結合された4つのマイクロフォンM0、M1、M2およびM3を有しうる。各フィルタは、有限インパルス応答(FIR)フィルタリングと、到着時間遅延(TDA)フィルタリングの時間遅延の何らかの組合せを実装しうる。一般に、マイクロフォンM0、M1、M2およびM3は、無指向性マイクロフォン(すなわち、ほぼどの方向からの音声でも検出することができるマイクロフォン)でありうる。無指向性マイクロフォンは、通常、構造的に単純であり、好適な聴取方向をもつマイクロフォンよりは低価格である。マイクロフォンM0、M1、M2およびM3は、対応する出力x0(t)、x1(t)、x2(t)、x3(t)を生成する。これらの出力は、フィルタF0、F1、F2およびF3への入力となる。各フィルタは、到達時間遅延(TDA)および/または有限インパルス応答(FIR)を、その入力に適用しうる。フィルタの出力は結合されて、フィルタ出力y(t)とされる。図25Aには、例示を目的として、4つのマイクロフォンM0、M1、M2およびM3と4つのフィルタF0、F1、F2およびF3が示されているが、本発明の実施形態は、2つを超える任意の数のマイクロフォンと、対応する数のフィルタとを有してもよいことを当業者は認めるであろう。図25Aは例示のためにマイクロフォンの線形のアレイを示しているが、本発明の実施形態は、このような構成に限定されない。別の実施形態では、上で述べたように、3つ以上のマイクロフォンが二次元のアレイに配置されていても、4つ以上のマイクロフォンが三次元のアレイに配置されていてもよい。1つの特定の実施形態では、2マイクロフォンアレイに基づくシステムが、ビデオゲーム用のコントローラユニットに組み込まれうる。
【0205】
1つ以上の発生源2004、2006からマイクロフォンアレイ2002に到達した音声信号は、ベクトルx=[x0,x1,x2,x3](x0、x1、x2およびx3は、それぞれマイクロフォンM0、M1、M2およびM3によって受信される信号である)で表すことができる。各信号xmは、通常、異なる音源のために、下位成分を備える。この例では、添字mは0〜3の範囲をとり、アレイ内の異なるマイクロフォンと区別するために使用される。下位成分は、ベクトルs=[s1,s2,…,sK](Kは異なる発生源の個数)で表すことができる。
【0206】
異なる発生源から発生した信号sから音を分離するには、フィルタF0、F1、F2およびF3のそれぞれに対して最良のTDAフィルタを決定しなければならない。発生源2004、2006からの音の分離を容易にするために、フィルタF0、F1、F2およびF3は、1つ以上の事前較正された聴取ゾーンZを定義するフィルタパラメータ(例えばFIRフィルタ係数および/またはTDA値)によって事前に較正される。各聴取ゾーンZは、マイクロフォンアレイ2002に近い空間の領域である。パラメータは、聴取ゾーンZ内に存在する発生源2004から発生する音が検出されるが、聴取ゾーンZの外に存在する発生源2006から発生する音がフィルタ除去される、すなわち実質的に減衰されるように選択される。図25Aに示す例では、聴取ゾーンZは、マイクロフォンアレイ2002の中心またはその近くに原点を有する、多少くさび形のセクタ(sector)として示されている。別の実施形態では、聴取ゾーンZは、離散的な体積(例えば、空間内の矩形、球形、円錘形、または任意の形状の体積)であってもよい。くさび形の聴取ゾーンは、マイクロフォンの線形のアレイを使用して確実に設定することができる。任意の形状の体積によって定義される確実な聴取ゾーンは、平面アレイまたは少なくとも4つのマイクロフォンからなるアレイを使用して構成することができる。その場合、例えば、図6および図23Cに図示したように、少なくとも1つのマイクロフォンが、ほかのマイクロフォンとは異なる平面にある。このようなアレイは、ここでは凹形のマイクロフォンアレイと呼ぶ。
【0207】
図25Bのフロー図に示すように、マイクロフォンアレイ2002を使用する対象音声検出のための方法2010は、以下のように進みうる。2012に示すように、事前較正された1つ以上の聴取ゾーンZに対応するフィルタF0、F1、F2およびF3に対するフィルタ係数の1つ以上の組が決定される。図12Aおよび図12Bに関して上述したように、フィルタF0、F1、F2およびF3は、フィルタ7020,…,702Mと、遅延z−1を有する対応するフィルタタップ704mi、および有限インパルス応答フィルタ係数bmiを使用するなどによって、ハードウェアまたはソフトウェアで実装されうる。フィルタ係数の各組は、入力信号の、所定の聴取セクタ内で発生した音に対応する部分を検出するために選択され、所定の聴取セクタの外で発生する音をフィルタ除去する。聴取セクタSを事前較正するために、1つ以上の既知の較正音源が、セクタS内、およびのその外のいくつかの異なる既知の位置に配置されうる。較正中に、較正源は、マイクロフォンアレイ2002がおそらく実行時に受信すると思われる音と同じような既知のスペクトル分布によって特徴付けられる音を発しうる。次に、発生源の、この既知の位置とスペクトル特性が、フィルタF0、F1、F2およびF3に対するフィルタパラメータの値を選択するために使用されうる。
【0208】
例えば、フィルタF0、F1、F2およびF3を事前較正して聴取ゾーンZを定義するために、ブラインド音源分離(BSS)を使用することができるが、これに限定されない。ブラインド音源分離は一組の信号を他の一組の信号に分離し、これにより、得られたそれぞれの信号の規則性が最大となるとともに、信号間の規則性が最小となる(すなわち、統計的独立が最大となるか、非相関性が最小となる)。ブラインド音源分離では、二次統計量に基づく独立成分解析(ICA)が行われうる。このような場合、各マイクロフォンに到達した信号のデータはランダムベクトルxm=[x1,…,xn]、成分はランダムベクトルs=[s1,…,sn]で表現できる。例えば、図11A、11B、12A、12Bおよび13に関して上に記載したように、観測データxmは、線形静的変換s=Wxを使用して、独立の何らかの関数F(s1,…,sn)によって測定された独立度が最大の成分sに変換される。マイクロフォンアレイ200の聴取ゾーンZは、実行時の前(例えば、マイクロフォンアレイの設計および/または製造時に)に較正され、任意選択で実行時に再較正されうる。図11A、11B、12A、12Bおよび13に関して、聴取方向の較正に関して上に記載したように、例えば、聴取ゾーンZは、聴取ゾーン(listening)内で発話している人を記録して、記録した発話に二次統計量を適用することによって、事前較正されることができる。
【0209】
聴取ゾーンZ内の異なる位置にユーザを立たせて、上記の手順を繰り返すことによって、較正プロセスをより精密に行うことができる。マイクロフォンアレイのノイズ除去では、ユーザが話しながらある程度自由に動ける空間が得られるように、ビーム形成が一定の許容差を有するように(事実上、聴取円錐領域を形成する)、較正中にユーザが聴取セクタ内を動き回ることが好ましい。これに対して、本発明の実施形態では、聴取セクタSの円錐領域の全体について、音声/音検出を較正する必要はない。その代わり、聴取セクタは、好ましくは、聴取ゾーンZの中心に沿った非常に狭いビームBについて較正され、その結果、ノイズ圧縮比に基づく最終的なセクタ決定がより確実なものとなる。このプロセスが、1つ以上の追加の聴取ゾーンについて繰り返されうる。
【0210】
再び図25Bを参照すると、2014に示すように、特定の事前較正された聴取ゾーンZに対応するフィルタパラメータの組を、フィルタF0、F1、F2およびF3に適用することによって、特定の事前較正された聴取ゾーンZが実行時に選択されうる。その結果、マイクロフォンアレイは、特定の聴取セクタ内で発生した音を検出し、特定の聴取セクタの外で発生する音をフィルタ除去することができる。図25Aには1つの聴取セクタしか示されていないが、本発明の実施形態は、複数の異なる聴取セクタが事前較正される場合に拡張することができる。図25Bの2016に示すように、音源が存在するセクタを決定するために、マイクロフォンアレイ2002は、次に、実行時に2つ以上の事前較正されたセクタ間をトラッキングしうる。例えば図25Cに示すように、マイクロフォンアレイ2002を取り囲む空間が、マイクロフォンアレイ2002を取り囲んで約360°をなす、18の異なる事前較正された20°のくさび形の聴取セクタS0,…,Snの形で、複数の聴取ゾーンに分割されうる。これは、上で簡単に説明した較正操作を異なるセクタの各々に実行して、異なるセクタのそれぞれを、FIRフィルタ係数とTDA値の異なる組と関連付けることによって得られる。所定のフィルタ設定の適切な組(例えば前述のように、較正中に決定されるFIRフィルタ係数および/またはTDA値)をフィルタF0、F1、F2およびF3に適用することによって、聴取セクタS0,…,S17のいずれかが選択されうる。
【0211】
フィルタ設定のある組から別の組に切り替えることによって、マイクロフォンアレイ2002は、あるセクタから別のセクタに切り替えて、音源2004をあるセクタから別のセクタでトラッキングすることができる。例えば、再度図25Cを参照すると、音源2004がセクタS7にあり、フィルタF0、F1、F2およびF3が、セクタS4を選択するために設定されている場合を考える。フィルタがセクタS4の外で発生する音をフィルタ除去するように設定されているため、音源2004からの音の入力エネルギーEは減衰される。入力エネルギーEは以下のドット積として定義することができる。
【0212】
【数7】
【0213】
上記式において、xmT(t)はベクトルxm(t)の転置であり、マイクロフォン出力xm(t)を表している。この合計は、アレイ内のM個の全マイクロフォンについて求めた平均である。
【0214】
すなわち、入力エネルギーEの減衰は、入力エネルギーEとフィルタ出力エネルギーの比から求めることができる。すなわち、減衰=
【0215】
【数8】
となる。
フィルタが音源2004を含むセクタを選択するように設定されている場合、減衰はほぼ1に等しい。このため、音源2004は、フィルタF0、F1、F2およびF3の設定を、あるセクタから別のセクタに切り替えて、異なるセクタの減衰を決定することによってトラッキングすることができる。異なる聴取セクタの減衰の決定を使用する対象音声検出方法2020は、図25Dのフロー図に示すように進みうる。2022において、最初に、事前較正された聴取セクタのいずれかが選択されうる。例えば、セクタS4(前方の聴取方向にほぼ対応している)が、既定の初期聴取セクタとして選択されうる。2024において、この初期傾聴セクタについて、入力信号エネルギーの減衰が決定される。2026において、減衰が最適値にない場合、2028において、別の事前較正されたセクタが選択されうる。
【0216】
音源2004を含むセクタを求めて、セクタS0,…,S17を検索する方法は数多く存在する。例えば、アレイの端のマイクロフォンM0とM3の入力信号エネルギー入力を比較することによって、音源2004が、既定のセクタS4のどちら側にあるかを決定することが可能である。例えば、場合によっては、正しいセクタが、マイクロフォンアレイ2002の後方、例えば、セクタS9,…,S17に存在する場合がある。多くの場合、マイクロフォンアレイの取り付けによって、発生源2004がこのようなセクタのいずれかに存在する場合に、例えば約1dBの最小の減衰が存在するように、これらのセクタから来る音に、固有の減衰が入り込むことがある。したがって、発生源2004がマイクロフォンアレイ2002の「前方」または「後方」のいずれに存在するかを、入力信号の減衰から決定することができる。
【0217】
最初の概算として、音源2004が、大きな入力信号エネルギーを有するマイクロフォンに近いことが予想されうる。図25Cに示す例では、右手のマイクロフォンM3が入力信号エネルギーが大きく、除去処理によって、音源2004が、セクタS6、S7、S8、S9、S10、S11、S12のうちの1つに存在することが予想される。好ましくは、次に選択されるセクタは、初期セクタS4から、右手のマイクロフォンM3に向かう方向に約90°離れたセクタ(例えばセクタS8)である。2024に示されるように、セクタS8に対する入力信号エネルギーの減衰が決定されうる。減衰が最適値でない場合、2026において、別のセクタが選択されうる。例えば、次のセクタは、前のセクタから、初期セクタの方向に約45°戻るセクタ(例えばセクタS6)でありうる。ここでも、入力信号エネルギーの減衰が決定され、最適な減衰と比較されうる。入力信号エネルギーが最適値に近くない場合、この例では、2つのセクタのみが残る。このため、図25Cに示す例では、最大4つのセクタが切り替わり、正しいセクタが決定されうる。入力信号のエネルギーの減衰を決定して、異なる聴取セクタ間を切り替える処理は、入力信号が十分に強い場合には、約100ミリ秒で行われうる。
【0218】
前述のように、音源の位置は、ここで「音波レーダー」と呼ぶ音源の位置特定および特徴付け法と共に使用することができる。図25Eは、プロセッサ2034とメモリ2036を有する電子装置2032と結合された、マイクロフォンアレイ2002を有する上記の音源の位置特定および特徴付け装置2030の例を示す。装置は、ビデオゲーム、テレビまたは他の家庭用電気製品でありうる。プロセッサ2034は、上記に記載したFIRフィルタおよび時間遅延を実装する命令を実行しうる。メモリ2036は、複数の聴取ゾーンの事前較正に関するデータ2038を有しうる。例えば、事前較正された聴取ゾーンには、くさび形の聴取セクタS0、S1、S2、S3、S4、S5、S6、S7、S8が含まれうる。
【0219】
プロセッサ2034によって実行される命令は、装置2030を、図25Fのフロー図2031に説明する方法に従って動作させうる。聴取ゾーン内の音源2004、2005が、マイクロフォンアレイ2002を使用して検出されうる。一方の音源2004は、装置2032または同装置のユーザにとって関心のあるものである。もう一方の音源2005は、背景ノイズ源であるか、あるいは装置2032またはそのユーザにとって関心のないものである。マイクロフォンアレイ2002が音を検出すると、図25Fの2033に示すように、装置2030は、音源2004を含む聴取ゾーンを決定する。例えば、音源2004、2005を含む事前較正された聴取ゾーン(例えば、それぞれセクタS3とS6)を決定するために、図25C〜25Dに関して上記した反復的な音源セクタの位置特定ルーチンが使用されうる。
【0220】
音源を含む聴取ゾーンが識別されると、例えば、適応ビーム形成を使用するなどにより、マイクロフォンアレイが音源に再び焦点を合わせられる。適応ビーム形成法の使用は、例えば、シャドン マオ(Xiadong Mao)の米国特許出願公開第2005/0047611号明細書に記載されており、同文献は参照によりここに援用される。次に、2035に示すように、例えば、音源から発生する音声信号の音スペクトルを解析することによって、音源2004が特徴付けられうる。詳細には、音源からの時間領域信号が、所定の時間ウィンドウにわたって分析され、高速フーリエ変換(FFT)が実行されて、音源の周波数分布特性が得られうる。検出された周波数分布が、既知の音響モデルと比較されうる。既知の音響モデルは、既知の音源から得られたトレーニングデータから生成される周波数分布(frequency distribution)などである。数多くの異なる音響モデルが、メモリ2036またはほかの記憶媒体にデータ2038の一部として記憶されており、検出された周波数分布と比較されうる。発生源2004、2005から検出された音を、これらの音響モデルと比較することによって、数多くの異なる可能な音源を識別することができる。
【0221】
装置2032は、音源2004、2005の特徴付けに基づいて、音源が関心のあるものがどうかに基づいて適切な動作をとることができる。例えば、音源2004が装置2032にとって関心のあるものであると決定された場合、装置はセクタS3から来る音を強調または増幅するか、ほかの適切な動作をとるか、この両方を行うことができる。例えば、装置2032がビデオゲームコントローラであり、発生源2004がゲームのプレーヤの場合、装置2032は、ゲームコマンドとして解釈される発生源2004からの音に反応して、「ジャンプ」、「スイング」などのゲームコマンドを実行しうる。同様に、音源2005が、装置2032またはそのユーザにとって関心がないと決定された場合、装置は、セクタS6から来る音をフィルタ除去するか、または他の適切な動作をとりうる。一部の実施形態では、例えば、音源を含む聴取ゾーンと音源の種類を示すアイコンがディスプレイ画面に表示されうる。
【0222】
一部の実施形態では、音の増幅やほかの適切な動作では、音源と関連するノイズ妨害の低減が行われうる。例えば、音源104と関連する音声信号のノイズ妨害が、音声信号の残りの成分に対して増幅されうる。次に、音声信号のサンプリングレートが下げられて、サンプリングレートを下げた音声信号に偶数次の導関数が適用されて検出信号が定義される。次に、音声信号のノイズ妨害が、検出信号の統計平均に従って調整されうる。音声信号に関連する妨害をキャンセル可能なシステム、ビデオゲームコントローラ、および音声信号に関連するノイズ妨害を低減する集積回路が含まれる。このような技術の詳細は、例えば、シャドン マオ(Xiadong Mao)による、譲受人共通の2004年4月7日出願の米国特許出願第10/820,469号「音声妨害を検出および除去する方法および装置(METHOD AND APPARATUS TO DETECT AND REMOVE AUDIO DISTURBANCES)」に記載されている。同出願は、2005年10月13日に米国特許出願公開第2005/0226431号として公開されており、これらの全開示が参照によりここに援用される。
【0223】
例えば、装置2030は、乳児モニタアプリケーションで使用されうる。詳細には、メモリ2036に記憶された音響モデルには、乳児、または場合によっては特定の乳児に特有の周波数分布が含まれうる。このような音は、装置130またはそのユーザによって関心のあるものとして識別されうる。電話、テレビ、ラジオ、コンピュータ、人の会話など、ほかの既知の音源の周波数分布が、メモリ2036に記憶されていてもよい。これらの音源は、関心のないものとして識別されうる。
【0224】
音源の位置特定および特徴付けのための装置および方法は、超音波および音波をベースとした家電遠隔制御に使用することができる。これは、例えば、スティーブン オスマン(Steven Osman)による、譲受人共通の米国特許出願第 号「可聴装置による制御のためのシステムおよび方法(SYSTEM AND METHOD FOR CONTROL BY AUDIBLE DEVICE)」(代理人書類番号SCEAJP 1.0−001)に記載されており、これらの全開示が参照によりここに援用される。詳細には、マイクロフォンアレイ2002によって受信された音が分析されて、それが所定の特徴を1つ以上含んでいるかどうかが決定される。音が1つ以上の所定の特徴を含んでいないと決定された場合には、装置2032の少なくとも1つの要素(aspect)を制御するために、少なくとも1つの制御信号が生成されうる。
【0225】
本発明の一部の実施形態では、事前較正された聴取ゾーンZが、カメラの視野に対応していてもよい。例えば、図25G〜25Hに示すように、オーディオビデオ装置2040は、上記したものなどのマイクロフォンアレイ2002と信号フィルタF0、F1、F2、F3、および画像キャプチャユニット2042を備えうる。例えば、画像キャプチャユニット2042はデジタルカメラでありうる。適切なデジタルカメラの例に、米国カリフォルニア州フリーモント所在のロジテック社(Logitech)によって「EyeToy」という名称で販売されているカラーのデジタルカメラがある。画像キャプチャユニット2042は、例えば、マイクロフォンアレイ2002を画像キャプチャユニット2042に取り付けるか、またはその逆を行うことによって、マイクロフォンアレイ2002に対して固定位置に取り付けられうる。別の実施形態では、マイクロフォンアレイ2002と画像キャプチャユニット2042の両方が、共通のフレームまたはマウント(図示せず)に取り付けられてもよい。好ましくは、画像キャプチャユニット2042のレンズ系2046の光軸2044が、マイクロフォンアレイ2002のマイクロフォンM0、M1、M2、M3の共通面に垂直な軸と平行になるように位置合わせされるように、画像キャプチャユニット2042の向きが設定される。レンズ系2046は、画像キャプチャユニットの、時として「視野」と呼ばれる焦点体積FOVによって特徴付けられうる。通常、視野FOVの外の物体は、画像キャプチャユニット2042が生成する画像には現れない。フィルタF0、F1、F2、F3の設定は、マイクロフォンアレイ2002が画像キャプチャユニット2042の視野FOVに対応する聴取ゾーンZを有するように、事前較正されうる。ここで使用するように、視野FOVと聴取ゾーンZがかなりの程度重複している場合、聴取ゾーンZが視野FOVに「対応している」という。ここで使用するように、視野FOV内の物体も聴取ゾーンZ内にあり、視野FOVの外にある物体も聴取ゾーンZの外にある場合、両者は「かなりの程度重複している」という。図25G〜25Hに示した実施形態の範囲内で、前述の「対応している」と「かなりの程度重複している」との文言の定義では、物体が聴取ゾーンZ内にあるが、視野FOVの外にある場合も許容する点に注意されたい。
【0226】
上記の通り、聴取ゾーンZは、例えば較正段階で、視野FOV内のさまざまな場所に置いた1つ以上の公知の発生源を使用することにより、フィルタF0、F1、F2、F3に対するFIRフィルタ係数およびTDA値を調整することによって事前較正することができる。FIRフィルタ係数およびTDA値は、FOV内にある発生源2004からの音が検出されて、FOVの外の発生源2006からの音がフィルタ除去されるように、(例えば、ICAを使用して)選択される。装置2040によって、ビデオおよび音声画像の処理が向上する。画像キャプチャユニット2042の視野FOVに対応させて聴取ゾーンZを事前較正することによって、FOV内の発生源から発生する音が増強される一方、FOVの外で発生する音が低減されうる。このような装置へのアプリケーションには、オーディオビデオ(AV)チャットがある。
【0227】
図25G〜図25Hには、事前較正された聴取セクタが1つしか図示されていないが、本発明の実施形態は、カメラと共に、事前較正された聴取セクタを複数使用してもよい。例えば、図25I〜25Jは、マイクロフォンアレイ2002と、1つ以上のポインティングアクチュエータ2054(サーボモータなど)に取り付けられた画像キャプチャユニット2052(デジタルカメラなど)を有する装置2050を示す。マイクロフォンアレイ2002、画像キャプチャユニット2052およびアクチュエータは、プロセッサ2057およびメモリ2058を有する制御装置2056と結合されうる。メモリ2058に記憶されているソフトウェアデータ2055と、メモリ2058に記憶され、プロセッサ2057によって実行される命令2059とが、上記の信号フィルタ機能を実装しうる。ソフトウェアデータは、事前較正された聴取ゾーンの組(例えば、それぞれマイクロフォンアレイ2002の前方で180°の領域をカバーしている9の20°のくさび形セクタS0,…,S8)に対応するFIRフィルタ係数およびTDA値を含みうる。ポインティングアクチュエータ2050は、プロセッサ2057が生成した信号に反応して、画像キャプチャユニット2052を視覚(viewing)方向に向けうる。本発明の実施形態では、図25C〜25Dに関して上述したように、例えば、音源2004を含む聴取ゾーンが決定されうる。音源2004を含むセクタが決定されると、図25Jに示すように、アクチュエータ2054は、音源2004を含むこの事前較正された聴取ゾーンの方向に、画像キャプチャユニット2052を向けうる。マイクロフォンアレイ2002は固定位置に置かれるが、ポインティングアクチュエータは、選択された聴取ゾーンの方向にカメラを向ける。
【0228】
本発明の実施形態によれば、図25A〜25Jに関して上記したタイプの、上記のように機能する信号処理方法は、図26に示すように信号処理装置2100の一部として実装されうる。装置2100は、プロセッサ2101とメモリ2102(例えばRAM、DRAM、ROMなど)を備えうる。更に、並列処理を実装する場合は、信号処理装置2100は複数のプロセッサ2101を備えていてもよい。メモリ2102は、上記のように構成されたデータとコードを格納している。詳細には、メモリ2102は、図12Aおよび図12Bに関して上述した、入力信号xm(t)のデジタル表現、フィルタ7020,…,702Mを実装しているコードおよび/またはデータ、ならびに遅延Z−1を有する対応するフィルタタップ704miおよび有限インパルス応答フィルタ係数bmiを含む信号データ2106を格納しうる。また、メモリ2102は、較正データ2108も格納し、これには例えば、上記のようにマイクロフォンアレイ2122の較正から得られた1つ以上の対応する事前較正された聴取ゾーンのための1つ以上の逆固有行列C−1を表現するデータなどがある。例えば、メモリ2102は、マイクロフォンアレイ2122を含む18の20°のセクタのための固有行列を格納しうる。また、メモリ2102は、例えば、図15に関して上述したようにプロファイル情報を格納しうる。
【0229】
また、装置2100は、入出力(I/O)構成要素2111、電源(P/S)2112、クロック(CLK)2113およびキャッシュ2114などの周知の支持機能2110も備えうる。装置2100は、プログラムおよび/またはデータを記憶するためのディスクドライブ、CD−ROMドライブ、テープ装置などの大容量記憶装置2115を任意選択で備えていてもよい。制御装置は、制御装置2100とユーザとの間で対話できるようにするためのディスプレイ装置2116およびユーザインタフェースユニット2118を任意選択で備えていてもよい。ディスプレイ装置2116は、テキスト、数字、グラフィックシンボルまたは画像を表示する陰極線管(CRT)スクリーンまたはフラットパネルスクリーンの形をとりうる。ユーザインタフェース2118は、キーボード、マウス、ジョイスティック、ライトペンやその他の装置を備えうる。更に、ユーザインタフェース2118は、分析すべき信号を直接キャプチャできるようにするマイクロフォン、ビデオカメラまたはその他の信号変換装置を備えうる。プロセッサ2101、メモリ2102およびシステム2100の他の構成要素は、図26に示すようにシステムバス2120を介して、互いに信号(コード命令およびデータなど)を交換しうる。
【0230】
マイクロフォンアレイ2122は、I/O機能2111によって装置2100と結合されうる。マイクロフォンアレイは、近くのマイクロフォンと約4センチメートル未満、好ましくは約1センチメートル〜約2センチメートル離間させた約2〜約8のマイクロフォン、好ましくは約4のマイクロフォンを有しうる。好ましくは、アレイ2122内のマイクロフォンは、無指向性マイクロフォンである。任意選択の画像キャプチャユニット2123(デジタルカメラなど)が、I/O機能2111によって装置2100と結合されうる。カメラと機械的に結合される1つ以上のポインティングアクチュエータ2125は、I/O機能2111を介してプロセッサ2101と信号を交換しうる。
【0231】
ここで使用するように、「I/O」との文言は、一般に、システム2100との間で、および周辺装置との間でデータを転送する任意のプログラム、操作または装置を指す。あらゆるデータ転送は、ある装置からの出力と、別の装置への入力と考えることができる。周辺装置は、キーボードおよびマウスなどの入力専用装置、プリンタなどの出力専用装置のほか、入力装置と出力装置の両方として機能することができる書き込み可能CD−ROMなどの装置を含む。「周辺装置」との文言には、マウス、キーボード、プリンタ、モニタ、マイクロフォン、ゲームコントローラ、カメラ、外部Zipドライブまたはスキャナなどの外部装置のほか、CD−ROMドライブ、CD−Rドライブ、内蔵モデム、フラッシュメモリリーダライタ、ハードディスク等のほかの周辺装置などの内蔵装置が含まれる。
【0232】
本発明の特定の実施形態では、装置2100はビデオゲームユニットであり、これは、有線(USBケーブルなど)によってまたは無線でI/O機能2111を介してプロセッサと結合されたジョイスティックコントローラ2130を有しうる。ジョイスティックコントローラ2130は、ビデオゲームのプレイ中に共通に使用される制御信号を供給するアナログジョイスティック制御部2131と、従来のボタン2133を有しうる。このようなビデオゲームは、プロセッサ可読のデータおよび/または命令として実装され、これらは、メモリ2102または他のプロセッサ可読媒体(大容量記憶装置2115に関連するものなど)に記憶されうる。
【0233】
ジョイスティック制御部2131は、通常、コントロールスティックを左または右に動かすと、X軸に沿った移動の信号が生成され、前(上)または後ろ(下)に動かすとY軸に沿った移動の信号が生成されるように構成されうる。三次元移動するように構成されたジョイスティックでは、スティックを左(反時計回り)または右(時計回りに)を回転させると、Z軸に沿った移動の信号が生成されうる。これらの3本の軸(X軸、Y軸およびZ軸)は、多くの場合、特に航空機に関連して、ロール、ピッチおよびヨーと呼ばれる。
【0234】
ジョイスティックコントローラ2130は、従来の機能に加えて、1つ以上の慣性センサ2132を有していてもよく、これは、慣性信号によって、位置および/または向きの情報をプロセッサ2101に供給しうる。向きの情報には、ジョイスティックコントローラ2130のチルト、ロールまたはヨーなどの角度情報が含まれうる。例えば、慣性センサ2132は、加速度計、ジャイロスコープまたはチルトセンサを、任意の数および/または組合せで有していてもよい。好ましい実施形態において、慣性センサ2132は、チルト軸およびロール軸に対して、ジョイスティックコントローラの向きを検出するように適合されたチルトセンサと、ヨー軸に沿った加速度を検出するように適合された第1の加速度計と、ヨー軸に対する角加速度を検出するために適合する第2の加速度計を有する。加速度計は、例えば、1つ以上のスプリングによって質量が取り付けられ、1つ以上の方向に対してその質量の移動を検出するためのセンサを有するMEMS装置として実装されうる。質量の移動に応じて変わるセンサからの信号を使用して、ジョイスティックコントローラ2130の加速度が決定されうる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。
【0235】
更に、プログラムコード2104は、1つ以上の命令を有するプロセッサ実行可能命令を任意選択で有してもよく、これは、実行されると、ゲーム環境に対するコントローラの操作のマッピングを調整する1つ以上のプログラム命令を有しうる。このような機能により、ユーザは、ゲームの状態に対して、ジョイスティックコントローラ2130の操作の「ギヤリング(gearing)」を変更できるようになる。例えば、ジョイスティックコントローラ2130を45°回転させることが、ゲーム物体の45°の回転にマップされうる。しかし、コントローラをX°回転させる(またはチルトまたはヨーまたは「操作」)と、ゲーム物体のY回転(またはチルトまたはヨーまたは「操作」)に変換されるように、このマッピングが変更されてもよい。このようなマッピングのギアリングまたは比率の変更は、ゲームのプレイまたはゲームの状態に従って、あるいはジョイスティックコントローラ2130にあるユーザ変更ボタン(キーパッドなど)を使用して、プログラムコード2104によって調整されうる。特定の実施形態では、プログラムコード2104は、所定の時間に依存する方法で、経時により、X:Xの比をX:Yの比にマッピングを変更しうる。
【0236】
更に、ジョイスティックコントローラ2130は、発光ダイオード(LED)などの1つ以上の光源2134も有していてもよい。光源2134は、コントローラ同士を区別するために使用されうる。例えば、1つ以上のLEDが、点滅するかまたはLEDパターンコードを保持することによってこれを行ってもよい。例えば、5つのLEDが、線形または二次元のパターンで、ジョイスティックコントローラ2130に設けられうる。LEDの線形のアレイが好ましいが、別の実施形態では、画像キャプチャユニット2123によって得られたLEDパターンの画像を分析する際に、LEDアレイの画像平面が決定しやすいように、LEDが矩形のパターンまたは弓状のパターンで配置されていてもよい。更に、LEDパターンコードが、ゲームプレイ中にジョイスティックコントローラ2130の位置を決定するために使用されてもよい。例えば、LEDは、コントローラのチルト、ヨーおよびロールを識別するのを支援しうる。この検出パターンは、航空機飛行ゲームなどのゲームにおいて、ユーザの感覚をより現実に近づけるのを支援することができる。画像キャプチャユニット2123は、ジョイスティックコントローラ2130と光源2134を含む画像をキャプチャしうる。このような画像を分析することで、ジョイスティックコントローラの位置および/または向きを決定することができる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。画像キャプチャユニット2123が光源2134の画像をキャプチャしやすくなるように、光源2134は、ジョイスティックコントローラ2130の2つ以上の異なる側、例えば、(想像線に示すように)前面と背面に配置されうる。このように配置することで、ユーザによるジョイスティックコントローラ2130の持ち方に応じて変わるジョイスティックコントローラ2130の異なる向きに対して、画像キャプチャユニット2123は、光源2134の画像を得ることが可能となる。
【0237】
更に、光源2134は、テレメトリ信号を、例えば、パルスコード、振幅変調または周波数変調方式で、プロセッサ2101に供給しうる。このようなテレメトリ信号は、押下されているジョイスティックボタンおよび/またはこのボタンの押下強度を示しうる。テレメトリ信号は、例えば、パルス符号化、パルス幅変調、周波数変調または光強度(振幅)変調によって、光信号に符号化されうる。プロセッサ2101は、光信号からテレメトリ信号を復号化して、復号化したテレメトリ信号に応じてゲームコマンドを実行しうる。テレメトリ信号は、画像キャプチャユニット2123によって得られたジョイスティックコントローラ2130の画像を分析することで復号化されてもよい。別の実施形態では、装置2101が、光源2134からのテレメトリ信号を受信する専用の別個の光センサを有してもよい。コンピュータプログラムとインタフェースする際の強度量の決定と併用されるLEDの使用は、譲受人共通の米国特許出願第 号、リチャードL.マークスらの「コンピュータプログラムとインタフェースする場合に、強度量を決定する際のコンピュータ画像および音声処理の使用(USE OF COMPUTER IMAGE AND AUDIO PROCESSING IN DETERMINING AN INTENSITY AMOUNT WHEN INTERFACING WITH A COMPUTER PROGRAM)」(代理人書類番号SONYP052)に記載されており、その全体が参照によりここに援用される。更に、光源2134を含む画像の分析は、テレメトリのためと、ジョイスティックコントローラ2130の位置および/または向きの決定のための両方に使用することができる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。
【0238】
プロセッサ2101は、画像キャプチャユニット2123によって検出された光源2134からの光信号および/またはマイクロフォンアレイ2122によって検出された音響信号からの音源の位置および特徴付けの情報と共に、慣性センサ2132からの慣性信号を使用して、ジョイスティックコントローラ2130および/またはそのユーザの位置および/または向きに関する情報を推論することができる。例えば、移動する音声をトラッキングするために、「音波レーダー」の音源の位置特定および特徴付けが、マイクロフォンアレイ2122と共に使用されうる一方で、ジョイスティックコントローラの移動が、(慣性センサ2132および/または光源2134によって)独立してトラッキングされる。プロセッサ2101に制御信号に供給する異なるモードについて、本発明の実施形態と共に、任意の数のモードを異なる組合せで使用することができる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。
【0239】
慣性センサ2132からの信号は、トラッキング情報入力の一部となり、1つ以上の光源2134をトラッキングすることにより画像キャプチャユニット2132から生成された信号は、トラッキング情報入力の別の部分となりうる。例えば、このような「混合モード」信号は、クォーターバックが、ひっかけのために左に頭を動かした後に、右にボールを投げるフットボールタイプのビデオゲームで使用することができるが、これに限定されない。詳細には、コントローラ2130を持っているゲームのプレーヤが、頭を左に向けた後に、コントローラを、それがフットボールであるかのように、コントローラを右に(out to the right)振って投げる動作をしながら音を発しうる。「音波レーダー」プログラムコードと共に用いられるマイクロフォンアレイ2120が、ユーザの音をトラッキングしうる。画像キャプチャユニット2123は、ユーザの頭の移動をトラッキングするか、または音声やコントローラの使用を必要としない他のコマンドをトラッキングしうる。センサ2132は、ジョイスティックコントローラ(フットボールを表す)の移動をトラッキングしうる。画像キャプチャユニット2123は、コントローラ2130にある光源2134もトラッキングしうる。ジョイスティックコントローラ2130の加速度が特定の量および/または方向に達したら、あるいはまたはジョイスティックコントローラ2130のボタンを押すことによってトリガされるキーコマンドが発生されたら、ユーザは「ボール」を離しうる。
【0240】
本発明の特定の実施形態では、ジョイスティックコントローラ2130の位置を決定するために、加速度計またはジャイロスコープなどからの慣性信号が使用されうる。詳細には、加速度計からの加速度信号が、時間に関して積分されて、速度の変化が決定され、この速度が時間に関して積分されて、位置の変化が決定されうる。初期位置の値と、ある時点での速度が既知の場合には、これらの値と速度および位置の変化を使用して、絶対位置が決定されうる。慣性センサを使用した位置決定は、画像キャプチャユニット2123と光源2134を使用する場合よりも迅速に実行されうるが、慣性センサ2132は、「ドリフト」として知られるタイプの誤差を受けることがある。この誤差では、経時的に蓄積された誤差により、慣性信号から計算されるジョイスティック2130の位置(想像線に示される)と、ジョイスティックコントローラ2130の実際の位置の間に不一致Dが生じることがある。本発明の実施形態では、このような誤差を処理する数多くの方法が可能である。
【0241】
例えば、ジョイスティックコントローラ2130の初期位置を、計算で求めた現在の位置の値にリセットすることによって、ドリフトを手動で相殺することができる。ユーザは、初期位置をリセットするコマンドを起動させるために、ジョイスティックコントローラ2130のボタンの1つ以上を使用することができる。別の実施形態では、画像に基づくドリフトは、画像キャプチャユニット2123から得られた画像から決定された位置を基準として、現在の位置をリセットすることによって実装されうる。このような画像に基づくドリフト補償は、例えば、ユーザがジョイスティックコントローラ2130のボタンの1つ以上を起動したときに、手動で実装されうる。別の実施形態では、画像に基づくドリフト補償は、例えば、定期的な時間間隔で、あるいはゲームのプレイに応答してなど、自動的に実装されうる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。
【0242】
特定の実施形態では、慣性センサ信号の偽のデータを補償することが望ましいことがある。例えば、慣性センサ信号から偽のデータを除去するために、慣性センサ2132から信号がオーバーサンプリングされて、オーバーサンプリングされた信号から、スライド平均(sliding average)が計算されうる。一部の状況では、信号をオーバーサンプリングして、データ点の一部の部分集合から高い値および/または低い値を棄却して、残りのデータ点からスライド平均を計算することが望ましいことがある。更に、偽のデータの影響を取り除くか低減させるために、他のデータのサンプリングおよび操作手法を使用して、慣性センサからの信号が調整されうる。どの手法を選択するかは、信号の性質、信号に行われる計算、ゲームのプレイの性質、またはこれらの2つ以上の何らかの組合せに応じて決まる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。
【0243】
前述のように、プロセッサ2101は、データ2106と、メモリ2102によって記憶および取り出され、プロセッサモジュール2101によって実行されるプログラム2104のプログラムコード命令とに応じて、信号データ2106に対してデジタル信号処理を実行しうる。プログラム2104のコード部分は、アセンブラ、C++、JAVAや他の多くの言語などの多くの異なるプログラミング言語のいずれか1つに準拠しうる。プロセッサモジュール2101は汎用コンピュータであり、プログラムコード2104などのプログラムを実行する際に、特定用途コンピュータとなる。プログラムコード2104は、ソフトウェアで実装され、汎用コンピュータで実行されるものとしてここに記載したが、別の実施形態では、タスク管理のこの方法が、特定用途向け集積回路(ASIC)または他のハードウェア回路などのハードウェアを使用して実装されてもよいことを、当業者は理解するであろう。このようにして、本発明の実施形態が、全体あるいは部分的に、ソフトウェア、ハードウェアまたはこの両者の何らかの組合せで実装できることを理解すべきである。
【0244】
一実施形態では、プログラムコード2104は、なかでも、図25Bの方法2010、図25Dの方法2020、図25Fの方法2040、または図7、8、13、16、17、18または19に示した方法、あるいはこれらの2つ以上の何らかの組み合わせと共通する機能を有する方法を実装するプロセッサ読み込み可能な命令の組を含みうる。一実施形態では、プログラムコード2104は、一般に、1つ以上のプロセッサに対して、実行時に事前較正された聴取ゾーンを選択させて、この事前較正された聴取ゾーンの外の発生源から発生する音をフィルタさせる1つ以上の命令を備えうる。事前較正された聴取ゾーンは、画像キャプチャユニット2123の焦点体積または視野に対応する聴取ゾーンを含みうる。
【0245】
プログラムコードは、実行されると、装置2100に対して、音源を含む事前較正された聴取セクタを選択させる1つ以上の命令を備えうる。このような命令は、装置に対して、音源が初期セクタ内にあるか、または初期セクタの特定の側に存在するかどうかを決定させうる。音源が既定のセクタ内にない場合、命令は、実行されると、既定のセクタの特定の側にある異なるセクタを選択しうる。この異なるセクタは、入力信号の減衰が最適値に最も近いという特徴を有する。これらの命令は、実行されると、マイクロフォンアレイ2122からの入力信号の減衰と最適値の減衰を算出しうる。命令は、実行されると、装置2100に対し、1つ以上のセクタについて、入力信号の減衰の値を決定させて、減衰が最適値に最も近いセクタを選択させうる。
【0246】
プログラムコード2104は、1つ以上のプロセッサに対して、マイクロフォンM0,..,MMから離散的な時間領域入力信号xm(t)を生成させ、聴取セクタを決定させ、入力信号xm(t)から異なる音源を分離するための有限インパルス応答フィルタ係数を選択するために、セミブラインド音源分離において聴取セクタを使用させるように指示する1つ以上の命令を任意選択で含んでいてもよい。プログラム2104は、参照マイクロフォンM0からの入力信号x0(t)を除く選択された入力信号xm(t)に、1つ以上の微小な遅延を適用するための命令を含みうる。微小な遅延のそれぞれは、マイクロフォンアレイからの離散的時間領域出力信号y(t)の信号対雑音比を最適化するために選択されうる。参照マイクロフォンM0からの信号が、アレイ内の他のマイクロフォンからの信号に比べて時間が一番早くなるように、微小な遅延が選択される。また、プログラム2104は、y(t+Δ)=x(t+Δ)*b0+x(t−1+Δ)*b1+x(t−2+Δ)*b2+,…,+x(t−N+Δ)bN(ただし、Δは0〜±1)となるように、微小な時間遅延Δをマイクロフォンアレイの出力信号y(t)に導入しうる。
【0247】
プログラムコード2104は、任意選択で1つ以上の命令を有するプロセッサ実行可能命令を有し、この命令は、実行されると、画像キャプチャユニット2123に対して、画像キャプチャユニット2123の前の視野をモニタさせ、この視野内で光源2134を1つ以上識別させ、光源2134から発せられる光の変化を検出させ、この変化を検出すると、プロセッサ2101への入力コマンドを発生させる。ゲームコントローラにおいて動作を起動させるために画像キャプチャ装置と併用するLEDの使用は、リチャード L.マークスによる、譲受人共通の米国特許出願第10/759,782号「光入力装置のための方法および装置(METHOD AND APPARATUS FOR LIGHT INPUT DEVICE)」に記載されており、その全体が参照によりここに援用される。
【0248】
プログラムコード2104は、任意選択で1つ以上の命令を有するプロセッサ実行可能命令を有し、この命令は、実行されると、例えば、前述のように、慣性センサからの信号と、1つ以上の光源をトラッキングすることにより画像キャプチャユニットから生成された信号とを、ゲームシステムへの入力として使用する。プログラムコード2104は、任意選択で1つ以上の命令を有するプロセッサ実行可能命令を有し、この命令は、実行されると、慣性センサ2132内のドリフトを補償させる。
【0249】
更に、プログラムコード2104は、1つ以上の命令を有するプロセッサ実行可能命令を任意選択で有してもよく、これは、実行されると、ゲーム環境に対するコントローラの操作のギアリングおよびマッピングを調整する。このような機能により、ユーザは、ゲームの状態に対するジョイスティックコントローラ2130の操作の「ギヤリング」を変更できるようになる。例えば、ジョイスティックコントローラ2130を45°回転させることが、ゲーム物体の45°の回転にギアリングされうる。しかし、コントローラをX°回転させる(またはチルトまたはヨーまたは「操作」)と、ゲーム物体のY回転(またはチルトまたはヨーまたは「操作」)に変換されるように、この1:1のギア比が変更されてもよい。ギアリングは1:1の比、1:2の比、1:Xの比、X:Yの比であってよく、ここでXとYは任意の値をとることができる。更に、ゲームの制御に対する入力チャネルのマッピングは、経時的に変更されても、即時に変更されてもよい。変更には、ジェスチャ軌道モデルの変更、ジェスチャの位置、スケール、しきい値等の変更などが含まれうる。このようなマッピングは、ユーザの操作性のダイナミックレンジを広げるために、プログラムされていても、ランダムでも、層状になっていても(tiered)、互い違いにされていても(staggered)よい。マッピング、ギアリングまたは比率の変更は、ゲームのプレイまたはゲームの状態に従って、あるいはジョイスティックコントローラ2130にあるユーザ変更ボタン(キーパッドなど)を使用して、あるいは、広くは入力チャンネルに応じて、プログラムコード2104によって調整されうる。入力チャネルには、ユーザの音声の要素、コントローラによって生成された音声、コントローラによって生成されたトラッキング音声、コントローラのボタンの状態、ビデオカメラの出力、加速度計のデータ、チルト、ヨー、ロール、位置、加速度を含むコントローラのテレメトリデータ、ユーザまたは物体に対するユーザの操作をトラッキングすることができるセンサからのほかの任意のデータなどがある。
【0250】
特定の実施形態では、プログラムコード2104は、経時的なマッピングまたはギアリングを、所定の時間に依存する方法で、1つの方式または比率から別の方式に変更しうる。ギアリングおよびマッピングの変更は、さまざまな方法でゲーム環境に適用されうる。1つの例では、ビデオゲームのキャラクタが、そのキャラクタが健康なときはあるギアリング方式下で制御され、そのキャラクタの健康状態が悪化すると、システムが、コントローラコマンドのギアを変更しうる。このため、ユーザが、キャラクタにコマンドを提示するための(gesture)、コントローラの動きが悪化する。ビデオゲームのキャラクタが方向感覚を失った場合、例えば、ユーザが、入力を調整して、新しいマッピング下でキャラクタの制御を取り戻すことが必要なため、入力チャネルのマッピングが強制的に変更されうる。入力チャネルのゲームコマンドへの変換を変更するマッピング方式は、ゲームのプレイ中も変更を行うことができる。この変換は、ゲームの状態に応じて、または入力チャネルの1つ以上の構成要素の下で発行される変更コマンドに応じて、さまざまな方法で行われうる。ギアリングおよびマッピングは、入力チャネルの1つ以上の構成要素の構成および/または処理に影響するようにも構成することができる。
【0251】
更に、ジョイスティックコントローラ2130にスピーカ2136が取り付けられうる。プログラムコード2104が、マイクロフォンアレイ2122によって検出される音の位置を特定し、特徴付ける「音波レーダー」の実施形態では、スピーカ2136が音声信号を供給することができる。この音声信号は、マイクロフォンアレイ2122によって検出可能であり、ジョイスティックコントローラ2130の位置をトラッキングするためにプログラムコード2104によって使用されうる。スピーカ2136は、ジョイスティックコントローラ2130からプロセッサ2101への追加の「入力チャネル」を提供するためにも使用することができる。スピーカ2136からの音声信号は、位置をトラッキングするための音波レーダー用のビーコンを提供するために、定期的にパルス発信される。音声信号(パルスまたはそれ以外)は、可聴域でも、超音波でもよい。音波レーダーは、ジョイスティックコントローラ2130のユーザ操作をトラッキングし、このような操作のトラッキングには、ジョイスティックコントローラ2130の位置および向きに関する情報(例えば、ピッチ、ロールまたはヨー、角度)などが含まれうる。パルスは、当業者が適用することができるような適切な動作周期で起動されうる。パルスは、システムから介入されたる制御信号に基づいて始動されうる。装置2100は、プロセッサ2101に結合された2つ以上のジョイスティックコントローラ2130の間での制御信号の発信を、複数のコントローラが確実にトラッキングできるように、(プログラムコード2104によって)調整しうる。
【0252】
例えば、本発明の実施形態は、並列処理システムに実装されうる。このような並列処理システムは、通常、別個のプロセッサを使用して、プログラムの一部分を並列で実行するように構成された2つ以上のプロセッサ要素を有する。例えば、図27は、本発明の一実施形態によるセルプロセッサの一種2200を示すが、これに限定されるものではない。セルプロセッサ2200は、図26のプロセッサ2101として使用することができる。図27に示した例では、セルプロセッサ2200は、メインメモリ2202、パワープロセッサ要素(PPE)2204、および多くの相乗的プロセッサ要素(SPE)2206を有する。図27に示す例では、セルプロセッサ2200は、1つのPPE2204と、8つのSPE2206を有する。このような構成において、SPE2206のうちの7つは並列処理のために使用され、1つのプロセッサは、他の7つのプロセッサの1つが故障したときのバックアップとして予約されうる。別の実施形態では、セルプロセッサが、PPEの複数のグループ(PPEのグループ)と、SPEの複数のグループ(SPEのグループ)を有していてもよい。このような場合、ハードウェア資源が、グループ内のユニット間で共有されうる。しかし、SPEとPPEは、ソフトウェアからみて、独立した要素でなければならない。このように、本発明の実施形態は、図27に示す構成との使用に限定されない。
【0253】
メインメモリ2202は、通常、汎用の不揮発性の記憶装置のほかに、システム構成、データ転送同期、メモリーマップドI/OおよびI/Oサブシステムなどの機能に使用される特殊用途のハードウェアレジスタまたはアレイも有する。本発明の実施形態では、信号処理プログラム2203は、メインメモリ2202に置かれうる。信号処理プログラム2203は、上記の図7、8、13、16、17、18、19、25B、25Dまたは25Fに関して記載したように構成されても、これらの2つ以上の何らかの組み合わせで構成されてもよい。信号処理プログラム2203は、PPEで実行されうる。プログラム2203は、複数の信号処理タスクに分割され、これらは、SPEおよび/またはPPEで実行することができる。
【0254】
例えば、PPE2204は、関連するキャッシュL1およびL2を有する64ビットPowerPCプロセッサユニット(PPU)であってもよい。PPE2204は、汎用の処理ユニットであり、システム管理資源(例えば、メモリ保護テーブルなど)にアクセスすることができる。ハードウェア資源は、PPEによって参照される実アドレス空間に明示的にマップされうる。このため、PPEは、任意の適切な実効アドレス値を用いて、これらの資源のいずれをも直接アドレス指定を行うことができる。PPE2204の主な機能は、セルプロセッサ2200内のSPE2206のタスクの管理と割り当てである。
【0255】
図27には1つのPPEしか図示されていないが、セルブロードバンドエンジンアーキテクチャ(CBEA)などのセルプロセッサの一部の実装では、セルプロセッサ2200が、PPEのグループに編成された複数のPPEを有していてもよく、このグループは2つ以上存在しうる。これらのPPEのグループは、メインメモリ2202へのアクセスを共有しうる。更に、セルプロセッサ2200が、2つ以上のSPEのグループを有していてもよい。SPEのグループも、メインメモリ2202へのアクセスを共有しうる。このような構成は、本発明の範囲に含まれる。
【0256】
各SPE2206は、シナジスティックプロセッサユニット(Synergistic Processor Unit:SPU)と自身のローカル記憶領域LSを有する。ローカル記憶域LSは、メモリ領域の、それぞれが特定のSPUと関連付けられた1つ以上の別個の領域を有しうる。各SPUは、自身の関連するローカル記憶域ドメインにある命令(データロード操作とデータストア操作を含む)のみを実行するように構成されうる。このような構成では、ローカル記憶域LSとシステム2200の他の部分との間のデータ転送は、メモリフローコントローラ(MFC)からダイレクトメモリアクセス(DMA)コマンドを発行して、(個々のSPEの)ローカル記憶域ドメインとの間でデータを転送することによって実行されうる。SPUは、演算ユニットとしては、システム管理機能を実行しないという点で、PPE2204ほどは複雑でない。SPUは、一般に、単一命令複数データ(SIMD)機能を有し、通常は、その割当タスクを実行するために、データを処理して、任意の要求されたデータ転送を開始する(PPEによって設定されたアクセスプロパティに制約される)。SPUの目的は、高密度の演算ユニットを必要とし、与えられた命令セットを効率的に使用することができるアプリケーションを可能にすることにある。PPE2204によって、システム内の多くの数のSPEが管理されることにより、多様なアプリケーションにわたり、コスト効率の高い処理が可能となる。
【0257】
SPE2206のそれぞれは、メモリ保護およびアクセス許可の情報を保持および処理することができる関連するMMUを有する、専用のメモリフローコントローラ(MFC)を有しうる。MFCは、セルプロセッサの主記憶域とSPEのローカル記憶域間でのデータの転送、保護および同期のための主要な方法を提供している。MFCコマンドは、実行すべき転送を規定している。データを転送するためのコマンドは、時として、MFCダイレクトメモリアクセス(DMA)コマンド(またはMFC DMAコマンド)と呼ばれる。
【0258】
各MFCは、同時に複数のDMA転送に対応することができ、複数のMFCコマンドを保持および処理することができる。各MFC DMAデータ転送コマンド要求には、ローカル記憶域アドレス(LSA)と実効アドレス(EA)が含まれうる。ローカル記憶域アドレスは、その関連するSPEのローカル記憶領域のみを直接アドレス指定しうる。実効アドレスは、より一般的な用途を有することができ、例えば、実アドレス空間にエイリアスされている場合には、全てのSPEローカル記憶領域を含む主記憶装置を参照することができる。
【0259】
SPE2206間、および/またはSPE2206とPPE2204間の通信を容易にするために、SPE2206とPPE2204は、信号発生事象に結び付けられた信号通知レジスタを有しうる。PPE2204とSPE2206は、PPE2204がSPE2206にメッセージを伝達するルーターとして機能するスター型トポロジーに結合されていてもよい。別の実施形態では、SPE2206とPPE2204のそれぞれが、メールボックスと呼ばれる一方向の信号通知レジスタを有していてもよい。メールボックスは、オペレーティングシステム(OS)の同期をホストするために、SPE2206によって使用されうる。
【0260】
セルプロセッサ2200は入出力(I/O)機能2208を有し、これを介して、セルプロセッサ2200は、マイクロフォンアレイ2212および任意選択の画像キャプチャユニット2213などの周辺装置とインタフェースしうる。更に、要素相互接続バス2210は、上に挙げた各種の構成要素を接続しうる。SPEとPPEのそれぞれは、バスインタフェースユニットBIUを介してバス2210にアクセスしうる。また、セルプロセッサ2200は、通常はプロセッサ内にある、バス2210とメインメモリ2202間のデータの流れを制御するメモリインタフェースコントローラ(MIC)と、I/O2208とバス2210間のデータの流れを制御するバスインターフェースコントローラ(BIC)の2つのコントローラを有しうる。MIC、BIC、BIUおよびバス2210に対する要件は、実装によって大きく変わりうるが、当業者であれば、その機能とそれを実装するための回路について熟知しているであろう。
【0261】
セルプロセッサ2200は、内部割込みコントローラ(IIC)も有しうる。IIC構成要素は、PPEに提示される割り込みの優先度を管理している。IICによって、セルプロセッサ2200は、メインシステムの割込みコントローラを使用することなく、他の構成要素からの割り込みを処理できるようになる。IICは、2次レベルのコントローラであると考えることができる。メインシステムの割込みコントローラは、セルプロセッサの外で発生した割込みを処理しうる。
【0262】
本発明の実施形態では、上記の微小な遅延などの特定の計算は、PPE2204および/またはSPE2206の1つ以上を使用して、並列で実行されうる。微小な遅延計算のそれぞれは1つ以上の別個のタスクとして実行され、これらは、異なるSPE2206が利用可能になると、それが処理しうる。
【0263】
本発明の実施形態は、マイクロフォン間隔dが約0.5cm〜約2cmであるアレイを特徴とする約2〜約8のマイクロフォンのアレイを利用しうる。マイクロフォンのダイナミックレンジは、約120Hz〜約16kHzでありうる。前述のように、出力信号y(t)に微小な遅延を導入することで、離散的な整数の時間遅延を出力信号に適用することに限定されるデジタルプロセッサで可能なよりも、音源分離において極めて高い解像度が実現されることが理解されよう。本発明の実施形態が、このような短いマイクロフォン間隔と比較的低価格のマイクロフォンによって、高解像度を実現することができるのは、このような微小な時間遅延の導入のためである。本発明の実施形態は超音波の位置トラッキングにも適用することができ、その際、マイクロフォンアレイに超音波発生器を追加して、この発生器からの超音波パルスの反響の到達時間遅延を分析して、物体の位置をトラッキングする。
【0264】
本発明の方法および装置は、携帯電話機、個人情報端末、ビデオ/デジタルカメラなどの携帯式手持ち式のデバイスに利用されるのに十分小さいマイクロフォンアレイを使用しうる。本発明の特定の実施形態では、アレイのマイクロフォンの数を増やしても有利な効果がなく、場合によっては、マイクロフォンが少ないほうが、多い場合よりも良好に機能することがある。詳細には、4マイクロフォンアレイのほうが、8マイクロフォンアレイよりも良好に機能することが確認されている。
【0265】
ここに記載した方法および装置は、例えば、遠隔地の相手の背景音声とゲームのキャラクタを組み合わせることによって、オンラインゲームの機能を拡張するために使用されることができる。マイクロフォンを備えたゲームコンソールが、ローカルの背景音声を連続的に収集しうる。マイクロフォンアレイは、事前に定義された聴取ゾーンに基づいて、音声を選択的に収集しうる。例えば、マイクロフォンの焦点の±20°の円錐または他の領域を定義することができる。この円錐の外のあらゆる音は、背景音声であるとみなされる。音声処理によって、前景のゲームプレーヤの声から、背景音を確実に除去することができる。背景音声に、今話しているゲームキャラクタの、事前に録音された音声が混合されうる。この新たに混合した音声信号が、リモートの相手(ネットワークを介した別のゲームプレーヤなど)に転送される。同様に、同じ方法が同様にリモート側にも適用されて、その結果、ローカルのプレーヤに対して、リモートの相手から背景音声が提示される。これにより、ゲームにおける現実的な体験を、実世界に比べて改善することができる。マイクロフォンアレイについて上記したように、背景音声を録音することによって、1つのマイクロフォンによるアレイの選択する聴取能力のほうが、むしろ理解しやすい。プレーヤの音声を背景音と区別するために、有音/無音検出(Voice Activity Detection:VAD)を使用することができる。音声活動が検出されると、以前の無音信号が、背景を置換するために使用されうる。
【0266】
ユーザが「スイートスポット」にいない場合、多くのビデオ表示または音声の質が低下する。ユーザのいる場所が不明であるため、従来技術が採用していた手法は、スイートスポットを可能な限り広げることであった。これに対して、本発明の実施形態では、例えば、ビデオ画像または「音波レーダー」からユーザのいる位置がわかり、表示または音声のパラメータを調整して、スイートスポットを移動させることができる。例えば、デジタルカメラなどの画像キャプチャユニットによる頭部の検出およびトラッキングを使用して、ユーザの位置を決定することができる。表示の質を動的に改善するために、これに対応して、LCDの角度または他の電子的なパラメータが変更されうる。音声の場合、スイートスポットを調整するために、各チャネルの位相と振幅が調整されうる。本発明の実施形態は、ビデオカメラおよび/またはマイクロフォンアレイの入力によって、頭部またはユーザの位置のトラッキングを行うことができる。
【0267】
本発明の実施形態は、ここに記載したように、あるいは他のユーザ入力機構およびその他の機構と組み合わせて使用することができる。これらには、音の角方向またはボリュームをトラッキングまたは分析する機構および/または物体の位置を能動的または受動的にトラッキングする機構、機械的視覚を使用する機構、またはそれらの組み合わせがある。その際、トラッキングされる物体は、システムへのフィードバックを操作する補助的制御部またはボタンを有していてもよい。このようなフィードバックには、光源からの発光、音歪み手段、または他の適切な送信器および変調器のほか、同じエンコード状態の送信または変調、に影響しうる制御部、ボタン、圧力パッドなど、および/または装置(システムによってトラッキングされる装置を含む)との間でやり取りされるコマンドがあるが、これらに限定されない。これらの装置が、本発明の実施形態と関連して使用されるシステムの一部であるか、それとインタフェースするか、それに影響するかに影響しうる。
【0268】
上に記載した、本発明の特定の実施形態の説明は、例示および説明を目的として採り上げた。この実施形態は全てを網羅するものでも、本発明を開示したそのままの実施形態に制限することを意図するものではなく、当然、上記の教示を鑑みれば、多くの修正および変更が可能である。各種実施形態は、本発明の原理およびその実際的な用途を説明して、これにより、当業者が、本発明および実施形態を、特定の用途に合致するように様々に変更して、最もよく活用できるように、選んで記載した。本発明は、ほかの様々な用途に利用することができる。
【0269】
上記の実施形態を考慮に入れて、本発明が、コンピュータシステムに記憶されたデータを使用する、各種のコンピュータ実装操作を使用してもよい点を理解すべきである。これらの操作には、物理量の物理的な操作を必要とする操作が含まれる。この物理量は通常、記憶、転送、結合、比較などの操作が可能な電気信号または磁気信号の形を取るが、必ずしもこれらに限定されない。更に、実行される操作は、生成、特定、決定または比較などと呼ばれることが多い。
【0270】
上記した発明は、携帯式デバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電気製品、ミニコンピュータ、メインフレームコンピュータなど、他のコンピュータシステム構成によって実施されてもよい。また、本発明は、分散コンピューティング環境で実施されてもよく、このような環境では、通信ネットワークを介してリンクされる遠隔処理デバイスによってタスクが実行される。
【0271】
本発明は、また、計算機可読媒体上の計算機可読コードとして実施されてもよい。計算機可読媒体は、電磁搬送波(electromagnetic wave carrier)を含め、コンピュータシステムによって後から読取ることができるデータを記憶できるデータ記憶装置であれば、どのようなものに存在してもよい。計算機可読媒体の例には、ハードディスク、ネットワーク接続記憶装置(NAS)、リードオンリーメモリ、ランダムアクセスメモリ、CD−ROM、CD−R、CD−RW、磁気テープおよび他の光学式データ記憶装置および非光学式データ記憶装置などがある。また、計算機可読媒体は、計算機可読コードが分散式に記憶されて、実行されるように、ネットワークに結合されたコンピュータシステムを介して分散されてもよい。
【0272】
上記に、本発明を明確に理解できるように多少詳細に記載したが、添付の特許請求の範囲内で変更例または変形例を実施できることは明らかである。ここに記載した任意の機能は、好適なものであってもなくても、好適なものであってもなくても、好適または好適ではない他の任意の機能と組み合わせることができる。したがって、本実施形態は例示的なものであり、制限するものではなく、本発明は本明細書に記載されている詳細な事項に限定されず、添付の特許請求の範囲およびその均等物の範囲内で変更されてもよい。
【図面の簡単な説明】
【0273】
【図1】本発明の一実施形態による、1人以上のユーザとの対話機能のためにビデオゲームプログラムを実行することができるゲーム環境を示す。
【図2】本発明の一実施形態による画像−音声キャプチャ装置の例の三次元図である。
【図3A】本発明の一実施形態による、入力を受信するように設計された異なるマイクロフォンでの音経路の処理と、選択された音源を出力するための論理回路を示す図である。
【図3B】本発明の一実施形態による、入力を受信するように設計された異なるマイクロフォンでの音経路の処理と、選択された音源を出力するための論理回路を示す図である。
【図4】本発明の一実施形態による、入力音源を処理するために、画像−音声キャプチャ装置とインタフェースするコンピューティングシステムの例を示す図である。
【図5】本発明の一実施形態による、特定の音源の方向識別の精度を上げるために複数のマイクロフォンが使用される例を示す図である。
【図6】本発明の一実施形態による、異なる面にあるマイクロフォンを使用して、特定の空間体積において音が識別される例を示す図である。
【図7】本発明の一実施形態による、音源を識別して、焦点外の音源を除去する際に処理されうる例示的な方法操作を示す図である。
【図8】本発明の一実施形態による、音源を識別して、焦点外の音源を除去する際に処理されうる例示的な方法操作を示す図である。
【図9】視覚画像に基づいて音をキャプチャするか音声信号をキャプチャする、または音声信号の場所に基づいてその信号をキャプチャするために、聴取領域を調整する方法および装置が実装される環境を示す図である。
【図10】視覚画像に基づいて音をキャプチャするか音声信号をキャプチャする、または音声信号の場所に基づいてその信号をキャプチャするために、聴取領域を調整する方法および装置が実装される一実施形態を示す簡略ブロック図である。
【図11A】本発明の一実施形態による聴取方向の決定を示すマイクロフォンアレイの模式図である。
【図11B】本発明の実施形態と共に、反因果的フィルタリングを示すマイクロフォンアレイの模式図である。
【図12A】本発明の特定の実施形態による方法および装置を実装できるマイクロフォンアレイおよびフィルタ装置の模式図である。
【図12B】本発明の特定の実施形態による方法および装置を実装することができる別のマイクロフォンアレイおよびフィルタ装置の模式図である。
【図13】本発明の実施形態による、2つ以上のマイクロフォンのアレイからの信号の処理のためのフロー図である。
【図14】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するシステムの簡略ブロック図である。
【図15】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合する例示的なレコードを示す図である。
【図16】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図17】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図18】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図19】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図20】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置の実施形態と整合する、視野に基づく聴取ゾーンのモニタを示す図である。
【図21】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するいくつかの聴取ゾーンを示す図である。
【図22】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合する音声検出に焦点を絞った図である。
【図23A】音声信号の位置に基づいてその信号をキャプチャする方法および装置が実装されるマイクロフォンアレイを示す模式図である。
【図23B】音声信号の位置に基づいてその信号をキャプチャする方法および装置が実装されるマイクロフォンアレイを示す模式図である。
【図23C】音声信号の位置に基づいてその信号をキャプチャする方法および装置が実装されるマイクロフォンアレイを示す模式図である。
【図24】音声信号の位置に基づいてその信号をキャプチャする方法および装置の一実施形態と整合する音声検出に焦点を絞った図である。
【図25A】本発明の一実施形態によるマイクロフォンアレイの模式図である。
【図25B】本発明の一実施形態による、対象音検出のための方法を示すフロー図である。
【図25C】本発明の好ましい実施形態による、対象音検出を示す模式図である。
【図25D】本発明の好ましい実施形態による、対象音検出のための方法を示すフロー図である。
【図25E】本発明の一実施形態による、音源の位置特定および特徴付け装置の上面図である。
【図25F】本発明の一実施形態による、音源の位置特定および特徴付けのための方法を示すフロー図である。
【図25G】本発明の一実施形態による、カメラの視野内から対象の音を検出するための、カメラとマイクロフォンアレイを有する装置の上面模式図である。
【図25H】図25Eの装置の上正面図である。
【図25I】本発明の別の実施形態によるオーディオビデオ装置の平面模式図である。
【図25J】本発明の別の実施形態によるオーディオビデオ装置の平面模式図である。
【図26】本発明の一実施形態に係る信号処理装置のブロック図である。
【図27】本発明の一実施形態による信号処理システムのセルプロセッサの実装のブロック図である。
【技術分野】
【0001】
本発明の実施形態は、音声信号処理を対象としており、より詳細にはマイクロフォンアレイからの音声信号の処理を対象としている。
【背景技術】
【0002】
ビデオゲーム産業は、長年にわたって多くの変化を経験してきた。演算能力が拡大するにつれ、ビデオゲームの開発者も同様に、この演算能力の増大を利用するゲームソフトウェアを作成してきた。このために、ビデオゲーム開発者は、極めて現実的なゲーム体験を生み出すべく、高度な演算と数学を採用したゲームをコーディングしてきた。
【0003】
ゲームプラットホームの例に、ソニープレイステーションまたはソニープレイステーション2(PS2)があり、これらはそれぞれ、ゲームコンソールの形で販売されている。周知のように、ゲームコンソールはモニタ(通常はテレビ)と接続されて、手持ち式のコントローラによってユーザとの対話を可能にするように設計されている。ゲームコンソールは、CPU、処理量の多いグラフィック操作のためのグラフィクシンセサイザ、ジオメトリ変換を実行するためのベクトル装置などの特化した処理ハードウェアと、各ハードウェア等をつなげるグルーハードウェア、ファームウェアおよびソフトウェア等のその他のハードウェアを備えて設計される。また、ゲームコンソールは、ゲームコンソールによるローカルプレイを行うためにゲームのコンパクトディスクを受け容れるための光ディスクトレイを備えて設計される。また、ユーザが、インターネット上で他のユーザと対戦して、または、他のユーザと一緒に対話的にプレイすることができるオンラインゲームも可能である。
【発明の開示】
【発明が解決しようとする課題】
【0004】
ゲームの複雑さがプレーヤの興味を引き続けるため、ゲームおよびハードウェアのメーカは追加の対話機能を実現するために革新を続けてきた。しかし、実際は、ユーザがゲームと対話するやり方は、長年にわたって劇的には変わることはなかった。
【0005】
前述を鑑みて、ゲームのプレイとのより高度なユーザ対話機能を可能にする方法およびシステムが求められている。
【課題を解決するための手段】
【0006】
概して、本発明は、コンピュータプログラムとの対話機能を容易にする装置および方法を提供することによって、これらのニーズを満たす。一実施形態では、このコンピュータプログラムはゲームプログラムであるが、これに限定されることはなく、この装置および方法は、制御の起動、入力、通信の実現のために音声入力を取り入れることができる任意のコンピュータ環境に適用可能である。詳細には、制御の起動または入力のために音声が使用される場合、本発明の実施形態は、特定の音源のフィルタされた入力を可能にし、このフィルタされた入力は、関心のない音源を無視または対象外とするように構成されている。ビデオゲーム環境では、選択した音源に応じて、ビデオゲームは、対象の音源を処理した後に、対象ではない可能性のある他の音の歪みまたはノイズがない状態で、特定の反応で応答しうる。一般に、ゲームをプレイする環境は、音楽、他の人、および物体の移動などの多くの背景ノイズに曝されている。対象ではない音がほぼフィルタ除去されると、コンピュータプログラムは、対象音により適切に応答することができる。この反応は、どのような形であってもよく、例えば、コマンド、動作の開始、選択、ゲームステータスまたは状態の変化、機能の解除などがある。
【0007】
一実施形態では、コンピュータプログラムとの対話機能中に音をキャプチャする装置が提供される。この装置は、1つ以上の画像フレームをキャプチャするように構成された画像キャプチャユニットを有する。音声キャプチャユニットも提供される。音声キャプチャユニットは、1つ以上の音源を識別するように構成されている。音声キャプチャユニットは、焦点ゾーンを決定するために分析されうるデータを生成し、この焦点ゾーンにおいて音が処理されて、焦点ゾーンの外の音がほぼ除去される。このようにして、焦点ゾーンについてキャプチャされ、処理された音が、コンピュータプログラムとの対話機能のために使用される。
【0008】
別の実施形態では、コンピュータプログラムとの対話機能中の選択的な音源聴取のための方法が開示される。この方法は、2つ以上の音源キャプチャマイクロフォンにおいて1つ以上の音源からの入力を受信するステップを有する。次に、この方法は、前記音源のそれぞれから遅延路を決定するステップと、前記1つ以上の音源のそれぞれの前記受信された入力のそれぞれについて方向を特定するステップと、を有する。次に、この方法は、識別された焦点ゾーンの方向にない音源をフィルタ除去するステップを有する。前記焦点ゾーンは、前記コンピュータプログラムとの前記対話機能のために前記音源を提供するように構成されている。
【0009】
更に別の実施形態では、ゲームシステムが提供される。このゲームシステムは、対話型のコンピュータゲームの実行を可能にするコンピューティングシステムとインタフェースするように構成された画像−音声キャプチャ装置を有する。画像キャプチャ装置は、焦点ゾーンからビデオをキャプチャするために配置可能なビデオキャプチャハードウェアを有する。1つ以上の音源から音をキャプチャするために、マイクロフォンのアレイが提供される。各音源は、識別され、画像−音声キャプチャ装置に対する方向と関連付けられる。ビデオキャプチャハードウェアと関連付けられた焦点ゾーンは、その焦点ゾーンの近くの方向にある音源のうちの1つを識別するために使用されるように構成されている。
【0010】
一般に、対話型の音の識別とトラッキングは、どのようなコンピューティング装置のどのようなコンピュータプログラムとインタフェースするために適用可能である。音源が識別されると、その音源の内容が更に処理されて、コンピュータプログラムによって実現(rendered)される機能または物体が、起動、駆動、指示または制御される。
【0011】
一実施形態では、マイクロフォンの聴取領域を調整する方法および装置は、初期聴取ゾーンを検出し、マイクロフォンアレイによって、キャプチャされた音をキャプチャし、前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別し、前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成し、前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別する。
【0012】
別の実施形態では、この方法および装置は、音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出し、画像キャプチャユニットの視野(view)を検出し、前記視覚装置の前記視野を前記初期聴取ゾーンの前記初期領域と比較し、前記初期聴取ゾーンを調整して、前記視野と前記初期領域との比較に基づいて調整された領域を含む前記調整された聴取ゾーンを形成する。
【0013】
一実施形態では、この方法および装置は、音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出し、前記初期聴取ゾーン内で初期音を検出し、前記初期聴取ゾーンを調整して、調整された領域を含む前記調整された聴取ゾーンを形成し、前記初期音は前記調整された聴取ゾーンから発せられる。
【0014】
本発明の他の実施形態は、事前較正された聴取ゾーンを使用した、対象音検出のための方法および装置を対象としている。このような実施形態は、2つ以上のマイクロフォンを有するマイクロフォンアレイによって実装することができる。各マイクロフォンは複数のフィルタに結合されている。このフィルタは、マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成されている。複数のフィルタに対するフィルタ係数の1つ以上の組が再較正されて、1つ以上の対応する事前較正された聴取ゾーンが決定される。フィルタパラメータの各組は、入力信号の、所定の聴取ゾーン内で発生した音に対応する部分を検出し、所定の聴取ゾーンの外で発生する音をフィルタ除去するように選択される。実行時に、特定の事前較正された聴取ゾーンが選択されうるが、これは、その特定の事前較正された聴取ゾーンに対応するフィルタ係数の組を前記複数のフィルタに適用することによって行われる。その結果、マイクロフォンアレイは、特定の聴取ゾーン内で発生した音を検出し、特定の聴取セクタの外で発生する音をフィルタ除去することができる。
【0015】
本発明の特定の実施形態では、ジョイスティックコントローラによって慣性および/または光信号を生成して、この慣性および/または光信号を使用してジョイスティックコントローラの位置および/または向きをトラッキングすることによって、ビデオゲームユニット内の動作が制御されうる。
【0016】
本発明の他の態様および利点は、例示のために本発明の原理を示す添付の図面と併せて、以下の詳細な説明を読めば明らかとなるであろう。
【発明を実施するための最良の形態】
【0017】
本発明とその更なる利点とは、添付の図面を参照して以下の記載をよめば、よりよく理解できるであろう。
【0018】
本発明の実施形態は、コンピュータプログラムとの対話手段として音声が使用される場合に、特定の音源の識別を容易にし、不要な音源をフィルタ除去するための方法および装置に関する。
【0019】
以下の説明では、本発明を完全に理解できるように、具体的な詳細を数多く記載する。しかし、これらの詳細な内容の一部または全てを用いなくとも本発明を実施し得ることは当業者にとって自明である。場合によっては、本発明を不必要にわかりにくくしないように、公知のプロセス操作については詳しく記載しない。
【0020】
「電子デバイス」、「電子装置」および「電子機器」という場合、パーソナルデジタルビデオテープレコーダ、デジタルオーディオプレーヤ、ゲームコンソール、セットトップボックス、コンピュータ、携帯電話機、個人情報端末、自動車との電子インタフェース等の特化したコンピュータなどの装置が含まれる。
【0021】
図1は、本発明の一実施形態による、1人以上のユーザとの対話機能のためにビデオゲームプログラムを実行することができるゲーム環境100を示す。図に示すように、プレーヤ102が、ディスプレイ110を備えたモニタ108の前に示されている。モニタ108は、コンピューティングシステム104と相互接続されている。コンピューティングシステムは、標準のコンピュータシステム、ゲームコンソールまたはポータブルコンピュータシステムであってよい。具体例としては、ゲームコンソールは、ソニーコンピュータエンターテインメント社、マイクロソフト社または他の任意のメーカによって製造されたものなどがあるが、任意のブランドに限定されない。
【0022】
コンピューティングシステム104は、画像−音声キャプチャ装置106と相互接続されて示されている。画像−音声キャプチャ装置106は、音声キャプチャユニット106aと画像キャプチャユニット106bを備える。プレーヤ102は、ディスプレイ110上のゲームの画面112と対話的に通信しているように示されている。実行中のビデオゲームは、画像キャプチャユニット106bおよび音声キャプチャユニット106aにより、入力がプレーヤ102によって少なくとも部分的に提供されるものである。図に示すように、プレーヤ102は、手を動かして、ディスプレイ110上の対話的アイコン114を選択することができる。画像キャプチャユニット106bによってキャプチャされると、プレーヤ102’の半透明の画像が、ディスプレイ110に投射される。したがって、プレーヤ102は、アイコンを選択するか、あるいはゲーム画面112と相互作用するには、手をどこに動かせばよいかがわかる。これらの動きおよび対話をキャプチャするための技術は変わりうるが、例示的な技術は、それぞれ2003年2月21日に出願された英国特許出願公開第0304024.3号明細書(国際公開第GB2004/000693号パンフレット)および英国特許出願公開第0304022.7明細書(国際公開第GB2004/000703号パンフレット)号に記載されており、これらの各々は参照によりここに援用される。
【0023】
図示した例では、対話的アイコン114は、ゲーム画面112が、扱われているオブジェクトを揺らすように、プレーヤが「スイング」を選択することができるアイコンである。更に、プレーヤ102が音声コマンドを与えてもよく、このコマンドは、音声キャプチャユニット106aによってキャプチャされ、コンピューティングシステム104によって処理されて、実行中のビデオゲームとの対話機能が実現提供されうる。図に示すように、音源116aは「ジャンプ!」音声コマンドである。次に、この音源116aが、音声キャプチャユニット106aによってキャプチャされ、コンピューティングシステム104によって処理されて、ゲーム画面112をジャンプさせる。音声コマンドの識別を可能にするために、音声認識が使用されうる。別の実施形態では、プレーヤ102が、インターネットまたはネットワークに接続しているが、ゲームの対話機能に直接的または部分的に関わってもいるリモートユーザと通信していてもよい。
【0024】
本発明の一実施形態によれば、音声キャプチャユニット106aは、コンピューティングシステム104が特定の方向から来る音を選択できるようにする少なくとも2つのマイクロフォンを備えるように構成されうる。コンピューティングシステム104が、ゲームのプレイの中心(または焦点)から外れる方向をフィルタ除去できるようにすることで、プレーヤ102が特定のコマンドを与えているときに、ゲーム環境100内の気を散らすような音が、ゲームの実行を妨げたり混乱させることはない。例えば、ゲームプレーヤ102が、足踏みしており、非言語音117である足踏みノイズを発生させることがある。このような音は、音声キャプチャユニット106aによってキャプチャされるが、プレーヤの足102から来る音がビデオゲームの焦点ゾーン内にないため、フィルタ除去されうる。
【0025】
後述するように、焦点ゾーンは、画像キャプチャユニット106bの焦点であるアクティブな画像領域によって好ましくは識別される。他の方法では、焦点ゾーンは、初期化段階の後で、ユーザに提示されたゾーンの選択肢の中から、手動または自動的に選択されてもよい。ゾーンの選択肢には、事前較正された聴取ゾーンが1つ以上含まれうる。音源を含む事前較正された聴取ゾーンが、後述するように決定されうる。図1の例の説明を続けると、対話的ゲームのプレイ中に、ゲームを見ている人103がコンピューティングシステムによる処理を攪乱させる可能性のある音源116bを与えることもある。しかし、ゲームを見ている人103は画像キャプチャユニット106bのアクティブな画像領域内にいないため、コンピューティングシステム104が誤って、音源116bから来るコマンドを、音源116aとしてプレーヤ102から来る音源と混同しないように、ゲームを見ている人103の方向から来る音がフィルタ除去される。
【0026】
画像−音声キャプチャ装置106は、画像キャプチャユニット106bと音声キャプチャユニット106aを備える。画像−音声キャプチャ装置106は、好ましくは、画像フレームをデジタル形式でキャプチャして、次にこれらの画像フレームを、その後の処理のためにデータ処理システム104に転送することができる。画像キャプチャユニット106bの例にウェブカメラがあり、これは、ビデオ画像を、その後記憶したり、インターネットなどのネットワークを介して通信できるように、デジタル形式でコンピューティング装置に転送することが望ましいときに一般に使用される。その他のタイプの画像キャプチャ装置も、識別とフィルタリングが可能なように画像データがデジタル形式で処理されるものであれば、アナログ、デジタルを問わず機能する。好ましい一実施形態では、入力データを受け取ったのち、フィルタリングを可能にするデジタル処理がソフトウェアで行われる。音声キャプチャユニット106aは、一対のマイクロフォン(MIC1およびMIC2)を備えて示されている。マイクロフォンは標準的なマイクロフォンであり、これは画像−音声キャプチャ装置106を構成しているハウジングに一体化することができる。
【0027】
図3Aは、音Aからの音源116と音Bからの音源116に向かい合った状態の音声キャプチャユニット106aを示す。図に示すように、音Aがその可聴音を発して、音経路201aおよび201bに沿ってMIC1およびMIC2によって検出される。音Bは、音経路202aおよび202bを通ってMIC1およびMIC2の方に発せられる。図に示すように、音Aの音経路の長さは異なり、したがって、音経路202aおよび202bに対して相対的な遅延が生じる。次に、図3Bに示すボックス216で方向選択が行われるように、音Aおよび音Bのそれぞれから来る音が、標準の三角測量アルゴリズムを使用して処理されうる。MIC1およびMIC2から来る音は、それぞれバッファ1およびバッファ2(210a、210b)にバッファされて、遅延ライン(212a、212b)を通る。一実施形態では、バッファリングおよび遅延処理はソフトウェアによって制御されるが、ハードウェアが同様に演算を扱うようにカスタム設計されてもよい。三角測量に基づいて、方向選択216によって、音源116のうちの1つの識別および選択が行われる。
【0028】
MIC1およびMIC2のそれぞれから来る音は、ボックス214で合算されてから、選択した発生源の出力として出力される。このように、このような音源がコンピュータシステム104による処理を攪乱させたり、または、ネットワークまたはインターネットを介してビデオゲームを対話的にプレイしている他のユーザとの通信を攪乱させることのないように、アクティブな画像領域の方向以外の方向から来る音がフィルタ除去される。
【0029】
図4は、本発明の一実施形態による、画像−音声キャプチャ装置106と共に使用することができるコンピューティングシステム250を示す。コンピューティングシステム250は、プロセッサ252とメモリ256を備える。バス254は、プロセッサとメモリ256を、画像−音声キャプチャ装置106と相互接続する。メモリ256は、対話型プログラム258の少なくとも一部を格納しており、更に、受信した音源データを処理するための選択的音源聴取ロジックまたはコード260も格納している。画像キャプチャユニット106bによって識別される焦点ゾーンの場所に基づいて、焦点ゾーンの外の音源が、(例えば、プロセッサによって実行中であり、メモリ256に少なくとも部分的に記憶されているなどの)選択的音源聴取ロジック260によって選択的にフィルタされる。コンピューティングシステムは最も単純な形で示されているが、到来する音源の処理を行って、このため選択的聴取を可能にするために命令を処理することができるハードウェアであれば、どのようなハードウェア構成を使用してもよいという点を強調する。
【0030】
また、コンピューティングシステム250は、バスを経由してディスプレイ110と相互接続されて示されている。この例では、焦点ゾーンは、音源Bの方に焦点を合わせている画像キャプチャユニットによって識別される。音Aなどの他の音源から来る音は、音声キャプチャユニット106aによってキャプチャされて、コンピューティングシステム250へ転送されると、選択的音源聴取ロジック260によって実質的にフィルタ除去される。
【0031】
1つの具体例では、プレーヤは、他のユーザとのインターネットまたはネットワーク対応ビデオゲームの試合に参加しており、この場合、各ユーザの聴取可能な体験の主なものがスピーカから出される音でありうる。スピーカは、コンピューティングシステムの一部であっても、モニタ108の一部であってもよい。ここで、図4に示すように、ローカルスピーカが音源Aを生成していると仮定する。音源Aについてローカルスピーカから来る音を、試合に参加しているユーザにフィードバックしないために、選択的音源聴取ロジック260は、試合に参加しているユーザが自分自身の音または音声のフィードバックを受けないように、音源Aの音をフィルタ除去する。このフィルタリングを提供することによって、ビデオゲームと相互作用している間にネットワーク上で対話的通信を行う一方で、処理中の妨害となるフィードバックを有利に回避することが可能となる。
【0032】
図5は、画像−音声キャプチャ装置106が少なくとも4つのマイクロフォン(MIC1〜MIC4)を備える例を示す。このため、音声キャプチャユニット106aは、音源116(AおよびB)の位置を識別するために、より良好な粒度で三角測量ができる。すなわち、追加のマイクロフォンを提供することによって、音源の位置をより正確に定義し、このため、対象外であるかまたはゲームのプレイまたはコンピューティングシステムとの対話機能に害を及ぼしかねない音源を除去してフィルタ除去することが可能である。図5に示すように、音源116(B)は、ビデオキャプチャユニット106bによって識別された対象の音源である。図5の例の説明を続けると、図6は音源Bが空間体積に識別される方法を識別している。
【0033】
音源Bが位置する空間体積は、焦点体積274を定義する。焦点体積を識別することによって、特定の体積内にないノイズ(すなわち、正しい方向にないもの)を除去またはフィルタ除去することが可能である。焦点体積274の選択が容易となるように、画像−音声キャプチャ装置106は、好ましくは少なくとも4つのマイクロフォンを備える。マイクロフォンのうちの少なくとも1つは、ほかの3つのマイクロフォンとは異なる平面にある。画像−音声キャプチャ装置106のマイクロフォンのうちの1つを平面271に保持し、4つのうちの残りを平面270に置くことによって、空間体積を定義することが可能である。
【0034】
したがって、周辺にいる他の人(276aおよび276bとして示される)から来るノイズは、体積焦点274内に画定される空間体積内に存在していないため、フィルタ除去される。更に、スピーカ276cで示すように、空間体積のすぐ外で生成されたノイズも、空間体積の外に存在しているためにフィルタ除去される。
【0035】
図7は、本発明の一実施形態によるフローチャート図を示す。この方法は、操作302から開始し、2つ以上の音声キャプチャマイクロフォンにおいて、1つ以上の音源からの入力が受信される。1つの例では、この2つ以上の音声キャプチャマイクロフォンは画像−音声キャプチャ装置106に組み込まれている。別の実施形態では、2つ以上の音声キャプチャマイクロフォンが、画像キャプチャ装置106bとインタフェースする第2のモジュール/ハウジングの一部であってもよい。あるいは、音声キャプチャユニット106aが備える音声キャプチャマイクロフォンの個数はいくつであってもよく、音声キャプチャマイクロフォンが、コンピューティングシステムと相互作用しているユーザから音をキャプチャするように設計された特定の位置に設置されてもよい。
【0036】
この方法は操作304に移動し、各音源について遅延路が決定される。遅延路の例は、図3Aの音経路201,202によって定義される。周知のように、遅延路は、音源から、音をキャプチャするために配置された特定のマイクロフォンまで音波が進むのに要する時間を定義している。マイクロフォンは、音が特定の音源116から進むのに要する遅延に基づいて、遅延がどのようなものであるかを決定することができ、標準の三角測量アルゴリズムを使用して、その音が発せられた位置を概算することができる。
【0037】
次に、方法は操作306に進み、1つ以上の音源についてそれぞれ受信された入力の方向が識別される。つまり、音源116から音が発せられる方向が、音声キャプチャユニット106aを含む画像−音声キャプチャ装置の位置に対して識別される。操作308において、識別された方向に基づいて、識別された焦点ゾーン(または体積)の方向にない音源がフィルタ除去される。操作310に示すように、焦点ゾーンの近くの方向から発生したのではない音源をフィルタ除去することにより、コンピュータプログラムとの対話機能のために、フィルタ除去されていない音源を使用することが可能である。
【0038】
例えば、対話型プログラムは、ユーザがビデオゲームの機能またはビデオゲームの主プレーヤと対戦しているプレーヤと対話的に通信することができるビデオゲームであってもよい。対戦しているプレーヤは、ローカルであっても、またはリモートにいて、インターネットなどのネットワークを介して主ユーザと通信していてもよい。更に、ビデオゲームと関連する特定のコンテストにおいて、互いのスキルを対話的に競い合うように設計されたグループ内の多数のユーザ間でビデオゲームがプレイされてもよい。
【0039】
図8は、フローチャート図であり、画像−音声キャプチャ装置の操作320が、操作340で受信した入力に対して実行されるソフトウェア実行操作とは独立して示される。したがって、操作302において、2つ以上の音声キャプチャマイクロフォンで1つ以上の音源からの入力が受信されると、方法は操作304に進み、ソフトウェア内で、各音源の遅延路が決定される。上記したように、操作306において、遅延路に基づいて、1つ以上音源のそれぞれについて、受信された各入力の方向が識別される。
【0040】
この時点で、方法は操作312に移動し、ビデオキャプチャの近くにある識別された方向が決定される。例えば、図1に示すように、ビデオキャプチャの標的が、アクティブな画像領域に定められる。したがって、ビデオキャプチャの近くは、このアクティブな画像領域(または体積)の中であり、この画像アクティブ領域にあるかまたはその近くの音源と関連する任意の方向が決定される。この決定に基づいて、方法は操作314に進み、ビデオキャプチャの近くにない方向(または体積)がフィルタ除去される。このため、主プレーヤのビデオゲームのプレイに干渉する可能性のある攪乱、ノイズおよびその他の無関係な入力が、ゲームのプレイ中に実行されるソフトウェアによって実行される処理でフィルタ除去される。
【0041】
したがって、主ユーザは、ビデオゲームと対話したり、ビデオゲームを能動的に使用しているビデオゲームの他のユーザと対話したり、対象とする同じビデオゲームのためにトランザクションにログインしているかまたはこれと関連しているネットワーク上の他のユーザと通信することができる。したがって、このようなビデオゲームの通信、対話機能および制御は、無関係なノイズおよび/または特定のゲームまたは対話型プログラムと対話的に通信しているか、またはこれに参加していない観察者によって妨害されることはない。
【0042】
ここに記載されている実施形態は、オンラインゲームアプリケーションにも適用しうるという点を理解すべきである。すなわち、前述の実施形態は、インターネットなどの分散ネットワークを介してビデオ信号を複数のユーザに送信するサーバで行われ、騒音のあるリモート点でプレーヤが相互に通信できるようにする。ここに記載した実施形態は、ハードウェア実装、ソフトウェア実装のいずれによって実装されてもよいという点を更に理解すべきである。すなわち、上で述べた機能の説明を組み合わせて、ノイズキャンセル方式に関連する各モジュールの機能タスクを実行するように構成された論理回路を有するマイクロチップを定義してもよい。
【0043】
また、音源の選択的なフィルタリングは、電話などのほかの用途を有していてもよい。電話を使用する環境では、通常、主人物(すなわち発呼者)が、第三者(すなわち被発呼者)と会話することを望んでいる。しかし、この通信中に、話しているかまたはノイズを発しているほかの人が近くにいることがある。主ユーザに標的を定めた(例えば、受話器の方向によって)電話が、主ユーザの口から出る音を、焦点ゾーンとすることができ、このため、主ユーザのみを聴取する選択が可能となる。このため、この選択的聴取は、主人物と関連付けられていない音声またはノイズの実質的なフィルタ除去を可能にし、したがって、受話側は、電話を使用している主人物から、より明瞭な通信を受信することが可能となる。
【0044】
追加の技術は、制御または通信のための入力として音声を取り込むことに利点を有するより別の電子機器を有していてもよい。例えば、ユーザが、音声コマンドによって自動車の設定を制御する一方で、他の乗客がコマンドに妨害するのを防ぐことができる。ほかの用途に、ブラウズ用アプリケーション、文書作成または通信などのアプリケーションのコンピュータ制御がある。このフィルタリングを可能にすることによって、周囲音によって妨害されずに、音声または音のコマンドをより効果的に発することが可能である。このように、どのような電子装置も、本明細書に記載した任意の実施形態と併用して、音声コマンドによって制御することができる。
【0045】
更に、本発明の実施形態は用途が非常に広く、特許請求の範囲はこのような実施形態から利益を得ることができるこのような任意の用途を含むものとして解釈されるべきである。
【0046】
例えば、類似の用途として、音分析を使用して音源をフィルタ除去することが可能であると考えられる。音分析が使用される場合、使用するマイクロフォンは1つだけで済む。1つのマイクロフォンによってキャプチャされた音が(ソフトウェアまたはハードウェアで)デジタル的に分析されて、対象の音声または音が決定される。ゲームなどの一部の環境では、主ユーザが自分の声を一度記録して、この特定の音声を識別できるようにシステムを訓練することができる。このように、他の音声または音の排除が容易となる。したがって、フィルタリングを1つの音のトーンおよび/または周波数に基づいて行うことができるため、方向を特定する必要がないと考えられる。
【0047】
方向および体積を考慮に入れたときに、音声フィルタリングに関して上に記載した利点の全てが等しく適用できる。
【0048】
一実施形態では、音をキャプチャするための聴取領域を調整する方法および装置は、対応する聴取ゾーンを含む異なる領域または体積を識別するように構成されうる。より詳細には、マイクロフォンアレイは、これらの聴取ゾーンに対応する領域または体積から発生する音を検出するように構成されうる。更に、これらの領域または体積は、マイクロフォンアレイによって音をモニタすることができる領域または体積のより小さなサブセットであってもよい。一実施形態では、聴取ゾーンを拡大または縮小できるか、あるいはサイズは不変であるが位置を移動できるように、マイクロフォンアレイによって音を求めて検出される聴取ゾーンが動的に調整されうる。例えば、モニタされているゾーンが初期聴取ゾーンから小さくなるように、特定の場所の音を検出するために、聴取ゾーンが更に絞り込まれてもよい。更に、音を検証するために、音のレベルが、しきい値レベルと比較されてもよい。継続的な音を求めて、特定の場所からの音源がモニタされる。一実施形態では、初期領域から縮小領域まで小さくすることによって、不必要な背景ノイズが最小化される。一部の実施形態では、検出される領域または体積の調整が、画像キャプチャ装置の焦点ゾーンまたは視野に基づいて決定されうる。例えば、画像キャプチャ装置の視野が、ズームイン(拡大)、ズームアウト(最小化)、および/または横軸または縦軸に対して回転されうる。一実施形態では、マイクロフォンによって検出された領域に実行される調整が、画像キャプチャユニットの現在のビューに関連する領域をトラッキングする。
【0049】
図9は、視覚画像または音声信号の発生源の場所に基づいて、音をキャプチャする、または音声信号をキャプチャするために、聴取領域を調整する方法および装置が実装される環境を示す図である。この環境には、電子装置410(例えば、クライアント装置として動作するように構成されたコンピューティングプラットホーム、例えば、パーソナルデジタルビデオレコーダ、デジタルオーディオプレーヤ、コンピュータ、個人情報端末、携帯電話機、カメラ装置、セットトップボックス、ゲーム機など)、ユーザインタフェース415、ネットワーク420(ローカル領域ネットワーク、ホームネットワーク、インターネットなど)、およびサーバ430(サーバとして動作するように構成されたコンピューティングプラットホームなど)が含まれる。一実施形態では、ネットワーク420は、無線または有線のソリューションによって実装されうる。
【0050】
一実施形態では、1つ以上のユーザインタフェース415コンポーネントは、電子装置410と一体化されており、例えば、個人情報端末電子装置(ソニー株式会社が製造しているクリエ(登録商標)など)と同じ筐体に収容されたキーパッドおよびビデオ表示画面入出力インタフェースなどである。別の実施形態では、1つ以上のユーザインタフェース415コンポーネント(例えばキーボード、マウスやトラックボールなどのポインティングデバイス、マイクロフォン、スピーカ、ディスプレイ、カメラ)は、電子装置410と物理的に分離されているか、あるいは、従来の方法によってこれと結合されている。ユーザは、電子装置410、サーバ430、またはネットワーク420を介して結合されたリモート記憶装置(図示せず)に記憶されているコンテンツおよびアプリケーションにアクセスおよび制御するために、インタフェース415を使用する。
【0051】
本発明によれば、後述するような信号の位置に基づいて音声信号をキャプチャする実施形態は、電子装置410、サーバ430内の電子プロセッサによって、あるいは、電子装置410とサーバ430の協働するそれぞれのプロセッサによって実行される。図1ではサーバ430は1つのコンピューティングプラットホームとして図示されているが、別の例では、1つのサーバとして動作する、相互接続された2つ以上のコンピューティングプラットホームである。
【0052】
音をキャプチャするために聴取範囲を調整するか、または、視覚画像または音声信号の発生源の位置に基づいて音声信号をキャプチャするための方法および装置を、複数のユーザプロファイルからユーザプロファイルが選択されるアプリケーションの代表的な実施形態を用いて示す。一実施形態では、ユーザプロファイルが電子装置410からアクセスされ、ユーザプロファイルと関連付けられたコンテンツを作成、変更したり、他の電子装置410に配布することができる。一実施形態では、ユーザプロファイルに関連するコンテンツは、テレビまたは音楽の番組編成と関連付けられたカスタマイズされたチャネルリストと、カスタマイズされた記録時間に関連する記録情報を含む。
【0053】
一実施形態では、特定のユーザプロファイルと関連付けられたコンテンツを作成または変更するためのアクセスは、許可されたユーザに制限されている。一実施形態では、許可されたユーザは、周辺装置(ポータブルメモリデバイス、ドングルなど)に基づいている。一実施形態では、各周辺装置は一意のユーザ識別子に関連付けられており、このユーザ識別子は、一意のユーザプロファイルに関連付けられている。
【0054】
図10は、信号の位置に基づいて音声信号をキャプチャするための方法および装置が実装される例示的なアーキテクチャを示す簡略図である。例示的なアーキテクチャには、複数の電子装置410、サーバ装置430、ならびに電子装置410とサーバ430および電子装置410同士を接続しているネットワーク420が含まれる。複数の電子装置410は、電子プロセッサ209に結合された計算機可読媒体509(ランダムアクセスメモリなど)を有するようにそれぞれ構成されている。プロセッサ208は、計算機可読媒体209に記憶されているプログラム命令を実行する。図9に関して記載したように、個々のユーザが、インタフェース415を介してそれぞれの電子装置410を操作する。
【0055】
サーバ装置430は、サーバメモリ512など、計算機可読媒体に結合されたプロセッサ511を有する。一実施形態では、サーバ装置430は、1つ以上の追加の外部装置または内蔵装置と結合されており、これには、例えばデータベース540などの補助データ記憶要素があるが、これに限定されない。
【0056】
1つの例では、プロセッサ508,511は、米国カリフォルニア州サンタクララ所在のインテル コーポレーションによって製造される。別の例では、ほかのマイクロプロセッサが使用される。
【0057】
複数のクライアント装置410およびサーバ430は、信号の位置に基づいて音声信号をキャプチャするためのカスタマイズされたアプリケーションの命令を含む。一実施形態では、複数の計算機可読媒体509,512は、その一部に、カスタマイズされたアプリケーションを格納している。更に、複数のクライアント装置410とサーバ430は、カスタマイズされたアプリケーションと併用するために、電子メッセージを受信および送信するように構成されている。同様に、ネットワーク420は、カスタマイズされたアプリケーションと併用するために、電子メッセージを送信するように構成されている。
【0058】
1つ以上のユーザアプリケーションが、メモリ509、サーバメモリ512に記憶されるか、あるいは1つのユーザアプリケーションが、その一部が1つのメモリ509に、一部がサーバメモリ512に保存されている。1つの例では、記憶されているユーザアプリケーションは、記憶場所を問わず、後述する実施形態を使用して決定された信号の位置に基づいた音声信号のキャプチャに基づいて、カスタマイズ可能とされる。
【0059】
上記の説明の一部は、2つ以上の音源キャプチャマイクロフォンで1つ以上の音源からの入力を受信し、各音源から遅延路を決定し、1つ以上の音源のそれぞれの受信した入力の各々について方向を特定し、識別された焦点ゾーンの方向にない音源をフィルタ除去することに言及している。例として、このような音声入力処理は、図11A、11B、12A、12Bおよび13を参照して後述するように進みうるが、これに限定されない。図11Aに示すように、マイクロフォンアレイ602は、4つのマイクロフォンM0、M1、M2およびM3を備えうる。一般に、マイクロフォンM0、M1、M2およびM3は、無指向性マイクロフォン(すなわち、ほぼどの方向からの音声でも検出することができるマイクロフォン)でありうる。無指向性マイクロフォンは、通常、構造的に単純であり、好適な聴取方向をもつマイクロフォンよりは低価格である。1つ以上の発生源604からマイクロフォンアレイ602に到達した音声信号は、ベクトルx=[x0,x1,x2,x3](x0、x1、x2およびx3は、それぞれマイクロフォンM0、M1、M2およびM3によって受信される信号である)で表すことができる。各信号xmは、通常、異なる音源のために、下位成分を備える。この例では、添字mは0〜3の範囲をとり、アレイ内の異なるマイクロフォンを区別するために使用される。下位成分は、ベクトルs=[s1,s2,…,sK](Kは異なる発生源の個数)で表すことができる。異なる発生源から発生する信号sから音を分離するには、最良の到達時間遅延(Time Delay of Arrival:TDA)フィルタを決定しなければならない。正確なTDA検出のために、最新ではあるが、計算量の多いブラインド音源分離(Blind Source Separation:BSS)が理論上は好ましい。ブラインド音源分離は一組の信号を他の一組の信号に分離し、これにより、得られたそれぞれの信号の規則性が最大となるとともに、信号間の規則性が最小となる(すなわち、統計的独立が最大となるか、非相関性が最小となる)。
【0060】
ブラインド音源分離では、二次統計量に基づく独立成分解析(Independent Component Analysis:ICA)が行われうる。このような場合、各マイクロフォンに到達した信号のデータはランダムベクトルxm=[x1,…,xn]、成分はランダムベクトルs=[s1,…,sn]で表現できる。この作業は、線形静的変換s=Wxを使用して、観測データxmを、独立の一部の関数F(s1,…,sn)によって測定された独立度が最大の成分sに変換することである。
【0061】
観察されたランダムベクトルxm=(xm1,…,xmn)の成分xmiは、混合重みaminによって重み付けられた独立成分smkの合計として生成される(k、k=1,…,n、xmi=ami1sm1+…+amiksmk+…+aminsmn)。換言すれば、データベクトルxmは、混合行列Aと発生源ベクトルsTとの積として表される。すなわち、xm=A・sT、すなわち下記式で表される。
【0062】
【数1】
【0063】
元の発生源sは、観察された信号ベクトルxmと、分離行列とも呼ばれる、混合行列の逆行列W=A−1を乗算することによって復元することができる。分離行列A−1の決定は、計算を多用するものとなることがある。本発明の一部の実施形態は、マイクロフォンアレイの聴取方向を決定するために、ブラインド音源分離(BSS)を使用する。マイクロフォンアレイの聴取方向および/または1つ以上の聴取ゾーンは、実行時の前(例えば、マイクロフォンアレイの設計および/または製造時に)に較正され、実行時に再び較正されうる。
【0064】
例えば、聴取方向は、次のように決定することができる。マイクロフォンアレイに対して聴取方向に立っているユーザが、約10〜30秒間のスピーチを記録しうる。録音室には、一時的な干渉(例えば競合するような発話、バックグラウンドミュージックなど)が含まれていてはならない。所定の間隔の(約8ミリ秒ごとなど)記録された音声信号が、分析フレームに形成されて、時間領域から周波数領域に変換される。このフレーム内の各周波数ビン成分に対して、音声区間検出(VAD)が実行されてもよい。各フレーム内の各周波数ビンについて、各フレーム内で強い音声信号を含むビンのみが収集されて、その二次統計量の概算に使用される。すなわち、較正共分散行列Cal_Cov(j,k)=E((X’jk)T*X’jk)であり、ここで、Eは期待値を決定する操作であり、(X’jk)TはベクトルX’jkの転置である。ベクトルX’jkは、j番目のフレームおよびk番目の周波数ビンのための較正信号のフーリエ変換を表しているM+1次のベクトルである。
【0065】
このとき、合計した共分散行列は、ターゲット聴取方向から発せられた最も強い信号相関を含む。較正共分散行列Cal_Cov(j,k)のそれぞれは主成分解析(PCA)によって分解されて、その対応する固有行列Cが生成されうる。したがって、固有行列Cの逆行列C−1は、共分散行列を非相関させるために最も多くの情報を基本的に含む「聴取方向」であるとみなすことができ、較正結果として保存される。ここで使用するように、較正共分散行列Cal_Cov(j,k)の「固有行列」とは、共分散行列の固有ベクトルである列(または行)を有する行列のことを指す。
【0066】
実行時に、この逆固有行列C−1が、単純な線形変換によって混合行列Aを非相関させるために使用されうる。非相関後、Aは、その対角主ベクトルによって良好に近似され、したがって、分離行列(すなわち、A−1)の計算が、以下の線形ベクトルの逆A1=A*C−1(ここで、A1は独立成分解析(ICA)における新しい変換された混合行列)の計算に簡略化される。主ベクトルは、A1行列のまさに対角である。
【0067】
実行時の再較正は、以前のステップに従って行われうる。しかし、製造時の既定の較正では、偏りがなく、個人に依存しない統計的推定を確実に行えるように、膨大な量の記録データ(例えば、何百人もの人からの何十時間分もの明瞭な音声)が必要となる。実行時の再較正では特定の人からの少ない量の記録データがあれば済むが、得られたC−1の推定は偏っており、したがって個人に依存している。
【0068】
上述の通り、主成分分析(PCA)は、混合行列Aを対角化する固有値を決定するために使用されうる。聴取方向が事前にわかっていれば、混合行列Aのエネルギーをその対角に圧縮することができる。この手順は、ここではセミブラインド音源分離(SBSS)と呼ぶが、独立成分ベクトルsTの計算を極めて簡略化する。
【0069】
また、本発明の実施形態は、反因果的フィルタリングを利用することもできる。因果律の問題は、図11Bに示される。マイクロフォンアレイ602において、1つのマイクロフォン(例えばM0)が参照マイクロフォンに選ばれる。マイクロフォンアレイからの信号x(t)が因果的であるためには、発生源604からの信号が、最初に参照マイクロフォンM0に到達しなければならない。しかし、信号が他のマイクロフォンのいずれかに最初に到達した場合、M0は、参照マイクロフォンとして使用することができない。通常、信号は、発生源604に最も近いマイクロフォンに最初に到達する。本発明の実施形態は、参照マイクロフォンが常に最初に信号を受信するように、アレイ302内のマイクロフォンM0、M1、M2、M3の間で参照マイクロフォンを切り替えることによって、発生源304の位置の変化に対して調整される。詳しくは、この反因果律は、参照マイクロフォンを除いたアレイ内の全てのマイクロフォンで受信される信号を遅延させる一方、これを行うために使用される遅延フィルタの長さを最小化することで、実現することができる。
【0070】
例えば、マイクロフォンM0が参照マイクロフォンの場合に、他の3つの非参照マイクロフォンM1,M2、M3での信号が、システム出力y(t)に基づいて微小な遅延Δtm(m=1、2、3)によって調整されうる。微小な遅延Δtmは、システム出力y(t)の信号対雑音比(SNR)の変化に基づいて調整されうる。通常、遅延はSNRを最大にするように選択される。例えば、離散時間信号の場合、時間サンプルtにおける各非参照マイクロフォンからの信号の遅延Δtmは、式Δtm(t)=Δtm(t−1)+μΔSNR(ここで、ΔSNRはt−2とt−1間のSNRの変化であり、μは定義済みのステップ幅であり、これは経験的に決定されうる)に従って計算することができる。Δt(t)>1の場合、遅延は1サンプルごとに増加する。反因果律のためこのような遅延を使用する本発明の実施形態では、合計遅延時間(すなわちΔtmの合計)は、通常は2〜3の整数サンプルである。これは、2〜3のフィルタタップを用いて実現することができる。これは、代表的なデジタルシグナルプロセッサが最大512のタップを有するディジタルフィルタを使用することがあることを考えると、比較的少ない遅延量である。人工的な遅延Δtmを非参照マイクロフォンに適用することは、参照マイクロフォンM0が音源604に最も近くなるように、アレイ602の向きを物理的に定めることと、デジタル的に等価であることに注意されたい。
【0071】
図12Aは、アレイ602内のマイクロフォンのうちの1つであるM0からの信号のフィルタリングを示す。装置700Aにおいて、マイクロフォンx0(t)からの信号が、7040,…,704NのN+1個のタップから構成されるフィルタ702に供給される。先頭のタップ7040を除き、各タップ704iは、z変換z−1および有限レスポンスフィルタによって表現される遅延部分を有する。各遅延部分が、単位整数遅延を信号x(t)に導入する。有限インパルス応答フィルタは、有限インパルス応答フィルタ係数b0,b1,b2,b3,…,bNによって表現される。本発明の実施形態では、フィルタ702は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせで実装することができる。所定のフィルタタップ704iからの出力y(t)は、対応する有限インパルス応答係数biによってフィルタタップ704iに対する入力信号のまさにコンボルーションである。なお、先頭のフィルタタップ7040を除いた全フィルタタップ704iの全てについて、フィルタタップへの入力は、以前のフィルタタップ704i−1の遅延部分Z−1の出力そのものである。したがって、フィルタ402の出力は、
【0072】
y(t)=x(t)*b0+x(t−1)*b1+x(t−2)*b2+…+x(t−N)bN
【0073】
で表現することができ、上記式において、記号「*」はコンボルーション操作を表す。2つの離散時間関数f(t)とg(t)間のコンボルーションは、以下のように定義される。
【数2】
【0074】
音声信号処理の一般的な問題は、信号y(t)から音声の異なる発生源を最も良好に分解する有限インパルス応答フィルタ係数b0,b1,…,bNの値を選択することである。
【0075】
信号x(t)およびy(t)が離散時間信号である場合、各遅延Z−1は必ず整数遅延であり、遅延の大きさはマイクロフォンの最大周波数と逆相関している。通常、これが、装置400Aの解像度を制限してしまう。通常よりも高い解像度は、以下の式のようになるように、このような微小な時間遅延Δを信号y(t)に導入することができる場合に得られる。
【0076】
y(t+Δ)=x(t+Δ)*b0+x(t−1+Δ)*b1+x(t−2+Δ)*b2+…+x(t−N+Δ)bN
【0077】
上記式において、Δは0〜±1である。本発明の実施形態において、微小な遅延またはその等価は、以下のように得ることができる。第1に、x(t)をj個のサンプル毎に遅延させ、有限インパルス応答フィルタ係数bi(i=0,1,…,N)を以下の(J+1)次元の列ベクトル
【数3】
で表し、y(t)を以下のように書き換えることができる。
【0078】
【数4】
y(t)が上記の形で表現される場合、t=t+Δの任意の微小な値についてy(t)の値を補間することができる。詳しくは、y(t)の3つの値が、多項式補間に使用されうる。微小な値Δの予想される統計精度はJ+1に反比例し、これはy(t)の直前の表現の「行」の数である。
【0079】
本発明の実施形態では、量t+Δは、この概念を時間領域で説明する数学的要約であるとみなすことができる。実際には、正確な「t+Δ」を概算する必要があるというわけではない。それよりも、信号y(t)は周波数領域に変換されることがあるため、このような明示的な「t+Δ」がない。それよりも、周波数領域関数F(bi)の推定は、微小な遅延Δの等価を提供するのに十分である。時間領域出力信号y(t)のための上記の数式は、例えば、フーリエ変換をとることによって時間領域から周波数領域に変換され、その結果得られる数式が、周波数領域出力信号Y(k)について解かれうる。これは、J+1個のフレームについてフーリエ変換(例えば、高速フーリエ変換(fft)によって)を実行することに同等であり、フーリエ変換の各周波数ビンは(J+1)×1列のベクトルである。周波数ビンの数はN+1と等しい。
【0080】
上記の式の各行について、有限インパルス応答フィルタ係数は、x(t)のフーリエ変換をとり、セミブラインド音源分離によって、求めることができる。詳しくは、上記の式の各「行」は、以下のようになる。
【0081】
X0=FT(x(t,t−1,…,t−N))=[X00,X01,…,X0N]
【0082】
X1=FT(x(t−1,t−2,…,t−(N+1))=[X10,X11,…,X1N]
【0083】
XJ=FT(x(t,t−1,…,t−(N+J)))=[XJ0,XJ1,…,XJN]
【0084】
上記式で、FT()は括弧内の量のフーリエ変換をとる演算を表す。
【0085】
更に、前述の内容は1つのマイクロフォンのみを扱っていたが、本発明の実施形態が2つ以上のマイクロフォンのアレイを使用してもよい。このような場合、入力信号x(t)は、M+1次元のベクトルx(t)=(x0(t),x1(t),…,xM(t))で表すことができる(M+1はアレイ内のマイクロフォンの個数)。
【0086】
図12Bは、M+1個のマイクロフォンM0,M1,…,MMのマイクロフォンアレイ602を有する装置700Bを示す。各マイクロフォンは、M+1個の対応するフィルタ7020,7021,…,702Mのうちの1つと接続されている。各フィルタ7020,7021,…,702Mは、対応するN+1個のフィルタタップの組70400,…7040N,70410,…,7041N,704M0,…,704MNを有する。各フィルタタップ704miは、有限インパルス応答フィルタbmj(ただし、m=0,…,M、i=0,…,N)を有する。先頭のフィルタタップ704m0を除き、各フィルタ702m内のフィルタタップもZ−1によって示される遅延を有する。各フィルタ702mは、対応している出力ym(t)を生成し、これは、フィルタの合成した出力y(t)の成分とみなすことができる。前述のように、各出力信号ym(t)に微小な遅延が加えられうる。
【0087】
M+1個のマイクロフォンを有するアレイでは、量Xjは、通常(M+1)次元のベクトルである。例えば、4チャンネルマイクロフォンアレイの場合、x0(t)、x1(t)、x2(t)、x3(t)の4つの入力信号がある。4チャンネルの入力xm(t)は周波数領域に変換され、1×4のベクトル“Xjk”としてまとめられる。ベクトルXjkの外積は4×4行列となり、この行列の統計的平均が共分散」行列となり、これは各ベクトル要素間の相関を示す。
【0088】
例えば、4つの入力信号x0(t)、x1(t)、x2(t)、x3(t)は、J+1=10ブロックを有する周波数領域に変換されうる。詳細には、以下のようになる。
【0089】
チャネル0:
X00=FT([x0(t−0),x0(t−1),x0(t−2),…,x0(t−N−1+0)])
X01=FT([x0(t−1),x0(t−2),x0(t−3),…,x0(t−N−1+1)])
……
X09=FT([x0(t−9),x0(t−10)x0(t−2),…,x0(t−N−1+10)])
【0090】
チャネル1:
x01=FT([x1(t−0),x1(t−1),x1(t−2),…,x1(t−N−1+0)])
x11=FT([x1(t−1),x1(t−2),x1(t−3),…,x1(t−N−1+1)])
……
x19=FT([x1(t−9),x1(t−10)x1(t−2),…,x1(t−N−1+10)])
【0091】
チャネル2:
x20=FT([x2(t−0)),x2(t−1),x2(t−2),…,x2(t−N−1+0)])
x21=FT([x2(t−1),x2(t−2),x2(t−3),…,x2(t−N−1+1)])
……
x29=FT([x2(t−9),x2(t−10)x2(t−2),…,x2(t−N−1+10)])
【0092】
チャネル3:
x30=FT([x3(t−0),x3(t−1),x3(t−2),…,x3(t−N−1+0)]
x31=FT([x3(t−1),x3(t−2),x3(t−3),…,x3(t−N−1+1)])
……
X39=FT([x3(t−9),x3(t−10)x3(t−2),…,x3(t−N−1+10)])
【0093】
例えば、微小な遅延を作成するために10のフレームが使用されるとする。各フレームjについてj=0:9であり、各周波数ビン<k>についてn=0:N−1であり、以下の、1×4ベクトルを生成することができる。
【0094】
Xjk=[X0j(k),X1j(k),X2j(k),X3j(k)]
【0095】
ベクトルXjkがSBSSアルゴリズムに供給され、フィルタ係数bjnが求められる。混合行列A(例えば4つのマイクを有するアレイのための4×4行列)は、4×1の混合重みベクトルbjkに置換される。これは、A1=A*C−1(すなわちbjk=Diagonal(A1))(C−1は、上記の較正操作から得られる逆固有行列)の対角行列)である。周波数領域補正信号ベクトルX´jkは、上記の説明にて記載したように生成されうることに注意されたい。
【0096】
混合行列Aは、実行時共分散行列Cov(j,k)=E((Xjk)T*Xjk)によって近似することができ、ここで、Eは期待値を決定する演算であり、(Xjk)TはベクトルXjkの転置行列である。各ベクトルbjkの成分は、各フレームjと各周波数ビンkの対応するフィルタ係数であり、すなわち、以下のようになる。
【0097】
bjk=[bj0(k),b1j(k),b2j(k),b3j(k)]
【0098】
各ベクトルXjkを構成している個々の音源の独立周波数領域成分は、以下の式から決定することができる。
【0099】
S(j,k)T=bjk−1・Xjk=[(b0j(k))−1X0j(k),(b1j(k)X1j(k),(b2j(k))−1X2j(k),(b3j(k))−1X3j(k)]、この式において、各S(j,k)Tは、元の入力信号x(t)の独立周波数領域を含む1×4ベクトルである。
【0100】
マイクロフォンアレイ302において、ICAアルゴリズムは、「共分散」独立に基づいている。M+1個の独立成分(音源)が常にあり、これらの二次統計量が独立であると仮定される。換言すれば、信号x0(t)、x1(t)、x2(t)、x3(t)間の相互相関がゼロでなければならない。この結果、共分散行列Cov(j,k)内の非対角の要素も、同様にゼロでなければならない。
【0101】
これと対照的に、問題を逆に考えると、M+1の信号源があることがわかっている場合、相互相関を非相関させることができる行列Aをみつけることによって、これらの相互相関する「共分散行列」を決定することもできる。すなわち、この行列Aによって、共分散行列Cov(j,k)を対角(非対角の要素が全てゼロである)にすることができ、このとき、Aは、4つの発生源を分離するための条件(recipe)を保持する「分離行列」である。
【0102】
「分離行列A」を解くことは「逆問題」であるため、これは実際には非常に複雑で、Aの決定的な数学的解は通常存在しない。その代わり、Aを最初に推測して、次に、各信号ベクトルxm(t)(m=0,1,…,M)について、Aを少しずつ(適応ステップサイズと呼ばれる)適応的に更新していく。4マイクロフォンアレイの場合、Aの適応は、通常、元のICAアルゴリズムにおいて4×4行列の逆行列を決定することに関連する。望ましくは、適応されたAは真のAに収束していくものと思われる。本発明の実施形態によれば、セミブラインド音源分離を使用することにより、分離行列AがA1ベクトルとなるが、この理由は、これが、上記の事前較正の結果である逆固有行列C−1によって既に非相関されているためである。
【0103】
実行時の共分散行列Cov(j,k)と事前に較正された逆固有行列C−1とを乗算することは、基本的には、Aの対角要素を拾い出し、これらをA1ベクトルにすることである。A1の各要素には最も強い相互相関があり、Aの逆行列では、この相関が事実上なくなる。このため、本発明の実施形態は、従来のICA適応手順を単純にし、各更新において、Aの逆行列はベクトルの逆b−1となる。行列の逆の計算はN立方の複雑さであるが、ベクトルの逆の計算はN線形の複雑さである点に留意されたい。詳細には、N=4の場合、行列の逆の計算は、ベクトルの逆の計算よりも64回多く計算が必要である。
【0104】
また、(M+1)×(M+1)行列を(M+1)×1ベクトルに小さくすることによって、必要なパラメータが遙かに少なくなり、数学的に「自由度」と呼ばれる数値的安定性に関する問題が著しく小さいため、適応がはるかに確実なものとなる。SBSSによって自由度が(M+1)倍下がるため、適応の収束が早くなる。実世界の音響環境では、音源が絶えず変わっている、すなわち、分離行列Aが非常に早く変化するため、これは、非常に望ましい。Aの適応は、この変化をリアルタイムにトラッキングして、その真の値に収束するのに十分早くなければならない。SBSSの代わりに従来のICAベースのBSSアルゴリズムを使用する場合、2を超えるマイクロフォンのアレイによって実時間アプリケーションを構築することは、ほぼ不可能である。単純なマイクロフォンアレイのなかにはBSSを使用するものがあるが、全てではないにせよ、ほとんどのアレイが2つのマイクロフォンのみを使用している。
【0105】
周波数領域出力Y(k)は、N+1次元のベクトルY=[Y0,Y1,…,YN]で表現することができ、各成分Yiは、以下の式によって計算することができる。
【数5】
各成分Yは、フィルタに対する単位応答を実現するために正規化されうる。
【数6】
【0106】
本発明の実施形態では、N、Jは任意の値をとることができるが、実際は、N=511、J=9によって、望ましいレベルの解像度(例えば、16kHzのマイクロフォンを有するアレイでは、波長の約1/10)が得られることが示されている。
【0107】
図13は、本発明の一実施形態を示すフロー図を示す。ブロック802において、マイクロフォンM0…MMから離散的時間領域入力信号xm(t)が生成されうる。ブロック804において、例えば、前述のように較正共分散行列に対する逆固有行列C−1を計算することによって、マイクロフォンアレイの聴取方向が決定されうる。上記のように、聴取方向は、設計または製造の際の、マイクロフォンアレイの較正時に決定されても、または実行時に再較正されてもよい。詳細には、マイクロフォンアレイに対して好適な聴取方向にある発生源からの信号が、所定時間記録されうる。信号の分析フレームが、所定間隔で作成されて、この分析フレームが、周波数領域に変換されうる。周波数領域に変換された分析フレームのベクトルから、較正共分散行列が推定されうる。較正共分散行列の固有行列Cが計算されて、固有行列の逆から聴取方向が提供される。
【0108】
ブロック506において、参照マイクロフォンM0からの入力信号x0(t)を除く選択された入力信号xm(t)に、1つ以上の微小な遅延が適用されうる。微小な遅延のそれぞれは、マイクロフォンアレイからの離散的時間領域出力信号y(t)の信号対雑音比を最適化するために選択される。参照マイクロフォンM0からの信号が、アレイ内の他のマイクロフォンからの信号に比べて時間が一番早くなるように、微小な遅延が選択される。
【0109】
ブロック508において、y(t+Δ)=x(t+Δ)*b0+x(t−1+Δ)*b1+x(t−2+Δ)*b2+,…,+x(t−N+Δ)bN(ただし、Δは0〜±1)となるように、微小な時間遅延Δが出力信号y(t)に導入される。この微小な遅延は、図4Aおよび4Bに関して上述したように導入されうる。詳細には、k=0:Nの周波数ビンの各々について、ドメイン入力信号xm(t)がj+1フレームだけ遅延されるたびに、得られた遅延入力信号が、周波数領域に変換されて、周波数領域入力信号ベクトルXjkが生成される。
【0110】
ブロック510において、ブロック504で決定された聴取方向(例えば逆固有行列C−1)が、セミブラインド音源分離で使用されて、入力信号xm(t)から異なる音源を分離するための有限インパルス応答フィルタ係数b0,b1,…,bNが選択される。詳細には、各マイクロフォンm、各フレームj、および各周波数ビンkについて、入力信号xm(t)から2つ以上の音源を最も良好に分離することができるフィルタ係数[b0j(k),b1j(k),…,bMj(k)]が計算される。詳細には、各周波数領域入力信号ベクトルXjkから、実行時共分散行列が生成されうる。実行時共分散行列と固有行列Cの逆行列C−1が乗算されて、混合行列Aが生成され、混合行列Aの対角から混合ベクトルが得られうる。混合ベクトルの1つ以上の成分から、フィルタ係数の値が決定されうる。更に、一実施形態では、フィルタ係数は、マイクロフォンアレイに対する位置を表しうる。別の実施形態では、フィルタ係数は、マイクロフォンアレイに対する領域を表しうる。
【0111】
図14は、信号の位置に基づいて音声信号をキャプチャするためのシステム900の一実施形態を示す。システム900は、領域検出モジュール910、領域調整モジュール920、記憶モジュール930、インタフェースモジュール940、音検出モジュール945、制御モジュール950、領域プロファイルモジュール960、および視野検出モジュール970を有する。制御モジュール950は、領域検出モジュール910、領域調整モジュール920、記憶モジュール930、インタフェースモジュール940、音検出モジュール945、領域プロファイルモジュール960、および視野検出モジュール970と通信しうる。
【0112】
制御モジュール950は、領域検出モジュール910、領域調整モジュール920、記憶モジュール930、インタフェースモジュール940、音検出モジュール945、領域プロファイルモジュール960、および視野検出モジュール970の間でタスク、要求および通信を調整しうる。
【0113】
領域検出モジュール910は、音を求めてモニタされている聴取ゾーンを検出しうる。一実施形態では、マイクロフォンアレイは、特定の電子装置410によって音を検出する。例えば、所定の領域から発生する音を求めて、その特定の領域を取り囲む特定の聴取ゾーンがモニタされうる。一実施形態では、前述のように、聴取ゾーンは、有限インパルス応答フィルタ係数b0,b1,…,bNによって定義される。
【0114】
一実施形態では、領域調整モジュール920は、音を求めてモニタされている聴取ゾーンによって定義される領域を調整する。例えば、領域調整モジュール920は、領域検出モジュール910によって定義されるように特定の聴取ゾーンを含む所定の領域を変えるように構成されている。一実施形態では、この所定の領域が拡大される。別の実施形態では、この所定の領域が縮小される。一実施形態では、聴取ゾーンの領域の変更を反映するために、有限インパルス応答フィルタ係数b0,b1,…,bNが変更される。
【0115】
記憶モジュール930は、複数のプロファイルを記憶しており、各プロファイルは、音を検出するための異なる仕様(specification)と関連している。一実施形態では、プロファイルは、例えば、図15の例示的なプロファイルに示すように、さまざまな情報を記憶している。一実施形態では、記憶モジュール930は、サーバ装置430に存在する。別の実施形態では、記憶モジュール930の一部は、電子装置410に存在する。
【0116】
別の実施形態では、記憶モジュール930は、検出された音の表現も記憶している。
【0117】
一実施形態では、インタフェースモジュール940は、電子装置410がネットワーク420に接続されたときに、この電子装置410を検出する。
【0118】
別の実施形態では、インタフェースモジュール940は、キーボード、マウス、マイクロフォン、スチルカメラ、ビデオカメラなどのインタフェース装置415からの入力を検出する。
【0119】
更に別の実施形態では、インタフェースモジュール640は、ディスプレイ、スピーカ、外部記憶装置、外部ネットワークなどのインタフェース装置415への出力を供給する。
【0120】
一実施形態では、音検出モジュール945は、聴取ゾーン内で発生した音を検出するように構成されている。一実施形態では、聴取ゾーンが、領域検出モジュール910によって決定される。別の実施形態では、聴取ゾーンは、領域調整モジュール920によって決定される。
【0121】
一実施形態では、音検出モジュール945は、聴取ゾーンから発生する音をキャプチャする。別の実施形態では、音検出モジュール945は、聴取ゾーン内の音の位置を検出する。音の位置は、有限インパルス応答フィルタ係数b0,b1,…,bNに関して表現されうる。
【0122】
一実施形態では、領域プロファイルモジュール960は、音を検出するための特定の聴取ゾーンに関連するプロファイル情報を処理する。例えば、プロファイル情報には、音を求めて検出されている特定の聴取ゾーンを詳細に記述するパラメータが含まれうる。これらのパラメータには、有限インパルス応答フィルタ係数b0,b1,…,bNが含まれうる。
【0123】
一実施形態では、例示的なプロファイル情報が、図15に示すレコードに示される。一実施形態では、領域プロファイルモジュール960はこのプロファイル情報を利用する。別の実施形態では、領域プロファイルモジュール960は、追加のプロファイル情報を有する追加レコードを作成する。
【0124】
一実施形態では、視野検出モジュール970は、例えばスチルカメラまたはビデオカメラなどの画像キャプチャユニットの視野を検出する。例えば、視野検出モジュール970は、画像キャプチャユニットの視角を、画像キャプチャユニットを通して見ているように検出するように構成されている。一例を挙げると、視野検出モジュール970は、画像キャプチャユニットの倍率レベルを検出する。例えば、倍率レベルは、特定の画像フレームを記述しているメタデータ内に含まれうる。別の実施形態では、画像キャプチャユニットがズームインするかまたはズームアウトと、視野検出モジュール970によって現在の視野が検出されるように、視野検出モジュール970は定期的に視野を検出する。
【0125】
別の実施形態では、視野検出モジュール970は、マイクロフォンアレイに対する画像キャプチャユニットの水平および垂直の回転位置を検出する。
【0126】
図14のシステム900は、例示を目的として図示するものであり、信号の位置に基づいて音声信号をキャプチャするための方法および装置の一実施形態に過ぎない。信号の位置に基づいて音声信号をキャプチャするための方法および装置から逸脱することなく、システム900に別のモジュールを追加してもよい。同様に、視覚画像または音声信号の発生源の位置に基づいて、音をキャプチャするまたは音声信号をキャプチャするための聴取領域を調整する方法および装置の範囲を逸脱することなく、モジュール同士を組み合わせたり、モジュールを省略してもよい。
【0127】
図15は、聴取領域を記述しているプロファイルに対応する対応する簡略化されたレコード1000を示す。一実施形態では、レコード1000は、記憶モジュール930に記憶され、システム900内で利用される。一実施形態では、レコード1000には、ユーザ識別フィールド1010、プロファイル名フィールド1020、聴取ゾーンフィールド1030、およびパラメータフィールド1040が含まれる。
【0128】
一実施形態では、ユーザ識別フィールド1010は、特定のユーザに対応するカスタマイズ可能なラベルを与える。例えば、ユーザ識別フィールド1010には、任意の名前(例えば「ボブ」、「エミリーのプロファイル」など)のラベルが与えられうる。
【0129】
一実施形態では、プロファイル名フィールド1020は、音を検出するために各プロファイルを一意に識別している。例えば、一実施形態では、プロファイル名フィールド1020は、場所および/または参加者を記述している。例えば、プロファイル名フィールド1020は、「XYZ講堂」、「ソニープレイステーション(登録商標)ABC Game」などの説明的な名前が付されうる。更に、プロファイル名フィールド1020は、「定員の半分のXYZ講堂」、他の参加者が2人いるソニープレイステーション(登録商標)ABC Game」などの名前が更に付されてもよい。
【0130】
一実施形態では、聴取ゾーンフィールド1030は、音を求めてモニタすべき異なる領域を識別している。例えば、XYZ講堂の全体が、音を求めてモニタされてもよい。しかし、別の実施形態では、前部分、後部分、中心部分、左部分および/または右部分など、XYZ講堂の選択された部分が音を求めてモニタされる。
【0131】
別の例において、ソニープレイステーション(登録商標)を取り囲む全ての領域が、音を求めてモニタされうる。しかし、別の実施形態では、例えば、ソニープレイステーション(登録商標)の前、ソニープレイステーション(登録商標)から所定の距離内など、ソニープレイステーション(登録商標)を取り囲む選択された領域が、音のためにモニタされる。
【0132】
一実施形態では、聴取ゾーンフィールド1030は、音をモニタするための1つの領域を含む。別の実施形態では、聴取ゾーンフィールド1030は、音をモニタするための複数の領域を含む。
【0133】
一実施形態では、パラメータフィールド1040は、聴取ゾーンフィールド1030内で記載したように聴取ゾーン内で音を適切に検出するために、音検出装置を構成するのに利用されるパラメータを記述している。
【0134】
一実施形態では、パラメータフィールド1040は、有限インパルス応答フィルタ係数b0,b1,…,bNを含む。
【0135】
図16、17、18および19に示すフロー図は、視覚画像または音声信号の発生源の位置に基づいて音をキャプチャするため、または音声信号をキャプチャするために、聴取領域を調整するための方法および装置の実施形態の例を示す。これらフロー図内のブロックは、信号の位置に基づいて音声信号をキャプチャするための方法および装置の趣旨から逸脱することなく、異なる順序で実行されてもよい。更に、このような方法および装置の趣旨から逸脱することなく、ブロックを省略したり、追加したり、あるいは組み合わせてもよい。
【0136】
図16のフロー図は、音をキャプチャするために聴取領域を調整する方法を示す。このような方法は、本発明の一実施形態による音声信号の発生源の位置に基づいた音声信号のキャプチャと共に使用することができる。
【0137】
ブロック1110において、音を検出するための初期聴取ゾーンが識別される。例えば、初期聴取ゾーンが、レコード1000と関連するプロファイル内で識別されうる。更に、領域プロファイルモジュール960が、初期聴取ゾーンと関連するパラメータを提供しうる。
【0138】
別の例では、初期聴取ゾーンは、特定の電子装置410に予めプログラムされている。更に別の実施形態では、部屋、講堂または車などの特定の位置が決定されて、初期聴取ゾーンとして定義される。
【0139】
別の実施形態では、マイクロフォンアレイの周囲の、聴覚により検出可能な領域を集合的に構成している複数の聴取ゾーンが定義される。各聴取ゾーンは、有限インパルス応答フィルタ係数b0,b1,…,bNによって表される。一実施形態では、初期聴取ゾーンが複数の聴取ゾーンから選択される。
【0140】
ブロック1120において、音検出のために初期聴取ゾーンが開始される。一実施形態では、マイクロフォンアレイが音を検出し始める。一例を挙げると、初期聴取ゾーン内の音のみが、装置410によって認識される。一例では、マイクロフォンアレイが、まず全ての音を検出しうる。しかし、初期聴取ゾーンの外で発生するかまたはそこから発せられた音は、装置410によって認識されない。一実施形態では、領域検出モジュール1110が、初期聴取ゾーンから発生する音を検出する。
【0141】
ブロック1130において、定義された領域内で検出された音がキャプチャされる。一実施形態では、マイクロフォンアレイが音を検出する。一実施形態では、キャプチャされた音が記憶モジュール930に記憶される。別の実施形態では、音検出モジュール945は、定義された領域から発生する音を検出する。一実施形態では、この定義された領域は、ブロック1110によって決定された初期聴取ゾーンを含む。別の実施形態では、定義された領域は、ブロック1160の調整された定義された領域に対応する領域を含む。
【0142】
ブロック1140において、定義された領域に対する調整が検出される。一実施形態では、定義された領域が拡大されうる。例えば、初期聴取ゾーンが設定された後に、定義された領域が、音をモニタするために、より大きな領域を含むように拡大されうる。
【0143】
一実施形態では、定義された領域が縮小されうる。例えば、初期聴取ゾーンが設定された後に、定義された領域が、音をモニタするために、より狭い領域に絞り込まれるように縮小されうる。
【0144】
別の実施形態では、定義された領域のサイズは一定であるが、定義された領域が回転されるか、または異なる位置に移動される。例えば、定義された領域が、マイクロフォンアレイに対して旋回されうる。
【0145】
更に、初期聴取ゾーンに対する最初の調整が実行されてから、定義された領域に対する調整が行われてもよい。
【0146】
一実施形態では、定義された領域に対する調整を示す信号が、音検出モジュール945によって検出された音、視野検出モジュール970によって検出された視野、および/または定義された領域内の調整の変更を示すインタフェースモジュール940によって受け取った入力によって開始され得る。
【0147】
ブロック1150において、定義された領域に対する調整が検出された場合は、ブロック1160において定義された領域が調整される。一実施形態では、ブロック1160において、調整された定義された領域を反映するために、有限インパルス応答フィルタ係数b0,b1,…,bNが変更される。別の実施形態では、聴取ゾーンの追加または減少を反映するために、異なるフィルタ係数が利用される。
【0148】
ブロック1150において、定義された領域に対する調整が検出されない場合、ブロック830において定義された領域内の音が検出される。
【0149】
図12のフロー図は、本発明の一実施形態による、聴取ゾーンの作成、聴取ゾーンの選択および音のモニタを示す。
【0150】
ブロック1210において、聴取ゾーンが定義される。一実施形態では、マイクロフォンアレイがカバーしているフィールドが複数の聴取ゾーンを含む。一実施形態では、聴取ゾーンが、マイクロフォンアレイに対する区画あるいはセグメントによって定義される。例えば、北東、北西、南東および南西などの4つの異なる四分区間として聴取ゾーンが定義され、各四分区間は、中心にあるマイクロフォンアレイの位置からみた位置である。別の例では、聴取領域が、任意の数の聴取ゾーンに分割されてもよい。説明の便宜上、聴取領域は、マイクロフォンアレイに対してX°の聴取ゾーンによって定義されうる。聴取領域全体がマイクロフォンアレイの周囲の360°の全てをカバーしており、10つの別個の聴取ゾーンがある場合、各聴取ゾーンまたは区画は36°である。
【0151】
一実施形態では、マイクロフォンアレイによって音を検出できる領域の全体が、聴取ゾーンのうちの1つによってカバーされる。一実施形態では、聴取ゾーンのそれぞれは、有限インパルス応答フィルタ係数b0,b1,…,bNの組と対応している。
【0152】
一実施形態では、特定の聴取ゾーンは、レコード1000内に記憶されたプロファイルに保存されうる。更に、有限インパルス応答フィルタ係数b0,b1,…,bNは、レコード1000に保存されうる。
【0153】
ブロック1215において、聴取ゾーンを選択することを目的として、マイクロフォンアレイによって音が検出される。検出された音の位置も検出されうる。一実施形態では、検出された音の位置が、有限インパルス応答フィルタ係数b0,b1,…,bNの組によって識別される。
【0154】
ブロック1220において、少なくとも1つの聴取ゾーンが選択される。一例を挙げると、マイクロフォンアレイによって検出したい音に、無関係なノイズが干渉するのを防ぐために、特定の聴取ゾーンの選択が行われる。聴取ゾーンを狭い領域に限定することによって、モニタされていない領域から発生する音を最低限に抑えることができる。
【0155】
一実施形態では、聴取ゾーンが自動的に選択される。例えば、ブロック1215で検出された音に基づいて、特定の聴取ゾーンが自動的に選択されうる。選択された特定の聴取ゾーンは、ブロック1215で検出された音の位置と相関しうる。更に、検出された音に対して、聴取ゾーンに隣接しているかまたはその近くにある追加の聴取ゾーンが選択されてもよい。別の例では、レコード1200内のプロファイルに基づいて、特定の聴取ゾーンが選択される。
【0156】
別の実施形態では、オペレータによって聴取ゾーンが手動で選択される。例えば、オペレータが、検出された音の位置にどの聴取ゾーンが対応しているかを示すグラフィック表現を視覚的に検出することができるように、検出された音がオペレータに視覚的に示されうる。更に、特定の聴取ゾーンの選択が、検出された音の位置に基づいて行われてもよい。別の例では、聴取ゾーンが、音の予想のみに基づいて選択されてもよい。
【0157】
ブロック1230において、マイクロフォンアレイによって音が検出される。一実施形態では、選択された聴取ゾーンに関わらず、マイクロフォンアレイによってあらゆる音がキャプチャされる。別の実施形態では、検出された音を表す情報が強度について分析されて、その後更に別の分析が行われる。一例では、検出された音の強度が所定のしきい値を満たさない場合、音はノイズとして特徴付けられて放棄される。
【0158】
ブロック1240において、ブロック1230で検出された音がブロック1220で選択された聴取ゾーンの1つの中でみつかった場合には、ブロック1250において、音を表す情報がオペレータに伝えられる。一実施形態では、音を表す情報が、再生、記録および/または更に処理されうる。
【0159】
ブロック1240において、ブロック1230で検出された音が、選択された聴取ゾーンの1つの中でみつからなかった場合には、ブロック1245で更に分析が行われる。
【0160】
ブロック1245で、選択された聴取ゾーンの外で音が検出されない場合には、ブロック1230において音の検出が続行される。
【0161】
しかし、選択された聴取ゾーンの外で音が検出された場合には、ブロック1260において、オペレータによる確認が求められる。一実施形態では、オペレータは、選択された聴取ゾーンの外で検出された音を知らされ、音が発生した領域を含む追加の聴取ゾーンを提示される。この例では、オペレータは、この追加の聴取ゾーンを、選択された聴取ゾーンの1つに追加する機会を得ることができる。別の実施形態では、オペレータに対して聴取ゾーンの追加が求められないように、追加の聴取ゾーンを含めるか含めないかの優先的処理が事前に設定されうる。この例では、追加の聴取ゾーンを含めるか含めないかの判断は、システム1200によって自動的に行われる。
【0162】
ブロック1260の後、選択された聴取ゾーンが、ブロック1260での選択に基づいて、ブロック1220で更新される。例えば、追加の聴取ゾーンが選択された場合、その追加の聴取ゾーンが、選択された聴取ゾーンの1つとして加えられる。
【0163】
図18のフロー図は、本発明の一実施形態による、視野に基づいた聴取ゾーンの調整を示す。
【0164】
ブロック1310において、聴取ゾーンが選択されて初期化される。一実施形態では、複数の聴取ゾーンから1つの聴取ゾーンが選択される。別の実施形態では、複数の聴取ゾーンが選択される。一実施形態では、マイクロフォンアレイが聴取ゾーンをモニタする。更に、聴取ゾーンは、有限インパルス応答フィルタ係数b0,b1,…,bNまたはレコード1000に示す事前決定されたプロファイルによって表されうる。
【0165】
ブロック1320において、視野が検出される。一実施形態では、視野は、スチルカメラ、ビデオカメラなどの画像キャプチャユニットが見ている画像を表している一実施形態では、視野を検出するために、視野検出モジュール970が利用される。画像キャプチャユニットの実効焦点距離(倍率)が変更されると、現在の視野が変更されうる。更に、画像キャプチャユニットがマイクロフォンアレイに対して回転しても、現在の視野が変更されうる。
【0166】
ブロック1330において、現在の視野が、現在の聴取ゾーンと比較される。一実施形態では、画像キャプチャユニットの倍率、および画像キャプチャユニットとマイクロフォンアレイとの回転関係が、視野の決定に利用される。画像キャプチャユニットのこの視野が、マイクロフォンアレイの現在の聴取ゾーンと比較される。
【0167】
画像キャプチャユニットの現在の視野と、マイクロフォンアレイの現在の聴取ゾーンが一致した場合、ブロック1350において、現在の聴取ゾーン内で音が検出される。
【0168】
画像キャプチャユニットの現在の視野と、マイクロフォンアレイの現在の聴取ゾーンが一致しない場合、ブロック1340において、現在の聴取ゾーンが調整される。現在の視野の回転位置と、マイクロフォンアレイの現在の聴取ゾーンの位置が揃っていない場合には、現在の視野の回転位置を含む異なる聴取ゾーンが選択される。
【0169】
更に、一実施形態では、画像キャプチャユニットの現在の視野が現在の聴取ゾーンより狭い場合には、現在の聴取ゾーンのうちの1つが無効化され、これにより、無効化された聴取ゾーンは、この無効化された聴取ゾーンから音を検出できなくなる。別の実施形態では、画像キャプチャユニットの現在の視野が、現在の唯一の聴取ゾーンよりも狭い場合には、有限インパルス応答フィルタ係数b0,b1,…,bNを操作することによって現在の聴取ゾーンが変更されて、現在の聴取ゾーンによって音が検出される領域が縮小されうる。
【0170】
更に、一実施形態では、画像キャプチャユニットの現在の視野が現在の聴取ゾーンより広い場合には、現在の聴取ゾーンに隣接する追加の聴取ゾーンが追加されて、これにより、この追加の聴取ゾーンによって音が検出される領域が拡大される。別の実施形態では、画像キャプチャユニットの現在の視野が、現在の唯一の聴取ゾーンよりも広い場合には、有限インパルス応答フィルタ係数b0,b1,…,bNを操作することによって現在の聴取ゾーンが変更されて、現在の聴取ゾーンによって音が検出される領域が拡大されうる。
【0171】
ブロック1340において聴取ゾーンが調整された後、ブロック1350において現在の聴取ゾーン内で音が検出される。
【0172】
図19のフロー図は、本発明の一実施形態による、視野に基づいた聴取ゾーンの調整を示す。
【0173】
ブロック1410において、聴取ゾーンが選択されて初期化される。一実施形態では、複数の聴取ゾーンから1つの聴取ゾーンが選択される。別の実施形態では、複数の聴取ゾーンが選択される。一実施形態では、聴取ゾーンをマイクロフォンアレイがモニタする。更に、聴取ゾーンは、有限インパルス応答フィルタ係数b0,b1,…,bNまたはレコード1000に示す事前決定されたプロファイルによって表されうる。
【0174】
ブロック1420において、現在の聴取ゾーン内で音が検出される。一実施形態では、音検出モジュール945により、音がマイクロフォンアレイによって検出される。
【0175】
ブロック1430において、ブロック1420で検出された音から、音量レベルが決定される。
【0176】
ブロック1440において、ブロック1430で決定された音量レベルが、音しきい値レベルと比較される。一実施形態では、この音しきい値レベルは、無関係な意図しないノイズを除外する音モデルに基づいて選択される。別の実施形態では、音しきい値は、マイクロフォンアレイの現在の環境に基づいて動的に選択される。例えば、非常に静かな環境では、小さな音をキャプチャするために、音しきい値が低く設定されうる。これに対して、騒がしい環境では、背景ノイズを除外するために、音しきい値が高く設定されうる。
【0177】
ブロック1140で記載したように、ブロック1430で得た音量レベルが音しきい値レベルを下回る場合には、ブロック1420で音の検出が続行される。
【0178】
ブロック1440で記載したように、ブロック1430で得た音量レベルが音しきい値レベルを超える場合には、ブロック1445において、検出された音の位置が決定される。一実施形態では、検出された音の位置は、有限インパルス応答フィルタ係数b0,b1,…,bNの形で表現される。
【0179】
ブロック1450において、ブロック1410で初期選択された聴取ゾーンが調整される。一実施形態では、この初期聴取ゾーンがカバーしている領域が減らされる。例えば、初期聴取ゾーンを絞り込むために、ブロック1445で識別された検出された音の位置が使用され、これにより、初期聴取ゾーンが、この音の位置に隣接する領域を含むように調整される。
【0180】
一実施形態では、初期聴取ゾーンを構成している複数の聴取ゾーンが存在することがある。複数の聴取ゾーンを有するこの例では、音の位置を含む聴取ゾーンが、調整された聴取ゾーンとして保持される。同様の例では、音の位置を含む聴取ゾーンと隣接する聴取ゾーンが、調整された聴取ゾーンとして保持される。
【0181】
別の実施形態では、初期聴取ゾーンとして、1つの聴取ゾーンが存在してもよい。この例では、調整された聴取ゾーンは、音の位置の周りの狭い領域として構成されうる。一実施形態では、音の位置の周りの狭い領域は、音の位置のすぐ近くの周りの領域を識別している有限インパルス応答フィルタ係数b0,b1,…,bNによって表されうる。
【0182】
ブロック1460において、調整された聴取ゾーン内で音が検出される。一実施形態では、音検出モジュール945により、音がマイクロフォンアレイによって検出される。更に、調整された聴取ゾーンから音量レベルも検出される。更に、調整された聴取ゾーン内で検出された音が、システム900によって録音、ストリーミング、送信および/または更に処理されうる。
【0183】
ブロック1470において、ブロック1460で決定された音量レベルが、音しきい値レベルと比較される。一実施形態では、音しきい値レベルは、ブロック1420で最初に検出された音が続いているかどうかを決定するために選択される。
【0184】
ブロック1470で記載したように、ブロック1460で得た音量レベルが音しきい値レベルをより上にある場合には、ブロック1460において音の検出が続行される。
【0185】
ブロック1470で記載したように、ブロック1460で得た音量レベルが音しきい値レベルを下回る場合には、ブロック1480において、調整された聴取ゾーンが更に調整される。一実施形態では、調整された聴取ゾーンは、ブロック1410に示す初期聴取ゾーンに戻される。
【0186】
図20の図は、図18で説明したように、視野を用いたアプリケーションの使用を示す。図20において、電子装置1500は、上記したものなどのマイクロフォンアレイと画像キャプチャユニットを有する。物体1510、1520は、音源とみなすことができる。一実施形態では、周辺装置1500はカムコーダである。装置1500は、領域1530、1540および1550内で音と視覚画像をキャプチャすることができる。更に、装置1500は、視覚画像をキャプチャするための視野を調整することができ、音をキャプチャするための聴取ゾーンを調整することができる。領域1530、1540および1550は、任意の領域として選択される。別の例では、領域の数がこれより増減しても、領域の大きさがこれより大きくても小さくてもよい。
【0187】
一実施形態では、装置1500は、領域1540の視覚画像と、領域1540からの音をキャプチャする。このため、物体1520から音と視覚画像がキャプチャされうる。しかし、この例では、物体1510から音と視覚画像はキャプチャされない。
【0188】
一例を挙げると、装置1500の視野が、物体1510を含むように、領域1540から拡大されうる。したがって、装置1500によってキャプチャされる音が視覚的視野に追従し、更に聴取ゾーンが物体1510を含むように領域1540から拡大される。
【0189】
別の例では、装置1500の視覚画像は、領域1540と同じ大きさをカバーするが、物体1510を含むように回転されうる。したがって、装置1500によってキャプチャされる音が視覚的視野に追従し、更に聴取ゾーンが物体1510を含むように領域1540から回転する。
【0190】
図21は、図19に記載した方法の使用を示す図である。図21は、マイクロフォンアレイ1600と物体1610、1620を示している。マイクロフォンアレイ1600は、領域1630、1640および1650内で音をキャプチャすることができる。更に、マイクロフォンアレイ1600は、音をキャプチャするための聴取ゾーンを調整することができる。領域1630、1640および1650は、任意の領域として選択される。別の例では、領域の数がこれより増減しても、領域の大きさがこれより大きくても小さくてもよい。
【0191】
一実施形態では、マイクロフォンアレイ1600は、領域1630、1640および1650からの音をモニタする。物体1620が音量レベルしきい値を超える音を発生させた場合、マイクロフォンアレイ1600は、音の検出を領域1650まで狭くする。物体1620からの音が止んだら、マイクロフォンアレイ1600は領域1630、1640および1650からの音を検出することができる。
【0192】
一実施形態では、マイクロフォンアレイ1600は、ソニープレイステーション(登録商標)ゲーム装置に一体化されていてもよい。このアプリケーションでは、物体1610および1620は、それぞれプレイステーション(登録商標)装置のユーザの左右のプレーヤを表している。このアプリケーションでは、プレイステーション(登録商標)装置のユーザは、そのユーザのいずれかの側にいる仲間のプレーヤまたは友人をモニタする一方で、音をキャプチャするためにマイクロフォンアレイ1600によってモニタされる聴取ゾーンを狭くすることによって不要なノイズをブロックすることができる。
【0193】
図22は、図14で記載したシステム900と共に使用するアプリケーションの使用を示す図である。図22は、マイクロフォンアレイ1700、物体1710、およびマイクロフォンアレイ1740を示している。マイクロフォンアレイ1700および1740は、領域1750を含む領域1705内で音をキャプチャすることができる。更に、マイクロフォンアレイ1700、1740の両方は、音をキャプチャするためにそれぞれの聴取ゾーンを調整することができる。
【0194】
一実施形態では、マイクロフォンアレイ1700および1740は、領域1705内で音をモニタする。物体1710が音量レベルしきい値を超える音を発生させた場合、マイクロフォンアレイ1700および1740は、音の検出を領域1750まで狭くする。一実施形態では、領域1750は、線1720、1725、1750および1755に囲まれている。音が止んだら、マイクロフォンアレイ1700および1740は領域1705内で再び音をモニタし始める。
【0195】
別の実施形態では、1つのマイクロフォンアレイがマイクロフォンアレイ1700および1740を機能的に代用するように、マイクロフォンアレイ1700および1740は、凸状の形状を有する1つのマイクロフォンアレイに結合される。
【0196】
図11Aに示すマイクロフォンアレイ602は、マイクロフォンアレイの一実施形態を示す。図23A、23B、および23Cは、マイクロフォンアレイの別の実施形態を示す。
【0197】
図23Aは、マイクロフォン1802、1804、1806、1808、1810、1812、1814および1816を有するマイクロフォンアレイ1810を示す。一実施形態では、マイクロフォンアレイ1810は長方形に形成されており、マイクロフォン1802、1804、1806、1808、1810、1812、1814および1816は、互いに同一平面に置かれており、マイクロフォンアレイ1810の周囲に沿って配置されている。別の実施形態では、マイクロフォンの数がこれよりも増減してもよい。更に、別の実施形態では、マイクロフォン1802、1804、1806、1808、1810、1812、1814および1816の位置が変わってもよい。
【0198】
図23Bは、マイクロフォン1832、1834、1836、1838、1840、1842、1844および1846を有するマイクロフォンアレイ1830を示す。一実施形態では、マイクロフォンアレイ1830は円形に形成されており、マイクロフォン1832、1834、1836、1838、1840、1842、1844および1846は、互いに同一平面に置かれており、マイクロフォンアレイ1530の周囲に沿って配置されている。別の実施形態では、マイクロフォンの数がこれよりも増減してもよい。更に、別の実施形態では、マイクロフォンの1832、1834、1836、1838、1840、1842、1844および1846の位置が変わってもよい。
【0199】
図23Cは、マイクロフォン1862、1864、1866および1868を有するマイクロフォンアレイ1860を示す。一実施形態では、マイクロフォン1862、1864、1866および1868は、マイクロフォンのうちの少なくとも1つがほかの3つに対して異なる面にあるように三次元構成に分布されている。例えば、マイクロフォン1862、1864、1866および1868は、三次元の球体の外面に沿って配置されうる。別の実施形態では、マイクロフォンの数がこれよりも増減してもよい。更に、別の実施形態では、マイクロフォン1862、1864、1866および1868の位置が変わってもよい。
【0200】
図24は、図14で記載したシステム900と共に使用するアプリケーションの使用を示す図である。図24は、マイクロフォンアレイ1910と物体1915を含む。マイクロフォンアレイ1910は、領域1900内で音をキャプチャすることができる。更に、マイクロフォンアレイ1910は、物体1915から音をキャプチャするための聴取ゾーンを調整することができる。
【0201】
一実施形態では、マイクロフォンアレイ1910は、領域1900内で音をモニタする。物体1915が音量レベルしきい値を超える音を発生させた場合、マイクロフォンアレイ1910に結合されたコントローラの構成要素(例えば図6のシステム600の領域調整モジュール620)が、領域1915まで音の検出を狭めうる。一実施形態では、領域1915は、図形1930、1940、1950および1960に囲まれている。更に、領域1915は、音がマイクロフォンアレイ1910によってキャプチャされる三次元の空間量を表している。
【0202】
一実施形態では、マイクロフォンアレイ1910は、二次元のアレイを利用する。例えば、図23Aおよび23Bに示すマイクロフォンアレイ1800および1830は、それぞれ、二次元のアレイの一実施形態である。マイクロフォンアレイ1910を二次元のアレイとして構成することによって、領域1915が、有限インパルス応答フィルタ係数b0,b1,…,bNによって空間量として表すことができる。一実施形態では、二次元のマイクロフォンアレイを利用することによって、領域1915が、線1930、1940、1950および1960によって囲まれるようになる。別の実施形態では、二次元のマイクロフォンアレイとは対照的に、線形のマイクロフォンアレイを利用することによって、領域1915が線1940と1950に囲まれるようになる。
【0203】
別の実施形態では、マイクロフォンアレイ1910は、図23Cに示すマイクロフォンアレイ1860などの三次元のアレイを利用する。マイクロフォンアレイ1910を三次元のアレイとすることによって、領域1915が、有限インパルス応答フィルタ係数b0,b1,…,bNによって空間量として表すことができる。一実施形態では、三次元のマイクロフォンアレイを利用することによって、領域1915が、図形1930、1940、1950および1960によって囲まれるようになる。更に、一実施形態では、物体1920の位置を決定するために、三次元のアレイはTDA検出を利用する。
【0204】
本発明の特定の実施形態は事前較正された聴取ゾーンを使用した、対象音検出のための方法および装置を対象としている。このような実施形態は、2つ以上のマイクロフォンを有するマイクロフォンアレイによって実装することができる。図25Aに示すように、マイクロフォンアレイ2002は、対応する信号フィルタF0、F1、F2およびF3に結合された4つのマイクロフォンM0、M1、M2およびM3を有しうる。各フィルタは、有限インパルス応答(FIR)フィルタリングと、到着時間遅延(TDA)フィルタリングの時間遅延の何らかの組合せを実装しうる。一般に、マイクロフォンM0、M1、M2およびM3は、無指向性マイクロフォン(すなわち、ほぼどの方向からの音声でも検出することができるマイクロフォン)でありうる。無指向性マイクロフォンは、通常、構造的に単純であり、好適な聴取方向をもつマイクロフォンよりは低価格である。マイクロフォンM0、M1、M2およびM3は、対応する出力x0(t)、x1(t)、x2(t)、x3(t)を生成する。これらの出力は、フィルタF0、F1、F2およびF3への入力となる。各フィルタは、到達時間遅延(TDA)および/または有限インパルス応答(FIR)を、その入力に適用しうる。フィルタの出力は結合されて、フィルタ出力y(t)とされる。図25Aには、例示を目的として、4つのマイクロフォンM0、M1、M2およびM3と4つのフィルタF0、F1、F2およびF3が示されているが、本発明の実施形態は、2つを超える任意の数のマイクロフォンと、対応する数のフィルタとを有してもよいことを当業者は認めるであろう。図25Aは例示のためにマイクロフォンの線形のアレイを示しているが、本発明の実施形態は、このような構成に限定されない。別の実施形態では、上で述べたように、3つ以上のマイクロフォンが二次元のアレイに配置されていても、4つ以上のマイクロフォンが三次元のアレイに配置されていてもよい。1つの特定の実施形態では、2マイクロフォンアレイに基づくシステムが、ビデオゲーム用のコントローラユニットに組み込まれうる。
【0205】
1つ以上の発生源2004、2006からマイクロフォンアレイ2002に到達した音声信号は、ベクトルx=[x0,x1,x2,x3](x0、x1、x2およびx3は、それぞれマイクロフォンM0、M1、M2およびM3によって受信される信号である)で表すことができる。各信号xmは、通常、異なる音源のために、下位成分を備える。この例では、添字mは0〜3の範囲をとり、アレイ内の異なるマイクロフォンと区別するために使用される。下位成分は、ベクトルs=[s1,s2,…,sK](Kは異なる発生源の個数)で表すことができる。
【0206】
異なる発生源から発生した信号sから音を分離するには、フィルタF0、F1、F2およびF3のそれぞれに対して最良のTDAフィルタを決定しなければならない。発生源2004、2006からの音の分離を容易にするために、フィルタF0、F1、F2およびF3は、1つ以上の事前較正された聴取ゾーンZを定義するフィルタパラメータ(例えばFIRフィルタ係数および/またはTDA値)によって事前に較正される。各聴取ゾーンZは、マイクロフォンアレイ2002に近い空間の領域である。パラメータは、聴取ゾーンZ内に存在する発生源2004から発生する音が検出されるが、聴取ゾーンZの外に存在する発生源2006から発生する音がフィルタ除去される、すなわち実質的に減衰されるように選択される。図25Aに示す例では、聴取ゾーンZは、マイクロフォンアレイ2002の中心またはその近くに原点を有する、多少くさび形のセクタ(sector)として示されている。別の実施形態では、聴取ゾーンZは、離散的な体積(例えば、空間内の矩形、球形、円錘形、または任意の形状の体積)であってもよい。くさび形の聴取ゾーンは、マイクロフォンの線形のアレイを使用して確実に設定することができる。任意の形状の体積によって定義される確実な聴取ゾーンは、平面アレイまたは少なくとも4つのマイクロフォンからなるアレイを使用して構成することができる。その場合、例えば、図6および図23Cに図示したように、少なくとも1つのマイクロフォンが、ほかのマイクロフォンとは異なる平面にある。このようなアレイは、ここでは凹形のマイクロフォンアレイと呼ぶ。
【0207】
図25Bのフロー図に示すように、マイクロフォンアレイ2002を使用する対象音声検出のための方法2010は、以下のように進みうる。2012に示すように、事前較正された1つ以上の聴取ゾーンZに対応するフィルタF0、F1、F2およびF3に対するフィルタ係数の1つ以上の組が決定される。図12Aおよび図12Bに関して上述したように、フィルタF0、F1、F2およびF3は、フィルタ7020,…,702Mと、遅延z−1を有する対応するフィルタタップ704mi、および有限インパルス応答フィルタ係数bmiを使用するなどによって、ハードウェアまたはソフトウェアで実装されうる。フィルタ係数の各組は、入力信号の、所定の聴取セクタ内で発生した音に対応する部分を検出するために選択され、所定の聴取セクタの外で発生する音をフィルタ除去する。聴取セクタSを事前較正するために、1つ以上の既知の較正音源が、セクタS内、およびのその外のいくつかの異なる既知の位置に配置されうる。較正中に、較正源は、マイクロフォンアレイ2002がおそらく実行時に受信すると思われる音と同じような既知のスペクトル分布によって特徴付けられる音を発しうる。次に、発生源の、この既知の位置とスペクトル特性が、フィルタF0、F1、F2およびF3に対するフィルタパラメータの値を選択するために使用されうる。
【0208】
例えば、フィルタF0、F1、F2およびF3を事前較正して聴取ゾーンZを定義するために、ブラインド音源分離(BSS)を使用することができるが、これに限定されない。ブラインド音源分離は一組の信号を他の一組の信号に分離し、これにより、得られたそれぞれの信号の規則性が最大となるとともに、信号間の規則性が最小となる(すなわち、統計的独立が最大となるか、非相関性が最小となる)。ブラインド音源分離では、二次統計量に基づく独立成分解析(ICA)が行われうる。このような場合、各マイクロフォンに到達した信号のデータはランダムベクトルxm=[x1,…,xn]、成分はランダムベクトルs=[s1,…,sn]で表現できる。例えば、図11A、11B、12A、12Bおよび13に関して上に記載したように、観測データxmは、線形静的変換s=Wxを使用して、独立の何らかの関数F(s1,…,sn)によって測定された独立度が最大の成分sに変換される。マイクロフォンアレイ200の聴取ゾーンZは、実行時の前(例えば、マイクロフォンアレイの設計および/または製造時に)に較正され、任意選択で実行時に再較正されうる。図11A、11B、12A、12Bおよび13に関して、聴取方向の較正に関して上に記載したように、例えば、聴取ゾーンZは、聴取ゾーン(listening)内で発話している人を記録して、記録した発話に二次統計量を適用することによって、事前較正されることができる。
【0209】
聴取ゾーンZ内の異なる位置にユーザを立たせて、上記の手順を繰り返すことによって、較正プロセスをより精密に行うことができる。マイクロフォンアレイのノイズ除去では、ユーザが話しながらある程度自由に動ける空間が得られるように、ビーム形成が一定の許容差を有するように(事実上、聴取円錐領域を形成する)、較正中にユーザが聴取セクタ内を動き回ることが好ましい。これに対して、本発明の実施形態では、聴取セクタSの円錐領域の全体について、音声/音検出を較正する必要はない。その代わり、聴取セクタは、好ましくは、聴取ゾーンZの中心に沿った非常に狭いビームBについて較正され、その結果、ノイズ圧縮比に基づく最終的なセクタ決定がより確実なものとなる。このプロセスが、1つ以上の追加の聴取ゾーンについて繰り返されうる。
【0210】
再び図25Bを参照すると、2014に示すように、特定の事前較正された聴取ゾーンZに対応するフィルタパラメータの組を、フィルタF0、F1、F2およびF3に適用することによって、特定の事前較正された聴取ゾーンZが実行時に選択されうる。その結果、マイクロフォンアレイは、特定の聴取セクタ内で発生した音を検出し、特定の聴取セクタの外で発生する音をフィルタ除去することができる。図25Aには1つの聴取セクタしか示されていないが、本発明の実施形態は、複数の異なる聴取セクタが事前較正される場合に拡張することができる。図25Bの2016に示すように、音源が存在するセクタを決定するために、マイクロフォンアレイ2002は、次に、実行時に2つ以上の事前較正されたセクタ間をトラッキングしうる。例えば図25Cに示すように、マイクロフォンアレイ2002を取り囲む空間が、マイクロフォンアレイ2002を取り囲んで約360°をなす、18の異なる事前較正された20°のくさび形の聴取セクタS0,…,Snの形で、複数の聴取ゾーンに分割されうる。これは、上で簡単に説明した較正操作を異なるセクタの各々に実行して、異なるセクタのそれぞれを、FIRフィルタ係数とTDA値の異なる組と関連付けることによって得られる。所定のフィルタ設定の適切な組(例えば前述のように、較正中に決定されるFIRフィルタ係数および/またはTDA値)をフィルタF0、F1、F2およびF3に適用することによって、聴取セクタS0,…,S17のいずれかが選択されうる。
【0211】
フィルタ設定のある組から別の組に切り替えることによって、マイクロフォンアレイ2002は、あるセクタから別のセクタに切り替えて、音源2004をあるセクタから別のセクタでトラッキングすることができる。例えば、再度図25Cを参照すると、音源2004がセクタS7にあり、フィルタF0、F1、F2およびF3が、セクタS4を選択するために設定されている場合を考える。フィルタがセクタS4の外で発生する音をフィルタ除去するように設定されているため、音源2004からの音の入力エネルギーEは減衰される。入力エネルギーEは以下のドット積として定義することができる。
【0212】
【数7】
【0213】
上記式において、xmT(t)はベクトルxm(t)の転置であり、マイクロフォン出力xm(t)を表している。この合計は、アレイ内のM個の全マイクロフォンについて求めた平均である。
【0214】
すなわち、入力エネルギーEの減衰は、入力エネルギーEとフィルタ出力エネルギーの比から求めることができる。すなわち、減衰=
【0215】
【数8】
となる。
フィルタが音源2004を含むセクタを選択するように設定されている場合、減衰はほぼ1に等しい。このため、音源2004は、フィルタF0、F1、F2およびF3の設定を、あるセクタから別のセクタに切り替えて、異なるセクタの減衰を決定することによってトラッキングすることができる。異なる聴取セクタの減衰の決定を使用する対象音声検出方法2020は、図25Dのフロー図に示すように進みうる。2022において、最初に、事前較正された聴取セクタのいずれかが選択されうる。例えば、セクタS4(前方の聴取方向にほぼ対応している)が、既定の初期聴取セクタとして選択されうる。2024において、この初期傾聴セクタについて、入力信号エネルギーの減衰が決定される。2026において、減衰が最適値にない場合、2028において、別の事前較正されたセクタが選択されうる。
【0216】
音源2004を含むセクタを求めて、セクタS0,…,S17を検索する方法は数多く存在する。例えば、アレイの端のマイクロフォンM0とM3の入力信号エネルギー入力を比較することによって、音源2004が、既定のセクタS4のどちら側にあるかを決定することが可能である。例えば、場合によっては、正しいセクタが、マイクロフォンアレイ2002の後方、例えば、セクタS9,…,S17に存在する場合がある。多くの場合、マイクロフォンアレイの取り付けによって、発生源2004がこのようなセクタのいずれかに存在する場合に、例えば約1dBの最小の減衰が存在するように、これらのセクタから来る音に、固有の減衰が入り込むことがある。したがって、発生源2004がマイクロフォンアレイ2002の「前方」または「後方」のいずれに存在するかを、入力信号の減衰から決定することができる。
【0217】
最初の概算として、音源2004が、大きな入力信号エネルギーを有するマイクロフォンに近いことが予想されうる。図25Cに示す例では、右手のマイクロフォンM3が入力信号エネルギーが大きく、除去処理によって、音源2004が、セクタS6、S7、S8、S9、S10、S11、S12のうちの1つに存在することが予想される。好ましくは、次に選択されるセクタは、初期セクタS4から、右手のマイクロフォンM3に向かう方向に約90°離れたセクタ(例えばセクタS8)である。2024に示されるように、セクタS8に対する入力信号エネルギーの減衰が決定されうる。減衰が最適値でない場合、2026において、別のセクタが選択されうる。例えば、次のセクタは、前のセクタから、初期セクタの方向に約45°戻るセクタ(例えばセクタS6)でありうる。ここでも、入力信号エネルギーの減衰が決定され、最適な減衰と比較されうる。入力信号エネルギーが最適値に近くない場合、この例では、2つのセクタのみが残る。このため、図25Cに示す例では、最大4つのセクタが切り替わり、正しいセクタが決定されうる。入力信号のエネルギーの減衰を決定して、異なる聴取セクタ間を切り替える処理は、入力信号が十分に強い場合には、約100ミリ秒で行われうる。
【0218】
前述のように、音源の位置は、ここで「音波レーダー」と呼ぶ音源の位置特定および特徴付け法と共に使用することができる。図25Eは、プロセッサ2034とメモリ2036を有する電子装置2032と結合された、マイクロフォンアレイ2002を有する上記の音源の位置特定および特徴付け装置2030の例を示す。装置は、ビデオゲーム、テレビまたは他の家庭用電気製品でありうる。プロセッサ2034は、上記に記載したFIRフィルタおよび時間遅延を実装する命令を実行しうる。メモリ2036は、複数の聴取ゾーンの事前較正に関するデータ2038を有しうる。例えば、事前較正された聴取ゾーンには、くさび形の聴取セクタS0、S1、S2、S3、S4、S5、S6、S7、S8が含まれうる。
【0219】
プロセッサ2034によって実行される命令は、装置2030を、図25Fのフロー図2031に説明する方法に従って動作させうる。聴取ゾーン内の音源2004、2005が、マイクロフォンアレイ2002を使用して検出されうる。一方の音源2004は、装置2032または同装置のユーザにとって関心のあるものである。もう一方の音源2005は、背景ノイズ源であるか、あるいは装置2032またはそのユーザにとって関心のないものである。マイクロフォンアレイ2002が音を検出すると、図25Fの2033に示すように、装置2030は、音源2004を含む聴取ゾーンを決定する。例えば、音源2004、2005を含む事前較正された聴取ゾーン(例えば、それぞれセクタS3とS6)を決定するために、図25C〜25Dに関して上記した反復的な音源セクタの位置特定ルーチンが使用されうる。
【0220】
音源を含む聴取ゾーンが識別されると、例えば、適応ビーム形成を使用するなどにより、マイクロフォンアレイが音源に再び焦点を合わせられる。適応ビーム形成法の使用は、例えば、シャドン マオ(Xiadong Mao)の米国特許出願公開第2005/0047611号明細書に記載されており、同文献は参照によりここに援用される。次に、2035に示すように、例えば、音源から発生する音声信号の音スペクトルを解析することによって、音源2004が特徴付けられうる。詳細には、音源からの時間領域信号が、所定の時間ウィンドウにわたって分析され、高速フーリエ変換(FFT)が実行されて、音源の周波数分布特性が得られうる。検出された周波数分布が、既知の音響モデルと比較されうる。既知の音響モデルは、既知の音源から得られたトレーニングデータから生成される周波数分布(frequency distribution)などである。数多くの異なる音響モデルが、メモリ2036またはほかの記憶媒体にデータ2038の一部として記憶されており、検出された周波数分布と比較されうる。発生源2004、2005から検出された音を、これらの音響モデルと比較することによって、数多くの異なる可能な音源を識別することができる。
【0221】
装置2032は、音源2004、2005の特徴付けに基づいて、音源が関心のあるものがどうかに基づいて適切な動作をとることができる。例えば、音源2004が装置2032にとって関心のあるものであると決定された場合、装置はセクタS3から来る音を強調または増幅するか、ほかの適切な動作をとるか、この両方を行うことができる。例えば、装置2032がビデオゲームコントローラであり、発生源2004がゲームのプレーヤの場合、装置2032は、ゲームコマンドとして解釈される発生源2004からの音に反応して、「ジャンプ」、「スイング」などのゲームコマンドを実行しうる。同様に、音源2005が、装置2032またはそのユーザにとって関心がないと決定された場合、装置は、セクタS6から来る音をフィルタ除去するか、または他の適切な動作をとりうる。一部の実施形態では、例えば、音源を含む聴取ゾーンと音源の種類を示すアイコンがディスプレイ画面に表示されうる。
【0222】
一部の実施形態では、音の増幅やほかの適切な動作では、音源と関連するノイズ妨害の低減が行われうる。例えば、音源104と関連する音声信号のノイズ妨害が、音声信号の残りの成分に対して増幅されうる。次に、音声信号のサンプリングレートが下げられて、サンプリングレートを下げた音声信号に偶数次の導関数が適用されて検出信号が定義される。次に、音声信号のノイズ妨害が、検出信号の統計平均に従って調整されうる。音声信号に関連する妨害をキャンセル可能なシステム、ビデオゲームコントローラ、および音声信号に関連するノイズ妨害を低減する集積回路が含まれる。このような技術の詳細は、例えば、シャドン マオ(Xiadong Mao)による、譲受人共通の2004年4月7日出願の米国特許出願第10/820,469号「音声妨害を検出および除去する方法および装置(METHOD AND APPARATUS TO DETECT AND REMOVE AUDIO DISTURBANCES)」に記載されている。同出願は、2005年10月13日に米国特許出願公開第2005/0226431号として公開されており、これらの全開示が参照によりここに援用される。
【0223】
例えば、装置2030は、乳児モニタアプリケーションで使用されうる。詳細には、メモリ2036に記憶された音響モデルには、乳児、または場合によっては特定の乳児に特有の周波数分布が含まれうる。このような音は、装置130またはそのユーザによって関心のあるものとして識別されうる。電話、テレビ、ラジオ、コンピュータ、人の会話など、ほかの既知の音源の周波数分布が、メモリ2036に記憶されていてもよい。これらの音源は、関心のないものとして識別されうる。
【0224】
音源の位置特定および特徴付けのための装置および方法は、超音波および音波をベースとした家電遠隔制御に使用することができる。これは、例えば、スティーブン オスマン(Steven Osman)による、譲受人共通の米国特許出願第 号「可聴装置による制御のためのシステムおよび方法(SYSTEM AND METHOD FOR CONTROL BY AUDIBLE DEVICE)」(代理人書類番号SCEAJP 1.0−001)に記載されており、これらの全開示が参照によりここに援用される。詳細には、マイクロフォンアレイ2002によって受信された音が分析されて、それが所定の特徴を1つ以上含んでいるかどうかが決定される。音が1つ以上の所定の特徴を含んでいないと決定された場合には、装置2032の少なくとも1つの要素(aspect)を制御するために、少なくとも1つの制御信号が生成されうる。
【0225】
本発明の一部の実施形態では、事前較正された聴取ゾーンZが、カメラの視野に対応していてもよい。例えば、図25G〜25Hに示すように、オーディオビデオ装置2040は、上記したものなどのマイクロフォンアレイ2002と信号フィルタF0、F1、F2、F3、および画像キャプチャユニット2042を備えうる。例えば、画像キャプチャユニット2042はデジタルカメラでありうる。適切なデジタルカメラの例に、米国カリフォルニア州フリーモント所在のロジテック社(Logitech)によって「EyeToy」という名称で販売されているカラーのデジタルカメラがある。画像キャプチャユニット2042は、例えば、マイクロフォンアレイ2002を画像キャプチャユニット2042に取り付けるか、またはその逆を行うことによって、マイクロフォンアレイ2002に対して固定位置に取り付けられうる。別の実施形態では、マイクロフォンアレイ2002と画像キャプチャユニット2042の両方が、共通のフレームまたはマウント(図示せず)に取り付けられてもよい。好ましくは、画像キャプチャユニット2042のレンズ系2046の光軸2044が、マイクロフォンアレイ2002のマイクロフォンM0、M1、M2、M3の共通面に垂直な軸と平行になるように位置合わせされるように、画像キャプチャユニット2042の向きが設定される。レンズ系2046は、画像キャプチャユニットの、時として「視野」と呼ばれる焦点体積FOVによって特徴付けられうる。通常、視野FOVの外の物体は、画像キャプチャユニット2042が生成する画像には現れない。フィルタF0、F1、F2、F3の設定は、マイクロフォンアレイ2002が画像キャプチャユニット2042の視野FOVに対応する聴取ゾーンZを有するように、事前較正されうる。ここで使用するように、視野FOVと聴取ゾーンZがかなりの程度重複している場合、聴取ゾーンZが視野FOVに「対応している」という。ここで使用するように、視野FOV内の物体も聴取ゾーンZ内にあり、視野FOVの外にある物体も聴取ゾーンZの外にある場合、両者は「かなりの程度重複している」という。図25G〜25Hに示した実施形態の範囲内で、前述の「対応している」と「かなりの程度重複している」との文言の定義では、物体が聴取ゾーンZ内にあるが、視野FOVの外にある場合も許容する点に注意されたい。
【0226】
上記の通り、聴取ゾーンZは、例えば較正段階で、視野FOV内のさまざまな場所に置いた1つ以上の公知の発生源を使用することにより、フィルタF0、F1、F2、F3に対するFIRフィルタ係数およびTDA値を調整することによって事前較正することができる。FIRフィルタ係数およびTDA値は、FOV内にある発生源2004からの音が検出されて、FOVの外の発生源2006からの音がフィルタ除去されるように、(例えば、ICAを使用して)選択される。装置2040によって、ビデオおよび音声画像の処理が向上する。画像キャプチャユニット2042の視野FOVに対応させて聴取ゾーンZを事前較正することによって、FOV内の発生源から発生する音が増強される一方、FOVの外で発生する音が低減されうる。このような装置へのアプリケーションには、オーディオビデオ(AV)チャットがある。
【0227】
図25G〜図25Hには、事前較正された聴取セクタが1つしか図示されていないが、本発明の実施形態は、カメラと共に、事前較正された聴取セクタを複数使用してもよい。例えば、図25I〜25Jは、マイクロフォンアレイ2002と、1つ以上のポインティングアクチュエータ2054(サーボモータなど)に取り付けられた画像キャプチャユニット2052(デジタルカメラなど)を有する装置2050を示す。マイクロフォンアレイ2002、画像キャプチャユニット2052およびアクチュエータは、プロセッサ2057およびメモリ2058を有する制御装置2056と結合されうる。メモリ2058に記憶されているソフトウェアデータ2055と、メモリ2058に記憶され、プロセッサ2057によって実行される命令2059とが、上記の信号フィルタ機能を実装しうる。ソフトウェアデータは、事前較正された聴取ゾーンの組(例えば、それぞれマイクロフォンアレイ2002の前方で180°の領域をカバーしている9の20°のくさび形セクタS0,…,S8)に対応するFIRフィルタ係数およびTDA値を含みうる。ポインティングアクチュエータ2050は、プロセッサ2057が生成した信号に反応して、画像キャプチャユニット2052を視覚(viewing)方向に向けうる。本発明の実施形態では、図25C〜25Dに関して上述したように、例えば、音源2004を含む聴取ゾーンが決定されうる。音源2004を含むセクタが決定されると、図25Jに示すように、アクチュエータ2054は、音源2004を含むこの事前較正された聴取ゾーンの方向に、画像キャプチャユニット2052を向けうる。マイクロフォンアレイ2002は固定位置に置かれるが、ポインティングアクチュエータは、選択された聴取ゾーンの方向にカメラを向ける。
【0228】
本発明の実施形態によれば、図25A〜25Jに関して上記したタイプの、上記のように機能する信号処理方法は、図26に示すように信号処理装置2100の一部として実装されうる。装置2100は、プロセッサ2101とメモリ2102(例えばRAM、DRAM、ROMなど)を備えうる。更に、並列処理を実装する場合は、信号処理装置2100は複数のプロセッサ2101を備えていてもよい。メモリ2102は、上記のように構成されたデータとコードを格納している。詳細には、メモリ2102は、図12Aおよび図12Bに関して上述した、入力信号xm(t)のデジタル表現、フィルタ7020,…,702Mを実装しているコードおよび/またはデータ、ならびに遅延Z−1を有する対応するフィルタタップ704miおよび有限インパルス応答フィルタ係数bmiを含む信号データ2106を格納しうる。また、メモリ2102は、較正データ2108も格納し、これには例えば、上記のようにマイクロフォンアレイ2122の較正から得られた1つ以上の対応する事前較正された聴取ゾーンのための1つ以上の逆固有行列C−1を表現するデータなどがある。例えば、メモリ2102は、マイクロフォンアレイ2122を含む18の20°のセクタのための固有行列を格納しうる。また、メモリ2102は、例えば、図15に関して上述したようにプロファイル情報を格納しうる。
【0229】
また、装置2100は、入出力(I/O)構成要素2111、電源(P/S)2112、クロック(CLK)2113およびキャッシュ2114などの周知の支持機能2110も備えうる。装置2100は、プログラムおよび/またはデータを記憶するためのディスクドライブ、CD−ROMドライブ、テープ装置などの大容量記憶装置2115を任意選択で備えていてもよい。制御装置は、制御装置2100とユーザとの間で対話できるようにするためのディスプレイ装置2116およびユーザインタフェースユニット2118を任意選択で備えていてもよい。ディスプレイ装置2116は、テキスト、数字、グラフィックシンボルまたは画像を表示する陰極線管(CRT)スクリーンまたはフラットパネルスクリーンの形をとりうる。ユーザインタフェース2118は、キーボード、マウス、ジョイスティック、ライトペンやその他の装置を備えうる。更に、ユーザインタフェース2118は、分析すべき信号を直接キャプチャできるようにするマイクロフォン、ビデオカメラまたはその他の信号変換装置を備えうる。プロセッサ2101、メモリ2102およびシステム2100の他の構成要素は、図26に示すようにシステムバス2120を介して、互いに信号(コード命令およびデータなど)を交換しうる。
【0230】
マイクロフォンアレイ2122は、I/O機能2111によって装置2100と結合されうる。マイクロフォンアレイは、近くのマイクロフォンと約4センチメートル未満、好ましくは約1センチメートル〜約2センチメートル離間させた約2〜約8のマイクロフォン、好ましくは約4のマイクロフォンを有しうる。好ましくは、アレイ2122内のマイクロフォンは、無指向性マイクロフォンである。任意選択の画像キャプチャユニット2123(デジタルカメラなど)が、I/O機能2111によって装置2100と結合されうる。カメラと機械的に結合される1つ以上のポインティングアクチュエータ2125は、I/O機能2111を介してプロセッサ2101と信号を交換しうる。
【0231】
ここで使用するように、「I/O」との文言は、一般に、システム2100との間で、および周辺装置との間でデータを転送する任意のプログラム、操作または装置を指す。あらゆるデータ転送は、ある装置からの出力と、別の装置への入力と考えることができる。周辺装置は、キーボードおよびマウスなどの入力専用装置、プリンタなどの出力専用装置のほか、入力装置と出力装置の両方として機能することができる書き込み可能CD−ROMなどの装置を含む。「周辺装置」との文言には、マウス、キーボード、プリンタ、モニタ、マイクロフォン、ゲームコントローラ、カメラ、外部Zipドライブまたはスキャナなどの外部装置のほか、CD−ROMドライブ、CD−Rドライブ、内蔵モデム、フラッシュメモリリーダライタ、ハードディスク等のほかの周辺装置などの内蔵装置が含まれる。
【0232】
本発明の特定の実施形態では、装置2100はビデオゲームユニットであり、これは、有線(USBケーブルなど)によってまたは無線でI/O機能2111を介してプロセッサと結合されたジョイスティックコントローラ2130を有しうる。ジョイスティックコントローラ2130は、ビデオゲームのプレイ中に共通に使用される制御信号を供給するアナログジョイスティック制御部2131と、従来のボタン2133を有しうる。このようなビデオゲームは、プロセッサ可読のデータおよび/または命令として実装され、これらは、メモリ2102または他のプロセッサ可読媒体(大容量記憶装置2115に関連するものなど)に記憶されうる。
【0233】
ジョイスティック制御部2131は、通常、コントロールスティックを左または右に動かすと、X軸に沿った移動の信号が生成され、前(上)または後ろ(下)に動かすとY軸に沿った移動の信号が生成されるように構成されうる。三次元移動するように構成されたジョイスティックでは、スティックを左(反時計回り)または右(時計回りに)を回転させると、Z軸に沿った移動の信号が生成されうる。これらの3本の軸(X軸、Y軸およびZ軸)は、多くの場合、特に航空機に関連して、ロール、ピッチおよびヨーと呼ばれる。
【0234】
ジョイスティックコントローラ2130は、従来の機能に加えて、1つ以上の慣性センサ2132を有していてもよく、これは、慣性信号によって、位置および/または向きの情報をプロセッサ2101に供給しうる。向きの情報には、ジョイスティックコントローラ2130のチルト、ロールまたはヨーなどの角度情報が含まれうる。例えば、慣性センサ2132は、加速度計、ジャイロスコープまたはチルトセンサを、任意の数および/または組合せで有していてもよい。好ましい実施形態において、慣性センサ2132は、チルト軸およびロール軸に対して、ジョイスティックコントローラの向きを検出するように適合されたチルトセンサと、ヨー軸に沿った加速度を検出するように適合された第1の加速度計と、ヨー軸に対する角加速度を検出するために適合する第2の加速度計を有する。加速度計は、例えば、1つ以上のスプリングによって質量が取り付けられ、1つ以上の方向に対してその質量の移動を検出するためのセンサを有するMEMS装置として実装されうる。質量の移動に応じて変わるセンサからの信号を使用して、ジョイスティックコントローラ2130の加速度が決定されうる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。
【0235】
更に、プログラムコード2104は、1つ以上の命令を有するプロセッサ実行可能命令を任意選択で有してもよく、これは、実行されると、ゲーム環境に対するコントローラの操作のマッピングを調整する1つ以上のプログラム命令を有しうる。このような機能により、ユーザは、ゲームの状態に対して、ジョイスティックコントローラ2130の操作の「ギヤリング(gearing)」を変更できるようになる。例えば、ジョイスティックコントローラ2130を45°回転させることが、ゲーム物体の45°の回転にマップされうる。しかし、コントローラをX°回転させる(またはチルトまたはヨーまたは「操作」)と、ゲーム物体のY回転(またはチルトまたはヨーまたは「操作」)に変換されるように、このマッピングが変更されてもよい。このようなマッピングのギアリングまたは比率の変更は、ゲームのプレイまたはゲームの状態に従って、あるいはジョイスティックコントローラ2130にあるユーザ変更ボタン(キーパッドなど)を使用して、プログラムコード2104によって調整されうる。特定の実施形態では、プログラムコード2104は、所定の時間に依存する方法で、経時により、X:Xの比をX:Yの比にマッピングを変更しうる。
【0236】
更に、ジョイスティックコントローラ2130は、発光ダイオード(LED)などの1つ以上の光源2134も有していてもよい。光源2134は、コントローラ同士を区別するために使用されうる。例えば、1つ以上のLEDが、点滅するかまたはLEDパターンコードを保持することによってこれを行ってもよい。例えば、5つのLEDが、線形または二次元のパターンで、ジョイスティックコントローラ2130に設けられうる。LEDの線形のアレイが好ましいが、別の実施形態では、画像キャプチャユニット2123によって得られたLEDパターンの画像を分析する際に、LEDアレイの画像平面が決定しやすいように、LEDが矩形のパターンまたは弓状のパターンで配置されていてもよい。更に、LEDパターンコードが、ゲームプレイ中にジョイスティックコントローラ2130の位置を決定するために使用されてもよい。例えば、LEDは、コントローラのチルト、ヨーおよびロールを識別するのを支援しうる。この検出パターンは、航空機飛行ゲームなどのゲームにおいて、ユーザの感覚をより現実に近づけるのを支援することができる。画像キャプチャユニット2123は、ジョイスティックコントローラ2130と光源2134を含む画像をキャプチャしうる。このような画像を分析することで、ジョイスティックコントローラの位置および/または向きを決定することができる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。画像キャプチャユニット2123が光源2134の画像をキャプチャしやすくなるように、光源2134は、ジョイスティックコントローラ2130の2つ以上の異なる側、例えば、(想像線に示すように)前面と背面に配置されうる。このように配置することで、ユーザによるジョイスティックコントローラ2130の持ち方に応じて変わるジョイスティックコントローラ2130の異なる向きに対して、画像キャプチャユニット2123は、光源2134の画像を得ることが可能となる。
【0237】
更に、光源2134は、テレメトリ信号を、例えば、パルスコード、振幅変調または周波数変調方式で、プロセッサ2101に供給しうる。このようなテレメトリ信号は、押下されているジョイスティックボタンおよび/またはこのボタンの押下強度を示しうる。テレメトリ信号は、例えば、パルス符号化、パルス幅変調、周波数変調または光強度(振幅)変調によって、光信号に符号化されうる。プロセッサ2101は、光信号からテレメトリ信号を復号化して、復号化したテレメトリ信号に応じてゲームコマンドを実行しうる。テレメトリ信号は、画像キャプチャユニット2123によって得られたジョイスティックコントローラ2130の画像を分析することで復号化されてもよい。別の実施形態では、装置2101が、光源2134からのテレメトリ信号を受信する専用の別個の光センサを有してもよい。コンピュータプログラムとインタフェースする際の強度量の決定と併用されるLEDの使用は、譲受人共通の米国特許出願第 号、リチャードL.マークスらの「コンピュータプログラムとインタフェースする場合に、強度量を決定する際のコンピュータ画像および音声処理の使用(USE OF COMPUTER IMAGE AND AUDIO PROCESSING IN DETERMINING AN INTENSITY AMOUNT WHEN INTERFACING WITH A COMPUTER PROGRAM)」(代理人書類番号SONYP052)に記載されており、その全体が参照によりここに援用される。更に、光源2134を含む画像の分析は、テレメトリのためと、ジョイスティックコントローラ2130の位置および/または向きの決定のための両方に使用することができる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。
【0238】
プロセッサ2101は、画像キャプチャユニット2123によって検出された光源2134からの光信号および/またはマイクロフォンアレイ2122によって検出された音響信号からの音源の位置および特徴付けの情報と共に、慣性センサ2132からの慣性信号を使用して、ジョイスティックコントローラ2130および/またはそのユーザの位置および/または向きに関する情報を推論することができる。例えば、移動する音声をトラッキングするために、「音波レーダー」の音源の位置特定および特徴付けが、マイクロフォンアレイ2122と共に使用されうる一方で、ジョイスティックコントローラの移動が、(慣性センサ2132および/または光源2134によって)独立してトラッキングされる。プロセッサ2101に制御信号に供給する異なるモードについて、本発明の実施形態と共に、任意の数のモードを異なる組合せで使用することができる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。
【0239】
慣性センサ2132からの信号は、トラッキング情報入力の一部となり、1つ以上の光源2134をトラッキングすることにより画像キャプチャユニット2132から生成された信号は、トラッキング情報入力の別の部分となりうる。例えば、このような「混合モード」信号は、クォーターバックが、ひっかけのために左に頭を動かした後に、右にボールを投げるフットボールタイプのビデオゲームで使用することができるが、これに限定されない。詳細には、コントローラ2130を持っているゲームのプレーヤが、頭を左に向けた後に、コントローラを、それがフットボールであるかのように、コントローラを右に(out to the right)振って投げる動作をしながら音を発しうる。「音波レーダー」プログラムコードと共に用いられるマイクロフォンアレイ2120が、ユーザの音をトラッキングしうる。画像キャプチャユニット2123は、ユーザの頭の移動をトラッキングするか、または音声やコントローラの使用を必要としない他のコマンドをトラッキングしうる。センサ2132は、ジョイスティックコントローラ(フットボールを表す)の移動をトラッキングしうる。画像キャプチャユニット2123は、コントローラ2130にある光源2134もトラッキングしうる。ジョイスティックコントローラ2130の加速度が特定の量および/または方向に達したら、あるいはまたはジョイスティックコントローラ2130のボタンを押すことによってトリガされるキーコマンドが発生されたら、ユーザは「ボール」を離しうる。
【0240】
本発明の特定の実施形態では、ジョイスティックコントローラ2130の位置を決定するために、加速度計またはジャイロスコープなどからの慣性信号が使用されうる。詳細には、加速度計からの加速度信号が、時間に関して積分されて、速度の変化が決定され、この速度が時間に関して積分されて、位置の変化が決定されうる。初期位置の値と、ある時点での速度が既知の場合には、これらの値と速度および位置の変化を使用して、絶対位置が決定されうる。慣性センサを使用した位置決定は、画像キャプチャユニット2123と光源2134を使用する場合よりも迅速に実行されうるが、慣性センサ2132は、「ドリフト」として知られるタイプの誤差を受けることがある。この誤差では、経時的に蓄積された誤差により、慣性信号から計算されるジョイスティック2130の位置(想像線に示される)と、ジョイスティックコントローラ2130の実際の位置の間に不一致Dが生じることがある。本発明の実施形態では、このような誤差を処理する数多くの方法が可能である。
【0241】
例えば、ジョイスティックコントローラ2130の初期位置を、計算で求めた現在の位置の値にリセットすることによって、ドリフトを手動で相殺することができる。ユーザは、初期位置をリセットするコマンドを起動させるために、ジョイスティックコントローラ2130のボタンの1つ以上を使用することができる。別の実施形態では、画像に基づくドリフトは、画像キャプチャユニット2123から得られた画像から決定された位置を基準として、現在の位置をリセットすることによって実装されうる。このような画像に基づくドリフト補償は、例えば、ユーザがジョイスティックコントローラ2130のボタンの1つ以上を起動したときに、手動で実装されうる。別の実施形態では、画像に基づくドリフト補償は、例えば、定期的な時間間隔で、あるいはゲームのプレイに応答してなど、自動的に実装されうる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。
【0242】
特定の実施形態では、慣性センサ信号の偽のデータを補償することが望ましいことがある。例えば、慣性センサ信号から偽のデータを除去するために、慣性センサ2132から信号がオーバーサンプリングされて、オーバーサンプリングされた信号から、スライド平均(sliding average)が計算されうる。一部の状況では、信号をオーバーサンプリングして、データ点の一部の部分集合から高い値および/または低い値を棄却して、残りのデータ点からスライド平均を計算することが望ましいことがある。更に、偽のデータの影響を取り除くか低減させるために、他のデータのサンプリングおよび操作手法を使用して、慣性センサからの信号が調整されうる。どの手法を選択するかは、信号の性質、信号に行われる計算、ゲームのプレイの性質、またはこれらの2つ以上の何らかの組合せに応じて決まる。このような手法は、メモリ2102に記憶されており、プロセッサ2101によって実行されるプログラムコード命令2104によって実装されうる。
【0243】
前述のように、プロセッサ2101は、データ2106と、メモリ2102によって記憶および取り出され、プロセッサモジュール2101によって実行されるプログラム2104のプログラムコード命令とに応じて、信号データ2106に対してデジタル信号処理を実行しうる。プログラム2104のコード部分は、アセンブラ、C++、JAVAや他の多くの言語などの多くの異なるプログラミング言語のいずれか1つに準拠しうる。プロセッサモジュール2101は汎用コンピュータであり、プログラムコード2104などのプログラムを実行する際に、特定用途コンピュータとなる。プログラムコード2104は、ソフトウェアで実装され、汎用コンピュータで実行されるものとしてここに記載したが、別の実施形態では、タスク管理のこの方法が、特定用途向け集積回路(ASIC)または他のハードウェア回路などのハードウェアを使用して実装されてもよいことを、当業者は理解するであろう。このようにして、本発明の実施形態が、全体あるいは部分的に、ソフトウェア、ハードウェアまたはこの両者の何らかの組合せで実装できることを理解すべきである。
【0244】
一実施形態では、プログラムコード2104は、なかでも、図25Bの方法2010、図25Dの方法2020、図25Fの方法2040、または図7、8、13、16、17、18または19に示した方法、あるいはこれらの2つ以上の何らかの組み合わせと共通する機能を有する方法を実装するプロセッサ読み込み可能な命令の組を含みうる。一実施形態では、プログラムコード2104は、一般に、1つ以上のプロセッサに対して、実行時に事前較正された聴取ゾーンを選択させて、この事前較正された聴取ゾーンの外の発生源から発生する音をフィルタさせる1つ以上の命令を備えうる。事前較正された聴取ゾーンは、画像キャプチャユニット2123の焦点体積または視野に対応する聴取ゾーンを含みうる。
【0245】
プログラムコードは、実行されると、装置2100に対して、音源を含む事前較正された聴取セクタを選択させる1つ以上の命令を備えうる。このような命令は、装置に対して、音源が初期セクタ内にあるか、または初期セクタの特定の側に存在するかどうかを決定させうる。音源が既定のセクタ内にない場合、命令は、実行されると、既定のセクタの特定の側にある異なるセクタを選択しうる。この異なるセクタは、入力信号の減衰が最適値に最も近いという特徴を有する。これらの命令は、実行されると、マイクロフォンアレイ2122からの入力信号の減衰と最適値の減衰を算出しうる。命令は、実行されると、装置2100に対し、1つ以上のセクタについて、入力信号の減衰の値を決定させて、減衰が最適値に最も近いセクタを選択させうる。
【0246】
プログラムコード2104は、1つ以上のプロセッサに対して、マイクロフォンM0,..,MMから離散的な時間領域入力信号xm(t)を生成させ、聴取セクタを決定させ、入力信号xm(t)から異なる音源を分離するための有限インパルス応答フィルタ係数を選択するために、セミブラインド音源分離において聴取セクタを使用させるように指示する1つ以上の命令を任意選択で含んでいてもよい。プログラム2104は、参照マイクロフォンM0からの入力信号x0(t)を除く選択された入力信号xm(t)に、1つ以上の微小な遅延を適用するための命令を含みうる。微小な遅延のそれぞれは、マイクロフォンアレイからの離散的時間領域出力信号y(t)の信号対雑音比を最適化するために選択されうる。参照マイクロフォンM0からの信号が、アレイ内の他のマイクロフォンからの信号に比べて時間が一番早くなるように、微小な遅延が選択される。また、プログラム2104は、y(t+Δ)=x(t+Δ)*b0+x(t−1+Δ)*b1+x(t−2+Δ)*b2+,…,+x(t−N+Δ)bN(ただし、Δは0〜±1)となるように、微小な時間遅延Δをマイクロフォンアレイの出力信号y(t)に導入しうる。
【0247】
プログラムコード2104は、任意選択で1つ以上の命令を有するプロセッサ実行可能命令を有し、この命令は、実行されると、画像キャプチャユニット2123に対して、画像キャプチャユニット2123の前の視野をモニタさせ、この視野内で光源2134を1つ以上識別させ、光源2134から発せられる光の変化を検出させ、この変化を検出すると、プロセッサ2101への入力コマンドを発生させる。ゲームコントローラにおいて動作を起動させるために画像キャプチャ装置と併用するLEDの使用は、リチャード L.マークスによる、譲受人共通の米国特許出願第10/759,782号「光入力装置のための方法および装置(METHOD AND APPARATUS FOR LIGHT INPUT DEVICE)」に記載されており、その全体が参照によりここに援用される。
【0248】
プログラムコード2104は、任意選択で1つ以上の命令を有するプロセッサ実行可能命令を有し、この命令は、実行されると、例えば、前述のように、慣性センサからの信号と、1つ以上の光源をトラッキングすることにより画像キャプチャユニットから生成された信号とを、ゲームシステムへの入力として使用する。プログラムコード2104は、任意選択で1つ以上の命令を有するプロセッサ実行可能命令を有し、この命令は、実行されると、慣性センサ2132内のドリフトを補償させる。
【0249】
更に、プログラムコード2104は、1つ以上の命令を有するプロセッサ実行可能命令を任意選択で有してもよく、これは、実行されると、ゲーム環境に対するコントローラの操作のギアリングおよびマッピングを調整する。このような機能により、ユーザは、ゲームの状態に対するジョイスティックコントローラ2130の操作の「ギヤリング」を変更できるようになる。例えば、ジョイスティックコントローラ2130を45°回転させることが、ゲーム物体の45°の回転にギアリングされうる。しかし、コントローラをX°回転させる(またはチルトまたはヨーまたは「操作」)と、ゲーム物体のY回転(またはチルトまたはヨーまたは「操作」)に変換されるように、この1:1のギア比が変更されてもよい。ギアリングは1:1の比、1:2の比、1:Xの比、X:Yの比であってよく、ここでXとYは任意の値をとることができる。更に、ゲームの制御に対する入力チャネルのマッピングは、経時的に変更されても、即時に変更されてもよい。変更には、ジェスチャ軌道モデルの変更、ジェスチャの位置、スケール、しきい値等の変更などが含まれうる。このようなマッピングは、ユーザの操作性のダイナミックレンジを広げるために、プログラムされていても、ランダムでも、層状になっていても(tiered)、互い違いにされていても(staggered)よい。マッピング、ギアリングまたは比率の変更は、ゲームのプレイまたはゲームの状態に従って、あるいはジョイスティックコントローラ2130にあるユーザ変更ボタン(キーパッドなど)を使用して、あるいは、広くは入力チャンネルに応じて、プログラムコード2104によって調整されうる。入力チャネルには、ユーザの音声の要素、コントローラによって生成された音声、コントローラによって生成されたトラッキング音声、コントローラのボタンの状態、ビデオカメラの出力、加速度計のデータ、チルト、ヨー、ロール、位置、加速度を含むコントローラのテレメトリデータ、ユーザまたは物体に対するユーザの操作をトラッキングすることができるセンサからのほかの任意のデータなどがある。
【0250】
特定の実施形態では、プログラムコード2104は、経時的なマッピングまたはギアリングを、所定の時間に依存する方法で、1つの方式または比率から別の方式に変更しうる。ギアリングおよびマッピングの変更は、さまざまな方法でゲーム環境に適用されうる。1つの例では、ビデオゲームのキャラクタが、そのキャラクタが健康なときはあるギアリング方式下で制御され、そのキャラクタの健康状態が悪化すると、システムが、コントローラコマンドのギアを変更しうる。このため、ユーザが、キャラクタにコマンドを提示するための(gesture)、コントローラの動きが悪化する。ビデオゲームのキャラクタが方向感覚を失った場合、例えば、ユーザが、入力を調整して、新しいマッピング下でキャラクタの制御を取り戻すことが必要なため、入力チャネルのマッピングが強制的に変更されうる。入力チャネルのゲームコマンドへの変換を変更するマッピング方式は、ゲームのプレイ中も変更を行うことができる。この変換は、ゲームの状態に応じて、または入力チャネルの1つ以上の構成要素の下で発行される変更コマンドに応じて、さまざまな方法で行われうる。ギアリングおよびマッピングは、入力チャネルの1つ以上の構成要素の構成および/または処理に影響するようにも構成することができる。
【0251】
更に、ジョイスティックコントローラ2130にスピーカ2136が取り付けられうる。プログラムコード2104が、マイクロフォンアレイ2122によって検出される音の位置を特定し、特徴付ける「音波レーダー」の実施形態では、スピーカ2136が音声信号を供給することができる。この音声信号は、マイクロフォンアレイ2122によって検出可能であり、ジョイスティックコントローラ2130の位置をトラッキングするためにプログラムコード2104によって使用されうる。スピーカ2136は、ジョイスティックコントローラ2130からプロセッサ2101への追加の「入力チャネル」を提供するためにも使用することができる。スピーカ2136からの音声信号は、位置をトラッキングするための音波レーダー用のビーコンを提供するために、定期的にパルス発信される。音声信号(パルスまたはそれ以外)は、可聴域でも、超音波でもよい。音波レーダーは、ジョイスティックコントローラ2130のユーザ操作をトラッキングし、このような操作のトラッキングには、ジョイスティックコントローラ2130の位置および向きに関する情報(例えば、ピッチ、ロールまたはヨー、角度)などが含まれうる。パルスは、当業者が適用することができるような適切な動作周期で起動されうる。パルスは、システムから介入されたる制御信号に基づいて始動されうる。装置2100は、プロセッサ2101に結合された2つ以上のジョイスティックコントローラ2130の間での制御信号の発信を、複数のコントローラが確実にトラッキングできるように、(プログラムコード2104によって)調整しうる。
【0252】
例えば、本発明の実施形態は、並列処理システムに実装されうる。このような並列処理システムは、通常、別個のプロセッサを使用して、プログラムの一部分を並列で実行するように構成された2つ以上のプロセッサ要素を有する。例えば、図27は、本発明の一実施形態によるセルプロセッサの一種2200を示すが、これに限定されるものではない。セルプロセッサ2200は、図26のプロセッサ2101として使用することができる。図27に示した例では、セルプロセッサ2200は、メインメモリ2202、パワープロセッサ要素(PPE)2204、および多くの相乗的プロセッサ要素(SPE)2206を有する。図27に示す例では、セルプロセッサ2200は、1つのPPE2204と、8つのSPE2206を有する。このような構成において、SPE2206のうちの7つは並列処理のために使用され、1つのプロセッサは、他の7つのプロセッサの1つが故障したときのバックアップとして予約されうる。別の実施形態では、セルプロセッサが、PPEの複数のグループ(PPEのグループ)と、SPEの複数のグループ(SPEのグループ)を有していてもよい。このような場合、ハードウェア資源が、グループ内のユニット間で共有されうる。しかし、SPEとPPEは、ソフトウェアからみて、独立した要素でなければならない。このように、本発明の実施形態は、図27に示す構成との使用に限定されない。
【0253】
メインメモリ2202は、通常、汎用の不揮発性の記憶装置のほかに、システム構成、データ転送同期、メモリーマップドI/OおよびI/Oサブシステムなどの機能に使用される特殊用途のハードウェアレジスタまたはアレイも有する。本発明の実施形態では、信号処理プログラム2203は、メインメモリ2202に置かれうる。信号処理プログラム2203は、上記の図7、8、13、16、17、18、19、25B、25Dまたは25Fに関して記載したように構成されても、これらの2つ以上の何らかの組み合わせで構成されてもよい。信号処理プログラム2203は、PPEで実行されうる。プログラム2203は、複数の信号処理タスクに分割され、これらは、SPEおよび/またはPPEで実行することができる。
【0254】
例えば、PPE2204は、関連するキャッシュL1およびL2を有する64ビットPowerPCプロセッサユニット(PPU)であってもよい。PPE2204は、汎用の処理ユニットであり、システム管理資源(例えば、メモリ保護テーブルなど)にアクセスすることができる。ハードウェア資源は、PPEによって参照される実アドレス空間に明示的にマップされうる。このため、PPEは、任意の適切な実効アドレス値を用いて、これらの資源のいずれをも直接アドレス指定を行うことができる。PPE2204の主な機能は、セルプロセッサ2200内のSPE2206のタスクの管理と割り当てである。
【0255】
図27には1つのPPEしか図示されていないが、セルブロードバンドエンジンアーキテクチャ(CBEA)などのセルプロセッサの一部の実装では、セルプロセッサ2200が、PPEのグループに編成された複数のPPEを有していてもよく、このグループは2つ以上存在しうる。これらのPPEのグループは、メインメモリ2202へのアクセスを共有しうる。更に、セルプロセッサ2200が、2つ以上のSPEのグループを有していてもよい。SPEのグループも、メインメモリ2202へのアクセスを共有しうる。このような構成は、本発明の範囲に含まれる。
【0256】
各SPE2206は、シナジスティックプロセッサユニット(Synergistic Processor Unit:SPU)と自身のローカル記憶領域LSを有する。ローカル記憶域LSは、メモリ領域の、それぞれが特定のSPUと関連付けられた1つ以上の別個の領域を有しうる。各SPUは、自身の関連するローカル記憶域ドメインにある命令(データロード操作とデータストア操作を含む)のみを実行するように構成されうる。このような構成では、ローカル記憶域LSとシステム2200の他の部分との間のデータ転送は、メモリフローコントローラ(MFC)からダイレクトメモリアクセス(DMA)コマンドを発行して、(個々のSPEの)ローカル記憶域ドメインとの間でデータを転送することによって実行されうる。SPUは、演算ユニットとしては、システム管理機能を実行しないという点で、PPE2204ほどは複雑でない。SPUは、一般に、単一命令複数データ(SIMD)機能を有し、通常は、その割当タスクを実行するために、データを処理して、任意の要求されたデータ転送を開始する(PPEによって設定されたアクセスプロパティに制約される)。SPUの目的は、高密度の演算ユニットを必要とし、与えられた命令セットを効率的に使用することができるアプリケーションを可能にすることにある。PPE2204によって、システム内の多くの数のSPEが管理されることにより、多様なアプリケーションにわたり、コスト効率の高い処理が可能となる。
【0257】
SPE2206のそれぞれは、メモリ保護およびアクセス許可の情報を保持および処理することができる関連するMMUを有する、専用のメモリフローコントローラ(MFC)を有しうる。MFCは、セルプロセッサの主記憶域とSPEのローカル記憶域間でのデータの転送、保護および同期のための主要な方法を提供している。MFCコマンドは、実行すべき転送を規定している。データを転送するためのコマンドは、時として、MFCダイレクトメモリアクセス(DMA)コマンド(またはMFC DMAコマンド)と呼ばれる。
【0258】
各MFCは、同時に複数のDMA転送に対応することができ、複数のMFCコマンドを保持および処理することができる。各MFC DMAデータ転送コマンド要求には、ローカル記憶域アドレス(LSA)と実効アドレス(EA)が含まれうる。ローカル記憶域アドレスは、その関連するSPEのローカル記憶領域のみを直接アドレス指定しうる。実効アドレスは、より一般的な用途を有することができ、例えば、実アドレス空間にエイリアスされている場合には、全てのSPEローカル記憶領域を含む主記憶装置を参照することができる。
【0259】
SPE2206間、および/またはSPE2206とPPE2204間の通信を容易にするために、SPE2206とPPE2204は、信号発生事象に結び付けられた信号通知レジスタを有しうる。PPE2204とSPE2206は、PPE2204がSPE2206にメッセージを伝達するルーターとして機能するスター型トポロジーに結合されていてもよい。別の実施形態では、SPE2206とPPE2204のそれぞれが、メールボックスと呼ばれる一方向の信号通知レジスタを有していてもよい。メールボックスは、オペレーティングシステム(OS)の同期をホストするために、SPE2206によって使用されうる。
【0260】
セルプロセッサ2200は入出力(I/O)機能2208を有し、これを介して、セルプロセッサ2200は、マイクロフォンアレイ2212および任意選択の画像キャプチャユニット2213などの周辺装置とインタフェースしうる。更に、要素相互接続バス2210は、上に挙げた各種の構成要素を接続しうる。SPEとPPEのそれぞれは、バスインタフェースユニットBIUを介してバス2210にアクセスしうる。また、セルプロセッサ2200は、通常はプロセッサ内にある、バス2210とメインメモリ2202間のデータの流れを制御するメモリインタフェースコントローラ(MIC)と、I/O2208とバス2210間のデータの流れを制御するバスインターフェースコントローラ(BIC)の2つのコントローラを有しうる。MIC、BIC、BIUおよびバス2210に対する要件は、実装によって大きく変わりうるが、当業者であれば、その機能とそれを実装するための回路について熟知しているであろう。
【0261】
セルプロセッサ2200は、内部割込みコントローラ(IIC)も有しうる。IIC構成要素は、PPEに提示される割り込みの優先度を管理している。IICによって、セルプロセッサ2200は、メインシステムの割込みコントローラを使用することなく、他の構成要素からの割り込みを処理できるようになる。IICは、2次レベルのコントローラであると考えることができる。メインシステムの割込みコントローラは、セルプロセッサの外で発生した割込みを処理しうる。
【0262】
本発明の実施形態では、上記の微小な遅延などの特定の計算は、PPE2204および/またはSPE2206の1つ以上を使用して、並列で実行されうる。微小な遅延計算のそれぞれは1つ以上の別個のタスクとして実行され、これらは、異なるSPE2206が利用可能になると、それが処理しうる。
【0263】
本発明の実施形態は、マイクロフォン間隔dが約0.5cm〜約2cmであるアレイを特徴とする約2〜約8のマイクロフォンのアレイを利用しうる。マイクロフォンのダイナミックレンジは、約120Hz〜約16kHzでありうる。前述のように、出力信号y(t)に微小な遅延を導入することで、離散的な整数の時間遅延を出力信号に適用することに限定されるデジタルプロセッサで可能なよりも、音源分離において極めて高い解像度が実現されることが理解されよう。本発明の実施形態が、このような短いマイクロフォン間隔と比較的低価格のマイクロフォンによって、高解像度を実現することができるのは、このような微小な時間遅延の導入のためである。本発明の実施形態は超音波の位置トラッキングにも適用することができ、その際、マイクロフォンアレイに超音波発生器を追加して、この発生器からの超音波パルスの反響の到達時間遅延を分析して、物体の位置をトラッキングする。
【0264】
本発明の方法および装置は、携帯電話機、個人情報端末、ビデオ/デジタルカメラなどの携帯式手持ち式のデバイスに利用されるのに十分小さいマイクロフォンアレイを使用しうる。本発明の特定の実施形態では、アレイのマイクロフォンの数を増やしても有利な効果がなく、場合によっては、マイクロフォンが少ないほうが、多い場合よりも良好に機能することがある。詳細には、4マイクロフォンアレイのほうが、8マイクロフォンアレイよりも良好に機能することが確認されている。
【0265】
ここに記載した方法および装置は、例えば、遠隔地の相手の背景音声とゲームのキャラクタを組み合わせることによって、オンラインゲームの機能を拡張するために使用されることができる。マイクロフォンを備えたゲームコンソールが、ローカルの背景音声を連続的に収集しうる。マイクロフォンアレイは、事前に定義された聴取ゾーンに基づいて、音声を選択的に収集しうる。例えば、マイクロフォンの焦点の±20°の円錐または他の領域を定義することができる。この円錐の外のあらゆる音は、背景音声であるとみなされる。音声処理によって、前景のゲームプレーヤの声から、背景音を確実に除去することができる。背景音声に、今話しているゲームキャラクタの、事前に録音された音声が混合されうる。この新たに混合した音声信号が、リモートの相手(ネットワークを介した別のゲームプレーヤなど)に転送される。同様に、同じ方法が同様にリモート側にも適用されて、その結果、ローカルのプレーヤに対して、リモートの相手から背景音声が提示される。これにより、ゲームにおける現実的な体験を、実世界に比べて改善することができる。マイクロフォンアレイについて上記したように、背景音声を録音することによって、1つのマイクロフォンによるアレイの選択する聴取能力のほうが、むしろ理解しやすい。プレーヤの音声を背景音と区別するために、有音/無音検出(Voice Activity Detection:VAD)を使用することができる。音声活動が検出されると、以前の無音信号が、背景を置換するために使用されうる。
【0266】
ユーザが「スイートスポット」にいない場合、多くのビデオ表示または音声の質が低下する。ユーザのいる場所が不明であるため、従来技術が採用していた手法は、スイートスポットを可能な限り広げることであった。これに対して、本発明の実施形態では、例えば、ビデオ画像または「音波レーダー」からユーザのいる位置がわかり、表示または音声のパラメータを調整して、スイートスポットを移動させることができる。例えば、デジタルカメラなどの画像キャプチャユニットによる頭部の検出およびトラッキングを使用して、ユーザの位置を決定することができる。表示の質を動的に改善するために、これに対応して、LCDの角度または他の電子的なパラメータが変更されうる。音声の場合、スイートスポットを調整するために、各チャネルの位相と振幅が調整されうる。本発明の実施形態は、ビデオカメラおよび/またはマイクロフォンアレイの入力によって、頭部またはユーザの位置のトラッキングを行うことができる。
【0267】
本発明の実施形態は、ここに記載したように、あるいは他のユーザ入力機構およびその他の機構と組み合わせて使用することができる。これらには、音の角方向またはボリュームをトラッキングまたは分析する機構および/または物体の位置を能動的または受動的にトラッキングする機構、機械的視覚を使用する機構、またはそれらの組み合わせがある。その際、トラッキングされる物体は、システムへのフィードバックを操作する補助的制御部またはボタンを有していてもよい。このようなフィードバックには、光源からの発光、音歪み手段、または他の適切な送信器および変調器のほか、同じエンコード状態の送信または変調、に影響しうる制御部、ボタン、圧力パッドなど、および/または装置(システムによってトラッキングされる装置を含む)との間でやり取りされるコマンドがあるが、これらに限定されない。これらの装置が、本発明の実施形態と関連して使用されるシステムの一部であるか、それとインタフェースするか、それに影響するかに影響しうる。
【0268】
上に記載した、本発明の特定の実施形態の説明は、例示および説明を目的として採り上げた。この実施形態は全てを網羅するものでも、本発明を開示したそのままの実施形態に制限することを意図するものではなく、当然、上記の教示を鑑みれば、多くの修正および変更が可能である。各種実施形態は、本発明の原理およびその実際的な用途を説明して、これにより、当業者が、本発明および実施形態を、特定の用途に合致するように様々に変更して、最もよく活用できるように、選んで記載した。本発明は、ほかの様々な用途に利用することができる。
【0269】
上記の実施形態を考慮に入れて、本発明が、コンピュータシステムに記憶されたデータを使用する、各種のコンピュータ実装操作を使用してもよい点を理解すべきである。これらの操作には、物理量の物理的な操作を必要とする操作が含まれる。この物理量は通常、記憶、転送、結合、比較などの操作が可能な電気信号または磁気信号の形を取るが、必ずしもこれらに限定されない。更に、実行される操作は、生成、特定、決定または比較などと呼ばれることが多い。
【0270】
上記した発明は、携帯式デバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電気製品、ミニコンピュータ、メインフレームコンピュータなど、他のコンピュータシステム構成によって実施されてもよい。また、本発明は、分散コンピューティング環境で実施されてもよく、このような環境では、通信ネットワークを介してリンクされる遠隔処理デバイスによってタスクが実行される。
【0271】
本発明は、また、計算機可読媒体上の計算機可読コードとして実施されてもよい。計算機可読媒体は、電磁搬送波(electromagnetic wave carrier)を含め、コンピュータシステムによって後から読取ることができるデータを記憶できるデータ記憶装置であれば、どのようなものに存在してもよい。計算機可読媒体の例には、ハードディスク、ネットワーク接続記憶装置(NAS)、リードオンリーメモリ、ランダムアクセスメモリ、CD−ROM、CD−R、CD−RW、磁気テープおよび他の光学式データ記憶装置および非光学式データ記憶装置などがある。また、計算機可読媒体は、計算機可読コードが分散式に記憶されて、実行されるように、ネットワークに結合されたコンピュータシステムを介して分散されてもよい。
【0272】
上記に、本発明を明確に理解できるように多少詳細に記載したが、添付の特許請求の範囲内で変更例または変形例を実施できることは明らかである。ここに記載した任意の機能は、好適なものであってもなくても、好適なものであってもなくても、好適または好適ではない他の任意の機能と組み合わせることができる。したがって、本実施形態は例示的なものであり、制限するものではなく、本発明は本明細書に記載されている詳細な事項に限定されず、添付の特許請求の範囲およびその均等物の範囲内で変更されてもよい。
【図面の簡単な説明】
【0273】
【図1】本発明の一実施形態による、1人以上のユーザとの対話機能のためにビデオゲームプログラムを実行することができるゲーム環境を示す。
【図2】本発明の一実施形態による画像−音声キャプチャ装置の例の三次元図である。
【図3A】本発明の一実施形態による、入力を受信するように設計された異なるマイクロフォンでの音経路の処理と、選択された音源を出力するための論理回路を示す図である。
【図3B】本発明の一実施形態による、入力を受信するように設計された異なるマイクロフォンでの音経路の処理と、選択された音源を出力するための論理回路を示す図である。
【図4】本発明の一実施形態による、入力音源を処理するために、画像−音声キャプチャ装置とインタフェースするコンピューティングシステムの例を示す図である。
【図5】本発明の一実施形態による、特定の音源の方向識別の精度を上げるために複数のマイクロフォンが使用される例を示す図である。
【図6】本発明の一実施形態による、異なる面にあるマイクロフォンを使用して、特定の空間体積において音が識別される例を示す図である。
【図7】本発明の一実施形態による、音源を識別して、焦点外の音源を除去する際に処理されうる例示的な方法操作を示す図である。
【図8】本発明の一実施形態による、音源を識別して、焦点外の音源を除去する際に処理されうる例示的な方法操作を示す図である。
【図9】視覚画像に基づいて音をキャプチャするか音声信号をキャプチャする、または音声信号の場所に基づいてその信号をキャプチャするために、聴取領域を調整する方法および装置が実装される環境を示す図である。
【図10】視覚画像に基づいて音をキャプチャするか音声信号をキャプチャする、または音声信号の場所に基づいてその信号をキャプチャするために、聴取領域を調整する方法および装置が実装される一実施形態を示す簡略ブロック図である。
【図11A】本発明の一実施形態による聴取方向の決定を示すマイクロフォンアレイの模式図である。
【図11B】本発明の実施形態と共に、反因果的フィルタリングを示すマイクロフォンアレイの模式図である。
【図12A】本発明の特定の実施形態による方法および装置を実装できるマイクロフォンアレイおよびフィルタ装置の模式図である。
【図12B】本発明の特定の実施形態による方法および装置を実装することができる別のマイクロフォンアレイおよびフィルタ装置の模式図である。
【図13】本発明の実施形態による、2つ以上のマイクロフォンのアレイからの信号の処理のためのフロー図である。
【図14】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するシステムの簡略ブロック図である。
【図15】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合する例示的なレコードを示す図である。
【図16】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図17】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図18】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図19】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するフロー図である。
【図20】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置の実施形態と整合する、視野に基づく聴取ゾーンのモニタを示す図である。
【図21】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合するいくつかの聴取ゾーンを示す図である。
【図22】視覚画像または音声信号の場所に基づいて音をキャプチャするか音声信号をキャプチャするために、聴取領域を調整する方法および装置と整合する音声検出に焦点を絞った図である。
【図23A】音声信号の位置に基づいてその信号をキャプチャする方法および装置が実装されるマイクロフォンアレイを示す模式図である。
【図23B】音声信号の位置に基づいてその信号をキャプチャする方法および装置が実装されるマイクロフォンアレイを示す模式図である。
【図23C】音声信号の位置に基づいてその信号をキャプチャする方法および装置が実装されるマイクロフォンアレイを示す模式図である。
【図24】音声信号の位置に基づいてその信号をキャプチャする方法および装置の一実施形態と整合する音声検出に焦点を絞った図である。
【図25A】本発明の一実施形態によるマイクロフォンアレイの模式図である。
【図25B】本発明の一実施形態による、対象音検出のための方法を示すフロー図である。
【図25C】本発明の好ましい実施形態による、対象音検出を示す模式図である。
【図25D】本発明の好ましい実施形態による、対象音検出のための方法を示すフロー図である。
【図25E】本発明の一実施形態による、音源の位置特定および特徴付け装置の上面図である。
【図25F】本発明の一実施形態による、音源の位置特定および特徴付けのための方法を示すフロー図である。
【図25G】本発明の一実施形態による、カメラの視野内から対象の音を検出するための、カメラとマイクロフォンアレイを有する装置の上面模式図である。
【図25H】図25Eの装置の上正面図である。
【図25I】本発明の別の実施形態によるオーディオビデオ装置の平面模式図である。
【図25J】本発明の別の実施形態によるオーディオビデオ装置の平面模式図である。
【図26】本発明の一実施形態に係る信号処理装置のブロック図である。
【図27】本発明の一実施形態による信号処理システムのセルプロセッサの実装のブロック図である。
【特許請求の範囲】
【請求項1】
初期聴取ゾーンを検出するステップと、
マイクロフォンアレイによって、キャプチャされた音をキャプチャするステップと、
前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別するステップと、
前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成するステップと、
前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別するステップと、を有する方法。
【請求項2】
前記初期音を生成するために、前記キャプチャされた音の一部を破棄するステップを更に有する請求項1に記載の方法。
【請求項3】
前記キャプチャされた音は、前記初期聴取ゾーンの外からの音を含む請求項1に記載の方法。
【請求項4】
調整する前記ステップは、前記初期聴取ゾーンの領域を拡大するステップを更に有する請求項1に記載の方法。
【請求項5】
調整する前記ステップは、前記初期聴取ゾーンの領域を縮小するステップを更に有する請求項1に記載の方法。
【請求項6】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項1に記載の方法。
【請求項7】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項1に記載の方法。
【請求項8】
前記調整された音を送信するステップを更に有する請求項1に記載の方法。
【請求項9】
前記調整された音を記憶するステップを更に有する請求項1に記載の方法。
【請求項10】
前記調整された音は、前記調整された聴取ゾーン内で発生した音を含み、前記調整された聴取ゾーンの外からの音が除外されている請求項1に記載の方法。
【請求項11】
調整する前記ステップは、前記調整された聴取ゾーンの外で検出された音に基づいて前記初期聴取ゾーンを拡大するステップを更に有する請求項1に記載の方法。
【請求項12】
前記調整された聴取ゾーンは、前記調整された聴取ゾーンの外で検出された前記音の位置を含む請求項11に記載の方法。
【請求項13】
前記初期聴取ゾーンを調整する前記ステップは、前記キャプチャされた音の位置および前記初期聴取ゾーンに基づく請求項1に記載の方法。
【請求項14】
前記調整された聴取ゾーンは、前記キャプチャされた音の前記位置を含む請求項13に記載の方法。
【請求項15】
マイクロフォンアレイは1つを超えるマイクロフォンを有する請求項1に記載の方法。
【請求項16】
マイクロフォンアレイによってカバーされる音場を検出するステップと、
それぞれが前記音場の一部を表している複数の聴取ゾーンを定義するステップと、
複数の聴取ゾーンから選択された聴取ゾーンを指定するステップと、
前記選択された聴取ゾーンをプロファイルに記憶するステップと、を有する方法。
【請求項17】
前記複数の聴取ゾーンのそれぞれの領域はフィルタ係数の組によって表現される請求項16に記載の方法。
【請求項18】
前記複数の聴取ゾーンを表現している領域は、前記マイクロフォンアレイによってカバーされる音場を含む請求項16に記載の方法。
【請求項19】
音を求めてマイクロフォンアレイによってモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
前記聴取ゾーンからの音を記憶するように構成された記憶モジュールと、
前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発生する音を検出するように構成された音検出モジュールと、を有するシステム。
【請求項20】
前記聴取ゾーンと関連するパラメータを記憶するように構成された領域プロファイルモジュールを更に有する請求項19に記載のシステム。
【請求項21】
前記パラメータは、前記聴取ゾーンによってカバーされる領域を示すフィルタ係数の組である請求項19に記載のシステム。
【請求項22】
初期聴取ゾーンを検出するステップと、
マイクロフォンアレイによって、キャプチャされた音をキャプチャするステップと、
前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別するステップと、
前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成するステップと、
前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別するステップと、を有する方法を実行する計算機実行可能命令を有する計算機可読媒体。
【請求項23】
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
視覚装置の視野を検出するステップと、
前記視覚装置の前記視野を前記初期聴取ゾーンの前記初期領域と比較するステップと、
前記初期聴取ゾーンを調整して、前記視野と前記初期領域との比較に基づいて調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有する方法。
【請求項24】
前記調整された領域から発せられる音をキャプチャするステップを更に有する請求項23に記載の方法。
【請求項25】
前記初期領域から発せられる音をキャプチャするステップを更に有する請求項23に記載の方法。
【請求項26】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域を拡大するステップを更に有する請求項23に記載の方法。
【請求項27】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域を縮小するステップを更に有する請求項23に記載の方法。
【請求項28】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域の位置を移動させるステップを更に有する請求項23に記載の方法。
【請求項29】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項23に記載の方法。
【請求項30】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項23に記載の方法。
【請求項31】
マイクロフォンアレイによって、前記調整された聴取ゾーンから調整された音をキャプチャするステップを更に有する請求項23に記載の方法。
【請求項32】
前記調整された音を送信するステップを更に有する請求項31に記載の方法。
【請求項33】
前記調整された音を記憶するステップを更に有する請求項31に記載の方法。
【請求項34】
マイクロフォンアレイは1つを超えるマイクロフォンを有する請求項31に記載の方法。
【請求項35】
前記視覚装置はスチルカメラである請求項23に記載の方法。
【請求項36】
前記視覚装置はスチルカメラである請求項23に記載の方法。
【請求項37】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項23に記載の方法。
【請求項38】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項23に記載の方法。
【請求項39】
視覚装置からの画像を検出するステップと、
前記画像と関連する領域から発せられた音を検出するように構成された聴取ゾーンを形成するステップと、
前記聴取ゾーンから発せられた音をキャプチャするステップと、
前記画像に基づいて前記聴取ゾーンを動的に調整するステップと、有する方法。
【請求項40】
前記動的に調整する前記ステップは、前記聴取ゾーンを拡大するステップを更に有する請求項39に記載の方法。
【請求項41】
前記動的に調整する前記ステップは、前記聴取ゾーンを縮小するステップを更に有する請求項39に記載の方法。
【請求項42】
前記動的に調整する前記ステップは、前記聴取ゾーンを別の位置に移動させるステップを更に有する請求項39に記載の方法。
【請求項43】
前記画像は、ビデオのセグメントを形成する複数の画像のうちの1つである請求項39に記載の方法。
【請求項44】
音を求めてモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
視覚装置によってモニタされる視野を検出するように構成された視野検出モジュールと、
前記視野に基づいて前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発せられた音を検出するように構成された音検出モジュールと、を有するシステム。
【請求項45】
前記聴取ゾーンと関連する領域は、フィルタ係数の組によって記述される請求項44に記載のシステム。
【請求項46】
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
前記初期聴取ゾーン内で初期音を検出するステップと、
前記初期聴取ゾーンを調整して、調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有し、前記初期音は前記調整された聴取ゾーン内から発せられる方法。
【請求項47】
前記調整された領域から発せられる音をキャプチャするステップを更に有する請求項46に記載の方法。
【請求項48】
前記初期領域から発せられる音をキャプチャするステップを更に有する請求項46に記載の方法。
【請求項49】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域を狭めるステップを更に有する請求項46に記載の方法。
【請求項50】
前記初期音の初期騒音レベルを検出するステップを更に有する請求項46に記載の方法。
【請求項51】
前記初期騒音レベルをしきい値レベルと比較するステップを更に有する請求項50に記載の方法。
【請求項52】
前記しきい値レベルは、背景音の検出を低減させるように予め決定されている請求項51に記載の方法。
【請求項53】
前記初期聴取ゾーンを調整する前記ステップは、前記初期の騒音レベルが前記しきい値レベルを上回ると行われる請求項51に記載の方法。
【請求項54】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項46に記載の方法。
【請求項55】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項46に記載の方法。
【請求項56】
マイクロフォンアレイによって、前記調整された聴取ゾーンから調整された音をキャプチャするステップを更に有する請求項46に記載の方法。
【請求項57】
前記調整された音を送信するステップを更に有する請求項56に記載の方法。
【請求項58】
前記調整された音を記憶するステップを更に有する請求項56に記載の方法。
【請求項59】
マイクロフォンアレイは1つを超えるマイクロフォンを有する請求項56に記載の方法。
【請求項60】
前記調整された音の調整された騒音レベルを検出するステップを更に有する請求項56に記載の方法。
【請求項61】
前記調整された騒音レベルをしきい値レベルと比較するステップを更に有する請求項60に記載の方法。
【請求項62】
前記しきい値レベルが前記調整された音レベルを上回る時に、前記調整された聴取ゾーンを前記初期聴取ゾーンに戻すステップを更に有する請求項61に記載の方法。
【請求項63】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項46に記載の方法。
【請求項64】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項46に記載の方法。
【請求項65】
音を求めてモニタすべき初期聴取ゾーンを検出するように構成された領域検出モジュールと、
前記初期聴取ゾーンから発せられた音を検出し、前記音の位置を検出するように構成された音検出モジュールと、
前記音の前記位置に基づいて前記初期聴取ゾーンを調整し、前記音の前記位置を含む調整された聴取ゾーンを形成するように構成された領域調整モジュールと、を有するシステム。
【請求項66】
前記調整された聴取ゾーンは、フィルタ係数の組によって記述される請求項65に記載のシステム。
【請求項67】
前記音検出モジュールは、前記初期聴取ゾーンから発せられた前記音の音レベルを検出するように構成されている請求項65に記載のシステム。
【請求項68】
前記領域調整モジュールは、前記音レベルがしきい値レベルを上回っていることに基づいて前記初期聴取ゾーンを調整するように構成されている請求項67に記載のシステム。
【請求項69】
前記音検出モジュールに結合されたマイクロフォンまたはマイクロフォンアレイを更に有する請求項65に記載のシステム。
【請求項70】
前記マイクロフォンアレイは、一次元のアレイに配置された2つ以上のマイクロフォンを有する請求項69に記載のシステム。
【請求項71】
前記マイクロフォンアレイは、二次元のアレイに配置された3つ以上のマイクロフォンを有する請求項69に記載のシステム。
【請求項72】
前記マイクロフォンアレイは、三次元のアレイに配置された4つ以上のマイクロフォンを有する請求項69に記載のシステム。
【請求項73】
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
前記初期聴取ゾーン内で初期音を検出するステップと、
前記初期聴取ゾーンを調整して、調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有し、前記初期音は前記調整された聴取ゾーン内から発せられる方法を実行する計算機実行可能命令を有する計算機可読媒体。
【請求項74】
2つ以上のマイクロフォンM0,…,MMを有するマイクロフォンアレイを使用する標的音検出のための方法であって、各マイクロフォンは、複数のフィルタと結合されており、前記フィルタは前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成されている方法であって、前記方法は、
1つ以上の対応する事前較正された聴取ゾーンを決定するために、前記複数のフィルタに対して、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出して、前記所定の聴取セクタの外で発生する音をフィルタ除去するように選択されたフィルタパラメータの1つ以上の組を事前較正するステップと、
特定の事前較正された聴取ゾーンに対応するフィルタ係数の組を前記複数のフィルタに適用することによって、実行時に、前記特定の事前較正された聴取ゾーンを選択するステップと、を有し、これにより、前記マイクロフォンアレイが、前記特定の聴取ゾーン内で発生した音を検出して、前記特定の聴取ゾーンの外で発生する音をフィルタ除去することができる方法。
【請求項75】
前記フィルタパラメータの複数の組を事前較正する前記ステップは、有限インパルス応答(FIR)フィルタ係数の組を決定するためにブラインド音源分離を使用するステップを有する請求項74に記載の方法。
【請求項76】
前記1つ以上の聴取ゾーンは、画像キャプチャユニットの視野に対応する聴取ゾーンを含み、これにより、前記マイクロフォンアレイが、前記画像キャプチャユニットの前記視野内で発生した音を検出して、前記画像キャプチャユニットの前記視野の外で発生する音をフィルタすることができる請求項74に記載の方法。
【請求項77】
前記1つ以上の聴取ゾーンは複数の異なる聴取ゾーンを含む請求項74に記載の方法。
【請求項78】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、1つ以上のゾーンについて前記入力信号の減衰の値を決定するステップと、前記減衰が最適値に最も近いセクタを選択するステップと、を有する請求項77に記載の方法。
【請求項79】
前記複数の事前較正された聴取ゾーンは約18のセクタを含み、各セクタは約20°の角度幅を有し、これにより、前記複数の事前較正されたセクタは、前記マイクロフォンアレイを取り囲む約360°をなす請求項77に記載の方法。
【請求項80】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、音源を含む事前較正された聴取ゾーンを選択するステップを有する請求項74に記載の方法。
【請求項81】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、複数の聴取ゾーンの初期ゾーンを選択するステップと、
音源が前記初期ゾーン内に存在するか、前記初期セクタの特定の側に存在するかを決定するステップと、
前記音源が前記初期ゾーンに存在しない場合に、前記初期ゾーンの前記特定の側にある異なる聴取ゾーンを選択するステップと、を有し、前記異なる聴取ゾーンは、前記入力信号の減衰が最適値に最も近いという特徴を有する請求項74に記載の方法。
【請求項82】
音源が前記初期ゾーン内に存在するか、前記初期ゾーンの特定の側に存在するかを決定する前記ステップは、前記入力信号および前記出力信号から、前記入力信号の減衰を計算するステップと、前記減衰を最適値と比較するステップと、を有する請求項81に記載の方法。
【請求項83】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、所定の聴取ゾーンについて、力信号の減衰がしきい値を下回るかどうかを決定するステップを有する請求項74に記載の方法。
【請求項84】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、音源を含む事前較正された聴取セクタを選択するステップを有し、前記方法は、画像キャプチャユニットを、前記音源を含む前記事前較正された聴取ゾーンの方に機械的に向けるステップを更に有する請求項74に記載の方法。
【請求項85】
前記1つ以上の事前較正された聴取ゾーンは、複数の異なる事前較正された聴取ゾーンを含み、前記方法は、
前記マイクロフォンアレイによって音を検出するステップと、
前記音の発生源を含む特定の事前較正された聴取ゾーンを識別するステップと、
前記音または前記音の前記発生源を特徴付けるステップと、
前記音の特徴付けに応じて、前記音を強調またはフィルタ除去するステップと、を有する請求項74に記載の方法。
【請求項86】
前記音の特徴付けに応じて、前記音を強調またはフィルタ除去する前記ステップは、前記音または前記発生源が背景ノイズに関連する場合に、前記音をフィルタ除去するステップを有する請求項85に記載の方法。
【請求項87】
前記音または前記音の前記発生源を特徴付ける前記ステップは、
前記音に対する周波数分布を決定するステップと、
既知の音または音の発生源に対する1つ以上の音響モデルに対して、前記周波数分布を比較するステップと、を有する請求項85に記載の方法。
【請求項88】
前記音または前記音の前記発生源を特徴付けるステップは、前記音または前記音の前記発生源が1つ以上の所定の特徴を有するかどうかを決定するために前記音を分析するステップを有する請求項85に記載の方法。
【請求項89】
前記音が1つ以上の所定の特徴を有すると決定された場合に、電子装置の少なくとも1つの要素を制御することを目的として、少なくとも1つの制御信号を生成するステップを更に有する請求項88に記載の方法。
【請求項90】
前記電子装置はビデオゲームコントローラであり、前記制御信号は、前記ビデオゲームコントローラに対して、前記音の発生源からの音に応じてゲームコマンドを実行させる請求項89に記載の方法。
【請求項91】
前記音の特徴付けに応じて、前記音を強調またはフィルタ除去する前記ステップは、
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して拡大するステップと、
前記音声信号のサンプリングレートを下げるステップと、
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用するステップと、
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整するステップと、を有する請求項74に記載の方法。
【請求項92】
前記電子装置は乳児モニタである請求項74に記載の方法。
【請求項93】
前記電子装置はジョイスティックコントローラを有するビデオゲームユニットであり、前記方法は、
前記音または前記音の発生源が1つ以上の所定の特徴を有すると決定された場合に、前記ビデオゲームユニットの少なくとも1つの要素を制御することを目的として、少なくとも1つの制御信号を生成するステップと、
前記ジョイスティックコントローラにより1つ以上の追加の制御信号を生成するステップと、を更に有する請求項74に記載の方法。
【請求項94】
前記ジョイスティックコントローラにより1つ以上の追加の制御信号を生成する前記ステップは、前記ジョイスティックコントローラにある1つ以上の光源により光信号を生成するステップと、画像キャプチャユニットにより前記光信号を受信するステップと、を有する請求項93に記載の方法。
【請求項95】
光信号を受信する前記ステップは、1つ以上の光源を含む1つ以上の画像をキャプチャするステップと、前記ジョイスティックコントローラの位置または向きを決定するか、前記ジョイスティックコントローラからのテレメトリ信号を復号化するか、この両方を行うために前記1つ以上の画像を分析するステップと、を有する請求項94に記載の方法。
【請求項96】
前記ジョイスティックコントローラにより1つ以上の追加の制御信号を生成する前記ステップは、前記ジョイスティックコントローラにある慣性センサにより位置および/または向きの信号を生成するステップを有する請求項93に記載の方法。
【請求項97】
前記位置および/または向きの信号から決定された位置および/または向きのドリフトを補償するステップを更に有する請求項96に記載の方法。
【請求項98】
ドリフトを補償する前記ステップは、初期位置の値を、前記位置および/または向きの信号から決定された計算された現在の位置の値に設定するステップを有する請求項97に記載の方法。
【請求項99】
ドリフトを補償する前記ステップは、画像キャプチャユニットにより、前記ジョイスティックコントローラの画像をキャプチャするステップと、前記ジョイスティックコントローラの位置を決定するために前記画像を分析するステップと、前記ジョイスティックコントローラの前記位置の現在値を、前記画像の分析から決定された前記ジョイスティックコントローラの前記位置に設定するステップと、を有する請求項97に記載の方法。
【請求項100】
前記慣性センサからの信号内の偽のデータを補償するステップを更に有する請求項97に記載の方法。
【請求項101】
対象音検出装置であって、
2つ以上のマイクロフォンM0,…,MMを有するマイクロフォンアレイと、
各マイクロフォンに結合されており、前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成された複数のフィルタと、
前記マイクロフォンアレイおよび前記複数のフィルタに結合されたプロセッサと、
前記プロセッサに結合されたメモリと、
1つ以上の事前較正された聴取ゾーンに対応して、前記メモリ内に実装されたフィルタパラメータの1つ以上の組と、を有し、フィルタパラメータの各組は、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出するように選択されており、前記所定の聴取ゾーンの外で発生する音をフィルタ除去し、
前記メモリは、プロセッサ実行可能命令の組を格納しており、前記命令は実行されると、前記装置に対して実行時に特定の事前較正された聴取ゾーンを選択させ、その際、前記特定の事前較正された聴取ゾーンに対応するフィルタパラメータの組が前記複数のフィルタに適用され、
これにより、前記装置は、前記特定の事前較正された聴取ゾーン内で発生した音を検出して、前記特定の事前較正された聴取ゾーンの外で発生する音をフィルタ除去できるようになる装置。
【請求項102】
前記1つ以上の事前較正された聴取ゾーンは、複数の異なる事前較正された聴取ゾーンを含む請求項101に記載の装置。
【請求項103】
前記複数の事前較正された聴取ゾーンは約18のセクタを含み、各セクタは約20°の角度幅を有し、これにより、前記複数の事前較正されたセクタは、前記マイクロフォンアレイを取り囲む約360°をなす請求項101に記載の装置。
【請求項104】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、音の発生源を含む事前較正された聴取ゾーンを選択させる1つ以上の命令を有する請求項101に記載の装置。
【請求項105】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、音源が前記初期聴取ゾーン内に存在するか、前記初期聴取ゾーンの特定の側に存在するかを決定させ、前記音源が前記聴取初期ゾーンに存在しない場合に、前記初期聴取ゾーンの前記特定の側にある異なる聴取ゾーンを選択させる1つ以上の命令を有し、前記異なる聴取ゾーンは、前記入力信号の減衰が最適値に最も近いという特徴を有する請求項101に記載の装置。
【請求項106】
実行されると、前記装置に対して、音源が前記初期聴取ゾーン内に存在するか、前記初期聴取ゾーンの特定の側に存在するかを決定させる前記1つ以上の命令は、実行されると、前記入力信号および前記出力信号から、前記入力信号の減衰を計算させ、前記減衰を最適値と比較させる1つ以上の命令を有する請求項105に記載の装置。
【請求項107】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、1つ以上のセクタについて前記入力信号の減衰の値を決定させ、前記減衰が最適値に最も近い聴取ゾーンを選択させる1つ以上の命令を有する請求項101に記載の装置。
【請求項108】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、所定の聴取ゾーンについて、入力信号の減衰がしきい値を下回っているかどうかを決定させる1つ以上の命令を有する請求項101に記載の装置。
【請求項109】
前記プロセッサに結合された画像キャプチャユニットを更に有し、前記1つ以上の聴取セクタは、前記画像キャプチャユニットの視野に対応する聴取ゾーンを有する請求項101に記載の装置。
【請求項110】
前記プロセッサに結合された画像キャプチャユニットと、前記プロセッサに結合された1つ以上のポインティングアクチュエータと、を更に有し、前記ポインティングアクチュエータは、前記プロセッサによって生成された信号に応えて、前記画像キャプチャユニットを視覚方向に向けるように適合されており、前記メモリは、実行されると、前記アクチュエータに対して、前記画像キャプチャユニットを前記特定の事前較正された聴取ゾーンの方向に向けさせるプロセッサ実行可能命令の組を格納している請求項101に記載の装置。
【請求項111】
前記1つ以上の事前較正された聴取ゾーンは、複数の異なる聴取ゾーンを含み、前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、
前記マイクロフォンアレイによって音を検出させ、
前記音の発生源を含む特定の事前較正された聴取ゾーンを識別させ、
前記音または前記音の前記発生源を特徴付けさせ、
前記音の特徴付けに応じて、前記音を強調またはフィルタさせる1つ以上の命令を有する請求項101に記載の装置。
【請求項112】
前記命令の組は、実行されると、前記装置に対して、前記音または前記発生源が関連する背景ノイズである場合に、前記音をフィルタ除去させる1つ以上の命令を有する請求項111に記載の装置。
【請求項113】
前記装置に対して、前記音または前記音の前記発生源を特徴付けさせる前記命令は、実行されると、前記装置に対して、
前記音に対する周波数分布を決定させ、
既知の音または音の発生源に対する1つ以上の音響モデルに対して、前記周波数分布を比較させる命令を有する請求項111に記載の装置。
【請求項114】
前記1つ以上の音響モデルは前記メモリに記憶されている請求項113に記載の装置。
【請求項115】
前記装置に対して、前記音または前記音の前記発生源を特徴付けさせる前記命令は、実行されると、前記装置に対して、前記音が1つ以上の所定の特徴を有するかどうかを決定するために前記音を分析させる命令を有する請求項111に記載の装置。
【請求項116】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、前記音が1つ以上の所定の特徴を有すると決定された場合に、電子装置の少なくとも1つの要素を制御することを目的として、少なくとも1つの制御信号を生成させる1つ以上の命令を更に有する請求項115に記載の装置。
【請求項117】
前記装置はビデオゲームコントローラであり、前記制御信号は、前記ビデオゲームコントローラに対して、前記音の発生源からの音に応じてゲームコマンドを実行させる請求項116に記載の装置。
【請求項118】
前記装置は乳児モニタである請求項101に記載の装置。
【請求項119】
前記プロセッサに結合されたジョイスティックコントローラを更に有する請求項101に記載の装置。
【請求項120】
前記ジョイスティックコントローラは、前記プロセッサと結合された慣性センサを有する請求項119に記載の装置。
【請求項121】
前記慣性センサは加速時計またはジャイロスコープを有する請求項120に記載の装置。
【請求項122】
前記プロセッサ実行可能命令は、実行されると、前記慣性センサからの位置および/または向きの信号から決定された位置および/または向きのドリフトを補償させる1つ以上の命令を有する請求項120に記載の装置。
【請求項123】
移動を補償することは、初期位置の値を、前記位置および/または向きの信号から決定された計算された現在の位置の値に設定することを有する請求項122に記載の装置。
【請求項124】
移動を補償することは、画像キャプチャユニットにより、前記ジョイスティックコントローラの画像をキャプチャすることと、前記ジョイスティックコントローラの位置を決定するために前記画像を分析することと、前記ジョイスティックコントローラの前記位置の現在値を、前記画像の分析から決定された前記ジョイスティックコントローラの前記位置に設定することと、を有する請求項122に記載の装置。
【請求項125】
前記ジョイスティックコントローラは1つ以上の光源を有し、前記装置は画像キャプチャユニットを更に有し、前記プロセッサ実行可能命令は、実行されると、前記画像キャプチャユニットに対して、画像キャプチャ装置の前の視野をモニタさせ、前記視野内で前記光源を識別させ、前記光源から発せられる光の変化を検出させ、前記変化の検出に応えて、前記プロセッサへの入力コマンドを発生させる1つ以上の命令を有する請求項119に記載の装置。
【請求項126】
前記ジョイスティックコントローラは1つ以上の光源を有し、前記装置は画像キャプチャユニットを更に有し、前記プロセッサ実行可能命令は、実行されると、前記画像キャプチャユニットに対して、前記光源から発せられる光の変化を検出させ、前記ジョイスティックコントローラの位置または向きを決定するか、前記ジョイスティックコントローラからのテレメトリ信号を復号化するか、この両方を行うために前記1つ以上の画像を分析させる1つ以上の命令を有する請求項119に記載の装置。
【請求項127】
前記光源は、線形のアレイに構成された2つ以上の光源を有する請求項126に記載の装置。
【請求項128】
前記光源は、線形のアレイに構成された2つ以上の光源を有する請求項126に記載の装置。
【請求項129】
前記光源は、前記画像キャプチャユニットが前記光源を見やすいように、前記ジョイスティックコントローラの2つ以上の異なる側に配置されている請求項126に記載の装置。
【請求項130】
前記ジョイスティックコントローラに取り付けられた慣性センサを更に有し、前記慣性センサからの信号、および前記1つ以上の光源をトラッキングすることにより前記画像キャプチャユニットから生成された信号が、ゲームシステムへの入力として使用される請求項126に記載の装置。
【請求項131】
前記ジョイスティックコントローラに取り付けられた慣性センサを更に有し、前記慣性センサからの信号は、トラッキング情報入力の一部となり、前記1つ以上の光源をトラッキングすることにより前記画像キャプチャユニットから生成された信号は、前記トラッキング情報入力の別の部分となる請求項126に記載の装置。
【請求項132】
前記プロセッサ実行可能命令は、実行されると、前記慣性センサからの信号内の偽のデータを補償させる1つ以上の命令を有する請求項120に記載の装置。
【請求項133】
2つ以上のマイクロフォンM0,…,MMを有するマイクロフォンアレイを使用する標的音検出のための方法であって、各マイクロフォンは、複数のフィルタと結合されており、前記フィルタは前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成されている方法を実行する計算機実行可能命令が実装されている計算機可読媒体であって、前記方法は、
1つ以上の対応する事前較正された聴取ゾーンを決定するために、前記複数のフィルタに対して、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出して、前記所定の聴取セクタの外で発生する音をフィルタ除去するように選択されたフィルタパラメータの1つ以上の組を事前較正するステップと、
特定の事前較正された聴取ゾーンに対応するフィルタ係数の組を前記複数のフィルタに適用することによって、実行時に、前記特定の事前較正された聴取ゾーンを選択するステップと、を有し、これにより、前記マイクロフォンアレイが、前記特定の聴取ゾーン内で発生した音を検出して、前記特定の聴取ゾーンの外で発生する音をフィルタ除去することができる計算機可読媒体。
【請求項134】
コンピュータプログラムとの対話機能中に音をキャプチャする装置であって、
音声キャプチャユニットを有し、前記音声キャプチャユニットは、1つ以上の音源を識別するように構成されており、前記音声キャプチャユニットは、聴取ゾーンを決定するために分析されうるデータを生成し、前記聴取ゾーンにおいて音が処理されて、前記焦点ゾーンの外の音がほぼ除去され、前記焦点ゾーンについてキャプチャされ、処理された音が、前記コンピュータプログラムとの対話機能に使用される装置。
【請求項135】
前記音声キャプチャユニットはマイクロフォンのアレイを有し、前記マイクロフォンのアレイは、前記1つ以上の音源からの音を受け取るように構成されており、前記1つ以上の音源の前記音は、前記マイクロフォンのそれぞれへの音経路を定義している請求項134に記載の装置。
【請求項136】
前記音経路は、画像および音をキャプチャするために、前記装置に対する前記1つ以上の音源のそれぞれの方向の計算を可能にする特定の遅延を含む請求項135に記載の装置。
【請求項137】
前記アレイ内のマイクロフォン同士の間隔は、約0.5cm〜約2cmである請求項135に記載の装置。
【請求項138】
音を求めてマイクロフォンアレイによってモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
前記聴取ゾーンからの音を記憶するように構成された記憶モジュールと、
前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発生する音を検出するように構成された音検出モジュールと、を更に有する請求項134に記載の装置。
【請求項139】
音を求めてモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
視覚装置によってモニタされる視野を検出するように構成された視野検出モジュールと、
前記視野に基づいて前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発せられた音を検出するように構成された音検出モジュールと、を更に有する請求項134に記載の装置。
【請求項140】
音を求めてモニタすべき初期聴取ゾーンを検出するように構成された領域検出モジュールと、
前記初期聴取ゾーンから発せられた音を検出し、前記音の位置を検出するように構成された音検出モジュールと、
前記音の前記位置に基づいて前記初期聴取ゾーンを調整し、前記音の前記位置を含む調整された聴取ゾーンを形成するように構成された領域調整モジュールと、を更に有する請求項134に記載の装置。
【請求項141】
前記音声キャプチャユニットは、2つ以上のマイクロフォンを有するマイクロフォンアレイと、
各マイクロフォンに結合されており、前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成された複数のフィルタと、を有する請求項134に記載の装置。
【請求項142】
前記マイクロフォンアレイおよび前記複数のフィルタに結合されたプロセッサと、
前記プロセッサに結合されたメモリと、
1つ以上の事前較正された聴取ゾーンに対応して、前記メモリ内に実装されたフィルタパラメータの1つ以上の組と、を更に有し、フィルタパラメータの各組は、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出するように選択されており、前記所定の聴取ゾーンの外で発生する音をフィルタ除去し、
前記メモリは、プロセッサ実行可能命令の組を格納しており、前記命令は実行されると、前記装置に対して実行時に特定の事前較正された聴取ゾーンを選択させ、その際、前記特定の事前較正された聴取ゾーンに対応するフィルタパラメータの組が前記複数のフィルタに適用され、
これにより、前記装置は、前記特定の事前較正された聴取ゾーン内で発生した音を検出して、前記特定の事前較正された聴取ゾーンの外で発生する音をフィルタ除去できるようになる請求項141に記載の装置。
【請求項143】
前記コンピュータプログラムはゲームプログラムである請求項134に記載の装置。
【請求項144】
コンピュータプログラムとの対話機能中の選択的な音源聴取のための方法であって、
2つ以上の音源キャプチャマイクロフォンにおいて1つ以上の音源からの入力を受信するステップと、
前記1つ以上の音源のそれぞれの前記受信された入力について方向を識別するステップと、
聴取ゾーンの識別された方向にない音源をフィルタ除去するステップと、を有し、前記聴取ゾーンは前記コンピュータプログラムとの前記対話機能のために前記音源を提供している方法。
【請求項145】
方向を識別して、音源をフィルタ除去する前記ステップは、
初期聴取ゾーンを検出するステップと、
マイクロフォンアレイによって、キャプチャされた音をキャプチャするステップと、
前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別するステップと、
前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成するステップと、
前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別するステップと、を有する請求項144に記載の方法。
【請求項146】
前記2つ以上のマイクロフォンによって受信された前記入力が1つ以上の所定の特徴を有するかどうかを決定するために、前記入力を分析するステップを更に有する請求項144に記載の方法。
【請求項147】
前記音が1つ以上の所定の特徴を有すると決定された場合に、前記コンピュータプログラムの少なくとも1つの要素を制御するように構成された少なくとも1つの制御信号を生成するステップを更に有する請求項146に記載の方法。
【請求項148】
方向を識別して、音源をフィルタ除去する前記ステップは、
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
視覚装置の視野を検出するステップと、
前記視覚装置の前記視野を前記初期聴取ゾーンの前記初期領域と比較するステップと、
前記初期聴取ゾーンを調整して、前記視野と前記初期領域との比較に基づいて調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有する請求項144に記載の方法。
【請求項149】
方向を識別して、音源をフィルタ除去する前記ステップは、
視覚装置からの画像を検出するステップと、
前記画像と関連する領域から発せられた音を検出するように構成された聴取ゾーンを形成するステップと、
前記聴取ゾーンから発せられた音をキャプチャするステップと、
前記画像に基づいて前記聴取ゾーンを動的に調整するステップと、を有する請求項144に記載の方法。
【請求項150】
前記聴取ゾーンは、フィルタ係数の組によって表現される請求項144に記載の方法。
【請求項151】
前記フィルタ係数の組は事前較正された聴取ゾーンに対応している請求項150に記載の方法。
【請求項152】
ジョイスティックコントローラを有するビデオゲームユニットにおいて動作を制御するための方法であって、
前記ジョイスティックコントローラにより慣性信号および/または光信号を生成するステップと、
前記慣性信号および/または光信号を使用して前記ジョイスティックコントローラの位置および/または向きをトラッキングするステップと、を有する方法。
【請求項153】
前記慣性信号および/または光信号を生成する前記ステップは、前記ジョイスティックコントローラに取り付けられた加速度計またはジャイロスコープにより慣性信号を生成するステップを有する請求項152に記載の方法。
【請求項154】
前記慣性信号および/または光信号を生成する前記ステップは、前記ジョイスティックコントローラに取り付けられた1つ以上の光源により光信号を生成するステップを有する請求項152に記載の方法。
【請求項155】
前記ジョイスティックコントローラの位置および/または向きをトラッキングする前記ステップは、前記光信号を含む1つ以上の画像をキャプチャするステップと、前記1つ以上の画像から前記光源の移動をトラッキングするステップと、を有する請求項154に記載の方法。
【請求項156】
前記慣性信号および/または光信号を生成する前記ステップは、前記ジョイスティックコントローラに取り付けられた加速度計またはジャイロスコープにより慣性信号を生成するステップと、前記ジョイスティックコントローラに取り付けられた1つ以上の光源により光信号を生成するステップと、を有する請求項152に記載の方法。
【請求項157】
前記慣性信号と前記光信号の両方が前記ゲームユニットへの入力として使用される請求項156に記載の方法。
【請求項158】
前記慣性信号は、前記ゲームユニットへのトラッキング情報入力の一部となり、前記光信号は前記トラッキング情報入力の別の部分となる請求項157に記載の方法。
【請求項159】
前記慣性信号内の偽のデータを補償するステップを更に有する請求項152に記載の方法。
【請求項160】
前記光信号からテレメトリ信号を符号化し、前記光信号から前記テレメトリ信号を復号化して、前記復号化されたテレメトリ信号に応じてゲームコマンドを実行するステップを更に有する請求項152に記載の方法。
【請求項161】
ビデオゲームにおける動作を制御するための装置であって、
プロセッサと、
前記プロセッサに結合されたメモリと、
前記プロセッサに結合され、慣性センサおよび光源を有するジョイスティックコントローラと、
前記メモリに記憶された1つ以上のプロセッサ実行可能命令と、を有し、前記命令は、前記プロセッサによって実行されると、前記装置に対して、前記慣性センサからの慣性信号および/または前記光源からの光信号を使用して前記ジョイスティックコントローラの位置および/または向きをトラッキングさせる装置。
【請求項162】
前記慣性センサは、前記ジョイスティックコントローラに取り付けられた加速度計またはジャイロスコープである請求項65に記載の装置。
【請求項163】
前記光源は、前記ジョイスティックコントローラに取り付けられた1つ以上の発光ダイオードを有する請求項65に記載の装置。
【請求項164】
前記プロセッサに結合された画像キャプチャユニットを更に有し、前記1つ以上のプロセッサ実行可能命令は、実行されると、前記画像キャプチャユニットに対し、前記光信号を含む1つ以上の画像をキャプチャさせる1つ以上の命令と、実行されると、前記1つ以上の画像からの前記光源の移動をトラッキングさせる1つ以上の命令を有する請求項67に記載の装置。
【請求項165】
前記慣性センサは、前記ジョイスティックコントローラに取り付けられた加速度計であり、光源は、前記ジョイスティックコントローラに取り付けられた1つ以上の発光ダイオードを有する請求項65に記載の装置。
【請求項166】
前記加速度計からの慣性信号と前記発光ダイオードからの光信号の両方が、前記ビデオゲームユニットへの入力として使用される請求項69に記載の装置。
【請求項167】
前記慣性信号は、前記ゲームユニットへのトラッキング情報入力の一部となり、前記光信号は前記トラッキング情報入力の別の部分となる請求項70に記載の装置。
【請求項168】
前記1つ以上のプロセッサ実行可能命令は、実行されると、前記慣性信号内の偽のデータを補償させる1つ以上の命令を有する請求項71に記載の装置。
【請求項169】
ジョイスティックコントローラを有するビデオゲームユニットにおいて動作を制御するための方法であって、
前記ジョイスティックコントローラに取り付けられた光源のアレイにより1つ以上の光信号を生成するステップと、
前記ジョイスティックコントローラの位置および/または向きをトラッキングするステップと、
前記1つ以上の光信号に1つ以上のテレメトリ信号を符号化するステップと、
前記ジョイスティックコントローラの前記位置および/または向きに応えて、および/または前記1つ以上の光信号に符号化されたテレメトリ信号に応えて、1つ以上のゲーム命令を実行するステップと、のうちの少なくとも1つを有する方法。
【請求項170】
前記光源は、線形のアレイに構成された2つ以上の光源を有する請求項169に記載の方法。
【請求項171】
前記光源は、矩形または弓状に構成された複数の光源を有する請求項169に記載の方法。
【請求項172】
前記光源は、前記画像キャプチャユニットが前記光源を見やすいように、前記ジョイスティックコントローラの2つ以上の異なる側に配置されている請求項169に記載の方法。
【請求項173】
ビデオゲームにおける動作を制御するための装置であって、
プロセッサと、
前記プロセッサに結合されたメモリと、
前記プロセッサに結合され、光源のアレイが取り付けられたジョイスティックコントローラと、
前記メモリに記憶された1つ以上のプロセッサ実行可能命令と、を有し、前記命令は、前記プロセッサによって実行されると、前記装置に対して、前記光源のアレイにより1つ以上の光信号を生成させ、
前記ジョイスティックコントローラの位置および/または向きをトラッキングさせ、
前記1つ以上の光信号に1つ以上のテレメトリ信号を符号化させ、
前記ジョイスティックコントローラの前記位置および/または向きに応えて、および/または前記1つ以上の光信号に符号化されたテレメトリ信号に応えて、1つ以上のゲーム命令を実行させる、のうちの少なくとも1つを実行させる装置。
【請求項174】
前記光源のアレイは、線形のアレイに構成された2つ以上の光源を有する請求項173に記載の装置。
【請求項175】
前記光源のアレイは、矩形または弓状に構成された複数の光源を有する請求項173に記載の装置。
【請求項176】
前記光源は、前記画像キャプチャユニットが前記光源を見やすいように、前記ジョイスティックコントローラの2つ以上の異なる側に配置されている請求項173に記載の装置。
【請求項177】
ビデオゲームユニット用のコントローラであって、
前記コントローラに取り付けられ、前記ビデオゲームユニットに光信号を提供して、画像キャプチャユニットによる前記光源のトラッキングを容易にするように、および/または前記光信号によって前記ゲームユニットに入力チャネルを提供するように適合された1つ以上の光源であって、の光源と、
前記コントローラに取り付けられ、前記ジョイスティックコントローラの位置または向きに関する信号を前記ゲームユニットに提供するように構成された慣性センサと、
前記コントローラに取り付けられ、前記コントローラをトラッキングするためおよび/または前記音声信号によって前記ビデオゲームユニットに入力チャネルを提供するために、前記ゲームユニットへの音声信号を生成するように構成されたスピーカと、を有するコントローラ。
【請求項1】
初期聴取ゾーンを検出するステップと、
マイクロフォンアレイによって、キャプチャされた音をキャプチャするステップと、
前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別するステップと、
前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成するステップと、
前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別するステップと、を有する方法。
【請求項2】
前記初期音を生成するために、前記キャプチャされた音の一部を破棄するステップを更に有する請求項1に記載の方法。
【請求項3】
前記キャプチャされた音は、前記初期聴取ゾーンの外からの音を含む請求項1に記載の方法。
【請求項4】
調整する前記ステップは、前記初期聴取ゾーンの領域を拡大するステップを更に有する請求項1に記載の方法。
【請求項5】
調整する前記ステップは、前記初期聴取ゾーンの領域を縮小するステップを更に有する請求項1に記載の方法。
【請求項6】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項1に記載の方法。
【請求項7】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項1に記載の方法。
【請求項8】
前記調整された音を送信するステップを更に有する請求項1に記載の方法。
【請求項9】
前記調整された音を記憶するステップを更に有する請求項1に記載の方法。
【請求項10】
前記調整された音は、前記調整された聴取ゾーン内で発生した音を含み、前記調整された聴取ゾーンの外からの音が除外されている請求項1に記載の方法。
【請求項11】
調整する前記ステップは、前記調整された聴取ゾーンの外で検出された音に基づいて前記初期聴取ゾーンを拡大するステップを更に有する請求項1に記載の方法。
【請求項12】
前記調整された聴取ゾーンは、前記調整された聴取ゾーンの外で検出された前記音の位置を含む請求項11に記載の方法。
【請求項13】
前記初期聴取ゾーンを調整する前記ステップは、前記キャプチャされた音の位置および前記初期聴取ゾーンに基づく請求項1に記載の方法。
【請求項14】
前記調整された聴取ゾーンは、前記キャプチャされた音の前記位置を含む請求項13に記載の方法。
【請求項15】
マイクロフォンアレイは1つを超えるマイクロフォンを有する請求項1に記載の方法。
【請求項16】
マイクロフォンアレイによってカバーされる音場を検出するステップと、
それぞれが前記音場の一部を表している複数の聴取ゾーンを定義するステップと、
複数の聴取ゾーンから選択された聴取ゾーンを指定するステップと、
前記選択された聴取ゾーンをプロファイルに記憶するステップと、を有する方法。
【請求項17】
前記複数の聴取ゾーンのそれぞれの領域はフィルタ係数の組によって表現される請求項16に記載の方法。
【請求項18】
前記複数の聴取ゾーンを表現している領域は、前記マイクロフォンアレイによってカバーされる音場を含む請求項16に記載の方法。
【請求項19】
音を求めてマイクロフォンアレイによってモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
前記聴取ゾーンからの音を記憶するように構成された記憶モジュールと、
前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発生する音を検出するように構成された音検出モジュールと、を有するシステム。
【請求項20】
前記聴取ゾーンと関連するパラメータを記憶するように構成された領域プロファイルモジュールを更に有する請求項19に記載のシステム。
【請求項21】
前記パラメータは、前記聴取ゾーンによってカバーされる領域を示すフィルタ係数の組である請求項19に記載のシステム。
【請求項22】
初期聴取ゾーンを検出するステップと、
マイクロフォンアレイによって、キャプチャされた音をキャプチャするステップと、
前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別するステップと、
前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成するステップと、
前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別するステップと、を有する方法を実行する計算機実行可能命令を有する計算機可読媒体。
【請求項23】
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
視覚装置の視野を検出するステップと、
前記視覚装置の前記視野を前記初期聴取ゾーンの前記初期領域と比較するステップと、
前記初期聴取ゾーンを調整して、前記視野と前記初期領域との比較に基づいて調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有する方法。
【請求項24】
前記調整された領域から発せられる音をキャプチャするステップを更に有する請求項23に記載の方法。
【請求項25】
前記初期領域から発せられる音をキャプチャするステップを更に有する請求項23に記載の方法。
【請求項26】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域を拡大するステップを更に有する請求項23に記載の方法。
【請求項27】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域を縮小するステップを更に有する請求項23に記載の方法。
【請求項28】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域の位置を移動させるステップを更に有する請求項23に記載の方法。
【請求項29】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項23に記載の方法。
【請求項30】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項23に記載の方法。
【請求項31】
マイクロフォンアレイによって、前記調整された聴取ゾーンから調整された音をキャプチャするステップを更に有する請求項23に記載の方法。
【請求項32】
前記調整された音を送信するステップを更に有する請求項31に記載の方法。
【請求項33】
前記調整された音を記憶するステップを更に有する請求項31に記載の方法。
【請求項34】
マイクロフォンアレイは1つを超えるマイクロフォンを有する請求項31に記載の方法。
【請求項35】
前記視覚装置はスチルカメラである請求項23に記載の方法。
【請求項36】
前記視覚装置はスチルカメラである請求項23に記載の方法。
【請求項37】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項23に記載の方法。
【請求項38】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項23に記載の方法。
【請求項39】
視覚装置からの画像を検出するステップと、
前記画像と関連する領域から発せられた音を検出するように構成された聴取ゾーンを形成するステップと、
前記聴取ゾーンから発せられた音をキャプチャするステップと、
前記画像に基づいて前記聴取ゾーンを動的に調整するステップと、有する方法。
【請求項40】
前記動的に調整する前記ステップは、前記聴取ゾーンを拡大するステップを更に有する請求項39に記載の方法。
【請求項41】
前記動的に調整する前記ステップは、前記聴取ゾーンを縮小するステップを更に有する請求項39に記載の方法。
【請求項42】
前記動的に調整する前記ステップは、前記聴取ゾーンを別の位置に移動させるステップを更に有する請求項39に記載の方法。
【請求項43】
前記画像は、ビデオのセグメントを形成する複数の画像のうちの1つである請求項39に記載の方法。
【請求項44】
音を求めてモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
視覚装置によってモニタされる視野を検出するように構成された視野検出モジュールと、
前記視野に基づいて前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発せられた音を検出するように構成された音検出モジュールと、を有するシステム。
【請求項45】
前記聴取ゾーンと関連する領域は、フィルタ係数の組によって記述される請求項44に記載のシステム。
【請求項46】
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
前記初期聴取ゾーン内で初期音を検出するステップと、
前記初期聴取ゾーンを調整して、調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有し、前記初期音は前記調整された聴取ゾーン内から発せられる方法。
【請求項47】
前記調整された領域から発せられる音をキャプチャするステップを更に有する請求項46に記載の方法。
【請求項48】
前記初期領域から発せられる音をキャプチャするステップを更に有する請求項46に記載の方法。
【請求項49】
調整する前記ステップは、前記初期聴取ゾーンの前記初期領域を狭めるステップを更に有する請求項46に記載の方法。
【請求項50】
前記初期音の初期騒音レベルを検出するステップを更に有する請求項46に記載の方法。
【請求項51】
前記初期騒音レベルをしきい値レベルと比較するステップを更に有する請求項50に記載の方法。
【請求項52】
前記しきい値レベルは、背景音の検出を低減させるように予め決定されている請求項51に記載の方法。
【請求項53】
前記初期聴取ゾーンを調整する前記ステップは、前記初期の騒音レベルが前記しきい値レベルを上回ると行われる請求項51に記載の方法。
【請求項54】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項46に記載の方法。
【請求項55】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項46に記載の方法。
【請求項56】
マイクロフォンアレイによって、前記調整された聴取ゾーンから調整された音をキャプチャするステップを更に有する請求項46に記載の方法。
【請求項57】
前記調整された音を送信するステップを更に有する請求項56に記載の方法。
【請求項58】
前記調整された音を記憶するステップを更に有する請求項56に記載の方法。
【請求項59】
マイクロフォンアレイは1つを超えるマイクロフォンを有する請求項56に記載の方法。
【請求項60】
前記調整された音の調整された騒音レベルを検出するステップを更に有する請求項56に記載の方法。
【請求項61】
前記調整された騒音レベルをしきい値レベルと比較するステップを更に有する請求項60に記載の方法。
【請求項62】
前記しきい値レベルが前記調整された音レベルを上回る時に、前記調整された聴取ゾーンを前記初期聴取ゾーンに戻すステップを更に有する請求項61に記載の方法。
【請求項63】
前記初期聴取ゾーンは、フィルタ係数の組によって表現される請求項46に記載の方法。
【請求項64】
前記調整された聴取ゾーンは、フィルタ係数の組によって表現される請求項46に記載の方法。
【請求項65】
音を求めてモニタすべき初期聴取ゾーンを検出するように構成された領域検出モジュールと、
前記初期聴取ゾーンから発せられた音を検出し、前記音の位置を検出するように構成された音検出モジュールと、
前記音の前記位置に基づいて前記初期聴取ゾーンを調整し、前記音の前記位置を含む調整された聴取ゾーンを形成するように構成された領域調整モジュールと、を有するシステム。
【請求項66】
前記調整された聴取ゾーンは、フィルタ係数の組によって記述される請求項65に記載のシステム。
【請求項67】
前記音検出モジュールは、前記初期聴取ゾーンから発せられた前記音の音レベルを検出するように構成されている請求項65に記載のシステム。
【請求項68】
前記領域調整モジュールは、前記音レベルがしきい値レベルを上回っていることに基づいて前記初期聴取ゾーンを調整するように構成されている請求項67に記載のシステム。
【請求項69】
前記音検出モジュールに結合されたマイクロフォンまたはマイクロフォンアレイを更に有する請求項65に記載のシステム。
【請求項70】
前記マイクロフォンアレイは、一次元のアレイに配置された2つ以上のマイクロフォンを有する請求項69に記載のシステム。
【請求項71】
前記マイクロフォンアレイは、二次元のアレイに配置された3つ以上のマイクロフォンを有する請求項69に記載のシステム。
【請求項72】
前記マイクロフォンアレイは、三次元のアレイに配置された4つ以上のマイクロフォンを有する請求項69に記載のシステム。
【請求項73】
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
前記初期聴取ゾーン内で初期音を検出するステップと、
前記初期聴取ゾーンを調整して、調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有し、前記初期音は前記調整された聴取ゾーン内から発せられる方法を実行する計算機実行可能命令を有する計算機可読媒体。
【請求項74】
2つ以上のマイクロフォンM0,…,MMを有するマイクロフォンアレイを使用する標的音検出のための方法であって、各マイクロフォンは、複数のフィルタと結合されており、前記フィルタは前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成されている方法であって、前記方法は、
1つ以上の対応する事前較正された聴取ゾーンを決定するために、前記複数のフィルタに対して、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出して、前記所定の聴取セクタの外で発生する音をフィルタ除去するように選択されたフィルタパラメータの1つ以上の組を事前較正するステップと、
特定の事前較正された聴取ゾーンに対応するフィルタ係数の組を前記複数のフィルタに適用することによって、実行時に、前記特定の事前較正された聴取ゾーンを選択するステップと、を有し、これにより、前記マイクロフォンアレイが、前記特定の聴取ゾーン内で発生した音を検出して、前記特定の聴取ゾーンの外で発生する音をフィルタ除去することができる方法。
【請求項75】
前記フィルタパラメータの複数の組を事前較正する前記ステップは、有限インパルス応答(FIR)フィルタ係数の組を決定するためにブラインド音源分離を使用するステップを有する請求項74に記載の方法。
【請求項76】
前記1つ以上の聴取ゾーンは、画像キャプチャユニットの視野に対応する聴取ゾーンを含み、これにより、前記マイクロフォンアレイが、前記画像キャプチャユニットの前記視野内で発生した音を検出して、前記画像キャプチャユニットの前記視野の外で発生する音をフィルタすることができる請求項74に記載の方法。
【請求項77】
前記1つ以上の聴取ゾーンは複数の異なる聴取ゾーンを含む請求項74に記載の方法。
【請求項78】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、1つ以上のゾーンについて前記入力信号の減衰の値を決定するステップと、前記減衰が最適値に最も近いセクタを選択するステップと、を有する請求項77に記載の方法。
【請求項79】
前記複数の事前較正された聴取ゾーンは約18のセクタを含み、各セクタは約20°の角度幅を有し、これにより、前記複数の事前較正されたセクタは、前記マイクロフォンアレイを取り囲む約360°をなす請求項77に記載の方法。
【請求項80】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、音源を含む事前較正された聴取ゾーンを選択するステップを有する請求項74に記載の方法。
【請求項81】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、複数の聴取ゾーンの初期ゾーンを選択するステップと、
音源が前記初期ゾーン内に存在するか、前記初期セクタの特定の側に存在するかを決定するステップと、
前記音源が前記初期ゾーンに存在しない場合に、前記初期ゾーンの前記特定の側にある異なる聴取ゾーンを選択するステップと、を有し、前記異なる聴取ゾーンは、前記入力信号の減衰が最適値に最も近いという特徴を有する請求項74に記載の方法。
【請求項82】
音源が前記初期ゾーン内に存在するか、前記初期ゾーンの特定の側に存在するかを決定する前記ステップは、前記入力信号および前記出力信号から、前記入力信号の減衰を計算するステップと、前記減衰を最適値と比較するステップと、を有する請求項81に記載の方法。
【請求項83】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、所定の聴取ゾーンについて、力信号の減衰がしきい値を下回るかどうかを決定するステップを有する請求項74に記載の方法。
【請求項84】
実行時に、特定の事前較正された聴取ゾーンを選択する前記ステップは、音源を含む事前較正された聴取セクタを選択するステップを有し、前記方法は、画像キャプチャユニットを、前記音源を含む前記事前較正された聴取ゾーンの方に機械的に向けるステップを更に有する請求項74に記載の方法。
【請求項85】
前記1つ以上の事前較正された聴取ゾーンは、複数の異なる事前較正された聴取ゾーンを含み、前記方法は、
前記マイクロフォンアレイによって音を検出するステップと、
前記音の発生源を含む特定の事前較正された聴取ゾーンを識別するステップと、
前記音または前記音の前記発生源を特徴付けるステップと、
前記音の特徴付けに応じて、前記音を強調またはフィルタ除去するステップと、を有する請求項74に記載の方法。
【請求項86】
前記音の特徴付けに応じて、前記音を強調またはフィルタ除去する前記ステップは、前記音または前記発生源が背景ノイズに関連する場合に、前記音をフィルタ除去するステップを有する請求項85に記載の方法。
【請求項87】
前記音または前記音の前記発生源を特徴付ける前記ステップは、
前記音に対する周波数分布を決定するステップと、
既知の音または音の発生源に対する1つ以上の音響モデルに対して、前記周波数分布を比較するステップと、を有する請求項85に記載の方法。
【請求項88】
前記音または前記音の前記発生源を特徴付けるステップは、前記音または前記音の前記発生源が1つ以上の所定の特徴を有するかどうかを決定するために前記音を分析するステップを有する請求項85に記載の方法。
【請求項89】
前記音が1つ以上の所定の特徴を有すると決定された場合に、電子装置の少なくとも1つの要素を制御することを目的として、少なくとも1つの制御信号を生成するステップを更に有する請求項88に記載の方法。
【請求項90】
前記電子装置はビデオゲームコントローラであり、前記制御信号は、前記ビデオゲームコントローラに対して、前記音の発生源からの音に応じてゲームコマンドを実行させる請求項89に記載の方法。
【請求項91】
前記音の特徴付けに応じて、前記音を強調またはフィルタ除去する前記ステップは、
前記音声信号のノイズ妨害を前記音声信号の残りの成分に対して拡大するステップと、
前記音声信号のサンプリングレートを下げるステップと、
検出信号を定義するために、前記サンプリングレートを下げた前記音声信号に偶数次の導関数を適用するステップと、
前記検出信号の統計平均に従って前記音声信号の前記ノイズ妨害を調整するステップと、を有する請求項74に記載の方法。
【請求項92】
前記電子装置は乳児モニタである請求項74に記載の方法。
【請求項93】
前記電子装置はジョイスティックコントローラを有するビデオゲームユニットであり、前記方法は、
前記音または前記音の発生源が1つ以上の所定の特徴を有すると決定された場合に、前記ビデオゲームユニットの少なくとも1つの要素を制御することを目的として、少なくとも1つの制御信号を生成するステップと、
前記ジョイスティックコントローラにより1つ以上の追加の制御信号を生成するステップと、を更に有する請求項74に記載の方法。
【請求項94】
前記ジョイスティックコントローラにより1つ以上の追加の制御信号を生成する前記ステップは、前記ジョイスティックコントローラにある1つ以上の光源により光信号を生成するステップと、画像キャプチャユニットにより前記光信号を受信するステップと、を有する請求項93に記載の方法。
【請求項95】
光信号を受信する前記ステップは、1つ以上の光源を含む1つ以上の画像をキャプチャするステップと、前記ジョイスティックコントローラの位置または向きを決定するか、前記ジョイスティックコントローラからのテレメトリ信号を復号化するか、この両方を行うために前記1つ以上の画像を分析するステップと、を有する請求項94に記載の方法。
【請求項96】
前記ジョイスティックコントローラにより1つ以上の追加の制御信号を生成する前記ステップは、前記ジョイスティックコントローラにある慣性センサにより位置および/または向きの信号を生成するステップを有する請求項93に記載の方法。
【請求項97】
前記位置および/または向きの信号から決定された位置および/または向きのドリフトを補償するステップを更に有する請求項96に記載の方法。
【請求項98】
ドリフトを補償する前記ステップは、初期位置の値を、前記位置および/または向きの信号から決定された計算された現在の位置の値に設定するステップを有する請求項97に記載の方法。
【請求項99】
ドリフトを補償する前記ステップは、画像キャプチャユニットにより、前記ジョイスティックコントローラの画像をキャプチャするステップと、前記ジョイスティックコントローラの位置を決定するために前記画像を分析するステップと、前記ジョイスティックコントローラの前記位置の現在値を、前記画像の分析から決定された前記ジョイスティックコントローラの前記位置に設定するステップと、を有する請求項97に記載の方法。
【請求項100】
前記慣性センサからの信号内の偽のデータを補償するステップを更に有する請求項97に記載の方法。
【請求項101】
対象音検出装置であって、
2つ以上のマイクロフォンM0,…,MMを有するマイクロフォンアレイと、
各マイクロフォンに結合されており、前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成された複数のフィルタと、
前記マイクロフォンアレイおよび前記複数のフィルタに結合されたプロセッサと、
前記プロセッサに結合されたメモリと、
1つ以上の事前較正された聴取ゾーンに対応して、前記メモリ内に実装されたフィルタパラメータの1つ以上の組と、を有し、フィルタパラメータの各組は、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出するように選択されており、前記所定の聴取ゾーンの外で発生する音をフィルタ除去し、
前記メモリは、プロセッサ実行可能命令の組を格納しており、前記命令は実行されると、前記装置に対して実行時に特定の事前較正された聴取ゾーンを選択させ、その際、前記特定の事前較正された聴取ゾーンに対応するフィルタパラメータの組が前記複数のフィルタに適用され、
これにより、前記装置は、前記特定の事前較正された聴取ゾーン内で発生した音を検出して、前記特定の事前較正された聴取ゾーンの外で発生する音をフィルタ除去できるようになる装置。
【請求項102】
前記1つ以上の事前較正された聴取ゾーンは、複数の異なる事前較正された聴取ゾーンを含む請求項101に記載の装置。
【請求項103】
前記複数の事前較正された聴取ゾーンは約18のセクタを含み、各セクタは約20°の角度幅を有し、これにより、前記複数の事前較正されたセクタは、前記マイクロフォンアレイを取り囲む約360°をなす請求項101に記載の装置。
【請求項104】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、音の発生源を含む事前較正された聴取ゾーンを選択させる1つ以上の命令を有する請求項101に記載の装置。
【請求項105】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、音源が前記初期聴取ゾーン内に存在するか、前記初期聴取ゾーンの特定の側に存在するかを決定させ、前記音源が前記聴取初期ゾーンに存在しない場合に、前記初期聴取ゾーンの前記特定の側にある異なる聴取ゾーンを選択させる1つ以上の命令を有し、前記異なる聴取ゾーンは、前記入力信号の減衰が最適値に最も近いという特徴を有する請求項101に記載の装置。
【請求項106】
実行されると、前記装置に対して、音源が前記初期聴取ゾーン内に存在するか、前記初期聴取ゾーンの特定の側に存在するかを決定させる前記1つ以上の命令は、実行されると、前記入力信号および前記出力信号から、前記入力信号の減衰を計算させ、前記減衰を最適値と比較させる1つ以上の命令を有する請求項105に記載の装置。
【請求項107】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、1つ以上のセクタについて前記入力信号の減衰の値を決定させ、前記減衰が最適値に最も近い聴取ゾーンを選択させる1つ以上の命令を有する請求項101に記載の装置。
【請求項108】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、所定の聴取ゾーンについて、入力信号の減衰がしきい値を下回っているかどうかを決定させる1つ以上の命令を有する請求項101に記載の装置。
【請求項109】
前記プロセッサに結合された画像キャプチャユニットを更に有し、前記1つ以上の聴取セクタは、前記画像キャプチャユニットの視野に対応する聴取ゾーンを有する請求項101に記載の装置。
【請求項110】
前記プロセッサに結合された画像キャプチャユニットと、前記プロセッサに結合された1つ以上のポインティングアクチュエータと、を更に有し、前記ポインティングアクチュエータは、前記プロセッサによって生成された信号に応えて、前記画像キャプチャユニットを視覚方向に向けるように適合されており、前記メモリは、実行されると、前記アクチュエータに対して、前記画像キャプチャユニットを前記特定の事前較正された聴取ゾーンの方向に向けさせるプロセッサ実行可能命令の組を格納している請求項101に記載の装置。
【請求項111】
前記1つ以上の事前較正された聴取ゾーンは、複数の異なる聴取ゾーンを含み、前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、
前記マイクロフォンアレイによって音を検出させ、
前記音の発生源を含む特定の事前較正された聴取ゾーンを識別させ、
前記音または前記音の前記発生源を特徴付けさせ、
前記音の特徴付けに応じて、前記音を強調またはフィルタさせる1つ以上の命令を有する請求項101に記載の装置。
【請求項112】
前記命令の組は、実行されると、前記装置に対して、前記音または前記発生源が関連する背景ノイズである場合に、前記音をフィルタ除去させる1つ以上の命令を有する請求項111に記載の装置。
【請求項113】
前記装置に対して、前記音または前記音の前記発生源を特徴付けさせる前記命令は、実行されると、前記装置に対して、
前記音に対する周波数分布を決定させ、
既知の音または音の発生源に対する1つ以上の音響モデルに対して、前記周波数分布を比較させる命令を有する請求項111に記載の装置。
【請求項114】
前記1つ以上の音響モデルは前記メモリに記憶されている請求項113に記載の装置。
【請求項115】
前記装置に対して、前記音または前記音の前記発生源を特徴付けさせる前記命令は、実行されると、前記装置に対して、前記音が1つ以上の所定の特徴を有するかどうかを決定するために前記音を分析させる命令を有する請求項111に記載の装置。
【請求項116】
前記プロセッサ実行可能命令の組は、実行されると、前記装置に対して、前記音が1つ以上の所定の特徴を有すると決定された場合に、電子装置の少なくとも1つの要素を制御することを目的として、少なくとも1つの制御信号を生成させる1つ以上の命令を更に有する請求項115に記載の装置。
【請求項117】
前記装置はビデオゲームコントローラであり、前記制御信号は、前記ビデオゲームコントローラに対して、前記音の発生源からの音に応じてゲームコマンドを実行させる請求項116に記載の装置。
【請求項118】
前記装置は乳児モニタである請求項101に記載の装置。
【請求項119】
前記プロセッサに結合されたジョイスティックコントローラを更に有する請求項101に記載の装置。
【請求項120】
前記ジョイスティックコントローラは、前記プロセッサと結合された慣性センサを有する請求項119に記載の装置。
【請求項121】
前記慣性センサは加速時計またはジャイロスコープを有する請求項120に記載の装置。
【請求項122】
前記プロセッサ実行可能命令は、実行されると、前記慣性センサからの位置および/または向きの信号から決定された位置および/または向きのドリフトを補償させる1つ以上の命令を有する請求項120に記載の装置。
【請求項123】
移動を補償することは、初期位置の値を、前記位置および/または向きの信号から決定された計算された現在の位置の値に設定することを有する請求項122に記載の装置。
【請求項124】
移動を補償することは、画像キャプチャユニットにより、前記ジョイスティックコントローラの画像をキャプチャすることと、前記ジョイスティックコントローラの位置を決定するために前記画像を分析することと、前記ジョイスティックコントローラの前記位置の現在値を、前記画像の分析から決定された前記ジョイスティックコントローラの前記位置に設定することと、を有する請求項122に記載の装置。
【請求項125】
前記ジョイスティックコントローラは1つ以上の光源を有し、前記装置は画像キャプチャユニットを更に有し、前記プロセッサ実行可能命令は、実行されると、前記画像キャプチャユニットに対して、画像キャプチャ装置の前の視野をモニタさせ、前記視野内で前記光源を識別させ、前記光源から発せられる光の変化を検出させ、前記変化の検出に応えて、前記プロセッサへの入力コマンドを発生させる1つ以上の命令を有する請求項119に記載の装置。
【請求項126】
前記ジョイスティックコントローラは1つ以上の光源を有し、前記装置は画像キャプチャユニットを更に有し、前記プロセッサ実行可能命令は、実行されると、前記画像キャプチャユニットに対して、前記光源から発せられる光の変化を検出させ、前記ジョイスティックコントローラの位置または向きを決定するか、前記ジョイスティックコントローラからのテレメトリ信号を復号化するか、この両方を行うために前記1つ以上の画像を分析させる1つ以上の命令を有する請求項119に記載の装置。
【請求項127】
前記光源は、線形のアレイに構成された2つ以上の光源を有する請求項126に記載の装置。
【請求項128】
前記光源は、線形のアレイに構成された2つ以上の光源を有する請求項126に記載の装置。
【請求項129】
前記光源は、前記画像キャプチャユニットが前記光源を見やすいように、前記ジョイスティックコントローラの2つ以上の異なる側に配置されている請求項126に記載の装置。
【請求項130】
前記ジョイスティックコントローラに取り付けられた慣性センサを更に有し、前記慣性センサからの信号、および前記1つ以上の光源をトラッキングすることにより前記画像キャプチャユニットから生成された信号が、ゲームシステムへの入力として使用される請求項126に記載の装置。
【請求項131】
前記ジョイスティックコントローラに取り付けられた慣性センサを更に有し、前記慣性センサからの信号は、トラッキング情報入力の一部となり、前記1つ以上の光源をトラッキングすることにより前記画像キャプチャユニットから生成された信号は、前記トラッキング情報入力の別の部分となる請求項126に記載の装置。
【請求項132】
前記プロセッサ実行可能命令は、実行されると、前記慣性センサからの信号内の偽のデータを補償させる1つ以上の命令を有する請求項120に記載の装置。
【請求項133】
2つ以上のマイクロフォンM0,…,MMを有するマイクロフォンアレイを使用する標的音検出のための方法であって、各マイクロフォンは、複数のフィルタと結合されており、前記フィルタは前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成されている方法を実行する計算機実行可能命令が実装されている計算機可読媒体であって、前記方法は、
1つ以上の対応する事前較正された聴取ゾーンを決定するために、前記複数のフィルタに対して、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出して、前記所定の聴取セクタの外で発生する音をフィルタ除去するように選択されたフィルタパラメータの1つ以上の組を事前較正するステップと、
特定の事前較正された聴取ゾーンに対応するフィルタ係数の組を前記複数のフィルタに適用することによって、実行時に、前記特定の事前較正された聴取ゾーンを選択するステップと、を有し、これにより、前記マイクロフォンアレイが、前記特定の聴取ゾーン内で発生した音を検出して、前記特定の聴取ゾーンの外で発生する音をフィルタ除去することができる計算機可読媒体。
【請求項134】
コンピュータプログラムとの対話機能中に音をキャプチャする装置であって、
音声キャプチャユニットを有し、前記音声キャプチャユニットは、1つ以上の音源を識別するように構成されており、前記音声キャプチャユニットは、聴取ゾーンを決定するために分析されうるデータを生成し、前記聴取ゾーンにおいて音が処理されて、前記焦点ゾーンの外の音がほぼ除去され、前記焦点ゾーンについてキャプチャされ、処理された音が、前記コンピュータプログラムとの対話機能に使用される装置。
【請求項135】
前記音声キャプチャユニットはマイクロフォンのアレイを有し、前記マイクロフォンのアレイは、前記1つ以上の音源からの音を受け取るように構成されており、前記1つ以上の音源の前記音は、前記マイクロフォンのそれぞれへの音経路を定義している請求項134に記載の装置。
【請求項136】
前記音経路は、画像および音をキャプチャするために、前記装置に対する前記1つ以上の音源のそれぞれの方向の計算を可能にする特定の遅延を含む請求項135に記載の装置。
【請求項137】
前記アレイ内のマイクロフォン同士の間隔は、約0.5cm〜約2cmである請求項135に記載の装置。
【請求項138】
音を求めてマイクロフォンアレイによってモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
前記聴取ゾーンからの音を記憶するように構成された記憶モジュールと、
前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発生する音を検出するように構成された音検出モジュールと、を更に有する請求項134に記載の装置。
【請求項139】
音を求めてモニタすべき聴取ゾーンを検出するように構成された領域検出モジュールと、
視覚装置によってモニタされる視野を検出するように構成された視野検出モジュールと、
前記視野に基づいて前記聴取ゾーンを調整するように構成された領域調整モジュールと、
前記聴取ゾーンから発せられた音を検出するように構成された音検出モジュールと、を更に有する請求項134に記載の装置。
【請求項140】
音を求めてモニタすべき初期聴取ゾーンを検出するように構成された領域検出モジュールと、
前記初期聴取ゾーンから発せられた音を検出し、前記音の位置を検出するように構成された音検出モジュールと、
前記音の前記位置に基づいて前記初期聴取ゾーンを調整し、前記音の前記位置を含む調整された聴取ゾーンを形成するように構成された領域調整モジュールと、を更に有する請求項134に記載の装置。
【請求項141】
前記音声キャプチャユニットは、2つ以上のマイクロフォンを有するマイクロフォンアレイと、
各マイクロフォンに結合されており、前記マイクロフォンによって検出された音に対応する入力信号をフィルタして、フィルタされた出力を生成するように構成された複数のフィルタと、を有する請求項134に記載の装置。
【請求項142】
前記マイクロフォンアレイおよび前記複数のフィルタに結合されたプロセッサと、
前記プロセッサに結合されたメモリと、
1つ以上の事前較正された聴取ゾーンに対応して、前記メモリ内に実装されたフィルタパラメータの1つ以上の組と、を更に有し、フィルタパラメータの各組は、所定の聴取ゾーン内で発生した音に対応する前記入力信号の一部を検出するように選択されており、前記所定の聴取ゾーンの外で発生する音をフィルタ除去し、
前記メモリは、プロセッサ実行可能命令の組を格納しており、前記命令は実行されると、前記装置に対して実行時に特定の事前較正された聴取ゾーンを選択させ、その際、前記特定の事前較正された聴取ゾーンに対応するフィルタパラメータの組が前記複数のフィルタに適用され、
これにより、前記装置は、前記特定の事前較正された聴取ゾーン内で発生した音を検出して、前記特定の事前較正された聴取ゾーンの外で発生する音をフィルタ除去できるようになる請求項141に記載の装置。
【請求項143】
前記コンピュータプログラムはゲームプログラムである請求項134に記載の装置。
【請求項144】
コンピュータプログラムとの対話機能中の選択的な音源聴取のための方法であって、
2つ以上の音源キャプチャマイクロフォンにおいて1つ以上の音源からの入力を受信するステップと、
前記1つ以上の音源のそれぞれの前記受信された入力について方向を識別するステップと、
聴取ゾーンの識別された方向にない音源をフィルタ除去するステップと、を有し、前記聴取ゾーンは前記コンピュータプログラムとの前記対話機能のために前記音源を提供している方法。
【請求項145】
方向を識別して、音源をフィルタ除去する前記ステップは、
初期聴取ゾーンを検出するステップと、
マイクロフォンアレイによって、キャプチャされた音をキャプチャするステップと、
前記キャプチャされた音および前記初期聴取ゾーンに基づいて、前記初期聴取ゾーン内の音を含む初期音を識別するステップと、
前記初期聴取ゾーンを調整して、前記調整された聴取ゾーンを形成するステップと、
前記キャプチャされた音および前記調整された聴取ゾーンに基づいて、前記調整された聴取ゾーン内の音を含む調整された音を識別するステップと、を有する請求項144に記載の方法。
【請求項146】
前記2つ以上のマイクロフォンによって受信された前記入力が1つ以上の所定の特徴を有するかどうかを決定するために、前記入力を分析するステップを更に有する請求項144に記載の方法。
【請求項147】
前記音が1つ以上の所定の特徴を有すると決定された場合に、前記コンピュータプログラムの少なくとも1つの要素を制御するように構成された少なくとも1つの制御信号を生成するステップを更に有する請求項146に記載の方法。
【請求項148】
方向を識別して、音源をフィルタ除去する前記ステップは、
音を求めてモニタすべき初期領域を表す初期聴取ゾーンを検出するステップと、
視覚装置の視野を検出するステップと、
前記視覚装置の前記視野を前記初期聴取ゾーンの前記初期領域と比較するステップと、
前記初期聴取ゾーンを調整して、前記視野と前記初期領域との比較に基づいて調整された領域を含む前記調整された聴取ゾーンを形成するステップと、を有する請求項144に記載の方法。
【請求項149】
方向を識別して、音源をフィルタ除去する前記ステップは、
視覚装置からの画像を検出するステップと、
前記画像と関連する領域から発せられた音を検出するように構成された聴取ゾーンを形成するステップと、
前記聴取ゾーンから発せられた音をキャプチャするステップと、
前記画像に基づいて前記聴取ゾーンを動的に調整するステップと、を有する請求項144に記載の方法。
【請求項150】
前記聴取ゾーンは、フィルタ係数の組によって表現される請求項144に記載の方法。
【請求項151】
前記フィルタ係数の組は事前較正された聴取ゾーンに対応している請求項150に記載の方法。
【請求項152】
ジョイスティックコントローラを有するビデオゲームユニットにおいて動作を制御するための方法であって、
前記ジョイスティックコントローラにより慣性信号および/または光信号を生成するステップと、
前記慣性信号および/または光信号を使用して前記ジョイスティックコントローラの位置および/または向きをトラッキングするステップと、を有する方法。
【請求項153】
前記慣性信号および/または光信号を生成する前記ステップは、前記ジョイスティックコントローラに取り付けられた加速度計またはジャイロスコープにより慣性信号を生成するステップを有する請求項152に記載の方法。
【請求項154】
前記慣性信号および/または光信号を生成する前記ステップは、前記ジョイスティックコントローラに取り付けられた1つ以上の光源により光信号を生成するステップを有する請求項152に記載の方法。
【請求項155】
前記ジョイスティックコントローラの位置および/または向きをトラッキングする前記ステップは、前記光信号を含む1つ以上の画像をキャプチャするステップと、前記1つ以上の画像から前記光源の移動をトラッキングするステップと、を有する請求項154に記載の方法。
【請求項156】
前記慣性信号および/または光信号を生成する前記ステップは、前記ジョイスティックコントローラに取り付けられた加速度計またはジャイロスコープにより慣性信号を生成するステップと、前記ジョイスティックコントローラに取り付けられた1つ以上の光源により光信号を生成するステップと、を有する請求項152に記載の方法。
【請求項157】
前記慣性信号と前記光信号の両方が前記ゲームユニットへの入力として使用される請求項156に記載の方法。
【請求項158】
前記慣性信号は、前記ゲームユニットへのトラッキング情報入力の一部となり、前記光信号は前記トラッキング情報入力の別の部分となる請求項157に記載の方法。
【請求項159】
前記慣性信号内の偽のデータを補償するステップを更に有する請求項152に記載の方法。
【請求項160】
前記光信号からテレメトリ信号を符号化し、前記光信号から前記テレメトリ信号を復号化して、前記復号化されたテレメトリ信号に応じてゲームコマンドを実行するステップを更に有する請求項152に記載の方法。
【請求項161】
ビデオゲームにおける動作を制御するための装置であって、
プロセッサと、
前記プロセッサに結合されたメモリと、
前記プロセッサに結合され、慣性センサおよび光源を有するジョイスティックコントローラと、
前記メモリに記憶された1つ以上のプロセッサ実行可能命令と、を有し、前記命令は、前記プロセッサによって実行されると、前記装置に対して、前記慣性センサからの慣性信号および/または前記光源からの光信号を使用して前記ジョイスティックコントローラの位置および/または向きをトラッキングさせる装置。
【請求項162】
前記慣性センサは、前記ジョイスティックコントローラに取り付けられた加速度計またはジャイロスコープである請求項65に記載の装置。
【請求項163】
前記光源は、前記ジョイスティックコントローラに取り付けられた1つ以上の発光ダイオードを有する請求項65に記載の装置。
【請求項164】
前記プロセッサに結合された画像キャプチャユニットを更に有し、前記1つ以上のプロセッサ実行可能命令は、実行されると、前記画像キャプチャユニットに対し、前記光信号を含む1つ以上の画像をキャプチャさせる1つ以上の命令と、実行されると、前記1つ以上の画像からの前記光源の移動をトラッキングさせる1つ以上の命令を有する請求項67に記載の装置。
【請求項165】
前記慣性センサは、前記ジョイスティックコントローラに取り付けられた加速度計であり、光源は、前記ジョイスティックコントローラに取り付けられた1つ以上の発光ダイオードを有する請求項65に記載の装置。
【請求項166】
前記加速度計からの慣性信号と前記発光ダイオードからの光信号の両方が、前記ビデオゲームユニットへの入力として使用される請求項69に記載の装置。
【請求項167】
前記慣性信号は、前記ゲームユニットへのトラッキング情報入力の一部となり、前記光信号は前記トラッキング情報入力の別の部分となる請求項70に記載の装置。
【請求項168】
前記1つ以上のプロセッサ実行可能命令は、実行されると、前記慣性信号内の偽のデータを補償させる1つ以上の命令を有する請求項71に記載の装置。
【請求項169】
ジョイスティックコントローラを有するビデオゲームユニットにおいて動作を制御するための方法であって、
前記ジョイスティックコントローラに取り付けられた光源のアレイにより1つ以上の光信号を生成するステップと、
前記ジョイスティックコントローラの位置および/または向きをトラッキングするステップと、
前記1つ以上の光信号に1つ以上のテレメトリ信号を符号化するステップと、
前記ジョイスティックコントローラの前記位置および/または向きに応えて、および/または前記1つ以上の光信号に符号化されたテレメトリ信号に応えて、1つ以上のゲーム命令を実行するステップと、のうちの少なくとも1つを有する方法。
【請求項170】
前記光源は、線形のアレイに構成された2つ以上の光源を有する請求項169に記載の方法。
【請求項171】
前記光源は、矩形または弓状に構成された複数の光源を有する請求項169に記載の方法。
【請求項172】
前記光源は、前記画像キャプチャユニットが前記光源を見やすいように、前記ジョイスティックコントローラの2つ以上の異なる側に配置されている請求項169に記載の方法。
【請求項173】
ビデオゲームにおける動作を制御するための装置であって、
プロセッサと、
前記プロセッサに結合されたメモリと、
前記プロセッサに結合され、光源のアレイが取り付けられたジョイスティックコントローラと、
前記メモリに記憶された1つ以上のプロセッサ実行可能命令と、を有し、前記命令は、前記プロセッサによって実行されると、前記装置に対して、前記光源のアレイにより1つ以上の光信号を生成させ、
前記ジョイスティックコントローラの位置および/または向きをトラッキングさせ、
前記1つ以上の光信号に1つ以上のテレメトリ信号を符号化させ、
前記ジョイスティックコントローラの前記位置および/または向きに応えて、および/または前記1つ以上の光信号に符号化されたテレメトリ信号に応えて、1つ以上のゲーム命令を実行させる、のうちの少なくとも1つを実行させる装置。
【請求項174】
前記光源のアレイは、線形のアレイに構成された2つ以上の光源を有する請求項173に記載の装置。
【請求項175】
前記光源のアレイは、矩形または弓状に構成された複数の光源を有する請求項173に記載の装置。
【請求項176】
前記光源は、前記画像キャプチャユニットが前記光源を見やすいように、前記ジョイスティックコントローラの2つ以上の異なる側に配置されている請求項173に記載の装置。
【請求項177】
ビデオゲームユニット用のコントローラであって、
前記コントローラに取り付けられ、前記ビデオゲームユニットに光信号を提供して、画像キャプチャユニットによる前記光源のトラッキングを容易にするように、および/または前記光信号によって前記ゲームユニットに入力チャネルを提供するように適合された1つ以上の光源であって、の光源と、
前記コントローラに取り付けられ、前記ジョイスティックコントローラの位置または向きに関する信号を前記ゲームユニットに提供するように構成された慣性センサと、
前記コントローラに取り付けられ、前記コントローラをトラッキングするためおよび/または前記音声信号によって前記ビデオゲームユニットに入力チャネルを提供するために、前記ゲームユニットへの音声信号を生成するように構成されたスピーカと、を有するコントローラ。
【図1】
【図2】
【図3A】
【図3B】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11A】
【図11B】
【図12A】
【図12B】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23A】
【図23B】
【図23C】
【図24】
【図25A】
【図25B】
【図25C】
【図25D】
【図25E】
【図25F】
【図25G】
【図25H】
【図25I】
【図25J】
【図26】
【図27】
【図2】
【図3A】
【図3B】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11A】
【図11B】
【図12A】
【図12B】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23A】
【図23B】
【図23C】
【図24】
【図25A】
【図25B】
【図25C】
【図25D】
【図25E】
【図25F】
【図25G】
【図25H】
【図25I】
【図25J】
【図26】
【図27】
【公表番号】特表2008−542798(P2008−542798A)
【公表日】平成20年11月27日(2008.11.27)
【国際特許分類】
【出願番号】特願2008−510282(P2008−510282)
【出願日】平成18年5月4日(2006.5.4)
【国際出願番号】PCT/US2006/017483
【国際公開番号】WO2006/121896
【国際公開日】平成18年11月16日(2006.11.16)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
【出願人】(395015319)株式会社ソニー・コンピュータエンタテインメント (871)
【Fターム(参考)】
【公表日】平成20年11月27日(2008.11.27)
【国際特許分類】
【出願日】平成18年5月4日(2006.5.4)
【国際出願番号】PCT/US2006/017483
【国際公開番号】WO2006/121896
【国際公開日】平成18年11月16日(2006.11.16)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
【出願人】(395015319)株式会社ソニー・コンピュータエンタテインメント (871)
【Fターム(参考)】
[ Back to top ]