説明

位置把握、追跡および分離のためのオーディオビデオセンサー融合装置および融合方法

【課題】 オーディオおよびビデオセンサーを融合して、複数の音源として存在する特定物体の正確な位置および方向を把握して追跡し、この音源を分離する装置および方法を提供する
【解決手段】 異なる方向から受信した複数のサウンドが追跡する物体のものである尤度を表す音声尤度を求める音声尤度モジュールと、映像内の異なる方向に配置する複数のイメージが追跡する物体である尤度を表す映像尤度を決定する映像尤度モジュールと、音声尤度と映像尤度とが一致するかどうかを判断し、音声尤度と映像尤度とが一致すると判断すれば、音声尤度および映像尤度の決定した対を使用して、物体を認識して追跡し、一致しなければ、前記音源またはイメージ源には追跡する物体が存在しないと判断する、認識および追跡モジュールとを備えることを特徴とする装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象物を検出する装置およびその方法に関し、より詳細には、同時に空間上に分離している複数の対象物をオーディオおよびビデオセンサーを用いて検出し、その対象物の位置を把握して追跡を可能にする方法および装置に関する。
【背景技術】
【0002】
一般に、対象物を検出する場合、従来の装置および方法は、映像信号または音声信号に依存している。音声追跡に対しては、TDE(time-delay estimates)が使用されている。しかしながら、周囲のノイズおよび反響に対処するために、最尤法(maximum likelihood approach)および位相変換から重み関数を求めても、TDEに基づく技術は、明示的な方向性ノイズに対して脆弱である。
【0003】
一方、映像追跡に対しては、物体検出は非特許文献1に記述されているハウスドルフ距離(Hausdorff Distance)を使用して、イメージを比較することで行われる。この方法は、スケーリングや変形などで簡単、かつ強固に処理できるが、多様なサイズについて任意の候補イメージを比較する場合に相当な時間を要する。
【0004】
また、他の対象物から出るスピーチ/サウンドが重なる場合に、対象物を分離および検出することに問題が生じる。重なった音声においては、非特許文献2で提示したように、音声を話者ごとに分割することが重要な位置を占める。マイクロフォンアレイを利用した重なった音声の分割に対する結果は、両耳暗黙信号分離、二重スピーカーHMM(Hidden Markov Model)およびTDE(Time Delay Estimates)をもって話者位置をモデリングするために、ガウス分布で具体化されたスピーチ/サイレント比率を使用することで得られる。このような結果の例は、非特許文献3、非特許文献4および非特許文献5に記載されている。5つのビデオストリームおよびマイクロフォンアレイから出るパノマライメージを利用した話者追跡に関しては、非特許文献6および非特許文献7に記載されている。これら方法は、同時話者分割の両極端にあり、一方は、音声情報のみに依存する手法であり、他方は大部分を映像信号に依存している。
【0005】
しかし、前記の何れの接近法も、重なった音声を分離するために映像および音声入力を効果的に使用していない。さらに、Y.ChenおよびY.Ruiにより開示された方法は、受信したすべての音声データを記録するため、多くのメモリ容量を使用し、分離した音声がどの話者から出たかを識別するように、映像と音声入力を使用して同時に発生した複数の音声を個々に分割することは不可能である。
【非特許文献1】D. P. Huttenlocher, G. A. Klanderman and W. J. Rjcklidge, "Comparing Image using the Hasusdorff Distance under Translation," in Proc. IEEE Int. Conf. CVPR, 1992, pp. 654 to 656
【非特許文献2】E. Shirberg, A. Stolcke and D. baron, "Obeservations on Overlap: Findings and Implications for Automatic Processing of Multi-Party Coversation" Proc. Eruosppech, 2001
【非特許文献3】C.Choi, "Read-tiem Binaural Blind Source Separation" Proc. Int. Symp. ICA and BSS, pp. 567 to 572
【非特許文献4】G. Lathoud and I. A. McCowna, "Location Based Speaker Segmentation," Proc. ICASSP, 2003
【非特許文献5】G. Lathoud, I. A. MCCowan and D. C. Moore, "Segmenting Multiple Concurrent Speakers using Microphone Arrays," Proc.Eurosppech,2003
【非特許文献6】R. Cutler et. al., "Distributed Meetings: A Meeting Capture and Broadcasting System", Proc. ACMInt. Conf. Multimedia, 2002
【非特許文献7】Y. Chen and Y. Rui, "Realtime Speaker Tracking using Particle filter Sensor Fusion", Proc. of the IEEE, vol.92 No. 3, pp. 485 to 494, 2004
【発明の開示】
【発明が解決しようとする課題】
【0006】
本発明が達成しようとする技術的課題は、オーディオおよびビデオセンサーを融合して、複数の音源として存在する特定の物体について正確な位置および方向を把握して追跡し、この音源を分離する装置および方法を提供することにある。
【課題を解決するための手段】
【0007】
前記技術的課題を解決するための本発明に係る装置は、受信した音および映像を使用して物体を認識および追跡する装置において、異なる方向から受信した複数のサウンドのそれぞれに対して、前記サウンドが追跡する物体のものである尤度を表す音声尤度を求める音声尤度モジュールと、映像内の異なる方向に配置された複数のイメージのそれぞれに対し、前記映像内の前記イメージが追跡される物体である尤度を表す映像尤度を決定する映像尤度モジュールと、前記音声尤度と前記映像尤度とが一致するかを判断し、前記音声尤度と前記映像尤度とが一致すると判断すれば、前記音声尤度および映像尤度の対を使用して、前記物体を認識して追跡し、前記音声尤度と前記音声尤度が一致しなければ、前記音源またはイメージ源には、追跡される物体が存在しないと判断する認識および追跡モジュールと、
を備える。
【0008】
前記の技術的課題を解決するための本発明に係る方法は、音声および映像データを受信する少なくとも一つのコンピュータを使用して、物体を追跡および認識する方法において、異なる方向から受信した複数のサウンドのそれぞれに対し、前記少なくとも一つのコンピュータで、前記サウンドが追跡される物体のものである尤度を表す音声尤度を求めるステップと、前記映像内の異なる方向に配置された複数イメージのそれぞれに対し、前記少なくとも一つのコンピュータで、前記映像内の前記イメージが追跡される物体である尤度を表す映像尤度を求めるステップと、前記音声尤度と前記映像尤度とが一致するかを判断し、前記音声尤度と前記映像尤度とが一致すると判断すれば、前記少なくとも一つのコンピュータで、前記音声尤度および映像尤度の対を使用して、前記物体のうち該当する一つを認識および追跡するステップと、前記音声尤度と前記映像尤度とが一致しなければ、前記少なくとも一つのコンピュータで、前記音源またはイメージ源は、追跡する物体ではないと認識するステップと、を含む。
【発明の効果】
【0009】
本発明の一実施形態に係る方法は、他の方法に比べて幾つかの長所を有する。第一に、前記方法が精巧に測定された調整ベクトルを有するサブ空間方法が全体システムに具体化されるため、ノイズ耐性が強い。第二に、人の上半身に対する三つの形状モデルに基づくものであり、人をその上半身で認識することは、体全体で識別するよりも好都合である。なぜなら、散乱した環境においては、人の下半身は他の対象と度々誤認されるためである。しかしながら、環境によっては下半身を人の認識に使用してよいことは言うまでもない。第三に、前記方法は、プロファイルを人間形状モデルとして採用するため、姿勢予測が可能である。このような姿勢情報は、特に、特定フィルタリングに有効であるが、他の方法を使用してもよい。第四に、調整ベクトル不一致に強いが、実際調整ベクトルが現実で利用できなくても、対象物の音声を相殺する問題点は、対角線ローディング方法を有するターゲットフリー共分散マトリックスにより克服し、順に、これは、本発明の一実施形態によって提供される正確なセグメンテーションにより可能である。
【0010】
また、本発明の一実施形態に係る装置の長所は、直観的でかつ簡単なセンサーの混合ストラテジーであり、ここで前記装置は、オーディオビデオのセンサー混合を利用して所望の対象をより正確に追跡するために、活動する話者から拡声器および人の絵を分離して維持できる。さらに、その性能は、適応クロスチャンネル干渉相殺により更に向上するため、その結果は、大容量語彙の連続音声認識システム、または自動会議記録を行う遠距離トークのために使用される書き取り機械に直接適用可能である。さらに、この装置は音声向上器だけでなく、終点検出器としても作動する。しかし、他の実施形態および長所は、前記内容から理解できるということは言うまでもない。
【0011】
また、如何なる実施形態で要求されるものではないが、図2に示す方法またはその一部分は、少なくとも汎用または専用のコンピュータを使用して、コンピュータで読み取り可能な記録媒体にコード化された一つ以上のコンピュータプログラムを使用して実装される。また、カメラを利用した視覚追跡について記載したが、360゜パイロセンサーのような検出手段を使用してもよい。
【発明を実施するための最良の形態】
【0012】
本発明の実施形態の構成および動作を、添付図面を参照して詳細に説明する。図面の構成要素に参照番号を付与するにあたり、同一構成要素に対しては他の図面上にあっても同一参照番号を付与した。
【0013】
図1は、本発明の一実施形態によって、位置把握および追跡能力のあるオーディオおよびビデオセンサーを有するロボットのブロック図を示す図面である。
図1を参照すると、ロボットは、映像システム100と、音声システム200と、コンピュータ400とから構成される。本発明の如何なる態様において必要とするものではないが、図1に示すロボットは、映像システム100および音声システム200からの入力によりコンピュータ400によって制御されるロボット要素300を更に備える。ロボット要素300において、映像システム100および音声システム200は、コンピュータ400と共に統合される必要はなく、別個に配置されてもよいということは言うまでもない。
本発明の一実施形態に係る装置はロボットであり、未知の環境で動作または停止が可能である。ロボットは、周囲環境で観察される特徴を収集し、かつその制御を行うことができる。制御および観察順序に基づき、本発明の実施形態に係るロボットは、少なくとも1つの対象物を検出し、その位置を把握して追跡でき、更に複数の対象物を追跡し、かつ応答することができる。本発明の他の実施形態において、ロボットは複数の物体のうち、各対象物の様相、すなわち、目標話者のそれぞれの音声および顔に基づいて様相を分離できる。更に他の本発明の実施形態において、物体とロボットはx−y平面にあると見なされる。しかし、この方法は、本発明の一実施形態において、3次元空間まで容易に拡張できることは言うまでもない。
【0014】
本実施形態に係る装置および方法は、視覚および音声上の特徴を有する複数の物体を追跡かつ隔離することによって、航空機、自動車、船などの衝突防止や、これらのナビゲーションを行うために用いることができ、固定された設備に適用する事も可能である。
【0015】
映像システム100は、全方向カメラ110を備える。全方向カメラ110の出力は、USB 2.0インターフェース120を介してコンピュータ400と連結される。図示するように、全方向カメラ110は、図3Aに示すような360゜視野を提供する。しかし、カメラ110は、視野が180゜未満のテレビ会議用のビデオカメラのように、更に視野が制限されていてもよい。あるいは、360゜パイロセンサーのような赤外線検出手段を備えたカメラでもよい。また、複数の視野が制限されたビューカメラおよび/または全方向カメラを、図3Aに示すような1つの平面および追加された平面で視野を広げるために使用できる。さらに、本発明の一実施形態によって、インターフェースの他のタイプを、USB2.0インターフェース120の代わりに用いたり、あるいは追加してたりして使用してもよい。また、コンピュータ400との接続は有線または無線接続で確立することができる。
【0016】
音声システム200は、8個のマイクロフォン210を有するマイクロフォンアレイを備える。8個のマイクロフォンは、カメラ110の中心点を含む装置の中心点に比例する角関数として均等に空間上に広がるように、カメラ110の中心を含む中心位置周辺に45゜の間隔でそれぞれ配置される。しかし、他の構成も可能であり、中心位置にマイクロフォンが配置されなくてもよく、その代りに、所定の位置の空間壁に位置してもよい。マイクロフォン210の数は実施形態に応じて異なってもよく、マイクロフォン210は、実施形態に応じて異なる角度に配置されてよい。
【0017】
それぞれのマイクロフォン210は、それぞれの対応するチャンネルに出力をする。それにより、図1に示すマイクロフォンアレイは、8個のアナログオーディオデータチャンネルを出力する。アナログ−デジタル変換器220は、アナログオーディオデータを受信してデジタル化して、8個のデジタル化されたオーディオデータチャンネルを提供する。デジタル化された8個のチャンネルオーディオデータは、変換器220から出力され、USBインターフェース230を介してコンピュータ400で受信される。本発明の実施形態によって、インターフェースの他の形態がUSBインターフェース230に代わるか、または追加して使用されてもよく、有線および/または無線で接続される。また、1つ以上のマイクロフォン210は、該当するデジタルオーディオチャンネルを直接出力できる場合(すなわち、デジタルマイクロフォンを使用した場合)、アナログ−デジタル変換器220を使用する必要はない。
【0018】
コンピュータ400は、以下で説明する本発明の一実施形態において、図2に示す方法を実行する。本発明の実施形態に係るコンピュータ400は、ペンティアム(登録商標)IV 2.5GHzのシングルボードコンピュータである。しかし、本発明の実施形態において、異なるタイプの汎用または専用コンピュータ、あるいは複数のコンピュータおよびプロセッサを使用して実装可能なことは言うまでもない。
【0019】
図1に示す一実施形態で、前記装置は、検出された対象物に反応して動くロボットと共に使用される。コンピュータ400の出力は、RS232Cインターフェース330からモータコントローラ320を経てロボット要素300に提供される。モータコントローラ320は、コンピュータ400の指示によってロボットが動くように、2つのモータ310を制御する。このような方法で、コンピュータ400は、コンピュータ400により処理された音声および映像データによって、他の対象物と区別される認識音声によって特定の対象物を追跡するようにロボットを制御できる。しかし、異なる個数のモータを、ロボットの機能により使用してよいことは言うまでもない。このようなロボットの例は限定されるものではないが、家庭用ロボット、ロボット機能付き設備、産業用ロボットおよびおもちゃなどが挙げられる。
【0020】
モータ310は、必ずしもロボットに内蔵される必要はなく、その代りに、テレビで放送するミーティングにおけるそれぞれの話者、収録されるコンサートでの歌手、テレビ会議での話者にそれぞれをフォーカスするために、外部カメラ(図示せず)を制御するか、または商店の周りをうろつく不信人物や侵入者を検出するために、家または事業場の保安システムから検出された物体に焦点を合わせて追跡するように外部カメラを制御してよい。
【0021】
図2は、本発明の1実施形態によって、コンピュータ400により行われる方法をフローチャートで示す。ビデオカメラ110の入力は、映像システム100から受信され、コンピュータ400は、後ほど詳述する数式27を利用して、多数の人を視覚的に検出する(ステップ500)。受信されたイメージからコンピュータ400は、それぞれの潜在的対象物600、610、620、630、640が、下式28を使用して、「人」らしさを表す尤度を計算する(ステップ510)。
【0022】
例えば、図3Aに示すように、受信映像イメージとして、追跡される複数の潜在的対象物600、610、620、630、640が存在する。図示する例で対象物は、人であるかどうかあらかじめ選択される。第一対象物600はオーディオスピーカーであって、これはオーディオノイズを提供するが、人として識別される映像入力イメージは提供しない。対象物620、630、640は、何れも潜在的な人であり、それぞれを、コンピュータ400によって追跡する必要がある。対象物610は、人間の可能性がある形状をした視覚ノイズを提供する写真であるが、これは、コンピュータ400により音声ノイズを提供するものではないと解釈される。
【0023】
図3Aのイメージは、図3Bおよび図3Cに示す二つのサブイメージに分割される。図3Bのエッジイメージは、図3Aの写真から検出される。図示する例で、エッジイメージは、人の上半身の所定形態だけでなく、所定個数の姿勢に基づく。これについては、以下で詳細に説明する。図3Bに示すように、人の上半身は、写真610および対象物620、630、640のエッジイメージとして示されるが、対象物600のエッジイメージについてははっきりと認識できない。これにより、コンピュータ400は、写真610および対象物620、630、640に対するエッジイメージが、図4Bに示す映像尤度グラフから分かるように、人であることをより容易に検出する。
【0024】
さらに正確に人を検出するために、第二サブイメージが、本発明に係る実施形態によって使用される。特に、コンピュータ400は、人間と人間ではないものとを区別するために、色(すなわち、皮膚色)を検出する。図3Cに示すように、コンピュータ400は、対象物620、630、640を人間として識別できる可能性を高めるために、対象物620、630、640の皮膚色のように、皮膚色に基づいて顔および手を把握する。
【0025】
皮膚色は、写真に対するブロブ(blob)に基づくが、ブロブはコンピュータ400により写真が人間として認識できる可能性を高める。しかし、オーディオスピーカー600は、図3Cで有効な皮膚色が足りなく、図3Bで準拠しないエッジイメージを有するため、人として登録されない。
【0026】
また、如何なる実施形態で要求される訳ではないが、第二サブイメージで認識された特徴は、検出されたエッジイメージがあらかじめ選択されたエッジイメージと非常に密接に一致するように、第1サブイメージのエッジイメージを正規化するのに使用される。例として、図3Cに示すブロブの位置は、図3Bのエッジイメージで手と顔の位置と、あらかじめ選択されたエッジイメージのサイズが非常に近似して一致するように、コンピュータ400に保存された身体および姿勢のイメージを一致させるために使用されるか、または図3Bおよび図3Cに示す第一サブイメージおよび第二サブイメージを2つとも使用して、検出結果を向上させるのに使用される。
【0027】
したがって、ステップ510でコンピュータ400は、図3Bに示すエッジイメージおよび図3Cに示すブロブイメージに基づいて映像尤度を計算し、後ほど詳述する相対度の関数として、図4Bに示す結合された映像尤度イメージを生成する。特に、図4Bに示すように、コンピュータが識別した対象物620、630、640および写真610は、追跡される可能性のある人として何れも識別されるが、オーディオスピーカー600は、追跡される人(対象)として識別されない。
【0028】
図2の方法を使用して音声尤度を決定するために、音声システム200からコンピュータにより入力されるマイクロフォンアレイは、ノイズの位置を決定するために、ビームフォーミング技術を使用して受信角度の関数としてノイズを追跡するが、これについては後ほど詳述する。受信された音声データは、後記の数式20を利用して単一のサブ空間で計算され(ステップ520)、オーディオデータが人間である尤度は、後記の数式26を利用して決定される(ステップ530)。
【0029】
図4Aに示すように、例えば、コンピュータ400は、オーディオスピーカーだけでなく、対象物630、640もノイズを提供すると認識する。コンピュータ400は、オーディオスピーカー600および対象物630、640は追跡するべき潜在的な人間として認識する。
ステップ540で、コンピュータ400は、後記の数式31を利用して、ステップ530で検出された音声対象物、およびステップ510で検出された映像対象物が追跡されるべき人であるか否かを決定するために、映像および音声尤度を組み合わせる。さらに、映像および音声尤度は方向情報を含むため、それぞれの対象物は位置関数として認識される。
【0030】
図4Cに示す例のように、コンピュータ400は、ステップ530を行うことにより、現在話している人である対象物630、640を区別できる。それぞれの対象物630、640は、位置により識別され、前記位置は、角の位置に図示されているが、本発明の他の実施形態で異なって認識される可能性がある。オーディオスピーカー600は、ステップ500および510で検出される場合に、人であるという高い映像尤度を示さないため、図4Cに示されていない。対話していない対象物620と対話できない対象物610は、コンピュータ400により追跡される人である高い尤度を有すると決定されない。
ステップ540で、音声および映像データ尤度を組み合わすことで、コンピュータ400は、後記の数式31および数式37ないし数式39を使用して、ステップ550で各人を分離して追跡できる。このような方式で、各人は、位置により個別に認識され、音声データチャンネルは特定イメージにより識別される。さらに、対象物620が話していると、分離されたトラックは出力され、対象物620と関連付けされる。
【0031】
例として、話者1、2、3が何れも図5Dに示すように話している時、コンピュータ400は、角位置の関数として話者1、2、3のそれぞれの位置を認識できる。このような既存の角位置に基づいて、コンピュータ400は、図5Aに示すような話者1を検出した第一音声トラック、図5Bに示すような話者2を検出した第二音声トラック、図5Cに示すような話者3を検出した第三オーディオトラックのように、話者1ないし3のそれぞれの角位置で音声を分離する。このような方式で、本発明に係る実施形態の方式では、残りの音声データは記録したり、または伝送する必要がなく、それゆえ、帯域幅および保存空間を低減できる。また、各トラックは、視覚対象物として認識されるため、コンピュータ400は、話している人によって分離された音声を維持できる。
【0032】
また、コンピュータ400は、本発明の実施形態において、話者1ないし3が動いても分離されたトラックを維持できる。例として、個人に対するカラーコードのために、カラーヒストグラムを使用するように、音声尤度および映像尤度の様相を認識することにより、コンピュータ400は、同一にそれぞれ割当てられたチャンネルにそれぞれの音声トラックを維持して、互いに交差しても、話者1ないし3をそれぞれ追跡できる。本発明の一実施形態によって、コンピュータ400は、図4Cおよび図5Aないし図5Cを提供するために、数式1およびを使用した。しかし、他のアルゴリズムおよび数式を、本発明の他の実施形態に従い使用することができ、または有効に適用することができ、また、対象物が停止するか、または正確な追跡が要求されなければ、数式を簡単にすることができる。数式1は下記に示され、数式28を参照することで理解することができる。
【0033】
【数1】

ここで、p(Z(t))は、時間tにおいてI番目の人に対する映像尤度関数であり、Z(t)は、時間 tにおいてI番目の人に対する映像観察ベクトルであり、αは、

になる0から1までの値を有する加重値であり、N(θ,σ)は平均がθであり、分散がσのガウシアン関数である。
【0034】
図5Aないし図5Cは、コンピュータ400が、各対象物620、630、640から発せられた音声を三つの分離されたトラックに分離する例を示す。特に、音声尤度L(audio|θ)および音源の位置に基づく音声領域は、図5Dに示されている。このオーディオ領域で、各話者は他の角位置θに位置し、話者は互いに対話しており、図1に示す装置を使用してその対話を収録する。追加的な背景ノイズは、他の位置θに存在する。音声および映像データ尤度L(audeo、video|θ)を組み合わせることにより、コンピュータ400は、各検出された話者1ないし3の相対的な角位置に基づいて個別に音声を分離できる。さらに、コンピュータ400は、ビームフォーミング技術を使用して、図5Aないし図5Cに示すように、分離されたトラックを出力できる。また、本発明の実施形態によれば、残りの追跡されていない話者、または背景ノイズを含まずに話者1ないし話者3のそれぞれの音声のみを記録できるため、メモリ空間および伝送帯域幅を低減させ、後処理過程は、各話者の記録された音声の選択性を向上させる。このような分離は、会議、上演、ミュージカル公演の記録のような多様な状況で、話者、歌手、および/または楽器について選択されたトラックを後で増幅するときに有効である。
【0035】
発明の如何なる実施形態で要求されるものではないが、様々な人の音声を記録および伝送するために、音声自体を追跡する所で、ステップ560でオプション信号調節動作が行われる。図示の例で、コンピュータ400は、数式41ないし数式49と関連して、下記で説明するように、話者に対する音声パターンをスムーズにするために、ステップ562で各音声トラックに対する音声存在期間(Speech Presence Intervals:SPI)を検出する。ステップ564で、適応的クロスキャンセル(adaptive cross cancellation)技術を使用して向上した各対象物から出たそれぞれの対象となる音声は、数式50ないし数式65と関連して、下記で詳細に説明される。内容を簡略化するために、コンピュータ400により行われることを前提に説明したが、それぞれの対象の話者が識別されれば、他のコンピュータまたはプロセッサも信号調節のための処理過程を行うことに使用可能なことは言うまでもない。
【0036】
ステップ560において、このような信号調節は、ミーティングの議事録作成、音楽または演劇を記録、および/または高音質が要求されるTVショー、またはミーティングの記録したり、伝送するために使用される。しかし、ステップ562および564は、互いに独立に行われるか、あるいは、音質を要求しないロボット、または対象物である人の音声パターンを向上させる必要がない状況では行われなくてよい。
ステップ562において、人の音声パターンは、音声停止として検出される所定の減少(dip)を含む可能性があり、その場合には、記録または伝送された音に不愉快な不連続を形成してしまう。咳などによる音声の突然のスパイクは、人の音声として好ましくない。例として、図6(c)で、話者は、時間80付近で音声を休止している。そのような休止は、図6(a)および図6(b)に示す話者のパターンに図示されていない。図7(c)に示すように、このような休止は、音質を向上させるために除去されるべき音声の不連続としてみなされる。しかし、これは、対話と関連していない背景ノイズを記録しないように、音声に対する開始および終了時間を記録することが好ましい。ステップ562で音声処理を行うことにより、音声包絡線を形成して、音声の実際の休止は保存されるか、または伝送されないようにする一方、特定の人の音声の終了と比較するため、コンピュータ400は、図8(c)に示すように、時間80周辺の音声を保存できる。このようなタイプの信号調節のための処理は、数式41ないし数式49と関連して以下で説明する。しかし、音声で休止または突然のスパイクが重要ではない場合は、ステップ562で示された数式49は省略することができる。
【0037】
如何なる実施形態で要求されるものではないが、コンピュータ400は、好ましくない対象物として指名された既知の音源の音を弱める一方、特定の好ましい対象物を分離して、更に向上した音声を検出するために話者の位置を使用できる。図9に示す例として、オーディオスピーカー600は、人ではないと識別されるため、コンピュータ400は、本発明の実施形態によって、特定方向に対する利得を減らすことにより、その根源から出るノイズを除去する。対象物630、640の音声が除去されるか、または無音になる所で、コンピュータ400は、対象物630、640方向での利得を減少させることにより、対象物630、640からのノイズが効果的に除去される。さらに、対象物620からの音声またはノイズを強調するために、利得を対象物620の方向で増加させる。これにより、様々対象の音声は、ユーザーの必要性によって変化する。
【0038】
一実施形態において、コンピュータ400は、対象物620、630、640およびオーディオスピーカー600の位置を知っているため、それらについてそれぞれの利得を操作するのにビームフォーミング技術を使用する。ビームフォーミングについての詳細な説明は、以下で提供され、ビームフォーミング技術の例は、S. Shahbazpanahi, A. B. Gershman, Z. -Q.Luo and K. Wong, "Robust Adaptive Beam-forming using Worst-case SINR Optimization: A new Diagonal Loading-type Solution for General-rank Signal", Proc. ICASSP, 2003; H. L. V. Trees, Optimum Array Processing, Wiley, 2002に記載されている。しかし、音声位置測定の方法は、本発明の実施形態で限定されるものではない。
【0039】
図10は、図1に示す装置に組み込まれるか、または接続された後処理装置を示し、この後処理装置は、音質向上のために出力音声データをスムーズにすることに使用される。具体的には、AVシステム700は、処理されるべきオーディオおよびビデオチャンネルを受信する。如何なる実施形態で要求されるものではないが、AVシステム700は、図1の映像システム100と、音声システム200と、コンピュータ400とを備える。
AVシステム700は、音声データの分離されたトラックを出力し、ここで、それぞれのトラックは、話者から出たそれぞれの音声に該当する。出力の実施形態は、図11(a)ないし図11(c)に示されている。後処理装置710は、各トラックに含まれたオーディオノイズを除去するために、本発明の実施形態に係る適応クロスチャンネル干渉除去を行う。後処理装置710は、これらの信号を処理して、他のチャンネルの干渉を除去したそれぞれのチャンネルに対する処理された信号を出力する。これは、数式50ないし数式65と関連して以下で説明するが、さらに、C. Choi, G.-J.Jang, Y. Lee and S. Kim, "Adaptive Cross-channel Interference Cancellation on Blind Signal Separation Outputs", Proc. Int. Symp. ICA and BSS, 2004で更に詳細に説明されている。
【0040】
図11(a)ないし図11(c)に、AVシステム700により出力された3つのチャンネルを示す。話者1の音声は図11(a)に、話者2の音声は図11(b)に、そして、話者3の音声は図11(c)に示す。図示するように、各トラックは隣接トラックからの干渉を含む。
処理後に、後処理装置710は、図12(a)に示す話者1に対して処理されたトラック、図12(b)に示す話者2に対して処理されたトラック、および図12(c)に示す話者3に対して処理されたトラックを出力する。図示するように、AVシステム700に入力される信号対ノイズ比(Signal-to-Noise ratio:SNR)は、0dBより小さい。図11(a)ないし図11(c)に示すように、AVシステム700からの出力は、11.47dB程度のSNRを有する。後処理装置710を通過後、図12(a)ないし図12(c)に示す出力は、16.75dBのSNRを有する。これにより、本発明の実施形態によって、ステップ564で行われた分離されたチャンネルの後処理は、隣接トラックによる干渉を除去し、出力チャンネルの記録および伝送を向上させる。
一般的に、動いている対象は、励起力および摩擦力を受ける。ζは、直角座標系でx、yまたはzを表し、極座標系でr、θまたはzを表し、球座標系でρ、θまたはφを表す。ξ座標系で、単一質量を仮定した動きの離散式は、次の数式2ないし数式4で表せる。
【0041】
【数2】

【0042】
【数3】

【0043】
【数4】

数式2ないし数式4で、tは離散時間増加値であり、ΔTは離散時間tの間隔であり、uξ(t)は、外部励起力であり、

は、摩擦力である。

が、線形であると仮定すれば、摩擦力は、

に近似する。ここで、bは、摩擦定数である。したがって、数式2ないし数式4は、下記の数式5および数式6のように単純化される。
【0044】
【数5】

【0045】
【数6】

対象の動きに突然の変化があれば、

を計算するための数式5の逆方向近似は間違えである。エラーは、

を得るために、

を2回積分する時に更に大きくなる可能性がある。さらに、本発明によれば、ξ(t+1)と

は、

および

をそれぞれ近似するために、数式7および数式8で提示されたように組み込まれる。
【0046】
【数7】

【0047】
【数8】

前記数式に基づいて、図1に示す装置に対する動きの式は、数式9および数式10の通りである。
【0048】
【数9】

【0049】
【数10】

行列形式にすれば、動きの式は、次の数式11ないし数式14になる。
【0050】
【数11】

【0051】
【数12】

【0052】
【数13】

【0053】
【数14】

【0054】
動く物体には、ロボット自体と、人を含む対象物体との2つがある。図1に示す装置を含むロボットに対し、外力は、制御命令u(t)=〔uζ(t)〕であり通常既知である。時間tでロボットの姿勢は、r(t)で表せる。例えば、平面環境でのロボットの動作に対し、この姿勢は平面でx−y位置およびその進路方向から構成される。姿勢が、数式15で特定された第一次マルコフ(Markov)処理に従うと仮定する。ただし、図1に示す装置が動かない所では、r(t)は定数である。
【0055】
【数15】

【0056】
カルマンフィルタ等または後続(successor)タイプフィルタ用いれば、姿勢を十分に測定できる。同時位置把握と地図作成(Simultaneous Localization and Map Building:SLAM)アルゴリズムは、本発明の実施形態におけるノイズの観察と制御とを行う場合には、姿勢r(t)の予測だけでなく、地図を探すためにコンピュータを使用する。このようなアルゴリズムの例は、M. Montemerlo, "FastSLAM: A Factored Solution to the Simultaneous Localization and Mapping Problem with Unknown Data Association", Ph. D. dissertation, CMU, 2003に詳細に記載されている。
時間tを使って対象の姿勢を表すと、s(t)になる。対象に対する挙動がわからないため、対象に加えられる外力v(t)は、数式16に提示されたガウス関数としてモデル化され、対象の姿勢は、数式17で提示された第一次マルコフ処理によってコンピュータにより推定される。
【0057】
【数16】

【0058】
【数17】

測定モデルについて、観察データ集合Z(t)は、m番目のマイクロフォン210により観察された要素z(t)(m=1,...,m)を含む複数のチャンネルオーディオストリームz(t)、およびカメラにより観察される極座標での全方向映像データz(t)=I(r,θ,t)を含む。したがって、観察データ集合Z(t)は、数式18により表わされる。
【0059】
【数18】

【0060】
観察データ集合Z(t)を求めるためのバックグラウンドとして、
J. Vermaak and A. Blake, "Nonlinear Filtering for Speaker Tracking in Noisy and Reverberant Environments", in Proc.ICASSP、200,
C. Choi, "Real-time Binaural Blind Source Separation", in Proc.Int.Symp.ICA and BSS, 2003, pp. 567 to 572、
G. Lathoud and I. A. McCowan, “Location based Speaker Segmentation", in Proc. ICASSP, 2003、
G. Lathoud, I. A. McCowan and D. C. Moore", Segmenting Multiple Concurrent Speakers using Microphone Arrays," in Proc. Eurospeech, 2003、
R. Cutleret. et al. "Distributed Meetings: A Meeting Capture and Broadcasting System", in Proc. ACM Int. Conf. Multimedia, 2002、
Y.Chen and Y.Rui, "Real-time Speaker Tracking using Particle Filter Sensor Fusion", Proc. of the IEEE, vol. 92, No.3, pp.485 to 494, 2004
に記載されているように、時間遅延測定(Time-Delay Estimates:TDE)は、音声追跡のための構造を記述する。しかし、本発明の一実施形態によって使用可能であり、周辺のノイズおよび反響に対処するために、最大の尤度法および位相変換からの重み関数があっても、TDEに基づく技術は、M. Brandstein and D. Ward, EDS., Microphone Arrays: Signal Processing Techniques and Applications. Springer, 2001に記述されたように、明示的な方向のノイズに脆弱である。
【0061】
逆に、信号サブ空間方法は、多元シナリオを利用する長所がある。さらに、信号サブ空間方法は比較的簡単で、かつ明確であり、また、広帯域の信号に対して高解像度とノンバイアスの角の測定を提供する。このようなサブ空間の例は、G. Su and M. Morf, "The Signal Subspace Approach for Multiple Wide-band Emitter Location," IEEE Trans.ASSP, vol.31, No.6, pp. 1502 to 1522, 1983 and H. Wang and M. Kaveh, "Coherent Signal-subspace Processing for the Detection and Estimation of Angles of Arrival of Multiple Wide-band Sources," IEEE Trans. ASSP, vol. 33, No.4, pp.823 to 831,1985に記載されている。さらに、本発明の一実施形態において、図2の方法およびコンピュータ400は、TDEの代りにサブ空間接近を使用する。しかし、普遍性の喪失なしに、TDEに基づく方法は、信号サブ空間方法の代わりに、または共に使用でき、TDEに基づく方法は、さらに本発明の実施形態に係る帰納的ベイズ(recursive Bayesian)フィルタリングのフレームワークで行われるということは言うまでもない。
【0062】
観察データ集合Z(t)を求めるためのバックグラウンドとして、図2の方法およびコンピュータ400は、本発明の一実施形態に係るハウスドルフ距離を使用して、イメージを比較して物体検出を行う。ハウスドルフ距離の例は、D. P. Huttenlocher, G. A. Klanderman and W. J. Rucklidge, "Comparing Images Using the Hausdorff Distance under Translation,”in Proc. IEEE Int. Conf. CVPR, 1992, pp.654 to 656に記載されている。この方法は、スケーリングおよび変換において簡単でかつ強固なため本発明の実施形態で使用するが、この方法は、多様なサイズのあらゆる候補イメージを比較するため相当な時間がかかる。
【0063】
本発明の一実施形態において、より迅速な計算のために、単純さが特徴であるブーストカスケード構造を使用する。ブーストカスケード構造は、P. Viola and M. Hones, “Rapid Object Detection Using a Boosted Cascade of Simple Featrues," in Pric. CVPR, 2001に記載されている。さらに他の例は、歩行者検出システムのコンテキストに記載されており、P. Viola, M. jones and D. Snow, "Detecting Pedestrians using Patterns of Motion and Appearance," in Proc, ICCV, 2003に記述されたように、動きおよび形状を一つのモデルに合わせる。たとえ、本発明の実施形態に使用できたとしても、ブーストカスケード構造は、速度および性能面で効果的であるが、一方、難しい学習と相当の練習サンプルを必要とする。
【0064】
物体の認識を行うにあたって、色は本発明の実施形態において適切な識別因子である。人を検出する状況で、皮膚色は、人を探す魅力的な視覚的手がかりであることが分かる。このような認識の例は、M. Jones and J. M. Rehg, "Statistical Color Models with Application to Skein Detection, "International Journal of Computer Vision, 2002に記述されている。したがって、ハウスドルフ距離およびブーストカスケード構造が、本発明の一実施形態によって使用できるとしても、コンピュータ400は、計算速度を上げるために、皮膚色の検出を使用し、難しい学習の負担を減らすように簡単な外観モデルを使用する。しかし、人または他の物体対して他の色が、本発明の実施形態によって視覚手がかりとして使用可能なことは言うまでもない。
【0065】
追跡は、Y. Bar-Shalom and X. -R. Li, multitarge-multisensor Tracking: Principles and Techniques, Yaakow Bar-Sahlom, 1995に記載されているように、長い間、航空宇宙工学で課題となっている。
最近、視覚で物体追跡を行うことに関連した分野で発展している。そのような方法の例として、mean shift方法、CAMSHIFT方法およびCONDENSATIONアルゴリズムが挙げられる。このような方法の例は、
D. Comaniciu, V .Ramesh, and P. Meer, "Real-time Tracking of Non-rigid Objects using Mean Shift," in Proc. CVPR, 2000と、
"Kernel-based Object Tracking, "IEEE Trans.PAMI, 2003と、
G. R. Bradski, "Computer Vision Face Tracking for use in a Perceptual user Interface, "Intel Technology Journal, 1998と、
M. Isard and A. Blake, "Contour Tracking by Stochastic Propagation of Conditional Density, "in Proc.ECCV, 1996と、
"Icondensation:Unifying Low-level and High-level Tracking in a stochastic Framework," in Proc. ECCV, 1998
に記載されている。
【0066】
また、Y. Chen and Y. Ruiの“Real-time Speaker Tracking using particle Filter Sensor Fusion," Proc. of the IEEE 2004に記載されているような関心(interest)粒子フィルタ追跡が増加している。それに対し、音出力源(sound emitter)追跡はあまり一般的ではないが、興味深い主題であり、J. Vermaak and A. Blake, "Nonlinear Filtering for Speaker Tracking in Noisy and Reverberant Environments," inProc. ICASSP, 2001に記載されている。
【0067】
位置把握および追跡について、本発明の一実施形態では、著名な回帰的ベイジアン(celebrated recursive Bayesian)フィルタリングを利用する。このフィルタリングは、根源的かつ基本であり、概略を言えば、他のアルゴリズムは、このフィルタリングの変更または近似バージョンである。
【0068】
図1に示すように、マイクロフォンアレイのマイクロフォン210は、等方位的であるため音源ローカライザーであり、あらゆる方向からの音源からの到達角度が分かる。本発明の一実施形態に係るコンピュータ400によるサブ空間接近は、それらの測定パラメータ(すなわち、アレイマイクロフォンと各話者との角度が固定)を仮定すれば、期間上のアンサンブル平均を経て、観察された信号から出た空間共分散マトリックスに基づく。
測定された音声データは、次の数式19のように、周波数領域においてm次元ベクトル(mセンサー)で得られる。図1に示すように、マイクロフォンの配列は、8個のマイクロフォン210を含むため、図示する例で、m=8である。しかし、マイクロフォンの数が異なることにより、異なる値が使用されることは言うまでもない。
【0069】
【数19】

数式19で、z(f、t)は、m×1の観察ベクトルであり、x(f、t)は、dx1サイズの音源ベクトルで、n(f、t)は、周波数fおよび離散時間tで、m×1の測定ノイズベクトルである。A(f,θ)は、調整ベクトルa(f,θ)を含む伝達関数マトリクスである。調整ベクトルA(f,θ)は、周波数fで方向θの配列への信号源の伝達を反映した減衰および遅延を表す。
本発明の一実施形態によれば、調整ベクトルA(f,θ)は、マイクロフォンアレイ構造に対して、実験的に5゜間隔で形成されたインパルス音に対する反応を測定することで決定される。しかし、そのベクトルA(f,θ)は、他の方法で導ち出すことができるのは言うまでもない。
【0070】
観察のための空間共分散マトリックスは、
R(f)=E{z(f、t)・z(f、t)
の式からあらゆる連続的なフレームに対して得ることができる。ここで、“”は、エルミート転置行列を表す。空間共分散マトリックスN(f)は、明示的な方向性の音源がなければ、あらかじめ計算される。したがって、数式20に表されたような一般的な固有値の問題を解くことは、一般的な固有値マトリックスΛ、およびその該当固有ベクトル
E=[E|E]に帰着する。
ES=[e,・・・,e]およびE=[ed+1,・・・,e]は、それぞれ信号サブ空間およびノイズサブ空間に及ぶ固有ベクトルマトリックスである。“d”は、音源数の近似値であり、推定数字(3のように)で表示される。要求されるものではないが、“d”は、追跡される人数に基づいて入力される。しかし、一般化された固有値問題は、本発明の一実施形態に係る他の固有分析方法により代替される。そのような方法の例は、固有値問題に限定されるものではなく、特異値分解および本発明の実施形態に係る一般化された特異値の分解を含む。
【0071】
【数20】

音声システム200により受信された周波数fおよび各方向θに音源がある条件尤度p
(z(t)|f,θ)は、本発明の一実施形態に係るMUSIC(Multiple Signal Classification)アルゴリズムを使用したコンピュータ400により獲得される。しかし、他の方法が使用可能なことは言うまでもない。数式21で、a(f,θ)は、周波数fおよび方向θでの調整ベクトルである。
【0072】
【数21】

特定の角度の方向θにある特定音源の尤度は、次の数式22ないし数式24に表されている。
【0073】
【数22】

【0074】
【数23】

【0075】
【数24】

数式22ないし数式24で表すように、
p(f|θ)は、p(f)に代替されるが、これは、周波数選択が根源信号の方向と無関係と仮定されたためである。装置が離散周波数領域にあり、周波数ビンの選択が何れも
p(f)=1/Nと同じであると仮定すれば、数式24の各信号源の方向θの尤度は、コンピュータ400が信号源に対する方向可能性を検出できるように、本発明の一実施形態によって、数式25および数式26で表される。
【0076】
【数25】

【0077】
【数26】

数式26を使用して、コンピュータ400は、図4Aに示す角関数として音声尤度を計算する。人の追跡について記述したが、他の物体(すなわち、車、在庫品、飛行機、船など)および動物も、本発明の一実施形態によって追跡可能である。
多数の人々を追跡するにあたって、図1に示す装置は、図3Aに示すように、同時に全ての人が見えるように、360゜の視野を有する全方向カラーカメラ110を使用する。多数の人を見つけるために、2つの特徴である皮膚色およびイメージ形状が本発明の一実施形態によって使用される。皮膚領域は、ほぼ一定の色を有するため、顔および手の領域は、図3Cに示すように、カラー分割を使用して容易に区分できる。多数の人種および皮膚色を追跡できるように、本発明の一実施形態によって多様な皮膚色が検出されるということは言うまでもない。皮膚色ブロブが人であるか否かを区別するために、上半身の3つの形状が本発明の一実施形態によって、コンピュータ400により具体化されて使用される。
【0078】
具体的に、図3Aないし図3Cに示すような入力カラーイメージは、図3Cおよび図3Bにそれぞれ示すように、コンピュータ400により色変換され、閾値設定されたイメージおよびエッジイメージの2つのイメージに変換される。第一イメージ(すなわち、図3Cに示す例)は、色標準化および閾値による色変換により形成される。特に、

である。色変換は、2Dガウス関数N(mr,σ;m;σ)で表現され、ここで(m,σ)および(m,σ)は、それぞれ赤色および緑色要素の平均および標準偏差である。標準化された色は、色認識過程に大きく影響する輝度効果を低減させ、色要素をそのままに残す。ピクセル値が皮膚と関連した色に更に接近する時、ピクセルは強い強度を有する。皮膚と関連した色による臨界設定は、第一イメージを形成する。他の色が選択されるか、または他の色調を獲得するために、前記図示する色に追加または代替して、他の選択された色が強い強度を有するような変換が適用されるということは言うまでもない。
【0079】
第二イメージ(すなわち、図3Bに示す例)は、3つのエッジイメージ(赤色、緑色および青色)の平均である。変換されて閾値設定されたイメージ(すなわち、図3Cに示す例)の各皮膚色ブロブの中心とサイズに基づいて、コンピュータ400は、エッジイメージで人の上半身に対するサイズが標準化された候補群を得る。しかし、他のテンプレートエッジイメージが、本発明の一実施形態によって、人の上半身に追加または代替して使用され、エッジイメージは、他の方法で標準化されるということは言うまでもない。例として、対象が動物または他の物体(すなわち、車、在庫品、飛行機、船など)を含めば、テンプレートは、そのような対象または動物を視覚的に認識するのに使用される形状または部分を反映する。
【0080】
本発明の一実施形態に係る人間形状のマッチングのために、コンピュータ400は、人の姿勢と一致する人の上半身の三つの形状モデルイメージ(すなわち、エッジイメージテンプレート)を使用する。使用される三つの形状モデルイメージは、前側、左側、および右側の形状を含む。形状モデルイメージと候補エッジイメージとの類似度を計算するために、コンピュータ400は、形状モデルイメージと候補エッジイメージとのハウスドルフ距離を測定する。ハウスドルフ距離は、集合間の類似度の測定を定義する。ハウスドルフ距離の例は、D. P. Huttenlocher, G. A. Klanderman and W. J. Rucklidgez, "Comparing Images Using the Hausdorff Distansce under Translation" in Proc. IEEE Int. Conf. CVPR, 1992, pp.654 to 656に詳細に記載されている。
【0081】
ハウスドルフ距離は、二つの非対称距離を有する。形状モデルイメージのA={a,・・・,a}および候補エッジイメージであるB={b,・・・,b}の二つの点集合が与えられれば、形状モデルAと候補エッジイメージBとの間のハウスドルフ距離Hは、数式27で表すように決定される。
【0082】
【数27】

数式27で、

である。関数h(A,B)は、AからBまでの直接ハウスドルフ距離と呼ばれ、Bのある点から最も遠くにある点を識別し、aからBの最も隣接する点までの距離を測定する。言い換えれば、AからBまでの直接の距離は、Aのあらゆる点がBの幾つかの点bと近い時に小さい。二つとも小さい場合には、コンピュータ400は、候補エッジイメージおよび形状モデルイメージが互いに似ていると判断する。如何なる実施形態で要求されるものではないが、ハウスドルフ距離の三角不等式は、複数の保存された形状モデルイメージを、カメラ110などから得たエッジイメージと比較する場合に特に有効である。この距離をもって、コンピュータ400は、保存された姿勢および人の身体のイメージを使用して、映像イメージから人の上半身および体の姿勢を検出できる。したがって、コンピュータ400により行われる方法は、図3Aないし図3Cに示すように、複雑な背景および照明変化のある複雑な環境で多数の人々を検出することができる。
【0083】
本発明の一実施形態によれば、コンピュータ400は、各検出された人iの中心に集中した1Dガウス関数のガウス混合モデルを利用して、映像システム100を介して検出されたイメージの尤度関数を決定する。分散σは、一般的に人のサイズ(すなわち、θiで中心から人iによって与えられた各サイズθ)を反映する。分散σは、検出された人の各範囲の増加関数である。したがって、人である映像イメージが検出された尤度は、数式28の通りである。
【0084】
【数28】

数式28で、αは、候補イメージに対する混合加重値であり、ハウスドルフ距離(すなわち、ディスタンス(A,B)に反比例する)の減少関数である。ハウスドルフ距離の減少値は、一致に対する高い尤度を指示し、候補イメージが形状モデルイメージのうち、何れか一つとの一致の度合いを示す。
【0085】
また、複数の対象物を検出し、位置把握および追跡するために、コンピュータ400は、さらに数式29に提示された連続観察Zに対する対象ポーズ分布の回帰的測定を行う。コンピュータ400により行われる本発明に係る回帰は、数式30ないし数式34で提示される。
【0086】
【数29】

【0087】
【数30】

【0088】
【数31】

【0089】
【数32】

【0090】
【数33】

【0091】
【数34】

また、本発明の一実施形態によれば、尤度p(s(t)|s(t−1))は、前記で提示した数式5、数式6、数式9および数式10の能動モデルに従うため、尤度p(s(t)|s(t−1))は、数式35で表すように、本発明の一実施形態に係るガウス分布により更に近似される。
【0092】
【数35】

したがって、数式34および数式35は、次の数式36のように、コンボリューション積分で結合され、コンピュータ400により行われるベイジアンフィルタリングは、数式37および数式38で表されるように要約される。
【0093】
【数36】

【0094】
【数37】

【0095】
【数38】

数式37で、演算子*は、本発明の一実施形態によって、コンピュータ400により使用されるコンボリューション演算を表す。また、コンピュータ400により行われるベイジアン回帰は、予測演算および補正演算を含む。特に、予測演算は、対象の移動に対する能動モデルに基づいて対象のポーズを予測するために数式37を使用する。補正演算は、予測された対象のポーズが現在の観察尤度によって調整される数式38を使用する。
【0096】
本発明の一実施形態によれば、コンピュータ400は、重なった音声を分離するためにビームフォーマを備える。これにより、コンピュータ400は、対話中にそれぞれの話者の音声を分離でき、トラックは、本発明の一実施形態に従って、各識別された話者に対して個別に出力される。しかし、もし分離された音声を出力する必要がなく、装置が各個人のみを認識することのみが必要ならば、ビームフォーミングを使用する必要がないか、または下記のような方法により、各個人の認識を行う。
【0097】
話者分割は、会話、会議および業務の対話において重要であり、なお、大語彙連続音声認識システム、対話システムおよびディクテイションシステムのような多くの音声処理設備でも有用である。重なった音声は、話者順に分割音声で中心位置を占める。これについては、E. Shirberg, A. Stolcke and D. Baron, "Observations on Overlap: Findings and Implications for Automatic Processing of Multi-party Conversation," in Proc. Eurospeech, 2001に記載されている。マイクロフォンアレイによる重なった音声の分割結果は、両耳ブラインド信号分離(Binaural Blind Signal Separation:BSS)、デュアルスピーカーが隠れたマルコフモデル(dual-speaker hidden Markov models)、および遅延時間予測を有するモデル化した話者位置にガウス分布を組み込んだ音声/サイレント比率を使用して報告される。この結果の例は、
C. Choi, "Real-time Binaural Blind Source Separation," in Proc. Int. Symp. ICA and BSS, pp. 567 to 572, 2003と、
G. Lathoud and I. A. McCowan, "Location based Speaker Segmentation," in Proc. ICASSP, 2003と、
G. Lathoud, I. A. McCowan and D. C. Moore, "Segmenting Multiple Concurrent Speakers using Microphone Arrays," in Proc. Eurospeech, 2003と、
に開示されている。五つのビデオストリーム入力およびマイクロフォンアレイから出たパノマラ式イメージを使用した話者追跡は、R. Cutler et.al., "Distributed Meetings: A Meeting Capture and Broadcasting System," in Proc. ACM Int. Conf. Multimedia, 2002 and Y. Chen and Y. Rui, "Real-time Speaker Tracking using Particle Filter Sensor Fusion," Proc.of the IEEE, vol.92, No.3, pp.485 to 494, 2004に報告されている。
【0098】
これらの方法は、同時的話者分離において両極端にある。一方は音声情報のみに依存するが、他方は映像情報に主に依存する。さらに、ChenおよびY.Ruiにより開示された方法は、発話の音声部分のみを記録する能力を含まずに、その代りに、対象の人が話すか否かに関係なく、任意のデータを記録し、更に特定の話者としてオーディオチャンネルを識別するために映像データを使用することはできない。本発明に係る一実施形態によれば、コンピュータ400は、複数の音声を話者毎に分割し、それぞれの音声を、対象の空間情報、干渉およびノイズの時間特性を使用して分離する。この方法によると、特定の対象が話している間に、開始時間と終了時間とを検出して記録する本発明の一実施形態では、特定の人が話しているか否かに基づいて、音声および/または映像を選択的に記録でき、それにより任意のデータを記録するシステムと比較して、メモリ空間および/または伝送帯域幅を低減できる。更に、特定の話者への選択性を向上させることにより、特定の注目する対象物に焦点を合わせることができる。
【0099】
本発明の一実施形態によれば、LCMVBF(Linearly Constrained Minimum Variance Beam-Former)は、分割された複数の同時発生の音声から各対象物の音声を分離するために、コンピュータ400により使用される。ビームフォーマの使用は、実際の調整ベクトルと仮定推定ベクトルa(f,θ)とが一致しないため、対象の音声を潜在的に相殺する深刻な問題点がある。一般的に、実際調整ベクトルa(f,θ)およびターゲットフリー共分散マトリックスは、何れも得難いものではない。さらに、相殺に対する強固さを達成するための一つの一般的な方法は、対角線ローディングであり、この例については、S. Shahbazpanahi, A. B. Gershman, Z. -Q. Luo and K. Wong, "Robust Adaptive Beam-forming using Worst-case SINR Optimization: A new diagonal loading-type solution for general-rank signal," in Proc. ICASSP, 2003に記載されている。しかし、このような一般的な手法は、H. L. V. Trees, Optimum Array Processing. Wiely, 2002に記述されているように、音声干渉を効果的に解消させることができず、干渉対ノイズの比率が、低い場合に対象物の相殺に対して強固ではないという短所を有する。
【0100】
実際ベクトルと仮定ベクトルa(f,θ)との不一致は、本発明の一実施形態による図1の装置では特に取り扱い難い。それゆえ、コンピュータ400は、ターゲットフリー分散マトリクスを精巧に得ることに焦点を合わせる。特に、音声映像混合システムと図1および図2の方法によって、ビームフォーマは、対象の音声が現在データスナップショットに存在している否かを非常に正確に知らせることができる。このような長所は、主に、大きいノイズに対するサブ空間位置把握アルゴリズムが持つ強固さより得られる。さらに、本発明の一実施形態に係るコンピュータ400により使用されるビームフォーマは、対象の音声が存在していない時のみに分散マトリクスをアップデートできるため、対象音声との相殺は避けることが可能である。ビームフォーマで使用される加重値は、数式39を使用して計算される。
【0101】
【数39】

数式39で、θは対象物の方向であり、λは対角線ローディングファクターであり、Rは、対象と関係ない期間に対する第k周波数ビンでの分散マトリックスであり、a(θ)は、kth周波数ビンでの対象の方向に対する調整ベクトルである。数式39で、対角線ローディングファクターλIは、実際および仮定調整ベクトルとの若干の不一致による対象信号の相殺を緩和する。
【0102】
例えば、図11(a)ないし図11(c)は、8個のマイクロフォン210を使用して検出した8個のチャンネル音声入力から、更に検出したビーム形成出力を示す図面である。図11(a)ないし図11(c)示すように、コンピュータ400のビームフォーマは、3人の話者が同時に話している状況で、マイクロフォン210から音声入力の8個のチャンネルを得るために話者1ないし3を分離し、図11(a)ないし図11(c)に示す3つのチャンネルに話者を特定した位置を出力する。
【0103】
本発明の一実施形態によれば、映像尤度は、全方向カメラ110からの入力を使用して計算するが、視野が限定された他のカメラを使用して計算することも可能なことは言うまでもない。このような視野が限定されたカメラの例としては、TV、カムコーダ、ウェブベースカメラ(度々コンピュータに装着されるもの)および特定方向に向うレンズを利用して、限定された視野イメージのみを個別に撮像する他のカメラなどを含む。そのような視野が限定されたシステムに対し、尤度関数は、J. Vermaak and A. Blake, "Nonlinear Filtering for Speaker Tracking in Noisy and Reverberant Environments, "in Proc. ICASSP, 2001の数式6および数式7を適用することができる。具体的には、結果の式は、下記に示す数式40となる。
【0104】
【数40】

【0105】
一般的に、方向検出を促進するために、本発明の一実施形態によって少なくとも二つのマイクロフォンを使用せねばならない。さらに、本発明の一実施形態は、二つのマイクロフォンの間の中間点に配置された視野が限定されたカメラ(ウェブカメラのような)を有するデスクトップ型パソコンを使用することで実装される。
【0106】
さらに、音源が視野外に位置する所で尤度関数は調整されるため、音源には、その物体が追跡される(数式40の定数を使用するように)ことを保証するために、視野外に位置すれば、追跡される対象であるという可能性が高くなる。この情報を使用して、音源は追跡される。また、コンピュータ400は、カメラが回転して、あらかじめ視野外にあるノイズ源に焦点を合わせるように制御でき、ノイズ源が追跡されないものと決定すれば、本発明の一実施形態によってビームフォーミング過程は、音源を排除するように使用される。または、視野外の物体が無視されるべきものであれば、コンピュータ400は、音源位置の尤度を減少させるようにプログラミングする。
【0107】
さらに他の実施形態で、数式40は、座標変換を利用して、制限された視野を有する複数のカメラを合成するのに使用される。特に、マイクロフォンが所定の位置に配置されれば、グローバル座標は配列の中央に配置される。これにより、各カメラは、グローバル座標と関連した座標に割当てられ、コンピュータ400は、全方向カメラを要求せずに、複数のカメラおよびマイクロフォン配列を使用して対象を追跡するために座標変換を使用する。
【0108】
ステップ562に関する本発明の一実施形態によれば、音声パターン認識(Speech Pattern Identification:SPI)は、下記に提示された数式41ないし数式49を利用して、コンピュータ400により行われる。特に、それぞれの出力トラックに対し、コンピュータ400は、人の静寂時と話している時とを対比させた可能性を検出する。図6(a)ないし図6(c)のそれぞれのチャンネルに示すように、3人の話者のそれぞれは、話す期間および沈黙する期間を有する。一般的に、音声が重なることは対話で予想される。各人間が、話し始める、または話し終わる時を区分けするために、内積Y(t)は、下記の数式41のように、特定話者が話している途中であるという尤度L(t)(図5Aないし図5Cを参照)を使用して計算する。
【0109】
【数41】

【0110】
内積を使用する場合、音声が特定トラックに存在しているか、または存在していないという2つの状態が仮定される。特に、音声が存在しなければ、Hは、Y=Nである時に検出され、音声が存在すれば、Hは、Y=Sである時に検出される。音声が存在しないかについての密度モデルは、数式42であり、音声の存否についての密度モデルは、数式43である。両密度モデルは、音声が特定の時間に特定の話者(すなわち、トラック)に対して存在しているか否かについてのモデルである。
【0111】
【数42】

【0112】
【数43】

【0113】
密度モデルを使用して、コンピュータ400は、特定の時間に特定のオーディオトラックに対して音声の存否を決定するために密度比率を求める。音声の存否は、その比率が数式44に示された所定定数ηを超えるか否かに基づく。
【0114】
【数44】

ここで、ηはobservation Yに対するnull hypothesis Hが真(true)であるにもかかわらず、偽(false)として判明される確率をユーザがどれまで許容するのかによって決定される。
【0115】
その比率を満足すれば、コンピュータ400は、音声が存在していると判断する。一方、その比率を満足しなければ、コンピュータは、音声が存在していないと判断し、特定のトラックに対する記録/伝送が中断される。さらに、特定話者の音声に対する開始および終了時間は、音声包絡線(すなわち、特定オーディオトラックで音声が存在している間の時間)を展開するために、コンピュータ400により検出されて記録される。本発明の如何なる実施形態で要求されるものではないが、背景ノイズが記録されることを防止し、保存空間および伝送帯域幅が背景ノイズのために浪費されないように、コンピュータ400は、隣接包絡線の間の静寂期間で検出されたこのようなノイズを除去できるため、包絡線の開始および終了時間の間に記録された音声のみがトラックに残る。
【0116】
数式44の結果に基づいて、本発明の一実施形態によってコンピュータ400が、数式42および数式43のmおよびσをオンライン更新することが可能である。更新は、数式45および数式47を使用して行われる。数式45および数式46で、0<λ≦1であるが、本発明の一実施形態によって、一般的に1に近い。さらに、数式44を満足する所で、mおよびσは更新される。それに対し、数式44を満足せずに、その比率がηより小さければ、数式42のmおよびσが更新される。このような方法で、コンピュータ400は、数式41の内積に基づいて、密度モデルの正確度を維持できる。
【0117】
【数45】

【0118】
【数46】

本発明の一実施形態による数式41ないし数式46を使用する時は、図6(a)ないし図6(c)に示す音声は、図7(a)ないし図7(c)で示す開始および終了時間を有するように決定される。さらに、音声が存在(Y=S)することを示す図示された包絡線内の音声データのみが記録または伝送される必要がある。
【0119】
しかし、図7(c)を参照すれば、そのほかの連続的な音声での休止は、時間80付近で見られる。したがって、記録される時、図示された隣接包絡線間に瞬間的な不連続が存在するが、これは、トラックの再生時に認識される。このような不連続は、本発明の一実施形態によって受け入れられることもあるが、本発明の一実施形態は、コンピュータ400が図7(c)に示す包絡線を訂正するようにすることにより、話者の音声が呼吸のための休止または大きな衝撃により不均一にならないようにする。特に、コンピュータ400は、長さLを有する小さな静寂により分離される音声セグメントを集める。例えば、小さな静寂は、4フレームの長さLを有する。しかし、他の長さLが休止を定義するために使用されるということは言うまでもない。
コンピュータ400は、連続音声部分(すなわち、それぞれのL−フレーム内)として見なされ、十分に近くて時間に敏感な隣接音声包絡線を結合して、その包絡線を拡張するためにLフレーム拡張演算子を利用して、それぞれの検出されたSPIに2進拡張を行う。2進シーケンスuのために、コンピュータ400により使用されるLフレーム拡張演算子の例は数式47で表される。
【0120】
【数47】

【0121】
図8(a)ないし図8(c)に示すように、コンピュータ400は、拡張演算を行った時、図8(c)で時間80の近くに挿入された他の休止は除去され、結合された包絡線が形成されて、音声が時間60の以後から80の以後の間で、80の以前に含まれる他の休止(すなわち、不連続記録)せずに第三話者に対して連続的に記録される。
また、本発明の如何なる実施形態で要求されるものではないが、コンピュータ400は、通常対話の一部ではないノイズから分離したスパイクを除去する。例として、このような分離したノイズスパイクは、一般的に記録されるに当って好ましくない咳または他の突然のノイズにより発生される。これにより、コンピュータ400は、本発明の一実施形態によって2進浸食(erosion)演算子を使用して、このようなスパイクを認識して除去できる。特に、所定時間L(2フレームより小さなL)より小さな特定話者の分離された破裂音は除去される。本発明の一実施形態によって、コンピュータ400により使用されるLフレーム浸食演算子は、2進シーケンスuに対し、数式48で表される。
【0122】
【数48】

【0123】
本発明の如何なる実施形態で要求されるものではないが、浸食演算子を行う前に、2進拡張演算子を行うことが一般的により好ましい。そうでなければ、音声期間を分離する休止が小さな記録包絡線を発生させる可能性がある。このような小さな包絡線は、浸食演算子により連続的な音声の一部に対照的なスパイクとして誤認されて、好ましくなく削除される可能性がある。
【0124】
要すれば、本発明の一実施形態によってコンピュータ400は、図7(a)ないし図7(c)に示す検出された音声包絡線に基づいて、図8(a)ないし図8(c)に示す出力を提供するために結合された数式49を使用して数式47および数式48を用いた。図8(c)に示すように、時間80付近の休止により発生する音声包絡線の不連続が除去されて、第三話者の音声の全体は、不愉快な休止なしに記録される。
【0125】
【数49】

【0126】
図10に示す本発明の一実施形態によれば、後処理装置710は、コンピュータ400の出力またはコンピュータ400に含まれたAVプロセッサ700を向上させるために、暗黙根源分離(blind source separation:BSS)に適応的クロスチャンネル干渉相殺を行う。具体的に、いくつかのセンサーで記録された信号の重畳から複数の信号の分離することは、通信、生物医学および音声処理のような多様な適用において表れる重要な問題である。複数の混合されたソースの外にソース信号情報を要求していない分離方法の部類は、度々、暗黙根源分離と呼ばれる。複数のマイクロフォンを有する実際の記録状況で、各ソース信号は、あらゆる方向に広がっており、各マイクロフォンに“直接経路”および“反響経路”を通じて到達する。観察された信号は、次の数式50のように表現できる。
【0127】
【数50】

数式50で、s(t)は、第iソースシグナルであり、Nはソースの個数、x(t)は、観察された信号、hji(t)は、ソースiからセンサーjまでの伝達関数である。ノイズ項n(t)は、記録装置の特性による非線形歪曲に関連する。ソースが決して移動しないという仮定は、音響物体の能動的な性質のために度々覆る。さらに、実際のシステムは、インパルス応答の長さに限界を設定せねばならず、限定された長さは、実際の状況で度々主要な性能の障害になる。これにより、実環境のための周波数領域の暗黙ソース分離アルゴリズムは、本来の時間領域フィルタリングアーキテクチャを、周波数領域の瞬間的なBBS問題に変換するために行われる。短期フーリエ変換を使用して、数式50は、数式51のように再作成される。
【0128】
【数51】

【0129】
説明を単純化するために、2×2の場合を例にして以下の説明を行う。しかし、一般的に、N×Nの場合まで容易に展開できることは言うまでもない。数式51で、ωは、周波数インデックスであり、H(ω)は、2×2正方混合マトリクスであり、
X(ω,n)=[X(ω,n) X(ω,n)]T および

は、時間

(ここで、

は、フローリング演算子)で始まるシフト長(T/2)を有するサイズTのフレームに対するDFTを表し、該当表現が、S(ω,n)およびN(ω,n)に適用される。混合されない過程は、次の数式52を使用して周波数ビンωの公式で表すことができる。
【0130】
【数52】

数式52で、ベクトルY(w,n)は、2×1ベクトルであり、ノイズN(ω,n)の効果を無視した原ソースS(ω,n)についての予測である。時間領域のコンボリューション演算子は、周波数領域の複素数の掛け算に該当する。即席ICAアルゴリズムは、数式53に与えられた直角解を保証する情報最大化である。
【0131】
【数53】

数式53で、“”は、複素数共役転置行列に該当し、極性の非線形関数ψ(Y)は、

で定義される。この分解の短所は、それぞれ独立した周波数ビンでの置換問題が発生するとこである。しかし、この問題は、時間領域スペクトルスムージングを使用して解決される。
【0132】
第iBSS出力の各フレームに対し、Yi(n)={Yi(ω,n)|ω=1,・・・,T}によるフレームに対するあらゆる周波数要素の集合および下記の数式54で表すような最初のソースの存否をそれぞれ示す二つの仮定Hi,0およびHi,1が与えられる。
【0133】
【数54】

数式54で、

は、Sのフィルタ処理されたバージョンである。Y(n)に条件を設定すれば、ソースの存在/否存在の確率は、次の数式55の通りである。
【0134】
【数55】

数式55で、p(Hi,0)は、ソースiの否存在に対する先行確率であり、p(Hi,1)=1−p(Hi,0)は、ソース根源iの存在に対する先行確率である。周波数要素のうち確率的独立を仮定すれば、数式55は、数式56になり、音源否存在確率は数式57になる。
【0135】
【数56】

【0136】
【数57】

i,1の事後確率は、簡単に
p(Hi,1|Y(n))=1−p(Hi,0|Y(n))
であり、これは、第iBSS出力でクロスチャンネル干渉の量を表す。下記で説明するように、後処理装置710は、相互チャンネル干渉の相殺および要素密度p(Y(ω,n)|Hi,m)に対する統計的モデルを行う。
【0137】
ANCの仮定された混合モデルは、FIRフィルタアーキテクチャーであるため、ANCの直接適用は、実際の条件で線形フィルタの不一致を作れない。具体的に、無限フィルタ長およびセンサーノイズによる非線形性は、モデルで問題点を発生させ得る。数式58および数式59で提示されたように、後処理装置710により使用されるモデルに含まれる非線形の特性は、差スペクトルに含まれる。
【0138】
【数58】

【0139】
【数59】

数式58および数式59で、αはover-subtractionファクターであり、Y(ω,n)は、BSS出力Y(ω,n)の第i要素であり、bij(ω)は、チャンネルjからiまで周波数ωに対するクロス−チャンネル干渉相殺である。さらに、非線形演算子f(a)は、BSSの残っているエラーを抑えるが、大部分のスペクトル減算技術で発生するものと類似した音楽ノイズが挿入される可能性がある。
【0140】
クロス相殺が、数式58を使用して問題無く行われれば、スペクトルサイズ|U(ω,n)|は、ある非活性フレームに対しては0である。|U(ω,n)|の複素数ガウス分布による各仮定に与えられたY(ω,n)の事後確率は、次の数式60の通りである。
【0141】
【数60】

数式60で、λi,mは、減算されたフレームの分散である。m=1である時、λi,mは、最初のソースの分散である。m=0である時、λi,mは、第二ソースの分散である。分散λi,mは、数式61の以下の確率平均によりフレーム毎に更新される。
【0142】
【数61】

数式61で、正の定数ηλは、適応フレーム率を表す。最初のソース信号は、BSSにより少なくとも“強調”されるものと予想される。したがって、最初のソースのサイズは、他のBSS出力チャンネルでの最初のソースである干渉ソースのサイズより大きいと仮定される。モデルパラメータを更新する間、向上したソースλi,1の分散は、λi,0より小さくなることが可能である。このような場合は好ましくないため、二つのモデルは、数式62のように変化する。
【0143】
【数62】

次いで、後処理装置710は、干渉相殺ファクターを更新する。第一に、後処理装置710は、次の数式63ないし数式65を使用して、周波数ωおよびフレームnでYおよびYのスペクトルサイズの差を計算する。数式64は、フレームnに差のv−ノームを乗算した費用関数Jを定義し、数式65は、bijに対するグラディエント減少学習規則(gradient-descent learning rules)を定義する。
【0144】
【数63】

【0145】
【数64】

【0146】
【数65】

このような方法論を使用して、後処理装置710は、図11(a)ないし図11(c)に示す入力に基づいて、図12(a)ないし図12(c)に示す向上した出力を提供する。しかし、他のタイプのクロス相殺技術を後処理装置710に使用して、音質を向上させることが可能なことは理解できるであろう。
【0147】
以上、本発明を図面に示した実施形態を用いて説明したが、これらは例示的なものに過ぎず、本技術分野の当業者ならば、本発明の範囲および趣旨から逸脱しない範囲で多様な変更および変形が可能なことは理解できるであろう。また、本実施形態に係る方法は、プログラムとして記録媒体の形態で実装され、コンピュータによって実行されてよい。したがって、本発明の範囲は、説明された実施形態によって定められず、特許請求の範囲に記載された技術的趣旨により定められねばならない。
【産業上の利用可能性】
【0148】
本発明は、会議等で話者別に音声を分離および記録する装置、およびコンサートで歌手の歌からノイズを排除して記録する装置に使用することができる。
【図面の簡単な説明】
【0149】
【図1】本発明の一実施形態に係る、物体を追跡するために映像および音声情報を合成する装置を示す図面である。
【図2】本発明の一実施形態に係る、複数の物体を追跡するために映像および音声情報を合成する方法を示すフローチャートである。
【図3A】本発明の一実施形態に係る、図1の装置により受信されて追跡される潜在的目標のイメージを含む映像の例である。
【図3B】本発明の一実施形態に係る、図3Aから抽出されて追跡されるエッジイメージを示すサブイメージである。
【図3C】本発明の一実施形態に係る、図3Aから抽出されて追跡される所定のカラーを含むイメージの一部分を示すサブイメージである。
【図4A】本発明の一実施形態に係る、特定の期間に追跡される音源の位置および追跡される対象の音声尤度を示す図面である。
【図4B】本発明の一実施形態に係る、特定の期間に追跡される物体の位置および追跡される物体の映像尤度を示す図面である。
【図4C】本発明の一実施形態に係る、図4Aおよび図4Bの音声尤度および映像尤度が結合された尤度を示す図面である。
【図5A】本発明の一実施形態に係る、結合された音声尤度および映像尤度に基づいて識別された話者1の位置に基づいて、話者1の音声尤度を示す図面である。
【図5B】本発明の一実施形態に係る、結合された音声尤度および映像尤度に基づいて識別された話者2の位置に基づいて、話者2の音声尤度を示す図面である。
【図5C】本発明の一実施形態に係る、結合された音声尤度および映像尤度に基づいて識別された話者3の位置に基づいて、話者3の音声尤度を示す図面である。
【図5D】本発明の一実施形態に係る、音声尤度に基づいて位置および時間関数として音声領域を示す図面である。
【図6】本発明の一実施形態に係る、それぞれの該当するチャンネルを形成するために、分離された話者の音声グラフであり、(a)は話者1の音声グラフ、(b)はは話者2の音声グラフ、(c)は話者3の音声グラフである。
【図7】本発明の一実施形態に係る、音声期間に対する開始時間と終了時間を定義する音声包絡線を示す図面であり、(a)は図6(a)の音声に基づいた音声包絡線を示す図面、(b)は図6(b)の音声に基づいた音声包絡線を示す図面、(c)は図6(c)の音声に基づいた音声包絡線を示す図面である。
【図8】本発明の一実施形態に係る、休止および突然の発声を除去して、音声期間の開始および終了時間を再定義するために生成された該当音声包絡線を示す図面であり、(a)は図7(a)の音声包絡線に基づいた該当音声包絡線を示す図面、(b)は図7(b)の音声包絡線に基づいた該当音声包絡線を示す図面、(c)は図7(c)の音声包絡線に基づいた該当音声包絡線を示す図面である。
【図9】本発明の一実施形態に係る、選択した対象の位置を把握して集中するために、選択していない対象から発生したノイズを除去するためのビームフォーミングの使用を示す図面である。
【図10】本発明の一実施形態に係る、図1の装置の出力に対して適応的クロスチャンネル干渉除去を行う後処理装置を示すブロック図である。
【図11】本発明の一実施形態によって、図10のAVシステムのそれぞれの音声データ出力に該当し、隣接チャンネルから干渉を受けるチャンネルを示す図面である。
【図12】本発明の一実施形態に係る、それぞれのチャンネルで干渉が除去された後処理された音声データを示す図面である。
【符号の説明】
【0150】
100 映像システム
110 全方向カメラ
120 USB2.0インターフェース
200 音声システム
210 8個のマイクロフォン
220 アナログ−デジタル変換器
230 USBインターフェース
300 ロボット
310 二つのモータ
320 モータコントローラ
330 RS232Cインターフェース
400 コンピュータ

【特許請求の範囲】
【請求項1】
受信した音および映像を使用して物体を認識および追跡する装置において、
異なる方向から受信した複数のサウンドのそれぞれに対して、前記サウンドが追跡する物体のものである尤度を表す音声尤度を求める音声尤度モジュールと、
映像内の異なる方向に配置された複数のイメージのそれぞれに対し、前記映像内のイメージが追跡する物体である尤度を表す映像尤度を求める映像尤度モジュールと、
前記音声尤度と前記映像尤度とが一致するかどうかを判断し、前記音声尤度と前記映像尤度とが一致すると判断すれば、前記音声尤度および映像尤度の対を使用して、前記物体を認識して追跡し、前記音声尤度と前記音声尤度が一致しなければ、前記音源またはイメージ源には、追跡される物体が存在しないと判断する認識および追跡モジュールと、
を備えることを特徴とする装置。
【請求項2】
前記認識および追跡モジュールが、前記音声尤度および映像尤度の複数の対の間の一致を判断するときに、前記認識および追跡モジュールは、前記各対に該当する物体を個別に認識および追跡することを特徴とする請求項1に記載の装置。
【請求項3】
前記認識および追跡モジュールは、求めた対のそれぞれの位置を認識および追跡することを特徴とする請求項1に記載の装置。
【請求項4】
前記受信した映像の各イメージに対し、前記映像尤度モジュールは、前記イメージに対する映像尤度を判断するために、あらかじめ選択したイメージプロファイルと前記イメージとを比較することを特徴とする請求項1に記載の装置。
【請求項5】
前記あらかじめ選択したイメージプロファイルは、追跡する物体の色を含み、
前記映像尤度モジュールは、追跡する物体を表す特徴を識別するために、前記イメージの複数部分の色を比較することを特徴とする請求項4に記載の装置。
【請求項6】
前記あらかじめ選択したイメージプロファイルは、追跡する物体の形状を含み、
前記映像尤度モジュールは、各イメージの外縁を検出し、追跡する物体を表す特徴を識別するために、前記各イメージの外縁と前記形状とを比較することを特徴とする請求項4に記載の装置。
【請求項7】
前記あらかじめ選択したイメージプロファイルは、追跡する物体に対する姿勢を更に含み、
前記映像尤度モジュールは、追跡する物体を表す特徴を識別するために、それぞれの外縁と前記姿勢とを比較することを特徴とする請求項6に記載の装置。
【請求項8】
前記あらかじめ選択したイメージプロファイルは、追跡する物体の色を含み、
前記映像尤度モジュールは、追跡する物体を表す特徴を識別するために、前記イメージの複数部分の色を比較することを特徴とする請求項6に記載の装置。
【請求項9】
前記映像尤度モジュールは、追跡する物体を表す特徴を識別するために、前記識別したイメージを使用して、前記姿勢と前記形状のサイズとが近接するように各外縁を標準化することを特徴とする請求項8に記載の装置。
【請求項10】
前記映像尤度は、前記外縁が前記形状および前記姿勢と一致しなければ、前記外縁は、追跡する物体のものではないと判断することを特徴とする請求項9に記載の装置。
【請求項11】
前記映像尤度は、前記外縁が前記色を含んでいなければ、前記外縁は、追跡する物体のものではないと判断することを特徴とする請求項9に記載の装置。
【請求項12】
前記物体のうち第1物体が第1方向に位置し、前記物体のうち第2物体が第2方向に位置する場合に、前記音声尤度および前記映像尤度との一致に基づいて、前記認識および追跡モジュールは、前記第1物体が前記第1方向にあると判断し、前記第2物体が前記第2方向にあると判断することを特徴とする請求項1に記載の装置。
【請求項13】
前記認識および追跡モジュールは、前記第1物体が前記第2物体に対して相対的に動く場合に、前記第1物体を追跡することを特徴とする請求項12に記載の装置。
【請求項14】
前記映像尤度モジュールは、カメラから前記イメージが含まれた前記映像を受信し、前記認識および追跡モジュールは、前記第1物体が前記第2物体に対して相対的に動いて、前記第1物体が前記カメラの視界を横切る時に、前記第1物体を認識および追跡することを特徴とする請求項13に記載の装置。
【請求項15】
前記認識した物体それぞれに対してその位置を判断し、前記認識した物体それぞれに一意に該当するオーディオチャンネルを出力するために、前記サウンドから認識した物体の位置に該当する音声を分離するビームフォーマを更に備えることを特徴とする請求項1に記載の装置。
【請求項16】
受信した第1オーディオチャンネルを出力するマイクロフォンアレイを使用して前記サウンドを受信し、前記サウンドの要素を含むオーディオチャンネルをそれぞれ受信し、前記ビームフォーマは、前記第1オーディオチャネルと異なる第2オーディオチャンネルを出力し、前記第2オーディオチャンネルの番号は、認識した物体の個数に該当することを特徴とする請求項15に記載の装置。
【請求項17】
認識した物体のそれぞれに対し、ビーム形成されたオーディオチャンネルを各物体と関連して分離されたオーディオトラックとして記録する記録装置を更に備えることを特徴とする請求項16に記載の装置。
【請求項18】
前記オーディオチャンネルは、それぞれ音声が検出される聴き取り期間とその聴き取り期間の間で音声が検出されない静寂期間を備え、前記出力チャンネルに対して、それぞれの聴き取り期間に対する開始および終了時間を検出する音声期間検出器を更に備えることを特徴とする請求項15に記載の装置。
【請求項19】
前記音声期間検出器は、
隣接する前記聴き取り期間の間の近接性を検出し、前記近接性が所定の値より小さければ、前記隣接聴き取り期間を一つの連続した聴き取り期間として決定し、前記隣接聴き取り期間を連続的な聴き取り期間として形成するために連結し、あるいは、前記近接性が所定の値より大きければ、前記隣接聴き取り期間は静寂期間により分離されると決定し、前記隣接聴き取り期間を連結しないことを特徴とする請求項18に記載の装置。
【請求項20】
前記音声期間検出器は、前記聴き取り期間のそれぞれの長さを検出し、前記長さが所定の値より短ければ、前記聴き取り期間を静寂であると決定して、前記聴き取り期間を削除し、あるいは、前記長さが所定の値より長ければ、前記聴き取り期間が静寂期間ではないと決定し、前記聴き取り期間を削除しないことを特徴とする請求項18に記載の装置。
【請求項21】
前記音声期間検出器は、それぞれの聴き取り期間に対して前記検出した音声を出力して、前記それぞれの静寂期間に対して、前記オーディオチャンネルから前記サウンドを削除することを特徴とする請求項18に記載の装置。
【請求項22】
前記ビームフォーマから受信した前記複数のオーディオチャンネルのそれぞれに対し、前記残っているオーディオチャンネルにより発生するクロスチャンネル干渉と関連した音声部分を検出し、かつ前記クロスチャンネル干渉を除去する後処理装置を更に備えることを特徴とする請求項15に記載の装置。
【請求項23】
ロボット要素と、前記認識された物体に応じて、前記ロボット要素を制御するコントローラと、を更に備えることを特徴とする請求項1に記載の装置。
【請求項24】
前記ロボット要素は、前記認識された物体に応じて、前記装置を動かすのに使用される少なくとも一つのモータを備えることを特徴とする請求項23に記載の装置。
【請求項25】
前記ロボット要素は、前記認識された物体に応じて、インターフェースを介して前記装置と連結された要素を遠距離で動かすのに使用される少なくとも一つのモータを備えることを特徴とする請求項23に記載の装置。
【請求項26】
360゜パノマラ視野のイメージを前記映像尤度モジュールに出力する全方向カメラを更に備えることを特徴とする請求項1に記載の装置。
【請求項27】
イメージを前記映像尤度モジュールに出力し、360゜より狭い視野を有する少なくとも一つのカメラを備えることを特徴とする請求項1に記載の装置。
【請求項28】
前記音声尤度モジュールは、それぞれの受信サウンドに対して受信した音声方向を検出し、
前記映像尤度モジュールは、それぞれのイメージに対して観察した映像方向を検出し、
前記認識および追跡モジュールは、前記音声方向と映像方向とに基づいて、前記サウンドとイメージとが一致するかどうかを判断することを特徴とする請求項1に記載の装置。
【請求項29】
前記映像尤度モジュールにより受信された映像は、パイロセンサーから受信した赤外線映像であることを特徴とする請求項1に記載の装置。
【請求項30】
音声および映像データを受信する少なくとも一つのコンピュータを使用して、物体を追跡および認識する方法において、
異なる方向から受信した複数のサウンドのそれぞれに対し、前記少なくとも一つのコンピュータで、前記サウンドが追跡される物体のものである尤度を表す音声尤度を求めるステップと、
前記映像内の異なる方向に配置された複数イメージのそれぞれに対し、前記少なくとも一つのコンピュータで、前記映像内のイメージが追跡される物体である尤度を表す映像尤度を求めるステップと、
前記音声尤度と前記映像尤度とが一致するかどうかを判断し、前記音声尤度と前記映像尤度とが一致すると判断すれば、前記少なくとも一つのコンピュータで、前記音声尤度および映像尤度の対を使用して、前記物体のうち該当する一つを認識および追跡するステップと、
前記音声尤度と映像尤度とが一致しなければ、前記少なくとも一つのコンピュータで、前記音源またはイメージ源は、追跡する物体ではないと認識するステップと、
を含むことを特徴とする方法。
【請求項31】
前記音声尤度と前記映像尤度の複数の対の間の一致性を判断するステップを更に含み、
前記認識および追跡ステップは、個別に前記判断した対のそれぞれに該当する物体を追跡するステップを含むことを特徴とする請求項30に記載の方法。
【請求項32】
前記判断した対のそれぞれに対し、その位置を認識するステップを更に含むことを特徴とする請求項30に記載の方法。
【請求項33】
前記映像尤度を求めるステップは、前記イメージに対する前記映像尤度を求めるために、あらかじめ選択したイメージプロファイルと前記イメージとを比較するステップを含むことを特徴とする請求項30に記載の方法。
【請求項34】
前記あらかじめ選択されたイメージプロファイルは、追跡する物体の色を含み、前記映像尤度を決定するステップは、追跡する物体を表す特徴を識別するために、前記イメージの複数部分の色を比較するステップを含むことを特徴とする請求項30に記載の方法。
【請求項35】
前記あらかじめ選択したイメージプロファイルは、追跡する物体の形状を含み、前記映像尤度を求めるステップは、各イメージの外縁を検出し、追跡する物体を表す特徴を認識するための形状と前記各イメージの外縁とを比較するステップを含むことを特徴とする請求項30に記載の方法。
【請求項36】
前記あらかじめ選択したイメージプロファイルは、追跡する物体の姿勢を含み、前記映像尤度を求めるステップは、追跡する物体を表す特徴を認識するために、前記姿勢のそれぞれと各外縁とを比較するステップを含むことを特徴とする請求項35に記載の方法。
【請求項37】
前記あらかじめ選択したイメージプロファイルは、追跡する物体の色を含み、前記映像尤度を求めるステップは、追跡する物体を表す特徴を認識するために、前記イメージの複数部分の色を比較することを特徴とする請求項36に記載の方法
【請求項38】
前記映像尤度を求めるステップは、追跡する物体を表す特徴を認識するために、前記認識したイメージを使用して、前記姿勢と形状のサイズとが近接するように各外縁を標準化するステップを含むことを特徴とする請求項37に記載の方法。
【請求項39】
前記映像尤度を求めるステップは、前記外縁が前記形状および姿勢に一致していなければ、前記外縁は、追跡する物体に該当しないと判断するステップを含むことを特徴とする請求項38に記載の方法。
【請求項40】
前記映像尤度を求めるステップは、前記外縁が前記色を含んでいなければ、前記外縁は、追跡する物体に該当していないと判断するステップを含むことを特徴とする請求項38に記載の方法。
【請求項41】
前記物体のうち第1物体が第1方向に位置し、前記物体のうち第2物体が第2方向に位置する場合に、
前記音声尤度と前記映像尤度の第1の対の間、および第2の対との間にそれぞれ一致性が存在するかどうか判断するステップと、
前記音声尤度および映像尤度の第1の対と第2の対との間の一致性に基づいて、前記第1の対を使用して、前記第1物体が前記第1方向に位置すると認識し、前記第2の対を使用して、前記第2物体が前記第2方向に位置すると認識するステップと、
を更に含むことを特徴とする請求項30に記載の方法。
【請求項42】
前記第1物体が前記第2物体に対して相対的に動く時に、前記第1物体を追跡するステップを更に含むことを特徴とする請求項41に記載の方法。
【請求項43】
前記少なくとも一つのコンピュータは、カメラから前記イメージを含む前記映像を受信し、前記追跡および認識するステップは、前記第1物体が前記第2物体に対して相対的に動いて、前記第1物体がカメラの視界を前記第2物体を横切る時、前記第1物体を認識および追跡するステップを含むことを特徴とする請求項42に記載の方法。
【請求項44】
前記認識した物体のそれぞれに対して、前記認識した物体のそれぞれに位置を決定することでビームフォーミングを行うステップと、前記認識した物体のそれぞれに対して一意に該当するオーディオチャンネルを出力するために、前記それぞれ認識された物体の位置に該当する音声を前記受信サウンドから分離するステップを更に含むことを特徴とする請求項30に記載の方法。
【請求項45】
前記少なくとも一つのコンピュータは、受信した第1オーディオチャンネルを出力するマイクロフォンアレイを使用して前記サウンドを受信し、各受信オーディオチャンネルは、前記サウンドの要素を含み、前記ビームフォーミングステップは、前記第1オーディオチャンネルと異なる第2オーディオチャンネルを出力するステップを含み、前記第2オーディオチャンネルの番号は、認識した物体の個数に該当することを特徴とする請求項44に記載の方法。
【請求項46】
認識した物体のそれぞれに対し、ビーム形成されたオーディオチャンネルを各物体と関連して分離されたオーディオトラックとして保存するステップを更に含むことを特徴とする請求項45に記載の方法。
【請求項47】
前記出力チャンネルは、それぞれ音声が検出される聴き取り期間とその聴き取り期間の間で音声が検出されていない静寂期間を備え、
前記出力チャンネルに対して、それぞれの聴き取り期間に対する開始および終了時間によりスピーチインターバルを検出するステップを含むことを特徴とする請求項44に記載の方法。
【請求項48】
前記スピーチインターバルを検出するステップは、
隣接する前記聴き取り期間の間の近接性を検出するステップと、
前記近接性が所定の値より小さければ、前記隣接する聴き取り期間を一つの連続的な聴き取り期間と決定し、前記隣接聴き取り期間を連結して連続的な聴き取り期間を形成するステップと、
前記近接性が所定の値より大きければ、前記隣接する聴き取り期間を前記静寂期間により分離されると決定し、前記隣接する聴き取り期間を連結しないステップと、
を含むことを特徴とする請求項47に記載の方法。
【請求項49】
前記スピーチインターバルを検出するステップは、
前記各聴き取り期間の長さを検出するステップと、
前記長さが所定の値より短ければ、前記聴き取り期間を静寂期間であると決定し、前記聴き取り期間を削除するステップと、
前記長さが所定の値より長ければ、前記聴き取り期間が静寂期間ではないと決定し、前記聴き取り期間を削除しないステップと、を含むことを特徴とする請求項47に記載の方法。
【請求項50】
前記スピーチインターバルを検出するステップは、
前記各聴き取り期間に対し、前記検出された音声を出力するステップと、
前記各静寂期間に対し、前記オーディオチャンネルから前記サウンドを削除するステップと、
を含むことを特徴とする請求項47に記載の方法。
【請求項51】
複数のビームが形成されたオーディオチャンネルのそれぞれに対し、前記残っているオーディオチャンネルにより発生するクロスチャンネル干渉と関連した音声部分を除去し、前記クロスチャンネル干渉を除去することで前記ビーム形成されたオーディオチャンネルを後処理するステップを含むことを特徴とする請求項44に記載の方法。
【請求項52】
前記認識した物体によってロボット要素を制御するステップを更に含むことを特徴とする請求項30に記載の方法。
【請求項53】
前記ロボット要素は、少なくとも一つのモータを備え、
前記認識された物体に応じて装置を動かす前記モータを制御するステップを含むことを特徴とする請求項52に記載の方法。
【請求項54】
前記ロボット要素は、前記認識した物体に応じて、インターフェースを介して少なくとも一つのコンピュータと連結された要素を遠距離で動かすように使用する少なくとも一つのモータを備えることを特徴とする請求項53に記載の方法。
【請求項55】
前記音声尤度を決定するステップは、受信したサウンドに対し、その受信方向を検出するステップを含み、
前記映像尤度を決定するステップは、観察したイメージに対し、その観察方向を検出するステップを含み、
前記音声方向と前記映像方向との一致に基づいて、前記一致性を決定するステップと、を更に含むことを特徴とする請求項30に記載の方法。
【請求項56】
請求項30に記載の方法をコンピュータで実行させるためのプログラムが記録されたコンピュータ読み取り可能記録媒体。
【請求項57】
請求項37に記載の方法をコンピュータで実行させるためのプログラムが記録されたコンピュータ読み取り可能記録媒体。
【請求項58】
請求項55に記載の方法をコンピュータで実行させるためのプログラムが記録されたコンピュータ読み取り可能記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図3C】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図4C】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図5C】
image rotate

【図5D】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2006−123161(P2006−123161A)
【公開日】平成18年5月18日(2006.5.18)
【国際特許分類】
【出願番号】特願2005−286754(P2005−286754)
【出願日】平成17年9月30日(2005.9.30)
【出願人】(390019839)三星電子株式会社 (8,520)
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
【住所又は居所原語表記】416,Maetan−dong,Yeongtong−gu,Suwon−si Gyeonggi−do,Republic of Korea
【Fターム(参考)】