説明

スピーチ取り込み及びスピーチレンダリング

本発明は、マイクロフォンによって取り込まれるサウンド信号から、1又は複数のスピーチ信号151−154及び1又は複数のアンビエント信号131を抽出することを提案し、スピーチ信号の各々は、それぞれ異なる話者に対応する。本発明は、スピーチ信号のみを送ることとは異なり、レンダリング側に1又は複数のスピーチ信号151−154及び1又は複数のアンビエント信号131の両方を送信することを提案する。これは、レンダリング側で、スピーチ及びアンビエント信号を空間的に異なるやり方で再生することを可能にする。アンビエント信号を再生することによって、「一緒にいる」感覚が生成される。一実施形態において、本発明は、2又はそれ以上のスピーチ信号を、互いに及びアンビエント信号と空間的に異なるように再生することを可能にし、それにより、スピーチ了解度が、アンビエント信号の存在にかかわらず増大される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えばハンズフリーのオーディオ又はオーディオビジュアル会議端末において使用されるスピーチ取り込み方法及び装置に関する。本発明は更に、例えばハンズフリーのオーディオ又はオーディオビジュアル会議端末において使用されるスピーチレンダリング方法及び装置に関する。更に、本発明は、通信システム、及びハンズフリーのオーディオ又はオーディオビジュアル会議端末に関する。
【背景技術】
【0002】
今日の(ハンズフリーの)1対1通信システムにおいて、スピーチの送信は、特に帯域幅制限のため、モノラルの送信チャネルによって実現される。その結果、再生側では、すべてのサウンドが、同じ方向(又は複数のスピーカが使用される場合は同じ複数の方向)から到来し、それゆえ、両耳聴に基づいて音源を区別する人間の能力が、使用されることができない。
【発明の概要】
【発明が解決しようとする課題】
【0003】
結果として、雑音及び/又は競合する話者により汚染されたスピーチを聞くことは、困難であり、低減されたスピーチ了解度及び聴取者の疲労につながる。ハンズフリー電話システムに関するこの理由のため、送信される所望のスピーチ信号は、可能な限り「クリーン」であり、すなわち、それは、所望の直接のスピーチのみを含む。定常雑音の抑制は、ハンズフリー通信においてどうしても必要なものである。付加の処理を有するマイクロフォンアレイビームフォーミングが、スピーチを更に改善するために使用されることができる。しかしながら、既知のシステムは、特にスピーチ(メッセージ)だけでなく一緒にいる感覚も重要である非公式の場面において、通信中の対面感覚を提供しない。
【0004】
本発明の目的は、一緒にいる感覚を伴う、真に迫った通信を提供することである。
【課題を解決するための手段】
【0005】
本発明は、独立請求項によって規定される。従属請求項は、有利な実施形態を規定する。
【0006】
本発明によるスピーチ取り込み装置は、
−複数のサウンド信号を取り込むための複数のマイクロフォンを有する取り込み回路と、
−複数のサウンド信号から、個々の話者に対応する個々のスピーチ信号を各々が導き出す1又は複数の抽出回路と、
−1又は複数の抽出回路によって導き出された1又は複数のスピーチ信号を各々減じられた複数のサウンド信号から、1又は複数のアンビエント信号を導き出す残余抽出回路と、
−1又は複数のスピーチ信号及び1又は複数のアンビエント信号を送信する送信回路と、を有する。
【0007】
このようにして、1又は複数のスピーチ信号が、取り込み回路によって取り込まれたサウンド信号から抽出されることができる。抽出回路は、話者に対応するスピーチ信号を提供する。このスピーチ信号は、所望の話者の前にある1又は複数のクロストークマイクロフォンによって供給される信号とみなされることができる。残余抽出回路は、アンビエント情報(すなわち、所望の話者がいない状況でサウンド信号に含まれる情報)を含むアンビエント信号を導き出す。これらのスピーチ及びアンビエント信号を別々に送信する場合、レンダリング側は、スピーチ及びアンビエント信号を、空間的にそれぞれ異なるやり方で再生することが可能である。アンビエント信号を再生することによって、「一緒にいる」感覚が生成される。更に、一実施形態において、本発明は、2又はそれ以上のスピーチ信号を、互いに及びアンビエント信号と空間的に異なるように再生することを可能にし、それにより、アンビエント信号の存在にもかかわらず、スピーチ了解度が増大され、リスナーの疲労が低減される。
【0008】
一実施形態において、スピーチ取り込み装置は更に、話者の1又は複数のロケーションを判定するオーディオビジュアルロケータを有し、各々の抽出回路は、話者の一人一人のロケーションに方向付けられる。オーディオビジュアルロケータを使用する利点は、抽出回路のロバストネスを改善する。話者が、移動していて話していない場合でも、抽出回路は、同じ一人の話者にフォーカスされたままでありうる。このようにして、話者が(再び)話し始めると、抽出回路は、すでにフォーカスされており、第1の語が、高い品質を伴って取り込まれる。そうでない場合、抽出回路は、第1の語の間に、再フォーカスされなければならず、これは、第1の語に関してより低い品質をもたらす。
【0009】
他の実施形態において、送信回路は更に、話者のロケーションを含む空間的な情報を送信する。(複数の)話者のロケーションに関するこのような空間的な情報は、取り込み側の聴覚的情景を表す。このような空間的な情報により、取り込み側と同じ聴覚的情景をレンダリング側で再現することが可能である。この特性は、特にオーディオがビデオに対応しなければならないオーディオビジュアル会議にとって重要である。例えば、視覚的情景が、左、中央及び右の位置に位置する3人の話者を含む場合、位置情報は、(ほぼ)これらの3つの位置において話者を再生するために、レンダリング側で使用されることができる。
【0010】
他の実施形態において、各々の抽出回路は、スピーチ信号を導き出すための一般化サイドローブキャンセラを有する。一般化サイドローブキャンセラは、特に適応的なビームフォーミングに適しているビームフォーミングの実現例である。このようなキャンセラにおいて、ビームは、所望の話者にフォーカスされる。
【0011】
他の実施形態において、各々の抽出回路は更に、スピーチ信号における更なるノイズ低減のためのポストプロセッサ回路を有する。ポストプロセッサは更に雑音を除去し、それにより、送信回路によって送信されるスピーチ信号における雑音はより少なくなる。これは、所望の話者がよりよく区別されることができ、レンダリング側で任意の所望のロケーションに所望の話者を位置付けるために生成されるより多くの自由度がある、という利点をもつ。
【0012】
他の実施形態において、残余抽出回路は更に、1又は複数の抽出回路によって導き出されたスピーチ信号を各々減じられた複数のサウンド信号から、1又は複数のアンビエント信号を導き出すマルチチャネル適応フィルタを有する。マルチチャネル適応フィルタは、サウンド信号に含まれるスピーチ信号を評価する。これらのスピーチ信号は、サウンド信号から減算され、こうしてアンビエント信号を提供する。
【0013】
他の実施形態において、マルチチャネル適応フィルタは、参照信号として、マイクロフォンのうちの1つによって取り込まれたサウンド信号を入力するように結合される。このようにして、1つのアンビエント信号は、相対的に低い複雑さで生成される。
【0014】
本発明の別の見地により、スピーチレンダリング装置は、
−1又は複数のスピーチ信号及び1又は複数のアンビエント信号を受信する受信回路であって、各スピーチ信号はそれぞれ異なる話者に対応する、受信回路と、
−スピーチ信号がアンビエント信号と異なる方向から来るように知覚されるように、1又は複数のスピーチ信号及び1又は複数のアンビエント信号を空間的に再生するレンダリング回路と、
を有する。レンダリング側でアンビエント信号を再生することによって、「一緒にいる」感覚が生成される。2又はそれ以上のスピーチ信号が、互いに及びアンビエント信号と空間的に異なって再生される実施形態において、スピーチ了解度は、アンビエント信号の存在にもかかわらず維持され又は増大されさえする。
【0015】
一実施形態において、レンダリング回路は、スピーチ信号の2又はそれ以上を、それらスピーチ信号が相互に異なる方向から来るように知覚されるように、空間的に再生する。スピーチ信号を空間的に異なって再生することによって、レンダリング側の聴取者がそれぞれ異なる話者を区別すること、及び話者が同時に話す場合に話者の一人に集中することが、一層容易になる。これは、聴取者のより少ない疲労及び改善されたスピーチ了解度につながる。
【0016】
他の実施形態において、受信回路は更に、話者のロケーションに関する空間的な情報を受信し、レンダリング回路は、スピーチ信号が空間的な情報によって表されるロケーションから来るように知覚されるように、スピーチ信号を空間的に再生する。このようにして、レンダリング側において、取り込み側と同じ聴覚的情景が生成されることができ、これは、特にサウンド及びビデオが揃えられるべきであるオーディオビジュアル通信システムにとって重要である。
【0017】
他の実施形態において、スピーチ信号が知覚される方向は、話者を視覚化したものにおける話者のロケーションに揃えられる。この実施形態において、同じ話者に対応するオーディオ対象及びビデオ対象は、1つのオーディオビジュアル対象として知覚され、これは、聴取者にとって自然に知覚され、スピーチがビデオ対象の方向と別の方向から来る場合に生じる疲労を低減する。
【0018】
他の実施形態において、1又は複数のアンビエント信号の振幅が低減される。このようにして、聴取者は、自分の環境においてレンダリングを制御することができ、レンダリングを、自分の環境に生じている他のアンビエント信号に適応させることができる。
【0019】
本発明の別の見地により、スピーチ信号を通信する通信システム、及びハンズフリーのオーディオ又はオーディオビジュアル会議端末が提供される。
【0020】
本発明のこれらの及び他の見地、特徴及び利点は、以下に記述される(複数の)実施形態から明らかであり、それらを参照して説明される。
【図面の簡単な説明】
【0021】
【図1】本発明によるスピーチ取り込み装置の実施形態を示す図。
【図2】オーディオビジュアルロケータを有するスピーチ取り込み装置の実施形態を示す図。
【図3】ポストプロセッサ回路を有する抽出回路の実施形態を示す図。
【図4】抽出回路がポストプロセッサ回路を有するスピーチ取り込み装置の実施形態を示す図。
【図5】アンビエント信号を導き出すためのマルチチャネル適応フィルタを有する残余抽出回路の実施形態を示す図。
【図6】本発明によるスピーチレンダリング装置の実施形態を示す図。
【図7】本発明によるスピーチ取り込み装置及びスピーチレンダリング装置を有する、スピーチ信号を通信する通信システムの例を示す図。
【発明を実施するための形態】
【0022】
図1は、本発明によるスピーチ取り込み装置100の一実施形態を示す。スピーチ取り込み装置100は、ハンズフリーのオーディオ又はオーディオビジュアル会議端末において使用されることができる。ハンズフリーのオーディオ又はオーディオビジュアル会議端末は、2つの異なるロケーション、例えば部屋、に位置する話者が互いに通信する1対1の通信アプリケーションを実現するために使用される。ロケーションにおける話者の数は、1人から複数の話者までさまざまでありうる。部屋の中の話者のロケーションもまた変化しうる。
【0023】
装置100は、複数のサウンド信号111、112...116を取り込むための取り込み回路110を有する。取り込み回路110は、複数のマイクロフォン101、102...106を有する。これらのマイクロフォンは、好適には、マイクロフォンのアレイの形で構成される。6つのマイクロフォンのみがこの例において示されているが、マイクロフォンの数はこの数に限定されない。
【0024】
スピーチ取り込み装置100は更に、1又は複数の抽出回路121、122...124を有する。抽出回路の各々は、話者のうちの一人に対応する。この例において、抽出回路121は、第1の話者に対応し、抽出回路122は、第2の話者に対応する等である。抽出回路の各々は、それぞれ異なる話者に対応する。抽出回路の各々は、当該話者に対応するスピーチ信号を導き出し、例において、それは信号151、152又は154の1つである。信号151は、例において、第1の話者に対応し、信号152は、第2の話者に対応する等である。スピーチ信号151乃至154の各々は、取り込み回路110によって取り込まれるような複数のサウンド信号101、102...106から導き出される。スピーチ取り込み装置100は更に、複数のサウンド信号から1又は複数のアンビエント信号131を導き出すための残余抽出回路130を有する。アンビエント信号は、サウンド信号から導き出される信号束160として示される、スピーチ信号を補完するものを表す。言い換えると、アンビエント信号は、1又は複数の抽出回路によって導き出されたスピーチ信号151、152...154を減じられたサウンド信号から導き出される(スピーチ信号が、サウンド信号から減算される)。
【0025】
スピーチ取り込み装置100は、1又は複数のスピーチ信号151、152...154及び1又は複数のアンビエント信号131を送信する送信回路150を更に有する。送信回路150は、スピーチ信号及びアンビエント信号を単一の出力信号181にマージし、出力信号181は、スピーチレンダリング装置500に送信される。当業者であれば、マージが、例えば連結又は多重化の知られている方法によって行われることができることが明らかである。
【0026】
図2は、オーディオビジュアルロケータ140を有するスピーチ取り込み装置100の一実施形態を示す。オーディオビジュアルロケータ140は、1又は複数の話者のロケーションを検出する。話者のロケーションに関する情報は、抽出回路を特定の話者のロケーションに方向付けるために、抽出回路に供給される。オーディオビジュアルロケータは、さまざまなやり方で実現されることができる。オーディオビジュアルロケータの知られている例は、例えば米国特許第6850265B1号公報又はN. Strobel, S. Spors, and R. Rabenstein, Joint audio-video object localization and tracking, IEEE Signal Processing Magazine, vol. 18, no. 1, pp. 22-31, Jan. 2001である。空間的な情報は、米国特許第6850265B1号公報に記載されるような角度、又はN. Strobel, S. Spors, and R. Rabenstein, Joint audio-video object localization and tracking, IEEE Signal Processing Magazine, vol. 18, no. 1, pp. 22-31, Jan. 2001に記載されるような位置を含むことができる。
【0027】
図2に表されるスピーチ取り込み装置100は、オーディオビジュアルロケータ140によって拡張された図1の装置である。例において、第1の話者141のロケーションに関する情報は、抽出回路121に供給され、第2の話者142のロケーションに関する情報は、抽出回路122に供給される。2人の話者のみがいるように、2つの抽出回路のみが図2に示されているが、より多くの抽出回路が使用されることができる。抽出回路の数は、話者の数と一致する。送信回路150は、話者のロケーションに関する情報をも送信するように変更される。これは、スピーチレンダリング装置500が、スピーチ信号151、152をレンダリングする際に話者141、142のロケーションに関する情報を使用することを可能にする。
【0028】
一実施形態において、抽出回路121又は122は、ビームフォーマ回路を含む。ビームフォーマ回路の例の1つは、国際公開第2005/050618号又は国際公開第2005/106841号パンフレットに記載されるような一般化サイドローブキャンセラである。一般化サイドローブキャンセラは、米国特許第7146012号に開示されるように、例えばフィルタードサムビームフォーマを含むことができ、その後に、例えば米国特許第7058185号明細書に開示されるようなマルチチャネルノイズキャンセラが続く。
【0029】
図3は、例えば米国特許第6546099号明細書に記述されるようなポストプロセッサ回路220を有する抽出回路121の実施形態を示す。サウンド信号111乃至116は、一般化サイドローブキャンセラ210に供給され、一般化サイドローブキャンセラ210は、その出力部にスピーチ信号151を供給する。このスピーチ信号151は、残余抽出回路130への入力として提供される。スピーチ信号151は、ポストプロセッサ220にも供給され、ポストプロセッサ220は、スピーチ信号151の更なるノイズ低減を実施する。それゆえ、ポストプロセッサ220は、その出力部に、スピーチ信号151よりクリーンである他のスピーチ信号161を生成する。ポストプロセッサ回路220は、送信回線150による送信のために他のスピーチ信号161を供給し、他のスピーチ信号161は、図1及び図2に示されるようなスピーチ信号151と置き換わる。
【0030】
図4は、スピーチ取り込み装置100の一実施形態を示し、抽出回路121、122乃至124は、ポストプロセッサ回路220を有する。抽出回路121乃至124の各々は、2つの出力部を有し、第1の出力部には、例えば回路121に関するスピーチ信号151であるスピーチ信号が供給され、第2の出力部には、例えば回路121に関するスピーチ信号161である他のスピーチ信号が供給される。信号161、162...164は、信号151、152...154に代わって、送信回路に供給される。
【0031】
図1及び図2と比較して、残余抽出回路130は、ただ1つの出力信号131Aをもつ。残余抽出回路は2つのステージを有する。第1のステージでは、入力サウンド信号(信号11、112...116の1つ)の各々について、スピーチ信号151、152...154が減算される。その結果、抽出回路によって抽出されたスピーチ信号に関連するスピーチ成分のいずれも含まない変更されたサウンド信号が、取得される。どんな信号が、残余抽出回路130の出力部に供給されるべきかについてさまざまなオプションがある。例えば、変更されたサウンド信号が、回路130の出力部にそのまま供給されることができる。別の例は、すべての変更されたサウンド信号にわたる平均信号が、回路130の出力部に供給されることができるものである。別の代替例は、回路130の出力部に供給される変更されたサウンド信号のうちの1つを選択することである。更に他の代替例が、図5に記述されている。
【0032】
図5は、アンビエント信号131Aを導き出すための、米国特許第7058185号明細書に記載されるようなマルチチャネル適応フィルタを有する残余抽出回路130の実施形態を示す。この特定の実施形態において、マルチチャネル適応フィルタは、簡潔さの目的で、2チャネルである。しかしながら、マルチチャネル適応フィルタは、4チャネルであってもよく、その場合、各チャネルは、抽出回路121乃至124の1つに対応する。
【0033】
図5の実施形態において、マイクロフォン101によって取り込まれるサウンド信号111が、参照信号として選ばれる。スピーチ信号151及び152は、それぞれ2つの適応フィルタ310及び320に供給される。適応フィルタ310及び320フィルタは、入力信号151及び152をそれぞれフィルタし、ここで、適応フィルタ310及び320は、残余信号131Aによって制御される。残余信号131Aは、サウンド信号111と適応フィルタ310及び320の出力信号との間の差を計算する減算回路400によって供給される。適応フィルタ310及び320は、残余信号131Aのエネルギーが最小にされるようなやり方で、それらの係数を調整する。フィルタの適応化のために、S. Haykin, Adaptive Filter Theory, Englewood Cliffs (NJ, USA): Prentice-Hall, 1986, ISBN 0-13-004052-5 025に記載されるような正規化最小二乗平均(NLM)フィルタが使用されることができる。代替の形態は、米国特許第7058185号明細書に記載されるような周波数ドメイン適応フィルタを使用することである。残余信号131Aは、回路130の出力信号でもある。
【0034】
図6は、本発明によるスピーチレンダリング装置500の実施形態を示す。スピーチレンダリング装置500は、
−1又は複数のスピーチ信号151乃至154及び1又は複数のアンビエント信号(信号束)131を受信する受信回路510であって、各スピーチ信号はそれぞれ異なる話者に対応する、受信回路510と、
−1又は複数のスピーチ信号が1又は複数のアンビエント信号と異なる方向から来るように知覚されるように、1又は複数のスピーチ信号151乃至154及び1又は複数のアンビエント信号(信号束)131を空間的に再生するレンダリング回路520と、
を有する。
【0035】
受信回路510は、入力信号181から、スピーチ信号151乃至154及びアンビエント信号131を抽出する。受信回路510は、送信回路150において実施される動作を逆にするよく知られた動作を機能的に実施する。受信回路510は、スピーチ信号及びアンビエント信号を入力信号181から抽出する。当業者であれば、抽出が、例えば連結解除又は逆多重化の知られている方法によって行われることができることが明らかである。
【0036】
任意には、話者の位置に関する空間的な情報171が、入力信号181中に存在する場合、それは、受信回路510によって抽出され、レンダリング回路520に供給される。
【0037】
レンダリング回路520は、再生回路530にスピーチ信号及びアンビエント信号をマップする。再生回路は、スピーカを含みうる。例において、再生回路530は、5.1構造の5つのスピーカ531乃至535を有する。スピーカ532は、中央チャネル信号を再生し、スピーカ533は、右前方チャネル信号を再生し、スピーカ531は、左前方チャネル信号を再生し、スピーカ535は、右後方チャネル信号を再生し、スピーカ534は、左後方チャネル信号を再生する。2人の話者のみが存在する場合、第1の話者のスピーチ信号151は、スピーカ531によって再生されることができ、第2の話者のスピーチ信号152は、スピーカ532によって再生されることができる。アンビエント信号は、スピーカ535及び534によって再生されることができる。複数のスピーチ信号の場合、これらの信号は、スピーチ信号がそれぞれ異なる方向から来るように知覚される錯覚を与えるために、前方スピーカ531、532及び533によって再生されることができる。この知覚効果は、振幅パニング、時間遅延パニング及び波動場合成技法のようなさまざまなやり方で達成されることができる。
【0038】
代替として、スピーカに代わって、ヘッドホンが使用されることができる。そのような場合、HRTF(Chapter 13 "3D Audio and Virtual Acoustical Environment Synthesis" by Jiashu Chen in the book Acoustical Signal Processing For Telecommunication by Steven L. Gay and Jakob Benesty (Editors) Kluwer Academic Publishers: 2000 ISBN 0-7923-7814-8)が、仮想空間でスピーチ信号及びアンビエント信号を再生するために使用されることができる。
【0039】
他の実施形態において、受信回路510は更に、話者のロケーションに関する空間的な情報171を受信し、レンダリング回路520は、スピーチ信号151乃至154が空間的な情報171によって表されるロケーションから来るように知覚されるように、スピーチ信号を空間的に再生する。これは、例えば振幅パニングを使用して行われる。振幅パニングによって、話者が2つのスピーカ位置の間に位置するように知覚されるように、スピーチ信号を仮想的に位置付けることが可能である。
【0040】
他の実施形態において、スピーチ信号が知覚される方向は、話者を視覚化したものにおける話者のロケーションに揃えられる。
【0041】
他の実施形態において、1又は複数のアンビエント信号の振幅が低減される。
【0042】
図7は、本発明によるスピーチ取り込み装置100及びスピーチレンダリング装置500を有する、スピーチ信号を通信する通信システムの例を示す。
【0043】
通信は、2つの端末700及び800を有する。これらの端末の各々は、スピーチ取り込み装置100及びスピーチレンダリング装置500を有する。これらの端末は、2つの異なるロケーション、例えば部屋、に位置する話者が互いに通信する1対1の通信アプリケーションを有する。端末800に含まれるスピーチ取り込み装置100は、端末700に含まれるレンダリング装置500に送信されるスピーチ信号及びアンビエント信号を含む出力信号181Aを生成する。それぞれ、端末700に含まれるスピーチ取り込み装置100は、端末800に含まれるレンダリング装置500に送信されるスピーチ信号及びアンビエント信号を含む出力信号181Bを生成する。
【0044】
本発明は、幾つかの実施形態に関連して記述されているが、本明細書に記述される特定の形態に限定されることは意図されない。むしろ、本発明の範囲は、添付の請求項によってのみ制限される。更に、特徴は、特定の実施形態に関して記述されているようにみえうるが、当業者であれば、記述された実施形態のさまざまな特徴が、本発明に従って組み合わせられることができることが分かるであろう。請求項において、有する、含む、という語は、他の構成要素又はステップの存在を除外しない。
【0045】
更に、複数の回路、構成要素又は方法ステップは、個別に列挙されているが、例えば単一のユニット又はプロセッサによって実現されることができる。更に、個別の特徴が、それぞれ異なる請求項に含まれることができるが、これらは、有利に組み合わせられることが可能であり、それぞれ異なる請求項における包含は、特徴の組み合わせが実現可能でなく及び/又は有利でないことを示さない。更に、請求項の1つのカテゴリにおける特徴の包含は、このカテゴリへの限定を意味するものではなく、特徴が他の請求項のカテゴリに等しく適用可能であることを示す。更に、単数形の言及は、複数性を除外しない。「a」、「an」、「first」、「second」等の語は、複数性を除外しない。請求項における参照符号は、単に例示を明確にするものとして与えられており、いかなる形であれ請求項の範囲を制限するものとして解釈されるべきでない。本発明は、幾つかの個別の構成要素を含むハードウェアの回路によって、及び適切にプログラムされたコンピュータ又は他のプログラム可能な装置の回路によって、実現されることができる。

【特許請求の範囲】
【請求項1】
スピーチ取り込み装置であって、
複数のサウンド信号を取り込むための複数のマイクロフォンを有する取り込み回路と、
前記複数のサウンド信号から、個々の話者に対応する個々のスピーチ信号を各々が導き出す1又は複数の抽出回路と、
前記1又は複数の抽出回路によって導き出された前記1又は複数のスピーチ信号を各々減じられた前記複数のサウンド信号から、1又は複数のアンビエント信号を導き出す残余抽出回路と、
前記1又は複数のスピーチ信号及び前記1又は複数のアンビエント信号を送信する送信回路と、
を有するスピーチ取り込み装置。
【請求項2】
前記スピーチ取り込み装置は、前記話者の1又は複数のロケーションを判定するオーディオビジュアルロケータを更に有し、各抽出回路は、前記話者の個々の人のロケーションに方向付けられる、請求項1に記載のスピーチ取り込み装置。
【請求項3】
前記送信回路は更に、前記話者の1又は複数のロケーションを含む空間的な情報を送信する、請求項2に記載のスピーチ取り込み装置。
【請求項4】
各抽出回路は、前記スピーチ信号を導き出すための一般化サイドローブキャンセラを有する、請求項1又は2に記載のスピーチ取り込み装置。
【請求項5】
各抽出回路は、前記スピーチ信号において更なるノイズ低減を行うポストプロセッサ回路を更に有する、請求項1又は2に記載のスピーチ取り込み装置。
【請求項6】
前記残余抽出回路は、前記1又は複数の抽出回路によって導き出された前記1又は複数のスピーチ信号を各々減じられた前記複数のサウンド信号から、1又は複数のアンビエント信号を導き出すマルチチャネル適応フィルタを更に有する、請求項1に記載のスピーチ取り込み装置。
【請求項7】
前記マルチチャネル適応フィルタは、参照信号として、前記マイクロフォンの1つによって取り込まれたサウンド信号を入力するように結合される、請求項6に記載のスピーチ取り込み装置。
【請求項8】
スピーチレンダリング装置であって、
1又は複数のスピーチ信号及び1又は複数のアンビエント信号を受信する受信回路であって、各スピーチ信号がそれぞれ異なる話者に対応する、受信回路と、
前記1又は複数のスピーチ信号が前記1又は複数のアンビエント信号と異なる方向から来るように知覚されるように、前記1又は複数のスピーチ信号及び前記1又は複数のアンビエント信号を空間的に再生するレンダリング回路と、
を有するスピーチレンダリング装置。
【請求項9】
前記レンダリング回路は、スピーチ信号の2又はそれ以上が互いに異なる方向から来るように知覚されるように、該スピーチ信号を空間的に再生する、請求項8に記載のスピーチレンダリング装置。
【請求項10】
前記受信回路は、前記話者のロケーションに関する空間的な情報を更に受信し、前記レンダリング回路は、前記スピーチ信号が空間的な情報によって表されるロケーションから来るように知覚されるように、前記スピーチ信号を空間的に再生する、請求項9に記載のスピーチレンダリング装置。
【請求項11】
前記スピーチレンダリング装置は、前記スピーチ信号が知覚される方向を、前記話者を視覚化したものにおける前記話者のロケーションに揃えるように構成される、請求項8に記載のスピーチレンダリング装置。
【請求項12】
前記スピーチレンダリング装置は、前記1又は複数のアンビエント信号の振幅を低下させる、請求項8に記載のスピーチレンダリング装置。
【請求項13】
スピーチ信号を通信する通信システムであって、
請求項1乃至7のいずれか1項に記載のスピーチ取り込み装置と、
請求項8乃至12のいずれか1項に記載のスピーチレンダリング装置と、
を有する通信システム。
【請求項14】
ハンズフリーのオーディオ又はオーディオビジュアル会議端末であって、
請求項1乃至7のいずれか1項に記載のスピーチ取り込み装置と、
請求項8乃至12のいずれか1項に記載のスピーチレンダリング装置と、
を有する端末。
【請求項15】
スピーチ取り込み方法であって、
複数のサウンド信号を取り込むステップと、
前記複数のサウンド信号から、1又は複数の個々の話者に対応する1又は複数のスピーチ信号を導き出すステップと、
前記1又は複数のスピーチ信号を各々減じられた前記複数のサウンド信号から、1又は複数のアンビエント信号を導き出すステップと、
前記1又は複数のスピーチ信号及び前記1又は複数のアンビエント信号を送信するステップと、
を含む方法。
【請求項16】
スピーチレンダリング方法であって、
1又は複数のスピーチ信号及び1又は複数のアンビエント信号を受信するステップであって、各スピーチ信号はそれぞれ異なる話者に対応する、ステップと、
前記1又は複数のスピーチ信号が前記1又は複数のアンビエント信号と異なる方向から来るように知覚されるように、前記1又は複数のスピーチ信号及び前記1又は複数のアンビエント信号を空間的に再生するステップと、
を含む方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公表番号】特表2012−513701(P2012−513701A)
【公表日】平成24年6月14日(2012.6.14)
【国際特許分類】
【出願番号】特願2011−541699(P2011−541699)
【出願日】平成21年12月17日(2009.12.17)
【国際出願番号】PCT/IB2009/055803
【国際公開番号】WO2010/073193
【国際公開日】平成22年7月1日(2010.7.1)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】