説明

オーディオ入力信号の反響コンテンツを抽出および変更するためのシステム

【課題】入力信号の反響コンテンツを抽出および変更するための好適な方法および装置を提供すること。
【解決手段】反響システムに対するインパルス応答を推定する方法は、反響システムからの信号をブロックのシーケンスにサンプリングするステップであって、この信号は、インパルス応答を有する、ステップと、シーケンスの各ブロックに対し、先のブロックの大きさに応じて、大きさを決定するステップと、決定された大きさを用いて、有限インパルス応答フィルタに対するパラメータとして、インパルス応答の推定を作成するステップと、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
(発明の分野)
本発明は、入力信号の反響成分および非反響成分の分解および変更に関し、より詳細には、入力信号の成分の知覚可能性を低減および増大させることに関する。本発明は特に、オーディオ信号における反響を低減または増大させる用途を有している。
【0002】
信号内に見出される反響がその信号の最終的な使用のためには不適切である場合が多くあるので、反響を変更することが可能な手段が存在することが望ましくあり得る。さらに、反響が録音された音響空間を直接的に測定する必要なしに、この反響を変更することが可能であることが望ましくあり得る。
【背景技術】
【0003】
(発明の背景)
ほぼ全てのオーディオ信号は、オリジナルのドライ信号(dry signal)と反響との組み合わせから構成されている。反響は、反響システムを通るドライ信号に起因する。例えば、コンサートホールで上演している歌手を考える。この例において、歌手の声はドライ信号であり、コンサートホールは反響システムである。コンサートホールのいくつかの位置にマイクロフォンを配置し、結果として生じるサウンドを録音すると、コンサートホールの反響特性が重ね合わされたドライ音声信号が得られるであろう。すなわちマイクロフォンは、歌手に起因する直接的なサウンド成分とコンサートホールを通るサウンドに起因する反響成分との混合物をキャプチャする。
【0004】
オリジナルのドライ信号が、音響空間の反響特性(オリジナルのドライ信号の上に重ね合わされている)を有している場合に、オリジナルのドライ信号(または直接的な信号成分)を復元することは極めて困難である。同様に、反響成分の特性またはレベルを変更することは極めて困難である。この困難は、部分的に、反響がオリジナルのドライ信号に応じたものであるという事実に起因する。すなわち、反響は、オリジナルのドライ信号から作られる。さらに、典型的には、反響システムに関するいかなる反響情報に対してもアクセスすることができない。コンサートホールにおける歌手の例を用いると、マイクロフォンは、コンサートホールの音響の詳細を直接的に録音しない。むしろマイクロフォンは、歌手の声のサウンド(その上にコンサートホールの音響特性が重ね合わされている)を録音する。
【0005】
一部の用途(例えば、音楽の録音)においては、特定の量の反響は非常に望ましい。なぜならば、特定の量の反響は、主観的満足(subjectively pleasing)をもたらす各音色(note)の伸びと、深さおよび環境の感知とを提供し得るからである。勿論、一部の音響空間(例えば、コンサートホール)は、その他の音響空間よりも主観的満足を与え得る。しかしながら、典型的には、主観的満足を与える音響空間のほとんどに対してはアクセスすることができないので、録音の反響成分は、所望のものほどには良いものではないことがあり得る。すなわち、反響は、その録音のためには完全に適したものではないことがあり得る。この場合において、現在では、録音の反響成分を変更するために行われ得ることは、それほど多くはない。録音の反響エネルギーが不足している場合には、人工反響デバイスを介して録音を処理することによって、より多くの反響エネルギーを追加することができる。しかしながら、これらのデバイスによって生成された反響は、自然なものとして聴こえない傾向があり、録音内に既に存在している反響を相補することは考えられない。逆に、録音が過度に大きな反響を有している場合には、現在では、反響成分のレベルを低減させるために行われ得ることは、それほど多くはない。録音が正しい量の反響を有しているが、正しい特性を有していない場合には、現在では、反響の特性を変更するために行われ得ることは、それほど多くはない。これらの場合の各々において、適切な反響特性を入手するために、直接的なサウンド成分ならびに反響エネルギーのレベルおよび特性を変更することが可能であるならば、非常に有利であり得る。
【0006】
その他の用途においては、ささやかな(modest)量の反響は適切ではない。なぜならば、ささやかな量の反響は、信号の明確度(clarity)および明瞭度(intelligibility)を低下させるからである。例えば、テレビ会議(ハンドフリー電話がしばしば用いられる)の用途において、オフィスまたは会議室の反響は、スピーチ信号のサウンドを「うつろ(hollow)」にする望ましくない影響を有し得る。これはしばしば、レインバレル効果(rain barrel effect)と称される。その他の関連する用途(例えば、セキュリティ、監視、科学捜査)において、反響は非常に望ましくない。なぜならば反響は、スピーチ信号の明瞭度を低減させ得るからである。しかしながら、そのような状況においては、典型的には、音響空間の反響特性に対するいかなる制御をも有することは不可能である。スピーチ認識システムにおいて、反響は、単語を正確に識別するシステムの能力を低減させ、ひいては認識率を低減させ得る。認識率が過度に低くなると、スピーチ認識システムは、役に立たなくなり得る。反響は、障害のある人々に対して特有の困難を引き起こし得る。なぜならば、反響の望ましくない影響は、しばしば障害のある人々の聴覚の障害によって、倍加されるからである。スピーチの明瞭度に対する反響の負の影響は、しばしば聴覚の障害を有する人々に対しては、より深刻なものとなる。補聴器の増幅器が音響信号を増幅し、その音響信号をより聴こえるようにするとき、補聴器の増幅器は、直接的なサウンド成分と反響成分との両方を増幅する。したがって、信号を増幅することは、反響の負の影響を克服することには役立たない。これらの増幅の各々においては、直接的なサウンド成分に対して反響成分のレベルが適切なレベルになるように、反響成分のレベルを低減させることが可能であることが、非常に望ましくあり得る。オーディオ信号における反響の量を低減させることを試みるための1つの一般的なアプローチは、指向性マイクロフォンまたはマイクロフォンアレイを用いることである。指向性マイクロフォンおよびマイクロフォンアレイは、特定の方向から到達するサウンドを受け入れ、その他の方向から到達するサウンドを拒絶する。したがって、マイクロフォンが適切な場所に配置された場合、そのマイクロフォンは、所望のドライ信号を受け入れる一方で、反響の一部分を拒絶し得る。
【0007】
指向性マイクロフォンまたはマイクロフォンアレイを首尾よく用いるには、所望の信号が配置される場所を知っていることが必要である。このアプローチは、その場所が知られていない場合、またはその場所が時間につれて変化する場合に、満足に機能しないことがあり得る。なぜならば、所望の信号が拒絶され得るからである。またこのアプローチは、特定の用途においては、マイクロフォンアレイの物理的なサイズ、必要なハードウェア資源(例えば、マイクロフォン、増幅器、等)の量における増加、そして結果としてもたらされるコストにおける増加が原因で、適切ではないことがあり得る。代わりに、音響空間に関するいかなる知識をも伴わずに、そしてソースの位置に関するいかなる知識をも伴わずに、単一の非指向性マイクロフォンを用いることによって、反響成分のレベルを適切なレベルに低減させることが可能であることが、非常に有利であり得る。
【0008】
映画およびテレビの製作においては、聴こえてくるサウンド(例えば、台詞およびサウンド効果)が、スクリーン上で見られる画像に適した反響特性を有していることが重要である。例えば、小さな部屋でシーンが撮影されていることを画像が示している場合、サウンドは、実際にはそのサウンドがより大きなサウンドステージで録音されている場合でさえも、小さな部屋の反響特性を有し得る。用語「ルームトーン(room tone)」は、しばしば映画およびテレビの製作において、音響空間の音響特性を記述するために用いられる。一般的に、映画およびテレビの製作において、サウンドは、非常にさまざまな場所において録音される。例えば、台詞の一部分が映画の撮影時に録音される一方で、台詞のその他の部分が録音スタジオまたは「ダビング」スタジオにおいて後日録音されることがあり得る。録音スタジオまたはダビングスタジオにおいては、俳優は、ビデオまたは彼らの演技を見ながら、彼らの台詞を朗読する。このプロセスは、自動吹替え(automatic dialog replacement;ADR)として公知であり、非常に一般的に行われている。台詞の異なる部分が自然かつ現実的に聴こえるようにするためには、異なる録音のルームトーン(反響特性)を整合させ、台詞の異なる部分が全て同じ音響空間内で録音されたものであるようにする必要がある。さらに通常、サウンドを、それらのサウンドが非常に特殊な音響空間(非常に特殊なルームトーンを有している)において録音されたようにすることが所望されることがある。
【0009】
ADRの例において、録音は、しばしば非常にドライである。なぜならば、録音スタジオまたはダビングスタジオは、通常、注意深く制御された音響空間だからである。すなわち、録音内には非常にわずかな反響しかない。この場合、特定の部屋の反響特性を録音の上に重ね合わせることが所望され得る。これは、部屋の音響特性が直接的に入手できない場合には、非常に困難であり得る。しかしながら、その部屋において録音されたその他の録音が入手可能であり得る。この例においては、音響空間の音響特性を録音から抽出することが可能であることが、非常に有用であり得る。さらに、適切な音響空間の反響特性を録音の上に重ね合わせることが可能であることが、有用であり得る。
【0010】
台詞の異なる部分が、異なる音響空間(その各々は顕著な量の反響を有している)において録音された場合には、異なる録音の反響特性をいかにして整合させるかという問題がある。これを行うためには、第1に、適切な音響空間の反響特性を適用する前に行われた録音において、部屋の反響特性を除去しなければならない。上述のように、これは今日まで満足のいく程度に解決されてはいない困難な問題である。この状況においては、録音の音響特性を除去し、ひいては、適切な音響空間の音響特性を適用することが可能であることが、非常に有用であり得る。
【0011】
ある部類の状況において、オーディオ信号内に見出される反響は、信号を処理する能力をなんらかの方法で制限するという意味で、不適切なものである。例えば、オーディオデータリダクションシステム(audio data reduction system)においては、信号を格納または送信するために小さな量のデータが用いられるように、信号を圧縮することが目的である。そのようなシステムは、信号を圧縮するためのエンコーダと、その後に信号を復元するためのデコーダとを用いる。これらのオーディオデータリダクションシステムは、圧縮プロセスの結果として情報が損失されず、その結果、デコーダにおいてオリジナルの信号が完全に復元される場合に、「無損失(lossless)」であり得る。その他のバリエーションは、「損失性(lossy)」なので、デコーダにおいて復元される信号は、オリジナルの入力信号とは同じではない。オーディオデータリダクションシステムは、オーディオ信号において冗長性が高い場所に依存する。すなわち、オーディオデータリダクションシステムは、「予測可能」なオーディオ信号の上で最も良く動作する。しかしながら、オーディオ信号における反響は、オーディオ信号の予測可能性を低減させる。現在では、オーディオデータリダクションシステムの性能を向上させるために、反響の影響を克服するための手段は存在しない。エンコーダにおいて信号を圧縮する前に、信号を直接的なサウンド成分と反響成分とに分解し、その後、圧縮された信号をデコーディングした後に反響信号を抽出することが可能であれば、非常に望ましくあり得る。
【0012】
信号を処理する能力を反響が制限する別の例は、オーディオ透かし(audio watermarking)である。オーディオ透かしにおいては、オーディオ信号の中に情報を隠すことが目的である。この隠された情報は、曲の著作権保護のようなことに用いられ得る。オーディオ透かしシステムは、オーディオ信号に小さな改変を施すことによって動作する。これらの改変は、透かしが成功した場合には、聴こえなくなり得る。オーディオ透かしシステムにおいては、曲の非常に特殊な時点において、改変を施すことが所望され得る。しかしながら、この改変は、直接的なサウンド成分と反響成分とが、改変の結果として、もはや互いに整合しなくなった場合に、聴こえるようになり得る。オーディオ信号の反響成分を除去し、オーディオ透かしを挿入し、そして元の信号の反響成分を追加することが可能であることが、非常望ましくあり得る。
【0013】
別の部類の状況において、信号内に見出される反響は、なんらかの処理の結果として不適切なものとなり得る。例えば、背景のノイズを除去するために、または信号ダイナミックレンジを変更するために、信号を処理することは一般的である。この処理は、しばしば録音における直接的なサウンド成分と反響成分との間の関係を変更し、その結果、その関係は、もはや適切なものではなくなる。現在では、この処理の後に反響成分を補正するための手段は存在しない。
【0014】
音響空間の音響特性を測定することは、しばしば手軽ではないか、または不可能である。上述の例を用いると、コンサートホールにおける歌手の録音に対しては容易にアクセスすることができるが、コンサートホールそのものに対しては滅多にアクセスすることができない。また、コンサートホールに対してアクセスできない場合でさえも、録音時の音響条件(例えば、歌手およびマイクロフォンの位置、観衆の存在、等)を再現することができない可能性がある。したがって、反響システム内で行われた録音(またはリアルタイムの信号)から、その反響システムの詳細を抽出することが可能であることが望ましくあり得る。最も重要なことは、反響システムの知覚上関連のある局面の詳細を抽出することが可能であることが望ましくあり得るということである。今日まで、この必要性を十分に満たす方法は存在しない。反響システムのこの詳細は、録音における反響特性を改変または低減するためにシステムの一部として、または録音の上に反響特性を重ね合わせるためにシステムの一部として、反響システムを解析するために用いられ得る。
【0015】
最初期のオーディオ録音(例えば、映画、音楽、テレビ、等)は、モノラルであった。すなわち、モノラルのオーディオ録音は、1つだけのチャネルの上に録音されていた。ステレオのオーディオ録音は、典型的にはより心地が良い。なぜならば、ステレオのオーディオ録音は、音響空間の反響特性の空間的局面を再現することにおいて、より優れているからである。モノラルの録音をステレオのフォーマットに変換する試みのために、数多くの処理が開発されてきた。これらの技術は、これらの技術が直接的なサウンド成分と反響成分との両方を処理するという事実によって、制限される。これらの技術は、これらの技術が直接的なサウンド成分と反響成分とを別個に処理することができたならば、劇的に向上され得る。現在において、信号を直接的なサウンド成分と反響成分とに分解し、それらが別個に処理され得るようにするための満足のいく方法は存在していない。
【0016】
マルチチャネルのサウンドシステムは、ますます人気を博してきている。ステレオシステムは2つのチャネル(ゆえに、2つのラウドスピーカ)を有しているが、マルチチャネルのサウンドシステムは、多数のチャネルを有している。典型的なマルチチャネルのサウンドシステムは、5つのチャネル(ゆえに、5つラウドスピーカ)を有している。現在では、マルチチャネルのオーディオ録音の数は、非常に限られている。逆に、非常に多くのモノラル録音およびステレオ録音が入手可能である。モノオーディオ信号またはステレオオーディオ信号を取り、モノオーディオ信号またはステレオオーディオ信号からマルチチャネルのオーディオ信号を生成することが可能であることが、非常に望ましくあり得る。これを行うための現在の方法は、「マトリクスデコーディング(matrix decoding)」と称されるアプローチを用いる。これらの方法は、ステレオ録音を取り、録音の異なる部分を、マルチチャネルシステムのチャネルの各々に配置する。音楽の録音の場合に、機器の一部は、リスナーの背後に配置されて現れ得る。これは、一部の状況においては、望ましくない結果である。例えば、オーケストラの録音を再生する場合、典型的には、機器の一部がリスナーの背後に配置されて現れることは所望されない。むしろ、典型的には、楽器がリスナーの前方に配置されて現れ、コンサートホールの反響がリスナーの周囲全体から到達するように現れることが所望され得る。
【0017】
この問題にアプローチするための1つの方法は、前方のラウドスピーカにオリジナルのステレオ信号を送信し、その一方で、人工反響デバイスを介して、ステレオ信号の処理も行うことである。人工反響デバイスの出力は、コンサートホールの反響のシミュレーションを提供することが意図されており、それらの出力は、後方の(サラウンド)ラウドスピーカに送信され得る。このアプローチは、いくつかの理由で満足のいくものではない。第1に、このアプローチは、ステレオ信号内に既に存在している反響の一番上に追加的な反響を追加する。したがって、このアプローチは、その特定の録音に対し、反響の全体の量を不適切なものとし得る。さらに、人工反響デバイスによって追加された反響は、ステレオ録音における反響の特性と整合しない可能性がある。これは、結果として得られるマルチチャネル信号を、不自然に聴こえさせてしまい得る。より良いアプローチは、ステレオ信号を、その直接的なサウンド成分とその反響成分とに分解することである。
【0018】
オリジナルの信号が直接的な成分と反響成分とに分解されると、マルチチャネルの人工反響デバイスを介して直接的なサウンド成分を処理することによって、マルチチャネルのオーディオ信号を形成することを選択することが可能となる。この方法は、追加的な反響を追加する問題を迂回し得る。なぜならば、信号の反響成分が除去されるからである。この方法はまた、人工的な反響とオリジナルの録音における反響との間の不整合を回避し得る。
【0019】
代替的に、オリジナルの信号が直接的な成分と反響成分とに分解されると、直接的な成分を前方のラウドスピーカに送信することによって、マルチチャネルのオーディオ信号を形成することを選択することが可能となる。これは、再現された音場における機器の前方の配置を維持し得る。オリジナルの信号の反響成分は、後方のラウドスピーカに送信され得るか、またはその反響成分は、適切な方法で、サブ成分に分解され、ラウドスピーカの全てにわたって分散され得る。このアプローチは、オリジナルの録音の成分からマルチチャネル信号の全体を形成し、その結果より自然に聴こえる結果を形成するという、顕著な利点を有している。信号を直接的な成分と反響成分とに分解し、その結果マルチチャネル信号がこの方法で生成され得ることを可能にする、現在利用可能な方法は存在しない。
【0020】
一般的に、反響システムにおけるサウンドの録音を有しており、その反響システムの音響特性を何らかの方法によって直接的に測定することができた場合に、反響システムを数学的に逆転(invert)させ、オリジナルのドライサウンドを完全に復元することが可能であることが望ましくあり得る。この処理は、逆フィルタリングとして公知である。しかしながら、逆フィルタリングは、反響システムの完全な音響特性の正確な測定がなくては、行われ得ない。さらに、結果として得られる逆フィルタは、その音響特性の1つのセットに特有のものである。逆フィルタリングを用いることによって、所与の反響システムにおける録音から、異なる反響システムから測定された音響特性を用いてオリジナルのドライ信号を復元することは、不可能である。例えば、部屋における1つの位置に対して導出された逆フィルタは、同じ部屋におけるその他の任意の位置に対しては、有効ではない。逆フィルタに関するその他の問題は、逆フィルタが、計算的な要求が厳しく、結果として得られる信号の上に顕著な遅延を重ね合わせ得るということである。この遅延は、多くのリアルタイムの用途においては、受け入れられないものであり得る。したがって、逆フィルタの利点を達成する一方で、ほとんどの現実世界の用途において逆フィルタを非実用的にしている制限を克服するための手段を有することが望ましくあり得る。現在では、この仕事を適切に行うために利用可能な手段は存在しない。
【発明の概要】
【発明が解決しようとする課題】
【0021】
上述のように、オーディオ信号内に見出される反響が、そのオーディオ信号の意図された最終的な用途に対して適切ではない多くの状況が存在する。したがって、オーディオ信号の直接的なサウンド成分および/または反響のサウンド成分を改変することが可能であることに対する必要性が存在する。さらに、反響が録音された音響空間を直接的に測定する必要なしに、この反響を改変することが可能であることが望ましくあり得る。これらの問題は、今日までに、満足のいく程度には、解決されていない。
【課題を解決するための手段】
【0022】
本発明の一局面にしたがうと、本発明は、オーディオ信号の反響成分を識別および変更するための方法および装置を提供することによって、上述の必要性に対処する。
【0023】
信号の反響成分は、この信号が録音またはキャプチャされた反響システムによって決定される。反響システムの特性は、(音源とマイクロフォンとの間の)そのインパルス応答
によって完全に記述される。インパルス応答はまた、そのフーリエ変換(またはその他のなんらかの変換)を計算することによって、周波数領域において見ることができる。フー
リエ表現は、大きさの応答と位相の応答との両方を提供する。本発明は、反響システムを表すインパルス応答をブロックに分割することに依存しており、各ブロックは、インパルス応答の一部を表している。本発明はさらに、ブロックの各々の周波数領域の表現の大きさの応答の推定によって、インパルス応答を推定することに依存する。人間の聴覚システムは、短い持続時間にわたる位相に対しては比較的鈍感なので、大きさの応答をベースとする表現は、正しいインパルス応答の知覚上適切な推定を形成する。
【0024】
本発明の一局面にしたがうと、時間および周波数にわたる信号のレベルにおける変化を追跡することに基づいて、インパルス応答の大きさの応答をベースとした表現の、ブロックをベースとした推定を導出するための方法が提供される。この方法は、信号から直接的に、インパルス応答の大きさの応答のブロックをベースとした推定を導出し、インパルス応答の直接的な測定を必要としない。
【0025】
本方法は、任意の所与の時間において、信号におけるエネルギーが、現在のドライ信号におけるエネルギーと、全ての先の信号の反響成分におけるエネルギーの和とから構成されるという事実に依存する。
【0026】
本発明は、インパルス応答の大きさの応答のブロックをベースとした推定を用い、信号の反響成分に関連するエネルギーを識別し、抽出する。
【0027】
本発明の別の局面にしたがうと、信号の反響成分の特性は、インパルス応答の大きさの応答のブロックをベースとした推定を調整することによって、変更され得る。
【0028】
本発明の別の局面にしたがうと、第1の信号から導出されたソースの反響システムの反響特性は、第2の信号に適用され得る。
【0029】
本発明の様々な局面は、信号の反響成分が変更され、その結果、その信号をその意図された最終的な用途により適したものとすることを可能にする。
【0030】
本方法および装置はまた、知覚モデルを含み得る。知覚モデルの主な目的は、処理に起因するアーチファクトの可聴度を低減させることである。これは、反響信号のどの部分が反響信号のその他の部分によってマスクされているかを決定することによって、行われ得る。マスキングは、人間の聴覚システムにおいて起こる現象であり、この現象によって、聴こえる可能性のある信号は、別の信号の存在によって聴こえなくされる。処理内に知覚モデルを含めることによって、反響信号の可聴部分のみが抽出され、その結果、オリジナルの信号の周波数を改変する量が低減される。知覚モデルはまた、時間および周波数にわたる内部パラメータの相互作用を提供し、耳のマスキング特性を反映する。結果として、これらの周波数を改変することに起因するアーチファクトは、低減される。
【0031】
本方法および装置はまた、1つ以上のソースモデルを含み得る。1つのソースモデルの目的は、オリジナルのドライ音源の音響特性のモデルを提供することである。第2のソースモデルの目的は、反響システムの特性のモデルを提供することである。オリジナルのドライ信号の音響特性と反響システムの音響特性とを知ることによって、入力信号のどの部分がドライ信号に起因しており、どの部分が反響に起因しているかに関するより優れた判断がなされ得る。例えば、ほとんどの反響システム(部屋)は、時間の経過につれて指数
的に減衰するシステムとして、適切にモデル化され得る。
本発明は、例えば、以下を提供する。
(項目1)
反響システムに対するインパルス応答を推定する方法であって、
反響システムからの信号をブロックのシーケンスにサンプリングするステップであって、該信号は、インパルス応答を有する、ステップと、
該シーケンスの各ブロックに対し、先のブロックの大きさに応じて、大きさを決定するステップと、
決定された大きさを用いて、有限インパルス応答フィルタに対するパラメータとして、該インパルス応答の推定を作成するステップと
を包含する、方法。
(項目2)
前記サンプリングするステップは、時間領域をベースとしている、項目1に記載の方法。
(項目3)
前記サンプリングするステップは、周波数領域をベースとしている、項目1に記載の方法。
(項目4)
前記サンプリングするステップは、等しいブロックを提供する、項目1に記載の方法。
(項目5)
前記ブロックは、重なり合っている、項目4に記載の方法。
(項目6)
前記サンプリングするステップは、窓を用いる、項目1に記載の方法。
(項目7)
前記決定するステップは、先の大きさの平方に対する現在の大きさの平方の比を求めるステップを含む、項目1に記載の方法。
(項目8)
前記決定するステップは、先の大きさのq乗に対する現在の大きさのq乗の比を求めるステップを含み、qは正の数である、項目1に記載の方法。
(項目9)
前記サンプリングするステップは、フィルタバンクを用いる、項目1に記載の方法。
(項目10)
前記推定を作成するステップは、平滑化するステップを含む、項目1に記載の方法。
(項目11)
反響システムからの信号を分解する方法であって、
反響システムからの信号をブロックのシーケンスにサンプリングするステップであって、該信号は、インパルス応答を有する、ステップと、
該シーケンスの各ブロックに対し、先のブロックの大きさに応じて、大きさを決定するステップと、
決定された大きさを用いて、有限インパルス応答フィルタに対するパラメータとして、該インパルス応答の推定を作成するステップと、
該推定されたインパルス応答の逆を該信号に適用し、直接的な信号成分と反響信号成分とのうちの少なくとも1つを導出するステップと
を包含する、方法。
(項目12)
前記サンプリングするステップは、時間領域をベースとしている、項目11に記載の方法。
(項目13)
前記サンプリングするステップは、周波数領域をベースとしている、項目11に記載の方法。
(項目14)
前記サンプリングするステップは、等しいブロックを提供する、項目11に記載の方法。
(項目15)
前記ブロックは、重なり合っている、項目14に記載の方法。
(項目16)
前記サンプリングするステップは、窓を用いる、項目11に記載の方法。
(項目17)
前記決定するステップは、先の大きさの平方に対する現在の大きさの平方の比を求めるステップを含む、項目11に記載の方法。
(項目18)
前記決定するステップは、先の大きさのq乗に対する現在の大きさのq乗の比を求めるステップを含み、qは正の数である、項目11に記載の方法。
(項目19)
前記サンプリングするステップは、フィルタバンクを用いる、項目11に記載の方法。
(項目20)
前記推定を作成するステップは、平滑化するステップを含む、項目11に記載の方法。
(項目21)
直接的な信号成分と反響信号成分とのうちの少なくとも1つを改変するステップをさらに含む、項目11に記載の方法。
(項目22)
前記改変された直接的な信号成分および前記反響信号成分と、該改変された直接的な信号成分および前記改変された反響信号成分と、該直接的な信号成分および該改変された反響信号成分とのうちの少なくとも1つを再び組み合わせるステップをさらに含む、項目21に記載の方法。
(項目23)
前記有限応答フィルタを第2の信号に適用し、人工的な反響信号を生成するステップをさらに含む、項目1に記載の方法。
(項目24)
反響システムからの信号を分解する方法であって、
反響システムからの信号をブロックのシーケンスにサンプリングするステップであって、該信号は、インパルス応答を有する、ステップと、
該シーケンスの各ブロックに対し、先のブロックの大きさに応じて、大きさを決定するステップと、
決定された大きさを用いて、有限インパルス応答フィルタに対するパラメータとして、該インパルス応答の推定を作成するステップと、
該推定されたインパルス応答の逆を該信号に適用し、直接的な信号成分を導出するステップと、
該有限インパルス応答フィルタと該直接的な信号成分とのうちの少なくとも1つを改変するステップと、
改変された反響信号をそこから再構成するステップと
を包含する、方法。
(項目25)
前記サンプリングするステップは、時間領域をベースとしている、項目24に記載の方法。
(項目26)
前記サンプリングするステップは、周波数領域をベースとしている、項目24に記載の方法。
(項目27)
前記サンプリングするステップは、等しいブロックを提供する、項目24に記載の方法。
(項目28)
前記ブロックは、重なり合っている、項目27に記載の方法。
(項目29)
前記サンプリングするステップは、窓を用いる、項目24に記載の方法。
(項目30)
前記決定するステップは、先の大きさの平方に対する現在の大きさの平方の比を求めるステップを含む、項目24に記載の方法。
(項目31)
前記決定するステップは、先の大きさのq乗に対する現在の大きさのq乗の比を求めるステップを含み、qは正の数である、項目24に記載の方法。
(項目32)
前記サンプリングするステップは、フィルタバンクを用いる、項目24に記載の方法。
(項目33)
前記推定を作成するステップは、平滑化するステップを含む。項目24に記載の方法。
(項目34)
反響システムからの、少ないチャネルを有する信号を用いてマルチチャネル信号を形成する方法であって、
反響システムからの該信号をブロックのシーケンスにサンプリングするステップであって、該信号は、インパルス応答を有する、ステップと、
該シーケンスの各ブロックに対し、先のブロックの大きさに応じて、大きさを決定するステップと、
決定された大きさを用いて、有限インパルス応答フィルタに対するパラメータとして、該インパルス応答の推定を作成するステップと、
該推定されたインパルス応答の逆を該信号に適用し、直接的な信号成分と反響信号成分とのうちの少なくとも1つを導出するステップと、
該直接的な信号成分と該反響信号成分とを再び組み合わせ、マルチチャネル信号を形成するステップと
を包含する、方法。
(項目35)
少ないチャネルを有する前記信号は、モノラル信号であり、前記マルチチャネル信号は、ステレオ信号である、項目34に記載の方法。
(項目36)
少ないチャネルを有する前記信号は、ステレオ信号であり、前記マルチチャネル信号は、サラウンドサウンド信号である、項目34に記載の方法。
【図面の簡単な説明】
【0032】
【図1】図1は、音源および受信マイクロフォンを有する反響室を示している。
【図2】図2は、ブロックベースの分解の表現を用いてインパルス応答の成分を示している。
【図3】図3は、信号プロセッサ5の概略図を示している。
【図4】図4は、時間領域におけるブロックベースの畳み込みを示している。
【図5】図5は、周波数領域におけるブロックベースの畳み込みを示している。
【図6】図6は、ドライ成分および反響成分への信号の周波数領域のブロックベースの分解を示している。
【図7】図7は、再構成プロセッサ38の周波数領域のブロックベースの畳み込み演算を示している。
【図8】図8は、ステレオ入力信号からマルチチャネル出力信号を形成する手段を示している。
【発明を実施するための形態】
【0033】
本発明は、信号の反響成分を変更する手段を提供する。これは一般に、第1に、基礎となる反響システムのインパルス応答の周波数領域の表現の知覚上関連のある推定を入手することによって、達成される。インパルス応答のこの推定を用いることにより、信号は、この信号の反響成分を抽出し、そしてドライ信号の推定と反響信号の推定とを入手することができるように、処理される。必要に応じて、さらなる処理が、ドライ信号と反響信号とに適用され得る。
【0034】
音響空間のインパルス応答は、反響システムの完全な記述を提供する。コンサートホールにおける歌手の上述の例を用いると、反響システム(この場合は、コンサートホール)は、歌手と録音マイクロフォンとの間のインパルス応答によって、完全に記述され得る。様々な音響空間(例えば、風呂場と対比したときのコンサートホール)が、非常に異なって知覚される反響条件を有し得ることは、周知である。これらの差異は、様々な空間のインパルス応答における差異によって記述される。
【0035】
反響システムのインパルス応答は、反響室2における音源s(t)1と、録音マイクロフォン3とを示している、図1を考えることによってよりよく理解され得る。音源がインパルスサウンドによって構成されている場合、マイクロフォンによって録音されるものは、音源とマイクロフォンとの間の反響システムのインパルス応答であり得る。インパルス応答は、直接的なサウンド成分4を含んでおり、この直接的なサウンド成分は、マイクロフォンに到達する第1のサウンドである(なぜならば、このサウンド成分は、音源とマイクロフォンとの間の最短距離を有しているから)。直接的なサウンド成分の後には、図中で破線によって示されているように、一連の反射されたサウンド(反射)が続き得る。到達時間および反射の振幅は、反響システムの特性を決定する。直接的なサウンド成分の後に到達する反射は、反響成分を構成する。したがって、反響システムの1つの影響は、オリジナルのドライ信号に反響を追加するということである。すなわち、反響は、オリジナルのドライ信号にエネルギーを追加する。数学的には、これは、m(t)=s(t)+r(t)と表され、ここでr(t)は、インパルス応答h(t)によって記述される反響システムを通る信号s(t)に起因する反響信号成分である。
【0036】
インパルス応答の例は、図2に与えられている。第1の垂直の線は、直接的なサウンド4を表しており、その一方で、残りの線は反響を示している。各線の高さは、振幅を示しており、時間軸の上での各線の位置は、その到達時間を示している。時間が経過するにつれて、反射の数は、個々の反射を識別することがもはや可能ではなくなる程度にまで増加する。最終的に、反射は、指数的に減衰するシステムになる。これは、典型的には、インパルス応答の反響のテール(reverberant tail)11と称される。
【0037】
いわゆる早期反射12は、直接的なサウンド成分の直後に到達し、反響のテールとは異なる知覚上の影響を有している。これらの早期反射は、部屋のサイズや、ソースとマイクロフォンとの間の距離に関する知覚上の手掛かりを提供する。早期反射はまた、それらがサウンドに対して向上された明確度および明瞭度を提供し得るという点で、重要である。反響のテールはまた、音響空間に関する知覚上の手掛かりを提供する。音響空間のインパルス応答を3つの知覚部分(直接的なサウンド4、早期反射12、および反響のテール11)に分割することは、一般的である。
【0038】
音響空間が単一のインパルス応答を有していないことに注目することは重要である。図1の例を用いると、音源1が特定の位置に配置され、マイクロフォン3が所与の位置に配置されたときに、部屋に対するインパルス応答が存在することが分かる。音源またはマイクロフォンが(たとえ小さな量であっても)移動された場合、異なるインパルス応答が得られる。したがって、任意の所与の部屋に対し、実質的に無数の可能性のあるインパルス応答が存在する。なぜならば、1の位置と3の位置との可能性のある組み合わせは実質的に無数だからである。
【0039】
インパルス応答はまた、そのフーリエ変換(またはその他の変換)を計算することによって、周波数領域において見ることができるので、反響システムは、周波数領域の表現H(ω)の観点で、完全に記述され得る。変数ωは、周波数を示す。インパルス応答のフーリエ変換は、大きさの応答と位相の応答との両方を提供する。一般的に、大きさの応答は、インパルス応答における異なる周波数成分の相対的なレベルに関する情報を提供し、その一方で、位相の応答は、周波数成分の時間的局面に関する情報を提供する。音源1またはマイクロフォン3を、部屋における1つの位置から近くの位置に移動させることは、大きさの応答に対しては大した影響を与えない傾向があるものの、位相の応答に対しては劇的な影響を与える傾向がある。すなわち、部屋におけるインパルス応答の近くは、同様の大きさの応答を有する傾向があるが、非常に異なる位相の応答を有し得る。
【0040】
日常の経験は、所与の部屋の中では、我々がインパルス応答における差異に対しては、特に敏感ではないことを教えてくれる。例えば、誰かが話しているのを聞きながら部屋の中を動き回っているとき、動くのに伴ってインパルス応答が連続的に変化している場合でさえも、我々は人間の声のサウンドにおける劇的な変化を聴かない傾向がある。我々が劇的な差異を聞かない理由は、耳が主に、インパルス応答の全体的特徴(gross feature)に対して敏感であり、細かい詳細に対しては敏感ではないからである。より詳細には、耳は、インパルス応答の大きさの応答における変化に比べると、位相の応答における変化に対しては遥かに敏感ではない。一般に、耳は短時間にわたる位相に対しては非常に鈍感である。(D.L.Wang and J.S.Lim,「The unimportance of phase in speech enhancement」,IEEE Trans.Acoust.Speech,Signal Processing,vol.ASSP−30,no4,pp.679−681,Aug.1982)。上述のように、部屋における様々なインパルス応答は、同様の大きさの応答を有する傾向があるが、非常に異なる位相の応答を有し得る。
【0041】
本発明は、入力信号における反響エネルギーの大きさの推定の周波数領域の推定を生成することによって、機能する。反響エネルギーの大きさのこの推定は、入力信号から差し引かれ、そして入力信号の大きさの推定を提供する。反響の入力信号の位相は、オリジナルのドライ信号を近似するために用いられる。この処理が全体として、全体のインパルス応答を用いて行われる場合、処理される信号内では、シビアな時間領域のアーチファクトが聴こえ得る可能性がある。したがって、本発明においては、全体のインパルス応答の推定は短いブロックに分割され、ブロックをベースとした方法で処理が実行される。ブロックの長さは、処理された出力信号の位相におけるエラーに起因する、いかなる時間領域のアーチファクトをも知覚しないように十分に短く選択される。
【0042】
一般に、本発明において、信号プロセッサ5は、入力信号m(t) 3に作用し、この入力信号を異なるコンポーネント6に分解する。これらのコンポーネントは、オリジナルのドライ信号s(t)1の推定
【0043】
【数1】

と、反響成分r(t)の推定
【0044】
【数2】

とから構成され得る。反響成分の推定
【0045】
【数3】

は、サブ成分にさらに分解され得、これらのサブ成分は、反響信号の様々な部分の推定
【0046】
【数4】

を表す。一般に、信号プロセッサ5はまた、ドライ信号成分の推定および反響信号成分の推定のいずれかまたは全てを改変する。本発明は、周波数領域において、m(t)に作用する。入力信号m(t)3は、時間サンプルのブロックに重なり解析窓(overlapping analysis window)21を適用することによって、周波数領域の表現に変換される。時間−周波数領域プロセッサ22は、入力の時間サンプルに応答して、入力スペクトルを生成する。時間−周波数領域の変換を達成するために、時間−周波数領域プロセッサは、離散フーリエ変換(DFT)、ウェーブレット変換、またはその他の変換を実行し得るか、あるいは解析フィルタバンクによって置換されたり、または解析フィルタバンクを実装したりし得る。この実施形態においては、DFTが用いられる。入力信号m(t)は、必ずしも図1に示されているようなマイクロフォンから導出される必要はないことに留意されたい。本発明は、任意のオーディオ信号に対し、それがどのように生成されるかに関わらず作用し得る。
【0047】
インパルス応答推定器24は、入力信号M(ω)25の周波数領域の表現に作用し、インパルス応答H(ω)の周波数領域の表現の知覚上関連のある推定
【0048】
【数5】

23を生成する。一般に、インパルス応答推定器24は、入力信号に作用し、ブロックをベースとしたH(ω)の推定を生成する。このブロックをベースとしたインパルス応答の推定は、複数のブロックの推定
【0049】
【数6】

16から構成され、これらのブロックの推定は、図2に示されているようなインパルス応答
【0050】
【数7】

15のブロックの周波数領域の推定と対応している。
【0051】
反響調整プロセッサ26は、インパルス応答の1つ以上の周波数領域のブロック推定器16に応答して、入力信号のスペクトルM(ω)の周波数成分を調整し、1つ以上の反響が調整された周波数スペクトル27(入力信号のスペクトルM(ω)の調整されたスペクトル成分を含む)を生成するように動作可能である。一般に、反響調整プロセッサ26は、1つ以上の調整された周波数スペクトル27を導出し、これは、入力信号の成分がオリジナルのドライ信号の一部分であるか、または反響信号も一部分であるかに基づいて、この入力信号の成分を通過、増幅、または減衰させ得る。
【0052】
信号改変器28は、反響が調整された周波数スペクトル27と入力信号のスペクトル25との周波数成分を改変および混合し、1つ以上の出力周波数スペクトルZ(ω),Z(ω),・・・,Z(ω) 29を生成するように動作する。
【0053】
周波数−時間領域プロセッサ30は、出力周波数スペクトルに応答して、時間サンプルz(t),z(t),・・・,z(t) 32を生成するように動作する。周波数−時間領域プロセッサは、一般に、時間−周波数領域プロセッサ22の逆の機能を実行する。結果的に、好適な実施形態において、各周波数−時間領域プロセッサは、逆離散フーリエ変換(IDFT)を実行する。
【0054】
分解プロセッサ33は、インパルス応答H(ω)の周波数領域の表現のブロックをベースとした推定
【0055】
【数8】

23を用い、入力信号M(ω)25の周波数領域の表現に作用し、オリジナルのドライ信号
【0056】
【数9】

34の推定と、反響信号の1つ以上の成分の推定
【0057】
【数10】

35とを生成する。
【0058】
ドライ信号改変器36は、オリジナルのドライ信号の推定
【0059】
【数11】

34の周波数成分を調整し、オリジナルのドライ信号の改変された推定
【0060】
【数12】

を生成するように動作可能である。反響信号改変器37は、反響信号成分の1つ以上の推定
【0061】
【数13】

の周波数成分を独立的に調整し、反響信号成分の改変された推定を生成するように動作可能である。
【0062】
一般に、再構成プロセッサ38は、オリジナルのドライ信号の改変された推定
【0063】
【数14】

と、反響信号成分の改変された推定
【0064】
【数15】

とを取り、1つ以上の反響が調整された周波数スペクトル27を生成する。
【0065】
第2の入力信号s(t)40は、第2の入力信号に反響を追加するために、再構成プロセッサに提供され得る。入力信号s(t)40は、時間サンプルのブロックに重なり解析窓41を適用することによって、周波数領域の表現に変換される。時間−周波数領域プロセッサ42は、入力の時間サンプルに応答して、入力スペクトルを生成する。追加された反響の特性は、インパルス応答23のブロックをベースとした推定によって、決定される。
【0066】
本発明の性能は、インパルス応答推定器24に1つ以上のソースモデル43を含めることによって、向上され得る。ソースモデルは、反響システムの物理的特性を説明するために用いられ得る。例えば、反響システム(部屋)の応答は、時間の経過につれて、指数的に減衰する傾向がある。
【0067】
インパルス応答推定器24によって導出されたブロックをベースとした推定は、その後の使用のために、格納され44、抽出される。インパルス応答改変器45は、インパルス応答のブロックをベースとした推定の周波数成分を独立的に調整し、インパルス応答の改変されたブロックをベースとした推定を生成するように動作可能である。
【0068】
分解プロセッサ33の性能は、ソースモデル46を含めることによって向上され得る。ソースモデルの1つの目的は、どの程度の所与の周波数帯域が減衰または増幅され得るのかを決定するときに、ドライ音源の物理的特性を説明することであり得る。分解プロセッサ33の性能はまた、知覚モデル47を含めることによって向上され得る。知覚モデルの1つの目的は、周波数帯域を改変する量を制限し、その結果、ドライ信号を抽出する際に、望ましくない反響成分がドライ信号によってマスクされる地点までにのみ、その反響成分が減衰されるようにすることである。同様に、反響信号を抽出する際に、望ましくないドライ信号成分は、その成分が反響信号によってマスクされる地点までにのみ、減衰される。実際には、知覚モデルおよびソースモデルの局面は、組み合わされ得る。
【0069】
再構成プロセッサ38の性能は、ソースモデル48を含めることによって、向上される。ソースモデルの1つの目的は、どの程度の所与の周波数帯域が減衰または増幅され得るのかを決定するときに、ドライ音源の物理的特性を説明することであり得る。分解プロセッサ38の性能はまた、知覚モデル49を含めることによって向上される。知覚モデルの1つの目的は、周波数帯域を改変する量を制限し、その結果、反響が調整されたスペクトルを導出する際に、ドライ信号および反響信号の望ましくない成分が所与の信号成分によってマスクされる地点までにのみ、それらの成分が減衰されるようにすることである。実際には、知覚モデルおよびソースモデルの局面は、組み合わされ得る。
【0070】
実際には、ソースモデル46、48と知覚モデル47、49との局面は組合されたり、分解プロセッサ33と再構成プロセッサ38との間で共有されたりし得る。
【0071】
本発明の様々な部分の動作は、コントローラ50によって、独立的に制御可能であり得る。
【0072】
(好適な実施形態)
以下では、入力信号をそのオリジナルのドライ信号成分と反響成分とに分解するための好適な実施形態を記載する。反響成分はさらに、多数のサブ成分に分解される。この好適な実施形態は、数多くの用途(スピーチ信号または音楽信号を変更し、所望の反響特性を入手すること、スピーチ信号の明瞭度を向上させること、ならびにモノラル、ステレオ、またはマルチチャネルの入力信号から、追加的なオーディオチャネルを形成することを含む)に用いられ得る。
【0073】
入力信号がモノラルである場合について、好適な実施形態が記載される。この実施形態を記載するにあたり、入力信号m(t)3は、ドライ音源s(t)1と反響成分r(t)との組み合わせから構成されることが仮定される。ここでr(t)は、s(t)がインパルス応答h(t)を有する反響システムを通る結果である。入力信号3は、その他の手段によって形成され得ることが理解される。
【0074】
入力信号m(t)は、22において、周波数領域の表現に変換される。この実施形態においては、離散フーリエ変換(DFT)の高速の実装(50%の重なりのルートハニング窓21を用いる)が利用される。その他の周波数領域の表現(離散コサイン変換、またはウェーブレット変換を含む)が利用され得ることが、当業者には理解されよう。代替的に、周波数領域の表現を提供するために、フィルタバンクが利用され得る。その他の窓関数が利用され得、重なりの量は50%までに制限されるということもまた、理解されよう。時間−周波数変換において、時間サンプルのゼロパディングが用いられ得、処理に起因し得る任意の時間的なエイリアシングアーチファクトを低減し得るということが、理解されよう。入力信号の周波数領域の表現は、M(ω)25である。
【0075】
インパルス応答推定器24は、入力信号の周波数領域の表現に作用し、インパルス応答
【0076】
【数16】

23の周波数領域の表現のブロックをベースとした推定を生成する。図2に示されているように、インパルス応答h(t)は、B+1個のブロックに分割され、これらのブロックは、h(t),h(t),・・・,h(t)15から構成されており、これらには、周波数領域の表現H(ω),H(ω),・・・,H(ω)16が対応している。好適な実施形態において、全てのブロックは同じサイズであり、各々は長さDを有している。インパルス応答推定器は、H(ω),H(ω),・・・,H(ω)の知覚上関連のある推定を生成する。この実施形態において、これらの知覚上関連のある推定
【0077】
【数17】

は、H(ω),H(ω),・・・,H(ω)の大きさの推定にそれぞれ基づいている。
【0078】
当業者には、インパルス応答h(t)が有限インパルス応答(FIR)フィルタによって、そのフィルタが十分な長さである場合に、適切に近似され得ることが理解されよう。したがって、信号m(t)は、h(t)に等しいインパルス応答を有するFIRフィルタを介して、ドライ信号s(t)を処理することによって、入手され得る。このフィルタリングまたは畳み込み演算は、インパルス応答のブロックをベースとした表現15を用いることによって、等しく実装され得る。ブロックをベースとした実装は、図4に示されている。
【0079】
信号s(t)は、h(t),h(t),・・・,h(t)に等しいインパルス応答を有するB+1個のFIRフィルタを介して処理される。これらのFIRフィルタの出力を時間整列(time−align)させるために、信号s(t)は、一連の遅延要素δ(t−D)17によって遅延される。各遅延要素は、Dサンプルの遅延を提供し、これらのサンプルは、ブロックFIRフィルタの長さに対応する。各遅延要素は、長さDのFIRフィルタとして実装され得、0に等しい最後のフィルタのタップ以外の全てを有し、最後のフィルタのタップは1に等しい。ブロックをベースとしたFIRフィルタリングの動作は、数学的には
【0080】
【数18】

のように、または等価なものとして、
【0081】
【数19】

のように記述され得る。ここで*は、畳み込み演算を表す。
【0082】
図4において示されているように、この数学的な記述は、直接的な信号成分と反響成分とを明示的に示すように、
【0083】
【数20】

のように拡張され得る。ここで、s(t)*h(t)は、直接的な信号成分を含み、
【0084】
【数21】

は、反響信号成分7である。実際には、h(t)は長さDなので、反響信号の最初の部分の一部は、s(t)*h(t)にあると期待することができる。これは一般には、Dが十分短く選択される場合には、問題とはならない。Dが十分短い場合、s(t)*h(t)における反響信号の一部は、人間の聴覚システムのマスキング特性によって、聴こえないであろう。したがって、s(t)*h(t)は直接的な信号成分の知覚上関連のある表現ではあるが、r(t)は反響信号成分の知覚上関連のある成分であると言うことができる。
【0085】
当業者には、時間領域における畳み込みは、周波数領域における乗算に等しいということが理解されよう。したがって、図4に示されているブロックをベースとしたFIRフィルタリングの処理は、代替的に、図5に示されているように、周波数領域において実行され得る。図4のB+1個のFIRフィルタh(t),h(t),・・・,h(t)は、ここでは、それらの周波数領域における等価物H(ω),H(ω),・・・,H(ω)によって置換されている。ここでは遅延要素は、Z−D18によって示されており、Dは遅延の長さを表している。したがって、周波数領域の処理は、
【0086】
【数22】

として、または等価なものとして、
【0087】
【数23】

によって与えられ得る。
【0088】
図5に示されているように、この数学的な記述は、直接的な信号成分と反響成分とを明示的に
【0089】
【数24】

のように示すために拡張され得る。ここで、S(ω)H(ω)は、直接的な信号成分を含む周波数領域の表現であり、
【0090】
【数25】

は、反響信号成分19の周波数領域の表現である。
【0091】
当業者には、FIRフィルタの効果が、適切な無限インパルス応答(IIR)フィルタを用いることによって、取り消され得ることが理解できよう。したがって、B+1個のFIRフィルタh(t),h(t),・・・,h(t)が正確に知られている場合に、適切なIIRフィルタ構造を用いて、m(t)からオリジナルのドライ信号s(t)を復元することが可能である。オリジナルのドライ信号はまた、FIRフィルタの周波数領域の表現H(ω),H(ω),・・・,H(ω)が知られている場合に復元され得る。本発明は、この概念を利用する。
【0092】
多くの状況においては、H(ω),H(ω),・・・,H(ω)の正確な値を測定または導出することは不可能であり、そしてm(t)からs(t)を復元することは不可能である。本発明において、H(ω),H(ω),・・・,H(ω)の知覚上関連のある推定は、S(ω)の推定を導出するために用いられる。これらの知覚上関連のある推定
【0093】
【数26】

は、H(ω),H(ω),・・・,H(ω)の大きさの推定にそれぞれ基づいている。
【0094】
インパルス応答
【0095】
【数27】

の周波数領域の表現のブロックをベースとした推定23は、分解プロセッサ33に提供される。分解プロセッサは、入力信号M(ω)25の周波数領域の表現に作用し、直接的な信号成分34の推定と反響成分35の推定とを生成する。好適な実施形態においては、分解プロセッサは、図6のように動作する。図面からは、分解プロセッサが、知覚上関連のあるフィルタの推定
【0096】
【数28】

を用い、ブロックをベースとしたIIRフィルタ構造を形成するということが分かるであろう。IIRフィルタ構造は、M(ω)をその入力として取り、直接的な信号成分
【0097】
【数29】

34のスペクトルの推定と、反響信号成分
【0098】
【数30】

35のスペクトルの推定とを生成する。この処理は、数学的には、
【0099】
【数31】

のように記述され得る。
【0100】
この動作をよりよく理解するためには、入力信号M(ω)の所与のブロックに対する処理を考えることが有用である。M(ω)は、H(ω)を用いて畳み込まれたドライ信号の現在のブロックと、H(ω)を用いて畳み込まれたドライ信号の先のブロックと、ドライ信号のB個の先のブロック等から構成される。ここでは、ドライ信号のブロックを示す下付き文字を用い、S(ω)はドライ信号成分の先のi番目のブロックの周波数領域の表現を表す。これが与えられると、分解プロセッサの動作は、数学的に
【0101】
【数32】

として記述され得る。ここで、
【0102】
【数33】

は、S(ω)の真の値の推定である。好適な実施形態においては、
【0103】
【数34】

は、1に等しいことが仮定されるので、
【0104】
【数35】

が得られる。
【0105】
したがって、本発明の好適な実施形態において、ドライ信号成分34の現在のブロックの推定は、ドライ信号の先のブロックの推定と、反響システムのインパルス応答のブロックをベースとした推定とから入手される。上式の
【0106】
【数36】

が、反響信号成分35の推定であることに留意されたい。すなわち、
【0107】
【数37】

である。
【0108】
好適な実施形態においては、全体の反響信号成分は、
【0109】
【数38】

のように、K個の反響のサブ成分
【0110】
【数39】

に分割される。
【0111】
ここで、pi,k(ω)[i=0,・・・,Bおよびk=1,・・・,K]は、周波数に応じたゲインベクトルであり、このゲインベクトルは、全体の反響信号成分が、時間および周波数にわたって、選択的に分割されることを可能にする。これは、インパルス応答の特定の部分によって畳み込まれたドライサウンドに起因する反響信号の一部を選択的に抽出することを可能にする。例えば、早期反射12に起因する反響信号成分は、反響のテール11に起因する成分から分離して抽出され得る。同様に、早期反射の異なる部分および/または反響のテールは、分離して抽出され得る。さらに、pi,k(ω)の値は、反響信号の異なる成分の低周波数と高周波数とを選択的に分離するように選択され得る。
【0112】
好適な実施形態において、ブロックをベースとしたインパルス応答は、B+1個のブロックの周波数領域の表現の大きさによって、推定される。したがって、上式は、
【0113】
【数40】

のように変形され得る。
【0114】
入力信号M(ω)の位相は、
【0115】
【数41】

に対する、そして
【0116】
【数42】

に対する位相応答として、用いられる。
【0117】
好適な実施形態において、分解プロセッサは、異なるゲインベクトルを入力信号に適用することによって、動作する。
【0118】
【数43】

ドライ信号成分に対するゲインベクトルは、
【0119】
【数44】

によって導出される。周波数に応じたパラメータMinGain(ω)は、G(ω)がなんらかの所望の値を下回ることを妨げる。
【0120】
好適な実施形態において、ゲインベクトルは実数値のベクトルなので、ゲインベクトルは、M(ω)の大きさのみに影響する。その結果、
【0121】
【数45】

は、M(ω)と同じ位相応答を有する。反響信号に対するゲインベクトルは、同様の方法で求められる。
【0122】
ゲインベクトル
【0123】
【数46】

は、知覚モデル47とソースモデル46とを利用することによって、さらに精密化され得る。知覚モデルが人間の聴覚システムのマスキング特性を説明する一方で、ソースモデルは、音源の物理的特性を説明する。この実施形態において、2つのモデルは組み合わされ、時間および周波数にわたって、ゲインベクトル
【0124】
【数47】

の平滑化を提供する。時間にわたる平滑化は、
【0125】
【数48】

のように遂行される。ここでτは、処理の現在の時間フレームを示す。γ(ω)は、各周波数帯域に対し、時間にわたってゲインベクトル
【0126】
【数49】

に適用される平滑化の量を決定する。γ(ω)の様々な値が、各ゲインベクトルに対して用いられ得ることに留意されたい。またγ(ω)の値が、周波数に伴って変化し得ることにも留意されたい。γ(ω)の値もまた、時間の経過につれて変化し得、これらの値は、入力信号またはゲインベクトルの値に応じたものであり得る。
【0127】
人間の聴覚システムの同時のマスキング特性は、周波数にわたる平滑化または拡散の形で見ることができる。この実施形態において、同時のマスキングは、
【0128】
【数50−1】

【0129】
【数50−2】

のように計算される。変数spread1(ω)およびspread2(ω)は、周波数にわたる同時のマスキングの量を決定する。この実施形態において、spread1(ω)およびspread2(ω)は、聴覚フィルタの帯域幅が周波数の増加に伴って増加し、その結果、高周波数においてより多くの拡散が適用されるという事実を説明するように企図される。
【0130】
ゲインベクトルは、推定されたマスキングの効果を追加することによって、精密化される。周波数に応じたパラメータμ(ω)は、先に計算されたゲインベクトルの値に対してマスキングの推定が追加されるレベルを決定する。
【0131】
【数51】

このステップは、ゲインベクトルの値が1.0を超過するようにし得る。この実施形態において、最大のゲイン値は、1.0に制限されるが、その他の制限も可能である。
【0132】
【数52】

残りのゲインベクトルに対し、同様の動作が実行される。これらの最終的なゲインベクトルは、入力信号M(ω)に適用され、ドライ信号成分34と反響信号成分35とを生成する。ドライ信号成分34は、必要に応じて、ドライ信号改変器36によって改変され得る。この実施形態において、改変は、レベルの調整、周波数フィルタリング、およびダイナミックレンジの処理を含み得るが、これらには限定されない。反響信号成分35は、反響信号改変器37によって作用され、この実施形態においては、改変は、レベルの調整、周波数フィルタリング、およびダイナミックレンジの処理を含み得るが、これらには限定されない。
【0133】
【数53】

再構成プロセッサ38は、改変されたドライサウンドの推定
【0134】
【数54】

と反響信号のサブ成分の改変された推定
【0135】
【数55】

とを組み合わせ、1つ以上の反響が調整された周波数スペクトル27を生成する。再構成プロセッサによって実行される別の動作は、図7に示されているように、ブロックをベースとしたインパルス応答を信号X(ω)60に適用し、出力信号Y(ω)61を生成することである。ブロックをベースとしたインパルス応答は、インパルス応答推定器24によって導出されるオリジナル
【0136】
【数56】

または改変バージョン
【0137】
【数57】

62のいずれかから構成され得る。この処理に対する入力信号X(ω)は、
【0138】
【数58】

のうちの1つ以上、または2次入力信号S(ω)から構成され得る。
【0139】
【数59】

の異なるバージョンが、異なる入力信号に対して用いられ得る。ブロックをベースとしたこの畳み込み処理からの出力信号は、追加的な反響が調整された周波数スペクトル27を提供する。再構成プロセッサ38は、ソースモデルと知覚モデルとを含む。この実施形態において、ソースモデル48および知覚モデル49は、分解プロセッサ33のソースモデル46および知覚モデル47と組み合わされる。
【0140】
未処理の入力信号M(ω)25と、反響が調整された周波数スペクトル27とは、信号改変器28に提供される。信号改変器は、最終的なL個の出力周波数スペクトルZ(ω),Z(ω),・・・,Z(ω)を生成し、これらは時間領域に変換され、所望の信号z(t),z(t),・・・,z(t)32が入手される。この実施形態において、周波数−時間領域変換器30は、ルートハニング窓31が後に続く逆離散フーリエ変換(IDFT)の高速の実装から構成されている。
【0141】
本発明がモノラル出力信号(すなわち、L=1)を形成するために用いられる用途に対しては、信号改変器28は、反響が調整されたスペクトル27に作用し、それらを組み合わせて、改変された反響特性を有する入力信号の改変バージョンを形成する。
【0142】
本発明がモノラル入力信号から追加的なオーディオチャネルを形成するために用いられる用途に対しては、信号改変器28の動作は、反響が調整された周波数スペクトル27に作用し、それらを組み合わせて、2つ以上の一意的な出力周波数スペクトルZ(ω),Z(ω),・・・,Z(ω)を形成することを含む。
【0143】
信号改変器28が、未処理の入力信号M(ω)25または反響が調整された周波数スペクトル27のいずれをも改変する必要がない一部の用途においては、信号改変器は、これらの信号を単に最終的な出力周波数スペクトルZ(ω),Z(ω),・・・,Z(ω)へと渡し得る。
【0144】
好適な実施形態において、先のステップは、反響システムのインパルス応答の適切なブロックをベースとした推定を必要とし得る。インパルス応答推定器24は、入力信号M(ω)25の周波数領域の表現に作用し、インパルス応答のブロックをベースとした推定
【0145】
【数60】

を生成する。
【0146】
2つのファクターが、所与の周波数において反響の入力信号M(ω)25が減衰する(または増加する)速度を決定するために、組み合わされる。第1のファクターは、ドライ音源s(t)1の減衰(または増加)の速度であり、第2のファクターは、反響システムの減衰の速度である。所与の周波数における反響システム(例えば、コンサートホール)の減衰の速度は、時間の経過にわたって比較的一定ではあるが、ドライ音源の減衰の速度は、連続的に変化する。歌手についての先の例を用いると、所与の周波数における歌手の声のレベルは、時間の経過につれて、上がったり下がったりし得る。したがって、入力信号M(ω)25の減衰の最高速度は、ドライ音源s(t)1が所与の周波数において停止し、信号における減衰の全体が、反響システムの減衰に起因するときに起こる。
【0147】
所与の周波数を考えると、
【0148】
【数61】

を推定する最良の機会は、ドライ音源s(t)1がその周波数において停止した、まさにそのときであることが分かる。その時点で信号の反響成分r(t)が後に続き、反響システムの減衰が観察され得る。これが与えられると、先のブロックの大きさ
【0149】
【数62】

に対する現在のブロックの大きさ
【0150】
【数63】

の比を観察し、この比の最小値を推定することによって、推定
【0151】
【数64】

を入手できる。
【0152】
【数65】

ここでBias(ω)は、1.0よりも大きいなんらかの値であり、εはなんらかの小さな値である。周波数に応じたパラメータBias(ω)は、
【0153】
【数66】

が正しくない最小値にトラップ(trap)されることを妨げ、εは
【0154】
【数67】

が値ゼロにトラップされることを妨げる。上述の比の最小値は、その周波数における信号減衰の最高速度に対応しているので、これは、その周波数における
【0155】
【数68】

の推定に対応している。この処理は、全てのブロック[i=1,・・・,B]に対し、各周波数ωにおいて実行される。
【0156】
この実施形態において、ソースモデルは、
【0157】
【数69】

のように実装される。パラメータMaxValue(ω)は、
【0158】
【数70】

ひいては
【0159】
【数71】

が、実際の音響空間において期待されていないであろう、なんらかの値を超過することを妨げる。MaxValue(ω)は、周波数にわたって、そしてブロックにわたって、変化し得る。時間的な平滑化動作が、
【0160】
【数72】

のより安定な推定を提供するために適用される。
【0161】
【数73】

ここでτは、処理の現在の時間フレームを示し、α(ω)は、時間的な平滑化の量を制御する周波数に応じたパラメータである。α(ω)はまた、時間にわたって、そしてブロックにわたって変化し得、その値は、入力信号の現在のブロックと、入力信号の先のブロックとに応じたものであり得る。
【0162】
この実施形態において、周波数にわたる
【0163】
【数74】

の平滑化は、ソースモデルの一部として実行される。平滑化の量は、β(ω)の値によって決定される。β(ω)は、周波数にわたって、そしてブロックにわたって変化し得る。
【0164】
【数75】

ブロックをベースとしたインパルス応答の最終的な推定
【0165】
【数76】

[i=1,・・・,B]は、ゲインベクトルを導出するために利用され、これらのゲインベクトルは、ドライサウンドの推定と反響成分の推定とを導出するために用いられる。
【0166】
入力信号がモノラルである場合について、好適な実施形態が記載されてきた。本発明は、ステレオ信号およびマルチチャネル信号への作用に直ちに拡張され得るということに留意されたい。入力信号が2つ以上のチャネルを有しているときには、本発明が各チャネルに対して独立的に機能するか、あるいはチャネル上の動作が組み合わされ得、所与のチャネルに関する情報がその他のチャネルを処理する際に用いられ得るということに留意されたい。
【0167】
インパルス応答のB+1個のブロック15、16は、必ずしも等しいサイズである必要はない。例えば、インパルス応答の早期反射の部分12に対して、より良い時間分解能を入手するために、より短いブロックを用いて、インパルス応答の最初の部分を表すことが望ましくあり得る。
【0168】
インパルス応答のB+1個のブロック15は、重なり合うか、またはそれらのブロックは、図2に示されているように、いかなる重なりをも有していないことがあり得る。ブロックが重なり合っている場合、ブロックからブロックへの滑らかな遷移を提供するために、窓関数が用いられ得る。好適な実施形態において、ブロックは50%の重なりを有している。
【0169】
好適な実施形態においては、信号およびインパルス応答の周波数領域の表現の大きさの平方
【0170】
【数77】

が、処理に用いられる。大きさのその他の累乗
【0171】
【数78】

も用いられ得ることに留意されたい。
【0172】
反響が第2の入力信号s(t)40に追加される用途に対し、再構成プロセッサは、図7に示されているようなブロックをベースとした周波数領域のFIRフィルタを含み得る。これらのフィルタは、インパルス応答のブロックの大きさの改変された推定
【0173】
【数79】

から構成される。好適な実施形態において、再構成プロセッサは、ゲインベクトルを入力信号に適用することによって、これを遂行する。
【0174】
好適な実施形態において、分解プロセッサ33および再構成プロセッサ38は、互いに独立的に動作する。一部の用途において、2つのプロセッサの局面は、組み合わされ得るということに留意されたい。
【0175】
本発明は、一般に、入力信号M(ω)25に基づいて、追加的なオーディオ信号を形成するために用いられ得る。すなわち、本発明は、U個のチャネルを有する入力信号M(ω)25からV個の出力チャネルを形成するために用いられ得る(但しV>U)。この例は、モノラル入力信号からステレオ信号またはマルチチャネル信号を形成することと、ステレオ入力信号からマルチチャネル信号を形成することと、マルチチャネル入力信号から追加的なチャネルを形成することとを含む。一般にこれは、信号の反響成分を抽出し、異なるサブ成分R(ω),R(ω),・・・,R(ω)35に分解し、これらを異なる出力チャネルに分散することによって遂行される。反響信号の所与の成分は、2つ以上の出力チャネルに割り当てられ得る。形成されたチャネルはまた、ドライ信号成分
【0176】
【数80】

34および入力信号M(ω)25の推定を含み得る。
【0177】
好適な実施形態において、分解プロセッサ33は、インパルス応答のブロックをベースとした推定
【0178】
【数81】

を利用し、反響のサブ成分の知覚上適した集合を導出するように、入力信号M(ω)25に作用する。再構成プロセッサ38は、ドライ信号
【0179】
【数82】

34および反響のサブ成分35の推定に作用し、反響が調整された周波数スペクトル27の集合を導出する。一部の例においては、信号改変器28が、反響が調整された周波数スペクトルを、最終的なV個の出力周波数スペクトルZ(ω),Z(ω),・・・,Z(ω) 29に直接的に割り当て得る。最終的な出力周波数スペクトルは、時間領域30に変換され、窓関数が施され(windowed)31、z(t),z(t),・・・,z(t) 32から構成されるマルチチャネルのオーディオ信号を提供する。
【0180】
その他の例においては、信号改変器28が、2つ以上の反響が調整された周波数スペクトル27を選択的に組み合わせ、V個の出力周波数スペクトルを形成し得る。信号改変器はまた、V個の出力周波数スペクトルのうちの1つ以上において、未処理の入力信号M(ω)25を含み得る。
【0181】
例として、ステレオ入力信号(U=2)から5個の(V=5)チャネルの出力信号を形成するための1つのアプローチは、図8に示されているようなものとして考えられる。左入力信号MLeft(ω)70は、その直接的な信号成分
【0182】
【数83】

と反響信号成分
【0183】
【数84】

とに分解される。左チャネルの直接的な信号成分
【0184】
【数85】

は、左出力チャネル72に送信され、その一方で、左チャネルの反響信号成分
【0185】
【数86】

は、左サラウンド出力チャネル75に送信される。同様に、右入力信号MRight(ω)71は分解され、右チャネルの直接的な信号成分
【0186】
【数87】

は、右出力チャネル73に送信され、その一方で、右チャネルの反響信号成分
【0187】
【数88】

は、右サラウンド出力チャネル74に送信される。中央の出力チャネル74は、なんらかの混合物
【0188】
【数89】

から構成され、ここでg、g、gおよびgは、成分が互いに混合される相対的なレベルを決定する。この例は、本発明が入力信号を分解して追加的なオーディオチャネルを形成するための、ほぼ無数の手段のうちの1つに過ぎないことに、留意されたい。
【0189】
(本発明のその他の実施形態)
1.インパルス応答の周波数領域の表現のブロックをベースとした推定を用いて、反響信号を分解することによって、その信号を直接的なサウンド成分および/または1つ以上の反響成分に分解する方法。
【0190】
1.1.上記信号は、インパルス応答の周波数領域の表現の大きさの表現のみに基づいて、直接的なサウンド成分および/または1つ以上の反響成分に分解される、クレーム1に記載の方法。
【0191】
1.2.上記信号は、変換の表現を用いて、直接的なサウンド成分および/または1つ以上の反響成分に分解される、クレーム1に記載の方法。
【0192】
1.3.上記信号は、フィルタバンクの表現を用いて、直接的なサウンド成分および/または1つ以上の反響成分に分解される、クレーム1に記載の方法。
【0193】
1.4.上記信号は、直接的なサウンド成分および/または1つ以上の反響成分に分解され、直接的なサウンド成分のみが出力される、クレーム1に記載の方法。
【0194】
1.5.上記信号は、直接的なサウンド成分および/または1つ以上の反響成分に分解され、1つ以上の反響成分のみが出力される、クレーム1に記載の方法。
【0195】
2.クレーム1に記載の方法を用いて、第1に反響信号を分解し、直接的なサウンド成分および/または1つ以上の反響成分を組み合わせる前に、それらを改変することによって、出力信号を生成する方法。
【0196】
2.1.上記処理は、電話機またはテレビ会議機器における反響を低減させるために用いられる、クレーム2に記載の方法。
【0197】
2.2.上記処理は、反響スピーチ信号の明瞭度を増加させるために用いられる、クレーム2に記載の方法。
【0198】
2.3.上記処理は、反響を低減させ、スピーチ認識システムの認識率を増加させるために用いられる、クレーム2に記載の方法。
【0199】
2.4.上記処理は、増幅された信号に起因する反響を低減させることによって、拡声装置(public address system)における音響フィードバックを低減させるために用いられる、クレーム2に記載の方法。
【0200】
2.5.上記処理は、補聴器における反響スピーチ信号の明瞭度を増加させるために用いられる、クレーム2に記載の方法。
【0201】
2.6.直接的なサウンド成分のみが抽出され、改変される、クレーム2に記載の方法。
【0202】
2.7.直接的なサウンド成分は、反響成分のうちの1つ以上を再び組み合わせる前に改変される、クレーム2に記載の方法。
【0203】
2.7.1.上記改変は、直接的なサウンド成分にノイズリダクション(noise reduction)を適用することから構成される、クレーム2.7に記載の方法。
【0204】
2.7.2.上記改変は、直接的なサウンド成分にオーディオ透かしを追加することから構成される、クレーム2.7に記載の方法。
【0205】
2.8.上記反響成分は、直接的なサウンド成分と組み合わせる前に改変される、クレーム2に記載の方法。
【0206】
2.9.上記直接的なサウンド成分と1つ以上の反響成分との両方は、成分を組み合わせる前に改変される、クレーム2に記載の方法。
【0207】
2.10.反響サウンドに対する直接的なサウンドの比は、直接的なサウンドと反響成分とを再び組み合わせる前に改変される、クレーム2に記載の方法。
【0208】
2.11.特定の反響成分のみが、直接的なサウンド成分と組み合わせる前に改変される、クレーム2に記載の方法。
【0209】
3.インパルス応答の周波数領域の表現のブロックをベースとした推定を用いて、直接的なサウンド成分および/または1つ以上の反響成分から構成される出力信号を形成する方法。
【0210】
3.1.上記出力信号は、インパルス応答の周波数領域の表現の大きさの表現のみに基づいて形成される、クレーム3に記載の方法。
【0211】
3.2.上記出力信号は、インパルス応答の変換の表現を用いて形成される、クレーム3に記載の方法。
【0212】
3.3.上記出力信号は、インパルス応答のフィルタバンクの表現を用いて形成される、クレーム3に記載の方法。
【0213】
3.4.上記インパルス応答の周波数領域の表現は、複数の反響出力信号を形成するために改変される、クレーム3に記載の方法。
【0214】
3.4.1.上記複数の反響出力信号は、モノラル信号からステレオ信号を形成するために用いられる、クレーム3.4に記載の方法。
【0215】
3.4.2.上記複数の反響出力信号は、マルチチャネルのサラウンドサウンドシステムにおいて用いられる、クレーム3.4に記載の方法。
【0216】
3.4.3.上記複数の反響出力信号は、3次元ヘッドフォンシステムにおいて用いられる、クレーム3.4に記載の方法。
【0217】
3.5.上記出力信号は、第1の信号から導出されたインパルス応答の周波数領域の表現を、第2の信号の直接的なサウンド成分に適用することによって形成される、クレーム3に記載の方法。
【0218】
3.5.1.上記第2の信号の直接的なサウンド成分は、クレーム1に記載の方法を用いて導出される、クレーム3.5に記載の方法。
【0219】
4.反響信号から反響システムの記述を抽出する方法であって、
基礎となる反響システムの全体のインパルス応答を、インパルス応答の一部を表す一連のブロックに分解することと、
現在のフレームにおける信号の周波数領域の表現と、先のフレームの表現とを比較することによって、各ブロックに対して、インパルス応答の周波数領域の表現の推定を抽出することと
によって行われる、方法。
【0220】
4.1.周波数領域の表現の上記比較は、信号の周波数成分の変化率を追跡することに基づく、クレーム4に記載の方法。
【0221】
4.1.1.最大の変化率が用いられる、クレーム4.1に記載の方法。
【0222】
4.1.1.1.ブロックiに対する上記周波数領域の表現H(ω)は、min{M(ω)/M(ω)}に基づく、クレーム4.1.1に記載の方法。
【0223】
4.1.2.上記変化率は、平滑化される、クレーム4.1に記載の方法。
【0224】
4.2.各ブロックに対する上記インパルス応答の周波数領域の表現は、物理的なモデルによって拘束される、クレーム4に記載の方法。
【0225】
4.2.1.上記反響システムの物理的なモデルは、所与の時間の後の指数的な減衰を仮定する、クレーム4.2に記載の方法。
【0226】
4.3.各ブロックに対する上記インパルス応答の周波数領域の表現は、知覚モデルを用いて導出される、クレーム4に記載の方法。
【0227】
4.3.1.上記知覚モデルは、耳の周波数に応じた選択性を説明する、クレーム4.3に記載の方法。
【0228】
4.4.実際の音響空間の知覚上関連のある反響特性は、その空間のインパルス応答を直接的に測定する必要なしにキャプチャされる、クレーム4に記載の方法。
【0229】
5.クレーム1に記載の方法にしたがって信号を分解し、直接的なサウンド成分および/またはインパルス応答の周波数領域の表現の推定に基づくブロックを改変することによって、クレーム3に記載の方法にしたがって出力信号を形成する方法。
【0230】
5.1.直接的な信号成分のみが、出力信号を形成する前に改変される、クレーム5に記載の方法。
【0231】
5.1.1.上記改変は、直接的なサウンド成分にノイズリダクションを適用することから構成される、クレーム5.1に記載の方法。
【0232】
5.1.2.上記改変は、直接的なサウンド成分にオーディオ透かしを適用することから構成される、クレーム5.1に記載の方法。
【0233】
5.1.3.上記改変は、オーディオデータリダクションエンコーディングと、直接的なサウンド成分のデコーディングとから構成される、クレーム5.1に記載の方法。
【0234】
5.1.3.1.上記分解および圧縮エンコーディングは、1つのデバイスによって実行され、圧縮デコーディングおよび出力信号の形成は、別のデバイスによって実行される、クレーム5.1.3に記載の方法。
【0235】
5.1.3.2.上記インパルス応答の周波数領域の表現のブロックをベースとした推定は、圧縮されたオーディオビットストリーム内に含まれる、クレーム5.1.3に記載の方法。
【0236】
5.2.上記インパルス応答の周波数領域の表現のブロックをベースとした推定は、クレーム4に記載の方法にしたがって導出される、クレーム5に記載の方法。

【特許請求の範囲】
【請求項1】
オーディオ信号の反響成分を識別および抽出する装置であって、
前記装置は、
オーディオ信号を受信および処理するように構成された信号プロセッサと、
前記オーディオ信号に含まれる推定されたインパルス応答の表現を前記オーディオ信号から生成するように前記信号プロセッサを用いて実行可能なインパルス応答推定器と、
前記推定されたインパルス応答の表現を用いて、前記オーディオ信号を、推定されたオリジナルのドライ信号成分と推定された反響信号成分とに分解するように前記信号プロセッサを用いて実行可能な分解プロセッサと、
前記オーディオ信号の推定されたオリジナルのドライ信号成分および推定された反響信号成分のうちの少なくとも1つの信号成分を独立的に改変するように前記信号プロセッサを用いて実行可能な改変器と、
前記オーディオ信号の推定されたオリジナルのドライ信号成分および推定された反響信号成分のうちの改変された少なくとも1つの信号成分を組み合わせて、1つ以上の調整された周波数スペクトルを生成するように前記信号プロセッサを用いて実行可能な再構成プロセッサと
を備える、装置。
【請求項2】
前記再構成プロセッサは、前記オーディオ信号に異なるゲインベクトルを適用することにより、前記オーディオ信号の推定されたオリジナルのドライ信号成分および推定された反響信号成分を導出するように前記信号プロセッサを用いて実行可能である、請求項1に記載の装置。
【請求項3】
前記推定されたインパルス応答の表現は、複数の推定されたインパルス応答を含み、前記複数の推定されたインパルス応答は、前記推定されたインパルス応答の各々のそれぞれの大きさの推定に基づいて生成される、請求項1または2に記載の装置。
【請求項4】
前記インパルス応答推定器は、複数のブロックを含む前記推定されたインパルス応答のブロックブロックベースの推定を生成するように前記信号プロセッサを用いて実行可能であり、各ブロックは、前記推定されたインパルス応答の成分を含む、請求項1〜3のいずれか一項に記載の装置。
【請求項5】
各ブロックの前記推定されたインパルス応答は、前記オーディオ信号に含まれるドライ音源の変化率と、前記オーディオ信号に含まれる反響成分の減衰の速度とに基づいて推定される、請求項4に記載の装置。
【請求項6】
前記インパルス応答推定器は、前記ブロックのそれぞれの周波数成分を独立的に調整して、前記推定されたインパルス応答の改変されたブロックベースの推定を生成するようにさらに実行可能である、請求項4に記載の装置。
【請求項7】
前記ゲインベクトルは、知覚モデルおよびソースモデルを含むモデルを用いて前記信号プロセッサにより平滑化され、前記知覚モデルは、前記推定された反響信号成分からの前記オーディオ信号の聴こえない部分の除外により人間の聴覚システムのマスキング特性を説明するように構成され、前記ソースモデルは、前記オーディオ信号に表わされた音源の物理的特性を説明するように構成される、請求項1〜6のいずれか一項に記載の装置。
【請求項8】
前記オーディオ信号は、音響空間の反響特性が重ね合わされたオリジナルのドライオーディオ信号を含み、前記反響特性は、前記オリジナルのドライオーディオ信号から生成される、請求項1〜7のいずれか一項に記載の装置。
【請求項9】
前記オーディオ信号はモノラルオーディオ信号である、請求項1〜8のいずれか一項に記載の装置。
【請求項10】
前記オーディオ信号はマルチチャネルオーディオ信号である、請求項1〜8のいずれか一項に記載の装置。
【請求項11】
オーディオ信号の反響成分を識別および抽出する装置であって、
前記装置は、
音響空間の反響特性が重ね合わされたドライオーディオ信号を表わすオーディオ信号を受信および処理するように構成された信号プロセッサと、
前記ドライオーディオ信号の音響特性のモデルおよび前記オーディオ信号から推定された前記音響空間の推定されたインパルス応答に基づいて、前記オーディオ信号を、推定されたオリジナルのドライ信号成分と推定された反響信号成分とに分解するように前記信号プロセッサを用いて実行可能な分解プロセッサと、
前記推定されたオリジナルのドライ信号成分および前記推定された反響信号成分から1つ以上の周波数スペクトルを生成するように前記信号プロセッサを用いて実行可能な再構成プロセッサと
を備える、装置。
【請求項12】
前記再構成プロセッサは、前記推定された反響信号成分の推定された位相に基づいて前記推定されたオリジナルのドライ信号成分の位相を推定するようにさらに実行可能である、請求項11に記載の装置。
【請求項13】
前記再構成プロセッサは、前記推定された反響信号成分を前記推定された反響信号成分の複数のサブ成分に分解するようにさらに実行可能である、請求項11または12に記載の装置。
【請求項14】
前記推定されたインパルス応答は、前記音響空間のインパルス応答のブロックベースの推定である、請求項11〜13のいずれか一項に記載の装置。
【請求項15】
それぞれのブロックの前記推定されたインパルス応答の大きさおよび前記オーディオ信号に基づいて前記音響空間のブロックベースの推定されたインパルス応答を生成するように前記信号プロセッサにより実行可能なインパルス応答推定器をさらに備える、請求項14に記載の装置。
【請求項16】
前記推定されたオリジナルのドライ信号および推定されたインパルス応答は、ブロックベースの推定であり、前記推定されたオリジナルのドライ信号の現在のブロックは、前記推定されたオリジナルのドライ信号の先のブロックに基づいて生成される、請求項11〜15のいずれか一項に記載の装置。
【請求項17】
前記オーディオ信号の推定されたオリジナルのドライ信号成分および推定された反響信号成分のうちの少なくとも1つの信号成分を独立的に改変するように前記信号プロセッサを用いて実行可能な改変器をさらに備える、請求項11〜16のいずれか一項に記載の装置。
【請求項18】
前記改変器は、前記推定されたオリジナルのドライ信号成分のレベルの調整、周波数フィルタリング、およびダイナミックレンジの処理のうちの少なくとも1つを実行するように実行可能であり、前記推定された反響信号成分の周波数成分の改変を独立的に実行するようにさらに実行可能である、請求項17に記載の装置。
【請求項19】
前記再構成プロセッサは、前記オーディオ信号の推定されたオリジナルのドライ信号成分および推定された反響信号成分のうちの少なくとも1つの信号成分にブロックベースのインパルス応答を適用して、1つ以上の反響調整された周波数スペクトルを生成するようにさらに実行可能である、請求項11〜18のいずれか一項に記載の装置。
【請求項20】
前記1つ以上の周波数スペクトルの受信および前記オーディオ信号の受信に基づいて最終的な出力周波数スペクトルを生成するように前記信号プロセッサを用いて実行可能な信号改変器をさらに備える、請求項11〜19のいずれか一項に記載の装置。
【請求項21】
前記オーディオ信号はマルチチャネルオーディオ信号であり、前記信号改変器は、前記1つ以上の周波数スペクトルを、出力チャネルを表わす複数の異なる出力周波数スペクトルに選択的に割り当てるようにさらに実行可能であり、前記出力チャネルの数は、前記マルチチャネルオーディオ信号に含まれるチャネルの数よりも大きい、請求項20に記載の装置。
【請求項22】
前記オーディオ信号はモノラルオーディオ信号である、請求項11〜20のいずれか一項に記載の装置。
【請求項23】
前記再構成プロセッサは、前記オーディオ信号の人間に聴こえない部分を前記推定された反響信号成分から除外するようにさらに実行可能である、請求項11〜22のいずれか一項に記載の装置。
【請求項24】
オーディオ信号の反響成分を識別および抽出する方法であって、
前記方法は、
オーディオ信号プロセッサを用いてオーディオ信号を受信および処理することであって、前記オーディオ信号は、音響空間の反響特性が重ね合わされたドライオーディオ信号を表わす、ことと、
前記オーディオ信号プロセッサを用いて、前記オーディオ信号を、推定されたオリジナルのドライ信号成分と推定された反響信号成分とに分解することであって、前記オーディオ信号は、前記ドライオーディオ信号の音響特性のモデルおよび前記オーディオ信号から導出される前記音響空間の推定されたインパルス応答に基づいて分解される、ことと、
前記オーディオ信号プロセッサが、前記オーディオ信号の人間に聴こえない部分を前記推定された反響信号成分から除外することと、
前記オーディオ信号プロセッサを用いて、前記オーディオ信号の前記推定されたオリジナルのドライ信号成分および前記推定された反響信号成分を再び組み合わせることにより1つ以上の周波数スペクトルを生成することと
を含む、方法。
【請求項25】
前記音響空間の前記推定されたインパルス応答を、ブロックベースの推定されたインパルス応答として生成することをさらに含み、
前記推定されたオリジナルのドライ信号成分および前記推定された反響信号成分を分解することは、前記推定されたインパルス応答のそれぞれのブロックの大きさの表現に基づく、請求項24に記載の方法。
【請求項26】
前記オーディオ信号はモノラルオーディオ信号である、請求項24または25に記載の方法。
【請求項27】
前記オーディオ信号はマルチチャネルオーディオ信号である、請求項24または25に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−145962(P2012−145962A)
【公開日】平成24年8月2日(2012.8.2)
【国際特許分類】
【出願番号】特願2012−74007(P2012−74007)
【出願日】平成24年3月28日(2012.3.28)
【分割の表示】特願2009−501806(P2009−501806)の分割
【原出願日】平成19年9月17日(2007.9.17)
【出願人】(592051453)ハーマン インターナショナル インダストリーズ インコーポレイテッド (91)