説明

改良型独立成分分析を使用する音声処理ためのシステムおよび方法

混在したオーディオ信号を、所望の音声信号(430)(例えば音声)とノイズ(雑音)信号(440)とに分けるためのシステムおよび方法を開示する。マイクロホン(310、320)は混在オーディオ信号を受信するために配置され、独立成分分析(ICA)は安定化拘束(stability constraint)を利用して混在音を処理する(212)。ICA処理(508)は、目標音信号(430)を識別して分離するために、所望の音声信号の予め定義した特徴を利用する。フィルタ係数は、学習法によって採用され、フィルタの重み付けの値の更新・変更は、安定した分離されたICA信号の結果を得るために安定させられる。分離された信号は、更に雑音の影響を減らすために、後処理(214)および前処理(220、230)技術ならびに知見(手段)を用いる周辺処理をしてもよい。ここで提案されるシステムは、オーディオ通信ハードウェア環境における、DSP(デジタル信号処理)ユニット上またはCPU上での実施のために設計され、容易に適合することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理ためのシステム、特に、周辺音響下での音声品質を高めるためのシステムおよび方法に関する。
【背景技術】
【0002】
音声信号処理は、日常的な通信の多くの分野において、特に、大量の雑音が発生する分野において、重要となっている。実社会の雑音は多重音源(当然、単一雑音源を含む)から溢れており、この雑音は反響および残響を有する種々雑多の音に及ぶ。分離かつ隔離されない限り、所望の雑音を背景雑音から抽出することは難しい。背景雑音は、一般の環境によって発生する多数の雑音信号と、背景における第三者の会話によって発生した信号と、それぞれの信号から発生した、反響(echo)、反射(reflection)、残響(reverberation)と、を含む。ユーザが雑音の多い環境において話すことの多い通信形態においては、ユーザの音声信号を背景雑音から分離することが望ましい。携帯電話、スピーカーフォン、ヘッドセット、補聴器、コードレス電話、電子会議、CBラジオ、携帯無線電話(ウォーキー・トーキー)、コンピュータ電話通信アプリケーション、コンピュータおよび自動車用音声命令アプリケーションならびに他のハンズフリー・アプリケーション、インターコム、マイクロホン・システムなどの音声通信媒体は、所望の音声信号を背景雑音から分離するために音声信号処理を活用することができる。
【0003】
背景雑音信号から所望の音声信号を分離するために、多くの方法が生み出されてきた。従来技術の雑音フィルタは、信号を、白色雑音(ホワイト・ノイズ)信号として予め定められた特徴と識別して、そうした信号を入力信号から取り除く。これらの方法は、音声信号のリアルタイム処理のために十分に簡単かつ迅速である一方、異なる音声環境に容易に適応できずに、分解しようとする音声信号の相当な劣化を招くことがある。予め仮定し設定した雑音(ノイズ)特徴は、実際の雑音の範囲より広くカバーしてしまうか、実際の雑音の範囲を全てカバーできないこともある。その結果、これらの方法によって、人の音声は部分的に「雑音」とみなされ、出力音声信号から取り除かれる可能性がある。その一方で、音楽または会話といった背景雑音は部分的に「非雑音」とみなされ、出力音声信号に含まれる可能性がある。
【0004】
他のより最近に開発された方法(例えば独立成分分析(ICA))は、背景雑音から音声信号を分離する比較的正確かつ柔軟な手段を提供する。例えば、PCT公開公報WO00/41441は、出力オーディオ信号の雑音を減らすために入力オーディオ信号を処理する、特定のICA技術の使用を開示する。ICAは、互いに独立していると思われる混在音源信号(構成要素)を分離するための技術である。独立成分分析は、この簡略化された形態において、分離された信号を生成するために、混在信号上の重み付けの値の「非混在」マトリクスを操作する(例えば混在信号を有するマトリクスを増加する)。この重み付けの値は、初期値を割り当てられて、情報冗長性(redundancy)を最小化するために信号の結合エントロピーを最大にするように調整される。この重み付けの値の調整処理およびエントロピー増加処理は、信号の情報冗長性が最低になるまで繰り返される。この技術は、それぞれの信号の音源(ソース)に関する情報を必要としないので、「ブラインド音源分離」法(「BBS」)として知られる。 ブラインド分離の課題は、多数の独立音源から出る混在信号を分離するというものである。
【0005】
ICAを最初に論じたものの一つは、更なる研究を引き出した、トニー・ベルによる米国特許番号5,706、402号である。現在、多くの異なるICA技術またはアルゴリズムが存在する。最も広く使われているアルゴリズムおよび技術の概要は、ICAについての本およびその中の参照において見られる(例えば テウォン・リーの独立成分分析、論理と適用, クルワー・アカデミック出版、ボストン、 1998年9月(非特許文献1参照);ハイバリネン他、独立成分分析、第1版 (ウィレイ・インターサイエンス、2001年5月18日) (非特許文献2参照);マーク・ジロラミー(自己編成型ニューラル・ネットワーク)、独立成分分析とブラインドソース分離 (ニューラル・コンピューティングの全体像) (スプリンジャー・バーラグ、 1999年9月、非特許文献3参照);および、マーク・ジロラミー(編集者)、独立成分分析の進歩(ニューラル・コンピューティングの全体像) (スプリンジャー・バーラグ、2000年8月、非特許文献4参照)。単一数値分解アルゴリズムは、シモン・ヘイキンによる適合可能なフィルタ理論において開示された(第3版、プレンティス・ホール(NJ)、1996、非特許文献5参照)。
【0006】
多くの一般的に普及しているICAアルゴリズムが、その性能を最適化するために開発されてきた。それらは、大きな改良がなされて進化してきたものを多数含み、原型となったものは10年前に生み出されたものである。例えば、A. J.ベルおよびTJセジノウスキー(ニューラル・コンピュテーション7)1129-1159(1995)(非特許文献6参照);ならびにベル(A. J.米国特許番号5,706、402号)に記載された研究は、その特許を受けた形態においては通常使われない。その代わりに、このアルゴリズムは、その性能を最適化するために、多くの異なる開発者によって度重なる特徴付けがなされてきた。そうした変更の一つとしては、アマリ、シチョキ、ヤング (1996)に記載される「自然の勾配」の使用が含まれる(非特許文献7参照)。他の一般的に普及しているICAアルゴリズムは、高次統計(例えばキュムラント(カルドゾ(1992、非特許文献8参照);コモン(1994、非特許文献9参照); ヒバエリネンおよびオジャ(1997、非特許文献10参照))を計算する方法を含む。
<参照>
【非特許文献1】テウォン・リーの独立成分分析、論理と適用, クルワー・アカデミック出版、ボストン、 1998年9月。
【非特許文献2】ヒバエリネン、A.、カーフネン、J、オジャ、E・独立成分分析・ジョン・ウィレイ&サンズインコーポレーション2001。
【非特許文献3】マーク・ジロラミー(自己編成型ニューラル・ネットワーク)、独立成分分析とブラインドソース分離 (ニューラル・コンピューティングの全体像) (スプリンジャー・バーラグ、 1999年9月。
【非特許文献4】マーク・ジロラミー(編集者)、独立成分分析の進歩 (ニューラル・コンピューティングの全体像) (スプリンジャー・バーラグ、2000年8月)。
【非特許文献5】シモン・ヘイキン、合可能なフィルタ理論(第3版、プレンティス・ホール(NJ)、(1996) 。
【非特許文献6】A. J.ベルおよびTJセジノウスキー(ニューラル・コンピュテーション7)1129-1159(1995)。
【非特許文献7】アマリ、シチョキ、ヤング、ブラインド信号分離の新しい新学習アルゴリズム、ニューラル情報処理システム8、編集者D.トウレツキー、M. モザー、およびM. ハセルモ、ページ757〜763、MITプレス、ケンブリッジMA、1996。
【非特許文献8】カードソ、J.-F.、第4順序累積率のみ使用するブラインドソース分離の反復技術、会報 EUSIPCO、ページ739〜742、1992。
【非特許文献9】コモン、P.、独立成分分析、「新しいコンセプト?信号処理」36(3)、287〜314、1994年4月。
【非特許文献10】ヒバエリネン、A. およびオジャ、E・独立成分分析のための高速固定小数点アルゴリズム、ニューラル・コンピュテーション、9、ページ1483−1492、1997。
【0007】
しかしながら、多くの周知のICAアルゴリズムは、音響反響(例えば部屋での反射によるもの)を本質的に含む現実の環境において記録された信号を効果的に分離することができない。これまでに記載した方法は、音源信号の線形静止混成(linear stationary mixture)から生じている信号の分離にのみ制限されている。直接経路信号およびその反響の合計によって起こる現象は、残響(reverberation)と呼ばれて、人工の音声強調および認識システムにおける、重大な課題である。現在、ICAアルゴリズムは、効果的なリアルタイムでの使用を妨害する、その時間的に遅延し、反響した信号を分離することができる、長いフィルタを含むことを必要とする。
【0008】
図1は、従来技術のICA信号分離システム100の一実施例を示す。そうした従来技術のシステムにおいて、ニューラル・ネットワークとして作動する、フィルタのネットワークは、入力されたいかなる数の混在信号からも、個々の信号に分解する。図1に示すように、システム100は、入力信号X1およびX2を受信する二つの入力チャネル110および120を含む。ICA直接のフィルタWlおよびICAクロスフィルタC2が、信号Xiのために適用される。ICA直接フィルタW2およびICAクロスフィルタC1が、信号X2のために適用される。直接フィルタW1およびW2は、直接的な調整のために通信する。クロスフィルタは、それぞれのフィルタ処理信号を、直接フィルタによってフィルタ処理された信号に合成する、フィードバックフィルタである。ICAフィルタの収束の後、生成された出力信号U1 およびU2は分離された信号を表す。
【0009】
米国特許番号5,675、659号(Torkkolaその他)は、遅延されフィルタ処理された音源のブラインド分離のための方法および装置を提案する。Torkkolaは、分離された出力のエントロピーを最大化する一方、ベルの特許にあるような静的係数の代わりに、非混在フィルタを使用するICAシステムを提案している。しかしながら、Torkkolaに記載されている、結合エントロピーを算出して、クロスフィルタの重み付けの値を調整するためのICA算出は、音声信号のような時間ごとに変化する入力エネルギーを有する入力信号がある場合において数値的に不安定で、残響という人為的結果を分離された出力信号にもたらす。よって、その提案されたフィルタ方式は、現実の音声信号の、安定した知覚的に許容可能なブラインド音源分離を達成しない。
【0010】
一般的なICA実施態様も、信号の結合エントロピーを繰り返し算出して、フィルタの重み付けの値を調整するために、相当な計算能力が必要とされるといった更なる困難に直面する。多くのICA実施態様も、フィードバックフィルタの多数回の循環およびフィルタの直接的な相関を必要とする。その結果、リアルタイムの音声のICAフィルタリングを達成することと、多数の混在音源信号を分離するために多数のマイクロホンを使用することは大変困難である。空間的に局所化された場所から生じている音源の場合、非混在フィルタ係数は、適当量のフィルタ・タップおよび記録マイクロホンによって計算することができる。しかしながら、振動、風による雑音または背景の会話から生じている背景雑音といった音源信号が分散する空間の場合、マイクロホンにて記録されるこの信号は、多くの異なる方向から発せられるため、非常に長くて複雑なフィルタ構造か非常に多数のマイクロホンを必要とする。全ての現実のシステムは、処理能力およびハードウェアの複雑さに制限されるため、リアルタイム音声信号強調のために確固たる方法を提供する更なる処理方法によって、改良の余地があるICAフィルタ構造を補完しなければならない。かかるシステムの計算の複雑さは、消費者向け小型装置(例えば携帯電話、パーソナル携帯情報機器(PDA)、オーディオ監視装置、ラジオなど)の処理能力と両立させなくてはならない。
【発明の開示】
【発明が解決しようとする課題】
【0011】
要求されていることは、音声信号をリアルタイムな背景雑音から分離することができる、簡略化された音声処理方法であって、高い計算能力を必要としなくとも、比較的正確な結果をもたらして、柔軟に異なる環境に適応することができることである。
【課題を解決するための手段】
【0012】
本発明は、雑音が多い音響環境において所望のオーディオ信号(例えば少なくとも一つの音声信号)を識別して分離する音声処理ためのシステムおよび方法に関する。この音声処理は、少なくとも二つのマイクロホンを有する装置(例えばワイヤレス携帯電話、ヘッドセットまたは携帯電話)において処理を行う。少なくとも二つのマイクロホンが、目標(例えば話者からの音声)から所望の信号を受け取る装置の筐体に配置される。これらのマイクロホンは、目標とするユーザの音声を受信するために配置される一方、雑音(他の音源からの音声、残響、反響および他の望ましくない音響)をも受信してしまう。両方のマイクロホンは、所望の目標音声および他の望まれない音響情報が混在したオーディオ信号を受信する。これらのマイクロホンからの混在信号は、改良型ICA(独立成分分析)処理を使用して処理される。この音声処理は、音声信号を識別する際に助けとなるよう、予め定義された音声特徴を利用する。この方法で、この音声処理は、目標ユーザからの所望の音声信号と、雑音信号を生成する。この雑音信号は、更に所望の音声信号をフィルタにかけて処理をするために利用することもできる。
【0013】
本発明の一態様は、少なくとも二つの入力信号のチャネル(それぞれは一つのオーディオ信号またはそれらの組み合わせからなる)および二つの改良型独立成分分析クロスフィルタを含む音声分離システムに関する。入力信号のこの2本のチャネルはクロスフィルタによってフィルタをかけられ、このフィルタは、好ましくは非線形性有界関数(nonlinear bounded function)を有する無限インパルス応答フィルタである。この非線形性有界関数は、高速で計算されることができる所定の最大値および最小値を伴う非線形性関数であって、例えば、入力値に基づいて正の値と負の値のどちらかを出力として返還する信号関数である。信号の後に続く反復フィードバックにおいて、出力信号の二本のチャネルのうちの、一つのチャネルが実質的に所望のオーディオ信号を含み、もう一方のチャネルは実質的な雑音信号を含んで生成される。
【0014】
本発明の別の一態様は、オーディオ信号を所望の音声信号および雑音信号に分離するシステムおよび方法に関する。入力信号(所望の音声信号および雑音信号が混在している)は、少なくとも2本のチャネルから受信される。等しい数の独立成分分析クロスフィルタが使用される。第1チャネルからの信号は、第1クロスフィルタによってフィルタをかけられて、増幅した信号を第2チャネル上に生成するために第2のチャネルからの信号と合成する。第2チャネル上の増幅した信号は、第2クロスフィルタによってフィルタをかけられて、増幅した信号を第1チャンネル上に生成するために、第1チャンネルからの信号と合成する。第1チャンネル上の増幅した信号は、第1クロスフィルタによって更にフィルタをかけることができる。フィルタリングおよび合成処理は、信号の2本のチャネル間の情報の冗長性を減らすために繰り返される。出力信号の生成された2本のチャネルのうち、一本は主に音声信号のチャネルであり、もう一方は主に非音声信号のチャネルである。更に音声品質を改善するために、付加的な音声強化方法(例えばスペクトル減算、ウィーナー・フィルタ、雑音除去、および音声特徴抽出)を実行することもできる。
【0015】
本発明の別の態様は、フィードバック・フィルタリング方式の設計における安定化要素の含有に関する。安定化の一実施例において、フィルタの重み付けの値を適合化させ法ルは、重み付けの値を適合化させることによって得られる強弱の変化は、フィードバック構造の全体の安定性要件を有するペースであるように設計される。前の方法とは異なり、この全体システムの性能は、単に分離された出力の所望のエントロピー最大化に向けられるだけではなく、より現実的な目的に対応するために、安定化拘束(stability constraint)も考慮される。この目的は、安定化拘束の下で最大尤推定法原理(maximum likely hood principle)としてより適確に記載される。最大尤推定法のこれらの安定化拘束は、音源信号のモデリング時間的特徴に対応する。エントロピーの最大化処理方法において、信号音源は、i. i. d(independently, identically drawn(それぞれに、同じく引き出された))確率変数とみなされる。しかしながら、音および音声信号といった実際の信号は、不規則信号ではなく、時間的に相互関係があると共に周波数が平滑である。対応する元のICAのこの結果は、係数学習法をフィルタにかける。
【0016】
別の安定化の実施例において、この学習法は、記録された入力振幅に直接依存するため、この入力チャンネルはフィルタの重み付けの値を適合化させる速度を制限するために適合スケーリングファクタによって縮小される。このスケーリングファクタは、再帰的方程式(recursive equation)によって決定されると共に、そのチャネル入力エネルギーの関数である。従って、それは次のICAフィルタ動作のエントロピーの最大化には無関係である。更に、ICAフィルタ構造の適合性質は、フィルタ係数があまりに急速に調整されるかまたは振動した状態を呈する場合、分離された出力信号が残響という人為的結果を含むことを意味する。このように、この学習フィルタの重み付けの値は、残響の影響を回避するために、時間領域および周波数領域において平滑にする必要がある。このスムージング動作がフィルタ学習処理を遅くするので、この強調された音声の理解度設計の態様はシステム全体の性能に付加的な安定効果を及ぼす。
【0017】
計算資源およびマイクロホンの数の制限が発生する空間的に分散された背景雑音のブラインド音源分離の性能を高めるために、ICAで計算された入力および出力に、それぞれ、前処理または後処理を施すことができる。例えば、音声活性検出および適合ウィーナー・フィルタリングが単に、処理信号についての時間的情報またはスペクトル情報だけを利用するので、本発明の別の実施例はこれらの方法を含むことが考えられ、従って、ICAフィルタリングユニットを補完するであろう。
【0018】
本発明の最後の態様は、フィルタ・フィードバック構造の計算精度および計算能力の問題に関する。有限ビット精度計算環境(finite bit precision arithmetic environment)(一般的に、16ビットまたは32ビット)において、このフィルタ処理は、係数量子化エラーをフィルタにかける。一般的にこのエラーは、収束性能およびシステム全体の安定性の劣化を導く。量子化効果はクロスフィルタ長を制限することによって、更に、元のフィードバック構造を変えることによって制御されることができ、後処理されたICA出力がその代わりにICA濾過構造にフィードバックされる。有限精度環境における入力エネルギーの縮小が、安定性の観点から必要なだけではなく、計算された数値の有限範囲のために強調される。有限精度環境における性能は信頼性が高くて調節可能であるが、ここで提案された音声処理方式は浮動小数点の精度環境において行われるべきである。最後に、計算の制約の下での実施は、適切にフィルタ長を選択し、フィルタ係数の更新する周波数を調整することによって達成される。実際、ICAフィルタ構造の計算量は、これらの後者の変数の直接関数である。
【0019】
他の態様および実施例は、図面において例示されるか、「詳細な説明」にて記載されるか、または、請求項の範囲によって定義される。
【発明を実施するための最良の形態】
【0020】
音声分離システムの好適な実施例は、図面と照らし合わせて以下に述べる。限られた計算能力でリアルタイム処理を可能にするために、本システムは、単純かつ容易に計算できる有界関数を有するクロスフィルタの、改良型ICA処理サブモジュールを使用する。従来の方法と比較して、この簡略化されたICA方法は、計算能力に関する要件を減らして、適切に音声信号を非音声信号から分離する。
【0021】
<音声分離システムの概略>
図2は、音声分離システム200の一実施例を例示する。システム200は、音声拡張モジュール210と、任意の音声雑音除去モジュール220および任意の音声特徴抽出モジュール230を含む。音声拡張モジュール210は、改良型ICA処理サブモジュール212および後処理サブモジュール214を任意で含む。改良型ICA処理サブモジュール212は、比較的低い計算能力でリアルタイム音声分離を成し遂げるために、単純化され、改良型ICA処理を利用する。リアルタイム音声分離を必要としないアプリケーションにおいて、改良型ICA処理は、計算能力の必要条件を更に減らすことができる。本明細書で使用される、用語ICAおよびBSSは交換可能であって、相互情報の数学的公式を、近似値を通して直接または間接的に、最小化または最大化する方法のことを指し、それは、非相関性方法(時間遅延非相関性または非相関性方法に基づく他の第2もしくはより高い順序統計等)に基づく時間領域および周波数領域を含む。
【0022】
本明細書において使用される、「モジュール」または「サブモジュール」は、全ての方法、装置、デバイス、ユニット、または、ソフトウェア、ハードウェア、もしくはファームウェアの形態での計算機命令を含むコンピュータ可読データ記憶媒体を指す。多数のモジュールまたはシステムを1台のモジュールまたはシステムに結合することができ、1台のモジュールまたはシステムを同じ機能を実行する多数のモジュールまたはシステムに分けることができると理解されるべきである。携帯電話のアプリケーションに関する好適な実施例において、改良型ICA処理サブモジュール212は(それ自体または他のモジュールと組み合わせて)、携帯電話に搭載されるマイクロプロセッサーチップに組み込まれる。ソフトウェアまたは他のコンピュータが実行できる命令を実行する時に、本発明の要素は基本的に、例えばルーチン、プログラム、目的、構成要素、データ構造体およびそれらに類似するものによって必要な作業を実行するコードセグメントとなる。このプログラムまたはコードセグメントは、プロセッサで読み込み可能な媒体で保存され、伝送媒体または通信リンクの上に搬送波で表されるコンピュータのデータ信号によって送信される。この「プロセッサで読み込み可能な媒体」は、情報の保存または転送可能な媒体を含み、揮発性、不揮発性、取り外し可能な媒体および取り外し不可能な媒体を含む。このプロセッサで読み込み可能な媒体の実施例は、電子回路、半導体メモリ素子、ROM、フラッシュメモリ、消去可能なROM(EROM)、フロッピーディスクもしくはその他の磁気記憶装置、CD-ROM/DVDもしくはその他の光メモリ、ハードディスク、光ファイバ媒体、無線周波数(RF)リンク、または、所望の情報を保存するために用い、アクセスすることができる、他のいかなる媒体も含む。コンピュータのデータ信号は、電子ネットワークチャネル、光ファイバ、空気、電磁気、RFリンク等の伝送媒体を通じて伝達することができるいかなる信号も含むことができる。コードセグメントは、インターネット、イントラネットなどのコンピューターネットワークを通してダウンロードされる。どんな場合であっても、本発明は、係る実施例によって制限されると解されるべきではない。
【0023】
音声分離システム200は、一以上の音声強調モジュール210、音声雑音除去モジュール210、および音声特徴抽出モジュール230の様々な組み合わせを含む。この音声分離システム200は、以下に記載するように、一以上の音声認識モジュール(図示されず)を更に含む。それぞれのモジュールは、独立システムとして、またはより大きなシステムの一部として、単独で使用することができる。後述するように、音声分離システムは、特定の関数を制御するために音声入力を受け入れる電子デバイス、または、背景雑音から所望の雑音の分離を必要とする電子デバイスに好ましくは組み込まれる。多くのアプリケーションは、多方向から生じている背音から明瞭な所望の音を強調するかまたは分離することを必要とする。上記のアプリケーションは、音声認識および検出、音声強調および分離、ボイス起動制御、および類似する機能を組み込んだ、電気または計算デバイスにおいてヒューマンマシンインタフェースを含む。本発明の音声分離システムに必要とされる処理能力をより低くするために、デバイスは限られた処理能力を提供することのみが適切とされる。
【0024】
<改良型ICA処理>
図3は、改良型ICAまたはBSS処理サブモジュール212の一実施例300を例示する。入力信号XlおよびX2は、チャネル310および320からそれぞれ受信される。一般的に、これらの信号はそれぞれ、少なくとも一つのマイクロホンから来るが、他の音源を使用することができることも理解されよう。クロスフィルタWlおよびW2は、分離された信号Ulのチャネル330および分離された信号Uのチャネル340を生成するために、それぞれの入力信号に適用される。チャネル330(音声チャネル)は、主に所望の信号を有しており、チャネル340(雑音チャネル)は、主に雑音信号を有している。用語「音声チャネル」および「雑音チャネル」が使用されるが、用語「音声」および「雑音」は、望ましければ交換可能である(例えば、一つの音声および/または一つの雑音が他の音声および/または他の雑音よりも望ましい場合)。更に、この方法は、二以上の音源からの混在雑音信号を分離するために用いることができる。
【0025】
無限インパルス応答型フィルタが、改良型ICA処理過程において用いられることが望ましい。無限インパルス応答型フィルタは、その出力信号が入力信号の少なくとも1部としてフィルタにフィードバックされるフィルタである。有限インパルス応答フィルタは、出力信号が入力としてフィードバックがないフィルタである。クロスフィルタW2l およびW12は、時間遅延を取り戻すために、係数をまばらに割り当てることができる。最も簡略化された形態において、クロスフィルタW2lおよび Wl2は、1フィルタにつき1フィルタ係数のゲイン係数であって、例えば、出力信号とフィードバック入力信号との間の時間の遅れのための遅延ゲイン係数、および入力信号を増幅するための増幅ゲイン係数である。他の形態において、クロスフィルタはそれぞれ、何ダース、何百または何千のフィルタ係数を有することができる。後述するように、出力信号UlおよびUは、後処理サブモジュール、雑音除去モジュールまたは音声特徴抽出モジュールによって更に処理することができる。
【0026】
ICA学習法がブラインド音源分離を成し遂げるために明確に導き出されたにもかかわらず、音響環境の音声処理へのこの法の実際的な実施は、フィルタ方式の不安定な反応につながる可能性がある。このシステムを確実に安定したものにするために、W12および類似するW2lの適合化のための強弱の変化は、第1に安定していなければならない。そうしたシステムのためのゲインマージンは、非静止音声信号と接触するといったことによる入力ゲインの増加が、重み付けの係数を不安定にし、係数の指数関数的な増加につながるといった、一般的な意味においては低い。音声信号が一般にゼロ平均を有するまばらな分配を呈するので、符号関数は時間的にしばしば振動して、不安定な動作を起こす。最後に、大きな学習パラメータが速い収束のために要求されるという理由から、大きな入力ゲインがシステムをより不安定にするので、安定性と性能の間の固有のトレードオフがある。周知の学習法は、不安定なだけではなくて、特に安定性制限に接近する時に、非線形符号関数のために振動する傾向があり、フィルタ処理された出力信号Y[t]およびY2[t]の残響を引き起こす。これらの問題に対処するために、W12およびW21のためのこの適合化法は、安定性を必要とする。フィルタ係数に対する学習法が安定している場合、広範囲な分析的かつ経験的研究は、システムがBIBO(有界入力−有界出力(bounded input bounded output))において安定していることを示した。従って、この処理方式全体の最終的な目的は、安定化拘束の下で雑音が多い音声信号のブラインド音源分離である。
【0027】
従って、安定性を確実にする主要な方法は、図3に例示されるように、入力を適切にスケーリングすることである。このフレームワークにおいて、スケーリングファクタ「sc_fact」は、入って来る入力信号の特徴に基づいて構成される。例えば、入力があまりに高い場合、sc-factにおける増加を導き、よって、入力振幅を減少させる。性能と安定性との間において妥協は不可欠である。sc_factによって入力を縮小することは、劣った分離性能を導くSNRを減少させる。従って、入力は、安定性を確実にするために必要な程度にのみスケーリングされるべきである。クロスフィルタの更なる安定性は、あらゆるサンプルの重み付けの係数における短期間変動の原因であるフィルタ構造をなすことによって達成され、従って関連する残響を避けることができる。この適合化法・フィルタは、時間領域の平滑化として見ることができる。更なるフィルタの平滑化は、隣接した周波数ビンの上に収束された分離フィルタの一貫性保つために、その周波数領域において実行することができる。これは、K-タップフィルタを長さLに対してゼロタッピングすることによって好適に実行できる。フィルタが矩形の時間領域ウィンドウによって効果的にウィンドウ化されるので、それは周波数領域のシンク関数によって、対応して平滑化される。この周波数領域のスムージングは、整合する解決策として、適合されたフィルタ係数を周期的に再初期化するために、一定の時間間隔で行われる。
【0028】
以下の方程式は、サイズtの時間的サンプル・ウィンドウ、および時間変化Kを伴う時間的サンプル・ウィンドウのために用いられることができる非線形有界関数の実施例である。

【0029】
関数f(x)は、非線形有界関数(すなわち、所定の最大値および所定の最小値を有する非線形関数)である。望ましくは、f(x)は、可変的なxの信号に従い急速に最大値または最小値に接近する非線形有界関数である。例えば、上記の式3および式4は、単純な有界関数として信号機能を使用する。信号機能f(x)は、xが陽性か陰性かによって、1または−1の二進数の値を有する関数である。 例の非線形有界関数は、以下を含むが、これに限定されるものではない。

【0030】
これらの法は、浮動小数点の精度が必要な計算を実行するために利用できると仮定する。浮動小数点の精度が好適であるが、固定小数点演算も同様に使用することが可能であり、特にそれは、計算処理能力を一番低くした装置に適用する場合に可能である。固定小数点演算を使用する能力に関わらず、最適ICA分解のための収束(convergence)は、さらに難しい。実際、ICAアルゴリズムは、干渉する音源が相殺されなければならないという原理に基づく。固定小数点演算においてほぼ等しい数が減算される(または、非常に異なる数が加えられる)時に不正確なことがあるため、ICAアルゴリズムは最適収束特性に満たない可能性がある。
【0031】
分離性能に影響を及ぼす別の要因は、フィルタ係数の量子化誤差効果である。限られたフィルタ係数分解能のため、フィルタ係数の適合化は、ある時点において、段階的に更なる分離のための改良を生み出し、収束特性を決定付けることを考慮するであろう。量子化誤差効果は、多くの要因によるが、主にフィルタ長の機能および使用されるビット分解能によるものである。上記の入力スケーリングの問題は更に、数的なオーバフローを防ぐための有限の正確な計算においても必然的なものである。複雑なフィルタリング処理においては、利用できる分解能の範囲より大きな数になるまで合計してしまう可能性があるため、スケーリングファクタは、これを防止するためにフィルタ入力が十分小さくなるように確実にする必要がある。
【0032】
<マルチチャンネル改良型ICA処理>
改良型ICA処理サブモジュール212は、少なくとも2本のオーディオ入力チャネル(例えばマイクロホン)から、入力信号を受信する。このオーディオ入力チャネルの数は、最小数である2本より多くなってもよい。入力チャネルの数が増加するにつれて、音声分離品質は、一般的に入力チャネルの数が音声信号の音源の数に等しくなるまでを上限として改善することができる。例えば、入力音声信号の音源が、スピーカ、背景スピーカ、背景ミュージックの音源、ならびに遠くの交通のノイズおよび風のノイズによって発生する一般の背景雑音を含む場合、通常、4チャネル音声分離システムのほうが2チャネルシステムより性能が優れている。当然、より多くの入力チャネルが使われるにつれて、より多くのフィルタおよびより高い計算能力が必要となる。
【0033】
改良型ICA処理サブモジュールおよび方法は、入力信号の2本以上のチャネルを分離するために用いることができる。例えば、携帯電話アプリケーションでは、1本のチャネルが所望の音声信号を実質的に含むことができ、別のチャネルは一つの雑音音源からの雑音信号を実質的に含むことができ、更に別のチャネルは他の雑音音源からのオーディオ信号を実質的に含むことができる。例えば、多くのユーザがいる環境では、1本のチャネルは1人の目標ユーザからの音声を主に含むことができる一方、別のチャネルは異なる目標ユーザからの音声を主に含むことができる。第3のチャネルは雑音を含むことができ、更に前記2本の音声チャネルを処理するために有用である。更なる音声チャネルまたは目標チャネルが有用であることは理解されよう。
【0034】
いくつかのアプリケーションは所望の音声信号の一つの音源だけを含むが、他のアプリケーションにおいては、所望の音声信号の多数の音源を含んでいてもよい。例えば、電子会議アプリケーションまたはオーディオ監視アプリケーションは、背景雑音から、および相互からの多数のスピーカの音声信号を分離することが必要となる。改良型ICA処理は、音声信号の一つの音源を背景雑音から分離するだけではなく、一人の話者の音声信号を別の話者の音声信号から分離するために用いられる。
【0035】
<周辺処理>
本発明の方法またはシステムの性能をその有効性および堅固性において高めるために、様々な周辺処理技術が入力信号および出力信号に適用され、更に、様々な段階において適用することができる。本明細書において明確に記載されている方法および装置を補完する、前処理技術および後処理技術は、混在したオーディオに適用されるブラインド音源分離技術の性能を高める。例えば、後処理技術は、望ましくない出力または分離されていない入力を利用して、所望の信号の品質を改善するために用いることができる。同様に、前処理技術または情報は、本明細書において記載されている方法およびシステムを補完するために、混在するシナリオの条件を改良することによって、混在するオーディオに適用されるブラインド音源分離技術の性能を高めることができる。
【0036】
改良型ICA処理は、音信号を少なくとも2本のチャネル(例えば雑音信号(雑音チャネル)のための1本のチャネルおよび所望の音声信号(音声チャネル)のための1本のチャネル)に分離する。図4に示すように、チャネル430は音声チャネルであって、チャネル440は雑音チャネルである。音声チャネルが望ましくないレベルの雑音信号を含み、雑音・チャネルはまだ若干の音声信号を含む可能性がかなりある。例えば、2以上の重要な音源および二つのマイクロホンだけがある場合、または、二つのマイクロホンが互いに近接して配置され、かつ音源ははるかに離れて位置する場合は、改良型ICA処理のみでは、雑音から所望の音声を必ずしも適切に分離しない可能性がある。従って、処理信号は、背景雑音の残余のレベルを除去すること、もしくは更に音声信号の品質を改善するために後処理されること、またはそれらの両方を必要とする場合がある。これは、例えば、単一または複数チャネル音声強調アルゴリズムによって分離されたICA出力を供給することにより達成される。音声アクティビティ検出器で検出される非音声時間インターバルから推定される雑音周波数域を有するウィーナー(Wiener)・フィルタは、長時間のサポートを伴う背景雑音によって劣化した信号のためにより良好なSNRを達成するために用いられる。加えて、有界関数は、結合エントロピー算出に単純化された近似値のみであって、信号の情報の冗長性を必ずしも完全には減らさないかもしれない。従って、信号を、改良型ICA処理を使用して分離した後に、更に音声信号の品質を改善するために後処理を実行することができる。
【0037】
分離された雑音信号チャネルは、除去することができるが、他の目的のために使うこともできる。音声チャネルの残余雑音信号は雑音チャネルの雑音信号と類似した信号符号を有するという合理的な仮定に基づいて、符号が雑音チャネル信号の符号に類似している所望の音声チャネルの残余雑音信号は、後処理装置において除去されなければならない。例えば、差スペクトル法が、後処理を実行するために用いられる。雑音チャネルの信号の符号は、識別される。雑音特徴の所定の仮定に中継する従来技術の雑音フィルタと比較した場合、特定の環境の雑音符号を分析して、特定の環境を表す雑音信号を除去するため、後処理はより柔軟に対応できる。従って、それは、雑音除去において過度に含むか、過度に少ないケースが少なくなる。ウィーナー・フィルタリングおよびカールマン(Kalman)フィルタリングといった他のフィルタリング技術も、後処理を実行するために用いることができる。ICAフィルタ分解は本当の分解の制限サイクルまで収束するだけであるため、フィルタ係数は、より良好な分離性能となること無く、適合し続ける。いくつかの係数がそれらの分解能の限界に移行することが観察された。従って、所望のスピーカ信号を含んでいるICA出力の後処理バージョンは、図4で示すようにIIRフィードバック構造でフィードバックされ、結果として収束制限サイクルが克服されて、ICAアルゴリズムを不安定にしない。この工程の有益な副産物としては、収束がかなり加速されるということである。
【0038】
雑音除去、音声機能抽出といった他の処理が、更に音声信号の品質を改善するために音声強調と共に用いることができる。音声認識アプリケーションは、音声強調処理によって分離された音声信号を利用することができる。雑音から実質的に分離される音声信号については、Hidden Markov Model chains、ニューラル・ネットワーク学習および支持ベクトル機械といった方法に基づく音声認識エンジンは、より高度な精度で動作することができる。
【0039】
音声処理のフローチャートが示される、図5を参照する。方法500は、例えば、携帯ワイヤレス携帯電話、電話ヘッドセットといった音声装置、または自動車用ハンズフリーキットで用いられることができる。方法500は、他の音声装置にも用いられることができ、DSPプロセッサ、一般のコンピューティング・プロセッサ、マイクロプロセッサ、ゲート・アレイまたは他の計算装置に実装することができることはいうまでもない。使用中、方法500は、音信号502の態様の音響信号を受信する。これらの音信号502は、多くの音源から出ており、目標ユーザからの音声、周辺の他人の音声、雑音、残響、反響、反射および他の望ましくない音を含んでいる。方法500が単一の目標音声信号を識別して分離することが示されるが、方法500を更なる目標音声信号を識別して分離するために変更することができることも理解されよう。
【0040】
加えて、様々な前処理技術または情報が、混在オーディオ信号の処理および分離を改善するかまたは容易にするために用いることができる。それは、演繹的な知識を用い、入力信号および条件において互いに異なる情報または特徴を最大にし、混在するシナリオ等の条件を改良して達成できる。例えば、分離されたICA音声チャネルの出力オーダーは一般的には前もって分からないので、付加的なチャネル選択の段階510は、所望のスピーカについての演繹的な知識501に基づいて分離されたチャネルの内容を反復的に処理する。所望の話者の音声特徴を識別するために用いられる基準504は、空間的もしくは時間的特長、エネルギー、ボリューム、周波数コンテンツ、ゼロ交差率または分離処理のために平行して計算される、話者従属および独立音声認識スコアを基にすることができるが、これらに限定しない。例えば、基準504は、特定の命令(例えばスリープ解除)のような限定された語彙に反応するように構成することができる。別の例では、音声装置は、特定の場所または方向(例えば車の前部運転主の位置)から発している音声信号に反応することができる。このような方法で、自動車用ハンズフリーキットは、運転手からの音声だけに反応するように構成することができ、その一方で、乗客およびラジオからの音声を無視することができる。あるいは、混在シナリオの条件は、空間的、時間的、エネルギー、およびスペクトル等の変調または操作により、入力信号の特徴を変調または操作することによって改善することができる。
【0041】
いくつかの音声装置上において、マイクロホンは、音声音源、背景雑音からの所定の距離に基づいて、または他のマイクロフォンに関連して一貫して配置され、もしくは出力信号(例えば指向性マイク)を条件づけるために特定の特徴をそれ自体に有する。ブロック506に示すように、二つのマイクロホンは、間隔をおいて配置され、音声装置の筐体に搭載することができる。例えば、マイクロホンが話者の口の約1インチ以内にあって、更に話者の声がマイクロフォンに対して一般的に最も近い音源となるように、電話ヘッドセットは一般的に調整される。同様に、携帯ワイヤレス電話、送受話器またはラペル・マイクロホン用のマイクロホンでは、一般的に目標話者の口までの距離は、一般的に知られているような距離である。マイクロホンから目標音源への距離が公知であるので、この距離が、目標音声信号を識別するための特徴として用いられる。また、多数の特徴を用いることができることはいうまでもない。例えば、処理510は、2インチ未満の距離から出る、男性の音声を表す周波数要素を有する音声信号だけを選ぶことができる。二つのマイクロホンのセットアップが使用される場合、マイクロホンは、所望の話者の口の近くに配置される。このセットアップは、雑音だけを含んでいる残留する分離された出力チャネルを所望の話者チャネルの次の後処理のための雑音基準として使用することが可能なように、所望の話者の声信号を一つのICAチャネルに分離することを可能にする。
【0042】
2以上のマイクロホンが用いられる記録シナリオにおいて、二つのチャネルICAアルゴリズムは、前述で二つのチャネルシナリオのために説明したことと同じように、N*(N-1)ICAクロスフィルタを伴って、N-チャネル(マイクロフォン)アルゴリズムに応用される。 後者は、N記録されたチャネルおよび、所望の話者を分離するために2のチャネルICAアルゴリズムで処理される最適な二つのチャネルの組合せの中から選択するために[ad2]において示されるチャネル選択手順に沿って、音源ローカライゼーションの目的のために使われる。学習されたICAクロスフィルタ係数と同様、記録された入力から分離された出力音源までの相対的なエネルギー変化のような(しかしそれに限定しない)、N-チャネルICAから生じる全ての種類の情報は、このために利用される。
【0043】
それぞれに間隔が置かれたマイクロホンは、所望の目標音およびいくつかの雑音および残響音源の混在である信号を受信する。混在音声信号507および509は、分離のためのISA 処理508において受信する。識別処理510を用いて目標音声信号を識別した後に、ICA処理508は、その混在音を所望の音声信号および雑音信号に分離する。このICA処理は、音声信号を更に処理(512)するために雑音信号を使用することができ、それは例えば、更に重み付けの要因を洗練して、設定するために雑音信号を用いることによって達成される。更に、雑音信号は、付加的なフィルタ514によって、また、音声信号から雑音コンテンツを更に除去するための(更に後述してある)処理によって、使用することができる。
【0044】
<雑音除去>
図6は、雑音除去処理の一実施例を示すフローチャートである。携帯電話アプリケーションにおいて、雑音除去は、空間的に局所化されない雑音源(例えば全ての方向から来る風の音)を分離するために最適である。更に、雑音除去技術は、固定周波数を有する雑音信号を取り除くために用いることも可能である。この処理は、開始ブロック600から、ブロック610へと進む。この処理は、ブロック610で、音声信号xの1ブロックを受信する。処理はブロック620へ進む。ここで、好ましくは以下の公式を使用して、システムは音源係数sを計算する。

【0045】
上記の公式において、wijは、ICAの重み付けマトリクスを表す。米国特許5,706,402号に記載されているICA方法または、米国特許6,424,960号に記載されているICA方法は、雑音除去処理において用いられる。次に、この処理は、ブロック630、ブロック640または1ブロック650へ進む。ブロック630、640および650は、別の実施例を表す。ブロック630において、この処理は、信号si.の能力に基づいて、多くの重要な音源係数を選択する。ブロック640において、この処理は、微々たる係数を除去するために、最大尤推定法の収縮関数を計算された音源係数に適用する。ブロック650において、この処理は、それぞれの時間サンプルtのための基底関数のうちの1を有する音声信号xにフィルタをかける。
【0046】
ブロック630、640または650から、この処理はブロック660へ進む。ここで、好ましくは以下の方式を用いて、音声信号を復元する。

【0047】
上記公式において、aijは、重率因子を伴う入力信号をフィルタリングすることによって生成された訓練信号を表す。このように、雑音除去処理は、雑音を取り除き、復元された音声信号 xnewを生成する。雑音源についての情報が得られる時に、よい雑音除去結果が得られる。改良型ICA処理と関連して先に記載されたように、雑音チャネルの信号の符号が、音声チャネルの信号から雑音を除去するために自雑音除去処理によって利用される。この処理は、ブロック660から、エンドブロック670へ進む。
【0048】
<音声特徴抽出>
図7は、ICAを使用している音声特徴抽出処理の一実施例を例示する。この処理は開始ブロック700から始まり、ブロック710に行く。ここで、この処理は音声信号xを受信する。図9と関連して後述するように、音声信号xは、入力音声信号か、音声強化によって処理された信号か、雑音除去によって処理された信号か、または音声強化および雑音除去によって処理された信号でありえる。
【0049】
図7に戻り、この処理はブロック710から1ブロック720へ進む。ここで、上記の式10にあるように、この処理は公式sij,new=W*xijを用いて音源係数を計算する。この処理はそれから1ブロック730へ進む。ここで、受信された音声信号は基底関数に分解される。ブロック730から、この処理はブロック740へ進む。ここで、計算された音源係数が特徴ベクトルとして使われる。例えば、計算された係数Sjj,newまたは2log sij,newが、特徴ベクトルを算出する際に、新たに使われる。その処理は、次にエンドブロック750へ進む。
【0050】
抽出された音声特徴は、音声を認識するために、または認識できる音声と他の音声信号を区別するために用いることができる。この抽出された音声特徴は、それ自体で、またはセプストラル(cepstral)特徴(MFCC)とともに使うことができる。更に、抽出された音声特徴は、話者を識別するために用いることができ、例えば、多数の話者の音声信号から個々の話者を識別するために、または音声信号を特定のクラス(例えば男性もしくは女性の話者からの音声)に属することを認識するために用いることができる。更に、抽出された音声特徴を、音声信号を検出するために、分類アルゴリズムによって使用することができる。例えば、最大尤推定算出は、該当する信号が人間の音声信号であるという可能性を決定するために用いることができる。
【0051】
更に、抽出された音声特徴は、テキストのコンピュータ表示を形成する、テキストを音声に変換する(text-to-speech)アプリケーションに適用することができる。テキストを音声に変換するシステムは、音声信号の大きなデータベースを使用する。一つの難題は、音素の、良好な代表的データベースを得ることである。従来技術のシステムは、音素データベースに音声データを分類するために、セプストラル特徴を利用する。基底関数に音声信号を分解させることによって、改良型音声機能抽出方法はより適切に音素部分に音声を分類することができ、従って、より良好なデータベースを作り出すことができる。このように、テキストを音声に変換するシステムのためにより良好な音声品質を可能にする。
【0052】
音声特徴抽出処理の一実施例において、1組の基底関数は、音声を認識するために全ての音声信号に用いられる。他の実施例において、1組の基底関数は、それぞれの話者を認識するためにそれぞれの話者に用いる。これは、多数話者のアプリケーション(例えば電子会議)のために特に有効である。更に別の実施形態では、1組の基底関数は、複数話者のそれぞれのグループを認識するために一つのグループの複数話者に用いる。例えば、1組の基底関数が男性の話者のために使われ、そして別の一組が女性の話者のために使われる。米国特許6,424、960号には、異なるグループの声を識別するためにICA混在モデルを使用することが記載されている。そうした方式は、異なる話者または異なる性の音声信号を識別するために用いることができる。
【0053】
<音声認識>
音声認識アプリケーションは、改良型ICA処理によって分離される音声信号を利用することができる。雑音から実質的に分離される音声信号については、音声認識アプリケーションは、より高い精度で動作することができる。Hidden Markov Model 、ニューラル・ネットワーク学習および支持ベクトル機械といった方法が、音声認識アプリケーションで用いられることができる。前述のように、2-マイクロホン配置において、改良型ICA処理は、入力信号を、所望の音声信号および若干の雑音信号からなる音声チャネルと、雑音信号および若干の音声信号からなる雑音チャネルに分離する。
【0054】
雑音が多い環境での音声認識精度を改善するために、雑音基準信号に基づいて音声信号から雑音を取り除くために、正確な雑音基準信号を有することが好ましい。例えば、実質的に音声信号のチャネルから、雑音基準信号の特徴を有する信号を除去するために音声スペクトル減算を用いることである。従って、非常に雑音が多い環境のための好適な音声認識システムにおいて、このシステムは、音声チャネルおよび信号の雑音チャネルを受信して、雑音基準信号を識別する。
【0055】
<処理の組み合わせ>
音声特徴抽出、雑音除去および音声認識処理の特定の実施例は、音声強調処理と共に記載される。全ての処理を使用する必要があるというわけではないということは注目すべきである。図8は、音声強化、音声除去または音声特徴抽出処理の、いくつかの一般的組合せの一覧を示している表800である。表800の左欄は信号のタイプの一覧を示しており、右欄は、対応する信号のタイプを処理するための好適な処理の一覧を示す。
【0056】
列810に示される一つの設定において、入力信号は、始めに音声強調を用いて処理され、次に、音声雑音除去を用いて処理され、更に、音声特徴抽出を用いて処理される。入力信号が高雑音および競合する音源を含んでいる時に、これらの3つの処理の組み合わせはよく作用する。高雑音は、多数の音源(例えば、様々な種類の雑音が異なる方向から出ているが、一種類の雑音が特に大きいわけではない道路上において)から出る比較的低い振幅雑音信号のことを指す。競合する音源は、所望の音声信号と競合する1または数箇所の音源からでる高振幅信号のことを指す(例えば運転手が自動車電話で話している時に、カーラジオがボリュームを上げてある場合において)。列820に示される別のアレンジメントにおいて、入力信号は、初めに音声強化を用いて処理され、次に、音声特徴抽出を用いて処理される。音声除去処理は省略する。オリジナル信号が競合する音源を含んでおり、大きな雑音を含まない時に、音声強化および音声特徴抽出処理の組合せはよく作用する。
【0057】
列830に示される更に別の設定において、入力信号は、始めに雑音除去で処理され、次に音声特徴抽出で処理される。音声強化処理は省略する。音声雑音除去と音声特徴抽出処理の組み合わせは、入力が大きな雑音を含んでおり、競合する音源を含まない時にうまく作用する。列840に示される更に別の設定において、音声特徴抽出だけが、入力信号に実行される。この処理は、大きな雑音または競合する音源を含まない比較的きれいな音声において、良好な結果に達するのに十分である。表800は実施例のリストだけであって、他の実施例を使用することも当然可能である。例えば、信号をその種類を問わずに処理するために、音声強調、音声雑音除去および音声特徴抽出処理の全てを適用することができる。
【0058】
<携帯電話のアプリケーション>
図9は、携帯電話機器の一実施例を例示する。携帯電話機器900は、音声信号を記録するための二つのマイクロホン910、920を有しており、更に、背景の雑音から所望の音声信号を分離するために、記録された信号を処理するための音声分離システム200を有している。音声分離システム200は、分離された信号をチャネル930および940上に生成するためにクロスフィルタを記録された信号に適用する改良型ICA処理サブモジュールを少なくとも一つ含む。分離された所望の音声信号は、それから音声信号受信装置(例えば有線の電話または別の携帯電話)に、送信機950によって送信される。
【0059】
分離された雑音信号は、除去することができるが、他の目的のために使用することもできる。分離されたノイズ信号は、環境特徴を決定し、それに応じて携帯電話パラメータを調整するために用いてもよい。例えば、雑音信号は、話者の環境の雑音レベルを決定するために用いてもよい。そしてこの携帯電話は、話者が雑音レベルの高い環境にいる場合、マイクロフォンのボリュームを上げる。上述したように、雑音信号は、基準信号として更に分離された音声信号から残りの雑音を取り除くためにも用いることができる。
【0060】
図の簡略化のために、電池、ディスプレイパネル等の他の携帯電話のパーツは、図9において省略する。アナログ/デジタル転換もしくは変調を含むか、またはFDMA(周波数分割多元接続)、TDMA(時分割多元接続)もしくはCDMA(チャネル分割倍数アクセス)等を可能にする携帯電話もまた、説明を容易にするために省略する。
【0061】
図9は二つのマイクロホンを示しているが、2以上のマイクロホンを用いることもできる。既存の生産技術は、10セント硬貨、ピンヘッドまたはそれ以下の大きさであるマイクロホンを製造することができ、多数のマイクロホンを装置900に配置することができる。
【0062】
一実施例において、携帯電話において実行される従来の反響-取消処理は、ICA処理(例えば改良型のICAサブモジュールによって実行される処理)と置き換えられる。
【0063】
オーディオ信号の音源が一般的に相互に離れているので、マイクロホンは携帯電話上に好ましくは音響的に離れて配置される。例えば、一つのマイクロホンを携帯電話の前面上に配置することができる一方、別のマイクロホンを携帯電話の背面上に配置することができる。一つのマイクロホンを携帯電話の上部または左側の近くに配置することができる一方、別のマイクロホンを携帯電話の一番下または右側の近くに配置することができる。二つのマイクロホンは、携帯電話ヘッドセットの異なる位置に配置することができる。一実施例において、二つのマイクロホンはヘッドセットに配置され、更に二つのマイクロホンは携帯電話携帯端末に配置される。従って、二つのマイクロフォンは、ユーザが携帯端末またはヘッドセットを使用するかどうかにかかわらず、ユーザの音声を記録することができる。
【0064】
改良型ICA処理を利用する携帯電話が例として記載されているが、他の音声通信媒体(例えば電子機器のための音声命令)、スピーカーホン、コードレス電話機、電子会議、CBラジオ、携帯無線電話、コンピュータ電話通信アプリケーション、コンピュータおよび自動車用音声認識アプリケーション、監視装置、インターコム等)も、他の信号から所望の音声信号を分離するために、改良型ICA処理を利用することができる。
【0065】
図10は、携帯電話機器の別の実施例を例示する。携帯電話機器1000は、別の通信デバイス(例えば別の携帯電話)から音声信号を受け取るための二つのチャネル1010、1020を含む。このチャネル1010および1020は、二つのマイクロフォンによって記録される同じ会話の音声信号を受信する。2以上の受信ユニットは、入力信号の2本以上のチャネルを受信するために用いることができる。機器1000は更に、所望の音声信号を背景雑音から分離するために、受信された信号を処理する音声分離システム200を含む。分離された所望の音声信号は、次に、携帯電話ユーザの耳に届くように、アンプ1030によって増幅される。音声分離システム200を受信携帯電話に配置することによって、送信携帯電話が音声分離システム200を有しない場合であっても、受信携帯電話のユーザは高品質の音声を聞くことができる。しかしながら、これには、送信携帯電話上の二つのマイクロフォンによって記録される会話の信号の2本のチャネルを受信することが必要とされる。
【0066】
図の簡略化のために、電池、ディスプレイパネル等の他の携帯電話パーツは、図10では省略されている。デジタル/アナログ転換もしくは復調を含むか、または、FDMA(周波数分割多元接続)、TDMAを(時分割多元接続)もしくはCDMA(チャネル分割倍数アクセス)等を可能にする携帯電話もまた、説明を容易にするために省略する。
【0067】
このように、特定の態様、効果および本発明の新規的特徴が、本明細書において記載されてきた。当然、必ずしも、全てのかかる態様、効果または特徴が、本発明のいかなる具体例においても実現されるとういわけではないことは理解されよう。本明細書において述べられる実施例は、本発明の実施例として提供されており、追加、変更および調整が可能である。例えば、方程式7、8および9は、一非線形有界関数の実施例を呈示するが、非線形有界関数は、これらの実施例に制限されることはなく、所定の最大値および最小値を有するいかなる非線形関数をも含むことができる。従って、本発明の範囲は、以下の請求項によって定義される。
【図面の簡単な説明】
【0068】
【図1】図1は、先行技術のICA信号分離システムのブロック図を例示する。
【図2】図2は、本発明における、音声分離システムの一実施例のブロック図である。
【図3】図3は、本発明における、改良型ICA処理サブモジュールの一実施例のブロック図である。
【図4】図4は、本発明における、ICA音声分離処理の一実施例のブロック図である。
【図5】図5は、本発明における、音声処理方法のフローチャートである。
【図6】図6は、本発明における、音声雑音除去処理のフローチャートである。
【図7】図7は、本発明における、音声特徴抽出処理のフローチャートである。
【図8】図8は、本発明における、音声処理過程の組合せの実施例を示している一覧である。
【図9】図9は、本発明における音声分離システムを有する携帯電話の一実施例のブロック図である。
【図10】図10は、音声分離システムを有する携帯電話の別の実施例のブロック図である。

【特許請求の範囲】
【請求項1】
周辺音響下において所望の音声信号を分離する方法であって、
複数の入力信号を受信するステップであって、該入力信号は所望の音声信号および他の音響信号に反応して生成されるステップと、
受信した入力信号を、安定化拘束の下で独立成分分析(ICA)またはブラインド音源分離(BSS)を使用して処理をするステップと、
受信した入力信号を、一以上の所望のオーディオ信号および一以上の雑音信号に分離するステップと、
を含む方法。
【請求項2】
所望のオーディオ信号の一つは、所望の音声信号である請求項1記載の方法。
【請求項3】
ICA処理またはBSS処理は、近似値で直接または間接的に相互の情報の数学的公式化を最小または最大にすることを含む請求項1に記載の方法。
【請求項4】
ICAの重み付けの値を適合化させることによって得られる強弱の変化のペースによってICA処理を安定させるステップを更に含む請求項1に記載の方法。
【請求項5】
重み付けの値を適合化する速度を抑えるために適合化スケーリングファクタを使用してICA入力をスケーリングすることによってICA処理を安定させるステップを更に含む請求項1に記載の方法。
【請求項6】
残響の影響を回避するために時間領域および周波数領域において学習されたフィルタの重み付けの値にフィルタをかけることによってICA処理を安定させるステップを更に含む請求項1に記載の方法。
【請求項7】
多様な段階における前記入力信号および分離された信号に周辺処理技術が適用される請求項1に記載の方法。
【請求項8】
分離の能力を高めるために、前処理技術または手段を利用することを更に含む請求項1に記載の方法。
【請求項9】
入力信号に適用された混在シナリオの条件を改良することを更に含む請求項8に記載の方法。
【請求項10】
分離された所望の音声信号を含んでいるチャネルを識別するためにこの所望の音声信号の特性情報を利用することを更に含んでいる請求項2に記載の方法。
【請求項11】
特性情報が空間的、スペクトル、または時間的な情報である請求項10に記載の方法。
【請求項12】
後処理技術は、少なくとも一つの雑音信号または少なくとも一つの入力信号を利用することにより、所望の信号の品質を改善するために用いられる請求項1に記載の方法。
【請求項13】
所望の音声信号を更に分離して強調するために、分離された雑音信号を使用するステップを更に含む請求項12に記載の方法。
【請求項14】
前記使用するステップは、ノイズフィルタのための雑音スペクトルを推定するために雑音信号を使用することを含む請求項13に記載の方法。
【請求項15】
少なくとも二つのマイクロフォンを間隔をおいて配置するステップと、
それぞれのマイクロホンで前記入力信号のうちの一つを生成するステップと、
を更に含む請求項1記載の方法。
【請求項16】
間隔をあけるステップは、約1ミリから約1メートルの間隔をあけてマイクロフォンを配置することを含む請求項15に記載の方法。
【請求項17】
間隔をあけるステップは、受話器、ヘッドセットまたはハンズフリー・キット上にマイクロホンを互いから離して配置することを含む請求項15に記載の方法。
【請求項18】
ICA処理は、
第1出力チャネルおよび第2入力チャネルに接続されている第1適合独立成分分析(ICA)フィルタであって、該第1フィルタは雑音信号チャネルに非線形有界符号関数のアプリケーションを含む再帰的な学習法によって構成される、第1フィルタと、
第1入力チャネルにおよび第2出力チャンネルに接続されている第2適合独立成分分析フィルタであって、該第2フィルタは所望の音声信号チャネルに非線形有界関数のアプリケーションを含む再帰的な学習法によって構成されている、第2フィルタと、
を含んでおり、
前記第1フィルタおよび第2フィルタは、前記所望の音声信号を生成するために繰り返し使用される、請求項15に記載の方法。
【請求項19】
(a)第1適合独立成分分析フィルタによって再帰的にフィルタをかけられる所望の音声チャネルは、フィードバックされ、第2マイクロホンから前記入力チャネルに加えられ、雑音信号チャネルを形成し、(b)第2適合独立成分分析フィルタによって再帰的にフィルタをかけられる雑音信号チャネルは、フィードバックされ、第1マイクロホンから前記入力チャネルに加えられ、所望の音声信号チャネルを形成する請求項18に記載の方法。
【請求項20】
入力チャネル信号は、入力信号エネルギの関数として、再帰的方程式から計算される適合スケーリングファクタによって縮小される請求項19記載の方法。
【請求項21】
第1適合ICAクロスフィルタのためのフィルタの重み付けの値の学習法は、時間的に前記フィルタ係数を平滑にすることによって安定化され、更に、第2適合ICAクロスフィルタのための法は、時間的に前記フィルタ係数を平滑にする(smoothing)ことによって安定する請求項18記載の方法。
【請求項22】
第1適応ICAクロスフィルタの重み付けの値は周波数領域においてフィルタをかけられ、更に、第2適合ICAクロスフィルタの重み付けの値は周波数領域においてフィルタをかけられる請求項18記載の方法。
【請求項23】
音声活性検出を含む単一または複数チャネル音声強調モジュールを適用する所望の音声信号に結合される後処理モジュールを更に含んでおり、該後処理出力は該入力チャネルにフィードバックされない請求項18に記載の方法。
【請求項24】
ICA処理は、適合ICAクロスフィルタがあらゆるサンプリング時に適用され、フィルタ係数がサンプリング時の倍数で更新され、更に可変的な長さのフィルタ長が利用可能な計算能力に合わせるために利用される、固定小数点の精度環境において行われる請求項18に記載の方法。
【請求項25】
雑音信号を利用する、所望の音声信号の後処理であって、該後処理モジュールは前記雑音信号に基づきスペクトル減算を所望の音声信号に適用する、後処理を更に含む請求項18に記載の方法。
【請求項26】
雑音信号を利用する、所望の音声信号の後処理であって、該後処理モジュールは前記雑音信号に基づきウィナーフィルタリングを所望の音声信号に適用する、後処理を更に含む請求項18に記載の方法。
【請求項27】
第3チャネルからオーディオ入力信号の第3の一組を受信するステップと、非線形有界関数を第3フィルタを使用して入力信号に適用するステップを更に含む請求項18に記載の方法。
【請求項28】
音声機器であって、
音響音信号を受信するために構成された、間隔が置かれた少なくとも二つのマイクロフォンであって、該マイクロフォンは音声音源から予想される距離を置くマイクロフォンと、
マイクロホンに結合されるICAまたはBSSプロセッサと、
を含んでおり、
該プロセッサが行うステップは、
二つのマイクロフォンから音声信号を受信するステップと、
安定化拘束の下で、少なくとも一つの所望の音声信号回線と少なくとも一つの雑音信号回線に音声信号を分離するステップと、
を含んでいる、音声機器。
【請求項29】
雑音回線および所望の音声信号回線に結合する後処理フィルタを更に含む請求項28に記載の音声機器。
【請求項30】
マイクロホンは互いに1ミリ〜約1メートルの間隔を置く請求項28に記載の音声機器。
【請求項31】
マイクロフォンで受信された音響音信号を前処理するステップをさらに含む請求項30に記載の方法。
【請求項32】
マイクロホンの一つが装置の筐体の表面にあり、もう一方のマイクロホンが装置の筐体の別の表面にある請求項28に記載の音声機器。
【請求項33】
音声機器は、ワイヤレス電話であるように構成される請求項28に記載の音声機器。
【請求項34】
音声機器は、ワイヤレス電話であるように構成される請求項28に記載の音声装置。
【請求項35】
音声装置は、自動車用ハンズフリーキットであるように構成される請求項28に記載の音声装置。
【請求項36】
音声装置は、ヘッドセットであるように構成される請求項28に記載の音声装置。
【請求項37】
音声装置は、個人データ・アシスタントであるように構成される請求項28に記載の音声装置。
【請求項38】
音声装置は、携帯バーコード走査装置であるように構成される請求項28に記載の音声装置。
【請求項39】
周辺音響下において所望の音声信号を分離するシステムであって、
一以上の音響信号をそれぞれに受信する複数の入力チャネルと、
少なくとも一つのICAフィルタまたはBSSフィルタであって、該フィルタは、安定化拘束の下で受信された信号を一以上の所望のオーディオ信号および一以上の雑音信号に分離する、フィルタと、
分離された信号を送信する複数の出力チャンネルと、
を含むシステム。
【請求項40】
所望のオーディオ信号は、複数の音響信号に受信される音声信号である請求項39に記載のシステム。
【請求項41】
フィルタは、近似値で直接的または間接的に相互の情報の数学的公式化を調整する請求項39に記載のシステム。
【請求項42】
フィルタは、ICAの重み付けの値を適合化させることによって得られる強弱の変化のペースにより、ICA処理を安定させる請求項39に記載のシステム。
【請求項43】
フィルタは、重み付けの値を適合化する速度を制限するために適合スケーリングファクタを使用してICA入力をスケーリングすることによってICA処理を安定させる請求項39に記載のシステム。
【請求項44】
フィルタは、残響の影響を回避するために時間領域および周波数領域の学習されたフィルタの重み付けの値にフィルタをかけることによってICA処理を安定させる請求項39に記載のシステム。
【請求項45】
入力信号および/または出力信号に適用された一以上の周辺処理フィルタを更に含む請求項39に記載のシステム。
【請求項46】
一以上の前処理フィルタを更に含む請求項45に記載のシステム。
【請求項47】
一以上の後処理フィルタを更に含む請求項45に記載のシステム。
【請求項48】
入力チャネルに結合される一以上のマイクロホンを更に含む請求項39記載のシステム。
【請求項49】
約1ミリ〜約1メートルの間隔が互いに置かれた二以上のマイクロフォンを含む請求項48に記載のシステム。
【請求項50】
システムは、携帯機器上に構成される請求項39に記載のシステム。
【請求項51】
フィルタは、
第1出力チャネルおよび第2入力チャネルに接続されている第1適合独立成分分析(ICA)フィルタであって、該第1フィルタは雑音信号チャネルに非線形有界信号関数のアプリケーションを含む再帰的な学習法によって構成される、フィルタと、
第1入力チャネルにおよび第2出力チャンネルに接続されている第2適合独立成分分析フィルタであって、該第2フィルタは所望の音声信号チャネルに非線形有界関数のアプリケーションを含む再帰的な学習法によって構成されている、第2フィルタと、
を含んでおり、
該第1フィルタおよび該第2フィルタは、所望の音声信号を生成するために、繰り返し使用される、請求項39に記載のシステム。
【請求項52】
音声信号を分離するシステムは、
1組の信号発生器であって、それぞれの信号発生器は、音声信号と他の音響信号の混在を表す混在信号を生成するように調整される、信号発生器と、
それぞれの該混在信号を受信するように構成されるプロセッサと、
該音声信号を受信する音声可能ユニットと、
を含んでおり、
前記プロセッサは、
安定化拘束の下で独立成分分析(ICA)またはブラインド音源分離(BSS)を使用する前記混在信号の一組を処理するステップと、
前記混在信号を、音声信号と少なくとも一つの雑音信号に分離するステップと、
を更に含む方法を実施する、システム。
【請求項53】
信号発生器は、音響変換器(トランスデューサ)として構成される請求項52に記載のシステム。
【請求項54】
音響変換器は、人間の音声の周波数の範囲内の音響信号を受信するために構成されるマイクロホンである請求項53に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公表番号】特表2006−510069(P2006−510069A)
【公表日】平成18年3月23日(2006.3.23)
【国際特許分類】
【出願番号】特願2005−511772(P2005−511772)
【出願日】平成15年12月11日(2003.12.11)
【国際出願番号】PCT/US2003/039593
【国際公開番号】WO2004/053839
【国際公開日】平成16年6月24日(2004.6.24)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
フロッピー
【出願人】(505206749)ソフトマックス,インク (2)