スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法

多数の入力チャンネルより多い多数の出力チャンネルを含むマルチチャンネルを生成するために、ミキサは、入力信号をアップミックスするために用いられ、少なくとも直接チャンネル信号および少なくともアンビエンスチャンネル信号を形成する。スピーチ検出器（１８）は、スピーチ部分が発生する、入力信号、直接チャンネル信号またはアンビエンスチャンネル信号のセクションを検出するために備えられる。この検出に基づいて、信号修正器（２０）は、アンビエンスチャンネル信号においてスピーチ部分を減衰するために入力信号またはアンビエンスチャンネル信号を修正するが、直接チャンネル信号においてそのようなスピーチ部分は、より少ない程度に減衰されまたは少しも減衰されない。そして、スピーカ信号出力手段（２２）は、直接チャンネル信号およびアンビエンスチャンネル信号を、例えば、５．１スキームのように、定義された再生スキームに関連するスピーカ信号にマップする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、オーディオ信号処理の分野に関し、特に、例えば１（モノラル）チャンネルまたは２（ステレオ）入力チャンネルなどのようにより少ない入力チャンネルからいくつかの出力チャンネルを生成することに関する。
【背景技術】
【０００２】
マルチチャンネルオーディオ素材は、ますます普及している。これは、それと同時にマルチチャンネル再生システムを所有している多くのエンドユーザーをもたらしている。これは、主に、ＤＶＤがますます普及し、その結果、それと同時にＤＶＤの多くのユーザーが５．１マルチチャンネル機器を所有しているという事実に起因していると考えることができる。この種の再生システムは、一般的に、ユーザーの前方に典型的に配置される３つのスピーカＬ（左）、Ｃ（中央）およびＲ（右）と、ユーザーの後方に配置される２つのスピーカＬｓおよびＲｓと、低周波効果チャンネルまたはサブウーファーとも呼ばれる典型的に１つのＬＦＥチャンネルとからなる。そのようなチャンネルシナリオは、図５ｂおよび図５ｃに示される。スピーカＬ、Ｃ、Ｒ、Ｌｓ、Ｒｓは、ユーザーが可能な限りの最高の聴取体験を受けるために、図５ｂおよび図５ｃに示されるようにユーザーに関して位置付けられるべきであるが、（図５ｂおよび図５ｃに示されない）ＬＦＥチャンネルの位置決めは、耳がそのような低周波で位置を特定することができないので、それほど重要ではなく、その結果、ＬＦＥチャンネルは、そのかなりの大きさのために、邪魔にならないなら、どこに配置されてもよい。
【０００３】
そのようなマルチチャンネルシステムは、図５ａに例示されるように２チャンネル再生である典型的なステレオ再生と比較していくつかの利点を示す。
【０００４】
最適な中央の聴取位置の外側でさえ、「フロントイメージ（ｆｒｏｎｔｉｍａｇｅ）」とも呼ばれるフロント聴取体験の改良された安定性が、中央チャンネルのために結果として生じる。その結果は、より大きな「スイートスポット（ｓｗｅｅｔｓｐｏｔ）」となり、「スイートスポット」は、最適な聴取位置を表す。
【０００５】
さらに、リスナーは、２つのバックスピーカＬｓおよびＲｓのために、オーディオシーンを「深く探求すること（ｄｅｌｖｉｎｇｉｎｔｏ）」の改良された体験を得る。
【０００６】
それにもかかわらず、ユーザーが所有しまたは一般的に利用できる大量のオーディオ素材があり、それは、ステレオ素材としてだけ存在し、言い換えれば、２つのチャンネル、すなわち左チャンネルおよび右チャンネルだけを含む。コンパクトディスクは、この種のステレオの曲のための典型的なサウンドキャリアである。
【０００７】
国際電気通信連合（ＩＴＵ）は、５．１マルチチャンネルオーディオ機器を用いてこの種のステレオ素材を再生するための２つのオプションを推奨する。
【０００８】
この第１のオプションは、マルチチャンネル再生システムの左右のスピーカを用いて左右のチャンネルを再生することである。しかしながら、この解決策は、すでに存在している複数のスピーカが用いられないという点で不利な点があり、それは、存在しているセンタースピーカおよび２つのバックスピーカが有利に用いられないことを意味する。
【０００９】
別のオプションは、２チャンネルをマルチチャンネル信号に変換することである。これは、再生の間または特別な前処理によって行うことができ、例示的に存在する５．１再生システムの全６つのスピーカを有利に用い、ひいては、２チャンネルがエラーなしに５または６チャンネルにアップミックスされるときに改良された聴取体験をもたらす。
【００１０】
第２のオプションのときだけ、すなわちマルチチャンネルシステムの全てのスピーカを用いることは、すなわちアップミキシングエラーがないときに、第１の解決策と比較して利点がある。この種のアップミキシングエラーは、アンビエンス信号としても知られているバックスピーカのための信号をエラーなしに生成することができないときに、特に邪魔になりうる。
【００１１】
このいわゆるアップミキシング処理を実行する１つの方法は、キーワード「直接アンビエンスコンセプト（ｄｉｒｅｃｔａｍｂｉｅｎｃｅｃｏｎｃｅｐｔ）」で知られている。直接サウンドソースは、それらが元の２チャンネルバージョンと同じ位置にあることをユーザーによって知覚されるように、３つのフロントチャンネルによって再生される。元の２チャンネルバージョンは、異なるドラム楽器を用いて図５に概略的に示される。
【００１２】
図５ｂは、全ての元のサウンドソースすなわちドラム楽器が３つのフロントスピーカＬ、ＣおよびＲによって再生されるコンセプトのアップミックスされたバージョンを示し、そこにおいて、さらに特別なアンビエンス信号が２つのバックスピーカによって出力される。そのため、用語「直接サウンドソース（ｄｉｒｅｃｔｓｏｕｎｄｓｏｕｒｃｅ）」は、例えば、ドラム楽器を用いて図５ａに例示されるように、ドラム楽器若しくは別の楽器、または一般的に特別なオーディオオブジェクトのように、別々のサウンドソースから直接的にだけ到来しているトーンを表すために用いられる。そのような直接サウンドソースにおいて、例えば壁反射などによって生じるようなさらなるトーンがない。このシナリオにおいて、図５ｂにおいて２つのバックスピーカＬｓ、Ｒｓによって出力されるオーディオ信号は、元の録音に存在しまたは存在しないアンビエンス信号だけで構成される。この種のアンビエンス信号は、単一のサウンドソースに属さないが、録音の室内音響を再生することに貢献し、ひいては、リスナーによって体験をいわゆる「深く探求すること」をもたらす。
【００１３】
「イン・ザ・バンド（ｉｎ−ｔｈｅ−ｂａｎｄ）」コンセプトとも呼ばれる別の他のコンセプトは、図５ｃに概略的に示される。あらゆるタイプのサウンド、すなわち直接サウンドソースおよびアンビエンスタイプのトーンの全ては、リスナーの周囲に位置付けられる。トーンの位置は、図５ｃに例示されるように、その特性（直接サウンドソースまたはアンビエンスタイプのトーン）から独立し、アルゴリズムの詳細設計だけに依存している。そのため、アップミックスアルゴリズムによって図５ｃにおいて２つの楽器１１００および１１０２がリスナーに対して横に位置付けられると決定されたが、２つの楽器１１０４および１１０６はユーザーの前方に位置付けられる。この結果は、２つのバックスピーカＬｓ、Ｒｓが、同じ楽器の全てがユーザーの前方に位置付けられる図５ｂにおける場合のように、もはやアンビエンスタイプのトーンだけではなく２つの楽器１１００および１１０２の部分も含む。
【００１４】
専門家発表「Ｃ．アベンダノ（Ａｖｅｎｄａｎｏ）およびＪ．Ｍ．ヨット（Ｊｏｔ）の「マルチチャンネルオーディオアップミックスのためのステレオ信号からアンビエンスの抽出および合成（ＡｍｂｉｅｎｃｅＥｘｔｒａｃｔｉｏｎａｎｄＳｙｎｔｈｅｓｉｓｆｒｏｍＳｔｅｒｅｏＳｉｇｎａｌｓｆｏｒＭｕｌｔｉｃｈａｎｎｅｌＡｕｄｉｏＵｐｍｉｘ）」、ＩＥＥＥの音響音声信号処理に関する国際会議、ＩＣＡＳＳＰ０２、フロリダ州、オーランド、２００２年５月」は、ステレオオーディオ信号においてアンビエンス情報を識別しさらに抽出するための周波数ドメイン技術を開示している。このコンセプトは、チャンネル間コヒーレンスと、主にアンビエンス成分からなるステレオ信号において時間周波数領域を決定することを可能にする非線形マッピング機能とを計算することに基づいている。そして、アンビエンス信号は、合成されさらにマルチチャンネル再生システムのバックチャンネルまたは「サラウンド」チャンネルＬｓ、Ｒｓ（図５ｂおよび図５ｃ）を格納するために用いられる。
【００１５】
専門家発表「Ｒ．イルワン（Ｉｒｗａｎ）およびロナルド（Ｒｏｎａｌｄ）Ｍ．アーツ（Ａａｒｔｓ）の「ステレオをマルチチャンネルサウンドに変換する方法（Ａｍｅｔｈｏｄｔｏｃｏｎｖｅｒｔｓｔｅｒｅｏｔｏｍｕｌｔｉ−ｃｈａｎｎｅｌｓｏｕｎｄ）」、ＡＥＳ第１９回国際会議のプロシーディング、ドイツ、シュロスエルマウ、２００１年６月２１日〜２４日、１３９−１４３頁」に、ステレオ信号をマルチチャンネル信号に変換するための方法が示されている。サラウンドチャンネルのための信号は、相互相関技術を用いて計算される。主成分分析（ＰＣＡ）は、主要な信号の方向を示すベクトルを計算するために用いられる。そして、このベクトルは、３つのフロントチャンネルを生成するために、２チャンネル表現から３チャンネル表現にマップされる。
【００１６】
全ての周知の技術は、異なる方法でアンビエンス信号を元のステレオ信号から抽出しようとしまたはそれをノイズ若しくはさらなる情報から合成しようとするが、そこにおいて、ステレオ信号にない情報が、アンビエンス信号を合成するために用いられうる。しかしながら、結局、これは、ステレオ信号から情報を抽出しおよび／または情報を再生シナリオに送ることが全てであり、それらの情報は、明確に存在しないが、その理由は、典型的には２チャンネルステレオ信号だけ、さらに、おそらく、付加情報および／またはメタ情報が利用できるからである。
【００１７】
その後、制御パラメータなしで作動するさらなる周知のアップミキシング法が詳述される。この種のアップミキシング法は、ブラインドアップミキシング法とも呼ばれる。
【００１８】
モノラルチャンネルからいわゆる擬似ステレオ音響信号を生成するためのこの種の大部分の技術（すなわち１から２へのアップミックス）は、信号適応性がない。これは、それらが、モノラル信号に含まれる内容に関係なく同様に、モノラル信号を常に処理することを意味する。この種のシステムは、生成される信号を非相関化するために、Ｍ．シュレーダー（Ｓｃｈｒｏｅｄｅｒ）の「単一信号の使用から得られる人工的なステレオ効果（Ａｎａｒｔｉｆｉｃａｌｓｔｅｒｅｏｐｈｏｎｉｃｅｆｆｅｃｔｏｂｔａｉｎｅｄｆｒｏｍｕｓｉｎｇａｓｉｎｇｌｅｓｉｇｎａｌ）」、ＪＡＥＳ、１９５７年に記載されているように、例示的に一対のいわゆるコンプリメンタリくし形フィルタにより１チャンネル入力信号を処理することによって、単純なフィルタ構成および／または時間遅延を用いてしばしば作動する。この種のシステムの別の概要は、Ｃ．ファーラー（Ｆａｌｌｅｒ）の「疑似ステレオ音響再訪（Ｐｓｅｕｄｏｓｔｅｒｅｏｐｈｏｎｙｒｅｖｉｓｉｔｅｄ）」、ＡＥＳ第１１８回コンベンションのプロシーディング、２００５年に見られる。
【００１９】
さらに、特に１からＮへのアップミックスとの関連で、非負行列因子分解を用いるアンビエンス信号抽出の技術があり、Ｎは２より大きい。ここで、入力信号の時間周波数分布（ＴＦＤ）は、例示的に短時間フーリエ変換によって計算される。直接信号成分のＴＦＤの推定値は、非負行列因子分解と呼ばれる数値最適化法によって導出される。アンビエンス信号のＴＦＤのための推定値は、入力信号のＴＦＤおよび直接信号のためのＴＦＤの推定値の差を計算することによって決定される。アンビエンス信号の時間信号の再合成または合成は、入力信号の位相スペクトログラムを用いて実行される。さらなる後処理は、生成されるマルチチャンネル信号の聴取体験を改良するために、任意に実行される。この方法は、Ｃ．ウーレ（Ｕｈｌｅ）、Ａ・ワルター（Ｗａｌｔｈｅｒ）、Ｏ．ヘルムート（Ｈｅｌｌｍｕｔｈ）およびＪ．ヘレ（Ｈｅｒｒｅ）の「非負行列因子分解を用いるモノラル録音からのアンビエンス分離（Ａｍｂｉｅｎｃｅｓｅｐａｒａｔｉｏｎｆｒｏｍｍｏｎｏｒｅｃｏｒｄｉｎｇｓｕｓｉｎｇｎｏｎ−ｎｅｇａｔｉｖｅｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ）」、ＡＥＳ第３０回会議のプロシーディング、２００７年に詳細に記載されている。
【００２０】
ステレオ録音をアップミックスするための異なる技術がある。１つの技術は、マトリクスデコーダを用いることである。マトリクスデコーダは、ドルビープロロジックＩＩ（ＤｏｌｂｙＰｒｏＬｏｇｉｃＩＩ）、ディーティーエスネオシックス（ＤＴＳＮｅｏ：６）またはハーマンカードン／レキシコンロジックセブン（ＨａｒｍａｎＫａｒｄｏｎ／ＬｅｘｉｃｏｎＬｏｇｉｃ７）のキーワードで知られ、現在販売されているあらゆるオーディオ／ビデオレシーバのほとんどに含まれている。それらの意図された機能性の副産物として、これらの方法は、ブラインドアップミキシングを実行することもできる。これらのデコーダは、マルチチャンネル出力信号を生成するためにチャンネル間差および信号適応制御メカニズムを用いる。
【００２１】
すでに述べたように、周波数ドメイン技術は、Ｃ．アベンダノ（Ａｖｅｎｄａｎｏ）およびＪ．Ｍ．ヨット（Ｊｏｔ）によって説明されるようにステレオオーディオ信号においてアンビエンス情報を識別しさらに抽出するために用いられる。この方法は、チャンネル間コヒーレンスインデックスおよび非線形マッピング機能を計算することに基づき、それによって、大部分がアンビエンス信号成分からなる時間周波数領域を決定することを可能にする。そして、アンビエンス信号は、マルチチャンネル再生システムのサラウンドチャンネルを送るために合成されさらに用いられる。
【００２２】
直接／アンビエンスアップミキシング処理の１つの構成要素は、２つのバックチャンネルＬｓ、Ｒｓに送られるアンビエンス信号を抽出することである。信号には、それが直接／アンビエンスアップミキシング処理との関連でアンビエンス時間信号として用いられるために、特定の必要条件がある。１つの必要条件は、リスナーが直接サウンドソースの位置を前方にあるとして問題なく特定することができるようにするために、直接サウンドソースの関連した部分が聞き取られるべきでないということである。これは、オーディオ信号がスピーチまたは１人若しくは何人かの区別できる話す人を含むときに特に重要である。対照的に、大勢の人々によって生成されるスピーチ信号は、それらがリスナーの前方に位置を特定されないときに、必ずしもリスナーにとって邪魔になるというわけではない。
【００２３】
特別な量のスピーチ成分がバックチャンネルによって再生される場合、これは、１人の話す人の位置にまたは前方から後方に置かれる少数人の話す人の位置に生じ、または、ユーザーまでの特定の距離に若しくはユーザーの後方に生じ、それは、非常に邪魔になるサウンド体験をもたらす。特に、オーディオおよびビデオ素材が例えば映画館におけるように同時に存在する場合、そのような体験は特に邪魔になる。
【００２４】
（サウンドトラックの）映画のトーン信号のための１つの基本的な必要条件は、聴取体験がピクチャによって生成される体験と一致することである。そのため、位置を特定することについて聞き取れる気配は、位置を特定することについて目に見える気配に反するべきではない。
その結果、話す人がスクリーンに見られるときに、対応するスピーチは、ユーザーの前方に置かれるべきである。
【００２５】
同様のことが他の全てのオーディオ信号に適用され、すなわち、これは、オーディオ信号およびビデオ信号が同時に示される状況に必ずしも制限されない。この種の他のオーディオ信号は、例えば、放送信号またはオーディオブックである。リスナーは、フロントチャンネルによって生成されるスピーチに慣れており、さらに、多分、突然のスピーチの全てがバックチャンネルから到来するときに、彼の従来の体験に戻すために振り返る。
【００２６】
アンビエンス信号の品質を改良するために、ドイツ特許出願ＤＥ１０２００６０１７２８０．９−５５は、前に抽出されたアンビエンス信号を過渡検出にかけること、および、アンビエンス信号においてエネルギーのかなりの損失のない過渡抑制を生じることを提案する。ここで、信号置換が、過渡のない対応する信号によって過渡を含むがおよそ同じエネルギーを有する領域を置換するために実行される。
【００２７】
Ｊ．モンソー（Ｍｏｎｃｅａｕｘ）、Ｆ．パシェ（Ｐａｃｈｅｔ）らのＡＥＳコンベンション論文「デスクリプタに基づく空間化（Ｄｅｓｃｒｉｐｔｏｒ−ｂａｓｅｄｓｐａｔｉａｌｉｚａｔｉｏｎ」、スペイン、バルセロナ、２００５年５月２８日〜３１日には、検出されたスピーチがミュートされる中央チャンネルだけを切替えることによって抽出されたデスクリプタに基づいて減衰されるデスクリプタに基づく空間化が開示されている。ここで、スピーチ抽出器が用いられる。動きおよび過渡時間は、出力信号の修正を平滑化するために用いられる。そのため、スピーチのないマルチチャンネルサウンドトラックは、映画から抽出できる。特定のステレオ残響特性が元のステレオダウンミックス信号に存在するときに、これは、残響が聞こえるように、この残響を中央チャンネルを除くあらゆるチャンネルに分配するアップミキシングツールをもたらす。これを防止するために、ダイナミックレベル制御は、声の残響を減衰するためにＬ、Ｒ、ＬｓおよびＲｓのために実行される。
【先行技術文献】
【非特許文献】
【００２８】
【非特許文献１】Ｃ．アベンダノ（Ａｖｅｎｄａｎｏ）およびＪ．Ｍ．ヨット（Ｊｏｔ）、「マルチチャンネルオーディオアップミックスのためのステレオ信号からアンビエンスの抽出および合成（ＡｍｂｉｅｎｃｅＥｘｔｒａｃｔｉｏｎａｎｄＳｙｎｔｈｅｓｉｓｆｒｏｍＳｔｅｒｅｏＳｉｇｎａｌｓｆｏｒＭｕｌｔｉｃｈａｎｎｅｌＡｕｄｉｏＵｐｍｉｘ）」、ＩＥＥＥの音響音声信号処理に関する国際会議、ＩＣＡＳＳＰ０２、フロリダ州、オーランド、２００２年５月
【非特許文献２】Ｒ．イルワン（Ｉｒｗａｎ）およびロナルド（Ｒｏｎａｌｄ）Ｍ．アーツ（Ａａｒｔｓ）、「ステレオをマルチチャンネルサウンドに変換する方法（Ａｍｅｔｈｏｄｔｏｃｏｎｖｅｒｔｓｔｅｒｅｏｔｏｍｕｌｔｉ−ｃｈａｎｎｅｌｓｏｕｎｄ）」、ＡＥＳ第１９回国際会議のプロシーディング、ドイツ、シュロスエルマウ、２００１年６月２１日〜２４日、１３９−１４３頁
【非特許文献３】Ｍ．シュレーダー（Ｓｃｈｒｏｅｄｅｒ）、「単一信号の使用から得られる人工的なステレオ効果（Ａｎａｒｔｉｆｉｃａｌｓｔｅｒｅｏｐｈｏｎｉｃｅｆｆｅｃｔｏｂｔａｉｎｅｄｆｒｏｍｕｓｉｎｇａｓｉｎｇｌｅｓｉｇｎａｌ）」、ＪＡＥＳ、１９５７年
【非特許文献４】Ｃ．ファーラー（Ｆａｌｌｅｒ）、「疑似ステレオ音響再訪（Ｐｓｅｕｄｏｓｔｅｒｅｏｐｈｏｎｙｒｅｖｉｓｉｔｅｄ）」、ＡＥＳ第１１８回コンベンションのプロシーディング、２００５年
【非特許文献５】Ｃ．ウーレ（Ｕｈｌｅ）、Ａ・ワルター（Ｗａｌｔｈｅｒ）、Ｏ．ヘルムート（Ｈｅｌｌｍｕｔｈ）およびＪ．ヘレ（Ｈｅｒｒｅ）、「非負行列因子分解を用いるモノラル録音からのアンビエンス分離（Ａｍｂｉｅｎｃｅｓｅｐａｒａｔｉｏｎｆｒｏｍｍｏｎｏｒｅｃｏｒｄｉｎｇｓｕｓｉｎｇｎｏｎ−ｎｅｇａｔｉｖｅｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ）」、ＡＥＳ第３０回会議のプロシーディング、２００７年
【非特許文献６】Ｊ．モンソー（Ｍｏｎｃｅａｕｘ）、Ｆ．パシェ（Ｐａｃｈｅｔ）ら、ＡＥＳコンベンション論文「デスクリプタに基づく空間化（Ｄｅｓｃｒｉｐｔｏｒ−ｂａｓｅｄｓｐａｔｉａｌｉｚａｔｉｏｎ」、スペイン、バルセロナ、２００５年５月２８日〜３１日
【発明の概要】
【発明が解決しようとする課題】
【００２９】
本発明の目的は、多数の出力チャンネルを含むマルチチャンネル信号を生成するためのコンセプトを提供することであり、それは一方では柔軟性があり他方では高品質な製品を提供する。
【課題を解決するための手段】
【００３０】
この目的は、請求項１に記載のマルチチャンネル信号を生成するための装置、請求項２３に記載のマルチチャンネル信号を生成する方法または請求項２４に記載のコンピュータプログラムによって達成される。
【００３１】
本発明は、バックチャンネルにおいてすなわちアンビエンスチャンネルにおいてスピーチ成分が、バックチャンネルにスピーチ成分がないようにするために、抑制される知見に基づく。１つまたはいくつかのチャンネルを有する入力信号は、直接信号チャンネルを提供し、さらに、実施に応じて、アンビエンス信号チャンネルまたはすでに修正されたアンビエンス信号チャンネルを提供するためにアップミックスされる。スピーチ検出器は、入力信号、直接チャンネルまたはアンビエンスチャンネルにおいてスピーチ成分をサーチするために備えられ、この種のスピーチ成分は、時間および／または周波数部分においてまたは直交分解能の成分においても例示的に発生することができる。信号修正器は、スピーチ信号成分をそこで抑制するためにアップミキサまたは入力信号のコピーによって生成される直接信号を修正するために設けられるが、直接信号成分は、スピーチ信号成分を含む対応する部分においてより少ない程度に減衰されまたは少しも減衰されない。そして、そのような修正されたアンビエンスチャンネル信号は、対応するスピーカのためのスピーカ信号を生成するために用いられる。
【００３２】
しかしながら、入力信号が修正されたときに、アップミキサによって生成されるアンビエンス信号が直接用いられるが、それは、スピーチ成分がすでにそこで抑制され、根本的なオーディオ信号も抑制されたスピーチ成分を有するからである。しかしながら、この場合、アップミキシング処理も直接チャンネルを生成するときに、直接チャンネルは、スピーチ成分が明確に要求される直接チャンネルにおいてではなく、アンビエンスチャンネルにおいてだけ、スピーチ成分を選択的に抑制することを達成するために、修正された入力信号に基づいて計算されないが、修正されていない入力信号に基づいて計算される。
【００３３】
これは、スピーチ成分の再生がバックチャンネルまたはアンビエンス信号チャンネルにおいて起こることを防止し、さもなければ、リスナーに邪魔になりまたは混乱さえさせる。その結果、本発明は、対話およびリスナーによって理解できる他のスピーチを、すなわちスピーチに典型的なスペクトル特性を有するものを、リスナーの前方に置くことを確実にする。
【００３４】
同じ必要条件はイン・バンドコンセプトに適用され、そこにおいて、直接信号成分（およびアンビエンス信号成分も）の全てがリスナーの前方に置かれる図５ｃに示されるように、直接信号は、バックチャンネルに置かれないが、リスナーの前方に置かれることが望ましく、さらに、おそらく、リスナーの横に置かれるが、リスナーの後方に置かれないことが望ましい。
【００３５】
本発明によれば、信号依存の処理が、バックチャンネルにおいてまたはアンビエンス信号においてスピーチ成分を取り除くまたは抑制するために実行される。２つの基本ステップがここで実行され、すなわち発生しているスピーチを検出するステップおよびスピーチを抑制するステップが実行され、発生しているスピーチを検出するステップは、入力信号において、直接チャンネルにおいてまたはアンビエンスチャンネルにおいて実行することができ、さらに、スピーチを抑制するステップは、アンビエンスチャンネルにおいて直接的にまたはアンビエンスチャンネルを生成するために用いられる入力信号において間接的に実行することができ、この修正された入力信号は、直接チャンネルを生成するために用いられない。
【００３６】
そのため、本発明は、マルチチャンネルサラウンド信号がより少ないチャンネルを有するオーディオ信号から生成されるときに、スピーチ成分を含む信号を達成し、ユーザーの観点から、バックチャンネルのためのもたらされた信号がユーザーの前方において元のトーンイメージ（フロントイメージ）を保持するために最小量のスピーチを含むことが確実にされる。特別な量のスピーチ成分がバックチャンネルによって再生されることがあるときに、話す人の位置は、リスナーおよびフロントスピーカ間のどこかにフロント領域の外側に位置付けられ、または、極端な場合にはリスナーの後方に位置付けられる。これは、特にオーディオ信号が例えば映画の場合のように視覚信号と同時に存在するときに、非常に邪魔になるサウンド体験をもたらす。そのため、多くのマルチチャンネル映画サウンドトラックは、バックチャンネルにおいていかなるスピーチ成分もほとんど含まない。本発明によれば、スピーチ信号成分が、検出されさらに適切な場合に抑制される。
【００３７】
本発明の好適な実施形態は、添付図面を参照して後に詳述される。
【図面の簡単な説明】
【００３８】
【図１】図１は、本発明の実施形態のブロック図を示す。
【図２】図２は、「対応するセクション（ｃｏｒｒｅｓｐｏｎｄｉｎｇｓｅｃｔｉｏｎ）」を検討するための分析信号時間／周波数セクションとアンビエンスチャンネルまたは入力信号との関連性を示す。
【図３】図３は、本発明の好適な実施形態によるアンビエンス信号修正を示す。
【図４】図４は、本発明の別の実施形態によるスピーチ検出器およびアンビエンス信号修正器間の協力を示す。
【図５ａ】図５ａは、直接ソース（ドラム楽器）および拡散成分を含むステレオ再生シナリオを示す。
【図５ｂ】図５ｂは、全ての直接サウンドソースがフロントチャンネルによって再生され、さらに拡散成分が全てのチャンネルによって再生される、マルチチャンネル再生シナリオを示し、このシナリオも直接アンビエンスコンセプトと呼ばれる。
【図５ｃ】図５ｃは、別々のサウンドソースがバックチャンネルによって少なくとも部分的に再生することができ、さらにアンビエンスチャンネルがバックスピーカによって再生されないまたは図５ｂにおいてより少ない程度で再生される、マルチチャンネル再生シナリオを示す。
【図６ａ】図６ａは、アンビエンスチャンネルにおいてスピーチ検出およびアンビエンスチャンネルの修正を含む別の実施形態を示す。
【図６ｂ】図６ｂは、入力信号においてスピーチ検出およびアンビエンスチャンネルの修正を含む実施形態を示す。
【図６ｃ】図６ｃは、入力信号においてスピーチ検出および入力信号の修正を含む実施形態を示す。
【図６ｄ】図６ｄは、入力信号においてスピーチ検出およびアンビエンス信号において修正を含む別の実施形態を示し、修正は特にスピーチに同調される。
【図７】図７はバンドパス信号／サブバンド信号に基づいて、バンドごとに増幅ファクタ計算を含む実施形態を示す。
【図８】図８は、図７の増幅計算ブロックの詳細な例を示す。
【発明を実施するための形態】
【００３９】
図１は、マルチチャンネル信号１０を生成するための装置のブロック図を示し、それは、左チャンネルＬ、右チャンネルＲ、中央チャンネルＣ、ＬＦＥチャンネル、左バックチャンネルＬＳおよび右バックチャンネルＲＳを含むとして図１に示される。しかしながら、本発明は、ここで選択される５．１表現より他の任意の表現、例えば、７．１表現、または、左チャンネル、右チャンネルおよび中央チャンネルだけが生成される３．０表現にも適切であると指摘される。図１に示される６チャンネルを例示的に含むマルチチャンネル信号１０は、入力信号１２または多くの入力チャンネルを含む「ｘ」から生成され、多数の入力チャンネルは、１に等しいかまたは１より大きくさらに例示的にステレオダウンミックスが入力されるときに２に等しい。しかしながら、一般的に、多数の出力チャンネルは、多数の入力チャンネルより多い。
【００４０】
図１に示される装置は、少なくとも直接信号チャンネル１５およびアンビエンス信号チャンネル１６、または、おそらく、修正されたアンビエンス信号チャンネル１６´を生成するために入力信号１２をアップミックスするためのアップミキサ１４を含む。さらに、スピーチ検出器１８が設けられ、それは、１８ａで提供されるように、分析信号として入力信号１２を用いるために、または、１８ｂで提供されるように、直接信号チャンネル１５を用いるために、または、時間／周波数発生に関してまたはその特性に関して、入力信号１２に類似するスピーチ成分に関する別の信号を用いるために実装される。スピーチ検出器は、スピーチ部分が存在する、入力信号、直接チャンネルまたは１８ｃで例示されるようにアンビエンスチャンネルのセクションを検出する。このスピーチ部分は、重要なスピーチ部分すなわち例示的にスピーチ部分であってもよく、そのスピーチ特性は、特定の定性的または定量的尺度に基づいて導出され、定性的尺度および定量的尺度は、スピーチ検出閾値とも呼ばれる閾値を上回る。
【００４１】
定量的尺度については、スピーチ特性は数値を用いて量子化され、さらに、この数値は閾値と比較される。定性的尺度については、決定はセクションごとに行われ、決定は１つまたはいくつかの決定基準に関連して行うことができる。この種の決定基準は、例示的に、イエス／ノー決定に到着するために、何とかして互いに比較され／重み付けられたまたは処理されうる異なる定量的特性であってもよい。
【００４２】
図１に示される装置は、２０ａで示されるように、元の入力信号を修正するために実装されまたはアンビエンスチャンネル１６を修正するために実装される信号修正器２０を含む。アンビエンスチャンネル１６が修正されるときに、信号修正器２０は、修正されたアンビエンスチャンネル２１を出力するが、入力信号２０ａが修正されるときに、修正された入力信号２０ｂがアップミキサ１４に出力され、そして、それは、例えば直接チャンネル１５のために用いられるアップミキシング処理と同じように、修正されたアンビエンスチャンネル１６´を生成する。このアップミキシング処理が、修正された入力信号２０ｂのために、直接チャンネルをもたらせば、この直接チャンネルは、本発明によれば、修正された入力信号２０ｂではなく修正されていない入力信号１２（スピーチ抑制なし）から導出された直接チャンネルが直接チャンネルとして用いられるので、退けられる。
【００４３】
信号修正器は、少なくとも１つのアンビエンスチャンネルまたは入力信号のセクションを修正するために実装され、これらのセクションは、例示的に、直交分解能の時間または周波数のセクションまたは部分であってもよい。特に、スピーチ検出器によって検出されたセクションに対応するセクションは、信号修正器が示されたように修正されたアンビエンスチャンネル２１またはスピーチ部分が減衰され若しくは除去される修正された入力信号２０ｂを生成するように、修正され、スピーチ部分は、直接チャンネルの対応するセクションにおいて、より少ない程度に減衰され、または、任意に、少しも減衰されない。
【００４４】
さらに、図１に示される装置は、例えば図１に例示される５．１シナリオなどの再生シナリオにおいてスピーカ信号を出力するためのスピーカ信号出力手段２２を含み、しかしながら、そこにおいて、７．１シナリオ、３．０シナリオまたは別のまたはさらにより高いシナリオも可能である。特に、少なくとも１つの直接チャンネルおよび少なくとも１つの修正されたアンビエンスチャンネルは、再生シナリオのためのスピーカ信号を生成するために用いられ、そこにおいて、修正されたアンビエンスチャンネルは、２１で示されるように信号修正器２０からまたは１６´で示されるようにアップミキサ１４から生じてもよい。
【００４５】
例示的に２つの修正されたアンビエンスチャンネル２１が提供されるときに、これらの２つのアンビエンスチャンネルは、２つのスピーカ信号Ｌｓ、Ｒｓに直接的に送ることができるが、直接チャンネルは、完全な分割がアンビエンス信号成分および直接信号成分間で起こるように、３つのフロントスピーカＬ、Ｒ、Ｃにだけ送られる。そして、直接信号成分の全てがユーザーの前方にあり、アンビエンス信号成分の全てがユーザーの後方にある。あるいは、アンビエンス信号成分は、結果が図５ｂに示される直接／アンビエンスシナリオであるように、典型的により小さいパーセンテージでフロントチャンネルに導入することができ、そこにおいて、アンビエンス信号は、サラウンドチャンネルによってだけでなく、例えばＬ、Ｃ、Ｒなどのフロントスピーカによっても生成される。
【００４６】
しかしながら、イン・バンドシナリオが好ましいときに、アンビエンス信号成分は、例えばＬ、Ｒ、Ｃなどのフロントスピーカによって主に出力されるが、直接信号成分は、少なくとも部分的に２つのバックスピーカＬｓ、Ｒｓに送られてもよい。図５ｃにおいて示される位置に２つの直接信号ソース１１００および１１０２を置くことができるようにするために、スピーカＬにおいてソース１１００の部分は、典型的なパニングルールに従って、ソース１１００をＬおよびＬｓ間の中央に置くために、スピーカＬｓにおける部分と同程度の大きさである。スピーカ信号出力手段２２は、実施に応じて、入力側上に送られるチャンネルを直接通過させることができるか、または、例えばイン・バンドコンセプトまたは直接／アンビエンスコンセプトによって、チャンネルが個々のスピーカに分配されるように、アンビエンスチャンネルおよび直接チャンネルをマップすることができ、さらに、結局、個々のチャンネルからの部分が実際のスピーカ信号を生成するためにまとめることができる。
【００４７】
図２は、上部において分析信号と下部においてアンビエンスチャンネルまたは入力信号との時間／周波数分布を示す。特に、時間は水平軸に沿ってプロットされ、周波数は垂直軸に沿ってプロットされる。これは、図２において、信号１５ごとに、分析信号およびアンビエンスチャンネル／入力信号において同数を有する時間／周波数タイルまたは時間／周波数セクションがあることを意味する。これは、例えばスピーチ検出器１８が部分２２においてスピーチ信号を検出するときに、信号修正器２０が何とかしてアンビエンスチャンネル／入力信号のセクションを処理することを意味し、例えばそれを減衰し、完全に除去しまたはスピーチ特性を含んでいない合成信号で置換する。本発明において、分布は、図２に示されるように選択的である必要がないと指摘される。代わりに、時間的な検出は、満足な効果をすでに提供することができ、そこにおいて、分析信号の特定の時間セクションは、例示的に２秒から２．１秒まで、スピーチ抑制を得るために、２秒および２．１秒間においてアンビエンスチャンネルまたは入力信号のセクションをその次に処理するために、スピーチ信号を含むとして検出される。
【００４８】
あるいは、直交分解能は、例えば主成分分析などによって実行することもでき、そこにおいて、この場合、同じ成分分布が、アンビエンスチャンネルまたは入力信号と分析信号との両方において用いられる。スピーチ成分として分析信号において検出された特定の成分は、アンビエンスチャンネルまたは入力信号において減衰され、完全に抑制されまたは除去される。実施に応じて、セクションは、分析信号において検出され、このセクションは、分析信号において必ずしも処理されないが、おそらく、別の信号においてに必然的に処理される。
【００４９】
図３は、アンビエンスチャンネル修正器と協働するスピーチ検出器の実施を示し、スピーチ検出器は、時間情報を提供するだけであり、すなわち、図２から見るとき、ブロードバンドで、第１、第２、第３、第４または第５の時間間隔を識別し、さらに、この情報を制御ライン１８ｄ（図１）を介してアンビエンスチャンネル修正器２０に通信するだけである。同期して作動しまたはバッファリングされて作動するスピーチ検出器１８およびアンビエンスチャンネル修正器２０は、例示的に信号１２または信号１６であってもよい修正される信号において減衰されるスピーチ信号またはスピーチ成分を達成するが、対応するセクションのこの種の減衰は、直接チャンネルにおいて発生しないまたはより少ない程度にだけ発生することが確実にされる。実施に応じて、これは、例えばマトリクス法または特別なスピーチ処理を実行しない別の方法などのように、スピーチ成分を考慮せずに作動するアップミキサ１４によって達成することもできる。そして、これによって達成される直接信号は、さらなる処理のない出力手段２２に送られるが、アンビエンス信号は、スピーチ抑制に関して処理される。
【００５０】
あるいは、信号修正器が入力信号をスピーチ抑制にかけるときに、アップミキサ１４は、一方では元の入力信号に基づいて直接チャンネル成分を抽出するためにある意味では２回作動することができるが、修正された入力信号２０ｂに基づいて修正されたアンビエンスチャンネル１６´を抽出するためにも同様である。しかしながら、同じアップミキシングアルゴリズムは、それぞれの他の入力信号を用いて、２回発生し、そこにおいて、スピーチ成分は、１つの入力信号において減衰され、さらに、スピーチ成分は、他の入力信号において減衰されない。
【００５１】
実施に応じて、アンビエンスチャンネル修正器は、後述するように、ブロードバンド減衰の機能性またはハイパスフィルタリングの機能性を示す。
【００５２】
その後、本発明の装置の異なる実施が、図６ａ、図６ｂ、図６ｃおよび図６ｄを参照して説明される。
【００５３】
図６ａにおいて、アンビエンス信号ａは、入力信号ｘから抽出され、この抽出は、アップミキサ１４の機能性の部分である。アンビエンスａにおいて発生しているスピーチが検出される。検出ｄの結果は、修正されたアンビエンス信号２１を計算するアンビエンスチャンネル修正器２０で用いられ、そこにおいて、スピーチ部分が抑制される。
【００５４】
図６ｂは、図６ａとはアンビエンス信号でない入力信号が分析信号１８ａとしてスピーチ検出器１８に送られるという点で異なる構成を示す。特に、修正されたアンビエンスチャンネル信号ａ_sは、図６ａの構成と同様に計算されるが、入力信号においてスピーチが検出される。これは、スピーチ成分がアンビエンス信号ａにおいてよりも入力信号ｘにおいて一般的に容易に見つけられるという事実によって説明されうる。そのため、改良された信頼性は、図６ｂに示される構成によって達成できる。
【００５５】
図６ｃにおいて、スピーチが修正されたアンビエンス信号ａ_sは、すでにスピーチ信号抑制にかけた入力信号のバージョンｘ_sから抽出される。ｘにおいてスピーチ成分が抽出されたアンビエンス信号においてよりも典型的に顕著であるので、それを抑制することは、図６ａにおいてよりも安全でかつ長続きする方法で行うことができる。図６ａにおける構成と比較して図６ｃに示される構成の不利な点は、スピーチ抑制およびアンビエンス抽出処理の潜在的なアーティファクトが、抽出方法のタイプに応じて、悪化することである。しかしながら、図６ｃにおいて、アンビエンスチャンネル抽出器１４の機能性は、修正されたオーディオ信号からアンビエンスチャンネルを抽出するためだけに用いられる。しかしながら、直接チャンネルは、修正されたオーディオ信号ｘ_s（２０ｂ）からではないが、元の入力信号ｘ（１２）に基づいて抽出される。
【００５６】
図６ｄに示される構成において、アンビエンス信号ａは、アップミキサによって入力信号ｘから抽出される。入力信号ｘにおいて発生しているスピーチが検出される。さらに、アンビエンスチャンネル修正器２０の機能性をさらに制御するさらなる補助情報ｅは、スピーチ分析器３０によって計算される。これらの補助情報は、入力信号から直接的に計算され、さらに、例示的に図２のスペクトログラムの形で、時間／周波数表現においてスピーチ成分の位置であってもよく、または、以下にさらに詳細に説明されるさらなる付加情報であってもよい。
【００５７】
スピーチ検出器１８の機能性は、以下に詳述される。スピーチ検出の目的は、存在しているスピーチの確率を推定するために、オーディオ信号の混合物を分析している。入力信号は、例示的に、音楽信号の、ノイズの、または映画で知られているように特別なトーン効果の、複数の異なるタイプのオーディオ信号の集合された信号であってもよい。スピーチを検出する１つの方法は、パターン認識システムを用いることである。パターン認識は、生データを分析し、さらに、生データにおいて発見されたパターンのカテゴリに基づいて特別な処理を実行することを意味する。特に、用語「パターン」は、等しいカテゴリ（クラス）のオブジェクトの測定間に見られる根本的な類似性を表す。パターン認識システムの基本操作は、検出、すなわち、変換器を用いるデータの記録、前処理、特徴の抽出および分類であり、そこにおいて、これらの基本操作は、示される順に実行されうる。
【００５８】
通常、マイクロホンは、スピーチ検出システムのためのセンサとして用いられる。準備は、アナログ／デジタル変換、再サンプリングまたはノイズリダクションであってもよい。特徴を抽出することは、測定からオブジェクトごとに特徴を計算することを意味する。これらの特徴は、それらが同じクラスのオブジェクト中で類似するように、すなわち良好なクラス内のコンパクト性が達成されるように、さらに、これらが異なるクラスのオブジェクトのために異なるように、選択され、その結果、クラス間の分離可能性が達成できる。第３の必要条件は、特徴が人間の知覚とは無関係なノイズ、アンビエンス状況および入力信号の変換に関連してロバストでなければならないということである。特性を抽出することは、２つの別々のステージに分割することができる。特性ベクトル間の相関を最小化しさらに低エネルギーのエレメントを用いないことによって特徴の次元数を減らすために、第１のステージは、特徴を計算することであり、第２のステージは、特徴を一般的な直交基底上に投影しまたは変換することである。
【００５９】

【００６０】

【００６１】

【００６２】
分類器を適用する段階において、特徴は、トレーニング段階と同様に、未知データから計算されさらに投影され、さらに、トレーニング中に学習されるように、クラスの特徴上の知識に基づいて分類器によって分類される。
【００６３】
スピーチ抑制の特別な実施は、信号修正器２０によって例示的に実行されうるように、以下に詳述される。そのため、異なる方法が、オーディオ信号においてスピーチを抑制するために用いられうる。通信アプリケーションのためのスピーチ増幅およびノイズリダクションの分野で知られていない方法がある。もともと、スピーチ増幅法は、スピーチおよびバックグラウンドノイズの混合物においてスピーチを増幅するために用いられていた。この種の方法は、本発明のために実行されるように、反対のことを生じるようにすなわちスピーチを抑制するように修正できる。
【００６４】
そのような時間／周波数係数に含まれるノイズの度合いの推定値に従って時間／周波数表現の係数を減衰しまたは増幅するスピーチ増幅およびノイズリダクションのための解決アプローチがある。例えば先験的情報または特別なノイズセンサで測定される情報のように、バックグラウンドノイズに関する付加情報が知られていないときに、時間／周波数表現は、例示的に特別な最小統計的方法を用いて、ノイズの多い測定から得られる。ノイズ抑制ルールは、推定されたノイズ値を用いて減衰ファクタを計算する。この原理は、例示的にＧ．シュミット（Ｇ．Ｓｃｈｍｉｄ）の「スペクトル重み付けに基づく単一チャンネルノイズ抑制（Ｓｉｎｇｌｅ−ｃｈａｎｎｅｌｎｏｉｓｅｓｕｐｐｒｅｓｓｉｏｎｂａｓｅｄｏｎｓｐｅｃｔｒａｌｗｅｉｇｈｔｉｎｇ）」、ＥｕｒａｓｉｐＮｅｗｓｌｅｔｔｅｒ２００４で知られるように、短期スペクトル減衰またはスペクトル重み付けとして知られている。スペクトルサブトラクション、ウィーナーフィルタリングおよびエフライム−マラーアルゴリズムは、短時間スペクトル減衰（ＳＴＳＡ）原理に従って作動する信号処理法である。ＳＴＳＡアプローチのより多くの一般的定式化は、信号部分空間法をもたらし、それは、次元圧縮法としても知られ、さらに、Ｐ．ハンセン（Ｈａｎｓｅｎ）およびＳ．ジェンセン（Ｊｅｎｓｅｎ）の「次元圧縮ノイズリダクションのＦＩＲフィルタ表現（Ｆｉｒｆｉｌｔｅｒｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｒｅｄｕｃｅｄ−ｒａｎｋｎｏｉｓｅｒｅｄｕｃｔｉｏｎ）」、ＩＥＥＥＴＳＰ、１９９８に記載もされている。
【００６５】
原理上は、スピーチを増幅しまたは非スピーチ成分を抑制する全ての方法は、それの周知の使用に関する使用の逆に、スピーチを抑制しおよび／または非スピーチを増幅するために用いられうる。スピーチ増幅またはノイズ抑制の一般的モデルは、入力信号が所望の信号（スピーチ）およびバックグラウンドノイズ（非スピーチ）の混合物であるという事実である。スピーチを抑制することは、例えば、ＳＴＳＡに基づく方法において減衰ファクタを反転することによってまたは所望の信号およびバックグラウンドノイズの定義を交換することによって達成される。
【００６６】
しかしながら、スピーチ抑制において重要な必要条件は、アップミキシングの文脈に関して、もたらされているオーディオ信号が高いオーディオ品質のオーディオ信号として知覚されるということである。スピーチ改良法およびノイズリダクション法が聞き取れるアーティファクトを出力信号に導入するということが知られている。この種のアーティファクトの例は、音楽ノイズまたは音楽トーンとして知られ、さらに、ノイズフロアエラーを起こしやすい推定値および可変サブバンド減衰ファクタから生じる。
【００６７】
あるいは、ブラインドソース分離法が、スピーチ信号部分をアンビエンス信号から分離するためおよびその後それらを別々に操作するために用いられうる。
【００６８】
しかしながら、その後に詳述される特定の方法は、他の方法と比較して、それらがかなりよりよくするという事実のために、高品質なオーディオ信号を生成する特別な必要条件のために好ましい。１つの方法は、図３に２０で示されるように、ブロードバンド減衰である。オーディオ信号は、スピーチがある時間間隔において減衰される。特別な増幅ファクタは−１２ｄＢおよび−３ｄＢ間の範囲にあり、好ましい減衰は６デシベルである。他の信号成分／部分も抑制されるかもしれないので、オーディオ信号エネルギーにおいて全損失が明らかに知覚されると思われるかもしれない。しかしながら、この効果が邪魔にならないことが発見され、それは、スピーチシーケンスが開始するときにとにかくユーザーが特にフロントスピーカＬ、Ｃ、Ｒに集中するので、彼または彼女がスピーチ信号に集中しているときにユーザーがバックチャンネルまたはアンビエンス信号のエネルギーにおいて減少を体験しないからである。これは、特にオーディオ信号レベルがとにかくスピーチの始まりのために増加するというさらなる典型的な効果によって強化される。−１２デシベルおよび３デシベル間の範囲において減衰を導入することによって、減衰は、邪魔になるとして体験されない。代わりに、ユーザーは、バックチャンネルにおいてスピーチ成分の抑制のために、ユーザーにとってフロントチャンネルにおいてだけ置かれるスピーチ成分をもたらす効果が達成されることを、かなりより楽しいと思う。
【００６９】
図３に２０で示される他の方法は、ハイパスフィルタリングである。オーディオ信号は、スピーチがあるハイパスフィルタリングにかけられ、そこにおいて、カットオフ周波数は、６００Ｈｚおよび３０００Ｈｚ間の範囲にある。カットオフ周波数のための設定は、本発明に関してスピーチに特有の信号から生じる。スピーチ信号の長期パワースペクトルは、２．５ｋＨｚより低い範囲に集中される。有声音声の基本周波数の好ましい範囲は、７５Ｈｚおよび３３０Ｈｚ間の範囲にある。６０Ｈｚおよび２５０Ｈｚ間の範囲は、成人男性のために生じる。男性の話す人のための平均値は１２０Ｈｚであり、女性の話す人のための平均値は２１５Ｈｚである。ボーカルトラックにおいて共鳴のために、特定の信号周波数は増幅される。スペクトルにおいて対応するピークは、フォルマント周波数と呼ばれ、または、単にフォルマントと呼ばれる。典型的に、３５００Ｈｚより下に、およそ３つの重要なフォルマントがある。その結果、スピーチは１／Ｆ性質を示し、すなわちスペクトルエネルギーは周波数の増加とともに減少する。そのため、本発明の目的を達成するために、スピーチ成分は、示されるカットオフ周波数範囲を含むハイパスフィルタリングによって、よくフィルタリングできる。
【００７０】
別の好適な実施は正弦波信号モデリングであり、それは図４を参照して説明される。第１のステップ４０において、スピーチの基本波が検出され、この検出は、図６ｄに示されるように、スピーチ検出器１８において、または、スピーチ分析器３０において実行されうる。その後に、ステップ４１において、分析が、基本波に属する高調波を発見するために実行される。この機能性は、すでに、スピーチ検出器／スピーチ分析器において、または、アンビエンス信号修正器においてさえ実行されうる。その後、スペクトログラムは、４２で示されるように、ブロックの後の変換用のブロックに基づいて、アンビエンス信号のために計算される。その後、実際のスピーチ抑制は、ステップ４３において、スペクトログラムにおいて基本波および高調波を減衰することによって実行される。ステップ４４において、基本波および高調波が減衰されまたは除去される修正されたアンビエンス信号は、修正されたアンビエンス信号または修正された入力信号を得るために、再変換にかけられる。
【００７１】
この正弦波信号モデリングは、トーン合成、オーディオ符合化、ソース分離、トーン操作およびノイズ抑制のためにしばしば用いられる。ここで、信号は、時間可変の振幅および周波数の正弦波から作られる集合として示される。有声音声信号成分は、部分音、すなわち基本波およびその高調波を識別しまたは修正することによって操作される。
【００７２】
部分音は、４１で示されるように、部分音探知機によって識別される。典型的に、部分音の発見は、時間／周波数ドメインにおいて実行される。スペクトログラムは、４２に示されるように、短時間フーリエ変換によって行われる。極大は、スペクトログラムのそれぞれのスペクトルにおいて検出され、さらに、軌跡は、隣接するスペクトルの極大によって決定される。基本周波数を推定することは、ピークのピッキング処理を支持することができ、基本周波数のこの推定は４０で実行される。そして、正弦波信号表現は、軌跡から得られうる。ステップ４０、４１およびステップ４２間の順序は、図６ｄにスピーチ分析器３０において実行される変換４２が最初に起こるように、変えることができることが指摘される。
【００７３】
正弦波信号表現を導出する異なる開発が提案される。ノイズリダクションのためのマルチ分解能処理アプローチは、Ｄ．アンデルセン（Ａｎｄｅｒｓｅｎ）およびＭ．クレメンツ（Ｃｌｅｍｅｎｔｓ）の「マルチ分解能正弦波モデリングを用いたオーディオ信号ノイズリダクション（Ａｕｄｉｏｓｉｇｎａｌｎｏｉｓｅｒｅｄｕｃｔｉｏｎｕｓｉｎｇｍｕｌｔｉ−ｒｅｓｏｌｕｔｉｏｎｓｉｎｕｓｏｉｄａｌｍｏｄｅｌｉｎｇ）」、ＩＣＡＳＳＰのプロシーディング１９９９に示されている。正弦波表現を導出するための反復処理は、Ｊ．ジェンセン（Ｊｅｎｓｅｎ）およびＪ．ハンセン（Ｈａｎｓｅｎ）の「制約付き反復正弦波モデル用いたスピーチエンハンスメント（Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｕｓｉｎｇａｃｏｎｓｔｒａｉｎｅｄｉｔｅｒａｔｉｖｅｓｉｎｕｓｏｉｄａｌｍｏｄｅｌ）」、ＩＥＥＥＴＳＡＰ２００１に示されている。
【００７４】
正弦波信号表現を用いて、改良されたスピーチ信号は、正弦波成分を増幅することによって得られる。しかしながら、本発明のスピーチ抑制は、反対のことを達成することを目的とし、すなわち、部分音を抑制し、部分音は、有声音声を含むスピーチセグメントに対して、基本波およびその高調波を含む。典型的に、高エネルギーのスピーチ成分は、音の性質のものである。そのため、スピーチは、ボーカルに対して６０−７５デシベルのレベルであり、子音に対してより低いおよそ２０−３０デシベルにある。周期的パルスタイプ信号を励起することは、有声音声（ボーカル）のためにある。励起信号は、ボーカルトラックによってフィルタリングされる。その結果、有声音声セグメントのほとんど全てのエネルギーは、基本波およびその高調波に集中する。これらの部分音を抑制するときに、スピーチ成分は著しく抑制される。
【００７５】
スピーチ抑制を達成する別の方法が図７および図８に示される。図７および図８は、短期スペクトル減衰またはスペクトル重み付けの基本原理を説明する。最初は、バックグラウンドノイズの電力密度スペクトルが推定される。示された方法は、特定の周波数セクションにおいて信号の「スピーチらしさ」の尺度であるいわゆる低いレベル特徴を用いて時間／周波数タイルに含まれるスピーチ量を推定する。低いレベル特徴は、それらの重要性を解釈して煩雑性を計算することに関して低いレベルの特徴である。
【００７６】
オーディオ信号は、図７に７０で示すように、フィルタバンクまたは短期フーリエ変換を用いて多くの周波数バンドにおいて細分化される。そして、７１ａおよび７１ｂで例示されるように、時間可変増幅ファクタは、それらが含むスピーチ量に比例してサブバンドを減衰するために、この種の低いレベル特徴から全てのサブバンドのために計算される。適切な低いレベル特徴は、スペクトル平坦度（ＳＦＭ）および４Ｈｚの変調エネルギー（４ＨｚＭＥ）である。ＳＦＭは、オーディオ信号の調性の度合いを測定し、さらに、バンドのために１つのバンドにおいて全てのスペクトル値の幾何平均値およびこのバンドにおいてスペクトル成分の算術平均値の商から生じる。４ＨｚＭＥは、スピーチがおよそ４Ｈｚで特性エネルギー変調ピークを有するという事実が動機となり、それは話す人の音節の平均速度に対応する。
【００７７】
図８は、図７の増幅計算ブロック７１ａおよび７１ｂの詳細な例を示す。複数の異なる低いレベル特徴、すなわちＬＬＦ１、・・・、ＬＬＦｎは、サブバンドｘ_iに基づいて計算される。そして、これらの特徴は、サブバンドのための増幅ファクタｇ_iを得るために結合器８０において結合される。
【００７８】
実施に応じて、必ずしも低いレベル特徴が用いられることを要しないが、例えばエネルギー特徴などの任意の特徴も、（いずれかの時点で）それぞれのバンドがスピーチ抑制を達成するために可変的に減衰されるように、定量的増幅ファクタｇ_iを得るために図８の実施に従って結合器において結合されると指摘される。
【００７９】
状況に応じて、本発明の方法は、ハードウェアまたはソフトウェアにおいて実施されてもよい。実施は、その方法を実行するために、プログラミング可能なコンピュータシステムと協働することができる電子的に読み出すことができる制御信号を有するデジタル記憶媒体、特にディスクまたはＣＤにおいてされてもよい。そのため、本発明は、一般的に、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法を実行するために、機械で読み取り可能なキャリアに格納された、プログラムコードを含むコンピュータプログラム製品にある。したがって、言い換えると、本発明は、コンピュータプログラムがコンピュータ上で実行されるときに、その方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現することができる。

【特許請求の範囲】
【請求項１】
入力信号（１２）の多数の入力チャンネルより多い多数の出力チャンネルを含むマルチチャンネル信号（１０）を生成するための装置であって、前記多数の入力チャンネルは１以上であり、前記装置は、
少なくとも直接信号チャンネルと少なくともアンビエンスチャンネルまたは修正されたアンビエンスチャンネルとを提供するために前記入力信号をアップミックスするためのアップミキサ（１４）、
スピーチ部分が発生する、前記入力信号、前記直接信号チャンネルまたは前記アンビエンス信号チャンネルのセクションを検出するためのスピーチ検出器（１８）、
前記スピーチ部分が減衰されまたは除去されている修正されたアンビエンス信号チャンネルまたは修正された入力信号を得るために、前記スピーチ検出器（１８）によって検出されたセクションに対応する前記アンビエンスチャンネルまたは前記入力信号のセクションを修正するための信号修正器（２０）であって、前記直接チャンネル信号において前記セクションは、より少ない程度に減衰されまたは少しも減衰されない、信号修正器、および
前記直接チャンネルおよび前記修正されたアンビエンスチャンネルを用いる再生スキームでスピーカ信号を出力するためのスピーカ信号出力手段（２２）を含む、装置。
【請求項２】
前記スピーカ信号出力手段（２２）は、それぞれの直接チャンネルがそれ自体のスピーカにマップされうりさらにあらゆるアンビエンスチャンネルがそれ自体のスピーカにマップされうる直接／アンビエンススキームに従って作動するために実装され、前記スピーカ信号出力手段（２２）は、前記直接チャンネルではなくて、前記アンビエンスチャンネルだけを、前記再生スキームでリスナーの後方のスピーカのためのスピーカ信号にマップするために実装される、請求項１に記載の装置。
【請求項３】
前記スピーカ信号出力手段（２２）は、それぞれの直接信号チャンネルがその位置に応じて１つまたはいくつかのスピーカにマップされるイン・バンドスキームに従って作動するために実装され、さらに、前記スピーカ信号出力手段（２２）は、スピーカのためのスピーカ出力信号を得るために、前記アンビエンスチャンネルおよび前記直接チャンネルまたはスピーカのために決定される前記アンビエンスチャンネルまたは前記直接チャンネルの部分を加えるために実装される、請求項１に記載の装置。
【請求項４】
前記スピーカ信号出力手段は、前記再生スキームでリスナーの前方に置かれうる少なくとも３チャンネルのためのスピーカ信号を提供しさらに前記再生スキームで前記リスナーの後方に置かれうる少なくとも２チャンネルを生成するために実装される、先行する請求項のいずれかに記載の装置。
【請求項５】
前記スピーチ検出器（１８）は、時間的にブロックごとに作動し、さらに、時間的ブロックのための周波数バンドを検出するために周波数選択的にバンドごとそれぞれの時間的ブロックを分析するために実装され、さらに
前記信号修正器（２０）は、前記スピーチ検出器（１８）によって検出されたバンドに対応する、前記アンビエンス信号チャンネルまたは前記入力信号のそのような時間的ブロックにおいて周波数バンドを修正するために実装される、先行する請求項のいずれかに記載の装置。
【請求項６】
前記信号修正器は、前記アンビエンスチャンネル信号または前記入力信号または前記スピーチ検出器（１８）によって検出された時間間隔において前記アンビエンスチャンネル信号または前記入力信号の部分を減衰するために実装され、さらに
前記アップミキサ（１４）および前記スピーカ信号出力手段（２２）は、同じ時間間隔がより少ない程度に減衰されまたは少しも減衰されないように、前記少なくとも１つの直接チャンネルを生成するために実装され、その結果、前記直接チャンネルは、再生されるときに、前記修正されたアンビエンスチャンネル信号においてまたは前記修正された入力信号においてスピーチ成分より強く知覚することができるスピーチ成分を含む、先行する請求項のいずれかに記載の装置。
【請求項７】
前記信号修正器（２０）は、前記スピーチ検出器（１８）がスピーチ部分がある時間間隔を検出したときに前記少なくとも１つのアンビエンスチャンネルまたは前記入力信号をハイパスフィルタリングにかけるために実装され、前記ハイパスフィルタのカットオフ周波数は、４００Ｈｚおよび３５００Ｈｚ間にある、先行する請求項のいずれかに記載の装置。
【請求項８】
前記スピーチ検出器（１８）は、スピーチ信号成分の時間的発生を検出するために実装され、さらに
前記信号修正器（２０）は、前記スピーチ信号成分の基本周波数を発見し、さらに、
前記修正されたアンビエンスチャンネル信号または前記修正された入力信号を得るために、前記アンビエンスチャンネルまたは前記入力信号においてトーンを前記基本周波数および高調波で選択的に減衰（４３）するために実装される、先行する請求項のいずれかに記載の装置。
【請求項９】
前記スピーチ検出器（１８）は、周波数バンドごとのスピーチ内容の尺度を発見するために実装され、さらに
前記前記信号修正器（２０）は、前記尺度に従って前記アンビエンスチャンネルの対応するバンドを減衰ファクタによって減衰（７２ａ、７２ｂ）するために実装され、より高い尺度はより高い減衰ファクタをもたらし、より低い尺度はより低い減衰ファクタをもたらす、先行する請求項のいずれかに記載の装置。
【請求項１０】
前記信号修正器（２０）は、
前記アンビエンス信号または前記入力信号をスペクトル表現に変換するための時間周波数ドメイン変換器（７０）、
前記スペクトル表現を周波数選択的に可変的に減衰するための減衰器（７２ａ、７２ｂ）、および
前記修正されたアンビエンスチャンネル信号または前記修正された入力信号を得るために、時間ドメインにおいて前記可変的に減衰されたスペクトル表現を変換するための周波数時間ドメイン変換器（７３）を含む、請求項９に記載の装置。
【請求項１１】
前記スピーチ検出器（１８）は、
分析信号のスペクトル表現を提供するための時間周波数ドメイン変換器（４２）、
前記分析信号のバンドごとの１つまたはいくつかの特徴（７１ａ、７１ｂ）を計算するための手段、および
前記バンドごとの１つまたはいくつかの特徴の結合に基づいてスピーチ内容の尺度を計算するための手段（８０）を含む、請求項９または請求項１０に記載の装置。
【請求項１２】
前記信号修正器（２０）は、スペクトル平坦度（ＳＦＭ）または４Ｈｚの変調エネルギー（４ＨｚＭＥ）を特徴として計算するために実装される、請求項１１に記載の装置。
【請求項１３】
前記スピーチ検出器（１８）は、前記アンビエンスチャンネル信号（１８ｃ）を分析するために実装され、さらに、前記信号修正器（２０）は、前記アンビエンスチャンネル信号（１６）を修正するために実装される、先行する請求項のいずれかに記載の装置。
【請求項１４】
前記スピーチ検出器（１８）は、前記入力信号（１８ａ）を分析するために実装され、さらに、前記信号修正器（２０）は、前記スピーチ検出器（１８）から制御情報（１８ｄ）に基づいて前記アンビエンスチャンネル信号（１６）を修正するために実装される、請求項１ないし請求項１２のいずれかに記載の装置。
【請求項１５】
前記スピーチ検出器（１８）は、前記入力信号（１８ａ）を分析するために実装され、さらに、前記信号修正器（２０）は、前記スピーチ検出器（１８）から制御情報（１８ｄ）に基づいて前記入力信号を修正するために実装され、さらに、前記アップミキサ（１４）は、前記修正された入力信号に基づいて前記修正されたアンビエンスチャンネル信号（１６´）を発見するために実装されるアンビエンスチャンネル抽出器を含み、前記アップミキサ（１４）は、前記信号修正器（２０）の入力で前記入力信号（１２）に基づいて前記直接チャンネル信号（１５）を発見するためにさらに実装される、請求項１ないし請求項１２のいずれかに記載の装置。
【請求項１７】
前記スピーチ検出器（１８）は、前記入力信号（１８ａ）を分析するために実装され、さらに、スピーチ分析器（３０）が、前記入力信号をスピーチ分析にかけるために備えられ、さらに
前記信号修正器（２０）は、前記スピーチ検出器（１８）から制御情報（１８ｄ）に基づいてさらに前記スピーチ分析器（３０）からスピーチ分析情報（１８ｅ）に基づいて前記アンビエンスチャンネル信号（１６）を修正するために実装される、請求項１ないし請求項１２のいずれかに記載の装置。
【請求項１８】
前記アップミキサ（１４）は、マトリクスデコーダとして実装される、先行する請求項のいずれかに記載の装置。
【請求項１９】
前記アップミキサ（１４）は、アップミックス情報をさらに送信することはないが、前記入力信号（１２）だけに基づいて、前記直接チャンネル信号（１５）、前記アンビエンスチャンネル信号（１６）または前記修正されたアンビエンスチャンネル信号（１６´）を生成するブラインドアップミキサとして実装される、先行する請求項のいずれかに記載の装置。
【請求項２０】
前記アップミキサ（１４）は、前記直接チャンネル信号（１５）、前記アンビエンスチャンネル信号（１６）または前記修正されたアンビエンスチャンネル信号（１６´）を生成するために、前記入力信号（１２）の統計的分析を実行するために実装される、先行する請求項のいずれかに記載の装置。
【請求項２１】
前記入力信号は、１チャンネルを含むモノラル信号であり、さらに、前記出力信号は、２以上のチャンネル信号を含むマルチチャンネル信号である、先行する請求項のいずれかに記載の装置。
【請求項２２】
前記アップミキサ（１４）は、入力信号として２つのステレオチャンネル信号を含むステレオ信号を得るために実装され、さらに、前記アップミキサ（１４）は、前記ステレオチャンネル信号の相互相関計算に基づいて前記アンビエンスチャンネル信号（１６）または前記修正されたアンビエンスチャンネル信号（１６´）を実現するためにさらに実装される、請求項１ないし請求項２０のいずれかに記載の装置。
【請求項２３】
入力信号（１２）の多数の入力チャンネルより多い多数の出力チャンネルを含むマルチチャンネル信号（１０）を生成する方法であって、前記多数の入力チャンネルは１以上であり、前記方法は、
少なくとも直接信号チャンネルと少なくともアンビエンスチャンネルまたは修正されたアンビエンスチャンネルとを提供するために前記入力信号をアップミックスするステップ（１４）、
スピーチ部分が発生する、前記入力信号、前記直接信号チャンネルまたは前記アンビエンス信号チャンネルのセクションを検出するステップ（１８）、
前記スピーチ部分が減衰されまたは除去されている修正されたアンビエンス信号チャンネルまたは修正された入力信号を得るために、前記検出するステップ（１８）において検出されたセクションに対応する前記アンビエンスチャンネルまたは前記入力信号のセクションを修正するステップ（２０）であって、前記直接チャンネル信号において前記セクションは、より小さい程度に減衰されまたは少しも減衰されない、修正するステップ、および
前記直接チャンネルおよび前記修正されたアンビエンスチャンネルを用いる再生スキームでスピーカ信号を出力するステップ（２２）を含む、方法。
【請求項２４】
コンピュータ上で実行されるときに、請求項２３に記載の方法を実行するためのプログラムを含むコンピュータプログラム。

【図１】

【図２】

【図３】

【図４】

【図５ａ】

【図５ｂ】

【図５ｃ】

【図６ａ】

【図６ｂ】

【図６ｃ】

【図６ｄ】

【図７】

【図８】

【公表番号】特表２０１１−５０１４８６（Ｐ２０１１−５０１４８６Ａ）
【公表日】平成２３年１月６日（２０１１．１．６）
【国際特許分類】

【出願番号】特願２０１０−５２８２９７（Ｐ２０１０−５２８２９７）
【出願日】平成２０年１０月１日（２００８．１０．１）
【国際出願番号】ＰＣＴ／ＥＰ２００８／００８３２４
【国際公開番号】ＷＯ２００９／０４９７７３
【国際公開日】平成２１年４月２３日（２００９．４．２３）
【出願人】（５９１０３７２１４）フラウンホッファー−ゲゼルシャフト　ツァ　フェルダールング　デァ　アンゲヴァンテン　フォアシュンク　エー．ファオ (259)
【Ｆターム（参考）】

ステレオ方式 (3,027)
- 疑似多チャンネル方式 (1,040)
  - その他 (417)

[ Back to top ]

スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク