スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
多数の入力チャンネルより多い多数の出力チャンネルを含むマルチチャンネルを生成するために、ミキサは、入力信号をアップミックスするために用いられ、少なくとも直接チャンネル信号および少なくともアンビエンスチャンネル信号を形成する。スピーチ検出器(18)は、スピーチ部分が発生する、入力信号、直接チャンネル信号またはアンビエンスチャンネル信号のセクションを検出するために備えられる。この検出に基づいて、信号修正器(20)は、アンビエンスチャンネル信号においてスピーチ部分を減衰するために入力信号またはアンビエンスチャンネル信号を修正するが、直接チャンネル信号においてそのようなスピーチ部分は、より少ない程度に減衰されまたは少しも減衰されない。そして、スピーカ信号出力手段(22)は、直接チャンネル信号およびアンビエンスチャンネル信号を、例えば、5.1スキームのように、定義された再生スキームに関連するスピーカ信号にマップする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理の分野に関し、特に、例えば1(モノラル)チャンネルまたは2(ステレオ)入力チャンネルなどのようにより少ない入力チャンネルからいくつかの出力チャンネルを生成することに関する。
【背景技術】
【0002】
マルチチャンネルオーディオ素材は、ますます普及している。これは、それと同時にマルチチャンネル再生システムを所有している多くのエンドユーザーをもたらしている。これは、主に、DVDがますます普及し、その結果、それと同時にDVDの多くのユーザーが5.1マルチチャンネル機器を所有しているという事実に起因していると考えることができる。この種の再生システムは、一般的に、ユーザーの前方に典型的に配置される3つのスピーカL(左)、C(中央)およびR(右)と、ユーザーの後方に配置される2つのスピーカLsおよびRsと、低周波効果チャンネルまたはサブウーファーとも呼ばれる典型的に1つのLFEチャンネルとからなる。そのようなチャンネルシナリオは、図5bおよび図5cに示される。スピーカL、C、R、Ls、Rsは、ユーザーが可能な限りの最高の聴取体験を受けるために、図5bおよび図5cに示されるようにユーザーに関して位置付けられるべきであるが、(図5bおよび図5cに示されない)LFEチャンネルの位置決めは、耳がそのような低周波で位置を特定することができないので、それほど重要ではなく、その結果、LFEチャンネルは、そのかなりの大きさのために、邪魔にならないなら、どこに配置されてもよい。
【0003】
そのようなマルチチャンネルシステムは、図5aに例示されるように2チャンネル再生である典型的なステレオ再生と比較していくつかの利点を示す。
【0004】
最適な中央の聴取位置の外側でさえ、「フロントイメージ(front image)」とも呼ばれるフロント聴取体験の改良された安定性が、中央チャンネルのために結果として生じる。その結果は、より大きな「スイートスポット(sweet spot)」となり、「スイートスポット」は、最適な聴取位置を表す。
【0005】
さらに、リスナーは、2つのバックスピーカLsおよびRsのために、オーディオシーンを「深く探求すること(delving into)」の改良された体験を得る。
【0006】
それにもかかわらず、ユーザーが所有しまたは一般的に利用できる大量のオーディオ素材があり、それは、ステレオ素材としてだけ存在し、言い換えれば、2つのチャンネル、すなわち左チャンネルおよび右チャンネルだけを含む。コンパクトディスクは、この種のステレオの曲のための典型的なサウンドキャリアである。
【0007】
国際電気通信連合(ITU)は、5.1マルチチャンネルオーディオ機器を用いてこの種のステレオ素材を再生するための2つのオプションを推奨する。
【0008】
この第1のオプションは、マルチチャンネル再生システムの左右のスピーカを用いて左右のチャンネルを再生することである。しかしながら、この解決策は、すでに存在している複数のスピーカが用いられないという点で不利な点があり、それは、存在しているセンタースピーカおよび2つのバックスピーカが有利に用いられないことを意味する。
【0009】
別のオプションは、2チャンネルをマルチチャンネル信号に変換することである。これは、再生の間または特別な前処理によって行うことができ、例示的に存在する5.1再生システムの全6つのスピーカを有利に用い、ひいては、2チャンネルがエラーなしに5または6チャンネルにアップミックスされるときに改良された聴取体験をもたらす。
【0010】
第2のオプションのときだけ、すなわちマルチチャンネルシステムの全てのスピーカを用いることは、すなわちアップミキシングエラーがないときに、第1の解決策と比較して利点がある。この種のアップミキシングエラーは、アンビエンス信号としても知られているバックスピーカのための信号をエラーなしに生成することができないときに、特に邪魔になりうる。
【0011】
このいわゆるアップミキシング処理を実行する1つの方法は、キーワード「直接アンビエンスコンセプト(direct ambience concept)」で知られている。直接サウンドソースは、それらが元の2チャンネルバージョンと同じ位置にあることをユーザーによって知覚されるように、3つのフロントチャンネルによって再生される。元の2チャンネルバージョンは、異なるドラム楽器を用いて図5に概略的に示される。
【0012】
図5bは、全ての元のサウンドソースすなわちドラム楽器が3つのフロントスピーカL、CおよびRによって再生されるコンセプトのアップミックスされたバージョンを示し、そこにおいて、さらに特別なアンビエンス信号が2つのバックスピーカによって出力される。そのため、用語「直接サウンドソース(direct sound source)」は、例えば、ドラム楽器を用いて図5aに例示されるように、ドラム楽器若しくは別の楽器、または一般的に特別なオーディオオブジェクトのように、別々のサウンドソースから直接的にだけ到来しているトーンを表すために用いられる。そのような直接サウンドソースにおいて、例えば壁反射などによって生じるようなさらなるトーンがない。このシナリオにおいて、図5bにおいて2つのバックスピーカLs、Rsによって出力されるオーディオ信号は、元の録音に存在しまたは存在しないアンビエンス信号だけで構成される。この種のアンビエンス信号は、単一のサウンドソースに属さないが、録音の室内音響を再生することに貢献し、ひいては、リスナーによって体験をいわゆる「深く探求すること」をもたらす。
【0013】
「イン・ザ・バンド(in−the−band)」コンセプトとも呼ばれる別の他のコンセプトは、図5cに概略的に示される。あらゆるタイプのサウンド、すなわち直接サウンドソースおよびアンビエンスタイプのトーンの全ては、リスナーの周囲に位置付けられる。トーンの位置は、図5cに例示されるように、その特性(直接サウンドソースまたはアンビエンスタイプのトーン)から独立し、アルゴリズムの詳細設計だけに依存している。そのため、アップミックスアルゴリズムによって図5cにおいて2つの楽器1100および1102がリスナーに対して横に位置付けられると決定されたが、2つの楽器1104および1106はユーザーの前方に位置付けられる。この結果は、2つのバックスピーカLs、Rsが、同じ楽器の全てがユーザーの前方に位置付けられる図5bにおける場合のように、もはやアンビエンスタイプのトーンだけではなく2つの楽器1100および1102の部分も含む。
【0014】
専門家発表「C.アベンダノ(Avendano)およびJ.M.ヨット(Jot)の「マルチチャンネルオーディオアップミックスのためのステレオ信号からアンビエンスの抽出および合成(Ambience Extraction and Synthesis from Stereo Signals for Multichannel Audio Upmix)」、IEEEの音響音声信号処理に関する国際会議、ICASSP02、フロリダ州、オーランド、2002年5月」は、ステレオオーディオ信号においてアンビエンス情報を識別しさらに抽出するための周波数ドメイン技術を開示している。このコンセプトは、チャンネル間コヒーレンスと、主にアンビエンス成分からなるステレオ信号において時間周波数領域を決定することを可能にする非線形マッピング機能とを計算することに基づいている。そして、アンビエンス信号は、合成されさらにマルチチャンネル再生システムのバックチャンネルまたは「サラウンド」チャンネルLs、Rs(図5bおよび図5c)を格納するために用いられる。
【0015】
専門家発表「R.イルワン(Irwan)およびロナルド(Ronald) M. アーツ(Aarts)の「ステレオをマルチチャンネルサウンドに変換する方法(A method to convert stereo to multi−channel sound)」、AES第19回国際会議のプロシーディング、ドイツ、シュロス エルマウ、2001年6月21日〜24日、139−143頁」に、ステレオ信号をマルチチャンネル信号に変換するための方法が示されている。サラウンドチャンネルのための信号は、相互相関技術を用いて計算される。主成分分析(PCA)は、主要な信号の方向を示すベクトルを計算するために用いられる。そして、このベクトルは、3つのフロントチャンネルを生成するために、2チャンネル表現から3チャンネル表現にマップされる。
【0016】
全ての周知の技術は、異なる方法でアンビエンス信号を元のステレオ信号から抽出しようとしまたはそれをノイズ若しくはさらなる情報から合成しようとするが、そこにおいて、ステレオ信号にない情報が、アンビエンス信号を合成するために用いられうる。しかしながら、結局、これは、ステレオ信号から情報を抽出しおよび/または情報を再生シナリオに送ることが全てであり、それらの情報は、明確に存在しないが、その理由は、典型的には2チャンネルステレオ信号だけ、さらに、おそらく、付加情報および/またはメタ情報が利用できるからである。
【0017】
その後、制御パラメータなしで作動するさらなる周知のアップミキシング法が詳述される。この種のアップミキシング法は、ブラインドアップミキシング法とも呼ばれる。
【0018】
モノラルチャンネルからいわゆる擬似ステレオ音響信号を生成するためのこの種の大部分の技術(すなわち1から2へのアップミックス)は、信号適応性がない。これは、それらが、モノラル信号に含まれる内容に関係なく同様に、モノラル信号を常に処理することを意味する。この種のシステムは、生成される信号を非相関化するために、M.シュレーダー(Schroeder)の「単一信号の使用から得られる人工的なステレオ効果(An artifical stereophonic effect obtained from using a single signal)」、JAES、1957年に記載されているように、例示的に一対のいわゆるコンプリメンタリくし形フィルタにより1チャンネル入力信号を処理することによって、単純なフィルタ構成および/または時間遅延を用いてしばしば作動する。この種のシステムの別の概要は、C.ファーラー(Faller)の「疑似ステレオ音響再訪(Pseudo stereophony revisited)」、AES第118回コンベンションのプロシーディング、2005年に見られる。
【0019】
さらに、特に1からNへのアップミックスとの関連で、非負行列因子分解を用いるアンビエンス信号抽出の技術があり、Nは2より大きい。ここで、入力信号の時間周波数分布(TFD)は、例示的に短時間フーリエ変換によって計算される。直接信号成分のTFDの推定値は、非負行列因子分解と呼ばれる数値最適化法によって導出される。アンビエンス信号のTFDのための推定値は、入力信号のTFDおよび直接信号のためのTFDの推定値の差を計算することによって決定される。アンビエンス信号の時間信号の再合成または合成は、入力信号の位相スペクトログラムを用いて実行される。さらなる後処理は、生成されるマルチチャンネル信号の聴取体験を改良するために、任意に実行される。この方法は、C.ウーレ(Uhle)、A・ワルター(Walther)、O.ヘルムート(Hellmuth)およびJ.ヘレ(Herre)の「非負行列因子分解を用いるモノラル録音からのアンビエンス分離(Ambience separation from mono recordings using non−negative matrix factorization)」、AES第30回会議のプロシーディング、2007年に詳細に記載されている。
【0020】
ステレオ録音をアップミックスするための異なる技術がある。1つの技術は、マトリクスデコーダを用いることである。マトリクスデコーダは、ドルビープロロジックII(Dolby Pro Logic II)、ディーティーエスネオシックス(DTS Neo:6)またはハーマンカードン/レキシコンロジックセブン(HarmanKardon/Lexicon Logic 7)のキーワードで知られ、現在販売されているあらゆるオーディオ/ビデオレシーバのほとんどに含まれている。それらの意図された機能性の副産物として、これらの方法は、ブラインドアップミキシングを実行することもできる。これらのデコーダは、マルチチャンネル出力信号を生成するためにチャンネル間差および信号適応制御メカニズムを用いる。
【0021】
すでに述べたように、周波数ドメイン技術は、C.アベンダノ(Avendano)およびJ.M.ヨット(Jot)によって説明されるようにステレオオーディオ信号においてアンビエンス情報を識別しさらに抽出するために用いられる。この方法は、チャンネル間コヒーレンスインデックスおよび非線形マッピング機能を計算することに基づき、それによって、大部分がアンビエンス信号成分からなる時間周波数領域を決定することを可能にする。そして、アンビエンス信号は、マルチチャンネル再生システムのサラウンドチャンネルを送るために合成されさらに用いられる。
【0022】
直接/アンビエンスアップミキシング処理の1つの構成要素は、2つのバックチャンネルLs、Rsに送られるアンビエンス信号を抽出することである。信号には、それが直接/アンビエンスアップミキシング処理との関連でアンビエンス時間信号として用いられるために、特定の必要条件がある。1つの必要条件は、リスナーが直接サウンドソースの位置を前方にあるとして問題なく特定することができるようにするために、直接サウンドソースの関連した部分が聞き取られるべきでないということである。これは、オーディオ信号がスピーチまたは1人若しくは何人かの区別できる話す人を含むときに特に重要である。対照的に、大勢の人々によって生成されるスピーチ信号は、それらがリスナーの前方に位置を特定されないときに、必ずしもリスナーにとって邪魔になるというわけではない。
【0023】
特別な量のスピーチ成分がバックチャンネルによって再生される場合、これは、1人の話す人の位置にまたは前方から後方に置かれる少数人の話す人の位置に生じ、または、ユーザーまでの特定の距離に若しくはユーザーの後方に生じ、それは、非常に邪魔になるサウンド体験をもたらす。特に、オーディオおよびビデオ素材が例えば映画館におけるように同時に存在する場合、そのような体験は特に邪魔になる。
【0024】
(サウンドトラックの)映画のトーン信号のための1つの基本的な必要条件は、聴取体験がピクチャによって生成される体験と一致することである。そのため、位置を特定することについて聞き取れる気配は、位置を特定することについて目に見える気配に反するべきではない。
その結果、話す人がスクリーンに見られるときに、対応するスピーチは、ユーザーの前方に置かれるべきである。
【0025】
同様のことが他の全てのオーディオ信号に適用され、すなわち、これは、オーディオ信号およびビデオ信号が同時に示される状況に必ずしも制限されない。この種の他のオーディオ信号は、例えば、放送信号またはオーディオブックである。リスナーは、フロントチャンネルによって生成されるスピーチに慣れており、さらに、多分、突然のスピーチの全てがバックチャンネルから到来するときに、彼の従来の体験に戻すために振り返る。
【0026】
アンビエンス信号の品質を改良するために、ドイツ特許出願DE102006017280.9−55は、前に抽出されたアンビエンス信号を過渡検出にかけること、および、アンビエンス信号においてエネルギーのかなりの損失のない過渡抑制を生じることを提案する。ここで、信号置換が、過渡のない対応する信号によって過渡を含むがおよそ同じエネルギーを有する領域を置換するために実行される。
【0027】
J.モンソー(Monceaux)、F.パシェ(Pachet)らのAESコンベンション論文「デスクリプタに基づく空間化(Descriptor−based spatialization」、スペイン、バルセロナ、2005年5月28日〜31日には、検出されたスピーチがミュートされる中央チャンネルだけを切替えることによって抽出されたデスクリプタに基づいて減衰されるデスクリプタに基づく空間化が開示されている。ここで、スピーチ抽出器が用いられる。動きおよび過渡時間は、出力信号の修正を平滑化するために用いられる。そのため、スピーチのないマルチチャンネルサウンドトラックは、映画から抽出できる。特定のステレオ残響特性が元のステレオダウンミックス信号に存在するときに、これは、残響が聞こえるように、この残響を中央チャンネルを除くあらゆるチャンネルに分配するアップミキシングツールをもたらす。これを防止するために、ダイナミックレベル制御は、声の残響を減衰するためにL、R、LsおよびRsのために実行される。
【先行技術文献】
【非特許文献】
【0028】
【非特許文献1】C.アベンダノ(Avendano)およびJ.M.ヨット(Jot)、「マルチチャンネルオーディオアップミックスのためのステレオ信号からアンビエンスの抽出および合成(Ambience Extraction and Synthesis from Stereo Signals for Multichannel Audio Upmix)」、IEEEの音響音声信号処理に関する国際会議、ICASSP02、フロリダ州、オーランド、2002年5月
【非特許文献2】R.イルワン(Irwan)およびロナルド(Ronald) M. アーツ(Aarts)、「ステレオをマルチチャンネルサウンドに変換する方法(A method to convert stereo to multi−channel sound)」、AES第19回国際会議のプロシーディング、ドイツ、シュロス エルマウ、2001年6月21日〜24日、139−143頁
【非特許文献3】M.シュレーダー(Schroeder)、「単一信号の使用から得られる人工的なステレオ効果(An artifical stereophonic effect obtained from using a single signal)」、JAES、1957年
【非特許文献4】C.ファーラー(Faller)、「疑似ステレオ音響再訪(Pseudo stereophony revisited)」、AES第118回コンベンションのプロシーディング、2005年
【非特許文献5】C.ウーレ(Uhle)、A・ワルター(Walther)、O.ヘルムート(Hellmuth)およびJ.ヘレ(Herre)、「非負行列因子分解を用いるモノラル録音からのアンビエンス分離(Ambience separation from mono recordings using non−negative matrix factorization)」、AES第30回会議のプロシーディング、2007年
【非特許文献6】J.モンソー(Monceaux)、F.パシェ(Pachet)ら、AESコンベンション論文「デスクリプタに基づく空間化(Descriptor−based spatialization」、スペイン、バルセロナ、2005年5月28日〜31日
【発明の概要】
【発明が解決しようとする課題】
【0029】
本発明の目的は、多数の出力チャンネルを含むマルチチャンネル信号を生成するためのコンセプトを提供することであり、それは一方では柔軟性があり他方では高品質な製品を提供する。
【課題を解決するための手段】
【0030】
この目的は、請求項1に記載のマルチチャンネル信号を生成するための装置、請求項23に記載のマルチチャンネル信号を生成する方法または請求項24に記載のコンピュータプログラムによって達成される。
【0031】
本発明は、バックチャンネルにおいてすなわちアンビエンスチャンネルにおいてスピーチ成分が、バックチャンネルにスピーチ成分がないようにするために、抑制される知見に基づく。1つまたはいくつかのチャンネルを有する入力信号は、直接信号チャンネルを提供し、さらに、実施に応じて、アンビエンス信号チャンネルまたはすでに修正されたアンビエンス信号チャンネルを提供するためにアップミックスされる。スピーチ検出器は、入力信号、直接チャンネルまたはアンビエンスチャンネルにおいてスピーチ成分をサーチするために備えられ、この種のスピーチ成分は、時間および/または周波数部分においてまたは直交分解能の成分においても例示的に発生することができる。信号修正器は、スピーチ信号成分をそこで抑制するためにアップミキサまたは入力信号のコピーによって生成される直接信号を修正するために設けられるが、直接信号成分は、スピーチ信号成分を含む対応する部分においてより少ない程度に減衰されまたは少しも減衰されない。そして、そのような修正されたアンビエンスチャンネル信号は、対応するスピーカのためのスピーカ信号を生成するために用いられる。
【0032】
しかしながら、入力信号が修正されたときに、アップミキサによって生成されるアンビエンス信号が直接用いられるが、それは、スピーチ成分がすでにそこで抑制され、根本的なオーディオ信号も抑制されたスピーチ成分を有するからである。しかしながら、この場合、アップミキシング処理も直接チャンネルを生成するときに、直接チャンネルは、スピーチ成分が明確に要求される直接チャンネルにおいてではなく、アンビエンスチャンネルにおいてだけ、スピーチ成分を選択的に抑制することを達成するために、修正された入力信号に基づいて計算されないが、修正されていない入力信号に基づいて計算される。
【0033】
これは、スピーチ成分の再生がバックチャンネルまたはアンビエンス信号チャンネルにおいて起こることを防止し、さもなければ、リスナーに邪魔になりまたは混乱さえさせる。その結果、本発明は、対話およびリスナーによって理解できる他のスピーチを、すなわちスピーチに典型的なスペクトル特性を有するものを、リスナーの前方に置くことを確実にする。
【0034】
同じ必要条件はイン・バンドコンセプトに適用され、そこにおいて、直接信号成分(およびアンビエンス信号成分も)の全てがリスナーの前方に置かれる図5cに示されるように、直接信号は、バックチャンネルに置かれないが、リスナーの前方に置かれることが望ましく、さらに、おそらく、リスナーの横に置かれるが、リスナーの後方に置かれないことが望ましい。
【0035】
本発明によれば、信号依存の処理が、バックチャンネルにおいてまたはアンビエンス信号においてスピーチ成分を取り除くまたは抑制するために実行される。2つの基本ステップがここで実行され、すなわち発生しているスピーチを検出するステップおよびスピーチを抑制するステップが実行され、発生しているスピーチを検出するステップは、入力信号において、直接チャンネルにおいてまたはアンビエンスチャンネルにおいて実行することができ、さらに、スピーチを抑制するステップは、アンビエンスチャンネルにおいて直接的にまたはアンビエンスチャンネルを生成するために用いられる入力信号において間接的に実行することができ、この修正された入力信号は、直接チャンネルを生成するために用いられない。
【0036】
そのため、本発明は、マルチチャンネルサラウンド信号がより少ないチャンネルを有するオーディオ信号から生成されるときに、スピーチ成分を含む信号を達成し、ユーザーの観点から、バックチャンネルのためのもたらされた信号がユーザーの前方において元のトーンイメージ(フロントイメージ)を保持するために最小量のスピーチを含むことが確実にされる。特別な量のスピーチ成分がバックチャンネルによって再生されることがあるときに、話す人の位置は、リスナーおよびフロントスピーカ間のどこかにフロント領域の外側に位置付けられ、または、極端な場合にはリスナーの後方に位置付けられる。これは、特にオーディオ信号が例えば映画の場合のように視覚信号と同時に存在するときに、非常に邪魔になるサウンド体験をもたらす。そのため、多くのマルチチャンネル映画サウンドトラックは、バックチャンネルにおいていかなるスピーチ成分もほとんど含まない。本発明によれば、スピーチ信号成分が、検出されさらに適切な場合に抑制される。
【0037】
本発明の好適な実施形態は、添付図面を参照して後に詳述される。
【図面の簡単な説明】
【0038】
【図1】図1は、本発明の実施形態のブロック図を示す。
【図2】図2は、「対応するセクション(corresponding section)」を検討するための分析信号時間/周波数セクションとアンビエンスチャンネルまたは入力信号との関連性を示す。
【図3】図3は、本発明の好適な実施形態によるアンビエンス信号修正を示す。
【図4】図4は、本発明の別の実施形態によるスピーチ検出器およびアンビエンス信号修正器間の協力を示す。
【図5a】図5aは、直接ソース(ドラム楽器)および拡散成分を含むステレオ再生シナリオを示す。
【図5b】図5bは、全ての直接サウンドソースがフロントチャンネルによって再生され、さらに拡散成分が全てのチャンネルによって再生される、マルチチャンネル再生シナリオを示し、このシナリオも直接アンビエンスコンセプトと呼ばれる。
【図5c】図5cは、別々のサウンドソースがバックチャンネルによって少なくとも部分的に再生することができ、さらにアンビエンスチャンネルがバックスピーカによって再生されないまたは図5bにおいてより少ない程度で再生される、マルチチャンネル再生シナリオを示す。
【図6a】図6aは、アンビエンスチャンネルにおいてスピーチ検出およびアンビエンスチャンネルの修正を含む別の実施形態を示す。
【図6b】図6bは、入力信号においてスピーチ検出およびアンビエンスチャンネルの修正を含む実施形態を示す。
【図6c】図6cは、入力信号においてスピーチ検出および入力信号の修正を含む実施形態を示す。
【図6d】図6dは、入力信号においてスピーチ検出およびアンビエンス信号において修正を含む別の実施形態を示し、修正は特にスピーチに同調される。
【図7】図7はバンドパス信号/サブバンド信号に基づいて、バンドごとに増幅ファクタ計算を含む実施形態を示す。
【図8】図8は、図7の増幅計算ブロックの詳細な例を示す。
【発明を実施するための形態】
【0039】
図1は、マルチチャンネル信号10を生成するための装置のブロック図を示し、それは、左チャンネルL、右チャンネルR、中央チャンネルC、LFEチャンネル、左バックチャンネルLSおよび右バックチャンネルRSを含むとして図1に示される。しかしながら、本発明は、ここで選択される5.1表現より他の任意の表現、例えば、7.1表現、または、左チャンネル、右チャンネルおよび中央チャンネルだけが生成される3.0表現にも適切であると指摘される。図1に示される6チャンネルを例示的に含むマルチチャンネル信号10は、入力信号12または多くの入力チャンネルを含む「x」から生成され、多数の入力チャンネルは、1に等しいかまたは1より大きくさらに例示的にステレオダウンミックスが入力されるときに2に等しい。しかしながら、一般的に、多数の出力チャンネルは、多数の入力チャンネルより多い。
【0040】
図1に示される装置は、少なくとも直接信号チャンネル15およびアンビエンス信号チャンネル16、または、おそらく、修正されたアンビエンス信号チャンネル16´を生成するために入力信号12をアップミックスするためのアップミキサ14を含む。さらに、スピーチ検出器18が設けられ、それは、18aで提供されるように、分析信号として入力信号12を用いるために、または、18bで提供されるように、直接信号チャンネル15を用いるために、または、時間/周波数発生に関してまたはその特性に関して、入力信号12に類似するスピーチ成分に関する別の信号を用いるために実装される。スピーチ検出器は、スピーチ部分が存在する、入力信号、直接チャンネルまたは18cで例示されるようにアンビエンスチャンネルのセクションを検出する。このスピーチ部分は、重要なスピーチ部分すなわち例示的にスピーチ部分であってもよく、そのスピーチ特性は、特定の定性的または定量的尺度に基づいて導出され、定性的尺度および定量的尺度は、スピーチ検出閾値とも呼ばれる閾値を上回る。
【0041】
定量的尺度については、スピーチ特性は数値を用いて量子化され、さらに、この数値は閾値と比較される。定性的尺度については、決定はセクションごとに行われ、決定は1つまたはいくつかの決定基準に関連して行うことができる。この種の決定基準は、例示的に、イエス/ノー決定に到着するために、何とかして互いに比較され/重み付けられたまたは処理されうる異なる定量的特性であってもよい。
【0042】
図1に示される装置は、20aで示されるように、元の入力信号を修正するために実装されまたはアンビエンスチャンネル16を修正するために実装される信号修正器20を含む。アンビエンスチャンネル16が修正されるときに、信号修正器20は、修正されたアンビエンスチャンネル21を出力するが、入力信号20aが修正されるときに、修正された入力信号20bがアップミキサ14に出力され、そして、それは、例えば直接チャンネル15のために用いられるアップミキシング処理と同じように、修正されたアンビエンスチャンネル16´を生成する。このアップミキシング処理が、修正された入力信号20bのために、直接チャンネルをもたらせば、この直接チャンネルは、本発明によれば、修正された入力信号20bではなく修正されていない入力信号12(スピーチ抑制なし)から導出された直接チャンネルが直接チャンネルとして用いられるので、退けられる。
【0043】
信号修正器は、少なくとも1つのアンビエンスチャンネルまたは入力信号のセクションを修正するために実装され、これらのセクションは、例示的に、直交分解能の時間または周波数のセクションまたは部分であってもよい。特に、スピーチ検出器によって検出されたセクションに対応するセクションは、信号修正器が示されたように修正されたアンビエンスチャンネル21またはスピーチ部分が減衰され若しくは除去される修正された入力信号20bを生成するように、修正され、スピーチ部分は、直接チャンネルの対応するセクションにおいて、より少ない程度に減衰され、または、任意に、少しも減衰されない。
【0044】
さらに、図1に示される装置は、例えば図1に例示される5.1シナリオなどの再生シナリオにおいてスピーカ信号を出力するためのスピーカ信号出力手段22を含み、しかしながら、そこにおいて、7.1シナリオ、3.0シナリオまたは別のまたはさらにより高いシナリオも可能である。特に、少なくとも1つの直接チャンネルおよび少なくとも1つの修正されたアンビエンスチャンネルは、再生シナリオのためのスピーカ信号を生成するために用いられ、そこにおいて、修正されたアンビエンスチャンネルは、21で示されるように信号修正器20からまたは16´で示されるようにアップミキサ14から生じてもよい。
【0045】
例示的に2つの修正されたアンビエンスチャンネル21が提供されるときに、これらの2つのアンビエンスチャンネルは、2つのスピーカ信号Ls、Rsに直接的に送ることができるが、直接チャンネルは、完全な分割がアンビエンス信号成分および直接信号成分間で起こるように、3つのフロントスピーカL、R、Cにだけ送られる。そして、直接信号成分の全てがユーザーの前方にあり、アンビエンス信号成分の全てがユーザーの後方にある。あるいは、アンビエンス信号成分は、結果が図5bに示される直接/アンビエンスシナリオであるように、典型的により小さいパーセンテージでフロントチャンネルに導入することができ、そこにおいて、アンビエンス信号は、サラウンドチャンネルによってだけでなく、例えばL、C、Rなどのフロントスピーカによっても生成される。
【0046】
しかしながら、イン・バンドシナリオが好ましいときに、アンビエンス信号成分は、例えばL、R、Cなどのフロントスピーカによって主に出力されるが、直接信号成分は、少なくとも部分的に2つのバックスピーカLs、Rsに送られてもよい。図5cにおいて示される位置に2つの直接信号ソース1100および1102を置くことができるようにするために、スピーカLにおいてソース1100の部分は、典型的なパニングルールに従って、ソース1100をLおよびLs間の中央に置くために、スピーカLsにおける部分と同程度の大きさである。スピーカ信号出力手段22は、実施に応じて、入力側上に送られるチャンネルを直接通過させることができるか、または、例えばイン・バンドコンセプトまたは直接/アンビエンスコンセプトによって、チャンネルが個々のスピーカに分配されるように、アンビエンスチャンネルおよび直接チャンネルをマップすることができ、さらに、結局、個々のチャンネルからの部分が実際のスピーカ信号を生成するためにまとめることができる。
【0047】
図2は、上部において分析信号と下部においてアンビエンスチャンネルまたは入力信号との時間/周波数分布を示す。特に、時間は水平軸に沿ってプロットされ、周波数は垂直軸に沿ってプロットされる。これは、図2において、信号15ごとに、分析信号およびアンビエンスチャンネル/入力信号において同数を有する時間/周波数タイルまたは時間/周波数セクションがあることを意味する。これは、例えばスピーチ検出器18が部分22においてスピーチ信号を検出するときに、信号修正器20が何とかしてアンビエンスチャンネル/入力信号のセクションを処理することを意味し、例えばそれを減衰し、完全に除去しまたはスピーチ特性を含んでいない合成信号で置換する。本発明において、分布は、図2に示されるように選択的である必要がないと指摘される。代わりに、時間的な検出は、満足な効果をすでに提供することができ、そこにおいて、分析信号の特定の時間セクションは、例示的に2秒から2.1秒まで、スピーチ抑制を得るために、2秒および2.1秒間においてアンビエンスチャンネルまたは入力信号のセクションをその次に処理するために、スピーチ信号を含むとして検出される。
【0048】
あるいは、直交分解能は、例えば主成分分析などによって実行することもでき、そこにおいて、この場合、同じ成分分布が、アンビエンスチャンネルまたは入力信号と分析信号との両方において用いられる。スピーチ成分として分析信号において検出された特定の成分は、アンビエンスチャンネルまたは入力信号において減衰され、完全に抑制されまたは除去される。実施に応じて、セクションは、分析信号において検出され、このセクションは、分析信号において必ずしも処理されないが、おそらく、別の信号においてに必然的に処理される。
【0049】
図3は、アンビエンスチャンネル修正器と協働するスピーチ検出器の実施を示し、スピーチ検出器は、時間情報を提供するだけであり、すなわち、図2から見るとき、ブロードバンドで、第1、第2、第3、第4または第5の時間間隔を識別し、さらに、この情報を制御ライン18d(図1)を介してアンビエンスチャンネル修正器20に通信するだけである。同期して作動しまたはバッファリングされて作動するスピーチ検出器18およびアンビエンスチャンネル修正器20は、例示的に信号12または信号16であってもよい修正される信号において減衰されるスピーチ信号またはスピーチ成分を達成するが、対応するセクションのこの種の減衰は、直接チャンネルにおいて発生しないまたはより少ない程度にだけ発生することが確実にされる。実施に応じて、これは、例えばマトリクス法または特別なスピーチ処理を実行しない別の方法などのように、スピーチ成分を考慮せずに作動するアップミキサ14によって達成することもできる。そして、これによって達成される直接信号は、さらなる処理のない出力手段22に送られるが、アンビエンス信号は、スピーチ抑制に関して処理される。
【0050】
あるいは、信号修正器が入力信号をスピーチ抑制にかけるときに、アップミキサ14は、一方では元の入力信号に基づいて直接チャンネル成分を抽出するためにある意味では2回作動することができるが、修正された入力信号20bに基づいて修正されたアンビエンスチャンネル16´を抽出するためにも同様である。しかしながら、同じアップミキシングアルゴリズムは、それぞれの他の入力信号を用いて、2回発生し、そこにおいて、スピーチ成分は、1つの入力信号において減衰され、さらに、スピーチ成分は、他の入力信号において減衰されない。
【0051】
実施に応じて、アンビエンスチャンネル修正器は、後述するように、ブロードバンド減衰の機能性またはハイパスフィルタリングの機能性を示す。
【0052】
その後、本発明の装置の異なる実施が、図6a、図6b、図6cおよび図6dを参照して説明される。
【0053】
図6aにおいて、アンビエンス信号aは、入力信号xから抽出され、この抽出は、アップミキサ14の機能性の部分である。アンビエンスaにおいて発生しているスピーチが検出される。検出dの結果は、修正されたアンビエンス信号21を計算するアンビエンスチャンネル修正器20で用いられ、そこにおいて、スピーチ部分が抑制される。
【0054】
図6bは、図6aとはアンビエンス信号でない入力信号が分析信号18aとしてスピーチ検出器18に送られるという点で異なる構成を示す。特に、修正されたアンビエンスチャンネル信号asは、図6aの構成と同様に計算されるが、入力信号においてスピーチが検出される。これは、スピーチ成分がアンビエンス信号aにおいてよりも入力信号xにおいて一般的に容易に見つけられるという事実によって説明されうる。そのため、改良された信頼性は、図6bに示される構成によって達成できる。
【0055】
図6cにおいて、スピーチが修正されたアンビエンス信号asは、すでにスピーチ信号抑制にかけた入力信号のバージョンxsから抽出される。xにおいてスピーチ成分が抽出されたアンビエンス信号においてよりも典型的に顕著であるので、それを抑制することは、図6aにおいてよりも安全でかつ長続きする方法で行うことができる。図6aにおける構成と比較して図6cに示される構成の不利な点は、スピーチ抑制およびアンビエンス抽出処理の潜在的なアーティファクトが、抽出方法のタイプに応じて、悪化することである。しかしながら、図6cにおいて、アンビエンスチャンネル抽出器14の機能性は、修正されたオーディオ信号からアンビエンスチャンネルを抽出するためだけに用いられる。しかしながら、直接チャンネルは、修正されたオーディオ信号xs(20b)からではないが、元の入力信号x(12)に基づいて抽出される。
【0056】
図6dに示される構成において、アンビエンス信号aは、アップミキサによって入力信号xから抽出される。入力信号xにおいて発生しているスピーチが検出される。さらに、アンビエンスチャンネル修正器20の機能性をさらに制御するさらなる補助情報eは、スピーチ分析器30によって計算される。これらの補助情報は、入力信号から直接的に計算され、さらに、例示的に図2のスペクトログラムの形で、時間/周波数表現においてスピーチ成分の位置であってもよく、または、以下にさらに詳細に説明されるさらなる付加情報であってもよい。
【0057】
スピーチ検出器18の機能性は、以下に詳述される。スピーチ検出の目的は、存在しているスピーチの確率を推定するために、オーディオ信号の混合物を分析している。入力信号は、例示的に、音楽信号の、ノイズの、または映画で知られているように特別なトーン効果の、複数の異なるタイプのオーディオ信号の集合された信号であってもよい。スピーチを検出する1つの方法は、パターン認識システムを用いることである。パターン認識は、生データを分析し、さらに、生データにおいて発見されたパターンのカテゴリに基づいて特別な処理を実行することを意味する。特に、用語「パターン」は、等しいカテゴリ(クラス)のオブジェクトの測定間に見られる根本的な類似性を表す。パターン認識システムの基本操作は、検出、すなわち、変換器を用いるデータの記録、前処理、特徴の抽出および分類であり、そこにおいて、これらの基本操作は、示される順に実行されうる。
【0058】
通常、マイクロホンは、スピーチ検出システムのためのセンサとして用いられる。準備は、アナログ/デジタル変換、再サンプリングまたはノイズリダクションであってもよい。特徴を抽出することは、測定からオブジェクトごとに特徴を計算することを意味する。これらの特徴は、それらが同じクラスのオブジェクト中で類似するように、すなわち良好なクラス内のコンパクト性が達成されるように、さらに、これらが異なるクラスのオブジェクトのために異なるように、選択され、その結果、クラス間の分離可能性が達成できる。第3の必要条件は、特徴が人間の知覚とは無関係なノイズ、アンビエンス状況および入力信号の変換に関連してロバストでなければならないということである。特性を抽出することは、2つの別々のステージに分割することができる。特性ベクトル間の相関を最小化しさらに低エネルギーのエレメントを用いないことによって特徴の次元数を減らすために、第1のステージは、特徴を計算することであり、第2のステージは、特徴を一般的な直交基底上に投影しまたは変換することである。
【0059】
【0060】
【0061】
【0062】
分類器を適用する段階において、特徴は、トレーニング段階と同様に、未知データから計算されさらに投影され、さらに、トレーニング中に学習されるように、クラスの特徴上の知識に基づいて分類器によって分類される。
【0063】
スピーチ抑制の特別な実施は、信号修正器20によって例示的に実行されうるように、以下に詳述される。そのため、異なる方法が、オーディオ信号においてスピーチを抑制するために用いられうる。通信アプリケーションのためのスピーチ増幅およびノイズリダクションの分野で知られていない方法がある。もともと、スピーチ増幅法は、スピーチおよびバックグラウンドノイズの混合物においてスピーチを増幅するために用いられていた。この種の方法は、本発明のために実行されるように、反対のことを生じるようにすなわちスピーチを抑制するように修正できる。
【0064】
そのような時間/周波数係数に含まれるノイズの度合いの推定値に従って時間/周波数表現の係数を減衰しまたは増幅するスピーチ増幅およびノイズリダクションのための解決アプローチがある。例えば先験的情報または特別なノイズセンサで測定される情報のように、バックグラウンドノイズに関する付加情報が知られていないときに、時間/周波数表現は、例示的に特別な最小統計的方法を用いて、ノイズの多い測定から得られる。ノイズ抑制ルールは、推定されたノイズ値を用いて減衰ファクタを計算する。この原理は、例示的にG.シュミット(G.Schmid)の「スペクトル重み付けに基づく単一チャンネルノイズ抑制(Single−channel noise suppression based on spectral weighting)」、Eurasip Newsletter 2004で知られるように、短期スペクトル減衰またはスペクトル重み付けとして知られている。スペクトルサブトラクション、ウィーナーフィルタリングおよびエフライム−マラーアルゴリズムは、短時間スペクトル減衰(STSA)原理に従って作動する信号処理法である。STSAアプローチのより多くの一般的定式化は、信号部分空間法をもたらし、それは、次元圧縮法としても知られ、さらに、P.ハンセン(Hansen)およびS.ジェンセン(Jensen)の「次元圧縮ノイズリダクションのFIRフィルタ表現(Fir filter representation of reduced−rank noise reduction)」、IEEE TSP、1998に記載もされている。
【0065】
原理上は、スピーチを増幅しまたは非スピーチ成分を抑制する全ての方法は、それの周知の使用に関する使用の逆に、スピーチを抑制しおよび/または非スピーチを増幅するために用いられうる。スピーチ増幅またはノイズ抑制の一般的モデルは、入力信号が所望の信号(スピーチ)およびバックグラウンドノイズ(非スピーチ)の混合物であるという事実である。スピーチを抑制することは、例えば、STSAに基づく方法において減衰ファクタを反転することによってまたは所望の信号およびバックグラウンドノイズの定義を交換することによって達成される。
【0066】
しかしながら、スピーチ抑制において重要な必要条件は、アップミキシングの文脈に関して、もたらされているオーディオ信号が高いオーディオ品質のオーディオ信号として知覚されるということである。スピーチ改良法およびノイズリダクション法が聞き取れるアーティファクトを出力信号に導入するということが知られている。この種のアーティファクトの例は、音楽ノイズまたは音楽トーンとして知られ、さらに、ノイズフロアエラーを起こしやすい推定値および可変サブバンド減衰ファクタから生じる。
【0067】
あるいは、ブラインドソース分離法が、スピーチ信号部分をアンビエンス信号から分離するためおよびその後それらを別々に操作するために用いられうる。
【0068】
しかしながら、その後に詳述される特定の方法は、他の方法と比較して、それらがかなりよりよくするという事実のために、高品質なオーディオ信号を生成する特別な必要条件のために好ましい。1つの方法は、図3に20で示されるように、ブロードバンド減衰である。オーディオ信号は、スピーチがある時間間隔において減衰される。特別な増幅ファクタは−12dBおよび−3dB間の範囲にあり、好ましい減衰は6デシベルである。他の信号成分/部分も抑制されるかもしれないので、オーディオ信号エネルギーにおいて全損失が明らかに知覚されると思われるかもしれない。しかしながら、この効果が邪魔にならないことが発見され、それは、スピーチシーケンスが開始するときにとにかくユーザーが特にフロントスピーカL、C、Rに集中するので、彼または彼女がスピーチ信号に集中しているときにユーザーがバックチャンネルまたはアンビエンス信号のエネルギーにおいて減少を体験しないからである。これは、特にオーディオ信号レベルがとにかくスピーチの始まりのために増加するというさらなる典型的な効果によって強化される。−12デシベルおよび3デシベル間の範囲において減衰を導入することによって、減衰は、邪魔になるとして体験されない。代わりに、ユーザーは、バックチャンネルにおいてスピーチ成分の抑制のために、ユーザーにとってフロントチャンネルにおいてだけ置かれるスピーチ成分をもたらす効果が達成されることを、かなりより楽しいと思う。
【0069】
図3に20で示される他の方法は、ハイパスフィルタリングである。オーディオ信号は、スピーチがあるハイパスフィルタリングにかけられ、そこにおいて、カットオフ周波数は、600Hzおよび3000Hz間の範囲にある。カットオフ周波数のための設定は、本発明に関してスピーチに特有の信号から生じる。スピーチ信号の長期パワースペクトルは、2.5kHzより低い範囲に集中される。有声音声の基本周波数の好ましい範囲は、75Hzおよび330Hz間の範囲にある。60Hzおよび250Hz間の範囲は、成人男性のために生じる。男性の話す人のための平均値は120Hzであり、女性の話す人のための平均値は215Hzである。ボーカルトラックにおいて共鳴のために、特定の信号周波数は増幅される。スペクトルにおいて対応するピークは、フォルマント周波数と呼ばれ、または、単にフォルマントと呼ばれる。典型的に、3500Hzより下に、およそ3つの重要なフォルマントがある。その結果、スピーチは1/F性質を示し、すなわちスペクトルエネルギーは周波数の増加とともに減少する。そのため、本発明の目的を達成するために、スピーチ成分は、示されるカットオフ周波数範囲を含むハイパスフィルタリングによって、よくフィルタリングできる。
【0070】
別の好適な実施は正弦波信号モデリングであり、それは図4を参照して説明される。第1のステップ40において、スピーチの基本波が検出され、この検出は、図6dに示されるように、スピーチ検出器18において、または、スピーチ分析器30において実行されうる。その後に、ステップ41において、分析が、基本波に属する高調波を発見するために実行される。この機能性は、すでに、スピーチ検出器/スピーチ分析器において、または、アンビエンス信号修正器においてさえ実行されうる。その後、スペクトログラムは、42で示されるように、ブロックの後の変換用のブロックに基づいて、アンビエンス信号のために計算される。その後、実際のスピーチ抑制は、ステップ43において、スペクトログラムにおいて基本波および高調波を減衰することによって実行される。ステップ44において、基本波および高調波が減衰されまたは除去される修正されたアンビエンス信号は、修正されたアンビエンス信号または修正された入力信号を得るために、再変換にかけられる。
【0071】
この正弦波信号モデリングは、トーン合成、オーディオ符合化、ソース分離、トーン操作およびノイズ抑制のためにしばしば用いられる。ここで、信号は、時間可変の振幅および周波数の正弦波から作られる集合として示される。有声音声信号成分は、部分音、すなわち基本波およびその高調波を識別しまたは修正することによって操作される。
【0072】
部分音は、41で示されるように、部分音探知機によって識別される。典型的に、部分音の発見は、時間/周波数ドメインにおいて実行される。スペクトログラムは、42に示されるように、短時間フーリエ変換によって行われる。極大は、スペクトログラムのそれぞれのスペクトルにおいて検出され、さらに、軌跡は、隣接するスペクトルの極大によって決定される。基本周波数を推定することは、ピークのピッキング処理を支持することができ、基本周波数のこの推定は40で実行される。そして、正弦波信号表現は、軌跡から得られうる。ステップ40、41およびステップ42間の順序は、図6dにスピーチ分析器30において実行される変換42が最初に起こるように、変えることができることが指摘される。
【0073】
正弦波信号表現を導出する異なる開発が提案される。ノイズリダクションのためのマルチ分解能処理アプローチは、D.アンデルセン(Andersen)およびM.クレメンツ(Clements)の「マルチ分解能正弦波モデリングを用いたオーディオ信号ノイズリダクション(Audio signal noise reduction using multi−resolution sinusoidal modeling)」、ICASSPのプロシーディング 1999に示されている。正弦波表現を導出するための反復処理は、J.ジェンセン(Jensen)およびJ.ハンセン(Hansen)の「制約付き反復正弦波モデル用いたスピーチエンハンスメント(Speech enhancement using a constrained iterative sinusoidal model)」、IEEE TSAP 2001に示されている。
【0074】
正弦波信号表現を用いて、改良されたスピーチ信号は、正弦波成分を増幅することによって得られる。しかしながら、本発明のスピーチ抑制は、反対のことを達成することを目的とし、すなわち、部分音を抑制し、部分音は、有声音声を含むスピーチセグメントに対して、基本波およびその高調波を含む。典型的に、高エネルギーのスピーチ成分は、音の性質のものである。そのため、スピーチは、ボーカルに対して60−75デシベルのレベルであり、子音に対してより低いおよそ20−30デシベルにある。周期的パルスタイプ信号を励起することは、有声音声(ボーカル)のためにある。励起信号は、ボーカルトラックによってフィルタリングされる。その結果、有声音声セグメントのほとんど全てのエネルギーは、基本波およびその高調波に集中する。これらの部分音を抑制するときに、スピーチ成分は著しく抑制される。
【0075】
スピーチ抑制を達成する別の方法が図7および図8に示される。図7および図8は、短期スペクトル減衰またはスペクトル重み付けの基本原理を説明する。最初は、バックグラウンドノイズの電力密度スペクトルが推定される。示された方法は、特定の周波数セクションにおいて信号の「スピーチらしさ」の尺度であるいわゆる低いレベル特徴を用いて時間/周波数タイルに含まれるスピーチ量を推定する。低いレベル特徴は、それらの重要性を解釈して煩雑性を計算することに関して低いレベルの特徴である。
【0076】
オーディオ信号は、図7に70で示すように、フィルタバンクまたは短期フーリエ変換を用いて多くの周波数バンドにおいて細分化される。そして、71aおよび71bで例示されるように、時間可変増幅ファクタは、それらが含むスピーチ量に比例してサブバンドを減衰するために、この種の低いレベル特徴から全てのサブバンドのために計算される。適切な低いレベル特徴は、スペクトル平坦度(SFM)および4Hzの変調エネルギー(4HzME)である。SFMは、オーディオ信号の調性の度合いを測定し、さらに、バンドのために1つのバンドにおいて全てのスペクトル値の幾何平均値およびこのバンドにおいてスペクトル成分の算術平均値の商から生じる。4HzMEは、スピーチがおよそ4Hzで特性エネルギー変調ピークを有するという事実が動機となり、それは話す人の音節の平均速度に対応する。
【0077】
図8は、図7の増幅計算ブロック71aおよび71bの詳細な例を示す。複数の異なる低いレベル特徴、すなわちLLF1、・・・、LLFnは、サブバンドxiに基づいて計算される。そして、これらの特徴は、サブバンドのための増幅ファクタgiを得るために結合器80において結合される。
【0078】
実施に応じて、必ずしも低いレベル特徴が用いられることを要しないが、例えばエネルギー特徴などの任意の特徴も、(いずれかの時点で)それぞれのバンドがスピーチ抑制を達成するために可変的に減衰されるように、定量的増幅ファクタgiを得るために図8の実施に従って結合器において結合されると指摘される。
【0079】
状況に応じて、本発明の方法は、ハードウェアまたはソフトウェアにおいて実施されてもよい。実施は、その方法を実行するために、プログラミング可能なコンピュータシステムと協働することができる電子的に読み出すことができる制御信号を有するデジタル記憶媒体、特にディスクまたはCDにおいてされてもよい。そのため、本発明は、一般的に、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法を実行するために、機械で読み取り可能なキャリアに格納された、プログラムコードを含むコンピュータプログラム製品にある。したがって、言い換えると、本発明は、コンピュータプログラムがコンピュータ上で実行されるときに、その方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現することができる。
【技術分野】
【0001】
本発明は、オーディオ信号処理の分野に関し、特に、例えば1(モノラル)チャンネルまたは2(ステレオ)入力チャンネルなどのようにより少ない入力チャンネルからいくつかの出力チャンネルを生成することに関する。
【背景技術】
【0002】
マルチチャンネルオーディオ素材は、ますます普及している。これは、それと同時にマルチチャンネル再生システムを所有している多くのエンドユーザーをもたらしている。これは、主に、DVDがますます普及し、その結果、それと同時にDVDの多くのユーザーが5.1マルチチャンネル機器を所有しているという事実に起因していると考えることができる。この種の再生システムは、一般的に、ユーザーの前方に典型的に配置される3つのスピーカL(左)、C(中央)およびR(右)と、ユーザーの後方に配置される2つのスピーカLsおよびRsと、低周波効果チャンネルまたはサブウーファーとも呼ばれる典型的に1つのLFEチャンネルとからなる。そのようなチャンネルシナリオは、図5bおよび図5cに示される。スピーカL、C、R、Ls、Rsは、ユーザーが可能な限りの最高の聴取体験を受けるために、図5bおよび図5cに示されるようにユーザーに関して位置付けられるべきであるが、(図5bおよび図5cに示されない)LFEチャンネルの位置決めは、耳がそのような低周波で位置を特定することができないので、それほど重要ではなく、その結果、LFEチャンネルは、そのかなりの大きさのために、邪魔にならないなら、どこに配置されてもよい。
【0003】
そのようなマルチチャンネルシステムは、図5aに例示されるように2チャンネル再生である典型的なステレオ再生と比較していくつかの利点を示す。
【0004】
最適な中央の聴取位置の外側でさえ、「フロントイメージ(front image)」とも呼ばれるフロント聴取体験の改良された安定性が、中央チャンネルのために結果として生じる。その結果は、より大きな「スイートスポット(sweet spot)」となり、「スイートスポット」は、最適な聴取位置を表す。
【0005】
さらに、リスナーは、2つのバックスピーカLsおよびRsのために、オーディオシーンを「深く探求すること(delving into)」の改良された体験を得る。
【0006】
それにもかかわらず、ユーザーが所有しまたは一般的に利用できる大量のオーディオ素材があり、それは、ステレオ素材としてだけ存在し、言い換えれば、2つのチャンネル、すなわち左チャンネルおよび右チャンネルだけを含む。コンパクトディスクは、この種のステレオの曲のための典型的なサウンドキャリアである。
【0007】
国際電気通信連合(ITU)は、5.1マルチチャンネルオーディオ機器を用いてこの種のステレオ素材を再生するための2つのオプションを推奨する。
【0008】
この第1のオプションは、マルチチャンネル再生システムの左右のスピーカを用いて左右のチャンネルを再生することである。しかしながら、この解決策は、すでに存在している複数のスピーカが用いられないという点で不利な点があり、それは、存在しているセンタースピーカおよび2つのバックスピーカが有利に用いられないことを意味する。
【0009】
別のオプションは、2チャンネルをマルチチャンネル信号に変換することである。これは、再生の間または特別な前処理によって行うことができ、例示的に存在する5.1再生システムの全6つのスピーカを有利に用い、ひいては、2チャンネルがエラーなしに5または6チャンネルにアップミックスされるときに改良された聴取体験をもたらす。
【0010】
第2のオプションのときだけ、すなわちマルチチャンネルシステムの全てのスピーカを用いることは、すなわちアップミキシングエラーがないときに、第1の解決策と比較して利点がある。この種のアップミキシングエラーは、アンビエンス信号としても知られているバックスピーカのための信号をエラーなしに生成することができないときに、特に邪魔になりうる。
【0011】
このいわゆるアップミキシング処理を実行する1つの方法は、キーワード「直接アンビエンスコンセプト(direct ambience concept)」で知られている。直接サウンドソースは、それらが元の2チャンネルバージョンと同じ位置にあることをユーザーによって知覚されるように、3つのフロントチャンネルによって再生される。元の2チャンネルバージョンは、異なるドラム楽器を用いて図5に概略的に示される。
【0012】
図5bは、全ての元のサウンドソースすなわちドラム楽器が3つのフロントスピーカL、CおよびRによって再生されるコンセプトのアップミックスされたバージョンを示し、そこにおいて、さらに特別なアンビエンス信号が2つのバックスピーカによって出力される。そのため、用語「直接サウンドソース(direct sound source)」は、例えば、ドラム楽器を用いて図5aに例示されるように、ドラム楽器若しくは別の楽器、または一般的に特別なオーディオオブジェクトのように、別々のサウンドソースから直接的にだけ到来しているトーンを表すために用いられる。そのような直接サウンドソースにおいて、例えば壁反射などによって生じるようなさらなるトーンがない。このシナリオにおいて、図5bにおいて2つのバックスピーカLs、Rsによって出力されるオーディオ信号は、元の録音に存在しまたは存在しないアンビエンス信号だけで構成される。この種のアンビエンス信号は、単一のサウンドソースに属さないが、録音の室内音響を再生することに貢献し、ひいては、リスナーによって体験をいわゆる「深く探求すること」をもたらす。
【0013】
「イン・ザ・バンド(in−the−band)」コンセプトとも呼ばれる別の他のコンセプトは、図5cに概略的に示される。あらゆるタイプのサウンド、すなわち直接サウンドソースおよびアンビエンスタイプのトーンの全ては、リスナーの周囲に位置付けられる。トーンの位置は、図5cに例示されるように、その特性(直接サウンドソースまたはアンビエンスタイプのトーン)から独立し、アルゴリズムの詳細設計だけに依存している。そのため、アップミックスアルゴリズムによって図5cにおいて2つの楽器1100および1102がリスナーに対して横に位置付けられると決定されたが、2つの楽器1104および1106はユーザーの前方に位置付けられる。この結果は、2つのバックスピーカLs、Rsが、同じ楽器の全てがユーザーの前方に位置付けられる図5bにおける場合のように、もはやアンビエンスタイプのトーンだけではなく2つの楽器1100および1102の部分も含む。
【0014】
専門家発表「C.アベンダノ(Avendano)およびJ.M.ヨット(Jot)の「マルチチャンネルオーディオアップミックスのためのステレオ信号からアンビエンスの抽出および合成(Ambience Extraction and Synthesis from Stereo Signals for Multichannel Audio Upmix)」、IEEEの音響音声信号処理に関する国際会議、ICASSP02、フロリダ州、オーランド、2002年5月」は、ステレオオーディオ信号においてアンビエンス情報を識別しさらに抽出するための周波数ドメイン技術を開示している。このコンセプトは、チャンネル間コヒーレンスと、主にアンビエンス成分からなるステレオ信号において時間周波数領域を決定することを可能にする非線形マッピング機能とを計算することに基づいている。そして、アンビエンス信号は、合成されさらにマルチチャンネル再生システムのバックチャンネルまたは「サラウンド」チャンネルLs、Rs(図5bおよび図5c)を格納するために用いられる。
【0015】
専門家発表「R.イルワン(Irwan)およびロナルド(Ronald) M. アーツ(Aarts)の「ステレオをマルチチャンネルサウンドに変換する方法(A method to convert stereo to multi−channel sound)」、AES第19回国際会議のプロシーディング、ドイツ、シュロス エルマウ、2001年6月21日〜24日、139−143頁」に、ステレオ信号をマルチチャンネル信号に変換するための方法が示されている。サラウンドチャンネルのための信号は、相互相関技術を用いて計算される。主成分分析(PCA)は、主要な信号の方向を示すベクトルを計算するために用いられる。そして、このベクトルは、3つのフロントチャンネルを生成するために、2チャンネル表現から3チャンネル表現にマップされる。
【0016】
全ての周知の技術は、異なる方法でアンビエンス信号を元のステレオ信号から抽出しようとしまたはそれをノイズ若しくはさらなる情報から合成しようとするが、そこにおいて、ステレオ信号にない情報が、アンビエンス信号を合成するために用いられうる。しかしながら、結局、これは、ステレオ信号から情報を抽出しおよび/または情報を再生シナリオに送ることが全てであり、それらの情報は、明確に存在しないが、その理由は、典型的には2チャンネルステレオ信号だけ、さらに、おそらく、付加情報および/またはメタ情報が利用できるからである。
【0017】
その後、制御パラメータなしで作動するさらなる周知のアップミキシング法が詳述される。この種のアップミキシング法は、ブラインドアップミキシング法とも呼ばれる。
【0018】
モノラルチャンネルからいわゆる擬似ステレオ音響信号を生成するためのこの種の大部分の技術(すなわち1から2へのアップミックス)は、信号適応性がない。これは、それらが、モノラル信号に含まれる内容に関係なく同様に、モノラル信号を常に処理することを意味する。この種のシステムは、生成される信号を非相関化するために、M.シュレーダー(Schroeder)の「単一信号の使用から得られる人工的なステレオ効果(An artifical stereophonic effect obtained from using a single signal)」、JAES、1957年に記載されているように、例示的に一対のいわゆるコンプリメンタリくし形フィルタにより1チャンネル入力信号を処理することによって、単純なフィルタ構成および/または時間遅延を用いてしばしば作動する。この種のシステムの別の概要は、C.ファーラー(Faller)の「疑似ステレオ音響再訪(Pseudo stereophony revisited)」、AES第118回コンベンションのプロシーディング、2005年に見られる。
【0019】
さらに、特に1からNへのアップミックスとの関連で、非負行列因子分解を用いるアンビエンス信号抽出の技術があり、Nは2より大きい。ここで、入力信号の時間周波数分布(TFD)は、例示的に短時間フーリエ変換によって計算される。直接信号成分のTFDの推定値は、非負行列因子分解と呼ばれる数値最適化法によって導出される。アンビエンス信号のTFDのための推定値は、入力信号のTFDおよび直接信号のためのTFDの推定値の差を計算することによって決定される。アンビエンス信号の時間信号の再合成または合成は、入力信号の位相スペクトログラムを用いて実行される。さらなる後処理は、生成されるマルチチャンネル信号の聴取体験を改良するために、任意に実行される。この方法は、C.ウーレ(Uhle)、A・ワルター(Walther)、O.ヘルムート(Hellmuth)およびJ.ヘレ(Herre)の「非負行列因子分解を用いるモノラル録音からのアンビエンス分離(Ambience separation from mono recordings using non−negative matrix factorization)」、AES第30回会議のプロシーディング、2007年に詳細に記載されている。
【0020】
ステレオ録音をアップミックスするための異なる技術がある。1つの技術は、マトリクスデコーダを用いることである。マトリクスデコーダは、ドルビープロロジックII(Dolby Pro Logic II)、ディーティーエスネオシックス(DTS Neo:6)またはハーマンカードン/レキシコンロジックセブン(HarmanKardon/Lexicon Logic 7)のキーワードで知られ、現在販売されているあらゆるオーディオ/ビデオレシーバのほとんどに含まれている。それらの意図された機能性の副産物として、これらの方法は、ブラインドアップミキシングを実行することもできる。これらのデコーダは、マルチチャンネル出力信号を生成するためにチャンネル間差および信号適応制御メカニズムを用いる。
【0021】
すでに述べたように、周波数ドメイン技術は、C.アベンダノ(Avendano)およびJ.M.ヨット(Jot)によって説明されるようにステレオオーディオ信号においてアンビエンス情報を識別しさらに抽出するために用いられる。この方法は、チャンネル間コヒーレンスインデックスおよび非線形マッピング機能を計算することに基づき、それによって、大部分がアンビエンス信号成分からなる時間周波数領域を決定することを可能にする。そして、アンビエンス信号は、マルチチャンネル再生システムのサラウンドチャンネルを送るために合成されさらに用いられる。
【0022】
直接/アンビエンスアップミキシング処理の1つの構成要素は、2つのバックチャンネルLs、Rsに送られるアンビエンス信号を抽出することである。信号には、それが直接/アンビエンスアップミキシング処理との関連でアンビエンス時間信号として用いられるために、特定の必要条件がある。1つの必要条件は、リスナーが直接サウンドソースの位置を前方にあるとして問題なく特定することができるようにするために、直接サウンドソースの関連した部分が聞き取られるべきでないということである。これは、オーディオ信号がスピーチまたは1人若しくは何人かの区別できる話す人を含むときに特に重要である。対照的に、大勢の人々によって生成されるスピーチ信号は、それらがリスナーの前方に位置を特定されないときに、必ずしもリスナーにとって邪魔になるというわけではない。
【0023】
特別な量のスピーチ成分がバックチャンネルによって再生される場合、これは、1人の話す人の位置にまたは前方から後方に置かれる少数人の話す人の位置に生じ、または、ユーザーまでの特定の距離に若しくはユーザーの後方に生じ、それは、非常に邪魔になるサウンド体験をもたらす。特に、オーディオおよびビデオ素材が例えば映画館におけるように同時に存在する場合、そのような体験は特に邪魔になる。
【0024】
(サウンドトラックの)映画のトーン信号のための1つの基本的な必要条件は、聴取体験がピクチャによって生成される体験と一致することである。そのため、位置を特定することについて聞き取れる気配は、位置を特定することについて目に見える気配に反するべきではない。
その結果、話す人がスクリーンに見られるときに、対応するスピーチは、ユーザーの前方に置かれるべきである。
【0025】
同様のことが他の全てのオーディオ信号に適用され、すなわち、これは、オーディオ信号およびビデオ信号が同時に示される状況に必ずしも制限されない。この種の他のオーディオ信号は、例えば、放送信号またはオーディオブックである。リスナーは、フロントチャンネルによって生成されるスピーチに慣れており、さらに、多分、突然のスピーチの全てがバックチャンネルから到来するときに、彼の従来の体験に戻すために振り返る。
【0026】
アンビエンス信号の品質を改良するために、ドイツ特許出願DE102006017280.9−55は、前に抽出されたアンビエンス信号を過渡検出にかけること、および、アンビエンス信号においてエネルギーのかなりの損失のない過渡抑制を生じることを提案する。ここで、信号置換が、過渡のない対応する信号によって過渡を含むがおよそ同じエネルギーを有する領域を置換するために実行される。
【0027】
J.モンソー(Monceaux)、F.パシェ(Pachet)らのAESコンベンション論文「デスクリプタに基づく空間化(Descriptor−based spatialization」、スペイン、バルセロナ、2005年5月28日〜31日には、検出されたスピーチがミュートされる中央チャンネルだけを切替えることによって抽出されたデスクリプタに基づいて減衰されるデスクリプタに基づく空間化が開示されている。ここで、スピーチ抽出器が用いられる。動きおよび過渡時間は、出力信号の修正を平滑化するために用いられる。そのため、スピーチのないマルチチャンネルサウンドトラックは、映画から抽出できる。特定のステレオ残響特性が元のステレオダウンミックス信号に存在するときに、これは、残響が聞こえるように、この残響を中央チャンネルを除くあらゆるチャンネルに分配するアップミキシングツールをもたらす。これを防止するために、ダイナミックレベル制御は、声の残響を減衰するためにL、R、LsおよびRsのために実行される。
【先行技術文献】
【非特許文献】
【0028】
【非特許文献1】C.アベンダノ(Avendano)およびJ.M.ヨット(Jot)、「マルチチャンネルオーディオアップミックスのためのステレオ信号からアンビエンスの抽出および合成(Ambience Extraction and Synthesis from Stereo Signals for Multichannel Audio Upmix)」、IEEEの音響音声信号処理に関する国際会議、ICASSP02、フロリダ州、オーランド、2002年5月
【非特許文献2】R.イルワン(Irwan)およびロナルド(Ronald) M. アーツ(Aarts)、「ステレオをマルチチャンネルサウンドに変換する方法(A method to convert stereo to multi−channel sound)」、AES第19回国際会議のプロシーディング、ドイツ、シュロス エルマウ、2001年6月21日〜24日、139−143頁
【非特許文献3】M.シュレーダー(Schroeder)、「単一信号の使用から得られる人工的なステレオ効果(An artifical stereophonic effect obtained from using a single signal)」、JAES、1957年
【非特許文献4】C.ファーラー(Faller)、「疑似ステレオ音響再訪(Pseudo stereophony revisited)」、AES第118回コンベンションのプロシーディング、2005年
【非特許文献5】C.ウーレ(Uhle)、A・ワルター(Walther)、O.ヘルムート(Hellmuth)およびJ.ヘレ(Herre)、「非負行列因子分解を用いるモノラル録音からのアンビエンス分離(Ambience separation from mono recordings using non−negative matrix factorization)」、AES第30回会議のプロシーディング、2007年
【非特許文献6】J.モンソー(Monceaux)、F.パシェ(Pachet)ら、AESコンベンション論文「デスクリプタに基づく空間化(Descriptor−based spatialization」、スペイン、バルセロナ、2005年5月28日〜31日
【発明の概要】
【発明が解決しようとする課題】
【0029】
本発明の目的は、多数の出力チャンネルを含むマルチチャンネル信号を生成するためのコンセプトを提供することであり、それは一方では柔軟性があり他方では高品質な製品を提供する。
【課題を解決するための手段】
【0030】
この目的は、請求項1に記載のマルチチャンネル信号を生成するための装置、請求項23に記載のマルチチャンネル信号を生成する方法または請求項24に記載のコンピュータプログラムによって達成される。
【0031】
本発明は、バックチャンネルにおいてすなわちアンビエンスチャンネルにおいてスピーチ成分が、バックチャンネルにスピーチ成分がないようにするために、抑制される知見に基づく。1つまたはいくつかのチャンネルを有する入力信号は、直接信号チャンネルを提供し、さらに、実施に応じて、アンビエンス信号チャンネルまたはすでに修正されたアンビエンス信号チャンネルを提供するためにアップミックスされる。スピーチ検出器は、入力信号、直接チャンネルまたはアンビエンスチャンネルにおいてスピーチ成分をサーチするために備えられ、この種のスピーチ成分は、時間および/または周波数部分においてまたは直交分解能の成分においても例示的に発生することができる。信号修正器は、スピーチ信号成分をそこで抑制するためにアップミキサまたは入力信号のコピーによって生成される直接信号を修正するために設けられるが、直接信号成分は、スピーチ信号成分を含む対応する部分においてより少ない程度に減衰されまたは少しも減衰されない。そして、そのような修正されたアンビエンスチャンネル信号は、対応するスピーカのためのスピーカ信号を生成するために用いられる。
【0032】
しかしながら、入力信号が修正されたときに、アップミキサによって生成されるアンビエンス信号が直接用いられるが、それは、スピーチ成分がすでにそこで抑制され、根本的なオーディオ信号も抑制されたスピーチ成分を有するからである。しかしながら、この場合、アップミキシング処理も直接チャンネルを生成するときに、直接チャンネルは、スピーチ成分が明確に要求される直接チャンネルにおいてではなく、アンビエンスチャンネルにおいてだけ、スピーチ成分を選択的に抑制することを達成するために、修正された入力信号に基づいて計算されないが、修正されていない入力信号に基づいて計算される。
【0033】
これは、スピーチ成分の再生がバックチャンネルまたはアンビエンス信号チャンネルにおいて起こることを防止し、さもなければ、リスナーに邪魔になりまたは混乱さえさせる。その結果、本発明は、対話およびリスナーによって理解できる他のスピーチを、すなわちスピーチに典型的なスペクトル特性を有するものを、リスナーの前方に置くことを確実にする。
【0034】
同じ必要条件はイン・バンドコンセプトに適用され、そこにおいて、直接信号成分(およびアンビエンス信号成分も)の全てがリスナーの前方に置かれる図5cに示されるように、直接信号は、バックチャンネルに置かれないが、リスナーの前方に置かれることが望ましく、さらに、おそらく、リスナーの横に置かれるが、リスナーの後方に置かれないことが望ましい。
【0035】
本発明によれば、信号依存の処理が、バックチャンネルにおいてまたはアンビエンス信号においてスピーチ成分を取り除くまたは抑制するために実行される。2つの基本ステップがここで実行され、すなわち発生しているスピーチを検出するステップおよびスピーチを抑制するステップが実行され、発生しているスピーチを検出するステップは、入力信号において、直接チャンネルにおいてまたはアンビエンスチャンネルにおいて実行することができ、さらに、スピーチを抑制するステップは、アンビエンスチャンネルにおいて直接的にまたはアンビエンスチャンネルを生成するために用いられる入力信号において間接的に実行することができ、この修正された入力信号は、直接チャンネルを生成するために用いられない。
【0036】
そのため、本発明は、マルチチャンネルサラウンド信号がより少ないチャンネルを有するオーディオ信号から生成されるときに、スピーチ成分を含む信号を達成し、ユーザーの観点から、バックチャンネルのためのもたらされた信号がユーザーの前方において元のトーンイメージ(フロントイメージ)を保持するために最小量のスピーチを含むことが確実にされる。特別な量のスピーチ成分がバックチャンネルによって再生されることがあるときに、話す人の位置は、リスナーおよびフロントスピーカ間のどこかにフロント領域の外側に位置付けられ、または、極端な場合にはリスナーの後方に位置付けられる。これは、特にオーディオ信号が例えば映画の場合のように視覚信号と同時に存在するときに、非常に邪魔になるサウンド体験をもたらす。そのため、多くのマルチチャンネル映画サウンドトラックは、バックチャンネルにおいていかなるスピーチ成分もほとんど含まない。本発明によれば、スピーチ信号成分が、検出されさらに適切な場合に抑制される。
【0037】
本発明の好適な実施形態は、添付図面を参照して後に詳述される。
【図面の簡単な説明】
【0038】
【図1】図1は、本発明の実施形態のブロック図を示す。
【図2】図2は、「対応するセクション(corresponding section)」を検討するための分析信号時間/周波数セクションとアンビエンスチャンネルまたは入力信号との関連性を示す。
【図3】図3は、本発明の好適な実施形態によるアンビエンス信号修正を示す。
【図4】図4は、本発明の別の実施形態によるスピーチ検出器およびアンビエンス信号修正器間の協力を示す。
【図5a】図5aは、直接ソース(ドラム楽器)および拡散成分を含むステレオ再生シナリオを示す。
【図5b】図5bは、全ての直接サウンドソースがフロントチャンネルによって再生され、さらに拡散成分が全てのチャンネルによって再生される、マルチチャンネル再生シナリオを示し、このシナリオも直接アンビエンスコンセプトと呼ばれる。
【図5c】図5cは、別々のサウンドソースがバックチャンネルによって少なくとも部分的に再生することができ、さらにアンビエンスチャンネルがバックスピーカによって再生されないまたは図5bにおいてより少ない程度で再生される、マルチチャンネル再生シナリオを示す。
【図6a】図6aは、アンビエンスチャンネルにおいてスピーチ検出およびアンビエンスチャンネルの修正を含む別の実施形態を示す。
【図6b】図6bは、入力信号においてスピーチ検出およびアンビエンスチャンネルの修正を含む実施形態を示す。
【図6c】図6cは、入力信号においてスピーチ検出および入力信号の修正を含む実施形態を示す。
【図6d】図6dは、入力信号においてスピーチ検出およびアンビエンス信号において修正を含む別の実施形態を示し、修正は特にスピーチに同調される。
【図7】図7はバンドパス信号/サブバンド信号に基づいて、バンドごとに増幅ファクタ計算を含む実施形態を示す。
【図8】図8は、図7の増幅計算ブロックの詳細な例を示す。
【発明を実施するための形態】
【0039】
図1は、マルチチャンネル信号10を生成するための装置のブロック図を示し、それは、左チャンネルL、右チャンネルR、中央チャンネルC、LFEチャンネル、左バックチャンネルLSおよび右バックチャンネルRSを含むとして図1に示される。しかしながら、本発明は、ここで選択される5.1表現より他の任意の表現、例えば、7.1表現、または、左チャンネル、右チャンネルおよび中央チャンネルだけが生成される3.0表現にも適切であると指摘される。図1に示される6チャンネルを例示的に含むマルチチャンネル信号10は、入力信号12または多くの入力チャンネルを含む「x」から生成され、多数の入力チャンネルは、1に等しいかまたは1より大きくさらに例示的にステレオダウンミックスが入力されるときに2に等しい。しかしながら、一般的に、多数の出力チャンネルは、多数の入力チャンネルより多い。
【0040】
図1に示される装置は、少なくとも直接信号チャンネル15およびアンビエンス信号チャンネル16、または、おそらく、修正されたアンビエンス信号チャンネル16´を生成するために入力信号12をアップミックスするためのアップミキサ14を含む。さらに、スピーチ検出器18が設けられ、それは、18aで提供されるように、分析信号として入力信号12を用いるために、または、18bで提供されるように、直接信号チャンネル15を用いるために、または、時間/周波数発生に関してまたはその特性に関して、入力信号12に類似するスピーチ成分に関する別の信号を用いるために実装される。スピーチ検出器は、スピーチ部分が存在する、入力信号、直接チャンネルまたは18cで例示されるようにアンビエンスチャンネルのセクションを検出する。このスピーチ部分は、重要なスピーチ部分すなわち例示的にスピーチ部分であってもよく、そのスピーチ特性は、特定の定性的または定量的尺度に基づいて導出され、定性的尺度および定量的尺度は、スピーチ検出閾値とも呼ばれる閾値を上回る。
【0041】
定量的尺度については、スピーチ特性は数値を用いて量子化され、さらに、この数値は閾値と比較される。定性的尺度については、決定はセクションごとに行われ、決定は1つまたはいくつかの決定基準に関連して行うことができる。この種の決定基準は、例示的に、イエス/ノー決定に到着するために、何とかして互いに比較され/重み付けられたまたは処理されうる異なる定量的特性であってもよい。
【0042】
図1に示される装置は、20aで示されるように、元の入力信号を修正するために実装されまたはアンビエンスチャンネル16を修正するために実装される信号修正器20を含む。アンビエンスチャンネル16が修正されるときに、信号修正器20は、修正されたアンビエンスチャンネル21を出力するが、入力信号20aが修正されるときに、修正された入力信号20bがアップミキサ14に出力され、そして、それは、例えば直接チャンネル15のために用いられるアップミキシング処理と同じように、修正されたアンビエンスチャンネル16´を生成する。このアップミキシング処理が、修正された入力信号20bのために、直接チャンネルをもたらせば、この直接チャンネルは、本発明によれば、修正された入力信号20bではなく修正されていない入力信号12(スピーチ抑制なし)から導出された直接チャンネルが直接チャンネルとして用いられるので、退けられる。
【0043】
信号修正器は、少なくとも1つのアンビエンスチャンネルまたは入力信号のセクションを修正するために実装され、これらのセクションは、例示的に、直交分解能の時間または周波数のセクションまたは部分であってもよい。特に、スピーチ検出器によって検出されたセクションに対応するセクションは、信号修正器が示されたように修正されたアンビエンスチャンネル21またはスピーチ部分が減衰され若しくは除去される修正された入力信号20bを生成するように、修正され、スピーチ部分は、直接チャンネルの対応するセクションにおいて、より少ない程度に減衰され、または、任意に、少しも減衰されない。
【0044】
さらに、図1に示される装置は、例えば図1に例示される5.1シナリオなどの再生シナリオにおいてスピーカ信号を出力するためのスピーカ信号出力手段22を含み、しかしながら、そこにおいて、7.1シナリオ、3.0シナリオまたは別のまたはさらにより高いシナリオも可能である。特に、少なくとも1つの直接チャンネルおよび少なくとも1つの修正されたアンビエンスチャンネルは、再生シナリオのためのスピーカ信号を生成するために用いられ、そこにおいて、修正されたアンビエンスチャンネルは、21で示されるように信号修正器20からまたは16´で示されるようにアップミキサ14から生じてもよい。
【0045】
例示的に2つの修正されたアンビエンスチャンネル21が提供されるときに、これらの2つのアンビエンスチャンネルは、2つのスピーカ信号Ls、Rsに直接的に送ることができるが、直接チャンネルは、完全な分割がアンビエンス信号成分および直接信号成分間で起こるように、3つのフロントスピーカL、R、Cにだけ送られる。そして、直接信号成分の全てがユーザーの前方にあり、アンビエンス信号成分の全てがユーザーの後方にある。あるいは、アンビエンス信号成分は、結果が図5bに示される直接/アンビエンスシナリオであるように、典型的により小さいパーセンテージでフロントチャンネルに導入することができ、そこにおいて、アンビエンス信号は、サラウンドチャンネルによってだけでなく、例えばL、C、Rなどのフロントスピーカによっても生成される。
【0046】
しかしながら、イン・バンドシナリオが好ましいときに、アンビエンス信号成分は、例えばL、R、Cなどのフロントスピーカによって主に出力されるが、直接信号成分は、少なくとも部分的に2つのバックスピーカLs、Rsに送られてもよい。図5cにおいて示される位置に2つの直接信号ソース1100および1102を置くことができるようにするために、スピーカLにおいてソース1100の部分は、典型的なパニングルールに従って、ソース1100をLおよびLs間の中央に置くために、スピーカLsにおける部分と同程度の大きさである。スピーカ信号出力手段22は、実施に応じて、入力側上に送られるチャンネルを直接通過させることができるか、または、例えばイン・バンドコンセプトまたは直接/アンビエンスコンセプトによって、チャンネルが個々のスピーカに分配されるように、アンビエンスチャンネルおよび直接チャンネルをマップすることができ、さらに、結局、個々のチャンネルからの部分が実際のスピーカ信号を生成するためにまとめることができる。
【0047】
図2は、上部において分析信号と下部においてアンビエンスチャンネルまたは入力信号との時間/周波数分布を示す。特に、時間は水平軸に沿ってプロットされ、周波数は垂直軸に沿ってプロットされる。これは、図2において、信号15ごとに、分析信号およびアンビエンスチャンネル/入力信号において同数を有する時間/周波数タイルまたは時間/周波数セクションがあることを意味する。これは、例えばスピーチ検出器18が部分22においてスピーチ信号を検出するときに、信号修正器20が何とかしてアンビエンスチャンネル/入力信号のセクションを処理することを意味し、例えばそれを減衰し、完全に除去しまたはスピーチ特性を含んでいない合成信号で置換する。本発明において、分布は、図2に示されるように選択的である必要がないと指摘される。代わりに、時間的な検出は、満足な効果をすでに提供することができ、そこにおいて、分析信号の特定の時間セクションは、例示的に2秒から2.1秒まで、スピーチ抑制を得るために、2秒および2.1秒間においてアンビエンスチャンネルまたは入力信号のセクションをその次に処理するために、スピーチ信号を含むとして検出される。
【0048】
あるいは、直交分解能は、例えば主成分分析などによって実行することもでき、そこにおいて、この場合、同じ成分分布が、アンビエンスチャンネルまたは入力信号と分析信号との両方において用いられる。スピーチ成分として分析信号において検出された特定の成分は、アンビエンスチャンネルまたは入力信号において減衰され、完全に抑制されまたは除去される。実施に応じて、セクションは、分析信号において検出され、このセクションは、分析信号において必ずしも処理されないが、おそらく、別の信号においてに必然的に処理される。
【0049】
図3は、アンビエンスチャンネル修正器と協働するスピーチ検出器の実施を示し、スピーチ検出器は、時間情報を提供するだけであり、すなわち、図2から見るとき、ブロードバンドで、第1、第2、第3、第4または第5の時間間隔を識別し、さらに、この情報を制御ライン18d(図1)を介してアンビエンスチャンネル修正器20に通信するだけである。同期して作動しまたはバッファリングされて作動するスピーチ検出器18およびアンビエンスチャンネル修正器20は、例示的に信号12または信号16であってもよい修正される信号において減衰されるスピーチ信号またはスピーチ成分を達成するが、対応するセクションのこの種の減衰は、直接チャンネルにおいて発生しないまたはより少ない程度にだけ発生することが確実にされる。実施に応じて、これは、例えばマトリクス法または特別なスピーチ処理を実行しない別の方法などのように、スピーチ成分を考慮せずに作動するアップミキサ14によって達成することもできる。そして、これによって達成される直接信号は、さらなる処理のない出力手段22に送られるが、アンビエンス信号は、スピーチ抑制に関して処理される。
【0050】
あるいは、信号修正器が入力信号をスピーチ抑制にかけるときに、アップミキサ14は、一方では元の入力信号に基づいて直接チャンネル成分を抽出するためにある意味では2回作動することができるが、修正された入力信号20bに基づいて修正されたアンビエンスチャンネル16´を抽出するためにも同様である。しかしながら、同じアップミキシングアルゴリズムは、それぞれの他の入力信号を用いて、2回発生し、そこにおいて、スピーチ成分は、1つの入力信号において減衰され、さらに、スピーチ成分は、他の入力信号において減衰されない。
【0051】
実施に応じて、アンビエンスチャンネル修正器は、後述するように、ブロードバンド減衰の機能性またはハイパスフィルタリングの機能性を示す。
【0052】
その後、本発明の装置の異なる実施が、図6a、図6b、図6cおよび図6dを参照して説明される。
【0053】
図6aにおいて、アンビエンス信号aは、入力信号xから抽出され、この抽出は、アップミキサ14の機能性の部分である。アンビエンスaにおいて発生しているスピーチが検出される。検出dの結果は、修正されたアンビエンス信号21を計算するアンビエンスチャンネル修正器20で用いられ、そこにおいて、スピーチ部分が抑制される。
【0054】
図6bは、図6aとはアンビエンス信号でない入力信号が分析信号18aとしてスピーチ検出器18に送られるという点で異なる構成を示す。特に、修正されたアンビエンスチャンネル信号asは、図6aの構成と同様に計算されるが、入力信号においてスピーチが検出される。これは、スピーチ成分がアンビエンス信号aにおいてよりも入力信号xにおいて一般的に容易に見つけられるという事実によって説明されうる。そのため、改良された信頼性は、図6bに示される構成によって達成できる。
【0055】
図6cにおいて、スピーチが修正されたアンビエンス信号asは、すでにスピーチ信号抑制にかけた入力信号のバージョンxsから抽出される。xにおいてスピーチ成分が抽出されたアンビエンス信号においてよりも典型的に顕著であるので、それを抑制することは、図6aにおいてよりも安全でかつ長続きする方法で行うことができる。図6aにおける構成と比較して図6cに示される構成の不利な点は、スピーチ抑制およびアンビエンス抽出処理の潜在的なアーティファクトが、抽出方法のタイプに応じて、悪化することである。しかしながら、図6cにおいて、アンビエンスチャンネル抽出器14の機能性は、修正されたオーディオ信号からアンビエンスチャンネルを抽出するためだけに用いられる。しかしながら、直接チャンネルは、修正されたオーディオ信号xs(20b)からではないが、元の入力信号x(12)に基づいて抽出される。
【0056】
図6dに示される構成において、アンビエンス信号aは、アップミキサによって入力信号xから抽出される。入力信号xにおいて発生しているスピーチが検出される。さらに、アンビエンスチャンネル修正器20の機能性をさらに制御するさらなる補助情報eは、スピーチ分析器30によって計算される。これらの補助情報は、入力信号から直接的に計算され、さらに、例示的に図2のスペクトログラムの形で、時間/周波数表現においてスピーチ成分の位置であってもよく、または、以下にさらに詳細に説明されるさらなる付加情報であってもよい。
【0057】
スピーチ検出器18の機能性は、以下に詳述される。スピーチ検出の目的は、存在しているスピーチの確率を推定するために、オーディオ信号の混合物を分析している。入力信号は、例示的に、音楽信号の、ノイズの、または映画で知られているように特別なトーン効果の、複数の異なるタイプのオーディオ信号の集合された信号であってもよい。スピーチを検出する1つの方法は、パターン認識システムを用いることである。パターン認識は、生データを分析し、さらに、生データにおいて発見されたパターンのカテゴリに基づいて特別な処理を実行することを意味する。特に、用語「パターン」は、等しいカテゴリ(クラス)のオブジェクトの測定間に見られる根本的な類似性を表す。パターン認識システムの基本操作は、検出、すなわち、変換器を用いるデータの記録、前処理、特徴の抽出および分類であり、そこにおいて、これらの基本操作は、示される順に実行されうる。
【0058】
通常、マイクロホンは、スピーチ検出システムのためのセンサとして用いられる。準備は、アナログ/デジタル変換、再サンプリングまたはノイズリダクションであってもよい。特徴を抽出することは、測定からオブジェクトごとに特徴を計算することを意味する。これらの特徴は、それらが同じクラスのオブジェクト中で類似するように、すなわち良好なクラス内のコンパクト性が達成されるように、さらに、これらが異なるクラスのオブジェクトのために異なるように、選択され、その結果、クラス間の分離可能性が達成できる。第3の必要条件は、特徴が人間の知覚とは無関係なノイズ、アンビエンス状況および入力信号の変換に関連してロバストでなければならないということである。特性を抽出することは、2つの別々のステージに分割することができる。特性ベクトル間の相関を最小化しさらに低エネルギーのエレメントを用いないことによって特徴の次元数を減らすために、第1のステージは、特徴を計算することであり、第2のステージは、特徴を一般的な直交基底上に投影しまたは変換することである。
【0059】
【0060】
【0061】
【0062】
分類器を適用する段階において、特徴は、トレーニング段階と同様に、未知データから計算されさらに投影され、さらに、トレーニング中に学習されるように、クラスの特徴上の知識に基づいて分類器によって分類される。
【0063】
スピーチ抑制の特別な実施は、信号修正器20によって例示的に実行されうるように、以下に詳述される。そのため、異なる方法が、オーディオ信号においてスピーチを抑制するために用いられうる。通信アプリケーションのためのスピーチ増幅およびノイズリダクションの分野で知られていない方法がある。もともと、スピーチ増幅法は、スピーチおよびバックグラウンドノイズの混合物においてスピーチを増幅するために用いられていた。この種の方法は、本発明のために実行されるように、反対のことを生じるようにすなわちスピーチを抑制するように修正できる。
【0064】
そのような時間/周波数係数に含まれるノイズの度合いの推定値に従って時間/周波数表現の係数を減衰しまたは増幅するスピーチ増幅およびノイズリダクションのための解決アプローチがある。例えば先験的情報または特別なノイズセンサで測定される情報のように、バックグラウンドノイズに関する付加情報が知られていないときに、時間/周波数表現は、例示的に特別な最小統計的方法を用いて、ノイズの多い測定から得られる。ノイズ抑制ルールは、推定されたノイズ値を用いて減衰ファクタを計算する。この原理は、例示的にG.シュミット(G.Schmid)の「スペクトル重み付けに基づく単一チャンネルノイズ抑制(Single−channel noise suppression based on spectral weighting)」、Eurasip Newsletter 2004で知られるように、短期スペクトル減衰またはスペクトル重み付けとして知られている。スペクトルサブトラクション、ウィーナーフィルタリングおよびエフライム−マラーアルゴリズムは、短時間スペクトル減衰(STSA)原理に従って作動する信号処理法である。STSAアプローチのより多くの一般的定式化は、信号部分空間法をもたらし、それは、次元圧縮法としても知られ、さらに、P.ハンセン(Hansen)およびS.ジェンセン(Jensen)の「次元圧縮ノイズリダクションのFIRフィルタ表現(Fir filter representation of reduced−rank noise reduction)」、IEEE TSP、1998に記載もされている。
【0065】
原理上は、スピーチを増幅しまたは非スピーチ成分を抑制する全ての方法は、それの周知の使用に関する使用の逆に、スピーチを抑制しおよび/または非スピーチを増幅するために用いられうる。スピーチ増幅またはノイズ抑制の一般的モデルは、入力信号が所望の信号(スピーチ)およびバックグラウンドノイズ(非スピーチ)の混合物であるという事実である。スピーチを抑制することは、例えば、STSAに基づく方法において減衰ファクタを反転することによってまたは所望の信号およびバックグラウンドノイズの定義を交換することによって達成される。
【0066】
しかしながら、スピーチ抑制において重要な必要条件は、アップミキシングの文脈に関して、もたらされているオーディオ信号が高いオーディオ品質のオーディオ信号として知覚されるということである。スピーチ改良法およびノイズリダクション法が聞き取れるアーティファクトを出力信号に導入するということが知られている。この種のアーティファクトの例は、音楽ノイズまたは音楽トーンとして知られ、さらに、ノイズフロアエラーを起こしやすい推定値および可変サブバンド減衰ファクタから生じる。
【0067】
あるいは、ブラインドソース分離法が、スピーチ信号部分をアンビエンス信号から分離するためおよびその後それらを別々に操作するために用いられうる。
【0068】
しかしながら、その後に詳述される特定の方法は、他の方法と比較して、それらがかなりよりよくするという事実のために、高品質なオーディオ信号を生成する特別な必要条件のために好ましい。1つの方法は、図3に20で示されるように、ブロードバンド減衰である。オーディオ信号は、スピーチがある時間間隔において減衰される。特別な増幅ファクタは−12dBおよび−3dB間の範囲にあり、好ましい減衰は6デシベルである。他の信号成分/部分も抑制されるかもしれないので、オーディオ信号エネルギーにおいて全損失が明らかに知覚されると思われるかもしれない。しかしながら、この効果が邪魔にならないことが発見され、それは、スピーチシーケンスが開始するときにとにかくユーザーが特にフロントスピーカL、C、Rに集中するので、彼または彼女がスピーチ信号に集中しているときにユーザーがバックチャンネルまたはアンビエンス信号のエネルギーにおいて減少を体験しないからである。これは、特にオーディオ信号レベルがとにかくスピーチの始まりのために増加するというさらなる典型的な効果によって強化される。−12デシベルおよび3デシベル間の範囲において減衰を導入することによって、減衰は、邪魔になるとして体験されない。代わりに、ユーザーは、バックチャンネルにおいてスピーチ成分の抑制のために、ユーザーにとってフロントチャンネルにおいてだけ置かれるスピーチ成分をもたらす効果が達成されることを、かなりより楽しいと思う。
【0069】
図3に20で示される他の方法は、ハイパスフィルタリングである。オーディオ信号は、スピーチがあるハイパスフィルタリングにかけられ、そこにおいて、カットオフ周波数は、600Hzおよび3000Hz間の範囲にある。カットオフ周波数のための設定は、本発明に関してスピーチに特有の信号から生じる。スピーチ信号の長期パワースペクトルは、2.5kHzより低い範囲に集中される。有声音声の基本周波数の好ましい範囲は、75Hzおよび330Hz間の範囲にある。60Hzおよび250Hz間の範囲は、成人男性のために生じる。男性の話す人のための平均値は120Hzであり、女性の話す人のための平均値は215Hzである。ボーカルトラックにおいて共鳴のために、特定の信号周波数は増幅される。スペクトルにおいて対応するピークは、フォルマント周波数と呼ばれ、または、単にフォルマントと呼ばれる。典型的に、3500Hzより下に、およそ3つの重要なフォルマントがある。その結果、スピーチは1/F性質を示し、すなわちスペクトルエネルギーは周波数の増加とともに減少する。そのため、本発明の目的を達成するために、スピーチ成分は、示されるカットオフ周波数範囲を含むハイパスフィルタリングによって、よくフィルタリングできる。
【0070】
別の好適な実施は正弦波信号モデリングであり、それは図4を参照して説明される。第1のステップ40において、スピーチの基本波が検出され、この検出は、図6dに示されるように、スピーチ検出器18において、または、スピーチ分析器30において実行されうる。その後に、ステップ41において、分析が、基本波に属する高調波を発見するために実行される。この機能性は、すでに、スピーチ検出器/スピーチ分析器において、または、アンビエンス信号修正器においてさえ実行されうる。その後、スペクトログラムは、42で示されるように、ブロックの後の変換用のブロックに基づいて、アンビエンス信号のために計算される。その後、実際のスピーチ抑制は、ステップ43において、スペクトログラムにおいて基本波および高調波を減衰することによって実行される。ステップ44において、基本波および高調波が減衰されまたは除去される修正されたアンビエンス信号は、修正されたアンビエンス信号または修正された入力信号を得るために、再変換にかけられる。
【0071】
この正弦波信号モデリングは、トーン合成、オーディオ符合化、ソース分離、トーン操作およびノイズ抑制のためにしばしば用いられる。ここで、信号は、時間可変の振幅および周波数の正弦波から作られる集合として示される。有声音声信号成分は、部分音、すなわち基本波およびその高調波を識別しまたは修正することによって操作される。
【0072】
部分音は、41で示されるように、部分音探知機によって識別される。典型的に、部分音の発見は、時間/周波数ドメインにおいて実行される。スペクトログラムは、42に示されるように、短時間フーリエ変換によって行われる。極大は、スペクトログラムのそれぞれのスペクトルにおいて検出され、さらに、軌跡は、隣接するスペクトルの極大によって決定される。基本周波数を推定することは、ピークのピッキング処理を支持することができ、基本周波数のこの推定は40で実行される。そして、正弦波信号表現は、軌跡から得られうる。ステップ40、41およびステップ42間の順序は、図6dにスピーチ分析器30において実行される変換42が最初に起こるように、変えることができることが指摘される。
【0073】
正弦波信号表現を導出する異なる開発が提案される。ノイズリダクションのためのマルチ分解能処理アプローチは、D.アンデルセン(Andersen)およびM.クレメンツ(Clements)の「マルチ分解能正弦波モデリングを用いたオーディオ信号ノイズリダクション(Audio signal noise reduction using multi−resolution sinusoidal modeling)」、ICASSPのプロシーディング 1999に示されている。正弦波表現を導出するための反復処理は、J.ジェンセン(Jensen)およびJ.ハンセン(Hansen)の「制約付き反復正弦波モデル用いたスピーチエンハンスメント(Speech enhancement using a constrained iterative sinusoidal model)」、IEEE TSAP 2001に示されている。
【0074】
正弦波信号表現を用いて、改良されたスピーチ信号は、正弦波成分を増幅することによって得られる。しかしながら、本発明のスピーチ抑制は、反対のことを達成することを目的とし、すなわち、部分音を抑制し、部分音は、有声音声を含むスピーチセグメントに対して、基本波およびその高調波を含む。典型的に、高エネルギーのスピーチ成分は、音の性質のものである。そのため、スピーチは、ボーカルに対して60−75デシベルのレベルであり、子音に対してより低いおよそ20−30デシベルにある。周期的パルスタイプ信号を励起することは、有声音声(ボーカル)のためにある。励起信号は、ボーカルトラックによってフィルタリングされる。その結果、有声音声セグメントのほとんど全てのエネルギーは、基本波およびその高調波に集中する。これらの部分音を抑制するときに、スピーチ成分は著しく抑制される。
【0075】
スピーチ抑制を達成する別の方法が図7および図8に示される。図7および図8は、短期スペクトル減衰またはスペクトル重み付けの基本原理を説明する。最初は、バックグラウンドノイズの電力密度スペクトルが推定される。示された方法は、特定の周波数セクションにおいて信号の「スピーチらしさ」の尺度であるいわゆる低いレベル特徴を用いて時間/周波数タイルに含まれるスピーチ量を推定する。低いレベル特徴は、それらの重要性を解釈して煩雑性を計算することに関して低いレベルの特徴である。
【0076】
オーディオ信号は、図7に70で示すように、フィルタバンクまたは短期フーリエ変換を用いて多くの周波数バンドにおいて細分化される。そして、71aおよび71bで例示されるように、時間可変増幅ファクタは、それらが含むスピーチ量に比例してサブバンドを減衰するために、この種の低いレベル特徴から全てのサブバンドのために計算される。適切な低いレベル特徴は、スペクトル平坦度(SFM)および4Hzの変調エネルギー(4HzME)である。SFMは、オーディオ信号の調性の度合いを測定し、さらに、バンドのために1つのバンドにおいて全てのスペクトル値の幾何平均値およびこのバンドにおいてスペクトル成分の算術平均値の商から生じる。4HzMEは、スピーチがおよそ4Hzで特性エネルギー変調ピークを有するという事実が動機となり、それは話す人の音節の平均速度に対応する。
【0077】
図8は、図7の増幅計算ブロック71aおよび71bの詳細な例を示す。複数の異なる低いレベル特徴、すなわちLLF1、・・・、LLFnは、サブバンドxiに基づいて計算される。そして、これらの特徴は、サブバンドのための増幅ファクタgiを得るために結合器80において結合される。
【0078】
実施に応じて、必ずしも低いレベル特徴が用いられることを要しないが、例えばエネルギー特徴などの任意の特徴も、(いずれかの時点で)それぞれのバンドがスピーチ抑制を達成するために可変的に減衰されるように、定量的増幅ファクタgiを得るために図8の実施に従って結合器において結合されると指摘される。
【0079】
状況に応じて、本発明の方法は、ハードウェアまたはソフトウェアにおいて実施されてもよい。実施は、その方法を実行するために、プログラミング可能なコンピュータシステムと協働することができる電子的に読み出すことができる制御信号を有するデジタル記憶媒体、特にディスクまたはCDにおいてされてもよい。そのため、本発明は、一般的に、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法を実行するために、機械で読み取り可能なキャリアに格納された、プログラムコードを含むコンピュータプログラム製品にある。したがって、言い換えると、本発明は、コンピュータプログラムがコンピュータ上で実行されるときに、その方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現することができる。
【特許請求の範囲】
【請求項1】
入力信号(12)の多数の入力チャンネルより多い多数の出力チャンネルを含むマルチチャンネル信号(10)を生成するための装置であって、前記多数の入力チャンネルは1以上であり、前記装置は、
少なくとも直接信号チャンネルと少なくともアンビエンスチャンネルまたは修正されたアンビエンスチャンネルとを提供するために前記入力信号をアップミックスするためのアップミキサ(14)、
スピーチ部分が発生する、前記入力信号、前記直接信号チャンネルまたは前記アンビエンス信号チャンネルのセクションを検出するためのスピーチ検出器(18)、
前記スピーチ部分が減衰されまたは除去されている修正されたアンビエンス信号チャンネルまたは修正された入力信号を得るために、前記スピーチ検出器(18)によって検出されたセクションに対応する前記アンビエンスチャンネルまたは前記入力信号のセクションを修正するための信号修正器(20)であって、前記直接チャンネル信号において前記セクションは、より少ない程度に減衰されまたは少しも減衰されない、信号修正器、および
前記直接チャンネルおよび前記修正されたアンビエンスチャンネルを用いる再生スキームでスピーカ信号を出力するためのスピーカ信号出力手段(22)を含む、装置。
【請求項2】
前記スピーカ信号出力手段(22)は、それぞれの直接チャンネルがそれ自体のスピーカにマップされうりさらにあらゆるアンビエンスチャンネルがそれ自体のスピーカにマップされうる直接/アンビエンススキームに従って作動するために実装され、前記スピーカ信号出力手段(22)は、前記直接チャンネルではなくて、前記アンビエンスチャンネルだけを、前記再生スキームでリスナーの後方のスピーカのためのスピーカ信号にマップするために実装される、請求項1に記載の装置。
【請求項3】
前記スピーカ信号出力手段(22)は、それぞれの直接信号チャンネルがその位置に応じて1つまたはいくつかのスピーカにマップされるイン・バンドスキームに従って作動するために実装され、さらに、前記スピーカ信号出力手段(22)は、スピーカのためのスピーカ出力信号を得るために、前記アンビエンスチャンネルおよび前記直接チャンネルまたはスピーカのために決定される前記アンビエンスチャンネルまたは前記直接チャンネルの部分を加えるために実装される、請求項1に記載の装置。
【請求項4】
前記スピーカ信号出力手段は、前記再生スキームでリスナーの前方に置かれうる少なくとも3チャンネルのためのスピーカ信号を提供しさらに前記再生スキームで前記リスナーの後方に置かれうる少なくとも2チャンネルを生成するために実装される、先行する請求項のいずれかに記載の装置。
【請求項5】
前記スピーチ検出器(18)は、時間的にブロックごとに作動し、さらに、時間的ブロックのための周波数バンドを検出するために周波数選択的にバンドごとそれぞれの時間的ブロックを分析するために実装され、さらに
前記信号修正器(20)は、前記スピーチ検出器(18)によって検出されたバンドに対応する、前記アンビエンス信号チャンネルまたは前記入力信号のそのような時間的ブロックにおいて周波数バンドを修正するために実装される、先行する請求項のいずれかに記載の装置。
【請求項6】
前記信号修正器は、前記アンビエンスチャンネル信号または前記入力信号または前記スピーチ検出器(18)によって検出された時間間隔において前記アンビエンスチャンネル信号または前記入力信号の部分を減衰するために実装され、さらに
前記アップミキサ(14)および前記スピーカ信号出力手段(22)は、同じ時間間隔がより少ない程度に減衰されまたは少しも減衰されないように、前記少なくとも1つの直接チャンネルを生成するために実装され、その結果、前記直接チャンネルは、再生されるときに、前記修正されたアンビエンスチャンネル信号においてまたは前記修正された入力信号においてスピーチ成分より強く知覚することができるスピーチ成分を含む、先行する請求項のいずれかに記載の装置。
【請求項7】
前記信号修正器(20)は、前記スピーチ検出器(18)がスピーチ部分がある時間間隔を検出したときに前記少なくとも1つのアンビエンスチャンネルまたは前記入力信号をハイパスフィルタリングにかけるために実装され、前記ハイパスフィルタのカットオフ周波数は、400Hzおよび3500Hz間にある、先行する請求項のいずれかに記載の装置。
【請求項8】
前記スピーチ検出器(18)は、スピーチ信号成分の時間的発生を検出するために実装され、さらに
前記信号修正器(20)は、前記スピーチ信号成分の基本周波数を発見し、さらに、
前記修正されたアンビエンスチャンネル信号または前記修正された入力信号を得るために、前記アンビエンスチャンネルまたは前記入力信号においてトーンを前記基本周波数および高調波で選択的に減衰(43)するために実装される、先行する請求項のいずれかに記載の装置。
【請求項9】
前記スピーチ検出器(18)は、周波数バンドごとのスピーチ内容の尺度を発見するために実装され、さらに
前記前記信号修正器(20)は、前記尺度に従って前記アンビエンスチャンネルの対応するバンドを減衰ファクタによって減衰(72a、72b)するために実装され、より高い尺度はより高い減衰ファクタをもたらし、より低い尺度はより低い減衰ファクタをもたらす、先行する請求項のいずれかに記載の装置。
【請求項10】
前記信号修正器(20)は、
前記アンビエンス信号または前記入力信号をスペクトル表現に変換するための時間周波数ドメイン変換器(70)、
前記スペクトル表現を周波数選択的に可変的に減衰するための減衰器(72a、72b)、および
前記修正されたアンビエンスチャンネル信号または前記修正された入力信号を得るために、時間ドメインにおいて前記可変的に減衰されたスペクトル表現を変換するための周波数時間ドメイン変換器(73)を含む、請求項9に記載の装置。
【請求項11】
前記スピーチ検出器(18)は、
分析信号のスペクトル表現を提供するための時間周波数ドメイン変換器(42)、
前記分析信号のバンドごとの1つまたはいくつかの特徴(71a、71b)を計算するための手段、および
前記バンドごとの1つまたはいくつかの特徴の結合に基づいてスピーチ内容の尺度を計算するための手段(80)を含む、請求項9または請求項10に記載の装置。
【請求項12】
前記信号修正器(20)は、スペクトル平坦度(SFM)または4Hzの変調エネルギー(4HzME)を特徴として計算するために実装される、請求項11に記載の装置。
【請求項13】
前記スピーチ検出器(18)は、前記アンビエンスチャンネル信号(18c)を分析するために実装され、さらに、前記信号修正器(20)は、前記アンビエンスチャンネル信号(16)を修正するために実装される、先行する請求項のいずれかに記載の装置。
【請求項14】
前記スピーチ検出器(18)は、前記入力信号(18a)を分析するために実装され、さらに、前記信号修正器(20)は、前記スピーチ検出器(18)から制御情報(18d)に基づいて前記アンビエンスチャンネル信号(16)を修正するために実装される、請求項1ないし請求項12のいずれかに記載の装置。
【請求項15】
前記スピーチ検出器(18)は、前記入力信号(18a)を分析するために実装され、さらに、前記信号修正器(20)は、前記スピーチ検出器(18)から制御情報(18d)に基づいて前記入力信号を修正するために実装され、さらに、前記アップミキサ(14)は、前記修正された入力信号に基づいて前記修正されたアンビエンスチャンネル信号(16´)を発見するために実装されるアンビエンスチャンネル抽出器を含み、前記アップミキサ(14)は、前記信号修正器(20)の入力で前記入力信号(12)に基づいて前記直接チャンネル信号(15)を発見するためにさらに実装される、請求項1ないし請求項12のいずれかに記載の装置。
【請求項17】
前記スピーチ検出器(18)は、前記入力信号(18a)を分析するために実装され、さらに、スピーチ分析器(30)が、前記入力信号をスピーチ分析にかけるために備えられ、さらに
前記信号修正器(20)は、前記スピーチ検出器(18)から制御情報(18d)に基づいてさらに前記スピーチ分析器(30)からスピーチ分析情報(18e)に基づいて前記アンビエンスチャンネル信号(16)を修正するために実装される、請求項1ないし請求項12のいずれかに記載の装置。
【請求項18】
前記アップミキサ(14)は、マトリクスデコーダとして実装される、先行する請求項のいずれかに記載の装置。
【請求項19】
前記アップミキサ(14)は、アップミックス情報をさらに送信することはないが、前記入力信号(12)だけに基づいて、前記直接チャンネル信号(15)、前記アンビエンスチャンネル信号(16)または前記修正されたアンビエンスチャンネル信号(16´)を生成するブラインドアップミキサとして実装される、先行する請求項のいずれかに記載の装置。
【請求項20】
前記アップミキサ(14)は、前記直接チャンネル信号(15)、前記アンビエンスチャンネル信号(16)または前記修正されたアンビエンスチャンネル信号(16´)を生成するために、前記入力信号(12)の統計的分析を実行するために実装される、先行する請求項のいずれかに記載の装置。
【請求項21】
前記入力信号は、1チャンネルを含むモノラル信号であり、さらに、前記出力信号は、2以上のチャンネル信号を含むマルチチャンネル信号である、先行する請求項のいずれかに記載の装置。
【請求項22】
前記アップミキサ(14)は、入力信号として2つのステレオチャンネル信号を含むステレオ信号を得るために実装され、さらに、前記アップミキサ(14)は、前記ステレオチャンネル信号の相互相関計算に基づいて前記アンビエンスチャンネル信号(16)または前記修正されたアンビエンスチャンネル信号(16´)を実現するためにさらに実装される、請求項1ないし請求項20のいずれかに記載の装置。
【請求項23】
入力信号(12)の多数の入力チャンネルより多い多数の出力チャンネルを含むマルチチャンネル信号(10)を生成する方法であって、前記多数の入力チャンネルは1以上であり、前記方法は、
少なくとも直接信号チャンネルと少なくともアンビエンスチャンネルまたは修正されたアンビエンスチャンネルとを提供するために前記入力信号をアップミックスするステップ(14)、
スピーチ部分が発生する、前記入力信号、前記直接信号チャンネルまたは前記アンビエンス信号チャンネルのセクションを検出するステップ(18)、
前記スピーチ部分が減衰されまたは除去されている修正されたアンビエンス信号チャンネルまたは修正された入力信号を得るために、前記検出するステップ(18)において検出されたセクションに対応する前記アンビエンスチャンネルまたは前記入力信号のセクションを修正するステップ(20)であって、前記直接チャンネル信号において前記セクションは、より小さい程度に減衰されまたは少しも減衰されない、修正するステップ、および
前記直接チャンネルおよび前記修正されたアンビエンスチャンネルを用いる再生スキームでスピーカ信号を出力するステップ(22)を含む、方法。
【請求項24】
コンピュータ上で実行されるときに、請求項23に記載の方法を実行するためのプログラムを含むコンピュータプログラム。
【請求項1】
入力信号(12)の多数の入力チャンネルより多い多数の出力チャンネルを含むマルチチャンネル信号(10)を生成するための装置であって、前記多数の入力チャンネルは1以上であり、前記装置は、
少なくとも直接信号チャンネルと少なくともアンビエンスチャンネルまたは修正されたアンビエンスチャンネルとを提供するために前記入力信号をアップミックスするためのアップミキサ(14)、
スピーチ部分が発生する、前記入力信号、前記直接信号チャンネルまたは前記アンビエンス信号チャンネルのセクションを検出するためのスピーチ検出器(18)、
前記スピーチ部分が減衰されまたは除去されている修正されたアンビエンス信号チャンネルまたは修正された入力信号を得るために、前記スピーチ検出器(18)によって検出されたセクションに対応する前記アンビエンスチャンネルまたは前記入力信号のセクションを修正するための信号修正器(20)であって、前記直接チャンネル信号において前記セクションは、より少ない程度に減衰されまたは少しも減衰されない、信号修正器、および
前記直接チャンネルおよび前記修正されたアンビエンスチャンネルを用いる再生スキームでスピーカ信号を出力するためのスピーカ信号出力手段(22)を含む、装置。
【請求項2】
前記スピーカ信号出力手段(22)は、それぞれの直接チャンネルがそれ自体のスピーカにマップされうりさらにあらゆるアンビエンスチャンネルがそれ自体のスピーカにマップされうる直接/アンビエンススキームに従って作動するために実装され、前記スピーカ信号出力手段(22)は、前記直接チャンネルではなくて、前記アンビエンスチャンネルだけを、前記再生スキームでリスナーの後方のスピーカのためのスピーカ信号にマップするために実装される、請求項1に記載の装置。
【請求項3】
前記スピーカ信号出力手段(22)は、それぞれの直接信号チャンネルがその位置に応じて1つまたはいくつかのスピーカにマップされるイン・バンドスキームに従って作動するために実装され、さらに、前記スピーカ信号出力手段(22)は、スピーカのためのスピーカ出力信号を得るために、前記アンビエンスチャンネルおよび前記直接チャンネルまたはスピーカのために決定される前記アンビエンスチャンネルまたは前記直接チャンネルの部分を加えるために実装される、請求項1に記載の装置。
【請求項4】
前記スピーカ信号出力手段は、前記再生スキームでリスナーの前方に置かれうる少なくとも3チャンネルのためのスピーカ信号を提供しさらに前記再生スキームで前記リスナーの後方に置かれうる少なくとも2チャンネルを生成するために実装される、先行する請求項のいずれかに記載の装置。
【請求項5】
前記スピーチ検出器(18)は、時間的にブロックごとに作動し、さらに、時間的ブロックのための周波数バンドを検出するために周波数選択的にバンドごとそれぞれの時間的ブロックを分析するために実装され、さらに
前記信号修正器(20)は、前記スピーチ検出器(18)によって検出されたバンドに対応する、前記アンビエンス信号チャンネルまたは前記入力信号のそのような時間的ブロックにおいて周波数バンドを修正するために実装される、先行する請求項のいずれかに記載の装置。
【請求項6】
前記信号修正器は、前記アンビエンスチャンネル信号または前記入力信号または前記スピーチ検出器(18)によって検出された時間間隔において前記アンビエンスチャンネル信号または前記入力信号の部分を減衰するために実装され、さらに
前記アップミキサ(14)および前記スピーカ信号出力手段(22)は、同じ時間間隔がより少ない程度に減衰されまたは少しも減衰されないように、前記少なくとも1つの直接チャンネルを生成するために実装され、その結果、前記直接チャンネルは、再生されるときに、前記修正されたアンビエンスチャンネル信号においてまたは前記修正された入力信号においてスピーチ成分より強く知覚することができるスピーチ成分を含む、先行する請求項のいずれかに記載の装置。
【請求項7】
前記信号修正器(20)は、前記スピーチ検出器(18)がスピーチ部分がある時間間隔を検出したときに前記少なくとも1つのアンビエンスチャンネルまたは前記入力信号をハイパスフィルタリングにかけるために実装され、前記ハイパスフィルタのカットオフ周波数は、400Hzおよび3500Hz間にある、先行する請求項のいずれかに記載の装置。
【請求項8】
前記スピーチ検出器(18)は、スピーチ信号成分の時間的発生を検出するために実装され、さらに
前記信号修正器(20)は、前記スピーチ信号成分の基本周波数を発見し、さらに、
前記修正されたアンビエンスチャンネル信号または前記修正された入力信号を得るために、前記アンビエンスチャンネルまたは前記入力信号においてトーンを前記基本周波数および高調波で選択的に減衰(43)するために実装される、先行する請求項のいずれかに記載の装置。
【請求項9】
前記スピーチ検出器(18)は、周波数バンドごとのスピーチ内容の尺度を発見するために実装され、さらに
前記前記信号修正器(20)は、前記尺度に従って前記アンビエンスチャンネルの対応するバンドを減衰ファクタによって減衰(72a、72b)するために実装され、より高い尺度はより高い減衰ファクタをもたらし、より低い尺度はより低い減衰ファクタをもたらす、先行する請求項のいずれかに記載の装置。
【請求項10】
前記信号修正器(20)は、
前記アンビエンス信号または前記入力信号をスペクトル表現に変換するための時間周波数ドメイン変換器(70)、
前記スペクトル表現を周波数選択的に可変的に減衰するための減衰器(72a、72b)、および
前記修正されたアンビエンスチャンネル信号または前記修正された入力信号を得るために、時間ドメインにおいて前記可変的に減衰されたスペクトル表現を変換するための周波数時間ドメイン変換器(73)を含む、請求項9に記載の装置。
【請求項11】
前記スピーチ検出器(18)は、
分析信号のスペクトル表現を提供するための時間周波数ドメイン変換器(42)、
前記分析信号のバンドごとの1つまたはいくつかの特徴(71a、71b)を計算するための手段、および
前記バンドごとの1つまたはいくつかの特徴の結合に基づいてスピーチ内容の尺度を計算するための手段(80)を含む、請求項9または請求項10に記載の装置。
【請求項12】
前記信号修正器(20)は、スペクトル平坦度(SFM)または4Hzの変調エネルギー(4HzME)を特徴として計算するために実装される、請求項11に記載の装置。
【請求項13】
前記スピーチ検出器(18)は、前記アンビエンスチャンネル信号(18c)を分析するために実装され、さらに、前記信号修正器(20)は、前記アンビエンスチャンネル信号(16)を修正するために実装される、先行する請求項のいずれかに記載の装置。
【請求項14】
前記スピーチ検出器(18)は、前記入力信号(18a)を分析するために実装され、さらに、前記信号修正器(20)は、前記スピーチ検出器(18)から制御情報(18d)に基づいて前記アンビエンスチャンネル信号(16)を修正するために実装される、請求項1ないし請求項12のいずれかに記載の装置。
【請求項15】
前記スピーチ検出器(18)は、前記入力信号(18a)を分析するために実装され、さらに、前記信号修正器(20)は、前記スピーチ検出器(18)から制御情報(18d)に基づいて前記入力信号を修正するために実装され、さらに、前記アップミキサ(14)は、前記修正された入力信号に基づいて前記修正されたアンビエンスチャンネル信号(16´)を発見するために実装されるアンビエンスチャンネル抽出器を含み、前記アップミキサ(14)は、前記信号修正器(20)の入力で前記入力信号(12)に基づいて前記直接チャンネル信号(15)を発見するためにさらに実装される、請求項1ないし請求項12のいずれかに記載の装置。
【請求項17】
前記スピーチ検出器(18)は、前記入力信号(18a)を分析するために実装され、さらに、スピーチ分析器(30)が、前記入力信号をスピーチ分析にかけるために備えられ、さらに
前記信号修正器(20)は、前記スピーチ検出器(18)から制御情報(18d)に基づいてさらに前記スピーチ分析器(30)からスピーチ分析情報(18e)に基づいて前記アンビエンスチャンネル信号(16)を修正するために実装される、請求項1ないし請求項12のいずれかに記載の装置。
【請求項18】
前記アップミキサ(14)は、マトリクスデコーダとして実装される、先行する請求項のいずれかに記載の装置。
【請求項19】
前記アップミキサ(14)は、アップミックス情報をさらに送信することはないが、前記入力信号(12)だけに基づいて、前記直接チャンネル信号(15)、前記アンビエンスチャンネル信号(16)または前記修正されたアンビエンスチャンネル信号(16´)を生成するブラインドアップミキサとして実装される、先行する請求項のいずれかに記載の装置。
【請求項20】
前記アップミキサ(14)は、前記直接チャンネル信号(15)、前記アンビエンスチャンネル信号(16)または前記修正されたアンビエンスチャンネル信号(16´)を生成するために、前記入力信号(12)の統計的分析を実行するために実装される、先行する請求項のいずれかに記載の装置。
【請求項21】
前記入力信号は、1チャンネルを含むモノラル信号であり、さらに、前記出力信号は、2以上のチャンネル信号を含むマルチチャンネル信号である、先行する請求項のいずれかに記載の装置。
【請求項22】
前記アップミキサ(14)は、入力信号として2つのステレオチャンネル信号を含むステレオ信号を得るために実装され、さらに、前記アップミキサ(14)は、前記ステレオチャンネル信号の相互相関計算に基づいて前記アンビエンスチャンネル信号(16)または前記修正されたアンビエンスチャンネル信号(16´)を実現するためにさらに実装される、請求項1ないし請求項20のいずれかに記載の装置。
【請求項23】
入力信号(12)の多数の入力チャンネルより多い多数の出力チャンネルを含むマルチチャンネル信号(10)を生成する方法であって、前記多数の入力チャンネルは1以上であり、前記方法は、
少なくとも直接信号チャンネルと少なくともアンビエンスチャンネルまたは修正されたアンビエンスチャンネルとを提供するために前記入力信号をアップミックスするステップ(14)、
スピーチ部分が発生する、前記入力信号、前記直接信号チャンネルまたは前記アンビエンス信号チャンネルのセクションを検出するステップ(18)、
前記スピーチ部分が減衰されまたは除去されている修正されたアンビエンス信号チャンネルまたは修正された入力信号を得るために、前記検出するステップ(18)において検出されたセクションに対応する前記アンビエンスチャンネルまたは前記入力信号のセクションを修正するステップ(20)であって、前記直接チャンネル信号において前記セクションは、より小さい程度に減衰されまたは少しも減衰されない、修正するステップ、および
前記直接チャンネルおよび前記修正されたアンビエンスチャンネルを用いる再生スキームでスピーカ信号を出力するステップ(22)を含む、方法。
【請求項24】
コンピュータ上で実行されるときに、請求項23に記載の方法を実行するためのプログラムを含むコンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5a】
【図5b】
【図5c】
【図6a】
【図6b】
【図6c】
【図6d】
【図7】
【図8】
【図2】
【図3】
【図4】
【図5a】
【図5b】
【図5c】
【図6a】
【図6b】
【図6c】
【図6d】
【図7】
【図8】
【公表番号】特表2011−501486(P2011−501486A)
【公表日】平成23年1月6日(2011.1.6)
【国際特許分類】
【出願番号】特願2010−528297(P2010−528297)
【出願日】平成20年10月1日(2008.10.1)
【国際出願番号】PCT/EP2008/008324
【国際公開番号】WO2009/049773
【国際公開日】平成21年4月23日(2009.4.23)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【Fターム(参考)】
【公表日】平成23年1月6日(2011.1.6)
【国際特許分類】
【出願日】平成20年10月1日(2008.10.1)
【国際出願番号】PCT/EP2008/008324
【国際公開番号】WO2009/049773
【国際公開日】平成21年4月23日(2009.4.23)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【Fターム(参考)】
[ Back to top ]